CN108399229A - 一种基于大数据的数字图书馆数据库建设方法 - Google Patents

一种基于大数据的数字图书馆数据库建设方法 Download PDF

Info

Publication number
CN108399229A
CN108399229A CN201810145922.XA CN201810145922A CN108399229A CN 108399229 A CN108399229 A CN 108399229A CN 201810145922 A CN201810145922 A CN 201810145922A CN 108399229 A CN108399229 A CN 108399229A
Authority
CN
China
Prior art keywords
data
library
information
reader
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810145922.XA
Other languages
English (en)
Inventor
杨良军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Qian Yun Degree Information Technology Co Ltd
Original Assignee
Anhui Qian Yun Degree Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Qian Yun Degree Information Technology Co Ltd filed Critical Anhui Qian Yun Degree Information Technology Co Ltd
Priority to CN201810145922.XA priority Critical patent/CN108399229A/zh
Publication of CN108399229A publication Critical patent/CN108399229A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的数字图书馆数据库建设方法,涉及图书馆管理技术领域。本发明包括采集用户行为数据、图书馆的工作状态信息、图书馆的书目数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;过滤垃圾数据,建立图书馆智慧大数据库。本发明通过采集非结构化数据、结构化数据、半结构化数据信息并将其存储至智慧大数据库,实时更新,采用Hadoop分布式计算架构,利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制,提高图书馆服务体系的组织水平。

Description

一种基于大数据的数字图书馆数据库建设方法
技术领域
本发明属于图书馆管理技术领域,特别是涉及一种基于大数据的数字图书馆数据库建设方法。
背景技术
随着大数据时代的来临,人们对智能信息的需求更加迫切,这为图书馆特别是大学图书馆的管理和服务提出了新挑战。网络中丰富的电子版图书借助互联网和移动设备逐渐得到人们的青睐,传统的纸质版图书逐渐受到了冷落。在这种情况下,图书馆的建设和管理也要与时俱进,将自身丰富的数据资源和互联网的高度共享性充分结合,推进图书馆的数据库建设。
数字图书馆具有信息资源数字化、信息传递网络化、信息利用共享化、信息提供知识化、信息实体虚拟化等特点。因而,数字图书馆信息服务能力的衡量,也不再以馆藏作为评估标准,而是更多的以其信息资源的有效获取为依据,这就要求数字图书馆的信息服务必须针对市场信息需求进行信息产品的开发和服务。但是近年来,随着信息技术的飞快发展,我国图书馆的数据库建设已经逐渐落后于电子图书的发展,在管理和服务水平上也逐渐难以满足大数据时代人们的阅读方式和要求。大数据背景下的图书馆数据库建设要求保证图书馆数据库资源的完整、确保图书馆数据库资源的准确、统一图书馆数据库资源的标准。现提供一种基于大数据的数字图书馆数据库建设方法,利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息。
发明内容
本发明的目的在于提供一种基于大数据的数字图书馆数据库建设方法,通过在大数据背景下建设图书馆数据库,利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息,解决现有的图书馆数据库资源的完整性、资源的准确性差,图书馆数据库资源的标准不统一,难以满足大数据时代人们的阅读方式和要求,大数据利用率低的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于大数据的数字图书馆数据库建设方法,包括如下步骤:SS01采集非结构化数据:通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息;SS02采集结构化数据:通过图书馆采购图书资料数据采集图书馆的书目数据;SS03采集半结构化数据:通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;SS04通过数据清洗过滤与用户行为数据无关的垃圾数据;SS05建立图书馆智慧大数据库:将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新;SS06采用Hadoop分布式计算架构,对数据进行挖掘使用。
进一步地,所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据;所述读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。
进一步地,所述图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。
进一步地,数据清洗包括如下步骤:步骤一:根据用户行为发生的时间、地点、方式、作用对象和结果进行定义,按特征值对用户行为数据进行分组处理,避免海量计算;步骤二:采用spark集群进行分布式的并行计算,完成数据清洗。
进一步地,步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤:采用scala语言进行实现并运行在spark集群上;S01提取步骤一中的特征值;S02以特征值为key,将SS01中采集的用户行为数据进行合并,得到分行数据;S03对分行数据进行分组;S04按组进行过滤,对重复的数据组内数据进行复杂字符串的匹配;S05完成数据清洗。
进一步地,基于所述Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层;所述大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据;所述数据过滤与解析层位于大数据资源层上层,完成对图书馆大数据库资源的提取、数据清洗,过滤大数据噪音;所述用户层针对各级用户提供基于工具的服务应用;所述数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估,完成对用户层的反馈控制、资源调度。
本发明具有以下有益效果:
本发明通过采集非结构化数据、结构化数据、半结构化数据信息并将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库,实时更新,采用Hadoop分布式计算架构,利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制,提高图书馆服务体系的组织水平、推动行业发展与制度建设。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于大数据的数字图书馆数据库的结构框架示意图。
图2为本发明基于大数据的数字图书馆数据库建设方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-2所示,本发明为一种基于大数据的数字图书馆数据库建设方法,包括如下步骤:SS01采集非结构化数据:通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息;SS02采集结构化数据:通过图书馆采购图书资料数据采集图书馆的书目数据;SS03采集半结构化数据:通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;SS04通过数据清洗过滤与用户行为数据无关的垃圾数据;SS05建立图书馆智慧大数据库:将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新;SS06采用Hadoop分布式计算架构,对数据进行挖掘使用,利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制。
其中,用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据;读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。
其中,图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。
其中,数据清洗包括如下步骤:步骤一:根据用户行为发生的时间、地点、方式、作用对象和结果进行定义,按特征值对用户行为数据进行分组处理,避免海量计算;步骤二:采用spark集群进行分布式的并行计算,完成数据清洗,提高数据质量。
其中,步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤:采用scala语言进行实现并运行在spark集群上;S01提取步骤一中的特征值;S02以特征值为key,将SS01中采集的用户行为数据进行合并,得到分行数据;S03对分行数据进行分组;S04按组进行过滤,对重复的数据组内数据进行复杂字符串的匹配;S05完成数据清洗。
其中,基于Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层;大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据;数据过滤与解析层位于大数据资源层上层,完成对图书馆大数据库资源的提取、数据清洗,过滤大数据噪音;用户层针对各级用户提供基于工具的服务应用;数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估,完成对用户层的反馈控制、资源调度。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种基于大数据的数字图书馆数据库建设方法,其特征在于,包括如下步骤:
SS01采集非结构化数据:通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息;
SS02采集结构化数据:通过图书馆采购图书资料数据采集图书馆的书目数据;
SS03采集半结构化数据:通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;
SS04通过数据清洗过滤与用户行为数据无关的垃圾数据;
SS05建立图书馆智慧大数据库:将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新;
SS06采用Hadoop分布式计算架构,对数据进行挖掘使用。
2.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于:
所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据;
所述读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。
3.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,所述图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。
4.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,所述数据清洗包括如下步骤:
步骤一:根据用户行为发生的时间、地点、方式、作用对象和结果进行定义,按特征值对用户行为数据进行分组处理;避免海量计算
步骤二:采用spark集群进行分布式的并行计算,完成数据清洗。
5.根据权利要求4所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,所述步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤:
采用scala语言进行实现并运行在spark集群上;
S01提取步骤一中的特征值;
S02以特征值为key,将SS01中采集的用户行为数据进行合并,得到分行数据;
S03对分行数据进行分组;
S04按组进行过滤,对重复的数据组内数据进行复杂字符串的匹配;
S05完成数据清洗。
6.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,基于所述Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层;
所述大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据;
所述数据过滤与解析层位于大数据资源层上层,完成对图书馆大数据库资源的提取、数据清洗,过滤大数据噪音;
所述用户层针对各级用户提供基于工具的服务应用;
所述数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估,完成对用户层的反馈控制、资源调度。
CN201810145922.XA 2018-02-12 2018-02-12 一种基于大数据的数字图书馆数据库建设方法 Withdrawn CN108399229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810145922.XA CN108399229A (zh) 2018-02-12 2018-02-12 一种基于大数据的数字图书馆数据库建设方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810145922.XA CN108399229A (zh) 2018-02-12 2018-02-12 一种基于大数据的数字图书馆数据库建设方法

Publications (1)

Publication Number Publication Date
CN108399229A true CN108399229A (zh) 2018-08-14

Family

ID=63096559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810145922.XA Withdrawn CN108399229A (zh) 2018-02-12 2018-02-12 一种基于大数据的数字图书馆数据库建设方法

Country Status (1)

Country Link
CN (1) CN108399229A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222022A (zh) * 2019-06-05 2019-09-10 武汉剑心科技有限公司 智能算法优化的数据图书馆建设方法
CN110929983A (zh) * 2019-10-17 2020-03-27 辽宁中医药大学 一种用于阅读资源和服务生命周期的管理方法和系统
CN111639209A (zh) * 2020-05-20 2020-09-08 广东小天才科技有限公司 一种书本内容的搜索方法、终端设备及存储介质
CN113449115A (zh) * 2021-03-22 2021-09-28 平安科技(深圳)有限公司 佛学数据收集方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222022A (zh) * 2019-06-05 2019-09-10 武汉剑心科技有限公司 智能算法优化的数据图书馆建设方法
CN110929983A (zh) * 2019-10-17 2020-03-27 辽宁中医药大学 一种用于阅读资源和服务生命周期的管理方法和系统
CN110929983B (zh) * 2019-10-17 2023-10-20 辽宁中医药大学 一种用于阅读资源和服务生命周期的管理方法和系统
CN111639209A (zh) * 2020-05-20 2020-09-08 广东小天才科技有限公司 一种书本内容的搜索方法、终端设备及存储介质
CN111639209B (zh) * 2020-05-20 2023-12-22 广东小天才科技有限公司 一种书本内容的搜索方法、终端设备及存储介质
CN113449115A (zh) * 2021-03-22 2021-09-28 平安科技(深圳)有限公司 佛学数据收集方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Saluveer et al. Methodological framework for producing national tourism statistics from mobile positioning data
Kumar et al. The journal of heritage tourism: a bibliometric overview since its inception
Ahas et al. Using mobile positioning data to model locations meaningful to users of mobile phones
US20200272740A1 (en) Anomalous activity detection in multi-provider transactional environments
Lee et al. Measuring geographical regularities of crowd behaviors for Twitter-based geo-social event detection
CN108399229A (zh) 一种基于大数据的数字图书馆数据库建设方法
Magistro et al. Anthropological perspectives and policy implications of climate change research
US20140278212A1 (en) Location-based tracking system
CN106446228A (zh) 一种web页面数据的采集分析方法及装置
Krupa et al. Mapping the stakeholders: Using social network analysis to increase the legitimacy and transparency of participatory scenario planning
AU2016259424A1 (en) Clickstream visual analytics based on maximal sequential patterns
US9607091B2 (en) Methods, systems, and computer program products for implementing intelligent agent services
CN111949834A (zh) 选址方法和选址平台
CN110020178A (zh) 兴趣点识别方法、装置、设备及存储介质
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
Shindarev et al. Approach to identifying of employees profiles in websites of social networks aimed to analyze social engineering vulnerabilities
Saikia et al. Land-use/land-cover change and fragmentation in the Nameri Tiger Reserve, India
CN105408894B (zh) 一种用户身份类别确定方法以及装置
Duarte et al. A conceptual framework for assessing digital cities and the Brazilian index of digital cities: Analysis of Curitiba, the first-ranked city
CN113010578B (zh) 社区数据分析方法、装置、社区智能交互平台及存储介质
Mikusiński et al. Integrating ecological, social and cultural dimensions in the implementation of the landscape convention
Singh et al. Comparison analysis of web usage mining using pattern recognition techniques
Warf Geographies of the Internet
Pekerşen et al. The perceptions of a local community on tourism development: The case of Akyaka as a Cittaslow
Kar et al. An approach to detect travel patterns using smartphone sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180814