CN108399229A

CN108399229A - 一种基于大数据的数字图书馆数据库建设方法

Info

Publication number: CN108399229A
Application number: CN201810145922.XA
Authority: CN
Inventors: 杨良军
Original assignee: Anhui Qian Yun Degree Information Technology Co Ltd
Current assignee: Anhui Qian Yun Degree Information Technology Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-14

Abstract

本发明公开了一种基于大数据的数字图书馆数据库建设方法，涉及图书馆管理技术领域。本发明包括采集用户行为数据、图书馆的工作状态信息、图书馆的书目数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；过滤垃圾数据，建立图书馆智慧大数据库。本发明通过采集非结构化数据、结构化数据、半结构化数据信息并将其存储至智慧大数据库，实时更新，采用Hadoop分布式计算架构，利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的数据信息，寻找他们的隐性诉求进而改进图书馆的服务，达到图书馆资源、服务与读者需求的双向理想控制，提高图书馆服务体系的组织水平。

Description

一种基于大数据的数字图书馆数据库建设方法

技术领域

本发明属于图书馆管理技术领域，特别是涉及一种基于大数据的数字图书馆数据库建设方法。

背景技术

随着大数据时代的来临，人们对智能信息的需求更加迫切，这为图书馆特别是大学图书馆的管理和服务提出了新挑战。网络中丰富的电子版图书借助互联网和移动设备逐渐得到人们的青睐，传统的纸质版图书逐渐受到了冷落。在这种情况下，图书馆的建设和管理也要与时俱进，将自身丰富的数据资源和互联网的高度共享性充分结合，推进图书馆的数据库建设。

数字图书馆具有信息资源数字化、信息传递网络化、信息利用共享化、信息提供知识化、信息实体虚拟化等特点。因而，数字图书馆信息服务能力的衡量，也不再以馆藏作为评估标准，而是更多的以其信息资源的有效获取为依据，这就要求数字图书馆的信息服务必须针对市场信息需求进行信息产品的开发和服务。但是近年来，随着信息技术的飞快发展，我国图书馆的数据库建设已经逐渐落后于电子图书的发展，在管理和服务水平上也逐渐难以满足大数据时代人们的阅读方式和要求。大数据背景下的图书馆数据库建设要求保证图书馆数据库资源的完整、确保图书馆数据库资源的准确、统一图书馆数据库资源的标准。现提供一种基于大数据的数字图书馆数据库建设方法，利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息。

发明内容

本发明的目的在于提供一种基于大数据的数字图书馆数据库建设方法，通过在大数据背景下建设图书馆数据库，利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息，解决现有的图书馆数据库资源的完整性、资源的准确性差，图书馆数据库资源的标准不统一，难以满足大数据时代人们的阅读方式和要求，大数据利用率低的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于大数据的数字图书馆数据库建设方法，包括如下步骤：SS01采集非结构化数据：通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息；SS02采集结构化数据：通过图书馆采购图书资料数据采集图书馆的书目数据；SS03采集半结构化数据：通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；SS04通过数据清洗过滤与用户行为数据无关的垃圾数据；SS05建立图书馆智慧大数据库：将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新；SS06采用Hadoop分布式计算架构，对数据进行挖掘使用。

进一步地，所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据；所述读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。

进一步地，所述图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。

进一步地，数据清洗包括如下步骤：步骤一：根据用户行为发生的时间、地点、方式、作用对象和结果进行定义，按特征值对用户行为数据进行分组处理，避免海量计算；步骤二：采用spark集群进行分布式的并行计算，完成数据清洗。

进一步地，步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤：采用scala语言进行实现并运行在spark集群上；S01提取步骤一中的特征值；S02以特征值为key，将SS01中采集的用户行为数据进行合并，得到分行数据；S03对分行数据进行分组；S04按组进行过滤，对重复的数据组内数据进行复杂字符串的匹配；S05完成数据清洗。

进一步地，基于所述Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层；所述大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据；所述数据过滤与解析层位于大数据资源层上层，完成对图书馆大数据库资源的提取、数据清洗，过滤大数据噪音；所述用户层针对各级用户提供基于工具的服务应用；所述数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估，完成对用户层的反馈控制、资源调度。

本发明具有以下有益效果：

本发明通过采集非结构化数据、结构化数据、半结构化数据信息并将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库，实时更新，采用Hadoop分布式计算架构，利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息，寻找他们的隐性诉求进而改进图书馆的服务，达到图书馆资源、服务与读者需求的双向理想控制，提高图书馆服务体系的组织水平、推动行业发展与制度建设。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于大数据的数字图书馆数据库的结构框架示意图。

图2为本发明基于大数据的数字图书馆数据库建设方法的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-2所示，本发明为一种基于大数据的数字图书馆数据库建设方法，包括如下步骤：SS01采集非结构化数据：通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息；SS02采集结构化数据：通过图书馆采购图书资料数据采集图书馆的书目数据；SS03采集半结构化数据：通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；SS04通过数据清洗过滤与用户行为数据无关的垃圾数据；SS05建立图书馆智慧大数据库：将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新；SS06采用Hadoop分布式计算架构，对数据进行挖掘使用，利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化、非结构化数据信息，寻找他们的隐性诉求进而改进图书馆的服务，达到图书馆资源、服务与读者需求的双向理想控制。

其中，用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据；读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。

其中，图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。

其中，数据清洗包括如下步骤：步骤一：根据用户行为发生的时间、地点、方式、作用对象和结果进行定义，按特征值对用户行为数据进行分组处理，避免海量计算；步骤二：采用spark集群进行分布式的并行计算，完成数据清洗，提高数据质量。

其中，步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤：采用scala语言进行实现并运行在spark集群上；S01提取步骤一中的特征值；S02以特征值为key，将SS01中采集的用户行为数据进行合并，得到分行数据；S03对分行数据进行分组；S04按组进行过滤，对重复的数据组内数据进行复杂字符串的匹配；S05完成数据清洗。

其中，基于Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层；大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据；数据过滤与解析层位于大数据资源层上层，完成对图书馆大数据库资源的提取、数据清洗，过滤大数据噪音；用户层针对各级用户提供基于工具的服务应用；数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估，完成对用户层的反馈控制、资源调度。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于大数据的数字图书馆数据库建设方法，其特征在于，包括如下步骤：

SS01采集非结构化数据：通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息；

SS02采集结构化数据：通过图书馆采购图书资料数据采集图书馆的书目数据；

SS03采集半结构化数据：通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；

SS04通过数据清洗过滤与用户行为数据无关的垃圾数据；

SS05建立图书馆智慧大数据库：将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新；

SS06采用Hadoop分布式计算架构，对数据进行挖掘使用。

2.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法，其特征在于：

所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据；

所述读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。

3.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法，其特征在于，所述图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。

4.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法，其特征在于，所述数据清洗包括如下步骤：

步骤一：根据用户行为发生的时间、地点、方式、作用对象和结果进行定义，按特征值对用户行为数据进行分组处理；避免海量计算

步骤二：采用spark集群进行分布式的并行计算，完成数据清洗。

5.根据权利要求4所述的一种基于大数据的数字图书馆数据库建设方法，其特征在于，所述步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤：

采用scala语言进行实现并运行在spark集群上；

S01提取步骤一中的特征值；

S02以特征值为key，将SS01中采集的用户行为数据进行合并，得到分行数据；

S03对分行数据进行分组；

S04按组进行过滤，对重复的数据组内数据进行复杂字符串的匹配；

S05完成数据清洗。

6.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法，其特征在于，基于所述Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层；

所述大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据；

所述数据过滤与解析层位于大数据资源层上层，完成对图书馆大数据库资源的提取、数据清洗，过滤大数据噪音；

所述用户层针对各级用户提供基于工具的服务应用；

所述数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估，完成对用户层的反馈控制、资源调度。