CN108399226A

CN108399226A - 一种用于数字图书馆的大数据清洗方法

Info

Publication number: CN108399226A
Application number: CN201810145624.0A
Authority: CN
Inventors: 杨良军
Original assignee: Anhui Qian Yun Degree Information Technology Co Ltd
Current assignee: Anhui Qian Yun Degree Information Technology Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-14

Abstract

本发明公开了一种用于数字图书馆的大数据清洗方法，涉及数据清洗技术领域。本发明包括如下步骤：定义数据清洗方案、对数据进行预处理、确定脏数据的类别及相应的清洗方案、缺失值填充、进行不一致数据修复、自动检测数据集中的属性错误、清理重复数据、干净数据回流至目标数据源。本发明通过用户自定义数据清洗方案、对数据进行预处理、缺失值填充、进行不一致数据修复、修改属性错误、清理重复数据，干净数据回流至目标数据源，提高数据在清洗过程中与用户之间的交互性，用户实时控制清洗过程，处理清洗过程中的异常，减少发生错误，提高效率，降低数据清理成本，提高数据的质量，保证数据挖掘数据的正确性和准确性，得到高质量的挖掘结果。

Description

一种用于数字图书馆的大数据清洗方法

技术领域

本发明属于数据清洗技术领域，特别是涉及一种用于数字图书馆的大数据清洗方法。

背景技术

随着大数据时代的来临，人们对智能信息的需求更加迫切，这为图书馆的管理和服务提出了新挑战。网络中丰富的电子版图书借助互联网和移动设备逐渐得到人们的青睐，传统的纸质版图书逐渐受到了冷落。在这种情况下，图书馆的建设和管理也要与时俱进，将自身丰富的数据资源和互联网的高度共享性充分结合，推进图书馆的数据库建设。

大数据挖掘与分析能够发现数据的相关关系，产生大数据价值的关系和规律。图书馆大数据来源广泛，动态无控制性，数据类型多，使数据淸洗成为其重要数据挖掘步骤，只有保证数据的质量，才能保证数据挖掘数据的正确性和准确性，得到高质量的挖掘结果。目前现有数据库系统，在批处理方式的数据清洗中用户不能主动参入，在清洗过程中与用户之间缺少交互性，用户无法控制过程，也无法处理过程中的异常，而且容易发生错误，效率不高，传统的系统难以满足用户的需求，且设备的成本过高，因此，提供一种用于数字图书馆的大数据清洗方法，解决上述问题。

发明内容

本发明的目的在于提供一种用于数字图书馆的大数据清洗方法，通过定义数据清洗方案、对数据进行预处理、缺失值填充、进行不一致数据修复、修改属性错误、清理重复数据，干净数据回流至目标数据源，解决了现有的数据库系统，在批处理方式的数据清洗中用户不能主动参入，在清洗过程中与用户之间缺少交互性，用户无法控制过程，也无法处理过程中的异常，而且容易发生错误，效率不高，传统的系统难以满足用户的需求，且设备的成本过高问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种用于数字图书馆的大数据清洗方法，包括图书馆大数据，清洗所述图书馆大数据的方法如下步骤：SS01根据图书馆大数据的需求分析、大数据类别分析、任务定义，获取数据清洗方案；SS02对数据进行预处理，检测不完整数据、逻辑错误数据、异常数据、冗余数据，并对检测结果进行统计；SS03确定脏数据的类别及相应的清洗方案；SS04缺失值填充，通过贝叶斯分类计算出概率最大的取值作为填充值，根据数据属性确定各填充值的概率，通过MapReduce取概率最大的填充值进行填充；SS05根据条件函数、格式函数、汇总分解函数定义完整性约束，通过完整性约束进行不一致数据修复；SS06利用基于欧几里德距离的聚类方法自动检测数据集中的属性错误，获得修改后的数据；SS07通过N-Gram算法清理重复数据；SS08干净数据回流至目标数据源。

进一步地，所述图书馆大数据包括用户行为数据、图书馆馆员的工作状态数据、图书馆的书目数据；其中，所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；其中，所述图书馆馆员的工作状态数据包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据。

进一步地，所述SS05中不一致数据的修复包括如下步骤：步骤一：不一致数据修复模块读取待修复数据文件，脏数据预处理子模块通过map函数建立待修复数据索引并进行预处理；步骤二：不一致数据检测与修复模块通过MapReduce中map算法对预处理后的数据进行修复。

进一步地，所述SS06中基于欧几里德距离的聚类方法采用GAG算法(基于组平均的层次聚类算法)，通过欧几里德距离来度量对象之间的相似程度，用最大距离来度量簇间距离；

欧几里德距离为：

其中，i＝(x_i1,x_i2,...x_in)和j＝(x_j1,x_j2,...x_jn)是两条有n个属性的记录；

最大簇间距离为：d_max(C_i,C_j)＝max_{p∈Ci,p′∈Cj}|p-p′|，其中，|p-p′|是指两条记录之间的距离。

本发明具有以下有益效果：

本发明通过用户自定义数据清洗方案、对数据进行预处理、缺失值填充、进行不一致数据修复、修改属性错误、清理重复数据，干净数据回流至目标数据源，提高数据在清洗过程中与用户之间的交互性，用户实时控制清洗过程，处理清洗过程中的异常，减少发生错误，提高效率，降低数据清理成本，提高数据的质量，保证数据挖掘数据的正确性和准确性，得到高质量的挖掘结果。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明用于数字图书馆的大数据清洗方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种用于数字图书馆的大数据清洗方法，包括图书馆大数据，清洗图书馆大数据的方法如下步骤：SS01根据图书馆大数据的需求分析、大数据类别分析、任务定义，获取数据清洗方案；SS02对数据进行预处理，检测不完整数据、逻辑错误数据、异常数据、冗余数据，并对检测结果进行统计；SS03确定脏数据的类别及相应的清洗方案；SS04缺失值填充，通过贝叶斯分类计算出概率最大的取值作为填充值，根据数据属性确定各填充值的概率，通过MapReduce取概率最大的填充值进行填充；SS05根据条件函数、格式函数、汇总分解函数定义完整性约束，通过完整性约束进行不一致数据修复；SS06利用基于欧几里德距离的聚类方法自动检测数据集中的属性错误，获得修改后的数据；SS07通过N-Gram算法清理重复数据；SS08干净数据回流至目标数据源，降低数据清理成本，提高数据的质量，保证数据挖掘数据的正确性和准确性，得到高质量的挖掘结果。

其中，图书馆大数据包括用户行为数据、图书馆馆员的工作状态数据、图书馆的书目数据；其中，用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；其中，图书馆馆员的工作状态数据包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据，数据量大，保证数据的完整性。

其中，SS05中不一致数据的修复包括如下步骤：步骤一：不一致数据修复模块读取待修复数据文件，脏数据预处理子模块通过map函数建立待修复数据索引并进行预处理；步骤二：不一致数据检测与修复模块通过MapReduce中map算法对预处理后的数据进行修复，有效避免不一致数据对数据分析造成的影响。

其中，SS06中基于欧几里德距离的聚类方法采用GAG算法(基于组平均的层次聚类算法)，通过欧几里德距离来度量对象之间的相似程度，用最大距离来度量簇间距离；

欧几里德距离为：

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种用于数字图书馆的大数据清洗方法，其特征在于，包括图书馆大数据，清洗所述图书馆大数据的方法如下步骤：

SS01 根据图书馆大数据的需求分析、大数据类别分析、任务定义，获取数据清洗方案；

SS02 对数据进行预处理，检测不完整数据、逻辑错误数据、异常数据、冗余数据，并对检测结果进行统计；

SS03 确定脏数据的类别及相应的清洗方案；

SS04 缺失值填充，通过贝叶斯分类计算出概率最大的取值作为填充值，根据数据属性确定各填充值的概率，通过MapReduce取概率最大的填充值进行填充；

SS05 根据条件函数、格式函数、汇总分解函数定义完整性约束，通过完整性约束进行不一致数据修复；

SS06 利用基于欧几里德距离的聚类方法自动检测数据集中的属性错误，获得修改后的数据；

SS07 通过N-Gram算法清理重复数据；

SS08 干净数据回流至目标数据源。

2.根据权利要求1所述的一种用于数字图书馆的大数据清洗方法，其特征在于，所述图书馆大数据包括用户行为数据、图书馆馆员的工作状态数据、图书馆的书目数据；

其中，所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息；

其中，所述图书馆馆员的工作状态数据包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据。

3.根据权利要求1所述的一种用于数字图书馆的大数据清洗方法，其特征在于，所述SS05中不一致数据的修复包括如下步骤：

步骤一：不一致数据修复模块读取待修复数据文件，脏数据预处理子模块通过map函数建立待修复数据索引并进行预处理；

步骤二：不一致数据检测与修复模块通过MapReduce中map算法对预处理后的数据进行修复。

4.根据权利要求1所述的一种用于数字图书馆的大数据清洗方法，其特征在于，所述SS06中基于欧几里德距离的聚类方法采用GAG算法，通过欧几里德距离来度量对象之间的相似程度，用最大距离来度量簇间距离；

所述欧几里德距离为：

最大簇间距离为：

d_max(C_i,C_j)＝max_{p∈Ci,p′∈Cj}|p-p′|

其中，|p-p′|是指两条记录之间的距离。