CN108399226A - 一种用于数字图书馆的大数据清洗方法 - Google Patents
一种用于数字图书馆的大数据清洗方法 Download PDFInfo
- Publication number
- CN108399226A CN108399226A CN201810145624.0A CN201810145624A CN108399226A CN 108399226 A CN108399226 A CN 108399226A CN 201810145624 A CN201810145624 A CN 201810145624A CN 108399226 A CN108399226 A CN 108399226A
- Authority
- CN
- China
- Prior art keywords
- data
- library
- information
- cleaning
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Abstract
本发明公开了一种用于数字图书馆的大数据清洗方法,涉及数据清洗技术领域。本发明包括如下步骤:定义数据清洗方案、对数据进行预处理、确定脏数据的类别及相应的清洗方案、缺失值填充、进行不一致数据修复、自动检测数据集中的属性错误、清理重复数据、干净数据回流至目标数据源。本发明通过用户自定义数据清洗方案、对数据进行预处理、缺失值填充、进行不一致数据修复、修改属性错误、清理重复数据,干净数据回流至目标数据源,提高数据在清洗过程中与用户之间的交互性,用户实时控制清洗过程,处理清洗过程中的异常,减少发生错误,提高效率,降低数据清理成本,提高数据的质量,保证数据挖掘数据的正确性和准确性,得到高质量的挖掘结果。
Description
技术领域
本发明属于数据清洗技术领域,特别是涉及一种用于数字图书馆的大数据清洗方法。
背景技术
随着大数据时代的来临,人们对智能信息的需求更加迫切,这为图书馆的管理和服务提出了新挑战。网络中丰富的电子版图书借助互联网和移动设备逐渐得到人们的青睐,传统的纸质版图书逐渐受到了冷落。在这种情况下,图书馆的建设和管理也要与时俱进,将自身丰富的数据资源和互联网的高度共享性充分结合,推进图书馆的数据库建设。
大数据挖掘与分析能够发现数据的相关关系,产生大数据价值的关系和规律。图书馆大数据来源广泛,动态无控制性,数据类型多,使数据淸洗成为其重要数据挖掘步骤,只有保证数据的质量,才能保证数据挖掘数据的正确性和准确性,得到高质量的挖掘结果。目前现有数据库系统,在批处理方式的数据清洗中用户不能主动参入,在清洗过程中与用户之间缺少交互性,用户无法控制过程,也无法处理过程中的异常,而且容易发生错误,效率不高,传统的系统难以满足用户的需求,且设备的成本过高,因此,提供一种用于数字图书馆的大数据清洗方法,解决上述问题。
发明内容
本发明的目的在于提供一种用于数字图书馆的大数据清洗方法,通过定义数据清洗方案、对数据进行预处理、缺失值填充、进行不一致数据修复、修改属性错误、清理重复数据,干净数据回流至目标数据源,解决了现有的数据库系统,在批处理方式的数据清洗中用户不能主动参入,在清洗过程中与用户之间缺少交互性,用户无法控制过程,也无法处理过程中的异常,而且容易发生错误,效率不高,传统的系统难以满足用户的需求,且设备的成本过高问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种用于数字图书馆的大数据清洗方法,包括图书馆大数据,清洗所述图书馆大数据的方法如下步骤:SS01根据图书馆大数据的需求分析、大数据类别分析、任务定义,获取数据清洗方案;SS02对数据进行预处理,检测不完整数据、逻辑错误数据、异常数据、冗余数据,并对检测结果进行统计;SS03确定脏数据的类别及相应的清洗方案;SS04缺失值填充,通过贝叶斯分类计算出概率最大的取值作为填充值,根据数据属性确定各填充值的概率,通过MapReduce取概率最大的填充值进行填充;SS05根据条件函数、格式函数、汇总分解函数定义完整性约束,通过完整性约束进行不一致数据修复;SS06利用基于欧几里德距离的聚类方法自动检测数据集中的属性错误,获得修改后的数据;SS07通过N-Gram算法清理重复数据;SS08干净数据回流至目标数据源。
进一步地,所述图书馆大数据包括用户行为数据、图书馆馆员的工作状态数据、图书馆的书目数据;其中,所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;其中,所述图书馆馆员的工作状态数据包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据。
进一步地,所述SS05中不一致数据的修复包括如下步骤:步骤一:不一致数据修复模块读取待修复数据文件,脏数据预处理子模块通过map函数建立待修复数据索引并进行预处理;步骤二:不一致数据检测与修复模块通过MapReduce中map算法对预处理后的数据进行修复。
进一步地,所述SS06中基于欧几里德距离的聚类方法采用GAG算法(基于组平均的层次聚类算法),通过欧几里德距离来度量对象之间的相似程度,用最大距离来度量簇间距离;
欧几里德距离为:
其中,i=(xi1,xi2,...xin)和j=(xj1,xj2,...xjn)是两条有n个属性的记录;
最大簇间距离为:dmax(Ci,Cj)=maxp∈Ci,p′∈Cj|p-p′|,其中,|p-p′|是指两条记录之间的距离。
本发明具有以下有益效果:
本发明通过用户自定义数据清洗方案、对数据进行预处理、缺失值填充、进行不一致数据修复、修改属性错误、清理重复数据,干净数据回流至目标数据源,提高数据在清洗过程中与用户之间的交互性,用户实时控制清洗过程,处理清洗过程中的异常,减少发生错误,提高效率,降低数据清理成本,提高数据的质量,保证数据挖掘数据的正确性和准确性,得到高质量的挖掘结果。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用于数字图书馆的大数据清洗方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种用于数字图书馆的大数据清洗方法,包括图书馆大数据,清洗图书馆大数据的方法如下步骤:SS01根据图书馆大数据的需求分析、大数据类别分析、任务定义,获取数据清洗方案;SS02对数据进行预处理,检测不完整数据、逻辑错误数据、异常数据、冗余数据,并对检测结果进行统计;SS03确定脏数据的类别及相应的清洗方案;SS04缺失值填充,通过贝叶斯分类计算出概率最大的取值作为填充值,根据数据属性确定各填充值的概率,通过MapReduce取概率最大的填充值进行填充;SS05根据条件函数、格式函数、汇总分解函数定义完整性约束,通过完整性约束进行不一致数据修复;SS06利用基于欧几里德距离的聚类方法自动检测数据集中的属性错误,获得修改后的数据;SS07通过N-Gram算法清理重复数据;SS08干净数据回流至目标数据源,降低数据清理成本,提高数据的质量,保证数据挖掘数据的正确性和准确性,得到高质量的挖掘结果。
其中,图书馆大数据包括用户行为数据、图书馆馆员的工作状态数据、图书馆的书目数据;其中,用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;其中,图书馆馆员的工作状态数据包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据,数据量大,保证数据的完整性。
其中,SS05中不一致数据的修复包括如下步骤:步骤一:不一致数据修复模块读取待修复数据文件,脏数据预处理子模块通过map函数建立待修复数据索引并进行预处理;步骤二:不一致数据检测与修复模块通过MapReduce中map算法对预处理后的数据进行修复,有效避免不一致数据对数据分析造成的影响。
其中,SS06中基于欧几里德距离的聚类方法采用GAG算法(基于组平均的层次聚类算法),通过欧几里德距离来度量对象之间的相似程度,用最大距离来度量簇间距离;
欧几里德距离为:
其中,i=(xi1,xi2,...xin)和j=(xj1,xj2,...xjn)是两条有n个属性的记录;
最大簇间距离为:dmax(Ci,Cj)=maxp∈Ci,p′∈Cj|p-p′|,其中,|p-p′|是指两条记录之间的距离。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种用于数字图书馆的大数据清洗方法,其特征在于,包括图书馆大数据,清洗所述图书馆大数据的方法如下步骤:
SS01 根据图书馆大数据的需求分析、大数据类别分析、任务定义,获取数据清洗方案;
SS02 对数据进行预处理,检测不完整数据、逻辑错误数据、异常数据、冗余数据,并对检测结果进行统计;
SS03 确定脏数据的类别及相应的清洗方案;
SS04 缺失值填充,通过贝叶斯分类计算出概率最大的取值作为填充值,根据数据属性确定各填充值的概率,通过MapReduce取概率最大的填充值进行填充;
SS05 根据条件函数、格式函数、汇总分解函数定义完整性约束,通过完整性约束进行不一致数据修复;
SS06 利用基于欧几里德距离的聚类方法自动检测数据集中的属性错误,获得修改后的数据;
SS07 通过N-Gram算法清理重复数据;
SS08 干净数据回流至目标数据源。
2.根据权利要求1所述的一种用于数字图书馆的大数据清洗方法,其特征在于,所述图书馆大数据包括用户行为数据、图书馆馆员的工作状态数据、图书馆的书目数据;
其中,所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据、读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;
其中,所述图书馆馆员的工作状态数据包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据。
3.根据权利要求1所述的一种用于数字图书馆的大数据清洗方法,其特征在于,所述SS05中不一致数据的修复包括如下步骤:
步骤一:不一致数据修复模块读取待修复数据文件,脏数据预处理子模块通过map函数建立待修复数据索引并进行预处理;
步骤二:不一致数据检测与修复模块通过MapReduce中map算法对预处理后的数据进行修复。
4.根据权利要求1所述的一种用于数字图书馆的大数据清洗方法,其特征在于,所述SS06中基于欧几里德距离的聚类方法采用GAG算法,通过欧几里德距离来度量对象之间的相似程度,用最大距离来度量簇间距离;
所述欧几里德距离为:
其中,i=(xi1,xi2,...xin)和j=(xj1,xj2,...xjn)是两条有n个属性的记录;
最大簇间距离为:
dmax(Ci,Cj)=maxp∈Ci,p′∈Cj|p-p′|
其中,|p-p′|是指两条记录之间的距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810145624.0A CN108399226A (zh) | 2018-02-12 | 2018-02-12 | 一种用于数字图书馆的大数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810145624.0A CN108399226A (zh) | 2018-02-12 | 2018-02-12 | 一种用于数字图书馆的大数据清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108399226A true CN108399226A (zh) | 2018-08-14 |
Family
ID=63095285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810145624.0A Withdrawn CN108399226A (zh) | 2018-02-12 | 2018-02-12 | 一种用于数字图书馆的大数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399226A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542885A (zh) * | 2018-11-19 | 2019-03-29 | 北京锐安科技有限公司 | 数据清洗方法、装置、设备及存储介质 |
CN109684393A (zh) * | 2018-12-11 | 2019-04-26 | 中科恒运股份有限公司 | 数据采集方法、计算机可读存储介质及终端设备 |
CN109746202A (zh) * | 2019-01-11 | 2019-05-14 | 安徽爱吉泰克科技有限公司 | 一种档案智慧清洁除酸消毒保护方法 |
CN109947752A (zh) * | 2019-01-28 | 2019-06-28 | 西南民族大学 | 一种基于DeepDive的自动数据清洗方法 |
CN111026739A (zh) * | 2019-11-26 | 2020-04-17 | 智器云南京信息科技有限公司 | 批量数据清洗的方法及装置、计算机设备和存储介质 |
CN111625529A (zh) * | 2020-05-29 | 2020-09-04 | 清华大学 | 提高数据可视化质量的方法、装置和计算机可读存储介质 |
CN112883096A (zh) * | 2021-03-11 | 2021-06-01 | 广东工业大学 | 一种数据预处理方法 |
CN113704338A (zh) * | 2021-08-26 | 2021-11-26 | 廊坊市新思维科技有限公司 | 一种超声数据缺陷辅助评定算法 |
CN112883096B (zh) * | 2021-03-11 | 2024-04-30 | 广东工业大学 | 一种数据预处理方法 |
-
2018
- 2018-02-12 CN CN201810145624.0A patent/CN108399226A/zh not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542885A (zh) * | 2018-11-19 | 2019-03-29 | 北京锐安科技有限公司 | 数据清洗方法、装置、设备及存储介质 |
CN109684393A (zh) * | 2018-12-11 | 2019-04-26 | 中科恒运股份有限公司 | 数据采集方法、计算机可读存储介质及终端设备 |
CN109746202A (zh) * | 2019-01-11 | 2019-05-14 | 安徽爱吉泰克科技有限公司 | 一种档案智慧清洁除酸消毒保护方法 |
CN109947752A (zh) * | 2019-01-28 | 2019-06-28 | 西南民族大学 | 一种基于DeepDive的自动数据清洗方法 |
CN111026739A (zh) * | 2019-11-26 | 2020-04-17 | 智器云南京信息科技有限公司 | 批量数据清洗的方法及装置、计算机设备和存储介质 |
CN111026739B (zh) * | 2019-11-26 | 2023-08-29 | 智器云南京信息科技有限公司 | 批量数据清洗的方法及装置、计算机设备和存储介质 |
CN111625529A (zh) * | 2020-05-29 | 2020-09-04 | 清华大学 | 提高数据可视化质量的方法、装置和计算机可读存储介质 |
CN111625529B (zh) * | 2020-05-29 | 2023-11-14 | 清华大学 | 提高数据可视化质量的方法、装置和计算机可读存储介质 |
CN112883096A (zh) * | 2021-03-11 | 2021-06-01 | 广东工业大学 | 一种数据预处理方法 |
CN112883096B (zh) * | 2021-03-11 | 2024-04-30 | 广东工业大学 | 一种数据预处理方法 |
CN113704338A (zh) * | 2021-08-26 | 2021-11-26 | 廊坊市新思维科技有限公司 | 一种超声数据缺陷辅助评定算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399226A (zh) | 一种用于数字图书馆的大数据清洗方法 | |
US11102224B2 (en) | Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures | |
Jin | Determinants of efficient risk allocation in privately financed public infrastructure projects in Australia | |
US9590880B2 (en) | Dynamic collection analysis and reporting of telemetry data | |
US8990241B2 (en) | System and method for recommending queries related to trending topics based on a received query | |
AU2013329525C1 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
CN103186600B (zh) | 互联网舆情的专题分析方法和装置 | |
CN107943905B (zh) | 一种热点话题分析方法及系统 | |
CN104699725A (zh) | 数据搜索处理方法及系统 | |
CN101155182A (zh) | 一种基于网络的垃圾信息过滤方法和装置 | |
Stojanovic et al. | OntoManager–a system for the usage-based ontology management | |
CN104866599A (zh) | 可视化报表的生产方法和系统 | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
JP2013534334A (ja) | 照会結果をソートするための方法および装置 | |
KR101874862B1 (ko) | 서비스 비용을 위한 지능형 검색시스템 및 그 방법 | |
CN106557558A (zh) | 一种数据分析方法及装置 | |
CN104063450A (zh) | 热点信息分析方法及设备 | |
CN110232126A (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
CN110637317A (zh) | 用于在数字通信网络上跨多个设备建立数字接触点的分布式节点群集 | |
CN101188521B (zh) | 一种挖掘用户行为数据的方法和网站服务器 | |
CN111191123A (zh) | 业务信息推送方法、装置、可读存储介质和计算机设备 | |
Subramanian et al. | UP-GNIV: an expeditious high utility pattern mining algorithm for itemsets with negative utility values | |
CN102508884A (zh) | 热点事件与实时评论的获取方法及装置 | |
CN102289456B (zh) | Web爬行的差异检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180814 |
|
WW01 | Invention patent application withdrawn after publication |