CN107832450A

CN107832450A - 用于清洗数据重复记录的方法

Info

Publication number: CN107832450A
Application number: CN201711182050.6A
Authority: CN
Inventors: 石文威
Original assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Current assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-03-23

Abstract

本发明公开了用于清洗数据重复记录的方法，包括，步骤1，预处理；步骤2，重复记录检测，通过字段匹配与记录匹配实现重复记录检测；步骤3，数据库级的重复记录聚类，在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类；步骤4，冲突处理，根据规则合并或者删除检测出的同一重复记录聚类中的重复记录，只保留其中正确的那条记录。本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式，提高了清洗效率。

Description

用于清洗数据重复记录的方法

技术领域

本发明涉及大数据领域，具体涉及用于清洗数据重复记录的方法。

背景技术

数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB＝1024MB)的数据，“海量”一般表示的是TB(1TB＝1024GB)级的数据，而现在的“大数据”则是PB(1PB＝1024TB)、EB(1EB＝1024PB)、甚至ZB(1ZB＝1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB，如果将这些数据刻录到 CD-R只读光盘上，并堆起来，其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。

大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界，各个企业对大数据都有着自己不同的解读.但大家都普遍认为，大数据有着4“V”特征，即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)：

(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB)，可称海量、巨量乃至超量。

(2)多样化(Variable Type)。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。

(3)快速化(Velocity Fast)。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；处理工具亦在快速演进，软件工程及人工智能等均可能介入。

(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例，连续不断的监控流中，有重大价值者可能仅为一两秒的数据流；360°全方位视频监控的“死角”处，可能会挖掘出最有价值的图像信息。

(5)复查Complexity：处理和分析的难度非常大。

现有的数据清洗步骤繁琐，关于重复记录的清洗效率较低。

发明内容

本发明所要解决的技术问题是现有的数据清洗步骤繁琐，关于重复记录的清洗效率较低，目的在于提供用于清洗数据重复记录的方法，简化数据清洗步骤，提高效率。

本发明通过下述技术方案实现：

用于清洗数据重复记录的方法，包括，

步骤1，预处理；

步骤2，重复记录检测，通过字段匹配与记录匹配实现重复记录检测；

步骤3，数据库级的重复记录聚类，在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类；

步骤4，冲突处理，根据规则合并或者删除检测出的同一重复记录聚类中的重复记录，只保留其中正确的那条记录。

进一步地，步骤1的预处理包括，

步骤11，属性选择，选择用于记录匹配的属性；

步骤12，初步聚类，对数据库中的记录进行排序；

步骤13，分配属性的权重，根据属性在决定两条记录相似性中重要程度的不同，为每个属性分配不同的权重。

进一步地，步骤3中的聚类采用的方法是生成排序关键字对数据集排序的方法：抽取记录属性的一个子集序列或属性值的子串，为数据集中每一条记录计算出一个键值，根据排序关键字将整个数据集进行排序。

在构造数据仓库的过程中，需要从各种数据源导入大量的数据，理想情况下，对于现实世界中的一个实体，数据库或数据仓库中应该只有一条与之对应的几率，但是在对异种信息表示的多个数据源进行集成时，由于实际数据中可能存在数据输入错误，格式、拼写上存在差异等各种问题，导致DBMS不能正确识别出标识同一个实体的多条记录，使得逻辑上指的同一个现实世界的主体，在仓库中可能会存在多个不同的表示。本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式，提高了清洗效率。

本发明与现有技术相比，具有如下的优点和有益效果：本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式，提高了清洗效率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

用于清洗数据重复记录的方法，包括，

步骤1，预处理；

步骤1的预处理包括，

步骤11，属性选择，选择用于记录匹配的属性；

步骤12，初步聚类，对数据库中的记录进行排序；

步骤3中的聚类采用的方法是生成排序关键字对数据集排序的方法：抽取记录属性的一个子集序列或属性值的子串，为数据集中每一条记录计算出一个键值，根据排序关键字将整个数据集进行排序。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.用于清洗数据重复记录的方法，其特征在于，包括，

步骤1，预处理；

2.根据权利要求1所述的用于清洗数据重复记录的方法，其特征在于，所述步骤1的预处理包括，

步骤11，属性选择，选择用于记录匹配的属性；

步骤12，初步聚类，对数据库中的记录进行排序；

3.根据权利要求1所述的用于清洗数据重复记录的方法，其特征在于，所述步骤3中的聚类采用的方法是生成排序关键字对数据集排序的方法：抽取记录属性的一个子集序列或属性值的子串，为数据集中每一条记录计算出一个键值，根据排序关键字将整个数据集进行排序。