CN104391894A

CN104391894A - 一种重复数据的检查处理方法

Info

Publication number: CN104391894A
Application number: CN201410633391.0A
Authority: CN
Inventors: 李爱民; 陈承志; 龙庆麟; 梁国辉; 熊道勇
Original assignee: Guangzhou Ke Teng Information Technology Co ltd
Current assignee: Guangzhou Ke Teng Information Technology Co ltd
Priority date: 2014-11-11
Filing date: 2014-11-11
Publication date: 2015-03-04

Abstract

本发明公开了一种重复数据的检查处理方法，该方法包括：A、获取待校验数据，初始化待校验数据的数据结构；B、计算获得待校验数据中各条数据的散列码；C、根据各条数据的散列码，检查各条数据之间是否存在重复数据，并根据检查结果更新各条数据的标记码；D、将已更新标记码的各条数据发送到各分布式计算节点中，以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据；E、将各分布式计算节点比对后的各条数据发送到汇总节点。采用本发明实施例，能缩短海量数据的对比时间，提高数据查找和清理的效率。

Description

一种重复数据的检查处理方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种重复数据的检查处理方法。

背景技术

随着移动互联网络、物联网和企业信息化的快速发展，企业每天产生的数据数以万计，数据规模呈现海量增长趋势，对企业在数据存储和处理方面都提出了更高的要求。而找出重复数据进行清除是减少数据存储进而降低处理要求的一种方式。

重复数据清理技术旨在清除冗余的备份数据、确保只有“独有的”数据存储在磁盘上。即容量优化保护技术。重复数据清理技术的关键是只保留唯一的数据实例，有效地解决了“容量膨胀”的效率问题。而由于中文数据之间没有空格进行分割，造成数据查找识别上的困难，因此，现有大部分的研究都只是针对英文数据的清除处理。

对中文重复数据的检查清理首先需要将数据进行查找，筛选出重复数据，再进行清除或其他处理。而重复数据的查找最直观的方法是将每一个记录与数据库中其余记录逐个进行对比，该方法精确度高。但是没有考虑到字段不等长、中文字段语义重点偏后等重复记录特点。面对海量数据时，由于其匹配时间较长，无法实时得到处理结果，实用性差。

现有的解决方法是采用邻近排序算法(SNM)进行排序匹配。SNM算法能有效克服直观对比方法的缺点，大大提高了重复记录的匹配效率和重复记录清理的完成效率。但是，SNM算法存在以下缺陷：其匹配结果严重依赖于排序关键字的选择和滑动窗口大小的选取很难控制。由于在SNM算法里记录只能与窗口内的纪录进行比较，当滑动窗口太小时或排序的关键字选择不当时，会造成漏配；而当滑动窗口太大时又会产生很多没有必要的比较，因此恰当大小的滑动窗口难以获得。故亟需一种对海量结构化数据进行重复数据检查处理的解决方案。

发明内容

本发明实施例提出一种重复数据的检查处理方法，能缩短海量数据的对比时间，提高数据查找和清理的效率。

本发明实施例提供了一种重复数据的检查处理方法，包括：

A、获取待校验数据，初始化所述待校验数据的数据结构；

B、计算获得所述待校验数据中各条数据的散列码；

C、根据所述各条数据的散列码，检查所述各条数据之间是否存在重复数据，并根据检查结果更新所述各条数据的标记码；

D、将所述已更新标记码的各条数据发送到各分布式计算节点中，以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据；

E、将各分布式计算节点比对后的各条数据发送到汇总节点。

进一步的，所述步骤A具体为：

获取待校验数据，初始化所述待校验数据的数据结构，将所述待校验数据转换为JSON结构的数据；

每条所述JSON结构的数据包括：各字段的字段名、各字段对应的值、散列码和标记码。

进一步的，所述步骤B具体为：

B1、取出所述待校验数据的第i条数据；其中，所述待校验数据包括N条数据，i的初始值为1，i和N均为正整数；

B2、将所述第i条数据的各字段名和各字段对应的值组成一个字符串；

B3、对所述第i条数据的字符串采用MD5算法，计算获得所述第i条数据的散列码，并更新保存所述第i条数据的散列码；

B4、将i的值加1，重复所述步骤B2和B3，直到所述待校验数据的N条数据均被更新保存散列码。

进一步的，所述步骤C具体为：

C1、检查第m条数据的散列码与第m+n条数据的散列码是否相同，若是，则将第m条数据的标记码更新为1，并直接执行步骤C3，若否，则将所述第m条数据的标记码更新为0，并执行步骤C2；

C2、将n的数值加1重复步骤C1，直至m+n的值大于N；

C3、将m的值加1，并将n的值设置为初始值，重复步骤C1直至m＝N；其中，m和n的初始值均为1，m和m均为正整数。

进一步的，在所述步骤C之后，步骤D之前还包括：

根据所述各条数据更新后的标记码，将所述各条数据分为第一数据集合和第二数据集合，所述第一数据集合内各条数据的标记码均为1，所述第二数据集合内各条数据的标记码均为0；

其中，所述第一数据集合与所述第二数据集合均为JSON结构的数据。

进一步的，所述步骤D具体为：

采用分布式发送的方式，将所述已更新标记码的各条数据依次发送到各分布式计算节点。

进一步的，所述各分布计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据，具体为：

取出第二数据集合内的第j条数据，将所述第j条数据的散列码依次与本地数据中各条数据的散列码进行一一比对，若存在相同的散列码，则将所述第j条数据从第二数据集合内移除，并将所述第j条数据存入第一数据集合；若各条数据的比对均不存在相同散列码，则将j的值加1，重复比对，直至所述第二数据集合内所有数据均比对完成，其中，所述j为初始值为1的正整数。

进一步的，在所述步骤E之后，还包括步骤F：

F、汇总合并各分布计算节点发送的各条数据，获得不重复数据集合和重复数据集合。

进一步的，所述步骤F之后，还包括步骤G：

G、将不重复数据集合存储到分布式集群中各计算节点的数据库中，将重复数据集合删除。

可见，实施本发明实施例，具有如下有益效果：

本发明实施例提供的一种重复数据的检查处理方法，将待校验数据初始化为统一结构的数据，并对数据进行压缩，将比对内容统一为固定的字符长度能减少各条数据间的内容对比时间。在数据对比时，采用分布式处理的方式，使得多个计算节点同时进行对比计算，相比于现有技术采用逐个对比的直观方法，采用本发明技术方案能大大缩短了海量数据的对比时间，使得海量数据的重复比对在拥有操作简单的基础上，拥有效率高、实时性强和可扩展等优点。

附图说明

图1是本发明提供的重复数据的检查处理方法的一种实施例的流程示意图；

图2是本发明提供的重复数据的检查处理方法的另一种实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明提供的重复数据的检查处理方法的一种实施例的流程示意图，该方法包括以下步骤：

步骤A：获取待校验数据，初始化所述待校验数据的数据结构。

在本实施例中，在源数据中获取待校验的数据，初始化待校验数据的数据结构，将待校验数据转换为JSON结构的数据。每条JSON结构的数据包括各字段的字段名、各字段对应的值、散列码和标记码。

在本实施例中，JSON结构如下：

如上述格式所示，Fieled表示一条数据的各个字段名，Value部分代表一条数据各字段对应的值，Hash表示一条数据的散列码，初始为空，IsExist为标记码，表示一条数据是否存在重复数据，初始为空。

步骤B：计算获得待校验数据中各条数据的散列码。

在本实施例中，由于初始化数据结构时，各条数据的散列码均为空，故采用MD5算法计算各条数据的散列码。步骤B具体为：

B1、取出待校验数据的第i条数据，其中，待校验数据包括N条数据，i的初始值为1，i和N均为正整数。

B2、将第i条数据的各字段名和各字段对应的值组成一个字符串。

B3、对第i条数据的字符串采用MD5算法，计算获得第i条数据的散列码，并更新保存第i条数据的散列码。

B4、将i的值加1，重复步骤B2和B3，直到待校验数据的N条数据均被更新保存散列码。

在本实施例中，组成的字符串格式如下：

"Feled_1":"value_1","Feled_2":"value_2",……,"Feled_M":"value_M"

在本实例中，采用MD5算法计算该字符串的散列码，压缩了对比内容，减少单条数据间的内容比对时间。

步骤C：根据各条数据的散列码，检查各条数据之间是否存在重复数据，并根据检查结果更新各条数据的标记码。

在本实施例中，步骤C具体为：

C1、检查第m条数据的散列码与第m+n条数据的散列码是否相同，若是，则将第m条数据的标记码更新为1，并直接执行步骤C3，若否，则将第m条数据的标记码更新为0，并执行步骤C2；

C2、将n的数值加1重复步骤C1，直至m+n的值大于N；

在本实施例中，在步骤C之后，步骤D之前还包括：根据各条数据更新后的标记码，将各条数据分为第一数据集合和第二数据集合。第一数据集合内各条数据的标记码均为1，第二数据集合内各条数据的标记码均为0。第一数据集合与第二数据集合均为JSON结构的数据。

步骤D：将已更新标记码的各条数据发送到各分布式计算节点中，以供各分布式计算节点比对已更新标记码的各条数据与本地数据之间是否存在重复数据。

在本实施例中，步骤D具体为：采用分布式发送方式，将已更新标记码的各条数据依次发送到各分布计算节点。每个分布计算节点上各拥有一个数据库，存储的是要比对数据的一部分，各分布计算节点的本地数据的集合为总对比数据。譬如，已更新标记码的各条数据定义为X，将X发送到第一个分布计算点中，第一个分布计算节点将X发送给第二个分布计算节点，发送完成后，第一和第二个分布计算节点均包含X。然后第一个分布计算节点将X发送给第三个分布计算节点，第二个分布计算节点将X发送到第四个分布计算节点，如此类推，采用分布式发送方式，将X依次发送到各分布计算节点。

在本实施例中，分布计算节点在收到已更新标记码的各条数据后，检查其与本地数据之间是否存在重复数据。由于该待校验数据已分为第一数据集合和第二数据集合，而第一数据集合内的数据均为重复数据，故只需检查第二数据集合内的数据与本地数据之间是否存在重复数据。该检查具体为：

取出第二数据集合内的第j条数据，将第j条数据的散列码依次与本地数据中各条数据的散列码进行一一比对，若存在相同的散列码，则将第j条数据从第二数据集合内移除，并将第j条数据存入第一数据集合；若各条数据的比对均不存在相同散列码，则将j的值加1，重复比对，直至第二数据集合内所有数据均比对完成，其中，j为初始值为1的正整数。

步骤E：将各分布式计算节点比对后的各条数据发送到汇总节点。

在本实施例中，将各分布式计算节点比对完成后的各条数据发送给汇总节点，由汇总节点对数据进行汇总合并，完成重复数据检查工作。

作为本实施例的一种举例，参见图2，图2为本发明提供的重复数据的检查处理方法的另一种实施例的流程示意图。如图2所示，图2与图1的区别在于，在步骤E之后还包括：步骤F和步骤G。

步骤F：汇总合并各分布计算节点发送的各条数据，获得不重复数据集合和重复数据集合。

步骤G：将不重复数据集合存储到分布式集群中各计算节点的数据库中，将重复数据集合删除。

在本实施例中，对重复数据集合进行删除进行其中一处理方式，可根据业务需求对重复数据集合进行相应的处理。

由上可见，实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种重复数据的检查处理方法，其特征在于，包括：

A、获取待校验数据，初始化所述待校验数据的数据结构；

B、计算获得所述待校验数据中各条数据的散列码；

E、将各分布式计算节点比对后的各条数据发送到汇总节点。

2.根据权利要求1所述的重复数据的检查处理方法，其特征在于，所述步骤A具体为：

3.根据权利要求2所述的重复数据的检查处理方法，其特征在于，所述步骤B具体为：

4.根据权利要求3所述的重复数据的检查处理方法，其特征在于，所述步骤C具体为：

C2、将n的数值加1重复步骤C1，直至m+n的值大于N；

5.根据权利要求4所述的重复数据的检查处理方法，其特征在于，在所述步骤C之后，步骤D之前还包括：

6.根据权利要求5所述的重复数据的检查处理方法，其特征在于，所述步骤D具体为：

7.根据权利要求6所述的重复数据的检查处理方法，其特征在于，所述各分布计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据，具体为：

8.根据权利要求1至7任一项所述的重复数据的检查处理方法，其特征在于，在所述步骤E之后，还包括步骤F：

9.根据权利要求8所述的重复数据的检查处理方法，其特征在在于，所述步骤F之后，还包括步骤G：