CN107423402A

CN107423402A - 海量结构化数据中的重复数据检测方法和系统

Info

Publication number: CN107423402A
Application number: CN201710623965.XA
Authority: CN
Inventors: 黄文琦; 李鹏; 许爱东; 陈晓; 陈华军; 李果; 蒋屹新; 杨航; 张福铮
Original assignee: China South Power Grid International Co ltd; Power Grid Technology Research Center of China Southern Power Grid Co Ltd
Current assignee: China South Power Grid International Co ltd; Power Grid Technology Research Center of China Southern Power Grid Co Ltd
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2017-12-01

Abstract

本发明涉及一种海量结构化数据中的重复数据检测方法和系统。上述海量结构化数据中的重复数据检测方法包括：分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合；将第一数据集合以及第二数据集合分别发送至分布式集群中不同的计算节点；在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，若识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合；将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。

Description

海量结构化数据中的重复数据检测方法和系统

技术领域

本发明涉及数据结构技术领域，特别是涉及一种海量结构化数据中的重复数据检测方法和系统。

背景技术

随着移动互联网、物联网、企业信息化的快速发展，大数据时代来临。企业每天产生的数据数以万计，数据规模呈现海量增长趋势，对企业在数据存储和处理方面都提出了更高的要求。在对上述海量数据，尤其是海量结构化数据进行处理的过程中，对其中的重复数据进行检测，进而进行清理或其他处理措施，是减少数据存储，降低相应处理要求的一种重要手段。

从海量结构化数据清理算法研究内容上讲，传统的重复数据清除算法可分为两类：第一类是数据清理的记录间算法，第二类是数据清理的记录内算法。

目前，传统的海量结构化数据中的重复数据检测方案通常采用重复记录检查的直观方法，其是将每一个记录与数据库中其余记录逐个进行对比，在一定程度上提高了重复数据的识别精度，然而没有考虑到字段不等长、中文字段语义重点偏后等重复记录的特点，匹配花费的时间较长，无法及时得到处理结果，使在海量结构化数据中进行重复数据检测的效率低。

发明内容

基于此，有必要针对传统方案使在海量结构化数据中进行重复数据检测的效率低的技术问题，提供一种海量结构化数据中的重复数据检测方法和系统。

一种海量结构化数据中的重复数据检测方法，包括如下步骤：

分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合；

将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点；

在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，若识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合；

将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。

一种海量结构化数据中的重复数据检测系统，包括：

获取模块，用于分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合；

发送模块，用于将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点；

移动模块，用于在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，若识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合；

确定模块，用于将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。

上述海量结构化数据中的重复数据检测方法和系统，可以分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合，再将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点，进而在分布式集群的计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，并在识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合，从而将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据，实现相应重复数据的检测，有效提高了对海量结构化数据进行重复数据检测的效率。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述的海量结构化数据中的重复数据检测方法。

上述计算机可读存储介质上存储的计算机程序，被处理器执行时可以实现如上所述的海量结构化数据中的重复数据检测方法，能够提高针对海量结构化数据进行重复数据检测的效率。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的海量结构化数据中的重复数据检测方法。

上述计算机设备中，处理器执行所述程序时可以实现如上所述的海量结构化数据中的重复数据检测方法，有效提高了相应的重复数据检测效率。

附图说明

图1为一个实施例的海量结构化数据中的重复数据检测方法流程图；

图2为一个实施例的将数据集合A和数据集合B中的结构化数据发送到计算节点的过程示意图；

图3为一个实施例的数据集合B中的重复数据检测过程示意图；

图4为一个实施例的海量结构化数据中的重复数据检测系统结构示意图；

图5为一个实施例的计算机设备结构示意图。

具体实施方式

下面结合附图对本发明的海量结构化数据中的重复数据检测方法和系统的具体实施方式作详细描述。

参考图1，图1所示为一个实施例的海量结构化数据中的重复数据检测方法流程图，包括如下步骤：

S10，分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合；

上述步骤可以先对获取海量结构化数据进行初始化数据结构，将各个结构化数据统一用JSON格式等数据交换格式表示，通过MD5算法等获取数据Hash(哈希码)的方式进行上述结构化数据哈希码的获取，分别将任意一个结构化数据的哈希码等保存至该结构化数据的数据交换格式中，以便后续获取结构化数据的哈希码。进而依据上述结构化数据的哈希码进行海量结构化数据中重复数据的获取，其中，将哈希码相同的结构化数据，即为相重复的结构化数据，保存在第一数据集合，将哈希码互不相同的结构化数据，即为互不重复的结构化数据，保存在第二数据集合，使第一数据集合保存的为重复的结构化数据，第二数据集合保存的为不重复的结构化数据。

S20，将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点；

上述步骤可以将第一数据集合的结构化数据发送至分布式集群的若干个计算节点，将第二数据集合的结构化数据分别发送至分布式集群的其他多个计算节点，以便于分别在不同的计算节点进行相应结构化数据的处理，提高相应的处理效率。

S30，在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，若识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合；

上述步骤可以针对第二数据集合所保存的结构化数据，进行其与分布式集群的本地数据之间的重复性检查，进一步获取第二数据集合中的重复数据，以将所获取的重复数据移动至第一数据集合，以保证第二数据集合所保存的非重复数据的准确性。

S40，将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。

将第一数据集合内的结构化数据确定为海量结构化数据中的重复数据后，可以将上述第一数据集合内的结构化数据以及第二数据集合内的结构化数据分别发送至分布式集群的汇总节点，通过汇总节点对上述第一数据集合的结构化数据以及第二数据集合的结构化数据进行相应处理。

本实施例提供的海量结构化数据中的重复数据检测方法，可以分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合，再将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点，进而在分布式集群的计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，并在识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合，从而将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据，实现相应重复数据的检测，有效提高了对海量结构化数据进行重复数据检测的效率。

在一个实施例中，上述分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合的过程之前，还可以包括：

将待检测的海量结构化数据分别通过轻量级的数据交换格式表示；

分别获取各个结构化数据的哈希码，将所述哈希码保存至相应结构化数据的数据交换格式中。

上述轻量级的数据交换格式可以为JSON格式，通过上述JSON格式表示的海量结构化数据包括M个字段(M为正整数)。

具体地，将海量结构化数据处理成JSON结构的实现代码可以参考如下所示：

其中：

Fieled表示一条数据的各个字段名；

Value部分一条数据各字段对应的值；

Hash表示一条数据的Hash码，初始为空；

IsExist表示一条数据是否存在重复数据，初始为空。

作为一个实施例，上述分别获取各个结构化数据的哈希码，将所述哈希码保存至相应结构化数据的数据交换格式中的过程可以包括：

对各个结构化数据采用MD5算法进行计算，分别得到各个结构化数据的哈希码，分别将任意一个结构化数据的哈希码保存至该结构化数据数据交换格式中的哈希节点。

具体地，可以从海量结构化数据中取出第一条数据，将字段名和值组成成一个字符串，格式可参考如下所示：

"Feled_1":"value_1","Feled_2":"value_2",……,"Feled_M":"value_M"

对此字符串采用MD5算法进行计算，得到Hash码，并将Hash码存入JSON中此条数据的Hash节点。

循环所有数据，生成每条数据的Hash码，并更新保存到JSON字符串的Hash节点中。

在一个实施例中，上述根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合的过程可以包括：

将哈希码相同的结构化数据中的一个数据确定为非重复数据，将哈希码相同的结构化数据中除设为非重复数据之外的其他数据设为重复数据，将哈希码互不相同的结构化数据设为非重复数据；

分别在各个重复数据对应的数据交换格式中设置重复标记，分别在各个非重复数据所对应的数据交换格式中设置非重复标记；

将携带重复标记的结构化数据保存在第一数据集合，将携带非重复标记的结构化数据保存在第二数据集合。

上述重复标记可以为1，非重复标记可以为0，比如将重复数据的IsExist(JSON结构中的字段)，比如将非重复数据的IsExist设为0等等。通过重复标记和非重复标记进行重复数据和非重复数据的保存，可以保证保存的数据集合(即第一数据集合和第二数据集合)的准确性。

具体地，若数据交换格式为JSON格式，将哈希码相同的结构化数据中的一个数据确定为非重复数据，将哈希码相同的结构化数据中除设为非重复数据之外的其他数据设为重复数据，将哈希码互不相同的结构化数据设为非重复数据，在重复数据对应的数据交换格式标记为1，在非重复数据对应的数据交换格式标记为0的过程可以为：

A、从海量结构化数据中取中第N(初始N＝1)条数据，将其Hash码与第N+1条数据的Hash码比对。如果Hash码相同，则将第N条数据JSON中IsExist节点标记为1，结束第N条数据检查；如果第N条数据与第N+1条数据的Hash码不相同，则将第N条数据JSON中IsExist节点标记为0，继续与第N+2、N+3……条数据的Hash码检查，直到完成与所有数据Hash码的匹配；

B、依次取出第N+1、N+2……条数据，重复上一步骤A，完成所有数据的重复性检查。

C、循环所有待较验的结构化数据，将IsExist等于1的数据(即重复数据)组一个集合A，将IsExist等于0的数据(即非重复数据)组成另一个集合B，每个集合用上述同样的JSON结构表示。

作为一个实施例，上述在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查的过程之后，还可以包括：

若识别到第二数据集合中的结构化数据与本地数据相重复，在相应结构化数据的数据交换格式中将非重复标记修改为重复标记，将该结构化数据从第二数据集合移动至第一数据集合；

分别将第一数据集合的结构化数据以及第二数据集合的结构化数据发送至分布式集群的汇总节点，通过汇总节点将携带非重复标记的结构化数据存储在各个计算节点的数据库中，并丢弃携带重复标记的结构化数据。

上述重复标记可以为1，非重复标记可以为0。

本实施例可以依据结构化数据的哈希码进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，对第二数据集合中与本地数据相重复的结构化数据的相关字段修改为重复标记，以保证各个字段状态的准确性。将各计算节点比对后标记过的结构化数据(更新后第一数据集合和第二数据集合中数据)，发送到汇总节点，汇总节点可以将各个计算节点发来的数据进行合并，将不重复的数据(第二数据集合保存的非重复数据)存储在各个计算节点的数据库中，将重复的数据(第一数据集合保存的重复数据)丢弃或根据业务需要进行相应处理。

在一个实施例中，上述将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点的过程可以包括：

将所述第一数据集合的结构化数据发送至分布式集群的计算节点；

将所述第二数据集合的结构化数据分别发送分布式集群中其他多个计算节点。

本实施例将第二数据集合的结构化数据分别发送分布式集群中其他多个计算节点(除第一数据集合所对应计算节点之外的多个计算节点)，以便通过多个计算节点同时对第二数据集合的结构化数据进行比对、检测等处理，以保证上述结构化数据的处理效率。

作为一个实施例，每个分布式计算节点上可以具有一份数据库，存储的是整体要比对的数据的一部分。假设分布式计算节点的数量为n个。名称分别的Node_1、Node_2、Node_3……Node_n。上述将第一数据集合(数据集合A)的结构化数据以及第二数据集合(数据集合B)的结构化数据发送到计算节点的过程可以参考图2所示，包括如下步骤：

A、将Node_1(图示计算节点1)的数据发送到Node_2(图示计算节点2)；

B、将Node_1的数据发送到Node_3(图示计算节点3)，Node_2的数据发送到Node_4(图示计算节点4)；

C、将Node_1的数据发送到Node_5(图示计算节点5)，Node_2的数据发送到Node_6(图示计算节点6)，Node_3的数据发送到Node_7(图示计算节点7)，Node_4的数据发送到Node_8(图示计算节点8)；

D、依造上述方法，实现将数据集合A和数据集合B群发到所有计算节点。

在一个实施例中，上述在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查的过程可以包括：

在所述计算节点获取第二数据集合中各个结构化数据的哈希码，将所获取的哈希码与分布式集群预存的哈希码进行比对，在第二数据集合所对应的哈希码中查找与分布式集群预存的任意一个哈希码相同的哈希码，所查找得到的哈希码所对应的结构化数据确定为与本地数据相重复的结构化数据。

上述分布式集群预存的哈希码为分布式集群中各个本地数据所对应的哈希码。本实施例可以进一步对第二数据集合中重复数据进行检测，保证第二数据集合所保存的非重复数据的准确性。

具体地，上述在所述计算节点获取第二数据集合中各个结构化数据的哈希码，将所获取的哈希码与分布式集群预存的哈希码进行比对，在第二数据集合所对应的哈希码中查找与分布式集群预存的任意一个哈希码相同的哈希码，所查找得到的哈希码所对应的结构化数据确定为与本地数据相重复的结构化数据的过程可以参考图3所示，包括：

A、从数据集合B(第二数据集合)中取第N(初始N＝1)条数据，将其Hash码与计算节点本地数据中的第A(初始A＝1)条数据的Hash码比对。如果Hash码相同，则将数据集合B中的第N条数据JSON中IsExist节点标记为1，并将此项数据从数据集合B中移除，存入数据集合A(第一数据集合)中，结束此条数据的检查；如果Hash码不相同，则从计算节点本地数据中取出第A+1、A+2……条数据的Hash码继续比对，直到完成与计算节点本地所有数据Hash码的匹配；

B、重复上一步骤，依次从数据集合B中取出第N+1、N+2……条数据，完成数据集合B中所有数据的重复性检查。

参考图4所示，图4为一个实施例的海量结构化数据中的重复数据检测系统结构示意图，包括：

获取模块10，用于分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合；

发送模块20，用于将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点；

移动模块30，用于在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查，若识别到第二数据集合中的结构化数据与本地数据相重复，则将该结构化数据从第二数据集合移动至第一数据集合；

确定模块40，用于将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。

本发明提供的海量结构化数据中的重复数据检测系统与本发明提供的海量结构化数据中的重复数据检测方法一一对应，在所述海量结构化数据中的重复数据检测方法的实施例阐述的技术特征及其有益效果均适用于海量结构化数据中的重复数据检测系统的实施例中，特此声明。

基于如上所述的示例，一个实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述的海量结构化数据中的重复数据检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

基于如上所述的示例，参考图5所示，本发明还提供一种计算机设备60，该计算机设备包括存储器61、处理器62及存储在存储器62上并可在处理器61上运行的计算机程序，所述处理器61执行所述程序时实现如上述各实施例中的任意一种海量结构化数据中的重复数据检测方法。

上述计算机设备60可以包括电脑等智能处理设备。本领域普通技术人员可以理解存储器61存储的计算机程序，与上述海量结构化数据中的重复数据检测方法实施例中的描述相对应，处理器62还可用于执行存储器61所存储的其他可执行指令。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种海量结构化数据中的重复数据检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的海量结构化数据中的重复数据检测方法，其特征在于，所述分别获取海量结构化数据中各个结构化数据的哈希码，根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合的过程之前，还包括：

3.根据权利要求2所述的海量结构化数据中的重复数据检测方法，其特征在于，所述分别获取各个结构化数据的哈希码，将所述哈希码保存至相应结构化数据的数据交换格式中的过程包括：

4.根据权利要求2所述的海量结构化数据中的重复数据检测方法，其特征在于，所述根据所述哈希码识别海量结构数据中的重复数据和非重复数据，将所述重复数据保存在第一数据集合，将所述非重复数据保存在第二数据集合的过程包括：

5.根据权利要求4所述的海量结构化数据中的重复数据检测方法，其特征在于，所述在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查的过程之后，还包括：

若识别到第二数据集合中的结构化数据与本地数据相重复，在相应结构化数据的数据交换格式中将非重复标记修改为重复标记；

6.根据权利要求1至5任一项所述的海量结构化数据中的重复数据检测方法，其特征在于，所述将所述第一数据集合的结构化数据以及第二数据集合的结构化数据分别发送至分布式集群中不同的计算节点的过程包括：

7.根据权利要求1至5任一项所述的海量结构化数据中的重复数据检测方法，其特征在于，所述在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查的过程包括：

8.一种海量结构化数据中的重复数据检测系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任意一项所述的海量结构化数据中的重复数据检测方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的海量结构化数据中的重复数据检测方法。