CN108073521A

CN108073521A - 一种数据去重的方法和系统

Info

Publication number: CN108073521A
Application number: CN201610994698.2A
Authority: CN
Inventors: 刘荣远
Original assignee: SHENZHEN CHUANGMENG TIANDI TECHNOLOGY CO LTD
Current assignee: SHENZHEN CHUANGMENG TIANDI TECHNOLOGY CO LTD
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2018-05-25
Anticipated expiration: 2036-11-11
Also published as: CN108073521B

Abstract

本发明公开了一种数据去重的方法和系统，包括以下步骤：打开关键数据文件，输入实时关键字，调用去重函数根据所述关键数据文件对所述实时关键字进行去重；所述打开关键数据文件的步骤后还包括采用内存映射的形式将所述关键数据文件读入内存中且对关键数据文件中的去重关键字进行初步分类；降低了内存的占用空间，避免了数据去重时内存消耗大，且优化了关键数据文件内的数据排列结构，有效的提高了内存利用率和数据去重效率；采用该方法的数据去重系统也同样具有上述优点。

Description

一种数据去重的方法和系统

技术领域

本发明涉及实时海量数据处理领域，尤其涉及一种数据去重的方法和系统。

背景技术

在现有的大数据系统中，数据统计过程需要去除大量的重复数据，其统计的结果才会更加准确。现有开源的流式实时计算框架（如storm、spark streaming）中，对于实时的计算求和、计数等统计是比较容易实现的。但对于数据去重的计算，实时计算框架本身并没有提供相应的实现，需要开发者自行实现或者利用第三方系统（如key-value存储系统redis、分布式存储系统hbase和Cassandra）实现。

目前，实时数据去重过程中产生的非重复数据均存放在内存中，用来与实时数据进行比对。当需要对海量数据进行去重时，非重复数据文件需要消耗系统中大量的的内存资源。上述第三方去重系统均采用分布式存储的方式，以多台服务器采用分布式叠加的方式，扩大内存的总体容量，以此实现海量数据去重时其非重复数据文件的存放，这才得以完成整个去重过程。

可见，现有的数据去重方法和系统在应对实时海量数据时，内存资源占用量巨大，硬件投入高，资源利用率太低。

发明内容

本发明的目的在于提供一种去重效率更高，且内存空间利用率更大的数据去重的方法和系统。

为了解决上述技术问题，本发明所采用的技术方案为：一种数据去重的方法，包括以下步骤：打开关键数据文件、输入实时关键字、调用去重函数根据所述关键数据文件对所述实时关键字进行去重。所述打开关键数据文件的步骤后还包括以下步骤：

s1.采用内存映射的形式将所述关键数据文件中的去重关键字读入内存中；使得内存中仅存储所述去重关键字的数据结构即可，大量的数据依旧由磁盘存储。

s2.获取所述去重关键字的映射指针；该映射指针为磁盘中数据（去重关键字）的存储地址。通过访问内存中的映射指针，即可访问到磁盘的相应数据。

s3.为所述去重关键字提取特征值，并根据所述特征值的相似度为所述去重关键字分类；

s4.将分类相同的所述去重关键字组成优先比较集合，并以所述特征值的相同部分为该优先比较集合的特征标识；

s5.获取所述特征标识并添加到所述去重函数中；即去重关键字所在的优先比较集合的特征标识放入去重函数中，方便去重函数调用进行比较判断。

s6.保存所述关键数据文件的末尾指针；当需要增加非重复的关键字时，存储到末尾指针所指向的地址即可。

进一步的，所述调用去重函数根据关键数据文件对所述实时关键字进行去重的步骤具体包括以下步骤：

j1.为所述实时关键字提取实时特征值；

j2.判断所述实时特征值是否包含所述特征标识；若包含，则进入步骤j3；肉不包含，则进入步骤j3’；

j3.调用对应该特征标识的所述优先比较集合与所述实时关键字比较；

j3’.所述实时关键字不为重复数据，进入步骤j5。

再进一步的，所述步骤j3后还包括以下步骤：

j4.判断所述实时关键字是否与所述优先比较集合中的所述去重关键字相同；若不相同，则所述实时关键字不为重复数据，进入步骤j5；若相同，则进入步骤j5’；

j5.将所述实时关键字添加到所述末尾指针所指向的地址；

j5’.所述实时关键字为重复数据。

又一步的，所述j5步骤后还包括以下步骤：

j6.统计所述关键数据文件中所述去重关键字的总数，并输出该总数的数值。

作为一种改进，所述打开关键数据文件前还包括以下步骤：

q1.判断所述关键数据文件是否存在；

q2.若存在，则进入所述打开关键数据文件的步骤；

q2’.若不存在，则新建所述关键数据文件再进入所述打开关键数据文件的步骤。

再者，所述s3步骤前还包括以下步骤：

s2’.初始化所述去重函数。

再进一步的，所述关键数据文件包括：记录文件信息的数据结构和记录所述去重关键字的数据。

为了解决上述技术问题，本发明还采用以下技术方案：

一种数据去重的系统，包括：用以打开关键数据文件和调用去重函数进行去重的处理单元、用以输入实时关键字的输入单元，所述处理单元与所述输入单元分别与内存连接；还包括分别连接所述内存、磁盘以及所述处理单元的映射单元，该映射单元采用内存映射的形式将所述磁盘中的所述关键数据文件读入所述内存中；并获取所述去重关键字的映射指针；所述处理单元还设置有分类模块，为所述去重关键字提取特征值，并根据所述特征值的相似度为所述去重关键字分类并设置优先比较集合的特征标识。

进一步的，该系统还包括：与所述内存连接的统计单元，用以在去重单元更新所述关键数据文件后，统计所述去重关键字的总数，并输出该总数的数值。

与现有技术相比，本发明具有以下有益效果：

采用内存映射的方式调用非重复数据文件，并对关键数据文件进行分类处理。使得关键数据文件的主体数据不需要同时读入内存中，且可以按照一定的规则分为小类，优化了数据去重时的对比判断流程。有效的提高了内存资源的利用率，进而提高了该去重系统的数据处理量，也显著降低了硬件设备的投入。

附图说明

图1为本发明数据去重方法的主要流程示意图；

图2为本发明数据去重方法的完整流程示意图；

图3为本发明数据去重系统的功能模块框架示意图；

图4为本发明数据去重系统的完整功能模块框架示意图；

图5为现有技术方案框架示意图；

图6为现有技术方案工作流程示意图；

图7为本发明工作流程示意图。

具体实施方式

以下参考附图1至附图7，对本发明的各实施例予以进一步地详尽阐述。

首先，说明本发明数据去重的现实基础：

对于实时海量数据的处理，无论是进行数据求和，数据检索和数据统计，将海量数据中重复的数据去除后再进行相应的处理，可以有效的降低数据量，加快数据的处理速度。同时，得到的结果也更为准确。但是数据去重时，大量的非重复数据需要与实时数据进行比较判断，以判断该实时数据是否重复。导致非重复数据需要长时间占用系统内存，增大了内存资源的占用率，导致需要处理的数据滞后，淤积，拖慢处理速度，降低数据的处理量。

目前，增大内存的空间可以直接提升数据的处理量。如附图5至附图6所示，现有技术方案在当前的大数据面前，海量的实时数据，远不是增加的内存空间可以容纳的，只有分布式的计算系统可以有效增大内存空间和处理单元的处理能力，但是相对于数据去重这种单一的数据处理要求，分布式的计算系统其硬件投入则显得过于高昂。

其次，对本发明的实施方式进行具体说明。

如附图1至附图4所示，一种数据去重的方法，包括以下步骤：打开关键数据文件、输入实时关键字、调用去重函数根据关键数据文件对实时关键字进行去重。打开关键数据文件的步骤后还包括以下步骤：

s1.采用内存映射的形式将关键数据文件中的去重关键字读入内存中；使得内存中仅存储去重关键字的数据结构即可，大量的数据依旧由磁盘存储。

s2.获取去重关键字的映射指针。该映射指针为磁盘中数据（关键数据文件中去重关键字）的存储地址。通过访问内存中的映射指针时，即可读取磁盘中相应的数据。

系统中的映射单元采用内存映射的实施方式，可以将关键数据文件中，包含了文件格式和信息的数据结构与包含了所有去重关键字的主体数据（n个非重复的去重关键字）有机的拆分开来。仅将体积极小的数据结构读入内存中，当需要调用关键数据文件时，通过映射指针（去重关键字的地址），处理单元可以直接访问到磁盘中的关键数据文件的数据。因此，可以从根本上消除了面对海量实时数据时，体积巨大的关键数据文件对内存造成的压力。使内存可以腾出有足够空间用于存放处理中的中间数据和实时数据，有效的提高了本发明的数据处理量和内存资源的利用率。

s3.为所述去重关键字提取特征值，并根据所述特征值的相似度为所述去重关键字分类。在具体实施中，特征值的提取方式，可以采用在关键字的基础上进行哈希算法实现，也可以采用其他算法实现，如方差算法、几何平均值算法等。具体分类时，可以按照的特征值中字符串类型以及数值来进行分类，在优选的实施方式中，可以采用特征值的字符的位置与字符的数值相结合的方式来进行分类，如将特征值的最后一位的数值为8的关键字归为一类，或者将特征值中某一位数值为8的关键字归为一类。其中，案分类的不同，数值8也可以采用任意有效的数值来替换。

采用上述分类方法，可以对关键数据文件中的去重关键字进行有序化处理，方便去重时与实时关键字进行比较判断。

s4.将分类相同的所述去重关键字组成优先比较集合，并以所述特征值的相同部分为该优先比较集合的特征标识。为优先比较集合设置特征标识有助于判断实时关键字是否为重复数据时，只要计算出实时关键字的特征值，并判断该特征值的相应数位上的数值是否与特征标识相同，即可给实时关键字进行初步分类。避免使用穷举法逐一调用去重关键字与实时关键字进行比较，节省系统资源。

在本实施例中，完成上述步骤s1~s4，可以java中的hashmap来实现，也可以通过hashset来实现。或者通过linux中的mmap系统实现。

如附图2所示，在本实施例中，步骤s4后还包括以下步骤：

具体的，当处理单元与映射单元配合工作，采用内存映射对磁盘中的去重关键字并做进一步处理，保存去重关键字本身依旧会占用大量的内存空间。采用关键字指针这一地址形式将有助于进一步的降低内存的占用空间，提高内存的使用率。同时，将末尾指针保存下来，使得关键数据文件可以适用在实时数据中，通过不断的比对进行相应的更新，以保证统计计算的准确性。

在本实施例中，调用去重函数根据关键数据文件对实时关键字进行去重的步骤具体包括以下步骤：

j1.为所述实时关键字提取实时特征值；该提前特征值的方式与前述提取去重关键字的方式采用相同算法，以保证实时关键字与去重关键字存在比较的基础。

j2.判断所述实时特征值是否包含所述特征标识；若包含，则进入步骤j3；肉不包含，则进入步骤j3’；该判断步骤可以为实时关键字指定一个较小的比较范围（即优先比较集合中的去重关键字），避免实时关键字采用穷举法与每一个去重关键字比较，消耗大量的系统资源。

j3调用对应该特征标识的所述优先比较集合与所述实时关键字比较；包含即意味着去重关键字的特征值与优先比较集合中的去重关键字特征值很相近。同时，也意味着与其他的优先比较集合（特征标识不同）无关联，不用再比较其内的去重关键字。

j3’.所述实时关键字不为重复数据，进入步骤j5，进行关键数据文件的增补操作。

在本实施例中，所述步骤j3后还包括以下步骤：

j4.判断所述实时关键字是否与所述优先比较集合中的所述去重关键字相同；若不相同，则所述实时关键字不为重复数据，进入步骤j5；若相同，则进入步骤j5’；采用该判断步骤可以确保数据去重的准确性，即特征值比较完成后，实时关键字最终必须与去重关键字进行比较，以确定两者的实质是否相同。

j5.将实时关键字添加到末尾指针所指向的地址；

j5’.实时关键字为重复数据。

需要指出的是，当输入单元输入的实时关键字与作为比照物的去重关键字相同时，意味着该实时关键字（或者包含该实时关键字的实时数据）为重复的数据，其属于本发明需要剔除的部分，故不做相应记录。当不相同时，则将其添加到关键数据文件中，为接下来统计单元的数据求和、数据统计提供数据源。

在本实施例中，所述j5步骤后还包括以下步骤：

j6.统计关键数据文件中去重关键字的总数，并输出该总数的数值。即统计单元统计通过内存中的相应指针对磁盘中去重完成后的不重复数据进行统计，得到相应的数量。在实际使用中，如统计某个游戏的登录玩家总数、统计某个网页被不同网友访问的总数等等。

在其他实施例中，还可以加入求和或者其他的进一步的数据处理程序，在此不做限定。

在本实施例中，打开关键数据文件前还包括以下步骤：

q1.判断关键数据文件是否存在；

q2.若存在，则进入打开关键数据文件的步骤；

q2’.若不存在，则新建关键数据文件再进入打开关键数据文件的步骤。

在实际使用中，处理单元进行数据去重不可避免的需要从第一个实时数据开始，因为关键数据文件中所包含的去重关键字为处理过程中实时数据中非重复数据的集合，所以，关键数据文件一开始并不存在，在对实时关键字进行处理时，需要有一个判断是否存在该关键数据文件的过程，若存在，则进入下一步骤，若不存在，则新建该文件（即处理第一个实时关键字时），以避免无关键数据文件时进行进一步操作导致不可预知的情况发生。

作为一种优选的实施例，关键数据文件的新建长度可以参照以下公式：去重关键字的平均长度*去重关键字的预计总量*2。

如附图2所示，在本实施例中，所述s3步骤前还包括以下步骤：

s2’.初始化所述去重函数。

在本实施例中，所述去重函数采用hashset算法判断实施关键字是否与去重关键字一致。

在优选的实施例中，处理单元调用的去重函数为C++标准库中的std::unordered_set函数来实现。std::unordered_set为hash算法的一种，也可以用其他hash算法的函数来代替。

如附图7所示，所述关键数据文件包括：记录文件信息的数据结构和记录所述去重关键字的数据。在被映射单元采用内存映射的方式读取后，其数据结构的部分存入内存，其数据结构通过映射指针指向磁盘中的数据。处理单元调用内存中的数据结构时，通过该映射指针即可访问磁盘中的相应数据。

为了解决上述技术问题，本发明还采用以下技术方案：

一种数据去重的系统，包括：用以打开关键数据文件和调用去重函数进行去重的处理单元、用以输入实时关键字的输入单元，处理单元与输入单元分别与内存连接；还包括分别连接内存、磁盘以及处理单元的映射单元，该映射单元采用内存映射的形式将磁盘中的关键数据文件读入内存中；并获取关键数据文件的映射指针。

具体的，当本系统以计算机为实施载体时，该处理单元即为计算机的处理器，进行内存和磁盘中数据的管理和调用。输入单元为数据服务器或者鼠标、键盘等输入设备。映射单元为提供内存映射功能的所调用的相应计算机程序。

进一步的，该系统还包括：与内存连接的统计单元，用以在去重单元更新关键数据文件后，统计去重关键字的总数，并输出该总数的数值。以实现对数据进行去重后的进一步数据处理，得到相应的计算结果。

本发明的数据去重的方法通过采用内存映射的方式读取关键数据文件，在调用关键数据文件时，避免了该文件占用大量的内存空间，增大了用于数据处理的内存空间容量，提高了数据去重过程中的数据处理量和内存资源利用率。使得在处理实时海量数据时，可以省去分布式的计算系统，有效节省了投入成本。

上述内容，仅为本发明的较佳实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种数据去重的方法，其特征在于，包括以下步骤：打开关键数据文件，输入实时关键字，调用去重函数根据所述关键数据文件对所述实时关键字进行去重；所述打开关键数据文件的步骤后还包括以下步骤：

s1.采用内存映射的形式将所述关键数据文件中的去重关键字读入内存中；

s2.获取所述去重关键字的映射指针；

s5.获取所述特征标识并添加到所述去重函数中；

s6.保存所述关键数据文件的末尾指针。

2.如权利要求1所述的数据去重的方法，其特征在于，所述调用去重函数根据关键数据文件对所述实时关键字进行去重的步骤具体包括以下步骤：

j1.为所述实时关键字提取实时特征值；

j2.判断所述实时特征值是否包含所述特征标识；若包含，则进入步骤j3；若不包含，则进入步骤j3’；

j3调用对应该特征标识的所述优先比较集合与所述实时关键字比较；

j3’.所述实时关键字不为重复数据，进入步j5。

3.如权利要求2所述的数据去重的方法，其特征在于，步骤j3后还包括以下步骤：

j5.将所述实时关键字添加到所述末尾指针所指向的地址；

j5’.则所述实时关键字为重复数据。

4.如权利要求3所述的数据去重的方法，其特征在于，所述j5步骤后还包括以下步骤：

5.如权利要求1所述的数据去重的方法，其特征在于，所述打开关键数据文件前还包括以下步骤：

q1.判断所述关键数据文件是否存在；

q2.若存在，则进入所述打开关键数据文件的步骤；

6.如权利要求1所述的数据去重的方法，其特征在于，所述s3步骤前还包括以下步骤：

s2’.初始化所述去重函数。

7.如权利要求1所述的数据去重的方法，其特征在于，所述关键数据文件包括：记录文件信息的数据结构和记录所述去重关键字的数据。

8.一种数据去重的系统，包括：用以打开关键数据文件和调用去重函数进行去重的处理单元、用以输入实时关键字的输入单元，所述处理单元与所述输入单元分别与内存连接；其特征在于，还包括分别连接所述内存、磁盘以及所述处理单元的映射单元，该映射单元采用内存映射的形式将所述磁盘中的所述关键数据文件读入所述内存中；并获取所述去重关键字的映射指针；所述处理单元还设置有分类模块，为所述去重关键字提取特征值，并根据所述特征值的相似度为所述去重关键字分类并设置优先比较集合的特征标识。

9.如权利要求8所述的系统，其特征在于，该系统还包括：与所述内存连接的统计单元，用以在去重单元更新所述关键数据文件后，统计所述去重关键字的总数，并输出该总数的数值。