CN106649346B - 数据重复性校验方法及装置 - Google Patents

数据重复性校验方法及装置 Download PDF

Info

Publication number
CN106649346B
CN106649346B CN201510728100.0A CN201510728100A CN106649346B CN 106649346 B CN106649346 B CN 106649346B CN 201510728100 A CN201510728100 A CN 201510728100A CN 106649346 B CN106649346 B CN 106649346B
Authority
CN
China
Prior art keywords
data
bloom filter
field information
hash value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510728100.0A
Other languages
English (en)
Other versions
CN106649346A (zh
Inventor
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510728100.0A priority Critical patent/CN106649346B/zh
Publication of CN106649346A publication Critical patent/CN106649346A/zh
Application granted granted Critical
Publication of CN106649346B publication Critical patent/CN106649346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开了一种数据重复性校验方法及装置,涉及信息技术领域,可以提高数据重复性校验的效率。所述方法包括:首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。本发明适用于数据重复性的校验。

Description

数据重复性校验方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种数据重复性校验方法及装置。
背景技术
近些年来,随着信息技术的不断发展,分布式技术越来越成熟,通过分布式技术建立分片集群,可以实现对数据库中的数据进行分布式存储,例如MongoDB,CouchDB,Hbase,Hypertable等数据库,进而可以提高分布式系统中的并发性能。但是由于在分片模式下数据库的片键索引无法保证集群数据的唯一性,会导致分布式系统中产生很多重复的冗余数据,不仅会增加硬件的存储成本,还会影响系统的存储和查询性能。
目前可以在每次插入新数据之前进行数据重复性校验,在数据库中查询是否存在相同的数据,具体地,当需要向数据库插入新数据时,可以将此新数据分配到数据库中每一分片区域分别进行数据重复性校验。然而,由于每次向数据库中插入新数据之前都需要进行上述数据重复性校验,这样会造成数据重复性校验的效率较低,并且会影响数据的插入速度。
发明内容
有鉴于此,本发明实施例提供一种数据重复性方法及装置,主要目的是可以提高数据重复性校验的效率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种数据重复性校验方法,该方法包括:
获取数据库对应的数据量信息;
根据所述数据量信息,创建布隆过滤器;
获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;
当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。
另一方面,本发明实施例还提供了一种数据重复性校验装置,该装置包括:
获取单元,用于获取数据库对应的数据量信息;
创建单元,用于根据所述获取单元获取的数据量信息,创建布隆过滤器;
所述获取单元,还用于获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;
保存单元,用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供的一种数据重复性校验方法及装置,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据重复性校验方法流程示意图;
图2为本发明实施例提供的另一种数据重复性校验方法流程示意图;
图3为本发明实施例提供的一种数据重复性校验装置结构示意图;
图4为本发明实施例提供的另一种数据重复性校验装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据重复性校验方法,如图1所示,所述方法包括:
101、获取数据库对应的数据量信息。
其中,所述数据量信息包含有数据库中当前已经存在的数据量。
102、根据数据量信息,创建布隆过滤器。
其中,所述布隆过滤器(Bloom Filter)的实现基础是一个很长的二进制位向量和一系列随机散列函数,是一种基于散列的查找算法,用于查找一个元素是否在集合中,和散列表相比,所述布隆过滤器的优点是空间效率和查询时间都远远超过一般的算法,可以对海量数据集进行表示和查找操作,存储空间和插入/查询时间都是常数,另外,哈希函数相互之间没有关系,方便由硬件并行实现;布隆过滤器不需要存储元素本身,在对保密要求非常严格的场合有优势。
需要说明的是,可以根据实际需求,将数据库中当前已经存在的数据量乘以相应的经验值,作为估算的布隆过滤器中容纳的元素数,例如,可以将数据库中当前已经存在的数据量N乘以10,作为估算的布隆过滤器中容纳的元素数M。为了创建布隆过滤器还需要误差容忍度的参数,可以根据实际情况进行配置,例如,误差容忍度p可以采用十万分之一。通过元素数和误差容忍度两个必要参数,可以确定创建布隆过滤器所需的其他参数,包括:所需要的内存大小以及hash function(哈希函数)的个数等,根据这些参数,初始化布隆过滤器。
103、获取数据库中预置字段信息对应的哈希值,并将哈希值保存在布隆过滤器中。
其中,所述预置字段信息可以为用于数据唯一性判断的字段信息,具体可以根据实际需求进行配置。
对于本发明实施例,可以将数据库中作为唯一性判断的字段按照一定的规则编码为一个字符串,再计算出其哈希值(根据需要可以是32位、64位或者更长),并全部读取到布隆过滤器中。
104、当布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存待插入数据。
其中,所述特征字段信息可以为在待插入数据中与预置字段标识信息对应的多个字段信息,所述预置字段标识信息可以为确定待插入数据唯一性的字段标识信息。
例如,当需要对网站贴吧中发表的文章帖子进行数据重复性校验时,预置字段标识信息可以配置为文章帖子对应的URL(Uniform Resource Locator,统一资源定位符)标识以及发布时间标识,与URL标识对应的字段信息可以为http://tieba.baidu.com/p/1050771140,与发布时间标识对应的字段信息可以为2010年1月1日18点38分20秒。
对于本发明实施例,当所述布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,则将所述待插入数据删除,不进行插入;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,可以将待插入数据进行插入。
本发明实施例提供的一种数据重复性校验方法,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。
本发明实施例提供了另一种数据重复性校验方法,如图2所示,所述方法包括:
201、获取数据库对应的数据量信息。
其中,所述数据量信息包含有数据库中当前已经存在的数据量。
202、根据数据量信息,创建布隆过滤器。
其中,所述布隆过滤器的概念解释可以参考步骤102中的相应解释,本发明实施例不做限定。
需要说明的是,所述步骤202具体包括:根据所述数据量信息,确定创建布隆过滤器的所需参数;根据所述布隆过滤器的所需参数,创建所述布隆过滤器。
具体地,可以根据实际需求,将数据库中当前已经存在的数据量乘以相应的经验值,作为估算的布隆过滤器中容纳的元素数。为了创建布隆过滤器还需要误差容忍度的参数,可以根据实际情况进行配置,通过元素数和误差容忍度两个必要参数,可以确定创建布隆过滤器所需的其他参数,包括:所需要的内存大小以及哈希函数的个数等,根据这些参数,初始化布隆过滤器。
进一步地,可以根据公式
Figure BDA0000834814810000061
计算出所需要的内存m,可以根据公式计算出哈希函数的个数,其中, 公式中n为元素数,p为误差容忍度,m为所需要的内存大小,k为哈希函数的个数。
203、获取数据库中不同预置字段信息分别对应的哈希值,并将哈希值保存在布隆过滤器中。
其中,所述预置字段信息可以为用于数据唯一性判断的字段信息,具体可以根据实际需求进行配置。对于本发明实施例,可以将数据库中作为唯一性判断的字段按照一定的规则编码为一个字符串,再计算出其哈希值(根据需要可以是32位、64位或者更长),并全部读取到布隆过滤器中。
204a、当布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存待插入数据。
其中,所述特征字段信息可以为在待插入数据中与预置字段标识信息对应的多个字段信息,所述预置字段标识信息可以为确定待插入数据唯一性的字段标识信息。
例如,当需要对博客网站中发表的博客文章进行数据重复性校验时,预置字段标识信息可以配置为博客文章对应的URL标识以及发布时间标识,与URL标识对应的字段信息可以为http://blog.sina.com.cn/s/blog_49818dcb0102w0y0.html?tj=1,与发布时间标识对应的字段信息可以为2011年6月2日22点10分10秒。
对于本发明实施例,所述方法还可以包括:从待插入数据中获取与预置字段标识信息对应的多个字段信息;根据预置编码规则将所述多个字段信息进行编码,得到所述多个字段信息对应的组合字段信息。需要说明的是,所述203具体可以包括:获取数据库中不同预置字段信息,根据不同预置字段标识信息分别对应的多个字段信息以及所述预置编码规则,将所述不同预置字段信息生成多个预置组合字段信息,将所述多个预置组合字段信息分别对应的哈希值保存在布隆过滤器中。此时所述步骤204a具体可以包括:当所述布隆过滤器中不存在所述组合字段信息对应的哈希值时,保存所述待插入数据。
其中,所述预置编码规则可以根据实际需求进行配置,也可以由系统默认配置,本发明实施例不做限定,具体可以为将多个字段信息分别对应的字符串进行连接。所述组合字段信息可以为由多个字段信息组合得到的一个字段信息。
例如,与预置字段标识信息对应的有四个字段信息,四个字段信息对应的字符串分别为http%3A%2F%2Fwww.w3school.com.cn%2Fhtml%2Fhtml_urlencode.asp、20110101、191918、1010101011010,将四个字段信息分别对应的字符串进行连接得到http%3A%2F%2Fwww.w3school.com.cn%2Fhtml%2Fhtml_urlencode.asp201101011919181010101011010。
需要说明的是,通过根据预置编码规则将多个特征字段信息进行编码得到组合字段信息,对组合字段信息与数据库中的组合字段信息进行匹配进而实现数据重复性校验,减少了数据匹配的次数,提高了数据重复性校验的效率,减少了分布式系统的负担。
205a、将待插入数据中特征字段信息对应的哈希值保存在布隆过滤器中。
对于本发明实施例,通过将待插入数据中特征字段信息对应的哈希值保存在布隆过滤器中,可以用于对新的待插入数据进行数据重复性校验,以提高数据重复性校验的准确性。
与步骤204a并列的步骤204b、当布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,将待插入数据进行删除。
本发明实施例提供的另一种数据重复性校验方法,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。
进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种数据重复性校验装置,如图3所示,所述装置包括:获取单元31、创建单元32、保存单元33。
所述获取单元31,可以用于获取数据库对应的数据量信息。
所述创建单元32,可以用于根据所述获取单元31获取的数据量信息,创建布隆过滤器。
所述获取单元31,还可以用于获取所述数据库中预置字段信息对应的哈希值。
所述保存单元33,可以用于将所述哈希值保存在所述布隆过滤器中。
所述保存单元33,还可以用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。
需要说明的是,本发明实施例提供的一种数据重复性校验装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。
本发明实施例提供的一种数据重复性校验装置,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。
进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种数据重复性校验装置,如图4所示,所述装置包括:获取单元41、创建单元42、保存单元43。
所述获取单元41,可以用于获取数据库对应的数据量信息。
所述创建单元42,可以用于根据所述获取单元41获取的数据量信息,创建布隆过滤器。
所述获取单元41,还可以用于获取所述数据库中不同预置字段信息分别对应的哈希值。
所述保存单元43,可以用于将所述哈希值保存在所述布隆过滤器中。
所述保存单元43,还可以用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。
进一步地,所述装置还包括:删除单元44。
删除单元,可以用于当所述布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据进行删除。
进一步地,所述创建单元42包括:确定模块421、创建模块422。
所述确定模块421,可以用于根据所述数据量信息,确定创建布隆过滤器的所需参数。
所述创建模块422,可以用于根据所述布隆过滤器的所需参数,创建所述布隆过滤器。
所述保存单元43,还可以用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据中特征字段信息对应的哈希值保存在所述布隆过滤器中。
进一步地,所述装置还包括:编码单元45。
所述获取单元41,还可以用于从待插入数据中获取与预置字段标识信息对应的多个字段信息。
所述编码单元45,可以用于根据预置编码规则将所述多个字段信息进行编码,得到所述多个字段信息对应的组合字段信息。
所述保存单元43,具体可以用于当所述布隆过滤器中不存在所述组合字段信息对应的哈希值时,保存所述待插入数据。
需要说明的是,本发明实施例提供的另一种数据重复性校验装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。
本发明实施例提供的另一种数据重复性校验装置,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。
所述数据重复性校验装置包括处理器和存储器,上述获取单元、创建单元、保存单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据重复性校验的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取数据库对应的数据量信息;根据所述数据量信息,创建布隆过滤器;获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种数据重复性校验方法,其特征在于,包括:
获取数据库对应的数据量信息;
根据所述数据量信息,创建布隆过滤器;
获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;
当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据;
所述方法还包括:
从待插入数据中获取与预置字段标识信息对应的多个字段信息;
根据预置编码规则将所述多个字段信息进行编码,得到所述多个字段信息对应的组合字段信息;所述组合字段信息为由多个字段信息组合得到的一个字段信息。
2.根据权利要求1所述的数据重复性校验方法,其特征在于,所述方法还包括:
当所述布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据进行删除。
3.根据权利要求1所述的数据重复性校验方法,其特征在于,所述根据所述数据量信息,创建布隆过滤器,包括:
根据所述数据量信息,确定创建布隆过滤器的所需参数;
根据所述布隆过滤器的所需参数,创建所述布隆过滤器。
4.根据权利要求1所述的数据重复性校验方法,其特征在于,所述当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据之后,所述方法还包括:
将所述待插入数据中特征字段信息对应的哈希值保存在所述布隆过滤器中。
5.根据权利要求1所述的数据重复性校验方法,其特征在于,所述当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据,包括:
当所述布隆过滤器中不存在所述组合字段信息对应的哈希值时,保存所述待插入数据。
6.一种数据重复性校验装置,其特征在于,包括:
获取单元,用于获取数据库对应的数据量信息;
创建单元,用于根据所述获取单元获取的数据量信息,创建布隆过滤器;
所述获取单元,还用于获取所述数据库中预置字段信息对应的哈希值;
保存单元,用于将所述哈希值保存在所述布隆过滤器中;
所述保存单元,还用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据;
所述装置还包括:编码单元;
所述获取单元,还用于从待插入数据中获取与预置字段标识信息对应的多个字段信息;
所述编码单元,用于根据预置编码规则将所述多个字段信息进行编码,得到所述多个字段信息对应的组合字段信息。
7.根据权利要求6所述的数据重复性校验装置,其特征在于,所述装置还包括:
删除单元,用于当所述布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据进行删除。
8.根据权利要求6所述的数据重复性校验装置,其特征在于,所述创建单元包括:
确定模块,用于根据所述数据量信息,确定创建布隆过滤器的所需参数;
创建模块,用于根据所述布隆过滤器的所需参数,创建所述布隆过滤器。
9.根据权利要求6所述的数据重复性校验装置,其特征在于,
所述保存单元,还用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据中特征字段信息对应的哈希值保存在所述布隆过滤器中。
10.根据权利要求6所述的数据重复性校验装置,其特征在于,
所述保存单元,具体用于当所述布隆过滤器中不存在所述组合字段信息对应的哈希值时,保存所述待插入数据。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的数据重复性校验方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的数据重复性校验方法。
CN201510728100.0A 2015-10-30 2015-10-30 数据重复性校验方法及装置 Active CN106649346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510728100.0A CN106649346B (zh) 2015-10-30 2015-10-30 数据重复性校验方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510728100.0A CN106649346B (zh) 2015-10-30 2015-10-30 数据重复性校验方法及装置

Publications (2)

Publication Number Publication Date
CN106649346A CN106649346A (zh) 2017-05-10
CN106649346B true CN106649346B (zh) 2020-09-22

Family

ID=58810005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510728100.0A Active CN106649346B (zh) 2015-10-30 2015-10-30 数据重复性校验方法及装置

Country Status (1)

Country Link
CN (1) CN106649346B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391034B (zh) * 2017-07-07 2019-05-10 华中科技大学 一种基于局部性优化的重复数据检测方法
CN110019048A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 基于MongoDB的文件处理方法、装置、系统及服务器
CN107944294A (zh) * 2017-11-24 2018-04-20 云易天成(北京)安全科技开发有限公司 基于布隆过滤器过滤数据库数据的数据防泄漏方法及设备
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN108920511B (zh) * 2018-05-30 2022-04-22 北京奇艺世纪科技有限公司 一种数据填充方法、装置及电子设备
CN111143720A (zh) * 2018-11-06 2020-05-12 顺丰科技有限公司 一种url去重方法、装置及存储介质
CN109828721B (zh) * 2019-01-23 2022-06-28 平安科技(深圳)有限公司 数据删除方法、装置、计算机设备及存储介质
CN110532251B (zh) * 2019-08-28 2021-11-05 东北大学 基于布隆过滤器算法的地震台网大数据去重的方法
CN110704226B (zh) * 2019-09-19 2023-02-17 贝壳技术有限公司 数据校验方法、装置及存储介质
CN112711684A (zh) * 2019-10-24 2021-04-27 北京国双科技有限公司 重复数据检测方法及装置
CN111047427A (zh) * 2019-11-26 2020-04-21 深圳市卡牛科技有限公司 数据上报方法、装置、服务器及存储介质
CN111291126B (zh) * 2020-02-28 2023-09-05 深信服科技股份有限公司 数据回收方法、装置、设备及存储介质
US11301440B2 (en) * 2020-06-18 2022-04-12 Lexisnexis Risk Solutions, Inc. Fuzzy search using field-level deletion neighborhoods
CN112162975A (zh) * 2020-09-25 2021-01-01 华南理工大学 基于单哈希均分布隆过滤器的重复数据删除技术实现方法
CN112529613A (zh) * 2020-11-27 2021-03-19 广州华多网络科技有限公司 用户连续登录数据的处理、虚拟资源的转移方法和装置
CN113377812A (zh) * 2021-01-08 2021-09-10 北京数衍科技有限公司 大数据的订单去重方法和装置
CN114786141B (zh) * 2022-04-29 2023-11-21 恒玄科技(上海)股份有限公司 一种蓝牙无线网格网络中的消息过滤方法及装置
CN115454983B (zh) * 2022-09-13 2023-07-14 浪潮卓数大数据产业发展有限公司 一种基于布隆过滤器的海量Hbase数据去重方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101958883A (zh) * 2010-03-26 2011-01-26 湘潭大学 一种基于Bloom Filter和开源内核防御SYN Flood攻击的方法
CN103279532A (zh) * 2013-05-31 2013-09-04 北京鹏宇成软件技术有限公司 多集合元素去重并标识所属集合的过滤系统及其方法
CN103970744A (zh) * 2013-01-25 2014-08-06 华中科技大学 一种可扩展的重复数据检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609449A (zh) * 2009-06-16 2009-12-23 浪潮电子信息产业股份有限公司 一种基于布鲁姆过滤器的数据块快速比较系统
CN102024046B (zh) * 2010-12-14 2013-04-24 华为数字技术(成都)有限公司 数据重复性校验方法和装置及系统
CN102298633B (zh) * 2011-09-08 2013-05-29 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及系统
US8504533B2 (en) * 2011-12-20 2013-08-06 Matthew Dewey De-duplication reference tag reconciliation
JP5842768B2 (ja) * 2012-08-22 2016-01-13 富士通株式会社 重複除去装置、重複除去方法及び重複除去プログラム
CN104424256B (zh) * 2013-08-28 2017-12-12 华为技术有限公司 布隆过滤器生成方法和装置
CN104636662B (zh) * 2013-11-15 2018-07-03 华为技术有限公司 一种数据处理方法和终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101958883A (zh) * 2010-03-26 2011-01-26 湘潭大学 一种基于Bloom Filter和开源内核防御SYN Flood攻击的方法
CN103970744A (zh) * 2013-01-25 2014-08-06 华中科技大学 一种可扩展的重复数据检测方法
CN103279532A (zh) * 2013-05-31 2013-09-04 北京鹏宇成软件技术有限公司 多集合元素去重并标识所属集合的过滤系统及其方法

Also Published As

Publication number Publication date
CN106649346A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106649346B (zh) 数据重复性校验方法及装置
CN106326309B (zh) 一种数据查询方法和装置
US9442929B2 (en) Determining documents that match a query
CN106897342B (zh) 一种数据校验方法和设备
US9953065B2 (en) Method for processing a database query
CN108140050B (zh) 一种使用布隆过滤器过滤文件的方法及装置
CN106610931B (zh) 话题名称的提取方法及装置
CN106547784A (zh) 一种数据拆分存储方法及装置
CN112015806A (zh) 区块链存储数据的方法及装置
CN106648839B (zh) 数据处理的方法和装置
CN107451204B (zh) 一种数据查询方法、装置及设备
US20170083537A1 (en) Mapping logical identifiers using multiple identifier spaces
CN117271571A (zh) 数据库唯一性约束处理方法、装置、设备及存储介质
CN111125087B (zh) 数据的存储方法及装置
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN106845787A (zh) 一种数据自动交换方法及装置
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
US20130226941A1 (en) System and method for classifying signals using the bloom filter
CN111291083A (zh) 网页源码数据处理方法、装置及计算机设备
CN108647243B (zh) 基于时间序列的工业大数据存储方法
CN115878803A (zh) 一种敏感数据检测方法、系统、计算机终端及存储介质
CN115293243A (zh) 数据资产智能匹配的实现方法、装置及设备
CN107092604B (zh) 一种文件处理方法和装置
CN110188301B (zh) 用于网站的信息聚合方法及装置
CN110929497B (zh) 文书确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant