CN112162975A

CN112162975A - 基于单哈希均分布隆过滤器的重复数据删除技术实现方法

Info

Publication number: CN112162975A
Application number: CN202011024283.5A
Authority: CN
Inventors: 齐德昱; 俞快
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-01

Abstract

本发明公开了一种基于单哈希均分布隆过滤器的重复数据删除技术实现方法。所述方法首先使用一个分区范围内高要求的哈希函数，其次由k个哈希函数生成k个哈希映射，采用的k个哈希函数是计算量级极低的取模运算，然后再缩放映射到大小相同的分区；已经保存的数据通过计算生成一个单哈希均分布隆过滤器并保存；新数据通过生成新的单哈希均分布隆过滤器，如果映射块不重复则证明新数据不存在。本发明实现了一种基于单哈希均分布隆过滤器的重复数据删除技术实现方法，快速有效的过滤有可能重复的数据。

Description

基于单哈希均分布隆过滤器的重复数据删除技术实现方法

技术领域

本发明涉及计算机技术领域，具体涉及基于单哈希均分布隆过滤器的重复数据删除技术实现方法，

背景技术

现如今网络应用中经常有大量的数据排查，资格审查的需求，比如重复数据删除技术，在其中添加一个过滤器结构通常是不错的解决方案，其中布隆过滤器是最常使用的结构之一。尽管布隆过滤器在网络应用程序中有广泛的应用，但由于标准布隆过滤器(Standard Bloom filter，SBF)中对哈希函数的高要求(相互独立和良好的随机性)和有限的储存空间，导致布隆过滤器消耗的资源变多，算力下降，性价比降低。(此处可以举例)因此如何减少布隆过滤器消耗的资源，同时尽可能降低布隆过滤器的假阳性概率成为了研究的一大重点内容。

在重复数据删除技术中，有使用双重布隆过滤器结构以减小假阳性概率(张瑞,温蜜.基于Bloom Filtering检测的安全重复数据删除技术分析[J].上海电力学院学报,2017,33(04):402-406.)，但使用的是标准布隆过滤器依然需要多个高要求的哈希函数消耗计算资源，还有使用技术布隆过滤器的方法(周斌,王晶奇,张莹.布隆过滤器在重复数据删除中的应用[J].电脑知识与技术,2014,10(08):1793-1795.)，虽然可以实现数据的插入和删除但是依然需要使用多个高要求的哈希函数消耗计算资源，本发明提出的基于单哈希均分布隆过滤器的重复数据删除技术实现方法可以降低布隆过滤器本身需要消耗的计算资源，并且可以和双重布隆过滤器和技术布隆过滤器叠加使用。

本发明提出的基于单哈希均分布隆过滤器的重复数据删除技术实现方法，理论上假阳性概率接近标准布隆过滤器，但不需要依赖大量的高要求哈希函数，只需要选用一个同分区性能优秀的哈希函数，同时均等分区保证了单哈希均分布隆过滤器不错的稳定性。单哈希均分布隆过滤器的查询速度远快于标准布隆过滤器，且十分稳定，同时保持假阳性概率非常接近标准布隆过滤器。

事实上，单哈希均分布隆过滤器首先使用一个分区范围内高要求的哈希函数，其次依然由k个哈希函数生成k个哈希映射，但采用的k个哈希函数是计算量极低的取模运算，然后再放缩映射到大小相同的分区。取模运算虽然简单却能保证k个哈希函数的相对独立，相较于标准布隆过滤器的k个全域高要求的哈希函数，只需要选取其中的一个或分区范围内的高要求哈希函数作为母函数，这样就把计算量降低至少是标准布隆过滤器的1/k(甚至更低)，虽然需要计算取模和均等分区映射的计算量，显然后续映射的计算量相较母函数而言不在同一个数量级。应用到重复数据删除技术等需要大数据过滤的情况中可以有更好的表现。

发明内容

本发明解决的技术问题是：提出一种应用于数据删除技术的基于高效率低假阳性的单哈希均分布隆过滤器方法。

本发明的目的至少通过如下技术方案之一实现。

基于单哈希均分布隆过滤器的重复数据删除技术实现方法，包括以下步骤：

S1、确定存储区域长度，确定分区长度，确定需要存储的包括D个数据的第一数据集D1，令j＝1，确定待查询的第二数据集D2；

S2、选择一个存储区域范围内的高要求哈希函数，取第一数据集D1中的第j个数据d_j进行哈希计算得到哈希值；

S3、将哈希值通过k个互相独立的取模运算计算出k个取模后的模值；

S4、将k个模值缩放映射到k个大小均分的区域，在各个分区中记录k个映射值；

S5、若j＜D，则j＝j+1，返回步骤S2，否则单哈希均分布隆过滤器存储信息生成完毕；

S6、根据第二数据集D2中的数据生成新的单哈希均分布隆过滤器信息，和步骤S5中已保存的存储信息进行对比检测，若未被单哈希均分布隆过滤器拒绝，则此数据为非重复数据，否则为重复数据，实现重复数据的删除。

进一步地，步骤S1中，存储区域长度是单哈希均分布隆过滤器的存储大小M，则最终各个分区的长度为M/k取整数部分，最后一块分区的长度可以小于M/k。

进一步地，步骤S2中，所述高要求哈希函数是要求该哈希函数发生哈希冲突的概率极低，包括但不仅限于MD5信息摘要算法(MD5 Message-Digest Algorithm，MD5)和循环冗余校验(Cyclic Redundancy Check，CRC)。

进一步地，步骤S3中，k个取模运算只需要满足k个取模互质，就可以保证满足k个取模运算相互独立，原理具体如下：

若哈希函数h(x)在区间[0,m₁m₂m₃...m_k-1]上均匀分布且m_i是两两互质的正整数，令f_i(x)＝h(x)mod m_i，则f_i(x)相互独立，m_i表示第i个质数，f_i(x)表示第i个模值，1≤i≤k；

具体取值包括以下步骤：

S3.1、寻找k个最接近M/k的质数；

S3.2、利用哈希值对质数进行取模运算，得到k个取模的值。

进一步地，步骤S4中，均等分区映射可以很好的避免分区区间差距过大，将k个值缩放映射到k个大小均分的区域包括以下步骤：

S4.1、计算放缩映射f_i(x)*p_i/m_i值的整数位，得到对应的各个分区的映射位，p_i表示第i个分区，1≤i≤k；

S4.2、将对应的各个分区映射位的值设置为1，其余位置保持不变。

进一步地，步骤S6具体如下：

依次引入待查询的第二数据集D2中的数据，通过步骤S2、步骤S3和步骤S4计算出的各个分区的映射位，和步骤S5中保存的单哈希均分布隆过滤器的各个分区保存的映射位的值作比较，如果有根据带查询数据计算的任意分区对应的映射位的值为0，就代表此数据被保存的单哈希均分布隆过滤器拒绝，此带查询数据就一定是非重复数据，否则根据根据带查询数据计算的所有分区对应的映射位值都为1，则代表发现了重复数据，进而对其进行删除。

进一步地，对比不使用单哈希均分布隆过滤器有明显的提升，对比标准布隆过滤器，模运算的计算量要比高要求哈希函数运算量小，等分区映射通过的运算相对高要求哈希函数运算而言也相对简单，总体上相较于标准布隆过滤器运算量至少为其的2/k。

进一步地，在单哈希均分布隆过滤器中有两部分会发生假阳性，一种在哈希映射阶段发生，即哈希碰撞，用B表示此阶段发生假阳性。另一种是在取模和分区映射阶段产生假阳性，若哈希阶段未发生碰撞，但是取模和分区阶段发生碰撞，这样也会产生假阳性，综上，单哈希均分布隆过滤器的假阳性概率如下：

其中P(F)表示单哈希均分布隆过滤器发生假阳性的概率，P(B)的概率是哈希阶段的哈希碰撞概率，如果该过程发生假阳性，则单哈希均分布隆过滤器必然发生假阳性，P(B)和标准布隆过滤器中单个哈希函数的假阳性概率相同，即：

当H足够大，且远大于单哈希均分布隆过滤器的大小(即H>>m)，则P(B)的值接近于零，可以忽略不计。取模部分的假阳性概率：

由于函数

关于x单调递减，所以：

其中m_max表示

m_min表示

可见p1在这个范围内取值，若m_max和m_min差距越大则p1的波动越大，所以本发明进行了同分的映射，同分区后假阳性概率：

其中

则：

可以看出同分区后的假阳性概率不再波动而是趋于标准布隆过滤器的假阳性概率，但是同分区映射过程对部分分区产生了压缩，其中这部分造成的影响：

当m_max足够大时，

也会很大，

的值接近1，且

所以压缩造成的损失部分在实际中可以忽略不计。由上述说明所述单哈希均分布隆过滤器的低假阳性概率。

相比于现有技术，本发明的优点在于：

本发明生成的单哈希均分布隆过滤器有高计算效率和低假阳性概率，相比较标准布隆过滤器减少了运算的消耗，提升了查询效率，理论上保证了取模过程的相互独立同时可以保证低假阳性概率，能在重复数据删除技术中进行大数据的快速过滤。

附图说明

图1是本实施例中单哈希均分布隆过滤器方法的流程示意图；

图2是本实施例中单哈希均分布隆过滤器方法中计算k个模值方法的流程示意图。

具体实施方式

下面结合附图及实施例，对本发明的具体实施作进一步的说明。

实施例：

基于单哈希均分布隆过滤器的重复数据删除技术实现方法，如图1所示，包括以下步骤：

存储区域长度是单哈希均分布隆过滤器的存储大小M，则最终各个分区的长度为M/k取整数部分，最后一块分区的长度可以小于M/k。

本实施例中，第一数据集D1包含一个数据x₁，存储区域长度为24，k为3，3分区p₁、p₂、p₃的长度均为8；

S2、选择一个存储区域范围内的高要求哈希函数，取第一数据集D1中的第j个数据d_j进行哈希计算得到哈希值；本实施例中，哈希函数是h(x)，所得到的哈希值h(x₁)为5439。

所述高要求哈希函数是要求该哈希函数发生哈希冲突的概率极低，包括但不仅限于MD5信息摘要算法(MD5 Message-Digest Algorithm，MD5)和循环冗余校验(CyclicRedundancy Check，CRC)。

如图2所示，k个取模运算只需要满足k个取模互质，就可以保证满足k个取模运算相互独立，原理具体如下：

具体取值包括以下步骤：

S3.1、寻找k个最接近M/k的质数；

S3.2、利用哈希值对质数进行取模运算，得到k个取模的值。

本实施例中，寻找离8最近的3个质数为5、7、11，取模m₁＝5，m₂＝7，m₃＝11，步骤S2中得到的哈希值5439经过f₁(x)＝5439mod m₁，f₂(x)＝5439mod m₂，f₃(x)＝5439mod m₃取模运算后得到的3个模值f_i(x),i＝1，2，3,分别为4、0、5。

均等分区映射可以很好的避免分区区间差距过大，将k个值缩放映射到k个大小均分的区域包括以下步骤：

本实施例中，m₁、m₂、m₃在取模运算后得到4、0、5，分别放缩映射到大小为8的均等分区，得到对应的映射位为6、0、3，对应分区映射位置是p₁的第6位、p₂的第0位、p₃的第3位。

本实施例中，把p₁的第6位、p₂的第0位、p₃的第3位设置为1，其余位置保持不变，仅保存本实施例的一个数据时其余位置不变为0。

S6、根据第二数据集D2中的数据生成新的单哈希均分布隆过滤器信息，和步骤S5中已保存的存储信息进行对比检测，若未被单哈希均分布隆过滤器拒绝，则此数据为非重复数据，否则为重复数据，实现重复数据的删除，具体如下：

依次引入待查询的第二数据集D2中的数据，通过步骤S2、步骤S3和步骤S4计算出的各个分区的映射位，和S5中保存的单哈希均分布隆过滤器的各个分区保存的映射位的值作比较，如果有根据带查询数据计算的任意分区对应的映射位的值为0，就代表此数据被保存的单哈希均分布隆过滤器拒绝，此带查询数据就一定是非重复数据，否则根据根据带查询数据计算的所有分区对应的映射位值都为1，则代表发现了重复数据，进而对其进行删除。

本实施例中，假设第二数据集D2中的数据x₂通过步骤S2中哈希函数h(x)计算出的哈希值为6635，通过步骤S3计算后得到三个值为0、6、2，再通过步骤S5计算后得到的映射位为0、6、1，对比单哈希均分布隆过滤器分区p₁的第0位、p₂的第6位、p₃的第1位，发现p₁的第0位是0，那么这个查询数据被拒绝，代表这个数据没有重复。

对比不使用单哈希均分布隆过滤器有明显的提升，对比标准布隆过滤器，模运算的计算量要比高要求哈希函数运算量小，等分区映射通过的运算相对高要求哈希函数运算而言也相对简单，总体上相较于标准布隆过滤器运算量至少为其的2/k。

在单哈希均分布隆过滤器中有两部分会发生假阳性，一种在哈希映射阶段发生，即哈希碰撞，用B表示此阶段发生假阳性。另一种是在取模和分区映射阶段产生假阳性，若哈希阶段未发生碰撞，但是取模和分区阶段发生碰撞，这样也会产生假阳性，综上，单哈希均分布隆过滤器的假阳性概率如下：

由于函数

关于x单调递减，所以：

其中m_max表示

m_min表示

其中

则：

当m_max足够大时，

也会很大，

的值接近1，且

本发明可以通过高效且低假阳性的方法过滤数据，并且可以很好的应用于重复数据删除技术中，同时与标准布隆过滤器相比，拥有更好的运算效率，更低的消耗，和更低的假阳性概率，从而可以更好的应用于各种需要快速过滤数据的算法和工程中，具有良好的可行性和实用性。

上述实施例的描述较为详尽，但仅仅表达了本发明的方法和一种可行的实施方式，并非对本发明的保护范围限制。需要指出的是，本领域的科研人员和工程人员，在本发明的框架下，可以在本实例的基础上加以若干变形或改进，同时可以应用于更多的场景，但这些都在本发明的保护范围之内。本发明的保护范围应以所附权利要求为准。

Claims

1.基于单哈希均分布隆过滤器的重复数据删除技术实现方法，其特征在于，包括以下步骤：

S6、根据第二数据集D2中的数据生成新的单哈希均分布隆过滤器信息，和步骤S5中已保存的存储信息进行对比检测，若未被单哈希均分布隆过滤器拒绝，则此数据为非重复数据，否则为可能重复数据，实现重复数据的删除。

2.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法，其特征在于，步骤S1中，存储区域长度是单哈希均分布隆过滤器的存储大小M，则最终各个分区的长度为M/k取整数部分，最后一块分区的长度可以小于M/k。

3.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法，其特征在于，步骤S2中，所述高要求哈希函数是要求该哈希函数发生哈希冲突的概率极低，包括但不仅限于MD5信息摘要算法(MD5 Message-Digest Algorithm，MD5)和循环冗余校验(Cyclic Redundancy Check，CRC)。

4.根据权利要求2所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法，其特征在于，步骤S3中，k个取模运算只需要满足k个取模互质，就可以保证满足k个取模运算相互独立，原理具体如下：

具体取值包括以下步骤：

S3.1、寻找k个最接近M/k的质数；

S3.2、利用哈希值对质数进行取模运算，得到k个取模的值。

5.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法，其特征在于，步骤S4中，均等分区映射可以很好的避免分区区间差距过大，将k个值缩放映射到k个大小均分的区域包括以下步骤：

6.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法，其特征在于，步骤S6具体如下：