CN112162975A - 基于单哈希均分布隆过滤器的重复数据删除技术实现方法 - Google Patents

基于单哈希均分布隆过滤器的重复数据删除技术实现方法 Download PDF

Info

Publication number
CN112162975A
CN112162975A CN202011024283.5A CN202011024283A CN112162975A CN 112162975 A CN112162975 A CN 112162975A CN 202011024283 A CN202011024283 A CN 202011024283A CN 112162975 A CN112162975 A CN 112162975A
Authority
CN
China
Prior art keywords
hash
data
bloom filter
partition
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011024283.5A
Other languages
English (en)
Inventor
齐德昱
俞快
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011024283.5A priority Critical patent/CN112162975A/zh
Publication of CN112162975A publication Critical patent/CN112162975A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于单哈希均分布隆过滤器的重复数据删除技术实现方法。所述方法首先使用一个分区范围内高要求的哈希函数,其次由k个哈希函数生成k个哈希映射,采用的k个哈希函数是计算量级极低的取模运算,然后再缩放映射到大小相同的分区;已经保存的数据通过计算生成一个单哈希均分布隆过滤器并保存;新数据通过生成新的单哈希均分布隆过滤器,如果映射块不重复则证明新数据不存在。本发明实现了一种基于单哈希均分布隆过滤器的重复数据删除技术实现方法,快速有效的过滤有可能重复的数据。

Description

基于单哈希均分布隆过滤器的重复数据删除技术实现方法
技术领域
本发明涉及计算机技术领域,具体涉及基于单哈希均分布隆过滤器的重复数据删除技术实现方法,
背景技术
现如今网络应用中经常有大量的数据排查,资格审查的需求,比如重复数据删除技术,在其中添加一个过滤器结构通常是不错的解决方案,其中布隆过滤器是最常使用的结构之一。尽管布隆过滤器在网络应用程序中有广泛的应用,但由于标准布隆过滤器(Standard Bloom filter,SBF)中对哈希函数的高要求(相互独立和良好的随机性)和有限的储存空间,导致布隆过滤器消耗的资源变多,算力下降,性价比降低。(此处可以举例)因此如何减少布隆过滤器消耗的资源,同时尽可能降低布隆过滤器的假阳性概率成为了研究的一大重点内容。
在重复数据删除技术中,有使用双重布隆过滤器结构以减小假阳性概率(张瑞,温蜜.基于Bloom Filtering检测的安全重复数据删除技术分析[J].上海电力学院学报,2017,33(04):402-406.),但使用的是标准布隆过滤器依然需要多个高要求的哈希函数消耗计算资源,还有使用技术布隆过滤器的方法(周斌,王晶奇,张莹.布隆过滤器在重复数据删除中的应用[J].电脑知识与技术,2014,10(08):1793-1795.),虽然可以实现数据的插入和删除但是依然需要使用多个高要求的哈希函数消耗计算资源,本发明提出的基于单哈希均分布隆过滤器的重复数据删除技术实现方法可以降低布隆过滤器本身需要消耗的计算资源,并且可以和双重布隆过滤器和技术布隆过滤器叠加使用。
本发明提出的基于单哈希均分布隆过滤器的重复数据删除技术实现方法,理论上假阳性概率接近标准布隆过滤器,但不需要依赖大量的高要求哈希函数,只需要选用一个同分区性能优秀的哈希函数,同时均等分区保证了单哈希均分布隆过滤器不错的稳定性。单哈希均分布隆过滤器的查询速度远快于标准布隆过滤器,且十分稳定,同时保持假阳性概率非常接近标准布隆过滤器。
事实上,单哈希均分布隆过滤器首先使用一个分区范围内高要求的哈希函数,其次依然由k个哈希函数生成k个哈希映射,但采用的k个哈希函数是计算量极低的取模运算,然后再放缩映射到大小相同的分区。取模运算虽然简单却能保证k个哈希函数的相对独立,相较于标准布隆过滤器的k个全域高要求的哈希函数,只需要选取其中的一个或分区范围内的高要求哈希函数作为母函数,这样就把计算量降低至少是标准布隆过滤器的1/k(甚至更低),虽然需要计算取模和均等分区映射的计算量,显然后续映射的计算量相较母函数而言不在同一个数量级。应用到重复数据删除技术等需要大数据过滤的情况中可以有更好的表现。
发明内容
本发明解决的技术问题是:提出一种应用于数据删除技术的基于高效率低假阳性的单哈希均分布隆过滤器方法。
本发明的目的至少通过如下技术方案之一实现。
基于单哈希均分布隆过滤器的重复数据删除技术实现方法,包括以下步骤:
S1、确定存储区域长度,确定分区长度,确定需要存储的包括D个数据的第一数据集D1,令j=1,确定待查询的第二数据集D2;
S2、选择一个存储区域范围内的高要求哈希函数,取第一数据集D1中的第j个数据dj进行哈希计算得到哈希值;
S3、将哈希值通过k个互相独立的取模运算计算出k个取模后的模值;
S4、将k个模值缩放映射到k个大小均分的区域,在各个分区中记录k个映射值;
S5、若j<D,则j=j+1,返回步骤S2,否则单哈希均分布隆过滤器存储信息生成完毕;
S6、根据第二数据集D2中的数据生成新的单哈希均分布隆过滤器信息,和步骤S5中已保存的存储信息进行对比检测,若未被单哈希均分布隆过滤器拒绝,则此数据为非重复数据,否则为重复数据,实现重复数据的删除。
进一步地,步骤S1中,存储区域长度是单哈希均分布隆过滤器的存储大小M,则最终各个分区的长度为M/k取整数部分,最后一块分区的长度可以小于M/k。
进一步地,步骤S2中,所述高要求哈希函数是要求该哈希函数发生哈希冲突的概率极低,包括但不仅限于MD5信息摘要算法(MD5 Message-Digest Algorithm,MD5)和循环冗余校验(Cyclic Redundancy Check,CRC)。
进一步地,步骤S3中,k个取模运算只需要满足k个取模互质,就可以保证满足k个取模运算相互独立,原理具体如下:
若哈希函数h(x)在区间[0,m1m2m3...mk-1]上均匀分布且mi是两两互质的正整数,令fi(x)=h(x)mod mi,则fi(x)相互独立,mi表示第i个质数,fi(x)表示第i个模值,1≤i≤k;
具体取值包括以下步骤:
S3.1、寻找k个最接近M/k的质数;
S3.2、利用哈希值对质数进行取模运算,得到k个取模的值。
进一步地,步骤S4中,均等分区映射可以很好的避免分区区间差距过大,将k个值缩放映射到k个大小均分的区域包括以下步骤:
S4.1、计算放缩映射fi(x)*pi/mi值的整数位,得到对应的各个分区的映射位,pi表示第i个分区,1≤i≤k;
S4.2、将对应的各个分区映射位的值设置为1,其余位置保持不变。
进一步地,步骤S6具体如下:
依次引入待查询的第二数据集D2中的数据,通过步骤S2、步骤S3和步骤S4计算出的各个分区的映射位,和步骤S5中保存的单哈希均分布隆过滤器的各个分区保存的映射位的值作比较,如果有根据带查询数据计算的任意分区对应的映射位的值为0,就代表此数据被保存的单哈希均分布隆过滤器拒绝,此带查询数据就一定是非重复数据,否则根据根据带查询数据计算的所有分区对应的映射位值都为1,则代表发现了重复数据,进而对其进行删除。
进一步地,对比不使用单哈希均分布隆过滤器有明显的提升,对比标准布隆过滤器,模运算的计算量要比高要求哈希函数运算量小,等分区映射通过的运算相对高要求哈希函数运算而言也相对简单,总体上相较于标准布隆过滤器运算量至少为其的2/k。
进一步地,在单哈希均分布隆过滤器中有两部分会发生假阳性,一种在哈希映射阶段发生,即哈希碰撞,用B表示此阶段发生假阳性。另一种是在取模和分区映射阶段产生假阳性,若哈希阶段未发生碰撞,但是取模和分区阶段发生碰撞,这样也会产生假阳性,综上,单哈希均分布隆过滤器的假阳性概率如下:
Figure BDA0002701666570000034
其中P(F)表示单哈希均分布隆过滤器发生假阳性的概率,P(B)的概率是哈希阶段的哈希碰撞概率,如果该过程发生假阳性,则单哈希均分布隆过滤器必然发生假阳性,P(B)和标准布隆过滤器中单个哈希函数的假阳性概率相同,即:
Figure BDA0002701666570000031
当H足够大,且远大于单哈希均分布隆过滤器的大小(即H>>m),则P(B)的值接近于零,可以忽略不计。取模部分的假阳性概率:
Figure BDA0002701666570000032
由于函数
Figure BDA0002701666570000033
关于x单调递减,所以:
Figure BDA0002701666570000041
其中mmax表示
Figure BDA0002701666570000042
mmin表示
Figure BDA0002701666570000043
可见p1在这个范围内取值,若mmax和mmin差距越大则p1的波动越大,所以本发明进行了同分的映射,同分区后假阳性概率:
Figure BDA0002701666570000044
其中
Figure BDA0002701666570000045
则:
Figure BDA0002701666570000046
可以看出同分区后的假阳性概率不再波动而是趋于标准布隆过滤器的假阳性概率,但是同分区映射过程对部分分区产生了压缩,其中这部分造成的影响:
Figure BDA0002701666570000047
当mmax足够大时,
Figure BDA0002701666570000048
也会很大,
Figure BDA0002701666570000049
的值接近1,且
Figure BDA00027016665700000410
所以压缩造成的损失部分在实际中可以忽略不计。由上述说明所述单哈希均分布隆过滤器的低假阳性概率。
相比于现有技术,本发明的优点在于:
本发明生成的单哈希均分布隆过滤器有高计算效率和低假阳性概率,相比较标准布隆过滤器减少了运算的消耗,提升了查询效率,理论上保证了取模过程的相互独立同时可以保证低假阳性概率,能在重复数据删除技术中进行大数据的快速过滤。
附图说明
图1是本实施例中单哈希均分布隆过滤器方法的流程示意图;
图2是本实施例中单哈希均分布隆过滤器方法中计算k个模值方法的流程示意图。
具体实施方式
下面结合附图及实施例,对本发明的具体实施作进一步的说明。
实施例:
基于单哈希均分布隆过滤器的重复数据删除技术实现方法,如图1所示,包括以下步骤:
S1、确定存储区域长度,确定分区长度,确定需要存储的包括D个数据的第一数据集D1,令j=1,确定待查询的第二数据集D2;
存储区域长度是单哈希均分布隆过滤器的存储大小M,则最终各个分区的长度为M/k取整数部分,最后一块分区的长度可以小于M/k。
本实施例中,第一数据集D1包含一个数据x1,存储区域长度为24,k为3,3分区p1、p2、p3的长度均为8;
S2、选择一个存储区域范围内的高要求哈希函数,取第一数据集D1中的第j个数据dj进行哈希计算得到哈希值;本实施例中,哈希函数是h(x),所得到的哈希值h(x1)为5439。
所述高要求哈希函数是要求该哈希函数发生哈希冲突的概率极低,包括但不仅限于MD5信息摘要算法(MD5 Message-Digest Algorithm,MD5)和循环冗余校验(CyclicRedundancy Check,CRC)。
S3、将哈希值通过k个互相独立的取模运算计算出k个取模后的模值;
如图2所示,k个取模运算只需要满足k个取模互质,就可以保证满足k个取模运算相互独立,原理具体如下:
若哈希函数h(x)在区间[0,m1m2m3...mk-1]上均匀分布且mi是两两互质的正整数,令fi(x)=h(x)mod mi,则fi(x)相互独立,mi表示第i个质数,fi(x)表示第i个模值,1≤i≤k;
具体取值包括以下步骤:
S3.1、寻找k个最接近M/k的质数;
S3.2、利用哈希值对质数进行取模运算,得到k个取模的值。
本实施例中,寻找离8最近的3个质数为5、7、11,取模m1=5,m2=7,m3=11,步骤S2中得到的哈希值5439经过f1(x)=5439mod m1,f2(x)=5439mod m2,f3(x)=5439mod m3取模运算后得到的3个模值fi(x),i=1,2,3,分别为4、0、5。
S4、将k个模值缩放映射到k个大小均分的区域,在各个分区中记录k个映射值;
均等分区映射可以很好的避免分区区间差距过大,将k个值缩放映射到k个大小均分的区域包括以下步骤:
S4.1、计算放缩映射fi(x)*pi/mi值的整数位,得到对应的各个分区的映射位,pi表示第i个分区,1≤i≤k;
本实施例中,m1、m2、m3在取模运算后得到4、0、5,分别放缩映射到大小为8的均等分区,得到对应的映射位为6、0、3,对应分区映射位置是p1的第6位、p2的第0位、p3的第3位。
S4.2、将对应的各个分区映射位的值设置为1,其余位置保持不变。
本实施例中,把p1的第6位、p2的第0位、p3的第3位设置为1,其余位置保持不变,仅保存本实施例的一个数据时其余位置不变为0。
S5、若j<D,则j=j+1,返回步骤S2,否则单哈希均分布隆过滤器存储信息生成完毕;
S6、根据第二数据集D2中的数据生成新的单哈希均分布隆过滤器信息,和步骤S5中已保存的存储信息进行对比检测,若未被单哈希均分布隆过滤器拒绝,则此数据为非重复数据,否则为重复数据,实现重复数据的删除,具体如下:
依次引入待查询的第二数据集D2中的数据,通过步骤S2、步骤S3和步骤S4计算出的各个分区的映射位,和S5中保存的单哈希均分布隆过滤器的各个分区保存的映射位的值作比较,如果有根据带查询数据计算的任意分区对应的映射位的值为0,就代表此数据被保存的单哈希均分布隆过滤器拒绝,此带查询数据就一定是非重复数据,否则根据根据带查询数据计算的所有分区对应的映射位值都为1,则代表发现了重复数据,进而对其进行删除。
本实施例中,假设第二数据集D2中的数据x2通过步骤S2中哈希函数h(x)计算出的哈希值为6635,通过步骤S3计算后得到三个值为0、6、2,再通过步骤S5计算后得到的映射位为0、6、1,对比单哈希均分布隆过滤器分区p1的第0位、p2的第6位、p3的第1位,发现p1的第0位是0,那么这个查询数据被拒绝,代表这个数据没有重复。
对比不使用单哈希均分布隆过滤器有明显的提升,对比标准布隆过滤器,模运算的计算量要比高要求哈希函数运算量小,等分区映射通过的运算相对高要求哈希函数运算而言也相对简单,总体上相较于标准布隆过滤器运算量至少为其的2/k。
在单哈希均分布隆过滤器中有两部分会发生假阳性,一种在哈希映射阶段发生,即哈希碰撞,用B表示此阶段发生假阳性。另一种是在取模和分区映射阶段产生假阳性,若哈希阶段未发生碰撞,但是取模和分区阶段发生碰撞,这样也会产生假阳性,综上,单哈希均分布隆过滤器的假阳性概率如下:
Figure BDA0002701666570000062
其中P(F)表示单哈希均分布隆过滤器发生假阳性的概率,P(B)的概率是哈希阶段的哈希碰撞概率,如果该过程发生假阳性,则单哈希均分布隆过滤器必然发生假阳性,P(B)和标准布隆过滤器中单个哈希函数的假阳性概率相同,即:
Figure BDA0002701666570000061
当H足够大,且远大于单哈希均分布隆过滤器的大小(即H>>m),则P(B)的值接近于零,可以忽略不计。取模部分的假阳性概率:
Figure BDA0002701666570000071
由于函数
Figure BDA0002701666570000072
关于x单调递减,所以:
Figure BDA0002701666570000073
其中mmax表示
Figure BDA0002701666570000074
mmin表示
Figure BDA0002701666570000075
可见p1在这个范围内取值,若mmax和mmin差距越大则p1的波动越大,所以本发明进行了同分的映射,同分区后假阳性概率:
Figure BDA0002701666570000076
其中
Figure BDA0002701666570000077
则:
Figure BDA0002701666570000078
可以看出同分区后的假阳性概率不再波动而是趋于标准布隆过滤器的假阳性概率,但是同分区映射过程对部分分区产生了压缩,其中这部分造成的影响:
Figure BDA0002701666570000079
当mmax足够大时,
Figure BDA00027016665700000710
也会很大,
Figure BDA00027016665700000711
的值接近1,且
Figure BDA00027016665700000712
所以压缩造成的损失部分在实际中可以忽略不计。由上述说明所述单哈希均分布隆过滤器的低假阳性概率。
本发明可以通过高效且低假阳性的方法过滤数据,并且可以很好的应用于重复数据删除技术中,同时与标准布隆过滤器相比,拥有更好的运算效率,更低的消耗,和更低的假阳性概率,从而可以更好的应用于各种需要快速过滤数据的算法和工程中,具有良好的可行性和实用性。
上述实施例的描述较为详尽,但仅仅表达了本发明的方法和一种可行的实施方式,并非对本发明的保护范围限制。需要指出的是,本领域的科研人员和工程人员,在本发明的框架下,可以在本实例的基础上加以若干变形或改进,同时可以应用于更多的场景,但这些都在本发明的保护范围之内。本发明的保护范围应以所附权利要求为准。

Claims (6)

1.基于单哈希均分布隆过滤器的重复数据删除技术实现方法,其特征在于,包括以下步骤:
S1、确定存储区域长度,确定分区长度,确定需要存储的包括D个数据的第一数据集D1,令j=1,确定待查询的第二数据集D2;
S2、选择一个存储区域范围内的高要求哈希函数,取第一数据集D1中的第j个数据dj进行哈希计算得到哈希值;
S3、将哈希值通过k个互相独立的取模运算计算出k个取模后的模值;
S4、将k个模值缩放映射到k个大小均分的区域,在各个分区中记录k个映射值;
S5、若j<D,则j=j+1,返回步骤S2,否则单哈希均分布隆过滤器存储信息生成完毕;
S6、根据第二数据集D2中的数据生成新的单哈希均分布隆过滤器信息,和步骤S5中已保存的存储信息进行对比检测,若未被单哈希均分布隆过滤器拒绝,则此数据为非重复数据,否则为可能重复数据,实现重复数据的删除。
2.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法,其特征在于,步骤S1中,存储区域长度是单哈希均分布隆过滤器的存储大小M,则最终各个分区的长度为M/k取整数部分,最后一块分区的长度可以小于M/k。
3.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法,其特征在于,步骤S2中,所述高要求哈希函数是要求该哈希函数发生哈希冲突的概率极低,包括但不仅限于MD5信息摘要算法(MD5 Message-Digest Algorithm,MD5)和循环冗余校验(Cyclic Redundancy Check,CRC)。
4.根据权利要求2所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法,其特征在于,步骤S3中,k个取模运算只需要满足k个取模互质,就可以保证满足k个取模运算相互独立,原理具体如下:
若哈希函数h(x)在区间[0,m1m2m3...mk-1]上均匀分布且mi是两两互质的正整数,令fi(x)=h(x)mod mi,则fi(x)相互独立,mi表示第i个质数,fi(x)表示第i个模值,1≤i≤k;
具体取值包括以下步骤:
S3.1、寻找k个最接近M/k的质数;
S3.2、利用哈希值对质数进行取模运算,得到k个取模的值。
5.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法,其特征在于,步骤S4中,均等分区映射可以很好的避免分区区间差距过大,将k个值缩放映射到k个大小均分的区域包括以下步骤:
S4.1、计算放缩映射fi(x)*pi/mi值的整数位,得到对应的各个分区的映射位,pi表示第i个分区,1≤i≤k;
S4.2、将对应的各个分区映射位的值设置为1,其余位置保持不变。
6.根据权利要求1所述的基于单哈希均分布隆过滤器的重复数据删除技术实现方法,其特征在于,步骤S6具体如下:
依次引入待查询的第二数据集D2中的数据,通过步骤S2、步骤S3和步骤S4计算出的各个分区的映射位,和步骤S5中保存的单哈希均分布隆过滤器的各个分区保存的映射位的值作比较,如果有根据带查询数据计算的任意分区对应的映射位的值为0,就代表此数据被保存的单哈希均分布隆过滤器拒绝,此带查询数据就一定是非重复数据,否则根据根据带查询数据计算的所有分区对应的映射位值都为1,则代表发现了重复数据,进而对其进行删除。
CN202011024283.5A 2020-09-25 2020-09-25 基于单哈希均分布隆过滤器的重复数据删除技术实现方法 Pending CN112162975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011024283.5A CN112162975A (zh) 2020-09-25 2020-09-25 基于单哈希均分布隆过滤器的重复数据删除技术实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011024283.5A CN112162975A (zh) 2020-09-25 2020-09-25 基于单哈希均分布隆过滤器的重复数据删除技术实现方法

Publications (1)

Publication Number Publication Date
CN112162975A true CN112162975A (zh) 2021-01-01

Family

ID=73863990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011024283.5A Pending CN112162975A (zh) 2020-09-25 2020-09-25 基于单哈希均分布隆过滤器的重复数据删除技术实现方法

Country Status (1)

Country Link
CN (1) CN112162975A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113315705A (zh) * 2021-04-26 2021-08-27 中国科学院计算机网络信息中心 基于单次哈希布隆过滤器的Flexible IP寻址方法及装置
CN113590606A (zh) * 2021-09-27 2021-11-02 浙江九州量子信息技术股份有限公司 一种基于布隆过滤器的大数据量密钥去重方法及系统
CN115941327A (zh) * 2022-12-08 2023-04-07 西安交通大学 一种基于学习型布隆过滤器的多层恶意url识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123102A (zh) * 2014-07-25 2014-10-29 华为技术有限公司 一种ip硬盘及其数据处理方法
KR101648317B1 (ko) * 2015-12-09 2016-08-16 성균관대학교산학협력단 항목 삭제를 지원하는 분할 블룸 필터를 이용한 데이터 검색 방법, 이를 이용한 캐시 메모리 장치 및 스토리지 장치
CN106570025A (zh) * 2015-10-10 2017-04-19 北京国双科技有限公司 一种数据过滤的方法及装置
CN106649346A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 数据重复性校验方法及装置
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN108460030A (zh) * 2017-02-17 2018-08-28 北京大学 一种基于改进的布隆过滤器的集合元素判断方法
US20180357434A1 (en) * 2017-06-08 2018-12-13 The Government Of The United States, As Represented By The Secretary Of The Army Secure Generalized Bloom Filter
CN111159436A (zh) * 2018-11-07 2020-05-15 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备
US10678778B1 (en) * 2017-10-19 2020-06-09 EMC IP Holding Company LLC Date deduplication acceleration

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123102A (zh) * 2014-07-25 2014-10-29 华为技术有限公司 一种ip硬盘及其数据处理方法
CN106570025A (zh) * 2015-10-10 2017-04-19 北京国双科技有限公司 一种数据过滤的方法及装置
CN106649346A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 数据重复性校验方法及装置
KR101648317B1 (ko) * 2015-12-09 2016-08-16 성균관대학교산학협력단 항목 삭제를 지원하는 분할 블룸 필터를 이용한 데이터 검색 방법, 이를 이용한 캐시 메모리 장치 및 스토리지 장치
CN108460030A (zh) * 2017-02-17 2018-08-28 北京大学 一种基于改进的布隆过滤器的集合元素判断方法
US20180357434A1 (en) * 2017-06-08 2018-12-13 The Government Of The United States, As Represented By The Secretary Of The Army Secure Generalized Bloom Filter
US10678778B1 (en) * 2017-10-19 2020-06-09 EMC IP Holding Company LLC Date deduplication acceleration
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN111159436A (zh) * 2018-11-07 2020-05-15 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢建元: "高性能哈希技术及其应用的研究", 《中国优秀博士学位论文全文数据库 信息科技辑》, pages 26 - 57 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113315705A (zh) * 2021-04-26 2021-08-27 中国科学院计算机网络信息中心 基于单次哈希布隆过滤器的Flexible IP寻址方法及装置
CN113315705B (zh) * 2021-04-26 2022-07-15 中国科学院计算机网络信息中心 基于单次哈希布隆过滤器的Flexible IP寻址方法及装置
CN113590606A (zh) * 2021-09-27 2021-11-02 浙江九州量子信息技术股份有限公司 一种基于布隆过滤器的大数据量密钥去重方法及系统
CN113590606B (zh) * 2021-09-27 2021-12-31 浙江九州量子信息技术股份有限公司 一种基于布隆过滤器的大数据量密钥去重方法及系统
CN115941327A (zh) * 2022-12-08 2023-04-07 西安交通大学 一种基于学习型布隆过滤器的多层恶意url识别方法

Similar Documents

Publication Publication Date Title
CN112162975A (zh) 基于单哈希均分布隆过滤器的重复数据删除技术实现方法
US8924687B1 (en) Scalable hash tables
US11522673B2 (en) Method and device for blockchain full sharding based on a P2P storage network and a multi-layer architecture
CN106874348B (zh) 文件存储和索引方法、装置及读取文件的方法
US20200213091A1 (en) Circuit and method for overcoming memory bottleneck of asic-resistant cryptographic algorithms
EP3384406A1 (en) Combining hashes of data blocks
US4588985A (en) Polynomial hashing
US8682902B2 (en) Storage device having full-text search function
CN103838770A (zh) 一种数据逻辑分区的方法和系统
US10042873B2 (en) Data encoding and processing columnar data
CN115470156A (zh) 基于rdma的内存使用方法、系统、电子设备和存储介质
CN115827555B (zh) 数据处理方法、计算机设备、存储介质和乘法器结构
CN110221778A (zh) 酒店数据的处理方法、系统、存储介质以及电子设备
CN108234552B (zh) 一种数据存储方法及装置
WO2005024583A2 (en) Methods and apparatus for modular reduction circuits
US20190190699A1 (en) Efficient hash table key storage
JP6961950B2 (ja) 格納方法、格納装置および格納プログラム
Chen et al. High Speed Winograd Convolutional Circuit for Convolutional Neural Networks
CN115543688B (zh) 备份方法、装置、代理端和存储介质
CN117873391A (zh) 芯片数据缓存方法、装置、计算机设备和存储介质
CN117540056B (zh) 数据查询的方法、装置、计算机设备和存储介质
US11947512B2 (en) Feedback-based inverted index compression
CN118467546A (zh) 数据流处理方法、装置、计算机设备和存储介质
CN116450669A (zh) 数据查询方法、装置、计算机设备、存储介质
CN109861949B (zh) 报文滤波方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination