CN115510092A - 一种基于布谷鸟过滤器的近似成员查询优化方法 - Google Patents

一种基于布谷鸟过滤器的近似成员查询优化方法 Download PDF

Info

Publication number
CN115510092A
CN115510092A CN202211184924.2A CN202211184924A CN115510092A CN 115510092 A CN115510092 A CN 115510092A CN 202211184924 A CN202211184924 A CN 202211184924A CN 115510092 A CN115510092 A CN 115510092A
Authority
CN
China
Prior art keywords
filter
elements
relocation
request
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211184924.2A
Other languages
English (en)
Other versions
CN115510092B (zh
Inventor
谢平
华文镝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Normal University
Original Assignee
Qinghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Normal University filed Critical Qinghai Normal University
Priority to CN202211184924.2A priority Critical patent/CN115510092B/zh
Publication of CN115510092A publication Critical patent/CN115510092A/zh
Application granted granted Critical
Publication of CN115510092B publication Critical patent/CN115510092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24549Run-time optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于布谷鸟过滤器的近似成员查询优化方法,首先是要根据存储集合的大小使用“Balls in Bins”模型计算应该对过滤器分成几个子过滤器,每个元素的所有操作都在其所在的子过滤器内。对于后续元素插入无限循环情况的判定也在此时依据集合元素个数进行计算。在元素插入时,首先利用基于位移操作的随即映射方式计算元素的两个候选桶,随后使用“积极主动”的插入策略将元素第一个候选桶的最后一个槽预留给其他元素进行重定位。重定位时从后向前检查同种的空槽,减少检查槽的个数。同时,在元素重定位的过程中,使用计算所得的动态阈值来对无限循环问题进行判定。本发明具有更高效的空间使用效率、更优良的元素插入操作和更快的无限循环判定。

Description

一种基于布谷鸟过滤器的近似成员查询优化方法
技术领域
本发明涉及大数据存储与高性能计算技术领域,具体涉及一种基于布谷鸟过滤器的近似成员查询优化方法。
背景技术
随着互联网在社会各个行业中的发展,整个社会进入了一个大数据的时代。海量的数据对于存储系统底层的处理技术要求越来越高,只有快速高效地处理底层的数据才能保证上层的高性能服务。成员查询即查询一个对象是否属于被存储的系统之中,是存储系统中一个最常见的请求。在优化成员查询时,现有的优化方案用“查询准确率换空间”的方法,在内存中维护一个以布隆过滤器为代表的近似成员查询结构,在具有极小的单向误判率下,提高整体的成员查询操作性能。
然而,目前的近似成员查询结构存在很大的问题。大多无法兼容高效的空间效率、较低的查询误判率和良好的操作性能。近似成员查询结构按照元素表示方法分为“离散bit”法和“元素指纹”法,“离散bit”法有较高的空间效率,但是查询误判率表现不佳。在众多的方案中,布谷鸟过滤器是一个综合表现较好的近似成员查询结构。
传统布谷鸟过滤器(包括以上两个专利)为了加速元素到过滤器桶的随机索引速度,将桶的总个数设置为2n,这样就可以让“位与(&)”操作代替“模(mod)”操作。但是这在很多情况下导致空间效率低下,因为这样的设置不够灵活,最坏的情况下,空间效率可能超过50%。如元素个数为511,为了满足2n和事前设定的空间效率,过滤器桶的个数就要设置为1024。且在元素的插入操作中,需要额外的空间来存储辅助信息,如CN110222088A中需要保存每个桶的重定位次数,并且在元素重定位的过程中还要去更新这些值,不仅需要存储空间还要进入额外的操作,非常耗时,当过滤器很大时,两个候选桶的距离可能很远,容易需要多一次的内存访问。并且由于没有“分块”机制,内存缺页的概率更大。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于布谷鸟过滤器的近似成员查询优化方法,通过对过滤器进行分块,划分为子过滤器;积极主动的元素插入策略;双向探测的元素重定位方法;动态的无限循环问题阈值,本发明近似成员查询方法优化了空间使用效率,有效提高了处理请求过程中的操作性能,加速了无限循环问题的判定时间,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于布谷鸟过滤器的近似成员查询优化方法,包括如下步骤:
步骤一、根据集合的元素数量计算无限循环阈值;
步骤二、对布谷鸟过滤器进行分块,划分为各子过滤器;
步骤三、在用户发起请求之前,将集合中的元素插入到过滤器中,每个元素随机映射到一个子过滤器中的两个映射候选桶中,所有元素的映射候选桶都受限于一个子过滤器中,使用基于位移操作的随机映射方式为元素计算其两个候选桶的索引位置;
步骤四、使用“积极主动”的元素插入策略把元素插入到映射桶中;
步骤五、对于使用“积极主动”插入策略未能插入成功的元素,进入元素重定位阶段,在动态重定位阈值的检测下,从后向前探测每一个重定位桶中是否存在“空槽”;当元素重定位的次数达到重定位阈值时,则认为该元素陷入了无限循环中,元素插入失败;
步骤六、插入结束后,接受外部的用户请求,用户的外部请求可以直接在内存中的过滤器中完成,无需进入真正的集合中去操作。
优选的,在步骤二中,采用“Balls in Bins”模型对布谷鸟过滤器进行分块,每个分块大小相同,桶数为2m;分块的策略是让每个块中的最大元素个数在小于设定的空间效率的情况下,让块的大小最小,尽可能多的对过滤器进行分块。
优选的,所述“积极主动”的元素插入策略具体是:
设每个映射桶共有b个槽,插入元素时,对于第一个候选桶仅检查前b-1个槽是否有空,如果存在空则插入元素,如果没有空也不再检查最后一个槽,将其留给其他元素重定位时使用,进而检查第二个候选桶;
对于第二个候选桶则检查其中所有的槽是否有空,如果有空就插入元素。
优选的,在步骤五中,元素重定位具体包括:随机选择第二个候选桶中的一个元素,将其踢出槽以插入这个待插入元素,被踢出的元素递归地寻找其两个候选桶中另外一个是否存在空槽可以插入,查找的顺序为从后向前,完成元素重定位。
优选的,在步骤五中,动态重定位阈值是根据集合元素的数量来计算的,具体如下:
Figure BDA0003867103590000031
其中,d表示每个元素的候选桶个数,b表示每个桶中槽的个数,C则表示过滤器整体中分块的个数。
优选的,步骤六中,外部的用户请求包括元素查询请求、元素插入请求和元素删除请求。
优选的,对于元素查询请求,使用插入时相同的映射函数,将元素映射到两个桶中,只需检查对应桶中的所有元素是否有待查找的元素即可;
对于元素插入请求,使用“积极主动”的元素插入策略和元素重定位来进行插入,如果在重定位时达到了重定位阈值时,则说明不可以再插入元素,停止插入;
对于元素删除请求,首先发起元素查询请求,找到该元素后,则先在集合中删除,再删除过滤器中的对应信息。
本发明的有益效果是:
1)本发明具有更高效的空间使用效率:原始布谷鸟过滤器为了对元素进行快速地随机映射,将过滤器桶的个数直接设置为2的n次幂。本发明通过对过滤器进行分块,过滤器总的桶数变成了许多个小2的m次幂。这样间接地减小了过滤器的粒度,从而大大提高过滤器的空间使用效率,使得在实际操作中,空间效率大多数情况下都能十分接近设定的值。
(2)本发明具有更优良的元素插入操作:元素插入操作在布谷鸟过滤器中是最复杂且最消耗时间的,因为元素插入操作需要大量的元素重定位操作,而可能造成内存的缺页中断。本发明“积极主动”插入策略将每个元素对应第一个候选桶的最后一个槽预留给其他元素进行重定位,减少了元素重定位时检查桶的次数,并且在重定位时从后向前探测空槽,大大减少了检查槽的个数,提升了元素插入操作的总体性能。
(3)本发明具又更快的无限循环判定:本发明策略根据所要存储集合的元素个数动态地计算一个关于无限循环的阈值,通过“自适应”的阈值设定,减少了陷入无限循环中元素的无效重定位,进而优化元素插入操作的性能。以上三点都会为存储系统提供一个更高效的近似成员查询优化方法。
附图说明
图1为本发明基于布谷鸟过滤器的高效近似成员查询优化方法流程图;
图2为本发明基于布谷鸟过滤器的高效近似成员查询结构架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供一种技术方案:一种基于布谷鸟过滤器的近似成员查询优化方法,如图1所示,包括如下步骤:
步骤一、根据集合的元素数量计算无限循环阈值;
步骤二、对布谷鸟过滤器进行分块,划分为各子过滤器;
使用“Balls in Bins”模型计算在每种分块情况下每个子过滤器中的最大元素个数,采用“Balls in Bins”模型对布谷鸟过滤器进行分块,每个分块大小相同,桶数为2m;分块的策略是让每个块中的最大元素个数在小于设定的空间效率的情况下,让块的大小最小,尽可能多的对过滤器进行分块,
步骤三、在用户发起请求之前,将集合中的元素插入到过滤器中,每个元素随机映射到一个子过滤器中的两个映射候选桶中,所有元素的映射候选桶都受限于一个子过滤器中,使用一种新型的基于位移操作的随机映射方式为元素计算其两个候选桶的索引位置;
步骤四、使用“积极主动”的元素插入策略把元素插入到映射桶中;
“积极主动”的元素插入策略:设每个映射桶共有b个槽,插入元素时,对于第一个候选桶仅检查前b-1个槽是否有空,如果存在空则插入元素,如果没有空也不再检查最后一个槽,将其留给其他元素重定位时使用,进而检查第二个候选桶;
对于第二个候选桶,则不再进行预留,检查其中所有的槽是否有空,如果有空就插入元素。
步骤五、对于使用“积极主动”插入策略未能插入成功的元素,进入元素重定位阶段,在动态重定位阈值的检测下,从后向前探测每一个重定位桶中是否存在“空槽”;当元素重定位的次数达到重定位阈值时,则认为该元素陷入了无限循环中,元素永远无法插入成功过滤器中,元素插入失败;
元素重定位具体包括:随机选择第二个候选桶中的一个元素,将其踢出槽以插入这个待插入元素,被踢出的元素递归地寻找其两个候选桶中另外一个是否存在空槽可以插入,查找的顺序不再是从前向后,而是从后向前,完成元素重定位。
动态重定位阈值是根据集合元素的数量来计算的,具体如下:
Figure BDA0003867103590000061
其中,d表示每个元素的候选桶个数,b表示每个桶中槽的个数,C则表示过滤器整体中分块的个数。这样就可以在仍然保证极小出现无限循环误判的情况下,更快地对无限循环问题进行判定。
步骤六、插入结束后,接受外部的用户请求,用户的外部请求可以直接在内存中的过滤器中完成,无需进入真正的集合中去操作。
外部的用户请求包括元素查询请求、元素插入请求和元素删除请求。
对于元素查询请求,使用插入时相同的映射函数,将元素映射到两个桶中,只需检查对应桶中的所有元素是否有待查找的元素即可。
对于元素插入请求,使用“积极主动”的元素插入策略和元素重定位来进行插入,如果在重定位时达到了重定位阈值时,则说明不可以再插入元素,停止插入。
对于元素删除请求,首先发起元素查询请求,找到该元素后,则先在集合中删除,再删除过滤器中的对应信息。
本发明公开的高效近似成员查询优化方法,其近似成员查询结构如图2所示,结构用于优化数据存储系统中的成员查询操作。首先是要根据存储集合的大小使用“Balls inBins”模型计算应该对过滤器分成几个子过滤器,每个元素的所有操作都在其所在的子过滤器内。另外,对于后续元素插入无限循环情况的判定也在此时依据集合元素个数进行计算。在元素插入时,首先利用基于位移操作的随即映射方式计算元素的两个候选桶,随后使用“积极主动”的插入策略将元素第一个候选桶的最后一个槽预留给其他元素进行重定位。当元素进行重定位,可以从后向前检查同种的空槽,从而减少检查槽的个数。同时,在元素重定位的过程中,使用计算所得的动态阈值来对无限循环问题进行判定。
实施例2
基于布谷鸟过滤器的近似成员查询优化方法,包括如下实施步骤:
(1)初始化结构,根据元素个数对整个过滤器进行分块,并在内存中开辟对应适当大小的空间。
(2)在用户发起请求之前,将集合中的元素插入到过滤器中,将每个元素随机映射到一个子过滤器中的两个桶中。
(3)每个子过滤器中的桶数保持相同,且是2的n次幂个。使用“积极主动”的元素插入策略尝试把元素插入到映射桶中。特殊的桶数让位于运算代替模运算,提高元素随机映射的速度。元素两个映射桶位置则使用异或元素,能使其知道任何一个的情况下,快速地计算另一个的位置。
(4)使用“积极主动”插入策略未能插入成功的元素,进入元素重定位阶段。在动态重定位阈值的检测下,从后向前探测每一个重定位桶中是否存在“空槽”。
(5)插入结束后,即可接受外部的用户请求,这些外部请求大部分可以直接在内存中的过滤器中完成,而无需进入真正的集合中去操作。外部的用户请求可以是“插入请求”、“查询请求”和“删除请求”。
(6)对于元素查询请求,使用插入时相同的映射函数,将元素映射到两个桶中,只需检查对应桶中的所有元素是否有待查找的元素即可。如果没有找到,则直接返回否定的结果即可。如果找到了元素,由于“查询误判率”的存在,还需要发起一个内部请求,来检查这个结果并返回。
(7)对于元素插入请求,则与最开始的插入元素一样,但如果在重定位时达到了阈值,则说明不可以再插入元素了。另外,在过滤器插入成功后,还需要发起内部请求将元素同样插入到集合中。
(8)对于元素删除请求,首先发起元素查询请求,如果成功找到该元素,则先在集合中删除,再删除过滤器中的对应信息,避免先删除过滤器中元素而导致多一次的集合访问。元素的删除请求在过滤器返回“存在该元素”的情况下同样会产生一次内部请求。
(9)每一个用户外部请求都按照步骤(6)、(7)和(8)进行操作。至此,本发明基于布谷鸟过滤器的高效近似成员查询优化方法步骤全部结束。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于布谷鸟过滤器的近似成员查询优化方法,其特征在于,包括如下步骤:
步骤一、根据集合的元素数量计算无限循环阈值;
步骤二、对布谷鸟过滤器进行分块,划分为各子过滤器;
步骤三、在用户发起请求之前,将集合中的元素插入到过滤器中,每个元素随机映射到一个子过滤器中的两个映射候选桶中,所有元素的映射候选桶都受限于一个子过滤器中,使用基于位移操作的随机映射方式为元素计算其两个候选桶的索引位置;
步骤四、使用“积极主动”的元素插入策略把元素插入到映射桶中;
步骤五、对于使用“积极主动”插入策略未能插入成功的元素,进入元素重定位阶段,在动态重定位阈值的检测下,从后向前探测每一个重定位桶中是否存在“空槽”;当元素重定位的次数达到重定位阈值时,则认为该元素陷入了无限循环中,元素插入失败;
步骤六、插入结束后,接受外部的用户请求,用户的外部请求可以直接在内存中的过滤器中完成,无需进入真正的集合中去操作。
2.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:在步骤二中,采用“Balls in Bins”模型对布谷鸟过滤器进行分块,每个分块大小相同,桶数为2m;分块的策略是让每个块中的最大元素个数在小于设定的空间效率的情况下,让块的大小最小,尽可能多的对过滤器进行分块。
3.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:所述“积极主动”的元素插入策略具体是:
设每个映射桶共有b个槽,插入元素时,对于第一个候选桶仅检查前b-1个槽是否有空,如果存在空则插入元素,如果没有空也不再检查最后一个槽,将其留给其他元素重定位时使用,进而检查第二个候选桶;
对于第二个候选桶则检查其中所有的槽是否有空,如果有空就插入元素。
4.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:在步骤五中,元素重定位具体包括:随机选择第二个候选桶中的一个元素,将其踢出槽以插入这个待插入元素,被踢出的元素递归地寻找其两个候选桶中另外一个是否存在空槽可以插入,查找的顺序为从后向前,完成元素重定位。
5.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:在步骤五中,动态重定位阈值是根据集合元素的数量来计算的,具体如下:
Figure FDA0003867103580000021
其中,d表示每个元素的候选桶个数,b表示每个桶中槽的个数,C则表示过滤器整体中分块的个数。
6.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:步骤六中,外部的用户请求包括元素查询请求、元素插入请求和元素删除请求。
7.根据权利要求6所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:
对于元素查询请求,使用插入时相同的映射函数,将元素映射到两个桶中,只需检查对应桶中的所有元素是否有待查找的元素即可;
对于元素插入请求,使用“积极主动”的元素插入策略和元素重定位来进行插入,如果在重定位时达到了重定位阈值时,则说明不可以再插入元素,停止插入;
对于元素删除请求,首先发起元素查询请求,找到该元素后,则先在集合中删除,再删除过滤器中的对应信息。
CN202211184924.2A 2022-09-27 2022-09-27 一种基于布谷鸟过滤器的近似成员查询优化方法 Active CN115510092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211184924.2A CN115510092B (zh) 2022-09-27 2022-09-27 一种基于布谷鸟过滤器的近似成员查询优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211184924.2A CN115510092B (zh) 2022-09-27 2022-09-27 一种基于布谷鸟过滤器的近似成员查询优化方法

Publications (2)

Publication Number Publication Date
CN115510092A true CN115510092A (zh) 2022-12-23
CN115510092B CN115510092B (zh) 2023-05-12

Family

ID=84505654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211184924.2A Active CN115510092B (zh) 2022-09-27 2022-09-27 一种基于布谷鸟过滤器的近似成员查询优化方法

Country Status (1)

Country Link
CN (1) CN115510092B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467307A (zh) * 2023-03-29 2023-07-21 济南大学 一种用于降低假阳率的布谷鸟过滤器设计方法及系统
CN117891858A (zh) * 2024-03-14 2024-04-16 苏州大学 一种时空高效的并行近似成员查询方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222088A (zh) * 2019-05-20 2019-09-10 华中科技大学 基于插入位置选择的数据近似集合表示方法及系统
CN110933149A (zh) * 2019-11-18 2020-03-27 湖南警察学院 一种云存储安全去重方法和系统
CN113535706A (zh) * 2021-08-03 2021-10-22 重庆赛渝深科技有限公司 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN114706834A (zh) * 2022-03-18 2022-07-05 中国人民解放军国防科技大学 一种高效率的动态集合管理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222088A (zh) * 2019-05-20 2019-09-10 华中科技大学 基于插入位置选择的数据近似集合表示方法及系统
CN110933149A (zh) * 2019-11-18 2020-03-27 湖南警察学院 一种云存储安全去重方法和系统
CN113535706A (zh) * 2021-08-03 2021-10-22 重庆赛渝深科技有限公司 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN114706834A (zh) * 2022-03-18 2022-07-05 中国人民解放军国防科技大学 一种高效率的动态集合管理方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN FAN等: "Cuckoo Filter: Practically Better Than Bloom", 《CONEXT\'14:PROCEEDINGS OF THE 10TH ACM INTERNATIONAL ON CONFERENCE ON EMERGING NETWORKING EXPERIMENTS AND TECHNOLOGIES》 *
PEDRO REVIRIEGO等: "APPROXIMATE MEMBERSHIP QUERY FILTERS WITH A FALSE POSITIVE FREE SET", "ARXIV:2111.06856V1[CS.DS]" *
华文镝等: "布隆过滤器研究综述", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467307A (zh) * 2023-03-29 2023-07-21 济南大学 一种用于降低假阳率的布谷鸟过滤器设计方法及系统
CN116467307B (zh) * 2023-03-29 2024-02-23 济南大学 一种用于降低假阳率的布谷鸟过滤器设计方法及系统
CN117891858A (zh) * 2024-03-14 2024-04-16 苏州大学 一种时空高效的并行近似成员查询方法及系统

Also Published As

Publication number Publication date
CN115510092B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN115510092A (zh) 一种基于布谷鸟过滤器的近似成员查询优化方法
EP0851354B1 (en) Reorganization of collisions in a hash bucket of a hash table to improve system performance
CN101515298B (zh) 基于树形数据结构节点的插入的方法和存储装置
CN110489405B (zh) 数据处理的方法、装置和服务器
Clerry Compact hash tables using bidirectional linear probing
CN112000846B (zh) 基于gpu分组lsm树索引的方法
US10025511B2 (en) Method for storing a dataset including dividing the dataset into sub-datasets each with a subset of values of an attribute of the dataset
US20010018731A1 (en) Memory management device and memory management method thereof
CN111858651A (zh) 一种数据处理方法以及数据处理装置
CN113867627A (zh) 一种存储系统性能优化方法及系统
CN113535705B (zh) Sfad布谷鸟过滤器及基于sfad布谷鸟过滤器重复数据删除方法
CN113392040B (zh) 一种地址映射方法、装置、设备
CN113704260A (zh) 一种基于改进lsm树结构的数据存储方法及系统
CN111859038A (zh) 一种分布式存储系统数据热度统计方法、装置
CN113626432B (zh) 一种支持任意Key值的自适应基数树的改进方法
CN112269947B (zh) 空间文本数据的缓存方法、装置、电子设备及存储介质
CN111190545B (zh) 一种基于软件实现的trie结构进行LPM规则压缩存储的方法
CN111104435B (zh) 一种元数据组织方法、装置、设备及计算机可读存储介质
CN112632337A (zh) 一种应用于烟花过滤器的元素管理方法及烟花过滤器
CN117891858B (zh) 一种时空高效的并行近似成员查询方法及系统
US20130290378A1 (en) Adaptive probabilistic indexing with skip lists
CN111949439B (zh) 基于数据库的数据文件更新方法和装置
CN118170477A (zh) 一种基于布谷鸟过滤器的海量顾客来访记录存储方法
US20240330260A1 (en) Retrieval apparatus, methods, and storage medium
CN112416262B (zh) 一种固态硬盘中数据预读方法、存储介质和电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant