CN114064756A - 缩减概率过滤器查询延时 - Google Patents

缩减概率过滤器查询延时 Download PDF

Info

Publication number
CN114064756A
CN114064756A CN202111355976.7A CN202111355976A CN114064756A CN 114064756 A CN114064756 A CN 114064756A CN 202111355976 A CN202111355976 A CN 202111355976A CN 114064756 A CN114064756 A CN 114064756A
Authority
CN
China
Prior art keywords
query
filter
media
segment
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111355976.7A
Other languages
English (en)
Inventor
D·博尔斯
J·M·格罗韦斯
S·莫耶
A·汤姆林森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Micron Technology Inc
Original Assignee
Micron Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Micron Technology Inc filed Critical Micron Technology Inc
Publication of CN114064756A publication Critical patent/CN114064756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0864Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using pseudo-associative means, e.g. set-associative or hashing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Surgical Instruments (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

本文中描述用于缩减概率过滤器查询延时的系统及技术。可从呼叫者接收对存储于第一媒体上的概率过滤器的查询。响应于接收所述查询,可获得存储于第二媒体上的所述概率过滤器的高速缓存片段。在此,所述概率过滤器提供在确定元素不在集合中时是结论性的集合成员资格确定。可对所述高速缓存片段执行所述查询,从而导致部分查询结果。在所述呼叫者不介入的情况下,可起始所述概率过滤器的剩余数据从所述第一媒体到所述第二媒体的检索。在此,所述剩余数据对应于所述查询及不在所述高速缓存片段中的数据。接着,可将所述部分查询结果传回到所述呼叫者。

Description

缩减概率过滤器查询延时
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2018年08月07日、申请号为201880063595.1、发明名称为“缩减概率过滤器查询延时”的发明专利申请案。
优先权申请案
此申请案主张2017年8月31日申请的序列号为15/691,998的美国申请案的优先权的权益,所述美国申请案以其全文引用的方式并入本文中。
技术领域
本文中所描述的实施例大体上涉及块装置(例如,磁盘)操作且更具体来说涉及缩减概率过滤器查询延时。
背景技术
计算机存储装置包括各种存储技术,其可划分为块可寻址“磁盘”-例如基于NAND或其它非易失性存储器(NVM)技术的固态驱动(SSD)、硬盘驱动(HDD)、光盘(CD)及类似物-及字节可寻址“存储器”-例如随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)、电阻式随机存取存储器(RRAM)或3D交叉点及类似物。通常,数据在由计算系统的处理器使用之前从磁盘移动到存储器。针对存储于文件系统中的数据,所述文件系统或操作系统通常管理此移动,从而导致存储器中的文件系统高速缓存反映存储于磁盘上的数据的部分。
概率过滤器通常在数据存储系统中用来有效地确定数据项是否存储于数据结构中,而无须例如从磁盘加载整个数据结构。例如,在关键值数据存储系统中,可使用概率过滤器来确定关键值存储区中的关键值的可能存在,而无须加载及搜索所述关键值存储区。概率过滤器通常是高速且节省空间的数据结构,其支持具有单侧错误的集合成员资格测试。这些过滤器可确立给定集合项目肯定不在项目集合中表示。如果过滤器未确立所述项目肯定不在所述集合中,那么所述项目可或可不在所述集合中。换句话来说,否定响应(例如,不在集合中)是结论性的,而肯定响应(例如,可在集合中)引发假肯定概率(FPP)。通常,此单侧错误的权衡是节省空间的。例如,一些概率过滤器(例如布谷鸟(Cuckoo)过滤器及布隆(Bloom)过滤器)每项目使用近似7个位来提供3%的FPP,而与项目的大小无关。
存在各种概率过滤器,包含布谷鸟过滤器及布隆过滤器,其操作在此出于说明性目的而提供。布谷鸟过滤器通过将关键值的f位指纹插入到两个贮体(bucket)中的一者中来操作。第一贮体是所述关键值的哈希且第二贮体通过哈希所述指纹而导出。如果两个贮体已满,那么移除现存指纹以腾出空间,且接着,将那个指纹移动到其自身的替代贮体。定位关键值涉及针对关键值检验贮体以确定指纹是否存在。基本布隆过滤器包括M个位(初始化为空值,例如零)及k个不同哈希函数的阵列(例如,布隆过滤器阵列),每一哈希函数将集合元素映射到M个位中的一者,从而导致布隆过滤器中的集合元素的k位表示。当将元素新增到所述过滤器时,将对应于所述阵列中的哈希函数的位的每一者设置为1。为确定元素的存在(例如,执行布隆过滤器查询或布隆查询),应用相同哈希函数以针对所查询元素确定阵列中的对应位置。如果每个位置具有值1而非0,那么所述关键值可在所述集合中。如果一个位置具有值0,那么所述关键值不在所述集合中。
发明内容
本申请的一个方面涉及一种系统,其包括用以执行操作的处理电路系统,所述操作包括:从呼叫软件应用程序接收对存储于第一媒体上的概率过滤器的查询;响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,所述高速缓存片段包括存储于所述第一媒体上的所述概率过滤器的子集,所述概率过滤器用于确定元素不在集合中;对所述高速缓存片段执行所述查询,从而导致部分查询结果;将所述部分查询结果传回到所述呼叫软件应用程序;在所述呼叫软件应用程序不介入的情况下,在执行所述概率过滤器的非高速缓存片段从所述第一媒体到所述第二媒体的检索的同时:在所述部分查询结果内搜索停止条件;响应于识别所述停止条件,停止所述搜索并放弃检索任何剩余非高速缓存片段。
本申请的另一个方面涉及一种方法,其包括:从呼叫软件应用程序接收对存储于第一媒体上的概率过滤器的查询;响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,所述高速缓存片段包括存储于所述第一媒体上的所述概率过滤器的子集,所述概率过滤器用于确定元素不在集合中;对所述高速缓存片段执行所述查询,从而导致部分查询结果;将所述部分查询结果传回到所述呼叫软件应用程序;在所述呼叫软件应用程序不介入的情况下,在执行所述概率过滤器的非高速缓存片段从所述第一媒体到所述第二媒体的检索的同时:在所述部分查询结果内搜索停止条件;响应于识别所述停止条件,停止所述搜索并放弃检索任何剩余非高速缓存片段。
本申请的又一个方面涉及一种包括指令的非暂时性机器可读存储媒体,所述指令在由处理电路系统执行时引起所述处理电路系统执行包括以下各者的操作:从呼叫软件应用程序接收对存储于第一媒体上的概率过滤器的查询;响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,所述高速缓存片段包括存储于所述第一媒体上的所述概率过滤器的子集,所述概率过滤器用于确定元素不在集合中;对所述高速缓存片段执行所述查询,从而导致部分查询结果;将所述部分查询结果传回到所述呼叫软件应用程序;在所述呼叫软件应用程序不介入的情况下,在执行所述概率过滤器的非高速缓存片段从所述第一媒体到所述第二媒体的检索的同时:在所述部分查询结果内搜索停止条件;响应于识别所述停止条件,停止所述搜索并放弃检索任何剩余非高速缓存片段。
附图说明
在不必按比例绘制的图式中,类似元件符号可描述不同视图中的类似组件。具有不同字母下标的类似元件符号可表示类似组件的不同例子。图式通过实例而非限制的方式大体上说明本文件中所论述的各项实施例。
图1是根据实施例的用于缩减概率过滤器查询延时的系统的实例的框图。
图2是根据实施例的用于缩减概率过滤器查询延时的控制流程的实例的泳道图。
图3是根据实施例的用于缩减概率过滤器查询延时的方法的实例的流程图。
图4是根据实施例的用于缩减概率过滤器查询延时的方法的实例的流程图。
图5是根据实施例的用于缩减概率过滤器查询延时的方法的实例的流程图。
图6是说明可在其上实施一或多个实施例的机器的实例的框图。
具体实施方式
如上所述,概率过滤器通常用来在执行昂贵操作(例如将数据从磁盘加载到存储器)之前测试集合成员资格。概率过滤器是可存储于媒体上的数据结构,且在一些数据集中,自身可散布于若干可加载单元(例如页、块等)上。例如,概率过滤器可部分地高速缓存于存储器中,而剩余部分常驻于磁盘上。因此,为使用过滤器,从磁盘检索剩余部分且将其存储于待查询的存储器中。此操作在查询概率过滤器时引入额外延时。
本发明的实施方案描述一种用来缩减概率过滤器查询延时的技术。此可经由检查及提取技术来实现,借此响应于过滤器查询,对照查询约束检查当前高速缓存数据(例如,存储器中的过滤器的部分)且可从磁盘有条件地检索剩余数据并将其加载到存储器中。加载剩余数据的条件包含高速缓存数据是否提供查询的明确应答。例如,在检查阵列中的每个位之前,布隆查询可被“短路”或暂停,因为任何经检查的空(例如,零)位提供正被测试的元素不在集合中的明确应答。因此,如果过滤器的任何高速缓存部分指示否定集合成员资格,那么无需从磁盘加载过滤器的剩余部分。如果高速缓存过滤器部分未提供明确应答(例如,全部对应位具有非空值),那么从磁盘加载过滤器的剩余部分,而将部分检查的结果(例如,高速缓存数据部分)传回到呼叫者。因此,当呼叫应用程序处理部分过滤器查询结果时,过滤器的磁盘到存储器加载已开始且可准备好在处理部分查询结果时供呼叫应用程序使用。此序列通过以下来缩减过滤器查询中的延时:在一些情况中提供查询的应答而未从磁盘加载整个过滤器;及在其它情况中允许处理应用程序调查过滤器的子集。为简化论述,使用标准布隆过滤器来说明所描述技术,尽管所述技术可用于满足上文所论述的“短路”原理的其它概率过滤器或数据结构。
图1是根据实施例的用于缩减概率过滤器查询延时的系统100的实例的框图。如所说明,系统100包含第一媒体115(例如,具有KVS树及对应关键值集文件120的磁盘)、第二媒体110(例如,具有关键值集文件120的高速缓存片段125的存储器)及处理电路系统105(例如,处理器)。处理电路系统105、第二媒体110及第一媒体115都在电子硬件中实施。如所说明,高速缓存片段125的交叉阴影块对应于概率过滤器130中正被查询的片段。在此,片段对应于划分文件120或过滤器130,例如可能在文件被划分为块、存储器页(例如,页)或某一其它分区时发生。
处理电路105经布置(例如,经硬接线或由软件配置)以从呼叫者接收对存储于第一媒体115上的概率过滤器130的查询。在此,呼叫者是应用程序、组件或能够提出请求的其它实体。例如,处理电路系统105可实施管理磁盘存取的操作系统(OS)且呼叫者是向OS提出请求的应用程序。因此,用户空间(例如,而非内核空间)过程可经由OS呼叫发起查询。
在实例中,查询包含概率过滤器130的片段识别符。在此,片段识别符指定概率过滤器130的全部片段中的哪些片段与查询相关。如果片段可提供查询的结果,那么其与查询相关。例如,概率过滤器130可为用于跨越四个虚拟存储器(VM)页的关键值集的布隆过滤器,其中如果布隆过滤器阵列中针对对布隆过滤器的查询中的关键值的k个哈希的对应贮体是在第一及第三VM页中,那么第一及第三VM页是布隆过滤器的用于关键值的查询的相关片段。因为查询实体(例如文件系统、OS、程序等)可执行布隆哈希,所以那个实体也可在进行呼叫时针对查询提供所关注片段。在实例中,片段识别符是文件120中的字节偏移。在实例中,查询包含文件120的文件识别符。
在实例中,文件120是关键值集文件。关键值集(例如,kvset)是用来将关键值项目保存于KVS树中的数据结构。KVS树是树数据结构,包含基于关键值的预定导出而非所述树的内容在父节点与子节点之间具有连接的节点。节点包含关键值集的时间定序序列,也称为KVS。关键值集含有关键值排序结构中的关键值对。一旦被写入,KVS树中的关键值集便是不可变的。KVS树实现WB树的写入处理量,同时通过维持节点中的关键值集来改进WB树搜索,关键值集包含排序关键值以及关键值度量,例如布隆过滤器。因此,在此实例中,文件120包含可包含过滤器130的至少一个关键值集。
在实例中,关键值集文件包含一个以上KVS树(例如,来自一个以上KVS树(不必是全部KVS树)的组件,例如元数据、关键值集等)。在实例中,概率过滤器130应用于关键值集文件中的单个KVS树。将多个关键值集组合成单个关键值集文件或将其它数据结构组合成单个文件可利用环境的特性。例如,如果操作系统对文件管理、文件载入等强加显著额外开销,那么可更有效地将若干实体组合成文件以降低这些额外开销。
在实例中,查询包含一组测试参数。在本文中,测试参数指示查询将对过滤器130测试什么。例如,测试参数可为布隆过滤器中的索引,其中可找到关键值的位。在实例中,测试参数包含位置(例如,在过滤器130中)。在实例中,所述位置是片段中的位偏移。
处理电路系统105经布置以响应于接收查询而获得存储于第二媒体110上的概率过滤器130的高速缓存片段125。在此,高速缓存片段125小于存储于第一媒体115(例如,文件120)上的概率过滤器130的全部。因此,为响应于查询而获得高速缓存片段125,处理电路系统105可从第二媒体110读取高速缓存片段125。在实例中,概率过滤器130的片段是基于第二媒体110中的概率过滤器130的表示。因此,虽然文件120可分段成由第一媒体115(例如,磁盘)定义的块,但在第二媒体110(例如,存储器)中,所述片段被定义为存储器的页大小。在实例中,片段具有均匀大小。在实例中,均匀大小是存储器页大小。在实例中,片段识别符是页识别符。在实例中,片段识别符是存储器地址。在其中查询包含片段识别符的实例中,获得高速缓存片段125包含获得第二媒体110中的概率过滤器对应于片段识别符的片段。
处理电路系统105经布置以对高速缓存片段125执行查询,从而导致部分查询结果。在其中查询包含测试参数的实例中,部分查询结果包含对高速缓存片段125执行的测试参数的子集的结果。在其中测试参数包含一或多个位置(例如,布隆过滤器阵列中的索引)的实例中,测试参数的子集包含每一位置的位值(例如,待测试)。在实例中,部分查询结果包含与查询相关且不在高速缓存片段125中的片段识别符的列表。
处理电路系统105经布置以在呼叫者不介入的情况下起始概率过滤器130的剩余数据从第一媒体115到第二媒体110的检索同时对高速缓存片段125执行查询。在此,剩余数据对应于查询及不在高速缓存片段125中的数据(例如,不在高速缓存片段125中的过滤器130的部分)。因此,呼叫者无须提出单独请求以从文件120载入剩余片段。减少由呼叫者进行的呼叫的次数通常导致系统100的额外开销减少及延时缩减。在实例中,处理电路系统105经布置以识别部分查询结果中的概率过滤器130的停止条件且避免剩余数据的检索。此实例说明“短路”操作,其中查询可通过部分查询结果应答。例如,在具有包含零(例如,空)关键值索引的高速缓存片段125的布隆过滤器中,无需加载剩余数据,因为所述关键值不在由所述布隆过滤器表示的集合中。在实例中,概率过滤器是布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
处理电路系统105经布置以将部分查询结果传回到呼叫者。部分查询结果表示对过滤器130的部分执行查询,并且可能识别从查询执行省略过滤器130的哪些片段,因为其不在第二媒体110中。因此,相对于概率查询部分地满足呼叫者的请求,且也从磁盘加载查询的剩余片段。在其中由呼叫者提供测试参数的实例中,部分查询结果包含对高速缓存片段125执行的测试参数的子集的结果。在实例中,部分查询结果包含与查询相关且不在高速缓存片段125中的片段识别符的列表。
在实例中,处理电路系统105经布置以例如由呼叫者-接收部分查询结果,针对由概率过滤器130定义的停止条件(例如,被定义为在真时暂停搜索的条件)搜索测试参数的子集,且在测试参数的子集中未找到所述停止条件时在片段识别符的片段内搜索所述停止条件(例如,以停止搜索)。在此,片段由于起始概率过滤器的剩余数据的检索而常驻于第二媒体110中。即,已完成剩余数据的起始检索-例如,在呼叫者正搜索部分查询结果以确定过滤器130是否指示所查询关键值的可能存在-将剩余数据放入第二媒体中时。因此,查询的单个结果对呼叫者提供高速缓存片段125上的过滤器查询的结果以及此时应已从第一媒体115加载到第二媒体110从而允许呼叫者执行其余过滤器查询的剩余片段的识别两者。
本文中所描述的检查及提取技术具有优于传统技术的若干优点,传统技术测试是否高速缓存文件页(例如,Linux fincore)或加载非高速缓存文件页(例如,Linuxfadvise)。例如,本文中所描述的检查及提取技术可获得页常驻信息-例如,高速缓存页中的所关注位的值-且可在单次系统呼叫中起始非高速缓存页的后台加载。通常,例如fincore或fadvise的技术使用至少三次系统呼叫来实现相同任务,从而大大地降低性能。例如,为完成检查及提取,传统fincore及fadvise使用来自高速缓存页的一或多次文件读取且最终使用非高速缓存页的fadvise呼叫。此外,本文中所描述的检查及提取技术可在文件中的非连续页上操作。通常,例如fincore及fadvise的技术仅在文件中的连续页上操作。此外,现存方法使用各自在非连续页上操作的多次系统呼叫,从而大大地降低性能。另外,本文中所描述的检查及提取技术可指定将引用文件页的顺序。此提供优化页加载的机会。此信息并非通过限于“随机”及“循序”的现存方法(例如fadvise)传达。
上述优点与基于文件的存取技术相关,但本文中所描述的检查及提取技术还具有优于基于存储器的文件存取的优点(例如,当文件经存储器映射时)。在此上下文中,现存技术(例如Linux mincore及Linux madvise)处于劣势。例如,本文中所描述的检查及提取技术可获得页常驻信息且可在单次系统呼叫中起始非高速缓存页的后台加载。此外,现存技术使用至少两次系统呼叫来完成相同任务(例如,呼叫mincore且接着呼叫madvise)。此外,与通常在文件中的连续页上操作的其它技术(例如,mincore及madvise)相比,检查及提取可在文件中的非连续页上操作。此外,现存技术使用各自在非连续页上操作的多次系统呼叫,此再次大大地降低性能。另外,检查及提取可指定将引用文件页的顺序,此提供优化页加载的机会。此信息通常并非通过限于“随机”及“顺序”的现存技术(例如madvise)传达。
为在真实世界实例中说明本技术,在以下实例中使用具有支持KVS树的Linux虚拟文件系统(VFS)的Linux操作系统,尽管可类似地修改其它操作系统或文件系统。KVS树中的每一关键值集可包含布隆过滤器以跟踪与存储于那个关键值集中的项目(例如,关键值对或标记删除,其中标记删除指示对应于关键值的值被删除)相关联的关键值。可实施将存储于磁盘上的关键值集作为只读文件揭露给用户空间过程及Linux内核的Linux VFS。此关键值集文件中的布隆过滤器包括开始于已知偏移(以字节为单位)且具有已知大小(以字节为单位)的连续字节序列。根据标准文件操作,从关键值集文件读取的数据以各自是虚拟存储器(VM)页的大小的单位处于标准Linux页高速缓存中(例如,在存储器中)。每一此单位开始于关键值集文件中的零基偏移(其是VM页大小的倍数)。例如,给定4096个字节的VM页大小,关键值集文件中的页开始于偏移0、4096、8192等。在实例中,如同其它文件,用户空间过程可任选地使用标准Linux mmap系统呼叫将关键值集文件存储器映射到过程的虚拟地址空间中。在此,用户空间过程可经由存储器读取命令存取关键值集数据(包含布隆过滤器),且操作系统(或VM管理器)管理底层位的磁盘到存储器加载。
图2到4呈现使用以下上下文描述的各项实例。以下定义假定关键值集文件F中的布隆过滤器B及将关键值K映射到B中的位的哈希函数H:
·BF_FILE_OFFSET_BYTE(F,B)是布隆过滤器B的第一字节的关键值集文件F中的字节偏移。
·BF_SIZE_BYTE(F,B)是关键值集文件F中的布隆过滤器B的大小(以字节为单位)。
·BF_OFFSET_BIT(B,H,K)是通过针对关键值K执行哈希函数H来选择的布隆过滤器B中的位偏移。
·VMPAGE_SIZE_BYTE(F)是关键值集文件F中的页的大小(以字节为单位)。
如本文中所描述,关键值集文件F中的全部字节偏移是零基的。即,关键值集文件F中的第一字节被定义为处于偏移零(0)。此外,如所描述,布隆过滤器B中的全部位偏移也是零基的;布隆过滤器B中的第一位被定义为处于偏移零(0)。尽管本文中使用这些零基索引,但其并非必需的(例如,第一位可处于偏移一(1))。此外,如本文中所使用,floor(x)被定义为小于或等于实数x的最大整数。
给定这些定义,可计算以下各者:
·BFPAGE_FILE_OFFSET_FIRST_BYTE(F,B)=floor(BF_FILE_OFFSET_BYTE(F,B)/VMPAGE_SIZE_BYTE(F))*VMPAGE_SIZE_BYTE(F),其是含有布隆过滤器B的第一字节的关键值集文件F中的页的字节偏移。
·BFPAGE_FILE_OFFSET_LAST_BYTE(F,B)=floor((BF_FILE_OFFSET_BYTE(F,B)+BF_SIZE_BYTE(F,B)-1)/VMPAGE_SIZE_BYTE(F))*VMPAGE_SIZE_BYTE(F),其是含有布隆过滤器B的最后字节的关键值集文件F中的页的字节偏移。
·BFPAGE_COUNT(F,B)=((BFPAGE_FILE_OFFSET_LAST_BYTE(F,B)-BFPAGE_FILE_OFFSET_FIRST_BYTE(F,B))/VMPAGE_SIZE_BYTE(F))+1,其是含有布隆过滤器B的至少一个字节的关键值集文件F中的页的计数。
·HBYTE_FILE_OFFSET_BYTE(F,B,H,K)=BF_FILE_OFFSET_BYTE(F,B)+floor(BF_OFFSET_BIT(B,H,K)/8),其是含有通过针对关键值K执行哈希函数H来选择的布隆过滤器B中的位的关键值集文件F中的字节的字节偏移。
·HBYTE_OFFSET_BIT(F,B,H,K)=BF_OFFSET_BIT(B,H,K)模8,其是处于偏移HBYTE_FILE_OFFSET_BYTE(F,B,H,K)(其是通过针对关键值K执行哈希函数H来选择的布隆过滤器B中的位)的关键值集文件F的字节中的位偏移。
·HPAGE_FILE_OFFSET_BYTE(F,B,H,K)=floor(HBYTE_FILE_OFFSET_BYTE(F,B,H,K)/VMPAGE_SIZE_BYTE(F))*VMPAGE_SIZE_BYTE(F),其是含有通过针对关键值K执行哈希函数H来选择的布隆过滤器B中的位的关键值集文件F中的页的字节偏移。
·HPAGE_OFFSET_BIT(F,B,H,K)=((8*BF_FILE_OFFSET_BYTE(F,B))+BF_OFFSET_BIT(B,H,K))modulo(8*VMPAGE_SIZE_BYTE(F)),其是处于字节偏移HPAGE_FILE_OFFSET_BYTE(F,B,H,K)(其是通过针对关键值K执行哈希函数H来选择的布隆过滤器B中的位)的关键值集文件F的页中的位偏移。
这些值一旦经计算,便可以各种方式使用。例如,为读取通过针对关键值K执行哈希函数H来选择的布隆过滤器B中的位,可使用以下操作:
·将开始于字节偏移HPAGE_FILE_OFFSET_BYTE(F,B,H,K)的关键值集文件F中的页读取到存储器缓冲器中;且接着
·从处于位偏移HPAGE_OFFSET_BIT(F,B,H,K)的所述存储器缓冲器读取所关注位。
在另一实例中,为读取通过对关键值K执行哈希函数H来选择的布隆过滤器B中的位,可使用以下操作:
·将关键值集文件F中的字节(处于字节偏移HBYTE_FILE_OFFSET_BYTE(F,B,H,K))读取到存储器缓冲器中;且接着
·从所述存储器缓冲器读取所关注位(处于位偏移HBYTE_OFFSET_BIT(F,B,H,K))。
如上所述,下文在其内呈现若干实例的上下文包含这些定义及计算值。
图2是根据实施例的用于缩减概率过滤器查询延时的控制流程200的实例的泳道图。以下实例涉及在Linux OS上下文中的基于文件的检查及提取技术。此技术确定含有布隆过滤器数据的关键值集文件页的指定集合的哪些片段(如果有)是在Linux页高速缓存中,且仅在需要时异步地加载那些页的余部。另外,本技术提供关于页高速缓存中的页(例如,高速缓存页)中的指定位的值的信息。在实例中,所述检查及提取技术是VFS的部分。在实例中,本技术是由用户空间过程经由系统呼叫来执行。在实例中,本技术是由Linux内核经由直接方法呼叫(例如,标准C语言函数调用)来执行。
控制流程200说明请求者(例如,呼叫者)、OS或文件系统、高速缓存媒体(例如,存储器或存储器子系统)与存储媒体(例如,磁盘或磁盘子系统)之间的检查及提取函数的操作。在呼叫者执行检查及提取函数作为布隆查询的部分(操作205)之后,确定布隆过滤器阵列的高速缓存部分(操作210)。读取高速缓存中的布隆过滤器阵列的部分(操作215)且对其执行布隆查询(操作220)。如果操作220的结果指示查询项不在布隆过滤器中,那么处理程序(例如,OS或文件系统)传回查询项(例如,项目)不在关键值集中的指示(操作225)。在实例中,所述指示是作为部分查询结果的部分而传回。
如果处理程序无法完全地解析查询(例如,布隆过滤器的高速缓存部分指示查询项可能在关键值集中),那么起始布隆过滤器阵列的非高速缓存部分的异步加载(操作230)。在此,异步是呼叫者在转到另一操作之前不阻止(例如,等待)完成的操作。因此,处理程序可立即提供高速缓存部分的查询结果(例如,部分查询结果)(操作235),而无需等待布隆过滤器阵列的非高速缓存部分从存储媒体移动到高速缓存媒体(操作240)。
下文说明使用伪码的基于文件的检查及提取的实例。首先,在本技术中使用以下结构及原型:
Figure BDA0003357203480000101
Figure BDA0003357203480000111
其中:
·fd是开放式关键值集文件的句柄,是检查及提取函数的输入(例如,由LinuxVFS响应于开放式系统呼叫而传回的文件描述符)。
·pagev是page_info结构的阵列,是所述函数的输入。在此,pagev的每一元素指定关键值集文件fd中的页的字节偏移(例如,“page_offset”)及那个页中的位偏移(例如,“bit_offset”),如下文所描述。
·page_cached是设置为所述函数的输出的布尔值阵列,如下文所描述。
·bit_set是设置为所述函数的输出的布尔值阵列,如下文所描述。
·count是pagev、page_cached及bit_set阵列中的元素的整数数目,是所述函数的输入。
在下文中,给定阵列A,记号A[i]指代A的第i元素,其中第一元素是A[0],即,阵列元素是零基的。鉴于上述情况,通过基于文件的检查及提取技术执行以下操作:
Figure BDA0003357203480000112
Figure BDA0003357203480000121
在实例中,file_check_fetch函数假定非高速缓存关键值集文件页将按其在阵列pagev中出现的顺序读取,且可将此纳入考虑以优化载入这些页(例如,在序列中选择下一页进行加载)。为使用上文所描述的呼叫执行布隆查询,用户空间过程(或其它呼叫者)可执行以下操作。给定关键值集文件F中的布隆过滤器B及J个哈希函数H[0]、...、H[J-1]的阵列H(每一哈希函数将关键值映射到B中的位),可经由以下操作执行对关键值K的布隆查询:
Figure BDA0003357203480000131
Figure BDA0003357203480000141
Figure BDA0003357203480000151
图3是根据实施例的用于缩减概率过滤器查询延时的方法300的实例的流程图。使用例如上文或下文所描述的计算机硬件来执行方法300的操作。如前所述,用户空间过程可任选地使用标准Linux mmap系统呼叫或类似物将关键值集文件存储器映射到其虚拟存储器地址空间中。在此情况下,用户空间过程可经由存储器读取操作存取关键值集数据,包含布隆过滤器。可使用类似于前文所描述的基于文件的检查及提取函数而操作的基于存储器的检查及提取函数改进查询延时。在实例中,基于文件的检查及提取伪码实例也可与存储器映射文件一起使用。
接收布隆查询(操作305)。所述查询的处理程序可计算来自关键值集文件的与所述查询相关的片段(操作310)。在此实例中,所述查询提供文件识别符及查询项(例如,关键值集查询中的关键值),且OS计算关键值集文件的哪个部分含有关键值哈希(例如,对应于k个哈希的结果的阵列的索引)的布隆过滤器阵列的特定部分。在存储器映射文件中,此确定涉及从存储器映射关键值集文件中的布隆过滤器的页的字节偏移计算多个阵列索引的位偏移。
一旦确定过滤器的相关片段,便处理所述片段。此过程包含选择下一片段(操作315)及确定那个片段是否在高速缓存中(操作320)。如果所述片段不在高速缓存中,那么标记所述片段以便检索(操作345)。在实例中,标记待检索片段实际上不起始片段的检索,而是指示如果可使用额外数据来完成查询就将检索所述片段。在任一情况下(例如,检索片段或标记而不检索),操作345是异步的。
如果所述片段在高速缓存中,就测试所述片段以确定过滤器是否通过(操作325)。使用标准布隆过滤器,如果将对应于关键值的任何阵列索引设置为零,那么查询未通过。如果过滤器未通过,那么方法300可被终止且传回查询项并非集合的部分的指示(操作330)。然而,如果过滤器通过,且存在更多片段(操作335),那么处理继续直到不存在片段或过滤器不通过。
在已处理片段之后且方法300归因于过滤器未通过而无法退出,将标记片段从磁盘加载到存储器(操作340)。此时,方法300退出,将部分结果传回到呼叫者。
下文描述基于存储器的检查及提取函数,其确定含有布隆过滤器数据的存储器映射关键值集文件页的指定集合中的哪些(如果有)是在Linux页高速缓存中且仅在需要那些页的余部来完成查询时异步地加载那些页的余部。实例函数还提供关于高速缓存页中的指定位的值的信息。在此实例中,基于存储器的检查及提取函数是在VFS中实施且由用户空间过程经由系统呼叫来执行。所述函数使用以下数据结构及原型:
Figure BDA0003357203480000161
其中:
·addrv是page_addr_info结构的阵列,是所述方法的输入;addrv的每一元素指定对应于存储器映射关键值集文件页的第一字节的过程虚拟存储器地址(page_addr)及那个页中的位偏移(bit_offset),如下文所描述。
·page_cached是设置为所述方法的输出的布尔值集阵列,如下文所描述。
·bit_set是设置为所述方法的输出的布尔值阵列,如下文所描述。
·count是addrv、page_cached及bit_set阵列中的元素的整数数目,是所述方法的输入。
在下文中,给定阵列A,记号A[i]指代A的第i元素,其中第一元素是A[0]。鉴于上述情况,通过基于存储器的检查及提取技术执行以下操作:
Figure BDA0003357203480000162
Figure BDA0003357203480000171
Figure BDA0003357203480000181
在实例中,mem_check_fetch函数假定非高速缓存关键值集文件页将按其在阵列addrv中出现的顺序读取,且可将此纳入考虑以优化载入这些页。在实例中,mem_check_fetch允许addrv阵列指定相关联于(映射到)一个以上关键值集文件中的页的地址。以下伪码说明如何使用mem_check_fetch函数执行布隆查询。给定存储器映射关键值集文件F中的布隆过滤器B及J个哈希函数H[0]、...、H[J-1]的阵列H(每一哈希函数将关键值映射到B中的位),可经由以下操作执行对关键值K的布隆查询:
Figure BDA0003357203480000182
Figure BDA0003357203480000191
Figure BDA0003357203480000201
Figure BDA0003357203480000211
上文所描述的mem_check_fetch的实施例假定关键值集文件经完全存储器映射(例如,整个文件被映射)到虚拟存储器地址的连续序列。如果关键值集文件经部分存储器映射,例如仅含有布隆过滤器数据的部分被映射,那么相应地调整上述技术中所使用的存储器偏移。
图4是根据实施例的用于缩减概率过滤器查询延时的方法400的实例的流程图。使用例如上文或下文所描述的计算机硬件来执行方法400的操作。上文关于图2及3所描述的技术调用概率过滤器数据从磁盘到存储器的显式且有条件的异步加载,因为呼叫过程期望发生异步加载,除非可使用概率过滤器的高速缓存部分来应答查询。因此,针对存储器映射关键值集文件,mem_check_fetch函数允许用户空间过程显式地起始将含有布隆过滤器数据的页异步地加载到Linux页高速缓存中。替代或补充技术使用来自概率过滤器的非高速缓存片段的隐式异步加载。例如,基于存储器的“提取群组”函数允许用户空间过程通过将页群组定义为群组(例如,提取群组)且在所述群组的成员中存在页面错误时载入整个群组来隐式地起始将含有布隆过滤器数据的页异步地加载到Linux页高速缓存中。
方法400通过产生提取群组而开始(操作405)。所述提取群组包含文件中彼此相关的页。可通过指定待分组的页且将页识别存储于数据结构(例如,表、阵列等)中来产生所述提取群组。在实例中,页通过其在存储概率过滤器时的使用而相关。
一旦产生所述提取群组,那么当存在页面错误时查阅所述提取群组(操作410)。在此,页面错误是对不常驻于存储器中的页的引用(例如,其需要从待使用的磁盘加载)。如果存在页面错误,那么检查提取群组以确定所述错误页是否在所述提取群组中(操作420)。如果是,那么异步地加载提取群组中的其它页(操作440)。在起始异步加载之后,或如果所述错误页不在提取群组中,那么方法400结束。此技术是隐式的,因为过程仅请求页执行布隆(或其它概率)查询,且当第一经检查页不在高速缓存中时,异步地加载整个非高速缓存页。
如下文所说明,mem_fetch_group函数对存储器映射关键值集文件进行操作。如同file_check_fetch及mem_check_fetch函数,mem_fetch_group函数可在VFS中实施且由用户空间过程经由系统呼叫来执行。以下是mem_fetch_group函数的原型:
mem_fetch_group(address_type*addrv,integer count;)
其中:
·addrv是address_type值的阵列,是所述方法的输入;addrv中的每一元素指定对应于存储器映射关键值集文件页的第一字节的过程虚拟存储器地址。
·count是addrv阵列中的元素的整数数目,是所述方法的输入。
在下文中,给定阵列A,记号A[i]指代A的第i元素,其中第一元素是A[0]。鉴于上述情况,执行以下操作以实施提取群组技术:
create an entry in a FetchGroup table identifying the key-value setfile pages associated with addresses addrv[0],…,addrv[count-1]as allbelonging to the same fetch group.
DONE;
在响应于发起(instigate)从存储器映射关键值集文件加载页的VM页面错误填入FetchGroup表(例如,定义提取群组)之后,VFS执行以下操作:
Figure BDA0003357203480000221
Figure BDA0003357203480000231
在实例中,按由产生对应FetchGroup表项目的mem_fetch_group执行的addrv输入指定的顺序读取提取群组中的非高速缓存关键值集文件页。处理程序(例如,VFS)可使用此顺序来优化加载这些页。在实例中,mem_fetch_group函数允许addrv阵列指定对应于(例如,映射到)一个以上关键值集文件中的页的地址。以下伪码说明如何使用mem_fetch_group函数执行布隆查询。给定存储器映射关键值集文件F中的布隆过滤器B及J个哈希函数H[0]、...、H[J-1]的阵列H(每一哈希函数将关键值映射到B中的位),可如下般执行对关键值K的布隆查询:
Figure BDA0003357203480000232
首先,执行以下步骤以针对布隆过滤器B建立提取群组:
Figure BDA0003357203480000233
Figure BDA0003357203480000241
接着,在未来某个时间,如下那样执行对关键值K的布隆查询:
Figure BDA0003357203480000242
Figure BDA0003357203480000251
上述伪码假定关键值集文件经完全存储器映射到虚拟存储器地址的连续序列。如果关键值集文件经部分存储器映射-例如,仅包含布隆过滤器数据的文件部分被映射-那么将上述算法中所使用的存储器偏移调整到那种情况。
提取群组技术的条件性质是区别于试图在需要时提前将文件数据从磁盘加载到高速缓存中的其它预提取技术的特性。因此,如果存取文件页中的一者导致页面错误,那么这些其它技术不适合加载文件页的经明确定义集合。
尽管在上述实例中使用在Linux下读取的关键值集文件,但这些技术并非是Linux特定的;全部技术可应用于高速缓存文件页且提供存储器映射文件的任何操作系统。file_check_fetch及mem_check_fetch的变化也可应用于其它概率过滤器以测试集合成员资格。例如,这些函数可延伸到计数布隆过滤器-包括M个f位计数器及J个不同哈希函数的阵列,每一哈希函数将集合元素映射到M个计数器中的一者-或映射到布谷鸟哈希表或布谷鸟过滤器-包括M个f位值(其中值在布谷鸟哈希表的情况下是关键值,且在布谷鸟过滤器的情况下是关键值指纹)及两个不同哈希函数(每一哈希函数将集合元素映射到M个f位值中的一者)的阵列。Mem_fetch_group可应用于存储于一或多个已知页中的存储器映射文件中的任何数据结构,且其中在处理这些页的任一者的页面错误时起始包括数据结构的非高速缓存页的异步加载是有益的。因此,mem_fetch_group可有益于广泛范围的应用程序,而不仅仅有益于用于测试集合成员资格的概率过滤器。
图5是根据实施例的用于缩减概率过滤器查询延时的方法500的实例的流程图。使用例如上文或下文所描述的计算机硬件来执行方法500的操作。
在操作505,从呼叫者接收对存储于第一媒体上的概率过滤器的查询。在实例中,接收所述查询包含接收片段识别符。在实例中,所述片段识别符指定概率过滤器的全部片段中的哪些片段与所述查询相关。在实例中,所述片段识别符是文件中的字节偏移。在实例中,所述查询包含所述文件的文件识别符。
在实例中,所述文件是关键值集文件。在实例中,所述关键值集文件包含来自一个以上KVS树的关键值集。在实例中,所述概率过滤器应用于所述关键值集文件中的单个KVS树。在实例中,针对所述关键值集文件的页维持提取群组数据结构。在此实例中,响应于所述提取群组数据结构中的一个页上的页面错误而检索所述关键值集文件的提取群组数据结构中的页。
在实例中,所述查询包含一组测试参数。在实例中,所述测试参数包含位置(例如,布隆过滤器阵列的索引、布谷鸟过滤器中的贮体、地址等)。在实例中,所述位置是片段中的位偏移。在实例中,所述测试参数的子集包含每一位置中的位值。
在操作510,响应于接收所述查询,获得存储于第二媒体上的概率过滤器的高速缓存片段。在实例中,所述高速缓存片段小于存储于所述第一媒体上的概率过滤器的全部。在实例中,所述概率过滤器提供在确定元素不在集合中时是结论性的集合成员资格确定。在实例中,所述概率过滤器是布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
在实例中,接收所述查询包含接收片段识别符。在实例中,所述片段识别符指定所述概率过滤器的全部片段的哪些片段与所述查询相关。在实例中,获得所述高速缓存片段包含获得所述第二媒体中的所述概率过滤器对应于所述片段识别符的片段。
在实例中,所述概率过滤器的片段是基于所述第二媒体中的所述概率过滤器的表示。在实例中,所述片段具有均匀大小。在实例中,所述均匀大小是存储器页大小。在实例中,所述片段识别符是存储器页识别符。在实例中,所述片段识别符是存储器地址。
在操作515,对所述高速缓存片段执行所述查询,从而导致部分查询结果。
在操作520,在呼叫者不介入的情况下,起始(例如,开始)所述概率过滤器的剩余数据从所述第一媒体到所述第二媒体的检索。在实例中,所述剩余数据对应于所述查询及不在所述高速缓存片段中的数据。在实例中,所述概率过滤器的剩余数据的检索包含识别所述部分查询结果中的所述概率过滤器的停止条件及避免(例如,中止或不采取相关进一步动作)检索剩余数据。
在操作525,将所述部分查询结果传回到所述呼叫者。在其中所述查询包含测试参数的实例中,所述部分查询结果包含对所述高速缓存片段执行的所述测试参数的子集的结果。在实例中,所述部分查询结果包含与所述查询相关且不在所述高速缓存片段中的片段识别符的列表。在实例中,所述呼叫者接收所述部分查询结果,针对由所述概率过滤器定义的停止条件搜索测试参数的子集,且当在测试参数的子集中未找到所述停止条件时在所述片段识别符的片段内搜索所述停止条件。在此,所述片段由于起始所述概率过滤器的剩余数据的检索而常驻于所述第二媒体中。
图6说明实例机器600的框图,可对机器600执行本文中所论述的任何一或多种技术(例如,方法)。如本文中所描述,实例可包含机器600中的逻辑或数个组件或机构,或可通过机器600中的逻辑或数个组件或机构操作。电路系统(例如,处理电路系统)是在包含硬件(例如,简单电路、门、逻辑等)的机器600的有形实体中实施的电路的集合。电路系统成员资格可随时间变通。电路系统包含可在操作时单独地或组合地执行指定操作的成员。在实例中,可不可变地设计电路系统的硬件以实施特定操作(例如,硬接线)。在实例中,电路系统的硬件可包含可变连接的物理组件(例如,执行单元、晶体管、简单电路等),包含物理上经修改(例如,不变质量的粒子的磁性、电、可移动放置等)以编码特定操作的指令的机器可读媒体。在连接物理组件时,硬件构成的基本电性质例如从绝缘体变为导体,或反之亦然。指令使嵌入式硬件(例如,执行单元或加载机构)能够经由可变连接在硬件中产生电路系统的成员,以在操作时实施特定操作的部分。因此,在实例中,机器可读媒体元素是电路系统的部分或当装置操作时通信地耦合到电路系统的其它组件。在实例中,物理组件中的任一者可用于一个以上电路系统的一个以上成员中。例如,在操作下,执行单元可在一个时间点用于第一电路系统的第一电路中且在不同时间由所述第一电路系统中的第二电路重用,或由第二电路系统中的第三电路重用。下文是关于机器600的这些组件的额外实例。
在替代实施例中,机器600可操作为独立装置或可经连接(例如,联网)到其它机器。在联网部署中,机器600可作为服务器-客户端网络环境中的服务器机器、客户端机器或两者而操作。在实例中,机器600可充当对等(P2P)(或其它分布式)网络环境中的对等机器。机器600可为个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络设备、网络路由器、交换机或网桥,或能够执行指定待由那个机器采取的动作的(循序或以其它方式)指令的任何机器。此外,虽然仅说明单个机器,但术语“机器”也应被视为包含个别地或共同地执行一组指令(或多组指令)以执行本文中所论述的任何一或多种方法的任何机器集合,例如云计算、软件即服务(SaaS)、其它计算机集群配置。
机器(例如,计算机系统)600可包含硬件处理器602(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器604、静态存储器(例如,固件、微代码、基本输入输出系统(BIOS)、统一可扩展固件接口(UEFI)等的存储器或存储装置)606及大容量存储装置608(例如,硬驱动、磁带驱动、快闪存储装置或其它块装置),其中一些或全部可经由互连(例如,总线)630彼此通信。机器600可进一步包含显示器单元610、字母数字输入装置612(例如,键盘)及用户接口(UI)导航装置614(例如,鼠标)。在实例中,显示器单元610、输入装置612及UI导航装置614可为触摸屏显示器。机器600可另外包含存储装置(例如,驱动单元)608、信号产生装置618(例如,扬声器)、网络接口装置620及一或多个传感器616,例如全球定位系统(GPS)传感器、指南针、加速度计或其它传感器。机器600可包含输出控制器628(例如串行(例如,通用串行总线(USB)、并行、或其它有线或无线(例如,红外(IR)、近场通信(NFC)等)连接)以与一或多个外围装置(例如,打印机、读卡器等)通信或控制一或多个外围装置(例如,打印机、读卡器等)。
处理器602、主存储器604、静态存储器606或大容量存储装置608的寄存器可为或包含机器可读媒体622,体现本文中所描述的任何一或多种技术或功能或由本文中所描述的任何一或多种技术或功能利用的一或多组数据结构或指令624(例如,软件)存储在机器可读媒体622上。指令624也可在其由机器600执行期间完全地或至少部分地常驻于处理器602、主存储器604、静态存储器606或大容量存储装置608的寄存器中的任一者内。在实例中,硬件处理器602、主存储器604、静态存储器606或大容量存储装置608的一个或任何组合可构成机器可读媒体622。虽然机器可读媒体622被说明为单个媒体,但术语“机器可读媒体”可包含经配置以存储一或多个指令624的单个媒体或多个媒体(例如,集中式或分布式数据库,或相关联高速缓存及服务器)。
术语“机器可读媒体”可包含能够存储、编码或载送由机器600执行的指令且引起机器600执行本发明的任何一或多种技术,或能够存储、编码或载送由此类指令使用或与此类指令相关联的数据结构的任何媒体。非限制性机器可读媒体实例可包含固态存储器、光学媒体、磁性媒体及信号(例如,射频信号、其它基于光子的信号、声音信号等)。在实例中,非暂时性机器可读媒体包括具有含不变(例如,静止)质量且因此是组合物的多个粒子的机器可读媒体。因此,非暂时性机器可读媒体是不包含暂时性传播信号的机器可读媒体。非暂时性机器可读媒体的特定实例可包含:非易失性存储器,例如半导体存储器装置(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))、快闪装置;磁盘,例如内部硬盘及可移动磁盘;磁光盘;及CD-ROM及DVD-ROM磁盘。
指令624可进一步经过通信网络626使用传输媒体经由利用数个传送协议中的任一者(例如,帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传送协议(HTTP)等)的网络接口装置620加以传输或接收。实例通信网络可包含局域网络(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、简易老式电话(POTS)网络及无线数据网络(例如,电气及电子工程师协会(IEEE)802.11系列标准(称为
Figure BDA0003357203480000291
)、IEEE 802.16系列标准(称为
Figure BDA0003357203480000292
)、IEEE 802.15.4系列标准、对等(P2P)网络,等等)。在实例中,网络接口装置620可包含一或多个物理插孔(例如,以太网、同轴或电话插孔)或一或多个天线以连接到通信网络626。在实例中,网络接口装置620可包含多个天线以使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一者进行无线通信。术语“传输媒体”应被视为包含能够存储、编码或载送由机器600执行的指令的任何无形媒体,且包含促进此软件的通信的数字或模拟通信信号或其它无形媒体。传输媒体是机器可读媒体。
额外注释&实例
实例1是一种用于缩减概率过滤器查询延时的系统,所述系统包括用于以下各者的处理电路系统:从呼叫者接收对存储于第一媒体上的概率过滤器的查询;响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,其中所述高速缓存片段小于存储于所述第一媒体上的所述概率过滤器的全部,其中所述概率过滤器提供在确定元素不在集合中时是结论性的集合成员资格确定;对所述高速缓存片段执行所述查询,从而导致部分查询结果;在所述呼叫者不介入的情况下,起始所述概率过滤器的剩余数据从所述第一媒体到所述第二媒体的检索,其中所述剩余数据对应于所述查询及不在所述高速缓存片段中的数据;及将所述部分查询结果传回到所述呼叫者。
在实例2中,实例1的标的物包含,其中为接收所述查询,所述处理电路系统接收片段识别符,所述片段识别符指定所述概率过滤器的全部片段的哪些片段与所述查询相关。
在实例3中,实例2的标的物包含,其中所述片段识别符是文件中的字节偏移。
在实例4中,实例3的标的物包含,其中所述查询包含所述文件的文件识别符。
在实例5中,实例3到4的标的物包含,其中所述文件是关键值集文件。
在实例6中,实例5的标的物包含,其中所述处理电路系统进一步用以:针对所述关键值集文件的页维持提取群组数据结构;及响应于所述提取群组数据结构中的一个页上的页面错误而检索所述关键值集文件的所述提取群组数据结构中的页。
在实例7中,实例5到6的标的物包含,其中所述关键值集文件包含一个以上KVS树。
在实例8中,实例7的标的物包含,其中所述概率过滤器应用于所述关键值集文件中的单个KVS树。
在实例9中,实例2到8的标的物包含,其中为获得所述高速缓存片段,所述处理电路系统获得所述第二媒体中的所述概率过滤器对应于所述片段识别符的片段。
在实例10中,实例1到9的标的物包含,其中所述概率过滤器的片段是基于所述第二媒体中的所述概率过滤器的表示。
在实施例11中,实例10的标的物包含,其中所述片段具有均匀大小。
在实例12中,实例11的标的物包含,其中所述均匀大小是存储器页大小。
在实例13中,实例12的标的物包含,其中所述片段识别符是页识别符。
在实例14中,实例11到13的标的物包含,其中所述片段识别符是存储器地址。
在实例15中,实例1到14的标的物包含,其中所述查询包含一组测试参数,且其中所述部分查询结果包含对所述高速缓存片段执行的所述测试参数的子集的结果。
在实例16中,实例15的标的物包含,其中所述测试参数包含位置。
在实例17中,实例16的标的物包含,其中所述位置是片段中的位偏移。
在实例18中,实例17的标的物包含,其中所述测试参数的所述子集包含每一位置中的位值。
在实例19中,实例15到18的标的物包含,其中所述部分查询结果包含与查询相关且不在所述高速缓存片段中的片段识别符的列表。
在实例20中,实例19的标的物包含,其中所述处理电路系统进一步用以:由所述呼叫者接收所述部分查询结果;针对由所述概率过滤器定义的停止条件搜索所述部分查询结果中的所述测试参数子集;及当在所述测试参数子集中未找到所述停止条件时,在所述片段识别符的片段内搜索所述停止条件,所述片段由于起始所述概率过滤器的所述剩余数据的所述检索而常驻于所述第二媒体中。
在实例21中,实例1到20的标的物包含,其中为起始所述概率过滤器的剩余数据的检索,所述处理电路系统识别所述部分查询结果中的所述概率过滤器的停止条件且放弃所述剩余数据的所述检索。
在实例22中,实例1到21的标的物包含,其中所述概率过滤器是布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
实例23是一种用于缩减概率过滤器查询延时的方法,所述方法包括:从呼叫者接收对存储于第一媒体上的概率过滤器的查询;响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,其中所述高速缓存片段小于存储于所述第一媒体上的所述概率过滤器的全部,其中所述概率过滤器提供在确定元素不在集合中时是结论性的集合成员资格确定;对所述高速缓存片段执行所述查询,从而导致部分查询结果;在所述呼叫者不介入的情况下,起始所述概率过滤器的剩余数据从所述第一媒体到所述第二媒体的检索,其中所述剩余数据对应于所述查询及不在所述高速缓存片段中的数据;及将所述部分查询结果传回到所述呼叫者。
在实例24中,实例23的标的物包含,其中接收所述查询包含接收片段识别符,所述片段识别符指定所述概率过滤器的全部片段的哪些片段与所述查询相关。
在实例25中,实例24的标的物包含,其中所述片段识别符是文件中的字节偏移。
在实例26中,实例25的标的物包含,其中所述查询包含所述文件的文件识别符。
在实例27中,实例25到26的标的物包含,其中所述文件是关键值集文件。
在实例28中,实例27的标的物包含:针对所述关键值集文件的页维持提取群组数据结构;及响应于所述提取群组数据结构中的一个页上的页面错误而检索所述关键值集文件的所述提取群组数据结构中的页。
在实例29中,实例27到28的标的物包含,其中所述关键值集文件包含一个以上KVS树。
在实例30中,实例29的标的物包含,其中所述概率过滤器应用于所述关键值集文件中的单个KVS树。
在实例31中,实例24到30的标的物包含,其中获得所述高速缓存片段包含获得所述第二媒体中的所述概率过滤器对应于所述片段识别符的片段。
在实例32中,实例23到31的标的物包含,其中所述概率过滤器的片段是基于所述第二媒体中的所述概率过滤器的表示。
在实施例33中,实施例32的标的物包含,其中所述片段具有均匀大小。
在实例34中,实例33的标的物包含,其中所述均匀大小是存储器页大小。
在实例35中,实例34的标的物包含,其中所述片段识别符是页识别符。
在实例36中,实例33到35的标的物包含,其中所述片段识别符是存储器地址。
在实例37中,实例23到36的标的物包含,其中所述查询包含一组测试参数,且其中所述部分查询结果包含对所述高速缓存片段执行的所述测试参数的子集的结果。
在实例38中,实例37的标的物包含,其中所述测试参数包含位置。
在实例39中,实例38的标的物包含,其中所述位置是片段中的位偏移。
在实例40中,实例39的标的物包含,其中所述测试参数的所述子集包含每一位置中的位值。
在实例41中,实例37到40的标的物包含,其中所述部分查询结果包含与查询相关且不在所述高速缓存片段中的片段识别符的列表。
在实例42中,实例41的标的物包含:由所述呼叫者接收所述部分查询结果;针对由所述概率过滤器定义的停止条件搜索所述部分查询结果中的所述测试参数子集;及当在所述测试参数子集中未找到所述停止条件时,在所述片段识别符的片段内搜索所述停止条件,所述片段由于起始所述概率过滤器的所述剩余数据的所述检索而常驻于所述第二媒体中。
在实例43中,实例23到42的标的物包含,其中起始所述概率过滤器的剩余数据的检索包含识别所述部分查询结果中的所述概率过滤器的停止条件及放弃所述剩余数据的所述检索。
在实例44中,实例23到43的标的物包含,其中所述概率过滤器是布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
实例45是一种包含指令的机器可读媒体,所述指令在由机器执行时引起所述机器执行实例23到44的任一方法。
实施例46是一种包括用来执行实例23到44的任一方法的构件的系统。
实例47是一种包含用于缩减概率过滤器查询延时的指令的机器可读媒体,所述指令在由所述处理电路系统执行时引起所述处理电路系统执行包括以下各者的操作:从呼叫者接收对存储于第一媒体上的概率过滤器的查询;响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,其中所述高速缓存片段小于存储于所述第一媒体上的所述概率过滤器的全部,其中所述概率过滤器提供在确定元素不在集合中时是结论性的集合成员资格确定;对所述高速缓存片段执行所述查询,从而导致部分查询结果;在所述呼叫者不介入的情况下,起始所述概率过滤器的剩余数据从所述第一媒体到所述第二媒体的检索,其中所述剩余数据对应于所述查询及不在所述高速缓存片段中的数据;及将所述部分查询结果传回到所述呼叫者。
在实例48中,实例47的标的物包含,其中接收所述查询包含接收片段识别符,所述片段识别符指定所述概率过滤器的全部片段的哪些片段与所述查询相关。
在实例49中,实例48的标的物包含,其中所述片段识别符是文件中的字节偏移。
在实例50中,实例49的标的物包含,其中所述查询包含所述文件的文件识别符。
在实例51中,实例49到50的标的物包含,其中所述文件是关键值集文件。
在实例52中,实例51的标的物包含,其中所述操作包括:针对所述关键值集文件的页维持提取群组数据结构;及响应于所述提取群组数据结构中的一个页上的页面错误而检索所述关键值集文件的所述提取群组数据结构中的页。
在实例53中,实例51到52的标的物包含,其中所述关键值集文件包含一个以上KVS树。
在实例54中,实例53的标的物包含,其中所述概率过滤器应用于所述关键值集文件中的单个KVS树。
在实例55中,实例48到54的标的物包含,其中获得所述高速缓存片段包含获得所述第二媒体中的所述概率过滤器对应于所述片段识别符的片段。
在实例56中,实例47到55的标的物包含,其中所述概率过滤器的片段是基于所述第二媒体中的所述概率过滤器的表示。
在实施例57中,实施例56的标的物包含,其中所述片段具有均匀大小。
在实例58中,实例57的标的物包含,其中所述均匀大小是存储器页大小。
在实例59中,实例58的标的物包含,其中所述片段识别符是页识别符。
在实例60中,实例57到59的标的物包含,其中所述片段识别符是存储器地址。
在实例61中,实例47到60的标的物包含,其中所述查询包含一组测试参数,且其中所述部分查询结果包含对所述高速缓存片段执行的所述测试参数的子集的结果。
在实例62中,实例61的标的物包含,其中所述测试参数包含位置。
在实例63中,实例62的标的物包含,其中所述位置是片段中的位偏移。
在实例64中,实例63的标的物包含,其中所述测试参数的所述子集包含每一位置中的位值。
在实例65中,实例61到64的标的物包含,其中所述部分查询结果包含与查询相关且不在所述高速缓存片段中的片段识别符的列表。
在实例66中,实例65的标的物包含,其中所述操作包括:由所述呼叫者接收所述部分查询结果;针对由所述概率过滤器定义的停止条件搜索所述部分查询结果中的所述测试参数子集;及当在所述测试参数子集中未找到所述停止条件时,在所述片段识别符的片段内搜索所述停止条件,所述片段由于起始所述概率过滤器的所述剩余数据的所述检索而常驻于所述第二媒体中。
在实例67中,实例47到66的标的物包含,其中起始所述概率过滤器的剩余数据的检索包含识别所述部分查询结果中的所述概率过滤器的停止条件及放弃所述剩余数据的所述检索。
在实例68中,实例47到67的标的物包含,其中所述概率过滤器是布隆过滤器、计数布隆过滤器或布谷鸟过滤器的至少一者。
实例69是一种用于缩减概率过滤器查询延时的系统,所述系统包括:用于从呼叫者接收对存储于第一媒体上的概率过滤器的查询的构件;用于响应于接收所述查询而获得存储于第二媒体上的所述概率过滤器的高速缓存片段的构件,其中所述高速缓存片段小于存储于所述第一媒体上的所述概率过滤器的全部,其中所述概率过滤器提供在确定元素不在集合中时是结论性的集合成员资格确定;用于对所述高速缓存片段执行所述查询从而导致部分查询结果的构件;用于在所述呼叫者不介入的情况下起始所述概率过滤器的剩余数据从所述第一媒体到所述第二媒体的检索的构件,其中所述剩余数据对应于所述查询及不在所述高速缓存片段中的数据;及用于将所述部分查询结果传回到所述呼叫者的构件。
在实例70中,实例69的标的物包含,其中用于接收所述查询的所述构件包含用于接收片段识别符的构件,所述片段识别符指定所述概率过滤器的全部片段的哪些片段与所述查询相关。
在实例71中,实例70的标的物包含,其中所述片段识别符是文件中的字节偏移。
在实例72中,实例71的标的物包含,其中所述查询包含所述文件的文件识别符。
在实例73中,实例71到72的标的物包含,其中所述文件是关键值集文件。
在实例74中,实例73的标的物包含:用于针对所述关键值集文件的页维持提取群组数据结构的构件;及用于响应于所述提取群组数据结构中的一个页上的页面错误而检索所述关键值集文件的所述提取群组数据结构中的页的构件。
在实例75中,实例73到74的标的物包含,其中所述关键值集文件包含一个以上KVS树。
在实例76中,实例75的标的物包含,其中所述概率过滤器应用于所述关键值集文件中的单个KVS树。
在实例77中,实例70到76的标的物包含,其中用于获得所述高速缓存片段的所述构件包含用于获得所述第二媒体中的所述概率过滤器对应于所述片段识别符的片段的构件。
在实例78中,实例69到77的标的物包含,其中所述概率过滤器的片段是基于所述第二媒体中的所述概率过滤器的表示。
在实施例79中,实施例78的标的物包含,其中所述片段具有均匀大小。
在实例80中,实例79的标的物包含,其中所述均匀大小是存储器页大小。
在实例81中,实例80的标的物包含,其中所述片段识别符是页识别符。
在实例82中,实例79到81的标的物包含,其中所述片段识别符是存储器地址。
在实例83中,实例69到82的标的物包含,其中所述查询包含一组测试参数,且其中所述部分查询结果包含对所述高速缓存片段执行的所述测试参数的子集的结果。
在实例84中,实例83的标的物包含,其中所述测试参数包含位置。
在实例85中,实例84的标的物包含,其中所述位置是片段中的位偏移。
在实例86中,实例85的标的物包含,其中所述测试参数的所述子集包含每一位置中的位值。
在实例87中,实例83到86的标的物包含,其中所述部分查询结果包含与查询相关且不在所述高速缓存片段中的片段识别符的列表。
在实例88中,实例87的标的物包含:用于由所述呼叫者接收所述部分查询结果的构件;用于针对由所述概率过滤器定义的停止条件搜索所述部分查询结果中的所述测试参数子集的构件;及用于当在所述测试参数子集中未找到所述停止条件时在所述片段识别符的片段内搜索所述停止条件的构件,所述片段由于起始所述概率过滤器的所述剩余数据的所述检索而常驻于所述第二媒体中。
在实例89中,实例69到88的标的物包含,其中用于起始所述概率过滤器的剩余数据的检索的所述构件包含用于识别所述部分查询结果中的所述概率过滤器的停止条件及放弃所述剩余数据的所述检索的构件。
在实例90中,实例69到89的标的物包含,其中所述概率过滤器是布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
实例91是一种用于缩减概率过滤器查询延时的系统,所述系统包括用于以下各者的处理电路系统:接收页面错误的通知,所述页面错误是对对应于存储器映射文件的存储器页的请求,所述存储器页不在存储器中;确定所述存储器页是提取群组的部分;及起始所述提取群组中并非处于存储器中的存储器页的加载。
在实例92中,实例91的标的物包含,其中为起始所述加载,所述处理电路系统执行所述提取群组中并非处于存储器中的所述存储器页的异步加载。
在实例93中,实例91到92的标的物包含,其中为确定所述存储器页是提取群组的部分,所述处理电路系统在数据结构中寻找所述存储器页。
在实例94中,实例93的标的物包含,其中所述数据结构是表。
在实例95中,实例94的标的物包含,其中所述表保存一个以上提取群组。
在实例96中,实例93到95的标的物包含,其中所述处理电路系统进一步用以:接收提取群组中的页的识别符;及将所述识别符存储到所述数据结构中。
实例97是一种用于缩减概率过滤器查询延时的方法,所述方法包括:接收页面错误的通知,所述页面错误是对对应于存储器映射文件的存储器页的请求,所述存储器页不在存储器中;确定所述存储器页是提取群组的部分;及起始所述提取群组中并非处于存储器中的存储器页的加载。
在实例98中,实例97的标的物包含,其中起始所述加载包含执行所述提取群组中并非处于存储器中的所述存储器页的异步加载。
在实例99中,实例97到98的标的物包含,其中确定所述存储器页是提取群组的部分包含在数据结构中寻找所述存储器页。
在实例100中,实例99的标的物包含,其中所述数据结构是表。
在实例101中,实例100的标的物包含,其中所述表保存一个以上提取群组。
在实例102中,实例99到101的标的物包含:接收提取群组中的页的识别符;及将所述识别符存储到所述数据结构中。
实例103是一种包含用于缩减概率过滤器查询延时的指令的机器可读媒体,所述指令在由处理电路系统执行时引起所述处理电路系统执行包括以下各者的操作:接收页面错误的通知,所述页面错误是对对应于存储器映射文件的存储器页的请求,所述存储器页不在存储器中;确定所述存储器页是提取群组的部分;及起始所述提取群组中并非处于存储器中的存储器页的加载。
在实例104中,实例103的标的物包含,其中起始所述加载包含执行所述提取群组中并非处于存储器中的所述存储器页的异步加载。
在实例105中,实例103到104的标的物包含,其中确定所述存储器页是提取群组的部分包含在数据结构中寻找所述存储器页。
在实例106中,实例105的标的物包含,其中所述数据结构是表。
在实例107中,实例106的标的物包含,其中所述表保存一个以上提取群组。
在实例108中,实例105到107的标的物包含,其中所述操作包括:接收提取群组中的页的识别符;及将所述识别符存储到所述数据结构中。
实例109是一种用于缩减概率过滤器查询延时的系统,所述系统包括:用于接收页面错误的通知的构件,所述页面错误是对对应于存储器映射文件的存储器页的请求,所述存储器页不在存储器中;用于确定所述存储器页是提取群组的部分的构件;及用于起始所述提取群组中并非处于存储器中的存储器页的加载的构件。
在实例110中,实例109的标的物包含,其中用于起始所述加载的所述构件包含用于执行所述提取群组中并非处于存储器中的所述存储器页的异步加载的构件。
在实例111中,实例109到110的标的物包含,其中用于确定所述存储器页是提取群组的部分的所述构件包含用于在数据结构中寻找所述存储器页的构件。
在实例112中,实例111的标的物包含,其中所述数据结构是表。
在实例113中,实例112的标的物包含,其中所述表保存一个以上提取群组。
在实例114中,实例111到113的标的物包含:用于接收提取群组中的页的识别符的构件;及用于将所述识别符存储到所述数据结构中的构件。
实例115是至少一种包含指令的机器可读媒体,所述指令在由处理电路系统执行时引起所述处理电路系统执行操作以实施实例1到114中的任一者。
实施例116是一种包括用来实施实例1到114中的任一者的构件的设备。
实施例117是一种用来实施实例1到114中的任一者的系统。
实施例118是一种用来实施实例1到114中的任一者的方法。
上文实施方式包含对形成实施方式的一部分的附图的参考。图式通过说明的方式展示可实践的特定实施例。这些实施例在本文中也称为“实例”。这些实例可包含除所展示或所描述元件之外的元件。然而,本发明人还预期其中仅提供那些所展示或所描述元件的实例。此外,本发明人还预期关于特定实例(或其一或多个方面)或关于本文中所展示或所描述的其它实例(或其一或多个方面)使用那些所展示或所描述元件的任何组合或置换的实例。
本文档中所提及的全部公开案、专利及专利文档的全文如同以引用方式个别地并入般以引用方式并入本文中。本文档与那些以参考方式并入的文档之间如果有不一致的用法,并入的参考文件中的使用状况应视为本文档用法的补充;对于矛盾的不一致,以本文档中的使用状况为主。
在本文档中,如常见于专利文档中,术语“一(a或an)”用来包含独立于“至少一个”或“一或多个”的任何其它例子或用法的一个或一个以上例子或用法。在本文档中,术语“或”用来指代非排他性或,使得“A或B”包含“A但非B”、“B但非A”及“A及B”,除非另有指示。在所附权利要求书中,术语“包含”及“其中”用作相应术语“包括”及“其中”的白话英语等效物。此外,在下文权利要求书中,术语“包含”及“包括”是开放式的,即,包含在如权利要求中的此术语后所列元件以外的元件的系统、装置、物品或过程仍然是视为属于所述权利要求书的范围内。此外,在下文权利要求书中,术语“第一”、“第二”及“第三”等仅用作标签,且并不希望对其目标强加数字要求。
上文描述希望是说明性且非限制性。例如,上文所描述的实例(或其一或多个方面)可彼此组合使用。在审阅上文描述后,例如所属领域的一般技术人员可使用其它实施例。说明书摘要允许读者能够快速地确定本发明的性质,且在提交所述说明书摘要的同时应理解并非用于解译或限制权利要求书的范围或含义。此外,在上文实施方式中,各种特征可集合在一起以简化本发明。此不应被解译为希望未主张的揭示特征是任何权利要求的关键值。而是,发明标的物可能在于少于特定揭示实施例的全部特征。因此,下文权利要求书特此并入实施方式中,其中每一权利要求自身作为单独实施例。应参考所附权利要求书连同此类权利要求所赋予权利的等效物的全范围来确定实施例的范围。

Claims (20)

1.一种系统,其包括用以执行操作的处理电路系统,所述操作包括:
从呼叫软件应用程序接收对存储于第一媒体上的概率过滤器的查询;
响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,所述高速缓存片段包括存储于所述第一媒体上的所述概率过滤器的子集,所述概率过滤器用于确定元素不在集合中;
对所述高速缓存片段执行所述查询,从而导致部分查询结果;
将所述部分查询结果传回到所述呼叫软件应用程序;
在所述呼叫软件应用程序不介入的情况下,在执行所述概率过滤器的非高速缓存片段从所述第一媒体到所述第二媒体的检索的同时:
在所述部分查询结果内搜索停止条件;
响应于识别所述停止条件,停止所述搜索并放弃检索任何剩余非高速缓存片段。
2.根据权利要求1所述的系统,其中所述操作包括:
开始所述概率过滤器的所述非高速缓存片段从所述第一媒体到所述第二媒体的所述检索。
3.根据权利要求1所述的系统,其中接收所述查询包括接收一或多个片段识别符,所述片段识别符指定所述概率过滤器的哪些片段与所述查询相关。
4.根据权利要求3所述的系统,其中所述一或多个片段识别符是文件中的字节偏移。
5.根据权利要求4所述的系统,其中所述文件包括关键值集文件。
6.根据权利要求5所述的系统,其中所述操作包括:
针对所述关键值集文件的页维持提取群组的数据结构;及
响应于所述数据结构中的至少一个页上的页面错误而检索所述关键值集文件的所述提取群组中的页。
7.根据权利要求1所述的系统,其中所述部分查询结果包括与所述查询相关且不在所述高速缓存片段中的片段识别符的列表。
8.根据权利要求1所述的系统,其中所述概率过滤器包括布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
9.一种方法,其包括:
从呼叫软件应用程序接收对存储于第一媒体上的概率过滤器的查询;
响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,所述高速缓存片段包括存储于所述第一媒体上的所述概率过滤器的子集,所述概率过滤器用于确定元素不在集合中;
对所述高速缓存片段执行所述查询,从而导致部分查询结果;
将所述部分查询结果传回到所述呼叫软件应用程序;
在所述呼叫软件应用程序不介入的情况下,在执行所述概率过滤器的非高速缓存片段从所述第一媒体到所述第二媒体的检索的同时:
在所述部分查询结果内搜索停止条件;
响应于识别所述停止条件,停止所述搜索并放弃检索任何剩余非高速缓存片段。
10.根据权利要求9所述的方法,其包括:
开始所述概率过滤器的所述非高速缓存片段从所述第一媒体到所述第二媒体的所述检索。
11.根据权利要求9所述的方法,其中接收所述查询包括接收一或多个片段识别符,所述片段识别符指定所述概率过滤器的哪些片段与所述查询相关。
12.根据权利要求11所述的方法,其中所述一或多个片段识别符是文件中的字节偏移。
13.根据权利要求12所述的方法,其中所述文件包括关键值集文件。
14.根据权利要求13所述的方法,其包括:
针对所述关键值集文件的页维持提取群组的数据结构;及
响应于所述数据结构中的至少一个页上的页面错误而检索所述关键值集文件的所述提取群组中的页。
15.根据权利要求9所述的方法,其中所述部分查询结果包括与所述查询相关且不在所述高速缓存片段中的片段识别符的列表。
16.根据权利要求9所述的方法,其中所述概率过滤器包括布隆过滤器、计数布隆过滤器或布谷鸟过滤器中的至少一者。
17.一种包括指令的非暂时性机器可读存储媒体,所述指令在由处理电路系统执行时引起所述处理电路系统执行包括以下各者的操作:
从呼叫软件应用程序接收对存储于第一媒体上的概率过滤器的查询;
响应于接收所述查询,获得存储于第二媒体上的所述概率过滤器的高速缓存片段,所述高速缓存片段包括存储于所述第一媒体上的所述概率过滤器的子集,所述概率过滤器用于确定元素不在集合中;
对所述高速缓存片段执行所述查询,从而导致部分查询结果;
将所述部分查询结果传回到所述呼叫软件应用程序;
在所述呼叫软件应用程序不介入的情况下,在执行所述概率过滤器的非高速缓存片段从所述第一媒体到所述第二媒体的检索的同时:
在所述部分查询结果内搜索停止条件;
响应于识别所述停止条件,停止所述搜索并放弃检索任何剩余非高速缓存片段。
18.根据权利要求17所述的机器可读媒体,其中所述操作包括:
开始所述概率过滤器的所述非高速缓存片段从所述第一媒体到所述第二媒体的所述检索。
19.根据权利要求17所述的机器可读媒体,其中接收所述查询包括接收一或多个片段识别符,所述片段识别符指定所述概率过滤器的哪些片段与所述查询相关。
20.根据权利要求19所述的机器可读媒体,其中所述一或多个片段识别符是文件中的字节偏移。
CN202111355976.7A 2017-08-31 2018-08-07 缩减概率过滤器查询延时 Pending CN114064756A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/691,998 US10579633B2 (en) 2017-08-31 2017-08-31 Reducing probabilistic filter query latency
US15/691,998 2017-08-31
CN201880063595.1A CN111226208B (zh) 2017-08-31 2018-08-07 缩减概率过滤器查询延时

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201880063595.1A Division CN111226208B (zh) 2017-08-31 2018-08-07 缩减概率过滤器查询延时

Publications (1)

Publication Number Publication Date
CN114064756A true CN114064756A (zh) 2022-02-18

Family

ID=65435246

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111355976.7A Pending CN114064756A (zh) 2017-08-31 2018-08-07 缩减概率过滤器查询延时
CN201880063595.1A Active CN111226208B (zh) 2017-08-31 2018-08-07 缩减概率过滤器查询延时

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201880063595.1A Active CN111226208B (zh) 2017-08-31 2018-08-07 缩减概率过滤器查询延时

Country Status (5)

Country Link
US (3) US10579633B2 (zh)
KR (2) KR102461152B1 (zh)
CN (2) CN114064756A (zh)
TW (3) TWI663511B (zh)
WO (1) WO2019045961A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706106B2 (en) 2017-02-09 2020-07-07 Micron Technology, Inc. Merge tree modifications for maintenance operations
US10706105B2 (en) 2017-02-09 2020-07-07 Micron Technology, Inc. Merge tree garbage metrics
US10719495B2 (en) 2017-02-09 2020-07-21 Micron Technology, Inc. Stream selection for multi-stream storage devices
US10579633B2 (en) 2017-08-31 2020-03-03 Micron Technology, Inc. Reducing probabilistic filter query latency
US11762828B2 (en) * 2018-02-27 2023-09-19 Advanced Micro Devices, Inc. Cuckoo filters and cuckoo hash tables with biasing, compression, and decoupled logical sparsity
US10915546B2 (en) 2018-10-10 2021-02-09 Micron Technology, Inc. Counter-based compaction of key-value store tree data block
US11100071B2 (en) 2018-10-10 2021-08-24 Micron Technology, Inc. Key-value store tree data block spill with compaction
US10852978B2 (en) 2018-12-14 2020-12-01 Micron Technology, Inc. Key-value store using journaling with selective data storage format
US11048755B2 (en) 2018-12-14 2021-06-29 Micron Technology, Inc. Key-value store tree with selective use of key portion
US10936661B2 (en) 2018-12-26 2021-03-02 Micron Technology, Inc. Data tree with order-based node traversal
CN110765138B (zh) * 2019-10-31 2023-01-20 北京达佳互联信息技术有限公司 数据查询方法、装置、服务器及存储介质
US11599463B2 (en) * 2020-03-25 2023-03-07 Ocient Holdings LLC Servicing queries during data ingress
CN111538865B (zh) * 2020-03-27 2023-06-02 中国人民解放军国防科技大学 多方集合同步方法、装置和电子设备
US11210288B2 (en) * 2020-05-12 2021-12-28 Coupang Corp. Systems and methods for reducing database query latency
CA3118234A1 (en) * 2020-05-13 2021-11-13 Magnet Forensics Inc. System and method for identifying files based on hash values
US11636041B2 (en) * 2020-10-12 2023-04-25 Seagate Technology Llc Object storage data storage systems and methods
US11416499B1 (en) * 2021-10-12 2022-08-16 National University Of Defense Technology Vertical cuckoo filters

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9718026D0 (en) * 1997-08-27 1997-10-29 Secr Defence Multi-component signal detection system
US6330292B1 (en) * 1997-11-11 2001-12-11 Telefonaktiebolaget Lm Ericsson Reduced power matched filter
US7065619B1 (en) * 2002-12-20 2006-06-20 Data Domain, Inc. Efficient data storage system
US6928526B1 (en) 2002-12-20 2005-08-09 Datadomain, Inc. Efficient data storage system
CN1282332C (zh) * 2003-11-13 2006-10-25 中兴通讯股份有限公司 一种快速数据包过滤方法
TWI278752B (en) * 2004-04-21 2007-04-11 Netcell Corp Disk array controller and fast method of executing stripped-data operations in disk array controller
US7716180B2 (en) * 2005-12-29 2010-05-11 Amazon Technologies, Inc. Distributed storage system with web services client interface
US20080222087A1 (en) * 2006-05-15 2008-09-11 International Business Machines Corporation System and Method for Optimizing Query Access to a Database Comprising Hierarchically-Organized Data
US8429352B2 (en) * 2007-06-08 2013-04-23 Sandisk Technologies Inc. Method and system for memory block flushing
US20100106537A1 (en) * 2008-10-23 2010-04-29 Kei Yuasa Detecting Potentially Unauthorized Objects Within An Enterprise
US8290972B1 (en) * 2009-04-29 2012-10-16 Netapp, Inc. System and method for storing and accessing data using a plurality of probabilistic data structures
US8788766B2 (en) * 2010-02-18 2014-07-22 Oracle America, Inc. Software-accessible hardware support for determining set membership
US9355109B2 (en) 2010-06-11 2016-05-31 The Research Foundation For The State University Of New York Multi-tier caching
EP2425886B1 (en) * 2010-09-06 2016-06-29 Sartorius Stedim Biotech GmbH Filter device test apparatus, filter integrity testing method and computer program product
CA2810991C (en) 2010-09-09 2016-06-21 Nec Corporation Storage system
US20120324143A1 (en) * 2011-06-15 2012-12-20 Data Design Corporation Methods and apparatus for data access by a reprogrammable circuit module
US8676951B2 (en) * 2011-07-27 2014-03-18 Hitachi, Ltd. Traffic reduction method for distributed key-value store
US8990243B2 (en) * 2011-11-23 2015-03-24 Red Hat, Inc. Determining data location in a distributed data store
US9015269B2 (en) 2012-06-19 2015-04-21 Canon Kabushiki Kaisha Methods and systems for notifying a server with cache information and for serving resources based on it
WO2014132136A2 (en) 2013-02-27 2014-09-04 Marvell World Trade Ltd. Efficient longest prefix matching techniques for network devices
US9032152B2 (en) * 2013-03-22 2015-05-12 Applied Micro Circuits Corporation Cache miss detection filter
CN104173121B (zh) * 2013-05-27 2016-05-25 上海微创心通医疗科技有限公司 用于输送植入体的电动手柄及输送系统
US10474961B2 (en) * 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
US9633317B2 (en) * 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US9594542B2 (en) * 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
US10366070B2 (en) * 2015-02-20 2019-07-30 Scality S.A. Locking and I/O improvements of systems built with distributed consistent database implementations within an object store
CA2876466C (en) * 2014-12-29 2022-07-05 Ibm Canada Limited - Ibm Canada Limitee Scan optimization using bloom filter synopsis
US10042875B2 (en) * 2016-09-26 2018-08-07 International Business Machines Corporation Bloom filter index for device discovery
US10579633B2 (en) 2017-08-31 2020-03-03 Micron Technology, Inc. Reducing probabilistic filter query latency

Also Published As

Publication number Publication date
CN111226208A (zh) 2020-06-02
TW201921246A (zh) 2019-06-01
CN111226208B (zh) 2021-12-03
TWI663511B (zh) 2019-06-21
KR102461152B1 (ko) 2022-10-31
US10579633B2 (en) 2020-03-03
KR20200036049A (ko) 2020-04-06
KR20220045077A (ko) 2022-04-12
TWI790550B (zh) 2023-01-21
WO2019045961A1 (en) 2019-03-07
TW202131188A (zh) 2021-08-16
US20190065557A1 (en) 2019-02-28
TW201935242A (zh) 2019-09-01
TWI720491B (zh) 2021-03-01
US20220374148A1 (en) 2022-11-24
US20200159727A1 (en) 2020-05-21
US11409753B2 (en) 2022-08-09
KR102382607B1 (ko) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111226208B (zh) 缩减概率过滤器查询延时
US10534547B2 (en) Consistent transition from asynchronous to synchronous replication in hash-based storage systems
US8868926B2 (en) Cryptographic hash database
CN105843551B (zh) 高性能和大容量储存重复删除中的数据完整性和损耗电阻
CN109522243B (zh) 一种全闪存储中元数据缓存管理方法、装置及存储介质
US8185692B2 (en) Unified cache structure that facilitates accessing translation table entries
US11216199B2 (en) Applying deduplication digests to avoid same-data writes
US20160342342A1 (en) Information processing device, information processing system, and data access method
US8782375B2 (en) Hash-based managing of storage identifiers
US11016676B2 (en) Spot coalescing of distributed data concurrent with storage I/O operations
US9064030B2 (en) Tree traversal in a memory device
JP6406254B2 (ja) ストレージ装置、データアクセス方法およびデータアクセスプログラム
US11747998B1 (en) Indexing technique for large scale distributed key-value systems
US11899953B1 (en) Method of efficiently identifying rollback requests
US20220391119A1 (en) Data relocation for data units in scale-out storage systems
CN113407462A (zh) 一种数据处理的方法、装置、电子设备及介质
WO2022262990A1 (en) Method and system for indexing data item in data storage system and data indexing module

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination