CN115708080A - 具有散列的键值存储设备 - Google Patents
具有散列的键值存储设备 Download PDFInfo
- Publication number
- CN115708080A CN115708080A CN202210982139.5A CN202210982139A CN115708080A CN 115708080 A CN115708080 A CN 115708080A CN 202210982139 A CN202210982139 A CN 202210982139A CN 115708080 A CN115708080 A CN 115708080A
- Authority
- CN
- China
- Prior art keywords
- instruction
- key
- log
- value
- persistent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0894—Escrow, recovery or storing of secret information, e.g. secret key escrow or cryptographic key storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0223—User address space allocation, e.g. contiguous or non contiguous base addressing
- G06F12/0292—User address space allocation, e.g. contiguous or non contiguous base addressing using tables or multilevel address translation means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0652—Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0658—Controller construction arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Power Engineering (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于存储数据的系统和方法。在一些实施例中,该方法包括:由包括用于将键映射到值地址的散列的持久键值存储设备接收第一指令,该第一指令是用于访问第一键值集合中的第一键的指令;以及在持久键值存储设备的指令日志中记录第一指令。
Description
相关申请的交叉引用
本申请要求于2021年8月18日提交的题为“NEAR-LINE PERFECT HASH FUNCTIONCOMPUTATION FOR COLLISION FREE INDEXING IN KV STORES”的美国临时申请No.63/234,613和2021年10月20日提交的题为“KEY VALUE STORAGE DEVICE WITH HASHING”的美国申请No.17/506,647的优先权和权益,其全部内容通过引用并入本文。
技术领域
根据本公开的实施例的一个或多个方面涉及持久存储,并且更具体地,涉及用于具有完美散列的键值存储设备的系统和方法。
背景技术
键值(key-value,KV)存储设备具有各种数据存储用途,例如,在服务器系统中。在这种存储设备中,数据可以被存储为值,每个值由各自的键标识,并且使用KV存储设备的主机可以例如发送包括键的读取请求,该键标识要从存储设备读取的值。
发明内容
在一些实施例中,KV持久存储设备(例如,KV SSD)使用动态完美散列来保证最多单个页读取来查找键。在一些实施例中,在对完美散列的间断更新之间采用局部性转换器、局部性转换器上的布隆过滤器和尾指针表。
在更新之间,(例如,通过添加键或删除键)影响键集的指令可以被记录在局部性转换器中,并且接收到的指令可以(在首先检查布隆过滤器之后)检查局部性转换器,以确保从主键值存储的任何读取有效。当局部性转换器已经聚集了足够数量的更新时,可以以延迟的方式处理键更新(例如,放置(Put)或删除(Delete))。
根据本公开的实施例,提供了一种方法,包括:由包括用于将键映射到值地址的散列的持久键值存储设备接收第一指令,该第一指令是用于访问第一键值集合中的第一键的指令;以及在持久键值存储设备的指令日志中记录第一指令。
在一些实施例中,其中,该散列是被配置为避免冲突的散列函数。
在一些实施例中,在指令日志中记录第一指令包括在指令日志中的第一位置处记录第一指令,该方法还包括:接收第二指令,该第二指令是用于访问第一键值集合中的第二值的指令;以及在指令日志中的第二位置处与指向第一位置的指针一起记录第二指令。
在一些实施例中,在指令日志中记录第一指令包括在尾指针表中存储指向与第一键值集合相对应的地方(location)中的第一位置(position)的指针。
在一些实施例中,在指令日志中的第二位置处记录第二指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第二位置的指针。
在一些实施例中,第一指令是删除指令,并且该方法还包括将第一键添加到黑名单中。
在一些实施例中,该方法还包括:由持久键值存储设备接收第二指令,该第二指令是用于访问第一键的指令;确定第一键在黑名单中;以及报告第一键的不存在。
在一些实施例中,在指令日志中记录第一指令还包括将第一键添加到布隆过滤器。
在一些实施例中,该方法还包括:由持久键值存储设备接收第二指令,该第二指令是用于访问第一键的指令;确定第一键存在于指令日志中;以及响应于确定第一键存在于指令日志中,访问与第一键相关联的值,该值位于第一地址,该第一地址与第一键一起存储在指令日志中。
在一些实施例中,确定第一键存在于指令日志中包括:基于布隆过滤器确定第一键可以存在于指令日志中。
根据本公开的实施例,提供了一种持久键值存储设备,包括:处理电路;以及持久存储介质,该存储设备包括用于将键映射到值地址的散列,该散列包括指令日志,该处理电路被配置为:接收第一指令,该第一指令是用于访问第一键值集合中的第一键的指令;以及在指令日志中记录第一指令。
在一些实施例中,该散列是被配置为避免冲突的散列函数。
在一些实施例中:在指令日志中记录第一指令包括在指令日志中的第一位置处记录第一指令,并且该处理电路还被配置为:接收第二指令,该第二指令是用于访问第一键值集合中的第二值的指令;以及在指令日志中的第二位置处与指向第一位置的指针一起记录第二指令。
在一些实施例中,在指令日志中记录第一指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第一位置的指针。
在一些实施例中,在指令日志中的第二位置处记录第二指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第二位置的指针。
在一些实施例中,第一指令是删除指令,并且该处理电路还被配置为将第一键添加到黑名单。
在一些实施例中,该处理电路还被配置为:接收第二指令,该第二指令是用于访问第一键的指令;确定第一键在黑名单中;以及报告第一键的不存在。
在一些实施例中,在指令日志中记录第一指令还包括将第一键添加到布隆过滤器。
在一些实施例中,该处理电路还被配置为:接收第二指令,该第二指令是用于访问第一键的指令;确定第一键存在于指令日志中;以及响应于确定第一键存在于指令日志中,访问与第一键相关联的值,该值位于第一地址,该第一地址与第一键一起存储在指令日志中。
根据本公开的实施例,提供了一种持久键值存储设备,包括:用于处理的部件;以及持久存储介质,该存储设备包括用于将键映射到值地址的散列,该散列包括指令日志,该用于处理的部件被配置为:接收第一指令,该第一指令是用于访问第一键值集合中的第一键的指令;以及在指令日志中记录第一指令。
附图说明
附图旨在提供对特定实施例的图示,并且未具体示出的其他实施例不被排除在本公开的范围之外。参考说明书、权利要求书和附图,将会认识和理解本公开的这些和其他特征和优点,其中:
图1A是根据本公开的实施例的存储设备的框图;
图1B是根据本公开的实施例的散列函数和位图区段(bitmap section)的示意图;
图2是根据本公开的实施例的用于操作KV持久存储设备的方法的流程图;
图3是根据本公开实施例的用于更新完美散列的方法的流程图;
图4是根据本公开的实施例的用于处理访问第一值的指令的方法的流程图;
图5是根据本公开的实施例的备份文件集和对应的位图的示意图;
图6是根据本公开的实施例的用于处理备份装置(backup appliance)中孤立数据的流程图;
图7是根据本公开的实施例的主机和存储设备的框图;
图8是根据本公开的实施例的用于处理指令的方法的流程图;和
图9是根据本公开的实施例的用于处理指令的另一种方法的流程图。
具体实施方式
下文结合附图描述的具体实施方式旨在说明根据本公开提供的具有完美散列的键值存储设备的示例性实施例,而非旨在表示其中可以构建或利用本公开的唯一形式。描述结合所示实施例阐述了本公开的特征。然而,应当理解,相同或等同的功能和结构可以通过不同的实施例来实现,这些不同的实施例也旨在包含在本公开的范围内。如本文别处所示的,相似的附图标记旨在指示相似的元素或特征。
减少键值(KV)操作的尾部时延可能有利于多种工作负载,如人工智能、机器学习、数据科学和去重复的备份存储。一些KV存储(KV store)实现方式使用固定散列函数将(随时间移动的)键集散列到桶(bucket)中。这样散列到桶中的键可能会导致冲突,并且冲突链长度会导致长的尾部时延。最坏情况的尾部时延可以与散列图的桶中最长冲突链的长度成比例。在固态驱动器(SSD)中实现的KV存储中,定位键可能需要若干次“与非”(Not-AND,NAND)页读取,并且最长的尾部时延读取可能需要相对大量的NAND页读取(例如,多达18到22次NAND页读取)。因此,冲突可以会导致显著的性能下降。对于其中KV上传以批量和间断方式发生以及具有读密集型访问模式的工作负载,即使偶尔避免单个NAND页键查找也可以获得显著的性能改进。
KV SSD和KV存储可以在存储设备内实现散列图(hashmap),其中单个键存储在NAND页中,从而在处理删除(Delete)指令时产生更高的设备写入放大因子(writeamplification factor,WAF),以及在处理放置(Put)、获取(Get)或存在(Exist)指令时产生更高的读取放大因子(read amplification factor,RAF)。为了解决散列图内的冲突,包含在桶号上冲突的键的NAND页可以被链接在一起。这种KV存储的最坏情况的尾部时延可以与散列图的桶中最长的冲突链的长度成比例。如上所述,在这种方法中,冲突可以导致性能下降。
因此,在一些实施例中,KV持久存储设备(例如,KV固态驱动(SSD))使用动态完美散列来保证最多单个页读取来查找键。在一些实施例中,在对完美散列的间断更新之间采用局部性转换器(也可以被称为“指令日志”)、局部性转换器上的布隆过滤器和尾指针表。当局部性转换器已经聚集了足够数量的更新时,可以以延迟的方式处理键更新(例如,放置或删除)。局部性转换器、布隆过滤器和尾指针表可以用于访问键(例如,在从主机接收到对应的指令时)。如本文所使用的,用于“访问”持久存储设备中的键的指令是读取或写入键或者确定其是否存储在存储设备中的任何指令(诸如放置、获取、删除或存在)。
在一些实施例中,散列图的桶被一起分组为桶组(也可以被称为“键值集合”)。采用固定散列函数(不同于完美散列)来首先将每个键映射到桶组;该固定散列函数可以将多个键映射到每个桶组。固定散列函数可以是单个不变的散列函数(即,不同于用于实现完美散列的散列函数(下面将进一步详细讨论),其在操作期间不能被不同的散列函数替换)。然后,在每个桶组内,采用相应的完美散列来将每个键映射到桶,而没有冲突。属于一组中的多个桶的键可以被打包到单个NAND页中。如本文所使用的,“桶”是其中存储值的存储地方,或者等同地,存储的值本身。如本文所使用的,“桶组”是例如出于便于访问的目的而分组在一起的这样的桶的集合。
在一些实施例中,系统根据图1来构建。可以被称为散列图105的第一表用于存储针对每个桶组的一个条目。散列图105的大小可以被调整为适合动态随机访问存储器(DRAM)的区域,该动态随机访问存储器可以设置在持久存储中,用于与其中可能发生冲突并且键被链接以适应冲突的散列函数一起使用。这样的区域可以具有例如每桶四个字节的大小;这样,散列图105的条目可以被相应地调整大小。散列图105的每个条目包括:(i)基页指针110,(ii)散列函数选择器的集115,(iii)存储的键位图120,以及(iv)黑名单数组125(下面将进一步详细讨论其中的每一个)。基页指针是指向桶组的连续逻辑存储区(或“键存储区”130)的开始处的预定逻辑页地址(基页地址)的静态指针,该连续逻辑存储区足够大以存储每桶组的N(其中,例如,N<=15*桶组中的桶的数量)个键。散列函数选择器(例如,8位索引)从通用散列函数生成器中选择散列函数。在一些实施例中,对于每个桶组,散列图105包括3到5个这样的选择器。存储的键位图(可以被简称为“位图”)是将位图内的位位置或“位偏移”映射到唯一键偏移的内射变换,该唯一键偏移指定了相对于基页地址的键被存储的逻辑地址。位图中的每个设置位(set bit)对应于存储在键存储区中经打包的键中的键,该键存储区可以是从该桶组的基页地址处开始的NAND页的集。
键可以在连续域(field)(被称为“键槽”)中被存储在键存储区,每个键槽的宽度足以容纳最大可能的键(例如,32至255字节的宽度)。将键写入键存储区,使得位图的第n个设置位对应于键存储区中的第n个键槽;例如,第10个设置位(例如,在位图中,其可以是位偏移25)对应于从基页地址起的键槽号10。例如,如果每个NAND页总共可以存储64个键,则位图中的第100个设置位对应于第二个NAND页中的第36个键。黑名单数组存储已经被删除(作为从主机接收到的删除指令的结果)但是其删除尚未反映在位图和包含经打包的键的键存储区中的任何键的索引。将键打包到键存储区的NAND页中,使得在每个NAND页中最多有P个键,其中P是针对最长的键名计算的(例如,基于应用,键大小可以小于24字节或小于256字节)。在一些实施例中,逻辑到物理(L2P)表被重新用于存储散列图105(其包含散列函数选择器、存储的键的位图和经删除的键索引的黑名单数组)。
上述数据组织可以实现完美散列。如本文所使用的,“散列”是用于将键映射到值的系统或方法(或其组合)。如本文所使用的,“完美散列”是避免冲突的散列函数。
为了最初构建存储数据结构,并且在需要时(例如,在主机执行了多次添加和删除后)重新构建存储数据结构,可使用以下方法。参考图1B和图2,当构建桶组的完美散列时,桶组的位图空间中的位都被设置为0,并且位图空间被划分为K个区段170。在225,选择散列函数族175,从散列函数族175中选择第一散列函数,并且在230,对桶组中的所有键进行散列(例如,映射到相应的位偏移),使得每个键在散列图105的第一区段中被表示。对于在位图的第一区段中被表示而没有冲突的每个键,存储的键位图中对应的位被设置为1。如果发生了任何冲突,则选择另一个散列函数,并且与其他键冲突的键(即,被映射到已经被设置为1的位的键)被散列到位图的第二区段中。如在第一次迭代中一样,每个键被映射到位图的第二区段的位;如果该位尚未被设置,则将其设置为1;如果其已经被设置,则该键被添加到散列时发生冲突的键列表中。每次用存储的键位图的下一区段和新的散列函数重复这种方法,直到在存储的键位图的区段中没有发生冲突、或者直到使用了第K区段并且发生了冲突为止。在K次迭代结束时(或更早),所有的键都将被用尽或者一些键将在位图的第K区段发生冲突。如果在位图的第K区段中存在冲突,则在清除存储的键位图之后,可以通过为位图的第一区段选择新的散列函数来重复整个过程。在一些实施例中,对于每ARM核每秒大约4千万到1亿个键,可以通过所描述的方法来创建完美散列。
每个值可以存储在持久存储中。这些值可以具有可变的大小,并且它们可以较大;因此,一些值在存储中可以被分段。键存储区可以连同每个键一起存储指向范围(extent)映射器140(其可以是用于存储值的(可能被分段的)存储区)中的地址(例如,物理地址)的指针。在范围映射器中,每个值可以存储为链表中的一个或多个条目,如图所示。
参考图2,当添加或删除键时,可以采用局部性转换器150和黑名单数组(在205,如下文进一步详细讨论的)来继续执行获取、放置和删除指令,而无需如上所述地重新生成完美散列。这种操作模式可能导致局部性转换器和黑名单数组的大小逐渐增加。最终,例如,一旦局部性转换器或黑名单数组的大小已经达到相应的阈值,如在210所确定的,就可以更新或重构散列。在图2中,该过程如下所示。在215,按桶整理(collate)键更新(每个键更新作为记录在局部性转换器中对应的指令的一部分保存在局部性转换器中),并且在220,执行动态完美散列计算。在225,选择散列函数族来创建用于表示桶组中所有键的完美散列,在230,创建键的散列值的位图(该位图也用于确定键存储区中的偏移),并且在235,将键打包到键存储区中,并且将值存储在范围映射器中。在240,可以用为创建桶组的完美散列而选择的散列函数的索引来更新散列图(或L2P表),并且可以更新包含经打包的键的NAND页中的键的偏移的位图。对每个桶组重复该过程;如果在245确定还有更多桶组要处理,则过程返回到步骤225。
图3示出了用于更新完美散列的过程。在305,整理在局部性转换器中对于桶组的键添加和删除(排除在局部性转换器中插入并随后删除的键)。如果在310确定有要删除的键,则在315,用要删除的键的索引来更新黑名单数组。如果如在320所确定的,要添加新的键,那么如果如在325所确定的,可以将键添加到现有的完美散列中(根据需要选择新的散列函数以仅更新最后几个区段),则在330,更新存储的键位图,并且将键打包到新的NAND页中。
在该过程中,可以清除与任何已删除的键相对应的位,并且可以设置与任何已添加的键相对应的位(如果它尚未被设置;如果它已被设置,则可以尝试到位图的其他区段的映射)。如果现有的散列函数能够使用该过程来容纳更新的键,则键存储区的内容可以被相应地更新。如果现有的散列函数不能容纳更新的键,则仅位图的最后几个区段的散列函数可以被改变,使得可以以最小计算工作量(effort)来将新的键集表示为完美散列。
如果尝试改变一些但不是所有的散列函数也失败(例如,如果如在325所确定的,不能将键添加到现有的完美散列中),则可以重构整个散列。即使这种强力(brute force)计算也可以很快(每秒3千万-1亿个键)。在335,为要存储在桶组中的所有新的和旧的键重新计算完美散列,根据需要清除黑名单数组,将键打包到新的NAND页中(即,形成新的键存储区),并且(先前使用的键存储区的)旧的NAND页准备好进行设备垃圾收集。
如上所述,添加或删除键的指令(例如,键尚未存储的写入指令或删除指令)可以通过将每个此类指令记录在(例如,将每个此类指令附加到)局部性转换器中来处理,该局部性转换器是存储区,被组织为日志结构化存储,用于记录此类指令。如本文所使用的,在局部性转换器中“记录指令”意味着在局部性转换器中存储用于稍后要执行的指令的足够信息(例如,存储要执行的操作(例如,其是放置、获取、删除还是存在),存储键,以及如果要写入或修改值,则存储值(或指向值的指针))。如本文所使用的,“局部性转换器”是适于存储足够信息以供指令稍后被执行的任何数据结构。指令可以作为每个桶组的链表保存在局部性转换器中。对于每个桶组,尾指针表155(图1)可以指向对于桶组的最后一个添加的条目。当指令被添加到局部性转换器时,更新布隆过滤器160以通过设置适当的位来记录键的存在。在一些实施例中,每个桶组的指令被保存到该桶组的单独的相应局部性转换器中(而不是所有的指令被保存到由若干个(例如,所有)桶组共享的局部性转换器中)。
当键被删除时(作为从主机接收到的删除指令的结果),已删除的键在存储的键位图中的位置被标记在黑名单数组中(如上所述,其按桶组进行维护)。在随后的查找过程中,如果在位图中找到键,则还会在黑名单数组中检查它的位置,以确保它没有被删除(键存储区尚未被更新以反映删除)。
参考图4,在操作中,键查找操作(例如,作为获取指令的一部分)可以包括通过在405查阅(consult)局部性转换器的布隆过滤器来检查键是否在局部性转换器中。如果如在410所确定的,键不存在于局部性转换器中,则(使用固定散列函数)将其散列到桶组之一。基于键被映射到的桶组,根据桶组的散列函数选择器来选择桶组的散列函数,并且检查位图以查看与键相对应的位是否被设置。如在415所确定的,如果该位未被设置,则保证了该键不存在于存储系统中,并且在420,系统断定该键未被存储(然后,系统可以向主机报告第一键的不存在)。在这种情况下,没有必要将与获取指令一起接收到的键与存储在键存储区中的任何键进行比较。因此,失败的键查找可以非常快,这对于专门构建的备份装置和云备份应用可以是特别有利的。
如在415所确定的,如果在位图中设置了与键相对应的位,则从键存储区中读取键(在425通过对位图中设置位的数量进行计数以确定与该键相对应的位的偏移来确定其在键存储区中的地方之后)。如果存储区中的键匹配正在查找的键,则键查找已经成功(并且例如,可以通过查找并返回值来完成获取指令)。如果存储区中的键不与正在查找的键匹配,则键查找失败(例如,正在查找的键是散列函数映射到与存储的不同键相同的位的键)。
为避免用于将存储的键与正在查找的键进行比较的页读取,可以在430查阅包含被删除的键的索引的黑名单数组,以确保在从键存储区读取存储的键之前,键尚未被删除。如果键索引在黑名单数组中,则在420,系统断定该键未被存储。如果该键尚未被删除,则在435,可以读取一个NAND页中对应于该偏移的适当区段,并且在440,从范围映射器读取值。如在410所确定的,如果布隆过滤器指示该键可能存在于局部性转换器中,则在445,遍历局部性转换器。如在450所确定的,如果该键不存在于局部性转换器中,则该过程返回到步骤415。如果该键存在于局部性转换器中,并且如在455所确定的,如果为该键记录的最后一条指令不是删除指令,则该过程返回到步骤440;否则,在420,系统断定该键未被存储。
在一些实施例中,执行备份装置和KV存储之间的高效协作垃圾收集。备份装置可以将键(指纹)存储在备份文件描述符中(潜在地存储数千到数百万个这样的键)。单个键潜在地存储在多个备份中。当备份被删除时,一些键可能会被孤立;装置不会跟踪孤立键。这样,一些实施例使得装置能够访问桶组内存储的键的位图。在这样的实施例中,装置可以标识实时备份(live backup)中的键属于哪个桶和桶组,并且获得该桶组中存储的键的位图。这可以针对实时备份中的所有键进行。然后,装置可以返回每桶组的修改后的位图,其指示哪些键必须保留,而哪些要删除。设备然后可以处理该列表,并且对不再需要的每个键执行适当的删除动作。
在图5和图6中示出了该过程。在图5中,备份装置包括三个备份文件505,其中两个被删除,并且三个备份文件属于一桶组。删除的结果是,Key51和Key53这两个键被孤立。在一些实施例中,孤立键被标识如下。首先,KV存储设备向备份装置报告其位图510。备份装置首先将零附加到位图的每个位上(这样每个0都变成00,每个1都变成10)。然后,备份装置将要删除的备份文件中的每个键散列到位图中,将10的每个值改变为11,并且将要保留的备份文件中的每个键散列到位图中,将11或10的每个值改变为01。最后,备份装置例如通过将修改后的位图515(其用值11标识孤立键)发送回KV存储设备来指示KV存储设备删除孤立键。在该实施例中,不管其中备份装置散列备份文件的顺序如何,结果都是相同的,因为例如,如果要保留的备份文件首先被散列,则其将会将10转换为01,这将防止要删除的文件的后续散列把这些值转换为11。
图6是示出该过程的流程图。在605,备份装置开始备份精简周期(cycle),并且在610,响应于从备份装置接收到的合适的指令,KV存储设备整理来自局部性转换器的键(键日志)并且按存储桶组更新完美散列函数(perfect hash function,PHF)。在615,备份装置从实时备份(即,从未被删除的备份文件)中查找键,并且在620,KV存储设备向备份装置返回桶组号和桶组的位图。在625,备份装置按桶组标记要保留在装置的位图中的一个或多个键,并且在630,其按桶组返回备份装置的位图。在635,KV存储设备然后将要删除的键添加到黑名单数组,并且在640,它们按桶组更新完美散列函数,并且根据需要执行设备垃圾收集。
图7是主机705和存储设备710(其可以是KV存储设备,例如KV SSD)的框图。存储设备710可以具有适合于持久存储设备的多个形状因子中的任何一个形状因子,包括但不限于2.5”、1.8”、MO-297、MO-300、M.2以及企业和数据中心SSD形状因子(Enterprise andData Center SSD Form Factor,EDSFF),并且其可以具有电接口,通过该接口其可以连接到主机705,该接口是适合于持久存储设备的多个接口中的任何一个,包括外围组件互连(Peripheral Component Interconnect,PCI)、PCI express(PCIe)、以太网、小型计算机系统接口(Small Computer System Interface,SCSI)、串行AT附件(Serial AT Attachment,SATA)和串行附接SCSI(Serial Attached SCSI,SAS)。主机705和存储设备710中的每一个都可以包括处理电路715(下面将进一步详细讨论)。存储设备710还可以包括持久存储介质720(例如,NAND闪存)。存储设备710的处理电路715可以执行(并且,使用其包含的处理电路715,存储设备710可以执行)本文描述的方法中的一些或所有方法。图8和图9是示出在一些实施例中,存储设备710可以在805或905接收指令(例如,其可以从主机705接收指令),并且其可以在910将指令记录在指令日志中(或者,在810,将指令记录在局部性转换器中)。
如本文所使用的,某事物“的一部分”指该事物的“至少一部分”,因此可以指少于该事物的全部或该事物全部。因此,事物的“一部分”包括作为特例的整个事物,即,整个事物是该事物的一部分的示例。如本文所使用的,当第二量在第一量X的“Y内”时,意味着第二量至少是X-Y,并且第二量至多是X+Y。如本文所使用的,当第二数量在第一数量的“Y%内”时,意味着第二数量至少是第一数量的(1-Y/100)倍,并且第二数量至多是第一数量的(1+Y/100)倍。如本文所使用的,术语“或”应当解释为“和/或”,使得例如,“A或B”是指“A”或“B”或“A和B”中的任何一个。如本文所使用的,术语“数组”是指有序的数集,而不管是如何存储的(例如,是存储在连续的存储器位置中,还是存储在链表中)。
本公开的背景技术部分中提供的背景技术仅用于提供上下文,背景技术部分的内容不被视为现有技术。描述的任何组件或组件的任何组合(例如,在本文包括的任何系统图中)可以用于执行本文包括的任何流程图的一个或多个操作。此外,(i)这些操作是示例操作,并且可以包括未明确涵盖的各种附加步骤,以及(ii)这些操作的时间顺序可以变化。
本文使用的术语“处理电路”和“用于处理的部件”均指用于处理数据或数字信号的硬件、固件和软件的任何组合。处理电路硬件可以包括例如专用集成电路(ASIC)、通用或专用中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)以及诸如现场可编程门阵列(FPGA)的可编程逻辑器件。如本文所使用的,在处理电路中,每个功能或者由被配置(即硬连线)为执行该功能的硬件来执行、或者由被配置为执行存储在非暂时性存储介质中的指令的更通用的硬件(诸如CPU)来执行。处理电路可以制造在单个印刷电路板(PCB)上或者分布在若干个互连的PCB上。处理电路可以包含其他处理电路;例如,处理电路可以包括在PCB上互连的两个处理电路,FPGA和CPU。
如本文所使用的,当方法(例如,调整)或第一量(例如,第一变量)被称为“基于”第二量(例如,第二变量)时,这意味着第二量是方法的输入或影响第一量,例如,第二量可以是计算第一量的函数的输入(例如,唯一输入或若干个输入之一)、或第一量可以等于第二量、或者第一量可以与第二量相同(例如,存储器中与第二量存储在相同的一个或多个地方处)。
应当理解,尽管术语“第一”、“第二”、“第三”等在本文中可以用来描述各种元件、组件、区域、层和/或区段,但是这些元件、组件、区域、层和/或区段不应该受到这些术语的限制。这些术语仅用于区分一个元件、组件、区域、层或区段与另一元件、组件、区域、层或区段。因此,在不脱离本发明构思的精神和范围的情况下,本文讨论的第一元件、组件、区域、层或区段可以被称为第二元件、组件、区域、层或区段。
本文使用的术语仅用于描述特定实施例,而无意限制本发明构思。如本文所使用的,术语“基本上”、“大约”和类似术语用作近似术语,而不是程度术语,并且旨在考虑本领域普通技术人员将会认识到的测量值或计算值的固有偏差。
如本文所使用的,单数形式“一”和“一个”也旨在包括复数形式,除非上下文另有明确说明。还将理解,术语“包括”和/或“包含”在本说明书中使用时,指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组的存在或添加。如本文所使用的,术语“和/或”包括一个或多个相关列出项目的任何和所有组合。当在元素列表之后时,诸如“中的至少一个”的表述修饰整个元素列表,而不修饰列表的单个元素。此外,当描述本发明构思的实施例时,使用“可以”是指“本公开的一个或多个实施例”。此外,术语“示例性”旨在指代示例或说明。如本文所使用的,术语“使用”、“用”和“用于”可以被认为分别与术语“利用”、“采用”和“用在”同义。
应当理解,当元件或层被称为“位于”、“连接到”、“耦合到”或“邻近”另一元件或层时,其可以直接位于、连接到、耦合到或邻近另一元件或层或者可以存在一个或多个中间元件或层。相反,当一个元件或层被称为“直接位于”、“直接连接到”、“直接耦合到”或“紧邻”另一元件或层时,不存在中间元件或层。
本文所述的任何数值范围旨在包括所述范围内包含的相同数值精度的所有子范围。例如,“1.0至10.0”或“1.0至10.0之间”的范围旨在包括所述最小值1.0和所述最大值10.0之间的所有子范围,即,最小值等于或大于1.0,且最大值等于或小于10.0,例如2.4至7.6。类似地,描述为“在10的35%以内”的范围旨在包括所述最小值6.5(即(1-35/100)乘以10)和所述最大值13.5(即(1+35/100)乘以10)之间的所有子范围,即最小值等于或大于6.5,且最大值等于或小于13.5,例如7.4至10.6。本文中列举的任何最大数值限制旨在包括其中包含的所有更低数值限制,并且本说明书中列举的任何最小数值限制旨在包括其中包含的所有更高数值限制。
尽管本文已经具体描述和示出了具有完美散列的键值存储设备的示例性实施例,但多种修改和变化对本领域技术人员而言是清楚的。因此,应当理解,根据本公开的原理构建的具有完美散列的键值存储设备可以以除本文具体描述之外的方式来实施。也在所附权利要求及其等同物中限定了本发明。
Claims (20)
1.一种持久键值存储设备的方法,包括:
由包括用于将键映射到值地址的散列的持久键值存储设备接收第一指令,所述第一指令是用于访问第一键值集合中的第一键的指令;以及
在持久键值存储设备的指令日志中记录第一指令。
2.根据权利要求1所述的方法,其中,所述散列是被配置为避免冲突的散列函数。
3.根据权利要求1所述的方法,其中,在指令日志中记录第一指令包括在指令日志中的第一位置处记录第一指令,
所述方法还包括:
接收第二指令,所述第二指令是用于访问第一键值集合中的第二值的指令;以及
在指令日志中的第二位置处与指向第一位置的指针一起记录第二指令。
4.根据权利要求3所述的方法,其中,在指令日志中记录第一指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第一位置的指针。
5.根据权利要求4所述的方法,其中,在指令日志中的第二位置处记录第二指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第二位置的指针。
6.根据权利要求1所述的方法,其中,所述第一指令是删除指令,并且所述方法还包括将第一键添加到黑名单中。
7.根据权利要求6所述的方法,还包括:
由持久键值存储设备接收第三指令,所述第三指令是用于访问第一键的指令;
确定第一键在黑名单中;以及
报告第一键的不存在。
8.根据权利要求1所述的方法,其中,在指令日志中记录第一指令还包括将第一键添加到布隆过滤器。
9.根据权利要求8所述的方法,还包括:
由持久键值存储设备接收第三指令,所述第三指令是用于访问第一键的指令;
确定第一键存在于指令日志中;以及
响应于确定第一键存在于指令日志中,访问与第一键相关联的值,所述值位于第一地址,所述第一地址与第一键一起存储在指令日志中。
10.根据权利要求9所述的方法,其中,确定第一键存在于指令日志中包括:
基于布隆过滤器确定第一键存在于指令日志中。
11.一种持久键值存储设备,包括:
处理电路;以及
持久存储介质,
所述存储设备包括用于将键映射到值地址的散列,所述散列包括指令日志,
所述处理电路被配置为:
接收第一指令,所述第一指令是用于访问第一键值集合中的第一键的指令;以及
在指令日志中记录第一指令。
12.根据权利要求11所述的持久键值存储设备,其中,所述散列是被配置为避免冲突的散列函数。
13.根据权利要求11所述的持久键值存储设备,其中:
在指令日志中记录第一指令包括在指令日志中的第一位置处记录第一指令,并且
所述处理电路还被配置为:
接收第二指令,所述第二指令是用于访问第一键值集合中的第二值的指令;以及
在指令日志中的第二位置处与指向第一位置的指针一起记录第二指令。
14.根据权利要求13所述的持久键值存储设备,其中,在指令日志中记录第一指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第一位置的指针。
15.根据权利要求14所述的持久键值存储设备,其中,在指令日志中的第二位置处记录第二指令包括在尾指针表中存储指向与第一键值集合相对应的地方中的第二位置的指针。
16.根据权利要求11所述的持久键值存储设备,其中,所述第一指令是删除指令,并且所述处理电路还被配置为将第一键添加到黑名单。
17.根据权利要求16所述的持久键值存储设备,其中,所述处理电路还被配置为:
接收第三指令,所述第三指令是用于访问第一键的指令;
确定第一键在黑名单中;以及
报告第一键的不存在。
18.根据权利要求11所述的持久键值存储设备,其中,在指令日志中记录第一指令还包括将第一键添加到布隆过滤器。
19.根据权利要求18所述的持久键值存储设备,其中,所述处理电路还被配置为:
接收第三指令,所述第三指令是用于访问第一键的指令;
确定第一键存在于指令日志中;以及
响应于确定第一键存在于指令日志中,访问与第一键相关联的值,所述值位于第一地址,所述第一地址与第一键一起存储在指令日志中。
20.一种持久键值存储设备,包括:
用于处理的部件;以及
持久存储介质,
所述存储设备包括用于将键映射到值地址的散列,所述散列包括指令日志,
所述用于处理的部件被配置为:
接收第一指令,所述第一指令是用于访问第一键值集合中的第一键的指令;以及
在指令日志中记录第一指令。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163234613P | 2021-08-18 | 2021-08-18 | |
US63/234,613 | 2021-08-18 | ||
US17/506,647 US20230054127A1 (en) | 2021-08-18 | 2021-10-20 | Key value storage device with hashing |
US17/506,647 | 2021-10-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115708080A true CN115708080A (zh) | 2023-02-21 |
Family
ID=83115587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210982139.5A Pending CN115708080A (zh) | 2021-08-18 | 2022-08-16 | 具有散列的键值存储设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230054127A1 (zh) |
EP (1) | EP4137963A1 (zh) |
KR (1) | KR20230026946A (zh) |
CN (1) | CN115708080A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175176A (zh) * | 2019-05-31 | 2019-08-27 | 杭州复杂美科技有限公司 | 一种kv数据库配置方法、查询方法、设备和存储介质 |
CN117539408B (zh) * | 2024-01-09 | 2024-03-12 | 华中科技大学 | 一种存算一体索引系统及键值对存储系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956324B1 (en) * | 2013-08-09 | 2021-03-23 | Ellis Robinson Giles | System and method for persisting hardware transactional memory transactions to persistent memory |
US10831734B2 (en) * | 2018-05-07 | 2020-11-10 | Intel Corporation | Update-insert for key-value storage interface |
WO2020066148A1 (ja) * | 2018-09-27 | 2020-04-02 | ソニー株式会社 | 記憶装置、High Dimensional Gaussian Filtering回路、Stereo Depth計算回路、並びに情報処理装置 |
US11474699B1 (en) * | 2021-06-07 | 2022-10-18 | The Florida International University Board Of Trustees | Systems and methods for optimizing data management within key value storage |
-
2021
- 2021-10-20 US US17/506,647 patent/US20230054127A1/en active Pending
-
2022
- 2022-07-20 KR KR1020220089638A patent/KR20230026946A/ko unknown
- 2022-08-02 EP EP22188237.6A patent/EP4137963A1/en active Pending
- 2022-08-16 CN CN202210982139.5A patent/CN115708080A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4137963A1 (en) | 2023-02-22 |
US20230054127A1 (en) | 2023-02-23 |
KR20230026946A (ko) | 2023-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984420B (zh) | 管理非易失性存储器(nvm)中的多个名称空间 | |
US11093454B2 (en) | Speeding deduplication using a most wanted digest cache | |
US8954710B2 (en) | Variable length encoding in a storage system | |
US8856489B2 (en) | Logical sector mapping in a flash storage array | |
EP4137963A1 (en) | Persistent key value storage device with hashing and method for operating the same | |
US8423519B2 (en) | Data reduction indexing | |
CN109800185B (zh) | 一种数据存储系统中的数据缓存方法 | |
JP2015512604A (ja) | 暗号ハッシュ・データベース | |
US8225060B2 (en) | Data de-duplication by predicting the locations of sub-blocks within the repository | |
WO2010138628A1 (en) | Metadata management for virtual volumes | |
CN113535670B (zh) | 一种虚拟化资源镜像存储系统及其实现方法 | |
CN111143285A (zh) | 一种小文件存储文件系统以及小文件处理方法 | |
CN116450656B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN109407985B (zh) | 一种数据管理的方法以及相关装置 | |
CN110515897B (zh) | Lsm存储系统读性能的优化方法及系统 | |
US11016884B2 (en) | Virtual block redirection clean-up | |
CN114461635A (zh) | 一种MySQL数据库数据存储方法、装置和电子设备 | |
CN110658999B (zh) | 一种信息更新方法、装置、设备及计算机可读存储介质 | |
US20200311030A1 (en) | Optimizing file system defrag for deduplicated block storage | |
US20230176758A1 (en) | Two-level indexing for key-value persistent storage device | |
KR101769916B1 (ko) | 파일 시스템의 세그먼트 클리닝 방법 및 이를 구현하기 위한 메모리 관리 장치 | |
CN115617902A (zh) | 一种位图处理方法和装置 | |
CN116627856A (zh) | 一种实现内存地址映射的方法、装置及设备 | |
KR20170093767A (ko) | 버킷 단위의 정렬을 기반으로 하는 해시 충돌 처리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |