CN110825748A

CN110825748A - 利用差异化索引机制的高性能和易扩展的键值存储方法

Info

Publication number: CN110825748A
Application number: CN201911072075.XA
Authority: CN
Inventors: 崔秋; 唐刘; 张强
Original assignee: Beijing Pingkai Star Technology Development Co Ltd
Current assignee: Pingkai Star Beijing Technology Co ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-21
Anticipated expiration: 2039-11-05
Also published as: CN110825748B

Abstract

本发明公开了一种利用差异化索引机制的高性能和易扩展的键值存储方法，特征是包括差异化的索引设计、键值数据对的部分分离、基于键值范围的数据动态分区管理和范围查询优化。由于采用两层存储架构并对无序层的热数据建立哈希索引，使得该系统能够充分利用数据的局部性原理来加速对热数据的访问，并保证了较低的索引内存开销和高效的数据查询效率；此外，键值数据对的部分分离存储，极大地提高了合并效率；其次，对不同键值范围的数据进行动态分区管理，实现了键值存储的横向水平扩展，保证在大规模数据存储下也能获得高效的读写性能；最后，设计基于文件数量的合并策略，采用多线程技术并行读取日志文件，且结合预读机制来加速范围查询。

Description

利用差异化索引机制的高性能和易扩展的键值存储方法

技术领域

本发明属于计算机存储系统技术领域，具体涉及在键值存储(KV Stores)系统中，利用工作负载的局部性来构建差异化的索引机制，并在此基础上结合基于键值范围的数据动态分区管理，实现高性能和易扩展的键值存储方法。

背景技术

据谷歌(Google)，脸书(Facebook)等公司介绍，为了适应海量非结构化数据的存储与访问需求，并且克服传统文件存储在可扩展性与性能等方面的不足，键值存储(key-value存储或简称为KV存储)提供了很好的解决方案，并已被广泛采用，比如亚马逊公司的Dynamo，百度公司的Atlas及谷歌公司的LevelDB等键值存储系统。以上主流的键值存储系统都采用日志结构合并树(LSM-Tree)来管理键值数据对(key-value pairs)，该架构将键值数据对组织成多层形式，并且需要对相邻层间的数据做频繁的合并操作，由此造成严重的读写放大问题，在大规模数据存储下尤为严重。此外，后续的研究工作，如脸书(Facebook)公司的RocksDB，德克萨斯大学奥斯汀分校的PebblesDB等主要基于日志结构合并树结构来优化其写性能，但不同程度牺牲了读性能，且均未利用工作负载的局部性来提升系统性能。然而，随着数据规模的急剧增长，对键值存储系统的可扩展性提出较高要求，并且企业应用中的绝大多数工作负载都是读写混合的。因此，为了能够很好地适应应用的发展需求，需要键值存储系统在大规模数据存储下也能同时具备高效的读写性能。

发明内容

本发明的目的是提出一种利用差异化索引机制的高性能和易扩展的键值存储方法，以克服现有技术不能同时提升读写性能及不能在大规模数据存储下保证高效的整体性能的缺陷，从而实现键值存储系统在大规模数据存储场景下也能同时获得高效的读写性能。

本发明利用差异化索引机制设计高性能和易扩展的键值存储方法，其特征在于包括以下步骤：

第一步：进行差异化的索引设计

对于最近从内存写入磁盘的数据，会被频繁访问，将其视为热数据，其他数据则视为冷数据；之后对冷热数据进行分层组织和存储，并为其建立差异化的索引机制，具体为：最近从内存写入磁盘的数据存储在无序层，并在内存中为其设计和维护哈希索引，以记录热数据的存储位置；对于绝大部分很少被访问的冷数据，采用单层日志结构合并树(LSM-Tree)架构将其以全局有序的形式存储在有序层；

第二步：键值数据对的部分分离

限制无序层的数据量上限为UnsortedLimit，当超过该上限时，则对无序层的数据进行合并操作，将其合并到有序层；对无序层的数据保持键值数据对，对有序层的数据采用数据对的键和值分离存储的方式，仅仅将数据对的键(keys)存储在有序层，数据对的值(values)存储在单独的日志文件，合并操作时仅仅只需对有序层的键(keys)合并；

第三步：基于键值范围的数据动态分区管理

基于键值范围的数据动态分区策略(Dynamic range partitioning)，将不同键值范围的数据映射到不同的分区，对不同分区的数据进行独立的合并操作，垃圾回收操作和管理；

基于键值范围的动态分区策略的工作流程如下：设定数据分区的数据量上限为PartitionSizeLimit，初始时，所有数据写入一个分区P0，当P0的数据量超过上限时，对其进行分割操作，将其包含的所有数据根据键值范围划分为相等的两部分，形成两个新的分区P1和P2，并记录两个分区的边界键值(boundary key)K2，即分区P2的最小键值；

对于后续写入的数据，首先将其与边界键值(boundary key)K2进行比较，若其键值小于K2，则写入分区P1，若其键值大于K2，则写入分区P2；当分区P1和P2的数据量超过上限PartitionSizeLimit时，对其进行与上述相同的分割操作，并记录边界键值；随着写入数据量的逐渐增加，把所有数据按照与上述相同的分割操作分割形成若干分区，所有分区的边界键值作为定位数据所在分区的索引；

第四步：范围查询优化

首先，通过比较各个分区的边界键值，定位要扫描数据所在的分区，然后对于无序层和有序层的数据，采用不同的策略分别进行优化：1)对于无序层的数据，提出基于文件数量的合并策略，当无序层的文件数超过设定的阈值时，将所有文件合并成一个有序文件；2)对于有序层的数据，由于数据对的键和值分开存储，导致大量随机I/O，利用固态硬盘高效的并行I/O特性，采用多线程并行读取日志文件中的值，并且利用预读机制(read-ahead)将日志文件中的值预取到操作系统的页缓存(page cache)；

第五步：数据的一致性保证

1)对于内存的键值数据对，采用键值存储系统普遍采用的先写日志机制(WAL)，并增加存储边界键值和分区编号等元数据；

2)对于内存中建立的哈希索引，设计检查点(checkpoint)技术定期将哈希索引持久化到磁盘文件，以较低的开销保障其一致性；

3)对于日志文件的垃圾回收状态，如果在做垃圾回收操作时系统崩溃，需要保证数据的有效性，采用为完成垃圾回收操作的日志文件添加标签，表明其已完成垃圾回收操作，空间可以被回收。

上述本发明利用差异化索引机制的高性能和易扩展的键值存储方法，其主要操作步骤包括：进行差异化的索引设计、键值数据对的部分分离、基于键值范围的数据动态分区管理、范围查询优化和数据的一致性保证。由于采用两层存储架构并对无序层的热数据建立哈希索引，使得该系统能够充分利用数据的局部性原理加速对热数据的访问，同时由于设计无序层和有序层组成的两层存储架构，有效地保证了较低的索引内存开销，高效的数据查询效率和较好的范围查询性能；此外，通过设计键值数据对的部分分离，对无序层的数据维持键值数据对，对有序层的数据对采用键和值分离存储，从而使得在合并操作时避免了有序层中大量数据被读写，极大地提高了合并效率；另外，对不同键值范围的数据进行动态分区管理，使不同键值范围的数据相互独立，从而实现键值存储系统的横向水平扩展，很好的支持可扩展性，保证在大规模数据存储下也能获得高效的读写性能；其次，设计基于文件数量的合并策略，并利用固态硬盘良好的并行I/O特性，采用多线程技术并行读取日志文件，且结合预读机制来加速范围查询；最后，分别采用先写日志机制，检查点技术和添加标签机制来保证内存中的键值数据对，哈希索引和日志文件中数据的一致性和可靠性。因此，本发明通过上述设计克服了已有键值存储系统的读写放大严重，可扩展性较差等缺点，通过设计索引机制和数据动态分区管理，极大地降低了读写放大现象，并且使得键值存储系统在大规模数据存储下也能保证高效的读写性能，从而具备良好的可扩展性。

附图说明

图1是利用差异化索引机制的高性能和易扩展的键值存储方法的整体架构图；

图2为哈希索引设计和无序层的数据组织示意图；

图3为键值数据对的部分分离示意图；

图4表示基于键值范围的数据动态分区管理示意图；

图5表示数据的一致性保证示意图。

具体实施方式

下面结合附图通过具体实施例对本发明-利用差异化索引机制的高性能和易扩展的键值存储方法作进一步的详细说明。

实施例1：

本实施例通过操作实际的键值数据对(key-value pairs)来说明本发明的详细运行流程和工作方式，系统相关参数设置如下：每个分区存储的容量为40GB，且在每个分区中，哈希索引的无序层的数据量上限为4GB。首先向发明的键值存储系统中随机写入总量为100GB～1000GB的键值数据对，然后分别向写入数据的存储系统发出10M～100M条随机读请求。应用初始时，键值存储系统为空，所有数据写入一个分区。附图1给出了本实施例利用差异化索引机制的高性能和易扩展的键值存储方法的架构示意图，包括基于哈希索引的差异化索引设计、键值数据对的部分分离和基于键值范围的数据动态分区管理。

本实施例利用差异化索引机制的高性能和易扩展的键值存储方法，具体包括以下步骤：

第一步：进行差异化的索引设计

对于键值数据对<key,value>，首先写入磁盘的日志文件，以保证内存数据的可靠性；然后写入内存的缓存(MemTable)，当缓存(MemTable)存满之后，将其转换为锁定的缓存(Immutable MemTable)，等待后台线程将其写入磁盘，形成磁盘上的文件；对于最近从内存写入磁盘的数据，在最近一段时间会被频繁访问，因此可将其视为热数据，对于剩余的其他数据，可视为冷数据。对冷热数据进行分层组织和存储，并为其建立差异化的索引机制：为了加速对热数据的访问，将热数据单独存储在无序层，并为其建立哈希索引，以记录热数据的存储位置，实现快速查找。对于其他数据，为节约索引的内存开销并保证范围查询性能，采用单层日志结构合并树(LSM-Tree)架构将其以全局有序的形式存储在有序层，因此可通过二分折半查找快速定位数据所在的位置。

附图2给出了本实施例中哈希索引的详细设计和无序层数据的组织结构。在内存中维护一个基于两层哈希的轻量级哈希索引，其结合布谷哈希(cuckoo hash)和链式哈希(linked hash)来解决哈希冲突，主要功能是根据数据对的键值key能快速映射到数据所在的文件编号。如图2所示，哈希索引主要由N个桶组成，每个桶上存储一个由若干索引实体组成的链表。每个索引实体包含三个属性域<键值标签，文件编号，指针>，其中，键值标签用来记录键值的特征信息，存储的是键值Key的哈希值h_n+1(Key)的前两个字节；文件编号记录键值数据对所在的磁盘文件编号，使用2字节来记录文件编号；指针(pointer)用来指向该桶上的下一个索引实体，占据4字节的存储空间。当向无序层写入一个键值为Key的数据对后，需要在哈希索引中为其构建一个索引实体以记录其位置信息，首先使用布谷哈希，如(h₁,h₂,…,h_n)(Key)％N，为其分配一个空桶，如果没有找到空桶，则生成一个索引实体并将其追加到桶h_n(Key)％N后面。之后，将键值标签和文件编号记录到选择的索引实体中。

当查找一个键值为Key的键值数据对时，首先通过哈希函数h_n+1(Key)计算出键值Key的键值标签，即h_n+1(Key)的前两个字节。然后，从桶h_n(Key)开始，到桶h₁(Key)结束，依次搜索每个桶，直到找到查找的键值数据对。其中，对于每个桶的搜索，由于最新的索引实体总是追加到桶的尾部，因此，从尾部的索引实体开始依次匹配每个索引实体的键值标签。一旦匹配到键值标签相同，则根据索引实体中记录的文件编号到磁盘上的相应文件中查找数据对，若在文件中找到相应数据对，则结束并返回，否则继续搜索后续索引实体和后续桶。最后，如果在无序层中没有找到查询的键值数据对，则通过二分折半查找方法继续在有序层中查找。

第二步：键值数据对的部分分离存储

为了限制哈希索引的内存开销并保证高效的范围查询，限制哈希索引的无序层的数据量上限UnsortedLimit为4GB，当超过该上限时，对无序层的数据进行合并操作，将其合并到有序层。为了减少合并过程中数据被频繁读写，从而提高合并效率，采用键值数据对的部分分离存储。

附图3给出了本实施例中键值数据对的部分分离存储。最上层的线框包含的数据表示拥有哈希索引的无序层数据，这类数据直接从内存以追加的形式批量写入磁盘，最小写入单位为文件，导致不同文件间的键值范围有重叠。并且，由于其最近从内存写入，相比于其他数据，这部分数据会被频繁访问。因此，本发明在内存中为其构建哈希索引以加速对这部分热数据的访问。此外，为了保证较小的内存索引开销和较好的范围查询性能，当无序层的数据量超过上限(UnsortedLimit＝4GB)时，将无序层数据合并到有序层，如图3最下层的实线框所示。为了避免合并过程中有序层的大量数据被频繁读写，从而严重影响系统的写入性能，本发明设计键值数据对的部分分离存储：对无序层的数据保持键值数据对，对有序层的数据采用数据对的键和值分离存储的方式，如图3最下层的实线框所示。具体流程为：当将无序层的数据合并到有序层时，只对键值(keys)进行批量合并，数据值(values)以追加的形式存储到分离的日志文件中，并将数据值(values)的位置信息记录在指针(pointer)中，和相应键值(keys)存储在一起。该设计的主要优点是：无序层的数据可视为热数据，采用键值数据对的形式存储可以保证高效的读性能；有序层的数据在做合并操作时需要被读取到内存，执行合并后再写回磁盘，导致大量的I/O开销，本设计把键值(keys)存储在有序层，数据值(values)存储在单独的日志文件中，合并操作时只需对有序层的键值(keys)合并，无需合并数据值(values)，从而极大地减少了合并操作导致的磁盘读写I/O，保证了高效的合并效率。

第三步：基于键值范围的数据动态分区管理

随着数据量急剧增长，传统的基于日志结构合并树(LSM-tree)的键值存储系统通过增加更多的层数来支持大规模的数据存储，然而，随着写入数据的增加，这种方式将触发频繁的合并操作，将数据从最低层合并到最高层，并且造成查询操作需要访问多层数据，进而极大地影响系统的读写性能。此外，在大规模数据存储下，日志文件的垃圾回收操作(GCoperation)也将成为系统性能的瓶颈。因此，我们设计基于键值范围的数据动态分区管理(Dynamic range partitioning)，将不同键值范围的数据映射到不同的分区，对不同分区的数据进行独立的合并操作，垃圾回收操作和管理，从而在大规模的数据存储下也能保证高效的读写性能。

附图4给出了本实施例中基于键值范围的数据动态分区管理，初始时，所有数据写入一个分区P0，当分区P0的数据量超过分区容量上限(PartitionSizeLimit＝40GB)时，对其进行分割操作，具体流程为：①首先分割无序层和有序层的键值(keys)，具体操作为：开始将内存的所有键值数据对写入无序层，然后读取无序层和有序层中的所有文件，对键值(keys)进行合并和排序，并删除无效的键值；之后将排好序的键值(keys)根据键值范围均匀地划分为两部分，并记录这两部分的边界键值K作为分割基点，键值小于K的数据划分到分区P1，键值大于等于K的数据划分到分区P2；其次，根据边界键值K将无序层中的数据值(values)划分为两部分，并且以追加的方式写入相应分区中新建的日志文件；最后，将数据值(values)在日志文件中的存储位置记录在指针中，并和相应的键值(keys)存储在一起，最后写回有序层。

②分割有序层的日志文件中的数据值(values)，由于这部分数据值(values)单独存储在多个日志文件中，本发明设计延迟分割机制：后台线程对日志文件做垃圾回收操作(GC operation)的同时对日志文件中的数据值(values)进行分割。工作流程如下：分区P1中的垃圾回收操作线程首先扫描分区P1的有序层中的所有文件，然后根据文件中的指针(pointer)从分区P1和P2共享的日志文件中读取有效的数据值(values)，然后将这些有效数据值(values)写回分区P1中新建的日志文件，最后更新有序层中键值(keys)对应的指针来记录数据值(values)的最新位置。分区P2中的垃圾回收线程执行流程和分区P1类似，不再累述。延迟分割的主要好处是通过将分割操作合并到垃圾回收操作中，可以有效避免大量的磁盘I/O操作，从而显著地减少分割开销。③分割完成后，产生两个新的分区P1和P2，其中每个分区拥有自己专属的哈希索引的无序层，有序层和日志文件，如图4的下半部分所示。一旦分区的数据量超过容量上限，将触发分割操作，分割操作完成后，所产生的两个分区的数据，其键值范围互不重叠，因此可在不同分区上进行独立的合并，分割和垃圾回收操作，从而大大提高合并，分割和垃圾回收操作的效率，并保证键值存储系统良好的整体性能和可扩展性。

需要强调的是，随着数据量的增加，最初的一个分区将会分割产生多个分区，为了在读写操作时能够快速定位数据所在的分区，本发明在内存中和磁盘上记录所有分区的编号和边界键值，用作快速定位分区的索引信息。此外，不同分区管理不同键值范围的键值数据对，因此不同分区的键值范围没有重叠，每个键值数据对只会存在于一个分区，所以，当查找一个键值数据对时，首先将其键值同各个分区的边界键值进行比较，获得其所在的分区编号，然后在对应分区中查找数据。总之，基于键值范围的数据动态分区管理可以将不同键值范围的数据分割存储在不同的独立分区，并保持每个分区两层的存储架构，从而高效地实现键值存储的横向水平扩展，保证在大规模的数据存储下也能获得高效的读写性能和范围扫描性能。

第四步：范围查询优化

本实施例对范围查询的优化体现在两个层面，第一个层面：首先通过比较各个分区的边界键值，定位要扫描数据所在的分区，从而极大地减少要扫描的数据量。第二个层面：对于定位的分区中的无序层和有序层，采用不同的策略进行优化：1)对于无序层，由于该层的文件以追加的形式写入，因此文件间的键值范围有重叠，导致范围扫描时需要依次检查每个文件，进而导致大量的随机I/O读写。本发明提出基于文件数量的合并策略，当无序层的文件数超过设定的阈值时，将所有文件合并成一个有序文件。2)对于有序层，由于该层的数据对采用键(keys)和值(values)分开存储，导致范围扫描时触发大量随机I/O，本实例利用固态硬盘高效的并行I/O特性，采用多线程并行读取日志文件中的数据值，并利用预读机制(read-ahead)将日志文件中的数据值预取到操作系统的页缓存(page cache)，从而加速范围扫描操作。

第五步：数据的一致性保证

本实例主要从以下三方面提供数据一致性保证：(1)缓存在内存的键值数据对；(2)内存的哈希索引；(3)日志文件的垃圾回收状态。

1)对于内存的键值数据对，采用键值存储系统普遍采用的先写日志机制(WAL)保证内存数据的一致性和可靠性，具体实施方法为：为每个分区分配一个日志文件(Log)，向每个分区写入数据之前，先写日志文件(Log)，以保证每个分区数据的可靠性。如图5左侧所示，对分区P0,P1,…,Pn，为每个分区分配一个日志文件(Log)，从而在磁盘上形成日志文件Log0,Log1,…,Logn。当需要恢复数据时，每个分区从其对应的日志文件(Log)中进行恢复。

2)对于内存中建立的哈希索引，设计检查点(checkpoint)技术定期将哈希索引持久化到磁盘文件，以较低的开销保障其一致性。具体做法为：对于哈希索引，每当从内存写入磁盘的数据超过无序层容量限制的一半时，将内存的哈希索引持久化到磁盘上的哈希索引文件，如图5右侧所示。重建哈希索引只需读取哈希索引文件中的数据并扫描从上次持久化后新写入的数据。

3)对于日志文件的垃圾回收状态，如果在做垃圾回收操作时系统崩溃，需要保证数据的有效性，设计标签机制来确保日志文件的有效性。具体做法为：当对有序层中的日志文件完成垃圾回收操作后，为这些日志文件添加可以回收的标签(GC_done)，后台线程在回收磁盘空间时，首先扫描日志文件的标签，如果标签为可回收，则删除该日志文件，回收相应的存储空间，否则继续扫描其他日志文件。

在本实施例中，通过利用差异化索引机制设计高性能和易扩展的键值存储方法，相比于其他键值存储方法而言，本发明可以获得更好的读写性能和可扩展性。此外，基于哈希索引的差异化索引加速了热数据的访问效率；键值数据对的部分分离存储有效减少了数据合并操作导致的额外I/O开销，提高了合并效率；基于键值范围的数据动态分区管理有效地支持系统的可扩展性，并在大规模的数据存储下也能保证高效的读写性能和范围查询性能。

Claims

1.一种利用差异化索引机制的高性能和易扩展的键值存储方法，其特征在于包括以下步骤：

第一步：进行差异化的索引设计

对于最近从内存写入磁盘的数据，会被频繁访问，将其视为热数据，其他数据则视为冷数据；之后对冷热数据进行分层组织和存储，并为其建立差异化的索引机制，具体为：最近从内存写入磁盘的数据存储在无序层，并在内存中为其设计和维护哈希索引，以记录热数据的存储位置；对于绝大部分很少被访问的冷数据，采用单层日志结构合并树架构将其以全局有序的形式存储在有序层；

第二步：键值数据对的部分分离

限制无序层的数据量上限为UnsortedLimit，当超过该上限时，则对无序层的数据进行合并操作，将其合并到有序层；对无序层的数据保持键值数据对，对有序层的数据采用数据对的键和值分离存储的方式，仅仅将数据对的键存储在有序层，数据对的值存储在单独的日志文件，合并操作时仅仅只需对有序层的键合并；

第三步：基于键值范围的数据动态分区管理

基于键值范围的数据动态分区策略，将不同键值范围的数据映射到不同的分区，对不同分区的数据进行独立的合并操作，垃圾回收操作和管理；

基于键值范围的动态分区策略的工作流程如下：设定数据分区的数据量上限为PartitionSizeLimit，初始时，所有数据写入一个分区P0，当P0的数据量超过上限时，对其进行分割操作，将其包含的所有数据根据键值范围划分为相等的两部分，形成两个新的分区P1和P2，并记录两个分区的边界键值K2，即分区P2的最小键值；

对于后续写入的数据，首先将其与边界键值K2进行比较，若其键值小于K2，则写入分区P1，若其键值大于K2，则写入分区P2；当分区P1和P2的数据量超过上限PartitionSizeLimit时，对其进行与上述相同的分割操作，并记录边界键值；随着写入数据量的逐渐增加，把所有数据按照与上述相同的分割操作分割形成若干分区，所有分区的边界键值作为定位数据所在分区的索引；

第四步：范围查询优化

首先，通过比较各个分区的边界键值，定位要扫描数据所在的分区，然后对于无序层和有序层的数据，采用不同的策略分别进行优化：1)对于无序层的数据，提出基于文件数量的合并策略，当无序层的文件数超过设定的阈值时，将所有文件合并成一个有序文件；2)对于有序层的数据，由于数据对的键和值分开存储，导致大量随机I/O，利用固态硬盘高效的并行I/O特性，采用多线程并行读取日志文件中的值，并且利用预读机制将日志文件中的值预取到操作系统的页缓存；

第五步：数据的一致性保证

1)对于内存的键值数据对，采用键值存储系统普遍采用的先写日志机制，并增加存储边界键值和分区编号等元数据；

2)对于内存中建立的哈希索引，设计检查点技术定期将哈希索引持久化到磁盘文件，以较低的开销保障其一致性；