CN112667644A

CN112667644A - 一种混合索引内存数据库存储引擎管理方法

Info

Publication number: CN112667644A
Application number: CN202110073103.0A
Authority: CN
Inventors: 刘佳星; 张晖; 孙思清; 周恒�
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-04-16
Anticipated expiration: 2041-01-20
Also published as: CN112667644B

Abstract

本发明公开了一种混合索引内存数据库存储引擎管理方法，所述方法基于rocksdb存储引擎的MemTable管理机制，在memtable内部shiplist索引结构基础之上，添加B+Tree/Trie全局索引，用于Key‑Value的查询。本发明优化现有分布式NewSQL数据库中基于rocksdb存储引擎读写性能问题，充分发挥了内存的高效读写性能，可以在内存结构中缓存更多的数据，延迟并且减少落盘数据量，优化LSM结构的读写放大问题，支持冷热数据分区，当到达落盘阈值时，冷数据落盘，优化数据访问效率；可配置的内存使用量、落盘阈值设定、索引结构选择，用户可根据个性化需求灵活配置。

Description

一种混合索引内存数据库存储引擎管理方法

技术领域

本发明涉及数据库存储引擎技术领域，具体提供一种混合索引内存数据库存储引擎管理方法。

背景技术

Rocksdb是一个高性能的Key-Value数据库。设计了完善的持久化机制，同时保证性能和安全性。能够良好的支持范围查询，因为Key-Value记录就是按照Key来排序的。主要的三个组成部分，内存结构memtable，类似事务日志角色的WAL文件，持久化的SST文件。

如图1所示，当Memtable写入到达阈值之后，转化为immutable memTable，加入flush队列等待flush线程写入SST文件持久化。

Rocksdb中memtable转换城immutable memtable后，flush线程很快的进行SST文件写入操作，而LSM-Tree的分层结构Compaction机制会出现写入数据的读写放大，大大影响了存储引擎的读写效率。而多个immutable memtable等待统一SST写入，对于查询又不友好，十分耗费CPU资源。

注：MemTable和Immutable MemTable两者都位于内存，属于内存的数据结构，它俩之间是一样的数据结构，两者的区别在于MemTable可读可写，而Immutable MemTable是只读的，不允许写入。MemTable承接来自客户的key-value请求，当写入的数据占用内存到指定门限，就会自动转成Immutable Memtable，等待Dump到磁盘中，同时Rocksdb会产生新的MemTable供写操作写入新的key-value pair。

发明内容

本发明目的是为了优化现有分布式NewSQL数据库中基于rocksdb存储引擎读写性能问题。

本发明为了优化现有分布式NewSQL数据库中基于rocksdb存储引擎读写性能问题，提供一种混合索引内存数据库存储引擎管理方法。

为实现上述目的，本发明提供了如下技术方案：

一种混合索引内存数据库存储引擎管理方法，所述方法基于rocksdb存储引擎的MemTable管理机制，在memtable内部shiplist索引结构基础之上，添加B+Tree/Trie全局索引，用于Key-Value的查询。

所述方法通过设置多个MemTable统一延迟落盘，使冷热数据分区管理。

所述方法的实现包括内容如下：

1)写入数据从Memtable转换为immutable memtable后，将其加入B+tree/trie索引中；

2)启动后台线程定时对写入immutable memtable的数据进行Compaction压缩操作，以进行资源的回收；

3)设定内存阈值，将写入数据按冷热数据划分，当写入immutable memtable的数据到达设定内存阈值，作为冷数据写入SST flush到磁盘。

所述冷数据采取定时落盘方式，保证数据落盘次数尽量减少，减少磁盘压缩次数。

所述方法的实现还包括内容如下：

数据查询操作首先从memtable查询，然后查询B+tree/trie索引，最后查询SST。

即数据查询尽量在内存中完成，减少读取磁盘的时间。

所述方法的具体实现步骤包括：

1)新建一个B+tree索引维护类(可直接使用lmdb等开源代码)，根据Key排序，value中保存memtable的value地址，支持PUT/GET，事务提交等功能和iterator查询功能；

2)索引初始化：

在MemtableListVersion中增加所述B+tree索引句柄，用于索引操作；

3)索引创建：

在后台BGFlush线程操作函数MemtableList::PickMemtablesToFlush中判断current_->memlist_队列(该队列中存储的是immutable memtable)中已添加索引memtable数量是否达到预设的Flush阈值：

未达到预设的Flush阈值，把memlist_队列中未加入索引的memtable添加索引；

达到预设的Flush阈值，进行原Flush逻辑操作。

所述索引添加过程包括内容如下：

调用memtable::NewIterator接口创建Iterator；

通过所述Iterator遍历该memtable中的所有key-value项item；

依次调用B+tree索引的Put接口，将Key及value地址保存到B+tree索引中。

所述索引查询过程包括内容如下：

在MemtableListVersion::GetFromList中，首先从memlist中未加入B+tree索引的memtable中查询，如果未查询到则从B+tree索引中查询该key；

在MemtableListVersion::AddIterators两个函数中，首先把memlist中未加入B+tree索引的memtable创建iterator,加入iteratorlist/加入mergeitertor,然后后使用B+tree索引句柄创建索引的iterator，加入iteratorlist/加入mergeitertor。

所述压缩操作的实现包括内容：

启动后台memcompaction线程，根据Immutable memtable的数量设定阈值；

当达到所设定的阈值，从memlist队列的队尾，使用mergeiterator进行多个memtable的压缩(Compaction)操作，生成新的memtable及WAL,更新B+tree索引；

原B+tree索引替换后，释放已废弃memtable。

所述冷热数据的计算包括内容如下：

在索引中key增加冷热数据计数器；

根据该key的每次查询，计数器以递增方式计算最近一段时间的访问率；

根据设定Flush时间或阈值，压缩(Compaction)时把热度低的key-value记录放到单独的memtable中；

Flush操作时优先选择热度比较低的memtable进行Flush操作，并更新B+tree索引。

与现有技术相比，本发明一种混合索引内存数据库存储引擎管理方法具有以下突出的有益效果：

本发明优化现有分布式NewSQL数据库中基于rocksdb存储引擎读写性能问题，充分发挥了内存的高效读写性能，可以在内存结构中缓存更多的数据，延迟并且减少落盘数据量，优化LSM结构的读写放大问题，支持冷热数据分区，当到达落盘阈值时，冷数据落盘，优化数据访问效率；可配置的内存使用量、落盘阈值设定、索引结构选择，用户可根据个性化需求灵活配置。

附图说明

图1是基于Rocksdb存储引擎管理示意图；

图2是本发明基于Rocksdb存储引擎管理示意图。

具体实施方式

下面将结合附图和实施例，对本发明作进一步详细说明。

一种混合索引内存数据库存储引擎管理方法，所述方法基于rocksdb存储引擎的MemTable管理机制，在memtable内部shiplist索引结构基础之上，添加B+Tree/Trie全局索引，用于Key-Value的查询，如图2所示，具体实现过程如下：

1、Memtable转换为immutable memtable后，将其加入B+tree/trie索引中。

2、启动后台线程定时对immutable memtable进行Compaction操作，以进行资源的回收。

3、增加冷热数据计算，当到达设定内存阈值，把冷数据写入SST flush到磁盘。

4、查询操作首先从memtable查询，然后查询B+tree/trie索引，最后查询SST。

所述方法详细设计方案如下：

新建一个B+tree索引维护类(可直接使用lmdb等开源代码)，根据Key排序，value中保存memtable的value地址,支持PUT/GET，事务提交等功能，iterator查询功能等。

1、索引初始化：

MemtableListVersion中增加上述B+tree索引句柄，用于索引操作。

2、索引创建：

在后台BGFlush线程操作的函数MemtableList::PickMemtablesToFlush中判断current_->memlist_(该队列中存储的是immutable memtable)队列中已添加索引memtable数量是否达到预设Flush阈值，未达到阈值，把memlist_队列中未加入索引的memtable添加索引，达到阈值进行原Flush逻辑操作。

添加索引所及如下：

调用memtable::NewIterator接口创建Iterator,通过该Iterator遍历该memtable中的所有key-value item，依次调用B+tree索引Put接口，把该Key及value地址保存到B+tree索引中。

3、索引查询：

在MemtableListVersion::GetFromList中，首先从memlist中未加入B+tree索引的memtable中查询，如果未查询到则从B+tree中查询该key；

在MemtableListVersion::AddIterators(两个函数)中，首先把memlist中未加入B+tree索引的memtable创建iterator,加入iteratorlist(或加入mergeitertor),之后使用B+tree索引句柄创建索引的iterator，加入iteratorlist(或加入mergeitertor)。

4、Immutable memTable合并Compaction

启动后台memcompaction线程，根据memtable个数，当达到设定阈值，从memlist队列队尾，使用mergeiterator进行多个memtable的Compaction操作，生成新的memtable及WAL,更新B+tree，替换索引后释放已废弃memtable。

5、冷热数据计算

索引中key增加冷热数据计数器，每次查询该key计数器递增(计算最近一段时间的访问率)，根据设定Flush时间或到达阈值，Compaction时把热度低的key-value记录放到单独的memtable中，Flush操作时优先选择热度比较低的memtable进行Flush操作，并且更新B+tree。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种混合索引内存数据库存储引擎管理方法，其特征在于，所述方法基于rocksdb存储引擎的MemTable管理机制，在memtable内部shiplist索引结构基础之上，添加B+Tree/Trie全局索引，用于Key-Value的查询。

2.根据权利要求1所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述方法通过设置多个MemTable统一延迟落盘，使冷热数据分区管理。

3.根据权利要求1所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述方法的实现包括内容如下：

2)启动后台线程定时对写入immutable memtable的数据进行压缩操作，以进行资源的回收；

4.根据权利要求1所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述冷数据采取定时落盘方式，保证数据落盘次数减少，减少磁盘压缩次数。

5.根据权利要求3所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述方法的实现还包括内容如下：

6.根据权利要求1所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述方法的具体实现步骤包括：

1)新建一个B+tree索引维护类，根据Key排序，value中保存memtable的value地址，支持PUT/GET，事务提交等功能和iterator查询功能；

2)索引初始化：

在MemtableListVersion中增加所述B+tree索引句柄，用于索引操作；

3)索引创建：

在后台BGFlush线程操作函数MemtableList::PickMemtablesToFlush中判断current_->memlist_队列中已添加索引memtable数量是否达到预设的Flush阈值：

达到预设的Flush阈值，进行原Flush逻辑操作。

7.根据权利要求6所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述索引添加过程包括内容如下：

调用memtable::NewIterator接口创建Iterator；

通过所述Iterator遍历该memtable中的所有key-value项item；

8.根据权利要求5所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述索引查询过程包括内容如下：

9.根据权利要求3所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述压缩操作的实现包括内容：

当达到所设定的阈值，从memlist队列的队尾，使用mergeiterator进行多个memtable的压缩操作，生成新的memtable及WAL,更新B+tree索引；

原B+tree索引替换后，释放已废弃memtable。

10.根据权利要求6所述的一种混合索引内存数据库存储引擎管理方法，其特征在于，所述冷热数据的计算包括内容如下：

在索引中key增加冷热数据计数器；

根据设定Flush时间或阈值，压缩时把热度低的key-value记录放到单独的memtable中；