CN112699092A

CN112699092A - 一种RocksDB存储大值数据的方法

Info

Publication number: CN112699092A
Application number: CN202110041168.7A
Authority: CN
Inventors: 贾德星; 孙思清; 刘佳星; 周正德; 周恒�
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-23
Anticipated expiration: 2041-01-13
Also published as: CN112699092B

Abstract

本发明提供一种RocksDB存储大值数据的方法，属于NOSQL数据库技术领域，本发明通过将较大值数据的Value从SST(已排序序列表‑Sorted Sequence Table)文件中分离出来单独存储到HDFS，不参与SST文件的合并，以降低SST文件的写放大问题。通过本方法，可以实现RocksDB对大值数据Value的高效处理，而且客户端仍然使用RocksDB API接口，保证RocksDB应用的平滑升级。

Description

一种RocksDB存储大值数据的方法

技术领域

本发明涉及NOSQL数据库技术领域，尤其涉及一种RocksDB存储大值数据的方法。

背景技术

RocksDB是一个可嵌入、持久型的Key-Value(键值)存储，采用LSM树存储引擎，写入的数据会先存储到一个内存表中，当内存表中的数据大小超过设定的阈值后会启动一个后台线程，将内存表数据写到SST文件中，进行持久化存储。随着KV数据的写入，会生成很多的SST文件，SST文件采用分层式管理，除了最顶层(Level-0)之外，其他层的SST文件在同一层中都是按Key的大小进行有序排列，并且SST文件之间没有重叠。上层文件满足一定条件会被定期压缩、合并形成下一层更大的文件，因此一个Key-Value键值对会存在多次写磁盘的过程，产生写放大问题。

HDFS是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，为超大文件的处理需求而开发的。

发明内容

为了解决以上技术问题，本发明提供了一种将较大值的Value数据从SST文件的KV中分离出来存储到HDFS的方法，从而有效降低RocksDB对大值数据存储的写放大问题，可以提升大值数据的存储性能，并且100％兼容RockDB API，可实现应用的平滑升级。

本发明的技术方案是：

一种将较大值的Value数据从SST文件的KV中分离出来存储到HDFS的方法，将较大值数据的Value从SST文件中分离出来单独存储到HDFS，不参与SST文件的合并，以降低SST文件的写放大问题。

通过自定义HDFS表构建器将大值数据从KV中分离出来，单独存储到HDFS文件，SST中只存储Key+hdfs文件路径。

通过自定义Hdfs文件收集器及扩展事件监听器来监听压缩合并事件，在压缩合并过程，比较输入、输出SST的KV数据的文件集合来删除HDFS文件。

进一步的，

通过使用TablePropertiesCollector(表属性收集器)-Hdfs文件收集器来收集每个SST中有多少Value是存放在HDFS上以及它们的文件路径，并将收集到的HDFS文件路径构建为一个文件集合。

扩展事件监听器来监听压缩合并的事件，通过比较压缩合并过程中输入、输出SST文件的文件集合来决定哪些HDFS文件是需要删除的，采用2个文件集合异或方式选出待删除的HDFS文件，再通过HDFS文件系统接口删除这些大Value值所存储的文件。

进一步的，

KV数据的写请求首先写入WAL中，保证数据不丢失；

然后再写入内存表中，当内存表数据达到所设定的阈值后，需要将内存表数据持久化到磁盘的SST文件，在将KV数据写入磁盘时判断KV数据中的Value值是否大于阈值，如果大于阈值，则将大值Value分离出来作为独立文件存储到HDFS。

SST文件Compaction时清理被标记删除的KV键值对，此时需要从HDFS把文件删除。

进一步的，

数据写入

RocksDB支持用户使用自定义的表构建器将内存表的KV数据持久化，默认使用SST表构建器类将KV数据写入SST文件格式。使用HDFS表构建器，该构建器封装了SST表构建器类对SST文件的写操作和HDFS文件写操作。

当需要持久化KV数据时，HDFS表构建器首先判断value值大小是否超过所设定的阈值，如果没有超过阈值，则直接调用原SST表构建器将Key-Value数据写入SST文件；如果超过阈值，则判定为是大值Value，首先要调用hdfs RPC客户端在HDFS文件系统创建一个唯一的文件，将大值Value的内容写入该HDFS文件；HDFS文件写入成功后，将该HDFS文件路径作为新的KV数据，新Key是原来的Key，而新Value则是原Value值的引用-“HDFS文件路径”，然后使用SST表构建器将这个新的KV数据写入SST文件，从而减小写入SST文件的数据量。

在后期SST文件压缩、合并过程中，对新生成的KV进行处理，而存储在HDFS上的文件不需要合并，只需要删除即可。

进一步的，

KV数据读取

在读取KV数据时，首先会从SST文件中读取Key-Value数据，并判断该KV数据的Value值类型，如果是普通Value值则直接返回该KV数据；如果Value是HDFS文件路径，则使用HDFS客户端通过HDFS文件系统接口读取该文件的内容，以文件内容作为新的Value值，组成KV数据返回给客户端。

进一步的，

数据删除

RocksDB所有的更新操作都是以追加的方式写入SST文件，KV数据的更新会作为新的版本写入文件，KV的删除则是对KV标记为“删除”，然后在压缩合并时对已经标记为“删除”的数据和旧版本的历史数据执行物理删除；

采用大值Value分离之后，收集压缩合并过程中所清理的Key+Path集合，然后删除HDFS文件系统上的这些文件。

本发明的有益效果是

1.通过本发明提出的方法可实现RocksDB的大值数据从SST分离出来，独立存放到HDFS文件系统，从而有效降低RocksDB的写放大问题。

2.本发明提出的方法利用了RocksDB的扩展机制，对RocksDB侵入性小，100％兼容RocksDB API，已有应用可平滑升级。

附图说明

图1是大值Value分离架构示意图

图2是HDFS表构建器流程示意图；

图3是HdfsPath收集流程示意图；

图4是文件集合比对示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种把较大值数据从SST文件的KV中分离出来存储到HDFS的方法，架构如图1所示，KV数据的写请求首先写入WAL(预写日志文件)中，保证数据不丢失。然后再写入内存表中，当内存表数据达到所设定的阈值后，需要将内存表数据持久化到磁盘的SST文件，在将KV数据写入磁盘时判断KV数据中的Value值是否大于阈值，如果大于阈值，则将大值Value分离出来作为独立文件存储到HDFS。SST文件Compaction时可能会清理被标记删除的KV键值对，此时需要从HDFS把文件删除。

具体实现方法如下：

1.数据写入

RocksDB支持用户使用自定义的表构建器将内存表的KV数据持久化，默认使用SST表构建器类将KV数据写入SST文件格式。本发明使用新的表构建器类：HDFS表构建器，该构建器封装了SST表构建器类对SST文件的写操作和HDFS文件写操作，这样不用修改RocksDB的内存数据持久化流程就可以将较大的Value从SST文件中分离出来，主要流程如图2所示。

当需要持久化KV数据时，HDFS表构建器首先判断value值大小是否超过所设定的阈值(默认4MB)，如果没有超过阈值，则直接调用原SST表构建器将Key-Value数据写入SST文件。如果超过阈值，则判定为是大值Value，首先要调用hdfs RPC客户端在HDFS文件系统创建一个唯一的文件，将大值Value的内容写入该HDFS文件；HDFS文件写入成功后，将该HDFS文件路径作为新的KV数据，新Key是原来的Key，而新Value则是原Value值的引用-“HDFS文件路径”，然后使用SST表构建器将这个新的KV数据写入SST文件，从而减小写入SST文件的数据量。在后期SST文件压缩、合并过程中，则只需要对新生成的KV进行处理，而存储在HDFS上的文件不需要合并，只需要删除即可，从而在大值Value较多的场景下可以有效的减少写放大问题。

2.KV数据读取

本发明提出的方法在读取KV数据时，首先会从SST文件中读取的Key-Value数据，并判断该KV数据的Value值类型，如果是普通Value值则直接返回该KV数据。如果Value是HDFS文件路径，则使用HDFS客户端通过HDFS文件系统接口读取该文件的内容，以文件内容作为新的Value值，组成KV数据返回给客户端。

3.数据删除

RocksDB所有的更新操作都是以追加的方式写入SST文件，KV数据的更新会作为新的版本写入文件，KV的删除则是对KV标记为“删除”，然后在压缩合并时对已经标记为“删除”的数据和旧版本的历史数据执行物理删除。而采用大值Value分离之后，我们就需要收集压缩合并过程中所清理的Key+Path集合，然后删除HDFS文件系统上的这些文件。

本发明通过使用自定义的TablePropertiesCollector(表属性收集器)-Hdfs文件收集器来收集每个SST中有多少Value是存放在HDFS上以及它们的文件路径，并将收集到的HDFS文件路径构建为一个文件集合，它的工作流程和数据格式如图3所示。

然后扩展事件监听器来监听压缩合并的事件，通过比较压缩合并过程中输入、输出SST文件的文件集合来决定哪些HDFS文件是需要删除的，工作流程如图4所示，本发明采用2个文件集合异或方式选出待删除的HDFS文件，再通过HDFS文件系统接口删除这些大Value值所存储的文件。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种RocksDB存储大值数据的方法，其特征在于，

通过自定义HDFS表构建器将大值数据从KV中分离出来，单独存储到HDFS文件，SST中只存储Key+hdfs文件路径；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

KV数据的写请求首先写入WAL中，保证数据不丢失；

然后再写入内存表中，当内存表数据达到所设定的阈值后，需要将内存表数据持久化到磁盘的SST文件，在将KV数据写入磁盘时判断KV数据中的Value值是否大于阈值，如果大于阈值，则将大值Value分离出来作为独立文件存储到HDFS；

5.根据权利要求4所述的方法，其特征在于，

数据写入

6.根据权利要求5所述的方法，其特征在于，

当需要持久化KV数据时，HDFS表构建器首先判断value值大小是否超过所设定的阈值，如果没有超过阈值，则直接调用原SST表构建器将Key-Value数据写入SST文件；如果超过阈值，则判定为是大值Value，首先要调用hdfs RPC客户端在HDFS文件系统创建一个唯一的文件，将大值Value的内容写入该HDFS文件；HDFS文件写入成功后，将该HDFS文件路径作为新的KV数据，新Key是原来的Key，而新Value则是原Value值的引用-“HDFS文件路径”，然后使用SST表构建器将这个新的KV数据写入SST文件，减小写入SST文件的数据量。

7.根据权利要求6所述的方法，其特征在于，

在后期SST文件压缩、合并过程中，对新生成的KV进行处理，而存储在HDFS上的文件不需要合并，删除即可。

8.根据权利要求3所述的方法，其特征在于，

KV数据读取

9.根据权利要求3所述的方法，其特征在于，

数据删除