CN112364278A

CN112364278A - 一种基于CockroachDB底层键值数据分类优化方法

Info

Publication number: CN112364278A
Application number: CN202011321671.XA
Authority: CN
Inventors: 苑晓龙; 孙兴艳; 孙思清; 高传集; 周恒�
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-12

Abstract

本发明公开了一种基于CockroachDB底层键值数据分类优化方法，属于分布式数据库技术领域。本发明的基于CockroachDB底层键值数据分类优化方法，在分布式数据库CockroachDB中RPC请求的头部中新增枚举类型DataType，将底层数据分类标识和表标识，在请求处理器中解析出数据类型和表标识并传入存储引擎中，存储引擎对不同类型的读写特性采用不同的数据优化策略。该发明的基于CockroachDB底层键值数据分类优化方法能够优化数据库的读写放大问题，从而提升数据库的读写性能，具有很好的推广应用价值。

Description

一种基于CockroachDB底层键值数据分类优化方法

技术领域

本发明涉及分布式数据库技术领域，具体提供一种基于CockroachDB底层键值数据分类优化方法。

背景技术

CockroachDB是基于谷歌提出的《Spanner:Google’s Globally-DistributedDatabase》论文实现的NewSQL分布式事务数据库。它不仅具有对海量数据的存储管理能力，并且支持传统数据库的ACID和SQL标准查询语言，还具有高可用、高并发、可扩展等分布式特性。

分布式数据库总体架构上分为SQL层、事务层、分发层、副本层以及存储层，SQL层将客户端的SQL语句翻译解析为键值对(KV)操作，事务层保证多个键值对操作之间的原子性，分发层负责将键值的范围分发到指定的节点上，副本层保证节点之间的复制键值范围的一致性，存储层负责读写存储设备上的键值数据。

分布式数据库CockroachDB将节点健康数据、监控指标数据、事务记录数据、RAFT日志、RAFT状态机、Range数据、副本数据等系统数据与表数据混合存储在多个节点的多个相同特性的底层RocksDB存储中，无法按照不同读写特性的数据针对性的优化底层RocksDB存储。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种能够优化数据库的读写放大问题，从而为提升数据库的读写性能提供基础的基于CockroachDB底层键值数据分类优化方法。

为实现上述目的，本发明提供了如下技术方案：

一种基于CockroachDB底层键值数据分类优化方法，该方法在分布式数据库CockroachDB中RPC请求的头部中新增枚举类型DataType，将底层元数据增加分类标识和表数据增加表标识，在请求处理器中解析出数据类型和表标识并传入存储引擎中，存储引擎对不同类型的读写特性采用不同的数据优化策略。

作为优选，定义枚举类型DataType，将数据分为事务记录数据、范围数据、RAFT数据、时序数据、表数据和其他数据六种类别。

所述事务记录数据即为TXN，范围数据即为RANGE，时序数据即为TS，表数据即为TABLE，其他数据即为OTHER。

将数据分为事务记录数据、范围数据、RAFT数据、时序数据、表数据和其他数据六种类别，根据它们在数据库中不同的读写操作特性，分别设计和调整配置参数，优化底层RocksDB数据库读写上述不同特性数据的性能，从而达到优化分布式数据读写性能的目的。

作为优选，所述RAFT数据和时序数据包括追加写、读取、删除操作，数据库定义了垃圾回收机制清理过时或超出限制的RAFT数据和时序数据。

作为优选，所述范围数据、其他数据和事务记录数据，存储在数据库提供的LRU缓存中。

作为优选，所述表数据分为系统表数据和用户表数据，系统表数据中存储用户数据的元数据，即表的名称、标识、列的类型。

RAFT数据和时序数据为一类数据，范围数据、其他数据和事务记录数据为一类数据，表数据为一类数据，共三类不同的数据。

存储引擎层提供了简单的底层接口封装和缓存数据到缓冲区中，满足指定条件后进行一次性批次写入两种写入方式，因此需要3个缓冲区来缓存前述3类不同读写特性的数据。

1)定义多批次构建器(MultiBatchBuilder)，关联批次构建器(RocksDBBatchBuilder)，其中的函数根据上述的不同读写特性调用map中的不同批次构建器缓存键值数据；特别是ApplyRepr函数需要将编码后的数据进行解码出不同读写特性数据分组，并调用底层键值存储接口的函数将缓冲区中的数据应用到底层键值存储的写缓冲区。

2)在rocksDBBatch中将builder定义为多批次构建器，其中的repr与unsafeRepr函数中从底层键值存储的写缓存中读取到的数据需要调用底层键值存储写缓冲区中的数据需要上述设计的编码方法进行编码后进行传输或计算统计信息。

3)在存储引擎中增加不同数据类型键值对数量、字节数、读写量等统计指标。

作为优选，所述RAFT数据包括日志数据和状态机数据。

作为优选，所述其他数据包括节点状态数据和存储状态数据。

作为优选，在RPC请求的头部增加枚举类型DataType，标识出RPC请求涉及到的键值数据所述类型，在后续请求处理中将DataType类型标识、表标识和键值数据传入底层键值存储引擎中。

CockroachDB对客户端的请求处理流程如下：

1)SQL层接收到客户端的请求后将其解析为键值操作，然后将根据规则将它们封装为不同种类RPC请求,如：PutRequest、ScanRequest等；

2)RPC请求通过解析头部中Key所在的Range，然后RangeCache中查找到leaseholder副本所在的节点，分发器(DistSender)将该RPC请求分发到前述的节点中；

3)该节点接收到该RPC请求并解析出请求的类型，调用相应的请求处理器处理该请求；

4)请求处理器解析出头部中的DataType类型标识和键值数据，调用底层存储引擎的相应接口将其传入底层键值存储RocksDB中。

CockroachDB分布式数据库会将写入Leaseholder副本的批次数据通过Raft协议的提议发送到Follower副本上应用提交来保证一致性。由于在该批次中的数据类型同样是混合的，因此设计了批次编解码方法：

1)8个字节全部为0,表示该批次的起始；4个字节(count)表示repr_1的键值数量；4个字节表示repr_1的长度(size)，紧随其后为repr_1的键值数据，其后的repr_2与repr_3与repr_1类似；

2)其中count与size都采用低地址序(LittleEndian)进行编解码；

3)当repr_1,repr_2或repr_3没有键值数据时，count与size值皆为0。

与现有技术相比，本发明的基于CockroachDB底层键值数据分类优化方法具有以下突出的有益效果：所述基于CockroachDB底层键值数据分类优化方法中，分布式数据库中的数据按照不同的类型进行标记后，在存储引擎中增加不同数据类型键值对数量、字节数、读写量等统计指标，可以为数据库系统监控、优化等提供参考价值。同时根据不同读写特性进行分组后，底层的存储可以调整为不同的RocksDB列族或RockDB实例，可以设置不同的参数甚至设计不同的刷写策略，从而优化该数据库的读写放大问题，提升数据库的读写性能，具有良好的推广应用价值。

附图说明

图1为本发明所述基于CockroachDB底层键值数据分类优化方法的RPC请求结构体示意图；

图2是本发明所述基于CockroachDB底层键值数据分类优化方法的多批次缓冲区类图；

图3是本发明所述基于CockroachDB底层键值数据分类优化方法的Raft ProposalData编码图示。

具体实施方式

下面将结合实施例，对本发明的基于CockroachDB底层键值数据分类优化方法作进一步详细说明。

实施例

本发明的基于CockroachDB底层键值数据分类优化方法，在分布式数据库CockroachDB中RPC请求的头部中新增枚举类型DataType，将底层数据分类标识和表标识，在请求处理器中解析出数据类型和表标识并传入存储引擎中，存储引擎对不同类型的读写特性采用不同的数据优化策略。

如图1所示，定义枚举类型DataType，将数据分为事务记录数据、范围数据、RAFT数据、时序数据、表数据和其他数据六种类别。

其中，将数据分为事务记录数据、范围数据、RAFT数据、时序数据、表数据和其他数据六种类别，根据它们在数据库中不同的读写操作特性，分别设计和调整配置参数，优化底层RocksDB数据库读写上述不同特性数据的性能，从而达到优化分布式数据读写性能的目的。

RAFT数据和时序数据包括追加写、读取、删除操作，数据库定义了垃圾回收机制清理过时或超出限制的RAFT数据和时序数据。范围数据、其他数据和事务记录数据，存储在数据库提供的LRU缓存中。表数据分为系统表数据和用户表数据，系统表数据中存储用户数据的元数据，即表的名称、标识、列的类型。

RAFT数据和时序数据为一类数据，范围数据、其他数据和事务记录数据为一类数据，表数据为一类数据，共三类不同的数据。RAFT数据包括日志数据和状态机数据。其他数据包括节点状态数据和存储状态数据。

存储引擎层提供了简单的底层接口封装和缓存数据到缓冲区中，满足指定条件后进行一次性批次写入两种写入方式，因此需要3个缓冲区来缓存前述3类不同读写特性的数据。实现方式如图2所示：

在RPC请求的头部增加枚举类型DataType，标识出RPC请求涉及到的键值数据所述类型，在后续请求处理中将DataType类型标识、表标识和键值数据传入底层键值存储引擎中。

CockroachDB对客户端的请求处理流程如下：

CockroachDB分布式数据库会将写入Leaseholder副本的批次数据通过Raft协议的提议发送到Follower副本上应用提交来保证一致性。由于在该批次中的数据类型同样是混合的，因此设计了批次编解码方法，如图3所示：

2)其中count与size都采用低地址序(LittleEndian)进行编解码；

3)当repr_1,repr_2或repr_3没有键值数据时，count与size值皆为0。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于CockroachDB底层键值数据分类优化方法，其特征在于：该方法在分布式数据库CockroachDB中RPC请求的头部中新增枚举类型DataType，将底层元数据增加分类标识和表数据增加表标识，在请求处理器中解析出数据类型和表标识并传入存储引擎中，存储引擎对不同类型的读写特性采用不同的数据优化策略。

2.根据权利要求1所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：定义枚举类型DataType，将数据分为事务记录数据、范围数据、RAFT数据、时序数据、表数据和其他数据六种类别。

3.根据权利要求2所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：所述RAFT数据和时序数据包括追加写、读取、删除操作，数据库定义了垃圾回收机制清理过时或超出限制的RAFT数据和时序数据。

4.根据权利要求3所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：所述范围数据、其他数据和事务记录数据，存储在数据库提供的LRU缓存中。

5.根据权利要求4所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：所述表数据分为系统表数据和用户表数据，系统表数据中存储用户数据的元数据，即表的名称、标识、列的类型。

6.根据权利要求5所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：所述RAFT数据包括日志数据和状态机数据。

7.根据权利要求6所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：所述其他数据包括节点状态数据和存储状态数据。

8.根据权利要求7所述的基于CockroachDB底层键值数据分类优化方法，其特征在于：在RPC请求的头部增加枚举类型DataType，标识出RPC请求涉及到的键值数据所述类型，在后续请求处理中将DataType类型标识、表标识和键值数据传入底层键值存储引擎中。