CN111782671A

CN111782671A - 一种基于分布式数据库实现cdc的优化方法

Info

Publication number: CN111782671A
Application number: CN202010618749.8A
Authority: CN
Inventors: 江磊; 樊文昌; 史大义; 邢政; 余杭卿; 高子奇; 石梦飞; 马肖
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-16

Abstract

本发明公开一种基于分布式数据库实现CDC的优化方法，涉及数据处理技术领域，该优化方法的执行过程包括：步骤1、在分布式数据库或者分布式数据库的表创建CDC；步骤2、用户执行DML操作，执行变化数据的SQL，数据库服务语法解析SQL生成语法树，再通过语法树生成执行计划；步骤3、数据库服务将执行计划下发给各个执行节点执行；步骤4、各个数据库服务节点接收执行计划并执行，计划执行完成后，提交事务，将变化的数据发送至数据池。本优化方法可以降低存储空间的占用，提升变化数据捕获效率和实时性，无需创建捕获进程，无需解析日志，无需将捕获的变化数据存储到临时表，无需节点之间的互操作。

Description

一种基于分布式数据库实现CDC的优化方法

技术领域

本发明涉及数据处理技术领域，具体的说是一种基于分布式数据库实现CDC的优化方法。

背景技术

CDC(Change Data Capture，变化数据捕获)是一种变化数据处理技术，可以识别新增、更新和删除等上次修改之后的变化数据。当前已知的数据库CDC实现主要使用了三种技术：

1)基于触发器和存储过程实现变化数据捕获：

该方案通过在源表上建立触发器，并且调用存储过程或者函数，将变化数据存储到一个变化数据临时表中，以供其他应用程序通过CDC查询函数查询捕获的变化数据。

2)后台捕获进程定时抓取、解析增量事务日志，从而捕获变化数据：

该方案在数据库服务器上启动一个捕获进程，定时抓取增量的事务日志，并将与增量日志相关的数据存储到一个变化数据临时表中，以供其他应用程序通过CDC查询函数查询捕获的变化数据。

3)分析数据库的快照，求新旧快照的差分：

后台捕获进程，定时创建数据库快照，并与前一个旧的快照进行全量对比，求差分。这种方法计算量大，实现复杂，实时性不够。并且要保存比较多的快照，耗费比较大的存储空间。对于分布式数据库和海量数据，新旧快照全量对比求差分，效率更加低。

方案(1)、方案(2)和方案(3)都需要额外的存储变化数据的临时表，需要消耗较多的存储资源，增加IO压力。除此之外，方案(1)使用存储过程和触发器，会降低系统性能，很少使用；方案(2)还会在后台常驻捕获进程，读取和解析事务日志，需要较多的计算资源；定时进行增量事务日志的读取和解析，实时性没有保证。方案(3)与方案(2)类似，并且在分布式数据库和海量数据的情况下，效率更低。以上三种方案在单机的情况下，增大了数据库服务器的IO压力，增加了计算资源消耗。在分布式数据库中，由于数据和日志文件的传输，还需要消耗网络资源。以上三种方案主要应用在单机数据库中，在分布式数据库中并不适用。所以这三种传统CDC实现会增大计算、存储和网络资源的消耗，在资源一定的情况下，还会降低系统性能。特别是在分布式数据库和海量数据的存储中，这三种方案更会降低系统性能、增加资源消耗、降低实时性。

发明内容

本发明为了提高现有数据库CDC的效率和实时性，降低计算、存储、网络等资源的消耗，提供一种基于分布式数据库实现CDC的优化方法，使优化后的CDC实现更加适用于分布式数据库，提高数据库系统服务的性能。

本发明的一种基于分布式数据库实现CDC的优化方法，解决上述技术问题采用的技术方案如下：

一种基于分布式数据库实现CDC的优化方法，该优化方法的执行过程包括：

步骤1、在分布式数据库或者分布式数据库的表创建CDC；

步骤2、用户执行DML操作，执行变化数据的SQL，数据库服务语法解析SQL生成语法树，再通过语法树生成执行计划；

步骤3、数据库服务将执行计划下发给各个执行节点执行；

步骤4、各个数据库服务节点接收执行计划并执行，计划执行完成后，提交事务，将变化的数据发送至数据池。

进一步的，步骤1创建CDC的具体操作包括：

步骤1.1、首先创建CDC语句；

步骤1.2、随后注册CDC的JOB信息到METADATA中，注册信息包含了CDC对应的库信息、表信息、状态、数据池连接信息。

进一步的，步骤2生成执行计划后，首先应当查询操作对象的CDC注册信息，判断是否创建了CDC：

a)如果没有创建CDC，则生成正常的执行计划，

b)如果发现已经创建了CDC，则根据CDC注册信息生成CDC处理器，并将执行计划和CDC处理器封装为执行计划的派生对象，

随后继续执行步骤3，将正常的执行计划或者执行计划的派生对象下发给各个执行节点执行。

进一步的，步骤4执行过程中，提交事务之后：

如果存在CDC处理器，就启动异步CDC处理器，将数据发送至数据池，

如果不存在CDC处理器，则直接将数据发送至数据池。

更进一步的，启动异步CDC处理器，将数据发送至数据池，这一过程的具体操作为：

1)捕获变化数据，

2)按照DML的操作类型，生成一定格式的数据，

3)连接外部的数据池，并将发生变化的数据输出到外部的数据池。

优选的，数据池可以是文件服务器、文件或者其他消息队列类的中间件。

优选的，数据的格式可以是JSON格式，也可以是AVRO。

更进一步的，当数据为JSON格式，执行的DML操作类型是新增和更新时，输出数据是新增或者更新后的整行数据，CDC捕获和输出到数据池的数据格式具体为：

{

“updated”:<数据行更新时间戳>，

“pk”:<字段名称1:字段名称1的值，字段名称2：字段名称2的值，…，字段名称k：字段名称k的值>,

“data”:{

“<字段1名称>”:<字段1数据值>，“<字段2名称>”:<字段2数据值>，…，“<字段n名称>”:<字段n数据值>

}

}。

更进一步的，当数据为JSON格式，执行的DML操作类型是删除时，CDC捕获和输出到数据池的数据格式具体为：

{

“updated”:<数据行更新时间戳>，

“data”:null

}。

本发明的一种基于分布式数据库实现CDC的优化方法，与现有技术相比具有的有益效果是：

1)本发明的优化方法适用于分布式数据库，是在事务提交之后，直接启动CDC的JOB，异步将变化数据输出到数据池中，从而可以降低存储空间的占用，减少计算、IO资源的占用，降低网络负载，提升变化数据捕获效率和实时性，提高系统性能；

2)本发明的优化方法无需创建捕获进程，无需解析日志，无需将捕获的变化数据存储到临时表，无需节点之间的互操作，而是点对点将变化数据输出到数据池。

附图说明

附图1是本发明优化方法中步骤1的流程示意图；

附图2是本发明优化方法中步骤2到步骤4的流程示意图；

附图3是本发明优化方法中执行异步CDC处理器的流程示意图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

首先对涉及的名词进行解释：

CDC：变化数据捕获(Change Data Capture)，是数据库的一种变化数据处理技术，可以识别新增、更新和删除等上次修改之后的变化数据。

METADATA：又称元数据。是描述其它数据的数据。其使用在于识别资源，实现简单高效地管理大量网络化数据；实现信息资源的有效发现、查找。元数据一经建立，便可共享。

JOB：异步任务。用于获取变化的数据进行组装并发送到外部数据池中。

DML：数据操纵语言DML(Data Manipulation Language)，用户通过它可以实现对数据库中数据的基本操作，包括新增、更新和删除操作。

SQL：结构化查询语言(Structured Query Language)，是一种特殊的编程语言，用于存取数据以及查询、更新和管理关系数据库系统。

实施例一：

本实施例提出一种基于分布式数据库实现CDC的优化方法，该优化方法的执行过程包括：

步骤1、在分布式数据库或者分布式数据库的表创建CDC，结合附图1，创建CDC的具体操作包括：

步骤1.1、首先创建CDC语句；

步骤2、用户执行DML操作，执行变化数据的SQL，数据库服务语法解析SQL生成语法树，再通过语法树生成执行计划。结合附图2，

生成执行计划后，首先应当查询操作对象的CDC注册信息，判断是否创建了CDC：

a)如果没有创建CDC，则生成正常的执行计划，

b)如果发现已经创建了CDC，则根据CDC注册信息生成CDC处理器，并将执行计划和CDC处理器封装为执行计划的派生对象。

步骤3、将正常的执行计划或者执行计划的派生对象下发给各个执行节点执行。

步骤4、各个数据库服务节点接收执行计划并执行，计划执行完成后，提交事务，随后判断是否存在CDC处理器，

如果存在CDC处理器，就启动异步CDC处理器，结合附图3，捕获变化数据，按照DML的操作类型，生成一定格式的数据，连接外部的数据池，并将发生变化的数据输出到外部的数据池，

如果不存在CDC处理器，则直接将数据发送至数据池。

本实施例中，所提到的数据池可以是文件服务器、文件或者其他消息队列类的中间件。

本实施例中，所述数据的格式可以是JSON格式，也可以是AVRO。

通常来说，DML的操作类型包括新增、更新、删除三种。

具体的来说，

I)当数据为JSON格式，执行的DML操作类型是新增和更新时，输出数据是新增或者更新后的整行数据，CDC捕获和输出到数据池的数据格式具体为：

{

“updated”:<数据行更新时间戳>，

“data”:{

}

}。

II)当数据为JSON格式，执行的DML操作类型是删除时，CDC捕获和输出到数据池的数据格式具体为：

{

“updated”:<数据行更新时间戳>，

“data”:null

}。

综上可知，采用本发明的一种基于分布式数据库实现CDC的优化方法，可以降低存储空间的占用，减少计算、IO资源的占用，降低网络负载，提升变化数据捕获效率和实时性，提高系统性能。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于分布式数据库实现CDC的优化方法，其特征在于,该优化方法的执行过程包括：

步骤1、在分布式数据库或者分布式数据库的表创建CDC；

步骤3、数据库服务将执行计划下发给各个执行节点执行；

2.根据权利要求1所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，步骤1创建CDC的具体操作包括：

步骤1.1、首先创建CDC语句；

3.根据权利要求2所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，步骤2生成执行计划后，首先应当查询操作对象的CDC注册信息，判断是否创建了CDC：

a)如果没有创建CDC，则生成正常的执行计划，

4.根据权利要求3所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，步骤4执行过程中，提交事务之后：

如果不存在CDC处理器，则直接将数据发送至数据池。

5.根据权利要求4所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，启动异步CDC处理器，将数据发送至数据池，这一过程的具体操作为：

1)捕获变化数据，

2)按照DML的操作类型，生成一定格式的数据，

6.根据权利要求4或5所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，数据池可以是文件服务器、文件或者其他消息队列类的中间件。

7.根据权利要求4或5所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，数据的格式可以是JSON格式，也可以是AVRO。

8.根据权利要求7所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，当数据为JSON格式，执行的DML操作类型是新增和更新时，输出数据是新增或者更新后的整行数据，CDC捕获和输出到数据池的数据格式具体为：

{

“updated”:<数据行更新时间戳>，

“data”:{

}

}。

9.根据权利要求7所述的一种基于分布式数据库实现CDC的优化方法，其特征在于，当数据为JSON格式，执行的DML操作类型是删除时，CDC捕获和输出到数据池的数据格式具体为：

{

“updated”:<数据行更新时间戳>，

“data”:null

}。