CN117473021B

CN117473021B - 一种基于cdc方式的达梦数据库增量同步实现方法

Info

Publication number: CN117473021B
Application number: CN202311823776.9A
Authority: CN
Inventors: 王海军; 郑成伟; 陈彬
Original assignee: Guangzhou Ruifan Technology Co ltd
Current assignee: Guangzhou Ruifan Technology Co ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-12
Anticipated expiration: 2043-12-28
Also published as: CN117473021A

Abstract

本发明提供了一种基于CDC方式的达梦数据库增量同步实现方法，涉及数据处理技术领域，包括：基于达梦数据库中每个数据存储区的位址信息在每个层级下的子位址信息，确定出达梦数据库和同步数据库之间的差异层级，并确定出起始遍历层级；基于起始遍历层级和达梦数据库中当前的所有位址信息，确定出达梦数据库和同步数据库之间的差异数据存储区；对同步数据库中的部分差异数据存储区进行全量同步，基于另一部分差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，对另一部分差异数据存储区的部分差异数据进行部分增量同步，获得增量同步实现结果；用以实现对达梦数据库的增量数据的非侵入式的高效同步。

Description

一种基于CDC方式的达梦数据库增量同步实现方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于CDC方式的达梦数据库增量同步实现方法。

背景技术

目前，随着现代信息技术的发展，数据处理的实时性要求也大大提升，从原先批处理发展为流处理，对数据实时性要求大大提升。传统离线数仓的数据治理流程已经越难满足企业发展需求。同时，企业数据呈现出数量巨大、种类繁多、存放单一等特点，这势必给数据带来了安全隐患。CDC是Change Data Capture(变更数据获取)的简称，是数据库备份内容中非常重要的一环，其核心思想是，监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等)，将这些变更按发生的顺序完整记录下来，写入到消息中间件或其它组件以供其他服务进行订阅及消防，分为侵入式技术(对原系统产生性能影响)和非侵入式技术(对源系统不具有侵入性)。

例如目前常见的几种针对达梦数据库的增量同步方式有以下几种：全量同步，即从达梦数据库中同步一张表的数据到mysql中，通常的做法是查询源端表中的所有数据，在通过jdbc的批量方式插入到目标表中，但是，全量同步方式在数据量过大时存在同步代价过大的问题，如同步时间过长、长时间占用网络资源，数据历史状态无法反应；时间戳方式，是指增量抽取时，抽取进程通过比较系统时间与抽取源表的时间戳字段的值来决定抽取哪些数据，这种方式需要在源表上增加一个时间戳字段，系统中更新修改表数据的时候，同时修改时间戳字段的值，时间戳方式的每一张业务表都需要维护一个时间戳字段，用于标识新旧数据；触发器模式，该方式根据抽取的要求在源表建立插入、更新、删除三种触发器，每当源表发生变化时，就会由相应的触发器将变化数据写入到增量日志表，触发器方式需要再源表建立触发器，会对原有业务有性能影响；而基于数据文件导出和导入的全量同步方式一般只适用于同种数据库之间的同步，适用场景有限。综上，现有技术中的针对达梦数据库的增量同步方式具有一定的场景应用缺陷或同步效率低下的问题。

因此，本发明提出一种基于CDC方式的达梦数据库增量同步实现方法。

发明内容

本发明提供一种基于CDC方式的达梦数据库增量同步实现方法，用以以非侵入方式实现对达梦数据库的增量数据的非侵入式的高效同步。

本发明提供一种基于CDC方式的达梦数据库增量同步实现方法，包括：

S1：实时获取达梦数据库中每个最小分配单位的数据存储区的位址信息在每个层级下的子位址信息；

S2：基于所有位址信息在每个层级下的子位址信息，确定出达梦数据库和同步数据库之间的差异层级，并将差异层级中最高层级当作起始遍历层级；

S3：基于起始遍历层级和达梦数据库中当前的所有位址信息，对达梦数据库进行部分遍历定位，确定出达梦数据库和同步数据库之间的差异数据存储区；

S4：对同步数据库中不包含对应同步数据存储区的差异数据存储区进行全量同步，同时，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，确定出差异数据存储区中的差异数据的增量起始序列和增量操作类型，并基于差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步，获得增量同步实现结果。

优选的，S1：实时获取达梦数据库中每个最小分配单位的数据存储区的位址信息在每个层级下的子位址信息，包括：

实时获取达梦数据库中每个最小分配单位的数据存储区在达梦数据库中的位址信息；

基于位址信息中的存储层级分隔标识，对每个位址信息进行层级划分，获得每个位址信息在每个层级下的子位址信息。

优选的，S2：基于所有位址信息在每个层级下的子位址信息，确定出达梦数据库和同步数据库之间的差异层级，并将差异层级中最高层级当作起始遍历层级，包括：

将所有位址信息在每个层级下的子位址信息的总条数，当作达梦数据库当前每个层级中包含的同级分支数；

在达梦数据库的当前存储结构中筛选出同级分支数与同步数据库的当前存储结构中对应层级中包含的同级分支数不相等的层级，当作达梦数据库和同步数据库之间的差异层级，并将差异层级中最高层级当作起始遍历层级。

优选的，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，确定出差异数据存储区中的差异数据的增量起始序列和增量操作类型，包括：

基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，在对应差异数据存储区中确定出差异数据；

基于差异数据的增量操作日志，确定出差异数据的增量起始序列和增量操作类型。

优选的，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，在对应差异数据存储区中确定出差异数据，包括：

将同步数据库中包含对应的同步数据存储区的差异数据存储区，当作目标差异数据存储区；

基于目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据，生成目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵；

将目标差异数据存储区的存储数据表示矩阵中，与对应的同步数据存储区的存储数据表示矩阵中对应元素位置处的矩阵元素值不同的矩阵元素值，当作第一筛选元素值；

在所有第一筛选元素值中筛选出差异矩阵元素值；

将差异矩阵元素值在目标差异数据存储区域中对应的单位数据当作差异数据。

优选的，基于目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据，生成目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵，包括：

确定出目标差异数据存储区中每行的数据赋值方式和对应的同步数据存储区中每行的数据赋值方式；

基于目标差异数据存储区中每行的数据赋值方式对目标差异数据存储区中每行包含的每个单位数据进行赋值处理，获得目标差异数据存储区中每个单位数据的赋值结果，同时，基于对应的同步数据存储区中每行的数据赋值方式对同步数据存储区中每行包含的每个单位数据进行赋值处理，获得对应的同步数据存储区中每个单位数据的赋值结果；

基于目标差异数据存储区中每行包含的所有单位数据的赋值结果，生成差异数据存储区的存储数据表示矩阵，同时，基于对应的同步数据存储区中每行包含的所有单位数据的赋值结果，生成对应的同步数据存储区的存储数据表示矩阵。

优选的，确定出目标差异数据存储区中每行的数据赋值方式和对应的同步数据存储区中每行的数据赋值方式，包括：

以相同数据维度，对目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据进行行划分，并确定出目标差异数据存储区中的当前存储数据中每行包含的单位数据和所有行数据的行序数以及对应的同步数据存储区中每行包含的单位数据和所有行数据的行序数，其中，数据维度为数据属性或数据对象名；

判断出目标差异数据存储区中的单行数据的具体维度值与对应同步数据存储区中相同行序数的行数据的具体维度值是否相同，若是，则基于对应维度值和目标差异数据存储区中的对应的单行数据以及对应同步数据存储区中的相同行序数的行数据的总数据范围，确定出目标差异数据存储区和同步数据存储区中对应行的数据赋值方式；

否则，基于目标差异数据存储区中的对应单行数据的具体维度值和数据范围，确定出目标差异数据存储区中对应行的数据赋值方式，同时，基于同步数据存储区中的对应单行数据的具体维度值和数据范围，确定出同步数据存储区中对应行的数据赋值方式。

优选的，在所有第一筛选元素值中筛选出差异矩阵元素值，包括：

当目标差异数据存储区的存储数据表示矩阵中存在第一筛选元素值的占比不小于预设占比的单行矩阵元素时，则将目标差异数据存储区的存储数据表示矩阵中第一筛选元素值的占比不小于预设占比的单行矩阵元素，当作第一单行矩阵元素；

计算出第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度；

基于第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度，确定出差异矩阵元素值；

当目标差异数据存储区的存储数据表示矩阵中不存在第一筛选元素值的占比不小于预设占比的单行矩阵元素时，则将所有第一筛选元素值当作差异矩阵元素值。

优选的，基于第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度，确定出差异矩阵元素值，包括：

判断出第一单行矩阵元素的所有相似程度中的最大值是否不小于相似程度阈值，若是，则将第一单行矩阵元素中，与对应的同步数据存储区中最大相似程度对应的单行矩阵元素中列序数相同且矩阵元素值不同的矩阵元素值，当作第二筛选元素值；

否则，将第一单行矩阵元素中的所有矩阵元素值当作第二筛选元素值；

将所有第一筛选元素值中除属于第一单行矩阵元素中的矩阵元素值以外剩余的第一筛选元素值和所有第二筛选元素值汇总，当作差异矩阵元素值。

优选的，基于差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步，获得增量同步实现结果，包括：

基于差异数据的增量起始序列和全增量记录线程，在同步数据库中的对应同步数据存储区中确定出待同步更新数据；

基于增量操作类型对同步数据库中对应同步数据存储区中的待同步更新数据进行数据内容和增量操作时间戳更新，获得部分增量同步实现结果；

将部分增量同步实现结果和对同步数据库中不包含对应同步数据存储区的差异数据存储区进行全量同步获得的全量同步实现结果汇总，获得增量同步实现结果。

本发明相对于现有技术产生的有益效果为：将达梦数据库变更信息实时且高效的同步或备份至其他数据库或存储引擎，以便于安全保存数据，或提供给流式处理引擎实时处理。相对于传统基于时间戳或版本号以获取增量数据的方式，本发明在实时性方面有着很大提升，同时相对于传统侵入式CDC，本发明能跟踪到所有的变更记录，并且不会由于持续的查询而对数据库产生额外的压力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中的一种基于CDC方式的达梦数据库增量同步实现方法；

图2为本发明实施例中的基于时间戳的达梦数据库增量同步实现方法及采集实现系统组件介绍示意图；

图3为本发明实施例中的另一种基于CDC方式的达梦数据库增量同步实现法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明提供了一种基于CDC方式的达梦数据库增量同步实现方法，参考图1至3，包括：

S1：实时获取达梦数据库中每个最小分配单位（位于达梦数据库的存储结构中的最低层级）的数据存储区（即用于存储数据的页区域，页区域是达梦数据库最小的分配单位，也是数据库中使用的最小的IO单元）的位址信息（即表明页区域在达梦数据库中的存储位置的信息，用一串代码字符表示，且位址信息中不同层级之间用分隔符“/”分隔）在每个层级（即为达梦数据库的存储结构中的层级，具体包括：表空间、数据文件、簇、页等）下的子位址信息（即表征对应数据存储区在对应层级下的所属存储位置的信息，也是位址信息中对应层级的、由相邻两个分隔符分隔而成的部分位址信息）；

S2：基于所有位址信息在每个层级下的子位址信息，确定出达梦数据库和同步数据库（即为用于存储达梦数据库中存储的数据的备份数据（包括达梦数据库的增量同步数据）的数据库）之间的差异层级（即达梦数据库的位址信息和同步数据库的位址信息中相同层级中对应的子位址信息不相同的层级），并将差异层级中最高层级当作起始遍历层级（即为对达梦数据库进行部分遍历定位时，遍历过程最开始遍历的层级）；

S3：基于起始遍历层级和达梦数据库中当前的所有位址信息，对达梦数据库进行部分遍历定位（即为对达梦数据库中从起始遍历层级以下开始的存储区的位址信息进行检查，识别出与在同步数据库中对应的同步数据存储区存在差异数据的存储区（此处存储差异数据的存储区为最小分配单位的数据存储区）或同步数据库中不包含的存储区（此处的存储区可能是任何分配单位（即任何层级）的数据存储区）当作差异数据存储区），确定出达梦数据库和同步数据库之间的差异数据存储区；

S4：对同步数据库中不包含对应同步数据存储区（即同步数据库中不包含与该差异数据存储区对应的数据存储区）的差异数据存储区进行全量同步（即将同步数据库中不包含对应同步数据存储区的差异数据存储区的位址信息和存储的全部数据都同步备份至同步数据库中的对应位置，即在同步数据库中的对应位置新建一个与差异数据存储区相同的空存储区再将增量数据备份存储），同时，基于同步数据库中包含对应的同步数据存储区（同步数据存储区即为同步数据库中的、在同步数据库的存储结构中的所处位置与对应差异数据存储区在达梦数据库的存储结构中的所处位置相同的数据存储区）的差异数据存储区的存储数据表示矩阵（即为用于表示差异数据存储区中当前存储的数据的内容和数据量的矩阵）和对应同步数据存储区的存储数据表示矩阵（即为用于表示同步数据存储区中当前存储的数据的内容和数据量的矩阵），确定出差异数据存储区中的差异数据（即为差异数据存储区中存储的、与对应的同步数据存储区中存储的数据不一样的数据（即差异数据存储区的增量数据））的增量起始序列（即为差异数据的完整增量操作线程上未被同步的增量操作在完整增量操作线程上的起始时刻或起始操作）和增量操作类型（即为对数据进行的增量操作的操作类型，包括我们所需要的dml语句，如新增、删除、更新），并基于差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步（即为只将差异数据进行增量同步更新），获得增量同步实现结果（包含前者情况（同步数据库中不包含对应同步数据存储区）时的全量同步结果和后者情况（同步数据库中包含对应的同步数据存储区）时的部分增量同步结果）。

该实施例中，达梦数据库由一个或多个表空间组成,每一个表空间由一个或多个数据文件组成,每个数据文件由一个或多个簇组成，页（区域）是数据库最小的分配单位，也是数据库中使用的最小的IO单元。

该实施例中，在开启归档模式后，对数据库所做的全部改动都记录在日志文件中，当基于CDC方式做增量抽取时，会首先记录一个起始的序列号 start_lsn（即增量起始序列），和操作类型 operation（包括我们所需要的dml语句，如新增、删除、更新）。当查询结束时，会保存当前的lsn，以便于下次增量同步能从断点位置继续。

参考图2，基于CDC方式的达梦数据库增量同步实现系统，主要由三个组件组成：采集组件、kafka、入库组件；

采集组件：依赖于kafka Connector，运行后通过LogMiner在数据库实例上分析Standby Redo Log + Archived Redo Log并将redo sql 进行解析，并转换为包含数据schema以及数据内容的结构（转换为统一数据结构，用于屏蔽数据库差异），并发送至Apache Kafka；

Kafka：通过Kafka连接兼容的连接器来监视特定的数据库管理系统。并在Topic中存储数据更改的历史；

入库组件：通过不同的入库连接器连接kafka，可以将数据同步到各种不同的异构数据库或存储引擎。

参考图3，其具体实施步骤包括：

步骤1：开启数据库归档模式，修改 dm.ini 文件的 arch_ini 参数为 1并且重启数据库；

步骤2：通过select方式对需要采集的表做快照处理，并记录当时LSN号；

步骤3：根据LSN筛选出符合条件的归档日志（即为包含完整增量操作线程的日志）；

步骤4：添加需要分析的归档日志文件；

步骤5：对已添加的归档日志文件进行分析；

步骤6：采集组件通过查询 V$LOGMNR_CONTENTS 视图并指定开始LSN值，以获取后续 Redo 信息并处理；

步骤7：通过解析redo信息，将redo信息中的redo sql 转化为详细数据。并通过kafka 发送至Topic中；

重复3-7过程，以获得CDC数据。

入库组件通过消费Kafka Topic数据，并将数据变化同步至目标数据库。

该实施例是在完成对达梦数据库未被增量操作时初始状态时的所有数据进行全量同步（此处全量同步后获得步骤S2中的同步数据库）之后进行的，即该实施例仅针对达梦数据库的增量数据进行同步。

该实施例中，步骤S4中在差异数据存储区进行全量同步或部分增量同步时，若同步过程中发生失败，则从上次失败位置继续增量同步，当增量同步执行到最新位置时，源端目标端数据则是一致的。后续继续只做增量同步。

将达梦数据库变更信息实时且高效的同步或备份至其他数据库或存储引擎，以便于安全保存数据，或提供给流式处理引擎实时处理。相对于传统基于时间戳或版本号以获取增量数据的方式，本发明在实时性方面有着很大提升，同时相对于传统侵入式CDC，本发明能跟踪到所有的变更记录，并且不会由于持续的查询而对数据库产生额外的压力。

实施例2：

在实施例1的基础上，S1：实时获取达梦数据库中每个最小分配单位的数据存储区的位址信息在每个层级下的子位址信息，包括：

基于位址信息中的存储层级分隔标识（即为分隔符“/”），对每个位址信息进行层级划分，获得每个位址信息在每个层级下的子位址信息。

上述技术方案实现了达梦数据库中每个最小分配单位的数据存储区的位址信息的获取和层级划分。

实施例3：

在实施例1的基础上，S2：基于所有位址信息在每个层级下的子位址信息，确定出达梦数据库和同步数据库之间的差异层级，并将差异层级中最高层级当作起始遍历层级，包括：

将所有位址信息在每个层级下的子位址信息的总条数，当作达梦数据库当前每个层级中包含的同级分支数（即为达梦数据库的存储结构中当前层级的数据存储区的总数）；

在达梦数据库的当前存储结构（即为表示达梦数据库中不同层级的数据存储区之间的所属关系和并列关系的结构）中筛选出同级分支数与同步数据库的当前存储结构中对应层级中包含的同级分支数不相等的层级，当作达梦数据库和同步数据库之间的差异层级，并将差异层级中最高层级当作起始遍历层级。

上述技术方案基于达梦数据库中所有最小分配单位的数据存储区的位址信息中每个层级的子位址信息的数量统计，筛选出差异层级，并进一步确定出用于后续定位差异数据存储区时遍历过程最开始遍历的起始遍历层级。

实施例4：

在实施例1的基础上，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，确定出差异数据存储区中的差异数据的增量起始序列和增量操作类型，包括：

基于差异数据的增量操作日志（记录有差异数据被执行的所有增量操作的日志），确定出差异数据的增量起始序列和增量操作类型。

上述技术方案基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，高效地在差异数据存储区域中定位出差异数据存储区和对应的同步数据存储区之间的差异数据，并基于差异数据的增量操作日志进一步明确出了差异数据的增量相关参数。

实施例5：

在实施例4的基础上，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，在对应差异数据存储区中确定出差异数据，包括：

基于目标差异数据存储区中的当前存储数据（即为当前在目标差异数据存储区中存储的数据）和在同步数据库中对应的同步数据存储区的当前存储数据（即为当前在同步数据存储区中存储的数据），生成目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵；

将目标差异数据存储区的存储数据表示矩阵中，与对应的同步数据存储区的存储数据表示矩阵中对应元素位置处的矩阵元素值（即为存储数据表示矩阵中包含的数值）不同的矩阵元素值，当作第一筛选元素值；

在所有第一筛选元素值中筛选出差异矩阵元素值（即为目标差异数据存储区的差异数据对应的单位数据在目标差异数据存储区对应的存储数据表示矩阵中对应的矩阵元素，单位数据为单个数据对象名称的单个属性种类的属性值，可能是单个数值或者单个字符串）；

上述技术方案实现目标差异数据存储区的确定，以及目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵的生成，通过将目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵中相同位置的矩阵元素值进行对比，并完成对目标差异数据存储区的存储数据表示矩阵中的矩阵元素值的两次筛选，进而在目标差异数据存储区的存储数据表示矩阵精准筛选出差异矩阵元素值，并基于差异矩阵元素值确定出差异数据，实现目标差异数据存储区中的差异数据的准确检索定位。

实施例6：

在实施例5的基础上，基于目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据，生成目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵，包括：

确定出目标差异数据存储区中每行的数据赋值方式（即为目标差异数据存储区中对应行中包含的每个单位数据和对应的赋值结果之间的对应关系，基于数据赋值方式可以确定出对应行中的单个单位数据对应的赋值结果）和对应的同步数据存储区中每行的数据赋值方式（即为同步数据存储区中对应行中包含的每个单位数据和对应的赋值结果之间的对应关系，基于数据赋值方式可以确定出对应行中的单个单位数据对应的赋值结果）；

基于目标差异数据存储区中每行包含的所有单位数据的赋值结果，生成差异数据存储区的存储数据表示矩阵，同时，基于对应的同步数据存储区中每行包含的所有单位数据的赋值结果，生成对应的同步数据存储区的存储数据表示矩阵（即为将目标差异数据存储区（或同步数据存储区）中所有单个行包含的所有单位数据的总数中的最大值当作对应存储数据表示矩阵中每行包含的矩阵元素位置总数，并将目标差异数据存储区（或同步数据存储区）中包含的所有行的总数当作对应存储数据表示矩阵的行数，以此确定出对应存储数据表示矩阵的行数和列数，并保留目标差异数据存储区（或同步数据存储区）中每行的分布顺序作为对应行单位数据在存储数据表示矩阵中的行序数，并按照每行包含的所有单位数据从左至右的顺序，依次将对应行的所有单位数据的赋值结果作为存储数据表示矩阵中对应行的所有矩阵元素值，当对应行的所有单位数据总数小于存储数据表示矩阵中对应行包含的矩阵元素位置时，则将对应行中空的矩阵元素位置的矩阵元素值设置为0，以此获得目标差异数据存储区（或同步数据存储区）的存储数据表示矩阵）。

上述技术方案通过以行变化的数据赋值方式，对目标差异数据存储区中包含的单位数据进行赋值，并基于赋值结果搭建出目标差异数据存储区或同步数据存储区的存储数据表示矩阵，进而实现目标差异数据存储区或同步数据存储区中的当前存储数据的等量简化表示，减少了后续差异数据定位过程的数据处理量，提高了增量数据的检索速度。

实施例7：

在实施例6的基础上，确定出目标差异数据存储区中每行的数据赋值方式和对应的同步数据存储区中每行的数据赋值方式，包括：

以相同数据维度，对目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据进行行划分（当以相同数据维度是都以数据属性为维度时，则行划分后获得的每行数据为多个数据对象名的同一属性种类的具体属性值，例如多个学生的年龄，其中学生即为数据对象名，年龄即为属性种类；当以相同数据维度是以数据对象名为维度是，则行划分后获得的每行数据为单个数据对象名的多个属性种类的具体属性值，例如单个学生的姓名具体是什么、年龄是多少、成绩是多少等；且行划分后获得的单行包含的所有单位数据是目标差异数据存储区或同步数据存储区中的当前存储数据中连续的部分数据），并确定出目标差异数据存储区中的当前存储数据中每行包含的单位数据和所有行数据（即为行划分后获得的单行数据，其包含多个单位数据）的行序数（即为所有行数据在目标差异数据存储区中的顺序）以及对应的同步数据存储区中每行包含的单位数据和所有行数据的行序数，其中，数据维度为数据属性或数据对象名；

判断出目标差异数据存储区中的单行数据的具体维度值与对应同步数据存储区中相同行序数的行数据的具体维度值（当行划分采用的数据维度为数据属性时，则具体维度值为属性种类，例如年龄、成绩、姓名等；当行划分采用的数据维度为数据对象名时，则具体维度值为某个数据对象名，例如“学生A”）是否相同，若是，则基于对应维度值和目标差异数据存储区中的对应的单行数据以及对应同步数据存储区中的相同行序数的行数据的总数据范围（即为奖目标差异数据存储区中的对应的单行数据中的所有单位数据与对应同步数据存储区中的相同行序数的行数据中的所有单位数据汇总后的所有单位数据的覆盖范围，例如成绩从61分至100分），确定出目标差异数据存储区和同步数据存储区中对应行的数据赋值方式（确定此处的数据赋值方式的原则有：需要保证目标差异数据存储区和同步数据存储区中对应行的不同单位数据的赋值结果不同，且赋值结果为数值，例如用数值1至40依次为表示“成绩”的从61分至100分的整行数据中的每个分值数据进行赋值）；

否则，基于目标差异数据存储区中的对应单行数据的具体维度值和数据范围，确定出目标差异数据存储区中对应行的数据赋值方式（确定此处的数据赋值方式的原则有：需要保证目标差异数据存储区中对应行的不同单位数据的赋值结果不同，且赋值结果为数值），同时，基于同步数据存储区中的对应单行数据的具体维度值和数据范围，确定出同步数据存储区中对应行的数据赋值方式（确定此处的数据赋值方式的原则有：需要保证同步数据存储区中对应行的不同单位数据的赋值结果不同，且赋值结果为数值）。

上述技术方案以相同数据维度对目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据，并基于行划分后目标差异数据存储区和对应同步数据存储区中相同行序数的行数据的属性值是否相同分两种情况，分别确定出目标差异数据存储区中每行的数据赋值结果和对应同步数据存储区中每行的数据赋值方式，以行为单位对其二者的数据赋值方式进行确定，便于后续以行位单位检索出存储数据表示矩阵中的差异矩阵元素值，提高了差异矩阵元素值的定位速度，也相应提高了差异数据的定位速度。

实施例8：

在实施例5的基础上，在所有第一筛选元素值中筛选出差异矩阵元素值，包括：

当目标差异数据存储区的存储数据表示矩阵中存在第一筛选元素值的占比（即为单行矩阵元素中包含的第一筛选元素值的总数和单行矩阵元素中包含的所有矩阵元素值的总数之比）不小于预设占比（即为将单行矩阵元素判定为第一单行矩阵元素时，第一筛选元素值的占比需要达到的最小值）的单行矩阵元素时，则将目标差异数据存储区的存储数据表示矩阵中第一筛选元素值的占比不小于预设占比的单行矩阵元素，当作第一单行矩阵元素；

计算出第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度（将第一单行矩阵元素中，第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素中，列序数相同且矩阵元素值相同的矩阵元素值总数与第一单行矩阵元素中的所有矩阵元素值的总数之比，当作第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度）；

上述技术方案以单行矩阵元素中的第一筛选元素值的占比是否不小于预设占比为条件分成两种情况，判断是否需要对对应单行矩阵元素继续进行错行对比，以避免出现整行删除导致的错行对比现象造成的差异数据的假性判定，进一步保证了差异数据的定位精准度。

实施例9：

在实施例8的基础上，基于第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度，确定出差异矩阵元素值，包括：

判断出第一单行矩阵元素的所有相似程度中的最大值是否不小于相似程度阈值（即为用于在判定需要再对应单行矩阵元素中进一步筛选出第二筛选元素值时，对应单行矩阵元素的所有相似程度中的最大值需要达到的最小值），若是，则将第一单行矩阵元素中，与对应的同步数据存储区中最大相似程度对应的单行矩阵元素中列序数相同且矩阵元素值不同的矩阵元素值，当作第二筛选元素值；

以上技术方案以第一单行矩阵元素的所有相似程度中的最大值是否不小于相似程度阈值为判断条件，实现对第一单行矩阵元素是否需要错行对比的判断，并通过是否需要错行对比这两种情况，实现对差异矩阵元素值的精确定位，更进一步地，提搞了差异矩阵元素值的定位精确度。

实施例10：

在实施例1的基础上，基于差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步，获得增量同步实现结果，包括：

基于差异数据的增量起始序列和全增量记录线程（即为包含差异数据这个单位数据被执行过的所有增量操作和操作时间的记录线程），在同步数据库中的对应同步数据存储区中确定出待同步更新数据（即为同步数据存储区中需要被同步更新的数据）；

基于增量操作类型对同步数据库中对应同步数据存储区中的待同步更新数据进行数据内容（即为对待同步更新数据进行删除、新增或修改等各种操作类型的增量操作以实现差异数据的同步更新）和增量操作时间戳（即为以之前存储的序列终点为起点继续进行增量操作时间戳的更新，此时间戳为增量操作日志或增量操作线程中的时间戳）更新，获得部分增量同步实现结果；

上述过程以差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步，实现差异存储区中的部分数据（差异数据部分）的增量同步，并结合对同步数据库中不包含对应同步数据存储区的差异数据存储区进行全量同步获得的全量同步实现结果，实现对达梦数据库的整个存储数据的增量同步。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于CDC方式的达梦数据库增量同步实现方法，其特征在于，包括：

S4：对同步数据库中不包含对应同步数据存储区的差异数据存储区进行全量同步，同时，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，确定出差异数据存储区中的差异数据的增量起始序列和增量操作类型，并基于差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步，获得增量同步实现结果；

其中，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，确定出差异数据存储区中的差异数据的增量起始序列和增量操作类型，包括：

基于差异数据的增量操作日志，确定出差异数据的增量起始序列和增量操作类型；

其中，基于同步数据库中包含对应的同步数据存储区的差异数据存储区的存储数据表示矩阵和对应同步数据存储区的存储数据表示矩阵，在对应差异数据存储区中确定出差异数据，包括：

在所有第一筛选元素值中筛选出差异矩阵元素值；

将差异矩阵元素值在目标差异数据存储区域中对应的单位数据当作差异数据；

其中，基于目标差异数据存储区中的当前存储数据和在同步数据库中对应的同步数据存储区的当前存储数据，生成目标差异数据存储区的存储数据表示矩阵和对应的同步数据存储区的存储数据表示矩阵，包括：

2.根据权利要求1所述的基于CDC方式的达梦数据库增量同步实现方法，其特征在于，S1：实时获取达梦数据库中每个最小分配单位的数据存储区的位址信息在每个层级下的子位址信息，包括：

3.根据权利要求1所述的基于CDC方式的达梦数据库增量同步实现方法，其特征在于，S2：基于所有位址信息在每个层级下的子位址信息，确定出达梦数据库和同步数据库之间的差异层级，并将差异层级中最高层级当作起始遍历层级，包括：

4.根据权利要求1所述的基于CDC方式的达梦数据库增量同步实现方法，其特征在于，确定出目标差异数据存储区中每行的数据赋值方式和对应的同步数据存储区中每行的数据赋值方式，包括：

5.根据权利要求1所述的基于CDC方式的达梦数据库增量同步实现方法，其特征在于，在所有第一筛选元素值中筛选出差异矩阵元素值，包括：

6.根据权利要求5所述的基于CDC方式的达梦数据库增量同步实现方法，其特征在于，基于第一单行矩阵元素与对应的同步数据存储区中行序数与第一单行矩阵元素值的行序数不相同的每行矩阵元素之间的相似程度，确定出差异矩阵元素值，包括：

7.根据权利要求1所述的基于CDC方式的达梦数据库增量同步实现方法，其特征在于，基于差异数据的增量起始序列和增量操作类型对对应同步数据存储区进行部分增量同步，获得增量同步实现结果，包括：