CN111339103B

CN111339103B - 一种基于全量分片和增量日志解析的数据交换方法及系统

Info

Publication number: CN111339103B
Application number: CN202010176947.3A
Authority: CN
Inventors: 王小玄; 范浩哲; 王小阳; 雷俊鸽; 林军军
Original assignee: Henan Anranyun Network Technology Co ltd
Current assignee: Henan Anranyun Network Technology Co ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-06-20
Anticipated expiration: 2040-03-13
Also published as: CN111339103A

Abstract

本发明涉及计算机网络技术领域，公开了一种基于全量分片和增量日志解析的数据交换方法，包括：步骤1、根据数据库表主键进行数据分片，将分片后的信息存入消息队列，以得到全量分片信息；步骤2.根据预设的作业映射关系，依据消息队列中的全量分片信息，分批从数据库中获取数据并写入目标端；步骤3.根据全量记录的写入时间点进行实时的数据库增量日志解析并实时保存增量数据到消息队列；步骤4：上次增量数据写入时记录的位置点从消息队列中获取对应的增量数据写入目标端。源表结构不需要修改即可实现数据的分批以及增量获取，避免了线上业务暂停或服务宕机，在保证源数据的自身格式的同时，还能够实时的将源数据发送到目的端，提供及时的数据服务。

Description

一种基于全量分片和增量日志解析的数据交换方法及系统

技术领域

本发明计算机网络信息技术领域，特别是指一种基于全量分片和增量日志解析的数据交换方法及其系统。

背景技术

随着社会的进步和技术的发展，应用系统越来越多，各自的数据存在于自己的隔离网络内部，数据孤岛越来越多，增量和全量的数据交换方法打破了数据孤岛，全量分片读取源库数据避免了线上业务暂停服务，而增量的日志解析保护了源生态系统不被打破。而传统数据交换方法大致为，全量直接查库，数据量大的时候线上业务可能会宕机或者暂停服务，而增量技术大部分在源端增加时间戳或者全表对比，需要修改源表结构，同时也传输了更多的无用数据，造成更高的网络负载，破坏了源生态系统，和全量分片以及增量解析日志进行数据交换的方法相比在性能和稳定性上存在一定差距。

发明内容

本发明提出基于全量分片和增量日志解析的数据交换方法及其系统，实现不宕机获取源库全量数据以及不打破源生态获取增量数据，同时降低网络负载，打破数据孤岛。

本发明的技术方案是这样实现的：一种基于全量分片和增量日志解析的数据交换方法，包括：

步骤1.全量数据分片处理：根据数据库表主键进行数据分片，将分片后的信息存入消息队列，以得到全量分片信息；

步骤2.全量数据写入：根据预设的作业映射关系，依据消息队列中的全量分片信息，分批从数据库中获取数据并写入目标端，同时记录写入时间点，其中时间点为最后一个数据的事件日志记录的时间；

步骤3.增量日志解析：根据全量记录的写入时间点进行实时的数据库增量日志解析并实时保存增量数据到消息队列；

步骤4：增量数据写入：根据预设的作业映射关系，依据步骤2中记录的写入时间点或上次增量数据写入时记录的位置点从消息队列中获取对应的增量数据写入目标端，并且记录本次时间点位置点。

作为优选的技术方案，在步骤1之前，从添加的数据库中获取元数据并存储。

作为优选的技术方案，步骤1具体包括：判断分片列数据类型；根据分片列数据类型匹配对应的算法对数据进行分片。

作为优选的技术方案，分片列数据类型是数字类型、字符类型或日期类型；数据类型的分片列数据根据预设的分片大小和数据总数计算出总的分片数以及每片的区间；字符类型的分片列数据首先转化为数字类型的分片列数据，再根据预设的分片大小和数据总数计算出总的分片数以及每片的区间；时间类型的分片列数据则根据预设的分片天数以及数据的首次产生日期和最后一次写入日期计算出总的分片数以及每片的区间。

作为优选的技术方案，步骤1中，还包括对分片数据按照时间顺序排序并进行清洗和去重的步骤。

作为优选的技术方案，在步骤2中，全量分片信息以预设的数据量或数据获取的时间段分批从数据库中获取数据并写入目标端。

作为优选的技术方案，还包括将目标端每行数据的最新更新时间记录到管理中台数据库的步骤。

一种基于全量分片和增量日志解析的数据交换平台，包括：

元数据管理单元，用于从添加的数据库中获取元数据并存储；

全量分片处理单元，用于根据分片列数据类型对数据进行分片，并将分片后的信息存入消息队列；

全量数据传输单元，用于根据预设的作业映射关系，依据消息队列中的全量分片信息，分批从数据库中获取数据并写入目标端；

增量日志解析单元，根据全量记录的写入时间点进行实时的数据库增量日志解析并实时保存增量数据到消息队列；

增量数据传输单元，根据预设的作业映射关系，全量数据的写入时间点或上次增量数据写入时记录的位置点从消息队列中获取对应的增量数据写入目标端。

一种基于全量分片和增量日志解析的数据交换系统，包括：

数据源端，包括多个数据库，用于存储元数据；

目标端，用于存储从源端加载的数据；

数据交换平台，用于对源端和目标端之间的快捷数据交换，包括：

作为优选的技术方案，还包括管理中台数据库，用于存储目标端数据的更新记录。

本发明的有益效果在于：本发明不需要对源结构进行更改或者处理，不会产生对源端生态环境的污染，通过对数据进行分片分批导入数据，通过对增量日志解析的方式，将增量数据导入，不需要在源端增加时间戳或者全表对比，源表结构不需要修改，传输效率高，网络负载小，避免了线上业务暂停或服务宕机，在保证源数据的自身格式的同时，还能够实时的将源数据发送到目的端，提供及时的数据支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体架构图；

图2为本发明中全量分片的流程图；

图3为本发明中全量分片数据和增量数据交换的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

如图1至图3共同所示，本申请涉及一种基于全量分片和增量日志解析的数据交换系统，包括：

数据源端，包括多个数据库，用于存储元数据；

目标端，用于存储从源端加载的数据；

数据交换平台，用于对源端和目标端之间的快捷数据交换，

管理中台数据库(中台DB)，用于存储目标端数据的更新记录。

其中，数据交换平台，包括：

本发明中数据交换系统采用以下方法，将源端的元数据导入目标端：

在进行数据交换之前，首先获取元数据：根据用户添加的数据库类型，执行不同的算法获取元数据并存储，不同的数据库类型获取方式不一致，具体包括，获取数据库名称；获取表名称；获取字段名称；获取字段类型；获取字段描述；存储库、表、字段、类型、长度数据到管理中台数据库；对元数据打标签，标注库表字段，并且对其进行详细描述。

例如：mysql：SELECT

TABLE_NAME,COLUMN_NAME,DATA_TYPE,COLUMN_COMMENT FROM information_schema.COLUMNS WHERE table_schema＝'dbawork'；

源端与目标端的数据交换具体包括以下步骤：

步骤1.全量数据分片处理，根据数据库表主键进行数据分片，将分片后的信息存入消息队列，以得到全量分片信息。按照时间顺序对数据分片进行排序，同时对数据分片进行清洗和去重。

数据分片时，根据用户设置的分片列数据类型匹配不同的算法规则对数据进行分片：首先判断分片列数据类型，分片列数据类型包括数字类型、字符类型或日期类型。

数据类型的分片列数据根据预设的分片大小和数据总数计算出总的分片数以及每片的区间；字符类型的分片列数据首先转化为数字类型的分片列数据，再根据预设的分片大小和数据总数计算出总的分片数以及每片的区间；时间类型的字符类型的分片列数据则根据预设的分片天数以及数据的首次产生日期和最后一次写入日期(也就是将日期类型分片列数据转换成数字类型)计算出总的分片数以及每片的区间。

步骤2.全量数据写入：数据交换平台根据用户设置的作业映射关系，依据消息队列中的全量分片信息，分批从数据库中获取数据并写入目标端，同时记录写入时间点，其中时间点为最后一个数据的事件日志记录的时间。

具体步骤如下：从消息队列中获取对应表的全量分片信息；每个分片启动一个线程获取该分片数据；使用Flink流数据处理技术清洗转换数据为用户设置的映射关系数据；根据用户设置的目标端访问信息写入目标端；记录目标端每行数据的最新更新时间到管理中台数据库以保证数据一致性。

根据对应数据表的全量分片消息分批从数据库读取数据写入目标端，同时记录完成写入时间点，具体包括：按照预定的数据量进行划分，即达到一定预设量，则划分为一批；或者按照数据获取的时间段进行划分，例如每1个小时内的数据划分为一批，按照划分结果进行分批传输。

步骤4：增量数据写入：根据预设的作业映射关系，依据步骤2中记录的写入时间点或上次增量数据写入时记录的位置点从消息队列中获取对应的增量数据写入目标端，并且记录本次位置点。

具体包括：开启数据库日志，例如mysql的Binlog设置为row模式，mssql开启CDC功能，oracle开启归档日志等；设置对应数据库表的用户和权限；解析各个数据库的增量日志存入消息队列。

记录的写入时间点或根据上次记录的位置点，重复操作根据作业映射关系实时从消息队列中获取对应增量数据，从管理中台库判断是否为最新数据，是则清洗转换写入目标端，同时记录此条数据的最新更新时间到管理中台数据库。

本发明属于计算机网络及关系型数据库数据传输技术应用领域，提供了一套完整的从源端到目标端的全量和增量以及元数据管理的数据交换方案，在线业务无需停顿，无需源端增加表字段，不仅保护了源生态系统而且降低了网络负载。

本领域普通人员可以理解上述实施例方法中的全部或部分流程，是可以通过计算机程序来编码实现，涉及的程序可存储于计算机可读取介质中，该程序在运行时，可包括如上所述各个方法的实施例的流程，所述的存储介质包括机械磁盘、固态硬盘等。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全量分片和增量日志解析的数据交换方法，其特征在于，包括：

步骤2.全量数据写入：根据预设的作业映射关系，依据消息队列中的全量分片信息，分批从数据库中获取数据并写入目标端，同时记录写入时间点，

其中时间点为最后一个数据的事件日志记录的时间；

2.如权利要求1所述的基于全量分片和增量日志解析的数据交换方法，其特征在于：在步骤1之前，从添加的数据库中获取元数据并存储。

3.如权利要求1的基于全量分片和增量日志解析的数据交换方法，其特征在于：步骤1具体包括：判断分片列数据类型；根据分片列数据类型匹配对应的算法对数据进行分片。

4.如权利要求3所述的基于全量分片和增量日志解析的数据交换方法，其特征在于：分片列数据类型是数字类型、字符类型或日期类型；数据类型的分片列数据根据预设的分片大小和数据总数计算出总的分片数以及每片的区间；字符类型的分片列数据首先转化为数字类型的分片列数据，再根据预设的分片大小和数据总数计算出总的分片数以及每片的区间；时间类型的的分片列数据则根据预设的分片天数以及数据的首次产生日期和最后一次写入日期计算出总的分片数以及每片的区间。

5.如权利要求1所述的基于全量分片和增量日志解析的数据交换方法，其特征在于：步骤1中，还包括对分片数据按照时间顺序排序并进行清洗和去重的步骤。

6.如权利要求1所述的基于全量分片和增量日志解析的数据交换方法，其特征在于：在步骤2中，全量分片信息以预设的数据量或数据获取的时间段分批从数据库中获取数据并写入目标端。

7.如权利要求1所述的基于全量分片和增量日志解析的数据交换方法，其特征在于：还包括将目标端每行数据的最新更新时间记录到管理中台数据库的步骤。

8.一种基于全量分片和增量日志解析的数据交换平台，其特征在于，包括：

9.一种基于全量分片和增量日志解析的数据交换系统，其特征在于，包括：

数据源端，包括多个数据库，用于存储元数据；

目标端，用于存储从源端加载的数据；

数据交换平台，用于对源端和目标端之间的快捷敏捷数据交换，包括：

10.如权利要求9所述的基于全量分片和增量日志解析的数据交换系统，其特征在于：还包括管理中台数据库，用于存储目标端数据的更新记录。