CN111125260A

CN111125260A - 一种基于SQL Server的数据同步方法及系统

Info

Publication number: CN111125260A
Application number: CN202010068598.3A
Authority: CN
Inventors: 马新强; 黄羿; 刘友缘; 杨建党; 白金生
Original assignee: Chongqing University of Arts and Sciences
Current assignee: Chongqing University of Arts and Sciences
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-05-08

Abstract

本发明提供一种基于SQL Server的数据同步方法及系统，涉及数据管理技术领域，其中一种基于SQL Server的数据同步方法包括以下步骤：S1：获取源表的数据变化；S2：实时获取数据表的行级更改数据并记录；S3：将变更的数据同步到Kafka中；S4：实时消费Kafka中产生的数据，进行ETL操作；S5：输出结果存储至目标表，获得业务统计分析的宽表，便于后台读取。本发明一种基于SQL Server的数据同步方法及系统可以获取SQL Server数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的Kafka Topic中，进而用于kafka消费，实现数据同步，数据同步效果好，方便后台读取。

Description

一种基于SQL Server的数据同步方法及系统

技术领域

本发明涉及数据管理技术领域，

尤其是，本发明涉及一种基于SQL Server的数据同步方法及系统。

背景技术

传统的数据同步方式有以下几种：

（1）触发器方式

触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求，在要被抽取的源表上建立插入、修改、删除3个触发器，每当源表中的数据发生变化，就被相应的触发器将变化的数据写入一个增量日志表，ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据，同时增量日志表中抽取过的数据要及时被标记或删除。为了简单起见，增量日志表一般不存储增量数据的所有字段信息，而只是存储源表名称、更新的关键字值和更新操作类型(KNSEN、UPDATE或DELETE)，ETL增量抽取进程首先根据源表名称和更新的关键字值，从源表中提取对应的完整记录，再根据更新操作类型，对目标表进行相应的处理。触发器这种方式，虽然可以自动进行抽取，但是执行频率过多，十分影响效率。也会影响到原生系统的稳定。

（2）时间戳方式

时间戳方式是指增量抽取时，抽取进程通过比较系统时间与抽取源表的时间戳字段的值来决定抽取哪些数据。这种方式需要在源表上增加一个时间戳字段，系统中更新修改表数据的时候，同时修改时间戳字段的值。有的数据库(例如SQL SERVER)的时间戳支持自动更新，即表的其它字段的数据发生改变时，时间戳字段的值会被自动更新为记录改变的时刻。在这种情下，进行ETL实施时就只需要在源表加上时间戳字段就可以了。对于不支持时间戳自动更新的数据库，这就要求业务系统在更新业务数据时，通过编程的方式手工更新时间戳字段。使用时间戳方式可以正常捕获源表的插入和更新操作，但对于删除操作则无能为力。这种方式并不能完全捕获源数据的变化。

（3）全表删除插入方式

全表删除插入方式是指每次抽取前先删除目标表数据，抽取时全新加载数据。该方式实际上将增量抽取等同于全量抽取。对于数据量不大，全量抽取的时间代价小于执行增量抽取的算法和条件代价时，可以采用该方式。而医疗数据的数据量十分庞大，这中方式对于大数据量来说是非常不可取的。

（4）全表比对方式

全表比对即在增量抽取时，ETL进程逐条比较源表和目标表的记录，将新增和修改的记录读取出来。优化之后的全部比对方式是采用MD5校验码，需要事先为要抽取的表建立一个结构类似的MD5临时表，该临时表记录源表的主键值以及根据源表所有字段的数据计算出来的(BI)

MD5校验码，每次进行数据抽取时，对源表和MD5临时表进行MD5校验码的比对，如有不同，进行UPDATE操作：如目标表没有存在该主键值，表示该记录还没有，则进行INSERT操作。然后，还需要对在源表中已不存在而目标表仍保留的主键值，执行DELETE操作。

5、日志表方式

对于建立了业务系统的生产数据库，可以在数据库中创建业务日志表，当特定需要监控的业务数据发生变化时，由相应的业务系统程序模块来更新维护日志表内容。增量抽取时，通过读日志表数据决定加载哪些数据及如何加载。日志表的维护需要由业务系统程序用代码来完成。

6、系统日志分析方式

该方式通过分析数据库自身的日志来判断变化的数据。关系型数据库系统都会将所有的DML操作存储在日志文件中，以实现数据库的备份和还原功能。ETL增量抽取进程通过对数据库的日志进行分析，提取对相关源表在特定时间后发生的DML操作信息，就可以得知自上次抽取时刻以来该表的数据变化情况，从而指导增量抽取动作。

综上，现有的数据同步方式或过于繁琐，或无法实时监视数据库的所有后续行政更改，事件无法单独记录，不方便后台读取。

所以，如何设计一种基于合理有效的数据同步方法或者系统，成为我们当前急需要解决的问题。

发明内容

本发明的目的在于提供一种可以获取SQL Server数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的KafkaTopic中，进而用于kafka消费，实现数据同步，数据同步效果好，方便后台读取的基于SQLServer的数据同步方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于SQL Server的数据同步方法，该方法包括以下步骤：

S1：获取源表的数据变化；

S2：实时获取数据表的行级更改数据并记录；

S3：将变更的数据同步到Kafka中；

S4：实时消费Kafka中产生的数据，进行ETL操作；

S5：输出结果存储至目标表，获得业务统计分析的宽表，便于后台读取。

作为本发明的优选，执行步骤S1之前，开启源表的CDC功能。

作为本发明的优选，执行步骤S2时，通过捕获进程将变更数据捕获到变更表。

作为本发明的优选，执行步骤S2之前，建立变更表。

作为本发明的优选，执行步骤S4时，使用Spark去实时消费Kafka中产生的数据。

作为本发明的优选，执行步骤S4时，实时消费的数据数量至少为一个。

作为本发明的优选，执行步骤S5时，输出结果存储至MySQL的ods表中。

另一方面，本发明中另外还提供一种基于SQL Server的数据同步系统，该系统包括：

源表；

源连接器；

获取模块；

同步模块；

Kafka模块；

消费模块；

存储模块；

目标表；

获取源表的数据变化，源连接器通过获取模块实时获取数据表的行级更改数据并记录；将变更的数据通过同步模块同步到Kafka模块中，消费模块实时消费Kafka中产生的数据，进行ETL操作，存储模块将输出结果存储至目标表，获得业务统计分析的宽表，便于后台读取。

作为本发明的优选，本发明一种基于SQL Server的数据同步系统中，还包括捕获模块，将变更数据捕获到变更表。

作为本发明的优选，本发明一种基于SQL Server的数据同步系统中，还包括Spark模块，通过Spark模块对Kafka中产生的数据进行消费。

本发明一种基于SQL Server的数据同步方法及系统有益效果在于：可以获取SQLServer数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的Kafka Topic中，进而用于kafka消费，实现数据同步，数据同步效果好，方便后台读取。

附图说明

图1为本发明一种基于SQL Server的数据同步方法的流程示意图；

图2为本发明一种基于SQL Server的数据同步方法的逻辑示意图；

图3为本发明一种基于SQL Server的数据同步系统的模块连接示意图。

具体实施方式

以下是本发明的具体实施例，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。

同时，应当明白，为了便于描述，附图中的流程并不仅仅是单独进行，而是多个步骤相互交叉进行。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论，但在适当情况下，技术、方法及系统应当被视为授权说明书的一部分。

实施例一

如图1、2所示，仅为本发明的其中一个实施例，本发明提供一种基于SQL Server的数据同步方法，该方法包括以下步骤：

S1：获取源表的数据变化；

在执行步骤S1之前，先开启源表的CDC功能。

S2：实时获取数据表的行级更改数据并记录；

执行步骤S2时，建立变更表，然后通过捕获进程将变更数据捕获到变更表。

S3：将变更的数据同步到Kafka中；

Kafka 在这里主要作为消息中间件来使用。

S4：实时消费Kafka中产生的数据，进行ETL操作；

在这里，使用Spark去实时消费Kafka中产生的数据。

当然，实时消费的数据数量至少为一个。

输出结果存储至MySQL的ods表中

本发明一种基于SQL Server的数据同步方法的具体执行时的逻辑如图2所示，其中：

zookeeper集群为Kafka系统强依赖的组件。其存储了Kafka核心原数据 (如topic信息配置、broker信息、消费分组等等，相当于DB充当了Kafka的配置管理中心) 。 Kafka的leader选举(如coordinator选举、controller选举、partition leader选举等等)，同样也会借助于zookeeper。

coordinator协调器模块，主要用来管理消费分组和消费offset，充当中介管理消费者并从消费分组中选举出一个消费者作为leader，然后将消费分组中所有消费者信息发往该leader由该leader负责分配partition。该模块为Kafka 0.9版本新加入的新的模块，Kafka集群中可以存在多个协调器分别管不同的消费分组，提高整个系统的扩展能力，主要用于解决之前消费者(high level消费者api)都需要通过与zookeeper连接进行相关的选举，导致zookeeper压力大、惊群及脑裂问题。

controller模块（图中C1至C6），主要负责partition leader选举、监听创建及删除Topic事件然后下发到指定broker进行处理等功能，整个Kafka集群中只能有一个controller，Kafka利用zookeeper的临时节点特性来进行controller选举。

Broker消息缓存代理，Kafka集群包含一个或多个服务器，这些服务器被称为Broker，负责消息的存储于转发，作为代理对外提供生产和消费服务。

Topic消息主题(类别)，逻辑上的概念，特指Kafka处理的消息源的不同分类，用户可以根据自己的业务形态将不同业务类别的消息分别存储到不同Topic。用户生产和消费时只需指定所关注的topic即可，不用关注该topic的数据存放的具体位置。

Partition（图中P0、P1、P2、P3）为Topic物理上的分组，在创建Topic时可以指定分区的数量，每个partition是一个有序的队列，按生产顺序存储着每条消息，而且每条消息都会分配一个64bit的自增长的有序offset(相当于消息id)。Partition是整个Kafka可以平行扩展的关键因素。

Producer 生产者，采用Push方式进行消息发布生产。Producer可以通过与zookeeper连接获取broker信息, topic信息等等元数据，然后再与broker交互进行消息发布。在此过程中zookeeper相当于一个配置管理中心(类似于Name Server提供相关的路由信息)。

Consumer消费者，采用Pull方式，从Broker端拉取消息并进行处理。当采用订阅方式(一般通过使用consumer high level api或new consumer来进行订阅)订阅感兴趣的Topic时，Consumer必须属于一个消费分组，而且Kafka保证同一个Topic的一条消息只能被同一个消费分组中的一个Consumer消费，但多个消费分组可以同时消费这一条消息。

本发明一种基于SQL Server的数据同步方法可以获取SQL Server数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的Kafka Topic中，进而用于kafka消费，实现数据同步，数据同步效果好，方便后台读取。

实施例二

本发明还提供一种基于SQL Server的数据同步系统，且该系统包括：

源表；

源连接器；

获取模块；

同步模块；

Kafka模块；

消费模块；

存储模块；

目标表；

在这里，源连接器Debezium SQL Server Source Connector可以获取SQL Server数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的Kafka Topic中，应用程序和服务可以轻松使用它们。然后本连接器也是基于MSSQL的change data capture实现。

还有Kafka模块，Kafka 在这里主要作为消息中间件来使用。一份数据可以以多副本的方式进行存储，可以构建实时数据管道，以及实时的流处理，能够横向水平扩展。大数据的实时流处理场景很多时候都会使用到kafka。

一般消息中间件都会有生产者和消费者的概念。这里我们的生产者前面使用到的Debezium SQL Server Source Connector，连接器将数据库变更的数据全部存入到Kafka和表名相关的主题下。然后，后面使用自己的消费者信息输入里面得出的数据即可。

在本系统中，还包括捕获模块，将变更数据捕获到变更表。

在本系统中，还包括Spark模块，通过Spark模块对Kafka中产生的数据进行消费。

在这里Spark 是用于大规模数据处理的统一分析引擎。在这里我们使用它的Spark Streaming+Spark SQL 子模块配合起来使用。

Spark Streaming是一个基于Spark Core的一个高扩展,高吞吐量,容错的一个处理实时流数据的工具（流处理）。

Spark Streaming会去接收实时输入的数据流,将接收的数据流按照要求分成一些小批次数据，再转换为Dataframe 类似表格。这样我们就可以使用Spark SQL 方便处理。最后将处理的结果按照消费分区提交存储到MySQL中。

MySQL表即为目标表，整个操作从数据的产生到数据存入，都是接近实时产生的，完成数据实时同步。

总之，本发明一种基于SQL Server的数据同步方法及系统可以获取SQL Server数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的Kafka Topic中，进而用于kafka消费，实现数据同步，数据同步效果好，方便后台读取。

本发明一种基于SQL Server的数据同步方法及系统可以获取SQL Server数据库中现有数据的快照，然后监视和记录对该数据的所有后续行级更改。每个表的所有事件都记录在单独的Kafka Topic中，进而用于kafka消费，实现数据同步，数据同步效果好，方便后台读取。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围，本发明所属技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领域的技术人员应该理解，凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于SQL server的数据同步方法，其特征在于，包括以下步骤：

S1：获取源表的数据变化；

S2：实时获取数据表的行级更改数据并记录；

S3：将变更的数据同步到Kafka中；

S4：实时消费Kafka中产生的数据，进行ETL操作；

2.根据权利要求1所述的一种基于SQL server的数据同步方法，其特征在于：

执行步骤S1之前，开启源表的CDC功能。

3.根据权利要求1所述的一种基于SQL server的数据同步方法，其特征在于：

执行步骤S2时，通过捕获进程将变更数据捕获到变更表。

4.根据权利要求3所述的一种基于SQL server的数据同步方法，其特征在于：

执行步骤S2之前，建立变更表。

5.根据权利要求1所述的一种基于SQL server的数据同步方法，其特征在于：

执行步骤S4时，使用Spark去实时消费Kafka中产生的数据。

6.根据权利要求5所述的一种基于SQL server的数据同步方法，其特征在于：

执行步骤S4时，实时消费的数据数量至少为一个。

7.根据权利要求1所述的一种基于SQL server的数据同步方法，其特征在于：

执行步骤S5时，输出结果存储至MySQL的ods表中。

8.一种基于SQL server的数据同步系统，其特征在于，包括：

源表；

源连接器；

获取模块；

同步模块；

Kafka模块；

消费模块；

存储模块；

目标表；

9.根据权利要求8所述的一种基于SQL server的数据同步系统，其特征在于：

还包括捕获模块，将变更数据捕获到变更表。

10.根据权利要求8所述的一种基于SQL server的数据同步系统，其特征在于：

还包括Spark模块，通过Spark模块对Kafka中产生的数据进行消费。