CN111723160B

CN111723160B - 一种多源异构增量数据同步方法及系统

Info

Publication number: CN111723160B
Application number: CN202010857876.3A
Authority: CN
Inventors: 郑斌; 胡若云; 李国良; 柴成亮; 孙钢; 王锦志; 张爽; 景伟强; 陈欢军; 陆春光; 吕诗宁
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-03-23
Anticipated expiration: 2040-08-24
Also published as: CN111723160A

Abstract

本发明涉及一种多源异构增量数据同步方法及系统，方法包括：获取至少一个源端的增量流式数据；将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka中以缓存；对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理，将处理后的增量流式数据存储到目标数据源中，其中，存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。上述方法可实现将关系库中的增量流式数据实时同步到分布式存储中，并实现了高扩展性和高可靠性、持久性。

Description

一种多源异构增量数据同步方法及系统

技术领域

本发明涉及数据处理技术，尤其涉及一种多源异构增量数据同步方法及系统。

背景技术

随着电网行业信息化建设发展，很多信息化系统已积累了大量的营销业务、用电信息、客户服务等各类海量数据，传统的关系型数据库在存储、计算、创新应用等方面限制突出，为提升电力大数据分析应用的基础支撑能力，搭建分布式存储与计算平台是必须的，那么就需要将业务信息化系统数据同步到分布式存储。

在业务系统种类非常多，底层数据存储多源异构的存储现状下，离线批量数据同步有着网络和磁盘IO耗费大、源库无增量标识下全量同步压力大耗时高、离线数据同步采用周期调度无法满足业务侧实时分析等痛点。也就是说，如何将关系库（如oracle、mysql）中数据增量、准实时同步至分布式存储（如hdfs、hive、kudu、其他olap存储），并实现扩展特性成为当前需要亟需解决的问题。

发明内容

鉴于现有技术的上述缺点、不足，本发明提供一种多源异构增量数据同步方法及系统，实现将关系库中的数据增量实时同步到分布式存储中，并实现扩展和高可用。

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种多源异构增量数据同步方法，包括：

获取至少一个源端的增量流式数据；

将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka中以缓存；

对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理，将处理后的增量流式数据同步写入到目标数据源中；

在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储，使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量，根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据；

其中，存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。

可选地，获取至少一个源端的增量流式数据，包括：

针对每一个源端，查看源端的数据格式是否为JSON半结构化数据格式；

若是，则采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析，获取该源端的增量流式数据；

否则，将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析，获取该源端的增量流式数据，并调用格式转换工具对获取的增量流式数据的格式转换为JSON半结构化数据格式。

可选地，在获取至少一个源端的增量流式数据之前，所述方法包括：

配置源端数据对应的数据复制工具；

配置数据复制工具的对应处理的数据格式为JSON半结构化数据格式；

配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据，且在该传输通道中配置用于Kafka队列的数据映射表，该数据映射表用于将源端增量流式数据写入目标数据源中。

可选地，所述目标数据源支持的存储介质包括下述的一种或多种：

Gbase数据库、Kudu数据库、Hive数据库、Hdfs分布式数据库、OLAP数据库；

可选地，源端为Oracle时，源端对应的数据复制工具为ogg；

源端为MySQL时，源端对应的数据复制工具为Canal。

可选地，JSON半结构化数据格式的属性包括下述的一种或多种：表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据；

或者，

JSON半结构化数据格式的属性包括下述的一种或多种：表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据；

所述操作类型包括：新增、修改和/或删除。

可选地，所述方法还包括：

根据用户输入的查看指令，向用户展示当前同步任务/同步作业的可视化图表，所述可视化图表可包括：资源占用信息、每一任务/作业的运行状态、错误次数；

和/或，接收用户输入的操作指令，对该操作指令对应的同步任务/作业进行相应处理；

和/或，接收用户输入的配置指令，对每一任何/作业进行配置操作；

和/或，接收用户输入的查看某一指定任务的可视化指令，向用户展示运行时长、接入总量、失败批次数、入库效率中的至少一个或多个指标信息。

第二方面，本发明实施例还提供一种多源异构增量数据同步系统，包括：

增量流式数据获取单元，用于获取至少一个源端的增量流式数据；

缓存单元，用于将增量流式数据获取单元获取的增量流式数据同步在分布式消息队列Kafka中以缓存；

数据传输服务单元，用于对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理，将处理后的增量流式数据同步写入到目标数据源中；

用于存储数据偏移量offset的存储单元，用于在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储，使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量，根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据；

可选地，数据传输服务单元包括：

作业管理子单元，用于为待进行数据同步的作业进行任务的维护与管理操作，或者为正在进行数据同步的作业进行任务的维护与管理操作；

作业监控子单元，用于为正在进行或已完成的数据同步的作业展示实时的传输指标信息或已完成的传输指标信息；

任务概括子单元，用于展示数据传输服务单元中所有的任务信息；

调度与监控服务子单元，用于根据作业管理子单元、作业监控子单元或任务概括子单元的指令信息，与Flume集群交互，获取指令信息对应的传输信息，或者将用户在作业管理子单元中的维护与管理操作的指令信息通过调度服务提交到Flume集群；

Flume集群，包括多个进行逻辑处理的节点，Flume集群用于将分布式消息队列Kafka中缓存的任务通过轮询策略选择匹配的节点，以使节点对轮询的任务进行逻辑处理，以将处理后的增量流式数据同步写入到目标数据源中；

其中，所述Flume集群属于数据传输服务单元的底层，作业管理子单元、作业监控子单元和任务概括子单元均属于数据传输服务单元的应用层，所述调度监控服务子单元连接所述应用层和底层。

在本发明实施例中，利用分布式消息队列Kafka临时缓存其他来源的增量流式数据，通过分布式采集组件Flume将流式数据微批量同步目标存储，为业务系统增量数据准实时同步电网大数据分布式存储、以及后续交互式分析、实时分析处理提供了基础条件。

本发明的方法为其他电力系统的跨平台增量流式数据准实时同步提供了技术依据，实时同步监控手段的应用，可为今后实时数据同步性能、数据完整性提供借鉴。进一步地，本发明的方法描述了建立多源异构增量数据准实时同步应用的过程，可以实现对各种源端的增量数据进行同步。

附图说明

图1为本发明一实施例提供的多源异构增量数据同步方法的流程示意图；

图2为本发明另一实施例提供的多源异构增量数据同步方法的流程图；

图3为本发明一实施例提供的多源异构增量数据同步系统的结构示意图；

图4为数据传输服务单元底层中数据传输的示意图；

图5为基于数据传输服务单元的作业维护子单元的可视化界面的示意图；

图6为基于数据传输服务单元的作业管理子单元的可视化界面的示意图；

图7为本发明一实施例提供的进行传输通道配置的可视化界面的示意图。

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

如图1所示，本发明实施例提供一种多源异构增量数据同步方法，该方法可包括下述的步骤。

S1、获取至少一个源端的增量流式数据。

在实际应用中，该步骤还可以是获取源端的增量数据。本实施例的方法实现的是增量数据的同步方法。

该步骤可包括下述的子步骤：

在本实施例中，JSON半结构化数据格式的属性包括下述的一种或多种：表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据；所述操作类型包括：新增、修改和/或删除等。

S2、将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka（卡夫卡）中以缓存。

S3、对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理，将处理后的增量流式数据同步写入到目标数据源中。

S4、在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储，使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量，根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据；

在任一目标数据源中写入数据之后将写入数据的数据偏移量发送所述数据传输服务单元中存储，以使分布式消息队列Kafka实时读取所述存储单元预设时间内存储的数据偏移量，以更新分布式消息队列中缓存的增量流式数据，即可实现偏移量offset跟数据同时持久化。

通常，offset表来记录提交的offset，实时数据传输服务采用的是高并发随机读写的K-V数据库Hbase来记录。

目标数据源中的Hbase、Kudu数据库可在写入目标端发生错误时，调用重写实时数据传输服务的事务回滚，并将批量模式转为逐条输入模式,进而使脏数据做额外处理。

结合上述的方法，以kudu（卡都）同步作业配置进行说明，基于ogg（Oracle GoldenGate）数据复制oracle（甲骨文）数据至Kafka，通过数据传输服务单元读取Kafka消息数据进而将该读取的数据写入Kudu数据库中。

本实施例中目标数据源支持的存储介质可包括下述的一种或多种：

Gbase数据库、Kudu数据库、Hive数据库、Hdfs分布式数据库、OLAP数据库。

需要说明的是，在本实施例中，存储策略可为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息，逻辑处理可为依据预先配置的存储策略中的映射表进行逻辑处理。

在实际应用中，在执行步骤S1之前，本实施例的方法还可包括下述的图中未示出的步骤S0：

S0、配置源端数据对应的数据复制工具；配置数据复制工具的对应处理的数据格式为JSON半结构化数据格式；以及

在另一可选的实现方式中，所述方法在上述步骤S3之后，还可包括下述的图中未示出的步骤S5：

S5、根据用户输入的查看指令，向用户展示当前同步任务/同步作业的可视化图表，所述可视化图表可包括：资源占用信息、每一任务/作业的运行状态、错误次数；

在本实施例中，利用分布式消息队列Kafka临时缓存其他来源的增量流式数据，通过分布式采集组件Flume将流式数据微批量同步目标存储，为业务系统增量数据准实时同步电网大数据分布式存储，以及后续交互式分析、实时分析处理提供了基础条件。

实施例二

如图2所示，本发明实施例提供一种多源异构增量数据同步方法的流程图，本实施例的方法可包括以下步骤：

步骤(1)：配置获取源端数据变更的数据复制中间件和在数据传输服务单元中配置待同步的增量数据的信息。

首先，针对不同的关系型存储，选择对应的数据复制中间件，准实时获取源端数据库中的增量数据例如增量变更数据并发到下游。

在本实施例中，依据源端不同的数据存储类型，选择对应的数据复制工具。如图2中的Oracle的源端数据库，会选择Oracle Golden Gate(简称ogg)的数据复制中间件，实现Oracle数据库增量数据实时同步到Kafka中。

如图2中的MysQL的源端数据库，会选择开源中间件Canal（即数据复制中间件），基于MysQL数据库增量日志解析，实现MysQL数据库增量数据实时同步到Kafka中。

需要说明的是，在本实施例中，遵循的数据传输格式处理任何一个源端数据。

在本实施例中，整体采用JSON半结构化数据格式，该数据格式的属性可包含表名(table)、操作类型(op_type)、操作时间(op_ts)、当前时间(current_ts)、主键(primary_keys)、操作后数据(after)、操作前数据(before)。

其中，操作类型可包括：新增(I)、修改(U)和删除(D)，主键使用数组类型可以支持多个联合主键描述。

步骤(2)：使用分布式消息队列Kafka临时缓存源端的增量变更数据；

即，分布式消息队列Kafka作为步骤(1)数据发送的下游存储。

在本实施例中，使用分布式消息队列Kakfa作为临时缓存步骤(1)下发的JSON数据，可为数据流量削峰、数据处理解耦、一次写入多次订阅等提供支撑能力。

分布式消息队列Kakfa具备吞吐量高、持久化数据存储、分布式系统易于扩展等特点。

步骤(3)：订阅分布式消息队列Kafka中数据，进行一定逻辑处理并提交目标存储的写入请求。

针对分布式消息队列中的每一队列中的每一数据均可为一个同步任务。在本实施例中，数据传输服务中的任务概况可以实现可视化展示所有数据同步任务的执行概况、执行时长排行；

作业管理可提供可视化及脚本维护的方式，进行数据同步作业任务的维护与管理，并提供可视化的web界面功能，用户可以配置数据同步任务，以及按钮触发执行。

作业监控用于提供可视化方式展示数据同步过程中的实时与历史指标，包括运行时长、接入总量、失败批次数、入库效率等指标。也就是说，对用户配置的同步作业，提供了监控的功能，可以查看同步作业的监控指标。

调度和监控服务是应用web程序的后台服务，前台用户配置的作业任务通过调度服务提交到Flume集群执行；监控服务定时收集运行作业的指标信息，支撑作业监控内容的展示。

此外，Flume集群中的各节点用于对数据进行同步写入处理，其通过多个节点，如Node1（节点1）、Node2（节点2）、Node3（节点3）实现对配置的多个作业进行数据同步处理，保证数据处理的高可靠性，同时具有可扩展性。

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。

步骤(4)：作为目标存储，接收步骤(3)写入请求并处理。

在步骤(4)中，当前支持的存储有南大通用的分析型数据库(Gbase)、Hadoop体系的分析型存储（Kudu、Hive、Hdfs），用以接收步骤(3)写入请求并处理；借助于上述步骤（3）中的数据传输服务可有效提供交互式分析、实时分析的支撑能力，满足海量数据实时分析场景需求。

结合上述实施例一所描述的Kudu同步作业配置的内容，以下对上述步骤（1）进行举例说明：其对应上述步骤（1）。

第一、针对oracle开启归档日志，ogg配置，例如可配置JSON半结构化数据格式，特别需要说明的是，需要配置主键信息。

在ogg配置完成后，检查Kafka消息队列中是否有数据，根据数据接入范围，目标端Kudu建库、用户以及相关表结构。

此外，登录数据传输服务单元，触发作业管理子单元，在可视化界面中新增传输通道，并在传输通道中配置数据映射表，通常一个通道配置一张表。当然，在数据需要初始化的时候，可以选择数据回放时间进行增量数据回放。

若需要选择传输通道的高级配置，则可添加函数表达式。

在配置完成后，检查配置的是否可以正常启动，若可以正常启动，则确定配置完成。

第二、核查Kudu相关表是否已有数据入库，此时可在任务概括子单元中在SQL计算任务中进行新增，以便后续可以核查Kudu相关表记录与源业务系统相关表记录数，ogg复制进程中相关表的记录数进行比对。

本实施例的方法将Kafka消息队列的数据实时、可靠、高效同步至数据库中，目标数据源支持Gbase、Kudu、Hiver等存储介质，构建高性能、可扩展、高可用的实时数据传输通道。进而，可以其他电力系统的跨平台流式数据准实时同步提供了技术依据，实时同步监控手段的应用，可为今后实时数据同步性能、数据完成性提供借鉴；为业务系统增量数据准实时同步电网大数据分布式存储，以及后续交互式分析、实时分析处理提供了基础条件。

如图3所示，图3示出了本发明一实施例提供的多源异构增量数据同步系统的结构示意图；在本实施例中，多源异构增量数据同步系统可包括：

偏移量存储单元，如Hbase数据库，所述偏移量存储单元用于连接目标数据源和分布式消息队列Kafka，在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储，使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量，根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据。

在图4中，分布式消息队列Kafka缓存的数据经由Flume集群的各节点根据预先配置的存储策略进行通道选择，选择合适的子通道进而将流式数据写入目标数据源中。特别地，预先配置的存储策略中可有特殊配置时，通过拦截器进行特殊配置处理，再由Flume集群的各节点根据预先配置的存储策略进行通道选择。

此外，在图4中的分步式H-V数据库可存储偏移量offset，以使分布式消息队列Kafka实时更新，实现了offset持久化的断点续传机制、通道channel反压机制，解决作业/组件服务异常、目标端写入较慢等不稳定问题。

本实施例中的数据传输服务单元可具有链路稳定性、数据看可靠性、且支持历史数据迁移时增量数据回放、保证数据一致性，同时，支持一收多发，kafka消息队列数据同时同步到多种数据库中，以及支持节点的故障容灾，可实现链路的快速恢复即秒级恢复。

在图4中偏移量offset跟数据可同时持久化，如使用一张offset表来记录提交的offset，实时数据传输服务可采用高并发随机读写的K-V数据库Hbase来记录。

在本实施例中，数据传输服务单元可包括：

结合图2所示的流程图，针对数据传输服务单元可用于将Kafka消息队列数据实时、可靠、高效同步到目标数据库中，以构建安全、扩展、高可用的数据架构。

在其他实施例中，目标数据源为Hbase、Kudu时这些存储介质，可实现另一套事务机制，当写入目标端发生错误时，调用重写实时数据传输服务的事务回滚，并将批量模式转为逐条输入模式，脏数据做额外处理。

本实施例中的数据传输服务单元在数据同步过程中，可监控同步作业运行状态和入库的数据量，如图5和图6所示。例如，可以借助数据服务单元中作业监控子单元的状态指示标识即图表库查看某一作业同步时的运行状态和入库的数据量。

在一种可选的实现方式中，数据传输服务单元还包括作业管理子单元，当用户触发作业管理子单元后，可向用户展示可视化图表，以使用户清楚查看当前所有配置作业的运行状态，作业耗费资源情况，出错作业次数等全盘作业监控信息等。

该作业管理子单元，可用于提供同步任务的全生命周期管理功能，例如可以新增、修改、删除、启动、暂停、停止等任务操作，保证数据同步日常开发。

例如，用户在可视界面触发新增按钮，在弹出子界面中选择作业模式，并填写作业名称、源端数据源和目标端数据源的配置信息，进而触发下一步，实现新增作业。

在第二种可选的实现方式中，数据传输服务单元还包括作业维护子单元，当用户触发作业维护子单元后，可向用户展示用于进行传输通道配置的可视化界面，如图7所示，或者展示另一个传输通道配置的另一可视化界面。举例来说，在可视化界面配置时，可选择开启事务，记录数据的消费位点，实现数据强一致性，或者选择拦截处理类并填上函数表达式可实现字段转换、字符串截取、数据过滤等功能。

在第三种可选的实现方式中，数据传输服务单元还包括作业同步单元，该作业同步单元可为数据源间一对一单表映射，在本实施例中暂无提供多表映射，本实施例不对其限定，根据实际需要在作业同步单元中进行映射关系的配置。

在本实施例中，在同步作业配置完成之后，可以在作业启动前对该作业进行预检查，以验证配置或映射均无错误，在启动作业后，实时监听Kafka消息数据，将Kafka消息数据写入目标端数据库中。

在第四种可选的实现方式中，数据传输服务单元中的调度与监控服务子单元可为应用web程序的后台服务，前台用户配置的作业任务通过调度服务提交到Flume集群执行；监控服务定时收集运行作业的指标信息，支撑作业管理子单元中作业监控的展示。

此外，Flume集群对应的是开源的数据同步处理过程，其通过多个节点，如Node1、Node2、Node3实现对配置的多个作业进行数据同步处理。

为此，本实施例中的数据传输服务单元可具有下述的特性：

高可靠性：依赖消费偏移量offset持久化的断点续传机制、通道（channel）反压机制；解决作业/组件服务异常、目标端写入较慢等不稳定问题；

高扩展性：当接入的表数量增多时，对应的Kafka主题、分区增加时，可通过简单增加实时接入进程，以及扩充Flume集群中的Node节点来达到横向扩容；

数据一致性方案：实时数据传输服务采用的是高并发随机读写的K-V数据库Hbase来记录，其作为消费偏移量（offset）的持久化存储。只有当数据成功写入目标存储后，才提交消费偏移量持久化，如果同步任务异常中止则从上次提交的消费偏移量开始消费，保证数据不丢失。另外一类输出端，不具备多行事务性能力，类似像Hbase、Kudu，这些存储介质，需要另外实现一套事务机制，当写入目标端发生错误时，调用重写实时数据传输服务的事务回滚，并将批量模式转为逐条输入模式，脏数据做额外处理。

此外，本实施例中Flume集群的节点可以扩展，实现了分步式系统扩展的特点，也为数据流量削峰、数据处理解耦、一次写入多次订阅等提供支撑能力。进一步地，数据传输服务单元在接入的表数量增多时，对应的kafka主题、分区增加时，可通过简单增加实时接入进程，以及扩充flume node节点来达到横向扩容。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种多源异构增量数据同步方法，其特征在于，包括：

采用源端数据对应的数据复制工具获取至少一个源端的增量流式数据；包括：

否则，将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析，获取该源端的增量流式数据，并调用格式转换工具将获取的增量流式数据的格式转换为JSON半结构化数据格式；

将获取的每一个源端的增量流式数据在分布式消息队列Kafka中同步并缓存；

在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储，使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量，根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据；分步式消息队列Kafka中每一队列中的每一数据均为一个同步任务，数据传输服务中可视化展示所有同步任务的执行概况、执行时长和/或监控指标；

其中，存储策略为预先在所述数据传输服务单元中配置的用于对增量流式数据进行存储的信息；

在获取至少一个源端的增量流式数据之前，所述方法包括：

配置源端数据对应的数据复制工具；

配置数据复制工具处理的数据格式为JSON半结构化数据格式；

配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据，且在该传输通道中配置用于Kafka队列的数据映射表，该数据映射表用于将源端增量流式数据写入目标数据源中；

还包括：

根据用户输入的查看指令，向用户展示当前同步任务/同步作业的可视化图表，所述可视化图表包括：资源占用信息、每一任务/作业的运行状态、错误次数；

和/或，接收用户输入的配置指令，对每一任务/作业进行配置操作；

2.根据权利要求1所述的多源异构增量数据同步方法，其特征在于，所述目标数据源支持的存储介质包括下述的一种或多种：

3.根据权利要求1所述的多源异构增量数据同步方法，其特征在于：

源端为Oracle时，源端对应的数据复制工具为ogg；

源端为MySQL时，源端对应的数据复制工具为Canal。

4.根据权利要求1所述的多源异构增量数据同步方法，其特征在于，

所述操作类型包括：新增、修改和/或删除。

5.一种多源异构增量数据同步系统，其特征在于，包括：

增量流式数据获取单元，用于配置源端数据对应的数据复制工具；配置数据复制工具处理的数据格式为JSON半结构化数据格式；包括：

若是，则执行采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析，获取该源端的增量流式数据；

否则，将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析，获取该源端的增量流式数据，并调用格式转换工具对获取的增量流式数据的格式转换为JSON半结构化数据格式；

配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据，且在该传输通道中配置用于Kafka队列的数据映射表，该数据映射表用于将源端增量流式数据写入目标数据源中，采用源端数据对应的数据复制工具获取至少一个源端的增量流式数据；

缓存单元，用于将增量流式数据获取单元获取的增量流式数据在分布式消息队列Kafka中同步并缓存；

偏移量存储单元，用于在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储，使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量，根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据；分步式消息队列Kafka中每一队列中的每一数据均为一个同步任务，数据传输服务中可视化展示所有同步任务的执行概况、执行时长和/或监控指标；

在获取至少一个源端的增量流式数据之前，所述同步系统包括：

配置源端数据对应的数据复制工具；

配置数据复制工具处理的数据格式为JSON半结构化数据格式；

还包括：

6.根据权利要求5所述的多源异构增量数据同步系统，其特征在于，数据传输服务单元包括：

其中，所述Flume集群属于数据传输服务单元的底层，作业管理子单元、作业监控子单元和任务概括子单元均属于数据传输服务单元的应用层，所述调度与监控服务子单元连接所述应用层和底层。