CN113918238A

CN113918238A - 一种基于Flink的异构数据源同步方法及装置

Info

Publication number: CN113918238A
Application number: CN202111135603.9A
Authority: CN
Inventors: 王磊
Original assignee: Unihub China Information Technology Co Ltd
Current assignee: Unihub China Information Technology Co Ltd; Zhongying Youchuang Information Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-11

Abstract

本发明公开一种基于Flink的异构数据源同步方法及装置，其中，该方法包括：根据用户编写的Source插件配置文件，初始化Source插件，加载对应jar包中的类文件到JVM虚拟机上；根据用户编写的Sink数据配置文件，初始化Sink插件，加载相应的jar包中的类文件到JVM虚拟机上；系统将加载到的服务提交到Flink计算集群中执行数据同步任务。一种基于Flink的异构数据源同步方法及装置根据现有的数据源和目标源，将不同的数据源读取抽象为不同的数据源Source插件，以及向目标端写入数据的Sink插件，可以很方便的根据不同数据源需要使用不同的插件，同时依靠flink的并发读写能力大幅度提高系统的读写速度，提高系统的处理速度和可靠性。

Description

一种基于Flink的异构数据源同步方法及装置

技术领域

本发明涉及数据源领域，尤其是一种基于Flink的异构数据源同步方法及装置。

背景技术

现有的数据存储在不同的存储介质中，包括mysql、elasticsearch、redis等存储介质，一般涉及数据同步的需求，都需要安排开发人员或者是运维人员手动同步数据，尤其是在某些场景下运维人员无法同步数据，需要占用开发人员去实现同步任务，这种情况很占用开发人员是时间和精力，而且同步大都是单机实现，不能够有效保障数据同步的高效性和稳定性，这就导致了数据同步缓慢并且不够稳定,数据同步过程中容易出现同步任务失败或同步数据不完整等情况。

发明内容

根据现有的数据源和目标源，将不同的数据源读取抽象为不同的数据源Source插件，以及向目标端写入数据的Sink插件，可以很方便的根据不同数据源需要使用不同的插件，同时依靠flink的并发读写能力大幅度提高系统的读写速度，提高系统的处理速度和可靠性。

为实现上述目的，本发明采用下述技术方案：

在本发明一实施例中，提出了一种基于Flink的异构数据源同步方法，该方法包括：

S01、根据用户编写的Source插件配置文件，初始化Source插件，加载对应jar包中的类文件到JVM虚拟机上；

S02、根据用户编写的Sink数据配置文件，初始化Sink插件，加载相应的jar包中的类文件到JVM虚拟机上；

S03、系统将加载到的服务提交到Flink计算集群中执行数据同步任务。

进一步地，所述S01包括：

S011、根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件；

S012、调用大数据计算引擎Flink的流处理环境上下文，将自定义读取插件绑定到Flink的source读取函数；

S013、通过输入格式化接口获取数据源的开始、读取分片、关闭的方法；

S014、对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。

进一步地，所述S02包括：

S021、根据输出目的对象编写相关输出Sink插件，编写输出数据源规则和配置文件；

S022、调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数；

S023、通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法，通过这些方法可以实现数据的并发输出效果；

S024、数据输出完毕后调用结束方法实现数据输出的关闭操作。

进一步地，所述S03利用Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

进一步地，该方法可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。

在本发明一实施例中，还提出了一种基于Flink的异构数据源同步装置，该装置包括：

Source插件模块，根据用户编写的Source插件配置文件，初始化Source插件，加载对应jar包中的类文件到JVM虚拟机上；

Sink插件模块，根据用户编写的Sink数据配置文件，初始化Sink插件，加载相应的jar包中的类文件到JVM虚拟机上；

数据同步模块，系统将加载到的服务提交到Flink计算集群中执行数据同步任务。

进一步地，所述Source插件模块包括：

Source插件读取模块，根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件；

Source插件绑定模块，调用大数据计算引擎Flink的流处理环境上下文，将自定义读取插件绑定到Flink的source读取函数；

Source插件获取模块，通过输入格式化接口获取数据源的开始、读取分片、关闭的方法；

Source插件结束模块，对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。

进一步地，所述Sink插件模块包括：

Sink插件编写模块，根据输出目的对象编写相关输出Sink插件，编写输出数据源规则和配置文件；

Sink插件绑定模块，调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数；

Sink插件获取模块，通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法，通过这些方法可以实现数据的并发输出效果；

Sink插件结束模块，数据输出完毕后调用结束方法实现数据输出的关闭操作。

进一步地，所述数据同步模块利用Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

进一步地，该装置可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。

在本发明一实施例中，还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现前述基于Flink的异构数据源同步方法。

在本发明一实施例中，还提出了一种计算机可读存储介质，计算机可读存储介质存储有执行基于Flink的异构数据源同步方法的计算机程序。

有益效果：

1.将自定义插件和Flink并发读取能力整合起来，实现大数据量的增量同步和离线数据同步。

2.实现单机及集群灵活配置,多种模式运行。

3.提高数据同步的高可用性,保证服务的高可用,执行任务由集群自动保证某个节点挂掉后能够自动分配其他节点运行。

附图说明

图1是本发明一实施例的基于Flink的异构数据源同步方法流程示意图；

图2是本发明一实施例的基于Flink的异构数据源同步装置结构示意图；

图3是本发明一实施例的计算机设备结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神，应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于Flink的异构数据源同步方法及装置，根据现有的数据源和目标源，将不同的数据源读取抽象为不同的数据源Source插件，以及向目标端写入数据的Sink插件，可以很方便的根据不同数据源需要使用不同的插件，同时依靠flink的并发读写能力大幅度提高系统的读写速度，提高系统的处理速度和可靠性。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

涉及名词解释：

Flink：实时流计算引擎；

Sink：目标输出管道；

Source：数据源头；

流处理环境上下文：StreamExecutionEnvironment；

输入格式化接口：RichInutFormat接口；

Standalone集群：主从模式集群；

Yarn：Hadoop资源管理器；

OutputFormat：输出格式化器。

图1是本发明一实施例的基于Flink的异构数据源同步方法流程示意图。如图1所示，包括：

S01包括：

S02包括：

S03利用Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

该方法可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。以上各种模式都是支持可配置；最后实现自定义灵活插件,结合Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

需要说明的是，尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

为了对上述基于Flink的异构数据源同步方法进行更为清楚的解释，下面结合一个具体的实施例来进行说明，然而值得注意的是该实施例仅是为了更好地说明本发明，并不构成对本发明不当的限定。

实施例一：

实现数据库mysql到elasticsearch的异构数据同步，配置reader和writer相关配置如下：

首先：根据配置文件，确定SourceReader类型,以MsqlReader为例；根据路配置中的UserName、Password、Url等数据库链接信息，构建数据库读取的相关配置，并解析读取配置中的表名称和列名称；根据这些配置构建数据输入源SourceReader；

第二步：根据配置文件，确定Sink类型。以ElasticSearchSink为例，包括目的IP地址,目的索引,用户名和密码；并根据配置中的索引名称列名称等相关信息；根据这些配置构建数据输出源SinkWriter,输出数据源需要继承实现Flink的OutputFormat主要是做数据格式化操作。

进一步将程序运行在Local本地或Yarn集群环境下；

最后结合Flink的并发特性实现数据的并发抽取转换写入等功能。

基于同一发明构思，本发明还提出一种基于Flink的异构数据源同步装置。该装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的术语“模块”，可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是本发明一实施例的基于Flink的异构数据源同步装置结构示意图。如图2所示，该装置包括：

Source插件模块110，根据用户编写的Source插件配置文件，初始化Source插件，加载对应jar包中的类文件到JVM虚拟机上；

Sink插件模块120，根据用户编写的Sink数据配置文件，初始化Sink插件，加载相应的jar包中的类文件到JVM虚拟机上；

数据同步模块130，系统将加载到的服务提交到Flink计算集群中执行数据同步任务。

Source插件模块110包括：

Sink插件模块120包括：

数据同步模块130利用Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

该装置可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。

应当注意，尽管在上文详细描述中提及了基于Flink的异构数据源同步装置的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

基于前述发明构思，如图3所示，本发明还提出一种计算机设备200，包括存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序230，处理器220执行计算机程序230时实现前述基于Flink的异构数据源同步方法。

基于前述发明构思，本发明还提出一种计算机可读存储介质，计算机可读存储介质存储有执行前述基于Flink的异构数据源同步方法的计算机程序。

本发明提出的基于Flink的异构数据源同步方法及装置，具有如下有益效果：

2.实现单机及集群灵活配置,多种模式运行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包含的各种修改和等同布置。

对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于Flink的异构数据源同步方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于Flink的异构数据源同步方法，其特征在于，所述S01包括：

3.根据权利要求1所述的基于Flink的异构数据源同步方法，其特征在于，所述S02包括：

4.根据权利要求1所述的基于Flink的异构数据源同步方法，其特征在于，所述S03利用Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

5.根据权利要求1所述的基于Flink的异构数据源同步方法，其特征在于，该方法可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。

6.一种基于Flink的异构数据源同步装置，其特征在于，该装置包括：

7.根据权利要求6所述的基于Flink的异构数据源同步装置，其特征在于，所述Source插件模块包括：

8.根据权利要求6所述的基于Flink的异构数据源同步装置，其特征在于，所述Sink插件模块包括：

9.根据权利要求6所述的基于Flink的异构数据源同步装置，其特征在于，所述数据同步模块利用Flink处理数据的并发能力，实现不同数据源的实时和离线同步功能。

10.根据权利要求6所述的基于Flink的异构数据源同步装置，其特征在于，该装置可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1-5任一项所述方法的计算机程序。