CN109145055B - 一种基于Flink的数据同步方法和系统 - Google Patents

一种基于Flink的数据同步方法和系统 Download PDF

Info

Publication number
CN109145055B
CN109145055B CN201811042029.0A CN201811042029A CN109145055B CN 109145055 B CN109145055 B CN 109145055B CN 201811042029 A CN201811042029 A CN 201811042029A CN 109145055 B CN109145055 B CN 109145055B
Authority
CN
China
Prior art keywords
data synchronization
plug
flink
configuration information
datastream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811042029.0A
Other languages
English (en)
Other versions
CN109145055A (zh
Inventor
胡一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Daishu Technology Co ltd
Original Assignee
Hangzhou Daishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Daishu Technology Co ltd filed Critical Hangzhou Daishu Technology Co ltd
Priority to CN201811042029.0A priority Critical patent/CN109145055B/zh
Publication of CN109145055A publication Critical patent/CN109145055A/zh
Application granted granted Critical
Publication of CN109145055B publication Critical patent/CN109145055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种基于Flink的数据同步方法和系统,其中方法包括:数据同步核心模块获取Flink执行环境,从数据同步任务配置信息中找到源数据库任务配置信息,并找到Reader插件的名称,根据Reader插件的名称加载对应的Reader插件;从数据同步任务配置信息中找到目的数据库任务配置信息,并找到Writer插件名称,根据Writer插件名称加载对应的Writer插件;被加载的Reader插件获取源数据库对应的DataStream对象;被加载的Writer插件将DataStream对象与目的数据库相关联;数据同步核心模块调用Flink执行环境的execute方法完成Flink任务的构造和提交。

Description

一种基于Flink的数据同步方法和系统
技术领域
本发明涉及大数据技术数据处理技术领域,尤其涉及一种基于Flink的数据同步方法和系统。
背景技术
数据同步就是将数据从源数据库迁移到目的数据库。这里所说的数据库既包括传统的关系型数据库,如MySQL、Oracle、SQLServer等,也包括分布式的非关系型数据库,如Hive、HDFS、HBase等,只要是按照一定格式存放数据的实体都可以被视为数据库。
目前现有的数据同步技术分为专用数据同步、通用数据同步和基于编程的数据同步三类。
专用数据同步:例如MySQL提供了从CSV文件导入MySQL表的命令行工具,开源工具Sqoop可以将完成HDFS和关系型数据库之间数据同步,但是无法完成关系型数据库之间的数据同步,也无法完成不同的HDFS文件系统之间的数据同步。因而传统的数据同步方法局限于特定的数据源,无法扩展支持新增数据源。
通用数据同步:阿里巴巴开源的数据同步工具DataX是一套可扩展的通用数据同步工具,可以支持多种数据源之间的数据同步,对于每种数据库的读写提供的插件,同时,用户可以根据需要编写新的插件,以支持其他类型的数据库的读写。但是,该工具只支持单机运行,无法分布式的执行,这样就不适用于大规模的数据迁移。
基于编程的数据同步:Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它主要由Java代码实现,具有吞吐量和低延迟的特性。利用Flink可以完成数据同步,但是必须借助编程实现Flink任务,非专业人员难以掌握。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种基于Flink的数据同步方法和系统。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于Flink的数据同步方法,包括:数据同步核心模块获取Flink执行环境;数据同步核心模块从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到Reader插件的名称,根据Reader插件的名称加载对应的Reader插件;数据同步核心模块从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到Writer插件名称,根据Writer插件名称加载对应的Writer插件;被加载的Reader插件获取源数据库对应的DataStream对象;被加载的Writer插件将DataStream对象与目的数据库相关联;数据同步核心模块调用Flink执行环境的execute方法完成Flink任务的构造和提交。
其中,被加载的Reader插件获取源数据库对应的DataStream对象包括:新建InputFormat实现类的对象;调用TypeExtractor的getInputFormatTypes方法,传入InputFormat实现类的对象作为参数,获得TypeInformation对象;调用InputFormatSourceFunction类的构造方法,传入InputFormat实现类的对象和TypeInformation对象作为构造方法的参数,获得InputFormatSourceFunction对象;调用StreamExecutionEnvironment对象的addSource方法,传入InputFormatSourceFunction对象和TypeInformation对象作为参数,获得DataStream对象。
其中,被加载的Writer插件将DataStream对象与目的数据库相关联包括:新建OutputFormat实现类的对象;调用OutputFormatSinkFunction类的构造方法,传入OutputFormat实现类的对象作为参数,获得OutputFormatSinkFunction对象;调用DataStream对象的addSink方法,传入OutputFormatSinkFunction对象作为参数,将DataStream对象与目的数据库进行关联。
其中,数据同步核心模块获取Flink执行环境包括:数据同步核心模块调用StreamExecutionEnvironment类的getExecutionEnvironment方法获取Flink执行环境,设置Flink执行环境的任务并发数taskNumber。
本发明另一方面提供了一种基于Flink的数据同步系统,包括:数据同步核心模块,用于获取Flink执行环境;从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到Reader插件的名称,根据Reader插件的名称加载对应的Reader插件;从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到Writer插件名称,根据Writer插件名称加载对应的Writer插件;被加载的Reader插件,用于获取源数据库对应的DataStream对象;被加载的Writer插件,用于将DataStream对象与目的数据库相关联;数据同步核心模块,还用于调用Flink执行环境的execute方法完成Flink任务的构造和提交。
其中,被加载的Reader插件通过如下方式获取源数据库对应的DataStream对象:被加载的Reader插件,还用于新建InputFormat实现类的对象;数据同步核心模块,还用于调用TypeExtractor的getInputFormatTypes方法,传入InputFormat实现类的对象作为参数,获得TypeInformation对象;调用InputFormatSourceFunction类的构造方法,传入InputFormat实现类的对象和TypeInformation对象作为构造方法的参数,获得InputFormatSourceFunction对象;调用StreamExecutionEnvironment对象的addSource方法,传入InputFormatSourceFunction对象和TypeInformation对象作为参数,获得DataStream对象。
其中,被加载的Writer插件通过如下方式将DataStream对象与目的数据库相关联:被加载的Writer插件,还用于新建OutputFormat实现类的对象;数据同步核心模块,还用于调用OutputFormatSinkFunction类的构造方法,传入OutputFormat实现类的对象作为参数,获得OutputFormatSinkFunction对象;调用DataStream对象的addSink方法,传入OutputFormatSinkFunction对象作为参数,将DataStream对象与目的数据库进行关联。
其中,数据同步核心模块通过如下方式获取Flink执行环境:数据同步核心模块,还用于调用StreamExecutionEnvironment类的getExecutionEnvironment方法获取Flink执行环境,设置Flink执行环境的任务并发数taskNumber。
由此可见,由用户提供数据同步任务的配置信息,通过本发明实施例提供的基于Flink的数据同步方法和系统,将所述配置信息转换为Flink任务并提交到Flink集群执行,从而无需用户编程即可完成数据同步,节约了开发和运维成本;同时,该方法很好地利用了Flink平台高吞吐量、低延迟和分布式的特性,提高了数据同步的执行效率和稳定性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于Flink的数据同步方法的流程图;
图2为本发明实施例提供的被加载的Reader插件获取源数据库对应的DataStream对象的流程图;
图3为本发明实施例提供的被加载的Writer插件将DataStream对象与目的数据库相关联的流程图;
图4为本发明实施例提供的基于Flink的数据同步系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的基于Flink的数据同步方法的流程图,参见图1,本发明实施例提供的基于Flink的数据同步方法,包括:
S101,数据同步核心模块获取Flink执行环境。
具体地,本发明所记载的数据同步核心模块、Writer插件和Reader插件都是在用于在Java虚拟机上执行的程序包,由于数据同步的Flink任务需要被提交到Flink集群上执行,需要在Flink集群的每个节点上部署数据同步核心模块、Writer插件和Reader插件。
数据同步核心模块,用于根据数据同步任务配置信息构造数据同步任务,并提交数据同步任务到Flink集群。
本发明实施例提供的基于Flink的数据同步的方法和系统中所涉及的DataStream、InputFormat、OutputFormat、TypeExtractor、TypeInformation、InputFormatSourceFunction和OutputFormatSinkFunction等均为开源Flink框架提供的类或接口。
作为本发明实施例的一个可选实施方式,数据同步核心模块获取Flink执行环境包括:数据同步核心模块调用StreamExecutionEnvironment类的getExecutionEnvironment方法获取Flink执行环境,设置Flink执行环境的任务并发数taskNumber。
S102,数据同步核心模块从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到Reader插件的名称,根据Reader插件的名称加载对应的Reader插件。
具体地,数据同步任务配置信息是用于描述数据同步任务的规格说明,包括源数据库配置信息、目的数据库配置信息等;源数据库配置包括源数据库类型、源数据库连接配置、字段列表等;目的数据库配置包括目的数据库类型、目的数据库连接配置、字段列表等。
Reader插件,用于从源数据库中获取DataStream对象;每个源数据库类型对应一个Reader插件,如果需要支持新的源数据库类型,则需要开发新的Reader插件。每个Reader插件都会定义一个InputFormat实现类,用于实现在Flink分布式计算模型中的InputFormat类中的configure方法、open方法、createInputSplits方法、getInputSplitAssigner方法、reachEnd方法、nextRecord方法和close方法。
S103,数据同步核心模块从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到Writer插件名称,根据Writer插件名称加载对应的Writer插件。
具体地,Writer插件,用于将目的数据库关联到DataStream对象;每个目的数据库类型对应一个Writer插件,如果需要支持新的目的数据库类型,则需要开发新的Writer插件;每个Writer插件都会定义一个OutputFormat实现类,用于实现在Flink分布式计算模型中的OutputFormat类中的configure方法、open方法、writeRecord方法和close方法。
S104,被加载的Reader插件获取源数据库对应的DataStream对象。
作为本发明实施例的一个可选实施方式,S104,被加载的Reader插件获取源数据库对应的DataStream对象包括:
S201,新建InputFormat实现类的对象;
S202,调用TypeExtractor的getInputFormatTypes方法,传入InputFormat实现类的对象作为参数,获得TypeInformation对象;
S203,调用InputFormatSourceFunction类的构造方法,传入InputFormat实现类的对象和TypeInformation对象作为构造方法的参数,获得InputFormatSourceFunction对象;
S204,调用StreamExecutionEnvironment对象的addSource方法,传入InputFormatSourceFunction对象和TypeInformation对象作为参数,获得DataStream对象。
S105,被加载的Writer插件将DataStream对象与目的数据库相关联。
作为本发明实施例的一个可选实施方式,被加载的Writer插件将DataStream对象与目的数据库相关联包括:
S301,新建OutputFormat实现类的对象;
S302,调用OutputFormatSinkFunction类的构造方法,传入OutputFormat实现类的对象作为参数,获得OutputFormatSinkFunction对象;
S303,调用DataStream对象的addSink方法,传入OutputFormatSinkFunction对象作为参数,将DataStream对象与目的数据库进行关联。
S106,数据同步核心模块调用Flink执行环境的execute方法完成Flink任务的构造和提交。
由此可见,由用户提供数据同步任务的配置信息,通过本发明实施例提供的基于Flink的数据同步方法,将所述配置信息转换为Flink任务并提交到Flink集群执行,从而无需用户编程即可完成数据同步,节约了开发和运维成本;同时,该方法很好地利用了Flink平台高吞吐量、低延迟和分布式的特性,提高了数据同步的执行效率和稳定性。
图4示出了本发明实施例提供的基于Flink的数据同步系统的结构示意图,该基于Flink的数据同步系统应用于上述方法,以下仅对基于Flink的数据同步系统的结构进行简单说明,其他未尽事宜,请参照上述基于Flink的数据同步方法中的相关描述,参见图4,本发明实施例提供的基于Flink的数据同步系统,包括:
数据同步核心模块101,用于获取Flink执行环境;从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到Reader插件的名称,根据Reader插件的名称加载对应的Reader插件;从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到Writer插件名称,根据Writer插件名称加载对应的Writer插件;
被加载的Reader插件102,用于获取源数据库对应的DataStream对象;
被加载的Writer插件103,用于将DataStream对象与目的数据库相关联;
数据同步核心模块104,还用于调用Flink执行环境的execute方法完成Flink任务的构造和提交。
作为本发明实施例的一个可选实施方式,被加载的Reader插件102通过如下方式获取源数据库对应的DataStream对象:被加载的Reader插件102,还用于新建InputFormat实现类的对象;数据同步核心模块101,还用于调用TypeExtractor的getInputFormatTypes方法,传入InputFormat实现类的对象作为参数,获得TypeInformation对象;调用InputFormatSourceFunction类的构造方法,传入InputFormat实现类的对象和TypeInformation对象作为构造方法的参数,获得InputFormatSourceFunction对象;调用StreamExecutionEnvironment对象的addSource方法,传入InputFormatSourceFunction对象和TypeInformation对象作为参数,获得DataStream对象。
作为本发明实施例的一个可选实施方式,被加载的Writer插件103通过如下方式将DataStream对象与目的数据库相关联:被加载的Writer插件103,还用于新建OutputFormat实现类的对象;数据同步核心模块101,还用于调用OutputFormatSinkFunction类的构造方法,传入OutputFormat实现类的对象作为参数,获得OutputFormatSinkFunction对象;调用DataStream对象的addSink方法,传入OutputFormatSinkFunction对象作为参数,将DataStream对象与目的数据库进行关联。
作为本发明实施例的一个可选实施方式,数据同步核心模块101通过如下方式获取Flink执行环境:数据同步核心模块101,还用于调用StreamExecutionEnvironment类的getExecutionEnvironment方法获取Flink执行环境,设置Flink执行环境的任务并发数taskNumber。
由此可见,由用户提供数据同步任务的配置信息,通过本发明实施例提供的基于Flink的数据同步系统,将所述配置信息转换为Flink任务并提交到Flink集群执行,从而无需用户编程即可完成数据同步,节约了开发和运维成本;同时,该方法很好地利用了Flink平台高吞吐量、低延迟和分布式的特性,提高了数据同步的执行效率和稳定性。
以下以一个具体实施例来描述本发明实施例提供的基于Flink的数据同步方法和系统,但本发明并不局限于此:
参照图1,本实施例中步骤S102-S103提到的数据同步任务配置信息可以使用JSON、XML、YAML等各种形式组织所述数据同步配置信息,在本实施例中,采用JSON格式的数据同步任务配置信息,描述了从MySQL到Ftp的数据同步任务,如下:
Figure BDA0001792341830000081
Figure BDA0001792341830000091
Figure BDA0001792341830000101
参考图2和图4,以上JSON中的Reader元素描述了Reader插件的基本信息;在本实施例中使用读取MySQL的Reader插件102,name指明了Reader插件102的名称,dbUrl、username、password分别指明了连接MySQL数据库的连接字符串URL、用户名、密码,table指明了读取的数据表,where指明了读取该数据表是应用的过滤条件,column指明了读取数据表中的哪些字段,splitKey指定了用于构造读取分片的拆分键;在本实施例中使用写入Ftp的Writer插件103,name指明了Writer插件103的名称,protocol、host、port、username、password分别指明了连接Ftp服务器的协议、主机名、端口号、用户名和密码,writeMode指明了写入模式(overwrite:覆盖,insert:插入),path指明了写入Ftp的文件路径,fieldDelimiter指明了写入Ftp的文本文件的每一条记录的列分割符,column指明了写入Ftp的文件的表头(其中,name表示字段名、type表示字段类型)。
参考图1、图2和图4,在本实施例中,步骤S102和步骤103中,数据同步核心模块101从数据同步任务配置信息中获取Reader插件102和Writer插件103的配置信息,获取Reader插件102和Writer插件103的名称,加载Reader插件102和Writer插件103的过程可以有多种方案,本实施例中提供其中较为简洁加载方案:数据同步核心模块维护了一张插件字典,字典的键为Reader插件或Writer插件的名称,字典的值为Reader插件或Writer插件的类,数据同步核心模块通过插件名称找到插件类,然后调用插件类的构造方法加载Reader或Writer插件。
参考图2,对于本实施例,用于读取MySQL的Reader插件102定义用于读取MySQL数据库的InputFormat实现类:createInputSplits方法用于生成分片,在实现createInputSplits方法时,利用Reader插件配置信息中提供的拆分键(splitKey)构造分片,例如如果拆分键为数值类型,而任务并发数为3,可以用拆分键对于任务并发数取模,构造形如“id mod3==taskNumber”的过滤条件作为分片的内容,其中taskNumber代表子任务编号;getInputSplitAssigner方法用于获取分片分配器,在实现getInputSplitAssigner时,使用Flink开源框架自带的DefaultInputSplitAssigner;open方法时用于读取分片,在实现该方法时,利用Reader插件配置信息中提供的dbUrl、username、password建立针对MySQL数据的连接,然后利用传入open方法的InputSplit参数,从中提取分片的过滤条件,并将该过滤条件于Reader插件配置信息中提供的where过滤条件组合,再结合Reader插件配置信息中提供的字段信息和数据表名,最终形成读取该分片的SQL语句,如下:
SELECT C1,C2,C3FROM TB1 WHERE ID>100AND ID MOD 3==taskNumber
执行上述SQL语句,查询结果在ResultSet对象中;reachedEnd方法用于判断该ResultSet对象是否已经读取结束;实现nextRecord方法从ResultSet中获取下一条记录,实现close方法关闭数据库连接;configuration方法无需提供任何操作,getStatistics方法直接返回空即可。
参考图2和图4,对于本实施例,用于写入Ftp的Writer插件102定义用于向Ftp服务器写入文本文件的OutputFormat实现类:在实现configure方法时,利用Writer插件配置信息提供的protocol、host、port、username和password建立Ftp服务器的连接;在实现open方法时,将Writer插件提供的path和当前任务编号拼接,生成输出文件的路径/xxx/taskNumber.csv,从所述建立Ftp服务器的连接中获取向指定路径写入文本的输出流对象,并利用Writer插件配置信息中提供的column信息输出表头,如下:
c1,c2,c3
在实现writeRecord方法时,提取参数Row对象中的每一个字段,利用Writer插件配置信息中提供的fieldDelimiter,将每个字段结合起来,构成如下的输出记录:
3333,string1,string2
在实现close方法时,关闭与Ftp服务器的连接。
参考图1、图3,步骤S104可以详细划分为步骤S201-S204;参考图1、图4,步骤S105可以详细划分为步骤S301-S303;本实施例构造的数据同步任务执行结束后,会Ftp服务器的/xxx路径下形成三个csv文件,每个子任务对应一个文件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (2)

1.一种基于Flink的数据同步方法,其特征在于,包括:
数据同步核心模块获取Flink执行环境;
所述数据同步核心模块从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到Reader插件的名称,根据所述Reader插件的名称加载对应的Reader插件;
所述数据同步核心模块从所述数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到Writer插件名称,根据所述Writer插件名称加载对应的Writer插件;
被加载的Reader插件获取源数据库对应的DataStream对象;
被加载的Writer插件将DataStream对象与目的数据库相关联;
所述数据同步核心模块调用所述Flink执行环境的execute方法完成Flink任务的构造和提交;
其中:
所述被加载的Reader插件获取源数据库对应的DataStream对象包括:
新建InputFormat实现类的对象;
调用TypeExtractor的getInputFormatTypes方法,传入所述InputFormat实现类的对象作为参数,获得TypeInformation对象;
调用InputFormatSourceFunction类的构造方法,传入所述InputFormat实现类的对象和所述TypeInformation对象作为构造方法的参数,获得InputFormatSourceFunction对象;
调用StreamExecutionEnvironment对象的addSource方法,传入所述InputFormatSourceFunction对象和所述TypeInformation对象作为参数,获得DataStream对象;
所述被加载的Writer插件将DataStream对象与目的数据库相关联包括:
新建OutputFormat实现类的对象;
调用OutputFormatSinkFunction类的构造方法,传入所述OutputFormat实现类的对象作为参数,获得OutputFormatSinkFunction对象;
调用所述DataStream对象的addSink方法,传入所述OutputFormatSinkFunction对象作为参数,将所述DataStream对象与目的数据库进行关联;
所述数据同步核心模块获取Flink执行环境包括:
所述数据同步核心模块调用StreamExecutionEnvironment类的getExecutionEnvironment方法获取Flink执行环境,设置所述Flink执行环境的任务并发数taskNumber。
2.一种基于Flink的数据同步系统,其特征在于,包括:
数据同步核心模块,用于获取Flink执行环境;从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到Reader插件的名称,根据所述Reader插件的名称加载对应的Reader插件;从所述数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到Writer插件名称,根据所述Writer插件名称加载对应的Writer插件;
被加载的Reader插件,用于获取源数据库对应的DataStream对象;
被加载的Writer插件,用于将DataStream对象与目的数据库相关联;
所述数据同步核心模块,还用于调用所述Flink执行环境的execute方法完成Flink任务的构造和提交;
其中:所述被加载的Reader插件通过如下方式获取源数据库对应的DataStream对象:
所述被加载的Reader插件,还用于新建InputFormat实现类的对象;
所述数据同步核心模块,还用于调用TypeExtractor的getInputFormatTypes方法,传入所述InputFormat实现类的对象作为参数,获得TypeInformation对象;调用InputFormatSourceFunction类的构造方法,传入所述InputFormat实现类的对象和所述TypeInformation对象作为构造方法的参数,获得InputFormatSourceFunction对象;调用StreamExecutionEnvironment对象的addSource方法,传入所述InputFormatSourceFunction对象和所述TypeInformation对象作为参数,获得DataStream对象;
所述被加载的Writer插件通过如下方式将DataStream对象与目的数据库相关联:
所述被加载的Writer插件,还用于新建OutputFormat实现类的对象;
所述数据同步核心模块,还用于调用OutputFormatSinkFunction类的构造方法,传入所述OutputFormat实现类的对象作为参数,获得OutputFormatSinkFunction对象;调用所述DataStream对象的addSink方法,传入所述OutputFormatSinkFunction对象作为参数,将所述DataStream对象与目的数据库进行关联;
所述数据同步核心模块通过如下方式获取Flink执行环境:
所述数据同步核心模块,还用于调用StreamExecutionEnvironment类的getExecutionEnvironment方法获取Flink执行环境,设置所述Flink执行环境的任务并发数taskNumber。
CN201811042029.0A 2018-09-07 2018-09-07 一种基于Flink的数据同步方法和系统 Active CN109145055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811042029.0A CN109145055B (zh) 2018-09-07 2018-09-07 一种基于Flink的数据同步方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811042029.0A CN109145055B (zh) 2018-09-07 2018-09-07 一种基于Flink的数据同步方法和系统

Publications (2)

Publication Number Publication Date
CN109145055A CN109145055A (zh) 2019-01-04
CN109145055B true CN109145055B (zh) 2020-10-30

Family

ID=64827583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811042029.0A Active CN109145055B (zh) 2018-09-07 2018-09-07 一种基于Flink的数据同步方法和系统

Country Status (1)

Country Link
CN (1) CN109145055B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468177A (zh) * 2021-07-06 2021-10-01 杭州玳数科技有限公司 数据构建方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209700B (zh) * 2019-05-24 2021-11-26 北京奇艺世纪科技有限公司 一种数据流关联方法、装置、电子设备及存储介质
CN111061798B (zh) * 2019-12-23 2024-03-08 杭州雷数科技有限公司 可配置化数据传输及监控方法、设备及介质
CN111382203A (zh) * 2020-02-27 2020-07-07 深圳震有科技股份有限公司 一种基于插件的数据同步方法、装置及存储介质
CN113282404A (zh) * 2021-04-07 2021-08-20 广州汇通国信科技有限公司 基于分布式调度的数据关联整合方法及系统
CN113918238A (zh) * 2021-09-27 2022-01-11 中盈优创资讯科技有限公司 一种基于Flink的异构数据源同步方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943841A (zh) * 2017-10-30 2018-04-20 深圳前海微众银行股份有限公司 流式数据处理方法、系统和计算机可读存储介质
CN108519914A (zh) * 2018-04-09 2018-09-11 腾讯科技(深圳)有限公司 大数据计算方法、系统和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943841A (zh) * 2017-10-30 2018-04-20 深圳前海微众银行股份有限公司 流式数据处理方法、系统和计算机可读存储介质
CN108519914A (zh) * 2018-04-09 2018-09-11 腾讯科技(深圳)有限公司 大数据计算方法、系统和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于flink的分布式同步工具;whiletrue;《云栖社区》;20180702;第1-2页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468177A (zh) * 2021-07-06 2021-10-01 杭州玳数科技有限公司 数据构建方法

Also Published As

Publication number Publication date
CN109145055A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145055B (zh) 一种基于Flink的数据同步方法和系统
EP3353672B1 (en) Method and apparatus for transferring data between databases
US10482154B2 (en) Distributed processing of data records
CN104462269A (zh) 一种异构数据库数据交换方法及系统
TW201530328A (zh) 爲半結構化資料構建NoSQL資料庫索引的方法及裝置
CN110297869B (zh) 一种ai数据仓库平台及操作方法
CN114780641B (zh) 多库多表同步方法、装置、计算机设备和存储介质
CN110019111B (zh) 数据处理方法、装置、存储介质以及处理器
CN112163048A (zh) 基于ClickHouse实现OLAP分析的方法、装置
US11704114B2 (en) Data structures for managing configuration versions of cloud-based applications
CN114077602A (zh) 数据迁移方法和装置、电子设备、存储介质
CN115599764A (zh) 一种表格数据的迁移方法、设备及介质
US11966732B2 (en) Data structures for managing configuration versions of cloud-based applications
CN109828964B (zh) 一种数据导入方法、装置及电子设备
CN114297204A (zh) 一种异构数据源的数据存储、检索方法及装置
CN105630778A (zh) 数据库数据迁移方法及系统
CN117033492A (zh) 数据导入方法、装置、存储介质及电子设备
US9537941B2 (en) Method and system for verifying quality of server
US10146791B2 (en) Open file rebalance
CN116150236A (zh) 数据同步方法及装置、电子设备、计算机可读存储介质
CN114547206A (zh) 一种数据同步方法和数据同步系统
CN114281818A (zh) 数据处理方法、装置、服务器和存储介质
CN108228604B (zh) 基于内存对象的模型构建方法、信息查询方法及装置
WO2022108599A1 (en) Data processing independent of storage, format or schema
CN110019507B (zh) 数据同步的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 311121 room 102-1 / F, room 102-2 / F, building 6, Haizhi center, 2301 yuhangtang Road, Cangqian street, Yuhang District, Hangzhou, Zhejiang Province

Patentee after: HANGZHOU DAISHU TECHNOLOGY Co.,Ltd.

Address before: 310030 8F, building 2, Hangzhou Internet innovation and entrepreneurship Park, 176 Zixia street, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU DAISHU TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder