CN113918238A - 一种基于Flink的异构数据源同步方法及装置 - Google Patents

一种基于Flink的异构数据源同步方法及装置 Download PDF

Info

Publication number
CN113918238A
CN113918238A CN202111135603.9A CN202111135603A CN113918238A CN 113918238 A CN113918238 A CN 113918238A CN 202111135603 A CN202111135603 A CN 202111135603A CN 113918238 A CN113918238 A CN 113918238A
Authority
CN
China
Prior art keywords
data
plug
flink
source
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111135603.9A
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unihub China Information Technology Co Ltd
Zhongying Youchuang Information Technology Co Ltd
Original Assignee
Unihub China Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unihub China Information Technology Co Ltd filed Critical Unihub China Information Technology Co Ltd
Priority to CN202111135603.9A priority Critical patent/CN113918238A/zh
Publication of CN113918238A publication Critical patent/CN113918238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45579I/O management, e.g. providing access to device drivers or storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开一种基于Flink的异构数据源同步方法及装置,其中,该方法包括:根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;系统将加载到的服务提交到Flink计算集群中执行数据同步任务。一种基于Flink的异构数据源同步方法及装置根据现有的数据源和目标源,将不同的数据源读取抽象为不同的数据源Source插件,以及向目标端写入数据的Sink插件,可以很方便的根据不同数据源需要使用不同的插件,同时依靠flink的并发读写能力大幅度提高系统的读写速度,提高系统的处理速度和可靠性。

Description

一种基于Flink的异构数据源同步方法及装置
技术领域
本发明涉及数据源领域,尤其是一种基于Flink的异构数据源同步方法及装置。
背景技术
现有的数据存储在不同的存储介质中,包括mysql、elasticsearch、redis等存储介质,一般涉及数据同步的需求,都需要安排开发人员或者是运维人员手动同步数据,尤其是在某些场景下运维人员无法同步数据,需要占用开发人员去实现同步任务,这种情况很占用开发人员是时间和精力,而且同步大都是单机实现,不能够有效保障数据同步的高效性和稳定性,这就导致了数据同步缓慢并且不够稳定,数据同步过程中容易出现同步任务失败或同步数据不完整等情况。
发明内容
根据现有的数据源和目标源,将不同的数据源读取抽象为不同的数据源Source插件,以及向目标端写入数据的Sink插件,可以很方便的根据不同数据源需要使用不同的插件,同时依靠flink的并发读写能力大幅度提高系统的读写速度,提高系统的处理速度和可靠性。
为实现上述目的,本发明采用下述技术方案:
在本发明一实施例中,提出了一种基于Flink的异构数据源同步方法,该方法包括:
S01、根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;
S02、根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;
S03、系统将加载到的服务提交到Flink计算集群中执行数据同步任务。
进一步地,所述S01包括:
S011、根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件;
S012、调用大数据计算引擎Flink的流处理环境上下文,将自定义读取插件绑定到Flink的source读取函数;
S013、通过输入格式化接口获取数据源的开始、读取分片、关闭的方法;
S014、对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。
进一步地,所述S02包括:
S021、根据输出目的对象编写相关输出Sink插件,编写输出数据源规则和配置文件;
S022、调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数;
S023、通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法,通过这些方法可以实现数据的并发输出效果;
S024、数据输出完毕后调用结束方法实现数据输出的关闭操作。
进一步地,所述S03利用Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
进一步地,该方法可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。
在本发明一实施例中,还提出了一种基于Flink的异构数据源同步装置,该装置包括:
Source插件模块,根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;
Sink插件模块,根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;
数据同步模块,系统将加载到的服务提交到Flink计算集群中执行数据同步任务。
进一步地,所述Source插件模块包括:
Source插件读取模块,根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件;
Source插件绑定模块,调用大数据计算引擎Flink的流处理环境上下文,将自定义读取插件绑定到Flink的source读取函数;
Source插件获取模块,通过输入格式化接口获取数据源的开始、读取分片、关闭的方法;
Source插件结束模块,对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。
进一步地,所述Sink插件模块包括:
Sink插件编写模块,根据输出目的对象编写相关输出Sink插件,编写输出数据源规则和配置文件;
Sink插件绑定模块,调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数;
Sink插件获取模块,通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法,通过这些方法可以实现数据的并发输出效果;
Sink插件结束模块,数据输出完毕后调用结束方法实现数据输出的关闭操作。
进一步地,所述数据同步模块利用Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
进一步地,该装置可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。
在本发明一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述基于Flink的异构数据源同步方法。
在本发明一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介质存储有执行基于Flink的异构数据源同步方法的计算机程序。
有益效果:
1.将自定义插件和Flink并发读取能力整合起来,实现大数据量的增量同步和离线数据同步。
2.实现单机及集群灵活配置,多种模式运行。
3.提高数据同步的高可用性,保证服务的高可用,执行任务由集群自动保证某个节点挂掉后能够自动分配其他节点运行。
附图说明
图1是本发明一实施例的基于Flink的异构数据源同步方法流程示意图;
图2是本发明一实施例的基于Flink的异构数据源同步装置结构示意图;
图3是本发明一实施例的计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神,应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种基于Flink的异构数据源同步方法及装置,根据现有的数据源和目标源,将不同的数据源读取抽象为不同的数据源Source插件,以及向目标端写入数据的Sink插件,可以很方便的根据不同数据源需要使用不同的插件,同时依靠flink的并发读写能力大幅度提高系统的读写速度,提高系统的处理速度和可靠性。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
涉及名词解释:
Flink:实时流计算引擎;
Sink:目标输出管道;
Source:数据源头;
流处理环境上下文:StreamExecutionEnvironment;
输入格式化接口:RichInutFormat接口;
Standalone集群:主从模式集群;
Yarn:Hadoop资源管理器;
OutputFormat:输出格式化器。
图1是本发明一实施例的基于Flink的异构数据源同步方法流程示意图。如图1所示,包括:
S01、根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;
S02、根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;
S03、系统将加载到的服务提交到Flink计算集群中执行数据同步任务。
S01包括:
S011、根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件;
S012、调用大数据计算引擎Flink的流处理环境上下文,将自定义读取插件绑定到Flink的source读取函数;
S013、通过输入格式化接口获取数据源的开始、读取分片、关闭的方法;
S014、对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。
S02包括:
S021、根据输出目的对象编写相关输出Sink插件,编写输出数据源规则和配置文件;
S022、调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数;
S023、通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法,通过这些方法可以实现数据的并发输出效果;
S024、数据输出完毕后调用结束方法实现数据输出的关闭操作。
S03利用Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
该方法可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。以上各种模式都是支持可配置;最后实现自定义灵活插件,结合Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了对上述基于Flink的异构数据源同步方法进行更为清楚的解释,下面结合一个具体的实施例来进行说明,然而值得注意的是该实施例仅是为了更好地说明本发明,并不构成对本发明不当的限定。
实施例一:
实现数据库mysql到elasticsearch的异构数据同步,配置reader和writer相关配置如下:
Figure BDA0003282248950000081
Figure BDA0003282248950000091
Figure BDA0003282248950000101
首先:根据配置文件,确定SourceReader类型,以MsqlReader为例;根据路配置中的UserName、Password、Url等数据库链接信息,构建数据库读取的相关配置,并解析读取配置中的表名称和列名称;根据这些配置构建数据输入源SourceReader;
第二步:根据配置文件,确定Sink类型。以ElasticSearchSink为例,包括目的IP地址,目的索引,用户名和密码;并根据配置中的索引名称列名称等相关信息;根据这些配置构建数据输出源SinkWriter,输出数据源需要继承实现Flink的OutputFormat主要是做数据格式化操作。
进一步将程序运行在Local本地或Yarn集群环境下;
最后结合Flink的并发特性实现数据的并发抽取转换写入等功能。
基于同一发明构思,本发明还提出一种基于Flink的异构数据源同步装置。该装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是本发明一实施例的基于Flink的异构数据源同步装置结构示意图。如图2所示,该装置包括:
Source插件模块110,根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;
Sink插件模块120,根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;
数据同步模块130,系统将加载到的服务提交到Flink计算集群中执行数据同步任务。
Source插件模块110包括:
Source插件读取模块,根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件;
Source插件绑定模块,调用大数据计算引擎Flink的流处理环境上下文,将自定义读取插件绑定到Flink的source读取函数;
Source插件获取模块,通过输入格式化接口获取数据源的开始、读取分片、关闭的方法;
Source插件结束模块,对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。
Sink插件模块120包括:
Sink插件编写模块,根据输出目的对象编写相关输出Sink插件,编写输出数据源规则和配置文件;
Sink插件绑定模块,调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数;
Sink插件获取模块,通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法,通过这些方法可以实现数据的并发输出效果;
Sink插件结束模块,数据输出完毕后调用结束方法实现数据输出的关闭操作。
数据同步模块130利用Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
该装置可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。
应当注意,尽管在上文详细描述中提及了基于Flink的异构数据源同步装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
基于前述发明构思,如图3所示,本发明还提出一种计算机设备200,包括存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序230,处理器220执行计算机程序230时实现前述基于Flink的异构数据源同步方法。
基于前述发明构思,本发明还提出一种计算机可读存储介质,计算机可读存储介质存储有执行前述基于Flink的异构数据源同步方法的计算机程序。
本发明提出的基于Flink的异构数据源同步方法及装置,具有如下有益效果:
1.将自定义插件和Flink并发读取能力整合起来,实现大数据量的增量同步和离线数据同步。
2.实现单机及集群灵活配置,多种模式运行。
3.提高数据同步的高可用性,保证服务的高可用,执行任务由集群自动保证某个节点挂掉后能够自动分配其他节点运行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包含的各种修改和等同布置。
对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (12)

1.一种基于Flink的异构数据源同步方法,其特征在于,该方法包括:
S01、根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;
S02、根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;
S03、系统将加载到的服务提交到Flink计算集群中执行数据同步任务。
2.根据权利要求1所述的基于Flink的异构数据源同步方法,其特征在于,所述S01包括:
S011、根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件;
S012、调用大数据计算引擎Flink的流处理环境上下文,将自定义读取插件绑定到Flink的source读取函数;
S013、通过输入格式化接口获取数据源的开始、读取分片、关闭的方法;
S014、对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。
3.根据权利要求1所述的基于Flink的异构数据源同步方法,其特征在于,所述S02包括:
S021、根据输出目的对象编写相关输出Sink插件,编写输出数据源规则和配置文件;
S022、调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数;
S023、通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法,通过这些方法可以实现数据的并发输出效果;
S024、数据输出完毕后调用结束方法实现数据输出的关闭操作。
4.根据权利要求1所述的基于Flink的异构数据源同步方法,其特征在于,所述S03利用Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
5.根据权利要求1所述的基于Flink的异构数据源同步方法,其特征在于,该方法可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。
6.一种基于Flink的异构数据源同步装置,其特征在于,该装置包括:
Source插件模块,根据用户编写的Source插件配置文件,初始化Source插件,加载对应jar包中的类文件到JVM虚拟机上;
Sink插件模块,根据用户编写的Sink数据配置文件,初始化Sink插件,加载相应的jar包中的类文件到JVM虚拟机上;
数据同步模块,系统将加载到的服务提交到Flink计算集群中执行数据同步任务。
7.根据权利要求6所述的基于Flink的异构数据源同步装置,其特征在于,所述Source插件模块包括:
Source插件读取模块,根据数据源编写相关读取Source数据插件,编写读取数据源规则和配置文件;
Source插件绑定模块,调用大数据计算引擎Flink的流处理环境上下文,将自定义读取插件绑定到Flink的source读取函数;
Source插件获取模块,通过输入格式化接口获取数据源的开始、读取分片、关闭的方法;
Source插件结束模块,对数据进行获取封装达到并行读取的效果,数据读取完毕后调用关闭的方法结束数据读取。
8.根据权利要求6所述的基于Flink的异构数据源同步装置,其特征在于,所述Sink插件模块包括:
Sink插件编写模块,根据输出目的对象编写相关输出Sink插件,编写输出数据源规则和配置文件;
Sink插件绑定模块,调用Flink的流处理环境上下文将自定义输出插件绑定到Flink的Sink输出函数;
Sink插件获取模块,通过实现RichOutputFormat接口可以实现目的数据源的开始、读取分片、关闭的方法,通过这些方法可以实现数据的并发输出效果;
Sink插件结束模块,数据输出完毕后调用结束方法实现数据输出的关闭操作。
9.根据权利要求6所述的基于Flink的异构数据源同步装置,其特征在于,所述数据同步模块利用Flink处理数据的并发能力,实现不同数据源的实时和离线同步功能。
10.根据权利要求6所述的基于Flink的异构数据源同步装置,其特征在于,该装置可配置包括但不限于Local本地模式、Standalone集群、Yarn集群模式。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1-5任一项所述方法的计算机程序。
CN202111135603.9A 2021-09-27 2021-09-27 一种基于Flink的异构数据源同步方法及装置 Pending CN113918238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111135603.9A CN113918238A (zh) 2021-09-27 2021-09-27 一种基于Flink的异构数据源同步方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111135603.9A CN113918238A (zh) 2021-09-27 2021-09-27 一种基于Flink的异构数据源同步方法及装置

Publications (1)

Publication Number Publication Date
CN113918238A true CN113918238A (zh) 2022-01-11

Family

ID=79236327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111135603.9A Pending CN113918238A (zh) 2021-09-27 2021-09-27 一种基于Flink的异构数据源同步方法及装置

Country Status (1)

Country Link
CN (1) CN113918238A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756586A (zh) * 2022-11-25 2023-03-07 中电金信软件有限公司 Flink作业的执行方法、装置、计算机设备和存储介质
CN116893860A (zh) * 2023-07-20 2023-10-17 杭州玳数科技有限公司 一种将Chunjun同步任务中不同版本数据源进行隔离的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145055A (zh) * 2018-09-07 2019-01-04 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN110569090A (zh) * 2018-06-05 2019-12-13 中移(苏州)软件技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110837585A (zh) * 2019-11-07 2020-02-25 中盈优创资讯科技有限公司 多源异构的数据关联查询方法及系统
CN110851513A (zh) * 2019-10-16 2020-02-28 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN111031123A (zh) * 2019-12-10 2020-04-17 中盈优创资讯科技有限公司 Spark任务的提交方法、系统、客户端及服务端
CN112015816A (zh) * 2020-08-27 2020-12-01 北京字节跳动网络技术有限公司 数据同步方法、装置、介质及电子设备
CN112506960A (zh) * 2020-12-17 2021-03-16 青岛以萨数据技术有限公司 基于ArangoDB引擎的多模型数据存储方法及系统
CN113268530A (zh) * 2020-02-17 2021-08-17 浙江大搜车软件技术有限公司 海量异构数据采集方法、系统、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569090A (zh) * 2018-06-05 2019-12-13 中移(苏州)软件技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109145055A (zh) * 2018-09-07 2019-01-04 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN110851513A (zh) * 2019-10-16 2020-02-28 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN110837585A (zh) * 2019-11-07 2020-02-25 中盈优创资讯科技有限公司 多源异构的数据关联查询方法及系统
CN111031123A (zh) * 2019-12-10 2020-04-17 中盈优创资讯科技有限公司 Spark任务的提交方法、系统、客户端及服务端
CN113268530A (zh) * 2020-02-17 2021-08-17 浙江大搜车软件技术有限公司 海量异构数据采集方法、系统、计算机设备和存储介质
CN112015816A (zh) * 2020-08-27 2020-12-01 北京字节跳动网络技术有限公司 数据同步方法、装置、介质及电子设备
CN112506960A (zh) * 2020-12-17 2021-03-16 青岛以萨数据技术有限公司 基于ArangoDB引擎的多模型数据存储方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756586A (zh) * 2022-11-25 2023-03-07 中电金信软件有限公司 Flink作业的执行方法、装置、计算机设备和存储介质
CN115756586B (zh) * 2022-11-25 2024-01-19 中电金信软件有限公司 Flink作业的执行方法、装置、计算机设备和存储介质
CN116893860A (zh) * 2023-07-20 2023-10-17 杭州玳数科技有限公司 一种将Chunjun同步任务中不同版本数据源进行隔离的方法
CN116893860B (zh) * 2023-07-20 2024-05-10 杭州玳数科技有限公司 一种将Chunjun同步任务中不同版本数据源进行隔离的方法

Similar Documents

Publication Publication Date Title
CN106897322B (zh) 一种数据库和文件系统的访问方法和装置
US8984516B2 (en) System and method for shared execution of mixed data flows
CN113918238A (zh) 一种基于Flink的异构数据源同步方法及装置
JP2017507426A (ja) 半構造データスキーマのトランスペアレントディスカバリ
US11461140B2 (en) Systems and methods for controller-worker architecture for searching a storage system
CN111966631A (zh) 一种可快速分发的镜像文件生成方法、系统、设备和介质
CN111159235A (zh) 数据预分区方法、装置、电子设备及可读存储介质
CN111984436A (zh) 一种数据采集系统
JPWO2014192867A1 (ja) 分散処理システム、分散処理装置、分散処理方法および分散処理プログラム
CN115629844A (zh) 一种虚拟机迁移方法、系统、设备及存储介质
CN112163038A (zh) 跨集群数据同步方法、装置、设备及存储介质
EP3887959A1 (en) Indexing and searching a time-travel trace for arbitrary length/arbitrary alignment values
US10031764B2 (en) Managing executable files
CN109271456A (zh) 主机数据库文件导出方法及装置
CN115114370B (zh) 主从数据库的同步方法、装置、电子设备和存储介质
US10133713B2 (en) Domain specific representation of document text for accelerated natural language processing
US10262000B1 (en) Global distributed file append using log-structured file system
CN103577604B (zh) 一种用于Hadoop分布式环境的图像索引结构
Kamatar et al. Lazy python dependency management in large-scale systems
CN113434608A (zh) Hive数据仓库的数据处理方法及装置
CN114547206A (zh) 一种数据同步方法和数据同步系统
CN112231409A (zh) 数据库同步的初始化装载方法、装置、设备和存储介质
CN110851077A (zh) Logstash的数据处理装置及方法
Park Improving the performance of HDFS by reducing I/O using adaptable I/O system
CN118519859B (zh) 驱动程序信息获取方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination