CN115378937A - 任务的分布式并发方法、装置、设备和可读存储介质 - Google Patents

任务的分布式并发方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN115378937A
CN115378937A CN202210957779.0A CN202210957779A CN115378937A CN 115378937 A CN115378937 A CN 115378937A CN 202210957779 A CN202210957779 A CN 202210957779A CN 115378937 A CN115378937 A CN 115378937A
Authority
CN
China
Prior art keywords
splitting
data
etl model
transmitted
etl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210957779.0A
Other languages
English (en)
Other versions
CN115378937B (zh
Inventor
姚宏宇
朱朝强
赵明飞
刘冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD
Original Assignee
BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD filed Critical BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD
Priority to CN202210957779.0A priority Critical patent/CN115378937B/zh
Publication of CN115378937A publication Critical patent/CN115378937A/zh
Application granted granted Critical
Publication of CN115378937B publication Critical patent/CN115378937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了任务的分布式并发方法、装置、设备和计算机可读存储介质。所述方法包括获取待传输的数据;通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。基于不同运行环境,对ETL模型进行垂直、水平和/或混合拆分,从而实现多节点、分布式、跨网络域的传输。以此方式,解决了数据不能跨地域和网络域进行传输和交换的问题,同时提升了传输性能。

Description

任务的分布式并发方法、装置、设备和可读存储介质
技术领域
本申请的实施例涉及数据处理领域,尤其涉及任务的分布式并发方法、装置、设备和计算机可读存储介质。
背景技术
为了解决数据孤岛、数据烟囱的问题,达到数据汇聚传输和异构系统之间的数据交换需求,市面上企业解决这些问题通常使用ETL工具进行数据的归集或交换。
但是一般情况下,ETL任务是运行在单个机器上的,在某些特定场景,如跨地域和网络域进行传输和交换,传统ETL工具并不能满足场景要求。且,单机性能有限,需要提升效能和突破性能瓶颈。
发明内容
根据本申请的实施例,提供了一种任务的分布式并发方案。
在本申请的第一方面,提供了一种任务的分布式并发方法。该方法包括:
获取待传输的数据;
通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
进一步地,通过如下方法对所述ETL模型进行拆分:
其中,所述ETL模型包括数据源、源适配器、转换器、目标适配器和数据目标;
若数据源和数据目标均设置了跨域运行,且选择了不同的指定ETR条件,则对所述ETL模型进行垂直拆分;
若设置了数据源切分,且运行模式为单节点,则对所述ETL模型进行水平拆分;
若同时满足水平拆分和垂直拆分的条件,则对所述ETL模型进行混合拆分。
进一步地,所述对所述ETL模型进行垂直拆分包括:
将源适配器、转换器和Distribute Output合并为一个ETM,部署在第一个ETR;
将Distribute Input和目标适配器合并为一个ETM,部署在第二个ETR。
进一步地,还包括:
所述第一个ETR中的数据,通过RPC远程调用到所述第二个ETR。
进一步地,所述对所述ETL模型进行水平拆分包括:
通过预设规则对数据源进行切分,得到源适配器的输入条件;
对所述输入条件进行区间值拆分、固定值拆分、字段值拆分和/或分区表拆分;
根据拆分结果,构建ETM。
进一步地,还包括:
若设置了清空表操作,则将清空表操作单独提取成独立任务,并串行于分片任务之前。
进一步地,所述对所述ETL模型进行混合拆分包括:
基于垂直拆分和水平拆分的特征,对所述ETL模型进行拆分;
基于群组算法选取主节点,通过所述主节点对拆分后的ETL模型的其它节点进行状态变更、控制和/或数据发送。
在本申请的第二方面,提供了一种任务的分布式并发装置。该装置包括:
获取模块,用于获取待传输的数据;
处理模块,用于通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。
本申请实施例提供的任务的分布式并发方法,通过获取待传输的数据;通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中,实现了在保证多个(分布式)任务运行的结果,同单节点任务运行结果一致的场景下的对单个任务的切分,提升了传输性能。
应当理解,发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本申请的实施例提供的方法所涉及的系统架构图;
图2示出了根据本申请的实施例的任务的分布式并发方法的流程图;
图3示出了根据本申请的实施例的垂直拆分示意图;
图4示出了根据本申请的实施例的水平拆分示意图;
图5示出了根据本申请的实施例的混合拆分示意图;
图6示出了根据本申请的实施例的任务的分布式并发装置的方框图;
图7示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
名词解析:
ETR:ECHO Task Runtime任务运行时环境;
ETM:ECHO Task Metadata任务元数据。
图1示出了可以应用本申请的任务的分布式并发方法或任务的分布式并发装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如模型训练类应用、视频识别类应用、网页浏览器应用、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
当终端101、102、103为硬件时,其上还可以安装有视频采集设备。视频采集设备可以是各种能实现采集视频功能的设备,如摄像头、传感器等等。用户可以利用终端101、102、103上的视频采集设备来采集视频。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的数据处理的后台服务器。后台服务器可以对接收到的数据进行分析等处理,并可以将处理结果(例如识别结果)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。特别地,在目标数据不需要从远程获取的情况下,上述系统架构可以不包括网络,而只包括终端设备或服务器。
如图2所示,是本申请实施例的任务的分布式并发方法的流程图。从图2中可以看出,本实施例的任务的分布式并发方法,包括以下步骤:
S210,获取待传输的数据。
在本实施例中,用于任务的分布式并发方法的执行主体(例如图1所示的服务器)可以通过有线方式或者无线连接的方式获取待传输的数据。
进一步地,上述执行主体可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的待传输的数据,也可以是预先存储于本地的待传输的数据。
S220,通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
其中,所述ETL模型用于,将待传输的数据经过抽取(Extract)、转换(Transform)、加载(Load)至数据目标。
进一步地,所述ETL模型包括数据源、源适配器、转换器、目标适配器和数据目标;
所述数据源为,对所述待传输的数据进行抽取获得的数据;
所述ETL模型,根据数据源和数据目标的类型,可包括一个或多个转换器。
在一些实施例中,可根据如下原则对所述ETL模型进行拆分:
若数据源和数据目标均设置了跨域运行,且选择了不同的指定ETR(任务运行时)条件,则对所述ETL模型进行垂直拆分;
若设置了数据源切分,且运行模式为单节点,则对所述ETL模型进行水平拆分;
若同时满足水平拆分和垂直拆分的条件,则对所述ETL模型进行混合拆分。
在一些实施例中,对所述ETL模型进行垂直拆分包括:
参考图3,当数据源和数据目标都设置了跨域运行,并且选择了不同的指定ETR(任务运行时)条件(不同的机器IP、不同的机器tag)时,可以以该模式切分运行。对应的运行模式为P2P(点对点)跨域模式。拆分后,若干子任务组成了一个任务,需要同时调度和并发协同运行。
具体地,如图3所示,拆分前,源适配器+转换器+目标适配器构成一个ETM(任务元数据)任务,运行在一个ETR(任务运行时)中。继续参考图3,垂直拆分后,将源适配器、转换器和Distribute Output合并为一个ETM(任务元数据),命名为T1,部署在第一个ETR(任务运行时);将Distribute Input和目标适配器合并为一个ETM(任务元数据),命名为T2,部署在第二个ETR(任务运行时)。即,T1、T2可分别运行在两个不同的ETR(任务运行时)中,其中间可以为跨网络/地域的。
进一步地,垂直拆分后,在T1和T2间加入数据RPC(Remote Procedure Call-远程过程调用)发送/接收步骤,将拆分前的内存队列,替换为RPC调用和远程队列。
进一步地,运行方式为,任务初始化循序为T2,T1,即逆序初始化(运行顺序可忽略)。运行时:T1的适配器读取数据,经过内存传递,流转过转换器进行计算,将数据传入Distribute Output,Distribute Output将进行数据打包和压缩、加密,通过RPC(远程过程调用),发送到T2的Distribute Input。T2的Distribute Input收到数据后通过内存发送到目标适配器,最终写入到数据目标中。
进一步地,可通过队满降速、空包探测和/或超时重试等方式,对数据进行监控(优化);接收端可通过消息幂等、异步回执和/或超时退出等方式,对数据进行监控(优化)。
通过本公开的垂直拆分方法,从物理逻辑上,可以扩展单节点性能瓶颈,从网络逻辑上,当数据源和数据目标均指定了运行节点时,可以进行跨网络传输。
在一些实施例中,对所述ETL模型进行水平拆分包括:
水平拆分的目的在于,在不影响最终运行结果的前提下,提升任务的并发度,提高运行效率。因此,在拆分时需要做到数据全覆盖,且平均分布。即,针对数据源进行统一切分,利用数据源的读入条件进行分片消费,例如,原始SQL(SELECT`id`,`name`,`remark`,`pid`,`order_idx`,`update_time`,`driver_class`FROM`e_desi_ds_type_2`),切分后SQL a:select*from(原始sql)where rownum%2=0,SQL b:select*from(原始sql)whererownum%2=1(将原始SQL进行了2等分)。
具体地,根据数据源的属性,即数据源所包括的字段,对所述数据源进行拆分,得到源适配器的输入条件,例如,对所述数据源拆分后,得到字段(输入条件):SELECT`id`,`name`,`remark`,`pid`,`order_idx`,`update_time`,`driver_class`FROM`e_desi_ds_type_2`等。
进一步地,对所述输入条件,进行区间值拆分、固定值拆分、字段值拆分和/或分区表拆分;
其中,区间值拆分包括拆分日期、数值字段,拆分后用between and覆盖组成不同的分组。例如:id的区间为:1-60,对其进行拆分,则可分成:id>=1and id<30;id>=30andid<60。
固定值拆分,等同于一般作用于值域比较少的枚举字段。如:sex=1;and sex=2。
字段值拆分,即拆分数值字段,一般用在自增主键上。利用数据库的取模函数进行分组。如:MOD(id,2)=0,MOD(id,2)=1。
分区表拆分,作用于分区表,按当前数据库的分区数和分区设置进行拆分。
如图4所示,基于拆分后的数据,构建多个ETM,所述ETM可并行运行。
在一些实施例中,水平拆分时,若设置了清空表操作,则将清空表操作单独提取成独立任务,并串行于分片任务之前。否则每份子任务都清空表,会导致丢失已写入的数据。实际切分后运行顺序为清空表->清空表完成后->各分片任务并行调起。
在一些实施例中,对所述ETL模型进行混合拆分包括:
若同时满足水平拆分和垂直拆分的条件,则对所述ETL模型进行混合拆分,混合拆分可以同时满足垂直拆分和水平拆分功能。即在有效的网络环境内,进行任意份的数据分发,在网络传输中进行数据分片。即,相当于在垂直拆分时,再加上水平拆分,将原本的单个数据源节点和单个数据目标节点均换为多份,即份数由1*1变成了n*m,在运行时加入群组通讯算法,将2节点状态一致变为到n+m份的协同一致。
具体地,混合拆分后的任务运行模式对应分布式运行模式,分布式模式使用了群组通讯算法,用以保证全局事务一致性,对应的角色数为:源节点n份、目标节点m份,在运行时,利用群组算法推选出主节点,由主节点做集群控制,控制其他节点进行状态变更、数据发送等一系列操作。
参考图5,除源步骤可以拆分外,转换器和数据目标也可以指定任意份分片数,由分布式运行模式统一分发数据和进行分片。
根据本公开的实施例,实现了以下技术效果:
通过本公开的垂直任务拆分方法,能够有效利用网络以及环境特性,完成分布式跨域任务交换;
通过本公开的水平任务拆分方法,能够有效提升原有任务的并行度,达到数据源的最大读取速度,以及数据目标的最大写入速度;
通过本公开的混合任务拆分方法,除能够实现上述功能外,还能够打破单点瓶颈,提升总体性能;达到最大网络带宽,提升传输效能。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图6示出了根据本申请的实施例的任务的分布式并发装置600的方框图,如图6所示,装置600包括:
获取模块610,用于获取待传输的数据;
处理模块620,用于通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提出了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述任务的分布式并发方法。
此外,本申请实施例还提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的任务的分布式并发方法。
下面参考图7,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统包括中央处理单元(CPU)701,其可以基于存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也基于需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,基于需要安装在驱动器710上,以便于从其上读出的计算机程序基于需要被安装入存储部分708。
特别地,基于本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取待传输的数据;通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种任务的分布式并发方法,其特征在于,包括:
获取待传输的数据;
通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
2.根据权利要求1所述的方法,其特征在于,通过如下方法对所述ETL模型进行拆分:
其中,所述ETL模型包括数据源、源适配器、转换器、目标适配器和数据目标;
若数据源和数据目标均设置了跨域运行,且选择了不同的指定ETR条件,则对所述ETL模型进行垂直拆分;
若设置了数据源切分,且运行模式为单节点,则对所述ETL模型进行水平拆分;
若同时满足水平拆分和垂直拆分的条件,则对所述ETL模型进行混合拆分。
3.根据权利要求2所述的方法,其特征在于,所述对所述ETL模型进行垂直拆分包括:
将源适配器、转换器和Distribute Output合并为一个ETM,部署在第一个ETR;
将DistributeInput和目标适配器合并为一个ETM,部署在第二个ETR。
4.根据权利要求3所述的方法,其特征在于,还包括:
所述第一个ETR中的数据,通过RPC远程调用到所述第二个ETR。
5.根据权利要求2所述的方法,其特征在于,所述对所述ETL模型进行水平拆分包括:
通过预设规则对数据源进行切分,得到源适配器的输入条件;
对所述输入条件进行区间值拆分、固定值拆分、字段值拆分和/或分区表拆分;
根据拆分结果,构建ETM。
6.根据权利要求5所述的方法,其特征在于,还包括:
若设置了清空表操作,则将清空表操作单独提取成独立任务,并串行于分片任务之前。
7.根据权利要求2所述的方法,其特征在于,所述对所述ETL模型进行混合拆分包括:
基于垂直拆分和水平拆分的特征,对所述ETL模型进行拆分;
基于群组算法选取主节点,通过所述主节点对拆分后的ETL模型的其它节点进行状态变更、控制和/或数据发送。
8.一种任务的分布式并发装置,其特征在于,包括:
获取模块,用于获取待传输的数据;
处理模块,用于通过已拆分的ETL模型,将所述待传输的数据写入到数据目标中。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN202210957779.0A 2022-08-10 2022-08-10 任务的分布式并发方法、装置、设备和可读存储介质 Active CN115378937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210957779.0A CN115378937B (zh) 2022-08-10 2022-08-10 任务的分布式并发方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210957779.0A CN115378937B (zh) 2022-08-10 2022-08-10 任务的分布式并发方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN115378937A true CN115378937A (zh) 2022-11-22
CN115378937B CN115378937B (zh) 2023-04-18

Family

ID=84065323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210957779.0A Active CN115378937B (zh) 2022-08-10 2022-08-10 任务的分布式并发方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN115378937B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117537786A (zh) * 2024-01-09 2024-02-09 中国海洋大学 用于深海潜水器的多传感器快速接驳方法及装置、系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826100A (zh) * 2010-03-16 2010-09-08 中国测绘科学研究院 面向广域网的多源应急信息自动整合系统及方法
CN110309022A (zh) * 2019-05-22 2019-10-08 平安银行股份有限公司 模拟交易测试的方法、模拟器、设备及存储介质
CN111400012A (zh) * 2020-03-20 2020-07-10 中国建设银行股份有限公司 数据并行处理方法、装置、设备及存储介质
CN112506869A (zh) * 2020-12-08 2021-03-16 中国邮政储蓄银行股份有限公司 文件处理方法、装置及系统
CN114780214A (zh) * 2022-04-01 2022-07-22 中国电信股份有限公司 任务处理方法、装置、系统及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826100A (zh) * 2010-03-16 2010-09-08 中国测绘科学研究院 面向广域网的多源应急信息自动整合系统及方法
CN110309022A (zh) * 2019-05-22 2019-10-08 平安银行股份有限公司 模拟交易测试的方法、模拟器、设备及存储介质
CN111400012A (zh) * 2020-03-20 2020-07-10 中国建设银行股份有限公司 数据并行处理方法、装置、设备及存储介质
CN112506869A (zh) * 2020-12-08 2021-03-16 中国邮政储蓄银行股份有限公司 文件处理方法、装置及系统
CN114780214A (zh) * 2022-04-01 2022-07-22 中国电信股份有限公司 任务处理方法、装置、系统及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117537786A (zh) * 2024-01-09 2024-02-09 中国海洋大学 用于深海潜水器的多传感器快速接驳方法及装置、系统
CN117537786B (zh) * 2024-01-09 2024-04-26 中国海洋大学 用于深海潜水器的多传感器快速接驳方法及装置、系统

Also Published As

Publication number Publication date
CN115378937B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US20210216875A1 (en) Method and apparatus for training deep learning model
US11755452B2 (en) Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system
CN108920222B (zh) 一种基于规则引擎的业务处理方法和装置
CN112069265B (zh) 配置数据的同步方法、业务数据系统、计算机系统和介质
CN105071976B (zh) 数据传输方法和装置
CN109145023B (zh) 用于处理数据的方法和装置
US20210326762A1 (en) Apparatus and method for distributed model training, device, and computer readable storage medium
CN106155811B (zh) 资源服务装置、资源调度方法和装置
US20230405455A1 (en) Method and apparatus for processing cloud gaming resource data, computer device, and storage medium
CN110673959A (zh) 用于处理任务的系统、方法和装置
JP7285945B2 (ja) クラウドサービスのための方法、装置、および、コンピュータプログラム
CN115378937B (zh) 任务的分布式并发方法、装置、设备和可读存储介质
CN111435315A (zh) 分配资源的方法、装置、设备和计算机可读介质
CN115361382B (zh) 基于数据群组的数据处理方法、装置、设备和存储介质
CN116932147A (zh) 流式作业处理方法、装置、电子设备及介质
KR20210042992A (ko) 딥러닝 모델을 트레이닝하는 방법 및 장치
CN113672671A (zh) 一种实现数据加工的方法和装置
CN115454666A (zh) 消息队列集群间的数据同步方法和装置
CN110955461A (zh) 计算任务的处理方法、装置、系统、服务器和存储介质
CN115840648A (zh) 一种仿真任务的处理方法、装置及电子设备
CN113596164B (zh) 数据访问方法、装置、系统、设备和介质
CN114896244A (zh) 配置数据库表的方法、装置、设备和计算机可读介质
CN112187916A (zh) 一种跨系统的数据同步方法与装置
CN114513548B (zh) 定向调用信息处理方法及装置
CN110750316A (zh) 处理内部任务或输入事件的方法和应用程序架构系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant