CN117056068B

CN117056068B - ETL中JobEngine任务拆分方法

Info

Publication number: CN117056068B
Application number: CN202310988169.1A
Authority: CN
Inventors: 吴宝琪; 戴舒原; 张进; 张怡
Original assignee: Hangzhou Guanyuan Data Co ltd
Current assignee: Hangzhou Guanyuan Data Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2024-03-19
Anticipated expiration: 2043-08-08
Also published as: CN117056068A

Abstract

本申请涉及一种ETL中JobEngine任务拆分方法，在ETL算子图出口做一个拆分，复杂的图将被拆分成两个简单的子图，以达到临时缓存的效果，减小后续原始拓扑图中每个输出节点的计算压力，带来显著的性能提升。同时保证先处理临时输出节点，再处理临时输入节点的优先级处理顺序，让第二子图中的临时输入节点能够对临时输出节点的计算结果进行获知，了解第一子图已经处理了哪些ETL算子，能够让后续第二子图中的输出节点避免重复计算算子，避免因重复计算带来的性能消耗和成本。

Description

ETL中JobEngine任务拆分方法

技术领域

本公开涉及数据转换技术领域，尤其涉及一种ETL中JobEngine任务拆分方法、系统和电子设备。

背景技术

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

如附图1所示的ETL任务执行示意图，主要是指在ETL模块的JobEngine任务工厂中进行任务执行，但是主要还是需要依赖任务管理模块的任务管理。ETL任务的真正执行需要依托于ETL_COMBINED任务的提交、执行和完成，ETL_COMBINED任务又可以被拆解为多个ETL_OUTPUT任务(至少有一个)。

如附图2所示的ETL_COMBINED任务执行拓扑图，ETL_OUTPUT任务1、ETL_OUTPUT任务2和ETL_OUTPUT任务3，他们之间可以认为是父子任务的关系，每个ETL_OUTPUT任务都是在运行一个由一个ETL输出算子构建的运行脚本。在具体任务执行时，只有当所有ETLOUTPUT任务都执行成功，ETL Combined任务才算执行成功。ETL OUTPUT任务应当依次按序执行，如果任何一个ETL OUTPUT任务执行失败，则后续的任务都毋需再执行了，因为此时ETL Combined任务应当以失败处理。

然而，这里目前可能会存在一个如下显然的性能问题：

JobEngine脚本的生成基于输出数据集算子(DS_OUTPUT)，但不同的DS_OUTPUT算子的逻辑在前面的数据流网(由附图1中的ETL工厂将算子图中的算子转换为数据流网)中可能存在重叠，这样会导致ETL_OUTPUT任务之间会执行相同的脚本，白白消耗性能。尤其是当ETL算子所构建的网络越来越复杂时，下游的输出数据集算子需要每次都计算一遍上游的全部算子时(如附图3所示的输出节点C，需要重新计算一遍上游的ETL算子N)，这样的操作可能会非常昂贵，为企业带来较大的成本负担。

发明内容

为了解决上述问题，本申请提出一种ETL中JobEngine任务拆分方法、系统和电子设备。

本申请一方面，提出一种ETL中JobEngine任务拆分方法，包括如下步骤：

在ETL算子图的出口k处，产生一个用作缓存的临时输出节点和对应的临时输入节点；

根据所述临时输出节点和所述临时输入节点，对原始的ETL_COMBINED任务执行拓扑图进行拆分，分别生成所述ETL算子图的第一任务执行子图和第二任务执行子图；

设定任务执行优先级的管理规则：

所述第一任务执行子图的任务执行优先级优先于所述第二任务执行子图。

作为本申请的一可选实施方案，可选地，设定任务执行优先级的管理规则，包括：

定义每个以原始输出节点Om为唯一出口的网络为O(_Om)，O(x)为以输出数据集节点x生成网络的计算函数；

定义计算优先级的函数为Level(x)：

Level(O(_O1))＝…＝Level(O(om))，(1≤m≤N，N为全部的输出数据集节点的数量)；

定义拆分计算函数为D(x)，是以x的输入网络为基础进行一次节点拆分；

定义Level(D(O(om)为对O(_Om)进行一次拆分后的子网络的输出节点执行的优先级，保证：

Level(D(O(om)))>Level(O(_Om))。

作为本申请的一可选实施方案，可选地，在设定任务执行优先级的管理规则之后，还包括：

将所述任务执行优先级的管理规则配置并保存在任务管理模块上。

在所述第一任务执行子图中的所述临时输出节点，执行完毕对应的ETL_COMBINED任务之后，生成对应的第一子图执行结果；

将所述第一子图执行结果输入至所述第二任务执行子图；

由所述第二任务执行子图中的所述临时输入节点，接收所述第一子图执行结果，并对所述第一子图执行结果中已被计算过的ETL输出算子进行标记；

标记完毕，将ETL算子图上未标记的其余ETL输出算子，作为所述第二任务执行子图的ETL_COMBINED任务。

作为本申请的一可选实施方案，可选地，在得到所述第二任务执行子图的ETL_COMBINED任务之后，还包括：

在所述第二任务执行子图中，将其对应的ETL_COMBINED任务拆分为多个ETLOUTPUT任务；

将各个所述ETL OUTPUT任务分别发送至所述第二任务执行子图中的各个输出节点，由各个输出节点对各自分配的所述ETL OUTPUT任务进行运行。

作为本申请的一可选实施方案，可选地，在对原始的ETL_COMBINED任务执行拓扑图进行拆分之前，还包括：

计算所述ETL算子图的复杂图；

根据所述复杂图，确定原始的ETL_COMBINED任务执行拓扑图进行拆分的子图拆分数量；

将所述子图拆分数量保存在任务管理模块上。

本申请另一方面，提出一种实现所述ETL中JobEngine任务拆分方法的系统，包括：

临时节点配置模块，用于在ETL算子图的出口k处，产生一个用作缓存的临时输出节点和对应的临时输入节点；

拓扑图拆分模块，用于根据所述临时输出节点和所述临时输入节点，对原始的ETL_COMBINED任务执行拓扑图进行拆分，分别生成所述ETL算子图的第一任务执行子图和第二任务执行子图；

优先级设定模块，用于设定任务执行优先级的管理规则：

本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现所述的一种ETL中JobEngine任务拆分方法。

本发明的技术效果：

本申请通过在ETL算子图出口k处产生一个用作缓存的临时输出节点和对应的临时输入节点；根据所述临时输出节点和所述临时输入节点，对原始的ETL_COMBINED任务执行拓扑图进行拆分，分别生成所述ETL算子图的第一任务执行子图和第二任务执行子图；设定任务执行优先级的管理规则：所述第一任务执行子图的任务执行优先级优先于所述第二任务执行子图。在ETL算子图出口做一个拆分，复杂的图将被拆分成两个简单的子图，以达到临时缓存的效果。这样将大大减小后续原始拓扑图中每个输出节点的计算压力，带来显著的性能提升。同时保证先处理临时输出节点，再处理临时输入节点的优先级处理顺序，让第二子图中的临时输入节点能够对临时输出节点的计算结果进行获知，了解第一子图已经处理了哪些ETL算子，能够让后续第二子图中的输出节点避免重复计算算子，避免因重复计算带来的性能消耗和成本。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出为ETL任务执行示意图；

图2示出ETL_COMBINED任务执行拓扑图；

图3示出为本发明在ETL算子图的出口k处进行拓扑图拆分的示意图；

图4示出为本发明将原始的ETL_COMBINED任务执行拓扑图拆分为两个子图的拓扑结构示意图；

图5示出为本发明电子设备的应用示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

设定任务执行优先级的管理规则：

如附图1所示，本方案主要用于数据转换中的ETL算子图的任务拆分、执行。用户可以使用ETL模块提供的低代码方式，通过拖拽一些视图化的算子来构建一个计算过程，实现输入数据集到目标输出数据集的数据转换。算子图由一个或多个输入算子和至少一个输出算子构成，用户可以导出、导入、删除、保存或者修改算子图，以及管理算子图的计算时机，如级联触发、定时触发等等方式。

用户需要进行逻辑处理、执行的数据集，将在ETL模块中通过每个算子进行逻辑执行，算子执行过程中伴随对应的数据处理。

用户可以通过ETL模块提供的界面，选择需要转换的数据集，并通过拖拽算子的方式构建一个算子图，来实现数据转换的过程。算子图可以包含多个算子，每个算子都代表了一种数据转换操作，例如过滤、排序、聚合等等。用户可以根据自己的需求选择合适的算子来构建自己的算子图。

一旦用户构建好了自己的算子图，ETL模块会将这个计算过程转换为可执行的任务引擎通用脚本，并通过提交任务的方式在任务引擎中排队、调度和执行。用户可以管理算子图的计算时机，例如级联触发、定时触发等等方式，来满足自己的需求。

最终，ETL模块会生成一个或多个目标数据集，这些数据集可以被用户导出、导入、删除、保存或者修改。用户可以根据自己的需求对这些数据集进行进一步处理或者分析。

如附图3所示，在节点K(ETL算子图的出口)上做一个拆分，产生一个临时的输出作为缓存，这样将大大减小后续每个输出节点的计算压力。

在节点K进行拆分之后，会将附图2所示的原始的ETL_COMBINED任务执行拓扑图(由若干执行ETL算子图的输出节点构成的拓扑网络)进行拆分，形成两个子图：第一任务执行子图和第二任务执行子图。

本实施例中，可以把每个子图当成和之前一样处理，但此时需要注意，处理子图是有上下依赖的，也就是，必须保证先处理临时输出节点，然后再处理临时输入节点，否则再临时输入节点上获取不到输入的信息(很显然的结论)，也就是说，输出节点现在的处理顺序是必须要按照先临时输出节点，再临时输入节点的方式来顺序执行。

定义计算优先级的函数为Level(x)：

Level(D(O(om)))>Level(O(_Om))。

具体的：

定义每个以原始输出节点o_m为唯一出口的网络为O(o_m)，O(x)为以输出数据集节点x生成网络的计算函数。然后定义其计算的优先级的函数为Level(x)。定义Level(O(o₁))＝…＝Level(O(o_m))，(1≤m≤N，N为全部的输出数据集节点的数量)。

因为原始的输出节点是没必要区分处理的先后顺序的(可能在性能上有不同)。

然后，定义拆分计算函数为D(x)，是以x的输入网络为基础进行一次节点拆分。如D(O(o_m))为在O(o_m)上进行一次节点拆分操作。定义Level(D(O(o_m)))为对O(o_m)进行一次拆分后的子网络的输出节点执行的优先级。

显然，需要保证Level(D(O(o_m)))＞Level(O(o_m))，因为临时输出节点必须先被计算。

为了得到更一般性的结论，定义D(O(o_m))＝D¹(O(o_m))，O(o_m)＝D⁰(O(o_m))。自然得到，D(D(O(o_m)))＝D²(O(o_m))。

那么，更一般的有

Level(D^k+1(O(o_m))＞Level(D^k(O(o_m)))

Level(D^k(O(o₁)))＝…＝Level(D^k(O(o_m)))

(0≤k≤M)M为拆分的次数。

上面就是执行优先级的形式化定义。

总之，在处理ETL算子拆分的时候需要注意各子图间执行的优先级顺序。

这样，如图4所示，ETL算子图将按照这两个子图进行ETL_COMBINED任务执行，但是第一任务执行子图和第二任务执行子图之间具有任务执行的优先级。包含临时输出节点的第一任务执行子图，优先执行其上ETL算子的ETL任务，将其结果反馈至第二任务执行子图的临时输入节点，再由临时输入节点根据第一任务执行子图的ETL任务任务执行结果，重新按照ETL_COMBINED任务的拆分执行方案，进行执行。

此时，因为临时输出节点已经将本次ETL算子图进行前期执行了，所以，第二子图中的输出节点A等节点，对于已经被执行的ETL算子，将自动进行忽略(标记)，不会再重新执行，以此避免重复计算而消耗性能。

将所述第一子图执行结果输入至所述第二任务执行子图；

第二任务执行子图的临时输入节点，在接收到第一任务执行子图中临时输出节点对ETL算子图输出的执行结果之后，将获知哪些ETL算子已经被第一任务执行子图执行，因此临时输入节点可以告知第二任务执行子图中的后续其他输出节点。

详见上述对图4的描述。

第二任务执行子图中各个输出节点对第二任务执行子图的ETL_COMBINED任务的执行过程，可以参见原有的任务拆分执行过程，只不过其中被第一任务执行子图中临时输出节点所执行的ETL算子，已经被第二任务执行子图中临时输入节点所得知，因此可以由临时输入节点告知第二任务执行子图中各个输出节点，避免重复计算。

计算所述ETL算子图的复杂图；

将所述子图拆分数量保存在任务管理模块上。

所述ETL算子图的复杂图计算方式，可以由任务管理系统的后台管理员自行计算，计算方式，本实施例不做限定。

本实施例是以2个子图进行拆分的，因此在ETL算子图的出口设定一个临时输出节点，将原始的ETL_COMBINED任务执行拓扑图进行拆分，分别生成所述ETL算子图的第一任务执行子图和第二任务执行子图。

若是根据ETL算子图的复杂图，确定需要设定多个子图，则可以参照上述本实施例的拆分方案和优先级设定模式，设定若干子图即可。

因此，本方案在ETL算子图出口做一个拆分，复杂的图将被拆分成两个简单的子图，以达到临时缓存的效果。这样将大大减小后续原始拓扑图中每个输出节点的计算压力，带来显著的性能提升。同时保证先处理临时输出节点，再处理临时输入节点的优先级处理顺序，让第二子图中的临时输入节点能够对临时输出节点的计算结果进行获知，了解第一子图已经处理了哪些ETL算子，能够让后续第二子图中的输出节点避免重复计算算子，避免因重复计算带来的性能消耗和成本。

显然，本领域的技术人员应该明白，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。本领域技术人员可以理解，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

实施例2

基于实施例1的实施原理，本申请另一方面，提出一种实现所述ETL中JobEngine任务拆分方法的系统，包括：

优先级设定模块，用于设定任务执行优先级的管理规则：

上述各个模块的具体功能和交互，详见实施例1的描述。

上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

如图5所示，更进一步地，本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

本公开实施例来电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中，处理器被配置为执行可执行指令时实现前面任一所述的一种ETL中JobEngine任务拆分方法。

此处，应当指出的是，处理器的个数可以为一个或多个。同时，在本公开实施例的电子设备中，还可以包括输入装置和输出装置。其中，处理器、存储器、输入装置和输出装置之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器作为一计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的一种ETL中JobEngine任务拆分方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块，从而执行电子设备的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种ETL中JobEngine任务拆分方法，其特征在于，包括如下步骤：

设定任务执行优先级的管理规则：

所述第一任务执行子图的任务执行优先级优先于所述第二任务执行子图；

将所述第一子图执行结果输入至所述第二任务执行子图；

2.根据权利要求1所述的一种ETL中JobEngine任务拆分方法，其特征在于，设定任务执行优先级的管理规则，包括：

定义每个以原始输出节点Om为唯一出口的网络为O( _Om ），O(x)为以输出数据集节点x生成网络的计算函数；

定义计算优先级的函数为Level(x)：

Level(O( _O1 ))=…=Level(O(om))，(1≤m≤N，N为全部的输出数据集节点的数量）；

定义拆分计算函数为D(x)，是以x的输入网络为基础进行一次节点拆分；

定义Level(D（O(om)为对O( _Om ）进行一次拆分后的子网络的输出节点执行的优先级，保证：

Level(D(O(om)))>Level(O( _Om ）)。

3.根据权利要求1所述的一种ETL中JobEngine任务拆分方法，其特征在于，在设定任务执行优先级的管理规则之后，还包括：

4.根据权利要求1所述的一种ETL中JobEngine任务拆分方法，其特征在于，在得到所述第二任务执行子图的ETL_COMBINED任务之后，还包括：

在所述第二任务执行子图中，将其对应的ETL_COMBINED任务拆分为多个ETL OUTPUT任务；

5.根据权利要求1所述的一种ETL中JobEngine任务拆分方法，其特征在于，在对原始的ETL_COMBINED任务执行拓扑图进行拆分之前，还包括：

计算所述ETL算子图的复杂图；

将所述子图拆分数量保存在任务管理模块上。

6.一种实现权利要求1-5中任一项所述ETL中JobEngine任务拆分方法的系统，其特征在于，包括：

优先级设定模块，用于设定任务执行优先级的管理规则：

将所述第一子图执行结果输入至所述第二任务执行子图；

7.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1-5中任一项所述一种ETL中JobEngine任务拆分方法。