CN117608807A

CN117608807A - 数据调度任务自动创建及依赖自动构建方法、系统及介质

Info

Publication number: CN117608807A
Application number: CN202311778545.0A
Authority: CN
Inventors: 张伟; 武超; 徐稳
Original assignee: Wuxi Nianhuayun Technology Service Co ltd
Current assignee: Wuxi Nianhuayun Technology Service Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-02-27

Abstract

本发明实施例公开一种数据调度任务自动创建及依赖自动构建方法、系统及介质，该方法通过识别每一个调度任务中任务与来源表、目标表的关系进行任务依赖关系的识别构建，并自动化生成调度任务，无需繁杂的进行每个任务的依赖关系配置，提高了任务部署上线的效率，同时规避了任务依赖关系配置的复杂性、完整性，有效避免了错配、漏配导致的任务执行及数据异常，解决了现有通用性调度工具存在的不足，适宜推广应用。

Description

数据调度任务自动创建及依赖自动构建方法、系统及介质

技术领域

本发明实施例涉及大数据处理技术领域，尤其涉及一种数据调度任务自动创建及依赖自动构建方法、系统及介质。

背景技术

随着信息化及大数据技术的飞速发展，在业务系统中需要被处理计算的数据需求越来越多，为了完成这些计算，在大数据技术中通常是通过数据调度任务来实现每一个计算需求。一般性规模的数据项目中数据调度任务数量可达到200多个，中等及超大规模集群调度任务数可达到千级别、万级别。随着项目数据调度任务数量的增多，如何准确、高效的完成数据调度任务间的依赖关系配置、执行流程管理就成为了一个难点。

目前大数据处理场景使用到的调度工具多为通用性调度工具。所谓通用是指可以调度的任务类型不仅限于数据处理sql脚本任务，如调度任务类型可以为shell脚本、python脚本、sql脚本、jar包等。调度工具一般分为两级：job(工作流)、task(任务)。上述shell/python/sql/jar为task级。下面简述行业现有技术方案新建及更新工作流、任务的操作步骤：一.新建：通过工具平台页面可视化创建一个job包含多个task，每个task内编写task类型的代码，task编辑完成后，通过页面配置task上游依赖或连线的方式构建出这个job的task执行流程，完成调度配置。保存并发布上线。二.更新：通过工具平台页面可视化修改job如新增task、修改task。如有新增需要配置task的上游依赖任务。完成修改保存job、下线该线上job、上线新job。

由于通用性调度工具侧重点在于调度内容及调度类型的通用性上，所以并不能确定调度任务间的依赖关系，无法自动识别脚本内容构建调度任务，执行前置依自动生成依赖配置，需要人为的对每个任务配置执行的前置依赖任务配置。此种配置方式存在以下缺点：1.容易错配、漏配：传统的调度任务配置方式过度依赖人为判断，容易错配、漏配；一旦依赖关系配置不正确，当调度任务运行起来后会产生错误的执行流程及数据结果。2.大规模调度维护效率低：传统的调度任务配置方式需要针对每个task(任务)的点选依赖，当调度任务规模成百上千时，这种操作的效率会大打折扣，效率低下；因为调整任务及新增都需要进行不同的页面点选、确认及依赖配置。3.无法自动发布，升级效率低：在任务的上线及更新环节需要对原有job进行下线、上线操作；当job比较多时此操作的效率低。

以上问题亟待解决。

发明内容

为解决相关技术问题，本发明提供一种数据调度任务自动创建及依赖自动构建方法、系统及介质，来解决以上背景技术部分提到的问题。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种数据调度任务自动创建及依赖自动构建方法，该方法包括：

从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地文件夹；

遍历所述本地文件夹，识别调度任务脚本名称；

解析调度任务脚本中的SQL文件，识别脚本的插入表单TargetTable、来源表单SourceTable；

构建调度任务、插入表单TargetTable、来源表单SourceTable的关系；

构建调度任务与调度任务的关系；

下线调度系统中存在的同名调度任务；

根据遍历的调度任务脚本名称调用调度系统API生成调度任务；

通过调度任务关系调用调度系统API配置调度任务的任务依赖；

上线调度任务并发布。

作为一种可选的实施方式，所述从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地文件夹，包括：

通过使用JGit库的git.pull()，从存放数据调度任务脚本的git代码仓获取最新的数据开发脚本文件并全量拉取至本地文件夹。

作为一种可选的实施方式，所述解析调度任务脚本中的SQL文件，识别脚本的插入表单TargetTable、来源表单SourceTable，包括：

通过SqlParse解析解析调度任务脚本中的SQL文件，识别脚本的插入表单TargetTable、来源表单SourceTable。

作为一种可选的实施方式，所述构建调度任务与调度任务的关系，之前还包括：

将所述调度任务、插入表单TargetTable、来源表单SourceTable的关系组成树状结构，寻找到任务执行根节点，进行数据标记存储。

作为一种可选的实施方式，所述下线调度系统中存在的同名调度任务，包括：

通过目标调度系统的任务下线API，下线调度系统中存在的同名调度任务。

作为一种可选的实施方式，所述上线调度任务并发布，包括：

通过目标调度系统的任务上线/发布API，上线调度任务并发布。

第二方面，本发明实施例提供了一种数据调度任务自动创建及依赖自动构建系统，该系统采用上述第一方面任一项所述的数据调度任务自动创建及依赖自动构建方法，包括：

代码拉取模块，用于从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地，从而完成最新调度代码的获取；

SQL解析模块，用于通过SqlParse解析每个数据开发sql脚本文件，完成以下内容的解析、识别、存储：调度任务名称、数据任务插入表单TargetTable、数据来源表单SourceTable；

任务关系构建模块，用于基于所述SQL解析模块解析出的内容，完成表单与表单的依赖关系、表单与任务的依赖关系、任务及任务的依赖关系构建；

任务生成模块，用于基于所述任务关系构建模块生成的依赖关系，下线调度系统中存在的同名调度任务，根据遍历的调度任务脚本名称调用调度系统API生成调度任务，通过调度任务关系调用调度系统API配置调度任务的任务依赖，并上线调度任务并发布。

作为一种可选的实施方式，所述代码拉取模块具体用于：通过使用JGit库的git.pull()，从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地，从而完成最新调度代码的获取。

作为一种可选的实施方式，所述任务生成模块具体用于：基于所述任务关系构建模块生成的依赖关系，通过目标调度系统的任务创建API，将任务从调度系统中下线；使用目标调度系统的任务创建API，在调度系统中创建新的任务；通过目标调度系统的任务创建API，配置任务之间的依赖关系；通过目标调度系统的任务上线/发布API上线调度任务并发布。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如上述第一方面任一项所述的数据调度任务自动创建及依赖自动构建方法。

本发明实施例提出的技术方案通过识别每一个调度任务中任务与来源表、目标表的关系进行任务依赖关系的识别构建，并自动化生成调度任务，无需繁杂的进行每个任务的依赖关系配置，提高了任务部署上线的效率，同时规避了任务依赖关系配置的复杂性、完整性，有效避免了错配、漏配导致的任务执行及数据异常，解决了现有通用性调度工具存在的不足，适宜推广应用。

附图说明

为了更清楚地说明及理解本发明实施例中的技术方案，下面将对本发明背景技术、实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1为本发明实施例一提供的数据调度任务自动创建及依赖自动构建方法示意图；

图2为本发明实施例二提供的数据调度任务自动创建及依赖自动构建系统示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参考图1所述，图1为本发明实施例一提供的数据调度任务自动创建及依赖自动构建方法示意图。如图中所示，本实施例中数据调度任务自动创建及依赖自动构建方法100包括：

S102.从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地文件夹；

S102.遍历所述本地文件夹，识别调度任务脚本名称；其中，所述任务脚本名称与调度系统任务名称相同；

S103.解析调度任务脚本中的SQL文件，识别脚本的插入表单TargetTable、来源表单SourceTable；

S104.构建调度任务、插入表单TargetTable、来源表单SourceTable的关系；

S105.构建调度任务与调度任务的关系；

S106.下线调度系统中存在的同名调度任务；

S107.根据遍历的调度任务脚本名称调用调度系统API生成调度任务；

S108.通过调度任务关系调用调度系统API配置调度任务的任务依赖；

S109.上线调度任务并发布。

示例性的，所述从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地文件夹，包括：

示例性的，所述解析调度任务脚本中的SQL文件，识别脚本的插入表单TargetTable、来源表单SourceTable，包括：

示例性的，所述构建调度任务与调度任务的关系，之前还包括：

示例性的，所述下线调度系统中存在的同名调度任务，包括：

示例性的，所述上线调度任务并发布，包括：

值得一提的是，由于数据调度任务的每个任务中存储的task类型为sql脚本；每个脚本中内容为包含插入语句及来源语句的格式脚本。举例：insert into table tabA asselect*from tabB；所以每个脚本中均包含该任务执行后，需要将数据插入的目标表TargetTabel(上述例子中tabA)及1到多个插入数据来源表单SourceTable(上述例子中tabB)。每一个表单至少会由1个调度任务生成。每个表单在不同的数据调度任务中的角色既可能是TargetTable，也可能是SourceTable。本实施例提出的数据调度任务自动创建及依赖自动构建方法100通过上述关系构建出表单与表单的依赖关系、表单与任务的依赖关系及任务及任务的依赖关系。本实施例提出的数据调度任务自动创建及依赖自动构建方法100采用的技术手段如下：1.抽离、识别、构建调度任务与调度任务的底层实际血缘关系。在数据调度任务中，调度任务为SQL脚本，所以需要通过解析脚本本身抽离出来源表、目标表，构建其血缘关系。2.通过识别表与表的血缘关系，完成任务与表的关系构建。3.通过任务与表的关系构建完成任务与任务间的关系构建。4.通过对接调度平台的API结合已构建的任务间关系完成任务的创建与调度依赖的配置自动化。5.通过对接调度平台的API完成任务的上线、下线的自动化操作。本实施例提出的数据调度任务自动创建及依赖自动构建方法完成了自动化调度依赖关系配置，并自动发布。

本实施例提出的数据调度任务自动创建及依赖自动构建方法100通过识别每一个调度任务中任务与来源表、目标表的关系进行任务依赖关系的识别构建，并自动化生成调度任务，无需繁杂的进行每个任务的依赖关系配置，提高了任务部署上线的效率，同时规避了任务依赖关系配置的复杂性、完整性，有效避免了错配、漏配导致的任务执行及数据异常。

实施例二

如图2所示，图2为本发明实施例二提供的数据调度任务自动创建及依赖自动构建系统示意图。如图中所示，本实施例中数据调度任务自动创建及依赖自动构建系统200采用上述实施例一所述的数据调度任务自动创建及依赖自动构建方法100，包括：

代码拉取模块201，用于从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地，从而完成最新调度代码的获取；

SQL解析模块202，用于通过SqlParse解析每个数据开发sql脚本文件，完成以下内容的解析、识别、存储：调度任务名称、数据任务插入表单TargetTable、数据来源表单SourceTable；在本实施例中通过SqlParse结合多线程遍历方法实现了每个数据开发sql脚本文件的快速解析；

任务关系构建模块203，用于基于所述SQL解析模块解析出的内容，完成表单与表单的依赖关系、表单与任务的依赖关系、任务及任务的依赖关系构建；通过该方式获得了任务间依赖关系，并进行持久化存储，便于后续的自动化配置使用；

任务生成模块204，用于基于所述任务关系构建模块生成的依赖关系，下线调度系统中存在的同名调度任务，根据遍历的调度任务脚本名称调用调度系统API生成调度任务，通过调度任务关系调用调度系统API配置调度任务的任务依赖，并上线调度任务并发布。

示例性的，所述代码拉取模块201具体用于：通过使用JGit库的git.pull()，从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地，从而完成最新调度代码的获取。

示例性的，所述任务生成模块204具体用于：基于所述任务关系构建模块生成的依赖关系，结合目标调度系统提供的一组API完成以下功能：一.调度任务下线：通过目标调度系统的任务创建API，将任务从调度系统中下线。这意味着任务将不再被调度执行，其状态可能被设置为停止或暂停。二.调度任务创建：使用目标调度系统的任务创建API，在调度系统中创建新的任务。涉及指定任务的名称、类型、输入参数和其他相关属性。三.依赖配置：通过目标调度系统的任务创建API，置任务之间的依赖关系。这可能包括指定某个任务依赖于其他任务的完成或结果，以确保正确的执行顺序和数据流。四.自动发布上线：目标调度系统提供自动发布上线的功能，通过目标调度系统的任务上线/发布API，使得当任务满足一定条件时，自动将其上线并开始调度执行。该方式减少人工干预的需求，提高任务的自动化程度。

在本实施例中，由于数据调度任务的每个任务中存储的task类型为sql脚本；每个脚本中内容为包含插入语句及来源语句的格式脚本。举例：insert into table tabA asselect*from tabB；所以每个脚本中均包含该任务执行后，需要将数据插入的目标表TargetTabel(上述例子中tabA)及1到多个插入数据来源表单SourceTable(上述例子中tabB)。每一个表单至少会由1个调度任务生成。每个表单在不同的数据调度任务中的角色既可能是TargetTable，也可能是SourceTable。本实施例提出的数据调度任务自动创建及依赖自动构建系统200通过上述关系构建出表单与表单的依赖关系、表单与任务的依赖关系及任务及任务的依赖关系。本实施例提出的数据调度任务自动创建及依赖自动构建系统200采用的技术手段如下：1.抽离、识别、构建调度任务与调度任务的底层实际血缘关系。在数据调度任务中，调度任务为SQL脚本，所以需要通过解析脚本本身抽离出来源表、目标表，构建其血缘关系。2.通过识别表与表的血缘关系，完成任务与表的关系构建。3.通过任务与表的关系构建完成任务与任务间的关系构建。4.通过对接调度平台的API结合已构建的任务间关系完成任务的创建与调度依赖的配置自动化。5.通过对接调度平台的API完成任务的上线、下线的自动化操作。本实施例提出的数据调度任务自动创建及依赖自动构建方法完成了自动化调度依赖关系配置，并自动发布。

本实施例提出的数据调度任务自动创建及依赖自动构建系统200通过识别每一个调度任务中任务与来源表、目标表的关系进行任务依赖关系的识别构建，并自动化生成调度任务，无需繁杂的进行每个任务的依赖关系配置，提高了任务部署上线的效率，同时规避了任务依赖关系配置的复杂性、完整性，有效避免了错配、漏配导致的任务执行及数据异常。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如上述实施例一所述的数据调度任务自动创建及依赖自动构建方法100。

需要说明的是，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据调度任务自动创建及依赖自动构建方法，其特征在于，该方法包括：

遍历所述本地文件夹，识别调度任务脚本名称；

构建调度任务与调度任务的关系；

下线调度系统中存在的同名调度任务；

上线调度任务并发布。

2.根据权利要求1所述的数据调度任务自动创建及依赖自动构建方法，其特征在于，所述从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地文件夹，包括：

3.根据权利要求1所述的数据调度任务自动创建及依赖自动构建方法，其特征在于，所述解析调度任务脚本中的SQL文件，识别脚本的插入表单TargetTable、来源表单SourceTable，包括：

4.根据权利要求1所述的数据调度任务自动创建及依赖自动构建方法，其特征在于，所述构建调度任务与调度任务的关系，之前还包括：

5.根据权利要求1所述的数据调度任务自动创建及依赖自动构建方法，其特征在于，所述下线调度系统中存在的同名调度任务，包括：

6.根据权利要求1所述的数据调度任务自动创建及依赖自动构建方法，其特征在于，所述上线调度任务并发布，包括：

7.一种数据调度任务自动创建及依赖自动构建系统，其特征在于，该系统采用权利要求1至6任一项所述的数据调度任务自动创建及依赖自动构建方法，包括：

8.根据权利要求7所述的数据调度任务自动创建及依赖自动构建系统，其特征在于，所述代码拉取模块具体用于：通过使用JGit库的git.pull()，从存放数据调度任务脚本的git代码仓库获取最新的数据开发脚本文件并全量拉取至本地，从而完成最新调度代码的获取。

9.根据权利要求7所述的数据调度任务自动创建及依赖自动构建系统，其特征在于，所述任务生成模块具体用于：基于所述任务关系构建模块生成的依赖关系，通过目标调度系统的任务创建API，将任务从调度系统中下线；使用目标调度系统的任务创建API，在调度系统中创建新的任务；通过目标调度系统的任务创建API，配置任务之间的依赖关系；通过目标调度系统的任务上线/发布API上线调度任务并发布。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的数据调度任务自动创建及依赖自动构建方法。