CN116225635A

CN116225635A - 任务优化方法、装置和计算机可读存储介质

Info

Publication number: CN116225635A
Application number: CN202111482034.5A
Authority: CN
Inventors: 姚超
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2023-06-06
Also published as: WO2023103624A1

Abstract

本发明公开了任务优化方法、装置和计算机可读存储介质，通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。

Description

任务优化方法、装置和计算机可读存储介质

技术领域

本发明实施例涉及但不限于信息技术领域，特别是涉及一种任务优化方法、装置和计算机可读存储介质。

背景技术

数据中台在企业层面构建统一标准、打通企业数据通道、突破信息孤岛效应，降低重复建设的成本，既可面向不同业务部门快速提供数据服务支持，又可为后台减轻负担，提高整体工作效率和质量。

数据中台上运行着大量的数据加工任务，这些任务构成了一个庞大的DAG(Directed Acyclic Graph，有向无环)图，它们有的加工的数据比较基础，会有很多后续任务依赖，有的对产出时间有要求，必须在指定时间前出结果，不一而足。同时这些任务通常由不同团队分别开发，任务质量会有差异，而且各团队为了保障自己任务的运行，申请的任务资源及优先级通常较高，缺乏整体观，不利于整体效能。

当前在任务优化时通常是选取运行时长或资源的任务进行优化，但单纯看时长或资源并不一定代表任务有问题。另外，任务优化后是否对整体有影响通常需要实际测试，整个过程所需周期长，试错代价高，对任务优化的效率和成功率造成了不利影响。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种任务优化方法、装置和计算机可读存储介质，能够快速找到最佳的任务优化方式，提高了任务优化的效率和成功率。

第一方面，本发明实施例提供了一种任务优化方法，包括：

对任务进行评价识别出需要优化的目标任务；

调整所述目标任务对应的目标任务参数；

通过虚拟调度的方式执行所述目标任务参数进行全局调度预演；

在全局调度预演的预演效果符合预期的情况下，确定所述目标任务参数，基于所述目标任务参数执行所述目标任务。

第二方面，本发明实施例提供了一种任务优化装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的任务优化方法。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的任务优化方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如上第一方面所述的任务优化方法。

本发明实施例包括：通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的一种任务优化方法的主流程图；

图2是本发明一个实施例提供的一种任务优化方法的子流程图；

图3是本发明一个实施例提供的一种任务优化方法的另一子流程图；

图4是本发明一个实施例提供的一种任务优化方法的另一子流程图；

图5是本发明一个实施例提供的初始任务评估的任务DAG图；

图6是本发明一个实施例提供的第一次预优化的任务DAG图；

图7是本发明一个实施例提供的第二次预优化的任务DAG图；

图8是本发明一个实施例提供的任务优化装置结构示意图；

图9是本发明一个实施例提供的电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

应了解，在本发明实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

当前在任务优化时通常是选取运行时长或资源的任务进行优化，但单纯看时长或资源并不一定代表任务有问题。另外，单任务优化后是否对整体有影响通常需要实际测试，整个过程所需周期长，试错代价高，对任务优化的效率和成功率造成了不利影响。

针对现有技术存在盲目优化的问题，本发明实施例提供了一种任务优化方法、装置和计算机可读存储介质,通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。

如图1所示，图1是本发明一个实施例提供的一种任务优化方法的流程图。任务优化方法包括但不限于如下步骤：

步骤101，对任务进行评价识别出需要优化的目标任务；

步骤102，调整目标任务对应的目标任务参数；

步骤103，通过虚拟调度的方式执行目标任务参数进行全局调度预演；

步骤104，在全局调度预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。

可以理解的是，本方法可以用于优化数据中台上运行的任务。通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。需要说明的是，对任务的识别和调整可以是人工进行，也可以通过机器学习的方式自动进行。

可以理解的是，对任务进行评价识别出需要优化的目标任务的方式，可以通过采集任务的静态信息和动态信息，根据静态信息和动态信息建立任务的评估模型，根据评估模型的评价结果识别出需要优化的目标任务。需要说明的是，静态信息为任务的配置信息，例如，静态信息可以包括但不限于输入表、输出表、资源配比、任务优先级、调度周期等；动态信息为任务的历史执行情况信息，例如，动态信息可以包括但不限于历史平均执行时间、平均启动延迟、平均处理数据量、被依赖程度等。

可以理解的是，任务的评估模型可以表达为：S(任务的评价维度)＝Exec(任务的影响因子)，其中，S表示对任务几种维度的评价，Exec是拟合的任务执行模型，该模型可以根据若干影响因子来推测各评价维度的取值。例如，根据任务的静态信息和动态信息建立任务的评估模型为S(重要度,算法效率,延迟,时长)＝Exec(依赖关系,算法效率,优先级,资源配比)，其中，依赖关系是指任务的血缘关系，重要度定义为直接或间接依赖该任务的后续任务总数，算法效率是指单位资源单位时间能处理的数据量。

可以理解的是，本发明可以通过采集任务的静态信息和动态信息，根据各任务的信息建立任务的评估模型：S(任务的评价维度)＝Exec(任务的影响因子)，其中，S表示对任务几种维度的评价，Exec是拟合的任务执行模型，该模型可以根据若干影响因子来推测各评价维度的取值。根据评价结果识别需要优化的目标任务，其中，识别方式可以是人工识别，也可以是按规则自动识别。对判定需要优化的任务，根据优化方向调整任务执行模型的目标任务参数，其中，优化方向是指要改善的评价维度。将调整后的任务执行模型通过虚拟调度的方式进行整体调度预演，若预演效果符合预期，则将调整后的任务配置落地到生产系统，否则继续调整任务执行模型的参数进行优化。基于此，本发明可以从全局的角度识别哪些任务需要优化，以及通过虚拟调度进行全局调度预演的方式优化任务参数，提升系统的运行效率。

如图2所示，步骤101可以包括但不限于如下子步骤：

步骤1011，采集任务的静态信息和动态信息，其中，静态信息为任务的配置信息，动态信息为任务的历史执行情况信息；

步骤1012，根据静态信息和动态信息建立任务的评估模型；

步骤1013，根据评估模型的评价结果识别出需要优化的目标任务。

可以理解的是，可以从任务的配置信息中采集任务的静态信息，静态信息可以包括但不限于输入表、输出表、资源配比、任务优先级、调度周期等；可以从任务的执行日志中获取任务的历史执行情况信息，动态信息可以包括但不限于历史平均执行时间、平均启动延迟、平均处理数据量、被依赖程度等。

可以理解的是，可以根据静态信息和动态信息来确定任务的评价维度和任务的影响因子，再根据评价维度和影响因子建立任务的评估模型。任务的评估模型可以表达为：S(任务的评价维度)＝Exec(任务的影响因子)，其中，S表示对任务几种维度的评价，Exec是拟合的任务执行模型，该模型可以根据若干影响因子来推测各评价维度的取值。例如，根据任务的静态信息和动态信息建立任务的评估模型为S(重要度,算法效率,延迟,时长)＝Exec(依赖关系,算法效率,优先级,资源配比)，其中，依赖关系是指任务的血缘关系，重要度定义为直接或间接依赖该任务的后续任务总数，算法效率是指单位资源单位时间能处理的数据量。基于此，本发明通过建立任务评估模型和虚拟调度的方式，快速模拟优化效果，提升任务整体优化的效率。通过多维度、立体的任务评价指标，为任务优化方向提供有效的指导。

可以理解的是，本发明通过建立任务评估模型的方式，将用户关心的任务评价信息和简化的执行模型关联起来。根据评价信息和业务目标能快速定位需要优化的任务，通过调整任务参数并在虚拟调度引擎执行任务预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，避免发生盲目优化导致验证优化后不达标的情况。

如图3所示，步骤102可以包括但不限于如下子步骤：

步骤1021，确定目标任务的优化方向，优化方向为目标任务要改善的评价维度；

步骤1022，根据目标任务的优化方向调整目标任务对应的目标任务参数。

可以理解的是，对判定需要优化的任务，根据优化方向调整任务执行模型的参数，其中，优化方向是指要改善的评价维度，评价维度可以包括但不限于重要度、算法效率、延迟、时长等，例如，算法效率在正常范围但时长过长时，则需要考虑增加资源；延迟过大则需要考虑优化调度逻辑。根据目标任务要改善的评价维度来调整目标任务对应的目标任务参数。

如图4所示，步骤103可以包括但不限于如下子步骤：

步骤1031，建立目标任务的执行模型，执行模型由目标任务的影响因子拟合而得到；

步骤1032，利用执行模型通过虚拟调度的方式执行目标任务参数进行全局调度预演。

可以理解的是，任务的影响因子可以包括但不限于依赖关系、算法效率、优先级、资源配比等，Exec是拟合的任务执行模型，该模型可以根据若干影响因子来推测各评价维度的取值，任务的评估模型为S(重要度,算法效率,延迟,时长)＝Exec(依赖关系,算法效率,优先级,资源配比)，其中，依赖关系是指任务的血缘关系，重要度定义为直接或间接依赖该任务的后续任务总数，算法效率是指单位资源单位时间能处理的数据量。利用执行模型通过虚拟调度的方式执行目标任务参数进行全局调度预演。基于此，本发明通过调整后的执行模型通过虚拟调度的方式进行整体调度预演，快速模拟优化效果，提升任务整体优化的效率。

本发明通过建立任务评估模型的方式，将用户关心的任务评价信息和简化的执行模型关联起来。根据评价信息和业务目标能快速定位需要优化的任务，通过调整任务参数并在虚拟调度引擎执行任务预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，避免发生盲目优化导致验证优化后不达标的情况。

以下结合附图和具体实施例进一步介绍本发明提供的任务优化方法。

以一个数据中台简化的任务为例，设定数据中台资源总量为10，对应实现任务优化的步骤如下：

a.主要从配置信息中采集任务的静态信息，其包括输入表、输出表、资源配比、任务优先级、调度周期等；从任务执行日志中获取动态信息，即历史执行情况信息，其包括历史平均执行时间、平均启动延迟、平均处理数据量、被依赖程度等。

b.根据各任务的静态信息和动态信息建立任务的评估模型，整体任务DAG图如图5所示。

c.根据评价结果识别出需要优化的任务，此处定义目标为优化t31的启动延迟，故而识别出需要优化的任务为t12、t22。

d.首先对t12进行优化，t12因资源、优先级不够需要等待t11完成之后执行，而产生延迟:

①调整t12优先级为100后预演，虽然t12、t22延迟变为0，但由于t11、t21的延迟变大导致t31的延迟未发生变化，故而该调整不予采纳；

②减少t12任务资源为5后预演，如图6所示，t31任务延迟减少为3，故而采纳此优化；

e.在上一步的基础上，t12的下一项效率参数优化难度较大，转而对t22采取优化：

①调整t22任务资源为6，t31的延迟减少为1，采纳此优化并继续下一项；

②t22算法效率偏低，将t22算法效率提升到0.7后预演，如图7所示，t31任务延迟消失，采纳此优化；

f.将调整后的任务配置t11减少任务资源、t22增加任务资源并进行的算法优化落地到生产系统。

需要说明的是，上述步骤c、d和e可以通过人工或程序自动执行。

如图8所示，本发明实施例还提供了一种任务优化装置。

具体地，该任务优化装置包括：一个或多个处理器和存储器，图8中以一个处理器及存储器为例。处理器和存储器可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如上述本发明实施例中的任务优化方法。处理器通过运行存储在存储器中的非暂态软件程序以及程序，从而实现上述本发明实施例中的任务优化方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述本发明实施例中的任务优化方法所需的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该任务优化装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述本发明实施例中的任务优化方法所需的非暂态软件程序以及程序存储在存储器中，当被一个或者多个处理器执行时，执行上述本发明实施例中的任务优化方法，例如，执行以上描述的图1中的方法步骤101至步骤104，图2中的方法步骤1011至步骤1013，图3中的方法步骤1021至步骤1022，图4中的方法步骤1031至步骤1032，通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。

如图9所示，本发明实施例还提供了一种电子设备。

具体地，该电子设备包括：一个或多个处理器和存储器，图9中以一个处理器及存储器为例。处理器和存储器可以通过总线或者其他方式连接，图9中以通过总线连接为例。

实现上述本发明实施例中的任务优化方法所需的非暂态软件程序以及程序存储在存储器中，当被一个或者多个处理器执行时，执行上述本发明实施例中的任务优化方法，例如，执行以上描述的步骤101至步骤104，图2中的方法步骤1011至步骤1013，图3中的方法步骤1021至步骤1022，图4中的方法步骤1031至步骤1032，通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。

此外，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行程序，该计算机可执行程序被一个或多个控制处理器执行，例如，被图8中的一个处理器执行，可使得上述一个或多个处理器执行上述本发明实施例中的任务优化方法，例如，执行以上描述的步骤101至步骤104，图2中的方法步骤1011至步骤1013，图3中的方法步骤1021至步骤1022，图4中的方法步骤1031至步骤1032，通过对任务进行评价识别出需要优化的目标任务，调整目标任务对应的目标任务参数，并通过虚拟调度的方式执行目标任务参数进行全局调度预演，在任务预演的预演效果符合预期的情况下，确定目标任务参数，基于目标任务参数执行目标任务。基于此，对任务进行评价识别出需要优化的任务，通过调整任务参数并在以虚拟调度的方式执行全局调度预演，可以快速迭代找到最佳的任务优化方式，提高了任务优化的效率和成功率，可以避免发生盲目优化导致验证优化后不达标的情况。因此，本发明能够在全局角度快速试探出最佳任务参数，从而使整个数据中台系统的数据产出能力达到理想目标状态。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种任务优化方法，其特征在于，包括：

对任务进行评价识别出需要优化的目标任务；

调整所述目标任务对应的目标任务参数；

2.根据权利要求1所述的方法，其特征在于，所述对任务进行评价识别出需要优化的目标任务，包括：

采集所述任务的静态信息和动态信息，其中，所述静态信息为所述任务的配置信息，所述动态信息为所述任务的历史执行情况信息；

根据所述静态信息和所述动态信息建立所述任务的评估模型；

根据所述评估模型的评价结果识别出需要优化的所述目标任务。

3.根据权利要求2所述的方法，其特征在于，所述静态信息包括如下至少之一：

任务输入表；

任务输出表；

任务资源配比；

任务优先级；

任务调度周期。

4.根据权利要求2所述的方法，其特征在于，所述动态信息包括如下至少之一：

任务历史平均执行时间；

任务平均启动延迟；

任务平均处理数据量；

任务被依赖程度。

5.根据权利要求2所述的方法，其特征在于，所述根据所述静态信息和所述动态信息建立所述任务的评估模型，包括：

根据所述静态信息和所述动态信息确定所述任务的评价维度和所述任务的影响因子；

根据所述评价维度和所述影响因子建立所述评估模型。

6.根据权利要求5所述的方法，其特征在于，所述调整所述目标任务对应的目标任务参数，包括：

确定目标任务的优化方向，所述优化方向为所述目标任务要改善的所述评价维度；

根据所述目标任务的优化方向调整所述目标任务对应的所述目标任务参数。

7.根据权利要求6所述的方法，其特征在于，所述通过虚拟调度的方式执行所述目标任务参数进行全局调度预演，包括：

建立所述目标任务的执行模型，所述执行模型由所述目标任务的所述影响因子拟合而得到；

利用所述执行模型通过虚拟调度的方式执行所述目标任务参数进行全局调度预演。

8.一种任务优化装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的任务优化方法。

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的任务优化方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如权利要求1至7任意一项所述的任务优化方法。