CN117573382B

CN117573382B - 一种数据采集任务编排方法、装置

Info

Publication number: CN117573382B
Application number: CN202410064149.XA
Authority: CN
Inventors: 章寒冰; 叶吉超; 黄慧; 徐永海; 胡鑫威; 张程翔; 丁宁; 季奥颖; 王笑棠; 娄冰; 汪华; 陈冰恽; 潘昭光; 朱利锋; 吴新华
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-03-29
Anticipated expiration: 2044-01-17
Also published as: CN117573382A

Abstract

本发明公开了一种数据采集任务编排方法、装置，该方法包括：根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度；利用决策器确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分；基于所述第一任务效率得分和所述决策器的全局价值计算函数，计算所述第一任务编排策略的第一全局价值；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略。本方案能够更智能、高效地选择数据源和任务分配策略，以满足电网运营的多元要求，适应大规模数据采集的复杂性、适应动态变化的数据需求，有助于提高资源利用效率。

Description

一种数据采集任务编排方法、装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据采集任务编排方法、装置。

背景技术

电网多要素数据包括主配网数据、气象水文数据、用采系统数据、灵活资源数据等，这些数据源在电网运营和管理中至关重要。电网需要实时监测负荷情况、天气状况、电力供需等多个因素，以保持稳定运行。然而，这些数据源的特点不同，时效性要求也不同，因此需要智能的任务编排来满足电网运营的需求。

在电网多要素数据采集任务编排下，存在多种现有的数据采集和任务编排方案。例如，常见的现有方案有：第一种，手动任务编排方案，这是最基本的方法，运营人员手动创建和分配数据采集任务。这种方法灵活，但效率较低，无法应对大规模数据采集和多要素数据源的复杂性；第二种，定时轮询任务方案，具体是按照固定的时间间隔轮询各数据源，以获取数据。这种方法易于实现，但不适合需要即时数据的场景，且可能浪费资源；第三种，静态任务编排方案，在这种方法中，任务编排是静态的，预先定义好了任务的顺序和频率。这种方式适合一些固定的数据源，但无法应对动态变化的数据需求。

综上，目前的电网多要素数据采集难以应对电网多要素数据源的复杂性，存在未能充分利用可用资源、导致资源浪费的问题，难以灵活适应电网多要素数据源多样性的问题，无法高效地协调不同数据源的数据采集导致效率低下的问题，以及难以满足数据时效性要求的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，为此，本发明第一方面提出一种数据采集任务编排方法，所述方法包括：

获取对M个系统进行业务数据采集的M个采集任务，并获取各个所述采集任务的任务特征信息和待执行所述采集任务的N个节点各自的节点特征信息；N＜M；

根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度；

确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分；

基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值；

根据所述适配度和所述N个节点当前的资源可用性，确定第二任务编排策略，并计算所述第二任务编排策略对应的第二全局价值；

若所述第二全局价值大于所述第一全局价值，则根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略；若所述第二全局价值小于或等于所述第一全局价值，则回退到上一步，将所述第一任务编排策略确定为下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略；

根据所述目标任务编排策略将所述M个采集任务分配给所述N个节点，并开始执行所述采集任务；

其中，所述任务特征信息至少包括：所述采集任务对应的源数据的预计占用磁盘空间量、所述源数据所在业务系统的预计响应时长，以及执行所述采集任务预计占用的CPU核数；所述节点特征信息至少包括：所述节点的CPU核数、所述节点的存储容量。

可选地，所述根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度，包括：

对于其中一个节点，确定所述节点的CPU核数与所述存储容量的乘积；

对于其中一个采集任务，确定所述采集任务的占用磁盘空间量与所述采集任务的CPU核数的和；

将所述乘积与所述和的商，确定为所述其中一个节点与所述其中一个采集任务的适配度。

可选地，所述根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分，包括：

利用最大最小缩放法，分别将各个所述采集任务的任务特征信息的特征值映射至预设范围内，得到标准化特征值；

对于每个节点上分配的多个采集任务，将所述多个采集任务包括的多种类型的任务特征信息分别放入按照特征类别区分的多个特征集合中；

对于每个特征集合中的任务特征信息，获取其中最小的标准化特征值；

对于每个节点对应的多个特征集合，获取各个所述特征集合中的最小的所述标准化特征值，得到所述节点的多个最小标准化特征值；

获取各个所述特征类别的权重；

对于各个所述节点，按照所述权重对各个所述特征类别的最小标准化特征值进行加权求和，得到各个所述节点的任务效率得分；

将各个所述节点的任务效率得分求和，得到所述第一任务编排策略的第一任务效率得分。

可选地，所述任务特征信息包括多种类型，所述预设范围为(0，P)，P＞0，所述利用最大最小缩放法，分别将各个所述采集任务的任务特征信息的特征值映射至预设范围内，得到标准化特征值，包括：

获取所述采集任务包括的每个类型的任务特征信息的特征值，得到每个类型所对应的M个采集任务的M个特征值；

获取所述M个特征值中的最大特征值和最小特征值；

对于所述M个特征值中的每个特征值，确定所述特征值与所述最小特征值的第一差、所述最大特征值与所述最小特征值的第二差；

确定所述第一差和所述第二差的商，并确定所述商与P的乘积；

确定P与所述乘积的第三差，将所述第三差作为所述特征值的标准化特征值。

可选地，所述基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值，包括：

获取上一次迭代得到的上一次任务效率得分，以及上一次迭代得到的上一次全局价值；

确定所述第一任务效率得分和所述上一次任务效率得分之间的差；

确定所述差和预设的学习率的乘积，并确定所述乘积和所述上一次全局价值的和，得到所述第一任务编排策略的第一全局价值；所述学习率为位于0与1之间的小数。

可选地，所述根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略，包括：

根据所述第一任务编排策略构建第一任务分配表，所述第一任务分配表的每行对应一个节点被分配的多个采集任务；

从所述第一任务分配表中随机确定一个目标采集任务，计算将所述目标采集任务的位置移动到各个相邻的新位置上之后，所述目标采集任务与各个所述新位置对应的节点的适配度，得到多个适配度；

对所述多个适配度进行排序，并获取最高适配度对应位置处的节点当前的空闲磁盘空间和空闲CPU核数；

若所述空闲磁盘空间大于或等于所述目标采集任务的预计占用磁盘空间量，且所述空闲CPU核数大于或等于所述目标采集任务的预计占用的CPU核数，则将所述最高适配度对应的位置作为目标位置；

在所述第一任务分配表中，将所述目标位置上的原采集任务与所述目标采集任务对调位置，得到下一步任务分配表；

将所述下一步任务分配表所表证的任务编排策略作为下一步任务编排策略。

可选地，在将所述目标位置上的原采集任务与所述目标采集任务对调位置之前，还包括：

若所述空闲磁盘空间小于所述预计占用磁盘空间量，和/或，所述空闲CPU核数小于所述预计占用的CPU核数，则依次确定适配度较低的位置处的节点是否满足所述预计占用磁盘空间量和所述预计占用的CPU核数，直至寻找到满足所述预计占用磁盘空间量和所述预计占用的CPU核数的位置，得到所述目标位置。

本发明第二方面提出一种数据采集任务编排装置，所述装置包括：

获取模块，用于获取对M个系统进行业务数据采集的M个采集任务，并获取各个所述采集任务的任务特征信息和待执行所述采集任务的N个节点各自的节点特征信息；N＜M；

适配度确定模块，用于根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度；

任务效率得分确定模块，用于确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分；

第一全局价值计算模块，用于基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值；

第二全局价值计算模块，用于根据所述适配度和所述N个节点当前的资源可用性，确定第二任务编排策略，并计算所述第二任务编排策略对应的第二全局价值；

目标策略确定模块，用于若所述第二全局价值大于所述第一全局价值，则根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略；若所述第二全局价值小于或等于所述第一全局价值，则回退到上一步，将所述第一任务编排策略确定为下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略；

执行模块，用于根据所述目标任务编排策略将所述M个采集任务分配给所述N个节点，并开始执行所述采集任务；

本发明第三方面提出一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的数据采集任务编排方法。

本发明第四方面提出一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的数据采集任务编排方法。

本发明实施例具有以下有益效果：

本发明实施例提供的数据采集任务编排方法，获取对M个系统进行业务数据采集的M个采集任务，并获取各个所述采集任务的任务特征信息和待执行所述采集任务的N个节点各自的节点特征信息；N＜M；根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度；确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分；基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值；根据所述适配度和所述N个节点当前的资源可用性，确定第二任务编排策略，并计算所述第二任务编排策略对应的第二全局价值；若所述第二全局价值大于所述第一全局价值，则根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略；若所述第二全局价值小于或等于所述第一全局价值，则回退到上一步，将所述第一任务编排策略确定为下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略；根据所述目标任务编排策略将所述M个采集任务分配给所述N个节点，并开始执行所述采集任务。本方案根据节点特征信息和任务特征信息对数据采集任务进行编排，并基于全局价值更新任务编排策略，在全局价值收敛时得到最优的目标任务编排策略，从而使各个节点按照目标任务编排策略执行数据采集任务。上述方案能够更智能、高效地选择数据源和任务分配策略，以满足电网运营的多元要求，适应大规模数据采集的复杂性、适应动态变化的数据需求，有助于提高资源利用效率、运营效率、降低风险，并为电力系统的规划和决策提供更可靠的数据支持。

附图说明

图1为本发明实施例提供的一种数据采集任务编排方法的步骤流程图；

图2为本发明实施例提供的一种数据采集任务编排装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

图1为本发明实施例提供的一种数据采集任务编排方法的步骤流程图。

如图1所示，该方法包括以下步骤：

步骤101、获取对M个系统进行业务数据采集的M个采集任务，并获取各个所述采集任务的任务特征信息和待执行所述采集任务的N个节点各自的节点特征信息；N＜M；其中，所述任务特征信息至少包括：所述采集任务对应的源数据的预计占用磁盘空间量、所述源数据所在业务系统的预计响应时长，以及执行所述采集任务预计占用的CPU核数；所述节点特征信息至少包括：所述节点的CPU核数、所述节点的存储容量。

在本发明实施例中，电网业务数据主要包括：主配网要素数据、主配网营业量测数据、网架地理要素数据、气象信息要素数据和内部多要素数据等。其中，主配网要素数据主要来自电力公司数据中台，主配网营业量测数据来自企业级量测中心，网架地理要素数据主要来自PMP系统和数据中台，气象信息要素数据来自电科院气象相关系统，内部多要素数据主要来源于企业级量测中心、本地风管水储系统等。

本方案是利用计算机集群从上述各个系统中采集上述电网业务数据，设需从M个系统中采集业务数据，每个系统具有不同的数据采集接口，分别对应一个采集任务，共有M个采集任务。设计算机集群中共有N个节点，则需要使用N个节点执行M个采集任务。

在N＜M的情况下，为了解决多要素资源场景下数据访问效率低下的问题，本方案在原有资源接入结构中加入了数据采集任务编排组件。该任务编排组件考虑例如数据时效性要求、计算资源可用性和网络延迟等因素，对数据采集任务进行编排，将编排结果发送到任务调度层，以执行任务。

首先获取各个采集任务的任务特征信息，以及各个节点的节点特征信息。任务特征信息中的源数据预计占用的磁盘空间量，衡量该采集任务的数据量大小（Data Size），可以用字节、千字节、兆字节、千兆字节等表示。业务系统的预计响应时长，衡量了数据源系统响应请求及执行操作所需的时间，可以用毫秒（ms）表示。此外，如文本、图片和视频、音频等不同类型的数据，计算机计算处理的难度是不同的，所需使用的CPU核数也是不同的，因此，预计占用的CPU核数能够衡量该采集任务数据处理的复杂程度，可以用核（core）表示。

节点特征信息中的CPU核数，是指该计算机节点能用来执行采集任务的CPU核数，节点的存储容量是指该计算机节点能用来存储采集到的业务数据的空间容量。

步骤102、根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度。

具体根据采集任务中源数据预计占用的磁盘空间量和节点的存储容量，确定节点与采集任务的存储容量适配度；根据采集任务预计占用的CPU核数和节点的CPU核数，确定节点与采集任务的CPU核数适配度。

根据上述两个适配度综合确定各个节点执行各个采集任务的适配度，从而得到各个节点与各个采集任务之间两两匹配的适配度。

步骤103、确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分。

本决策算法是一种属于机器学习范畴的无模型强化学习算法。它适用于需要随时间做出一系列决策的场景，而最优决策取决于历史背景和优先级。

本决策算法的学习过程包括：1.初始化。使用任意值或零初始化全局价值表。2.探索与开发。代理决定是探索新动作还是利用当前知识。平衡探索和开发对于学习至关重要。3.动作选择。基于当前状态，代理使用探索策略选择一个动作。4.观察和奖励。代理执行所选动作，观察新状态，并获得奖励。5.更新全局价值。根据观察到的奖励和下一个状态的全局价值，更新当前状态中所选动作的全局价值。6.重复。多次迭代或直到收敛为止，重复上述过程。

首先，将M个采集任务的任务特征信息和N个节点的节点特征信息输入决策算法，决策算法将M个采集任务随机分配给N个节点，得到第一任务编排策略。根据预先设计的效率评分公式，结合任务特征信息的特征值和权重，对第一任务编排策略的执行效率进行评分，得到第一任务效率评分。

第一任务效率评分具体衡量N个节点采用第一任务编排策略执行M个采集任务的效率。

步骤104、基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值。

具体利用本算法中的全局价值计算函数，结合第一任务效率得分，计算第一任务编排策略的第一全局价值。通过比较前后两次分配策略的全局价值，能够确定下一次任务分配是退回到上一步，还是继续沿着当前的分配策略往下走。

步骤105、根据所述适配度和所述N个节点当前的资源可用性，确定第二任务编排策略，并计算所述第二任务编排策略对应的第二全局价值。

具体从M个采集任务中随机选择一个目标采集任务，获取目标采集任务和各个节点的适配度，从中各个节点中选择适配度较高、且该节点的当前的资源能够满足该采集任务的目标节点，将该目前节点作为目标采集任务下一步的执行节点，并据此确定第二任务编排策略。

当前的资源可用性，具体是指该节点当前的CPU核数是否满足该采集任务预计占用的CPU核数、该节点当前的存储容量是否满足该采集任务预计占用的磁盘空间量。

当确定第二任务编排策略后，根据任务特征信息确定第二任务编排策略的第二任务效率得分。然后利用本方案中的全局价值计算函数，结合第二任务效率得分，计算第二任务编排策略的第二全局价值。

步骤106、若所述第二全局价值大于所述第一全局价值，则根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略；若所述第二全局价值小于或等于所述第一全局价值，则将各个节点的任务分配状态回退到所述第一任务编排策略中的状态，重新确定下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略。

具体地，比较前后两次分配策略的全局价值，若第二全局价值大于第一全局价值，则继续沿着当前的分配策略往下走，具体根据步骤105中的方法，确定下一步的任务编排策略。若第二全局价值小于或等于第一全局价值，则回退到上一步，将各个节点的任务分配状态回退到第一任务编排策略中的状态，并重新根据适配度和N个节点当前的资源可用性，确定下一步任务编排策略。

由于集群节点的可用资源是不断变化的，我们在探索的时候其他任务也在同时进行。当时我们计算匹配度，探索行动时，由于匹配度最高的节点当时资源不足，我们选择了次级匹配度的节点。在我们执行行动和观察奖励时，会调用集群API确认这时集群节点的信息。若发现匹配度最高的节点中已运行的部分任务完成而且资源足以满足该任务，则会出现第二全局价值小于第一全局价值这种情况。在这种情况下，我们需要回退到上一步，重新探索。

由于随着任务的分配和执行，节点的当前资源可用性处于不断变化中，重新确定的下一步任务编排策略与上一次确定的第二任务编排策略一般是不同的。

上述步骤103-步骤106的过程重复多次迭代，观察数据采集任务的编排，选择并执行行动，计算各个节点的全局价值。随着时间的推移和持续更新，全局价值在一段时间内保持稳定，当前全局价值和上一次全局价值的差趋近于0，不再发生明显的波动，我们认为全局价值收敛了。此时得到了最优的任务编排，将全局价值收敛时的各个节点的任务分配状态确定为目标任务编排策略。

步骤107、根据所述目标任务编排策略将所述M个采集任务分配给所述N个节点，并开始执行所述采集任务。

目标任务编排策略具体包括N个节点中每个节点对应分配的一个或多个采集任务，其中，每个节点的多个采集任务具有一定的执行排序。

任务编排组件将目标任务编排策略发送到任务调度器，任务调度器进行任务调度。具体地，任务调度器在各个节点中分别创建容器（pod），根据采集任务分配带宽、CPU、内存、磁盘空间等资源，并在节点执行完数据采集任务后反馈任务的执行结果。

本方案为任务编排组件提供了一个强大的框架，使其能够根据历史相关性和优先级自主学习和调整决策流程。通过利用这种强化学习算法，编排组件可以动态优化数据采集任务，从而在不同场景中提高效率和适应性。

综上，在本发明实施例中，获取对M个系统进行业务数据采集的M个采集任务，并获取各个所述采集任务的任务特征信息和待执行所述采集任务的N个节点各自的节点特征信息；N＜M；根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度；确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分；基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值；根据所述适配度和所述N个节点当前的资源可用性，确定第二任务编排策略，并计算所述第二任务编排策略对应的第二全局价值；若所述第二全局价值大于所述第一全局价值，则根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略；若所述第二全局价值小于或等于所述第一全局价值，则回退到上一步，将所述第一任务编排策略确定为下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略；根据所述目标任务编排策略将所述M个采集任务分配给所述N个节点，并开始执行所述采集任务。本方案根据节点特征信息和任务特征信息对数据采集任务进行编排，并基于全局价值更新任务编排策略，在全局价值收敛时得到最优的目标任务编排策略，从而使各个节点按照目标任务编排策略执行数据采集任务。上述方案能够更智能、高效地选择数据源和任务分配策略，以满足电网运营的多元要求，适应大规模数据采集的复杂性、适应动态变化的数据需求，有助于提高资源利用效率、运营效率、降低风险，并为电力系统的规划和决策提供更可靠的数据支持。

在一种可能的实施方式中，步骤102包括：

步骤1021、对于其中一个节点，确定所述节点的CPU核数与所述存储容量的乘积；

步骤1022、对于其中一个采集任务，确定所述采集任务的占用磁盘空间量与所述采集任务的CPU核数的和；

步骤1023、将所述乘积与所述和的商，确定为所述其中一个节点与所述其中一个采集任务的适配度。

在步骤1021-步骤1023中，具体按照如下公式计算节点与采集任务的适配度：

适配度=节点CPU核数×节点存储容量/（采集任务预计占用的CPU核数+采集任务对应的源数据的预计占用磁盘空间量）（1）

例如，有两个节点：节点X和节点Y。这两个节点具有不同的计算能力和存储能力。同时，有两个数据采集任务：任务A和任务B，它们具有不同的数据量和计算需求。其中，节点X的计算能力：4核CPU、存储能力：500GB；

节点Y的计算能力：8核CPU、存储能力：1TB；任务A的数据量：200GB、计算需求：需要4核CPU；任务B的数据量：500GB、计算需求：需要6核CPU。

这样，任务A与节点X的匹配度为： (4 × 500) /(200+4) ≈ 9.80，任务A与节点Y的匹配度为：(8 × 1000) / (200+4) ≈ 39.22，任务B与节点X的匹配度为：(4 × 500) /(500+6) ≈ 3.95，任务B与节点Y的匹配度为：(8 × 1000) /(500+6)≈ 15.81。

根据适配度，任务编排组件可以决定任务的分配策略。例如，任务A更有可能被分配给节点Y，任务B可能被分配给节点Y。

在一种可能的实施方式中，步骤103中根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分，包括：

步骤1031、利用最大最小缩放法，分别将各个所述采集任务的任务特征信息的特征值映射至预设范围内，得到标准化特征值；

步骤1032、对于每个节点上分配的多个采集任务，将所述多个采集任务包括的多种类型的任务特征信息分别放入按照特征类别区分的多个特征集合中；

步骤1033、对于每个特征集合中的任务特征信息，获取其中最小的标准化特征值；

步骤1034、对于每个节点对应的多个特征集合，获取各个所述特征集合中的最小的所述标准化特征值，得到所述节点的多个最小标准化特征值；

步骤1035、获取各个所述特征类别的权重；

步骤1036、对于各个所述节点，按照所述权重对各个所述特征类别的最小标准化特征值进行加权求和，得到各个所述节点的任务效率得分；

步骤1037、将各个所述节点的任务效率得分求和，得到所述第一任务编排策略的任务效率得分。

在步骤1031-步骤1037中，首先将任务特征信息和节点特征信息进行标准化。标准化是将数据缩放和转换为共同范围，而不扭曲其相对差异的过程。标准化是使不同的指标和度量标准可比较的关键。

例如：将预计占用磁盘空间量转换为常见的单位，如兆字节（MB）或千兆字节（GB），以使其在不同数据类型间保持一致。通过将网络延迟（Latency）：转换为一致的时间单位（例如毫秒）来一致化这些基于时间的度量标准，以便更好地进行比较。将预计占用CPU 核数使用标准化为核（core）数，以确保在不同的系统和配置下具有一致性。

在将特征信息的单位进行一致化之后，我们需要将特征值的范围限制在预设范围之内，以对各个不同类型的特征值在相同的尺度下进行衡量，方便后续对任务编排策略进行评分。

可以采用最大最小缩放法，将所有特征值的范围限制在预设范围之内，得到各个特征值对应的标准化特征值。

第一任务编排策略的任务效率得分可以采用如下公式进行计算：

（2）

其中，R表示任务效率得分，i表示节点，n表示节点的总数，w _k表示第k个特征的权重，j表示采集任务代号，x _jk表示第j个采集任务的第k个特征的评分。

具体地，对于每个节点上分配的多个采集任务，将多个采集任务包括的多种类型的任务特征信息分别放入按照特征类别区分的多个特征集合中，得到集合(x ₁₁ ,x ₂₁ ,…, x _j1)、(x ₁₂ ,x ₂₂ ,…,x _j2)、……、(x _1k ,x _2k ,…,x _jk)。取各个集合中最小的标准化特征值，即为min(x ₁₁ ,x ₂₁ ,…,x _j1)、min(x ₁₂ ,x ₂₂ ,…,x _j2)、……、min(x _1k ,x _2k ,…,x _jk)。

对于每个节点对应的多个特征集合，获取各个所述特征集合中的最小的所述标准化特征值，得到所述节点的多个最小标准化特征值，即分别获取每个节点i对应的min(x ₁₁ , x ₂₁ ,…,x _j1)、min(x ₁₂ ,x ₂₂ ,…,x _j2)、……、min(x _1k ,x _2k ,…,x _jk)。

然后按照权重对各个特征类别的最小标准化特征值进行加权求和，即分别对各个节点按照下式计算各个节点的任务效率得分：

最后将各个所述节点的任务效率得分求和，得到所述第一任务编排策略的任务效率得分。

例如，各个采集任务的标准化特征值如表1所示：

表1

假设有两个执行上述采集任务的节点，其中，节点x上分配任务A和任务B，节点Y上分配任务C和任务D。第一任务编排策略如表2所示：

表2

假设预计响应时长的权重是50%，预计占用磁盘空间量的权重是25%，预计占用cpu核数的权重是25%。则第一任务编排策略的第一任务效率得分为：

R = (30×0.25 + 20×0.5 + 50×0.25) + (30×0.25 + 20×0.5 + 40×0.25)=57.5。

在一种可能的实施方式中，所述任务特征信息包括多种类型，所述预设范围为(0，P)，P＞0，步骤1031包括：

步骤10311、获取所述采集任务包括的每个类型的任务特征信息的特征值，得到每个类型所对应的M个采集任务的M个特征值；

步骤10312、获取所述M个特征值中的最大特征值和最小特征值；

步骤10313、对于所述M个特征值中的每个特征值，确定所述特征值与所述最小特征值的第一差、所述最大特征值与所述最小特征值的第二差；

步骤10314、确定所述第一差和所述第二差的商，并确定所述商与P的乘积；

步骤10315、确定P与所述乘积的第三差，将所述第三差作为所述特征值的标准化特征值。

在步骤10311-步骤10315中，按照如下公式计算标准化特征值：

（3）

其中，X_norm表示标准化特征值，X表示任务特征信息的特征值，X_min表示最小特征值，X_max表示最大特征值，预设范围为(0，P)。

X-X_min为第一差，X_max-X_min为第二差。

在一种可能的实施方式中，步骤104包括：

步骤1041、获取上一次迭代得到的上一次任务效率得分，以及上一次迭代得到的上一次全局价值；

步骤1042、确定所述第一任务效率得分和所述上一次任务效率得分之间的差；

步骤1043、确定所述差和预设的学习率的乘积，并确定所述乘积和所述上一次全局价值的和，得到所述第一任务编排策略的第一全局价值；所述学习率为位于0与1之间的小数。

在步骤1041-步骤1043中，全局价值的计算方式如下所示：

（4）

其中，Q_t表示本次的全局价值，Q_t-1表示上一次全局价值，α表示学习率，R_t表示本次的任务效率得分，R_t-1表示上一次任务效率得分。

具体地，全局价值表示任务编排策略在多次迭代下的累积价值，学习率α是一个介于0和1之间的参数，用于控制全局价值的更新步长。它决定了在每次学习中对全局价值的调整程度。较大的学习率表示更大的更新步长，而较小的学习率表示较小的更新步长。α目的是为了保证随着时间的推移和持续更新，当前全局价值和上一次全局价值的差更快的趋近于0, 使全局价值收敛的更快。

R_t是在执行动作之后获得的即时反馈。它表示当前任务编排下基于占用磁盘空间量、网络响应时长、CPU占用，在多节点下的一个综合评分。R的初始化值为0。

示例性地，若R₀= (30×0.25 + 20×0.5 + 50×0.25) + (30×0.25 + 20×0.5+ 40×0.25)=57.5，R₁= （30×0.25 + 20×0.5 + 50×0.25） + （30×0.25 + 90×0.5 +50×0.25） = 92.5。α学习率设置为 0.1。

则Q₁= 0 + 0.1×（92.5-57.5） = 3.5。

在得到第一全局价值后，本方案根据适配度和N个节点当前的资源可用性，确定第二任务编排策略，并计算第二任务编排策略对应的第二全局价值；若第二全局价值大于第一全局价值，则根据适配度和节点当前的资源可用性确定下一步任务编排策略；若第二全局价值小于或等于第一全局价值，则回退到上一步，将第一任务编排策略确定为下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略。

在一种可能的实施方式中，步骤106包括：

步骤1061、根据所述第一任务编排策略构建第一任务分配表，所述第一任务分配表的每行对应一个节点被分配的多个采集任务。

第一任务分配表如下表示例：

表3

其中，第一行包括节点X被分配的任务A、任务B、任务C，第二行包括节点Y被分配的任务D、任务E、任务F，第三行包括节点Z被分配的任务G、任务H、任务I。

步骤1062、从所述第一任务分配表中随机确定一个目标采集任务，计算将所述目标采集任务的位置移动到各个相邻的新位置上之后，所述目标采集任务与各个所述新位置对应的节点的适配度，得到多个适配度。

从第一任务分配表中随机确定一个目标采集任务，如确定任务E为目标采集任务，那么，与任务E相邻的位置分别是任务B、任务D、任务F、任务G所在的位置。将位置E移动到任务B所在的位置，则任务E的执行节点变为节点X，计算任务E和节点X之间的适配度。将位置E移动到任务D所在的位置，则任务E的执行节点仍为节点Y，计算任务E和节点Y之间的适配度。这样，得到目标采集任务与各个新位置对应的节点的适配度。

步骤1063、对所述多个适配度进行排序，并获取最高适配度对应位置处的节点当前的空闲磁盘空间和空闲CPU核数。

本方案对任务编排的探索并不是随机的。本方案在编排某个任务时，会优先探索把该任务调度到其适配度最高的节点上去运行。除非该节点的资源不足以支撑该采集任务，才会探索把该任务调度到次一级适配度的节点。

因此，获取最高适配度对应位置处的节点当前的空闲磁盘空间和空闲CPU核数。

示例性地，若任务E与节点X、节点Y、节点Z的适配度大小排序为：节点X＞节点Z＞节点Y，则获取节点X当前的空闲磁盘空间和空闲CPU核数。

步骤1064、若所述空闲磁盘空间大于或等于所述目标采集任务的预计占用磁盘空间量，且所述空闲CPU核数大于或等于所述目标采集任务的预计占用的CPU核数，则将所述最高适配度对应的位置作为目标位置。

若空闲磁盘空间大于或等于目标采集任务的预计占用磁盘空间量，则说明节点当前的资源足以支撑该采集任务，则目标采集任务可以移动到该位置。

例如，若节点X当前的空闲磁盘空间和空闲CPU核数满足任务E的资源要求，则将任务E移动到任务B所在的位置。

步骤1065、在所述第一任务分配表中，将所述目标位置上的原采集任务与所述目标采集任务对调位置，得到下一步任务分配表。

目标采集任务移动到目标位置后，将原采集任务再移动到目标采集任务的原位置上去，即对调位置，这样，两个采集任务的执行节点都发生了变化，得到下一步任务分配表。

例如，将任务E和任务B的位置进行对调，得到下一步任务分配表。

步骤1066、将所述下一步任务分配表所表证的任务编排策略作为下一步任务编排策略。

将下一步任务分配表中节点和采集任务的分配关系确定为下一步任务编排策略。

在一种可能的实施方式中，在步骤1064之前，还包括：

步骤1067、若所述空闲磁盘空间小于所述预计占用磁盘空间量，和/或，所述空闲CPU核数小于所述预计占用的CPU核数，则依次确定适配度较低的位置处的节点是否满足所述预计占用磁盘空间量和所述预计占用的CPU核数，直至寻找到满足所述预计占用磁盘空间量和所述预计占用的CPU核数的位置，得到所述目标位置。

示例性地，任务E与节点X、节点Y、节点Z的适配度大小排序为：节点X＞节点Z＞节点Y，若节点X的当前资源不能满足目标采集任务，则确定节点Z的当前资源是否能够满足，若节点Z也不能满足，则确定节点Y的当前资源是否能够满足，直到寻找到满足目标采集任务所需资源的位置。若节点Z的当前资源能够满足，则确定任务G所在的位置为目标位置。

在本方案中，从第一任务分配表中随机确定一个目标采集任务，计算将目标采集任务的位置移动到各个相邻的新位置上之后，目标采集任务与各个新位置对应的节点的适配度，得到多个适配度。首先检查具有最高匹配度的节点，这是最优选项。同时调用集群API获取该节点空闲CPU核数以及空闲磁盘空间，如果该节点具有的空闲CPU以及空闲磁盘空间均能满足任务需求，则将任务分配给该节点。如果最高匹配度的节点资源不足以支持任务，会依次考虑匹配度较低的节点，直到找到足够的资源支持任务的节点。这确保了任务在节点上得到满足。

本方案根据适配度和节点当前的资源可用性确定下一步任务编排策略，相比于随机确定下一步任务编排策略，能够提高任务编排效率，保证目标采集任务所需的资源能够满足。

图2是本发明实施例提供的一种欺诈交易检测模块的结构框图。如图2所示，所述装置200包括：

获取模块201，用于获取对M个系统进行业务数据采集的M个采集任务，并获取各个所述采集任务的任务特征信息和待执行所述采集任务的N个节点各自的节点特征信息；N＜M；

适配度确定模块202，用于根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度；

任务效率得分确定模块203，用于确定将所述M个采集任务随机分配给所述N个节点的第一任务编排策略，并根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分；

第一全局价值计算模块204，用于基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值；

第二全局价值计算模块205，用于根据所述适配度和所述N个节点当前的资源可用性，确定第二任务编排策略，并计算所述第二任务编排策略对应的第二全局价值；

目标策略确定模块206，用于若所述第二全局价值大于所述第一全局价值，则根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略；若所述第二全局价值小于或等于所述第一全局价值，则回退到上一步，将所述第一任务编排策略确定为下一步任务编排策略；如此进行多次迭代更新，直至全局价值收敛，得到目标任务编排策略；

执行模块207，用于根据所述目标任务编排策略将所述M个采集任务分配给所述N个节点，并开始执行所述采集任务；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据采集任务编排方法，其特征在于，所述方法包括：

其中，所述任务特征信息至少包括：所述采集任务对应的源数据的预计占用磁盘空间量、所述源数据所在业务系统的预计响应时长，以及执行所述采集任务预计占用的CPU核数；所述节点特征信息至少包括：所述节点的CPU核数、所述节点的存储容量；

所述根据所述节点特征信息和所述任务特征信息，确定各个所述节点执行各个所述采集任务的适配度，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述任务特征信息确定所述第一任务编排策略的第一任务效率得分，包括：

获取各个所述特征类别的权重；

3.根据权利要求2所述的方法，其特征在于，所述任务特征信息包括多种类型，所述预设范围为(0，P)，P＞0，所述利用最大最小缩放法，分别将各个所述采集任务的任务特征信息的特征值映射至预设范围内，得到标准化特征值，包括：

获取所述M个特征值中的最大特征值和最小特征值；

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一任务效率得分和预设的价值计算函数，计算所述第一任务编排策略的第一全局价值，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述适配度和所述节点当前的资源可用性确定下一步任务编排策略，包括：

6.根据权利要求5所述的方法，其特征在于，在将所述目标位置上的原采集任务与所述目标采集任务对调位置之前，还包括：

7.一种数据采集任务编排装置，其特征在于，所述装置包括：

所述适配度确定模块具体用于：

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一项所述的数据采集任务编排方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一项所述的数据采集任务编排方法。