CN117608809A

CN117608809A - 基于梯度提升决策树的多任务计划进度预测系统

Info

Publication number: CN117608809A
Application number: CN202410071167.0A
Authority: CN
Inventors: 高硕�; 肖龙斌; 姜阳; 史艳超; 程丹丹; 王文博; 李新新; 苏琳; 黄寅
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-27
Anticipated expiration: 2044-01-18
Also published as: CN117608809B

Abstract

本发明涉及计算机技术领域，本发明公开了基于梯度提升决策树的多任务计划进度预测系统，包括数据获取模块，用于收集历史任务进度样本数据以及历史节点确定样本数据；模型训练模块，用于训练出第一GBDT模型；以及训练出第二GBDT模型；第一模型求解模块，用于根据实时任务进度特征数据和第一GBDT模型，获得每个任务的任务计划进度；第二模型求解模块，用于基于实时任务调度特征数据和第二GBDT模型，获得初匹配云计算节点集合；方案生成模块，用于根据任务计划进度和初匹配云计算节点集合进行分析，获取任务调度方案；根据任务调度方案将任务分别分发至每个对应的云计算节点进行计算处理。

Description

基于梯度提升决策树的多任务计划进度预测系统

技术领域

本发明涉及计算机技术领域，更具体地说，本发明涉及基于梯度提升决策树的多任务计划进度预测系统。

背景技术

近年来，云计算崭露头角，是一项新兴技术，其核心理念是分布式计算，即将传统的单机节点计算模式转变为多台云服务器协同计算，通过多台云服务器针对多个任务进行并行处理，这不仅增强了系统的可扩展性，还有助于降低计算机硬件成本；随着近年的快速发展，云计算已经演化成为一项成熟的计算服务，为处理大规模数据提供了高效且经济实惠的解决方案；然而，在云计算环境中，大量的任务（例如数据处理、机器学习训练、图像处理等）需要在多个云服务器上并行执行；每个任务的处理进度可能会受到服务器资源、网络延迟、任务类型和服务器负载等多个因素的影响；因此，任务进度的精确预测对于有效的任务调度、资源分配和性能优化至关重要。

目前，缺乏针对多任务计划进度进行预测系统及方法，现有的系统及方法大多根据多个任务直接进行云服务器调度设计，例如授权公告号为CN111371856B的中国专利公开了一种云计算任务调度方法、装置、云计算系统及服务器；上述方法以及现有技术虽能减少业务等待时间，但缺乏对多个任务进行任务处理进度的预测，无法在现有云计算调度方案的基础上进行二次分析，并在结合任务计划进度的基础上对初始云计算调度方案进行调整修正，从而难做到更有效地分配云服务器资源，进而难以进一步地减少任务处理等待时间，且难以在服务器故障或其他问题发生时，对多个任务进行任务调度策略的快速调整，进而难以确保业务的长久稳定运行。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供基于梯度提升决策树的多任务计划进度预测系统。

为实现上述目的，本发明提供如下技术方案：

基于梯度提升决策树的多任务计划进度预测系统，所述系统包括：

数据获取模块，用于预先收集历史任务进度样本数据以及历史节点确定样本数据；

模型训练模块，用于基于历史任务进度样本数据，训练出用于执行预测的第一GBDT模型；以及基于历史节点确定样本数据，训练出用于执行分类的第二GBDT模型；

第一模型求解模块，用于获取T时刻下业务端上传的Q个任务，以及获取系统对Q个任务分配的初始云计算节点，基于Q个任务和初始云计算节点获取实时任务进度特征数据，根据实时任务进度特征数据和第一GBDT模型，获得每个任务的任务计划进度；

第二模型求解模块，用于获取实时任务调度特征数据，基于实时任务调度特征数据和第二GBDT模型，获得初匹配云计算节点集合，所述初匹配云计算节点集合包含多个待分配云计算节点；

方案生成模块，用于根据任务计划进度和初匹配云计算节点集合进行分析，以获取任务调度方案；所述任务调度方案包含Q个任务对应的云计算节点；

任务分发模块，用于根据任务调度方案将多个任务分别分发至每个对应的云计算节点进行计算处理。

进一步地，所述历史任务进度样本数据包括自变量数据和因变量数据，所述自变量数据包括任务相关数据、服务器相关数据以及其他相关数据；所述任务相关数据包括M个任务的任务标识、每个任务的任务数据量、每个任务的数据类型，所述数据类型包括整型、浮点型、字符型和布尔型；所述服务器相关数据包括每个任务由系统分配的云计算节点的节点标识、N个云计算节点的硬件规格、每个云计算节点的性能指标、每个云计算节点的当前任务量以及每个云计算节点的当前可用计算资源；所述硬件规格包括CPU型号、核数和内存容量；所述性能指标包括处理器速度、内存带宽和硬盘I/O速度；所述其他相关数据包括网络延迟、网络带宽和网络传输速度；所述因变量数据包括每个云计算节点的任务计划进度，M、N为大于零的正整数。

进一步地，所述每个云计算节点的任务计划进度的获取逻辑如下：

计算每个云计算节点执行完分配给它的任务所需要的时间，其计算公式如下：

；

式中：表示第i个云计算节点执行完分配给它的任务所需要的时间；/>表示第j个任务和第i个云计算节点的分配关系，其i的取值范围为：/>,j的取值范围为：；/>表示第j个任务的数据量，/>表示第i个云计算节点上的CPU核心数量，/>表示第i个云计算节点上每个CPU核心的主频，/>表示第i个云计算节点的浮点运算次数；

计算每个云计算节点执行完分配给它的任务所需要的消耗资源，其计算公式如下：

；

式中：表示第i个云计算节点执行完分配给它的任务所需要的消耗资源， />表示第i个云计算节点；

统计每个云计算节点执行完分配给它的任务所需要的时间以及每个云计算节点执行完分配给它的任务所需要的消耗资源，得到统计后的数据，将统计后的数据作为每个云计算节点的任务计划进度。

进一步地，所述历史节点确定样本数据包括每个云计算节点的任务计划进度；所述历史节点确定样本数据分为带正标签的节点样本数据集和带负标签的节点样本数据集每秒消耗的资源。

进一步地，所述正标签和负标签的确定逻辑为：

提取每个云计算节点执行完分配给它的任务所需要的时间以及每个云计算节点执行完分配给它的任务所需要的消耗资源；

当每个云计算节点执行完分配给它的任务所需要的时间小于预设标准时间，则将对应的云计算节点打上正标签，所述正标签用数值“1”表示；

当每个云计算节点执行完分配给它的任务所需要的时间大于等于预设标准时间，则将对应的云计算节点打上负标签，所述负标签用数值“0”表示；

当每个云计算节点执行完分配给它的任务所需要的消耗资源小于每个云计算节点的剩余计算资源时，则将对应的云计算节点打上正标签，所述正标签用数值“1”表示；

当每个云计算节点执行完分配给它的任务所需要的消耗资源大于等于每个云计算节点的剩余计算资源时，则将对应的云计算节点打上负标签，所述负标签用数值“0”表示。

进一步地，所述第一GBDT模型为梯度提升决策树模型结构，使用回归树作为基学习器，所述第一GBDT模型的生成逻辑如下：

a1：提取历史任务进度样本数据中的自变量数据和因变量数据，并进行归一化处理，将归一化后的自变量数据和因变量数据划分为回归训练集和回归测试集；

a2：初始化一个浅层回归树，将所述浅层回归树作为初始回归树，所述初始回归树的深度为3；

a3：将回归训练集中的自变量数据输入初始回归树进行预测，计算预测值与因变量数据对应的实际目标值之间的残差；

a4：基于所有残差构成新的回归训练集，根据新的回归训练集构建第g=g+1个回归树，g为大于零的正整数，g的初始值为0；

a5：将初始回归树与第g=g+1个回归树相加，得到更新模型；

a6：重复上述步骤a3～a5，直至残差小于预设残差阈值，得到初始GBDT模型；

a7：将回归测试集中的自变量输入初始GBDT模型中进行预测，得到预测值，以最小化预测准确度之和为训练目标，对初始GBDT模型进行模型评测，若预测准确度之和小于预设准确度之和的阈值，则将对应初始GBDT模型作为第一GBDT模型，若预测准确度之和大于等于预设准确度之和的阈值，则将对使用原训练集再次进行模型训练，直至测试结果满足设定阈值；预测准确度之和的计算公式为：；式中：/>表示预测准确度之和，/>表示回归测试集中第/>组测试数据的预测值，/>表示回归测试集中第组测试数据的实际值，Z为总组数。

进一步地，所述第二GBDT模型为梯度提升决策树模型结构，使用分类树作为基学习器，所述第二GBDT模型的生成逻辑如下：

b1：提取历史节点确定样本数据中的节点确定特征数据和标签，并进行归一化处理，将归一化后的节点确定特征数据和标签划分为分类训练集和分类测试集；

b2：初始化一个浅层分类树，将所述浅层分类树作为初始分类树，所述初始分类树的深度为3；

b3：将分类训练集中的节点确定特征数据输入初始分类树进行预测，计算预测概率与实际标签的梯度；

其中，梯度的计算公式为：/>，/>为每组训练集的编号;

b4：基于所有构成新的分类训练集，根据新的分类训练集构建第K=K+1个分类树，K为大于零的正整数，K的初始值为0；

b5：将初始分类树与第K=K+1个分类树相加，得到更新模型；

b6：重复上述步骤b3～b5，直至梯度小于预设梯度阈值，得到初始GBDT模型；

b7：将分类测试集中的节点确定特征数据输入初始GBDT模型中进行预测，得到，以最小化预测准确度之和为训练目标，对初始GBDT模型进行模型评测，若预测准确度之和小于预设准确度之和的阈值，则将对应初始GBDT模型作为第二GBDT模型，若预测准确度之和大于等于预设准确度之和的阈值，则将对使用原训练集再次进行模型训练，直至测试结果满足设定阈值；预测准确度之和的计算公式为：/>；式中：表示预测准确度之和，/>表示分类测试集中第/>组测试数据的预测值，/>表示分类测试集中第/>组测试数据的实际标签，Y为总组数。

进一步地，所述根据任务计划进度和初匹配云计算节点集合进行分析，包括：

将系统对Q个任务分配的初始云计算节点作为第一节点集合，以及将初匹配云计算节点集合作为第二节点集合；

将第一节点集合与第二节点集合进行比对，若第一节点集合与第二节点集合中的节点数量和节点标识完全一致，则将第一节点集合或第二节点集合作为任务调度方案；若第一节点集合与第二节点集合中的节点数量和节点标识不一致，则基于第一节点集合与第二节点集合进行次轮分析，以获取任务调度方案。

进一步地，所述基于第一节点集合与第二节点集合进行次轮分析，包括：

c1：对第一节点集合与第二节点集合进行交集计算，以得到多个一致的云计算节点，将所有的一致的云计算节点作为第三节点集合；

c2：计算第一节点集合减去第二节点集合的差集，得到第一差集，以及计算第二节点集合减去第一节点集合的差集，得到第二差集；将第一差集与第二差集进行并集计算，得到第四节点集合；

c3：获取第一节点集合对应的第一任务集合，以及获取第三节点集合对应的第二任务集合；计算第一任务集合与第二任务集合的元素数量差，以获取剩余待分配任务集合，所述剩余待分配任务集合中包含R个待分配任务，R为大于零的正整数；

c4：提取剩余待分配任务集合中的第r个待分配任务，以及提取第四节点集合中的第e个待分配的云计算节点，r、e为大于零的正整数；

c5：计算第r个待分配任务与第e个待分配的云计算节点的匹配系数；

c6：将匹配系数与预设匹配阈值进行比对，若匹配系数大于等于预设匹配阈值，则将对应待分配的云计算节点作为与第r个待分配任务对应的云计算节点，并令r=r+1，以及令e=e-1，并跳转回步骤c4；若匹配系数小于预设匹配阈值，则令e=e+1，并跳转回步骤c4;

c7：重复上述步骤c4～c6，直至r=R时，结束循环，得到第五节点集合；

c8：将第三节点集合与第五节点集合进行合并，得到第六节点集合，将第六节点集合作为任务调度方案，所述第六节点集合中包含了每个任务对应的云计算节点。

进一步地，所述计算第r个待分配任务与第e个待分配的云计算节点的匹配系数，包括：

计算第r个待分配任务被第e个待分配的云计算节点执行完成所需要的时间；

计算第r个待分配任务被第e个待分配的云计算节点执行完成所需要的消耗资源；

将第r个待分配任务被第e个待分配的云计算节点执行完成所需要的时间作为实际需要时间，以及将第r个待分配任务被第e个待分配的云计算节点执行完成所需要的消耗资源作为实际需要消耗资源；

获取预存于系统数据库中的设定标准计算时间和设定标准消耗资源；

根据实际需要时间、实际需要消耗资源、设定标准计算时间和设定标准消耗资源进行公式化计算，得到匹配系数；其计算公式为：；式中：/>表示匹配系数，/>表示实际需要时间，/>表示设定标准计算时间，/>表示实际需要消耗资源，/>表示设定标准消耗资源，/>和/>为大于零的修正因子，/>。

进一步地，基于梯度提升决策树的多任务计划进度预测方法，其基于上述的基于梯度提升决策树的多任务计划进度预测系统实现，所述方法包括：

S101：预先收集历史任务进度样本数据以及历史节点确定样本数据；

S102：基于历史任务进度样本数据，训练出用于执行预测的第一GBDT模型；以及基于历史节点确定样本数据，训练出用于执行分类的第二GBDT模型；

S103：获取T时刻下业务端上传的Q个任务，以及获取系统对Q个任务分配的初始云计算节点，基于Q个任务和初始云计算节点获取实时任务进度特征数据，根据实时任务进度特征数据和第一GBDT模型，获得每个任务的任务计划进度；

S104：获取实时任务调度特征数据，基于实时任务调度特征数据和第二GBDT模型，获得初匹配云计算节点集合，所述初匹配云计算节点集合包含多个待分配云计算节点；

S105：根据任务计划进度和初匹配云计算节点集合进行分析，以获取任务调度方案；所述任务调度方案包含Q个任务对应的云计算节点；

S106：根据任务调度方案将多个任务分别分发至每个对应的云计算节点进行计算处理。

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述所述的基于梯度提升决策树的多任务计划进度预测方法。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时实现上述所述的基于梯度提升决策树的多任务计划进度预测方法。

相比于现有技术，本发明的有益效果在于：

本申请公开了一种基于梯度提升决策树的多任务计划进度预测系统，设置有数据获取模块，用于收集历史任务进度样本数据以及历史节点确定样本数据；模型训练模块，用于训练出第一GBDT模型；以及训练出第二GBDT模型；第一模型求解模块，用于根据实时任务进度特征数据和第一GBDT模型，获得每个任务的任务计划进度；第二模型求解模块，用于基于实时任务调度特征数据和第二GBDT模型，获得初匹配云计算节点集合；方案生成模块，用于根据任务计划进度和初匹配云计算节点集合进行分析，获取任务调度方案；任务分发模块，用于根据任务调度方案将任务分别分发至每个对应的云计算节点进行计算处理；基于上述模块，本发明在现有云计算调度方案的基础上进行二次分析，在结合任务计划进度的基础上对初始云计算调度方案进行调整修正，本发明可以更有效地分配云服务器资源，进而有利于在负载均衡的基础上进一步地减少任务处理等待时间，同时有利于对多个任务的任务调度策略的快速调整，进而有利于确保业务的长久稳定运行。

附图说明

图1为本发明提供的基于梯度提升决策树的多任务计划进度预测系统的示意图；

图2为本发明提供的基于梯度提升决策树的多任务计划进度预测方法的示意图；

图3为本发明提供的一种电子设备的结构示意图；

图4为本发明提供的一种计算机可读存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图2所示，本实施例公开提供了基于梯度提升决策树的多任务计划进度预测方法，所述方法包括：

具体的，所述历史任务进度样本数据包括自变量数据和因变量数据，所述自变量数据包括任务相关数据、服务器相关数据以及其他相关数据；所述任务相关数据包括M个任务的任务标识、每个任务的任务数据量、每个任务的数据类型，所述数据类型包括整型、浮点型、字符型和布尔型；所述服务器相关数据包括每个任务由系统分配的云计算节点的节点标识、N个云计算节点的硬件规格、每个云计算节点的性能指标、每个云计算节点的当前任务量以及每个云计算节点的当前可用计算资源；所述硬件规格包括CPU型号、核数和内存容量；所述性能指标包括处理器速度、内存带宽和硬盘I/O速度；所述其他相关数据包括网络延迟、网络带宽和网络传输速度；所述因变量数据包括每个云计算节点的任务计划进度，M、N为大于零的正整数；

其中，所述任务标识和节点标识包括但不限字符串和数字序号等等；

需要说明的是：历史任务进度样本数据以及历史节点确定样本数据预存于系统数据库中；

其中，每个云计算节点的任务计划进度的获取逻辑如下：

（1）；

（2）；

统计每个云计算节点执行完分配给它的任务所需要的时间以及每个云计算节点执行完分配给它的任务所需要的消耗资源，得到统计后的数据，将统计后的数据作为每个云计算节点的任务计划进度；

具体的，所述历史节点确定样本数据包括每个云计算节点的任务计划进度；所述历史节点确定样本数据分为带正标签的节点样本数据集和带负标签的节点样本数据集每秒消耗的资源；

其中，所述正标签和负标签的确定逻辑为：

其中，剩余计算资源为总的计算资源减去当前正在使用的消耗资源；

当每个云计算节点执行完分配给它的任务所需要的消耗资源大于等于每个云计算节点的剩余计算资源时，则将对应的云计算节点打上负标签，所述负标签用数值“0”表示；

应当了解的是：梯度提升决策树（Gradient Boosting Decision Trees，简称GBDT）是一种强大的机器学习算法，常用于回归和分类问题；它通过逐步训练决策树模型，每一棵树都纠正前一棵树的错误，从而不断提升模型性能；以下是GBDT的详细介绍：

决策树

决策树是一种基本的机器学习模型，用于进行分类和回归任务；它通过树状结构表示决策过程，从根节点开始，根据特征的值逐步分裂成不同的子节点，最终到达叶子节点，叶子节点包含预测的输出值；

提升（Boosting）

提升是一种集成学习方法，它通过组合多个弱学习器（通常是简单的模型）来构建一个强大的模型；GBDT使用提升技术，每个弱学习器都是决策树；

梯度提升（Gradient Boosting）

GBDT中的“梯度”是指使用梯度下降法来最小化损失函数；每一轮迭代，模型会计算当前模型的损失函数对于目标值的梯度，然后在训练数据上拟合一个新的决策树，该树的目标是最小化梯度；然后，通过将新树的预测值与之前的模型进行组合，逐步改进模型的性能；

在实施中，所述第一GBDT模型为梯度提升决策树模型结构，使用回归树作为基学习器，所述第一GBDT模型的生成逻辑如下：

a5：将初始回归树与第g=g+1个回归树相加，得到更新模型；

需要说明的是：当残差小于预设残差阈值时，将初始回归树与第g=g+1个回归树相加后得到的更新模型作为初始GBDT模型，即最终模型，其是所有基础回归树的累积；

a7：将回归测试集中的自变量输入初始GBDT模型中进行预测，得到预测值，以最小化预测准确度之和为训练目标，对初始GBDT模型进行模型评测，若预测准确度之和小于预设准确度之和的阈值，则将对应初始GBDT模型作为第一GBDT模型，若预测准确度之和大于等于预设准确度之和的阈值，则将对使用原训练集再次进行模型训练，直至测试结果满足设定阈值；预测准确度之和的计算公式为：；式中：/>表示预测准确度之和，/>表示回归测试集中第/>组测试数据的预测值，/>表示回归测试集中第组测试数据的实际值，Z为总组数；

在实施中，所述第二GBDT模型为梯度提升决策树模型结构，使用分类树作为基学习器，所述第二GBDT模型的生成逻辑如下：

其中，梯度的计算公式为：/>，为每组训练集的编号;

b5：将初始分类树与第K=K+1个分类树相加，得到更新模型；

需要说明的是：当梯度小于预设梯度阈值，将初始分类树与第K=K+1个分类树相加后得到的更新模型作为初始GBDT模型，即最终模型，其是所有基础分类树的累积；

b7：将分类测试集中的节点确定特征数据输入初始GBDT模型中进行预测，得到，以最小化预测准确度之和为训练目标，对初始GBDT模型进行模型评测，若预测准确度之和小于预设准确度之和的阈值，则将对应初始GBDT模型作为第二GBDT模型，若预测准确度之和大于等于预设准确度之和的阈值，则将对使用原训练集再次进行模型训练，直至测试结果满足设定阈值；预测准确度之和的计算公式为：/>；式中：表示预测准确度之和，/>表示分类测试集中第/>组测试数据的预测值，/>表示分类测试集中第/>组测试数据的实际标签，Y为总组数；

需要说明的是：系统对Q个任务分配的初始云计算节点基于现有任一资源调度算法或方法实现，此非发明重点，对此本发明不做过多赘述；任何可实现对Q个任务分配的初始云计算节点的技术都可作为本发明的应用对象；

还需要说明的是：所述通过分析处理服务器预先收集历史任务进度样本数据以及历史节点确定样本数据、业务端以及云计算服务器集群之间通信连接，所述云计算服务器集群包括多个云计算节点；通过分析处理服务器预先收集历史任务进度样本数据以及历史节点确定样本数据获取M个任务以及M个任务分配的初始云计算节点的实时任务进度特征数据，将其输入进第一GBDT模型，获得每个任务的任务计划进度；

具体的，所述实时任务进度特征数据包括P个任务的任务标识、每个任务的任务数据量、每个任务的数据类型；所述服务器相关数据包括每个任务由系统分配的云计算节点的节点标识、Q个云计算节点的硬件规格、每个云计算节点的性能指标、每个云计算节点的当前任务量以及每个云计算节点的当前可用计算资源；所述硬件规格包括CPU型号、核数和内存容量；所述性能指标包括处理器速度、内存带宽和硬盘I/O速度；所述其他相关数据包括网络延迟、网络带宽和网络传输速度；所述因变量数据包括每个云计算节点的任务计划进度，P、Q为大于零的正整数；

在实施中，获取第一GBDT模型输出的每个任务的任务计划进度，将第一GBDT模型输出的每个任务的任务计划进度作为实时任务调度特征数据，并将其作为输入数据输入到第二GBDT模型中，得到初匹配云计算节点集合；

在实施中，根据任务计划进度和初匹配云计算节点集合进行分析，包括：

将第一节点集合与第二节点集合进行比对，若第一节点集合与第二节点集合中的节点数量和节点标识完全一致，则将第一节点集合或第二节点集合作为任务调度方案；若第一节点集合与第二节点集合中的节点数量和节点标识不一致，则基于第一节点集合与第二节点集合进行次轮分析，以获取任务调度方案；

需要说明的是：完全一致，则表明第一节点集合与第二节点集合中的云计算节点数量完全相等，且对应的云计算节点的节点标识完全相同；相反地，不一致，则说明第一节点集合与第二节点集合中的云计算节点数量不完全相等，或第一节点集合与第二节点集合中的云计算节点数量不完全相等；

具体的，基于第一节点集合与第二节点集合进行次轮分析，包括：

应当了解的是：差集是包含所有属于第一个集合但不属于第二个集合的元素的新集合，差集通常用符号“−”表示，示例性说明解释就是，若存在集合A和B，分别为A={1,2,3,4}，B={3,4,5,6}，当A-B时，则A减去B的差集为A-B={1,2}，它包含了属于A但不属于B的元素；相反，当B-A时，则B减去A的差集为B-A={5,6}，它包含了属于B但不属于A的元素；

具体的，所述第四节点集合中包含E个待分配的云计算节点；

需要说明的是：系统对Q个任务分配的初始云计算节点后，则每个任务对应有一个初始云计算节点，因此根据每个云计算节点后的节点标识提取每个任务，则可得到第一任务集合；同理，第三节点集合包含有所有的一致的云计算节点，根据每个一致的云计算节点的节点标识去获取对应任务，并进行统计，即可得到第三节点集合对应的第二任务集合；

需要说明的是：其中，e=e-1的中的-1，即被剔除云计算节点为与第r待分配任务对应的云计算节点；

具体的，计算第r个待分配任务与第e个待分配的云计算节点的匹配系数，包括：

需要说明的是：计算第r个待分配任务被第e个待分配的云计算节点执行完成所需要的时间通过上述式（1）完成，详情参照上文；

需要说明的是：计算第r个待分配任务被第e个待分配的云计算节点执行完成所需要的消耗资源通过上述式（2）完成，详情参照上文；

根据实际需要时间、实际需要消耗资源、设定标准计算时间和设定标准消耗资源进行公式化计算，得到匹配系数；其计算公式为：；式中：/>表示匹配系数，/>表示实际需要时间，/>表示设定标准计算时间，/>表示实际需要消耗资源，/>表示设定标准消耗资源，/>和/>为大于零的修正因子，/>；

c8：将第三节点集合与第五节点集合进行合并，得到第六节点集合，将第六节点集合作为任务调度方案，所述第六节点集合中包含了每个任务对应的云计算节点；

S106：根据任务调度方案将多个任务分别分发至每个对应的云计算节点进行计算处理；

通过在现有云计算调度方案的基础上进行二次分析，在结合任务计划进度的基础上对初始云计算调度方案进行调整修正，本发明可以更有效地分配云服务器资源，进而有利于在负载均衡的基础上进一步地减少任务处理等待时间，同时有利于对多个任务的任务调度策略的快速调整，进而有利于确保业务的长久稳定运行。

实施例2

请参阅图1所示，本实施例公开提供了基于梯度提升决策树的多任务计划进度预测系统，所述系统包括：

数据获取模块210，用于预先收集历史任务进度样本数据以及历史节点确定样本数据；

其中，每个云计算节点的任务计划进度的获取逻辑如下：

（1）；

（2）；

其中，所述正标签和负标签的确定逻辑为：

模型训练模块220，用于基于历史任务进度样本数据，训练出用于执行预测的第一GBDT模型；以及基于历史节点确定样本数据，训练出用于执行分类的第二GBDT模型；

决策树

提升（Boosting）

梯度提升（Gradient Boosting）

a5：将初始回归树与第g=g+1个回归树相加，得到更新模型；

在实施中，所述第二GBDT模型的生成过程如下：

所述第二GBDT模型为梯度提升决策树模型结构，使用分类树作为基学习器，所述第二GBDT模型的生成逻辑如下：

其中，梯度的计算公式为：/>，/>为每组训练集的编号;

b5：将初始分类树与第K=K+1个分类树相加，得到更新模型；

第一模型求解模块230，用于获取T时刻下业务端上传的Q个任务，以及获取系统对Q个任务分配的初始云计算节点，基于Q个任务和初始云计算节点获取实时任务进度特征数据，根据实时任务进度特征数据和第一GBDT模型，获得每个任务的任务计划进度；

第二模型求解模块240，用于获取实时任务调度特征数据，基于实时任务调度特征数据和第二GBDT模型，获得初匹配云计算节点集合，所述初匹配云计算节点集合包含多个待分配云计算节点；

方案生成模块250，用于根据任务计划进度和初匹配云计算节点集合进行分析，以获取任务调度方案；所述任务调度方案包含Q个任务对应的云计算节点；

具体的，所述第四节点集合中包含E个待分配的云计算节点；

任务分发模块260，用于根据任务调度方案将多个任务分别分发至每个对应的云计算节点进行计算处理；

实施例3

请参阅图3所示，本实施例公开提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各方法所提供的任一项所述基于梯度提升决策树的多任务计划进度预测方法。

实施例4

请参阅图4所示，本实施例公开提供了一种计算机可读存储介质，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各方法所提供的任一项所述基于梯度提升决策树的多任务计划进度预测方法。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数、权重以及阈值选取由本领域的技术人员根据实际情况进行设置。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线网络或无线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分为，仅仅为一种，实际实现时可以有另外的划分为方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述系统包括：

2.根据权利要求1所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述历史任务进度样本数据包括自变量数据和因变量数据，所述自变量数据包括任务相关数据、服务器相关数据以及其他相关数据；所述任务相关数据包括M个任务的任务标识、每个任务的任务数据量、每个任务的数据类型，所述数据类型包括整型、浮点型、字符型和布尔型；所述服务器相关数据包括每个任务由系统分配的云计算节点的节点标识、N个云计算节点的硬件规格、每个云计算节点的性能指标、每个云计算节点的当前任务量以及每个云计算节点的当前可用计算资源；所述硬件规格包括CPU型号、核数和内存容量；所述性能指标包括处理器速度、内存带宽和硬盘I/O速度；所述其他相关数据包括网络延迟、网络带宽和网络传输速度；所述因变量数据包括每个云计算节点的任务计划进度，M、N为大于零的正整数。

3.根据权利要求2所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述每个云计算节点的任务计划进度的获取逻辑如下：

；

式中：表示第i个云计算节点执行完分配给它的任务所需要的消耗资源，表示第i个云计算节点；

4.根据权利要求3所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述历史节点确定样本数据包括每个云计算节点的任务计划进度；所述历史节点确定样本数据分为带正标签的节点样本数据集和带负标签的节点样本数据集每秒消耗的资源。

5.根据权利要求4所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述正标签和负标签的确定逻辑为：

6.根据权利要求5所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述第一GBDT模型为梯度提升决策树模型结构，使用回归树作为基学习器，所述第一GBDT模型的生成逻辑如下：

a5：将初始回归树与第g=g+1个回归树相加，得到更新模型；

7.根据权利要求6所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述第二GBDT模型为梯度提升决策树模型结构，使用分类树作为基学习器，所述第二GBDT模型的生成逻辑如下：

其中，梯度的计算公式为：/>，/>为每组训练集的编号;

b5：将初始分类树与第K=K+1个分类树相加，得到更新模型；

8.根据权利要求7所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述根据任务计划进度和初匹配云计算节点集合进行分析，包括：

9.根据权利要求8所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述基于第一节点集合与第二节点集合进行次轮分析，包括：

10.根据权利要求9所述的基于梯度提升决策树的多任务计划进度预测系统，其特征在于，所述计算第r个待分配任务与第e个待分配的云计算节点的匹配系数，包括：

11.基于梯度提升决策树的多任务计划进度预测方法，其基于权利要求1-10中任一项所述的基于梯度提升决策树的多任务计划进度预测系统实现，其特征在于，所述方法包括：

12.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求11所述的基于梯度提升决策树的多任务计划进度预测方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时实现权利要求11所述的基于梯度提升决策树的多任务计划进度预测方法。