CN109981749A

CN109981749A - 一种基于极限梯度提升的云工作流任务执行时间预测方法

Info

Publication number: CN109981749A
Application number: CN201910165772.3A
Authority: CN
Inventors: 李慧芳; 韦琬雯; 樊锐; 胡光政; 邹伟东; 柴森春; 夏元清
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-01-30
Filing date: 2019-03-06
Publication date: 2019-07-05

Abstract

本发明涉及一种基于极限梯度提升的云工作流任务执行时间预测方法，属于云计算技术领域。本方法首先从工作流任务构成、任务运行所依赖的资源及其物理执行环境三个层面对任务执行时间的影响因素进行分类，实现任务执行时间影响因素的全面建模。其次，针对样本数据集存在数据缺失值的情况，采用机器学习方法对存在缺失值的数据集进行补全。最后，借助于极限梯度提升算法的多类型数据处理能力、参数设计相对简单、计算量较少以及兼有串、并行学习器的优势，采用限梯度提升算法训练云工作流任务执行时间预测模型。相对于现有的预测模型，不仅放宽了对样本数据类型的限制、减小了预测误差，而且使模型的泛化能力进一步提升。

Description

一种基于极限梯度提升的云工作流任务执行时间预测方法

技术领域

本发明涉及一种云工作流任务执行时间的预测方法，属于云计算技术领域。

背景技术

随着云计算技术的日趋成熟与广泛应用，特别是云计算的按使用付费模式以及云资源的弹性按需扩展能力，使用户无需投入硬件设备和软件资源，就可以随时随地并价廉地获取任何所需的计算资源服务，因此，越来越多的科学工作者利用云计算环境来支持并执行自己复杂的科学计算流程，即科学工作流或者云工作流。

云工作流执行的第一步，就是任务到虚拟机资源的调度，即，从虚拟资源池中，为每个云工作流任务匹配最合适的虚拟机资源，旨在满足云工作流服务质量QoS要求的同时，提高云数据中心物理资源的利用率。

现有的云工作流以及云资源调度方法，大多假设任务在不同虚拟机资源上的执行时间已知，也就是说，根据专家经验确定任务执行时间或者通过任务在相应虚拟机资源上执行时间的历史平均值进行估计。但是，云数据中心资源的动态接入与撤离、网络环境的不稳定性，使得基于任务执行时间历史平均值估计的调度方案在执行时会出现很大的误差，难以实现预期的调度目标。另一方面，云工作流任务执行时间受诸多因素的影响，例如任务计算量、虚拟机资源与网络性能等，采用专家经验值或者执行时间历史数据的平均值很难精确描述任务的本质特性，且云工作流的调度性能在很大程度上取决于任务计算时间的估计精度。

如何对云工作流任务在不同虚拟机资源上的计算时间进行精确估计或预测，是云数据中心进行工作流调度、资源优化配置需要解决的首要问题。

云工作流任务执行时间预测，是根据任务及其可用计算资源相关的知识及其运行数据信息，对云工作流任务执行时间进行事前估计。常规的工作流活动执行时间预测方法，例如专家经验、历史平均值、代码分析、统计建模以及仿真方法等，难以适应云环境固有的异构性、动态性与不稳定性。例如，基于近似估计的任务执行时间计算方法相对简单，但误差大；基于时间序列的预测方法，无法应对云数据中心的“涌现”事件对任务执行时间的影响，同时依赖历史数据使其无法处理新接入虚拟机资源的需求；基于影响因素的任务执行时间预测方法，因考虑的影响因素过于简单或不够全面，无法保证预测精度，并直接影响预测结果的实用性。

发明内容

本发明旨在解决云工作流任务执行时间的精确估算预测问题，提出一种基于极限梯度提升的云工作流任务执行时间预测方法。

本发明方法的基本思想是：深入分析影响云工作流任务执行时间的相关因素，采用极限梯度提升(XGBoost)算法学习任务执行时间及其影响因素之间的非线性映射关系，建立基于影响因素的云工作流任务执行时间预测模型，实现云工作流任务执行时间的精确预测。考虑到云工作流应用的任务特点及其执行场景的动态复杂性，首先从工作流任务构成、任务运行所依赖的资源及其物理执行环境三个层面对任务执行时间的影响因素进行分类，例如任务构成类型与规模、任务处理的数据量，虚拟机类型，虚拟机所在宿主机的CPU、内存、硬盘、带宽参数，实现任务执行时间影响因素的全面建模。其次，针对样本数据集存在数据缺失值的情况，采用机器学习方法如随机森林模型，对存在缺失值的数据集进行补全，解决了传统的平均值填充以及K近邻填充等方法固有的缺失值变异性丢失、过分依赖观测值以及稳健性差等问题。最后，借助于极限梯度提升算法的多类型数据处理能力、参数设计相对简单、计算量较少以及兼有串、并行学习器的优势，采用限梯度提升算法训练云工作流任务执行时间预测模型，相对于现有的预测模型，不仅放宽了对样本数据类型的限制、减小了预测误差，而且使模型的泛化能力进一步提升。

一种基于极限梯度提升的云工作流任务执行时间预测方法，包括以下步骤：

步骤一、对云工作流任务执行时间影响因素进行建模。

建模涉及云工作流任务本身、云工作流运行物理环境及其资源配置。

步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型，采集所有相关数据。同时，记录相应于影响因素的云工作流任务执行时间。

步骤三、对步骤二采集的相关数据进行缺失值检验。如果存在数据缺失，则进行数据补全,然后执行步骤四。进行数据补全时，可以采用基于随机森林的方法等。如果不存在数据缺失，则执行步骤四。

步骤四、利用相关数据，构建云工作流任务执行时间预测模型的样本数据集，将样本数据集划分为训练数据集与测试数据集，分别用于训练与测试，将影响因素数据和任务执行时间数据分别作为预测模型的输入、输出。

步骤五、在步骤四构建的样本数据集上，采用极限梯度提升学习云工作流任务执行时间及其影响因素之间的非线性映射关系,训练并构建云工作流任务执行时间预测模型。

进一步地，具体实现方法如下：

每输入一个训练样本，需依次执行以下步骤：

步骤1、建立计算输出预测值的累加函数模型，并确定需最小化的目标函数及其中的误差函数；进行参数寻优，确定超参数，包括基学习器数目、系数γ、系数λ、样本抽样比例、特征抽样比例、学习率和最大树深。

步骤2、用云工作流任务执行时间预测模型在t-1次迭代的预测结果与t次迭代产生的回归树之和，表示第t次迭代第i个样本的预测结果。

步骤3、把步骤2得到的第t次迭代第i个样本的预测结果带入目标函数。

步骤4、优化目标函数。采用二次函数泰勒展开，对步骤3得到的第t次迭代目标函数进行改写。

步骤5、考虑到常数项不影响求解结果，移除步骤4目标函数中的常数项，得到第t次迭代的简化目标函数。

步骤6、将当前叶子上的样本集合和树的复杂度函数，代入步骤5的目标函数，建立目标函数与叶子权重ω以及叶子数目T之间的映射关系。

步骤7、对树结构q(x_i)，通过对ω_j求导，得到叶子j的权重最优解

步骤8、将最优解代回到步骤6的目标函数，得到衡量树结构q(x_i)的分值函数。分值越小，树结构越好。

步骤9、计算当前叶子节点分裂后的损失减少情况，据此判断当前叶子节点是否需要进一步分裂。如果损失减小，则需要分裂，并将当前叶子节点作为候选分裂点，然后执行步骤10；如果损失没有减小，则不需要分裂，且当前叶子节点不作为候选分裂点。

步骤10、采用贪心算法查找分裂点，对于当前叶子上的样本集合，根据步骤8、步骤9所述方法，分别计算其分值以及分裂后的损失减少，取其中较大者作为该叶子节点的分值。

同理，对所有叶子节点依次计算其分值，判断其分裂可能性，并选取分值最大的叶子节点进行分裂。

步骤11、依次按照步骤2至步骤10，重复生成基学习器，直至生成所需数目的基学习器(回归树)；将所有基学习器的输出预测结果，按照步骤1设计的累加函数进行累加以得到最终预测模型的输出结果。

步骤六、将待预测的云工作流任务影响因素，输入到步骤五训练好的模型中，实现云工作流任务执行时间的预测。

有益效果

本发明能够弥补现有云工作流任务执行时间预测方法存在的不足，基于时间序列的预测模型过于依赖任务执行时间的历史数据，以及因历史数据量积累不足而导致的短时预测效果差问题；基于影响因素的预测模型，考虑的工作流任务与虚拟机资源相关的因素相对较少，忽略了虚拟机所处的物理服务器环境等影响云工作流任务执行时间的重要因素，同时所用预测算法固有的数据处理、学习机理与泛化能力局限，导致模型参数选择困难、训练时间长、抗噪能力差、容易陷入局部最优以及难以适应大样本等问题。

本发明在一定程度上能够全面建模云工作流任务执行时间的影响因素，采用极限梯度提升方法使得预测模型具有较好的泛化能力且预测结果更加准确，为云工作流任务执行时间的精准预测提供了新的思路和途径，具体来说包括以下几点：

考虑到云工作流应用的任务特点及其执行场景的动态复杂性，从工作流任务构成、任务运行所依赖的资源及其物理执行环境三个层面对任务执行时间的影响因素进行分类，例如任务构成类型与规模、任务处理的数据量，虚拟机类型，以及虚拟机所在宿主机的CPU、内存、硬盘、带宽参数，实现任务执行时间影响因素的全面建模，解决了现有云工作流任务执行时间预测模型因影响因素的建模相对简单而导致的预测误差大、预测难以实际应用等问题。

针对样本数据集存在数据缺失值的情况，采用机器学习方法如随机森林模型，对存在缺失值的数据集进行补全，解决了传统的平均值填充以及K近邻填充等方法固有的缺失值变异性丢失、过分依赖观测值以及稳健性差等问题。

借助于极限梯度提升算法的多类型数据处理能力、参数设计相对简单、计算量较少、模型生成过程自带的优化能力，以及同时兼有串、并行学习器的优势，采用限梯度提升算法训练云工作流任务执行时间预测模型，相对于现有的预测模型，不仅模型参数选择简单、样本数据类型要求低、抗噪声能力强、不容易陷入局部最优，而且预测准确度高、模型的泛化能力强，同时对大样本以及高维数据具有较强的适应性。

附图说明

图1为本发明提出的云工作流任务执行时间预测模型的流程图。

图2为针对不同数据缺失值处理方法，同一任务执行时间预测模型的预测结果对比图。

图3为基于极限梯度提升的云工作流任务执行时间预测模型的预测结果示意图。

图4为基于随机森林的云工作流任务执行时间预测模型的预测结果示意图。

图5为基于深度神经网络的云工作流任务执行时间预测模型的预测结果示意图。

图6为基于支持向量机回归的云工作流任务执行时间预测模型的预测结果图。

图7为不同云工作流任务执行时间预测模型的性能对比图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

一种基于极限梯度提升的云工作流任务执行时间预测方法，如图1所示，包括以下步骤：

步骤一、对云工作流任务执行时间影响因素进行建模。涉及云工作流任务本身、云工作流运行的物理环境及其资源配置。

其中，云工作流任务相关数据包括云工作流任务类型、任务写入数据量和读出数据量等；云工作流运行的物理环境相关数据包括物理机的CPU、内存和硬盘参数等；资源配置相关数据包括虚拟机配置与网络带宽等。

步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型，采集所有相关数据，同时记录相应于影响因素的云工作流任务执行时间。

步骤三、对步骤二采集的相关数据进行缺失值检验。如果存在数据缺失，则进行数据补全。如果不存在数据缺失，则执行步骤四。

进行数据补全时，可以采用基于随机森林的方法等。本发明同时提出一个基于随机森林的数据缺失值补全方法，包括以下步骤：

每生成一个新的数据集，需依次执行以下步骤：

步骤1、读入原始数据，检查其是否存在缺失值，并记录存在数据缺失值的影响因素名称与属性；

步骤2、根据影响因素名称，分析确定与该影响因素相关且数据完整的其他影响因素；

步骤3、对于离散型与连续型影响因素的数据缺失，分别采用随机森林分类与回归模型进行补全；其中，存在数据缺失值的影响因素作为模型输出，而与其相关且数据完整的其他影响因素作为模型输入。

步骤四、利用相关数据，构建云工作流任务执行时间预测模型的样本数据集，并将其划分为训练数据集与测试数据集，分别用于训练与测试，其中，影响因素数据和任务执行时间数据分别作为预测模型的输入、输出。

进一步地，所述预测模型训练过程，包括以下步骤：

所述目标函数L(φ)如式(1)所示；

其中，i表示训练样本数据集中的第i个样本；l为可微凸损失函数，用以衡量预测值和真实值y_i之间的差距；Ω为附加正则项，即树的复杂度函数，用于惩罚模型的复杂性，附加正则项有助于平滑最终的学习权重以避免过拟合；f_k表示第k棵树；T表示叶子个数，ω表示叶子权重；γ和λ是系数，其值通过参数寻优得到。

每输入一个训练样本，依次执行以下步骤：

对于给定的含有n个样本和m个特征的样本数据集D＝{(x_i,y_i)}，其中 |D|＝n,x_i∈R^m,y_i∈R^m，x_i表示第i个样本的输入向量，y_i表示x_i对应的输出；

步骤1、建立计算预测值的累加函数模型，如式(2)所示：

其中，F＝{f(x)＝ω_q(x)|q:R^m→T,ω∈R^T}，表示回归树空间；q表示每棵树的结构函数，即输入x_i到叶子索引号的映射；输出预测值为K棵回归树决策结果的累加；

步骤2、用表示t次迭代过程中第i个样本x_i的输出预测值，并将其t 次迭代产生的回归树f_t(x_i)代入式(1)，则是其t-1次迭代的输出预测结果与f_t(x_i)之和，如式(3)所示：

步骤3、根据式(3)更新目标函数式(1)，则t次迭代时需最小化的目标函数如式(4)所示：

步骤4、采用二次函数泰勒展开对式(4)的目标函数进行优化，如式(5) 所示：

其中，分别表示损失函数的一阶、二阶梯度统计量；

步骤5、在式(5)中移除不影响求解结果的常数项，得到t次迭代的简化目标函数，如式(6)所示：

步骤6、定义叶子j上的样本集合为I_j＝{i|q(x_i)＝j}，将式(1)中的Ω(f_t)代入式(6)，得到如式(7)所示的目标函数：

其中，G_j和H_j分别表示叶子j上所有样本集合损失函数的一阶、二阶梯度统计量累加和，即

步骤7、对树结构q(x_i)，可通过对式(7)中的ω_j求导得到叶子j的权重最优解如式(8)所示：

步骤8、将最优解代回到、式(7)，得到衡量树结构q(x_i)的分值函数如式(9)所示，且分值越小,树结构越好：

步骤9、计算当前叶子节点分裂后的损失减少情况，据此判断当前叶子节点是否需要进一步分裂。

于当前叶子节点是否需要进一步分裂，取决于其分裂后的损失减少，其计算如式(10)所示：

其中，I_L和I_R分别表示当前叶子节点分裂后形成的左、右节点样本集，且I＝I_L∪I_R。

如果损失减小，则需要分裂，并将当前叶子节点作为候选分裂点，然后执行步骤10；如果损失没有减小，则不需要分裂，且当前叶子节点不作为候选分裂点。

步骤10、采用贪心算法查找分裂点，对于当前叶子上的样本集合I，根据式(9)和(10)分别计算其分值以及分裂后的损失减少，取其中较大者作为该叶子节点的分值。同理，对所有叶子节点依次计算其分值，判断其分裂可能性，并选取分值最大的叶子节点进行分裂。

步骤11、依次按照步骤2至步骤10，重复生成基学习器，直至生成所需数目的基学习器(回归树)；将所有基学习器的输出预测结果，按照式(2)进行累加以得到最终预测模型的输出结果。至此，基于极限梯度提升的云工作流任务执行时间预测模型训练完毕。

步骤六、将待预测的云工作流任务影响因素输入到步骤五训练好的模型中，实现云工作流任务执行时间的预测。

实施例

实验采集5112组云工作流任务执行时间及其对应的所有影响因素数据。首先从中抽取4090组数据形成训练集，剩余的1022组数据作为测试集,并采用随机森林模型分别对训练集和测试集进行数据缺失值处理；其次基于数据值完整的训练集，采用极限梯度提升算法训练云工作流任务执行时间预测模型；最后在训练好的模型中输入测试集中的实际影响因素数据，预测其相应的云工作流任务执行时间，并与实际的任务执行时间进行比较以计算预测误差。

云工作流任务执行时间预测模型的性能评价采用均方根误差RMSE(root meansquare error)为指标，来评估云工作流任务执行时间预测模型的准确度。

在数据缺失值处理方面，实验选取了两个主流的方法作对比，即平均值填充以及K近邻填充方法；在预测模型训练方面，实验选取了三个主流的预测模型作对比，即支持向量机回归、深度学习和随机森林模型。在同一预测模型下, 各个数据缺失值处理方法的结果对比如图2所示；由于验证数据量较大，从其 1022个预测结果中截取相同区间的100组数据，对4个预测方法进行对比，其预测模型的性能比较结果如图3至图7所示。

如图2所示，采用随机森林模型进行数据缺失值处理，相对于平均值、K近邻填充方法，可以有效降低云工作流任务执行时间预测模型的均方根误差；如图3至图7所示，相对于随机森林模型，本发明提出的预测模型的均方根误差略有下降，但抗噪能力较好；与支持向量机回归和深度学习相比，本发明提出的预测模型的均方根误差大大降低，且具有较好的数据适应性。综上可以看出，本发明提出的云工作流任务执行时间预测模型的有效性。

Claims

1.一种基于极限梯度提升的云工作流任务执行时间预测方法，其特征在于，包括以下步骤：

步骤一、对云工作流任务执行时间影响因素进行建模；

建模涉及云工作流任务本身、云工作流运行物理环境及其资源配置；

步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型，采集所有相关数据；同时，记录相应于影响因素的云工作流任务执行时间；

步骤三、对步骤二采集的相关数据进行缺失值检验；如果存在数据缺失，则进行数据补全,然后执行步骤四；如果不存在数据缺失，则执行步骤四；

步骤四、利用检测后的相关数据，构建云工作流任务执行时间预测模型的样本数据集，将样本数据集划分为训练数据集与测试数据集，分别用于训练与测试，将影响因素数据和任务执行时间数据分别作为预测模型的输入、输出；

步骤五、在步骤四构建的样本数据集上，采用极限梯度提升学习云工作流任务执行时间及其影响因素之间的非线性映射关系,训练并构建云工作流任务执行时间预测模型；

2.如权利要求1所述的一种基于极限梯度提升的云工作流任务执行时间预测方法，其特征在于，所述步骤进行数据补全时，采用基于随机森林的数据缺失值补全方法，包括以下步骤：

每生成一个新的数据集，需依次执行以下步骤：

3.如权利要求1所述的一种基于极限梯度提升的云工作流任务执行时间预测方法，其特征在于，所述步骤五的具体实现方法如下：

所述目标函数L(φ)如式(1)所示；

其中，i表示训练样本数据集中的第i个样本；l为可微凸损失函数，用以衡量预测值和真实值y_i之间的差距；Ω为附加正则项，即树的复杂度函数，用于惩罚模型的复杂性，附加正则项有助于平滑最终的学习权重以避免过拟合；f_k表示第k棵树；T表示叶子个数，ω表示叶子权重；γ和λ是系数，其值通过参数寻优得到；

每输入一个训练样本，依次执行以下步骤：

对于给定的含有n个样本和m个特征的样本数据集D＝{(x_i,y_i)}，其中|D|＝n,x_i∈R^m,y_i∈R^m，x_i表示第i个样本的输入向量，y_i表示x_i对应的输出；

步骤1、建立计算预测值的累加函数模型，如式(2)所示：

步骤2、用表示t次迭代过程中第i个样本x_i的输出预测值，并将其t次迭代产生的回归树f_t(x_i)代入式(1)，则是其t-1次迭代的输出预测结果与f_t(x_i)之和，如式(3)所示：

步骤4、采用二次函数泰勒展开对式(4)的目标函数进行优化，如式(5)所示：

其中，分别表示损失函数的一阶、二阶梯度统计量；

步骤9、计算当前叶子节点分裂后的损失减少情况，据此判断当前叶子节点是否需要进一步分裂；

当前叶子节点是否需要进一步分裂，取决于其分裂后的损失减少，其计算如式(10)所示：

其中，I_L和I_R分别表示当前叶子节点分裂后形成的左、右节点样本集，且I＝I_L∪I_R；

如果损失减小，则需要分裂，并将当前叶子节点作为候选分裂点，然后执行步骤10；如果损失没有减小，则不需要分裂，且当前叶子节点不作为候选分裂点；

步骤10、采用贪心算法查找分裂点，对于当前叶子上的样本集合I，根据式(9)和(10)分别计算其分值以及分裂后的损失减少，取其中较大者作为该叶子节点的分值；同理，对所有叶子节点依次计算其分值，判断其分裂可能性，并选取分值最大的叶子节点进行分裂；

步骤11、依次按照步骤2至步骤10，重复生成基学习器，直至生成所需数目的基学习器；将所有基学习器的输出预测结果，按照式(2)进行累加以得到最终预测模型的输出结果。