CN109981749A - 一种基于极限梯度提升的云工作流任务执行时间预测方法 - Google Patents

一种基于极限梯度提升的云工作流任务执行时间预测方法 Download PDF

Info

Publication number
CN109981749A
CN109981749A CN201910165772.3A CN201910165772A CN109981749A CN 109981749 A CN109981749 A CN 109981749A CN 201910165772 A CN201910165772 A CN 201910165772A CN 109981749 A CN109981749 A CN 109981749A
Authority
CN
China
Prior art keywords
data
formula
workflow task
cloud workflow
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910165772.3A
Other languages
English (en)
Inventor
李慧芳
韦琬雯
樊锐
胡光政
邹伟东
柴森春
夏元清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN109981749A publication Critical patent/CN109981749A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于极限梯度提升的云工作流任务执行时间预测方法,属于云计算技术领域。本方法首先从工作流任务构成、任务运行所依赖的资源及其物理执行环境三个层面对任务执行时间的影响因素进行分类,实现任务执行时间影响因素的全面建模。其次,针对样本数据集存在数据缺失值的情况,采用机器学习方法对存在缺失值的数据集进行补全。最后,借助于极限梯度提升算法的多类型数据处理能力、参数设计相对简单、计算量较少以及兼有串、并行学习器的优势,采用限梯度提升算法训练云工作流任务执行时间预测模型。相对于现有的预测模型,不仅放宽了对样本数据类型的限制、减小了预测误差,而且使模型的泛化能力进一步提升。

Description

一种基于极限梯度提升的云工作流任务执行时间预测方法
技术领域
本发明涉及一种云工作流任务执行时间的预测方法,属于云计算技术领域。
背景技术
随着云计算技术的日趋成熟与广泛应用,特别是云计算的按使用付费模式以及云资源的弹性按需扩展能力,使用户无需投入硬件设备和软件资源,就可以随时随地并价廉地获取任何所需的计算资源服务,因此,越来越多的科学工作者利用云计算环境来支持并执行自己复杂的科学计算流程,即科学工作流或者云工作流。
云工作流执行的第一步,就是任务到虚拟机资源的调度,即,从虚拟资源池中,为每个云工作流任务匹配最合适的虚拟机资源,旨在满足云工作流服务质量QoS要求的同时,提高云数据中心物理资源的利用率。
现有的云工作流以及云资源调度方法,大多假设任务在不同虚拟机资源上的执行时间已知,也就是说,根据专家经验确定任务执行时间或者通过任务在相应虚拟机资源上执行时间的历史平均值进行估计。但是,云数据中心资源的动态接入与撤离、网络环境的不稳定性,使得基于任务执行时间历史平均值估计的调度方案在执行时会出现很大的误差,难以实现预期的调度目标。另一方面,云工作流任务执行时间受诸多因素的影响,例如任务计算量、虚拟机资源与网络性能等,采用专家经验值或者执行时间历史数据的平均值很难精确描述任务的本质特性,且云工作流的调度性能在很大程度上取决于任务计算时间的估计精度。
如何对云工作流任务在不同虚拟机资源上的计算时间进行精确估计或预测,是云数据中心进行工作流调度、资源优化配置需要解决的首要问题。
云工作流任务执行时间预测,是根据任务及其可用计算资源相关的知识及其运行数据信息,对云工作流任务执行时间进行事前估计。常规的工作流活动执行时间预测方法,例如专家经验、历史平均值、代码分析、统计建模以及仿真方法等,难以适应云环境固有的异构性、动态性与不稳定性。例如,基于近似估计的任务执行时间计算方法相对简单,但误差大;基于时间序列的预测方法,无法应对云数据中心的“涌现”事件对任务执行时间的影响,同时依赖历史数据使其无法处理新接入虚拟机资源的需求;基于影响因素的任务执行时间预测方法,因考虑的影响因素过于简单或不够全面,无法保证预测精度,并直接影响预测结果的实用性。
发明内容
本发明旨在解决云工作流任务执行时间的精确估算预测问题,提出一种基于极限梯度提升的云工作流任务执行时间预测方法。
本发明方法的基本思想是:深入分析影响云工作流任务执行时间的相关因素,采用极限梯度提升(XGBoost)算法学习任务执行时间及其影响因素之间的非线性映射关系,建立基于影响因素的云工作流任务执行时间预测模型,实现云工作流任务执行时间的精确预测。考虑到云工作流应用的任务特点及其执行场景的动态复杂性,首先从工作流任务构成、任务运行所依赖的资源及其物理执行环境三个层面对任务执行时间的影响因素进行分类,例如任务构成类型与规模、任务处理的数据量,虚拟机类型,虚拟机所在宿主机的CPU、内存、硬盘、带宽参数,实现任务执行时间影响因素的全面建模。其次,针对样本数据集存在数据缺失值的情况,采用机器学习方法如随机森林模型,对存在缺失值的数据集进行补全,解决了传统的平均值填充以及K近邻填充等方法固有的缺失值变异性丢失、过分依赖观测值以及稳健性差等问题。最后,借助于极限梯度提升算法的多类型数据处理能力、参数设计相对简单、计算量较少以及兼有串、并行学习器的优势,采用限梯度提升算法训练云工作流任务执行时间预测模型,相对于现有的预测模型,不仅放宽了对样本数据类型的限制、减小了预测误差,而且使模型的泛化能力进一步提升。
一种基于极限梯度提升的云工作流任务执行时间预测方法,包括以下步骤:
步骤一、对云工作流任务执行时间影响因素进行建模。
建模涉及云工作流任务本身、云工作流运行物理环境及其资源配置。
步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型,采集所有相关数据。同时,记录相应于影响因素的云工作流任务执行时间。
步骤三、对步骤二采集的相关数据进行缺失值检验。如果存在数据缺失,则进行数据补全,然后执行步骤四。进行数据补全时,可以采用基于随机森林的方法等。如果不存在数据缺失,则执行步骤四。
步骤四、利用相关数据,构建云工作流任务执行时间预测模型的样本数据集,将样本数据集划分为训练数据集与测试数据集,分别用于训练与测试,将影响因素数据和任务执行时间数据分别作为预测模型的输入、输出。
步骤五、在步骤四构建的样本数据集上,采用极限梯度提升学习云工作流任务执行时间及其影响因素之间的非线性映射关系,训练并构建云工作流任务执行时间预测模型。
进一步地,具体实现方法如下:
每输入一个训练样本,需依次执行以下步骤:
步骤1、建立计算输出预测值的累加函数模型,并确定需最小化的目标函数及其中的误差函数;进行参数寻优,确定超参数,包括基学习器数目、系数γ、系数λ、样本抽样比例、特征抽样比例、学习率和最大树深。
步骤2、用云工作流任务执行时间预测模型在t-1次迭代的预测结果与t次迭代产生的回归树之和,表示第t次迭代第i个样本的预测结果。
步骤3、把步骤2得到的第t次迭代第i个样本的预测结果带入目标函数。
步骤4、优化目标函数。采用二次函数泰勒展开,对步骤3得到的第t次迭代目标函数进行改写。
步骤5、考虑到常数项不影响求解结果,移除步骤4目标函数中的常数项,得到第t次迭代的简化目标函数。
步骤6、将当前叶子上的样本集合和树的复杂度函数,代入步骤5的目标函数,建立目标函数与叶子权重ω以及叶子数目T之间的映射关系。
步骤7、对树结构q(xi),通过对ωj求导,得到叶子j的权重最优解
步骤8、将最优解代回到步骤6的目标函数,得到衡量树结构q(xi)的分值函数。分值越小,树结构越好。
步骤9、计算当前叶子节点分裂后的损失减少情况,据此判断当前叶子节点是否需要进一步分裂。如果损失减小,则需要分裂,并将当前叶子节点作为候选分裂点,然后执行步骤10;如果损失没有减小,则不需要分裂,且当前叶子节点不作为候选分裂点。
步骤10、采用贪心算法查找分裂点,对于当前叶子上的样本集合,根据步骤8、步骤9所述方法,分别计算其分值以及分裂后的损失减少,取其中较大者作为该叶子节点的分值。
同理,对所有叶子节点依次计算其分值,判断其分裂可能性,并选取分值最大的叶子节点进行分裂。
步骤11、依次按照步骤2至步骤10,重复生成基学习器,直至生成所需数目的基学习器(回归树);将所有基学习器的输出预测结果,按照步骤1设计的累加函数进行累加以得到最终预测模型的输出结果。
步骤六、将待预测的云工作流任务影响因素,输入到步骤五训练好的模型中,实现云工作流任务执行时间的预测。
有益效果
本发明能够弥补现有云工作流任务执行时间预测方法存在的不足,基于时间序列的预测模型过于依赖任务执行时间的历史数据,以及因历史数据量积累不足而导致的短时预测效果差问题;基于影响因素的预测模型,考虑的工作流任务与虚拟机资源相关的因素相对较少,忽略了虚拟机所处的物理服务器环境等影响云工作流任务执行时间的重要因素,同时所用预测算法固有的数据处理、学习机理与泛化能力局限,导致模型参数选择困难、训练时间长、抗噪能力差、容易陷入局部最优以及难以适应大样本等问题。
本发明在一定程度上能够全面建模云工作流任务执行时间的影响因素,采用极限梯度提升方法使得预测模型具有较好的泛化能力且预测结果更加准确,为云工作流任务执行时间的精准预测提供了新的思路和途径,具体来说包括以下几点:
考虑到云工作流应用的任务特点及其执行场景的动态复杂性,从工作流任务构成、任务运行所依赖的资源及其物理执行环境三个层面对任务执行时间的影响因素进行分类,例如任务构成类型与规模、任务处理的数据量,虚拟机类型,以及虚拟机所在宿主机的CPU、内存、硬盘、带宽参数,实现任务执行时间影响因素的全面建模,解决了现有云工作流任务执行时间预测模型因影响因素的建模相对简单而导致的预测误差大、预测难以实际应用等问题。
针对样本数据集存在数据缺失值的情况,采用机器学习方法如随机森林模型,对存在缺失值的数据集进行补全,解决了传统的平均值填充以及K近邻填充等方法固有的缺失值变异性丢失、过分依赖观测值以及稳健性差等问题。
借助于极限梯度提升算法的多类型数据处理能力、参数设计相对简单、计算量较少、模型生成过程自带的优化能力,以及同时兼有串、并行学习器的优势,采用限梯度提升算法训练云工作流任务执行时间预测模型,相对于现有的预测模型,不仅模型参数选择简单、样本数据类型要求低、抗噪声能力强、不容易陷入局部最优,而且预测准确度高、模型的泛化能力强,同时对大样本以及高维数据具有较强的适应性。
附图说明
图1为本发明提出的云工作流任务执行时间预测模型的流程图。
图2为针对不同数据缺失值处理方法,同一任务执行时间预测模型的预测结果对比图。
图3为基于极限梯度提升的云工作流任务执行时间预测模型的预测结果示意图。
图4为基于随机森林的云工作流任务执行时间预测模型的预测结果示意图。
图5为基于深度神经网络的云工作流任务执行时间预测模型的预测结果示意图。
图6为基于支持向量机回归的云工作流任务执行时间预测模型的预测结果图。
图7为不同云工作流任务执行时间预测模型的性能对比图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
一种基于极限梯度提升的云工作流任务执行时间预测方法,如图1所示,包括以下步骤:
步骤一、对云工作流任务执行时间影响因素进行建模。涉及云工作流任务本身、云工作流运行的物理环境及其资源配置。
其中,云工作流任务相关数据包括云工作流任务类型、任务写入数据量和读出数据量等;云工作流运行的物理环境相关数据包括物理机的CPU、内存和硬盘参数等;资源配置相关数据包括虚拟机配置与网络带宽等。
步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型,采集所有相关数据,同时记录相应于影响因素的云工作流任务执行时间。
步骤三、对步骤二采集的相关数据进行缺失值检验。如果存在数据缺失,则进行数据补全。如果不存在数据缺失,则执行步骤四。
进行数据补全时,可以采用基于随机森林的方法等。本发明同时提出一个基于随机森林的数据缺失值补全方法,包括以下步骤:
每生成一个新的数据集,需依次执行以下步骤:
步骤1、读入原始数据,检查其是否存在缺失值,并记录存在数据缺失值的影响因素名称与属性;
步骤2、根据影响因素名称,分析确定与该影响因素相关且数据完整的其他影响因素;
步骤3、对于离散型与连续型影响因素的数据缺失,分别采用随机森林分类与回归模型进行补全;其中,存在数据缺失值的影响因素作为模型输出,而与其相关且数据完整的其他影响因素作为模型输入。
步骤四、利用相关数据,构建云工作流任务执行时间预测模型的样本数据集,并将其划分为训练数据集与测试数据集,分别用于训练与测试,其中,影响因素数据和任务执行时间数据分别作为预测模型的输入、输出。
步骤五、在步骤四构建的样本数据集上,采用极限梯度提升学习云工作流任务执行时间及其影响因素之间的非线性映射关系,训练并构建云工作流任务执行时间预测模型。
进一步地,所述预测模型训练过程,包括以下步骤:
所述目标函数L(φ)如式(1)所示;
其中,i表示训练样本数据集中的第i个样本;l为可微凸损失函数,用以衡量预测值和真实值yi之间的差距;Ω为附加正则项,即树的复杂度函数,用于惩罚模型的复杂性,附加正则项有助于平滑最终的学习权重以避免过拟合;fk表示第k棵树;T表示叶子个数,ω表示叶子权重;γ和λ是系数,其值通过参数寻优得到。
每输入一个训练样本,依次执行以下步骤:
对于给定的含有n个样本和m个特征的样本数据集D={(xi,yi)},其中 |D|=n,xi∈Rm,yi∈Rm,xi表示第i个样本的输入向量,yi表示xi对应的输出;
步骤1、建立计算预测值的累加函数模型,如式(2)所示:
其中,F={f(x)=ωq(x)|q:Rm→T,ω∈RT},表示回归树空间;q表示每棵树的结构函数,即输入xi到叶子索引号的映射;输出预测值为K棵回归树决策结果的累加;
步骤2、用表示t次迭代过程中第i个样本xi的输出预测值,并将其t 次迭代产生的回归树ft(xi)代入式(1),则是其t-1次迭代的输出预测结果与ft(xi)之和,如式(3)所示:
步骤3、根据式(3)更新目标函数式(1),则t次迭代时需最小化的目标函数如式(4)所示:
步骤4、采用二次函数泰勒展开对式(4)的目标函数进行优化,如式(5) 所示:
其中,分别表示损失函数的一阶、二阶梯度统计量;
步骤5、在式(5)中移除不影响求解结果的常数项,得到t次迭代的简化目标函数,如式(6)所示:
步骤6、定义叶子j上的样本集合为Ij={i|q(xi)=j},将式(1)中的Ω(ft)代入式(6),得到如式(7)所示的目标函数:
其中,Gj和Hj分别表示叶子j上所有样本集合损失函数的一阶、二阶梯度统计量累加和,即
步骤7、对树结构q(xi),可通过对式(7)中的ωj求导得到叶子j的权重最优解如式(8)所示:
步骤8、将最优解代回到、式(7),得到衡量树结构q(xi)的分值函数如式(9)所示,且分值越小,树结构越好:
步骤9、计算当前叶子节点分裂后的损失减少情况,据此判断当前叶子节点是否需要进一步分裂。
于当前叶子节点是否需要进一步分裂,取决于其分裂后的损失减少,其计算如式(10)所示:
其中,IL和IR分别表示当前叶子节点分裂后形成的左、右节点样本集,且I=IL∪IR
如果损失减小,则需要分裂,并将当前叶子节点作为候选分裂点,然后执行步骤10;如果损失没有减小,则不需要分裂,且当前叶子节点不作为候选分裂点。
步骤10、采用贪心算法查找分裂点,对于当前叶子上的样本集合I,根据式(9)和(10)分别计算其分值以及分裂后的损失减少,取其中较大者作为该叶子节点的分值。同理,对所有叶子节点依次计算其分值,判断其分裂可能性,并选取分值最大的叶子节点进行分裂。
步骤11、依次按照步骤2至步骤10,重复生成基学习器,直至生成所需数目的基学习器(回归树);将所有基学习器的输出预测结果,按照式(2)进行累加以得到最终预测模型的输出结果。至此,基于极限梯度提升的云工作流任务执行时间预测模型训练完毕。
步骤六、将待预测的云工作流任务影响因素输入到步骤五训练好的模型中,实现云工作流任务执行时间的预测。
实施例
实验采集5112组云工作流任务执行时间及其对应的所有影响因素数据。首先从中抽取4090组数据形成训练集,剩余的1022组数据作为测试集,并采用随机森林模型分别对训练集和测试集进行数据缺失值处理;其次基于数据值完整的训练集,采用极限梯度提升算法训练云工作流任务执行时间预测模型;最后在训练好的模型中输入测试集中的实际影响因素数据,预测其相应的云工作流任务执行时间,并与实际的任务执行时间进行比较以计算预测误差。
云工作流任务执行时间预测模型的性能评价采用均方根误差RMSE(root meansquare error)为指标,来评估云工作流任务执行时间预测模型的准确度。
在数据缺失值处理方面,实验选取了两个主流的方法作对比,即平均值填充以及K近邻填充方法;在预测模型训练方面,实验选取了三个主流的预测模型作对比,即支持向量机回归、深度学习和随机森林模型。在同一预测模型下, 各个数据缺失值处理方法的结果对比如图2所示;由于验证数据量较大,从其 1022个预测结果中截取相同区间的100组数据,对4个预测方法进行对比,其预测模型的性能比较结果如图3至图7所示。
如图2所示,采用随机森林模型进行数据缺失值处理,相对于平均值、K近邻填充方法,可以有效降低云工作流任务执行时间预测模型的均方根误差;如图3至图7所示,相对于随机森林模型,本发明提出的预测模型的均方根误差略有下降,但抗噪能力较好;与支持向量机回归和深度学习相比,本发明提出的预测模型的均方根误差大大降低,且具有较好的数据适应性。综上可以看出,本发明提出的云工作流任务执行时间预测模型的有效性。

Claims (3)

1.一种基于极限梯度提升的云工作流任务执行时间预测方法,其特征在于,包括以下步骤:
步骤一、对云工作流任务执行时间影响因素进行建模;
建模涉及云工作流任务本身、云工作流运行物理环境及其资源配置;
步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型,采集所有相关数据;同时,记录相应于影响因素的云工作流任务执行时间;
步骤三、对步骤二采集的相关数据进行缺失值检验;如果存在数据缺失,则进行数据补全,然后执行步骤四;如果不存在数据缺失,则执行步骤四;
步骤四、利用检测后的相关数据,构建云工作流任务执行时间预测模型的样本数据集,将样本数据集划分为训练数据集与测试数据集,分别用于训练与测试,将影响因素数据和任务执行时间数据分别作为预测模型的输入、输出;
步骤五、在步骤四构建的样本数据集上,采用极限梯度提升学习云工作流任务执行时间及其影响因素之间的非线性映射关系,训练并构建云工作流任务执行时间预测模型;
步骤六、将待预测的云工作流任务影响因素,输入到步骤五训练好的模型中,实现云工作流任务执行时间的预测。
2.如权利要求1所述的一种基于极限梯度提升的云工作流任务执行时间预测方法,其特征在于,所述步骤进行数据补全时,采用基于随机森林的数据缺失值补全方法,包括以下步骤:
每生成一个新的数据集,需依次执行以下步骤:
步骤1、读入原始数据,检查其是否存在缺失值,并记录存在数据缺失值的影响因素名称与属性;
步骤2、根据影响因素名称,分析确定与该影响因素相关且数据完整的其他影响因素;
步骤3、对于离散型与连续型影响因素的数据缺失,分别采用随机森林分类与回归模型进行补全;其中,存在数据缺失值的影响因素作为模型输出,而与其相关且数据完整的其他影响因素作为模型输入。
3.如权利要求1所述的一种基于极限梯度提升的云工作流任务执行时间预测方法,其特征在于,所述步骤五的具体实现方法如下:
所述目标函数L(φ)如式(1)所示;
其中,i表示训练样本数据集中的第i个样本;l为可微凸损失函数,用以衡量预测值和真实值yi之间的差距;Ω为附加正则项,即树的复杂度函数,用于惩罚模型的复杂性,附加正则项有助于平滑最终的学习权重以避免过拟合;fk表示第k棵树;T表示叶子个数,ω表示叶子权重;γ和λ是系数,其值通过参数寻优得到;
每输入一个训练样本,依次执行以下步骤:
对于给定的含有n个样本和m个特征的样本数据集D={(xi,yi)},其中|D|=n,xi∈Rm,yi∈Rm,xi表示第i个样本的输入向量,yi表示xi对应的输出;
步骤1、建立计算预测值的累加函数模型,如式(2)所示:
其中,F={f(x)=ωq(x)|q:Rm→T,ω∈RT},表示回归树空间;q表示每棵树的结构函数,即输入xi到叶子索引号的映射;输出预测值为K棵回归树决策结果的累加;
步骤2、用表示t次迭代过程中第i个样本xi的输出预测值,并将其t次迭代产生的回归树ft(xi)代入式(1),则是其t-1次迭代的输出预测结果与ft(xi)之和,如式(3)所示:
步骤3、根据式(3)更新目标函数式(1),则t次迭代时需最小化的目标函数如式(4)所示:
步骤4、采用二次函数泰勒展开对式(4)的目标函数进行优化,如式(5)所示:
其中,分别表示损失函数的一阶、二阶梯度统计量;
步骤5、在式(5)中移除不影响求解结果的常数项,得到t次迭代的简化目标函数,如式(6)所示:
步骤6、定义叶子j上的样本集合为Ij={i|q(xi)=j},将式(1)中的Ω(ft)代入式(6),得到如式(7)所示的目标函数:
其中,Gj和Hj分别表示叶子j上所有样本集合损失函数的一阶、二阶梯度统计量累加和,即
步骤7、对树结构q(xi),可通过对式(7)中的ωj求导得到叶子j的权重最优解如式(8)所示:
步骤8、将最优解代回到、式(7),得到衡量树结构q(xi)的分值函数如式(9)所示,且分值越小,树结构越好:
步骤9、计算当前叶子节点分裂后的损失减少情况,据此判断当前叶子节点是否需要进一步分裂;
当前叶子节点是否需要进一步分裂,取决于其分裂后的损失减少,其计算如式(10)所示:
其中,IL和IR分别表示当前叶子节点分裂后形成的左、右节点样本集,且I=IL∪IR
如果损失减小,则需要分裂,并将当前叶子节点作为候选分裂点,然后执行步骤10;如果损失没有减小,则不需要分裂,且当前叶子节点不作为候选分裂点;
步骤10、采用贪心算法查找分裂点,对于当前叶子上的样本集合I,根据式(9)和(10)分别计算其分值以及分裂后的损失减少,取其中较大者作为该叶子节点的分值;同理,对所有叶子节点依次计算其分值,判断其分裂可能性,并选取分值最大的叶子节点进行分裂;
步骤11、依次按照步骤2至步骤10,重复生成基学习器,直至生成所需数目的基学习器;将所有基学习器的输出预测结果,按照式(2)进行累加以得到最终预测模型的输出结果。
CN201910165772.3A 2019-01-30 2019-03-06 一种基于极限梯度提升的云工作流任务执行时间预测方法 Pending CN109981749A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100927513 2019-01-30
CN201910092751 2019-01-30

Publications (1)

Publication Number Publication Date
CN109981749A true CN109981749A (zh) 2019-07-05

Family

ID=67077921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910165772.3A Pending CN109981749A (zh) 2019-01-30 2019-03-06 一种基于极限梯度提升的云工作流任务执行时间预测方法

Country Status (1)

Country Link
CN (1) CN109981749A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458725A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端
CN112395311A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 一种请求的处理时长的预测方法及装置
CN112948115A (zh) * 2021-03-01 2021-06-11 北京理工大学 一种基于极限学习机的云工作流调度器压力预测方法
CN113379397A (zh) * 2021-07-16 2021-09-10 北京华博创科科技股份有限公司 一种基于机器学习的云工作流架智能管理与调度系统
WO2021189769A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质
CN113778646A (zh) * 2021-08-22 2021-12-10 物产中大公用环境投资有限公司 一种基于执行时间预测的任务层级调度方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740967A (zh) * 2016-01-20 2016-07-06 北京理工大学 一种制造云服务执行时间的预测方法及预测装置
CN106600058A (zh) * 2016-12-13 2017-04-26 北京理工大学 一种制造云服务QoS的组合预测方法
CN108009023A (zh) * 2017-11-29 2018-05-08 武汉理工大学 混合云中基于bp神经网络时间预测的任务调度方法
CN108073442A (zh) * 2017-11-03 2018-05-25 北京交通大学 基于深度模糊栈式自编码的仿真请求执行时间预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740967A (zh) * 2016-01-20 2016-07-06 北京理工大学 一种制造云服务执行时间的预测方法及预测装置
CN106600058A (zh) * 2016-12-13 2017-04-26 北京理工大学 一种制造云服务QoS的组合预测方法
CN108073442A (zh) * 2017-11-03 2018-05-25 北京交通大学 基于深度模糊栈式自编码的仿真请求执行时间预测方法
CN108009023A (zh) * 2017-11-29 2018-05-08 武汉理工大学 混合云中基于bp神经网络时间预测的任务调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN TIANQI ET AL.: "XGBoost:A Scalable Tree Boosting System", 《KDD "16: PROCEEDINGS OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
LI HUIFANG ET AL.: "Predicting Execution Time of Manufacturing Cloud Services Using BP Neural Network", 《2017 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS》 *
王铮等: "随机森林在运营商大数据补全中的应用", 《电信科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395311A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 一种请求的处理时长的预测方法及装置
CN110458725A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端
WO2021189769A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质
CN112948115A (zh) * 2021-03-01 2021-06-11 北京理工大学 一种基于极限学习机的云工作流调度器压力预测方法
CN112948115B (zh) * 2021-03-01 2022-12-06 北京理工大学 一种基于极限学习机的云工作流调度器压力预测方法
CN113379397A (zh) * 2021-07-16 2021-09-10 北京华博创科科技股份有限公司 一种基于机器学习的云工作流架智能管理与调度系统
CN113379397B (zh) * 2021-07-16 2023-09-22 北京华博创科科技股份有限公司 一种基于机器学习的云工作流架智能管理与调度系统
CN113778646A (zh) * 2021-08-22 2021-12-10 物产中大公用环境投资有限公司 一种基于执行时间预测的任务层级调度方法及装置
CN113778646B (zh) * 2021-08-22 2024-04-05 物产中大公用环境投资有限公司 一种基于执行时间预测的任务层级调度方法及装置

Similar Documents

Publication Publication Date Title
CN109981749A (zh) 一种基于极限梯度提升的云工作流任务执行时间预测方法
CN110070117B (zh) 一种数据处理方法及装置
Esteves et al. Competitive k-means, a new accurate and distributed k-means algorithm for large datasets
CN108304355A (zh) 一种基于sarima-wnn模型预测弹性云计算资源的方法
CN104407688A (zh) 基于树回归的虚拟化云平台能耗测量方法及系统
WO2017161646A1 (zh) 大数据量预测的三层联合动态选择最优模型方法
CN108830417B (zh) 一种基于arma和回归分析的生活能源消费预测方法及系统
CN110413657B (zh) 面向季节型非平稳并发量的平均响应时间评估方法
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN103559205A (zh) 基于MapReduce的并行特征选择方法
CN104199870A (zh) 基于混沌搜索的ls-svm预测模型的建立方法
CN103885867B (zh) 一种模拟电路性能的在线评价方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN109657122B (zh) 一种基于学术大数据的学术团队重要成员识别方法
CN102156641A (zh) 一种软件成本置信区间预测方法及系统
CN105488598A (zh) 一种基于模糊聚类的中长期电力负荷预测方法
CN108694472B (zh) 预测误差极值分析方法、装置、计算机设备和存储介质
CN110413406A (zh) 一种任务负载预测系统及方法
CN117235510A (zh) 节理粗糙度预测方法与节理粗糙度预测模型训练方法
CN111967187A (zh) 一种预测燃气轮机启动过程输出数据的建模方法及设备
Liu Application of Hadoop-based cloud computing in teaching platform research
Li et al. The extreme counts: modeling the performance uncertainty of cloud resources with extreme value theory
Purnawansyah et al. K-Means clustering implementation in network traffic activities
Zhang et al. Performance difference prediction in cloud services for SLA-based auditing
CN111160715A (zh) 基于bp神经网络新旧动能转换绩效评价方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication