CN112200208B - 基于多维度特征融合的云工作流任务执行时间预测方法 - Google Patents

基于多维度特征融合的云工作流任务执行时间预测方法 Download PDF

Info

Publication number
CN112200208B
CN112200208B CN202010407407.1A CN202010407407A CN112200208B CN 112200208 B CN112200208 B CN 112200208B CN 202010407407 A CN202010407407 A CN 202010407407A CN 112200208 B CN112200208 B CN 112200208B
Authority
CN
China
Prior art keywords
feature
data
numerical
categorical
execution time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010407407.1A
Other languages
English (en)
Other versions
CN112200208A (zh
Inventor
李慧芳
韦琬雯
石其松
樊锐
邹伟东
柴森春
夏元清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010407407.1A priority Critical patent/CN112200208B/zh
Publication of CN112200208A publication Critical patent/CN112200208A/zh
Application granted granted Critical
Publication of CN112200208B publication Critical patent/CN112200208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于多维度特征融合的云工作流任务执行时间预测方法,通过采用特征提取、融合与筛选等策略,建立基于多维度的融合特征预测模型,实现对任务执行时间的精准预测,一定程度上能够满足大数据驱动的云工作流任务执行时间预测需求,为云工作流任务执行时间的精准预测提供了新的思路和途径。

Description

基于多维度特征融合的云工作流任务执行时间预测方法
技术领域
本发明属于云计算技术领域,具体涉及基于多维度特征融合的云工作流任务执行时间预测方法。
背景技术
随着云计算技术的日趋成熟与广泛应用,云数据中心内资源的按使用付费模式以及弹性扩展能力,为大规模科学应用的分布式管理与高效执行提供了快速、灵活、可扩展的部署环境。越来越多的科学家利用工作流来构建、管理复杂的科学应用,并将其科学工作流部署或者逐步迁移到云数据中心执行。科学应用高效执行的关键是工作流调度,而调度算法的设计、调度性能以及调度方案的可实施性,直接取决于任务执行时间的估计精度。
由于存在大量的用户请求与响应,实际云数据中心的运行数据呈指数级增长。其中,工作流任务执行日志中包含了大量的任务执行时间数据及其相关影响因素数据,在数据驱动的任务执行时间预测中起着重要作用。这些日志所包含的影响因素数据可被划分为Categorical数据和Numerical数据。其中,Categorical数据与任务和资源的多样性、异构性相关,其数值离散且取值范围广,如任务名称和机器ID等;Numerical数据则与云环境、云资源的动态特性相关,其数值连续,且在一定范围内波动,如资源利用率和网络带宽等。在大数据环境下,Categorical数据的高维稀疏特性会扩大模型的搜索空间,Numerical数据的低维稠密特性会降低部分特征之间的差异性,从而加大了模型寻优和学习的难度,给任务执行时间预测带来了巨大挑战。
然而,现有的任务执行时间预测方法大多缺乏针对性的特征提取策略,难以保障同时对Categorical数据和Numerical数据进行充分挖掘与利用。少部分任务执行时间预测方法拥有特征提取能力,但在利用提取到的特征进行预测过程中,没有设计相应的融合策略,容易引入噪声或提取到的错误信息,导致难以实现对任务执行时间的精准预测。
此外,现有的任务执行时间预测算法大多基于仿真数据,可是仿真环境难以模拟云资源的动态接入、撤离以及网络环境的不稳定性,也不易体现真实云环境下海量的任务请求响应以及资源的弹性伸缩所带来的大数据特性。因此,在实际应用过程中,存在以下不足:一是对Categorical数据的解析能力不足,难以解决Categorical数据的高维稀疏特性而导致的搜索空间过大问题,使模型难以找到最优解,从而影响预测精度;二是缺乏足够的非线性表达能力,难以处理Numerical数据的低维稠密特性所导致的特征差异性降低问题,使模型学习困难、易于陷入局部最优,从而影响预测效果;三是欠缺有效的特征融合策略,对提取到的特征直接进行学习,导致模型容易学到无效或错误信息,影响预测结果的准确性。因此,已有的任务执行时间预测方法,缺乏有效的Categorical和Numerical类特征提取能力以及特征融合策略,难以满足大数据环境下的云工作流任务执行时间预测需求。
发明内容
有鉴于此,本发明提供了基于多维度特征融合的云工作流任务执行时间预测方法,能够实现大数据驱动的云工作流任务执行时间的预测。
本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法,包括以下步骤:
步骤1、采用云工作流的任务执行时间及影响因素数据的历史数据构建样本集,所述样本集的输入为影响因素数据,输出为任务执行时间;
步骤2、建立任务执行时间预测模型,所述任务执行时间预测模型包括数据划分操作、Categorical特征提取器、Numerical特征提取器、特征融合器及预测器,其中,所述数据划分操作用于将所述影响因素数据划分为类别型数据即Categorical数据和数值型数据即Numerical数据;所述Categorical特征提取器用于从Categorical数据中提取Categorical特征向量;所述Numerical特征提取器用于从所述Numerical数据中提取Numerical特征向量;所述特征融合器用于将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征;所述预测器用于根据所述总融合特征预测得到任务执行时间;采用所述样本集完成所述任务执行时间预测模型的训练;
步骤3、将当前云工作流的影响因素数据划分为Categorical数据和Numerical数据,将输入到步骤2训练完成的任务执行时间预测模型中,预测当前云工作流的任务执行时间。
进一步地,所述Categorical特征提取器采用基于具有注意力机制的堆叠残差循环网络实现,所述堆叠残差循环网络将Categorical数据从高维稀疏空间映射到低维稠密空间;
采用所述Categorical特征提取器进行Categorical特征向量提取的过程包括以下步骤:
步骤2.1.1、初始化网络训练轮次;
步骤2.1.2、将由第i个样本的输入向量xi分离得到的Categorical数据及Numerical数据输入嵌入模块进行第一次特征提取,其中,所述Categorical数据经过nCa个嵌入单元进行特征提取后得到特征向量
Figure BDA0002491876270000034
所述Numerical数据经过全连接单元进行特征提取后得到特征向量
Figure BDA0002491876270000031
步骤2.1.3、将所述特征向量
Figure BDA0002491876270000032
及特征向量
Figure BDA0002491876270000033
输入融合单元后得到特征向量
Figure BDA0002491876270000041
步骤2.1.4、将所述特征向量
Figure BDA0002491876270000042
输入门控循环单元模块进行第二次特征提取后得到特征向量
Figure BDA0002491876270000043
步骤2.1.5、将所述特征向量
Figure BDA0002491876270000044
输入长短期记忆网络模块进行第三次特征提取后得到特征向量
Figure BDA0002491876270000045
将所述特征向量
Figure BDA0002491876270000046
输入至输出层得到所述第i个样本的预测结果
Figure BDA0002491876270000047
步骤2.1.6、当i大于或等于设定的样本量阈值时,利用第i个样本的输出向量和所述预测结果
Figure BDA0002491876270000048
计算当前训练轮次下的网络误差;否则,i自加1,执行步骤2.1.2;
步骤2.1.7、当所述网络训练轮次达到设定的阈值时,返回误差最小的网络模型,摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,得到训练完成的Categorical特征提取器;否则,所述网络训练轮次自加1,执行步骤2.1.2;
步骤2.1.8、将当前云工作流的影响因素数据中的Categorical数据输入到步骤2.1.7得到的所述Categorical特征提取器,得到当前云工作流的影响因素数据的Categorical特征向量。
进一步地,所述Numerical特征提取器基于XGB模型实现,采用所述Numerical特征提取器进行Numerical特征向量提取的过程包括以下步骤:
步骤2.2.1、初始化XGB模型参数,初始化回归树的数目p为1;
步骤2.2.2、将第i个样本的输入向量xi中的第k个Numerical数据
Figure BDA0002491876270000049
输入第p棵回归树,得到第p棵回归树对样本i的预测结果
Figure BDA00024918762700000410
当第p棵回归树完成对所有样本的预测后,生成第p棵回归树,否则,执行步骤2.2.2;
步骤2.2.3、当p小于设定的阈值NXGB时,p自加1,执行步骤2.2.2;否则,将生成的NXGB个回归树集成,并摘掉该XGB模型的输出层,获得基于XGB的特征提取模型;
步骤2.2.4、所述基于XGB的特征提取模型在对所述输入向量xi的Numerical数据进行离散化编码后,得到所述输入向量xi的Numerical特征向量;当完成对所有样本的处理后,执行步骤2.2.5,否则,执行步骤2.2.4;
步骤2.2.5、基于步骤2.2.4得到的Numerical特征向量及所述步骤2中得到的Categorical特征向量训练Lightgbm评判模型,根据所述Lightgbm评判模型的输出结果计算预测误差,调整所述基于XGB的特征提取模型的参数,重新提取样本的Numerical特征,并与步骤2中得到的Categorical特征输入到Lightgbm评判模型中,获得输出结果并计算预测误差,当所述预测误差小于设定的阈值时,则完成了所述基于XGB的特征提取模型的训练;否则,执行步骤2.2.2;
步骤2.2.6、将所述步骤2中得到的当前云工作流的Numerical数据输入到步骤2.2.5得到的所述基于XGB的特征提取模型,得到当前云工作流的影响因素数据的Numerical特征向量。
进一步地,所述特征融合器采用基于特征重要性特征排序筛选出总融合特征的方式,所述特征融合器将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征的过程包括以下步骤:
步骤2.3.1、根据确定的特征重要性指标,采用基于决策树算法的分布式梯度提升框架即Lightgbm模型分别计算所述影响因素数据、Categorical特征向量及Numerical特征向量的特征重要性,并根据所述特征重要性对特征向量进行排序形成特征向量序列;
步骤2.3.2、根据预设的选取规则,选取所述特征向量序列的部分特征向量作为输出特征向量,所述输出特征向量即为所述总融合特征。
进一步地,所述预测器基于Lightgbm预测模型实现,采用所述预测器对任务执行时间的预测过程包括以下步骤:
步骤2.4.1、初始化Lightgbm预测模型的参数;
步骤2.4.2、将所述步骤2中得到所述样本的总融合特征,输入所述Lightgbm预测模型得到预测结果,并计算误差值,根据所述误差,调整所述Lightgbm预测模型的参数;采用网格寻优算法,迭代计算,选择出具体最小总误差的模型参数所对应的Lightgbm预测模型完成所述预测器的训练;
步骤2.4.3、将所述步骤2中得到的当前云工作流的总融合特征,输入所述步骤2.4.2中训练好的所述预测器进行预测得到当前云工作流的任务执行时间。
有益效果:
1、本发明通过采用特征提取、融合与筛选等策略,建立基于多维度的融合特征预测模型,实现对任务执行时间的精准预测,一定程度上能够满足大数据驱动的云工作流任务执行时间预测需求,为云工作流任务执行时间的精准预测提供了新的思路和途径;
2、构建具有注意力机制的堆叠残差循环网络,将Categorical数据从高维稀疏空间映射到低维稠密空间,通过减小搜索空间,提升模型的Categorical数据解析能力,并增强模型对Categorical特征的关注度,以有效提取Categorical特征,提高预测精度;
3、引入极限梯度提升XGB算法,通过Numerical数据的离散化编码,将过于稠密的Numerical数据进行稀疏化处理,突出特征之间的差异性,避免模型训练陷入局部最优,提升模型的非线性信息表达能力,有效提取Numerical特征,改善预测性能;
4、设计异质多维度特征融合策略,将堆叠残差循环网络提取的Categorical特征、XGB模型提取的Numerical特征与原始样本数据进行融合,以充分挖掘与利用任务执行时间的多维度特征,使预测模型学习到更全面的知识,降低预测误差。
附图说明
图1为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的流程图。
图2为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法中Categorical特征提取网络结构图。
图3为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的中Numerical特征器构建过程示意图。
图4为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的中特征融合器构建过程示意图。
图5为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的中预测器构建过程示意图。
图6为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的平均绝对误差(MAE)对比图。
图7为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的均方根误差(RMSE)对比图。
图8为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的均方根对数误差(RMSLE)对比图。
图9为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的决定系数(R2)对比图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法,其基本思想是:基于具有注意力机制的堆叠残差循环网络和极限梯度提升模型,分别对云工作流任务执行时间影响因素中的Categorical数据和Numerical数据进行有效的特征提取,在特征融合过程中计算所提取到的特征和影响因素中的原始特征的重要性,并进行排序筛选,提供多维度、全面且与执行时间更显著相关的特征,在此基础上,建立基于Lightgbm的预测模型,对融合特征进行充分挖掘和利用,改善其非线性表达能力和Categorical数据解析能力,实现对任务执行时间的精准预测,满足大数据驱动的云工作流任务执行时间预测需求。
本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法,其流程如图1所示,具体包括以下步骤:
步骤1、采用云工作流的任务执行时间及影响因素数据的历史数据构建样本集,所述样本集的输入为影响因素数据,输出为任务执行时间。
样本集由多个工作流任务执行时间和相应的影响因素数据D={(xi,yi)}构成,其中xi表示第i个样本的输入向量(影响因素),yi表示xi对应的输出。假设该数据集D含有N个样本和m个影响因素,则|D|=N,i=1,2,...,N,
Figure BDA0002491876270000081
步骤2、建立任务执行时间预测模型,所述任务执行时间预测模型包括数据划分操作、Categorical特征提取器、Numerical特征提取器、特征融合器及预测器,其中,所述数据划分操作用于将影响因素数据划分为Categorical数据和Numerical数据;所述Categorical特征提取器用于从Categorical数据中提取Categorical特征向量;所述Numerical特征提取器用于从所述Numerical数据中提取Numerical特征向量;所述特征融合器用于将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征;所述预测器用于根据所述总融合特征预测得到任务执行时间;采用所述样本集完成所述任务执行时间预测模型的训练。
数据划分操作将影响因素数据划分为Categorical数据和Numerical数据,即将输入向量xi划分为
Figure BDA0002491876270000091
其中,nCa、nNu分别表示输入向量中Categorical数据和Numerical数据的个数,且nCa+nNu=m。
其中,Categorical特征提取器,可以采用现有技术中的深度交叉网络DCN和深度兴趣网络DIN来实现;Numerical特征提取器,可以采用现有技术中的梯度提升决策树GBDT和随机森林RF来实现;特征融合器,可以采用现有技术中的直接融合算法来实现;预测器,可以采用现有技术中的神经网络算法DCN和DIN、随机森林算法RF和线性回归算法LR来实现。
步骤3、将当前云工作流的影响因素数据划分为Categorical数据和Numerical数据,将输入到步骤2训练完成的任务执行时间预测模型中,预测当前云工作流的任务执行时间。
在此基础上,本发明进一步对Categorical特征提取器、Numerical特征提取器、特征融合器及预测器进行了改进,以克服现有技术中存在的问题。
本发明改进的Categorical特征提取器:
用于实现Categorical特征提取器的深度交叉网络DCN和深度兴趣网络DIN存在以下问题:DCN在提取Categorical特征过程中不能引导模型关注于更有用的特征,保障不了信息在深层网络中的有效传递,存在梯度消散问题,导致提取效果不佳;DIN在提取Categorical特征过程中,对特征之间的关联性挖掘不够充分,也保障不了信息在深层网络中的有效传递,存在梯度消散问题,导致提取效果也不佳。
为了进一步提高Categorical特征的提取效果,本发明设计了具有注意力机制的堆叠残差循环网络,如图2所示,图2中虚线框内的部分为网络训练过程中使用而应用过程不用的模块,其堆叠循环网络结构能够通过更多的非线性变换,使模型可以充分学习数据的分布以及更加抽象的表示,得到更高阶的特征组合,最终改善特征提取性能;而其注意力机制和残差连接的引入,引导了模型关注于更有用的特征,保障了信息在深层网络中的有效传递,从而提升了模型的特征提取效果。采用本发明提出的Categorical特征提取器进行Categorical特征向量提取的过程包括以下步骤:
步骤2.1.1、设定网络训练轮次数量;
步骤2.1.2、在每轮次训练过程中,将第i个样本的输入向量xi输入到Embedding模块中,进行第一次特征提取,以获得样本i对应的特征向量
Figure BDA0002491876270000108
在Embedding模块中,将输入向量xi的nCa个Categorical数据依次输入到nCa个特定的Embedding单元,其余所有的Numerical数据输入到同一个Dense单元,以分别提取样本i的Categorical和Numerical特征,并得到相应的特征向量
Figure BDA0002491876270000101
Figure BDA0002491876270000102
具体计算如下:
Figure BDA0002491876270000103
Figure BDA0002491876270000104
Figure BDA0002491876270000105
其中,Wr和br分别为Embedding单元的线性权值矩阵和偏差,Wden和bden分别为Dense单元的线性权值矩阵和偏差,
Figure BDA0002491876270000106
表示第i个样本的第j个Categorical数据,
Figure BDA0002491876270000107
表示第i个样本的所有Numerical数据,且k∈[nCa+1,nCa+nNu];
步骤2.1.3、通过融合
Figure BDA0002491876270000111
Figure BDA0002491876270000112
得到样本i的总特征向量
Figure BDA0002491876270000113
Figure BDA0002491876270000114
步骤2.1.4、将步骤2.1.2得到的第i个样本的特征向量
Figure BDA0002491876270000115
输入到GRU模块,进行第二次特征提取,以获得样本i的总特征向量
Figure BDA0002491876270000116
在GRU模块中,首先,将样本i的特征向量
Figure BDA0002491876270000117
输入到GRU单元,以提取相应的特征向量
Figure BDA0002491876270000118
其次,
Figure BDA0002491876270000119
进一步经过Attention单元计算并更新权重
Figure BDA00024918762700001110
同时计算Attention单元提取的特征向量
Figure BDA00024918762700001111
最后,将
Figure BDA00024918762700001112
以及
Figure BDA00024918762700001113
分别按λ%比例进行随机Dropout操作,并经残差连接后,获得GRU模块提取的总特征向量
Figure BDA00024918762700001114
具体计算如下:
Figure BDA00024918762700001115
Figure BDA00024918762700001116
Figure BDA00024918762700001117
Figure BDA00024918762700001118
其中,Wgru和bgru分别为GRU单元的线性权值矩阵和偏差,Wga和bga分别为Attention单元的线性权值矩阵和偏差,
Figure BDA00024918762700001119
表示GRU单元提取的所有样本特征向量的集合,νi
Figure BDA00024918762700001120
经由Attention单元时计算的权值,ν为所有样本的Attention单元权值构成的矩阵,exp()、tanh()和Dropout()分别表示以自然常数e为底的指数函数、双曲正切函数以及Dropout函数,λ∈[0,100);
步骤2.1.5、将步骤2.1.4提取的样本i特征向量
Figure BDA00024918762700001121
输入到LSTM模块,进行第三次特征提取,获得总特征向量
Figure BDA00024918762700001122
并进一步得到第i个样本的预测结果
Figure BDA00024918762700001123
在LSTM模块中,首先,第i个样本经过LSTM单元提取特征向量
Figure BDA00024918762700001124
并经Attention单元计算/更新权重
Figure BDA0002491876270000121
同时获得Attention单元提取的特征向量
Figure BDA0002491876270000122
其次,将
Figure BDA0002491876270000123
以及
Figure BDA0002491876270000124
进行残差连接后,得到LSTM模块提取的总特征向量
Figure BDA0002491876270000125
最后,将
Figure BDA0002491876270000126
输入到输出层得到整个网络对样本i的预测结果
Figure BDA0002491876270000127
具体计算如下:
Figure BDA0002491876270000128
Figure BDA0002491876270000129
Figure BDA00024918762700001210
Figure BDA00024918762700001211
Figure BDA00024918762700001212
其中,Wlstm和blstm为LSTM单元的线性权值矩阵和偏差,Wla和bla为LSTM模块中Attention单元的线性权值矩阵,νi
Figure BDA00024918762700001213
经由Attention单元时计算的权值,ν为所有样本的Attention单元权值构成的矩阵,
Figure BDA00024918762700001214
表示LSTM单元提取的所有样本特征向量集合,Wo和bo为输出层的线性权值矩阵和偏差;
步骤2.1.6、当i大于或等于设定的阈值时,计算当前训练轮次下的网络误差;否则,i自加1,执行步骤2.1.2;
步骤2.1.7、当所述网络训练轮次达到设定的阈值时,返回误差最小的网络模型,摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,得到训练完成的Categorical特征提取器;否则,所述网络训练轮次,自加1,执行步骤2.1.2;
步骤2.1.8、摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,获得Categorical特征提取器,将当前云工作流的影响因素数据中的Categorical数据输入到步骤2.1.7得到的所述Categorical特征提取器,得到当前云工作流的影响因素数据的Categorical特征向量。
本发明改进的Numerical特征提取器:
用于实现Numerical特征提取的梯度提升决策树GBDT和随机森林RF存在以下问题:GBDT在提取Numerical特征过程中存在容易过拟合,且容易陷入局部最优的问题,导致提取效果不佳;RF在提取Numerical特征过程中,无法对特征获得有区分度的表达,也存在容易过拟合,且容易陷入局部最优的问题,导致提取效果也不佳。
针对上述问题,本发明采用的极限梯度提升算法模型(XGB模型)实现了Numerical特征提取器,如图3所示,可以对特征获得有区分度的表达,同时还利用正则化技术防止模型过拟合,采用二阶泰勒展开使模型更准确的找到全局最优解,最终改善了特征提取性能。采用本发明提出的Numerical特征提取器进行Numerical特征向量提取的过程包括以下步骤:
步骤2.2.1、初始化XGB模型参数,初始化回归树的数目p为1;
步骤2.2.2、将第i个样本的输入向量xi中的第k个Numerical数据
Figure BDA0002491876270000131
输入第p棵回归树,得到第p棵回归树对样本i的预测结果
Figure BDA0002491876270000132
其中,S()表示树的结构函数,
Figure BDA0002491876270000133
为第p棵树的结构函数,用于在第p棵树每个分支的最深一层中寻找第i个样本的第k个Numerical数据所属叶子的下标,
Figure BDA0002491876270000134
为第i个样本的第k个Numerical数据所属叶子的权重,且
Figure BDA0002491876270000135
Tp表示第p棵树的叶子数量;当第p棵回归树完成对所有样本的预测后,生成第p棵回归树,否则,执行步骤2.2.2;
步骤2.2.3、当p小于设定的阈值NXGB时,p自加1,执行步骤2.2.2;否则,将生成的NXGB个回归树集成,并摘掉该XGB模型的输出层,获得基于XGB的特征提取模型;
步骤2.2.4、所述基于XGB的特征提取模型在对所述输入向量xi的Numerical数据进行离散化编码后,得到所述输入向量xi的Numerical特征向量;当完成对所有样本的处理后,执行步骤2.2.5,否则,执行步骤2.2.4;
步骤2.2.5、基于步骤2.2.4得到的Numerical特征向量及所述步骤2中得到的Categorical特征向量训练Lightgbm评判模型,根据所述Lightgbm评判模型的输出结果计算预测误差,调整所述基于XGB的特征提取模型的参数,重新提取样本的Numerical特征,并与步骤2中得到的Categorical特征输入到Lightgbm评判模型中,获得输出结果并计算预测误差,当所述预测误差小于设定的阈值时,则完成了所述基于XGB的特征提取模型的训练;否则,执行步骤2.2.2;
其中,预测误差的阈值一般设定为正负5%;
步骤2.2.6、去掉步骤2.2.5获得的基于XGB的特征提取模型的输出层,将所述步骤2中得到的当前云工作流的Numerical数据输入到基于XGB的特征提取模型,得到当前云工作流的影响因素数据的Numerical特征向量。
本发明改进的特征融合器:
用于实现特征融合的直接融合算法,在本发明所涉及的特征融合过程中存在容易引入噪声和无效信息,使得后续的预测模型容易学习到错误的知识,导致预测误差增大的问题,预测效果不佳。
针对上述问题,本发明设计的异质多维度特征融合算法采用基于特征重要性特征排序筛选出总融合特征的方式,如图4所示,能够对特征进行重要性计算、排序和筛选,使得后续预测模型能够充分挖掘和利用这些特征,学习到全面且有效的知识,最终降低预测误差,改善预测性能。采用本发明提出的特征融合器将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征的过程包括以下步骤:
步骤2.3.1、根据确定的特征重要性指标,采用Lightgbm模型分别计算所述影响因素数据、Categorical特征向量及Numerical特征向量的特征重要性,并根据所述特征重要性对特征向量进行排序形成特征向量序列;
步骤2.3.2、根据预设的选取规则,选取所述特征向量序列的部分特征向量作为输出特征向量,所述输出特征向量即为所述总融合特征。
一般情况下,选取特征向量序列中前δ×100%进行保留输出,其中,δ∈(0,1]。
本发明改进的预测器:
用于实现预测的神经网络算法DCN和DIN、随机森林算法RF和线性回归算法LR存在以下问题:DCN、DIN和LR缺乏足够的非线性表达能力,难以处理Numerical数据的低维稠密特性所导致的特征差异性降低问题,使模型学习困难、易于陷入局部最优,从而影响预测效果;RF对Categorical数据的解析能力不足,难以解决Categorical数据的高维稀疏特性而导致的搜索空间过大问题,使模型难以找到最优解,从而影响预测精度。
针对上述问题,本发明采用轻量梯度提升机Lightgbm模型实现预测器,如图5所示,Lightgbm模型具备较好的非线性表达能力和Categorical数据解析能力,能够从输入数据中挖掘Numerical数据和Categorical数据的有效信息,此外,还可以利用融合特征,进一步改善其非线性表达能力和Categorical数据解析能力,对特征进行充分挖掘和利用,学习到全面且有效的知识,最终降低预测误差,提升预测效果。采用本发明提出的预测器对任务执行时间的预测过程包括以下步骤:
步骤2.4.1、初始化Lightgbm预测模型的参数;
步骤2.4.2、将所述步骤2中得到所述样本的总融合特征,输入所述Lightgbm预测模型得到预测结果,并计算误差值,根据所述误差,调整所述Lightgbm预测模型的参数;采用网格寻优算法,迭代计算,选择出具体最小总误差的模型参数所对应的Lightgbm预测模型完成所述预测器的训练;
步骤2.4.3、将所述步骤2中得到的当前云工作流的总融合特征,输入所述步骤2.4.2中训练好的所述预测器进行预测得到当前云工作流的任务执行时间。
为检验本发明方法的效果,使用python语言对算法进行编程,并采用真实云数据中心的集群数据——阿里巴巴cluster-trace-v2018数据集进行实验验证,以检验本发明提出的基于多维度特征融合(MDFF)的预测算法的有效性。其中,实验部分的对比算法采用典型的预测算法:深度交叉网络(DCN),深度兴趣网络(DIN),梯度提升决策树+线性回归(GBDT+LR)以及两阶段算法(Two Stage Approach,TSA)。
在进行实验之前,首先对cluster-trace-v2018数据集进行分析,找到关键性属性,并根据这些关键属性匹配不同数据表中的数据,获得包含任务执行时间和相关影响因素的数据集。然后,对该数据集中存在的异常值和缺失值进行处理,获得最终可用于检验算法的云工作流任务执行时间数据集,包含22155组云工作流任务执行时间及其对应的所有影响因素数据。
在上述数据集中随机抽取17724组数据形成训练集,将剩余的4431组数据作为测试集;其次,采用训练集训练基于多维度特征融合的云工作流任务执行时间预测模型;然后,将测试集中的影响因素数据输入到训练好的模型中,获得云工作流任务执行时间的预测结果;最后,将预测得到的任务执行时间与实际的任务执行时间进行比较,并计算评价指标。
选取平均绝对误差MAE、均方根误差RMSE、均方根对数误差RMSLE以及决定系数R2,作为算法的性能评价指标,从不同角度评估不同模型的预测效果。其中,MAE、RMSE和RMSLE数值越低,说明算法预测效果越好;R2数值越高,表明算法预测效果越好。在实验过程中,首先,对所有算法的参数进行调试,取最优的参数组合,并取十次实验结果的平均值。各算法在评价指标MAE、RMSE、RMSLE以及R2下的对比如图6至图9所示。
各算法MAE的对比如图6所示。由图6可知,与其他典型预测算法相比,本发明方法获得了最低的MAE值,相对于MAE值最高的DIN算法低大约30%,相对于MAE值最低的DCN低大约10%,预测结果更为准确。
各算法RMSE的对比如图7所示。由图7可知,本发明的RMSE远低于其他典型预测算法,相对于RMSE最小的DIN算法减少1.825,相对于RMSE最大的TSA算法减少6.508,对所有测试样本的预测误差波动更小,预测效果更好。
各算法RMSLE的对比如图8所示。由图8可知,本发明的RMSLE最低,是RMSLE最高的DIN算法的三分之一,比RMSLE最低的TSA算法大约低11%,表明本发明算法没有大数值样本的预测偏向性,在所有数值范围的样本数据上,都表现出较好的预测性能。
各算法R2的对比如图9所示。由图9可知,本发明的R2高于其他典型预测算法,相对于R2值最小的TSA算法提高了0.025,相对于R2最大的DIN算法提升了0.006,说明本发明算法在云工作流执行时间预测问题上拟合效果更好,能够获得更准确的预测结果。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.基于多维度特征融合的云工作流任务执行时间预测方法,其特征在于,包括以下步骤:
步骤1、采用云工作流的任务执行时间及影响因素数据的历史数据构建样本集,所述样本集的输入为影响因素数据,输出为任务执行时间;
步骤2、建立任务执行时间预测模型,所述任务执行时间预测模型包括数据划分操作、Categorical特征提取器、Numerical特征提取器、特征融合器及预测器,其中,所述数据划分操作用于将所述影响因素数据划分为类别型数据即Categorical数据和数值型数据即Numerical数据;所述Categorical特征提取器用于从Categorical数据中提取Categorical特征向量;所述Numerical特征提取器用于从所述Numerical数据中提取Numerical特征向量;所述特征融合器用于将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征;所述预测器用于根据所述总融合特征预测得到任务执行时间;采用所述样本集完成所述任务执行时间预测模型的训练;
步骤3、将当前云工作流的影响因素数据划分为Categorical数据和Numerical数据,将输入到步骤2训练完成的任务执行时间预测模型中,预测当前云工作流的任务执行时间;
其中,所述Categorical特征提取器采用基于具有注意力机制的堆叠残差循环网络实现,所述堆叠残差循环网络将Categorical数据从高维稀疏空间映射到低维稠密空间;
采用所述Categorical特征提取器进行Categorical特征向量提取的过程包括以下步骤:
步骤2.1.1、初始化网络训练轮次;
步骤2.1.2、将由第i个样本的输入向量xi分离得到的Categorical数据及Numerical数据输入嵌入模块进行第一次特征提取,其中,所述Categorical数据经过nCa个嵌入单元进行特征提取后得到特征向量
Figure FDA0003852056820000021
所述Numerical数据经过全连接单元进行特征提取后得到特征向量
Figure FDA0003852056820000022
步骤2.1.3、将所述特征向量
Figure FDA0003852056820000023
及特征向量
Figure FDA0003852056820000024
输入融合单元后得到特征向量
Figure FDA0003852056820000025
步骤2.1.4、将所述特征向量
Figure FDA0003852056820000026
输入门控循环单元模块进行第二次特征提取后得到特征向量
Figure FDA0003852056820000027
步骤2.1.5、将所述特征向量
Figure FDA0003852056820000028
输入长短期记忆网络模块进行第三次特征提取后得到特征向量
Figure FDA0003852056820000029
将所述特征向量
Figure FDA00038520568200000210
输入至输出层得到所述第i个样本的预测结果
Figure FDA00038520568200000211
步骤2.1.6、当i大于或等于设定的样本量阈值时,利用第i个样本的输出向量和所述预测结果
Figure FDA00038520568200000212
计算当前训练轮次下的网络误差;否则,i自加1,执行步骤2.1.2;
步骤2.1.7、当所述网络训练轮次达到设定的阈值时,返回误差最小的网络模型,摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,得到训练完成的Categorical特征提取器;否则,所述网络训练轮次自加1,执行步骤2.1.2;
步骤2.1.8、将当前云工作流的影响因素数据中的Categorical数据输入到步骤2.1.7得到的所述Categorical特征提取器,得到当前云工作流的影响因素数据的Categorical特征向量;
其中,所述Numerical特征提取器基于XGB模型实现,采用所述Numerical特征提取器进行Numerical特征向量提取的过程包括以下步骤:
步骤2.2.1、初始化XGB模型参数,初始化回归树的数目p为1;
步骤2.2.2、将第i个样本的输入向量xi中的第k个Numerical数据
Figure FDA0003852056820000031
输入第p棵回归树,得到第p棵回归树对样本i的预测结果
Figure FDA0003852056820000032
当第p棵回归树完成对所有样本的预测后,生成第p棵回归树,否则,执行步骤2.2.2;
步骤2.2.3、当p小于设定的阈值NXGB时,p自加1,执行步骤2.2.2;否则,将生成的NXGB个回归树集成,并摘掉该XGB模型的输出层,获得基于XGB的特征提取模型;
步骤2.2.4、所述基于XGB的特征提取模型在对所述输入向量xi的Numerical数据进行离散化编码后,得到所述输入向量xi的Numerical特征向量;当完成对所有样本的处理后,执行步骤2.2.5,否则,执行步骤2.2.4;
步骤2.2.5、基于步骤2.2.4得到的Numerical特征向量及所述步骤2中得到的Categorical特征向量训练Lightgbm评判模型,根据所述Lightgbm评判模型的输出结果计算预测误差,调整所述基于XGB的特征提取模型的参数,重新提取样本的Numerical特征,并与步骤2中得到的Categorical特征输入到Lightgbm评判模型中,获得输出结果并计算预测误差,当所述预测误差小于设定的阈值时,则完成了所述基于XGB的特征提取模型的训练;否则,执行步骤2.2.2;
步骤2.2.6、将所述步骤2中得到的当前云工作流的Numerical数据输入到步骤2.2.5得到的所述基于XGB的特征提取模型,得到当前云工作流的影响因素数据的Numerical特征向量。
2.根据权利要求1所述的方法,其特征在于,所述特征融合器采用基于特征重要性特征排序筛选出总融合特征的方式,所述特征融合器将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征的过程包括以下步骤:
步骤2.3.1、根据确定的特征重要性指标,采用基于决策树算法的分布式梯度提升框架即Lightgbm模型分别计算所述影响因素数据、Categorical特征向量及Numerical特征向量的特征重要性,并根据所述特征重要性对特征向量进行排序形成特征向量序列;
步骤2.3.2、根据预设的选取规则,选取所述特征向量序列的部分特征向量作为输出特征向量,所述输出特征向量即为所述总融合特征。
3.根据权利要求1所述的方法,其特征在于,所述预测器基于Lightgbm预测模型实现,采用所述预测器对任务执行时间的预测过程包括以下步骤:
步骤2.4.1、初始化Lightgbm预测模型的参数;
步骤2.4.2、将所述步骤2中得到所述样本的总融合特征,输入所述Lightgbm预测模型得到预测结果,并计算误差值,根据所述误差,调整所述Lightgbm预测模型的参数;采用网格寻优算法,迭代计算,选择出具体最小总误差的模型参数所对应的Lightgbm预测模型完成所述预测器的训练;
步骤2.4.3、将所述步骤2中得到的当前云工作流的总融合特征,输入所述步骤2.4.2中训练好的所述预测器进行预测得到当前云工作流的任务执行时间。
CN202010407407.1A 2020-05-14 2020-05-14 基于多维度特征融合的云工作流任务执行时间预测方法 Active CN112200208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010407407.1A CN112200208B (zh) 2020-05-14 2020-05-14 基于多维度特征融合的云工作流任务执行时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010407407.1A CN112200208B (zh) 2020-05-14 2020-05-14 基于多维度特征融合的云工作流任务执行时间预测方法

Publications (2)

Publication Number Publication Date
CN112200208A CN112200208A (zh) 2021-01-08
CN112200208B true CN112200208B (zh) 2022-11-15

Family

ID=74005869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010407407.1A Active CN112200208B (zh) 2020-05-14 2020-05-14 基于多维度特征融合的云工作流任务执行时间预测方法

Country Status (1)

Country Link
CN (1) CN112200208B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835692B (zh) * 2021-01-12 2022-08-19 山东众阳健康科技集团有限公司 一种日志消息驱动任务方法、系统、存储介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647980A (zh) * 2019-09-18 2020-01-03 成都理工大学 一种基于gru神经网络的时间序列预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647980A (zh) * 2019-09-18 2020-01-03 成都理工大学 一种基于gru神经网络的时间序列预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Deep Learning-based QoS Prediction for Manufacturing Cloud Service;Huifang Li 等;《2019 Chinese Control Conference (CCC)》;20191017;全文 *
Hadoop平台下Mahout随机森林算法的分析与实现;曹蒙蒙等;《舰船电子工程》;20180920(第09期);全文 *
基于多元神经网络融合的分布式资源空间文本分类研究;刘孝保等;《计算机集成制造系统》;20200115(第01期);全文 *
基于模型融合的网络用户数据预测优化;任金虎等;《科技创新导报》;20191221(第36期);全文 *
混合计算环境中截止期约束下的科学工作流调度策略;阎朝坤等;《计算机工程与科学》;20120915(第09期);全文 *
面向QoS与成本感知的云工作流调度优化;方伯等;《计算机集成制造系统》;20171110(第02期);全文 *

Also Published As

Publication number Publication date
CN112200208A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN110544011B (zh) 一种智能化的体系作战效能评估和优化方法
CN105488528B (zh) 基于改进自适应遗传算法的神经网络图像分类方法
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
CN111785329A (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Ahmadi et al. Learning fuzzy cognitive maps using imperialist competitive algorithm
CN109740057B (zh) 一种基于知识萃取的增强神经网络及信息推荐方法
CN113743675B (zh) 一种云服务QoS深度学习预测模型的构建方法和系统
CN111008693A (zh) 一种基于数据压缩的网络模型构建方法、系统和介质
CN116362325A (zh) 一种基于模型压缩的电力图像识别模型轻量化应用方法
Pecori et al. Incremental learning of fuzzy decision trees for streaming data classification
CN116644970A (zh) 一种基于vmd分解和叠层深度学习的光伏功率预测方法
CN113468796A (zh) 一种基于改进随机森林算法的电压缺失数据辨识方法
CN111062511B (zh) 基于决策树与神经网络的水产养殖病害预测方法及系统
CN110222824B (zh) 智能算法模型自主生成及进化方法、系统、装置
CN116720620A (zh) 一种基于IPSO算法优化CNN-BiGRU-Attention网络模型的储粮通风温度预测方法
CN112200208B (zh) 基于多维度特征融合的云工作流任务执行时间预测方法
CN111310918A (zh) 一种数据处理方法、装置、计算机设备及存储介质
Wen et al. MapReduce-based BP neural network classification of aquaculture water quality
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
CN116956160A (zh) 一种基于自适应树种算法的数据分类预测方法
CN112200391A (zh) 基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法
CN116303386A (zh) 一种基于关系图谱的缺失数据智能插补方法和系统
CN115905903A (zh) 基于图注意力自动编码器的多视图聚类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant