CN112200208A - 基于多维度特征融合的云工作流任务执行时间预测方法 - Google Patents
基于多维度特征融合的云工作流任务执行时间预测方法 Download PDFInfo
- Publication number
- CN112200208A CN112200208A CN202010407407.1A CN202010407407A CN112200208A CN 112200208 A CN112200208 A CN 112200208A CN 202010407407 A CN202010407407 A CN 202010407407A CN 112200208 A CN112200208 A CN 112200208A
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- categorical
- numerical
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于多维度特征融合的云工作流任务执行时间预测方法,通过采用特征提取、融合与筛选等策略,建立基于多维度的融合特征预测模型,实现对任务执行时间的精准预测,一定程度上能够满足大数据驱动的云工作流任务执行时间预测需求,为云工作流任务执行时间的精准预测提供了新的思路和途径。
Description
技术领域
本发明属于云计算技术领域,具体涉及基于多维度特征融合的云工作流任务执行时间预测方法。
背景技术
随着云计算技术的日趋成熟与广泛应用,云数据中心内资源的按使用付费模式以及弹性扩展能力,为大规模科学应用的分布式管理与高效执行提供了快速、灵活、可扩展的部署环境。越来越多的科学家利用工作流来构建、管理复杂的科学应用,并将其科学工作流部署或者逐步迁移到云数据中心执行。科学应用高效执行的关键是工作流调度,而调度算法的设计、调度性能以及调度方案的可实施性,直接取决于任务执行时间的估计精度。
由于存在大量的用户请求与响应,实际云数据中心的运行数据呈指数级增长。其中,工作流任务执行日志中包含了大量的任务执行时间数据及其相关影响因素数据,在数据驱动的任务执行时间预测中起着重要作用。这些日志所包含的影响因素数据可被划分为Categorical数据和Numerical数据。其中,Categorical数据与任务和资源的多样性、异构性相关,其数值离散且取值范围广,如任务名称和机器ID等;Numerical数据则与云环境、云资源的动态特性相关,其数值连续,且在一定范围内波动,如资源利用率和网络带宽等。在大数据环境下,Categorical数据的高维稀疏特性会扩大模型的搜索空间,Numerical数据的低维稠密特性会降低部分特征之间的差异性,从而加大了模型寻优和学习的难度,给任务执行时间预测带来了巨大挑战。
然而,现有的任务执行时间预测方法大多缺乏针对性的特征提取策略,难以保障同时对Categorical数据和Numerical数据进行充分挖掘与利用。少部分任务执行时间预测方法拥有特征提取能力,但在利用提取到的特征进行预测过程中,没有设计相应的融合策略,容易引入噪声或提取到的错误信息,导致难以实现对任务执行时间的精准预测。
此外,现有的任务执行时间预测算法大多基于仿真数据,可是仿真环境难以模拟云资源的动态接入、撤离以及网络环境的不稳定性,也不易体现真实云环境下海量的任务请求响应以及资源的弹性伸缩所带来的大数据特性。因此,在实际应用过程中,存在以下不足:一是对Categorical数据的解析能力不足,难以解决Categorical数据的高维稀疏特性而导致的搜索空间过大问题,使模型难以找到最优解,从而影响预测精度;二是缺乏足够的非线性表达能力,难以处理Numerical数据的低维稠密特性所导致的特征差异性降低问题,使模型学习困难、易于陷入局部最优,从而影响预测效果;三是欠缺有效的特征融合策略,对提取到的特征直接进行学习,导致模型容易学到无效或错误信息,影响预测结果的准确性。因此,已有的任务执行时间预测方法,缺乏有效的Categorical和Numerical类特征提取能力以及特征融合策略,难以满足大数据环境下的云工作流任务执行时间预测需求。
发明内容
有鉴于此,本发明提供了基于多维度特征融合的云工作流任务执行时间预测方法,能够实现大数据驱动的云工作流任务执行时间的预测。
本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法,包括以下步骤:
步骤1、采用云工作流的任务执行时间及影响因素数据的历史数据构建样本集,所述样本集的输入为影响因素数据,输出为任务执行时间;
步骤2、建立任务执行时间预测模型,所述任务执行时间预测模型包括数据划分操作、Categorical特征提取器、Numerical特征提取器、特征融合器及预测器,其中,所述数据划分操作用于将所述影响因素数据划分为类别型数据即Categorical数据和数值型数据即Numerical数据;所述Categorical特征提取器用于从Categorical数据中提取Categorical特征向量;所述Numerical特征提取器用于从所述Numerical数据中提取Numerical特征向量;所述特征融合器用于将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征;所述预测器用于根据所述总融合特征预测得到任务执行时间;采用所述样本集完成所述任务执行时间预测模型的训练;
步骤3、将当前云工作流的影响因素数据划分为Categorical数据和Numerical数据,将输入到步骤2训练完成的任务执行时间预测模型中,预测当前云工作流的任务执行时间。
进一步地,所述Categorical特征提取器采用基于具有注意力机制的堆叠残差循环网络实现,所述堆叠残差循环网络将Categorical数据从高维稀疏空间映射到低维稠密空间;
采用所述Categorical特征提取器进行Categorical特征向量提取的过程包括以下步骤:
步骤2.1.1、初始化网络训练轮次;
步骤2.1.2、将由第i个样本的输入向量xi分离得到的Categorical数据及Numerical数据输入嵌入模块进行第一次特征提取,其中,所述Categorical数据经过nCa个嵌入单元进行特征提取后得到特征向量所述Numerical数据经过全连接单元进行特征提取后得到特征向量
步骤2.1.7、当所述网络训练轮次达到设定的阈值时,返回误差最小的网络模型,摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,得到训练完成的Categorical特征提取器;否则,所述网络训练轮次自加1,执行步骤2.1.2;
步骤2.1.8、将当前云工作流的影响因素数据中的Categorical数据输入到步骤2.1.7得到的所述Categorical特征提取器,得到当前云工作流的影响因素数据的Categorical特征向量。
进一步地,所述Numerical特征提取器基于XGB模型实现,采用所述Numerical特征提取器进行Numerical特征向量提取的过程包括以下步骤:
步骤2.2.1、初始化XGB模型参数,初始化回归树的数目p为1;
步骤2.2.2、将第i个样本的输入向量xi中的第k个Numerical数据输入第p棵回归树,得到第p棵回归树对样本i的预测结果当第p棵回归树完成对所有样本的预测后,生成第p棵回归树,否则,执行步骤2.2.2;
步骤2.2.3、当p小于设定的阈值NXGB时,p自加1,执行步骤2.2.2;否则,将生成的NXGB个回归树集成,并摘掉该XGB模型的输出层,获得基于XGB的特征提取模型;
步骤2.2.4、所述基于XGB的特征提取模型在对所述输入向量xi的Numerical数据进行离散化编码后,得到所述输入向量xi的Numerical特征向量;当完成对所有样本的处理后,执行步骤2.2.5,否则,执行步骤2.2.4;
步骤2.2.5、基于步骤2.2.4得到的Numerical特征向量及所述步骤2中得到的Categorical特征向量训练Lightgbm评判模型,根据所述Lightgbm评判模型的输出结果计算预测误差,调整所述基于XGB的特征提取模型的参数,重新提取样本的Numerical特征,并与步骤2中得到的Categorical特征输入到Lightgbm评判模型中,获得输出结果并计算预测误差,当所述预测误差小于设定的阈值时,则完成了所述基于XGB的特征提取模型的训练;否则,执行步骤2.2.2;
步骤2.2.6、将所述步骤2中得到的当前云工作流的Numerical数据输入到步骤2.2.5得到的所述基于XGB的特征提取模型,得到当前云工作流的影响因素数据的Numerical特征向量。
进一步地,所述特征融合器采用基于特征重要性特征排序筛选出总融合特征的方式,所述特征融合器将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征的过程包括以下步骤:
步骤2.3.1、根据确定的特征重要性指标,采用基于决策树算法的分布式梯度提升框架即Lightgbm模型分别计算所述影响因素数据、Categorical特征向量及Numerical特征向量的特征重要性,并根据所述特征重要性对特征向量进行排序形成特征向量序列;
步骤2.3.2、根据预设的选取规则,选取所述特征向量序列的部分特征向量作为输出特征向量,所述输出特征向量即为所述总融合特征。
进一步地,所述预测器基于Lightgbm预测模型实现,采用所述预测器对任务执行时间的预测过程包括以下步骤:
步骤2.4.1、初始化Lightgbm预测模型的参数;
步骤2.4.2、将所述步骤2中得到所述样本的总融合特征,输入所述Lightgbm预测模型得到预测结果,并计算误差值,根据所述误差,调整所述Lightgbm预测模型的参数;采用网格寻优算法,迭代计算,选择出具体最小总误差的模型参数所对应的Lightgbm预测模型完成所述预测器的训练;
步骤2.4.3、将所述步骤2中得到的当前云工作流的总融合特征,输入所述步骤2.4.2中训练好的所述预测器进行预测得到当前云工作流的任务执行时间。
有益效果:
1、本发明通过采用特征提取、融合与筛选等策略,建立基于多维度的融合特征预测模型,实现对任务执行时间的精准预测,一定程度上能够满足大数据驱动的云工作流任务执行时间预测需求,为云工作流任务执行时间的精准预测提供了新的思路和途径;
2、构建具有注意力机制的堆叠残差循环网络,将Categorical数据从高维稀疏空间映射到低维稠密空间,通过减小搜索空间,提升模型的Categorical数据解析能力,并增强模型对Categorical特征的关注度,以有效提取Categorical特征,提高预测精度;
3、引入极限梯度提升XGB算法,通过Numerical数据的离散化编码,将过于稠密的Numerical数据进行稀疏化处理,突出特征之间的差异性,避免模型训练陷入局部最优,提升模型的非线性信息表达能力,有效提取Numerical特征,改善预测性能;
4、设计异质多维度特征融合策略,将堆叠残差循环网络提取的Categorical特征、XGB模型提取的Numerical特征与原始样本数据进行融合,以充分挖掘与利用任务执行时间的多维度特征,使预测模型学习到更全面的知识,降低预测误差。
附图说明
图1为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的流程图。
图2为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法中Categorical特征提取网络结构图。
图3为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的中Numerical特征器构建过程示意图。
图4为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的中特征融合器构建过程示意图。
图5为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的中预测器构建过程示意图。
图6为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的平均绝对误差(MAE)对比图。
图7为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的均方根误差(RMSE)对比图。
图8为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的均方根对数误差(RMSLE)对比图。
图9为本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法的预测性能的决定系数(R2)对比图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法,其基本思想是:基于具有注意力机制的堆叠残差循环网络和极限梯度提升模型,分别对云工作流任务执行时间影响因素中的Categorical数据和Numerical数据进行有效的特征提取,在特征融合过程中计算所提取到的特征和影响因素中的原始特征的重要性,并进行排序筛选,提供多维度、全面且与执行时间更显著相关的特征,在此基础上,建立基于Lightgbm的预测模型,对融合特征进行充分挖掘和利用,改善其非线性表达能力和Categorical数据解析能力,实现对任务执行时间的精准预测,满足大数据驱动的云工作流任务执行时间预测需求。
本发明提供的基于多维度特征融合的云工作流任务执行时间预测方法,其流程如图1所示,具体包括以下步骤:
步骤1、采用云工作流的任务执行时间及影响因素数据的历史数据构建样本集,所述样本集的输入为影响因素数据,输出为任务执行时间。
样本集由多个工作流任务执行时间和相应的影响因素数据D={(xi,yi)}构成,其中xi表示第i个样本的输入向量(影响因素),yi表示xi对应的输出。假设该数据集D含有N个样本和m个影响因素,则|D|=N,i=1,2,...,N,
步骤2、建立任务执行时间预测模型,所述任务执行时间预测模型包括数据划分操作、Categorical特征提取器、Numerical特征提取器、特征融合器及预测器,其中,所述数据划分操作用于将影响因素数据划分为Categorical数据和Numerical数据;所述Categorical特征提取器用于从Categorical数据中提取Categorical特征向量;所述Numerical特征提取器用于从所述Numerical数据中提取Numerical特征向量;所述特征融合器用于将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征;所述预测器用于根据所述总融合特征预测得到任务执行时间;采用所述样本集完成所述任务执行时间预测模型的训练。
数据划分操作将影响因素数据划分为Categorical数据和Numerical数据,即将输入向量xi划分为其中,nCa、nNu分别表示输入向量中Categorical数据和Numerical数据的个数,且nCa+nNu=m。
其中,Categorical特征提取器,可以采用现有技术中的深度交叉网络DCN和深度兴趣网络DIN来实现;Numerical特征提取器,可以采用现有技术中的梯度提升决策树GBDT和随机森林RF来实现;特征融合器,可以采用现有技术中的直接融合算法来实现;预测器,可以采用现有技术中的神经网络算法DCN和DIN、随机森林算法RF和线性回归算法LR来实现。
步骤3、将当前云工作流的影响因素数据划分为Categorical数据和Numerical数据,将输入到步骤2训练完成的任务执行时间预测模型中,预测当前云工作流的任务执行时间。
在此基础上,本发明进一步对Categorical特征提取器、Numerical特征提取器、特征融合器及预测器进行了改进,以克服现有技术中存在的问题。
本发明改进的Categorical特征提取器:
用于实现Categorical特征提取器的深度交叉网络DCN和深度兴趣网络DIN存在以下问题:DCN在提取Categorical特征过程中不能引导模型关注于更有用的特征,保障不了信息在深层网络中的有效传递,存在梯度消散问题,导致提取效果不佳;DIN在提取Categorical特征过程中,对特征之间的关联性挖掘不够充分,也保障不了信息在深层网络中的有效传递,存在梯度消散问题,导致提取效果也不佳。
为了进一步提高Categorical特征的提取效果,本发明设计了具有注意力机制的堆叠残差循环网络,如图2所示,图2中虚线框内的部分为网络训练过程中使用而应用过程不用的模块,其堆叠循环网络结构能够通过更多的非线性变换,使模型可以充分学习数据的分布以及更加抽象的表示,得到更高阶的特征组合,最终改善特征提取性能;而其注意力机制和残差连接的引入,引导了模型关注于更有用的特征,保障了信息在深层网络中的有效传递,从而提升了模型的特征提取效果。采用本发明提出的Categorical特征提取器进行Categorical特征向量提取的过程包括以下步骤:
步骤2.1.1、设定网络训练轮次数量;
在Embedding模块中,将输入向量xi的nCa个Categorical数据依次输入到nCa个特定的Embedding单元,其余所有的Numerical数据输入到同一个Dense单元,以分别提取样本i的Categorical和Numerical特征,并得到相应的特征向量和具体计算如下:
其中,Wr和br分别为Embedding单元的线性权值矩阵和偏差,Wden和bden分别为Dense单元的线性权值矩阵和偏差,表示第i个样本的第j个Categorical数据,表示第i个样本的所有Numerical数据,且k∈[nCa+1,nCa+nNu];
在GRU模块中,首先,将样本i的特征向量输入到GRU单元,以提取相应的特征向量其次,进一步经过Attention单元计算并更新权重同时计算Attention单元提取的特征向量最后,将以及分别按λ%比例进行随机Dropout操作,并经残差连接后,获得GRU模块提取的总特征向量具体计算如下:
其中,Wgru和bgru分别为GRU单元的线性权值矩阵和偏差,Wga和bga分别为Attention单元的线性权值矩阵和偏差,表示GRU单元提取的所有样本特征向量的集合,νi为经由Attention单元时计算的权值,ν为所有样本的Attention单元权值构成的矩阵,exp()、tanh()和Dropout()分别表示以自然常数e为底的指数函数、双曲正切函数以及Dropout函数,λ∈[0,100);
在LSTM模块中,首先,第i个样本经过LSTM单元提取特征向量并经Attention单元计算/更新权重同时获得Attention单元提取的特征向量其次,将以及进行残差连接后,得到LSTM模块提取的总特征向量最后,将输入到输出层得到整个网络对样本i的预测结果具体计算如下:
其中,Wlstm和blstm为LSTM单元的线性权值矩阵和偏差,Wla和bla为LSTM模块中Attention单元的线性权值矩阵,νi为经由Attention单元时计算的权值,ν为所有样本的Attention单元权值构成的矩阵,表示LSTM单元提取的所有样本特征向量集合,Wo和bo为输出层的线性权值矩阵和偏差;
步骤2.1.6、当i大于或等于设定的阈值时,计算当前训练轮次下的网络误差;否则,i自加1,执行步骤2.1.2;
步骤2.1.7、当所述网络训练轮次达到设定的阈值时,返回误差最小的网络模型,摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,得到训练完成的Categorical特征提取器;否则,所述网络训练轮次,自加1,执行步骤2.1.2;
步骤2.1.8、摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,获得Categorical特征提取器,将当前云工作流的影响因素数据中的Categorical数据输入到步骤2.1.7得到的所述Categorical特征提取器,得到当前云工作流的影响因素数据的Categorical特征向量。
本发明改进的Numerical特征提取器:
用于实现Numerical特征提取的梯度提升决策树GBDT和随机森林RF存在以下问题:GBDT在提取Numerical特征过程中存在容易过拟合,且容易陷入局部最优的问题,导致提取效果不佳;RF在提取Numerical特征过程中,无法对特征获得有区分度的表达,也存在容易过拟合,且容易陷入局部最优的问题,导致提取效果也不佳。
针对上述问题,本发明采用的极限梯度提升算法模型(XGB模型)实现了Numerical特征提取器,如图3所示,可以对特征获得有区分度的表达,同时还利用正则化技术防止模型过拟合,采用二阶泰勒展开使模型更准确的找到全局最优解,最终改善了特征提取性能。采用本发明提出的Numerical特征提取器进行Numerical特征向量提取的过程包括以下步骤:
步骤2.2.1、初始化XGB模型参数,初始化回归树的数目p为1;
步骤2.2.2、将第i个样本的输入向量xi中的第k个Numerical数据输入第p棵回归树,得到第p棵回归树对样本i的预测结果其中,S()表示树的结构函数,为第p棵树的结构函数,用于在第p棵树每个分支的最深一层中寻找第i个样本的第k个Numerical数据所属叶子的下标,为第i个样本的第k个Numerical数据所属叶子的权重,且Tp表示第p棵树的叶子数量;当第p棵回归树完成对所有样本的预测后,生成第p棵回归树,否则,执行步骤2.2.2;
步骤2.2.3、当p小于设定的阈值NXGB时,p自加1,执行步骤2.2.2;否则,将生成的NXGB个回归树集成,并摘掉该XGB模型的输出层,获得基于XGB的特征提取模型;
步骤2.2.4、所述基于XGB的特征提取模型在对所述输入向量xi的Numerical数据进行离散化编码后,得到所述输入向量xi的Numerical特征向量;当完成对所有样本的处理后,执行步骤2.2.5,否则,执行步骤2.2.4;
步骤2.2.5、基于步骤2.2.4得到的Numerical特征向量及所述步骤2中得到的Categorical特征向量训练Lightgbm评判模型,根据所述Lightgbm评判模型的输出结果计算预测误差,调整所述基于XGB的特征提取模型的参数,重新提取样本的Numerical特征,并与步骤2中得到的Categorical特征输入到Lightgbm评判模型中,获得输出结果并计算预测误差,当所述预测误差小于设定的阈值时,则完成了所述基于XGB的特征提取模型的训练;否则,执行步骤2.2.2;
其中,预测误差的阈值一般设定为正负5%;
步骤2.2.6、去掉步骤2.2.5获得的基于XGB的特征提取模型的输出层,将所述步骤2中得到的当前云工作流的Numerical数据输入到基于XGB的特征提取模型,得到当前云工作流的影响因素数据的Numerical特征向量。
本发明改进的特征融合器:
用于实现特征融合的直接融合算法,在本发明所涉及的特征融合过程中存在容易引入噪声和无效信息,使得后续的预测模型容易学习到错误的知识,导致预测误差增大的问题,预测效果不佳。
针对上述问题,本发明设计的异质多维度特征融合算法采用基于特征重要性特征排序筛选出总融合特征的方式,如图4所示,能够对特征进行重要性计算、排序和筛选,使得后续预测模型能够充分挖掘和利用这些特征,学习到全面且有效的知识,最终降低预测误差,改善预测性能。采用本发明提出的特征融合器将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征的过程包括以下步骤:
步骤2.3.1、根据确定的特征重要性指标,采用Lightgbm模型分别计算所述影响因素数据、Categorical特征向量及Numerical特征向量的特征重要性,并根据所述特征重要性对特征向量进行排序形成特征向量序列;
步骤2.3.2、根据预设的选取规则,选取所述特征向量序列的部分特征向量作为输出特征向量,所述输出特征向量即为所述总融合特征。
一般情况下,选取特征向量序列中前δ×100%进行保留输出,其中,δ∈(0,1]。
本发明改进的预测器:
用于实现预测的神经网络算法DCN和DIN、随机森林算法RF和线性回归算法LR存在以下问题:DCN、DIN和LR缺乏足够的非线性表达能力,难以处理Numerical数据的低维稠密特性所导致的特征差异性降低问题,使模型学习困难、易于陷入局部最优,从而影响预测效果;RF对Categorical数据的解析能力不足,难以解决Categorical数据的高维稀疏特性而导致的搜索空间过大问题,使模型难以找到最优解,从而影响预测精度。
针对上述问题,本发明采用轻量梯度提升机Lightgbm模型实现预测器,如图5所示,Lightgbm模型具备较好的非线性表达能力和Categorical数据解析能力,能够从输入数据中挖掘Numerical数据和Categorical数据的有效信息,此外,还可以利用融合特征,进一步改善其非线性表达能力和Categorical数据解析能力,对特征进行充分挖掘和利用,学习到全面且有效的知识,最终降低预测误差,提升预测效果。采用本发明提出的预测器对任务执行时间的预测过程包括以下步骤:
步骤2.4.1、初始化Lightgbm预测模型的参数;
步骤2.4.2、将所述步骤2中得到所述样本的总融合特征,输入所述Lightgbm预测模型得到预测结果,并计算误差值,根据所述误差,调整所述Lightgbm预测模型的参数;采用网格寻优算法,迭代计算,选择出具体最小总误差的模型参数所对应的Lightgbm预测模型完成所述预测器的训练;
步骤2.4.3、将所述步骤2中得到的当前云工作流的总融合特征,输入所述步骤2.4.2中训练好的所述预测器进行预测得到当前云工作流的任务执行时间。
为检验本发明方法的效果,使用python语言对算法进行编程,并采用真实云数据中心的集群数据——阿里巴巴cluster-trace-v2018数据集进行实验验证,以检验本发明提出的基于多维度特征融合(MDFF)的预测算法的有效性。其中,实验部分的对比算法采用典型的预测算法:深度交叉网络(DCN),深度兴趣网络(DIN),梯度提升决策树+线性回归(GBDT+LR)以及两阶段算法(Two Stage Approach,TSA)。
在进行实验之前,首先对cluster-trace-v2018数据集进行分析,找到关键性属性,并根据这些关键属性匹配不同数据表中的数据,获得包含任务执行时间和相关影响因素的数据集。然后,对该数据集中存在的异常值和缺失值进行处理,获得最终可用于检验算法的云工作流任务执行时间数据集,包含22155组云工作流任务执行时间及其对应的所有影响因素数据。
在上述数据集中随机抽取17724组数据形成训练集,将剩余的4431组数据作为测试集;其次,采用训练集训练基于多维度特征融合的云工作流任务执行时间预测模型;然后,将测试集中的影响因素数据输入到训练好的模型中,获得云工作流任务执行时间的预测结果;最后,将预测得到的任务执行时间与实际的任务执行时间进行比较,并计算评价指标。
选取平均绝对误差MAE、均方根误差RMSE、均方根对数误差RMSLE以及决定系数R2,作为算法的性能评价指标,从不同角度评估不同模型的预测效果。其中,MAE、RMSE和RMSLE数值越低,说明算法预测效果越好;R2数值越高,表明算法预测效果越好。在实验过程中,首先,对所有算法的参数进行调试,取最优的参数组合,并取十次实验结果的平均值。各算法在评价指标MAE、RMSE、RMSLE以及R2下的对比如图6至图9所示。
各算法MAE的对比如图6所示。由图6可知,与其他典型预测算法相比,本发明方法获得了最低的MAE值,相对于MAE值最高的DIN算法低大约30%,相对于MAE值最低的DCN低大约10%,预测结果更为准确。
各算法RMSE的对比如图7所示。由图7可知,本发明的RMSE远低于其他典型预测算法,相对于RMSE最小的DIN算法减少1.825,相对于RMSE最大的TSA算法减少6.508,对所有测试样本的预测误差波动更小,预测效果更好。
各算法RMSLE的对比如图8所示。由图8可知,本发明的RMSLE最低,是RMSLE最高的DIN算法的三分之一,比RMSLE最低的TSA算法大约低11%,表明本发明算法没有大数值样本的预测偏向性,在所有数值范围的样本数据上,都表现出较好的预测性能。
各算法R2的对比如图9所示。由图9可知,本发明的R2高于其他典型预测算法,相对于R2值最小的TSA算法提高了0.025,相对于R2最大的DIN算法提升了0.006,说明本发明算法在云工作流执行时间预测问题上拟合效果更好,能够获得更准确的预测结果。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.基于多维度特征融合的云工作流任务执行时间预测方法,其特征在于,包括以下步骤:
步骤1、采用云工作流的任务执行时间及影响因素数据的历史数据构建样本集,所述样本集的输入为影响因素数据,输出为任务执行时间;
步骤2、建立任务执行时间预测模型,所述任务执行时间预测模型包括数据划分操作、Categorical特征提取器、Numerical特征提取器、特征融合器及预测器,其中,所述数据划分操作用于将所述影响因素数据划分为类别型数据即Categorical数据和数值型数据即Numerical数据;所述Categorical特征提取器用于从Categorical数据中提取Categorical特征向量;所述Numerical特征提取器用于从所述Numerical数据中提取Numerical特征向量;所述特征融合器用于将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征;所述预测器用于根据所述总融合特征预测得到任务执行时间;采用所述样本集完成所述任务执行时间预测模型的训练;
步骤3、将当前云工作流的影响因素数据划分为Categorical数据和Numerical数据,将输入到步骤2训练完成的任务执行时间预测模型中,预测当前云工作流的任务执行时间。
2.根据权利要求1所述的方法,其特征在于,所述Categorical特征提取器采用基于具有注意力机制的堆叠残差循环网络实现,所述堆叠残差循环网络将Categorical数据从高维稀疏空间映射到低维稠密空间;
采用所述Categorical特征提取器进行Categorical特征向量提取的过程包括以下步骤:
步骤2.1.1、初始化网络训练轮次;
步骤2.1.2、将由第i个样本的输入向量xi分离得到的Categorical数据及Numerical数据输入嵌入模块进行第一次特征提取,其中,所述Categorical数据经过nCa个嵌入单元进行特征提取后得到特征向量所述Numerical数据经过全连接单元进行特征提取后得到特征向量
步骤2.1.7、当所述网络训练轮次达到设定的阈值时,返回误差最小的网络模型,摘掉该网络模型的输出层、Embedding模块中的Dense单元及其相关连接,得到训练完成的Categorical特征提取器;否则,所述网络训练轮次自加1,执行步骤2.1.2;
步骤2.1.8、将当前云工作流的影响因素数据中的Categorical数据输入到步骤2.1.7得到的所述Categorical特征提取器,得到当前云工作流的影响因素数据的Categorical特征向量。
3.根据权利要求1所述的方法,其特征在于,所述Numerical特征提取器基于XGB模型实现,采用所述Numerical特征提取器进行Numerical特征向量提取的过程包括以下步骤:
步骤2.2.1、初始化XGB模型参数,初始化回归树的数目p为1;
步骤2.2.2、将第i个样本的输入向量xi中的第k个Numerical数据输入第p棵回归树,得到第p棵回归树对样本i的预测结果当第p棵回归树完成对所有样本的预测后,生成第p棵回归树,否则,执行步骤2.2.2;
步骤2.2.3、当p小于设定的阈值NXGB时,p自加1,执行步骤2.2.2;否则,将生成的NXGB个回归树集成,并摘掉该XGB模型的输出层,获得基于XGB的特征提取模型;
步骤2.2.4、所述基于XGB的特征提取模型在对所述输入向量xi的Numerical数据进行离散化编码后,得到所述输入向量xi的Numerical特征向量;当完成对所有样本的处理后,执行步骤2.2.5,否则,执行步骤2.2.4;
步骤2.2.5、基于步骤2.2.4得到的Numerical特征向量及所述步骤2中得到的Categorical特征向量训练Lightgbm评判模型,根据所述Lightgbm评判模型的输出结果计算预测误差,调整所述基于XGB的特征提取模型的参数,重新提取样本的Numerical特征,并与步骤2中得到的Categorical特征输入到Lightgbm评判模型中,获得输出结果并计算预测误差,当所述预测误差小于设定的阈值时,则完成了所述基于XGB的特征提取模型的训练;否则,执行步骤2.2.2;
步骤2.2.6、将所述步骤2中得到的当前云工作流的Numerical数据输入到步骤2.2.5得到的所述基于XGB的特征提取模型,得到当前云工作流的影响因素数据的Numerical特征向量。
4.根据权利要求1所述的方法,其特征在于,所述特征融合器采用基于特征重要性特征排序筛选出总融合特征的方式,所述特征融合器将影响因素数据、Categorical特征向量及Numerical特征向量融合为总融合特征的过程包括以下步骤:
步骤2.3.1、根据确定的特征重要性指标,采用基于决策树算法的分布式梯度提升框架即Lightgbm模型分别计算所述影响因素数据、Categorical特征向量及Numerical特征向量的特征重要性,并根据所述特征重要性对特征向量进行排序形成特征向量序列;
步骤2.3.2、根据预设的选取规则,选取所述特征向量序列的部分特征向量作为输出特征向量,所述输出特征向量即为所述总融合特征。
5.根据权利要求1所述的方法,其特征在于,所述预测器基于Lightgbm预测模型实现,采用所述预测器对任务执行时间的预测过程包括以下步骤:
步骤2.4.1、初始化Lightgbm预测模型的参数;
步骤2.4.2、将所述步骤2中得到所述样本的总融合特征,输入所述Lightgbm预测模型得到预测结果,并计算误差值,根据所述误差,调整所述Lightgbm预测模型的参数;采用网格寻优算法,迭代计算,选择出具体最小总误差的模型参数所对应的Lightgbm预测模型完成所述预测器的训练;
步骤2.4.3、将所述步骤2中得到的当前云工作流的总融合特征,输入所述步骤2.4.2中训练好的所述预测器进行预测得到当前云工作流的任务执行时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407407.1A CN112200208B (zh) | 2020-05-14 | 2020-05-14 | 基于多维度特征融合的云工作流任务执行时间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407407.1A CN112200208B (zh) | 2020-05-14 | 2020-05-14 | 基于多维度特征融合的云工作流任务执行时间预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200208A true CN112200208A (zh) | 2021-01-08 |
CN112200208B CN112200208B (zh) | 2022-11-15 |
Family
ID=74005869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010407407.1A Active CN112200208B (zh) | 2020-05-14 | 2020-05-14 | 基于多维度特征融合的云工作流任务执行时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200208B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835692A (zh) * | 2021-01-12 | 2021-05-25 | 山东众阳健康科技集团有限公司 | 一种日志消息驱动任务方法、系统、存储介质及设备 |
CN113822344A (zh) * | 2021-08-30 | 2021-12-21 | 中能电力科技开发有限公司 | 基于数据驱动的风电机组发电机前轴承状态监测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647980A (zh) * | 2019-09-18 | 2020-01-03 | 成都理工大学 | 一种基于gru神经网络的时间序列预测方法 |
-
2020
- 2020-05-14 CN CN202010407407.1A patent/CN112200208B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647980A (zh) * | 2019-09-18 | 2020-01-03 | 成都理工大学 | 一种基于gru神经网络的时间序列预测方法 |
Non-Patent Citations (6)
Title |
---|
HUIFANG LI 等: "Deep Learning-based QoS Prediction for Manufacturing Cloud Service", 《2019 CHINESE CONTROL CONFERENCE (CCC)》 * |
任金虎等: "基于模型融合的网络用户数据预测优化", 《科技创新导报》 * |
刘孝保等: "基于多元神经网络融合的分布式资源空间文本分类研究", 《计算机集成制造系统》 * |
方伯等: "面向QoS与成本感知的云工作流调度优化", 《计算机集成制造系统》 * |
曹蒙蒙等: "Hadoop平台下Mahout随机森林算法的分析与实现", 《舰船电子工程》 * |
阎朝坤等: "混合计算环境中截止期约束下的科学工作流调度策略", 《计算机工程与科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835692A (zh) * | 2021-01-12 | 2021-05-25 | 山东众阳健康科技集团有限公司 | 一种日志消息驱动任务方法、系统、存储介质及设备 |
CN112835692B (zh) * | 2021-01-12 | 2022-08-19 | 山东众阳健康科技集团有限公司 | 一种日志消息驱动任务方法、系统、存储介质及设备 |
CN113822344A (zh) * | 2021-08-30 | 2021-12-21 | 中能电力科技开发有限公司 | 基于数据驱动的风电机组发电机前轴承状态监测方法 |
CN113822344B (zh) * | 2021-08-30 | 2024-05-31 | 龙源(北京)新能源工程技术有限公司 | 基于数据驱动的风电机组发电机前轴承状态监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112200208B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175628A (zh) | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 | |
CN110544011B (zh) | 一种智能化的体系作战效能评估和优化方法 | |
CN109948029A (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
CN112052948B (zh) | 一种网络模型压缩方法、装置、存储介质和电子设备 | |
CN111785329A (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN112465120A (zh) | 一种基于进化方法的快速注意力神经网络架构搜索方法 | |
CN107544960B (zh) | 一种基于变量绑定和关系激活的自动问答方法 | |
CN109740057B (zh) | 一种基于知识萃取的增强神经网络及信息推荐方法 | |
CN112200208B (zh) | 基于多维度特征融合的云工作流任务执行时间预测方法 | |
Pecori et al. | Incremental learning of fuzzy decision trees for streaming data classification | |
CN116644970A (zh) | 一种基于vmd分解和叠层深度学习的光伏功率预测方法 | |
CN116362325A (zh) | 一种基于模型压缩的电力图像识别模型轻量化应用方法 | |
CN113032367A (zh) | 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统 | |
CN113722980A (zh) | 海洋浪高预测方法、系统、计算机设备、存储介质、终端 | |
CN111062511B (zh) | 基于决策树与神经网络的水产养殖病害预测方法及系统 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN111310918A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN116542701A (zh) | 一种基于cnn-lstm组合模型的碳价预测方法及系统 | |
CN110826692A (zh) | 一种自动化模型压缩方法、装置、设备及存储介质 | |
Wen et al. | MapReduce-based BP neural network classification of aquaculture water quality | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN116956160A (zh) | 一种基于自适应树种算法的数据分类预测方法 | |
CN112200391A (zh) | 基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法 | |
CN116303386A (zh) | 一种基于关系图谱的缺失数据智能插补方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |