CN108073442B

CN108073442B - 基于深度模糊栈式自编码的仿真请求执行时间预测方法

Info

Publication number: CN108073442B
Application number: CN201711068433.0A
Authority: CN
Inventors: 苑海涛
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2021-08-31
Anticipated expiration: 2037-11-03
Also published as: CN108073442A

Abstract

本发明公开一种基于深度模糊栈式自编码的仿真请求执行时间预测方法，该方法针对目前仿真云中请求执行时间的特点，建立了由多个自编码器构成的隐含层网络模型。通过无监督的方式逐层训练每个自编码层，获得无标签的仿真应用请求执行时间数据中有价值的隐含特征。基于此，建立了由模糊神经元构成的模糊回归分析层，采用基于梯度下降的误差反向传播算法，通过有监督的方式训练该层并获得连接权重等参数的初始值。然后采用有监督的方式对每个自编码层和模糊回归层中的连接权重等参数进行精细化微调，从而获得整个深度模糊栈式自编码网络模型。本发明能够有效处理数据中的不确定性和模糊性，从而对仿真应用请求在虚拟机中的执行时间进行有效的预测。

Description

基于深度模糊栈式自编码的仿真请求执行时间预测方法

技术领域

本发明涉及云计算请求预测技术领域。更具体地，涉及一种基于深度模糊栈式自编码的仿真请求执行时间预测方法。

背景技术

作为一种新的计算模式，云计算能够将IT资源、数据、应用以服务的形式通过网络按需提供给用户使用。云计算提供了一种新的基础架构管理方法，能够将大量高度虚拟化的资源组成一个大的资源池，进而向用户提供统一的服务，包括基础设施、平台、软件等三类服务。而云仿真技术是基于云计算理念而提出的一种面向服务的基于网络(包括互联网、物联网、电信网、广播网、移动网等)的敏捷化、绿色化、智能化、网络化仿真新模式。它融合和发展了现有网络化建模与仿真技术及智能科学、高效能计算等新兴信息技术，能够将各类仿真资源虚拟化、服务化，构成服务云池并进行有效的优化与管理。仿真云是指按照云仿真技术和理念开发的包含基础设施、平台、软件等三类服务的数据中心和集中地，海量的用户可通过终端和网络通过仿真云平台从云池中随时按需地获取其所需的仿真云中的在线仿真资源和云服务，并以服务组合的方式按需动态地构造虚拟化仿真系统，从而实现其仿真应用中整个生命周期的各类仿真活动。

仿真云中的每个仿真应用通常由多个应用子系统组成，子系统之间的交互、协同关系复杂，比如航空、航天等复杂工程系统。每个子系统的执行往往依赖与其交互的子系统的执行结果。另外，用户的仿真应用往往涉及多个用户之间的协同、大规模复杂仿真任务之间的协同、分布异构的仿真资源的集成等复杂问题。此外，为了保证用户请求的服务质量和响应时间，仿真云提供商与用户之间往往会签订服务等级协议(Service LevelAgreement,SLA)。如果用户的仿真应用请求的实际执行时间超过了服务等级协议中规定的阈值，仿真云提供商需要向用户支付较高的惩罚费用。因此，为了提高仿真云的响应能力从而快速灵活地组成各类仿真服务以响应用户的请求，亟需提供针对用户仿真应用请求的执行时间的精确预测方法。

目前仿真云数据中心中应用请求执行时间的估计方法主要有以下几种：通过产生随机数的方式、基于概率统计的公式、基于稳态或非稳态排队理论的计算方式。产生随机数的方式往往假设请求执行时间分布在某个特定的区间内，通过在该区间产生随机数可以估算每个请求的预计执行时间。基于概率统计的公式假定请求执行时间符合特定的概率分布(如正态分布、均匀分布等)，按照该概率分布可估算每个请求的预计执行时间。基于稳态或非稳态排队理论的计算方式根据排队理论(如M/M/1排队系统、G/D/1排队系统等)，根据队列中请求的平均执行时间估算每个请求的预计执行时间。以上方式需要假定云数据中心中的应用请求的执行时间符合特定的概率分布，但是在实际的云计算环境下，每个应用的请求的实际执行时间往往不满足这些假设条件。因此，基于现有的请求执行时间估算的方式往往无法准确获得每个请求的实际执行时间，进而在对应用的请求进行调度时往往无法满足应用请求的延迟时间要求。

仿真应用请求执行时间具有随机的特性。而传统的方法往往通过人为指定的若干特征，并利用浅层的网络架构，因此其泛化能力较弱，易导致较差的预测效果。而深度的神经网络模型仅需要尽可能少的先验知识，不需要假设样本数据符合某种预先设定的数学模型。具有极强的泛化能力，能够自动地从数据中抽取有价值的特征。因此，可以基于深度神经网络提供一种适用于仿真应用的请求执行时间预测方法，从而有效地预测仿真应用请求在虚拟机中的预计执行时间。

发明内容

本发明的目的在于提供一种基于深度模糊栈式自编码的仿真应用请求执行时间预测方法，采用包括多个由自编码器构成的隐含层和一个顶层的回归分析层构成的深度网络模型，每个自编码器层用来实现无监督的特征学习，从而挖掘仿真应用请求在每个虚拟机中的历史执行时间序列中的隐含特征。而顶层的回归层用于实现有监督的学习，并执行对仿真应用请求实际执行时间的回归分析。该方法能够有效地预测仿真应用请求在虚拟机中的预计执行时间。

为达到上述目的，本发明采用下述技术方案：

根据本发明的一个方面，建立了栈式自编码网络模型，从而获取无标签的仿真应用请求执行时间数据中有价值的隐含特征，进而为顶层的回归分析层提供关键的特征数据；每个自编码层通过无监督特征学习的方式进行逐层的训练，从而获得每一层预先训练得到的连接权重等参数，并以此作为栈式自编码层的初始化参数值。

根据本发明的另一方面，在深度神经网络的顶层建立了一个由模糊神经元构成的模糊回归层，通过有监督训练的方式调整该模糊回归层中涉及的连接权重等参数，从而有效地处理仿真应用请求在虚拟机中的执行时间数据的不确定性和模糊性，比如数据中由于测量误差而引起的噪声等；设计一个由上确界神经元和一个下确界神经元构成的模糊神经元，这两个神经元的输出按照各自的输出权重系数进行加权求和，获得整个深度模糊栈式自编码网络的输出；采用基于梯度下降的误差反向传播算法对每个自编码层和顶层的模糊回归层中的所有连接权重等参数进行精细化微调，获得训练得到的整个深度模糊栈式自编码网络模型，进而对仿真应用请求在虚拟机中执行时间进行有效的预测。

根据本发明的上述方面，针对目前仿真云环境下仿真应用请求执行时间的特点，建立了由栈式自编码层和模糊回归层构成的深度网络模型，通过无监督学习的方式逐层训练每个自编码层以及有监督训练的方式训练模糊回归层，从而对仿真应用请求在虚拟机中的执行时间进行有效的预测。

综上，一种基于深度模糊栈式自编码的仿真应用请求执行时间预测方法，包括如下步骤：

S1、针对目前仿真云环境下仿真应用请求执行时间的特点，建立由多个自编码器构成的隐含层网络模型；

S2、通过无监督学习的方式逐层训练每个自编码层，获取无标签的仿真应用请求执行时间数据中有价值的隐含特征；

S3、在深度网络模型的顶层建立由模糊神经元构成的模糊回归分析层，该模糊神经元由一个上确界神经元和一个下确界神经元构成；

S4、采用基于梯度下降的误差反向传播算法，通过有监督训练的方式训练模糊回归层，获得模糊回归层连接权重等参数的初始值。

S5、采用有监督训练的方式对每个自编码层和模糊回归层中的连接权重等参数的值进行精细化微调，从而获得训练得到的整个深度模糊栈式自编码网络模型，进而对仿真应用请求在虚拟机中执行时间进行有效的预测。

优选地，所述深度模糊栈式自编码器由两个训练阶段构成，具体为：第一个是针对由多个自编码器构成的隐含层网络模型的无监督预训练阶段，获得仿真应用请求执行时间数据中的有价值特征，进而给出每个自编码器层中所有连接权重等参数的初始值；第二个是针对顶层回归层的有监督训练阶段，该阶段利用仿真应用请求实际执行时间数据进行有监督的训练，从而对每个自编码器层和顶层回归层中的所有初始化参数进行精细化微调。

优选地，所述隐含层网络模型由多个自编码器构成，从而挖掘仿真应用请求在每个虚拟机中的历史执行时间序列中的隐含特征，每一层自编码器采用tied weight训练方法，具体为：

其中，A^k表示第k层自编码器，每个A^k有对应的编码阶段和解码阶段；W₁ ^k表示A^k的编码阶段的权重；

表示A^k的解码阶段的权重。

优选地，所述隐含层网络模型的无监督预训练过程中采用无标签的请求实际执行时间数据，从A¹开始逐层进行训练，直至达到最后的回归层。当A¹训练时，将训练集作为输入传入A¹，得到训练集在隐层中的加密表示，并进一步传递给A²，直至最后一个自编码器层训练结束为止。

优选地，所述预训练阶段中第k个自编码器层A^k的误差标准函数L(h^k-1,o^k)，具体为：

其中，J(h^k-1,o^k)表示数据重构的均方误差；

表示为防止出现训练数据过拟合问题而添加的正则化误差项。

优选地，所述预训练阶段中第k个自编码器层中的数据重构的均方误差J(h^k-1,o^k)，具体为：

其中，h^k-1表示自编码器层A^k的输入向量；o^k表示自编码器层A^k的输出向量；M表示训练样本的数量。

优选地，所述预训练阶段中第k个自编码器层中的正则化误差项

具体为：

其中，λ₁表示权重下降参数；n_k表示第k层中神经元的个数；

表示第k层中第i个神经元与前一层中第j个神经元之间的连接权重。

优选地，所述在深度网络模型的顶层建立的最后第K层为模糊回归分析层，该层采用模糊神经网络中的模糊神经元实现有监督的学习，获得对仿真应用请求实际执行时间的回归分析。该模糊神经元由一个上确界神经元和一个下确界神经元构成。

优选地，所述上确界神经元的输出

具体为：

其中，

和

表示第K-1个自编码器层与第K层上确界神经元之间的连接权重和偏置；

和

表示第K-1个自编码器层与第K层下确界神经元之间的连接权重和偏置；h^K-1表示第K-1个自编码器层的输出，即第K层模糊神经元的输入；f^K表示神经网络中的Sigmoid函数。

优选地，所述下确界神经元的输出

具体为：

优选地，所述第K层模糊神经元的最终输出h^K具体为：

其中，α和β表示两个系数，0≤α≤1，0≤β≤1；

表示上确界神经元的输出；

表示下确界神经元的输出。

优选地，采用基于梯度下降的误差反向传播算法，通过有监督训练的方式训练最后一层的模糊回归层，训练获得整个深度模糊栈式自编码网络模型，进而对仿真应用请求在虚拟机中的执行时间进行有效的预测。

优选地，所述最后一层的模糊回归层的累积误差函数E，具体为：

其中，

表示训练集中实际的仿真应用请求执行时间数据；J_reg表示权重衰减正则化惩罚项。

优选地，所述权重衰减正则化惩罚项J_reg，具体为：

其中，λ₂表示正则化参数；n_K表示第K层中神经元的个数；n_K-1表示第K-1层中神经元的个数；W_Ui,j表示第K层中第i个上确界神经元与第K-1层中第j个神经元之间的连接权重；W_Li,j表示第K层中第i个下确界神经元与第K-1层中第j个神经元之间的连接权重。

优选地，所述基于梯度下降的误差反向传播算法中使用的关于

和

的梯度值，具体为：

和

的梯度值，具体为：

优选地，所述基于梯度下降的误差反向传播算法中使用的两个系数α和β的更新方式，具体为：

其中，η表示学习率参数。

本发明的有益效果如下：

本发明所述技术方案能够解决仿真云中仿真应用请求在虚拟机中的执行时间数据的随机性、不确定性和模糊性给仿真应用请求调度带来的难题，并能够有效地预测仿真应用请求在虚拟机中的执行时间，从而在对仿真应用的请求进行调度时严格满足请求的延迟时间要求。且本发明所述技术方案不需要假设样本数据符合某种预先设定的数学模型，具有极强的泛化能力。通过利用栈式自编码器层实现无监督的特征学习，从而挖掘仿真应用请求在每个虚拟机中的历史执行时间序列中有价值的隐含特征，进而利用模糊回归层以有监督训练的方式实现对请求执行时间的回归分析，能够更精确地预测仿真云平台中仿真应用请求在虚拟机中的执行时间，并提高仿真云的响应能力从而快速灵活随时按需地组成各类仿真服务并构造虚拟化仿真系统以响应用户的请求。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1示出基于深度模糊栈式自编码的仿真应用请求执行时间预测方法的流程图。

图2示出含模糊回归层的栈式自编码深度网络结构图

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

如图1和图2所示，本发明公开的一种基于深度模糊栈式自编码的仿真应用请求执行时间预测方法，包括如下步骤：

S1、针对目前仿真云环境下仿真应用请求执行时间的特点，建立由多个自编码器构成的隐含层网络模型：

上述深度模糊栈式自编码器网络模型，包括多个由自编码器构成的隐含层和一个顶层的模糊回归层。其中，每个自编码层可按照无监督预训练的方式，获得无标签的仿真应用请求执行时间数据中有价值的隐含特征，进而为顶层的回归分析层提供关键的特征数据。每个自编码层通过无监督特征学习的方式进行逐层的训练，从而获得每一层预先训练得到的连接权重等参数，并以此参数作为由多个自编码器构成的隐含层网络模型的初始化参数值。

S2、通过无监督学习的方式逐层训练每个自编码层，获取无标签的仿真应用请求执行时间数据中有价值的隐含特征：

本发明采用的隐含层网络模型由多个自编码器构成，从而挖掘仿真应用请求在每个虚拟机中的历史执行时间序列中的隐含特征，每一层自编码器采用tied weight训练方法，具体为：

表示A^k的解码阶段的权重。

本发明采用的隐含层网络模型的无监督预训练过程中采用无标签的请求实际执行时间数据，从A¹开始逐层进行训练，直至达到最后的回归层。当A¹训练时，将训练集作为输入传入A¹，得到训练集在隐层中的加密表示，并进一步传递给A²，直至最后一个自编码器层训练结束为止。

本发明采用的预训练阶段中第k个自编码器层A^k的误差标准函数L(h^k-1,o^k)，具体为：

其中，J(h^k-1,o^k)表示数据重构的均方误差；

本发明采用的预训练阶段中第k个自编码器层中的数据重构的均方误差J(h^k-1,o^k)，具体为：

本发明采用的预训练阶段中第k个自编码器层中的正则化误差项

具体为：

S3、在深度网络模型的顶层建立由模糊神经元构成的模糊回归分析层，该模糊神经元由一个上确界神经元和一个下确界神经元构成：

本发明在顶层回归层的有监督训练阶段，利用仿真应用请求实际执行时间数据进行有监督的训练。在深度网络模型的顶层建立最后第K层模糊回归分析层，并采用模糊神经网络中的模糊神经元实现有监督的学习，获得对仿真应用请求实际执行时间的回归分析。该模糊神经元由一个上确界神经元和一个下确界神经元构成。

S4、采用基于梯度下降的误差反向传播算法，通过有监督训练的方式训练模糊回归层，获得模糊回归层连接权重等参数的初始值：

本发明中模糊回归层中上确界神经元的输出

具体为：

其中，

和

和

本发明中模糊回归层中下确界神经元的输出

具体为：

本发明中最后的第K层模糊神经元的最终输出h^K，具体为：

其中，α和β表示两个系数，0≤α≤1，0≤β≤1；

表示上确界神经元的输出；

表示下确界神经元的输出。

本发明采用基于梯度下降的误差反向传播算法，通过有监督训练的方式训练最后一层的模糊回归层，训练获得整个深度模糊栈式自编码网络模型，进而对仿真应用请求在虚拟机中的执行时间进行有效的预测。

本发明中最后一层的模糊回归层中采用的累积误差函数E，具体为：

其中，

上述权重衰减正则化惩罚项J_reg，具体为：

本发明采用的基于梯度下降的误差反向传播算法中使用的关于

和

的梯度值，具体为：

和

的梯度值，具体为：

本发明采用的基于梯度下降的误差反向传播算法中使用的两个系数α和β的更新方式，具体为：

其中，η表示学习率参数。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，该方法包括如下步骤：

S4、采用基于梯度下降的误差反向传播算法，通过有监督训练的方式训练模糊回归层，获得模糊回归层连接权重等参数的初始值；

2.根据权利要求1所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述深度模糊栈式自编码器由两个训练阶段构成，具体为：第一个阶段是针对由多个自编码器构成的隐含层网络模型的无监督预训练阶段，获得仿真应用请求执行时间数据中的有价值特征，进而给出每个自编码器层中所有权重等参数的初始值；第二个阶段是针对顶层回归层的有监督训练阶段，该阶段利用仿真应用请求实际执行时间数据进行有监督的训练，从而对每个自编码器层和顶层回归层中的所有初始化参数进行精细化微调。

3.根据权利要求2所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述隐含层网络模型由多个自编码器构成，从而挖掘仿真应用请求在每个虚拟机中的历史执行时间序列中的隐含特征，每一层自编码器采用tied weight训练方法，具体为：

其中，k为自编码器的层编号，每层的自编码器均有各自的编码和解码阶段；W₁ ^k为自编码器k的编码权重向量，

为自编码器k的解码权重向量。

4.根据权利要求3所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述隐含层网络模型的无监督预训练过程中采用无标签的请求实际执行时间数据，从A¹开始逐层进行训练，直至达到最后的回归层；当A¹训练时，将训练集作为输入传入A¹，得到训练集在隐层中的加密表示，并进一步传递给A²，直至最后一个自编码器层训练结束为止。

5.根据权利要求4所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述预训练阶段中第k个自编码器层A^k的误差标准函数L(h^k-1，o^k)，具体为：

其中，J(h^k-1，o^k)表示数据重构的均方误差；

表示为防止出现训练数据过拟合问题而添加的正则化误差项；h^k-1表示自编码器层A^k的输入向量；o^k表示自编码器层A^k的输出向量；M表示训练样本的数量；λ₁表示权重下降参数；n_k表示第k层中神经元的个数；

6.根据权利要求5所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述在深度网络模型的顶层建立的最后第K层为模糊回归分析层，该层采用模糊神经网络中的模糊神经元实现有监督的学习，获得对仿真应用请求实际执行时间的回归分析；该模糊神经元由一个上确界神经元和一个下确界神经元构成。

7.根据权利要求6所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述第K层模糊神经元的最终输出h^K具体为：

其中，

表示上确界神经元的输出；

表示下确界神经元的输出；

和

和

表示第K-1个自编码器层与第K层下确界神经元之间的连接权重和偏置；h^K-1表示第K-1个自编码器层的输出，即第K层模糊神经元的输入；f^K表示神经网络中的Sigmoid函数；α和β表示两个系数，0≤α≤1，0≤β≤1。

8.根据权利要求7所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，采用基于梯度下降的误差反向传播算法，通过有监督训练的方式训练最后一层的模糊回归层，训练获得整个深度模糊栈式自编码网络模型，进而对仿真应用请求在虚拟机中的执行时间进行有效的预测；所述最后一层的模糊回归层的累积误差函数E，具体为：

其中，

表示训练集中实际的仿真应用请求执行时间数据；J_reg表示权重衰减正则化惩罚项；λ₂表示正则化参数；n_K表示第K层中神经元的个数；n_K-1表示第K-1层中神经元的个数；W_Ui，j表示第K层中第i个上确界神经元与第K-1层中第j个神经元之间的连接权重；W_Li，j表示第K层中第i个下确界神经元与第K-1层中第j个神经元之间的连接权重。

9.根据权利要求8所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述基于梯度下降的误差反向传播算法中使用的关于

和

的梯度值，具体为：

10.根据权利要求9所述的基于深度模糊栈式自编码的仿真请求执行时间预测方法，其特征在于，所述基于梯度下降的误差反向传播算法中使用的两个系数α和β的更新方式，具体为：

其中，η表示学习率参数。