CN113641445B

CN113641445B - 基于深度确定性策略的云资源自适应配置方法及系统

Info

Publication number: CN113641445B
Application number: CN202110752870.4A
Authority: CN
Inventors: 郑向伟; 宗庆; 陈宣池; 张利峰; 边际; 魏艺
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2024-03-26
Anticipated expiration: 2041-07-02
Also published as: CN113641445A

Abstract

本公开提供了一种基于深度确定性策略的云资源自适应配置方法及系统，包括以下步骤：基于云虚拟机集群中的场景信息，构建MAPE自主控制循环参考模型，对所构建的模型进行参数的初始化设置；通过监视器收集并记录云资源配置中的各项参数指标；利用ARIMA模型分析时间序列，进行下一时间间隔工作负载的预测；预测下一时间间隔虚拟机的负载情况，根据设定阈值提前调整虚拟机的数量以实现云计算的垂直缩放；基于DDPG算法进行云资源的分配，给用户分配匹配任务请求的虚拟机。基于自主计算、预测技术和深度强化学习进行云资源的自适应配置，对未来资源需求量进行预测，帮助SaaS供应商获得云应用程序执行过程中最大化利润并保证客户满意度。

Description

基于深度确定性策略的云资源自适应配置方法及系统

技术领域

本公开属于计算机技术领域，具体涉及一种基于深度确定性策略的云资源自适应配置方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

云计算已成为当今计算机行业中最受欢迎的商业计算模式，可以根据需要为用户提供计算资源，例如处理能力、存储和带宽。按照服务的提供方式，云计算可分为三种服务类型：基础设施即服务(Infrastructure as a Service，IaaS)、平台即服务(Platform asa Service，PaaS)和软件即服务(Software as a Service，SaaS)。

在云计算的云资源配置一般涉及三个云环境：IaaS供应商、SaaS供应商和用户。IaaS供应商为其客户提供了对各种计算资源的访问权限，如存储、服务器和网络；SaaS供应商从IaaS供应商那里租用虚拟机(Virtual Machine,VM)来构建他们的云服务，通过互联网提供按需软件付费应用程序，允许其用户连接到应用程序并通过全球互联网访问应用程序；用户则从SaaS供应商购买云服务，使用付费应用程序。

用户和SaaS供应商的目标之间存在固有的冲突。SaaS供应商是利润驱动的，旨在最大限度地减少运营成本以提高利润收入，并最大限度地提高运营效率，吸引尽可能多的客户。SaaS供应商的成本源于租用虚拟机的开销。当利用率过高时，虚拟机会损失一定的性能。因此，为提高SaaS供应商的利润率，可以通过弹性租用虚拟机以降低租用成本，或平衡所有活动虚拟机中的资源利用率。

云计算的弹性特性使SaaS供应商能够通过动态配置或重新分配资源来适应工作负载中的变化。理想情况下，可用的资源在每个时间点都尽可能接近当前的需求。但是，用户请求可能会出现不确定性。在执行期间为云应用程序预先配置合适的资源数量并非易事。一方面，如果SaaS供应商提供的资源数量大于用户请求的需求，就会造成资源的浪费和不必要的成本。另一方面，如果SaaS供应商提供的资源数量少于用户请求的数量，则配置不足的情况可能会导致潜在客户的缺失和利润的下降。

用户向SaaS供应商提交作业请求，每个作业包括一个或多个任务，并且任务可以是独立的或彼此依赖的，每个任务对各类计算资源的需求量大小不一。因此如何在多重约束下合理的把任务分配到虚拟服务器上是一个多目标优化问题。

因此，有必要进行云计算过程中资源配置的相关研究。

发明内容

为了解决现有技术的不足，本公开提出了一种基于深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)的云资源自适应配置方法及系统，基于自主计算、预测技术和深度强化学习进行云资源的自适应配置，对未来资源需求量进行预测，以应对云服务的波动需求，以SaaS供应商的角度为出发点，旨在帮助SaaS供应商获得云应用程序执行过程中最大化利润并保证客户满意度。

为了实现上述目的，本公开采用了如下的技术方案：

本公开的第一方面提供了一种基于深度确定性策略的云资源自适应配置方法。

一种基于深度确定性策略的云资源自适应配置方法，包括以下步骤：

步骤S01：基于云虚拟机集群中的场景信息，构建MAPE自主控制循环参考模型，对所构建的模型进行参数的初始化设置；

步骤S02：通过监视器收集并记录云资源配置中的各项参数指标；

步骤S03：利用ARIMA模型分析时间序列，进行下一时间间隔工作负载的预测；

步骤S04：预测下一时间间隔虚拟机的负载情况，根据设定阈值提前调整虚拟机的数量以实现云计算的垂直缩放；

步骤S05：基于DDPG算法进行云资源的分配，给用户分配匹配任务请求的虚拟机。

本公开的第二方面提供了一种基于深度确定性策略的云资源自适应配置系统。

一种基于深度确定性策略的云资源自适应配置系统，采用了第一方面所述的基于深度确定性策略的云资源自适应配置方法，包括：

建模单元，基于云虚拟机集群中的场景信息，构建MAPE自主控制循环参考模型，对所构建的模型进行参数的初始化设置；

收集单元，用于收集并记录云资源配置中的各项参数指标

预测单元，利用ARIMA模型分析时间序列，进行下一时间间隔工作负载的预测，预测下一时间间隔虚拟机的负载情况，根据设定阈值提前调整虚拟机的数量以实现云计算的垂直缩放；

配置单元，基于DDPG算法进行云资源的分配，给用户分配匹配任务请求的虚拟机。

本公开第三方面提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于深度确定性策略的云资源自适应配置方法中的步骤。

本公开第四方面提供了一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于深度确定性策略的云资源自适应配置方法中的步骤。

与现有技术相比，本公开的有益效果为：

(1)本公开将MAPE自主控制循环参考模型应用到提出的云资源自适应配置系统中，系统自主监测环境状态，根据状态做出相应的反应。

(2)本公开通过记录每个时间间隔内用户任务请求数量并生成一个时间序列，使用ARIMA模型分析时间序列对下一时间间隔的量进行预测，根据预测数据计算未来虚拟机的负载情况，提前调整虚拟机数量以实现云计算的垂直缩放，可以有效的降低租用虚拟机的成本和服务水平协议(Service Level Agreement，SLA)违规所产生的赔偿。

(3)本公开中，多个虚拟机形成一个具有通信连接的虚拟机集群。我们使用DDPG作为决策代理来提高资源动态配置的性能，使用二维的动作空间，一维用来进行选择虚拟机集群，一维进行集群内虚拟机的选择，可以有效的加快学习速度，减少强化学习前期探索学习的时间。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一中基于深度确定性策略的云资源自适应配置方法的流程图；

图2是本公开实施例一中用户任务的有向无环示意图；

图3是本公开的实施例一中MAPE控制循环的结构示意图；

图4是本公开的实施例一中资源供应框架结构示意图；

图5是本公开的实施例一中深度强化学习方法的学习结构示意图；

图6是本公开的实施例二中基于深度确定性策略的云资源自适应配置系统的结构框图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本公开实施例一提供了一种智基于深度确定性策略的云资源自适应配置方法。

如图1和图4所示的基于深度确定性策略的云资源自适应配置方法，包括以下步骤：

本实施例中所拟定的云环境，任务请求之间存在着一定的约束关系。图2以具有五个任务请求为例进行了展示，由于任务请求存在依赖关系，在任务1完成之前无法启动任务2和任务4，在任务3和任务4完成之前无法启动任务5。在本公开中，用表示第u个用户的第r个任务请求。

作为一种或多种实施方式，当SaaS供应商未能保证预定义的SLA时就会发生SLA违规。和/>分别表示用户请求的完成日期和截止日期。当完成日期超过截止日期时，则会发生SLA违规。

SLA被定义为：

总花费是SaaS供应商提供云服务时所产生的全部费用。它包括租用虚拟机产生的费用和违反SLA而产生的赔偿费用，总花费TC可表示为：

TC＝VCs+CP (2)

其中，CP表示赔偿费用，VCs表示租用所有虚拟机产生费用的总和，有

其中，VC_n表示第n个虚拟机产生的费用，有

其中，VP_m表示虚拟机类型m决定的租用价格，IPr_m表示启动该虚拟机时产生的成本，VT_n表示租用此虚拟机的时间长度。

用CP来表示所有用户请求的惩罚费用，则有：

其中，Pe表示用户请求的惩罚费用，Pe可被定义为一个线性函数，有：

其中，表示由失败请求的类型决定的惩罚率，Δt表示一个固定的时间间隔。

作为一种或多种实施方式，均衡性(Balance，BA)被定义为

其中，d_i表示指虚拟机的利用率，表示所有d_i的平均值，n表示租用的虚拟机数量。BA能够体现虚拟机的资源均衡情况；BA越小，表明虚拟机中的资源分布更均匀，本实施例的目的就是为了得到更低的BA值。

作为一种或多种实施方式，为有效地管理SaaS供应商提供的云服务，需在系统中设立一个定期发生的动作或者对预期事件做出一定的反应。基于自主学习实现一个云服务系统，且该系统根据观测状态对其做出反应。如图3所示的MAPE的自主控制循环参考模型，在控制循环中，管理元素表示任意软件程序，诸如云应用程序，云服务，操作系统，CPU，存储，VM等资源。传感器收集有关管理元素的信息。信息可以是云服务系统中CPU和内存的利用率以及用户任务请求的响应时间。执行器对管理元素进行更改，该更改可以是将云应用程序中的VM添加或删除，也可以是更改VM中的配置参数。监控阶段通过传感器从管理元素收集相关信息并记录存储；分析阶段根据拟定的知识规则分析了监视阶段中收到的数据；规划阶段处理分析的数据并进行某项行动计划；在执行阶段，操作行为反映在管理元素的执行器上。控制环路中的知识库是整个MAPE循环之间的共享数据，根据不同的环境需求提前进行预设。

作为一种或多种实施方式，如图5所示，在DDPG算法中，分别使用参数为θ^u的策略网络来表示确定性策略a＝μ(s|θ^μ),输入为当前的状态s，输出为确定性的动作值a；使用参数为θ^Q的价值网络来表示动作值函数Q(s,a|θ^q)，用于求解贝尔曼方程。其中，策略网络用于更新策略，对应演员-评论家算法框架中的演员；价值网络用来逼近状态动作对的值函数，并提取梯度信息，对应演员-评论家算法框架中的评论家。

DDPG算法的目标函数被定义为折扣累积奖励的期望，即：

J_β(μ)＝E[r₀+γr₁+γ²r₂++γⁿr_n] (8)

为了找到最优确定性行为策略μ^*，等价于最大化目标函数J_β(μ)中的策略。

目标函数J_β(μ)关于策略网络参数θ^μ的梯度，等价于动作值函数Q(s,a；θ^Q)关于θ^μ的期望梯度。因此遵循链式求导法则对目标函数进行求导，得到演员网络的更新方式。

其中，Q_u(s_t,μ(s_t))表示在状态s下，按照确定性策略μ选择动作时，能够产生的动作状态值Q；表示状态s符合分布ρ^β的情况下Q值的期望。

又因为确定性策略为a＝μ(s；θ^μ)，式(10)可以改写为：

对公式(11)使用梯度上升算法的目标函数进行优化计算，使用梯度上升的目标是提高折扣累积奖励的期望。最终使得算法沿着提升动作值Q(s,a；θ^Q)的方向更新策略网络的参数θ^μ。

通过DQN更新价值网络的方法来更新评论家网络，价值网络的梯度表示为：

其中：

目标Q值中的神经网络参数θ^μ′和θ^Q′，分别表示目标策略网络(Target policynetwork)和目标价值网络(Target value network)的参数，并使用策略梯度下降算法更新网络模型中的参数。训练价值网络的过程，就是寻找价值网络中参数θ^Q的最优解的过程。

作为一种或多种实施方式，差分整合移动平均自回归模型(AutoregressiveIntegrated Moving Average model，ARIMA)是在平稳的时间序列基础上建立起来的，因此时间序列的平稳性是建模的重要前提。检验时间序列模型平稳的方法一般采用ADF单位根检验模型去检验。当然如果时间序列不稳定，也可以通过一些操作去使得时间序列稳定(比如取对数，差分)，然后进行ARIMA模型预测，得到稳定的时间序列的预测结果，然后对预测结果进行之前使序列稳定的操作的逆操作(取指数，差分的逆操作)，就可以得到原始数据的预测结果。

实施例二

本公开实施例二提供了一种基于深度确定性策略的云资源自适应配置系统，采用了实施例一中所介绍的基于深度确定性策略的云资源自适应配置方法。

如图6所示的一种基于深度确定性策略的云资源自适应配置系统，包括：

收集单元，用于收集并记录云资源配置中的各项参数指标

基于深度确定性策略的云资源自适应配置系统进行资源分配的具体步骤为：

随机初始化DDPG网络中的权重参数θ^Q、θ^μ，初始化目标网络Q′、μ′，初始化经验回放池。打开计时器，每隔一个时间间隔△t执行一次步骤1。

步骤1：监视器将收集此时间段△t内SaaS供应商租用的虚拟机数量，用户的任务请求数量，未执行的任务请求数量，虚拟机内存和CPU利用率。当步骤1累计执行次数到达一定数量后，执行步骤2，否则退出系统。

步骤2：把步骤1收集的任务请求数量加入一个固定长度的数据队列中，到达容量上限后，数据队列头部删除一个数据，尾部插入新收集的数据。当步骤2累计执行次数达到预先设定的数量时，即数据队列达到一定长度时，执行步骤3，否则退出系统。

步骤3：使用ARIMA分析数据队列，预测下个时间间隔的任务请求数量，具体的，

步骤3.1：对非平稳的用户请求历史数据X_t即步骤2中组成的数据队列，用差分的方法进行平稳化预处理，得到新的平稳序列{Z₁,Z₂,…,Z_t-d}，差分计算的一般表达式：

步骤3.2：拟合ARMA(p,q)模型。

步骤3.3：将d次差分还原，得到X_t的预测数据Y_t，ARMA(p,q)的一般表达式为：

其中，前半部分表示自回归部分，非负整数p表示自回归阶数，表示自回归系数；后半部分表示滑动平均部分，非负整数q表示滑动平均阶数，θ₁,…,θ_q表示滑动平均系数；X_t表示用户请求数据相关序列，ε_t表示独立同分布的随机变量序列，且满足

步骤4：使用公式(9)计算当前虚拟机的利用率，当大于设定阈值上限时执行步骤5；当小于设定阈值下限时执行步骤6；在设定阈值范围内时执行步骤7。

步骤5：向IaaS供应商租用适量虚拟机，执行步骤7。

步骤6：释放适量租借中的虚拟机，执行步骤7。

步骤7：把任务请求按照算法分配到合适的虚拟机上，具体为：

步骤7.1:根据当前带有UO噪声的在线策略网络μ计算当前时间段需要执行的资源分配动作a_t，

步骤7.2：执行动作a_t，把用户任务根据选择的动作分配相应的VM排队执行。

步骤7.3：记录奖励r_t和新的状态S_t+1。

步骤7.4：将环境的状态转换过程中产生的数据对(s_t,a_t,r_t,s_t+1)存储在经验池中作为在线网络模型的训练数据集。

步骤7.5：从经验池中随机取出N个存储的数据对(s_t,a_t,r_t,s_t+1)作为在线策略网络、在线价值网络的训练样本数据。

步骤7.6：使用均方误差作为损失函数更新评论家网络。

损失函数为其中，目标值y_i＝r_i+γQ’(s_i+1,u′(s_i+1；θ^μ′)；θ^Q’) (17)

步骤7.7：使用随机梯度下降算法更新演员网络。

步骤7.8：更新目标策略网络μ′和目标价值网络Q'

步骤8：有新的用户任务请求到达，返回步骤1，否则退出系统。

最后，当没有新任务到达且系统中所有任务执行完毕，关闭系统。

实施例三

本公开实施例三提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例一所述的基于深度确定性策略的云资源自适应配置方法中的步骤。

详细步骤与实施例一提供的基于深度确定性策略的云资源自适应配置方法相同，在此不再赘述。

实施例四

本公开实施例四提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于深度确定性策略的云资源自适应配置方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度确定性策略的云资源自适应配置方法，其特征在于，包括以下步骤：

步骤S03：利用ARIMA模型分析时间序列，进行下一时间间隔工作负载的预测,具体步骤为：

步骤S301：通过差分法对非平稳的用户请求历史数据进行平稳化预处理，得到新的平稳序列；

步骤S302：构建新的平稳序列的拟合ARIMA(p,q)模型，其中，非负整数p表示自回归阶数，非负整数q表示滑动平均阶数；

步骤S303：进行差分还原，得到下一时间间隔工作负载的预测；

步骤S05：基于DDPG算法进行云资源的分配，给用户分配匹配任务请求的虚拟机,具体步骤为：

步骤S501：根据带有UO噪声的在线策略网络计算当前时间段需要执行的资源分配动作；

步骤S502：执行步骤S501中得到的资源分配动作，根据选择的动作将用户任务分配相应的虚拟机中排队完成；

步骤S503：记录奖励和新的环境状态；

步骤S504：将环境状态转换过程中所产生的数据对存储在经验池中，并作为在线网络模型的训练数据集；

步骤S505：从经验池中随机取出N个存储的数据对作为在线策略网络、在线价值网络的训练样本数据；

步骤S506：使用均方误差作为损失函数更新评论家网络；

步骤S507：使用随机梯度下降算法更新演员网络；

步骤S508：更新目标策略网络和目标价值网络，完成云资源的分配。

2.如权利要求1中所述的一种基于深度确定性策略的云资源自适应配置方法，其特征在于，所述MAPE自主控制循环参考模型包括监控阶段、分析阶段、规划阶段和执行阶段。

3.如权利要求2中所述的一种基于深度确定性策略的云资源自适应配置方法，其特征在于，所述监控阶段通过传感器从云资源中收集相关的数据信息并记录存储，所述分析阶段根据拟定的知识规则对所述监控阶段所得到的数据信息进行相关分析，所述规划阶段对所述分析阶段得到的数据信息进行处理并制定相应的行动计划，所述执行阶段通过执行器执行操作行为。

4.如权利要求1中所述的一种基于深度确定性策略的云资源自适应配置方法，其特征在于，所述ARIMA模型建立在平稳的时间序列基础上，通过ADF单位根检验模型验证检验时间序列模型的平稳性。

5.如权利要求1中所述的一种基于深度确定性策略的云资源自适应配置方法，其特征在于，在步骤S04中，当预测的虚拟机的利用率大于设定阈值上限时，先向IaaS供应商租用适量的虚拟机，再执行步骤S05；当预测的虚拟机的利用率小于设定阈值下限时，先释放适量租借中的虚拟机，再执行步骤S05；当预测的虚拟机的利用率在设定阈值范围内时，直接执行步骤S05。

6.一种基于深度确定性策略的云资源自适应配置系统，采用了权利要求1-5中任一项所述的基于深度确定性策略的云资源自适应配置方法，其特征在于，包括：

收集单元，用于收集并记录云资源配置中的各项参数指标

预测单元，利用ARIMA模型分析时间序列，进行下一时间间隔工作负载的预测，预测下一时间间隔虚拟机的负载情况，根据设定阈值提前调整虚拟机的数量以实现云计算的垂直缩放,具体步骤为：

通过差分法对非平稳的用户请求历史数据进行平稳化预处理，得到新的平稳序列；

构建新的平稳序列的拟合ARIMA(p,q)模型，其中，非负整数p表示自回归阶数，非负整数q表示滑动平均阶数；

进行差分还原，得到下一时间间隔工作负载的预测；

配置单元，基于DDPG算法进行云资源的分配，给用户分配匹配任务请求的虚拟机,具体步骤为：

根据带有UO噪声的在线策略网络计算当前时间段需要执行的资源分配动作；

执行步骤S501中得到的资源分配动作，根据选择的动作将用户任务分配相应的虚拟机中排队完成；

记录奖励和新的环境状态；

将环境状态转换过程中所产生的数据对存储在经验池中，并作为在线网络模型的训练数据集；

从经验池中随机取出N个存储的数据对作为在线策略网络、在线价值网络的训练样本数据；

使用均方误差作为损失函数更新评论家网络；

使用随机梯度下降算法更新演员网络；

更新目标策略网络和目标价值网络，完成云资源的分配。

7.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的基于深度确定性策略的云资源自适应配置方法中的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于深度确定性策略的云资源自适应配置方法中的步骤。