CN115086249B

CN115086249B - 一种基于深度强化学习的云数据中心资源分配方法

Info

Publication number: CN115086249B
Application number: CN202210565633.1A
Authority: CN
Inventors: 王廷; 周羿
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2023-08-01
Anticipated expiration: 2042-05-23
Also published as: CN115086249A

Abstract

本发明公开了一种基于深度强化学习的云数据中心资源分配方法，其特点是该方法包括：1）虚拟机分配系统架构的建模和虚拟机分配的模拟工作场景的设计；2）虚拟机优化方案的数学建模；3）基于JANET深度学习网络，完成对未来虚拟机服务请求的预测；4）采用基于时间窗口的批处理模式进行虚拟机分配等步骤。本发明与现有技术相比具有虚拟机在不同负载情况下分配更加高效，提升资源分配成功率，最大化云服务提供商收益，使资源分配机制具备前瞻性和前向检查能力，从而实现更优的资源分配策略，为虚拟机资源分配提供了新的解决思路，具有很好的运用前景。

Description

一种基于深度强化学习的云数据中心资源分配方法

技术领域

本发明涉及云计算技术领域，尤其是一种基于深度强化学习的用于虚拟机服务请求的云数据中心资源分配方法。

背景技术

云计算作为一种新型计算模式重新定义了整个IT行业服务模式，实现了软硬件资源的随时获取、按需使用、随时扩展、按使用付费等使用模式。而数据中心作为云计算的核心基础设施,为云计算服务提供了可满足需求的计算、网络、存储等资源。不同于传统的IT基础设施的基于峰值负载的静态资源分配方式，为了减少计算成本和最大化利用资源，云数据中心使用了一种动态的方式来管理计算资源，而实现这种管理的一个重要的技术就是虚拟化。

在云数据中心中，虚拟化技术将应用程序封装在虚拟机(Virtual Machine VM)中，使得用户对于云数据中心的资源的访问是透明以及简单方便的。在CPU、内存、网络带宽等方面，虚拟化技术可以实现对物理资源的动态共享。在服务的过程中，数据中心需要把新的请求分配到逻辑上相互隔离的虚拟机，而这些VM则会被分配到不同的物理机(PhysicalMachine，PM)上，这个过程被称为虚拟机放置(Virtual Machine Placement，VMP)。如何在高度动态的云环境下，为不断到达的云租户服务请求实时地、合理地分配虚拟资源，同时降低经济成本并保证服务的高质量，是VMP问题的关键挑战。目前的研究从服务质量、SLA违规比例、系统能量消耗等方面来衡量VMP问题的性能。

一个基本的VMP问题的定义为：给定一组数量为m的物理机和一组数量为n的虚拟机/>如何最优化放置虚拟机的同时，满足所提出的约束。实际上VMP问题可以被看作是一个装箱问题(bin packing problem)，因此VMP问题也可以表述为：在分配的过程中需要确保每个VM分配给一个PM，一个PM可以托管多个VM，且由于物理资源的限制，需要保证PM的负载不超过其资源容量。其中，VM所需要的资源为：CPU、内存空间、磁盘空间和网络带宽等等。相比装箱问题，VMP问题更棘手的挑战是高度动态的云环境场景下服务请求到达时间不可知、服务完成后的资源动态回收、未来的服务请求不可知等，为问题的求解带来高度的不确定性和复杂性。

现有的研究可以证明VMP问题是一个NP-Hard的组合优化问题，由于VMP问题的复杂性，为了减少时间开销，现有的工作主要是从启发式或者元启发式算法出发进行求解。启发式算法简单直观，易于修改，且能保证较高的效率，但这种算法容易陷入局部最优解，而元启发式算法虽然能够较好地找出全局最优解，但其计算结果的复用性不高，参数调优效率较差。现有技术的启发式容易陷入局部最优化，无法达到全局最优化的效果，而元启发式算法的参数又过多，调参效率较低。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于深度强化学习的云数据中心资源分配方法，采用基于深度学习的虚拟机请求预测模块和基于深度强化学习的虚拟机分配优化模块架构的VMP系统，优化云数据中心资源分配，使虚拟机在不同负载情况下分配更加高效，提高资源利用率以及云服务提供商收益，使资源分配机制具备前瞻性和前向检查能力，为虚拟机资源分配提供了新的解决思路，从而实现更优的资源分配策略，具有很好的运用前景。

本发明的目的是这样实现的：一种基于深度强化学习的云数据中心资源分配方法，其特点是该方法采用基于深度学习的虚拟机请求预测模块和基于深度强化学习的虚拟机分配优化模块架构的VMP系统，具体包括以下步骤：

a、完成虚拟机分配系统架构的建模和虚拟机分配的模拟工作场景的设计虚拟机分配的模拟工作场景包含了三层逻辑结构：用户接口层、资源管理编排层和物理资源层。

所述VMP系统的第一层为用户接口层，用户接口层负责接收虚拟机请求(VirtualMachine Request VMR)，并将VM请求制作成VM请求集。

所述VM请求将由CPU使用率，内存大小以及持续时间组成，这些VM请求集将会被发送到资源管理编排层进行分配处理。在资源管理编排层中，一个时间窗口内的VM请求集合将会被统一分配管理。

所述资源管理编排层拥有VM请求和物理资源层的信息，当资源管理编排层分配完虚拟机之后将会把它们发送到物理资源层，即云数据中心进行执行；所述物理资源层中的PM都是同构的。

b、完成对本虚拟机优化方案的数学建模

1)将云服务商的收益作为目标函数并加以约束构建数学模型，假设需要计算的运行时间为T,T≥0，最优化目标(Maximize)由下述(a)式表达为：

2)假设在x时刻，有m,m∈N数量的虚拟机请求和n,n∈N数量的物理机，x时刻的收益可由下述(b)式表达为：

其中，r_i为虚拟机所产生的收益；cos_i为物理机的开销。

3)定义一个VM请求t_i＝(c_i,m_i,d_i)的收入为其请求资源能获得收益的总和，即K＝(k₁,k₂,k₃)为单位请求资源获得的收益：r_i＝K*v_i。cos_i为物理机的开销，即能耗，与CPU的利用率存在线性关系，E_max为满载时的物理机的能耗，E_idle为空闲时物理机的能耗，P_i为CPU利用率则由下述(c)式表示为：

cos_i＝E_i,idle+(E_i,max-E_i,idle)×P_i (c)。

4)数学模型的约束目标为：

k_i≥0,i＝1,2,3；

所述数学模型的优化如下：预测VM请求用f_i＝(c_i,m_i,d_i)元组表示，假设在x时刻，VM请求预测窗口大小为a,a∈N，则在x时刻，数学模型的优化目标(Maximize)可以修改为下述(d)式表示的数学模型：

增加的约束目标为：0≤i≤a,i∈N。

c、基于JANET深度学习网络，完成对未来虚拟机服务请求的预测

预测模块使用了JANET深度学习算法，基于历史VM请求流量，生成未来VM请求流量，增加了方法的前瞻性，提升了资源分配效率。当前时间窗口与预测模块将会同步进行虚拟机请求的收集工作，将其制作为待分配虚拟机请求集合，作为虚拟机分配优化模块的输入。预测模块使用了JANET深度学习算法，基于历史VM请求流量，生成未来VM请求流量。LSTM网络是一种特殊的RNNs整体的逻辑与RNN类似，会经过一个闭合的隐藏中间单元。LSTM网络有三个输入：细胞状态C_t-1、隐藏层状态h_t-1和t时刻输入向量X_t，隐藏层的初始值C₀和h₀都为0，两个输出：细胞状态C_t和隐藏层状态h_t。不同于只有一个单tanh层的RNN，LSTM网络加入了三个门控单元：遗忘门、输入门和输出门。遗忘门决定什么信息可以被保留下来进入到下一个门，这个决定由激活函数σ来控制，σ的输出在0到1之间。输入门就是确定当前输入的信息有多少需要被存放到当前的细胞状态C_t中，激活函数tanh则是用于将输出归一化为-1到1之间。输出门则是控制当前细胞状态对外的可见性，使用激活函数σ来控制输出的内容。JANET网络对LSTM进行了改进，在三个门控单元中，只保留了遗忘门。根据实验表明，在一些数据集上JANET的表现是要优于传统的LSTM的，且JANET只有一个遗忘门，其所需要的参数为原来的一半，大大简化了LSTM的复杂度。

对于虚拟机请求的预测中考虑到预测的时效性，即需要迅速而准确的预测。所以，使用了JANET网络作为预测模块的算法，搭建了一个有三个隐藏层和一个输出层的JANET网络，首先对输入数据进行归一化和正则化，然后将数据输入网络中获得预测值，接着使用均方误差MSE计算误差。使用Adam优化算法通过反向传播算法更新权重，最后使用已经训练好的网络对于虚拟机请求进行预测。

d、完成基于ConservativeQ-learning深度学习的优化模块，采用了基于时间窗口的批处理模式，并以最大化云服务提供商收益为优化目标和奖励函数，提出了虚拟机分配问题的解决方案如下；

1)虚拟机请求处理

使用时间窗口对规定时间内到达的VM请求流量进行汇总和统计，当系统开始运行后，当前时间窗口与预测模块将会同步进行虚拟机请求的收集工作，将其制作为待分配虚拟机请求集合，作为虚拟机分配优化模块的输入，使用Conservative Q-learning深度强化学习算法对当前的虚拟机分配进行最优化计算，输出一个Y_m×n虚拟机-物理机映射矩阵，指示虚拟机放置的位置。而后将预测模块中的虚拟机请求移除，再将这个映射矩阵输入到物理资源层中，完成虚拟机的放置，更新物理机状态矩阵，对下一个时间窗口中的虚拟机请求进行处理。

2)数学模型的迭代

使用ConservativeQ-learning第二种迭代方法由下述(e)式进行迭代：

3)虚拟机-物理机的映射

使用V＝{v₁,v₂,v₃,…,v_n}来表示n个VM集合，P＝{p₁,p₂,p₃,…,p_m}来表示m个PM集合，而虚拟机-物理机的映射关系则由下述(f)式表示为：

S＝{(v_i,p_j)|v_i∈V,p_j∈P,0≤i≤n,0≤j≤m} (f)。

4)状态空间

使用一个可变大小的S_n×2虚拟机-物理机映射矩阵来表示环境的状态，其中n表示虚拟机-物理机对的数量。在每一次分配之前，算法会根据待分配的VM请求和可利用的PM资源进行最优化计算，得到相应的S_n×2矩阵。

5)动作空间

在某一次分配中，有n台物理机和m台等待被分配的虚拟机，所以动作空间可以用一个Y_m×n的0-1矩阵来表示。在时间窗口内，智能体将连续不断地为已到来的虚拟机分配相应的物理机，直到再没有虚拟机请求为止，而后保存智能体，在下一个的时间窗口中再加载智能体进行新的分配工作。

6)奖励函数

奖励函数的的目的是提高云服务提供商的收益，设计下述(g)式的奖励函数，表示虚拟机到达时为云服务提供商所带来的收益：

本发明与现有技术相比具有提升资源分配成功率，最大化云服务提供商收益等优点，使资源分配机制具备前瞻性和前向检查能力，从而实现更优的资源分配策略，为虚拟机资源分配提供了新的解决思路，使虚拟机在不同负载情况下分配更加高效，具有很好的运用前景。

附图说明

图1为本发明架构的VMP系统图；

图2为本发明流程图；

图3为模拟云数据中心的工作模型图。

具体实施方式

以下结合附图及实施例对本发明进行详细描述。显然，所列举的实例只用于解释本发明，并非用于限定本发明的范围。

本发明提出了一个基于深度强化学习的云数据中心资源分配方法，该方法采用基于深度学习的虚拟机请求预测模块和基于深度强化学习的虚拟机分配优化模块架构的VMP系统，使虚拟机在不同负载下，实现云数据中心资源的优化分配。

参阅图1，虚拟机分配的模拟工作场景包含了三层逻辑结构：用户接口层、资源管理编排层和物理资源层。VMP系统的第一层为用户接口层，用户接口层负责接收虚拟机请求(Virtual Machine Request VMR)，并将VM请求制作成VM请求集。VM请求将由CPU使用率、内存大小以及持续时间组成，这些VM请求集将会被发送到资源管理编排层进行分配处理。在资源管理编排层中，一个时间窗口内的VM请求集合将会被统一分配管理。资源管理编排层拥有VM请求和物理资源层的信息，当资源管理编排层分配完虚拟机之后将会把它们发送到物理资源层，即云数据中心进行执行。

参阅图2，VMP系统使用时间窗口对规定时间内到达的VM请求流量进行汇总和统计，当系统开始运行后，当前时间窗口与预测模块将会同步进行虚拟机请求的收集工作，将其制作为待分配虚拟机请求集合，作为虚拟机分配优化模块的输入。

所述虚拟机请求预测模块使用了JANET深度学习算法，基于历史VM请求流量，生成未来VM请求流量。JANET网络对LSTM进行了改进，在三个门控单元中，只保留了遗忘门。在对于虚拟机请求的预测中，考虑到了预测的时效性，需要迅速而准确的预测，所以使用了JANET网络作为虚拟机请求预测模块的算法。搭建了一个有三个隐藏层和一个输出层的JANET网络，首先对输入数据进行归一化和正则化，然后将数据输入网络中获得预测值，接着使用均方误差MSE计算误差，使用Adam优化算法通过反向传播算法更新权重，最后使用已经训练好的网络对于虚拟机请求进行预测。对数学模型做如下优化：预测VM请求用f_i＝(c_i,m_i,d_i)元组表示，假设在x时刻，VM请求预测窗口大小为a,a∈N，则在x时刻，数学模型的优化目标可以修改为下述(d)式表示：

增加的约束目标为：0≤i≤a,i∈N。

所述虚拟机分配优化模块基于Conservative Q-learning深度强化学习算法对当前的虚拟机分配进行最优化计算，输出一个Y_m×n虚拟机-物理机映射矩阵，指示虚拟机放置的位置。而后将虚拟机请求预测模块中的虚拟机请求移除，再将这个映射矩阵输入到物理资源层中，完成虚拟机的放置，更新物理机状态矩阵，对下一个时间窗口中的虚拟机请求进行处理，虚拟机分配的具体工作如下：

1)所述虚拟机分配优化模块使用Conservative Q-learning所提出的第二种迭代方法如下述(e)式进行迭代：

2)使用V＝{v₁,v₂,v₃,…,v_n}来表示n个VM集合，P＝{p₁,p₂,p₃,…,p_m}来表示m个PM集合，而虚拟机-物理机的映射关系，则由下述(f)式表示为：

S＝{(v_i,p_j)|v_i∈V,p_j∈P,0≤i≤n,0≤j≤m} (f)。

3)状态空间：使用一个可变大小的S_n×2虚拟机-物理机映射矩阵来表示环境的状态，其中n表示虚拟机-物理机对的数量。在每一次分配之前，算法会根据待分配的VM请求和可利用的PM资源进行最优化计算，得到相应的S_n×2矩阵。

4)动作空间：在某一次分配中，有n台物理机和m台等待被分配的虚拟机，所以动作空间可以用一个Y_m×n的0-1矩阵来表示。在时间窗口内，智能体将连续不断地为已到来的虚拟机分配相应的物理机，直到再没有虚拟机请求为止，而后保存智能体，在下一个的时间窗口中再加载智能体进行新的分配工作。

5)奖励函数：最主要的目的是提高云服务提供商的收益，设计的奖励函数即虚拟机到达时为云服务提供商所带来的收益由下述(g)式表示：

6)VMP系统会在每个时间窗口上做出虚拟机放置的决定，它将会根据当前云数据中心中的物理机集群的状态，选择接收或者拒绝VM。在接收的情况下，VM将会根据算法所得出的结果，映射到相应的PM上。而在拒绝的情况下，VM请求将会一直循环等待，直到VM请求被接受为止。

参阅图3，本发明架构的模拟云数据中心的工作模型：CIS(Cloud InformationService)是云数据中心的对于用户请求的管理服务，使用DataCenter Broker来发现资源和信息交互，VM Scheduler提供了VM分配调度策略，VM Allocation提供了将VM分配到具体PM的服务，其工作的流程如下：

1)将用户请求转化为Task请求，一个用户请求可能有多个Task请求；

2)通过云数据中心的Broker将Task请求转化为VM请求；

3)通过VM Scheduler对VM请求分配进行优化，完成预分配工作；

4)通过VM Allocation对VM请求分配到对应的PM上。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于深度强化学习的云数据中心资源分配方法，其特征在于采用虚拟机请求预测模块和虚拟机分配优化模块架构的VMP系统，使虚拟机在不同负载下，实现云数据中心资源的优化分配，具体包括下述步骤：

a、完成虚拟机分配系统架构的建模和虚拟机分配的模拟工作场景的设计，所述虚拟机分配的模拟工作场景为三层逻辑结构的VMP系统，其第一层为用户接口层；第二层为资源管理编排层；第三层为物理资源层；

b、将云服务商的收益作为目标函数并加以约束，构建虚拟机优化方案的数学模型；

c、请求预测模块与当前时间窗口同步进行虚拟机请求的收集，将其制作为待分配虚拟机请求集合，作为分配优化模块的输入，基于JANET深度学习网络，完成对未来虚拟机服务请求的预测；

d、将完成基于深度学习的优化模块，采用基于时间窗口的批处理模式，并以最大化云服务提供商收益为优化目标和奖励函数进行虚拟机分配，其具体过程为：当系统开始运行后，当前时间窗口与请求预测模块将会同步进行虚拟机请求的收集工作，对规定时间内到达的VM请求流量进行汇总和统计，将其制成待分配虚拟机的请求集合，作为虚拟机分配优化模块的输入，使用Conservative Q-learning深度强化学习算法对当前的虚拟机分配进行最优化计算，输出一个Y_m×n虚拟机-物理机映射矩阵，指示虚拟机放置的位置后移除请求预测模块中的虚拟机请求，再将映射矩阵输入物理资源层，完成虚拟机的放置后更新物理机状态矩阵，对下一个时间窗口中的虚拟机请求进行处理。

2.根据权利要求1所述的基于深度强化学习的云数据中心资源分配方法，其特征在于所述步骤a的虚拟机分配系统架构的建模和虚拟机分配的模拟工作场景的设计，具体为：VMP系统的第一层为用户接口层，用户接口层负责接收虚拟机请求，并将VM请求制作成VM请求集，发送到第二层的资源管理编排层进行虚拟机分配，并将其发送到第三层的物理资源层，即云数据中心进行执行，所述VM请求由CPU使用率、内存大小以及持续时间组成；所述资源管理编排层拥有VM请求和物理资源层的信息；所述物理资源层中的PM都是同构的。

3.根据权利要求1所述的基于深度强化学习的云数据中心资源分配方法，其特征在于所述步骤b的虚拟机优化方案的数学模型具体如下：

1)假设需要计算的运行时间为T，T≥0，最优化目标由下述(a)式表达为：

式中，Rev_x为x时刻的收益；

2)假设在x时刻，有m，m∈N数量的虚拟机请求和n，n∈N数量的物理机，x时刻的收益由下述(b)式表达为：

式中，r_i为虚拟机所产生的收益；cos_i为物理机的开销；

3)定义一个VM请求t_i＝(c_i，m_i，d_i)的收入为其请求资源能获得收益的总和；K＝(k₁，k₂，k₃)为单位请求资源获得的收益：r_i＝K*v_i；cos_i为物理机的开销；E_max为满载时的物理机的能耗；E_idle为空闲时物理机的能耗；P_i为CPU利用率则由下述(c)式表示为：

cos_i＝E_i，idle+(E_i，max-E_i，idle)×P_i (c)；

4)数学模型的约束目标为：

k_i≥0，i＝1，2，3；

5)预测VM请求用f_i＝(c_i，m_i，d_i)元组表示，假设在x时刻，VM请求预测窗口大小为a，a∈N，则在x时刻，上述(a)式的最优化目标可改为下述(d)式表示的数学模型，并增加的约束目标为：0≤i≤a，i∈N：

4.根据权利要求1所述的基于深度强化学习的云数据中心资源分配方法，其特征在于所述步骤c的基于JANET深度学习网络，完成对未来虚拟机服务请求的预测，使用三个隐藏层和一个输出层的JANET网络，对输入数据进行归一化和正则化，然后将数据输入网络中获得预测值，接着使用均方误差MSE计算误差，使用Adam优化算法通过反向传播算法更新权重，最后使用已经训练好的网络对于虚拟机请求进行预测。

5.根据权利要求1所述的基于深度强化学习的云数据中心资源分配方法，其特征在于所述步骤d的将完成基于ConservativeQ-learning深度学习的优化模块，采用了基于时间窗口的批处理模式，并以最大化云服务提供商收益为优化目标和奖励函数进行虚拟机分配，其具体如下：

1)数学模型的迭代

使用ConservativeQ-learning第二种迭代方法由下述(e)式进行迭代：

2)虚拟机-物理机的映射

使用V＝{v₁，v₂，v₃，...，v_n}来表示n个VM集合，P＝{p₁，p₂，p₃，...，p_m}来表示m个PM集合，虚拟机-物理机的映射关系则由下述(f)式表示为：

S＝{(v_i，p_j)|v_i∈V，p_j∈P，0≤i≤n，0≤j≤m} (f)；

3)状态空间

使用一个可变大小的S_n×2虚拟机-物理机映射矩阵来表示环境的状态，其中n表示虚拟机-物理机对的数量，在每一次分配之前，算法会根据待分配的VM请求和可利用的PM资源进行最优化计算，得到相应的S_n×2矩阵；

4)动作空间

在某一次分配中，有n台物理机和m台等待被分配的虚拟机，动作空间可用一个Y_m×n的0-1矩阵来表示，在时间窗口内，智能体将连续不断地为已到来的虚拟机分配相应的物理机，直到再没有虚拟机请求为止，而后保存智能体，在下一个的时间窗口中再加载智能体进行新的分配工作；

5)奖励函数

设计下述(g)式的奖励函数，表示虚拟机到达时为云服务提供商所带来的收益：

6.根据权利要求1或权利要求4所述的基于深度强化学习的云数据中心资源分配方法，其特征在于JANET网络作为请求预测模块的深度学习算法，基于历史VM请求流量，生成未来VM请求流量。