CN111290831A

CN111290831A - 一种云计算基于强化学习的虚拟机迁移方法

Info

Publication number: CN111290831A
Application number: CN202010056399.0A
Authority: CN
Inventors: 何利; 杨迪; 袁征; 刘文瑛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Dianlian Technology Co ltd
Priority date: 2020-01-18
Filing date: 2020-01-18
Publication date: 2020-06-16
Anticipated expiration: 2040-01-18
Also published as: CN111290831B

Abstract

本发明请求保护一种云计算中基于强化学习的虚拟机自适应迁移策略，包括步骤：S1：采集负载数据，预测每个虚拟机的负载；S2：依据负载预测的结果更新服务节点的状态；S3，初始化数据中心的强化学习模型，即状态集、动作集、状态转移概率、收益和折扣因子；S4：确定强化学习的每一组状态‑行为对Q(s，a)的值，即在状态s下采用行为a的收益值；S5：使用贪心算法选择行为a；S6：收集数据中心系统的反馈信息S7：根据强化学习的结果进行虚拟机的迁移调度，更新服务节点的状态到s′，并更新状态行为对Q(s′，a)的值；S8：循环S1到S7直至目标值达到最优或者迭代次数达到阈值。

Description

一种云计算基于强化学习的虚拟机迁移方法

技术领域

本发明属于云计算资源调度领域，特别是涉及一种基于强化学习的虚拟机自适应迁移策略。

背景技术

云数据中心的工作负载是动态变化的，虚拟机迁移过程中变化的负载需要进一步的迁移去适应。因此需要有效的负载预测技术来减少因工作负载变化而提高的虚拟机迁移次数，从而减少虚拟机迁移的功耗。

云数据中心工作负载的多变性、用户行为的随机性造成了数据中心服务器负载不均衡。高效的负载均衡技术可以避免某些资源利用率过高造成的性能低下问题，甚至可以通过关闭低负载主机达到节能的目的。

云计算所提供的服务具有弹性伸缩的特性，这种特性使其可以根据业务负载情况动态实时自动创建和释放云服务器(Cloud virtual machine,CVM)实例，以帮助用户以最合适的实例数量应对业务情况。比如当CPU利用率较高时，就添加新的CVM实例；而当CPU利用率较低时，就删除一个CVM实例。这就为云计算的环境带来了很大的不确定性。云计算这种弹性伸缩的服务对于数据中心的负载均衡来说是一个非常大的挑战。在以往的服务器整合技术研究中，研究者多使用静态预留或者启发式算法来解决VM的迁移问题。但是现在云平台中的应用请求动态多变，应用所需资源不可预测现象严重，资源利用的不均衡问题突出。静态预留方法和启发式调度算法不能很好的满足均衡调度的需求，缺乏对优化目标的迭代反馈自主学习。

针对以上情况，本发明在云计算这种资源需求不确定的环境中，使用引入诱导有序加权平均算子的组合预测算法对数据中心的工作负载进行科学预测，并且使用基于强化学习的虚拟机迁移策略对云数据中心的资源进行动态配置，从而保证云数据中心的负载均衡，降低其功耗。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于强化学习的虚拟机自适应迁移策略。本发明保证数据中心负载均衡，降低其功耗的主要方式为基于强化学习的虚拟机调度或迁移。本发明首先使用引入诱导有序加权平均算子的组合预测方法对于服务节点的负载进行预测，并根据预测结果将服务节点分为不同的状态。同时，使用强化学习的方法来学习对于当前服务节点所采取的动作。强化学习是一种的虚拟机自适应迁移策略。提出了一种云计算基于强化学习的虚拟机迁移方法。本发明的技术方案如下：

一种云计算基于强化学习的虚拟机迁移方法，其包括以下步骤：

S1：采集负载数据，采用引入IOWA算子的组合预测方法预测每个虚拟机的负载；

S2：依据步骤S1中虚拟机的负载预测结果，计算每个服务节点的负载与平均负载之间的差，确定服务节点的负载状态；

S3，初始化数据中心的强化学习模型，即状态集、动作集、状态转移概率、收益和折扣因子；

S4：确定强化学习的每一组状态-行为对Q(s,a)的值，即在状态s下采用行为a的收益值；

S5：使用贪心算法选择行为a；对于每一个服务节点的状态，根据Q(s,a)的值选择收益最高的行为a；

S6：收集数据中心系统的反馈信息，包括数据中心的功耗、负载方差、平均资源利用率；

S7：根据强化学习的结果进行虚拟机的迁移调度，更新服务节点的状态到s′，并更新状态行为对Q(s′,a)的值；

S8：循环S1到S7直至目标值达到最优或者迭代次数达到阈值。

进一步的，所述步骤S1采集的负载数据包括：

分别表示第“t”时刻第“i”个虚拟机对应的资源的负载，采用的负载预测方法为，引入诱导有序加权平均算子(IOWA)的负载组合预测算法，预测结果记为：

分别表示第“t+1”时刻第“i”个虚拟机机对应资源的预测负载。

进一步的，所述步骤S1中使用引入的IOWA算子的组合预测方法包括：

(1)使用线性回归对负载进行预测，得出预测结果L_t；

(2)使用支持向量回归对负载进行预测，得出预测结果S_t；

(3)引入IOWA算子，对于上述两个预测结果进行加权组合，得出预测结果P_t＝w₁*L_t+w₂*S_t，其中w₁,w₂即为IOWA算子。

进一步的，所述步骤S3，定义数据中心的强化学习模型，该模型可以用一个五元组：(S，A，R_t(.,.)，P_t(.,.)，γ)来描述：S是一组有限的数据中心状态集，包括数据中心负载分布映射关系以及每台主机的预测负载状态与数据中心平均负载之间的差值；A是一组有限的数据中心动作集，即虚拟机的迁移策略；强化学习收益可以用R_t(s,s′)来表示，记为从状态s转移到状态s′时功耗降低百分比；P_t(s,s′)表示从状态s转移到状态s′的概率；γ表示折扣因子。

进一步的，所述步骤S2中确定服务节点的负载状态包括：

将CPU,RAM,Disk作为负载衡量的标准，考虑综合负载表示，为单个负载因子赋予权重，如W_cpu,W_RAM,W_disk,W_bandwidth。综合负载Load可以表示为：

其中W_cpu+W_RAM+W_disk+W_bandwidth＝1，“i”是服务节点的编号。

进一步的，所述步骤3中定义强化学习模型包括：

(1)定义强化学习的状态空间S:一组有限的数据中心状态集，包括每个服务节点的负载与平均负载之间的差值

以及数据中心负载分布映射关系，其中

是数据中心的平均负载；

(2)定义强化学习中的动作集合A：是一组有限的数据中心动作集，包括3个动作，分别为迁入虚拟机，迁出虚拟机，保持不变；

(3)定义系统的回报函数为R_t(s,s′)，记为从状态s转移到状态s′时虚拟机的迁移数量以及数据中心功耗降低百分比。

进一步的，所述步骤S7更新状态-行为对Q(s,a)的值的方法包括：

根据之前步骤的在状态s采取的行为a以及其对应的收益，更新Q(s,a)

这时将系统状态由s转换为s′，Q(s_t,a_t)表示在t时刻状态s下采用行为a的收益值，α表示学习率，γ为折扣因子，f_t+1表示一段时间内数据中心的反馈值，该反馈值表示为

其中

表示数据中心t时刻整体负载的平均值，

表示数据中心t时刻的负载方差，k₁，k₂表示两个数值的权重，当数据中心整体平均利用率过低时可以设定k₁>k₂，当数据中心负载方差较高，也就是负载不均衡时可以设定k₂>k₁。

本明的优点及有益效果如下：

本发明本发明与现有的虚拟机迁移相比，具有以下主要优点：(1)将基于引入诱导加权平均(IOWA)算子的组合预测方法用在云数据中心的负载预测中，该组合预测方法常用于预测电力的长短期负荷，该组合预测方法中使用的两个预测方法分别为线性回归预测与支持向量回归预测，解决现有的单一负载预测准确度不高的问题；(2)使用强化学习的方法建立以节能的负载平衡为目标的高效虚拟机自适应迁移模型，解决当前不确定性的云环境下的低功耗负载平衡问题.

附图说明

图1是本发明提供优选实施例一种云计算基于强化学习的虚拟机迁移方法流程图；

图2表示组合预测算法与单一预测算法的精度对比图

图3表示使用强化学习方法之后的负载方差与使用DVFS方法之后的负载方差对比图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明公开了一种基于强化学习的虚拟机自适应迁移策略，如图1所示，包括以下步骤：

S1，采集的负载数据包括：

分别表示第“t”时刻第“i”个虚拟机(VM)对应的资源的负载；采用的负载预测方法为，引入诱导有序加权平均算子(IOWA)的负载组合预测算法，预测结果记为：

S2，依据步骤S1中虚拟机的负载预测结果，计算每个服务节点的负载与平均负载之间的差，确定服务节点的负载状态；

S3，定义数据中心的强化学习模型，该模型可以用一个五元组：(S，A，R_t(.,.)，P_t(.,.)，γ)来描述：S是一组有限的数据中心状态集，包括数据中心负载分布映射关系以及每台主机的预测负载状态与数据中心平均负载之间的差值；a是一组有限的数据中心动作集，即虚拟机的迁移策略；强化学习收益可以用R_t(s,s′)来表示，记为从状态s转移到状态s′时功耗降低百分比；P_t(s,s′)表示从状态s转移到状态s′的概率；γ表示折扣因子。

S4，确定强化学习的一个状态-行为对Q(s,a)的值，即在状态s下采用行为a的收益值。

S5，使用贪心算法选择行为a，对于每一个服务节点的状态，根据Q(s,a)的值选择收益最高的行为a。

S6：收集数据中心系统的反馈信息，包括数据中心负载方差、平均资源利用率，并将其反馈给强化学习模块；

S7：根据强化学习的结果进行虚拟机的迁移调度，更新服务节点的状态到s′，并更新状态-行为对Q(s′,a)的值；

S8：循环S1到S7直至数据中心的功耗最优或者迭代次数达到阈值。

在本实施例，S1中，采集到的负载数据部分如下所示：

CPU<sup>1</sup>

0.241

0.598

…

0.741

其中每个数据的单位是利用率。

表示第1个虚拟机在所有时间段内的CPU负载，时间间隔为5分钟；同理，采集到的还有虚拟机的RAM，disk，bandwidth在所有时间段的负载。将这些负载数据以6：4的比例划分为训练集与测试集，在训练集上训练模型，在测试集上验证模型的优劣。

在训练集中，采用引入诱导有序加权平均算子(IOWA)的负载组合预测算法对每台虚拟机第“t+1”时刻的CPU利用率进行预测，组合预测中使用的两种预测方法为SVM回归与线性回归。计算得出IOWA的加权因子为：

预测方法	LR	SVR
			加权因子	0.246	0.754

依据此加权因子，将SVM回归与线性回归的结果加权计算，得到的结果的精度与SVM回归与线性回归的对比如图2所示

在本实施例，S2中，对于S1中的预测结果，将每个服务节点，即每台服务器的每项负载(CPU,RAM,disk,bandwidth)加权组合起来，权重为(0.25，0.25，0.25，0.25)，得到的结果记为Load_i，计算每个服务节点，即每台服务器的预测负载与数据中心平均预测负载之间的差

确定服务节点的负载状态；

在本实施例，S3中，设置动作a为虚拟机的迁入或者迁出，服务器的开启或者关闭。其中，a∈{-2,-1,0,1,2}，“1”表示虚拟机的迁入，“-1”表示虚拟机的迁出，“2”表示服务器的开启，“-2”表示服务器的关闭，“0”表示不采取任何操作。对于整个数据中心的状态s来说，a＝(a₁,a₂,a₃,…,a_n)表示一组动作向量，其中a_i表示第i台主机采取的动作。由于本实施例中每一个状态s转移到下一个状态s′是随着时间自然转移的，所以假设P_t(s,s′)为0。假设γ为0.7。

在本实施例，S4中，需要初始化Q(s,a)，通过S2可以得到初始状态为s＝{h1,h2,h3,…,h99,h100}，表示从主机h1到主机h100的负载，如下表所示：

h1	h2	h3	h4	…	h98	h99	h100
								0.476	0.476	0.548	0.411	…	0.4239	0.486	0.49

平均负载为0.219，计算每个主机的负载与平均负载的差值如下表所示：

h1	h2	h3	h4	…	h98	h99	h100
								0.0075	0.007	0.07876	-0.0583	…	-0.0456	0.0162	0.0211

计算每个主机的负载与平均负载的差值与平均负载的比值如下表所示：

h1	h2	h3	h4	…	h98	h99	h100
								0.034	0.032	0.360	-0.266	…	-0.0456	0.208	0.096

将该数值作为状态s，分为六个等级，如下表所示：

0～0.1	0.1～0.2	0.2及以上	-0.1～0	-0.2～-0.1	-0.2及下
						1	2	3	-1	-2	-3

定义该实施例中此时状态s为s₁＝{1，1，3，-3，-1，2，-3，-1，3，1}

由上表可得平均负载为0.21894848，首先根据Q(s_t,a_t)的值选择状态对应的动作，初期偏重探索，所以使用贪心算法选择动作为：

h1	h2	h3	h4	…	h98	h99	h100
								1	1	-1	-2	…	-2	1	1

因为平均负载值较低，所以需要关闭一些节点(h4，h8，…，h98)，将其上的虚拟机迁移到合适的主机。此时的动作为a₁＝{1，1，0，-2，0，-1，-2，-2，1，1}。设置当前Q(s_t,a_t)为0，在步骤S7更新Q(s_t,a_t)的值。

在本实施例，S5中，使用贪心算法选择行为a，对于每一个服务节点的状态，根据Q(s,a)的值选择收益最高的行为a。具体地说，就是当数据中心的平均负载处于一定阈值之上，就不会触发服务器的关闭，这时每台主机根据自身与平均负载之间的差值直接选择迁入(1)或者迁出(-1)或者(0)维持不变。

S6：收集数据中心系统的反馈信息，包括数据中心的负载方差、平均资源利用率(平均负载)，并将其反馈给强化学习模块；根据S4中的动作a₁实施迁移后，收集到的数据中心的负载方差为0.043，平均负载为0.246。

S7：根据强化学习的结果进行虚拟机的迁移调度，更新服务节点的状态到s′，并更新状态-行为对Q(s′,a)的值；依据贝尔曼方程：

由于此时是强化学习的初始阶段，Q(s_t,a_t)与Q(s_t+1,a_t)都为0，所以第一步只需计算α*f_t+1的值，本次实验中，计算

中，所采用的学习率α的值为0.7，所以更新Q值表：

Q(s<sub>t</sub>,a<sub>t</sub>)	-2	-1	0	1	2
						1	-∞	-∞	-∞	16.28	-∞
2	-∞	16.28	-∞	-∞	-∞
						3	-∞	16.28	-∞	16.28	-∞
-1	16.28	-∞	16.28	-∞	-∞
						-2	-∞	-∞	-∞	-∞	-∞
-3	16.28	-∞	-∞	-∞	-∞

重复S1～S7，并不断更新Q值表

在本实施例，S8中，在迭代完成后得到每一时间段的负载方差与dvfs方法作为对比得到如图3所示。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例0或示例中以合适的方式结合。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种云计算基于强化学习的虚拟机迁移方法，其特征在于，包括以下步骤：

S8：循环S1到S7直至目标值达到最优或者迭代次数达到阈值。

2.根据权利要求1所述的一种云计算基于强化学习的虚拟机迁移方法，其特征在于，所述步骤S1采集的负载数据包括：

3.根据权利要求2所述的一种云计算基于强化学习的虚拟机迁移方法，其特征在于，所述步骤S1中使用引入的IOWA算子的组合预测方法包括：

(1)使用线性回归对负载进行预测，得出预测结果L_t；

(2)使用支持向量回归对负载进行预测，得出预测结果S_t；

4.根据权利要求1所述的一种云计算基于强化学习的虚拟机迁移方法，其特征在于，所述步骤S3，定义数据中心的强化学习模型，该模型可以用一个五元组：(S，A，R_t(.,.)，P_t(.,.)，γ)来描述：S是一组有限的数据中心状态集，包括数据中心负载分布映射关系以及每台主机的预测负载状态与数据中心平均负载之间的差值；A是一组有限的数据中心动作集，即虚拟机的迁移策略；强化学习收益可以用R_t(s,s′)来表示，记为从状态s转移到状态s′时功耗降低百分比；P_t(s,s′)表示从状态s转移到状态s′的概率；γ表示折扣因子。

5.根据权利要求1所述的一种云计算基于强化学习的虚拟机迁移方法，其特征在于，所述步骤S2中确定服务节点的负载状态包括：

将CPU,RAM,Disk作为负载衡量的标准，考虑综合负载表示，为单个负载因子赋予权重，如W_cpu,W_RAM,W_disk,W_{bandwidt h}。综合负载Load可以表示为：

其中W_cpu+W_RAM+W_disk+W_{bandwidt h}＝1，“i”是服务节点的编号。

6.根据权利要求1所述的一种云计算基于强化学习的虚拟机迁移方法，其特征在于，所述步骤3中定义强化学习模型包括：

以及数据中心负载分布映射关系，其中

是数据中心的平均负载；

7.根据权利要求1所述的一种云计算基于强化学习的虚拟机迁移方法，其特征在于，所述步骤S7更新状态-行为对Q(s,a)的值的方法包括：

其中

表示数据中心t时刻整体负载的平均值，