CN115016889A

CN115016889A - 一种用于云计算的虚拟机优化调度方法

Info

Publication number: CN115016889A
Application number: CN202210423376.8A
Authority: CN
Inventors: 丁炜超; 单锦华; 郭立; 时昌银; 费细兵
Original assignee: Shanghai Yunshen Technology Co ltd; East China University of Science and Technology
Current assignee: Shanghai Yunshen Technology Co ltd; East China University of Science and Technology
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-09-06

Abstract

本发明涉及一种用于云计算的虚拟机优化调度方法，该方法以虚拟机多目标调度优化结果为输入参数，所述方法首先通过目标转换建立原始决策矩阵，然后结合资源调度过程的系统状态转移关系，建立资源调度流程所对应的马尔科夫决策过程MDP，进而通过强化学习技术训练得到带有虚拟机迁移代价信息的辅助决策矩阵，最后利用原始决策矩阵和辅助决策矩阵构建权衡决策矩阵，并根据用户对目标属性的偏好信息，输出全局最优调度方案。与现有技术相比，本发明具有不仅考虑了虚拟机调度方案执行前的稳态目标信息，如能耗、服务质量、资源使用率等，还兼顾了虚拟机调度方案执行后对后续资源整合所可能造成的潜在迁移代价等优点。

Description

一种用于云计算的虚拟机优化调度方法

技术领域

本发明涉及云计算资源调度技术领域，尤其是涉及一种用于云计算的虚拟机优化调度方法。

背景技术

云计算环境下的虚拟机调度是指根据一定的调度策略，把不同租户请求的虚拟资源按规定的时序分配到数据中心的多个计算节点上，并在应用运行过程中根据负载状态进行合理的资源整合，以期获得较好的系统执行性能。

虚拟机调度是NP完全问题，涉及数据中心的能耗、资源损耗以及租户服务质量等多个目标的优化，且多个调度目标之间具有相互制约、相互冲突特性，因此不存在单目标调度的全局最优解，其求解结果是多个目标折衷的非劣解集合。传统的启发式调度框架与模型缺乏高效搜索到全局最优解的能力，且依赖于调度问题类型，不能适应于多变的云计算应用环境。而典型的调度问题可以直接映射为装箱问题，多目标进化算法(如NSGA-II、MOEA/D、SPEA2等)可以设计适应于不同装箱问题的编码方式，具有较好的全局寻优能力，且能够方便的与其他优化策略相结合(从而解决其自身缺乏反馈机制、收敛速度慢等缺陷)，对求解虚拟机多目标调度优化问题具有天然的优越性。

然而，多目标进化算法的结果是一个决策集，并没有给出从决策集中选择具体决策的方法，如果不采用其他辅助决策机制，云服务提供商只能从非劣决策集中随机选择调度方案。此外，非劣解集中只包含了虚拟机调度前的稳态目标信息，如能耗、服务质量、资源使用率等，未体现虚拟机放置后对后续资源整合所可能造成的迁移代价。因此，如何针对非劣解集设计兼顾系统能效和系统稳健性的虚拟机多目标调度权衡决策机制是基础设施即服务层平台所普遍面临的技术问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于云计算的虚拟机优化调度方法。

本发明的目的可以通过以下技术方案来实现：

根据本发明的一个方面，提供了一种用于云计算的虚拟机优化调度方法，该方法以虚拟机多目标调度优化结果为输入参数，所述方法首先通过目标转换建立原始决策矩阵，然后结合资源调度过程的系统状态转移关系，建立资源调度流程所对应的马尔科夫决策过程MDP(Markov Decision Process)，进而通过强化学习技术训练得到带有虚拟机迁移代价信息的辅助决策矩阵，最后利用原始决策矩阵和辅助决策矩阵构建权衡决策矩阵，并根据用户对目标属性的偏好信息，输出全局最优调度方案。

作为优选的技术方案，所述的方法具体包括以下步骤：

步骤S1、基于非劣解集建立原始决策矩阵

将非劣解集X＝(x₁,x₂,...,x_j,...,x_n)^T根据目标函数转换为目标函数集

步骤S2、建立辅助决策矩阵Q；

步骤S3、采用强化学习技术训练MDP模型，直至奖励矩阵Q-Value收敛，其中奖励矩阵为辅助决策矩阵；

步骤S4、基于原始决策矩阵

与辅助决策矩阵Q建立权衡决策矩阵；

步骤S5、基于用户偏好构建加权规范决策矩阵

步骤S6、定义理想点

使得理想点

中各属性值均为决策集中的最优值，其中理想点

各属性值为加权规范决策矩阵中各元素的最小值；

步骤S7、在加权规范决策矩阵中基于理想点

输出全局最优解。

作为优选的技术方案，所述的步骤S2具体包括：

201)确定迁移代价M的度量标准，以迁移代价M作为虚拟机调度方案x_j所对应的奖励函数；

202)以迁移代价M作为系统健壮性指标，基于虚拟机调度过程中的系统状态转移关系建立MDP模型。

作为优选的技术方案，所述的迁移代价M使用每个虚拟机vm_j的迁移时间来度量，具体表示为：

其中，

表示虚拟机vm_j完成迁移所需时间；M_j表示虚拟机vm_j迁移时的内存请求量；B_j表示物理主机的可用带宽。

作为优选的技术方案，所述的MDP模型以四元组定义为：M＝(S,A,P_sa,R)；

其中，S为状态空间，有s∈S，s_t表示Agent在时间步t接收的状态；

A为动作空间，有a∈A，a_t表示Agent时间步t执行的动作；

P_sa表示在当前s∈S状态下，经过动作a∈A作用后，Agent会转移到的其他状态s∈S的概率分布情况；

R为奖励函数；

其中状态空间S定义为：将t时刻第i个物理主机的CPU利用率表示为s_ti，则时间步t时计算节点集群的状态空间表示为S_t＝(s_t1,s_t2,...,s_tn)，n表示物理主机数目；

动作空间A定义为：每一个非劣解均代表一种虚拟机调度方案，使用基于分布式支持向量机的方法将多目标资源调度问题的Pareto最优解集划分为能耗优先型动作、服务质量优先型动作以及资源使用效率优先型动作三类，即A＝{能耗优先，服务质量优先，资源使用效率优先}。

作为优选的技术方案，所述的状态空间S采用神经网络技术，结合神经网络技术对服务器的状态集合进行降维和聚合处理。

作为优选的技术方案，所述的步骤S3中的辅助决策矩阵中奖励函数值与迁移代价负相关，迁移代价越大，预期奖励值越小；

所述的步骤S3中的MDP模型采用强化学习技术Double Q-Learning算法对其训练求解。

作为优选的技术方案，所述的步骤S4具体包括：

401)计算按照x_j执行虚拟机放置方案后的系统集群状态(s_j1,s_j2,...,s_jn)；

402)计算执行x_j调度方案所对应的动作a；

403)根据辅助决策矩阵获取状态(s_j1,s_j2,...,s_jn)执行动作a所对应的奖励值Reward_ji；

404)将Reward_ji作为非劣解x_j的一个新目标函数值添加到决策矩阵

中，构成权衡决策矩阵

作为优选的技术方案，所述的步骤S5具体包括：

501)若决策者对虚拟机调度各目标属性无具体偏好，利用熵权法自动确定各目标的客观权重；

502)对权衡决策矩阵

中的属性值进行规范化，构造规范决策矩阵

503)结合决策者对各个目标的偏好值或系统默认客观权重值构造加权规范决策矩阵

其中加权规范决策矩阵

表示方式定义为：

c_ij＝w_j×b_ij (2)

其中，w_j表示决策者对第j个目标设定的偏好权重。

作为优选的技术方案，所述的步骤S7具体包括：

计算加权规范决策矩阵中所有调度方案距离理想点

的距离；

输出距离

最近的点，并作为最终权衡方案。

与现有技术相比，本发明具有以下优点：

1)本发明以虚拟机多目标调度优化结果为决策集，综合考虑了系统能效和系统健壮性，并可根据决策者偏好灵活选择最优调度方案；

2)本发明不仅考虑了虚拟机调度方案执行前的稳态目标信息，如能耗、服务质量、资源使用率等，还兼顾了虚拟机调度方案执行后对后续资源整合所可能造成的潜在迁移代价；

3)本发明允许决策者根据自身偏好灵活设置各目标权重，灵活性更好；

4)本发明适应于不同架构类型的基础设施层云平台，且与多目标优化算法及具体的优化目标解耦，适配性强。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本发明的一种面向虚拟机多目标调度优化问题的权衡决策方法，该方法以非劣虚拟机多目标调度优化解集作为输入参数，首先通过目标函数转换将非劣解集转化为目标函数集(原始决策矩阵)；然后结合资源调度过程的系统状态转移关系，定义状态空间、动作空间和奖励函数，进而构建资源调度流程所对应的MDP，通过强化学习技术训练Q-value矩阵(辅助决策矩阵)至收敛；最后利用原始决策矩阵和辅助决策矩阵构建权衡决策矩阵，并根据用户对目标属性的偏好信息，输出基于理想点的权衡决策方案。具体步骤如下：

S1、基于虚拟机多目标调度优化非劣解集建立原始决策矩阵：假设非劣解集X表示为n维列向量：X＝(x₁,x₂,...,x_j,...,x_n)^T，其中，x_j为第j个非劣解，n为非劣解数量；目标函数集F表示为F＝(p(x_j),q(x_j),u(x_j))，其中，p(x_j),q(x_j),u(x_j)分别代表系统能耗、虚拟机服务质量以及资源使用效率的目标函数；则非劣解集X对应的非劣目标函数集

可表示为：

如下所示；

S2、基于虚拟机调度过程中的系统状态转移过程建立MDP：MDP模型以四元组定义为M＝(S,A,P_sa,R)。其中，S为状态空间，表示时间步t时计算节点集群的状态空间S_t＝(s_t1,s_t2,...,s_tn)，s_ti代表t时刻第i个计算节点的CPU利用率；A为动作空间，基于分布式支持向量机的方法将多目标资源调度问题的Pareto最优解集划分为能耗优先型动作、服务质量优先型动作以及资源使用效率优先型动作三类，即A＝{能耗优先，服务质量优先，资源使用效率优先}；P_sa表示在当前s∈S状态下，经过动作a∈A作用后，Agent会转移到的其他状态s∈S的概率分布情况；R为奖励函数，如公式(1)所示；

S3、利用Double Q-Learning训练步骤S2中MDP的Q-Value矩阵至收敛，并将收敛后Q-Value矩阵称为辅助决策矩阵，如表1所示；

表1

S4、基于原始决策矩阵和辅助决策矩阵建立权衡决策矩阵：首先计算按照x_j执行虚拟机放置方案后的系统集群状态(s_j1,s_j2,...,s_jn)以及x_j所属的动作空间a∈{能耗优先，服务质量优先，健壮性优先}；然后根据辅助决策矩阵获取状态(s_j1,s_j2,...,s_jn)执行动作a所对应的奖励值Reward_ji；最终，通过将Reward_ji作为非劣解x_j的一个新目标函数值添加到决策矩阵

中，构成权衡决策矩阵

如下所示；

S6、基于用户偏好构造加权规范决策矩阵：首先对权衡决策矩阵

中的属性值进行规范化，构造规范决策矩阵

进而结合用户对各个目标的偏好值构造加权的规范决策矩阵

其中，c_ij＝w_j×b_ij，w_j表示决策者对第j个目标设定的权重；若决策者对虚拟机调度各优化目标属性无偏好，利用熵权法确定各目标的客观权重，从而将无偏好决策问题自动转化为有偏好决策问题；

S6、定义理想点

使得理想点

中各属性值均为决策集中的最优值；

S7、计算加权规范决策矩阵

中的各点距离理想点

之间的欧式距离(负相关系数)，输出离

距离最近(负相关系数最大)的决策点作为最终权衡决策方案。

本发明要解决的技术问题是如何从虚拟机多目标调度优化非劣解集中，综合考虑系统能效和系统健壮性，并结合决策者偏好自动决策出最优调度方案。采用的技术方案为：以非劣虚拟机多目标调度优化解集作为输入参数，首先通过目标函数转换将非劣解集转化为目标函数集(原始决策矩阵)；然后结合资源调度过程的系统状态转移关系，定义状态空间、动作空间和奖励函数，进而构建资源调度流程所对应的MDP，通过强化学习技术训练Q-value矩阵(辅助决策矩阵)至收敛；最后利用原始决策矩阵和辅助决策矩阵构建权衡决策矩阵，并根据用户对目标属性的偏好信息，输出基于理想点的权衡决策方案。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于云计算的虚拟机优化调度方法，其特征在于，该方法以虚拟机多目标调度优化结果为输入参数，所述方法首先通过目标转换建立原始决策矩阵，然后结合资源调度过程的系统状态转移关系，建立资源调度流程所对应的马尔科夫决策过程MDP，进而通过强化学习技术训练得到带有虚拟机迁移代价信息的辅助决策矩阵，最后利用原始决策矩阵和辅助决策矩阵构建权衡决策矩阵，并根据用户对目标属性的偏好信息，输出全局最优调度方案。

2.根据权利要求1所述的一种用于云计算的虚拟机优化调度方法，其特征在于，所述的方法具体包括以下步骤：

步骤S1、基于非劣解集建立原始决策矩阵