CN111143036A

CN111143036A - 一种基于强化学习的虚拟机资源调度方法

Info

Publication number: CN111143036A
Application number: CN201911401932.6A
Authority: CN
Inventors: 李家樑; 陈学军; 李盟; 王劲; 马红飞; 刘伟平; 郭子东
Original assignee: Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Current assignee: Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本发明为基于强化学习的虚拟机资源调度方法，建立云计算排队系统模型，确认最大可使用的资源；建立虚拟机任务数估算模型，确认时刻t在系统等待的第v类虚拟机请求的任务数，得出任务数；根据总任务数，把优化平均任务完成时间目标映射为数学模型，找出多个影响平均任务完成时间的决策条件；引入虚拟机配置数组，将多个影响平均任务完成时间的决策条件转换为单维的虚拟机调度决策条件，输入虚拟机实例数量、虚拟机请求数量与虚拟机请求的工作量，作为初始参数；得出决策点、行为空间、奖励函数、状态‑行为价值函数与贪婪行为策略；在虚拟机调度模型中迭代计算，行为组，作为最优虚拟机资源调度策略；根据策略输出最优虚拟机资源调度方法。

Description

一种基于强化学习的虚拟机资源调度方法

技术领域

本发明涉及计算机技术，具体涉及一种虚拟机的资源调度优化方法。

背景技术

虚拟机资源调度是指在云计算环境下，立足于多用户的多资源需求(例如，异构的CPU，内存，存储资源组合需求)和云计算系统的可用资源，为同时到达的用户分配虚拟机资源和决定虚拟机资源调度的顺序。

一般虚拟机资源调度采用在线算法，包括first-fit-sharing(FFS)和best-fit-sharing(BFS)，来解决虚拟机背包问题。在线算法主要是解决如何将虚拟机任务分配到多个服务器群集，从而均衡服务器群集间的业务负载或降低服务器群集的数量，它们并没有考虑虚拟机任务在服务器群集的排队问题，即没有考虑虚拟机任务的排队延迟。事实上，排队延迟对用户尤其延迟敏感用户具有重要的影响。

为了满足延迟敏感业务的服务质量要求，本方法综合考虑了虚拟机资源的多资源多类性和业务的延迟敏感性，设计了一种基于强化学习的虚拟机资源调度方法。将延迟的具体性能参数——任务完成时间作为奖赏函数，采用贪婪行为策略，通过训练使系统能通过自主学习的方法选择最优的调度策略来达到最大奖励，从而获得最优的平均任务完成时间。

发明内容

针对上述现有技术不足，本方法使云计算系统能够自主学习优化的虚拟机资源调度策略，减少虚拟机任务的延迟，满足尽量多用户的实时应用需求。

为解决上述技术问题，本发明采用的技术方案为，一种基于强化学习的虚拟机资源调度方法，包括以下步骤：

S101：建立云计算排队系统模型，确认允许用户每单位时间最大可使用的资源；

S102：建立虚拟机任务数估算模型，确认时刻t在系统等待的第v类虚拟机请求的任务数，得出等待所有资源请求的任务数；

S103：根据总任务数，把优化平均任务完成时间目标映射为数学模型，找出多个影响平均任务完成时间的决策条件；

S104：引入虚拟机配置数组，将多个影响平均任务完成时间的决策条件转换为单维的虚拟机调度决策条件，降低算法的时间复杂度；

S105：输入虚拟机实例数量、虚拟机请求数量与虚拟机请求的工作量，作为初始参数；

S106：得出决策点、行为空间、奖励函数、状态-行为价值函数与贪婪行为策略；

S107：在虚拟机调度模型中迭代计算，开始强化学习；

S108：选出使得状态-行为价值函数最大的行为组，作为最优虚拟机资源调度策略；

S109：根据策略输出最优虚拟机资源调度方法。

本发明综合考虑了虚拟机资源的多资源多类性和业务的延迟敏感性，设计了一种基于强化学习的虚拟机资源调度方法。将延迟的具体性能参数——任务完成时间作为奖赏函数，采用贪婪行为策略，通过训练使系统能通过自主学习的方法选择最优的调度策略来达到最大奖励，从而获得最优的平均任务完成时间。

附图说明

图1是本发明的一种基于强化学习的虚拟机资源调度方法的算法流程图。

图2是任务完成时间vs虚拟机到达速率实验图。

图3是任务完成时间vs所有虚拟机到达速率实验图。

图4是任务完成时间vs虚拟机任务时长实验图。

图5是任务完成时间vs所有虚拟机任务时长实验图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

如图1所示，本发明采用的技术方案为，一种基于强化学习的虚拟机资源调度方法，包括以下步骤：

S107：在虚拟机调度模型中迭代计算，开始强化学习；

S109：根据策略输出最优虚拟机资源调度方法。

具体地，(1)建立云计算排队系统模型

考虑如下的云计算排队系统：系统由K个计算设备资源组成，包括CPU、内存、存储设备等。这些设备资源通过虚拟化技术以虚拟机的形式向租户开放。系统可同时支持多个虚拟机并行调度。系统将虚拟机划分为V类，每类虚拟机对应一定数量的设备资源(包括CPU、内存、存储设备)，表示允许用户每单位时间最大可使用的资源。令K＝{1,…,k}和V＝{1,…V}分别表示资源类型和虚拟机类型空间。令R_vk表示第v类虚拟机需要的第k类资源的数量，令C_k表示第k类资源的系统容量。则，系统能支持第v类虚拟机的条件是：

一个可行的虚拟机配置定义如下：

定义1(可行的虚拟机配置)：若一个云计算系统能同时调度N₁个类型-1的虚拟机实例、N₂个类型-2的虚拟机实例，…,N_v个类型-V的虚拟机实例，则称V元素矢量N＝(N₁,…N_v)为云计算系统的一个可行的虚拟机配置。即，当且仅当公式(2)成立时，N是一个可行的虚拟机配置。

令

则

表示系统可支持的第V类虚拟机的最大数量。

(2)建立虚拟机任务数估算模型

考虑如下的业务模型：(1)虚拟机请求随机地到达系统，不同类型的虚拟机请求到达速率相互独立；(2)对每一类虚拟机，每单位时隙虚拟机请求的数量服从相互独立相同分布(i.i.d分布)，每个请求的虚拟机运行时长也服从i.i.d分布。

假设来自终端用户的每个请求都明确所请求的虚拟机类型及运行时长(以时隙为单位)。一个虚拟机任务被称为第v类任务。如果该任务请求第v类的虚拟机，任务的长度S表示该虚拟机实例请求运行S时隙。为了简化，本方法仅考虑非占用时隙系统，即当一个任务被调度时，其将一直调度直至完成。在每个时隙的开始阶段，虚拟机调度器通过调度策略决定该时隙同时调度哪些类型的虚拟机以及每类虚拟机调度多少个虚拟机实例，然后执行调度。

假设初始化系统为空闲状态。令J_v(t)≥C表示第v类虚拟机在时间间隔[t,t+1]到达的请求数量，

表示第v类虚拟机第j个请求的请求时长，其中0≤j<J_v(t)。令λ_v表示第v类虚拟机请求数量的到达速率，则

令

表示第v类请求的平均时长，则有：

令

表示在时隙t开始调度的第v类虚拟机实例的数量，

表示在t前已经调度且在t仍需调度的第v类虚拟机实例的数量。则，在[t,t+1]内，第v类虚拟机实例的总调度数量为：

令Q_v(t)表示时刻t在系统等待的第v类虚拟机请求的数量，则有：

令W_v(t)表示在时刻t在系统等待的第v类虚拟机请求的工作量(考虑了请求的数量及时长)，则有：

(3)把优化平均任务完成时间映射为数学模型

本方法以平均任务完成时间为优化目标。令

表示第j个类型-v的虚拟机任务的完成时间，其定义为：

式中，

表示响应时间，

是运行时长。

类型-v虚拟机任务的平均完成时间为：

则，优化问题为：

最小化：

限制条件：

公式(11)是所有虚拟机类型所有时间的平均任务完成时间；公式(12)是资源限制条件；公式(13)依据公式(7)；公式(14)依据公式(8)；公式(9)依据公式(6)。

由公式(11)-(15)可知，优化方程的决策变量是N_v(t)和

由公式(6)可知，一旦N_v(t)确定则

随之也确定。因此，上述优化问题等效于找出一系列优化的

来达到目。

(4)降低数学模型复杂度

下文通过资源抽象和问题转换来求解公式(11)-(15)的优化问题，把虚拟机复杂多资源调度方法转化为简易单维调度方法。

引入虚拟机配置数组

来表示可调度策略的集合，其定义如下：

定义2(虚拟机配置数组)：当且仅当行向量

是时刻t的可行的虚拟机配置时，

被称为时刻t的虚拟机配置数组，这里，

满足以下限制条件时：

称为时刻t的可行的虚拟机配置。方程组(16)中，N^P(a_t,v)等效于

A_t是一个数字变量，表示时隙t系统可支持的虚拟机配置数量。

例1:设一个云计算资源池的内存、CPU和存储资源的配置容量为(32，12，4000)。假设系统提供三类虚拟机，它们对内存、CPU和存储空间的需求分别为(32，8，1690)、(30.5，4，420)和(7.5，4，1690)。设在时刻t，对所有v∈V，有

及

则，根据定义2，系统可支持的虚拟机配置数量A_t＝5，且虚拟机配置数组为

表示系统支持5种虚拟机调度策略，当a＝5时，表示选择策略(1 0 0)，则系统将在[t,t+1]时调度1个类型-1的虚拟机实例，0个类型-2和类型-3的虚拟机实例。

当引入虚拟机配置数组概念后，公式(11)-(15)的优化问题转换成了一个决策问题，即选择哪个a_t∈{1,…,A_t},t＝0,…,∞，使得平均任务完成时间最小化。

另一方面，根据公式(6)，可得到在时隙t调度完成的类型-v虚拟机数量为：

则时刻t的类型-v虚拟机的平均任务完成时间可表示为：

由公式(6)、(17)-(18)可知，E[T_v(t)]是N_v(τ,τ＝0,…,t-1)的函数。

令

定义为序列

的函数，表示所有类型虚拟机在所有时间的平均任务完成时间，则，公式(11)-(15)的优化问题可转换为：

最小化：

限制条件：

因此，平均任务完成时间优化问题等效为找出优化的

序列，使得

序列最小化g(·)，从而把多资源多类的虚拟机资源调度问题转化为单维的虚拟机调度决策问题，降低算法的时间复杂度。

(5)定义基于强化学习算法的虚拟机调度模型

(a)状态空间S：由公式(16)、(19)-(20)可见，

Q_v(t)和W_v(t)主要影响调度策略的选择，因此，状态用向量

表示。

(b)决策点和行为空间A：本文用每个时隙的开始时刻作为决策点。由定义2可知，虚拟机配置数组的每一个行向量是一个调度决策，因此行为空间为

(c)奖赏函数r：每次决策并执行之后，即时观察系统的性能，并进行奖赏。为了最小化平均任务完成时间，采用如下的奖赏函数

式中，

是第v类虚拟机的统计平均任务完成时间，β是大于0的系数。

(d)状态-行为价值函数V(s,a)：在状态s下选择行为a的价值是从当前状态当前行为之后所有状态和行为的奖赏函数的累积，根据贝尔曼期望方程，可用当前奖赏值与下一状态的价值函数之和的数学期望来表示，即

ν(s,a)＝E[R_t+1+γV(S_t+1,A_t+1)|S_t＝s,A_t＝a] (22)

(e)∈-贪婪行为策略:采用∈-贪婪行为策略来确定当前状态的行为，即以

的概率选择价值函数最大值的行为，以

概率随机选择其它行为，如公式(23)所示。

(6)优化虚拟机调度模型

采用如下强化学习算法对模型进行优化调度：

初始状态：单步期望值ρ＝0＝0，状态空间S＝{0}

在每个决策点t，执行如下步骤：

感知当前状态

如果

则将s_t添加到S并令V(s,a)＝0；

计算虚拟机配置数组

基于∈-贪婪行为策略选择行为

则优化的虚拟机配置策略

也相应地确定；

按

的决策进行虚拟机资源调度，并更新如下参数：

根据公式(21)计算奖赏值r，更新V(s,a)：

式中，

是下一状态的最大价值函数；

如果

则更新单步期望值ρ如下：

为了验证本发明的有效性，我们将本发明与Maguluri等人提出的Myopic-MaxWeight算法进行比较。采用如表1所示的资源参数。

表1资源参数

(1)任务完成时间vs到达速率

设三类虚拟机请求的平均时长均为4个时隙，设到Type-2和Type-3的到达速率分别为λ₂＝0.025任务/时隙，λ₃＝0.15任务/时隙，则系统的平均任务完成时间随着Type-1虚拟机到达速率的变化如图2所示。

由图2可见，在系统容量及Type-2和Type-3的到达速率固定的情况下，虚拟机的平均任务完成时间随着Type-1虚拟机到达速率的上升而延长，这是因为虚拟机任务在系统的排队时长随着Type-1虚拟机到达速率的上升而延长，但基于本文所提出的强化学习算法的平均任务完成时间均低于Myopic-MaxWeight算法，这是因为基于延迟的强化学习策略能根据系统状态的变化动态地学习优化的策略，从而得到在不同速率下的优化任务完成时间。

当所有类型虚拟机的到达速率都比较大时，本文所提的基于延迟的强化学习算法性能优势更加显著，如图3所示。由图3可见，随着所有类型的虚拟机到达速率的上升，Myopic-MaxWeight算法的平均任务完成时间快速上升，例如，当每类虚拟机任务的到达速率为0.125请求/时隙时，平均任务完成时间达到2000时隙，而本文所提算法能保证平均任务完成时间不高于1000时隙，相当于Myopic-MaxWeight算法的一半。

(2)任务完成时间vs任务时长

设三类虚拟机任务的到达速率分别为λ₁＝0.025任务/时隙,λ₂＝0.025任务/时隙，λ₃＝0.15任务/时隙。设Type-1和Type-2虚拟机请求的平均时长为4个时隙，则系统的平均任务完成时间随着Type-3虚拟机任务时长的变化如图4所示。

由图4可见，平均任务完成时间随着Type-3虚拟机任务时长的增长而延长，这是因为在系统容量和虚拟机请求到达速率(每时隙虚拟机请求的数量)不变的情况下，业务负载随着任务时长的增长而增长，虚拟机任务在系统的排队时长也随着增长，从而在任何虚拟机调度算法下，平均任务完成时间都随着任务时长的增长而增长。但是，强化学习算法下得到的任务完成时间明显低于Myopic-MaxWeigh算法的任务完成时间，尤其当Type-3虚拟机任务的平均时长大于8时隙/任务之后。

图5进一步验证了本文所提算法的有效性。如图5所示，当所有类型虚拟机任务的平均时长增加时，基于Myopic-MaxWeigh算法的任务完成时间快速上升，而本文所提的基于延迟的强化学习算法的平均任务完成时间约为Myopic-MaxWeigh算法的一半，有效降低了延迟。

以上所述仅为本发明的较佳实施方式，本发明并不局限于上述实施方式，在实施过程中可能存在局部微小的结构改动，如果对本发明的各种改动或变型不脱离本发明的精神和范围，且属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变型。

Claims

1.一种基于强化学习的虚拟机资源调度方法，其特征在于，包括以下步骤：

S107：在虚拟机调度模型中迭代计算，开始强化学习；

S109：根据策略输出最优虚拟机资源调度方法。

2.根据权利要求1所述的基于强化学习的虚拟机资源调度方法，其特征在于，所述步骤S101具体为，

将虚拟机划分为V类，每类虚拟机对应设备资源，表示允许用户每单位时间最大可使用的资源；令K＝{1,…,k}和V＝{1,…V}分别表示资源类型和虚拟机类型空间；令R_vk表示第v类虚拟机需要的第k类资源的数量，令C_k表示第k类资源的系统容量；系统能支持第v类虚拟机的条件是：

一个可行的虚拟机配置定义如下：

定义1：若一个云计算系统能同时调度N₁个类型-1的虚拟机实例、N₂个类型-2的虚拟机实例，…,N_v个类型-V的虚拟机实例，则称V元素矢量N＝(N₁,…N_v)为云计算系统的一个可行的虚拟机配置；当且仅当公式(2)成立时，N是一个可行的虚拟机配置；

则

表示系统可支持的第V类虚拟机的最大数量。

3.根据权利要求2所述的基于强化学习的虚拟机资源调度方法，其特征在于，所述步骤S102具体为，

建立模型为：S1021：虚拟机请求随机地到达系统，不同类型的虚拟机请求到达速率相互独立；S1022：对每一类虚拟机，每单位时隙虚拟机请求的数量服从相互独立相同分布，每个请求的虚拟机运行时长也服从i.i.d分布；

令初始化系统为空闲状态；令J_v(t)≥C表示第v类虚拟机在时间间隔[t,t+1]到达的请求数量，

表示第v类虚拟机第j个请求的请求时长，其中0≤j<J_v(t)；令λ_v表示第v类虚拟机请求数量的到达速率，计算

令

表示第v类请求的平均时长，计算：

令

表示在时隙t开始调度的第v类虚拟机实例的数量，

表示在t前已经调度且在t仍需调度的第v类虚拟机实例的数量；在[t,t+1]内，第v类虚拟机实例的总调度数量为：

令Q_v(t)表示时刻t在系统等待的第v类虚拟机请求的数量：

令W_v(t)表示在时刻t在系统等待的第v类虚拟机请求的工作量：

4.根据权利要求3所述的基于强化学习的虚拟机资源调度方法，其特征在于，所述步骤S103具体为，

令

表示第j个类型-v的虚拟机任务的完成时间，其定义为：

式中，

表示响应时间，

是运行时长；

类型-v虚拟机任务的平均完成时间为：

最小化：

限制条件：

公式(11)是所有虚拟机类型所有时间的平均任务完成时间；公式(12)是资源限制条件；公式(13)依据公式(7)；公式(14)依据公式(8)；公式(9)依据公式(6)；

优化方程的决策变量是N_v(t)和

5.根据权利要求4所述的基于强化学习的虚拟机资源调度方法，其特征在于，所述步骤S104具体为，

引入虚拟机配置数组

来表示可调度策略的集合，其定义如下：

定义2：当且仅当行向量

是时刻t的可行的虚拟机配置时，

被称为时刻t的虚拟机配置数组，

满足以下限制条件时：

称为时刻t的可行的虚拟机配置；方程组(16)中，N^P(a_t,v)等效于

6.根据权利要求5所述的基于强化学习的虚拟机资源调度方法，其特征在于，所述步骤S105具体为，

定义状态空间S：由公式(16)、(19)-(20)得出

Q_v(t)和W_v(t)主要影响调度策略的选择，状态用向量

表示；

计算决策点和行为空间A：本文用每个时隙的开始时刻作为决策点；虚拟机配置数组的每一个行向量是一个调度决策，行为空间为

定义奖赏函数r：每次决策并执行之后，即时观察系统的性能，并进行奖赏；奖赏函数为：

式中，

是第v类虚拟机的统计平均任务完成时间，β是大于0的系数；

定义状态-行为价值函数V(s,a)：在状态s下选择行为a的价值是从当前状态当前行为之后所有状态和行为的奖赏函数的累积，为当前奖赏值与下一状态的价值函数之和的数学期望，即

ν(s,a)＝E[R_t+1+γV(S_t+1,A_t+1)|S_t＝s,A_t＝a] (22)

定义∈-贪婪行为策略:采用∈-贪婪行为策略来确定当前状态的行为，以

的概率选择价值函数最大值的行为，以

概率随机选择其它行为：

7.根据权利要求6所述的基于强化学习的虚拟机资源调度方法，其特征在于，所述步骤S106具体为，

初始状态：单步期望值ρ＝0＝0，状态空间S＝{0}

在每个决策点t，执行如下步骤：

(1)感知当前状态

(2)如果

则将s_t添加到S并令V(s,a)＝0；

(3)计算虚拟机配置数组

(4)基于∈-贪婪行为策略选择行为

则优化的虚拟机配置策略

也相应地确定；

(5)按

的决策进行虚拟机资源调度，并更新如下参数：

(6)根据公式(21)计算奖赏值r，更新V(s,a)：

式中，

是下一状态的最大价值函数；

(7)如果

则更新单步期望值ρ如下：