CN110196772B

CN110196772B - 一种云数据中心环境下考虑容错机制的虚拟机调度方法

Info

Publication number: CN110196772B
Application number: CN201910325217.2A
Authority: CN
Inventors: 程鹏悦; 许贺洋; 刘扬; 魏蔚; 阎子悦; 高奎; 韩婷婷
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2023-05-23
Anticipated expiration: 2039-04-22
Also published as: CN110196772A

Abstract

本发明公开了一种云数据中心环境下考虑容错机制的虚拟机调度方法，云用户提交的虚拟机服务请求被成功执行以后，云服务供应商会向用户收取一定的服务费用，云数据中心的虚拟机调度问题是指如何把用户提交中的n个虚拟机服务请求分配到云数据中心合适的物理机上执行，使得在考虑容错技术的情况下，最小化所有用户执行成本之和的期望值。

Description

一种云数据中心环境下考虑容错机制的虚拟机调度方法

技术领域

本发明涉及分布式计算的资源调度技术领域，更具体的说是涉及一种云数据中心环境下考虑容错机制的虚拟机调度方法。

背景技术

目前，虚拟机调度是指把用户提交的虚拟机请求分配到云数据中心合适的物理机上执行，以优化某些性能指标。由于软、硬件或其它原因，云数据中心的物理机在执行虚拟机任务的时候可能会发出故障。为提高服务可靠性，云服务供应商往往会在数据中心当中采用故障恢复等容错技术，而故障恢复需要一定的时间，因此会对所运行的虚拟机性能产生影响，从而影响虚拟机调度的运行结果。现有云数据中心的虚拟机调度技术大多没有考虑物理机故障及故障恢复对虚拟机调度的影响，因此所提出的虚拟机调度方法往往不能满足云数据中心的实际情况。

因此，如何降低物理机故障及故障恢复对虚拟机调度的影响，令虚拟机调度方法满足云数据中心的实际情况是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种云数据中心环境下考虑容错机制的虚拟机调度方法，云用户提交的虚拟机服务请求被成功执行以后，云服务供应商会向用户收取一定的服务费用，云数据中心的虚拟机调度问题是指如何把用户提交中的n个虚拟机服务请求分配到云数据中心合适的物理机上执行，使得在考虑容错技术的情况下，最小化所有用户执行成本之和的期望值。

为了实现上述目的，本发明采用如下技术方案：

一种云数据中心环境下考虑容错机制的虚拟机调度方法，包括：在云数据中心环境下结合容错机制的虚拟机调度对云用户总执行成本的期望值进行优化，具体步骤包括：

步骤1：利用基于改进的最佳适应下降虚拟机调度算法进行虚拟机调度；

步骤2：根据虚拟机调度结果计算云用户总执行成本的期望值。

优选的，所述步骤1中进行所述虚拟机调度时，所述物理机要满足约束条件才能执行对应的虚拟机服务请求，所述虚拟机服务请求对物理机的约束条件为：

1)对

和/>

x_ij∈{0,1}；

2)对

3)对

且/>

4)对

若x_ij＝1，则所述物理机PS_j必须满足下述公式(1)和(2)；

/>

其中，i为所述虚拟机服务请求个数，j为所述物理机个数，x_ij为调度结果；Core_j为所述物理机的CPU内核数，Mem_j为所述物理机的内存大小；K_i(K_i≥1)为所述虚拟机服务请求需要执行的任务个数，mem_i为所述虚拟机服务请求需求的内存大小，b_i为所述虚拟机服务请求的执行预算，d_i为对所述虚拟机服务请求要求的截止时间；AT_ikj为所述虚拟机服务请求在所述物理机上的实际执行时间。

优选的，云数据中心有m个物理机PS_j(1≤j≤m)，云数据中心在[0，T)内接收到n个虚拟机服务请求，组成虚拟机服务请求集合V＝{V₁，V₂,...,V_n}，步骤1中所述基于改进的最佳适应下降虚拟机调度算法的具体过程为：

步骤11：输入所述虚拟机服务请求集合V＝{V₁，V₂,...,V_n}和所述物理机集合PS＝{PS₁，PS₂，...，PS_m}；初始化所有待调度虚拟机，将所有所述待调度虚拟机的状态设置为“未调度”，调度结果矩阵X＝(x_ij)_n×m的所有元素的值设置为0；

步骤12：将所述物理机按成本效率因子的值由高到低的顺序排序，假设排序后的物理机顺序为：PS₁′，PS₂′，...，PS_m′；

步骤13：依次调度所述虚拟机服务请求V_i(1≤i≤n)，输出所述调度结果矩阵X＝(x_ij)_n×m。

优选的，步骤13中依次调度所述虚拟机服务请求V_i的具体实现过程为：

步骤131：令i＝1，从所述虚拟机服务请求V₁开始调度；

步骤132：依次判断所述物理机PS_j′(1≤j≤m)能否满足所述虚拟机服务请求V_i的资源需求和QoS约束；如果所述物理机PS_j′满足所述虚拟机服务请求V_i的资源需求和QoS约束，则进入步骤步骤133；否则，进入步骤134；

步骤133：所述虚拟机服务请求V_i分配到所述物理机PS_j′上执行；改变所述物理机PS_j′的可用CPU核数和内存大小，设置所述虚拟机服务请求V_i的状态为“已调度”，并令x_ij＝1；进入步骤135；

步骤134：设置所述虚拟机请求的状态为“调度失败”；

步骤135：令i＝i+1，判断i是否大于n：如果是，则算法终止；否则，返回步骤132，继续调度下一个所述虚拟机服务请求V_i。

优选的，所述步骤12中所述物理机的成本效率为

其中，p_j为所述物理机的CPU内核单价，λ_j为故障率，μ_j为恢复率。

优选的，所述云数据中心有m个物理机PS_j(1≤j≤m)，所述物理机PS_j的故障率为λ_j，故障修复率为μ_j，所述云数据中心在[0，T)内接收到n个虚拟机服务请求，组成所述虚拟机服务请求集合V＝{V₁，V₂,...,V_n}；根据公式(3)-(10)计算获得所述云用户总执行成本的期望值：

τ_ikj＝l_ik/S_j (3)

/>

AT_ikj＝τ_ikj+RT_j(τ_ikj) (7)

其中，V_i为第i个所述虚拟机服务请求，1≤i≤n；τ_ikj为所述V_i在第k个物理机PS_k上执行的执行时间；N_j(τ_ikj)为所述物理机PS_j在

内发生故障的次数；/>

为第

故障的期望值；/>

为所述物理机PS_j在第N(N＝1,2,…,N_j(τ_ikj))次所述故障的恢复时间；RT_j(τ_ikj)为所述物理机PS_j在/>

内发生所有所述故障的总恢复时间；

为所述总恢复时间的期望；AT_ikj为所述虚拟机服务请求V_i在所述物理机PS_j上的实际执行时间；/>

为所述实际执行时间期望；C为总执行成本；E[C]为所述总执行成本的期望。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种云数据中心环境下考虑容错机制的虚拟机调度方法，云用户提交的虚拟机服务请求被成功执行以后，需要支付一定的服务费用即总执行成本，云用户的总执行成本是所有用户提交的n个虚拟机执行请求被成功执行后，云服务供应上向用户收取的费用之和，本发明进一步考虑了物理机故障及故障恢复对虚拟机调度的影响，在考虑容错机制下，优化云用户总执行成本的期望值，使得云用户的总执行成本最小化，其中本发明采用一种基于改进的最佳适应下降虚拟机调度算法进行虚拟机调度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于改进的最佳适应下降虚拟机调度算法流程示意图；

图2附图为本发明提供的虚拟机服务请求调度流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种云数据中心环境下考虑容错机制的虚拟机调度方法，包括：在云数据中心环境下结合容错机制的虚拟机调度对云用户总执行成本的期望值进行优化，具体过程包括：

S1：利用基于改进的最佳适应下降虚拟机调度算法进行虚拟机调度；

S2：根据虚拟机调度结果计算云用户总执行成本的期望值。

为了进一步优化上述技术方案，虚拟机服务请求对物理机的约束条件为：

1)对

和/>

x_ij∈{0,1}；

2)对

3)对

且/>

4)对

若x_ij＝1，则物理机PS_j必须满足公式(1)和(2)；

其中，i为虚拟机服务请求个数，j为物理机个数，x_ij为调度结果；Core_j为物理机的CPU内核数，Mem_j为物理机的内存大小；K_i(K_i≥1)为虚拟机服务请求需要执行的任务个数，mem_i为虚拟机服务请求需求的内存大小，b_i为虚拟机服务请求的执行预算，d_i为对虚拟机服务请求要求的截止时间；AT_ikj为虚拟机服务请求在所述物理机上的实际执行时间。

约束条件1)规定了决策变量x_ij的取值范围，即：若服务请求V_i被分配给物理服务器PS_j上，则x_ij＝1；否则x_ij＝0。；

约束条件2)限制了每一个虚拟机服务请求都是不可再分的，只能被分配到某一个物理机上执行；

约束条件3)表示部署到某物理机上的所有虚拟机对某种资源(CPU核或内存)的需求之和不能大于物理机能提供的该种资源的能力，是物理机资源(CPU核和内存)能力限制，即分配到物理机PS_j上所有虚拟机对CPU核、内存的需求之和不能超过该物理机所能提供的CPU核的个数和内存容量；

约束条件4)确保如果将服务请求V_i分配给物理服务器PS_j，则物理服务器PS_j必须满足服务请求V_i的截止时间和预算要求，即如果虚拟机请求V_i被分配到物理机PS_j上执行，则PS_j必须能够在V_i的截止时间之前完成该请求的所有任务，且收取的服务费用小于或等于该虚拟机服务请求的预算。

为了进一步优化上述技术方案，云数据中心有m个物理机PS_j(1≤j≤m)，云数据中心在[0，T)内接收到n个虚拟机服务请求，组成虚拟机服务请求集合V＝{V₁，V₂,...,V_n}，采用基于改进的最佳适应下降虚拟机调度算法进行虚拟机调度的具体过程为：

S11：输入虚拟机服务请求集合V＝{V₁，V₂,...,V_n}和物理机集合PS＝{PS₁，PS₂，...，PS_m}；初始化所有待调度虚拟机，将所有待调度虚拟机的状态设置为“未调度”，将调度结果矩阵X＝(x_ij)_n×m的所有元素的值设置为0；

S12：将物理机按成本效率因子的值由高到低的顺序排序，假设排序后的物理机顺序为：PS₁′，PS₂′，...，PS_m′；

S13：依次调度虚拟机服务请求V_i(1≤i≤n)，输出调度结果矩阵X＝(x_ij)_n×m。

为了进一步优化上述技术方案，S13中依次调度虚拟机服务请求V_i的具体实现过程为：

S131：令i＝1，从虚拟机服务请求V₁开始调度；

S132：依次判断物理机PS_j′(1≤j≤m)能否满足虚拟机服务请求V_i的资源需求和QoS约束，其中资源需求约束是指物理机PS_j的可用CPU核数和内存大小，QoS约束是指服务请求V_i的截止时间和预算约束；如果物理机PS_j′满足虚拟机服务请求V_i的资源需求和QoS约束，则进入S133；否则，进入S134；

S133：虚拟机服务请求V_i分配到物理机PS_j′上执行；改变物理机PS_j′的可用CPU核数和内存大小，设置虚拟机服务请求V_i的状态为“已调度”，并令x_ij＝1；进入S135；

S134：设置虚拟机请求的状态为“调度失败”；

S135：令i＝i+1，判断i是否大于n：如果是，则算法终止；否则，返回S132，继续调度下一个虚拟机服务请求V_i。

为了进一步优化上述技术方案，S22中物理机的成本效率为

其中，p_j为物理机的CPU内核单价，λ_j为故障率，μ_j为恢复率。

为了进一步优化上述技术方案，在考虑容错机制的情况下，根据公式(1)-(8)计算获得云用户总执行成本的期望值：

τ_ikj＝l_ik/S_j (3)

AT_ikj＝τ_ikj+RT_j(τ_ikj) (7)

其中，V_i为第i个虚拟机服务请求，1≤i≤n；τ_ikj为V_i在第k个物理机PS_k上执行的执行时间；N_j(τ_ikj)为物理机PSj在

内发生故障的次数；/>

为N_j(τ_ikj)故障的期望值；/>

为物理机PS_j在第N(N＝1,2,…,N_j(τ_ikj))次故障的恢复时间；RT_j(τ_ikj)为物理机PS_j在/>

内发生所有故障的总恢复时间；/>

为总恢复时间的期望；AT_ikj为虚拟机服务请求V_i在物理机PS_j上的实际执行时间；/>

为实际执行时间期望；C为总执行成本；E[C]为总执行成本的期望。

实施例

设云数据中心共有m个异构的物理机，用PS_j(1≤j≤m)表示第j个物理机。每一个物理机PS_j可用一个四元组PS_j＝(Core_j,Mem_j,s_j,p_j)来描述，其中Core_j、Mem_j、s_j、p_j分别表示物理机PS_j的CPU内核数、内存大小、处理速度和使用CPU内核的单价。CPU处理速度是通过每秒执行的百万指令数(MIPS)进行度量。假设物理机PS_j上发生故障的时间间隔相互独立，且都服从参数为λ_j的负指数分布F(t)＝1-e^-λjt(t≥0)。若故障都是可修复的，则一旦物理机发生故障，将启动修复过程。假设物理机PS_j上发生故障的修复时间相互独立、且都服从相同参数μ_j的负指数分布F(t)＝1-e^-μjt(t≥0)，而且物理机PS_j上的故障发生的时间和故障恢复时间都是相互独立的，则物理机PS_j的故障率为λ_j，故障修复率为μ_j。

用V＝{V₁，V₂,...,V_n}表示用户在[0,T)内提交的n个虚拟机服务请求，T为虚拟机的调度周期。第i(1≤i≤n)个虚拟机请求V_i可用一个六元组

表示，其中K_i(K_i≥1)是虚拟机请求V_i需要执行的任务个数；L_i＝{l_ik|1≤k≤K_i}是虚拟机请求V_i的K_i个任务的工作负载集，l_ik是虚拟机请求V_i的第k个任务的工作负载量，单位为百万指令数(MI)；mem_i表示虚拟机请求V_i需求的内存大小；t_i(0≤t_i＜T)是虚拟机请求V_i到达云数据中心的时间；b_i是虚拟机请求V_i的执行预算；d_i是用户对虚拟机请求V_i要求的截止时间。

云数据中心的虚拟机调度问题是指如何把用户提交中的n个虚拟机请求分配到云数据中心合适的物理机上执行，使得在考虑容错技术的情况下，最小化所有用户执行成本之和(即总执行成本)的期望值。

基于改进的最佳适应下降虚拟机调度算法(MBFD)的核心思想是：把每一个待调度的虚拟机服务请求分配到能够满足约束条件1)-4)，且成本效率最高的物理机上。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种云数据中心环境下考虑容错机制的虚拟机调度方法，其特征在于，包括：在云数据中心环境下结合容错机制的虚拟机调度对云用户总执行成本的期望值进行优化，具体步骤包括：

步骤1：利用最佳适应下降虚拟机调度算法进行虚拟机调度；

云数据中心有m个物理机PS_j(1≤j≤m)，云数据中心在[0，T)内接收到n个虚拟机服务请求，组成虚拟机服务请求集合V＝{V₁，V₂,...,V_n}，步骤1中基于改进的最佳适应下降虚拟机调度算法的具体过程为：

步骤11：输入所述虚拟机服务请求集合V＝{V₁，V₂,...,V_n}和物理机集合PS＝{PS₁，PS₂，...，PS_m}；初始化所有待调度虚拟机，将所有所述待调度虚拟机的状态设置为未调度，调度结果矩阵X＝(x_ij)_n×m的所有元素的值设置为0；

所述物理机的成本效率为

其中，p_j为所述物理机的CPU内核单价，λ_j为故障率，μ_j为恢复率；

步骤13：依次调度虚拟机服务请求V_i(1≤i≤n)，输出所述调度结果矩阵X＝(x_ij)_n×m；

依次调度所述虚拟机服务请求V_i的具体实现过程为：

步骤131：令i＝1，从虚拟机服务请求V₁开始调度；

步骤132：依次判断物理机PS_j′(1≤j≤m)能否满足所述虚拟机服务请求V_i的资源需求和QoS约束；如果所述物理机PS_j′满足所述虚拟机服务请求V_i的资源需求和QoS约束，则进入步骤步骤133；否则，进入步骤134；

步骤133：所述虚拟机服务请求V_i分配到所述物理机PS_j′上执行；改变所述物理机PS_j′的可用CPU核数和内存大小，设置所述虚拟机服务请求V_i的状态为已调度，并令x_ij＝1；进入步骤135；

步骤134：设置所述待调度虚拟机的状态为调度失败；

步骤135：令i＝i+1，判断i是否大于n：如果是，则算法终止；否则，返回步骤132，继续调度下一个所述虚拟机服务请求V_i；

步骤2：根据虚拟机调度结果计算云用户总执行成本的期望值；根据公式(3)-(10)计算获得所述云用户总执行成本的期望值：

τ_ikj＝l_ik/S_j (3)

AT_ikj＝τ_ikj+RT_j(τ_ikj) (7)

/>

内发生故障的次数；/>

为第N_j(τ_ikj)故障的期望值；/>

内发生所有所述故障的总恢复时间；/>

为所述总恢复时间的期望；AT_ikj为所述虚拟机服务请求V_i在所述物理机PS_j上的实际执行时间；

2.根据权利要求1所述的一种云数据中心环境下考虑容错机制的虚拟机调度方法，其特征在于，所述步骤1中进行所述虚拟机调度时，物理机要满足约束条件才能执行对应的虚拟机服务请求，所述虚拟机服务请求对所述物理机的约束条件为：

1)对

和/>

x_ij∈{0,1}；

2)对

3)对

且/>

4)对

若x_ij＝1，则所述物理机PS_j必须满足下述公式(1)和(2)；

其中，i为所述虚拟机服务请求个数，j为所述物理机个数，x_ij为调度结果；

Core_j为所述物理机的CPU内核数，Mem_j为所述物理机的内存大小；K_i(K_i≥1)为所述虚拟机服务请求需要执行的任务个数，mem_i为所述虚拟机服务请求需求的内存大小，b_i为所述虚拟机服务请求的执行预算，d_i为对所述虚拟机服务请求要求的截止时间；AT_ikj为所述虚拟机服务请求在所述物理机上的实际执行时间。