CN109491760B

CN109491760B - 一种高效能数据中心云服务器资源自主管理方法

Info

Publication number: CN109491760B
Application number: CN201811309819.0A
Authority: CN
Inventors: 史晓雨; 尚明生; 白亚男
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-10-19
Anticipated expiration: 2038-10-29
Also published as: CN109491760A

Abstract

本发明提供一种高效能数据中心服务器资源自主控制方法，属于计算机高性能计算领域。系统包括资源实时调度层、能耗控制层和虚拟机迁移层，其中资源实时调度层包括性能监控器、在线估计器A、资源控制器、资源分配器，能耗控制层包括性能监控器、在线估计器B、能耗控制器、频率调节器，虚拟机迁移层包括性能监控器、负载探测器、虚拟机迁移调度器。方法包括资源实时调度、能耗控制和虚拟机迁移三部分分别对应在秒级、分钟级、小时级层面上协同运作，进而使数据中心服务器达到性能和能耗的最优控制。该方法和系统能够实现数据中心服务器全周期的多层次云资源调度管理，大幅降低数据中心服务器能耗，确保云服务的质量。

Description

一种高效能数据中心云服务器资源自主管理方法

技术领域

本发明涉及一种高效能数据中心云服务器资源自主管理方法，属于计算机高性能计算领域。

背景技术

随着互联网经济的进一步繁荣，数据中心的规模以惊人的速度扩张，特别是云计算和大数据的提出，数据中心的规模得到了空前的发展，如何对数据中心的资源(特别是云服务器)进行高效管理是一个具有挑战性的问题。同时，数据中心在消耗大量能源的同时，也带来了不容忽视的碳排放量。因此，设计高效合理的云服务器资源控制方法和系统对整个数据中心的资源管理，以及降低数据中心的能耗、减少运营成本、减少能源消耗对环境的污染都具有十分重要的意义。

虚拟化技术(如VMware、Xen和Microsoft Virtual Servers)通过灵活的资源管理、在线迁移等技术，为高效地管理数据中心的云服务器资源和能耗提供了一条可行路径。这些虚拟化技术允许在一台物理云服务器上生成多台虚拟机(Virtual Machine，VM)，在每台VM上面可以运行不同的操作系统和应用，同时所有的VM共享底层的硬件资源，以达到提高云服务器资源利用率的目的，因此当前数据中心纷纷采用虚拟化技术来搭建数据中心云服务器。然而，虚拟化技术在给数据中心的管理带来好处的同时，也面临着诸多挑战。首先，由于硬件资源(如CPU、内存和I/O硬盘等)的有限性，使得共享资源的VM之间存在着性能干涉的问题。因此，数据中心服务提供商的首要任务是保证应用的服务级别协议SLAs(如响应时间、吞吐量等)。其次，随着能源成本的增长，如何在不降低服务性能的同时减少云计算云服务器的耗电量成为高性能计算研究的热点问题。最后，现代化数据中心规模和应用复杂度的不断增加给系统管理员提出了一个严峻的挑战，即如何在尽量减少人为对数据中心干涉的基础上，最大可能地实现数据中心的自主化管理。

随着云计算技术的飞速发展，相关研究人员已经提出了各种云服务器的性能管理方案，虽然这些方案能够在一定程度上优化云服务器性能以及降低集群能耗，但它们往往由单一控制组件或者调度算法构成，所设计的系统缺乏一站式的全生命周期管理。同时，已有的控制方案大部分为确定性控制依赖于在线估计器可以稳定地提供精准的模型参数给控制器这一假设。但是，该假设往往并不成立，因为由于数据中心云服务器系统的复杂性，通常采用线性化方法进行建模，在建模过程中真实数据中心云服务器中的非线性因素往往被忽略(如计算机系统资源的有限性，并受限于硬件自身的制造工艺；突发性Web负载可以造成系统输出端的未知波动；计算机内部处理过程的随机性等等)。因此，当突发性的Web负载引起系统输出端的严重扰动时，在线估计器的性能会变得不准确，导致控制器做出错误的控制选择)，在某些情况下，甚至导致应用的响应时间出现震荡现象。

发明内容

本发明针对现有技术中存在的上述问题，提供一种高效能数据中心云服务器资源自主管理方法，能够同时保证耗电量和性能最优化，并且可以按照不同要求在两者之间进行灵活权衡，针对网络负载的动态变动，采用全方位、一站式、全周期的多层次数据中心资源调度管理，能够大幅降低数据中心云服务器能耗，同时确保数据中心服务质量。

本发明提供一种高效能数据中心云服务器资源自主管理系统，其特征在于，该系统包括资源实时调度层、能耗控制层和虚拟机迁移层：

第一层为资源实时调度层，主要实现负载均衡控制算法对云服务器的秒级控制，该层结构包括性能监控器、在线估计器A、资源控制器、资源分配器；

第二层为能耗控制层，主要实现节能控制算法对云服务器的分钟级控制，该层结构包括性能监控器、在线估计器B、能耗控制器、频率调节器；

第三层为虚拟机迁移层，主要实现虚拟机在线迁移算法对云服务器的小时级控制，该层结构包括性能监控器、负载探测器、虚拟机迁移调度器。

所述性能监控器用于测量运行在每个虚拟机上的各个Web应用在上个周期内的响应时间信息，并周期性地将这些数据发送到在线估计器。

所述线估计器A用于接收性能监控器监测到的响应时间数据以及上个周期物理主机上CPU或者内存等的资源分配量信息，来构建资源分配量-响应时间模型，并采用最小二乘法对模型参数进行动态更新。

所述资源控制器为带约束条件的随机线性二次型(cSLQC)控制器。

所述资源分配器的工作原理类似于控制系统中的校正设备，按照资源控制器计算得到的资源分配方案，强制把对应大小的物理CPU或者内存等资源片分配给各个虚拟机，以使每个应用的响应时间接近于参考量。

所述在线估计器B同样接受来自于性能监控器监测得到的响应时间以及云服务器的物理CPU或者内存等频率大小，并构建频率-响应时间模型，然后采用最小二乘法来计算出模型参数。

所述能耗控制器为自适应线性二次型调节器(ALQR)。

所述频率调节器的工作原理类似于控制系统中的校正设备，采用动态电压调频技术(DVFS)，按照能耗控制器计算得到的资源分配方案，强制改变数据中心云服务器物理CPU或者内存等的频率大小，使所有应用的平均响应时间接近于参考量，并达到降低能耗的作用。

所述负载探测器定时采集得到集群中物理主机上虚拟机的资源请求量信息，并判别主机负载状态。

所述虚拟机迁移调度器主要完成数据中心云服务器集群中虚拟机的在线迁移任务。

本发明还提供一种高效能数据中心云服务器资源自主管理方法，其特征在于，该方法包括资源实时调度、能耗控制和虚拟机迁移三部分，分别对应在秒级、分钟级、小时级层面上协同运作；

进一步，所述资源实时调度通过自适应调整分配给不同虚拟机的资源量来维持各虚拟机之间的负载均衡，进而使所有虚拟机可以得到近似一致的响应时间，具体包括如下步骤：

(1)性能检测器自动采集得到运行于数据中心云服务器各个虚拟机上的Web应用的响应时间信息和上一时刻获得的资源分配量；

(2)线性控制器A对响应时间和资源分配量之间的复杂关系采用Levy模型与ARMAX模型相结合的方式进行建模，并对模型参数进行动态更新；

(3)资源控制器将云服务器资源的实时分配看作一种负载均衡问题，进而建模为鲁棒性动态优化控制问题，并采用带约束条件的随机线性二次型控制算法来设计资源控制器来计算最优的资源分配方案；

(4)将计算所得资源分配方案作用于系统自带的CPU资源分配器，通过改变每个虚拟机的资源分配量来保证在动态负载情况下运行在每个虚拟机上面Web应用的性能。

进一步，所述能耗控制通过动态改变物理CPU的频率来保持所有虚拟机的平均响应时间趋于理想水平，达到调整电压，实现能耗控制的目的，具体包括如下步骤：

(1)性能检测器自动采集得到每个虚拟机上的Web应用的响应时间和所对应云服务器的物理CPU频率信息；

(2)线性控制器B对响应时间和物理CPU或者内存等频率之间的非线性关系采用ARMAX模型进行建模，并对模型参数进行实时更新；

(3)能耗控制器采用自适应线性二次型调节器算法，对满足所有虚拟机性能要求的物理CPU频率大小进行计算，得到最优的CPU或者内存等频率值，通过频率调节器来改变数据中心云服务器的电压大小，而达到节能的效果。

进一步，所述虚拟机迁移从整个数据中心云服务器集群的角度，通过在线对虚拟机进行大规模迁移，来进一步大幅度降低系统能耗，提升Web应用性能，具体包括如下步骤：

(1)性能检测器利用性能监控器定时采集物理云服务器上虚拟机CPU资源利用信息，并计算云服务器CPU利用率；

(2)负载探测器利用主机负载探测算法判别主机负载状态(过载、正常、低负载)，然后将过载云服务器上虚拟机添加到迁移列表；

(3)对云服务器进行能耗建模并针对迁移问题设定必要的约束条件；

(4)采取增量式在线迁移算法，从过载主机上选择恰当的虚拟机进行迁移，根据物理云服务器的剩余资源量以及虚拟机上Web应用请求的资源量，确定目标主机；

(5)虚拟机迁移调度器执行迁移操作，将空闲主机切换至休眠模式，最大程度降低数据中心整体能耗同时保证Web应用性能。

所述采用Levy模型与ARMAX模型相结合的方式进行建模是将给定的Levy模型代替传统ARMAX模型中的Gaussian白噪声，达到提高模型精度和稳定性的目的。

本发明的有益效果在于：本发明通过利用实时资源管理、动态电压调频以及虚拟机在线迁移，在不同时间尺度上(秒级、分钟级、小时级)，针对用户的动态以及突发负载请求，实现了全周期的多层次数据中心资源调度管理，大幅降低数据中心云服务器能耗，确保了数据中心服务的质量。

附图说明

图1为一种高效能数据中心云服务器资源自主管理系统框架图；

图2为资源实时调度的执行流程示意图；

图3为能耗控制的执行流程示意图；

图4为虚拟机迁移的执行流程示意图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例1

本实施例提供一种高效能数据中心云服务器资源自主管理系统，以虚拟化技术Xen为例进行说明，该系统的结构示意图如图1所示，具体包括三层结构：

第一层为资源实时调度层，主要实现负载均衡控制算法对云服务器的秒级控制，该层结构包括性能监控器(101)、在线估计器A(102)、资源控制器(103)、资源分配器(104)；

第二层为能耗控制层，主要实现节能控制算法对云服务器的分钟级控制，该层结构包括性能监控器(101)、在线估计器B(105)、能耗控制器(106)、频率调节器(107)；

第三层为虚拟机迁移层，主要实现虚拟机在线迁移算法对云服务器的小时级控制，该层结构包括性能监控器(101)、负载探测器(108)、虚拟机迁移调度器(109)。

其中各模块的具体实施策略如下所示：

1.性能监控器(101)：为了减少网络延迟的影响，在这里主要监控云服务器端的响应时间。具体而言，在每个VM内部运行一个脚本程序作为响应时间监控器，它可以周期性地插入带有时间戳的请求到来自于客服端的请求队列当中。通过计算插入请求队列的时间和处理完请求的时间之间的差作为云服务器端的响应时间；

2.在线估计器(102)和(105)：在接受来自不同监控器传递来的响应时间后，分别在负载均衡层和能耗控制层运行所提出的系统辨识方法。其中，在资源实时调度层，在线估计器A(102)的输入为测量得到的各Web应用的响应时间和上一周期计算得到的资源分配量，输出端为更新后的负载均衡模型系统。在能耗控制层中在线估计器B(105)的输入为所有Web应用的平均响应时间和上一周期计算得到的CPU频率，输出为更新后的能耗控制模型参数。所有的系统辨识均可以用C语言编写完成，运行在脚本程序中；

3.控制器(103)和(106)：本实施例用到的所有控制器都是运行在云计算云服务器端的dom0中。在接受来自不同监控器传递来的响应时间后，分别运行所提出的负载均衡控制和能耗控制方法。其中，资源控制器(103)的输入为测量得到的各Web应用的响应时间，输出端为分配给每个VM的CPU资源量(即CPU时间片的大小)。能耗控制器(106)的输入为所有Web应用的平均响应时间，输出为需要调整的CPU频率大小。所有的控制算法均可以用C语言编写完成，运行在脚本程序中。

4.资源分配器(104)：Xen当中的Credit Schedule被用来分配可用的CPU资源。Credit Schedule通过分配参数weight和cap给VM，来实现对CPU资源的具体分配。参数cap可以限制VM允许使用的CPU资源上限，而参数weight用来设置分配给不同VM的CPU资源偏好。例如，一个weight值为512的VM得到的CPU资源数是weight值为256的VM的两倍。在这里，使用参数weight来控制CPU资源量分配，而把参数cap设置为0，即每个VM实例都可以利用物理云服务器的全部4个CPU。在每个周期，负载均衡控制器计算出分配给每个VM的weight值，然后经过取整操作，传递给Xen hypervisor实现对VM的CPU资源分配；

5.频率调节器(107)：采用Intel的SpeedStep技术来实现对CPU频率调节。DVFS技术已经内置在Xen 3.4及以上版本当中，因此，可以使用xenpm工具来修改CPU的频率，同时可以选择不同的scaling governor。Xen 3.4中总共有四种sacling governor可以选择：ondemand governor，powersave governor，performance governor和userspacegovernor。具体而言，ondemand governor可以在CPU的负载达到95％以上时，动态地调节CPU的频率，但其工作效率低；performance governor可以将CPU运行在最大频率上，以确保性能最佳；相反，powersave governor则是把CPU运行在最低频率，来保证节能；userpacegovernor允许用户根据需要自行调节CPU频率。在本章节实验当中选择userspacegovernor作为CPU频率调节器；

6.负载探测器(108)：定时采集得到集群中物理主机上虚拟机的资源请求量信息，利用主机负载探测算法判别主机负载状态(过载、正常、低负载)，然后将过载云服务器上虚拟机添加到迁移列表。所有的控制算法均可以用C语言编写完成，运行在脚本程序中。

7.虚拟机迁移调度器(109)：主要完成数据中心云服务器集群中间虚拟机的在线迁移任务。

实施例2

本实施例针对一个部署n个虚拟机的数据中心云服务器，还提供一种高效能数据中心云服务器资源自主管理方法，该方法包括资源实时调度、能耗控制和虚拟机迁移三部分协同运作，设T₁为资源实时调度周期(秒级)，T₂为能耗控制周期(分钟级)，T₃为虚拟机迁移周期(小时级)，且T₃＞＞T₂＞T₁。

S1.资源实时调度每秒钟进行一次控制，在每个控制周期内的具体执行步骤如图2所示，具体为：

S101：通过部署在每个云服务器VM上的性能监控器，采集得到每个VM_i在上一个控制周期[(k-1)T₁，kT₁]内的平均响应时间信息rt_i以及上一时刻获得的资源分配量u(k-1)；

S102：计算得到每个VM_i的相对响应时间r_i(k)以及所有VM的平均响应时间

计算公式如下所示：

S103.对于大部分的计算系统而言，由于内部的复杂性和非线性，往往得不到建立好的物理模型，因此，本实施例将数据中心云服务器看作一个黑盒问题来看待，采用系统辨识的方法进行建模。并且，由于任何一个VM资源分配量的变化都会影响其他VM的性能，所以系统被看作是耦合的多输入多输出系统。最后，鉴于用户访问负载变化的动态性和不可预知性，我们将系统描述为随机时变系统，形式化为ARMAX模型(Autoregressive moving-average model with exogenous inputs)。ARMAX模型最大的优点在于它带有额外的输入项，可以用来表示系统的内部扰动，给系统建模增添了灵活性，但是Web系统所面临动态变化的网络负载有时会经历不连续的跳变现象，故而不能采用Gaussian白噪声扰动。具体而言，采用虚拟技术Xen中credit scheduler中的weight作为系统的输入u(k)，表示为u(k)＝[u₁(k)，u₂(k)，...，u_n(k)]，系统输入为每个VM的平均响应时间r(k)＝[r₁(k)，r₂(k)，...，r_n(k)]。同时为了避免直接使用u(k)和r(k)建模带来的复杂性，采用其差分形式来进行建模，即Δr_i(k)＝r_i(k)-r_i(k-1)，Δu_i(k)＝u_i(k)-u_i(k-1)。最终，系统可以表示为：

Δr(k+1)＝A(k)Δr(k)+B(k)Δu(k)+C(k)η(k) (3)

其中，η(k)代表系统干扰项，为Levy模型；

其中，α，β∈R，R∈[0，∞)，N(t，dz)为Poisson随机测度，

为η(t)的补偿Poisson随机测度，D(t)为

独立的布朗运动，或者可以认为，

模拟的是在当前时刻[t-1，t]之间发生的跳变次数。

S104.考虑到用户负载请求的时变性，所以对模型进行动态更新显得尤为重要。采用带有采样窗口的递归最小二乘法来对模型参数A(k)，B(k)，C(k)进行更新。具体操作为，采用离当前时刻最近的长度为W_c的观察数据来进行参数训练，而非对全部历史数据进行训练，将计算好的模型参数用于更新系统模型(3)。

S105.为了降低突发负载对于系统输出端引起未知扰动的影响，S103中采用了Levy模型与ARMAX模型相结合的方式。为进一步保持控制器性能稳定，本实施例采用集成一个比例控制器到控制框架的方法来解决在线估计器性能下降问题。控制器选择触发条件：若在k时刻，在线估计器的拟合百分比大于预设值的阈值，则选择使用资源控制器；否则，选择比例控制器。其中，比例控制器设计为Δu(k+1)＝K_pΔr(k)+Δu(k)，向量K_p是比例控制系数，可从实验数据的统计中得到；采用cSLQC控制器按在当前时刻Δr(0)有限水平成本函数

来设计资源管理器，Q₁和R₁为半正定加权矩阵，它们的大小决定了求解过程中控制误差和控制成本所占的比重；

S106.计算资源分配方案，选择标准为在系统能够容忍的最大未知干扰下，优化成本函数。具体表述为：

当求解出控制方案Δu^*后，将前n项作为下次控制的输入。

S107.将得到的最优资源分配方案分配给每个虚拟机，以保证每个虚拟机的性能，并把求解出的最优分配方案发送到S104，用于下一周期的模型更新。

S2.能耗控制每分钟进行一次控制，在每个控制周期的具体执行步骤如图3所示，具体为：

S201.采集得到每个虚拟机在控制周期内的[(k-1)T₂，kT₂]内的响应时间信息以及物理云服务器CPU频率信息；

S202.由于计算机内部结构的复杂性，使得响应时间和物理CPU频率之间的关系是非线性的，同样采取系统辨识的方法来建立所有VM平均响应时间-CPU物理频率模型。其中，用f(k)来表示物理云服务器在控制周期[(k-1)T₂，kT₂]的相对CPU频率，比如f(k)＝1表示CPU当前工作在最高频率级别上。频率的改变量可以表示为Δf(k)＝f(k)-f，其中，f是CPU可用频率集合中的一个典型值。响应时间误差可以表示为

同样，

是

的典型值，这里的响应时间为部署在该物理服务器上的所有虚拟机的平均响应时间或其他形式的响应时间指标。根据系统辨识方法，使用ARMAX模型所建立的模型表示为

Δr(k+1)＝a(k)Δr(k)+b(k)Δf(k)+c(k)n(k) (5)

其中，n(k)为高斯白噪声，参数a(k)、b(k)分别表示Δr(k)、Δf(k)、n(k)与Δr(k+1)之间的相关性；

S203.为了适应网络动态负载情况，在能耗控制当中同样采用最小二乘迭代算法，根据实时采集到的响应时间信息和物理CPU的频率信息对模型(3)的参数进行实时更新；

S204.采用LQR控制器来设计能耗控制器，其最优控制增益可以通过最小化以下成本函数集合得到：

其中，Q₁和R₁为半正定加权矩阵，它们的大小决定了求解过程中控制误差和控制成本所占的比重；公式的第一项代表输出端能量，第二项代表控制信号的能量。

S205.通过云服务器自带的动态电压频率调节技术，将公式(6)计算得到的最佳CPU物理频率调整量作用于物理云服务器，以达到降低能耗的作用。

S3.虚拟机迁移每小时进行一次控制，在每个控制周期的具体执行步骤如图4所示，具体为：

S301：建立物理云服务器集群负载变化数据库，并配置物理节点的选择策略，选择策略以配置文件的形式保存；

S302：在控制周期[(k-1)T₃，kT₃]内，定时采集得到集群中物理主机上虚拟机的资源请求量信息，同时判断物理云服务器负载状态(低负载CPU利用率阈值设为20％、过载阈值设为80％)，将各物理云服务器历史负载数据存入负载变化数据库；

S303：利用一个简单的一阶马尔科夫预测模型来对物理云服务器未来状态(过载O、普通N、低负载U)进行预测，通过发现未来的过载/低负载主机来避免immediate VMsmigration。提取S302负载变化数据库中物理云服务器的历史负载状态，并根据当前主机负载状态，生成如下状态转移概率矩阵：

其中，P_UU代表在历史数据中k时刻低负载状态转移到k+1时刻低负载状态的概率，其他符号同理。

S304：根据当前主机状态以及S303中生成的状态转移概率矩阵，判断主机未来负载状态，若过载，则选择该主机加入迁移列表；

S305：对虚拟机迁移问题进行必要约束：(1)系统中每一台VM在一个时间段内只能分配给一台云服务器；(2)在迁移过程中，目标主机的CPU与内存资源需满足该VM的需求；(3)云服务器集群的总耗电量必须小于所设定阈值。

S306：采取增量式在线迁移算法，从过载主机上选择恰当的虚拟机进行迁移，根据物理云服务器的剩余资源量以及虚拟机上Web应用请求的资源量，确定目标主机；

S307：虚拟机迁移调度器执行迁移操作，迁移完毕后，对于空闲主机系统将其切换为低能耗模式或直接关闭，以此进一步降低云服务器集群能耗。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本实用新型的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种高效能数据中心云服务器资源自主管理方法，其特征在于，该方法包括资源实时调度、能耗控制和虚拟机迁移三部分，分别对应在秒级、分钟级、小时级层面上协同运作；

所述资源实时调度通过自适应调整分配给不同虚拟机的资源量来维持各虚拟机之间的负载均衡，进而使所有虚拟机可以得到近似一致的响应时间，具体包括如下步骤：

(4)将计算所得资源分配方案作用于系统自带的资源分配器，通过改变每个虚拟机的资源分配量来保证在动态负载情况下运行在每个虚拟机上面Web应用的性能；

所述能耗控制通过动态改变物理CPU或者内存等的频率来保持所有虚拟机的平均响应时间趋于理想水平，达到调整电压，实现能耗控制的目的，具体包括如下步骤：

(3)能耗控制器采用自适应线性二次型调节器算法，对满足所有虚拟机性能要求的物理CPU频率大小进行计算，得到最优的CPU或者内存等频率值，通过频率调节器来改变数据中心云服务器的电压大小，而达到节能的效果；

所述虚拟机迁移从整个数据中心云服务器集群的角度，通过在线对虚拟机进行大规模迁移，来进一步大幅度降低系统能耗，提升Web应用性能，具体包括如下步骤：

(1)性能检测器利用性能监控器定时采集物理云服务器上虚拟机CPU或者内存等的资源利用信息，并计算云服务器CPU或者内存等的利用率；

(5)虚拟机迁移调度器执行迁移操作，将空闲主机切换至休眠模式，最大程度降低数据中心整体能耗同时保证Web应用性能；