CN112395046A - 基于温度预测的虚拟机迁移规划调度方法及其系统与介质 - Google Patents

基于温度预测的虚拟机迁移规划调度方法及其系统与介质 Download PDF

Info

Publication number
CN112395046A
CN112395046A CN202011296139.7A CN202011296139A CN112395046A CN 112395046 A CN112395046 A CN 112395046A CN 202011296139 A CN202011296139 A CN 202011296139A CN 112395046 A CN112395046 A CN 112395046A
Authority
CN
China
Prior art keywords
cloud server
virtual machine
temperature
module
migrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011296139.7A
Other languages
English (en)
Other versions
CN112395046B (zh
Inventor
李继文
臧云峰
安柯
徐蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yovole Computer Network Co ltd
Shanghai Youfu Zhishu Yunchuang Digital Technology Co ltd
Original Assignee
Shanghai Yovole Computer Network Co ltd
Shanghai Youfu Zhishu Yunchuang Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yovole Computer Network Co ltd, Shanghai Youfu Zhishu Yunchuang Digital Technology Co ltd filed Critical Shanghai Yovole Computer Network Co ltd
Priority to CN202011296139.7A priority Critical patent/CN112395046B/zh
Publication of CN112395046A publication Critical patent/CN112395046A/zh
Application granted granted Critical
Publication of CN112395046B publication Critical patent/CN112395046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于温度预测的虚拟机迁移规划调度方法及其系统与介质,其以云服务器历史数据训练得到云服务器温度初始预测模型,并在调度过程中实时获取新增训练数据,实时更新温度预测模型,实时预测云服务器温度;根据当前实时预测的云服务器温度、云服务器负载确定需迁出虚拟机的云服务器;综合考虑虚拟机的客户属性及虚拟机迁移工作量代价确定需迁移虚拟机;将虚拟机迁移到预测温度最低的满足负荷要求的运行状态云服务器,最小化运行状态云服务器温度及运行状态云服务器数量,从而达成云数据中心节能的效果。

Description

基于温度预测的虚拟机迁移规划调度方法及其系统与介质
本申请是以下原申请的分案申请:
原申请的申请日:2020年07月30日
原申请的申请号:202010748491.3
原申请的发明创造名称:基于温度预测的虚拟机迁移规划调度方法及其系统与介
技术领域
本发明涉及基础架构即服务(IaaS)云数据中心节能领域,具体地,涉及基于温度预测的虚拟机迁移规划调度方法及其系统与介质。尤其是同时考虑到最小化运行状态云服务器温度与数量的节能技术方案。
背景技术
随着信息产业及社会经济的不断发展,IaaS云计算作为一种新兴的资源使用和交付服务模式规模呈快速增长的趋势。作为IaaS云计算服务的承载体,IaaS云数据中心的能耗已成为影响IaaS云计算服务成本的瓶颈。
在传统的分布式计算系统中,计算任务的计算量和/或计算时长往往预先已知,计算系统可根据多个计算任务的计算量预先规划计算任务在服务器的分配以达到服务器总能耗最低的节能目标;但是对于IaaS云数据中心而言,用户的计算任务是未知的,因此仅能通过监控IaaS云数据中心云服务器的实际使用情况实时规划虚拟机的迁移路径以实现IaaS云数据中心节能。
但是,现有技术中的虚拟机迁移调度方案通常依据当前云服务器的负载信息实施调度规划,而非考虑云服务器的热负载(即温度),无法将虚拟机迁移调度策略与数据中心节能目标直接挂钩。或者是,现有技术在实施虚拟机迁移调度时,仅依赖于对云服务器当前温度的感知,而非利用对云服务器未来温度的预测实施规划,往往导致调度迟滞于负荷变化,无法做到及时有效转移云服务器负荷。
因此,需要设计一种全新的虚拟机迁移调度规划方法,以对云服务器未来温度的预测作为依据,将虚拟机迁移到预测温度低的云服务器,最小化处于工作状态云服务器温度及数量,从而降低laaS云数据中心云服务器总能耗,最终达到IaaS云数据中心节能的目的。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于温度预测的虚拟机迁移规划调度方法及其系统与介质。
根据本发明提供的一种基于温度预测的虚拟机迁移规划调度方法,包括:
步骤S1:获取云数据中心云服务器列表,获取基于贝叶斯线性回归的温度预测模型对所述云数据中心云服务器列表中的每个云服务器温度的预测值,得到云服务器的预测温度;
步骤S2:将运行状态云服务器列表中负荷监控指标满足低负荷条件的运行状态云服务器,定义为低负荷云服务器,构建低负荷云服务器列表;
步骤S3:遍历所述低负荷云服务器列表,获取每台低负荷云服务器中的虚拟机,并列入待迁移虚拟机列表;
步骤S4:根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;其中,所述宿主云服务器包括正常运行状态云服务器、休眠状态云服务器列表中的云服务器;目标宿主云服务器的选择顺序为优先选择正常运行状态云服务器,无符合匹配条件正常运行状态云服务器时,选择休眠状态云服务器;正常运行状态云服务器定义为运行状态云服务器列表中未列入低负荷云服务器列表且未列入告警云服务器列表的云服务器;
步骤S5:将虚拟机已经全部迁移出的低负荷云服务器设置为休眠状态,列出运行状态云服务器列表,并列入休眠状态云服务器列表;
步骤S6:将所述运行状态云服务器列表中监控指标满足告警条件的运行状态云服务器,定义为告警云服务器,将全部告警云服务器列入告警云服务器列表;
步骤S7:遍历所述告警云服务器列表,得到每台告警云服务器中的最高迁移优先级的虚拟机,并列入待迁移虚拟机列表;
步骤S8:根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;
步骤S9:将虚拟机已经全部迁移出的告警云服务器设置为休眠状态,列出运行状态云服务器列表,并列入休眠状态云服务器列表;
步骤S10:判断流程是否结束;若是,则结束流程;若否,则跳转到所述步骤S1继续执行。
优选地,所述步骤S1中的所述温度预测模型,是通过如下步骤得到的:
步骤S101:利用历史上采样数据构建初始训练数据集,对贝叶斯线性回归模型进行初始训练,得到初始的温度预测模型;
步骤S102:在云数据中心日常运行过程中,实时采集新增训练数据集,以增量的方式对当前的云服务器温度预测模型进行在线的增量训练,更新温度预测模型并使用温度预测模型对云服务器未来温度实施预测,获得云服务器未来温度预测值;
其中:
所述步骤S101包括如下步骤:
步骤S10101:定义每两个相邻采样时刻间的时段为一个采样周期,在每一个采样周期上定义一个预测周期,预测周期的长度为温度预测模型的预测深度,预测周期初始时刻为同一采样周期初始时刻;其中,将预测周期初始时刻时云服务器的指标数据作为模型输入数据指标,将同一预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标,来构建初始训练数据集;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
步骤S10102:对初始训练数据集进行预处理;
步骤S10103:利用预处理后的初始训练数据集,对贝叶斯线性回归模型进行训练,获取初始的贝叶斯线性回归模型的参数后验分布函数;
步骤S10104:输出初始的贝叶斯线性回归模型的参数后验分布函数;
所述步骤S102包括如下步骤:
步骤S10201:输入当前的贝叶斯线性回归模型的参数后验分布函数;
步骤S10202:获取新增训练数据集;其中,所述新增训练数据集包括:云服务器在当前采样周期初始时刻结束的预测周期初始时刻时的指标数据作为输入数据指标、云服务器在当前采样周期初始时刻结束的预测周期结束时刻时的实测的云服务器温度作为输出数据指标;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
步骤S10203:对新增训练数据集进行预处理;
步骤S10204:利用预处理后的新增训练数据集对当前的贝叶斯线性回归模型进行增量训练,更新当前贝叶斯线性回归模型的参数后验分布函数;
步骤S10205:获取当前贝叶斯线性回归模型的参数贝叶斯最优估计;
步骤S10206:基于当前的贝叶斯线性回归模型的参数贝叶斯最优估计预测当前预测周期结束时刻时云服务器的温度;
步骤S10207:输出云服务器的预测温度;
步骤S10208:判断云服务器预测温度流程是否结束;若是,则结束流程;若否,则跳转到步骤S10202继续执行。
优选地,所述步骤S10101和步骤S10202中,云服务器温度预测模型训练数据指标包括输入数据指标、输出数据指标;
输入数据指标包括如下任一种或任多种数据:
云服务器CPU核数;
云服务器使用CPU核数;
云服务器CPU利用率;
云服务器内存量;
云服务器内存使用率;
云服务器CPU的当前频率;
云服务器输入网络流量;
云服务器输出网络流量;
云服务器每个风扇转速;
云服务器节点部署虚拟机数量;
输出数据指标包括如下任一种数据或任多种数据的算数平均值:
实测的云服务器进风温度;
实测的云服务器出风温度;
实测的云服务器CPU温度;
实测的云服务器GPU温度。
优选地,所述步骤S10102和步骤S10203中的预处理包括如下步骤:
数据清洗步骤:如果在采样时刻t获得的采样输入数据项的值xt′为空缺值,使用该数据项的历史平均值填充空缺值;
归一化步骤:对于每一个输入数据项,将所述步骤S10102中定义的初始训练数据集中数据项的最小值、最大值分别记为xmin、xmax,将输入数据项的原始值x′t映射成近似在区间[0,1]中的新值xt,其公式为:
Figure BDA0002785383320000051
将训练样本中每一输入数据项经预处理后获得的数据项的值xt合并为预处理后训练样本输入数据作为步骤S10103中贝叶斯线性回归初始训练和步骤S10204中贝叶斯线性回归增量训练的输入。
优选地,所述步骤S10103包括:在贝叶斯线性回归初始训练阶段,选择模型参数先验分布服从给定初始超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布,贝叶斯线性回归模型在完成初始训练后,模型参数后验分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA概率分布,其中n表示初始训练数据集中的最后一个采样周期;超参数μn,Λn,an,bn均为μ0,Λ0,a0,b0及初始训练样本集的简单函数,有解析解。
所述步骤S10204包括:在贝叶斯线性回归增量训练阶段,当前采样周期t之前的模型参数服从超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA概率分布,在当前采样周期t通过增添采样周期t的采样训练样本,更新当前采样周期t的模型参数为服从超参数μt,Λt,at,bt的高斯-反GAMMA概率分布;超参数μt,Λt,at,bt均为μt-1,Λt-1,at-1,bt-1及增量训练样本的简单函数,有解析解。
优选地,低负荷条件是指:运行状态云服务器CPU使用率低于设定的第一阈值;
满足告警条件是指满足如下任一个条件:
第一条件,云服务器CPU使用率高于设定的第二阈值,其中,第二阈值大于第一阈值;
第二条件,云服务器当前的预测温度高于服务器警报温度。
优选地,在所述步骤S8中,根据如下步骤计算虚拟机迁移优先级V:
步骤S801:根据用户的月消费金额或年消费金额,以得到用户级别;根据所述用户级别,以得到用户优先级权重系数R;所述用户优先级权重系数R包括0~1之间的数值;
步骤S802:获取虚拟机内存大小P;计算运行状态云服务器中所有虚拟机内存大小的平均值Pavg;根据所述虚拟机内存大小P,以及所有运行状态云服务器中所有虚拟机内存大小的平均值Pavg,计算虚拟机常量迁移负荷权重系数α,
Figure BDA0002785383320000052
步骤S803:获取虚拟机单位时间内存变化率S;计算所有运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg;根据所述虚拟机单位时间内存变化率S,以及运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg,计算虚拟机增量迁移负荷权重系数β,
Figure BDA0002785383320000061
步骤S804:根据所述用户优先级权重系数、虚拟机常量迁移负荷权重系数以及虚拟机增量迁移负荷权重系数,计算虚拟机的迁移优先级:
根据迁移优先级计算公式:V=R×(α+β),其中,
Figure BDA0002785383320000062
Figure BDA0002785383320000063
则虚拟机迁移优先级
Figure BDA0002785383320000064
其中,R表示用户优先级权重系数,α表示虚拟机常量迁移负荷权重系数,β表示虚拟机增量迁移负荷权重系数,P表示虚拟机的内存大小,Pavg表示所有运行状态云服务器中全部虚拟机的平均内存大小,S表示虚拟机的单位时间内存变化率,Savg表示所有运行状态云服务器中全部虚拟机的平均的单位时间内存变化率,a为经验参数,取值范围(0,1]。
优选地,在所述步骤S4和步骤S8中,根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器的步骤,均采用最小温度服务器分配原则算法,具体包括如下步骤:
步骤A:遍历所述待迁移虚拟机列表中的待迁移虚拟机,对于每个待迁移虚拟机执行第一循环步骤,其中,所述第一循环步骤包括如下步骤:
步骤a:遍历所有正常运行状态云服务器,获取每个正常运行状态云服务器当前的预测温度;
步骤b:将正常运行云服务器按照预测温度从低到高排序,得到排序后的待选择云服务器列表;
步骤c:遍历排序后的待选择云服务器列表,执行第二循环步骤,其中,所述第二循环步骤包括如下步骤:
步骤c1:对于当前待选择云服务器,判断当前待选择云服务器是否满足如下条件:
预测温度小于服务器警报温度阈值;
剩余CPU核数大于待迁移虚拟机的CPU核数需求;
剩余未分配内存量大于待迁移虚拟机的内存需求;
若是,则分配待迁移虚机给当前待选择云服务器,得到目标宿主云服务器;退出第二循环步骤;
若否,则进入步骤c2继续执行;
步骤c2:判断待选择云服务器列表是否存在下一个待选择云服务器;若是,则进入步骤c3继续执行;若否,则跳转到步骤c4继续执行;
步骤c3:将下一个待选择云服务器作为当前待选择云服务器,跳转到步骤c1继续执行;
步骤c4:从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,将这一云服务器作为当前待选择云服务器,跳转到步骤c1继续执行;
步骤B:判断是否存在下一个待迁移虚拟机;若否,则进入步骤C继续执行;若是,则进入步骤A继续执行第一循环步骤;
步骤C:得到待迁移虚拟机与目标宿主云服务器的匹配关系。
根据本发明提供的一种基于温度预测的虚拟机迁移规划调度系统,包括:
温度预测模型训练预测模块100:训练基于贝叶斯线性回归的温度预测模型,利用温度预测模型进行温度预测,获得云服务器的预测温度;
云服务器分类模块200:根据工作状态将云服务器分类为运行状态云服务器、休眠状态云服务器,其中,运行状态云服务器分类为低负荷云服务器、正常运行状态云服务器、告警状态云服务器;
虚拟机迁移模块300:基于云服务器分类模块200对云服务器的分类,根据温度预测模型训练预测模块100得到的云服务器的预测温度,将低负荷云服务器上的虚拟机、告警云服务器上的最高迁移优先级的虚拟机迁移到宿主云服务器;其中,所述宿主云服务器包括正常运行状态云服务器、休眠状态云服务器列表中的云服务器;目标宿主云服务器的选择顺序为优先选择正常运行状态云服务器,无符合匹配条件正常运行状态云服务器时,选择休眠状态云服务器;正常运行状态云服务器定义为运行状态云服务器列表中未列入低负荷云服务器列表且未列入告警云服务器列表的云服务器。
优选地,所述温度预测模型训练预测模块100包括:
数据采集模块110:采集云服务器的指标数据、实测的云服务器温度数据;
数据预处理模块120:对数据采集模块110采集的数据进行预处理;
温度预测模型训练模块130:使用数据预处理模块120预处理后的数据对贝叶斯线性回归模型进行训练;
温度预测模块140:根据温度预测模型训练模块130训练得到的当前的贝叶斯线性回归模型进行温度预测,获得云服务器的预测温度。
优选地,所述数据采集模块110包括:
初始训练数据集构建模块111:利用历史上采样数据,构建初始训练数据集;定义每两个相邻采样时刻间的时段为一个采样周期,在每一个采样周期上定义一个预测周期,预测周期的长度为温度预测模型的预测深度,预测周期初始时刻为同一采样周期初始时刻;其中,将预测周期初始时刻时云服务器的指标数据作为模型输入数据指标,将同一预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标,来构建初始训练数据集;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
新增训练数据集构建模块112:获取新增训练数据集;其中,所述新增训练数据集包括:云服务器在当前采样周期初始时刻结束的预测周期初始时刻时的指标数据作为模型输入数据指标、云服务器在当前采样周期初始时刻结束的预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
其中,云服务器温度预测模型训练数据指标包括输入数据指标、输出数据指标;
输入数据指标包括如下任一种或任多种数据:
云服务器CPU核数;
云服务器使用CPU核数;
云服务器CPU利用率;
云服务器内存量;
云服务器内存使用率;
云服务器CPU的当前频率;
云服务器输入网络流量;
云服务器输出网络流量;
云服务器每个风扇转速;
云服务器部署虚拟机数量;
输出数据指标包括如下任一种数据或任多种数据的算数平均值:
实测的云服务器进风温度;
实测的云服务器出风温度;
实测的云服务器CPU温度;
实测的云服务器GPU温度。
优选地,所述数据预处理模块120包括:
初始训练数据集预处理模块121:对初始训练数据集进行预处理;
新增训练数据集预处理模块122:对新增训练数据集进行预处理;
所述初始训练数据集预处理模块121、新增训练数据集预处理模块122均包括:
数据清洗模块1201:如果在采样时刻t获得的采样数据项的值x′t为空缺值,使用该数据项的历史平均值填充空缺值;
归一化模块1202:对于每一个数据项,将所述初始训练数据集中数据项的最小值、最大值分别记为xmin、xmax,将数据项的原始值x′t映射成近似在区间[0,1]中的新值xt,其公式为:
Figure BDA0002785383320000091
将训练样本中每一数据项经预处理后获得的数据项的值xt合并为预处理后训练样本作为温度预测模型训练模块130中贝叶斯线性回归初始训练和贝叶斯线性回归增量训练的输入。
优选地,所述温度预测模型训练模块130包括:
初始训练数据集训练模块131:使用预处理后的初始训练数据,对贝叶斯线性回归模型进行初始训练,得到初始的温度预测模型;其中,在贝叶斯线性回归初始训练阶段,选择模型参数先验分布服从给定初始超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布,贝叶斯线性回归模型在完成初始训练后,模型参数后验分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA概率分布,其中n表示初始训练数据集中的最后一个采样周期;超参数μn,Λn,an,bn均为μ0,Λ0,a0,b0及初始训练样本集的简单函数,有解析解;
新增训练数据集训练模块132:使用预处理后的新增训练数据集以增量的方式,对贝叶斯线性回归模型进行在线的增量训练;其中,在贝叶斯线性回归增量训练阶段,当前采样周期t之前的模型参数服从超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA概率分布,在当前采样周期t通过增添采样周期t的采样训练样本,更新当前采样周期t的模型参数为服从超参数μt,Λt,at,bt的高斯-反GAMMA概率分布;超参数μt,Λt,at,bt均为μt-1,Λt-1,at-1,bt-1及增量训练样本的简单函数,有解析解。
优选地,所述云服务器分类模块200包括:
休眠状态云服务器归类模块201:将处于休眠状态的云服务器归类为休眠状态云服务器;休眠状态云服务器能够作为宿主云服务器;
运行状态云服务器归类模块202:将处于运行状态的云服务器归类为运行状态云服务器;
所述运行状态云服务器归类模块202包括:
低负荷云服务器归类模块20201:将运行状态云服务器节点CPU使用率低于设定的第一阈值的云服务器归类为低负荷云服务器;
告警云服务器归类模块20202:将满足告警条件的云服务器归类为告警云服务器,其中,满足告警条件是指满足如下任一个条件:
第一条件,云服务器节点CPU使用率高于设定的第二阈值,其中,第二阈值大于第一阈值;
第二条件,云服务器当前的预测温度高于服务器警报温度;
正常运行状态云服务器归类模块20203:将运行状态云服务器列表中不属于低负荷云服务器且不属于告警云服务器的云服务器,归类为正常运行状态云服务器,正常运行状态云服务器能够作为宿主云服务器。
优选地,所述虚拟机迁移模块300包括:
云服务器温度获取模块301:遍历所述云数据中心云服务器列表,获取每台云服务器当前时刻所在采样周期上定义的预测周期结束时刻的云服务器温度预测值;
待迁移虚拟机获取模块302:遍历低负荷云服务器,得到每台低负荷云服务器中的虚拟机作为待迁移虚拟机,列入待迁移虚拟机列表;遍历告警云服务器,得到每台告警云服务器中的最高迁移优先级虚拟机作为待迁移虚拟机,列入待迁移虚拟机列表;
迁移操作模块303:根据各个宿主云服务器的预测温度及剩余负荷容量来确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;
流程结束判断模块304:判断流程是否结束;若是,则结束流程;若否,则触发所述云服务器温度获取模块301进入下一个虚拟机迁移规划周期,继续执行获取云服务器预测温度。
优选地,在所述待迁移虚拟机获取模块302中,通过如下模块计算虚拟机迁移优先级V:
用户优先级权重系数获取模块30201:根据用户的月消费金额或年消费金额,以得到用户级别;根据所述用户级别,以得到用户优先级权重系数R;所述用户优先级权重系数R包括0~1之间的数值;
虚拟机常量迁移负荷权重系数获取模块30202:获取虚拟机内存大小P;计算运行状态云服务器中所有虚拟机内存大小的平均值Pavg;根据所述虚拟机内存大小P,以及所有运行状态云服务器中所有虚拟机内存大小的平均值Pavg,计算虚拟机常量迁移负荷权重系数α,
Figure BDA0002785383320000111
虚拟机增量迁移负荷权重系数获取模块30203:获取虚拟机单位时间内存变化率S;计算所有运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg;根据所述虚拟机单位时间内存变化率S,以及运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg,计算虚拟机增量迁移负荷权重系数β,
Figure BDA0002785383320000112
虚拟机的迁移优先级获取模块30204:根据所述用户优先级权重系数、虚拟机常量迁移负荷权重系数以及虚拟机增量迁移负荷权重系数,计算虚拟机的迁移优先级:
根据迁移优先级计算公式:V=R×(α+β),其中,
Figure BDA0002785383320000113
Figure BDA0002785383320000114
则虚拟机迁移优先级
Figure BDA0002785383320000115
其中,R表示用户优先级权重系数,α表示虚拟机常量迁移负荷权重系数,β表示虚拟机增量迁移负荷权重系数,P表示虚拟机的内存大小,Pavg表示所有运行状态云服务器中全部虚拟机的平均内存大小,S表示虚拟机的单位时间内存变化率,Savg表示所有运行状态云服务器中全部虚拟机的平均的单位时间内存变化率,a为经验参数,取值范围(0,1]。
优选地,所述迁移操作模块303包括:
迁移匹配关系分配模块3031:遍历所述待迁移虚拟机列表中的待迁移虚拟机,对各个待迁移虚拟机进行目标宿主云服务器的分配;
迁移匹配关系输出模块3032:根据迁移匹配关系分配模块3031确立的待迁移虚拟机与目标宿主云服务器的匹配关系,对待迁移虚拟机进行迁移;
其中,所述迁移匹配关系分配模块3031包括:
预测温度排序模块303101:将正常运行云服务器按照云服务器温度获取模块301获取的预测温度从低到高排序,得到排序后的待选择云服务器列表;
待迁移虚拟机遍历模块303102:遍历所述待迁移虚拟机列表中的待迁移虚拟机,获取所述待迁移虚拟机列表中下一个虚拟机作为当前待迁移虚拟机;
待选择云服务器筛选模块303103:依照所述预测温度排序模块303101排序后的待选择云服务器列表的顺序,将满足如下条件的待选择云服务器作为目标宿主云服务器分配给当前待迁移虚拟机:
预测温度小于服务器警报温度阈值;
剩余CPU核数大于待迁移虚拟机的CPU核数需求;
剩余未分配内存量大于待迁移虚拟机的内存需求;
休眠状态云服务器唤醒模块303104:对于待选择云服务器筛选模块303103未分配目标宿主云服务器的当前待迁移虚拟机,从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,将这一云服务器作为当前待选择云服务器分配给待迁移虚拟机。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的基于温度预测的虚拟机迁移规划调度方法的步骤。
与现有技术相比,本发明具有如下的有益效果。
1、本发明整体上将虚拟机迁移到预测温度低的满足要求的运行状态云服务器,最小化运行状态云服务器温度及数量,从而达成云数据中心节能的效果;
2、本发明根据当前实时预测的云服务器温度、云服务器负载等因素确定需迁出虚拟机的云服务器,降低云服务器故障风险,提高了云服务器可靠性;
3、本发明中的云服务器温度预测模块基于训练得到的贝叶斯线性回归模型进行预测,能够实现在线实时训练,且能够在线实时预测短暂未来的云服务器温度;
4、综合考虑虚拟机的客户属性及虚拟机迁移代价确定需迁移虚拟机,减少了虚拟机迁移服务中断时间,优化了用户体验。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于温度预测的虚拟机迁移规划调度方法的整体步骤流程图;
图2为贝叶斯线性回归模型初始训练的具体步骤流程图;
图3为贝叶斯线性回归模型增量训练及预测的具体步骤流程图;
图4为云服务器温度预测模型训练数据列表及模型训练示意图;
图5为云服务器温度预测模型训练数据预处理的具体步骤流程图;
图6为计算虚拟机迁移优先级的具体步骤流程图;
图7为最小温度服务器分配原则算法的具体步骤流程图;
图8为基于温度预测的虚拟机迁移规划调度系统的整体结构示意图;
图9为基于温度预测的虚拟机迁移规划调度系统的具体结构示意图;
图10为基于温度预测的虚拟机迁移规划调度系统数据预处理模块120的结构示意图;
图11为基于温度预测的虚拟机迁移规划调度系统待迁移虚拟机获取模块302确定虚拟机迁移优先级的模块的结构示意图;
图12为基于温度预测的虚拟机迁移规划调度系统迁移操作模块303的结构示意图。
图中示出:
温度预测模型训练预测模块100;
数据采集模块110;
初始训练数据集构建模块111;
新增训练数据集构建模块112;
数据预处理模块120;
初始训练数据集预处理模块121;
新增训练数据集预处理模块122;
数据清洗模块1201;
归一化模块1202;
温度预测模型训练模块130;
初始训练数据集训练模块131;
新增训练数据集训练模块132;
温度预测模块140;
云服务器分类模块200;
休眠状态云服务器归类模块201;
运行状态云服务器归类模块202;
低负荷云服务器归类模块20201;
告警云服务器归类模块20202;
正常运行状态云服务器归类模块20203;
虚拟机迁移模块300;
云服务器温度获取模块301;
待迁移虚拟机获取模块302;
用户优先级权重系数获取模块30201;
虚拟机常量迁移负荷权重系数获取模块30202;
虚拟机增量迁移负荷权重系数获取模块30203;
虚拟机的迁移优先级获取模块30204;
迁移操作模块303;
迁移匹配关系分配模块3031;
预测温度排序模块303101;
待迁移虚拟机遍历模块303102;
待选择云服务器筛选模块303103;
休眠状态云服务器唤醒模块303104;
迁移匹配关系输出模块3032;
流程结束判断模块304。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
第一实施例
在第一实施例中,通过图1至图7对根据本发明提供的一种基于温度预测的虚拟机迁移规划调度方法进行说明。
如图1所示,所述基于温度预测的虚拟机迁移规划调度方法,包括如下步骤。
步骤S1:获取云数据中心云服务器列表,获取基于贝叶斯线性回归的温度预测模型对所述云数据中心云服务器列表中的每个云服务器温度的预测值,得到云服务器预测温度;然后进入步骤S2继续执行。
具体地,所述温度预测模型是通过对贝叶斯线性回归模型进行初始训练与增量训练后得到,当前的贝叶斯线性回归模型构成当前的温度预测模型。在初始训练过程中,云服务器数据与温度预测模型的映射关系可以为每一台云服务器单独构建并训练一个温度预测模型,其温度预测模型的训练数据均采集自这一台云服务器;为了提高温度预测模型的预测准确性,初始训练数据集中的历史上的数据为同一个云服务器的历史数据,使用同一个云服务器的历史数据来针对该云服务器的温度预测模型进行训练能够提高预测准确率。在初始训练过程中,云服务器数据与温度预测模型的映射关系也可以为多台云服务器构建并训练一个温度预测模型,其温度预测模型的训练数据采集自这多台云服务器,训练时将这多台云服务器的数据视为一台云服务器在不同预测周期下的数据。
更为具体地,云服务器的预测温度将在后续的步骤S4和步骤S8中被使用到,作为虚拟机迁移调度规划的重要考量因素。云服务器的预测温度包括运行状态云服务器的预测温度、休眠状态云服务器的预测温度。
步骤S2:将所述运行状态云服务器列表中负荷监控指标满足低负荷条件的运行状态云服务器,定义为低负荷云服务器,构建低负荷云服务器列表。然后进入步骤S3继续执行。所述低负荷条件是指:运行状态云服务器CPU使用率低于设定的第一阈值。在本应用实例中,第一阈值设置为6%。
具体地,低负荷云服务器上的虚拟机被全部迁移后,即可调整至休眠状态,成为休眠状态云服务器以节约能源。因此通过步骤S2构建低负荷云服务器列表,然后再通过步骤S3、步骤S4完成低负荷云服务器列表中部分或全部虚拟机的迁移,并将虚拟机已全部迁移出的低负荷云服务器调整至休眠状态。本领域技术人员可以理解,所述运行状态云服务器列表用于指示当前处于运行状态的云服务器,当前未处于运行状态的云服务器将被排除移出运行状态云服务器列表;所述低负荷云服务器列表用于指示当前处于低负荷运行状态的云服务器,当前未处于低负荷运行状态的云服务器将被排除移出低负荷云服务器列表。
步骤S3:遍历所述低负荷云服务器列表,获取每台低负荷云服务器中的虚拟机,并列入待迁移虚拟机列表。
具体地,本领域技术人员可以理解,所述待迁移虚拟机列表用于指示当前处于待迁移状态的虚拟机,当前未处于待迁移状态的虚拟机将被排除移出待迁移虚拟机列表。
步骤S4:根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;进入步骤S5继续执行。
具体地,所述宿主云服务器为运行状态云服务器,且不属于低负荷云服务器,或者所述宿主云服务器也可以为休眠状态云服务器。宿主云服务器的选择顺序为优先选择正常运行状态云服务器,在无符合匹配条件正常运行状态云服务器时,选择休眠状态云服务器;所述匹配条件例如可以是云服务器剩余的负荷能力的指标大于待迁移虚拟机对宿主服务器可用负荷能力指标需求的阈值。本领域技术人员可以理解,所述宿主云服务器列表用于指示当前的宿主云服务器,当前不符合宿主云服务器定义的云服务器将被排除移出宿主云服务器列表。
更为具体地,虚拟机从低负荷云服务器迁移出后,针对该虚拟机而言,需考虑到虚拟机所迁移入云服务器的情况,优先选择未来预测温度低的正常运行状态云服务器作为宿主云服务器。但若这一云服务器的当前负荷容量已满,则不能作为宿主云服务器。当无正常运行状态云服务器满足虚拟机负荷容量需求,则选择休眠状态云服务器作为宿主云服务器。
步骤S5:将虚拟机已经全部迁移出的低负荷云服务器设置为休眠状态,列出运行状态云服务器列表,并列入休眠状态云服务器列表。然后进入步骤S6继续执行。
具体地,本领域技术人员可以理解,所述休眠状态云服务器列表用于指示当前处于休眠状态的云服务器,当前未处于休眠状态的云服务器将被排除移出休眠状态云服务器列表。
步骤S6:将所述运行状态云服务器列表中监控指标满足告警条件的运行状态云服务器,定义为告警云服务器,将全部告警云服务器列入告警云服务器列表。然后进入步骤S7继续执行。
具体地,在所述步骤S6中,所述满足告警条件是指满足如下任一个条件:第一条件,云服务器CPU使用率高于设定的第二阈值,其中,第二阈值大于第一阈值;在本应用实例,第一阈值设置为6%,第二阈值设置为90%;第二条件,云服务器当前的预测温度高于服务器警报温度,在本应用实例,服务器报警温度设置为95度。
进一步,告警云服务器通常负荷较高,长期运行容易因持续高温等因素而导致故障,需考虑降低负荷。因此通过步骤S6构建告警云服务器列表,然后再通过步骤S7、步骤S8完成告警云服务器列表中最高迁移优先级的虚拟机的迁移,并将虚拟机迁移出后已不满足告警云服务器定义的云服务器排除移出告警云服务器列表。
步骤S7:遍历所述告警云服务器列表,得到每台告警云服务器中的最高迁移优先级虚拟机,并列入待迁移虚拟机列表。然后进入步骤S8继续执行。
具体地,本领域技术人员可以理解,所述待迁移虚拟机列表用于指示待迁移的虚拟机,已迁移的虚拟机将被排除移出待迁移虚拟机列表。
步骤S8:根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移。然后进入步骤S9继续执行。
更为具体地,参见步骤S4的说明,在虚拟机迁移入一云服务器之前,需考虑到虚拟机所迁移入云服务器的情况,优先选择未来预测温度低的云服务器作为宿主云服务器。但若这一云服务器的当前负荷容量已满,则不能作为宿主云服务器。当无正常运行状态云服务器满足虚拟机负荷容量需求时,则选择休眠状态云服务器作为宿主云服务器。
步骤S9:将虚拟机已经全部迁移出的告警云服务器设置为休眠状态,列出运行状态云服务器列表,并列入休眠状态云服务器列表。然后进入步骤S10继续执行。
具体地,本领域技术人员可以理解,所述休眠状态云服务器列表用于指示当前处于休眠状态的云服务器,当前未处于休眠状态的云服务器将被排除移出休眠状态云服务器列表。
步骤S10:判断流程是否结束;若是,则结束流程;若否,则跳转到所述步骤S1继续执行,实施新一轮的虚拟机调度规划。
其中,云服务器工作状态的监控周期也是虚拟机的虚拟机迁移规划周期,虚拟机的一个虚拟机迁移规划周期定义为基于温度预测的虚拟机迁移规划调度方法步骤1至步骤9的一次完整执行。在本应用实例中一个云服务器工作状态的监控周期的耗时通常在2-5分钟之间。依据这一经验值设置温度预测模型的预测周期的长短,可以使得对于云服务器工作状态的监控周期短于温度预测模型的预测周期,例如一个监控周期经验耗时在2-5分钟之间短于6分钟的预测周期,从而保证虚拟机的迁移进度与对宿主云服务器未来热负载的预测深度相匹配。在本应用实例中,通过设置温度预测模型的采样周期短于一个云服务器工作状态的监控周期的最短经验耗时,例如一个监控周期的经验耗时在2-5分钟之间,长于本应用实例设置的30秒钟的采样周期,从而保证对云服务器工作状态的监控总能获得实时有效的云服务器短暂未来温度的预测值。本领域技术人员能够理解到,对温度预测模型的初始训练属于虚拟机迁移规划调度之前的准备工作,仅执行一次初始训练即可。
进一步,所述步骤S1中的所述温度预测模型,是通过如下步骤得到的。
步骤S101:利用历史上采样数据构建初始训练数据集,对贝叶斯线性回归模型进行初始训练,得到初始的温度预测模型;然后进入步骤S102继续执行。
步骤S102:在云数据中心日常运行过程中,实时采集新增训练数据集,以增量的方式对当前的云服务器温度预测模型进行在线的增量训练,更新温度预测模型并使用温度预测模型对云服务器未来温度实施预测,获得云服务器未来温度预测值。其中,温度预测模型是对云服务器短暂未来温度实施预测,例如预测未来6分钟时的温度。
在优选例中,在对云服务器未来温度预测中,通过使用贝叶斯线性回归模型进行统计推理,通过选择高斯-反GAMMA概率分布作为贝叶斯线性回归模型参数共轭先验分布,利用初始训练数据进行贝叶斯推理所获得贝叶斯线性回归模型参数的后验分布亦为高斯-反GAMMA概率分布。贝叶斯线性回归模型参数的先验分布与后验分布为同分布,这使得步骤S102的贝叶斯线性回归模型在线快速增量训练成为可能,从而达到快速高效精准预测云服务器温度的目的。
下面对贝叶斯线性回归模型进行详细说明。
即,贝叶斯线性回归模型的输入样本集合X由n个连续采样周期输入样本组成,这里采用记号:X={X1,X2,...,Xn}。X为矩阵表达形式。Xn表示在第n个采样周期获得的输入样本,在本发明应用实例中输入样本数据包括云服务器的指标数据。贝叶斯线性回归模型输出样本集合y由n个连续采样周期输出样本组成,这里采用记号:y={y1,y2,...,yn}。yn表示在第n个采样周期获得的输出样本,在本发明应用实例中输出样本为实测的云服务器温度数据,具体为实测的云服务器不同部位和/或组件温度的算术平均值。
所述贝叶斯线性回归模型如下:
Figure BDA0002785383320000181
ρ(y|X,β,σ2)表示在给定输入样本集合X,贝叶斯线性回归模型参数β和σ2下,输出样本集合y的条件概率密度函数。如上式所述,输出样本集合y的条件概率服从n维高斯分布。
其中β为输入样本特征的权重向量;σ2为线性回归残差的方差;β,σ2即构成贝叶斯线性回归模型的参数。
接下来对贝叶斯线性回归模型参数β和σ2的先验概率分布进行展开说明。
依据贝叶斯推理原理,共轭先验概率ρ(β,σ2)可以分解为ρ(β,σ2)=ρ(σ2)ρ(β|σ2),选用超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布作为参数β和σ2的先验概率分布。其中方差σ2的概率密度函数形式如下式:
Figure BDA0002785383320000182
方差σ2服从反GAMMA(a0,b0)分布;参数a0和b0为反GAMMA分布的超参数;在本发明应用实例中超参数值的选择为a0=1,b0=1。
给定方差σ2,权重向量β的条件概率密度函数形式如下式:
Figure BDA0002785383320000191
给定方差σ2,β服从高斯
Figure BDA0002785383320000192
分布;期望向量μ0,方差矩阵Λ0为k维高斯分布的超参数;在本发明应用实例中超参数值的选择:
μ0为k维0向量;参数Λ0表示k×k阶单位矩阵;k表示作为输入量的输入样本集合X的特征维度。
接着对模型参数β和σ2的后验概率分布进行展开说明。
模型参数的后验分布由下式计算:
Figure BDA0002785383320000193
其中,ρ(β,σ2|y,X)是给定输入样本集合X和输出样本集合y时的模型参数的后验概率密度函数。后验概率密度等于输出的似然ρ(y|X,β,σ2)乘以给定输入的参数β,σ2的先验概率密度函数ρ(β,σ2)并且除以归一化常数。
具体到贝叶斯线性回归,后验分布为:
Figure BDA0002785383320000194
其中ρ(β|σ2,y,X)为高斯
Figure BDA0002785383320000195
分布的密度函数;
ρ(σ2|y,X)为反GAMMA(an,bn)分布的密度函数。
综上所述,即模型在观测到输入样本集X和输出样本集y后,参数β和σ2的后验概率分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA分布,超参数的计算公式如下:
μn=(XTX+Λ0)-10μ0+XTy)
Λn=(XTX+Λ0)
Figure BDA0002785383320000201
Figure BDA0002785383320000202
参数μn为高斯
Figure BDA0002785383320000203
分布的期望向量;
参数
Figure BDA0002785383320000204
Figure BDA0002785383320000205
分布的方差矩阵;
an,bn为反GAMMA(an,bn)分布的超参数。
经过上述贝叶斯统计推理,贝叶斯线性回归输入特征权重参数β的初始训练最优贝叶斯估计为:
Figure BDA0002785383320000206
使用初始贝叶斯最优线性回归模型对预测周期m结束时刻时云服务器温度的预测值表示为
Figure BDA0002785383320000207
其中
Figure BDA00027853833200002010
表示预测周期m结束时刻的云服务器温度的预测值,Xm表示预测周期m开始时刻的输入云服务器指标数据。
接下来就贝叶斯线性回归增量训练进行详细说明。
在输入样本数n>1的情况下,贝叶斯增量训练以下式表示:
ρ(β,σ2|y1,…,t,X1,…,t)∝ρ(yt|Xt,β,σ2)×ρ(β,σ2|y1,…,t-1,X1,…,t-1)
其中,ρ(β,σ2|y1,…,t,X1,…,t)为在采样周期t观测到所有历史输入样本集合X1,…,t和所有历史输出样本集合y1,…,t的条件下模型参数β,σ2的概率密度函数。此项等于给定当前采样周期输入样本Xt,当前采样周期输出样本yt的似然ρ(yn|Xn,β,σ2)乘以在采样周期n-1中观测到所有历史输入样本集合X1,…,t-1和所有历史输出样本集合y1,…,t-1的条件下模型参数β,σ2的概率密度函数ρ(β,σ2|y1,…,n-1,X1,…,n-1)并归一化。
具体到贝叶斯线性回归,设在采样周期t-1时,模型参数β,σ2的后验概率密度函数为超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA分布,在采样周期t,观测到新的训练样本Xt,yt后,模型参数β,σ2的后验概率密度函数为超参数为μt,Λt,at,bt的高斯-反GAMMA分布。超参数更新公式即增量训练公式如下:
μt=(Xt TXtt-1)-1t-1μt-1+Xt Tyt)
Λt=(Xt TXtt-1)
Figure BDA0002785383320000208
Figure BDA0002785383320000209
经过上述贝叶斯统计推理,在当前采样周期t内,贝叶斯线性回归输入特征权重参数β的增量训练最优贝叶斯估计为:
Figure BDA0002785383320000211
使用当前增量贝叶斯最优线性回归模型对当前预测周期t结束时刻云服务器温度的预测由公式1表示:
Figure BDA0002785383320000212
其中
Figure BDA0002785383320000213
表示当前预测周期t结束时刻的云服务器温度的预测值,Xt表示当前预测周期t开始时刻的模型输入的云服务器指标数据。
如图2所示,具体地,所述步骤S101包括如下步骤。
步骤S10101:定义每两个相邻采样时刻间的时段为一个采样周期,在每一个采样周期上定义一个预测周期,预测周期的长度为温度预测模型的预测深度,预测周期初始时刻为同一采样周期初始时刻;其中,将预测周期初始时刻时云服务器的指标数据作为模型输入数据指标,将同一预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标,来构建初始训练数据集;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;然后进入步骤S10102继续执行。
具体地,相邻的两个预测周期的初始时刻分别为相邻的两个采样周期的初始时刻。在优选例中,一个预测周期由多个连续的采样周期构成,且预测周期的初始时刻与第一个采样周期的初始时刻为同一个时刻;连续相邻的两个预测周期的初始时刻分别为连续相邻的两个采样周期的初始时刻。例如,假设有十个采样时刻,记为T1,T2,…,T10;每一个采样时刻至下一个采样时刻之间的间隔时间构成一个采样周期,该采样周期的初始时刻即为该采样时刻,该采样周期的结束时刻即为该下一个采样时刻。进一步假设一个预测周期由五个采样周期构成,则第一个预测周期是T1至T6之间的间隔时间,第二个预测周期是T2至T7之间的间隔时间,第三个预测周期是T3至T8之间的间隔时间,以此类推。
步骤S10102:对初始训练数据集进行预处理;然后进入步骤S10103继续执行。
步骤S10103:利用预处理后的初始训练数据集,对贝叶斯线性回归模型进行训练,获取初始的贝叶斯线性回归模型的参数后验分布函数;然后进入步骤S10104继续执行。
具体地,所述步骤S10103包括:在贝叶斯线性回归初始训练阶段,选择模型参数先验分布服从给定初始超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布,贝叶斯线性回归模型在完成初始训练后,模型参数后验分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA概率分布,其中n表示初始训练数据集中的最后一个采样周期;超参数μn,Λn,an,bn均为μn,Λ0,a0,b0及初始训练样本集的简单函数,有解析解。
步骤S10104:输出初始的贝叶斯线性回归模型的参数后验分布函数。
如图3所示,具体地,所述步骤S102包括如下步骤。
步骤S10201:输入当前的贝叶斯线性回归模型的参数后验分布函数;然后进入步骤S10202继续执行。
步骤S10202:获取新增训练数据集;其中,所述新增训练数据集包括:云服务器在当前采样周期初始时刻结束的预测周期初始时刻时的指标数据作为输入数据指标、云服务器在当前采样周期初始时刻结束的预测周期结束时刻时的实测的云服务器温度作为输出数据指标;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;然后进入步骤S10203继续执行。
步骤S10203:对新增训练数据集进行预处理;然后进入步骤S10204继续执行。
步骤S10204:利用预处理后的新增训练数据集对当前的贝叶斯线性回归模型进行增量训练,更新当前贝叶斯线性回归模型的参数后验分布函数;然后进入步骤S10205继续执行。
具体地,所述步骤S10204包括:在贝叶斯线性回归增量训练阶段,当前采样周期t之前的模型参数服从超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA概率分布,在当前采样周期t通过增添采样周期t的采样训练样本,更新当前采样周期t的模型参数为服从超参数μt,Λt,at,bt的高斯-反GAMMA概率分布;超参数μt,Λt,at,bt均为μt-1,Λt-1,at-1,bt-1及增量训练样本的简单函数,有解析解。
步骤S10205:获取当前贝叶斯线性回归模型的参数贝叶斯最优估计;然后进入步骤S10206继续执行。
步骤S10206:基于当前的贝叶斯线性回归模型的参数贝叶斯最优估计预测当前预测周期结束时刻时云服务器的温度;然后进入步骤S10207继续执行。
具体地,在所述步骤S10206中,基于当前的贝叶斯线性回归模型,通过使用公式1预测当前采样周期上定义的预测周期结束时刻时的云服务器的温度。
步骤S10207:输出云服务器的预测温度;然后进入步骤S10208继续执行。
步骤S10208:判断云服务器预测温度流程是否结束;若是,则结束流程;若否,则跳转到步骤S10202继续执行。
如图4所示,所述步骤S10101和步骤S10202中所述云服务器温度预测模型的训练数据指标包括输入数据指标、输出数据指标。
输入数据指标包括如下任一种或任多种数据:云服务器CPU核数;云服务器使用CPU核数;云服务器CPU利用率;云服务器内存量;云服务器内存使用率;云服务器CPU的当前频率;云服务器输入网络流量;云服务器输出网络流量;云服务器每个风扇转速;云服务器节点部署虚拟机数量;
输出数据指标包括如下任一种数据或任多种数据的算数平均值:实测的云服务器进风温度;实测的云服务器出风温度;实测的云服务器CPU温度;实测的云服务器GPU温度。
如图5所示,初始训练数据集中的数据并非一定是理想的,例如存在数据遗失等问题,因此需要对初始训练数据集中的数据进行预处理,所述步骤S10102和步骤S10203中的预处理包括如下步骤。
数据清洗步骤:如果在采样时刻t获得的采样输入数据项的值x′t为空缺值,使用该数据项的历史平均值填充空缺值;
归一化步骤:对于每一个输入数据项,将所述步骤S10102中定义的初始训练数据集中数据项的最小值、最大值分别记为xmin、xmax,将输入数据项的原始值x′t映射成近似在区间[0,1]中的新值xt,其公式为:
Figure BDA0002785383320000231
将训练样本中每一输入数据项经预处理后获得的数据项的值xt合并为预处理后训练样本输入数据作为步骤S10103中贝叶斯线性回归初始训练和步骤S10204中贝叶斯线性回归增量训练的输入。
如图6所示,在所述步骤S8中,根据如下步骤计算虚拟机迁移优先级V。迁移优先级的计算原则综合考虑用户的级别、虚拟机迁移的工作量成本。用户级别较低的通常对于计算任务的连续性要求较低,因此优先迁移。虚拟机的常量及增量迁移成本越小,则越优先迁移。
步骤S801:根据用户的月消费金额或年消费金额,以得到用户级别;根据所述用户级别,以得到用户优先级权重系数R;所述用户优先级权重系数R包括0~1之间的数值;
具体地,用户优先级权重系数R根据如下用户类型确定。客户类型为VVIP的,用户优先级权重系数R设定为0.2。客户类型为VIP的,用户优先级权重系数R设定为0.5。客户类型为普通的(月消费金额不低于均值的50%),用户优先级权重系数R设定为0.7。客户类型为低质量的(月消费金额低于均值的50%),用户优先级权重系数R设定为1。
步骤S802:获取所述虚拟机内存大小P;计算运行状态云服务器中所有虚拟机内存大小的平均值Pavg;根据所述虚拟机内存大小P,以及所有运行状态云服务器中所有虚拟机内存大小的平均值Pavg,计算所述虚拟机常量迁移负荷权重系数α,
Figure BDA0002785383320000241
Figure BDA0002785383320000242
步骤S803:获取所述虚拟机单位时间内存变化率S;计算所有运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg;根据所述虚拟机单位时间内存变化率S,以及运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg,计算所述虚拟机增量迁移负荷权重系数β,
Figure BDA0002785383320000243
步骤S804:根据所述用户优先级权重系数、虚拟机常量迁移负荷权重系数以及虚拟机增量迁移负荷权重系数,计算所述虚拟机的迁移优先级:
根据迁移优先级计算公式:V=R×(α+β),其中,
Figure BDA0002785383320000244
Figure BDA0002785383320000245
则虚拟机迁移优先级
Figure BDA0002785383320000246
其中,R表示用户优先级权重系数,α表示虚拟机常量迁移负荷权重系数,β表示虚拟机增量迁移负荷权重系数,P表示虚拟机的内存大小,Pavg表示所有运行状态云服务器中全部虚拟机的平均内存大小,S表示虚拟机的单位时间内存变化率,Savg表示所有运行状态云服务器中全部虚拟机的平均的单位时间内存变化率,a为经验参数,取值范围(0,1],在本应用实例经验常数取值为0.0001。
如图7所示,在所述步骤S4和步骤S8中,所述根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量来确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器的步骤,均采用最小温度服务器分配原则算法,具体包括如下步骤。
步骤A:遍历所述待迁移虚拟机列表中的待迁移虚拟机,对于每个待迁移虚拟机执行第一循环步骤。具体为对于当前的待迁移虚拟机执行第一循环步骤,然后进入步骤B继续执行。
步骤B:判断是否存在下一个待迁移虚拟机;若否,则进入步骤C继续执行;若是,则将下一个待迁移虚拟机作为当前的待迁移虚拟机,跳转到步骤A继续执行第一循环步骤。
步骤C:得到待迁移虚拟机与目标宿主云服务器的匹配关系。
其中,所述第一循环步骤包括如下步骤。
步骤a:遍历所有正常运行状态云服务器,获取每个正常运行状态云服务器当前的预测温度;然后进入步骤b继续执行。
步骤b:将正常运行云服务器按照预测温度从低到高排序,得到排序后的待选择云服务器列表;然后进入步骤c继续执行。
步骤c:遍历排序后的待选择云服务器列表,执行第二循环步骤。
其中,所述第二循环步骤包括如下步骤。
步骤c1:对于当前待选择云服务器,判断当前待选择云服务器是否满足如下条件:预测温度小于服务器警报温度阈值;剩余CPU核数大于待迁移虚拟机的CPU核数需求;剩余未分配内存量大于待迁移虚拟机的内存需求。若是,则分配待迁移虚机给当前待选择云服务器,得到目标宿主云服务器;退出第二循环步骤;若否,则进入步骤c2继续执行。
步骤c2:判断待选择云服务器列表是否存在下一个待选择云服务器;若是,则进入步骤c3继续执行;若否,则跳转到步骤c4继续执行。
步骤c3:将下一个待选择云服务器作为当前待选择云服务器,跳转到步骤c1继续执行。
步骤c4:从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,将这一云服务器作为当前待选择云服务器,跳转到步骤c1继续执行。
第二实施例
在第二实施例中,通过图8至图12对根据本发明提供的一种基于温度预测的虚拟机迁移规划调度系统进行说明。本领域技术人员可以将第一实施例理解为第二实施例的一个优选的具体实施例,即第二实施例中的系统可以通过执行第一实施例中的方法步骤实现。
如图8所示,所述基于温度预测的虚拟机迁移规划调度系统,包括:
温度预测模型训练预测模块100:训练基于贝叶斯线性回归的温度预测模型,利用温度预测模型进行温度预测,获得云服务器的预测温度;
云服务器分类模块200:根据工作状态将云服务器分类为运行状态云服务器、休眠状态云服务器,其中,运行状态云服务器分类为低负荷云服务器、正常运行状态云服务器、告警状态云服务器;
虚拟机迁移模块300:基于云服务器分类模块200对云服务器的分类,根据温度预测模型训练预测模块100得到的云服务器的预测温度,将低负荷云服务器中虚拟机、告警云服务器上的最高迁移优先级虚拟机迁移到正常运行云服务器或者休眠状态云服务器。其中,所述云服务器的预测温度包括运行状态云服务器的预测温度、休眠状态云服务器的预测温度。虚拟机迁移目标宿主云服务器的选择顺序为优先选择正常运行状态云服务器,无符合匹配条件正常运行状态云服务器时,选择休眠状态云服务器;
所述温度预测模型训练预测模块100包括:
数据采集模块110:采集云服务器的指标数据、实测的云服务器温度数据;
数据预处理模块120:对数据采集模块110采集的数据进行预处理;
温度预测模型训练模块130:使用数据预处理模块120预处理后的数据对贝叶斯线性回归模型进行训练;
温度预测模块140:根据温度预测模型训练模块130训练得到的当前的贝叶斯线性回归模型进行温度预测,获得云服务器的预测温度;
具体地,在实施贝叶斯线性回归预测云服务器温度的初始阶段训练阶段,首先,数据采集模块110采集历史云服务器的指标数据、实测的云服务器温度;并将采集到的历史数据发送给数据预处理模块120进行数据预处理;其次,数据预处理模块120对数据采集模块110采集的数据进行预处理;将预处理后的数据发送给温度预测模型训练模块130做贝叶斯线性回归模型的初始训练;最后,温度预测模型训练模块130使用数据预处理模块120产生的预处理后的数据对贝叶斯线性回归模型进行初始训练,获得初始贝叶斯线性回归模型。
在实施贝叶斯线性回归在线增量训练及预测阶段,在每个贝叶斯线性回归在线增量训练及预测实施周期,首先,数据采集模块110采集当前采样周期初始时刻结束的预测周期的云服务器的指标数据、实测的云服务器温度作为增量训练样本;并将采集到的增量训练数据发送给数据预处理模块120进行数据预处理;其次,数据预处理模块120对数据采集模块110采集的增量训练样本进行预处理;将预处理后的增量训练样本发送给温度预测模型训练模块130做贝叶斯线性回归模型的增量训练;再其次,温度预测模型训练模块130使用数据预处理模块120产生的预处理后的增量样本对贝叶斯线性回归模型进行增量训练,更新贝叶斯线性回归模型,并在更新完成后触发温度预测模块140利用温度预测模型训练模块130更新后的贝叶斯线性回归模型,对云服务器温度进行预测,得到云服务器温度预测值。至此,一个贝叶斯线性回归在线增量训练及预测实施周期完成。当下一个采样周期初始时刻到来时,温度预测模块140触发数据采集模块110启动采集工作,开始下一个贝叶斯线性回归在线增量训练及预测实施周期。
下面对贝叶斯线性回归模型进行详细说明。
即,贝叶斯线性回归模型的输入样本集合X由n个连续采样周期输入样本组成,这里采用记号:X={X1,X2,...,Xn}。X为矩阵表达形式。Xn表示在第n个采样周期获得的输入样本,在本发明应用实例中输入样本数据包括云服务器的指标数据。贝叶斯线性回归模型输出样本集合y由n个连续采样周期输出样本组成,这里采用记号:y={y1,y2,...,yn}。yn表示在第n个采样周期获得的输出样本,在本发明应用实例中输出样本为实测的云服务器温度数据,具体是实测的云服务器不同部位和/或组件温度的算术平均值。
所述贝叶斯线性回归模型如下:
Figure BDA0002785383320000271
ρ(y|X,β,σ2)表示在给定输入样本集合X,贝叶斯线性回归模型参数β和σ2下,输出样本集合y的条件概率密度函数。如上式所述,输出样本集合y的条件概率服从n维高斯分布。
其中β为输入样本特征的权重向量;σ2为线性回归残差的方差;β,σ2即构成贝叶斯线性回归模型的参数。
接下来对贝叶斯线性回归模型参数β和σ2的先验概率分布进行展开说明。
依据贝叶斯推理原理,共轭先验概率ρ(β,σ2)可以分解为ρ(β,σ2)=ρ(σ2)ρ(β|σ2),选用超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布作为参数β和σ2的先验概率分布。其中方差σ2的概率密度函数形式如下式:
Figure BDA0002785383320000272
方差σ2服从反GAMMA(a0,b0)分布;参数a0和b0为反GAMMA分布的超参数;在本发明应用实例中超参数值的选择为a0=1,b0=1。
给定方差σ2,权重向量β的条件概率密度函数形式如下式:
Figure BDA0002785383320000273
给定方差σ2,β服从高斯
Figure BDA0002785383320000274
分布;期望向量μ0,方差矩阵Λ0为k维高斯分布的超参数;在本发明应用实例中超参数值的选择:
μ0为k维0向量;参数Λ0表示k×k阶单位矩阵;k表示作为输入量的输入样本集合X的特征维度。
接着对模型参数β和σ2的后验概率分布进行展开说明。
模型参数的后验分布由下式计算:
Figure BDA0002785383320000281
其中,ρ(β,σ2|y,X)是给定输入样本集合X和输出样本集合y时的模型参数的后验概率密度函数。后验概率密度等于输出的似然ρ(y|X,β,σ2)乘以给定输入的参数β,σ2的先验概率密度函数ρ(β,σ2)并且除以归一化常数。
具体到贝叶斯线性回归,后验分布为:
Figure BDA0002785383320000282
其中ρ(β|σ2,y,X)为高斯
Figure BDA0002785383320000283
分布的密度函数;
ρ(σ2|y,X)为反GAMMA(an,bn)分布的密度函数。
综上所述,即模型在观测到输入样本集X和输出样本集y后,参数β和σ2的后验概率分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA分布,超参数的计算公式如下:
μn=(XTX+Λ0)-10μ0+XTy)
Λn=(XTX+Λ0)
Figure BDA0002785383320000284
Figure BDA0002785383320000285
参数μn为高斯
Figure BDA0002785383320000286
分布的期望向量;
参数
Figure BDA0002785383320000291
Figure BDA0002785383320000292
分布的方差矩阵;
an,bn为反GAMMA(an,bn)分布的超参数。
经过上述贝叶斯统计推理,贝叶斯线性回归输入特征权重参数β的初始训练最优贝叶斯估计为:
Figure BDA0002785383320000293
使用初始贝叶斯最优线性回归模型对预测周期m结束时刻时云服务器温度的预测值表示为
Figure BDA0002785383320000297
其中
Figure BDA0002785383320000298
表示预测周期m结束时刻的云服务器温度的预测值,Xm表示预测周期m开始时刻的输入云服务器指标数据。
更为具体地,接下来就贝叶斯线性回归增量训练进行详细说明。
在输入样本数n>1的情况下,贝叶斯增量训练以下式表示:
ρ(β,σ2|y1,…,t,X1,…,t)∝ρ(yt|Xt,β,σ2)×ρ(β,σ2|y1,…,t-1,X1,…,t-1)
其中,ρ(β,σ2|y1,…,t,X1,…,t)为在采样周期t观测到所有历史输入样本集合X1,…,t和所有历史输出样本集合y1,…,t的条件下模型参数β,σ2的概率密度函数。此项等于给定当前采样周期输入样本Xt,当前采样周期输出样本yt的似然ρ(yn|Xn,β,σ2)乘以在采样周期n-1中观测到所有历史输入样本集合X1,…,t-1和所有历史输出样本集合y1,…,t-1的条件下模型参数β,σ2的概率密度函数ρ(β,σ2|y1,…,n-1,X1,…,n-1)并归一化。
具体到贝叶斯线性回归,设在采样周期t-1时,模型参数β,σ2的后验概率密度函数为超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA分布,在采样周期t,观测到新的训练样本Xt,yt后,模型参数β,σ2的后验概率密度函数为超参数为μt,Λt,at,bt的高斯-反GAMMA分布。超参数更新公式即增量训练公式如下:
μt=(Xt TXtt-1)-1t-1μt-1+Xt Tyt)
Λt=(Xt TXtt-1)
Figure BDA0002785383320000294
Figure BDA0002785383320000295
经过上述贝叶斯统计推理,在当前采样周期t内,贝叶斯线性回归输入特征权重参数β的增量训练最优贝叶斯估计为:
Figure BDA0002785383320000296
使用当前增量贝叶斯最优线性回归模型对当前预测周期t结束时刻云服务器温度的预测由公式1表示:
Figure BDA0002785383320000301
其中
Figure BDA0002785383320000302
表示当前预测周期t结束时刻的云服务器温度的预测值,Xt表示当前预测周期t开始时刻的模型输入的云服务器指标数据。温度预测模块140基于当前的贝叶斯线性回归模型,通过使用公式1预测当前采样周期上定义的预测周期结束时刻时的云服务器的温度。
进一步地,在实施虚拟机迁移的阶段,虚拟机迁移模块300首先确定要迁移哪些虚拟机以构建待迁移虚拟机列表,然后按照虚拟机迁移优先级确定迁移虚拟机的先后顺序,再然后根据温度预测模块140得到的云服务器预测温度以及云服务器的剩余负荷容量确定目标宿主云服务器,最后完成虚拟机的迁移。在实施虚拟机迁移的阶段的过程中,虚拟机迁移模块300需要针对休眠状态云服务器、低负荷云服务器、告警云服务器、正常运行状态云服务器进行不同的控制,而对于云服务器工作状态的归类标记则由云服务器分类模块200完成。
具体地,如图8所示,所述云服务器分类模块200包括如下模块。
休眠状态云服务器归类模块201:将处于休眠状态的云服务器归类为休眠状态云服务器。
运行状态云服务器归类模块202:将处于运行状态的云服务器归类为运行状态云服务器。
所述运行状态云服务器归类模块202包括如下模块。
低负荷云服务器归类模块20201:将运行状态云服务器节点CPU使用率低于设定的第一阈值的云服务器归类为低负荷云服务器。
告警云服务器归类模块20202:将满足告警条件的云服务器归类为告警云服务器,其中,满足告警条件是指满足如下任一个条件:第一条件,云服务器节点CPU使用率高于设定的第二阈值,其中,第二阈值大于第一阈值;第二条件,云服务器当前的预测温度高于服务器警报温度;
正常运行状态云服务器归类模块20203:将运行状态云服务器列表中不属于低负荷云服务器且不属于告警云服务器的云服务器,归类为正常运行状态云服务器,正常运行状态云服务器可作为宿主云服务器。
如图9所示,所述数据采集模块110包括如下模块。
初始训练数据集构建模块111:利用历史上采样数据,构建初始训练数据集;定义每两个相邻采样时刻间的时段为一个采样周期,在每一个采样周期上定义一个预测周期,预测周期的长度为温度预测模型的预测深度,预测周期初始时刻为同一采样周期初始时刻;其中,将预测周期初始时刻时云服务器的指标数据作为模型输入数据指标,将同一预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标,来构建初始训练数据集。
新增训练数据集构建模块112:获取新增训练数据集;其中,所述新增训练数据集包括:云服务器在当前采样周期初始时刻结束的预测周期初始时刻时的指标数据作为模型输入数据指标、云服务器在当前采样周期初始时刻结束的预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标;其中,所述实测的云服务器温度是指实测的云服务器不同部位和/或组件温度的算术平均值。
其中,如图4所示,所述云服务器温度预测模型训练数据指标包括输入数据指标、输出数据指标。输入数据指标包括如下任一种或任多种数据:云服务器CPU核数;云服务器使用CPU核数;云服务器CPU利用率;云服务器内存量;云服务器内存使用率;云服务器CPU的当前频率;云服务器输入网络流量;云服务器输出网络流量;云服务器每个风扇转速;云服务器部署虚拟机数量。输出数据指标包括如下任一种数据或任多种数据的算数平均值:实测的云服务器进风温度;实测的云服务器出风温度;实测的云服务器CPU温度;实测的云服务器GPU温度。
所述数据预处理模块120包括:初始训练数据集预处理模块121:对初始训练数据集进行预处理;新增训练数据集预处理模块122:对新增训练数据集进行预处理。
所述温度预测模型训练模块130包括如下模块。
初始训练数据集训练模块131:使用预处理后的初始训练数据,对贝叶斯线性回归模型进行初始训练,得到初始的温度预测模型;其中,在贝叶斯线性回归初始训练阶段,选择模型参数先验分布服从给定初始超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布,贝叶斯线性回归模型在完成初始训练后,模型参数后验分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA概率分布,其中n表示初始训练数据集中的最后一个采样周期;超参数μn,Λn,an,bn均为μ0,Λ0,a0,b0及初始训练样本集的简单函数,有解析解。
新增训练数据集训练模块132:使用预处理后的新增训练数据集以增量的方式,对贝叶斯线性回归模型进行在线的增量训练;其中,在贝叶斯线性回归增量训练阶段,当前采样周期t之前的模型参数服从超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA概率分布,在当前采样周期t通过增添采样周期t的采样训练样本,更新当前采样周期t的模型参数为服从超参数μt,Λt,at,bt的高斯-反GAMMA概率分布;超参数μt,Λt,at,bt均为μt-1,Λt-1,at-1,bt-1及增量训练样本的简单函数,有解析解。
所述虚拟机迁移模块300包括如下模块。
云服务器温度获取模块301:遍历所述云数据中心云服务器列表,获取每台云服务器当前时刻所在采样周期上定义的预测周期结束时刻的云服务器温度预测值。
待迁移虚拟机获取模块302:遍历所述低负荷云服务器,得到每台低负荷云服务器中的虚拟机作为待迁移虚拟机,列入待迁移虚拟机列表;遍历所述告警云服务器,得到每台告警云服务器中的最高迁移优先级虚拟机作为待迁移虚拟机,列入待迁移虚拟机列表。
迁移操作模块303:根据各个宿主云服务器的所述预测温度及剩余负荷容量来确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移。
流程结束判断模块304:判断流程是否结束;若是,则结束流程;若否,则触发所述云服务器温度获取模块301在下一个虚拟机迁移规划周期获取云服务器的预测温度。
具体地,在图9中,首先,初始训练数据集构建模块111将构建的初始训练数据集发送给初始训练数据集预处理模块121进行预处理,初始训练数据集预处理模块121将预处理后的初始训练数据集发送给初始训练数据集训练模块131对贝叶斯线性回归模型进行训练,得到初始的温度预测贝叶斯线性回归模型,并触发新增训练数据集构建模块112采集新增训练数据。其次,新增训练数据集构建模块112将构建的新增训练数据集发送给新增训练数据集预处理模块122进行预处理,新增训练数据集预处理模块122将预处理后的新增训练数据集发送给新增训练数据集训练模块132以对当前的贝叶斯线性回归模型进行增量训练,并触发温度预测模块140进行云服务器温度预测,得到云服务器温度预测值。预测过程结束后,在下一个采样周期初始时刻,温度预测模块140触发新增训练数据集构建模块112采集新增训练数据,开启下一个云服务器温度预测模型增量训练预测实施周期。
独立于温度预测模型训练预测模块100对云服务器温度预测模型的增量训练及云服务器温度的预测,由虚拟机迁移模块300控制虚拟机的迁移,其中,在虚拟机迁移规划周期的初始时刻,云服务器温度获取模块301从温度预测模块140获取到包括运行状态云服务器和休眠状态云服务器在内的所有云服务器当前时刻所在采样周期上定义的预测周期结束时刻的预测温度,并触发待迁移虚拟机获取模块302;待迁移虚拟机获取模块302确定需要迁移的虚拟机并触发迁移操作模块303,迁移操作模块303根据云服务器温度获取模块301获取到的云服务器的预测温度并结合云服务器剩余负荷容量,对虚拟机进行迁移,之后触发流程结束判断模块304判断流程是否结束;若流程没有结束,则触发云服务器温度获取模块301获取云服务器的预测温度,开启下一个虚拟机迁移规划周期。其中,待迁移虚拟机获取模块302和迁移操作模块303调用云服务器分配模块200对云服务器进行分类并施加不同的控制。
进一步具体地,结合图9对采样周期、预测周期、监控周期、虚拟机迁移规划周期进行更为具体的说明。采样周期是温度预测模型训练预测模块100的工作周期,其中,温度预测模块140按照采样周期触发新增训练数据集构建模块112采集新增数据。预测周期是温度预测模型的预测深度,大于采样周期,温度预测模块140按照每个采样周期上定义的预测周期作为预测深度进行温度预测。监控周期是云服务器分类模块200监控云服务器状态的工作周期。虚拟机迁移规划周期是虚拟机迁移模块300规划并迁移虚拟机的工作周期,虚拟机迁移规划周期以调度实际所需时间为准,所述监控周期与虚拟机迁移规划周期同步开始与结束。温度预测模型训练预测模块100、虚拟机迁移模块300分别按照采样周期、虚拟机迁移规划周期独立运行,并且虚拟机迁移规划周期大于采样周期,当下一个虚拟机迁移规划周期来到时,云服务器温度获取模块301从温度预测模块140获取的是当前采样周期上定义的预测周期结束时刻的预测温度。
如图10所示,所述初始训练数据集预处理模块121、新增训练数据集预处理模块122均包括如下模块。
数据清洗模块1201:如果在采样时刻t获得的采样数据项的值x′t为空缺值,使用该数据项的历史平均值填充空缺值。
归一化模块1202:对于每一个数据项,将所述初始训练数据集中数据项的最小值、最大值分别记为xmin、xmax,将数据项的原始值x′t映射成近似在区间[0,1]中的新值xt,其公式为:
Figure BDA0002785383320000331
将训练样本中每一数据项经预处理后获得的数据项的值xt合并为预处理后训练样本作为温度预测模型训练模块130中贝叶斯线性回归初始训练和贝叶斯线性回归增量训练的输入。
具体地,在数据采集模块110采集到训练数据后,数据清洗模块1201完成数据清洗并触发归一化模块1202,归一化模块1202对已完成数据清洗的训练数据进行归一化,并将得到归一化数据发送给温度预测模型训练模块130进行训练。
如图11所示,在所述迁移操作模块303中,通过如下模块计算虚拟机迁移优先级V。
用户优先级权重系数获取模块30201:根据用户的月消费金额或年消费金额,以得到用户级别;根据所述用户级别,以得到用户优先级权重系数R;所述用户优先级权重系数R包括0~1之间的数值。
虚拟机常量迁移负荷权重系数获取模块30202:获取所述虚拟机内存大小P;计算运行状态云服务器中所有虚拟机内存大小的平均值Pavg;根据所述虚拟机内存大小P,以及所有运行状态云服务器中所有虚拟机内存大小的平均值Pavg,计算所述虚拟机常量迁移负荷权重系数α,
Figure BDA0002785383320000341
虚拟机增量迁移负荷权重系数获取模块30203:获取所述虚拟机单位时间内存变化率S;计算所有运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg;根据所述虚拟机单位时间内存变化率S,以及运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg,计算所述虚拟机增量迁移负荷权重系数β,
Figure BDA0002785383320000342
虚拟机的迁移优先级获取模块30204:根据所述用户优先级权重系数、虚拟机常量迁移负荷权重系数以及虚拟机增量迁移负荷权重系数,计算所述虚拟机的迁移优先级。
根据迁移优先级计算公式:V=R×(α+β),其中,
Figure BDA0002785383320000343
Figure BDA0002785383320000344
则虚拟机迁移优先级
Figure BDA0002785383320000345
其中,R表示用户优先级权重系数,α表示虚拟机常量迁移负荷权重系数,β表示虚拟机增量迁移负荷权重系数,P表示虚拟机的内存大小,Pavg表示所有运行状态云服务器中全部虚拟机的平均内存大小,S表示虚拟机的单位时间内存变化率,Savg表示所有运行状态云服务器中全部虚拟机的平均的单位时间内存变化率,a为经验参数,取值范围(0,1]。
如图12所示,所述迁移操作模块303包括如下模块。
迁移匹配关系分配模块3031:遍历所述待迁移虚拟机列表中的待迁移虚拟机,对各个待迁移虚拟机进行目标宿主云服务器的分配;
迁移匹配关系输出模块3032:根据迁移匹配关系分配模块3031确立的待迁移虚拟机与目标宿主云服务器的匹配关系,对待迁移虚拟机进行迁移;
其中,所述迁移匹配关系分配模块3031包括:
预测温度排序模块303101:将正常运行云服务器按照云服务器温度获取模块301获取的预测温度从低到高排序,得到排序后的待选择云服务器列表;
待迁移虚拟机遍历模块303102:遍历所述待迁移虚拟机列表中的待迁移虚拟机,获取所述待迁移虚拟机列表中下一个虚拟机作为当前待迁移虚拟机;
待选择云服务器筛选模块303103:依照所述预测温度排序模块303101排序后的待选择云服务器列表的顺序,将满足如下条件的待选择云服务器作为目标宿主云服务器分配给当前待迁移虚拟机:
预测温度小于服务器警报温度阈值;
剩余CPU核数大于待迁移虚拟机的CPU核数需求;
剩余未分配内存量大于待迁移虚拟机的内存需求;
休眠状态云服务器唤醒模块303104:对于待选择云服务器筛选模块303103未分配目标宿主云服务器的当前待迁移虚拟机,从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,将这一云服务器作为当前待选择云服务器分配给待迁移虚拟机。
具体地,结合图9和图12进行说明。在待迁移虚拟机获取模块302的触发下,迁移匹配关系分配模块3031遍历待迁移虚拟机获取模块302提供的所述待迁移虚拟机列表中的待迁移虚拟机,对各个待迁移虚拟机进行目标宿主云服务器的分配,得到待迁移虚拟机与目标宿主云服务器的匹配关系,并将匹配关系发送给迁移匹配关系输出模块3032;迁移匹配关系输出模块3032根据待迁移虚拟机与目标宿主云服务器的匹配关系,对待迁移虚拟机进行迁移,并触发流程结束判断模块304继续处理。
更为具体地,如图12所示,对于给定的待迁移虚拟机列表,预测温度排序模块303101将正常运行云服务器按照预测温度从低到高排序,得到排序后的待选择云服务器列表,然后触发待迁移虚拟机遍历模块303102;待迁移虚拟机遍历模块303102判断待迁移虚拟机列表中虚拟机是否遍历完毕;若是,则触发迁移匹配关系输出模块3032并将匹配关系发送给迁移匹配关系输出模块3032;若否,则获取待迁移虚拟机列表中下一个虚拟机作为当前待迁移虚拟机,然后触发待选择云服务器筛选模块303103;待选择云服务器筛选模块303103依照所述预测温度排序模块303101排序后的待选择云服务器列表的顺序,将满足如下条件的待选择云服务器作为目标宿主云服务器分配给当前待迁移虚拟机:
预测温度小于服务器警报温度阈值;
剩余CPU核数大于待迁移虚拟机的CPU核数需求;
剩余未分配内存量大于待迁移虚拟机的内存需求;
然后,待选择云服务器筛选模块303103触发休眠状态云服务器唤醒模块303104。休眠状态云服务器唤醒模块303104判断若当前的待迁移虚拟机已经被待选择云服务器筛选模块303103分配了目标宿主云服务器,则休眠状态云服务器唤醒模块303104触发待迁移虚拟机遍历模块303102就下一个待迁移虚拟机继续进行处理;若当前的待迁移虚拟机没有被待选择云服务器筛选模块303103分配目标宿主云服务器,则休眠状态云服务器唤醒模块303104从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,并将这一云服务器作为当前待选择云服务器分配给当前待迁移虚拟机,然后再触发待迁移虚拟机遍历模块303102就下一个待迁移虚拟机继续进行处理。
第三实施例
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的基于温度预测的虚拟机迁移规划调度方法的步骤。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (15)

1.一种基于温度预测的虚拟机迁移规划调度方法,其特征在于,包括:
步骤S1:获取云数据中心云服务器列表,获取基于贝叶斯线性回归的温度预测模型对所述云数据中心云服务器列表中的每个云服务器温度的预测值,得到云服务器的预测温度;
步骤S2:将运行状态云服务器列表中负荷监控指标满足低负荷条件的运行状态云服务器,定义为低负荷云服务器,构建低负荷云服务器列表;
步骤S3:遍历所述低负荷云服务器列表,获取每台低负荷云服务器中的虚拟机,并列入待迁移虚拟机列表;
步骤S4:根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;其中,所述宿主云服务器包括正常运行状态云服务器、休眠状态云服务器列表中的云服务器;目标宿主云服务器的选择顺序为优先选择正常运行状态云服务器,无符合匹配条件正常运行状态云服务器时,选择休眠状态云服务器;正常运行状态云服务器定义为运行状态云服务器列表中未列入低负荷云服务器列表且未列入告警云服务器列表的云服务器;
步骤S5:将虚拟机已经全部迁移出的低负荷云服务器设置为休眠状态,列出运行状态云服务器列表,并列入休眠状态云服务器列表;
步骤S6:将所述运行状态云服务器列表中监控指标满足告警条件的运行状态云服务器,定义为告警云服务器,将全部告警云服务器列入告警云服务器列表;
步骤S7:遍历所述告警云服务器列表,得到每台告警云服务器中的最高迁移优先级的虚拟机,并列入待迁移虚拟机列表;
步骤S8:根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;
步骤S9:将虚拟机已经全部迁移出的告警云服务器设置为休眠状态,列出运行状态云服务器列表,并列入休眠状态云服务器列表;
步骤S10:判断流程是否结束;若是,则结束流程;若否,则跳转到所述步骤S1继续执行;
在所述步骤S4和步骤S8中,根据宿主云服务器列表中各个宿主云服务器的所述预测温度及剩余负荷容量确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器的步骤,均采用最小温度服务器分配原则算法,具体包括如下步骤:
步骤A:遍历所述待迁移虚拟机列表中的待迁移虚拟机,对于每个待迁移虚拟机执行第一循环步骤,其中,所述第一循环步骤包括如下步骤:
步骤a:遍历所有正常运行状态云服务器,获取每个正常运行状态云服务器当前的预测温度;
步骤b:将正常运行云服务器按照预测温度从低到高排序,得到排序后的待选择云服务器列表;
步骤c:遍历排序后的待选择云服务器列表,执行第二循环步骤,其中,所述第二循环步骤包括如下步骤:
步骤c1:对于当前待选择云服务器,判断当前待选择云服务器是否满足如下条件:
预测温度小于服务器警报温度阈值;
剩余CPU核数大于待迁移虚拟机的CPU核数需求;
剩余未分配内存量大于待迁移虚拟机的内存需求;
若是,则分配待迁移虚机给当前待选择云服务器,得到目标宿主云服务器;退出第二循环步骤;
若否,则进入步骤c2继续执行;
步骤c2:判断待选择云服务器列表是否存在下一个待选择云服务器;若是,则进入步骤c3继续执行;若否,则跳转到步骤c4继续执行;
步骤c3:将下一个待选择云服务器作为当前待选择云服务器,跳转到步骤c1继续执行;
步骤c4:从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,将这一云服务器作为当前待选择云服务器,跳转到步骤c1继续执行;
步骤B:判断是否存在下一个待迁移虚拟机;若否,则进入步骤C继续执行;若是,则进入步骤A继续执行第一循环步骤;
步骤C:得到待迁移虚拟机与目标宿主云服务器的匹配关系。
2.根据权利要求1所述的基于温度预测的虚拟机迁移规划调度方法,其特征在于,所述步骤S1中的所述温度预测模型,是通过如下步骤得到的:
步骤S101:利用历史上采样数据构建初始训练数据集,对贝叶斯线性回归模型进行初始训练,得到初始的温度预测模型;
步骤S102:在云数据中心日常运行过程中,实时采集新增训练数据集,以增量的方式对当前的云服务器温度预测模型进行在线的增量训练,更新温度预测模型并使用温度预测模型对云服务器未来温度实施预测,获得云服务器未来温度预测值;
其中:
所述步骤S101包括如下步骤:
步骤S10101:定义每两个相邻采样时刻间的时段为一个采样周期,在每一个采样周期上定义一个预测周期,预测周期的长度为温度预测模型的预测深度,预测周期初始时刻为同一采样周期初始时刻;其中,将预测周期初始时刻时云服务器的指标数据作为模型输入数据指标,将同一预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标,来构建初始训练数据集;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
步骤S10102:对初始训练数据集进行预处理;
步骤S10103:利用预处理后的初始训练数据集,对贝叶斯线性回归模型进行训练,获取初始的贝叶斯线性回归模型的参数后验分布函数;
步骤S10104:输出初始的贝叶斯线性回归模型的参数后验分布函数;
所述步骤S102包括如下步骤:
步骤S10201:输入当前的贝叶斯线性回归模型的参数后验分布函数;
步骤S10202:获取新增训练数据集;其中,所述新增训练数据集包括:云服务器在当前采样周期初始时刻结束的预测周期初始时刻时的指标数据作为输入数据指标、云服务器在当前采样周期初始时刻结束的预测周期结束时刻时的实测的云服务器温度作为输出数据指标;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
步骤S10203:对新增训练数据集进行预处理;
步骤S10204:利用预处理后的新增训练数据集对当前的贝叶斯线性回归模型进行增量训练,更新当前贝叶斯线性回归模型的参数后验分布函数;
步骤S10205:获取当前贝叶斯线性回归模型的参数贝叶斯最优估计;
步骤S10206:基于当前的贝叶斯线性回归模型的参数贝叶斯最优估计预测当前预测周期结束时刻时云服务器的温度;
步骤S10207:输出云服务器的预测温度;
步骤S10208:判断云服务器预测温度流程是否结束;若是,则结束流程;若否,则跳转到步骤S10202继续执行。
3.根据权利要求2所述的基于温度预测的虚拟机迁移规划调度方法,其特征在于,所述步骤S10101和步骤S10202中云服务器温度预测模型训练数据指标包括输入数据指标、输出数据指标;
输入数据指标包括如下任一种或任多种数据:
云服务器CPU核数;
云服务器使用CPU核数;
云服务器CPU利用率;
云服务器内存量;
云服务器内存使用率;
云服务器CPU的当前频率;
云服务器输入网络流量;
云服务器输出网络流量;
云服务器每个风扇转速;
云服务器节点部署虚拟机数量;
输出数据指标包括如下任一种数据或任多种数据的算数平均值:
实测的云服务器进风温度;
实测的云服务器出风温度;
实测的云服务器CPU温度;
实测的云服务器GPU温度。
4.根据权利要求2所述的基于温度预测的虚拟机迁移规划调度方法,其特征在于,所述步骤S10102和步骤S10203中的预处理包括如下步骤:
数据清洗步骤:如果在采样时刻t获得的采样输入数据项的值x′t为空缺值,使用该数据项的历史平均值填充空缺值;
归一化步骤:对于每一个输入数据项,将所述步骤S10102中定义的初始训练数据集中数据项的最小值、最大值分别记为xmin、xmax,将输入数据项的原始值x′t映射成近似在区间[0,1]中的新值xt,其公式为:
Figure FDA0002785383310000041
将训练样本中每一输入数据项经预处理后获得的数据项的值xt合并为预处理后训练样本输入数据作为步骤S10103中贝叶斯线性回归初始训练和步骤S10204中贝叶斯线性回归增量训练的输入。
5.根据权利要求2所述的基于温度预测的虚拟机迁移规划调度方法,其特征在于,
所述步骤S10103包括:在贝叶斯线性回归初始训练阶段,选择模型参数先验分布服从给定初始超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布,贝叶斯线性回归模型在完成初始训练后,模型参数后验分布服从超参数为μn,Λn,an,bn的高斯-反GAMMA概率分布,其中n表示初始训练数据集中的最后一个采样周期;超参数μn,Λn,an,bn均为μ0,Λ0,a0,b0及初始训练样本集的简单函数,有解析解;
所述步骤S10204包括:在贝叶斯线性回归增量训练阶段,当前采样周期t之前的模型参数服从超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA概率分布,在当前采样周期t通过增添采样周期t的采样训练样本,更新当前采样周期t的模型参数为服从超参数μt,Λt,at,bt的高斯-反GAMMA概率分布;超参数μt,Λt,at,bt均为μt-1,Λt-1,at-1,bt-1及增量训练样本的简单函数,有解析解。
6.根据权利要求1所述的基于温度预测的虚拟机迁移规划调度方法,其特征在于,低负荷条件是指:运行状态云服务器CPU使用率低于设定的第一阈值;
满足告警条件是指满足如下任一个条件:
第一条件,云服务器CPU使用率高于设定的第二阈值,其中,第二阈值大于第一阈值;
第二条件,云服务器当前的预测温度高于服务器警报温度。
7.根据权利要求1所述的基于温度预测的虚拟机迁移规划调度方法,其特征在于,在所述步骤S8中,根据如下步骤计算虚拟机迁移优先级V:
步骤S801:根据用户的月消费金额或年消费金额,以得到用户级别;根据所述用户级别,以得到用户优先级权重系数R;所述用户优先级权重系数R包括0~1之间的数值;
步骤S802:获取虚拟机内存大小P;计算运行状态云服务器中所有虚拟机内存大小的平均值Pavg;根据所述虚拟机内存大小P,以及所有运行状态云服务器中所有虚拟机内存大小的平均值Pavg,计算虚拟机常量迁移负荷权重系数α,
Figure FDA0002785383310000051
步骤S803:获取虚拟机单位时间内存变化率S;计算所有运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg;根据所述虚拟机单位时间内存变化率S,以及运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg,计算虚拟机增量迁移负荷权重系数β,
Figure FDA0002785383310000061
步骤S804:根据所述用户优先级权重系数、虚拟机常量迁移负荷权重系数以及虚拟机增量迁移负荷权重系数,计算虚拟机的迁移优先级:
根据迁移优先级计算公式:V=R×(α+β),其中,
Figure FDA0002785383310000062
Figure FDA0002785383310000063
则虚拟机迁移优先级
Figure FDA0002785383310000064
其中,R表示用户优先级权重系数,α表示虚拟机常量迁移负荷权重系数,β表示虚拟机增量迁移负荷权重系数,P表示虚拟机的内存大小,Pavg表示所有运行状态云服务器中全部虚拟机的平均内存大小,S表示虚拟机的单位时间内存变化率,Savg表示所有运行状态云服务器中全部虚拟机的平均的单位时间内存变化率,a为经验参数,取值范围(0,1]。
8.一种基于温度预测的虚拟机迁移规划调度系统,其特征在于,包括:
温度预测模型训练预测模块(100):训练基于贝叶斯线性回归的温度预测模型,利用温度预测模型进行温度预测,获得云服务器的预测温度;
云服务器分类模块(200):根据工作状态将云服务器分类为运行状态云服务器、休眠状态云服务器,其中,运行状态云服务器分类为低负荷云服务器、正常运行状态云服务器、告警状态云服务器;
虚拟机迁移模块(300):基于云服务器分类模块(200)对云服务器的分类,根据温度预测模型训练预测模块(100)得到的云服务器的预测温度,将低负荷云服务器上的虚拟机、告警云服务器上的最高迁移优先级的虚拟机迁移到宿主云服务器;其中,宿主云服务器包括正常运行状态云服务器、休眠状态云服务器列表中的云服务器;目标宿主云服务器的选择顺序为优先选择正常运行状态云服务器,无符合匹配条件正常运行状态云服务器时,选择休眠状态云服务器;正常运行状态云服务器定义为运行状态云服务器列表中未列入低负荷云服务器列表且未列入告警云服务器列表的云服务器;
所述温度预测模型训练预测模块(100)包括:
数据采集模块(110):采集云服务器的指标数据、实测的云服务器温度数据;
数据预处理模块(120):对数据采集模块(110)采集的数据进行预处理;
温度预测模型训练模块(130):使用数据预处理模块(120)预处理后的数据对贝叶斯线性回归模型进行训练;
温度预测模块(140):根据温度预测模型训练模块(130)训练得到的当前的贝叶斯线性回归模型进行温度预测,获得云服务器的预测温度;
所述温度预测模型训练模块(130)包括:
初始训练数据集训练模块(131):使用预处理后的初始训练数据,对贝叶斯线性回归模型进行初始训练,得到初始的温度预测模型;其中,在贝叶斯线性回归初始训练阶段,选择模型参数先验分布服从给定初始超参数为μ0,Λ0,a0,b0的高斯-反GAMMA概率分布,贝叶斯线性回归模型在完成初始训练后,模型参数后验分布服从超参数为un,Λn,an,bn的高斯-反GAMMA概率分布,其中n表示初始训练数据集中的最后一个采样周期;超参数μn,Λn,an,bn均为μ0,Λ0,a0,b0及初始训练样本集的简单函数,有解析解;
新增训练数据集训练模块(132):使用预处理后的新增训练数据集以增量的方式,对贝叶斯线性回归模型进行在线的增量训练;其中,在贝叶斯线性回归增量训练阶段,当前采样周期t之前的模型参数服从超参数为μt-1,Λt-1,at-1,bt-1的高斯-反GAMMA概率分布,在当前采样周期t通过增添采样周期t的采样训练样本,更新当前采样周期t的模型参数为服从超参数μt,Λt,at,bt的高斯-反GAMMA概率分布;超参数μt,Λt,at,bt均为μt-1,Λt-1,at-1,bt-1及增量训练样本的简单函数,有解析解。
9.根据权利要求8所述的基于温度预测的虚拟机迁移规划调度系统,其特征在于,所述数据采集模块(110)包括:
初始训练数据集构建模块(111):利用历史上采样数据,构建初始训练数据集;定义每两个相邻采样时刻间的时段为一个采样周期,在每一个采样周期上定义一个预测周期,预测周期的长度为温度预测模型的预测深度,预测周期初始时刻为同一采样周期初始时刻;其中,将预测周期初始时刻时云服务器的指标数据作为模型输入数据指标,将同一预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标,来构建初始训练数据集;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
新增训练数据集构建模块(112):获取新增训练数据集;其中,所述新增训练数据集包括:云服务器在当前采样周期初始时刻结束的预测周期初始时刻时的指标数据作为模型输入数据指标、云服务器在当前采样周期初始时刻结束的预测周期结束时刻时的实测的云服务器温度作为模型输出数据指标;其中,所述实测的云服务器温度定义为实测的云服务器不同部位和/或组件温度的算术平均值;
其中,云服务器温度预测模型训练数据指标包括输入数据指标、输出数据指标;
输入数据指标包括如下任一种或任多种数据:
云服务器CPU核数;
云服务器使用CPU核数;
云服务器CPU利用率;
云服务器内存量;
云服务器内存使用率;
云服务器CPU的当前频率;
云服务器输入网络流量;
云服务器输出网络流量;
云服务器每个风扇转速;
云服务器部署虚拟机数量;
输出数据指标包括如下任一种数据或任多种数据的算数平均值:
实测的云服务器进风温度;
实测的云服务器出风温度;
实测的云服务器CPU温度;
实测的云服务器GPU温度。
10.根据权利要求8所述的基于温度预测的虚拟机迁移规划调度系统,其特征在于,所述数据预处理模块(120)包括:
初始训练数据集预处理模块(121):对初始训练数据集进行预处理;
新增训练数据集预处理模块(122):对新增训练数据集进行预处理;
所述初始训练数据集预处理模块(121)、新增训练数据集预处理模块(122)均包括:
数据清洗模块(1201):如果在采样时刻t获得的采样数据项的值x′t为空缺值,使用该数据项的历史平均值填充空缺值;
归一化模块(1202):对于每一个数据项,将所述初始训练数据集中数据项的最小值、最大值分别记为xmin、xmax,将数据项的原始值x′t映射成近似在区间[0,1]中的新值xt,其公式为:
Figure FDA0002785383310000081
将训练样本中每一数据项经预处理后获得的数据项的值xt合并为预处理后训练样本作为温度预测模型训练模块(130)中贝叶斯线性回归初始训练和贝叶斯线性回归增量训练的输入。
11.根据权利要求8所述的基于温度预测的虚拟机迁移规划调度系统,其特征在于,所述云服务器分类模块(200)包括:
休眠状态云服务器归类模块(201):将处于休眠状态的云服务器归类为休眠状态云服务器;休眠状态云服务器能够作为宿主云服务器;
运行状态云服务器归类模块(202):将处于运行状态的云服务器归类为运行状态云服务器;
所述运行状态云服务器归类模块(202)包括:
低负荷云服务器归类模块(20201):将运行状态云服务器节点CPU使用率低于设定的第一阈值的云服务器归类为低负荷云服务器;
告警云服务器归类模块(20202):将满足告警条件的云服务器归类为告警云服务器,其中,满足告警条件是指满足如下任一个条件:
第一条件,云服务器节点CPU使用率高于设定的第二阈值,其中,第二阈值大于第一阈值;
第二条件,云服务器当前的预测温度高于服务器警报温度;
正常运行状态云服务器归类模块(20203):将运行状态云服务器列表中不属于低负荷云服务器且不属于告警云服务器的云服务器,归类为正常运行状态云服务器,正常运行状态云服务器能够作为宿主云服务器。
12.根据权利要求8所述的基于温度预测的虚拟机迁移规划调度系统,其特征在于,所述虚拟机迁移模块(300)包括:
云服务器温度获取模块(301):遍历云数据中心云服务器列表,获取每台云服务器当前时刻所在采样周期上定义的预测周期结束时刻的云服务器温度预测值;
待迁移虚拟机获取模块(302):遍历低负荷云服务器,得到每台低负荷云服务器中的虚拟机作为待迁移虚拟机,列入待迁移虚拟机列表;遍历告警云服务器,得到每台告警云服务器中的最高迁移优先级虚拟机作为待迁移虚拟机,列入待迁移虚拟机列表;
迁移操作模块(303):根据各个宿主云服务器的预测温度及剩余负荷容量来确定所述待迁移虚拟机列表中每个虚拟机的目标宿主云服务器,并完成虚拟机迁移;
流程结束判断模块(304):判断流程是否结束;若是,则结束流程;若否,则触发所述云服务器温度获取模块(301)进入下一个虚拟机迁移规划周期,继续执行获取云服务器预测温度。
13.根据权利要求12所述的基于温度预测的虚拟机迁移规划调度系统,其特征在于,在所述待迁移虚拟机获取模块(302)中,通过如下模块计算虚拟机迁移优先级V:
用户优先级权重系数获取模块(30201):根据用户的月消费金额或年消费金额,以得到用户级别;根据所述用户级别,以得到用户优先级权重系数R;所述用户优先级权重系数R包括0~1之间的数值;
虚拟机常量迁移负荷权重系数获取模块(30202):获取虚拟机内存大小P;计算运行状态云服务器中所有虚拟机内存大小的平均值Pavg;根据所述虚拟机内存大小P,以及所有运行状态云服务器中所有虚拟机内存大小的平均值Pavg,计算虚拟机常量迁移负荷权重系数α,
Figure FDA0002785383310000101
虚拟机增量迁移负荷权重系数获取模块(30203):获取虚拟机单位时间内存变化率S;计算所有运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg;根据所述虚拟机单位时间内存变化率S,以及运行状态云服务器中所有虚拟机单位时间内存变化率的平均值Savg,计算虚拟机增量迁移负荷权重系数β,
Figure FDA0002785383310000102
虚拟机的迁移优先级获取模块(30204):根据所述用户优先级权重系数、虚拟机常量迁移负荷权重系数以及虚拟机增量迁移负荷权重系数,计算虚拟机的迁移优先级:
根据迁移优先级计算公式:V=R×(α+β),其中,
Figure FDA0002785383310000103
Figure FDA0002785383310000104
则虚拟机迁移优先级
Figure FDA0002785383310000105
其中,R表示用户优先级权重系数,α表示虚拟机常量迁移负荷权重系数,β表示虚拟机增量迁移负荷权重系数,P表示虚拟机的内存大小,Pavg表示所有运行状态云服务器中全部虚拟机的平均内存大小,S表示虚拟机的单位时间内存变化率,Savg表示所有运行状态云服务器中全部虚拟机的平均的单位时间内存变化率,a为经验参数,取值范围(0,1]。
14.根据权利要求12所述的基于温度预测的虚拟机迁移规划调度系统,其特征在于,所述迁移操作模块(303)包括:
迁移匹配关系分配模块(3031):遍历所述待迁移虚拟机列表中的待迁移虚拟机,对各个待迁移虚拟机进行目标宿主云服务器的分配;
迁移匹配关系输出模块(3032):根据迁移匹配关系分配模块(3031)确立的待迁移虚拟机与目标宿主云服务器的匹配关系,对待迁移虚拟机进行迁移;
其中,所述迁移匹配关系分配模块(3031)包括:
预测温度排序模块(303101):将正常运行云服务器按照云服务器温度获取模块(301)获取的预测温度从低到高排序,得到排序后的待选择云服务器列表;
待迁移虚拟机遍历模块(303102):遍历所述待迁移虚拟机列表中的待迁移虚拟机,获取所述待迁移虚拟机列表中下一个虚拟机作为当前待迁移虚拟机;
待选择云服务器筛选模块(303103):依照所述预测温度排序模块(303101)排序后的待选择云服务器列表的顺序,将满足如下条件的待选择云服务器作为目标宿主云服务器分配给当前待迁移虚拟机:
预测温度小于服务器警报温度阈值;
剩余CPU核数大于待迁移虚拟机的CPU核数需求;
剩余未分配内存量大于待迁移虚拟机的内存需求;
休眠状态云服务器唤醒模块(303104):对于待选择云服务器筛选模块(303103)未分配目标宿主云服务器的当前待迁移虚拟机,从休眠状态云服务器列表中列出一云服务器,将这一云服务器列入正常运行状态云服务器列表,将这一云服务器作为当前待选择云服务器分配给待迁移虚拟机。
15.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于温度预测的虚拟机迁移规划调度方法的步骤。
CN202011296139.7A 2020-07-30 2020-07-30 虚拟机迁移规划调度方法及其系统与介质 Active CN112395046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011296139.7A CN112395046B (zh) 2020-07-30 2020-07-30 虚拟机迁移规划调度方法及其系统与介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010748491.3A CN111625321B (zh) 2020-07-30 2020-07-30 基于温度预测的虚拟机迁移规划调度方法及其系统与介质
CN202011296139.7A CN112395046B (zh) 2020-07-30 2020-07-30 虚拟机迁移规划调度方法及其系统与介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202010748491.3A Division CN111625321B (zh) 2020-07-30 2020-07-30 基于温度预测的虚拟机迁移规划调度方法及其系统与介质

Publications (2)

Publication Number Publication Date
CN112395046A true CN112395046A (zh) 2021-02-23
CN112395046B CN112395046B (zh) 2021-06-04

Family

ID=72258622

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010748491.3A Active CN111625321B (zh) 2020-07-30 2020-07-30 基于温度预测的虚拟机迁移规划调度方法及其系统与介质
CN202011296139.7A Active CN112395046B (zh) 2020-07-30 2020-07-30 虚拟机迁移规划调度方法及其系统与介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010748491.3A Active CN111625321B (zh) 2020-07-30 2020-07-30 基于温度预测的虚拟机迁移规划调度方法及其系统与介质

Country Status (1)

Country Link
CN (2) CN111625321B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534936A (zh) * 2021-09-14 2021-10-22 苏州浪潮智能科技有限公司 一种服务器风扇转速控制方法、装置、设备及介质
TWI825538B (zh) * 2021-03-19 2023-12-11 聯發科技股份有限公司 任務排程方法、遷移方法及系統

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036504A (zh) * 2020-09-15 2020-12-04 平安国际智慧城市科技股份有限公司 温度测量模型的训练方法、装置、设备及存储介质
CN112231066B (zh) * 2020-10-29 2024-02-13 北京思特奇信息技术股份有限公司 一种基于jvm内存使用的优化处理方法及系统
CN112379974A (zh) * 2020-12-04 2021-02-19 海光信息技术股份有限公司 一种虚拟机热迁移系统及其热迁移方法
CN113342462B (zh) * 2021-06-02 2022-03-15 燕山大学 融合限制周期性拟休眠的云计算优化方法、系统及介质
CN115167641B (zh) * 2022-07-07 2023-06-20 凯德技术长沙股份有限公司 一种惯性自适应温控方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984588A (zh) * 2014-02-21 2014-08-13 中国科学院计算技术研究所 一种基于温度的虚拟机迁移方法及其系统
CN106537354A (zh) * 2014-07-22 2017-03-22 日本电气株式会社 虚拟化基础设施管理装置、虚拟化基础设施管理系统、虚拟化基础设施管理方法和用于记录虚拟化基础设施管理程序的记录介质
CN106598733A (zh) * 2016-12-08 2017-04-26 南京航空航天大学 一种云计算能耗关键的三维度虚拟资源调度方法
CN107408062A (zh) * 2015-03-27 2017-11-28 英特尔公司 用于卸载和加载处理器/协处理器安排的数据的技术
CN107748693A (zh) * 2017-11-30 2018-03-02 成都启力慧源科技有限公司 云计算环境下的群组虚拟机调度策略
CN108092836A (zh) * 2016-11-21 2018-05-29 深圳市蓝希领地科技有限公司 一种服务器的监控方法及装置
US20180329734A1 (en) * 2017-05-11 2018-11-15 International Business Machines Corporation Migration-adjusted problem ticket analysis and consolidation
CN109375994A (zh) * 2018-09-10 2019-02-22 西安交通大学 基于rbf神经网络的数据中心任务温度预测及调度方法
CN109697108A (zh) * 2018-12-19 2019-04-30 国云科技股份有限公司 一种基于代价模型的多数据中心调度方法
CN109992350A (zh) * 2017-12-29 2019-07-09 北京华胜天成科技股份有限公司 云计算系统的资源池中虚拟机的迁移方法及装置
CN110333991A (zh) * 2019-05-30 2019-10-15 武汉科技大学 云平台任务最大资源使用率预测方法
CN110362388A (zh) * 2018-04-11 2019-10-22 中移(苏州)软件技术有限公司 一种资源调度方法及装置
US20200034171A1 (en) * 2018-07-25 2020-01-30 Vmware, Inc. Methods and apparatus to adjust energy requirements in a data center
CN110908783A (zh) * 2019-11-09 2020-03-24 苏州浪潮智能科技有限公司 一种云数据中心虚拟机的管控方法、系统及设备
CN111124602A (zh) * 2019-11-29 2020-05-08 苏州浪潮智能科技有限公司 一种基于bmc温度的虚拟机远程调控方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096461B (zh) * 2011-01-13 2013-06-19 浙江大学 基于虚拟机迁移和负载感知整合的云数据中心节能方法
WO2014000779A1 (en) * 2012-06-27 2014-01-03 Qatar Foundation An arrangement configured to allocate resources of a plurality of data storage media to a plurality virtual machines and associated method
CN104035542B (zh) * 2014-05-28 2017-06-06 中国科学院计算技术研究所 一种计算与制冷能耗权衡的虚拟机迁移方法及系统
CN106972899A (zh) * 2017-05-11 2017-07-21 同济大学 一种基于多用户历史感知数据挖掘的协作频谱感知方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984588A (zh) * 2014-02-21 2014-08-13 中国科学院计算技术研究所 一种基于温度的虚拟机迁移方法及其系统
CN106537354A (zh) * 2014-07-22 2017-03-22 日本电气株式会社 虚拟化基础设施管理装置、虚拟化基础设施管理系统、虚拟化基础设施管理方法和用于记录虚拟化基础设施管理程序的记录介质
CN107408062A (zh) * 2015-03-27 2017-11-28 英特尔公司 用于卸载和加载处理器/协处理器安排的数据的技术
CN108092836A (zh) * 2016-11-21 2018-05-29 深圳市蓝希领地科技有限公司 一种服务器的监控方法及装置
CN106598733A (zh) * 2016-12-08 2017-04-26 南京航空航天大学 一种云计算能耗关键的三维度虚拟资源调度方法
US20180329734A1 (en) * 2017-05-11 2018-11-15 International Business Machines Corporation Migration-adjusted problem ticket analysis and consolidation
CN107748693A (zh) * 2017-11-30 2018-03-02 成都启力慧源科技有限公司 云计算环境下的群组虚拟机调度策略
CN109992350A (zh) * 2017-12-29 2019-07-09 北京华胜天成科技股份有限公司 云计算系统的资源池中虚拟机的迁移方法及装置
CN110362388A (zh) * 2018-04-11 2019-10-22 中移(苏州)软件技术有限公司 一种资源调度方法及装置
US20200034171A1 (en) * 2018-07-25 2020-01-30 Vmware, Inc. Methods and apparatus to adjust energy requirements in a data center
CN109375994A (zh) * 2018-09-10 2019-02-22 西安交通大学 基于rbf神经网络的数据中心任务温度预测及调度方法
CN109697108A (zh) * 2018-12-19 2019-04-30 国云科技股份有限公司 一种基于代价模型的多数据中心调度方法
CN110333991A (zh) * 2019-05-30 2019-10-15 武汉科技大学 云平台任务最大资源使用率预测方法
CN110908783A (zh) * 2019-11-09 2020-03-24 苏州浪潮智能科技有限公司 一种云数据中心虚拟机的管控方法、系统及设备
CN111124602A (zh) * 2019-11-29 2020-05-08 苏州浪潮智能科技有限公司 一种基于bmc温度的虚拟机远程调控方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOJUN RUAN: ""Virtual machine allocation and migration based on performance-to-power ratio in energy-efficient clouds"", 《FUTURE GENERATION COMPUTER SYSTEMS》 *
刘家磊: ""可靠性感知的云服务供应机制研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI825538B (zh) * 2021-03-19 2023-12-11 聯發科技股份有限公司 任務排程方法、遷移方法及系統
CN113534936A (zh) * 2021-09-14 2021-10-22 苏州浪潮智能科技有限公司 一种服务器风扇转速控制方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111625321B (zh) 2020-10-23
CN111625321A (zh) 2020-09-04
CN112395046B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112395046B (zh) 虚拟机迁移规划调度方法及其系统与介质
CN110096349B (zh) 一种基于集群节点负载状态预测的作业调度方法
Zhang et al. Slaq: quality-driven scheduling for distributed machine learning
Hu et al. Spear: Optimized dependency-aware task scheduling with deep reinforcement learning
US10761897B2 (en) Predictive model-based intelligent system for automatically scaling and managing provisioned computing resources
CN103729248B (zh) 一种基于缓存感知的确定待迁移任务的方法和装置
CN103607459B (zh) 一种云计算平台IaaS层的动态资源监测及调度方法
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN110389820B (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
JP2017228086A (ja) 機械学習管理プログラム、機械学習管理方法、および機械学習管理装置
CN102831012A (zh) 多节点分布式系统中的任务调度装置和任务调度方法
CN106528266A (zh) 一种云计算系统中的资源动态调整方法及装置
WO2024087512A1 (zh) 一种图神经网络压缩方法、装置、电子设备及存储介质
Wang et al. Energy utilization task scheduling for mapreduce in heterogeneous clusters
CN115168027A (zh) 一种基于深度强化学习的算力资源度量方法
Huang et al. Novel heuristic speculative execution strategies in heterogeneous distributed environments
Atli et al. Resource-constrained project scheduling problem with multiple execution modes and fuzzy/crisp activity durations
CA2637987C (en) Method for autonomic system management using adaptive allocation of resources
CN113205128A (zh) 基于无服务器计算的分布式深度学习性能保证方法
Chen et al. A fuzzy-neural approach for remaining cycle time estimation in a semiconductor manufacturing factory—a simulation study
CN116501505B (zh) 负载任务的数据流生成方法、装置、设备及介质
CN112905343A (zh) 一种工业云环境下基于负载特性的资源调度系统
Serrano-Ruiz et al. Job shop smart manufacturing scheduling by deep reinforcement learning
CN115934349A (zh) 一种资源调度方法、装置、设备及计算机可读存储介质
CN112000478B (zh) 作业运行资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant