CN104104730B - 面向高可靠性的云系统虚拟机任务备份装置、系统及方法 - Google Patents
面向高可靠性的云系统虚拟机任务备份装置、系统及方法 Download PDFInfo
- Publication number
- CN104104730B CN104104730B CN201410359403.5A CN201410359403A CN104104730B CN 104104730 B CN104104730 B CN 104104730B CN 201410359403 A CN201410359403 A CN 201410359403A CN 104104730 B CN104104730 B CN 104104730B
- Authority
- CN
- China
- Prior art keywords
- physical machine
- machine
- time
- failure
- calculate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种面向高可靠性的云系统虚拟机任务备份装置、系统及方法,属于云计算领域。本发明避免了过量点数据对决策的影响。采用趋势分析的方法,动态的决定下一次控制的时机,避免了“控制过密”和“控制过疏”的情况,同时动态的调整新增任务的数量。本发明动态的决定从高风险物理机向低风险物理机进行任务备份的策略,更好的同实时的系统可靠性波动相适应。
Description
技术领域
本发明属于云计算领域,特别是涉及一种面向高可靠性的云系统虚拟机任务备份装置、系统及方法。
背景技术
云计算是指将计算分布在大量的分布式计算机上,使用云计算平台通过网络为用户提供信息服务称为“云服务”。相对于传统的软件形态,云计算具有松散耦合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现金的电子商务、柔性制造、移动互联网等应用。云计算包含两个方面的含义:一个方面是底层构建的云计算平台基础设施,是用来构建上层应用程序的基础;另一方面的含义是构建在这个基础平台之上的云计算应用程序。云计算是通过系统虚拟化、多处理器虚拟化、内存虚拟化、I/O虚拟化等虚拟化技术将物理资源虚拟化成资源池,这些资源再由云系统平台进行统一的管理调度。目前,有很多企业和科研机构推出了自己的云系统,面向用户提供计算资源和存储资源。最具有代表性的是亚马逊(Amazon)的弹性计算云EC2(Elastic Compute Cloud)。
同其他软硬件系统一样,云系统中的主要计算单元,物理机(PM,PhysicalMachine),在运行时也会产生偶发错误和失效,从而导致任务逻辑和控制逻辑的混乱,进而影响系统的可靠性。PM上运行的软件任务,主要以虚拟机(VM,Virtual Machine)的形式存在。VM由云系统的任务管理器生成、分发、并部署于PM上。VM在PM上的执行,将占用该PM的计算、存储、和I/O(输入输出)等资源,VM执行完成后,将释放所占用的资源。一个PM能同时支撑和运行多个VM。
为了减轻物理机失效所带来的负面影响,现今的云系统多采用VM进程备份的技术,其基本思想为:在云系统运行时评估各个物理机的生存状况和失效可能性,将潜在失效可能性较大的物理机上的VM进程,备份到其他失效可能性较低的物理机上,从而提高系统整体的可靠性。
然而,传统的面向高可靠性的VM进程备份方法,存在诸多的不足:
(1)进程备份的时机具有滞后性,往往等到物理机已经出现可靠性劣化时才开始进行进程备份,甚至在备份未完成时就已经出现物理机失效。
(2)往往人为的预先指定进程备份的目的主机,而没有动态的考虑可嵌入主机的实时可靠性变化,因而易出现目的物理机性能/可靠性劣化,而不再适合作为备份目标对象的情况。
(3)没有考虑每个物理机失效间隔时间的概率分布,从而无法预定出哪个物理机在未来一段时间内失效概率最大。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种确保云系统高可靠性的虚拟机任务备份方法。
为实现上述目的,本发明提供了一种面向高可靠性的云系统虚拟机任务备份方法,其特征在于包括以下步骤:
步骤一、收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;
步骤二、分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j};
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率;
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点;0.01<YZ<0.1;
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量;
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值0至1之间的实数;
步骤三、计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
步骤四、确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1;
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;
计算获取最低风险的物理机;
步骤五、判断是否g和d都不为0;
当g和d都不为0时,执行步骤六;否则返回执行步骤一;
步骤六、获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;
获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
步骤七、将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
采用以上技术方案,以动态的分析云系统运行时可靠性的变化趋势,预测物理机未来的失效可能性并实时的决定虚拟机任务的备份策略,从而确保了云系统的高可靠性。
进一步的,所述步骤七完成后,等待设定时间KZDD后返回执行步骤一,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
较佳的,通过计算得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒。
采用以上技术方案,能够针对1、没有对高风险主机的虚拟机任务备份;2、实际备份任务数量小于最高风险物理机上需要备份的任务数量;3、高于高风险阈值的物理机数量大于低于低风险阈值的物理机的数量;以及不属于上述三种情况的其他情况来设定开始下一次备份工作的等待时间,进一步的提高了云系统运行的可靠性。
本发明要解决的另一技术问题是提供一种确保云系统高可靠性的虚拟机任务备份装置。
为了实现上述目的,本发明提供了一种面向高可靠性的云系统虚拟机任务备份装置,包括可靠性监测模块、控制决策模块和备份控制模块;所述可靠性监测模块由物理机可靠性数据监测单元和失效间隔时间分析单元组成;所述控制决策模块由物理机预期失效可能性计算单元和备份策略决定单元组成;所述物理机可靠性数据监测单元的输出端连接所述失效间隔时间分析单元的输入端,所述失效间隔时间分析单元的输出端连接所述物理机预期失效可能性计算单元的输入端,所述物理机预期失效可能性计算单元的输出端连接所述备份策略决定单元的输入端,所述备份策略决定单元的输出端连接所述备份控制模块的输入端;
所述物理机可靠性数据监测单元收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;
所述失效间隔时间分析单元用于分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j};
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率;
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点;0.01<YZ<0.1;
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量;
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值0至1之间的实数;
所述物理机预期失效可能性计算单元用于计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
所述备份策略决定单元用于确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1;
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;
计算获取最低风险的物理机;
所述备份控制模块用于将高风险物理机上的虚拟机任务备份到低风险物理机:
判断是否g和d都不为0;当g和d都不为0时,获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
进一步的,所述备份控制模块等待设定时间KZDD后,重新收集云系统中物理机的可靠性数据,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
较佳的,所述备份控制模块通过计算
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒。
本发明还要解决的技术问题是提供一种确保云系统高可靠性的虚拟机任务备份系统。
为实现上述目的,本发明提供了一种面向高可靠性的云系统虚拟机任务备份系统,包括云系统的服务器,所述服务器内设置有云系统虚拟机任务备份装置,所述云系统虚拟机任务备份装置包括可靠性监测模块、控制决策模块和备份控制模块;所述可靠性监测模块由物理机可靠性数据监测单元和失效间隔时间分析单元组成;所述控制决策模块由物理机预期失效可能性计算单元和备份策略决定单元组成;所述物理机可靠性数据监测单元的输出端连接所述失效间隔时间分析单元的输入端,所述失效间隔时间分析单元的输出端连接所述物理机预期失效可能性计算单元的输入端,所述物理机预期失效可能性计算单元的输出端连接所述备份策略决定单元的输入端,所述备份策略决定单元的输出端连接所述备份控制模块的输入端;
所述物理机可靠性数据监测单元收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;
所述失效间隔时间分析单元用于分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j};
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率;
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点;0.01<YZ<0.1;
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量;
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值0至1之间的实数;
所述物理机预期失效可能性计算单元用于计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
所述备份策略决定单元用于确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1;
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;
计算获取最低风险的物理机;
所述备份控制模块用于将高风险物理机上的虚拟机任务备份到低风险物理机:
判断是否g和d都不为0;当g和d都不为0时,获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
进一步的,所述备份控制模块等待设定时间KZDD后,重新收集云系统中物理机的可靠性数据,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
较佳的,所述备份控制模块通过计算
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒。
本发明的有益效果是:本发明避免了过量点数据对决策的影响,采用趋势分析的方法,动态的决定下一次控制的时机,避免了“控制过密”和“控制过疏”的情况,同时动态的调整新增任务的数量。本发明动态的决定从高风险物理机向低风险物理机进行任务备份的策略,更好的同实时的系统可靠性波动相适应。
附图说明
图1是本发明面向高可靠性的云系统虚拟机任务备份方法一具体实施方式的流程示意图。
图2是本发明面向高可靠性的云系统虚拟机任务备份装置一具体实施方式的电路原理示意图。
图3是本发明面向高可靠性的云系统虚拟机任务备份系统一具体实施方式的电路原理示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
如图1所示,一种面向高可靠性的云系统虚拟机任务备份方法,包括以下步骤:
步骤一、收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取最近k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;本实施例中,50<k<100。
步骤二、分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j}。
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1。
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率。
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点,GLDi,j为1时表示SXJGi,j是过量点,GLDi,j为0时表示SXJGi,j不是过量点;所述YZ为预先给定的阈值量,0.01<YZ<0.1,本实施例中YZ取值为0.05。上述方案的直观意义是,当一个失效间隔时间记录值在负指数分布的寿命累计函数的对应计算结果大于1减去阈值,或者小于阈值时,则认为该失效间隔时间记录值为一个过量点。
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量。
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值0至1之间的实数,其作用是使最近的失效时刻对RQLi的影响较大,而越早的影响越小;上述方案的直观意义是:物理机Mi的未来预期失效率可计算为其未来预期失效间隔时间的倒数,而后者又可以计算为历史失效间隔时间记录值加上乘以距离弱化效应的多步失效间隔值增量值的均值。
步骤三、计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;所述T为计算物理机预期失效可能性时时钟的时刻。
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
步骤四、确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1,本实施例中GFX为0.95,DFX为0.05。
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值物理机数量和低于低风险阈值的物理机数量;其中,num为求集合元素数量的操作。
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;其中,max和min分别为求集合元素中最大值和最小值的操作。
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;
计算获取最低风险的物理机;
若g和d均为0,则表示没有找到满足符合上述条件的物理机。
步骤五、判断是否g和d都不为0;
当g和d都不为0时,执行步骤六;否则返回执行步骤一;
步骤六、获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;
获取物理机Mg上运行的虚拟机任务数量,YXSL;获取SYZD和YXSL为现有技术,在此不再赘述。
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
步骤七、将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
步骤八、等待设定时间KZDD后返回执行步骤一,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒,本实施例中MRDD为500毫秒。本实施例中,A取值为5,B取值为2.
上述公式的直观意义是,若本次没有实现对至少一个高风险主机的虚拟机任务备份,或者实际备份任务数量小于最高风险物理机上需要备份的任务数量,则将控制等待时间设为默认等待时间的五分之一,表示系统处于极高的可靠性风险中,须马上开始下一次任务备份工作;反之,若高于高风险阈值的物理机数量大于低于低风险阈值的物理机的数量,则表明系统处于较高的可靠性风险中,须稍后开始下一次任务备份工作;若非上述两个情况,则说明系统处于一般的可靠性风险中,须等待默认的MRDD时间后开始下一次任务备份工作。
如图2所示,一种面向高可靠性的云系统虚拟机任务备份装置,包括可靠性监测模块3、控制决策模块4和备份控制模块5;所述可靠性监测模块3由物理机可靠性数据监测单元301和失效间隔时间分析单元302组成;所述控制决策模块4由物理机预期失效可能性计算单元401和备份策略决定单元402组成;所述物理机可靠性数据监测单元301的输出端连接所述失效间隔时间分析单元302的输入端,所述失效间隔时间分析单元302的输出端连接所述物理机预期失效可能性计算单元401的输入端,所述物理机预期失效可能性计算单元401的输出端连接所述备份策略决定单元402的输入端,所述备份策略决定单元402的输出端连接所述备份控制模块5的输入端。
所述物理机可靠性数据监测单元301收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取最近k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n。
所述失效间隔时间分析单元302用于分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j}。
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率。
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点,GLDi,j为1时表示SXJGi,j是过量点,GLDi,j为0时表示SXJGi,j不是过量点;所述YZ为预先给定的阈值量,0.01<YZ<0.1,本实施例中YZ取值为0.05。
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量。
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为距离弱化因子,其作用是使最近的失效时刻对RQLi的影响较大,而越早的影响越小;γ满足0.5<γ<1。
所述物理机预期失效可能性计算单元401用于计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间。
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值。
所述备份策略决定单元402用于确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1,本实施例中GFX为0.95,DFX为0.05。
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;其中,num为求集合元素数量的操作。
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;其中,max和min分别为求集合元素中最大值和最小值的操作。
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;
计算获取最低风险的物理机;
若g和d均为0,则表示没有找到满足符合上述条件的物理机。
所述备份控制模块5用于将高风险物理机上的虚拟机任务备份到低风险物理机:
判断是否g和d都不为0;当g和d都不为0时,获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
所述备份控制模块5等待设定时间KZDD后,重新收集云系统中物理机的可靠性数据,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
所述备份控制模块5通过计算
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒,本实施例中MRDD为500毫秒。
如图3所示,一种面向高可靠性的云系统虚拟机任务备份系统,包括云系统的服务器1,所述服务器1内设置有云系统虚拟机任务备份装置2,所述云系统虚拟机任务备份装置2包括可靠性监测模块3、控制决策模块4和备份控制模块5;所述可靠性监测模块3由物理机可靠性数据监测单元301和失效间隔时间分析单元302组成;所述控制决策模块4由物理机预期失效可能性计算单元401和备份策略决定单元402组成;所述物理机可靠性数据监测单元301的输出端连接所述失效间隔时间分析单元302的输入端,所述失效间隔时间分析单元302的输出端连接所述物理机预期失效可能性计算单元401的输入端,所述物理机预期失效可能性计算单元401的输出端连接所述备份策略决定单元402的输入端,所述备份策略决定单元402的输出端连接所述备份控制模块5的输入端。
所述物理机可靠性数据监测单元301收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取最近k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n。
所述失效间隔时间分析单元302用于分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j}。
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率。
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点,GLDi,j为1时表示SXJGi,j是过量点,GLDi,j为0时表示SXJGi,j不是过量点;所述YZ为预先给定的阈值量,0.01<YZ<0.1,本实施例中YZ取值为0.05。
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量。
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为距离弱化因子,其作用是使最近的失效时刻对RQLi的影响较大,而越早的影响越小;γ满足0.5<γ<1。
所述物理机预期失效可能性计算单元401用于计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间。
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值。
所述备份策略决定单元402用于确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1,本实施例中GFX为0.95,DFX为0.05。
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;其中,num为求集合元素数量的操作。
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;其中,max和min分别为求集合元素中最大值和最小值的操作。
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;
计算获取最低风险的物理机;
若g和d均为0,则表示没有找到满足符合上述条件的物理机。
所述备份控制模块5用于将高风险物理机上的虚拟机任务备份到低风险物理机:
判断是否g和d都不为0;当g和d都不为0时,获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
所述备份控制模块5等待设定时间KZDD后,重新收集云系统中物理机的可靠性数据,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
所述备份控制模块5通过计算
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒,本实施例中MRDD为500毫秒。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种面向高可靠性的云系统虚拟机任务备份方法,其特征在于包括以下步骤:
步骤一、收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;
步骤二、分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j};
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率;
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点;
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量;
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值在0至1之间的实数;
步骤三、计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
步骤四、确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1;
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;其中,1≤x≤n,所述x为物理机中最高失效风险值对应的序号,所述x满足:WLSXx=ZGFX;
计算获取最低风险的物理机;其中,1≤y≤n,所述y为物理机中最低失效风险值对应的序号,所述y满足:WLSXy=ZDFX;
步骤五、判断是否g和d都不为0;
当g和d都不为0时,执行步骤六;否则返回执行步骤一;
步骤六、获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;
获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
步骤七、将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
2.如权利要求1所述的面向高可靠性的云系统虚拟机任务备份方法,其特征是:所述步骤七完成后,等待设定时间KZDD后返回执行步骤一,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
3.如权利要求2所述的面向高可靠性的云系统虚拟机任务备份方法,其特征是:计算得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒。
4.一种面向高可靠性的云系统虚拟机任务备份装置,其特征在于:包括可靠性监测模块(3)、控制决策模块(4)和备份控制模块(5);所述可靠性监测模块(3)由物理机可靠性数据监测单元(301)和失效间隔时间分析单元(302)组成;所述控制决策模块(4)由物理机预期失效可能性计算单元(401)和备份策略决定单元(402)组成;所述物理机可靠性数据监测单元(301)的输出端连接所述失效间隔时间分析单元(302)的输入端,所述失效间隔时间分析单元(302)的输出端连接所述物理机预期失效可能性计算单元(401)的输入端,所述物理机预期失效可能性计算单元(401)的输出端连接所述备份策略决定单元(402)的输入端,所述备份策略决定单元(402)的输出端连接所述备份控制模块(5)的输入端;
所述物理机可靠性数据监测单元(301)收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;
所述失效间隔时间分析单元(302)用于分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j};
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率;
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点;
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量;
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值0至1之间的实数;
所述物理机预期失效可能性计算单元(401)用于计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
所述备份策略决定单元(402)用于确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1;
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;其中,1≤x≤n,所述x为物理机中最高失效风险值对应的序号,所述x满足:WLSXx=ZGFX;
计算获取最低风险的物理机;其中,1≤y≤n,所述y为物理机中最低失效风险值对应的序号,所述y满足:WLSXy=ZDFX;
所述备份控制模块(5)用于将高风险物理机上的虚拟机任务备份到低风险物理机:
判断是否g和d都不为0;当g和d都不为0时,获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
5.如权利要求4所述的面向高可靠性的云系统虚拟机任务备份装置,其特征是:所述备份控制模块(5)等待设定时间KZDD后,重新收集云系统中物理机的可靠性数据,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
6.如权利要求5所述的面向高可靠性的云系统虚拟机任务备份装置,其特征是:所述备份控制模块(5)通过计算
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒。
7.一种面向高可靠性的云系统虚拟机任务备份系统,包括云系统的服务器(1),其特征在于:所述服务器(1)内设置有云系统虚拟机任务备份装置(2),所述云系统虚拟机任务备份装置(2)包括可靠性监测模块(3)、控制决策模块(4)和备份控制模块(5);所述可靠性监测模块(3)由物理机可靠性数据监测单元(301)和失效间隔时间分析单元(302)组成;所述控制决策模块(4)由物理机预期失效可能性计算单元(401)和备份策略决定单元(402)组成;所述物理机可靠性数据监测单元(301)的输出端连接所述失效间隔时间分析单元(302)的输入端,所述失效间隔时间分析单元(302)的输出端连接所述物理机预期失效可能性计算单元(401)的输入端,所述物理机预期失效可能性计算单元(401)的输出端连接所述备份策略决定单元(402)的输入端,所述备份策略决定单元(402)的输出端连接所述备份控制模块(5)的输入端;
所述物理机可靠性数据监测单元(301)收集云系统中物理机的可靠性数据:
设定云系统中有n个物理机,获取k次各物理机Mi失效出现的时刻SXi,1,SXi,2,...SXi,k;n和k均为正整数,1≤i≤n;
所述失效间隔时间分析单元(302)用于分析物理机的失效间隔时间分布函数:
A1、设定计算各物理机Mi失效间隔时间序列{SXJGi,1,SXJGi,2,...SXJGi,j};
SXJGi,j=SXi,k-SXi,k-1,1≤j≤k-1;
A2、设定所述失效间隔时间序列的平均失效率为XLSXLi;计算得到失效间隔时间序列的平均失效率;
A3、确定失效间隔时间序列中的过量点,用标记变量GLDi,j来表示SXJGi,j是否为过量点;
A4、设定物理机Mi的多步对数失效间隔值增量为DXZLi,u,v,1≤u<v≤k-1;
计算得到物理机Mi的多步对数失效间隔值增量;
A5、设定各物理机的未来预期失效率为RQLi:
计算得到各物理机的未来预期失效率;所述γ为取值0至1之间的实数;
所述物理机预期失效可能性计算单元(401)用于计算物理机预期失效可能性:
设定各物理机在时间点T时的存活时间为CHi:计算CHi=T-SXi,k得到各物理机的存活时间;
设定各物理机的将来失效可能性值为WLSXi;计算得到各物理机的将来失效可能性值;
所述备份策略决定单元(402)用于确定任务备份的源和目的主机:
设定GFX为高风险阈值,DFX为低风险阈值,0.9<GFX<1,0<DFX<0.1;
设定高于高风险阈值的主机数量为QC,低于低风险阈值的主机数量为QR,计算QC=num{i|WLSXi>GFX,1≤i≤n}和QR=num{i|WLSXi<DFX,1≤i≤n}分别得到高于高风险阈值的物理机数量和低于低风险阈值的物理机数量;
设定ZGFX为物理机中最高失效风险值,ZDFX为物理机中最低失效风险值;计算ZGFX=max{WLSXi|1≤i≤n}和ZDFX=min{WLSXi|1≤i≤n}分别得到物理机中最高失效风险值和物理机中最低失效风险值;
设定Mg为最高风险的物理机,Md为最低风险的物理机;
计算获取最高风险的物理机;其中,1≤x≤n,所述x为物理机中最高失效风险值对应的序号,所述x满足:WLSXx=ZGFX;
计算获取最低风险的物理机;其中,1≤y≤n,所述y为物理机中最低失效风险值对应的序号,所述y满足:WLSXy=ZDFX;
所述备份控制模块(5)用于将高风险物理机上的虚拟机任务备份到低风险物理机:
判断是否g和d都不为0;当g和d都不为0时,获取物理机Md上剩余可支持的虚拟机任务数量的最大值,SYZD;获取物理机Mg上运行的虚拟机任务数量,YXSL;
设定QYSL为实际可备份虚拟机数量,计算QYSL=min{SYZD,YXSL}得到实际可备份虚拟机的数量;
将物理机Mg上的QYSL个虚拟机任务,备份到物理机Md上。
8.如权利要求7所述的面向高可靠性的云系统虚拟机任务备份系统,其特征是:所述备份控制模块(5)等待设定时间KZDD后,重新收集云系统中物理机的可靠性数据,直到云系统停止运行;20毫秒≤KZDD≤1000毫秒。
9.如权利要求8所述的面向高可靠性的云系统虚拟机任务备份系统,其特征是:所述备份控制模块(5)通过计算
得到等待设定时间KZDD;所述A和B均为正整数,MRDD为预先设定的默认等待时间,100毫秒<MRDD<1000毫秒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410359403.5A CN104104730B (zh) | 2014-07-25 | 2014-07-25 | 面向高可靠性的云系统虚拟机任务备份装置、系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410359403.5A CN104104730B (zh) | 2014-07-25 | 2014-07-25 | 面向高可靠性的云系统虚拟机任务备份装置、系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104104730A CN104104730A (zh) | 2014-10-15 |
CN104104730B true CN104104730B (zh) | 2017-03-29 |
Family
ID=51672529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410359403.5A Expired - Fee Related CN104104730B (zh) | 2014-07-25 | 2014-07-25 | 面向高可靠性的云系统虚拟机任务备份装置、系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104104730B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104780075B (zh) * | 2015-03-13 | 2018-02-23 | 浪潮电子信息产业股份有限公司 | 一种云计算系统可用性评估方法 |
CN104767806B (zh) * | 2015-03-31 | 2018-09-25 | 重庆大学 | 一种云数据中心任务备份的方法、装置和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073556A (zh) * | 2010-12-08 | 2011-05-25 | 北京航空航天大学 | 虚拟机的热备份和恢复方法、设备及系统 |
CN102521083A (zh) * | 2011-12-13 | 2012-06-27 | 广州杰赛科技股份有限公司 | 一种云计算系统中虚拟机备份方法和系统 |
CN103036949A (zh) * | 2012-11-27 | 2013-04-10 | 华中科技大学 | 一种虚拟化环境下Cassandra系统的优化方法和系统 |
CN103685542A (zh) * | 2013-12-23 | 2014-03-26 | 重庆广播电视大学 | 云虚拟机迁移方法、装置和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8407518B2 (en) * | 2007-10-26 | 2013-03-26 | Vmware, Inc. | Using virtual machine cloning to create a backup virtual machine in a fault tolerant system |
US9703584B2 (en) * | 2013-01-08 | 2017-07-11 | Commvault Systems, Inc. | Virtual server agent load balancing |
-
2014
- 2014-07-25 CN CN201410359403.5A patent/CN104104730B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073556A (zh) * | 2010-12-08 | 2011-05-25 | 北京航空航天大学 | 虚拟机的热备份和恢复方法、设备及系统 |
CN102521083A (zh) * | 2011-12-13 | 2012-06-27 | 广州杰赛科技股份有限公司 | 一种云计算系统中虚拟机备份方法和系统 |
CN103036949A (zh) * | 2012-11-27 | 2013-04-10 | 华中科技大学 | 一种虚拟化环境下Cassandra系统的优化方法和系统 |
CN103685542A (zh) * | 2013-12-23 | 2014-03-26 | 重庆广播电视大学 | 云虚拟机迁移方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104104730A (zh) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109324875B (zh) | 一种基于强化学习的数据中心服务器功耗管理与优化方法 | |
Calheiros et al. | Virtual machine provisioning based on analytical performance and QoS in cloud computing environments | |
US8402140B2 (en) | Methods and apparatus for coordinated energy management in virtualized data centers | |
US9720738B2 (en) | Datacenter scheduling of applications using machine learning techniques | |
Abd Latiff | A checkpointed league championship algorithm-based cloud scheduling scheme with secure fault tolerance responsiveness | |
US9037880B2 (en) | Method and system for automated application layer power management solution for serverside applications | |
US9396039B1 (en) | Scalable load testing using a queue | |
WO2017167025A1 (zh) | 一种实现任务调度的方法、装置及计算机存储介质 | |
CN105302630B (zh) | 一种虚拟机的动态调整方法及其系统 | |
CN104657215A (zh) | 云计算中虚拟化节能系统 | |
EP3170076A1 (en) | System and method for electronic work prediction and dynamically adjusting server resources | |
US20150058844A1 (en) | Virtual computing resource orchestration | |
US8788864B2 (en) | Coordinated approach between middleware application and sub-systems | |
Sampaio et al. | Towards high-available and energy-efficient virtual computing environments in the cloud | |
CN107851039A (zh) | 用于资源管理的系统和方法 | |
Lango | Toward software-defined SLAs | |
CN115004156A (zh) | 实时多租户工作负载跟踪和自动节流 | |
CA3189144A1 (en) | Power aware scheduling | |
Caglar et al. | A performance interferenceaware virtual machine placement strategy for supporting soft realtime applications in the cloud | |
Gribaudo et al. | Performance evaluation of replication policies in microservice based architectures | |
Kang et al. | A SLA driven VM auto-scaling method in hybrid cloud environment | |
Chu et al. | Cost-efficient and resilient job life-cycle management on hybrid clouds | |
CN104104730B (zh) | 面向高可靠性的云系统虚拟机任务备份装置、系统及方法 | |
CN110659108A (zh) | 一种云系统虚拟机任务迁移方法及装置、服务器 | |
Cui et al. | Shadows on the Cloud: An Energy-aware, Profit Maximizing Resilience Framework for Cloud Computing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170329 Termination date: 20200725 |