CN103957229A - IaaS云系统中物理机的主动更新方法、装置及服务器 - Google Patents

IaaS云系统中物理机的主动更新方法、装置及服务器 Download PDF

Info

Publication number
CN103957229A
CN103957229A CN201310750935.7A CN201310750935A CN103957229A CN 103957229 A CN103957229 A CN 103957229A CN 201310750935 A CN201310750935 A CN 201310750935A CN 103957229 A CN103957229 A CN 103957229A
Authority
CN
China
Prior art keywords
physical machine
cloud system
historical failure
iaas cloud
failure data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310750935.7A
Other languages
English (en)
Other versions
CN103957229B (zh
Inventor
闫明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310750935.7A priority Critical patent/CN103957229B/zh
Publication of CN103957229A publication Critical patent/CN103957229A/zh
Application granted granted Critical
Publication of CN103957229B publication Critical patent/CN103957229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种IaaS云系统中物理机的主动更新方法、装置及服务器,其中的主动更新方法包括以下步骤:获取IaaS云系统中每台物理机的历史故障数据;逐台对获取的历史故障数据进行分析处理,获得每台物理机历史故障数据的分布规律,并基于所得分布规律预测相应物理机的下次故障数据;依据预测结果对相应物理机执行更新操作,本发明的IaaS云系统中物理机的主动更新方法通过对每台物理机的历史故障数据进行分析、建模,获得物理机故障的发生规律并依据所获得的规律对下次故障发生点进行预测,动态的调整物理机的更新时机,与现有技术中设定固定更新时间或仅依据历史故障数据平均值的方法相比,可以更好的兼顾更新系统开销和云系统可靠性。

Description

IaaS云系统中物理机的主动更新方法、装置及服务器
技术领域
本发明属于云计算技术领域,涉及云计算运行中的资源实施调度和优化控制技术,具体涉及一种IaaS云系统中物理机(Physical Machine,PM)的主动更新方法、装置及服务器。 
背景技术
云计算是指将计算分布在大量的分布式计算机上,使用云计算平台、通过网络为用户提供信息服务的计算模式。相对于传统的软件形态,云计算具有松散耦合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现今的电子商务、柔性制造、移动互联网等应用。 
云计算包含两个方面的含义:一个方面是底层构建的云计算平台基础设施,是用来构建上层应用程序的基础;另一方面的含义是构建在这个基础平台之上的云计算应用程序。 
云计算按照服务类型可分为三类:将基础设施作为服务(Infrastructure as a Service,IaaS)、将平台作为服务(Platform as a Service,PaaS)和将软件作为服务(Software as a Service,SaaS)。IaaS模式云计算平台是通过系统虚拟化、多处理器虚拟化、内存虚拟化、I/O虚拟化等虚拟化技术将物理资源虚拟化成资源池,这些资源再由云计算平台进行统一的管理调度。目前,有很多企业和科研机构推出了IaaS云计算平台,面向用户提供计算资源和存储资源。最具有代表性的是亚马逊(Amazon)的弹性计算云(Elastic Compute Cloud,EC2)。 
同其他软硬件系统中的模块一样,IaaS云中的主要计算资源,物理机在运行时也受到硬件故障和软件故障的制约。当PM出现上述故障和故障时,其上运行的应用和程序(主要以虚拟机(Visual Machine,VM)实例的形式存在)也随之故障。当系统监测到故障后,开始对故障的PM和其上的VM进行修复,具体而言,先将故障的VM的最近存档点(checkpoint)映像(image)提取出来并转移到系统的后备存储或后备PM上,然后对PM进行恢复(硬重启或软重启),最后将提取出的VM映像重新加载到已恢复的PM上并执行启动。 
上述这种事后修复的措施,存在一定的不足:从PM故障到故障被系统检测到还有一段时间的延迟,因此可能出现“系统向已经故障的PM继续派遣任务”的错误;故障时VM的状态与最近存档点的保存的VM映像所代表的状态有所区别,因此PM修复后实际上是将所涉及的VM还原到故障前某时刻而非故障时的状态,这实际上导致了无用功;故障后修复的系统开销较大,对IaaS云系统的性能的负面影响较大。为了避免上述问题,IaaS云系统多采用“故障后修复”与“主动更新(rejuevenation)”相结合的策略。主动更新是指,在PM还未出现故障时,就主动停止其运行并将其上的VM状态保存,待PM重启完成时,重新加载保存的 VM状态并继续执行。相对于故障后修复,主动更新的优势在于:更新通常只是进行重启工作,故其系统开销远小于修复;由于更新重启后恢复的是更新前最后一刻的VM状态,因此VM执行进度不受影响,不存在无用功。 
然而,如何确定PM主动更新的时机,却是一个技术难点。如果主动更新间隔时间过短,更新过于频繁,PM故障出现的可能性降低,然而更新带来的系统开销将抵消PM故障率降低产生的系统性能提升;如果更新间隔时间过大,更新过于稀疏,则PM故障先于更新出现的概率增大,系统不得不以事后修复作为主要的维护措施,带来可靠性和性能的损失,失去了主动更新的意义。 
在此背景下,如何动态的根据IaaS云的运行时状态来尽心更新时机的决策,从而实现系统开销和性能的双赢,变成为了研究的热点和难点。 
云计算本身属于一个新兴技术领域,相关的技术、理论和方法还处于成长期,现有的IaaS云系统的PM更新技术,存在诸多不足: 
(1)多采用固定周期PM更新的手段。现有的IaaS系统多预先设定一个固定的间隔时间进行周期性的更新。然而,由于系统负载、可靠性的动态可变性,固定间隔时间的更新往往难以兼顾更新操作开销少和系统可靠性高的要求; 
(2)缺乏量化趋势预测的机制。现有的IaaS云维护技术,没有充分的对系统历史故障数据进行分析和建模,而多是机械的采用历史平均或最近历史故障数据作为依据进行控制决策; 
(3)没有考虑不同PM的差别。现有的技术将IaaS云系统中的各个PM一视同仁,采取同样的控制策略和控制时间间隔,而没有考虑不同PM在负载、执行效率、可靠性上的差异。 
发明内容
本发明的目的在于克服现有技术中的上述问题,提供一种能够兼顾更新开销、云系统可靠性和PM差异性的IaaS云系统中物理机的主动更新方法、装置及服务器。 
为解决上述技术问题,本发明采用以下技术方案: 
一种IaaS云系统中物理机的主动更新方法,包括以下步骤: 
获取IaaS云系统中每台PM的历史故障数据; 
逐台对获取的历史故障数据进行处理,获得每台PM历史故障数据的分布规律,并基于所得分布规律预测相应PM的下次故障数据; 
依据预测结果对相应PM执行更新操作。 
进一步的技术方案是,上述IaaS云系统中物理机的主动更新方法贯穿整个IaaS云系统运 行过程。 
进一步的技术方案是分别对获取的每台PM的历史故障数据进行平滑处理,并区分每台PM历史故障数据中的平滑点和非平滑点。 
进一步地,上述的平滑处理可以采用最小二乘法、傅里叶变换或其他具有相同技术效果的方法。 
进一步地,上述的平滑处理可以采用以下方法: 
对于第j台PM的第i个历史故障数据gzi,j, 
首先,计算该历史故障数据的曲度余弦值yxi,j: 
yx i , j = gz i , j 2 - gz i - 1 , j × gz i , j - gz i , j × gz i + 1 , j + gz i + 1 , j × gz i - 1 , j 1 + ( gz i , j - gz i - 1 , j ) 2 × 1 + ( gz i , j - gz i + 1 , j ) 2
其中,gzi-1,j为gzi,j的前一点,gzi+1,j为gzi,j的后一点,yxi,j表示了以相邻三个历史故障数gzi-1,j、gzi,j、gzi+1,j进行三角函数匹配的对应的凹凸度,其值表示了三点间的平滑程度,值越大表示越平滑,反之则越突出; 
然后,计算第j台PM的历史故障数据的平均曲度PJQDj: 
PJQDj=mean{yxi,j|0<i≤DQL} 
其中,DQL为测得的历史故障数据的个数; 
最后,为测得的每个历史故障数据设一个标记变量IFTi,j: 
IFT i , j = 1 if yx i , j < &beta; &times; PJQD j 0 else
其中,β为经验系数,0<β<0.5,一般取为0.1;IFTi,j=1表示对应的历史故障数据为平滑点,反之为非平滑点。 
进一步地,基于上述平滑处理结果,求历史故障数据中平滑点的平均斜率及非平滑点的平均影响力,由所得平滑点的平均斜率和非平滑点的平均影响力共同预测下一个故障数据。 
进一步地,上述的非平滑点的平均影响力YXL可以定义如下: 
YXL j = &Sigma; 0 < i &le; DQL TP i , j &times; &alpha; ( DQL - i ) &Sigma; 0 < i &le; DQL &alpha; ( DQL - i )
TP i , j = gz i , j - gz i - 1 , j if IFT i , j = 1 , IFT i - 1 , j = 0 0
其中,α表示衰减因子,0<α<1,其直观作用是作为一种权重,使距离目前越远的非 平滑点的影响力越小,而较近的非平滑点的影响力较大; 
进一步地,所述IaaS云系统中PM的历史故障数据可以为故障间隔时间。 
进一步地,所述PM历史故障间隔时间样本yb的获取包括以下步骤: 
设定一个时间间隔jg; 
统计第i轮时间间隔jg内第j台PM的故障次数csi,j; 
第i轮时间间隔jg内第j台PM的故障间隔时间ybi,j为: 
yb i , j = jg cs i , j if cs i , j > 0 jg &times; xs j else - - - ( 1 )
由式(1)可见,对于某一台PM来说,历史故障间隔时间样本yb的序数与检测的时间间隔jg的轮数一一对应,即i表示时间间隔的轮数,同时表示历史故障间隔时间样本的序数,0<i≤DQL,DQL为时间间隔的当前轮数,也表示历史故障间隔时间样本yb的个数;xsj为松驰系数,其计算式如下: 
xs j = ( 1 - bl j ) &times; e 1 mean { jg cs i , j | cs i , j > 0 } + ( bl j ) &times; jg jg - - - ( 2 )
其中,mean表示求集合中元素平均值的操作,blj表示第j个PM在历史记录中未出现故障记录的比例,即: 
bl j = num { cs i , j | cs i , j = 0,0 < i &le; DQL } i - - - ( 3 )
其中,num表示求集合元素个数的操作; 
一种基于上述的IaaS云系统中物理机的主动更新方法的IaaS云系统中物理机的主动更新装置,主要包括: 
IaaS云分析模块,用于获取IaaS云系统中各PM的历史故障数据记录值,并为每个PM决策是否进行更新操作; 
IaaS管理模块,用于接收决策信息,并为对应的PM执行更新操作。 
进一步地,上述IaaS云分析模块包括: 
数据获取单元,从IaaS云系统开始运行起,所述数据获取单元就持续不断的获取各PM的历史故障数据; 
数据处理单元,用于接收来自数据获取单元的历史故障数据,并对历史故障数据进行处理,; 
预测单元,用于接收处理后的历史故障数据,分析历史故障的发生规律并基于所得发生规律预测下次故障的发生点; 
决策控制单元,接收预测单元预测的下次故障发生点,并作出更新决策信息; 
存储单元,用于存储关于IaaS云系统中物理机的主动更新方法的程序,该程序指令相关的单元完成相应的步骤;所述存储单元还用于存储每台PM的历史故障数据。 
进一步地,所述存储单元可以为磁碟、光盘、ROM/RAM等。 
进一步地,所述IaaS管理模块包括PM更新管理单元,所述PM更新管理单元用于接收IaaS云分析模块决策控制单元发出的更新决策信息,并对相应的PM执行更新。 
一种IaaS云系统中物理机的主动更新服务器,包括上述IaaS云系统中物理机的主动更新装置。 
与现有技术相比,本发明的有益效果是: 
(1)本发明的IaaS云系统中物理机的主动更新方法通过对每台PM的历史故障数据进行分析、建模,获得PM故障的发生规律并依据所获得的规律对下次故障发生点进行预测,动态的调整PM的更新时机,与现有技术中设定固定更新时间或仅依据历史故障数据平均值的方法相比,可以更好的兼顾更新系统开销和云系统可靠性; 
(2)本发明的IaaS云系统中物理机的主动更新方法还兼顾各物理机的差异性,依据不同的故障发生规律对每台PM采取不同的控制策略,有效节约系统开销; 
(3)本发明的IaaS云系统中物理机的主动更新方法通过对获得的PM的历史故障数据进行平滑处理,辨识数据中的非平滑点即异常数据,提高故障发生规律模型的准确性,提供下次故障预测的准确性; 
(4)本发明的IaaS云系统中物理机的主动更新方法,相对于传统的“故障发生事后补救”技术方案,在故障出现前采取主动更新和故障规避的策略,大大减少了系统维护和灾害恢复的难度和成本; 
(5)本发明的IaaS云系统中物理机的主动更新方法原理简单,容易实现,便于推广应用。 
附图说明
图1为本发明的IaaS云系统中物理机的主动更新方法的流程图; 
图2为本发明的IaaS云系统中物理机的主动装置的组成结构示意图。 
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。 
如图1所述,本实施例中的IaaS云系统中物理机的主动更新方法,包括以下步骤: 
S1、获取IaaS云系统中每台PM的历史故障数据,方面起见,本实施例的历史故障数据优选为历史故障时间间隔,其获取过程具体如下: 
S11、设定一个时间间隔jg; 
S12、统计时间间隔jg内每台PM的故障次数csi,j,其中,i表示轮数,0<i≤DQL,DQL为时间间隔的当前轮数;j表示PM的编号,0<j≤PMSL,PMSL为IaaS云系统中PM的总数; 
S13、求历史故障间隔时间ybi,j,第i轮时间间隔jg内第j台PM的故障间隔时间ybi,j为: 
yb i , j = jg cs i , j if cs i , j > 0 jg &times; xs j else - - - ( 1 )
其中,xsj为松驰系数,其计算式如下: 
xs j = ( 1 - bl j ) &times; e 1 mean { jg cs i , j | cs i , j > 0 } + ( bl j ) &times; jg jg - - - ( 2 )
其中,mean表示求集合中元素平均值的操作,blj表示第j台PM在历史记录中未出现故障记录的比例,即: 
bl j = num { cs i , j | cs i , j = 0,0 < i &le; DQL } i - - - ( 3 )
其中,num表示求集合元素个数的操作。 
直观来看,松驰系数xsj表示了第j台PM的故障间隔时间近似经验分布期望值与时间间隔jg的比值。 
由式(1)可知,对于某一台PM来说,历史故障间隔时间样本yb与检测的时间间隔jg的轮数一一对应,即i表示时间间隔的轮数,同时表示历史故障间隔时间样本的序数。 
S2、逐台对获取的历史故障间隔时间yb进行分析,获得每台PM历史故障间隔时间yb的 分布规律,并基于获取的分布规律预测相应PM的下次故障间隔时间,具体来讲: 
S21、对获取的历史故障间隔时间yb进行平滑处理,这是由于实际的云系统运行受到诸多系统因素,如消息异常延迟、连接带宽变化、运算资源冲突等的影响,获取的历史故障数据中往往存在明显脱离整体变化规律的数据,也就是所谓的异常点,这些点并不能真实的反映系统的靠性特性,需要区别对待这部分数据,具体的平滑处理如下: 
针对ybi,j,首先计算其曲度余弦值yxi,j: 
yx i , j = yb i , j 2 - yb i - 1 , j &times; yb i , j - yb i , j &times; yb i + 1 , j + yb i + 1 , j &times; yb i - 1 , j 1 + ( yb i , j - yb i - 1 , j ) 2 &times; 1 + ( yb i , j - yb i + 1 , j ) 2 - - - ( 4 )
其中,ybi-1,j为ybi,j的前一点,ybi+1,j为ybi,j的后一点,yxi,j表示了以相邻ybi-1,j、ybi,j、ybi+1,j三点进行三角函数匹配对应的凹凸度,其值表示三点间的平滑程度,值越大,表示越平滑,反之则越突出。 
然后,计算每台PM历史故障间隔时间yb的平均曲度PJQDj
PJQDj=mean{yxi,j|0<i≤DQL}    (5) 
最后,为每个记录值ybi,j设一个标记变量IFTi,j,用来记录此记录值是否为非平滑点: 
IFT i , j = 1 if yx i , j < &beta; &times; PJQD j 0 else - - - ( 6 )
其中β为设定的经验系数,0<β<0.5,一般可取为0.1。 
S22、获取每台PM历史故障间隔时间yb的分布规律并预测下次故障间隔时间: 
S221、计算每台PM的yb平滑点的平均斜率XLj: 
XL j = mean { yb k , j - yb l , j k - i | DQL &GreaterEqual; l &GreaterEqual; 1 , IFT l , j &NotEqual; 1 , IFT k , j &NotEqual; 1 } - - - ( 7 )
XLj表示对未来故障间隔时间变化趋势强弱的预期。 
S222、计算每台PM的yb非平滑点的平均影响力YXLj: 
YXL j = &Sigma; 0 < i &le; DQL TP i , j &times; &alpha; ( DQL - i ) &Sigma; 0 < i &le; DQL &alpha; ( DQL - i ) - - - ( 8 )
TP i , j = yb i , j - yb i - 1 , j if IFT i , j = 1 , IFT i - 1 , j = 0 0 - - - ( 9 )
其中,α表示衰减因子,0<α<1,其直观作用是作为一种权重,使距离目前越远的非平滑点的影响力越小,而较近的非平滑点的影响力较大; 
S223、计算每台PM的下一次故障间隔时间ybi+1,j: 
ybi+1,j=YXLi,j+XLi,j×(i+1)    (10) 
S23、发出决策信息,计算每台PM下一次故障间隔时间ybi+1,j的分布分位数FWSj: 
FWS j = 1 - e - 1 XCGZ j &times; jg - - - ( 11 )
对于第j台PM,如果其FWSj小于给定的控制比例系数,则对其发出更新消息。 
其更新时间应在本次故障发生时间与下一次故障间隔时间ybi+1,j之和之前进行。 
S3、IaaS云系统对被发出更新信息的PM执行更新,具体而言,当IaaS云系统收到第j台PM更新的消息后,首先将第j台PM上的VM进程停止,然后将停止的VM映像拷贝到后备存储或后备PM上,重启第j个PM,将拷贝出的VM映象重新加载到第j个PM上,最后将这些VM映象恢复到执行状态。 
作为优选,上述IaaS云系统中物理机的主动更新方法与IaaS云系统同时开始运行,直至IaaS云系统停止运行为止。 
上述对获取的历史故障间隔时间yb进行的平滑处理还可以采用最小二乘法、傅里叶变换或其他具有相同技术效果的方法。 
本实施例还公开了一种基于上述的IaaS云系统中物理机的主动更新方法的IaaS云系统中物理机的主动更新装置,如图2所示,该更新装置主要包括: 
IaaS云分析模块,其作用在于获取IaaS云系统中各PM的历史故障数据,在本实施例中,该历史故障数据为历史故障间隔时间,并为每台PM是否进行更新进行决策; 
IaaS管理模块,用于接收来自IaaS云分析模块的决策信息,并为对应的PM执行更新操作。 
上述IaaS云分析模块包括: 
数据获取单元,其作用在于持续不断的获取各PM的历史故障数据; 
数据处理单元,用于接收来自数据获取单元的历史故障数据,并对历史故障数据的数据进行平滑处理; 
预测单元,用于接收平滑处理后的历史故障数据,分析历史故障的发生规律并基于所得发生规律预测下次故障数据; 
决策控制单元,接收预测单元预测的下次故障数据,并作出更新决策; 
存储单元,用于存储关于IaaS云系统中物理机的主动更新方法的程序,该程序指令相关的单元完成相应的步骤。所述存储单元可以为磁碟、光盘、ROM/RAM等,所述存储单元还用于存储每台PM的历史故障数据。 
上述IaaS管理模块包括PM更新管理单元,所述PM更新管理单元用于接收IaaS云分析模块决策控制单元发出的更新决策信息,并对相应的PM执行更新。 
本实施例的IaaS云系统中物理机的主动更新装置可以部署于现有的服务器中也可以部署于单独设置的专用服务器中,包含有本实施例的IaaS云系统中物理机的主动更新装置的服务器也落入本发明的保护范围。 
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。 

Claims (10)

1.一种IaaS云系统中物理机的主动更新方法,其特征在于:包括以下步骤: 
获取IaaS云系统中每台物理机的历史故障数据; 
逐台对获取的历史故障数据进行处理,获得每台物理机历史故障数据的分布规律,并基于所得分布规律预测相应物理机的下次故障数据; 
依据预测结果对相应物理机执行更新操作。 
2.根据权利要求1所述的IaaS云系统中物理机的主动更新方法,其特征在于:所述IaaS云系统中物理机的主动更新方法贯穿整个IaaS云系统运行过程。 
3.根据权利要求1所述的IaaS云系统中物理机的主动更新方法,其特征在于:分别对获取的每台物理机的历史故障数据进行平滑处理,并区分每台物理机历史故障数据中的平滑点和非平滑点。 
4.根据权利要求3所述的IaaS云系统中物理机的主动更新方法,其特征在于:所述平滑处理可以采用最小二乘法、傅里叶变换法或以下方法: 
对于第j台物理机的第i个历史故障数据gzi,j, 
首先,计算该历史故障数据的曲度余弦值yxi,j: 
其中,gzi-1,j为gzi,j的前一点,gzi+1,j为gzi,j的后一点,yxi,j表示了以相邻三个历史故障数gzi-1,j、gzi,j、gzi+1,j进行三角函数匹配的对应的凹凸度,其值表示了三点间的平滑程度,值越大表示越平滑,反之则越突出; 
然后,计算第i台物理机的历史故障数据的平均曲度PJQDj: 
PJQDj=mean{yxi,j|0<i≤DQL} 
其中,DQL为测得的历史故障数据的个数; 
最后,为测得的每个历史故障数据设一个标记变量IFTi,j: 
其中,β为经验系数,0<β<0.5,一般取为0.1;IFTi,j=1表示对应的历史故障数据为平滑点,反之为非平滑点。 
5.根据权利要求3权利要求所述的IaaS云系统中物理机的主动更新方法,其特征在于:求历史故障数据中平滑点的平均斜率及非平滑点的平均影响力,由所得平滑点的平均斜率和非平滑点的平均影响力共同预测下一个故障数据。 
6.根据权利要求5所述的IaaS云系统中物理机的主动更新方法,其特征在于:所述非平滑点的平均影响力YXL定义如下: 
其中,α表示衰减因子,0<α<1。 
7.根据权利要求1~6任一项权利要求所述的IaaS云系统中物理机的主动更新方法,其特征在于:所述历史故障数据为历史故障间隔时间,所述历史故障间隔时间样本yb的获取包括以下步骤: 
设定一个时间间隔jg; 
统计第i轮时间间隔jg内第j台物理机的故障次数csi,j; 
第i轮时间间隔jg内第j台物理机的故障间隔时间ybi,j为: 
由式(1)可见,对于某一台物理机来说,历史故障间隔时间样本yb与检测的时间间隔jg的轮数一一对应,即i表示时间间隔的轮数,同时表示历史故障间隔时间样本的序数,0<i≤DQL,DQL为时间间隔的当前轮数,也表示历史故障间隔时间样本yb的个数;xsj为松驰系数,其计算式如下: 
其中,mean表示求集合中元素平均值的操作,blj表示第j个物理机在历史记录中未出现故障记录的比例,即: 
其中,num表示求集合元素个数的操作。 
8.一种基于权利要求1~7任一项权利要求所述的IaaS云系统中物理机的主动更新方法的IaaS云系统中物理机的主动更新装置,其特征在于:包括: 
IaaS云分析模块,用于获取IaaS云系统中各物理机的历史故障数据记录值,并为每个物理机决策是否进行更新操作; 
IaaS管理模块,用于接收决策信息,并为对应的PM执行更新操作。 
9.根据权利要求8所述的IaaS云系统中物理机的主动更新装置,其特征在于:所述IaaS云分析模块包括: 
数据获取单元,从IaaS云系统开始运行起,所述数据获取单元就持续不断的获取各物理机的历史故障数据; 
数据处理单元,用于接收来自数据获取单元的历史故障数据,并对历史故障数据进行处理,; 
预测单元,用于接收处理后的历史故障数据,分析历史故障的发生规律并基于所得发生规律预测下次故障的发生点; 
决策控制单元,接收预测单元预测的下次故障发生点,并作出更新决策信息; 
存储单元,用于存储关于IaaS云系统中物理机的主动更新方法的程序,该程序指令相关的单元完成相应的步骤;所述存储单元还用于存储每台PM的历史故障数据; 
和/或所述IaaS管理模块包括物理机更新管理单元,所述物理机更新管理单元用于接收IaaS云分析模块决策控制单元发出的更新决策信息,并对相应的物理机执行更新。 
10.一种IaaS云系统中物理机的主动更新服务器,其特征在于:包括权利要求8~9所述的IaaS云系统中物理机的主动更新装置。 
CN201310750935.7A 2013-12-31 2013-12-31 IaaS云系统中物理机的主动更新方法、装置及服务器 Active CN103957229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310750935.7A CN103957229B (zh) 2013-12-31 2013-12-31 IaaS云系统中物理机的主动更新方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310750935.7A CN103957229B (zh) 2013-12-31 2013-12-31 IaaS云系统中物理机的主动更新方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN103957229A true CN103957229A (zh) 2014-07-30
CN103957229B CN103957229B (zh) 2017-07-14

Family

ID=51334452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310750935.7A Active CN103957229B (zh) 2013-12-31 2013-12-31 IaaS云系统中物理机的主动更新方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN103957229B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104780075A (zh) * 2015-03-13 2015-07-15 浪潮电子信息产业股份有限公司 一种云计算系统可用性评估方法
CN105528376A (zh) * 2014-10-22 2016-04-27 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN106506226A (zh) * 2016-11-29 2017-03-15 青岛海信网络科技股份有限公司 一种故障检测的启动方法及装置
CN107704314A (zh) * 2017-11-09 2018-02-16 北京百度网讯科技有限公司 用于迁移虚拟机的方法和装置
CN116466657A (zh) * 2023-03-17 2023-07-21 浙江立群汽车配件制造有限公司 万向节总成自动化生产加工控制系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250407A1 (en) * 2007-04-05 2008-10-09 Microsoft Corporation Network group name for virtual machines
CN101609419A (zh) * 2009-06-29 2009-12-23 北京航空航天大学 虚拟机持续在线迁移的数据备份方法及装置
CN201876883U (zh) * 2010-09-21 2011-06-22 深圳市瑞驰智能系统有限公司 加药系统
CN103440160A (zh) * 2013-08-15 2013-12-11 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876883B (zh) * 2009-11-30 2012-02-01 英业达股份有限公司 保持虚拟机器的远程操作不中断的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250407A1 (en) * 2007-04-05 2008-10-09 Microsoft Corporation Network group name for virtual machines
CN101609419A (zh) * 2009-06-29 2009-12-23 北京航空航天大学 虚拟机持续在线迁移的数据备份方法及装置
CN201876883U (zh) * 2010-09-21 2011-06-22 深圳市瑞驰智能系统有限公司 加药系统
CN103440160A (zh) * 2013-08-15 2013-12-11 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528376A (zh) * 2014-10-22 2016-04-27 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN105528376B (zh) * 2014-10-22 2019-11-15 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN104780075A (zh) * 2015-03-13 2015-07-15 浪潮电子信息产业股份有限公司 一种云计算系统可用性评估方法
CN104780075B (zh) * 2015-03-13 2018-02-23 浪潮电子信息产业股份有限公司 一种云计算系统可用性评估方法
CN106506226A (zh) * 2016-11-29 2017-03-15 青岛海信网络科技股份有限公司 一种故障检测的启动方法及装置
CN106506226B (zh) * 2016-11-29 2019-07-02 青岛海信网络科技股份有限公司 一种故障检测的启动方法及装置
CN107704314A (zh) * 2017-11-09 2018-02-16 北京百度网讯科技有限公司 用于迁移虚拟机的方法和装置
CN107704314B (zh) * 2017-11-09 2023-09-12 北京百度网讯科技有限公司 用于迁移虚拟机的方法和装置
CN116466657A (zh) * 2023-03-17 2023-07-21 浙江立群汽车配件制造有限公司 万向节总成自动化生产加工控制系统
CN116466657B (zh) * 2023-03-17 2023-09-19 浙江立群汽车配件制造有限公司 万向节总成自动化生产加工控制系统

Also Published As

Publication number Publication date
CN103957229B (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
Araujo et al. Software rejuvenation in eucalyptus cloud computing infrastructure: A method based on time series forecasting and multiple thresholds
CN103957229A (zh) IaaS云系统中物理机的主动更新方法、装置及服务器
US10162708B2 (en) Fault tolerance for complex distributed computing operations
JP2017041263A (ja) プロセスの再開
CN103995728A (zh) 用于确定何时需要更新云虚拟机的系统和方法
CN102571499A (zh) 一种云端数据库服务器集群的监控方法
CN104484222B (zh) 一种基于混合遗传算法的虚拟机调度方法
WO2018014812A1 (zh) 风险识别方法、风险识别装置、云风险识别装置及系统
CN103745225A (zh) 分布式ctr预测模型训练的方法和系统
CN102624546B (zh) 功耗封顶的控制方法、设备和系统
CN109144701A (zh) 一种任务流管理方法、装置、设备及系统
US20210367868A1 (en) Intelligent serverless function scaling
WO2015032201A1 (zh) 虚拟机放置方法和装置
US20220027247A1 (en) Maintenance operations based on analysis of collected data
CN113515382A (zh) 云资源的分配方法、装置、电子设备及程序产品
Hu et al. Characterization of large language model development in the datacenter
CN110704851A (zh) 公有云数据处理方法和设备
WO2023165512A1 (zh) 一种故障文件保存方法及相关装置
CN103092710A (zh) 云计算操作系统中一种高可用虚拟机运行方法
Matos et al. Software rejuvenation in eucalyptus cloud computing infrastructure: A hybrid method based on multiple thresholds and time series prediction
Okamura et al. Optimal trigger time of software rejuvenation under probabilistic opportunities
He et al. Unicron: Economizing self-healing llm training at scale
US12020036B2 (en) Trajectory-based hierarchical autoscaling for serverless applications
CN105069066A (zh) 基于大数据平台的节能减排监控分布式计算框架及方法
CN109189615A (zh) 一种宕机处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant