CN102693177A - 虚拟机故障诊断方法、处理方法及其装置和系统 - Google Patents

虚拟机故障诊断方法、处理方法及其装置和系统 Download PDF

Info

Publication number
CN102693177A
CN102693177A CN2011100703751A CN201110070375A CN102693177A CN 102693177 A CN102693177 A CN 102693177A CN 2011100703751 A CN2011100703751 A CN 2011100703751A CN 201110070375 A CN201110070375 A CN 201110070375A CN 102693177 A CN102693177 A CN 102693177A
Authority
CN
China
Prior art keywords
virtual machine
value
service
resource
mass parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100703751A
Other languages
English (en)
Other versions
CN102693177B (zh
Inventor
许辉阳
张剑寅
彭晋
于青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201110070375.1A priority Critical patent/CN102693177B/zh
Publication of CN102693177A publication Critical patent/CN102693177A/zh
Application granted granted Critical
Publication of CN102693177B publication Critical patent/CN102693177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种虚拟机故障诊断方法、处理方法及其装置和系统。本发明提供的虚拟机故障诊断方法包括:获取虚拟机的业务状态信息和资源状态信息;根据所述虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断。本发明提供的虚拟机故障处理方法包括:当诊断出虚拟机发生故障后,根据所述虚拟机承载的业务,选择对应的故障处理策略;根据选择的故障处理策略,对发生故障的虚拟机进行相应处理。采用本发明可实现面向业务的虚拟机故障诊断和故障处理。

Description

虚拟机故障诊断方法、处理方法及其装置和系统
技术领域
本发明涉及计算机技术领域中的虚拟化技术,尤其涉及一种虚拟机故障诊断方法、处理方法及其装置和系统。
背景技术
为了更好地实现计算机物理资源的虚拟共享,充分提高计算机物理资源的利用率,达到节能减排和负载均衡等目的,虚拟化技术越来越受到IT及相关领域的重视,并获得了广泛的应用。
服务器虚拟化是指利用虚拟化技术将一台物理服务器虚拟化成多个虚拟机,每个虚拟机可以独立提供与物理服务器相同的功能,如:在虚拟机上安装操作系统、数据库及部署应用程序等。这样,不同虚拟机就可以封装不同的业务应用逻辑,即在同一台物理计算机上运行多个独立的操作系统及相互独立的应用。而服务器所拥有的物理资源(如CPU、内存、磁盘和网络资源等)可以被这些虚拟机共享。
虚拟化技术强调为需要运行的程序或软件营造它所需要的执行环境。在采用了虚拟化技术后,程序或软件的运行不一定独享底层的物理计算资源,对它来说,它只是运行在与真实计算环境完全相同的执行环境虚拟机(具有相同的CPU主频、内存和硬盘容量)中,同时可以实现在不同的虚拟机之间实现资源的动态调度。虚拟化技术的引入,打破了真实计算中软件与硬件之间的紧密耦合关系,从而可以有效的提高计算机资源利用率和降低成本等。
“虚拟机故障诊断”的概念是指基于虚拟机的业务提供模式下,在业务运营阶段对承载业务的虚拟机实施实时的监控,并诊断虚拟机的不同状态以通知虚拟机管理器实施相关的调度等工作。
随着云计算和IDC(Internet Data Center,互联网数据中心)的普及,未来虚拟机广泛应用将成为一种趋势。在此情况下,虚拟机故障诊断将成为一个重要环节。为了保障业务的鲁棒性和用户体验,必须能够对虚拟机的状态进行实时的监控,从而对虚拟机故障进行准确的定位并处理。特别是基于虚拟机来承载实时性要求较高的电信业务时,高效的虚拟机故障诊断和处理机制可以使虚拟机在电信业务管理和应用部署这两方面的价值发挥到最大,同时还将给整个生态系统带来积极的意义。
目前关于虚拟机故障诊断和处理通用的做法,是在虚拟机里面安装相关的虚拟机信息监控系统(如ganglia等),通过其收集的相关资源利用信息(CPU、内存和磁盘使用情况等)来判断虚拟机的状态,当认为虚拟机处于故障状态时进行相关的处理,如重启虚拟机或实例化新的虚拟机等。
发明人在实现本发明的过程中,发现实际业务运营时,传统的虚拟机性能评测方法通常是基于监控系统获取的相关虚拟机信息来进行虚拟机性能及故障的评测。然而由于虚拟机所承载业务的不同,对于不同类型的业务,如互联网业务和电信业务的故障诊断方法应该不同。
由此可见,目前缺乏一套面向业务的虚拟机性能评测、故障诊断方法和故障处理方法。
发明内容
本发明实施例提供了一种虚拟机故障诊断方法、处理方法及其装置和系统,用以实现面向业务的虚拟机故障诊断和故障处理。
本发明实施例提供的虚拟机故障诊断方法,包括:
获取虚拟机的业务状态信息和资源状态信息;
根据所述虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断。
本发明实施例提供的虚拟机管理器,包括:
获取模块,用于获取虚拟机的业务状态信息和资源状态信息;
诊断模块,用于根据所述虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断。
本发明上述实施例,在对虚拟机进行故障诊断时引入业务状态信息作为依据,从而能够根据业务的不同对虚拟机质量进行评价,以诊断是否发生故障,与现有技术相比,提高了故障诊断的准确性。
本发明实施例提供的虚拟机故障处理方法,应用于基于上述虚拟机故障诊断方法诊断出虚拟机故障后的处理流程,该方法包括:
当诊断出虚拟机发生故障后,根据所述虚拟机承载的业务,选择对应的故障处理策略;
根据选择的故障处理策略,对发生故障的虚拟机进行相应处理。
本发明的上述实施例,在对虚拟机故障处理时引入了虚拟机承载的业务作为选择故障处理策略的依据,从而能够根据虚拟机承载的业务的不同采用相应的故障处理策略。
本发明实施例提供的虚拟机,包括:
业务状态监控模块,用于对虚拟机的业务状态进行监控;
资源状态监控模块,用于对虚拟机的资源状态进行监控;
上报模块,用于将业务状态监测模块监控到的业务状态信息和资源状态监控模块监控到的资源状态信息上报给资源管理器。
本发明的上述实施例,虚拟机通过增加业务状态信息的监控和上报,从而为虚拟机管理器依据业务状态信息进行故障诊断和故障处理提供了可能性。
本发明实施例还提供了一种虚拟机系统,包括上述虚拟机管理器,以及至少一个上述的虚拟机。
附图说明
图1为本发明实施例提供的虚拟机故障诊断流程示意图;
图2为本发明实施例提供的虚拟机管理器的结构示意图;
图3为本发明实施例提供的虚拟机的结构示意图。
具体实施方式
针对现有技术存在的上述问题,本发明实施例将面向业务的思路与虚拟化故障诊断策略相结合,提出了一套面向业务的虚拟机故障诊断及处理方案,实现更加灵活的业务监控与管理。其中,在面向业务的虚拟机故障诊断方案中,本发明实施例通过在虚拟机质量定义中引入业务层面的相关信息,植入多种信息搜集及处理方式,以综合的质量评定因子来精分虚拟机故障类型,实现面向业务的虚拟机故障诊断;在面向业务的虚拟机故障处理机制中,本发明实施例根据不同业务需求,采用相应的故障处理策略进行故障处理。
由于现有虚拟机管理技术中只基于搜集的相关资源层面的信息已无法实现精准的故障定位,因此,本发明实施例考虑到虚拟机承载业务的不同,对虚拟机故障进行了更细分的定位。
考虑到业务层面信息和资源层面信息对虚拟机的故障定位均有一定的影响,本发明实施例将业务状态信息和资源状态信息一起作为虚拟机质量评价的状态参数,即,需要进行监控的虚拟机状态信息可表示为:
Q={Q1,Q2,Qm}.....................................................................[1]
其中,Q代表虚拟机状态参数集合,Q1,Q2,…Qm为集合Q中的各元素,代表各状态参数(包括业务层面的状态参数和资源层面的状态参数等),m代表状态参数的数量。
其中,业务层面状态参数可以包括时延参数、吞吐量参数等,资源层面状态参数可以包括CPU、内存、磁盘使用情况的参数。集合Q中各状态的类型和状态参数的数量,可根据虚拟机所实现的业务类型、相应类型业务的业务特点、对性能的要求等方面具体设定。
根据上述定义的虚拟机状态参数集合进行相应状态参数的监控和采集后,就可以根据采集到的状态参数进行虚拟机故障诊断了。
下面结合附图对本发明实施例提供的虚拟机故障诊断进行详细描述。
参见图1,为本发明实施例提供的虚拟机故障诊断流程示意图。该流程可基于现有的虚拟机管理架构实现。该架构中,各虚拟机各自监控和采集状态信息并发送给虚拟机管理器,虚拟机管理器根据虚拟机上报的状态信息对虚拟机进行故障诊断,其流程可包括:
步骤101,虚拟机管理器接收虚拟机上报的状态信息,其中包括资源状态信息和业务状态信息。
该步骤中,可通过在虚拟机中配置状态信息监控策略,实现状态信息监控、采集和上报。具体的,在虚拟机中配置的状态信息监控策略中可规定需要进行监控、采集和上报的状态参数(包括资源状态参数和业务状态参数),并制定采集和上报方式,如可基于事件进行采集和上报,也可周期采集和上报。
步骤102,虚拟机管理器根据虚拟机上报的资源状态信息和业务状态信息,对虚拟机进行故障诊断。
该步骤中,虚拟机管理器可将虚拟机上报的状态参数代入预先定义的综合质量评价函数,得出虚拟机的质量评价结果,即质量参数的实测值;然后计算出该质量参数实测值与其设定值的偏差度;最后根据该偏差度对虚拟机进行故障诊断。
所述综合质量评价函数可以是各状态参数的简单累加和函数。考虑到用户对各状态的关注程度可能不同,可对各对状态设置相应的权值,这种情况下,所述综合质量评价函数可以是各状态参数的加权累加和函数。以Q代表虚拟机状态信息集合,则综合质量评价函数f可表示为:
f = Σ i = 1 m w i Q i - - - [ 2 ]
其中,wi代表第i项状态参数值的权值,表示用户对该状态参数的关注程度,具体取值区间可以是0≤wi≤1,Qi表示第i项状态参数的值,m代表状态参数的数量。
进一步的,考虑到状态参数所在维度的影响,业务层面状态参数和资源层面状态参数这两个维度的状态参数可以占据不同的权值。为此,可增加新的影响因子参数ui。ui代表处于不同维度范围内的状态参数的权值。具体取值区间可以是0≤ui≤1,
Figure BSA00000457317700061
相应的,虚拟机的质量评价函数f的计算公式可表示为:
f = u 1 Σ i = 1 r w i Q i + u 2 Σ i = 1 s w i Q i , r+s=m....................................................[3]
其中,为虚拟机业务状态参数的加权累加和,为虚拟机资源状态参数的加权累加和,u1为业务状态维度的权值,u2为资源状态维度的权值。
通过上述公式[2]或公式[3],可以得出较完备的虚拟机质量参数的实测值,以表示虚拟机当前的质量状况。基于虚拟机质量参数的实测值,可以对虚拟机故障进行准确的诊断和定位。
本发明实施例优选采用虚拟机质量参数实测值与业务部署时提供的质量参数SLA(Service-Level Agreement,服务等级协议)设定值的偏差度值,来进行虚拟机故障诊断。其中,所述偏差度可表示为:
u ( t ) = Qmeasured - Qstatistic Qstatistic - - - [ 4 ]
其中,Qmeasured为虚拟机质量参数的实测值,Qstatistic为按照SLA保障的质量参数值。
为了实现故障精确定位,并为后续故障处理选择合适的处理策略,本发明实施例基于离散的容错处理方法将偏差度值域划分为三个区域,从而设定了两种不同程度的故障定义:异常状态和故障状态,其中异常状态介于正常状态和故障状态之间,表明虚拟机虽然状态不正常,但仍可使用。具体的,根据SLA保障的质量参数值可设置两个阈值α和β(α<β),从而按照数值从小到大的顺序,将偏差度值域划分为三个区域,分别对应虚拟机的正常状态、异常状态和故障状态;当u(t)≤α时,认为虚拟机处于正常状态;当α<u(t)<β时,认为虚拟机处于异常阶段;当u(t)≥β时,认为虚拟机处于故障阶段。其中,正常状态是指虚拟机部分及虚拟机中的业务均处于正常运行的状态,此种情况下无需进行故障处理;异常状态可能的情况包括:虚拟机部分运行正常(如CPU利用率内存利用率等均正常范围)但是虚拟机业务响应则存在着问题,此种情况下可根据虚拟机所承载的业务判断是否需要进行故障处理;故障状态是指虚拟机的相关数值异常,此时需要进行故障处理。
需要说明的是,本发明实施例不仅限于使用两个阈值将偏差度值域划分为三个区域,以设定两种不同程度的故障定义,基于相同的思想,还可以使用N(N>2)个阈值将偏差度值域划分为N+1个区域,从而设定N个不同程度的故障定义,即设置不同的故障等级。
在本发明的另一实施例中,虚拟机的质量评价函数f的计算公式可替换为:
f = u 1 Σ i = 1 r Q i + u 2 Σ i = 1 s Q i , r+s=m..............................................[5]
其中,
Figure BSA00000457317700072
为虚拟机业务状态参数的累加和,为虚拟机资源状态参数的累加和。
在本发明的另一实施例中,可以采用基于离散的容错处理方法将偏差度值域划分为两个区域,以替换划分为三个或更多区域的方案。具体的,可根据SLA保障的质量参数值可设置一个阈值α,从而按照数值从小到大的顺序,将偏差度值域划分为两个区域,分别对应虚拟机的正常状态和故障状态。当u(t)≤α时,认为虚拟机处于正常状态;当u(t)>α时,认为虚拟机处于故障阶段。
在本发明的另一实施例中,可以直接根据虚拟机的质量参数实测值和其设定值进行虚拟机故障诊断,替换使用两者的偏差度进行故障诊断的方案。具体的,可根据SLA保障的质量参数值可设置两个阈值(阈值1<阈值2),从而按照数值从小到大的顺序,将质量参数值域划分为三个区域,分别对应虚拟机的正常状态、异常状态和故障状态。当虚拟机质量参数实测值<阈值1时,认为虚拟机处于正常状态;当阈值1<虚拟机质量参数实测值<阈值2时,认为虚拟机处于异常状态;当虚拟机质量参数实测值>阈值2时,认为虚拟机处于故障阶段。当然,也可以仅设置一个阈值,从而仅对虚拟机处于正常状态或故障状态进行判断。
本发明的上述实施例及其各替代方案,由于均在用于进行虚拟机故障诊断的状态参数中,引入了业务状态参数,因此均属于面向业务的虚拟机故障诊断方案,可在一定程度上根据业务情况准确进行故障诊断。
通过上述实施例或其它方式,在进行面向业务的虚拟机故障诊断后,就可以使用相应的故障处理策略对虚拟机故障进行处理。
由于不同的业务对于虚拟机故障的处理方案需求将会不同,本发明实施例可预先在虚拟机管理器中,根据不同业务的特点以及不同的故障等级(在区分故障等级的情况下),预置相应的虚拟机故障处理策略。这样,虚拟机管理器在通过精准的面向业务的故障定位后,可以选择相应的故障处理策略进行灵活的处理。比如,对于有状态和无状态的两种业务类型,或者针对时延要求高和时延要求低的业务,可采用不同的虚拟机故障处理方案。
针对无状态的相关业务,如web访问,因为不涉及到用户的相关状态,因此在虚拟机发生低等级故障阶段(如异常状态)时,可以采用虚拟机动态迁移的方法,将虚拟机转移到其他低负载的物理机上;如果已经是处于高等级故障阶段(如故障状态),则需要重启新的虚拟机以替换该发生故障的虚拟机。以采用图1所示流程进行故障诊断为例,故障处理策略函数具体可用以下表达式表示:
Figure BSA00000457317700081
针对有状态的相关业务,如VoIP(Voice Over IP,基于IP的语音)业务,因为涉及到用户的相关状态,因此在虚拟机发生低等级故障阶段(如异常状态)时,可以采用资源流动的方法,给虚拟机分配更多物理资源以满足业务的需求;如果已经是处于高等级故障阶段(如故障状态),则需要重启新的虚拟机以替换该虚拟机。以采用图1所示流程进行故障诊断为例,故障处理策略函数具体可用以下表达式表示:
Figure BSA00000457317700091
针对时延要求较高的业务,在虚拟机发生低等级故障时,可尽量不动态迁移虚拟机,可以通过资源流动的方式(即增加物理资源)给其分配更多的资源。
针对时延要求较低的业务,在虚拟机发生低等级故障时,可以采用虚拟机动态迁移的方式转移该虚拟机的负载到其它可用的虚拟机上(包括正常状态的虚拟机或发生低等级故障但仍可使用的虚拟机)。同时业务是否有状态也可能会影响业务的故障处理方法。
例如,基于虚拟化实现的软交换系统中的MSC(Mobile Switch Center,移动交换中心)节点,如果对其故障定位为异常时,可以采用虚拟机迁移机制,将该节点迁移至另外的足够的物理硬件设备上,并可进一步hot-plug(插入)新的资源如CPU和内存等到这个虚拟机节点上;如果对其故障定位为故障时,则可能迁移虚拟机已经不起作用,需要重新启动一台新的虚拟机,然后所有的呼叫请求导向到这台新启动的虚拟机上,并逐渐降低这台发生故障的虚拟机的负载,最后关闭该发生故障的虚拟机。
通过以上描述可以看出,本发明实施例通过引入面向业务的虚拟机故障诊断及处理方法有效地提高了业务鲁棒性和用户体验。传统的虚拟机监控及诊断没有考虑到虚拟机所承载业务对虚拟机质量的特殊需求,本发明实施例提出了面向业务的虚拟机质量评测方法,增加了业务层面信息的描述,从而能够随着业务的不同对虚拟机质量进行精准的描述。基于精分的区分业务的虚拟机质量评测方法,本发明实施例提出了面向业务的虚拟机故障定位方法,通过设定偏差值并基于离散的容错处理方法将偏差值域划分为三个(或更多)区域,从而对虚拟机故障进行更精确的定位。同时,为了支持面向业务的虚拟机质量评测和故障诊断方法,对监控体系架构进行扩展,通过在业务系统中植入相关信息获取功能来获取业务层面的相关信息,并增加信息分析功能统一分析和处理并给出虚拟机故障结果。
基于相同的技术构思,本发明实施例还提供了一种可应用于上述流程的虚拟机、虚拟机管理器,以及包含有上述虚拟机和虚拟机管理器的虚拟机系统。
参见图2,为本发明实施例提供的虚拟机管理器,该虚拟机管理器可包括:
获取模块21,用于获取虚拟机的业务状态信息和资源状态信息,其中,业务状态信息可为业务状态参数值,所述资源状态信息可为资源状态参数值;
诊断模块22,用于根据所述虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断。
上述虚拟机管理器中,诊断模块22可包括确定子模块221和诊断子模块222。其中,确定子模块221,用于将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值;确定所述虚拟机的质量参数实测值与所述虚拟机的质量参数设定值的偏差度;诊断子模块222,用于根据所述偏差度对虚拟机进行故障诊断。当数值大小顺序排列的N个阈值将所述偏差度的取值区域划分为N+1个区域,依次对应虚拟机的正常状态以及等级依次提高的N(N≥2)个故障状态时,诊断子模块222可将所述偏差度的值所属的偏差度取值区域所对应的虚拟机状态,确定为所述虚拟机当前的状态。具体的,当N=2时,数值从小到大的第一阈值和第二阈值将所述偏差度的取值区域划分为两个区域,依次对应虚拟机的正常状态、异常状态和故障状态;相应的,诊断子模块222具体用于:当确定出的偏差度小于或等于第一阈值时,确定所述虚拟机状态正常;当所述偏差值大于或等于第二阈值时,确定所述虚拟机发生故障;当所述偏差值介于第一阈值和第二阈值之间时,确定所述虚拟机状态异常。
上述虚拟机管理器中,确定子模块221可采用以下方式计算虚拟机的质量参数实测值:
方式一:根据所述业务状态参数和资源状态参数各自的权值,将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值;
方式二:将业务状态参数进行累加,得到虚拟机的业务层面质量参数实测值,将资源状态参数进行累加,得到虚拟机的资源层面质量参数实测值,根据虚拟机的业务层面质量参数和资源层面质量参数各自的权值,将所述虚拟机的业务层面质量参数实测值和资源层面质量参数实测值进行累加,得到所述虚拟机质量参数实测值;
方式三:根据所述业务状态参数各自的权值将业务状态参数进行累加,得到虚拟机的业务层面质量参数实测值,根据所述资源状态参数各自的权值将资源状态参数进行累加,得到虚拟机的资源层面质量参数实测值,根据虚拟机的业务层面质量参数和资源层面质量参数各自的权值,将所述虚拟机的业务层面质量参数实测值和资源层面质量参数实测值进行累加,得到所述虚拟机质量参数实测值。
上述虚拟机管理器还可包括:
策略存储模块23,用于存储故障处理策略;
策略选择模块24,用于在诊断出虚拟机发生故障后,根据所述虚拟机承载的业务,选择对应的故障处理策略;
策略执行模块25,根据选择的故障处理策略,对发生故障的虚拟机进行相应处理。
若数值大小顺序排列的N个阈值将所述偏差度的取值区域划分为N+1个区域,依次对应虚拟机的正常状态以及等级依次提高的N(N≥2)个故障状态,则策略选择模块24可选择与所述虚拟机承载的业务的特征对应的、且与所述虚拟机当前的故障等级对应的故障处理策略。
具体的,策略选择模块24可当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务对时延要求高,则选择为所述虚拟机增加物理资源的故障处理策略;若所述虚拟机承载的业务对时延要求低,则选择将所述虚拟机的负载转移到其它可用的虚拟机上的故障处理策略。
具体的,策略选择模块24可当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务为无状态业务,则选择将所述虚拟机的负载转移到负载低的物理机上的故障处理策略;若所述虚拟机承载的业务为有状态业务,则选择为所述虚拟机增加物理资源的故障处理策略。
参见图3,为本发明实施例提供的虚拟机。
业务状态监控模块31,用于对虚拟机的业务状态进行监控;
资源状态监控模块32,用于对虚拟机的资源状态进行监控;
上报模块33,用于将业务状态监测模块监控到的业务状态信息和资源状态监控模块监控到的资源状态信息上报给资源管理器,其中,业务状态信息可为业务状态参数值,所述资源状态信息可为资源状态参数值。
本发明实施例还提供一种虚拟机系统,其中包括虚拟机管理器和至少一个虚拟机,虚拟机与虚拟机管理器连接,用于向虚拟机管理器上报状态信息(包括业务状态信息和资源状态信息),虚拟机管理器用于根据虚拟机上报的状态进行对虚拟机进行故障诊断以及进一步的故障处理。其中,虚拟机管理器和虚拟机的结构可分别如图2和图3所示。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (21)

1.一种虚拟机故障诊断方法,其特征在于,包括:
获取虚拟机的业务状态信息和资源状态信息;
根据所述虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断。
2.如权利要求1所述的方法,其特征在于,所述业务状态信息为业务状态参数值,所述资源状态信息为资源状态参数值;根据虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断,包括:
将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值;
确定所述虚拟机的质量参数实测值与所述虚拟机的质量参数设定值的偏差度;
根据所述偏差度对虚拟机进行故障诊断。
3.如权利要求2所述的方法,其特征在于,数值大小顺序排列的N个阈值将所述偏差度的取值区域划分为N+1个区域,依次对应虚拟机的正常状态以及等级依次提高的N个故障状态;所述N≥2;
根据所述偏差度对虚拟机进行故障诊断,具体为:
将所述偏差度的值所属的偏差度取值区域所对应的虚拟机状态,确定为所述虚拟机当前的状态。
4.如权利要求3所述的方法,其特征在于,所述N=2,数值从小到大的第一阈值和第二阈值将所述偏差度的取值区域划分为两个区域,依次对应虚拟机的正常状态、异常状态和故障状态;
根据所述偏差度对虚拟机进行故障诊断,具体为:
当确定出的偏差度小于或等于第一阈值时,确定所述虚拟机状态正常;当所述偏差值大于或等于第二阈值时,确定所述虚拟机发生故障;当所述偏差值介于第一阈值和第二阈值之间时,确定所述虚拟机状态异常。
5.如权利要求2所述的方法,其特征在于,将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值,具体为:
根据所述业务状态参数和资源状态参数各自的权值,将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值;或者
将业务状态参数进行累加,得到虚拟机的业务层面质量参数实测值;将资源状态参数进行累加,得到虚拟机的资源层面质量参数实测值;根据虚拟机的业务层面质量参数和资源层面质量参数各自的权值,将所述虚拟机的业务层面质量参数实测值和资源层面质量参数实测值进行累加,得到所述虚拟机质量参数实测值;或者
根据所述业务状态参数各自的权值将业务状态参数进行累加,得到虚拟机的业务层面质量参数实测值;根据所述资源状态参数各自的权值将资源状态参数进行累加,得到虚拟机的资源层面质量参数实测值;根据虚拟机的业务层面质量参数和资源层面质量参数各自的权值,将所述虚拟机的业务层面质量参数实测值和资源层面质量参数实测值进行累加,得到所述虚拟机质量参数实测值。
6.如权利要求1至5任一项所述的方法,其特征在于,所述业务状态信息包括以下之一或任意组合:业务时延信息、业务吞吐量信息。
7.一种虚拟机故障处理方法,应用于基于如权利要求1至6任一项所述的虚拟机故障诊断方法诊断出虚拟机故障后的处理流程,其特征在于,该方法包括:
当诊断出虚拟机发生故障后,根据所述虚拟机承载的业务,选择对应的故障处理策略;
根据选择的故障处理策略,对发生故障的虚拟机进行相应处理。
8.如权利要求7所述的方法,其特征在于,若数值大小顺序排列的N个阈值将所述偏差度的取值区域划分为N+1个区域,依次对应虚拟机的正常状态以及等级依次提高的N个故障状态,所述N≥2,则选择出的故障处理策略为:与所述虚拟机承载的业务的特征对应的、且与所述虚拟机当前的故障等级对应的故障处理策略。
9.如权利要求8所述的方法,其特征在于,与所述虚拟机承载的业务的特征对应的、且与所述虚拟机当前的故障等级对应的故障处理策略,包括:
当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务对时延要求高,则为所述虚拟机增加物理资源;
当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务对时延要求低,则将所述虚拟机的负载转移到其它可用的虚拟机上。
10.如权利要求8所述的方法,其特征在于,与所述虚拟机承载的业务的特征对应的、且与所述虚拟机当前的故障等级对应的故障处理策略,包括:
当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务为无状态业务,则将所述虚拟机转移到负载低的物理机上;
当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务为有状态业务,则为所述虚拟机增加物理资源。
11.一种虚拟机管理器,其特征在于,包括:
获取模块,用于获取虚拟机的业务状态信息和资源状态信息;
诊断模块,用于根据所述虚拟机的业务状态信息和资源状态信息,对所述虚拟机进行故障诊断。
12.如权利要求11所述的虚拟机管理器,其特征在于,所述业务状态信息为业务状态参数值,所述资源状态信息为资源状态参数值;
所述诊断模块,包括:
确定子模块,用于将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值;确定所述虚拟机的质量参数实测值与所述虚拟机的质量参数设定值的偏差度;
诊断子模块,用于根据所述偏差度对虚拟机进行故障诊断。
13.如权利要求12所述的虚拟机管理器,其特征在于,数值大小顺序排列的N个阈值将所述偏差度的取值区域划分为N+1个区域,依次对应虚拟机的正常状态以及等级依次提高的N个故障状态;所述N≥2;
所述诊断子模块具体用于,将所述偏差度的值所属的偏差度取值区域所对应的虚拟机状态,确定为所述虚拟机当前的状态。
14.如权利要求13所述的虚拟机管理器,其特征在于,所述N=2,数值从小到大的第一阈值和第二阈值将所述偏差度的取值区域划分为两个区域,依次对应虚拟机的正常状态、异常状态和故障状态;
所述诊断子模块具体用于,当确定出的偏差度小于或等于第一阈值时,确定所述虚拟机状态正常;当所述偏差值大于或等于第二阈值时,确定所述虚拟机发生故障;当所述偏差值介于第一阈值和第二阈值之间时,确定所述虚拟机状态异常。
15.如权利要求12所述的虚拟机管理器,其特征在于,所述确定子模块具体用于,根据所述业务状态参数和资源状态参数各自的权值,将所述虚拟机的业务状态参数值和资源状态参数值进行累加,得到虚拟机的质量参数实测值;或者,将业务状态参数进行累加,得到虚拟机的业务层面质量参数实测值,将资源状态参数进行累加,得到虚拟机的资源层面质量参数实测值,根据虚拟机的业务层面质量参数和资源层面质量参数各自的权值,将所述虚拟机的业务层面质量参数实测值和资源层面质量参数实测值进行累加,得到所述虚拟机质量参数实测值;或者,根据所述业务状态参数各自的权值将业务状态参数进行累加,得到虚拟机的业务层面质量参数实测值,根据所述资源状态参数各自的权值将资源状态参数进行累加,得到虚拟机的资源层面质量参数实测值,根据虚拟机的业务层面质量参数和资源层面质量参数各自的权值,将所述虚拟机的业务层面质量参数实测值和资源层面质量参数实测值进行累加,得到所述虚拟机质量参数实测值。
16.如权利要求11至15任一项所述的虚拟机管理器,其特征在于,还包括:
策略存储模块,用于存储故障处理策略;
策略选择模块,用于在诊断出虚拟机发生故障后,根据所述虚拟机承载的业务,选择对应的故障处理策略;
策略执行模块,根据选择的故障处理策略,对发生故障的虚拟机进行相应处理。
17.如权利要求16所述的虚拟机管理器,其特征在于,若数值大小顺序排列的N个阈值将所述偏差度的取值区域划分为N+1个区域,依次对应虚拟机的正常状态以及等级依次提高的N个故障状态,所述N≥2;则
所述策略选择模块具体用于,选择与所述虚拟机承载的业务的特征对应的、且与所述虚拟机当前的故障等级对应的故障处理策略。
18.如权利要求17所述的虚拟机管理器,其特征在于,所述策略选择模块具体用于,当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务对时延要求高,则选择为所述虚拟机增加物理资源的故障处理策略;若所述虚拟机承载的业务对时延要求低,则选择将所述虚拟机的负载转移到其它可用的虚拟机上的故障处理策略。
19.如权利要求17所述的虚拟机管理器,其特征在于,所述策略选择模块具体用于,当所述虚拟机处于低等级故障状态时,若所述虚拟机承载的业务为无状态业务,则选择将所述虚拟机转移到负载低的物理机上的故障处理策略;若所述虚拟机承载的业务为有状态业务,则选择为所述虚拟机增加物理资源的故障处理策略。
20.一种虚拟机,其特征在于,包括:
业务状态监控模块,用于对虚拟机的业务状态进行监控;
资源状态监控模块,用于对虚拟机的资源状态进行监控;
上报模块,用于将业务状态监测模块监控到的业务状态信息和资源状态监控模块监控到的资源状态信息上报给资源管理器。
21.一种虚拟机系统,其特征在于,包括如权利要求11至19任一项所述的虚拟机管理器,以及至少一个如权利要求20所述的虚拟机。
CN201110070375.1A 2011-03-23 2011-03-23 虚拟机故障诊断方法、处理方法及其装置和系统 Active CN102693177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110070375.1A CN102693177B (zh) 2011-03-23 2011-03-23 虚拟机故障诊断方法、处理方法及其装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110070375.1A CN102693177B (zh) 2011-03-23 2011-03-23 虚拟机故障诊断方法、处理方法及其装置和系统

Publications (2)

Publication Number Publication Date
CN102693177A true CN102693177A (zh) 2012-09-26
CN102693177B CN102693177B (zh) 2015-02-04

Family

ID=46858650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110070375.1A Active CN102693177B (zh) 2011-03-23 2011-03-23 虚拟机故障诊断方法、处理方法及其装置和系统

Country Status (1)

Country Link
CN (1) CN102693177B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984214A (zh) * 2012-11-08 2013-03-20 华为技术有限公司 一种实现电信云中业务迁移的方法及装置
CN103036711A (zh) * 2012-12-05 2013-04-10 中国电信股份有限公司云计算分公司 状态检测方法及系统、管理节点设备
CN103118100A (zh) * 2013-01-25 2013-05-22 武汉大学 一种提高虚拟机应用的可用性的保障方法及系统
CN103716206A (zh) * 2013-12-30 2014-04-09 中国烟草总公司湖南省公司 业务系统运行的监控方法及服务器
CN103888484A (zh) * 2012-12-19 2014-06-25 华为技术有限公司 呼叫控制方法及装置
CN104219211A (zh) * 2013-06-03 2014-12-17 中国移动通信集团公司 一种云计算网络中网络安全的检测方法及装置
CN104253715A (zh) * 2013-06-28 2014-12-31 鸿富锦精密工业(深圳)有限公司 多层级联业务监控系统及方法
CN104813289A (zh) * 2012-11-27 2015-07-29 思杰系统有限公司 诊断虚拟机
CN105210043A (zh) * 2013-03-15 2015-12-30 日本电气株式会社 信息处理装置
CN105281949A (zh) * 2015-09-09 2016-01-27 浪潮(北京)电子信息产业有限公司 混合存储模式中主机的隔离方法和隔离装置
CN105471625A (zh) * 2015-11-16 2016-04-06 杭州东信北邮信息技术有限公司 一种资源池业务健康的监控方法和系统
CN106330576A (zh) * 2016-11-18 2017-01-11 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、系统和设备
CN106469154A (zh) * 2015-08-17 2017-03-01 阿里巴巴集团控股有限公司 一种用于发布网页应用的方法与设备
CN106936659A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种公有云的拨测方法和装置
CN107204963A (zh) * 2016-03-18 2017-09-26 上海有云信息技术有限公司 云计算模式下的高可靠性web安全防护实现方法
CN107315624A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 信息处理方法及虚拟化管理器
CN107729185A (zh) * 2017-10-26 2018-02-23 新华三技术有限公司 一种故障处理方法及装置
CN108733454A (zh) * 2018-05-29 2018-11-02 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN109325603A (zh) * 2018-09-11 2019-02-12 国网河北省电力有限公司沧州供电分公司 故障请求处理方法、装置及终端设备
CN109445938A (zh) * 2018-10-18 2019-03-08 郑州云海信息技术有限公司 一种云资源状态修正方法和装置
US10379923B2 (en) 2017-09-15 2019-08-13 International Business Machines Corporation Efficiently repairing virtual machines by means of DVFS-aware proactive scheduling
CN110888763A (zh) * 2018-09-11 2020-03-17 北京奇虎科技有限公司 磁盘故障诊断方法、装置、终端设备及计算机存储介质
CN110925068A (zh) * 2019-12-17 2020-03-27 凯龙高科技股份有限公司 一种液态还原剂供给泵健康状态诊断方法
CN111698131A (zh) * 2020-06-10 2020-09-22 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN112882795A (zh) * 2021-02-25 2021-06-01 深信服科技股份有限公司 虚拟机异常诊断方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342025A (ja) * 1992-06-11 1993-12-24 Nec Corp 仮想計算機システムの障害処理方式
JP2005207644A (ja) * 2004-01-21 2005-08-04 Mitsubishi Electric Corp 機器診断装置、冷凍サイクル装置、流体回路診断方法、機器監視システム、冷凍サイクル監視システム
CN101562827A (zh) * 2009-05-22 2009-10-21 中兴通讯股份有限公司 一种故障信息采集方法及系统
CN101742540A (zh) * 2010-02-05 2010-06-16 华为技术有限公司 在线自诊断的方法及装置
CN101894047A (zh) * 2010-06-24 2010-11-24 北京航空航天大学 一种基于内核虚拟机调度策略的实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342025A (ja) * 1992-06-11 1993-12-24 Nec Corp 仮想計算機システムの障害処理方式
JP2005207644A (ja) * 2004-01-21 2005-08-04 Mitsubishi Electric Corp 機器診断装置、冷凍サイクル装置、流体回路診断方法、機器監視システム、冷凍サイクル監視システム
CN101562827A (zh) * 2009-05-22 2009-10-21 中兴通讯股份有限公司 一种故障信息采集方法及系统
CN101742540A (zh) * 2010-02-05 2010-06-16 华为技术有限公司 在线自诊断的方法及装置
CN101894047A (zh) * 2010-06-24 2010-11-24 北京航空航天大学 一种基于内核虚拟机调度策略的实现方法

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984214A (zh) * 2012-11-08 2013-03-20 华为技术有限公司 一种实现电信云中业务迁移的方法及装置
CN104813289B (zh) * 2012-11-27 2019-03-22 思杰系统有限公司 诊断虚拟机
CN104813289A (zh) * 2012-11-27 2015-07-29 思杰系统有限公司 诊断虚拟机
CN103036711B (zh) * 2012-12-05 2016-03-16 中国电信股份有限公司 状态检测方法及系统、管理节点设备
CN103036711A (zh) * 2012-12-05 2013-04-10 中国电信股份有限公司云计算分公司 状态检测方法及系统、管理节点设备
CN103888484A (zh) * 2012-12-19 2014-06-25 华为技术有限公司 呼叫控制方法及装置
CN103888484B (zh) * 2012-12-19 2017-08-04 华为技术有限公司 呼叫控制方法及装置
CN103118100A (zh) * 2013-01-25 2013-05-22 武汉大学 一种提高虚拟机应用的可用性的保障方法及系统
CN105210043A (zh) * 2013-03-15 2015-12-30 日本电气株式会社 信息处理装置
US9720755B2 (en) 2013-03-15 2017-08-01 Nec Corporation Information processing device
CN104219211B (zh) * 2013-06-03 2017-11-21 中国移动通信集团公司 一种云计算网络中网络安全的检测方法及装置
CN104219211A (zh) * 2013-06-03 2014-12-17 中国移动通信集团公司 一种云计算网络中网络安全的检测方法及装置
CN104253715A (zh) * 2013-06-28 2014-12-31 鸿富锦精密工业(深圳)有限公司 多层级联业务监控系统及方法
CN103716206B (zh) * 2013-12-30 2017-10-03 中国烟草总公司湖南省公司 业务系统运行的监控方法及服务器
CN103716206A (zh) * 2013-12-30 2014-04-09 中国烟草总公司湖南省公司 业务系统运行的监控方法及服务器
CN106469154A (zh) * 2015-08-17 2017-03-01 阿里巴巴集团控股有限公司 一种用于发布网页应用的方法与设备
CN105281949B (zh) * 2015-09-09 2018-06-15 浪潮(北京)电子信息产业有限公司 混合存储模式中主机的隔离方法和隔离装置
CN105281949A (zh) * 2015-09-09 2016-01-27 浪潮(北京)电子信息产业有限公司 混合存储模式中主机的隔离方法和隔离装置
CN105471625B (zh) * 2015-11-16 2018-09-21 杭州东信北邮信息技术有限公司 一种资源池业务健康的监控方法和系统
CN105471625A (zh) * 2015-11-16 2016-04-06 杭州东信北邮信息技术有限公司 一种资源池业务健康的监控方法和系统
CN106936659B (zh) * 2015-12-30 2020-02-14 华为技术有限公司 一种公有云的拨测方法和装置
CN106936659A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种公有云的拨测方法和装置
CN107204963A (zh) * 2016-03-18 2017-09-26 上海有云信息技术有限公司 云计算模式下的高可靠性web安全防护实现方法
CN106330576A (zh) * 2016-11-18 2017-01-11 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、系统和设备
CN106330576B (zh) * 2016-11-18 2019-10-25 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、系统和设备
CN107315624A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 信息处理方法及虚拟化管理器
CN107315624B (zh) * 2017-06-30 2020-11-20 联想(北京)有限公司 信息处理方法及虚拟化管理器
US11416322B2 (en) 2017-09-15 2022-08-16 International Business Machines Corporation Reprovisioning virtual machines by means of DVFS-aware scheduling
US10379923B2 (en) 2017-09-15 2019-08-13 International Business Machines Corporation Efficiently repairing virtual machines by means of DVFS-aware proactive scheduling
CN107729185A (zh) * 2017-10-26 2018-02-23 新华三技术有限公司 一种故障处理方法及装置
CN107729185B (zh) * 2017-10-26 2020-12-04 新华三技术有限公司 一种故障处理方法及装置
CN108733454A (zh) * 2018-05-29 2018-11-02 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN108733454B (zh) * 2018-05-29 2021-10-01 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN109325603A (zh) * 2018-09-11 2019-02-12 国网河北省电力有限公司沧州供电分公司 故障请求处理方法、装置及终端设备
CN110888763A (zh) * 2018-09-11 2020-03-17 北京奇虎科技有限公司 磁盘故障诊断方法、装置、终端设备及计算机存储介质
CN109445938A (zh) * 2018-10-18 2019-03-08 郑州云海信息技术有限公司 一种云资源状态修正方法和装置
CN110925068A (zh) * 2019-12-17 2020-03-27 凯龙高科技股份有限公司 一种液态还原剂供给泵健康状态诊断方法
CN110925068B (zh) * 2019-12-17 2021-12-07 凯龙高科技股份有限公司 一种液态还原剂供给泵健康状态诊断方法
CN111698131A (zh) * 2020-06-10 2020-09-22 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN111698131B (zh) * 2020-06-10 2021-10-08 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN112882795A (zh) * 2021-02-25 2021-06-01 深信服科技股份有限公司 虚拟机异常诊断方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102693177B (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN102693177B (zh) 虚拟机故障诊断方法、处理方法及其装置和系统
Wu et al. Energy and migration cost-aware dynamic virtual machine consolidation in heterogeneous cloud datacenters
US9183033B2 (en) Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines
US10581756B2 (en) Nonintrusive dynamically-scalable network load generation
CN108039964B (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
Frincu et al. Multi-objective meta-heuristics for scheduling applications with high availability requirements and cost constraints in multi-cloud environments
Dias et al. Online traffic-aware virtual machine placement in data center networks
CN108633311B (zh) 一种基于调用链的并发控制的方法、装置及控制节点
US8090974B1 (en) State machine controlled dynamic distributed computing
CN108667777B (zh) 一种服务链生成方法及网络功能编排器nfvo
CN104854563A (zh) 资源使用的自动分析
CN104885059A (zh) 云系统管理装置、云系统、重新配置方法、及程序
US11726836B2 (en) Predicting expansion failures and defragmenting cluster resources
IL182824A (en) Method for managing resources in a platform for telecommunication services and/or network management, corresponding platform and computer program product therefor
CN102668622B (zh) 网络瓶颈管理
US20170286147A1 (en) System and method for load estimation of virtual machines in a cloud environment and serving node
CN103516778A (zh) 云计算中基于风险式动态地理定位的服务复制方法和系统
CN114356557B (zh) 一种集群扩容方法及装置
Dias et al. A systematic literature review on virtual machine consolidation
CN116546028A (zh) 服务请求的处理方法、装置、存储介质及电子设备
Lira et al. Virtual network mapping considering energy consumption and availability
Jayapandian et al. The online control framework on computational optimization of resource provisioning in cloud environment
Fourati et al. A review of container level autoscaling for microservices-based applications
GB2570149A (en) Scaling network functions
Wei et al. Towards multi-resource physical machine provisioning for IaaS clouds

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant