CN105607973A - 一种虚拟机系统中设备故障处理的方法、装置及系统 - Google Patents

一种虚拟机系统中设备故障处理的方法、装置及系统 Download PDF

Info

Publication number
CN105607973A
CN105607973A CN201410664303.3A CN201410664303A CN105607973A CN 105607973 A CN105607973 A CN 105607973A CN 201410664303 A CN201410664303 A CN 201410664303A CN 105607973 A CN105607973 A CN 105607973A
Authority
CN
China
Prior art keywords
virtual machine
host server
storage device
fault
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410664303.3A
Other languages
English (en)
Other versions
CN105607973B (zh
Inventor
白利波
罗治国
段翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201410664303.3A priority Critical patent/CN105607973B/zh
Publication of CN105607973A publication Critical patent/CN105607973A/zh
Application granted granted Critical
Publication of CN105607973B publication Critical patent/CN105607973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种虚拟机系统中设备故障处理的方法、装置及系统,涉及信息技术领域,该方法包括:获取虚拟机系统的故障因子;根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。本发明的方案解决了现有技术中仅能够识别主机服务器故障的缺点,能够对虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备实现定位,并进行切换处理,降低了故障恢复时间,提高故障定位精确度。

Description

一种虚拟机系统中设备故障处理的方法、装置及系统
技术领域
本发明涉及信息技术领域,尤其涉及一种虚拟机系统中设备故障处理的方法、装置及系统。
背景技术
现有的服务器虚拟系统中,通常包括虚拟化管理系统、主机服务器、存储设备、虚拟机。虚拟机由一系列虚拟磁盘文件、配置文件等组成,这些文件存放于各种存储设备中,虚拟机使用的计算和通信资源由主机服务器提供。虚拟化系统运行期间,当主机服务器发生故障,虚拟化管理系统将故障主机中运行的虚拟机调度到其它正常运行的主机中重新启动,以恢复虚拟机的应用提供能力,提高虚拟化系统的可用性。
目前的虚拟化故障定位与处理方法及装置的实现方式为:虚拟化系统中多台主机服务器建立高可用集群,虚拟化管理系统周期性向各主机服务器发送心跳报文,通过在一段时间内是否可以检测到各主机服务器的心跳报文,来判断主机是否有故障。如果虚拟化管理系统检测到个别主机服务器心跳报文正常,则判定主机运行正常,不对其中虚拟机做任何操作;如果虚拟化管理系统无法检测到个别主机服务器心跳报文,则判定主机运行发生故障,主机无法正常承载运行其中的虚拟机虚拟机,虚拟化管理系统调度本主机虚拟机在其它主机上重新启动,并删除故障主机服务器和切换虚拟机的关联关系。这种虚拟机故障定位与处理方式可保证主机服务器出现网络中断或宕机级别的故障时,切换重启虚拟机,保证虚拟化系统的可用性。
然而,现有的虚拟机故障定位与处理方法是基于检测主机服务器网络通断情况,仅可以定位主机服务器网络中断或宕机级别的故障,进而触发虚拟机故障切换。当发生下述情况的几种故障:
1)主机服务器操作系统安装硬盘故障数超过最大允许值;
2)主机服务器磁盘阵列卡出现故障;
3)主机服务器操作系统内存溢出故障;
4)虚拟机操作系统内存溢出等类型故障;
5)存储设备故障。
由于前三种主机服务器级别故障会造成主机操作系统处于“假死”状态,即内存中的数据无法处理释放和写盘,但网络检测没有问题,此时,主机服务器无法提供正常的虚拟化系统服务,主机服务器承载的虚拟机也无法正常运行;而第四和第五种情况不是由主机故障引起的,此时虚拟机不能正常运行但主机服务器网络检测却没有问题。
因此,上述五种类型的故障不会造成主机服务器网络检测中断,但会造成关联虚拟机无法正常运行提供应用能力,即现有虚拟机故障定位与处理办法无法将受故障影响的虚拟机在其它主机服务器上重启,整体上影响虚拟化整体的可用性级别。
发明内容
本发明要解决的技术问题是提供一种虚拟机系统中设备故障处理的方法、装置及系统,能够对虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备实现定位,并进行切换处理,降低故障恢复时间。
为了解决上述技术问题,本发明采用如下技术方案:
依据本发明的一个方面,提供了一种虚拟机系统中设备故障处理的方法,包括:
获取虚拟机系统的故障因子;
根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;
对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。
可选地,获取虚拟机系统的故障因子的步骤包括:
获取虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值;
根据所述虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值,获取虚拟机系统的故障因子。
可选地,通过公式:虚拟机系统的故障因子={{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}获取虚拟机系统的故障因子;其中,
{虚拟机列表,虚拟机故障特征值}表示虚拟机与虚拟机故障特征值构成的第一矩阵,且虚拟机列表中的任一个虚拟机对应一个虚拟机故障特征值;
{主机服务器列表,主机服务器故障特征值}表示主机服务器与主机服务器故障特征值构成的第二矩阵,且主机服务器列表中的任一个主机服务器对应一个主机服务器故障特征值;
{存储设备列表,存储设备故障特征值}表示存储设备与存储设备故障特征值构成的第三矩阵,且存储设备列表中的任一个存储设备对应一个存储设备故障特征值;
{{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}为所述第一矩阵、第二矩阵和第三矩阵构成的矩阵。
可选地,虚拟机的故障特征值={虚拟机标识,虚拟机网卡业务和管理类通信流量带宽N分钟统计值&&虚拟磁盘文件的最近更新时间变化值&&虚拟磁盘文件的校验值的变化值}。
可选地,主机服务器的故障特征值={主机标识,主机网卡业务和管理类通信流量带宽N分钟统计值&&主机存储类数据读写流量带宽N分钟统计值&&{主机服务器运行虚拟机列表,主机服务器运行各虚拟机故障特征值}求逻辑与的值}。
可选地,存储设备的故障特征值={存储标识,存储设备数据读写流量带宽N分钟统计值&&{存储设备运行虚拟机列表,存储设备运行各虚拟机故障特征值}求逻辑与的值}。
可选地,根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备的步骤包括:
当虚拟机故障特征值中存在故障特征值时,若发生故障的至少一个虚拟机属于同台主机服务器或者同台存储设备或者既属于同台主机服务器又属于同台存储设备,所述该主机服务器和/或该存储设备仅承载所述发生故障的虚拟机,且该主机服务器故障特征值和/或该存储设备故障特征值中存在故障特征值,则认为由所述该主机服务器或者该存储设备导致虚拟机系统发生故障。
可选地,若发生故障的至少一个虚拟机不属于同台主机服务器或者同台存储设备或者既不属于同台主机服务器又不属于同台存储设备,和/或所述该主机服务器和/或该存储设备不仅承载所述发生故障的虚拟机,则认为由虚拟机导致虚拟机系统发生故障。
可选地,对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理的步骤包括:
若主机服务器出现故障,则将通过其它主机服务器重启在发生故障的主机服务器上运行的虚拟机;
若存储设备出现故障,则使用备用存储设备上的虚拟磁盘文件或通过虚拟机备份系统恢复在发生故障的存储设备上运行虚拟机任务;
若虚拟机发生故障,则将强制重新启动发生故障的虚拟机或通过虚拟机备份系统恢复在发生故障的虚拟机上运行的虚拟机任务。
依据本发明的另一个方面,还提供了一种虚拟机系统中设备故障处理的装置,包括:
获取模块,用于获取虚拟机系统的故障因子;
定位模块,用于根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;
处理模块,用于对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。
可选地,所述获取模块包括:
第一获取单元,用于获取虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值;
第二获取单元,用于根据所述虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值,获取虚拟机系统的故障因子。
可选地,所述获取模块通过公式:虚拟机系统的故障因子={{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}获取虚拟机系统的故障因子;其中,
{虚拟机列表,虚拟机故障特征值}表示虚拟机与虚拟机故障特征值构成的第一矩阵,且虚拟机列表中的任一个虚拟机对应一个虚拟机故障特征值;
{主机服务器列表,主机服务器故障特征值}表示主机服务器与主机服务器故障特征值构成的第二矩阵,且主机服务器列表中的任一个主机服务器对应一个主机服务器故障特征值;
{存储设备列表,存储设备故障特征值}表示存储设备与存储设备故障特征值构成的第三矩阵,且存储设备列表中的任一个存储设备对应一个存储设备故障特征值;
{{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}为所述第一矩阵、第二矩阵和第三矩阵构成的矩阵。
可选地,虚拟机的故障特征值={虚拟机标识,虚拟机网卡业务和管理类通信流量带宽N分钟统计值&&虚拟磁盘文件的最近更新时间变化值&&虚拟磁盘文件的校验值的变化值}。
可选地,主机服务器的故障特征值={主机标识,主机网卡业务和管理类通信流量带宽N分钟统计值&&主机存储类数据读写流量带宽N分钟统计值&&{主机服务器运行虚拟机列表,主机服务器运行各虚拟机故障特征值}求逻辑与的值}。
可选地,存储设备的故障特征值={存储标识,存储设备数据读写流量带宽N分钟统计值&&{存储设备运行虚拟机列表,存储设备运行各虚拟机故障特征值}求逻辑与的值}。
可选地,所述定位模块具体用于:
当虚拟机故障特征值中存在故障特征值时,若发生故障的至少一个虚拟机属于同台主机服务器或者同台存储设备或者既属于同台主机服务器又属于同台存储设备,所述该主机服务器和/或该存储设备仅承载所述发生故障的虚拟机,且该主机服务器故障特征值和/或该存储设备故障特征值中存在故障特征值,则认为由所述该主机服务器或者该存储设备导致虚拟机系统发生故障。
可选地,所述定位模块还用于:若发生故障的至少一个虚拟机不属于同台主机服务器或者同台存储设备或者既不属于同台主机服务器又不属于同台存储设备,和/或所述该主机服务器和/或该存储设备不仅承载所述发生故障的虚拟机,则认为由虚拟机导致虚拟机系统发生故障。
可选地,所述处理模块包括:
主机服务器处理单元,用于若主机服务器出现故障,则将通过其它主机服务器重启在发生故障的主机服务器上运行的虚拟机;
存储设备处理单元,用于若存储设备出现故障,则使用备用存储设备上的虚拟磁盘文件或通过虚拟机备份系统恢复在发生故障的存储设备上运行虚拟机任务;
虚拟机处理单元,用于若虚拟机发生故障,则将强制重新启动发生故障的虚拟机或通过虚拟机备份系统恢复在发生故障的虚拟机上运行的虚拟机任务。
依据本发明的另一个方面,还提供了一种虚拟机系统中设备故障处理的系统,包括主机服务器、存储设备以及虚拟机,还包括上述的虚拟机故障处理的装置。
可选地,所述系统还包括:系统故障检测模块、虚拟化管理模块,其中,所述虚拟化管理模块包括:信息系统状态库。
本发明的有益效果是:
在本发明方案中的虚拟机故障定位装置通过获取虚拟机系统中的故障因子,能够对产生故障的主机服务器、虚拟机和/或存储设备实现定位,并能够对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。拓展了虚拟化系统可自动恢复的故障范围、降低了故障恢复时间,更好的满足了上层应用在不同故障情况下对虚拟化系统的整体可用性的需求,提高故障定位精确度,增加了虚拟机系统的整体可用性。
附图说明
图1表示本发明实施例中虚拟机系统中设备故障处理的方法流程图;
图2表示本发明实施例中虚拟机系统中设备故障处理的工作流程图;
图3表示本发明实施例中获取故障因子的流程图;
图4表示本发明实施例中对发生故障位置进行切换处理的流程图;
图5表示本发明实施例中虚拟机故障处理装置的结构框图;
图6表示本发明实施中获取模块的结构框图;以及
图7表示本发明实施中处理模块的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
实施例一
本发明实施例公开了一种虚拟机系统中设备故障处理的方法,如图1所示,方法100包括以下步骤:
步骤S101、获取虚拟机系统的故障因子;
步骤S103、根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;
步骤S105、对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。
其中,如图2所示,为本发明实施例中虚拟机系统中设备故障处理的工作系统流程图,首先,从虚拟化管理系统中的系统状态信息库中获取主机服务器、虚拟机以及存储设备的状态信息,其中主机服务器、虚拟机以及存储设备的状态信息包括如下信息:
a)每台主机服务器运行状态标识;
b)每台主机服务器运行的虚拟机列表及标识;
c)每台主机网卡业务和管理类通信流量带宽N分钟统计值;
d)每台主机存储类数据读写流量带宽N分钟统计值;
e)每个存储卷设备运行状态标识;
f)每台存储设备运行的虚拟机列表及标识;
g)每台存储类数据读写流量带宽N分钟统计值;
h)每台虚拟机运行状态标识;
i)每台虚拟机网卡业务和管理类通信流量带宽N分钟统计值;
j)每台虚拟机的虚拟磁盘列表及存储路径;
k)每个虚拟磁盘文件的最近更新时间值;
l)每个虚拟磁盘文件的校验值;以及
m)上述信息的时间版本。
然后,对整个虚拟机系统进行故障检测,在对虚拟机系统进行检测时,要优先获取整个虚拟机系统的故障因子,其中,如图3所示,获取虚拟机系统的故障因子的步骤(步骤101)包括以下步骤:
S1011、获取虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值;
S1013、根据虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值,获取虚拟机系统的故障因子。
在本发明实施例中,在获取故障因子时,通过公式:
虚拟机系统的故障因子={{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}获取虚拟机系统的故障因子,其中,{虚拟机列表,虚拟机故障特征值}表示虚拟机与虚拟机故障特征值构成的第一矩阵,且虚拟机列表中的任一个虚拟机对应一个虚拟机故障特征值;{主机服务器列表,主机服务器故障特征值}表示主机服务器与主机服务器故障特征值构成的第二矩阵,且主机服务器列表中的任一个主机服务器对应一个主机服务器故障特征值;{存储设备列表,存储设备故障特征值}表示存储设备与存储设备故障特征值构成的第三矩阵,且存储设备列表中的任一个存储设备对应一个存储设备故障特征值;{{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}为上述第一矩阵、第二矩阵和第三矩阵构成的矩阵便于对整个虚拟机系统的故障因子进行检测,当故障因子为0时,代表本虚拟机系统存在故障,在本发明实施例中,当然可以理解的是,对故障因子的具体数值以及输出形式并不进行具体限定。
其中,通过公式虚拟机的故障特征值={虚拟机标识,虚拟机网卡业务和管理类通信流量带宽N分钟统计值&&虚拟磁盘文件的最近更新时间变化值&&虚拟磁盘文件的校验值的变化值},对上述值取逻辑与的值,获取虚拟机的故障特征值,当且当虚拟机故障特征值=0时,代表本虚拟机有故障,当然可以理解的是,在本发明实施例中,对虚拟机故障特征值并不进行具体限定。
通过公式主机服务器的故障特征值={主机标识,主机网卡业务和管理类通信流量带宽N分钟统计值&&主机存储类数据读写流量带宽N分钟统计值&&{主机服务器运行虚拟机列表,主机服务器运行各虚拟机故障特征值}求逻辑与的值},获取主机服务器的故障特征值,当且仅当主机服务器故障特征值=0时,代表本主机服务器有故障,当然可以理解的是,在本发明实施例中,对主机服务器故障特征值并不进行具体限定。
通过公式存储设备的故障特征值={存储标识,存储设备数据读写流量带宽N分钟统计值&&{存储设备运行虚拟机列表,存储设备运行各虚拟机故障特征值}求逻辑与的值},获取存储设备的故障特征值,当且仅当存储设备故障特征值=0时,代表本存储设备有故障,当然可以理解的是,在本发明实施例中,对存储设备故障特征值并不进行具体限定。
在本发明实施例中,根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备(步骤S103)包括:
当虚拟机故障特征值中存在故障特征值时,若发生故障的至少一个虚拟机属于同台主机服务器或者同台存储设备或者既属于同台主机服务器又属于同台存储设备,该主机服务器和/或该存储设备仅承载发生故障的虚拟机,且该主机服务器故障特征值和/或该存储设备故障特征值中存在故障特征值,则认为由该主机服务器或者该存储设备导致虚拟机系统发生故障。
其中,根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备(步骤S103)还包括:若发生故障的至少一个虚拟机不属于同台主机服务器或者同台存储设备或者既不属于同台主机服务器又不属于同台存储设备,和/或该主机服务器和/或该存储设备不仅承载发生故障的虚拟机,则认为由虚拟机导致虚拟机系统发生故障。
具体地,在定位发生故障位置时,具体如下:
在本发明实施例中,如果部分虚拟机的故障特征值等于0,进而回归判断这些虚拟机是否属于相同的P台主机服务器,如果是再回归判断这P台主机服务器是否仅承载这些故障特征值为0的虚拟机、主机网卡业务和管理类通信流量带宽N分钟统计值、主机存储类数据读写流量带宽N分钟统计值,如果上述判断结果任一为“0”,即说明该主机服务器出现故障。此时,主机服务器可能出现的故障如下:
1)主机服务器发生宕机:主机操作系统已经崩溃,此时,这P台主机服务器承载的所有虚拟机的故障特征值为0、主机网卡业务和管理类通信流量带宽N分钟统计值为0、主机存储类数据读写流量带宽N分钟统计值为0,因此这P台主机的故障特征值等于0;
2)主机服务器对外网络中断,此时,这P台主机服务器的网卡业务和管理类通信流量带宽N分钟统计值为0,主机存储类数据读写流量带宽N分钟统计值和所有承载虚拟机的故障特征值也可能为0,因此这P台主机的故障特征值等于0;
3)主机服务器磁盘阵列卡出现故障,主机操作系统无法正常工作,此时,这P台主机服务器承载的所有虚拟机的故障特征值为0、主机网卡业务和管理类通信流量带宽N分钟统计值为0、主机存储类数据读写流量带宽N分钟统计值为0,因此这P台主机的故障特征值等于0;
4)主机服务器操作系统内存溢出故障,主机操作系统无法正常工作,此时,这P台主机服务器承载的所有虚拟机的故障特征值为0、主机网卡业务和管理类通信流量带宽N分钟统计值为0、主机存储类数据读写流量带宽N分钟统计值为0,因此这P台主机的故障特征值等于0;
5)主机服务器操作系统安装硬盘故障数超过最大允许值,主机操作系统无法正常工作,此时,这P台主机服务器承载的所有虚拟机的故障特征值为0、主机网卡业务和管理类通信流量带宽N分钟统计值为0、主机存储类数据读写流量带宽N分钟统计值为0,因此这P台主机的故障特征值等于0。
在本发明实施例中,如果部分虚拟机的故障特征值等于0,进而回归判断这些虚拟机是否属于相同的Q台存储设备,如果是再回归判断这Q台存储设备是否仅承载这些故障特征值为0的虚拟机、存储类数据读写流量带宽N分钟统计值,如果上述判断结果任一为“0”,即说明该存储设备出现故障。此时,该存储设备中的虚拟机磁盘文件全部无法访问,且存储设备因出现故障无法提供正常服务,该存储设备可能出现宕机或存储网络异常等故障。
在本发明实施例中,如果部分虚拟机的虚拟网卡业务和管理类通信流量带宽N分钟统计值等于0、虚拟磁盘文件的更新时间变化值等于0、虚拟磁盘文件的校验值变化等于0,则判断这些虚拟机的故障特征值等于0,进而回归判断这些虚拟机是否属于相同的P台主机服务器或Q台存储设备,如果是归判断这P台主机服务器和Q台存储设备是否仅承载这些故障特征值为0的虚拟机,如果上述两个回归判断结果至少有一个为“否”,即说明该虚拟机出现故障。此时,该虚拟机出现宕机或虚拟机操作系统内存溢出等类型故障,无法提供正常服务。
在本发明实施例中,可以理解的是,上述规定的故障特征值为0时代表虚拟机发生故障,仅是一种代表形式,并不能用于限定故障特征值的具体数值或代表形式,任何能够代表虚拟机发生故障的代表形式均在本发明的保护范围之内。
在本发明实施例中,如图4所示,对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理(步骤S105)包括以下步骤:
步骤S1051、若主机服务器出现故障,则将通过其它主机服务器重启在发生故障的主机服务器上运行的虚拟机;
步骤S1053、若存储设备出现故障,则使用备用存储设备上的虚拟磁盘文件或通过虚拟机备份系统恢复在发生故障的存储设备上运行虚拟机任务;
步骤S1055、若虚拟机发生故障,则将强制重新启动发生故障的虚拟机或通过虚拟机备份系统恢复在发生故障的虚拟机上运行的虚拟机任务。
其中,具体地,当主机服务器发生故障时,需要把该主机中所有虚拟机在其它主机服务器中重新启动。另外,虚拟机切换主机服务器成功后,将主机服务器标识为“故障”状态,并向虚拟化管理系统发出相应告警信息。
当存储设备发生故障时,需要在备用存储设备中访问受故障影响的虚拟机磁盘文件、或触发虚拟机备份系统将故障虚拟机磁盘文件恢复到其它可用存储设备中。虚拟机切换存储设备成功后,将存储设备标识为“故障”状态,并向虚拟化管理系统发出相应告警信息。
当虚拟机发生故障时,需要把该虚拟机强制重新启动。虚拟机重启后经检测该虚拟机的故障特征值等于0仍未变化,则判定该虚拟机出现操作系统级故障无法提供正常服务,需要通知虚拟机备份系统发起恢复故障虚拟机的任务。虚拟机重启或恢复成功后,向虚拟化管理系统发出相应事件信息。
实施例二
本发明实施例公开了一种虚拟机系统中设备故障处理的装置,如图5所示,该装置包括:
获取模块501,用于获取虚拟机系统的故障因子;
定位模块503,用于根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;
处理模块505,用于对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。
具体地,在本发明实施例中,如图6所示,获取模块501包括:
第一获取单元5011,用于获取虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值;
第二获取单元5013,用于根据虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值,获取虚拟机系统的故障因子。
具体地,在本发明实施例中,获取模块501通过公式:虚拟化系统的故障因子={{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}获取虚拟机系统的故障因子,其中,{虚拟机列表,虚拟机故障特征值}表示虚拟机与虚拟机故障特征值构成的第一矩阵,且虚拟机列表中的任一个虚拟机对应一个虚拟机故障特征值;{主机服务器列表,主机服务器故障特征值}表示主机服务器与主机服务器故障特征值构成的第二矩阵,且主机服务器列表中的任一个主机服务器对应一个主机服务器故障特征值;{存储设备列表,存储设备故障特征值}表示存储设备与存储设备故障特征值构成的第三矩阵,且存储设备列表中的任一个存储设备对应一个存储设备故障特征值;{{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}为上述第一矩阵、第二矩阵和第三矩阵构成的矩阵。
具体地,在本发明实施例中,虚拟机的故障特征值={虚拟机标识,虚拟机网卡业务和管理类通信流量带宽N分钟统计值&&虚拟磁盘文件的最近更新时间变化值&&虚拟磁盘文件的校验值的变化值}。
具体地,在本发明实施例中,主机服务器的故障特征值={主机标识,主机网卡业务和管理类通信流量带宽N分钟统计值&&主机存储类数据读写流量带宽N分钟统计值&&{主机服务器运行虚拟机列表,主机服务器运行各虚拟机故障特征值}求逻辑与的值}。
具体地,在本发明实施例中,存储设备的故障特征值={存储标识,存储设备数据读写流量带宽N分钟统计值&&{存储设备运行虚拟机列表,存储设备运行各虚拟机故障特征值}求逻辑与的值}。
具体地,在本发明实施例中,定位模块503具体用于:
当虚拟机故障特征值中存在故障特征值时,若发生故障的至少一个虚拟机属于同台主机服务器或者同台存储设备或者既属于同台主机服务器又属于同台存储设备,该主机服务器和/或该存储设备仅承载发生故障的虚拟机,且该主机服务器故障特征值和/或该存储设备故障特征值中存在故障特征值,则认为由该主机服务器或者该存储设备导致虚拟机系统发生故障。
进一步地,定位模块503还用于若发生故障的至少一个虚拟机不属于同台主机服务器或者同台存储设备或者既不属于同台主机服务器又不属于同台存储设备,和/或该主机服务器和/或该存储设备不仅承载发生故障的虚拟机,则认为由虚拟机导致虚拟机系统发生故障。
进一步地,如图7所示,处理模块505包括:
主机服务器处理单元5051,用于若主机服务器出现故障,则将通过其它主机服务器重启在发生故障的主机服务器上运行的虚拟机;
存储设备处理单元5053,用于若存储设备出现故障,则使用备用存储设备上的虚拟磁盘文件或通过虚拟机备份系统恢复在发生故障的存储设备上运行虚拟机任务;
虚拟机处理单元5055,用于若虚拟机发生故障,则将强制重新启动发生故障的虚拟机或通过虚拟机备份系统恢复在发生故障的虚拟机上运行的虚拟机任务。
实施例三
本发明实施例公开了一种虚拟机系统中设备故障处理的系统,包括主机服务器、存储设备以及虚拟机,还包括上述的虚拟机系统中设备故障处理的装置。
进一步地,系统还包括:虚拟化管理模块,用于调度任一模块的资源分配以及故障的切换处理,其中所述虚拟化管理模块包括:系统状态信息库,用于记录系统中所有主机服务器、存储设备以及虚拟机的运行状态;
系统故障检测模块,用于实时监测虚拟机系统中的故障因子,并实时更新所述系统状态信息库中记录的所有主机服务器、存储设备以及虚拟机的运行状态。
具体地,虚拟化管理模块负责调度各组件资源分配和各工作模块执行任务,决策是否有故障需要处理、由哪个模块处理、如何处理,并将故障处理任务发送给主机服务器处理单元、存储设备处理单元以及虚拟机处理单元具体执行。虚拟化管理模块还包括:系统状态信息库,信息库中至少记录系统中所有主机服务器、存储设备、虚拟机等全部组件的如下运行状态等信息。
具体地,系统故障检测模块负责实时监测虚拟化系统中的故障因子,并根据故障因子判断虚拟机、主机服务器、存储设备的故障列表,以及系统状态信息库中各信息字段是否需要更新,并将故障列表和状态更新信息发送到虚拟化管理模块。
具体地,在虚拟机故障处理完成后,虚拟化系统即进入正常运行状态,需及时更新系统状态信息库中如下信息:
a)每台主机服务器运行的虚拟机列表及标识(虚拟机发生主机服务器切换后,虚拟机列表信息会发生变化);
b)主机服务器运行状态标识(主机服务器故障后,状态信息需更新为“故障”状态,此时不可以再向该主机分配运行虚拟机);
c)每台主机网卡业务和管理类通信流量带宽N分钟统计值;
d)每台主机存储类数据读写流量带宽N分钟统计值;
e)每台虚拟机的虚拟磁盘列表及存储路径(虚拟机发生存储设备切换操作或虚拟机恢复到其它存储设备中后,虚拟机磁盘文件存储路径信息会发生变化);
f)每个虚拟磁盘文件更新时间值和校验值(正常运行的虚拟机的虚拟磁盘文件最新的特征值A应随时变化);
g)每台虚拟网卡业务和管理类通信流量带宽N分钟统计值;
h)虚拟机运行状态标识(虚拟机由正常运行、关机状态可能切换到重启状态、备份恢复状态);
i)每个存储卷设备运行状态标识(存储卷设备故障后,状态信息需更新为“故障”状态,此时不可以再向该存储卷设备分配运行虚拟机);
j)每台存储类数据读写流量带宽N分钟统计值。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (20)

1.一种虚拟机系统中设备故障处理的方法,其特征在于,包括:
获取虚拟机系统的故障因子;
根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;
对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。
2.如权利要求1所述的方法,其特征在于,获取虚拟机系统的故障因子的步骤包括:
获取虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值;
根据所述虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值,获取虚拟机系统的故障因子。
3.如权利要求2所述的方法,其特征在于,通过公式:虚拟机系统的故障因子={{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}获取虚拟机系统的故障因子;其中,
{虚拟机列表,虚拟机故障特征值}表示虚拟机与虚拟机故障特征值构成的第一矩阵,且虚拟机列表中的任一个虚拟机对应一个虚拟机故障特征值;
{主机服务器列表,主机服务器故障特征值}表示主机服务器与主机服务器故障特征值构成的第二矩阵,且主机服务器列表中的任一个主机服务器对应一个主机服务器故障特征值;
{存储设备列表,存储设备故障特征值}表示存储设备与存储设备故障特征值构成的第三矩阵,且存储设备列表中的任一个存储设备对应一个存储设备故障特征值;
{{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}为所述第一矩阵、第二矩阵和第三矩阵构成的矩阵。
4.如权利要求2或3所述的方法,其特征在于,虚拟机的故障特征值={虚拟机标识,虚拟机网卡业务和管理类通信流量带宽N分钟统计值&&虚拟磁盘文件的最近更新时间变化值&&虚拟磁盘文件的校验值的变化值}。
5.如权利要求2或3所述的方法,其特征在于,主机服务器的故障特征值={主机标识,主机网卡业务和管理类通信流量带宽N分钟统计值&&主机存储类数据读写流量带宽N分钟统计值&&{主机服务器运行虚拟机列表,主机服务器运行各虚拟机故障特征值}求逻辑与的值}。
6.如权利要求2或3所述的方法,其特征在于,存储设备的故障特征值={存储标识,存储设备数据读写流量带宽N分钟统计值&&{存储设备运行虚拟机列表,存储设备运行各虚拟机故障特征值}求逻辑与的值}。
7.如权利要求1所述的方法,其特征在于,根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备的步骤包括:
当虚拟机故障特征值中存在故障特征值时,若发生故障的至少一个虚拟机属于同台主机服务器或者同台存储设备或者既属于同台主机服务器又属于同台存储设备,所述该主机服务器和/或该存储设备仅承载所述发生故障的虚拟机,且所述该主机服务器故障特征值和/或该存储设备故障特征值中存在故障特征值,则认为由所述该主机服务器或者该存储设备导致虚拟机系统发生故障。
8.如权利要求7求所述的方法,其特征在于,若发生故障的至少一个虚拟机不属于同台主机服务器或者同台存储设备或者既不属于同台主机服务器又不属于同台存储设备,和/或所述该主机服务器和/或该存储设备不仅承载所述发生故障的虚拟机,则认为由虚拟机导致虚拟机系统发生故障。
9.如权利要求1所述的方法,其特征在于,对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理的步骤包括:
若主机服务器出现故障,则将通过其它主机服务器重启在发生故障的主机服务器上运行的虚拟机;
若存储设备出现故障,则使用备用存储设备上的虚拟磁盘文件或通过虚拟机备份系统恢复在发生故障的存储设备上运行虚拟机任务;
若虚拟机发生故障,则将强制重新启动发生故障的虚拟机或通过虚拟机备份系统恢复在发生故障的虚拟机上运行的虚拟机任务。
10.一种虚拟机系统中设备故障处理的装置,其特征在于,包括:
获取模块,用于获取虚拟机系统的故障因子;
定位模块,用于根据故障因子,定位虚拟机系统中发生故障的主机服务器、虚拟机和/或存储设备;
处理模块,用于对发生故障的主机服务器、虚拟机和/或存储设备进行切换处理。
11.如权利要求10所述的装置,其特征在于,所述获取模块包括:
第一获取单元,用于获取虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值;
第二获取单元,用于根据所述虚拟机系统中,虚拟机列表、虚拟机故障特征值、主机服务器列表、主机服务器故障特征值、存储设备列表和存储设备故障特征值,获取虚拟机系统的故障因子。
12.如权利要求10所述的装置,其特征在于,所述获取模块通过公式:虚拟机系统的故障因子={{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}获取虚拟机系统的故障因子;其中,
{虚拟机列表,虚拟机故障特征值}表示虚拟机与虚拟机故障特征值构成的第一矩阵,且虚拟机列表中的任一个虚拟机对应一个虚拟机故障特征值;
{主机服务器列表,主机服务器故障特征值}表示主机服务器与主机服务器故障特征值构成的第二矩阵,且主机服务器列表中的任一个主机服务器对应一个主机服务器故障特征值;
{存储设备列表,存储设备故障特征值}表示存储设备与存储设备故障特征值构成的第三矩阵,且存储设备列表中的任一个存储设备对应一个存储设备故障特征值;
{{虚拟机列表,虚拟机故障特征值},{主机服务器列表,主机服务器故障特征值},{存储设备列表,存储设备故障特征值}}为所述第一矩阵、第二矩阵和第三矩阵构成的矩阵。
13.如权利要求11或12所述的装置,其特征在于,虚拟机的故障特征值={虚拟机标识,虚拟机网卡业务和管理类通信流量带宽N分钟统计值&&虚拟磁盘文件的最近更新时间变化值&&虚拟磁盘文件的校验值的变化值}。
14.如权利要求11或12所述的装置,其特征在于,主机服务器的故障特征值={主机标识,主机网卡业务和管理类通信流量带宽N分钟统计值&&主机存储类数据读写流量带宽N分钟统计值&&{主机服务器运行虚拟机列表,主机服务器运行各虚拟机故障特征值}求逻辑与的值}。
15.如权利要求11或12所述的装置,其特征在于,存储设备的故障特征值={存储标识,存储设备数据读写流量带宽N分钟统计值&&{存储设备运行虚拟机列表,存储设备运行各虚拟机故障特征值}求逻辑与的值}。
16.如权利要求10所述的装置,其特征在于,所述定位模块具体用于:
当虚拟机故障特征值中存在故障特征值时,若发生故障的至少一个虚拟机属于同台主机服务器或者同台存储设备或者既属于同台主机服务器又属于同台存储设备,所述该主机服务器和/或该存储设备仅承载所述发生故障的虚拟机,且所述该主机服务器故障特征值和/或该存储设备故障特征值中存在故障特征值,则认为由所述该主机服务器或者该存储设备导致虚拟机系统发生故障。
17.如权利要求16所述的装置,其特征在于,所述定位模块还用于:
若发生故障的至少一个虚拟机不属于同台主机服务器或者同台存储设备或者既不属于同台主机服务器又不属于同台存储设备,和/或所述该主机服务器和/或该存储设备不仅承载所述发生故障的虚拟机,则认为由虚拟机导致虚拟机系统发生故障。
18.如权利要求10所述的装置,其特征在于,所述处理模块包括:
主机服务器处理单元,若主机服务器出现故障,则将通过其它主机服务器重启在发生故障的主机服务器上运行的虚拟机;
存储设备处理单元,用于若存储设备出现故障,则使用备用存储设备上的虚拟磁盘文件或通过虚拟机备份系统恢复在发生故障的存储设备上运行虚拟机任务;
虚拟机处理单元,用于若虚拟机发生故障,则将强制重新启动发生故障的虚拟机或通过虚拟机备份系统恢复在发生故障的虚拟机上运行的虚拟机任务。
19.一种虚拟机系统中设备故障处理的系统,其特征在于,包括主机服务器、存储设备以及虚拟机,还包括上述的虚拟机系统中设备故障处理的装置。
20.如权利要求19所述的系统,其特征在于,所述系统还包括:
虚拟化管理模块,用于调度任一模块的资源分配以及故障的切换处理,其中所述虚拟化管理模块包括:系统状态信息库,用于记录虚拟机系统中所有主机服务器、存储设备以及虚拟机的运行状态;
系统故障检测模块,用于实时监测虚拟机系统中的故障因子,并实时更新所述系统状态信息库中记录的所有主机服务器、存储设备以及虚拟机的运行状态。
CN201410664303.3A 2014-11-19 2014-11-19 一种虚拟机系统中设备故障处理的方法、装置及系统 Active CN105607973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410664303.3A CN105607973B (zh) 2014-11-19 2014-11-19 一种虚拟机系统中设备故障处理的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410664303.3A CN105607973B (zh) 2014-11-19 2014-11-19 一种虚拟机系统中设备故障处理的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105607973A true CN105607973A (zh) 2016-05-25
CN105607973B CN105607973B (zh) 2020-03-17

Family

ID=55987926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410664303.3A Active CN105607973B (zh) 2014-11-19 2014-11-19 一种虚拟机系统中设备故障处理的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN105607973B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014567A1 (zh) * 2016-07-22 2018-01-25 平安科技(深圳)有限公司 一种提高虚拟机性能的方法、终端、设备及计算机可读存储介质
CN108228308A (zh) * 2016-12-21 2018-06-29 中国电信股份有限公司 虚拟机的监控方法以及装置
CN108475201A (zh) * 2016-11-24 2018-08-31 华为技术有限公司 一种虚拟机启动过程中的数据获取方法和云计算系统
WO2018233365A1 (zh) * 2017-06-20 2018-12-27 平安科技(深圳)有限公司 一种信息查询方法、终端、设备以及存储介质
CN110209470A (zh) * 2019-06-11 2019-09-06 优刻得科技股份有限公司 虚拟机的心跳检测方法、系统、设备和介质
CN112799896A (zh) * 2021-01-29 2021-05-14 中国工商银行股份有限公司 分布式存储硬盘故障处理方法及装置
CN115426245A (zh) * 2022-08-29 2022-12-02 上海云轴信息科技有限公司 云平台网络故障自动检测方法、设备及计算机可读介质
CN118488065A (zh) * 2024-05-29 2024-08-13 朴道征信有限公司 服务器切换方法、装置、电子设备和计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814121A (zh) * 2010-04-19 2010-08-25 山东高效能服务器和存储研究院 一种预见性虚拟机零宕机ha
CN102053873A (zh) * 2011-01-13 2011-05-11 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
CN102662821A (zh) * 2012-03-22 2012-09-12 华为技术有限公司 虚拟机故障的辅助诊断方法、装置和系统
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN103701627A (zh) * 2012-09-27 2014-04-02 北京搜狐新媒体信息技术有限公司 一种云计算平台故障检测方法、装置及解决方法、装置
CN103795742A (zh) * 2012-10-30 2014-05-14 中国电信股份有限公司 异构存储容灾管理系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814121A (zh) * 2010-04-19 2010-08-25 山东高效能服务器和存储研究院 一种预见性虚拟机零宕机ha
CN102053873A (zh) * 2011-01-13 2011-05-11 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
CN102662821A (zh) * 2012-03-22 2012-09-12 华为技术有限公司 虚拟机故障的辅助诊断方法、装置和系统
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN103701627A (zh) * 2012-09-27 2014-04-02 北京搜狐新媒体信息技术有限公司 一种云计算平台故障检测方法、装置及解决方法、装置
CN103795742A (zh) * 2012-10-30 2014-05-14 中国电信股份有限公司 异构存储容灾管理系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014567A1 (zh) * 2016-07-22 2018-01-25 平安科技(深圳)有限公司 一种提高虚拟机性能的方法、终端、设备及计算机可读存储介质
US10509710B2 (en) 2016-07-22 2019-12-17 Ping An Technology (Shenzhen) Co., Ltd. Method, terminal, device and computer readable storage medium for improving the performance of virtual machine
CN108475201A (zh) * 2016-11-24 2018-08-31 华为技术有限公司 一种虚拟机启动过程中的数据获取方法和云计算系统
CN108475201B (zh) * 2016-11-24 2021-02-26 华为技术有限公司 一种虚拟机启动过程中的数据获取方法和云计算系统
CN108228308A (zh) * 2016-12-21 2018-06-29 中国电信股份有限公司 虚拟机的监控方法以及装置
WO2018233365A1 (zh) * 2017-06-20 2018-12-27 平安科技(深圳)有限公司 一种信息查询方法、终端、设备以及存储介质
CN110209470A (zh) * 2019-06-11 2019-09-06 优刻得科技股份有限公司 虚拟机的心跳检测方法、系统、设备和介质
CN112799896A (zh) * 2021-01-29 2021-05-14 中国工商银行股份有限公司 分布式存储硬盘故障处理方法及装置
CN115426245A (zh) * 2022-08-29 2022-12-02 上海云轴信息科技有限公司 云平台网络故障自动检测方法、设备及计算机可读介质
CN118488065A (zh) * 2024-05-29 2024-08-13 朴道征信有限公司 服务器切换方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN105607973B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN107179957B (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN110798375B (zh) 一种增强容器集群高可用性的监控方法、系统及终端设备
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US9170888B2 (en) Methods and apparatus for virtual machine recovery
CN102981931B (zh) 虚拟机备份方法及装置
CN106682162B (zh) 日志管理方法及装置
CN112579327B (zh) 一种故障检测方法、装置及设备
CN114675791B (zh) 一种磁盘处理方法、系统及电子设备
CN109062723A (zh) 服务器故障的处理方法和装置
CN113051104B (zh) 基于纠删码的磁盘间数据恢复方法及相关装置
CN111796959A (zh) 宿主机容器自愈方法、装置及系统
CN115766402B (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN113672415A (zh) 一种磁盘故障处理方法、装置、设备及存储介质
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN117573306A (zh) 批量任务调度系统、方法、装置、计算机设备和存储介质
CN111090491B (zh) 虚拟机任务状态的恢复方法、装置及电子设备
CN112084097A (zh) 一种磁盘告警方法及装置
CN111897626A (zh) 一种面向云计算场景的虚拟机高可靠系统和实现方法
CN116737462A (zh) 一种数据处理方法、系统、装置及介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN114741220B (zh) 一种磁盘隔离方法、系统、设备及存储介质
CN113485872B (zh) 故障处理方法、装置及分布式存储系统
CN104346233A (zh) 一种用于计算机系统的故障恢复方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant