CN102597962B - 用于虚拟计算环境中的故障管理的方法和系统 - Google Patents

用于虚拟计算环境中的故障管理的方法和系统 Download PDF

Info

Publication number
CN102597962B
CN102597962B CN201080048606.2A CN201080048606A CN102597962B CN 102597962 B CN102597962 B CN 102597962B CN 201080048606 A CN201080048606 A CN 201080048606A CN 102597962 B CN102597962 B CN 102597962B
Authority
CN
China
Prior art keywords
event
failure
virtual machine
virtual
monitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080048606.2A
Other languages
English (en)
Other versions
CN102597962A (zh
Inventor
D·R·弗兰克林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102597962A publication Critical patent/CN102597962A/zh
Application granted granted Critical
Publication of CN102597962B publication Critical patent/CN102597962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

提供了一种用于虚拟计算环境中的故障管理的方法和系统。该系统包括:在虚拟计算环境中来自虚拟机和主机装置的故障事件的监视器和在虚拟计算环境中的状况事件的监视器,其中状况事件是指虚拟机名称和主机装置名称。通用故障组件确定故障事件是否影响虚拟机和主机装置二者,并且相关组件将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。与问题相关的主机故障事件被标记为根事件,并且与问题相关的虚拟机故障事件被标记为具有至该根事件的链接的症状。

Description

用于虚拟计算环境中的故障管理的方法和系统
技术领域
本发明涉及故障管理的领域。特别地,本发明涉及虚拟计算环境中的故障管理。
背景技术
通常在虚拟环境中运行操作系统。这些操作系统进而被用于运行实现各种服务的应用。每个虚拟机(VM)直接复制一台物理计算机,但在物理主机上的管理程序(hypervisor)之下运行。一个主机能够容纳多个VM。为了最大化主机利用率以及提高故障容许度,VM通常在一群(cluster)主机上运行。如果一个主机发生故障,则VM能够移动(或者迁移)为在该群中的另一个主机上运行。
在VM上发生故障的方式与在物理机器上发生故障的方式类似。故障管理系统能够被用于检测和监视这些问题并且将它们报告给操作员,以实现快速解决。例如,是服务级管理系统,用于从包括故障事件的许多不同的网络数据源收集企业范围的事件信息(IBM、Tivoli和Netcool是IBM公司在全球许多司法管辖范围内注册的商标)。
在虚拟环境中,故障可能由运行VM的主管理程序系统上的故障引起。如果许多VM正由单个主机运行,则这能够潜在导致报告不是由VM本身的故障导致的大批故障。对于操作员快速完成工作和修补,这可能令人迷惑并且耗时。另外,即使管理程序故障监视也被实现,这种(常常不太严重)的根由(root cause)故障会在大批VM故障事件中被错过并且被操作员忽视。
此外,解决VM上的某些故障的一种方法是将它们移至不同的物理主机。这将导致即时解决某些问题,但是在这些VM上运行的传统故障监视系统更新这种状态变化以及清除问题较慢。
因此,需要解决现有技术中的上述问题。
发明内容
根据本发明的第一方面,提供了一种用于虚拟计算环境中的故障管理的方法,包括:在虚拟计算环境中监视虚拟机和主机装置的故障事件;在虚拟计算环境中监视状况事件,其中状况事件是指虚拟机名称和主机装置名称;确定故障事件是否影响虚拟机和主机装置二者;将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。
该方法可以包括:保持虚拟机状态表;以及保持虚拟机名称和主机装置名称的映射。
该方法还可以包括将故障事件插入到故障事件表中。与问题相关的主机故障事件可以在故障事件表中被标记为根事件。与问题相关的虚拟机故障事件可以在故障事件表中被标记为症状,并且至根事件的链接被加入故障事件表中。
当虚拟机移至新主机时,该虚拟机的所有故障事件可以处于故障事件表中并且严重性被降低。此外,根链接可以被移除。
状况事件可以由监视系统(探测器(probe)从其得到事件警报)进行监视并且包括虚拟机和主机装置与主机故障事件之间的关系的指示。
可以通过在虚拟机上运行的探测器提供虚拟机中的故障事件并且可以通过在主机上运行的探测器提供主机中的故障事件。
可以由监视系统(探测器从其得到事件警报)监视主机中的故障事件。
根据本发明的第二方面,提供了一种用于虚拟计算环境中的故障管理的计算机软件产品,该产品包括计算机可读存储介质,存储其中存储有包括计算机可执行指令的程序的计算机,这些指令当由计算机读取执行时执行下面的步骤:在虚拟计算环境中监视虚拟机和主机装置的故障事件;在虚拟计算环境中监视状况事件,其中状况事件是指虚拟机名称和主机装置名称;确定故障事件是否影响虚拟机和主机装置二者;将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。
根据本发明的第三方面,提供了一种用于虚拟计算环境中的故障管理的系统,包括:处理器;在虚拟计算环境中虚拟机和主机装置的故障事件的监视器;在虚拟计算环境中状况事件的监视器,其中状况事件是指虚拟机名称和主机装置名称;规格化组件,用于确定故障事件是否影响虚拟机和主机装置二者;以及相关组件,用于将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。
该系统可以包括虚拟机状态表以及虚拟机名称与主机装置名称的映射。
该系统还可以包括故障事件表,用于保持关于虚拟机或者主机装置的故障事件的列表。该系统可以包括针对与问题相关的主机故障事件的故障事件表中的根事件标记。该系统还可以包括针对与问题相关的虚拟机故障事件的故障事件表中的症状标记以及至故障事件表中的根事件的链接。
该系统可以包括故障解决组件,其中当虚拟机移至新主机时,解决组件将该虚拟机的所有故障事件安置在故障事件表中并且降低事件的严重性。
用于状况事件的监视器可以从虚拟环境群控制中心获得状况事件并且可以将事件警报提供给故障管理系统。
用于故障事件的监视器可以是在虚拟机上运行的探测器并且用于故障事件的监视器可以是在主机上运行的探测器。
用于主机中的故障事件的监视器可以从虚拟环境群控制中心获得故障事件并且可以将事件警报提供给故障管理系统。探测器可以在远程机器上运行并且可以经由网络监视主机。
从第四方面看,本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内存中的计算机程序,包括软件代码部分,当所述程序在计算机上运行时,用于执行本发明的步骤。
附图说明
现在将参照在下面的附图中所示的优选实施例仅通过例子描述本发明:
图1是根据本发明的系统的优选实施例的框图;
图2是根据本发明的优选实施例的系统的对象服务器的框图;
图3是示出可以实现本发明的优选实施例的计算机系统的框图;
图4是根据本发明的优选实施例的方法的流程图;以及
图5是根据本发明的优选实施例的方法的流程图。
具体实施方式
应该明白,为了例示的简化和清楚,图中所示的部件不一定是按比例绘制的。例如,为了清楚,可以相对于其它部件夸大某些部件的尺寸。另外,当认为恰当时,标号可以在附图中重复以指示对应或类似特征。
在下面的详细描述中,为了提供对本发明的全面理解,阐述大量特定细节。然而,本领域技术人员应该明白,没有这些特定细节也可以实施本发明。在其它情况下,没有详细描述公知的方法、过程和组件从而不会模糊本发明。
描述了一种方法和系统,其中,从管理程序和VM二者收集故障事件并且对故障事件进行规格化并且提供给故障管理系统。还从管理程序收集指示每个VM正在哪个主机上运行的数据。这个信息用于执行下面动作。
1.故障事件相关。识别关于相同原始问题的由主机或管理程序生成的故障事件(称作主机事件)和由虚拟机生成的故障事件(称作VM事件)。在VM上导致错误的主机事件的严重性升高并且被标记为根由。来自VM的对应错误的严重性下降,被标记为症状事件并且事件中的一个字段被设置为指向所述根由事件。这使得操作员可以更加快速地过滤掉症状事件并且识别高严重性根由事件。能够更加快速地解决问题,这进而将解决所有的症状VM事件。如果操作员正在观看特定症状事件,则还能够迅速识别根由。
2.VM迁移后的故障解决。通过将虚拟机移至新的物理主机能够解决硬件相关故障。当VM迁移到新的物理主机时,所有的这类故障的严重性下降。一旦VM上的监视器接收到故障已经被清除的信息,VM事件如往常那样得到解决和清除。这样做的优点在于,操作员的高严重性故障事件的显示将被更加迅速地得到清除,从而使他们可以专注于任何更加重要的问题。
参照图1,提供了系统100,包括用于处理虚拟计算环境中的故障事件的故障管理服务器110。
虚拟计算环境包括一个或多个虚拟机121-126,每个虚拟机在一个主机操作系统131、132或者计算机硬件上运行,该主机操作系统131、132或者计算机硬件具有软件层,即,动态和透明地分配硬件资源的虚拟机监视器或管理程序141、142。多个操作系统能够在一个物理计算机上并行运行并且彼此共享硬件资源。通过封装整个机器(包括中央处理器、存储器、操作系统和网络装置),虚拟机121到126与所有标准操作系统、应用以及装置驱动程序完全兼容。
为了最大化主机利用率以及增大故障容许度,VM 121到126在主机131、132的群130上运行。如果一个主机131、132发生故障,则VM能够被移动(或者迁移)从而在群130中的另一个主机131、132上运行。
VM 121到126运行探测器以提供探测馈送(probe feed)160从而向故障管理服务器110报告由基础硬件故障或问题导致的VM故障161(称作VM硬件故障)。主机131、132还可以运行探测器(在主机支持的情况下)以提供探测馈送170从而向故障管理服务器110报告主机硬件故障171。
术语探测器用于连接到例如VM或主机的事件源并且检测和获取事件数据以及将事件数据转发给故障管理服务器110作为警报的程序。在将事件元素转换成故障管理服务器110警报状态表中的警报的字段之前,探测器可以使用在规则文件中指定的逻辑操纵事件元素。每个探测器被设计为从特定源获取事件数据。探测器还可以被称作用于远程或直接监视网络装置的监视装置或代理。
例如,VM121到126和主机131和132可以运行标准IBMOMNIbus探测器160,如果它们是基于或者在支持IBMOMNIbus的平台上运行的话(Linux是Linus Torvalds在美国、其它国家或者二者中的注册商标)。
在另一种布置中,探测器可以经由网络协议或远程安装在远程机器上运行并且监视管理程序机器131和132。
群130经由控制中心133进行控制并且将根据需要在主机131、132之间迁移VM 121到126。控制中心133可以在群130上的VM 121到126上运行。
提供监视器系统150,它具有代理151,代理151经由API与控制中心133谈话并且将状况事件181报告给监视器系统150。探测器或监视器用于将这些事件180送入故障管理服务器110。状况事件181明了VM 121到126中的哪个在哪个主机131、132上运行并且还报告主机故障171。
在另一种布置中,代理151可选地可直接而非通过控制中心133连接到管理程序141、142,但这在整个主机131、132会发生故障的情况下较不健壮。
主机131、132上的主机硬件故障171在状况事件171中经由控制中心133报告给监视器系统150,然后经由用于报告状况事件181的探测器馈送180报告给故障管理服务器110。
此外,如果主机131、132支持探测器,则主机硬件故障171可以直接送入故障管理系统110。如果硬件故障171能够经由探测器直接送入170故障管理系统(在图1的虚线中所示的选项),则探测器可用于直接从主机131、132收集更丰富的潜在错误的集合。
在行业高可用性环境中最普通和广泛使用的管理程序是VmwareESX(VMware和ESX是VMware公司的商标)。在一个使用VMwareESX管理程序群的示例实施例中,可以采用带有用于虚拟基础架构的VMware的代理(VMware VI代理)的IBM Tivoli Monitor(ITM)形式的监视器系统。故障管理服务器可以是使用事件集成设施(EventIntegration Facility,EIF)探测器送入来自VMware VI代理的事件的IBM Netcool/OMNIbus系统的对象服务器(ObjectServer)。
使用IBM OMNIbus探测器,报告VM的硬件故障。VMware ESX管理程序是基于Linux的并且由此可以运行标准IBM OMNIbus探测器。主机上的硬件故障还经由ESX控制中心报告给ITM,然后经由EIF探测器报告给ObiectServer。
可以使用其它管理程序,包括IBM pHYPE、HyperVTM(Microsoft和HyperV是微软公司在美国、其它国家或这二者的商标)、Linux上的基于内核的虚拟机、(z/VM是IBM公司在全球许多司法辖区中注册的注册商标)、等等。
监视器代理151经由它的SDK API连接到控制中心133并且能够生成下面的状况事件181。每个状况当发生时被提出并且当它不再适用时被清除。
可用性
·主机服务器的状态不可获得
中央处理单元(CPU)
·没有加载vmkernel
·CPU利用率非常高。
·CPU利用率低。
·CPU过载。
·文件系统几乎已满。
·盘读取活动高。
·盘写入活动高。
存储器
·控制台OS(COS)的可用空闲内存量低。
·主机服务器的可用空闲内存量低。
网络
·网络发送活动高。
·网络接收活动高。
虚拟机
·虚拟机关机。
·虚拟机处于阻塞状态。
·虚拟机处于未知状态。
·虚拟机处于暂停状态。
除了“主机服务器的状态不可获得”以外,每种状况具有VM服务器名称和VM名称属性。这对应于硬件服务器名称和在控制中心软件中配置的VM的名称。这将通常对应于虚拟机的主机名称。
参照图2,框图示出了故障管理服务器110。故障管理服务器110包括故障事件相关组件210和故障解决组件220。此外,故障管理服务器110包括VM状态表230和称作硬件故障的警报状态表240的故障事件表。
故障事件相关组件210识别与相同原始问题相关的由主机或管理程序生成的故障事件以及由虚拟机生成的故障事件。导致VM上的错误的主机事件的严重性提高并且被标记为根由。来自VM的对应错误的严重性下降,被标记为症状事件并且事件中的一个字段被设置为指向根由事件。
故障解决组件220解决VM迁移后的故障。通过将虚拟机移至新的物理主机可以解决硬件相关故障。当VM迁移到新的物理主机时,所有这类故障的严重性下降。一旦VM上的监视器接收到故障已经被清除的信息,VM事件将正常地进行解决和清除。
VM状态表230包括VM主机名称和VM服务器主机名称以及VM状态。
故障管理服务器110的状态表230的一个示例实施例包含四列。
对于以上列出的每个状况事件(除了“主机的状态不可获得”以外),探测器馈送将向故障管理服务器110的VM状态表230发送VM服务器名称和VM名称属性。
第一触发器231与VM状态表相关联以从探测器馈送更新VM状态。如果该表中的数据保持不变,则VM状态表230的第一触发器231不采取动作。例如,如果“虚拟机关机”、“虚拟机处于阻塞状态”或者“虚拟机处于暂停状态”变为真,则活跃列值将是0,否则它将是1。
在另一个实施例中,可以调用过程。例如,如果与虚拟机关联的主机发生变化,则VM_Host_Change过程将被调用。如果VM条目的状态从活跃变成不活跃,则VM_Down过程将会被调用。如果VM条目的状态从不活跃变成活跃,则VM_Restored过程将被调用。配置文件可以使用调用另一组触发器以执行这些动作的信号,而不使用过程。
VM状态表230包括与删除VM状态条目关联的第二时间触发器232。这从状态表230清除未用的条目并且可以每天运行一次。每个状态条目被检查并且如果在给定时间(例如,两周)内没有变化,则该条目被删除。这个触发器的目的在于防止在规则地创建和破坏临时虚拟图像的情况下VM状态表增长。
通过来自监视器代理的状况事件181,VM的状态被保持最新。
当不同状况对VM状态表230提供相同信息时,信息被复制。这样做以提供对不太可能出现的错过状况事件的额外程度的故障容许度。
群(VMware代理、EIF探测器和ObjectServer)的监视应该在任何VM启动之前运行。这确保VM状态表230被正确构建。如果当监视开始时VM已经在群上运行,则在要求非中断服务的情况下应该将它们暂停并恢复以将VM状态表230或Vmotioned构建到另一个主机。
探测器规则文件260包括规格化组件261,其执行状况事件到与由其它探测器生成的类似错误事件一致的规格化格式的映射,并且能够被用于插入针对上述错误状况的错误事件和解决。事件产生组件262将应用于规则文件260中以向警报状态表240以及VM状态表230中插入事件。
故障事件相关组件210对硬件错误事件进行相关。需要在虚拟机与管理程序之间将硬件错误进行相关的能力。通过在VM上运行的探测器以及通过在管理程序和/或主机上运行或与之通信的探测器或代理收集这些硬件错误161、171。
对于VMWare的示例结构,将经由ITM VI VMware代理远程地收集故障事件。
仅有某些组的硬件故障161、171将影响在其上运行的管理程序和VM二者。典型的例子是高CPU使用、存储器故障或者共享装置故障。仅仅有效类型的硬件事件将被处理。通过识别探测器规则文件270内的普遍故障的规格化组件271,对这些事件进行分类和规格化。对于ITM VMware事件,这将在EIF探测器规则文件260中进行。
一旦错误事件已经插入警报状态表240中,将使用按规则间隔(例如每20秒)运行的时间相关触发器241对它们进行相关。
一旦主机与VM事件已经被相关,它们将需要修改以指示这种关系。在一个实施例中,VM事件242将被标记为“症状”事件243,主机事件244将被标记为“根”事件245。症状事件然后将指向根事件。
如果VM完成故障,则它也能够是更多错误事件的根由。在使用过程的实施例中,VM_Down和VM_Restored过程可用于引入针对这些类型的错误的根链接。例如,在VM上运行的探测器可能会发生故障并且生成错误,这是因为不再接收到心跳。针对该错误的详情和汇总将通过VM_Down过程被更新,并且VM_Restored过程将再次更新这个信息并且降低错误事件的严重性和/或引入根链接。然而,仅当探测器再次运行时才可以清除该错误。
故障解决组件220解决硬件错误事件。当VM被迁移时,它将更新VM状态表230。这个过程将执行与VM主机名称关联的所有硬件错误事件的扫描并且将降低它们的严重性从而指示它们不再是重要问题。如果根链接被引入到物理主机事件,则这将被移除。
这些硬件错误事件将是状况事件的超集。影响管理程序和VM二者的错误事件的严重性本来应该已经被降低并且将具有将需要移除的某形式的根链接。还有将需要降低它们的严重性的未相关事件。最后,某些硬件错误事件通过迁移VM(例如,低盘空间)将不会解决,因此将保持不变。
所提出的方案依赖于VM主机名称到管理程序主机名称映射表280。将在几个触发器内搜索这个表280。主关键字将是VM主机名称并且这将用于搜索该表并且故障管理服务器将使用高效哈希表查找。最高处理开销将针对VM到物理主机相关触发器241。这应该将警报状态表240的遍历次数保持最小。然而,如果管理程序主机发生故障,则潜在的大量的VM会被迁移到不同主机。
类似地,如果硬件错误在运行许多VM的管理程序上发生,则可以从VM接收潜在的大量的硬件错误事件。
参照图3,用于实现本发明的优选实施例的各方面的示例性系统包括数据处理系统300,该数据处理系统300适于存储和/或执行程序代码,包括通过总线系统303直接或间接耦接到存储部件的至少一个处理器301。存储部件可以包括在程序代码的实际执行过程中采用的本地存储器、大容量存储器和提供至少某些程序代码的临时存储以降低在执行过程中必须从大容量存储器取回代码的次数的高速缓冲存储器。存储部件可以包括只读存储器(ROM)304和随机存取存储器(RAM)305的形式的系统存储器302。基本输入/输出系统(BIOS)306可以存储在ROM 304内。包括操作系统软件308的系统软件307可以存储在RAM305中。软件应用310也可以存储在RAM 305内。
系统300还可以包括主存储装置311(例如,磁硬盘驱动器)和辅助存储装置312(例如,磁盘驱动器和光盘驱动器)。这些驱动器以及它们的关联的计算机可读介质提供计算机可执行指令、数据结构、程序模块和系统300的其它数据的非易失性存储。软件应用可以存储在主存储装置311和辅助存储装置312以及系统存储器302上。
计算系统300可以在使用经由网络适配器316到一个或多个远程计算机的逻辑连接的组网环境中操作。
输入/输出装置313能够直接或者通过中间的I/O控制器耦接到该系统。用户可以通过输入装置(例如,键盘、定点装置或其它输入装置(例如,麦克风、游戏杆、游戏板、碟形卫星天线、扫描仪等))向系统300输入命令和信息。输出装置可以包括扬声器、打印机等。显示装置314还经由诸如视频适配器315的接口连接到系统总线303。
参照图4,流程图400示出了所述方法。状况事件被接收401并被规格化402。并行地,VM探测器事件(在也支持主机探测器事件的情况下还有主机探测器事件)被接收403并且被规格化404。规格化的事件被插入405到警报状态表中作为故障事件。
从状况事件提取406VM和主机映射信息并且VM状态表被更新。
确定408VM到主机映射是否已经改变。如果没有改变,则简单更新409条目时间。如果已经改变,则更新条目时间并且针对已经移动的VM查找410警报状态表中的所有硬件故障。
接下来确定411是否存在针对VM的任何适宜硬件故障。如果不存在,则该方法结束412。如果存在,则降低413VM故障的严重性并且移除症状分类(如果存在的话)。到主机根由故障的链接被打破(如果存在的话)。接下来该方法结束414。
参照图5,流程图500示出了按规则间隔运行的故障的相关的方法。
首先,识别501作为VM相关候选的故障。这是通过在警报状态表中查找满足下面点的所有故障而完成的:
·它们没有被分类成根由或症状,
·它们还没有被解决,
·它们具有与VM状态表中的VM主机名称之一匹配的主机名称,以及
·它们是可由主机问题导致的类型。
确定502是否找到了任何适宜故障。如果没有,则该方法结束503。如果存在这些故障,则对于VM相关候选中的每个故障,在VM状态表中查找504主机服务器名称。将所有主机服务器名称收集在一起505作为主机服务器名称的集合。
接下来,识别506作为主机相关候选的故障。这是通过在警报状态表中查找满足下面点的所有故障而完成的:
·它们没有被分类成症状,
·它们还没有被解决,
·它们具有在步骤505中的主机服务器名称的集合中的主机名称,以及
·它们是能够导致主机问题的类型。
确定507是否找到任何适宜故障。如果没有,则该方法结束508。如果存在这些故障,则对于VM相关候选中的每个故障,在主机相关候选中查找509主机故障。
确定510错误类型是否匹配。如果不是,则该方法结束511。如果匹配,则存在一对相关VM和主机故障512。
VM故障被标记513为症状,“本地根对象”字段被指向主机故障,并且故障的严重性被降低。主机故障被标记514为根由并且它的严重性被提升。
应该注意:超过一个的VM故障可以指向单个主机根由故障。
可以提供故障管理系统作为对网络上的客户的服务。
本发明能够采取完全硬件实施方式、完全软件实施方式或者包含硬件和软件部件二者的实施方式的形式。在一个优选实施例中,以软件实现本发明,该软件包括但不限于固件、驻留软件、微码等。
本发明可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式,该计算机可用或计算机可读介质提供由计算机或任何指令执行系统使用或与之结合使用的程序代码。为了说明的目的,计算机可用或计算机可读介质可以是能够包含、存储、通信、传播或传输由指令执行系统、设备或装置使用或与之结合使用的程序的任何设备。
该介质可以是电子、磁性、光学、电磁、红外或者半导体系统(或者设备或装置)或者传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬质磁盘和光盘。光盘的当前例子包括紧凑盘只读存储器(CD-ROM)、紧凑盘读/写(CD-R/W)和DVD。
在不脱离本发明的范围的情况下可以对上述内容进行改进和修改。

Claims (21)

1.一种用于虚拟计算环境中的故障管理的方法,包括:
在虚拟计算环境中监视来自虚拟机(121-126)和主机装置(131,132)的故障事件(401,403);
在虚拟计算环境中监视状况事件(401),其中状况事件(401)是指虚拟机名称和主机装置名称,其中,状况事件(181)由探测器从其提供事件警报(180)的监视系统(150)进行监视并且包括虚拟机(121-126)和主机装置(131,132)与主机故障事件(171)之间的关系的指示;
确定(501-512)故障事件是否影响虚拟机(121-126)和主机装置(131,132)二者;
将涉及相同问题的关于虚拟机(121-126)和主机装置(131,132)的故障事件进行相关(512)。
2.根据权利要求1所述的方法,包括:
保持(407)虚拟机状态表(230);以及
保持虚拟机名称和主机装置名称的映射(250)。
3.根据权利要求1所述的方法,包括:
将故障事件插入(405)到故障事件表(240)中。
4.根据权利要求3的方法,其中,与问题相关的主机故障事件在故障事件表(240)中被标记(514)为根事件。
5.根据权利要求4所述的方法,其中,与问题相关的虚拟机故障事件在故障事件表中被标记(513)为症状,并且至所述根事件的链接被加入故障事件表中。
6.根据上述任何一个权利要求所述的方法,其中,当虚拟机(121-126)移至新的主机(131,132)时,该虚拟机(121-126)的所有故障事件被安置在故障事件表中并且严重性被降低(413)。
7.根据权利要求6所述的方法,其中,根链接被移除(413)。
8.根据权利要求1所述的方法,其中,通过在虚拟机(121-126)上运行的探测器(160)提供虚拟机中的故障事件(161)。
9.根据上述权利要求1所述的方法,其中,通过在主机(131,132)上运行的探测器(170)提供主机中的故障事件(171)。
10.根据权利要求1所述的方法,其中,由探测器从其提供(180)事件警报的监视系统(150)监视主机中的故障事件(171)。
11.一种用于虚拟计算环境中的故障管理的系统,包括:
处理器;
在虚拟计算环境中监视来自虚拟机(121-126)和主机装置(131,132)的故障事件(161,171)的监视器(160,170);
在虚拟计算环境中的状况事件(181)的监视器(150),其中状况事件(181)是指虚拟机名称和主机装置名称,其中,状况事件(181)由探测器从其提供事件警报(180)的监视器(150)进行监视并且包括虚拟机(121-126)和主机装置(131,132)与主机故障事件(171)之间的关系的指示;
规格化组件(271,261),用于确定故障事件(161,171)是否影响虚拟机(121-126)和主机装置(131,132)二者;以及
相关组件(210),用于将涉及相同问题的关于虚拟机和主机装置的故障事件(161,171)进行相关。
12.根据权利要求11所述的系统,包括:
虚拟机状态表(230)以及虚拟机名称与主机装置名称的映射(250)。
13.根据权利要求11所述的系统,包括:
故障事件表(240),用于保持关于虚拟机(121-126)或者主机装置(131,132)的故障事件的列表。
14.根据权利要求13所述的系统,包括针对与问题相关的主机故障事件的故障事件表(240)中的根事件标记(243)。
15.根据权利要求14所述的系统,包括针对与问题相关的虚拟机故障事件的故障事件表(240)中的症状标记(245)以及至故障事件表(240)中的根事件的链接(246)。
16.根据权利要求11到15中任一项所述的系统,包括故障解决组件(220),其中当虚拟机(121-126)移至新的主机(131,132)时,该解决组件(220)将该虚拟机的所有故障事件安置在故障事件表(240)中并且降低事件的严重性。
17.根据权利要求11所述的系统,其中,用于状况事件(181)的监视器(150)从虚拟环境群控制中心(133)获得状况事件并且将事件警报(180)提供给故障管理系统(110)。
18.根据权利要求11所述的系统,其中,用于故障事件的监视器是在虚拟机(121-126)上运行的探测器(160)。
19.根据权利要求11所述的系统,其中,用于故障事件的监视器是在主机(131,132)上运行的探测器(170)。
20.根据权利要求11所述的系统,其中,用于主机(131,132)中的故障事件(171)的监视器(150)从虚拟环境群控制中心(133)获得故障事件(171)并且将事件警报(180)提供给故障管理系统(110)。
21.根据权利要求19所述的系统,其中,探测器(170)在远程机器上运行并且经由网络监视主机(131,132)。
CN201080048606.2A 2009-10-30 2010-08-31 用于虚拟计算环境中的故障管理的方法和系统 Active CN102597962B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09174602.4 2009-10-30
EP09174602 2009-10-30
PCT/EP2010/062761 WO2011051025A1 (en) 2009-10-30 2010-08-31 Method and system for fault management in virtual computing environments

Publications (2)

Publication Number Publication Date
CN102597962A CN102597962A (zh) 2012-07-18
CN102597962B true CN102597962B (zh) 2015-07-22

Family

ID=42712499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080048606.2A Active CN102597962B (zh) 2009-10-30 2010-08-31 用于虚拟计算环境中的故障管理的方法和系统

Country Status (6)

Country Link
US (1) US8381033B2 (zh)
JP (1) JP5643321B2 (zh)
CN (1) CN102597962B (zh)
DE (1) DE112010004182T5 (zh)
GB (1) GB2487494B (zh)
WO (1) WO2011051025A1 (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5354107B2 (ja) * 2010-08-16 2013-11-27 富士通株式会社 情報処理装置、リモート保守方法、及びプログラム
US10203974B2 (en) * 2010-12-20 2019-02-12 Microsoft Technology Licensing, Llc Probe insertion via background virtual machine
US8561067B2 (en) * 2011-05-31 2013-10-15 Red Hat, Inc. Test suites for virtualized computing environments
FR2977691B1 (fr) * 2011-07-08 2013-07-12 Bull Sas Procede et programme d'ordinateur de gestion dynamique de services dans un cluster d'administration
GB2496482A (en) * 2011-10-28 2013-05-15 Ibm Passive monitoring of virtual systems without using agents executing within virtual servers
US9229758B2 (en) 2011-10-28 2016-01-05 International Business Machines Corporation Passive monitoring of virtual systems using extensible indexing
US9348724B2 (en) * 2012-05-21 2016-05-24 Hitachi, Ltd. Method and apparatus for maintaining a workload service level on a converged platform
CN102902599B (zh) * 2012-09-17 2016-08-24 华为技术有限公司 虚拟机内部故障处理方法、装置及系统
US9009706B1 (en) * 2013-01-23 2015-04-14 Symantec Corporation Monitoring and updating state information of virtual devices to guest virtual machines based on guest virtual machine's probing policy
CN103092710A (zh) * 2013-02-06 2013-05-08 浪潮电子信息产业股份有限公司 云计算操作系统中一种高可用虚拟机运行方法
US11010220B2 (en) 2013-04-29 2021-05-18 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor
US11080116B2 (en) 2013-04-29 2021-08-03 Moogsoft Inc. Methods for decomposing events from managed infrastructures
US10700920B2 (en) 2013-04-29 2020-06-30 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a floating point unit
US9607075B2 (en) * 2013-04-29 2017-03-28 Moogsoft, Inc. Situation dashboard system and method from event clustering
US10803133B2 (en) 2013-04-29 2020-10-13 Moogsoft Inc. System for decomposing events from managed infrastructures that includes a reference tool signalizer
US9304885B2 (en) 2013-06-18 2016-04-05 International Business Machines Corporation Passive monitoring of virtual systems using agent-less, near-real-time indexing
US9218139B2 (en) 2013-08-16 2015-12-22 International Business Machines Corporation Minimally disruptive virtual machine snapshots
US9842015B2 (en) * 2013-09-27 2017-12-12 Intel Corporation Instruction and logic for machine checking communication
US9727357B2 (en) * 2013-10-01 2017-08-08 International Business Machines Corporation Failover detection and treatment in checkpoint systems
CN103559124B (zh) 2013-10-24 2017-04-12 华为技术有限公司 故障快速检测方法及装置
CN103763132B (zh) * 2014-01-02 2017-01-11 北京邮电大学 基于症状与故障相关性的网络虚拟化环境故障诊断方法
JP6198858B2 (ja) * 2014-02-17 2017-09-20 株式会社日立製作所 計算機、及び、ハイパバイザによる資源スケジューリング方法
US10530837B2 (en) 2014-04-10 2020-01-07 International Business Machines Corporation Always-on monitoring in the cloud
JP5855724B1 (ja) * 2014-09-16 2016-02-09 日本電信電話株式会社 仮想機器管理装置、仮想機器管理方法及び仮想機器管理プログラム
US9612765B2 (en) * 2014-11-19 2017-04-04 International Business Machines Corporation Context aware dynamic composition of migration plans to cloud
US9710164B2 (en) 2015-01-16 2017-07-18 International Business Machines Corporation Determining a cause for low disk space with respect to a logical disk
US11924018B2 (en) 2015-01-27 2024-03-05 Dell Products L.P. System for decomposing events and unstructured data
US10425291B2 (en) 2015-01-27 2019-09-24 Moogsoft Inc. System for decomposing events from managed infrastructures with prediction of a networks topology
US10979304B2 (en) 2015-01-27 2021-04-13 Moogsoft Inc. Agent technology system with monitoring policy
US10873508B2 (en) 2015-01-27 2020-12-22 Moogsoft Inc. Modularity and similarity graphics system with monitoring policy
US11817993B2 (en) 2015-01-27 2023-11-14 Dell Products L.P. System for decomposing events and unstructured data
US9507626B1 (en) * 2015-07-20 2016-11-29 Red Had Israel, Ltd. Virtual device backend recovery
GB201513039D0 (en) * 2015-07-23 2015-09-09 Eaton Ind France Sas Shutting down of a virtual system
US9747154B2 (en) * 2015-08-31 2017-08-29 International Business Machines Corporation Isolating hardware and network failures in a computing environment
US10361919B2 (en) 2015-11-09 2019-07-23 At&T Intellectual Property I, L.P. Self-healing and dynamic optimization of VM server cluster management in multi-cloud platform
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
CN106933689B (zh) * 2015-12-29 2020-05-19 伊姆西Ip控股有限责任公司 一种用于计算设备的方法和装置
CN105700935A (zh) * 2016-01-12 2016-06-22 浪潮(北京)电子信息产业有限公司 一种Xen虚拟域的域控制方法及系统
US10754676B2 (en) * 2016-01-20 2020-08-25 International Business Machines Corporation Sharing ownership of an input/output device using a device driver partition
US10250473B2 (en) * 2016-11-29 2019-04-02 Red Hat Israel, Ltd. Recovery from a networking backend disconnect
US10263832B1 (en) * 2016-12-29 2019-04-16 Juniper Networks, Inc. Physical interface to virtual interface fault propagation
US11223534B2 (en) 2017-12-29 2022-01-11 Virtual Instruments Worldwide, Inc. Systems and methods for hub and spoke cross topology traversal
US10831526B2 (en) 2017-12-29 2020-11-10 Virtual Instruments Corporation System and method of application discovery
US10838798B2 (en) 2018-06-07 2020-11-17 Bank Of America Corporation Processing system for performing predictive error resolution and dynamic system configuration control
US10884839B2 (en) * 2018-06-07 2021-01-05 Bank Of America Corporation Processing system for performing predictive error resolution and dynamic system configuration control
TWI691852B (zh) 2018-07-09 2020-04-21 國立中央大學 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
EP3640760B1 (en) * 2018-10-17 2024-02-14 Solaredge Technologies Ltd. Photovoltaic system failure and alerting
US11126492B1 (en) * 2019-11-05 2021-09-21 Express Scripts Stategic Development, Inc. Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems
CN112804072B (zh) * 2019-11-14 2023-05-16 深信服科技股份有限公司 一种故障信息收集方法、装置、目标电子设备及存储介质
US11431629B2 (en) 2020-08-12 2022-08-30 Micron Technology, Inc. Data packet management
CN112994988B (zh) * 2021-05-10 2021-08-27 宁波均联智行科技股份有限公司 多操作系统间的心跳检测方法及车机系统
CN115858222B (zh) * 2022-12-19 2024-01-02 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1947096A (zh) * 2004-05-08 2007-04-11 国际商业机器公司 虚拟机计算机程序的动态迁移
CN101040262A (zh) * 2004-10-15 2007-09-19 伊姆西公司 配置、监视和/或管理包括虚拟机的资源组
CN101470621A (zh) * 2007-12-28 2009-07-01 埃森哲环球服务有限公司 虚拟机配置系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0825766A (ja) * 1994-07-18 1996-01-30 Fuji Xerox Co Ltd 障害処理装置
US7096459B2 (en) 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems
JP4130615B2 (ja) * 2003-07-02 2008-08-06 株式会社日立製作所 ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
US7139940B2 (en) 2003-04-10 2006-11-21 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems
JP4609380B2 (ja) * 2006-05-31 2011-01-12 日本電気株式会社 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置
US7640457B2 (en) * 2006-11-07 2009-12-29 International Business Machines Corporation Automated error reporting and diagnosis in distributed computing environment
US8208381B2 (en) 2007-07-27 2012-06-26 Eg Innovations Pte. Ltd. Root-cause approach to problem diagnosis in data networks
US8031634B1 (en) * 2008-03-31 2011-10-04 Emc Corporation System and method for managing a virtual domain environment to enable root cause and impact analysis
JP5140633B2 (ja) * 2008-09-04 2013-02-06 株式会社日立製作所 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
US8280835B2 (en) * 2009-01-29 2012-10-02 Telcordia Technologies, Inc. Method for automated distributed diagnostics for networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1947096A (zh) * 2004-05-08 2007-04-11 国际商业机器公司 虚拟机计算机程序的动态迁移
CN101040262A (zh) * 2004-10-15 2007-09-19 伊姆西公司 配置、监视和/或管理包括虚拟机的资源组
CN101470621A (zh) * 2007-12-28 2009-07-01 埃森哲环球服务有限公司 虚拟机配置系统

Also Published As

Publication number Publication date
WO2011051025A1 (en) 2011-05-05
CN102597962A (zh) 2012-07-18
JP5643321B2 (ja) 2014-12-17
DE112010004182T5 (de) 2012-08-30
GB201203864D0 (en) 2012-04-18
GB2487494B (en) 2016-06-29
GB2487494A (en) 2012-07-25
JP2013509626A (ja) 2013-03-14
US8381033B2 (en) 2013-02-19
US20110107148A1 (en) 2011-05-05

Similar Documents

Publication Publication Date Title
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
CN100356335C (zh) 保存跟踪数据的方法和装置
US7506336B1 (en) System and methods for version compatibility checking
US8676568B2 (en) Information processing apparatus and message extraction method
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
US8839032B2 (en) Managing errors in a data processing system
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US7139940B2 (en) Method and apparatus for reporting global errors on heterogeneous partitioned systems
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
US20040210800A1 (en) Error management
US11157373B2 (en) Prioritized transfer of failure event log data
CN100394394C (zh) 容错双工计算机系统及其控制方法
US9436539B2 (en) Synchronized debug information generation
CN106776282A (zh) 一种bios程序的异常处理方法及装置
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
WO2018135254A1 (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
US8984333B2 (en) Automatic computer storage medium diagnostics
CN1979444A (zh) 保证伺服程序不间断运行的系统及其方法
US8024604B2 (en) Information processing apparatus and error processing
JP2018180982A (ja) 情報処理装置、およびログ記録方法
CN102216903B (zh) 响应于并行维护的硬件恢复
US11126486B2 (en) Prediction of power shutdown and outage incidents
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
US20220100766A1 (en) Platform and service disruption avoidance using deployment metadata

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant