CN102662821B - 虚拟机故障的辅助诊断方法、装置和系统 - Google Patents

虚拟机故障的辅助诊断方法、装置和系统 Download PDF

Info

Publication number
CN102662821B
CN102662821B CN201210077456.9A CN201210077456A CN102662821B CN 102662821 B CN102662821 B CN 102662821B CN 201210077456 A CN201210077456 A CN 201210077456A CN 102662821 B CN102662821 B CN 102662821B
Authority
CN
China
Prior art keywords
information
virtual machine
various dimensions
alarm
user side
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210077456.9A
Other languages
English (en)
Other versions
CN102662821A (zh
Inventor
潘健敏
李礼
李候青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210077456.9A priority Critical patent/CN102662821B/zh
Publication of CN102662821A publication Critical patent/CN102662821A/zh
Priority to PCT/CN2013/071983 priority patent/WO2013139196A1/zh
Priority to US14/145,007 priority patent/US9459948B2/en
Application granted granted Critical
Publication of CN102662821B publication Critical patent/CN102662821B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及一种虚拟机故障的辅助诊断方法、装置和系统。其中,操作和维护系统接收虚拟机发生故障时的报障消息;根据消息中携带的虚拟机标识信息,获取的运行信息,该运行信息用于诊断虚拟机所发生的故障;将该运行信息生成所述虚拟机的图形化多维度的显示信息;将该显示信息发送给用户端进行显示。本发明提供了一种虚拟机故障的辅助诊断方法,可以实现为虚拟机的故障诊断提供关联性分析,使用户端从多维度、综合性地诊断虚拟机发生故障的原因,提高了虚拟机诊断的方便性和准确性。

Description

虚拟机故障的辅助诊断方法、装置和系统
技术领域
本发明涉及虚拟机领域,尤其涉及一种虚拟机故障的辅助诊断方法、装置和系统。
背景技术
目前,在云计算领域一般通过虚拟数据维护系统对众多虚拟机进行故障诊断和操作,虚拟机在底层的调度记录成为云系统中虚拟机故障的辅助诊断的一个重要手段。虚拟机通常会因为内部策略和人工干预产生很多事件,在故障处理的场景下,这些事件将是维护人员诊断虚拟机故障的重要依据。
在现有技术下,虚拟机在底层的调度记录一般只有操作日志的形式,操作日志所记录的操作日志类型包括:修改监控告警阈值,修改弹性计算基本配置,增加、修改、删除虚拟机规格,发布、修改、删除虚拟盘镜像,增加、删除、修改OMS(Operations and Maintenance,操作和维护系统)管理员信息,物理服务器上电、下点、重启,虚拟机迁移,创建ISO虚拟机,等等。仅仅通过这些操作日志,维护人员无法追踪到虚拟机在云底层发生的业务互动信息,这在以虚拟机为中心的多维度维护手段中是一种功能缺失。
在现有技术下,维护人员如果按照操作日志进行跟踪,则将面对庞大的信息量,无法挖掘云底层的业务互动信息,并且不容易看到多个状态、多个事件间的逻辑关系,因此不能为虚拟机的故障诊断提供关联性分析,进而不能从多维度、综合性地判断虚拟机发生故障的原因。
发明内容
本发明实施例提供了一种虚拟机故障的辅助诊断方法、装置和系统,可以实现为虚拟机的故障诊断提供关联性分析,多维度、综合性地诊断虚拟机发生故障的原因,从更深的层次挖掘虚拟机故障的原因,提高了虚拟机诊断的方便性和准确性。
一方面,本发明实施例提供了一种虚拟机故障的辅助诊断方法,所述方法包括:
接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;
根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;
根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;
将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。
另一方面,本发明实施例提供了一种虚拟机故障的辅助诊断装置,所述装置包括:
接收单元,用于接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;
获取单元,用于根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;
生成单元,用于根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;
发送单元,用于将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。
又一方面,本发明实施例提供了一种虚拟机故障的辅助诊断系统,所述系统包括如上所述的虚拟机故障的辅助诊断装置,以及虚拟机。
本发明实施例中,虚拟机发生故障后,操作和维护系统接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。由于图形化的多维度显示信息标识了虚拟机的状态信息、操作信息、告警信息、CPU占用率信息等多维度信息,因此图形化的多维度显示信息为用户端诊断虚拟机的故障提供了关联性分析,使用户可以从多维度、综合性地诊断虚拟机发生故障的原因,从更深的层次挖掘虚拟机故障的原因,提高了虚拟机诊断的方便性和准确性。
附图说明
图1为本发明实施例提供的虚拟机故障的辅助诊断方法的流程图;
图2为本发明实施例中操作和维护系统提供的虚拟机的图形化多维度的显示信息示意图;
图3为本发明实施例中操作和维护系统提供的迁移操作的业务传递信息示意图;
图4为本发明实施例中创建虚拟机操作的业务传递过程示意图;
图5为本发明实施例中创建虚拟机快照操作的业务传递过程示意图;
图6为本发明实施例中重启虚拟机操作的业务传递过程示意图;
图7为本发明实施例中虚拟机绑定磁盘操作的业务传递过程示意图;
图8为本发明实施例中启动虚拟机操作的业务传递过程示意图;
图9为本发明实施例中停止虚拟机操作的业务传递过程示意图;
图10为本发明实施例中迁移虚拟机操作的业务传递过程示意图;
图11为本发明实施例中操作和维护系统提供的一种紧急告警的相关信息示意图;
图12为本发明实施例中操作和维护系统获取告警信息的过程示意图;
图13为本发明实施例提供的虚拟机故障的辅助诊断装置的示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明实施例提供的虚拟机故障的辅助诊断方法、装置和系统在实际应用时,作为一种新的虚拟机故障的辅助诊断方法可应用于云系统中的虚拟机发生故障的场景。导致虚拟机发生故障的可能性有很多,可能是虚拟机中运行的程序过多使得虚拟机的CPU占用率过高导致的,也有可能是在虚拟机中执行的某个操作不成功导致的,等等。本发明实施例提供了云系统中的虚拟机发生故障时,通过将虚拟机在云系统中的运行信息生成为图形化多维度的显示信息辅助用于诊断虚拟机发生故障的原因的方法。
本发明实施例针对现有的虚拟机故障的辅助诊断方法的现状,提供了一种虚拟机故障的辅助诊断方法、装置和系统。其中,虚拟机发生故障后,操作和维护系统接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障,生成所述虚拟机的图形化多维度的显示信息;将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。
图1为本发明实施例提供的虚拟机故障的辅助诊断方法的流程图。该实施例主体是虚拟机的操作和维护系统,其中详细描述了操作和维护系统通过将虚拟机的运行信息显示为图形化多维度的显示信息来辅助用户端诊断虚拟机发生故障的原因的方法。如图1所示,本实施例包括以下步骤:
步骤101,操作和维护系统接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息。
在虚拟机发生故障后,虚拟机可以通过虚拟机提供者发送虚拟机发生故障的消息,由虚拟机提供者向操作和维护系统发送虚拟机发生故障的消息,所述消息携带虚拟机的标识信息,如虚拟机的名称、虚拟机的IP地址、虚拟机的使用者的用户名等。如果虚拟机为非常重要的虚拟机,操作和维护系统也可以主动监控虚拟机的运行状态,如果虚拟机发生故障,则操作和维护系统会接收到一个通知消息。
步骤102,操作和维护系统根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障。
这里所指的运行信息包括虚拟机运行的运行时间、发生的操作、告警、CPU占用率等。
步骤103,操作和维护系统根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息。
根据虚拟机的标识信息,操作和维护系统获取虚拟机的图形化多维度的显示信息,所述运行信息包括:所述虚拟机的状态信息、操作标识信息、告警级别信息、详细信息、中央处理器CPU占用率信息、运行时间信息。
所述根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息具体为:将所述运行信息按照不同的分类以不同的形式显示在一个以所述运行时间信息为横坐标轴,以所述CPU占用率信息为纵坐标轴的坐标系内。
多维度的显示信息是将上述状态信息、操作标识信息、告警级别信息、详细信息、中央处理器CPU占用率信息、运行时间信息以一种直观的坐标图显示在一张图上,使得虚拟机的状态信息、操作标识信息、告警级别信息、详细信息、CPU占用率信息、运行时间信息之间的关联关系更加明确。图形化多维度的显示信息具体是:将所述虚拟机的状态信息以色条和文字标签组合的形式显示在所述坐标系的横坐标轴的上方;将所述操作标识信息、所述告警级别信息以文字标签的形式显示在所述虚拟机的状态信息的上方;将运行时间信息以文字标签的形式显示在所述坐标系的横坐标轴的下方;将所述CPU占用率信息以折线的形式显示在所述坐标系内。
图2为本发明实施例中操作和维护系统提供的虚拟机的图形化多维度的显示信息示意图。图2中,以运行时间的顺序给出了虚拟机的图形化多维度的显示信息,包括CPU占用率信息、操作信息、告警信息、状态信息,以及虚拟机运行的详细信息。
其中,CPU占用率信息标识虚拟机在某个时间点运行程序的情况。图2中,CPU占用率的变化以折线的形式呈现。CPU占用率越高,说明虚拟机在这个时间点运行的程序越多,反之较少。CPU占用率的高低与虚拟机的CPU强弱有直接关系。CPU占用率越高,虚拟机的运行就会越慢,甚至导致虚拟机停止运行。
操作标识信息标识虚拟机所发生的操作。图2中,操作标识信息以文字的形式呈现。虚拟机上的操作标识信息主要包括创建、快照、关闭、启动、迁移等。
告警级别信息标识虚拟机在运行过程中所发生的告警的级别信息。图2中,告警级别信息以文字的形式呈现。告警级别信息包括紧急告警、次要告警等。
状态信息标识虚拟机的状态,以连贯的色条的形式呈现。如果将虚拟机的12种状态全部呈现出来,则图2中的状态显示会过于繁杂,因此本发明实施例对状态信息的图形化显示进行了优化,具体优化方法为:某些状态是短暂的,所以与其他整合在一起呈现;某些状态可以理解为一种操作,所以不以状态呈现。本发明实施例只保留4种状态的图形化显示,分别为:运行、休眠、停止、异常。
虚拟机运行的详细信息标识虚拟机的运行信息对应的详细信息,以文字的形式显示。当操作和维护系统根据接收到的所述用户端发送的针对所述操作标识信息或所述告警级别信息的处理指令进行处理后,也可将处理后得到的所述操作标识信息对应的操作的业务传递信息生成为图形化多维度的显示信息中的详细信息,或将所述告警级别信息对应的告警的相关信息生成为图形化多维度的显示信息中的详细信息。
步骤104,操作和维护系统将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。
操作和维护系统发送所述图形化多维度的显示信息给用户端,其目的是由接收侧,例如用户端接收后,进行所述虚拟机的故障诊断处理。
在步骤104之后,本发明实施例还将根据接收到的所述用户端发送的针对所述操作标识信息或所述告警级别信息的处理指令进行处理,并将处理后得到的所述操作标识信息对应的操作的业务传递信息生成为图形化多维度的显示信息中的详细信息,或将所述告警级别信息对应的告警的相关信息生成为图形化多维度的显示信息中的详细信息,并将所述详细信息发送给所述用户端。
当然,如果所述用户端在接收到图形化多维度的显示信息后,无法直接通过图形化多维度的显示信息直观判断虚拟机故障触发的原因,则针对其中的操作标识信息或告警级别信息发送相应的处理指令给本地,以便获取所述操作标识信息对应的操作的业务传递信息对应的详细信息或所述告警级别信息对应的告警的相关信息对应的详细信息;则本地在接收到针对所述操作标识信息或所述告警级别信息的处理指令进行处理,并将处理后得到的所述操作标识信息对应的操作的业务传递信息对应的详细信息,或所述告警级别信息对应的告警的相关信息对应的详细信息发送给所述用户端。
图3为本发明实施例中操作和维护系统提供的迁移操作的业务传递信息示意图。图3中,在“详细信息”选项区域显示了虚拟机在2011年4月12号18:34:35发生的迁移操作在云底层的业务传递信息,其中记录了“2012-4-12 18:34:35用户admin对虚拟机进行迁移不成功”表示此次迁移操作失败,下面的信息“CLC向CC发送迁移虚拟机请求”和“CC向NC发起迁移虚拟机请求(NC处于隔离状态,迁移不成功)”描述了此次迁移操作的业务传递信息,“(NC处于隔离状态,迁移不成功)”描述了迁移操作失败的原因是NC(Network Computer,网络计算机)处于隔离状态。
当操作发生故障时,通过查看该操作在底层的业务传递信息即可明确触发故障的原因。
图4为本发明实施例中创建虚拟机操作的业务传递过程示意图。如图4所示,在云系统中的某个服务器上创建一个虚拟机时,CLC(CloudController,云控制器)向CC(Cluster Controller,集群控制器)发送创建虚拟机的请求,CC接收到请求后,将该请求转发给NC(Network Computer,网络计算机),在NC上成功创建虚拟机后,NC向CC发送创建虚拟机成功的应答消息,CC将该应答消息转发给CLC,CLC将在数据库中记录创建该虚拟机的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取创建虚拟机操作的业务传递信息。
图5为本发明实施例中创建虚拟机快照操作的业务传递过程示意图。其中,虚拟机快照是指对虚拟文件系统在某个特定时间的一个具有只读属性的镜像。如图5所示,在云系统中创建一个虚拟机快照时,CLC向CC发送创建虚拟机快照的请求,CC接收到请求后,将针对该虚拟机快照创建请求,向BRM(Block storage Resource Manager,块存储资源管理器)发送创建磁盘的请求,BRM接收到该请求消息后,创建磁盘并向CC发送创建磁盘成功的应答消息,CC接收到该应答消息后,向NC发送创建虚拟机快照的请求,NC制作虚拟机快照并向CC发送创建虚拟机成功的应答消息,CC向CLC转发创建虚拟机快照成功的应答消息,CLC将在数据库中记录创建该虚拟机快照的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取创建虚拟机快照操作的业务传递信息。
图6为本发明实施例中重启虚拟机操作的业务传递过程示意图。如图6所示,在云系统中重启一个虚拟机时,CLC向CC发送重启虚拟机的请求,CC接收到请求后,将该请求转发给NC,在NC上成功重启虚拟机后,NC向CC发送重启虚拟机成功的应答消息,CC将该应答消息转发给CLC,CLC将在数据库中记录重启该虚拟机的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取重启虚拟机操作的业务传递信息。
图7为本发明实施例中虚拟机绑定磁盘操作的业务传递过程示意图。如图7所示,在云系统中需要将虚拟机和一个磁盘绑定时,CLC向CC发送绑定磁盘请求,CC向BRM发送查询要绑定的磁盘的位置的请求,BRM向CC返回该磁盘的位置信息,CC获取到该磁盘的位置信息后,向NC发送虚拟机绑定磁盘的请求,NC完成虚拟机和磁盘的绑定后,向CC发送虚拟机绑定磁盘成功的应答消息,CC将该应答消息转发给CLC,CLC将在数据库中记录该虚拟机绑定磁盘的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取虚拟机绑定磁盘的操作的业务传递信息。
图8为本发明实施例中启动虚拟机操作的业务传递过程示意图。如图8所示,在云系统中启动一个虚拟机时,CLC向CC发送创建虚拟机的请求,CC接收到请求后,将该请求转发给NC,在NC上成功启动虚拟机后,NC向CC发送启动虚拟机成功的应答消息,CC将该应答消息转发给CLC,CLC将在数据库中记录启动该虚拟机的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取启动虚拟机操作的业务传递信息。
图9为本发明实施例中停止虚拟机操作的业务传递过程示意图。如图9所示,在云系统中停止运行一个虚拟机时,CLC向CC发送停止虚拟机的请求,CC接收到请求后,将该请求转发给NC,在NC上成功停止虚拟机后,NC向CC发送停止虚拟机成功的应答消息,CC将该应答消息转发给CLC,CLC将在数据库中记录停止该虚拟机的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取停止虚拟机操作的业务传递信息.
图10为本发明实施例中迁移虚拟机操作的业务传递过程示意图。如图10所示,在云系统中迁移一个虚拟机时,CLC向CC发送迁移虚拟机的请求,CC接收到请求后,将该请求转发给NC,在NC上成功迁移虚拟机后,NC向CC发送迁移虚拟机成功的应答消息,CC将该应答消息转发给CLC,CLC将在数据库中记录迁移该虚拟机的操作的业务传递信息。
操作和维护系统可以在该数据库中查询并获取迁移虚拟机操作的业务传递信息。
上面介绍了虚拟机的主要操作对应的云底层的业务传递过程。
图11为本发明实施例中操作和维护系统提供的一种紧急告警的相关信息示意图。图11中,给出了对应告警的告警原因、告警名称、告警类别、告警级别、告警标识符ID等概要信息。其中,如果用户端需要,还可以通过操作和维护系统获取告警的详情信息。
操作和维护系统在接收到用户端发送的针对所述告警级别信息的处理指令进行处理,并获取所述告警级别信息对应的告警的相关信息。
图12为本发明实施例中操作和维护系统获取告警信息的过程示意图。如图12所示,NC定时监控虚拟机是否产生告警信息,如果产生告警信息,则将告警的相关信息发送给OMS,OMS在数据库中记录该告警的相关信息。操作和维护系统(OMS)在接收到用户端发送的针对告警级别信息的处理指令后,在数据库中查询警告信息,数据库向OMS返回对应告警的相关信息,OMS再将告警的相关信息发送给用户端。
本发明实施例中,虚拟机发生故障后,操作和维护系统接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。由此实现了使用户端根据所述图形化多维度的显示信息对虚拟机的故障诊断进行关联性分析,多维度、综合性地诊断虚拟机发生故障的原因,从更深的层次挖掘虚拟机故障的原因,提高了虚拟机诊断的方便性和准确性。
上述实施例讲述了虚拟机故障的辅助诊断方法的流程,相应地,本发明实施例提供了一种虚拟机故障的辅助诊断装置。
图13为本发明实施例提供的虚拟机故障的辅助诊断装置的示意图。如图13所示,本实施例包括以下单元:
接收单元1301,用于接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息。
虚拟机发生故障后,虚拟机可以通过虚拟机提供者发送虚拟机发生故障的消息,由虚拟机提供者向操作和维护系统发送虚拟机发生故障的消息,所述消息携带虚拟机的标识信息,如虚拟机的名称、虚拟机的IP地址、虚拟机的使用者的用户名等。如果虚拟机为非常重要的虚拟机,操作和维护系统也可以主动监控虚拟机的运行状态,如果虚拟机发生故障,则操作和维护系统会接收到一个通知消息
获取单元1302,用于根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障。
根据虚拟机的标识信息,操作和维护系统获取虚拟机的图形化多维度的显示信息,所述显示信息包括:所述虚拟机的状态信息、操作标识信息、告警级别信息、中央处理器CPU占用率信息、运行时间信息、详细信息。
生成单元1303,用于根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息。
为了使虚拟机的状态信息、操作标识信息、告警级别信息、详细信息、CPU占用率信息、运行时间信息之间的关联关系更加明确,操作和维护系统将虚拟机的运行信息生成为图形化多维度的显示信息。
生成单元1303具体用于:将所述运行信息按照不同的分类以不同的形式显示在一个以所述运行时间信息为横坐标轴,以所述CPU占用率信息为纵坐标轴的坐标系内。
多维度的显示信息是将上述状态信息、操作标识信息、告警级别信息、详细信息、中央处理器CPU占用率信息、运行时间信息以一种直观的坐标图显示在一张图上,使得虚拟机的状态信息、操作标识信息、告警级别信息、详细信息、CPU占用率信息、运行时间信息之间的关联关系更加明确。
生成单元1303具体用于:将所述虚拟机的状态信息以色条和文字标签组合的形式显示在所述坐标系的横坐标轴的上方;将所述操作标识信息、所述告警级别信息以文字标签的形式显示在所述虚拟机的状态信息的上方;将运行时间信息以文字标签的形式显示在所述坐标系的横坐标轴的下方;将所述CPU占用率信息以折线的形式显示在所述坐标系内。
发送单元1304,用于将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。
操作和维护系统发送所述图形化多维度的显示信息给用户端,其目的是由接收侧,例如用户端接收后,进行所述虚拟机的故障诊断处理。
本发明实施例还包括:处理单元1305,用于接收到所述用户端针对所述虚拟机的某个操作对应的操作标识信息的处理指令后,获取所述操作对应的业务传递信息,并将所述操作对应的业务传递信息生成为图形化多维度的显示信息中的详细信息,将所述详细信息发送给所述用户端进行显示;或
用于接收到所述用户端针对所说虚拟机的某个告警对应的告警级别信息的处理指令后,获取所述告警的相关信息,并将所述告警的相关信息生成为图形化多维度的显示信息中的详细信息,将所述详细信息发送给所述用户端进行显示。
当然,如果所述用户端在接收到图形化多维度的显示信息后,无法直接通过图形化多维度的显示直观判断虚拟机故障触发的原因,则针对其中的操作标识信息或告警级别信息发送相应的处理指令给本地,以便获取所述操作标识信息对应的操作的业务传递信息对应的详细信息或所述告警级别信息对应的告警的相关信息对应的详细信息;则本地在接收到针对所述操作标识信息或所述告警级别信息的处理指令进行处理,并将处理后得到的所述操作标识信息对应的操作的业务传递信息对应的详细信息,或所述告警级别信息对应的告警的相关信息对应的详细信息发送给所述用户端。
本发明实施例中,虚拟机发生故障后,操作和维护系统接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。操作和维护系统获取以虚拟机为中心的虚拟机的多维度显示信息,并将所述多维度显示信息发送给用户端,实现了使用户端对虚拟机的故障诊断进行关联性分析,多维度、综合性地诊断虚拟机发生故障的原因,从更深的层次挖掘虚拟机故障的原因,提高了虚拟机诊断的方便性和准确性。
本发明实施例还提供了一种虚拟机故障的辅助诊断系统,该系统植入了本发明实施例提供虚拟机故障的辅助诊断的方法,包括虚拟机故障的辅助诊断装置,还包括虚拟机。其中,在该虚拟机故障的辅助诊断系统中,虚拟机发生故障后,操作和维护系统接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示。由于图形化多维度的显示信息标识了虚拟机的状态信息、操作信息、告警信息、CPU占用率信息等多维度信息,因此图形化多维度的显示信息为虚拟机的故障诊断提供了关联性分析,实现了多维度、综合性地诊断虚拟机发生故障的原因,从更深的层次挖掘虚拟机故障的原因,提高了虚拟机诊断的方便性和准确性。因此,本发明实施例提供的虚拟机故障的辅助诊断系统也在本发明的保护范围内。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种虚拟机故障的辅助诊断方法,其特征在于,所述方法包括:
接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;
根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;
根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;
将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示;
所述图形化多维度的显示信息包括:所述虚拟机的状态信息、操作标识信息、告警级别信息、中央处理器CPU占用率信息、运行时间信息;
所述图形化多维度的显示信息还包括详细信息,所述详细信息为所述虚拟机所发生的操作和/或告警的详细日志信息;
所述根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息具体为:将所述运行信息按照不同的分类以不同的形式显示在一个以所述运行时间信息为横坐标轴,以所述CPU占用率信息为纵坐标轴的坐标系内。
2.如权利要求1所述的虚拟机故障的辅助诊断方法,其特征在于,所述将所述运行信息按照不同的分类以不同的形式显示在一个以所述运行时间信息为横坐标,以所述CPU占用率信息为纵坐标的坐标系内具体为:将所述虚拟机的状态信息以色条和文字标签组合的形式显示在所述坐标系的横坐标轴的上方;将所述操作标识信息、所述告警级别信息以文字标签的形式显示在所述虚拟机的状态信息的上方;将运行时间信息以文字标签的形式显示在所述坐标系的横坐标轴的下方;将所述CPU占用率信息以折线的形式显示在所述坐标系内。
3.如权利要求1所述的虚拟机故障的辅助诊断方法,其特征在于,所述将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示之后还包括:接收到所述用户端针对所述虚拟机的某个操作对应的操作标识信息的处理指令后,获取所述操作对应的业务传递信息,并将所述操作对应的业务传递信息生成为图形化多维度的显示信息中的详细信息,将所述详细信息发送给所述用户端进行显示;或
接收到所述用户端针对所述虚拟机的某个告警对应的告警级别信息的处理指令后,获取所述告警的相关信息,并将所述告警的相关信息生成为图形化多维度的显示信息中的详细信息,将所述详细信息发送给所述用户端进行显示。
4.一种虚拟机故障的辅助诊断装置,其特征在于,所述装置包括:
接收单元,用于接收虚拟机发生故障时的报障消息,所述报障消息中携带所述虚拟机的标识信息;
获取单元,用于根据所述标识信息,获取虚拟机的运行信息,所述虚拟机的运行信息用于诊断所述虚拟机所发生的故障;
生成单元,用于根据所述运行信息,生成所述虚拟机的图形化多维度的显示信息;
发送单元,用于将所述虚拟机的图形化多维度的显示信息发送给用户端进行显示;
所述图形化多维度的显示信息包括:所述虚拟机的状态信息、操作标识信息、告警级别信息、中央处理器CPU占用率信息、运行时间信息;
所述图形化多维度的显示信息还包括详细信息,所述详细信息为所述虚拟机所发生的操作和/或告警的详细日志信息;
所述生成单元具体用于:将所述运行信息按照不同的分类以不同的形式显示在一个以所述运行时间信息为横坐标轴,以所述CPU占用率信息为纵坐标轴的坐标系内。
5.如权利要求4所述的虚拟机故障的辅助诊断装置,其特征在于,所述生成单元具体用于:将所述虚拟机的状态信息以色条和文字标签组合的形式显示在所述坐标系的横坐标轴的上方;将所述操作标识信息、所述告警级别信息以文字标签的形式显示在所述虚拟机的状态信息的上方;将运行时间信息以文字标签的形式显示在所述坐标系的横坐标轴的下方;将所述CPU占用率信息以折线的形式显示在所述坐标系内。
6.如权利要求4所述的虚拟机故障的辅助诊断装置,其特征在于,所述装置还包括:处理单元,用于接收到所述用户端针对所述虚拟机的某个操作对应的操作标识信息的处理指令后,获取所述操作对应的业务传递信息,并将所述操作对应的业务传递信息生成为图形化多维度的显示信息中的详细信息,将所述详细信息发送给所述用户端进行显示;或
用于接收到所述用户端针对所述虚拟机的某个告警对应的告警级别信息的处理指令后,获取所述告警的相关信息,并将所述告警的相关信息生成为图形化多维度的显示信息中的详细信息,将所述详细信息发送给所述用户端进行显示。
7.一种虚拟机故障的辅助诊断系统,其特征在于,所述系统包括如权利要求4-6任意一项所述的虚拟机故障的辅助诊断装置,以及虚拟机。
CN201210077456.9A 2012-03-22 2012-03-22 虚拟机故障的辅助诊断方法、装置和系统 Expired - Fee Related CN102662821B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210077456.9A CN102662821B (zh) 2012-03-22 2012-03-22 虚拟机故障的辅助诊断方法、装置和系统
PCT/CN2013/071983 WO2013139196A1 (zh) 2012-03-22 2013-02-28 虚拟机故障的辅助诊断方法、装置和系统
US14/145,007 US9459948B2 (en) 2012-03-22 2013-12-31 Auxiliary method, apparatus and system for diagnosing failure of virtual machine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210077456.9A CN102662821B (zh) 2012-03-22 2012-03-22 虚拟机故障的辅助诊断方法、装置和系统

Publications (2)

Publication Number Publication Date
CN102662821A CN102662821A (zh) 2012-09-12
CN102662821B true CN102662821B (zh) 2015-03-11

Family

ID=46772318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210077456.9A Expired - Fee Related CN102662821B (zh) 2012-03-22 2012-03-22 虚拟机故障的辅助诊断方法、装置和系统

Country Status (3)

Country Link
US (1) US9459948B2 (zh)
CN (1) CN102662821B (zh)
WO (1) WO2013139196A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662821B (zh) 2012-03-22 2015-03-11 华为技术有限公司 虚拟机故障的辅助诊断方法、装置和系统
US9015714B2 (en) * 2012-11-27 2015-04-21 Citrix Systems, Inc. Diagnostic virtual machine created to monitor cluster of hypervisors based on user requesting assistance from cluster administrator
US10365934B1 (en) * 2013-09-16 2019-07-30 Amazon Technologies, Inc. Determining and reporting impaired conditions in a multi-tenant web services environment
US20150199206A1 (en) * 2014-01-13 2015-07-16 Bigtera Limited Data distribution device and data distribution method thereof for use in storage system
US9363148B2 (en) * 2014-02-12 2016-06-07 Vmware, Inc. Graphical user interface for displaying information related to a virtual machine network
US9319288B2 (en) 2014-02-12 2016-04-19 Vmware, Inc. Graphical user interface for displaying information related to a virtual machine network
CN105337758A (zh) * 2014-08-15 2016-02-17 中兴通讯股份有限公司 告警处理方法、装置、nms、oss及ems
CN105634785B (zh) * 2014-11-07 2019-01-01 中国移动通信集团公司 一种故障上报方法、系统及相关装置
CN105607973B (zh) * 2014-11-19 2020-03-17 中国移动通信集团公司 一种虚拟机系统中设备故障处理的方法、装置及系统
CN104883273B (zh) * 2015-05-05 2018-04-27 广州杰赛科技股份有限公司 虚拟化服务管理平台中业务影响模型的处理方法和系统
CN104915285B (zh) * 2015-06-30 2018-08-14 北京奇虎科技有限公司 一种容器进程监控方法、装置及系统
CN107273276A (zh) * 2016-04-06 2017-10-20 中兴通讯股份有限公司 一种基于虚拟化的全流程跟踪方法及装置
CN106227587B (zh) * 2016-07-19 2019-05-10 浪潮(北京)电子信息产业有限公司 一种带快照虚拟机整机动态迁移方法及装置
CN108880847A (zh) * 2017-05-16 2018-11-23 北京微影时代科技有限公司 一种定位故障的方法及装置
JP7006461B2 (ja) * 2018-04-02 2022-01-24 株式会社デンソー 電子制御装置および電子制御システム
US10606632B2 (en) * 2018-05-15 2020-03-31 Vmware, Inc. Preventing interruption during virtual machine reboot
CN109358950A (zh) * 2018-10-24 2019-02-19 郑州云海信息技术有限公司 虚拟机告警管理方法和装置
US11372704B2 (en) 2019-01-07 2022-06-28 International Business Machines Corporation Advanced java dump analysis
CN111698131B (zh) * 2020-06-10 2021-10-08 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
US11803429B2 (en) * 2020-10-30 2023-10-31 Red Hat, Inc. Managing alert messages for applications and access permissions
CN115499330A (zh) * 2022-09-22 2022-12-20 江苏超正科技有限公司 Vdi虚拟机终端数据获取方法及控制系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883197A (ja) * 1994-06-30 1996-03-26 Tandem Comput Inc ソフトウエアプログラムをデバッグする方法およびコンピュータシステム
CN1391174A (zh) * 2001-06-07 2003-01-15 戴尔产品有限公司 用于显示计算机系统状态信息的系统和方法
CN101847116A (zh) * 2010-05-05 2010-09-29 中兴通讯股份有限公司 一种基于j2ee架构的监控系统和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009088435A1 (en) * 2007-12-31 2009-07-16 Netapp, Inc. System and method for automatic storage load balancing in virtual server environments
US8175863B1 (en) * 2008-02-13 2012-05-08 Quest Software, Inc. Systems and methods for analyzing performance of virtual environments
US8650562B2 (en) * 2009-06-12 2014-02-11 International Business Machines Corporation Method and apparatus for scalable monitoring of virtual machine environments combining base virtual machine and single monitoring agent for measuring common characteristics and individual virtual machines measuring individualized characteristics
CN101833497B (zh) * 2010-03-30 2015-01-21 浪潮电子信息产业股份有限公司 一种基于专家系统方法的计算机故障管理系统
JP5458308B2 (ja) * 2010-06-11 2014-04-02 株式会社日立製作所 仮想計算機システム、仮想計算機システムの監視方法及びネットワーク装置
CN101917460B (zh) * 2010-07-22 2012-12-05 河南远为网络信息技术有限公司 基于虚拟机技术的远程维护系统
US8738972B1 (en) * 2011-02-04 2014-05-27 Dell Software Inc. Systems and methods for real-time monitoring of virtualized environments
US9495270B2 (en) * 2011-05-31 2016-11-15 Vmware, Inc. User interface for monitoring the status of an object in a virtual computing environment
CN102662821B (zh) * 2012-03-22 2015-03-11 华为技术有限公司 虚拟机故障的辅助诊断方法、装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883197A (ja) * 1994-06-30 1996-03-26 Tandem Comput Inc ソフトウエアプログラムをデバッグする方法およびコンピュータシステム
CN1391174A (zh) * 2001-06-07 2003-01-15 戴尔产品有限公司 用于显示计算机系统状态信息的系统和方法
CN101847116A (zh) * 2010-05-05 2010-09-29 中兴通讯股份有限公司 一种基于j2ee架构的监控系统和方法

Also Published As

Publication number Publication date
WO2013139196A1 (zh) 2013-09-26
US20140122941A1 (en) 2014-05-01
US9459948B2 (en) 2016-10-04
CN102662821A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102662821B (zh) 虚拟机故障的辅助诊断方法、装置和系统
CN102591591B (zh) 磁盘检测系统、磁盘检测方法以及网络存储系统
CN102981931B (zh) 虚拟机备份方法及装置
CN105357038B (zh) 监控虚拟机集群的方法和系统
CN102231681B (zh) 一种高可用集群计算机系统及其故障处理方法
CN104268061B (zh) 一种适用于虚拟机的存储状态监控方法
CN103812699A (zh) 基于云计算的监控管理系统
CN102129372A (zh) 通过事件相关来进行根本原因问题标识
CN104685830A (zh) 故障管理的方法、实体和系统
CN103095821B (zh) 一种基于虚拟机迁移识别的持续审计系统
CN103577298A (zh) 基板管理控制器监控系统及方法
CN104252500A (zh) 一种数据库管理平台的故障修复方法和装置
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN105531680A (zh) 远程监视系统、远程监视方法以及程序
CN104407959A (zh) 基于应用的监控方法及监控装置
WO2023226380A1 (zh) 一种磁盘处理方法、系统及电子设备
JP4918668B2 (ja) 仮想化環境運用支援システム及び仮想化環境運用支援プログラム
CN104794041A (zh) 一种Linux服务器阵列卡活动状态的监控方法及其装置
CN102662787A (zh) 一种保护系统盘raid的方法
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
JP6216621B2 (ja) プラント監視制御システム
CN114915541B (zh) 系统故障排除方法及装置、电子设备及存储介质
CN107656845A (zh) 一种虚拟机高可用方法
CN108121586A (zh) 一种PaaS层故障迁移装置及方法
CN111444032A (zh) 一种计算机系统故障修复方法、系统及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150311

Termination date: 20190322

CF01 Termination of patent right due to non-payment of annual fee