CN105812170A - 基于数据中心的故障分析方法和装置 - Google Patents

基于数据中心的故障分析方法和装置 Download PDF

Info

Publication number
CN105812170A
CN105812170A CN201410856613.5A CN201410856613A CN105812170A CN 105812170 A CN105812170 A CN 105812170A CN 201410856613 A CN201410856613 A CN 201410856613A CN 105812170 A CN105812170 A CN 105812170A
Authority
CN
China
Prior art keywords
robot arm
fault
virtual machine
data center
virtual robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410856613.5A
Other languages
English (en)
Other versions
CN105812170B (zh
Inventor
王烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410856613.5A priority Critical patent/CN105812170B/zh
Priority to PCT/CN2015/097903 priority patent/WO2016107425A1/zh
Priority to EP15875103.2A priority patent/EP3232620B1/en
Publication of CN105812170A publication Critical patent/CN105812170A/zh
Priority to US15/638,109 priority patent/US10831630B2/en
Application granted granted Critical
Publication of CN105812170B publication Critical patent/CN105812170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/08Locating faults in cables, transmission lines, or networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/08Locating faults in cables, transmission lines, or networks
    • G01R31/088Aspects of digital computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3048Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02HEMERGENCY PROTECTIVE CIRCUIT ARRANGEMENTS
    • H02H7/00Emergency protective circuit arrangements specially adapted for specific types of electric machines or apparatus or for sectionalised protection of cable or line systems, and effecting automatic switching in the event of an undesired change from normal working conditions
    • H02H7/26Sectionalised protection of cable or line systems, e.g. for disconnecting a section on which a short-circuit, earth fault, or arc discharge has occured
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02HEMERGENCY PROTECTIVE CIRCUIT ARRANGEMENTS
    • H02H7/00Emergency protective circuit arrangements specially adapted for specific types of electric machines or apparatus or for sectionalised protection of cable or line systems, and effecting automatic switching in the event of an undesired change from normal working conditions
    • H02H7/26Sectionalised protection of cable or line systems, e.g. for disconnecting a section on which a short-circuit, earth fault, or arc discharge has occured
    • H02H7/261Sectionalised protection of cable or line systems, e.g. for disconnecting a section on which a short-circuit, earth fault, or arc discharge has occured involving signal transmission between at least two stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Manipulator (AREA)

Abstract

本发明实施例公开了一种基于数据中心的故障分析方法,包括获取拓扑结构图,该拓扑结构图中的节点包括数据中心的组成设备以及数据中心中运行的虚拟机;当数据中心发生故障时,获取故障告警,根据该拓扑结构图判断所述故障是否导致数据中心中运行的虚拟机组中的各个虚拟机之间的通信通路减少。本方法能够分析故障对数据中心上运行的各个业务的实际影响,提升了数据中心的故障分析的准确程度。

Description

基于数据中心的故障分析方法和装置
技术领域
本发明涉及虚拟机技术,尤其涉及基于数据中心的故障分析方法和装置。
背景技术
数据中心(DataCenter)主要由主机(Host)以及交换设备构成,其中主机也称为物理机,主要用于支持虚拟机的运行,交换设备主要用于支持数据中心的各个设备之间的通信,交换设备一般包括交换机、路由器、网关等其他具有数据交换功能的网络节点,应当说明的是,主机上由于搭载了虚拟交换机(vSwitch),因此主机也具有支持虚拟机之间的数据交换的功能。数据中心包含的设备较多,如果出现故障,需要获取该故障对数据中心造成的影响分析(ImpactAnalysis),以便合理处理该故障。
现有数据中心的故障分析,仅针对发生故障的设备的类型来判断故障级别,或根据接收到的故障告警为设备故障告警或设备性能告警来判断故障级别,无法根据故障对数据中心运行的业务的影响进行准确的故障分析。
发明内容
针对上述现有技术而提出本发明,利用本发明可以解决现有技术方案中数据中心故障分析中,无法根据故障对数据中心运行的业务的影响准确进行故障分析的问题。
本发明实施例提供的第一方面,提供了一种基于数据中心的故障分析方法,所述数据中心的组成设备包括:至少两个主机,至少一个交换设备,所述至少两个主机中的每一个主机上运行至少一个虚拟机,所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路,所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组,所述故障分析方法包括:
获取拓扑结构图,所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机;
当所述数据中心发生故障时,获取故障告警,根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。
结合第一方面,在第一方面的第一种实现方式中,所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少,具体包括:
根据所述拓扑结构图中节点间的连通关系,确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时,则表示所述虚拟机组发生错误。
结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述数据中心中的所述虚拟机组为至少两个,所述方法还包括:
根据所述故障导致的发生错误的虚拟机组的数量,以及发生错误的各个虚拟机组对应的业务权重,获取所述故障的影响级别。
结合第一方面,在第一方面的第三种实现方式中,所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少,具体包括:
根据所述拓扑结构图中节点间的连通关系,确定所述虚拟机组的故障比值,所述故障比值具体包括,所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量,与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。
结合第一方面的第三种实现方式,在第一方面的第四种实现方式中,所述数据中心中的所述虚拟机组为至少两个,所述方法还包括:
根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
结合第一方面,以及第一方面的第一至第四种实现方式,在第五种实现方式中,构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示,协同执行同一业务或应用的至少两个虚拟机。
本发明实施例的第二方面提供一种故障分析装置,所述故障分析装置运用于数据中心,所述数据中心的组成设备包括:至少两个主机,至少一个交换设备,所述至少两个主机中的每一个主机上运行至少一个虚拟机,所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路,所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组,所述故障分析装置包括:
获取模块,用于获取拓扑结构图,所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机;
分析模块,用于当所述数据中心发生故障时,获取故障告警,根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。
结合第二方面,在第二方面的第一种实现方式中,所述分析模块具体用于:根据所述拓扑结构图中节点间的连通关系,确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时,则表示所述虚拟机组发生错误。
结合第二方面的第一种实现方式,在第二种实现方式中,所述数据中心中的所述虚拟机组为至少两个,所述故障分析装置还包括:
第一计算模块,用于根据所述故障导致的发生错误的虚拟机组的数量,以及发生错误的各个虚拟机组对应的业务权重,获取所述故障的影响级别。
结合第二方面,在第三种实现方式中,所述分析模块具体用于:根据所述拓扑结构图中节点间的连通关系,确定所述虚拟机组的故障比值,所述故障比值具体包括,所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量,与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。
结合第二方面的第三种实现方式,在第四种实现方式中,所述数据中心中的所述虚拟机组为至少两个,所述故障分析装置还包括:
第二计算模块,用于根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
结合第二方面,以及第二方面的第一至第四种实现方式,在第五种实现方式中,构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示,协同执行同一业务或应用的至少两个虚拟机。
本发明实施例提供了一种基于数据中心的故障分析方法,数据中心中发生故障的情况下,向进行故障分析的设备发送故障告警,该设备根据预先获得的数据中心的拓扑结构图,分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路。避免了现有的故障分析方法中,仅根据故障设备的类型,或者故障设备的故障程度来判断该故障的重要性,无法综合分析故障对数据中心上运行的各个业务的实际影响,提升了数据中心的故障分析准确程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作以简单地介绍,显而易见的,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所应用的数据中心的组成结构示意图;
图2为本发明方法实施例所应用的故障分析方法的流程示意图;
图3为本发明实施例所应用的再一数据中心的组成结构示意图;
图4为本发明实施例所应用的又一数据中心的组成结构示意图;
图5为本发明装置实施例所应用的故障分析装置的组成结构示意图;
图6为本发明设备实施例所应用的故障分析设备的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本说明书中的术语“虚拟机组”,具体可以指代一个虚拟机组,或多个虚拟机组。每一个虚拟机组包括彼此具有通信依赖关系的至少两个虚拟机,具体的,同一虚拟机组中的虚拟机之间的通信依赖关系可以指代:同一虚拟机组中的虚拟机协同执行同一应用或者业务,因此同一虚拟机组中的虚拟机之间需要频繁通信。而不同虚拟机组之间由于执行的应用或者业务不同,因此不同虚拟机组之间一般无须通信,即使不同虚拟机组之间的通信中断,也不会影响到各个虚拟机组执行的应用或者业务。
本说明书中的术语“业务权重”,具体用于指示虚拟机组上运行的应用或者业务的重要程度,比如,业务归属的用户等级、业务影响的范围。
本说明书中的术语“通信通路”,具体指示虚拟机组中任意两个虚拟机之间的任一条通信通道,以图1为例,如虚拟机202,虚拟机208和虚拟机210隶属于同一虚拟机组,则虚拟机202和虚拟机208之间,有主机214-交换设备222-交换设备228-交换设备224-主机218,和主机214-交换设备222-交换设备228-交换设备226-主机218两条通信通路,依次类推,虚拟机202和虚拟机210之间有两条通信通路,虚拟机208和虚拟机210之间有两条通信通路,该虚拟机组内共有六条通信通路,则如果交换设备224发生故障与其他设备断开连接,则该虚拟机组内也随之中断三条通信通路。
本发明实施例的数据中心的组成结构
图1描述了本发明实施例所提供的数据中心的组成结构示意图,数据中心的组成设备包括主机214-220和交换设备222-228,其中主机214上运行虚拟机202和虚拟机204,主机216上运行了虚拟机206,主机218上运行了虚拟机208,主机220上运行了虚拟机210和虚拟机212。虚拟机202和虚拟机212构成第一虚拟机组,虚拟机204和虚拟机206构成第二虚拟机组,虚拟机208和虚拟机210构成第三虚拟机组。交换设备222-228用于数据中心中任意两个组成设备之间的通信连接。
方法实施例
参见图2,本方法实施例是基于图1所示的数据中心,所提供的一种故障分析方法,应当说明的是,执行本方法的可以是数据中心中任一服务器或主机,具体实现中,各厂商进行故障分析的一般为安装在该服务器或主机上的软件,例如EMC的BusinessImpactManager,或HP的ServiceImpactAnalysis。为方便描述本方法实施例中将本方法的执行主体设置为主机214,故障分析方法包括:
步骤402,主机214获取拓扑结构图,拓扑结构图中的节点包括该数据中心的组成设备,以及该数据中心中各个主机上运行的虚拟机。同时,拓扑结构图中的连接线包括该数据中心的组成设备之间的通信通路,以及该数据中心中各个主机与各个主机上运行的虚拟机之间的通信通路。
具体的,主机214在数据中心启动时,对数据中心的组成设备进行遍历,该遍历具体可以为组成设备发现服务,常用的遍历算法包括宽度优先遍历、深度优先遍历等,之后根据数据中心中各个主机与各个主机上运行的虚拟机,获取该数据中心的拓扑结构图,该拓扑结构图中的节点包括虚拟机202-212,主机214-220和交换设备222-228,该拓扑结构图中的连接线包括该数据中心的虚拟机、主机、交换设备之间的通信通路,示例性的,图1即为数据中心的拓扑结构图。
步骤404,当数据中心发生故障时,主机214获取故障告警,根据步骤402中获取的拓扑结构图,判断该故障是否导致数据中心中虚拟机组包括的虚拟机之间的通信通路减少。
具体的,该故障可以为数据中心的组成设备故障,或数据中心的组成设备之间的通信通路故障,以图1为例,可以指示其中任一交换设备或主机故障,也可以指示数据中心的任何两个组成设备之间的通信通路故障,例如交换设备222和交换设备228之间的通信通路故障。本方法实施例中,由于主机214为故障分析设备,因此数据中心中任一组成设备发生故障或组成设备之间的通信通路故障,均向主机214发送故障告警,该故障告警指示该故障。
主机214获取故障告警后,根据步骤402中获取的拓扑结构图,判断该故障是否导致:第一、第二和第三虚拟机组中任一虚拟机组包括的虚拟机之间的通信通路减少。例如,第一虚拟机组包括的虚拟机202和虚拟机212之间的通信通路原本包括:主机214-交换设备222-交换设备228-交换设备224-主机220,和主机214-交换设备222-交换设备228-交换设备226-主机220,一共两条通信通路,步骤404即主机214对第一虚拟机组进行故障分析,即判断该故障是否导致这两条通信通路减少,与之对应,主机214也可以对第二、第三虚拟机组也进行相应的故障分析。
需要说明的是,实际中步骤402和步骤404可以连续执行,也可以在主机214执行了一次步骤402后,获取拓扑结构图,主机214接下来获取了多次故障告警的情况下,针对每次故障告警均执行一次步骤404以完成故障分析。
可选的,步骤404具体包括,主机214获取了故障告警后,根据数据中心中任一虚拟机组包括的虚拟机在拓扑结构图中对应的节点之间的连通关系,判断该故障是否导致了该虚拟机组包括的至少一个虚拟机,与该虚拟机组中的另一虚拟机之间的无可用通信通路,则该虚拟机组发生错误。例如:主机214获取故障告警后,将拓扑结构图中该故障告警指示的组成设备或组成设备之间的通信通路删除后,在该拓扑结构图中以任一虚拟机组包括的任一虚拟机为起点发起第一次遍历,如果第一次遍历无法遍历全部节点,则第一次遍历经过的全部组成设备构成了第一子拓扑结构,主机214以任一第一次遍历未经过的组成设备为起点发起第二次遍历,获取第二子拓扑结构,直至全部节点遍历完成,其中获取的第一子拓扑结构、第二子拓扑结构…第n子拓扑结构之间无通信连接,因此如果有任一虚拟机组包括的虚拟机同时运行于两个子拓扑结构中,则说明该故障导致该虚拟机组包括的位于两个子拓扑结构中的两部分虚拟机之间的无可用通信通路,则该虚拟机组发生错误。
以故障告警指示图1中交换设备222与交换设备228之间的通信通路故障为例,由于该通信通路故障图1中的数据中心的拓扑结构图转换成为图3所示的拓扑结构图,则虚拟机202、虚拟机204、虚拟机206、主机214、主机216和交换设备222组成第一子拓扑结构,虚拟机208、虚拟机210、虚拟机212、主机218、主机220、交换设备224、交换设备226和交换设备228组成第二子拓扑结构;第一虚拟机组包括虚拟机202和虚拟机212,分别位于第一子拓扑结构和第二子拓扑结构,则该故障导致第一虚拟机组包括虚拟机202,与虚拟机212之间的无可用通信通路,第一虚拟机组发生错误,依次类推,该故障告警未导致第二、第三虚拟机组中的任一虚拟机与其他虚拟机之间无可用通信通路。
还例如:主机214获取故障告警后,将拓扑结构图中该故障告警指示的组成设备或组成设备之间的通信通路删除后,判断任一虚拟机组包括的虚拟机之间在该拓扑结构图中是否存在最短路径,如果不存在最短路径,则说明该虚拟机组包括的虚拟机分别位于两个子拓扑结构中无法连通,即无可用通信通路。
可选的,前述虚拟机组可以指代多个虚拟机组,主机214对数据中心中所有虚拟机组均执行前述故障分析方法,以确定该故障导致的发生错误的虚拟机组的数量,例如为m,发生错误的虚拟机即:其包括的至少一个虚拟机与其包括的另一虚拟机无可用通信通路的虚拟机组,以及该故障导致的发生故障的虚拟机组的业务权重后,获取该故障告警的影响参数。具体的,数据中心运行的各个虚拟机组的业务权重,以图3为例,第一、第二、第三虚拟机组的业务权重分别为n1、n2、n3。承接上例,若故障告警指示交换设备222与交换设备228之间的通信通路故障,则仅有第一虚拟机组发生错误(即m=1),主机214根据A×m+B×n1,或f(m,n1)计算输出的即为该故障的影响参数。获取该影响参数后,进一步输出该故障的影响级别,例如,若该影响参数大于预设的阈值,则该故障告警为紧急故障,需要优先修复,若该结果小于或等于预设的阈值,则该故障告警为次要故障,则可以等待紧急故障修复完毕后再行修复。前式中的参数A和B的选取可以按照需求自行设置,其中的f(m,n1)为任意以m和n1作为输入参数的函数,该函数具体可以按照需求自行设置。
同时,数据中心的各个组成设备之间的通信通路可能有很多,有的故障告警并不会导致数据中心的组成设备之间的通信通路中断,也即不会导致各个虚拟机组包括的任意两个虚拟机之间的无可用通信通路,如果按照前述可选方案中的故障分析方法,则会得出这类故障告警对数据中心上运行的业务或应用没有影响的结论,即数据中心中各个虚拟机组未发生错误,例如图1中交换设备224和交换设备226为两个并行的交换设备,其中任一发生故障并不会导致任意两个组成设备之间的通信通路中断。但交换设备224和交换设备226共同构成主机218、主机220和交换设备228之间的通信通路,若其中之一发生故障,虽然通信通路不会中断,但通信通路的可靠性会降低,通信通路的带宽以及服务质量也会受到影响,因此步骤404中主机214根据拓扑结构图,判断各个虚拟机组中的各个虚拟机之间的通信通路是否减少还可以包括如下可选方案。
可选的,主机214获取了故障告警后,根据数据中心中虚拟机组包括的虚拟机在拓扑结构图中对应的节点之间的连通关系,判断该故障是否导致了该虚拟机组包括的虚拟机之间的通信通路减少,即虚拟机之间存在中断的通信通路,若该故障导致了该虚拟机组包括的虚拟机之间的通信通路减少,则该虚拟机组发生错误。同时,主机214还获取发生故障的虚拟机组的故障比值,具体的,任一虚拟机组的故障比值指示:该故障导致该虚拟机组包括的虚拟机之间中断的通信通路的数量,与该虚拟机组包括的虚拟机之间的通信通路的总数量的比值。
例如:主机214获取故障告警,该故障告警指示交换设备226发生故障,由于交换设备226故障,图1中的数据中心的拓扑结构图转换成为图4所示的拓扑结构图,如果根据前述方案,则会得出该故障告警未造成任一虚拟机组包括的任意两个虚拟机之间的通信通路中断,但交换设备226与交换设备224功能对等,两者均用于虚拟机208、虚拟机210、虚拟机212之间的通信,和虚拟机208、虚拟机210、虚拟机212与虚拟机202、虚拟机204、虚拟机206,因此交换设备226的故障导致虚拟机208、虚拟机210、虚拟机212之间的通信可靠性降低,和虚拟机208、虚拟机210、虚拟机212与虚拟机202、虚拟机204、虚拟机206之间的通信可靠性降低,也即影响了第一虚拟机组(虚拟机202和虚拟机212之间)和第三虚拟机组(虚拟机208和虚拟机210之间)通信通路的可靠性降低。第一虚拟机组的通信通路的总数量为2,即主机214-交换设备222-交换设备228-交换设备224-主机220,和主机214-交换设备222-交换设备228-交换设备226-主机220,该故障导致了后一条通信通路中断,则第一虚拟机组的故障比值为0.5,同理可以得出第三虚拟机组的故障比值为0.5。
可选的,前述虚拟机组可以指代多个虚拟机组,主机214对数据中心中所有虚拟机组均执行前述故障分析方法,以确定该故障导致的发生错误的虚拟机组的数量,例如为M,发生错误的虚拟机即:其包括的各个虚拟机之间发生通信通路中断的虚拟机组,该故障告警造成影响的虚拟机组的业务权重,例如该M个虚拟机组的业务权重分别为N1、N2…NM,和该M个虚拟机组的故障比值分别为X1、X2…XM,主机214根据N1、N2…NM、X1、X2…XM,获取该故障的影响参数,具体的,主机214根据f(N1,N2…NM,X1、X2…XM,)计算所得即为影响参数。获取该影响参数后,还可以进一步输出该故障的影响级别,例如,若该影响参数大于预设的阈值,则该故障告警为紧急故障,需要优先修复,若该结果小于或等于预设的阈值,则该故障告警为次要故障,则可以等待紧急故障修复完毕后再行修复。其中的f(N1,N2…NM,X1,X2…XM,)为任意以N1、N2…NM和X1、X2…XM为输入参数的函数,该函数具体可以按照需求自行设置。
可选的,前述虚拟机组中包括的虚拟机,具体指示协同执行同一业务或者应用的虚拟机。
需要说明的是,本方法实施例中的各种可选方法,可以在数据中心发生多个故障告警的情况下,分析得出各个故障对数据中心中运行的虚拟机组中虚拟机的通信通路造成的影响,并获取各个故障的影响级别,确定多个故障修复时的优先级,优先保证对虚拟机组影响程度高的故障设备优先被修复,尽量保证数据中心的工作性能;还可以模拟数据中心中各个组成设备或者组成设备之间的通信通路发生故障的情况下,获取各个组成设备或者各个组成设备之间的通信通路故障,对数据中心的工作性能的影响级别,例如依次模拟主机214接收到了故障告警指示主机214-主机220,交换设备222-交换设备228发生故障的情况下,获取各个组成设备发生故障时,该故障的影响级别,从而得出主机214-主机220,交换设备222-交换设备228的重要优先级,因此可以在对数据中心进行维护时,优先维护重要优先级高的组成设备,以减少重要的组成设备的故障发生概率。
上述提供一种基于数据中心的故障分析方法,数据中心中发生故障的情况下,向进行故障分析的设备发送故障告警,该设备根据预先获得的数据中心的拓扑结构图,分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路,并可以根据受影响的虚拟机组的数量,受影响的虚拟机组的业务权重,可选的以及受影响的虚拟机组的故障比值,综合获取该故障告警对数据中心的影响级别。避免了现有的故障分析方法中,仅根据故障设备的类型,或者故障设备的故障程度来判断该故障的重要性,无法综合分析故障对数据中心上运行的各个业务的实际影响,提升了数据中心的故障分析准确程度,提升了数据中心的故障分析能力和故障应对能力。
装置实施例
本装置实施例提供一种故障分析装置600,其组织结构示意图如图5所示,该故障分析装置600实际运用于图1所示的数据中心,并且可以为图1所示的数据中心中任一主机或服务器,包括:
获取模块602,用于获取拓扑结构图,拓扑结构图中的节点包括数据中心的组成设备以及数据中心中运行的虚拟机;
具体的,获取模块602实际执行方法实施例中步骤402及其各个可选方案,在此不再赘述。
分析模块604,用于当数据中心发生故障时,获取故障告警,根据拓扑结构图判断故障是否导致虚拟机组中的各个虚拟机之间的通信通路减少。
具体的,分析模块604实际执行方法实施例中步骤404及其各个可选方案,在此不再赘述。
可选的,数据中心中的虚拟机组为至少两个,故障分析装置600还包括:
第一计算模块,用于根据该故障导致的发生错误的虚拟机组的数量,以及发生错误的各个虚拟机组对应的业务权重,获取故障的影响级别。
可选的,数据中心中的虚拟机组为至少两个,故障分析装置600还包括:
第二计算模块,用于根据该故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
可选的,构成虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示,协同执行同一业务或应用的至少两个虚拟机。
上述提供一种基于数据中心的故障分析装置,该故障分析装置首先获得的数据中心的拓扑结构图,在获取故障告警后,根据预先获得的数据中心的拓扑结构图,分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路,并可以根据受影响的虚拟机组的数量,受影响的虚拟机组的业务权重,可选的,以及受影响的虚拟机组的故障比值,综合获取该故障告警对数据中心的影响级别。避免了现有的故障分析方法中,仅根据故障设备的类型,或者故障设备的故障程度来判断该故障的重要性,无法综合分析故障对数据中心上运行的各个业务的实际影响,提升了数据中心的故障分析准确程度,提升了数据中心的故障分析能力和故障应对能力。
设备实施例
设备实施例提供一种故障分析设备800,其组织结构示意图如图6所示,该故障分析设备800实际运用于图1所示的数据中心,并且可以为图1所示的数据中心中任一主机或服务器,包括:
故障分析设备800包括处理器804、存储器804、通信接口806和总线808。其中,处理器802、存储器804和通信接口806通过总线808实现彼此之间的通信连接。
处理器802可以采用通用的中央处理器(CentralProcessingUnit,CPU),微处理器,应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现前述本发明方法实施例所提供的技术方案。
存储器804可以是只读存储器(ReadOnlyMemory,ROM),静态存储设备,动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)。存储器804可以存储操作系统和其他应用程序。在通过软件或者固件来实现本发明实施例提供的技术方案时,用于实现本发明前述方法实施例提供的技术方案的程序代码保存在存储器804中,并由处理器802来执行。
通信接口806用以与数据中心其他组成设备或虚拟机进行通信。
总线808可包括一通路,在故障分析设备800的各个部件之间传送信息。
上述提供一种基于数据中心的故障分析设备,该故障分析设备运行其存储的程度代码,首先获取数据中心的拓扑结构图,在获取故障告警后,根据预先获得的数据中心的拓扑结构图,分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路。避免了现有的故障分析方法中,仅根据故障设备的类型,或者故障设备的故障程度来判断该故障的重要性,无法综合分析故障对数据中心上运行的各个业务的实际影响,提升了数据中心的故障分析准确程度,提升了数据中心的故障分析能力和故障应对能力。
需要说明的是:对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种基于数据中心的故障分析方法,其特征在于,所述数据中心的组成设备包括:至少两个主机,至少一个交换设备,所述至少两个主机中的每一个主机上运行至少一个虚拟机,所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路,所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组,所述故障分析方法包括:
获取拓扑结构图,所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机;
当所述数据中心发生故障时,获取故障告警,根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。
2.如权利要求1所述的故障分析方法,其特征在于,所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少,具体包括:
根据所述拓扑结构图中节点间的连通关系,确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时,则表示所述虚拟机组发生错误。
3.如权利要求2所述的故障分析方法,其特征在于,所述数据中心中的所述虚拟机组为至少两个,所述方法还包括:
根据所述故障导致的发生错误的虚拟机组的数量,以及发生错误的各个虚拟机组对应的业务权重,获取所述故障的影响级别。
4.如权利要求1所述的故障分析方法,其特征在于,所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少,具体包括:
根据所述拓扑结构图中节点间的连通关系,确定所述虚拟机组的故障比值,所述故障比值具体包括,所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量,与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。
5.如权利要求4所述的故障分析方法,其特征在于,所述数据中心中的所述虚拟机组为至少两个,所述方法还包括:
根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
6.如权利要求1至5任一所述的方法,其特征在于,构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示,协同执行同一业务或应用的至少两个虚拟机。
7.一种故障分析装置,其特征在于,所述故障分析装置运用于数据中心,所述数据中心的组成设备包括:至少两个主机,至少一个交换设备,所述至少两个主机中的每一个主机上运行至少一个虚拟机,所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路,所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组,所述故障分析装置包括:
获取模块,用于获取拓扑结构图,所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机;
分析模块,用于当所述数据中心发生故障时,获取故障告警,根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。
8.如权利要求7所述的故障分析装置,其特征在于,所述分析模块具体用于:根据所述拓扑结构图中节点间的连通关系,确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时,则表示所述虚拟机组发生错误。
9.如权利要求8所述的故障分析装置,其特征在于,所述数据中心中的所述虚拟机组为至少两个,所述故障分析装置还包括:
第一计算模块,用于根据所述故障导致的发生错误的虚拟机组的数量,以及发生错误的各个虚拟机组对应的业务权重,获取所述故障的影响级别。
10.如权利要求7所述的故障分析装置,其特征在于,所述分析模块具体用于:根据所述拓扑结构图中节点间的连通关系,确定所述虚拟机组的故障比值,所述故障比值具体包括,所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量,与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。
11.如权利要求10所述的故障分析装置,其特征在于,所述数据中心中的所述虚拟机组为至少两个,所述故障分析装置还包括:
第二计算模块,用于根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
12.如权利要求7至11任一所述的故障分析装置,其特征在于,构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示,协同执行同一业务或应用的至少两个虚拟机。
CN201410856613.5A 2014-12-31 2014-12-31 基于数据中心的故障分析方法和装置 Active CN105812170B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410856613.5A CN105812170B (zh) 2014-12-31 2014-12-31 基于数据中心的故障分析方法和装置
PCT/CN2015/097903 WO2016107425A1 (zh) 2014-12-31 2015-12-18 基于数据中心的故障分析方法和装置
EP15875103.2A EP3232620B1 (en) 2014-12-31 2015-12-18 Data center based fault analysis method and device
US15/638,109 US10831630B2 (en) 2014-12-31 2017-06-29 Fault analysis method and apparatus based on data center

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410856613.5A CN105812170B (zh) 2014-12-31 2014-12-31 基于数据中心的故障分析方法和装置

Publications (2)

Publication Number Publication Date
CN105812170A true CN105812170A (zh) 2016-07-27
CN105812170B CN105812170B (zh) 2019-01-18

Family

ID=56284217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410856613.5A Active CN105812170B (zh) 2014-12-31 2014-12-31 基于数据中心的故障分析方法和装置

Country Status (4)

Country Link
US (1) US10831630B2 (zh)
EP (1) EP3232620B1 (zh)
CN (1) CN105812170B (zh)
WO (1) WO2016107425A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10599459B2 (en) 2016-02-12 2020-03-24 Nutanix, Inc. Entity database distributed replication
US11909603B2 (en) * 2017-12-01 2024-02-20 Cisco Technology, Inc. Priority based resource management in a network functions virtualization (NFV) environment
US11929869B2 (en) * 2018-05-14 2024-03-12 Netflix, Inc. Scalable and real-time anomaly detection
CN112115390A (zh) * 2019-06-20 2020-12-22 华为技术有限公司 拓扑结构图的展示方法、装置、设备及存储介质
CN111639107B (zh) * 2020-05-26 2023-08-04 广东信通通信有限公司 电力物联网故障检测方法、装置及检测终端
US11966319B2 (en) * 2021-02-23 2024-04-23 Mellanox Technologies, Ltd. Identifying anomalies in a data center using composite metrics and/or machine learning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143008A (zh) * 2010-01-29 2011-08-03 国际商业机器公司 用于数据中心的诊断故障事件的方法及装置
US8031634B1 (en) * 2008-03-31 2011-10-04 Emc Corporation System and method for managing a virtual domain environment to enable root cause and impact analysis
CN103294521A (zh) * 2013-05-30 2013-09-11 天津大学 一种降低数据中心通信负载及能耗的方法
CN103403689A (zh) * 2012-07-30 2013-11-20 华为技术有限公司 一种资源故障管理方法、装置及系统
US20140165054A1 (en) * 2012-12-06 2014-06-12 Industrial Technology Research Institute Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7380017B2 (en) * 2001-05-03 2008-05-27 Nortel Networks Limited Route protection in a communication network
US8751866B2 (en) * 2006-09-28 2014-06-10 International Business Machines Corporation Autonomic fault isolation in a highly interconnected system
US8661295B1 (en) * 2011-03-31 2014-02-25 Amazon Technologies, Inc. Monitoring and detecting causes of failures of network paths
US9710295B2 (en) * 2011-04-20 2017-07-18 Nec Corporation Grouping and placement of virtual machines based on similarity and correlation of functional relations
CN102455951A (zh) * 2011-07-21 2012-05-16 中标软件有限公司 一种虚拟机容错方法和系统
US8811212B2 (en) * 2012-02-22 2014-08-19 Telefonaktiebolaget L M Ericsson (Publ) Controller placement for fast failover in the split architecture
US9003027B2 (en) * 2012-08-17 2015-04-07 Vmware, Inc. Discovery of storage area network devices for a virtual machine
US9811435B2 (en) * 2013-09-03 2017-11-07 Cisco Technology, Inc. System for virtual machine risk monitoring
US10348628B2 (en) * 2013-09-12 2019-07-09 Vmware, Inc. Placement of virtual machines in a virtualized computing environment
US9882805B2 (en) * 2013-09-30 2018-01-30 Vmware, Inc. Dynamic path selection policy for multipathing in a virtualized environment
US9389970B2 (en) * 2013-11-01 2016-07-12 International Business Machines Corporation Selected virtual machine replication and virtual machine restart techniques
US9164695B2 (en) * 2013-12-03 2015-10-20 Vmware, Inc. Placing a storage network device into a maintenance mode in a virtualized computing environment
US20150172222A1 (en) * 2013-12-16 2015-06-18 James Liao Data center ethernet switch fabric
US9946614B2 (en) * 2014-12-16 2018-04-17 At&T Intellectual Property I, L.P. Methods, systems, and computer readable storage devices for managing faults in a virtual machine network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8031634B1 (en) * 2008-03-31 2011-10-04 Emc Corporation System and method for managing a virtual domain environment to enable root cause and impact analysis
CN102143008A (zh) * 2010-01-29 2011-08-03 国际商业机器公司 用于数据中心的诊断故障事件的方法及装置
CN103403689A (zh) * 2012-07-30 2013-11-20 华为技术有限公司 一种资源故障管理方法、装置及系统
US20140165054A1 (en) * 2012-12-06 2014-06-12 Industrial Technology Research Institute Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines
CN103294521A (zh) * 2013-05-30 2013-09-11 天津大学 一种降低数据中心通信负载及能耗的方法

Also Published As

Publication number Publication date
WO2016107425A1 (zh) 2016-07-07
US20170299645A1 (en) 2017-10-19
CN105812170B (zh) 2019-01-18
US10831630B2 (en) 2020-11-10
EP3232620A1 (en) 2017-10-18
EP3232620B1 (en) 2019-05-22
EP3232620A4 (en) 2017-12-20

Similar Documents

Publication Publication Date Title
CN105812170A (zh) 基于数据中心的故障分析方法和装置
US9483343B2 (en) System and method of visualizing historical event correlations in a data center
US10462027B2 (en) Cloud network stability
JP5200970B2 (ja) 品質管理システムおよび品質管理装置および品質管理プログラム
CN103399815A (zh) 自动化测试方法和装置
JP4695638B2 (ja) 故障パターン推定方法、故障パターン推定装置及びプログラム
WO2021103800A1 (zh) 故障修复操作推荐方法、装置及存储介质
JP5949785B2 (ja) 情報処理方法、装置及びプログラム
CN103278731A (zh) 一种基于二次回路信息的故障诊断方法及系统
JP3703970B2 (ja) 電力系統事故の選択方法およびその装置
CN114095394B (zh) 网络节点故障检测方法、装置、电子设备及存储介质
JP6310405B2 (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法
CN106452696A (zh) 一种服务器集群的控制系统
JP6377537B2 (ja) 電力系統監視装置、電力系統監視方法及び電力系統監視プログラム
JPWO2019138891A1 (ja) 異常箇所特定装置、異常箇所特定方法及びプログラム
JP5722167B2 (ja) 障害監視判定装置、障害監視判定方法、及びプログラム
JP2019219473A (ja) 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム
JP2014199993A (ja) 優先復旧設備決定装置、優先復旧設備決定方法、プログラムおよび優先復旧設備決定システム
JP2007300249A (ja) ネットワーク管理システムおよび方法
JP5905358B2 (ja) 障害リンク特定システムの監視用パス設定方法および装置
CN112162528A (zh) 一种数控机床的故障诊断方法、装置、设备和存储介质
WO2015037604A1 (ja) ネットワーク設計支援装置、ネットワーク設計方法及びプログラム
JP2017098695A (ja) 保守装置、ネットワークシステム及びその保守方法
JP7513921B2 (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
JP6419010B2 (ja) ネットワーク監視装置、ネットワーク監視方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220210

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right