CN103559124B - 故障快速检测方法及装置 - Google Patents

故障快速检测方法及装置 Download PDF

Info

Publication number
CN103559124B
CN103559124B CN201310507154.5A CN201310507154A CN103559124B CN 103559124 B CN103559124 B CN 103559124B CN 201310507154 A CN201310507154 A CN 201310507154A CN 103559124 B CN103559124 B CN 103559124B
Authority
CN
China
Prior art keywords
failure
kbox
operating system
groups
subsystems
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310507154.5A
Other languages
English (en)
Other versions
CN103559124A (zh
Inventor
谢军勇
刘涛
夏海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310507154.5A priority Critical patent/CN103559124B/zh
Publication of CN103559124A publication Critical patent/CN103559124A/zh
Priority to PCT/CN2014/089421 priority patent/WO2015058711A1/zh
Priority to EP14855827.3A priority patent/EP3054383A4/en
Priority to US15/136,690 priority patent/US10223183B2/en
Application granted granted Critical
Publication of CN103559124B publication Critical patent/CN103559124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种故障快速检测方法及装置,该方法包括:通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。

Description

故障快速检测方法及装置
技术领域
本发明实施例涉及通信技术,尤其涉及一种故障快速检测方法及装置。
背景技术
云技术将电信系统分为基础设施层和业务应用层,基础设施层通过虚拟化技术提供给业务应用层使用,业务应用层运行在宿主操作系统(Host Operation System,简称:Host OS)和客户操作系统(Guest Operation System,简称:Guest OS)上,操作系统(Operation System,简称:OS)作为执行环境为业务应用层的运行提供支撑,如果执行环境出现故障或亚健康问题,将会影响应用服务的提供。
当前电信系统中,对于执行环境的故障检测通常采用心跳(Heart Beat,简称:HB)检测的方式,即,Host OS和Guest OS上均运行有心跳程序,周期性地向高可用(HighAvailability,简称:HA)子系统发送心跳消息,一旦Host OS或Guest OS中出现故障,心跳消息将无法发送,若HA子系统在多个检测周期均接收不到心跳消息,即可判定宿主机或虚拟机出现故障。
然而,若检测周期过长,一旦Host OS或Guest OS中出现故障,HA子系统无法及时发现故障,将导致业务可用性恶化;若检测周期过短,一旦网络上出现通讯延迟,将导致HA子系统误判Host OS或Guest OS中出现故障。
发明内容
本发明实施例提供一种故障快速检测方法及装置,以实现快速检测出操作系统中出现的故障或亚健康问题。
第一方面,本发明实施例提供一种故障快速检测方法,包括:
内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
在第一方面的第一种可能的实现方式中,所述KBox组检测操作系统出现的故障,包括:
所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
结合第一方面或第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
相应的,所述管理单元为硬件上的基板管理控制器BMC;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
结合第一方面至第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述方法还包括:
所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
第二方面,本发明实施例提供一种故障快速检测方法,包括:
应用高可用性HA子系统接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第二方面的第一种可能的实现方式中,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第二方面的第二种可能的实现方式中,所述管理单元为硬件上的基板管理控制器BMC;
相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
结合第二方面至第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述方法还包括:
所述应用HA子系统接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
第三方面,本发明实施例提供一种故障快速检测装置,包括:
检测模块,用于通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
发送模块,用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
在第三方面的第一种可能的实现方式中,所述检测模块具体用于:
通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
结合第三方面或第三方面的第一种可能的实现方式,在第二种可能的实现方式中,所述检测模块具体用于:
通过所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述发送模块具体用于:
使所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
结合第三方面或第三方面的第一种可能的实现方式,在第三种可能的实现方式中,所述检测模块具体用于:
通过所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
相应的,所述管理单元为硬件上的基板管理控制器BMC;所述发送模块具体用于:
使所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
结合第三方面至第三方面的第三种可能的实现方式,在第四种可能的实现方式中,所述发送模块还用于:
使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
第四方面,本发明实施例提供一种故障快速检测装置,包括:
接收模块,用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
发送模块,用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第四方面的第一种可能的实现方式中,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
相应的,所述接收模块具体用于:
接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
所述发送模块具体用于:
根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第四方面的第二种可能的实现方式中,所述管理单元为硬件上的基板管理控制器BMC;
相应的,所述接收模块具体用于:
接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
所述发送模块具体用于:
根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
结合第四方面至第四方面的第二种可能的实现方式,在第三种可能的实现方式中,所述接收模块还用于:
接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
本发明实施例提供的故障快速检测方法及装置,通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明故障快速检测方法实施例一的流程图;
图2为本发明故障快速检测方法实施例二的流程图;
图3为本发明故障快速检测方法实施例二的应用示意图;
图4为本发明故障快速检测方法实施例三的流程图;
图5为本发明故障快速检测方法实施例三的应用示意图;
图6为本发明故障快速检测方法实施例四的流程图;
图7为本发明故障快速检测装置实施例一的结构示意图;
图8为本发明故障快速检测装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明故障快速检测方法实施例一的流程图。如图1所示,本实施例提供的方法可以包括:
步骤101、内核黑匣子(Kernel Black Box,简称:KBox)组检测操作系统出现的故障,根据检测到的故障形成故障信息。
需要说明的是,所述操作系统可能出现的故障或亚健康问题可以包括:操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位。具体的,所述KBox组检测操作系统出现的故障,可以包括:
所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元(Central Processing Unit,简称:CPU)上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
步骤102、所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。
需要说明的是,在一些可行的实施方式中,所述KBox组还可以通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
本发明实施例提供的故障快速检测方法及装置,通过KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图2为本发明故障快速检测方法实施例二的流程图。如图2所示,在上述实施例的基础上,本实施例提供的方法中,上述步骤101具体可以为:
步骤201、所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识。
本实施例中,所述基础设施层的管理单元可以为所述基础设施层的宿主操作系统内的基础设施管理单元(Board Management Unit,简称:BMU)。相应的,上述步骤102具体可以为:
步骤202、所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
参照图3,在实际应用过程中,在继承原有的心跳检测机制的基础上,在各虚拟机的客户操作系统的内核中插入KBox,即,在客户操作系统的内核中插入所述第一KBox,所述第一KBox检测客户操作系统出现的故障,具体的,所述客户操作系统可能出现的故障或亚健康问题可以包括:操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位,本实施例不对此进行限制。
在所述客户操作系统出现故障或亚健康问题后,所述第一KBox根据检测到的故障形成第一故障信息,并将所述第一故障信息通过BMU与KBox之间的接口发送至BMU。具体的,对所述BMU与Kbox之间的接口的定义如表一所示:
表一 接口定义
字段名 字段类型 作用
故障原因 整形 客户操作系统故障原因值
故障描述 字符串 客户操作系统故障说明
故障发生时间 整形 故障发生时客户操作系统的系统时间
所述第一KBox形成的第一故障信息中可以包括故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识。
BMU在接收到所述第一故障信息后,可以识别出发送所述第一故障信息的所述第一KBox所在的虚拟机对应的虚拟机ID,所述BMU直接将包含所述第一故障信息以及识别出的所述虚拟机ID的第一系统故障通告信息发送至应用HA子系统;可选的,所述BMU还可以将所述第一故障信息以及所述虚拟机ID发送至基础设施HA子系统,再由所述基础设施HA子系统将包含所述第一故障信息以及所述虚拟机ID的所述第一系统故障通告信息发送至所述应用HA子系统。
所述应用HA子系统根据所述第一系统故障通告信息触发业务故障处理,所述业务故障处理具体可以包括业务倒换。
本实施例的技术方案,通过第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图4为本发明故障快速检测方法实施例三的流程图。如图4所示,在上述实施例的基础上,本实施例提供的方法中,上述步骤101具体可以为:
步骤301、所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间。
本实施例中,所述基础设施层的管理单元为所述基础设施层的硬件上的基板管理控制器(Board Management Controller,简称:BMC)。相应的,上述步骤102具体可以为:
步骤302、所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
参照图5,在实际应用过程中,在上述实施例的基础上,在继承原有的心跳检测机制的基础上,除了在各虚拟机的客户操作系统的内核中插入第一KBox之外,在本实施例中,还可以在宿主操作系统的内核中也插入KBox,即,在宿主操作系统的内核中插入第二KBox,所述第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息,具体的,所述宿主操作系统可能出现的故障或亚健康问题可以包括:操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位,本实施例不对此进行限制。
在所述宿主操作系统出现故障或亚健康问题后,所述第二KBox根据检测到的故障形成第二故障信息,并将所述第二故障信息发送至BMC,所述第二故障信息中可以包括故障原因,故障描述以及故障发生时间。
所述BMC在接收到所述第二故障信息后,将包含所述第二故障信息的第二系统故障通告信息发送至所述应用HA子系统;可选的,所述BMC还可以将所述第二故障信息发送至所述基础设施HA子系统,再由所述基础设施HA子系统将包含所述地热故障信息的所述第二系统故障通告信息发送至所述应用HA子系统。
所述应用HA子系统根据所述第二系统故障通告信息触发业务故障处理,所述业务故障处理具体可以包括业务倒换。
本实施例的技术方案,通过第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机;从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图6为本发明故障快速检测方法实施例四的流程图。如图4所示,本实施例提供的方法具体可以包括:
步骤401、应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息。
在一种可行的实施方式中,所述管理单元为宿主操作系统内的BMU;在则本步骤具体可以为:所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识。
在另一种可行的实施方式中,所述管理单元为硬件上的BMC;则本步骤具体可以为:所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间。
步骤402、所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在一种可行的实施方式中,所述管理单元为宿主操作系统内的BMU;在则本步骤具体可以为:所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在另一种可行的实施方式中,所述管理单元为硬件上的BMC;则本步骤具体可以为:所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
需要说明的是,在一些可行的实施方式中,所述应用HA子系统还可以接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
本实施例的技术方案,通过应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图7为本发明故障快速检测装置实施例一的结构示意图。如图7所示,本实施例提供的故障快速检测装置10具体可以包括:检测模块11以及发送模块12。
其中,检测模块11用于通过KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
发送模块12用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。
需要说明的是,所述检测模块11具体可以用于:
通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
一种可行的实施方式中,所述检测模块11具体可以用于通过所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成故障信息;其中,所述第一KBox设置在虚拟机内,所述故障信息中还包含故障对应的虚拟机标识。
相应的,所述基础设施层的管理单元为所述基础设施层的宿主操作系统内的BMU;所述发送模块12具体可以用于使所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
另一种可行的实施方式,所述检测模块11具体可以用于通过所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成故障信息;其中,所述第二KBox设置在所述宿主操作系统内;
相应的,所述基础设施层的管理单元为所述基础设施层的硬件上的BMC;所述发送模块12具体可以用于使所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
在一些可行的实施方式中,所述发送模块12还可以用于使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
本实施例的故障快速检测装置,可用于执行上述方法实施例的技术方案,其实现原理及技术效果类似,此处不再赘述。
图8为本发明故障快速检测装置实施例二的结构示意图。如图8所示,本实施例提供的故障快速检测装置20具体可以包括:接收模块21以及发送模块22。
其中,接收模块21用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
发送模块22用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在一种可行的实施方式中,所述管理单元可以为宿主操作系统内的基础设施管理单元BMU;相应的,所述接收模块21具体可以用于接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;所述发送模块22具体可以用于根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在另一种可行的实施方式中,所述管理单元可以为硬件上的基板管理控制器BMC;相应的,所述接收模块21具体可以用于接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;所述发送模块22具体可以用于根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
在一些可行的实施方式中,所述接收模块21还可以用于接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
本实施例的故障快速检测装置,可用于执行上述方法实施例的技术方案,其实现原理及技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种故障快速检测方法,其特征在于,包括:
内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理;
其中,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
2.根据权利要求1所述的方法,其特征在于,所述KBox组检测操作系统出现的故障,包括:
所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
4.一种故障快速检测方法,其特征在于,包括:
内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理;
其中,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
相应的,所述管理单元为硬件上的基板管理控制器BMC;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
5.根据权利要求4所述的方法,其特征在于,所述KBox组检测操作系统出现的故障,包括:
所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
6.根据权利要求4或5所述的方法,其特征在于,还包括:
所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
7.一种故障快速检测方法,其特征在于,包括:
应用高可用性HA子系统接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理;
还包括:
所述应用HA子系统接收基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
8.根据权利要求7所述的方法,其特征在于,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
9.根据权利要求7所述的方法,其特征在于,所述管理单元为硬件上的基板管理控制器BMC;
相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
10.一种故障快速检测装置,其特征在于,包括:
检测模块,用于通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
发送模块,用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理;
其中,所述检测模块具体用于:
通过所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述发送模块具体用于:
使所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
11.根据权利要求10所述的装置,其特征在于,所述检测模块具体用于:
通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
12.根据权利要求10或11所述的装置,其特征在于,所述发送模块还用于:
使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
13.一种故障快速检测装置,其特征在于,包括:
检测模块,用于通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
发送模块,用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理;
其中,所述检测模块具体用于:
通过所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
相应的,所述管理单元为硬件上的基板管理控制器BMC;所述发送模块具体用于:
使所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
14.根据权利要求13所述的装置,其特征在于,所述检测模块具体用于:
通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
15.根据权利要求13或14所述的装置,其特征在于,所述发送模块还用于:
使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
16.一种故障快速检测装置,其特征在于,包括:
接收模块,用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
发送模块,用于根据所述系统故障通告信息触发应用HA子系统的业务故障处理;
其中,所述接收模块还用于:
接收基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
17.根据权利要求16所述的装置,其特征在于,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
相应的,所述接收模块具体用于:
接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
所述发送模块具体用于:
根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
18.根据权利要求16所述的装置,其特征在于,所述管理单元为硬件上的基板管理控制器BMC;
相应的,所述接收模块具体用于:
接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
所述发送模块具体用于:
根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
CN201310507154.5A 2013-10-24 2013-10-24 故障快速检测方法及装置 Active CN103559124B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310507154.5A CN103559124B (zh) 2013-10-24 2013-10-24 故障快速检测方法及装置
PCT/CN2014/089421 WO2015058711A1 (zh) 2013-10-24 2014-10-24 故障快速检测方法及装置
EP14855827.3A EP3054383A4 (en) 2013-10-24 2014-10-24 PROCESS AND SYSTEM FOR QUICK ERROR DETECTION
US15/136,690 US10223183B2 (en) 2013-10-24 2016-04-22 Rapid fault detection method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310507154.5A CN103559124B (zh) 2013-10-24 2013-10-24 故障快速检测方法及装置

Publications (2)

Publication Number Publication Date
CN103559124A CN103559124A (zh) 2014-02-05
CN103559124B true CN103559124B (zh) 2017-04-12

Family

ID=50013375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310507154.5A Active CN103559124B (zh) 2013-10-24 2013-10-24 故障快速检测方法及装置

Country Status (4)

Country Link
US (1) US10223183B2 (zh)
EP (1) EP3054383A4 (zh)
CN (1) CN103559124B (zh)
WO (1) WO2015058711A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559124B (zh) * 2013-10-24 2017-04-12 华为技术有限公司 故障快速检测方法及装置
CN106681802A (zh) * 2015-11-06 2017-05-17 华为技术有限公司 虚拟机迁移方法、装置及系统
CN107783854B (zh) 2016-08-29 2021-08-20 华为技术有限公司 处理进程的方法及其装置
CN106383760A (zh) * 2016-09-19 2017-02-08 郑州云海信息技术有限公司 一种计算机故障管理方法及装置
CN106452846A (zh) * 2016-09-22 2017-02-22 华为技术有限公司 故障处理方法、虚拟架构管理系统和业务管理系统
CN111367769B (zh) * 2020-03-30 2023-07-21 浙江大华技术股份有限公司 应用故障处理方法及电子设备
CN112069032A (zh) * 2020-09-11 2020-12-11 杭州安恒信息技术股份有限公司 一种虚拟机的可用性检测方法、系统及相关装置
US11886283B2 (en) 2022-03-30 2024-01-30 International Business Machines Corporation Automatic node crash detection and remediation in distributed computing systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593128A (zh) * 2008-05-26 2009-12-02 上海未来宽带技术及应用工程研究中心有限公司 基于实时操作系统的atca系统中的ipmc及其构建方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102364448A (zh) * 2011-09-19 2012-02-29 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4809209B2 (ja) * 2006-12-28 2011-11-09 株式会社日立製作所 サーバ仮想化環境における系切り替え方法及び計算機システム
US8499007B2 (en) * 2008-12-30 2013-07-30 Kanata Limited Information processing system, first information processing apparatus, second information processing apparatus, and third information processing apparatus
US8381033B2 (en) * 2009-10-30 2013-02-19 International Business Machines Corporation Fault management in virtual computing environments
US8839032B2 (en) * 2009-12-08 2014-09-16 Hewlett-Packard Development Company, L.P. Managing errors in a data processing system
US20130275966A1 (en) * 2012-04-12 2013-10-17 International Business Machines Corporation Providing application based monitoring and recovery for a hypervisor of an ha cluster
US9436576B2 (en) * 2012-06-29 2016-09-06 Intel Corporation Methods, systems and apparatus to capture error conditions in lightweight virtual machine managers
CN102902599B (zh) * 2012-09-17 2016-08-24 华为技术有限公司 虚拟机内部故障处理方法、装置及系统
CN103559124B (zh) * 2013-10-24 2017-04-12 华为技术有限公司 故障快速检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593128A (zh) * 2008-05-26 2009-12-02 上海未来宽带技术及应用工程研究中心有限公司 基于实时操作系统的atca系统中的ipmc及其构建方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102364448A (zh) * 2011-09-19 2012-02-29 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法

Also Published As

Publication number Publication date
EP3054383A1 (en) 2016-08-10
WO2015058711A1 (zh) 2015-04-30
CN103559124A (zh) 2014-02-05
EP3054383A4 (en) 2016-10-26
US20160239369A1 (en) 2016-08-18
US10223183B2 (en) 2019-03-05

Similar Documents

Publication Publication Date Title
CN103559124B (zh) 故障快速检测方法及装置
CN104170323B (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
CN109815043B (zh) 故障处理方法、相关设备及计算机存储介质
CN103873279B (zh) 一种服务器管理方法,及装置
TWI603266B (zh) 虛擬機器之資源調整方法及系統
CN104750596B (zh) 一种告警信息处理方法及服务子系统
CN104320274B (zh) 一种容灾方法及装置
CN103812699A (zh) 基于云计算的监控管理系统
JP2008299509A5 (zh)
CN106487486A (zh) 业务处理方法和数据中心系统
CN103746855B (zh) 电信云中异常事件的处理方法及装置
CN104469699A (zh) 集群仲裁方法和多集群配合系统
CN107743076A (zh) 一种ncsi共享网口切换方法及装置
CN106293874A (zh) 一种对高可用集群进行监控的方法及装置
CN104123183B (zh) 集群作业调度方法和装置
CN107038137A (zh) 一种热插拔的设备及方法
US10417101B2 (en) Fault monitoring device, virtual network system, and fault monitoring method
CN105849702A (zh) 集群系统,服务器设备,集群系统管理方法和计算机可读记录介质
CN102819480A (zh) 一种监控计算机存储器的方法和计算机
CN104184603A (zh) 一种用户状态统计方法、装置及系统
CN109672618A (zh) 冗余接口处理方法、装置、服务器及存储介质
CN106878096A (zh) Vnf状态检测通告方法、装置以及系统
CN109032754A (zh) 提高通信路径可靠性的方法和设备
CN108141374B (zh) 一种网络亚健康诊断方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant