CN111581058B - 故障管理方法、装置、设备及计算机可读存储介质 - Google Patents

故障管理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111581058B
CN111581058B CN202010386393.XA CN202010386393A CN111581058B CN 111581058 B CN111581058 B CN 111581058B CN 202010386393 A CN202010386393 A CN 202010386393A CN 111581058 B CN111581058 B CN 111581058B
Authority
CN
China
Prior art keywords
fault
server
error signal
information
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010386393.XA
Other languages
English (en)
Other versions
CN111581058A (zh
Inventor
崔永江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Yep Telecommunication Technology Co Ltd
Original Assignee
Xian Yep Telecommunication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Yep Telecommunication Technology Co Ltd filed Critical Xian Yep Telecommunication Technology Co Ltd
Priority to CN202010386393.XA priority Critical patent/CN111581058B/zh
Publication of CN111581058A publication Critical patent/CN111581058A/zh
Application granted granted Critical
Publication of CN111581058B publication Critical patent/CN111581058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种故障管理方法、装置、设备及计算机可读存储介质。该方法包括:BMC监测是否有错误信号,其中,错误信号是CPU在判断服务器发生故障时触发的;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种;根据故障信息,确定服务器的故障解决方案。本申请在服务器发生故障时根据错误信号获取服务器的故障信息,其中,上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,提高了服务器的运行效率。

Description

故障管理方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种故障管理方法、装置、设备及计算机可读存储介质。
背景技术
随着大数据以及云计算的发展,计算机和服务器的需求在不断增加,对服务器可靠性和稳定性的要求也逐步增高。
在长期运行的过程中,服务器可能会出现各种各样的故障,因此需要对故障进行管理,以维持服务器的稳定。相关技术中,服务器发生故障时,一般会在主机端产生系统管理中断(System Management Interrupt,简称SMI)。
然而,中断的优先级高于其他指令和应用,所以在故障发生时会对主机应用造成延迟,影响服务器的正常使用,服务器运行效率较低。
发明内容
本申请提供一种故障管理方法、装置、设备及计算机可读存储介质,从而解决现有服务器发生故障,导致主机应用延迟,服务器运行效率较低的技术问题。
第一方面,本申请实施例提供一种故障管理方法,该方法的执行主体可以为基板管理控制器(System Management Mode,BMC),该方法可以包括:监测是否有错误信号,其中,错误信号是中央处理器(Central Processing Unit,CPU)在判断服务器发生故障时触发的;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、高速串行计算机扩展总线(Peripheral Component InterconnectExpress,PEIC)故障、集成南桥(Platform Controller Hub,PCH)故障和信道(Ultra PathInterconnect,UPI)故障中至少一种;根据故障信息,确定服务器的故障解决方案。
本申请实施例在服务器发生故障时,BMC根据CPU触发的错误信号获取服务器的故障信息,其中,不产生SMI中断,且上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,提高了服务器的运行效率。
可选的,上述基于错误信号,获取服务器的故障信息,包括:
基于错误信号,采用预设数据结构获取服务器的故障信息。这里,预设数据结构可以根据实际情况确定,例如,最小数据结构,从而,节省了服务器的存储空间,进一步地提高了服务器的运行效率。
可选的,上述预设数据结构通过以下方式确定:
当故障信息包括CPU故障时,预设数据结构包括是否存在故障、故障来源和故障位置。
当故障信息包括内存故障时,预设数据结构包括故障内存位置、故障类型和内存故障细化。
当故障信息包括PEIC故障时,预设数据结构包括故障位置、故障类型和故障来源。
当故障信息包括PCH故障时,预设数据结构包括故障模块、故障类型和故障来源。
当故障信息为UPI故障时,预设数据结构包括故障链路位置、故障类型和故障来源。
本申请实施例根据不同的故障信息自定义数据结构,满足多种应用需要。
可选的,上述根据故障信息,确定服务器的故障解决方案,包括:
获取预存的服务器故障信息与服务器故障解决方案的对应关系;根据对应关系,确定故障信息对应的服务器的故障解决方案。
这里,本申请实施例预存故障信息与解决方案的对应关系,进而,基于该关系,确定故障信息对应的解决方案,进一步地提高了服务器解决故障的效率。
第二方面,本申请提供一种故障管理方法,该方法的执行主体可以为CPU,该方法可以包括:判断服务器是否发生故障;若服务器发生故障,则触发错误信号,错误信号用于指示BMC在监测到错误信号时,基于错误信号,获取服务器的故障信息,并根据故障信息,确定服务器的故障解决方案,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种。
本申请实施例在判断服务器发生故障之后触发错误信号,使得BMC基于该错误信号获得故障信息,其中,不产生SMI中断,且上述错误信号的优先级不会高于其他指令和应用,从而,避免了在服务器发生故障时内部产生的SMI中断对主机应用造成的延迟,保证了服务器发生故障时仍可正常使用,提高了服务器的运行效率。
可选的,上述判断服务器是否发生故障,包括:
判断服务器的CPU、内存、PCIE、PCH和UPI是否出现故障;若CPU、内存、PCIE、PCH和UPI中任意一项出现故障,则判断服务器发生故障。
这里,以上故障会产生SMI中断,因此CPU判断是否出现上述故障,进而,在出现上述任一故障时,触发错误信号使BMC基于此错误信号获取故障信息,避免了SMI中断造成的主机延迟,提高了服务器的运行效率。
第三方面,本申请提供一种故障管理方法,包括:
CPU判断服务器是否发生故障,并在判断服务器发生故障时,触发错误信号;BMC监测是否有错误信号;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种;根据故障信息,获取服务器的故障解决方案。
本申请实施例在服务器发生故障时BMC根据CPU触发的错误信号获取服务器的故障信息,根据此故障信息确定故障解决方案,其中,上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,保证了服务器发生故障时仍可正常使用,提高了服务器的运行效率。
第四方面,本申请提供一种故障管理装置,包括:监测模块,用于监测是否有错误信号,其中,错误信号是CPU在判断服务器发生故障时触发的;第一获取模块,若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种;第二获取模块,用于根据故障信息,获取服务器的故障解决方案。
可选的,第一获取模块具体用于:若监测到错误信号,则基于错误信号,采用预设数据结构获取服务器的故障信息。
可选的,预设数据结构通过以下方式确定:当故障信息包括CPU故障时,预设数据结构包括是否存在故障、故障来源和故障位置;当故障信息包括内存故障时,预设数据结构包括故障内存位置、故障类型和内存故障细化;当故障信息包括PEIC故障时,预设数据结构包括故障位置、故障类型和故障来源;当故障信息包括PCH故障时,预设数据结构包括故障模块、故障类型和故障来源;当故障信息包括UPI故障时,预设数据结构包括故障链路位置、故障类型和故障来源。
可选的,第二获取模块具体用于:获取预存的服务器故障信息与服务器故障解决方案的对应关系;根据对应关系,确定故障信息对应的服务器的故障解决方案。
第五方面,本申请提供一种故障管理装置,包括:判断模块,用于判断服务器是否发生故障;处理模块,若服务器发生故障,则触发错误信号,错误信号用于指示BMC在监测到所述错误信号时,基于错误信号,获取服务器的故障信息,并根据故障信息,确定服务器的故障解决方案,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种。
可选的,判断模块具体用于:判断服务器的CPU、内存、PCIE、PCH和UPI是否出现故障;若CPU、内存、PCIE、PCH和UPI中任意一项出现故障,则判断服务器发生故障。
第六方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第一方面的可选方式的任一项的应用于故障管理方法。
第七方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第二方面或第二方面的可选方式的任一项的应用于故障管理方法。
第八方面,本申请实施例提供一种计算机程序产品,该产品包括:计算机指令,该计算机指令用于使计算机执行如第一方面或第一方面的可选方式的任一项的应用于故障管理方法。
第九方面,本申请实施例提供一种计算机程序产品,该产品包括:计算机指令,该计算机指令用于使计算机执行如第二方面或第二方面的可选方式的任一项的应用于故障管理方法。
本申请实施例提供一种故障管理方法、装置、设备及计算机可读存储介质,该方法通过CPU判断服务器是否发生故障,并在判断服务器发生故障时,触发错误信号;BMC监测是否有错误信号;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,不产生SMI中断,且上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,保证了服务器发生故障时仍可正常使用,提高了服务器的运行效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的一种故障管理的系统框架图;
图2为本申请实施例提供的一种故障管理方法的流程图;
图3为本申请实施例提供的另一种故障管理方法的流程图;
图4为本申请实施例提供的再一种故障管理方法的流程图;
图5为本申请实施例提供的一种CPU故障判断示意图;
图6为本申请实施例提供的又一种故障管理方法的流程图;
图7为本申请实施例提供的一种故障管理装置的结构示意图;
图8为本申请实施例提供的另一种故障管理装置的结构示意图;
图9为本申请实施例提供的一种故障管理设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
现有技术中,当服务器发生故障时,会进入系统管理模式(System ManagementMode,SMM),主机端产生SMI中断,收集故障信息,此中断的优先级高于其他指令和应用,因此在中断事件处理完成前,所有应用和系统操作都会停止响应,对主机应用造成延迟,影响服务器的正常使用,服务器运行效率较低。
为了解决上述技术问题,本申请提供一种故障管理方法、设备、装置及计算机可读存储介质,如图1所示,图1为本申请实施例提供的一种故障管理的系统框架图,该系统包括CPU101、BMC102和PCH103中至少一种。
可以理解的是,本申请实施例示意的结构并不构成对故障管理系统的具体限定。在本申请另一些可行的实施方式中,上述系统可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
在具体实现过程中,CPU101在判断服务器发生故障后,触发错误信号,BMC102基于该错误信号获取故障信息,其中,不产生SMI中断,且上述错误信号的优先级不会高于其他指令和应用,因此不会影响系统操作和应用运行,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟。
应理解,本申请实施例描述的系统框架是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统框架的演变,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合具体的实施例对本申请的技术方案进行详细的说明:
图2为本申请实施例提供的一种故障管理方法的流程图。该方法的执行主体可以为上述图1中的BMC102,如图2所示,该方法包括如下步骤:
S201:监测是否有错误信号。
S202:若监测到错误信号,则基于错误信号,获取服务器的故障信息。
S203:根据故障信息,确定服务器的故障解决方案。
下面对S201进行说明:
其中,上述错误信号是CPU在判断服务器发生故障时触发的。
可选的,BMC可以通过低速串行总线(Low pin count Bus,LPC)监测接收错误信号进行,也可以通过PEIC监测错误信号。
下面对S202进行说明:
其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种。
服务器系统运行时,服务器内部的故障包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中的至少一种,以上故障发生时,服务器会产生SMI从而收集故障信息,SMI的优先级较高,服务器的其它工作会受到SMI的中断而停止,为了降低服务器发生故障时的时延,在服务器内部产生上述故障时,不采用SMI收集故障信息,而是通过一个错误信号的传输来收集故障信息。
当BMC监测到有错误信号时,即可判断服务器内部出现故障,因此BMC根据错误信号,可以获取服务器的故障信息。
可选的,BMC获取故障信息可以通过BMC中断的方式来响应,当BMC监测到错误信号时,主动中断BMC内部的其他工作,获取故障信息,因而对故障信息达到及时响应的效果,提高服务器故障的处理效率。
可选的,上述基于错误信号,获取服务器的故障信息,包括:
基于错误信号,采用预设数据结构获取服务器的故障信息,通过自定义一数据结构获取服务器的故障信息,实现了故障信息获取、存储与处理的灵活性,这里,预设数据结构可以根据实际情况确定,例如,最小数据结构,从而,节省了服务器的存储空间,进一步地提高了服务器的运行效率。
可选的,可以采用以下数据结构对服务器的故障信息进行收集:
当故障信息包括CPU故障时,预设数据结构包括是否存在故障、故障来源和故障位置。由于服务器可能包含多个CPU,因此需要收集当前CPU是否存在故障;故障来源是指故障来源于CPU内部的哪个模块;故障位置可以是故障信息的输入输出地址(Input/Ouput,I/O)或者内存地址。通过上述信息,可以精确收集CPU故障信息。
当故障信息包括内存故障时,预设数据结构包括故障内存位置、故障类型和内存故障细化。故障内存位置包括内存故障位于哪个CPU、通道及内存条;故障类型包括CE和UCE;内存故障细化包括内存故障位于哪个颗粒和管脚,进一步细化了内存故障产生的位置。
当故障信息包括PEIC故障时,预设数据结构包括故障位置、故障类型和故障来源。故障位置包括总线(Bus)、设备(Device)和功能(Function);故障类型包括CE和UCE;故障来源包括来自物理层、链路层、协议层和传输层,精确收集了PEIC故障信息。
当故障信息包括PCH故障时,预设数据结构包括故障模块、故障类型和故障来源。故障模块是指故障位于硬盘(Serial ATA,SATA)、通用串行总线(Universal Serial Bus,USB)、串行外设接口(Serial Peripheral Interface,SPI)还是LPC;故障类型包括CE和UCE;故障来源包括来自物理层、链路层、协议层和传输层,精确收集了PCH故障信息。
当故障信息为UPI故障时,预设数据结构包括故障链路位置、故障类型和故障来源。故障链路位置包括总线(Bus)、设备(Device)和功能(Function);故障类型包括CE和UCE;故障来源包括来自物理层、链路层、协议层和传输层,精确收集了UPI故障信息。
通过上述数据结构,精确收集了故障信息,同时该数据结构简洁完整,节省了服务器的内部空间,提高了服务器的运行效率。
本实施例BMC在服务器发生故障时根据错误信号获取服务器的故障信息,根据此错误信息确定故障解决方案,其中,上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,提高了服务器的运行效率。
图3为本申请实施例提供的另一种故障管理方法的流程图,图3是在图2的基础上,进一步地,S203具体包括:
S2031:获取预存的服务器故障信息与服务器故障解决方案的对应关系。
S2032:根据对应关系,确定故障信息对应的服务器的故障解决方案。
服务器内部有针对于不同故障的多种解决方案,通过预存故障信息与解决方案的对应关系,基于该关系,确定故障信息对应的解决方案,进一步地提高了服务器解决故障的效率。
图4为本申请实施例提供的再一种故障管理方法的流程图,该方法的执行主体为服务器的CPU,如图4所示,该方法包括如下步骤:
S401:判断服务器是否发生故障。
S402:若服务器发生故障,则CPU触发错误信号。
其中,错误信号用于指示BMC在监测到错误信号时,基于错误信号,获取服务器的故障信息,并根据故障信息,确定服务器的故障解决方案,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种。
图5为本申请实施例提供的一种CPU故障判断示意图,如图5所示,服务器内部有故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障,CPU内部的故障侦测模块会根据以上故障判断服务器发生故障,从而触发错误信号。
可选的,判断服务器是否发生故障,可以通过判断服务器的CPU、内存、PCIE、PCH和UPI是否出现故障,若CPU、内存、PCIE、PCH和UPI中任意一项出现故障,则判断服务器发生故障。
可选的,服务器可以兼容现有的系统管理模式(System Management Mode,SMM),在需要触发SMI的情况下,CPU仍可根据故障信息触发SMI。
本实施例通过CPU判断服务器内部发生故障之后触发错误信号,使得BMC基于错误信号获得故障信息确定故障解决方案,其中,上述错误信号的优先级不会高于其他指令和应用,从而,避免了在服务器发生故障时内部产生的SMI中断对主机应用造成的延迟,保证了服务器发生故障时仍可正常使用,提高了服务器的运行效率。
图6为本申请实施例提供的又一种故障管理方法的流程图,该方法的执行主体为服务器,如图6所示,该方法包括:
S601:CPU判断服务器是否发生故障,并在判断服务器发生故障时,触发错误信号。
S602:BMC监测是否有错误信号;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种;根据故障信息,获取服务器的故障解决方案。
可选的,CPU向BMC传输错误信号时,可以通过LPC传输,也可以通过PCIE传输,通过带外管理的方式来进行故障管理,即通过不同的物理通道传送管理控制信息和数据信息,从而进一步地提高服务器的运行速率。
本实施例服务器通过CPU判断服务器内部是否发生故障,并在发生故障时触发错误信号,从而BMC根据此错误信号产生故障信息,根据此故障信息确定故障解决方案,其中,上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,保证了服务器发生故障时仍可正常使用,提高了服务器的运行效率。
图7为本申请实施例提供的一种故障管理装置的结构示意图。如图7所示,该故障管理设备包括:
监测模块110,用于监测是否有错误信号,其中,错误信号是CPU在判断服务器发生故障时触发的。
第一获取模块111,若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种。
第二获取模块112,用于根据故障信息,获取服务器的故障解决方案。
可选的,第一获取模块111具体用于:若监测到错误信号,则基于错误信号,采用预设数据结构获取服务器的故障信息。
可选的,预设数据结构通过以下方式确定:当故障信息包括CPU故障时,预设数据结构包括是否存在故障、故障来源和故障位置;当故障信息包括内存故障时,预设数据结构包括故障内存位置、故障类型和内存故障细化;当故障信息包括PEIC故障时,预设数据结构包括故障位置、故障类型和故障来源;当故障信息包括PCH故障时,预设数据结构包括故障模块、故障类型和故障来源;当故障信息包括UPI故障时,预设数据结构包括故障链路位置、故障类型和故障来源。
可选的,第二获取模块112具体用于:获取预存的服务器故障信息与服务器故障解决方案的对应关系;根据对应关系,确定故障信息对应的服务器的故障解决方案。
本申请提供的故障管理装置,可以执行上述BMC侧对应的故障管理方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图8为本申请实施例提供的另一种故障管理装置的结构示意图。如图8所示,该故障管理设备包括:
判断模块120,用于判断服务器是否发生故障。
处理模块121,若服务器发生故障,则触发错误信号,错误信号用于指示BMC在监测到所述错误信号时,基于错误信号,获取服务器的故障信息,并根据故障信息,确定服务器的故障解决方案,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种。
可选的,判断模块120具体用于:判断服务器的CPU、内存、PCIE、PCH和UPI是否出现故障;若CPU、内存、PCIE、PCH和UPI中任意一项出现故障,则判断服务器发生故障。
本申请提供的故障管理装置,可以执行上述CPU侧对应的故障管理方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图9为本申请实施例提供的一种故障管理设备的结构示意图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该故障管理设备包括:处理器1001和存储器1002,各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器1001可以对在故障管理设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。图9中以一个处理器1001为例。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的故障管理方法对应的程序指令/模块(例如,附图7所示的监测模块110、第一获取模块111和第二获取模块112)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的故障管理方法。
故障管理设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与故障管理设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以是故障管理设备的显示设备等输出设备。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
本申请实施例的故障管理设备,可以用于执行本申请上述各方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供另一种故障管理设备,该故障管理设备包括:处理器和存储器,各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在故障管理设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。
存储器作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的故障管理方法对应的程序指令/模块(例如,附图8所示的判断模块120和处理模块121)。处理器通过运行存储在存储器中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的故障管理方法。
故障管理设备还可以包括:输入装置和输出装置。处理器、存储器、输入装置和输出装置可以通过总线或者其他方式连接。
输入装置可接收输入的数字或字符信息,以及产生与故障管理设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置可以是故障管理设备的显示设备等输出设备。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
本申请实施例的故障管理设备,可以用于执行本申请上述各方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一所述的故障管理方法。
本申请实施例还提供一种计算机程序产品,该程序产品包括计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一所述的故障管理方法。
本申请实施例还提供一种服务器,该服务器包括上述故障管理设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (11)

1.一种故障管理方法,其特征在于,包括:
监测是否有错误信号,其中,所述错误信号是中央处理器CPU在根据服务器内部的故障信息判断服务器发生故障时触发的,所述服务器发生故障后不产生系统管理中断SMI,且所述错误信号的优先级不高于其他指令和应用,所述错误信号用于指示基板管理控制器BMC获取所述故障信息;
若监测到所述错误信号,则基于所述错误信号,采用预设数据结构获取所述服务器的故障信息,其中,所述故障信息包括CPU故障、内存故障、高速串行计算机扩展总线PCIE故障、集成南桥PCH故障和信道UPI故障中至少一种,所述预设数据结构是根据所述故障信息中包括的故障类型确定;
根据所述故障信息,确定所述服务器的故障解决方案。
2.根据权利要求1所述的方法,其特征在于,所述预设数据结构通过以下方式确定:
当所述故障信息包括CPU故障时,所述预设数据结构包括是否存在故障、故障来源和故障位置;
当所述故障信息包括内存故障时,所述预设数据结构包括故障内存位置、故障类型和内存故障细化;
当所述故障信息包括PEIC故障时,所述预设数据结构包括故障位置、故障类型和故障来源;
当所述故障信息包括PCH故障时,所述预设数据结构包括故障模块、故障类型和故障来源;
当所述故障信息为UPI故障时,所述预设数据结构包括故障链路位置、故障类型和故障来源。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述故障信息,确定所述服务器的故障解决方案,包括:
获取预存的服务器故障信息与服务器故障解决方案的对应关系;
根据所述对应关系,确定所述故障信息对应的所述服务器的故障解决方案。
4.一种故障管理方法,其特征在于,包括:
根据服务器内部的故障信息判断服务器是否发生故障;
若所述服务器发生故障,则触发错误信号,所述错误信号用于指示基板管理控制器BMC在监测到所述错误信号时,基于所述错误信号,采用预设数据结构获取所述服务器的故障信息,并根据所述故障信息,确定所述服务器的故障解决方案,其中,所述故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种,所述服务器发生故障后不产生系统管理中断SMI,且所述错误信号的优先级不高于其他指令和应用,所述预设数据结构是根据所述故障信息中包括的故障类型确定。
5.根据权利要求4所述的方法,其特征在于,所述判断服务器是否发生故障,包括:
判断所述服务器的CPU、内存、PCIE、PCH和UPI是否出现故障;
若所述CPU、所述内存、所述PCIE、所述PCH和所述UPI中任意一项出现故障,则判断所述服务器发生故障。
6.一种故障管理方法,其特征在于,包括:
CPU根据服务器内部的故障信息判断服务器是否发生故障,并在判断所述服务器发生故障时,触发错误信号,所述服务器发生故障后不产生系统管理中断SMI,且所述错误信号的优先级不高于其他指令和应用,所述错误信号用于指示基板管理控制器BMC获取所述故障信息;
BMC监测是否有所述错误信号;若监测到所述错误信号,则基于所述错误信号,采用预设数据结构获取所述服务器的故障信息,其中,所述故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种;根据所述故障信息,获取所述服务器的故障解决方案,所述预设数据结构是根据所述故障信息中包括的故障类型确定。
7.一种故障管理装置,其特征在于,包括:
监测模块,用于监测是否有错误信号,其中,所述错误信号是CPU在根据服务器内部的故障信息判断服务器发生故障时触发的,所述服务器发生故障后不产生系统管理中断SMI,且所述错误信号的优先级不高于其他指令和应用,所述错误信号用于指示基板管理控制器BMC获取所述故障信息;
第一获取模块,若监测到所述错误信号,则基于所述错误信号,采用预设数据结构获取服务器的故障信息,其中,所述故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种,所述预设数据结构是根据所述故障信息中包括的故障类型确定;
第二获取模块,用于根据所述故障信息,获取所述服务器的故障解决方案。
8.一种故障管理装置,其特征在于,包括:
判断模块,用于根据服务器内部的故障信息判断服务器是否发生故障;
处理模块,若所述服务器发生故障,则触发错误信号,所述错误信号用于指示BMC在监测到所述错误信号时,基于所述错误信号,采用预设数据结构获取所述服务器的故障信息,并根据所述故障信息,确定所述服务器的故障解决方案,其中,所述故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种,所述服务器发生故障后不产生系统管理中断SMI,且所述错误信号的优先级不高于其他指令和应用,所述预设数据结构是根据所述故障信息中包括的故障类型确定。
9.一种故障管理设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至3中任一项所述的方法。
10.一种故障管理设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求4或5所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的故障管理方法。
CN202010386393.XA 2020-05-09 2020-05-09 故障管理方法、装置、设备及计算机可读存储介质 Active CN111581058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010386393.XA CN111581058B (zh) 2020-05-09 2020-05-09 故障管理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010386393.XA CN111581058B (zh) 2020-05-09 2020-05-09 故障管理方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111581058A CN111581058A (zh) 2020-08-25
CN111581058B true CN111581058B (zh) 2024-03-19

Family

ID=72112103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010386393.XA Active CN111581058B (zh) 2020-05-09 2020-05-09 故障管理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111581058B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816822A (zh) * 2022-05-07 2022-07-29 宝德计算机系统股份有限公司 一种基于内存故障的服务器管理方法、装置以及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506886A (zh) * 2014-12-15 2015-04-08 四川长虹电器股份有限公司 一种故障处理方法及云端服务器
CN108429643A (zh) * 2018-02-28 2018-08-21 郑州云海信息技术有限公司 一种服务器故障管理的方法、装置以及设备
CN108919935A (zh) * 2018-07-12 2018-11-30 浪潮电子信息产业股份有限公司 一种针对于服务器主板上的电源的监测方法、装置及设备
CN109144800A (zh) * 2018-08-27 2019-01-04 郑州云海信息技术有限公司 一种服务器故障信息的收集方法、装置及相关设备
CN109240863A (zh) * 2018-08-30 2019-01-18 郑州云海信息技术有限公司 一种cpu故障定位方法、装置、设备及存储介质
CN109271270A (zh) * 2018-09-26 2019-01-25 郑州云海信息技术有限公司 存储系统中底层硬件的故障排除方法、系统及相关装置
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN109947585A (zh) * 2019-03-13 2019-06-28 西安易朴通讯技术有限公司 Pcie设备故障的处理方法及装置
CN110427303A (zh) * 2019-07-30 2019-11-08 新华三技术有限公司成都分公司 一种故障告警方法及装置
CN110764829A (zh) * 2019-09-21 2020-02-07 苏州浪潮智能科技有限公司 一种多路服务器cpu隔离方法及系统
CN111008091A (zh) * 2019-12-06 2020-04-14 苏州浪潮智能科技有限公司 一种内存ce的故障处理方法、系统及相关装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3121726T3 (en) * 2014-06-24 2018-05-22 Huawei Tech Co Ltd PROCEDURE FOR TROUBLESHOOTING, RELATED DEVICE AND COMPUTER
TW201712543A (zh) * 2015-09-29 2017-04-01 鴻海精密工業股份有限公司 伺服器故障檢測裝置及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506886A (zh) * 2014-12-15 2015-04-08 四川长虹电器股份有限公司 一种故障处理方法及云端服务器
CN108429643A (zh) * 2018-02-28 2018-08-21 郑州云海信息技术有限公司 一种服务器故障管理的方法、装置以及设备
CN108919935A (zh) * 2018-07-12 2018-11-30 浪潮电子信息产业股份有限公司 一种针对于服务器主板上的电源的监测方法、装置及设备
CN109144800A (zh) * 2018-08-27 2019-01-04 郑州云海信息技术有限公司 一种服务器故障信息的收集方法、装置及相关设备
CN109240863A (zh) * 2018-08-30 2019-01-18 郑州云海信息技术有限公司 一种cpu故障定位方法、装置、设备及存储介质
CN109271270A (zh) * 2018-09-26 2019-01-25 郑州云海信息技术有限公司 存储系统中底层硬件的故障排除方法、系统及相关装置
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN109947585A (zh) * 2019-03-13 2019-06-28 西安易朴通讯技术有限公司 Pcie设备故障的处理方法及装置
CN110427303A (zh) * 2019-07-30 2019-11-08 新华三技术有限公司成都分公司 一种故障告警方法及装置
CN110764829A (zh) * 2019-09-21 2020-02-07 苏州浪潮智能科技有限公司 一种多路服务器cpu隔离方法及系统
CN111008091A (zh) * 2019-12-06 2020-04-14 苏州浪潮智能科技有限公司 一种内存ce的故障处理方法、系统及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Antonio Bovenzi ; Francesco Brancati ; Stefano Russo ; Andrea Bondavalli.An OS-level Framework for Anomaly Detection in Complex Software Systems.IEEE Transactions on Dependable and Secure Computing.2014,全文. *
服务器监控技术综述及展望;王慧强;戴秀豪;吕宏武;林俊宇;;计算机科学;20160815(08);全文 *

Also Published As

Publication number Publication date
CN111581058A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
US7917811B2 (en) Virtual computer system
CN104050061B (zh) 一种基于PCIe总线多主控板冗余备份系统
US9026865B2 (en) Software handling of hardware error handling in hypervisor-based systems
EP2518627B1 (en) Partial fault processing method in computer system
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
WO2021071648A1 (en) Baseboard management controller that initiates a diagnostic operation to collect host information
US9916273B2 (en) Sideband serial channel for PCI express peripheral devices
CN111581058B (zh) 故障管理方法、装置、设备及计算机可读存储介质
US8793538B2 (en) System error response
JP7151637B2 (ja) 情報処理装置、情報処理装置の制御方法及び情報処理装置の制御プログラム
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
US8028189B2 (en) Recoverable machine check handling
WO2008004330A1 (fr) Système à processeurs multiples
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
CN111104266A (zh) 访问资源的分配方法、装置、存储介质和电子设备
JP2009217435A (ja) 制御方法、情報処理装置及びストレージシステム
US10089200B2 (en) Computer apparatus and computer mechanism
CN113434324A (zh) 异常信息获取方法、系统、设备及存储介质
JP5440673B1 (ja) プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム
US9639438B2 (en) Methods and systems of managing an interconnection
WO2023160378A1 (zh) 存储设备、存储方法、计算设备及存储介质
US20120331334A1 (en) Multi-cluster system and information processing system
CN115292100A (zh) 数据库故障处理方法、装置、电子设备及存储介质
CN116610481A (zh) 故障诊断方法、装置、计算机设备、存储介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant