CN116737505A

CN116737505A - 设备故障信息的收集方法、装置、设备及存储介质

Info

Publication number: CN116737505A
Application number: CN202310785569.2A
Authority: CN
Inventors: 袁迎春; 陆颖杰; 赵海斌; 田阳松; 刘炜杰
Original assignee: Xi'an Dongqin Technology Co ltd
Current assignee: Xi'an Dongqin Technology Co ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-12

Abstract

本申请提供一种设备故障信息的收集方法、装置、设备及存储介质，在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过NMI收集操作系统的环境信息，向BMC发送通信恢复请求和环境信息，根据通信恢复请求恢复与业务服务器之间的通信，若与BMC之间的通信恢复正常，则通过NMI向BMC发送控制指令，最后根据控制指令收集中央处理器CPU的寄存器信息，并将CPU的寄存器信息和环境信息上报至日志服务器，针对非灾难性设备故障，实现了CPU的寄存器信息以及操作系统环境信息的收集，使得收集到的错误信息更完整，进而降低了产生灾难性设备故障的风险。

Description

设备故障信息的收集方法、装置、设备及存储介质

技术领域

本申请涉及服务器技术领域，尤其涉及一种设备故障信息的收集方法、装置、设备及存储介质。

背景技术

随着IT业务系统的发展，越来越多的硬件资源投入使用。相比于以往的资源不足时代，当前基本都是资源过剩的状态，基础资源性能已不是最大的问题。现在用户更多关心的是硬件的状态。比如硬盘、内存条、风扇、电源是否有故障。因为这些基础部件大多做了冗余设计，坏掉一个可能从操作系统层面无法察觉，但已埋下隐患。

传统对于服务器的运维场景是需要大量的人员频繁进出机房观察设备状态指示灯进行巡检记录。对于服务器出现不同的故障时，服务器通常可采集的错误信息不同，例如服务器出现非灾难性设备故障时，基本输入输出系统只能将SEL上报给控制管理器，不能获取其他的错误信息用于对故障问题分析。

综上所述，在出现非灾难性设备故障时，如何完善的收集错误信息进行设备故障问题精准定位分析是本领域亟需解决的难题。

发明内容

本申请提供一种设备故障信息的收集方法、装置、设备及存储介质，用以解决在出现非灾难性设备故障时，如何完善的收集错误信息进行设备故障问题精准定位分析的问题。

第一方面，本申请提供一种设备故障信息的收集方法，应用于业务服务器，包括：

在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过所述NMI收集操作系统的环境信息，所述环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息；

向所述BMC发送通信恢复请求和所述环境信息，所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信；

若与所述BMC之间的通信恢复正常，则通过所述NMI向所述BMC发送控制指令，所述控制指令用于指示所述BMC收集故障信息，所述控制指令包括信息抓取指令，信息存储指令，网络状态检测指令。

结合第一方面，在一些实施例中，所述方法还包括：

检测所述操作系统的Dmesg命令中是否存在未处理的故障信息；

若所述Dmesg命令中存在未处理的故障信息，则向所述BMC发送健康状态检测请求，所述健康状态检测请求用于指示所述BMC检测其访问状态；

接收所述BMC发送的所述访问状态，所述访问状态包括访问正常或访问异常；

若所述访问状态为访问异常，则确定触发所述NMI处理；

若所述访问状态为访问正常，则确定不触发所述NMI处理。

结合第一方面，在一些实施例中，所述向所述BMC发送通信恢复请求之后，所述方法还包括：

接收所述BMC返回的通信恢复结果，所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。

结合第一方面，在一些实施例中，所述方法还包括：

若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常，则向所述BMC发送强制通信指令，所述强制通信指令为重启指令，切换指令，升级指令中任一个。

第二方面，本申请提供一种设备故障信息的收集方法，应用于管理控制器BMC，包括：

在访问状态异常时，接收业务服务器发送的通信恢复请求和环境信息，所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信，所述环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息；

根据所述通信恢复请求恢复与所述业务服务器之间的通信；

在与所述业务服务器之间的通信恢复正常后，接收所述业务服务器发送的控制指令，所述控制指令包括信息抓取指令，信息存储指令，网络状态检测指令；

根据所述控制指令收集中央处理器CPU的寄存器信息，并将所述CPU的寄存器信息和所述环境信息上报至日志服务器。

结合第二方面，在一些实施例中，所述根据所述控制指令收集中央处理器CPU的寄存器信息，并将所述CPU的寄存器信息和所述环境信息上报至日志服务器，包括：

根据所述网络状态检测指令，确定网络状态是否正常；

若所述网络状态正常，则根据所述信息抓取指令以及预设的信息抓取策略，抓取所述CPU的寄存器信息，所述信息抓取策略包括对硬件不能自动恢复的错误抓取所述CPU的寄存器信息；

根据所述信息存储指令，将所述CPU的寄存器信息以及所述环境信息上传至日志服务器。

结合第二方面，在一些实施例中，所述方法还包括：

若所述网络状态不正常，则根据所述信息抓取指令，抓取非易失区域中的所述CPU的寄存器信息；

根据所述信息存储指令，将所述CPU的寄存器信息和所述环境信息保存在本地硬盘。

结合第二方面，在一些实施例中，所述根据所述通信恢复请求恢复与所述业务服务器之间的通信之后，所述方法还包括：

向所述业务服务器发送通信恢复结果，所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。

结合第二方面，在一些实施例中，所述方法还包括：

若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常，则接收所述业务服务器发送的强制通信指令，所述强制通信指令为重启指令，切换指令，升级指令中任一个；

执行所述强制通信指令以恢复与所述业务服务器之间的通信。

结合第二方面，在一些实施例中，在所述接收业务服务器发送的通信恢复请求之前，所述方法还包括：

接收所述业务服务器发送的健康状态检测请求；

根据所述健康状态检测请求检测获取访问状态，所述访问状态包括访问正常或访问异常；

向所述业务服务器发送所述访问状态。

第三方面，本申请提供一种设备故障信息的收集装置，包括：

信息收集模块，用于在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过所述NMI收集操作系统的环境信息，所述环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息；

第一发送模块，用于向所述BMC发送通信恢复请求和所述环境信息，所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信；

第二发送模块，用于若与所述BMC之间的通信恢复正常，则通过所述NMI向所述BMC发送控制指令，所述控制指令用于指示所述BMC收集故障信息，所述控制指令包括信息抓取指令，信息存储指令，网络状态检测指令。

结合第三方面，在一些实施例中，所述装置还包括：

检测模块，用于检测所述操作系统的Dmesg命令中是否存在未处理的故障信息；

第三发送模块，用于若所述Dmesg命令中存在未处理的故障信息，则向所述BMC发送健康状态检测请求，所述健康状态检测请求用于指示所述BMC检测其访问状态；

第一接收模块，用于接收所述BMC发送的所述访问状态，所述访问状态包括访问正常或访问异常；

第一确定模块，用于若所述访问状态为访问异常，则确定触发所述NMI处理；

第二确定模块，用于若所述访问状态为访问正常，则确定不触发所述NMI处理。

结合第三方面，在一些实施例中，所述装置还包括：

第二接收模块，用于接收所述BMC返回的通信恢复结果，所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。

结合第三方面，在一些实施例中，所述装置还包括：

第四发送模块，用于若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常，则向所述BMC发送强制通信指令，所述强制通信指令为重启指令，切换指令，升级指令中任一个。

第四方面，本申请提供一种设备故障信息的收集装置，包括：

第一接收模块，用于在访问状态异常时，接收业务服务器发送的通信恢复请求和环境信息，所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信，所述环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息；

通信恢复模块，用于根据所述通信恢复请求恢复与所述业务服务器之间的通信；

第二接收模块，用于在与所述业务服务器之间的通信恢复正常后，接收所述业务服务器发送的控制指令，所述控制指令包括信息抓取指令，信息存储指令，网络状态检测指令；

信息上报模块，用于根据所述控制指令收集中央处理器CPU的寄存器信息，并将所述CPU的寄存器信息和所述环境信息上报至日志服务器。

结合第四方面，在一些实施例中，所述信息上报模块，包括：

确定单元，用于根据所述网络状态检测指令，确定网络状态是否正常；

第一抓取单元，用于若所述网络状态正常，则根据所述信息抓取指令以及预设的信息抓取策略，抓取所述CPU的寄存器信息，所述信息抓取策略包括对硬件不能自动恢复的错误抓取所述CPU的寄存器信息；

第一存储单元，用于根据所述信息存储指令，将所述CPU的寄存器信息以及所述环境信息上传至日志服务器。

结合第四方面，在一些实施例中，所述信息上报模块，还包括：

第二抓取单元，用于若所述网络状态不正常，则根据所述信息抓取指令，抓取非易失区域中的所述CPU的寄存器信息；

第二存储单元，用于根据所述信息存储指令，将所述CPU的寄存器信息和所述环境信息保存在本地硬盘。

结合第四方面，在一些实施例中，所述装置还包括：

第一发送模块，用于向所述业务服务器发送通信恢复结果，所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。

结合第四方面，在一些实施例中，所述装置还包括：

第三接收模块，用于若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常，则接收所述业务服务器发送的强制通信指令，所述强制通信指令为重启指令，切换指令，升级指令中任一个；

指令执行模块，用于执行所述强制通信指令以恢复与所述业务服务器之间的通信。

结合第四方面，在一些实施例中，所述装置还包括：

第四接收模块，用于接收所述业务服务器发送的健康状态检测请求；

获取模块，用于根据所述健康状态检测请求检测获取访问状态，所述访问状态包括访问正常或访问异常；

第二发送模块，用于向所述业务服务器发送所述访问状态。

第五方面，本申请提供一种业务服务器，包括：

存储器、处理器、通信接口；

所述存储器存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，使得所述业务服务器执行如第一方面所述的设备故障信息的收集方法。

第六方面，本申请提供一种管理控制器BMC，包括：

存储器、处理器、通信接口；

所述存储器存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，使得所述管理控制器BMC执行第二方面所述的设备故障信息的收集方法。

第七方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述任一方面所述的设备故障信息的收集方法。

本申请提供的设备故障信息的收集方法、装置、设备及存储介质，在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过NMI收集操作系统的环境信息，向BMC发送通信恢复请求和环境信息，根据通信恢复请求恢复与业务服务器之间的通信，若与BMC之间的通信恢复正常，则通过NMI向BMC发送控制指令，最后根据控制指令收集中央处理器CPU的寄存器信息，并将CPU的寄存器信息和环境信息上报至日志服务器，针对于非灾难性设备故障，实现了CPU的寄存器信息以及操作系统环境信息的收集，使得收集的错误信息完整性更高，进而降低了产生灾难性设备故障的风险。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的设备故障信息的收集方法的应用场景图；

图2为本申请提供的设备故障信息的收集方法实施例一的流程示意图；

图3为本申请提供的设备故障信息的收集方法实施例二的流程示意图；

图4为本申请提供的设备故障信息的收集方法实施例三的流程示意图；

图5为本申请提供的设备故障信息的收集方法实施例四的流程示意图；

图6为本申请实施例提供的设备故障信息的收集装置实施例一的结构示意图；

图7为本申请实施例提供的设备故障信息的收集装置实施例二的结构示意图；

图8为本申请实施例提供的设备故障信息的收集装置实施例三的结构示意图；

图9为本申请实施例提供的设备故障信息的收集装置实施例四的结构示意图；

图10为本申请实施例提供的设备故障信息的收集装置实施例五的结构示意图；

图11为本申请实施例提供的业务服务器的结构示意图；

图12为本申请实施例提供的管理控制器BMC的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

随着社会的进步，企业信息化的不断提升，服务器设备的重要性越来越高，尤其涉及到大型企业的正常运转和信息安全，对于基础部件出现故障，操作系统可能无法察觉到故障，进而埋下隐患，传统对于服务器的运维场景是需要大量的人员频繁进出机房观察设备状态指示灯进行巡检记录。对于服务器出现不同的故障时，服务器通常可采集的错误信息不同，例如当服务器出现了灾难性的设备故障，管理控制器(Baseboard ManagementController，BMC)会抓取中央处理器(Central Processing Unit，CPU)的寄存器信息，将CPU的寄存器信息保存在BMC的易失或非易失区域，当出现内核错误的时候，用户可以主动触发不可屏蔽中断(Non Maskable Interrupt，NMI)去收集操作系统的环境信息，当服务器出现非灾难性设备故障时，基本输入输出系统只能将SEL上报给控制管理器，不能获取其他的信息用于对故障问题分析，然而非灾难性设备故障同样会破坏业务环境，灾难性设备故障大部分是发生在频繁的非灾难性设备故障之后，因此在出现非灾难性设备故障时，如何完善的收集错误信息进行设备故障问题精准定位分析是本领域亟需解决的难题。

针对上述问题，本申请提供的设备故障信息的收集方法、装置、设备及存储介质，实现了在出现非灾难性设备故障时，完整错误信息的收集。具体的，当服务器出现非灾难性设备故障时，基本输入输出系统只能将SEL上报给控制管理器，不能获取其他的信息用于对故障问题分析，这样不能降低后期会出现灾难性设备故障的风险，考虑到这些问题，发明人研究了是否可以在出现非灾难性设备故障时，通过自动触发NMI处理，获取更完整的错误信息，基于此，提出本申请的技术方案。

图1为本申请实施例提供的设备故障信息的收集方法的应用场景图，如图1所示，本申请实施例提供的设备故障信息的收集方法主要应用于对设备故障信息收集的场景，此场景至少包括服务器设备，BMC，日志服务器，其中，服务器设备配置有可与BMC进行通信的模块以及可实现硬件资源管理的操作系统(OS)。BMC配置有用于错误信息抓取的模块，对故障进行监测的模块，并且BMC可实现与服务器设备，日志服务器进行数据通信。日志服务器配置有显示屏，在接收到BMC上传的信息后，可将信息展示在显示屏上以供工作人员查看。本场景中还可以包括可编程逻辑器件(Complex Programmable Logic Device，CPLD)，可以作为服务器设备与BMC进行通信的通道。

本申请对于以上实体设备的具体类型和形态均不做具体限定。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请提供的设备故障信息的收集方法实施例一的流程示意图，如图2所示，具体包括以下步骤：

S101：在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过NMI收集操作系统的环境信息。

在本步骤中，为了在产生非灾难性设备故障时，能够收集更加全面完整的错误信息，进而能够降低发生灾难性设备故障的风险，在接收到BMC发送的访问状态时触发NMI处理，进而业务处理器通过NMI收集操作系统的环境信息，环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息，可选的，环境信息还可以包括设备信息，微码信息，显示系统启动信息，CPU信息等。

具体的，业务服务器通过向CPLD发送触发NIM请求，进而CPLD将触发NMI请求转发给CPU。CPU接收到触发NMI请求后生成NMI响应，并将NMI响应返回CPLD，CPLD接收到CPU返回的NMI响应后，将NMI响应返回至业务服务器。

S102：向BMC发送通信恢复请求和环境信息。

在本步骤中，在上述步骤中，BMC访问状态为访问异常时触发NMI处理，由于BMC访问状态为访问异常，说明业务服务器与BMC无法进行通信，因此不能通过BMC去抓取更完整的错误信息，为了能够获得更完整的错误信息，业务服务器向BMC发送通信恢复请求和环境信息。具体的，业务服务器向BMC发送通信恢复请求和环境信息的过程均通过CPLD进行发送。

S103：根据通信恢复请求恢复与业务服务器之间的通信。

在本步骤中，BMC在接收到业务服务器发送的通信恢复请求后，为了能够与业务服务器进行正常通信，则根据通信恢复请求，对自身检测修复，恢复与业务服务器之间的通信。

具体的，通过重新分配计算机服务(Kuwait Computer Services，KCS)接口资源对BMC与业务服务器的通信进行恢复。

S104：若与BMC之间的通信恢复正常，则通过NMI向BMC发送控制指令。

在本步骤中，通过重新分配KCS接口资源对BMC与业务服务器的通信进行恢复，若业务服务器与BMC之间的通信恢复正常，说明此时业务服务器与BMC可以进行数据通信，为了能抓取完整的错误信息，业务服务器控制NMI向BMC发送控制指令，其中，控制指令用于指示BMC收集故障信息，控制指令具体包括信息抓取指令，信息存储指令，网络状态检测指令。

S105：根据控制指令收集中央处理器CPU的寄存器信息，并将CPU的寄存器信息和环境信息上报至日志服务器。

在本步骤中，当BMC接收到业务服务器发送的控制指令后，根据控制指令抓取CPU的寄存器信息，并将CPU的寄存器信息和环境信息上报至日志服务器。

具体的，根据网络状态检测指令，确定网络状态是否正常，若BMC的网络状态正常，则根据信息抓取指令以及预设的信息抓取策略，抓取CPU的寄存器信息，根据信息存储指令，将CPU的寄存器信息以及环境信息上传至日志服务器。若BMC的网络状态不正常，则根据信息抓取指令，抓取非易失区域中的CPU的寄存器信息，根据信息存储指令，将CPU的寄存器信息和环境信息保存在本地硬盘。

本实施例提供的设备故障信息的收集方法，在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过NMI收集操作系统的环境信息，向BMC发送通信恢复请求和环境信息，根据通信恢复请求恢复与业务服务器之间的通信，若与BMC之间的通信恢复正常，则通过NMI向BMC发送控制指令，则根据控制指令收集中央处理器CPU的寄存器信息，并将CPU的寄存器信息和环境信息上报至日志服务器，针对于非灾难性设备故障，实现了CPU的寄存器信息以及操作系统环境信息的收集，使得收集的错误信息完整性更高，进而降低了产生灾难性设备故障的风险。

图3为本申请提供的设备故障信息的收集方法实施例二的流程示意图，如图3所示，在实施例一的基础上，本申请提供的设备故障信息的收集方法，还包括：

S106：检测操作系统的Dmesg命令中是否存在未处理的故障信息。

在本步骤中，在进行设备故障错误信息收集之前，需要先确定服务器设备是否有设备故障，在业务服务器系统运行后，检测操作系统的Dmesg命令中是否存在未处理的故障信息，其中Dmesg命令为系统启动后的启动信息。

在一种具体的实施方式中，业务服务器可配置显示屏和扬声器，在业务服务器系统运行后，启动信息会显示在显示屏上，若启动信息中含有未处理的故障信息，则可通过在显示屏上进行弹屏的方式供工作人员查看，也可通过扬声器发出警报声提醒含有未处理的故障信息，本申请对于Dmesg命令中含有未处理故障信息的查看方式不做具体限定。

S107：若Dmesg命令中存在未处理的故障信息，则向BMC发送健康状态检测请求。

在本步骤中，经过查看Dmesg命令，若Dmesg命令中存在未处理的故障信息，为了能够将故障尽快修复，需要对故障进行定位分析，此时为了实现准确的故障分析，需要通过BMC进行错误信息收集，则需要保障BMC可以正常访问通信，所以需要业务服务器向BMC发送健康状态检测请求，其中，健康状态检测请求用于指示BMC检测其访问状态。

S108：根据健康状态检测请求检测获取访问状态。

在本步骤中，BMC在接收到上述步骤业务服务器发送的健康状态检测请求后，根据健康状态检测请求，检测自身的访问状态，其中，访问状态包括访问正常或访问异常。

具体的，若访问状态为访问正常，则说明业务服务器和BMC可进行通信，若访问状态为访问异常，则说明业务服务器和BMC不能进行正常通信。

S109：向业务服务器发送访问状态。

在本步骤中，BMC在检测到自身访问状态后，将访问状态发送至业务服务器，业务服务器接收BMC发送的访问状态。

S110：若访问状态为访问异常，则确定触发NMI处理。

在本步骤中，经过BMC检测自身访问状态，若访问状态异常，说明此时业务服务器与BMC不能正常通信，则BMC不能根据业务服务器的指令进行错误信息抓取，为了能够抓取到更多的错误信息，降低出现灾难性设备故障的风险，业务服务器根据访问状态为访问异常触发NMI处理。

具体的，NMI是一种不可屏蔽的紧急中断，当触发NMI处理后，CPU会立即响应，暂停所有的中断和任务，转而执行NMI服务程序。并且NMI中断不可以被屏蔽。

S111：若访问状态为访问正常，则确定不触发NMI处理。

在本步骤中，经过BMC检测自身访问状态，若访问状态正常，说明此时业务服务器与BMC能正常通信，BMC可以接收业务服务器的指令进行信息抓取，则确定不触发NMI处理。

本实施例提供的设备故障信息的收集方法，检测操作系统的Dmesg命令中是否存在未处理的故障信息，若Dmesg命令中存在未处理的故障信息，则向BMC发送健康状态检测请求，根据健康状态检测请求检测获取访问状态，向业务服务器发送访问状态，若访问状态为访问异常，则确定触发NMI处理，若访问状态为访问正常，则确定不触发NMI处理，通过在BMC访问状态异常的情况下，自动触发NMI处理，实现了在出现非灾难性设备故障的情况下，对操作系统环境信息的收集，从而使得错误信息收集更加完整，降低了故障风险，使得后续对故障问题的定位和分析更加准确。

图4为本申请提供的设备故障信息的收集方法实施例三的流程示意图，如图4所示，在实施例一的基础上，本申请提供的设备故障信息的收集方法，还包括：

S112：向业务服务器发送通信恢复结果。

在本步骤中，通过前述实施例中的描述，在BMC接收到业务服务器发送的通信恢复请求和环境信息后，BMC通过自身检测，尝试与业务服务器恢复通信，同时生成通信恢复结果，并将通信恢复结果发送至业务服务器。

具体的，通信恢复结果指示业务服务器与BMC之间的通信未恢复正常或者是指示业务服务器与BMC之间的通信恢复正常。

S113：若通信恢复结果指示业务服务器与BMC之间的通信未恢复正常，则向BMC发送强制通信指令。

在本步骤中，业务服务器接收到BMC发送的通信恢复结果后，根据通信恢复结果确定是否可以与BMC进行正常的通信，若通信恢复结果指示业务服务器与BMC之间的通信未恢复正常，说明此时不能通过BMC进行信息抓取，为了能够正常实现信息抓取，业务服务器向BMC发送强制通信指令，使BMC能够正常通信，其中，强制通信指令为重启指令，切换指令，升级指令中的任一个。

具体的，强制通信指令中的重启指令和切换指令均需通过CPLD执行，切换指令为切换备份BMC的指令。

本实施例提供的设备故障信息的收集方法，向业务服务器发送通信恢复结果，若通信恢复结果指示业务服务器与BMC之间的通信未恢复正常，则向BMC发送强制通信指令，通过强制指令恢复业务服务器与BMC的通信，实现了完整错误信息的收集，降低了灾难性设备故障的产生。

图5为本申请提供的设备故障信息的收集方法实施例四的流程示意图，如图5所示，步骤S105具体包括：

S1051：根据网络状态检测指令，确定网络状态是否正常。

在本步骤中，在出现非灾难性设备故障时，有可能会出现服务器掉电的情况，若出现了服务器掉电，此时BMC网络状态会失效，对于获取错误信息有影响，因此在接收到业务服务器发送的控制指令后，根据控制指令中的网络状态检测指令，检测自身网络状态是否是正常的。

具体的，若检测到网络状态正常，则按照网络状态正常的信息抓取方式进行信息抓取，若网络不正常，为了避免数据包被清理，则按照网络状态不正常的信息抓取方式进行信息抓取。

S1052：若网络状态正常，则根据信息抓取指令以及预设的信息抓取策略，抓取CPU的寄存器信息。

在本步骤中，通过上述步骤中根据网络状态检测指令进行自身网络状态检测，若网络状态正常，说明此时BMC可以正常与外界其他设备进行通信，此时为了能够获取完整的错误信息，直接根据信息抓取指令以及预设的信息抓取策略，抓取CPU的寄存器信息。其中，信息抓取策略包括对硬件不能自动恢复的错误抓取CPU的寄存器信息。

具体的，在网络状态正常的情况下，非灾难性设备故障可能为硬件不能自动恢复的错误，也有可能为硬件可自动恢复的错误，而硬件可自动恢复的错误可通过硬件自我修复进行恢复，为了节省人力物力，工作人员可忽略此错误，因此信息抓取策略可设定为不管是出现硬件不能自动恢复的错误，还是硬件能自动恢复的错误，都进行CPU的寄存器信息抓取，也可以将信息抓取策略设定为出现硬件能自动恢复的错误，可不对CPU的寄存器信息抓取。在对CPU的寄存器信息抓取过程中，BMC可根据电脑总线通道与CPU进行通信，可向CPU发送CPU的寄存器信息获取请求，CPU根据CPU的寄存器信息获取请求，收集自身的CPU的寄存器信息，并发送至BMC。

S1053：根据信息存储指令，将CPU的寄存器信息以及环境信息上传至日志服务器。

在本步骤中，为了能够对故障问题定位分析，及时止损，在上述步骤抓取了CPU的寄存器信息后，根据业务服务器发送的控制指令中的信息存储指令将CPU的寄存器信息和环境信息上传到日志服务器中。

具体的，将CPU的寄存器信息以及环境信息上传至日志服务器后，工作人员可在日志服务器中获取CPU的寄存器信息以及环境信息，并根据上述信息进行故障问题的定位和分析，进而采取解决措施，降低损失，并且避免出现灾难性设备故障。

S1054：若网络状态不正常，则根据信息抓取指令，抓取非易失区域中的CPU的寄存器信息。

在本步骤中，通过前述步骤根据网络状态检测指令，检测网络状态，若网络状态不正常，则说明BMC和外界设备不能进行通信，而在BMC正常工作时，会实时抓取CPU的寄存器信息存储在自身的非易失区域中，此时根据信息抓取指令，抓取非易失区域中的CPU的寄存器信息。

S1055：根据信息存储指令，将CPU的寄存器信息和环境信息保存在本地硬盘。

在本步骤中，通过上述步骤对BMC自身的非易失区域中CPU的寄存器信息的抓取，为了能够实现对故障问题的定位和分析，将CPU的寄存器信息和环境信息保存在本地硬盘，工作人员可根据本地硬盘中的信息对故障进行分析。

本实施例提供的设备故障信息的收集方法，根据网络状态检测指令，确定网络状态是否正常，若网络状态正常，则根据信息抓取指令以及预设的信息抓取策略，抓取CPU的寄存器信息，并根据信息存储指令，将CPU的寄存器信息以及环境信息上传至日志服务器。若网络状态不正常，则根据信息抓取指令，抓取非易失区域中的CPU的寄存器信息，进而根据信息存储指令，将CPU的寄存器信息和环境信息保存在本地硬盘，通过对BMC网络状态的检测，进而确实抓取CPU的寄存器信息的具体方式，从而实现了CPU的寄存器信息精准抓取，使得错误信息更加完整。

图6为本申请实施例提供的设备故障信息的收集装置实施例一的结构示意图，如图6所示，本申请实施例提供的设备故障信息的收集装置200包括：

信息收集模块201，用于在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时，通过NMI收集操作系统的环境信息，环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息。

第一发送模块202，用于向BMC发送通信恢复请求和环境信息，通信恢复请求用于请求恢复业务服务器与BMC之间的通信。

第二发送模块203，用于若与BMC之间的通信恢复正常，则通过NMI向BMC发送控制指令，控制指令用于指示BMC收集故障信息，控制指令包括信息抓取指令，信息存储指令，网络状态检测指令。

图7为本申请实施例提供的设备故障信息的收集装置实施例二的结构示意图，如图7所示，设备故障信息的收集装置200还包括：

检测模块204，用于检测操作系统的Dmesg命令中是否存在未处理的故障信息。

第三发送模块205，用于若Dmesg命令中存在未处理的故障信息，则向BMC发送健康状态检测请求，健康状态检测请求用于指示BMC检测其访问状态。

第一接收模块206，用于接收BMC发送的访问状态，访问状态包括访问正常或访问异常。

第一确定模块207，用于若访问状态为访问异常，则确定触发NMI处理。

第二确定模块208，用于若访问状态为访问正常，则确定不触发NMI处理。

第二接收模块209，用于接收BMC返回的通信恢复结果，通信恢复结果用于指示业务服务器与BMC之间的通信是否恢复正常。

第四发送模块210，用于若通信恢复结果指示业务服务器与BMC之间的通信未恢复正常，则向BMC发送强制通信指令，强制通信指令为重启指令，切换指令，升级指令中任一个。

前述任一实施例提供的设备故障信息的收集装置，用于执行前述各方法实施例中业务服务器侧的技术方案，其实现原理和技术效果类似，在此不再赘述。

图8为本申请实施例提供的设备故障信息的收集装置实施例三的结构示意图，如图8所示，本申请实施例提供的设备故障信息的收集装置300，包括：

第一接收模块301，用于在访问状态异常时，接收业务服务器发送的通信恢复请求和环境信息，通信恢复请求用于请求恢复业务服务器与BMC之间的通信，环境信息包括内存信息，硬盘信息，电源信息，风扇信息，温度信息。

通信恢复模块302，用于根据通信恢复请求恢复与业务服务器之间的通信。

第二接收模块303，用于在与业务服务器之间的通信恢复正常后，接收业务服务器发送的控制指令，控制指令包括信息抓取指令，信息存储指令，网络状态检测指令。

信息上报模块304，用于根据控制指令收集中央处理器CPU的寄存器信息，并将CPU的寄存器信息和环境信息上报至日志服务器。

图9为本申请实施例提供的设备故障信息的收集装置实施例四的结构示意图，如图9所示，信息上报模块304，包括：

确定单元3041，用于根据网络状态检测指令，确定网络状态是否正常。

第一抓取单元3042，用于若网络状态正常，则根据信息抓取指令以及预设的信息抓取策略，抓取CPU的寄存器信息，信息抓取策略包括对硬件不能自动恢复的错误抓取CPU的寄存器信息。

第一存储单元3043，用于根据信息存储指令，将CPU的寄存器信息以及环境信息上传至日志服务器。

第二抓取单元3044，用于若网络状态不正常，则根据信息抓取指令，抓取非易失区域中的CPU的寄存器信息。

第二存储单元3045，用于根据信息存储指令，将CPU的寄存器信息和环境信息保存在本地硬盘。

图10为本申请实施例提供的设备故障信息的收集装置实施例五的结构示意图，如图10所示，设备故障信息的收集装置300还包括：

第一发送模块305，用于向业务服务器发送通信恢复结果，通信恢复结果用于指示业务服务器与BMC之间的通信是否恢复正常。

第三接收模块306，用于若通信恢复结果指示业务服务器与BMC之间的通信未恢复正常，则接收业务服务器发送的强制通信指令，强制通信指令为重启指令，切换指令，升级指令中任一个。

指令执行模块307，用于执行强制通信指令以恢复与业务服务器之间的通信。

第四接收模块308，用于接收业务服务器发送的健康状态检测请求。

获取模块309，用于根据健康状态检测请求检测获取访问状态，访问状态包括访问正常或访问异常。

第二发送模块310，用于向业务服务器发送访问状态。

前述任一实施例提供的设备故障信息的收集装置，用于执行前述各方法实施例中管理控制器BMC侧的技术方案，其实现原理和技术效果类似，在此不再赘述。

图11为本申请实施例提供的业务服务器的结构示意图，如图11所示，业务服务器400包括：存储器401，处理器402，通信接口403；

存储器401存储计算机执行指令。

处理器402执行存储器存储的计算机执行指令，以实现上述实施例中业务服务器执行的设备故障信息的收集方法。

通信接口403用于实现与管理控制器BMC通信连接。

本实施例提供的业务服务器，用于执行前述任一方法实施例中业务服务器侧的技术方案，其实现原理和技术效果类似，在此不再赘述。

图12为本申请实施例提供的管理控制器BMC的结构示意图，如图12所示，管理控制器BMC500包括：存储器501，处理器502，通信接口503；

存储器501存储计算机执行指令。

处理器502执行存储器存储的计算机执行指令，以实现上述实施例中管理控制器BMC执行的设备故障信息的收集方法。

通信接口503用于实现与业务服务器，日志服务器通信连接。

应理解，处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(read-only memory，ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。

本实施例提供的管理控制器BMC，用于执行前述任一方法实施例中管理控制器BMC侧的技术方案，其实现原理和技术效果类似，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现任一项实施例中的方法。

上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器，电可擦除可编程只读存储器，可擦除可编程只读存储器，可编程只读存储器，只读存储器，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。可选的，将可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits，ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，至少一个处理器可以从该计算机可读存储介质中读取该计算机程序，至少一个处理器执行计算机程序时可实现上述任一方法实施例提供的技术方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种设备故障信息的收集方法，其特征在于，应用于业务服务器，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述访问状态为访问异常，则确定触发所述NMI处理；

若所述访问状态为访问正常，则确定不触发所述NMI处理。

3.根据权利要求1或2所述的方法，其特征在于，所述向所述BMC发送通信恢复请求之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种设备故障信息的收集方法，其特征在于，应用于管理控制器BMC，包括：

根据所述通信恢复请求恢复与所述业务服务器之间的通信；

6.根据权利要求5所述的方法，其特征在于，所述根据所述控制指令收集中央处理器CPU的寄存器信息，并将所述CPU的寄存器信息和所述环境信息上报至日志服务器，包括：

根据所述网络状态检测指令，确定网络状态是否正常；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求5至7任一项所述的方法，其特征在于，所述根据所述通信恢复请求恢复与所述业务服务器之间的通信之后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求5至7任一项所述的方法，其特征在于，在所述接收业务服务器发送的通信恢复请求之前，所述方法还包括：

接收所述业务服务器发送的健康状态检测请求；

向所述业务服务器发送所述访问状态。

11.一种设备故障信息的收集装置，其特征在于，包括：

12.一种设备故障信息的收集装置，其特征在于，包括：

13.一种业务服务器，其特征在于，包括：

存储器、处理器、通信接口；

所述存储器存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，使得所述业务服务器执行如权利要求1至4任一项所述的设备故障信息的收集方法。

14.一种管理控制器BMC，其特征在于，包括：

存储器、处理器、通信接口；

所述存储器存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，使得所述管理控制器BMC执行如权利要求5至10任一项所述的设备故障信息的收集方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至10任一项所述的设备故障信息的收集方法。