CN114356708A - 一种设备故障监控方法、装置、设备及可读存储介质 - Google Patents

一种设备故障监控方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114356708A
CN114356708A CN202111660442.5A CN202111660442A CN114356708A CN 114356708 A CN114356708 A CN 114356708A CN 202111660442 A CN202111660442 A CN 202111660442A CN 114356708 A CN114356708 A CN 114356708A
Authority
CN
China
Prior art keywords
fault
trigger signal
state
signal
state register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111660442.5A
Other languages
English (en)
Inventor
黄帅
朱英澍
梁盛楠
曹风兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111660442.5A priority Critical patent/CN114356708A/zh
Publication of CN114356708A publication Critical patent/CN114356708A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种设备故障监控方法、装置、设备及可读存储介质,基板管理控制器在接收到故障触发信号时,不直接生成故障日志,而是收集与故障触发信号关联的状态寄存器的状态值,并根据故障触发信号和状态寄存器的状态值,生成故障分析日志。通过根据故障触发信号与状态寄存器的关联关系,获取与故障触发信号关联的状态寄存器的状态值,能够对生成故障触发信号时对应的故障场景进行充分描述。即使是同样的故障触发信号,其触发时对应的状态寄存器的状态值也可能会有区别,通过故障分析日志同时记录故障触发信号和与其关联的状态寄存器的状态值,方便用户以及运维人员更加清楚全面的了解故障情况,减少误判几率,有效提高设备故障监控的准确性。

Description

一种设备故障监控方法、装置、设备及可读存储介质
技术领域
本申请涉及服务器监控技术领域,特别是涉及一种设备故障监控方法、装置、设备及可读存储介质。
背景技术
基板管理控制器(Baseboard Manager Controller,BMC)可以提供服务器或交换机的平台管理功能。平台管理表示的是一系列的监控和控制功能,操作的对象是硬件系统。比如通过监控系统的温度、电压、风扇、电源等,并做相应的调节工作,以保证系统处于健康的状态;如果系统出现无法调节的故障,也可以通过基板管理控制器对系统进行复位动作来重新启动系统。
与此同时,基板管理控制器还有一个非常重要的功能,就是在平台管理的同时,负责记录各种硬件的信息和日志记录,以向用户汇报硬件运行状态、提示异常、故障的存在,并为后续进行故障问题定位提供依据。该功能对于系统故障定位起到非常重要的作用。
但是,现有大部分基于x86平台的基板管理控制器的故障诊断方案,通常是监控特定的故障引脚(Error Pin)、中央处理器(Central Processing Unit,CPU)的故障寄存器以及电源状态字来记录故障日志,通过系统(SEL)日志进行汇总,并按照Intel协议生成加密日志。由此导致生成的故障日志能够覆盖的故障场景有限,且得到的故障结果完全依赖于各故障寄存器的可靠性,有时会因为故障寄存器的误判而记录错误的故障日志,进而影响到运维工作。
发明内容
本申请的目的是提供一种设备故障监控方法、装置、设备及可读存储介质,用于提高基板管理控制器的故障日志的可用性,避免因故障寄存器的误判生成的错误的故障日志影响到运维工作,有效提高设备故障监控的准确性。
为解决上述技术问题,本申请提供一种设备故障监控方法,基于基板管理控制器,包括:
当接收到故障触发信号时,收集与所述故障触发信号关联的状态寄存器的状态值;
根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志。
可选的,所述收集与所述故障触发信号关联的状态寄存器的状态值,具体为:
向中央处理器请求获取所述状态寄存器的状态值。
可选的,所述故障触发信号具体为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、所述基板管理控制器的软件看门狗触发的故障信号、所述基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。
可选的,还包括:
若接收到管理引擎发送的主机复位事件,则在收集所述状态寄存器的状态值完毕后通知所述管理引擎,以使所述管理引擎触发集成南桥执行主机复位动作。
可选的,所述来自基本输入输出系统管理的故障信号,具体为:基本输入输出系统中断处理器发送的系统故障信号、所述基本输入输出系统在自检过程中发现的异常信号中的至少一种。
可选的,所述来自基本输入输出系统管理的故障信号,具体为:基本输入输出系统中断处理器发送的系统故障信号、用户手动触发的预设智能平台管理接口命令、所述基本输入输出系统在自检过程中发现的异常信号中的至少一种;
其中,所述预设智能平台管理接口命令为预先设置的供所述用户在所述基本输入输出系统启动过程中出现系统宕机时手动触发的信号。
可选的,所述根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志,具体包括:
调用预设的故障分析诊断脚本,根据所述故障触发信号和所述状态寄存器的状态值分析得到故障诊断结果,并根据所述故障诊断结果确定对应的故障处理策略;
将所述故障触发信号、所述状态寄存器的状态值、所述故障诊断结果和所述故障处理策略生成所述故障分析日志。
为解决上述技术问题,本申请还提供一种设备故障监控装置,基于基板管理控制器,包括:
获取单元,用于当接收到故障触发信号时,收集与所述故障触发信号关联的状态寄存器的状态值;
生成单元,用于根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志。
为解决上述技术问题,本申请还提供一种设备故障监控设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述设备故障监控方法的步骤。
为解决上述技术问题,本申请还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述设备故障监控方法的步骤。
本申请所提供的设备故障监控方法,基板管理控制器在接收到故障触发信号时,不直接生成故障日志,而是收集与故障触发信号关联的状态寄存器的状态值,并根据故障触发信号和状态寄存器的状态值,生成故障分析日志。通过根据故障触发信号与状态寄存器的关联关系,获取与故障触发信号关联的状态寄存器的状态值,能够对生成故障触发信号时对应的故障场景进行充分描述。即使是同样的故障触发信号,其触发时对应的状态寄存器的状态值也可能会有区别,通过故障分析日志同时记录故障触发信号和与其关联的状态寄存器的状态值,可以方便用户以及运维人员更加清楚全面的了解故障情况,减少误判几率,有效提高设备故障监控的准确性。
本申请还提供一种设备故障监控装置、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种设备故障监控方法的流程图;
图2为本申请实施例提供的一种设备故障监控装置的结构示意图;
图3为本申请实施例提供的一种设备故障监控设备的结构示意图。
具体实施方式
本申请的核心是提供一种设备故障监控方法、装置、设备及可读存储介质,用于提高基板管理控制器的故障日志的可用性,避免因故障寄存器的误判生成的错误的故障日志影响到运维工作,有效提高设备故障监控的准确性。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种设备故障监控方法的流程图。
如图1所示,基于基板管理控制器(Baseboard Manager Controller,BMC),本申请实施例提供的设备故障监控方法包括:
S101:当接收到故障触发信号时,收集与故障触发信号关联的状态寄存器的状态值。
S102:根据故障触发信号和状态寄存器的状态值,生成故障分析日志。
本申请实施例提供的设备故障监控方法的应用场景为具有基板管理控制器的设备,如服务器、交换机等。预先基于基板管理控制器编写故障诊断脚本,以相较于现有技术收集更多的寄存器的信息,增加在故障触发信号的触发下自动收集关联的状态寄存器的状态值的机制,并输出记录故障信息更为全面的故障分析日志。以基于x86平台的基板管理控制器为例,所在设备基于Intel系统,寄存器主要为与中央处理器核心(CPU Core)连接的MCA寄存器和AER寄存器,两种寄存器对应两种监测机制,可以覆盖到设备的大多硬件监控。通过收集更多的MCA寄存器的信息和AER寄存器的信息,以实现对故障状况更为全面的描述,提高故障诊断结果的准确性。
设备中的寄存器按功能区分,可以分为故障寄存器和状态寄存器。状态寄存器用于反馈监测对象的状态信息,而故障寄存器为基于预设的故障诊断机制、根据获取到的状态信息生成故障判断结果。例如电源故障状态字信号(电源79h状态字)即为电源故障寄存器对电源状态的故障判断,在现有技术中,该故障寄存器判断电源故障后,告知基板管理控制器生成故障日志记录电源故障。然而,同样的故障寄存器的故障表征可以对应着不同的故障产生原因或不同的故障现象,有些甚至是由人工误操作所造成的故障信号,这部分故障信号往往并不严重,却同样会生成相应的故障日志,给后续故障排查造成干扰。因此,本申请实施例提供的设备故障监控方法在扩大监测的寄存器的数量的同时,在接收到故障触发信号(可以包括现有技术中已监测的故障寄存器,也可以包括新增的监测信号来源)后,收集与其关联的状态寄存器的状态值,以便对故障情况进行更为全面的描述和对故障原因进行更为准确的判断。
基于此,在具体实施中,对于步骤S101来说,预先确立要监控的故障触发信号,即由哪些信号触发设备故障诊断。同时确立与这些故障触发信号关联的状态寄存器的信息。根据设备具体情况和用户需求,故障触发信号的数量可以增加或减少,关联的状态寄存器的信息也可以进行调整。则本申请实施例提供的设备故障监控方法还可以包括:接收输入的监控对象配置命令;根据监控对象配置命令,配置待监测故障触发信号的信息以及待监测故障触发信号的关联状态寄存器的信息。
根据故障触发信号路径的不同,故障触发信号可以为故障寄存器的引脚电平变化,例如该引脚在正常状态下输出高电平,在检出故障的情况下输出低电平。故障触发信号还可以为设备中的其他部件,如基本输入输出系统发送的报错信号,则只有在出现故障的情况下才会接收到该信号。
步骤S101中收集与故障触发信号关联的状态寄存器的状态值,具体可以为:向中央处理器请求获取状态寄存器的状态值。由于设备中大部分状态寄存器都是与中央处理器连接的,则基板管理控制器在接收到故障触发信号后,可以向中央处理器发送一个访问请求,其中包含与故障触发信号关联的状态寄存器的信息(状态寄存器的唯一标识),以向中央处理器索取这些状态寄存器的状态值。
对于步骤S102来说,在收集完与故障触发信号关联的状态寄存器的状态值后,可以直接将故障触发信号、状态寄存器的状态值与接收到故障触发信号的时刻记录入故障分析日志。由于现有大多情况下基板管理控制器按照Intel的协议生成加密的故障日志,用户在查看故障日志时还需要解密,非常不便。故在本申请实施例提供的设备故障监控方法中,可以按照预设的日志模板,将故障触发信号、状态寄存器的状态值与接收到故障触发信号的时刻生成友好可读、故障信息完整的故障分析日志。
在生成故障分析日志后,可以根据故障分析日志中记录的故障内容的严重程度,执行将故障分析日志仅做保存、将故障分析日志保存并发送至指定地址、将故障分析日志保存并发送至指定地址同时弹出报警信息等不同的操作。
本申请实施例提供的设备故障监控方法,基板管理控制器在接收到故障触发信号时,不直接生成故障日志,而是收集与故障触发信号关联的状态寄存器的状态值,并根据故障触发信号和状态寄存器的状态值,生成故障分析日志。通过根据故障触发信号与状态寄存器的关联关系,获取与故障触发信号关联的状态寄存器的状态值,能够对生成故障触发信号时对应的故障场景进行充分描述。即使是同样的故障触发信号,其触发时对应的状态寄存器的状态值也可能会有区别,通过故障分析日志同时记录故障触发信号和与其关联的状态寄存器的状态值,可以方便用户以及运维人员更加清楚全面的了解故障情况,减少误判几率。
实施例二
在上述实施例的基础上,在本申请实施例提供的设备故障监控方法中,故障触发信号具体可以为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、基板管理控制器的软件看门狗触发的故障信号、基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。
在基于x86平台的基板管理控制器中,增加对ERR0#PIN,ERR1#PIN,MSMI#PIN的故障诊断场景。
在具体实施中,当设备出现系统故障时,会触发系统故障引脚(Error Pin),向基板管理控制器发送系统故障引脚触发信号。基板管理控制器在接收到系统故障引脚触发信号时,调用故障分析诊断脚本,自动获取与该系统故障引脚触发信号关联的状态寄存器的状态值,生成故障分析日志。具体可以分为以下两种情况:
ERR0#Pin(Correctable),PROCHOT#Pin,Error Pin等系统故障引脚触发,一般不会造成系统宕机、关机或重启,基板管理控制器对上述信号进行监控,一旦触发,首先记录系统(SEL)日志,并收集MCA、AER相关所有寄存器信息;根据故障分析诊断脚本中定义的故障规则,输出友好的、故障描述信息完整的IDL日志;
CATERR#Pin,MSMI#Pin,ERR1#Pin(Non-Fatal),ERR2#Pin(Fatal),THERMTRIP#Error Pin等系统故障引脚触发,一般会造成系统宕机、关机或重启;IERR(internalerror,内部错误)触发CATERR#Pin和MSMI#Pin。
当出现系统宕机情况时,需要进行恢复,则本申请实施例提供的设备故障监控方法还包括:若接收到管理引擎(ME)发送的主机复位事件(Host Reset Event),则在收集状态寄存器的状态值完毕后通知管理引擎,以使管理引擎触发集成南桥(PCH)执行主机复位动作。
当设备出现系统故障,但未触发系统故障引脚时,此时主要分为以下两种场景:
系统故障后,系统正常或热重启,基本输入输出系统中断处理器(BIOS Systemmanagement interrupt Handler,BIOS SMI Handler)记录故障,触发基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志;
系统故障后,系统宕机,BIOS SMI Handler无法记录故障。
此外,在基本输入输出系统进行自检的过程中,通过检测内存,读取内存SPD信息,自检,初始化等,当发现异常时,也会触发基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。
则在本申请实施例中,来自基本输入输出系统管理的故障信号,具体可以为:基本输入输出系统中断处理器发送的系统故障信号、基本输入输出系统在自检过程中发现的异常信号中的至少一种。
优选的,为了应对系统故障后系统宕机,BIOS SMI Handler无法记录故障的情况,可以预先设置一个供用户在基本输入输出系统启动过程中出现系统宕机时手动触发的接口;则在本申请实施例中,来自基本输入输出系统管理的故障信号,具体还可以为:基本输入输出系统中断处理器发送的系统故障信号、用户手动触发的预设智能平台管理接口(IPMI)命令、基本输入输出系统在自检过程中发现的异常信号中的至少一种;其中,预设智能平台管理接口命令为预先设置的供用户在基本输入输出系统启动过程中出现系统宕机时手动触发的信号。
当设备中软件运行故障,触发基板管理控制器的软件看门狗(通常为BMC IPMIWatchdog2)触发的故障信号。此时基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。
BMC Wathdog2是基板管理控制器软件定义的一组定时器逻辑,对外提供了3个IPMI命令接口:SetWDT,GetWDT,ResetWDT。基本输入输出系统,操作系统(OS)和其他OEM应用程序都可以使用板管理控制器的IPMI命令接口设置看门狗的定时器时间、时间到期后的动作、看门狗开启和关闭。主要用于监控基本输入输出系统,操作系统和其他OEM应用程序的自检(Post)过程,如操作系统启动过程中可以使用Set WDT接口设置定时器时间和到期后的动作,并启用看门狗,操作系统启动完成后再使用Set WDT关闭看门狗,目的是监控操作系统启动过程是否会出现宕机情况,宕机后操作系统没有机会使用Set WDT关闭看门狗,一段时间后,看门狗定时器时间到,会触发BMC看门狗执行相应动作对服务器TimeExpired/Power Cycle/Reset/Down等。
当(Windows)系统蓝屏时,会通过基板管理控制器的加法系统接口(BMC ADD SEL)记录故障,触发基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。
当基板管理控制器检测到电源故障状态字信号(电源79h状态字)时,基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。
需要说明的是,上述故障触发信号和对应的监控机制仅为举例,在实际应用中,可以包括但不限于这种故障诊断场景,可以接收输入的故障诊断路径,包括故障触发信号的信息,以及与故障触发信号对应的状态寄存器的信息。
实施例三
在上述实施例的基础上,为进一步方便用户和运维人员的使用,在本申请实施例提供的设备故障监控方法中,步骤S102中根据故障触发信号和状态寄存器的状态值,生成故障分析日志,具体包括:
调用预设的故障分析诊断脚本,根据故障触发信号和状态寄存器的状态值分析得到故障诊断结果,并根据故障诊断结果确定对应的故障处理策略;
将故障触发信号、状态寄存器的状态值、故障诊断结果和故障处理策略生成故障分析日志。
在具体实施中,在故障分析诊断脚本中预先配置故障分析规则,具体为在不同的故障触发信号下,对应的不同状态寄存器的状态值的组合,与故障诊断结果以及故障处理策略的对应关系。若故障场景(故障触发信号下对应的一种状态寄存器的状态值的组合为一个故障场景)无法穷举,可以查看与检出的故障场景与有记载的最接近的一个或多个故障场景,并获取对应的故障诊断结果和故障处理策略,供用户和运维人员参考。
上文详述了设备故障监控方法对应的各个实施例,在此基础上,本申请还公开了与上述方法对应的设备故障监控装置、设备及可读存储介质。
实施例四
图2为本申请实施例提供的一种设备故障监控装置的结构示意图。
如图2所示,基于基板管理控制器,本申请实施例提供的设备故障监控装置包括:
获取单元201,用于当接收到故障触发信号时,收集与故障触发信号关联的状态寄存器的状态值;
生成单元202,用于根据故障触发信号和状态寄存器的状态值,生成故障分析日志。
可选的,故障触发信号具体为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、基板管理控制器的软件看门狗触发的故障信号、基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。
进一步的,本申请实施例提供的设备故障监控装置还可以包括:
发送单元,用于若接收到管理引擎发送的主机复位事件,则在收集状态寄存器的状态值完毕后通知管理引擎,以使管理引擎触发集成南桥执行主机复位动作。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
实施例五
图3为本申请实施例提供的一种设备故障监控设备的结构示意图。
如图3所示,本申请实施例提供的设备故障监控设备包括:
存储器310,用于存储计算机程序311;
处理器320,用于执行计算机程序311,该计算机程序311被处理器320执行时实现如上述任意一项实施例所述设备故障监控方法的步骤。
其中,处理器320可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器320可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器320也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器320可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器320还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器310可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器310还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器310至少用于存储以下计算机程序311,其中,该计算机程序311被处理器320加载并执行之后,能够实现前述任一实施例公开的设备故障监控方法中的相关步骤。另外,存储器310所存储的资源还可以包括操作系统312和数据313等,存储方式可以是短暂存储或者永久存储。其中,操作系统312可以为Windows。数据313可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,设备故障监控设备还可包括有显示屏330、电源340、通信接口350、输入输出接口360、传感器370以及通信总线380。
本领域技术人员可以理解,图3中示出的结构并不构成对设备故障监控设备的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的设备故障监控设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的设备故障监控方法,效果同上。
实施例六
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。
为此,本申请实施例还提供一种可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如设备故障监控方法的步骤。
该可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-Only Memory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的设备故障监控方法的步骤,效果同上。
以上对本申请所提供的一种设备故障监控方法、装置、设备及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种设备故障监控方法,其特征在于,基于基板管理控制器,包括:
当接收到故障触发信号时,收集与所述故障触发信号关联的状态寄存器的状态值;
根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志。
2.根据权利要求1所述的设备故障监控方法,其特征在于,所述收集与所述故障触发信号关联的状态寄存器的状态值,具体为:
向中央处理器请求获取所述状态寄存器的状态值。
3.根据权利要求1所述的设备故障监控方法,其特征在于,所述故障触发信号具体为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、所述基板管理控制器的软件看门狗触发的故障信号、所述基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。
4.根据权利要求3所述的设备故障监控方法,其特征在于,还包括:
若接收到管理引擎发送的主机复位事件,则在收集所述状态寄存器的状态值完毕后通知所述管理引擎,以使所述管理引擎触发集成南桥执行主机复位动作。
5.根据权利要求3所述的设备故障监控方法,其特征在于,所述来自基本输入输出系统管理的故障信号,具体为:基本输入输出系统中断处理器发送的系统故障信号、所述基本输入输出系统在自检过程中发现的异常信号中的至少一种。
6.根据权利要求3所述的设备故障监控方法,其特征在于,所述来自基本输入输出系统管理的故障信号,具体为:基本输入输出系统中断处理器发送的系统故障信号、用户手动触发的预设智能平台管理接口命令、所述基本输入输出系统在自检过程中发现的异常信号中的至少一种;
其中,所述预设智能平台管理接口命令为预先设置的供所述用户在所述基本输入输出系统启动过程中出现系统宕机时手动触发的信号。
7.根据权利要求1所述的设备故障监控方法,其特征在于,所述根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志,具体包括:
调用预设的故障分析诊断脚本,根据所述故障触发信号和所述状态寄存器的状态值分析得到故障诊断结果,并根据所述故障诊断结果确定对应的故障处理策略;
将所述故障触发信号、所述状态寄存器的状态值、所述故障诊断结果和所述故障处理策略生成所述故障分析日志。
8.一种设备故障监控装置,其特征在于,基于基板管理控制器,包括:
获取单元,用于当接收到故障触发信号时,收集与所述故障触发信号关联的状态寄存器的状态值;
生成单元,用于根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志。
9.一种设备故障监控设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任意一项所述设备故障监控方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述设备故障监控方法的步骤。
CN202111660442.5A 2021-12-30 2021-12-30 一种设备故障监控方法、装置、设备及可读存储介质 Withdrawn CN114356708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111660442.5A CN114356708A (zh) 2021-12-30 2021-12-30 一种设备故障监控方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111660442.5A CN114356708A (zh) 2021-12-30 2021-12-30 一种设备故障监控方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114356708A true CN114356708A (zh) 2022-04-15

Family

ID=81106093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111660442.5A Withdrawn CN114356708A (zh) 2021-12-30 2021-12-30 一种设备故障监控方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114356708A (zh)

Similar Documents

Publication Publication Date Title
US11360842B2 (en) Fault processing method, related apparatus, and computer
WO2022160756A1 (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US11687391B2 (en) Serializing machine check exceptions for predictive failure analysis
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN112988442B (zh) 一种服务器运行阶段传送故障信息的方法和设备
CN107133130B (zh) 计算机运行监测方法和装置
WO2024124862A1 (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN114217925B (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
CN115756935A (zh) 嵌入式软件系统的异常故障定位方法、装置及设备
CN114356708A (zh) 一种设备故障监控方法、装置、设备及可读存储介质
CN113742113B (zh) 一种嵌入式系统健康管理方法、设备及储存介质
JP2015130023A (ja) 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
CN115576728A (zh) 一种基于故障定位的时序控制方法、装置及设备
CN116893928A (zh) 故障内存的监管方法、系统、终端及存储介质
CN115756982A (zh) 系统管理中断响应时长的测试方法及装置
CN118550747A (zh) 一种PCIe致命错误的快速定位方法、系统、电子设备及介质
CN117234771A (zh) 故障内存定位方法、系统、装置、计算机设备及存储介质
CN112084049A (zh) 用于监控基板管理控制器的常驻程序的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220415