CN115686914A - 一种故障记录方法、计算设备及存储介质 - Google Patents

一种故障记录方法、计算设备及存储介质 Download PDF

Info

Publication number
CN115686914A
CN115686914A CN202211372009.6A CN202211372009A CN115686914A CN 115686914 A CN115686914 A CN 115686914A CN 202211372009 A CN202211372009 A CN 202211372009A CN 115686914 A CN115686914 A CN 115686914A
Authority
CN
China
Prior art keywords
cpu
information
target
band controller
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211372009.6A
Other languages
English (en)
Inventor
毛阿利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202211372009.6A priority Critical patent/CN115686914A/zh
Publication of CN115686914A publication Critical patent/CN115686914A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种故障记录方法、计算设备及存储介质,涉及计算技术领域,能够及时记录OS宕机原因,节约人力同时提高运维工作效率。方法应用于计算设备中的带外控制器,计算设备还包括中央处理器CPU,CPU上运行有操作系统OS,带外控制器与CPU连接,方法包括:当检测到CPU产生复位信号时,获取OS的目标图像;其中,复位信号是因故障导致OS宕机而产生的信号,复位信号用以指示OS复位;目标图像是因OS宕机而产生的图像;提取目标图像中目标信息;其中,目标信息包括OS宕机的原因;记录目标信息。

Description

一种故障记录方法、计算设备及存储介质
技术领域
本申请涉及计算技术领域,尤其涉及一种故障记录方法、计算设备及存储介质。
背景技术
计算设备在运维过程中,当中央处理器(central processing unit,CPU)、内存等部件发生严重故障导致操作系统(operating system,OS)宕机时,CPU将会产生复位信号(reset)用以复位OS,带外控制器获取到该复位信号后,在带外日志中记录OS复位的信息。该相关技术中,带外控制器只记录了OS复位的事件信息,该信息量较少,无法有效的基于该事件信息定位OS宕机的原因。
发明内容
本申请提供了一种故障记录方法、计算设备及存储介质。能够及时记录OS宕机原因,节约人力同时提高运维工作效率。
为实现上述技术目的,本申请采用如下技术方案:
第一方面,本申请实施例提供了一种故障记录方法,应用于计算设备中的带外控制器,计算设备还包括CPU,CPU上运行有OS,带外控制器与CPU连接,方法包括:当检测到CPU产生复位信号时,获取OS的目标图像;其中,复位信号是因故障导致OS宕机而产生的信号,复位信号用以指示OS复位;目标图像是因OS宕机而产生的图像;提取目标图像中目标信息;其中,目标信息包括OS宕机的原因;记录目标信息。
可以理解的是,由于OS宕机,CPU复位OS时产生复位信号,因此,带外控制器在检测到复位信号时,获取包含OS宕机原因的目标图像,并记录图像中包含的OS宕机的原因,以此来解决当前技术中带外控制器所记录的OS复位的日志信息量较少、难以定位OS宕机的原因的问题。
在一种可能的实现方式中,当OS为Windows OS时,目标图像为蓝屏图像。
可以理解的是,由于蓝屏图像是Windows OS宕机时所产生的图像,因此使用当前技术中的蓝屏图像作为目标图像,实现难度小,可操作性强。
在另一种可能的实现方式中,目标信息包括故障检测信息,故障检测信息用于确定OS宕机的原因
在另一种可能的实现方式中,目标信息还包括:建议用户操作信息和/或调试端口信息。
可以理解的是,上述建议用户操作信息有助于运维人员基于该信息中的建议,快速解决OS宕机的问题,提高运维效率;调试端口信息能够提示内存转储映像是否写到磁盘上,使用内存转储映像可以确定发生问题的性质,有助于进一步帮助运维人员定位OS宕机的原因。
在另一种可能的实现方式中,提取目标图像中的目标信息,包括:通过图像识别软件识别目标图像,以提取目标图像中的目标信息。
可以理解的是,通过图像识别软件来识别目标图像,能快速提取目标信息,提高提取信息效率。
在另一种可能的实现方式中,带外控制器与CPU通过PCIE接口连接,获取OS的目标图像,包括:通过PCIE接口获取OS的目标图像。
可以理解的是,PCIE接口是现有技术中的接口,复用现有技术中的该接口获取目标图像,实现难度低,可操作性强。
在另一种可能的实现方式中,带外控制器输出目标信息。
可以理解的是,由于目标信息中包含OS宕机的原因,带外控制器向网管输出目标信息,可以使得网管在通知运维人员OS宕机的同时,将OS宕机的原因也告知运维人员,使其能够快速获得OS宕机原因,不需要再从系统中查找宕机原因,及时采取对应解决措施,提高运维效率。
在另一种可能的实现方式中,方法还包括:在日志中记录目标信息。
可以理解的是,在日志中记录目标信息,便于管理和查看。
第二方面,本申请实施例提供一种故障记录方法,应用于计算设备中的CPU,CPU上运行有OS,计算设备还包括带外控制器,带外控制器与CPU连接,方法包括:当OS宕机时,CPU向带外控制器发送OS宕机的原因,以使得带外控制器记录OS宕机的原因。
可以理解的是,当OS宕机,CPU向带外控制器发送OS宕机的原因,可以使得带外控制器及时接收并记录OS宕机的原因,来解决当前技术中带外控制器在带外日志中没有记录OS宕机的原因,只能通过人工查看OS系统日志来获取OS宕机原因的问题,该方法效率较高且能节约人力资源。
第三方面,本申请实施例提供一种故障记录方法,应用于计算设备中的带外控制器,计算设备还包括CPU,CPU上运行有OS,带外控制器与CPU连接,方法包括:接收CPU发送的OS宕机的原因;记录OS宕机的原因。
在一种可能的实现方式中,在日志中记录OS宕机的原因。
第三方面的有益效果可以参考第二方面有益效果的描述。
第四方面,本申请实施例提供一种计算设备,包括:带外控制器和CPU,带外控制器与CPU连接,CPU包括寄存器,CPU上运行有操作系统OS,带外控制器用于在OS宕机时,从寄存器中获取因OS宕机而产生的目标图像,及提取并记录目标图像中目标信息;其中,目标信息包括OS宕机的原因。
在一种可能的实现方式中,带外控制器通过图像识别软件识别目标图像,以提取目标图像中的目标信息。
第五方面,本申请实施例提供一种故障记录装置,包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行该计算机指令时,使得该故障记录装置执行如第一方面及其任一种可能的实现方式的故障记录方法;或者,当处理器执行该计算机指令时,使得该故障记录装置执行如第二方面及其任一种可能的实现方式的故障记录方法;当处理器执行该计算机指令时,使得该故障记录装置执行如第三方面及其任一种可能的实现方式的故障记录方法。
第六方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令。其中,当计算机指令在故障记录装置上运行时,使得该故障记录装置执行如第一方面及其任一种可能的实现方式的故障记录方法;或者,当计算机指令在故障记录装置上运行时,使得该故障记录装置执行如第二方面及其任一种可能的实现方式的故障记录方法;或者,当计算机指令在故障记录装置上运行时,使得该故障记录装置执行如第三方面及其任一种可能的实现方式的故障记录方法。
第七方面,本申请提供一种计算机程序产品,该计算机程序产品包括计算机指令。其中,当计算机指令在故障记录装置上运行时,使得该故障记录装置执行如第一方面及其任一种可能的实现方式的故障记录方法;或者,当计算机指令在故障记录装置上运行时,使得该故障记录装置执行如第二方面及其任一种可能的实现方式的故障记录方法;当计算机指令在故障记录装置上运行时,使得该故障记录装置执行如第三方面及其任一种可能的实现方式的故障记录方法。
本申请中第四方面到第七方面及其各种实现方式的具体描述,可以参考第一方面、第二方面或第三方面及其各种实现方式中的详细描述;并且,第四方面到第七方面及其各种实现方式的有益效果,可以参考第一方面、第二方面或第三方面及其各种实现方式中的有益效果分析,此处不再赘述。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
图1为本申请实施例提出的一种系统架构图;
图2为本申请实施例提出的一种计算设备架构图;
图3为本申请实施例提供的一种故障记录方法流程图;
图4为本申请实施例提供的另一种故障记录方法流程图;
图5为本申请实施例提供的一种故障记录装置的结构示意图。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
计算设备在运维过程中,当中央处理器(central processing unit,CPU)、内存等部件发生严重故障导致操作系统(operating system,OS)宕机时,CPU将会产生复位信号(reset)用以复位OS,带外控制器获取到该复位信号后,在带外日志中记录OS复位的信息。该相关技术中,带外控制器只记录了OS复位的事件信息,该信息量较少,无法有效的基于该事件信息定位OS宕机的原因。
基于此,本申请提出一种故障记录方法。该方法应用于计算设备中的带外控制器,该方法中,带外控制器在检测到CPU产生复位信号后,获取OS的目标图像,并提取目标图像中的目标信息,将该目标信息记录下来。可以理解的是,由于OS宕机,CPU复位OS时产生复位信号,因此,带外控制器在检测到复位信号时,获取包含OS宕机原因的目标图像,并记录图像中的信息,以此来解决当前技术中带外控制器所记录的OS复位的日志信息量较少、难以定位OS宕机的原因的问题。
下面将结合附图对本申请实施例的实施方式进行详细描述。
请参考图1,其示出本申请实施例提供的故障记录方法所涉及的一种系统架构图。如图1所示,该架构图可以包括计算设备100,其中,如图2所示,图2中计算设备100可以包括:带外控制器110、CPU120,可选的还包括图形处理器(graphics processing unit,GPU)130。
计算设备100可以是如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等设备。本申请对计算设备100的具体形态不做限定。
带外控制器110、CPU120和GPU130之间两两通过通信总线连接,例如快速外设组件互连(peripheral component interconnect express,PCIE)总线、系统管理总线(systemmanagement bus,SMBus)、局部总线(localbus)或串行通用输入输出(serial generalpurpose input/output,SGPIO)总线,本申请实施例对带外控制器110、CPU120和GPU130之间通过什么总线连接通信不做限定。
带外控制器110可用于采集计算设备100上各种信息,还可以通过输出设备输出所采集的信息。它可以在计算设备100未开机的情况下,对计算设备100进行固件升级、查看计算设备等一些操作。
示例性的,带外控制器110可以是基板管理控制器(baseboard managementcontroller,BMC),带外控制器110在不同的计算设备中有不同的称呼,例如,一些公司称为BMC,一些公司称为iLO,另一公司称为iDRAC。不论是叫BMC,还是叫iLO或iDRAC,都可以理解为是本发明实施例中的BMC。
CPU120是计算设备100的运算和控制核心,是信息处理、程序运行的最终执行单元。
可选的,带外控制器110的系统中安装有图像识别软件111,用于识别图像,提取图像中的信息。
可选的,计算设备100包含寄存器121,寄存器121用于存储CPU120产生的复位信号。
GPU130是计算设备100中用于处理图像和图形相关运算工作的微处理器,其包含缓存131,缓存131用于存储GPU130处理过或者即将提取的渲染数据。GPU130可以与带外控制器110集成在一起,也可以独立设置。本申请对GPU130与带外控制器110的设置方式不做限定。
可选的,计算设备100还可以包括存储器140,存储器140包括但不限于是随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable read-only memory,EPROM)、快闪存储器、或光存储器等。
存储器140与带外控制器110之间可以通过串行外设接口(serial peripheralinterface,SPI)连接,存储器140用于存储带外控制器110记录的日志。
可选的,如图1所示,本申请实施例提供架构还涉及网管150,网管150用于管理多个计算设备100,例如:接收计算设备100发送的故障信息,并提示运维人员该故障信息。网管150与计算设备100可以通过网络接口通信。
网络接口,包含发送器和接收器的一类装置,用于与其他设备或通信网络通信,可以是有线接口(端口),例如光纤分布式数据接口(fiber distributed data interface,FDDI)、千兆以太网接口(gigabit ethernet,GE)。或者,网络接口是无线接口。应理解,网络接口包括多个物理端口。
本申请实施例中,当带外控制器110为BMC,其中运行有BMC系统,CPU120上运行OS。当OS因CPU120等故障而宕机后,CPU120产生复位信息,该复位信号储存在寄存器121中,带外控制器110查询到寄存器121储存的复位信号后,从GPU130的缓存131中获取OS的目标图像,通过图像识别软件111识别目标图像中的OS宕机的原因后,带外控制器110在存储器140中记录复位信号和OS宕机的原因。可选的,带外控制器110可以将OS宕机的原因发送给网管150。
上述带外控制器110、CPU120、显卡130、存储器140、网管150、寄存器121、缓存131的数量分别可以是一个或多个,本申请实施例对此不做限定。
下文对本申请实施例提供的故障记录方法进行说明:
请参考图3,为本申请实施例提供的一种故障记录方法流程图。应用于上述计算设备中的带外控制器和CPU。如图3所示,该方法可以包括S101-S108。
S101:带外控制器向CPU发送命令以获取CPU的寄存器中储存的信息。
寄存器中储存的信息可以是复位信号等信息,当CPU故障导致OS宕机时,CPU会产生复位信号以复位OS,该复位信号储存在寄存器中。
带外控制器获取CPU的寄存器中储存的信息的方法包括但不限于方法1或方法2。
方法1、带外控制器实时向CPU发送获取寄存器中储存的信息的命令。
方法2、带外控制器向CPU发送中断命令请求获取CPU的寄存器中储存的信息。
可以理解的是,上述方法1中带外控制器实时向CPU发送获取寄存器中储存的信息的命令,能够及时获取CPU寄存器中储存的信息,且该方法可实现难度小;方法2中通过中断命令的方法获取CPU寄存器中储存的信息,该方法不用实时发送命令,可以节约系统资源,提高CPU响应效率。
S102:CPU响应于带外控制器发送的命令,向带外控制器发送寄存器中储存的信息。
上述S101-S102中是带外控制器主动向CPU发送命令来获取寄存器中储存的信息,在另外一种实现方式中,可以由CPU主动向带外控制器发送寄存器中储存的信息。本申请实施例对带外控制器如何获取到寄存器中储存的信息的方式不做限定。
S103:带外控制器判断CPU是否产生复位信号。
具体的,带外控制器判断获取到的寄存器的信息是否是复位信号。
其中,复位信号(reset)是因故障(例如CPU故障)导致OS宕机而产生的信号,复位信号用以指示OS复位。
若是,执行S104;
若否,执行S101。
S104:带外控制器向CPU发送命令以获取OS的目标图像。
目标图像是因OS宕机而产生的图像,当OS为Windows OS时,目标图像可以为蓝屏图像。
蓝屏图像是OS在无法从一个系统错误中恢复过来时,为保护计算数据文件不被破坏而强制显示的屏幕图像。
一般的,CPU将绘制目标图像的数据发送给GPU,GPU将该绘制目标图像的数据处理后储存在GPU的缓存(例如:显存)中。
在一种实现方式中,带外控制器检测到CPU寄存器的信息包含复位信号,通过PCIE接口向CPU发送获取OS的目标图像的命令。
上述带外控制器还可以通过专用工具获取屏幕显示的目标图像,本申请对获取目标图像的方法不做限定。
由于蓝屏图像是传统技术中常用的图像,因此使用该技术中的蓝屏图像作为目标图像,实现难度小,可操作性强。
S105:CPU响应于带外控制器发送的命令,向带外控制器发送目标图像。
一种实现方式中,目标图像储存在GPU的缓存中,CPU将缓存中存储的目标图像发送给带外控制器。
S106:带外控制器提取目标图像中目标信息。
目标信息包括故障检测信息,故障检测信息是CPU记录的关于OS宕机的关键信息,故障检测信息中包含OS宕机的原因,或者,通过分析故障检测信息可以得到OS宕机的原因。
可选的,目标信息还可以包括:建议用户操作信息和/或调试端口信息。
具体的,带外控制器通过图像识别软件识别目标图像,以提取目标图像中的目标信息。
图像识别软件包括但不限于如:Opencv、PaddleOCR、Tesseract、GOCR、CuneiForm、Kraken和A9T9。
在一个示例中,目标图像为蓝屏图像,该蓝屏图像中包含的目标信息为:故障检测信息(bug check information)、建议用户操作信息(recommended user action)和/或调试端口信息(debug port information)。
其中,故障检测信息(bug check information)部分包括:
**STOP:0x00000001E(0xC00000005,0xF24A447A,0x00000001,0x00000000)KMODE_EXCEPTION_NOT_HANDLED
**Address F24A447A base at F24A0000,DateStamp 35825ef8d-wdmaud.sys
建议用户操作信息(recommended user action)部分包括:
If this is the first time you've seen this Stop error screen,restartyour computer.If this screen appears again,follow these steps:
Check to be sure you have adequate disk space.If a driver isidentified in the Stop message,disable the driver or check with themanufacturer for driver updates.Try changing video adapters.
Check with your hardware vendor for any BIOS updates.Disable BIOSmemory options such as caching or shadowing.If you need to use Safe Mode toremove or disable components,restart your computer,press F8 to selectAdvanced Startup Options,and then select safe Mode.
Refer to your Getting Started manual for more information ontroubleshooting Stop errors.
调试端口信息(debug port information)部分包括:
Kerne1 Debugger Using:COM2(Port 0x2f8,Baud Rate 19200)
Beginning dump of physical memory
Physical memory dump complete.Contact your system administrator ortechnical support group.
上述故障检测信息中包含的第一部分停机码(STOP 0x0000001E)用于识别已发生的错误类型。第二部分括号内的四个数字是蓝屏参数,它具体说明了蓝屏的原因,例如,有些参数说明的是蓝屏的细分类,有些说明的是导致蓝屏的文件,有些则说明该文件的位置。其中说明蓝屏的细分类可以去官网查询,导致蓝屏的文件及其位置需要借助工具(如bluescreen view)来进行查看。第三部分是蓝屏文件的位置。
上述建议用户操作信息包括蓝屏代码的推荐操作,这部分是推荐用户如何操作的信息。例如:重启电脑(restart your computer)。
上述调试端口信息包括蓝屏代码的调试端口,提示用户内存转储映像是否写到磁盘上了,使用内存转储映像可以确定发生问题的性质,还提示用户调试信息是否被传到另一台电脑上,以及所使用的通信端口,例如:COM2。
通过传统技术中的蓝屏图像不但可以获取OS宕机的原因,还可以获取建议用户操作信息、调试端口信息等,有助于运维人员能够基于上述信息,快速解决OS宕机的问题,提高运维效率。
S107:带外控制器记录目标信息。
可选的,带外控制器在日志中分类记录目标信息。
S106中带外控制器提取的目标信息可以分为故障检测信息、建议用户操作信息和/或调试端口信息三类,带外控制器对提取的三类信息分别在日志中记录。
上述分类记录的优点是将不同的信息分开在日志中记录,便于管理和分类查看。
(可选的)S108:带外控制器输出目标信息。
可选的,带外控制器向网管输出目标信息。
上述网管在接收到目标信息后,可以将该目标信息通过短信、语音电话等方式发送给运维人员。
由于目标信息中包含OS宕机的原因,带外控制器向网管输出目标信息,可以使得网管在通知运维人员OS宕机的同时,将OS宕机的原因也告知运维人员,使其能够快速获得OS宕机原因,不需要再从系统中查找宕机原因,及时采取对应解决措施,提高运维效率。
请参考图4,为本申请实施例提供的另一种故障记录方法流程图。如图4所示,该方法可以包括S201-S203。
S201:当OS宕机,CPU向带外控制器发送OS宕机的原因。
上述OS可以包括但不限于Windows OS和Linux OS。
可选的,CPU通过PCIE接口向带外控制器发送OS宕机的原因。
由于OS宕机时,CPU会在硬盘中记录OS宕机的原因相关的信息,此时,CPU也可以将该OS宕机的原因相关的信息发送给带外控制器。
S202:带外控制器接收OS宕机的原因,并在日志中记录。
S203:带外控制器输出OS宕机的原因。
可选的,带外控制器向网管输出OS宕机的原因。
可以理解的是,当OS宕机,CPU向带外控制器发送OS宕机的原因,可以使得带外控制器及时接收并记录OS宕机的原因,来解决当前技术中带外控制器在带外日志中没有记录OS宕机的原因,只能通过人工查看OS系统日志来获取OS宕机原因的问题,该方法效率较高且能节约人力资源。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术目标应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术目标可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例还提供一种故障记录装置200,例如图2中的带外控制器。如图5所示,为本申请实施例提供的一种故障记录装置200的结构示意图。
其中,故障记录装置200包括:获取单元201,用于当检测到CPU产生复位信号时,获取OS的目标图像;其中,复位信号是因故障导致OS宕机而产生的信号,复位信号用以指示OS复位;目标图像是因OS宕机而产生的图像;提取单元202,用于提取目标图像中目标信息;其中,目标信息包括OS宕机的原因;记录单元203,用于记录目标信息。例如,结合图3,获取单元201用于方法实施例中的S103,提取单元202用于方法实施例中的S105,记录单元203用于方法实施例中的S106。
可选的,当OS为Windows OS时,目标图像为蓝屏图像。
可选的,目标信息包括故障检测信息,故障检测信息用于确定OS宕机的原因。
可选的,目标信息还包括:建议用户操作信息和/或调试端口信息。
可选的,提取单元203具体用于,通过图像识别软件识别目标图像,以提取目标图像中的目标信息。例如,提取单元202用于方法实施例中的S105。
可选的,获取单元201具体用于,通过PCIE接口获取OS的目标图像。例如,获取单元201用于方法实施例中的S103。
可选的,故障记录装置200还包括输出单元204,用于输出目标信息。例如,结合图3,输出单元204用于方法实施例中的S107。
可选的,记录单元203具体用于,在日志中记录目标信息。例如,结合图3,记录单元203用于方法实施例中的S106。
当然,本申请实施例提供的故障记录装置200包括但不限于上述模块。
本申请另一实施例还提供一种故障记录装置,故障记录装置可以是如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。该故障记录装置包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。其中,当处理器执行该计算机指令时,使得该故障记录装置执行上述方法实施例所示的故障记录方法的各个步骤。
本申请另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在故障记录装置上运行时,使得故障记录装置执行上述方法实施例所示的故障记录方法流程中故障记录装置执行的各个步骤。
在实际实现时,获取单元201、提取单元202、记录单元203和输出单元204可以由处理器调用存储器中的计算机程序代码来实现。其具体的执行过程可参考上述方法部分的描述,这里不再赘述。
本申请另一实施例还提供一种芯片系统,该芯片系统应用于故障记录装置。该芯片系统包括一个或多个接口电路,以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从故障记录装置的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令。当故障记录装置处理器执行计算机指令时,故障记录装置执行上述方法实施例所示的故障记录处理方法流程中故障记录装置执行的各个步骤。
在本申请另一实施例中还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在故障记录装置上运行时,使得故障记录装置执行上述方法实施例所示的故障记录方法流程中故障记录装置执行的各个步骤。
上述实施例可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,上述实施例可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、服务器或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式,可想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种故障记录方法,其特征在于,应用于计算设备中的带外控制器,所述计算设备还包括中央处理器CPU,所述CPU上运行有操作系统OS,所述带外控制器与所述CPU连接,所述方法包括:
当检测到所述CPU产生复位信号时,获取所述OS的目标图像;其中,所述复位信号是因故障导致所述OS宕机而产生的信号,所述复位信号用以指示所述OS复位;所述目标图像是因所述OS宕机而产生的图像;
提取所述目标图像中目标信息;其中,所述目标信息包括所述OS宕机的原因;
记录所述目标信息。
2.根据权利要求1所述的方法,其特征在于,当所述OS为Windows OS时,所述目标图像为蓝屏图像。
3.根据权利要求1或2所述的方法,其特征在于,所述目标信息包括故障检测信息,所述故障检测信息用于确定所述OS宕机的原因。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述目标信息还包括:建议用户操作信息和/或调试端口信息。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述提取所述目标图像中的目标信息,包括:
通过图像识别软件识别所述目标图像,以提取所述目标图像中的所述目标信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
输出所述目标信息。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述记录所述目标信息包括:
在日志中记录所述目标信息。
8.一种计算设备,其特征在于,包括带外控制器和中央处理器CPU,所述带外控制器与所述CPU连接,所述CPU包括寄存器,所述CPU上运行有操作系统OS,所述带外控制器用于在所述OS宕机时,从所述寄存器中获取因所述OS宕机而产生的目标图像,及提取并记录所述目标图像中目标信息;其中,所述目标信息包括所述OS宕机的原因。
9.根据权利要求8所述的计算设备,其特征在于,所述带外控制器通过图像识别软件识别所述目标图像,以提取所述目标图像中的所述目标信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令;其中,当所述计算机指令在故障记录装置上运行时,使得所述故障记录装置执行如权利要求1-7中任意一项所述的故障记录方法。
CN202211372009.6A 2022-11-03 2022-11-03 一种故障记录方法、计算设备及存储介质 Pending CN115686914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211372009.6A CN115686914A (zh) 2022-11-03 2022-11-03 一种故障记录方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211372009.6A CN115686914A (zh) 2022-11-03 2022-11-03 一种故障记录方法、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN115686914A true CN115686914A (zh) 2023-02-03

Family

ID=85048438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211372009.6A Pending CN115686914A (zh) 2022-11-03 2022-11-03 一种故障记录方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN115686914A (zh)

Similar Documents

Publication Publication Date Title
CN112948157B (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
CN110928743B (zh) 一种计算系统、自动诊断方法及存储有其指令的介质
CN110750396B (zh) 一种服务器操作系统兼容性测试方法、装置及存储介质
KR101712172B1 (ko) 컴퓨터 장애 증상의 사전 진단 및 분석 복구 시스템 및 방법
CN111414268B (zh) 故障处理方法、装置及服务器
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN107111595B (zh) 用于检测早期引导错误的方法、设备及系统
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
CN116107819A (zh) 一种服务器启动故障检测系统、方法、装置以及介质
CN114116280A (zh) 交互式bmc自恢复方法、系统、终端及存储介质
CN107544879A (zh) 服务器的诊断方法、装置及机器可读存储介质
KR20150116020A (ko) 무선 네트워크를 이용한 컴퓨터 진단 및 복구 장치와 그 방법
CN115686914A (zh) 一种故障记录方法、计算设备及存储介质
CN115168146A (zh) 一种异常检测方法和装置
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN112231170B (zh) 一种数据交互卡监管方法、系统、终端及存储介质
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
CN114153503A (zh) 一种bios控制方法、装置、介质
CN113900914A (zh) 异常处理方法、装置、电子设备及计算机存储介质
CN112988442A (zh) 一种服务器运行阶段传送故障信息的方法和设备
TWI840907B (zh) 偵測偏差的電腦系統及方法,及非暫態電腦可讀取媒體
JP7389877B2 (ja) ネットワークの最適なブートパスの方法及びシステム
CN115454752A (zh) 一种BIOS检测PCIe设备降速的验证方法、装置、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination