CN112988442A - 一种服务器运行阶段传送故障信息的方法和设备 - Google Patents

一种服务器运行阶段传送故障信息的方法和设备 Download PDF

Info

Publication number
CN112988442A
CN112988442A CN202110244626.7A CN202110244626A CN112988442A CN 112988442 A CN112988442 A CN 112988442A CN 202110244626 A CN202110244626 A CN 202110244626A CN 112988442 A CN112988442 A CN 112988442A
Authority
CN
China
Prior art keywords
information
hardware
fault
fault information
smi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110244626.7A
Other languages
English (en)
Other versions
CN112988442B (zh
Inventor
罗鹏芳
袁传博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110244626.7A priority Critical patent/CN112988442B/zh
Publication of CN112988442A publication Critical patent/CN112988442A/zh
Application granted granted Critical
Publication of CN112988442B publication Critical patent/CN112988442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种服务器运行阶段传送故障信息的方法和设备,该方法包括:定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照数据格式收集发生故障的硬件的信息;响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;经由BMC将收集到的发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。通过使用本发明的方案,能够减少带内SMI中断的故障处理时间,能够明显减少由于频繁的触发SMI中断导致的操作系统性能的问题。

Description

一种服务器运行阶段传送故障信息的方法和设备
技术领域
本领域涉及计算机领域,并且更具体地涉及一种服务器运行阶段传送故障信息的方法和设备。
背景技术
随着近几年互联网时代的发展,对海量数据处理能力的需求正在快速增长,从而对服务器提出了更高的要求,作为服务器产业的原始动力,先进技术的应用于对于用户采购会起到决定性的作用,在网络技术、虚拟化技术、分布式应用快速发展的今天,对服务器要求的可用性,可靠性,可服务性的指标越来越高。
在服务器运行阶段出现故障时如何能高效并精准定位故障位置成为一个需要解决的技术问题,当出现硬件故障,需要及时将详细的错误上报到带外监控管理系统,用户能及时通过故障日志信息获取故障发生时的错误详情,采取对应的硬件维护或更深层次的故障分析。对已经告警的部件,客户可以在方便的时候停机更换故障部件。
故障信息的解析诊断需要在SMI(系统管理中断)中断完成,而SMI中断的时间长短直接影响系统的性能,当BIOS检测到故障后,需要通过一系列算法解析错误再整合数据,发送SEL(系统错误日志)日志给BMC,每次执行解析算法都要读取一次配置信息,带内处理耗时较长影响系统的健壮性。
发明内容
有鉴于此,本发明实施例的目的在于提出一种服务器运行阶段传送故障信息的方法和设备,通过使用本发明的技术方案,能够减少带内SMI中断的故障处理时间,能够明显减少由于频繁的触发SMI中断导致的操作系统性能的问题。
基于上述目的,本发明的实施例的一个方面提供了一种服务器运行阶段传送故障信息的方法,包括以下步骤:
定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;
响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息;
响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;
经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。
根据本发明的一个实施例,所述数据格式包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据。
根据本发明的一个实施例,响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息包括:
响应于SMI中断开始,经由BIOS检测硬件故障并将相应的故障信息写入故障信息表中;
将所述故障信息表中的所述SMI中断累积计数加1并基于通过标准库函数生成一个字符的随机数写入所述故障信息表中。
根据本发明的一个实施例,经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息包括:
将所述故障信息表中相同随机数对应的故障信息进行合并后存储到系统错误日志中;
将所述故障信息表中不相同随机数对应的故障信息分别存储到系统错误日志中;
对所述系统错误日志中记录的故障信息进行解析以得到发生故障的硬件的详细信息。
根据本发明的一个实施例,响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行包括:
经由IPMI命令将收集到的信息发送到BMC中。
本发明的实施例的另一个方面,还提供了一种服务器运行阶段传送故障信息的设备,设备包括:
定义模块,所述定义模块配置为定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;
收集模块,所述收集模块配置为响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息;
发送模块,所述发送模块配置为响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;
解析模块,所述解析模块配置为经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。
根据本发明的一个实施例,所述数据格式包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据。
根据本发明的一个实施例,所述收集模块还配置为:
响应于SMI中断开始,经由BIOS检测硬件故障并将相应的故障信息写入故障信息表中;
将所述故障信息表中的所述SMI中断累积计数加1并基于通过标准库函数生成一个字符的随机数写入所述故障信息表中。
根据本发明的一个实施例,所述解析模块还配置为:
将所述故障信息表中相同随机数对应的故障信息进行合并后存储到系统错误日志中;
将所述故障信息表中不相同随机数对应的故障信息分别存储到系统错误日志中;
对所述系统错误日志中记录的故障信息进行解析以得到发生故障的硬件的详细信息。
根据本发明的一个实施例,所述发送模块还配置为:
经由IPMI命令将收集到的信息发送到BMC中。
本发明具有以下有益技术效果:本发明实施例提供的服务器运行阶段传送故障信息的方法,通过定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息;响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息的技术方案,能够减少带内SMI中断的故障处理时间,能够明显减少由于频繁的触发SMI中断导致的操作系统性能的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的服务器运行阶段传送故障信息的方法的示意性流程图;
图2为根据本发明一个实施例的服务器运行阶段传送故障信息的设备的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种服务器运行阶段传送故障信息的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态,预定义的数据格式主要包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据,服务器在开机后,当BIOS内的故障处理模块初始化完成后,配置硬件故障发生后触发SMI中断,由BIOS扫描所有硬件的错误状态信息,当错误状态有效时,收集不同的硬件类别有效的错误信息,按照上述预定义的数据格式发送给BMC;
S2响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息,BIOS在启动阶段将相关配置配置为如果发生硬件错误则触发SMI中断,初始化故障信息表(该表包括上述数据格式的内容),并定义全局的SMI中断累积次数,用于故障信息发送,在操作系统运行阶段,如果系统发生硬件故障,BIOS检测到硬件故障,按照上述故障信息格式收集硬件错误信息,SMI中断累积次数自动加1,每次触发SMI中断,中断累积次数都会自动加1,通过标准库函数生成一个字符的随机数填入故障信息表,一次SMI中断可能收集到多个错误数据息;
S3响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行,在每次中断中发生故障的硬件信息收集完成都会立刻退出SMI中断以减少服务器中断时间,也就是说,在发生故障时,服务器内只进行短暂的中断来收集数据,将分析数据的工作转移到带外系统进行;
S4经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。
通过本发明的技术方案,能够减少带内SMI中断的故障处理时间,能够明显减少由于频繁的触发SMI中断导致的操作系统性能的问题。
在本发明的一个优选实施例中,所述数据格式包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据。其中,以硬件类别主要用于区分故障信息错误源,如:CPU、内存、PCIE设备等,错误级别主要用于区分可纠正错误、非致命错误、致命错误,故障位置主要用于区分不同故障部件的位置信息,原始数据用于收集的硬件错误信息,区分CPU、内存、PCIE设备等,包含配置信息、错误状态信息。
在本发明的一个优选实施例中,响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息包括:
响应于SMI中断开始,经由BIOS检测硬件故障并将相应的故障信息写入故障信息表中;
将所述故障信息表中的所述SMI中断累积计数加1并基于通过标准库函数生成一个字符的随机数写入所述故障信息表中。在服务器上电时,SMI中断累积次数会被初始化,如果服务器在运行过程中发生SMI中断,则SMI中断累计次数自动加1,每次触发SMI中断,中断累积次数都会自动加1,该中断累积次数可以更好的区分每次SMI中断收集到的数据,避免数据混淆。
在本发明的一个优选实施例中,经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息包括:
将所述故障信息表中相同随机数对应的故障信息进行合并后存储到系统错误日志中;
将所述故障信息表中不相同随机数对应的故障信息分别存储到系统错误日志中;
对所述系统错误日志中记录的故障信息进行解析以得到发生故障的硬件的详细信息。一次SMI中断可能收集到多个错误数据,BMC收到BIOS发送的故障信息后,将同一次的SMI中断记录到一次硬件故障记录中,通过解析随机数,将相同随机数的一笔或多笔故障信息合并后存入故障数据记录文件中,时间由BMC记录,同时结合故障信息解析规则及算法,对原始数据解析完成后,添加故障硬件的位置信息,定位具体硬件的错误,如不可纠正内存错误,内存位置等,然后按照IPMI规范的SEL格式记录到SEL日志中。
在本发明的一个优选实施例中,响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行包括:
经由IPMI命令将收集到的信息发送到BMC中。
通过本发明的技术方案,能够减少带内SMI中断的故障处理时间,能够明显减少由于频繁的触发SMI中断导致的操作系统性能的问题。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种服务器运行阶段传送故障信息的设备,如图2所示,设备200包括:
定义模块,所述定义模块配置为定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;
收集模块,所述收集模块配置为响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息;
发送模块,所述发送模块配置为响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;
解析模块,所述解析模块配置为经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。
在本发明的一个优选实施例中,所述数据格式包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据。
在本发明的一个优选实施例中,所述收集模块还配置为:
响应于SMI中断开始,经由BIOS检测硬件故障并将相应的故障信息写入故障信息表中;
将所述故障信息表中的所述SMI中断累积计数加1并基于通过标准库函数生成一个字符的随机数写入所述故障信息表中。
在本发明的一个优选实施例中,所述解析模块还配置为:
将所述故障信息表中相同随机数对应的故障信息进行合并后存储到系统错误日志中;
将所述故障信息表中不相同随机数对应的故障信息分别存储到系统错误日志中;
对所述系统错误日志中记录的故障信息进行解析以得到发生故障的硬件的详细信息。
在本发明的一个优选实施例中,所述发送模块还配置为:
经由IPMI命令将收集到的信息发送到BMC中。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims (10)

1.一种服务器运行阶段传送故障信息的方法,其特征在于,包括以下步骤:
定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;
响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息;
响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;
经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。
2.根据权利要求1所述的方法,其特征在于,所述数据格式包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据。
3.根据权利要求2所述的方法,其特征在于,响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息包括:
响应于SMI中断开始,经由BIOS检测硬件故障并将相应的故障信息写入故障信息表中;
将所述故障信息表中的所述SMI中断累积计数加1并基于通过标准库函数生成一个字符的随机数写入所述故障信息表中。
4.根据权利要求3所述的方法,其特征在于,经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息包括:
将所述故障信息表中相同随机数对应的故障信息进行合并后存储到系统错误日志中;
将所述故障信息表中不相同随机数对应的故障信息分别存储到系统错误日志中;
对所述系统错误日志中记录的故障信息进行解析以得到发生故障的硬件的详细信息。
5.根据权利要求1所述的方法,其特征在于,响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行包括:
经由IPMI命令将收集到的信息发送到BMC中。
6.一种服务器运行阶段传送故障信息的设备,其特征在于,所述设备包括:
定义模块,所述定义模块配置为定义硬件故障信息的数据格式,并在服务器运行阶段持续检测服务器的硬件状态;
收集模块,所述收集模块配置为响应于在服务器运行阶段检测到硬件故障,触发SMI中断并按照所述数据格式收集发生故障的硬件的信息;
发送模块,所述发送模块配置为响应于发生故障的硬件的信息收集完成,将收集到的信息发送到BMC中并退出SMI中断以使服务器恢复运行;
解析模块,所述解析模块配置为经由所述BMC将收集到的所述发生故障的硬件的信息进行解析以得到发生故障的硬件的详细信息。
7.根据权利要求6所述的设备,其特征在于,所述数据格式包括数据接收时间、SMI中断累积计数、单次SMI中断内收集数据产生的随机数、硬件类别、错误级别、故障位置和错误信息的原始数据。
8.根据权利要求7所述的设备,其特征在于,所述收集模块还配置为:
响应于SMI中断开始,经由BIOS检测硬件故障并将相应的故障信息写入故障信息表中;
将所述故障信息表中的所述SMI中断累积计数加1并基于通过标准库函数生成一个字符的随机数写入所述故障信息表中。
9.根据权利要求8所述的设备,其特征在于,所述解析模块还配置为:
将所述故障信息表中相同随机数对应的故障信息进行合并后存储到系统错误日志中;
将所述故障信息表中不相同随机数对应的故障信息分别存储到系统错误日志中;
对所述系统错误日志中记录的故障信息进行解析以得到发生故障的硬件的详细信息。
10.根据权利要求6所述的设备,其特征在于,所述发送模块还配置为:
经由IPMI命令将收集到的信息发送到BMC中。
CN202110244626.7A 2021-03-05 2021-03-05 一种服务器运行阶段传送故障信息的方法和设备 Active CN112988442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110244626.7A CN112988442B (zh) 2021-03-05 2021-03-05 一种服务器运行阶段传送故障信息的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110244626.7A CN112988442B (zh) 2021-03-05 2021-03-05 一种服务器运行阶段传送故障信息的方法和设备

Publications (2)

Publication Number Publication Date
CN112988442A true CN112988442A (zh) 2021-06-18
CN112988442B CN112988442B (zh) 2023-03-24

Family

ID=76352972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110244626.7A Active CN112988442B (zh) 2021-03-05 2021-03-05 一种服务器运行阶段传送故障信息的方法和设备

Country Status (1)

Country Link
CN (1) CN112988442B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064745A (zh) * 2021-02-20 2021-07-02 山东英信计算机技术有限公司 一种错误信息上报的方法、装置及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070655A (ja) * 2009-08-24 2011-04-07 Toshiba Corp 情報処理装置、メモリダンプシステムおよびメモリダンプ方法
US20110154091A1 (en) * 2009-12-17 2011-06-23 Walton Andrew C Error log consolidation
CN102467434A (zh) * 2010-11-10 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置状态信号的方法
CN102486746A (zh) * 2010-12-03 2012-06-06 鸿富锦精密工业(深圳)有限公司 服务器及其检测pci系统错误的方法
CN103440174A (zh) * 2013-08-02 2013-12-11 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
WO2018103185A1 (zh) * 2016-12-05 2018-06-14 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN111008091A (zh) * 2019-12-06 2020-04-14 苏州浪潮智能科技有限公司 一种内存ce的故障处理方法、系统及相关装置
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070655A (ja) * 2009-08-24 2011-04-07 Toshiba Corp 情報処理装置、メモリダンプシステムおよびメモリダンプ方法
US20110154091A1 (en) * 2009-12-17 2011-06-23 Walton Andrew C Error log consolidation
CN102467434A (zh) * 2010-11-10 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置状态信号的方法
CN102486746A (zh) * 2010-12-03 2012-06-06 鸿富锦精密工业(深圳)有限公司 服务器及其检测pci系统错误的方法
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN103440174A (zh) * 2013-08-02 2013-12-11 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
WO2018103185A1 (zh) * 2016-12-05 2018-06-14 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN111008091A (zh) * 2019-12-06 2020-04-14 苏州浪潮智能科技有限公司 一种内存ce的故障处理方法、系统及相关装置
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064745A (zh) * 2021-02-20 2021-07-02 山东英信计算机技术有限公司 一种错误信息上报的方法、装置及介质

Also Published As

Publication number Publication date
CN112988442B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US11360842B2 (en) Fault processing method, related apparatus, and computer
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
CN105589776B (zh) 一种故障定位方法及服务器
CN111767184A (zh) 一种故障诊断方法、装置及电子设备和存储介质
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
CN111414268B (zh) 故障处理方法、装置及服务器
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US11853150B2 (en) Method and device for detecting memory downgrade error
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
CN114328102A (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
JPWO2013008281A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112231130B (zh) 一种根据日志定位故障的方法、系统、设备及介质
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
CN112988442B (zh) 一种服务器运行阶段传送故障信息的方法和设备
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
US20140164851A1 (en) Fault Processing in a System
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
JP2011076344A (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
CN113468029A (zh) 日志管理方法、装置、电子设备和可读存储介质
CN112269685B (zh) 一种启动阶段收集硬件错误的方法及装置
CN115373923A (zh) 一种0x7c错误定位方法、装置及介质
CN114356708A (zh) 一种设备故障监控方法、装置、设备及可读存储介质
Khan Time-Series Trend-Based Multi-Level Adaptive Execution Tracing
CN117493291A (zh) 一种日志采集方法、装置、设备及存储介质
CN116893928A (zh) 故障内存的监管方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant