CN109542752A - 一种服务器PCIe设备故障记录的系统及方法 - Google Patents

一种服务器PCIe设备故障记录的系统及方法 Download PDF

Info

Publication number
CN109542752A
CN109542752A CN201811434099.0A CN201811434099A CN109542752A CN 109542752 A CN109542752 A CN 109542752A CN 201811434099 A CN201811434099 A CN 201811434099A CN 109542752 A CN109542752 A CN 109542752A
Authority
CN
China
Prior art keywords
pcie device
register
failure
value
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811434099.0A
Other languages
English (en)
Inventor
孙心
孙一心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811434099.0A priority Critical patent/CN109542752A/zh
Publication of CN109542752A publication Critical patent/CN109542752A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种服务器PCIe设备故障记录的系统及方法,包括,当BIOS单元监控到PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置,将PCIe设备配置空间寄存器中的AER capability寄存器读取出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;BMC接收所述AER capability寄存器的值以及故障位置信息,并将所述AER capability寄存器的值以及故障位置信息记录到黑盒日志中。黑盒日志保留有用的信息用于分析定位,同时在黑盒内运行其故障,以判断故障的破坏程度。采用本发明的故障记录方法,故障记录详细,而且有利于故障的进一步分析,不会导致信息漏失,同时黑盒可以检测故障的破坏程度。

Description

一种服务器PCIe设备故障记录的系统及方法
技术领域
本发明涉及服务器PCIe设备故障领域,具体提供了一种服务器PCIe设备故障记录的系统及方法。
背景技术
PCIe设备是服务器最常见的外设接口之一,大量的部件包括网卡、Raid卡、FPGA卡、GPU卡、NVME硬盘等等都是通过PCIe接口作为外设设备应用在服务器系统当中。当前PCIe设备已经经历了Gen1、Gen2、Gen3三代接口,Gen4也即将大量量产应用。目前最常见的设备是应用PCIe Gen3接口,接口速率高达8Gb/s,接口速率快,对系统兼容性和稳定性要求很高。如何保证PCIe设备在服务器系统中的稳定性和可用性是服务器系统设计的难点之一。PCIe设备在系统中的故障包括uncorrectable fatal error、correctable non-fatalerror和correctable error三类。当发生correctable non-fatal error和correctableerror时,服务器系统往往有性能降低等现象,而且在某些场景下,这两类错误和uncorrectable fatal error是有联系的;当出现uncorrectable fatal error时,服务器系统往往会发生宕机和重启等现象,验证影响线上业务的运行。
除了在设计中follow各种spec之外,能快速定位PCIe设备的故障原因也很重要。PCIe设备的配置空间中包含多个capability,其中AER(advanced error reporting)这个capability中的uncorrectable error status register、correctable error statusregister、header log register等非常重要,往往可以直接指明PCIe报错的原因。可以在出现问题的时候通过带外IPMI命令直接读取到上述寄存器,但是同样可以通过服务器系统中的BMC黑盒日志进行记录,当发生故障时,直接调取BMC的黑盒日志进行debug处理。目前在黑盒日志中往往只是记录某一个地址的PCIe设备发生了故障,并记录大概的故障类型,如uncorrectable fatal error、correctable non-fatal error和correctable error等,不会对故障现象进行具体的记录。故障记录过于笼统,而且不利于故障的进一步分析,容易导致信息漏失。
发明内容
针对以上缺点,本发明提出了一种服务器PCIe设备故障记录的系统及方法,一种服务器PCIe设备故障记录的系统,包括:
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;所述寄存器的值和故障信息位于所述空间寄存器的AERcapability中;
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
黑盒日志:用于记录寄存器的值和故障位置信息,并根据所述寄存器的值对寄存器进行解析;
所述BIOS单元通过PECI链路与CPU单元数据通信;所述BMC单元通过KCS链路与BIOS单元数据通信。
进一步的,所述故障PCIe设备的寄存器包括uncorrectable error statusregister、correctable error status register和header log register。
进一步的,所述故障信息的类型包括uncorrectable fatal error、correctablenon-fatal error和correctable error。
进一步的,所述BIOS单元包括监测单元和收集单元;
所述监测单元用于检测PCIe设备是否发生UCE故障;
所述收集单元用于收集故障PCIe设备的寄存器的值和故障信息。
进一步的,所述BMC单元包括接收模块和写入模块;
所述接收模块用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;所述写入模块用于将寄存器的值和故障位置信息记录到黑盒日志中。
一种服务器PCIe设备故障记录的方法,是基于一种服务器PCIe设备故障记录的系统实现的,包括以下步骤:
S1:当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;
S2:BMC单元接收所述AER capability寄存器的值以及故障位置信息,并将所述AER capability寄存器的值以及故障位置信息记录到黑盒日志中。
进一步的,在执行步骤S1之前,还包括当PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置。
进一步的,所述BIOS单元判断故障的位置的方法为当PCIe链路上出现UCE错误,系统通过NMI中断的方式发送Error Message给Root,通知Root发生了System Error;所述NMI中断中包括PCIE故障的位置信息,所述BIOS接收到所述NMI中断后,通过NMI中断向量得出故障位置信息。
进一步的,在步骤S1中,所述当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来的方法为,在intel的EDS文档中指明了所述PCIe设备配置空间寄存器的地址,BIOS通过访问所述PCIe设备配置空间寄存器的地址读取在CPU单元的PCIe设备配置空间寄存器。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种服务器PCIe设备故障记录的系统及方法,包括,当BIOS单元监控到PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来,并将AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;BMC接收AER capability寄存器的值以及故障位置信息,并将AER capability寄存器的值以及故障位置信息记录到黑盒日志中。用于记录寄存器的值和故障位置信息,并根据寄存器的值对寄存器进行解析。采用本发明的故障记录方法,故障记录详细,而且有利于故障的进一步分析,不会导致信息漏失。
附图说明
图1是本发明实施例一种服务器PCIe设备故障记录的系统架构图;
图2是本发明实施例一种服务器PCIe设备故障记录的方法流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提供了一种服务器PCIe设备故障记录的系统及方法。如图1所示为一种服务器PCIe设备故障记录的系统架构图。该系统包括
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;寄存器的值和故障信息位于CPU空间寄存器的AER capability中;故障PCIe设备的寄存器包括uncorrectable error status register、correctable errorstatus register和header log register。
故障信息的类型包括uncorrectable fatal error、correctable non-fatalerror和correctable error。
BIOS单元包括监测单元和收集单元;监测单元用于检测PCIe设备是否发生UCE故障;收集单元用于收集故障PCIe设备的寄存器的值和故障信息。
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
BMC单元包括接收模块和写入模块;接收模块用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;写入模块用于将寄存器的值和故障位置信息记录到黑盒日志中。
黑盒日志:用于记录寄存器的值和故障位置信息,并根据寄存器的值对寄存器进行解析。如果所属错误为uncorrectable fatal error的话,则这些错误会对系统造成毁灭性的影响,一般伴随着宕机或者重启、kernel panic等,那么BMC除了记录错误外,可以控制前面板错误指示灯中的红灯亮起,通知运维发生严重故障,急需修理。
BIOS单元通过PECI链路与CPU单元数据通信;BMC单元通过KCS链路与BIOS单元数据通信。
基于本发明实施例1的一种服务器PCIe设备故障记录的系统,本发明实施例还提出了一种服务器PCIe设备故障记录的方法。图2为本发明实施例一种服务器PCIe设备故障记录的方法流程图。
在步骤S201中,开始处理该流程;
在步骤S202中,PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置。判断故障位置的方法为当PCIe链路上出现UCE错误,系统通过NMI中断的方式发送ErrorMessage给Root,通知Root发生了System Error;NMI中断中包括PCIE故障的位置信息,BIOS接收到NMI中断后,通过NMI中断向量得出故障位置信息。
在步骤S203中,当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来。采用的方法为在intel的EDS文档中指明了PCIe设备配置空间寄存器的地址,BIOS通过访问PCIe设备配置空间寄存器的地址读取在CPU单元的PCIe设备配置空间寄存器。
在步骤S204中,BIOS单元将AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC。
在步骤S205中,BMC单元接收AER capability寄存器的值以及故障位置信息。
在步骤S206中,将AER capability寄存器的值以及故障位置信息记录到黑盒日志中。
在步骤S207中,用于记录寄存器的值和故障位置信息,并根据寄存器的值对寄存器进行解析。如果所属错误为uncorrectable fatal error的话,则这些错误会对系统造成毁灭性的影响,一般伴随着宕机或者重启、kernel panic等,那么BMC除了记录错误外,可以控制前面板错误指示灯中的红灯亮起,通知运维发生严重故障,急需修理。如果解析出来错误为correctable non-fatal error和correctable error,则BMC在黑盒日志中记录寄存器的值和故障位置信息。
在步骤S208中,整个流程结束。
尽管说明书及附图和实施例对本发明创造已进行了详细的说明,但是,本领域技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换;而一切不脱离本发明创造的精神和范围的技术方案及其改进,其均涵盖在本发明创造专利的保护范围当中。

Claims (9)

1.一种服务器PCIe设备故障记录的系统,其特征在于,包括:
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;所述寄存器的值和故障信息位于CPU单元空间寄存器中的AERcapability中;
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
黑盒日志:用于记录寄存器的值和故障位置信息,并根据所述寄存器的值对寄存器进行解析;
所述BIOS单元通过PECI链路与CPU单元数据通信;所述BMC单元通过KCS链路与BIOS单元数据通信。
2.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述故障PCIe设备的寄存器包括uncorrectable error status register、correctable errorstatus register和header log register。
3.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述故障信息的类型包括uncorrectable fatal error、correctable non-fatal error和correctable error。
4.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述BIOS单元包括监测单元和收集单元;
所述监测单元用于检测PCIe设备是否发生UCE故障;
所述收集单元用于收集故障PCIe设备的寄存器的值和故障信息。
5.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述BMC单元包括接收模块和写入模块;
所述接收模块用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;所述写入模块用于将寄存器的值和故障位置信息记录到黑盒日志中。
6.一种服务器PCIe设备故障记录的方法,是基于权利要求1至5任意一项所述的一种服务器PCIe设备故障记录的系统实现的,其特征在于,包括以下步骤:
S1:当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AERcapability寄存器收集出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;
S2:BMC单元接收所述AER capability寄存器的值以及故障位置信息,并将所述AERcapability寄存器的值以及故障位置信息记录到黑盒日志中。
7.根据权利要求6所述的一种服务器PCIe设备故障记录的方法,其特征在于,在执行步骤S1之前,还包括当PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置。
8.根据权利要求7所述的一种服务器PCIe设备故障记录的方法,其特征在于,所述BIOS单元判断故障的位置的方法为当PCIe链路上出现UCE错误,系统通过NMI中断的方式发送Error Message给Root,通知Root发生了System Error;所述NMI中断中包括PCIE故障的位置信息,所述BIOS接收到所述NMI中断后,通过NMI中断向量得出故障位置信息。
9.根据权利要求6所述的一种服务器PCIe设备故障记录的方法,其特征在于,在步骤S1中,所述当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AERcapability寄存器收集出来的方法为,在intel的EDS文档中指明了所述PCIe设备配置空间寄存器的地址,BIOS通过访问所述PCIe设备配置空间寄存器的地址读取在CPU单元的PCIe设备配置空间寄存器。
CN201811434099.0A 2018-11-28 2018-11-28 一种服务器PCIe设备故障记录的系统及方法 Withdrawn CN109542752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811434099.0A CN109542752A (zh) 2018-11-28 2018-11-28 一种服务器PCIe设备故障记录的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811434099.0A CN109542752A (zh) 2018-11-28 2018-11-28 一种服务器PCIe设备故障记录的系统及方法

Publications (1)

Publication Number Publication Date
CN109542752A true CN109542752A (zh) 2019-03-29

Family

ID=65850723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811434099.0A Withdrawn CN109542752A (zh) 2018-11-28 2018-11-28 一种服务器PCIe设备故障记录的系统及方法

Country Status (1)

Country Link
CN (1) CN109542752A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362435A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN110377136A (zh) * 2019-06-18 2019-10-25 苏州浪潮智能科技有限公司 一种psu原始值日志记录方法及装置
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN110609778A (zh) * 2019-08-16 2019-12-24 苏州浪潮智能科技有限公司 一种保存服务器宕机日志的方法及系统
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111796571A (zh) * 2020-07-09 2020-10-20 广东智源机器人科技有限公司 设备故障检测方法、装置、计算机设备和存储介质
CN111949431A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 片上系统产品的致命错误提供方法与致命错误识别方法
CN112637248A (zh) * 2021-03-09 2021-04-09 厚普清洁能源股份有限公司 一种lng加注趸船的船端、岸端设备通信处理方法
CN113253941A (zh) * 2021-06-22 2021-08-13 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
NL2029030A (en) * 2020-09-25 2022-05-24 Intel Corp Device, system and method to determine a structure of a crash log record
CN116382968A (zh) * 2023-06-05 2023-07-04 苏州浪潮智能科技有限公司 外部设备的故障检测方法以及装置
CN117331723A (zh) * 2023-11-30 2024-01-02 苏州元脑智能科技有限公司 应用于arm服务器的arm安全固件配置方法及装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377136A (zh) * 2019-06-18 2019-10-25 苏州浪潮智能科技有限公司 一种psu原始值日志记录方法及装置
CN110362435A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN110362435B (zh) * 2019-06-25 2022-07-08 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN110609778A (zh) * 2019-08-16 2019-12-24 苏州浪潮智能科技有限公司 一种保存服务器宕机日志的方法及系统
CN111414268B (zh) * 2020-02-26 2022-05-13 华为技术有限公司 故障处理方法、装置及服务器
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111625382B (zh) * 2020-05-21 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111796571A (zh) * 2020-07-09 2020-10-20 广东智源机器人科技有限公司 设备故障检测方法、装置、计算机设备和存储介质
CN111949431A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 片上系统产品的致命错误提供方法与致命错误识别方法
NL2029030A (en) * 2020-09-25 2022-05-24 Intel Corp Device, system and method to determine a structure of a crash log record
US12013746B2 (en) 2020-09-25 2024-06-18 Intel Corporation Device, system and method to determine a structure of a crash log record
CN112637248A (zh) * 2021-03-09 2021-04-09 厚普清洁能源股份有限公司 一种lng加注趸船的船端、岸端设备通信处理方法
CN113253941A (zh) * 2021-06-22 2021-08-13 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
US11860718B2 (en) 2021-06-22 2024-01-02 Inspur Suzhou Intelligent Technology Co., Ltd. Register reading method and apparatus, device, and medium
CN116382968A (zh) * 2023-06-05 2023-07-04 苏州浪潮智能科技有限公司 外部设备的故障检测方法以及装置
CN116382968B (zh) * 2023-06-05 2023-08-18 苏州浪潮智能科技有限公司 外部设备的故障检测方法以及装置
CN117331723A (zh) * 2023-11-30 2024-01-02 苏州元脑智能科技有限公司 应用于arm服务器的arm安全固件配置方法及装置
CN117331723B (zh) * 2023-11-30 2024-02-27 苏州元脑智能科技有限公司 应用于arm服务器的arm安全固件配置方法及装置

Similar Documents

Publication Publication Date Title
CN109542752A (zh) 一种服务器PCIe设备故障记录的系统及方法
US6944796B2 (en) Method and system to implement a system event log for system manageability
Kasick et al. Black-Box Problem Diagnosis in Parallel File Systems.
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
US20150234730A1 (en) Systems and methods for performing software debugging
CN103500133A (zh) 故障定位方法及装置
CN109614259A (zh) 一种服务器PCIe设备定位故障原因的系统及方法
US20090031171A1 (en) Apparatus, system, and method for responsive acquisition of remote debug data
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
CN109388623A (zh) 一种设备故障检测的方法、系统及相关组件
CN108984332A (zh) 一种定位服务器宕机故障的装置及方法
US20020144181A1 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
CN106681878A (zh) 一种pcie通道带宽的测试方法
CN104750600B (zh) 设备状态记录方法和系统
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN114281639A (zh) 一种存储服务器故障sas物理链路屏蔽装置及方法
US8880957B2 (en) Facilitating processing in a communications environment using stop signaling
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product
US8589722B2 (en) Methods and structure for storing errors for error recovery in a hardware controller
CN111324516A (zh) 自动记录异常事件的方法及装置、存储介质、电子设备
US10846162B2 (en) Secure forking of error telemetry data to independent processing units
CN109491846B (zh) 一种用于服务器抓取SATA硬盘trace的方法和系统
CN103390429B (zh) 一种硬盘的在线检测方法及服务器
US10348605B2 (en) Embedding analyzer functionality in storage devices
Taerat et al. Using log information to perform statistical analysis on failures encountered by large-scale HPC deployments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190329