CN109542752A - 一种服务器PCIe设备故障记录的系统及方法 - Google Patents
一种服务器PCIe设备故障记录的系统及方法 Download PDFInfo
- Publication number
- CN109542752A CN109542752A CN201811434099.0A CN201811434099A CN109542752A CN 109542752 A CN109542752 A CN 109542752A CN 201811434099 A CN201811434099 A CN 201811434099A CN 109542752 A CN109542752 A CN 109542752A
- Authority
- CN
- China
- Prior art keywords
- pcie device
- register
- failure
- value
- bios
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004891 communication Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 101150039033 Eci2 gene Proteins 0.000 claims description 3
- 102100021823 Enoyl-CoA delta isomerase 2 Human genes 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000005574 cross-species transmission Effects 0.000 abstract description 3
- 230000006378 damage Effects 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提出了一种服务器PCIe设备故障记录的系统及方法,包括,当BIOS单元监控到PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置,将PCIe设备配置空间寄存器中的AER capability寄存器读取出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;BMC接收所述AER capability寄存器的值以及故障位置信息,并将所述AER capability寄存器的值以及故障位置信息记录到黑盒日志中。黑盒日志保留有用的信息用于分析定位,同时在黑盒内运行其故障,以判断故障的破坏程度。采用本发明的故障记录方法,故障记录详细,而且有利于故障的进一步分析,不会导致信息漏失,同时黑盒可以检测故障的破坏程度。
Description
技术领域
本发明涉及服务器PCIe设备故障领域,具体提供了一种服务器PCIe设备故障记录的系统及方法。
背景技术
PCIe设备是服务器最常见的外设接口之一,大量的部件包括网卡、Raid卡、FPGA卡、GPU卡、NVME硬盘等等都是通过PCIe接口作为外设设备应用在服务器系统当中。当前PCIe设备已经经历了Gen1、Gen2、Gen3三代接口,Gen4也即将大量量产应用。目前最常见的设备是应用PCIe Gen3接口,接口速率高达8Gb/s,接口速率快,对系统兼容性和稳定性要求很高。如何保证PCIe设备在服务器系统中的稳定性和可用性是服务器系统设计的难点之一。PCIe设备在系统中的故障包括uncorrectable fatal error、correctable non-fatalerror和correctable error三类。当发生correctable non-fatal error和correctableerror时,服务器系统往往有性能降低等现象,而且在某些场景下,这两类错误和uncorrectable fatal error是有联系的;当出现uncorrectable fatal error时,服务器系统往往会发生宕机和重启等现象,验证影响线上业务的运行。
除了在设计中follow各种spec之外,能快速定位PCIe设备的故障原因也很重要。PCIe设备的配置空间中包含多个capability,其中AER(advanced error reporting)这个capability中的uncorrectable error status register、correctable error statusregister、header log register等非常重要,往往可以直接指明PCIe报错的原因。可以在出现问题的时候通过带外IPMI命令直接读取到上述寄存器,但是同样可以通过服务器系统中的BMC黑盒日志进行记录,当发生故障时,直接调取BMC的黑盒日志进行debug处理。目前在黑盒日志中往往只是记录某一个地址的PCIe设备发生了故障,并记录大概的故障类型,如uncorrectable fatal error、correctable non-fatal error和correctable error等,不会对故障现象进行具体的记录。故障记录过于笼统,而且不利于故障的进一步分析,容易导致信息漏失。
发明内容
针对以上缺点,本发明提出了一种服务器PCIe设备故障记录的系统及方法,一种服务器PCIe设备故障记录的系统,包括:
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;所述寄存器的值和故障信息位于所述空间寄存器的AERcapability中;
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
黑盒日志:用于记录寄存器的值和故障位置信息,并根据所述寄存器的值对寄存器进行解析;
所述BIOS单元通过PECI链路与CPU单元数据通信;所述BMC单元通过KCS链路与BIOS单元数据通信。
进一步的,所述故障PCIe设备的寄存器包括uncorrectable error statusregister、correctable error status register和header log register。
进一步的,所述故障信息的类型包括uncorrectable fatal error、correctablenon-fatal error和correctable error。
进一步的,所述BIOS单元包括监测单元和收集单元;
所述监测单元用于检测PCIe设备是否发生UCE故障;
所述收集单元用于收集故障PCIe设备的寄存器的值和故障信息。
进一步的,所述BMC单元包括接收模块和写入模块;
所述接收模块用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;所述写入模块用于将寄存器的值和故障位置信息记录到黑盒日志中。
一种服务器PCIe设备故障记录的方法,是基于一种服务器PCIe设备故障记录的系统实现的,包括以下步骤:
S1:当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;
S2:BMC单元接收所述AER capability寄存器的值以及故障位置信息,并将所述AER capability寄存器的值以及故障位置信息记录到黑盒日志中。
进一步的,在执行步骤S1之前,还包括当PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置。
进一步的,所述BIOS单元判断故障的位置的方法为当PCIe链路上出现UCE错误,系统通过NMI中断的方式发送Error Message给Root,通知Root发生了System Error;所述NMI中断中包括PCIE故障的位置信息,所述BIOS接收到所述NMI中断后,通过NMI中断向量得出故障位置信息。
进一步的,在步骤S1中,所述当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来的方法为,在intel的EDS文档中指明了所述PCIe设备配置空间寄存器的地址,BIOS通过访问所述PCIe设备配置空间寄存器的地址读取在CPU单元的PCIe设备配置空间寄存器。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种服务器PCIe设备故障记录的系统及方法,包括,当BIOS单元监控到PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来,并将AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;BMC接收AER capability寄存器的值以及故障位置信息,并将AER capability寄存器的值以及故障位置信息记录到黑盒日志中。用于记录寄存器的值和故障位置信息,并根据寄存器的值对寄存器进行解析。采用本发明的故障记录方法,故障记录详细,而且有利于故障的进一步分析,不会导致信息漏失。
附图说明
图1是本发明实施例一种服务器PCIe设备故障记录的系统架构图;
图2是本发明实施例一种服务器PCIe设备故障记录的方法流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提供了一种服务器PCIe设备故障记录的系统及方法。如图1所示为一种服务器PCIe设备故障记录的系统架构图。该系统包括
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;寄存器的值和故障信息位于CPU空间寄存器的AER capability中;故障PCIe设备的寄存器包括uncorrectable error status register、correctable errorstatus register和header log register。
故障信息的类型包括uncorrectable fatal error、correctable non-fatalerror和correctable error。
BIOS单元包括监测单元和收集单元;监测单元用于检测PCIe设备是否发生UCE故障;收集单元用于收集故障PCIe设备的寄存器的值和故障信息。
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
BMC单元包括接收模块和写入模块;接收模块用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;写入模块用于将寄存器的值和故障位置信息记录到黑盒日志中。
黑盒日志:用于记录寄存器的值和故障位置信息,并根据寄存器的值对寄存器进行解析。如果所属错误为uncorrectable fatal error的话,则这些错误会对系统造成毁灭性的影响,一般伴随着宕机或者重启、kernel panic等,那么BMC除了记录错误外,可以控制前面板错误指示灯中的红灯亮起,通知运维发生严重故障,急需修理。
BIOS单元通过PECI链路与CPU单元数据通信;BMC单元通过KCS链路与BIOS单元数据通信。
基于本发明实施例1的一种服务器PCIe设备故障记录的系统,本发明实施例还提出了一种服务器PCIe设备故障记录的方法。图2为本发明实施例一种服务器PCIe设备故障记录的方法流程图。
在步骤S201中,开始处理该流程;
在步骤S202中,PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置。判断故障位置的方法为当PCIe链路上出现UCE错误,系统通过NMI中断的方式发送ErrorMessage给Root,通知Root发生了System Error;NMI中断中包括PCIE故障的位置信息,BIOS接收到NMI中断后,通过NMI中断向量得出故障位置信息。
在步骤S203中,当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AER capability寄存器收集出来。采用的方法为在intel的EDS文档中指明了PCIe设备配置空间寄存器的地址,BIOS通过访问PCIe设备配置空间寄存器的地址读取在CPU单元的PCIe设备配置空间寄存器。
在步骤S204中,BIOS单元将AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC。
在步骤S205中,BMC单元接收AER capability寄存器的值以及故障位置信息。
在步骤S206中,将AER capability寄存器的值以及故障位置信息记录到黑盒日志中。
在步骤S207中,用于记录寄存器的值和故障位置信息,并根据寄存器的值对寄存器进行解析。如果所属错误为uncorrectable fatal error的话,则这些错误会对系统造成毁灭性的影响,一般伴随着宕机或者重启、kernel panic等,那么BMC除了记录错误外,可以控制前面板错误指示灯中的红灯亮起,通知运维发生严重故障,急需修理。如果解析出来错误为correctable non-fatal error和correctable error,则BMC在黑盒日志中记录寄存器的值和故障位置信息。
在步骤S208中,整个流程结束。
尽管说明书及附图和实施例对本发明创造已进行了详细的说明,但是,本领域技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换;而一切不脱离本发明创造的精神和范围的技术方案及其改进,其均涵盖在本发明创造专利的保护范围当中。
Claims (9)
1.一种服务器PCIe设备故障记录的系统,其特征在于,包括:
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;所述寄存器的值和故障信息位于CPU单元空间寄存器中的AERcapability中;
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
黑盒日志:用于记录寄存器的值和故障位置信息,并根据所述寄存器的值对寄存器进行解析;
所述BIOS单元通过PECI链路与CPU单元数据通信;所述BMC单元通过KCS链路与BIOS单元数据通信。
2.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述故障PCIe设备的寄存器包括uncorrectable error status register、correctable errorstatus register和header log register。
3.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述故障信息的类型包括uncorrectable fatal error、correctable non-fatal error和correctable error。
4.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述BIOS单元包括监测单元和收集单元;
所述监测单元用于检测PCIe设备是否发生UCE故障;
所述收集单元用于收集故障PCIe设备的寄存器的值和故障信息。
5.根据权利要求1所述的一种服务器PCIe设备故障记录的系统,其特征在于,所述BMC单元包括接收模块和写入模块;
所述接收模块用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;所述写入模块用于将寄存器的值和故障位置信息记录到黑盒日志中。
6.一种服务器PCIe设备故障记录的方法,是基于权利要求1至5任意一项所述的一种服务器PCIe设备故障记录的系统实现的,其特征在于,包括以下步骤:
S1:当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AERcapability寄存器收集出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;
S2:BMC单元接收所述AER capability寄存器的值以及故障位置信息,并将所述AERcapability寄存器的值以及故障位置信息记录到黑盒日志中。
7.根据权利要求6所述的一种服务器PCIe设备故障记录的方法,其特征在于,在执行步骤S1之前,还包括当PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置。
8.根据权利要求7所述的一种服务器PCIe设备故障记录的方法,其特征在于,所述BIOS单元判断故障的位置的方法为当PCIe链路上出现UCE错误,系统通过NMI中断的方式发送Error Message给Root,通知Root发生了System Error;所述NMI中断中包括PCIE故障的位置信息,所述BIOS接收到所述NMI中断后,通过NMI中断向量得出故障位置信息。
9.根据权利要求6所述的一种服务器PCIe设备故障记录的方法,其特征在于,在步骤S1中,所述当BIOS单元监控到PCIe设备发生UCE故障时,将PCIe设备配置空间寄存器中的AERcapability寄存器收集出来的方法为,在intel的EDS文档中指明了所述PCIe设备配置空间寄存器的地址,BIOS通过访问所述PCIe设备配置空间寄存器的地址读取在CPU单元的PCIe设备配置空间寄存器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811434099.0A CN109542752A (zh) | 2018-11-28 | 2018-11-28 | 一种服务器PCIe设备故障记录的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811434099.0A CN109542752A (zh) | 2018-11-28 | 2018-11-28 | 一种服务器PCIe设备故障记录的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109542752A true CN109542752A (zh) | 2019-03-29 |
Family
ID=65850723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811434099.0A Withdrawn CN109542752A (zh) | 2018-11-28 | 2018-11-28 | 一种服务器PCIe设备故障记录的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109542752A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362435A (zh) * | 2019-06-25 | 2019-10-22 | 苏州浪潮智能科技有限公司 | Purley平台服务器的PCIE故障定位方法、装置、设备及介质 |
CN110377136A (zh) * | 2019-06-18 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种psu原始值日志记录方法及装置 |
CN110457164A (zh) * | 2019-07-08 | 2019-11-15 | 华为技术有限公司 | 设备管理的方法、装置和服务器 |
CN110609778A (zh) * | 2019-08-16 | 2019-12-24 | 苏州浪潮智能科技有限公司 | 一种保存服务器宕机日志的方法及系统 |
CN111414268A (zh) * | 2020-02-26 | 2020-07-14 | 华为技术有限公司 | 故障处理方法、装置及服务器 |
CN111625382A (zh) * | 2020-05-21 | 2020-09-04 | 浪潮电子信息产业股份有限公司 | 一种服务器故障诊断方法、装置、设备及介质 |
CN111796571A (zh) * | 2020-07-09 | 2020-10-20 | 广东智源机器人科技有限公司 | 设备故障检测方法、装置、计算机设备和存储介质 |
CN111949431A (zh) * | 2020-08-27 | 2020-11-17 | 英业达科技有限公司 | 片上系统产品的致命错误提供方法与致命错误识别方法 |
CN112637248A (zh) * | 2021-03-09 | 2021-04-09 | 厚普清洁能源股份有限公司 | 一种lng加注趸船的船端、岸端设备通信处理方法 |
CN113253941A (zh) * | 2021-06-22 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种寄存器读取方法、装置、设备和介质 |
NL2029030A (en) * | 2020-09-25 | 2022-05-24 | Intel Corp | Device, system and method to determine a structure of a crash log record |
CN116382968A (zh) * | 2023-06-05 | 2023-07-04 | 苏州浪潮智能科技有限公司 | 外部设备的故障检测方法以及装置 |
CN117331723A (zh) * | 2023-11-30 | 2024-01-02 | 苏州元脑智能科技有限公司 | 应用于arm服务器的arm安全固件配置方法及装置 |
-
2018
- 2018-11-28 CN CN201811434099.0A patent/CN109542752A/zh not_active Withdrawn
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377136A (zh) * | 2019-06-18 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种psu原始值日志记录方法及装置 |
CN110362435A (zh) * | 2019-06-25 | 2019-10-22 | 苏州浪潮智能科技有限公司 | Purley平台服务器的PCIE故障定位方法、装置、设备及介质 |
CN110362435B (zh) * | 2019-06-25 | 2022-07-08 | 苏州浪潮智能科技有限公司 | Purley平台服务器的PCIE故障定位方法、装置、设备及介质 |
CN110457164A (zh) * | 2019-07-08 | 2019-11-15 | 华为技术有限公司 | 设备管理的方法、装置和服务器 |
CN110609778A (zh) * | 2019-08-16 | 2019-12-24 | 苏州浪潮智能科技有限公司 | 一种保存服务器宕机日志的方法及系统 |
CN111414268B (zh) * | 2020-02-26 | 2022-05-13 | 华为技术有限公司 | 故障处理方法、装置及服务器 |
CN111414268A (zh) * | 2020-02-26 | 2020-07-14 | 华为技术有限公司 | 故障处理方法、装置及服务器 |
CN111625382A (zh) * | 2020-05-21 | 2020-09-04 | 浪潮电子信息产业股份有限公司 | 一种服务器故障诊断方法、装置、设备及介质 |
CN111625382B (zh) * | 2020-05-21 | 2022-06-10 | 浪潮电子信息产业股份有限公司 | 一种服务器故障诊断方法、装置、设备及介质 |
CN111796571A (zh) * | 2020-07-09 | 2020-10-20 | 广东智源机器人科技有限公司 | 设备故障检测方法、装置、计算机设备和存储介质 |
CN111949431A (zh) * | 2020-08-27 | 2020-11-17 | 英业达科技有限公司 | 片上系统产品的致命错误提供方法与致命错误识别方法 |
NL2029030A (en) * | 2020-09-25 | 2022-05-24 | Intel Corp | Device, system and method to determine a structure of a crash log record |
US12013746B2 (en) | 2020-09-25 | 2024-06-18 | Intel Corporation | Device, system and method to determine a structure of a crash log record |
CN112637248A (zh) * | 2021-03-09 | 2021-04-09 | 厚普清洁能源股份有限公司 | 一种lng加注趸船的船端、岸端设备通信处理方法 |
CN113253941A (zh) * | 2021-06-22 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种寄存器读取方法、装置、设备和介质 |
US11860718B2 (en) | 2021-06-22 | 2024-01-02 | Inspur Suzhou Intelligent Technology Co., Ltd. | Register reading method and apparatus, device, and medium |
CN116382968A (zh) * | 2023-06-05 | 2023-07-04 | 苏州浪潮智能科技有限公司 | 外部设备的故障检测方法以及装置 |
CN116382968B (zh) * | 2023-06-05 | 2023-08-18 | 苏州浪潮智能科技有限公司 | 外部设备的故障检测方法以及装置 |
CN117331723A (zh) * | 2023-11-30 | 2024-01-02 | 苏州元脑智能科技有限公司 | 应用于arm服务器的arm安全固件配置方法及装置 |
CN117331723B (zh) * | 2023-11-30 | 2024-02-27 | 苏州元脑智能科技有限公司 | 应用于arm服务器的arm安全固件配置方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542752A (zh) | 一种服务器PCIe设备故障记录的系统及方法 | |
US6944796B2 (en) | Method and system to implement a system event log for system manageability | |
Kasick et al. | Black-Box Problem Diagnosis in Parallel File Systems. | |
US6829729B2 (en) | Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error | |
US20150234730A1 (en) | Systems and methods for performing software debugging | |
CN103500133A (zh) | 故障定位方法及装置 | |
CN109614259A (zh) | 一种服务器PCIe设备定位故障原因的系统及方法 | |
US20090031171A1 (en) | Apparatus, system, and method for responsive acquisition of remote debug data | |
CN105468484A (zh) | 用于在存储系统中确定故障位置的方法和装置 | |
CN109388623A (zh) | 一种设备故障检测的方法、系统及相关组件 | |
CN108984332A (zh) | 一种定位服务器宕机故障的装置及方法 | |
US20020144181A1 (en) | Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex | |
CN106681878A (zh) | 一种pcie通道带宽的测试方法 | |
CN104750600B (zh) | 设备状态记录方法和系统 | |
US8949669B1 (en) | Error detection, correction and triage of a storage array errors | |
CN114281639A (zh) | 一种存储服务器故障sas物理链路屏蔽装置及方法 | |
US8880957B2 (en) | Facilitating processing in a communications environment using stop signaling | |
US20230025081A1 (en) | Model training method, failure determining method, electronic device, and program product | |
US8589722B2 (en) | Methods and structure for storing errors for error recovery in a hardware controller | |
CN111324516A (zh) | 自动记录异常事件的方法及装置、存储介质、电子设备 | |
US10846162B2 (en) | Secure forking of error telemetry data to independent processing units | |
CN109491846B (zh) | 一种用于服务器抓取SATA硬盘trace的方法和系统 | |
CN103390429B (zh) | 一种硬盘的在线检测方法及服务器 | |
US10348605B2 (en) | Embedding analyzer functionality in storage devices | |
Taerat et al. | Using log information to perform statistical analysis on failures encountered by large-scale HPC deployments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190329 |