CN103198000A - 一种linux系统下的故障内存位置定位方法 - Google Patents
一种linux系统下的故障内存位置定位方法 Download PDFInfo
- Publication number
- CN103198000A CN103198000A CN201310112243XA CN201310112243A CN103198000A CN 103198000 A CN103198000 A CN 103198000A CN 201310112243X A CN201310112243X A CN 201310112243XA CN 201310112243 A CN201310112243 A CN 201310112243A CN 103198000 A CN103198000 A CN 103198000A
- Authority
- CN
- China
- Prior art keywords
- mcelog
- memory
- error
- fault
- mca
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种linux系统下的故障内存位置定位方法,该方法不依赖于主板bmc对内存故障的判断和记录,利用系统产生的mcelog记录,配合实际物理槽位比对关系,快速判断故障内存错误类型和故障位置,快速解决由于内存故障导致的服务器死机、蓝屏等问题,相比目前的内存故障判断判断方法具有:1.不依赖于主板bmc对内存故障跟踪和定位功能。2.不需要现场重复压力测试,等待故障出现和交换内存测试定位故障内存位置,可以依据已经生成的mcelog日志,快速判断故障出现频率、故障原因和故障位置。3.实现方式简单,提高判断解决问题的效率。
Description
技术领域
本发明涉及计算机应用领域,具体地说是一种linux系统下的故障内存位置定位方法。
背景技术
对于故障内存位置的判断,之前有两种通用方法:
1)利用主板集成bmc的内存故障定位和记录功能,在内存发生可纠正ecc错误或不可纠正ecc错误时,主板bmc可以记录内存错误信息,并记录故障发生内存槽位,从而快速定位故障内存位置,但这种方法的使用有一定局限性,首先,必须保证服务器存在bmc的管理芯片,然而bmc管理是近几年才开始使用的技术,早期一般机型并无bmc管理芯片;再者,即使机器自带bmc芯片,其不一定具备内存故障定位功能,需要独立开发,所以依旧未必能实现内存故障的定位和检测;bmc内存故障定位功能受管理芯片的存在与否和自身功能的限制,无法成为一个通用的解决方案;
2)内存压力测试:初步判断属于内存故障后,需要从十几条内存中定位哪条内存出现了故障,使用内存压力测试工具,对系统平台和内存进行分批测试,逐渐缩小范围,最终定位哪条内存故障,此方法的使用也存在一定局限:首先对于大容量内存的压力测试,故障复现时间不易掌握,很有可能压力测试一天未必复现故障,尤其对于客户1周左右出现一次故障的机器,复现问题比较困难;其二,使用分批测试的方法,整体测试时间偏长;其三,无法排除是否因为内存接触不良或cpu本身内存控制器问题从而不能做到精确定位;
以上两种通用的处理方法都存在各自致命的使用缺陷,本发明完全不依赖于bmc芯片及其功能,不用压力测试,使用系统运行中生成的mcelog记录,精确定位故障内存错误信息、报错频率及其在主板上的位置,快速定位和解决内存故障。
发明内容
本发明的目的是提供一种linux系统下的故障内存位置定位方法。
本发明的目的是按以下方式实现的,
具体步骤如下:
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求;
32 bit x86 Linux:Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64 Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装,从hardware monitoring 选项卡中查找;
如果要随机器启动,请使用 chkconfig 命令;
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog 相关文件
设备文件/dev/mcelog
日志文件/var/log/mcelog
配置文件/etc/mcelog/mcelog.conf
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明如下:
在计算机中,机器校验架构MCA是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;当一个ECC错误产生的时,位于cpu中的特定模型寄存器MSRs会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由特定模型寄存器MSRs记录下当时各种状态信息,交给操作系统处理,使用MCElog软件解析错误出现的方式,位置以及状态的信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,当 CPU 检测到总线,CHIPSET,内存,CACHE硬件出现致命错误时会触发这类异常,这些错误对系统的稳定性危害极大而且无法恢复,会触发系统的复位操作, MCA 架构,OS根据不同的错误源产生的错误类别,错误的严重程度,选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构记录MCE信息,生成mcelog进行故障分析:
MCELOG:
MCELOG 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具,且产生日志位置:/var/log/mcelog;日志中记录内存故障发生时间、频率、故障类型及故障内存位置。
本发明的有益效果是:不依赖于主板bmc对内存故障的判断和记录,利用系统产生的mcelog记录,配合实际物理槽位比对关系,快速判断故障内存错误类型和故障位置,快速解决由于内存故障导致的服务器死机、蓝屏等问题,相比目前的内存故障判断判断方法具有:
1.不依赖于主板bmc对内存故障跟踪和定位功能;
2.不需要现场重复压力测试,等待故障出现和交换内存测试定位故障内存位置,可以依据已经生成的mcelog日志,快速判断故障出现频率、故障原因和故障位置;
3.实现方式简单,提高判断解决问题的效率。
附图说明
图1是故障内存位置定位流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
故障内存位置定位流程及示例说明:
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求
32 bit x86 Linux : Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64 Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装(hardware monitoring 选项卡中);
如果要随机器启动,请使用 chkconfig 命令
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog 相关文件
/dev/mcelog(设备文件)
/var/log/mcelog(日志文件)
/etc/mcelog/mcelog.conf(配置文件)
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明;
在计算机中,机器校验架构(MCA)是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;例如当一个ECC错误产生的时,位于cpu中的各种特定模型的寄存器(MSRs)会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由各种寄存器(MSRs)记录下当时各种状态信息,交给操作系统处理,可以使用MCElog等软件解析错误出现的方式,位置以及状态等信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE (Machine Check Exception )是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,比如当 CPU 检测到总线,CHIPSET,内存,CACHE等硬件出现致命错误时会触发这类异常。一般来说这些错误对系统的稳定性危害极大而且无法恢复,通常会触发系统的复位操作。在 MCA 架构的出现之前,OS 对 MCE 的处理非常有限,经常就是简单的重启系统;目前,新的 MCA 架构,OS 可以根据不同的错误源产生的错误类别,错误的严重程度,可以选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构,可以记录MCE信息,生成mcelog进行故障分析:
MCELOG:
mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具,且产生日志位置:/var/log/mcelog;日志中可以记录内存故障发生时间、频率、故障类型及故障内存位置;
示例如下:cpu0、channel2、id0内存发生内存读错误:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 8
MISC 9288280800080789 ADDR 72e7cf900
TIME 1341475261 Thu Jul 5 16:01:01 2012
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 1
Memory transaction Tracker ID (RTId): 89
Memory DIMM ID of error: 0
Memory channel ID of error: 2
Memory ECC syndrome: 92882808
STATUS 8c0000400001009f MCGSTATUS 0
MCGCAP 1c09 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 44
4)Mcelog记录内存位置和实际物理槽位对照表
5)定位故障内存位置
依据对照表,可以立即判断主板物理槽位的CHF_0内存故障,发生一次内存读错误,更换内存后可解决问题。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种linux系统下的故障内存位置定位方法, 其特征在于具体步骤如下:
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求
32 bit x86 Linux:Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64 Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装,从hardware monitoring 选项卡中查找;
如果要随机器启动,请使用 chkconfig 命令;
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog 相关文件
设备文件/dev/mcelog
日志文件/var/log/mcelog
配置文件/etc/mcelog/mcelog.conf
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明如下:
在计算机中,机器校验架构MCA是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;当一个ECC错误产生的时,位于cpu中的特定模型寄存器MSRs会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由特定模型寄存器MSRs记录下当时各种状态信息,交给操作系统处理,使用MCElog软件解析错误出现的方式,位置以及状态的信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,当 CPU 检测到总线,CHIPSET,内存,CACHE硬件出现致命错误时会触发这类异常,这些错误对系统的稳定性危害极大而且无法恢复,会触发系统的复位操作, MCA 架构,OS根据不同的错误源产生的错误类别,错误的严重程度,选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构记录MCE信息,生成mcelog进行故障分析:
MCELOG:
MCELOG 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具,且产生日志位置:/var/log/mcelog;日志中记录内存故障发生时间、频率、故障类型及故障内存位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112243XA CN103198000A (zh) | 2013-04-02 | 2013-04-02 | 一种linux系统下的故障内存位置定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112243XA CN103198000A (zh) | 2013-04-02 | 2013-04-02 | 一种linux系统下的故障内存位置定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103198000A true CN103198000A (zh) | 2013-07-10 |
Family
ID=48720583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310112243XA Pending CN103198000A (zh) | 2013-04-02 | 2013-04-02 | 一种linux系统下的故障内存位置定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103198000A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473167A (zh) * | 2013-09-09 | 2013-12-25 | 华为技术有限公司 | 服务器的故障显示方法及装置 |
CN103995772A (zh) * | 2014-06-10 | 2014-08-20 | 浪潮电子信息产业股份有限公司 | 一种基于linux操作系统的raid卡日志完整保存的方法 |
CN104102563A (zh) * | 2014-07-10 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种发现服务器系统的mca错误的方法及装置 |
CN105204968A (zh) * | 2015-11-10 | 2015-12-30 | 浪潮(北京)电子信息产业有限公司 | 一种故障内存检测方法和装置 |
CN105468497A (zh) * | 2015-12-15 | 2016-04-06 | 迈普通信技术股份有限公司 | 中断异常监控方法和装置 |
CN105589776A (zh) * | 2015-12-23 | 2016-05-18 | 华为技术有限公司 | 一种故障定位方法及服务器 |
CN105786668A (zh) * | 2016-04-01 | 2016-07-20 | 浪潮电子信息产业股份有限公司 | 一种基于Redhat系统下内存错误检测方法 |
CN105786669A (zh) * | 2016-04-25 | 2016-07-20 | 浪潮电子信息产业股份有限公司 | 一种测试Rack服务器稳定性的方法 |
CN105975377A (zh) * | 2016-04-29 | 2016-09-28 | 浪潮电子信息产业股份有限公司 | 一种监控内存的方法及装置 |
CN106126364A (zh) * | 2016-06-28 | 2016-11-16 | 浪潮(北京)电子信息产业有限公司 | 一种基于linux系统的内存故障事件收集方法及系统 |
CN106126368A (zh) * | 2016-08-22 | 2016-11-16 | 浪潮电子信息产业股份有限公司 | 一种linux下内存故障地址解析的方法 |
CN106339285A (zh) * | 2016-08-19 | 2017-01-18 | 浪潮电子信息产业股份有限公司 | 一种linux系统意外重启的分析方法 |
CN106598800A (zh) * | 2015-10-14 | 2017-04-26 | 中兴通讯股份有限公司 | 一种硬件故障分析系统和方法 |
CN106815119A (zh) * | 2016-12-20 | 2017-06-09 | 曙光信息产业(北京)有限公司 | 服务器的硬件监控装置 |
CN107092549A (zh) * | 2017-04-26 | 2017-08-25 | 郑州云海信息技术有限公司 | 一种自动监控并解析内存故障的工具及方法 |
CN107122272A (zh) * | 2017-04-27 | 2017-09-01 | 郑州云海信息技术有限公司 | 一种cpu寄存器信息的自动校验方法及装置 |
CN107291605A (zh) * | 2017-07-11 | 2017-10-24 | 郑州云海信息技术有限公司 | 一种系统日志的处理方法及系统 |
CN107562593A (zh) * | 2017-08-25 | 2018-01-09 | 郑州云海信息技术有限公司 | 一种验证内存ecc功能的自动化测试方法与系统 |
CN107608813A (zh) * | 2017-09-14 | 2018-01-19 | 郑州云海信息技术有限公司 | 一种基于linux操作系统信息自动分析故障的方法 |
CN107644256A (zh) * | 2017-09-14 | 2018-01-30 | 郑州云海信息技术有限公司 | 一种基于机器学习方式形成故障规则库的方法 |
CN107748712A (zh) * | 2017-11-03 | 2018-03-02 | 郑州云海信息技术有限公司 | 一种基于linux系统的日志自动分析方法 |
CN109086180A (zh) * | 2018-08-24 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种内存检验测试方法 |
CN109324917A (zh) * | 2018-09-03 | 2019-02-12 | 郑州云海信息技术有限公司 | 一种服务器硬件故障日志的采集方法 |
CN109343988A (zh) * | 2018-09-13 | 2019-02-15 | 郑州云海信息技术有限公司 | 一种测试不可修正错误降级成可修正错误功能的方法 |
CN109408338A (zh) * | 2018-11-01 | 2019-03-01 | 郑州云海信息技术有限公司 | 抓取NVME硬盘trace的方法、装置、设备及系统 |
CN109408273A (zh) * | 2018-11-13 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种消除故障内存对系统影响的方法及装置 |
CN109753378A (zh) * | 2019-01-02 | 2019-05-14 | 浪潮商用机器有限公司 | 一种内存故障的隔离方法、装置、系统及可读存储介质 |
CN111767241A (zh) * | 2019-04-02 | 2020-10-13 | 鸿富锦精密电子(天津)有限公司 | 一种PCIe注错测试方法、装置以及存储介质 |
CN112328358A (zh) * | 2020-10-28 | 2021-02-05 | 惠州华阳通用电子有限公司 | 一种基于虚拟机的双系统启动方法及存储介质 |
CN113010341A (zh) * | 2021-03-12 | 2021-06-22 | 山东英信计算机技术有限公司 | 一种故障内存定位的方法和设备 |
WO2022205332A1 (en) * | 2021-04-01 | 2022-10-06 | Micron Technology, Inc. | Recording and decoding of information related to memory errors identified by microprocessors |
WO2023108319A1 (en) * | 2021-12-13 | 2023-06-22 | Intel Corporation | In-system mitigation of uncorrectable errors based on confidence factors, based on fault-aware analysis |
US11726873B2 (en) | 2021-12-20 | 2023-08-15 | Micron Technology, Inc. | Handling memory errors identified by microprocessors |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040216003A1 (en) * | 2003-04-28 | 2004-10-28 | International Business Machines Corporation | Mechanism for FRU fault isolation in distributed nodal environment |
CN102799506A (zh) * | 2012-06-29 | 2012-11-28 | 浪潮电子信息产业股份有限公司 | 一种定位故障内存的方法 |
-
2013
- 2013-04-02 CN CN201310112243XA patent/CN103198000A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040216003A1 (en) * | 2003-04-28 | 2004-10-28 | International Business Machines Corporation | Mechanism for FRU fault isolation in distributed nodal environment |
CN102799506A (zh) * | 2012-06-29 | 2012-11-28 | 浪潮电子信息产业股份有限公司 | 一种定位故障内存的方法 |
Non-Patent Citations (2)
Title |
---|
ANDI KLEEN: "Machine check handling on Linux", 《SUSE LABS》 * |
ANDI KLEEN: "mcelog: memory error handling in user space", 《LINUX KONGRESS 2010》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473167A (zh) * | 2013-09-09 | 2013-12-25 | 华为技术有限公司 | 服务器的故障显示方法及装置 |
CN103473167B (zh) * | 2013-09-09 | 2016-08-10 | 华为技术有限公司 | 服务器的故障显示方法及装置 |
CN103995772A (zh) * | 2014-06-10 | 2014-08-20 | 浪潮电子信息产业股份有限公司 | 一种基于linux操作系统的raid卡日志完整保存的方法 |
CN104102563A (zh) * | 2014-07-10 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种发现服务器系统的mca错误的方法及装置 |
CN106598800A (zh) * | 2015-10-14 | 2017-04-26 | 中兴通讯股份有限公司 | 一种硬件故障分析系统和方法 |
CN105204968A (zh) * | 2015-11-10 | 2015-12-30 | 浪潮(北京)电子信息产业有限公司 | 一种故障内存检测方法和装置 |
CN105204968B (zh) * | 2015-11-10 | 2019-05-10 | 浪潮(北京)电子信息产业有限公司 | 一种故障内存检测方法和装置 |
CN105468497A (zh) * | 2015-12-15 | 2016-04-06 | 迈普通信技术股份有限公司 | 中断异常监控方法和装置 |
CN105589776A (zh) * | 2015-12-23 | 2016-05-18 | 华为技术有限公司 | 一种故障定位方法及服务器 |
CN105589776B (zh) * | 2015-12-23 | 2019-07-23 | 华为技术有限公司 | 一种故障定位方法及服务器 |
CN105786668A (zh) * | 2016-04-01 | 2016-07-20 | 浪潮电子信息产业股份有限公司 | 一种基于Redhat系统下内存错误检测方法 |
CN105786669A (zh) * | 2016-04-25 | 2016-07-20 | 浪潮电子信息产业股份有限公司 | 一种测试Rack服务器稳定性的方法 |
CN105975377A (zh) * | 2016-04-29 | 2016-09-28 | 浪潮电子信息产业股份有限公司 | 一种监控内存的方法及装置 |
CN105975377B (zh) * | 2016-04-29 | 2018-05-25 | 浪潮电子信息产业股份有限公司 | 一种监控内存的方法及装置 |
CN106126364A (zh) * | 2016-06-28 | 2016-11-16 | 浪潮(北京)电子信息产业有限公司 | 一种基于linux系统的内存故障事件收集方法及系统 |
CN106339285A (zh) * | 2016-08-19 | 2017-01-18 | 浪潮电子信息产业股份有限公司 | 一种linux系统意外重启的分析方法 |
CN106126368A (zh) * | 2016-08-22 | 2016-11-16 | 浪潮电子信息产业股份有限公司 | 一种linux下内存故障地址解析的方法 |
CN106815119A (zh) * | 2016-12-20 | 2017-06-09 | 曙光信息产业(北京)有限公司 | 服务器的硬件监控装置 |
CN107092549A (zh) * | 2017-04-26 | 2017-08-25 | 郑州云海信息技术有限公司 | 一种自动监控并解析内存故障的工具及方法 |
CN107122272A (zh) * | 2017-04-27 | 2017-09-01 | 郑州云海信息技术有限公司 | 一种cpu寄存器信息的自动校验方法及装置 |
CN107291605A (zh) * | 2017-07-11 | 2017-10-24 | 郑州云海信息技术有限公司 | 一种系统日志的处理方法及系统 |
CN107291605B (zh) * | 2017-07-11 | 2020-09-22 | 苏州浪潮智能科技有限公司 | 一种系统日志的处理方法及系统 |
CN107562593A (zh) * | 2017-08-25 | 2018-01-09 | 郑州云海信息技术有限公司 | 一种验证内存ecc功能的自动化测试方法与系统 |
CN107608813A (zh) * | 2017-09-14 | 2018-01-19 | 郑州云海信息技术有限公司 | 一种基于linux操作系统信息自动分析故障的方法 |
CN107644256A (zh) * | 2017-09-14 | 2018-01-30 | 郑州云海信息技术有限公司 | 一种基于机器学习方式形成故障规则库的方法 |
CN107748712A (zh) * | 2017-11-03 | 2018-03-02 | 郑州云海信息技术有限公司 | 一种基于linux系统的日志自动分析方法 |
CN109086180A (zh) * | 2018-08-24 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种内存检验测试方法 |
CN109324917A (zh) * | 2018-09-03 | 2019-02-12 | 郑州云海信息技术有限公司 | 一种服务器硬件故障日志的采集方法 |
CN109343988A (zh) * | 2018-09-13 | 2019-02-15 | 郑州云海信息技术有限公司 | 一种测试不可修正错误降级成可修正错误功能的方法 |
CN109408338A (zh) * | 2018-11-01 | 2019-03-01 | 郑州云海信息技术有限公司 | 抓取NVME硬盘trace的方法、装置、设备及系统 |
CN109408338B (zh) * | 2018-11-01 | 2022-02-18 | 郑州云海信息技术有限公司 | 抓取NVME硬盘trace的方法、装置、设备及系统 |
CN109408273A (zh) * | 2018-11-13 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种消除故障内存对系统影响的方法及装置 |
CN109753378A (zh) * | 2019-01-02 | 2019-05-14 | 浪潮商用机器有限公司 | 一种内存故障的隔离方法、装置、系统及可读存储介质 |
CN111767241A (zh) * | 2019-04-02 | 2020-10-13 | 鸿富锦精密电子(天津)有限公司 | 一种PCIe注错测试方法、装置以及存储介质 |
CN111767241B (zh) * | 2019-04-02 | 2022-04-29 | 富联精密电子(天津)有限公司 | 一种PCIe注错测试方法、装置以及存储介质 |
CN112328358A (zh) * | 2020-10-28 | 2021-02-05 | 惠州华阳通用电子有限公司 | 一种基于虚拟机的双系统启动方法及存储介质 |
CN113010341A (zh) * | 2021-03-12 | 2021-06-22 | 山东英信计算机技术有限公司 | 一种故障内存定位的方法和设备 |
WO2022205332A1 (en) * | 2021-04-01 | 2022-10-06 | Micron Technology, Inc. | Recording and decoding of information related to memory errors identified by microprocessors |
US11720438B2 (en) | 2021-04-01 | 2023-08-08 | Micron Technology, Inc. | Recording and decoding of information related to memory errors identified by microprocessors |
WO2023108319A1 (en) * | 2021-12-13 | 2023-06-22 | Intel Corporation | In-system mitigation of uncorrectable errors based on confidence factors, based on fault-aware analysis |
US11726873B2 (en) | 2021-12-20 | 2023-08-15 | Micron Technology, Inc. | Handling memory errors identified by microprocessors |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103198000A (zh) | 一种linux系统下的故障内存位置定位方法 | |
US11163623B2 (en) | Serializing machine check exceptions for predictive failure analysis | |
US7409594B2 (en) | System and method to detect errors and predict potential failures | |
US7266727B2 (en) | Computer boot operation utilizing targeted boot diagnostics | |
US20080276228A1 (en) | System and method for static analysis using fault paths | |
CN104850485A (zh) | 一种基于bmc远程诊断服务器开机故障的方法及系统 | |
CN106815119A (zh) | 服务器的硬件监控装置 | |
US9619356B2 (en) | Detection of hardware errors using periodically synchronized redundant transactions and comparing results from cores of a multi-core processor | |
CN103970661A (zh) | 一种利用ipmi工具进行批量服务器内存故障检测的方法 | |
Kasikci et al. | Lazy diagnosis of in-production concurrency bugs | |
Bossen et al. | Fault-tolerant design of the IBM pSeries 690 system using POWER4 processor technology | |
CN112650612A (zh) | 一种内存故障定位方法及装置 | |
US7139942B2 (en) | Method and apparatus for memory redundancy and recovery from uncorrectable errors | |
WO2021056913A1 (zh) | 基于i2c通讯的故障定位方法、装置及系统 | |
CN104102563A (zh) | 一种发现服务器系统的mca错误的方法及装置 | |
CN114003417A (zh) | 实现raid卡故障自动转存的方法、装置及存储介质 | |
US8938365B2 (en) | Clock fault detector | |
CN107562565A (zh) | 一种验证内存Patrol Scurb功能的方法 | |
Shazli et al. | A field analysis of system-level effects of soft errors occurring in microprocessors used in information systems | |
Chatzidimitriou et al. | Healthlog monitor: A flexible system-monitoring linux service | |
He et al. | Assessment of the applicability of COTS microprocessors in high-confidence computing systems: A case study | |
US8726102B2 (en) | System and method for handling system failure | |
CN114253610A (zh) | 一种器件老化导致系统无法正常启动的改进办法及装置 | |
Liu | Visualizing logical correlation in trace data for system debugging | |
CN114253846B (zh) | 自动化测试异常定位方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130710 |
|
WD01 | Invention patent application deemed withdrawn after publication |