CN103198000A - 一种linux系统下的故障内存位置定位方法 - Google Patents

一种linux系统下的故障内存位置定位方法 Download PDF

Info

Publication number
CN103198000A
CN103198000A CN201310112243XA CN201310112243A CN103198000A CN 103198000 A CN103198000 A CN 103198000A CN 201310112243X A CN201310112243X A CN 201310112243XA CN 201310112243 A CN201310112243 A CN 201310112243A CN 103198000 A CN103198000 A CN 103198000A
Authority
CN
China
Prior art keywords
mcelog
memory
error
fault
mca
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310112243XA
Other languages
English (en)
Inventor
李斌
任华进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310112243XA priority Critical patent/CN103198000A/zh
Publication of CN103198000A publication Critical patent/CN103198000A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种linux系统下的故障内存位置定位方法,该方法不依赖于主板bmc对内存故障的判断和记录,利用系统产生的mcelog记录,配合实际物理槽位比对关系,快速判断故障内存错误类型和故障位置,快速解决由于内存故障导致的服务器死机、蓝屏等问题,相比目前的内存故障判断判断方法具有:1.不依赖于主板bmc对内存故障跟踪和定位功能。2.不需要现场重复压力测试,等待故障出现和交换内存测试定位故障内存位置,可以依据已经生成的mcelog日志,快速判断故障出现频率、故障原因和故障位置。3.实现方式简单,提高判断解决问题的效率。

Description

一种linux系统下的故障内存位置定位方法
技术领域
本发明涉及计算机应用领域,具体地说是一种linux系统下的故障内存位置定位方法。 
背景技术
对于故障内存位置的判断,之前有两种通用方法: 
1)利用主板集成bmc的内存故障定位和记录功能,在内存发生可纠正ecc错误或不可纠正ecc错误时,主板bmc可以记录内存错误信息,并记录故障发生内存槽位,从而快速定位故障内存位置,但这种方法的使用有一定局限性,首先,必须保证服务器存在bmc的管理芯片,然而bmc管理是近几年才开始使用的技术,早期一般机型并无bmc管理芯片;再者,即使机器自带bmc芯片,其不一定具备内存故障定位功能,需要独立开发,所以依旧未必能实现内存故障的定位和检测;bmc内存故障定位功能受管理芯片的存在与否和自身功能的限制,无法成为一个通用的解决方案;
2)内存压力测试:初步判断属于内存故障后,需要从十几条内存中定位哪条内存出现了故障,使用内存压力测试工具,对系统平台和内存进行分批测试,逐渐缩小范围,最终定位哪条内存故障,此方法的使用也存在一定局限:首先对于大容量内存的压力测试,故障复现时间不易掌握,很有可能压力测试一天未必复现故障,尤其对于客户1周左右出现一次故障的机器,复现问题比较困难;其二,使用分批测试的方法,整体测试时间偏长;其三,无法排除是否因为内存接触不良或cpu本身内存控制器问题从而不能做到精确定位;
以上两种通用的处理方法都存在各自致命的使用缺陷,本发明完全不依赖于bmc芯片及其功能,不用压力测试,使用系统运行中生成的mcelog记录,精确定位故障内存错误信息、报错频率及其在主板上的位置,快速定位和解决内存故障。
发明内容
本发明的目的是提供一种linux系统下的故障内存位置定位方法。 
本发明的目的是按以下方式实现的, 
具体步骤如下:
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求;
32 bit x86 Linux:Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64  Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装,从hardware monitoring 选项卡中查找;
如果要随机器启动,请使用 chkconfig 命令;
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog  相关文件
设备文件/dev/mcelog
日志文件/var/log/mcelog
配置文件/etc/mcelog/mcelog.conf
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明如下:
在计算机中,机器校验架构MCA是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;当一个ECC错误产生的时,位于cpu中的特定模型寄存器MSRs会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由特定模型寄存器MSRs记录下当时各种状态信息,交给操作系统处理,使用MCElog软件解析错误出现的方式,位置以及状态的信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status   MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,当 CPU 检测到总线,CHIPSET,内存,CACHE硬件出现致命错误时会触发这类异常,这些错误对系统的稳定性危害极大而且无法恢复,会触发系统的复位操作, MCA 架构,OS根据不同的错误源产生的错误类别,错误的严重程度,选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构记录MCE信息,生成mcelog进行故障分析:
MCELOG:
MCELOG 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具,且产生日志位置:/var/log/mcelog;日志中记录内存故障发生时间、频率、故障类型及故障内存位置。
本发明的有益效果是:不依赖于主板bmc对内存故障的判断和记录,利用系统产生的mcelog记录,配合实际物理槽位比对关系,快速判断故障内存错误类型和故障位置,快速解决由于内存故障导致的服务器死机、蓝屏等问题,相比目前的内存故障判断判断方法具有: 
1.不依赖于主板bmc对内存故障跟踪和定位功能;
2.不需要现场重复压力测试,等待故障出现和交换内存测试定位故障内存位置,可以依据已经生成的mcelog日志,快速判断故障出现频率、故障原因和故障位置;
3.实现方式简单,提高判断解决问题的效率。 
附图说明
图1是故障内存位置定位流程图。 
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。 
故障内存位置定位流程及示例说明: 
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求
32 bit x86 Linux  :   Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64  Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装(hardware monitoring 选项卡中);
如果要随机器启动,请使用 chkconfig 命令
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog  相关文件
/dev/mcelog(设备文件)
/var/log/mcelog(日志文件)
/etc/mcelog/mcelog.conf(配置文件)
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明;
在计算机中,机器校验架构(MCA)是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;例如当一个ECC错误产生的时,位于cpu中的各种特定模型的寄存器(MSRs)会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由各种寄存器(MSRs)记录下当时各种状态信息,交给操作系统处理,可以使用MCElog等软件解析错误出现的方式,位置以及状态等信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status   MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE (Machine Check Exception )是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,比如当 CPU 检测到总线,CHIPSET,内存,CACHE等硬件出现致命错误时会触发这类异常。一般来说这些错误对系统的稳定性危害极大而且无法恢复,通常会触发系统的复位操作。在 MCA 架构的出现之前,OS 对 MCE 的处理非常有限,经常就是简单的重启系统;目前,新的 MCA 架构,OS 可以根据不同的错误源产生的错误类别,错误的严重程度,可以选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构,可以记录MCE信息,生成mcelog进行故障分析:
MCELOG:
mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具,且产生日志位置:/var/log/mcelog;日志中可以记录内存故障发生时间、频率、故障类型及故障内存位置;
示例如下:cpu0、channel2、id0内存发生内存读错误:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 8 
MISC 9288280800080789 ADDR 72e7cf900 
TIME 1341475261 Thu Jul  5 16:01:01 2012
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 1
Memory transaction Tracker ID (RTId): 89
Memory DIMM ID of error: 0
Memory channel ID of error: 2
Memory ECC syndrome: 92882808
STATUS 8c0000400001009f MCGSTATUS 0
MCGCAP 1c09 APICID 0 SOCKETID 0 
CPUID Vendor Intel Family 6 Model 44
4)Mcelog记录内存位置和实际物理槽位对照表
Figure DEST_PATH_213299DEST_PATH_IMAGE002
5)定位故障内存位置
依据对照表,可以立即判断主板物理槽位的CHF_0内存故障,发生一次内存读错误,更换内存后可解决问题。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。 

Claims (1)

1.一种linux系统下的故障内存位置定位方法, 其特征在于具体步骤如下:
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求
32 bit x86 Linux:Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64  Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装,从hardware monitoring 选项卡中查找;
如果要随机器启动,请使用 chkconfig 命令;
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog  相关文件
设备文件/dev/mcelog
日志文件/var/log/mcelog
配置文件/etc/mcelog/mcelog.conf
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明如下:
在计算机中,机器校验架构MCA是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;当一个ECC错误产生的时,位于cpu中的特定模型寄存器MSRs会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由特定模型寄存器MSRs记录下当时各种状态信息,交给操作系统处理,使用MCElog软件解析错误出现的方式,位置以及状态的信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status   MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,当 CPU 检测到总线,CHIPSET,内存,CACHE硬件出现致命错误时会触发这类异常,这些错误对系统的稳定性危害极大而且无法恢复,会触发系统的复位操作, MCA 架构,OS根据不同的错误源产生的错误类别,错误的严重程度,选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构记录MCE信息,生成mcelog进行故障分析:
MCELOG:
MCELOG 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具,且产生日志位置:/var/log/mcelog;日志中记录内存故障发生时间、频率、故障类型及故障内存位置。
CN201310112243XA 2013-04-02 2013-04-02 一种linux系统下的故障内存位置定位方法 Pending CN103198000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310112243XA CN103198000A (zh) 2013-04-02 2013-04-02 一种linux系统下的故障内存位置定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310112243XA CN103198000A (zh) 2013-04-02 2013-04-02 一种linux系统下的故障内存位置定位方法

Publications (1)

Publication Number Publication Date
CN103198000A true CN103198000A (zh) 2013-07-10

Family

ID=48720583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310112243XA Pending CN103198000A (zh) 2013-04-02 2013-04-02 一种linux系统下的故障内存位置定位方法

Country Status (1)

Country Link
CN (1) CN103198000A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473167A (zh) * 2013-09-09 2013-12-25 华为技术有限公司 服务器的故障显示方法及装置
CN103995772A (zh) * 2014-06-10 2014-08-20 浪潮电子信息产业股份有限公司 一种基于linux操作系统的raid卡日志完整保存的方法
CN104102563A (zh) * 2014-07-10 2014-10-15 浪潮(北京)电子信息产业有限公司 一种发现服务器系统的mca错误的方法及装置
CN105204968A (zh) * 2015-11-10 2015-12-30 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN105468497A (zh) * 2015-12-15 2016-04-06 迈普通信技术股份有限公司 中断异常监控方法和装置
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器
CN105786668A (zh) * 2016-04-01 2016-07-20 浪潮电子信息产业股份有限公司 一种基于Redhat系统下内存错误检测方法
CN105786669A (zh) * 2016-04-25 2016-07-20 浪潮电子信息产业股份有限公司 一种测试Rack服务器稳定性的方法
CN105975377A (zh) * 2016-04-29 2016-09-28 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN106126364A (zh) * 2016-06-28 2016-11-16 浪潮(北京)电子信息产业有限公司 一种基于linux系统的内存故障事件收集方法及系统
CN106126368A (zh) * 2016-08-22 2016-11-16 浪潮电子信息产业股份有限公司 一种linux下内存故障地址解析的方法
CN106339285A (zh) * 2016-08-19 2017-01-18 浪潮电子信息产业股份有限公司 一种linux系统意外重启的分析方法
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置
CN107092549A (zh) * 2017-04-26 2017-08-25 郑州云海信息技术有限公司 一种自动监控并解析内存故障的工具及方法
CN107122272A (zh) * 2017-04-27 2017-09-01 郑州云海信息技术有限公司 一种cpu寄存器信息的自动校验方法及装置
CN107291605A (zh) * 2017-07-11 2017-10-24 郑州云海信息技术有限公司 一种系统日志的处理方法及系统
CN107562593A (zh) * 2017-08-25 2018-01-09 郑州云海信息技术有限公司 一种验证内存ecc功能的自动化测试方法与系统
CN107608813A (zh) * 2017-09-14 2018-01-19 郑州云海信息技术有限公司 一种基于linux操作系统信息自动分析故障的方法
CN107644256A (zh) * 2017-09-14 2018-01-30 郑州云海信息技术有限公司 一种基于机器学习方式形成故障规则库的方法
CN107748712A (zh) * 2017-11-03 2018-03-02 郑州云海信息技术有限公司 一种基于linux系统的日志自动分析方法
CN109086180A (zh) * 2018-08-24 2018-12-25 郑州云海信息技术有限公司 一种内存检验测试方法
CN109324917A (zh) * 2018-09-03 2019-02-12 郑州云海信息技术有限公司 一种服务器硬件故障日志的采集方法
CN109343988A (zh) * 2018-09-13 2019-02-15 郑州云海信息技术有限公司 一种测试不可修正错误降级成可修正错误功能的方法
CN109408338A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 抓取NVME硬盘trace的方法、装置、设备及系统
CN109408273A (zh) * 2018-11-13 2019-03-01 郑州云海信息技术有限公司 一种消除故障内存对系统影响的方法及装置
CN109753378A (zh) * 2019-01-02 2019-05-14 浪潮商用机器有限公司 一种内存故障的隔离方法、装置、系统及可读存储介质
CN111767241A (zh) * 2019-04-02 2020-10-13 鸿富锦精密电子(天津)有限公司 一种PCIe注错测试方法、装置以及存储介质
CN112328358A (zh) * 2020-10-28 2021-02-05 惠州华阳通用电子有限公司 一种基于虚拟机的双系统启动方法及存储介质
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
WO2022205332A1 (en) * 2021-04-01 2022-10-06 Micron Technology, Inc. Recording and decoding of information related to memory errors identified by microprocessors
WO2023108319A1 (en) * 2021-12-13 2023-06-22 Intel Corporation In-system mitigation of uncorrectable errors based on confidence factors, based on fault-aware analysis
US11726873B2 (en) 2021-12-20 2023-08-15 Micron Technology, Inc. Handling memory errors identified by microprocessors

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040216003A1 (en) * 2003-04-28 2004-10-28 International Business Machines Corporation Mechanism for FRU fault isolation in distributed nodal environment
CN102799506A (zh) * 2012-06-29 2012-11-28 浪潮电子信息产业股份有限公司 一种定位故障内存的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040216003A1 (en) * 2003-04-28 2004-10-28 International Business Machines Corporation Mechanism for FRU fault isolation in distributed nodal environment
CN102799506A (zh) * 2012-06-29 2012-11-28 浪潮电子信息产业股份有限公司 一种定位故障内存的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDI KLEEN: "Machine check handling on Linux", 《SUSE LABS》 *
ANDI KLEEN: "mcelog: memory error handling in user space", 《LINUX KONGRESS 2010》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473167A (zh) * 2013-09-09 2013-12-25 华为技术有限公司 服务器的故障显示方法及装置
CN103473167B (zh) * 2013-09-09 2016-08-10 华为技术有限公司 服务器的故障显示方法及装置
CN103995772A (zh) * 2014-06-10 2014-08-20 浪潮电子信息产业股份有限公司 一种基于linux操作系统的raid卡日志完整保存的方法
CN104102563A (zh) * 2014-07-10 2014-10-15 浪潮(北京)电子信息产业有限公司 一种发现服务器系统的mca错误的方法及装置
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN105204968A (zh) * 2015-11-10 2015-12-30 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN105204968B (zh) * 2015-11-10 2019-05-10 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN105468497A (zh) * 2015-12-15 2016-04-06 迈普通信技术股份有限公司 中断异常监控方法和装置
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器
CN105589776B (zh) * 2015-12-23 2019-07-23 华为技术有限公司 一种故障定位方法及服务器
CN105786668A (zh) * 2016-04-01 2016-07-20 浪潮电子信息产业股份有限公司 一种基于Redhat系统下内存错误检测方法
CN105786669A (zh) * 2016-04-25 2016-07-20 浪潮电子信息产业股份有限公司 一种测试Rack服务器稳定性的方法
CN105975377A (zh) * 2016-04-29 2016-09-28 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN105975377B (zh) * 2016-04-29 2018-05-25 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN106126364A (zh) * 2016-06-28 2016-11-16 浪潮(北京)电子信息产业有限公司 一种基于linux系统的内存故障事件收集方法及系统
CN106339285A (zh) * 2016-08-19 2017-01-18 浪潮电子信息产业股份有限公司 一种linux系统意外重启的分析方法
CN106126368A (zh) * 2016-08-22 2016-11-16 浪潮电子信息产业股份有限公司 一种linux下内存故障地址解析的方法
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置
CN107092549A (zh) * 2017-04-26 2017-08-25 郑州云海信息技术有限公司 一种自动监控并解析内存故障的工具及方法
CN107122272A (zh) * 2017-04-27 2017-09-01 郑州云海信息技术有限公司 一种cpu寄存器信息的自动校验方法及装置
CN107291605A (zh) * 2017-07-11 2017-10-24 郑州云海信息技术有限公司 一种系统日志的处理方法及系统
CN107291605B (zh) * 2017-07-11 2020-09-22 苏州浪潮智能科技有限公司 一种系统日志的处理方法及系统
CN107562593A (zh) * 2017-08-25 2018-01-09 郑州云海信息技术有限公司 一种验证内存ecc功能的自动化测试方法与系统
CN107608813A (zh) * 2017-09-14 2018-01-19 郑州云海信息技术有限公司 一种基于linux操作系统信息自动分析故障的方法
CN107644256A (zh) * 2017-09-14 2018-01-30 郑州云海信息技术有限公司 一种基于机器学习方式形成故障规则库的方法
CN107748712A (zh) * 2017-11-03 2018-03-02 郑州云海信息技术有限公司 一种基于linux系统的日志自动分析方法
CN109086180A (zh) * 2018-08-24 2018-12-25 郑州云海信息技术有限公司 一种内存检验测试方法
CN109324917A (zh) * 2018-09-03 2019-02-12 郑州云海信息技术有限公司 一种服务器硬件故障日志的采集方法
CN109343988A (zh) * 2018-09-13 2019-02-15 郑州云海信息技术有限公司 一种测试不可修正错误降级成可修正错误功能的方法
CN109408338A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 抓取NVME硬盘trace的方法、装置、设备及系统
CN109408338B (zh) * 2018-11-01 2022-02-18 郑州云海信息技术有限公司 抓取NVME硬盘trace的方法、装置、设备及系统
CN109408273A (zh) * 2018-11-13 2019-03-01 郑州云海信息技术有限公司 一种消除故障内存对系统影响的方法及装置
CN109753378A (zh) * 2019-01-02 2019-05-14 浪潮商用机器有限公司 一种内存故障的隔离方法、装置、系统及可读存储介质
CN111767241A (zh) * 2019-04-02 2020-10-13 鸿富锦精密电子(天津)有限公司 一种PCIe注错测试方法、装置以及存储介质
CN111767241B (zh) * 2019-04-02 2022-04-29 富联精密电子(天津)有限公司 一种PCIe注错测试方法、装置以及存储介质
CN112328358A (zh) * 2020-10-28 2021-02-05 惠州华阳通用电子有限公司 一种基于虚拟机的双系统启动方法及存储介质
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
WO2022205332A1 (en) * 2021-04-01 2022-10-06 Micron Technology, Inc. Recording and decoding of information related to memory errors identified by microprocessors
US11720438B2 (en) 2021-04-01 2023-08-08 Micron Technology, Inc. Recording and decoding of information related to memory errors identified by microprocessors
WO2023108319A1 (en) * 2021-12-13 2023-06-22 Intel Corporation In-system mitigation of uncorrectable errors based on confidence factors, based on fault-aware analysis
US11726873B2 (en) 2021-12-20 2023-08-15 Micron Technology, Inc. Handling memory errors identified by microprocessors

Similar Documents

Publication Publication Date Title
CN103198000A (zh) 一种linux系统下的故障内存位置定位方法
US11163623B2 (en) Serializing machine check exceptions for predictive failure analysis
US7409594B2 (en) System and method to detect errors and predict potential failures
US7266727B2 (en) Computer boot operation utilizing targeted boot diagnostics
US20080276228A1 (en) System and method for static analysis using fault paths
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
CN106815119A (zh) 服务器的硬件监控装置
US9619356B2 (en) Detection of hardware errors using periodically synchronized redundant transactions and comparing results from cores of a multi-core processor
CN103970661A (zh) 一种利用ipmi工具进行批量服务器内存故障检测的方法
Kasikci et al. Lazy diagnosis of in-production concurrency bugs
Bossen et al. Fault-tolerant design of the IBM pSeries 690 system using POWER4 processor technology
CN112650612A (zh) 一种内存故障定位方法及装置
US7139942B2 (en) Method and apparatus for memory redundancy and recovery from uncorrectable errors
WO2021056913A1 (zh) 基于i2c通讯的故障定位方法、装置及系统
CN104102563A (zh) 一种发现服务器系统的mca错误的方法及装置
CN114003417A (zh) 实现raid卡故障自动转存的方法、装置及存储介质
US8938365B2 (en) Clock fault detector
CN107562565A (zh) 一种验证内存Patrol Scurb功能的方法
Shazli et al. A field analysis of system-level effects of soft errors occurring in microprocessors used in information systems
Chatzidimitriou et al. Healthlog monitor: A flexible system-monitoring linux service
He et al. Assessment of the applicability of COTS microprocessors in high-confidence computing systems: A case study
US8726102B2 (en) System and method for handling system failure
CN114253610A (zh) 一种器件老化导致系统无法正常启动的改进办法及装置
Liu Visualizing logical correlation in trace data for system debugging
CN114253846B (zh) 自动化测试异常定位方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130710

WD01 Invention patent application deemed withdrawn after publication