CN110781053A - 一种检测内存降级错误的方法和装置 - Google Patents

一种检测内存降级错误的方法和装置 Download PDF

Info

Publication number
CN110781053A
CN110781053A CN201910932646.6A CN201910932646A CN110781053A CN 110781053 A CN110781053 A CN 110781053A CN 201910932646 A CN201910932646 A CN 201910932646A CN 110781053 A CN110781053 A CN 110781053A
Authority
CN
China
Prior art keywords
memory
error
errors
cmci
interrupt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910932646.6A
Other languages
English (en)
Inventor
罗鹏芳
胡雷钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910932646.6A priority Critical patent/CN110781053A/zh
Priority to US17/762,213 priority patent/US11853150B2/en
Priority to PCT/CN2019/129991 priority patent/WO2021056912A1/zh
Publication of CN110781053A publication Critical patent/CN110781053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种检测内存降级错误的方法和装置,所述方法包括:通过操作系统OS对内存错误进行拦截并解析;根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。本发明实施例可以通过操作系统OS对内存错误进行拦截并解析,发送内存降级错误日志到BMC的方法,解决了在EMCA2开启后,SMI中断关闭的情况下,带外无法监控到内存降级错误的方法。

Description

一种检测内存降级错误的方法和装置
技术领域
本发明涉及内存技术,尤指一种检测内存降级错误的方法和装置。
背景技术
随着近几年互联网时代的发展,对海量数据处理能力的需求正在快速增长,从而对服务器提出了更高的要求,作为服务器产业的原始动力,先进技术的应用于对于用户采购会起到决定性的作用,在网络技术、虚拟化技术、分布式应用快速发展的今天,服务器所要求的可用性,可靠性,可服务性的指标越来越高。金融服务、电信服务已经成为经济社会生活随时随地不可或缺的要素,金融、电信业务的正常运转高度依赖于信息系统的持续稳定运行,对高端服务器的可用性也提出了很高的要求,要求高端服务器系统的可用度达到99.999%。
在各个业务运行期间,服务器也存在大量的内存数据访问,一般Intel硬件都自带纠错功能,当内存访问出现可纠正内存错误,硬件能对错误纠错,但服务器产品需要通过监控得到可纠正内存错误信息,给客户提供产品的健壮性,可以及时通知到用户更换发生错误频率高的内存,能较好的提供客户体验。
现有技术intel x86通用服务器主流产品支持增强机器校验架构第二代(enhanced machine check architecture generation 2,EMCA2)功能,按照intel设计,当开启EMCA2功能后,内存上单个库(bank)每次检测到发生内存可纠正错误就会触发系统管理中断(System Management Interrupt,SMI),当单个内存某一固定位置一直报错,容易触发SMI风暴导致机器宕机,目前采用关闭SMI的方法,通过触发可纠正机器检查中断(Correctable machine check interrupt,CMCI)由操作系统OS处理内存可纠正错误,并在带内系统记录错误。
现有技术方案能抑制SMI导致的宕机风险,但由于BIOS无法通过SMI处理错误发送到服务器主板上的管理芯片BMC,只有错误到达阈值才会触发SMI进行错误处理,这样会导致带外系统无法检测到内存对应的机器校验库(Machine check bank,MC bank)的内存降级错误,部分关键错误无法在带外系统记录,内存降级错误是由于内存巡检引擎检测到不可纠正错误会造成宕机,目前措施是将错误降级为可纠正错误,但基本输入输出系统(Basic Input Output System,BIOS)无法检测到此类错误,无法发送到带外系统,但是如果没有处理就会被下一次的可纠正错误覆盖,导致错误漏报,对依赖带外系统对系统错误进行诊断的客户带来了很大不便。
发明内容
为了解决上述技术问题,本发明实施例提供了一种检测内存降级错误的方法和装置,可以通过操作系统OS对内存错误进行拦截并解析,发送内存降级错误日志到BMC的方法,解决了在EMCA2开启后,SMI中断关闭的情况下,带外无法监控到内存降级错误的方法。
为了达到本发明目的,一方面,本发明实施例提供了一种检测内存降级错误的方法,包括:
通过操作系统OS对内存错误进行拦截并解析;
根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;
所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。
进一步地,所述通过操作系统OS对内存错误进行拦截并解析之前包括:
在OS的内核kernel中的可纠正机器检查中断CMCI代码中增加处理内存降级错误的程序;
在BIOS代码中打开增强机器校验架构第二代EMCA2,设置内存相关的错误产生中断类型为CMCI。
进一步地,所述通过操作系统OS对内存错误进行拦截并解析包括:
设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断,由OS的CMCI中断处理。
进一步地,所述通过操作系统OS对内存错误进行拦截并解析包括:
所述CMCI中断处理中加入对机器校验库MC bank的数据解析,机器启动到OS后,OS每次收到CMCI中断,通过MC bank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给所述BMC。
进一步地,所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误包括:
所述BMC收到所述日志信息后,根据内存地址通过内存转换算法得到内存条位置。
另一方面,本发明实施例还提供了一种检测内存降级错误的装置,包括:
解析模块,用于通过操作系统OS对内存错误进行拦截并解析;
发送模块,用于根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;
定位模块,用于所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。
进一步地,还包括设置模块,用于:
在OS的内核kernel中的可纠正机器检查中断CMCI代码中增加处理内存降级错误的程序;
在BIOS代码中打开增强机器校验架构第二代EMCA2,设置内存相关的错误产生中断类型为CMCI。
进一步地,所述解析模块用于:
设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断,由OS的CMCI中断处理。
进一步地,所述解析模块用于:
所述CMCI中断处理中加入对机器校验库MC bank的数据解析,机器启动到OS后,OS每次收到CMCI中断,通过MC bank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给所述BMC。
进一步地,所述定位模块用于:
所述BMC收到所述日志信息后,根据内存地址通过内存转换算法得到内存条位置。
本发明实施例通过操作系统OS对内存错误进行拦截并解析;根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。本发明实施例可以通过操作系统OS对内存错误进行拦截并解析,发送内存降级错误日志到BMC的方法,解决了在EMCA2开启后,SMI中断关闭的情况下,带外无法监控到内存降级错误的方法。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例检测内存降级错误的方法的流程图;
图2为本发明实施例检测内存降级错误的装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例检测内存降级错误的方法的流程图,如图1所示,本发明实施例的方法包括以下步骤:
步骤101:通过操作系统OS对内存错误进行拦截并解析;
具体地,本发明实施例提供一种通过操作系统OS对错误进行拦截并解析,发送内存降级错误日志到服务器主板上的管理芯片BMC的方法,解决了在EMCA2开启后,SMI中断关闭的情况下,带外无法监控到内存降级错误的方法。
其中,EMCA2为增强机器校验架构第二代(enhanced machine checkarchitecture generation 2)。
步骤102:根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;
例如,如果检测到内存降级错误则通过智能平台管理接口IPMI驱动发送命令给BMC。
步骤103:所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。
例如,根据内存地址可通过内存转换算法得到内存条位置。
进一步地,所述通过操作系统OS对内存错误进行拦截并解析之前包括:
在OS的内核kernel中的CMCI代码中增加处理内存降级错误的程序;
其中,CMCI为可纠正机器检查中断(Correctable machine check interrupt)。
在BIOS代码中打开EMCA2,设置内存相关的错误产生中断类型为CMCI。
进一步地,所述通过操作系统OS对内存错误进行拦截并解析包括:
设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断,由OS的CMCI中断处理。
进一步地,所述通过操作系统OS对内存错误进行拦截并解析包括:
所述CMCI中断处理中加入对机器校验库MC bank的数据解析,机器启动到OS后,OS每次收到CMCI中断,通过MC bank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给所述BMC。
其中,MC bank为机器校验库(Machine check bank)。
进一步地,所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误包括:
所述BMC收到所述日志信息后,根据内存地址通过内存转换算法得到内存条位置。
下面对本发明实施例技术方案的实现过程进行详细描述:
在服务器硬件开发过程中,设置CPU的内存错误为每次出现可纠正错误触发一次可纠正机器检查中断CMCI,而不是触发SMI中断,这样能减少宕机风险,由OS的CMCI中断处理,CMCI中断处理中加入对MC bank的数据解析,如果检测到内存降级错误则通过IPMI驱动发送命令给BMC,BMC则记录内存错误信息并显示到系统错误日志,用户可根据警告信息预留出机器并联系售后人员更换故障内存。
具体包括以下步骤:
在OS的kernel中CMCI代码中增加处理内存降级错误的功能;
在BIOS代码中打开EMCA2,设置内存相关的错误产生中断类型为CMCI;
机器启动到OS后,OS每次收到CMCI中断,通过MCbank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给BMC,如果不是内存降级错误,则不发送日志;
BMC收到日志信息后可显示在日志列表中,同时可以对日志信息做分析得到更详细的故障解析,根据内存地址可通过内存转换算法得到内存条位置,将发生不可纠正的内存巡检错误定位出来。
本发明实施例技术方案在EMCA2功能开启下,OS对每条可纠正内存错误进行处理,由CMCI中断处理加入错误类型的判断,对不可纠正错误降级为可纠正错误及时定位出来,而不是通过SMI中断,一方面可避免SMI风暴的产生,同时可保证BMC系统能监控到内存的健康状态。可增强系统的可诊断性,可服务性等,同时记录日志为用户提供带外直观的可读的信息,方便掌握服务器的运行状态,可及时定位并替换服务器的故障内存。
本发明实施例主要解决了EMCA2模式下,关闭SMI中断处理可纠正内存错误,由CMCI中断处理加入对错误类型的判断,将故障信息传递到BMC,对不可纠正错误降级为可纠正错误及时定位出来,避免漏报。
图2为本发明实施例检测内存降级错误的装置的结构图,如图2所示,本发明实施例另一方面提供的一种检测内存降级错误的装置,包括:
解析模块201,用于通过操作系统OS对内存错误进行拦截并解析;
发送模块202,用于根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;
定位模块203,用于所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。
进一步地,还包括设置模块,用于:
在OS的内核kernel中的可纠正机器检查中断CMCI代码中增加处理内存降级错误的程序;
在BIOS代码中打开增强机器校验架构第二代EMCA2,设置内存相关的错误产生中断类型为CMCI。
进一步地,所述解析模块201用于:
设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断,由OS的CMCI中断处理。
进一步地,所述解析模块201用于:
所述CMCI中断处理中加入对机器校验库MC bank的数据解析,机器启动到OS后,OS每次收到CMCI中断,通过MC bank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给所述BMC。
进一步地,所述定位模块203用于:
所述BMC收到所述日志信息后,根据内存地址通过内存转换算法得到内存条位置。
综上所述,本发明实施例通过操作系统OS对内存错误进行拦截并解析;根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。本发明实施例可以通过操作系统OS对内存错误进行拦截并解析,发送内存降级错误日志到BMC的方法,解决了在EMCA2开启后,SMI中断关闭的情况下,带外无法监控到内存降级错误的方法。
进一步地,本发明实施例的技术方案用于帮助服务器系统增强故障诊断能力,可以应用到所有计算机系统产品化的固件可靠性故障诊断功能中。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种检测内存降级错误的方法,其特征在于,包括:
通过操作系统OS对内存错误进行拦截并解析;
根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;
所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。
2.根据权利要求1所述的检测内存降级错误的方法,其特征在于,所述通过操作系统OS对内存错误进行拦截并解析之前包括:
在OS的内核kernel中的可纠正机器检查中断CMCI代码中增加处理内存降级错误的程序;
在BIOS代码中打开增强机器校验架构第二代EMCA2,设置内存相关的错误产生中断类型为CMCI。
3.根据权利要求2所述的检测内存降级错误的方法,其特征在于,所述通过操作系统OS对内存错误进行拦截并解析包括:
设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断,由OS的CMCI中断处理。
4.根据权利要求3所述的检测内存降级错误的方法,其特征在于,所述通过操作系统OS对内存错误进行拦截并解析包括:
所述CMCI中断处理中加入对机器校验库MC bank的数据解析,机器启动到OS后,OS每次收到CMCI中断,通过MC bank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给所述BMC。
5.根据权利要求4所述的检测内存降级错误的方法,其特征在于,所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误包括:
所述BMC收到所述日志信息后,根据内存地址通过内存转换算法得到内存条位置。
6.一种检测内存降级错误的装置,其特征在于,包括:
解析模块,用于通过操作系统OS对内存错误进行拦截并解析;
发送模块,用于根据解析结果,发送内存降级错误日志到服务器主板上的管理芯片BMC;
定位模块,用于所述BMC收到日志信息后,根据算法检测定位出不可纠正的内存巡检错误。
7.根据权利要求6所述的检测内存降级错误的装置,其特征在于,还包括设置模块,用于:
在OS的内核kernel中的可纠正机器检查中断CMCI代码中增加处理内存降级错误的程序;
在BIOS代码中打开增强机器校验架构第二代EMCA2,设置内存相关的错误产生中断类型为CMCI。
8.根据权利要求7所述的检测内存降级错误的装置,其特征在于,所述解析模块用于:
设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断,由OS的CMCI中断处理。
9.根据权利要求8所述的检测内存降级错误的装置,其特征在于,所述解析模块用于:
所述CMCI中断处理中加入对机器校验库MC bank的数据解析,机器启动到OS后,OS每次收到CMCI中断,通过MC bank获得具体的故障内存地址及错误类型,如果错误类型为降级错误则将日志信息发送给所述BMC。
10.根据权利要求9所述的检测内存降级错误的装置,其特征在于,所述定位模块用于:
所述BMC收到所述日志信息后,根据内存地址通过内存转换算法得到内存条位置。
CN201910932646.6A 2019-09-29 2019-09-29 一种检测内存降级错误的方法和装置 Pending CN110781053A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910932646.6A CN110781053A (zh) 2019-09-29 2019-09-29 一种检测内存降级错误的方法和装置
US17/762,213 US11853150B2 (en) 2019-09-29 2019-12-30 Method and device for detecting memory downgrade error
PCT/CN2019/129991 WO2021056912A1 (zh) 2019-09-29 2019-12-30 一种检测内存降级错误的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910932646.6A CN110781053A (zh) 2019-09-29 2019-09-29 一种检测内存降级错误的方法和装置

Publications (1)

Publication Number Publication Date
CN110781053A true CN110781053A (zh) 2020-02-11

Family

ID=69384720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910932646.6A Pending CN110781053A (zh) 2019-09-29 2019-09-29 一种检测内存降级错误的方法和装置

Country Status (3)

Country Link
US (1) US11853150B2 (zh)
CN (1) CN110781053A (zh)
WO (1) WO2021056912A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459557A (zh) * 2020-03-12 2020-07-28 烽火通信科技股份有限公司 一种缩短服务器开机时间的方法及系统
CN113064745A (zh) * 2021-02-20 2021-07-02 山东英信计算机技术有限公司 一种错误信息上报的方法、装置及介质
CN113064749A (zh) * 2021-04-26 2021-07-02 山东英信计算机技术有限公司 一种通过bios控制运行时阶段调试信息输出的方法
CN113076213A (zh) * 2021-03-30 2021-07-06 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11880266B2 (en) * 2022-05-04 2024-01-23 Target Brands, Inc. Malfunction monitor for computing devices

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681909A (zh) * 2012-04-28 2012-09-19 浪潮电子信息产业股份有限公司 一种基于内存错误的服务器预警方法
CN102799506A (zh) * 2012-06-29 2012-11-28 浪潮电子信息产业股份有限公司 一种定位故障内存的方法
CN103905253A (zh) * 2014-04-04 2014-07-02 浪潮电子信息产业股份有限公司 一种基于Nagios和BMC的服务器监控管理方法
CN105786668A (zh) * 2016-04-01 2016-07-20 浪潮电子信息产业股份有限公司 一种基于Redhat系统下内存错误检测方法
CN106445720A (zh) * 2016-10-11 2017-02-22 郑州云海信息技术有限公司 一种内存错误恢复方法和装置
US10268541B2 (en) * 2016-08-15 2019-04-23 Samsung Electronics Co., Ltd. DRAM assist error correction mechanism for DDR SDRAM interface

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9864603B2 (en) * 2014-09-26 2018-01-09 Intel Corporation Instruction and logic for machine check interrupt management
CN105893166A (zh) * 2016-04-29 2016-08-24 浪潮电子信息产业股份有限公司 一种处理内存错误的方法及装置
CN107077408A (zh) 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
CN108108259A (zh) 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN114579340A (zh) 2019-03-01 2022-06-03 超聚变数字技术有限公司 内存错误处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681909A (zh) * 2012-04-28 2012-09-19 浪潮电子信息产业股份有限公司 一种基于内存错误的服务器预警方法
CN102799506A (zh) * 2012-06-29 2012-11-28 浪潮电子信息产业股份有限公司 一种定位故障内存的方法
CN103905253A (zh) * 2014-04-04 2014-07-02 浪潮电子信息产业股份有限公司 一种基于Nagios和BMC的服务器监控管理方法
CN105786668A (zh) * 2016-04-01 2016-07-20 浪潮电子信息产业股份有限公司 一种基于Redhat系统下内存错误检测方法
US10268541B2 (en) * 2016-08-15 2019-04-23 Samsung Electronics Co., Ltd. DRAM assist error correction mechanism for DDR SDRAM interface
US20190179705A1 (en) * 2016-08-15 2019-06-13 Samsung Electronics Co., Ltd. Dram assist error correction mechanism for ddr sdram interface
CN106445720A (zh) * 2016-10-11 2017-02-22 郑州云海信息技术有限公司 一种内存错误恢复方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEOUFUNG: "《Intel MCE CMCI (三)系统软件中CMCI的相关实现》", 《HTTPS://BLOG.CSDN.NET/LEOUFUNG/ARTICLE/DETAILS/48780957》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459557A (zh) * 2020-03-12 2020-07-28 烽火通信科技股份有限公司 一种缩短服务器开机时间的方法及系统
CN111459557B (zh) * 2020-03-12 2023-04-07 烽火通信科技股份有限公司 一种缩短服务器开机时间的方法及系统
CN113064745A (zh) * 2021-02-20 2021-07-02 山东英信计算机技术有限公司 一种错误信息上报的方法、装置及介质
CN113076213A (zh) * 2021-03-30 2021-07-06 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统
CN113076213B (zh) * 2021-03-30 2022-05-27 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统
CN113064749A (zh) * 2021-04-26 2021-07-02 山东英信计算机技术有限公司 一种通过bios控制运行时阶段调试信息输出的方法
CN113064749B (zh) * 2021-04-26 2023-02-28 山东英信计算机技术有限公司 一种通过bios控制运行时阶段调试信息输出的方法

Also Published As

Publication number Publication date
US20220342740A1 (en) 2022-10-27
US11853150B2 (en) 2023-12-26
WO2021056912A1 (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
CN110781053A (zh) 一种检测内存降级错误的方法和装置
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
US20200050510A1 (en) Server hardware fault analysis and recovery
US7409594B2 (en) System and method to detect errors and predict potential failures
EP3121726B1 (en) Fault processing method, related device and computer
US11010273B2 (en) Software condition evaluation apparatus and methods
US7702971B2 (en) System and method for predictive failure detection
US7685469B2 (en) Method and apparatus of analyzing computer system interruptions
Panda et al. {IASO}: A {Fail-Slow} Detection and Mitigation Framework for Distributed Storage Services
US20080140895A1 (en) Systems and Arrangements for Interrupt Management in a Processing Environment
US20030084376A1 (en) Software crash event analysis method and system
US9389942B2 (en) Determine when an error log was created
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
US20080288828A1 (en) structures for interrupt management in a processing environment
CN113010341A (zh) 一种故障内存定位的方法和设备
CN112988442B (zh) 一种服务器运行阶段传送故障信息的方法和设备
JPWO2008120383A1 (ja) 情報処理装置、障害処理方法
US11797368B2 (en) Attributing errors to input/output peripheral drivers
US20060230196A1 (en) Monitoring system and method using system management interrupt
US11422876B2 (en) Systems and methods for monitoring and responding to bus bit error ratio events
KR100862407B1 (ko) 에러를 검출하고 잠재적 고장을 예상하는 시스템 및 방법
Khan Time-Series Trend-Based Multi-Level Adaptive Execution Tracing
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법
CN116560936A (zh) 异常监测方法、协处理器及计算设备
CN117555711A (zh) 一种虚拟机管理方法、装置、云计算平台及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200211