CN110781053A

CN110781053A - 一种检测内存降级错误的方法和装置

Info

Publication number: CN110781053A
Application number: CN201910932646.6A
Authority: CN
Inventors: 罗鹏芳; 胡雷钧
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-02-11
Also published as: US20220342740A1; US11853150B2; WO2021056912A1

Abstract

本发明实施例公开了一种检测内存降级错误的方法和装置，所述方法包括：通过操作系统OS对内存错误进行拦截并解析；根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。本发明实施例可以通过操作系统OS对内存错误进行拦截并解析，发送内存降级错误日志到BMC的方法，解决了在EMCA2开启后，SMI中断关闭的情况下，带外无法监控到内存降级错误的方法。

Description

一种检测内存降级错误的方法和装置

技术领域

本发明涉及内存技术，尤指一种检测内存降级错误的方法和装置。

背景技术

随着近几年互联网时代的发展，对海量数据处理能力的需求正在快速增长，从而对服务器提出了更高的要求，作为服务器产业的原始动力，先进技术的应用于对于用户采购会起到决定性的作用，在网络技术、虚拟化技术、分布式应用快速发展的今天，服务器所要求的可用性，可靠性，可服务性的指标越来越高。金融服务、电信服务已经成为经济社会生活随时随地不可或缺的要素，金融、电信业务的正常运转高度依赖于信息系统的持续稳定运行，对高端服务器的可用性也提出了很高的要求，要求高端服务器系统的可用度达到99.999％。

在各个业务运行期间，服务器也存在大量的内存数据访问，一般Intel硬件都自带纠错功能，当内存访问出现可纠正内存错误，硬件能对错误纠错，但服务器产品需要通过监控得到可纠正内存错误信息，给客户提供产品的健壮性，可以及时通知到用户更换发生错误频率高的内存，能较好的提供客户体验。

现有技术intel x86通用服务器主流产品支持增强机器校验架构第二代(enhanced machine check architecture generation 2，EMCA2)功能，按照intel设计，当开启EMCA2功能后，内存上单个库(bank)每次检测到发生内存可纠正错误就会触发系统管理中断(System Management Interrupt，SMI)，当单个内存某一固定位置一直报错，容易触发SMI风暴导致机器宕机，目前采用关闭SMI的方法，通过触发可纠正机器检查中断(Correctable machine check interrupt，CMCI)由操作系统OS处理内存可纠正错误，并在带内系统记录错误。

现有技术方案能抑制SMI导致的宕机风险，但由于BIOS无法通过SMI处理错误发送到服务器主板上的管理芯片BMC，只有错误到达阈值才会触发SMI进行错误处理，这样会导致带外系统无法检测到内存对应的机器校验库(Machine check bank，MC bank)的内存降级错误，部分关键错误无法在带外系统记录，内存降级错误是由于内存巡检引擎检测到不可纠正错误会造成宕机，目前措施是将错误降级为可纠正错误，但基本输入输出系统(Basic Input Output System，BIOS)无法检测到此类错误，无法发送到带外系统，但是如果没有处理就会被下一次的可纠正错误覆盖，导致错误漏报，对依赖带外系统对系统错误进行诊断的客户带来了很大不便。

发明内容

为了解决上述技术问题，本发明实施例提供了一种检测内存降级错误的方法和装置，可以通过操作系统OS对内存错误进行拦截并解析，发送内存降级错误日志到BMC的方法，解决了在EMCA2开启后，SMI中断关闭的情况下，带外无法监控到内存降级错误的方法。

为了达到本发明目的，一方面，本发明实施例提供了一种检测内存降级错误的方法，包括：

通过操作系统OS对内存错误进行拦截并解析；

根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；

所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。

进一步地，所述通过操作系统OS对内存错误进行拦截并解析之前包括：

在OS的内核kernel中的可纠正机器检查中断CMCI代码中增加处理内存降级错误的程序；

在BIOS代码中打开增强机器校验架构第二代EMCA2，设置内存相关的错误产生中断类型为CMCI。

进一步地，所述通过操作系统OS对内存错误进行拦截并解析包括：

设置CPU的内存错误为每次出现可纠正错误触发一次CMCI中断，由OS的CMCI中断处理。

所述CMCI中断处理中加入对机器校验库MC bank的数据解析，机器启动到OS后，OS每次收到CMCI中断，通过MC bank获得具体的故障内存地址及错误类型，如果错误类型为降级错误则将日志信息发送给所述BMC。

进一步地，所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误包括：

所述BMC收到所述日志信息后，根据内存地址通过内存转换算法得到内存条位置。

另一方面，本发明实施例还提供了一种检测内存降级错误的装置，包括：

解析模块，用于通过操作系统OS对内存错误进行拦截并解析；

发送模块，用于根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；

定位模块，用于所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。

进一步地，还包括设置模块，用于：

进一步地，所述解析模块用于：

进一步地，所述定位模块用于：

本发明实施例通过操作系统OS对内存错误进行拦截并解析；根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。本发明实施例可以通过操作系统OS对内存错误进行拦截并解析，发送内存降级错误日志到BMC的方法，解决了在EMCA2开启后，SMI中断关闭的情况下，带外无法监控到内存降级错误的方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例检测内存降级错误的方法的流程图；

图2为本发明实施例检测内存降级错误的装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例检测内存降级错误的方法的流程图，如图1所示，本发明实施例的方法包括以下步骤：

步骤101：通过操作系统OS对内存错误进行拦截并解析；

具体地，本发明实施例提供一种通过操作系统OS对错误进行拦截并解析，发送内存降级错误日志到服务器主板上的管理芯片BMC的方法，解决了在EMCA2开启后，SMI中断关闭的情况下，带外无法监控到内存降级错误的方法。

其中，EMCA2为增强机器校验架构第二代(enhanced machine checkarchitecture generation 2)。

步骤102：根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；

例如，如果检测到内存降级错误则通过智能平台管理接口IPMI驱动发送命令给BMC。

步骤103：所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。

例如，根据内存地址可通过内存转换算法得到内存条位置。

在OS的内核kernel中的CMCI代码中增加处理内存降级错误的程序；

其中，CMCI为可纠正机器检查中断(Correctable machine check interrupt)。

在BIOS代码中打开EMCA2，设置内存相关的错误产生中断类型为CMCI。

其中，MC bank为机器校验库(Machine check bank)。

下面对本发明实施例技术方案的实现过程进行详细描述：

在服务器硬件开发过程中，设置CPU的内存错误为每次出现可纠正错误触发一次可纠正机器检查中断CMCI，而不是触发SMI中断，这样能减少宕机风险，由OS的CMCI中断处理，CMCI中断处理中加入对MC bank的数据解析，如果检测到内存降级错误则通过IPMI驱动发送命令给BMC，BMC则记录内存错误信息并显示到系统错误日志，用户可根据警告信息预留出机器并联系售后人员更换故障内存。

具体包括以下步骤：

在OS的kernel中CMCI代码中增加处理内存降级错误的功能；

在BIOS代码中打开EMCA2，设置内存相关的错误产生中断类型为CMCI；

机器启动到OS后，OS每次收到CMCI中断，通过MCbank获得具体的故障内存地址及错误类型，如果错误类型为降级错误则将日志信息发送给BMC，如果不是内存降级错误，则不发送日志；

BMC收到日志信息后可显示在日志列表中，同时可以对日志信息做分析得到更详细的故障解析，根据内存地址可通过内存转换算法得到内存条位置，将发生不可纠正的内存巡检错误定位出来。

本发明实施例技术方案在EMCA2功能开启下，OS对每条可纠正内存错误进行处理，由CMCI中断处理加入错误类型的判断，对不可纠正错误降级为可纠正错误及时定位出来，而不是通过SMI中断，一方面可避免SMI风暴的产生，同时可保证BMC系统能监控到内存的健康状态。可增强系统的可诊断性，可服务性等，同时记录日志为用户提供带外直观的可读的信息，方便掌握服务器的运行状态，可及时定位并替换服务器的故障内存。

本发明实施例主要解决了EMCA2模式下，关闭SMI中断处理可纠正内存错误，由CMCI中断处理加入对错误类型的判断，将故障信息传递到BMC，对不可纠正错误降级为可纠正错误及时定位出来，避免漏报。

图2为本发明实施例检测内存降级错误的装置的结构图，如图2所示，本发明实施例另一方面提供的一种检测内存降级错误的装置，包括：

解析模块201，用于通过操作系统OS对内存错误进行拦截并解析；

发送模块202，用于根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；

定位模块203，用于所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。

进一步地，还包括设置模块，用于：

进一步地，所述解析模块201用于：

进一步地，所述定位模块203用于：

综上所述，本发明实施例通过操作系统OS对内存错误进行拦截并解析；根据解析结果，发送内存降级错误日志到服务器主板上的管理芯片BMC；所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误。本发明实施例可以通过操作系统OS对内存错误进行拦截并解析，发送内存降级错误日志到BMC的方法，解决了在EMCA2开启后，SMI中断关闭的情况下，带外无法监控到内存降级错误的方法。

进一步地，本发明实施例的技术方案用于帮助服务器系统增强故障诊断能力，可以应用到所有计算机系统产品化的固件可靠性故障诊断功能中。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种检测内存降级错误的方法，其特征在于，包括：

通过操作系统OS对内存错误进行拦截并解析；

2.根据权利要求1所述的检测内存降级错误的方法，其特征在于，所述通过操作系统OS对内存错误进行拦截并解析之前包括：

3.根据权利要求2所述的检测内存降级错误的方法，其特征在于，所述通过操作系统OS对内存错误进行拦截并解析包括：

4.根据权利要求3所述的检测内存降级错误的方法，其特征在于，所述通过操作系统OS对内存错误进行拦截并解析包括：

5.根据权利要求4所述的检测内存降级错误的方法，其特征在于，所述BMC收到日志信息后，根据算法检测定位出不可纠正的内存巡检错误包括：

6.一种检测内存降级错误的装置，其特征在于，包括：

7.根据权利要求6所述的检测内存降级错误的装置，其特征在于，还包括设置模块，用于：

8.根据权利要求7所述的检测内存降级错误的装置，其特征在于，所述解析模块用于：

9.根据权利要求8所述的检测内存降级错误的装置，其特征在于，所述解析模块用于：

10.根据权利要求9所述的检测内存降级错误的装置，其特征在于，所述定位模块用于：