CN111209129A

CN111209129A - 基于amd平台的内存优化方法和装置

Info

Publication number: CN111209129A
Application number: CN201911371288.2A
Authority: CN
Inventors: 陈东林
Original assignee: Dawning Information Industry Co Ltd
Current assignee: Dawning Information Industry Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-29

Abstract

本发明提供了一种基于AMD平台的内存优化方法以及装置，包括：将内存ECC错误划分为多个优先级，其中，多个优先级中的第一优先级的第一优先条件定义为在时间T_M内，内存ECC错误累计达到M条；根据多个优先级的顺序依次执行相应处理，其中，当满足第一优先条件时，将内存ECC错误上报给操作系统和BMC。本发明对现有的内存RAS功能进行了优化，优化后的系统可以更全面的，准确的上报内存故障，提升了系统的稳定性和可维护性。优化设计提升了内存故障上报的准确率，降低了系统重启或死机的风险，提升了产品的质量。

Description

基于AMD平台的内存优化方法和装置

技术领域

本发明涉及一种基于AMD平台的内存优化方法和装置。

背景技术

随着技术的发展，制造工艺的革新，计算系统越来越复杂。对于大型关键应用主机，系统要求必须尽可能的可靠，不会意外的崩溃，这意味着系统必须能够对于某些小的错误做到自修复，对于无法自修复的错误也尽可能进行隔离，保障系统其余部分正常运转。同时系统必须能够提供便利的诊断功能，如系统日志，动态检测等手段方便管理人员进行系统诊断和维护操作，从而及早的发现错误并且修复错误。

内存错误和故障是引发系统硬件故障的原因之一，一方面，从SDR到DDR，再到目前的DDR4，内存的容量和性能不断提升，内存颗粒容量的增大、单元密度增加、生产工艺的复杂，客观上增加了内存缺陷检查和测试的难度；另一方面，大型实时处理系统要求更多的内存，使得内存发生错误和故障的概率显著增加。AMD Naples平台是AMD第一代基于x86架构的芯片处理器，平台在内存RAS方面做的还不完善。存在内存错误覆盖不全面和误报的风险，这会导致系统的稳定性和可维护性下降，甚至可能导致系统的重启或死机。同时现有的内存RAS设计方案也满足不了互联网公司对内存稳定性的要求，因此平台内存RAS功能的优化迫在眉睫。

现有的设计方案是BIOS首先会初始化内存ECC阈值。当内存硬件检测到错误时，内存状态寄存器就会记录一个ECC错误。内存ECC的错误是累加的，当硬件检测到第一个错误时，ECC错误计数被设置为1。当硬件检测到第二个错误时，ECC错误计数累加为2。当ECC错误累计数量到达预设的阈值时，硬件会触发SMI中断，SMI中断处理函数会对内存错误做处理。

现有的设计存在两点不足：

1.无法判断系统是否发生了内存风暴。内存风暴指的是特定时间内，有一定量的内存ECC错误产生，内存风暴的发生表明内存硬件有损坏。因为现有的设计没有引入时间的概念，所以无法判断系统是否发生了内存风暴。比如硬件在1分钟内检测到了100次内存错误,此时说明系统已经发生了内存风暴。但现有设计的判别条件是ECC错误的累计是否达到了预设阈值200。如果当前内存ECC错误的累计小于200，那么现有设计不认为内存有损坏，还会正常的使用损坏的内存。这可能会有系统重启或死机的风险。

2.很大概率的存在误报。硬件检测到内存ECC错误并不能说明内存已经损坏，因为导致内存产生ECC错误的原因有多种。可能是内存周围环境的干扰导致的(比如说信号的干扰，环境的温湿度)，也有可能是内存确实质量问题导致的。现有设计不能滤掉环境因素导致的内存错误，这将会放大系统对真实错误的累计从而导致误报。

发明内容

针对相关技术中存在的问题，本发明的目的在于提供一种基于AMD平台的内存优化方法和装置，能够判断系统是否发生内存风暴，进而降低系统因使用损坏的内存而导致重启或死机的风险。

根据本发明的实施例，提供了一种基于AMD平台的内存优化方法，包括：将内存ECC错误划分为多个优先级，其中，多个优先级中的第一优先级的第一优先条件定义为在时间T_M内，内存ECC错误累计达到M条；根据多个优先级的顺序依次执行相应处理，其中，当满足第一优先条件时，将内存ECC错误上报给操作系统和BMC。

根据本发明的实施例，多个优先级还包括第二优先级，第二优先级的第二优先条件定义为系统达到预定时间间隔T_L，当满足第二优先条件时，从当前累计的内存ECC错误数量中减去预设数量。

根据本发明的实施例，多个优先级还包括第三优先级，第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C，且C>M，当满足第三优先条件时，将内存ECC错误上报给操作系统和BMC。

根据本发明的实施例，时间T_M根据读取CPU晶振计算。

根据本发明的实施例，内存优化方法包括：判断M和C是否为0，如果M和C被同时设置为0，系统处于测试状态，则结束优化方法；如果M和C不同时为0，系统处于正常的运行状态，根据多个优先级的顺序依次执行相应处理。

根据本发明的实施例，内存优化方法包括，将内存ECC错误阈值设置为1。

根据本发明的实施例，提供了一种基于AMD平台的内存优化装置，包括：优先级设置模块，用于将内存ECC错误划分为多个优先级，其中，多个优先级中的第一优先级的第一优先条件定义为在时间T_M内，内存ECC错误累计达到M条；执行模块，用于根据多个优先级的顺序依次执行相应处理，其中，当满足第一优先条件时，执行模块将内存ECC错误上报给操作系统和BMC。

根据本发明的实施例，优先级设置模块的多个优先级还包括第二优先级，第二优先级的第二优先条件定义为系统达到预定时间间隔T_L，当满足第二优先条件时，执行模块从当前累计的内存ECC错误数量中减去预设数量。

根据本发明的实施例，优先级设置模块的多个优先级还包括第三优先级，第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C，且C>M，当满足第三优先条件时，执行模块将内存ECC错误上报给操作系统和BMC。

根据本发明的实施例，时间T_M根据读取CPU晶振计算。

本发明的有益技术效果在于：

本发明对现有的内存RAS功能进行了优化，优化后的系统可以更全面的，准确的上报内存故障，提升了系统的稳定性和可维护性。优化设计提升了内存故障上报的准确率，降低了系统重启或死机的风险，提升了产品的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一个实施例的基于AMD平台的内存优化方法的流程图；

图2是根据本发明另一个实施例的基于AMD平台的内存优化方法的流程图；

图3是图2中步骤S24至S26处的局部放大图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种能够判断系统是否发生内存风暴，进而降低系统因使用损坏的内存而导致重启或死机的风险的基于AMD平台的内存优化方法和装置。在本发明的实施例中，AMD平台可以是AMD x86服务器平台。

如图1所示，根据本发明实施例的基于AMD平台的内存优化方法，包括：

S11，将内存ECC错误划分为多个优先级，其中，多个优先级中的第一优先级的第一优先条件定义为在时间T_M内，内存ECC错误累计达到M条；

S12，根据多个优先级的顺序依次执行相应处理，其中，当满足第一优先条件时，将内存ECC错误上报给操作系统和BMC。其中，第一优先条件可以是内存风暴的判定条件。

内存风暴指特定时间内，有一定量的内存ECC错误产生，内存风暴的发生表明内存硬件有损坏。本发明引入时间的概念，可以判断在特定时间T_M内，是否有一定量M的内存ECC错误产生，即可以判断系统是否发生了内存风暴，进而判断内存硬件是否有损坏。降低了系统因使用损坏的内存而导致重启或死机的风险。

多个优先级还包括第二优先级，第二优先级的第二优先条件定义为系统达到预定时间间隔T_L，当满足第二优先条件时，从当前累计的内存ECC错误数量中减去预设数量。导致内存产生ECC错误的原因可能是内存周围环境的干扰导致的(比如说信号的干扰，环境的温湿度)，也有可能是内存确实质量问题导致的。本发明通过每过T_L的时间间隔，漏掉预设数量的内存ECC错误，能够滤掉环境因素导致的内存错误，以防止因放大系统对真实错误的累计从而导致的误报。

本发明的内存优化方法的多个优先级还包括第三优先级，第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C，且C>M，当满足第三优先条件时，将内存ECC错误上报给操作系统和BMC。

时间T_M根据读取CPU晶振计算。风暴时间T_M决定了风暴类型错误上报的准确度。本设计采用读取CPU晶振的方法计算风暴时间，该方法精准度高可以达到毫秒级别。

判断M和C是否为0，如果M和C被同时设置为0，系统处于测试状态，则结束优化方法；如果M和C不同时为0，系统处于正常的运行状态，根据多个优先级的顺序依次执行相应处理。

将内存ECC错误阈值设置为1。BIOS会将内存ECC错误阈值设置为1。阈值设置为1的目的在于程序可以更精准的记录硬件第一次检测到内存ECC错误的时间，提高错误报告的准确率。BIOS阶段内存ECC阈值是一个固定值1，但在系统阶段内存ECC阈值并不是一个定值而是一个优化值，系统每次进入SMI中断优化值都需要被重新计算。

在一个实施例中，内存RAS功能的优化分为BIOS阶段和系统阶段两个部分。BIOS阶段要做的任务是对内存ECC阈值的初始化和注册SMI中断处理函数。系统阶段要做的任务是内存ECC错误的处理和上报。优化后的设计将内存错误分为三类，每类错误的描述和处理优先级为：第一优先：内存风暴，在时间TM内，内存累计M条ECC错误时，错误需要被处理并上报给操作系统和BMC；第二优先：漏斗条件，系统每过TL时间，内存ECC错误就要漏掉L条；第三优先：累计条件，内存ECC错误累计达到阈值C时，错误需要被处理并上报给操作系统和BMC。

其中，变量的规则为：

M>＝0(M＝0表示关闭内存风暴)，当M>0时TM必须大于0

L>＝0(L＝0表示关闭漏斗条件)，当L>0时TL必须大于0

C>＝0(C＝0表示关闭累计条件和漏斗条件)

其中，BIOS阶段的优化设计包括：

1.BIOS判断系统是否支持内存RAS功能，如果系统不支持，BIOS会关闭内存RAS功能，优化程序退出。

2.如果系统支持内存RAS功能，BIOS会将内存ECC错误阈值设置为1。阈值设置为1的目的在于程序可以更精准的记录硬件第一次检测到内存ECC错误的时间，提高错误报告的准确率。

3.BIOS注册SMI中断处理函数。

其中，系统阶段的优化设计包括：

1.中断处理程序首先会判断M和C是否为0。如果M和C被同时设置为0，说明系统处于测试状态，中断处理程序不会对内存RAS功能进行优化。

2.如果M和C不同时为0，说明此时是系统处于正常的运行状态。中断处理程序会按照内存错误处理的优先级处理内存故障。

3.中断处理程序决策是否要上报给操作系统和BMC。

4.中断处理程序退出。

在一个实施例中，参考图2和图3所示，其中，第一优先条件设置为风暴条件，定义为在时间T_M内累计M条错误时，记OS和BMC log，其中M＝10，T_M＝1min；第二优先条件设置为漏斗条件，定义为在T_L时间到达时漏掉L条，其中L＝1，T_L＝24h；第三优先条件设置为累积条件，定义为累计总错误数量达到C条时，记OS log和BMC SEL，其中C＝100；并且第三优先条件还设置为，当第三优先条件满足后判断是否清空累计错误数C_C。

其中，程序设计流程的规则为：M＞＝0(等于0表示disable风暴条件)，当M＞0时T_M必须大于0(这样才有意义)；L＞＝0(等于0表示disable漏斗功能)，当L＞0时T_L必须大于0(这样才有意义)；C＞＝0(等于0表示不启用(disable)累积条件，隐含不启用(disable)漏斗条件)。其中，C和M的关系为C＜M时，将先达到累计条件，风暴条件永远不会达到，不建议这样设置。C和L的关系为由于漏掉的数量是在累计错误中减掉，所以C为0时，不仅不启用(disable)累计条件，也不启用(disable)漏斗条件。

其中，ECC MSR可见条件为：AMI code base默认进入OS时隐藏ECC相关MSR、进入SMI处理时如果达到阈值会将ECC相关MSR变为可见，OS发现可见会记log并且重新隐藏这些MSR。

其中，变量代表的含义分别为：Cc，当前累积发生的ECC数量；t₀，第1次进SMI的时间，或者再增加N个T_L的时间；t_p，上次进入SMI的时间，和t₀不一定相差T_L的整数倍；t_m，本次进入SMI的时间；r，寄存器中写入的阈值；f1ag，第2次进SMI。

其中，主程序的流程包括，

步骤S21：判断M和C是否同时为0，若同时为0，则将寄存器设置为FFEh，考虑到还有其他MCA要处理，不能不启用(disable)SMI，因此将寄存器写最大值，使得ECC需要最多次数才能进入SMI；若M和C不同时为0，设置寄存器阈值为1。

其中，中断程序的流程包括，

步骤S22：判断M和C是否同时为0，若同时为0，则将寄存器设置为FFEh；若M和C不同时为0，则判断M为0的同时C为1是否成立，若是，则设置ECC相关MSR可见发送SEL给BMC，并设置寄存器的阈值为1；若否，则进入下一步骤。

步骤S23：设置t_m的当前时间，并判断是否第一次进入SMI，若是，则重新计算寄存器中写入的阈值r，并将寄存器阈值设置为r；若否，则进入下一步骤。

步骤S24：判断风暴条件是否满足，若是，则在第二次进入SMI时使用M-1来判断阈值，第三次进入SMI时使用M来判断阈值，并设置ECC相关MSR可见发送SEL给BMC；若否，则直接进入下一步骤。

步骤S25：判断漏斗条件和累计条件是否同时启用，若是，则重新计算第1次进SMI的时间t₀和当前累积发生的ECC数量Cc；若否，则直接进入下一步骤。

步骤S26：判断累计条件是否满足，即累计次数是否达到阈值C，若是，则设置ECC相关MSR可见发送SEL给BMC，并判断是否清空累计次数的阈值C；若否，则直接进入下一步骤。

步骤S27：重新计算r值，并设置寄存器阈值为r。

本发明提供了一种基于AMD平台的内存优化装置，包括：优先级设置模块，用于将内存ECC错误划分为多个优先级，其中，多个优先级中的第一优先级的第一优先条件定义为在时间TM内，内存ECC错误累计达到M条；执行模块，用于根据多个优先级的顺序依次执行相应处理，其中，当满足第一优先条件时，执行模块将内存ECC错误上报给操作系统和BMC。

根据本发明的实施例，优先级设置模块的多个优先级还包括第二优先级，第二优先级的第二优先条件定义为系统达到预定时间间隔TL，当满足第二优先条件时，执行模块从当前累计的内存ECC错误数量中减去预设数量。

根据本发明的实施例，时间TM根据读取CPU晶振计算。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于AMD平台的内存优化方法，其特征在于，包括：

将内存ECC错误划分为多个优先级，其中，所述多个优先级中的第一优先级的第一优先条件定义为在时间T_M内，内存ECC错误累计达到M条；

根据所述多个优先级的顺序依次执行相应处理，其中，当满足所述第一优先条件时，将所述内存ECC错误上报给操作系统和BMC。

2.根据权利要求1所述的内存优化方法，其特征在于，

所述多个优先级还包括第二优先级，所述第二优先级的第二优先条件定义为系统达到预定时间间隔T_L，

当满足所述第二优先条件时，从当前累计的内存ECC错误数量中减去预设数量。

3.根据权利要求1所述的内存优化方法，其特征在于，

所述多个优先级还包括第三优先级，所述第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C，且C>M，

当满足所述第三优先条件时，将所述内存ECC错误上报给操作系统和BMC。

4.根据权利要求1所述的内存优化方法，其特征在于，所述时间T_M根据读取CPU晶振计算。

5.根据权利要求1所述的内存优化方法，其特征在于，还包括：判断M和C是否为0，如果M和C被同时设置为0，系统处于测试状态，则结束所述优化方法；如果M和C不同时为0，所述系统处于正常的运行状态，根据所述多个优先级的顺序依次执行相应处理。

6.根据权利要求1所述的内存优化方法，其特征在于，将所述内存ECC错误阈值设置为1。

7.一种基于AMD平台的内存优化装置，其特征在于，包括：

优先级设置模块，用于将内存ECC错误划分为多个优先级，其中，所述多个优先级中的第一优先级的第一优先条件定义为在时间T_M内，内存ECC错误累计达到M条；

执行模块，用于根据所述多个优先级的顺序依次执行相应处理，其中，当满足所述第一优先条件时，所述执行模块将所述内存ECC错误上报给操作系统和BMC。

8.根据权利要求7所述的内存优化装置，其特征在于，所述优先级设置模块的所述多个优先级还包括第二优先级，所述第二优先级的第二优先条件定义为系统达到预定时间间隔T_L，

当满足所述第二优先条件时，所述执行模块从当前累计的内存ECC错误数量中减去预设数量。

9.根据权利要求7所述的内存优化装置，其特征在于，所述优先级设置模块的所述多个优先级还包括第三优先级，所述第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C，且C>M，

当满足所述第三优先条件时，所述执行模块将所述内存ECC错误上报给操作系统和BMC。

10.根据权利要求7所述的内存优化装置，其特征在于，所述时间T_M根据读取CPU晶振计算。