CN115328684A

CN115328684A - 内存故障的上报方法、bmc及电子设备

Info

Publication number: CN115328684A
Application number: CN202210762336.6A
Authority: CN
Inventors: 韦炜玮; 鲍全洋; 张光彪; 林祯; 张俊龙
Original assignee: XFusion Digital Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-11-11

Abstract

一种内存故障的上报方法、BMC及电子设备，该方法包括接收可纠正故障CE信息，该CE信息包括当前CE错误的物理地址；根据当前CE错误的物理地址确定当前CE错误的故障类型，基于当前CE错误的故障类型和当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，上报所述当前的CE错误信息；其中，CE错误信息包括CE错误的故障类型和CE错误的物理地址。本发明实施例，通过筛选，可以减少重复的CE错误信息的上报，从而减少BIOS提交的故障隔离请求触发SMI中断，以减少SMI中断造成的系统业务的卡顿和宕机的风险。

Description

内存故障的上报方法、BMC及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种内存故障的上报方法、BMC及电子设备。

背景技术

随着计算机产业的高速发展，处理器支持的内存容量越来越大，运行频率也越来越高，导致内存出现故障的越来越多。目前，基于内存故障的预测和自愈方法成为当前业界主流的解决方案。

该解决方案中，系统会识别每个可纠正错误的故障类型，产生其对应的CE错误信息，并且，向基本输入输出系统(basic input output system，BIOS)上报每一个CE错误信息。然而，当系统在短时间内接收大量可纠正错误时，系统会产生大量的内存故障的CE错误信息，进而若短时间内向BIOS大量提交的CE错误信息或针对各个CE错误信息的故障修复请求会不断地触发系统管理中断(System Management Interruption，SMI)，造成系统业务卡顿，甚至宕机。

发明内容

本申请实施例提供了一种内存故障的上报方法、BMC及电子设备，可以减少重复CE错误信息的上报，从而减少由于重复CE错误信息的上报引起的系统业务卡顿和宕机风险。

第一方面，本申请实施例提供了一种内存故障的上报方法，包括：

接收可纠正故障CE信息，所述CE信息包括当前CE错误的物理地址；

根据当前CE错误的物理地址确定当前CE错误的故障类型；

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，上报所述当前的CE错误信息；其中，所述CE错误信息包括CE错误的故障类型和CE错误的物理地址。

该方法可以由电子设备、电子设备中的处理器或者BMC，或者BMC中的处理器执行或实现。

上述方法，通过筛选，可以减少重复的CE错误信息的上报，从而减少BIOS提交的故障隔离请求触发SMI中断，以减少SMI中断造成的系统业务的卡顿和宕机的风险。

在一种可能的实现中，该方法还可以包括：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复，且上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值，上报所述当前的CE错误信息。

上述方法，在减少重复的CE错误信息上报的同时，可以及时上报CE错误信息，避免故障不能及时修复。

在一种可能的实现中，该方法还可以包括：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复；且所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值后，确定所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第二时间阈值，上报所述当前的CE错误信息。

上述方法，在当前的CE错误信息重复时，通过先判断上一次上报的CE错误信息的上报时间与当前时间的间隔时间是否大于第一个时间阈值，再判断该时间间隔是否大于第二时间阈值，若均为是，才上报该当前的CE错误信息，一方面，避免重复CE错误信息不能及时上报，另一方面，使得相邻上报的两个CE错误信息的时间间隔不少于第二时间阈值，避免短时间内大量CE错误信息的上报造成大量的CPU资源开销，从而减少宕机的风险。

在一种可能的实现中，该方法还可以包括：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复；且所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值后，确定所述上一次上报CE错误信息的时间与当前时间的间隔小于第二时间阈值，等待第一时长后上报所述当前的CE错误信息，其中，所述第一时长为所述第二时间阈值与所述上一次的上报时间与当前时间的时间间隔之差。

上述方法，一方面，避免重复CE错误信息不能及时上报，另一方面，使得相邻上报的两个CE错误信息的时间间隔不少于第二时间阈值，避免短时间内大量CE错误信息的上报造成大量的CPU资源开销，从而减少宕机的风险。

在一种可能的实现中，所述基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，包括：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，且所述上一次上报CE错误信息的时间与当前时间的时间间隔大于等于第二时间阈值，上报所述当前的CE错误信息。

上述方法，在当前的CE错误信息不重复时，通过判断上一个CE错误信息的上报时间与当前时间的间隔时间是否大于第二时间阈值，使得相邻上报的两个CE错误信息的时间间隔不少于第二时间阈值，进而，避免短时间内大量CE错误信息的上报造成大量的CPU资源开销，从而减少宕机的风险。

在一种可能的实现中，基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，包括：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，且所述上一次上报CE错误信息的时间与当前时间的时间间隔小于第二时间阈值，等待第一时长后上报所述当前的CE错误信息；其中，所述第一时长为所述第二时间阈值与所述上一次上报的时间与当前时间的时间间隔之差。

在一种可能的实现中，所述故障类型包括单比特错误、行错误、列错误、存储阵列错误、芯片颗粒故障、DIMM故障和通道故障中的至少一种。

在一种可能的实现中，判断所述当前的CE错误信息重复的包括但不限于如下几种实现方式：

在所述当前CE错误的故障类型为单比特错误时，若所述上一个上报的CE错误信息的物理地址与所述当前CE错误的物理地址相同且故障类型为单比特错误的CE错误信息，则确定所述当前的CE错误信息重复；

在所述当前CE错误的故障类型为行错误时，若所述上一个上报的CE错误信息的物理地址与所述当前CE错误的物理地址行相同且故障类型为行错误的CE错误信息，则确定所述当前的CE错误信息重复；

在所述当前CE错误的故障类型为列错误时，若所述上一个上报的CE错误信息的物理地址与所述当前CE错误的物理地址列相同且故障类型为列错误的CE错误信息，则确定所述当前的CE错误信息重复；

在所述当前CE错误的故障类型为芯片颗粒故障时，若所述上一个上报的CE错误信息的物理地址与所述当前CE错误的芯片颗粒相同的物理地址芯片颗粒相同且故障类型为芯片颗粒故障的CE错误信息，则确定所述当前的CE错误信息重复。

上述判断CE错误信息重复的方法，准确且速度快。

在一种可能的实现中，根据当前CE错误的物理地址确定所述当前CE错误的故障类型的具体实现可以包括如下几种：

在所述当前CE错误所在的行出现故障的次数或频率大于第一阈值时，确定所述当前CE错误的故障类型为行错误；

在所述当前CE错误所在的列出现故障的次数或频率大于第二阈值时，确定所述当前CE错误的故障类型为列错误；

在所述当前CE错误所在的存储单元出现故障且所述当前CE错误所在的行不属于行错误且所在的列不属于列错误时，确定所述当前CE错误的故障类型为单比特错误；

在所述当前CE错误所在的存储阵列包括多行行错误或多列列错误或包括至少一行行错误且包括至少一行列错误时，则确定当前CE错误的故障类型为存储阵列错误；

在所述当前CE错误所在的芯片颗粒中的多个存储阵列均存在存储阵列错误时，则确定所述当前CE错误故障类型为芯片颗粒故障。

上述方法，提供了故障类型的预测方法，准确且速度快。

第二方面，本申请实施例还提供了一种基板管理控制器BMC，包括：处理器，存储器和通信接口，所述通信接口、所述存储器分别与所述处理器耦合；所述存储器用于存储计算机指令；所述处理器用于调用所述计算机指令执行以下操作：

根据当前CE错误的物理地址确定当前CE错误的故障类型；

在一些可能的实现中，处理器还用于执行上述第一方面任意一种可能的实现中的步骤，这里不再赘述。

第三方面，本申请实施例还提供了一种服务器，包括至少一个第一处理器、内存和如第二方面或第二方面任意一种可能的实现中的BMC，所述第一处理器耦合所述内存和所述BMC；所述第一处理器用于在检测到所述内存发生CE错误时，向所述BMC发送CE信息。

第四方面，本申请实施例还提供了一种电子设备，包括至少一个处理器和内存，所述处理器耦合所述内存；所述处理器用于检测所述内存发生CE错误；所述处理器还用于调用所述内存存储的指令，执行如第一方面或第一方面任意一种实现中所述的方法。该电子设备可以是服务器，也可以是手机、平板电脑、笔记本电脑、车载设备、智能电视等终端。

第五方面，本申请实施例还提供一种计算机存储介质，包括计算机指令，当所述计算机指令在服务器上运行时，使得所述服务器执行如第一方面或第一方面中任一可能的实现描述的方法。

第六方面，本申请实施例还提供一种计算机程序产品，当上述计算机程序产品在服务器上运行时，使得所述服务器执行如第一方面或第一方面中任一可能的实现描述的方法。

可以理解地，上述提供的第二方面提供的BMC、第三方面提供的电子设备、第四方面提供的电子设备、第五方面提供的计算机存储介质和第六方面提供的计算机程序产品均可实现上述第一方面所提供的方法。因此，其所能达到的有益效果可参考第一方面中对应的有益效果，此处不再赘述。

附图说明

图1A是本申请实施例提供的一种电子设备的硬件架构示例图；

图1B是本申请实施例提供的一种电子设备的结构示例图；

图2是本申请实施例提供的一种内存的结构示意图；

图3是本申请实施例提供的一种BMC的结构示意图；

图4是本申请实施例提供的一种内存故障的上报方法的示意性说明图；

图5是本申请实施例提供的一种内存故障的上报方法的流程示意图；

图6是本申请实施例提供的另一种内存故障的上报方法的流程示意图；

图7是本申请实施例提供的一种应用上述图5所示的方法的实例示意图；

图8是本申请实施例提供的一种应用上述图6所示的方法的实例示意图。

具体实施方式

首先对本申请实施例涉及的术语进行说明。

(1)中断(Interrupt)和系统管理中断(System Management Interruption，SMI)。

中断(Interrupt)指计算机设备运行过程中，出现某些意外情况需主机干预时，计算机设备能自动停止正在运行的程序并转入处理新情况的程序，处理完毕后又返回原被暂停的程序继续运行。中断可以包括但不限于SMI中断。

SMI中断是给基本输入输出系统(basic input output system，BIOS)或固件(firmware)使用的一个特殊中断，这个中断不是直接给操作系统(operating system，OS)用的。触发SMI中断以后，OS进入系统管理模式(system management mode，SMM)，此时与OS相关的执行流程将被挂起，执行BIOS中注册的中断服务程序(interrupt serviceroutine，ISR)。当中断服务处理完该事件以后，再回到原来被中止的地方继续原来的工作。

(2)可纠正错误(Correctable Error，CE)和不可纠正错误(Uncorrected Error，UCE)。

CE错误是服务器在运行过程中，发生了错误，但错误可以通过错误检查和纠正(Error Checking and Correcting，ECC)来纠正。所以，有时又将CE错误称为ECC错误。例如，偶发性的地址命令错误、x4颗粒内存的单颗粒多bit错误、x8颗粒内存的单颗粒单bit错误都有可能导致ECC错误。当内存列内的可CE错误达到阈值溢出时，触发SMI中断。

UCE错误是服务器在运行过程中，发生了错误并且错误无法通过ECC来纠正。例如，x8颗粒内存的多bit错误、x4颗粒的多颗粒多bit错误、持续的地址命令错误都有可能导致UCE错误。

如图1A所示，为本申请实施例提供的一种电子设备的硬件架构示例图，该电子设备可以是服务器，也可以是基站、路由器等网关设备或网络设备，还可以是笔记本电脑、台式电脑、平板电脑、手机等终端设备。其中，服务器可以是文件服务器(file server)、域控制服务器(domain server)、数据库服务器(database server)，邮件服务器(mailServer)，Web服务器(web server)，多媒体服务器(multimedia server)，通讯服务器(communication server)，终端服务器(terminal server)，基础架构服务器(infrastructure server)，虚拟化服务器(virtualization server)等。服务器可以是塔式、机架式、刀片式等。电子设备可以但不限于采用X86架构，精简指令集计算机(reducedinstruction set computer，RISC)架构，进阶精简指令集机器(advanced RISC machine，ARM)架构等。

该电子设备可以包括但不限于：一个或多个中央处理器(central processingunit，CPU)110、一个或多个内存120、平台管理器(platform controller hub，PCH)130、BIOS芯片140、基板管理控制器(baseboard management controller，BMC)150等中的部分或全部。

CPU 110可以集成内存控制器111。将内存控制器111集成到CPU 110中可以有效控制内存控制器工作在与CPU 110核心同样的频率上，而且由于内存与CPU 110之间的数据交换无需经过北桥，可以有效降低传输延迟。

内存控制器111是电子设备内部控制内存120并且负责内存120与CPU之间数据交换的重要组成部分。内存控制器111还用于识别内存中发生的CE错误的存储单元，并将用于指示该存储单元发生CE错误的指示信息，如CE信息，通过BIOS发送给BMC 140。其中，CE信息包括CE错误的物理地址，如发生CE错误的存储单元在内存中的物理位置。

在另一种计算机的系统架构中，内存控制器111可以不集成在CPU 110，位于北桥芯片中，此时，CPU 110与内存之间的通信，则需要通过北桥芯片进行传输。

在一些实施例中，电子设备还可以包括其他的处理单元，例如：包括应用处理器(application processor，AP)，图形处理器(graphics processing unit，GPU)，神经网络处理器(neural-network processing unit，NPU)，调制解调处理器，图像信号处理器(image signal processor，ISP)，存储器，视频编解码器，数字信号处理器(digitalsignal processor，DSP)，基带处理器等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

CPU 110中还可以设置存储器，用于存储指令和数据。在一些实施例中，CPU 110中的存储器为高速缓冲存储器。该存储器可以保存CPU 110刚用过或循环使用的指令或数据。如果CPU 110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了CPU 110的等待时间，因而提高了电子设备的数据处理效率。

内存120可以是动态随机存取存储器(Dynamic Random Access Memory，DRAM)、同步动态随机存取内存(synchronous dynamic random-access memory，SDRAM)、双倍速率同步动态随机存储器(Double Data Rate SDRAM，DDR SDRAM)等。内存120可以包括一个或多个双列直插式存储模块(dual inline memory modules，DIMM)。应理解，在一些实施例中，内存120可以包括一个或多个单列直插式内存模块(single inline memory module，SIMM)。

平台路径控制器(platform controller hub，PCH)130、BIOS芯片140、基板管理控制器(baseboard management controller，BMC)150等可以是电子设备的主板上的芯片组。其中，CPU110与PCH 130之间可以通过DMI总线连接，PCH 130与BIOS芯片140之间可以SPI总线连接，PCH 130与BMC 150之间可以通过PCIe、LPC、USB等连接。

PCH 130即为南桥芯片，主要负责电子设备的输入和输出功能，其主要负责低速的输入/输出。BIOS芯片140、BMC 150均需要通过PCH 130才能与CPU 110之间通信。

BIOS芯片140用于存储BIOS程序，该程序是服务器启动后最先运行的软件，包括基本输入输出控制程序、上电自检程序、系统启动自举程序、系统设置信息等以设置硬件，如硬盘驱动、内存等为OS运行做准备。当CPU 110运行BIOS芯片140存储的BIOS程序后，CPU110和BMC 150之间可以通过运行BIOS程序的功能单元(本申请实施例中也称为BIOS)实现CE信息和CE错误信息的传输。

BMC 150主要用于对电子设备进行监控和管理，是独立于电子设备之外的小型操作系统，是一个集成在主板上的芯片。在本申请实施例中，BMC 150可以根据BIOS上报的内存的CE信息，识别该CE错误的故障类型，得到其对应的CE错误信息(包括CE错误的故障类型和CE错误的物理地址)，并对该CE错误信息进行筛选，以上报经过筛选的CE错误信息，进而，BMC 150基于上报的CE错误信息向BIOS提交故障隔离请求，以修复内存的故障。通过对CE错误信息进行筛选，以避免重复上报或短时间内的大量上报，进而避免电子设备的宕机。关于BMC 150的结构可以参见下述图3，BMC 150筛选CE错误信息的具体实现可以参见下述内存故障的上报方法的实施例，这里不再赘述。

不限于图1A所示的芯片组，还可以是其他结构的芯片组，例如，芯片组可以包括南桥(South Bridge)芯片、北桥(North Bridge)芯片等，北桥芯片主要给CPU 110、内存120等设备提供支持。南桥芯片主要对键盘、接口等外围设备提供支持，BMC 150可以通过南桥芯片和北桥芯片与CPU 110通信。

还应理解，不限于图1A所指的电子设备，电子设备还可以包括更多或更少的单元，

可以理解的是，本发明实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

如图1B所示，为本申请实施例提供的一种电子设备，该电子设备200可以包括一个或多个中央处理器(central processing unit，CPU)210、一个或多个内存220等。CPU 210耦合该内存220。该电子设备200可以是服务器，也可以是手机、平板电脑、个人计算机、智能电视、车载设备等终端，还可以是基站、路由器等网络设备，这里不作限定。

CPU 210可以集成内存控制器211。将内存控制器211集成到CPU 210中可以有效控制内存控制器工作在与CPU210核心同样的频率上，而且由于内存与CPU 210之间的数据交换无需经过北桥，可以有效降低传输延迟。

内存控制器211是电子设备内部控制内存120并且负责内存220与CPU之间数据交换的重要组成部分。内存控制器211还用于识别内存中发生的CE错误的存储单元，并将用于指示该存储单元发生CE错误的指示信息，如CE信息，通过BIOS发送给操作系统(OS)或者发送给应用层。其中，CE信息包括CE错误的物理地址，如发生CE错误的存储单元在内存中的物理位置。

在另一些实施例中，内存控制器211可以不集成在CPU 210，位于北桥芯片中，此时，CPU 210与内存之间的通信，则需要通过北桥芯片进行传输。

CPU 210中还可以设置存储器，用于存储指令和数据。在一些实施例中，CPU210中的存储器为高速缓冲存储器。该存储器可以保存CPU 210刚用过或循环使用的指令或数据。如果CPU 210需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了CPU 210的等待时间，因而提高了电子设备的数据处理效率。

内存220可以是动态随机存取存储器(Dynamic Random Access Memory，DRAM)、同步动态随机存取内存(synchronous dynamic random-access memory，SDRAM)、双倍速率同步动态随机存储器(Double Data Rate SDRAM，DDR SDRAM)等。内存220可以包括一个或多个双列直插式存储模块(dual inline memory modules，DIMM)。应理解，在一些实施例中，内存220可以包括一个或多个单列直插式内存模块(single inline memory module，SIMM)。

在一些实施例中，电子设备200还可以包括PCH，或包括北桥芯片、南桥芯片。电子设备200还可以包括存储BIOS程序的BIOS芯片等。

其中，BIOS即为BIOS程序，运行于CPU内核的功能单元，内存控制器211可以通过BIOS与OS或应用层进行CE信息和CE错误信息的传输。

OS或应用层可以包括故障处理系统。在本申请实施例中，OS或应用层中的故障处理系统可以基于BIOS上报的内存的CE信息，识别该CE错误的故障类型，得到其对应的CE错误信息，并对该CE错误信息进行筛选，以上报经过筛选的CE错误信息，进而，OS或应用层可以基于上报的CE错误信息向BIOS提交故障隔离请求，以修复内存的故障。通过对CE错误信息进行筛选，以避免重复上报或短时间内的大量上报，进而避免电子设备的宕机。

如图2，示出了一种内存的结构示例图。以图2所示的内存说明存储单元的物理地址的编码方式。图2以一个通道(channel)可以插两个DIMM(分别是DIMM0和DIMM1)，每个DIMM由两个内存列(rank0和rank1)组成，每个rank由8个内存颗粒(chip)组成，每个内存颗粒由8个存储阵列组成为例。每个存储阵列包括阵列排列的多个存储单元，通过存储单元在存储阵列中的行(row)号和列(column)号来确定其在存储阵列中的物理位置。

因此，CE信息包括的物理地址可以包括但不限于发生该CE错误的存储单元所在的channel号、DIMM插槽号、rank号、芯片颗粒号、bank号、行号、列号等信息中的一种或多种。可选地，当CPU包括多个时，物理地址还可以包括该CE错误所在的CPU节点号。

不限于上述CE错误的物理地址的编址方式，还可以包括其他编址方式，这里不再赘述。

如图3所示，为本申请实施例提供的一种BMC 150的结构示意图。该BMC 150可以包括处理器1501以及存储器1502。其中，处理器1501耦合存储器1502。

存储器1502用于存储计算机指令，如除存储BMC 150的OS外，还可以存储推理程序、筛选程序和自愈决策程序等，处理器1501执行存储器1502存储的计算机指令，可以实现下述内存故障的上报方法的实施例中BMC执行的步骤。这里不再赘述。

应理解，BMC150可以使用嵌入式系统，如Linux系统等。BMC可以采用分层架构，可以包括但不限于应用层、系统层、驱动层和硬件层等。

其应用层可以包括但不限于内存故障预测和自愈管理系统，该自愈管理系统可以包括AI模块和自愈决策模块。其中，AI模块可以包括推理单元和筛选单元。

推理单元用于在接收到CE信息后，识别该CE错误的故障类型，进而得到该CE信息分别对应的CE错误信息，其中，一个CE信息对应的一个CE错误信息，一个CE信息对应的CE错误信息可以包括该CE错误的故障类型和该CE信息携带的物理地址。

筛选单元用于对每个CE错误信息进行筛选，以确定是否向自愈决策模块上报该CE错误信息。

自愈决策模块用于基于接收到的CE错误信息向BIOS提交故障隔离请求，以修复内存故障。

各个单元的具体实现还可以参见下述图5或图6所示的方法实施例中的相关描述，这里不再赘述。

以下结合图4所示的内存故障的上报方法的示意图和图5、图6所示的流程示意图，介绍本申请实施例涉及的一种内存故障的上报方法，该方法可以由上述图1A所示的电子设备也可以有上述图1B所示的电子设备200来实现。

以通过图1A所示的电子设备来实现为例，如图5所示，该方法可以包括但不限行于如下部分或全部步骤：

S01：内存控制器在检测内存发生CE错误时，CPU调用BIOS获取CE信息。

其中，CE错误是可以纠正的错误。CE信息包括发生该CE错误的存储单元的物理地址，该物理地址用于确定该CE错误在内存中的物理位置，也即发生该CE错误的存储单元在内存中的物理位置。需要说明的是，一个CE错误对应一个CE信息。

需要说明的是，CE信息除包括发生CE错误的存储单元的物理地址外，还可以包括其他故障类型预测所需要的其他信息，例如，还包括该CE错误发生的时间。

S02：通过BIOS向BMC中的推理单元发送CE信息。

BIOS是输入输出控制单元，内存控制器不能与BMC直接通信，需要通过BIOS，另外，BMC也不能主动与BIOS通信。其中，BIOS是处理器中运行BIOS程序的功能单元，BIOS与BMC之间的通信主要使用IPM。BIOS会通过IPMI向BMC中的筛选单元发送CE信息。

可以理解的，内存控制器在检测内存发生CE错误时，CPU可以不通过BIOS向BMC发送CE信息，如直接向BMC发送CE信息。

S03：BMC中的推理单元基于当前CE错误的物理地址确定当前CE错误所属的故障类型。

其中，故障类型可以包括如下几种类型的中的至少一种：

(1)单比特(bit)错误，即同一个存储单元发生一次或多次CE错误。

(2)行错误，即CE错误按行排列，同一行的多列存储单元发生CE错误。

(3)列错误，即CE错误按列排列，同一列的多行存储单元发生CE错误。

(4)存储阵列(bank)错误，即为行错误、列错误以及单bit错误中至少两种故障类型的复合模式，如，同一存储阵列中至少多行或至少多列存储单元发生CE错误，或同一存储阵列中的至少一行或一列存储单元发生CE错误且其他行或列中的存储单元包含至少一个单比特(bit)错误。其中，一行发生CE错误，是指该一行存储单元中的至少N存储单元发送CE。N可以为不小于2的正整数，N不大于存储阵列的总列数。

(5)芯片颗粒故障，同一个芯片颗粒(chip)中设备内的多个存储阵列均存在硬错误。

(6)DIMM故障，即同一个DIMM中的多个芯片颗粒内的多个存储阵列均存存在硬错误，并且不集中在固定的行列。

(7)通道故障，即同一通道多个DIMM中的多个芯片颗粒发生大量错误，但集中在固定的行和/或列。其中，“大量”可以指CE错误、行错误或列错误的次数大于阈值(如100)。

应理解，内存错误还可以分为软故障和硬故障。其中，软错误主要是外因导致的偶然出错，例如，宇宙射线导致的比特翻转；硬错误主要是内因导致的可重复的出错，例如，由内存介质缺陷，焊接点老化、器件老化等导致的。其中，硬错误会导致内存故障，可能产生不可纠正错误。而可重复的内存错误绝大多数是内存硬故障导致的硬错误，这类错误是内存的缺陷和运行环境共同作用的结果。行错误、列错误或其复合分布通常属于硬错误，或者说即为硬错误。

在一种实现的方式中，BMC中的推理单元基于当前CE错误的物理地址确定当前CE错误所属的故障类型的方法可以是：BMC可以基于历史CE信息(即历史接收到的CE信息)，预测该当前CE故障的故障类型。其原理可以是：通过历史接收到的CE信息分析CE故障的空间分布或时空分布，进而，基于当前CE错误所在的物理地址确定其所属的故障类型。其中，历史接收到的CE信息包括当前CE错误的CE信息。

具体实现中，可以通过故障分析模型来智能分析内存的故障，也即是，BMC可以将历史CE信息输入故障分析模型，获得当前的CE错误的故障类型。

例如，故障分析模型基于历史CE信息统计历史时间段内每个行、每个列、每个存储单元等出现的故障的次数或频率等。在当前CE错误所在的行出现故障的次数或频率大于第一阈值时，确定故障类型为行错误。在当前CE错误所在的列出现故障的次数或频率大于第二阈值时，确定故障类型为列错误。在当前CE错误所在的存储单元出现故障且当前CE错误所在的行不属于行错误且所在的列也不属于列错误时，确定故障类型为单比特(bit)错误。若当前CE错误所在的存储阵列包括多行行错误或多列列错误，或包括至少一行行错误且包括至少一行列错误时，则确定故障类型为存储阵列错误。在当前CE错误所在的芯片颗粒中的多个存储阵列均存在存储阵列错误，则确定故障类型为芯片颗粒故障。同理，还可以分析出其他故障类型。

不限于上述列举的故障类型的预测方法，还可以包括其他故障类型的预测方法，此处不作限定。

S04：BMC中的筛选单元基于当前CE错误的故障类型和所述当前CE错误的物理地址判断当前的CE错误信息与上一次上报的CE错误信息是否重复，如果是，则执行S05，否则执行S06。

其中，该CE错误信息包括CE错误的故障类型和CE错误的物理地址。为了避免重复上报，在上报之前可以判断当前CE错误的故障类型和所述当前CE错误的物理地址是否与上一次上报的故障类型和物理地址重复。方法如下：

在当前CE错误的故障类型为单比特错误时，可以判断上一个上报的CE错误信息包含的物理地址是否与当前CE错误的物理地址相同且故障类型为单比特错误，如果是，则该当前的CE错误信息重复，否则，不重复。其中，上一个上报的CE错误信息为根据历史CE故障预测得到的CE错误信息。其中，物理地址相同是指channel号、DIMM插槽号、rank号、芯片颗粒号、bank号、行号、列号均相同。

在当前CE错误的故障类型为行错误时，可以判断上一个上报的CE错误信息包含的物理地址与当前CE错误的物理地址是否行相同且故障类型为行错误，如果是，则该当前的CE错误信息重复，否则，不重复。其中，行相同是指channel号、DIMM插槽号、rank号、芯片颗粒号、bank号、行号均相同，但列号可以相同或不相同。

在当前CE错误的故障类型为列错误时，可以判断上一个上报的CE错误信息包含的物理地址与当前CE错误的物理地址是否列相同且故障类型是否为列错误，如果是，则该当前的CE错误信息重复，否则，不重复。其中，列相同是指channel号、DIMM插槽号、rank号、芯片颗粒号、bank号、列号均相同，但行号可以相同或不相同。

在当前CE错误的故障类型为存储阵列错误时，可以判断上一个上报的CE错误信息包含的物理地址与当前CE错误的物理地址是否存储阵列相同且故障类型是否为存储阵列错误的CE错误信息，如果是，该则CE错误信息重复，否则，不重复。其中，存储阵列相同是指channel号、DIMM插槽号、rank号、芯片颗粒号、bank号均相同，但列号和行号可以相同或不相同。

在当前CE错误的故障类型为芯片颗粒故障时，可以判断上一个上报的CE错误信息包含的物理地址与当前CE错误物理地址是否芯片颗粒相同且故障类型是否为芯片颗粒故障，如果是，则该当前的CE错误信息重复，否则，不重复。其中，芯片颗粒相同是指channel号、DIMM插槽号、rank号、芯片颗粒号均相同，但bank号、列号和行号可以相同或不相同。

在当前CE错误的故障类型为DIMM故障时，可以判断上一个上报的CE错误信息包含的物理地址与当前CE错误物理地址是否DIMM相同且故障类型是否为DIMM故障，如果是，则该当前的CE错误信息重复，否则，不重复。其中，DIMM相同是指channel号、DIMM插槽号均相同，但rank号、芯片颗粒号、bank号、列号和行号可以相同或不相同。

在当前CE错误的故障类型为通道故障时，可以判断上一个上报的CE错误信息包含的物理地址与当前CE错误的物理地址是否通道相同且故障类型是否为通道故障，如果是，则该当前的CE错误信息重复，否则，不重复。其中，通道相同是指channel号相同，但DIMM插槽号、rank号、芯片颗粒号、bank号、列号和行号可以相同或不相同。

S05：BMC中的筛选单元判断上一次上报CE错误信息的时间与当前时间的间隔时间t1是否大于时间阈值T1，如果是，执行S06，否则不上报该CE错误信息。

其中，上一次上报CE错误信息是与当前的CE错误信息重复的错误信息，二者错误类型与物理地址都相同。当前时间可以是当前CE故障发生的时间，也可以是BMC接收CE信息的接收时间，还可以是当前的CE错误信息的生成时间。时间阈值T1可以是5s、10s、12s或其他时长。

S06：BMC上报当前的CE错误信息。

其中，上报CE错误信息是指将该错误信息输入自愈决策模块或进行下一步流程以基于该错误信息向BIOS提交故障隔离请求，以修复内存故障。

在一些实施例中，也可以在步骤S04判断当前的CE错误信息重复时，不上报该错误信息，而不执行步骤S05。

可见，通过筛选，可以减少重复的错误信息的上报，从而减少BIOS提交的故障隔离请求触发SMI中断，以减少SMI中断造成的系统业务的卡顿和宕机的风险。

如图6所示，为本申请实施例提供的另一种内存故障的上报方法的流程示意图。在该实施例中，接上述步骤S04、S05，在S04的判断结果为否时，执行S07；在S05的判断步骤为是时，执行S07。

S07：BMC中的筛选单元判断上一次上报CE错误信息的时间与当前时间的间隔时间t2是否大于时间阈值T2，如果是，则执行S06；如果否，则执行S08。

其中，上一次上报CE错误信息为最近一次上报的错信息。时间阈值T2可以是50ms、100ms、500ms、1s、5s或其他时长。

S08：BMC中的筛选单元等待t3，其中，t3为T2与t2之差。

在S08之后，BMC可以执行S06，即BMC上报该CE错误信息。

在一些实施例中，步骤S06之后，还可以包括：

S09：BMC还可以根据当前的CE错误信息向BIOS发送故障隔离请求，以对内存进行修复。

当预定的时间内有大量的不同故障类型的持续上报给自愈决策模块，自愈决策模块给BIOS提交的故障隔离请求也会不断触发SMI中断，这样自愈会造成CPU资源开销很大，从而引起系统业务的卡顿。

上述实施例，通过判断上一个上报的CE错误信息的时间与当前时间的间隔时间t2是否大于时间阈值T2，使得相邻上报的两个错误信息的时间间隔不少于T2，进而，避免短时间内大量CE错误信息的上报造成大量的CPU资源开销，从而减少宕机的风险。

在一些实施例中，时间阈值T1或T2可以是动态变化的，其可以基于CPU的负荷、CPU的温度、内存的负荷、CE的密度等中的至少一种调节。例如，当CPU的负荷增大或温度升高、亦或内存的负荷增大时，可以提高T1或T2，以减少自愈占用的CPU资源；反之，当CPU的负荷降低或温度降低，亦或内存的负荷减少时，可以降低T1或T2，以利用CPU的空闲时间快速修复内存。又例如，当CE的密度升高时，可以降低T1或提高T2，以尽快修复内存；反之，当CE的密度降低时，可以提高T1或降低T2，以避免短时间CPU资源的大量占用，减少宕机的风险。

在另一些实施例中，上述图5或图6所示的方法也可以由上述图1B所示电子设备来实现，此时，上述BMC可以替换成OS或应用层中的故障处理系统。此时，OS或应用层中的故障处理系统，包括AI模块和自愈决策模块，其中，AI模块包括推理单元和筛选单元。

如下介绍应用上述图5和图6所示的方法的实例。

如图7所示，列出了多个CE错误的发生时间和故障类型，假设第3、4、5、6个CE错误经过AI模块推理后，得出了4个故障类型，其中前3个都是行错误(Row Fault)，其物理地址都是同一行(假设行号为200)，而这些行错误的前后间隔都不超过1分钟，第4个是列故障(Col Fault)。

如果未加筛选，那么这3个行错误和1个列错误的CE错误信息将直接上报给自愈决策模块。

如果应用上述图4所示内存故障的上报方法，对CE错误信息进行筛选，若时间阈值T1为5分钟，第2个和第3个行错误因为间隔时间都小于T1，那么这两个行错误的CE错误信息将不上报，第4个列错误与上一次上报的CE错误信息的时间间隔t2(t2＝1分钟)，假设时间阈值T2的为2分钟，此时第4个列错误的CE错误信息需要等待一段时间(1分钟)后才上报给自愈决策模块。

如图8所示，列出了多个CE错误的发生时间和故障类型，假设第3、4、5个CE经过AI模块推理后，得出了3个故障类型，分别为行错误、单比特错误和列错误，而这些故障类型CE错误信息的前后间隔都不超过1分钟。

如果不对CE错误信息进行筛选，那么这3个CE错误信息将直接上报给自愈决策模块；

如果应用上述图4所示内存故障的上报方法，对CE错误信息进行筛选，由于没有重复的CE错误信息，因此可以执行图4所示的内存故障的上报方法中的步骤S07，判断上一个CE错误信息的上报时间与当前时间的间隔时间t2是否大于时间阈值T2，假设时间阈值T2为2分钟，那么第2个CE错误(故障类型为单比特错误)的CE错误信息需要等待一段时间(1分钟)才上报。同理，第3个CE错误(故障类型为列错误)由于与上一次CE错误信息(第2个CE错误信息)的上报时间的间隔时间也小于T2，所以也需要等待一段时间(67秒)才上报该故障类型为列错误的CE错误信息。

上述实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种内存故障的上报方法，其特征在于，包括：

根据当前CE错误的物理地址确定当前CE错误的故障类型；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复，且上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值，上报所述当前的CE错误信息。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复；且所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值后，确定所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第二时间阈值，上报所述当前的CE错误信息。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复；且所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值后，确定所述上一次上报CE错误信息的时间与当前时间的间隔小于第二时间阈值，等待第一时长后上报所述当前的CE错误信息；其中，所述第一时长为所述第二时间阈值与所述上一次的上报时间与当前时间的时间间隔之差。

5.根据权利要求1-4任一项所述的方法，其特征在于，基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，包括：

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，且所述上一次上报CE错误信息的时间与当前时间的时间间隔大于等于第二时间阈值，上报所述当前的CE错误信息。

6.根据权利要求1-5任一项所述的方法，其特征在于，基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，包括：

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，且所述上一次上报CE错误信息的时间与当前时间的时间间隔小于第二时间阈值，等待第一时长后上报所述当前的CE错误信息；其中，所述第一时长为所述第二时间阈值与所述上一次上报的时间与当前时间的时间间隔之差。

7.一种基板管理控制器BMC，其特征在于，包括：处理器，存储器，所述存储器与所述处理器耦合；所述存储器用于存储计算机指令；所述处理器用于调用所述计算机指令执行：

根据当前CE错误的物理地址确定当前CE错误的故障类型；

8.根据权利要求7所述的BMC，其特征在于，所述处理器还用于执行：

基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息重复；且所述上一次上报CE错误信息的时间与当前时间的间隔大于等于第一时间阈值，上报所述当前的CE错误信息。

9.根据权利要求8所述的BMC，其特征在于，所述处理器还用于执行：

10.根据权利要求9所述的BMC，其特征在于，所述处理器还用于执行：

11.根据权利要求7-9任一项所述的BMC，其特征在于，所述处理器还用于执行：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，包括执行：

12.根据权利要求7-11任一项所述的BMC，其特征在于，所述处理器还用于执行：基于所述当前CE错误的故障类型和所述当前CE错误的物理地址确定当前的CE错误信息与上一次上报的CE错误信息不重复，包括执行：

13.一种电子设备，其特征在于，包括至少一个第一处理器、内存和如权利要求7-12任一项所述的BMC，所述第一处理器耦合所述内存和所述BMC；所述第一处理器用于在检测到所述内存发生CE错误时，向所述BMC发送CE信息。

14.一种电子设备，其特征在于，包括至少一个处理器、内存，所述处理器耦合所述内存；所述处理器用于检测所述内存发生CE错误；所述处理器还用于执行如权利要求1-6中所述的上报方法。