CN115658358A

CN115658358A - 内存故障处理方法及计算机设备

Info

Publication number: CN115658358A
Application number: CN202211242977.5A
Authority: CN
Inventors: 甘延; 张光彪; 曹瑞; 鲍全洋
Original assignee: XFusion Digital Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-01-31

Abstract

本申请实施例提供了一种内存故障处理方法及计算机设备，涉及内存技术领域。该方法中，在确定内存发生的多个故障事件后，根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组，并预测目标故障组中的故障事件对内存的影响程度，由于目标故障组的影响程度，与目标故障组所在的物理位置的修复价值正相关，而故障影响程度满足预设条件时，目标故障组所在物理位置的修复价值较高。基于此，将影响程度满足预设条件的目标故障组所在的物理位置确定为待修复位置，能够保证修复必要性较高，因此，能够避免产生非必要的修复操作以及出现浪费内存的存储资源和故障修复资源的问题。

Description

内存故障处理方法及计算机设备

技术领域

本申请涉及内存技术领域，尤其涉及一种内存故障处理方法及计算机设备。

背景技术

内存是计算机设备中必不可少的部件。内存在使用过程中，有一定概率会发生内存故障，内存故障包括可修复错误(correct error，CE)级别的故障和不可修复错误(uncorrect error，UCE)级别的故障。内存发生UCE级别故障时，通常会导致计算机设备发生系统故障，例如，系统宕机。

相关技术中，为了提升内存的可靠性，避免内存发生严重故障而导致系统故障，通常是在内存的芯片颗粒发生CE级别故障的次数达到阈值时，隔离该芯片颗粒。然而，由于CE级别故障的发生次数与内存故障的严重程度的相关性并不明确，因此，这种处理方式，很有可能会产生非必要的修复操作，导致浪费内存的存储资源以及故障修复资源，而对CE级别故障的发生次数较高的物理位置进行修复，通常无法有效降低内存发生故障的风险。

发明内容

本申请实施例提供一种内存故障处理方法及计算机设备，能够有效降低内存发生故障的风险，以及避免浪费内存的存储资源。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种内存故障处理方法，该方法包括：确定内存发生的多个故障事件；根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组；至少两个组包括目标故障组；预测目标故障组中的故障事件对内存影响程度；在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

该方案中，在确定内存发生的多个故障事件后，根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组，并预测目标故障组中的故障事件对内存的影响程度，由于目标故障组中的故障事件对内存的影响程度，与目标故障组中的故障事件所在的物理位置的修复价值正相关，也即，目标故障组的影响程度越大，则目标故障组所在的物理位置的修复价值越大，而故障影响程度满足第一预设条件时，目标故障组中的故障事件所在的物理位置的修复价值较高。基于此，将影响程度满足第一预设条件的目标故障组中的故障事件所在的物理位置确定为待修复位置，能够保证目标故障组中的故障事件所在的物理位置的修复必要性较高，因此，能够避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题，并且，修复了内存上修复必要性较高的物理位置，能够有效的降低内存发生故障的风险，例如，发生UCE级别故障的风险，进而有助于有效避免计算机设备发生系统故障。

在一种可能的实现方式中，预测目标故障组中的故障事件对内存的影响程度，包括：根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度；根据内存的第一故障严重程度，确定目标故障组中的故障事件对内存的影响程度；内存的第一故障严重程度越高，目标故障组中的故障事件对内存的影响程度越低。

在该实现方式中，根据非目标故障组中的故障事件所预测的第一故障严重程度，相当于是目标故障组中的故障事件所在的物理位置被修复之后，内存的故障严重程度，基于此，该第一故障程度越高，则说明目标故障组中的故障事件对内存的影响程度越低，修复价值也越低，换句话说，就是目标故障组中的故障事件所在的物理位置即使被修复了，所能够降低的内存的故障严重程度也非常有限。因此，根据内存的第一故障严重程度，确定目标故障组中的故障事件对内存发生的影响程度，有助于使目标故障组的影响程度能够更加准确的指示目标故障组中的故障事件所在的物理位置的修复价值，进而有助于保证在目标故障组中的故障事件所在的物理位置修复价值较高时，将其确定为待修复位置，这样，能够更加有效的避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题。

另一种可能的实现方式中，预测目标故障组中的故障事件对内存的影响程度，包括：根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度；根据多个故障事件，预测内存的第二故障严重程度；根据内存的第二故障严重程度和内存的第一故障严重程度的差异，确定目标故障组中的故障事件对内存的影响程度；其中，差异越小，目标故障组中的故障事件对内存的影响程度越低。

在该实现方式中，根据非目标故障组中的故障事件所预测的第一故障严重程度，相当于是目标故障组中的故障事件所在的物理位置被修复之后，内存的故障严重程度，而根据多个故障组中的故障事件所预测的第二故障严重程度，相当于是目标故障组中的故障事件所在的物理位置未被修复时，内存的故障严重程度，基于此，第二故障严重程度与第一故障严重程度之间的差异即为目标故障组中的故障事件对内存的影响程度。因此，根据第二故障严重程度和第一故障严重程度之间的差异，确定目标故障组中的故障事件对内存的影响程度，有助于提高影响程度的准确性，从而使目标故障组的影响程度能够更加准确的指示目标故障组中的故障事件所在的物理位置的修复价值，进而有助于保证在目标故障组中的故障事件所在的物理位置修复价值较高时，将其确定为待修复位置，这样，能够更加有效的避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题。

另一种可能的实现方式中，在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置，包括：在影响程度满足第一预设条件，且第二故障严重程度满足第二预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

在该实现方式中，由于第二故障严重程度时根据多个故障组中的故障事件进行预测的，因此，相当于是内存的当前实际故障严重程度，通过设置第二故障严重程度满足第二预设条件，从而可以仅在内存的当前实际故障严重程度较严重时，才将目标故障组中的故障事件所在的物理位置确定为待修复位置，以便对内存进行故障修复，而在内存的当前实际故障严重程度较轻微时，则不确定待修复位置，也即，不对内存进行故障修复，这样，有助于合理利用有限的故障修复资源，避免过度使用故障修复资源，进而提高故障修复资源的利用率。

另一种可能的实现方式中，根据多个故障事件，预测第二故障严重程度，包括：将多个故障事件输入故障预测模型，得到故障预测模型输出的第二故障严重程度。

在该实现方式中，由于故障预测模型是预先训练完成的，因此，根据多个故障事件和故障预测模型预测第二故障严重程度，不需要用户参与计算和数据处理，不仅有助于提高预测的速度，还可以避免用户操作所造成的人工错误，进而有助于提高所预测第二故障严重程度的准确性。

另一种可能的实现方式中，根据至少两个故障组中的非目标故障组中的故障事件，预测第一故障严重程度，包括：将至少两个故障组中的非目标故障组中的故障事件输入故障预测模型，得到故障预测模型输出的第一故障严重程度。

在该实现方式中，由于故障预测模型是预先训练完成的，因此，根据非目标故障组中的故障事件和故障预测模型预测第一故障严重程度，不需要用户参与计算和数据处理，不仅有助于提高预测的速度，还可以避免用户操作所造成的人工错误，进而有助于提高所预测第一故障严重程度的准确性。

另一种可能的实现方式中，根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组，包括：根据多个故障事件所在的物理位置以及多个故障事件的故障修复方式所修复的物理位置的粒度，将多个故障事件划分为至少两个故障组；其中，故障修复方式与待修复位置待使用的故障修复方式的类型相同。

在该实现方式中，通过多个故障事件所在的物理位置以及多个故障事件的故障修复方式所修复的物理位置的粒度，对多个故障事件进行分组，有助于建立目标故障组中的故障事件所在的物理位置与故障修复方式之间的关联关系，如，故障修复方式所修复的物理位置的粒度为内存行，则目标故障组中的故障事件所在的物理位置属于同一内存行。基于此，在确定目标故障组中的故障事件所在的物理位置为待修复位置后，若使用分组时所依据的故障修复方式对待修复位置进行故障修复，有助于提高待修复位置与故障修复方式之间的适配度。

另一种可能的实现方式中，方法还包括：发送故障修复请求，故障修复请求用于请求对待修复位置进行修复。

在该实现方式中，通过发送故障修复请求，实现请求对待修复位置进行故障修复，从而降低内存未来发生故障的风险，例如，发生UCE级别故障的风险，进而避免内存故障所导致的系统故障。

另一种可能的实现方式中，方法还包括：输出故障处理信息，故障处理信息包括待修复位置的标识。

在该实现方式中，通过输出故障处理信息，如语音输出或文字输出，使得用户可以了解待修复的物理位置的数量以及在内存中具体位置，从而有助于用户及时掌握内存的故障情况。

另一种可能的实现方式中，多个故障事件包括第一故障事件，第一故障事件包括第一故障事件所指示的内存故障的故障时间信息、故障位置信息和故障纠正难度信息。

在该实现方式中，通过设置第一故障事件包括故障时间信息、故障位置信息以及故障纠正难度信息，从而可以基于故障时间、故障位置和故障纠正难度等多个维度预测内存的故障严重程度，有助于提高预测结果的准确性。由于多个故障事件指示了内存的多个历史故障，从故障时间方面来说，多个历史故障发生的时间间隔越短，即发生频率越高，对内存的故障严重程度的影响越大。从故障位置方面来说，如果多个历史故障在的故障位置(如所在的物理地址)呈现某种集中性，比如多个历史故障发生在同一个存储单元、同一内存行或同一内存列，对内存的故障严重程度的影响更大。从修复难度方面来说，多个历史故障的故障纠正难度越大，对内存的故障严重程度的影响越大。因此，根据内存的历史故障的故障时间、故障位置和故障纠正难度等预测内存的故障严重程度，有助于提高故障严重程度预测的准确性。

第二方面，提供了一种内存故障处理装置，该装置包括：用于执行第一方面提供的任意一种方法的功能单元，各个功能单元所执行的动作通过硬件实现或通过硬件执行相应的软件实现。例如，该内存故障处理装置可以包括：处理单元和预测单元；处理单元，用于确定内存发生的多个故障事件；以及根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组；至少两个组包括目标故障组；预测单元，用于预测目标故障组中的故障事件对内存的影响程度；处理单元还用于，在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所发生的物理位置为待修复位置。

第三方面，提供了一种计算机设备，包括处理器、带外控制器、内存；处理器与内存通信连接，处理器还与带外控制器通信连接；带外控制器用于：确定内存发生的多个故障事件；根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组；至少两个组包括目标故障组；预测目标故障组中的故障事件对内存的影响程度；在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

可选地，带外控制器具体用于：根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度；根据内存的第一故障严重程度，确定目标故障组中的故障事件对内存的影响程度；其中，内存的第一故障严重程度越高，目标故障组中的故障事件对内存的影响程度越低。

可选地，带外控制器具体用于：根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度；根据多个故障事件，预测内存的第二故障严重程度；根据内存的第二故障严重程度和内存的第一故障严重程度的差异，确定目标故障组中的故障事件对内存的影响程度；其中，差异越小，目标故障组中的故障事件对内存的影响程度越低。

可选地，带外控制器具体用于：在影响程度满足第一预设条件，且第二故障严重程度满足第二预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

可选地，带外控制器具体用于：根据多个故障事件所在的物理位置以及多个故障事件的故障修复方式所修复的物理位置的粒度，将多个故障事件划分为至少两个故障组；其中，故障修复方式与待修复位置待使用的故障修复方式的类型相同。

可选地，带外控制器还用于：发送故障修复请求，故障修复请求用于请求对待修复位置进行修复。

可选地，带外控制器还用于：输出故障处理信息，故障处理信息包括待修复位置的标识。

可选地，多个故障事件包括第一故障事件，第一故障事件包括第一故障事件所指示的内存故障的故障时间信息、故障位置信息以及故障纠正难度信息。

第四方面，提供了一种计算机设备，包括：处理器和存储器，处理器与存储器连接。存储器用于存储计算机执行指令，处理器执行存储器存储的计算机执行指令，从而实现第一方面提供的任意一种方法。

第五方面，提供了一种芯片，芯片包括：处理器和接口电路；接口电路，用于接收代码指令并传输至处理器；处理器，用于运行代码指令以执行上述第一方面提供的任意一种方法。

第六方面，提供了一种计算机可读存储介质，存储有计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行上述第一方面提供的任意一种方法。

第七方面，提供了一种计算机程序产品，包括：计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行上述第一方面提供的任意一种方法。

其中，第二方面至第七方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种计算机设备的架构图；

图2为本申请实施例提供的一种内存的示意图；

图3为本申请实施例提供的一种内存故障处理方法的流程图；

图4为本申请实施例提供的一种内存的示意图；

图5为本申请实施例提供的另一种内存故障处理方法的流程图；

图6为本申请实施例提供的一种预测影响程度的示意图；

图7为本申请实施例提供的另一种内存故障处理方法的流程图；

图8为本申请实施例提供的一种内存故障处理装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

其中，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。

并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

首先，对本申请实施例的应用场景进行示例性介绍。内存是计算机设备中必不可少的部件。内存在使用过程中，有一定概率会发生内存故障，内存故障包括可修复错误(correct error，CE)级别的故障和不可修复错误(uncorrect error，UCE)级别的故障。由于计算机设备的程序都是在内存中运行，若内存发生故障而没有被修复，例如，发生UCE级别的故障，就会导致内存中运行的程序崩溃，甚至会导致服务器发生系统故障，如系统宕机等，一旦发生这种情况，将会带来严重的损失。

随着内存的频率越来越高，颗粒的密度越来越大，容量也越来越大，内存发生故障的概率也越来越大，目前，内存故障已经成为数据中心最严重的问题之一。因此，需要尽可能提高内存的可靠性，避免发生内存崩溃、系统重启、内存物理损坏等问题。

基于此，内存维护策略是，对于CE级别故障，采用计算机设备配置的奇偶校验(Parity)、错误检查和纠正(error checking and correcting，ECC)等纠错方法进行自修复，对于UCE级别故障则是采用预先隔离的方法进行处理，从而保障计算机设备的正常运转。

相关技术中，对UCE级别故障采用预先隔离时，通常是在内存的芯片颗粒发生CE级别故障的次数达到阈值时，隔离该芯片颗粒。然而，由于CE级别故障的发生次数与内存故障的严重程度的相关性并不明确，因此，这种处理方式，很有可能会产生非必要的修复操作，导致浪费内存的存储资源以及故障修复资源，而对CE级别故障的发生次数较高的物理位置进行修复，通常无法有效降低内存发生故障的风险。

有鉴于此，本申请实施例提供了一种内存故障处理方法，在确定内存发生的多个故障事件后，根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组，并预测目标故障组中的故障事件对内存的影响程度，由于目标故障组中的故障事件对内存的影响程度，与目标故障组中的故障事件所在的物理位置的修复价值正相关，也即，目标故障组的影响程度越大，则目标故障组所在的物理位置的修复价值越大，而故障影响程度满足第一预设条件时，目标故障组中的故障事件所在的物理位置的修复价值较高。基于此，将影响程度满足第一预设条件的目标故障组中的故障事件所在的物理位置确定为待修复位置，能够保证目标故障组中的故障事件所在的物理位置的修复必要性较高，因此，能够避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题，并且，修复了内存上修复必要性较高的物理位置，能够有效的降低内存发生故障的风险，例如，发生UCE级别故障的风险，进而有助于有效避免计算机设备发生系统故障。

其次，对本申请实施例的系统架构进行示例性介绍。

如图1所示，为本申请实施例的一种计算机设备的示意图。该计算机设备包括中央处理器(central processing unit，CPU)、带外控制器和内存。

CPU中运行有处理器固件和操作系统(operating system，OS)管理单元。

示例性的，OS管理单元可以为OS自带的系统管理单元，或者，也可以为OS中安装的设备管理代理程序，本申请实施例对此不做限制。

示例性的，处理器固件(也称为处理器固件程序)可以为Firmware、基本输入输出系统(basic input output system，BIOS)、管理引擎(management engine，ME)、微码或智能管理单元(intelligent management unit，IMU)等固件。需要说明的，本申请实施例对处理器固件的具体形式并不限定，以上仅为示例性说明。在下述实施例中，仅以处理器固件为BIOS为例进行说明。

带外控制器可以通过专用的数据通道对计算机设备进行远程维护和管理，该带外控制器是完全独立于CPU之外的控制器，通过计算机设备的带外管理接口与CPU中的基本输入输出系统(basic input output system，BIOS)和操作系统OS(或OS管理单元)进行通信。

示例性的，带外控制器可以包括计算机设备运行状态的管理单元、处理器外的管理芯片中的管理系统、计算机设备主板管理单元(baseboard management controller，BMC)、系统管理模块(system management mode，SMM)等。需要说明的，本申请实施例对带外控制器的具体形式并不限定，以上仅为示例性说明。在下述实施例中，仅以带外控制器包括为BMC为例进行说明。

需要说明的是，计算机设备对BMC有不同的称呼，例如一些公司称为BMC，一些公司称为iLO，另一公司称为iDRAC。不论是叫BMC，还是叫iLO或iDRAC，都可以理解为是本发明实施例中的BMC。

在一些实施例中，带外控制器包括故障管理模块、故障定位模块和故障处理模块。

故障管理模块，用于收集内存的故障事件，存储在带外控制器的缓存中。其中，内存的故障事假可以是由处理器固件发送给故障管理单元，或者，也可以OS管理单元发送给故障管理单元。需要说明的，本申请实施例对故障管理单元所收集到的故障事件的来源不做限制。

故障定位模块，用于对带外控制器的缓存故障事件进行分组，以及预测每组故障事件对内存的影响程度，并将影响程度满足预设条件的组所发生的物理位置确定为故障风险区域。

故障处理模块，用于对故障风险区域进行告警、修复、隔离等操作，以降低内存发生故障的风险。

以下，结合图2对内存的结构进行示例性介绍。

内存，也称为内存储器或主存储器，安装在计算机设备的主板上的内存插槽(图2中未示出)中，内存与内存控制器(图2中未示出)之间通过内存通道(channel)进行通信。内存具有至少一个内存列(rank)，如图2所示的内存列0、内存列1。每个内存列分别位于内存的一个面上，每个内存列包括至少一个子内存列(subrank)，每个内存列或子内存列包括多个内存芯片(device)，如图2所示的内存芯片00、内存芯片01等。每个内存芯片被划分为多个存储阵列组(bankgroup)，每个存储阵列组包括多个存储阵列(bank)，如图2所示的存储阵列0、存储阵列1等。每个存储阵列划分为多个存储单元(cell)，每个存储单元具有一个行(row)地址和一个列(column)地址，每个存储单元包括一个或多个比特位(图2中未示出)。在一种划分方式中，内存从上级至下级可以依次划分为内存芯片、存储阵列组、存储阵列，存储行/存储列、存储单元、比特位。

需要说明的，本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

为了便于理解，以下结合附图对本申请提供的内存故障处理方法进行示例性介绍，该内存故障处理方法适用于图1所示的计算机设备。

图3是根据一示例性实施例示出的一种内存故障处理方法的流程图。示例性的，该内存故障处理方法包括以下S301-S306。

S301：带外控制器确定内存发生的多个故障事件。

其中，故障事件与内存故障是一一对应的关系，一个故障事件用于指示一个内存故障。

可选地，故障事件可以是CE级别故障的故障事件和/或UCE级别故障的故障事件。

在多个故障事件中，可以是一部分故障事件为CE级别故障的故障事件，另一部分故障事件为UCE级别故障的故障事件。

可选地，多个故障事件包括第一故障事件，第一故障事件包括第一故障事件所指示的内存故障的故障时间信息、故障位置信息和故障纠正难度信息。其中，第一故障事件可以是多个故障事件中的任意一个故障事件。

故障时间信息用于指示第一故障事件所指示的内存故障的发生时间。

故障位置信息用于指示第一故障事件所指示的内存故障所在的物理位置。例如，故障位置信息可以包括处理器标识(CPU ID)、通道标识(Channel ID)、内存标识(DimmID)、内存列标识(Rank ID)、内存芯片标识(Device ID)、存储阵列组标识(BankGruop ID)、存储阵列标识(Bank ID)、行(row)地址、列(col)地址中的至少一项。

故障纠正难度信息用于指示对第一故障事件所指示的内存故障的纠正难度。示例性的，可以基于ECC纠错法对第一故障事件所指示的内存故障进行纠正后，在寄存器中记录的奇偶校验结果确定第一故障事件的故障纠正难度。例如，根据ECC纠错法的奇偶校验结果中的1的数量进行确定，其中，1的数量越少，说明数据中比特翻转情况越少，因此，修复难度越小。反之，故障纠正难度越大。在一些实施例中，CPU监测到内存发生故障(如故障a)后，收集故障a的故障时间信息、故障位置信息以及故障纠正难度信息，之后，对收集到的信息进行封装，得到故障a所对应的故障事件a，并向带外控制器发送故障事件a。带外控制器在接收到故障事件a之后，存储故障事件a，例如，可以存储在本地缓存中。

在一些实施例中，在带外控制器存储的故障事件的数量达到预设阈值的情况下，带外控制器开始执行上述S301。例如，预设阈值可以是20个、50个等。需要说明的，本申请实施例对预设阈值的具体值不做限制。

在另一些实施例中，带外控制器按照预设周期，执行上述S301。例如，预设周期可以是1天、7天等。需要说明的，本申请实施例对预设周期的时长不做限制。

S302：带外控制器根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组。

其中，故障事件与物理位置为一一对应的关系，也即，一个故障事件对应一个物理位置。故障事件对应的物理位置，可以根据故障事件所包括的故障位置信息进行确定。

需要说明的，不同故障事件对应的物理位置可以相同，或者，也可以不同，本申请实施例对此不做限制。

可选地，至少两个故障组包括第一故障组，第一故障组包括至少一个故障事件。其中，第一故障组可以是至少两个故障组中的任意一个故障组。

需要说明的，不同故障组所包括的故障事件的数量可以相等，或者，也可以不相等，本申请实施例对此不作限制。

可选地，S302包括：带外控制器基于划分粒度，根据多个故障事件所在的物理位置，对多个故障事件划分为至少两个故障组。

例如，若划分粒度为内存行，则根据多个故障事件所在的内存行，对多个故障事件进行分组，若划分粒度为存储阵列，则根据多个故障事件所在的存储阵列，对多个故障事件进行分组。

其中，划分粒度可以是预先确定的，或者，可以是随机选择任意一种划分粒度。

可选地，划分粒度是内存芯片、存储阵列组、存储阵列，存储行/存储列、存储单元中的任一项。可选地，S302包括：根据多个故障事件所在的物理位置以及多个故障事件的故障修复方式所修复的物理位置的粒度，将多个故障事件划分为至少两个故障组；其中，故障修复方式与待修复位置待使用的故障修复方式的类型相同。

在一些实施例中，故障修复方式包括单元修复、行修复、列修复和阵列修复等。

其中，单元修复所修复的物理位置的粒度为存储单元。行修复所修复的物理位置的粒度为内存行。列修复所修复的物理位置的粒度为内存列。阵列修复所修复的物理位置的粒度为存储阵列。

在一些实施例中，基于多个故障事件的故障修复方式所修复的物理位置的粒度，根据多个故障事件所在的物理位置，对多个故障事件划分为至少两个故障组。

例如，若多个故障事件的故障修复方式为行修复，也即，故障修复方式所修复的物理位置的粒度为内存行，则根据多个故障事件所在的内存行，对多个故障事件进行分组。

在一个示例中，基于预先确定的多个故障事件的故障修复方式所修复的物理位置的粒度，将所述多个故障事件划分为至少两个故障组。

例如，在执行S302之前，由人工确定多个故障事件的故障修复方式，如，确定的故障修复方式为行修复，则基于行修复所修复的物理位置的粒度(即内存行)，根据多个故障事件所在的物理位置，对多个故障事件进行分组。

在另一个示例中，基于任意一种故障修复方式所修复的物理位置的粒度，根据多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组。

例如，在确定内存发生的多个故障事件后，随机选择一种故障修复方式，如，随机选择的故障修复方式是阵列修复，则基于阵列修复所修复的物理位置的粒度(即存储阵列)，根据多个故障事件所在的物理位置，对多个故障事件进行分组。

在又一个示例中，分别基于每种故障修复方式所修复的物理位置的粒度，根据多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组。

例如，先基于单元修复所修复的物理位置的粒度，根据多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组。再根据行修复所修复的物理位置的粒度，根据多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组。之后，再根据列修复所修复的物理位置的粒度，根据多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组。最后，基于阵列修复所修复的物理位置的粒度，根据多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组。

对于如何根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组，包括多种实现方式，以下通过方式1至方式4进行示例性说明。

方式1：基于多个故障事件所在的存储单元，将多个故障事件划分为至少两个故障组。

其中，同一个故障组中的不同故障事件位于同一个存储单元，不同故障组中的故障事件位于不同的存储单元。

如图4所示，为内存的一个存储阵列的示意图，存储阵列包括多个存储单元。其中，行i用于表征第i行，i＝1、……8。列j用于表征第j列与，j＝1、……8。

需要说明的，本申请实施例对存储阵列所包括的存储单元的数量不做限制，图3所示的存储单元的数量仅为示例性说明。

以下，以多个故障事件包括故障事件1、……、故障事件6为例，对方式1进行说明。

如图3所示，故障事件1、故障事件2所在的存储单元为行1列2，故障事件3所在的存储单元为行1列3，故障事件4所在的存储单元为行3列3，故障事件5所在的存储单元为行3列6，故障事件6所在的存储单元为行6列2。

在此基础上，若基于多个故障事件所在的存储单元，对多个故障事件进行分组，则故障事件1和故障事件2位于同一个存储单元，属于同一个故障组，例如，为故障组1。故障事件3、故障事件4、故障事件5、以及故障事件6分别位于不同的存储单元，例如，依次属于故障组2、故障组3和故障组5和故障组6。

其中，故障组1、……、故障组6为不同的故障组。

方式2：基于多个故障事件所在的内存行，将多个故障事件划分为至少两个故障组。

其中，同一个故障组中的不同故障事件位于同一个内存行，不同故障组中的故障事件位于不同的内存行。

如图3所示，故障事件1、故障事件2、故障事件3位于行1，故障事件4、故障事件5位于行3，故障事件6位于行6。

在此基础上，若基于多个故障事件所在的内存行，对多个故障事件进行分组，则故障事件1、故障事件2、故障事件3位于同一行，属于同一个故障组，例如，为故障组1。故障事件4、故障事件5位于同一行，属于同一个故障组，例如，为故障组2。故障事件6属于同一个故障组，例如，为故障组3。

其中，故障组1、……、故障组3为不同的故障组。

方式3：基于多个故障事件所在的内存列，将多个故障事件划分为至少两个故障组。

其中，同一个故障组中的不同故障事件位于同一个内存列，不同故障组中的故障事件位于不同的内存列。

如图3所示，故障事件1、故障事件2、故障事件6位于列2，故障事件3、故障事件4位于列3，故障事件5位于列5。

在此基础上，若基于多个故障事件所在的内存列，对多个故障事件进行分组，则故障事件1、故障事件2、故障事件6位于同一列，属于同一个故障组，例如，为故障组1。故障事件3、故障事件4位于同一列，属于同一个故障组，例如，为故障组2。故障事件5属于一个故障组，例如，为故障组3。

其中，故障组1、……、故障组3为不同的故障组。

方式4：基于多个故障事件所在的存储阵列，将多个故障事件划分为至少两个故障组。

其中，同一个故障组中的不同故障事件位于同一个存储阵列，不同故障组中的故障事件位于不同的存储阵列。

以下，以多个故障事件包括故障事件1、……、故障事件6，以及故障事件N为例，对方式4进行说明。其中，故障事件N与故障事件1位于不同的存储阵列。

如图3所示，故障事件1、……、故障事件6位于同一个存储阵列，而故障事件N与故障事件1位于不同的存储阵列。在此基础上，若基于多个故障事件所在的存储阵列，对多个故障事件进行分组，则故障事件1、……、故障事件6位于同一个存储阵列，属于同一个故障组，例如，为故障组1。故障事件N属于一个故障组，例如，为故障组2。

其中，故障组1和故障组2为不同的故障组。

S303：带外控制器预测目标故障组中的故障事件对内存的影响程度。

其中，对内存的影响程度包括对内存发生故障的影响程度。例如，可以是对内存发生UCE级别故障的影响程度。

需要说明的，S302中的至少两个组包括目标故障组。其中，目标故障组可以是至少两个故障组中的任意一个故障组。

在一些实施例中，带外控制器根据至少两个故障组中的非目标故障组中的故障事件，预测目标故障组中的故障事件，对内存发生故障的影响程度。

需要说明的，对于如何根据至少两个故障组中的非目标故障组中的故障事件，预测目标故障组中的故障事件对内存发生故障的影响程度，具体参见下文中图5以及图7所示的实施例，此处不再细述。

在另一些实施例中，带外控制器根据目标故障组中的故障事件，预测目标故障组中的故障事件，对内存发生故障的影响程度。

在一些实施例中，预测结果可以是内存发生故障的概率值。此时，目标故障组中的故障事件对内存发生故障的影响程度(以下简称目标故障组的影响程度)的大小，根据概率值的大小进行确定。

在另一些实施例中，预测结果可以内存的健康度值。此时，目标故障组的影响程度的大小，根据健康度值的大小进行确定。

需要说明的，具体如何根据健康度值或概率值的大小确定目标故障组的影响程度的大小，将在图5、图6所示实施例中进行说明，此处不再细述。

S304：带外控制器在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

在一些实施例中，若预测结果为内存发生故障的概率值，则可以根据该概率值与预设概率阈值之间的大小关系，确定影响程度是否满足第一预设条件。

在另一些实施例中，若预测结果为内存的健康度值，则可以根据该健康度值与预设健康度阈值之间的大小关系，确定影响程度是否满足第一预设条件。

需要说明的，具体如何根据概率值或健康度值确定影响程度是否满足第一预设条件，将在图5、图6所示实施例中进行说明，此处不再细述。

上述实施例中，在确定内存发生的多个故障事件后，根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组，并预测目标故障组中的故障事件对内存发生故障的影响程度，由于目标故障组中的故障事件对内存发生故障的影响程度，与目标故障组中的故障事件所在的物理位置的修复价值正相关，也即，目标故障组的影响程度越大，则目标故障组所在的物理位置的修复价值越大，而故障影响程度满足第一预设条件时，目标故障组中的故障事件所在的物理位置的修复价值较高。基于此，将影响程度满足第一预设条件的目标故障组中的故障事件所在的物理位置确定为待修复位置，能够保证目标故障组中的故障事件所在的物理位置的修复必要性较高，因此，能够避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题，并且，修复了内存上修复必要性较高的物理位置，能够有效的降低内存发生故障的风险，例如，发生UCE级别故障的风险，进而有助于有效避免计算机设备发生系统故障。

可选地，S305：带外控制器发送故障修复请求，故障修复请求用于请求对待修复位置进行修复。

其中，故障修复请求可以包括待修复位置的标识。其中，待修位置的标识，可以是目标故障组中的故障事件的故障位置信息。如，处理器标识(CPU ID)、通道标识(ChannelID)、内存标识(Dimm ID)、内存列标识(Rank ID)、内存芯片标识(Device ID)、存储阵列组标识(BankGruop ID)、存储阵列标识(Bank ID)、行(row)地址、列(col)地址等。

在一些实施例中，带外控制器向CPU发送故障修复请求，例如，可以是请求在CPU中运行的OS管理单元，对待修复位置进行修复。

对待修复位置的修复包括多种实现方式，以下通过两种可能的实现方式进行示例性说明。

在一种可能的实现方式中，基于计算机设备中热备内存，对待修复位置进行修复。例如，对待修复位置采用行修复时，可以热备内存中的内存行替换待修复位置所在的内存行。这样修复后，若待写数据需要写入待修复位置所在的内存行时，则可以只写入热备内存中用于替换的内存行，或，也可以同时写入待修复位置所在的内存行和热备内存中用于替换的内存行。

在另一种可能的实现方式中，对待修复位置进行修复。例如，对待修复位置采用行修复时，可以隔离待修复位置所在的内存行，这样修复后，待写数据将不会再写入待修复位置所在的内存行。

可选地，故障修复请求包括故障修复方式。这样，在CPU接收到故障修复请求后，可以直接根据故障修复请求中的故障修复方式对待修复位置进行故障修复。

以下，以故障修复方式为行修复为例，对CPU如何修复待修复位置进行示例性说明。

例如，待修复位置为图4中所示的内存行6，在一些实施例中，CPU可以对内存行6进行整体隔离，之后，内存不会再将数据存储在内存行6，相当于是不再使用该内存行。在另一些实施例中，CPU可以对内存行6进行修复替换，如，使用内存行8隔离替换内存行6，之后，内存会将本应存储在内存行6的数据，存储在内存行8。

需要说明的，本申请实施例对待修复位置的具体修复形式不做限制，可以是整体隔离，或者，也可以是隔离替换。

上述实施例中，通过发送故障修复请求，实现请求对待修复位置进行故障修复，从而降低内存未来发生故障的风险，例如，发生UCE级别故障的风险，进而避免内存故障所导致的系统故障。

可选地，S306：带外控制器输出故障处理信息，故障处理信息包括待修复位置的标识。

需要说明的，关于待修复位置的标识的相关说明，可以参考上述S305，此处不再细述。

在一些实施例中，带外控制向终端设备输出故障处理信息，例如，可以语音输出，或者，也可以是文字输出。

在一个示例中，带外控制器将故障处理信息发送至终端设备，由终端设备进行显示。在另一个示例中，故障处理信息将故障处理信息发送至终端设备，由终端设备进行语音播放。

上述实施例中，通过输出故障处理信息，如，语音输出或文字输出，对待修复位置进行告警，使得用户可以了解待修复的物理位置的数量以及在内存中的具体位置，从而有助于用户及时掌握内存的故障情况。

以上，结合图3介绍了内存故障处理方法的一种实现方案。以下，结合图5介绍图2所示方案的一种具体实现方式。具体来说，是图3所示方案中的S303的一种具体实现方式。

图5是根据一示例性实施例示出的一种内存故障处理方法的流程图。示例性的，该内存故障处理方法包括以下S501-S507。

S501-S502：参考上述S301-S302。

S503：带外控制器根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度。

在一些实施例中，第一故障严重程度为内存发生故障的概率值，概率值越大，则内存发生故障的概率越大，反之，则发生故障的概率越小。

由于内存发生故障的概率值，是根据非目标故障组中的故障事件预测到的，也就相当于目标故障组中的故障事件所在的物理位置被修复的情况下，或者说，不会对内存发生故障有任何影响的情况下，得到的内存发生故障的概率值。此时，若该概率值较大，则说明目标故障组的故障事件所在的物理位置即使被修复，也不会降低内存发生故障的概率，这也就说明，目标故障组中的故障事件所在的物理位置的修复价值较低。

在另一些实施例中，预测结果为内存的健康度值，例如，可以是健康度值越大，则内存发生故障的概率越大，反之，则发生故障的概率越小。或者，还可以是健康度值越大，则内存发生故障的概率越小，反之，则发生故障的概率越大。

需要说明的，本申请实施例对健康度值与发生故障的概率之间的趋势关系不做限制。以下，以健康度值越大，则内存发生故障的概率越大为例进行说明。

由于内存的健康度值，是根据非目标故障组中的故障事件预测到的，也就相当于目标故障组中的故障事件所在的物理位置被修复的情况下，或者说，不会对内存发生故障有任何影响的情况下，得到的内存的健康度值。此时，若该健康度值较大，则说明目标故障组的故障事件所在的物理位置即使被修复，也不会降低内存的健康度值，这也就说明，目标故障组中的故障事件所在的物理位置的修复价值较低。

以下，以S302中的方式2为例，对S503进行示例性说明。

如上所示，故障事件1、故障事件2、故障事件3属于故障组1，故障事件4、故障事件5属于故障组2，故障事件6属于故障组3。在故障组1为目标故障组(以下称为目标故障组1)的情况下，故障组2和故障组3为非目标故障组(以下称为非目标故障组1)，则根据故障组2和故障组3中的故障事件，预测内存的第一故障严重程度。在故障组2为目标故障组(以下称为目标故障组2)的情况下，故障组1和故障组3为非目标故障组(以下称为非目标故障组2)，此时，根据故障组1和故障组3中的故障事件，预测内存的第一故障严重程度。在故障组3为目标故障组(以下称为目标故障组3)的情况下，故障组1和故障组2为非目标故障组(以下称为非目标故障组3)，此时，根据故障组1和故障组2中的故障事件，预测内存的第一故障严重程度。

由上述可知，在多个故障事件被划分为至少两个故障组的情况下，本申请实施例中的目标故障组可以为至少两个故障组中的任意一个故障组。

可选地，S503包括：根据非目标故障组中的故障事件和故障预测模型，得到故障预测模型输出的内存的第一故障严重程度。

以下，对根据非目标故障组中的故障事件和故障预测模型，得到故障预测模型输出的第一故障严重程度的实现过程，进行示例性说明。

在一些实施例中，如图6所示，以目标故障组1为例，对得到内存的第一故障严重程度的过程进行说明。首先，对故障事件4、故障事件5以及故障事件6(即非目标故障组1中的故障事件)进行特征提取，得到非目标故障组的特征向量，之后，将非目标故障组的特征向量输入到故障预测模型中，得到故障预测模型输出的内存的第一故障严重程度(以下简称第一故障严重程度1)。

可以理解的，对于目标故障组2，可以根据非目标故障组2中的故障事件，得到内存的第一故障严重程度2。对于目标故障组3，可以根据非目标故障组3中的故障事件，得到内存的第一故障严重程度3。

需要说明的，得到内存的第一故障严重程度2和第一故障严重程度3的过程，与得到第一故障严重程度1的过程相同，此处不再细述。

在进行特征提取时，所提取的特征包括：最近预设时长内发生故障事件的数量、最近预设时长内发生的行故障的数量、最近预设时长内发生的列故障的数量、最近预设时长内发生的故障事件中间隔N个故障事件的两个故障事件之间的最短间隔时间、最近预设时长内发生的故障事件中奇偶校验(parity)位的突发(burst)错误数量的均值、最近预设时长内发生的故障事件中奇偶校验(parity)位的比特(bit)错误的最近距离的最大值中的一项或多项。

其中，第一预设时长可以是6分钟、6小时、120小时等。需要说明的，本申请实施例对预设时长的具体数值不做限制。

示例性，最近预设时长内发生故障事件的数量可以是，最近6分钟内发生过的CE级别故障事件的数量、最近6小时内发生过的CE级别故障事件的数量、最近120小时内发生过的CE级别故障事件的数量、最近120小时内发生过的UCE级别故障事件的数量中的一项或多项。

最近预设时长内发生的行故障的数量可以是，最近120小时内发生的行故障的数量。其中，行故障定义为最近24小时内同一个内存行发生了至少两次故障事件。

最近预设时长内发生的列故障的数量可以是，最近120小时内发生的列故障的数量。其中，列故障定义为最近24小时内同一个内存列发生了至少两次故障事件。

最近预设时长内发生的故障事件中间隔N个故障事件的最短间隔时间可以是，最近120小时内发生的故障事件中，相隔3个故障事件的两个故障事件之间的最短时间间隔。

最近预设时长内发生的故障事件中奇偶校验(parity)位的突发(burst)错误数量的均值可以是，最近120小时内发生的故障事件中，奇偶校验时突发(burst)错误数量的均值。

最近预设时长内发生的故障事件中奇偶校验(parity)位的比特(bit)错误的最近距离的最大值可以是，最近120小时内发生的故障事件中，奇偶校验时比特(bit)错误的最近距离的最大值。

需要说明的，一个奇偶校验(parity)位包括8个突发(burst)位，一个突发(burst)位包括4个比特(bit)位，一个奇偶校验(parity)位包括32个比特(bit)位。其中，比特(bit)位的值为1表示出错，bit的值为0表示正常(即未出错)。若一个突发(burst)位中存在至少一个1，则该一个突发(burst)位为出错。

示例性的，奇偶校验(parity)位中出错比特(bit)的最近距离，就是奇偶校验(parity)位中值为1的比特(bit)位的最近距离。比如，奇偶校验(parity)位为0011 00000001 0001 0000 0000 0000 0000，这个的最近距离是1(即从左往右起第3、4位之间的距离)。

示例性的，非目标故障的特征向量可以是3维向量(1,0,1)，其中，每个元素对应一个特征指标，例如，从左向右，第一个元素用于指示故障时间，第二个元素用于指示故障地址，第三个元素用于指示故障纠正难度。

需要说明的，本申请实施例对特征向量的维度不做限制。

需要说明的，本申请实施例对特征提取器的具体类型不做限制，也可以使用相关技术中的其他类型的特征提取器。

在执行S503之前，需要对初始模型进行训练，以得到故障预设模型。以下，通过S1-S3对初始模型的训练过程进行示例性说明。

S1：获取至少一个训练样本和至少一个训练样本的至少一个样本标签。

其中，训练样本与样本标签为一一对应的关系，也即，一个训练样本对应一个样本标签。

以下，以至少一个训练样本为训练样本a，以及训练样本a的样本标签a为例，对训练样本和样本标签进行说明。

训练样本a包括内存a的多个历史故障事件，样本标签a用于指示内存a发生过UCE级别故障或未发生过UCE级别故障。

S2：基于训练样本和样本标签，对初始模型进行迭代训练。

可选地，初始模型可以是随机森林模型、极端梯度提升(extreme gradientboosting，XGBoost)模型、卷积神经网络(convolutional neural networks,CNN)模型、长短期记忆网络(long short-term memory，LSTM)模型、梯度提升决策树(gradientboosting decision tree，GBDT)模型等。

需要说明的，S2的实现过程与相关技术中的模型的训练过程的原理相同，此处不再细述。

S3：在初始模型满足模型收敛条件的情况下，将满足模型收敛条件的初始模型确定为故障预测模型。

需要说明的，S3的实现过程与相关技术中的模型的训练过程的原理相同，此处不再细述。

S504：根据内存的第一故障严重程度，确定目标故障组中的故障事件对内存的影响程度。

其中，内存的第一故障严重程度越高，则目标故障组的影响程度越低。

以下，仅以第一故障严重程度为内存发生故障的概率值为例，对S504进行说明。

在一些实施例中，将内存的第一故障严重程度确定为目标故障组的影响程度，也即，将内存发生故障的概率值确定为目标故障组中的故障事件对内存发生故障的影响程度。

基于此，内存发生故障的概率值越大，则目标故障组的影响程度越低，目标故障组中的故障事件所在物理位置的修复价值越低。反之，则目标故障组的影响程度越高，目标故障组中的故障事件所在物理位置的修复价值越高。

在另一些实施例中，假如目标故障组中的故障事件所在的物理位置未被修复的情况下，内存发生故障的概率值为100％，基于此，将概率值100％与预测到的内存发生故障的概率值之间的差值，确定为目标故障组的影响程度。

基于此，内存发生故障的概率值越大，则该差值越小，目标故障组的影响程度越低，目标故障组中的故障事件所在物理位置的修复价值越低。反之，则目标故障组的影响程度越高，目标故障组中的故障事件所在物理位置的修复价值越高。

需要说明的，第一故障严重程度为内存的健康度值时，确定目标故障组的影响程度的原理，与第一故障严重程度为内存发生故障的概率值的原理相同，此处不再细述。

需要说明的，S503至S504可以认为是S303的一种具体实现方式。

S505：在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

以下，仅以第一故障严重程度为内存发生故障的概率值为例，对S505进行说明。

在一些实施例中，若影响程度为第一概率值(如S504中的第一故障严重程度)，影响程度满足第一预设条件包括第一概率值小于或等于第一预设概率阈值。

由于第一概率值越大，则目标故障组对内存的影响程度越小。反之，第一概率值越小，则目标故障组对内存的影响程度越大。因此，目标故障组的影响程度满足第一预设条件为第一概率值小于或等于第一预设概率阈值。

例如，第一预设概率阈值为40％，目标故障组1的第一概率值为35％，目标故障组2的第一概率值为65％，目标故障组3的第一概率值为39％，则目标故障组1和目标故障组3满足第一预设条件，目标故障组2不满足第一预设条件。基于此，目标故障组1和目标故障组3中的故障事件所在的物理位置会被确定为待修复位置，目标故障组2中的故障事件所在的物理位置不会被确定为待修复位置。在另一些实施例中，影响程度为第二概率值(如S504中的差值)，影响程度满足第一预设条件包括第二概率值大于或等于第二预设概率阈值。

由于第二概率值越大，则目标故障组对内存的影响程度越大。因此，目标故障组的影响程度满足第一预设条件为第二概率值大于或等于第二预设概率阈值。

例如，第二预设概率阈值为60％，目标故障组1的影响程度为65％，目标故障组2的影响程度为35％，目标故障组3的影响程度为61％，则目标故障组1和目标故障组3满足第一条件，目标故障组2不满足第一预设条件。基于此，目标故障组1和目标故障组3中的故障事件所在的物理位置会被确定为待修复位置，目标故障组2中的故障事件所在的物理位置不会被确定为待修复位置。在又一些实施例中，影响程度满足第一预设条件包括目标故障组的影响程度大于非目标故障组的影响程度。

其中，非目标故障组的影响程度是根据目标故障组中的故障事件确定的。

例如，目标故障组1的影响程度为65％，非目标故障组1的影响程度为30％。目标故障组2的影响程度为35％，非目标故障组2的影响程度为65％。目标故障组3的影响程度为61％，非目标故障组3的影响程度为35％。基于此，目标故障组1的影响程度大于非目标故障组1的影响程度，因此，目标故障组1的影响程度满足第一预设条件。目标故障组2的影响程度小于非目标故障组2的影响程度，因此，目标故障组2的影响程度不满足第一预设条件。目标故障组3的影响程度大于非目标故障组3的影响程度，因此，目标故障组3的影响程度满足第一预设条件。

在又一些实施例中，影响程度满足第一预设条件包括目标故障组的影响程度在多个故障组的多个影响程度中的排序大于或等于预设排序阈值。

例如，目标故障组1的影响程度为65％，目标故障组2的影响程度为35％，目标故障组3的影响程度为61％，对目标故障组1、目标故障组2和目标故障组3，按照影响程度进行排序，例如，按照影响程度从大到小的顺序进行排序，则排序结果为目标故障组1、目标故障组2、目标故障组3，若预设排序阈值为2，则排序为第一、第二的目标故障组的影响程度满足第一预设条件，也即，目标故障组1和目标故障组3满足第一预设条件，目标故障组2不满足第一预设条件。

当然，还可以按照影响程度从小到大的顺序，对目标故障组1、目标故障组2和目标故障组3进行排序，若预设排序阈值为2，则排序为第二或第三的目标故障组的影响程度满足第一预设条件。

可选地，预设排序阈值可以根据多个故障组的数量和/或预计修复的待修复位置的数量进行确定。需要说明的，本申请实施例对预设排序阈值的具体数值不做限制。

需要说明的，第一故障严重程度为内存的健康度值时，确定影响程度满足预设条件的原理，与第一故障严重程度为内存发生故障的概率值的原理相同，此处不再细述。

S506-S507：参考上述S305-S306。

上述实施例中，根据非目标故障组中的故障事件所预测的第一故障严重程度，相当于是目标故障组中的故障事件所在的物理位置被修复之后，内存的故障严重程度，基于此，该第一故障程度越高，则说明目标故障组中的故障事件对内存的影响程度越低，修复价值也越低，换句话说，就是目标故障组中的故障事件所在的物理位置即使被修复了，所能够降低的内存的故障严重程度也非常有限。因此，根据内存的第一故障严重程度，确定目标故障组中的故障事件对内存发生的影响程度，有助于使目标故障组的影响程度能够更加准确的指示目标故障组中的故障事件所在的物理位置的修复价值，进而有助于保证在目标故障组中的故障事件所在的物理位置修复价值较高时，将其确定为待修复位置，这样，能够更加有效的避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题。

以上，结合图5，介绍了图3所示方案中的S303的一种具体实现方式。以下，结合图7介绍图3所示方案中的S303的另一种具体实现方式，以及S304的一种具体实现方式。

图7是根据一示例性实施例示出的一种内存故障处理方法的流程图。示例性的，该内存故障处理方法包括以下S701-S708。

S701-S702：参考上述S301-S302。

S703：参考上述S503。

S704：根据多个故障事件和故障预测模型，预测第二故障严重程度。

若说，根据非目标故障组中的故障事件所预测的第一故障严重程度，相当于是目标故障组中的故障事件所在的物理位置被修复之后，内存的故障严重程度。那么，根据多个故障组中的故障事件所预测的第二故障严重程度，则相当于是目标故障组中的故障事件所在的物理位置未被修复时，内存的故障严重程度。

需要说明的，S704的实现原理与S503的实现原理相同，因此，关于S704的实现过程和相关说明，可以参考上述S503，此处不再细述。

S705：根据内存的第二故障严重程度和内存的第一故障严重程度的差异，确定目标故障组中的故障事件对内存的影响程度。

以下，仅以第一故障严重程度和第二故障程度均为内存发生故障的概率值为例，对S705进行说明。

在一些实施例中，将第一故障严重程度与第一故障严重程度之间的差异(即差值)，确定为目标故障组的影响程度。

由于第二故障严重程度相当于是目标故障组中的故障事件所在的物理位置未被修复时，内存的故障严程度，而第一故障严重程度相当于是目标故障组中的故障事件所在的物理位置被修复之后，内存的故障严重程度，因此，该差异即为目标故障组中的故障事件所导致。

基于此，该差异越小，目标故障组的影响程度越低，目标故障组中的故障事件所在物理位置的修复价值越低。反之，则目标故障组的影响程度越高，目标故障组中的故障事件所在物理位置的修复价值越高。

以下，以S302中的方式2为例，对S705进行示例性说明。

如上所示，故障事件1、故障事件2、故障事件3属于故障组1，故障事件4、故障事件5属于故障组2，故障事件6属于故障组3。

例如，基于故障组1、故障组2以及故障组3中的故障事件，预测到的第二故障严重程度为0.7。

若基于故障组2和故障组3中的故障事件预测到的第一故障严重程度1为0.6，则目标故障组1的影响程度为0.1(即0.7-0.6)。

若基于故障组1和故障组3中的故障事件预测到的第一故障严重程度2为0.35，则目标故障组2的影响程度为0.35(即0.7-0.35)。

若基于故障组1和故障组2中的故障事件预测到的第一故障严重程度3为0.55，则目标故障组3的影响程度为0.15(即0.7-0.35)。

在一些实施例，第一故障严重程度和第二故障严重程度基于相应的故障预测方法进行预测，这样，可以在同一个维度比较内存的两个不同故障严重程度，有助于提高基于第一故障严重程度和第二故障严重程度所确定的目标故障组的影响程度的准确性。

另外，第一故障严重程度和第二故障严重程度的数据形式相同，例如，第一故障严重程度为内存发生故障的概率值时，第二故障严重程度也应为内存发生故障的概率值。

需要说明的，第一故障严重程度和第二故障严重程度为内存的健康度值时，确定目标故障组中的故障事件对内存的影响程度的原理，与第一故障严重程度和第二故障严重程度为内存发生故障的概率值的原理相同，此处不再细述。

需要说明的，S703至S705可以认为是S303的另一种具体实现方式。

S706：带外控制器在影响程度满足第一预设条件，且第二故障严重程度满足第二预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

以下，仅以第一故障严重程度和第二故障严重程度为内存发生故障的概率值为例，对S706进行说明。

在一些实施例中，影响程度满足第一预设条件包括目标故障组的影响程度大于或等于第三预设概率阈值。

在另一些实施例中，影响程度满足第一预设条件包括目标故障组的影响程度大于非目标故障组的影响程度。

需要说明的，关于影响程度满足第一预设条件的详细说明，可以参考上述S505，此处不再细述。

在一些实施例中，第二故障严重程度满足第二预设条件包括第二故障严重程度大于或等于第四预设概率阈值。

示例性的，如S705所示，内存的第二故障严重程度为0.7，目标故障组2的影响程度为0.35，若第三预设概率阈值为0.3，且第四预设概率阈值为0.6，则由于第二故障严重程度大于第四预设概率阈值，目标故障组2的影响程度大于第三预设概率阈值，目标故障组中的故障事件所在的物理位置被确定为待修复位置。

S707-S708：参考上述S305-S306。

上述实施例中，根据非目标故障组中的故障事件所预测的第一故障严重程度，相当于是目标故障组中的故障事件所在的物理位置被修复之后，内存的故障严重程度，而根据多个故障组中的故障事件所预测的第二故障严重程度，相当于是目标故障组中的故障事件所在的物理位置未被修复时，内存的故障严重程度，基于此，第二故障严重程度与第一故障严重程度之间的差异即为目标故障组中的故障事件对内存的影响程度。因此，根据第二故障严重程度和第一故障严重程度之间的差异，确定目标故障组中的故障事件对内存的影响程度，有助于提高影响程度的准确性，从而使目标故障组的影响程度能够更加准确的指示目标故障组中的故障事件所在的物理位置的修复价值，进而有助于保证在目标故障组中的故障事件所在的物理位置修复价值较高时，将其确定为待修复位置，这样，能够更加有效的避免产生非必要的修复操作，以及避免出现浪费内存的存储资源和故障修复资源的问题。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，内存故障处理装置包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法，示例性的对内存故障处理装置进行功能模块的划分，例如，内存故障处理装置可以包括对应各个功能划分的各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

示例性的，图8示出了上述实施例中所涉及的内存故障处理装置(记为内存故障处理装置800)的一种可能的结构示意图，该内存故障处理装置800包括处理单元801和预测单元802。处理单元801，用于确定内存发生的多个故障事件。例如，图3所示的S301，图5所示的S501，以及图7所示的S701。处理单元801还用于，根据多个故障事件所在的物理位置，将多个故障事件划分为至少两个故障组；至少两个组包括目标故障组。例如，图3所示的S302，图5所示的S502，以及图7所示的S702。预测单元802，用于预测目标故障组中的故障事件对内存的影响程度。例如，图3所示的S303，图5所示的S503-S504，以及图7所示的S703-S705。处理单元801还用于，在影响程度满足第一预设条件的情况下，确定目标故障组中的故障事件所发生的物理位置为待修复位置。例如，图3所示的S304，图5所示的S505，以及图7所示的S706。

可选地，预测单元802具体用于，根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度；根据内存的第一故障严重程度，确定目标故障组中的故障事件对内存的影响程度；内存的第一故障严重程度越高，目标故障组中的故障事件对内存的影响程度越低。

可选地，预测单元802具体用于，根据至少两个故障组中的非目标故障组中的故障事件，预测内存的第一故障严重程度；根据多个故障事件，预测内存的第二故障严重程度；根据内存的第二故障严重程度和内存的第一故障严重程度的差异，确定目标故障组中的故障事件对内存的影响程度；其中，差异越小，目标故障组中的故障事件对内存的影响程度越低。

可选地，处理单元801具体用于，在影响程度满足第一预设条件，且第二故障严重程度满足第二预设条件的情况下，确定目标故障组中的故障事件所在的物理位置为待修复位置。

可选地，预测单元802具体用于，将多个故障事件输入故障预测模型，得到故障预测模型输出的第二故障严重程度。

可选地，预测单元802具体用于，将至少两个故障组中的非目标故障组中的故障事件输入故障预测模型，得到故障预测模型输出的第一故障严重程度。

可选地，处理单元801具体用于，根据多个故障事件所在的物理位置以及多个故障事件的故障修复方式所修复的物理位置的粒度，将多个故障事件划分为至少两个故障组；其中，故障修复方式与待修复位置待使用的故障修复方式的类型相同。

可选地，处理单元801还用于，发送故障修复请求，故障修复请求用于请求对待修复位置进行修复。

可选地，处理单元801还用于，输出故障处理信息，故障处理信息包括待修复位置的标识。

可选地，多个故障事件包括第一故障事件，第一故障事件包括第一故障事件所指示的内存故障的故障时间信息、故障位置信息和故障纠正难度信息。

关于上述可选方式的具体描述可以参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种内存故障处理装置800的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，处理器与存储器连接，存储器存储有计算机执行指令，处理器执行该计算机执行指令时实现上述实施例中的数据处理方法。本申请实施例对计算机设备的具体形式不作任何限制。例如，计算机设备具体可以是终端装置，也可以是网络设备。其中，终端装置可以被称为：终端、用户设备(user equipment，UE)、终端设备、接入终端、用户单元、用户站、移动站、远方站、远程终端、移动设备、用户终端、无线通信设备、用户代理或用户装置等。终端装置具体可以是手机、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等。网络设备具体可以是服务器等。其中，服务器可以是一个物理或逻辑服务器，也可以是有两个或两个以上分担不同职责的物理或逻辑服务器、相互协同来实现服务器的各项功能。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上文提供的任一种计算机设备所执行的方法。

关于上述提供的任一种计算机可读存储介质中相关内容的解释及有益效果的描述，均可以参考上述对应的实施例，此处不再赘述。

本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述计算机设备的功能的控制电路和一个或者多个端口。可选的，该芯片支持的功能可以参考上文，此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器，随机接入存储器等。上述处理单元或处理器可以是中央处理器，通用处理器、特定集成电路(application specific integrated circuit，ASIC)、微处理器(digital signal processor，DSP)，现场可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供了一种包含指令的计算机程序产品，当该指令在计算机上运行时，使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如SSD)等。

应注意，本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件，例如但不限于，上述存储器、计算机可读存储介质和通信芯片等，均具有非易失性(non-transitory)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种内存故障处理方法，其特征在于，所述方法包括：

确定内存发生的多个故障事件；

根据所述多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组；所述至少两个组包括目标故障组；

预测所述目标故障组中的故障事件对所述内存的影响程度；

在所述影响程度满足第一预设条件的情况下，确定所述目标故障组中的故障事件所在的物理位置为待修复位置。

2.根据权利要求1所述的方法，其特征在于，所述预测所述目标故障组中的故障事件对所述内存影响程度，包括：

根据所述至少两个故障组中的非目标故障组中的故障事件，预测所述内存的第一故障严重程度；

根据所述内存的第一故障严重程度，确定所述目标故障组中的故障事件对所述内存的影响程度；其中，所述内存的第一故障严重程度越高，所述目标故障组中的故障事件对所述内存的影响程度越低。

3.根据权利要求1所述的方法，其特征在于，所述预测所述目标故障组中的故障事件对所述内存的影响程度，包括：

根据所述多个故障事件，预测所述内存的第二故障严重程度；

根据所述内存的第二故障严重程度和所述内存的第一故障严重程度的差异，确定所述目标故障组中的故障事件对所述内存的影响程度；其中，所述差异越小，所述目标故障组中的故障事件对所述内存的影响程度越低。

4.根据权利要求3所述的方法，其特征在于，所述在所述影响程度满足第一预设条件的情况下，确定所述目标故障组中的故障事件所在的物理位置为待修复位置，包括：

在所述影响程度满足所述第一预设条件，且所述第二故障严重程度满足第二预设条件的情况下，确定所述目标故障组中的故障事件所在的物理位置为待修复位置。

5.根据权利要求1-4中任一项所述的方法，其特征在于，根据多个故障事件所发生的物理位置，将所述多个故障事件划分为至少两个故障组，包括：

根据所述多个故障事件所在的物理位置以及所述多个故障事件的故障修复方式所修复的物理位置的粒度，将所述多个故障事件划分为至少两个故障组；其中，所述故障修复方式与所述待修复位置待使用的故障修复方式的类型相同。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

发送故障修复请求，所述故障修复请求用于请求对所述待修复位置进行修复。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

输出故障处理信息，所述故障处理信息包括所述待修复位置的标识。

8.根据权利要求1-7中任一项所述的方法，其特征在于，

所述多个故障事件包括第一故障事件，所述第一故障事件包括所述第一故障事件所指示的内存故障的故障时间信息、故障位置信息以及故障纠正难度信息。

9.一种计算机设备，其特征在于，包括处理器、带外控制器、内存；

所述处理器与所述内存通信连接，所述处理器还与所述带外控制器通信连接；

所述带外控制器用于：确定内存发生的多个故障事件；根据所述多个故障事件所在的物理位置，将所述多个故障事件划分为至少两个故障组；所述至少两个组包括目标故障组；预测所述目标故障组中的故障事件对所述内存的影响程度；在所述影响程度满足第一预设条件的情况下，确定所述目标故障组中的故障事件所在的物理位置为待修复位置。

10.根据权利要求9所述的设备，其特征在于，

所述带外控制器具体用于：根据所述至少两个故障组中的非目标故障组中的故障事件，预测所述内存的第一故障严重程度；根据所述内存的第一故障严重程度，确定所述目标故障组中的故障事件对所述内存的影响程度；其中，所述内存的第一故障严重程度越高，所述目标故障组中的故障事件对所述内存的影响程度越低；或

所述带外控制具体用于：根据所述至少两个故障组中的非目标故障组中的故障事件，预测所述内存的第一故障严重程度；根据所述多个故障事件，预测所述内存的第二故障严重程度；根据所述内存的第二故障严重程度和所述内存的第一故障严重程度的差异，确定所述目标故障组中的故障事件对所述内存的影响程度；其中，所述差异越小，所述目标故障组中的故障事件对所述内存影响程度越低。