CN112231128A

CN112231128A - 内存错误处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112231128A
Application number: CN202010951988.5A
Authority: CN
Inventors: 胡金富
Original assignee: Zhongke Controllable Information Industry Co Ltd
Current assignee: Zhongke Controllable Information Industry Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2021-01-15
Anticipated expiration: 2040-09-11
Also published as: CN112231128B

Abstract

本申请涉及一种内存错误处理方法、装置、计算机设备和存储介质。所述方法包括：在监测到服务器发生可纠正内存错误的情况下，对可纠正内存错误进行分类汇总，得到内存错误信息，并获取服务器的目标错误处理方式，若目标错误处理方式为汇报错误方式，则展示内存错误信息，若目标错误处理方式为隔离错误方式，则对可纠正内存错误所在的内存单元进行隔离处理。服务器可以在用户选择了隔离错误处理方式时对可纠正内存错误所在单元进行隔离处理，避免可纠正内存错误在一直被触发的情况下积累数量转换成不可纠正内存错误，从而导致服务器死机和崩盘的问题，因此本申请提供的内存错误处理方法极大的提升了服务器的可靠性。

Description

内存错误处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种内存错误处理方法、装置、计算机设备和存储介质。

背景技术

随着云计算和大数据的逐步推广，以及数据运算能力的显著提升，对于服务器在复杂环境下的稳定可靠性要求也越来越高。由此，中央处理器(central processing unit，CPU)厂商推出了一项提升服务器产品稳定性的功能(RAS)，该RAS功能提供了对于CPU内部组件、内存、PCIe等部件的侦测错误、纠正错误、系统再配置的能力。

在评估服务器是否可靠的指标中，内存问题一直是服务器稳定可靠的重要影响因素。服务器运行环境变化对于内存信号质量的影响、以及内存品质差异是导致服务器中内存错误发生的主要源头。内存错误分为可纠正错误和不可纠正错误，然而大量的可纠正错误会导致系统性能下降，也可能衍生为不可纠正错误导致服务器死机重启。因此，服务器的RAS功能提供了对可纠正内存错误的监测功能，以便及时发现可纠正内存错误进行处理。

然而，现有的RAS提供的监测可纠正内存错误的功能仅是让用户知道发生了可纠正内存错误，在可纠正内存错误一直被触发的情况下，容易导致可纠正内存错误积累转换成不可纠正内存错误，从而极大的降低了服务器的稳定可靠性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高服务器稳定可靠性的内存错误处理方法、装置、计算机设备和存储介质。

第一方面，一种内存错误处理方法，所述方法包括：

在监测到服务器发生可纠正内存错误的情况下，对所述可纠正内存错误进行分类汇总，得到内存错误信息；

获取所述服务器的目标错误处理方式；所述目标错误处理方式为所述服务器启动时根据用户选择指令确定的错误处理方式；

若所述目标错误处理方式为汇报错误方式，则展示所述内存错误信息；

若所述目标错误处理方式为隔离错误方式，则对所述可纠正内存错误所在的内存单元进行隔离处理。

由于在现有技术中，服务器在监测到可纠正内存错误后会直接上报，所以服务器在上报内存错误信息时也仅是告知用户发生了内存错误，而上述实施例提供的内存错误处理方法在监测到发生可纠正内存错误时，进一步的对可纠正内存错误进行了分析，进而分类汇总，得到了更为详细的内存错误信息，例如，可以得到可纠正内存错误发生的位置、数量、时间等信息，使服务器上报内存错误信息时可以告知用户更为详细的内存错误信息。另外，服务器还可以在用户选择了隔离错误处理方式时对可纠正内存错误所在内存单元进行隔离处理，避免可纠正内存错误在一直被触发的情况下积累数量转换成不可纠正内存错误，从而导致服务器死机和崩盘的问题，因此本申请提供的内存错误处理方法极大的提升了服务器的可靠性。

在其中一个实施例中，所述内存错误信息包括内存单元的位置、所述内存单元中发生可纠正内存错误的数量和所述可纠正内存错误的发生时间。

在其中一个实施例中，所述在监测到服务器发生可纠正内存错误的情况下，对所述可纠正内存错误进行分类汇总，得到内存错误信息，包括：

在监测到所述服务器发生可纠正内存错误的情况下，获取所述可纠正内存错误所在的内存单元和发生时间；

根据所述可纠正内存错误所在的内存单元，统计每个所述内存单元中发生可纠正内存错误的数量；

根据每个所述内存单元的位置、所述每个所述内存单元中发生可纠正内存错误的数量和每个可纠正内存错误的发生时间，生成所述内存错误信息。

上述实施例实现了对可纠正内存错误的分类汇总，从而得到分类汇总后的内存错误信息，可以使用户根据该内存错误信息更加清楚的了解到可纠正内存错误发生的内存单元是哪一个，以及各内存单元上发生可纠正内存错误的数量和可纠正内存错误的发生时间。

在其中一个实施例中，所述对所述可纠正内存错误所在的内存单元进行隔离处理，包括：

判断各所述内存单元上发生可纠正内存错误的数量是否大于预设的隔离数量阈值；

将发生内存错误的数量大于所述隔离数量阈值的内存单元确定为问题内存单元，并对所述问题内存单元进行隔离处理。

上述方法可以防止问题内存单元中的可纠正内存错误的数量进行激增而导致增加转换成不可纠正内存错误的概率，因此，本实施提供的方法可以提高服务器的可靠性。

在其中一个实施例中，所述对所述问题内存单元进行隔离处理，包括：

将所述问题内存单元中的数据迁移到闲置内存单元中；所述闲置内存单元为所述服务器在确定所述目标错误处理方式为所述隔离错误方式之后预留的闲置内存单元；

将迁移后的问题内存单元进行隔离。

上述方法中，当服务器确定了问题内存单元后，即可将问题内存单元上的数据迁移到备用的闲置内存单元中，以便保证问题内存单元上有用数据的安全存储，避免服务器因问题内存单元出现问题造成数据流失或损坏，提高了服务器的运行可靠性。

在其中一个实施例中，所述将迁移后的问题内存单元进行隔离之后，所述方法还包括：

对隔离后的问题内存单元进行标识并展示。

上述方法中，服务器将隔离后的内存单元进行标识并展示后，可以告知用户哪些问题单元已被隔离处理，让用户清楚的了解到服务器对可纠正内存错误处理的过程。

在其中一个实施例中，所述展示所述内存错误信息，包括：

在所述服务器的显示屏幕上显示所述内存错误信息，并控制所述服务器上的内存告警灯亮起。

上述方法中，可以告知用户可以在服务器上的显示屏幕上查看内存错误信息，起到了警示和通知查看错误信息的作用。

在其中一个实施例中，所述方法还包括：

在检测到所述服务器上的隔离按键被触发时，检测所述内存告警灯是否亮起；

若所述内存告警灯亮起，则对所述可纠正内存错误所在的内存单元进行隔离处理，以及关闭所述内存告警灯；

若所述内存告警灯未亮起，则继续检测所述内存告警灯是否亮起。

上述方法实现了服务器通过与用户进行交互操作，对可纠正内存错误进行处理的方法，提供了允许用户处理可纠正内存错误的功能，使用户能够介入辅助服务器处理可纠正内存错误，提高了服务器处理可纠正内存错误的效率。

第二方面，一种内存错误处理装置，所述装置包括：

分类汇总模块，用于在监测到服务器发生可纠正内存错误的情况下，对所述可纠正内存错误进行分类汇总，得到内存错误信息。

获取模块，用于获取所述服务器的目标错误处理方式；所述目标错误处理方式为所述服务器启动时根据用户选择指令确定的错误处理方式。

展示模块，用于在所述目标错误处理方式为汇报错误方式的情况下，展示所述内存错误信息；

隔离模块，用于在所述目标错误处理方式为隔离错误方式的情况下，则对所述可纠正内存错误所在的内存单元进行隔离处理。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

附图说明

图1为一个实施例中服务器的内部结构图；

图2为一个实施例中内存错误处理方法的流程示意图；

图3为图2实施例中S101的一种实现方式的流程示意图；

图4为图2实施例中S104的一种实现方式的流程示意图；

图5为图4实施例中S302的一种实现方式的流程示意图；

图6为一个实施例中内存错误处理方法的流程示意图；

图7为图2实施例中S103的一种实现方式的流程示意图；

图8为一个实施例中内存错误处理方法的流程示意图；

图9为一个实施例中应用环境的示意图；

图10为一个实施例中内存错误处理装置的结构示意图；

图11为一个实施例中内存错误处理装置的结构示意图；

图12为一个实施例中内存错误处理装置的结构示意图；

图13为一个实施例中内存错误处理装置的结构示意图；

图14为一个实施例中内存错误处理装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的内存错误处理方法，可以应用于如图1所示的服务器中，该服务器可以是计算机设备，其内部结构图可以如图1所示。该服务器包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该服务器的处理器用于提供计算和控制能力。该服务器的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该服务器的网络接口用于与外部的终端通过网络连接通信。该服务器被处理器执行时以实现一种内存错误处理方法。该服务器的显示屏可以是液晶显示屏或者电子墨水显示屏，该服务器的输入装置可以是显示屏上覆盖的触摸层，也可以是服务器外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种内存错误处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S101，在监测到服务器发生可纠正内存错误的情况下，对可纠正内存错误进行分类汇总，得到内存错误信息。

具体地，服务器在启动时，实时监测内存是否发生可纠正内存错误，若监测到发生可纠正内存错误，则服务器可以相应的从记录内存错误的内存或数据库中提取出至少一条可纠正内存错误，并对提取出的可纠正内存错误发生的位置和时间进行分析，从而根据分析结果对可纠正内存错误进行分类汇总，以区分各可纠正内存错误所在的内存单元，方便之后进行上报或处理。需要说明的是，在服务器执行分类汇总的步骤时，可以先创建数据结构，然后将需要分类汇总的可纠正内存错误的相关信息作为参数输入至数据结构中进行分类汇总，得到分类汇总后的内存错误信息。

S102，获取服务器的目标错误处理方式；目标错误处理方式为服务器启动时根据用户选择指令确定的错误处理方式。

其中，错误处理方式为服务器对发生的可纠正内存错误进行处理时采用的处理方式，例如，汇报错误、隔离错误、纠正错误等。目标错误处理方式包括汇报错误方式或隔离错误方式，汇报错误方式用于指示服务器将可纠正内存错误展示给用户或语音播报给用户，隔离错误方式用于指示服务器对可纠正内存错误所在的内存单元进行隔离。用户选择指令为服务器启动时用户输入的指令，用户选择指令用于指示服务器选择相应的错误处理方式对当下发生的可纠正内存错误进行处理。

具体地，用户可以在服务器启动时弹出的选择界面上输入用户选择指令，服务器则可以通过解析该用户选择指令中包含的错误处理方式标识确定目标错误处理方式，以便可以确定用户选择了哪一种错误处理方式处理即将发生的可纠正内存错误。例如，用户选择指令中可以包含汇报错误方式标识，该标识表示用户选择了采用汇报错误方式对可纠正内存错误进行处理，或者用户选择指令中可以包含隔离错误方式标识，该标识表示用户选择了采用隔离错误方式对可纠正内存错误进行处理。需要说明的是，当用户选择了采用隔离错误方式对可纠正内存错误进行处理时，还可以在选择界面上输入隔离错误数量阈值，以便之后服务器可以根据该隔离错误数量阈值正确评估是否需要隔离可纠正内存错误所在的内存单元。

S103，若目标错误处理方式为汇报错误方式，则展示内存错误信息。

本实施例涉及的是服务器在确定目标错误处理方式为汇报错误方式时的具体处理过程，即当服务器确定了采用汇报错误方式对可纠正内存错误进行处理时，可以直接将之前分类汇总后得到的内存错误信息展示在服务器的显示界面上，可选地，服务器也可以通过亮起警告灯的方式通知用户发生可纠正内存错误，可选地，服务器还可以通过语音播报的方式通知用户发生可纠正内存错误，以及内存错误信息的内容，此处不做限定。

S104，若目标错误处理方式为隔离错误方式，则对可纠正内存错误所在的内存单元进行隔离处理。

本实施例涉及的是服务器在确定目标错误处理方式为隔离错误方式时的具体处理过程，即当服务器确定了采用隔离错误方式对可纠正内存错误进行处理时，服务器可以先确定发生可纠正内存错误的位置，即发生可纠正内存错误的是哪一个内存单元，然后对可纠正内存错误所在内存单元进行直接隔离处理。

上述实施例中，在监测到服务器发生可纠正内存错误的情况下，对可纠正内存错误进行分类汇总，得到内存错误信息，并获取服务器的目标错误处理方式，若目标错误处理方式为汇报错误方式，则展示内存错误信息，若目标错误处理方式为隔离错误方式，则对可纠正内存错误所在的内存单元进行隔离处理。由于在现有的内存错误处理方法中，服务器在监测到可纠正内存错误后会直接上报，所以服务器在上报内存错误信息时也仅是告知用户发生了内存错误，而本公开实施例提供的内存错误处理方法在监测到发生可纠正内存错误时，进一步的对可纠正内存错误进行了分析，进而分类汇总，得到了更为详细的内存错误信息，例如，可以得到可纠正内存错误发生的位置、数量、时间等信息，使服务器上报内存错误信息时可以告知用户更为详细的内存错误信息。另外，服务器还可以在用户选择了隔离错误处理方式时对可纠正内存错误所在内存单元进行隔离处理，避免可纠正内存错误在一直被触发的情况下积累数量转换成不可纠正内存错误，从而导致服务器死机和崩盘的问题，因此本申请提供的内存错误处理方法极大的提升了服务器的稳定性和可靠性。

在实际应用中，在服务器对可纠正内存错误进行分类汇总后，可以得到分类汇总后的内存错误信息。分类汇总后的内存错误信息包括内存单元的位置、内存单元中发生可纠正内存错误的数量和可纠正内存错误的发生时间。其中，内存单元的位置是指发生可纠正内存错误的内存单元是哪一个，例如，服务器中存在内存单元1、内存单元2、内存单元3、内存单元4和内存单元5，其中内存单元1和内存单元2上发生了可纠正内存错误。

基于上述内存错误信息，在一个实施例中，本申请还提供了上述S101的一种实现方式，如图3所示，上述S101“在监测到服务器发生可纠正内存错误的情况下，对所述可纠正内存错误进行分类汇总，得到内存错误信息”，包括：

S201，在监测到服务器发生可纠正内存错误的情况下，获取可纠正内存错误所在的内存单元和发生时间。

当服务器监测到发生的多条可纠正内存错误时，可以在记录有各可纠正内存错误相关信息的内存或数据库中获取到每条可纠正内存错误所在的内存单元和每条可纠正内存错误的发生时间。

S202，根据可纠正内存错误所在的内存单元，统计每个内存单元中发生可纠正内存错误的数量。

在服务器获取到每条可纠正内存错误所在的内存单元和发生时间时，可以进一步的统计出每个内存单元中发生可纠正内存错误的数量，以及每个内存单元中可纠正内存错误的发生时间。

S203，根据每个内存单元的位置、每个内存单元中发生可纠正内存错误的数量和每个可纠正内存错误的发生时间，生成内存错误信息。

当服务器统计出了每个内存单元中发生可纠正内存错误的数量和每个可纠正内存错误的发生时间后，即可将每个内存单元的位置、每个内存单元中发生可纠正内存错误的数量和每个可纠正内存错误的发生时间确定为内存错误信息，之后便可将该内存错误信息进行保存。可选的，服务器可以将内存错误信息以数据结构的形式保存，以便之后使用时直接通过数据结构获取内存错误信息。

上述实施例实现了对可纠正内存错误的分类汇总，从而得到分类汇总后的内存错误信息，可以使用户根据该内存错误信息更加清楚的了解到可纠正内存错误发生的内存单元是哪一个，以及各内存单元上发生可纠正内存错误的数量和发生可纠正内存错误的发生时间。

在一个实施例中，本申请还提供了上述S104的一种实现方式，如图4所示，上述S104中的“对可纠正内存错误所在的内存单元进行隔离处理，得到内存错误信息”，包括：

S301，判断各内存单元上发生可纠正内存错误的数量是否大于预设的隔离数量阈值。

其中，隔离数量阈值可以由服务器预先根据实际应用需求确定，也可以由用户自定义，或者由用户根据服务器上报内存错误信息的情况确定。本实施例为判断步骤，即服务器在得到每个内存单元上发生可纠正内存错误的数量时，可以进一步的将每个内存单元上发生可纠正内存错误的数量与预设的隔离数量阈值进行比较，以确定发生可纠正内存错误的数量大于隔离数量阈值的内存单元。

S302，将发生内存错误的数量大于隔离数量阈值的内存单元确定为问题内存单元，并对问题内存单元进行隔离处理。

当服务器确定了可纠正内存错误的数量大于隔离数量阈值的内存单元后，即可将发生内存错误的数量大于隔离数量阈值的内存单元确定为问题内存单元，并直接将该问题内存单元进行隔离处理，以防止该问题内存单元中的可纠正内存错误的数量进行激增而导致增加转换成不可纠正内存错误的概率，因此，本实施提供的方法可以提高服务器的可靠性。需要说明的是，当发生内存错误的数量不大于隔离数量阈值时，服务器则不对发生内存错误的数量不大于隔离数量阈值所在内存单元进行任何处理。

进一步的，本申请提供了对问题内存单元的具体实现方式，如图5所示，上述S302中的“对问题内存单元进行隔离处理”，包括：

S401，将问题内存单元中的数据迁移到闲置内存单元中；闲置内存单元为服务器在确定目标错误处理方式为隔离错误方式之后预留的内存单元。

具体地，服务器在确定了目标错误处理方式为隔离错误处理方式之后，可以进一步的通过内存打开功能(例如RANK_SPARE)强制打开服务器上可以使用或未出现可纠正内存错误的内存单元，使该内存单元作为闲置内存单元备用。所以，之后当服务器确定了问题内存单元后，即可将问题内存单元上的数据迁移到备用的闲置内存单元中，以便保证问题内存单元上有用数据的安全存储，避免服务器因问题内存单元出现问题造成数据流失或损坏，提高了服务器的运行可靠性。

S402，将迁移后的问题内存单元进行隔离。

具体地，当服务器将问题内存单元上的数据进行迁移后，即可将该问题内存单元进行隔离，以防止该问题内存单元影响其他内存单元的正常运作。

可选地，服务器在将迁移后的问题内存单元进行隔离之后，还可以对隔离后的问题内存单元进行标识并展示。例如，服务器可以将隔离后的内存单元标红或标注已隔离字样，并展示在显示屏上告知用户哪些问题内存单元已被隔离处理，让用户清楚的了解到服务器对可纠正内存错误处理的过程。

在一个实施例中，本申请还提供了上述S103的具体实现方式，上述S103中的“展示内存错误信息”，包括：在服务器的显示屏幕上显示内存错误信息，并控制服务器上的内存告警灯亮起。

其中，内存告警灯可以安装在服务器的前面板上；内存告警灯也可以是服务器上的应用程序界面上显示的告警灯，此处不限定。具体地，当服务器监测到可纠正内存错误并确定目标错误处理方式为汇报错误方式后，即可控制内存告警灯亮起，表示此时服务器的内存单元上出现了可纠正内存错误，以及显示屏上已展示出内存错误信息，以告知用户可以在服务器上的显示屏幕上查看内存错误信息，起到了警示和通知查看错误信息的作用。

在实际应用中，服务器上除了安装有内存告警灯，还安装有隔离按键，用于根据用户需求隔离内存单元。因此，本申请提供的内存错误处理方法，如图6所示，还包括：

S501，在检测到服务器上的隔离按键被触发时，检测内存告警灯是否亮起，若内存告警灯亮起，则执行步骤S502，若内存告警灯未亮起，则执行步骤S503。

其中，隔离按键可以安装在服务器的前面板上；隔离按键也可以是服务器上的应用程序界面上显示的隔离按键，此处不限定。具体地，服务器在检测到隔离按键被触发时，说明有用户介入辅助服务器进行内存错误处理，也可以说，服务器也可以通过用户介入的方式对有问题的内存单元进行隔离处理。在此过程中，当服务器检测到隔离按键被触发时，可以进一步的检测内存告警灯是否亮起，因为若内存告警灯亮起，说明服务器中有内存单元出现可纠正内存错误，且出现的可纠正内存错误的数量已经达到了需要被隔离处理的数量，此时若服务器没有自动对出现问题的内存单元进行隔离处理，那么就需要通过用户触发隔离按键强制对该内存单元进行隔离处理，以提高服务器的运行可靠性。若内存告警灯未亮起，说明此时有可能隔离按键是被误操作，服务器中还没出现需要被隔离的内存单元。

S502，对可纠正内存错误所在的内存单元进行隔离处理，以及关闭内存告警灯。

本实施例涉及的是服务器检测到隔离按键被触发，同时内存告警灯亮起的应用场景，在此应用场景下，服务器可以调用隔离错误处理方式的中断程序对可纠正内存错误所在的内存单元进行隔离处理，处理之后关闭内存告警灯，表示已处理完成。需要说明的是，在此应用场景下，服务器可以返回执行上述任何一种实施例所述的采用隔离错误处理方式对可纠正内存错误进行处理。

S503，继续检测内存告警灯是否亮起。

本实施例涉及的是服务器检测到隔离按键被触发，同时内存告警灯未亮起的应用场景，在此应用场景下，服务器继续检测内存告警灯是否亮起，以及时发现出现问题的内存单元并进行隔离处理。

在一个实施例中，提供了上述S103的一种实现方式，如图7所示，上述S103中的“展示内存错误信息”包括：

S601，检查内存错误信息中是否存在无效错误信息，若存在，则执行步骤S602，若不存在，则执行步骤S603；无效错误信息为距离当前时间之前预设时间段内服务器监测到的内存错误信息。

其中，预设时间段可以由服务器预先根据实际应用需求确定，例如，无效错误信息可以是距离当前时间之前12小时内服务器监测到的内存错误信息，或者无效错误信息可以是距离当前时间之前24小时内服务器监测到的内存错误信息。具体地，当服务器在将内存错误信息上报之前，可以先检查内存错误信息中是否存在无效错误信息，因为无效错误信息发生的时间距离当前时间比较远，所以对无效错误信息进行处理是没必要的，因此服务器之后可以不对无效错误信息进行处理。

S602，将无效错误信息删除，并展示删除后的内存错误信息。

本实施例涉及的是内存错误信息中包含无效错误信息的应用场景，在此场景下，服务器直接将无效错误信息从内存错误信息中删除，进而之后仅展示有效的内存错误信息，即删除后的内存错误信息。

S603，展示内存错误信息。

本实施例涉及内存错误信息中不包含无效错误信息的应用场景，在此场景下，服务器直接展示内存错误信息。

上述实施例实现了对内存错误信息的更新处理，使内存错误信息始终保持为最新监测到的内存错误信息，避免了服务器对很久以前的内存错误信息进行不必要的处理造成的资源浪费问题。

综合上述所有实施例，本申请还提供了一种内存错误处理方法，如图8所示，该方法包括：

S701，服务器获取用户选择指令。

S702，在监测到服务器发生可纠正内存错误的情况下，服务器获取可纠正内存错误所在的内存单元和发生时间。

S703，根据可纠正内存错误所在的内存单元，统计每个内存单元中发生可纠正内存错误的数量。

S704，根据每个内存单元的位置、每个内存单元中发生可纠正内存错误的数量和每个可纠正内存错误的发生时间，生成内存错误信息。

S705，服务器根据用户选择指令确定目标错误处理方式，若目标错误处理方式为汇报错误方式，则执行步骤S706，若目标错误处理方式为隔离错误方式，则执行步骤S709-S713。

S706，检查内存错误信息中是否存在无效错误信息；若存在，则执行步骤S707，若不存在，则执行步骤S708。

S707，将无效错误信息删除，并在服务器的显示屏幕上显示删除后的内存错误信息，同时控制服务器上的内存告警灯亮起。

S708，在所述服务器的显示屏幕上显示内存错误信息，并控制服务器上的内存告警灯亮起。

S709，判断各内存单元上发生可纠正内存错误的数量是否大于预设的隔离数量阈值。

S710，将发生内存错误的数量大于隔离数量阈值的内存单元确定为问题内存单元。

S711，将问题内存单元中的数据迁移到闲置内存单元中。

S712，将迁移后的问题内存单元进行隔离。

S713，对隔离后的问题内存单元进行标识并展示。

S714，检测服务器上的隔离按键是否被触发，在检测到服务器上的隔离按键被触发时，检测内存告警灯是否亮起，若亮起，则执行步骤S715，若未亮起，则执行步骤S716。

S715，返回执行步骤S709-S713，对可纠正内存错误所在的内存单元进行隔离处理，以及关闭内存告警灯。

S716，继续检测内存告警灯是否亮起。

上述各步骤的说明在前述内容中都有体现，详细内容请参见前述说明，此处不赘述。

需要说明的是，本申请提供的上述内存错误处理方法还可以适用于如图9所示的应用环境，其中，服务器中的基本输入输出系统(Basic Input Output System,BIOS)和基板管理控制器(Baseboard Management Controller，BMC)进行数据交互实现上述内存错误处理方法。具体的，BIOS可以执行上述S701-S716中的任一步骤，其中具体在展示内存错误信息时，BIOS可以将分类汇总后的内存错误信息传递给BMC，BMC将内存错误信息展示在显示屏幕上。另一方面，BIOS在获取到内存错误信息后保存内存错误信息时，可以将内存错误信息传递给BMC，让BMC保存内存错误信息作为备份，以防止BIOS上的内存错误信息损坏导致无法正常处理可纠正内存错误。BIOS与BMC之间也可以同步更新保存的内存错误信息，以使BIOS与BMC上保存的内存错误信息始终是最新的，并保持同步。

应该理解的是，虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种内存错误处理装置，包括：分类汇总模块11、获取模块12、展示模块13和隔离模块14，其中：

分类汇总模块11，用于在监测到服务器发生可纠正内存错误的情况下，对所述可纠正内存错误进行分类汇总，得到内存错误信息。

获取模块12，用于获取所述服务器的目标错误处理方式；所述目标错误处理方式为所述服务器启动时根据用户选择指令确定的错误处理方式。

展示模块13，用于在所述目标错误处理方式为汇报错误方式的情况下，展示所述内存错误信息；

隔离模块14，用于在所述目标错误处理方式为隔离错误方式的情况下，则对所述可纠正内存错误所在的内存单元进行隔离处理。

在一个实施例中，所述内存错误信息包括内存单元的位置、所述内存单元中发生可纠正内存错误的数量和所述可纠正内存错误的发生时间。

在一个实施例中，上述分类汇总模块11，如图11所示，包括：

获取单元111，用于在监测到所述服务器发生可纠正内存错误的情况下，获取所述可纠正内存错误所在的内存单元和发生时间；

统计单元112，用于根据所述可纠正内存错误所在的内存单元，统计每个所述内存单元中发生可纠正内存错误的数量；

生成单元113，根据每个所述内存单元的位置、所述每个所述内存单元中发生可纠正内存错误的数量和每个可纠正内存错误的发生时间，生成所述内存错误信息。

在一个实施例中，上述隔离模块14，如图12所示，包括：

判断单元141，用于判断各所述内存单元上发生可纠正内存错误的数量是否大于预设的隔离数量阈值；

确定单元142，用于将发生内存错误的数量大于所述隔离数量阈值的内存单元确定为问题内存单元，并对所述问题内存单元进行隔离处理。

在一个实施例中，上述确定单元142具体用于将所述问题内存单元中的数据迁移到闲置内存单元中；所述闲置内存单元为所述服务器在确定所述目标错误处理方式为所述隔离错误方式之后预留的内存单元；将迁移后的问题内存单元进行隔离。

在一个实施例中，上述确定单元142具体还用于将迁移后的问题内存单元进行隔离之后对隔离后的问题内存单元进行标识并展示。

在一个实施例中，上述展示模块13具体用于在所述服务器的显示屏幕上显示所述内存错误信息，并控制所述服务器上的内存告警灯亮起。

在一个实施例中，上述内存错误处理装置，如图13所示，还包括：

第一检测模块15，用于在检测到所述服务器上的隔离按键被触发时，检测所述内存告警灯是否亮起；

处理模块16，用于在所述内存告警灯亮起的情况下，对所述可纠正内存错误所在的内存单元进行隔离处理，以及关闭所述内存告警灯；

第二检测模块17，用于在所述内存告警灯未亮起的情况下，继续检测所述内存告警灯是否亮起。

在一个实施例中，上述展示模块13，如图14所示，包括：

检查单元131，用于检查所述内存错误信息中是否存在无效错误信息；所述无效错误信息为距离当前时间之前预设时间段内服务器监测到的内存错误信息；

删除单元132，用于在所述内存错误信息中存在无效错误信息的情况下，将所述无效错误信息删除，并展示删除后的内存错误信息。

关于内存错误处理装置的具体限定可以参见上文中对于内存错误处理方法的限定，在此不再赘述。上述内存错误处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种内存错误处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述内存错误信息包括内存单元的位置、所述内存单元中发生可纠正内存错误的数量和所述可纠正内存错误的发生时间。

3.根据权利要求2所述的方法，其特征在于，所述在监测到服务器发生可纠正内存错误的情况下，对所述可纠正内存错误进行分类汇总，得到内存错误信息，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对所述可纠正内存错误所在的内存单元进行隔离处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述问题内存单元进行隔离处理，包括：

将所述问题内存单元中的数据迁移到闲置内存单元中；所述闲置内存单元为所述服务器在确定所述目标错误处理方式为所述隔离错误方式之后预留的内存单元；

将迁移后的问题内存单元进行隔离。

6.根据权利要求5所述的方法，其特征在于，所述将迁移后的问题内存单元进行隔离之后，所述方法还包括：

对隔离后的问题内存单元进行标识并展示。

7.根据权利要求1所述的方法，其特征在于，所述展示所述内存错误信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。