CN103514068A

CN103514068A - 内存故障自动定位方法

Info

Publication number: CN103514068A
Application number: CN201210224405.4A
Authority: CN
Inventors: 王雁鹏; 曹瑞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-06-28
Filing date: 2012-06-28
Publication date: 2014-01-15

Abstract

本发明提出一种内存故障自动定位方法，包括如下步骤：读取机器检查架构MCA寄存器的值，并对寄存器的值进行解析以获取内存故障信息，其中，内存故障信息包括内存故障类型以及所述内存故障类型对应的故障次数；将每种所述内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较；对故障次数超过对应的所述故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。本发明可以对服务器的内存故障进行定位，并且针对内存出现故障的种类对其进行修复。

Description

内存故障自动定位方法

技术领域

本发明涉及服务器维护技术领域，特别涉及一种内存故障自动定位方法。

背景技术

在数据中心中，服务器的数量非常庞大，而且在每台机器中存在多根内存。如果内存条出现故障，则需要确定哪个内存条出了问题。在服务器内存故障定位方面，带外内存监控已经成为了大多数企业依赖的手段，服务器生产商往往通过BMC（Baseboard Management Controller，基板管理控制器）+传感器（sensor）的方法向用户提供服务器硬件的健康状态。其中内存的故障由BIOS（Basic Input Output System，基本输入输出系统）支持的SMI（structure of management information，管理信息结构）截取，并将信息存储于BMC系统的Sensor中，用户可以通过IPMI（IntelligentPlatform Management Interface，智能型平台管理接口）管理接口读取上述Sensor的值，从而获得内存的健康状态。

现有的带外内存监控存在以下缺点：

第一，绝大部分机器型号不支持精确的内存监控，因此，使用带外内存监控要受到厂商和服务器型号的限制。

第二，带外内存监控的报警机制往往不符合企业实际的需求。厂商在确定报警阈值时，通常采用的是从各个客户单位调研来的结果的综合值，并且不能动态调整。但是，这个值不能完全的适应每一个企业的需要。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别提出一种内存故障自动定位方法，该方法可以对服务器中的故障内存条的位置进行定位。

为达到上述目的，本发明的实施例提供了一种内存故障自动定位方法，包括如下步骤：

读取机器检查架构MCA寄存器的值，并对所述寄存器的值进行解析以获取内存故障信息，其中，所述内存故障信息包括内存故障类型以及所述内存故障类型对应的故障次数；

将每种所述内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较；以及

对所述故障次数超过对应的所述故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。

根据本发明实施例的内存故障自动定位方法，可以对服务器中发生故障的内存进行精确地定位，并且针对内存出现故障的种类对其进行有效的修复。在确定内存条的位置之后，如果错误的规模不是很大，可以通过修复手段进行修复，而无需更换故障内存条，降低了内存的更换率，从而节省了企业的运营成本。本发明可以实现对内存自动的修复，从而减少因停机对企业服务的影响，并降低因停机为企业带来的潜在风险。

在本发明的一个实施例中，所述内存故障类型包括：双列直插式存储模块DIMM故障和页面Page故障。

在本发明的一个实施例中，所述DIMM故障包括：可纠正故障和不可纠正故障。

在本发明的一个实施例中，当所述内存故障类型为所述可纠正故障时，在所述可纠正故障的故障次数超过预设的可纠正故障次数阈值时，发出故障报警信号。

在本发明的一个实施例中，当所述内存故障类型为所述不可纠正故障时，重启服务器，其中，所述重启服务器包括以下两种方式：热重启和冷重启。

在本发明的一个实施例中，当采用热重启方式重启服务器时，热重启后，读取所述MCA寄存器的值，并记录对应的不可纠正故障。

在本发明的一个实施例中，当采用冷重启方式重启服务器时，读取内存控制器的寄存器值以获取问题槽位，并发出故障报警信号。

在本发明的一个实施例中，所述获取问题槽位，包括如下步骤：读取内存控制器的寄存器值，判断相应槽位是否有内存条插入，其中，所述内存控制器的寄存器值用于指示故障槽位；将存储有良性槽位信息的内存识别信息与所述内存控制器的寄存器值进行对比；将匹配失败的槽位作为所述问题槽位。

在本发明的一个实施例中，还包括如下步骤：根据所述故障内存的逻辑位置查找所述故障内存在服务器中的物理槽位，其中，所述故障内存的逻辑位置通过下述参数进行表示：CPU号、通道号和DIMM槽。

在本发明的一个实施例中，当所述故障类型为页面Page故障时，将对应于发生故障的页面的映射修改至备用内存池的页面，其中，所述备用内存池存储有多个正常页面。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的内存故障自动定位方法的流程图；

图2为根据本发明实施例的CE故障处理机制的流程图；以及

图3为根据本发明实施例的UE故障处理机制的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外，以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例，也可以包括另外的特征形成在第一和第二特征之间的实施例，这样第一和第二特征可能不是直接接触。

在本发明的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

下面参考图1至图3描述根据本发明实施例的内存故障自动定位方法。

如图1所示，本发明实施例的内存故障自动定位方法，包括如下步骤：

步骤S101，读取MCA（Machine Check Architecture，机器检查架构）寄存器的值，并对寄存器的值进行解析以获取内存故障信息。

CPU通过MCA机制收集内存的错误记录，并将内存的错误记录暂时存储到MCA寄存器中，然后通过产生异常（称为机器检查异常）的方式把控制权交给系统。

内存故障信息包括内存故障类型以及每种内存故障类型对应的故障次数。

在本发明的一个实施例中，内存故障类型包括双列直插式DIMM故障和页面Page故障。其中，DIMM故障又包括可纠正（CE）故障和不可纠正（UE）故障。当发生CE故障时，系统不会马上受到影响。但是，当发生UE故障时，会直接破坏当前的数据。

步骤S102，将每种内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较。

步骤S103，对故障次数超过对应的故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。

当判断内存故障类型包括DIMM故障时，进一步判断DIMM故障为CE故障或UE故障。

当判断内存故障类型为可纠正故障时，且可纠正故障的故障次数超过预设的可纠正故障次数阈值时，发出故障报警信号。具体地，系统按DIMM统计出现CE故障的次数。当某一时间段内，相应DIMM出现的CE故障次数超过预设的可纠正故障次数阈值时，进行故障报警。

当判断内存故障类型为不可纠正故障时，由于UE故障会直接破坏当前的数据，需要重启服务器。

在本发明的一个实施例中，采用以下两种方式之一重启服务器：热重启（不掉电重启）和冷重启（掉电后重启）。

当采用热重启方式重启服务器后，重启后MCA寄存器的值还保持出现故障时的状态。读取MCA寄存器的值，并记录对应的不可纠正故障。

当采用冷重启方式重启服务器时，重启后MCA寄存器的值被清空，从而无法通过读取MCA寄存器记录故障，需要读取内存控制器的寄存器值以获取问题槽位，并发出故障报警信号。具体地，采用读取内存控制器的寄存器判断相应槽位是否有内存插入，然后对比Dmidecode的内存识别信息，不能匹配上的槽位作为故障报警。

首先，读取内存控制器的寄存器值，判断相应槽位是否有内存条插入。其中，内存控制器的寄存器值用于指示故障槽位。然后，将存储有良性槽位信息的Dmidecode的内存识别信息与存储有劣性槽位信息的内存控制器的寄存器值进行对比。最后，将匹配失败的槽位作为问题槽位。

MCA定位到的内存的逻辑位置，根据不同机型的内存分布关系，能够对应到内存的物理槽位，实现故障报修的功能。具体地，根据故障内存的逻辑位置查找故障内存在服务器中的物理槽位。其中，故障内存的逻辑位置可以通过以下参数进行表示：CPU号、通道号和DIMM槽。例如：物理槽位的标识符为CPU号/通道号/DIMM槽。

当故障类型为页面Page故障时，将对应于发生故障的页面的映射修改至备用内存池的页面。其中，备用内存池存储有多个正常页面。

具体地，通过对于已有的监控故障数据的分析，内存硬件发生故障的位置往往集中于一个page上，对于此种故障，本发明中提出一种屏蔽故障内存页的方案，即划分出一个备用内存池，当确认内存存在故障时，将系统所有关于此页的映射全部修改至备用内存池中的一个页，这样就屏蔽了故障内存页，同时不影响上层的操作。

下面参考图2和图3分别描述可纠正（CE）故障和不可纠正（UE）故障的处理机制。

如图2所示，CE故障处理机制，包括如下步骤：

步骤S201，启动CPU机器检查机制。

CPU通过MCA机制收集内存的错误记录，并将内存的错误记录暂时存储到MCA寄存器中

步骤S202，读取MCA寄存器的值。

步骤S203，解析寄存器的值。

通过解析MCA寄存器的值，获取内存的故障类型。

步骤S204，根据故障类型进行统计。

分别对不同的故障类型的发生次数进行统计。

步骤S205，判断故障类型的次数是否超过预设的故障次数阈值。

步骤S206，判断故障类型为DIMM故障或Page故障，如果为DIMM故障，则执行步骤S207，如果为Page故障，则执行步骤S209。

如果DIMM故障发生的故障次数超过了预设的DIMM的故障次数阈值，则判断故障类型为DIMM故障。相应的，如果Page故障发生的故障次数超过了预设的Page的故障次数阈值，则判断故障类型为Page故障。

步骤S207，进行逻辑槽位到物理槽位的映射。

根据故障内存的逻辑位置查找故障内存在服务器中的物理槽位。其中，故障内存的物理槽位的标识符为CPU号/通道号/DIMM槽。

步骤S208，更换内存。

根据定位到的故障内存的物理槽位，查找到故障内存，并对故障内存进行更换。

步骤S209，采用故障内存页屏蔽方案。

当判断故障类型为Page故障时，采用故障内存页屏蔽方案对故障内存进行修复。即，将对应于发生故障的页面的映射修改至备用内存池的页面。

如图3所示，UE故障处理机制，包括如下步骤：

步骤S301，检测内存故障。

步骤S302，解析MCA寄存器，然后执行步骤S304。

步骤S303，Dmidecode内存识别定位，然后执行步骤S306。

步骤S304，判断是否出现UE故障，如果是，则执行步骤S305，否则执行步骤S301。

步骤S305，输出UE故障，更换内存。

步骤S306，判断是否进行内存故障识别，如果是，则执行步骤S301，否则执行步骤S307。

步骤S307，输出UE故障，更换内存。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种内存故障自动定位方法，其特征在于，包括如下步骤：

对故障次数超过对应的所述故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。

2.如权利要求1所述的自动定位方法，其特征在于，所述内存故障类型包括：双列直插式存储模块DIMM故障和页面Page故障。

3.如权利要求2所述的自动定位方法，其特征在于，所述DIMM故障包括：可纠正故障和不可纠正故障。

4.如权利要求3所述的自动定位方法，其特征在于，当所述内存故障类型为所述可纠正故障时，在所述可纠正故障的故障次数超过预设的可纠正故障次数阈值时，发出故障报警信号。

5.如权利要求3所述的自动定位方法，其特征在于，当所述内存故障类型为所述不可纠正故障时，重启服务器，其中，所述重启服务器包括以下两种方式：热重启和冷重启。

6.如权利要求5所述的自动定位方法，其特征在于，当采用热重启方式重启服务器时，

热重启后，读取所述MCA寄存器的值，并记录对应的不可纠正故障。

7.如权利要求3所述的自动定位方法，其特征在于，当采用冷重启方式重启服务器时，读取内存控制器的寄存器值以获取问题槽位，并发出故障报警信号。

8.如权利要求7所述的自动定位方法，其特征在于，所述获取问题槽位，包括如下步骤：

读取内存控制器的寄存器值，判断相应槽位是否有内存条插入，其中，所述内存控制器的寄存器值用于指示故障槽位；

将存储有良性槽位信息的内存识别信息与所述内存控制器的寄存器值进行对比；

将匹配失败的槽位作为所述问题槽位。

9.如权利要求1-8中任一项所述的自动定位方法，其特征在于，还包括如下步骤：

根据所述故障内存的逻辑位置查找所述故障内存在服务器中的物理槽位，其中，所述故障内存的逻辑位置通过下述参数进行表示：CPU号、通道号和DIMM槽。

10.如权利要求2-9中任一项所述的自动定位方法，其特征在于，当所述故障类型为页面Page故障时，

将对应于发生故障的页面的映射修改至备用内存池的页面，其中，所述备用内存池存储有多个正常页面。