CN103514068A - 内存故障自动定位方法 - Google Patents

内存故障自动定位方法 Download PDF

Info

Publication number
CN103514068A
CN103514068A CN201210224405.4A CN201210224405A CN103514068A CN 103514068 A CN103514068 A CN 103514068A CN 201210224405 A CN201210224405 A CN 201210224405A CN 103514068 A CN103514068 A CN 103514068A
Authority
CN
China
Prior art keywords
memory
fault
failure
positioning method
automatic positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210224405.4A
Other languages
English (en)
Inventor
王雁鹏
曹瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210224405.4A priority Critical patent/CN103514068A/zh
Publication of CN103514068A publication Critical patent/CN103514068A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种内存故障自动定位方法,包括如下步骤:读取机器检查架构MCA寄存器的值,并对寄存器的值进行解析以获取内存故障信息,其中,内存故障信息包括内存故障类型以及所述内存故障类型对应的故障次数;将每种所述内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较;对故障次数超过对应的所述故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。本发明可以对服务器的内存故障进行定位,并且针对内存出现故障的种类对其进行修复。

Description

内存故障自动定位方法
技术领域
本发明涉及服务器维护技术领域,特别涉及一种内存故障自动定位方法。
背景技术
在数据中心中,服务器的数量非常庞大,而且在每台机器中存在多根内存。如果内存条出现故障,则需要确定哪个内存条出了问题。在服务器内存故障定位方面,带外内存监控已经成为了大多数企业依赖的手段,服务器生产商往往通过BMC(Baseboard Management Controller,基板管理控制器)+传感器(sensor)的方法向用户提供服务器硬件的健康状态。其中内存的故障由BIOS(Basic Input Output System,基本输入输出系统)支持的SMI(structure of management information,管理信息结构)截取,并将信息存储于BMC系统的Sensor中,用户可以通过IPMI(IntelligentPlatform Management Interface,智能型平台管理接口)管理接口读取上述Sensor的值,从而获得内存的健康状态。
现有的带外内存监控存在以下缺点:
第一,绝大部分机器型号不支持精确的内存监控,因此,使用带外内存监控要受到厂商和服务器型号的限制。
第二,带外内存监控的报警机制往往不符合企业实际的需求。厂商在确定报警阈值时,通常采用的是从各个客户单位调研来的结果的综合值,并且不能动态调整。但是,这个值不能完全的适应每一个企业的需要。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别提出一种内存故障自动定位方法,该方法可以对服务器中的故障内存条的位置进行定位。
为达到上述目的,本发明的实施例提供了一种内存故障自动定位方法,包括如下步骤:
读取机器检查架构MCA寄存器的值,并对所述寄存器的值进行解析以获取内存故障信息,其中,所述内存故障信息包括内存故障类型以及所述内存故障类型对应的故障次数;
将每种所述内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较;以及
对所述故障次数超过对应的所述故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。
根据本发明实施例的内存故障自动定位方法,可以对服务器中发生故障的内存进行精确地定位,并且针对内存出现故障的种类对其进行有效的修复。在确定内存条的位置之后,如果错误的规模不是很大,可以通过修复手段进行修复,而无需更换故障内存条,降低了内存的更换率,从而节省了企业的运营成本。本发明可以实现对内存自动的修复,从而减少因停机对企业服务的影响,并降低因停机为企业带来的潜在风险。
在本发明的一个实施例中,所述内存故障类型包括:双列直插式存储模块DIMM故障和页面Page故障。
在本发明的一个实施例中,所述DIMM故障包括:可纠正故障和不可纠正故障。
在本发明的一个实施例中,当所述内存故障类型为所述可纠正故障时,在所述可纠正故障的故障次数超过预设的可纠正故障次数阈值时,发出故障报警信号。
在本发明的一个实施例中,当所述内存故障类型为所述不可纠正故障时,重启服务器,其中,所述重启服务器包括以下两种方式:热重启和冷重启。
在本发明的一个实施例中,当采用热重启方式重启服务器时,热重启后,读取所述MCA寄存器的值,并记录对应的不可纠正故障。
在本发明的一个实施例中,当采用冷重启方式重启服务器时,读取内存控制器的寄存器值以获取问题槽位,并发出故障报警信号。
在本发明的一个实施例中,所述获取问题槽位,包括如下步骤:读取内存控制器的寄存器值,判断相应槽位是否有内存条插入,其中,所述内存控制器的寄存器值用于指示故障槽位;将存储有良性槽位信息的内存识别信息与所述内存控制器的寄存器值进行对比;将匹配失败的槽位作为所述问题槽位。
在本发明的一个实施例中,还包括如下步骤:根据所述故障内存的逻辑位置查找所述故障内存在服务器中的物理槽位,其中,所述故障内存的逻辑位置通过下述参数进行表示:CPU号、通道号和DIMM槽。
在本发明的一个实施例中,当所述故障类型为页面Page故障时,将对应于发生故障的页面的映射修改至备用内存池的页面,其中,所述备用内存池存储有多个正常页面。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的内存故障自动定位方法的流程图;
图2为根据本发明实施例的CE故障处理机制的流程图;以及
图3为根据本发明实施例的UE故障处理机制的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外,以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例,也可以包括另外的特征形成在第一和第二特征之间的实施例,这样第一和第二特征可能不是直接接触。
在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
下面参考图1至图3描述根据本发明实施例的内存故障自动定位方法。
如图1所示,本发明实施例的内存故障自动定位方法,包括如下步骤:
步骤S101,读取MCA(Machine Check Architecture,机器检查架构)寄存器的值,并对寄存器的值进行解析以获取内存故障信息。
CPU通过MCA机制收集内存的错误记录,并将内存的错误记录暂时存储到MCA寄存器中,然后通过产生异常(称为机器检查异常)的方式把控制权交给系统。
内存故障信息包括内存故障类型以及每种内存故障类型对应的故障次数。
在本发明的一个实施例中,内存故障类型包括双列直插式DIMM故障和页面Page故障。其中,DIMM故障又包括可纠正(CE)故障和不可纠正(UE)故障。当发生CE故障时,系统不会马上受到影响。但是,当发生UE故障时,会直接破坏当前的数据。
步骤S102,将每种内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较。
步骤S103,对故障次数超过对应的故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。
当判断内存故障类型包括DIMM故障时,进一步判断DIMM故障为CE故障或UE故障。
当判断内存故障类型为可纠正故障时,且可纠正故障的故障次数超过预设的可纠正故障次数阈值时,发出故障报警信号。具体地,系统按DIMM统计出现CE故障的次数。当某一时间段内,相应DIMM出现的CE故障次数超过预设的可纠正故障次数阈值时,进行故障报警。
当判断内存故障类型为不可纠正故障时,由于UE故障会直接破坏当前的数据,需要重启服务器。
在本发明的一个实施例中,采用以下两种方式之一重启服务器:热重启(不掉电重启)和冷重启(掉电后重启)。
当采用热重启方式重启服务器后,重启后MCA寄存器的值还保持出现故障时的状态。读取MCA寄存器的值,并记录对应的不可纠正故障。
当采用冷重启方式重启服务器时,重启后MCA寄存器的值被清空,从而无法通过读取MCA寄存器记录故障,需要读取内存控制器的寄存器值以获取问题槽位,并发出故障报警信号。具体地,采用读取内存控制器的寄存器判断相应槽位是否有内存插入,然后对比Dmidecode的内存识别信息,不能匹配上的槽位作为故障报警。
首先,读取内存控制器的寄存器值,判断相应槽位是否有内存条插入。其中,内存控制器的寄存器值用于指示故障槽位。然后,将存储有良性槽位信息的Dmidecode的内存识别信息与存储有劣性槽位信息的内存控制器的寄存器值进行对比。最后,将匹配失败的槽位作为问题槽位。
MCA定位到的内存的逻辑位置,根据不同机型的内存分布关系,能够对应到内存的物理槽位,实现故障报修的功能。具体地,根据故障内存的逻辑位置查找故障内存在服务器中的物理槽位。其中,故障内存的逻辑位置可以通过以下参数进行表示:CPU号、通道号和DIMM槽。例如:物理槽位的标识符为CPU号/通道号/DIMM槽。
当故障类型为页面Page故障时,将对应于发生故障的页面的映射修改至备用内存池的页面。其中,备用内存池存储有多个正常页面。
具体地,通过对于已有的监控故障数据的分析,内存硬件发生故障的位置往往集中于一个page上,对于此种故障,本发明中提出一种屏蔽故障内存页的方案,即划分出一个备用内存池,当确认内存存在故障时,将系统所有关于此页的映射全部修改至备用内存池中的一个页,这样就屏蔽了故障内存页,同时不影响上层的操作。
下面参考图2和图3分别描述可纠正(CE)故障和不可纠正(UE)故障的处理机制。
如图2所示,CE故障处理机制,包括如下步骤:
步骤S201,启动CPU机器检查机制。
CPU通过MCA机制收集内存的错误记录,并将内存的错误记录暂时存储到MCA寄存器中
步骤S202,读取MCA寄存器的值。
步骤S203,解析寄存器的值。
通过解析MCA寄存器的值,获取内存的故障类型。
步骤S204,根据故障类型进行统计。
分别对不同的故障类型的发生次数进行统计。
步骤S205,判断故障类型的次数是否超过预设的故障次数阈值。
步骤S206,判断故障类型为DIMM故障或Page故障,如果为DIMM故障,则执行步骤S207,如果为Page故障,则执行步骤S209。
如果DIMM故障发生的故障次数超过了预设的DIMM的故障次数阈值,则判断故障类型为DIMM故障。相应的,如果Page故障发生的故障次数超过了预设的Page的故障次数阈值,则判断故障类型为Page故障。
步骤S207,进行逻辑槽位到物理槽位的映射。
根据故障内存的逻辑位置查找故障内存在服务器中的物理槽位。其中,故障内存的物理槽位的标识符为CPU号/通道号/DIMM槽。
步骤S208,更换内存。
根据定位到的故障内存的物理槽位,查找到故障内存,并对故障内存进行更换。
步骤S209,采用故障内存页屏蔽方案。
当判断故障类型为Page故障时,采用故障内存页屏蔽方案对故障内存进行修复。即,将对应于发生故障的页面的映射修改至备用内存池的页面。
如图3所示,UE故障处理机制,包括如下步骤:
步骤S301,检测内存故障。
步骤S302,解析MCA寄存器,然后执行步骤S304。
步骤S303,Dmidecode内存识别定位,然后执行步骤S306。
步骤S304,判断是否出现UE故障,如果是,则执行步骤S305,否则执行步骤S301。
步骤S305,输出UE故障,更换内存。
步骤S306,判断是否进行内存故障识别,如果是,则执行步骤S301,否则执行步骤S307。
步骤S307,输出UE故障,更换内存。
根据本发明实施例的内存故障自动定位方法,可以对服务器中发生故障的内存进行精确地定位,并且针对内存出现故障的种类对其进行有效的修复。在确定内存条的位置之后,如果错误的规模不是很大,可以通过修复手段进行修复,而无需更换故障内存条,降低了内存的更换率,从而节省了企业的运营成本。本发明可以实现对内存自动的修复,从而减少因停机对企业服务的影响,并降低因停机为企业带来的潜在风险。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (10)

1.一种内存故障自动定位方法,其特征在于,包括如下步骤:
读取机器检查架构MCA寄存器的值,并对所述寄存器的值进行解析以获取内存故障信息,其中,所述内存故障信息包括内存故障类型以及所述内存故障类型对应的故障次数;
将每种所述内存故障类型对应的故障次数分别与预设的对应故障次数阈值进行比较;以及
对故障次数超过对应的所述故障次数阈值的内存故障进行定位以获取故障内存的逻辑位置。
2.如权利要求1所述的自动定位方法,其特征在于,所述内存故障类型包括:双列直插式存储模块DIMM故障和页面Page故障。
3.如权利要求2所述的自动定位方法,其特征在于,所述DIMM故障包括:可纠正故障和不可纠正故障。
4.如权利要求3所述的自动定位方法,其特征在于,当所述内存故障类型为所述可纠正故障时,在所述可纠正故障的故障次数超过预设的可纠正故障次数阈值时,发出故障报警信号。
5.如权利要求3所述的自动定位方法,其特征在于,当所述内存故障类型为所述不可纠正故障时,重启服务器,其中,所述重启服务器包括以下两种方式:热重启和冷重启。
6.如权利要求5所述的自动定位方法,其特征在于,当采用热重启方式重启服务器时,
热重启后,读取所述MCA寄存器的值,并记录对应的不可纠正故障。
7.如权利要求3所述的自动定位方法,其特征在于,当采用冷重启方式重启服务器时,读取内存控制器的寄存器值以获取问题槽位,并发出故障报警信号。
8.如权利要求7所述的自动定位方法,其特征在于,所述获取问题槽位,包括如下步骤:
读取内存控制器的寄存器值,判断相应槽位是否有内存条插入,其中,所述内存控制器的寄存器值用于指示故障槽位;
将存储有良性槽位信息的内存识别信息与所述内存控制器的寄存器值进行对比;
将匹配失败的槽位作为所述问题槽位。
9.如权利要求1-8中任一项所述的自动定位方法,其特征在于,还包括如下步骤:
根据所述故障内存的逻辑位置查找所述故障内存在服务器中的物理槽位,其中,所述故障内存的逻辑位置通过下述参数进行表示:CPU号、通道号和DIMM槽。
10.如权利要求2-9中任一项所述的自动定位方法,其特征在于,当所述故障类型为页面Page故障时,
将对应于发生故障的页面的映射修改至备用内存池的页面,其中,所述备用内存池存储有多个正常页面。
CN201210224405.4A 2012-06-28 2012-06-28 内存故障自动定位方法 Pending CN103514068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210224405.4A CN103514068A (zh) 2012-06-28 2012-06-28 内存故障自动定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210224405.4A CN103514068A (zh) 2012-06-28 2012-06-28 内存故障自动定位方法

Publications (1)

Publication Number Publication Date
CN103514068A true CN103514068A (zh) 2014-01-15

Family

ID=49896831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210224405.4A Pending CN103514068A (zh) 2012-06-28 2012-06-28 内存故障自动定位方法

Country Status (1)

Country Link
CN (1) CN103514068A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536437A (zh) * 2014-12-25 2015-04-22 重庆恒通电动客车动力系统有限公司 用于新能源汽车的大数据远程容错报警方法
CN105095032A (zh) * 2015-08-14 2015-11-25 浪潮电子信息产业股份有限公司 一种快速定位故障内存条的检测装置和方法
CN105204968A (zh) * 2015-11-10 2015-12-30 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105824730A (zh) * 2016-03-16 2016-08-03 北京珠穆朗玛移动通信有限公司 一种硬件诊断修复方法及装置
CN105975377A (zh) * 2016-04-29 2016-09-28 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN106126368A (zh) * 2016-08-22 2016-11-16 浪潮电子信息产业股份有限公司 一种linux下内存故障地址解析的方法
CN106357774A (zh) * 2016-09-22 2017-01-25 深圳市金立通信设备有限公司 一种信息推送方法及网络设备
CN106469109A (zh) * 2015-08-15 2017-03-01 昆达电脑科技(昆山)有限公司 Dimm故障及时告知系统及其方法
CN107066361A (zh) * 2017-04-17 2017-08-18 南京百敖软件有限公司 一种利用bmc禁用坏损内存的方法和装置
CN107357671A (zh) * 2014-06-24 2017-11-17 华为技术有限公司 一种故障处理方法、相关装置及计算机
CN107580215A (zh) * 2017-09-25 2018-01-12 深圳市九洲电器有限公司 机顶盒元器件质量反馈方法及系统
CN108021486A (zh) * 2017-11-21 2018-05-11 平安科技(深圳)有限公司 电子装置、征信数据处理的方法及存储介质
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109101354A (zh) * 2017-06-20 2018-12-28 深圳中电长城信息安全系统有限公司 一种故障信息的监测方法及其装置
CN109117296A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN109979164A (zh) * 2017-12-28 2019-07-05 北京元正数据科技有限公司 一种智能井盖的监测方法及装置
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN110532160A (zh) * 2019-09-03 2019-12-03 深圳市智微智能科技开发有限公司 一种bmc记录服务器系统热重启事件的方法
CN110631177A (zh) * 2018-06-25 2019-12-31 青岛海尔空调器有限总公司 用于空调系统的更新方法及装置
CN110631176A (zh) * 2018-06-25 2019-12-31 青岛海尔空调器有限总公司 用于空调系统的更新方法及装置
CN111104283A (zh) * 2019-11-29 2020-05-05 浪潮电子信息产业股份有限公司 一种分布式存储系统的故障检测方法、装置、设备及介质
CN111143134A (zh) * 2019-12-30 2020-05-12 深圳Tcl新技术有限公司 故障处理方法、设备及计算机存储介质
CN111930553A (zh) * 2020-07-15 2020-11-13 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN112988442A (zh) * 2021-03-05 2021-06-18 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
CN113485859A (zh) * 2021-06-23 2021-10-08 珠海格力电器股份有限公司 故障定位方法、装置、电子设备和计算机可读存储介质
CN113535509A (zh) * 2021-06-10 2021-10-22 中国长城科技集团股份有限公司 内存条异常检测方法、装置及bmc
WO2021253708A1 (zh) * 2020-06-20 2021-12-23 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
CN114356984A (zh) * 2021-12-24 2022-04-15 海光信息技术股份有限公司 标记存储器的风险状态的方法、装置、设备及存储介质
CN115373964A (zh) * 2022-10-24 2022-11-22 北京智芯微电子科技有限公司 内存越界检测方法、装置、设备及介质
CN115686901A (zh) * 2022-10-25 2023-02-03 超聚变数字技术有限公司 内存故障分析方法及计算机设备
CN117407207A (zh) * 2023-12-13 2024-01-16 苏州元脑智能科技有限公司 一种内存故障处理方法、装置、电子设备及存储介质
CN111143134B (zh) * 2019-12-30 2024-06-04 深圳Tcl新技术有限公司 故障处理方法、设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
CN1786929A (zh) * 2004-12-09 2006-06-14 国际商业机器公司 用于识别局部损坏存储器的自测试方法和装置
CN101008910A (zh) * 2006-01-23 2007-08-01 国际商业机器公司 预测存储设备故障的装置、系统和方法
CN101599046A (zh) * 2009-06-26 2009-12-09 深圳市茁壮网络股份有限公司 一种内存检测方法及装置
US7934076B2 (en) * 2004-09-30 2011-04-26 Intel Corporation System and method for limiting exposure of hardware failure information for a secured execution environment
CN102369513A (zh) * 2011-08-31 2012-03-07 华为技术有限公司 提高计算机系统稳定性的方法及计算机系统
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
US7934076B2 (en) * 2004-09-30 2011-04-26 Intel Corporation System and method for limiting exposure of hardware failure information for a secured execution environment
CN1786929A (zh) * 2004-12-09 2006-06-14 国际商业机器公司 用于识别局部损坏存储器的自测试方法和装置
CN101008910A (zh) * 2006-01-23 2007-08-01 国际商业机器公司 预测存储设备故障的装置、系统和方法
CN101599046A (zh) * 2009-06-26 2009-12-09 深圳市茁壮网络股份有限公司 一种内存检测方法及装置
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102369513A (zh) * 2011-08-31 2012-03-07 华为技术有限公司 提高计算机系统稳定性的方法及计算机系统

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11360842B2 (en) 2014-06-24 2022-06-14 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer
CN107357671A (zh) * 2014-06-24 2017-11-17 华为技术有限公司 一种故障处理方法、相关装置及计算机
CN104536437A (zh) * 2014-12-25 2015-04-22 重庆恒通电动客车动力系统有限公司 用于新能源汽车的大数据远程容错报警方法
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105808394B (zh) * 2014-12-31 2020-09-04 南京中兴新软件有限责任公司 一种服务器自愈的方法和装置
CN105095032A (zh) * 2015-08-14 2015-11-25 浪潮电子信息产业股份有限公司 一种快速定位故障内存条的检测装置和方法
CN106469109A (zh) * 2015-08-15 2017-03-01 昆达电脑科技(昆山)有限公司 Dimm故障及时告知系统及其方法
CN105204968A (zh) * 2015-11-10 2015-12-30 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN105204968B (zh) * 2015-11-10 2019-05-10 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN105824730A (zh) * 2016-03-16 2016-08-03 北京珠穆朗玛移动通信有限公司 一种硬件诊断修复方法及装置
CN105975377A (zh) * 2016-04-29 2016-09-28 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN105975377B (zh) * 2016-04-29 2018-05-25 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN106126368A (zh) * 2016-08-22 2016-11-16 浪潮电子信息产业股份有限公司 一种linux下内存故障地址解析的方法
CN106357774A (zh) * 2016-09-22 2017-01-25 深圳市金立通信设备有限公司 一种信息推送方法及网络设备
CN107066361A (zh) * 2017-04-17 2017-08-18 南京百敖软件有限公司 一种利用bmc禁用坏损内存的方法和装置
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109101354A (zh) * 2017-06-20 2018-12-28 深圳中电长城信息安全系统有限公司 一种故障信息的监测方法及其装置
WO2019056860A1 (zh) * 2017-09-25 2019-03-28 深圳市九洲电器有限公司 机顶盒元器件质量反馈方法及系统
CN107580215A (zh) * 2017-09-25 2018-01-12 深圳市九洲电器有限公司 机顶盒元器件质量反馈方法及系统
CN108021486A (zh) * 2017-11-21 2018-05-11 平安科技(深圳)有限公司 电子装置、征信数据处理的方法及存储介质
CN109979164A (zh) * 2017-12-28 2019-07-05 北京元正数据科技有限公司 一种智能井盖的监测方法及装置
CN110631177A (zh) * 2018-06-25 2019-12-31 青岛海尔空调器有限总公司 用于空调系统的更新方法及装置
CN110631176A (zh) * 2018-06-25 2019-12-31 青岛海尔空调器有限总公司 用于空调系统的更新方法及装置
CN110631176B (zh) * 2018-06-25 2021-07-30 重庆海尔空调器有限公司 用于空调系统的更新方法及装置
CN110631177B (zh) * 2018-06-25 2021-11-23 青岛海尔空调器有限总公司 用于空调系统的更新方法及装置
CN109117296A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN109117296B (zh) * 2018-07-26 2021-10-22 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN110532160A (zh) * 2019-09-03 2019-12-03 深圳市智微智能科技开发有限公司 一种bmc记录服务器系统热重启事件的方法
CN111104283A (zh) * 2019-11-29 2020-05-05 浪潮电子信息产业股份有限公司 一种分布式存储系统的故障检测方法、装置、设备及介质
CN111104283B (zh) * 2019-11-29 2022-04-22 浪潮电子信息产业股份有限公司 一种分布式存储系统的故障检测方法、装置、设备及介质
CN111143134B (zh) * 2019-12-30 2024-06-04 深圳Tcl新技术有限公司 故障处理方法、设备及计算机存储介质
CN111143134A (zh) * 2019-12-30 2020-05-12 深圳Tcl新技术有限公司 故障处理方法、设备及计算机存储介质
EP3979079A4 (en) * 2020-06-20 2023-02-08 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR TREATMENT OF MEMORY DEFECTS, DEVICE AND STORAGE MEDIA
WO2021253708A1 (zh) * 2020-06-20 2021-12-23 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
CN111930553A (zh) * 2020-07-15 2020-11-13 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN111930553B (zh) * 2020-07-15 2022-05-20 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN112988442A (zh) * 2021-03-05 2021-06-18 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN112988442B (zh) * 2021-03-05 2023-03-24 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
CN113535509A (zh) * 2021-06-10 2021-10-22 中国长城科技集团股份有限公司 内存条异常检测方法、装置及bmc
CN113485859A (zh) * 2021-06-23 2021-10-08 珠海格力电器股份有限公司 故障定位方法、装置、电子设备和计算机可读存储介质
CN114356984A (zh) * 2021-12-24 2022-04-15 海光信息技术股份有限公司 标记存储器的风险状态的方法、装置、设备及存储介质
CN114356984B (zh) * 2021-12-24 2024-01-23 海光信息技术股份有限公司 标记存储器的风险状态的方法、装置、设备及存储介质
CN115373964A (zh) * 2022-10-24 2022-11-22 北京智芯微电子科技有限公司 内存越界检测方法、装置、设备及介质
CN115373964B (zh) * 2022-10-24 2023-01-20 北京智芯微电子科技有限公司 内存越界检测方法、装置、设备及介质
CN115686901B (zh) * 2022-10-25 2023-08-04 超聚变数字技术有限公司 内存故障分析方法及计算机设备
CN115686901A (zh) * 2022-10-25 2023-02-03 超聚变数字技术有限公司 内存故障分析方法及计算机设备
CN117407207A (zh) * 2023-12-13 2024-01-16 苏州元脑智能科技有限公司 一种内存故障处理方法、装置、电子设备及存储介质
CN117407207B (zh) * 2023-12-13 2024-03-08 苏州元脑智能科技有限公司 一种内存故障处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103514068A (zh) 内存故障自动定位方法
US10761926B2 (en) Server hardware fault analysis and recovery
US8108724B2 (en) Field replaceable unit failure determination
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
TWI317868B (en) System and method to detect errors and predict potential failures
CN102591591B (zh) 磁盘检测系统、磁盘检测方法以及网络存储系统
US20120239981A1 (en) Method To Detect Firmware / Software Errors For Hardware Monitoring
US8286034B2 (en) Accurate fault status tracking of variable access sensors
US20170149925A1 (en) Processing cache data
CN111124722B (zh) 一种隔离故障内存的方法、设备及介质
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US20080282113A1 (en) Failure information management method and apparatus, failure detection method and apparatus, electronic apparatus, information processing apparatus and computer-readable storage medium
US20160110246A1 (en) Disk data management
CN103049345B (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN110704228A (zh) 一种固态硬盘异常处理方法及系统
US8161324B2 (en) Analysis result stored on a field replaceable unit
CN109992477A (zh) 用于电子设备的信息处理方法、系统以及电子设备
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN105893196A (zh) 一种服务器调试辅助工具及系统
CN109634796A (zh) 一种计算机的故障诊断方法、装置及系统
CN109491876A (zh) 一种服务器及其cpu ierr错误提示系统
CN114218001A (zh) 故障修复方法、装置、电子设备及可读存储介质
JP6096397B1 (ja) 分析システム、及び、分析方法
US12008101B2 (en) Secure enablement of a removable security module on a logic board
CN115658373B (zh) 基于服务器的内存处理方法和装置、处理器及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140115