CN116893923A - 内存报错导致宕机的问题处理方法、装置、设备及介质 - Google Patents

内存报错导致宕机的问题处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN116893923A
CN116893923A CN202310904680.9A CN202310904680A CN116893923A CN 116893923 A CN116893923 A CN 116893923A CN 202310904680 A CN202310904680 A CN 202310904680A CN 116893923 A CN116893923 A CN 116893923A
Authority
CN
China
Prior art keywords
memory
error
fault
degradation
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310904680.9A
Other languages
English (en)
Inventor
苏长文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310904680.9A priority Critical patent/CN116893923A/zh
Publication of CN116893923A publication Critical patent/CN116893923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明属于内存测试技术领域,具体提供内存报错导致宕机的问题处理方法、装置、设备及介质,所述方法包括如下步骤:检测内存错误并区分错误类型;判断错误类型是否是内存可更正错误;若是,发送故障信息给BMC,记录故障日志;否则,将当前的内存错误进行降级处理;判断降级后的内存错误的数量是否达到对应模块寄存器阈值;若是,将故障内存做物理隔离处理;否则,发送内存降级错误日志给BMC。采用故障内存隔离和故障降级相结合的方式,隔离单个故障内存,主要目的是使系统不宕机,不影响正常业务运行,但是同时可以清晰记载内存日志情况,方便运维及时处理。

Description

内存报错导致宕机的问题处理方法、装置、设备及介质
技术领域
本发明涉及内存测试技术领域,具体涉及内存报错导致宕机的问题处理方法、装置、设备及介质。
背景技术
ARM架构的芯片由于低功耗、价格便宜、扩展性强等优势,使得ARM架构芯片越来越受欢迎,在服务器领域,X86架构服务器一直处于主导地位,但是近几年由于ARM架构芯片的优势,ARM服务器占比逐渐提高,由于ARM架构服务器稳定性相比X86服务器低,ARM架构服务器可运维性逐渐受到重视,内存作为服务器的重要部件,内存的可靠性在运维中占据重要位置。
服务器在跑各种应用程序时,会与CPU、内存、硬盘等频繁进行信息交互处理,产生各种不同的压力,内存在应用过程中也不可避免的产生不可更正的错误UCE、或者灾难性故障错误IERR,BIOS将故障信息发送给BMC和OS,在相应故障日志中记录。
内存产生的不可更正错误UCE、或者灾难性故障错误IERR,不做任何处理,仅仅上报日志,虽然日志可以清晰看到当前存在的问题,但是也相应的导致系统宕机,虽然可以保持宕机现象便于分析,但是影响运营,当这些错误产生时,系统整体宕机,影响程序运行,进而客户无法访问系统,影响用户体验,造成损失。
发明内容
内存产生的不可更正错误UCE、或者灾难性故障错误IERR,不做任何处理,仅仅上报日志,虽然日志可以清晰看到当前存在的问题,但是也相应的导致系统宕机,虽然可以保持宕机现象便于分析,但是影响运营,当这些错误产生时,系统整体宕机,影响程序运行的问题,本发明提供内存报错导致宕机的问题处理方法、装置、设备及介质。
第一方面,本发明技术方案提供内存报错导致宕机的问题处理方法,包括如下步骤:
检测内存错误并区分错误类型;
判断错误类型是否是内存可更正错误;
若是,发送故障信息给BMC,记录故障日志;
否则,将当前的内存错误进行降级处理;
判断降级后的内存错误的数量是否达到对应模块寄存器阈值;
若是,将故障内存做物理隔离处理;
否则,发送内存降级错误日志给BMC。
作为本发明技术方案的优选,该方法包括:
当内存错误类型为不可更正错误时,将所述不可更正错误进行降级处理成降级后的不可更正错误;
判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值;
若否,执行步骤:发送内存降级错误日志给BMC;
若是,执行步骤:将故障内存做物理隔离处理。
作为本发明技术方案的优选,该方法还包括:
当内存错误类型为灾难性故障时,将所述灾难性故障进行降级处理成降级后的灾难性故障;
判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值;
若否,执行步骤:发送内存降级错误日志给BMC;
若是,执行步骤:将故障内存做隔离处理。
处理过程如下:检测到内存故障时,首先区分故障类型,对于可更正错误CE,不做降级处理,发送故障信息给BMC,记录故障日志,该错误类型不会引起系统宕机。当检测到内存错误类型为不可更正错误UCE时,为不引起系统宕机,需要对UCE进行降级处理,在UCE降级为D-UCE故障时,需要判断当前D-UCE数量是否达到D-UCE模块寄存器阈值A,当没有达到阈值时不会引起宕机,发送故障信息给BMC记录故障日志,当达到阈值A时,为不引起系统宕机,这时将该故障内存做物理隔离处理,即等同于没有配置该故障内存,进而不会引起宕机。当检测到内存错误类型为灾难性故障即IERR,该内存发生严重故障,将该故障降级为D-IERR,判断D-IERR故障数量是否达到D-IERR模块寄存器阈值B,当没有达到阈值B时,发送故障信息给BMC,记录故障日志,当达到阈值B时,为避免系统宕机,将该内存做隔离处理,其中D-IERR模块寄存器阈值B小于D-UCE模块寄存器阈值A,即D-IERR类型的降级数量低。
作为本发明技术方案的优选,判断错误类型是否是内存可更正错误的步骤之后包括:
设置处理内存降级错误的程序在操作系统内核中的可纠正机器检查中断代码中;
设置内存可纠正错误产生中断类型为可纠正机器检查中断;
在可纠正机器检查中断处理中设置对机器校验库的数据解析功能;
获取可纠正机器检查中断,通过处理内存降级错误的程序将内存错误进行处理;
通过可纠正机器检查中断对机器校验库的数据解析功能获得具体的故障内存地址及错误类型;
若错误类型为降级错误,执行步骤:发送内存降级错误日志给BMC;
若错误类型为内存可更正错误,执行步骤:发送故障信息给BMC,记录故障日志。
作为本发明技术方案的优选,发送内存降级错误日志给BMC的步骤之后包括:
BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
作为本发明技术方案的优选,将故障内存做隔离处理的步骤包括:
获取故障内存的内存信息;
发送内存隔离消息,所述隔离消息中携带有需要隔离的内存信息及隔离信息;
对所述内存隔离消息中的需要隔离的内存信息及隔离信息进行分析;
根据分析结果发送隔离指令,并根据所述隔离指令进行硬件配置,对所述故障内存进行隔离。
作为本发明技术方案的优选,根据内存错误信息获取故障内存的信息的步骤包括:
根据内存错误信息发送获取内存信息的指令;
响应所述获取指令,确定记录有表征内存信息的预设字符串的第一地址;
根据所述第一地址以及预设地址偏移信息生成预设地址范围;
读取存储于预设地址范围内的预设字符串;
根据所述预设字符串,确定所述获取指令针对的内存信息;
基于获取指令将确定的内存信息返回。
第二方面,本发明技术方案提供内存报错导致宕机的问题处理装置,包括检测模块、类型判断模块、发送模块、降级处理模块、数量判断模块和隔离处理模块;
检测模块,用于检测内存错误并区分错误类型;
类型判断模块,用于判断错误类型是否是内存可更正错误;
发送模块,用于发送故障信息给BMC,记录故障日志;
降级处理模块,用于将当前的内存错误进行降级处理;
数量判断模块,用于判断降级后的内存错误的数量是否达到对应模块寄存器阈值;
隔离处理模块,用于将故障内存做物理隔离处理。
作为本发明技术方案的优选,降级处理模块,用于当内存错误类型为不可更正错误时,将所述不可更正错误进行降级处理成降级后的不可更正错误;
数量判断模块,用于判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值,若否触发发送模块发送内存降级错误日志给BMC;若是出发隔离模块将故障内存做物理隔离处理。
作为本发明技术方案的优选,降级处理模块,用于当内存错误类型为灾难性故障时,将所述灾难性故障进行降级处理成降级后的灾难性故障;
数量判断模块,用于判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值若否触发发送模块发送内存降级错误日志给BMC;若是出发隔离模块将故障内存做物理隔离处理。
作为本发明技术方案的优选,该装置还包括设置检查模块,所述设置检查模块包括第一设置单元、第二设置单元、第三设置单元、处理单元和信息获取判断单元;
第一设置单元,用于设置处理内存降级错误的程序在操作系统内核中的可纠正机器检查中断代码中;
第二设置单元,用于设置内存可纠正错误产生中断类型为可纠正机器检查中断;
第三设置单元,用于在可纠正机器检查中断处理中设置对机器校验库的数据解析功能;
处理单元,用于获取可纠正机器检查中断,通过处理内存降级错误的程序将内存错误进行处理;
信息获取判断单元,用于通过可纠正机器检查中断对机器校验库的数据解析功能获得具体的故障内存地址及错误类型;若错误类型为降级错误触发发送模块发送内存降级错误日志给BMC;若错误类型为内存可更正错误,触发发送模块发送故障信息给BMC,记录故障日志。BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
作为本发明技术方案的优选,隔离处理模块包括内存信息获取单元、隔离消息发送单元、隔离消息分析单元、隔离指令发送单元和隔离处理单元;
内存信息获取单元,用于获取故障内存的内存信息;
隔离消息发送单元,用于发送内存隔离消息,所述隔离消息中携带有需要隔离的内存信息及隔离信息;
隔离消息分析单元,用于对所述内存隔离消息中的需要隔离的内存信息及隔离信息进行分析;
隔离指令发送单元,用于根据分析结果发送隔离指令;
隔离处理单元,用于根据所述隔离指令进行硬件配置,对所述故障内存进行隔离。
作为本发明技术方案的优选,内存信息获取单元包括指令发送子模块、指令响应子模块、地址范围获取子模块、字符串获取子模块和内存信息获取子模块;
指令发送子模块,用于根据内存错误信息发送获取内存信息的指令;
指令响应子模块,用于响应所述获取指令,确定记录有表征内存信息的预设字符串的第一地址;
地址范围获取子模块,用于根据所述第一地址以及预设地址偏移信息生成预设地址范围;
字符串获取子模块,用于读取存储于预设地址范围内的预设字符串;
内存信息获取子模块,用于根据所述预设字符串,确定所述获取指令针对的内存信息,并基于获取指令将确定的内存信息返回。
第三方面,本发明技术方案还提供一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的内存报错导致宕机的问题处理方法。
第四方面,本发明技术方案还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述的内存报错导致宕机的问题处理方法。
从以上技术方案可以看出,本发明具有以下优点:采用故障内存隔离和故障降级相结合的方式,隔离单个故障内存,主要目的是使系统不宕机,不影响正常业务运行,但是同时可以清晰记载内存日志情况,方便运维及时处理。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明另一个实施例的方法的示意性流程图。
图3是本发明一个实施例的装置的示意性框图。
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本申请所提供的实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。内存在产生不可更正错误UCE、或者灾难性故障错误IERR,BIOS做分级处理,采用故障内存隔离和故障降级相结合的方式,隔离单个故障内存,不影响其他内存使用,优化故障日志,主要目的是使系统不宕机,不影响正常业务运行,但是同时可以清晰记载内存日志情况,方便运维及时处理。如图1所示,本发明实施例提供内存报错导致宕机的问题处理方法,包括如下步骤:
步骤1:检测内存错误并区分错误类型;
步骤2:判断错误类型是否是内存可更正错误;
若是,执行步骤3;否则,执行步骤4;
步骤3:发送故障信息给BMC,记录故障日志;
步骤4:将当前的内存错误进行降级处理;
步骤5:判断降级后的内存错误的数量是否达到对应模块寄存器阈值;
若是,执行步骤6;否则,执行步骤7;
步骤6:将故障内存做物理隔离处理;
步骤7:发送内存降级错误日志给BMC。
内存故障形式分为:不可更正错误即UCE、内存可更正错误CE、降级后的不可更正错误D-UCE,灾难性故障即IERR,降级后的灾难性故障D-IERR。
不可更正错误即UCE、灾难性故障即IERR都可以引起系统宕机;内存可更正错误CE、降级后的不可更正错误D-UCE,降级后的灾难性故障D-IERR不会引起系统宕机,区别是:内存可更正错误CE不受数量限制,即使有无限多可更正错误CE一样不会引起系统宕机,降级后的不可更正错误D-UCE、降级后的灾难性故障D-IERR受到数量限制,当分别超过D-UCE模块寄存器、D-IERR模块寄存器一定量值后,进行故障内存物理隔离,不会引起系统宕机。
如图2所示,本发明实施例提供内存报错导致宕机的问题处理方法,包括如下步骤:
S1:检测内存错误信息;
S2:判断错误类型;
当错误类型是内存可更正错误时,执行S3;内存错误类型为不可更正错误时,执行S4;内存错误类型为灾难性故障时,执行S8;
S3:发送故障信息给BMC,记录故障日志;执行步骤S10;
S4:将所述不可更正错误进行降级处理成降级后的不可更正错误;
S5:判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值;
若否,执行S6;若是,执行步骤S7;
S6:发送内存降级错误日志给BMC;执行步骤S10;
S7:将故障内存做物理隔离处理。
S8:将所述灾难性故障进行降级处理成降级后的灾难性故障;
S9:判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值;
若否,执行S6发送内存降级错误日志给BMC;
若是,执行S7将故障内存做隔离处理。
S10:BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
处理过程如下:
BIOS检测到内存故障时,首先区分故障类型,对于可更正错误CE,不做降级处理,发送故障信息给BMC,记录故障日志,该错误类型不会引起系统宕机。当检测到内存错误类型为不可更正错误UCE时,为不引起系统宕机,需要对UCE进行降级处理,在UCE降级为D-UCE故障时,需要判断当前D-UCE数量是否达到D-UCE模块寄存器阈值A,当没有达到阈值时不会引起宕机,发送故障信息给BMC记录故障日志,当达到阈值A时,为不引起系统宕机,这时将该故障内存做物理隔离处理,即等同于没有配置该故障内存,进而不会引起宕机。当检测到内存错误类型为灾难性故障即IERR,该内存发生严重故障,将该故障降级为D-IERR,判断D-IERR故障数量是否达到D-IERR模块寄存器阈值B,当没有达到阈值B时,发送故障信息给BMC,记录故障日志,当达到阈值B时,为避免系统宕机,将该内存做隔离处理,其中D-IERR模块寄存器阈值B小于D-UCE模块寄存器阈值A,即D-IERR类型的降级数量低。
本发明实施例提供内存报错导致宕机的问题处理方法在上述实施例中,发送日志给BMC的步骤具体实现过程包括:
设置处理内存降级错误的程序在操作系统内核中的可纠正机器检查中断代码中;设置内存可纠正错误产生中断类型为可纠正机器检查中断;在可纠正机器检查中断处理中设置对机器校验库的数据解析功能;获取可纠正机器检查中断,通过处理内存降级错误的程序将内存错误进行处理;通过可纠正机器检查中断对机器校验库的数据解析功能获得具体的故障内存地址及错误类型;若错误类型为降级错误,执行步骤:发送内存降级错误日志给BMC;若错误类型为内存可更正错误,执行步骤:发送故障信息给BMC,记录故障日志。
上述实施例中具体将故障内存做隔离处理的步骤包括:
S71:获取故障内存的内存信息;
S72:发送内存隔离消息,所述隔离消息中携带有需要隔离的内存信息及隔离信息;
S73:对所述内存隔离消息中的需要隔离的内存信息及隔离信息进行分析;
S74:根据分析结果发送隔离指令,并根据所述隔离指令进行硬件配置,对所述故障内存进行隔离。
上述实施例中,根据内存错误信息获取故障内存的信息的步骤包括:
根据内存错误信息发送获取内存信息的指令;响应所述获取指令,确定记录有表征内存信息的预设字符串的第一地址;根据所述第一地址以及预设地址偏移信息生成预设地址范围;读取存储于预设地址范围内的预设字符串;根据所述预设字符串,确定所述获取指令针对的内存信息;基于获取指令将确定的内存信息返回。
内存故障形式分为:不可更正错误即UCE、内存可更正错误CE、降级后的不可更正错误D-UCE,灾难性故障即IERR,降级后的灾难性故障D-IERR。不可更正错误即UCE、灾难性故障即IERR都可以引起系统宕机内存可更正错误CE、降级后的不可更正错误D-UCE,降级后的灾难性故障D-IERR不会引起系统宕机。内存可更正错误CE不受数量限制,即使有无限多可更正错误CE一样不会引起系统宕机。降级后的不可更正错误D-UCE、降级后的灾难性故障D-IERR受到数量限制,当分别超过D-UCE模块寄存器、D-IERR模块寄存器一定量值后进行内存物理隔离,不引起系统宕机。
如图3所示,本发明技术方案提供内存报错导致宕机的问题处理装置,包括检测模块、类型判断模块、发送模块、降级处理模块、数量判断模块和隔离处理模块;
检测模块,用于检测内存错误并区分错误类型;
类型判断模块,用于判断错误类型是否是内存可更正错误;
发送模块,用于发送故障信息给BMC,记录故障日志;
降级处理模块,用于将当前的内存错误进行降级处理;用于当内存错误类型为不可更正错误时,将所述不可更正错误进行降级处理成降级后的不可更正错误;用于当内存错误类型为灾难性故障时,将所述灾难性故障进行降级处理成降级后的灾难性故障;
数量判断模块,用于判断降级后的内存错误的数量是否达到对应模块寄存器阈值;用于判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值,若否触发发送模块发送内存降级错误日志给BMC;若是出发隔离模块将故障内存做物理隔离处理。用于判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值若否触发发送模块发送内存降级错误日志给BMC;若是出发隔离模块将故障内存做物理隔离处理。
隔离处理模块,用于将故障内存做物理隔离处理。
处理过程如下:
BIOS检测到内存故障时,首先区分故障类型,对于可更正错误CE,不做降级处理,发送故障信息给BMC,记录故障日志,该错误类型不会引起系统宕机。当检测到内存错误类型为不可更正错误UCE时,为不引起系统宕机,需要对UCE进行降级处理,在UCE降级为D-UCE故障时,需要判断当前D-UCE数量是否达到D-UCE模块寄存器阈值A,当没有达到阈值时不会引起宕机,发送故障信息给BMC记录故障日志,当达到阈值A时,为不引起系统宕机,这时将该故障内存做物理隔离处理,即等同于没有配置该故障内存,进而不会引起宕机。当检测到内存错误类型为灾难性故障即IERR,该内存发生严重故障,将该故障降级为D-IERR,判断D-IERR故障数量是否达到D-IERR模块寄存器阈值B,当没有达到阈值B时,发送故障信息给BMC,记录故障日志,当达到阈值B时,为避免系统宕机,将该内存做隔离处理,其中D-IERR模块寄存器阈值B小于D-UCE模块寄存器阈值A,即D-IERR类型的降级数量低。内存在产生不可更正错误UCE、或者灾难性故障错误IERR,BIOS做分级处理,采用故障内存隔离和故障降级相结合的方式,隔离单个故障内存,主要目的是使系统不宕机,不影响正常业务运行,但是同时可以清晰记载内存日志情况,方便运维及时处理。
在有些实施例中,该装置还包括设置检查模块,所述设置检查模块包括第一设置单元、第二设置单元、第三设置单元、处理单元和信息获取判断单元;
第一设置单元,用于设置处理内存降级错误的程序在操作系统内核中的可纠正机器检查中断代码中;
第二设置单元,用于设置内存可纠正错误产生中断类型为可纠正机器检查中断;
第三设置单元,用于在可纠正机器检查中断处理中设置对机器校验库的数据解析功能;
处理单元,用于获取可纠正机器检查中断,通过处理内存降级错误的程序将内存错误进行处理;
信息获取判断单元,用于通过可纠正机器检查中断对机器校验库的数据解析功能获得具体的故障内存地址及错误类型;若错误类型为降级错误触发发送模块发送内存降级错误日志给BMC;若错误类型为内存可更正错误,触发发送模块发送故障信息给BMC,记录故障日志。BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
在有些实施例中,隔离处理模块包括内存信息获取单元、隔离消息发送单元、隔离消息分析单元、隔离指令发送单元和隔离处理单元;
内存信息获取单元,用于获取故障内存的内存信息;
隔离消息发送单元,用于发送内存隔离消息,所述隔离消息中携带有需要隔离的内存信息及隔离信息;
隔离消息分析单元,用于对所述内存隔离消息中的需要隔离的内存信息及隔离信息进行分析;
隔离指令发送单元,用于根据分析结果发送隔离指令;
隔离处理单元,用于根据所述隔离指令进行硬件配置,对所述故障内存进行隔离。
在有些实施例中,内存信息获取单元包括指令发送子模块、指令响应子模块、地址范围获取子模块、字符串获取子模块和内存信息获取子模块;
指令发送子模块,用于根据内存错误信息发送获取内存信息的指令;
指令响应子模块,用于响应所述获取指令,确定记录有表征内存信息的预设字符串的第一地址;
地址范围获取子模块,用于根据所述第一地址以及预设地址偏移信息生成预设地址范围;
字符串获取子模块,用于读取存储于预设地址范围内的预设字符串;
内存信息获取子模块,用于根据所述预设字符串,确定所述获取指令针对的内存信息,并基于获取指令将确定的内存信息返回。
如图4所示,本发明实施例还提供一种电子设备,所述电子设备包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。通信总线可以用于电子设备与传感器之间的信息传输。处理器可以调用存储器中的逻辑指令,以执行如下方法:S1:检测内存错误信息;S2:判断错误类型;当错误类型是内存可更正错误时,执行S3;内存错误类型为不可更正错误时,执行S4;内存错误类型为灾难性故障时,执行S8;S3:发送故障信息给BMC,记录故障日志;执行步骤S10;
S4:将所述不可更正错误进行降级处理成降级后的不可更正错误;S5:判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值;若否,执行S6;若是,执行步骤S7;S6:发送内存降级错误日志给BMC;执行步骤S10;S7:将故障内存做物理隔离处理。S8:将所述灾难性故障进行降级处理成降级后的灾难性故障;S9:判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值;若否,执行S6发送内存降级错误日志给BMC;若是,执行S7将故障内存做隔离处理。S10:BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述方法实施例所提供的方法,例如包括:S1:检测内存错误信息;S2:判断错误类型;当错误类型是内存可更正错误时,执行S3;内存错误类型为不可更正错误时,执行S4;内存错误类型为灾难性故障时,执行S8;S3:发送故障信息给BMC,记录故障日志;执行步骤S10;S4:将所述不可更正错误进行降级处理成降级后的不可更正错误;S5:判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值;若否,执行S6;若是,执行步骤S7;S6:发送内存降级错误日志给BMC;执行步骤S10;S7:将故障内存做物理隔离处理。S8:将所述灾难性故障进行降级处理成降级后的灾难性故障;S9:判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值;若否,执行S6发送内存降级错误日志给BMC;若是,执行S7将故障内存做隔离处理。S10:BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
作为本发明的内存报错导致宕机的问题处理方法、装置、设备及介质是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.内存报错导致宕机的问题处理方法,其特征在于,包括如下步骤:
检测内存错误并区分错误类型;
判断错误类型是否是内存可更正错误;
若是,发送故障信息给BMC,记录故障日志;
否则,将当前的内存错误进行降级处理;
判断降级后的内存错误的数量是否达到对应模块寄存器阈值;
若是,将故障内存做物理隔离处理;
否则,发送内存降级错误日志给BMC。
2.根据权利要求1所述的内存报错导致宕机的问题处理方法,其特征在于,该方法包括:
当内存错误类型为不可更正错误时,将所述不可更正错误进行降级处理成降级后的不可更正错误;
判断当前降级后的不可更正错误的数量是否达到降级后的不可更正错误模块寄存器阈值;
若否,执行步骤:发送内存降级错误日志给BMC;
若是,执行步骤:将故障内存做物理隔离处理。
3.根据权利要求2所述的内存报错导致宕机的问题处理方法,其特征在于,该方法还包括:
当内存错误类型为灾难性故障时,将所述灾难性故障进行降级处理成降级后的灾难性故障;
判断降级后的灾难性故障的数量是否达到降级后的灾难性故障模块寄存器阈值;
若否,执行步骤:发送内存降级错误日志给BMC;
若是,执行步骤:将故障内存做隔离处理。
4.根据权利要求1所述的内存报错导致宕机的问题处理方法,其特征在于,该方法还包括:
设置处理内存降级错误的程序在操作系统内核中的可纠正机器检查中断代码中;
设置内存可纠正错误产生中断类型为可纠正机器检查中断;
在可纠正机器检查中断处理中设置对机器校验库的数据解析功能;
获取可纠正机器检查中断,通过处理内存降级错误的程序将内存错误进行处理;
通过可纠正机器检查中断对机器校验库的数据解析功能获得具体的故障内存地址及错误类型;
若错误类型为降级错误,执行步骤:发送内存降级错误日志给BMC;
若错误类型为内存可更正错误,执行步骤:发送故障信息给BMC,记录故障日志。
5.根据权利要求3或4所述的内存报错导致宕机的问题处理方法,其特征在于,发送内存降级错误日志给BMC的步骤之后包括:
BMC接收到所述日志后,根据故障内存地址得到内存位置,并输出提示信息。
6.根据权利要求1所述的内存报错导致宕机的问题处理方法,其特征在于,将故障内存做隔离处理的步骤包括:
获取故障内存的内存信息;
发送内存隔离消息,所述隔离消息中携带有需要隔离的内存信息及隔离信息;
对所述内存隔离消息中的需要隔离的内存信息及隔离信息进行分析;
根据分析结果发送隔离指令,并根据所述隔离指令进行硬件配置,对所述故障内存进行隔离。
7.根据权利要求6所述的内存报错导致宕机的问题处理方法,其特征在于,根据内存错误信息获取故障内存的信息的步骤包括:
根据内存错误信息发送获取内存信息的指令;
响应所述获取指令,确定记录有表征内存信息的预设字符串的第一地址;
根据所述第一地址以及预设地址偏移信息生成预设地址范围;
读取存储于预设地址范围内的预设字符串;
根据所述预设字符串,确定所述获取指令针对的内存信息;
基于获取指令将确定的内存信息返回。
8.内存报错导致宕机的问题处理装置,其特征在于,包括检测模块、类型判断模块、发送模块、降级处理模块、数量判断模块和隔离处理模块;
检测模块,用于检测内存错误并区分错误类型;
类型判断模块,用于判断错误类型是否是内存可更正错误;
发送模块,用于发送故障信息给BMC,记录故障日志;
降级处理模块,用于将当前的内存错误进行降级处理;
数量判断模块,用于判断降级后的内存错误的数量是否达到对应模块寄存器阈值;
隔离处理模块,用于将故障内存做物理隔离处理。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项权利要求所述的内存报错导致宕机的问题处理方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一项权利要求所述的内存报错导致宕机的问题处理方法。
CN202310904680.9A 2023-07-21 2023-07-21 内存报错导致宕机的问题处理方法、装置、设备及介质 Pending CN116893923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310904680.9A CN116893923A (zh) 2023-07-21 2023-07-21 内存报错导致宕机的问题处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310904680.9A CN116893923A (zh) 2023-07-21 2023-07-21 内存报错导致宕机的问题处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116893923A true CN116893923A (zh) 2023-10-17

Family

ID=88311958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310904680.9A Pending CN116893923A (zh) 2023-07-21 2023-07-21 内存报错导致宕机的问题处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116893923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118363798A (zh) * 2024-06-19 2024-07-19 西安羚控电子科技有限公司 一种基于Lockstep模式的故障处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118363798A (zh) * 2024-06-19 2024-07-19 西安羚控电子科技有限公司 一种基于Lockstep模式的故障处理方法及装置

Similar Documents

Publication Publication Date Title
US4964130A (en) System for determining status of errors in a memory subsystem
CN109328340B (zh) 内存故障的检测方法、装置和服务器
US8954806B2 (en) Single event-upset controller wrapper that facilitates fault injection
US7971112B2 (en) Memory diagnosis method
CN112732477B (zh) 一种带外自检故障隔离的方法
CN111414268B (zh) 故障处理方法、装置及服务器
CN111625387B (zh) 内存错误处理方法、装置及服务器
CN102904685B (zh) 一种硬件表项校验错误的处理方法及装置
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
US11853150B2 (en) Method and device for detecting memory downgrade error
CN116893923A (zh) 内存报错导致宕机的问题处理方法、装置、设备及介质
CN107516547A (zh) 内存硬错误的处理方法及装置
CN111221775B (zh) 处理器、缓存处理方法及电子设备
US7278048B2 (en) Method, system and computer program product for improving system reliability
CN113608908A (zh) 服务器故障处理方法、系统、设备及可读存储介质
CN115421984A (zh) 一种内存故障处理的方法、装置、电子设备及介质
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
CN115705261A (zh) 内存故障的修复方法、cpu、os、bios及服务器
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN101271419B (zh) 随机存储器失效的检测处理方法、装置和系统
CN112988442B (zh) 一种服务器运行阶段传送故障信息的方法和设备
CN116909489B (zh) 一种数据的管理方法、装置、电子设备及存储介质
CN117873408B (zh) 一种云打印机数据恢复方法以及相关装置
CN115514630B (zh) 一种自适应的故障解析方法、装置、设备、存储介质
CN114979311B (zh) 以太网报文控制码块检验方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination