CN115981898A - 一种内存可纠错误处理方法、装置、设备及可读存储介质 - Google Patents

一种内存可纠错误处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115981898A
CN115981898A CN202211458324.0A CN202211458324A CN115981898A CN 115981898 A CN115981898 A CN 115981898A CN 202211458324 A CN202211458324 A CN 202211458324A CN 115981898 A CN115981898 A CN 115981898A
Authority
CN
China
Prior art keywords
mce
mca
threshold
threshold value
reporting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211458324.0A
Other languages
English (en)
Inventor
董建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Information Technologies Co Ltd filed Critical New H3C Information Technologies Co Ltd
Priority to CN202211458324.0A priority Critical patent/CN115981898A/zh
Publication of CN115981898A publication Critical patent/CN115981898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开提供一种内存可纠错误处理方法、装置、设备及机器可读存储介质,该方法包括:响应于硬件检测机制统计的错误次数达到阈值产生的系统管理中断,判断内存可纠错误次数是否达到至少一种阈值;触发于判断次数达到至少一种阈值的事件,根据达到的阈值类型,构建系统事件日志并上报;在且仅在判断MCE次数达到至少一种阈值的情况下,生成关联于MCA的操作系统日志并上报。通过本公开的技术方案,通过改进系统事件日志、操作系统日志的生成及上报条件和机制,建立重点关注内存可纠错误发生的RAS机制,能够从MCA机制中提取出关联于内存可纠错误的事件并相应分析和报告,在不影响原有MCA机制的同时增强内存可纠错误的上报性能。

Description

一种内存可纠错误处理方法、装置、设备及可读存储介质
技术领域
本公开涉及通信技术领域,尤其是涉及一种内存可纠错误处理方法、装置、设备及机器可读存储介质。
背景技术
BIOS:Basic Input Output System基本输入输出系统,一组固化到计算机内主板上一个ROM芯片上的程序,主要功能是为计算机提供最底层的、最直接的硬件设置和控制。
BMC:Baseboard Management Controller基板管理控制器,一组固化到一个独立于主板CPU的服务处理机上的程序,它利用传感器来监视一台计算机,网络服务器,或者是其他硬件驱动设备的状态,并且和通过通过独立的连接线路和系统管理员进行通信。
MCA:Machine Check Architecture(硬件检测机制),用来对服务器硬件进行自检,并在发现硬件错误的时候发出中断或异常。系统软件收到中断或异常后,会对其进行响应,进行相应的修复、告警或其他策略等动作。
RAS:Reliability、Availability、Serviceability(可靠性、可用性、可维护性),可靠性可定义为系统在某个给定时间T内产生正确输出的概率,通过规避、检测和修复硬件故障的功能来增强系统可靠性。可靠的系统不会提供错误的数据和计算结果,而会检测并对错误数据进行纠正;可用性为系统在给定时间运行的可能性,及设备实际运行的时间与实际应该运行时间的百分比;可维护性指出系统可以修复或维护的简单程度和速度。如果系统修复故障的时间增加,则可维护性降低。
服务器是现代数据中心基础设施的关键组成部分之一,稳定运行是对数据中心的关键要求。为了保障服务器的稳定运行,同时需要保证数据存储在任何服务器部件(如内存、缓存或处理器寄存器)中或传输在平台链路(如xGMI、PCI Express)中时,都不会发生数据损坏,需要一套有效的RAS技术。
内存作为服务器重要组件,承担暂时存放处理器中的运算数据,以及与硬盘等外部储存器交换的数据,是处理器与外部设备进行沟通的重要桥梁。在运行过程中,由于时刻进行数据交换,因此如何保障数据的完整不出错,是考验服务器RAS的一大课题。
在日常运维中,服务器运行,不可避免会出现数据可纠正错误,该类型错误均可以被服务器自带RAS功能修复不影响服务器正常运行,但是错误频繁出现对长期稳定运行业务的要求是一种隐患,因此要求内存纠正错误达到一定数量后以日志形式通知客户。
MCA错误阈值本质上是用于控制所有硬件CE的上报,包括CPU、内存和PCIe设备在内,因此MCA错误阈值的默认值设定需要平衡各组件发生可纠正错误的概率,取合适值。但是如果客户的业务对内存的RAS有更高的要求,需要稳定高效的内存服务,则通用的MCA错误阈值不能及时反馈内存问题。
发明内容
有鉴于此,本公开提供一种内存可纠错误处理方法、装置及电子设备、机器可读存储介质,以改善上述不能及时反馈内存稳定性问题的问题。
具体地技术方案如下:
本公开提供了一种内存可纠错误处理方法,应用于服务器,所述方法包括:响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
作为一种技术方案,所述响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值,包括:响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到MCE风暴阈值或MCE累计阈值,其中,风暴阈值的统计周期小于累计阈值的统计周期。
作为一种技术方案,所述触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,并在构建系统事件日志及上报完成前,阻止发生系统管理中断SMI。
作为一种技术方案,所述在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,将MCE阈值标志位置位;在且仅在MCE阈值标志位置位后,生成关联于MCA的操作系统日志并上报,然后复位MCE阈值标志位。
本公开同时提供了一种内存可纠错误处理装置,应用于服务器,所述装置包括:事件判断模块,用于响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;第一日志模块,用于触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;第二日志模块,用于在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
作为一种技术方案,所述响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值,包括:响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到MCE风暴阈值或MCE累计阈值,其中,风暴阈值的统计周期小于累计阈值的统计周期。
作为一种技术方案,所述触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,并在构建系统事件日志及上报完成前,阻止发生系统管理中断SMI。
作为一种技术方案,所述在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,将MCE阈值标志位置位;在且仅在MCE阈值标志位置位后,生成关联于MCA的操作系统日志并上报,然后复位MCE阈值标志位。
本公开同时提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的内存可纠错误处理方法。
本公开同时提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的内存可纠错误处理方法。
本公开提供的上述技术方案至少带来了以下有益效果:
通过改进系统事件日志、操作系统日志的生成及上报条件和机制,建立重点关注内存可纠错误发生的RAS机制,能够从MCA机制中提取出关联于内存可纠错误的事件并相应分析和报告,在不影响原有MCA机制的同时增强内存可纠错误的上报性能。
附图说明
为了更加清楚地说明本公开实施方式或者现有技术中的技术方案,下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施方式,对于本领域普通技术人员来讲,还可以根据本公开实施方式的这些附图获得其他的附图。
图1是本公开一种实施方式中的内存可纠错误处理方法的流程图;
图2是本公开一种实施方式中的内存可纠错误处理装置的结构图;
图3是本公开一种实施方式中的电子设备的硬件结构图。
具体实施方式
在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的,而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开提供一种内存可纠错误处理方法、装置及电子设备、机器可读存储介质,以改善上述技术问题。
具体地,技术方案如后述。
在一种实施方式中,本公开提供了一种内存可纠错误处理方法,应用于服务器,所述方法包括:响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
具体地,如图1,包括以下步骤:
步骤S11,响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;
步骤S12,触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;
步骤S13,在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
通过改进系统事件日志、操作系统日志的生成及上报条件和机制,建立重点关注内存可纠错误发生的RAS机制,能够从MCA机制中提取出关联于内存可纠错误的事件并相应分析和报告,在不影响原有MCA机制的同时增强内存可纠错误的上报性能。
在一种实施方式中,所述响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值,包括:响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到MCE风暴阈值或MCE累计阈值,其中,风暴阈值的统计周期小于累计阈值的统计周期。
在一种实施方式中,所述触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,并在构建系统事件日志及上报完成前,阻止发生系统管理中断SMI。
在一种实施方式中,所述在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,将MCE阈值标志位置位;在且仅在MCE阈值标志位置位后,生成关联于MCA的操作系统日志并上报,然后复位MCE阈值标志位。
在一种实施方式中,服务器正常运行,系统下产生内存单bit故障,此时ECC(ErrorCorrecting Code,误差校正码)机制检测到错误,ErrCnt寄存器计数+1,与当前MCA错误阈值进行对比,若已经达到MCA阈值,此时将发送SMI中断请求;如果未达到,结束判断流程。在MCA错误阈值达到MCA阈值的基础上,再次对MCE(Memorry Corrected Error,内存可纠错误)数量统计,并与风暴阈值和/或累计阈值进行对比,如果达到任意一种MCE阈值,将则将MCE阈值标志位置1,并上报SEL(System Event Log,系统事件日志),同时在此期间禁止系统产生SMI中断,具体的,在一种举例中根据处理的时长,经验性地可以选择配置禁止系统下一次SMI中断,最后上报SDS log以及更新MCA寄存器信息;如果没有达到或超过阈值,将只上报SDS log和更新MCA寄存器信息。进一步的,若MCE阈值标志位为1,操作系统将收到SMI中断,并从对应的APEI(ACPI Platform Error Interface高级配置和电源接口平台错误接口)表格中获取对应错误的信息,OS log记录具体的槽位、错误类型、寄存器信息等,完成以上操作后MCE阈值标志位复位置0并结束本轮SMI中断。在一种实施方式中,风暴阈值可以反应短期内高频度的MCE错误,而累计阈值可以反应较长一段时间内的总量较高的MCE错误,具体统计周期和阈值可根据需要设置,如设置风暴阈值的统计周期为1分钟,累计阈值的统计周期为24小时等。
在一种实施方式中,本公开同时提供了一种内存可纠错误处理装置,如图2,应用于服务器,所述装置包括:事件判断模块21,用于响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;第一日志模块22,用于触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;第二日志模块23,用于在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
在一种实施方式中,所述响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值,包括:响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到MCE风暴阈值或MCE累计阈值,其中,风暴阈值的统计周期小于累计阈值的统计周期。
在一种实施方式中,所述触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,并在构建系统事件日志及上报完成前,阻止发生系统管理中断SMI。
在一种实施方式中,所述在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报,包括:触发于判断MCE次数达到至少一种MCE阈值的事件,将MCE阈值标志位置位;在且仅在MCE阈值标志位置位后,生成关联于MCA的操作系统日志并上报,然后复位MCE阈值标志位。
装置实施方式与对应的方法实施方式相同或相似,在此不再赘述。
在一种实施方式中,本公开提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的内存可纠错误处理方法,从硬件层面而言,硬件架构示意图可以参见图3所示。
在一种实施方式中,本公开提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的内存可纠错误处理方法。
这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本公开的实施方式可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员应明白,本公开的实施方式可提供为方法、系统或计算机程序产品。因此,本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且,本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本公开的实施方式而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。

Claims (10)

1.一种内存可纠错误处理方法,其特征在于,应用于服务器,所述方法包括:
响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;
触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;
在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
2.根据权利要求1所述的方法,其特征在于,所述响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值,包括:
响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到MCE风暴阈值或MCE累计阈值,其中,风暴阈值的统计周期小于累计阈值的统计周期。
3.根据权利要求1所述的方法,其特征在于,所述触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,包括:
触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,并在构建系统事件日志及上报完成前,阻止发生系统管理中断SMI。
4.根据权利要求1所述的方法,其特征在于,所述在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报,包括:
触发于判断MCE次数达到至少一种MCE阈值的事件,将MCE阈值标志位置位;
在且仅在MCE阈值标志位置位后,生成关联于MCA的操作系统日志并上报,然后复位MCE阈值标志位。
5.一种内存可纠错误处理装置,其特征在于,应用于服务器,所述装置包括:
事件判断模块,用于响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值;
第一日志模块,用于触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报;
第二日志模块,用于在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报。
6.根据权利要求5所述的装置,其特征在于,所述响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到至少一种MCE阈值,包括:
响应于硬件检测机制MCA统计的MCA错误次数达到MCA阈值产生的系统管理中断SMI,判断内存可纠错误MCE次数是否达到MCE风暴阈值或MCE累计阈值,其中,风暴阈值的统计周期小于累计阈值的统计周期。
7.根据权利要求5所述的装置,其特征在于,所述触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,包括:
触发于判断MCE次数达到至少一种MCE阈值的事件,根据达到的MCE阈值类型,构建系统事件日志并上报,并在构建系统事件日志及上报完成前,阻止发生系统管理中断SMI。
8.根据权利要求5所述的装置,其特征在于,所述在且仅在判断MCE次数达到至少一种MCE阈值的情况下,生成关联于MCA的操作系统日志并上报,包括:
触发于判断MCE次数达到至少一种MCE阈值的事件,将MCE阈值标志位置位;
在且仅在MCE阈值标志位置位后,生成关联于MCA的操作系统日志并上报,然后复位MCE阈值标志位。
9.一种电子设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令,以实现权利要求1-4任一所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。
CN202211458324.0A 2022-11-17 2022-11-17 一种内存可纠错误处理方法、装置、设备及可读存储介质 Pending CN115981898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211458324.0A CN115981898A (zh) 2022-11-17 2022-11-17 一种内存可纠错误处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211458324.0A CN115981898A (zh) 2022-11-17 2022-11-17 一种内存可纠错误处理方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115981898A true CN115981898A (zh) 2023-04-18

Family

ID=85961403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211458324.0A Pending CN115981898A (zh) 2022-11-17 2022-11-17 一种内存可纠错误处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115981898A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质
CN117009128A (zh) * 2023-09-14 2023-11-07 飞腾信息技术有限公司 一种错误上报方法及计算机系统
CN117076186A (zh) * 2023-10-17 2023-11-17 苏州元脑智能科技有限公司 一种内存故障检测方法、系统、装置、介质及服务器
CN117076183A (zh) * 2023-09-28 2023-11-17 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质
CN116820828B (zh) * 2023-08-29 2024-01-09 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质
CN117009128A (zh) * 2023-09-14 2023-11-07 飞腾信息技术有限公司 一种错误上报方法及计算机系统
CN117009128B (zh) * 2023-09-14 2023-12-22 飞腾信息技术有限公司 一种错误上报方法及计算机系统
CN117076183A (zh) * 2023-09-28 2023-11-17 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质
CN117076183B (zh) * 2023-09-28 2024-02-02 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质
CN117076186A (zh) * 2023-10-17 2023-11-17 苏州元脑智能科技有限公司 一种内存故障检测方法、系统、装置、介质及服务器
CN117076186B (zh) * 2023-10-17 2024-02-09 苏州元脑智能科技有限公司 一种内存故障检测方法、系统、装置、介质及服务器

Similar Documents

Publication Publication Date Title
CN115981898A (zh) 一种内存可纠错误处理方法、装置、设备及可读存储介质
US11119874B2 (en) Memory fault detection
CN100440157C (zh) 用于将可恢复的错误记入日志的系统和方法
US20140019814A1 (en) Error framework for a microprocesor and system
WO2021135272A1 (zh) 一种内存异常的处理方法、系统、电子设备及存储介质
CN111008091A (zh) 一种内存ce的故障处理方法、系统及相关装置
US11853150B2 (en) Method and device for detecting memory downgrade error
CN104685474A (zh) 包括不可纠正的错误的地址范围的通知
CN108958965B (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN106201753B (zh) 一种基于linux中PCIE错误的处理方法及系统
CN116820828B (zh) 可纠正错误阈值设定方法、装置、电子设备及存储介质
Sun et al. R 2 C: Robust rolling-upgrade in clouds
US20080209102A1 (en) Device, method, and computer product for monitoring cache-way downgrade
CN111949384B (zh) 任务调度方法、装置、设备及计算机可读存储介质
CN111209129A (zh) 基于amd平台的内存优化方法和装置
WO2023193396A1 (zh) 一种内存故障处理方法、装置及计算机可读存储介质
Kleen Mcelog: Memory error handling in user space
CN114415970B (zh) 分布式存储系统的磁盘故障处理方法、装置及服务器
CN111506460B (zh) 内存故障的处理方法、装置、移动终端及存储介质
CN114610560B (zh) 系统异常监控方法、装置和存储介质
US8230286B1 (en) Processor reliability improvement using automatic hardware disablement
CN114826962A (zh) 一种链路故障检测方法、装置、设备及机器可读存储介质
CN110471814B (zh) 服务器装置的错误报告功能的控制方法
CN114217925A (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
US11914703B2 (en) Method and data processing system for detecting a malicious component on an integrated circuit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination