CN111209129A - 基于amd平台的内存优化方法和装置 - Google Patents

基于amd平台的内存优化方法和装置 Download PDF

Info

Publication number
CN111209129A
CN111209129A CN201911371288.2A CN201911371288A CN111209129A CN 111209129 A CN111209129 A CN 111209129A CN 201911371288 A CN201911371288 A CN 201911371288A CN 111209129 A CN111209129 A CN 111209129A
Authority
CN
China
Prior art keywords
memory
priority
priorities
ecc error
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911371288.2A
Other languages
English (en)
Inventor
陈东林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201911371288.2A priority Critical patent/CN111209129A/zh
Publication of CN111209129A publication Critical patent/CN111209129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于AMD平台的内存优化方法以及装置,包括:将内存ECC错误划分为多个优先级,其中,多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;根据多个优先级的顺序依次执行相应处理,其中,当满足第一优先条件时,将内存ECC错误上报给操作系统和BMC。本发明对现有的内存RAS功能进行了优化,优化后的系统可以更全面的,准确的上报内存故障,提升了系统的稳定性和可维护性。优化设计提升了内存故障上报的准确率,降低了系统重启或死机的风险,提升了产品的质量。

Description

基于AMD平台的内存优化方法和装置
技术领域
本发明涉及一种基于AMD平台的内存优化方法和装置。
背景技术
随着技术的发展,制造工艺的革新,计算系统越来越复杂。对于大型关键应用主机,系统要求必须尽可能的可靠,不会意外的崩溃,这意味着系统必须能够对于某些小的错误做到自修复,对于无法自修复的错误也尽可能进行隔离,保障系统其余部分正常运转。同时系统必须能够提供便利的诊断功能,如系统日志,动态检测等手段方便管理人员进行系统诊断和维护操作,从而及早的发现错误并且修复错误。
内存错误和故障是引发系统硬件故障的原因之一,一方面,从SDR到DDR,再到目前的DDR4,内存的容量和性能不断提升,内存颗粒容量的增大、单元密度增加、生产工艺的复杂,客观上增加了内存缺陷检查和测试的难度;另一方面,大型实时处理系统要求更多的内存,使得内存发生错误和故障的概率显著增加。AMD Naples平台是AMD第一代基于x86架构的芯片处理器,平台在内存RAS方面做的还不完善。存在内存错误覆盖不全面和误报的风险,这会导致系统的稳定性和可维护性下降,甚至可能导致系统的重启或死机。同时现有的内存RAS设计方案也满足不了互联网公司对内存稳定性的要求,因此平台内存RAS功能的优化迫在眉睫。
现有的设计方案是BIOS首先会初始化内存ECC阈值。当内存硬件检测到错误时,内存状态寄存器就会记录一个ECC错误。内存ECC的错误是累加的,当硬件检测到第一个错误时,ECC错误计数被设置为1。当硬件检测到第二个错误时,ECC错误计数累加为2。当ECC错误累计数量到达预设的阈值时,硬件会触发SMI中断,SMI中断处理函数会对内存错误做处理。
现有的设计存在两点不足:
1.无法判断系统是否发生了内存风暴。内存风暴指的是特定时间内,有一定量的内存ECC错误产生,内存风暴的发生表明内存硬件有损坏。因为现有的设计没有引入时间的概念,所以无法判断系统是否发生了内存风暴。比如硬件在1分钟内检测到了100次内存错误,此时说明系统已经发生了内存风暴。但现有设计的判别条件是ECC错误的累计是否达到了预设阈值200。如果当前内存ECC错误的累计小于200,那么现有设计不认为内存有损坏,还会正常的使用损坏的内存。这可能会有系统重启或死机的风险。
2.很大概率的存在误报。硬件检测到内存ECC错误并不能说明内存已经损坏,因为导致内存产生ECC错误的原因有多种。可能是内存周围环境的干扰导致的(比如说信号的干扰,环境的温湿度),也有可能是内存确实质量问题导致的。现有设计不能滤掉环境因素导致的内存错误,这将会放大系统对真实错误的累计从而导致误报。
发明内容
针对相关技术中存在的问题,本发明的目的在于提供一种基于AMD平台的内存优化方法和装置,能够判断系统是否发生内存风暴,进而降低系统因使用损坏的内存而导致重启或死机的风险。
根据本发明的实施例,提供了一种基于AMD平台的内存优化方法,包括:将内存ECC错误划分为多个优先级,其中,多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;根据多个优先级的顺序依次执行相应处理,其中,当满足第一优先条件时,将内存ECC错误上报给操作系统和BMC。
根据本发明的实施例,多个优先级还包括第二优先级,第二优先级的第二优先条件定义为系统达到预定时间间隔TL,当满足第二优先条件时,从当前累计的内存ECC错误数量中减去预设数量。
根据本发明的实施例,多个优先级还包括第三优先级,第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C,且C>M,当满足第三优先条件时,将内存ECC错误上报给操作系统和BMC。
根据本发明的实施例,时间TM根据读取CPU晶振计算。
根据本发明的实施例,内存优化方法包括:判断M和C是否为0,如果M和C被同时设置为0,系统处于测试状态,则结束优化方法;如果M和C不同时为0,系统处于正常的运行状态,根据多个优先级的顺序依次执行相应处理。
根据本发明的实施例,内存优化方法包括,将内存ECC错误阈值设置为1。
根据本发明的实施例,提供了一种基于AMD平台的内存优化装置,包括:优先级设置模块,用于将内存ECC错误划分为多个优先级,其中,多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;执行模块,用于根据多个优先级的顺序依次执行相应处理,其中,当满足第一优先条件时,执行模块将内存ECC错误上报给操作系统和BMC。
根据本发明的实施例,优先级设置模块的多个优先级还包括第二优先级,第二优先级的第二优先条件定义为系统达到预定时间间隔TL,当满足第二优先条件时,执行模块从当前累计的内存ECC错误数量中减去预设数量。
根据本发明的实施例,优先级设置模块的多个优先级还包括第三优先级,第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C,且C>M,当满足第三优先条件时,执行模块将内存ECC错误上报给操作系统和BMC。
根据本发明的实施例,时间TM根据读取CPU晶振计算。
本发明的有益技术效果在于:
本发明对现有的内存RAS功能进行了优化,优化后的系统可以更全面的,准确的上报内存故障,提升了系统的稳定性和可维护性。优化设计提升了内存故障上报的准确率,降低了系统重启或死机的风险,提升了产品的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一个实施例的基于AMD平台的内存优化方法的流程图;
图2是根据本发明另一个实施例的基于AMD平台的内存优化方法的流程图;
图3是图2中步骤S24至S26处的局部放大图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种能够判断系统是否发生内存风暴,进而降低系统因使用损坏的内存而导致重启或死机的风险的基于AMD平台的内存优化方法和装置。在本发明的实施例中,AMD平台可以是AMD x86服务器平台。
如图1所示,根据本发明实施例的基于AMD平台的内存优化方法,包括:
S11,将内存ECC错误划分为多个优先级,其中,多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;
S12,根据多个优先级的顺序依次执行相应处理,其中,当满足第一优先条件时,将内存ECC错误上报给操作系统和BMC。其中,第一优先条件可以是内存风暴的判定条件。
内存风暴指特定时间内,有一定量的内存ECC错误产生,内存风暴的发生表明内存硬件有损坏。本发明引入时间的概念,可以判断在特定时间TM内,是否有一定量M的内存ECC错误产生,即可以判断系统是否发生了内存风暴,进而判断内存硬件是否有损坏。降低了系统因使用损坏的内存而导致重启或死机的风险。
多个优先级还包括第二优先级,第二优先级的第二优先条件定义为系统达到预定时间间隔TL,当满足第二优先条件时,从当前累计的内存ECC错误数量中减去预设数量。导致内存产生ECC错误的原因可能是内存周围环境的干扰导致的(比如说信号的干扰,环境的温湿度),也有可能是内存确实质量问题导致的。本发明通过每过TL的时间间隔,漏掉预设数量的内存ECC错误,能够滤掉环境因素导致的内存错误,以防止因放大系统对真实错误的累计从而导致的误报。
本发明的内存优化方法的多个优先级还包括第三优先级,第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C,且C>M,当满足第三优先条件时,将内存ECC错误上报给操作系统和BMC。
时间TM根据读取CPU晶振计算。风暴时间TM决定了风暴类型错误上报的准确度。本设计采用读取CPU晶振的方法计算风暴时间,该方法精准度高可以达到毫秒级别。
判断M和C是否为0,如果M和C被同时设置为0,系统处于测试状态,则结束优化方法;如果M和C不同时为0,系统处于正常的运行状态,根据多个优先级的顺序依次执行相应处理。
将内存ECC错误阈值设置为1。BIOS会将内存ECC错误阈值设置为1。阈值设置为1的目的在于程序可以更精准的记录硬件第一次检测到内存ECC错误的时间,提高错误报告的准确率。BIOS阶段内存ECC阈值是一个固定值1,但在系统阶段内存ECC阈值并不是一个定值而是一个优化值,系统每次进入SMI中断优化值都需要被重新计算。
在一个实施例中,内存RAS功能的优化分为BIOS阶段和系统阶段两个部分。BIOS阶段要做的任务是对内存ECC阈值的初始化和注册SMI中断处理函数。系统阶段要做的任务是内存ECC错误的处理和上报。优化后的设计将内存错误分为三类,每类错误的描述和处理优先级为:第一优先:内存风暴,在时间TM内,内存累计M条ECC错误时,错误需要被处理并上报给操作系统和BMC;第二优先:漏斗条件,系统每过TL时间,内存ECC错误就要漏掉L条;第三优先:累计条件,内存ECC错误累计达到阈值C时,错误需要被处理并上报给操作系统和BMC。
其中,变量的规则为:
M>=0(M=0表示关闭内存风暴),当M>0时TM必须大于0
L>=0(L=0表示关闭漏斗条件),当L>0时TL必须大于0
C>=0(C=0表示关闭累计条件和漏斗条件)
其中,BIOS阶段的优化设计包括:
1.BIOS判断系统是否支持内存RAS功能,如果系统不支持,BIOS会关闭内存RAS功能,优化程序退出。
2.如果系统支持内存RAS功能,BIOS会将内存ECC错误阈值设置为1。阈值设置为1的目的在于程序可以更精准的记录硬件第一次检测到内存ECC错误的时间,提高错误报告的准确率。
3.BIOS注册SMI中断处理函数。
其中,系统阶段的优化设计包括:
1.中断处理程序首先会判断M和C是否为0。如果M和C被同时设置为0,说明系统处于测试状态,中断处理程序不会对内存RAS功能进行优化。
2.如果M和C不同时为0,说明此时是系统处于正常的运行状态。中断处理程序会按照内存错误处理的优先级处理内存故障。
3.中断处理程序决策是否要上报给操作系统和BMC。
4.中断处理程序退出。
在一个实施例中,参考图2和图3所示,其中,第一优先条件设置为风暴条件,定义为在时间TM内累计M条错误时,记OS和BMC log,其中M=10,TM=1min;第二优先条件设置为漏斗条件,定义为在TL时间到达时漏掉L条,其中L=1,TL=24h;第三优先条件设置为累积条件,定义为累计总错误数量达到C条时,记OS log和BMC SEL,其中C=100;并且第三优先条件还设置为,当第三优先条件满足后判断是否清空累计错误数CC
其中,程序设计流程的规则为:M>=0(等于0表示disable风暴条件),当M>0时TM必须大于0(这样才有意义);L>=0(等于0表示disable漏斗功能),当L>0时TL必须大于0(这样才有意义);C>=0(等于0表示不启用(disable)累积条件,隐含不启用(disable)漏斗条件)。其中,C和M的关系为C<M时,将先达到累计条件,风暴条件永远不会达到,不建议这样设置。C和L的关系为由于漏掉的数量是在累计错误中减掉,所以C为0时,不仅不启用(disable)累计条件,也不启用(disable)漏斗条件。
其中,ECC MSR可见条件为:AMI code base默认进入OS时隐藏ECC相关MSR、进入SMI处理时如果达到阈值会将ECC相关MSR变为可见,OS发现可见会记log并且重新隐藏这些MSR。
其中,变量代表的含义分别为:Cc,当前累积发生的ECC数量;t0,第1次进SMI的时间,或者再增加N个TL的时间;tp,上次进入SMI的时间,和t0不一定相差TL的整数倍;tm,本次进入SMI的时间;r,寄存器中写入的阈值;f1ag,第2次进SMI。
其中,主程序的流程包括,
步骤S21:判断M和C是否同时为0,若同时为0,则将寄存器设置为FFEh,考虑到还有其他MCA要处理,不能不启用(disable)SMI,因此将寄存器写最大值,使得ECC需要最多次数才能进入SMI;若M和C不同时为0,设置寄存器阈值为1。
其中,中断程序的流程包括,
步骤S22:判断M和C是否同时为0,若同时为0,则将寄存器设置为FFEh;若M和C不同时为0,则判断M为0的同时C为1是否成立,若是,则设置ECC相关MSR可见发送SEL给BMC,并设置寄存器的阈值为1;若否,则进入下一步骤。
步骤S23:设置tm的当前时间,并判断是否第一次进入SMI,若是,则重新计算寄存器中写入的阈值r,并将寄存器阈值设置为r;若否,则进入下一步骤。
步骤S24:判断风暴条件是否满足,若是,则在第二次进入SMI时使用M-1来判断阈值,第三次进入SMI时使用M来判断阈值,并设置ECC相关MSR可见发送SEL给BMC;若否,则直接进入下一步骤。
步骤S25:判断漏斗条件和累计条件是否同时启用,若是,则重新计算第1次进SMI的时间t0和当前累积发生的ECC数量Cc;若否,则直接进入下一步骤。
步骤S26:判断累计条件是否满足,即累计次数是否达到阈值C,若是,则设置ECC相关MSR可见发送SEL给BMC,并判断是否清空累计次数的阈值C;若否,则直接进入下一步骤。
步骤S27:重新计算r值,并设置寄存器阈值为r。
本发明提供了一种基于AMD平台的内存优化装置,包括:优先级设置模块,用于将内存ECC错误划分为多个优先级,其中,多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;执行模块,用于根据多个优先级的顺序依次执行相应处理,其中,当满足第一优先条件时,执行模块将内存ECC错误上报给操作系统和BMC。
根据本发明的实施例,优先级设置模块的多个优先级还包括第二优先级,第二优先级的第二优先条件定义为系统达到预定时间间隔TL,当满足第二优先条件时,执行模块从当前累计的内存ECC错误数量中减去预设数量。
根据本发明的实施例,优先级设置模块的多个优先级还包括第三优先级,第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C,且C>M,当满足第三优先条件时,执行模块将内存ECC错误上报给操作系统和BMC。
根据本发明的实施例,时间TM根据读取CPU晶振计算。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于AMD平台的内存优化方法,其特征在于,包括:
将内存ECC错误划分为多个优先级,其中,所述多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;
根据所述多个优先级的顺序依次执行相应处理,其中,当满足所述第一优先条件时,将所述内存ECC错误上报给操作系统和BMC。
2.根据权利要求1所述的内存优化方法,其特征在于,
所述多个优先级还包括第二优先级,所述第二优先级的第二优先条件定义为系统达到预定时间间隔TL
当满足所述第二优先条件时,从当前累计的内存ECC错误数量中减去预设数量。
3.根据权利要求1所述的内存优化方法,其特征在于,
所述多个优先级还包括第三优先级,所述第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C,且C>M,
当满足所述第三优先条件时,将所述内存ECC错误上报给操作系统和BMC。
4.根据权利要求1所述的内存优化方法,其特征在于,所述时间TM根据读取CPU晶振计算。
5.根据权利要求1所述的内存优化方法,其特征在于,还包括:判断M和C是否为0,如果M和C被同时设置为0,系统处于测试状态,则结束所述优化方法;如果M和C不同时为0,所述系统处于正常的运行状态,根据所述多个优先级的顺序依次执行相应处理。
6.根据权利要求1所述的内存优化方法,其特征在于,将所述内存ECC错误阈值设置为1。
7.一种基于AMD平台的内存优化装置,其特征在于,包括:
优先级设置模块,用于将内存ECC错误划分为多个优先级,其中,所述多个优先级中的第一优先级的第一优先条件定义为在时间TM内,内存ECC错误累计达到M条;
执行模块,用于根据所述多个优先级的顺序依次执行相应处理,其中,当满足所述第一优先条件时,所述执行模块将所述内存ECC错误上报给操作系统和BMC。
8.根据权利要求7所述的内存优化装置,其特征在于,所述优先级设置模块的所述多个优先级还包括第二优先级,所述第二优先级的第二优先条件定义为系统达到预定时间间隔TL
当满足所述第二优先条件时,所述执行模块从当前累计的内存ECC错误数量中减去预设数量。
9.根据权利要求7所述的内存优化装置,其特征在于,所述优先级设置模块的所述多个优先级还包括第三优先级,所述第三优先级的第三优先条件定义为内存ECC错误累计达到阈值C,且C>M,
当满足所述第三优先条件时,所述执行模块将所述内存ECC错误上报给操作系统和BMC。
10.根据权利要求7所述的内存优化装置,其特征在于,所述时间TM根据读取CPU晶振计算。
CN201911371288.2A 2019-12-27 2019-12-27 基于amd平台的内存优化方法和装置 Pending CN111209129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911371288.2A CN111209129A (zh) 2019-12-27 2019-12-27 基于amd平台的内存优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911371288.2A CN111209129A (zh) 2019-12-27 2019-12-27 基于amd平台的内存优化方法和装置

Publications (1)

Publication Number Publication Date
CN111209129A true CN111209129A (zh) 2020-05-29

Family

ID=70786418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911371288.2A Pending CN111209129A (zh) 2019-12-27 2019-12-27 基于amd平台的内存优化方法和装置

Country Status (1)

Country Link
CN (1) CN111209129A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930553A (zh) * 2020-07-15 2020-11-13 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN117076182A (zh) * 2023-09-28 2023-11-17 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1771565A (zh) * 2003-08-18 2006-05-10 富士通株式会社 半导体存储器以及半导体存储器的操作方法
CN102081970A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 纠错处理的方法、装置及固态硬盘设备
CN102521089A (zh) * 2011-11-23 2012-06-27 清华大学 硬件设备错误检测方法
CN103092739A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种内存ecc报错报警机制
CN109117302A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 一种内存数据获取方法、系统、内存管理中间件及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1771565A (zh) * 2003-08-18 2006-05-10 富士通株式会社 半导体存储器以及半导体存储器的操作方法
CN102081970A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 纠错处理的方法、装置及固态硬盘设备
CN102521089A (zh) * 2011-11-23 2012-06-27 清华大学 硬件设备错误检测方法
CN103092739A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种内存ecc报错报警机制
CN109117302A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 一种内存数据获取方法、系统、内存管理中间件及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930553A (zh) * 2020-07-15 2020-11-13 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN111930553B (zh) * 2020-07-15 2022-05-20 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN117076182A (zh) * 2023-09-28 2023-11-17 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质
CN117076182B (zh) * 2023-09-28 2024-01-19 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US7409594B2 (en) System and method to detect errors and predict potential failures
CN109328340B (zh) 内存故障的检测方法、装置和服务器
US20200050510A1 (en) Server hardware fault analysis and recovery
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US8108724B2 (en) Field replaceable unit failure determination
US20080058961A1 (en) Methods and arrangements to collect data
CN113176963B (zh) 一种PCIe故障自修复方法、装置、设备及可读存储介质
US8418005B2 (en) Methods, apparatus and articles of manufacture to diagnose temperature-induced memory errors
CN111414268B (zh) 故障处理方法、装置及服务器
JPH02105947A (ja) コンピユータ周辺サブシステム及びその例外事象自動検出分析方法
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
US20080276129A1 (en) Software tracing
US20030084376A1 (en) Software crash event analysis method and system
US11853150B2 (en) Method and device for detecting memory downgrade error
CN112732477B (zh) 一种带外自检故障隔离的方法
CN111209129A (zh) 基于amd平台的内存优化方法和装置
US20190317875A1 (en) Electronic device and method for event logging
US8984333B2 (en) Automatic computer storage medium diagnostics
CN112395122A (zh) 闪存控制器及闪存控制器的方法
CN115981898A (zh) 一种内存可纠错误处理方法、装置、设备及可读存储介质
CN113590429A (zh) 一种服务器故障诊断方法、装置及电子设备
CN103049345A (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
Zhang et al. Predicting dram-caused node unavailability in hyper-scale clouds
Li et al. From correctable memory errors to uncorrectable memory errors: What error bits tell
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination