CN114064333A - 一种内存故障处理方法和装置 - Google Patents

一种内存故障处理方法和装置 Download PDF

Info

Publication number
CN114064333A
CN114064333A CN202010839242.5A CN202010839242A CN114064333A CN 114064333 A CN114064333 A CN 114064333A CN 202010839242 A CN202010839242 A CN 202010839242A CN 114064333 A CN114064333 A CN 114064333A
Authority
CN
China
Prior art keywords
memory
fault
isolation
repair
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010839242.5A
Other languages
English (en)
Inventor
鲍全洋
韩林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to KR1020237006445A priority Critical patent/KR20230041103A/ko
Priority to PCT/CN2021/105645 priority patent/WO2022028209A1/zh
Priority to EP21854332.0A priority patent/EP4180959A4/en
Publication of CN114064333A publication Critical patent/CN114064333A/zh
Priority to US18/164,402 priority patent/US20230185659A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/44Indication or identification of errors, e.g. for repair
    • G11C29/4401Indication or identification of errors, e.g. for repair for self repair

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本申请实施例公开了一种内存故障处理方法和装置,涉及计算机技术领域,解决了现有技术中因内存故障导致系统宕机的问题。具体方案为:管理模块获取内存的错误信息;管理模块基于内存的错误信息,采用机器学习算法确定内存的故障特征模式或者修复内存采用的隔离修复技术;管理模块基于内存的故障特征模式或者修复内存采用的隔离修复技术,确定采用硬件隔离或软件隔离中的至少一种修复内存。

Description

一种内存故障处理方法和装置
本申请要求于2020年08月05日提交国家知识产权局、申请号为202010778351.0、申请名称为“一种内存故障预测、修复方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种内存故障处理方法和装置。
背景技术
动态随机存取存储器(dynamic random access memory,DRAM)是一种常见的随机存取存储器,在存储领域有广泛的应用。随着DRAM内存的容量越来越大,基础失效率越来越高。通常内存发生错误以后,可以采用错误校验与校正(error checking and correction,ECC)等纠错算法进行纠错。但是如果频繁纠错将会对系统的性能造成影响。而且当内存故障越来越严重的时候,纠错算法将会不堪重负,无法纠正的概率大幅上升,可能会产生不可纠正的错误,从而导致系统宕机。
一种内存修复方法是通过对内存中的可纠正错误(corrected error,CE)的数值进行累加,在CE的数量达到阈值门限时,由基本输入输出系统(basic input/outputsystem,BIOS)下发命令触发中央处理器(central processing unit,CPU)自带的底层内存隔离替换动作,将故障区域局部隔离,不再使用故障区域内存,以避免再次读写该错误区域。该修复方法无法准确判断内存故障的严重程度以及内存故障的准确位置,导致故障隔离的精准率和覆盖率都比较差,发生系统宕机的可能性较大。
发明内容
本申请实施例提供一种内存故障处理方法和装置,能够降低因内存故障导致系统宕机的概率。
为达到上述目的,本申请实施例采用如下技术方案:
本申请实施例的第一方面,提供一种内存故障处理方法,该方法包括:管理模块获取内存的错误信息;该管理模块基于该内存的错误信息,采用机器学习算法确定内存的故障特征模式或者修复内存采用的隔离修复技术;该管理模块基于内存的故障特征模式或者修复内存采用的隔离修复技术,确定采用硬件隔离或软件隔离中的至少一种修复该内存。基于本方案,根据内存的错误信息,结合机器学习算法确定的内存的故障特征模式或修复内存采用的隔离修复技术较准确,而且管理模块可以针对不同的故障特征模式或者不同的隔离修复技术确定具体采用的隔离方式,因此故障修复的准确率较高,降低了系统宕机的概率。
示例性的,管理模块基于该内存的错误信息,采用机器学习算法确定内存的故障特征模式可以包括:管理模块结合内存的当前错误信息以及内存的历史错误信息,依次判断当前内存满足哪些故障模式的条件,并为当前内存生成故障模式编码,该故障模式编码用于指示当前内存满足哪些故障模式的条件。管理模块基于多个故障模式编码,采用机器学习算法预测内存发生故障的模式,以及每种故障模式导致系统级故障的概率,并基于该概率确定内存的故障特征模式。
结合第一方面,在一种可能的实现方式中,上述内存的错误信息包括可纠正错误CE的状态、CE发生时间、CE出错次数、CE的物理地址信息、不可纠正错误的状态、不可纠正错误的发生时间、不可纠正错误的出错次数、不可纠正错误的物理地址信息、内存巡检出错次数、内存巡检出错行地址、内存巡检出错列地址、内存巡检出错最多行地址中的至少一种;上述CE的物理地址信息用于指示CE在内存中的物理位置,不可纠正错误的物理地址信息用于指示不可纠正错误在内存中的物理位置。基于本方案,根据详细的内存错误信息,能够准确的定位内存故障的具体位置,提高了内存故障定位的准确度。可以理解的,上述CE的物理地址信息可以指示出CE在内存中的具体物理位置,例如,CE的物理地址信息可以包括CE所在的CPU节点号、Channel号、DIMM插槽号、逻辑Rank号、Bank group号、bank号、行号、列号、芯片颗粒号或bit位置等信息中的一种或多种。再例如,不可纠正错误的物理地址信息可以包括不可纠正错误所在的CPU节点号、Channel号、DIMM插槽号、逻辑Rank号、Bank group号、bank号、行号、列号、芯片颗粒号或bit位置等信息中的一种或多种。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述故障特征模式包括页Page故障模式、单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的至少一种。基于本方案,定位的内存的故障特征模式较准确,并针对故障特征模式确定具体采用的隔离方式,因此故障修复的准确率较高,降低了系统宕机的概率。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:管理模块获取内存的运行状态数据;内存的运行状态数据包括:CPU占用率信息、温度信息、运行程序信息、内存健康状态信息中的至少一种。基于本方案,通过获取内存的运行状态相关的数据,能够基于该数据预测内存的故障模式或修复内存采用的隔离修复技术,进一步提高预测故障模式的准确性。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,管理模块基于内存的错误信息,采用机器学习算法确定内存的故障特征模式或者修复内存采用的隔离修复技术,包括:管理模块基于内存的错误信息以及内存的运行状态数据,采用机器学习算法确定内存的故障特征模式或者修复内存采用的隔离修复技术。基于本方案,通过内存的错误信息以及内存的运行状态数据,确定内存的故障特征模式或修复内存采用的隔离修复技术,能够进一步提高预测内存的故障特征模式的准确性。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:若上述管理模块确定采用硬件隔离修复上述内存,上述管理模块向处理器固件发送第一故障修复请求,该第一故障修复请求用于请求处理器固件修复上述内存,该第一故障修复请求中包括上述内存的故障特征模式或者修复上述内存采用的隔离修复技术中的至少一种。基于本方案,管理模块在确定采用硬件隔离修复内存时,可以通知处理器固件当前内存的故障特征模式,也可以通知处理器固件修复上述内存采用的隔离修复技术,使得处理器固件可以采用该隔离修复技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。可选的,管理模块向处理器固件发送的第一故障修复请求中还可以包括内存的故障地址信息(例如,bank的地址信息),以指示处理器固件具体修复的区域。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述管理模块接收来自上述处理器固件的第一故障修复响应,该第一故障修复响应中携带上述处理器固件修复上述内存后的修复结果。基于本方案,处理器固件修复内存后,通过向管理模块反馈修复结果,能够进一步提高故障修复的成功率。而且管理模块基于处理器固件反馈的修复结果可以预测内存的故障严重程度。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述管理模块向处理器固件发送第一故障修复信息表,该第一故障修复信息表用于指示故障特征模式,以及该故障特征模式对应的一种或多种硬件隔离修复技术。基于本方案,处理器固件可以基于第一故障修复信息表获知故障特征模式可以采用的硬件隔离修复技术,提高了处理器固件的修复能力。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述硬件隔离修复技术包括比特bit隔离替换、Cell隔离替换、行Row隔离替换、列column隔离替换、Bank隔离替换、颗粒Device隔离替换、Rank隔离替换、通道channel隔离替换、单颗粒数据纠正SDDC、单颗粒错误纠正SDEC、自适应型双颗粒数据纠正-多区域ADDDC-MR、自适应型数据纠正-单区域ADC-SR、自适应型双颗粒错误纠正ADDEC、部分缓存数据替换PCLS、自适应缓存行替换ACLS、硬件行替换hPPR、软件行替换sPPR、行替换PPR、或替换内存特定地址范围的硬件隔离修复技术中的至少一种。基于本方案,处理器固件可以针对不同的故障特征模式采用不同的硬件隔离修复技术,修复的准确率较高。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述处理器固件包括Firmware、基本输入输出系统BIOS、管理引擎ME,或智能管理单元IMU。基于本方案,Firmware、BIOS、ME,或IMU均可以对内存的故障区域进行修复,修复能力较强。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:若上述管理模块确定采用软件隔离修复上述内存,上述管理模块向操作系统OS管理单元发送第二故障修复请求,该第二故障修复请求用于请求该OS管理单元修复上述内存,该第二故障修复请求中包括上述内存的故障特征模式或者修复所述上述内存采用的隔离修复技术中的至少一种。基于本方案,管理模块在确定采用软件隔离修复内存时,可以通知OS管理单元当前内存的故障特征模式,也可以通知OS管理单元修复上述内存采用的隔离修复技术,使得OS管理单元可以采用该隔离修复技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。可选的,管理模块向处理器固件发送的第二故障修复请求中还可以包括内存的故障地址信息(例如,page的地址信息),以指示处理器固件具体修复的区域。可以理解的,管理模块可以直接通知OS管理单元修复内存采用的软件隔离修复技术,也可以只向OS管理单元通知内存的故障特征模式,由OS管理单元确定该内存的故障特征模式对应的软件隔离修复技术。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述管理模块接收来自上述OS管理单元的第二故障修复响应,该第二故障修复响应中携带上述OS管理单元修复上述内存后的修复结果。基于本方案,OS管理单元修复内存后,通过向管理模块反馈修复结果,使得管理模块可以基于该修复结果预测内存的故障严重程度。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述管理模块向OS管理单元发送第二故障修复信息表,该第二故障修复信息表用于指示故障特征模式,以及该故障特征模式对应的一种或多种软件隔离修复技术。基于本方案,OS管理单元可以基于第二故障修复信息表获知故障特征模式可以采用的软件隔离修复技术,提高了OS管理单元的修复能力。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述软件隔离修复技术包括页隔离、地址隔离、进程隔离、或替换内存特定地址范围的软件隔离修复技术中的至少一种。基于本方案,OS管理单元可以针对不同的故障特征模式采用不同的软件隔离修复技术,修复的准确率较高。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述OS管理单元为OS自带的系统管理单元或OS中安装的设备管理代理程序。基于本方案,系统管理单元或OS中安装的设备管理代理程序均可以对内存的故障区域进行修复,修复能力较强。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述管理模块基于上述内存的错误信息,采用机器学习算法确定上述内存的故障特征模式,包括:上述管理模块基于上述内存的错误信息,以及故障预测模型,采用机器学习算法确定上述内存的故障特征模式;该故障预测模型用于预测上述内存的故障特征模式。基于本方案,可以基于故障预测模型确定内存的故障特征模式,提高了故障特征模式的准确度。可选的,管理模块也可以基于上述内存的错误信息和内存的运行状态数据,以及故障预测模型,采用机器学习算法确定上述内存的故障特征模式。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述管理模块确定上述内存的故障严重程度;在上述内存的故障严重程度超过预设阈值的情况下,上述管理模块向上层运维系统发送告警信息。基于本方案,管理模块可以预测内存的故障严重程度,并在内存故障较严重时发送告警信息,避免系统宕机风险。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述管理模块确定上述内存的故障严重程度,包括:上述管理模块基于第一故障修复响应和第二故障修复响应中的至少一种,确定上述内存的故障严重程度。基于本方案,管理模块可以基于处理器固件和OS管理单元反馈的修复结果,预测内存的故障严重程度,以避免系统宕机风险。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述管理模块确定上述内存的故障严重程度,包括:上述管理模块基于上述内存的错误信息和上述内存的运行状态数据,确定上述内存的故障严重程度。基于本方案,管理模块可以基于内存的错误信息和内存的运行状态数据,预测内存的故障严重程度,以避免系统宕机风险。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述管理模块为非业务模块的管理单元,上述管理模块包括运行状态的管理单元、内置于处理器中的管理单元、处理器外的管理芯片中的管理系统、服务器主板管理控制单元BMC、系统管理模块SMM,或OS中的设备管理系统。基于本方案,可以通过非业务单元的管理单元与处理器固件和OS管理单元进行通信,从而定位的故障区域较准确,提高了故障修复的准确率,降低了系统宕机的概率。
本申请实施例的第二方面,提供一种内存故障处理方法,该方法包括:处理器固件向管理模块发送内存的错误信息;处理器固件接收来自管理模块的第一故障修复请求,该第一故障修复请求用于请求处理器固件修复该内存,该第一故障修复请求中包括内存的故障特征模式或者修复所述内存采用的隔离修复技术中的至少一种;处理器固件基于该隔离修复技术修复上述内存。基于本方案,在管理模块确定采用硬件隔离修复内存时,可以通知处理器固件当前内存的故障特征模式,也可以通知处理器固件修复上述内存采用的隔离修复技术,使得处理器固件可以采用该隔离修复技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。可以理解的,管理模块可以直接通知处理器固件修复内存采用的硬件隔离修复技术,也可以只向处理器固件通知内存的故障特征模式,由处理器固件确定修复该内存的故障特征模式采用的隔离修复技术。可选的,处理器固件接收的第一故障修复请求中还可以包括内存的故障地址信息(例如,bank的地址信息),基于该故障地址信息处理器固件可以确定具体修复的区域。
结合第二方面,在一种可能的实现方式中,上述内存的错误信息包括可纠正错误CE的状态、CE发生时间、CE出错次数、CE的物理地址信息、不可纠正错误的状态、不可纠正错误的发生时间、不可纠正错误的出错次数、不可纠正错误的物理地址信息、内存巡检出错次数、内存巡检出错行地址、内存巡检出错列地址、内存巡检出错最多行地址中的至少一种;上述CE的物理地址信息用于指示CE在内存中的物理位置,不可纠正错误的物理地址信息用于指示不可纠正错误在内存中的物理位置。基于本方案,处理器固件可以向管理模块发送详细的内存错误信息,使得管理模块根据该详细的内存错误信息,能够准确的定位内存故障的具体位置,提高了内存故障定位的准确度。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述故障特征模式包括:单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的至少一种。基于本方案,定位的内存的故障特征模式较准确,并针对故障特征模式确定具体采用的隔离方式,因此故障修复的准确率较高,降低了系统宕机的概率。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述处理器固件向上述管理模块发送第一故障修复响应,该第一故障修复响应中携带上述处理器固件修复上述内存后的修复结果。基于本方案,处理器固件修复内存后,通过向管理模块反馈修复结果,能够进一步提高故障修复的成功率。而且管理模块基于处理器固件反馈的修复结果可以预测内存的故障严重程度。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述处理器固件接收来自上述管理模块的第一故障修复信息表,该第一故障修复信息表用于指示故障特征模式,以及该故障特征模式对应的一种或多种硬件隔离修复技术。基于本方案,处理器固件可以基于第一故障修复信息表获知故障特征模式可以采用的硬件隔离修复技术,提高了处理器固件的修复能力。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述硬件隔离修复技术包括比特bit隔离替换、Cell隔离替换、行Row隔离替换、列column隔离替换、Bank隔离替换、颗粒Device隔离替换、Rank隔离替换、通道channel隔离替换、单颗粒数据纠正SDDC、单颗粒错误纠正SDEC、自适应型双颗粒数据纠正-多区域ADDDC-MR、自适应型数据纠正-单区域ADC-SR、自适应型双颗粒错误纠正ADDEC、部分缓存数据替换PCLS、自适应缓存行替换ACLS、硬件行替换hPPR、软件行替换sPPR、行替换PPR、或替换内存特定地址范围的硬件隔离修复技术中的至少一种。基于本方案,处理器固件可以针对不同的故障特征模式采用不同的硬件隔离修复技术,修复的准确率较高。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述处理器固件基于内存的故障特征模式以及上述第一故障修复信息表,确定修复上述内存采用的隔离修复技术。基于本方案,处理器固件可以基于第一故障修复信息表获知故障特征模式可以采用的硬件隔离修复技术,提高了处理器固件的修复能力。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述处理器固件包括Firmware、基本输入输出系统BIOS、管理引擎ME,或智能管理单元IMU。基于本方案,Firmware、BIOS、ME,或IMU均可以对内存的故障区域进行修复,修复能力较强。
本申请实施例的第三方面,提供一种内存故障处理方法,该方法包括:操作系统OS管理单元接收来自管理模块的第二故障修复请求,该第二故障修复请求用于请求OS管理单元修复上述内存,该第二故障修复请求中包括上述内存的故障特征模式或者修复上述内存采用的隔离修复技术中的至少一种;OS管理单元基于该隔离修复技术修复上述内存。基于本方案,OS管理单元通过接收来自管理模块的内存的故障特征模式,或者,修复上述内存采用的隔离修复技术,OS管理单元可以采用该隔离修复技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。可以理解的,管理模块可以直接通知OS管理单元修复内存采用的软件隔离修复技术,也可以只向OS管理单元通知内存的故障特征模式,由OS管理单元确定该内存的故障特征模式对应的软件隔离修复技术。可选的,管理模块向处理器固件发送的第二故障修复请求中还可以包括内存的故障地址信息(例如,page的地址信息),以指示处理器固件具体修复的区域。
结合第三方面,在一种可能的实现方式中,上述故障特征模式包括:页Page故障模式、单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的至少一种。基于本方案,定位的内存的故障特征模式较准确,并针对故障特征模式确定具体采用的隔离方式,因此故障修复的准确率较高,降低了系统宕机的概率。
结合第三方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述OS管理单元向上述管理模块发送第二故障修复响应,该第二故障修复响应中携带上述OS管理单元修复上述内存后的修复结果。基于本方案,OS管理单元修复内存后,通过向管理模块反馈修复结果,使得管理模块可以基于该修复结果预测内存的故障严重程度。
结合第三方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述OS管理单元接收来自上述管理模块的第二故障修复信息表,该第二故障修复信息表用于指示故障特征模式,以及该故障特征模式对应的一种或多种软件隔离修复技术。基于本方案,OS管理单元可以基于第二故障修复信息表获知故障特征模式可以采用的软件隔离修复技术,提高了OS管理单元的修复能力。
结合第三方面和上述可能的实现方式,在另一种可能的实现方式中,上述软件隔离修复技术包括页隔离、地址隔离、进程隔离、或替换内存特定地址范围的软件隔离修复技术中的至少一种。基于本方案,OS管理单元可以针对不同的故障特征模式采用不同的软件隔离修复技术,修复的准确率较高。
结合第三方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述OS管理单元基于内存的故障特征模式以及上述第二故障修复信息表,确定修复上述内存采用的隔离修复技术。基于本方案,OS管理单元可以基于第二故障修复信息表获知故障特征模式可以采用的软件隔离修复技术,提高了OS管理单元的修复能力。
结合第三方面和上述可能的实现方式,在另一种可能的实现方式中,上述OS管理单元为OS自带的系统管理单元或OS中安装的设备管理代理程序。基于本方案,系统管理单元或OS中安装的设备管理代理程序均可以对内存的故障区域进行修复,修复能力较强。
本申请实施例的第四方面,提供一种管理模块,该管理模块具有实现上述第一方面中任一所述的内存故障处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
本申请实施例的第五方面,提供一种处理器固件,该处理器固件具有实现上述第二方面中任一所述的内存故障处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
本申请实施例的第六方面,提供一种OS管理单元,该OS管理单元具有实现上述第三方面中任一所述的内存故障处理方法的功能。该功能可以通过软件实现。该软件包括一个或多个与上述功能相对应的模块。
本申请实施例的第七方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面至第三方面中任一所述的内存故障处理方法。
本申请实施例的第八方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面至第三方面中任一所述的内存故障处理方法。
本申请实施例的第九方面,提供一种内存故障处理系统,该内存故障处理系统包括管理模块、处理器固件和OS管理单元,其中,管理模块用于实现上述第一方面中任一所述的内存故障处理方法,处理器固件用于实现上述第二方面中任一所述的内存故障处理方法,OS管理单元用于实现上述第三方面中任一所述的内存故障处理方法。
附图说明
图1为本申请实施例提供的一种内存故障修复方法的示意图;
图2为本申请实施例提供的一种内存故障修复方法的示意图;
图3为本申请实施例提供的一种计算机系统的结构示意图;
图4为本申请实施例提供的一种内存故障处理方法的流程示意图;
图5为本申请实施例提供的另一种内存故障处理方法的流程示意图;
图6为本申请实施例提供的另一种内存故障处理方法的流程示意图;
图7为本申请实施例提供的另一种内存故障处理方法的流程示意图;
图8为本申请实施例提供的另一种内存故障处理方法的流程示意图;
图9为本申请实施例提供的另一种内存故障处理方法的流程示意图;
图10为本申请实施例提供的一种内存故障处理装置的组成示意图;
图11为本申请实施例提供的另一种内存故障处理装置的组成示意图;
图12为本申请实施例提供的另一种内存故障处理装置的组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。在本申请中,“至少一种”是指一种或者多种,“多种”是指两种或两种以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或,a和b和c,其中a、b和c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。比如,本申请实施例中的第一故障修复请求中的“第一”和第二故障修复请求中的“第二”仅用于区分不同的故障修复请求。本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
本申请实施例描述的架构场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着计算机系统的演变,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
当前计算系统的内存具备一定的硬件修复能力,例如,当内存故障时,可以采用冗余的空间替换掉故障空间,实现在硬件上隔离内存故障的区域。但是由于内存中的冗余空间有限,因此硬件隔离技术使用的次数有限。对于轻微的内存错误,一般可以使用纠错算法进行纠错,在发生较为严重的故障时,再针对故障区域进行冗余空间替换修复。
示例性的,图1为一种内存修复方法,如图1所示,由中央处理器(centralprocessing unit,CPU)内部的纠错机制识别出内存可纠正错误(corrected error,CE)后,基本输入输出系统(basic input/output system,BIOS)对CE进行计数,并与阈值比较,在CE的数量达到阈值门限后,由BIOS下发命令触发CPU自带的底层内存的隔离替换动作(例如bank隔离、cell隔离),将故障区域局部隔离,即不再使用故障区域内存,以避免再次读写该故障区域。
但是,由于BIOS的处理能力有限,只能对内存可纠正错误的计数进行累加,无法准确判断内存故障的严重程度以及内存故障的准确行列位置,导致故障隔离的精准率和覆盖率都比较差。而且如果将阈值门限设置较高,将会遗漏大量的错误场景,很可能CE的数量还没有达到阈值就已经出现了不可纠正错误(uncorrected error,UCE),从而导致系统宕机。如果将阈值门限设置较低,可能会出现大量的轻微故障都被隔离替换,不能发挥出隔离替换的真正价值。因此,采用该方法无法准确的判断内存故障的位置,内存修复的准确率较低,导致系统宕机的可能性较大。
示例性的,图2为另一种内存修复方法,如图2所示,CPU识别出可纠正错误后,上报给上层操作系统(operating system,OS),OS对可纠正错误进行计数并判断故障严重度,在可纠正错误的数量达到阈值门限后,由OS下发命令触发OS中的错误隔离机制(比如page页隔离),将OS中的故障区域虚拟空间隔离出去,不再使用该故障区域的内存地址。
但是,该方法中OS只能做到对OS层的隔离替换,无法调用CPU的底层内存资源,因此浪费了底层可用的硬件隔离能力。而且OS层隔离后内存空间将减少,尤其针对大页隔离,隔离风险较大,容易导致系统宕机。故该方法修复内存的能力较差,导致系统宕机的可能性较大。
为了解决现有技术中因内存故障定位不准确导致系统宕机的问题,本申请实施例提供一种内存故障处理方法,该方法能够较准确的确定内存故障的位置,故障修复的准确率较高,降低了系统宕机的概率。
本申请实施例提供的内存故障处理方法可以应用于图3所示的计算机系统100,该计算机系统100可以为服务器、存储控制器、交换机、路由器、基站控制器、计算卸载卡、计算加速卡等设备,本申请实施例对于图3所示的计算机系统的具体形式并不进行限定。下述实施例仅以该计算机系统为服务器为例进行说明。如图3所示,该计算机系统100包括管理模块101、处理器固件102、操作系统OS管理单元103以及内存104。
其中,管理模块101可以为非业务模块的管理单元,该管理模块101也可以称为带外管理模块101。例如,管理模块101可以通过专用的数据通道对服务器进行远程维护和管理,该管理模块101是完全独立于服务器的操作系统OS之外的,可以通过服务器的带外管理接口与BIOS和OS(或OS管理单元)进行通信。
示例性的,管理模块101可以包括服务器运行状态的管理单元、内置于处理器中的管理单元、处理器外的管理芯片中的管理系统、服务器主板管理控制单元(baseboardmanagement controller,BMC)、系统管理模块(system management module,SMM)、内置于业务单元中的管理单元、或OS中的设备管理系统等管理单元。本申请实施例对于管理模块的具体形式并不进行限定,在此仅是示例性说明。下述实施例仅以管理模块101为BMC为例进行说明。
示例性的,管理模块101可以用于获取内存104的错误信息以及内存104的运行状态相关的数据。管理模块101还可以基于内存104的错误信息以及内存104的运行状态相关的数据,采用机器学习算法确定内存的故障特征模式,并确定该故障模式是采用硬件隔离技术进行修复还是采用软件隔离技术进行修复。当管理模块101确定采用硬件隔离技术修复内存时,管理模块101向处理器固件102发送修复请求。当管理模块101确定采用软件隔离技术修复内存时,管理模块101向OS管理单元103发送修复请求。
处理器固件102可以为Firmware、基本输入输出系统BIOS、管理引擎(managementengine,ME),或智能管理单元(intelligent management unit,IMU)等固件。本申请实施例对于处理器固件102的具体形式并不进行限定,在此仅是示例性说明。下述实施例仅以处理器固件102为BIOS为例进行说明。
处理器固件102可以用于检测内存故障时的错误信息。例如,可以纠正错误的相关信息和不可纠正错误的相关信息等。需要说明的是,上述内存的错误信息的具体内容仅是示例性的举例,本申请实施例对于处理器固件102检测的错误信息的具体内容并不限定。
示例性的,OS管理单元103可以为OS自带的系统管理单元,也可以为OS中安装的设备管理代理程序,本申请实施例对此并不限定。
示例性的,内存104可以为计算机系统100的运行内存。计算机系统100中的内存104可以为多个,该内存104可以为动态随机存取存储器DRAM。
需要说明的是,在具体实现中,计算机系统100可以是任何包括图3中类似结构的设备。本申请实施例不限定计算机系统100的具体类型。此外,图3中示出的组成结构并不构成对该计算机系统100的限定,除图3所示的部件之外,该计算机系统100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
结合图3,如图4所示,为本申请实施例提供的一种内存故障处理方法,该方法包括步骤S401-S403。
S401、管理模块获取内存的错误信息。
示例性的,内存的错误信息为内存运行过程中出错的信息。该内存的错误信息可以包括:可纠正错误CE的状态、CE发生时间、CE出错次数、CE的物理地址信息、不可纠正错误的状态、不可纠正错误的发生时间、不可纠正错误的出错次数、不可纠正错误的物理地址信息、内存巡检出错次数、内存巡检出错行地址、内存巡检出错列地址、内存巡检出错最多行地址等信息。本申请实施例对于内存的错误信息包括的具体内容并不限定,在此仅是示例性说明。
示例性的,上述CE的物理地址信息用于指示CE在内存中的物理位置。即基于该CE的物理地址信息可以确定出CE在内存中的具体物理位置。例如,CE的物理地址信息可以包括CE所在的CPU节点号、Channel号、DIMM插槽号、逻辑Rank号、Bank group号、bank号、行号、列号、芯片颗粒号或bit位置等信息中的一种或多种。
示例性的,上述不可纠正错误的物理地址信息用于指示不可纠正错误在内存中的物理位置。即基于该不可纠正错误的物理地址信息可以确定出不可纠正错误在内存中的具体物理位置。不可纠正错误的物理地址信息可以包括:不可纠正错误所在的CPU节点号、通道Channel号、DIMM插槽号、逻辑Rank号、Bank group号、bank号、行号、列号、芯片颗粒号或比特bit位置等信息中的一种或多种。
本申请实施例对于上述CE的物理地址信息以及不可纠正错误的物理地址信息的具体内容并不限定,在此仅是示例性说明。
可选的,上述不可纠正错误在不同的处理器或计算机系统中有不同的名称。例如,在X86架构中,不可纠正错误可以称为必须软件可恢复操作(software recoverableaction required,SRAR)、建议软件可恢复操作(software recoverable actionoptional,SRAO)、未激活的不可纠正错误(uncorrected no action,UCNA);在ARM架构中,不可纠正错误可以称为不可纠正错误(uncorrected error,UE)、不可恢复错误(unrecoverable error,UEU)、带标记错误(signaled or recoverable error,UER)、潜伏错误(latent or restartable error,UEO)、延迟的错误(deferred error,DE)。本申请对于不可纠正错误的具体名称并不进行限定。
示例性的,步骤S401中管理模块获取内存的错误信息,可以包括:管理模块接收来自处理器固件的内存的错误信息。例如,BMC接收BIOS发送的内存的错误信息。可选的,BMC也可以接收其他处理器固件(例如,Firmware、ME或IMU)发送的错误信息,本申请实施例对此并不限定。
可选的,步骤S401之前还可以包括:处理器固件检测内存的错误信息,并向管理模块发送其检测的错误信息。
可选的,步骤S401之前还可以包括:管理模块接收来自传感器采集的内存的运行状态数据。该内存的运行状态数据为能够反映内存运行情况的数据。例如,内存的运行状态数据可以包括CPU占用率信息、温度信息、运行程序信息、内存健康状态信息中的至少一种。可选的,内存的运行状态数据也可以包括其他能够反映内存运行情况的数据,本申请实施例对此并不限定。比如,BMC可以接收内存中的温度传感器采集的每个Device(颗粒)的温度信息。
S402、管理模块基于内存的错误信息,采用机器学习算法确定内存的故障特征模式或者修复内存采用的隔离修复技术。
示例性的,内存的故障特征模式可以包括:页Page故障模式、单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式等故障模式中的一种或多种。本申请实施例对于内存的故障特征模式的具体粒度并不限定,在此仅是示例性说明。随着技术的进步,未来可能还会有更细或更粗粒度的故障特征模式。
示例性的,采用机器学习算法确定的修复内存采用的隔离修复技术可以为硬件隔离修复技术,也可以为软件隔离修复技术,本申请实施例对此并不限定。
示例性的,硬件隔离修复技术可以包括:比特bit隔离替换、Cell隔离替换、行Row隔离替换、列column隔离替换、Bank隔离替换、颗粒Device隔离替换、Rank隔离替换、通道channel隔离替换、单颗粒数据纠正(single device data correction,SDDC)、单颗粒错误纠正(single device error correction,SDEC)、自适应型双颗粒数据纠正-多区域(adaptive double device data correction-multiple region,ADDDC-MR)、自适应型数据纠正-单区域(adaptive data correction-single region,ADC-SR)、自适应型双颗粒错误纠正(adaptive double device error correction,ADDEC)、部分缓存数据替换(partial cache line sparing,PCLS)、自适应缓存行替换(adaptive cache linesparing,ACLS)、硬件行替换(hardware post-package repair,hPPR)、软件行替换(software post-package repair,sPPR)、行替换(post-package repair,PPR)、或替换内存特定地址范围的硬件隔离修复技术等修复技术中的一种或多种。本申请实施例对于硬件隔离修复技术的具体类型并不限定,在此仅是示例性的说明。
示例性的,软件隔离修复技术可以包括:页隔离(Page offline)、地址隔离、进程隔离、或替换内存特定地址范围的软件隔离修复技术等修复技术中的一种或多种。本申请实施例对于软件隔离修复技术的具体类型并不限定,在此仅是示例性说明。
示例性的,步骤S402中的机器学习算法可以包括基于阈值决策的算法、决策树类算法、有监督机器学习算法、无监督机器学习算法、内存引脚链路检测算法等。例如,管理模块可以基于决策树算法、随机森林算法或神经网络算法确定内存的故障特征模式或者修复内存采用的隔离修复技术。本申请实施例对于确定内存的故障特征模式或者修复内存采用的隔离修复技术时具体采用的机器学习算法的类型并不限定,在此仅是示例性说明。
示例性的,步骤S402中管理模块基于内存的错误信息,采用机器学习算法确定内存的故障特征模式,可以包括:管理模块基于内存的错误信息,以及故障预测模型,采用机器学习算法确定内存的故障特征模式。该故障预测模型用于预测内存的故障特征模式。
示例性的,该故障预测模型可以为上层运维系统通过统计一段时间内多个服务器中的内存的错误信息,并基于该大量的错误信息采用机器学习算法建立故障预测模型。可选的,建立故障预测模型时采用的机器学习算法,与确定内存的故障特征模式时采用的机器学习算法可以相同。
可选的,上述步骤S402之前还可以包括上层运维系统向管理模块发送故障预测模型,管理模块接收故障预测模型。从而管理模块可以基于故障预测模型确定内存的故障特征模式。可以理解的,故障预测模型的输入参数可以为内存的错误信息和内存的运行状态数据,输出参数可以为故障特征模式。
示例性的,管理模块通过步骤S401接收内存的当前错误信息后,上述步骤S402中管理模块基于内存的错误信息,采用机器学习算法确定内存的故障特征模式,可以包括:管理模块结合内存的当前错误信息以及内存的历史错误信息(历史错误信息为管理模块在接收当前错误信息之前接收到的错误信息),依次判断当前内存是否满足单比特bit故障模式的条件、cell故障模式的条件、行Row故障模式的条件、列column故障模式的条件、Bank故障模式的条件、颗粒Device故障模式的条件、Rank故障模式的条件、DIMM故障模式的条件,以及通道channel故障模式的条件,并为当前内存生成故障模式编码,该故障模式编码用于指示当前内存满足哪些故障模式的条件;管理模块基于多个故障模式编码,采用机器学习算法预测内存发生故障的模式,以及每种故障模式导致系统级故障的概率,并基于每种故障模式导致系统级故障的概率确定内存的故障特征模式。
示例性的,管理模块可以采用机器学习算法依次判断当前内存满足以上哪个故障模式的条件。可选的。当前内存可以满足上述一个或多个故障模式的条件。例如,当前的内存可以满足Row故障模式的条件、Bank故障模式的条件,以及Device故障模式的条件。可以理解的,本申请实施例对于当前内存满足的具体故障模式以及各个故障模式的条件并不进行限定,当前内存满足的具体故障模式与内存的运行状态有关,在此仅是示例性说明。
可选的,上述单bit故障模式的条件、cell故障模式的条件、Row故障模式的条件、column故障模式的条件、Bank故障模式的条件、Device故障模式的条件、Rank故障模式的条件、DIMM故障模式的条件,以及channel故障模式的条件,可以基于故障预测模型得到。例如,基于故障预测模型可以确定单bit故障模式的条件为同一个bit的错误次数超过的阈值。再例如,基于故障预测模型可以确定Row故障模式的条件为同一个Row发生错误的次数超过的阈值。
可选的,管理模块确定当前内存满足一个或多个故障模式的条件后,在为当前内存生成故障模式编码时,该故障模式编码可以为多个比特组成的编码,其中,一个比特可以代表一种故障模式,一个比特的不同取值可以用于指示当前内存是否满足该比特对应的故障模式的条件。
示例性的,以故障模式编码为9个bit,一个比特的取值为1表示满足该比特对应的故障模式的条件,取值为0表示不满足该比特对应的故障模式的条件为例。第0比特为1可以用于指示当前内存满足单bit故障模式的条件;第1比特为1可以用于指示当前内存满足cell故障模式的条件;第2比特为1可以用于指示当前内存满足Row故障模式的条件;第3比特为1可以用于指示当前内存满足column故障模式的条件;第4比特为1可以用于指示当前内存满足Bank故障模式的条件;第5比特为1可以用于指示当前内存满足Device故障模式的条件;第6比特为1可以用于指示当前内存满足Rank故障模式的条件;第7比特为1可以用于指示当前内存满足DIMM故障模式的条件;第8比特为1可以用于指示当前内存满足channel故障模式的条件。例如,管理模块确定的故障模式编码为000110100,该故障模式编码用于指示当前内存满足Row故障模式的条件、Bank故障模式的条件,以及Device故障模式的条件。
示例性的,管理模块每接收一个内存的错误信息,就会确定一个故障模式编码,管理模块可以结合历史确定的多个故障模式编码,并基于该多个故障模式编码的统计值,采用机器学习算法预测内存中不同故障模式导致系统级故障的概率,并导致系统级故障的概率大于预设阈值的故障模式确定为内存的故障特征模式。可选的,上述统计值可以包括累加值、平均值、滑动窗口平均值、标准差、概率分布参数等经过统计处理后产生的结果。
可选的,管理模块确定的内存的故障特征模式可以为一个,也可以为多个,本申请实施例对此并不限定。当管理模块确定的内存的故障特征模式为一个时,管理模块向处理器固件发送该故障特征模式。当管理模块确定的内存的故障特征模式为多个时,管理模块可以向处理器固件发送故障概率最大的故障特征模式,也可以向处理器固件发送该多个故障特征模式。
可以理解的,上述步骤S402中管理模块基于内存的错误信息,采用机器学习算法确定修复内存采用的隔离修复技术的具体实现方式,可以参考上述管理模块基于内存的错误信息,采用机器学习算法确定内存的故障特征模式的实现方式,在此不再赘述。
可选的,当步骤S401之前还包括管理模块接收来自传感器采集的内存的运行状态数据时,上述步骤S402可以包括:管理模块基于内存的错误信息以及内存的运行状态数据,采用机器学习算法确定内存的故障特征模式或者修复内存采用的隔离修复技术。例如,管理模块基于内存的错误信息确定故障模式编码,基于该故障模式编码以及内存的运行状态数据,采用机器学习算法预测内存发生故障的模式,以及每种故障模式导致系统级故障的概率,并基于每种故障模式导致系统级故障的概率确定内存的故障特征模式。可以理解的,基于内存的错误信息以及内存的运行状态数据确定内存的故障特征模式或者修复内存采用的隔离修复技术时,能够提高预测的故障模式或修复技术的准确性。
可选的,管理模块确定内存的故障特征模式为DIMM故障模式或者比DIMM更粗粒度的故障模式时(例如,channel故障模式),管理模块可以发送预警信息,提醒用户更换内存条,以实现对故障内存的修复。
可以理解的,由于本申请实施例中内存的错误信息内容详细,可以具体到行列地址,因此基于该错误信息能够准确的定位内存的故障区域,而且结合该详细的错误信息,采用机器学习算法,确定的内存的故障特征模式较为准确。因此,本方案能够准确的定位故障类型和故障位置。
S403、管理模块基于内存的故障特征模式或者修复内存采用的隔离修复技术,确定采用硬件隔离或软件隔离中的至少一种修复内存。
硬件隔离是指采用CPU自带的底层内存资源将故障区域局部隔离。即可以采用CPU底层的冗余空间替换故障区域,将故障区域局部隔离。
软件隔离是指OS层将发生内存错误的区域进行隔离。例如,对于内存页隔离(pageoffline),OS层可以kill正在使用该内存页的进程,或者,OS层可以关闭正在使用该内存页的应用。可选的,OS层可以在内存页发生不可纠正错误的时候对其进行隔离处理。
示例性的,管理模块基于内存的故障模式的不同,可以确定采用硬件隔离修复故障内存,或者,采用软件隔离修复故障内存,或者,采用硬件隔离和软件隔离修复故障内存。
可选的,在内存的故障特征模式为单bit故障模式、Cell故障模式、Row故障模式、column故障模式、Bank故障模式、Device故障模式、Rank故障模式、channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式,或短时间突发大量错误故障模式的情况下,管理模块可以确定采用硬件隔离修复故障内存。但由于CPU自带的底层内存的冗余空间有限,因此采用硬件隔离可能无法修复故障内存。当采用硬件隔离无法修复故障内存时,管理模块可以确定采用软件隔离修复故障内存。
例如,当内存的故障特征模式为Cell故障模式(或单bit故障模式)时,管理模块确定采用硬件隔离修复内存,若CPU自带的底层内存的冗余空间不足,采用硬件隔离无法修复故障内存,那么管理模块可以确定采用软件隔离修复故障内存。
可选的,在内存的故障模式为Page故障模式情况下,管理模块可以确定采用软件隔离修复内存。
一种实现方式中,管理模块基于内存的故障特征模式,确定采用硬件隔离和/或软件隔离修复内存,可以包括:管理模块优先确定采用硬件隔离修复故障内存,在硬件隔离无法修复故障内存的情况下,管理模块可以确定采用软件隔离修复该故障内存。需要说明的是,在内存的故障特征模式为除Page故障模式以外的故障模式时,管理模块均可以通过该实现方式确定采用硬件隔离或软件隔离修复故障内存。需要说明的是,在该实现方式中,管理模块可以从处理器固件的反馈信息中获知采用硬件隔离无法修复故障内存。
另一种实现方式中,管理模块基于修复内存采用的隔离修复技术,确定采用硬件隔离和/或软件隔离修复内存,可以包括:当修复内存采用的隔离修复技术为硬件隔离修复技术时,管理模块确定采用硬件隔离修复内存。当修复内采用的隔离修复技术为软件隔离修复技术时,管理模块确定采用软件隔离修复内存。当修复内存采用的隔离修复技术既有硬件隔离修复技术也有软件隔离修复技术时,管理模块确定采用硬件隔离和软件隔离修复内存。
可以理解的,本实施例提供的内存故障的处理方法,通过管理模块获取内存的错误信息,并基于内存的错误信息,采用机器学习算法确定内存的故障特征模式或者隔离修复技术,再基于该内存的故障特征模式或者隔离修复技术,确定采用硬件隔离和/或软件隔离修复故障内存。该方案基于详细的内存的错误信息,采用机器学习算法,确定的内存的故障特征模式较准确。而且管理模块可以针对不同的故障特征模式或不同的隔离修复技术确定具体采用的隔离方式,因此故障修复的准确率较高,能够降低系统宕机的概率。
本申请实施例还提供一种内存故障处理方法,涉及到管理模块和处理器固件之间的交互,如图5所示,若步骤S403确定采用硬件隔离修复内存,在上述步骤S401-S403的基础上,该方法还可以包括步骤S501-S506。图5中未示出步骤S401-S403。
S501、若管理模块确定采用硬件隔离修复内存,管理模块向处理器固件发送第一故障修复请求。
第一故障修复请求用于请求处理器固件修复内存,第一故障修复请求中包括内存的故障特征模式或者修复内存采用的隔离修复技术中的至少一种。即管理模块可以直接向处理器固件发送修复内存采用的硬件隔离修复技术,也可以向处理器固件发送内存的故障特征模式,由处理器固件根据该内存的故障特征模式确定修复内存采用的硬件隔离修复技术。可选的,管理模块还可以向处理器固件发送内存的故障特征模式以及修复内存采用的隔离修复技术,从而处理器固件可以基于该隔离修复技术修复故障内存。
可选的,管理模块向处理器固件发送的第一故障修复请求中还可以包括故障区域的地址信息。例如,以内存的故障特征模式为Cell故障模式为例,管理模块向处理器固件发送的第一故障修复请求中除包括Cell故障模式以外,还可以包括该故障的Cell的具体地址信息。
示例性的,管理模块可以通过管理模块和处理器固件之间的带外管理接口向处理器固件发送第一故障修复请求。例如,若BMC确定采用硬件隔离技术修复故障内存,BMC可以通过BMC和BIOS之间的通信接口向BIOS发送第一故障修复请求,请求BIOS修复故障内存。
S502、处理器固件接收来自管理模块的第一故障修复请求。
例如,BIOS可以接收来自BMC的第一故障修复请求。BIOS基于第一故障修复请求中包括内存的故障特征模式和/或修复内存采用的隔离修复技术,获知当前内存的故障类型和/或修复内存采用的隔离修复技术。可选的,BIOS基于第一故障修复请求中还包括故障区域的地址信息,可以获知故障区域的位置。
示例性的,当第一故障修复请求中包括修复内存采用的隔离修复技术时,在步骤S501-S502之后继续执行步骤S506。即处理器固件可以基于管理模块发送的隔离修复技术修复内存。
示例性的,当第一故障修复请求中不包括修复内存采用的隔离修复技术(例如,第一故障修复请求中仅包括内存的故障特征模式)时,在步骤S501-S502之后继续执行步骤S503-S506。即处理器固件可以基于管理模块发送的内存的故障特征模式,确定修复内存采用的隔离修复技术,再基于该隔离修复技术修复内存。
(可选的)S503、处理器固件确定修复内存采用的隔离修复技术。
一种实现方式中,处理器固件确定修复内存采用的隔离修复技术可以包括:处理器固件根据内存的故障特征模式,确定采用哪种硬件隔离修复技术修复故障内存。例如,在内存的故障特征模式为Bank故障模式的情况下,处理器固件可以确定采用Bank隔离替换修复故障内存。再例如,在内存的故障特征模式为Cell故障模式的情况下,处理器固件可以确定采用Cell隔离替换修复故障内存。即在该实现方式中,是由处理器固件自己根据内存的故障特征模式,确定具体采用哪种隔离修复技术。
另一种实现方式中,处理器固件还可以根据管理模块发送的第一故障修复信息表,确定修复上述内存采用的隔离修复技术。该第一故障修复信息表用于指示故障特征模式,以及故障特征模式对应的一种或多种硬件隔离修复技术。即管理模块通过查询该第一故障信息表,可以获知故障特征模式可以采用的硬件隔离修复技术。
示例性的,第一故障修复信息表中的故障特征模式可以包括:单bit故障模式、Cell故障模式、Row故障模式、column故障模式、Bank故障模式、Device故障模式、Rank故障模式、channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的一种或多种。
示例性的,上述第一故障修复信息表中不同的故障特征模式可以采用相同的硬件隔离修复技术。不同的故障特征模式也可以采用不同的硬件隔离修复技术。本申请实施例对于每种故障特征模式具体采用的硬件隔离修复技术的类型并不限定。
示例性的,上述第一故障修复信息表中一种故障特征模式可以采用一种硬件隔离修复技术,也可以采用多种硬件隔离修复技术。
可选的,若处理器固件查询第一故障修复信息表,确定内存的故障特征模式对应多种硬件隔离修复技术,那么处理器固件可以从该多种硬件隔离修复技术中确定出一种硬件隔离修复技术。
可选的,若处理器固件根据管理模块发送的第一故障修复信息表,确定内存的故障特征模式对应的隔离修复技术,在上述步骤S503之前还可以包括步骤S504-S505。
(可选的)S504、管理模块向处理器固件发送第一故障修复信息表。
可选的,该第一故障修复信息表可以携带在第一故障修复请求中。
(可选的)S505、处理器固件接收第一故障修复信息表。
可以理解的,本申请实施例对于步骤S504-S505与其他步骤之间的执行顺序并不进行限定,图5仅是示例性的示意。例如,步骤S504-S505也可以在步骤S501之前执行。
S506、处理器固件基于隔离修复技术修复内存。
示例性的,处理器固件可以基于管理模块发送的隔离修复技术修复内存,也可以基于处理器固件通过步骤S503确定的隔离修复技术修复内存。
例如,以管理模块发送的隔离修复技术Bank隔离替换为例,BIOS可以采用Bank隔离替换技术利用底层资源将故障的Bank隔离。再例如,以故障特征模式为Cell故障模式,Cell故障模式在第一故障修复信息表中对应的隔离修复技术为Cell隔离替换为例,BIOS可以采用Cell隔离替换技术利用底层资源将故障的Cell隔离。
可以理解的,本申请实施例提供的内存故障处理方法,基于详细的内存的错误信息,采用机器学习算法,确定的内存的故障特征模式或者修复内存采用的隔离修复技术较准确。而且管理模块在确定采用硬件隔离修复内存时,通过通知处理器固件,使得处理器固件可以采用相应的隔离替换技术利用底层资源对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。
可选的,本申请实施例还提供一种内存故障的处理方法,如图6所示,在步骤S501-S506之后,还可以包括步骤S507-S508。图6中未示出步骤S401-S403。
S507、处理器固件向管理模块发送第一故障修复响应。
第一故障修复响应中携带处理器固件修复内存后的修复结果。例如,第一故障修复响应中携带处理器固件修复内存成功,或者,第一故障修复响应中携带处理器固件修复内存失败。
例如,当处理器固件采用内存的故障特征模式对应的隔离修复技术成功修复内存时,处理器固件向管理模块发送的修复结果为修复成功。当处理器固件采用内存的故障特征模式对应的隔离修复技术修复内存失败时,处理器固件向管理模块发送的修复结果为修复失败。
可以理解的,由于处理器自带的底层资源有限,当底层资源不足时,处理器固件可能无法修复内存,因此处理器固件修复内存失败。
S508、管理模块接收第一故障修复响应。
示例性的,管理模块可以根据第一故障修复响应中携带的修复结果,获知处理器固件修复成功或修复失败。当第一故障修复响应中携带的修复结果为修复失败时,管理模块可以确定CPU自带的底层资源不足,管理模块可以向OS管理单元发送修复请求,请求OS管理单元采用软件隔离技术对故障内存进行修复。
例如,若CPU自带的底层内存的冗余空间不够一个Cell,但当前内存的故障特征模式为Cell故障模式时,处理器固件采用Cell隔离修复技术无法成功修复内存,处理器固件向管理模块发送当前的修复结果为修复失败。管理模块接收该处理器固件发送的修复结果后,可以向OS管理单元发送故障请求,请求OS管理采用软件隔离技术进行修复。
可选的,管理模块还可以根据第一故障修复响应中携带的修复结果确定内存的故障严重程度,并在内存故障严重程度较高时进行预警。
可以理解的,本申请实施例提供的内存故障处理方法,基于详细的内存的错误信息,采用机器学习算法,确定的内存的故障特征模式或者修复内存采用的隔离修复技术较准确。而且管理模块在确定采用硬件隔离修复内存时,通过通知处理器固件,使得处理器固件可以采用相应的隔离替换技术利用底层资源对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。而且处理器固件修复内存后,通过向管理模块反馈修复结果,能够进一步提高故障修复的成功率。
本申请实施例还提供一种内存故障处理方法,涉及到管理模块和OS管理单元之间的交互,如图7所示,若步骤S403确定采用软件隔离修复内存,在上述步骤S401-S403的基础上,该方法还可以包括步骤S701-S706。图5中未示出步骤S401-S403。
S701、若管理模块确定采用软件隔离修复内存,管理模块向OS管理单元发送第二故障修复请求。
第二故障修复请求用于请求OS管理单元修复内存,第二故障修复请求中包括内存的故障特征模式或者修复上述内存采用的隔离修复技术中的至少一种。即管理模块可以直接向OS管理单元发送修复内存采用的软件隔离修复技术,也可以向OS管理单元发送内存的故障特征模式,由OS管理单元根据该内存的故障特征模式确定修复内存采用的软件隔离修复技术。可选的,管理模块还可以向OS管理单元发送内存的故障特征模式以及修复内存采用的隔离修复技术,从而OS管理单元可以基于该隔离修复技术修复故障内存。
可选的,管理模块向OS管理单元发送的第二故障修复请求中还可以包括故障区域的地址信息。例如,以内存的故障特征模式为Page故障模式为例,第二故障修复请求中除包括Page故障模式以外,还可以包括该故障的Page的具体信息。
示例性的,管理模块可以通过管理模块和OS管理单元之间的带外管理接口向OS管理单元发送第二故障修复请求。例如,若BMC确定采用软件隔离技术修复故障内存,BMC可以通过BMC和OS管理单元之间的通信接口向OS管理单元发送第二故障修复请求,请求OS管理单元修复故障内存。
S702、OS管理单元接收来自管理模块的第二故障修复请求。
例如,OS管理单元可以接收来自BMC的第二故障请求,OS管理单元基于第二故障修复请求中包括的故障特征模式,获知当前内存的故障类型。再例如,OS管理单元基于第二故障修复请求中包括的修复内存采用的隔离修复技术,获知采用哪种修复技术修复内存。可选的,OS管理单元还可以基于第二故障修复请求中包括的故障区域的地址信息,获知故障区域的具体位置。
示例性的,当第二故障修复请求中包括修复内存采用的隔离修复技术时,在步骤S701-S702之后继续执行步骤S706。即OS管理单元可以基于管理模块发送的隔离修复技术修复内存。
示例性的,当第二故障修复请求中不包括修复内存采用的隔离修复技术(例如,第二故障修复请求中仅包括内存的故障特征模式)时,在步骤S701-S702之后继续执行步骤S703-S706。即OS管理单元可以基于管理模块发送的内存的故障特征模式,确定修复内存采用的隔离修复技术,再基于该隔离修复技术修复内存。
(可选的)S703、OS管理单元确定修复内存采用的隔离修复技术。
一种实现方式中,OS管理单元确定修复内存采用的隔离修复技术可以包括:OS管理单元根据内存的故障特征模式,确定采用哪种软件隔离修复技术修复故障内存。即在该实现方式中,是由OS管理单元自己根据内存的故障特征模式,确定具体采用哪种隔离修复技术。例如,在内存的故障特征模式为Page故障模式的情况下,OS管理单元可以确定采用页隔离(Page offline)修复故障内存。
另一种实现方式中,OS管理单元还可以根据管理模块发送的第二故障修复信息表,确定修复上述内存采用的隔离修复技术。该第二故障修复信息表用于指示故障特征模式,以及故障特征模式对应的一种或多种软件隔离修复技术。即OS管理单元通过查询该第二故障信息表,可以获知故障特征模式可以采用的软件隔离修复技术。
示例性的,第二故障修复信息表中的故障特征模式可以包括:页Page故障模式、单bit故障模式、Cell故障模式、Row故障模式、column故障模式、Bank故障模式、Device故障模式、Rank故障模式、channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的一种或多种。
示例性的,上述第二故障修复信息表中不同的故障特征模式可以采用相同的软件隔离修复技术。不同的故障特征模式也可以采用不同的软件隔离修复技术。本申请实施例对于每种故障特征模式具体采用的软件隔离修复技术的类型并不限定。
示例性的,上述第二故障修复信息表中一种故障特征模式可以采用一种软件隔离修复技术,也可以采用多种软件隔离修复技术。
可选的,若OS管理单元查询第二故障修复信息表,确定内存的故障特征模式对应多种软件隔离修复技术,那么OS管理单元可以从该多种软件隔离修复技术中确定出一种软件隔离修复技术。
可选的,若OS管理单元根据管理模块发送的第二故障修复信息表,确定内存的故障特征模式对应的隔离修复技术,在上述步骤S703之前还可以包括步骤S704-S705。
(可选的)S704、管理模块向OS管理单元发送第二故障修复信息表。
可选的,该第二故障修复信息表可以携带在第二故障修复请求中。
(可选的)S705、OS管理单元接收第二故障修复信息表。
可以理解的,本申请实施例对于步骤S704-S705与其他步骤之间的执行顺序并不进行限定,图7仅是示例性的示意。例如,步骤S704-S705也可以在步骤S701之前执行。
S706、OS管理单元基于隔离修复技术修复内存。
示例性的,OS管理单元可以基于管理模块发送的隔离修复技术修复内存,也可以基于OS管理单元通过步骤S703确定的隔离修复技术修复内存。
例如,以管理模块发送的隔离修复技术为Page隔离替换为例,OS管理单元可以采用Page隔离替换技术将故障的Page隔离。
可以理解的,本申请实施例提供的内存故障处理方法,基于详细的内存的错误信息,采用机器学习算法,确定的内存的故障特征模式或者修复内存采用的隔离修复技术较准确。而且管理模块在确定采用软件隔离修复内存时,通过通知OS管理单元,使得OS管理单元可以采用相应的软件隔离替换技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。
可选的,本申请实施例还提供一种内存故障的处理方法,如图8所示,在步骤S701-S706之后,还可以包括步骤S707-S708。图8中未示出步骤S401-S403。
S707、OS管理单元向管理模块发送第二故障修复响应。
第二故障修复响应中携带OS管理单元修复内存后的修复结果。例如,第二故障修复响应中携带OS管理单元修复内存成功,或者,第二故障修复响应中携带OS管理单元修复内存失败。
例如,当OS管理单元采用内存的故障特征模式对应的隔离修复技术成功修复内存时,OS管理单元向管理模块发送的修复结果为修复成功。当OS管理单元采用内存的故障特征模式对应的隔离修复技术修复内存失败时,OS管理单元向管理模块发送的修复结果为修复失败。
S708、管理模块接收第二故障修复响应。
示例性的,管理模块可以根据第二故障修复响应中携带的修复结果,获知OS管理单元修复成功或修复失败。
可选的,管理模块可以根据第二故障修复响应中的修复结果确定内存的严重程度。例如,当第二故障修复响应中携带的修复结果为修复失败时,管理模块可以基于该修复结果进一步确定内存的故障严重程度,并在内存故障严重程度较高时进行预警。
可以理解的,本申请实施例提供的内存故障处理方法,基于详细的内存的错误信息,采用机器学习算法,确定的内存的故障特征模式或者修复内存采用的隔离修复技术较准确。而且管理模块在确定采用软件隔离修复内存时,通过通知OS管理单元,使得OS管理单元可以采用相应的软件隔离替换技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。
示例性的,本申请实施例还提供一种内存故障的处理方法,如图9所示,在步骤S501-S508之后,和/或,步骤S701-S708之后,还可以包括步骤S901-S902。图9中未示出步骤S501-S508和S701-S708。
S901、管理模块确定内存的故障严重程度。
一种实现方式中,管理模块确定内存的故障严重程度可以包括:管理模块基于内存的错误信息和内存的运行状态数据,确定内存的故障严重程度。
另一种实现方式中,管理模块确定内存的故障严重程度可以包括:管理模块基于第一故障修复响应和第二故障修复响应中的至少一种,确定内存的故障严重程度。即管理模块可以根据处理器固件反馈的修复结果和OS管理单元反馈的修复结果,确定内存的故障严重程度。
可选的,管理模块还可以结合内存的错误信息、内存的运行状态数据、第一故障修复响应,以及第二故障修复响应中的至少一种,确定内存的故障严重程度。
S902、在内存的故障严重程度超过预设阈值的情况下,管理模块向上层运维系统发送告警信息。
该告警信息中可以携带风险评估结果(例如,风险等级)和预告警信息。
可选的,管理模块还可以显示告警信息,提示用户及时更换内存条,避免系统宕机风险。
可选的,管理模块还可以基于内存的错误信息、内存的运行状态数据、第一故障修复响应,以及第二故障修复响应进行故障预测,并评估内存的失效风险情况。
可以理解的,本申请实施例提供的内存故障处理方法,基于详细的内存的错误信息,采用机器学习算法,确定的内存的故障特征模式较准确。而且管理模块在确定采用软件隔离修复内存时,通过通知OS管理单元,使得OS管理单元可以采用相应的软件隔离替换技术对故障区域进行修复,因此故障修复的准确率较高,能够降低系统宕机的概率。而且通过评估内存的严重程度,可以在内存的故障严重程度较高时,发布内存预告警信息提示用户,避免系统宕机风险。
上述主要从方法步骤的角度对本发明实施例提供的方案进行了介绍。可以理解的是,计算机为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件和计算机软件的结合形式来实现。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请实施例可以根据上述方法示例对计算机进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图10示出了一种内存故障处理装置1000的结构示意图,该内存故障处理装置可以为上述实施例中的管理模块,还可以为上述管理模块内的芯片,内存故障处理装置1000可以用于实现上述任一实施例涉及管理模块的方法和功能。
该内存故障处理装置1000包括:处理单元1001和收发单元1002。示例性的,收发单元1002可用于支持管理模块与上述实施例中的处理器固件、OS管理单元和上层运维系统之间进行通信。处理单元1001用于对上述管理模块的动作进行控制管理,用于执行上述实施例中由管理模块进行的处理,可选的,若内存故障处理装置1000包括存储单元,则处理单元1001还可以执行存储在存储器中的程序或指令,以使得内存故障处理装置1000实现上述任一实施例所涉及的方法和功能。
示例性的,上述处理单元1001可以用于执行例如图4中的步骤S401-S403,或,图9中的步骤S901-S902,和/或用于本文所描述的技术的其它过程。收发单元1002可以用于执行例如图5中的步骤S501和S504,或,图6中的步骤S508,或,图7中的步骤S701和S704,或,图8中的步骤S708,和/或用于本文所描述的技术的其它过程(例如,收发单元1002还可以用于接收来自传感器检测的内存的运行状态数据)。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
示例性的,在硬件实现上,可以由一个处理器执行处理单元1001的功能,可以由收发器(发送器/接收器)和/或通信接口执行收发单元1002的功能,其中,处理单元1001可以以硬件形式内嵌于或独立于内存故障处理装置1000的处理器中,也可以以软件形式存储于内存故障处理装置1000的存储器中,以便于处理器调用执行以上各个功能单元对应的操作。
图11示出了一种内存故障处理装置1100的结构示意图,该内存故障处理装置可以为上述处理器固件,还可以为上述处理器固件内的芯片,内存故障处理装置1100可以用于实现上述任一实施例涉及处理器固件的方法和功能。
该内存故障处理装置1100包括:处理单元1101和收发单元1102。示例性的,收发单元1102可用于支持处理器固件与上述实施例中的管理模块之间进行通信。处理单元1101用于对上述处理器固件的动作进行控制管理,用于执行上述实施例中由处理器固件进行的处理,可选的,若内存故障处理装置1100包括存储单元,则处理单元1101还可以执行存储在存储器中的程序或指令,以使得内存故障处理装置1100实现上述任一实施例所涉及的方法和功能。
示例性的,上述处理单元1101可以用于执行例如检测内存的错误信息,或,图5中的步骤S503和S506,和/或用于本文所描述的技术的其它过程。收发单元1102可以用于执行例如向管理模块发送内存的错误信息,或,图5中的步骤S502和S505,或,图6中的步骤S502、S505和S507,和/或用于本文所描述的技术的其它过程。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
示例性的,在硬件实现上,可以由一个处理器执行处理单元1101的功能,可以由收发器(发送器/接收器)和/或通信接口执行收发单元1102的功能,其中,处理单元1101可以以硬件形式内嵌于或独立于内存故障处理装置1100的处理器中,也可以以软件形式存储于内存故障处理装置1100的存储器中,以便于处理器调用执行以上各个功能单元对应的操作。
图12示出了一种内存故障处理装置1200的结构示意图,该内存故障处理装置可以为上述OS管理单元,内存故障处理装置1200可以用于实现上述任一实施例涉及OS管理单元的方法和功能。
该内存故障处理装置1200包括:处理单元1201和收发单元1202。示例性的,收发单元1202可用于支持OS管理单元与上述实施例中的管理模块之间进行通信。处理单元1201用于对上述OS管理单元的动作进行控制管理,用于执行上述实施例中由OS管理单元进行的处理,可选的,若内存故障处理装置1200包括存储单元,则处理单元1201还可以执行存储在存储器中的程序或指令,以使得内存故障处理装置1200实现上述任一实施例所涉及的方法和功能。
示例性的,上述处理单元1201可以用于执行例如图7中的步骤S703和S706,和/或用于本文所描述的技术的其它过程。收发单元1202可以用于执行例如图7中的步骤S702和S705,或,图8中的步骤S702、S705和S707,和/或用于本文所描述的技术的其它过程。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
示例性的,在硬件实现上,可以由一个处理器执行处理单元1201的功能,可以由收发器(发送器/接收器)和/或通信接口执行收发单元1202的功能,其中,处理单元1201可以以硬件形式内嵌于或独立于内存故障处理装置1200的处理器中,也可以以软件形式存储于内存故障处理装置1200的存储器中,以便于处理器调用执行以上各个功能单元对应的操作。
本申请实施例还提供一种内存故障处理装置,该内存故障处理装置包括处理器,还可以包括收发器以及存储器,收发器,用于收发信息,或者用于与其他通信设备通信;存储器,用于存储计算机执行指令;处理器,用于执行所计算机执行指令,以支持管理模块实现图4至图9任一实施例中的内存故障处理方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行图4至图9任一实施例中的内存故障处理方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行图4至图9任一实施例中的内存故障处理方法。
本申请实施例还提供了一种内存故障处理装置,该装置可以以芯片的产品形态存在,该装置的结构中包括处理器和接口电路,该处理器用于通过接收电路与其它装置通信,使得该装置执行图4至图9任一实施例中的内存故障处理方法。
本申请实施例还提供了一种内存故障处理系统,包括管理模块和处理器固件,该管理模块和处理器固件可以执行上述图5或图6中的内存故障处理方法。
本申请实施例还提供了一种内存故障处理系统,包括管理模块和OS管理单元,该管理模块和OS管理单元可以执行上述图7或图8中的内存故障处理方法。
本申请实施例还提供了一种内存故障处理系统,包括管理模块、处理器固件和OS管理单元,该管理模块、处理器固件和OS管理单元可以执行上述图4至图9任一实施例中的内存故障处理方法。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(ElectricallyEPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于核心网接口设备中。当然,处理器和存储介质也可以作为分立组件存在于核心网接口设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (42)

1.一种内存故障处理方法,其特征在于,所述方法包括:
管理模块获取所述内存的错误信息;
所述管理模块基于所述内存的错误信息,采用机器学习算法确定所述内存的故障特征模式或者修复所述内存采用的隔离修复技术;
所述管理模块基于所述内存的故障特征模式或者修复所述内存采用的隔离修复技术,确定采用硬件隔离或软件隔离中的至少一种修复所述内存。
2.根据权利要求1所述的方法,其特征在于,所述内存的错误信息包括可纠正错误CE的状态、CE发生时间、CE出错次数、CE的物理地址信息、不可纠正错误的状态、不可纠正错误的发生时间、不可纠正错误的出错次数、不可纠正错误的物理地址信息、内存巡检出错次数、内存巡检出错行地址、内存巡检出错列地址、内存巡检出错最多行地址中的至少一种;所述CE的物理地址信息用于指示所述CE在所述内存中的物理位置,所述不可纠正错误的物理地址信息用于指示所述不可纠正错误在所述内存中的物理位置。
3.根据权利要求1或2所述的方法,其特征在于,所述故障特征模式包括:页Page故障模式、单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的至少一种。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
所述管理模块获取内存的运行状态数据;所述内存的运行状态数据包括:CPU占用率信息、温度信息、运行程序信息、内存健康状态信息中的至少一种。
5.根据权利要求4所述的方法,其特征在于,所述管理模块基于所述内存的错误信息,采用机器学习算法确定所述内存的故障特征模式或者修复所述内存采用的隔离修复技术,包括:
所述管理模块基于所述内存的错误信息以及所述内存的运行状态数据,采用机器学习算法确定所述内存的故障特征模式或者修复所述内存采用的隔离修复技术。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
若所述管理模块确定采用硬件隔离修复所述内存,所述管理模块向处理器固件发送第一故障修复请求,所述第一故障修复请求用于请求所述处理器固件修复所述内存,所述第一故障修复请求中包括所述内存的故障特征模式或者修复所述内存采用的隔离修复技术中的至少一种。
7.根据权利要求6所述方法,其特征在于,所述方法还包括:
所述管理模块接收来自所述处理器固件的第一故障修复响应,所述第一故障修复响应中携带所述处理器固件修复所述内存后的修复结果。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:
所述管理模块向处理器固件发送第一故障修复信息表,所述第一故障修复信息表用于指示故障特征模式,以及所述故障特征模式对应的一种或多种硬件隔离修复技术。
9.根据权利要求8所述的方法,其特征在于,所述硬件隔离修复技术包括比特bit隔离替换、Cell隔离替换、行Row隔离替换、列column隔离替换、Bank隔离替换、颗粒Device隔离替换、Rank隔离替换、通道channel隔离替换、单颗粒数据纠正SDDC、单颗粒错误纠正SDEC、自适应型双颗粒数据纠正-多区域ADDDC-MR、自适应型数据纠正-单区域ADC-SR、自适应型双颗粒错误纠正ADDEC、部分缓存数据替换PCLS、自适应缓存行替换ACLS、硬件行替换hPPR、软件行替换sPPR、行替换PPR、或替换内存特定地址范围的硬件隔离修复技术中的至少一种。
10.根据权利要求6-9中任一项所述的方法,其特征在于,所述处理器固件包括Firmware、基本输入输出系统BIOS、管理引擎ME,或智能管理单元IMU。
11.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
若所述管理模块确定采用软件隔离修复所述内存,所述管理模块向操作系统OS管理单元发送第二故障修复请求,所述第二故障修复请求用于请求所述OS管理单元修复所述内存,所述第二故障修复请求中包括所述内存的故障特征模式或者修复所述内存采用的隔离修复技术中的至少一种。
12.根据权利要求11所述方法,其特征在于,所述方法还包括:
所述管理模块接收来自所述OS管理单元的第二故障修复响应,所述第二故障修复响应中携带所述OS管理单元修复所述内存后的修复结果。
13.根据权利要求1-12中任一项所述的方法,其特征在于,所述方法还包括:
所述管理模块向OS管理单元发送第二故障修复信息表,所述第二故障修复信息表用于指示故障特征模式,以及所述故障特征模式对应的一种或多种软件隔离修复技术。
14.根据权利要求13所述的方法,其特征在于,所述软件隔离修复技术包括页隔离、地址隔离、进程隔离、或替换内存特定地址范围的软件隔离修复技术中的至少一种。
15.根据权利要求12-14中任一项所述的方法,其特征在于,所述OS管理单元为OS自带的系统管理单元或OS中安装的设备管理代理程序。
16.根据权利要求1-15中任一项所述的方法,其特征在于,所述管理模块基于所述内存的错误信息,采用机器学习算法确定所述内存的故障特征模式,包括:
所述管理模块基于所述内存的错误信息,以及故障预测模型,采用机器学习算法确定所述内存的故障特征模式;所述故障预测模型用于预测所述内存的故障特征模式。
17.根据权利要求1-16中任一项所述的方法,其特征在于,所述方法还包括:
所述管理模块确定所述内存的故障严重程度;
在所述内存的故障严重程度超过预设阈值的情况下,所述管理模块向上层运维系统发送告警信息。
18.根据权利要求17所述的方法,其特征在于,所述管理模块确定所述内存的故障严重程度,包括:
所述管理模块基于第一故障修复响应和第二故障修复响应中的至少一种,确定所述内存的故障严重程度。
19.根据权利要求17所述的方法,其特征在于,所述管理模块确定所述内存的故障严重程度,包括:
所述管理模块基于所述内存的错误信息和内存的运行状态数据,确定所述内存的故障严重程度。
20.根据权利要求1-19中任一项所述的方法,其特征在于,所述管理模块为非业务模块的管理单元,所述管理模块包括运行状态的管理单元、内置于处理器中的管理单元、处理器外的管理芯片中的管理系统、服务器主板管理控制单元BMC、系统管理模块SMM,或OS中的设备管理系统。
21.一种内存故障处理方法,其特征在于,所述方法包括:
处理器固件向管理模块发送所述内存的错误信息;
所述处理器固件接收来自所述管理模块的第一故障修复请求,所述第一故障修复请求用于请求所述处理器固件修复所述内存,所述第一故障修复请求中包括所述内存的故障特征模式或者修复所述内存采用的隔离修复技术中的至少一种;
所述处理器固件基于所述隔离修复技术修复所述内存。
22.根据权利要求21所述的方法,其特征在于,所述内存的错误信息包括可纠正错误CE的状态、CE发生时间、CE出错次数、CE的物理地址信息、不可纠正错误的状态、不可纠正错误的发生时间、不可纠正错误的出错次数、不可纠正错误的物理地址信息、内存巡检出错次数、内存巡检出错行地址、内存巡检出错列地址、内存巡检出错最多行地址中的至少一种;所述CE的物理地址信息用于指示所述CE在所述内存中的物理位置,所述不可纠正错误的物理地址信息用于指示所述不可纠正错误在所述内存中的物理位置。
23.根据权利要求21或22所述的方法,其特征在于,所述故障特征模式包括:单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的至少一种。
24.根据权利要求21-23中任一项所述的方法,其特征在于,所述方法还包括:
所述处理器固件向所述管理模块发送第一故障修复响应,所述第一故障修复响应中携带所述处理器固件修复所述内存后的修复结果。
25.根据权利要求21-24中任一项所述的方法,其特征在于,所述方法还包括:
所述处理器固件接收来自所述管理模块的第一故障修复信息表,所述第一故障修复信息表用于指示故障特征模式,以及所述故障特征模式对应的一种或多种硬件隔离修复技术。
26.根据权利要求25所述的方法,其特征在于,所述硬件隔离修复技术包括比特bit隔离替换、Cell隔离替换、行Row隔离替换、列column隔离替换、Bank隔离替换、颗粒Device隔离替换、Rank隔离替换、通道channel隔离替换、单颗粒数据纠正SDDC、单颗粒错误纠正SDEC、自适应型双颗粒数据纠正-多区域ADDDC-MR、自适应型数据纠正-单区域ADC-SR、自适应型双颗粒错误纠正ADDEC、部分缓存数据替换PCLS、自适应缓存行替换ACLS、硬件行替换hPPR、软件行替换sPPR、行替换PPR、或替换内存特定地址范围的硬件隔离修复技术中的至少一种。
27.根据权利要求25或26所述的方法,其特征在于,所述方法还包括:
所述处理器固件基于所述内存的故障特征模式以及所述第一故障修复信息表,确定修复所述内存采用的隔离修复技术。
28.根据权利要求21-27中任一项所述的方法,其特征在于,所述处理器固件包括Firmware、基本输入输出系统BIOS、管理引擎ME,或智能管理单元IMU。
29.根据权利要求21-28中任一项所述的方法,其特征在于,所述管理模块为非业务模块的管理单元,所述管理模块包括运行状态的管理单元、内置于处理器中的管理单元、处理器外的管理芯片中的管理系统、服务器主板管理控制单元BMC、系统管理模块SMM,或OS中的设备管理系统。
30.一种内存故障处理方法,其特征在于,所述方法包括:
操作系统OS管理单元接收来自管理模块的第二故障修复请求,所述第二故障修复请求用于请求所述OS管理单元修复所述内存,所述第二故障修复请求中包括所述内存的故障特征模式或者修复所述内存采用的隔离修复技术中的至少一种;
所述OS管理单元基于所述隔离修复技术修复所述内存。
31.根据权利要求30所述的方法,其特征在于,所述故障特征模式包括:页Page故障模式、单比特bit故障模式、Cell故障模式、行Row故障模式、列column故障模式、Bank故障模式、颗粒Device故障模式、Rank故障模式、通道channel故障模式、双列直插内存模块DIMM故障模式、少量持续错误故障模式、短时间突发大量错误故障模式中的至少一种。
32.根据权利要求30或31所述的方法,其特征在于,所述方法还包括:
所述OS管理单元向所述管理模块发送第二故障修复响应,所述第二故障修复响应中携带所述OS管理单元修复所述内存后的修复结果。
33.根据权利要求30-32中任一项所述的方法,其特征在于,所述方法还包括:
所述OS管理单元接收来自所述管理模块的第二故障修复信息表,所述第二故障修复信息表用于指示故障特征模式,以及所述故障特征模式对应的一种或多种软件隔离修复技术。
34.根据权利要求33所述的方法,其特征在于,所述软件隔离修复技术包括页隔离、地址隔离、进程隔离、或替换内存特定地址范围的软件隔离修复技术中的至少一种。
35.根据权利要求33或34所述的方法,其特征在于,所述方法还包括:
所述OS管理单元基于所述内存的故障特征模式以及所述第二故障修复信息表,确定修复所述内存采用的隔离修复技术。
36.根据权利要求30-35中任一项所述的方法,其特征在于,所述OS管理单元为OS自带的系统管理单元或OS中安装的设备管理代理程序。
37.根据权利要求30-36中任一项所述的方法,其特征在于,所述管理模块为非业务模块的管理单元,所述管理模块包括运行状态的管理单元、内置于处理器中的管理单元、处理器外的管理芯片中的管理系统、服务器主板管理控制单元BMC、系统管理模块SMM,或OS中的设备管理系统。
38.一种内存故障处理装置,其特征在于,所述装置包括用于执行如权利要求1-20中任一项所述的内存故障处理方法的单元或手段。
39.一种内存故障处理装置,其特征在于,所述装置包括用于执行如权利要求21-29中任一项所述的内存故障处理方法的单元或手段。
40.一种内存故障处理装置,其特征在于,所述装置包括用于执行如权利要求30-37中任一项所述的内存故障处理方法的单元或手段。
41.一种内存故障处理系统,其特征在于,所述系统包括管理模块、处理器固件和OS管理单元,所述管理模块用于执行如权利要求1-20中任一项所述的内存故障处理方法,所述处理器固件用于执行如权利要求21-29中任一项所述的内存故障处理方法,所述OS管理单元用于执行如权利要求30-37中任一项所述的内存故障处理方法。
42.一种计算机可读存储介质,所述计算机可读存储介质中具有计算机程序代码,其特征在于,当所述计算机程序代码在处理器上运行时,使得所述处理器执行如权利要求1-37中任一项所述的内存故障处理方法。
CN202010839242.5A 2020-08-05 2020-08-19 一种内存故障处理方法和装置 Pending CN114064333A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020237006445A KR20230041103A (ko) 2020-08-05 2021-07-12 메모리 고장 처리 방법 및 장치
PCT/CN2021/105645 WO2022028209A1 (zh) 2020-08-05 2021-07-12 一种内存故障处理方法和装置
EP21854332.0A EP4180959A4 (en) 2020-08-05 2021-07-12 MEMORY FAILURE PROCESSING METHOD AND APPARATUS
US18/164,402 US20230185659A1 (en) 2020-08-05 2023-02-03 Memory Fault Handling Method and Apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010778351 2020-08-05
CN2020107783510 2020-08-05

Publications (1)

Publication Number Publication Date
CN114064333A true CN114064333A (zh) 2022-02-18

Family

ID=80233131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010839242.5A Pending CN114064333A (zh) 2020-08-05 2020-08-19 一种内存故障处理方法和装置

Country Status (1)

Country Link
CN (1) CN114064333A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114968652A (zh) * 2022-07-09 2022-08-30 超聚变数字技术有限公司 故障处理方法及计算设备
CN115168087A (zh) * 2022-07-08 2022-10-11 超聚变数字技术有限公司 一种确定内存故障的修复资源粒度的方法及装置
CN115543678A (zh) * 2022-11-30 2022-12-30 苏州浪潮智能科技有限公司 监管ddr5内存颗粒错误的方法、系统、存储介质及设备
CN115543665A (zh) * 2022-09-23 2022-12-30 超聚变数字技术有限公司 一种内存可靠性评估方法、装置及存储介质
CN115686901A (zh) * 2022-10-25 2023-02-03 超聚变数字技术有限公司 内存故障分析方法及计算机设备
CN116302656A (zh) * 2023-03-13 2023-06-23 哈尔滨工业大学(深圳) 智能内存隔离方法以及相关设备
CN116841795A (zh) * 2023-08-29 2023-10-03 苏州浪潮智能科技有限公司 一种内存设备控制方法、装置、电子设备及存储介质
WO2023193396A1 (zh) * 2022-04-08 2023-10-12 苏州浪潮智能科技有限公司 一种内存故障处理方法、装置及计算机可读存储介质
WO2023198189A1 (zh) * 2022-04-16 2023-10-19 华为技术有限公司 内存错误预测方法、装置及设备
WO2024016855A1 (zh) * 2022-07-22 2024-01-25 超聚变数字技术有限公司 一种确定内存故障修复方式的方法、装置及存储介质
WO2024027325A1 (zh) * 2022-07-30 2024-02-08 超聚变数字技术有限公司 内存故障处理方法、装置和存储介质
WO2024082844A1 (zh) * 2022-10-18 2024-04-25 超聚变数字技术有限公司 一种内存条故障检测装置及检测方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023193396A1 (zh) * 2022-04-08 2023-10-12 苏州浪潮智能科技有限公司 一种内存故障处理方法、装置及计算机可读存储介质
WO2023198189A1 (zh) * 2022-04-16 2023-10-19 华为技术有限公司 内存错误预测方法、装置及设备
WO2024007765A1 (zh) * 2022-07-08 2024-01-11 超聚变数字技术有限公司 一种确定内存故障的修复资源粒度的方法及装置
CN115168087A (zh) * 2022-07-08 2022-10-11 超聚变数字技术有限公司 一种确定内存故障的修复资源粒度的方法及装置
CN115168087B (zh) * 2022-07-08 2024-03-19 超聚变数字技术有限公司 一种确定内存故障的修复资源粒度的方法及装置
CN114968652A (zh) * 2022-07-09 2022-08-30 超聚变数字技术有限公司 故障处理方法及计算设备
WO2024012094A1 (zh) * 2022-07-09 2024-01-18 超聚变数字技术有限公司 故障处理方法及计算设备
WO2024016855A1 (zh) * 2022-07-22 2024-01-25 超聚变数字技术有限公司 一种确定内存故障修复方式的方法、装置及存储介质
WO2024027325A1 (zh) * 2022-07-30 2024-02-08 超聚变数字技术有限公司 内存故障处理方法、装置和存储介质
CN115543665A (zh) * 2022-09-23 2022-12-30 超聚变数字技术有限公司 一种内存可靠性评估方法、装置及存储介质
WO2024082844A1 (zh) * 2022-10-18 2024-04-25 超聚变数字技术有限公司 一种内存条故障检测装置及检测方法
CN115686901A (zh) * 2022-10-25 2023-02-03 超聚变数字技术有限公司 内存故障分析方法及计算机设备
CN115686901B (zh) * 2022-10-25 2023-08-04 超聚变数字技术有限公司 内存故障分析方法及计算机设备
CN115543678A (zh) * 2022-11-30 2022-12-30 苏州浪潮智能科技有限公司 监管ddr5内存颗粒错误的方法、系统、存储介质及设备
CN116302656B (zh) * 2023-03-13 2023-11-03 哈尔滨工业大学(深圳) 智能内存隔离方法以及相关设备
CN116302656A (zh) * 2023-03-13 2023-06-23 哈尔滨工业大学(深圳) 智能内存隔离方法以及相关设备
CN116841795B (zh) * 2023-08-29 2024-01-12 苏州浪潮智能科技有限公司 一种内存设备控制方法、装置、电子设备及存储介质
CN116841795A (zh) * 2023-08-29 2023-10-03 苏州浪潮智能科技有限公司 一种内存设备控制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN114064333A (zh) 一种内存故障处理方法和装置
WO2022028209A1 (zh) 一种内存故障处理方法和装置
EP3979079A1 (en) Memory fault handling method and apparatus, device and storage medium
EP1890239B1 (en) Memory contoller and method of controlling memory
US20170372799A1 (en) Memory module error tracking
CN104685474A (zh) 包括不可纠正的错误的地址范围的通知
CN114968652A (zh) 故障处理方法及计算设备
CN115168087A (zh) 一种确定内存故障的修复资源粒度的方法及装置
Du et al. Predicting uncorrectable memory errors for proactive replacement: An empirical study on large-scale field data
CN115016963A (zh) 内存页隔离方法、内存监控系统及计算机可读存储介质
CN111221775B (zh) 处理器、缓存处理方法及电子设备
CN114996065A (zh) 内存故障预测方法、装置及设备
CN113132160B (zh) 一种客户端节点的网络亚健康状态的检测方法和系统
WO2024027325A1 (zh) 内存故障处理方法、装置和存储介质
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
US20220334911A1 (en) Method, electronic device, and computer product for storage management
CN115755570A (zh) 多冗余度异构调度裁决器的调度裁决方法及装置
CN115421947A (zh) 内存故障处理方法、装置和存储介质
CN115269245B (zh) 一种内存故障处理方法及计算设备
WO2021103304A1 (zh) 一种数据回传方法、装置、设备及计算机可读存储介质
CN115391075A (zh) 内存故障处理方法、系统及存储介质
CN115391072A (zh) 内存故障处理方法、系统及存储介质
CN115686901B (zh) 内存故障分析方法及计算机设备
CN115391073A (zh) 内存故障的处理方法、基板管理控制器及计算系统
CN115391074A (zh) 内存故障处理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination