CN114003416A - 内存错误动态处理方法、系统、终端及存储介质 - Google Patents

内存错误动态处理方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN114003416A
CN114003416A CN202111116716.4A CN202111116716A CN114003416A CN 114003416 A CN114003416 A CN 114003416A CN 202111116716 A CN202111116716 A CN 202111116716A CN 114003416 A CN114003416 A CN 114003416A
Authority
CN
China
Prior art keywords
error
memory
processor
management controller
repair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111116716.4A
Other languages
English (en)
Other versions
CN114003416B (zh
Inventor
贾帅帅
李道童
艾山彬
陈衍东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111116716.4A priority Critical patent/CN114003416B/zh
Publication of CN114003416A publication Critical patent/CN114003416A/zh
Application granted granted Critical
Publication of CN114003416B publication Critical patent/CN114003416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种内存错误动态处理方法、系统、终端及存储介质,包括:将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。本发明可减轻OS业务压力(调用SMI所造成的资源申请)转为BMC处理分析内存错误。当内存错误过多时,也可动态转化成结合基于载波侦听多路访问协议中断的内存错误处理程序再分析处理内存错误。

Description

内存错误动态处理方法、系统、终端及存储介质
技术领域
本发明涉及服务器技术领域,具体涉及一种内存错误动态处理方法、系统、终端及存储介质。
背景技术
内存(Memory)是计算机的重要部件之一,也称内存储器和主存储器,它用于暂时存放CPU中的运算数据,与硬盘等外部存储器交换的数据。它是外存与CPU进行沟通的桥梁,计算机中所有程序的运行都在内存中进行,内存性能的强弱影响计算机整体发挥的水平。只要计算机开始运行,操作系统就会把需要运算的数据从内存调到CPU中进行运算,当运算完成,CPU将结果传送出来。内存的运行也决定计算机整体运行快慢的程度。内存条由内存芯片、电路板、金手指等部分组成。随着服务器市场蓬勃的发展,内存故障是服务器宕机的最常见原因之一,另外内存的纳米制程也在提高,现在普遍芯片工艺都提高到10nm以内了,芯片制程的提高也代表着内存坏块率更高。传统的服务器内存CE检错机制是通过SMI中断或者CMCI中断处理。
当采用SMI中断方式处理时,由于之前的内存纳米制程不够小,所以错误率不高,产生的中断也不会很高。但是随着内存制程的提高错误率增高,如果还采用这种SMI中断的方式,可能会造成当系统在处理业务的时候,产生SMI中断,占用系统资源,影响系统性能。
当采用CMCI中断方式处理时,此中断方式由系统处理,系统默认此处理方式阈值为一,所以在系统日志中会产生大量错误记录,另外此方式严重依赖于系统驱动包。服务器厂商客户众多,每个客户使用的系统版本都不一致,使用的系统处理程式也不一致,所以不能做到更好的策略统一。从当前统计的客户看,做的比较好的是行业中的腾讯和美团,而这两家也是在OS下做的内存统一坏块分析处理。OS下做的错误处理,不能做到行业统一。
发明内容
针对现有技术的上述不足,本发明提供一种内存错误动态处理方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种内存错误动态处理方法,包括:
将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;
根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;
根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
进一步的,所述方法还包括:
处理器底层错误检测寄存器通过PCIE链路与基板管理控制器连接,如果接收到BMC返回的读取错误信息失败的提示,则判定PCIE链路故障,并启用基于串行接口协议中断的内存错误处理程序。
进一步的,将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息,包括:
所述错误引脚设置在处理器上,且所述错误引脚连接基板管理控制器。
进一步的,将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息,包括:
所述电平信号控制基板管理控制器通过中断方式触发异步消息处理程序,所述异步消息处理程序收集处理器底层错误检测寄存器的错误信息。
进一步的,根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种,包括:
重复执行读写操作,基板管理控制器在每次执行读写操作之后采集错误信息,统计错误信息次数;
如果错误信息次数与读写操作执行次数相同,则判定错误类型为硬件错误;
如果错误信息次数小于读写操作执行次数,则判定错误类型为软件错误。
进一步的,根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复,包括:
从基板管理控制器获取错误类型,如果错误类型为硬件错误,则调用硬件修复程序修复内存颗粒;如果错误类型为软件错误,则调用软件修复程序修复内存颗粒。
第二方面,本发明提供一种内存错误动态处理系统,包括:
错误监控单元,用于将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;
错误判断单元,用于根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;
错误修复单元,用于根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
进一步的,所述系统还用于:
处理器底层错误检测寄存器通过PCIE链路与基板管理控制器连接,如果接收到BMC返回的读取错误信息失败的提示,则判定PCIE链路故障,并启用基于载波侦听多路访问协议中断的内存错误处理程序。
进一步的,所述错误监控单元用于:所述错误引脚设置在处理器上,且所述错误引脚连接基板管理控制器。
进一步的,所述错误监控单元用于:
所述电平信号控制基板管理控制器通过中断方式触发异步消息处理程序,所述异步消息处理程序收集处理器底层错误检测寄存器的错误信息。
进一步的,所述错误判断单元用于:
重复执行读写操作,基板管理控制器在每次执行读写操作之后采集错误信息,统计错误信息次数;
如果错误信息次数与读写操作执行次数相同,则判定错误类型为硬件错误;
如果错误信息次数小于读写操作执行次数,则判定错误类型为软件错误。
进一步的,所述错误修复单元用于:
从基板管理控制器获取错误类型,如果错误类型为硬件错误,则调用硬件修复程序修复内存颗粒;如果错误类型为软件错误,则调用软件修复程序修复内存颗粒。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,本发明提供的内存错误动态处理方法、系统、终端及存储介质,通过将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息,初次生成的错误信息能够触发错误验证程序,得到验证数据,根据验证数据获取错误类型,错误类型为软件错误或硬件错误的任一种,然后根据错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。本发明可减轻OS业务压力(调用SMI所造成的资源申请)转为BMC处理分析内存错误。当内存错误过多时,也可动态转化成结合基于载波侦听多路访问协议中断的内存错误处理程序再分析处理内存错误。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的方法的示意性原理图。
图3是本发明一个实施例的系统的示意性框图。
图4为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
BMC,执行伺服器远端管理控制器,英文全称为Baseboard ManagementController.为基板管理控制器。它可以在机器未开机的状态下,对机器进行固件升级、查看机器设备、等一些操作。在BMC中完全实现IPMI功能需要一个功能强大的16位元或32位元微控制器以及用于数据储存的RAM、用于非挥发性数据储存的快闪记忆体和韧体,在安全远程重启、安全重新上电、LAN警告和系统健康监视方面能提供基本的远程可管理性。除了基本的IPMI功能和系统工作监视功能外,通过利用2个快闪记忆体之一储存以前的BIOS,mBMC还能实现BIOS快速元件的选择和保护。例如,在远程BIOS升级後系统不能启动时,远程管理人员可以切换回以前工作的BIOS映像来启动系统。一旦BIOS升级後,BIOS映像还能被锁住,可有效防止病毒对它的侵害。
Intel MCA硬件机制,Intel引入了MACHINE-CHECK ARCHITECTURE(MCA)和machine-check exception(#MC),机制用来对服务器硬件进行自检,并在发现硬件错误的时候发出中断或异常。系统软件收到中断或异常后,会对其进行响应,进行相应的修复、告警或其他策略等动作。通过Intel的这个RAS特性,保证在发生crash等错误前,服务器可以有机会做一些容错处理,大大提升了Intel在数据中心高可靠服务器领域的竞争实力。通过MCA,系统可以探测硬件错误,如系统总线错误,ECC错误,奇偶校验错误,cache错误,TLB错误等。
Handler在我们日常开发中会经常用到,它主要用于处理异步消息,当发出一个消息之后,首先进入到一个消息队列,发送消息的函数即可返回,而另外一个部分在消息队列中逐一取出,然后对消息进行处理。
BIOS是英文"Basic Input Output System"的缩略词,直译过来后中文名称就是"基本输入输出系统"。在IBM PC兼容系统上,是一种业界标准的固件接口。它是一组固化到计算机内主板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从CMOS中读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。此外,BIOS还向作业系统提供一些系统参数。系统硬件的变化是由BIOS隐藏,程序使用BIOS功能而不是直接控制硬件。现代作业系统会忽略BIOS提供的抽象层并直接控制硬件组件。
CPU中央处理器(central processing unit,简称CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。
为了减少程序直接控制方式中CPU等待时间以及提高系统的并行工作程度,用来控制外围设备和内存与CPU之间的数据传送称为中断方式。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种内存错误动态处理系统。
如图1所示,该方法包括:
步骤110,将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;
步骤120,根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;
步骤130,根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
为了便于对本发明的理解,下面以本发明内存错误动态处理方法的原理,结合实施例中对内存错误动态进行处理的过程,对本发明提供的内存错误动态处理方法做进一步的描述。
具体的,请参考图2,所述内存错误动态处理方法包括:
S1、将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息。
错误引脚设置在处理器上,且所述错误引脚连接基板管理控制器。电平信号控制基板管理控制器通过中断方式触发异步消息处理程序,所述异步消息处理程序收集处理器底层错误检测寄存器的错误信息。
具体的,配置CPU触发模式为error pin模式,此模式下当出现内存CE错误时,连接BMC的error pin会改变电平,BMC可以通过中断模式触发其handler程序,handler程序收集CPU底层MCi bank寄存器,定位出错内存位置。
S2、根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种。
出错内存利用BMC下的内存错误分析模块定位此报错内存是属于软件错误还是硬件错误(软件错误:宇宙射线粒子干扰等等。硬件错误:制作错误,硬件损伤等等)。
内存错误分析模块诊断错误类型的方法例如,重复执行读写操作,基板管理控制器在每次执行读写操作之后采集错误信息,统计错误信息次数;如果错误信息次数与读写操作执行次数相同,则判定错误类型为硬件错误;如果错误信息次数小于读写操作执行次数,则判定错误类型为软件错误。BMC挑选硬件错误的颗粒,生成错误报告存在BMC中。
S3、根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
从基板管理控制器获取错误类型,如果错误类型为硬件错误,则调用硬件修复程序修复内存颗粒;如果错误类型为软件错误,则调用软件修复程序修复内存颗粒。
具体的,服务器重启过程中获取BMC错误报告中的数据调用Intel RC中的HardPPR和Soft PPR修复内存颗粒。
S4、处理器底层错误检测寄存器通过PCIE链路与基板管理控制器连接,如果接收到BMC返回的读取错误信息失败的提示,则判定PCIE链路故障,并启用基于载波侦听多路访问协议中断的内存错误处理程序。
由于BMC处理内存数据必须经过PECI通道获取MCi bank寄存器,所以,如果某些故障导致PECI通道不通,或者出现内存错误风暴,BMC获取错误速度无法比拟高速报错速度则需要动态切换为BIOS的SMI方式,由BIOS快速处理错误。如果不切换成BIOS的SMI方式则可能导致有些有效内存错误信息丢失。
如图3所示,该系统200包括:
错误监控单元310,用于将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;
错误判断单元320,用于根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;
错误修复单元330,用于根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
可选地,作为本发明一个实施例,所述系统还用于:
处理器底层错误检测寄存器通过PCIE链路与基板管理控制器连接,如果接收到BMC返回的读取错误信息失败的提示,则判定PCIE链路故障,并启用基于载波侦听多路访问协议中断的内存错误处理程序。
可选地,作为本发明一个实施例,所述错误监控单元用于:所述错误引脚设置在处理器上,且所述错误引脚连接基板管理控制器。
可选地,作为本发明一个实施例,所述错误监控单元用于:
所述电平信号控制基板管理控制器通过中断方式触发异步消息处理程序,所述异步消息处理程序收集处理器底层错误检测寄存器的错误信息。
可选地,作为本发明一个实施例,所述错误判断单元用于:
重复执行读写操作,基板管理控制器在每次执行读写操作之后采集错误信息,统计错误信息次数;
如果错误信息次数与读写操作执行次数相同,则判定错误类型为硬件错误;
如果错误信息次数小于读写操作执行次数,则判定错误类型为软件错误。
可选地,作为本发明一个实施例,所述错误修复单元用于:
从基板管理控制器获取错误类型,如果错误类型为硬件错误,则调用硬件修复程序修复内存颗粒;如果错误类型为软件错误,则调用软件修复程序修复内存颗粒。
图4为本发明实施例提供的一种终端400的结构示意图,该终端400可以用于执行本发明实施例提供的内存错误动态处理方法。
其中,该终端400可以包括:处理器410、存储器420及通信单元430。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器420可以用于存储处理器410的执行指令,存储器420可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器420中的执行指令由处理器410执行时,使得终端400能够执行以下上述方法实施例中的部分或全部步骤。
处理器410为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器410可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元430,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息,初次生成的错误信息能够触发错误验证程序,得到验证数据,根据验证数据获取错误类型,错误类型为软件错误或硬件错误的任一种,然后根据错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。本发明可减轻OS业务压力(调用SMI所造成的资源申请)转为BMC处理分析内存错误。当内存错误过多时,也可动态转化成结合基于载波侦听多路访问协议中断的内存错误处理程序再分析处理内存错误,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种内存错误动态处理方法,其特征在于,包括:
将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;
根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;
根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
处理器底层错误检测寄存器通过PCIE链路与基板管理控制器连接,如果接收到BMC返回的读取错误信息失败的提示,则判定PCIE链路故障,并启用基于载波侦听多路访问协议中断的内存错误处理程序。
3.根据权利要求1所述的方法,其特征在于,将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息,包括:
所述错误引脚设置在处理器上,且所述错误引脚连接基板管理控制器。
4.根据权利要求1所述的方法,其特征在于,将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息,包括:
所述电平信号控制基板管理控制器通过中断方式触发异步消息处理程序,所述异步消息处理程序收集处理器底层错误检测寄存器的错误信息。
5.根据权利要求1所述的方法,其特征在于,根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种,包括:
重复执行读写操作,基板管理控制器在每次执行读写操作之后采集错误信息,统计错误信息次数;
如果错误信息次数与读写操作执行次数相同,则判定错误类型为硬件错误;
如果错误信息次数小于读写操作执行次数,则判定错误类型为软件错误。
6.根据权利要求5所述的方法,其特征在于,根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复,包括:
从基板管理控制器获取错误类型,如果错误类型为硬件错误,则调用硬件修复程序修复内存颗粒;如果错误类型为软件错误,则调用软件修复程序修复内存颗粒。
7.一种内存错误动态处理系统,其特征在于,包括:
错误监控单元,用于将处理器配置为错误引脚启用模式,所述错误引脚在内存发生错误时向基板管理控制器发送电平信号,以使基板管理控制器读取从处理器底层错误检测寄存器读取错误信息;
错误判断单元,用于根据所述错误信息执行错误验证程序,得到验证数据,根据所述验证数据获取错误类型,所述错误类型为软件错误或硬件错误的任一种;
错误修复单元,用于根据所述错误类型在服务器重启过程中选取相应的修复工具,并执行所述修复工具对内存进行修复。
8.根据权利要求7所述的系统,其特征在于,所述系统还用于:
处理器底层错误检测寄存器通过PCIE链路与基板管理控制器连接,如果接收到BMC返回的读取错误信息失败的提示,则判定PCIE链路故障,并启用基于载波侦听多路访问协议中断的内存错误处理程序。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-6任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202111116716.4A 2021-09-23 2021-09-23 内存错误动态处理方法、系统、终端及存储介质 Active CN114003416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111116716.4A CN114003416B (zh) 2021-09-23 2021-09-23 内存错误动态处理方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111116716.4A CN114003416B (zh) 2021-09-23 2021-09-23 内存错误动态处理方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN114003416A true CN114003416A (zh) 2022-02-01
CN114003416B CN114003416B (zh) 2024-01-12

Family

ID=79921579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111116716.4A Active CN114003416B (zh) 2021-09-23 2021-09-23 内存错误动态处理方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114003416B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820837A (zh) * 2023-06-28 2023-09-29 合芯科技有限公司 一种关于系统组件的异常处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN108446198A (zh) * 2018-04-24 2018-08-24 深圳市国鑫恒宇科技有限公司 硬件故障诊断电路、方法及主板
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
US20200050510A1 (en) * 2018-08-13 2020-02-13 Quanta Computer Inc. Server hardware fault analysis and recovery
CN112506693A (zh) * 2020-12-14 2021-03-16 曙光信息产业(北京)有限公司 一种记录异常信息的方法、装置、存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN108446198A (zh) * 2018-04-24 2018-08-24 深圳市国鑫恒宇科技有限公司 硬件故障诊断电路、方法及主板
US20200050510A1 (en) * 2018-08-13 2020-02-13 Quanta Computer Inc. Server hardware fault analysis and recovery
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN112506693A (zh) * 2020-12-14 2021-03-16 曙光信息产业(北京)有限公司 一种记录异常信息的方法、装置、存储介质和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820837A (zh) * 2023-06-28 2023-09-29 合芯科技有限公司 一种关于系统组件的异常处理方法及装置

Also Published As

Publication number Publication date
CN114003416B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
WO2020239060A1 (zh) 错误恢复的方法和装置
US20050229042A1 (en) Computer boot operation utilizing targeted boot diagnostics
TW200403563A (en) Method and system to implement a system event log for system manageability
CN109144873B (zh) 一种linux内核处理方法及装置
CN114003445B (zh) Bmc的i2c监控功能测试方法、系统、终端及存储介质
EP3877843A1 (en) System for configurable error handling
CN111966380A (zh) 一种bmc固件升级方法、系统、终端及存储介质
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
WO2024124862A1 (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN113900934A (zh) 多镜像混合刷新测试方法、系统、终端及存储介质
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
US10846162B2 (en) Secure forking of error telemetry data to independent processing units
US11797368B2 (en) Attributing errors to input/output peripheral drivers
TWI733964B (zh) 記憶體整體測試之系統及其方法
WO2019169615A1 (zh) 访问指令sram的方法和电子设备
CN113645056B (zh) 一种定位智能网卡故障的方法及系统
US11900150B2 (en) Methods and systems for collection of system management interrupt data
CN114385379B (zh) 板载信息刷写检测方法、系统、终端及存储介质
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
CN114356708A (zh) 一种设备故障监控方法、装置、设备及可读存储介质
CN116893928A (zh) 故障内存的监管方法、系统、终端及存储介质
CN112084049A (zh) 用于监控基板管理控制器的常驻程序的方法
CN114003461A (zh) 服务器故障预测方法、系统、终端及存储介质
CN114816552A (zh) 服务器开机卡顿优化方法、系统、终端及存储介质
CN114201323A (zh) Bmc记录系统异常信息的方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant