CN115129508A - 一种内存可纠正错误的带外处理方法、装置、设备及介质 - Google Patents

一种内存可纠正错误的带外处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN115129508A
CN115129508A CN202210763817.9A CN202210763817A CN115129508A CN 115129508 A CN115129508 A CN 115129508A CN 202210763817 A CN202210763817 A CN 202210763817A CN 115129508 A CN115129508 A CN 115129508A
Authority
CN
China
Prior art keywords
triggering
correctable
register
trigger
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210763817.9A
Other languages
English (en)
Inventor
陈占良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210763817.9A priority Critical patent/CN115129508A/zh
Publication of CN115129508A publication Critical patent/CN115129508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种内存可纠正错误的带外处理方法、装置、设备及介质,涉及计算机技术领域,包括:通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将触发次数存储至复杂可编程逻辑器件的寄存器;通过基板管理控制器,并按照预设的时间间隔读取寄存器中的触发次数;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取可纠正错误的位置信息,以便对可纠正错误定位。可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的带内方式,本申请一定程度上解决了由带内方式监测造成的系统性能低的问题,此外,本申请中的基板管理控制器能够实时的获取触发次数,实现了实时监测。

Description

一种内存可纠正错误的带外处理方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,特别涉及一种内存可纠正错误的带外处理方法、装置、设备及介质。
背景技术
在服务器系统中,存储和计算的需求量越大,服务器承载的运算压力也就越大,从而对服务器存储链路的稳定性提出了更高的要求。服务器内存经常出现可纠正错误(CE,Correctable Error),通过数据校验可恢复数据,不会对系统造成运行问题。但是,随着可纠正错误的增多,数据校验恢复压力也会增大,从而会造成计算和存储性能的降低,甚至导致系统的宕机。因此,快速及时的预告内存的可纠正错误问题,并及时上报用户进行内存更换,可以有效地提高服务器的稳定性。
现有方案主要是通过BIOS(Basic Input Output System,基本输入输出系统)设置可纠正错误次数阈值,当带内检测到可纠正错误次数大于可纠正错误次数阈值时,则会上报BMC(Baseboard Management Controller,基板管理控制器)日志,提醒用户及时处理;同时,上报日志后,系统通过SMI(简单网络管理协议的一部分)中断,及时清除日志中的触发次数,该过程会占用系统资源,以及当出现可纠正错误风暴时,也会降低系统性能。如上描述中,现有的技术方案,主要存在两个问题:1、带内处理可纠正错误,当出现可纠正错误风暴时,会占用系统资源,从而降低系统性能;2、可纠正错误次数阈值设定后,不能及时修改,系统只会检测大于阈值时的情况,无法做到实时监控。
为此,如何避免带内处理导致的系统性能降低以及实现实时监控是本领域亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种内存可纠正错误的带外处理方法、装置、设备及介质,能够避免带内处理导致的系统性能降低以及实现实时监控,其具体方案如下:
第一方面,本申请公开了一种内存可纠正错误的带外处理方法,包括:
通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;
通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;
当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
可选的,所述通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数,包括:
通过基板管理控制器以及I2C总线,并按照预设的时间间隔读取所述寄存器中的所述触发次数。
可选的,所述通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数之后,还包括:
通过复杂可编程逻辑器件对所述复杂可编程逻辑器件的寄存器中的所述触发次数进行清除。
可选的,所述当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位,包括:
当触发累积次数大于预设次数阈值,则通过平台环境式控制接口总线从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
可选的,所述按照预设的时间间隔读取所述寄存器中的所述触发次数之后,还包括:
将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志。
可选的,所述从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位之后,还包括:
将所述可纠正错误的位置信息保存至所述系统事件日志。
可选的,所述将所述可纠正错误的位置信息保存至所述系统事件日志之后,还包括:
通过读取所述系统事件日志,获取所述可纠正错误触发所述脉冲信号的触发时间、所述触发次数以及所述可纠正错误的位置信息,以便通过所述触发时间、所述触发次数以及所述位置信息进行运维处理。
第二方面,本申请公开了一种内存可纠正错误的带外处理装置,包括:
触发次数监测模块,用于通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;
触发次数读取模块,用于通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;
可纠正错误定位模块,用于当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的内存可纠正错误的带外处理方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的内存可纠正错误的带外处理方法。
可见,本申请提出一种内存可纠正错误的带外处理方法,包括:通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。也即,本申请通过复杂可编程逻辑器件对触发次数进行监测,并将触发次数存储至所述复杂可编程逻辑器件的寄存器;然后通过基板管理控制器,读取所述寄存器中的所述触发次数;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,由此可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的通过带内方式监测可纠正错误触发脉冲信号的触发次数的方法,本申请一定程度上解决了当出现可纠正错误风暴时由带内方式监测造成的系统性能低的问题,此外,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种内存可纠正错误的带外处理方法的结构框图;
图2为本申请公开的一种内存可纠正错误的带外处理方法流程图;
图3为本申请公开的一种1S时间间隔内的触发次数的结构示意图;
图4为本申请公开的一种具体的内存可纠正错误的带外处理方法流程图;
图5为本申请公开的一种具体的内存可纠正错误的带外处理方法流程图;
图6为本申请公开的一种内存可纠正错误的带外处理装置结构示意图;
图7为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请所涉及的结构包括复杂可编程逻辑器件、I2C总线、基板管理控制器、平台环境式控制接口总线、中央处理器。其中,所述复杂可编程逻辑器件通过所述I2C总线与所述基板管理控制器通信,所述基板管理控制器通过所述平台环境式控制接口总线从所述中央处理器中的模型特定寄存器读取信息,所述复杂可编程逻辑器件与所述中央处理器中的ERROR_N<0>相连,当发生可纠正错误时,所述中央处理器中的所述ERROR_N<0>会触发脉冲信号。本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,一定程度上解决了当出现可纠正错误风暴时由带内方式监测造成的系统性能低的问题,此外,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。
对于带内处理可纠正错误的处理方式,当出现可纠正错误风暴时,该方式会占用系统资源,从而降低系统性能,并且可纠正错误次数阈值设定后,不能及时修改,系统只会检测大于阈值时的情况,无法做到实时监控。
为此,本申请实施例提出一种内存可纠正错误的带外处理方案,能够避免带内处理导致的系统性能降低以及实现实时监控。
本申请实施例公开了一种内存可纠正错误的带外处理方法,参见图2所示,该方法包括:
步骤S11:通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器。
复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)作为并行触发接口,可以快速检测脉冲信号,本实施例中,通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器。在一种具体的实施方式中,复杂可编程逻辑器件记录1S时间间隔内的触发次数,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器,参见图3所示。
步骤S12:通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数。
本实施例中,在通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器之后,通过基板管理控制器以及I2C总线,并按照预设的时间间隔读取所述寄存器中的所述触发次数,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。在读取所述寄存器中的所述触发次数之后,还包括:通过复杂可编程逻辑器件对所述复杂可编程逻辑器件的寄存器中的所述触发次数进行清除,如此一来,保证了所述寄存器能够持续的存储所述可纠正错误触发脉冲信号的触发次数。
步骤S13:当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
本实施例中,当触发累积次数大于预设次数阈值,则通过平台环境式控制接口总线(PECI,Platform Environment Control Interface)从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的通过带内方式监测可纠正错误触发脉冲信号的触发次数的方法,本申请一定程度上解决了由带内方式监测造成的系统性能低的问题。
可见,本申请提出一种内存可纠正错误的带外处理方法,包括:通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。也即,本申请通过复杂可编程逻辑器件对触发次数进行监测,并将触发次数存储至所述复杂可编程逻辑器件的寄存器;然后通过基板管理控制器,读取所述寄存器中的所述触发次数;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,由此可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的通过带内方式监测可纠正错误触发脉冲信号的触发次数的方法,本申请一定程度上解决了当出现可纠正错误风暴时由带内方式监测造成的系统性能低的问题,此外,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。
本申请实施例公开了一种具体的内存可纠正错误的带外处理方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。参见图4所示,具体包括:
步骤S21:通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器。
本实施例中,首先通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,然后将所述触发次数存储至所述复杂可编程逻辑器件的寄存器。
步骤S22:通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数。
本实施例中,在通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器之后,通过基板管理控制器以及I2C总线,并按照预设的时间间隔读取所述寄存器中的所述触发次数,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。在读取所述寄存器中的所述触发次数之后,通过复杂可编程逻辑器件对所述复杂可编程逻辑器件的寄存器中的所述触发次数进行清除,由此保证了所述寄存器能够持续的存储所述可纠正错误触发脉冲信号的触发次数。
步骤S23:将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志。
本实施例中,在通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数之后,将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志。如此一来,在触发累积次数小于预设次数阈值时,用户能够通过读取所述系统事件日志,获取所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数。
步骤S24:当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
本实施例中,当触发累积次数大于预设次数阈值,则通过平台环境式控制接口总线从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的通过带内方式监测可纠正错误触发脉冲信号的触发次数的方法,本申请一定程度上解决了由带内方式监测造成的系统性能低的问题。
步骤S25:将所述可纠正错误的位置信息保存至所述系统事件日志。
本实施例中,当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位之后,将所述可纠正错误的位置信息保存至所述系统事件日志。如此一来,用户通过读取所述系统事件日志,能够获取所述可纠正错误触发所述脉冲信号的触发时间、所述触发次数以及所述可纠正错误的位置信息,并通过所述触发时间、所述触发次数以及所述位置信息进行运维处理,例如及时更换存在问题的部件。
可见,本申请提出一种内存可纠正错误的带外处理方法,包括:通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位;将所述可纠正错误的位置信息保存至所述系统事件日志,也即,本申请通过复杂可编程逻辑器件对触发次数进行监测,并将触发次数存储至所述复杂可编程逻辑器件的寄存器;然后通过基板管理控制器,读取所述寄存器中的所述触发次数;将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位;最后,将所述可纠正错误的位置信息保存至所述系统事件日志,由此可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的通过带内方式监测可纠正错误触发脉冲信号的触发次数的方法,本申请一定程度上解决了当出现可纠正错误风暴时由带内方式监测造成的系统性能低的问题,此外,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。此外,本申请将所述可纠正错误触发所述脉冲信号的触发时间、触发次数以及所述可纠正错误的位置信息保存至系统事件日志中,以便用户能够根据所述系统事件日志中保存的信息及时的发现问题并进行运维处理。
基于所述一种内存可纠正错误的带外处理方法,本申请具体包括以下内容,参见图5所示:
通过复杂可编程逻辑器件监测ERROR_N<0>信号的触发次数,并以1S为单位将所述触发次数保存至复杂可编程逻辑器件寄存器,相应的,基板管理控制器以1S为单位读取所述复杂可编程逻辑器件寄存器中的所述触发次数,在读取之后,判断所述触发次数是否大于阈值,如果所述触发次数不大于阈值,则将触发次数及触发时间保存至系统事件日志,如果所述触发次数大于阈值,则通过平台环境式控制接口总线读取中央处理器的MSR寄存器,获取可纠正错误位置信息,并将位置信息保存至系统事件日志,可见,本申请通过带外方式监测触发次数,相较于传统的通过带内方式监测触发次数的方法,本申请一定程度上解决了当出现可纠正错误风暴时由带内方式监测造成的系统性能低的问题,此外,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。进一步的,本申请将所述可纠正错误触发所述脉冲信号的触发时间、触发次数以及所述可纠正错误的位置信息保存至系统事件日志中,以便用户能够根据所述系统事件日志中保存的信息及时的发现问题并进行运维处理。
相应的,本申请实施例还公开了一种内存可纠正错误的带外处理装置,参见图6所示,该装置包括:
触发次数监测模块11,用于通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;
触发次数读取模块12,用于通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;
可纠正错误定位模块13,用于当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
可见,本申请提出一种内存可纠正错误的带外处理方法,包括:触发次数监测模块,用于通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;触发次数读取模块,用于通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;可纠正错误定位模块,用于当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。也即,本申请通过复杂可编程逻辑器件对触发次数进行监测,并将触发次数存储至所述复杂可编程逻辑器件的寄存器;然后通过基板管理控制器,读取所述寄存器中的所述触发次数;当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,由此可见,本申请通过带外方式监测可纠正错误触发脉冲信号的触发次数,相较于传统的通过带内方式监测可纠正错误触发脉冲信号的触发次数的方法,本申请一定程度上解决了当出现可纠正错误风暴时由带内方式监测造成的系统性能低的问题,此外,由于本申请中的基板管理控制器能够实时的获取触发次数,因此实现了实时监测。
在一些具体实施例中,所述触发次数读取模块12,具体可以包括:
触发次数读取单元,用于通过基板管理控制器以及I2C总线,并按照预设的时间间隔读取所述寄存器中的所述触发次数。
在一些具体实施例中,所述触发次数读取模块12之后,进一步还可以包括:
触发次数清除单元,用于通过复杂可编程逻辑器件对所述复杂可编程逻辑器件的寄存器中的所述触发次数进行清除。
在一些具体实施例中,所述可纠正错误定位模块13,具体可以包括:
可纠正错误定位单元,用于当触发累积次数大于预设次数阈值,则通过平台环境式控制接口总线从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
在一些具体实施例中,所述触发次数读取模块12之后,进一步还可以包括:
触发时间以及触发次数保存单元,用于将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志。
在一些具体实施例中,所述可纠正错误定位模块13之后,进一步还可以包括:
位置信息保存单元,用于将所述可纠正错误的位置信息保存至所述系统事件日志。
在一些具体实施例中,所述位置信息保存单元之后,进一步还可以包括:
运维处理单元,用于通过读取所述系统事件日志,获取所述可纠正错误触发所述脉冲信号的触发时间、所述触发次数以及所述可纠正错误的位置信息,以便通过所述触发时间、所述触发次数以及所述位置信息进行运维处理。
进一步的,本申请实施例还提供了一种电子设备。图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、显示屏23、输入输出接口24、通信接口25、电源26、和通信总线27。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现以下步骤:
通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;
通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;
当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
通过基板管理控制器以及I2C总线,并按照预设的时间间隔读取所述寄存器中的所述触发次数。
在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,还可以进一步包括以下步骤:
通过复杂可编程逻辑器件对所述复杂可编程逻辑器件的寄存器中的所述触发次数进行清除。
在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
当触发累积次数大于预设次数阈值,则通过平台环境式控制接口总线从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,还可以进一步包括以下步骤:
将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志。
在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,还可以进一步包括以下步骤:
将所述可纠正错误的位置信息保存至所述系统事件日志。
在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,还可以进一步包括以下步骤:
通过读取所述系统事件日志,获取所述可纠正错误触发所述脉冲信号的触发时间、所述触发次数以及所述可纠正错误的位置信息,以便通过所述触发时间、所述触发次数以及所述位置信息进行运维处理。
本实施例中,电源26用于为电子设备20上的各硬件设备提供工作电压;通信接口25能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口24,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括计算机程序221,存储方式可以是短暂存储或者永久存储。其中,计算机程序221除了包括能够用于完成前述任一实施例公开的由电子设备20执行的内存可纠正错误的带外处理方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的内存可纠正错误的带外处理方法。
关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种内存可纠正错误的带外处理方法、装置、设备、存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种内存可纠正错误的带外处理方法,其特征在于,包括:
通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;
通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;
当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
2.根据权利要求1所述的内存可纠正错误的带外处理方法,其特征在于,所述通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数,包括:
通过基板管理控制器以及I2C总线,并按照预设的时间间隔读取所述寄存器中的所述触发次数。
3.根据权利要求1所述的内存可纠正错误的带外处理方法,其特征在于,所述通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数之后,还包括:
通过复杂可编程逻辑器件对所述复杂可编程逻辑器件的寄存器中的所述触发次数进行清除。
4.根据权利要求1所述的内存可纠正错误的带外处理方法,其特征在于,所述当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位,包括:
当触发累积次数大于预设次数阈值,则通过平台环境式控制接口总线从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
5.根据权利要求1至4任一项所述的内存可纠正错误的带外处理方法,其特征在于,所述按照预设的时间间隔读取所述寄存器中的所述触发次数之后,还包括:
将所述可纠正错误触发所述脉冲信号的触发时间以及所述触发次数保存至系统事件日志。
6.根据权利要求5所述的内存可纠正错误的带外处理方法,其特征在于,所述从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位之后,还包括:
将所述可纠正错误的位置信息保存至所述系统事件日志。
7.根据权利要求6所述的内存可纠正错误的带外处理方法,其特征在于,所述将所述可纠正错误的位置信息保存至所述系统事件日志之后,还包括:
通过读取所述系统事件日志,获取所述可纠正错误触发所述脉冲信号的触发时间、所述触发次数以及所述可纠正错误的位置信息,以便通过所述触发时间、所述触发次数以及所述位置信息进行运维处理。
8.一种内存可纠正错误的带外处理装置,其特征在于,包括:
触发次数监测模块,用于通过复杂可编程逻辑器件对可纠正错误触发脉冲信号的触发次数进行监测,并将所述触发次数存储至所述复杂可编程逻辑器件的寄存器;
触发次数读取模块,用于通过基板管理控制器,并按照预设的时间间隔读取所述寄存器中的所述触发次数;
可纠正错误定位模块,用于当触发累积次数大于预设次数阈值,则从中央处理器的模型特定寄存器中读取所述可纠正错误的位置信息,以便对所述可纠正错误进行定位。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的内存可纠正错误的带外处理方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的内存可纠正错误的带外处理方法。
CN202210763817.9A 2022-06-30 2022-06-30 一种内存可纠正错误的带外处理方法、装置、设备及介质 Pending CN115129508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210763817.9A CN115129508A (zh) 2022-06-30 2022-06-30 一种内存可纠正错误的带外处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210763817.9A CN115129508A (zh) 2022-06-30 2022-06-30 一种内存可纠正错误的带外处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115129508A true CN115129508A (zh) 2022-09-30

Family

ID=83381594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210763817.9A Pending CN115129508A (zh) 2022-06-30 2022-06-30 一种内存可纠正错误的带外处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115129508A (zh)

Similar Documents

Publication Publication Date Title
US20010052087A1 (en) Method and apparatus for monitoring a network environment
US9418129B2 (en) Adaptive high-performance database redo log synchronization
JP2014507727A (ja) パフォーマンス・メトリックを監視するためのコンピュータによって実施される方法、コンピュータ可読記憶媒体、およびシステム
CN102141947A (zh) 一种对采用嵌入式操作系统的计算机应用系统中异常任务的处理方法及系统
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
CN107729213B (zh) 一种后台任务监控方法及装置
CN112363865A (zh) 数据库故障恢复方法、装置及人脸图像搜索系统
CN112860504A (zh) 监控方法及装置、计算机存储介质、电子设备
CN114676019A (zh) 一种中央处理器状态监测方法、装置、设备、存储介质
US20140149524A1 (en) Information processing apparatus and information processing method
US20230359514A1 (en) Operation-based event suppression
CN110855484B (zh) 自动检测业务量变化的方法、系统、电子设备和存储介质
CN115129508A (zh) 一种内存可纠正错误的带外处理方法、装置、设备及介质
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
US10114449B2 (en) Predicting voltage guardband and operating at a safe limit
CN112131039A (zh) 一种内存ecc信息上报控制方法、装置、设备及介质
CN116483663A (zh) 用于平台的异常告警方法和装置
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN114296979A (zh) 一种检测物联网设备异常状态的方法及装置
RU2710288C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
CN113238893A (zh) 多数据中心的容灾系统、方法、计算机设备及介质
CN111414267A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN111414274A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN111858183A (zh) 一种电子设备的重启方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination