CN116820828B - 可纠正错误阈值设定方法、装置、电子设备及存储介质 - Google Patents

可纠正错误阈值设定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116820828B
CN116820828B CN202311095394.9A CN202311095394A CN116820828B CN 116820828 B CN116820828 B CN 116820828B CN 202311095394 A CN202311095394 A CN 202311095394A CN 116820828 B CN116820828 B CN 116820828B
Authority
CN
China
Prior art keywords
threshold
interrupt
stay
time
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311095394.9A
Other languages
English (en)
Other versions
CN116820828A (zh
Inventor
贾帅帅
李道童
陈衍东
李盛新
韩红瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202311095394.9A priority Critical patent/CN116820828B/zh
Publication of CN116820828A publication Critical patent/CN116820828A/zh
Application granted granted Critical
Publication of CN116820828B publication Critical patent/CN116820828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,提供一种可纠正错误阈值设定方法、装置、电子设备及存储介质,该方法包括:获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值;中断检测:在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长;阈值更新:基于运行周期,或中断停留最长时长和中断停留累计时长的组合,确定阈值更新条件,并在达到阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,更新至少一个硬件类型的可纠正错误阈值为新阈值,重置中断停留累计时长;循环执行中断检测和阈值更新的步骤,以实现动态设定可纠正错误阈值。

Description

可纠正错误阈值设定方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种可纠正错误阈值设定方法、装置、电子设备及存储介质。
背景技术
计算机系统中,尤其是作为服务器的计算机系统中,可纠正错误(CorrectableErrors)和不可纠正错误(Uncorrectable Errors)是错误分类的两个重要概念,它们描述了在数据处理和存储过程中出现的错误类型及其纠正能力。可纠正错误指的是服务器能够自动检测和纠正的错误,不可纠正错误指的是服务器无法自动纠正的错误。可纠正错误和不可纠正错误之间存在一定的关系,通常情况下,可纠正错误是不可纠正错误的子集,服务器的纠错机制可以检测和纠正一定程度的错误,但在某些情况下,错误可能超出了纠错能力的范围,变成不可纠正错误。因此,当产生可纠正错误时,应对可纠正错误合理分析,对可能演变为不可纠正错误的可纠正错误应及时隔离或者修复处理,从而提高系统的稳定性,减少系统宕机率。
目前,计算机系统中,高速串行总线设备(peripheral component interconnectexpress,PCIE设备)、内存和CPU各自的可纠正错误,都有可设定相应的可纠正错误阈值(可纠正错误数量的阈值),在产生的可纠正错误的个数达到该可纠正错误阈值时,产生一次中断,纠正一个错误。而且可纠正错误阈值一旦设定,则在服务器的生命周期内无法修改。若可纠正错误阈值太高,系统不能及时处理错误,导致宕机率高;若可纠正错误阈值太低,虽然降低了宕机率,但频繁进入错误处理中断,影响系统性能。
发明内容
本发明提供一种可纠正错误阈值设定方法、装置、电子设备及存储介质,用以解决现有技术中无法合适且动态地设定可纠正错误阈值,设定过高,系统不能及时处理错误,导致宕机率高;设定过低,频繁进入错误处理中断,影响系统性能的问题。
本发明提供一种可纠正错误阈值设定方法,包括:
获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值;
中断检测:在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长;
阈值更新:基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长;
循环执行所述中断检测和阈值更新的步骤,以动态设定可纠正错误阈值。
根据本发明提供的一种可纠正错误阈值设定方法,所述阈值更新的步骤包括:
在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时;
基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误阈值为所述新阈值;
重置所述中断停留累计时长,并退出所述定时器中断。
根据本发明提供的一种可纠正错误阈值设定方法,基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,包括:
按所述中断停留累计时长与中断停留最长时长的比值,以及至少一个硬件类型的所述当前阈值,确定所述新阈值。
根据本发明提供的一种可纠正错误阈值设定方法,按所述中断停留累计时长与中断停留最长时长的比值,以及至少一个硬件类型的所述当前阈值,确定所述新阈值,包括:按如下公式确定所述新阈值
其中,表示当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
根据本发明提供的一种可纠正错误阈值设定方法,所述阈值更新的步骤包括:
在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长;
在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤,否则,退出所述当前中断;
确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻;
基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误阈值为所述新阈值;
重置所述中断停留累计时长,并退出所述当前中断。
根据本发明提供的一种可纠正错误阈值设定方法,基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,包括:
基于所述运行周期与所述时间差的比值,以及至少一个硬件类型的所述当前阈值确定所述新阈值。
根据本发明提供的一种可纠正错误阈值设定方法,基于所述运行周期与所述时间差的比值,以及至少一个硬件类型的所述当前阈值确定所述新阈值,包括:按如下公式确定所述新阈值
其中,表示当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
根据本发明提供的一种可纠正错误阈值设定方法,在所述新阈值超过预设阈值上限的情况下,停止可纠正错误中断。
根据本发明提供的一种可纠正错误阈值设定方法,所述可纠正错误包括至少两种硬件类型的可纠正错误;
所述中断检测的步骤还包括:在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数;
所述阈值更新的步骤包括:
在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时;
比较所述中断停留累计时长和所述中断停留最长时长;
在所述中断停留累计时长大于等于所述中断停留最长时长的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
在所述中断停留累计时长小于所述中断停留最长时长的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述定时器中断。
根据本发明提供的一种可纠正错误阈值设定方法,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,包括:
按所述中断停留累计时长与中断停留最长时长的比值,以及所述目标当前阈值,确定所述目标新阈值。
根据本发明提供的一种可纠正错误阈值设定方法,按所述中断停留累计时长与中断停留最长时长的比值,以及所述目标当前阈值,确定所述目标新阈值,包括:按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
根据本发明提供的一种可纠正错误阈值设定方法,所述可纠正错误包括至少两种硬件类型的可纠正错误;
所述中断检测的步骤还包括:在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数;
所述阈值更新的步骤包括:
在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长;
在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤,否则,退出所述当前中断;
确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻;
比较所述运行周期和所述时间差;
在所述运行周期大于等于所述时间差的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
在所述运行周期小于所述时间差的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述当前中断。
根据本发明提供的一种可纠正错误阈值设定方法,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,包括:
基于所述运行周期与所述时间差的比值,以及所述目标当前阈值确定所述目标新阈值。
根据本发明提供的一种可纠正错误阈值设定方法,基于所述运行周期与所述时间差的比值,以及所述目标当前阈值确定所述目标新阈值,包括:按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
根据本发明提供的一种可纠正错误阈值设定方法,在所述目标新阈值超过预设阈值上限的情况下,停止所述目标新阈值对应的硬件类型的可纠正错误中断。
根据本发明提供的一种可纠正错误阈值设定方法,所述可纠正错误阈值的初始值为1~10。
根据本发明提供的一种可纠正错误阈值设定方法,在循环执行所述中断检测和阈值更新的步骤中,还包括:接收用户对中断停留最长时长和运行周期至少之一的修改值。
本发明还提供一种可纠正错误阈值设定装置,包括:
参数获取模块,用于获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值;
中断检测模块,用于在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长;
阈值更新模块,用于基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的可纠正错误阈值设定方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的可纠正错误阈值设定方法。
本发明提供的可纠正错误阈值设定方法、装置、电子设备及存储介质,由于设置了中断停留最长时长、运行周期两个参数及不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,并循环执行中断检测和阈值更新的步骤,在循环过程中,对中断停留时间进行累计,得到了中断停留累计时长,并基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于当前阈值确定新阈值,更新可纠正错误阈值为所述新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值。根据新阈值的大小控制下一个阈值更新周期内可纠正错误中断的频次,从而实现了根据中断停留累计时长的长短,动态设定可纠正错误阈值,保证了在不影响系统性能的前提下及时对故障进行修复隔离,减少宕机率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的可纠正错误阈值设定方法的流程示意图之一;
图2是本发明提供的可纠正错误阈值设定方法的流程示意图之二;
图3是本发明提供的可纠正错误阈值设定方法的流程示意图之三;
图4是本发明提供的可纠正错误阈值设定方法的流程示意图之四;
图5是本发明提供的可纠正错误阈值设定方法的流程示意图之五;
图6是本发明提供的可纠正错误阈值设定方法在服务器中的应用场景示意图;
图7是本发明提供的可纠正错误阈值设定装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的可纠正错误阈值设定方法,如图1所示,包括:
步骤S110:获取中断停留最长时长(Break stay Time,BST)、运行周期(TotalTime,TT)和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长。本步骤中,中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值均是预先设置的与服务器BIOS(Basic Input Output System)相关的参数,可以由用户自行设定。其中,中断停留最长时长表示运行周期中允许的最大中断停留时长,因此,中断停留最长时长应小于运行周期,并且大于一次可纠正错误中断内的停留时长。具体地,用户可根据服务器运行业务的实际情况设定,例如:设定运行周期为1小时,中断停留最长时长为10秒,表示用户能够容忍该服务器在1小时内的所有可纠正错误中断总的停留时长不超过10秒,若超过10秒,说明硬件的可纠正错误中断次数增多,则需要按下述步骤S120和S130中的方法动态调整硬件的可纠正错误阈值。
步骤S120:中断检测,在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长。服务器系统中,不同类型(至少一种类型)的硬件会产生不同类型的可纠正错误中断,累计中断停留时长是累计所有类型的硬件产生的可纠正错误中断内的停留时长。服务器系统运行过程中,只要有硬件产生可纠正错误时,BIOS系统会根据设置的可纠正错误阈值判断是否产生可纠正错误中断,在某硬件类型的可纠正错误的个数达到相应的可纠正错误阈值时,产生可纠正错误中断,并在可纠正错误中断内对错误执行修复隔离等操作。本步骤中,每检测到一次可纠正错误中断,就累计一次中断停留累计时长/>
步骤S130:阈值更新,基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长。
在达到所述阈值更新条件时,说明至少一个硬件类型对应的当前阈值设置过大或者过小,过大时,较多的可纠正错误得不到修复,还可能会转化为不可纠正错误,会导致更多的宕机情形出现;过小时,频繁地产生可纠正错误中断,影响服务器系统性能。本步骤中,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值。根据新阈值的大小控制下一个阈值更新周期内可纠正错误中断的频次,以缓解上述当前阈值设置过大或过小的情况,保证了在不影响系统性能的前提下及时对可纠正错误进行修复隔离,减少宕机率。其中,在更新阈值后,需要重置所述中断停留累计时长,即置为0,以便在下一个阈值更新周期内,重新累计中断停留累计时长,并再一次动态调整可纠正错误阈值。
循环执行所述中断检测和阈值更新的步骤,以动态设定可纠正错误阈值。需要说明的是:本实施例的可纠正错误阈值设定方法在服务器系统启动后开始运行,不断地循环执行上述中断检测和阈值更新的步骤,实现可纠正错误阈值的动态设定,在服务器系统关闭或宕机时才会退出循环。
本实施例的可纠正错误阈值设定方法中,由于设置了中断停留最长时长、运行周期两个参数及不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长,并循环执行中断检测和阈值更新的步骤,在循环过程中,对中断停留时间进行累计,得到了中断停留累计时长,并基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于当前阈值确定新阈值,更新可纠正错误阈值为所述新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值。根据新阈值的大小控制下一个阈值更新周期内可纠正错误中断的频次,从而实现了根据中断停留累计时长的长短,动态设定可纠正错误阈值,保证了在不影响系统性能的前提下及时对故障进行修复隔离,减少宕机率。
在一些实施例中,所述步骤S130,阈值更新的步骤如图2所示,包括:
步骤S210:在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时。该运行周期即为阈值更新周期,每当定时器计时达到运行周期时,就触发定时器中断,在定时器中断内执行步骤S220和步骤S230。
步骤S220:基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误阈值为所述新阈值,即将新阈值作为当前阈值,在下一个阈值更新周期内以新阈值来调整可纠正错误中断的频次。具体地,基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,使得在中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值,以在下一个阈值更新周期中,减少可纠正错误中断的频次。在中断停留累计时长小于中断停留最长时长的情况下,所述新阈值小于所述当前阈值,以在下一个阈值更新周期中,增大可纠正错误中断的频次。
步骤S230:重置所述中断停留累计时长,以便在下一个阈值更新周期内,重新累计中断停留累计时长,并再一次动态调整可纠正错误阈值。中断停留累计时长重置后退出所述定时器中断。
本实施例中,基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,包括:
按所述中断停留累计时长与中断停留最长时长的比值,以及至少一个硬件类型的所述当前阈值,确定所述新阈值。具体地,按如下公式确定所述新阈值
其中,表示当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
在当前运行周期内,中断停留累计时长越长,说明该当前运行周期内,可纠正错误中断越频繁,在中断停留累计时长/>超过中断停留最长时长/>的情况下,说明在该当前运行周期内的可纠正错误中断的累计停留时长超出了用户设置的预期范围,此时,这一项大于1,新阈值/>大于当前阈值/>,即在下一个运行周期内以新阈值为基准进行可纠正错误的中断,由于新阈值/>变大了,从而在下一个运行周期内,降低了可纠正错误中断的频次,服务器系统减少了进入可纠正错误中断的次数,减少了中断停留累计时长/>,保证了服务器系统性能。
在当前运行周期内,中断停留累计时长越短,说明该当前运行周期内,可纠正错误中断频次越小,在中断停留累计时长/>未超过中断停留最长时长/>的情况下,说明在该当前运行周期内的可纠正错误中断的累计停留时长未超出用户设置的预期范围,此时,/>这一项小于1,新阈值/>小于当前阈值/>,即在下一个运行周期内以新阈值/>为基准进行可纠正错误的中断,由于新阈值/>变小了,从而在下一个运行周期内,增大了可纠正错误中断的频次,服务器系统增加了进入可纠正错误中断的次数,增大了中断停留累计时长/>。由于当前运行周期内中断停留累计时长/>并未累计到中断停留最长时长/>,说明服务器系统有一定的性能余量来对更多的可纠正错误进行修复,因此,在下一个运行周期内,根据调整后的新阈值/>增加了可纠正错误中断的频次,使中断停留累计时长/>接近(不超过)于中断停留最长时长/>,在不影响系统性能的前提下,尽可能多的产生可纠正错误中断,并修复可纠正错误,减少宕机率。当然,在/>这一项等于1的情况下,前后两个运行周期内可纠正错误阈值相等。
上一实施例中,增加了定时器来计算时长是否达到一个运行周期,定时器本身需要增加额外的系统资源,而且定时器在计时达到运行周期后,会产生定时器中断,也会在一定程度上影响系统性能。因此,在一些实施例中,所述步骤S130,阈值更新的步骤如图3所示,包括:
步骤S310:在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长,即比较和/>的大小。
步骤S320:在所述中断停留累计时长大于等于所述中断停留最长时长/>时,确定达到所述阈值更新条件,执行以下步骤S330~S350,否则,退出所述当前中断。本实施例中,以中断停留累计时长/>大于等于所述中断停留最长时长/>的时刻作为阈值更新周期的分界点,且在一个可纠正错误中断内进行可纠正错误阈值的更新。
步骤S330:确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻。
步骤S340:基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误阈值为所述新阈值。具体地,基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,使得在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,以在下一个阈值更新周期中,减少可纠正错误中断的频次。在运行周期小于时间差的情况下,所述新阈值小于所述当前阈值,以在下一个阈值更新周期中,增大可纠正错误中断的频次。
步骤S350:重置所述中断停留累计时长,并退出所述当前中断。重置所述中断停留累计时长,以便在下一个阈值更新周期内,重新累计中断停留累计时长,并再一次动态调整可纠正错误阈值。中断停留累计时长重置后退出当前中断。
本实施例中,基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,包括:
基于所述运行周期与所述时间差的比值,以及至少一个硬件类型的所述当前阈值确定所述新阈值。具体地,按如下公式确定所述新阈值
其中,表示当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
在当前阈值更新周期内,时间差越短,说明该当前阈值更新周期内中断停留累计时长/>的累计速度越快,可纠正错误中断越频繁,在时间差/>小于运行周期/>的情况下,说明在当前阈值更新周期内的可纠正错误中断的累计停留时长超出了用户设置的预期范围,此时,/>这一项大于1,新阈值/>大于当前阈值/>,即在下一个阈值更新周期内以新阈值/>为基准进行可纠正错误的中断,由于新阈值/>变大了,从而在下一个阈值更新周期内,降低了可纠正错误中断的频次,服务器系统减少了进入可纠正错误中断的次数,减少了中断停留累计时长/>,降低了中断停留累计时长/>的累计速度,保证了服务器系统性能。
在当前阈值更新周期内,时间差越长,说明该当前阈值更新周期内中断停留累计时长/>的累计速度越慢,可纠正错误中断的频次越小,在时间差/>大于运行周期/>的情况下,说明在当前阈值更新周期内的可纠正错误中断的累计停留时长未超出用户设置的预期范围,此时,/>这一项小于1,新阈值/>小于当前阈值/>,即在下一个阈值更新周期内以新阈值/>为基准进行可纠正错误的中断,由于新阈值/>变小了,从而在下一个阈值更新周期内,增大了可纠正错误中断的频次,服务器系统增加了进入可纠正错误中断的次数,增大了中断停留累计时长/>,增大了中断停留累计时长/>的累计速度。由于当前阈值更新周期内时间差/>未超过运行周期/>,说明服务器系统有一定的性能余量来对更多的可纠正错误进行修复,因此,在下一个阈值更新周期内,根据调整后的新阈值增加了可纠正错误中断的频次,在不影响系统性能的前提下,尽可能多的产生可纠正错误中断,并修复可纠正错误,减少宕机率。当然,在/>这一项等于1的情况下,前后两个运行周期内可纠正错误阈值相等。
本实施例中,以中断停留累计时长大于等于所述中断停留最长时长/>的时刻作为阈值更新周期的分界点,在一个可纠正错误中断内更新阈值,不需要额外设定定时器,节省了服务器系统资源,且在同等可纠正错误中断的频次下,每个阈值更新周期减少一次定时器中断,在一定程度上具有更好的系统性能。
在一些实施例中,在所述新阈值超过预设阈值上限的情况下,停止可纠正错误中断,以保证服务器系统性能。其中,预设阈值上限与存放可纠正错误阈值的寄存器位数相关,例如:该寄存器位数为15位,那么预设阈值上限为2的15次方。
上述各实施例中,在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,若有多个硬件类型的可纠正错误的情况下,理论上讲,在达到所述阈值更新条件时,可以对任意一个硬件类型的可纠正错误阈值确定新阈值,并更新,也可以对多个硬件类型的可纠正错误阈值分别确定新阈值,并更新。无论是对任意一个或多个硬件类型的可纠正错误阈值分别确定新阈值,并更新,虽然一定程度上能够调节下一个阈值更新周期内可纠正错误中断的频次,但都无法准确地找到在当前阈值更新周期内,对中断停留累计时长影响最大(可纠正错误中断数量大量增加或大量减小)的硬件类型对应的可纠正错误中断。可见,上述实施例仅仅适合只对一种硬件类型的可纠正错误阈值的动态设定。目前,服务器系统中,硬件的类型通常包括三种类型:CPU、内存和PCIE设备,三种硬件类型分别有各自的可纠正错误及可纠正错误阈值。
在多种硬件类型的可纠正错误同步产生的情况下,为了更好地保持系统稳定性,减少宕机率,在一些实施例中,所述可纠正错误包括至少两种硬件类型的可纠正错误,在此基础上,所述步骤S120,即中断检测的步骤还包括:在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数。例如:CPU的错误中断计数为CpuErrorCount,内存的错误中断计数为MemErrorCount,PCIE设备的错误中断计数为PcieErrorCount,每检测到一次CPU的可纠正错误中断,CpuErrorCount++,每检测到一次内存的可纠正错误中断,MemErrorCount++,每检测到一次PCIE设备的可纠正错误中断,PcieErrorCount++,从而实现对各类硬件的错误中断计数。
在此基础上,所述步骤S130,即阈值更新的步骤,如图4所示,包括:
步骤S410:在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时。该运行周期即为阈值更新周期,每当定时器计时达到运行周期时,就触发定时器中断,在定时器中断内执行步骤S420~S450。
步骤S420:比较所述中断停留累计时长和所述中断停留最长时长,即比较的大小。
步骤S430:在所述中断停留累计时长大于等于所述中断停留最长时长/>的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值。在所述中断停留累计时长/>大于等于所述中断停留最长时长/>的情况下,说明当前阈值更新周期内,各硬件类型的可纠正错误中断总数量较多,显然错误中断计数最大的硬件类型对应的可纠正错误中断对中断停留累计时长/>影响最大,因此,应该找出错误中断计数最大的硬件类型,将该硬件类型的可纠正错误阈值作为目标当前阈值。
步骤S440:在所述中断停留累计时长小于所述中断停留最长时长的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值。在所述中断停留累计时长小于所述中断停留最长时长的情况下,说明当前阈值更新周期内,各硬件类型的可纠正错误中断总数量较少,显然错误中断计数最小的硬件类型对应的可纠正错误中断对中断停留累计时长/>影响最大,因此,应该找出错误中断计数最小的硬件类型,将该硬件类型的可纠正错误阈值作为目标当前阈值。
步骤S450:重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述定时器中断。重置所述中断停留累计时长和各类硬件的错误中断计数,以便在下一个阈值更新周期内,重新累计中断停留累计时长,重新对各类硬件的错误中断计数,并再一次动态调整可纠正错误阈值。在所述中断停留累计时长和各类硬件的错误中断计数重置后,退出所述定时器中断。
本实施例中,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,包括:
按所述中断停留累计时长与中断停留最长时长的比值,以及所述目标当前阈值,确定所述目标新阈值。具体地:按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
在当前运行周期内,中断停留累计时长越长,说明该当前运行周期内,可纠正错误中断越频繁,在中断停留累计时长/>超过中断停留最长时长/>的情况下,说明在该当前运行周期内的可纠正错误中断的累计停留时长超出了用户设置的预期范围,优先将错误中断计数最大的硬件对应的可纠正错误阈值为目标当前阈值/>,此时,/>这一项大于1,目标新阈值/>大于目标当前阈值/>,即在下一个运行周期内以目标新阈值/>为基准进行可纠正错误的中断,由于目标新阈值/>变大了,从而在下一个运行周期内,降低了错误中断计数最大的硬件类型的可纠正错误中断的频次,服务器系统减少了进入错误中断计数最大的硬件类型的可纠正错误中断的次数,减少了中断停留累计时长,保证了服务器系统性能。
在当前运行周期内,中断停留累计时长越短,说明该当前运行周期内,可纠正错误中断频次越小,在中断停留累计时长/>未超过中断停留最长时长/>的情况下,说明在该当前运行周期内的可纠正错误中断的累计停留时长未超出用户设置的预期范围,优先将错误中断计数最小的硬件对应的可纠正错误阈值为目标当前阈值/>,此时,这一项小于1,目标新阈值/>小于目标当前阈值/>,即在下一个运行周期内以目标新阈值/>为基准进行可纠正错误的中断,由于目标新阈值/>变小了,从而在下一个运行周期内,增大了错误中断计数最小的硬件类型的可纠正错误中断的频次,服务器系统增加了进入可纠正错误中断的次数,增大了中断停留累计时长/>。由于当前运行周期内中断停留累计时长/>并未累计到中断停留最长时长/>,说明服务器系统有一定的性能余量来对更多的可纠正错误进行修复,因此,在下一个运行周期内,根据调整后的新阈值/>,增加了错误中断计数最小的硬件类型的可纠正错误中断的频次,使中断停留累计时长/>接近(不超过)于中断停留最长时长/>,在不影响系统性能的前提下,尽可能多的产生错误中断计数最小的硬件类型的可纠正错误中断,并修复可纠正错误,减少宕机率。
例如:在当前运行周期内,CPU的错误中断计数CpuErrorCount急剧增多,导致中断停留累计时长超过中断停留最长时长/>,以CPU的可纠正错误阈值为目标当前阈值,按上述公式/>计算CPU的目标新阈值/>,由于/>,在下一个运行周期内,CPU的可纠正错误中断的频次会降低,从而使得中断停留累计时长减小。如果在当前运行周期内,CPU、内存和PCIE设备各自的错误中断计数都急剧增多,而且总数相差不大,那么在接下来的三个运行周期内会依次增大各目标新阈值/>,依次降低各可纠正错误中断的频次,从而在三个运行周期后将中断停留累计时长/>控制在中断停留最长时长/>之内。
相反地,在当前运行周期内,CPU的错误中断计数CpuErrorCount急剧减小,导致中断停留累计时长小于中断停留最长时长/>,以CPU的可纠正错误阈值为目标当前阈值/>,按上述公式/>计算CPU的目标新阈值/>,由于,在下一个运行周期内,CPU的可纠正错误中断的频次会增大,以进行更多CPU的可纠正错误中断,修复错误,而且使得中断停留累计时长/>增大并接近(不超过)于中断停留最长时长/>。如果在当前运行周期内,CPU、内存和PCIE设备各自的错误中断计数都急剧减小,而且总数相差不大,那么在接下来的三个运行周期内会依次减小各目标新阈值,依次增加各可纠正错误中断的频次,从而在三个运行周期内,处理更多的CPU、内存和PCIE设备各自的可纠正错误,并将中断停留累计时长/>控制在中断停留最长时长/>之内。
在一些实施例中,所述可纠正错误包括至少两种硬件类型的可纠正错误。在此基础上,所述步骤S120,即中断检测的步骤还包括:在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数。
所述步骤S130,阈值更新的步骤如图5所示,包括:
步骤S510:在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长,即比较和/>的大小。
步骤S520:在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤S330~S370,否则,退出所述当前中断。本实施例中,以中断停留累计时长大于等于所述中断停留最长时长/>的时刻作为阈值更新周期的分界点,且在一个可纠正错误中断内进行可纠正错误阈值的更新。
步骤S530:确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻。
步骤S540:比较所述运行周期和所述时间差。
步骤S550:在所述运行周期大于等于所述时间差的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值。具体地,基于所述时间差、所述运行周期和目标当前阈值确定所述新阈值,使得在运行周期大于时间差的情况下,所述目标新阈值大于目标当前阈值,以在下一个阈值更新周期中,减少错误中断计数最大的硬件类型的可纠正错误中断的频次。
步骤S560:在所述运行周期小于所述时间差的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值。具体地,基于所述时间差、所述运行周期和目标当前阈值确定所述新阈值,使得在运行周期小于时间差的情况下,所述目标新阈值小于目标当前阈值,以在下一个阈值更新周期中,增大错误中断计数最小的硬件类型的可纠正错误中断的频次。
步骤S570:重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述当前中断。重置所述中断停留累计时长和各类硬件的错误中断计数,以便在下一个阈值更新周期内,重新累计中断停留累计时长,重新对各类硬件的错误中断计数,并再一次动态调整可纠正错误阈值。在所述中断停留累计时长和各类硬件的错误中断计数重置后,退出当前中断。
本实施例中,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,包括:
基于所述运行周期与所述时间差的比值,以及所述目标当前阈值确定所述目标新阈值。具体地,按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
在当前阈值更新周期内,时间差越短,说明该当前阈值更新周期内中断停留累计时长/>的累计速度越快,可纠正错误中断越频繁,在时间差/>小于运行周期/>的情况下,说明在当前阈值更新周期内的可纠正错误中断的累计停留时长超出了用户设置的预期范围,优先将错误中断计数最大的硬件对应的可纠正错误阈值为目标当前阈值/>,此时,/>这一项大于1,目标新阈值/>大于目标当前阈值/>,即在下一个阈值更新周期内以目标新阈值/>为基准进行可纠正错误的中断,由于目标新阈值/>变大了,从而在下一个阈值更新周期内,降低了错误中断计数最大的硬件类型的可纠正错误中断的频次,服务器系统减少了进入错误中断计数最大的硬件类型的可纠正错误中断的次数,减少了中断停留累计时长/>,降低了中断停留累计时长/>的累计速度,保证了服务器系统性能。
在当前阈值更新周期内,时间差越长,说明该当前阈值更新周期内中断停留累计时长/>的累计速度越慢,可纠正错误中断的频次越小,在时间差/>大于运行周期/>的情况下,说明在当前阈值更新周期内的可纠正错误中断的累计停留时长未超出用户设置的预期范围,优先将错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,此时,/>这一项小于1,目标新阈值/>小于目标当前阈值/>,即在下一个阈值更新周期内以目标新阈值/>为基准进行可纠正错误的中断,由于目标新阈值/>变小了,从而在下一个阈值更新周期内,增大了错误中断计数最小的硬件类型的可纠正错误中断的频次,服务器系统增加了进入错误中断计数最小的硬件类型的可纠正错误中断的次数,增大了中断停留累计时长/>,增大了中断停留累计时长/>的累计速度。由于当前阈值更新周期内时间差/>未超过运行周期/>,说明服务器系统有一定的性能余量来对更多的可纠正错误进行修复,因此,在下一个阈值更新周期内,根据调整后的目标新阈值,增加了错误中断计数最小的硬件类型的可纠正错误中断的频次,在不影响系统性能的前提下,尽可能多的产生可纠正错误中断,并修复可纠正错误,减少宕机率。当然,在这一项等于1的情况下,前后两个运行周期内可纠正错误阈值相等。
本实施例中,以中断停留累计时长大于等于所述中断停留最长时长/>的时刻作为阈值更新周期的分界点,在一个可纠正错误中断内更新阈值,不需要额外设定定时器,节省了服务器系统资源,且在同等可纠正错误中断的频次下,每个阈值更新周期减少一次定时器中断,在一定程度上具有更好的系统性能。
在一些实施例中,在所述目标新阈值超过预设阈值上限的情况下,停止可纠正错误中断,以保证服务器系统性能。其中,预设阈值上限与存放可纠正错误阈值的寄存器位数相关,例如:该寄存器位数为15位,那么预设阈值上限为2的15次方。
在一些实施例中,所述可纠正错误阈值的初始值为1~10,优选为1,即在服务器系统启动时,硬件的可纠正错误较少的情况下,可对每个可纠正错误进行中断并修复错误。
在一些实施例中,在循环执行所述中断检测和阈值更新的步骤中,还包括:接收用户对中断停留最长时长和运行周期至少之一的修改值。在服务器系统运行过程中,用户可根据实际需求调整中断停留最长时长和运行周期这两个参数的设定,使得调整这两个参数后,根据这两个参数重新确定的新阈值更符合实际需求。
上述各实施例中的可纠正错误阈值设定方法可以在计算机系统中执行,尤其是在作为服务器的计算机系统中执行。上述各实施例中的可纠正错误阈值设定方法在服务器中的应用场景如图6所示,服务器中的硬件610主要包括:内存611、CPU 612和PCIE设备613。内存611、CPU 612和PCIE设备613都会产生各自的可纠正错误,内存611、CPU 612和PCIE设备613各自都有对应的计数寄存器620和阈值寄存器630。计数寄存器620用于对相应硬件产生的可纠正错误进行计数,阈值寄存器630用于存储相应硬件的可纠正错误阈值,例如:内存611的可纠正错误阈值为N1,CPU 612的可纠正错误阈值为N2,PCIE设备613的可纠正错误阈值为N3。对于每一类硬件610,相应的计数寄存器620对其产生的可纠正错误进行计数,并与对应的阈值寄存器630中存储的可纠正错误阈值作比较,如果计数达到可纠正错误阈值,则产生中断,例如:内存611的计数寄存器620计数达到N1,则产生内存中断。上述比较属于计数寄存器620和对应的阈值寄存器630的硬件行为,计数寄存器620每计数一次就会执行一次自动比较。产生中断后便进入BIOS中断处理函数模块640,上述各实施例的可纠正错误阈值设定方法均可在BIOS中断处理函数模块640中实现,BIOS中断处理函数模块640不仅仅对当前中断对应的可纠正错误进行修复,还执行上述各实施例的可纠正错误阈值设定方法对至少一个硬件类型的可纠正错误阈值进行更新,将更新后的可纠正错误阈值反馈至相应的阈值寄存器630,从而实现对可纠正错误阈值的动态设定。
下面对本发明提供的可纠正错误阈值设定装置进行描述,下文描述的可纠正错误阈值设定装置与上文描述的可纠正错误阈值设定方法可相互对应参照。
本发明的可纠正错误阈值设定装置,如图7所示,包括:
参数获取模块710,用于获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长。
中断检测模块720,用于在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长。
阈值更新模块730,用于基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长。
本发明的可纠正错误阈值设定装置中,由于设置了中断停留最长时长、运行周期两个参数及不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长,并循环执行中断检测和阈值更新的步骤,在循环过程中,对中断停留时间进行累计,得到了中断停留累计时长,并基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于当前阈值确定新阈值,更新可纠正错误阈值为所述新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值。根据新阈值的大小控制下一个阈值更新周期内可纠正错误中断的频次,从而实现了根据中断停留累计时长的长短,动态设定可纠正错误阈值,保证了在不影响系统性能的前提下及时对故障进行修复隔离,减少宕机率。
可选地,所述阈值更新模块730包括:
条件确定模块,用于在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时。
新阈值确定模块,用于基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误阈值为所述新阈值。
参数重置模块,用于重置所述中断停留累计时长,并退出所述定时器中断。
可选地,新阈值确定模块具体用于按所述中断停留累计时长与中断停留最长时长的比值,以及至少一个硬件类型的所述当前阈值,确定所述新阈值。
可选地,新阈值确定模块具体用于按如下公式确定所述新阈值
其中,表示当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
可选地,所述阈值更新模块730包括:
时长比较模块,用于在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长。
条件确定模块,用于在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤,否则,退出所述当前中断。
时间差确定模块,用于确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻。
新阈值确定模块,用于基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误阈值为所述新阈值。
参数重置模块,用于重置所述中断停留累计时长,并退出所述当前中断。
可选地,新阈值确定模块具体用于基于所述运行周期与所述时间差的比值,以及至少一个硬件类型的所述当前阈值确定所述新阈值。
可选地,新阈值确定模块具体用于按如下公式确定所述新阈值
其中,表示当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
可选地,本发明的可纠正错误阈值设定装置还包括:错误中断停止模块,用于在所述新阈值超过预设阈值上限的情况下,停止可纠正错误中断。
可选地,所述可纠正错误包括至少两种硬件类型的可纠正错误;
所述中断检测模块720还用于在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数。
所述阈值更新模块730包括:
条件确定模块,用于在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时。
时长比较模块,用于比较所述中断停留累计时长和所述中断停留最长时长。
目标新阈值确定模块,用于在所述中断停留累计时长大于等于所述中断停留最长时长的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;在所述中断停留累计时长小于所述中断停留最长时长的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值。
参数重置模块,用于重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述定时器中断。
可选地,目标新阈值确定模块具体用于按所述中断停留累计时长与中断停留最长时长的比值,以及所述目标当前阈值,确定所述目标新阈值。
可选地,目标新阈值确定模块具体用于按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
可选地,所述可纠正错误包括至少两种硬件类型的可纠正错误;
所述中断检测模块720还用于在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数。
所述阈值更新模块730包括:
时长比较模块,用于在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长。
条件确定模块,用于在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤,否则,退出所述当前中断。
时间差确定模块,用于确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻。
周期和时间差比较模块,用于比较所述运行周期和所述时间差。
目标新阈值确定模块,用于在所述运行周期大于等于所述时间差的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;在所述运行周期小于所述时间差的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值。
参数重置模块,用于重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述当前中断。
可选地,目标新阈值确定模块具体用于基于所述运行周期与所述时间差的比值,以及所述目标当前阈值确定所述目标新阈值。
可选地,目标新阈值确定模块具体用于按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
可选地,本发明的可纠正错误阈值设定装置还包括:错误中断停止模块,用于在所述目标新阈值超过预设阈值上限的情况下,停止所述目标新阈值对应的硬件类型的可纠正错误中断。
可选地,所述可纠正错误阈值的初始值为1~10。
可选地,所述参数获取模块710还用于接收用户对中断停留最长时长和运行周期至少之一的修改值。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行可纠正错误阈值设定方法,该方法包括:
获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长。
中断检测:在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长。
阈值更新:基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长。
循环执行所述中断检测和阈值更新的步骤,以动态设定可纠正错误阈值。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的可纠正错误阈值设定方法,该方法包括:
获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长。
中断检测:在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长。
阈值更新:基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长。
循环执行所述中断检测和阈值更新的步骤,以动态设定可纠正错误阈值。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的可纠正错误阈值设定方法,该方法包括:
获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误阈值的初始值,以初始值作为当前阈值,所述运行周期大于中断停留最长时长。
中断检测:在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长。
阈值更新:基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误阈值为所述新阈值,重置所述中断停留累计时长。
循环执行所述中断检测和阈值更新的步骤,以动态设定可纠正错误阈值。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (20)

1.一种可纠正错误数量的阈值的设定方法,其特征在于,包括:
获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误数量的阈值的初始值,以初始值作为当前阈值;
中断检测:在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长;
阈值更新:基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误数量的阈值为所述新阈值,重置所述中断停留累计时长;
循环执行所述中断检测和阈值更新的步骤,以动态设定可纠正错误数量的阈值。
2.根据权利要求1所述的可纠正错误数量的阈值的设定方法,其特征在于,所述阈值更新的步骤包括:
在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时;
基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误数量的阈值为所述新阈值;
重置所述中断停留累计时长,并退出所述定时器中断。
3.根据权利要求2所述的可纠正错误数量的阈值的设定方法,其特征在于,基于所述中断停留最长时长、所述中断停留累计时长和至少一个硬件类型的所述当前阈值确定所述新阈值,包括:
按所述中断停留累计时长与中断停留最长时长的比值,以及至少一个硬件类型的所述当前阈值,确定所述新阈值。
4.根据权利要求3所述的可纠正错误数量的阈值的设定方法,其特征在于,按所述中断停留累计时长与中断停留最长时长的比值,以及至少一个硬件类型的所述当前阈值,确定所述新阈值,包括:按如下公式确定所述新阈值
其中,表示当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
5.根据权利要求1所述的可纠正错误数量的阈值的设定方法,其特征在于,所述阈值更新的步骤包括:
在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长;
在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤,否则,退出所述当前中断;
确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻;
基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,并更新至少一个硬件类型的可纠正错误数量的阈值为所述新阈值;
重置所述中断停留累计时长,并退出所述当前中断。
6.根据权利要求5所述的可纠正错误数量的阈值的设定方法,其特征在于,基于所述时间差、所述运行周期和至少一个硬件类型的所述当前阈值确定所述新阈值,包括:
基于所述运行周期与所述时间差的比值,以及至少一个硬件类型的所述当前阈值确定所述新阈值。
7.根据权利要求6所述的可纠正错误数量的阈值的设定方法,其特征在于,基于所述运行周期与所述时间差的比值,以及至少一个硬件类型的所述当前阈值确定所述新阈值,包括:按如下公式确定所述新阈值
其中,表示当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
8.根据权利要求1所述的可纠正错误数量的阈值的设定方法,其特征在于,在所述新阈值超过预设阈值上限的情况下,停止可纠正错误中断。
9.根据权利要求1所述的可纠正错误数量的阈值的设定方法,其特征在于,所述可纠正错误包括至少两种硬件类型的可纠正错误;
所述中断检测的步骤还包括:在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数;
所述阈值更新的步骤包括:
在预设的定时器计时达到所述运行周期时,确定达到所述阈值更新条件,进入定时器中断,其中,所述定时器在每个运行周期内首次检测到可纠正错误中断时设置,并开始计时;
比较所述中断停留累计时长和所述中断停留最长时长;
在所述中断停留累计时长大于等于所述中断停留最长时长的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误数量的阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
在所述中断停留累计时长小于所述中断停留最长时长的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误数量的阈值为目标当前阈值,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述定时器中断。
10.根据权利要求9所述的可纠正错误数量的阈值的设定方法,其特征在于,基于所述中断停留最长时长、所述中断停留累计时长和所述目标当前阈值确定目标新阈值,包括:
按所述中断停留累计时长与中断停留最长时长的比值,以及所述目标当前阈值,确定所述目标新阈值。
11.根据权利要求10所述的可纠正错误数量的阈值的设定方法,其特征在于,按所述中断停留累计时长与中断停留最长时长的比值,以及所述目标当前阈值,确定所述目标新阈值,包括:按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示中断停留累计时长,/>表示中断停留最长时长,/>表示向上取整运算。
12.根据权利要求1所述的可纠正错误数量的阈值的设定方法,其特征在于,所述可纠正错误包括至少两种硬件类型的可纠正错误;
所述中断检测的步骤还包括:在当前中断中,对可纠正错误中断按所属的硬件类型进行计数,得到各类硬件的错误中断计数;
所述阈值更新的步骤包括:
在所述当前中断中,比较所述中断停留累计时长和所述中断停留最长时长;
在所述中断停留累计时长大于等于所述中断停留最长时长时,确定达到所述阈值更新条件,执行以下步骤,否则,退出所述当前中断;
确定当前时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻;
比较所述运行周期和所述时间差;
在所述运行周期大于等于所述时间差的情况下,筛选出错误中断计数最大的硬件类型对应的可纠正错误数量的阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
在所述运行周期小于所述时间差的情况下,筛选出错误中断计数最小的硬件类型对应的可纠正错误数量的阈值为目标当前阈值,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,并更新所述目标当前阈值为所述目标新阈值;
重置所述中断停留累计时长和各类硬件的错误中断计数,并退出所述当前中断。
13.根据权利要求12所述的可纠正错误数量的阈值的设定方法,其特征在于,基于所述时间差、所述运行周期和所述目标当前阈值确定目标新阈值,包括:
基于所述运行周期与所述时间差的比值,以及所述目标当前阈值确定所述目标新阈值。
14.根据权利要求13所述的可纠正错误数量的阈值的设定方法,其特征在于,基于所述运行周期与所述时间差的比值,以及所述目标当前阈值确定所述目标新阈值,包括:按如下公式确定所述目标新阈值
其中,表示目标当前阈值,/>表示运行周期,/>表示时间差,/>表示向上取整运算。
15.根据权利要求9至14中任一项所述的可纠正错误数量的阈值的设定方法,其特征在于,在所述目标新阈值超过预设阈值上限的情况下,停止所述目标新阈值对应的硬件类型的可纠正错误中断。
16.根据权利要求1至14中任一项所述的可纠正错误数量的阈值的设定方法,其特征在于,所述可纠正错误数量的阈值的初始值为1~10。
17.根据权利要求1至14中任一项所述的可纠正错误数量的阈值的设定方法,其特征在于,在循环执行所述中断检测和阈值更新的步骤中,还包括:接收用户对中断停留最长时长和运行周期至少之一的修改值。
18.一种可纠正错误数量的阈值的设定装置,其特征在于,包括:
参数获取模块,用于获取中断停留最长时长、运行周期和不同硬件类型的可纠正错误数量的阈值的初始值,以初始值作为当前阈值;
中断检测模块,用于在检测到当前中断为可纠正错误中断时,在当前中断中累计中断停留时长,得到中断停留累计时长;
阈值更新模块,用于基于所述运行周期,或所述中断停留最长时长和所述中断停留累计时长的组合,确定阈值更新条件,并在达到所述阈值更新条件时,基于至少一个硬件类型的当前阈值确定新阈值,且使得在当前阈值更新周期内,所述中断停留累计时长大于中断停留最长时长的情况下,所述新阈值大于所述当前阈值;或在运行周期大于时间差的情况下,所述新阈值大于所述当前阈值,所述时间差为所述中断停留累计时长大于等于中断停留最长时长的时刻与起始时刻的时间差,所述起始时刻为每个阈值更新周期内首次检测到可纠正错误中断的时刻,更新至少一个硬件类型的可纠正错误数量的阈值为所述新阈值,重置所述中断停留累计时长。
19.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至17中任一项所述的可纠正错误数量的阈值的设定方法。
20.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至17中任一项所述的可纠正错误数量的阈值的设定方法。
CN202311095394.9A 2023-08-29 2023-08-29 可纠正错误阈值设定方法、装置、电子设备及存储介质 Active CN116820828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311095394.9A CN116820828B (zh) 2023-08-29 2023-08-29 可纠正错误阈值设定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311095394.9A CN116820828B (zh) 2023-08-29 2023-08-29 可纠正错误阈值设定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116820828A CN116820828A (zh) 2023-09-29
CN116820828B true CN116820828B (zh) 2024-01-09

Family

ID=88117029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311095394.9A Active CN116820828B (zh) 2023-08-29 2023-08-29 可纠正错误阈值设定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116820828B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648216B (zh) * 2024-01-30 2024-04-23 苏州元脑智能科技有限公司 调整内存可纠正错误阈值的方法、装置、服务器及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1222558A (en) * 1983-01-20 1987-06-02 Nippon Hoso Kyokai Error correction method and apparatus
CN105589789A (zh) * 2015-12-25 2016-05-18 浪潮电子信息产业股份有限公司 一种动态调整内存监控阀值的方法
CN110008090A (zh) * 2019-04-15 2019-07-12 苏州浪潮智能科技有限公司 一种监控内存错误的方法、装置和计算机可读存储介质
CN114090316A (zh) * 2021-11-15 2022-02-25 北京字节跳动网络技术有限公司 内存故障处理方法、装置、存储介质及电子设备
CN115981898A (zh) * 2022-11-17 2023-04-18 新华三信息技术有限公司 一种内存可纠错误处理方法、装置、设备及可读存储介质
CN116560897A (zh) * 2022-01-29 2023-08-08 华为技术有限公司 一种易失性存储介质不可纠正错误的预测方法和相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1222558A (en) * 1983-01-20 1987-06-02 Nippon Hoso Kyokai Error correction method and apparatus
CN105589789A (zh) * 2015-12-25 2016-05-18 浪潮电子信息产业股份有限公司 一种动态调整内存监控阀值的方法
CN110008090A (zh) * 2019-04-15 2019-07-12 苏州浪潮智能科技有限公司 一种监控内存错误的方法、装置和计算机可读存储介质
CN114090316A (zh) * 2021-11-15 2022-02-25 北京字节跳动网络技术有限公司 内存故障处理方法、装置、存储介质及电子设备
CN116560897A (zh) * 2022-01-29 2023-08-08 华为技术有限公司 一种易失性存储介质不可纠正错误的预测方法和相关设备
CN115981898A (zh) * 2022-11-17 2023-04-18 新华三信息技术有限公司 一种内存可纠错误处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN116820828A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN116820828B (zh) 可纠正错误阈值设定方法、装置、电子设备及存储介质
WO2016082523A1 (zh) 故障处理装置及方法
CN102904685B (zh) 一种硬件表项校验错误的处理方法及装置
KR102479013B1 (ko) 전압 레벨 및 드룹 이벤트의 온보드 모니터링
CN115981898A (zh) 一种内存可纠错误处理方法、装置、设备及可读存储介质
US9158356B2 (en) Adaptive voltage scaling based on the results of forward error correction processing
US20150244622A1 (en) Method and device for processing packet congestion
CN111143104A (zh) 一种内存异常的处理方法、系统、电子设备及存储介质
CN110837432A (zh) 服务集群中异常节点的确定方法、装置和监控服务器
CN107678779A (zh) 一种定时任务执行方法和电子设备
US8185791B2 (en) Providing tuning limits for operational parameters in data processing apparatus
CN108563530A (zh) 看门狗及其实现方法
CN112131039A (zh) 一种内存ecc信息上报控制方法、装置、设备及介质
CN115904772A (zh) PCIe链路的错误确定方法、装置、设备及存储介质
US12013744B2 (en) Electrostatic interference processing method, apparatus, and device, and readable storage medium
WO2016197621A1 (zh) 一种调整服务器的频率的方法及装置
CN114546090A (zh) 自适应电压频率调整方法和装置
CN111865722B (zh) 一种节点健康状态检测及处理方法
US8230286B1 (en) Processor reliability improvement using automatic hardware disablement
CN112084058B (zh) 进程处理方法、装置和电子设备
CN111159139B (zh) 一种数据处理方法、装置、存储介质及监视设备
CN110430118B (zh) 账单邮件管理方法、装置、计算机设备及计算机可读存储介质
CN109727626B (zh) 半导体装置及其闪存的存取周期的自动调节方法
AU2020468530B2 (en) Assessment device, assessment method, and assessment program
CN117437970A (zh) 具有存储器空间单粒子翻转检测能力的星载计算机系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant