CN112099980A - 服务器及错误事件记录登载功能的控制方法 - Google Patents

服务器及错误事件记录登载功能的控制方法 Download PDF

Info

Publication number
CN112099980A
CN112099980A CN201910521082.7A CN201910521082A CN112099980A CN 112099980 A CN112099980 A CN 112099980A CN 201910521082 A CN201910521082 A CN 201910521082A CN 112099980 A CN112099980 A CN 112099980A
Authority
CN
China
Prior art keywords
error event
error
system module
event information
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910521082.7A
Other languages
English (en)
Inventor
陈瑞光
王传杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shencloud Technology Co Ltd
Huanda Computer Shanghai Co Ltd
Original Assignee
Shencloud Technology Co Ltd
Huanda Computer Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shencloud Technology Co Ltd, Huanda Computer Shanghai Co Ltd filed Critical Shencloud Technology Co Ltd
Priority to CN201910521082.7A priority Critical patent/CN112099980A/zh
Publication of CN112099980A publication Critical patent/CN112099980A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种限制错误事件记录登载次数的方法由一服务器执行,该服务器包含挥发性存储器模块、系统模块,及基板管理控制器,当该系统模块侦测到错误事件时,该系统模块对应产生错误通知信号,若该错误事件属于可修正类型,该系统模块判断该错误通知信号对应的错误事件信息的发生次数是否不大于对应的预设次数,若是,该系统模块将该错误事件信息作为更新事件信息,若否,该系统模块判断该错误事件信息与上次的更新事件信息对应的发生时间间距是否超过预设时间,若是,该系统模块将该错误事件信息作为更新事件信息传送到该基板管理控制器。

Description

服务器及错误事件记录登载功能的控制方法
【技术领域】
本发明是有关于一种电子数位资料处理的方法与服务器,特别是指一种用于错误监控与记录登载的方法与服务器。
【背景技术】
现有服务器的具有纠错功能的存储器运作时所发生的错误事件主要可分为二种类型:可更正错误(correctable error)与不可更正错误(un-correctable error),现有服务器更正错误的机制是借由采用具有错误更正码技术的存储器(ECC memory: Error-correcting code memory)来实现错误事件的更正,错误更正码可用来检测服务器常见的内部资料毁损,此外,当服务器的中央处理器侦测到此类存储器发生错误事件时会触发系统管理中断(SMI: System Managment Interrupt)机制,并在判断其为可修正错误时,会将该次错误事件的错误事件信息作为更新是建信息(例如:发生时间,错误内容…等)传送给基板管理控制器,以供其以错误日志(error log)的形式做记录,即中央处理器触发系统管理中断机制后,写入系统事件记录(System event log)到基板管理控制器,以供使用者得知服务器目前有稳定度疑虑的存储器。
然而,若同一存储器在短时间内频繁重复地发生同一错误事件时,则由于中央处理器将跟着重复执行相关处理,进而使基板管理控制器被大量的系统事件记录占用,因而有以下缺点:
一、短时间内重复大量的系统事件记录的登载会影响服务器整体的运作。
二、重复大量的系统事件记录的登载会占用基板管理控制器储存系统事件记录所需的空间。
三、当中央处理器触发系统管理中断以进行错误事件处理的时间越长时,则其在作业系统处理的执行绪(thread)则越容易发生错误事件。
【发明内容】
本发明要解决的技术问题是在于提供一种可在影响系统运作较少的情况下,以较有效率的方式对错误事件记录登载的错误事件记录登载功能的控制方法。
为解决上述技术问题,一种错误事件记录登载功能的控制方法,由一服务器执行,该服务器包含一挥发性存储器模块、一电连接该挥发性存储器模块的系统模块,及一电连接该系统模块的基板管理控制器,该错误事件记录登载功能的控制方法包含一步骤(P)、一步骤(A)、一步骤(B),及一步骤(E)。
该步骤(P)为当该系统模块侦测到该挥发性存储器模块发生一错误事件时,该系统模块对应产生一错误通知信号,该错误事件的种类属于一可修正类型与一不可修正类型二者其中之一。
该步骤(A)为当该错误事件属于该可修正类型时,该系统模块判断该错误通知信号所指示的一错误事件信息对应的发生次数是否不大于对应的一预设次数,若判断结果为是,则接着进行以下一步骤(B),若判断结果为否则接着进行以下一步骤(E)。
该步骤(B)为该系统模块将以该错误事件信息更新的一更新事件信息传送到该基板管理控制器,并由该基板管理控制器进行登载。
该步骤(E)为该系统模块更进一步的判断上次被传送到该基板管理控制器的该更新事件信息所对应的发生时间与该错误事件信息对应的发生时间的时间间距是否超过一预设时间,若否,则回到该步骤(P)。
本发明要解决的另一目技术问题,即在提供一种在影响系统运作较少的情况下,以较有效率的方式对错误事件记录登载的服务器。
于是,本发明服务器,包含一挥发性存储器模块、一系统模块,及一基板管理控制器。
当该挥发性存储器发生一错误事件时,该错误事件的种类属于一可修正类型与一不可修正类型二者其中之一。
该系统模块电连接该挥发性存储器模块,并在侦测到该挥发性存储器模块发生该错误事件时,对应产生一错误通知信号。
该基板管理控制器电连接该系统模块。
当该系统模块判断该错误事件属于该可修正类型时,该系统模块判断该错误通知信号所指示的一错误事件信息对应的发生次数是否不大于对应的一预设次数。
若是,则该系统模块将该以该错误事件信息更新的一更新事件信息传送到该基板管理控制器,并由该基板管理控制器进行登载,若否,则该系统模块更进一步判断上次被传送到该基板管理控制器的该更新事件信息所对应的发生时间与该错误事件信息对应的发生时间的时间间距是否超过一预设时间,若是,则该系统芯片将以该错误事件信息更新的更新事件信息传送到该基板管理控制器。
相较于现有技术,本发明服务器及错误事件记录登载功能的控制方法,该系统模块在侦测到该挥发性存储器发生该错误事件,且其为可修正类型时,该系统模块借由判断其对应的发生次数及其在本次与先前被传送到该基板管理控制器的该更新事件信息所对应的错误事件的发生时间的时间间距,并根据该预设次数与该预设时间以决定是否将该错误事件对应的该错误事件信息作为更新事件信息传送到该基板管理控制器进行登载,以减少登载次数而节省基板管理控制器的可用资源,进而降低对于服务器整体运作效能的影响,并避免整体运作中断。
【附图说明】
图1是一方块图,说明本发明服务器的一实施例;
图2是一方块图,辅助说明该实施例的一挥发性存储器模块;
图3是一流程图,说明该实施例执行的一错误事件记录登载功能的控制方法;及
图4是一流程图,辅助说明该实施例执行的详细步骤。
【具体实施方式】
参阅图1,本发明服务器包含一非挥发性存储器模块2、一硬盘模块3、一挥发性存储器模块4、一系统模块5,及一基板管理控制器6。
该非挥发存储器模块2储存一基本输入输出系统映像档(BIOS Image: Image ofBasic Input Output System)。
该硬盘模块3储存一作业系统(OS:Operating System)。
该挥发性存储器模块4包括多个存储器单元41,当该系统模块5侦测到该等存储器单元41其中之一发生一错误事件时,由该系统模块5产生对应的错误通知信号,且该错误事件的种类属于可修正类型与不可修正类型二者其中之一,在本实施例中,该等存储器单元41的类型为双线存储器模块(Dual In-line Memory Module;DIMM),关于系统模块5产生对应错误通知信号的具体做法将详细说明如下。
该系统模块5包括一平台路径控制器51(PCH:Platform Controller Hub),及一中央处理器52(CPU:Central Processing Unit),且该系统模块可以以该平台路径控制器51及该中央处理器52整合而成的一系统单晶片(SoC, System on chip),也可以以该中央处理器52搭配该平台路径控制器51来实施。
该平台路径控制器51电连接该非挥发性存储器模块2与该硬盘模块3。
该中央处理器52具有一中央控制单元521,及多个存储器控制单元522,该中央控制单元521电连接该平台路径控制器51,并经由该平台路径控制器51读取而执行储存于该非挥发性存储器模块2的该基本输入输出系统映像档,及储存于该硬盘模块3的该作业系统二者其中之一,每一存储器控制单元522电连接该中央控制单元521,并各自电连接每一存储器单元41,每一存储器控制单元522于每次各自对每一存储器单元41进行资料存取过程中,会检查对应的存储器单元41以侦测是否有错误事件发生,且该等存储器控制单元522分别根据对应的该存储器单元41发生的错误事件对应产生并传送对应的错误通知信号(此错误通知信号可伴随一中断信号被一并传送)至该中央控制单元521。
配合图1并参阅图2,该基板管理控制器6电连接该平台路径控制器51,当该中央控制单元6接收该错误通知信号时,该中央控制单元6根据该错误通知信号判断该错误事件的类型,并决定是否将该错误事件的错误事件信息经由该平台路径控制器51传送至该基板管理控制器6供该基板管理控制器6登载储存。
进一步说明,该中央控制单元521在决定是否将该错误事件传送到该基板管理控制器6之前,会先选择性地决定是否先记录该错误事件的错误事件信息,其实际做法如下述:当该等存储器控制单元522其中之一侦测到错误事件发生时,会产生并传送错误事件通知给中央控制单元521,以使该中央控制单元521决定是否在该等存储器单元41的其中之一者对应的一记录区记录该错误事件的错误事件信息以作为更新事件信息,包括:中央控制单元本身的编号(实作上中央控制单元的数量可以为一个或多个)、所侦测到的错误事件对应的存储器控制单元的编号、该挥发性存储器模块4的通道编号,及该错误事件发生的时间点,至于决定是否记录上述的错误事件信息,是取决于该中央控制单元先判断错误事件的种类,更具体的做法将详细说明于后。
参阅图3,该服务器执行一种错误事件记录登载功能的控制方法,该错误事件记录登载功能的控制方法包含一设定事件记录次数上限的步骤(G)、一触发中断机制的步骤(P)、一判断错误次数的步骤(A)、一登载错误事件的步骤(B)、一判断更新完成次数的步骤(C)、一登载暂停记录的步骤(D)、一判断错误事件发生时间的步骤(E),及一重置记录次数的步骤(F)。
需先说明的是,该服务器执行该错误记录登载功能的控制方法时,主要可分三大阶段:
一、暂存错误:只要有发生错误事件,该系统模块5的中央控制单元521就先将错误事件的错误事件信息暂存于该暂存器523。
二、错误由该中央控制单元521记录于记录区:该中央控制单元521在记录暂存的错误事件信息之前,须先决定是否记录当下发生的错误事件的错误事件信息以作为一更新事件信息(由于该中央控制单元521仅会将对应发生次数不大于一预设次数的错误事件信息记录于记录区,当对应的发生次数大于该预设次数的错误事件发生时,该中央控制单元521会判定不用记录)。
三、将记录区的错误事件登载到该基板管理控制器6:只要该中央控制单元521有更新记录区的更新事件信息,就要连动的进行将更新事件信息登载到该基板管理控制器6。
此外,在该中央处理器52每次将暂存器的错误事件信息记录于记录区以作为更新事件信息并累加记录对应的发生次数,且于记录完成后,该中央处理器52可选择性的再次以记录区更新后的该更新事件信息对应的发生次数比对预设次数,当更新后的该更新事件信息对应的发生次数等于预设次数时,则该中央处理器52传送错误事件发生次数已满通知至该基板管理控制器6以供其以日志形式储存。
以下接着说明该服务器执行该错误事件记录登载功能的控制方法的详细流程。
该设定事件记录次数上限的步骤(G)为该中央控制单元521设定对应于每一存储器单元41在各自发生该错误事件时,对应产生该错误通知信号所指示的该错误事件信息发生的该预设次数,以作为根据该错误通知信号记录对应的该错误事件信息的记录次数的次数限制,该预设次数也就是该中央控制单元521于每次记录错误事件信息于记录区的过程中一并累加记录对应的发生次数的次数上限。例如该预设次数为3次。
需再说明的是,该设定事件记录次数上限的步骤(G)的另一种具体做法为该中央控制单元521直接根据基本输入输出系统程序的预设值,在执行基本输入输出系统程序时,载入预设值并将其储存于该系统模块5的该等存储器控制单元522的暂存器,在实做上,是由使用者由本地端(Local)直接透过输入装置并借由基本输入输出系统的选单来修改,或是从远端(Remote)透过网络连接到服务器,并借由控制该中央控制单元521来修改储存于存储器控制单元522的暂存器所储存的设定。
该触发中断机制的步骤(P)为该挥发性存储器模块4对应的其中一存储器控制单元522侦测到一存储器单元41的一错误事件,该存储器控制单元522据以对应产生一错误通知信号,并以具有系统管理中断(SMI: System Managment Interrupt)机制的方式来传送所产生的该错误通知信号至该中央控制单元521。
该判断错误次数的步骤(A)为当该错误事件属于该可修正类型时,该中央控制单元521比对该错误通知信号所指示的当下的一错误事件所对应的发生次数是否不大于对应的该预设次数,例如该预设次数为3次。需再进一步说明的是,在将当下的该错误事件的错误事件信息记录于记录区之前,先比对预设次数与先前已记录于记录区的该更新事件信息对应的发生次数,若先前已记录于记录区的该更新事件信息对应的发生次数小于该预设次数时,即使该中央处理器52将当下的该错误事件的错误事件信息记录到记录区,以作为更新后的更新事件信息,并累加记录更新后的更新事件信息对应的发生次数,也不会造成更新后的发生次数超过该预设次数,也就是说,若先前已记录于记录区的该更新事件信息对应的发生次数小于该预设次数时,即使该中央处理器52将当下的错误事件信息记录于记录区,仍符合该中央处理器52将对应发生次数小于等于该预设次数的当下的错误事件的错误事件信息记录于记录区的原则,因此,该中央控制单元521可以借由比对该更新事件信息对应的发生次数是否小于该预设次数的方式来判定该错误通知信号所指示的当下的一错误事件所对应的发生次数是否大于对应的该预设次数,也就是说,在将当下的该错误事件的错误事件信息记录于记录区之前,该中央控制单元521比对预设次数与先前已记录于记录区的该更新事件信息对应的发生次数,当该中央控制单元521判定该更新事件信息对应的发生次数小于该预设次数,则表示当下发生的该错误事件所对应的发生次数不大于该预设次数,反之,当该中央控制单元521判定该更新事件信息对应的发生次数不小于该预设次数,则等同于判定当下发生的该错误事件所对应的发生次数大于该预设次数,其中,该错误事件所对应的发生次数,指的是可修正类型的错误事件的发生次数,以下接着说明更详细的做法。
参阅图4,进一步地说明该判断错误次数的步骤(A)的详细做法,包括一判断错误事件种类的子步骤(A0)、一暂存错误事件信息的子步骤(A1),及一判断错误次数的子步骤(A2)。
该判断错误种类的子步骤(A0)为当该存储器控制单元522侦测到该等存储器单元41其中之一发生错误事件时,该存储器控制单元522对应产生并传送该错误通知信号至该中央控制单元521,该中央控制单元521判断该错误通知信号所指的错误事件的类型是否属于可修正类型。
需再进一步说明的是,该存储器控制单元522据以对应产生一错误通知信号,并以触发系统管理中断(SMI: System Managment Interrupt)机制的方式来传送所产生的该错误通知信号至该中央控制单元521,当该中央控制单元521是在执行该基本输入输出系统映像档与该作业系统二者其中之一的执行状态下接收到以具有系统管理中断机制传送的该错误通知信号时,则该中央控制单元521先中断正在执行的执行状态,并接着在执行该基本输入输出系统映像档的环境中判断该错误通知信号的种类并进行后续处理。此外,当判断该错误为不可修正类型时,则中央控制单元521直接将该错误通知信号所指的该错误事件的错误事件信息传送至该基板管理控制器6以供登载日志。
该暂存错误事件信息的子步骤(A1)为若该判断错误种类的子步骤(A0)的判断结果为是,则该中央控制单元521将本次发生的关于该错误通知信号的该错误事件的错误事件信息暂存于该中央处理器52的一暂存器(Register)523,以进行后续步骤。需再说明的是,暂存器523所储存的错误事件信息包括错误内容、发生时间…等,而错误事件信息本身不包含对应的发生次数信息。
该判断错误次数的子步骤(A2)为在将本次发生的错误事件的错误事件信息更新记录于该记录区之前,先判断该记录区先前所记录的更新事件信息对应的发生次数是否小于该预设次数,若判断结果为是,表示该错误事件信息对应的发生次数不大于对应的该预设次数,则该中央控制单元521将本次发生的该错误事件的错误事件信息更新记录于该记录区,以作为更新的更新事件信息,并以累加一的方式来累加记录更新后的该更新事件信息所对应的发生次数,(即把先前记录的该更新事件信息对应的发生次数累加1)并进入该登载错误事件的步骤(B),若判断结果为否,亦即在将该错误事件的错误事件信息更新记录于该记录区之前,该记录区先前所记录的该更新事件信息对应的发生次数大于等于该预设次数,例如:例如先前记录的该更新事件信息的发生次数为3次,等于该预设次数3次,也就是说本次发生且尚未被记录于记录区的该错误事件所对应的发生次数为大于等于3的数值,则进入该判断错误发生时间的步骤(E)。
该登载错误事件的步骤(B)为该中央控制单元521将关于该存储器单元41发生该错误事件的错误事件信息的一更新事件信息记录至该基板管理控制器6以作为更新事件信息的部份内容。该中央控制单元521将该次更新储存于记录区的该更新事件信息包括对应的该错误事件的错误内容、发生时间,及累加后的发生次数传送至该基板管理控制器6以供其以日志形式登载储存。需再说明的是,该基板管理控制器6登载储存日志时是储存在内部的存储器或其外部与自身电性连接的外挂的存储器。
该判断更新完成次数的步骤(C)为该中央控制单元521判断该记录区所更新的记录关于已更新的该更新事件信息对应的发生次数是否已达该预设次数,若判断结果为否,则回到该触发中断机制的步骤(P),举例来说,该中央处理器52的该中央控制单元521更新储存本次发生的该错误事件于该记录区以作为该更新事件信息后,再判断已被更新的该更新事件信息对应的发生次数例如为2次(尚未更新记录前发生次数为1次,连同本次更新记录的该错误事件,则更新后的该更新事件信息对应的发生次数为1+1次),即,记录于该记录区的该更新事件信息对应的发生次数尚未达到该预设次数,则回到该触发中断机制的步骤(P)。
该登载暂停记录的步骤(D)为若该判断更新完成次数的步骤(C)的判断结果为是(例如:该中央控制单元521判断该记录区所记录关于包含本次发生的该错误事件的发生总次数为3次),则该中央控制单元521发送一错误事件发生次数已满通知,使该基板管理控制器6登载一错误事件发生次数已达该预设次数的日志,以指示出该错误事件的发生次数已达该预设次数限制,并暂停记录/登载错误事件所对应的更新事件信息,接着回该触发中断机制的步骤(P)。需再说明的是,该判断更新完成次数的步骤(C)与该登载暂停记录的步骤(D)主要让使用者借由远端计算机或是本地端计算机与基板管理控制器6连线以读取该基板管理控制器6登载的错误事件对应的更新事件资料时,可以确切的知道哪个时间点开始暂停记录/登载更新事件信息。若不执行该判断更新完成次数的步骤(C)与该登载暂停记录的步骤(D),则是从该登载错误事件的步骤(B)结束后直接回到该触发中断机制的步骤(P)。
该判断错误发生时间的步骤(E)为,该中央控制单元521更进一步地判断储存于该暂存器的该错误事件的发生时间与先前更新记录于记录区的该更新事件信息所对应的发生时间两者的时间差,并判断该时间差是否超过一预设时间,若判断结果为否,则回到该触发中断机制的步骤(P),例如:假设该预设时间为10分钟,在将本次发生的该错误事件的错误事件信息更新记录于该记录区之前,该记录区所记录的该更新事件信息对应的错误事件的发生时间,也就是记录于该记录区且对应该发生次数等于该预设次数对应的该错误事件对应的发生时间,以此为一预设期间的起始时间,例如该起始时间为1点整,其中,该预设期间是由该起始时间起算经该预设时间后结束,而本次发生的该错误事件的时间为1点08分,表示本次发生的该错误事件的发生时间距该记录区所记录的该更新事件信息对应的错误事件的发生时间的时间差小于该预设时间10分钟,即,该错误事件发生在该预设期间内重复发生,接着回到该触发中断机制的步骤(P),借此,该中央控制单元521于该预设期间内对应同一个存储器单元522的该错误事件再发生时,暂时停止将关于该存储器单元522发生该错误事件的错误事件信息(错误内容、发生时间)重复的记录至该记录区以及重复的登载至该基板管理控制器6,以使该中央控制单元521避免因多次重覆记录同种类的该错误发生的相关信息而造成其处理负担,以至于影响处理效能,进而减少服务器进入当机状态的机会,并降低该基板管理控制器6储存空间的浪费。
该重置记录次数的步骤(F)为若该判断错误发生时间的步骤(E)的判断结果为是,则中央控制单元521将等存储器单元41的该记录区作为更新事件记录所对应的发生次数重置为零,也就是归零,并进入该判断错误次数的子步骤(A2)再进入该登载错误事件的步骤(B)或是在完成步骤(F)后直接进入该登载错误事件的步骤(B),并接着执行后续步骤,例如:本次发生的该错误事件的发生时间为1点11分,表示一错误事件的发生时间距该起始时间的时间差大于该预设时间10分钟,则该中央控制单元521将关于该错误事件的发生次数重置为零,进入该登载错误事件的步骤(B),并接着执行后续步骤。
综上所述,上述实施例主要是借由该中央控制单元经由该等存储器控制单元设定相关于该等存储器单元的错误事件记录次数限制的预设次数,并在侦测到该等存储器单元其中之一发生错误事件,且判断其类型为可修正类型时,该中央控制单元暂存该错误事件信息,接着该中央控制单元判断该错误事件的发生次数是否尚未超过预设的记录次数限制,若未超过,该中央控制单元将该错误事件的相关信息登载到该基板管理控制器,若该中央控制单元暂存的该错误事件的发生次数超过该预设次数,则该中央控制单元暂停传送该错误事件作为更新事件信息的错误事件信息至该基板管理控制器作登载,以避免基板管理控制器重覆处理登载相同事件而造成运作负担,此外,若该中央控制单元判断该错误事件的发生次数已超过预设次数,则该中央控制单元更进一步的判断该错误事件的该次发生时间与一预设期间之一起始时间的时间差是否已超过一预设时间,若是,则该中央控制单元该错误事件的错误事件信息作为更新事件信息传送到该基板管理控制器以进行后续登载处理,以确保该错误事件在不浪费系统资源下可更有效率的被记录,因而本发明有以下优点:一、当短时间由于错误事件发生大量的系统事件记录时,不会影响整体运作效能,二、基板管理控制器的储存空间不会被大量重复的同一系统事件记录所占据,三、中央处理器不会因为错误事件而有中断其在作业系统处理的执行绪的疑虑,故确实能达成本发明的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种错误事件记录登载功能的控制方法,由一服务器执行,该服务器包含一挥发性存储器模块、一电连接该挥发性存储器模块的系统模块,及一电连接该系统模块的基板管理控制器,其特征在于,该错误记录登载功能的控制方法包含:
(P)当该系统模块侦测到该挥发性存储器模块发生一错误事件时,该系统模块对应产生一错误通知信号,该错误事件的种类属于一可修正类型与一不可修正类型二者其中之一;
(A)当该错误事件属于该可修正类型时,该系统模块判断该错误通知信号所指示的一错误事件信息对应的发生次数是否不大于对应的一预设次数,若判断结果为是,则接着进行步骤(B),若判断结果为否则接着进行步骤(E);
(B)该系统模块将以该错误事件信息更新的一更新事件信息传送到该基板管理控制器,并由该基板管理控制器进行登载;及
(E)该系统模块更进一步的判断上次被传送到该基板管理控制器的该更新事件信息所对应的发生时间与该错误事件信息对应的发生时间的时间间距是否超过一预设时间,若否,则回到该步骤(P)。
2.根据权利要求1所述的错误事件记录登载功能的控制方法,其特征在于,该步骤(A)包括以下子步骤:
(A0)该系统模块根据该挥发性存储器模块对应产生的该错误通知信号判断该错误事件是否属于该可修正类型,
(A1)若该子步骤(A0)的判断结果为是,则该系统模块暂存该挥发性存储器模块发生的该错误事件信息,及
(A2)该系统模块判断先前所记录的更新事件信息对应的发生次数是否小于该预设次数,若判断结果为是,表示该错误事件信息对应的发生次数不大于对应的该预设次数,则记录本次发生的该错误事件的错误事件信息以更新该更新事件信息。
3.根据权利要求2所述的错误事件记录登载功能的控制方法,其特征在于,在该步骤(B)之后,还包含一步骤(C):该系统模块判断记录的该更新事件信息对应的发生次数是否已达该预设次数,若否,则回到该步骤(P)。
4.根据权利要求3所述的错误事件记录登载功能的控制方法,其特征在于,在该步骤(C)之后,还包含一步骤(D):若该步骤(C)的判断结果为是,则该系统模块发送一错误事件发生次数已满通知,使该基板管理控制器登载一错误事件发生次数已达该预设次数的日志,以指示出该错误事件的发生次数已达该预设次数限制,并暂停登载错误事件所对应的更新事件信息,接着回到该步骤(P)。
5.根据权利要求2所述的错误事件记录登载功能的控制方法,其特征在于,还包含一步骤(F):若该步骤(E)的判断结果是,则该系统模块将该更新事件信息对应的发生次数归零,并进到该步骤(A2)。
6.一种服务器,其特征在于,包含:
一挥发性存储器模块,当发生一错误事件时,该错误事件的种类属于一可修正类型与一不可修正类型二者其中之一;
一系统模块,电连接该挥发性存储器模块,并在侦测到该挥发性存储器模块发生该错误事件时,对应产生一错误通知信号;及
一基板管理控制器,电连接该系统模块,
当该系统模块判断该错误事件属于该可修正类型,该系统模块判断该错误通知信号所指示的一错误事件信息对应的发生次数是否不大于对应的一预设次数,
若是,则该系统模块将以该错误事件信息更新的一更新事件信息传送到该基板管理控制器,并由该基板管理控制器进行登载,若否,则该系统模块更进一步判断上次被传送到该基板管理控制器的该更新事件信息所对应的发生时间与该错误事件信息对应的发生时间的时间间距是否超过一预设时间,若是,则该系统模块将以该错误事件信息更新的更新事件信息传送到该基板管理控制器。
7.根据权利要求6所述的服务器,其特征在于,该系统模块根据该挥发性存储器模块对应产生的该错误通知信号判断该错误事件是否属于该可修正类型,若是,则该系统模块暂存该挥发性存储器模块发生的该错误事件信息,该系统模块接着判断上次被传送到该基板管理控制器的更新事件信息对应的发生次数是否小于该预设次数,若判断结果为是,表示该错误事件信息对应的发生次数不大于对应的该预设次数,则记录本次发生的该错误事件的错误事件信息,以更新该更新事件信息,并累加记录该更新事件信息对应的发生次数。
8.根据权利要求7所述的服务器,其特征在于,该系统模块判断该更新事件信息对应的次数是否已达该预设次数,若否,则该系统模块接着在侦测到该挥发性存储器模块在该错误事件发生时,对应产生该错误通知信号。
9.根据权利要求8所述的服务器,其特征在于,若该系统模块判断该基板管理控制器记录的该错误事件信息对应的次数已达该预设次数,则该系统模块发送一错误事件发生次数已满通知,使该基板管理控制器登载一错误事件发生次数已达该预设次数的日志,以指示出该错误事件的发生次数已达该预设次数限制,并暂停登载错误事件所对应的更新事件信息,接着在侦测到该挥发性存储器模块在该错误事件发生时,对应产生该错误通知信号。
10.根据权利要求6所述的服务器,其特征在于,若该系统模块判断上次被传送到该基板管理控制器的该更新事件信息所对应的发生时间与该错误事件信息对应的发生时间的时间间距超过该预设时间,则该系统模块将该更新事件信息所对应的发生次数归零,且该系统模块接着记录本次发生的该错误事件的错误事件信息以更新该更新事件信息,并将以本次发生的该错误事件的错误事件信息更新后的该更新事件信息传送到该基板管理控制器。
CN201910521082.7A 2019-06-17 2019-06-17 服务器及错误事件记录登载功能的控制方法 Pending CN112099980A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910521082.7A CN112099980A (zh) 2019-06-17 2019-06-17 服务器及错误事件记录登载功能的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910521082.7A CN112099980A (zh) 2019-06-17 2019-06-17 服务器及错误事件记录登载功能的控制方法

Publications (1)

Publication Number Publication Date
CN112099980A true CN112099980A (zh) 2020-12-18

Family

ID=73748511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910521082.7A Pending CN112099980A (zh) 2019-06-17 2019-06-17 服务器及错误事件记录登载功能的控制方法

Country Status (1)

Country Link
CN (1) CN112099980A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102055615A (zh) * 2009-10-28 2011-05-11 英业达股份有限公司 服务器监控方法
US20150058665A1 (en) * 2013-08-23 2015-02-26 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. Error correcting system and method for server
TWI709039B (zh) * 2019-04-25 2020-11-01 神雲科技股份有限公司 伺服器及錯誤事件紀錄登載功能的控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102055615A (zh) * 2009-10-28 2011-05-11 英业达股份有限公司 服务器监控方法
US20150058665A1 (en) * 2013-08-23 2015-02-26 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. Error correcting system and method for server
TWI709039B (zh) * 2019-04-25 2020-11-01 神雲科技股份有限公司 伺服器及錯誤事件紀錄登載功能的控制方法

Similar Documents

Publication Publication Date Title
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
WO2021135272A1 (zh) 一种内存异常的处理方法、系统、电子设备及存储介质
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
WO2021253708A1 (zh) 内存故障的处理方法、装置、设备及存储介质
EP2770507B1 (en) Memory circuits, method for accessing a memory and method for repairing a memory
US20210133022A1 (en) Memory scrub system
US11182233B2 (en) Method for event log management of memory errors and server computer utilizing the same
CN109801668B (zh) 数据储存装置及应用于其上的操作方法
CN110989938A (zh) 一种故障盘识别方法、装置、设备及计算机可读存储介质
CN115981898A (zh) 一种内存可纠错误处理方法、装置、设备及可读存储介质
JP5451087B2 (ja) 障害処理装置および方法
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
CN114385418A (zh) 通信设备的保护方法、装置、设备和存储介质
CN115705261A (zh) 内存故障的修复方法、cpu、os、bios及服务器
US20190026202A1 (en) System and Method for BIOS to Ensure UCNA Errors are Available for Correlation
CN111209129A (zh) 基于amd平台的内存优化方法和装置
CN117349057A (zh) 管理纠正的错误的电子设备和电子设备的操作方法
CN109002317B (zh) 一种pcba固件升级方法及系统、pcba
CN112099980A (zh) 服务器及错误事件记录登载功能的控制方法
CN113127245B (zh) 一种系统管理中断的处理方法、系统及装置
US8230286B1 (en) Processor reliability improvement using automatic hardware disablement
US9176806B2 (en) Computer and memory inspection method
CN118656307B (zh) 基板管理控制器的故障检测方法、服务器、介质和产品
CN107451035B (zh) 用于计算机装置的错误状态数据提供方法
US20240211839A1 (en) Business data processing system and method for automatically capturing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination