CN100440157C - 用于将可恢复的错误记入日志的系统和方法 - Google Patents

用于将可恢复的错误记入日志的系统和方法 Download PDF

Info

Publication number
CN100440157C
CN100440157C CNB2006101363525A CN200610136352A CN100440157C CN 100440157 C CN100440157 C CN 100440157C CN B2006101363525 A CNB2006101363525 A CN B2006101363525A CN 200610136352 A CN200610136352 A CN 200610136352A CN 100440157 C CN100440157 C CN 100440157C
Authority
CN
China
Prior art keywords
chipset
recoverable
daily record
charged
recoverable error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006101363525A
Other languages
English (en)
Other versions
CN1949182A (zh
Inventor
S·古普塔
A·马多库里
B-C·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dell Products LP
Original Assignee
Dell Products LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dell Products LP filed Critical Dell Products LP
Publication of CN1949182A publication Critical patent/CN1949182A/zh
Application granted granted Critical
Publication of CN100440157C publication Critical patent/CN100440157C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

依照本发明,说明了一个信息处理系统中用于将可恢复的错误记入日志的系统和方法。所述系统包括中央处理器,连接到所述中央处理器的芯片组,连接到所述芯片组并与之相关的至少一个芯片组存储器单元。所述系统还包括基板管理控制器(BMC),以及包含基本输入输出系统(BIOS)的存储器单元。一个系统管理中断(SMI)被周期性调用。一个状态寄存器被扫描,以检测是否出现了一个可恢复的错误。如果检测到一个可恢复的错误,所述系统将这个可恢复的错误记入与所述基板管理控制器相关的一个存储器单元中的日志。系统将指明了这个可恢复错误的源和源的位置的信息记入日志。如果没有检测到可恢复的错误,系统发送一条消息,指出没有检测到可恢复的错误。

Description

用于将可恢复的错误记入日志的系统和方法
技术领域
本发明涉及计算机系统和信息处理系统,具体地说,涉及用于将可恢复的错误记入日志的系统和方法。
背景技术
随着信息的价值和应用持续地增长,个人和商业机构寻求额外的方式来处理和保存信息。这些用户可选择的一个选项是信息处理系统。一般而言,出于商业的、个人的或其他目的,信息处理系统处理、编辑、保存和/或传递信息或数据,从而允许这些用户充分利用这些信息的价值。因为对技术和信息处理的需要和要求随不同用户或应用而改变,信息处理系统随所处理信息的不同类型,处理信息的方法,处理、保存或传递信息的方法,所处理、保存或所传递信息的总量,信息处理、保存或传递的速度和效率等因素而改变。信息处理系统中的各种变化,允许各种信息处理系统,既可以是普遍性的,或者,也可以为特定用户或如金融交易处理、航空票务预定、公司数据保存或全球通信等特定应用而配置。此外,信息处理系统可以包括或包含配置为处理、保存和传递信息的不同硬件和软件组件,也可以包括一个或多个计算机系统、数据存储系统和网络系统。
服务器系统在正常的系统运行中,会经历可恢复的或可改正的错误。这种可恢复的错误,比如当连接到服务器系统的存储器单元失效的时候,可能会出现。为提高系统可靠性,服务器系统通常配置为当出现这样的错误的时候,捕捉这些可恢复或可修正的错误并将其写入日志。因为可恢复的错误通常是对即将发生的存储器失效的警告信号,这种捕捉加日志的处理程序给了服务器系统用户一个机会,在整个系统崩溃之前,替换掉有缺陷的存储器单元。通常,服务器系统通过以边带信号(sideband sisals)而产生一条系统管理中断(SMI),将要记入日志的错误发送出去。该SMI通过边带到达CPU,然后,CPU会冻结正在运行中的服务器系统进程。由SMI引发的进程中的这些暂停,使位于服务器系统上的基本输入输出系统(BIOS)可以在错误出现的时候,使用SMI处理器(handler),将这些可恢复的错误记入日志。一旦BIOS将这些错误记入日志,SMI终止,而且服务器系统可以恢复执行任意被中断的进程。对系统管理软件与平台硬件之间的接口进行管理的基板管理控制器(BMC),处理接收自BIOS的错误日志指令,并且执行实际写入到它的非易失性存储器。纵观整个通知处理过程,位于服务器系统上的操作系统(OS)并不知晓错误和随后将错误记入日志的处理。
然而,一些服务器系统并不包含边带信号能力。所有的通信必须通过主传送链路传播。因为可恢复的错误是可改正的,当可恢复的错误出现时,服务器系统并不会产生一条通知。因此,这些服务器系统可以设计为通过使用服务器系统BIOS或芯片组执行如周期性SMI等周期性扫描,来报告可恢复的错误。类似地,这些服务器系统可以要求服务器系统OS周期性地扫描这个系统。例如,OS可以周期性地扫描系统,并将在机器检查状态寄存器中探测到的任何可恢复的错误记入日志。典型的OS每分钟大约扫描一次。可是,使用服务器系统OS来周期性地扫描系统有其缺陷。例如,大部分的硬件错误是系统特定的。然而,一个OS通常缺乏对这个系统的特定架构的认识。如果不从系统BIOS寻求帮助,这个OS通常不能识别哪个组件有故障,从而阻碍了这两个资源。服务器系统的用户通常要求更高的特殊性,而不是由OS执行的一个常规的错误日志记录,尤其,如果可能产生问题的系统是一个高端服务器系统。此外,该OS通常在一个机器检查状态寄存器内记录错误日志,而该寄存器并不保存有关错误源的信息,因此,不能支持系统或用户稍后确定错误的源的位置。尽管有些OS版本每次扫描可以为多达10个可恢复的错误维持一个日志,然而一旦这种情况发生,通常一个OS不会再继续记入可恢复错误的日志,从而导致用户不能事后查看错误以确定问题的根源。
发明内容
依照本发明,这里描述了在一个信息处理系统中,用于将可恢复的错误记入日志的系统和方法。这样的系统包括中央处理器,连接到该中央处理器的芯片组,以及至少一个与该芯片组相连并与之关联的芯片组存储器单元。该系统还包括基板管理控制器(BMC),以及包含基本输入输出系统(BIOS)的存储器单元。
系统管理中断被周期性地调用。错误状态寄存器被扫描以检测是否出现了可恢复的错误。如果检测到可恢复的错误,系统将该可恢复的错误记入位于与该BMC关联的一个非易失性存储器单元的日志中。系统还将指明了可恢复错误的源和该源的位置的信息,记入日志。如果没有检测到可恢复的错误,系统发出一条消息,指出没有可恢复的错误出现。
这里说明的系统和方法有其优势,因为他们允许该信息处理系统确定可恢复错误的源和源的位置,即使该信息处理系统缺少通过边带发送信号的能力。由BMC或BIOS,而不是OS,识别可恢复错误的源并将其记入日志。这里说明的系统和方法有其优势,还因为他们可以允许基于该信息处理系统运行中的某一事件或某一改变,来动态地调整SMI的周期性。周期性的扫描要快于OS对可恢复错误的扫描速率。
附图说明
参考以下的附图说明并将其与附图共同使用,对本发明及其优点可以获得更完整的理解,附图中类似的附图标记指示了类似的特征,在这里:
图1是用于示例主板的一个示例架构的块图;
图2是说明用于调整系统执行周期性扫描的频率的一个示例方法的流程图;
图3是说明示例主板的一个示例架构的块图。
具体实施方式
出于本发明的目的,一个信息处理系统可以包括一种手段或多种手段的集合,这些手段均具有可操作性以计算、分类、处理、传输、接收、重新获得、产生、交换、保存、显示、展示、检测、记录、复制、操作或使用用于商业、科学、控制或其他目的的任意形式的信息、情报或数据。例如,一个信息处理系统可以是一台个人电脑,一台网络存储设备或任意其他合适的设备,也可以在尺寸、形状、性能、功能和价格上各有不同。该信息处理系统可以包括随机存取存储器(RAM),一个或多个如中央处理器、硬件或软件控制逻辑等的处理方式,ROM,和/或其他类型的非易失性存储器。该信息处理系统的其他组件包括一个或多个硬磁盘,一个或多个用于与外部设备通信的网络接口,以及诸如键盘、鼠标和视频显示器等的各类输入输出(I/O)设备。该信息处理系统还可以包括一个或多个总线,均具有操作性以在各种硬件组件之间传送消息。
图1说明了标识为100的主板的一个架构,该主板用于诸如一个服务器系统的信息处理系统。图1中的架构仅仅用于示例目的,而且,应当被理解为仅描述了用于各类主板的多种可能架构中的一种。如图1所示,主板100可以包括微处理器110。微处理器110可以作为该主板的CPU。微处理器110可以通过一条处理器总线120,与图1中标识为130、一般称为“北桥”的芯片相连。北桥130一般管理CPU与该信息处理系统中如存储器单元等的其他组件之间的通信。因此,一个或多个存储器单元和标识为140的存储器控制器,可以连接到北桥130。在图1中标识为150、称为“南桥”的芯片,也可以连接到北桥130。较北桥130而言,南桥150一般为主板执行更慢的服务,比如功率控制和外设组件接口(PCI)总线。南桥150可以通过小插针数(LPC)总线160,连接到包含BIOS 170的存储器单元。该BIOS有时也被称为“固件”。北桥130和南桥150有时被统称为主板100的“芯片组”。然而,如果主板100包括其他或另外的芯片,这些组件也可以成为该芯片组的一部分。
如图1底部所示,BMC 180也可以连接到LPC总线160。标识为190的控制器及一个或多个存储器单元,连接到BMC180。存储器单元190优选非易失性存储器单元。虽然在图1中没有标出电源,BMC 180可以有自己的电源。如本发明之前所述,BMC 180一般管理系统管理软件与平台硬件之间的接口。内建到该信息处理系统的不同传感器,可以向BMC报告诸如温度、风扇转速及各种电压等有关该信息处理系统的状态和可操作性的参数。如果BMC 180检测到任意一个监控参数偏离预设的界限,它可以发送一条告警给用户或系统管理员。因此,BMC 180可以连接到在图1中没有显示的多个硬件组件和一个网络,以监视这些参数,而且,如果有必要,激活告警。
图1中所示主板100的架构并没有包括微处理器110与南桥150之间的边带信号能力。所有的通信都必须通过主传送链路,而且包含了主板100的信息处理系统不能依靠边带信号而获得可恢复错误的报告。此外,因为可恢复的错误是可改正的,该信息处理系统一般不会告知用户出现了这样一个错误,除非该用户周期性地轮询以查找错误。因此,包含主板100的一个信息处理系统可以设计为通过使用BIOS 170执行诸如周期性SMI的周期性扫描,来报告可恢复的错误。同样,包含主板100的一个信息处理系统可以设计为依靠驻留在该信息处理系统上的OS来调用周期性扫描。然而,如本发明之前所述,这些方法并不是没有各自的缺陷。例如,OS通常不能识别哪个组件是这个可恢复错误的来源,因为OS程序包是常规性的,而且不包括所驻留的特定系统架构的映射。此外,OS将机器检查状态寄存器(对导致这个错误的组件而言,可能不是位于本地)中的可恢复的错误记入日志,之后便清除这个机器检查状态寄存器。
包含主板100的信息处理系统不是仅靠OS或BIOS 170来管理周期性扫描,而是依靠BMC 180来调用周期性的软SMI。也即,一旦信息处理系统建立并在运行中,经过一段预设的时间后,BMC 180就会调用一个软SMI。主板100上位于BMC 180与该芯片组之间的一条中断请求线195可以用于调用这个SMI。通用输入输出(GPIO)端口,虽然在图1中没有显示,可以配置以便允许BIOS 170与BMC 180之间通信。当BMC 180调用这个软SMI时,BIOS 170将通过读取诸如该芯片组的状态寄存器、存储器状态寄存器和/或微处理器110的状态寄存器来查找可恢复的错误。如果BIOS 170没有在这些寄存器中找到错误,BIOS 170会把这个消息传递给BMC 180。如果BIOS 170确实找到错误,BIOS 170会把这个错误传递给BMC 180,之后清除包含这个错误的状态寄存器。BIOS 170还可以通过BMC 180将这个错误在存储器单元190记入日志,通常是在一个非易失性系统事件日志中。因为BIOS 170熟悉主板100的架构,所以BIOS 170可以在日志中识别这个可恢复错误的源的位置。
可以依照制造商或用户的期望而预设BMC 180调用软SMI的周期。例如,如本发明之前所述,一些OS版本每分钟执行系统的机器检查状态寄存器的周期性扫描。因此,BMC 180调用软SMI的周期可以设为小于一分钟,以便BIO S170,较OS执行其扫描,更频繁地检查状态寄存器,从而降低OS在BIOS 170能检测到错误之前就将错误从机器检查状态寄存器中清除掉的风险。BMC 180甚至可以用足够高的频率调用软SMI,以防止OS检测到任何错误。然而,两个软SMI之间的周期应当足够大,以避免不必要地占用BIOS 170和BMC 180,以致降低了系统性能。
作为选择,BMC 180可以在从BIOS 170了解到错误状态之后,适应性地改变软SMI的周期。图2是说明适应性地改变软SMI周期的一种方法的流程图。如流程图的块200所示,BMC 180可以先调用一个软SMI。接着,如流程图的块210所示,BIOS 170检查适当的机器检查状态寄存器。此后,如流程图的块220所示,BIOS 170会确定它是否定位了一个错误。如果BIOS 170没有检测到任何错误,BIOS 170将发送一条单比特消息给BMC 180,告知其没有检测到错误,如流程图的块230所示。BMC 180可以由此降低它调用软SMI的频率,如流程图的块240所示。如果相反,BIOS 170检测到一个错误,BIOS 170接下来将确定该错误是否是可恢复的。如果BIOS 170检测到一个或多个可恢复的错误,BIOS 170会将这个情况告知BMC 180,如流程图的块200所示。BMC 180可以由此提高它调用软SMI的频率,如流程图的块270所示。可是,如果BIOS 170检测到不可恢复的错误,BIOS 170会将这个情况告知BMC 180。这时,可以将整个系统重置,软SMI的频率也可以恢复到缺省设置,例如,如块290中所示。
可以使用系统计时器来控制软SMI的生成。错误的频率通常会以不同的步进幅度升高或降低,因此,软SMI频率的极端改变以便为系统捕捉错误状态是没有必要的。然而,对于一个适应性地改变软SMI频率的系统,用户或制造商应当为BMC 180调用任何软SMI的周期设置预定的最小值和最大值。
图3说明了标注为300、用于诸如一个服务器系统等信息处理系统中的主板的可作为选择的架构。图3中所示架构与图1所示架构类似。因此,两图中类似组件采用同样的附图标记。可是,在主板300上,BMC 180和芯片组,或甚至北桥130可以通过互联(Inter-Interconnect,I2C)总线310而结合,如图3所示。主板300还可以设计为允许芯片组屏蔽或追踪存储器单元140的状态寄存器。尤其是,主板300还可以设计为允许北桥130在它自己的状态寄存器里屏蔽存储器单元140的状态寄存器。这样,BMC 180可以通过I2C总线310扫描北桥130的状态寄存器,并确定存储器单元140是否有可恢复的错误出现。如果BMC 180检测到一个可恢复的错误,它会调用一个软SMI以指令BIOS170将该可恢复的错误记入日志。然而,如果BMC 180没有检测到一个可恢复的存储器错误,它将不会干扰BIOS 170的运行。由此,可以降低BIOS 170上的负荷,因为它只被要求根据之前由BMC 180检测到的真实错误做出反应。在某些系统中,BMC 180会将可恢复的错误记入日志。可是,在很多系统中,却还是BIOS 170是一个更有效的将可恢复错误记入日志的选择,这是因为已经在典型的BIOS中实现一个算法以确定错误的原因和应对此错误负责的组件的位置。因此,如果BMC 180通过生成一条软SMI来通知BIOS 170,它已经检测到一个错误,BIOS 170可以确定该错误的原因,并将此信息记入日志。BMC 180扫描北桥130的机器检查状态寄存器的频率可以预先设定。作为选择,这个频率可以被适应性地改变,如本发明之前所述。例如,如果检测到单比特错误就提高扫描频率,如果没有检测到错误就降低频率。
虽然,本发明描述的一个系统和方法中,包括了适应性地改变BIOS 170和/或BMC 180的两个周期性扫描之间的时间间隔以作为对检测到的错误的响应,还可以使用其他因素以调整这些扫描的频率。例如,执行这些扫描的组件,假设为BIOS 170或BMC 180,其负荷可以影响扫描的周期。如果执行这些扫描的组件因为其他任务而过载,可以降低扫描频率以减轻该组件的负荷。尽管已经很详细地描述了本发明,但仍可以创造出各类改变、替换和变化而不必脱离权利要求中所述的本发明的精神和范围。

Claims (20)

1.一种在一个信息处理系统中用于将可恢复的错误记入日志的方法,其步骤包括:
周期性地调用系统管理中断SMI,
扫描状态寄存器以检测是否出现了一个可恢复的错误,
如果检测到有可恢复的错误,就将可恢复的错误记入日志,其中将可恢复的错误记入日志的动作,包括在与基板管理控制器相关的非易失性存储器单元中,记入指明了该可恢复错误的源和源的位置的信息,
如果没有检测到可恢复的错误,就发送一条指明没有检测到可恢复错误的消息。
2.如权利要求1所述的将可恢复错误记入日志的方法,其中调用SMI的步骤,包括使用所述基板管理控制器来调用中断。
3.如权利要求1所述的将可恢复错误记入日志的方法,其中扫描状态寄存器以检测是否出现了可恢复错误的步骤,包括使用该信息处理系统中保存在一个存储器单元内的基本输入输出系统BIOS,来扫描一个状态寄存器的步骤。
4.如权利要求1所述的将可恢复错误记入日志的方法,其中扫描状态寄存器以检测是否出现了可恢复错误的步骤,包括使用所述基板管理控制器来扫描状态寄存器的步骤。
5.如权利要求1所述的将可恢复错误记入日志的方法,其中扫描状态寄存器以检测是否出现了可恢复错误的步骤,包括扫描与中央处理器相关的处理器状态寄存器的步骤。
6.如权利要求1所述的将可恢复错误记入日志的方法,其中扫描状态寄存器以检测是否出现了可恢复错误的步骤,包括扫描与芯片组相关的芯片组状态寄存器的步骤。
7.如权利要求1所述的将可恢复错误记入日志的方法,其中扫描状态寄存器以检测是否出现了可恢复错误的步骤,包括扫描与连接到芯片组的至少一个存储器单元相关的存储器状态寄存器的步骤。
8.如权利要求1所述的将可恢复错误记入日志的方法,还包括:
将源于在与一个芯片组相关的至少一个存储器单元的运行期间所产生错误的可恢复错误,载入存储器状态寄存器,
以及在芯片组状态寄存器中,追踪记载在所述存储器状态寄存器中的任何可恢复的错误。
9.如权利要求8所述的方法,其中扫描状态寄存器以检测是否出现了可恢复错误,包括扫描所述芯片组状态寄存器以检测是否出现了可恢复错误。
10.如权利要求1所述的方法,还包括基于所述信息处理系统运行期间的一个事件,改变周期性调用SMI的频率。
11.如权利要求10所述的方法,其中基于所述信息处理系统运行期间的一个事件,改变周期性调用SMI的频率,包括基于是否检测到一个可恢复的错误,而改变周期性调用SMI的频率。
12.如权利要求1所述的方法,还包括基于所述信息处理系统运行期间的一个变化,改变周期性调用SMI的频率。
13.如权利要求12所述的方法,其中基于所述信息处理系统运行期间的一个变化,改变周期性调用SMI频率的步骤,包括基于保存在所述信息处理系统中的基本输入输出系统工作负荷的一个变化,改变周期性调用SMI的频率。
14.一种用于将可恢复的错误记入日志的系统,包括:
中央处理器,
连接到所述中央处理器的芯片组,
连接到所述芯片组并与之相关的至少一个芯片组存储器单元,
包含基本输入输出系统BIOS的至少一个固件存储器单元,其中所述至少一个固件存储器单元连接到至少一个芯片组,
连接到该芯片组和至少一个固件存储器单元的基板管理控制器,其中所述基板管理控制器可以调用一个要求BIOS检查可恢复的错误并将任何检测到的可恢复的错误记入日志的中断,
连接到所述基板管理控制器并与之相关的至少一个基板管理控制器存储器单元,其中所述至少一个基板管理控制器存储器单元可以保存所检测到的可恢复错误的日志。
15.如权利要求14所述的将可恢复错误记入日志的系统,进一步包括将所述基板管理控制器连接到所述芯片组的中断请求线,其中所述基板管理控制器可以通过所述中断请求线将一条中断发送到所述芯片组。
16.如权利要求14所述的将可恢复错误记入日志的系统,进一步包括与至少一个芯片组存储器单元相关的存储器状态寄存器,其中的BIOS可以检查所述存储器状态寄存器以查找可恢复的错误。
17.如权利要求14所述的将可恢复错误记入日志的系统,进一步包括与所述中央处理器相关的处理器状态寄存器,其中的BIOS可以检查所述处理器状态寄存器以查找可恢复的错误。
18.如权利要求14所述的将可恢复错误记入日志的系统,进一步包括与所述芯片组相关的芯片组状态寄存器,其中的BIOS可以检查该芯片组状态寄存器以查找可恢复的错误。
19.一种用于将可恢复的错误记入日志的系统,包括:
中央处理器,
连接到所述中央处理器的芯片组,
连接到该芯片组并与之相关的至少一个芯片组存储器单元,其中所述至少一个芯片组存储器单元与存储器状态寄存器相关,
与所述芯片组相关的芯片组状态寄存器,其中所述芯片组状态寄存器可以追踪所述存储器状态寄存器的内容,
包含基本输入输出系统BIOS的至少一个固件存储器单元,其中所述至少一个固件存储器单元连接到至少一个芯片组,
连接到所述芯片组和至少一个固件存储器单元的基板管理控制器,其中所述基板管理控制器可以调用一个中断,查找所述芯片组状态寄存器中的可恢复错误,并且要求所述BIOS将任何检测到的可恢复错误记入日志,
连接到所述基板管理控制器并与之相关的至少一个基板管理控制器存储器单元,其中所述至少一个基板管理控制器存储器单元可以保存所检测到的可恢复错误的日志。
20.如权利要求19所述的将可恢复错误记入日志的系统,进一步包括将所述基板管理控制器结合到所述芯片组的互联总线。
CNB2006101363525A 2005-10-14 2006-10-13 用于将可恢复的错误记入日志的系统和方法 Active CN100440157C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/250,603 US20070088988A1 (en) 2005-10-14 2005-10-14 System and method for logging recoverable errors
US11/250,603 2005-10-14

Publications (2)

Publication Number Publication Date
CN1949182A CN1949182A (zh) 2007-04-18
CN100440157C true CN100440157C (zh) 2008-12-03

Family

ID=37491397

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101363525A Active CN100440157C (zh) 2005-10-14 2006-10-13 用于将可恢复的错误记入日志的系统和方法

Country Status (11)

Country Link
US (1) US20070088988A1 (zh)
JP (1) JP2007109238A (zh)
CN (1) CN100440157C (zh)
AU (1) AU2006228051A1 (zh)
DE (1) DE102006048115B4 (zh)
FR (1) FR2892210A1 (zh)
GB (1) GB2431262B (zh)
HK (1) HK1104631A1 (zh)
IT (1) ITTO20060737A1 (zh)
SG (1) SG131870A1 (zh)
TW (1) TWI337707B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577298A (zh) * 2012-07-31 2014-02-12 鸿富锦精密工业(深圳)有限公司 基板管理控制器监控系统及方法
US10353763B2 (en) 2014-06-24 2019-07-16 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
JP2009121832A (ja) * 2007-11-12 2009-06-04 Sysmex Corp 分析装置、分析システム及びコンピュータプログラム
CN101446915B (zh) * 2007-11-27 2012-01-11 中国长城计算机深圳股份有限公司 一种bios级日志的记录方法及装置
JP4571996B2 (ja) * 2008-07-29 2010-10-27 富士通株式会社 情報処理装置及び処理方法
US8122176B2 (en) * 2009-01-29 2012-02-21 Dell Products L.P. System and method for logging system management interrupts
JP5093259B2 (ja) 2010-02-10 2012-12-12 日本電気株式会社 Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム
JP5459549B2 (ja) * 2010-03-31 2014-04-02 日本電気株式会社 コンピュータシステム及びその余剰コアを用いた通信エミュレート方法
TWI529525B (zh) * 2010-04-30 2016-04-11 聯想企業解決方案(新加坡)有限公司 處理系統錯誤之方法及系統
CN102375775B (zh) * 2010-08-11 2014-08-20 英业达股份有限公司 一种具有检测系统不可恢复错误指示信号的计算机系统
CN102446146B (zh) * 2010-10-13 2015-04-22 淮南圣丹网络工程技术有限公司 服务器及其避免总线冲突的方法
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102467434A (zh) * 2010-11-10 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置状态信号的方法
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
CN102541787A (zh) * 2010-12-15 2012-07-04 鸿富锦精密工业(深圳)有限公司 串口切换使用系统及方法
CN102567177B (zh) * 2010-12-25 2014-12-10 鸿富锦精密工业(深圳)有限公司 计算机系统错误侦测系统及方法
WO2013027297A1 (ja) * 2011-08-25 2013-02-28 富士通株式会社 半導体装置、管理装置、及びデータ処理装置
US9342393B2 (en) * 2011-12-30 2016-05-17 Intel Corporation Early fabric error forwarding
CN102681931A (zh) * 2012-05-15 2012-09-19 天津市天元新泰科技发展有限公司 一种日志和异常探针的实现方法
CN103455455A (zh) * 2012-05-30 2013-12-18 鸿富锦精密工业(深圳)有限公司 串口切换系统、服务器及串口切换方法
TW201405303A (zh) * 2012-07-30 2014-02-01 Hon Hai Prec Ind Co Ltd 底板管理控制器監控系統及方法
EP2901281B1 (en) 2012-09-25 2017-11-01 Hewlett-Packard Enterprise Development LP Notification of address range including non-correctable error
BR112015018459A2 (pt) * 2013-03-07 2017-07-18 Intel Corp mecanismo para fornecer suporte para fluxos de confiabilidade, disponibilidade e capacidade de serviço (ras) em monitor de ponto
CN104219105A (zh) * 2013-05-31 2014-12-17 英业达科技有限公司 错误通报装置及方法
CN104424042A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CN104424041A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
US9425953B2 (en) 2013-10-09 2016-08-23 Intel Corporation Generating multiple secure hashes from a single data buffer
US9389942B2 (en) 2013-10-18 2016-07-12 Intel Corporation Determine when an error log was created
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
FR3040523B1 (fr) * 2015-08-28 2018-07-13 Continental Automotive France Procede de detection d'une erreur non corrigible dans une memoire non volatile d'un microcontroleur
CN105183600A (zh) * 2015-09-09 2015-12-23 浪潮电子信息产业股份有限公司 一种远程定位硬盘故障的装置和方法
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
US9875165B2 (en) 2015-11-24 2018-01-23 Quanta Computer Inc. Communication bus with baseboard management controller
TWI654518B (zh) 2016-04-11 2019-03-21 神雲科技股份有限公司 錯誤狀態儲存方法及伺服器
JP6504610B2 (ja) * 2016-05-18 2019-04-24 Necプラットフォームズ株式会社 処理装置、方法及びプログラム
US10223187B2 (en) * 2016-12-08 2019-03-05 Intel Corporation Instruction and logic to expose error domain topology to facilitate failure isolation in a processor
US10296434B2 (en) * 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
JP7081344B2 (ja) * 2018-07-02 2022-06-07 富士通株式会社 監視装置,監視制御方法および情報処理装置
CN111221677B (zh) * 2018-11-27 2023-06-09 环达电脑(上海)有限公司 侦错备份方法与服务器
CN110377469B (zh) * 2019-07-12 2022-11-18 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
US11403162B2 (en) * 2019-10-17 2022-08-02 Dell Products L.P. System and method for transferring diagnostic data via a framebuffer
EP3859526A1 (en) * 2020-01-30 2021-08-04 Hewlett-Packard Development Company, L.P. Error information storage
US11132314B2 (en) * 2020-02-24 2021-09-28 Dell Products L.P. System and method to reduce host interrupts for non-critical errors
CN111488288A (zh) * 2020-04-17 2020-08-04 苏州浪潮智能科技有限公司 一种测试bmc acd稳定性的方法、装置、终端及存储介质
CN112906009A (zh) * 2021-03-09 2021-06-04 南昌华勤电子科技有限公司 工作日志生成方法、计算设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996688A (en) * 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
WO1999005599A1 (en) * 1997-07-28 1999-02-04 Intergraph Corporation Apparatus and method for memory error detection and error reporting
US20050144526A1 (en) * 2003-12-10 2005-06-30 Banko Stephen J. Adaptive log file scanning utility

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) * 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US5267246A (en) * 1988-06-30 1993-11-30 International Business Machines Corporation Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
JPH0355640A (ja) * 1989-07-25 1991-03-11 Nec Corp 周辺制御装置の障害解析情報採取方式
US5287363A (en) * 1991-07-01 1994-02-15 Disk Technician Corporation System for locating and anticipating data storage media failures
EP0666530A3 (en) * 1994-02-02 1996-08-28 Advanced Micro Devices Inc Periodic system management interrupt source and power management system using it.
US5600785A (en) * 1994-09-09 1997-02-04 Compaq Computer Corporation Computer system with error handling before reset
US6119248A (en) * 1998-01-26 2000-09-12 Dell Usa L.P. Operating system notification of correctable error in computer information
US6189117B1 (en) * 1998-08-18 2001-02-13 International Business Machines Corporation Error handling between a processor and a system managed by the processor
US7689875B2 (en) * 2002-04-25 2010-03-30 Microsoft Corporation Watchdog timer using a high precision event timer
US7389454B2 (en) * 2002-07-31 2008-06-17 Broadcom Corporation Error detection in user input device using general purpose input-output
US7299331B2 (en) * 2003-01-21 2007-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adding main memory in computer systems operating with mirrored main memory
US7107493B2 (en) * 2003-01-21 2006-09-12 Hewlett-Packard Development Company, L.P. System and method for testing for memory errors in a computer system
US7010630B2 (en) * 2003-06-30 2006-03-07 International Business Machines Corporation Communicating to system management in a data processing system
US7076708B2 (en) * 2003-09-25 2006-07-11 International Business Machines Corporation Method and apparatus for diagnosis and behavior modification of an embedded microcontroller
US7321990B2 (en) * 2003-12-30 2008-01-22 Intel Corporation System software to self-migrate from a faulty memory location to a safe memory location
JP2006178557A (ja) * 2004-12-21 2006-07-06 Nec Corp コンピュータシステム及びエラー処理方法
US7350007B2 (en) * 2005-04-05 2008-03-25 Hewlett-Packard Development Company, L.P. Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996688A (en) * 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
WO1999005599A1 (en) * 1997-07-28 1999-02-04 Intergraph Corporation Apparatus and method for memory error detection and error reporting
US20050144526A1 (en) * 2003-12-10 2005-06-30 Banko Stephen J. Adaptive log file scanning utility

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577298A (zh) * 2012-07-31 2014-02-12 鸿富锦精密工业(深圳)有限公司 基板管理控制器监控系统及方法
US10353763B2 (en) 2014-06-24 2019-07-16 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer
US11360842B2 (en) 2014-06-24 2022-06-14 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer

Also Published As

Publication number Publication date
GB2431262A (en) 2007-04-18
HK1104631A1 (en) 2008-01-18
FR2892210A1 (fr) 2007-04-20
GB0620260D0 (en) 2006-11-22
DE102006048115A1 (de) 2007-06-06
JP2007109238A (ja) 2007-04-26
CN1949182A (zh) 2007-04-18
IE20060744A1 (en) 2007-06-13
DE102006048115B4 (de) 2019-07-04
AU2006228051A1 (en) 2007-05-03
SG131870A1 (en) 2007-05-28
US20070088988A1 (en) 2007-04-19
TWI337707B (en) 2011-02-21
GB2431262B (en) 2008-10-22
ITTO20060737A1 (it) 2007-04-15
TW200805056A (en) 2008-01-16

Similar Documents

Publication Publication Date Title
CN100440157C (zh) 用于将可恢复的错误记入日志的系统和方法
TWI229796B (en) Method and system to implement a system event log for system manageability
US6742139B1 (en) Service processor reset/reload
US7702966B2 (en) Method and apparatus for managing software errors in a computer system
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
US7702971B2 (en) System and method for predictive failure detection
US9495233B2 (en) Error framework for a microprocesor and system
US7949904B2 (en) System and method for hardware error reporting and recovery
US20080140895A1 (en) Systems and Arrangements for Interrupt Management in a Processing Environment
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
CN109542718B (zh) 服务调用的监控方法、装置、存储介质及服务器
CN110413432B (zh) 一种信息处理方法、电子设备及存储介质
JP2008234520A (ja) ソフトウェア挙動監視装置、ソフトウェア挙動監視システム及びそのプログラム
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
CN115934389A (zh) 用于错误报告和处理的系统和方法
US20080288828A1 (en) structures for interrupt management in a processing environment
US8726102B2 (en) System and method for handling system failure
CN112256467B (zh) 错误类型判断系统及其方法
TWI836263B (zh) 接口控制系統以及方法
US9495230B2 (en) Testing method
US11422876B2 (en) Systems and methods for monitoring and responding to bus bit error ratio events
WO2024016864A1 (zh) 处理器、获取信息的方法、单板及网络设备
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법
JP2022086932A (ja) 情報処理装置および方法
IE85357B1 (en) System and method for logging recoverable errors

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1104631

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1104631

Country of ref document: HK