CN100440157C - 用于将可恢复的错误记入日志的系统和方法 - Google Patents

用于将可恢复的错误记入日志的系统和方法 Download PDF

Info

Publication number
CN100440157C
CN100440157C CN 200610136352 CN200610136352A CN100440157C CN 100440157 C CN100440157 C CN 100440157C CN 200610136352 CN200610136352 CN 200610136352 CN 200610136352 A CN200610136352 A CN 200610136352A CN 100440157 C CN100440157 C CN 100440157C
Authority
CN
China
Prior art keywords
recoverable
recoverable error
status register
system
chipset
Prior art date
Application number
CN 200610136352
Other languages
English (en)
Other versions
CN1949182A (zh
Inventor
A·马多库里
B-C·王
S·古普塔
Original Assignee
戴尔产品有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US11/250,603 priority Critical
Priority to US11/250,603 priority patent/US20070088988A1/en
Application filed by 戴尔产品有限公司 filed Critical 戴尔产品有限公司
Publication of CN1949182A publication Critical patent/CN1949182A/zh
Application granted granted Critical
Publication of CN100440157C publication Critical patent/CN100440157C/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware

Abstract

依照本发明,说明了一个信息处理系统中用于将可恢复的错误记入日志的系统和方法。所述系统包括中央处理器,连接到所述中央处理器的芯片组,连接到所述芯片组并与之相关的至少一个芯片组存储器单元。所述系统还包括基板管理控制器(BMC),以及包含基本输入输出系统(BIOS)的存储器单元。一个系统管理中断(SMI)被周期性调用。一个状态寄存器被扫描,以检测是否出现了一个可恢复的错误。如果检测到一个可恢复的错误,所述系统将这个可恢复的错误记入与所述基板管理控制器相关的一个存储器单元中的日志。系统将指明了这个可恢复错误的源和源的位置的信息记入日志。如果没有检测到可恢复的错误,系统发送一条消息,指出没有检测到可恢复的错误。

Description

用于将可恢复的错误记入日志的系统和方法

技术领域

本发明涉及计算机系统和信息处理系统,具体地说,涉及用于将可 恢复的错误记入日志的系统和方法。

背景技术

随着信息的价值和应用持续地增长,个人和商业机构寻求额外的方 式来处理和保存信息。这些用户可选择的一个选项是信息处理系统。 一般而言,出于商业的、个人的或其他目的,信息处理系统处理、编 辑、保存和/或传递信息或数据,从而允许这些用户充分利用这些信息 的价值。因为对技术和信息处理的需要和要求随不同用户或应用而改 变,信息处理系统随所处理信息的不同类型,处理信息的方法,处理、 保存或传递信息的方法,所处理、保存或所传递信息的总量,信息处 理、保存或传递的速度和效率等因素而改变。信息处理系统中的各种 变化,允许各种信息处理系统,既可以是普遍性的,或者,也可以为 特定用户或如金融交易处理、航空票务预定、公司数据保存或全球通 信等特定应用而配置。此外,信息处理系统可以包括或包含配置为处 理、保存和传递信息的不同硬件和软件组件,也可以包括一个或多个 计算机系统、数据存储系统和网络系统。

服务器系统在正常的系统运行中,会经历可恢复的或可改正的错 误。这种可恢复的错误,比如当连接到服务器系统的存储器单元失效 的时候,可能会出现。为提高系统可靠性,服务器系统通常配置为当 出现这样的错误的时候,捕捉这些可恢复或可修正的错误并将其写入 曰志。因为可恢复的错误通常是对即将发生的存储器失效的警告信号, 这种捕捉加日志的处理程序给了服务器系统用户一个机会,在整个系 统崩溃之前,替换掉有缺陷的存储器单元。通常,服务器系统通过以

边带信号(sidebandsignals)而产生一条系统管理中断(SM),将要记 入日志的错误发送出去。该SMI通过边带到达CPU,然后,CPU会冻结正在运行中的服务器系统进程。由SMI引发的进程中的这些暂停, 使位于服务器系统上的基本输入输出系统(BIOS)可以在错误出现的 时候,使用SMI处理器(handler),将这些可恢复的错误记入日志。一 旦BIOS将这些错误记入日志,SMI终止,而且服务器系统可以恢复执 行任意被中断的进程。对系统管理软件与平台硬件之间的接口进行管 理的基板管理控制器(BMC),处理接收自BIOS的错误日志指令,并且

执行实际写入到它的非易失性存储器。纵观整个通知处理过程,位于 服务器系统上的操作系统(OS)并不知晓错误和随后将错误记入日志 的处理。

然而, 一些服务器系统并不包含边带信号能力。所有的通信必须通 过主传送链路传播。因为可恢复的错误是可改正的,当可恢复的错误 出现时,服务器系统并不会产生一条通知。因此,这些服务器系统可 以设计为通过使用服务器系统BIOS或芯片组执行如周期性SMI等周 期性扫描,来报告可恢复的错误。类似地,这些服务器系统可以要求 服务器系统OS周期性地扫描这个系统。例如,OS可以周期性地扫描

系统,并将在机器检查状态寄存器中探测到的任何可恢复的错误记入 日志。典型的OS每分钟大约扫描一次。可是,使用服务器系统OS来

周期性地扫描系统有其缺陷。例如,大部分的硬件错误是系统特定的。 然而, 一个OS通常缺乏对这个系统的特定架构的认识。如果不从系统 BIOS寻求帮助,这个OS通常不能识别哪个组件有故障,从而阻碍了 这两个资源。服务器系统的用户通常要求更高的特殊性,而不是由OS 执行的一个常规的错误日志记录,尤其,如果可能产生问题的系统是

一个高端服务器系统。此外,该os通常在一个机器检査状态寄存器内

记录错误日志,而该寄存器并不保存有关错误源的信息,因此,不能

支持系统或用户稍后确定错误的源的位置。尽管有些os版本每次扫描

可以为多达10个可恢复的错误维持一个日志,然而一旦这种情况发生, 通常一个OS不会再继续记入可恢复错误的日志,从而导致用户不能事

后査看错误以确定问题的根源。 发明内容

依照本发明,这里描述了在一个信息处理系统中,用于将可恢复的错误记入日志的系统和方法。这样的系统包括中央处理器,连接到该 中央处理器的芯片组,以及至少一个与该芯片组相连并与之关联的芯

片组存储器单元。该系统还包括基板管理控制器(BMC),以及包含基 本输入输出系统(BIOS)的存储器单元。

系统管理中断被周期性地调用。错误状态寄存器被扫描以检测是否 出现了可恢复的错误。如果检测到可恢复的错误,系统将该可恢复的 错误记入位于与该BMC关联的一个非易失性存储器单元的日志中。系 统还将指明了可恢复错误的源和该源的位置的信息,记入日志。如果 没有检测到可恢复的错误,系统发出一条消息,指出没有可恢复的错 误出现。

这里说明的系统和方法有其优势,因为他们允许该信息处理系统确 定可恢复错误的源和源的位置,即使该信息处理系统缺少通过边带发 送信号的能力。由BMC或BIOS,而不是OS,识别可恢复错误的源并 将其记入日志。这里说明的系统和方法有其优势,还因为他们可以允 许基于该信息处理系统运行中的某一事件或某一改变,来动态地调整 SMI的周期性。周期性的扫描要快于OS对可恢复错误的扫描速率。

附图说明

参考以下的附图说明并将其与附图共同使用,对本发明及其优点可 以获得更完整的理解,附图中类似的附图标记指示了类似的特征,在 这里:

图1是用于示例主板的一个示例架构的块图; 图2是说明用于调整系统执行周期性扫描的频率的一个示例方法的 流程图;

图3是说明示例主板的一个示例架构的块图。 具体实施方式

出于本发明的目的, 一个信息处理系统可以包括一种手段或多种手 段的集合,这些手段均具有可操作性以计算、分类、处理、传输、接 收、重新获得、产生、交换、保存、显示、展示、检测、记录、复制、 操作或使用用于商业、科学、控制或其他目的的任意形式的信息、情报或数据。例如, 一个信息处理系统可以是一台个人电脑, 一台网络 存储设备或任意其他合适的设备,也可以在尺寸、形状、性能、功能

和价格上各有不同。该信息处理系统可以包括随机存取存储器(RAM), 一个或多个如中央处理器、硬件或软件控制逻辑等的处理方式,ROM, 和/或其他类型的非易失性存储器。该信息处理系统的其他组件包括一 个或多个硬磁盘, 一个或多个用于与外部设备通信的网络接口,以及 诸如键盘、鼠标和视频显示器等的各类输入输出(I/O)设备。该信息 处理系统还可以包括一个或多个总线,均具有操作性以在各种硬件组 件之间传送消息。

图1说明了标识为100的主板的一个架构,该主板用于诸如一个服 务器系统的信息处理系统。图1中的架构仅仅用于示例目的,而且, 应当被理解为仅描述了用于各类主板的多种可能架构中的一种。如图1 所示,主板100可以包括微处理器110。微处理器110可以作为该主板 的CPU。微处理器110可以通过一条处理器总线120,与图1中标识 为130、 一般称为"北桥"的芯片相连。北桥130—般管理CPU与该 信息处理系统中如存储器单元等的其他组件之间的通信。因此, 一个 或多个存储器单元和标识为140的存储器控制器,可以连接到北桥 130。在图1中标识为150、称为"南桥"的芯片,也可以连接到北桥 130。较北桥130而言,南桥150—般为主板执行更慢的服务,比如功 率控制和外设组件接口 (PCI)总线。南桥150可以通过小插针数(LPC) 总线160,连接到包含BIOS 170的存储器单元。该BIOS有时也被称 为"固件"。北桥130和南桥150有时被统称为主板IOO的"芯片组"。 然而,如果主板100包括其他或另外的芯片,这些组件也可以成为该 芯片组的一部分。

如图1底部所示,BMC 180也可以连接到LPC总线160。标识为 190的控制器及一个或多个存储器单元,连接到BMC180。存储器单元 190优选非易失性存储器单元。虽然在图1中没有标出电源,BMC 180 可以有自己的电源。如本发明之前所述,BMC 180—般管理系统管理 软件与平台硬件之间的接口。内建到该信息处理系统的不同传感器, 可以向BMC报告诸如温度、风扇转速及各种电压等有关该信息处理系 统的状态和可操作性的参数。如果BMC 180检测到任意一个监控参数偏离预设的界限,它可以发送一条告警给用户或系统管理员。因此,

BMC 180可以连接到在图1中没有显示的多个硬件组件和一个网络, 以监视这些参数,而且,如果有必要,激活告警。

图1中所示主板100的架构并没有包括微处理器110与南桥150之 间的边带信号能力。所有的通信都必须通过主传送链路,而且包含了 主板100的信息处理系统不能依靠边带信号而获得可恢复错误的报告。 此外,因为可恢复的错误是可改正的,该信息处理系统一般不会告知 用户出现了这样一个错误,除非该用户周期性地轮询以査找错误。因 此,包含主板100的一个信息处理系统可以设计为通过使用BIOS 170 执行诸如周期性SM的周期性扫描,来报告可恢复的错误。同样,包 含主板100的一个信息处理系统可以设计为依靠驻留在该信息处理系 统上的OS来调用周期性扫描。然而,如本发明之前所述,这些方法并 不是没有各自的缺陷。例如,OS通常不能识别哪个组件是这个可恢复 错误的来源,因为OS程序包是常规性的,而且不包括所驻留的特定系 统架构的映射。此外,OS将机器检査状态寄存器(对导致这个错误的 组件而言,可能不是位于本地)中的可恢复的错误记入日志,之后便 清除这个机器检査状态寄存器。

包含主板100的信息处理系统不是仅靠OS或BIOS 170来管理周期 性扫描,而是依靠BMC 180来调用周期性的软SMI。也即, 一旦信息 处理系统建立并在运行中,经过一段预设的时间后,BMC180就会调 用一个软SMI。主板100上位于BMC 180与该芯片组之间的一条中断 请求线195可以用于调用这个SMI。通用输入输出(GPIO)端口,虽 然在图1中没有显示,可以配置以便允许BIOS 170与BMC 180之间 通信。当BMC 180调用这个软SMI时,BIOS 170将通过读取诸如该 芯片组的状态寄存器、存储器状态寄存器和/或微处理器110的状态寄 存器来査找可恢复的错误。如果BIOS 170没有在这些寄存器中找到错 误,BIOS 170会把这个消息传递给BMC 180。如果BIOS 170确实找 到错误,BIOS170会把这个错误传递给BMC180,之后清除包含这个 错误的状态寄存器。BIOS 170还可以通过BMC 180将这个错误在存储 器单元190记入日志,通常是在一个非易失性系统事件日志中。因为 BIOS 170熟悉主板100的架构,所以BIOS 170可以在日志中识别这个可恢复错误的源的位置。

可以依照制造商或用户的期望而预设BMC 180调用软SMI的周期。

例如,如本发明之前所述, 一些OS版本每分钟执行系统的机器检査状 态寄存器的周期性扫描。因此,BMC180调用软SMI的周期可以设为 小于一分钟,以便BIOS170,较OS执行其扫描,更频繁地检査状态 寄存器,从而降低OS在BIOS 170能检测到错误之前就将错误从机器 检查状态寄存器中清除掉的风险。BMC 180甚至可以用足够高的频率 调用软SMI,以防止OS检测到任何错误。然而,两个软SMI之间的 周期应当足够大,以避免不必要地占用BIOS 170和BMC 180,以致降 低了系统性能。

作为选择,BMC 180可以在从BIOS 170 了解到错误状态之后,适 应性地改变软SMI的周期。图2是说明适应性地改变软SMI周期的一 种方法的流程图。如流程图的块200所示,BMC 180可以先调用一个 软SMI。接着,如流程图的块210所示,BIOS 170检査适当的机器检 查状态寄存器。此后,如流程图的块220所示,BIOS170会确定它是 否定位了一个错误。如果BIOS 170没有检测到任何错误,BIOS 170 将发送一条单比特消息给BMC 180,告知其没有检测到错误,如流程 图的块230所示。BMC180可以由此降低它调用软SMI的频率,如流 程图的块240所示。如果相反,BIOS 170检测到一个错误,BIOS 170 接下来将确定该错误是否是可恢复的。如果BIOS 170检测到一个或多 个可恢复的错误,BIOS 170会将这个情况告知BMC 180,如流程图的 块200所示。BMC180可以由此提高它调用软SMI的频率,如流程图 的块270所示。可是,如果BIOS 170检测到不可恢复的错误,BIOS 170 会将这个情况告知BMC 180。这时,可以将整个系统重置,软SMI的 频率也可以恢复到缺省设置,例如,如块290中所示。

可以使用系统计时器来控制软SMI的生成。错误的频率通常会以不 同的步进幅度升高或降低,因此,软SM频率的极端改变以便为系统 捕捉错误状态是没有必要的。然而,对于一个适应性地改变软SMI频 率的系统,用户或制造商应当为BMC 180调用任何软SMI的周期设置 预定的最小值和最大值。

图3说明了标注为300、用于诸如一个服务器系统等信息处理系统中的主板的可作为选择的架构。图3中所示架构与图1所示架构类似。 因此,两图中类似组件采用同样的附图标记。可是,在主板300上, BMC 180和芯片组,或甚至北桥130可以通过互联(Inter-Interconnect, l2C)总线310而结合,如图3所示。主板300还可以设计为允许芯片 组屏蔽或追踪存储器单元140的状态寄存器。尤其是,主板300还可 以设计为允许北桥130在它自己的状态寄存器里屏蔽存储器单元140 的状态寄存器。这样,BMC180可以通过PC总线310扫描北桥130的 状态寄存器,并确定存储器单元140是否有可恢复的错误出现。如果 BMC 180检测到一个可恢复的错误,它会调用一个软SMI以指令BIOS 170将该可恢复的错误记入日志。然而,如果BMC 180没有检测到一 个可恢复的存储器错误,它将不会干扰BIOS 170的运行。由此,可以 降低BIOS 170上的负荷,因为它只被要求根据之前由BMC 180检测 到的真实错误做出反应。在某些系统中,BMC 180会将可恢复的错误 记入日志。可是,在很多系统中,却还是BIOS 170是一个更有效的将 可恢复错误记入日志的选择,这是因为己经在典型的BIOS中实现一个 算法以确定错误的原因和应对此错误负责的组件的位置。因此,如果 BMC 180通过生成一条软SMI来通知BIOS 170,它已经检测到一个错 误,BIOS 170可以确定该错误的原因,并将此信息记入日志。BMC 180 扫描北桥130的机器检查状态寄存器的频率可以预先设定。作为选择, 这个频率可以被适应性地改变,如本发明之前所述。例如,如果检测 到单比特错误就提高扫描频率,如果没有检测到错误就降低频率。虽然,本发明描述的一个系统和方法中,包括了适应性地改变 BIOS 170和/或BMC 180的两个周期性扫描之间的时间间隔以作为对 检测到的错误的响应,还可以使用其他因素以调整这些扫描的频率。 例如,执行这些扫描的组件,假设为BIOS 170或BMC 180,其负荷可 以影响扫描的周期。如果执行这些扫描的组件因为其他任务而过载, 可以降低扫描频率以减轻该组件的负荷。尽管已经很详细地描述了本 发明,但仍可以创造出各类改变、替换和变化而不必脱离权利要求中 所述的本发明的精神和范围。

Claims (20)

1.一种在一个信息处理系统中用于将可恢复的错误记入日志的方法,其步骤包括: 周期性地调用系统管理中断SMI, 扫描状态寄存器以检测是否出现了一个可恢复的错误, 如果检测到有可恢复的错误,就将可恢复的错误记入日志,其中将可恢复的错误记入日志的动作,包括在与基板管理控制器相关的非易失性存储器单元中,记入指明了该可恢复错误的源和源的位置的信息, 如果没有检测到可恢复的错误,就发送一条指明没有检测到可恢复错误的消息。
2. 如权利要求1所述的将可恢复错误记入日志的方法,其中调用 SMI的步骤,包括使用所述基板管理控制器来调用中断。
3. 如权利要求1所述的将可恢复错误记入日志的方法,其中扫描 状态寄存器以检测是否出现了可恢复错误的步骤,包括使用该信息处 理系统中保存在--个存储器单元内的基本输入输出系统BIOS,来扫描一个状态寄存器的步骤。
4. 如权利要求1所述的将可恢复错误记入日志的方法,其中扫描 状态寄存器以检测是否出现了可恢复错误的步骤,包括使用所述基板 管理控制器来扫描状态寄存器的步骤。
5. 如权利要求1所述的将可恢复错误记入日志的方法,其中扫描 状态寄存器以检测是否出现了可恢复错误的步骤,包括扫描与中央处 理器相关的处理器状态寄存器的步骤。
6. 如权利要求1所述的将可恢复错误记入日志的方法,其中扫描 状态寄存器以检测是否出现了可恢复错误的步骤,包括扫描与芯片组 相关的芯片组状态寄存器的步骤。
7. 如权利要求1所述的将可恢复错误记入日志的方法,其中扫描 状态寄存器以检测是否出现了可恢复错误的步骤,包括扫描与连接到 芯片组的至少一个存储器单元相关的存储器状态寄存器的步骤。
8. 如权利要求l所述的将可恢复错误记入日志的方法,还包括: 将源于在与一个芯片组相关的至少一个存储器单元的运行期间所产生错误的可恢复错误,载入存储器状态寄存器,以及在芯片组状态寄存器中,追踪记载在所述存储器状态寄存器中 的任何可恢复的错误。
9. 如权利要求8所述的方法,其中扫描状态寄存器以检测是否出 现了可恢复错误,包括扫描所述芯片组状态寄存器以检测是否出现了 可恢复错误。
10. 如权利要求1所述的方法,还包括基于所述信息处理系统运行 期间的一个事件,改变周期性调用SMI的频率。
11. 如权利要求10所述的方法,其中基于所述信息处理系统运行 期间的一个事件,改变周期性调用SMI的频率,包括基于是否检测到 --个可恢复的错误,而改变周期性调用SMI的频率。
12. 如权利要求1所述的方法,还包括基于所述信息处理系统运行 期间的一个变化,改变周期性调用SMI的频率。
13. 如权利要求12所述的方法,其中基于所述信息处理系统运行期 间的一个变化,改变周期性调用SMI频率的步骤,包括基于保存在所 述信息处理系统中的基本输入输出系统工作负荷的一个变化,改变周 期性调用SMI的频率。
14. 一种用于将可恢复的错误记入日志的系统,包括: 中央处理器,连接到所述中央处理器的芯片组,•连接到所述芯片组并与之相关的至少一个芯片组存储器单元,包含基本输入输出系统BIOS的至少一个固件存储器单元,其中所 述至少一个固件存储器单元连接到至少一个芯片组,连接到该芯片组和至少一个固件存储器单元的基板管理控制器,其 中所述基板管理控制器可以调用一个要求BIOS检查可恢复的错误并 将任何检测到的可恢复的错误记入日志的中断,连接到所述基板管理控制器并与之相关的至少一个基板管理控制 器存储器单元,其中所述至少一个基板管理控制器存储器单元可以保存所检测到的可恢复错误的曰志。
15. 如权利要求14所述的将可恢复错误记入日志的系统,进一步 包括将所述基板管理控制器连接到所述芯片组的中断请求线,其中所 述基板管理控制器可以通过所述中断请求线将一条中断发送到所述芯 片组。
16. 如权利要求14所述的将可恢复错误记入日志的系统,进一步 包括与至少一个芯片组存储器单元相关的存储器状态寄存器,其中的 BIOS可以检査所述存储器状态寄存器以查找可恢复的错误。
17. 如权利要求14所述的将可恢复错误记入日志的系统,进一步 包括与所述中央处理器相关的处理器状态寄存器,其中的BIOS可以检 査所述处理器状态寄存器以查找可恢复的错误。
18. 如权利要求14所述的将可恢复错误记入日志的系统,进一步 包括与所述芯片组相关的芯片组状态寄存器,其中的BIOS可以检査该 芯片组状态寄存器以査找可恢复的错误。
19. 一种用于将可恢复的错误记入日志的系统,包括: 中央处理器,连接到所述中央处理器的芯片组,连接到该芯片组并与之相关的至少一个芯片组存储器单元,其中所述至少一个芯片组存储器单元与存储器状态寄存器相关,与所述芯片组相关的芯片组状态寄存器,其中所述芯片组状态寄存 器可以追踪所述存储器状态寄存器的内容,包含基本输入输出系统BIOS的至少一个固件存储器单元,其中所 述至少一个固件存储器单元连接到至少一个芯片组,连接到所述芯片组和至少-个固件存储器单元的基板管理控制器, 其中所述基板管理控制器可以调用一个中断,査找所述芯片组状态寄 存器中的可恢复错误,并且要求所述BIOS将任何检测到的可恢复错误 记入Ei志,连接到所述基板管理控制器并与之相关的至少一个基板管理控制 器存储器单元,其中所述至少一个基板管理控制器存储器单元可以保存所检测到的可恢复错误的日志。
20.如权利要求19所述的将可恢复错误记入日志的系统,进一步 包括将所述基板管理控制器结合到所述芯片组的互联总线。
CN 200610136352 2005-10-14 2006-10-13 用于将可恢复的错误记入日志的系统和方法 CN100440157C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/250,603 2005-10-14
US11/250,603 US20070088988A1 (en) 2005-10-14 2005-10-14 System and method for logging recoverable errors

Publications (2)

Publication Number Publication Date
CN1949182A CN1949182A (zh) 2007-04-18
CN100440157C true CN100440157C (zh) 2008-12-03

Family

ID=37491397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610136352 CN100440157C (zh) 2005-10-14 2006-10-13 用于将可恢复的错误记入日志的系统和方法

Country Status (12)

Country Link
US (1) US20070088988A1 (zh)
JP (1) JP2007109238A (zh)
CN (1) CN100440157C (zh)
AU (1) AU2006228051A1 (zh)
DE (1) DE102006048115B4 (zh)
FR (1) FR2892210A1 (zh)
GB (1) GB2431262B (zh)
HK (1) HK1104631A1 (zh)
IE (1) IE20060744A1 (zh)
IT (1) ITTO20060737A1 (zh)
SG (1) SG131870A1 (zh)
TW (1) TWI337707B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577298A (zh) * 2012-07-31 2014-02-12 鸿富锦精密工业(深圳)有限公司 基板管理控制器监控系统及方法
US10353763B2 (en) 2014-06-24 2019-07-16 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
JP2009121832A (ja) * 2007-11-12 2009-06-04 Sysmex Corp 分析装置、分析システム及びコンピュータプログラム
CN101446915B (zh) * 2007-11-27 2012-01-11 中国长城计算机深圳股份有限公司 一种bios级日志的记录方法及装置
JP4571996B2 (ja) * 2008-07-29 2010-10-27 富士通株式会社 情報処理装置及び処理方法
US8122176B2 (en) * 2009-01-29 2012-02-21 Dell Products L.P. System and method for logging system management interrupts
JP5093259B2 (ja) 2010-02-10 2012-12-12 日本電気株式会社 Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム
JP5459549B2 (ja) * 2010-03-31 2014-04-02 日本電気株式会社 コンピュータシステム及びその余剰コアを用いた通信エミュレート方法
TWI529525B (zh) * 2010-04-30 2016-04-11 聯想企業解決方案(新加坡)有限公司 處理系統錯誤之方法及系統
CN102375775B (zh) * 2010-08-11 2014-08-20 英业达股份有限公司 一种具有检测系统不可恢复错误指示信号的计算机系统
CN102446146B (zh) * 2010-10-13 2015-04-22 淮南圣丹网络工程技术有限公司 服务器及其避免总线冲突的方法
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102467434A (zh) * 2010-11-10 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置状态信号的方法
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
CN102541787A (zh) * 2010-12-15 2012-07-04 鸿富锦精密工业(深圳)有限公司 串口切换使用系统及方法
CN102567177B (zh) * 2010-12-25 2014-12-10 鸿富锦精密工业(深圳)有限公司 计算机系统错误侦测系统及方法
WO2013027297A1 (ja) * 2011-08-25 2013-02-28 富士通株式会社 半導体装置、管理装置、及びデータ処理装置
WO2013101140A1 (en) * 2011-12-30 2013-07-04 Intel Corporation Early fabric error forwarding
CN102681931A (zh) * 2012-05-15 2012-09-19 天津市天元新泰科技发展有限公司 一种日志和异常探针的实现方法
CN103455455A (zh) * 2012-05-30 2013-12-18 鸿富锦精密工业(深圳)有限公司 串口切换系统、服务器及串口切换方法
TW201405303A (zh) * 2012-07-30 2014-02-01 Hon Hai Prec Ind Co Ltd 底板管理控制器監控系統及方法
JP5965076B2 (ja) 2012-09-25 2016-08-03 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. 訂正不能メモリエラー処理方法及びその可読媒体
KR101733903B1 (ko) * 2013-03-07 2017-05-08 인텔 코포레이션 피어 모니터에서 신뢰성, 이용 가능성 및 서비스 가능성(ras) 흐름들을 지원하기 위한 메커니즘
CN104219105A (zh) * 2013-05-31 2014-12-17 英业达科技有限公司 错误通报装置及方法
CN104424042A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CN104424041A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
US9425953B2 (en) 2013-10-09 2016-08-23 Intel Corporation Generating multiple secure hashes from a single data buffer
US9389942B2 (en) * 2013-10-18 2016-07-12 Intel Corporation Determine when an error log was created
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
CN105183600A (zh) * 2015-09-09 2015-12-23 浪潮电子信息产业股份有限公司 一种远程定位硬盘故障的装置和方法
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
US9875165B2 (en) 2015-11-24 2018-01-23 Quanta Computer Inc. Communication bus with baseboard management controller
JP6504610B2 (ja) * 2016-05-18 2019-04-24 Necプラットフォームズ株式会社 処理装置、方法及びプログラム
US10223187B2 (en) * 2016-12-08 2019-03-05 Intel Corporation Instruction and logic to expose error domain topology to facilitate failure isolation in a processor
US10296434B2 (en) * 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
CN108958965A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996688A (en) 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
WO1999005599A1 (en) 1997-07-28 1999-02-04 Intergraph Corporation Apparatus and method for memory error detection and error reporting
US20050144526A1 (en) 2003-12-10 2005-06-30 Banko Stephen J. Adaptive log file scanning utility

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) * 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US5267246A (en) * 1988-06-30 1993-11-30 International Business Machines Corporation Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
JPH0355640A (en) * 1989-07-25 1991-03-11 Nec Corp Collection system for fault analysis information on peripheral controller
US5287363A (en) * 1991-07-01 1994-02-15 Disk Technician Corporation System for locating and anticipating data storage media failures
EP0666530A3 (en) * 1994-02-02 1996-08-28 Advanced Micro Devices Inc Periodic system management interrupt source and power management system employing the same.
US5600785A (en) * 1994-09-09 1997-02-04 Compaq Computer Corporation Computer system with error handling before reset
US6119248A (en) * 1998-01-26 2000-09-12 Dell Usa L.P. Operating system notification of correctable error in computer information
US6189117B1 (en) * 1998-08-18 2001-02-13 International Business Machines Corporation Error handling between a processor and a system managed by the processor
US7689875B2 (en) * 2002-04-25 2010-03-30 Microsoft Corporation Watchdog timer using a high precision event timer
US7389454B2 (en) * 2002-07-31 2008-06-17 Broadcom Corporation Error detection in user input device using general purpose input-output
US7299331B2 (en) * 2003-01-21 2007-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adding main memory in computer systems operating with mirrored main memory
US7107493B2 (en) * 2003-01-21 2006-09-12 Hewlett-Packard Development Company, L.P. System and method for testing for memory errors in a computer system
US7010630B2 (en) * 2003-06-30 2006-03-07 International Business Machines Corporation Communicating to system management in a data processing system
US7076708B2 (en) * 2003-09-25 2006-07-11 International Business Machines Corporation Method and apparatus for diagnosis and behavior modification of an embedded microcontroller
US7321990B2 (en) * 2003-12-30 2008-01-22 Intel Corporation System software to self-migrate from a faulty memory location to a safe memory location
JP2006178557A (ja) * 2004-12-21 2006-07-06 Nec Corp コンピュータシステム及びエラー処理方法
US7350007B2 (en) * 2005-04-05 2008-03-25 Hewlett-Packard Development Company, L.P. Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996688A (en) 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
WO1999005599A1 (en) 1997-07-28 1999-02-04 Intergraph Corporation Apparatus and method for memory error detection and error reporting
US20050144526A1 (en) 2003-12-10 2005-06-30 Banko Stephen J. Adaptive log file scanning utility

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577298A (zh) * 2012-07-31 2014-02-12 鸿富锦精密工业(深圳)有限公司 基板管理控制器监控系统及方法
US10353763B2 (en) 2014-06-24 2019-07-16 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer

Also Published As

Publication number Publication date
ITTO20060737A1 (it) 2007-04-15
TW200805056A (en) 2008-01-16
HK1104631A1 (en) 2009-07-10
GB2431262A (en) 2007-04-18
IE20060744A1 (en) 2007-06-13
AU2006228051A1 (en) 2007-05-03
US20070088988A1 (en) 2007-04-19
GB0620260D0 (en) 2006-11-22
DE102006048115B4 (de) 2019-07-04
GB2431262B (en) 2008-10-22
JP2007109238A (ja) 2007-04-26
SG131870A1 (en) 2007-05-28
FR2892210A1 (fr) 2007-04-20
CN1949182A (zh) 2007-04-18
DE102006048115A1 (de) 2007-06-06
TWI337707B (en) 2011-02-21

Similar Documents

Publication Publication Date Title
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US10282118B2 (en) Using reason codes to determine how to handle memory device error conditions
US8910172B2 (en) Application resource switchover systems and methods
US7991923B2 (en) Storage device condition reporting and error correction
TWI317868B (en) System and method to detect errors and predict potential failures
KR101540129B1 (ko) 원격 액세스 진단 디바이스 및 이의 방법들
US7930594B2 (en) Apparatus to preserve trace data
US8812831B2 (en) Fan control method and apparatus for adjusting initial fan speed based on a discreteness level of installed devices and calibrating fan speed according to threshold power and adjusted initial speed
US6901537B2 (en) Method and apparatus for preventing the propagation of input/output errors in a logical partitioned data processing system
US6865688B2 (en) Logical partition management apparatus and method for handling system reset interrupts
US6834363B2 (en) Method for prioritizing bus errors
US7502959B2 (en) Error correction apparatus, systems, and methods
TWI446161B (zh) 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
TWI528172B (zh) 機器檢查摘要暫存器
US7565567B2 (en) Highly available computing platform
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
US8381028B2 (en) Accelerating recovery in MPI environments
US7424666B2 (en) Method and apparatus to detect/manage faults in a system
CN100419697C (zh) 在客户共享计算领域的管理系统中提供校正操作的方法和系统
US6934879B2 (en) Method and apparatus for backing up and restoring data from nonvolatile memory
US8850249B2 (en) Enabling idle states for a component associated with an interconnect
US7954021B2 (en) Solid state drive with flash sparing
US7028218B2 (en) Redundant multi-processor and logical processor configuration for a file server
CN100338555C (zh) 在逻辑分区的数据处理系统中降低功耗的方法和装置
US9043656B2 (en) Securing crash dump files

Legal Events

Date Code Title Description
C06 Publication
C10 Request of examination as to substance
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1104631

Country of ref document: HK

C14 Granted
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1104631

Country of ref document: HK