CN1725184A - 信息处理设备和错误检测方法 - Google Patents

信息处理设备和错误检测方法 Download PDF

Info

Publication number
CN1725184A
CN1725184A CNA2004100961109A CN200410096110A CN1725184A CN 1725184 A CN1725184 A CN 1725184A CN A2004100961109 A CNA2004100961109 A CN A2004100961109A CN 200410096110 A CN200410096110 A CN 200410096110A CN 1725184 A CN1725184 A CN 1725184A
Authority
CN
China
Prior art keywords
error
unit
computing unit
computing
mistake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100961109A
Other languages
English (en)
Other versions
CN100429626C (zh
Inventor
高桥仁
冈田诚之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1725184A publication Critical patent/CN1725184A/zh
Application granted granted Critical
Publication of CN100429626C publication Critical patent/CN100429626C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

信息处理设备和错误检测方法。一种信息处理设备包括多个计算单元。所述多个计算单元中的至少一个包括一记录单元,该记录单元记录每个计算单元中的错误事件的情况。每个计算单元都包括一错误通知单元,当在各计算单元自身中发生错误时,该错误通知单元向包括所述记录单元的计算单元中的至少一个通知错误事件。

Description

信息处理设备和错误检测方法
技术领域
本发明涉及一种具有多个计算单元的信息处理设备,以及一种用于该信息处理设备的错误检测方法,更具体地,涉及一种大规模信息处理设备中的错误检测方法。
背景技术
为了满足对增强信息处理设备(例如计算机系统)的性能的需求,目前使用一种允许多个计算单元相互合作来进行处理的信息处理设备,例如其中把多个用于实现预定功能的功能板相互连接的计算机系统,以及配置有多个处理器的计算机系统。
在这种具有多个计算单元的信息处理设备中,有必要在错误发生时向其它计算单元通知错误,并且有必要在早期就使控制转换到错误分析处理。
例如,日本专利申请特开公报No.1995-219812公开了一种故障监测系统,用于在通过系统总线把多个功能板相互连接的多处理器系统中给出出错通知,而不使用中断功能。日本专利申请特开公报No.1993-224964公开了一种总线故障通知系统,其通知发生在公共总线上的总线异常的信息。
此外,日本专利申请特开公报No.2002-91799公开了一种状态监测系统,其配备有专用于监测具有多个功能板的信息处理设备中的错误的板;日本专利申请特开公报No.1985-63641公开了一种计算机系统的错误处理电路。
另外,日本专利申请特开公报No.1982-101954公开了一种逻辑单元的错误通知系统;日本专利申请特开公报No.1995-200460公开了一种在错误发生时中断的通知系统;日本专利申请特开公报No.1993-265812公开了一种配备有微诊断装置的信息处理设备。
日本专利申请特开公报No.2003-114811公开了一种自动故障恢复方法和系统,以及一种自动故障恢复设备和程序,其配置有专用于监测错误的板;日本专利申请特开公报No.1993-282167公开了一种针对发生在信息处理设备中的故障的处理方法。
更进一步,日本专利申请特开公报No.1989-295344公开了一种针对发生在信息处理设备中的故障的数据采集方法;日本专利申请特开公报No.1987-1040公开了在专门配置有用于监测错误的板的计算机上的故障分析。
日本专利申请特开公报No.1998-91543公开了一种信息处理设备中的故障信息的记录方法,日本专利申请特开公报No.1998-133963公开了一种用于信息处理设备的故障检测方法和恢复方法。另外,在日本专利申请特开公报No.1995-175765中论及了一种用于信息处理设备的故障恢复方法。
如以上文献中所示,当系统中出现错误时,在常规的信息处理设备(计算机系统)中,检测错误的电路向该系统中所有的计算单元(功能板和处理器)发出通知,并且暂停系统中的处理。随后,已经接收到所述通知的多个计算单元中的一代表性计算单元(例如,主板或者专用于错误分析的板)读取系统中所有的错误显示寄存器,之后执行错误分析。
然而,随着系统的规模越来越大,要读取的寄存器的量也越来越大,在以这种方式读取所有的错误显示寄存器并分析错误时,会使程序的处理变得迟缓。
发明内容
本发明的目的至少是解决常规技术中的以上问题。
根据本发明一个方面的信息处理设备包括多个计算单元。所述多个计算单元中的至少一个包括一记录单元,该记录单元记录每个计算单元中的错误事件(error occurrence)的情况。各计算单元都包括一错误通知单元,当各计算单元自身中发生错误时,该错误通知单元将错误事件通知给包括所述记录单元的所述计算单元中的至少一个。
根据本发明另一方面的错误检测方法检测具有多个计算单元的信息处理设备中的错误,该方法包括:使各计算单元都检测各计算单元自身中的错误;使检测到了错误的计算单元将错误事件通知给其它计算单元;使接收到了错误事件通知的计算单元将所述错误记录在记录单元中,所述记录单元记录各个计算单元中的错误事件情况;并使接收到了错误事件通知的所述计算单元根据所述错误来执行中断处理。
本发明的其它目的、特点和优点在以下对本发明的详细说明中阐明或在结合附图阅读该详细说明时变得明显。
附图说明
图1是根据本发明实施例的计算机系统的示意图;
图2是用于表示错误通告(posting)和中断处理的示意图;
图3是图1所示计算机系统的操作所使用的处理过程的流程图;
图4是用于表示当未确定代表性功能板时计算机系统的错误检测的示意图;
图5是图4所示计算机系统的操作所使用的处理过程的流程图;
图6是将本发明应用于功能板中的错误处理的示意图;以及
图7是具有多个子部(partition)的计算机系统的示意图。
具体实施方式
将参照附图详细说明根据本发明的信息处理设备和错误检测方法的示例性实施例。
图1是根据本发明实施例的计算机系统的示意图。计算机系统1具有在计算机系统1内部的n块功能板B1至Bn以及错误分析处理单元2。
功能板B1至Bn是计算单元,实现其各自的预定功能,并相互合作。另外,每个功能板在该功能板内部都具有计算装置、错误板寄存器、以及错误寄存器。
具体地说,功能板B1在其内部设置有计算装置C1、错误板寄存器D1、以及错误寄存器E1。计算装置C1是用于执行功能板B1上的计算处理的单元。错误寄存器E1是当在功能板B1中发生错误时使用的位寄存器。换言之,当计算装置C1检测到功能板B1中的错误时,其设置与该错误对应的位。由此,该错误寄存器E1用作指示功能板B1中错误的种类的错误记录单元。
另一方面,错误板寄存器D1是记录多个功能板B1至Bn中的每一个存在或者不存在错误事件的记录单元。
类似地,功能板B2至Bn分别具有计算装置C2至Cn、错误板寄存器D2至Dn、以及错误寄存器E2至En。
在计算机系统1中,从功能板B1至Bn中确定一块板,成为代表性功能板。使用所述代表性功能板的错误板寄存器对在系统内哪块功能板上发生了错误进行管理,而不使用其它功能板的错误板寄存器。可以预先固定地确定该代表性功能板,也可以在启动(自举)时选择多块功能板中的任一块。
例如,在功能板B1为代表性功能板并且在功能板Bm中发生故障(错误)的情况下,功能板Bm的计算装置Cm首先检测到故障并将其记录在错误寄存器Em中,之后将其通告到用作代表性功能板的功能板B1。
结果,功能板B1将所述错误记录在错误板寄存器D1中,计算装置C1执行对代表性功能板B1至功能板Bn的计算装置C1至Cn的中断。
在以以上方式执行了对所有功能板的中断之后,错误分析单元2对其上的错误事件已经被指示给错误板寄存器D1的功能板(这里,功能板Bm)进行错误分析处理。注意,可以将该错误分析处理单元2构造为独立于各个功能板,或者可以将其构造在任一功能板的内部。
图2是用于表示错误通告和中断处理的示意图。当在功能板Bm中发生错误时,在错误寄存器Em中将对应于已发生的错误的位(例如,位F)置位(将位的值设为1)。
错误寄存器中的各个位都被输入到为每种错误(在本示例中,错误-ERR0、错误-ERR1、和错误-ERR2)设置的OR电路中。当所对应的多个寄存器位中任一位的值变为“1”时,OR电路输出值“1”。
因此,当位F的值变为“1”时,对应于错误-ERR2的OR电路输出“1”。
随后,功能板Bm向代表性功能板B1通知该错误事件。该功能板的错误板寄存器D1分别为功能板B1至Bn设置了与错误-ERR0、错误-ERR1、和错误-ERR2相对应的寄存器位。因此,在接收到来自功能板Bm的错误-ERR2事件通知时,对应于功能板Bm的错误-ERR2的寄存器位被置位(寄存器位被设为1)。
此外,错误板寄存器D1具有对各功能板B1至Bn的错误-ERR0、错误-ERR1和错误-ERR2的值进行逻辑加的电路。因此,计算装置C1内部的中断处理单元可以判断系统内部的功能板中已发生的错误的种类(错误-ERR0、错误-ERR1和错误-ERR2),从而使得可以根据错误的种类来执行中断处理。
图3是图1中所示计算机系统的操作所使用的处理过程的流程图。在计算机系统1中,各功能板监测其自身板中的错误。
当任一功能板检测到其自身中的错误时(步骤S101),检测到错误的功能板(出错板)将该错误记录在其自身的错误寄存器中(步骤S102)。
然后,所述出错板向代表性功能板通知该错误,并且代表性功能板将该通告的错误记录在错误板寄存器中(步骤S103)。在代表性功能板对各个功能板执行中断(步骤S104)之后,错误分析处理单元2查阅错误板寄存器,对其上的错误事件被指出的出错板执行错误分析处理(步骤S105),并且结束处理。
这样,多个功能板中的一个被确定为代表性功能板,该代表性功能板的错误板寄存器对哪块功能板上发生了错误进行管理,从而检测到错误的功能板可以将错误仅通告到所述代表性功能板。此外,当执行错误分析处理时,可以指定出错板的寄存器并选择性地执行错误分析。
因此,在错误发生时不必读出这些功能板的所有错误寄存器,这使得可以执行迅速的错误处理而不会对系统造成任何负荷。
在以上说明中,对确定代表性功能板并且仅仅使用代表性功能板的错误板寄存器的情况进行了说明。然而,本发明的应用不限于以上情况。例如,也可以是每个功能板都使用其错误板寄存器来指出出错板,而不确定代表性功能板。
图4是用于表示当未确定代表性功能板时计算机系统的错误检测的示意图。图4和图1之间的差别在于对错误的检测方法,而结构是彼此相似的;因此,对同样的部件赋予相同的符号,并省略其说明。
例如,如图4所示,当功能板Bm中发生故障(错误)时,功能板Bm的计算装置Cm检测到该故障并将其记录在错误寄存器Em中,之后将该错误通告到所有功能板(功能板B1至Bn)。
结果,接收到了错误通知的功能板B1至Bn将该错误记录在其各自的错误板寄存器D1至Dn中,然后分别执行对其自身的计算装置C1至Cn的中断。之后,错误分析处理单元2对其上错误事件已在错误板寄存器中指出的功能板执行错误分析处理。
图5是图4所示的计算机系统的操作的处理过程的流程图。首先,当任一功能板检测到其自身中的错误(步骤S201)时,检测到了错误的功能板(出错板)将该错误记录在其自身的错误寄存器中(步骤S202)。
之后,出错板向所有的功能板通知该错误,接收到了该通知的每个功能板都将该错误记录在其错误板寄存器中(步骤S203)。在每个功能板都执行对其自身处理的中断(步骤S204)之后,错误分析处理单元2参照错误板寄存器,对其上的错误事件被指出的出错板执行错误分析处理(步骤S205),并完成该处理。
这样,出错板将错误事件通知给所有功能板,每个功能板都使用其错误板寄存器来对哪块功能板上发生了错误进行管理,并执行中断处理,从而检测到了错误的功能板可以只通告错误。当执行错误分析处理时,可以指出出错板的寄存器并且选择性地执行错误分析。
因此,当错误发生时不必读出这些功能板的所有错误寄存器,这使得可以执行迅速的错误处理,而不会对系统造成任何负荷。
在以上说明中,对具有多个功能板的计算机系统的示例进行了说明。如上所述,各个功能板分别为实现预定功能的计算单元。然而,这些功能板自身也在内部设置有多个计算单元,例如大规模集成电路(LSI),并且,在许多情况下它们的功能是通过多个LSI的合作来实现的。
从而,与计算机系统中的错误处理相似,本发明也适用于具有多个LSI的功能板中的错误处理。
图6是将本发明应用于功能板中的错误处理的示意图。功能板Bx在其内部具有LSI 10、LSI 20、LSI 30、LSI 40和错误分析处理单元3。
LSI 10、LSI 20、LSI 30和LSI 40为通过相互协作来实现功能板Bx的功能的计算单元。另外,每个LSI在其内部都具有计算处理单元、错误LSI寄存器、以及错误寄存器。
具体地说,LSI 10设置有在LSI 10内部的计算处理单元11、错误LSI寄存器12、和错误寄存器13。计算处理单元11是执行LSI 10中的计算处理的处理单元。另外,错误寄存器13是当LSI 10中发生错误时使用的位寄存器,错误LSI寄存器12是分别记录多个LSI 10、20、30和40存在或者不存在错误事件的记录单元。
类似地,LSI 20、30和40分别具有计算处理单元21、31和41,错误LSI寄存器22、32和42,以及错误寄存器23、33和43。
即,在本结构中,计算处理单元11、21、31和41分别对应于图1和图4所示的计算装置C1至Cn。错误LSI寄存器12、22、32和42分别对应于错误板寄存器D1至Dn,错误寄存器13、23、33和43分别对应于错误寄存器E1至En。
因此,在功能板Bx中可以分别使用“确定代表性LSI,该代表性LSI管理出错LSI并执行对所有LSI的中断”的方法,以及“每个LSI都管理其出错LSI并执行其自身的中断处理”的方法。
另一方面,使用本发明时,如下结构也是可以的:一个系统的内部被划分为多个部分,并且在各个划分的部分内进行错误管理。图7表示如下的结构示例:计算机系统4被划分为两个部分,即子部P1和子部P2,并且在各个子部中独立地进行错误管理。
如图7所示,子部P1设置有功能板B01至B0m,子部P2设置有功能板B11至B1n。此外,通过连接处理单元5和6使得子部P1和子部P2彼此相连。
当系统如上所述具有多个子部时,可以将本发明独立地应用于各个子部。
如上所述,根据本实施例,配有多个计算单元(功能板和LSI)的系统在所述计算单元中的至少一个中设置有一寄存器(错误板寄存器和错误LSI寄存器),该寄存器指出发生了错误事件的计算单元,通过指出其中发生了错误事件的计算单元,而使得不必在错误发生时读出所有计算单元中的错误,从而使得可以迅速执行错误处理,而不会对系统造成任何负荷。
根据本发明,可以获得一种信息处理设备和一种错误检测方法,它们使得可以迅速地转到错误处理而不会对系统造成任何负荷。
此外,根据本发明,可以获得一种信息处理设备和一种错误检测方法,它们通过使用代表性计算单元,使得可以执行快速的错误处理而不会对系统造成任何负荷。
另外,根据本发明,可以获得一种信息处理设备和一种错误检测方法,它们由于自主的中断而使得可以执行快速的错误处理且不会对系统造成任何负荷。
另外,根据本发明,提供了一种信息处理设备,其使得可以快速地转到错误处理而不会对系统造成任何负荷,并且使得可以容易地进行错误分析。
虽然为了完整清晰的公开而针对具体的实施例对本发明进行了说明,但是所附权利要求并不由此受限,而应该理解为包括本领域技术人员可能提出的落入本文所阐述的基本原理内的所有修改和可选的结构。

Claims (11)

1.一种信息处理设备,包括多个计算单元,其中
所述多个计算单元中的至少一个包括一记录单元,该记录单元记录各计算单元中的错误事件的情况,并且
各计算单元都包括一错误通知单元,当各计算单元自身中发生错误时,所述错误通知单元向包括所述记录单元的所述计算单元中的至少一个通知所述错误事件。
2.根据权利要求1所述的信息处理设备,其中所述记录单元包括一错误分析单元,所述错误分析单元对发生了所述记录单元中记录的所述错误事件的计算单元执行错误分析处理。
3.根据权利要求1所述的信息处理设备,其中接收到了来自所述错误通知单元的错误事件通知的计算单元对其它计算单元执行中断处理。
4.根据权利要求3所述的信息处理设备,其中
从所述多个计算单元中确定了一代表性计算单元,并且
所述错误通知单元将所述错误事件通知给所述代表性计算单元。
5.根据权利要求1所述的信息处理设备,其中
所述错误通知单元将所述错误事件通知给所有其它计算单元,并且
接收到了所述错误事件的通知的多个计算单元中的每一个对自身的计算处理产生中断。
6.根据权利要求1所述的信息处理设备,其中
各计算单元都包括一错误记录单元,当在各计算单元自身中发生错误时,所述错误记录单元记录该错误,并且
所述错误通知单元根据记录在所述错误记录单元中的错误,将所述错误事件通知给其它计算单元。
7.一种用于在具有多个计算单元的信息处理设备中检测错误的错误检测方法,该错误检测方法包括:
使所述多个计算单元中的每一个都检测各计算单元自身中的错误;
使检测到了错误的计算单元向其它计算单元通知一错误事件;
使接收到了所述错误事件的通知的计算单元将该错误记录在一记录单元中,所述记录单元记录在各计算单元中的错误事件的情况;以及
使接收到了所述错误事件的通知的计算单元根据所述错误执行中断处理。
8.根据权利要求7所述的错误检测方法,还包括根据所述记录单元中的记录内容来分析所述错误。
9.根据权利要求7所述的错误检测方法,还包括从所述多个计算单元中确定一代表性计算单元,其中
向所述代表性计算单元通知所述错误事件,并且
所述代表性计算单元对其它计算单元执行中断处理。
10.根据权利要求7所述的错误检测方法,其中
检测到了错误的计算单元向所有其它计算单元通知所述错误事件,并且
接收到了所述错误事件的通知的多个计算单元中的每一个都对其自身的计算处理产生中断。
11.根据权利要求7所述的错误检测方法,其中
所述多个计算单元的每一个都包括一错误记录单元,当各计算单元自身中发生错误时,该错误记录单元记录所述错误,并且
检测到了所述错误的计算单元根据记录在所述错误记录单元中的错误,将该错误事件通知给其它计算单元。
CNB2004100961109A 2004-07-22 2004-11-26 信息处理设备和错误检测方法 Expired - Fee Related CN100429626C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004214787A JP2006039678A (ja) 2004-07-22 2004-07-22 情報処理装置およびエラー検出方法
JP2004-214787 2004-07-22
JP2004214787 2004-07-22

Publications (2)

Publication Number Publication Date
CN1725184A true CN1725184A (zh) 2006-01-25
CN100429626C CN100429626C (zh) 2008-10-29

Family

ID=35448174

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100961109A Expired - Fee Related CN100429626C (zh) 2004-07-22 2004-11-26 信息处理设备和错误检测方法

Country Status (5)

Country Link
US (1) US7502956B2 (zh)
EP (1) EP1628219A3 (zh)
JP (1) JP2006039678A (zh)
KR (1) KR100692452B1 (zh)
CN (1) CN100429626C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988091A (zh) * 2016-04-28 2021-06-18 佳能株式会社 打印设备及其控制方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155488A (ja) * 2004-12-01 2006-06-15 Sony Corp データ処理装置およびデータ処理方法
US7467325B2 (en) 2005-02-10 2008-12-16 International Business Machines Corporation Processor instruction retry recovery
US20060184771A1 (en) * 2005-02-11 2006-08-17 International Business Machines Mini-refresh processor recovery as bug workaround method using existing recovery hardware
FR2884818B1 (fr) * 2005-04-25 2007-07-13 Arkema Sa Procede de preparation d'acide acrylique a partir de glycerol
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
US20100181938A1 (en) 2007-03-01 2010-07-22 Koninklijke Philips Electronics N.V. Computer-controlled lighting system
US20080270827A1 (en) * 2007-04-26 2008-10-30 International Business Machines Corporation Recovering diagnostic data after out-of-band data capture failure
JP5217647B2 (ja) * 2008-06-04 2013-06-19 富士通株式会社 情報処理装置および情報処理方法
US9389940B2 (en) 2013-02-28 2016-07-12 Silicon Graphics International Corp. System and method for error logging
JP2014182720A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd 情報処理システム、情報処理装置及び障害処理方法
CN106835232B (zh) * 2016-12-29 2018-08-31 中国工程物理研究院化工材料研究所 用于1064mm激光驱动飞片系统的飞片结构及制备方法
KR102542115B1 (ko) * 2021-04-01 2023-06-12 엘에스일렉트릭(주) 제어보드 시스템

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57101954A (en) 1980-12-18 1982-06-24 Nec Corp Error information system of logical device
US5023779A (en) * 1982-09-21 1991-06-11 Xerox Corporation Distributed processing environment fault isolation
JPS6063641A (ja) 1983-09-19 1985-04-12 Hitachi Ltd コンピユ−タシステムのエラ−処理回路
JPS621040A (ja) 1985-06-26 1987-01-07 Fuji Electric Co Ltd コンピユ−タの障害解析装置
JPH01295344A (ja) 1988-05-24 1989-11-29 Nec Corp 障害データ収集方式
JPH0219958A (ja) * 1988-06-27 1990-01-23 Internatl Business Mach Corp <Ibm> 同報通信機能を備えたマルチプロセツサシステム及びその同報通信方法
US4982402A (en) * 1989-02-03 1991-01-01 Digital Equipment Corporation Method and apparatus for detecting and correcting errors in a pipelined computer system
EP0415545B1 (en) * 1989-08-01 1996-06-19 Digital Equipment Corporation Method of handling errors in software
US5649090A (en) * 1991-05-31 1997-07-15 Bull Hn Information Systems Inc. Fault tolerant multiprocessor computer system
US5283891A (en) * 1991-08-08 1994-02-01 Kabushiki Kaisha Toshiba Error information saving apparatus of computer
JPH05134998A (ja) 1991-11-15 1993-06-01 Mitsubishi Electric Corp マルチプロセツサシステム
JPH05224964A (ja) 1992-02-13 1993-09-03 Fujitsu Ltd バス異常通知方式
JP2760367B2 (ja) 1992-03-23 1998-05-28 日本電気株式会社 マイクロ診断装置付情報処理装置
JPH05282167A (ja) 1992-04-03 1993-10-29 Hitachi Ltd 障害処理方法
US5812757A (en) * 1993-10-08 1998-09-22 Mitsubishi Denki Kabushiki Kaisha Processing board, a computer, and a fault recovery method for the computer
JPH07175765A (ja) 1993-10-25 1995-07-14 Mitsubishi Electric Corp 計算機の障害回復方法
US5513346A (en) * 1993-10-21 1996-04-30 Intel Corporation Error condition detector for handling interrupt in integrated circuits having multiple processors
JPH07200460A (ja) 1994-01-05 1995-08-04 Fujitsu Ltd 割込制御装置
JPH07219812A (ja) 1994-01-28 1995-08-18 Meidensha Corp 異常監視方式
JP2800673B2 (ja) 1994-01-31 1998-09-21 日本電気株式会社 障害情報収集装置
JPH07319836A (ja) 1994-05-30 1995-12-08 Hitachi Ltd 障害監視方式
JPH0836554A (ja) 1994-07-21 1996-02-06 Mitsubishi Electric Corp マルチプロセッサシステム
JPH08190492A (ja) 1995-01-11 1996-07-23 Yaskawa Electric Corp マルチプロセッサシステム
US5535164A (en) * 1995-03-03 1996-07-09 International Business Machines Corporation BIST tester for multiple memories
JPH09212470A (ja) 1996-01-31 1997-08-15 Toshiba Corp マルチプロセッサシステム
JPH09212388A (ja) 1996-01-31 1997-08-15 Hitachi Cable Ltd Cpuの動作監視方法
JPH1091543A (ja) 1996-09-19 1998-04-10 Nec Eng Ltd 障害情報記録方法及び情報処理装置
JP3325785B2 (ja) 1996-10-28 2002-09-17 三菱電機株式会社 計算機の故障検出・回復方式
US6233680B1 (en) * 1998-10-02 2001-05-15 International Business Machines Corporation Method and system for boot-time deconfiguration of a processor in a symmetrical multi-processing system
US6360333B1 (en) * 1998-11-19 2002-03-19 Compaq Computer Corporation Method and apparatus for determining a processor failure in a multiprocessor computer
US6675324B2 (en) * 1999-09-27 2004-01-06 Intel Corporation Rendezvous of processors with OS coordination
US20020029358A1 (en) * 2000-05-31 2002-03-07 Pawlowski Chester W. Method and apparatus for delivering error interrupts to a processor of a modular, multiprocessor system
JP2002091799A (ja) 2000-09-14 2002-03-29 Hitachi Kokusai Electric Inc 状態監視システム
US6931564B2 (en) * 2001-07-13 2005-08-16 International Business Machines Corporation Failure isolation in a distributed processing system employing relative location information
JP2003114811A (ja) 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US6944788B2 (en) * 2002-03-12 2005-09-13 Sun Microsystems, Inc. System and method for enabling failover for an application server cluster
US20050273653A1 (en) * 2004-05-19 2005-12-08 Honeywell International Inc. Single fault tolerance in an architecture with redundant systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988091A (zh) * 2016-04-28 2021-06-18 佳能株式会社 打印设备及其控制方法

Also Published As

Publication number Publication date
EP1628219A3 (en) 2010-05-26
JP2006039678A (ja) 2006-02-09
CN100429626C (zh) 2008-10-29
KR100692452B1 (ko) 2007-03-09
US7502956B2 (en) 2009-03-10
EP1628219A2 (en) 2006-02-22
US20060020851A1 (en) 2006-01-26
KR20060008211A (ko) 2006-01-26

Similar Documents

Publication Publication Date Title
CN1181435C (zh) 通过资源恢复得到系统最优可用性的方法和系统
CN1725184A (zh) 信息处理设备和错误检测方法
US9495233B2 (en) Error framework for a microprocesor and system
CN1776596A (zh) 用于备选锁定设施连接路径的装置、系统和方法
CN1313930C (zh) 虚拟层系统中的故障跟踪的方法和设备
CN1794187A (zh) 计算机系统及处理错误的方法
US20190138379A1 (en) Memory poisoning with hints
CN1702625A (zh) 保存跟踪数据的方法和装置
CN101047010A (zh) 用于最大化raid系统中受保护数据量的方法和系统
US8099397B2 (en) Apparatus, system, and method for improved portable document format (“PDF”) document archiving
CN109710439B (zh) 故障处理方法和装置
WO2020157594A1 (en) Handling an input/output store instruction
US20210271541A1 (en) Data processing system and operating method thereof
CN103942119A (zh) 一种存储器错误的处理方法和装置
CN1920784A (zh) 一种看门狗装置及看门狗中断预警方法
CN1282067C (zh) 进行硬盘阵列同位运算的装置与相关方法
US10623383B2 (en) Symmetric multiprocessing management
CN1786926A (zh) 一种处理器中使用缓存区的方法
CN104781790A (zh) 用信号通知软件可恢复错误
CN101216787B (zh) 管理存储器的方法、介质和设备
US20220197568A1 (en) Object input/output issue diagnosis in virtualized computing environment
US11294753B2 (en) Information processing apparatus and method for collecting communication cable log
CN1801109A (zh) 使用直接存储器存取的双工容错系统和方法
CN1877536A (zh) 嵌入式sram操作系统中断的实现方法
JP2008146148A (ja) 計算機システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081029

Termination date: 20201126

CF01 Termination of patent right due to non-payment of annual fee