JP2006039678A - 情報処理装置およびエラー検出方法 - Google Patents

情報処理装置およびエラー検出方法 Download PDF

Info

Publication number
JP2006039678A
JP2006039678A JP2004214787A JP2004214787A JP2006039678A JP 2006039678 A JP2006039678 A JP 2006039678A JP 2004214787 A JP2004214787 A JP 2004214787A JP 2004214787 A JP2004214787 A JP 2004214787A JP 2006039678 A JP2006039678 A JP 2006039678A
Authority
JP
Japan
Prior art keywords
error
calculation
calculation means
board
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004214787A
Other languages
English (en)
Inventor
Hitoshi Takahashi
仁 高橋
Masayuki Okada
誠之 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004214787A priority Critical patent/JP2006039678A/ja
Priority to US10/985,042 priority patent/US7502956B2/en
Priority to EP04257225A priority patent/EP1628219A3/en
Priority to CNB2004100961109A priority patent/CN100429626C/zh
Priority to KR1020040098453A priority patent/KR100692452B1/ko
Publication of JP2006039678A publication Critical patent/JP2006039678A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

【課題】情報処理装置においてシステムに負荷をかけることなく迅速にエラー処理を実行すること。
【解決手段】複数の機能ボードB1〜Bnを有するコンピュータシステム1において、機能ボードB1を代表機能ボードに設定し、機能ボードBmに障害が発生した場合には、機能ボードBmが代表機能ボードである機能ボードB1に通知し、エラーボードレジスタD1にエラーボードを特定して記録する。機能ボードB1は全ての機能ボードB1〜Bnに対して割り込みを実行し、エラー解析処理部2がエラーボードレジスタD1に示されたエラーボードに対して選択的にエラー解析処理を実行する。
【選択図】 図1

Description

この発明は、複数の演算手段を有する情報処理装置およびそのエラー検出に関し、特に大規模な情報処理装置のエラー検出に関するものである。
近年、情報処理装置(コンピュータシステムなど)に対する高性能化の要求に応えるため、複数の演算手段を協働させて処理を実行する情報処理装置、たとえば、所定の機能を実現する機能ボードを複数接続したコンピュータシステムや、複数のプロセサを備えたコンピュータシステムが利用されている。
このような複数の演算手段を有する情報処理装置では、エラー発生時に他の演算手段にエラー通知を実行し、早期にエラー解析処理に移行する必要がある。
たとえば、特許文献1は、システムバスによって複数の機能ボードを結合したマルチ・プロセッサ・システムにおいて割り込み機能を使うことなくエラー通知を行う異常監視方式を開示しており、特許文献2は、共通バス上で発生したバス異常の情報を通知するバス異常通知方式を開示している。
また、特許文献3は、複数の機能ボードを有する情報処理装置において、エラーを監視する専用のボードを設けた状態監視システムを開示しており、特許文献4は、コンピュータシステムのエラー処理回路を開示している。
さらに、特許文献5は、論理装置のエラー通知方式について開示しており、特許文献6は、エラー発生時における割り込みの通知の方式について開示している。そして、特許文献7は、マイクロ診断装置を備えた情報処理装置について開示している。
また、特許文献8は、エラーを監視するためのボードを専用に備えた自動障害復旧方法、及びシステム、並びに装置とプログラムについて開示しており、特許文献9は、情報処理装置に発生した障害の処理方法について開示している。
また、特許文献10は、情報処理装置に発生した障害データの収集方式について開示しており、特許文献11は、エラーを監視するボードを専用に設けたコンピュータにおける障害解析について開示している。
さらに、特許文献12は、情報処理装置における障害情報の記録方法について開示しており、特許文献13は、情報処理装置の故障検出と回復方法について開示している。また、特許文献14は、情報処理装置の障害回復方法について言及している。
特開平7−219812号公報 特開平5−224964号公報 特開2002−91799号公報 特開昭60−63641号公報 特開昭57−101954号公報 特開平7−200460号公報 特開平5−265812号公報 特開2003−114811号公報 特開平5−282167号公報 特開平1−295344号公報 特開昭62−1040号公報 特開平10−91543号公報 特開平10−133963号公報 特開平7−175765号公報
上述の文献に示されるように、従来の情報処理装置(コンピュータシステム)では、システム内でエラーが発生した場合、エラーを検出した回路はシステム内の全ての演算手段(機能ボードやプロセサ)に通知を行って、システムの処理を一時停止する。そして、通知を受けた演算手段のうち、代表となる演算手段(たとえはメインボードやエラー解析専用ボード)がシステム内の全てのエラー表示レジスタを読み、エラー解析を実行していた。
しかしながら、このように全てのエラー表示レジスタを読んでエラーを解析することとすると、システムの規模が大きくなるにつれて読むべきレジスタの量が多くなり、プログラムの処理が重くなるという問題点があった。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、システムに負荷をかけることなく迅速にエラー処理を実行する情報処理装置およびエラー検出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1,7の発明に係る情報処理装置およびエラー検出方法は、複数の演算手段を有する情報処理装置において、複数の演算手段のうち少なくともいずれか一つに複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段を設け、複数の演算手段の各々が自演算手段にエラーが発生した場合に、前記エラー演算手段記憶手段を備えた演算手段のうち、少なくともいずれか一つにエラーの発生を通知することを特徴とする。
この請求項1,7の発明によれば、複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段によって、どの演算手段でエラーが発生したかを管理することができる。
また、請求項2,8の発明に係る情報処理装置およびエラー検出方法は、エラー演算手段記録手段にエラーの発生が記録された演算手段に対してエラー解析処理を実行することを特徴とする。
この請求項2,8の発明によれば、複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段によって、どの演算手段でエラーが発生したかを管理し、エラーが生じた演算手段に対して選択的にエラー解析処理を実行できる。
また、請求項3の発明に係る情報処理装置は、エラー通知手段からエラー通知を受けた演算手段が他の演算手段に対して割り込み処理を実行することを特徴とする。
この請求項3の発明によれば、複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段によって、どの演算手段でエラーが発生したかを管理するとともに、割り込み処理を実行することができる。
また、請求項4,9の発明に係る情報処理装置およびエラー検出方法は、複数の演算手段から代表となる演算手段を定め、代表となる演算手段にエラーの発生を通知することを特徴とする。
この請求項4,9の発明によれば、エラーを生じた演算手段は、代表となる演算手段にエラーの発生を通知するのみでどの演算手段でエラーが発生したかを管理し、エラー解析に移行することができる。
また、請求項5,10の発明に係る情報処理装置およびエラー検出方法は、エラーを検出した演算手段が他の全ての演算手段に対してエラー通知を実行し、エラー通知を受けた演算手段が自らの演算処理に割り込みを発生させることを特徴とする。
この請求項5,10の発明によれば、エラーを生じた演算手段が各演算手段にエラーの発生を通知するのみで、各演算手段は割り込み処理を自律的に実行することができる。
また、請求項6の発明に係る情報処理装置は、複数の演算手段の各々が自演算手段にエラーが発生した場合に当該エラーを記録するエラー記録手段を備え、エラー通知手段は、前記エラー記録手段におけるエラー記録結果に基づいて他の演算手段に対するエラー通知を実行することを特徴とする。
この請求項6の発明によれば、エラーを生じた演算手段はそのエラー内容を記録し、エラーの解析に供することができる。
請求項1,7の発明によれば、複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段によって、どの演算手段でエラーが発生したかを管理することができるので、システムに負荷をかけることなく迅速にエラー処理に移行する情報処理装置およびエラー検出方法を得ることができるという効果を奏する。
また、請求項2,8の発明によれば、複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段によって、どの演算手段でエラーが発生したかを管理し、エラーが生じた演算手段に対して選択的にエラー解析処理を実行できるので、システムに負荷をかけることなく迅速にエラー処理を実行する情報処理装置およびエラー検出方法を得ることができるという効果を奏する。
また、請求項3の発明によれば、複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段によって、どの演算手段でエラーが発生したかを管理するとともに、割り込み処理を実行することができるので、システムに負荷をかけることなく割り込み処理を実行し、迅速にエラー処理に移行する情報処理装置を得ることができるという効果を奏する。
また、請求項4,9の発明によれば、エラーを生じた演算手段は、代表となる演算手段にエラーの発生を通知するのみでどの演算手段でエラーが発生したかを管理し、エラー解析に移行することができるので、代表となる演算手段を利用してシステムに負荷をかけることなく迅速にエラー処理を実行する情報処理装置およびエラー検出方法を得ることができるという効果を奏する。
また、請求項5,10の発明によれば、エラーを生じた演算手段が各演算手段にエラーの発生を通知するのみで、各演算手段は割り込み処理を自律的に実行することができるので、自律的な割り込みによってシステムに負荷をかけることなく迅速にエラー処理を実行する情報処理装置およびエラー検出方法を得ることができるという効果を奏する。
また、この請求項6の発明によれば、エラーを生じた演算手段はそのエラー内容を記録し、エラーの解析に供することができるので、システムに負荷をかけることなく迅速にエラー処理に移行し、エラー解析を簡易に実行可能な情報処理装置を得ることができるという効果を奏する。
以下に添付図面を参照して、この発明に係る情報処理装置およびエラー検出方法の好適な実施の形態を詳細に説明する。
図1は、本発明にかかる情報処理装置の実施例であるコンピュータシステムの概要構成を示す概要構成図である。同図に示すように、コンピュータシステム1は、その内部にn枚の機能ボードB1〜Bn、およびエラー解析処理部2を有する。
機能ボードB1〜Bnは、それぞれが所定の機能を実現し、協働して動作する演算手段である。また、各機能ボードは、その内部に演算ユニット、エラーボードレジスタ、およびエラーレジスタを有する。
具体的には、機能ボードB1は、その内部に演算ユニットC1、エラーボードレジスタD1、およびエラーレジスタE1を備える。演算ユニットC1は、機能ボードB1において演算処理を実行するユニットである。そして、エラーレジスタE1は、機能ボードB1にエラーが発生した場合に使用するビットレジスタである。すなわち、演算ユニットB1は、機能ボードB1内でエラーを検出した場合に、そのエラーに対応するレジスタのビットを立てる。したがってこのエラーレジスタE1は、機能ボードB1におけるエラーの種類を示すエラー記録手段として機能する。
一方、エラーボードレジスタD1は、複数の機能ボードB1〜Bnのそれぞれについてエラー発生の有無を記録する記録手段である。
機能ボードB1〜Bnも同様に、それぞれ演算ユニットC2〜Cn、エラーボードレジスタD2〜Dn、エラーレジスタE2〜Enを有する。
そして、本コンピュータシステム1では、機能ボードB1〜Bnから代表となるボードを一つ定め、代表となる機能ボードのエラーボードレジスタを用いてシステム内のどの機能ボードでエラーが発生したかを管理し、他の機能ボードのボードエラーレジスタは使用しない。この代表となる機能ボードは、あらかじめ固定的に定めておいてもよいし、起動(ブート)時にいずれかの機能ボードを選択するようにしてもよい。
より具体的には、たとえば機能ボードB1が代表ボードであり、機能ボードBmで障害(エラー)が発生した場合、まず、機能ボードBmの演算ユニットCmが障害を検出し、エラーレジスタEmに登録する。そして、代表ボードである機能ボードB1に通知する。
その結果、機能ボードB1がエラーボードレジスタD1にエラーを登録し、演算ユニットC1が機能ボードB1〜Bnの演算ユニットC1〜Cnに割り込みを実行する。
このように全機能ボードに対して割り込みを実行した後、エラー解析部2は、エラーボードレジスタD1にエラーの発生が示された機能ボード(ここでは機能ボードBm)に対してエラー解析処理を実行する。なお、このエラー解析処理部2は、各機能ボードに対して独立した構成としてもよいし、いずれかの機能ポートの内部に含む構成であってもよい。
ここで、図2を参照し、エラー通知と割り込み処理についてさらに説明する。同図に示すように、機能ボードBmにエラーが発生すると、エラーレジスタEm内において、発生したエラーに対応するビット(たとえばビットF)を立てる(ビットの値を1にする)。
エラーレジスタの各ビットは、エラーの種類(ここではエラーERR0、エラーERR1、エラーERR2)ごとに設けたOR回路に入力されており、OR回路は、対応するいずれかのレジスタビットの値が「1」となった場合に、値「1」を出力する。
したがって、ビットFの値が「1」となった場合、エラーERR2に対応するOR回路が「1」を出力することとなる。
そして、機能ボードBmは、このエラーの発生を代表である機能ボードB1に通知する。機能ボードのエラーボードD1は、機能ボードB1〜Bnのそれぞれに対し、エラーERR0、エラーERR1、エラーERR2に対応するレジスタビットを備えている。したがって、機能ボードBmからエラーERR2の発生通知を受けた場合には、機能ボードBmのエラーERR2に対応するレジスタビットを立てる(レジスタビットの値を「1」にする)。
さらに、ボードエラーレジスタD1は、エラーERR0、エラーERR1、エラーERR2について各機能ボードB1〜Bnの値の論理和をとる回路を有する。そのため、演算ユニットC1内の割り込み処理部は、システム内の機能ボードに発生したエラーの種類(エラーERR0,ERR1.ERR2のいずれか)を判別することができ、エラーの種類に対応した割り込み処理を実行することが可能となる。
つぎに、図3を参照し、図1に示したコンピュータシステム1の処理動作について説明する。本コンピュータシステム1では、各機能ボードがそれぞれ自ボード内のエラーを監視している。
そして、機能ボードのいずれかが自ボード内のエラーを検出した(ステップS101)場合に、エラーを検出した機能ボード(エラーボード)が、自ボード内のエラーレジスタにエラーを登録する(ステップS102)。
その後、エラーボードが代表である機能ボードにエラーを通知し、代表機能ボードが通知を受けたエラーをエラーボードレジスタに登録する(ステップS103)。そして、代表機能ボードが各機能ボードに対して割り込みを実行(ステップS104)した後、エラー解析処理部2がエラーボードレジスタを参照し、エラーの発生が示されたエラーボードに対してエラー解析処理を実行して(ステップS105)、処理を終了する。
このように、複数の機能ボードのうちの一つを代表機能ボードとし、代表機能ボードのエラーボードレジスタによってどの機能ボードにエラーが生じたかを管理することで、エラーを検出した機能ボードは代表機能ボードにのみ通知を実行すればよく、またエラーの解析処理を行う場合にエラーボードのレジスタを特定して選択的にエラー解析を実行することができる。
そのため、エラー発生時に全ての機能ボードのエラーレジスタを読み出す必要が無くなり、システムに負荷をかけることなく迅速にエラー処理を実行することができる。
ところで、以上の説明では、代表機能ボードを定め、代表機能ボードのエラーボードレジスタのみを使用する場合について説明したが、本発明の利用はこれに限定されるものではない。たとえは、代表機能ボードを定めず、各機能ボードがエラーボードレジスタを使用してエラーボードを特定するようにしてもよい。
図4は、代表機能ボードを定めない場合のエラー検出について説明する説明図である。同図と図1との差はエラーの検出方法であり、その構成は同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
図4において、たとえは機能ボード機能ボードBmで障害(エラー)が発生した場合、まず、機能ボードBmの演算ユニットCmが障害を検出してエラーレジスタEmに登録し、全ての機能ボード(機能ボードB1〜Bn)に対してエラー通知を実行する。
その結果、エラー通知を受けた機能ボードB1〜BnはそれぞれエラーボードレジスタD1〜Dnにエラーを登録し、自ボードの演算ユニットC1〜Cnに割り込みを実行する。その後、エラー解析処理部2は、エラーボードレジスタにエラーの発生が示された機能ボードに対してエラー解析処理を実行する。
つぎに、図5を参照し、図4に示したコンピュータシステム1の処理動作についてさらに説明する。まず、機能ボードのいずれかが自ボード内のエラーを検出した(ステップS201)場合に、エラーを検出した機能ボード(エラーボード)が、自ボード内のエラーレジスタにエラーを登録する(ステップS202)。
その後、エラーボードが全ての機能ボードにエラーを通知し、各機能ボードが通知を受けたエラーをエラーボードレジスタに登録する(ステップS203)。そして、各機能ボードが自らの処理に対して割り込みを実行(ステップS204)した後、エラー解析処理部2がエラーボードレジスタを参照し、エラーの発生が示されたエラーボードに対してエラー解析処理を実行して(ステップS205)、処理を終了する。
このように、エラーボードが全ての機能ボードにエラーの発生を通知し、各機能ボードがエラーボードレジスタによってどの機能ボードにエラーが生じたかを管理して割り込み処理を実行することで、エラーを検出した機能ボードはエラー通知のみを実行すればよく、またエラーの解析処理を行う場合にエラーボードのレジスタを特定して選択的にエラー解析を実行することができる。
そのため、エラー発生時に全ての機能ボードのエラーレジスタを読み出す必要が無くなり、システムに負荷をかけることなく迅速にエラー処理を実行することができる。
以上の説明では、複数の機能ボードを有するコンピュータシステムを例に説明した。この機能ボードのそれぞれは、既に述べたようにそれぞれが所定の機能を実現する演算手段であるが、この機能ボード自体もその内部に複数の演算手段、たとえばLSIを備え、複数のLSIの協働によってその機能を実現する場合が多い。
したがって、複数のLSIを有する機能ボード内のエラー処理についても、コンピュータシステム内のエラー処理と同様に、本発明を利用可能である。
機能ボート内のエラー処理に本発明を適用する場合の機能ボードの構成例を図6に示す。同図に示すように、機能ボードBxは、その内部に、LSI10、LSI20、LSI30、LSI40およびエラー解析処理部3を有する。
LSI10,20,30,40は、協働して動作することで機能ボードBxの機能を実現する演算手段である。また、各LSIは、その内部に演算処理部、エラーLSIレジスタ、およびエラーレジスタを有する。
具体的には、LSI10は、その内部に演算処理部11、エラーLSIレジスタ12およびエラーレジスタ13を備える。演算処理部11は、LSI10において演算処理を実行する処理部である。また、エラーレジスタ12は、LSI10にエラーが発生した場合に使用するビットレジスタであり、エラーLSIレジスタ13は、複数のLSI10,20,30,40のそれぞれについてエラー発生の有無を記録する記録手段である。
LSI20,30,40も同様に、それぞれ演算処理部21,31,41、エラーLSIレジスタ22,32,42、エラーレジスタ23,33,43を有する。
すなわち本構成では、演算処理部11,21,31,41は図1および図4に示した演算処理ユニットC1〜Cnに対応し、エラーLSIレジスタ12,22,32,42はエラーボードレジスタD1〜Dnに対応し、エラーレジスタ13,23,33,43はエラーレジスタE1〜Enに対応する。
したがって、機能ボードBx内においても、「代表のLSIを定め、代表LSIがエラーLSIの管理と全てのLSIの割り込みを実行する」方法、「各LSIがエラーLSIを管理し、自らの割り込み処理を実行する」方法をそれぞれ使用することができる。
ところで、本発明の利用にあたり、一つのシステム内を複数に分割し、分割された区分内でそれぞれエラー管理を行うように構成してもよい。図7は、ひとつのコンピュータシステム4を2つの区分、パーティションP1とパーティションP2に区切り、それぞれのパーティションで独自にエラー管理を行う場合の構成例である。
同図では、パーティションP1は機能ボードB01〜B0mを備え、パーティションP2は機能ボードB11〜B1nを備えている。さらに、パーティションP1とパーティションP2とは接続処理部5,6によって接続されている。
このようにシステムが複数のパーティションを有する場合、各パーティションでそれぞれ独自に本発明を適用することができる。
上述してきたように、本実施例では、複数の演算手段(機能ボードやLSI)を備えたシステムにおいて、演算手段の少なくとも一つにエラーを生じた演算手段を特定するレジスタ(エラーボードレジスタやエラーLSIレジスタ)を設け、エラーを生じた演算手段を特定することで、エラー発生時に全ての演算手段のエラーを読み込む必要を無くし、システムに負荷をかけることなく迅速にエラー処理を実行することができる。
(付記1) 複数の演算手段を有する情報処理装置であって、
前記複数の演算手段のうち少なくともいずれか一つは、前記複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段を備え、
前記複数の演算手段の各々は、自演算手段にエラーが発生した場合に、前記エラー演算手段記憶手段を備えた演算手段のうち、少なくともいずれか一つにエラーの発生を通知するエラー通知手段を備えたことを特徴とする情報処理装置。
(付記2) 前記エラー演算手段記録手段にエラーの発生が記録された演算手段に対してエラー解析処理を実行するエラー解析手段をさらに備えたことを特徴とする付記1に記載の情報処理装置。
(付記3) 前記エラー通知手段からエラー通知を受けた演算手段は、他の演算手段に対して割り込み処理を実行することを特徴とする請求項1または2に記載の情報処理装置。
(付記4) 前記複数の演算手段から代表となる演算手段を定め、前記エラー通知手段は、前記代表となる演算手段にエラーの発生を通知することを特徴とする付記3に記載の情報処理装置。
(付記5) 前記エラー通知手段は、他の全ての演算手段に対してエラー通知を実行し、該エラー通知を受けた演算手段は自らの演算処理に割り込みを発生させることを特徴とする付記1または2に記載の情報処理装置。
(付記6) 前記複数の演算手段の各々は、自演算手段にエラーが発生した場合に当該エラーを記録するエラー記録手段を備え、前記エラー通知手段は、前記エラー記録手段におけるエラー記録結果に基づいて他の演算手段に対するエラー通知を実行することを特徴とする付記1〜5のいずれか一つに記載の情報処理装置。
(付記7) 複数の演算手段を有する情報処理装置のエラーを検出するエラー検出方法であって、
前記演算手段が自演算手段におけるエラーを検出するエラー検出工程と、
前記エラー検出工程によってエラーを検出した演算手段が、他の演算手段にエラー通知を送信するエラー通知工程と、
前記エラー通知を受けた演算手段が、前記複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段に前記エラーを記録する記録工程と、
前記エラー通知を受けた演算手段が、当該エラーに基づく割り込み処理を実行する割り込み工程と、
を含んだことを特徴とするエラー検出方法。
(付記8) 前記エラー演算手段記録手段の記録内容に基づいてエラー解析処理を実行するエラー解析手段をさらに備えたことを特徴とする付記7に記載のエラー検出方法。
(付記9) 前記エラー通知工程は、前記複数の演算手段のうち代表となる演算手段にエラーの発生を通知し、前記代表となる演算手段は、他の演算手段に対して割り込み処理を実行することを特徴とする付記7または8に記載のエラー検出方法。
(付記10) 前記エラー通知工程は、他の全ての演算手段に対してエラー通知を実行し、該エラー通知を受けた演算手段は自らの演算処理に割り込み処理を実行することを特徴とする付記7または8に記載のエラー検出方法。
(付記11) 前記複数の演算手段の各々は、自演算手段にエラーが発生した場合に当該エラーを記録するエラー記録手段を備え、前記エラー通知工程は、前記エラー記録手段におけるエラー記録結果に基づいて他の演算手段に対するエラー通知を実行することを特徴とする付記7〜10のいずれか一つに記載のエラー検出方法。
以上のように、本発明にかかる情報処理装置およびエラー検出方法は、エラー検出時の負荷軽減と処理の高速化に有効であり、特に大規模システムにおけるエラー検出時の負荷軽減と処理の高速化に適している。
本発明の実施例であるコンピュータシステムの概要構成を示す概要構成図である。 エラー通知と割り込み処理についてさらに説明する説明図である。 図1に示したコンピュータシステムの処理動作について説明するフローチャートである。 代表機能ボードを定めない場合のエラー検出について説明する説明図である。 図4に示したコンピュータシステムの処理動作について説明するフローチャートである。 機能ボート内のエラー処理に本発明を適用する場合の概要構成を示す概要構成図である。 複数のパーティションを有するシステムについて説明する説明図である。
符号の説明
1,4 コンピュータシステム
2,3 エラー解析処理部
5,6 接続処理部
10,20,30,40 LSI
11,21,31,41 演算処理部
12,22,32,42 エラーLSIレジスタ
B1〜Bn,B01〜B0m,B11〜B1n 機能ボード
C1〜Cn 演算ユニット
D1〜Dn エラーボードレジスタ
E1〜En,13,23,33,43 エラーレジスタ
P1,P2 パーティション

Claims (10)

  1. 複数の演算手段を有する情報処理装置であって、
    前記複数の演算手段のうち少なくともいずれか一つは、前記複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段を備え、
    前記複数の演算手段の各々は、自演算手段にエラーが発生した場合に、前記エラー演算手段記憶手段を備えた演算手段のうち、少なくともいずれか一つにエラーの発生を通知するエラー通知手段を備えたことを特徴とする情報処理装置。
  2. 前記エラー演算手段記録手段にエラーの発生が記録された演算手段に対してエラー解析処理を実行するエラー解析手段をさらに備えたことを特徴とする請求項1に記載の情報処理装置。
  3. 前記エラー通知手段からエラー通知を受けた演算手段は、他の演算手段に対して割り込み処理を実行することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記複数の演算手段から代表となる演算手段を定め、前記エラー通知手段は、前記代表となる演算手段にエラーの発生を通知することを特徴とする請求項3に記載の情報処理装置。
  5. 前記エラー通知手段は、他の全ての演算手段に対してエラー通知を実行し、該エラー通知を受けた演算手段は自らの演算処理に割り込みを発生させることを特徴とする請求項1または2に記載の情報処理装置。
  6. 前記複数の演算手段の各々は、自演算手段にエラーが発生した場合に当該エラーを記録するエラー記録手段を備え、前記エラー通知手段は、前記エラー記録手段におけるエラー記録結果に基づいて他の演算手段に対するエラー通知を実行することを特徴とする請求項1〜5のいずれか一つに記載の情報処理装置。
  7. 複数の演算手段を有する情報処理装置のエラーを検出するエラー検出方法であって、
    前記演算手段が自演算手段におけるエラーを検出するエラー検出工程と、
    前記エラー検出工程によってエラーを検出した演算手段が、他の演算手段にエラー通知を送信するエラー通知工程と、
    前記エラー通知を受けた演算手段が、前記複数の演算手段のそれぞれについてエラーの発生の有無を記録するエラー演算手段記録手段に前記エラーを記録する記録工程と、
    前記エラー通知を受けた演算手段が、当該エラーに基づく割り込み処理を実行する割り込み工程と、
    を含んだことを特徴とするエラー検出方法。
  8. 前記エラー演算手段記録手段の記録内容に基づいてエラー解析処理を実行するエラー解析手段をさらに備えたことを特徴とする請求項7に記載のエラー検出方法。
  9. 前記エラー通知工程は、前記複数の演算手段のうち代表となる演算手段にエラーの発生を通知し、前記代表となる演算手段は、他の演算手段に対して割り込み処理を実行することを特徴とする請求項7または8に記載のエラー検出方法。
  10. 前記エラー通知工程は、他の全ての演算手段に対してエラー通知を実行し、該エラー通知を受けた演算手段は自らの演算処理に割り込み処理を実行することを特徴とする請求項7または8に記載のエラー検出方法。
JP2004214787A 2004-07-22 2004-07-22 情報処理装置およびエラー検出方法 Pending JP2006039678A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004214787A JP2006039678A (ja) 2004-07-22 2004-07-22 情報処理装置およびエラー検出方法
US10/985,042 US7502956B2 (en) 2004-07-22 2004-11-10 Information processing apparatus and error detecting method
EP04257225A EP1628219A3 (en) 2004-07-22 2004-11-22 Information processing apparatus and error detecting method
CNB2004100961109A CN100429626C (zh) 2004-07-22 2004-11-26 信息处理设备和错误检测方法
KR1020040098453A KR100692452B1 (ko) 2004-07-22 2004-11-29 정보 처리 장치 및 에러 검출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004214787A JP2006039678A (ja) 2004-07-22 2004-07-22 情報処理装置およびエラー検出方法

Publications (1)

Publication Number Publication Date
JP2006039678A true JP2006039678A (ja) 2006-02-09

Family

ID=35448174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004214787A Pending JP2006039678A (ja) 2004-07-22 2004-07-22 情報処理装置およびエラー検出方法

Country Status (5)

Country Link
US (1) US7502956B2 (ja)
EP (1) EP1628219A3 (ja)
JP (1) JP2006039678A (ja)
KR (1) KR100692452B1 (ja)
CN (1) CN100429626C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP2009294881A (ja) * 2008-06-04 2009-12-17 Fujitsu Ltd 情報処理装置および情報処理方法
JP2014182720A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd 情報処理システム、情報処理装置及び障害処理方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155488A (ja) * 2004-12-01 2006-06-15 Sony Corp データ処理装置およびデータ処理方法
US7467325B2 (en) 2005-02-10 2008-12-16 International Business Machines Corporation Processor instruction retry recovery
US20060184771A1 (en) * 2005-02-11 2006-08-17 International Business Machines Mini-refresh processor recovery as bug workaround method using existing recovery hardware
FR2884818B1 (fr) * 2005-04-25 2007-07-13 Arkema Sa Procede de preparation d'acide acrylique a partir de glycerol
WO2008104927A2 (en) 2007-03-01 2008-09-04 Philips Intellectual Property & Standards Gmbh Computer-controlled lighting system
US20080270827A1 (en) * 2007-04-26 2008-10-30 International Business Machines Corporation Recovering diagnostic data after out-of-band data capture failure
US9389940B2 (en) * 2013-02-28 2016-07-12 Silicon Graphics International Corp. System and method for error logging
JP6590754B2 (ja) * 2016-04-28 2019-10-16 キヤノン株式会社 通信装置、制御方法およびプログラム
CN106835232B (zh) * 2016-12-29 2018-08-31 中国工程物理研究院化工材料研究所 用于1064mm激光驱动飞片系统的飞片结构及制备方法
KR102542115B1 (ko) * 2021-04-01 2023-06-12 엘에스일렉트릭(주) 제어보드 시스템

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57101954A (en) 1980-12-18 1982-06-24 Nec Corp Error information system of logical device
US5023779A (en) * 1982-09-21 1991-06-11 Xerox Corporation Distributed processing environment fault isolation
JPS6063641A (ja) 1983-09-19 1985-04-12 Hitachi Ltd コンピユ−タシステムのエラ−処理回路
JPS621040A (ja) 1985-06-26 1987-01-07 Fuji Electric Co Ltd コンピユ−タの障害解析装置
JPH01295344A (ja) 1988-05-24 1989-11-29 Nec Corp 障害データ収集方式
JPH0219958A (ja) * 1988-06-27 1990-01-23 Internatl Business Mach Corp <Ibm> 同報通信機能を備えたマルチプロセツサシステム及びその同報通信方法
US4982402A (en) * 1989-02-03 1991-01-01 Digital Equipment Corporation Method and apparatus for detecting and correcting errors in a pipelined computer system
DE69027491T2 (de) * 1989-08-01 1997-02-06 Digital Equipment Corp Verfahren zur Softwarefehlerbehandlung
US5649090A (en) * 1991-05-31 1997-07-15 Bull Hn Information Systems Inc. Fault tolerant multiprocessor computer system
US5283891A (en) * 1991-08-08 1994-02-01 Kabushiki Kaisha Toshiba Error information saving apparatus of computer
JPH05134998A (ja) 1991-11-15 1993-06-01 Mitsubishi Electric Corp マルチプロセツサシステム
JPH05224964A (ja) 1992-02-13 1993-09-03 Fujitsu Ltd バス異常通知方式
JP2760367B2 (ja) 1992-03-23 1998-05-28 日本電気株式会社 マイクロ診断装置付情報処理装置
JPH05282167A (ja) 1992-04-03 1993-10-29 Hitachi Ltd 障害処理方法
JPH07175765A (ja) 1993-10-25 1995-07-14 Mitsubishi Electric Corp 計算機の障害回復方法
US5812757A (en) 1993-10-08 1998-09-22 Mitsubishi Denki Kabushiki Kaisha Processing board, a computer, and a fault recovery method for the computer
US5513346A (en) * 1993-10-21 1996-04-30 Intel Corporation Error condition detector for handling interrupt in integrated circuits having multiple processors
JPH07200460A (ja) 1994-01-05 1995-08-04 Fujitsu Ltd 割込制御装置
JPH07219812A (ja) 1994-01-28 1995-08-18 Meidensha Corp 異常監視方式
JP2800673B2 (ja) 1994-01-31 1998-09-21 日本電気株式会社 障害情報収集装置
JPH07319836A (ja) 1994-05-30 1995-12-08 Hitachi Ltd 障害監視方式
JPH0836554A (ja) 1994-07-21 1996-02-06 Mitsubishi Electric Corp マルチプロセッサシステム
JPH08190492A (ja) 1995-01-11 1996-07-23 Yaskawa Electric Corp マルチプロセッサシステム
US5535164A (en) 1995-03-03 1996-07-09 International Business Machines Corporation BIST tester for multiple memories
JPH09212470A (ja) 1996-01-31 1997-08-15 Toshiba Corp マルチプロセッサシステム
JPH09212388A (ja) 1996-01-31 1997-08-15 Hitachi Cable Ltd Cpuの動作監視方法
JPH1091543A (ja) 1996-09-19 1998-04-10 Nec Eng Ltd 障害情報記録方法及び情報処理装置
JP3325785B2 (ja) 1996-10-28 2002-09-17 三菱電機株式会社 計算機の故障検出・回復方式
US6233680B1 (en) 1998-10-02 2001-05-15 International Business Machines Corporation Method and system for boot-time deconfiguration of a processor in a symmetrical multi-processing system
US6360333B1 (en) * 1998-11-19 2002-03-19 Compaq Computer Corporation Method and apparatus for determining a processor failure in a multiprocessor computer
US6675324B2 (en) * 1999-09-27 2004-01-06 Intel Corporation Rendezvous of processors with OS coordination
US20020029358A1 (en) * 2000-05-31 2002-03-07 Pawlowski Chester W. Method and apparatus for delivering error interrupts to a processor of a modular, multiprocessor system
JP2002091799A (ja) 2000-09-14 2002-03-29 Hitachi Kokusai Electric Inc 状態監視システム
US6931564B2 (en) * 2001-07-13 2005-08-16 International Business Machines Corporation Failure isolation in a distributed processing system employing relative location information
JP2003114811A (ja) 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US6944788B2 (en) * 2002-03-12 2005-09-13 Sun Microsystems, Inc. System and method for enabling failover for an application server cluster
US20050273653A1 (en) * 2004-05-19 2005-12-08 Honeywell International Inc. Single fault tolerance in an architecture with redundant systems

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP2009294881A (ja) * 2008-06-04 2009-12-17 Fujitsu Ltd 情報処理装置および情報処理方法
JP2014182720A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd 情報処理システム、情報処理装置及び障害処理方法

Also Published As

Publication number Publication date
US20060020851A1 (en) 2006-01-26
CN100429626C (zh) 2008-10-29
EP1628219A2 (en) 2006-02-22
US7502956B2 (en) 2009-03-10
CN1725184A (zh) 2006-01-25
KR20060008211A (ko) 2006-01-26
KR100692452B1 (ko) 2007-03-09
EP1628219A3 (en) 2010-05-26

Similar Documents

Publication Publication Date Title
JP5579354B2 (ja) 関連アプリケーションに対するトラック・データ・クロスリファレンスを保存する方法及び装置
US7503039B2 (en) Preprocessor to improve the performance of message-passing-based parallel programs on virtualized multi-core processors
JP2006039678A (ja) 情報処理装置およびエラー検出方法
US20120218268A1 (en) Analysis of operator graph and dynamic reallocation of a resource to improve performance
US10216518B2 (en) Clearing specified blocks of main storage
US9436539B2 (en) Synchronized debug information generation
US20180137002A1 (en) Thread based dynamic data collection
US8904360B2 (en) Automated identification of redundant method calls
JP2011145824A (ja) 情報処理装置、障害解析方法及び障害解析プログラム
US7954012B2 (en) Hierarchical debug information collection
US9092333B2 (en) Fault isolation with abstracted objects
US20200004546A1 (en) Shared compare lanes for dependency wake up in a pair-based issue queue
CN113934566A (zh) 异常处理方法、装置和电子设备
US11182316B2 (en) Program interrupt code conversion
KR20150089570A (ko) 동적 분석 방법 및 장치
US11294753B2 (en) Information processing apparatus and method for collecting communication cable log
CN114780283B (zh) 一种故障处理的方法及装置
US9298381B2 (en) Data integrity monitoring among sysplexes with a shared direct access storage device (DASD)
JP6111731B2 (ja) 並列デバッグシステム、並列デバッグ方法、及び、並列デバッグプログラム
RU2292075C1 (ru) Синергическая вычислительная система
JP5467172B1 (ja) 情報処理システム、および情報処理方法
JPS58217063A (ja) プログラム・イベント・レコ−デイング多重管理処理方式
JP5872975B2 (ja) ソフトウェア実行状況検証装置、ソフトウェア実行状況検証方法、及びソフトウェア実行状況検証プログラム
CN116414514A (zh) 一种模型训练方法、扰邻源定位方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090601