JP5217647B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP5217647B2
JP5217647B2 JP2008147386A JP2008147386A JP5217647B2 JP 5217647 B2 JP5217647 B2 JP 5217647B2 JP 2008147386 A JP2008147386 A JP 2008147386A JP 2008147386 A JP2008147386 A JP 2008147386A JP 5217647 B2 JP5217647 B2 JP 5217647B2
Authority
JP
Japan
Prior art keywords
error information
error
node
held
holding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008147386A
Other languages
English (en)
Other versions
JP2009294881A (ja
Inventor
誠 畑井田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008147386A priority Critical patent/JP5217647B2/ja
Priority to US12/382,487 priority patent/US8239051B2/en
Publication of JP2009294881A publication Critical patent/JP2009294881A/ja
Application granted granted Critical
Publication of JP5217647B2 publication Critical patent/JP5217647B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Description

この発明は、ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置および情報処理方法に関する。
従来より、障害検出機能を有するコンピュータシステムにおいて、ある一箇所の障害が波及して一度に複数のノードからファームウェアに対してエラー報告が上がるような場合に、それら複数のエラー報告を元に原因となる障害を特定するFault Locationのアルゴリズムがファームウェアに実装されているようなシステムがある(特許文献1参照)。
このようなシステムでは、あるノードの出力部分でのエラーと、その出力部に連なるバスの入力先のノードの入力部分でのエラーを同時に検出し、ファームウェアにそれぞれ個別に報告するケースがある。この場合、2つのエラー報告を受けたファームウェアは、当該2つのエラーの内容を検査し、対応がとれると出力側のノードのみを被疑部品として指摘し、入力側は波及したエラーだとして無視するアルゴリズムが考えられる。
特開2001−166965号公報
しかしながら、上記した従来の技術では、ファームウェアのクリアタイミングの時間差により、正しく被疑部品を特定することができないという課題があった。
具体的には、上記したシステムにおけるファームウェアによるエラー情報のクリアは、システム管理用の共用バスを経由してノード個別に行われるため、クリアのためのアクセスの時間差が必然的に発生する。そのため、このアクセス時間に近い短い間隔でエラーが連続して発生するような障害であった場合、ファームウェアは、出力側のノードのみを被疑部品(エラー箇所)と指摘することができず、入力側のノードまでも被疑部品として過剰に指摘してしまう。
例えば、上記したファームウェアが被疑部品を過剰に指摘する例を図9を用いて説明する。図9に示すように、第一のエラーが出力側ノードAで発生し、それによる不正なパケットが入力側ノードBに転送されると、ノードA、Bは、ファームウェアに対してそれぞれエラー割込み出力する。ファームウェアは、以後のエラー報告を一旦マスクした状態にし、まず入力側ノードBのエラー情報をログ(記録)しクリアした後、出力側ノードAのエラー情報をログしクリアする。ここで、ファームの処理簡単化のために、処理するノードの順番は固定になっている。
その後、ノードBとノードAのクリア処理の間に、同じ種類の第二のエラーが発生すると、出力側ノードAでは、ファームウェアが第一のエラーをクリアしようとした際に、第二のエラー情報がクリアされてしまい、第二のエラーの情報はログレジスタに残っていない。ところが、ノードBでは、ファームウェアがクリア処理を行ったあとで、第二のエラーを検出するため、第二のエラー情報はログされて残っている。その結果、ファームウェアは、エラー割り込みのマスクを解除してエラー割り込み受付可能な状態となった後、入力側ノードBからのエラー割り込みのみを受けることになる。そのため、ファームウェアは、エラーを解析した場合に、原発エラーは入力側ノードBのエラーであるという判断をしてしまい、結果として過剰に入力側ノードを被疑部品として指摘してしまう。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、ファームウェアは意識することなく、また、ファームウェアのクリアタイミングの時間差にも関係なく、正しく被疑部品を特定することが可能である情報処理装置および情報処理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本装置は、ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置において、前記ノードは、第1のエラー情報を検出する第1の検出部と、前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出部と、前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持部と、前記保持部に記憶される前記第1のエラー情報又は前記第2のエラー情報とは異なる、前記第1の検出部が新たに検出した前記第1のエラー情報と前記第2の検出部が新たに検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持するとともに、前記保持部に保持された前記第1又は第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1又は第2のエラー情報のうち、前記初期化された第1又は第2のエラー情報に対応するエラー情報を、前記保持部に保持させる一時保持部を有し、前記システム制御装置は、前記保持部に接続された制御部と、前記保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御部に初期化させるファームウェアを有する。
本情報処理装置および情報処理方法によれば、ファームウェアは意識することなく、また、ファームウェアのクリアタイミングの時間差にも関係なく、正しく被疑部品を特定することが可能である。
以下に添付図面を参照して、本実施形態の一例に係る情報処理装置および情報処理方法の実施例を詳細に説明する。なお、以下では、本実施例に係る情報処理装置の概要および特徴、情報処理装置の構成および処理の流れを順に説明し、最後に本実施例に対する種々の変形例を説明する。
[情報処理装置の概要および特徴]
最初に、本実施例に係る情報処理装置の概要および特徴を説明する。本実施例に係る情報処理装置は、ファームウェアを実行制御するシステム制御装置(SVP:Service Processor)の一種であるMMB(Management Board)に接続されるノードにおいて発生したハードエラーを検出して解析し、エラー箇所である被疑部品を特定することを概要とするものであり、特に、ファームウェアは意識することなく、また、ファームウェアのクリアタイミングの時間差にも関係なく、正しく被疑部品を特定することが可能である点に主たる特徴がある。
この主たる特徴を具体的に説明すると、本実施例に係る情報処理装置における各ノードは、検出したエラー情報(例えば、ハードウェアの故障状態を示すレベルやメッセージなど)を保持するエラーログレジスタと同様な構成の一時保持レジスタを有している。そして、各ノードは、エラーログレジスタに既にセットされているものと同種のエラーが発生したときに、エラーログレジスタにセットされている情報を一時保持レジスタへセットする。その後、ノードは、MMBのファームウェアによりエラーログレジスタがクリアされた場合に、一時保持レジスタに保持される情報をエラーログレジスタにセットする。
つまり、ノードは、自ノードのエラーがクリアされた際に、同種のエラーが一時保持レジスタにセットされていることがわかるので、エラーログレジスタをクリアした後に、一時保持レジスタの対応するビットをコピーする。その後、ノードは、一時保持レジスタのビットをクリアする。これにより、ノードは、連続してエラーを検出した場合でも、両方のエラー情報をファームウェアに正しく出力することができ、ファームウェアは、エラーマスクを解除した後には、両方のエラー情報を正しく受けることができる。
このように、実施例1に係る情報処理装置は、上記した主たる特徴のごとく、ファームウェアは意識することなく、また、ファームウェアのクリアタイミングの時間差にも関係なく、正しく被疑部品を特定することが可能である。
[情報処理装置の構成]
次に、図1を用いて、情報処理装置の構成を説明する。図1は、実施例1に係る情報処理装置の構成を示すブロック図である。図1に示すように、この情報処理装置は、ノードA10と、クロスバ20と、ノードB30と、MMB40とから構成される。なお、ノードA10と、クロスバ20と、ノードB30とは、特に本実施例に密接に関連する処理部が同じであるため、ここでは、ノードA10についてのみ説明する。
(ノードA10の構成)
ノードA10は、SB(System Board)やIOB(IO Board)、クロスバスイッチ(クロスバ)などといったMMB40とI2C(Inter-Integrated Circuit)インタフェースで接続されるデバイスのことであり、特に本実施例に密接に関連するものとしては、エラーログレジスタ11と、一時保持レジスタ12と、エラー検出器13と、エラー検出器14とを備える。
エラーログレジスタ11は、後述するエラー検出器13またはエラー検出器14により検出されたエラーに関するエラー情報を保持する。具体的には、エラーログレジスタ11は、ノードA10内のハードウェアそれぞれに対応付けたビットごとにエラー情報を保持する。例えば、エラーログレジスタ11は、エラー検出器14によりエラーが検出されてエラー情報が通知された場合に、当該エラーを発したハードウェアのビット位置に対応する位置に、当該エラー情報を保持する。
そして、エラーログレジスタ11は、後述するエラー検出器13またはエラー検出器14により通知されたエラー情報を保持すると、割込み専用線を介して、MMB40の割り込みコントローラ45に対して割込み要求を出力する。
一時保持レジスタ12は、エラーログレジスタ11と同様の構成を有する保持部である。具体的に例を挙げると、エラーログレジスタ11が、エラー検出器14により検出されたエラーのエラー情報を保持している状況であるとする。この場合に、一時保持レジスタ12は、エラーログレジスタ11に保持されるエラー情報と同種のエラーを検出したエラー検出器14により通知された同種のエラー情報を、エラーログレジスタ11に格納されるエラー情報と同一のビット位置に保持する。
そして、一時保持レジスタ12は、エラーログレジスタ11に保持されているエラー情報がMMB40のファームウェアによりクリアされた場合、当該クリアされたエラー情報に対応するビット位置に保持する同種のエラー情報を取得する。そして、一時保持レジスタ12は、エラーログレジスタ11におけるクリアされたエラー情報に対応するビット位置に、取得した同種のエラー情報を格納する。
エラー検出器13は、ノードA10内のハードウェアのエラーを検出するとともに、他のノードで検出されたエラー情報を受け付ける。具体的に例を挙げると、エラー検出器13は、ノードA10内のハードウェアのエラーを検出し、検出したエラーに関するエラー情報をエラーログレジスタ11に通知する。そして、エラー検出器13は、エラーログレジスタ11の各ビットのうち、当該エラーを検出したハードウェアに対応するビット位置に当該エラー情報を格納する。
また、エラー検出器13は、他のノードで検出されたエラー情報を受け付けると、当該エラー情報に対する割込み要求を、割込み専用線を介してMMB40の割り込みコントローラ45に対して出力する。
エラー検出器14は、ノードA10内のハードウェアのエラーを検出するとともに、エラーを検出したことを他のノードに通知する。具体的に例を挙げると、エラー検出器14は、ノードA10内のハードウェアのエラーを検出し、検出したエラーに関するエラー情報をエラーログレジスタ11に通知する。そして、エラー検出器14は、エラーログレジスタ11の各ビットのうち、当該エラーを検出したハードウェアに対応するビット位置に当該エラー情報を格納する。
また、エラー検出器14は、他のノードで検出されたエラー情報を受け付けると、当該エラー情報に対する割込み要求を、割込み専用線を介してMMB40の割り込みコントローラ45に対して出力する。
(MMB40の構成)
MMB40は、ファームウェアなどを実行して、接続されるノードに対して各種処理を実行する制御部であり、特に本実施例に密接に関連するものとしては、スイッチ41と、I2Cコントローラ42と、メモリ43と、CPU44と、割り込みコントローラ45とから構成される。
スイッチ41は、複数のポートを備え、I2Cインタフェースを介して他のノードと接続する通信ボードである。具体的に例を挙げれば、スイッチ41は、複数のポートそれぞれにノードを接続し、ノードから送信されたデータを後述するI2Cコントローラ42に出力したり、I2Cコントローラ42から出力されたデータを送信先に出力する。
I2Cコントローラ42は、スイッチ41に接続される各ノードを制御したり、データの条件分岐を行ったりする。具体的には、I2Cコントローラ42は、スイッチ41を介してデータをノードから受信し、当該データをCPU44やファームウェアに出力する。また、I2Cコントローラ42は、CPU44やファームウェアなどにより実行された結果を、スイッチ41を介してノードに送信する。
メモリ43は、CPU44や割り込みコントローラ45などによる各種処理に必要なデータおよびプログラムを格納するとともに、ファームウェアを記憶する。メモリ43に記憶されるファームウェアは、CPU44や割り込みコントローラ45などに読み出されて、各種処理を実行する。例えば、ファームウェアは、割り込みコントローラ45が割り込み要求を受信したことを検出し、CPU44の指示により、当該割り込み要求に対応するエラーのエラー情報を各ノードからI2Cインタフェースを介して取得してエラー解析を実行する。また、ファームウェアは、エラー解析中にはマスクをかけてエラーの受付を抑止したり、エラー解析後には当該エラー情報をクリアしたりする。
CPU44は、プログラムによって様々な数値計算や情報処理、機器制御などを行うとともに、メモリ43上にあるプログラムと呼ぶ命令列を順に読み込み、解釈し、その結果に従ってデータの移動や加工を行う。具体的には、CPU44は、メモリ43上にあるファームウェアを読み出して、上記した各種処理を実行する。また、CPU44は、割り込みコントローラ45により割り込み要求が受信されると、エラー処理ルーチンを起動して、当該割り込み要求に対応するエラーのエラー情報を各ノードからI2Cインタフェースを介して取得する。そして、CPU44は、現在実行している処理を中止して、割り込み処理を実行する。
割り込みコントローラ45は、各ノードから割り込み要求を受信する。具体的に例を挙げると、割り込みコントローラ45は、ノードA10においてエラーが発生した場合、I2Cインタフェースを介して受信するのではなく、ノードA10のエラーログレジスタ11から割り込み専用線を介して割り込み要求を受信し、当該割り込みを受信したことをCPU44に通知する。このようにすることで、CPU44は、割り込み処理を優先的に実行する。
(各ノードの回路構成)
次に、図2を用いて、各ノードの回路構成を説明する。図2は、実施例1に係る情報処理装置における各ノードの回路構成を説明する図である。なお、ここでは、ノードA10を例にして説明する。
図2に示すように、ノードA10は、エラー検出器13またはエラー検出器14で検出されたエラー情報がerr[31:0]として通知されると、図示するように、OR演算から得られた32ビットと、clrの情報である1ビットとをAND演算することでクリア指示か否かを判定する。そして、ノードA10は、クリア指示でない場合には、エラーログレジスタ11(err_reg[31:0])に当該エラー情報をセットする。このとき、ノードA10は、既に対応するビットがセットされていると、一時保持レジスタ12(err_reg_copy[31:0])の方に当該エラー情報をセットする。
その後、ノードA10は、MMB40のファームウェアからレジスタのクリア要求(clr)が指示されると、OR演算から得られた32ビットと、clrの情報である1ビットとをAND演算して、エラーログレジスタ11(err_reg[31:0])のセットされているビットをクリアする。そして、このとき、ノードA10は、一時保持レジスタ12(err_reg_copy[31:0])の対応するビットがセットされている場合には、エラーログレジスタ11(err_reg[31:0])の同一ビットを再度セットし、一時保持レジスタ12(err_reg_copy[31:0])の方をクリアする。
[情報処理装置による処理]
次に、図3〜図5を用いて、情報処理装置による処理を説明する。図3は、実施例1に係る情報処理装置におけるノードでの処理の流れを示すフローチャートであり、図4は、実施例1に係る情報処理装置におけるMMBでの処理の流れを示すフローチャートであり、図5は、実施例1に係る情報処理装置で実施される処理のタイムチャートを示す図である。
(ノードでの処理の流れ)
図3に示すように、各ノードは、エラーを検出すると(ステップS101肯定)、当該エラーに対応するエラーログレジスタ11のビット位置にエラー情報が既に格納されているか否かを判定する(ステップS102)。
そして、エラー情報が既に格納されていない場合(ステップS102否定)、各ノードは、当該エラーに対応するエラーログレジスタ11のビット位置にエラー情報を格納して(ステップS103)、ステップS101に戻る。
一方、エラー情報が既に格納されている場合(ステップS102肯定)、各ノードは、当該エラーに対応する一時保持レジスタ12のビット位置にエラー情報を格納する(ステップS104)。
その後、各ノードは、エラーログレジスタ11のエラー情報がファームウェアによりクリアされると(ステップS105肯定)、クリアされたエラー情報のビット位置と同じビット位置のエラー情報を一時保持レジスタ12から取得して、エラーログレジスタ11の当該ビット位置に格納する(ステップS106)。そして、各ノードは、エラー情報を取得した一時保持レジスタ12のビット位置に記憶されているエラー情報をクリアする(ステップS107)。
(MMBでの処理の流れ)
図4に示すように、MMB40は、いずれかのノードからエラーを受信すると(ステップS201肯定)、以後のエラー報告を一旦マスクしてエラーを受け付けないようにする(ステップS202)。
そして、MMB40は、エラー情報を送信してきた各ノードのエラー情報を記憶するとともに、当該各ノードのエラーログレジスタに記憶される当該エラーに対応するビット位置の情報をクリアする(ステップS203)。
そして、MMB40は、受信したエラー情報を用いてエラー解析処理を実行し(ステップS204)、当該処理が終了すると、マスクを解除して、以後のエラー報告を受信できる状態にする(ステップS205)。
(タイムチャート)
次に、図5を用いて、実施例1に係る情報処理装置で実施される処理のタイムチャートを説明するが、ここでは、ノードA10とノードB30とを例にして説明する。
図5に示すように、ノードA10は、エラーを検出すると(ステップS301)、当該エラー情報をエラーログレジスタ11に格納するとともに、エラーによる不正なパケットをノードB30に転送する(ステップS302)。すると、ノードA10、B30は、ファームウェアに対してそれぞれエラー割込み出力する(ステップS303)。
MMB40のファームウェアは、以後のエラー報告を一旦マスクした状態にし(ステップS304とステップS305)、まずノードB30のエラー情報をログ(記録)しクリアする(ステップS306)。
そして、ファームウェアによりノードA10のエラー情報がクリアされる前に、ノードAは、先ほど検出したエラーと同種のエラー(同じビット位置に対応するエラー)を検出し(ステップS307)、エラーによる不正なパケットをノードB30に転送する(ステップS308)。
すると、ノードA10は、新たに検出したエラーのエラー情報を格納するエラーログレジスタ11のビット位置にエラー情報が既に格納されていることにより、当該新たなエラー情報を一時保持レジスタ12に格納する(ステップS309)。
その後、MMB40のファームウェアは、ノードA10のエラー情報をログ(記録)しクリアする(ステップS310)。つまり、ここでは、最初のエラー情報がクリアされることとなる。
そして、ファームウェアは、ノードA10とノードB30のそれぞれのエラー情報をクリアした後に、取得したエラー情報を用いてエラー解析を行い、エラー解析が終了すると、エラー割り込みのマスクを解除してエラー割り込み受付可能な状態とする(ステップS311〜ステップS313)。
こうして、エラー割り込み受付可能な状態となったファームウェアは、ノードA10、ノードB30との両方から、最初のエラー情報ではなく、新たなエラー情報を受け付ける(ステップS314)。その後、新たなエラー情報についても、上記したステップと同様の処理を行う。
[実施例1による効果]
このように、実施例1によれば、ノードは、エラー検出器13が検出した第1のエラー情報とエラー検出器14が検出した第2のエラー情報を、対応するビット位置にそれぞれエラーログレジスタ11に保持し、エラーログレジスタ11に記憶される第1のエラー情報又は第2のエラー情報とは異なる、エラー検出器13が新たに検出した第1のエラー情報とエラー検出器14が新たに検出した第2のエラー情報を、対応するビット位置にそれぞれ保持するとともに、エラーログレジスタ11に保持された第1又は第2のエラー情報が、MMB40により初期化された場合に、保持した第1又は第2のエラー情報のうち、初期化された第1又は第2のエラー情報に対応するエラー情報を、保持部に保持させる一時保持レジスタ12を有し、MMB40は、エラーログレジスタ11に保持された第1及び第2のエラー情報を、制御部に読み込ませるとともに、第1又は第2のエラー情報を、制御部に初期化させるファームウェアを有するので、複雑な処理を必要とすることなく、レジスタを用いるだけで、ファームウェアは意識することなく、また、ファームウェアのクリアタイミングの時間差にも関係なく、正しく被疑部品を特定することが可能である。
さて、これまで本実施形態の一例について説明したが、本情報処理装置および情報処理方法は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)ノードが一つの形態、(2)クリア抑止制御、(3)単一ビットの一時保持フラグ、(4)システム構成等にそれぞれ区分けして異なる実施例を説明する。
(1)ノードが一つの形態
例えば、実施例1では、MMBにノードが複数接続されている場合の例について説明したが、本情報処理装置および情報処理方法はこれに限定されるものではなく、MMBにノードが一つ接続されている場合でも同様に本装置を適用することができる。具体的に例を挙げれば、図6に示すように、ノードAとMMBとが接続されている形態でも同様に適用することができる。また、図6では、ノードAがエラーログレジスタと一時保持レジスタとをそれぞれ2つ備えている場合を図示したが、これに限定されるものではなく、エラーログレジスタと一時保持レジスタとをそれぞれ1つ備えていてもよい。なお、図6は、ノード一つが接続される場合の構成を例示した図である。
(2)クリア抑止制御
また、実施例に係るノードは、ファームウェアによりエラーログレジスタのクリア指示を受け付けてクリアを実行する場合について説明したが、本情報処理装置および情報処理方法はこれに限定されるものではなく、クリア指示を受けた場合にクリアを抑止することもできる。具体的には、ノードは、一時保持レジスタにエラー情報がセットされていれば、当該セットされているエラー情報のビット位置と対応するエラーログレジスタのビットをクリアしないようにすることもできる。
具体的に例を挙げると、クリア抑止を行う場合は、図7に示した回路により実現することができる。図7に示した回路は、エラー情報(err_reg[31:0])と反転させたクリア情報(1ビット)とをAND演算する場合に、さらに、一時保持レジスタの(err_reg_copy[31:0])を含めてAND演算する点が、実施例1で説明した図5とは異なる。なお、図7は、クリア抑止制御を実施するノードの回路構成を例示した図である。
このようにすることで、一時保持レジスタからエラーログレジスタへ再セットする処理を省くことができ、装置全体としての処理性能の低下を防止しつつ、高速な割込み処理を実施することが可能である。
(3)単一ビットの一時保持フラグ
また、実施例1では、32ビットのエラーレジスタと同様の32ビットの一時保持レジスタを用いた場合について説明したが、本情報処理装置および情報処理方法はこれに限定されるものではなく、単一ビットの一時保持レジスタを用いた場合でも同様に処理することができる。このように、単一ビットの一時保持レジスタにフラグがセットされていると、クリアを抑止するとともに、一時保持レジスタのフラグをクリアすることができる。
具体的に例を挙げると、単一ビットの一時保持レジスタを用いた場合は、図8に示した回路により実現することができる。図8に示した回路は、一時保持レジスタにおいて、記憶されているエラー情報(err_reg[31:0])と新たなエラーのエラー情報(err_reg[31:0])とを32ビット全体でAND演算を行う点が、実施例1で説明した図5とは異なる。そして、ノードは、この演算結果を受けて、一時保持レジスタに「1」や「0」といったフラグを立て、フラグ「1」である場合にはエラーログレジスタのクリアを抑止する制御を行う。なお、図8は、単一ビットの一時保持レジスタを有するノードの回路構成を例示した図である。
このようにすることで、32ビットの一時保持レジスタを用意する必要もなく、1ビットの最小構成の一時保持レジスタを用いた場合であっても、ファームウェアは意識することなく、また、ファームウェアのクリアタイミングの時間差にも関係なく、正しく被疑部品を特定することが可能である。
(4)システム構成等
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
以上の実施例1と2を含む実施形態に関し、更に以下の付記を開示する。
(付記1)ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置において、
前記ノードは、
第1のエラー情報を検出する第1の検出部と、
前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出部と、
前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持部と、
前記保持部に記憶される前記第1のエラー情報又は前記第2のエラー情報とは異なる、前記第1の検出部が新たに検出した前記第1のエラー情報と前記第2の検出部が新たに検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持するとともに、前記保持部に保持された前記第1又は第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1又は第2のエラー情報のうち、前記初期化された第1又は第2のエラー情報に対応するエラー情報を、前記保持部に保持させる一時保持部を有し、
前記システム制御装置は、
前記保持部に接続された制御部と、
前記保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御部に初期化させるファームウェアを有することを特徴とする情報処理装置。
(付記2)前記制御部はさらに、
前記一時保持部に、前記第1又は第2のエラー情報が保持されている場合には、
前記保持部において、前記第1又は第2のエラー情報に対応するビット位置に保持された第1又は第2のエラー情報の初期化を抑止するとともに、
前記一時保持部に保持された、前記第1又は第2のエラー情報を前記システム制御装置により初期化することを特徴とする付記1に記載の情報処理装置。
(付記3)ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置において、
前記ノードは、
第1のエラー情報を検出する第1の検出部と、
前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出部と、
前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持部と、
前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報が、前記保持部に保持されている場合に、エラーフラグを保持するとともに、前記エラーフラグが保持されているとき、前記システム制御装置による前記第1又は第2のエラー情報の初期化を、抑止するフラグ保持部を有し、
前記システム制御装置は、
前記保持部に接続された制御部と、
前記保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御部に初期化させるファームウェアを有することを特徴とする情報処理装置。
(付記4)第1のノードと、前記第1のノードに接続された第2のノードと、前記第1及び第2のノードに接続されたシステム制御装置を有する情報処理装置において、
前記第1のノードは、
第1のエラー情報を検出する第1の検出部と、
前記第1の検出部が検出した前記第1のエラー情報を保持する第1の保持部と、
前記保持部に記憶される前記第1のエラー情報とは異なる、前記第1の検出部が新たに検出した前記第1のエラー情報を保持するとともに、前記第1の保持部に保持された前記第1のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1のエラー情報を、前記第1の保持部に保持させる第1の一時保持部を有し、
前記第2のノードは、
第2のエラー情報を検出する第2の検出部と、
前記第2の検出部が検出した前記第2のエラー情報を保持する第2の保持部と、
前記保持部に記憶される前記第2のエラー情報とは異なる、前記第2の検出部が新たに検出した前記第2のエラー情報を保持するとともに、前記第2の保持部に保持された前記第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第2のエラー情報を、前記第2の保持部に保持させる第2の一時保持部を有し、
前記システム制御装置は、
前記第1及び第2の保持部に接続された制御部と、
前記第1及び第2の保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1及び第2のエラー情報を、前記制御部に初期化させるファームウェアを有することを特徴とする情報処理装置。
(付記5)ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置に適した情報処理方法であって、
前記ノードは、
第1のエラー情報を検出する第1の検出工程と、
前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出工程と、
前記第1の検出工程が検出した前記第1のエラー情報と前記第2の検出工程が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持工程と、
前記保持工程に記憶される前記第1のエラー情報又は前記第2のエラー情報とは異なる、前記第1の検出工程が新たに検出した前記第1のエラー情報と前記第2の検出工程が新たに検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持するとともに、前記保持工程に保持された前記第1又は第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1又は第2のエラー情報のうち、前記初期化された第1又は第2のエラー情報に対応するエラー情報を、前記保持工程に保持させる一時保持工程を有し、
前記システム制御装置は、
前記保持工程に接続された制御工程と、
前記保持工程に保持された前記第1及び第2のエラー情報を、前記制御工程に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御工程に初期化させるファームウェアを含んだことを特徴とする情報処理方法。
(付記6)前記制御工程はさらに、
前記一時保持工程に、前記第1又は第2のエラー情報が保持されている場合には、
前記保持工程において、前記第1又は第2のエラー情報に対応するビット位置に保持された第1又は第2のエラー情報の初期化を抑止するとともに、
前記一時保持工程に保持された、前記第1又は第2のエラー情報を前記システム制御装置により初期化することを特徴とする付記5に記載の情報処理方法。
(付記7)ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置に適した情報処理方法であって、
前記ノードは、
第1のエラー情報を検出する第1の検出工程と、
前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出工程と、
前記第1の検出工程が検出した前記第1のエラー情報と前記第2の検出工程が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持工程と、
前記第1の検出工程が検出した前記第1のエラー情報と前記第2の検出工程が検出した前記第2のエラー情報が、前記保持工程に保持されている場合に、エラーフラグを保持するとともに、前記エラーフラグが保持されているとき、前記システム制御装置による前記第1又は第2のエラー情報の初期化を、抑止するフラグ保持工程を有し、
前記システム制御装置は、
前記保持工程に接続された制御工程と、
前記保持工程に保持された前記第1及び第2のエラー情報を、前記制御工程に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御工程に初期化させるファームウェアを含んだことを特徴とする情報処理方法。
(付記8)第1のノードと、前記第1のノードに接続された第2のノードと、前記第1及び第2のノードに接続されたシステム制御装置を有する情報処理装置に適した情報処理方法であって、
前記第1のノードは、
第1のエラー情報を検出する第1の検出工程と、
前記第1の検出工程が検出した前記第1のエラー情報を保持する第1の保持工程と、
前記第1の保持工程に記憶される前記第1のエラー情報とは異なる、前記第1の検出工程が新たに検出した前記第1のエラー情報を保持するとともに、前記第1の保持工程に保持された前記第1のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1のエラー情報を、前記第1の保持工程に保持させる第1の一時保持工程を有し、
前記第2のノードは、
第2のエラー情報を検出する第2の検出工程と、
前記第2の検出工程が検出した前記第2のエラー情報を保持する第2の保持工程と、
前記2の保持工程に記憶される前記第2のエラー情報とは異なる、前記第2の検出工程が新たに検出した前記第2のエラー情報を保持するとともに、前記第2の保持工程に保持された前記第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第2のエラー情報を、前記第2の保持工程に保持させる第2の一時保持工程を有し、
前記システム制御装置は、
前記第1及び第2の保持工程に接続された制御工程と、
前記第1及び第2の保持工程に保持された前記第1及び第2のエラー情報を、前記制御工程に読み込ませるとともに、前記第1及び第2のエラー情報を、前記制御工程に初期化させるファームウェアを含んだことを特徴とする情報処理方法。
実施例1に係る情報処理装置の構成を示すブロック図である。 実施例1に係る情報処理装置における各ノードの回路構成を説明する図である。 実施例1に係る情報処理装置におけるノードでの処理の流れを示すフローチャートである。 実施例1に係る情報処理装置におけるMMBでの処理の流れを示すフローチャートである。 実施例1に係る情報処理装置で実施される処理のタイムチャートを示す図である。 ノード一つが接続される場合の構成を例示した図である。 クリア抑止制御を実施するノードの回路構成を例示した図である。 単一ビットの一時保持レジスタを有するノードの回路構成を例示した図である。 従来技術を説明するための図である。
符号の説明
10 ノードA
11 エラーログレジスタ
12 一時保持レジスタ
13 エラー検出器
14 エラー検出器
20 クロスバ
30 ノードB
40 MMB
41 スイッチ
42 I2Cコントローラ
43 メモリ
44 CPU
45 割り込みコントローラ

Claims (5)

  1. ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置において、
    前記ノードは、
    第1のエラー情報を検出する第1の検出部と、
    前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出部と、
    前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持部と、
    前記保持部に記憶される前記第1のエラー情報又は前記第2のエラー情報とは異なる、前記第1の検出部が新たに検出した前記第1のエラー情報と前記第2の検出部が新たに検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持するとともに、前記保持部に保持された前記第1又は第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1又は第2のエラー情報のうち、前記初期化された第1又は第2のエラー情報に対応するエラー情報を、前記保持部に保持させる一時保持部を有し、
    前記システム制御装置は、
    前記保持部に接続された制御部と、
    前記保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御部に初期化させるファームウェアを有することを特徴とする情報処理装置。
  2. 前記制御部はさらに、
    前記一時保持部に、前記第1又は第2のエラー情報が保持されている場合には、
    前記保持部において、前記第1又は第2のエラー情報に対応するビット位置に保持された第1又は第2のエラー情報の初期化を抑止するとともに、
    前記一時保持部に保持された、前記第1又は第2のエラー情報を前記システム制御装置により初期化することを特徴とする請求項1に記載の情報処理装置。
  3. ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置において、
    前記ノードは、
    第1のエラー情報を検出する第1の検出部と、
    前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出部と、
    前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持部と、
    前記第1の検出部が検出した前記第1のエラー情報と前記第2の検出部が検出した前記第2のエラー情報が、前記保持部に保持されている場合に、エラーフラグを保持するとともに、前記エラーフラグが保持されているとき、前記システム制御装置による前記第1又は第2のエラー情報の初期化を、抑止するフラグ保持部を有し、
    前記システム制御装置は、
    前記保持部に接続された制御部と、
    前記保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御部に初期化させるファームウェアを有することを特徴とする情報処理装置。
  4. 第1のノードと、前記第1のノードに接続された第2のノードと、前記第1及び第2のノードに接続されたシステム制御装置を有する情報処理装置において、
    前記第1のノードは、
    第1のエラー情報を検出する第1の検出部と、
    前記第1の検出部が検出した前記第1のエラー情報を保持する第1の保持部と、
    前記第1の保持部に記憶される前記第1のエラー情報とは異なる、前記第1の検出部が新たに検出した前記第1のエラー情報を保持するとともに、前記第1の保持部に保持された前記第1のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1のエラー情報を、前記第1の保持部に保持させる第1の一時保持部を有し、
    前記第2のノードは、
    第2のエラー情報を検出する第2の検出部と、
    前記第2の検出部が検出した前記第2のエラー情報を保持する第2の保持部と、
    前記第2の保持部に記憶される前記第2のエラー情報とは異なる、前記第2の検出部が新たに検出した前記第2のエラー情報を保持するとともに、前記第2の保持部に保持された前記第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第2のエラー情報を、前記第2の保持部に保持させる第2の一時保持部を有し、
    前記システム制御装置は、
    前記第1及び第2の保持部に接続された制御部と、
    前記第1及び第2の保持部に保持された前記第1及び第2のエラー情報を、前記制御部に読み込ませるとともに、前記第1及び第2のエラー情報を、前記制御部に初期化させるファームウェアを有することを特徴とする情報処理装置。
  5. ノードと、前記ノードに接続されたシステム制御装置を有する情報処理装置に適した情報処理方法であって、
    前記ノードが有する第1の検出部は、第1のエラー情報を検出する第1の検出工程を実行し
    前記ノードが有する第2の検出部は、前記第1のエラー情報とは異なる第2のエラー情報を検出する第2の検出工程を実行し、
    前記ノードが有する保持部は、前記第1の検出工程が検出した前記第1のエラー情報と前記第2の検出工程が検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持する保持工程を実行し、
    前記ノードが有する一時保持部は、前記保持工程に記憶される前記第1のエラー情報又は前記第2のエラー情報とは異なる、前記第1の検出工程が新たに検出した前記第1のエラー情報と前記第2の検出工程が新たに検出した前記第2のエラー情報を、対応するビット位置にそれぞれ保持するとともに、前記保持工程に保持された前記第1又は第2のエラー情報が、前記システム制御装置により初期化された場合に、前記保持した第1又は第2のエラー情報のうち、前記初期化された第1又は第2のエラー情報に対応するエラー情報を、前記保持工程に保持させる一時保持工程を実行し、
    前記システム制御装置が有する制御部は、前記保持工程に接続された制御工程を実行し、
    前記システム制御装置が有するファームウェアは、前記保持工程に保持された前記第1及び第2のエラー情報を、前記制御工程に読み込ませるとともに、前記第1又は第2のエラー情報を、前記制御工程に初期化させる処理を実行することを特徴とする情報処理方法。
JP2008147386A 2008-06-04 2008-06-04 情報処理装置および情報処理方法 Expired - Fee Related JP5217647B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008147386A JP5217647B2 (ja) 2008-06-04 2008-06-04 情報処理装置および情報処理方法
US12/382,487 US8239051B2 (en) 2008-06-04 2009-03-17 Information processing apparatus and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008147386A JP5217647B2 (ja) 2008-06-04 2008-06-04 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JP2009294881A JP2009294881A (ja) 2009-12-17
JP5217647B2 true JP5217647B2 (ja) 2013-06-19

Family

ID=41401401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008147386A Expired - Fee Related JP5217647B2 (ja) 2008-06-04 2008-06-04 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US8239051B2 (ja)
JP (1) JP5217647B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5099222B2 (ja) * 2008-05-30 2012-12-19 富士通株式会社 情報処理装置、転送回路及び情報処理装置のエラー制御方法
JP5120163B2 (ja) * 2008-09-05 2013-01-16 セイコーエプソン株式会社 記録装置及び記録装置における初期化方法
US8898526B1 (en) * 2012-07-23 2014-11-25 Google Inc. Using forward error correction coding to diagnose communication links
US9582346B2 (en) * 2013-09-04 2017-02-28 Oracle International Corporation Selecting I/O interrupt target for multi-core server systems
CN110113189B (zh) * 2019-04-24 2022-05-06 上海易点时空网络有限公司 发布系统出错节点的定位方法及装置

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55131857A (en) * 1979-04-03 1980-10-14 Nec Corp Logic unit
US4464751A (en) * 1981-11-10 1984-08-07 International Business Machines Corp. Machine check coordination
JPS6195457A (ja) * 1984-10-16 1986-05-14 Nec Corp 診断処理方式
JPS61175835A (ja) * 1985-01-31 1986-08-07 Toshiba Corp 情報処理システム
US5155809A (en) * 1989-05-17 1992-10-13 International Business Machines Corp. Uncoupling a central processing unit from its associated hardware for interaction with data handling apparatus alien to the operating system controlling said unit and hardware
JPH0348944A (ja) * 1989-07-18 1991-03-01 Nec Corp エラー情報記憶方式
JPH03216748A (ja) * 1990-01-22 1991-09-24 Nec Eng Ltd リモートチャネル装置
GB2249460B (en) * 1990-09-19 1994-06-29 Intel Corp Network providing common access to dissimilar hardware interfaces
JPH0573351A (ja) * 1991-09-13 1993-03-26 Nec Eng Ltd 情報処理装置
JP2760367B2 (ja) * 1992-03-23 1998-05-28 日本電気株式会社 マイクロ診断装置付情報処理装置
US5371734A (en) * 1993-01-29 1994-12-06 Digital Ocean, Inc. Medium access control protocol for wireless network
JPH1027115A (ja) * 1996-07-11 1998-01-27 Nec Eng Ltd コンピュータシステムの障害情報採取回路
US6502208B1 (en) * 1997-03-31 2002-12-31 International Business Machines Corporation Method and system for check stop error handling
WO2000023956A1 (en) * 1998-10-22 2000-04-27 University Of Maryland Method and system for providing location dependent and personal identification information to a public safety answering point
US7124101B1 (en) * 1999-11-22 2006-10-17 Accenture Llp Asset tracking in a network-based supply chain environment
US7716077B1 (en) * 1999-11-22 2010-05-11 Accenture Global Services Gmbh Scheduling and planning maintenance and service in a network-based supply chain environment
US8271336B2 (en) * 1999-11-22 2012-09-18 Accenture Global Services Gmbh Increased visibility during order management in a network-based supply chain environment
US7130807B1 (en) * 1999-11-22 2006-10-31 Accenture Llp Technology sharing during demand and supply planning in a network-based supply chain environment
JP2001166965A (ja) * 1999-12-07 2001-06-22 Nec Kofu Ltd 障害解析回路
US20050193408A1 (en) * 2000-07-24 2005-09-01 Vivcom, Inc. Generating, transporting, processing, storing and presenting segmentation information for audio-visual programs
JPWO2002021266A1 (ja) * 2000-09-07 2004-01-15 テックファーム株式会社 情報配信サーバシステム、情報配信方法及び記録媒体
US20030097481A1 (en) * 2001-03-01 2003-05-22 Richter Roger K. Method and system for performing packet integrity operations using a data movement engine
US7392541B2 (en) * 2001-05-17 2008-06-24 Vir2Us, Inc. Computer system architecture and method providing operating-system independent virus-, hacker-, and cyber-terror-immune processing environments
US7200144B2 (en) * 2001-10-18 2007-04-03 Qlogic, Corp. Router and methods using network addresses for virtualization
US20080008202A1 (en) * 2002-10-31 2008-01-10 Terrell William C Router with routing processors and methods for virtualization
US7660998B2 (en) * 2002-12-02 2010-02-09 Silverbrook Research Pty Ltd Relatively unique ID in integrated circuit
US7389462B1 (en) * 2003-02-14 2008-06-17 Istor Networks, Inc. System and methods for high rate hardware-accelerated network protocol processing
US7594002B1 (en) * 2003-02-14 2009-09-22 Istor Networks, Inc. Hardware-accelerated high availability integrated networked storage system
US7450579B2 (en) * 2003-09-09 2008-11-11 Broadcom Corporation Downstream synchronous multichannels for a communications management system
US20050078708A1 (en) * 2003-10-14 2005-04-14 International Business Machines Corporation Formatting packet headers in a communications adapter
US7668923B2 (en) * 2003-10-14 2010-02-23 International Business Machines Corporation Master-slave adapter
US20050080920A1 (en) * 2003-10-14 2005-04-14 International Business Machines Corporation Interpartition control facility for processing commands that effectuate direct memory to memory information transfer
US20050080869A1 (en) * 2003-10-14 2005-04-14 International Business Machines Corporation Transferring message packets from a first node to a plurality of nodes in broadcast fashion via direct memory to memory transfer
US20050080945A1 (en) * 2003-10-14 2005-04-14 International Business Machines Corporation Transferring message packets from data continued in disparate areas of source memory via preloading
US20050091383A1 (en) * 2003-10-14 2005-04-28 International Business Machines Corporation Efficient zero copy transfer of messages between nodes in a data processing system
US20050081080A1 (en) * 2003-10-14 2005-04-14 International Business Machines Corporation Error recovery for data processing systems transferring message packets through communications adapters
US6826123B1 (en) * 2003-10-14 2004-11-30 International Business Machines Corporation Global recovery for time of day synchronization
US20100005531A1 (en) * 2004-12-23 2010-01-07 Kenneth Largman Isolated multiplexed multi-dimensional processing in a virtual processing space having virus, spyware, and hacker protection features
JP2006039678A (ja) * 2004-07-22 2006-02-09 Fujitsu Ltd 情報処理装置およびエラー検出方法
US20060161460A1 (en) * 2004-12-15 2006-07-20 Critical Connection Inc. System and method for a graphical user interface for healthcare data
US20060195340A1 (en) * 2004-12-15 2006-08-31 Critical Connection Inc. System and method for restoring health data in a database
JP4555713B2 (ja) * 2005-03-17 2010-10-06 富士通株式会社 エラー通知方法及び情報処理装置
US20080240105A1 (en) * 2007-03-28 2008-10-02 Vmonitor, Inc. System and method for extending a serial protocol to create a network in a well monitoring environment
US8706914B2 (en) * 2007-04-23 2014-04-22 David D. Duchesneau Computing infrastructure
US8677174B2 (en) * 2007-12-28 2014-03-18 International Business Machines Corporation Management of runtime events in a computer environment using a containment region

Also Published As

Publication number Publication date
JP2009294881A (ja) 2009-12-17
US8239051B2 (en) 2012-08-07
US20090307535A1 (en) 2009-12-10

Similar Documents

Publication Publication Date Title
US8707094B2 (en) Fault tolerant stability critical execution checking using redundant execution pipelines
US7577874B2 (en) Interactive debug system for multiprocessor array
JP3640187B2 (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP5217647B2 (ja) 情報処理装置および情報処理方法
US20070242611A1 (en) Computer Hardware Fault Diagnosis
US8892957B2 (en) Memory correctness checking in distributed computer systems
KR100637780B1 (ko) 분산된 노드 환경에서의 현장 교체 가능형 유닛의 결함분리를 위한 1차 에러 소스의 식별 방법, 메카니즘 및그의 컴퓨터 시스템
WO2019142591A1 (ja) 異常検知装置
JP2012058958A (ja) リダクション演算装置、処理装置及びコンピュータシステム
US20220114131A1 (en) System, method, apparatus and architecture for dynamically configuring device fabrics
US8271831B2 (en) Tolerating soft errors by selective duplication
US7139857B2 (en) Method and apparatus for handling interrupts
CN111045730B (zh) 一种用于risc-v架构的硬件快速中断处理系统及其方法
JP2011145824A (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP2010134751A (ja) マルチパーティション・コンピュータシステム、障害処理方法及びそのプログラム
JP2003524225A (ja) コンピュータシステムのエラーを処理する方法及び装置
US6959352B1 (en) System and method for allowing non-trusted processors to interrupt a processor safely
US7721151B2 (en) Selective error recovery of processing complex using privilege-level error discrimination
JP2005234744A (ja) マルチプロセッサシステム及び障害処理方法
US10922180B2 (en) Handling uncorrected memory errors inside a kernel text section through instruction block emulation
US9176806B2 (en) Computer and memory inspection method
US20080271024A1 (en) Information processing apparatus, information processing system and information processing method for processing tasks in parallel
JP2010146117A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2010015364A (ja) マルチプロセッサシステム及び情報処理装置
US11422879B1 (en) Universal in-band error masking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees