JP2008048278A - ノード装置、制御装置、制御方法及び制御プログラム - Google Patents

ノード装置、制御装置、制御方法及び制御プログラム Download PDF

Info

Publication number
JP2008048278A
JP2008048278A JP2006223346A JP2006223346A JP2008048278A JP 2008048278 A JP2008048278 A JP 2008048278A JP 2006223346 A JP2006223346 A JP 2006223346A JP 2006223346 A JP2006223346 A JP 2006223346A JP 2008048278 A JP2008048278 A JP 2008048278A
Authority
JP
Japan
Prior art keywords
node
data
error
uncorrectable
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006223346A
Other languages
English (en)
Other versions
JP4774347B2 (ja
Inventor
Takashi Yamamoto
崇史 山本
Koji Ishizuka
孝治 石塚
Toshikazu Ueki
俊和 植木
Makoto Hataida
誠 畑井田
Yuka Hosokawa
由佳 細川
Takeshi Owaki
威 大脇
Daisuke Ito
大介 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006223346A priority Critical patent/JP4774347B2/ja
Priority to US11/785,759 priority patent/US8065566B2/en
Priority to EP20070106700 priority patent/EP1890414B1/en
Priority to CN2007101039579A priority patent/CN101127580B/zh
Priority to KR20070047935A priority patent/KR100918284B1/ko
Publication of JP2008048278A publication Critical patent/JP2008048278A/ja
Application granted granted Critical
Publication of JP4774347B2 publication Critical patent/JP4774347B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0078Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
    • H04L1/0079Formats for control data
    • H04L1/0082Formats for control data fields explicitly indicating existence of error in data being transmitted, e.g. so that downstream stations can avoid decoding erroneous packet; relays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L2001/0092Error control systems characterised by the topology of the transmission link
    • H04L2001/0097Relays

Abstract

【課題】汎用ノードがアンコレクタブルエラーを検出した場合において、汎用ノードを通過するアンコレクタブルデータにポイズニングデータが付加されているか否かを区別する。
【解決手段】制御装置は、誤り訂正符号を含むデータを送受信する複数のノードを管理する制御装置であって、いずれかのノードが訂正符号を含むデータから訂正できない誤りを検出したときにそのノードが送信する信号を受け付ける手段と、第1のノードが送信するデータを受信する第2のノードから信号を受け付けたときに、第2のノードに送信するデータから訂正できない誤りを第1のノードが検出していたか否かを第1のノードの検出記録から判定する手段と、第2のノードに送信するデータから訂正できない誤りを第1のノードが検出していた場合、第2のノードから信号を受け付けたことに起因する処理を停止する手段と、を備える。
【選択図】図2

Description

本発明は、複数ノードを管理する制御装置及びその制御装置と協働するノード装置に関する。
アンコレクタブルデータ(Uncorrectable Data)に付加されたポイズニングデータ(Poisoning Data)を認識できるシステムでは、既存ノードがポイズニングデータを受信した場合、ポイズニングデータを含むデータパケットを後段の既存ノードに通過させる。そのため、不必要なアンコレクタブルエラー(Uncorrectable Error)の検出を行わずに故障
検出率を向上させている。アンコレクタブルデータは、訂正不可能なデータである。また、アンコレクタブルエラーは、訂正不可能なデータ誤りである。ポイズニングとは、訂正不可能なデータをノードが受信した際に、データの最後に付加されるECC(Error Correcting Code)の各ビットを特定のパターン(データ)に変換することをいう。すなわち
、ポイズニングもアンコレクタブルの一種である。
データパケットをシステムの最後まで流すことによって、最終段の既存ノードでのデータ処理を可能としている。図1では、既存ノードAと既存ノードBとの間のバス1でアンコレクタブルエラーが発生している(図1では、UE発生と表記)。この場合、既存ノードAからアンコレクタブルデータを受信する既存ノードBは、アンコレクタブルエラーを検出する(図1では、UE検出と表記)。そして、既存ノードBは、アンコレクタブルデータに付加されるECCに対してポイズニング処理を行い、ポイズニングデータを含むデータパケットを既存ノードCに送信する。
既存ノードCは、アンコレクタブルデータに付加されたポイズニングデータを認識できるため、ポイズニングデータを含むデータパケットを受信した場合であっても、アンコレクタブルエラーを検出しない。そして、既存ノードCは、ポイズニングデータを含むデータパケットを既存ノードDに送信する。このように、既存ノードBでのみアンコレクタブルエラーの検出を行い、既存ノードC及び既存ノードDではアンコレクタブルエラーの検出を不要とすることにより、故障検出率を向上させている。
従来、すべてのノードがアンコレクタブルデータに付加されたポイズニングデータを認識できるシステムが前提となっている場合のポイズニングデータ認識方式はある。
特開2004−242294号公報
アンコレクタブルデータに付加されたポイズニングデータを認識できるシステムでは、システム内の途中経路において、ポイズニングデータを認識した場合、アンコレクタブルエラーの検出を行わない。しかし、アンコレクタブルデータに付加されたポイズニングデータを認識できない汎用ノードをシステムに追加した場合、ポイズニングデータがその汎用ノードを通過するとアンコレクタブルエラーが検出される。
通常、汎用ノードによりアンコレクタブルエラーが検出された場合、汎用ノードの故障あるいはその汎用ノードに接続されるバスの故障と指摘される。汎用ノードを通過するアンコレクタブルデータにポイズニングデータが付加されていても、汎用ノードはアンコレクタブルエラーの検出を行う。すなわち、汎用ノードが検出したアンコレクタブルエラーは、アンコレクタブルデータにポイズニングデータが付加されているか否かの判断が行わ
れていない。
したがって、汎用ノードがアンコレクタブルエラーを検出しても、汎用ノードを通過するアンコレクタブルデータにポイズニングデータが付加されているか否かの区別ができない。
そのため、汎用ノードの故障又はその汎用ノードに接続されるバスの故障であるか、汎用ノード以外の故障であるかの判断ができない。その結果、ポイズニングデータが付加されたアンコレクタブルデータが汎用ノードを通過した場合、被疑部品としてこの汎用ノードは過剰に指摘されて、余計に交換する必要が生じる問題がある。
本発明は、汎用ノードがアンコレクタブルエラーを検出した場合において、汎用ノードを通過するアンコレクタブルデータにポイズニングデータが付加されているか否かを区別するための技術を提供することを目的とする。
本発明は、上記課題を解決するために、以下の手段を採用した。すなわち、本発明による制御装置は、誤り訂正符号を含むデータを送受信する複数のノードを管理する制御装置であって、前記いずれかのノードが前記訂正符号を含むデータから訂正できない誤りを検出したときにそのノードが送信する信号を受け付ける手段と、第1のノードが送信するデータを受信する第2のノードから前記信号を受け付けたときに、前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していたか否かを前記第1のノードの検出記録から判定する手段と、前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していた場合、前記第2のノードから前記信号を受け付けたことに起因する処理を停止する手段と、を備える。この構成により、第1のノードの検出記録により第1のノードが送信するデータから訂正できない誤りを検出したと判定した場合、第2のノードから受け付けた信号は、第1のノードが訂正できない誤りを含むデータを第2のノードに送信したことによるものと認識することができる。その結果、第2のノードから信号を受け付けたことに起因する処理を停止することにより、第1のノードと第2のノードとの間で送受信されるデータに含まれる訂正できない誤りは、第2のノードが原因で発生した訂正できない誤りではないと認識することが可能となる。
また、本発明による制御装置は、前記いずれかのノードが検出した訂正できない誤りの検出を表示する表示装置を制御する手段を更に備え、前記起因する処理は、前記第2のノードから前記信号を受け付けたときに、前記第2のノードが検出した訂正できない誤りの検出を前記表示装置に表示させる処理でもよい。この構成により、訂正できない誤りを含むデータを第1のノードが第2のノードに送信したことによって生ずる第2のノードの訂正できない誤りの検出を表示装置に表示させないことが可能となる。
また、本発明によるノード装置は、自ノードを含む複数ノードを管理する制御装置と協働するノード装置であって、他のノードと誤り訂正符号を含むデータを送受信する手段と、前記他のノードに送信するデータから訂正できない誤りを検出したときにそのデータに含まれる誤り訂正符号をその誤り訂正符号が取り得る値以外の値であるポイズニングデータに変換する手段と、前記送受信する手段が前記ポイズニングデータを含むデータを前記他のノードに送信したときに、前記ポイズニングデータの送信を前記制御装置が参照可能な記録手段に記録する記録制御手段と、を備える。この構成により、記録手段に記録されたポイズニングデータの送信を制御装置が参照することで、ポイズニングデータを含むデータが他のノードに送信されたことを認識することが可能となる。
また、本発明は、コンピュータその他の装置、機械等が上記いずれかの処理を実行する
方法であってもよい。また、本発明は、コンピュータその他の装置、機械等に、以上のいずれかの機能を実現させるプログラムであってもよい。また、本発明は、そのようなプログラムをコンピュータ等が読み取り可能な記録媒体に記録したものでもよい。
本発明によれば、汎用ノードがアンコレクタブルエラーを検出した場合において、汎用ノードを通過するアンコレクタブルデータにポイズニングデータが付加されているか否かを区別することが可能となる。
以下、図面を参照して本発明の実施をするための最良の形態(以下、実施形態という)に係るシステムについて説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成には限定されない。
図2は、本実施形態のシステムの動作説明図である。本実施形態のシステムは、自ノードを通過するデータにポイズニングデータが付加されているか否かを区別できる(アンコレクタブルデータに付加されたポイズニングデータを認識できる)既存ノードE、F及びH、自ノードを通過するデータにポイズニングデータが付加されているか否かを区別できない(アンコレクタブルデータに付加されたポイズニングデータを認識できない)汎用ノードGを備えている。図2は、複数の既存ノードを有するシステムに対し、汎用ノードGを追加した場合を想定している。
また、本実施形態のシステムは、汎用ノードGからの割り込み通知を受け付けるファームウェアハブ2、本実施形態におけるシステム全体を管理する管理部3、アンコレクタブルエラーの検出位置を表示する表示部4及び本実施形態におけるシステムで発生するすべてのアンコレクタブルエラー発生情報が集まる情報集積部5を備えている。
ファームウェア2は、その内部にCPU(Central Processing Unit)やRAM(Random Access Memory)等を有している。そして、ファームウェア2が備えるCPUは、ファ
ームウェアが備えるRAMに記録されているファームウェアプログラムに従って各種の処理を実行する。管理部3は、その内部にCPUやRAM等を有している。そして、管理部3が備えるCPUは、管理部3が備えるRAMに記録されているプログラムに従って各種の処理を実行する。ファームウェアハブ2及び管理部3が本発明における制御装置に相当する。
情報集積部5は、その内部にRAMやROM(Read Only Memory)等の記録装置を有している。情報集積部5が備える記録装置には、アンコレクタブルエラー発生情報が記録される。
表示部4は、例えば、CRT(Cathode Ray Tube)や液晶ディスプレイ、プラズマディスプレイなどによる表示装置や、スピーカなどの音声出力装置、プリンタ装置などの出力装置を備えている。
既存ノードEと既存ノードFとはバス6を介して接続されている。既存ノードFと汎用ノードGとはバス7を介して接続されている。汎用ノードGと汎用ノードHとはバス8を介して接続されている。また、既存ノードE、既存ノードF及び既存ノードHは、その内部に送信部9、受信部10及び変換部11、POISON検出器12及びレジスタ13を備えている。図2では、既存ノードE及び既存ノードHが備える送信部9、受信部10及び変換部11、POISON検出器12及びレジスタ13は省略している。
送信部9は、他のノードから受信したデータを他のノードに送信する。受信部10は、他のノードからデータを受信する。変換部11は、アンコレクタブルデータを受信した場合、アンコレクタブルデータに付加されているECCをポイズニングデータに変換する。POISON検出器12は、送信部9がポイズニングデータを送信したか否かを検出する。レジスタ13は、POISON検出器12の検出結果が記録される。
汎用ノードGは、その内部に不図示の送信部、受信部及び検出器を備えている。汎用ノードGの受信部は、既存ノードFが送信するデータを受信する。汎用ノードGの送信部は、既存ノードHにデータを送信する。汎用ノードGの検出器は、汎用ノードGの送信部がアンコレクタブルデータ又はポイズニングデータを既存ノードHに送信したとき、アンコレクタブルエラーを検出する。すなわち、汎用ノードGの検出器は、アンコレクタブルデータ又はポイズニングデータが汎用ノードGの送信部を通過した場合、アンコレクタブルエラーを検出する。
既存ノードFとファームウェアハブ2とは、バス14を介して接続されている。また、既存ノードE、既存ノードHは、図示しないバスによりファームウェアハブ2とそれぞれ接続されている。
さらに、汎用ノードGとファームウェアハブ2とは、バス15を介して接続されている。ファームウェアハブ2は、管理部3とバス16を介して接続されている。管理部3は、表示部4とバス17を介して接続されている。ファームウェアハブ2と情報集積部5とは、バス18を介して接続されている。
また、既存ノードE、既存ノードF、汎用ノードG及び既存ノードHは、図示しないバスにより情報集積部5とそれぞれ接続されている。そのため、既存ノードE、既存ノードF、汎用ノードG、既存ノードH、バス6、バス7及びバス8で発生するアンコレクタブルエラーの情報は情報集積部5に集積される。
次に、アンコレクタブルエラーが発生した場合における本実施形態のシステム動作を説明する。既存ノードEと既存ノードFとの間のバス6においてアンコレクタブルエラーが発生した場合(図2では、UE発生(1)と表記)、既存ノードEが送信したデータはアンコレクタブルデータとして既存ノードFにより受信される。この場合、既存ノードFは、アンコレクタブルエラーを検出する(図2では、UE検出(1)と表記)。そして、既存ノードFは、受信したアンコレクタブルデータに対してポイズニング処理を行う。
既存ノードEから受信したアンコレクタブルデータにはECC(誤り訂正符号)が付加されている。アンコレクタブルデータに対してポイズニング処理を行う場合、既存ノードFは、アンコレクタブルデータに付加されているECCをポイズニングデータに変換する。ポイズニングデータは、既存ノードE、既存ノードF及び既存ノードHが認識できるユニークなデータである。また、ポイズニングデータは、ECCと重複しない値に変換される。すなわち、ポイズニングデータは、ECCが取り得る値以外の値に変換される。
本実施形態では、アンコレクタブルデータに対してポイズニング処理を行った後は、そのアンコレクタブルデータに対してECCを付加しない。また、本実施形態においては、送受信するデータが128ビットの場合、ECCは16ビットとしている。本実施形態のデータ及びECCの値は例示であり、本発明のデータ及びECCの値は、これらの値に限定されない。
既存ノードFは、バス7を介してポイズニングデータを汎用ノードGに送信する。既存ノードFの送信部9がポイズニングデータを送信した場合、POISON検出器12は、
ポイズニングデータの送信を検出する。すなわち、POISON検出器12は、ポイズニングデータが既存ノードFを通過したことを検出する。そして、POISON検出器12は、レジスタ13にポイズンデータが通過したことを示すビットをセットする。
ここで、図3を参照して、既存ノードFのPOISON検出器12がレジスタ13にビットをセットする動作について説明する。図3に示すように、既存ノードFに対してデータ入力が行われた場合にポイズニングデータ検出動作が行われる。
図3では、既存ノードFのデータ入力側でアンコレクタブルエラーが発生した場合(図3では、UE発生(1)と表記)、既存ノードFは入力されたアンコレクタブルデータに対してポイズニング処理を行う。POISON検出器12及びレジスタ13は、既存ノードFのデータ出力の直前の位置に設けられている。そのため、POISON検出器12は、送信部9によりポイズニングデータが送信されたことを検出する。すなわち、送信部9をポイズニングデータが通過したことをPOISON検出器12は検出する。
送信部9をポイズニングデータが通過したことを検出したPOISON検出器12は、レジスタ13のpoビットに1をセットする。レジスタ13のpoビットは、ポイズニングデータが通過したことを示すビットである。レジスタ13のpoビットは初期値として0がセットされている。
本実施形態のシステムの動作を図2に戻って説明する。図2に示すように、アンコレクタブルデータに対してポイズニング処理を行った既存ノードFは、汎用ノードGにポイズニングデータを送信する。この場合、既存ノードFは、ポイズニングデータを含むデータパケットを汎用ノードGに送信する。
汎用ノードGは、アンコレクタブルデータに付加されたポイズニングデータを認識できない。そのため、汎用ノードGは、ポイズニングデータを既存ノードHに送信する際、アンコレクタブルエラーを検出する(図2では、UE検出(2)と表記)。既存ノードHは、アンコレクタブルデータに付加されたポイズニングデータを認識できる。そのため、既存ノードHは、ポイズニングデータが付加されたアンコレクタブルデータを受信しても、アンコレクタブルエラーの検出は行わない。
汎用ノードGは、アンコレクタブルエラーを検出するとともに、ファームウェアハブ2に対して割り込み通知を行う。割り込み通知を受けたファームウェアハブ2は、既存ノードFのレジスタ13を参照する。
ファームウェアハブ2は、既存ノードFのレジスタ13を参照する場合、アンコレクタブルエラー発生情報を情報集積部5に問い合わせる。情報集積部5には、本システムで発生するすべてのアンコレクタブルエラー発生情報が集められている。すなわち、情報集積部5は、本システムに存在するすべてのノードとバスを介して接続され、本システムに存在するすべてのノードの位置情報が記録されている。そのため、本システムに存在するいずれかのノードでアンコレクタブルエラーが検出された場合、そのアンコレクタブルエラーを検出したノードの位置情報が記録される。
ファームウェアハブ2は、アンコレクタブルエラー発生情報を情報集積部5に問い合わせることにより、アンコレクタブルエラーを検出した既存ノードFの位置情報を取得する。そして、既存ノードFの位置情報を取得したファームウェアハブ2は、既存ノードFのレジスタ13を参照する。
ファームウェアハブ2は、既存ノードFのレジスタ13のpoビットに1がセットされ
ていることを確認した場合、管理部3に対して既存ノードFのレジスタ13のpoビットに1がセットされていることを通知する。管理部3は、ファームウェアハブ2から既存ノードFのレジスタ13のpoビットに1がセットされている通知を受けた場合、汎用ノードGによって検出されたアンコレクタブルエラーを示す情報を表示部4が表示しないように制御する。すなわち、管理部3は、バス17を介して、アンコレクタブルエラーを検出した汎用ノードGの位置を表示しないための制御信号を出力する。
表示部4は、アンコレクタブルエラーを検出した汎用ノードGの位置を表示する。管理部3が表示部4を制御することにより、ポイズニングデータを汎用ノードGが受信したことに起因する汎用ノードGのアンコレクタブルエラーの検出を表示部4に表示させないことが可能となる。
一方、ファームウェアハブ2は、既存ノードFのレジスタ13のpoビットに0がセットされていることを確認した場合、管理部3に対して既存ノードFのレジスタ13のpoビットに0がセットされていることを通知する。管理部3は、ファームウェアハブ2から既存ノードFのレジスタ13のpoビットに0がセットされていることの通知を受けた場合、汎用ノードGによって検出されたアンコレクタブルエラーを示す情報を表示部4が表示するように制御する。すなわち、管理部3は、バス17を介して、アンコレクタブルエラーを検出した汎用ノードGの位置を表示するための制御信号を出力する。
既存ノードFと汎用ノードGとを接続するバス7でアンコレクタブルエラーが発生した場合、汎用ノードGが受信するアンコレクタブルデータは、既存ノードFを通過していない。すなわち、汎用ノードGが受信するアンコレクタブルデータは、既存ノードFによりポイズニング処理が行われていない。そのため、既存ノードFが備えるレジスタ13のpoビットは初期値0の状態である。
本実施形態では、既存ノードEと既存ノードFとを接続するバス6でアンコレクタブルエラーが発生した場合について説明し、また、既存ノードFと汎用ノードGとを接続するバス7でアンコレクタブルエラーが発生した場合について説明した。上記アンコレクタブルエラーの発生箇所は例示であり、例えば、既存ノードFでアンコレクタブルエラーが発生する場合もある。この場合においても、既存ノードEと既存ノードFとを接続するバス6でアンコレクタブルエラーが発生した場合と同様に、既存ノードFの変換部11は、汎用ノードGに送信するアンコレクタブルデータに対してポイズニング処理を行う。その結果、既存ノードFが汎用ノードGに送信するアンコレクタブルデータにはポイズニングデータが付加される。そのため、送信部9によりポイズニングデータが送信される場合、既存ノードFが備えるレジスタ13のpoビットに1がセットされる。
また、例えば、汎用ノードGでアンコレクタブルエラーが発生した場合、汎用ノードGが既存ノードHに対して送信するデータはアンコレクタブルデータとなる。この場合、汎用ノードGが送信するアンコレクタブルデータは、既存ノードFを通過していない。したがって、既存ノードFと汎用ノードGとを接続するバス7でアンコレクタブルエラーが発生した場合と同様に、既存ノードFが備えるレジスタ13のpoビットは初期値である0の状態である。汎用ノードGが既存ノードHにアンコレクタブルデータを送信する場合、汎用ノードGは、アンコレクタブルエラーを検出する。
また、本実施形態では、表示部4を有するシステムの例を示したが、表示部4を有しないシステムであってもよい。例えば、図2で示すバス17を外部インターフェースに変更することにより、システムの外部に表示部4を備えてもよい。外部インターフェースは、インターネット又はイントラネットを用いることが可能である。
図4は、本実施形態のシステム構成例を示した図である。図4を参照して、本実施形態形態におけるアドレスフロー及びデータフローを説明する。
まず、本実施形態におけるアドレスフローについて説明する。CPU21は、ノースブリッジ22に対してリードリクエストを発行する(1)。ノースブリッジ22は、アドレスバス用クロスバ・スイッチ23に対してアドレス情報を送信する(2)。アドレスバス用クロスバ・スイッチ23は、サウスブリッジ24に対してアドレス情報を送信する(3)。サウスブリッジ24は、PCIExpressチップ25に対して、アドレス情報を送信する(4)。PCIExpressチップ25は、PCI−BOX26に対して、アドレス情報を送信する(5)。
次に、本実施形態におけるデータフローについて説明する。アドレス情報を受信したPCI−BOX26は、PCI−BOX26に接続される不図示のPCIデバイスからアドレスに対応するデータを読み出し、PCIExpressチップ25に対して読み出したデータを送信する(6)。PCIExpressチップ25は、サウスブリッジ24に対してデータを送信する(7)。サウスブリッジ24は、データバス用クロスバ・スイッチ27に対してデータを送信する(8)。データバス用クロスバ・スイッチ27は、メモリコントローラ28に対してデータを送信する(9)。メモリコントローラ28は、ノースブリッジ22に対してデータを送信する(10)。ノースブリッジ22は、データをCPU21に対して送信する。CPU21がリードデータを受信することにより、リードリクエストが完了する(11)。
図4で示すCPU21、ノースブリッジ22、サウスブリッジ24、PCIExpressチップ25、PCI−BOX26、データバス用クロスバ・スイッチ27及びメモリコントローラ28は、図2及び図3で示した既存ノードE、既存ノードF、汎用ノードG及び既存ノードHが相当する。また、ノースブリッジ22、サウスブリッジ24、PCIExpressチップ25、データバス用クロスバ・スイッチ27及びメモリコントローラ28は、図2及び図3で示すPOISON検出器12を備えている。これらの構成は例示であり、本実施形態の構成はこれらに限定されるものではない。また、本実施形態のシステムは、LSI(Large Scale Integration)を搭載したLSI基板として実現できる
本実施形態においては、PCIデバイスに格納されているデータにECCが付加されている。また、図4で示すCPU21、ノースブリッジ22、サウスブリッジ24、PCIExpressチップ25、PCI−BOX26、データバス用クロスバ・スイッチ27及びメモリコントローラ28は、ECCを付加する機能を有する。そのため、PCIデバイスに格納されているデータに付加されたECCとは異なる形式のECCを付加することが可能である。
図5は、本実施形態のシステムの動作フロー図である。図5は、図2で示す汎用ノードGが既存ノードFからアンコレクタブルデータを受信した後の動作を説明している。既存ノードFからアンコレクタブルデータを受信した汎用ノードGは、既存ノードHにアンコレクタブルデータを送信する際、アンコレクタブルエラーを検出する(S501)。次に、汎用ノードGは、ファームウェアハブ2に対して割り込み信号を通知する(S502)。そして、ファームウェアハブ2は、既存ノードFのレジスタ13を参照し、レジスタ13のpoビットに1がセットされているかを判定する(S503)。
既存ノードFのレジスタ13のpoビットに1がセットされている場合、ファームウェアハブ2は管理部3に対して、既存ノードFのレジスタ13のpoビットに1がセットされていることを通知する。管理部3は、汎用ノードGが送信するアンコレクタブルデータ
にはポイズニングデータが付加されていることを認識する(S504)。
このように、管理部3が、汎用ノードGが送信するアンコレクタブルデータにポイズニングデータが付加されていることを認識した場合、汎用ノードGのアンコレクタブルエラーの検出は、汎用ノードGの故障及び汎用ノードGに接続されるバス7の故障によるものではないと判断される。すなわち、システム内のいずれかのノード又はバスで故障が発生したことにより、汎用ノードGはポイズニングデータが付加されたアンコレクタブルデータを送信したと判断することができる。
一方、既存ノードFのレジスタ13のpoビットに1がセットされていない場合(既存ノードFのレジスタ13のpoビットに0がセットされている場合)、ファームウェアハブ2は管理部3に対して、既存ノードFのレジスタ13のpoビットに1がセットされていないことを通知する。管理部3は、汎用ノードGが送信するアンコレクタブルデータにはポイズニングデータが付加されていないことを認識する(S505)。
このように、管理部3が、汎用ノードGが送信するアンコレクタブルデータにポイズニングデータが付加されていないことを認識した場合、汎用ノードGのアンコレクタブルエラーの検出は、汎用ノードGの故障又は汎用ノードGに接続されるバス7の故障によるものであると判断される。
本実施形態によれば、ファームウェアハブ2が汎用ノードGから割り込み通知を受けた場合、ファームウェアハブ2は既存ノードFのレジスタ13のpoビットを参照する。ファームウェアハブ2が既存ノードFのレジスタ13のpoビットに1がセットされていることを確認した場合、汎用ノードG及び汎用ノードGに接続されるバス7以外の箇所でアンコレクタブルエラーが発生したと判断することができる。すなわち、汎用ノードG及び汎用ノードGに接続されるバス7に故障は発生していないと判断することができる。
したがって、ポイズニングデータが付加されたアンコレクタブルデータを汎用ノードGが送信する際にアンコレクタブルデータが検出されても、その汎用ノードG及び汎用ノードGに接続されるバス7が被疑部品として過剰に指摘されることを防止できる。その結果、汎用ノードG及び汎用ノードGに接続されるバス7を余計に交換することを防止できる。
〈変形例〉
上記実施形態において、管理部3が表示部4を制御することにより、ポイズニングデータが付加されたアンコレクタブルデータを汎用ノードGが送信したことに起因する汎用ノードGのアンコレクタブルエラーの検出(以下、波及エラーの検出という)を表示部4に表示させない構成について説明した。しかし、汎用ノードGが検出したすべてのアンコレクタブルエラーを表示部4に表示させることも可能である。
この場合、管理部3が表示部4を制御することにより、ポイズニングデータが付加されていないアンコレクタブルデータが汎用ノードGを通過したことによる汎用ノードGのアンコレクタブルエラーの検出(以下、汎用ノード等の故障によるエラーの検出という)と波及エラーの検出とを異なる態様で表示部4に表示するようにしてもよい。すなわち、表示部4に波及エラーの検出を表示し、その波及エラーの検出の表示と区別できる表示により汎用ノード等の故障によるエラーの検出を表示部4に表示するようにしてもよい。
汎用ノード等の故障によるエラーの検出と波及エラーの検出とを異なる態様で表示部4に表示することにより、波及エラーの検出を認識するとともに、その波及エラーの検出を行った汎用ノードG及び汎用ノードGに接続されるバス7が被疑部品として過剰に指摘さ
れることを防止できる。
また、本システムを備えるLSI基板を搭載するパーソナルコンピュータや携帯端末等にIPアドレスを付与しておくことにより、Web管理が可能となる。すなわち、本システムを備えるLSI基板を搭載するパーソナルコンピュータや携帯端末等とサーバとを外部インターフェースを介して接続することにより、ユーザーは、アンコレクタブルエラーの検出をWeb上で認識することができる。サーバによるWeb上の管理は、サーバにWeb管理のソフトウェアをインストールすることにより実現可能である。また、サーバは、一般的なパーソナルコンピュータやワークステーション等により実現可能である。この場合、サーバと表示部4とを接続することにより、サーバが受信するアンコレクタブルエラーの検出情報は、ブラウザにより解読されて表示部4に表示される。
また、上記実施形態における既存ノードE、既存ノードF、汎用ノードG及び既存ノードHをネットワーク通信ができるパーソナルコンピュータや携帯端末等に置き換えることもできる。その場合、バス6、バス7及びバス8をネットワーク通信ができる信号線、インターネット又はイントラネットに置き換えることによりネットワークを用いたシステムとして、アンコレクタブルエラーの検出が可能となる。
〈コンピュータ読み取り可能な記録媒体〉
コンピュータに上記いずれかの機能を実現させるプログラムをコンピュータが読み取り可能な記録媒体に記録することができる。そして、コンピュータに、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。また、コンピュータに固定された記録媒体としてハードディスクやROM(Read Only Memory)等がある。
従来のアンコレクタブルエラー検出システムの動作を説明した図である。 本実施形態のシステムの動作説明図である。 既存ノードFのPOISON検出器12がレジスタ13にビットをセットする動作の説明図である。 本実施形態のシステム構成例を示した図である。 本実施形態のシステムの動作フロー図である。
符号の説明
A 既存ノード
B 既存ノード
C 既存ノード
D 既存ノード
E 既存ノード
F 既存ノード
G 汎用ノード
H 既存ノード
1 バス
2 ファームウェアハブ
3 管理部
4 表示部
5 情報集積部
6 バス
7 バス
8 バス
9 送信部
10 受信部
11 変換部
12 POISON検出器
13 レジスタ
21 CPU
22 ノースブリッジ
23 アドレスバス用クロスバ・スイッチ
24 サウスブリッジ
25 PCIExpressチップ
26 PCI−BOX
27 データバス用クロスバ・スイッチ
28 メモリコントローラ

Claims (7)

  1. 誤り訂正符号を含むデータを送受信する複数のノードを管理する制御装置であって、
    前記いずれかのノードが前記訂正符号を含むデータから訂正できない誤りを検出したときにそのノードが送信する信号を受け付ける手段と、
    第1のノードが送信するデータを受信する第2のノードから前記信号を受け付けたときに、前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していたか否かを前記第1のノードの検出記録から判定する手段と、
    前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していた場合、前記第2のノードから前記信号を受け付けたことに起因する処理を停止する手段と、を備える制御装置。
  2. 前記いずれかのノードが検出した訂正できない誤りの検出を表示する表示装置を制御する手段を更に備え、
    前記起因する処理は、前記第2のノードから前記信号を受け付けたときに、前記第2のノードが検出した訂正できない誤りの検出を前記表示装置に表示させる処理である請求項1に記載の制御装置。
  3. 自ノードを含む複数ノードを管理する制御装置と協働するノード装置であって、
    他のノードと誤り訂正符号を含むデータを送受信する手段と、
    前記他のノードに送信するデータから訂正できない誤りを検出したときにそのデータに含まれる誤り訂正符号をその誤り訂正符号が取り得る値以外の値であるポイズニングデータに変換する手段と、
    前記送受信する手段が前記ポイズニングデータを含むデータを前記他のノードに送信したときに、前記ポイズニングデータの送信を前記制御装置が参照可能な記録手段に記録する記録制御手段と、を備えるノード装置。
  4. 誤り訂正符号を含むデータを送受信する複数のノードを管理する制御装置の制御方法であって、
    前記いずれかのノードが前記訂正符号を含むデータから訂正できない誤りを検出したときにそのノードが送信する信号を受け付けるステップと、
    第1のノードが送信するデータを受信する第2のノードから前記信号を受け付けたときに、前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していたか否かを前記第1のノードの検出記録から判定するステップと、
    前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していた場合、前記第2のノードから前記信号を受け付けたことに起因する処理を停止するステップと、を備える制御装置の制御方法。
  5. 前記いずれかのノードが検出した訂正できない誤りの検出を表示する表示装置を制御するステップを更に備え、
    前記起因する処理は、前記第2のノードから前記信号を受け付けたときに、前記第2のノードが検出した訂正できない誤りの検出を前記表示装置に表示させる処理である請求項4に記載の制御装置の制御方法。
  6. 誤り訂正符号を含むデータを送受信する複数のノードを管理する制御装置の制御プログラムであって、
    コンピュータに、前記いずれかのノードが前記訂正符号を含むデータから訂正できない誤りを検出したときにそのノードが送信する信号を受け付けるステップと、
    第1のノードが送信するデータを受信する第2のノードから前記信号を受け付けたときに、前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出
    していたか否かを前記第1のノードの検出記録から判定するステップと、
    前記第2のノードに送信するデータから訂正できない誤りを前記第1のノードが検出していた場合、前記第2のノードから前記信号を受け付けたことに起因する処理を停止するステップと、を実行させる制御プログラム。
  7. 前記いずれかのノードが検出した訂正できない誤りの検出を表示する表示装置を制御するステップを更に備え、
    前記起因する処理は、前記第2のノードから前記信号を受け付けたときに、前記第2のノードが検出した訂正できない誤りの検出を前記表示装置に表示させる処理である請求項6に記載の制御プログラム。
JP2006223346A 2006-08-18 2006-08-18 ノード装置、制御装置、制御方法及び制御プログラム Expired - Fee Related JP4774347B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006223346A JP4774347B2 (ja) 2006-08-18 2006-08-18 ノード装置、制御装置、制御方法及び制御プログラム
US11/785,759 US8065566B2 (en) 2006-08-18 2007-04-19 Node device, control device, control method and control program
EP20070106700 EP1890414B1 (en) 2006-08-18 2007-04-23 Node device, control device, control method and control program
CN2007101039579A CN101127580B (zh) 2006-08-18 2007-05-17 节点装置、控制装置和控制方法
KR20070047935A KR100918284B1 (ko) 2006-08-18 2007-05-17 노드 장치, 제어 장치, 제어 방법 및 제어 프로그램을기록한 컴퓨터 판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006223346A JP4774347B2 (ja) 2006-08-18 2006-08-18 ノード装置、制御装置、制御方法及び制御プログラム

Publications (2)

Publication Number Publication Date
JP2008048278A true JP2008048278A (ja) 2008-02-28
JP4774347B2 JP4774347B2 (ja) 2011-09-14

Family

ID=38814489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006223346A Expired - Fee Related JP4774347B2 (ja) 2006-08-18 2006-08-18 ノード装置、制御装置、制御方法及び制御プログラム

Country Status (5)

Country Link
US (1) US8065566B2 (ja)
EP (1) EP1890414B1 (ja)
JP (1) JP4774347B2 (ja)
KR (1) KR100918284B1 (ja)
CN (1) CN101127580B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009144799A1 (ja) * 2008-05-29 2011-09-29 富士通株式会社 クロスバスイッチシステム
JP2012508425A (ja) * 2008-12-29 2012-04-05 インテル コーポレイション ポイズン・ビット・エラー検査コード手法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549378B2 (en) 2010-06-24 2013-10-01 International Business Machines Corporation RAIM system using decoding of virtual ECC
US8898511B2 (en) * 2010-06-24 2014-11-25 International Business Machines Corporation Homogeneous recovery in a redundant memory system
US8631271B2 (en) 2010-06-24 2014-01-14 International Business Machines Corporation Heterogeneous recovery in a redundant memory system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0618377B2 (ja) * 1983-09-08 1994-03-09 株式会社日立製作所 伝送系
US4665520A (en) * 1985-02-01 1987-05-12 International Business Machines Corporation Optimistic recovery in a distributed processing system
US5047917A (en) * 1985-07-12 1991-09-10 The California Institute Of Technology Apparatus for intrasystem communications within a binary n-cube including buffer lock bit
US5761413A (en) * 1987-12-22 1998-06-02 Sun Microsystems, Inc. Fault containment system for multiprocessor with shared memory
US5132967A (en) * 1990-10-29 1992-07-21 International Business Machines Corporation Single competitor arbitration scheme for common bus
GB9201126D0 (en) * 1992-01-20 1992-03-11 Madge Networks Ltd Communication system
US5742753A (en) * 1996-06-06 1998-04-21 The Boeing Company Mesh interconnected array in a fault-tolerant computer system
US6519736B1 (en) * 1999-11-30 2003-02-11 International Business Machines Corporation Generating special uncorrectable error codes for failure isolation
US7346825B2 (en) 2001-09-06 2008-03-18 Intel Corporation Error method, system and medium
CN1241117C (zh) * 2002-12-31 2006-02-08 联想(北京)有限公司 机群自适应的控制方法
US7047475B2 (en) 2003-02-04 2006-05-16 Hewlett-Packard Development Company, L.P. CRC encoding scheme for conveying status information
US7353433B2 (en) 2003-12-08 2008-04-01 Intel Corporation Poisoned error signaling for proactive OS recovery
US7296181B2 (en) 2004-04-06 2007-11-13 Hewlett-Packard Development Company, L.P. Lockstep error signaling
CN100450012C (zh) * 2005-07-15 2009-01-07 复旦大学 一种基于移动代理的入侵检测系统和方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009144799A1 (ja) * 2008-05-29 2011-09-29 富士通株式会社 クロスバスイッチシステム
JP5136643B2 (ja) * 2008-05-29 2013-02-06 富士通株式会社 クロスバスイッチシステム
JP2012508425A (ja) * 2008-12-29 2012-04-05 インテル コーポレイション ポイズン・ビット・エラー検査コード手法

Also Published As

Publication number Publication date
KR100918284B1 (ko) 2009-09-18
CN101127580A (zh) 2008-02-20
KR20080016434A (ko) 2008-02-21
US20080046792A1 (en) 2008-02-21
JP4774347B2 (ja) 2011-09-14
EP1890414A3 (en) 2008-02-27
EP1890414A2 (en) 2008-02-20
EP1890414B1 (en) 2013-05-01
US8065566B2 (en) 2011-11-22
CN101127580B (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
US8140922B2 (en) Method for correlating an error message from a PCI express endpoint
JP4774347B2 (ja) ノード装置、制御装置、制御方法及び制御プログラム
US7970958B2 (en) Peripheral interface alert message for downstream device
US9128836B2 (en) Technique for accurately detecting system failure
US10296746B2 (en) Information processing device, filtering system, and filtering method
CN107729209A (zh) 用于服务器的信息监测方法、装置、设备和存储介质
JP6052297B2 (ja) ネットワークのフィルタリング装置、及びフィルタリング方法
JP2009053734A (ja) 数値制御装置に接続されたioユニットの断線と電源断の検出方法
KR100484157B1 (ko) 무선 프린터의 인쇄 오류 알림방법 및 장치
CN102215145A (zh) 一种上报链路连通状态检测结果的方法和装置
JP4050135B2 (ja) 通信デバイス、ホスト装置、及び通信方法
JP5805316B2 (ja) 解析装置、解析方法およびプログラム
JP2006268610A (ja) 障害切り分け方法、障害切り分け機能を有する通信装置及びプログラム
JP2006301784A (ja) プログラマブルロジックコントローラ
JP6439701B2 (ja) 通信装置、パケット監視方法及びコンピュータプログラム
CN112242992B (zh) 计算机可读记录介质、分组分析装置以及分组分析方法
KR101900709B1 (ko) 바이너리 cdma 무선송수신장치의 장애복구방법
JP3910903B2 (ja) 制御パケットの受信方法及び受信装置
JP2010028185A (ja) ネットワークノード、ネットワークシステムおよび輻輳検出方法
JP4260441B2 (ja) システムヘルスチェックプログラム及びシステムヘルスチェック方法
JP2004180096A (ja) 情報処理装置および装置異常検出方法
JPH11338721A (ja) マイクロコンピュータの自動リセット装置
JP2005190215A (ja) 障害メッセージ処理方法及び障害メッセージ処理システム
CN101212364A (zh) 检测主机联机状态的方法与系统
KR20020054388A (ko) 공통데이터버스에서 패리티를 이용한 충돌검출 장치 및 그방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4774347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees