JP4623001B2 - 障害切り分けシステム、障害切り分け方法、およびプログラム - Google Patents

障害切り分けシステム、障害切り分け方法、およびプログラム Download PDF

Info

Publication number
JP4623001B2
JP4623001B2 JP2006341566A JP2006341566A JP4623001B2 JP 4623001 B2 JP4623001 B2 JP 4623001B2 JP 2006341566 A JP2006341566 A JP 2006341566A JP 2006341566 A JP2006341566 A JP 2006341566A JP 4623001 B2 JP4623001 B2 JP 4623001B2
Authority
JP
Japan
Prior art keywords
processor
diagnostic
node
diagnosis
communication failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006341566A
Other languages
English (en)
Other versions
JP2008152643A (ja
Inventor
隆 米村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006341566A priority Critical patent/JP4623001B2/ja
Publication of JP2008152643A publication Critical patent/JP2008152643A/ja
Application granted granted Critical
Publication of JP4623001B2 publication Critical patent/JP4623001B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

本発明は障害切り分けシステム、障害切り分け方法、およびプログラムに関し、特に、ネットワーク障害時の障害原因部位切り分け分解能を向上させることのできる障害切り分けシステム、障害切り分け方法、およびプログラムに関する。
近年、科学技術計算の分野において計算性能の向上の要求が高まっている。そこでスーパーコンピュータなどの高速計算機は複数のCPUと共有メモリで構成される高性能のノードを複数接続し、マルチノード構成をとることでシステム全体としての計算性能の向上を実現している。ノード間の接続は、ノード間クロスバスイッチ(以下、IXSと記載する。)を介して行われる。
このようなマルチノードコンピュータシステムにおいて、各ノードの管理・制御は、ノード内に備えられた診断プロセッサ(以下、DGPと記載する。)とLANなどのネットワークを介して接続されたサービスプロセッサ(以下、SVPと記載する。)とにより行なわれることが多い。このようなシステムにおいてネットワークに障害が発生した場合は、障害原因部位の特定が困難であるため、通信不通の状態を短時間で解消することができなかった。
このような課題を解決するための従来の技術としては、通信制御部を複数備え、これらの通信制御部により実行した試験通信の結果を解析して、障害原因部位を特定するネットワークシステム障害検出処理回路がある(例えば特許文献1参照。)。
特開平8−265320
しかしながら、この従来のネットワークシステム障害検出処理回路では、通信制御部を複数有する冗長なHW構成を取らなければならないという問題があった。さらに、障害原因部位として装置あるいは大雑把なネットワークケーブルの範囲を切りわける程度の分解能しかないという問題があった。例えば、障害原因部位が、装置の内部であるのか、ネットワークへの出口部分であるのか、装置からネットワーク幹線またはHUB(イーサネット(登録商標)/IEEE 802.3では、イーサネット(登録商標) マルチポート リピータを意味し、「コンセントレータ」とも呼ばれるもの。 )等へのケーブルであるのかを判断できないという問題があった。
本発明の目的は、上述した従来のネットワークシステム障害検出処理回路に比べて冗長なHW構成を必要とせずに、また障害原因部位分解能を向上させた障害切り分けシステム、障害切り分け方法、およびプログラムを提供することにある。
本発明の第1の障害切り分けシステムは、複数のノードとSVPとがネットワークで接続され、前記SVPが、当該SVPとの間で通信障害が発生した前記ノードである通信障害ノードを検出する手段と、当該SVPとの間で正常に通信している前記ノードである正常ノードに対して前記通信障害ノードの診断要求を送信する手段とを有し、前記正常ノードが、前記通信障害ノードにノード間通信により診断処理の実行要求を送信する手段と、診断結果を前記SVPへ送信する手段とを有し、前記通信障害ノードが、前記診断処理を実行する手段と、前記診断結果をノード間通信により前記正常ノードへ送信する手段とを有することを特徴とする。
本発明の第2の障害切り分けシステムは、複数のノードのDGPとSVPとがネットワークで接続され、前記SVPが、当該SVPとの間で通信障害が発生した前記DGPを検出する手段と、当該SVPとの間で正常に通信している前記DGPに対して前記通信障害が発生したDGPの診断要求を送信する手段とを有し、前記正常に通信しているDGPが、前記通信障害が発生したDGPにノード間通信により診断処理の実行要求を送信する手段と、診断結果を前記SVPへ送信する手段とを有し、前記通信障害が発生したDGPが、前記診断処理を実行する手段と、前記診断結果をノード間通信により前記正常に通信しているDGPへ送信する手段とを有することを特徴とする。
本発明の第3の障害切り分けシステムは、前記第2の障害切り分けシステムに於いて、前記診断処理が、前記DGPの初期化処理を含むことを特徴とする。
本発明の第1の障害切り分け方法は、SVPが、当該SVPとの間で通信障害が発生したノードである通信障害ノードを検出するとともに、当該SVPとの間で正常に通信しているノードである正常ノードに対して前記通信障害ノードの診断要求を送信し、前記正常ノードが、前記通信障害ノードにノード間通信により診断処理の実行要求を送信し、前記通信障害ノードが、前記診断処理を実行するとともに、診断結果をノード間通信により前記正常ノードへ送信し、前記正常ノードが、前記診断結果を前記SVPへ送信することを特徴とする。
本発明の第2の障害切り分け方法は、SVPが、当該SVPとの間で通信障害が発生したDGPを検出するとともに、当該SVPとの間で正常に通信しているDGPに対して前記通信障害が発生したDGPの診断要求を送信し、前記正常に通信しているDGPが、前記通信障害が発生したDGPにノード間通信により診断処理の実行要求を送信し、前記通信障害が発生したDGPが、前記診断処理を実行するとともに、診断結果をノード間通信により前記正常に通信しているDGPへ送信し、前記正常に通信しているDGPが、前記診断結果を前記SVPへ送信することを特徴とする。
本発明の第3の障害切り分け方法は、前記第2の障害切り分け方法に於いて、前記診断処理が、前記DGPの初期化処理を含むことを特徴とする。
本発明の第1のプログラムは、SVPに、当該SVPとの間で通信障害が発生したノードである通信障害ノードを検出する処理と、当該SVPとの間で正常に通信しているノードである正常ノードに対して前記通信障害ノードに診断処理を行わせるための要求をノード間通信により送信させて当該通信障害ノードからその診断結果を受信させる処理と、前記正常ノードから当該通信障害ノードの診断結果を受信する処理とを行わせることを特徴とする。
本発明の第2のプログラムは、ノードに、SVPから当該SVPが当該SVPとの間で通信障害が発生したことを検出したノードである通信障害ノードに診断処理を行わせるための要求を受信する処理と、前記通信障害ノードにノード間通信により診断処理の実行要求を送信し、当該通信障害ノードからその診断結果を受信し、前記診断結果を前記SVPへ送信する処理と、前記診断処理の実行要求を受信した場合に、前記診断処理を実行し、前記診断結果を前記診断処理の実行要求を送信したノードへノード間通信により送信する処理とを行わせることを特徴とする。
本発明の第1の効果は、SVPとDGP間のネットワークにおいて通信障害を検出した場合に、冗長なHW構成を取らなくても、障害の原因となっている部位を高い分解能で切り分けることができることである。
その理由はSVPが、SVPとDGP間の通信障害の検出時に、SVPから通信可能なDGPに対して障害DGPの診断を要求し、要求されたDGPを有するノードがノード間通信により障害が発生したDGPを有するノードにDGPの診断を要求し、障害が発生したDGPを有するノードにおいてDGPの診断を実行し、この診断の結果を通信可能なDGPを経由してSVPに報告するようにしたからである。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態は、IXS410を介して、ノードA100、ノードB200、ノードC300が相互に接続され、ノード間通信を可能としている。また、ノードA100、ノードB200、ノードC300は、SVP420とLAN430を介して接続され、ノードサービスプロセッサ間通信を可能としている。SVP420は、ノードA100、ノードB200、ノードC300を制御するために、ノードA100、ノードB200、ノードC300のDGP110とノードサービスプロセッサ間通信を行なう。また、SVP420は公衆回線440を介してリモート保守センタ450に接続されている。以下、単に「ノード」と記述している場合は、「ノードA100、ノードB200、または、ノードC300のいずれかのノード」のことである。
SVP420は、通信障害検出手段421と、診断要求手段422と、通報手段423とを有している。
通信障害検出手段421は、LAN430を介したSVP420とDGP110間のノードサービスプロセッサ間通信の障害を検出するための手段である。例えば、定期的にSVP420からDGP110にコマンドを発行し、DGP110からの応答を確認することによって通信の死活を判断する、パトロール処理などが例として挙げられる。
診断要求手段422は、通信障害検出手段421によって障害が検出されたDGP110の診断を、通信可能な他のDGP110に要求するための手段である。通報手段423はSVP420が検出した事象や情報をリモート保守センタ450に公衆回線440を介して通報するための手段である。
ノードA100、ノードB200、ノードC300は、それぞれ、ノード間通信手段104、診断手段103を有し、DGP110に診断起動手段112を有している。
ノード間通信手段104はノードA100、ノードB200、ノードC300がIXS410を介して通信するための手段である。
診断手段103はノードA100、ノードB200、ノードC300が自身の有するDGP110を診断するための手段であり、例えば診断プログラムや診断回路などが相当する。
診断起動手段112は、DGP110が自分の所属するノード以外のノード(以下、他ノードと記述する。)に対して、前記他ノードのDGP110の診断を要求するための手段である。
次に、本発明の第1の実施の形態において通信障害が発生した場合の障害切り分け動作について、図2を用いて、以下に説明する。図2では、ノードA100のDGP110とSVP420が通信不可となった場合の例を示している。
SVP420は通信障害検出手段421により、通信障害のあるDGP110を検出する。図2の例ではノードA100のDGP110に対する、SVP420からの通信が障害となったことを検出する(図2の手順601)。
通信障害を検出したSVP420は診断要求手段422により、通信が可能なDGP110の1つ(例えば、通信可能なDGP110を有するノードの内、最若番ノードのDGP110)に対して、通信障害のあったノードのDGP110の診断を要求する。図2の例ではノードB200のDGP110にノードA100のDGP110の診断を要求する(図2の手順602)。
SVP420から診断の要求を受けたDGP110は診断起動手段112及び、ノード間通信手段104により、診断対象のノードにIXS410を介したノード間通信を行い、診断対象のノードに診断手段103を実行させ、前記診断対象のノードのDGP110の診断を行なわせる。図2の例ではSVP420から要求を受けたノードB200のDGP110は診断起動手段112及びノード間通信手段104を用いて、ノードA100へIXS410を介したノード間通信を行い、ノードA100に診断手段103を実行させ、DGP110の診断を行なわせる(図2の手順603)。
DGP110の診断を行なったノードは診断結果をノード間通信により、要求元のノードのDGP110に返却し、当該DGP110は診断結果をSVP420に返却する。図2の例ではノードA100はDGP110の診断結果をノードB200のDGP110に返却。そして、ノードB200のDGP110はSVP420に診断結果を返却する(図2の手順604)。
SVP420は本診断結果を通報手段423により、公衆回線440を介して、リモート保守センタ450に通報する(図2の手順605)。
図3に本発明の第1の実施の形態の実施例における構成図を示す。
なお、以下の説明では、図1を参照して説明済みであって、実施例として特に説明の必要のない構成の説明は省略する。
図3を参照すると、ノードA100、ノードB200、ノードC300はそれぞれ、CPU120、IOP140、MMU150、Disk装置170、DGP110を備えている。
CPU120は、MMU150、IOP140と接続され、IOP140には、さらに、Disk装置170及びIXS410が接続されている。CPU120はDisk装置170に格納されている図示しない各種プログラム(OSやアプリケーションプログラム)をMMU150にロードして実行し、ユーザの業務プログラムを運用する。
更にCPU120はノード間通信手段104を有し、IXS410を介してノードA100、ノードB200、ノードC300のCPU120間で高速な通信を行なうことができる。
DGP110はCPU120と診断バス160により接続されており、相互に通信を行なうことが可能である。Disk装置170には診断プログラム173が格納されており、本診断プログラム173をCPU120で実行することで、ノードA100、ノードB200、ノードC300のCPU120はDGP110を、診断バス160を介して診断することができる。また、DGP110は診断起動手段112を有しているがこれについては後述する。
SVP420はパトロール手段424、診断要求手段422、通報手段423を備えている。パトロール手段424はノードA100、ノードB200、ノードC300のDGP110に対し、パトロール用のコマンドを送信し、各DGP110からの応答の有無により、SVP420とDGP110間の通信の正常性を確認する手段である。
診断要求手段422は前記パトロール手段424でSVP420とDGP110間の通信の異常を検出した場合に、異常を検出したノードのDGP110の診断を、SVP420と通信が可能なノードのDGP110に要求する手段である。
DGP110に備えている診断起動手段112はSVP420からの前記診断要求を受けた際に、パトロール手段424によって通信の異常が検出されたDGP110を有するノードに前記ノードのDGP110の診断を要求するための手段であり、対象DGP110の診断は、要求を受けたDGP110から診断バス160を介してのCPU120への割り込み、診断対象のDGP110が存在するノードのCPU120へのノード間通信、前記CPU120での診断プログラムの実行により実現される。本動作の詳細については後述する。
なお、図3のパトロール手段424、診断プログラム173は本発明を実施するための最良の形態の機能ブロック図である図1の通信障害検出手段421、診断手段103を具体化した一例であり、これに限定されるものではない。
次に、図3、およびフローチャート図4を用いて本発明の第1の実施の形態の実施例の動作について詳細に説明する。
SVP420はシステム運用中にパトロール手段424により、定期的にノードA100、ノードB200、ノードC300のDGP110にパトロールコマンドを送信し、その応答をチェックすることにより、各DGP110の正常性の確認を行なう。本パトロールにより、あるノードのDGP110とSVP420の通信が不通になっていることを検出した場合(図4のステップ511)に、原因がDGP110の装置障害によるものなのか、SVP420と当該DGP110間の通信路障害によるものなのかを自動的に切り分ける動作について以下で説明する。
なお、説明のため、前記通信が不通となったノードを”通信不可ノード”と呼ぶこととする。
通信不可ノードを検出したSVP420はDGP110との通信が可能なノードを1つ選択し、診断要求手段422によって、通信不可ノードのDGP110の診断を、選択した通信可能なノードのDGP110に要求する(図4のステップ512)。以下では、説明のため、要求先の通信可能なノードを”診断要求先ノード”と呼ぶこととする。
診断要求先ノードの選択方法に関しては、通信可能な最若番ノードを選択する方法や、通信の正常性が確認された時刻が現時刻に一番近いノードを採用するといった方法が考えられるが、本発明では特に限定しない。
診断要求先ノードのDGP110はSVP420から通信不可ノードのDGP110の診断要求を受信する(図4のステップ521)。要求を受けた診断要求先ノードのDGP110は自身が備えている診断起動手段112により、診断バス160を介して、自ノードのCPU120に割り込みをかけ、通信不可ノードのDGP110の診断を要求する(図4のステップ522)。
診断要求先ノードのCPU120はDGP110からの割り込みを受信すると(図4のステップ531)、自身が備えるノード間通信手段104により、IXS410を介したノード間通信で通信不可ノードのCPU120に通信を行い、通信不可ノードのCPU120に通信不可ノードのDGP110の診断を要求する(図4のステップ531)。
ノード間通信により要求を受信(図4のステップ541)した通信不可ノードのCPU120は自ノードのDisk装置170に格納されている診断プログラム173をMMU150にロードして実行し、診断バス160を介してSVP420との通信が不可状態のDGP110の診断を実行する(図4のステップ542)。
通信不可ノードのCPU120は診断プログラム173が完了したら診断結果を、IXS410を介したノード間通信で診断要求先ノードのCPU120に送信する(図4のステップ543)。
診断要求先ノードのCPU120はIXS410を介したノード間通信により、通信不可ノードのDGP110の診断結果を受信し(図4のステップ533)、前記診断結果をDGP110に診断バス160を介して送信する(図4のステップ534)。
診断要求先ノードのDGP110は診断バス160を介してCPU120から通信不可ノードのDGP110の診断結果を受信し(図4のステップ523)、SVP420にLAN430を介して前記診断結果を送信する(図4のステップ524)。
SVP420は診断要求先ノードのDGP110より通信不可ノードのDGP110の診断結果を受信し(図4のステップ513)、通信不可ノードのノード番号と通信不可ノードのDGP110の診断結果を通報手段423により、公衆回線440を介してリモート保守センタ450へ通報する(図4のステップ514)。
以上により、本発明の第1の実施の形態の動作が完了する。
本発明の第1の実施の形態によれば、SVP420との通信が不通であるDGP110を検出した場合に、リモート保守センタ450の保守員は不通となったDGP110の所属するノードのノード番号と前記DGP110の診断結果を知ることができる。ここで、DGP110の診断結果が異常を示していれば、DGP110の装置障害であると判断できる。DGP110の診断結果が正常を示していれば、通信障害の原因はSVP420と通信不可ノードのDGP110間の通信路の障害であると判断できる。そして、SVP420は、診断要求先ノードのDGP110とは通信ができているわけであるから、障害部位は通信不可ノードからネットワーク幹線またはHUB等までへのケーブルであると判断できるという効果がある。
その理由は、SVP420が、LAN430において通信障害となったDGP110を検出し、LAN430を経由してLAN430における通信が正常であるDGP110を有する前記ノードに対して前記通信障害となったDGP110の診断を要求し、前記通信が正常であるDGP110を有する前記ノードが、LAN430を経由して、前記SVP420から前記通信障害となったDGP110の前記診断の要求を受け取り、ノード間通信機能を経由して、前記通信障害となったDGP110を有する前記ノードに対して前記通信障害となったDGP110の前記診断の実行を要求し、前記通信障害となったDGP110を有する前記ノードが、前記ノード間通信機能を経由して前記通信が正常であるDGP110を有する前記ノードから前記診断の実行の要求を受け取り、前記診断を実行し、前記ノード間通信機能を経由して前記通信が正常であるDGP110を有する前記ノードに対して前記診断の結果を報告し、前記通信が正常であるDGP110を有する前記ノードが、前記ノード間通信機能を経由して前記通信障害となったDGP110を有する前記ノードから前記通信障害となったDGP110の前記診断の結果を受け取り、LAN430を経由して前記SVP420に対して前記診断の結果を報告し、前記SVP420が、LAN430を経由して前記通信が正常であるDGP110を有する前記ノードから前記通信障害となったDGP110の前記診断の結果を受け取るようにしたためである。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。本発明の第2の実施の形態の構成は第1の実施の形態と同様である。
図5は、本発明の第2の実施の形態の実施例の動作を示すフローチャートである。本発明の第2の実施の形態の実施例の動作においては、DGP110の診断結果が正常を示しているか異常を示しているかを判断するステップとDGP初期化を実行するステップが追加されている点で第1の実施の形態の実施例の動作と異なる。以下では、第1の実施の形態の実施例の動作と異なる動作が追加となったCPU120(通信不可ノード)の動作部分について説明する。
図5を参照すると、ノード間通信により要求を受信(図5のステップ541)した通信不可ノードのCPU120は、自ノードのDisk装置170に格納されている診断プログラム173をMMU150にロードして実行し、診断バス160を介してSVP420との通信が不可状態のDGP110の診断を実行する(図5のステップ542)。診断した結果が正常を示している場合は、ステップ543へ進み、診断した結果が異常を示している場合はステップ545へ進む(図5のステップ544)。通信不可ノードのCPU120は、DGP110の初期化を実行する(図5のステップ545)。
通信不可ノードのCPU120は、診断プログラム173が完了またはDGP初期化が完了したら、DGP110の初期化を実行したか否かを含めた診断結果を、IXS410を介したノード間通信で診断要求先ノードのCPU120に送信する(図4のステップ543)。
以上により、本発明の第2の実施の形態の動作が完了する。
本発明の第2の実施の形態によれば、DGP110の装置障害であった場合、自動的にDGP初期化が実行され、障害の原因が間欠的な問題によるものである場合は、自動的に復旧できるという効果がある。その理由は、DGP110を診断した結果が異常を示している場合は、自動的にDGP110の初期化処理を実行するようにしたためである。
マルチノードシステムにおいて、SVPからあるノードのDGPへの通信不能の障害を検出した場合に、保守員が現地に赴くことなく自動的に障害原因部位の切り分けを実行することで、保守の迅速化による復旧時間の短縮、人為的な保守ミスによる二次障害の発生の可能性を低減させることが可能なシステムを提供する。
本発明の第1および第2の実施の形態の機能ブロック図である。 本発明の第1および第2の実施の形態の動作例の概念図である。 本発明の第1および第2の実施の形態の実施例の構成である。 本発明の第1の実施の形態の実施例の動作フローチャートである。 本発明の第2の実施の形態の実施例の動作フローチャートである。
符号の説明
100 ノードA
103 診断手段
104 ノード間通信手段
110 DGP
112 診断起動手段
120 CPU
140 IOP
150 MMU
160 診断バス
170 Disk装置
173 診断プログラム
200 ノードB
300 ノードC
410 IXS
420 SVP
421 通信障害検出手段
422 診断要求手段
423 通報手段
424 パトロール手段
430 LAN
440 公衆回線
450 リモート保守センタ

Claims (7)

  1. 複数のノードとサービスプロセッサとを備え、
    前記複数のノードのそれぞれの診断プロセッサと前記サービスプロセッサとがネットワークで接続され、前記複数のノードのそれぞれのプロセッサがノード間スイッチにより相互に接続され、
    前記サービスプロセッサが、当該サービスプロセッサとの間で通信障害が発生した前記診断プロセッサを検出する手段と、当該サービスプロセッサとの間で正常に通信している前記診断プロセッサに対して前記通信障害が発生した前記診断プロセッサの診断要求を送信する手段とを有し、
    前記複数のノードのそれぞれが、
    前記サービスプロセッサから前記通信障害が発生した前記診断プロセッサの前記診断要求を受信した場合、自ノードの前記プロセッサに、当該通信障害が発生した前記診断プロセッサの診断処理の実行を指示し、自ノードの前記プロセッサから通知された診断結果を前記サービスプロセッサへ送信する前記診断プロセッサと、
    自ノードの前記診断プロセッサから前記通信障害が発生した前記診断プロセッサの診断処理の実行を指示された場合、前記ノード間スイッチを介して前記診断プロセッサの診断処理の実行要求を当該通信障害が発生した前記診断プロセッサを有するノードの前記プロセッサへ送信し、当該プロセッサから受信した前記診断結果を自ノードの前記診断プロセッサへ通知し、他ノードの前記プロセッサから前記診断プロセッサの診断処理の実行要求を受信した場合、自ノードの前記診断プロセッサの診断処理を実行し、当該診断処理の前記診断結果を前記ノード間スイッチを介して当該他ノードの前記プロセッサへ送信する前記プロセッサと
    を有する
    ことを特徴とする障害切り分けシステム。
  2. 前記プロセッサは、自ノードの前記診断プロセッサの診断処理の結果が異常であった場合、当該診断プロセッサを初期化することを特徴とする請求項記載の障害切り分けシステム。
  3. サービスプロセッサが、ネットワークにより接続された複数のノードのそれぞれの診断プロセッサのうち、当該サービスプロセッサとの間で通信障害が発生した前記診断プロセッサを検出し、当該サービスプロセッサとの間で正常に通信している前記診断プロセッサに対して前記通信障害が発生した前記診断プロセッサの診断要求を送信し、
    前記診断プロセッサが、前記サービスプロセッサから前記通信障害が発生した前記診断プロセッサの前記診断要求を受信した場合、自ノードのプロセッサに、当該通信障害が発生した前記診断プロセッサの診断処理の実行を指示し、
    前記プロセッサが、自ノードの前記診断プロセッサから前記通信障害が発生した前記診断プロセッサの診断処理の実行を指示された場合、前記複数のノードのそれぞれの前記プロセッサを相互に接続するノード間スイッチを介して前記診断プロセッサの診断処理の実行要求を当該通信障害が発生した前記診断プロセッサを有するノードの前記プロセッサへ送信し、
    前記プロセッサが、他ノードの前記プロセッサから前記診断プロセッサの診断処理の実行要求を受信した場合、自ノードの前記診断プロセッサの診断処理を実行し、当該診断処理の診断結果を前記ノード間スイッチを介して当該他ノードの前記プロセッサへ送信し、
    前記プロセッサが、他ノードの前記プロセッサから受信した前記診断結果を自ノードの前記診断プロセッサへ通知し、
    前記診断プロセッサが、自ノードの前記プロセッサから通知された前記診断結果を前記サービスプロセッサへ送信する
    ことを特徴とする障害切り分け方法。
  4. さらに、前記プロセッサが、自ノードの前記診断プロセッサの診断処理の結果が異常であった場合、当該診断プロセッサを初期化することを特徴とする請求項記載の障害切り分け方法。
  5. サービスプロセッサに、
    ネットワークにより接続された複数のノードのそれぞれの診断プロセッサのうち、当該サービスプロセッサとの間で通信障害が発生した前記診断プロセッサを検出
    当該サービスプロセッサとの間で正常に通信している前記診断プロセッサに対して前記通信障害が発生した前記診断プロセッサの診断要求を送信し、
    前記正常に通信している前記診断プロセッサを有するノードのプロセッサが、前記複数のノードのそれぞれの前記プロセッサを相互に接続するノード間スイッチを介して前記診断プロセッサの診断処理の実行要求を送信することにより、前記通信障害が発生した前記診断プロセッサを有するノードの前記プロセッサより取得した、当該通信障害が発生した前記診断プロセッサの診断結果を、当該正常に通信している前記診断プロセッサから受信する
    処理行わせることを特徴とするプログラム。
  6. ノードに、
    診断プロセッサが、ネットワークにより接続されたサービスプロセッサから当該サービスプロセッサとの間で通信障害が発生した他ノードの前記診断プロセッサの診断要求を受信した場合、自ノードのプロセッサに、当該通信障害が発生した前記診断プロセッサの診断処理の実行を指示し、
    前記プロセッサが、自ノードの前記診断プロセッサから前記通信障害が発生した前記診断プロセッサの診断処理の実行を指示された場合、複数のノードのそれぞれの前記プロセッサを相互に接続するノード間スイッチを介して前記診断プロセッサの診断処理の実行要求を当該通信障害が発生した前記診断プロセッサを有するノードの前記プロセッサへ送信し、
    前記プロセッサが、他ノードの前記プロセッサから前記診断プロセッサの診断処理の実行要求を受信した場合、自ノードの前記診断プロセッサの診断処理を実行し、当該診断処理の診断結果を前記ノード間スイッチを介して当該他ノードの前記プロセッサへ送信し、
    前記プロセッサが、他ノードの前記プロセッサから受信した前記診断結果を自ノードの前記診断プロセッサへ通知し、
    前記診断プロセッサが、自ノードの前記プロセッサから通知された前記診断結果を前記サービスプロセッサへ送信する
    処理行わせることを特徴とするプログラム。
  7. さらに、前記プロセッサが、自ノードの前記診断プロセッサの診断処理の結果が異常であった場合、当該診断プロセッサを初期化することを特徴とする請求項6記載のプログラム。
JP2006341566A 2006-12-19 2006-12-19 障害切り分けシステム、障害切り分け方法、およびプログラム Expired - Fee Related JP4623001B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006341566A JP4623001B2 (ja) 2006-12-19 2006-12-19 障害切り分けシステム、障害切り分け方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006341566A JP4623001B2 (ja) 2006-12-19 2006-12-19 障害切り分けシステム、障害切り分け方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2008152643A JP2008152643A (ja) 2008-07-03
JP4623001B2 true JP4623001B2 (ja) 2011-02-02

Family

ID=39654733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006341566A Expired - Fee Related JP4623001B2 (ja) 2006-12-19 2006-12-19 障害切り分けシステム、障害切り分け方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP4623001B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4569670B2 (ja) 2008-06-11 2010-10-27 ソニー株式会社 画像処理装置、画像処理方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154999A (ja) * 1999-11-30 2001-06-08 Hitachi Ltd 並列計算機システム及びその立上げ処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311748A (ja) * 1994-05-17 1995-11-28 Mitsubishi Electric Corp 分散データベースシステムの障害回復方式
JPH08227406A (ja) * 1995-02-22 1996-09-03 Hitachi Ltd 並列計算機
JP3049301B2 (ja) * 1997-02-24 2000-06-05 郵政省通信総合研究所長 コネクション型通信網での障害回復方式および輻輳回復方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154999A (ja) * 1999-11-30 2001-06-08 Hitachi Ltd 並列計算機システム及びその立上げ処理方法

Also Published As

Publication number Publication date
JP2008152643A (ja) 2008-07-03

Similar Documents

Publication Publication Date Title
US8006129B2 (en) Detecting and preventing the split-brain condition in redundant processing units
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
US20140095925A1 (en) Client for controlling automatic failover from a primary to a standby server
US9043636B2 (en) Method of fencing in a cluster system
EP2518627B1 (en) Partial fault processing method in computer system
JP2004094774A (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
US9210059B2 (en) Cluster system
JP2004171370A (ja) 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
WO2013190694A1 (ja) 計算機の復旧方法、計算機システム及び記憶媒体
JP4623001B2 (ja) 障害切り分けシステム、障害切り分け方法、およびプログラム
WO2019049433A1 (ja) クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
EP3764234B1 (en) Method and enable apparatus for starting physical device
JP5003313B2 (ja) ログ収集システム、ログ収集方法、および、ノード
JP6134720B2 (ja) 接続方法
JP2009252006A (ja) コンピュータシステムにおけるログ管理システム、ログ管理方法
JP5548160B2 (ja) 障害監視用ノード装置および障害検知回復方法
JP3248485B2 (ja) クラスタシステム、クラスタシステムにおける監視方式およびその方法
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
JP7328907B2 (ja) 制御システム、制御方法
JP2007249389A (ja) クラスタシステムおよびその障害検出方法
JP2015106226A (ja) 二重化システム
JP2007172172A (ja) ファイバーチャネルスイッチおよびそれを用いたコンピュータシステム
JPH0934852A (ja) クラスタシステム
JP2014110620A (ja) ネットワーク運用システム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080616

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090513

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees