JP2000242520A - マルチノードコンピュータシステムおよび障害発生原因箇所特定方法 - Google Patents

マルチノードコンピュータシステムおよび障害発生原因箇所特定方法

Info

Publication number
JP2000242520A
JP2000242520A JP11042206A JP4220699A JP2000242520A JP 2000242520 A JP2000242520 A JP 2000242520A JP 11042206 A JP11042206 A JP 11042206A JP 4220699 A JP4220699 A JP 4220699A JP 2000242520 A JP2000242520 A JP 2000242520A
Authority
JP
Japan
Prior art keywords
transfer
circuit
node
crossbar switch
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11042206A
Other languages
English (en)
Inventor
Goichi Komatsu
吾一 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP11042206A priority Critical patent/JP2000242520A/ja
Publication of JP2000242520A publication Critical patent/JP2000242520A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 障害箇所を絞り込み、必要最小限の障害発生
装置の切り離しにより最大限の使用可能装置資源を提供
する。 【解決手段】 障害検出回路4A0はクロスバスイッチ
5からの信号を監視してノード間のネットワーク障害を
検出すると、障害情報収集回路490へ通知する。障害
情報収集回路490は障害データの転送元ノード番号を
収集し、テスト実行回路480へ障害発生および転送元
ノード番号を通知する。テスト実行回路480は割り込
み制御回路450へテスト実行要求を送出し、割り込み
制御回路450はCPU20へ割り込み信号を送出す
る。すると、CPU20は転送元ノードから異なる転送
先へテストパタンを転送する指示をオペレーション解読
回路440へ行う。この指示はコマンド送信回路47
0,SWライト回路420を介してクロスバスイッチ5
に伝わる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マルチノードコン
ピュータシステムに関し、特に、ネットワーク障害検出
機能付きのマルチノードコンピュータシステムおよび障
害発生原因箇所特定方法に関する。
【0002】
【従来の技術】一般に、この種のマルチノードコンピュ
ータシステムは、複数の転送ノードをクロスバスイッチ
により接続して、ネットワークを構成することにより成
り立っている。
【0003】ところで、近年、データ処理の高速化の需
要が高まり、転送データ幅、接続ノード数共に増加の一
途を辿っている。これにより、必要とされる回路などの
ハードウエア量が膨大になり、1つの部品にクロスバス
イッチを納めることが困難となってきた。
【0004】そこで、転送データをビット方向に分割す
ることにより1ビット幅のクロスバスイッチをビット数
分だけ用意して、回路規模が小さく、ピン数の少ない部
品を多数使用するビットスライス方式という手法が採用
されるようになった。ビットスライス方式を採るクロス
バスイッチによって複数転送ノードを接続し、ネットワ
ークを構成する公知例として、例えば、特開平8−88
872号公報が知られている。
【0005】この先行技術文献に開示されているマルチ
ノードコンピュータ装置について図9を使って説明す
る。図9において、複数の計算機100〜102とクロ
スバスイッチ回路103〜106との間を送信信号線2
00〜202、受信信号線203〜205で接続して、
クロスバスイッチ網を構成する。クロスバスイッチ回路
103〜106にはモード設定信号線206〜209が
接続され、第1のモードが指示されたとき、クロスバス
イッチ回路は送信側計算機と受信側計算機とを接続する
通信パスを設定する。クロスバスイッチ回路107には
第2のモードが指示され、複数の受信側計算機からの送
信許可信号の論理積をとって送信側計算機に出力するフ
ロー制御を行う。
【0006】受信側計算機101が送信側計算機100
に接続されると、受信側計算機101は受信バッファの
状態などを監視して、送信データの受信が可能であれば
送信許可信号をライン212を介してクロスバスイッチ
回路107に送る。クロスバスイッチ回路107は第2
のモードに設定され、かつ、送信許可通知信号を生成す
る機能を持っているので、送信許可通知信号をライン2
14を介して、送信側計算機100に通知する。送信側
計算機100は送信許可通知信号を受け取ると、受信側
計算機101に対してデータを送信する。そして、デー
タ転送が終了すればスイッチを解除し、次の送信データ
によるスイッチ設定動作に備える。
【0007】受信側計算機101において、送信側計算
機100からの転送データの異常が検出された場合、障
害検出信号がライン212を介してクロスバスイッチ1
07に入力される。障害通知信号はライン214を介し
て送信側計算機100に通知される。
【0008】
【発明が解決しようとする課題】しかしながら、上述し
た従来のマルチノードコンピュータ装置では、送信側転
送ノードから受信側転送ノードまでの間での障害発生原
因箇所を特定する手段が設けられていないため、障害発
生原因箇所が送信側転送ノードからクロスバスイッチの
間なのか、クロスバスイッチから受信側転送ノードの間
なのか、区別できないという問題点がある。この結果、
送信側転送ノードからクロスバスイッチまでのパスと、
クロスバスイッチから受信側転送ノードまでのパスの両
方が使用不能になる。
【0009】本発明の主な目的は、上記問題点を解決
し、障害箇所を絞り込むことによって、必要最小限の障
害発生装置切り離しにより、最大限の使用可能なマルチ
ノードコンピュータシステムおよび障害発生原因箇所特
定方法を提供することにある。
【0010】
【課題を解決するための手段】本発明のマルチノードコ
ンピュータシステムは、ノード間の通信経路を設定する
クロスバスイッチを備えたマルチノードコンピュータシ
ステムにおいて、ノード間でデータ転送中のネットワー
ク障害を検出する手段と、検出されたネットワーク障害
の属性を収集する手段と、収集された属性により、前記
クロスバスイッチに対して、前記データ転送におけるデ
ータ転送元から他のノードへテストパタンを送出するた
めの指示を行う手段とを設けたことを特徴とする。
【0011】さらに、本発明の好ましい実施の形態は、
前記各ノードに、前記クロスバスイッチからの信号を監
視してノード間のネットワーク障害を検する障害検出回
路と、前記検出された障害データの転送元ノード番号ま
たは転送先ノード番号を収集する障害情報収集回路と、
該障害情報収集回路からの指示によりテストモード割り
込み送出を行うテスト実行回路とを設け、前記テストモ
ード割り込みに基づくCPUの指示により、前記クロス
バスイッチに対して、前記転送元ノードから他のノード
へ、または他のノードから転送先ノードへテストパタン
を送出するための指示を行うようにしたことを特徴とす
る。
【0012】また、本発明の障害発生原因箇所特定方法
は、ノード間の通信経路を設定するクロスバスイッチを
備えたマルチノードコンピュータシステムにおけるデー
タ転送中の障害発生原因箇所を特定する障害発生原因箇
所を特定方法において、前記クロスバスイッチからの信
号をデータ転送先で監視してノード間のネットワーク障
害を検出する手順と、前記検出された障害データの転送
先ノード番号または転送先ノード番号を収集する手順
と、テストモード割り込み送出を行う手順と、該テスト
モード割り込みに基づくCPUの指示により、前記クロ
スバスイッチに対して、前記転送元ノードから他のノー
ドへ、または他のノードから前記転送先ノードへテスト
パタンを送出するための指示を行う手順とを有すること
を特徴とする。
【0013】本発明では、転送ノード内のデータ転送装
置におけるネットワーク受信部に、ネットワーク障害を
検出する手段と、障害データの属性を収集する手段と、
テストパタン送出を指示する手段とを設けている。この
テストパタン送出を指示する手段は、障害発生時のデー
タ送出元を変えずにデータ送出を他の転送ノードに変え
て、テストパタン送出を指示する。これにより、テスト
パタン転送が正常に終了すれば、障害発生時の転送先と
クロスバスイッチの間のパスが障害発生源であると特定
することができる。
【0014】
【発明の実施の形態】次に、本発明の実施の形態につき
図面を参照して説明する。
【0015】図1を参照すると、本発明の一実施の形態
としてのマルチノードコンピュータシステムが示されて
いる。本マルチノードコンピュータシステムは、(n+
1)個の転送ノード10〜1nおよびクロスバスイッチ
5から構成される。転送ノード10〜1nは、信号線1
000〜100nおよび信号線1010〜101nを介
してクロスバスイッチ5に接続され、ネットワークが形
成される。全ての転送ノードは同構成であり、例えば、
転送ノード10は、CPU20と主記憶装置30とデー
タ転送装置40から構成される。以下、転送ノード内の
構成および動作について、転送ノード10をとりあげて
説明することとする。
【0016】データ転送装置40は、図2に示すよう
に、メモリリード回路400,メモリライト回路41
0,SWライト回路420,SWリード回路430,オ
ペレーション解読回路440,割り込み制御回路45
0,コマンド受信回路470,テスト実行回路480,
障害情報収集回路490および障害検出回路4A0から
構成され、各回路は、以下のような機能を有する。
【0017】オペレーション解読回路440は、信号線
4050を介してCPU20より送出される各種オペレ
ーションを解読し、信号線4060を介してメモリリー
ド回路400、また、信号線4070を介してメモリラ
イト回路410、また、信号線4080を介してコマン
ド送信回路470へ動作指示を出力する。ここに、オペ
レーションとは、CPU20から発行される命令をい
い、クロスバスイッチ5へ送出するコマンドと区別し
た。
【0018】メモリリード回路400は、オペレーショ
ン回路440から信号線4060を介して送出されるア
ドレスおよびバイトカウントを受信し、信号線4010
を介してデータ転送要求を主記憶装置30へ送出する。
メモリリード回路400は、また、主記憶装置30より
出力されたデータを信号線4000を介して受信し、S
Wライト回路420へ信号線4020を介して転送デー
タを送出する。
【0019】SWライト回路420は、コマンド送信回
路470から信号線4090を介して受けるコマンドや
上述の転送データを信号線1000を介してクロスバス
イッチ5へ送出する。
【0020】SWリード回路430は、信号線1010
を介してクロスバスイッチ5から送出されるコマンドや
転送データを受信し、メモリライト回路410へ信号線
4040を介して転送データを送出する。SWリード回
路430は、また、コマンド受信回路460へ信号線4
150を介してコマンドを送出する。
【0021】メモリライト回路410は、主記憶装置3
0へ信号線4030を介して転送データを送出する。メ
モリライト回路410は、また、割り込み制御回路45
0へ信号線4100を介して転送終了を通知する。メモ
リリード回路400も、割り込み制御回路450へ信号
線4110を介して転送終了を通知する。
【0022】コマンド受信回路460は、メモリリー
ド回路400へ信号線4160を介して主記憶装置30
の特定の領域からテストパタンをクロスバスイッチ5へ
転送するための指示を送出する。コマンド受信回路46
0は、また、割り込み制御回路450へ信号線4120
を介して各種コマンドの種類に応じた通知を行う。割り
込み制御回路450は、CPU20へ信号線4140を
介して割り込み信号を送出する。コマンド受信回路46
0は、さらに、テスト実行回路480へ信号線4170
を介してテスト実行を指示する。
【0023】障害検出回路4A0は、信号線4180を
介して信号線4040および信号線4150を常時監視
し、障害を検出すると、障害情報収集回路490へ信号
線4190を介して障害検出を通知する。
【0024】障害情報収集回路490は、障害発生転送
データの送出元転送ノード番号を信号線4210を介し
て収集し、テスト実行回路480へ信号線4200を介
して障害発生および送出元転送ノード番号を通知する。
【0025】テスト実行回路480は、割り込み制御回
路450へ信号線4130を介してテスト実行要求を送
出する。
【0026】以上は、データ転送装置40を構成する回
路それぞれの機能であるが、主記憶装置30は、転送デ
ータを格納する機能を持つ。CPU20は、転送ノード
10の全体の動作を司る機能を持ち、データ転送装置4
0への指示はオペレーションにより行い、また、データ
転送装置40からの通知は割り込みにより行う。
【0027】クロスバスイッチ5内の経路選択回路50
は、信号線500〜50nおよび信号線510〜51n
を介して転送ノード10〜1nに接続され、ネットワー
クのスイッチング経路選択を行う。すなわち、転送ノー
ド10は信号線500および510、転送ノード11は
信号線501および511、転送ノード12は信号線5
02および512、........転送ノード1nは
信号線50nおよび51nを介して、それぞれ経路選択
回路50と接続されるのである。
【0028】また、クロスバスイッチ5内の経路切り替
え回路51は、信号線520〜52nおよび信号線53
0〜53nを介して転送ノード10〜1nに接続され、
ネットワークのスイッチング経路切り替えを行う。
【0029】図3は、クロスバスイッチ5の詳細ブロッ
ク図である。図3において、転送ノード10〜1nは、
信号線1000〜100nおよび信号線1010〜10
1nを介してクロスバスイッチ5に接続される。経路選
択回路50は、信号線500〜50nおよび510〜5
1nを介して転送ノード10〜1nに接続され、ネット
ワークのスイッチング経路選択を行う。転送データをビ
ット方向にスライスして各ビットについて1つの経路切
り替え回路51を接続し、ビット0は経路切り替え回路
51(0)に、ビット1は経路切り替え回路51(1)
にというように、転送ノード10〜1nの転送経路切り
替えを行う。
【0030】すなわち、転送ノード10からの転送デー
タのビット0は、経路の切り替え回路51(0)によ
り、他の転送ノード11〜1nのいずれにも切り替え可
能であり、転送ノード10からの転送データのビット1
は、経路切り替え回路51(1)により、他の転送ノー
ド11〜1nのいずれにも切り替え可能であり、転送ノ
ード10からの転送データのビットmは、経路切り替え
回路51(m)により、他の転送ノード11〜1nのい
ずれにも切り替え可能である。そして、図3には、図面
の複数化を回避するために、転送ノード10および転送
ノード1nとクロスバスイッチ5との接続のみを図示し
たが、他の転送ノードについても同様に接続されるた
め、上述の切り替え姿態は、転送ノード10以外の他の
転送ノード11〜転送1nについても同様である。
【0031】以下、本実施の形態の動作につき説明す
る。まず、転送ノード10の主記憶装置30のデータの
一部を転送ノード11内の主記憶装置31に書き込む動
作について、図4(ステップS1〜ステップS12)お
よび図5(ステップS13〜ステップS26)のフロー
チャートを参照して説明する。
【0032】まず、図1において、転送ノード10内の
CPU20は、主記憶装置30内の転送したい領域のア
ドレスと、転送量と、主記憶装置31内へ転送したい領
域のアドレスをオペレーション解読回路440へ送出す
る(図4のステップS1)。図2において、オペレーシ
ョン解読回路440は、信号線4060を介しメモリリ
ード回路400へ、主記憶装置30内アドレスと転送量
と転送先主記憶装置31内アドレスとを送出するととも
に、信号線4080を介しコマンド送信回路470へ転
送先ノード番号、すなわち転送ノード11のノード番号
を送出する(ステップS2)。
【0033】メモリリード回路400は、信号線401
0を介して、指定のアドレスから指定の転送量のデータ
を要求する転送リクエストを送出する(ステップS
3)。主記憶装置30は、信号線4000を介してメモ
リリード回路400へ指定のアドレスから指定の転送量
のデータを出力する(ステップS4)。メモリリード回
路400は、主記憶装置30から転送されたデータをバ
ッファリングする(ステップS5)。
【0034】一方、コマンド送信回路470は、信号線
4090,SWライト回路420および信号線1000
を介してクロスバスイッチ5へ転送ノード10から転送
ノード11への転送経路確定のためのロック要求リクエ
ストを送出する(ステップS6,ステップS7)。図3
を参照すると、信号線1000は信号線500と信号線
520を束ねたもので、ロック要求リクエストは信号線
500を介して経路選択回路50へと転送される。
【0035】経路選択回路50は、ネットワーク全体の
パス管理を行っており、各転送ノードからのロック要求
を受け付けることにより転送経路の排他制御を行ってい
る。SWライト回路420から送出されたロック要求リ
クエストは、クロスバスイッチ5内の経路選択回路50
へ転送される。経路選択回路50は、転送ノード10か
ら転送ノード11へのパスが未使用であることを確認
し、転送ノード10から転送ノー11へのパス使用中の
ビットをセットする。経路選択回路50は、信号線51
0および信号線1010を介して転送ノード10内のS
Wリード回路430へ、転送ノード10から転送ノード
11への転送経路獲得の通知であるロック要求リプライ
を送出する(ステップS8)。
【0036】SWリード回路430は、信号線4150
を介してコマンド受信回路460へロック要求リプライ
を送出する(ステップS9)。コマンド受信回路460
は、信号線4160を介してメモリリード回路400
へ、転送ノード10から転送ノード11への転送経路獲
得したことを通知する(ステップS10)。
【0037】メモリリード回路400は、バッファリン
グしていた転送データにヘッダを付加する。このヘッダ
には転送先ノード番号,転送先主記憶内アドレスおよび
データ転送量が記載されている。メモリリード回路40
0は、信号線4020を介してSWライト回路420へ
転送データを送出する(ステップS11)。
【0038】SWライト回路420は、信号線1000
および信号線520を介してクロスバスイッチ5内の経
路切り替え回路51へ転送データを送出する(ステップ
S12)。ここまでの動作は図4のフローチャートに記
載されている。
【0039】経路切り替え回路51は、転送データのヘ
ッダに含まれる転送先ノード(この場合は転送ノード1
1)番号に従い、転送ノード10からの信号線520と
転送ノード11への信号線531を結合する。転送デー
タは、信号線531および信号線1011を介して転送
ノード11内のSWリード回路431へ送出される(図
5のステップS13)。
【0040】SWリード回路431は、信号線4041
を介してメモリライト回路411へ転送データのヘッダ
および転送データを送出する(ステップS14)。メモ
リライト回路411は、また、転送データのヘッダに記
載されている主記憶装置31内のアドレスおよび転送デ
ータ量に従い、主記憶装置31へ信号線4031を介し
て転送データを書き込む。メモリライト回路411は、
また、コマンド送信回路471へ信号線4221を介し
て転送終了コマンド送出を指示する(ステップS1
5)。
【0041】コマンド送信回路471は、信号線409
1を介してSWライト回路421へ転送終了コマンドを
送出する(ステップS16)。この転送終了コマンド
は、信号線1001および信号線521を介してクロス
バスイッチ5内経路切り替え回路51へ送出される(ス
テップS17)。
【0042】経路切り替え回路51は、転送終了コマン
ドに記載されている転送先ノード(この場合は転送ノー
ド10)番号に従い、転送ノード11からの信号線52
1と転送ノード10への信号線530を接続する。転送
終了コマンドは、信号線530および信号線1010を
介して転送ノード10内のSWリード回路430へ転送
される(ステップS18)。SWリード回路430は、
信号線4150を介してコマンド受信回路460へ転送
終了コマンドを送出する(ステップS19)。
【0043】コマンド受信回路460は、信号線423
0を介してコマンド送信回路470へ、転送ノード10
から転送ノード11への転送経路解除をするためのロッ
ク解除リクエストを送出する(ステップS20)。コマ
ンド送信回路470は、SWライト回路420へ信号線
4090を介してロック解除リクエストを送出する(ス
テップS21)。SWライト回路420は、信号線10
00および信号線500を介して経路選択回路50へロ
ック解除リクエストを送出する(ステップS22)。
【0044】経路選択回路50は、転送ノード10から
転送ノード11への転送経路使用中ビットをリセットす
る。経路選択回路50は、信号線510および信号線1
010を介してSWリード回路430へロック解除リプ
ライを送出する(ステップS23)。
【0045】SWリード回路430は、信号線4150
を介してコマンド受信回路460へロック解除リプライ
を送出する(ステップS24)。コマンド受信回路46
0は、信号線4120を介して割り込み制御回路450
へ転送終了割り込み送出を指示する(ステップS2
5)。割り込み制御回路450は、信号線4140を介
して転送終了割り込みを送出する(ステップS26)。
【0046】次に、転送ノード10から転送ノード11
へのデータ転送中、転送ノード11にてデータの異常が
検出された場合の障害箇所絞り込み動作の説明を図6
(ステップS31〜ステップS46),図7(ステップ
S47〜ステップS54)および図8(ステップS55
〜ステップS66)を参照して説明する。
【0047】図2において、転送ノード11内の障害検
出回路4A1は、信号線4181を介してSWリード回
路431の出力データを監視する(図6のステップS3
1)。障害検出回路4A1にて障害が検出されたならば
(ステップS32)、障害情報収集回路491へ障害発
生を通知する(ステップS33)。障害情報収集回路4
91は、信号線4211を介して転送元ノード番号を抽
出し、テスト実行回路481へ信号線4201を介しテ
スト開始を指示する(ステップS34)。
【0048】テスト実行回路481は、信号線4131
を介して割り込み制御回路451へテストモード割り込
み送出を指示する(ステップS35)。割り込み制御回
路451は、信号線4140を介してCPU20へテス
トモード割り込みを送出する(ステップS36)。CP
U20は、転送ノード10から転送ノード12へテスト
パタン送出するよう、信号線4051を介してオペレー
ション解読回路441へ指示する(ステップS37)。
オペレーション解読回路441は、信号線4081を介
してコマンド送信回路471へテストパタン転送を指示
する(ステップS38)。
【0049】コマンド送信回路471は、信号線409
1を介してSWライト回路421へテストコマンドを送
出する(ステップS39)。SWライト回路421は、
信号線1001および信号線521を介して経路切り替
え回路51へテストコマンドを送出する(ステップS4
0)。
【0050】経路切り替え回路51は、信号線530お
よび信号線1010を介してSWリード回路430へテ
ストコマンドを送出する(ステップS41)。SWリー
ド回路430は、信号線4150を介してコマンド受信
回路460へテストコマンドを送出する(ステップS4
2)。
【0051】コマンド受信回路460は、信号線412
0を介して割り込み制御回路450へテストパタン転送
割り込み送出を指示する(ステップS43)。割り込み
制御回路450は、信号線4140を介してCPU20
へテストパタン転送割り込みを送出する(ステップS4
4)。
【0052】CPU20は、信号線4050を介してオ
ペレーション解読回路440へ、主記憶装置30から主
記憶装置32へテストパタンを転送することを指示する
8ステップS45)。オペレーション解読回路440
は、信号線4060を介してメモリリード回路400へ
主記憶アドレスおよびデータ転送量を通知する。同時
に、信号線4080を介してコマンド送信回路470へ
転送先ノード(この場合は転送ノード12)番号を通知
する(ステップS46)。
【0053】メモリリード回路400は、信号線401
0を介して主記憶装置30へ、指定のアドレスから指定
の転送量のデータを要求するリクエストを送出する(図
7のステップS47)。主記憶装置30は、信号線40
00を介してメモリリード回路400へデータを送出す
る(ステップS48)。メモリリード回路400は、転
送データをバッファリングする(ステップS49)。
【0054】一方、コマンド送信回路470は、信号線
4090を介してSWライト回路420へ、転送ノード
10から転送ノード12への転送経路獲得するためのロ
ック要求リクエストを送出する(ステップS50)。
【0055】SWライト回路420は、信号線1000
および信号線500を介して経路選択回路50へロック
要求リクエストを送出する(ステップS51)。経路選
択回路50は、転送ノード10から転送ノード12への
パスの空きを確認後、転送ノード10から転送ノード1
2の転送経路使用中のビットをセットする。続いて、信
号線510および信号線1010を介してSWリード回
路430へロック要求リプライを送出する(ステップS
52)。SWリード回路430は、信号線4150を介
してコマンド受信回路460へロック要求リプライを送
出する(ステップS53)。
【0056】コマンド受信回路460は、信号線416
0を介してメモリリード回路400へロック取得を通知
する(ステップS54)。
【0057】メモリリード回路400は、転送データに
ヘッダを付加し、転送データと共に、信号線4020を
介してSWライト回路420へ送出する(ステップS5
5)。SWライト回路420は、信号線1000および
信号線520を介して経路切り替え回路51へ転送デー
タを送出する(ステップS56)。
【0058】経路切り替え回路51は、転送データのヘ
ッダに記載されている転送先(転送ノード12)に従
い、信号線520と信号線532を接続する。転送デー
タは、信号線532および信号線1012を介してSW
リード回路432へ転送される(図8のステップS5
7)。SWリード回路432は、信号線4042を介し
てメモリライト回路412へ転送データを送出する(ス
テップS58)。
【0059】メモリライト回路412は、転送データの
ヘッダに記載されているアドレスおよび転送量に従い、
信号線4032を介して主記憶装置32へ転送データを
書き込む。メモリライト回路412は、また、信号線4
222を介してコマンド送信回路472へテストパタン
転送終了コマンドを送出する(ステップS59)。コマ
ンド送信回路472は、信号線4092を介してSWラ
イト回路422へテストパタン転送終了コマンドを送出
する(ステップS60)。SWライト回路422は、信
号線1002および信号線522を介し経路切り替え回
路51へテストパタン転送終了コマンドを送出する(ス
テップS61)。
【0060】経路切り替え回路51は、テストパタン転
送終了コマンドに記載されている送出先転送ノード(転
送ノード10)へ経路を切り替え、SWリード回路43
0へテストパタン転送終了コマンドを送出する(ステッ
プS62)。SWリード回路430は、信号線4150
を介してコマンド受信回路460へテストパタン転送終
了コマンドを送出する(ステップS63)。
【0061】コマンド受信回路460は、信号線412
0を介して割り込み制御回路450へテストパタン終了
割り込み送出を指示する(ステップS64)。割り込み
制御回路450は、信号線4140を介してCUP20
へテストパタン転送終了割り込みを送出する(ステップ
S65)。CPU20は、テストパタン転送が正常終了
したので、転送ノード11とクロスバスイッチ5の間の
パス使用不能と判断する(ステップS66)。
【0062】なお、ステップ66において、テスとパタ
ン転送が正常終了しないときには、転送ノード10とク
ロスバスイッチ5の間に障害発生原因があると判断す
る。
【0063】以上の説明では、クロスバスイッチ5で
は、経路切り替え回路51(0)〜51(m)のそれぞ
れに1ビットを割り当てるビットスライス方式について
説明したが、これは転送ノードの数が多い場合にも1つ
のLSIで経路切り替え回路51(0)〜51(m)を
実現できるようにしたためである。したがって、転送ノ
ードの数が少なければ経路切り替え回路51(0)〜5
1(m)のそれぞれに1バイトを割り付けて、バイトス
ライス方式としてもよい。
【0064】以上のように、この実施の形態では、転送
ノード10から転送ノード11へのデータ転送中、転送
ノード11にて障害を検出したので、転送元はノード1
0のままで転送先を転送ノード12に変更してテストパ
タンを転送することにより障害が発生しなければ転送ノ
ード11とクロスバスイッチ5の間に、また、障害発生
すれば転送ノード10とクロスバスイッチ5の間に、そ
れぞれ障害発生原因があると判断する。但し、2重障害
は規定しておらず、転送ノード12とクロスバスイッチ
5の間には障害は無いものとしている。
【0065】次に、本発明の第2の実施の形態として、
転送ノード10から転送ノード11へのデータ転送中、
転送ノード11にて障害を検出したならば、転送先はノ
ード11のままで、転送元をノード12に変更してテス
トパタンを転送することにより障害発生しなければ転送
ノード10とクロスバスイッチ5の間に、また、障害発
生すれば転送ノード11とクロスバスイッチ5の間に障
害発生原因があると判断することもできる。
【0066】
【発明の効果】以上説明したように、本願発明によれ
ば、マルチノードコンピュータシステム上のノード間転
送において、ネットワーク上の障害が発生した場合、障
害箇所を特定することにより縮退するネットワークを最
小限にすることを実現したマルチノードコンピュータシ
ステムが提供される。
【0067】なお、本発明が上記各実施例に限定され
ず、本発明の技術思想の範囲内において、各実施例は適
宜変更され得ることは明らかである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態のブロック図
【図2】図1におけるデータ転送装置40の詳細ブロッ
ク図
【図3】図1におけるクロスバスイッチ5の詳細ブロッ
ク図
【図4】ノード間転送動作の前段を示すフローチャート
【図5】ノード間転送動作の後段を示すフローチャート
【図6】障害箇所絞り込み動作の前段を示すフローチャ
ート
【図7】障害箇所絞り込み動作の中段を示すフローチャ
ート
【図8】障害箇所絞り込み動作の後段を示すフローチャ
ート
【図9】従来のマルチノードコンピュータ装置例を示す
【符号の説明】
5 クロスバスイッチ 10,11,1n 転送ノード 20,21,22 CPU 30,31,32 主記憶装置 40,41,42 データ転送装置 50 経路選択装置 51 経路切り替え回路 51(0) 経路切り替え回路 51(1) 経路切り替え回路 51(2) 経路切り替え回路 51(m) 経路切り替え回路 400 メモリリード回路 410 メモリライト回路 420 SWライト回路 430 SWリード回路 440 オペレーション解読回路 450 割り込み制御回路 460 コマンド受信回路 470 コマンド送信回路 480 テスト実行回路 490 障害情報収集回路 4A0 障害検出回路

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ノード間の通信経路を設定するクロスバ
    スイッチを備えたマルチノードコンピュータシステムに
    おいて、 ノード間でデータ転送中のネットワーク障害を検出する
    手段と、 検出されたネットワーク障害の属性を収集する手段と、 収集された属性により、前記クロスバスイッチに対し
    て、前記データ転送におけるデータ転送元から他のノー
    ドへテストパタンを送出するための指示を行う手段とを
    設けたことを特徴とするマルチノードコンピュータシス
    テム。
  2. 【請求項2】 前記各ノードに、 前記クロスバスイッチからの信号を監視してノード間の
    ネットワーク障害を検出する障害検出回路と、 前記検出された障害データの転送元ノード番号を収集す
    る障害情報収集回路と、 該障害情報収集回路からの指示によりテストモード割り
    込み送出を行うテスト実行回路とを設け、 前記テストモード割り込みに基づくCPUの指示によ
    り、前記クロスバスイッチに対して、前記転送元ノード
    から他のノードへテストパタンを送出するための指示を
    行うようにしたことを特徴とする請求項1記載のマルチ
    ノードコンピュータシステム。
  3. 【請求項3】 前記クロスバスイッチは、複数バイトで
    構成されたデータをバイトスライスまたはビットスライ
    スし、各バイト単位またはビット単位にノード間の通信
    経路を設定することを特徴とする請求項1または請求項
    2記載のマルチコンピュータシステム。
  4. 【請求項4】 ノード間の通信経路を設定するクロスバ
    スイッチを備えたマルチノードコンピュータシステムに
    おけるデータ転送中の障害発生原因箇所を特定する障害
    発生原因箇所特定方法において、 前記クロスバスイッチからの信号をデータ転送先で監視
    してノード間のネットワーク障害を検出する手順と、 前記検出された障害データの転送先ノード番号または転
    送先ノード番号を収集する手順と、 テストモード割り込み送出を行う手順と、 該テストモード割り込みに基づくCPUの指示により、
    前記クロスバスイッチに対して、前記転送元ノードから
    他のノードへ、または他のノードから前記転送先ノード
    へテストパタンを送出するための指示を行う手順とを有
    することを特徴とする障害発生原因箇所特定方法。
  5. 【請求項5】 ノード間の通信経路を設定するクロスバ
    スイッチを備えたマルチノードコンピュータシステムに
    おけるデータ転送中の障害発生原因箇所を特定する障害
    発生原因箇所特定方法において、 前記クロスバスイッチからの信号をデータ転送先で監視
    してノード間のネットワーク障害を検出する手順と、 前記検出された障害データの転送先ノード番号または転
    送先ノード番号を収集する手順と、 テストモード割り込み送出を行う手順と、 該テストモード割り込みに基づくCPUの指示により、
    前記クロスバスイッチに対して、前記転送元ノードから
    他のノードへ、または他のノードから前記転送先ノード
    へテストパタンを送出するための指示を行う手順とを有
    することを特徴とする障害発生原因箇所特定方法。
  6. 【請求項6】 ノード間の通信経路を設定するクロスバ
    スイッチを備えたマルチノードコンピュータシステムに
    おけるデータ転送中の障害発生原因箇所特定する方法で
    あって、 前記クロスバスイッチからの信号をデータ転送先で監視
    してノード間のネットワーク障害を検出する手順と、 前記検出された障害データの転送先ノード番号または転
    送先ノード番号を収集する手順と、 テストモード割り込み送出を行う手順と、 該テストモード割り込みに基づくCPUの指示により、
    前記クロスバスイッチに対して、前記転送元ノードから
    他のノードへ、または他のノードから前記転送先ノード
    へテストパタンを送出するための指示を行う手順とを有
    する方法をコンピュータに実行させるためのプログラム
    を記録したコンピュータ読み込み可能な記録媒体。
JP11042206A 1999-02-19 1999-02-19 マルチノードコンピュータシステムおよび障害発生原因箇所特定方法 Pending JP2000242520A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11042206A JP2000242520A (ja) 1999-02-19 1999-02-19 マルチノードコンピュータシステムおよび障害発生原因箇所特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11042206A JP2000242520A (ja) 1999-02-19 1999-02-19 マルチノードコンピュータシステムおよび障害発生原因箇所特定方法

Publications (1)

Publication Number Publication Date
JP2000242520A true JP2000242520A (ja) 2000-09-08

Family

ID=12629551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11042206A Pending JP2000242520A (ja) 1999-02-19 1999-02-19 マルチノードコンピュータシステムおよび障害発生原因箇所特定方法

Country Status (1)

Country Link
JP (1) JP2000242520A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158917A (ja) * 2006-12-26 2008-07-10 Nec Corp 並列計算機システム
CN101206569B (zh) * 2006-12-20 2010-06-09 国际商业机器公司 用于动态识别促使服务劣化的组件的方法和系统
JP2010186365A (ja) * 2009-02-13 2010-08-26 Nec Corp マルチノードコンピュータシステム及びノード間接続装置
JP2011124897A (ja) * 2009-12-14 2011-06-23 Fujitsu Ltd ネットワーク管理装置および異常箇所特定方法
JP2016105262A (ja) * 2014-12-01 2016-06-09 富士通株式会社 情報処理装置、診断方法及び診断プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206569B (zh) * 2006-12-20 2010-06-09 国际商业机器公司 用于动态识别促使服务劣化的组件的方法和系统
JP2008158917A (ja) * 2006-12-26 2008-07-10 Nec Corp 並列計算機システム
JP2010186365A (ja) * 2009-02-13 2010-08-26 Nec Corp マルチノードコンピュータシステム及びノード間接続装置
JP2011124897A (ja) * 2009-12-14 2011-06-23 Fujitsu Ltd ネットワーク管理装置および異常箇所特定方法
JP2016105262A (ja) * 2014-12-01 2016-06-09 富士通株式会社 情報処理装置、診断方法及び診断プログラム
US9690647B2 (en) 2014-12-01 2017-06-27 Fujitsu Limited Information processing apparatus and method of diagnosis

Similar Documents

Publication Publication Date Title
US6055568A (en) Method and apparatus for dynamically configuring a decentralized network of computers
US7200108B2 (en) Method and apparatus for recovery from faults in a loop network
US6411599B1 (en) Fault tolerant switching architecture
US6738344B1 (en) Link extenders with link alive propagation
JP3649580B2 (ja) 分散コンピュータ・システムのエラーを報告するシステム
EP2243255B1 (en) Method and system for dynamic link failover management
JP2002368769A (ja) ループ型ネットワークおよびその運用方法
US7660239B2 (en) Network data re-routing
US6556953B2 (en) Automatic testing of redundant switching element and automatic switchover
CN100391190C (zh) 经由冗余网络控制的多重网络故障容错管理的方法和装置
JPH10326260A (ja) 分散コンピュータ・システムのハードウェア要素によりエラーを報告する方法
JP2000242520A (ja) マルチノードコンピュータシステムおよび障害発生原因箇所特定方法
JP3542980B2 (ja) ネットワークシステム、ネットワークエンティティ監視方法、記録媒体
JP2002504793A (ja) 仮想接続の保護切替
US5442631A (en) Communication control device
US7336657B2 (en) Inter-nodal data transfer system and data transfer apparatus
JP3800516B2 (ja) 外部記憶装置、制御方法、外部記憶装置システム、プログラム、及び記録媒体
JP4064032B2 (ja) 通信システム
KR100552673B1 (ko) 아이투씨 연결 구성을 이용한 라우팅 시스템 관리장치 및그 방법
JP2001308893A (ja) ループ型トポロジネットワークにおけるルーティング情報動的再構成方式
KR100303344B1 (ko) 시스템이중화를위한프로토콜및시스템절체우선순위관리방법
WO2021024346A1 (ja) 伝送装置及び伝送方法
JP3722429B2 (ja) 外部記憶装置、制御装置、外部記憶システム、制御方法、プログラム、及び記録媒体
JPS6294036A (ja) 自動網再構成制御装置
JPH09284324A (ja) ループ状バスを用いたatm通信システムおよびその切替方法