JPH10333932A - 障害処理方法およびマルチノードシステム - Google Patents

障害処理方法およびマルチノードシステム

Info

Publication number
JPH10333932A
JPH10333932A JP9138498A JP13849897A JPH10333932A JP H10333932 A JPH10333932 A JP H10333932A JP 9138498 A JP9138498 A JP 9138498A JP 13849897 A JP13849897 A JP 13849897A JP H10333932 A JPH10333932 A JP H10333932A
Authority
JP
Japan
Prior art keywords
node
inter
fault
diagnostic
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9138498A
Other languages
English (en)
Inventor
Takahito Yamamoto
孝人 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP9138498A priority Critical patent/JPH10333932A/ja
Publication of JPH10333932A publication Critical patent/JPH10333932A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】各ノード及びノード間接続網に設けられ内部の
診断制御を行う診断プロセッサを活用し、マルチノード
システムに適応した包括的な障害処理を行う。 【解決手段】ノード1,2,3がノード間接続網5に接
続されたマルチノードシステムにおいて、診断プロセッ
サ10,20,30及び50はそれぞれ送受信手段1
5,25,35及び55を備え、ノード間のデータ転送
経路とは別の診断専用バス6を介して診断プロセッサ間
で通信が行えるよう構成されている。これにより、例え
ばノード間通信処理部14に障害が発生しノード1を切
り離すとき、診断専用バス6で通信することにより、疑
似障害を発生させてポート部51に検出させ障害発生を
通知する処理を不要とし、切り離したノード1をシング
ルシステムとして運用し、障害の復旧時に再びノード1
をマルチノードシステムに組み込む等の障害処理を容易
に実現でき、資源の有効活用を図ることが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は障害処理方法および
マルチノードシステムに関し、特に複数のノードが専用
ネットワークで接続されたマルチノードシステムにおい
て、ノードを構成する装置と専用ネットワークとがそれ
ぞれ装置内に限定された障害処理および構成制御を行う
診断プロセッサを備えている場合の障害処理方法、及
び、当該障害処理方法を適用したマルチノードシステム
に関する。
【0002】
【従来の技術】複数のユニットから構成されている近年
の演算処理装置においては、例えば、特開平2―144
731号公報に示されているように、装置内に診断プロ
セッサを備えており、ユニット故障等の装置内障害に対
応して、障害原因を探求するための関連ユニットを含む
障害情報の収集と、故障ユニットの予備ユニットへの変
更や、故障ユニットを切り離して運用を継続するための
装置構成の変更などの障害処理(構成制御)とが行われ
ている。
【0003】このような診断プロセッサを備えた演算処
理装置をノードとし、複数のノード間を専用のノード間
接続網(クロスバ交換装置等)により接続したマルチノ
ードシステムでは、システムを構成する複数のノード,
ノード間接続網および両者のインタフェース部を含めて
包括的な障害処理および構成制御を実施することが望ま
しい。しかしながら、各ノード及びノード間接続網に備
えられている個々の診断プロセッサで、それぞれ当該装
置内の障害処理と構成制御とを行っているのみでは、障
害の発生場所および状態に応じてインタフェースの閉塞
を行う等のマルチノードシステムとしての構成制御を実
施することができないため、障害状況によっては連鎖的
に障害が波及してシステムダウンを引き起こしかねず、
次のような方法でマルチノードシステムに対応するため
の障害処理および構成制御を行っている。
【0004】例えば、図6に破線で示すように、ノード
1のメモリ11とノード2のメモリ21との間でデータ
転送を行っているとき、ノード1のノード間通信処理部
14又はノード間接続網5内のノード1と接続されるポ
ート部(図示省略)にインタフェースを閉塞する必要の
ある障害が発生した場合を考える。ノード1及びノード
間接続網5ではそれぞれ装置内に限った障害処理方法が
確立されており、相手装置の障害処理に干渉することは
できないため、障害が発生した装置側で相手装置が検出
できる疑似障害(パリティエラー等)を発生させて相手
方に伝播させることにより障害の発生を通知している。
伝播された装置側では、この疑似障害を検出することに
より、従来の装置内に閉じた障害処理によりインタフェ
ースの閉塞を行い、インタフェースの両端でノードの切
り離しを確実に実現し、障害の波及を防止している。
【0005】
【発明が解決しようとする課題】しかし、上述した従来
の障害処理方法では、各ノードとノード間接続網とのイ
ンタフェース部で障害が発生した場合には、互いに疑似
障害を発生させて相手方に伝播させることにより通知し
ているため、余計な障害を発生させて処理するという無
駄なことを行う結果となっている。
【0006】又、インタフェースが閉塞された場合に
は、切り離されたノードとノード間接続網との間では情
報を伝達する方法が無くなるため、原因となった障害が
回復した場合は、人的な介入によりインタフェースの閉
塞を解除し、切り離されたノードをマルチノードシステ
ムに復旧させる必要があった。
【0007】本発明の目的は、各ノード及びノード間接
続網の診断プロセッサ間で各自の状態を相互に通知し合
うことにより、マルチノードシステムに対応した包括的
でスムーズな障害処理を行うことができる障害処理方法
を提供し、併せてこの障害処理方法を用いたマルチノー
ドシステムを提供することである。
【0008】
【課題を解決するための手段】請求項1の障害処理方法
は、演算プロセッサ群,メモリ,ノード間通信処理部を
含む装置構成ユニットの障害処理を行う診断プロセッサ
を有する演算処理装置をノードとし、複数のノード間を
網構成ユニットの障害処理を行う診断プロセッサを有す
るノード間接続網で接続したマルチノードシステムの障
害処理方法において、前記各ノード及びノード間接続網
の各診断プロセッサ間を接続する診断専用バスを設け、
前記診断専用バスを介して前記各診断プロセッサ間で各
ノード及びノード間接続網の障害状態および構成変化を
相互に通信し合うことにより、マルチノードシステムに
適応した障害処理および構成制御を行うことを特徴とし
ている。
【0009】請求項2の障害処理方法は、請求項1記載
の障害処理方法において、前記マルチノードシステムに
適応した障害処理および構成制御として、ノード間接続
網と任意のノードとのインタフェース部においてデータ
転送に支障がある障害が発生した場合に、障害が発生し
たインタフェースの閉塞を行って該当ノードをノード間
接続網から切り離し、切り離されたノードはシングルシ
ステムとしての運用を継続し、障害が復旧した場合に当
該インタフェースの閉塞を解除して切り離したノードを
ノード間接続網に再接続し、マルチノード構成に組み込
んでマルチノードシステムとしての運用に復帰する制御
を行うことを特徴としている。
【0010】請求項3のマルチノードシステムは、演算
プロセッサ群,メモリ,ノード間通信処理部を含む装置
構成ユニットの障害処理を行う診断プロセッサを有する
演算処理装置をノードとし、複数のノード間を網構成ユ
ニットの障害処理を行う診断プロセッサを有するノード
間接続網で接続したマルチノードシステムにおいて、前
記ノード間接続網および各ノードの診断プロセッサ間を
接続する診断専用バスと、前記各診断プロセッサに対応
して設けられ前記診断専用バスを介して相互に通信を行
うための送受信手段とを備え、各診断プロセッサ間で各
ノード及びノード間接続網の障害状態を通信し合うこと
によって、マルチノードシステムに適応した障害処理お
よび構成制御を行うように構成されている。
【0011】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0012】図1は本発明の障害処理方法を適用したマ
ルチノードシステムの一実施形態のシステム構成を示す
ブロック図である。
【0013】本実施形態のマルチノードシステムは、図
1に示すように、ノード1,2及び3で表した3台の演
算処理装置がノード間接続網5により接続された3ノー
ドのマルチノードシステムであり、ノード1,2,3及
びノード間接続網5には、それぞれ各構成ユニットの診
断および障害処理を行う診断プロセッサ10,20,3
0及び50と、診断プロセッサ間の通信を行うための送
受信手段15,25,35及び55とを備え、ノード間
データ転送経路とは別の診断専用バス6を介して診断プ
ロセッサ間の通信が行えるように構成されている。
【0014】各ノードを構成する演算処理装置は、ノー
ド1について図示したように、メモリ11,ノード内接
続ネットワーク12,演算プロセッサ群13(複数の演
算プロセッサ)及び他ノードとの間のデータ転送を制御
するノード間通信処理部14から成り、診断プロセッサ
10がこれら各構成ユニットの故障診断および障害処理
を行っている。図1では省略してあるが、ノード2及び
ノード3もノード1と同様な構成ユニットを備えてお
り、診断プロセッサ20及び30が各構成ユニットの故
障診断および障害処理を行っている。
【0015】ノード間接続網5は、各ノード1,2及び
3と接続するポート部51,52及び53と、ノード間
接続ネットワーク制御部54と、これらの各構成ユニッ
トの故障診断および障害処理を行う診断プロセッサ50
と、プロセッサ間通信を処理する送受信手段55とから
構成されている。
【0016】以上のように、マルチノードシステムを構
成する各ノード1,2,3及ノード間接続網5内に設け
られた診断プロセッサ10,20,30及び50は、そ
れぞれ他の診断プロセッサとの通信を制御するための送
受信手段15,25,35及び55が接続され、診断専
用バス6を介して相互間で自由に通信できるように構成
されている。これにより、ノード間に跨がったマルチノ
ードシステムとしての包括的な障害処理を実現すること
が可能となる。
【0017】すなわち、ノード間データ転送の実行中に
任意のノードとノード間接続網とのインタフェース部で
障害が発生した場合でも、障害を検出した側が疑似障害
を発生させて相手側に伝播させ、相手側に余計な障害検
出を実施させる無駄を無くすことが可能となる。又、障
害が発生してインタフェースが閉塞されノードが切り離
された場合でも、切り離されたノードの診断プロセッサ
は診断専用バスを介して他のすべての診断プロセッサと
通信できるため、原因が排除され障害が復旧したときに
は、いずれの側からでもインタフェースの閉塞を解除す
るよう連絡することができる。更に、各ノードの診断プ
ロセッサは他のノード及びノード間接続網の診断プロセ
ッサからの報告により、その状況に応じて自ノード内の
演算プロセッサの処理をより適切に行わせることが可能
となる。
【0018】又、診断専用バスを介して各診断プロセッ
サ間でマルチノードシステムにおける障害状況を把握す
ることができるため、ノード側の障害発生時に障害状況
に応じて該当ノードをマルチノードシステムから切り離
してシングルシステムとして運用し、マルチノードシス
テムは該当ノードを除いたディグレードしたシステムと
して運用を継続し、該当ノードの障害が回復したときに
インタフェースの閉塞を解除してマルチノードシステム
に復帰させることが可能となる。
【0019】更に、ノード間接続網5のノード間接属ネ
ットワーク制御部54のようなマルチノードシステムの
共通部において障害が発生した場合でも、診断プロセッ
サ間の通信により各ノードをすべて切り離してそれぞれ
シングルシステムとして運用させ、復旧後に再びマルチ
ノードシステムに組み込むことができ、全体的なシステ
ムダウンを回避することが可能となる。
【0020】次に、上述のように構成された本実施形態
の具体的な動作について、例をあげて説明する。
【0021】例として、図6に破線で示すように、ノー
ド1に存在するメモリ11とノード2に存在するメモリ
21との間でデータ転送を行う場合を考える。演算プロ
セッサ群13の中のリクエスト元である一つの演算プロ
セッサからノード間通信処理部14へデータ転送の起動
がかかると、ノード間通信処理部14はメモリ11とメ
モリ21との間のデータ転送をノード間接続網5を介し
て実行する。そのデータ転送が正常に終了した場合に
は、ノード間通信処理部14はデータ転送が終了したこ
とを起動元の演算プロセッサに通知し、当該リクエスト
のノード間データ転送は終了する。以下、データ転送中
にノード1内に存在するノード間通信処理部14で障害
が発生した場合、及びノード間接続網5のノード1と接
続するポート部51に障害が発生した場合ついて詳細に
説明する。
【0022】図2は障害発生時の信号の流れを示す説明
図で、ノード1とノード間接続網5とのインタフェース
部に障害が発生した場合の信号の流れを示している。ノ
ード間通信処理部14に障害が発生すると、障害発生通
知信号aを送出して診断プロセッサ10に障害の発生を
通知する。診断プロセッサ10は障害発生通知信号aを
受けると、後述するように障害情報を解析して重障害か
軽障害かに対応する処理を行い、障害報告信号bにより
演算プロセッサ群13に通知すると同時に、送受信手段
15によりノード間障害報告信号cを診断専用バス6に
送出し、ノード2,3の診断プロセッサ20,30及び
ノード間接続網5の診断プロセッサ50に通知する。通
知を受けた診断プロセッサ20,30及び50は、その
内容により必要な処理を行い、障害報告信号e,f及び
dにより演算プロセッサ群23,33及びノード間接続
ネットワーク制御部54に通知する。一方、ノード間接
続網5のポート部51の障害は、障害発生通知信号gに
より診断プロセッサ50に通知され、ノード間障害報告
信号hにより診断専用バス6を介して各ノードの診断プ
ロセッサに伝えられる。診断プロセッサ10,20及び
30は信号内容を解析し、障害報告信号b,e及びfに
より演算プロセッサ群13,23及33に必要な情報を
通知する。
【0023】図3はノード間通信処理部の障害を検出し
た場合の診断プロセッサの主要動作を示す流れ図であ
る。以下、図2を参照しながら、図3に従って障害原因
となるノード1の診断プロセッサ10の動作を詳細に説
明する。
【0024】ノード間通信処理部14内の障害検出回路
が障害(パリティエラーを含む)を検出した場合、図2
に示したように、ノード間通信処理部14はノード1内
に存在する診断プロセッサ10に対して障害発生通知信
号aを送出し、障害が発生したことを通知する。診断プ
ロセッサ10は、障害発生通知信号aを受けると(ステ
ップS1)、障害処理プログラムにより障害ユニット
(ここではノード間通信処理部14)の障害情報(ノー
ド内障害情報)をあらかじめ指定された障害情報エリア
にセーブする(ステップS2)。続いて、セーブされた
ノード内障害情報を解析して障害状況を判断し、重障害
であるか軽障害であるかの分類を行うと共に、他ノード
(ノード間接続網を含む)へ連絡すべき通信情報(他ノ
ードへの通信情報)や装置構成から切り離す必要がある
構成ユニットの情報(ノード内縮退情報)などを割り出
し、障害情報エリアにセーブする(ステップS3)。
【0025】この例の場合は、ノード間通信処理部14
の障害であるため、ステップS3での判定が重障害であ
ればノード1から他ノードへのデータ転送は不可能とな
るので、ノード内縮退情報によりノード間通信処理部1
4をノード1の装置構成から切り離し、他ノードとのイ
ンタフェースを閉塞する(ステップS4)。同時に、送
受信手段15によりノード間障害報告信号cを診断専用
バス6に送出し、ノード2内の障害処理を行う診断プロ
セッサ20,ノード3内の障害処理を行う診断プロセッ
サ30及びノード間接続網5の障害処理を行う診断プロ
セッサ50に対し、ノード1で障害が発生し他ノードと
のインタフェースを閉塞したことを通知する(ステップ
S5)。ここで、演算プロセッサ群13に対して障害報
告信号bを送出し、ノード間通信処理部14の障害で他
ノードとのインタフェースを閉塞するが、ノード1内に
閉じた処理は可能であるため、シングルシステムとして
運用することを通知する(ステップS6)。
【0026】通知を受けた演算プロセッサ群13の各演
算プロセッサは、他ノードに対するリクエスト終了待ち
であれば当該リクエストをキャンセルし、マルチノード
システムから切り離されたことを認識して、以降はシン
グルシステムとして動作することになる。
【0027】診断プロセッサ10は、シングルシステム
として運用中も各構成ユニットの状態を監視し、装置構
成から切り離されたノード間通信処理部14の障害が除
去され回復したことを検知すると、ノード内縮退情報か
らノード間通信処理部14を削除して装置構成に組み込
み、演算プロセッサ群13に通知してインタフェースの
閉塞を解除し(ステップS7)、診断専用バス6を介し
て他ノードの診断プロセッサ20,30,50に通知し
てマルチノードシステムに復帰する(ステップS8)。
【0028】一方、ノード間通信処理部14の障害が軽
障害であれば、診断プロセッサ10は即座にインタフェ
ースの閉塞を行わず、演算プロセッサ群13に対しノー
ド間転送リクエストのリトライを通知すると共に(ステ
ップS9)、他の診断プロセッサに対しても軽障害が発
生したことが通知される(ステップS8)。診断プロセ
ッサ10からリトライ通知を受けた各演算プロセッサ
は、実行中の他ノード転送のリクエストは廃棄されたと
判断し、再び同一リクエストを発行する。
【0029】続いて、診断専用バス6を介してノード間
障害報告信号c又はhを受信した際の各ノードの診断プ
ロセッサの動作について、図2を参照しながら図4に従
って詳細に説明する。図4は各ノード内の診断プロセッ
サがノード間障害報告信号を受信した場合の主要動作を
示す流れ図である。
【0030】各ノードの診断プロセッサは、ノード間障
害報告信号c又はhを受信すると、受信した信号の内容
を解析し(ステップS11)、重障害なのか軽障害なの
か、重障害の場合は障害の発生通知なのか回復通知なの
か、及び自ノードとのインタフェース部に直接関係する
自ノード対象の障害情報なのかを判断し、それぞれに対
応した処理を行う。
【0031】図2に示した診断プロセッサ20,30の
場合は、受信したノード間障害報告信号c又はhが重障
害の発生報告であれば、その内容からマルチノード構成
から切り離される縮退ノードを判断し、図3に示した障
害情報エリアに縮退ノード情報をセーブする(ステップ
S12)。次に、障害箇所がノード1とノード間接続網
5とのインタフェース部で自ノード対象でないため、演
算プロセッサ群23,33に対し障害報告信号e,fを
送出し、ノード1が縮退されマルチノードシステムから
分離されたことを通知する(ステップS15)。これに
より、ノード1とデータ転送中のノード2の演算プロセ
ッサは、ノード1に対するリクエスト終了待ちであれば
当該リクエストをキャンセルし、ノード1とデータ転送
中でないノード3の演算プロセッサは、ノード1に対す
るデータ転送のリクエストの発行を停止する。又、ノー
ド間障害報告信号c又はhが重障害の回復報告であれ
ば、診断プロセッサ20,30は、障害情報エリアから
ノード1の縮退ノード情報を削除し(ステップS1
6)、ノード1がマルチノードシステムに復帰したこと
を演算プロセッサ群23,33に対し通知する(ステッ
プS19)。なお、ノード間障害報告信号c又はhが軽
障害の発生報告であれば、演算プロセッサ群23,33
に対して障害の発生を通知し(ステップS15)、ノー
ド1にデータ転送中の演算プロセッサに対してリクエス
トのリトライを要請する。
【0032】これに対して、ノード間障害報告信号hを
受信したノード1の診断プロセッサ10の場合は、その
通知内容が重障害の発生報告であれば、ステップS12
で縮退ノード情報の登録を行った後、自ノードが接続さ
れているインタフェース部の障害であるため、ノード間
通信処理部14を装置構成から切り離してノード間イン
タフェースの閉塞を行い(ステップS13)、演算プロ
セッサ群13に対して障害報告信号bを送出し実行中の
ノード間転送リクエストをキャンセルさせ、以降シング
ルシステムとしての運用を行わせる(ステップS1
4)。又、ノード間障害報告信号hの通知内容が重障害
の回復報告のあれば、ステップS16で縮退ノード情報
の削除を行った後、ノード間通信処理部14を装置構成
に復帰させてインタフェースの閉塞を解除し(ステップ
S17)、演算プロセッサ群13をマルチノードシステ
ムとしての運用に復帰させる(ステップS18)。な
お、ノード間障害報告信号hの通知内容が軽障害であれ
ば、診断プロセッサ20,30の場合と同様に、演算プ
ロセッサ群13に対して障害報告信号bを送り、データ
転送中の演算プロセッサに対してリクエストのリトライ
を要請することになる(ステップS15)。
【0033】以上、図3及び図4に従ってノード1,
2,3の診断プロセッサ10,20,30の動作につい
て説明したが、ノード間接続網5の診断プロセッサ50
の動作も、構成ユニットの相違による若干の点を除けば
ほとんど同じである。以下に、図6に破線で示すデータ
転送中にノード間接続網5のノード1と接続されている
ポート部51に障害が発生した場合と、ノード1からノ
ード間障害報告信号cを受信した場合とについて、それ
ぞれ図3及び図4を援用して簡単に説明する。
【0034】ノード間接続網5のポート部51の障害
は、図2に示すように、障害発生通知信号gにより診断
プロセッサ50に通知され(ステップS1)、診断プロ
セッサ50は障害情報をセーブし(ステップS2)、障
害状況を解析しノード内障害情報および他ノードへの通
信情報を作成し(ステップS3)、重障害であればポー
ト部51を切り離してインタフェースを閉塞し(ステッ
プS4)、ノード間障害報告信号hを送出すると共に
(ステップS5)、ノード間接続ネットワーク制御部5
4に障害報告信号dを送出し、ノード1を除外したディ
グレードした運用に移行させる(ステップS6)。その
後、ポート部51の障害が回復すると、インタフェース
の閉塞を解除して正常運用に戻し(ステップS7)、障
害回復を他診断プロセッサに連絡する(ステップS
8)。又、発生した障害が軽障害の場合には、ポート部
51を切り離すことなくリクエスト受け付け可能状態の
まま推移し(ステップS9)、ノード間障害報告信号h
を送出する(ステップS8)。
【0035】ノード1からのノード間障害報告信号cを
受信した診断プロセッサ50は、受信した信号の内容を
解析し(ステップS11)、重障害の発生報告であれば
縮退ノード情報の登録を行った後(ステップS12)、
ポート部51を切り離してインタフェースの閉塞を行い
(ステップS13)、ノード間接続ネットワーク制御部
54に障害報告信号dを送出し、ノード1を除外したデ
ィグレードした運用に移行させる(ステップS14)。
重障害の回復報告であれば、縮退ノード情報の削除を行
った後(ステップS16)、ポート部51を網構成に組
み込んでインタフェースの閉塞を解除し(ステップS1
7)、障害報告信号dを送出してノード間接続ネットワ
ーク制御部54を正常運用に復帰させる(ステップS1
8)。なお、ノード間障害報告信号cが軽障害の発生報
告であれば、診断プロセッサ50から障害報告信号dを
受信しても特に運用状態の変更を行う必要はない(ステ
ップS15)。
【0036】以上詳細に説明したように、本実施形態の
マルチノードシステムにおいては、診断プロセッサ間を
ノード間データ転送用とは別の診断専用バスで接続し、
相互に連絡し合うことにより障害処理と構成制御とを行
うようにしたため、ノード間転送実行中にインタフェー
スのどの部分で障害が発生した場合でも、データ転送用
のインタフェースを介して疑似障害により通報する必要
がなく、図5に示すように、ノード1をマルチノードシ
ステムから切り離したディグレードした状態で運用する
ことができる。しかも、切り離されたノード1をシング
ルシステムとして運用を継続し、回復時には診断専用バ
スを介して連絡することにより直ちにマルチノードシス
テムに復帰させることが可能となる。
【0037】なお、ノード間接続網5の各ノードに対す
る共通の制御部であるノード間接続ネットワーク制御部
54に障害が発生した場合には、すべてのインタフェー
スが閉塞され、ノード間障害報告信号hを受信した各ノ
ードはシングルシステムとして運用を継続し、ノード間
接続ネットワーク制御部54の障害が回復した場合に
は、再びマルチノードシステムとしての運用に復帰すこ
とが可能となる。
【0038】上述の説明では、インタフェース部の障害
を重障害と軽障害とに分類して処理する例について述べ
たが、インタフェースの閉塞を必要とする重障害のみを
対象として診断プロセッサ間通信を行ってもよく、更に
細分して連絡することにより細かい対応を行うようにす
ることも可能である。なお、障害情報エリアへセーブす
る障害情報についても、上述した実施の形態の例に限定
されず、システムの状況に応じて決定することができ
る。
【0039】
【発明の効果】以上説明したように、本発明の障害処理
方法およびマルチノードシステムは、データ転送網の通
信経路とは別個の診断専用バスを設け、各ノードに跨が
り診断プロセッサ間で各々の診断結果を相互に通知する
ことを特徴としている。これにより、ノード内の個別の
障害処理を行う診断プロセッサを使用して、ノード間イ
ンタフェース障害に対応してマルチノードシステムに適
応した包括的な障害処理および構成制御が可能となる。
この結果、障害によるシステムの機能停止を最小限に抑
えることができ、システム資源の有効活用と信頼性の向
上を達成できる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態のシステム構成を示すブロ
ック図である。
【図2】図1の実施形態における障害処理に関する信号
の流れの説明図である。
【図3】図1の各ノードの診断プロセッサの障害発生時
の処理を示す流れ図である。
【図4】図1の各ノードの診断プロセッサのノード間障
害報告信号受信時の処理を示す流れ図である。
【図5】図1の実施形態におけるインタフェース閉塞の
状態を示した説明図である。
【図6】マルチノードシステムにおけるノード間データ
転送例を示す説明図である。
【符号の説明】
1,2,3 ノード 5 ノード間接続網 6 診断専用バス 10,20,30,50 診断プロセッサ 11,21,31 メモリ 12 ノード内接続ネットワーク 13,23,33 演算プロセッサ群 14 ノード間通信処理部 15,25,35,55 送受信手段 51,52,53 ポート部 54 ノード間接続ネットワーク制御部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 演算プロセッサ群,メモリ,ノード間通
    信処理部を含む装置構成ユニットの障害処理を行う診断
    プロセッサを有する演算処理装置をノードとし、複数の
    ノード間を網構成ユニットの障害処理を行う診断プロセ
    ッサを有するノード間接続網で接続したマルチノードシ
    ステムの障害処理方法において、前記各ノード及びノー
    ド間接続網の各診断プロセッサ間を接続する診断専用バ
    スを設け、前記診断専用バスを介して前記各診断プロセ
    ッサ間で各ノード及びノード間接続網の障害状態および
    構成変化を相互に通信し合うことにより、マルチノード
    システムに適応した障害処理および構成制御を行うこと
    を特徴とする障害処理方法。
  2. 【請求項2】 前記マルチノードシステムに適応した障
    害処理および構成制御として、ノード間接続網と任意の
    ノードとのインタフェース部においてデータ転送に支障
    がある障害が発生した場合に、障害が発生したインタフ
    ェースの閉塞を行って該当ノードをノード間接続網から
    切り離し、切り離されたノードはシングルシステムとし
    ての運用を継続し、障害が復旧した場合に当該インタフ
    ェースの閉塞を解除して切り離したノードをノード間接
    続網に再接続し、マルチノード構成に組み込んでマルチ
    ノードシステムとしての運用に復帰する制御を行うこと
    を特徴とする請求項1記載の障害処理方法。
  3. 【請求項3】 演算プロセッサ群,メモリ,ノード間通
    信処理部を含む装置構成ユニットの障害処理を行う診断
    プロセッサを有する演算処理装置をノードとし、複数の
    ノード間を網構成ユニットの障害処理を行う診断プロセ
    ッサを有するノード間接続網で接続したマルチノードシ
    ステムにおいて、前記ノード間接続網および各ノードの
    診断プロセッサ間を接続する診断専用バスと、前記各診
    断プロセッサに対応して設けられ前記診断専用バスを介
    して相互に通信を行うための送受信手段とを備え、各診
    断プロセッサ間で各ノード及びノード間接続網の障害状
    態を通信し合うことによって、マルチノードシステムに
    適応した障害処理および構成制御を行うように構成され
    たことを特徴とするマルチノードシステム。
JP9138498A 1997-05-28 1997-05-28 障害処理方法およびマルチノードシステム Pending JPH10333932A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9138498A JPH10333932A (ja) 1997-05-28 1997-05-28 障害処理方法およびマルチノードシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9138498A JPH10333932A (ja) 1997-05-28 1997-05-28 障害処理方法およびマルチノードシステム

Publications (1)

Publication Number Publication Date
JPH10333932A true JPH10333932A (ja) 1998-12-18

Family

ID=15223532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9138498A Pending JPH10333932A (ja) 1997-05-28 1997-05-28 障害処理方法およびマルチノードシステム

Country Status (1)

Country Link
JP (1) JPH10333932A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186302A (ja) * 2009-02-12 2010-08-26 Nec Corp マルチノードシステム、異常処理方法、スイッチ、ノード及びプログラム
EP2782012A1 (en) 2013-03-21 2014-09-24 Fujitsu Limited System and method for notifying abnormality information to each of a plurality of processing units prior to the collection of log information
JP2015185015A (ja) * 2014-03-25 2015-10-22 富士通株式会社 情報処理装置,制御プログラム及び制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186302A (ja) * 2009-02-12 2010-08-26 Nec Corp マルチノードシステム、異常処理方法、スイッチ、ノード及びプログラム
EP2782012A1 (en) 2013-03-21 2014-09-24 Fujitsu Limited System and method for notifying abnormality information to each of a plurality of processing units prior to the collection of log information
JP2015185015A (ja) * 2014-03-25 2015-10-22 富士通株式会社 情報処理装置,制御プログラム及び制御方法

Similar Documents

Publication Publication Date Title
JP3541819B2 (ja) ループ型ネットワークおよびその運用方法
AU737333B2 (en) Active failure detection
CN112511394B (zh) 一种RapidIO总线系统的管理维护方法
WO2004004180A1 (en) Software fault tolerance between nodes
JPH10333932A (ja) 障害処理方法およびマルチノードシステム
JPWO2006075403A1 (ja) 伝送装置および障害通知方法
JP4287734B2 (ja) ネットワーク装置
JP5548160B2 (ja) 障害監視用ノード装置および障害検知回復方法
JP3341712B2 (ja) 交換装置の障害処理方式
JPH0934852A (ja) クラスタシステム
KR960003784B1 (ko) 프로세서간 단위 통신망간의 상호 연결장치 및 그 운용방법
JP2006279328A (ja) クロスバ・スイッチ
JPH08161277A (ja) 並列計算機システム
JP2903727B2 (ja) 光lan伝送路二重化方式
JPH05227183A (ja) ループ伝送系の異常診断方式
JPH0844637A (ja) データ転送制御機能を有した計算機システム
JPH07154401A (ja) 二重化通信システムの診断方法
JPH11215233A (ja) 系切替装置、系切替方法及び通信装置
JPS5897764A (ja) 多重化演算処理システムの制御方式
JP2000295236A (ja) Atm伝送装置
JP2024004705A (ja) ネットワークシステム及びその制御方法
JPH09160875A (ja) マルチエージェント相互バックアップ方式
JPH03261244A (ja) Lan制御方式
JPS6068742A (ja) 通信障害処理方式
JPH0618389B2 (ja) 通信回線の振替方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19991019