JP2001134546A

JP2001134546A - マルチプロセッサシステムの障害処理方法

Info

Publication number: JP2001134546A
Application number: JP31481399A
Authority: JP
Inventors: Yuichi Kishida; 裕一岸田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-11-05
Filing date: 1999-11-05
Publication date: 2001-05-18
Also published as: EP1107118A3; EP1107118A2

Abstract

(57)【要約】【課題】各々メモリと１つ以上のプロセッサを含む複
数のセルが相互結合網によって相互に接続されたマルチ
プロセッサシステムの運用中に或るセルで障害が発生し
た時、その障害の伝搬を未然に防止し、システムの信頼
性、可用性を向上させる。【解決手段】メモリ300 のアクセス時に障害を検出し
たセル400 は、サービスプロセッサ600 へ障害報告を送
出する。サービスプロセッサ600 は、受信した障害報告
を、セル動作を一時停止する指令としてハードウェア的
に折り返して全セル400 にブロードキャストすること
で、全セル400 の動作を瞬時に停止させる。その後サー
ビスプロセッサ600 は、各セル400 から障害解析に必要
な情報を収集して障害解析を行い、被疑セルを論理的に
システムから切り離してシステムを再構成し、各セルの
一時停止状態を解除し、システムの運用を続行させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はマルチプロセッサシ
ステムの障害処理方法に関し、より具体的には、各々メ
モリ及び１台以上のプロセッサを含む複数のセルを相互
結合網によって相互に接続したマルチプロセッサシステ
ムの障害処理方法に関する。

【０００２】

【従来の技術】並列計算機の一種に、メモリ及び少なく
とも１台のプロセッサを含むセルを複数備え、これら複
数のセルをクロスバ網などの高速な相互結合網によって
相互に接続したクラスタ計算機と呼ばれるマルチプロセ
ッサシステムがある。この種のマルチプロセッサシステ
ムではセル単位でシステム構成を変更でき、またセル単
位で個別のマルチプロセッサシステム（ノード）として
独立して運用することができる。

【０００３】クラスタ計算機の利点の１つは価格性能比
に優れていることである。例えば個々のセルとして廉価
だが処理能力の高いワークステーションを使用した場
合、大型計算機をはるかに凌ぐ価格性能比が得られる。
また他の利点は、共有メモリを物理的に１箇所に集中配
置する集中共有メモリ型の並列計算機に比べ、システム
規模の拡大が容易なことである。更に他の利点は、各々
のノードはそれ専用のオペレーティングシステムの制御
の下に１つの計算機として独立している為、異なるジョ
ブを別々のノードで実行させたり、１つのジョブを並列
プログラムとして同時に複数のノードで実行させたりす
るなど、多様なジョブ処理形態を取り得ることである。
このため、クラスタ計算機は、多種多様のクライアント
からの要求に対して迅速な対応が望まれ、また高性能、
高信頼性、高可用性が求められるサーバなどに利用され
る。なお、このようなクラスタ計算機に関する文献とし
ては、例えば特開平８−３０５６７７号公報がある。

【０００４】クラスタ計算機は、共有メモリをセル単位
ごとにローカルメモリとして分散配置した分散共有メモ
リ型並列計算機ではあるが、共有メモリ型計算機の一種
であるため、プロセッサ間通信モデルは共有メモリモデ
ルに従う。つまり、各セルのプロセッサは、アクセス先
のメモリ領域が物理的にどのセルに割り当てられている
かの認識はなく、通常のメモリアクセス操作によりアド
レス指定で直接的に共有メモリをアクセスすることで、
セル間の通信を実現する。具体的には、自セルで発生し
たメモリアクセス要求が自セルに実装されたメモリに対
するアクセスであるときは、自セルのメモリにメモリア
クセス要求が転送され、アクセス結果がメモリアクセス
元に通知される。他方、自セルで発生したメモリアクセ
ス要求が他セルに実装されたメモリに対するアクセスで
あるときは、相互結合網を通じて他セルにメモリアクセ
ス要求が転送されて他セルにおいてメモリがアクセスさ
れ、そのアクセス結果が相互結合網を通じて要求元のセ
ルに戻され、そして、メモリアクセス元に通知される。

【０００５】

【発明が解決しようとする課題】このようにクラスタ計
算機は、セル単位で個別のマルチプロセッサシステム
（ノード）として独立して運用できる等の優れた長所を
有するが、各セルが相互結合網によって相互に接続さ
れ、共有メモリモデルに従ったプロセッサ間通信を行う
ため、或るセルで障害が発生した場合、その障害が他の
セルに伝搬する危険性が高い。例えば、或るセルに実装
されたメモリの或る領域に訂正不可能なメモリ障害が発
生した場合、一般に計算機を構成する主記憶であるメモ
リに訂正不可能な誤りが発生したというハードウェア障
害は極めて重度の高い障害であるため、その領域をアク
セスしたセルは、たとえそのメモリ領域が他セルに実装
されているメモリであってもシステム停止障害要因とな
る。このとき、当該メモリ領域を他のセルが次々とアク
セスすると、残りのセルにおいてもシステム停止障害要
因が発生する。このため、最悪時には全セルにシステム
停止障害要因が発生し、システム全体がダウンする事態
を招くこともある。他にも、不正なアドレスを他セルが
アクセスすることによってセル間でエラーが伝搬した
り、或る１つの障害やエラーが原因となって更に別のエ
ラーや障害を引き起こす場合もある。

【０００６】このため、クラスタ計算機の運用中におい
て或るセルでエラーや障害が発生した場合、そのセル間
の伝搬を速やかに防止する必要があるが、それに有効な
技術は未だ提案されていないのが現状である。それ故、
障害の伝搬により被疑セルを特定できなかったり、被疑
セルの切り離し、システムの再構成が不可能になる事態
を招いていた。

【０００７】本発明はこのような事情に鑑みて提案され
たものであり、その目的は、システム運用中に或るセル
で障害が発生した場合にその障害の伝搬を未然に防止し
得るマルチプロセッサシステムの障害処理方法を提供す
ることにある。

【０００８】また本発明の別の目的は、システムの信頼
性、可用性を向上させることができるマルチプロセッサ
システムの障害処理方法を提供することにある。

【０００９】

【課題を解決するための手段】本発明は、各々メモリと
１つ以上のプロセッサを含む複数のセルが相互結合網に
よって相互に接続され、かつ、各セルとサービスプロセ
ッサとが接続されたマルチプロセッサシステムの障害処
理方法において、前記メモリを含む共有資源のアクセス
時に障害を検出したセルからサービスプロセッサへ障害
報告を送出するステップと、障害報告を受信したサービ
スプロセッサが全セルの動作を瞬時に停止させるステッ
プとを含むことを特徴とする。より具体的には、サービ
スプロセッサは、障害報告の受信時に直ちに全セルに対
して動作の一時停止を指令する。好ましくは、受信した
障害報告を、セル動作を一時停止する指令としてハード
ウェア的に折り返して全セルにブロードキャストする。

【００１０】また、本発明は、全セルの動作を一時停止
させた後、サービスプロセッサが各セルから障害解析に
必要な情報を収集して障害解析を行うステップと、障害
解析後、サービスプロセッサが被疑セルを論理的にシス
テムから切り離してシステムを再構成するステップと、
システム再構成後、サービスプロセッサが各セルの一時
停止状態を解除してシステムの運用を続行させるステッ
プとを、更に含むことを特徴とする。

【００１１】このように本発明にあっては、メモリや入
出力装置などの共有資源のアクセス時に、或るセルにお
いて訂正不可能なメモリ障害や不正なアドレスに対する
アクセス等の障害が検出されると、そのセルからサービ
スプロセッサへ障害報告が出され、この障害報告を受信
したサービスプロセッサが全セルの動作を瞬時に停止さ
せるため、障害がセル間で伝搬するのを未然に防止する
ことができる。そして、全セルの動作を一時停止させた
後、障害解析に必要な情報の収集と解析を行って被疑セ
ルを特定し、被疑セルを論理的にシステムから切り離し
てシステムを再構成した後、各セルの一時停止状態を解
除してシステムの運用を続行させることで、システムの
信頼性、可用性を向上させることができる。

【００１２】

【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。

【００１３】図１を参照すると、本発明を適用したマル
チプロセッサシステムの一例は、複数のセル４００をネ
ットワーク（相互結合網）５００により相互接続するこ
とにより構成される。ここで、システムは４つのセル４
００を有するものとし、それぞれのセル４００はそれぞ
れ４つのプロセッサ２００およびメモリ（メモリコント
ローラを含む）３００と、セル制御回路１００を有する
ものとする。但し、この数はシステムの要求に応じて任
意に設定することができる。また、各セル４００は専用
線７００によってサービスプロセッサ６００に接続され
ている。

【００１４】メモリ３００は、各セル４００に分散して
存在しており、プロセッサ２００から見ると、自セル内
のメモリと他セルのメモリとが存在することになる。し
かし、プロセッサ２００はアクセス先のメモリ領域が物
理的にどのセルに割り当てられているかの認識はなく、
通常のメモリアクセス操作によりアドレス指定で直接的
にメモリ２００をアクセスする。即ち、プロセッサ間通
信モデルは共有メモリモデルに従う。この共有メモリモ
デルをサポートしているのが、本実施例ではセル制御回
路１００である。

【００１５】図２を参照すると、各セル内のセル制御回
路１００は、アドレスレジスタ１１０と、アドレス解決
テーブル１２０と、ライト保護フラグ１３０と、セル番
号レジスタ１４１と、アクセス種別レジスタ１４２と、
比較器１５０と、論理積回路１６０とを含んでいる。

【００１６】アドレス解決テーブル１２０は、システム
の立ち上げ時にサービスプロセッサ６００により初期設
定される。このアドレス解決テーブル１２０により、各
セルに分散して存在するメモリ３００はアドレスが重複
しない単一のメモリ空間に構成される。プロセッサ２０
０が要求したメモリアドレスは、アドレス解決テーブル
１２０を索引することにより、どの物理セルへのアクセ
スかが判明する。アドレス解決テーブル１２０は、複数
のエントリを有し、アドレスレジスタ１１０に保持され
たプロセッサ２００またはネットワーク５００からのア
ドレスの中のモジュールアドレス１１１により索引され
る。各エントリは、有効ビット１２１、セル番号１２２
及びセル内モジュール番号１２３を保持する。有効ビッ
ト１２１は、当該エントリが有効か否かを指示する。例
えば“０”であれば有効でなく、“１”であれば有効で
あることを指示する。セル番号１２２は、当該アドレス
に相当するメモリモジュールが存在するセルの番号を表
示する。セル内モジュール番号１２３は、当該アドレス
に相当するメモリモジュールがセル内の何れのメモリ３
００であるかを表示する。セル内モジュール番号１２３
とモジュール内アドレスオフセット１１２とを繋げたも
のがセル内アドレス１９１となる。

【００１７】ライト保護フラグ１３０は、他のセルから
のアクセスがライトであった場合にそのライトを許可す
るか否かを指示する。例えば、“０”のときは他のセル
からのライトを許容するが、“１”のときは他のセルか
らのライトは許容せずにアクセス例外とする。

【００１８】セル番号レジスタ１４１は、アクセスリク
エストを発行したプロセッサ２００の存在するセルのセ
ル番号を格納するためのレジスタである。アクセス種別
レジスタ１４２はアクセスリクエストの種別を表す。例
えば、“１”の場合にライトを意味する。比較器１５０
は、セル番号レジスタ１４１の内容とアドレス解決テー
ブル１２０から読み出したセル番号１２２とを比較す
る。論理積回路１６０は、アドレス解決テーブル１２０
の有効ビット１２１が有効を示し、アクセス種別がライ
トであり、ライト保護フラグ１３０がライトを許容せ
ず、且つ、アドレス解決テーブル１２０から読み出した
セル番号１２２がセル番号レジスタ１４１の値と一致し
ない場合に、アドレス例外発生信号１６１を出力する。

【００１９】次に、プロセッサ２００によるメモリアク
セス時の動作について説明する。

【００２０】図１から図３を参照すると、プロセッサ２
００からメモリアクセスがあると、モジュールアドレス
１１１によってアドレス解決テーブル１２０を索引する
（図３のステップＳ１）。その結果、有効フラグ１２１
が無効を示していれば（ステップＳ２）、当該アクセス
は存在しないアドレスにされたものであるとしてアドレ
ス不在例外とする。また、他のセルに存在するメモリア
ドレスであることが判明すると（ステップＳ３）、ネッ
トワーク５００を介して当該他のセルでアクセスが行わ
れる。また、自セルに存在するメモリアドレスであれ
ば、自セル内の該当するメモリモジュールにアクセスす
る（ステップＳ４）。

【００２１】また、他のセルからアクセスがあった場
合、そのアクセスがライトでなければ（ステップＳ
７）、自セルの場合と同様に該当するメモリモジュール
にアクセスする（ステップＳ４）。これに対し、他のセ
ルからのアクセスがライトの場合にはライト保護フラグ
１３０をチェックし（ステップＳ８）、他のセルからの
ライトを許容する旨を指示していれば該当するメモリモ
ジュールにアクセスし（ステップＳ４）、他のセルから
のライトを許容しない旨を指示していればアクセス例外
とする。

【００２２】該当メモリモジュールにアクセスした結
果、例えばパリティエラーや訂正不可能なメモリ障害が
発生した場合（ステップＳ５）、専用線７００を介して
サービスプロセッサ６００に障害報告を送出する（ステ
ップＳ６）。アドレス不在例外、アクセス例外が発生し
た場合も、専用線７００を介してサービスプロセッサ６
００に障害報告を送出する（ステップＳ６）。

【００２３】次に、障害報告を受けたサービスプロセッ
サ６００の動作を説明する。

【００２４】図４を参照すると、障害報告を受けたサー
ビスプロセッサ６００は全てのセル４００の処理を直ち
に一時停止させる（ステップＳ１１）。その実施例を図
５に示す。図５を参照すると、各セル４００から出され
た障害報告を伝達する信号線７０１はサービスプロセッ
サ６００内のプロセッサ６０１の割り込み端子に接続さ
れると共に、折り返し回路６０２を構成する論理和回路
６０３の入力端子にも接続されている。また論理和回路
６０３の出力は、各セル４００の各部に対して動作を一
時停止すべき指令を伝達する信号線７０２に接続されて
いる。これによって、信号線７０１に障害報告が出され
ると、瞬時に全セルに対してセル動作を一時停止する指
令が信号線７０２によってブロードキャストされる。ま
た、プロセッサ６０１は信号線７０２によって起こる割
り込みによって障害報告を認識でき、また、信号線７０
２の状態を制御することにより、一時停止の指令を解除
することができる。なお、専用線７００を構成する他の
信号線群７０３は、サービスプロセッサ６００がシステ
ムの初期設定、構成変更時の設定、セルまたはノードの
切り離し、組み込み時の設定、障害情報の採取などに使
用する信号線群である。

【００２５】サービスプロセッサ６００は、次に、停止
状態の全てのセル４００から、障害解析に必要な各種の
情報（例外発生アドレス，障害発生アドレス、例外や障
害の種類、一時停止直前に発行されたトランザクション
の情報、プロセッサの内部レジスタ情報など）を障害情
報として採取し（ステップＳ１２）、どのような障害が
どのセルで発生したか、その障害の影響範囲などを調べ
る障害解析を行う（ステップＳ１３）。そして、障害の
起因であるセル（被疑セル）を特定すると、被疑セル及
びそのセルを含むノードを運用から切り離してシステム
が運用可能かを判断し（ステップＳ１４）、可能であれ
ば被疑セル及びそのセルを含むノードをシステムから論
理的に切り離し（ステップＳ１５）、残りのセルでシス
テムを再構成する（ステップＳ１６）。そして、構成変
更の設定が終了しシステムが被疑セル及び被疑ノード無
しで運用できる状態になると、セル４００に対する一時
停止の指令を解除する（ステップＳ１７）。これによ
り、システムは被疑セル及び被疑ノードが切り離された
状態で運用を再開する。他方、被疑セル及び被疑セルを
含むノード以外に正常なノードが残っていない場合な
ど、被疑セル及びそのセルを含むノードを運用から切り
離すとシステムの運用が不可能になる場合は、ステップ
Ｓ１５〜Ｓ１７の処理はスキップする。この場合、シス
テムは停止したままとなる。

【００２６】次に本実施の形態の具体例について説明す
る。

【００２７】４つのセル４００（＄０〜＄３とする）の
アドレス解決テーブル１２０の設定を図６のようにした
場合、図７のメモリ構成が実現される。図７において、
実線部分は各セルに物理的に搭載されたメモリである。
ここでは全セルが同量のメモリを備えると仮定している
が、実際は同じでなくて良い。また、縦軸はそれぞれの
セルから見たメモリアドレスを示し、全ノードとも０番
地から始まる空間を持つと仮定している。

【００２８】このメモリ構成では、セル＄０とセル＄１
が対象型マルチプロセッサ構成の独立したコンピュータ
を構成し、２つで１つのノード＃０として、セル＄２
（ノード＃２）、セル＄３（ノード＃３）とともに図８
に示されるような３ノードのクラスタ計算機を構成す
る。ノード＃０においては、セル＄０の物理メモリ全部
とセル＄１のメモリモジュールｘ０からｘ２の合計７モ
ジュールが、ローカルメモリとしてセル＄０及びセル＄
１から共通にアクセスできるように構成されている。セ
ル＄１のメモリモジュールｘ３は、クラスタ共有メモリ
（通信エリア）としてノード間で共有されている。ま
た、セル＄２及びセル＄３のメモリモジュールｘ０から
ｘ２は、それぞれのノードのローカルメモリにマップさ
れ、互いに独立である（セル固有メモリ）。一方、セル
＄２のメモリモジュールｘ８とセル＄３のメモリモジュ
ールｘ９の２モジュールが共有通信エリアに設定されて
いる。

【００２９】この図６の設定の場合、ライト保護フラグ
１３０は、特定のセル（同じノードを構成するセル）か
らのライトアクセスを許容するよう設定される。

【００３０】次に、図８乃至図１１を参照して、本実施
例における障害処理の具体例を説明する。

【００３１】図８において、ノード＃０のセル＄１の或
るプロセッサ２００が、同じノード＃０のセル＄０のメ
モリモジュールｘ３に対してメモリアクセス要求を出し
たとすると、その要求は矢印ａに示すルートで処理され
て、セル＄０においてメモリモジュールｘ３がアクセス
される。このとき、メモリモジュールｘ３で例えば訂正
不可能なメモリ障害が発生したとすると、それを検出し
たセル＄０からサービスプロセッサ６００に障害報告が
出される（図８のｂ）。この障害報告はハードウェア的
に折り返され、一時停止指令として全セル＄０〜＄３に
伝達される（図８のｃ）。これによって、全セル＄０〜
＄３はその動作を一時停止する。その後、サービスプロ
セッサ６００は、全セル＄０〜＄３から障害情報を採取
し（図９のｄ）、障害解析を行う。そして、セル＄１か
らのメモリアクセス要求時に同じノード＃０のセル＄０
のメモリモジュールｘ３に訂正不可能なメモリ障害が発
生したこと、その影響はノード＃０内に限られることを
判別し、被疑セル＄０を含むノード＃０をシステムから
切り離し、ノード＃２、＃３だけで運用を続ける。

【００３２】他方、図１０において、ノード＃２のセル
＄２の或るプロセッサ２００が、ライト保護がなされて
いるノード＃０のセル＄１におけるメモリモジュールｘ
７に対してライトアクセスを行った場合（図１０の
ａ）、セル＄１においてアクセス例外が発生し、セル＄
１からサービスプロセッサ６００に障害報告が出される
（図１０のｂ）。この障害報告はハードウェア的に折り
返され、一時停止指令として全セル＄０〜＄３に伝達さ
れる（図１０のｃ）。これによって、全セル＄０〜＄３
はその動作を一時停止する。その後、サービスプロセッ
サ６００は、全セル＄０〜＄３から障害情報を採取し
（図１１のｄ）、障害解析を行う。そして、ノード＃２
のセル＄２から、ライト保護されているノード＃０のセ
ル＄１のメモリモジュールｘ７にライトアクセスが行わ
れたことによりアクセス例外が発生したこと、その影響
はノード＃２内に限られることを判別し、被疑セル＄２
を含むノード＃２をシステムから切り離し、ノード＃
０、＃３だけで運用を続ける。

【００３３】以上の実施の形態では、各セル内のプロセ
ッサ２００とメモリ３００とがセル制御回路１００を介
して接続される構成を採用したが、図１２に示されるよ
うに、プロセッサ２００とメモリ３００とがプロセッサ
バス８０１で接続される構成であっても良い。この場
合、セル制御回路１００と同機能を有するディレクトリ
８０２をプロセッサバス８０１に接続する。また、以上
の実施の形態では、各セルに入出力コントローラを含め
なかったが、図１２に示されるように入出力コントロー
ラ８０３がプロセッサバス８０１に接続されていても良
い。この場合、入出力コントローラ８０３に対するアク
セスもメモリ３００と同じように行われる。つまり、各
プロセッサ２００は入出力コントローラが物理的にどの
セルに割り当てられているかの認識なく、通常の入出力
操作によりアドレス指定で直接的に入出力コントローラ
をアクセスすることで、セル間の通信を実現する。具体
的には、ディレクトリ８０２は、自セルで発生したＩ／
Ｏ要求が自セルに実装された入出力コントローラに対す
るものであるときは、自セルの入出力コントローラにＩ
／Ｏ要求を転送し、結果を要求元に通知する。他方、自
セルで発生したＩ／Ｏ要求が他セルに実装された入出力
コントローラに対するものであるときは、相互結合網を
通じて他セルにＩ／Ｏ要求を転送し、他セルにおいて入
出力コントローラがアクセスされ、その結果が相互結合
網を通じて要求元のセルに戻され、そして、要求元に通
知される。

【００３４】

【発明の効果】以上説明したように本発明によれば、シ
ステム運用中に或るセルで障害が発生した場合にその障
害の伝搬を未然に防止することができる。その理由は、
障害が発生した時、その報告を受けたサービスプロセッ
サが全セルの動作を瞬時に停止させるからである。

【００３５】また本発明によれば、システムの信頼性、
可用性を向上させることができる。その理由は、サービ
スプロセッサが、全セルの動作を一時停止させた後、障
害解析に必要な情報の収集と解析を行って被疑セルを特
定し、被疑セルを論理的にシステムから切り離してシス
テムを再構成した後、各セルの一時停止状態を解除して
システムの運用を続行させるからである。

【図面の簡単な説明】

【図１】本発明を適用したマルチプロセッサシステムの
一例を示すブロック図である。

【図２】セル制御回路の実施例のブロック図である。

【図３】本発明の実施の形態における動作を説明するた
めの流れ図である。

【図４】サービスプロセッサの動作を説明するための流
れ図である。

【図５】障害報告を受けたサービスプロセッサが全セル
を直ちに一時停止させる実施例のブロック図である。

【図６】アドレス変換テーブルの設定例を示す図であ
る。

【図７】メモリ構成の一例を示すメモリマップである。

【図８】本発明を適用したマルチプロセッサシステムに
おける障害処理の具体例の説明図である。

【図９】本発明を適用したマルチプロセッサシステムに
おける障害処理の具体例の説明図である。

【図１０】本発明を適用したマルチプロセッサシステム
における障害処理の具体例の説明図である。

【図１１】本発明を適用したマルチプロセッサシステム
における障害処理の具体例の説明図である。

【図１２】本発明を適用したマルチプロセッサシステム
の別の例を示すブロック図である。

【符号の説明】

１００…セル制御回路２００…プロセッサ３００…メモリ４００…セル５００…ネットワーク６００…サービスプロセッサ７００…専用線

Claims

【特許請求の範囲】

【請求項１】各々メモリと１つ以上のプロセッサを含
む複数のセルが相互結合網によって相互に接続され、且
つ、各セルとサービスプロセッサとが接続されたマルチ
プロセッサシステムの障害処理方法において、前記メモリを含む共有資源のアクセス時に障害を検出し
たセルからサービスプロセッサへ障害報告を送出するス
テップと、障害報告を受信したサービスプロセッサが全セルの動作
を瞬時に停止させるステップとを含むことを特徴とする
マルチプロセッサシステムの障害処理方法。
【請求項２】サービスプロセッサは、障害報告の受信
時に直ちに全セルに対して動作の一時停止を指令するこ
とを特徴とする請求項１記載のマルチプロセッサシステ
ムの障害処理方法。
【請求項３】サービスプロセッサは、受信した障害報
告を、セル動作を一時停止する指令としてハードウェア
的に折り返して全セルにブロードキャストすることを特
徴とする請求項１または２記載のマルチプロセッサシス
テムの障害処理方法。
【請求項４】全セルの動作を一時停止させた後、サー
ビスプロセッサが各セルから障害解析に必要な情報を収
集して障害解析を行うステップと、障害解析後、サービスプロセッサが被疑セルを論理的に
システムから切り離してシステムを再構成するステップ
と、システム再構成後、サービスプロセッサが各セルの一時
停止状態を解除してシステムの運用を続行させるステッ
プとを、更に含むことを特徴とする請求項１、２または
３記載のマルチプロセッサシステムの障害処理方法。