JP2001134546A - マルチプロセッサシステムの障害処理方法 - Google Patents

マルチプロセッサシステムの障害処理方法

Info

Publication number
JP2001134546A
JP2001134546A JP31481399A JP31481399A JP2001134546A JP 2001134546 A JP2001134546 A JP 2001134546A JP 31481399 A JP31481399 A JP 31481399A JP 31481399 A JP31481399 A JP 31481399A JP 2001134546 A JP2001134546 A JP 2001134546A
Authority
JP
Japan
Prior art keywords
cell
cells
memory
failure
service processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31481399A
Other languages
English (en)
Inventor
Yuichi Kishida
裕一 岸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP31481399A priority Critical patent/JP2001134546A/ja
Priority to EP00123939A priority patent/EP1107118A3/en
Publication of JP2001134546A publication Critical patent/JP2001134546A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 各々メモリと1つ以上のプロセッサを含む複
数のセルが相互結合網によって相互に接続されたマルチ
プロセッサシステムの運用中に或るセルで障害が発生し
た時、その障害の伝搬を未然に防止し、システムの信頼
性、可用性を向上させる。 【解決手段】 メモリ300 のアクセス時に障害を検出し
たセル400 は、サービスプロセッサ600 へ障害報告を送
出する。サービスプロセッサ600 は、受信した障害報告
を、セル動作を一時停止する指令としてハードウェア的
に折り返して全セル400 にブロードキャストすること
で、全セル400 の動作を瞬時に停止させる。その後サー
ビスプロセッサ600 は、各セル400 から障害解析に必要
な情報を収集して障害解析を行い、被疑セルを論理的に
システムから切り離してシステムを再構成し、各セルの
一時停止状態を解除し、システムの運用を続行させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はマルチプロセッサシ
ステムの障害処理方法に関し、より具体的には、各々メ
モリ及び1台以上のプロセッサを含む複数のセルを相互
結合網によって相互に接続したマルチプロセッサシステ
ムの障害処理方法に関する。
【0002】
【従来の技術】並列計算機の一種に、メモリ及び少なく
とも1台のプロセッサを含むセルを複数備え、これら複
数のセルをクロスバ網などの高速な相互結合網によって
相互に接続したクラスタ計算機と呼ばれるマルチプロセ
ッサシステムがある。この種のマルチプロセッサシステ
ムではセル単位でシステム構成を変更でき、またセル単
位で個別のマルチプロセッサシステム(ノード)として
独立して運用することができる。
【0003】クラスタ計算機の利点の1つは価格性能比
に優れていることである。例えば個々のセルとして廉価
だが処理能力の高いワークステーションを使用した場
合、大型計算機をはるかに凌ぐ価格性能比が得られる。
また他の利点は、共有メモリを物理的に1箇所に集中配
置する集中共有メモリ型の並列計算機に比べ、システム
規模の拡大が容易なことである。更に他の利点は、各々
のノードはそれ専用のオペレーティングシステムの制御
の下に1つの計算機として独立している為、異なるジョ
ブを別々のノードで実行させたり、1つのジョブを並列
プログラムとして同時に複数のノードで実行させたりす
るなど、多様なジョブ処理形態を取り得ることである。
このため、クラスタ計算機は、多種多様のクライアント
からの要求に対して迅速な対応が望まれ、また高性能、
高信頼性、高可用性が求められるサーバなどに利用され
る。なお、このようなクラスタ計算機に関する文献とし
ては、例えば特開平8−305677号公報がある。
【0004】クラスタ計算機は、共有メモリをセル単位
ごとにローカルメモリとして分散配置した分散共有メモ
リ型並列計算機ではあるが、共有メモリ型計算機の一種
であるため、プロセッサ間通信モデルは共有メモリモデ
ルに従う。つまり、各セルのプロセッサは、アクセス先
のメモリ領域が物理的にどのセルに割り当てられている
かの認識はなく、通常のメモリアクセス操作によりアド
レス指定で直接的に共有メモリをアクセスすることで、
セル間の通信を実現する。具体的には、自セルで発生し
たメモリアクセス要求が自セルに実装されたメモリに対
するアクセスであるときは、自セルのメモリにメモリア
クセス要求が転送され、アクセス結果がメモリアクセス
元に通知される。他方、自セルで発生したメモリアクセ
ス要求が他セルに実装されたメモリに対するアクセスで
あるときは、相互結合網を通じて他セルにメモリアクセ
ス要求が転送されて他セルにおいてメモリがアクセスさ
れ、そのアクセス結果が相互結合網を通じて要求元のセ
ルに戻され、そして、メモリアクセス元に通知される。
【0005】
【発明が解決しようとする課題】このようにクラスタ計
算機は、セル単位で個別のマルチプロセッサシステム
(ノード)として独立して運用できる等の優れた長所を
有するが、各セルが相互結合網によって相互に接続さ
れ、共有メモリモデルに従ったプロセッサ間通信を行う
ため、或るセルで障害が発生した場合、その障害が他の
セルに伝搬する危険性が高い。例えば、或るセルに実装
されたメモリの或る領域に訂正不可能なメモリ障害が発
生した場合、一般に計算機を構成する主記憶であるメモ
リに訂正不可能な誤りが発生したというハードウェア障
害は極めて重度の高い障害であるため、その領域をアク
セスしたセルは、たとえそのメモリ領域が他セルに実装
されているメモリであってもシステム停止障害要因とな
る。このとき、当該メモリ領域を他のセルが次々とアク
セスすると、残りのセルにおいてもシステム停止障害要
因が発生する。このため、最悪時には全セルにシステム
停止障害要因が発生し、システム全体がダウンする事態
を招くこともある。他にも、不正なアドレスを他セルが
アクセスすることによってセル間でエラーが伝搬した
り、或る1つの障害やエラーが原因となって更に別のエ
ラーや障害を引き起こす場合もある。
【0006】このため、クラスタ計算機の運用中におい
て或るセルでエラーや障害が発生した場合、そのセル間
の伝搬を速やかに防止する必要があるが、それに有効な
技術は未だ提案されていないのが現状である。それ故、
障害の伝搬により被疑セルを特定できなかったり、被疑
セルの切り離し、システムの再構成が不可能になる事態
を招いていた。
【0007】本発明はこのような事情に鑑みて提案され
たものであり、その目的は、システム運用中に或るセル
で障害が発生した場合にその障害の伝搬を未然に防止し
得るマルチプロセッサシステムの障害処理方法を提供す
ることにある。
【0008】また本発明の別の目的は、システムの信頼
性、可用性を向上させることができるマルチプロセッサ
システムの障害処理方法を提供することにある。
【0009】
【課題を解決するための手段】本発明は、各々メモリと
1つ以上のプロセッサを含む複数のセルが相互結合網に
よって相互に接続され、かつ、各セルとサービスプロセ
ッサとが接続されたマルチプロセッサシステムの障害処
理方法において、前記メモリを含む共有資源のアクセス
時に障害を検出したセルからサービスプロセッサへ障害
報告を送出するステップと、障害報告を受信したサービ
スプロセッサが全セルの動作を瞬時に停止させるステッ
プとを含むことを特徴とする。より具体的には、サービ
スプロセッサは、障害報告の受信時に直ちに全セルに対
して動作の一時停止を指令する。好ましくは、受信した
障害報告を、セル動作を一時停止する指令としてハード
ウェア的に折り返して全セルにブロードキャストする。
【0010】また、本発明は、全セルの動作を一時停止
させた後、サービスプロセッサが各セルから障害解析に
必要な情報を収集して障害解析を行うステップと、障害
解析後、サービスプロセッサが被疑セルを論理的にシス
テムから切り離してシステムを再構成するステップと、
システム再構成後、サービスプロセッサが各セルの一時
停止状態を解除してシステムの運用を続行させるステッ
プとを、更に含むことを特徴とする。
【0011】このように本発明にあっては、メモリや入
出力装置などの共有資源のアクセス時に、或るセルにお
いて訂正不可能なメモリ障害や不正なアドレスに対する
アクセス等の障害が検出されると、そのセルからサービ
スプロセッサへ障害報告が出され、この障害報告を受信
したサービスプロセッサが全セルの動作を瞬時に停止さ
せるため、障害がセル間で伝搬するのを未然に防止する
ことができる。そして、全セルの動作を一時停止させた
後、障害解析に必要な情報の収集と解析を行って被疑セ
ルを特定し、被疑セルを論理的にシステムから切り離し
てシステムを再構成した後、各セルの一時停止状態を解
除してシステムの運用を続行させることで、システムの
信頼性、可用性を向上させることができる。
【0012】
【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。
【0013】図1を参照すると、本発明を適用したマル
チプロセッサシステムの一例は、複数のセル400をネ
ットワーク(相互結合網)500により相互接続するこ
とにより構成される。ここで、システムは4つのセル4
00を有するものとし、それぞれのセル400はそれぞ
れ4つのプロセッサ200およびメモリ(メモリコント
ローラを含む)300と、セル制御回路100を有する
ものとする。但し、この数はシステムの要求に応じて任
意に設定することができる。また、各セル400は専用
線700によってサービスプロセッサ600に接続され
ている。
【0014】メモリ300は、各セル400に分散して
存在しており、プロセッサ200から見ると、自セル内
のメモリと他セルのメモリとが存在することになる。し
かし、プロセッサ200はアクセス先のメモリ領域が物
理的にどのセルに割り当てられているかの認識はなく、
通常のメモリアクセス操作によりアドレス指定で直接的
にメモリ200をアクセスする。即ち、プロセッサ間通
信モデルは共有メモリモデルに従う。この共有メモリモ
デルをサポートしているのが、本実施例ではセル制御回
路100である。
【0015】図2を参照すると、各セル内のセル制御回
路100は、アドレスレジスタ110と、アドレス解決
テーブル120と、ライト保護フラグ130と、セル番
号レジスタ141と、アクセス種別レジスタ142と、
比較器150と、論理積回路160とを含んでいる。
【0016】アドレス解決テーブル120は、システム
の立ち上げ時にサービスプロセッサ600により初期設
定される。このアドレス解決テーブル120により、各
セルに分散して存在するメモリ300はアドレスが重複
しない単一のメモリ空間に構成される。プロセッサ20
0が要求したメモリアドレスは、アドレス解決テーブル
120を索引することにより、どの物理セルへのアクセ
スかが判明する。アドレス解決テーブル120は、複数
のエントリを有し、アドレスレジスタ110に保持され
たプロセッサ200またはネットワーク500からのア
ドレスの中のモジュールアドレス111により索引され
る。各エントリは、有効ビット121、セル番号122
及びセル内モジュール番号123を保持する。有効ビッ
ト121は、当該エントリが有効か否かを指示する。例
えば“0”であれば有効でなく、“1”であれば有効で
あることを指示する。セル番号122は、当該アドレス
に相当するメモリモジュールが存在するセルの番号を表
示する。セル内モジュール番号123は、当該アドレス
に相当するメモリモジュールがセル内の何れのメモリ3
00であるかを表示する。セル内モジュール番号123
とモジュール内アドレスオフセット112とを繋げたも
のがセル内アドレス191となる。
【0017】ライト保護フラグ130は、他のセルから
のアクセスがライトであった場合にそのライトを許可す
るか否かを指示する。例えば、“0”のときは他のセル
からのライトを許容するが、“1”のときは他のセルか
らのライトは許容せずにアクセス例外とする。
【0018】セル番号レジスタ141は、アクセスリク
エストを発行したプロセッサ200の存在するセルのセ
ル番号を格納するためのレジスタである。アクセス種別
レジスタ142はアクセスリクエストの種別を表す。例
えば、“1”の場合にライトを意味する。比較器150
は、セル番号レジスタ141の内容とアドレス解決テー
ブル120から読み出したセル番号122とを比較す
る。論理積回路160は、アドレス解決テーブル120
の有効ビット121が有効を示し、アクセス種別がライ
トであり、ライト保護フラグ130がライトを許容せ
ず、且つ、アドレス解決テーブル120から読み出した
セル番号122がセル番号レジスタ141の値と一致し
ない場合に、アドレス例外発生信号161を出力する。
【0019】次に、プロセッサ200によるメモリアク
セス時の動作について説明する。
【0020】図1から図3を参照すると、プロセッサ2
00からメモリアクセスがあると、モジュールアドレス
111によってアドレス解決テーブル120を索引する
(図3のステップS1)。その結果、有効フラグ121
が無効を示していれば(ステップS2)、当該アクセス
は存在しないアドレスにされたものであるとしてアドレ
ス不在例外とする。また、他のセルに存在するメモリア
ドレスであることが判明すると(ステップS3)、ネッ
トワーク500を介して当該他のセルでアクセスが行わ
れる。また、自セルに存在するメモリアドレスであれ
ば、自セル内の該当するメモリモジュールにアクセスす
る(ステップS4)。
【0021】また、他のセルからアクセスがあった場
合、そのアクセスがライトでなければ(ステップS
7)、自セルの場合と同様に該当するメモリモジュール
にアクセスする(ステップS4)。これに対し、他のセ
ルからのアクセスがライトの場合にはライト保護フラグ
130をチェックし(ステップS8)、他のセルからの
ライトを許容する旨を指示していれば該当するメモリモ
ジュールにアクセスし(ステップS4)、他のセルから
のライトを許容しない旨を指示していればアクセス例外
とする。
【0022】該当メモリモジュールにアクセスした結
果、例えばパリティエラーや訂正不可能なメモリ障害が
発生した場合(ステップS5)、専用線700を介して
サービスプロセッサ600に障害報告を送出する(ステ
ップS6)。アドレス不在例外、アクセス例外が発生し
た場合も、専用線700を介してサービスプロセッサ6
00に障害報告を送出する(ステップS6)。
【0023】次に、障害報告を受けたサービスプロセッ
サ600の動作を説明する。
【0024】図4を参照すると、障害報告を受けたサー
ビスプロセッサ600は全てのセル400の処理を直ち
に一時停止させる(ステップS11)。その実施例を図
5に示す。図5を参照すると、各セル400から出され
た障害報告を伝達する信号線701はサービスプロセッ
サ600内のプロセッサ601の割り込み端子に接続さ
れると共に、折り返し回路602を構成する論理和回路
603の入力端子にも接続されている。また論理和回路
603の出力は、各セル400の各部に対して動作を一
時停止すべき指令を伝達する信号線702に接続されて
いる。これによって、信号線701に障害報告が出され
ると、瞬時に全セルに対してセル動作を一時停止する指
令が信号線702によってブロードキャストされる。ま
た、プロセッサ601は信号線702によって起こる割
り込みによって障害報告を認識でき、また、信号線70
2の状態を制御することにより、一時停止の指令を解除
することができる。なお、専用線700を構成する他の
信号線群703は、サービスプロセッサ600がシステ
ムの初期設定、構成変更時の設定、セルまたはノードの
切り離し、組み込み時の設定、障害情報の採取などに使
用する信号線群である。
【0025】サービスプロセッサ600は、次に、停止
状態の全てのセル400から、障害解析に必要な各種の
情報(例外発生アドレス,障害発生アドレス、例外や障
害の種類、一時停止直前に発行されたトランザクション
の情報、プロセッサの内部レジスタ情報など)を障害情
報として採取し(ステップS12)、どのような障害が
どのセルで発生したか、その障害の影響範囲などを調べ
る障害解析を行う(ステップS13)。そして、障害の
起因であるセル(被疑セル)を特定すると、被疑セル及
びそのセルを含むノードを運用から切り離してシステム
が運用可能かを判断し(ステップS14)、可能であれ
ば被疑セル及びそのセルを含むノードをシステムから論
理的に切り離し(ステップS15)、残りのセルでシス
テムを再構成する(ステップS16)。そして、構成変
更の設定が終了しシステムが被疑セル及び被疑ノード無
しで運用できる状態になると、セル400に対する一時
停止の指令を解除する(ステップS17)。これによ
り、システムは被疑セル及び被疑ノードが切り離された
状態で運用を再開する。他方、被疑セル及び被疑セルを
含むノード以外に正常なノードが残っていない場合な
ど、被疑セル及びそのセルを含むノードを運用から切り
離すとシステムの運用が不可能になる場合は、ステップ
S15〜S17の処理はスキップする。この場合、シス
テムは停止したままとなる。
【0026】次に本実施の形態の具体例について説明す
る。
【0027】4つのセル400($0〜$3とする)の
アドレス解決テーブル120の設定を図6のようにした
場合、図7のメモリ構成が実現される。図7において、
実線部分は各セルに物理的に搭載されたメモリである。
ここでは全セルが同量のメモリを備えると仮定している
が、実際は同じでなくて良い。また、縦軸はそれぞれの
セルから見たメモリアドレスを示し、全ノードとも0番
地から始まる空間を持つと仮定している。
【0028】このメモリ構成では、セル$0とセル$1
が対象型マルチプロセッサ構成の独立したコンピュータ
を構成し、2つで1つのノード#0として、セル$2
(ノード#2)、セル$3(ノード#3)とともに図8
に示されるような3ノードのクラスタ計算機を構成す
る。ノード#0においては、セル$0の物理メモリ全部
とセル$1のメモリモジュールx0からx2の合計7モ
ジュールが、ローカルメモリとしてセル$0及びセル$
1から共通にアクセスできるように構成されている。セ
ル$1のメモリモジュールx3は、クラスタ共有メモリ
(通信エリア)としてノード間で共有されている。ま
た、セル$2及びセル$3のメモリモジュールx0から
x2は、それぞれのノードのローカルメモリにマップさ
れ、互いに独立である(セル固有メモリ)。一方、セル
$2のメモリモジュールx8とセル$3のメモリモジュ
ールx9の2モジュールが共有通信エリアに設定されて
いる。
【0029】この図6の設定の場合、ライト保護フラグ
130は、特定のセル(同じノードを構成するセル)か
らのライトアクセスを許容するよう設定される。
【0030】次に、図8乃至図11を参照して、本実施
例における障害処理の具体例を説明する。
【0031】図8において、ノード#0のセル$1の或
るプロセッサ200が、同じノード#0のセル$0のメ
モリモジュールx3に対してメモリアクセス要求を出し
たとすると、その要求は矢印aに示すルートで処理され
て、セル$0においてメモリモジュールx3がアクセス
される。このとき、メモリモジュールx3で例えば訂正
不可能なメモリ障害が発生したとすると、それを検出し
たセル$0からサービスプロセッサ600に障害報告が
出される(図8のb)。この障害報告はハードウェア的
に折り返され、一時停止指令として全セル$0〜$3に
伝達される(図8のc)。これによって、全セル$0〜
$3はその動作を一時停止する。その後、サービスプロ
セッサ600は、全セル$0〜$3から障害情報を採取
し(図9のd)、障害解析を行う。そして、セル$1か
らのメモリアクセス要求時に同じノード#0のセル$0
のメモリモジュールx3に訂正不可能なメモリ障害が発
生したこと、その影響はノード#0内に限られることを
判別し、被疑セル$0を含むノード#0をシステムから
切り離し、ノード#2、#3だけで運用を続ける。
【0032】他方、図10において、ノード#2のセル
$2の或るプロセッサ200が、ライト保護がなされて
いるノード#0のセル$1におけるメモリモジュールx
7に対してライトアクセスを行った場合(図10の
a)、セル$1においてアクセス例外が発生し、セル$
1からサービスプロセッサ600に障害報告が出される
(図10のb)。この障害報告はハードウェア的に折り
返され、一時停止指令として全セル$0〜$3に伝達さ
れる(図10のc)。これによって、全セル$0〜$3
はその動作を一時停止する。その後、サービスプロセッ
サ600は、全セル$0〜$3から障害情報を採取し
(図11のd)、障害解析を行う。そして、ノード#2
のセル$2から、ライト保護されているノード#0のセ
ル$1のメモリモジュールx7にライトアクセスが行わ
れたことによりアクセス例外が発生したこと、その影響
はノード#2内に限られることを判別し、被疑セル$2
を含むノード#2をシステムから切り離し、ノード#
0、#3だけで運用を続ける。
【0033】以上の実施の形態では、各セル内のプロセ
ッサ200とメモリ300とがセル制御回路100を介
して接続される構成を採用したが、図12に示されるよ
うに、プロセッサ200とメモリ300とがプロセッサ
バス801で接続される構成であっても良い。この場
合、セル制御回路100と同機能を有するディレクトリ
802をプロセッサバス801に接続する。また、以上
の実施の形態では、各セルに入出力コントローラを含め
なかったが、図12に示されるように入出力コントロー
ラ803がプロセッサバス801に接続されていても良
い。この場合、入出力コントローラ803に対するアク
セスもメモリ300と同じように行われる。つまり、各
プロセッサ200は入出力コントローラが物理的にどの
セルに割り当てられているかの認識なく、通常の入出力
操作によりアドレス指定で直接的に入出力コントローラ
をアクセスすることで、セル間の通信を実現する。具体
的には、ディレクトリ802は、自セルで発生したI/
O要求が自セルに実装された入出力コントローラに対す
るものであるときは、自セルの入出力コントローラにI
/O要求を転送し、結果を要求元に通知する。他方、自
セルで発生したI/O要求が他セルに実装された入出力
コントローラに対するものであるときは、相互結合網を
通じて他セルにI/O要求を転送し、他セルにおいて入
出力コントローラがアクセスされ、その結果が相互結合
網を通じて要求元のセルに戻され、そして、要求元に通
知される。
【0034】
【発明の効果】以上説明したように本発明によれば、シ
ステム運用中に或るセルで障害が発生した場合にその障
害の伝搬を未然に防止することができる。その理由は、
障害が発生した時、その報告を受けたサービスプロセッ
サが全セルの動作を瞬時に停止させるからである。
【0035】また本発明によれば、システムの信頼性、
可用性を向上させることができる。その理由は、サービ
スプロセッサが、全セルの動作を一時停止させた後、障
害解析に必要な情報の収集と解析を行って被疑セルを特
定し、被疑セルを論理的にシステムから切り離してシス
テムを再構成した後、各セルの一時停止状態を解除して
システムの運用を続行させるからである。
【図面の簡単な説明】
【図1】本発明を適用したマルチプロセッサシステムの
一例を示すブロック図である。
【図2】セル制御回路の実施例のブロック図である。
【図3】本発明の実施の形態における動作を説明するた
めの流れ図である。
【図4】サービスプロセッサの動作を説明するための流
れ図である。
【図5】障害報告を受けたサービスプロセッサが全セル
を直ちに一時停止させる実施例のブロック図である。
【図6】アドレス変換テーブルの設定例を示す図であ
る。
【図7】メモリ構成の一例を示すメモリマップである。
【図8】本発明を適用したマルチプロセッサシステムに
おける障害処理の具体例の説明図である。
【図9】本発明を適用したマルチプロセッサシステムに
おける障害処理の具体例の説明図である。
【図10】本発明を適用したマルチプロセッサシステム
における障害処理の具体例の説明図である。
【図11】本発明を適用したマルチプロセッサシステム
における障害処理の具体例の説明図である。
【図12】本発明を適用したマルチプロセッサシステム
の別の例を示すブロック図である。
【符号の説明】
100…セル制御回路 200…プロセッサ 300…メモリ 400…セル 500…ネットワーク 600…サービスプロセッサ 700…専用線

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 各々メモリと1つ以上のプロセッサを含
    む複数のセルが相互結合網によって相互に接続され、且
    つ、各セルとサービスプロセッサとが接続されたマルチ
    プロセッサシステムの障害処理方法において、 前記メモリを含む共有資源のアクセス時に障害を検出し
    たセルからサービスプロセッサへ障害報告を送出するス
    テップと、 障害報告を受信したサービスプロセッサが全セルの動作
    を瞬時に停止させるステップとを含むことを特徴とする
    マルチプロセッサシステムの障害処理方法。
  2. 【請求項2】 サービスプロセッサは、障害報告の受信
    時に直ちに全セルに対して動作の一時停止を指令するこ
    とを特徴とする請求項1記載のマルチプロセッサシステ
    ムの障害処理方法。
  3. 【請求項3】 サービスプロセッサは、受信した障害報
    告を、セル動作を一時停止する指令としてハードウェア
    的に折り返して全セルにブロードキャストすることを特
    徴とする請求項1または2記載のマルチプロセッサシス
    テムの障害処理方法。
  4. 【請求項4】 全セルの動作を一時停止させた後、サー
    ビスプロセッサが各セルから障害解析に必要な情報を収
    集して障害解析を行うステップと、 障害解析後、サービスプロセッサが被疑セルを論理的に
    システムから切り離してシステムを再構成するステップ
    と、 システム再構成後、サービスプロセッサが各セルの一時
    停止状態を解除してシステムの運用を続行させるステッ
    プとを、更に含むことを特徴とする請求項1、2または
    3記載のマルチプロセッサシステムの障害処理方法。
JP31481399A 1999-11-05 1999-11-05 マルチプロセッサシステムの障害処理方法 Pending JP2001134546A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP31481399A JP2001134546A (ja) 1999-11-05 1999-11-05 マルチプロセッサシステムの障害処理方法
EP00123939A EP1107118A3 (en) 1999-11-05 2000-11-03 Multiprocessor system and fault recovery method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31481399A JP2001134546A (ja) 1999-11-05 1999-11-05 マルチプロセッサシステムの障害処理方法

Publications (1)

Publication Number Publication Date
JP2001134546A true JP2001134546A (ja) 2001-05-18

Family

ID=18057920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31481399A Pending JP2001134546A (ja) 1999-11-05 1999-11-05 マルチプロセッサシステムの障害処理方法

Country Status (2)

Country Link
EP (1) EP1107118A3 (ja)
JP (1) JP2001134546A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171590B2 (en) 2002-07-29 2007-01-30 Nec Corporation Multi-processor system that identifies a failed node based on status information received from service processors in a partition
JP2008165776A (ja) * 2006-12-19 2008-07-17 Internatl Business Mach Corp <Ibm> データ処理システムの複数のルート複合体間の通信のために共用メモリを初期設定するための方法、プログラム、およびシステム(複数のルート複合体全域でエンドポイントを共用するために共用メモリを初期設定するためのシステムおよび方法)
JP2008171413A (ja) * 2006-12-19 2008-07-24 Internatl Business Mach Corp <Ibm> データ処理システム内で第1のホスト・システムと第2のホスト・システムとの間で通信するための方法、プログラム、およびシステム(ソケット接続および共用メモリを使用するホスト・システム間の通信のためのシステムおよび方法)
WO2008111137A1 (ja) * 2007-03-09 2008-09-18 Fujitsu Limited 情報処理装置及びドメイン動的再構成処理方法
US7493513B2 (en) 2003-04-29 2009-02-17 International Business Machines Corporation Automatically freezing functionality of a computing entity responsive to an error
WO2009147716A1 (ja) * 2008-06-02 2009-12-10 富士通株式会社 データ処理システム、データ処理方法およびデータ処理プログラム
JP2010122873A (ja) * 2008-11-19 2010-06-03 Nec Corp 情報処理装置
JP2015045905A (ja) * 2013-08-27 2015-03-12 富士通株式会社 情報処理システム、情報処理システムの障害処理方法
JP2016038829A (ja) * 2014-08-11 2016-03-22 大日本印刷株式会社 電子情報記録媒体、プロセッサモジュールの動作制御方法、及びプロセッサモジュールの動作制御プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2078311A1 (en) * 1991-09-23 1993-03-24 Sun Microsystems, Inc. Fault containment system for multiprocessor with shared memory
US5339407A (en) * 1992-09-29 1994-08-16 Amdahl Corporation Recovery of cached data from a malfunctioning CPU
DE69521101T2 (de) * 1994-10-31 2001-10-18 International Business Machines Corp., Armonk Gemeinsam genutzte virtuelle Platten mit anwendungstransparenter Wiedergewinnung
JPH0934852A (ja) * 1995-07-13 1997-02-07 Nec Corp クラスタシステム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171590B2 (en) 2002-07-29 2007-01-30 Nec Corporation Multi-processor system that identifies a failed node based on status information received from service processors in a partition
US7493513B2 (en) 2003-04-29 2009-02-17 International Business Machines Corporation Automatically freezing functionality of a computing entity responsive to an error
US7793142B2 (en) 2003-04-29 2010-09-07 International Business Machines Corporation Automatically freezing functionality of a computing entity responsive to an error
JP2008165776A (ja) * 2006-12-19 2008-07-17 Internatl Business Mach Corp <Ibm> データ処理システムの複数のルート複合体間の通信のために共用メモリを初期設定するための方法、プログラム、およびシステム(複数のルート複合体全域でエンドポイントを共用するために共用メモリを初期設定するためのシステムおよび方法)
JP2008171413A (ja) * 2006-12-19 2008-07-24 Internatl Business Mach Corp <Ibm> データ処理システム内で第1のホスト・システムと第2のホスト・システムとの間で通信するための方法、プログラム、およびシステム(ソケット接続および共用メモリを使用するホスト・システム間の通信のためのシステムおよび方法)
WO2008111137A1 (ja) * 2007-03-09 2008-09-18 Fujitsu Limited 情報処理装置及びドメイン動的再構成処理方法
WO2009147716A1 (ja) * 2008-06-02 2009-12-10 富士通株式会社 データ処理システム、データ処理方法およびデータ処理プログラム
JP5212471B2 (ja) * 2008-06-02 2013-06-19 富士通株式会社 データ処理システム、データ処理方法およびデータ処理プログラム
US8806276B2 (en) 2008-06-02 2014-08-12 Fujitsu Limited Control system for driving a data processing apparatus
JP2010122873A (ja) * 2008-11-19 2010-06-03 Nec Corp 情報処理装置
JP2015045905A (ja) * 2013-08-27 2015-03-12 富士通株式会社 情報処理システム、情報処理システムの障害処理方法
JP2016038829A (ja) * 2014-08-11 2016-03-22 大日本印刷株式会社 電子情報記録媒体、プロセッサモジュールの動作制御方法、及びプロセッサモジュールの動作制御プログラム

Also Published As

Publication number Publication date
EP1107118A3 (en) 2005-06-15
EP1107118A2 (en) 2001-06-13

Similar Documents

Publication Publication Date Title
US6782492B1 (en) Memory error recovery method in a cluster computer and a cluster computer
US5117350A (en) Memory address mechanism in a distributed memory architecture
US5784617A (en) Resource-capability-based method and system for handling service processor requests
JP3266481B2 (ja) クラスタ化コンピューティング・システムのディスク・アクセス・パスにおける障害から回復する方法および関連する装置
JP6328134B2 (ja) クラスタ化されたコンピュータ・システムで通信チャネルのフェイルオーバを実行する方法、装置、およびプログラム
JP3640187B2 (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP3807250B2 (ja) クラスタシステム、コンピュータ及びプログラム
US20020091786A1 (en) Information distribution system and load balancing method thereof
JPS60160463A (ja) プロセツサシステム
US6175931B1 (en) Global hard error distribution using the SCI interconnect
JP3720981B2 (ja) マルチプロセッサシステム
JP2001134546A (ja) マルチプロセッサシステムの障害処理方法
JP3825692B2 (ja) コンピュータシステム内に存在しないプロセッサに対する無効化要求を処理する方法及び装置
US20050165974A1 (en) Computer apparatus and computer system
US6938078B1 (en) Data processing apparatus and data processing method
US6754803B1 (en) Multiprocessor system and address solution method of the same
JPH07152697A (ja) 疎結合計算機システム
JP2937857B2 (ja) 共通記憶装置のロックフラグ解除方式および方法
JP2633351B2 (ja) 制御装置の故障検出機構
JPH05224964A (ja) バス異常通知方式
JPS6112580B2 (ja)
JPH0628407A (ja) データベースシステム
JP3312361B2 (ja) 分散共有メモリシステム
JP2746089B2 (ja) ネットワークインタフェース選択システム
KR100498909B1 (ko) 교환시스템의 프로세서간 통신 이중화 장치