JP3365282B2

JP3365282B2 - クラスタ接続マルチｃｐｕシステムのｃｐｕデグレード方式

Info

Publication number: JP3365282B2
Application number: JP33109697A
Authority: JP
Inventors: 晋樹阿部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-11-14
Filing date: 1997-11-14
Publication date: 2003-01-08
Anticipated expiration: 2017-11-14
Also published as: JPH11149457A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数のＣＰＵ間で
メモリを共有するマルチ・プロセッサを有するコンピュ
ーティング・システムに関し、特に複数のＣＰＵをクラ
スタ接続し１つのノードとみなし、さらに複数のノード
がシステム・バスに接続されるクラスタ接続マルチ・プ
ロセッサ・システムにおいて、システム立ち上げ時の耐
故障システムが重要視される高信頼性の中小規模サーバ
・コンピューティング・システムのデグレード方式に関
する。

【０００２】

【従来の技術】従来、複数個のＣＰＵを有するマルチ・
プロセッサ・システムにおいては、システムの立ち上げ
時に故障したＣＰＵが存在していた場合、故障ＣＰＵを
切り離してシステムを縮退（デグレード）して立ち上げ
を行うように構成される。

【０００３】このため、全ＣＰＵが電源投入直後より共
用の記憶装置を設け、記憶装置各部に各ＣＰＵの初期診
断結果を書き込み、故障ＣＰＵが存在する場合にはメイ
ンとなるＣＰＵがデグレード処理を行うという方法が採
られている。

【０００４】この種の従来の技術として、例えば特開平
４−３２９４６２号公報には、一部の従プロセッサが不
正動作となってもマルチプロセッサシステムを動的に縮
退させて運用を続行できるようにしたマルチプロセッサ
の動的縮退運用方式が提案されている。

【０００５】この方式は、共通領域に設けられたＣＰＵ
機能割り当てテーブルを主プロセッサが更新することに
より、ある従プロセッサが故障した場合、正常な従プロ
セッサの機能分担を変更し、動的に縮退運用させること
を可能としている。

【０００６】また、例えば特開平４−１８１４３５号公
報には、マルチプロセッサを有するシステムにおいて、
プロセッサ中でハードエラーが発生した場合に縮退情報
を作成して記憶して利用することでハードエラーが発生
したプロセッサを確実に認知でき、該プロセッサをシス
テムから切り放した縮退運転を実行し、信頼性を向上す
るコンピュータシステムが提案されている。このシステ
ムも、共通領域に各々のプロセッサの縮退情報を書き込
み、メイン・プロセッサが該縮退情報を参照し故障プロ
セッサを切り離して立ち上げることにより、縮退運転を
可能としたものである。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来のデグレート技術は、下記記載の問題点を有してい
る。

【０００８】第１の問題点は、縮退処理を実際に行うメ
インとなるプロセッサがハードウェア的に予め決まって
おり、このメインとなるＣＰＵが故障していた場合に
は、システムが全く立ち上がらないという状況が発生し
得る、ということである。

【０００９】また、第２の問題点は、全ＣＰＵが共通に
使用可能な共用の記憶装置などが必須とされており、外
部回路の実装面積の増大とコストの上昇を招く、という
ことである。

【００１０】さらに、第３の問題点として、故障のＣＰ
ＵとＣＰＵ制御部をバス接続（クラスタ接続）して１ノ
ードとみなし、システム・バスに複数のノードを接続す
ることにより、バスの電気的負荷を上げることなく、よ
り多くのＣＰＵを用いたシステムを構築することが可能
な、クラスタ接続マルチ・プロセッサ・システムを採用
した場合、クラスタ上のＣＰＵが一つでも故障していた
場合、ＣＰＵ制御部に悪影響を及ぼし、正常なＣＰＵを
含む１ノードごとシステム・バスから切り離さざるを得
ないという事態が発生する、などの問題がある。

【００１１】そして、第４の問題点として、このクラス
タ接続マルチ・プロセッサ・システムにおいては、ＣＰ
Ｕの個別故障、ＣＰＵ制御部の個別故障など様々な故障
要因が増大し、それぞれに応じた縮退技術を用いる必要
がある。

【００１２】したがって、本発明は、上記従来技術の問
題点を解消すべく創案されたものであって、その目的
は、ＣＰＵが故障した場合、及びＣＰＵ制御部が故障し
た場合に、可能な限り正常なＣＰＵを失うことなく故障
部分をシステムから切り離して初期化動作を完了させ、
システムの故障に対する信頼性の向上を図るクラスタ接
続マルチ・プロセッサ・システムにおける故障ＣＰＵの
デグレード方式を提供することにある。

【００１３】

【課題を解決するための手段】前記目的を達成するた
め、本発明のクラスタ接続マルチ・プロセッサ・システ
ムのＣＰＵデグレート方式は、複数個のＣＰＵと、前記
複数個のＣＰＵの制御を行う１つのＣＰＵ制御部と、が
クラスタ・バスで接続されて１つのノードを構成し、複
数の前記ＣＰＵによって共有されるメモリ、及びＩ／Ｏ
制御部を備え、複数のノードの前記ＣＰＵ制御部がシス
テム・バスを介して結合されるマルチＣＰＵシステムで
あって、前記ＣＰＵ制御部が、前記クラスタ・バスから
ＣＰＵを切り離し制御するための制御レジスタ（「フリ
ーズ・レジスタ」という）と、前記複数個のＣＰＵの前
記クラスタ・バスとの接続状況を示すレジスタ（「ＣＰ
Ｕステータス・レジスタ」という）と、前記ＣＰＵ制御
部と前記システム・バスとの論理的接続状況を示す専用
信号線（「コネクト線」という）と、前記システム・バ
スと前記ＣＰＵ制御部とを論理的に切り離し制御するた
めの制御レジスタ（「ディスコネクト・レジスタ」とい
う）と、を少なくとも備え、前記各ＣＰＵ制御部には、
他ＣＰＵ制御部からのコネクト線が入力され、前記クラ
スタ・バス上の前記複数個のＣＰＵの各々が動作を開始
すると、自ＣＰＵに対応するＣＰＵステータス・レジス
タにクラスタ接続を示すフラグを書き込み、その後、前
記ＣＰＵの初期診断を開始し、前記ＣＰＵに異常が認め
られ故障と判断された場合には、前記フリーズ・レジス
タにライトし、前記故障と判断されたＣＰＵの前記クラ
スタ・バスからの論理的切り離しを行い、前記ＣＰＵ制
御部は、前記故障ＣＰＵからのリクエストには一切応答
しないことにより、前記ＣＰＵをシステム上から切り離
すように制御し、さらに、前記ＣＰＵ制御部が属するノ
ード内の複数個のＣＰＵのうちノード・マスタとなるＣ
ＰＵが、前記ＣＰＵ制御部の初期診断を実行し、前記Ｃ
ＰＵ制御部の初期診断の結果、前記ＣＰＵ制御部に異常
が認められ故障と判断された場合には、前記ＣＰＵ制御
部内の前記ディスコネクト・レジスタにライトすること
で、前記システム・バスから故障した前記ＣＰＵ制御部
を論理的に切り離し、故障した前記ＣＰＵ制御部の前記
コネクト線をネゲートさせ、他ＣＰＵ制御部に対して、
故障した前記ＣＰＵ制御部のディスクコネクトが通知さ
れる、ことを特徴とする。

【００１４】また、本発明のクラスタ接続マルチ・プロ
セッサ・システムのＣＰＵデグレート方式は、前記ＣＰ
Ｕ制御部が、クラスタ・バス上の前記ＣＰＵの、前記Ｃ
ＰＵ制御部内での一意のＣＰＵＩＤ番号を示すＣＰＵ
ＩＤレジスタと、システムで一意のノードＩＤ番号を
示すノード（ＮＯＤＥ）ＩＤレジスタと、ＣＰＵ制御部
とシステム・バスとの論理的接続状況を示す専用信号線
（コネクト線）と、複数の他ＣＰＵ制御部からのコネク
ト線を受信し、リセット時に制御部の実装状況をホール
ドするレジスタ（コンフィギュレーション・レジスタ）
と、前記システム・バスと各々のＣＰＵ制御部とが、Ｃ
ＰＵ及びＣＰＵ制御部の初期診断後に前記システム・バ
スから切り離されていることを示すレジスタ（ディスコ
ネクト検出レジスタ）と、システム・バスとＣＰＵ制御
部を論理的に切り離し制御するための制御レジスタ（デ
ィスコネクト・レジスタ）と、更に備え、ＣＰＵ初期診
断後、ノード内のＣＰＵが故障と判断され全てのＣＰＵ
がフリーズ・レジスタにライトした場合、および、ノー
ド内の全てのＣＰＵが故障、未実装などにより、前記Ｃ
ＰＵステータス・レジスタへ一定期間内に書き込み動作
がない場合は直ちにコネクト線をネゲートし、該ＣＰＵ
制御部とシステム・バスとの切り離しを行い、また、Ｃ
ＰＵ初期診断が正常終了した場合は、ＣＰＵステータス
・レジスタ、フリーズ・レジスタ、ＣＰＵＩＤ番号レ
ジスタを読み出し、各々のＣＰＵ制御部内で正常かつＩ
Ｄ番号が一番小さいＣＰＵがノード・マスタＣＰＵとな
り、各々のＣＰＵ制御部の初期診断を開始し、ＣＰＵ制
御部内に異常が認められ故障と判断された場合は、ディ
スコネクト・レジスタにライトし、コネクト線をネゲー
トさせシステム・バスからの切り離しを行い、ＣＰＵ及
びＣＰＵ制御部の初期診断終了後、正常なノードマスタ
ＣＰＵはコンフィギュレーション・レジスタとディスコ
ネクト検出レジスタを読み出し、ＩＤ番号の一番小さい
ノード・マスタＣＰＵがシステム・マスタＣＰＵとして
決定するよう制御することを特徴とする。

【００１５】また、本発明のクラスタ接続マルチ・プロ
セッサ・システムのＣＰＵデグレート方式は、ＣＰＵ初
期診断、ＣＰＵ制御部初期診断、システム初期診断のそ
れぞれのプログラムを格納したメモリを備え、電源投入
などのリセット時において、（ａ）各々の前記ＣＰＵ制
御部はコネクト線をアサートし、ＣＰＵ制御部の実装状
況を他ＣＰＵ制御部へ通知し、一方他ＣＰＵ制御部から
のコネクト線を受信ホールドし、コンフィギュレーショ
ン・レジスタに反映させ、（ｂ）前記複数のＣＰＵは前
記メモリから前記初期診断プログラムを読み出し、
（ｃ）前記ＣＰＵは前記ＣＰＵ制御部内の前記ＣＰＵス
テータス・レジスタにライトを行いＣＰＵの存在を示
し、（ｄ）前記ＣＰＵはＣＰＵ自身内部の初期診断を行
い、ＣＰＵに異常が認められた場合は故障と判断し、フ
リーズ・レジスタへライトを行い、さらに全てのＣＰＵ
がフリーズ・レジスタへライトした場合はコネクト線を
ネゲートし、該ＣＰＵ制御部とシステム・バスとの論理
的切り離しを行い（ｅ）一方、前記初期診断を正常終了
したＣＰＵは、ＣＰＵステータス・レジスタ、フリーズ
・レジスタ、ＣＰＵＩＤレジスタを読み出し、正常に
ＣＰＵ初期診断を終了し且つＣＰＵＩＤ番号の最も小
さいＣＰＵが該ＣＰＵ制御部内のノード・マスタＣＰＵ
となり、（ｆ）前記ノード・マスタＣＰＵは前記ＣＰＵ
制御部初期診断を実行し、ＣＰＵ制御部に異常が認めら
れた場合はディスコネクト・レジスタへライトを行い、
コネクト線をネゲートし、該ＣＰＵ制御部とシステム・
バスとの論理的切り離しを行い、（ｇ）前記ＣＰＵ制御
部初期診断を正常終了したノード・マスタＣＰＵは、コ
ンフィギュレーション・レジスタとディスコネクト検出
レジスタ、ノードＩＤレジスタを読み出し、前記システ
ム・バスと接続状態にあり、且つノードＩＤ番号の一番
小さいＣＰＵ制御部ノードＩＤを調べ、自己のノードＩ
Ｄ番号に等しい場合にシステム・マスタＣＰＵとなり、
システム初期診断を実行を行うことにより、前記故障Ｃ
ＰＵを動的にシステムから切り離すことを特徴とする。

【００１６】

【発明の実施の形態】本発明の好ましい実施の形態につ
いて以下に説明する。図１は、本発明の実施の形態の構
成を示す図である。

【００１７】図１を参照すると、本発明の実施の形態に
おいて、複数のＣＰＵ１がクラスタ・バス７を構成し、
各クラスタ・バス７とシステム・バス６間の制御を行う
ＣＰＵ制御部２が複数設けられ、複数のＣＰＵ１により
共有されるメモリ３と、Ｉ／Ｏ制御部５とがシステム・
バス６で結合されるマルチ・プロセッサ・システムとし
て構成されている。

【００１８】本発明の実施の形態においては、図２に示
すように、各ＣＰＵ１が動作開始直後に自ＣＰＵの存在
を示すためにライトするレジスタとして、ステータス・
レジスタ２０１を備え、各ＣＰＵ１がＣＰＵ初期診断を
開始し故障と判断された場合には、フリーズ・レジスタ
２００へライトすることにより、クラスタ・バス７から
該故障ＣＰＵ１を切り離す。

【００１９】一つのＣＰＵ制御部２に接続される複数の
ＣＰＵ１のうち、ノード・マスタＣＰＵの決定のための
用いられるＣＰＵＩＤ番号レジスタ２０５が備えられ
ている。

【００２０】また、ノード・マスタＣＰＵがＣＰＵ制御
部２を故障と判断した場合には、ディスコネクト・レジ
スタ２０４へライトすることにより、システム・バス６
から該ＣＰＵ制御部２が論理的に切り離される。

【００２１】さらに、システム・マスタＣＰＵの決定に
おいては、図１に示すように、ＣＰＵ制御部２の実装状
況、及びシステム・バス６との論理的接続状況を示すコ
ネクト線８が備えられ、他ＣＰＵ制御部からのコネクト
線８をリセット解除直後に保持し、ＣＰＵ制御部の実装
状況を反映するコンフィギュレーション・レジスタ２０
２と、現在のコネクト線８の状況を反映させるディスコ
ネクト・レジスタ２０４と、を備えている。

【００２２】各ＣＰＵ１は、電源投入動作開始直後に、
自ＣＰＵの存在を示すために、ＣＰＵステータス・レジ
スタ２０１へライトを行い、ＣＰＵ初期診断を開始す
る。

【００２３】故障と判断された場合には、フリーズ・レ
ジスタ２００へライトを行うことにより、クラスタ・バ
ス７からの切り離し指示を行い、以後、ＣＰＵ制御部２
は、故障ＣＰＵからのリクエストに一切応答しないこと
により、故障ＣＰＵを論理的に切り離す。

【００２４】ＣＰＵ初期診断終了後、各ＣＰＵ１は、Ｃ
ＰＵＩＤ番号レジスタ２０５、ＣＰＵステータス・レ
ジスタ２０１、フリーズ・レジスタ２００を読み出し、
正常動作するＣＰＵが存在しており、かつ、ＩＤ番号が
一番小さいＣＰＵが、ノード・マスタＣＰＵとなり、Ｃ
ＰＵ制御部の初期診断を開始する。

【００２５】ＣＰＵ制御部の初期診断において、ＣＰＵ
制御部２が故障と判断された場合には、ディスコネクト
・レジスタ２０４へライトを行い、システム・バス６か
ら該故障ＣＰＵ制御部２を切り離し、同時に、コネクト
線８がネゲートされ、他ＣＰＵ制御部に対し、ディスコ
ネクトが通知される。

【００２６】ＣＰＵ制御部初期診断を正常に終了したノ
ード・マスタＣＰＵ１は、一定期間のポーリング後、デ
ィスコネクト・レジスタ２０４と、ノードＩＤ番号レジ
スタ２０６を参照し、システム・バス６とコネクト状態
にあり、且つノードＩＤ番号の一番小さいノード・マス
タＣＰＵが、システム・マスタとなる。

【００２７】

【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明の一実施例について図面を参
照して以下に説明する。図３は、本発明の一実施例の構
成を示す図である。図３を参照すると、本発明の一実施
例において、ノード６０〜６３は、クラスタ・バス７で
接続されたＣＰＵ１０〜１７と、ＣＰＵ制御部２０〜２
３と、から構成され、システム・バス６とローカル・バ
ス９に接続され、コネクト線８０〜８３は、それぞれ全
てのＣＰＵ制御部に接続されている。

【００２８】ＲＯＭ（読み出し専用メモリ）４には、全
プロセッサ共通の初期診断ファームウェアが格納されて
おり、各ノードからローカル・バス９を介してアクセス
される。なお、図３に示すした構成において、ノード
数、ノード内クラスタ・バスに接続されるＣＰＵ数はあ
くまで参考のために例示したものであり、本発明は、こ
れらの構成に限定されるものではない。

【００２９】図４は、本発明の一実施例のＣＰＵ制御部
２０〜２３の構成の一例を示す図である。図４を参照す
ると、各ＣＰＵ制御部２０〜２３は、フリーズ・レジス
タ２００、ＣＰＵステータス・レジスタ２０１、コンフ
ィギュレーション・レジスタ２０２、ディスコネクト検
出レジスタ２０３、ディスコネクト・レジスタ２０４、
ＣＰＵＩＤ番号レジスタ２０５、ノード（ＮＯＤＥ）
ＩＤ番号レジスタ２０６と、論理回路（論理ゲート）２
１１〜２１８と、を含み、フリーズ・レジスタ２００、
ＣＰＵステータス・レジスタ２０１は接続される２個の
ＣＰＵに対応しており、ディスコネクト・レジスタ２０
４と共にリセット直後は初期値“０”を持つ。

【００３０】また、カウンタ２０７は、リセット解除後
にカウントを開始し、カウント値が所定のカウンタ設定
値を超えると、カウンタ・オーバーフロー線２０８をア
サートし続ける。カウンタ設定値はリセット後、ＣＰＵ
がリクエストを出し始めるまでの仕様上の時間より長め
の時間を設定し、この設定時間を超えて、ＣＰＵからリ
クエストがない場合には、ＣＰＵの故障、または未実装
と判断するために用いられる。

【００３１】また、ＣＰＵＩＤ番号レジスタ２０５
は、リード要求のあったＣＰＵに応じてＩＤ番号を返す
ようになっており、ノードＩＤ番号レジスタ２０６は外
部からハードウェア的に設定される。

【００３２】また、コンフィギュレーション・レジスタ
２０２は、リセット解除直後にコネクト線８０〜８３を
フリップフロップ（Ｆ／Ｆ）でホールドし、ノード６０
〜６３の実装状況を反映し、ディスコネクト検出レジス
タ２０３は、現在のコネクト線８０〜８３の状態を反映
している。

【００３３】各ＣＰＵ制御部２０〜２３は、リセット解
除後は、ＣＰＵステータス・レジスタ２０１、フリーズ
・レジスタ２００、ディスコネクト・レジスタ２０４、
カウンタオーバーフロー線２０８、論理回路２１１〜２
１８の初期状態により、コネクト線から“１”を出力す
る。

【００３４】一方、各ＣＰＵ制御部２０〜２３のコネク
ト線８０〜８３を受信しており、リセット解除後、各コ
ネクト線をホールドし、コンフィギュレーション・レジ
スタ２０２へ反映させ、ＣＰＵ制御部が存在する場合に
は、所定のビットに“１”が立つ。

【００３５】図５は、本発明の一実施例の処理フローを
示す流れ図である。

【００３６】まず、リセット解除後各ＣＰＵ１０〜１７
はローカル・バス９を介して初期診断ファームウェアが
格納されているＲＯＭ４の内容を読み出し、ＲＯＭに書
かれた命令を実行する（ステップ１０１）。

【００３７】ＲＯＭ４の内容を読み出すことが出来た場
合、ＣＰＵは、ＣＰＵステータス・レジスタ２０１へラ
イトを行い（ステップ１０２）、所定のビットに“１”
が書き込まれる。

【００３８】故障のためＲＯＭを読み出せない、または
ＣＰＵが実装されていない場合には、ＣＰＵステータス
・レジスタ２０１へ値が書き込まれないため、システム
全体には最初から存在しないものとして認識される。

【００３９】正常なＣＰＵは、次にＣＰＵ初期診断ファ
ームウェアを実行し（ステップ１０３）、異常を検知し
（ステップ１０４）、故障と判断した場合には、フリー
ズ・レジスタ２００へライトを行い（ステップ１１
２）、クラスタ・バス７から該故障ＣＰＵを切り離すよ
う指示する。ＣＰＵ制御部は以後、該故障ＣＰＵからの
リクエストには一切応答せず、結果的にクラスタ・バス
７上から論理的に切り離される。

【００４０】ここで、ＣＰＵが未実装、または故障のた
めＣＰＵステータス・レジスタ２０１にライトが行われ
ていない場合には、ＣＰＵステータス・レジスタ２０１
の値（反転論理）と、一定期間を経てアサートされたカ
ウンタ・オーバーフロー線２０８との論理積をとる論理
積（ＡＮＤ）ゲート２１１、２１３の出力が“１”とな
り、また故障によりフリーズ・レジスタ２００へ“１”
がライトされた場合、論理積（ＡＮＤ）ゲート２１２，
２１４の出力が“１”となり、論理積ゲート２１７へ入
力され、結果的にノード内の全てのＣＰＵが動作不可能
な場合（ステップ１１５）には、否定論理和（ＮＯＲ）
２１８を介して、コネクト線がネゲートされ、直ちに他
ＣＰＵ制御部へ通知され、ＣＰＵ制御部自体がシステム
・バスから切り離される（ステップ１１６）。

【００４１】コネクト線をネゲートしたＣＰＵ制御部は
以後システム・バスを介する一切の応答を停止する。

【００４２】ノード内に正常なＣＰＵが残されている場
合には、ＣＰＵステータス・レジスタ２０１、フリーズ
・レジスタ２００、ＣＰＵＩＤ番号レジスタを読み出
し（ステップ１０５）、正常動作しているＣＰＵが自己
ＣＰＵＩＤ番号に等しい場合にノード・マスタＣＰＵ
となる（ステップ１０６）。

【００４３】それ以外のＣＰＵは、ノード・スレーブＣ
ＰＵとなり、専用のポーリング・ルーチンへ移る（ステ
ップ１１４）。

【００４４】ノード・マスクとなったＣＰＵは、次に、
ＣＰＵ制御部初期診断を行い（ステップ１０７）、異常
を検知し（ステップ１０８）故障と判断した場合には、
ディスコネクト・レジスタ２０４へライトを行い（ステ
ップ１１３）、否定論理和（ＮＯＲ）ゲート２１８を介
してコネクト線がネゲートされ、直ちに他ＣＰＵ制御部
へ通知され、ＣＰＵ制御部自体がシステム・バスから切
り離される（ステップ１１６）。

【００４５】ＣＰＵ制御部初期診断を正常終了したノー
ド・マスタＣＰＵは、全ノードが初期診断処理が終了す
るのを一定時間待ち合わせた後、コンフィギュレーショ
ン・レジスタ２０２、ディスコネクト検出レジスタ２０
３、ノードＩＤ番号レジスタ２０６を読み出し（ステッ
プ１０９）、システム・バス６とコネクト状態にあり、
最も小さい番号を持つノードを調べ、自己のノードＩＤ
番号に等しい場合システム・マスタＣＰＵとなる（ステ
ップ１１０）。

【００４６】それ以外はスレーブＣＵＰとなり、専用の
ポーリング・ルーチンへ移る（ステップ１１４）。

【００４７】システム・マスタＣＰＵはシステム全体の
初期化を完了する（ステップ１１１）。

【００４８】このように、本実施例によれば、クラスタ
・バスによって複数のＣＰＵが一つのノードを構成し、
さらに複数のノードがシステム・バスへ接続されるシス
テムにおいて、どのＣＰＵ、またどのＣＰＵ制御部が故
障した場合においても、各々の階層でマスタとなるＣＰ
Ｕが動的に変更され、効率的にデグレート処理が行うこ
とが可能とされている。以上、本発明は上記実施例にの
み限定されるものでなく、本発明の原理に準ずる各種態
様を含むことは勿論である。

【００４９】

【発明の効果】以上説明したように、本発明によれば、
複数のＣＰＵとＣＰＵ制御部をクラスタ接続し一ノード
とみなし、システム・バスに複数のノードを接続するこ
とにより、バスの電気的負荷を上げることなくより、多
くのＣＰＵを用いたシステムを構築することが可能な、
クラスタ接続マルチ・プロセッサ・システムを採用した
場合において、ＣＰＵの個別故障、ＣＰＵ制御部の個別
故障などに対し、各々の階層でマスタとなるＣＰＵが動
的に変更されるため、マスタＣＰＵが故障、またはマス
タ・ノードが故障のためにシステム全体が立ち上がらな
くなるという問題点を解消し、効率的にデグレート処理
が行うことを可能とする、という効果を奏する。

【図面の簡単な説明】

【図１】本発明の実施の形態の基本構成を示すブロック
図である。

【図２】本発明の実施の形態において、ＣＰＵ制御部内
の構成を簡単に説明するための図である。

【図３】本発明の一実施例の構成を示す図である。

【図４】本発明の一実施例のＣＰＵ制御部内の構成を示
す図である。

【図５】本発明の一実施例の動作を説明する流れ図であ
る。

【符号の説明】

１，１０〜１７ＣＰＵ２，２０〜２３ＣＰＵ制御部３メモリ４ＲＯＭ５Ｉ／Ｏ制御部６システム・バス７クラスタ・バス８，８０〜８３コネクト線９ローカル・バス６０〜６３ノード

Claims

(57)【特許請求の範囲】

【請求項１】複数個のＣＰＵと、前記複数個のＣＰＵの
制御を行う１つのＣＰＵ制御部と、がクラスタ・バスで接続されて１つのノードを構成し、複数の前記ＣＰＵによって共有されるメモリ、及びＩ／
Ｏ制御部を備え、複数のノードの前記ＣＰＵ制御部がシステム・バスを介
して結合されるマルチＣＰＵシステムであって、前記ＣＰＵ制御部が、前記クラスタ・バスからＣＰＵを切り離し制御するため
の制御レジスタ（「フリーズ・レジスタ」という）と、前記複数個のＣＰＵの前記クラスタ・バスとの接続状況
を示すレジスタ（「ＣＰＵステータス・レジスタ」とい
う）と、前記ＣＰＵ制御部と前記システム・バスとの論理的接続
状況を示す専用信号線（「コネクト線」という）と、前記システム・バスと前記ＣＰＵ制御部とを論理的に切
り離し制御するための制御レジスタ（「ディスコネクト
・レジスタ」という）と、を少なくとも備え、前記各ＣＰＵ制御部には、他ＣＰＵ制御部からのコネク
ト線が入力され、前記クラスタ・バス上の前記複数個のＣＰＵの各々が動
作を開始すると、自ＣＰＵに対応するＣＰＵステータス
・レジスタにクラスタ接続を示すフラグを書き込み、そ
の後、前記ＣＰＵの初期診断を開始し、前記ＣＰＵに異
常が認められ故障と判断された場合には、前記フリーズ
・レジスタにライトし、前記故障と判断されたＣＰＵの
前記クラスタ・バスからの論理的切り離しを行い、前記
ＣＰＵ制御部は、前記故障ＣＰＵからのリクエストには
一切応答しないことにより、前記ＣＰＵをシステム上か
ら切り離すように制御し、さらに、前記ＣＰＵ制御部が属するノード内の複数個のＣＰＵの
うちノード・マスタとなるＣＰＵが、前記ＣＰＵ制御部
の初期診断を実行し、前記ＣＰＵ制御部の初期診断の結
果、前記ＣＰＵ制御部に異常が認められ故障と判断され
た場合には、前記ＣＰＵ制御部内の前記ディスコネクト
・レジスタにライトすることで、前記システム・バスか
ら故障した前記ＣＰＵ制御部を論理的に切り離し、故障
した前記ＣＰＵ制御部の前記コネクト線をネゲートさ
せ、他ＣＰＵ制御部に対して、故障した前記ＣＰＵ制御
部のディスクコネクトが通知される、ことを特徴とする
クラスタ接続マルチ・プロセッサ・システムのＣＰＵデ
グレード方式。
【請求項２】前記ＣＰＵ制御部が、前記クラスタ・バス
上の前記ＣＰＵの、前記ＣＰＵ制御部内での一意のＣＰ
ＵのＩＤ番号を示すＣＰＵ・ＩＤ番号レジスタと、システムで一意のノードＩＤ番号を示すノードＩＤ番号
レジスタと、複数の他ＣＰＵ制御部からの複数の前記コネクト線を入
力し、電源投入などのリセット解除直後の前記各コネク
ト線の値を記憶保持するレジスタ（「コンフィギュレー
ション・レジスタ」という）と、前記システム・バスと各々の前記ＣＰＵ制御部とが、前
記ＣＰＵ及び前記ＣＰＵ制御部の初期診断後に前記シス
テム・バスから切り離されていることを示すレジスタ
（「ディスコネクト検出レジスタ」という）と、を更に備え、前記ＣＰＵの初期診断後、前記ＣＰＵ制御部に接続され
るノード上のＣＰＵの各々において、該ＣＰＵが故障と
判断され該ＣＰＵがフリーズ・レジスタにライトしてい
るか、又は、該ＣＰＵが故障、未実装などにより、前記
ＣＰＵステータス・レジスタへ一定期間内に書き込み動
作がない、という条件が、前記ノード上の全てのＣＰＵ
について成り立つ場合、直ちに、前記コネクト線をネゲ
ートし、該ＣＰＵ制御部と前記システム・バスとの切り
離しを行い、前記ＣＰＵの初期診断が正常終了した場合は、前記ＣＰ
Ｕステータス・レジスタ、前記フリーズ・レジスタ、前
記ＣＰＵ・ＩＤ番号レジスタを読み出し、各々の前記Ｃ
ＰＵ制御部が属するノード内で、正常かつＣＰＵ・ＩＤ
番号が最小のＣＰＵがノード・マスタＣＰＵとなり、各
々の前記ＣＰＵ制御部の初期診断を開始し、初期診断の
結果、前記ＣＰＵ制御部内に異常が認められ故障と判断
された場合は、前記ディスコネクト・レジスタにライト
し、前記コネクト線をネゲートさせ前記システム・バス
から切り離しを行い、前記ＣＰＵ及び前記ＣＰＵ制御部の初期診断の終了後、
正常なノード・マスタＣＰＵは、前記コンフィギュレー
ション・レジスタ、前記ディスコネクト検出レジスタ、
前記ノードＩＤ番号レジスタを読み出し、正常動作し、
且つＩＤ番号の一番小さいノード・マスタＣＰＵがシス
テム・マスタＣＰＵとして決定される制御が行われる、ことを特徴とする請求項１記載のクラスタ接続マルチＣ
ＰＵシステムのＣＰＵデグレード方式。
【請求項３】前記ＣＰＵの初期診断、前記ＣＰＵ制御部
の初期診断、前記システムの初期診断のそれぞれのプロ
グラムを格納したメモリを備え、電源投入などのリセット時において、（ａ）各々の前記ＣＰＵ制御部は、前記コネクト線をア
サートし、前記ＣＰＵ制御部の実装状況を他ＣＰＵ制御
部へ通知し、一方、他ＣＰＵ制御部からのコネクト線の
値を保持して前記コンフィギュレーション・レジスタに
反映させ、（ｂ）前記複数のＣＰＵは、前記メモリから前記初期診
断プログラムを読み出し、（ｃ）前記ＣＰＵは、前記ＣＰＵ制御部内の前記ＣＰＵ
ステータス・レジスタにライトを行ってＣＰＵの存在を
示し、（ｄ）前記ＣＰＵは、前記ＣＰＵ自身内部の初期診断を
行い、自ＣＰＵに異常が認められた場合に故障と判断
し、前記フリーズ・レジスタへライトを行い、さらに全
ての前記ＣＰＵが前記フリーズ・レジスタへライトした
場合には前記コネクト線をネゲートし、前記ＣＰＵ制御
部とシステム・バスとの論理的切り離しを行い、（ｅ）一方、前記初期診断を正常終了したＣＰＵは、前
記ＣＰＵステータス・レジスタ、前記フリーズ・レジス
タ、前記ＣＰＵ・ＩＤ番号レジスタを読出し、正常にＣ
ＰＵの初期診断を終了し、且つＣＰＵ・ＩＤ番号の最も
小さいＣＰＵが該ＣＰＵ制御部が属するノード内のノー
ド・マスタＣＰＵとなり、（ｆ）前記ノード・マスタＣＰＵは、前記ＣＰＵ制御部
の初期診断を実行し、前記ＣＰＵ制御部に異常が認めら
れた場合には、前記ディスコネクト・レジスタへライト
を行い、前記コネクト線をネゲートし、該ＣＰＵ制御部
と前記システム・バスとの論理的切り離しを行い、（ｇ）前記ＣＰＵ制御部の初期診断が正常終了した場
合、前記ノード・マスタＣＰＵは、前記コンフィギュレ
ーション・レジスタ、前記ディスコネクト検出レジス
タ、前記ノードＩＤ番号レジスタを読み出し、前記シス
テム・バスと接続状態にあり、且つノードＩＤ番号の最
も小さいＣＰＵ制御部のノードＩＤを調べ、前記ノード
ＩＤが自己のノードＩＤ番号に等しい場合に、システム
・マスタＣＰＵとなり、システム全体の初期化を完了さ
せる、ことを特徴とする請求項２記載のクラスタ接続マ
ルチ・プロセッサ・システムのＣＰＵデグレート方式。
【請求項４】複数のＣＰＵと、前記複数のＣＰＵを制御
するＣＰＵ制御部とがクラスタ・バスを介して接続され
て１つのＣＰＵノードを構成し、前記ＣＰＵノードの前記ＣＰＵ制御部は、システム・バ
スを介して、他のＣＰＵノードのＣＰＵ制御部、及び、
前記システム・バスに接続されるメモリ、Ｉ／Ｏ制御部
に接続されてなるマルチＣＰＵシステムにおけるＣＰＵ
のデグレード方式であって、前記ＣＰＵ制御部が、前記ＣＰＵ制御部が属するＣＰＵ
ノード内の前記ＣＰＵの切り離し制御のための第１のレ
ジスタと、前記ＣＰＵのクラスタ・バスへの接続状態を示す第２の
レジスタと、前記システム・バスと前記ＣＰＵ制御部とを論理的に切
り離し制御するための第３のレジスタと、前記ＣＰＵ制御部と前記システム・バスとの論理的接続
状況を示す専用信号線（「コネクト線」という）と、を少なくとも含み、前記各ＣＰＵ制御部には、他ＣＰＵ制御部からのコネク
ト線が入力され、故障したＣＰＵを個別に前記クラスタ・バスから切り離
すように制御すると共に、１つのＣＰＵノード内のノー
ド・マスタＣＰＵ、ＣＰＵノード間におけるシステム・
マスタＣＰＵを動的に決定するための手段を備え、前記ノード・マスタＣＰＵは、前記ノード・マスタＣＰ
Ｕが属するＣＰＵノードの前記ＣＰＵ制御部の初期診断
を行い、前記ＣＰＵ制御部の初期診断の結果、異常が認
められ故障と判断された場合には、前記ＣＰＵ制御部内
の前記第３のレジスタにライトすることで、前記システ
ム・バスから、故障した前記ＣＰＵ制御部を論理的に切
り離し、故障した前記ＣＰＵ制御部の前記コネクト線を
ネゲートさせ、他のＣＰＵノードのＣＰＵ制御部に対し
て、故障した前記ＣＰＵ制御部のディスクコネクトが通
知される、ことを特徴とするクラスタ接続マルチ・プロ
セッサ・システムのＣＰＵデグレード方式。