JP3365282B2 - クラスタ接続マルチcpuシステムのcpuデグレード方式 - Google Patents

クラスタ接続マルチcpuシステムのcpuデグレード方式

Info

Publication number
JP3365282B2
JP3365282B2 JP33109697A JP33109697A JP3365282B2 JP 3365282 B2 JP3365282 B2 JP 3365282B2 JP 33109697 A JP33109697 A JP 33109697A JP 33109697 A JP33109697 A JP 33109697A JP 3365282 B2 JP3365282 B2 JP 3365282B2
Authority
JP
Japan
Prior art keywords
cpu
control unit
register
node
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33109697A
Other languages
English (en)
Other versions
JPH11149457A (ja
Inventor
晋樹 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33109697A priority Critical patent/JP3365282B2/ja
Publication of JPH11149457A publication Critical patent/JPH11149457A/ja
Application granted granted Critical
Publication of JP3365282B2 publication Critical patent/JP3365282B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数のCPU間で
メモリを共有するマルチ・プロセッサを有するコンピュ
ーティング・システムに関し、特に複数のCPUをクラ
スタ接続し1つのノードとみなし、さらに複数のノード
がシステム・バスに接続されるクラスタ接続マルチ・プ
ロセッサ・システムにおいて、システム立ち上げ時の耐
故障システムが重要視される高信頼性の中小規模サーバ
・コンピューティング・システムのデグレード方式に関
する。
【0002】
【従来の技術】従来、複数個のCPUを有するマルチ・
プロセッサ・システムにおいては、システムの立ち上げ
時に故障したCPUが存在していた場合、故障CPUを
切り離してシステムを縮退(デグレード)して立ち上げ
を行うように構成される。
【0003】このため、全CPUが電源投入直後より共
用の記憶装置を設け、記憶装置各部に各CPUの初期診
断結果を書き込み、故障CPUが存在する場合にはメイ
ンとなるCPUがデグレード処理を行うという方法が採
られている。
【0004】この種の従来の技術として、例えば特開平
4−329462号公報には、一部の従プロセッサが不
正動作となってもマルチプロセッサシステムを動的に縮
退させて運用を続行できるようにしたマルチプロセッサ
の動的縮退運用方式が提案されている。
【0005】この方式は、共通領域に設けられたCPU
機能割り当てテーブルを主プロセッサが更新することに
より、ある従プロセッサが故障した場合、正常な従プロ
セッサの機能分担を変更し、動的に縮退運用させること
を可能としている。
【0006】また、例えば特開平4−181435号公
報には、マルチプロセッサを有するシステムにおいて、
プロセッサ中でハードエラーが発生した場合に縮退情報
を作成して記憶して利用することでハードエラーが発生
したプロセッサを確実に認知でき、該プロセッサをシス
テムから切り放した縮退運転を実行し、信頼性を向上す
るコンピュータシステムが提案されている。このシステ
ムも、共通領域に各々のプロセッサの縮退情報を書き込
み、メイン・プロセッサが該縮退情報を参照し故障プロ
セッサを切り離して立ち上げることにより、縮退運転を
可能としたものである。
【0007】
【発明が解決しようとする課題】しかしながら、上記従
来のデグレート技術は、下記記載の問題点を有してい
る。
【0008】第1の問題点は、縮退処理を実際に行うメ
インとなるプロセッサがハードウェア的に予め決まって
おり、このメインとなるCPUが故障していた場合に
は、システムが全く立ち上がらないという状況が発生し
得る、ということである。
【0009】また、第2の問題点は、全CPUが共通に
使用可能な共用の記憶装置などが必須とされており、外
部回路の実装面積の増大とコストの上昇を招く、という
ことである。
【0010】さらに、第3の問題点として、故障のCP
UとCPU制御部をバス接続(クラスタ接続)して1ノ
ードとみなし、システム・バスに複数のノードを接続す
ることにより、バスの電気的負荷を上げることなく、よ
り多くのCPUを用いたシステムを構築することが可能
な、クラスタ接続マルチ・プロセッサ・システムを採用
した場合、クラスタ上のCPUが一つでも故障していた
場合、CPU制御部に悪影響を及ぼし、正常なCPUを
含む1ノードごとシステム・バスから切り離さざるを得
ないという事態が発生する、などの問題がある。
【0011】そして、第4の問題点として、このクラス
タ接続マルチ・プロセッサ・システムにおいては、CP
Uの個別故障、CPU制御部の個別故障など様々な故障
要因が増大し、それぞれに応じた縮退技術を用いる必要
がある。
【0012】したがって、本発明は、上記従来技術の問
題点を解消すべく創案されたものであって、その目的
は、CPUが故障した場合、及びCPU制御部が故障し
た場合に、可能な限り正常なCPUを失うことなく故障
部分をシステムから切り離して初期化動作を完了させ、
システムの故障に対する信頼性の向上を図るクラスタ接
続マルチ・プロセッサ・システムにおける故障CPUの
デグレード方式を提供することにある。
【0013】
【課題を解決するための手段】前記目的を達成するた
め、本発明のクラスタ接続マルチ・プロセッサ・システ
ムのCPUデグレート方式は、複数個のCPUと、前記
複数個のCPUの制御を行う1つのCPU制御部と、が
クラスタ・バスで接続されて1つのノードを構成し、複
数の前記CPUによって共有されるメモリ、及びI/O
制御部を備え、複数のノードの前記CPU制御部がシス
テム・バスを介して結合されるマルチCPUシステムで
あって、前記CPU制御部が、前記クラスタ・バスから
CPUを切り離し制御するための制御レジスタ(「フリ
ーズ・レジスタ」という)と、前記複数個のCPUの前
記クラスタ・バスとの接続状況を示すレジスタ(「CP
Uステータス・レジスタ」という)と、前記CPU制御
部と前記システム・バスとの論理的接続状況を示す専用
信号線(「コネクト線」という)と、前記システム・バ
スと前記CPU制御部とを論理的に切り離し制御するた
めの制御レジスタ(「ディスコネクト・レジスタ」とい
う)と、を少なくとも備え、前記各CPU制御部には、
他CPU制御部からのコネクト線が入力され、前記クラ
スタ・バス上の前記複数個のCPUの各々が動作を開始
すると、自CPUに対応するCPUステータス・レジス
タにクラスタ接続を示すフラグを書き込み、その後、前
記CPUの初期診断を開始し、前記CPUに異常が認め
られ故障と判断された場合には、前記フリーズ・レジス
タにライトし、前記故障と判断されたCPUの前記クラ
スタ・バスからの論理的切り離しを行い、前記CPU制
御部は、前記故障CPUからのリクエストには一切応答
しないことにより、前記CPUをシステム上から切り離
すように制御し、さらに、前記CPU制御部が属するノ
ード内の複数個のCPUのうちノード・マスタとなるC
PUが、前記CPU制御部の初期診断を実行し、前記C
PU制御部の初期診断の結果、前記CPU制御部に異常
が認められ故障と判断された場合には、前記CPU制御
部内の前記ディスコネクト・レジスタにライトすること
で、前記システム・バスから故障した前記CPU制御部
を論理的に切り離し、故障した前記CPU制御部の前記
コネクト線をネゲートさせ、他CPU制御部に対して、
故障した前記CPU制御部のディスクコネクトが通知さ
れる、ことを特徴とする。
【0014】また、本発明のクラスタ接続マルチ・プロ
セッサ・システムのCPUデグレート方式は、前記CP
U制御部が、クラスタ・バス上の前記CPUの、前記C
PU制御部内での一意のCPU ID番号を示すCPU
IDレジスタと、システムで一意のノードID番号を
示すノード(NODE)IDレジスタと、CPU制御部
とシステム・バスとの論理的接続状況を示す専用信号線
(コネクト線)と、複数の他CPU制御部からのコネク
ト線を受信し、リセット時に制御部の実装状況をホール
ドするレジスタ(コンフィギュレーション・レジスタ)
と、前記システム・バスと各々のCPU制御部とが、C
PU及びCPU制御部の初期診断後に前記システム・バ
スから切り離されていることを示すレジスタ(ディスコ
ネクト検出レジスタ)と、システム・バスとCPU制御
部を論理的に切り離し制御するための制御レジスタ(デ
ィスコネクト・レジスタ)と、更に備え、CPU初期診
断後、ノード内のCPUが故障と判断され全てのCPU
がフリーズ・レジスタにライトした場合、および、ノー
ド内の全てのCPUが故障、未実装などにより、前記C
PUステータス・レジスタへ一定期間内に書き込み動作
がない場合は直ちにコネクト線をネゲートし、該CPU
制御部とシステム・バスとの切り離しを行い、また、C
PU初期診断が正常終了した場合は、CPUステータス
・レジスタ、フリーズ・レジスタ、CPU ID番号レ
ジスタを読み出し、各々のCPU制御部内で正常かつI
D番号が一番小さいCPUがノード・マスタCPUとな
り、各々のCPU制御部の初期診断を開始し、CPU制
御部内に異常が認められ故障と判断された場合は、ディ
スコネクト・レジスタにライトし、コネクト線をネゲー
トさせシステム・バスからの切り離しを行い、CPU及
びCPU制御部の初期診断終了後、正常なノードマスタ
CPUはコンフィギュレーション・レジスタとディスコ
ネクト検出レジスタを読み出し、ID番号の一番小さい
ノード・マスタCPUがシステム・マスタCPUとして
決定するよう制御することを特徴とする。
【0015】また、本発明のクラスタ接続マルチ・プロ
セッサ・システムのCPUデグレート方式は、CPU初
期診断、CPU制御部初期診断、システム初期診断のそ
れぞれのプログラムを格納したメモリを備え、電源投入
などのリセット時において、(a)各々の前記CPU制
御部はコネクト線をアサートし、CPU制御部の実装状
況を他CPU制御部へ通知し、一方他CPU制御部から
のコネクト線を受信ホールドし、コンフィギュレーショ
ン・レジスタに反映させ、(b)前記複数のCPUは前
記メモリから前記初期診断プログラムを読み出し、
(c)前記CPUは前記CPU制御部内の前記CPUス
テータス・レジスタにライトを行いCPUの存在を示
し、(d)前記CPUはCPU自身内部の初期診断を行
い、CPUに異常が認められた場合は故障と判断し、フ
リーズ・レジスタへライトを行い、さらに全てのCPU
がフリーズ・レジスタへライトした場合はコネクト線を
ネゲートし、該CPU制御部とシステム・バスとの論理
的切り離しを行い(e)一方、前記初期診断を正常終了
したCPUは、CPUステータス・レジスタ、フリーズ
・レジスタ、CPU IDレジスタを読み出し、正常に
CPU初期診断を終了し且つCPU ID番号の最も小
さいCPUが該CPU制御部内のノード・マスタCPU
となり、(f)前記ノード・マスタCPUは前記CPU
制御部初期診断を実行し、CPU制御部に異常が認めら
れた場合はディスコネクト・レジスタへライトを行い、
コネクト線をネゲートし、該CPU制御部とシステム・
バスとの論理的切り離しを行い、(g)前記CPU制御
部初期診断を正常終了したノード・マスタCPUは、コ
ンフィギュレーション・レジスタとディスコネクト検出
レジスタ、ノードIDレジスタを読み出し、前記システ
ム・バスと接続状態にあり、且つノードID番号の一番
小さいCPU制御部ノードIDを調べ、自己のノードI
D番号に等しい場合にシステム・マスタCPUとなり、
システム初期診断を実行を行うことにより、前記故障C
PUを動的にシステムから切り離すことを特徴とする。
【0016】
【発明の実施の形態】本発明の好ましい実施の形態につ
いて以下に説明する。図1は、本発明の実施の形態の構
成を示す図である。
【0017】図1を参照すると、本発明の実施の形態に
おいて、複数のCPU1がクラスタ・バス7を構成し、
各クラスタ・バス7とシステム・バス6間の制御を行う
CPU制御部2が複数設けられ、複数のCPU1により
共有されるメモリ3と、I/O制御部5とがシステム・
バス6で結合されるマルチ・プロセッサ・システムとし
て構成されている。
【0018】本発明の実施の形態においては、図2に示
すように、各CPU1が動作開始直後に自CPUの存在
を示すためにライトするレジスタとして、ステータス・
レジスタ201を備え、各CPU1がCPU初期診断を
開始し故障と判断された場合には、フリーズ・レジスタ
200へライトすることにより、クラスタ・バス7から
該故障CPU1を切り離す。
【0019】一つのCPU制御部2に接続される複数の
CPU1のうち、ノード・マスタCPUの決定のための
用いられるCPU ID番号レジスタ205が備えられ
ている。
【0020】また、ノード・マスタCPUがCPU制御
部2を故障と判断した場合には、ディスコネクト・レジ
スタ204へライトすることにより、システム・バス6
から該CPU制御部2が論理的に切り離される。
【0021】さらに、システム・マスタCPUの決定に
おいては、図1に示すように、CPU制御部2の実装状
況、及びシステム・バス6との論理的接続状況を示すコ
ネクト線8が備えられ、他CPU制御部からのコネクト
線8をリセット解除直後に保持し、CPU制御部の実装
状況を反映するコンフィギュレーション・レジスタ20
2と、現在のコネクト線8の状況を反映させるディスコ
ネクト・レジスタ204と、を備えている。
【0022】各CPU1は、電源投入動作開始直後に、
自CPUの存在を示すために、CPUステータス・レジ
スタ201へライトを行い、CPU初期診断を開始す
る。
【0023】故障と判断された場合には、フリーズ・レ
ジスタ200へライトを行うことにより、クラスタ・バ
ス7からの切り離し指示を行い、以後、CPU制御部2
は、故障CPUからのリクエストに一切応答しないこと
により、故障CPUを論理的に切り離す。
【0024】CPU初期診断終了後、各CPU1は、C
PU ID番号レジスタ205、CPUステータス・レ
ジスタ201、フリーズ・レジスタ200を読み出し、
正常動作するCPUが存在しており、かつ、ID番号が
一番小さいCPUが、ノード・マスタCPUとなり、C
PU制御部の初期診断を開始する。
【0025】CPU制御部の初期診断において、CPU
制御部2が故障と判断された場合には、ディスコネクト
・レジスタ204へライトを行い、システム・バス6か
ら該故障CPU制御部2を切り離し、同時に、コネクト
線8がネゲートされ、他CPU制御部に対し、ディスコ
ネクトが通知される。
【0026】CPU制御部初期診断を正常に終了したノ
ード・マスタCPU1は、一定期間のポーリング後、デ
ィスコネクト・レジスタ204と、ノードID番号レジ
スタ206を参照し、システム・バス6とコネクト状態
にあり、且つノードID番号の一番小さいノード・マス
タCPUが、システム・マスタとなる。
【0027】
【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明の一実施例について図面を参
照して以下に説明する。図3は、本発明の一実施例の構
成を示す図である。図3を参照すると、本発明の一実施
例において、ノード60〜63は、クラスタ・バス7で
接続されたCPU10〜17と、CPU制御部20〜2
3と、から構成され、システム・バス6とローカル・バ
ス9に接続され、コネクト線80〜83は、それぞれ全
てのCPU制御部に接続されている。
【0028】ROM(読み出し専用メモリ)4には、全
プロセッサ共通の初期診断ファームウェアが格納されて
おり、各ノードからローカル・バス9を介してアクセス
される。なお、図3に示すした構成において、ノード
数、ノード内クラスタ・バスに接続されるCPU数はあ
くまで参考のために例示したものであり、本発明は、こ
れらの構成に限定されるものではない。
【0029】図4は、本発明の一実施例のCPU制御部
20〜23の構成の一例を示す図である。図4を参照す
ると、各CPU制御部20〜23は、フリーズ・レジス
タ200、CPUステータス・レジスタ201、コンフ
ィギュレーション・レジスタ202、ディスコネクト検
出レジスタ203、ディスコネクト・レジスタ204、
CPU ID番号レジスタ205、ノード(NODE)
ID番号レジスタ206と、論理回路(論理ゲート)2
11〜218と、を含み、フリーズ・レジスタ200、
CPUステータス・レジスタ201は接続される2個の
CPUに対応しており、ディスコネクト・レジスタ20
4と共にリセット直後は初期値“0”を持つ。
【0030】また、カウンタ207は、リセット解除後
にカウントを開始し、カウント値が所定のカウンタ設定
値を超えると、カウンタ・オーバーフロー線208をア
サートし続ける。カウンタ設定値はリセット後、CPU
がリクエストを出し始めるまでの仕様上の時間より長め
の時間を設定し、この設定時間を超えて、CPUからリ
クエストがない場合には、CPUの故障、または未実装
と判断するために用いられる。
【0031】また、CPU ID番号レジスタ205
は、リード要求のあったCPUに応じてID番号を返す
ようになっており、ノードID番号レジスタ206は外
部からハードウェア的に設定される。
【0032】また、コンフィギュレーション・レジスタ
202は、リセット解除直後にコネクト線80〜83を
フリップフロップ(F/F)でホールドし、ノード60
〜63の実装状況を反映し、ディスコネクト検出レジス
タ203は、現在のコネクト線80〜83の状態を反映
している。
【0033】各CPU制御部20〜23は、リセット解
除後は、CPUステータス・レジスタ201、フリーズ
・レジスタ200、ディスコネクト・レジスタ204、
カウンタオーバーフロー線208、論理回路211〜2
18の初期状態により、コネクト線から“1”を出力す
る。
【0034】一方、各CPU制御部20〜23のコネク
ト線80〜83を受信しており、リセット解除後、各コ
ネクト線をホールドし、コンフィギュレーション・レジ
スタ202へ反映させ、CPU制御部が存在する場合に
は、所定のビットに“1”が立つ。
【0035】図5は、本発明の一実施例の処理フローを
示す流れ図である。
【0036】まず、リセット解除後各CPU10〜17
はローカル・バス9を介して初期診断ファームウェアが
格納されているROM4の内容を読み出し、ROMに書
かれた命令を実行する(ステップ101)。
【0037】ROM4の内容を読み出すことが出来た場
合、CPUは、CPUステータス・レジスタ201へラ
イトを行い(ステップ102)、所定のビットに“1”
が書き込まれる。
【0038】故障のためROMを読み出せない、または
CPUが実装されていない場合には、CPUステータス
・レジスタ201へ値が書き込まれないため、システム
全体には最初から存在しないものとして認識される。
【0039】正常なCPUは、次にCPU初期診断ファ
ームウェアを実行し(ステップ103)、異常を検知し
(ステップ104)、故障と判断した場合には、フリー
ズ・レジスタ200へライトを行い(ステップ11
2)、クラスタ・バス7から該故障CPUを切り離すよ
う指示する。CPU制御部は以後、該故障CPUからの
リクエストには一切応答せず、結果的にクラスタ・バス
7上から論理的に切り離される。
【0040】ここで、CPUが未実装、または故障のた
めCPUステータス・レジスタ201にライトが行われ
ていない場合には、CPUステータス・レジスタ201
の値(反転論理)と、一定期間を経てアサートされたカ
ウンタ・オーバーフロー線208との論理積をとる論理
積(AND)ゲート211、213の出力が“1”とな
り、また故障によりフリーズ・レジスタ200へ“1”
がライトされた場合、論理積(AND)ゲート212,
214の出力が“1”となり、論理積ゲート217へ入
力され、結果的にノード内の全てのCPUが動作不可能
な場合(ステップ115)には、否定論理和(NOR)
218を介して、コネクト線がネゲートされ、直ちに他
CPU制御部へ通知され、CPU制御部自体がシステム
・バスから切り離される(ステップ116)。
【0041】コネクト線をネゲートしたCPU制御部は
以後システム・バスを介する一切の応答を停止する。
【0042】ノード内に正常なCPUが残されている場
合には、CPUステータス・レジスタ201、フリーズ
・レジスタ200、CPU ID番号レジスタを読み出
し(ステップ105)、正常動作しているCPUが自己
CPU ID番号に等しい場合にノード・マスタCPU
となる(ステップ106)。
【0043】それ以外のCPUは、ノード・スレーブC
PUとなり、専用のポーリング・ルーチンへ移る(ステ
ップ114)。
【0044】ノード・マスクとなったCPUは、次に、
CPU制御部初期診断を行い(ステップ107)、異常
を検知し(ステップ108)故障と判断した場合には、
ディスコネクト・レジスタ204へライトを行い(ステ
ップ113)、否定論理和(NOR)ゲート218を介
してコネクト線がネゲートされ、直ちに他CPU制御部
へ通知され、CPU制御部自体がシステム・バスから切
り離される(ステップ116)。
【0045】CPU制御部初期診断を正常終了したノー
ド・マスタCPUは、全ノードが初期診断処理が終了す
るのを一定時間待ち合わせた後、コンフィギュレーショ
ン・レジスタ202、ディスコネクト検出レジスタ20
3、ノードID番号レジスタ206を読み出し(ステッ
プ109)、システム・バス6とコネクト状態にあり、
最も小さい番号を持つノードを調べ、自己のノードID
番号に等しい場合システム・マスタCPUとなる(ステ
ップ110)。
【0046】それ以外はスレーブCUPとなり、専用の
ポーリング・ルーチンへ移る(ステップ114)。
【0047】システム・マスタCPUはシステム全体の
初期化を完了する(ステップ111)。
【0048】このように、本実施例によれば、クラスタ
・バスによって複数のCPUが一つのノードを構成し、
さらに複数のノードがシステム・バスへ接続されるシス
テムにおいて、どのCPU、またどのCPU制御部が故
障した場合においても、各々の階層でマスタとなるCP
Uが動的に変更され、効率的にデグレート処理が行うこ
とが可能とされている。以上、本発明は上記実施例にの
み限定されるものでなく、本発明の原理に準ずる各種態
様を含むことは勿論である。
【0049】
【発明の効果】以上説明したように、本発明によれば、
複数のCPUとCPU制御部をクラスタ接続し一ノード
とみなし、システム・バスに複数のノードを接続するこ
とにより、バスの電気的負荷を上げることなくより、多
くのCPUを用いたシステムを構築することが可能な、
クラスタ接続マルチ・プロセッサ・システムを採用した
場合において、CPUの個別故障、CPU制御部の個別
故障などに対し、各々の階層でマスタとなるCPUが動
的に変更されるため、マスタCPUが故障、またはマス
タ・ノードが故障のためにシステム全体が立ち上がらな
くなるという問題点を解消し、効率的にデグレート処理
が行うことを可能とする、という効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の形態の基本構成を示すブロック
図である。
【図2】本発明の実施の形態において、CPU制御部内
の構成を簡単に説明するための図である。
【図3】本発明の一実施例の構成を示す図である。
【図4】本発明の一実施例のCPU制御部内の構成を示
す図である。
【図5】本発明の一実施例の動作を説明する流れ図であ
る。
【符号の説明】
1,10〜17 CPU 2,20〜23 CPU制御部 3 メモリ 4 ROM 5 I/O制御部 6 システム・バス 7 クラスタ・バス 8,80〜83 コネクト線 9 ローカル・バス 60〜63 ノード

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】複数個のCPUと、前記複数個のCPUの
    制御を行う1つのCPU制御部と、 がクラスタ・バスで接続されて1つのノードを構成し、 複数の前記CPUによって共有されるメモリ、及びI/
    O制御部を備え、 複数のノードの前記CPU制御部がシステム・バスを介
    して結合されるマルチCPUシステムであって、 前記CPU制御部が、 前記クラスタ・バスからCPUを切り離し制御するため
    の制御レジスタ(「フリーズ・レジスタ」という)と、 前記複数個のCPUの前記クラスタ・バスとの接続状況
    を示すレジスタ(「CPUステータス・レジスタ」とい
    う)と、前記CPU制御部と前記システム・バスとの論理的接続
    状況を示す専用信号線(「コネクト線」という)と、 前記システム・バスと前記CPU制御部とを論理的に切
    り離し制御するための制御レジスタ(「ディスコネクト
    ・レジスタ」という)と、 を少なくとも備え、前記各CPU制御部には、他CPU制御部からのコネク
    ト線が入力され、 前記クラスタ・バス上の前記複数個のCPUの各々が動
    作を開始すると、自CPUに対応するCPUステータス
    ・レジスタにクラスタ接続を示すフラグを書き込み、そ
    の後、前記CPUの初期診断を開始し、前記CPUに異
    常が認められ故障と判断された場合には、前記フリーズ
    ・レジスタにライトし、前記故障と判断されたCPUの
    前記クラスタ・バスからの論理的切り離しを行い、前記
    CPU制御部は、前記故障CPUからのリクエストには
    一切応答しないことにより、前記CPUをシステム上か
    ら切り離すように制御し、さらに、 前記CPU制御部が属するノード内の複数個のCPUの
    うちノード・マスタとなるCPUが、前記CPU制御部
    の初期診断を実行し、前記CPU制御部の初期診断の結
    果、前記CPU制御部に異常が認められ故障と判断され
    た場合には、前記CPU制御部内の前記ディスコネクト
    ・レジスタにライトすることで、前記シ ステム・バスか
    ら故障した前記CPU制御部を論理的に切り離し、故障
    した前記CPU制御部の前記コネクト線をネゲートさ
    せ、他CPU制御部に対して、故障した前記CPU制御
    部のディスクコネクトが通知される、ことを特徴とする
    クラスタ接続マルチ・プロセッサ・システムのCPUデ
    グレード方式。
  2. 【請求項2】前記CPU制御部が、前記クラスタ・バス
    上の前記CPUの、前記CPU制御部内での一意のCP
    UのID番号を示すCPU・ID番号レジスタと、 システムで一意のノードID番号を示すノードID番号
    レジスタと、 複数の他CPU制御部からの複数の前記コネクト線を入
    力し、電源投入などのリセット解除直後の前記各コネク
    ト線の値を記憶保持するレジスタ(「コンフィギュレー
    ション・レジスタ」という)と、 前記システム・バスと各々の前記CPU制御部とが、前
    記CPU及び前記CPU制御部の初期診断後に前記シス
    テム・バスから切り離されていることを示すレジスタ
    (「ディスコネクト検出レジスタ」という)と、 を更に備え、前記 CPU初期診断後、前記CPU制御部に接続され
    るノード上のCPUの各々において、該CPUが故障と
    判断されCPUがフリーズ・レジスタにライトしてい
    か、又は、該CPUが故障、未実装などにより、前記
    CPUステータス・レジスタへ一定期間内に書き込み動
    作がない、という条件が、前記ノード上の全てのCPU
    について成り立つ場合、直ちに、前記コネクト線をネゲ
    ートし、該CPU制御部と前記システム・バスとの切り
    離しを行い、前記 CPU初期診断が正常終了した場合は、前記CP
    Uステータス・レジスタ、前記フリーズ・レジスタ、前
    記CPU・ID番号レジスタを読み出し、各々の前記
    PU制御部が属するノード内で、正常かつCPU・ID
    番号が最小のCPUがノード・マスタCPUとなり、各
    々の前記CPU制御部の初期診断を開始し、初期診断の
    結果、前記CPU制御部内に異常が認められ故障と判断
    された場合は、前記ディスコネクト・レジスタにライト
    し、前記コネクト線をネゲートさせ前記システム・バス
    から切り離しを行い、 前記CPU及び前記CPU制御部の初期診断終了後、
    正常なノード・マスタCPUは、前記コンフィギュレー
    ション・レジスタ、前記ディスコネクト検出レジスタ、
    前記ノードID番号レジスタを読み出し、正常動作し、
    且つID番号の一番小さいノード・マスタCPUがシス
    テム・マスタCPUとして決定される制御が行われる、 ことを特徴とする請求項1記載のクラスタ接続マルチC
    PUシステムのCPUデグレード方式。
  3. 【請求項3】前記CPU初期診断、前記CPU制御部
    初期診断、前記システム初期診断のそれぞれのプロ
    グラムを格納したメモリを備え、 電源投入などのリセット時において、 (a)各々の前記CPU制御部は、前記コネクト線をア
    サートし、前記CPU制御部の実装状況を他CPU制御
    部へ通知し、一方、他CPU制御部からのコネクト線の
    値を保持して前記コンフィギュレーション・レジスタに
    反映させ、 (b)前記複数のCPUは、前記メモリから前記初期診
    断プログラムを読み出し、 (c)前記CPUは、前記CPU制御部内の前記CPU
    ステータス・レジスタにライトを行ってCPUの存在を
    示し、 (d)前記CPUは、前記CPU自身内部の初期診断を
    行い、自CPUに異常が認められた場合に故障と判断
    し、前記フリーズ・レジスタへライトを行い、さらに全
    ての前記CPUが前記フリーズ・レジスタへライトした
    場合前記コネクト線をネゲートし、前記CPU制御
    部とシステム・バスとの論理的切り離しを行い (e)一方、前記初期診断を正常終了したCPUは、前
    記CPUステータス・レジスタ、前記フリーズ・レジス
    タ、前記CPU・ID番号レジスタを読出し、正常にC
    PU初期診断を終了し、且つCPU・ID番号の最も
    小さいCPUが該CPU制御部が属するノード内のノー
    ド・マスタCPUとなり、 (f)前記ノード・マスタCPUは、前記CPU制御部
    初期診断を実行し、前記CPU制御部に異常が認めら
    れた場合には、前記ディスコネクト・レジスタへライト
    を行い、前記コネクト線をネゲートし、該CPU制御部
    前記システム・バスとの論理的切り離しを行い、 (g)前記CPU制御部の初期診断正常終了した
    合、前記ノード・マスタCPUは、前記コンフィギュレ
    ーション・レジスタ、前記ディスコネクト検出レジス
    タ、前記ノードID番号レジスタを読み出し、前記シス
    テム・バスと接続状態にあり、且つノードID番号の最
    も小さいCPU制御部のノードIDを調べ、前記ノード
    IDが自己のノードID番号に等しい場合に、システム
    ・マスタCPUとなり、システム全体の初期化を完了さ
    せる、ことを特徴とする請求項記載のクラスタ接続マ
    ルチ・プロセッサ・システムのCPUデグレート方式。
  4. 【請求項4】複数のCPUと、前記複数のCPUを制御
    するCPU制御部とがクラスタ・バスを介して接続され
    1つのCPUノードを構成し、 前記CPUノードの前記CPU制御部は、システム・バ
    スを介して、他のCPUノードのCPU制御部、及び、
    前記システム・バスに接続されるメモリ、I/O制御部
    に接続されてなるマルチCPUシステムにおけるCPU
    のデグレード方式であって、 前記CPU制御部前記CPU制御部が属するCPU
    ノード内の前記CPUの切り離し制御のための第1のレ
    ジスタと、前記 CPUのクラスタ・バスの接続状態を示す第2の
    レジスタと、前記システム・バスと前記CPU制御部とを論理的に切
    り離し制御するための第3のレジスタと、 前記CPU制御部と前記システム・バスとの論理的接続
    状況を示す専用信号線(「コネクト線」という)と、 を少なくとも含み、前記各CPU制御部には、他CPU制御部からのコネク
    ト線が入力され、 故障したCPUを個別に前記クラスタ・バスから切り離
    すように制御すると共に、1つのCPUノード内のノー
    ド・マスタCPU、CPUノードにおけるシステム・
    マスタCPUを動的に決定するための手段を備え、前記ノード・マスタCPUは、前記ノード・マスタCP
    Uが属するCPUノードの 前記CPU制御部の初期診断
    を行い、前記CPU制御部の初期診断の結果、異常が認
    められ故障と判断された場合は、前記CPU制御部内
    の前記第3のレジスタにライトすることで、前記システ
    ム・バスから、故障した前記CPU制御部を論理的に
    り離故障した前記CPU制御部の前記コネクト線を
    ネゲートさせ、他のCPUノードのCPU制御部に対し
    て、故障した前記CPU制御部のディスクコネクトが通
    知される、ことを特徴とするクラスタ接続マルチ・プロ
    セッサ・システムのCPUデグレード方式。
JP33109697A 1997-11-14 1997-11-14 クラスタ接続マルチcpuシステムのcpuデグレード方式 Expired - Fee Related JP3365282B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33109697A JP3365282B2 (ja) 1997-11-14 1997-11-14 クラスタ接続マルチcpuシステムのcpuデグレード方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33109697A JP3365282B2 (ja) 1997-11-14 1997-11-14 クラスタ接続マルチcpuシステムのcpuデグレード方式

Publications (2)

Publication Number Publication Date
JPH11149457A JPH11149457A (ja) 1999-06-02
JP3365282B2 true JP3365282B2 (ja) 2003-01-08

Family

ID=18239819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33109697A Expired - Fee Related JP3365282B2 (ja) 1997-11-14 1997-11-14 クラスタ接続マルチcpuシステムのcpuデグレード方式

Country Status (1)

Country Link
JP (1) JP3365282B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352677A (ja) * 2004-06-09 2005-12-22 Sony Corp マルチプロセッサシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4411602B2 (ja) 2004-12-16 2010-02-10 日本電気株式会社 フォールトトレラント・コンピュータシステム
JP5220281B2 (ja) * 2006-03-31 2013-06-26 日本電気株式会社 情報処理システムのコアセル変更制御方式及びその制御プログラム
JP5541519B2 (ja) * 2010-10-06 2014-07-09 エヌイーシーコンピュータテクノ株式会社 情報処理装置、故障部位判別方法および故障部位判別プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352677A (ja) * 2004-06-09 2005-12-22 Sony Corp マルチプロセッサシステム
JP4525188B2 (ja) * 2004-06-09 2010-08-18 ソニー株式会社 マルチプロセッサシステム

Also Published As

Publication number Publication date
JPH11149457A (ja) 1999-06-02

Similar Documents

Publication Publication Date Title
US11586514B2 (en) High reliability fault tolerant computer architecture
EP1078317B1 (en) Method for switching between multiple system processors
CN106776159B (zh) 具有故障转移的快速外围元件互连网络系统与操作方法
JP2552651B2 (ja) 再構成可能なデュアル・プロセッサ・システム
JP3447404B2 (ja) マルチプロセッサシステム
US7007192B2 (en) Information processing system, and method and program for controlling the same
US20040210800A1 (en) Error management
US6640203B2 (en) Process monitoring in a computer system
US20040221198A1 (en) Automatic error diagnosis
WO2020239060A1 (zh) 错误恢复的方法和装置
JP2004342109A (ja) 入出力ファブリックにおけるハードウェア・エラーからの自動回復
US6785763B2 (en) Efficient memory modification tracking with hierarchical dirty indicators
JPH11161625A (ja) コンピュータ・システム
JP4182948B2 (ja) フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法
JP2002259130A (ja) 情報処理システムおよびその起動制御方法
US6862645B2 (en) Computer system
US11360839B1 (en) Systems and methods for storing error data from a crash dump in a computer system
JP3365282B2 (ja) クラスタ接続マルチcpuシステムのcpuデグレード方式
WO2008004330A1 (fr) Système à processeurs multiples
JP5733384B2 (ja) 情報処理装置
JP4165499B2 (ja) コンピュータシステム及びそれを用いたフォールトトレラントシステム並びにその動作制御方法
JP5970846B2 (ja) 計算機システム及び計算機システムの制御方法
US11099838B1 (en) Method and system for recovery for custom integrated circuit
JPH08263455A (ja) マルチ・プロセッサ・システムにおける故障プロセッサのデグレード方式
KR19990057809A (ko) 오류 방지 시스템

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021001

LAPS Cancellation because of no payment of annual fees