JPH0628251A - 耐故障マルチプロセッサ・コンピュータ・システム - Google Patents

耐故障マルチプロセッサ・コンピュータ・システム

Info

Publication number
JPH0628251A
JPH0628251A JP4138895A JP13889592A JPH0628251A JP H0628251 A JPH0628251 A JP H0628251A JP 4138895 A JP4138895 A JP 4138895A JP 13889592 A JP13889592 A JP 13889592A JP H0628251 A JPH0628251 A JP H0628251A
Authority
JP
Japan
Prior art keywords
block
cache
error
memory device
parity error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4138895A
Other languages
English (en)
Other versions
JP2566356B2 (ja
Inventor
David S Edwards
デヴィッド・エス・エドワーズ
William A Shelly
ウィリアム・エイ・シェリー
Jiuyih Chang
ジウィー・チャン
Minoru Inoshita
ミノル・イノシタ
Leonard G Trubisky
レナード・ジー・トルビスキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BULL H N INF SYST Inc
Bull HN Information Systems Inc
Original Assignee
BULL H N INF SYST Inc
Bull HN Information Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US07/708,965 external-priority patent/US5649090A/en
Application filed by BULL H N INF SYST Inc, Bull HN Information Systems Inc filed Critical BULL H N INF SYST Inc
Publication of JPH0628251A publication Critical patent/JPH0628251A/ja
Application granted granted Critical
Publication of JP2566356B2 publication Critical patent/JP2566356B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】 (修正有) 【目的】複数の中央処理装置を含む耐故障コンピュータ
・システムを提供する。 【構成】CPUの各々にキャッシュ・メモリー、及び読
出し/書込みされた情報のブロックにおけるパリティ・
エラーを検出するパリティ・エラー検出器を設ける。シ
ステム・バスが、CPUをパリティ・エラー訂正機能を
有するSCU(システム制御装置)に接続し、メモリー
・バスがSCUを主メモリーに接続する。エラー回復制
御機能が、サイフォン動作と関連して送出側のCPUに
おける読出しパリティ・エラー及び受取り側のCPUに
おける書込みパリティ・エラーの検出に応答して、故障
ブロックを送出側CPUからSCU(与えられた故障ブ
ロックが訂正される)を介して主メモリーへ転送し、そ
の後再試行が行われる時、訂正されたメモリー・ブロッ
クを主メモリーから受取り側CPUへ転送する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータ・システ
ムに関し、特にプロセッサのサイフォン・キャッシュ記
憶装置のエラーに対して耐故障性を有するマルチプロセ
ッサ・コンピュータ・システムに関する。
【0002】
【従来の技術】パーソナル・コンピュータおよびワーク
ステーションが益々強力になるに伴い、伝統的なメイン
フレーム・ベンダーが当面する主な問題の1つは、急激
に進歩する比較的小型のマシンからの自社の中型システ
ムの差別化にある。メインフレーム・マシンを小型のマ
シンから差別化し得る1つの重要な領域は、耐故障性の
領域にある。
【0003】プロセッサのキャッシュ記憶装置のエラー
の問題は、メインフレーム・システムにおけるキャッシ
ュ・メモリーの使用の全歴史における問題であった。こ
れらのエラーは、主メモリー・エラーでもそうであるよ
うに、α粒子の衝突または過渡的な(あるいはハード
の)記憶要素の故障によって生じ得る。本発明が使途を
見出す事例システムでは、主メモリーの単ビット・エラ
ーは、欠点と関連するワードが要求側装置へ送られる前
にエラー状態のビットを訂正するメモリー・コントロー
ラにおける専用化されたハードウエアにより、システム
の可視性から隠蔽される。しかし、プロセッサのキャッ
シュの故障は、訂正ハードウエアがVLSIチップで使
用可能な集積回路面積制限などの多くの理由からプロセ
ッサ用に設計されていないために、キャッシュの読出し
アクティビティ中には訂正されない。
【0004】プロセッサのキャッシュ・メモリーの利点
は、故障した時に生じる複雑な問題に大きく勝る。キャ
ッシュ・メモリーは、これによらない場合照会毎にプロ
セッサがメモリーから取出さねばならないデータおよび
命令に対する高速アクセスを提供する。キャッシュ・メ
モリーは、典型的には、主メモリーのアクセスに必要な
時間の10乃至25%で済み、従ってキャッシュ・メモ
リーはシステムのデータ記憶階層構造における恒久的な
地位を取得してきた。
【0005】キャッシュ・メモリーをその中央処理装置
アーキテクチャに盛込むコンピュータ設計の労力は、下
記の逓増する困難な諸問題に当てなければならない。
【0006】1.プロセッサは、キャッシュのエラー条
件を検出することが絶対必要であり、さもなければ、デ
ータの汚染をもたらす結果となる。この問題に対する最
も安価な解決法は、この種のエラーが発生する時システ
ムをハングアップさせるか壊す以外に何もしないことで
あるが、この方法は実際問題としてメインフレームの対
応としては全く受入れ得ない。
【0007】2.装備の充分なマシンは、故障したキャ
ッシュ記憶要素の構成解除を支援すべきである。切離さ
れた故障要素を単に構成解除することにより、プロセッ
サは実質的な性能損失もなく実行を継続し得る。キャッ
シュ・メモリーは、多くのキャッシュ記憶要素を含むブ
ロックに分割される。この例示的なマシンでは、ブロッ
ク・サイズは16ワード(64バイト)である。キャッ
シュ・メモリーはまた、このような関係においてはブロ
ックの全列を意味するレベルの如き更に粗な細分割に分
割することもできる。例示的なマシンでは、そのキャッ
シュ・ブロックおよびキャッシュ・レベルを個々に構成
解除することを可能にするロジックで設計されている。
【0008】3.真に装備の充実したマシンは、プロセ
ッサのキャッシュ・エラーが生じると、エラー状態にあ
るブロックの最近のコピーを主メモリーから検索するこ
とができるか、あるいはエラー状態のブロックを何らか
の方法で補正することができることを保証すべきであ
る。例示的なマシンにおいては、主メモリーへの書込み
中にのみ生じたキャッシュ・ブロックの単一ビット・エ
ラーを訂正するための誤り訂正コードが組み込まれてい
る。しかし、このマシンの設計は、特定のキャッシュ・
ブロックの明瞭な「不自然な」訂正あるいは影響を受け
た命令の再開は対象としていなかった。(「不自然な」
とは、本文においては、例え自然な置換アルゴリズムが
エラー時のこのような事象を指令しなくとも、ブロック
が訂正のため交換されることが要求されることを示すた
め使用される。) 4.例示的な装置の如きストア・イン型のキャッシュ・
マシンは、非常に効率的に動作し得るが、その働きを実
際にする主メモリーに対する書込みの遅延の特性は、処
理能力を更に改善するため他のプロセッサがシステムに
追加される時の負担である。多重プロセッサ構成は、キ
ャッシュ・エラーの処理、即ちエラー状態のブロックが
1つのプロセッサのキャッシュに存在して1つ以上のプ
ロセッサにより要求され、ブロックの「更新された」コ
ピーがシステムの主メモリーに存在しないキャッシュ・
オペランド・ブロックのエラーの取扱いにおける最後の
挑戦である。本発明が目的とするこの問題は、一般にサ
イフォン・エラー状態と呼ばれる。(サイフォンとは、
多重プロセッサ・システムの1つのプロセッサから別の
プロセッサまたは入出力装置に対するキャッシュ・ブロ
ックの転送を規定するため使用される当技術の用語であ
る。)単一プロセッサ・システムにおいて遭遇する同様
な問題は、本願と同日付で出願されたD.S.Edwa
rds等の米国特許出願「Fault Toleran
t Computer System」により包含され
る関連発明が対象としている。
【0009】あるストア・イン型キャッシュの従来技術
システムは、エラーを含むデータがキャッシュから読出
される時エラーを訂正するため、エラー訂正ハードウエ
アを各キャッシュに付設することによりプロセッサのキ
ャッシュ・エラーの問題を取扱っている。これは、問題
に対する有効ではあるが高価な解決策である。
【0010】キャッシュのデータ訂正および再試行状態
を解決する第2の従来技術の試みは、ストア・スルー・
キャッシュを実現することにより問題を隠蔽する手法を
内蔵するものであった。(ストア・スルー構造において
は、1つのキャッシュ・ブロックが更新される時、この
キャッシュ・ブロックはキャッシュと主メモリーの両方
に即時書込まれる。)このような試みにより、キャッシ
ュからの取出しがエラーである時は常に、プロセッサは
キャッシュ・バイパスを強制して、命令の実行時とキャ
ッシュの更新(復元)時の双方において使用するブロッ
クに対するメモリー読込みを発する。この解決法の利点
は、影響を受けた命令がインパクトを受けず、従って、
このような全てのエラーが回復できるように、メモリー
からの取出しがキャッシュ・ミス条件と一致することで
ある。この解決法は、ストア・スルー設計の利点を利用
するもので、この設計は定義により主メモリーを常に更
新させる利益を提供する。
【0011】ストア・イン・キャッシュ設計(コピー・
バック・キャッシュとして公知である)は、より少ない
プロセッサ・メモリー間書込みアクティビティを、従っ
てあるバス設計が実現される時システム・バスにおける
ボトルネックを比較的少なくすることになる比較的少な
い主メモリー通信量を結果として生じる故に、ストア・
スルー設計に勝る性能本位のシステムに有利である。強
化された性能をもたらすストア・イン特性は、必然的
に、システムにおけるデータの特定ブロックの唯一の妥
当コピーをしばしば含むキャッシュをもたらす結果とな
る。即ち、1つのキャッシュ・ブロックが修正された
時、これは主メモリーへは書戻されない。その代わり、
これは、第2のアクティブな装置(CPUまたはI/O
装置)により要求されるまで、あるいは新しいブロック
に対するキャッシュ内の余地を作るためこのブロックを
置換せねばならないとき主メモリーに対して書戻される
まで保持される。
【0012】当業者には、別の試みにおいて、従来技術
の解決法と関連するコストおよび複雑さによらずに、プ
ロセッサのキャッシュ・エラー状態に対するこれらの従
来技術の解決法の利点を達成することが非常に望ましい
ことが明らかであろう。
【0013】
【課題を解決するための手段】従って、本発明の広義の
目的は、実現が簡単かつ経済的な、プロセッサのキャッ
シュ・エラー状態に対する解決法の提供にある。
【0014】本発明の更に特定な目的は、相互に個々の
プロセッサのキャッシュ・メモリーのアクセスを試みる
マルチプロセッサを内蔵するシステムに用いる時、問題
の状況におけるプロセッサのキャッシュ・エラー状態に
対する解決法の提供にある。
【0015】要約すれば、本発明の上記および他の目的
は、それぞれキャッシュ・メモリー、およびキャッシュ
・メモリー装置に関して読出し/書込みされる情報ブロ
ックにおけるパリティ・エラーを検出してパリティ・エ
ラーが検出されるならば読出しまたは書込みキャッシュ
・エラー・フラッグを生じるためのパリティ・エラー検
出器を備えたキャッシュ・メモリー装置を有する複数の
中央処理装置を含む耐故障性のあるコンピュータ・シス
テムにより達成される。システム・バスが、CPUをパ
リティ・エラー訂正機能を持つシステム制御装置に接続
し、メモリー・バスがSCUを主メモリーに接続する。
CPU、サービス・プロセッサおよびオペレーティング
・システム・ソフトウエアに跨って分散されるエラー回
復制御機能が、故障ブロックを送出側CPUからSCU
(与えられた故障ブロックが訂正される)を介して主メ
モリーへ転送し、その後再試行が行われる時、訂正され
たメモリー・ブロックを主メモリーから受信側CPUへ
転送するためのサイフォン動作と関連して、送出側CP
Uにおける読出しパリティ・エラー・フラッグおよび受
信側CPUにおける書込みパリティ・エラー・フラッグ
の検出に応答する。
【0016】本発明の主題は、特に本明細書の終結部分
において特に指摘され、明瞭に請求される。しかし、本
発明については、構成および作動方法の双方に関して、
頭書の特許請求の範囲および添付図面に関して以降の記
述を参照することにより最もよく理解されよう。
【0017】
【実施例】まず、本発明が組込まれる例示的な中央サブ
システム構造(CSS)を示す図1を参照されたい。シ
ステム制御装置(SCU)1は、システム・バス2とメ
モリー・バス3のスケジューリングを集中して制御す
る。更に、SCU1:A)メモリー制御、単一ビット・
エラー訂正および2倍ビット・エラー検出を行い、B)
メモリー装置(MU)4当たり1つずつ存在するメモリ
ー形態を制御し、C)中央処理装置(CPU)5のスト
ア・イン型キャッシュ構造と関連してCPUとMU間の
64バイト・ブロック転送を管理し、D)CPUのキャ
ッシュの修正ブロックにあるいはCPU、MUまたは入
出力装置(IOU)6からのデータ転送時に見出される
単一ビット・エラーを訂正し、E)システム・カレンダ
・クロックを含む。
【0018】システム・バス2は、1乃至4個のCPU
および1乃至4個のIOUを相互にかつSCUと相互に
接続する。このシステム・バスは、16バイトの2方向
性データ・インターフェースと、2方向性アドレスおよ
び指令インターフェースと、全てのCPUおよびIOU
により監視されるSCU状態インターフェースと、SC
Uと各CPUとIOU間の少数の制御線とを含む。デー
タは、16、32または64バイト・グループにおける
システム・バス上で交換され、データの交換はCPUと
MU、IOUとMU、2つのCPU、およびCPUとI
OU間で生じ得る。システム・バス2を介する諸動作は
下記の如くである。即ち、 −読出し:16、32または64バイト −排他性読出し:64バイト −IOUからの書込み:16、32または64バイト −CPUからの書込み(スワッピング):64バイト −割込みおよび接続;−読出し/書込みレジスタ 各システム・バス動作は、アドレス相およびデータ相か
らなり、アドレス相は2マシン・サイクル毎に開始し得
る。1つのグループ内の連続する16バイトのデータ転
送は、連続するマシン・サイクルで起生し得る。IOU
またはCPUは、同時に2つまでの要求のデータ相を待
機することができる。データ・ブロックは、要求の受取
りと同じ順序で転送される。
【0019】メモリー・バス3は、1乃至8個のMUを
SCUと連結する。このメモリー・バスは、16バイト
の2方向性データ・インターフェースと、SCUから全
てのMUに至るアドレスおよび指令インターフェース
と、SCUと各MU間の少数の制御線とを含む。データ
は、メモリー・バス上で16、32または64バイト・
グループで交換される。メモリー・バス3を介する動作
は下記の如くである。即ち、 −読出し:16、32または64バイト −書込み:16、32または64バイト 主メモリーは、8個までのMUからなっている。(9番
目のスロット、MU4Aは、故障の場合に再構成および
修理を容易にするため設けられる。)単一ビット訂正、
2倍ビット検出コードが2倍ワード毎に、即ち72デー
タ・ビット毎に8コード・ビット記憶される。このコー
ドは、1チップ内の4ビットのエラーが4つの異なるワ
ードにおける4つの単一ビット・エラーとして訂正され
るように構成される。MUにおけるデータは、16バイ
ト(4ワード)の増分でSCUからアドレス指定され
る。どのMU内の全てのバイトは連続的にアドレス指定
される、即ち、並列で動作するMU間にはインターレー
スは生じない。1つのメモリー・サイクルは、マシン・
サイクル毎に開始し、CPUから判るように、他の装置
との競合がないものとして、1つのメモリー・サイクル
は10マシン・サイクルである。MU4は、160のダ
イナミック・ランダム・アクセス・メモリー(DRA
M)回路を含み、その各々はn×4ビットの記憶要素を
有し、n=256、1024、あるいは4096であ
る。
【0020】IOU6はそれぞれ、各入出力バス(IO
B)7が1つのIOUとインターフェースするように、
システム・バス2と2つのIOB7間の接続を提供す
る。このため、IOUはCSSと図1には示さないI/
Oサブシステム間のデータ転送を管理する。
【0021】クロックおよび保守装置(CMU)8は、
CSSにおける全ての装置に対するクロック信号を生成
し、分配、同調して、サービス・プロセッサ(SP)9
と中央処理、入出力および電源サブシステム間にインタ
ーフェースを提供し、CSSの諸装置を初期化し、CS
S装置内で検出されたエラーを処理する。CSSは、2
相クロック・システムおよびラッチされたレジスタ要素
を使用し、これにおいては、クロック1の後エッジが位
相1の終りを定義し、クロック2の後エッジは位相2の
終りを定義し、このため各位相は1マシン・サイクルの
半分となる。
【0022】SP9は、遠隔の保守および諸操作を容易
にするための一体モデムを備えた市販パーソナル・コン
ピュータでよく、大きなシステムは高い可用度を得るよ
うにシステムが動的に再構成できる2つのSPを含む。
このSPは、下記の4つの機能を実施する。即ち、 −初期化、エラーのロギングおよび診断操作中CSSを
監視して制御し、 −システム・ブート中またはオペレータ指令と同時に主
オペレーティング・システム・コンソールとして働き、 −入出力サブシステム保守チャンネル・アダプタ(MC
A)に対するコンソールおよびデータ・サーバとして働
き、 −遠隔保守インターフェースを提供する。
【0023】次に、図1のCPU5の1つの全体ブロッ
ク図である図2を参照されたい。アドレスおよび実行装
置(AX装置)は、全てのアドレス準備を実施し、10
進演算、2進浮動小数点、および乗除命令を除いて全て
の命令を実行するマイクロプロ処理・エンジンである。
2つの同じAXチップ10、10Aが、複製動作を並行
に行い、結果として得るAXチップ出力はエラーを検出
するため常に比較される。AX装置により行われる主要
機能は、下記を含む。即ち、 −有効および仮想アドレス生成 −メモリー・アクセス制御 −保全検査 −レジスタ変更/使用の制御 −基本命令、シフト命令、保全命令、文字操作、および
諸命令の実行 キャッシュ装置11は、64Kバイト(16ワード)の
データ部分と、キャッシュ・データ部分に記憶された各
64バイト(16ワード)ブロックの主メモリーの場所
を定義する1組の関連するディレクトリ部分とを含む。
キャッシュ装置は物理的に10個のDTチップ、1つの
キャッシュ・ディレクトリ(CD)チップ12および複
写ディレクトリ(DD)チップ13のアレイに構成され
る。
【0024】キャッシュ装置11により行われる特定機
能は下記を含む。即ち、 −命令およびオペランド・データ記憶の組合わせ −命令およびオペランドのバッファおよび整合 −システム・バス7とのデータ・インターフェース(図
1) −CLIMB安全ストア・ファイル キャッシュ書込み法は「ストア・イン(store i
nto)」である。キャッシュから修正ブロックの部分
を読出す時縦方向のパリティ・エラーが検出されるなら
ば、このブロックはキャッシュからスワップされ、SC
Uにより訂正され、主メモリーに書込まれる。訂正され
たブロックは、再試行と同時に主メモリーから再び取出
される。
【0025】キャッシュのディレクトリ情報の2つのコ
ピーは、異なる論理機能を実施するCDおよびDDチッ
プにそれぞれ維持される。この2つのディレクトリ・コ
ピーは、CPUからの命令/オペランド・アクセスと干
渉することなくシステム・バスからのキャッシュ内容の
並行的な照会を許容し、またエラー回復を行う。CDチ
ップ12により行われる機能は下記を含む。即ち、 −CPUアクセスのためのキャッシュ・ディレクトリ −命令、オペランドおよびストア・バッファの管理 −仮想対実アドレス変換ページング・バッファ DDチップ13により行われる機能は下記を含む。即
ち、 −システム・アクセスのためのキャッシュ・ディレクト
リ −システム・バス制御 −分散された接続/インターフェースの管理 −キャッシュ・ディレクトリのエラー回復 有効な科学計算能力は、浮動小数点演算(FP)チップ
15、15Aにおいて実現される。についてFPチップ
は、全ての2進浮動小数点演算を重複して実行する。2
重のAXチップ10、10Aと関連して動作するこれら
のチップは、スカラー科学演算処理を行う。
【0026】FPチップ15(FPチップ15Aと重
複)は、 −全ての2進、および固定および浮動小数点の乗除算を
実行し、 −12×72ビットの部分積を1マシン・サイクルで計
算し、 −除算サイクル毎に商の8つのビットを計算し、 −モジューロ15の剰余の完全性検査の実施 FPチップ15、15Aにより行われる諸機能は下記を
含む。即ち、 −乗除算を除く全ての浮動小数点の仮数演算 −2進または16進フォーマットにおける全ての指数演算
の実行 −乗除命令に対するオペランドの事前処理および結果の
事後処理 −識別子および状態制御の提供 2つの特殊目的のランダム・アクセス・メモリー(FR
AM17およびXRAM18)がCPUに組込まれてい
る。FRAMチップ17は、FPチップ15、15Aの
付属物であり、FP制御ストアおよび10進整数テーブ
ル索引として機能する。XRAMチップ18は、AXチ
ップ10、10Aの付属物であり、スクラッチパッドと
して働くと共に保護ストアおよびパッチ機能を提供す
る。
【0027】CPUはまた、クロック分散(CK)チッ
プ16を使用し、その機能は下記を含む。即ち、 −CPUを構成する幾つかのチップに対するクロック分
散 −シフト経路制御 −保守 −CMUとCPU間のインターフェース −エラー検出および回復のためのクロック停止ロジック
の提供 DNチップ14(DNチップ14Aと並列の)は、10
進拡張命令セット(EIS)命令の実行を行う。これは
また、10進2進(DTB)、2進10進(BTD)変
換EIS命令、および数値移動編集(MVNE)EIS
命令をAXチップ10と関連して実行する。このDNチ
ップは、メモリーからオペランドを受取ると共に結果を
キャッシュ装置11を介してメモリーへ送る。
【0028】AX、DNおよびFPチップは、時にまと
めて基本処理装置(BPU)と呼ばれる。AX、DNお
よびFPチップは保護検査に使用し得る複写結果を取得
するため並列に動作する複写装置と複製されることが既
に判っている。このため、マスターおよびスレーブのK
Kが、これらのチップの通常の動作において取得され
る。マスター結果は、マスター結果バス(MRB)20
に置かれ、スレーブ結果はスレーブ結果バス(SRB)
21に置かれる。マスターおよびスレーブの両結果は、
MRBおよびSRB上でそれぞれキャッシュ装置11に
対して送られる。更に、COMTOバス22およびCO
MFROMバス23は、ある相互に関連する操作のため
AXチップ、DN装置およびFP装置を一緒に接続す
る。
【0029】下記の論議は、キャッシュ記憶エラーがマ
ルチプロセッサ・システムにおいて検出され、データの
流れが第1のCPUのキャッシュから第2のCPUのB
PU/キャッシュへの方向である時に生じる事象に関す
るものである。これは、2つのキャッシュのオペランド
・データ・エラーのシナリオの更に複雑な例であり、本
発明が目的とする問題である。
【0030】このエラーが生じるために存在するはずで
ある予備条件は、下記の通り。
【0031】1.CPUが、BPU要求によりデータ・
ブロックをそのキャッシュに読出さねばならない 2.第2の(または、第3あるいは第4の)CPUが、
依然第1のCPUが所有する間同じブロックを要求しな
ければならず、このブロックの後に第1のCPUのキャ
ッシュに存在する間1つのビットが予期せずに変更され
ていた。(BPUの場合に対する1つのプロセッサ・キ
ャッシュとは異なり、エラーであるワードが目標ワード
であるかどうかは重要でない、即ち、キャッシュ・ブロ
ックにおけるエラーはサイフォン状態を招来する。)エ
ラー状態のブロックを有するCPU(送出側CPU)が
サイフォン要求に応答してそのデータ転送位相に入る
時、エラーを処理するための主なプロセスが呼出され
る。これは、下記のステップを含む。即ち、 1.送出側のCPUは、要求されたブロックがキャッシ
ュ記憶装置から読出される時エラーを検出する。第1の
4分の1ブロックが要求側(受取り側)CPUへ転送さ
れる(図3のデータの流れ28A、28C)時、エラー
信号もまた送られる。送出側CPUは、このエラー・タ
イプを特別に識別してそのキャッシュ制御ロジック(D
Dチップ)にエラーを通報するフラッグをセットするこ
とになる。送出側のCPUのDDは、BPU停止指令を
セットして、そのキャッシュ履歴レジスタ・バンクのサ
イフォン履歴エントリにおける欠陥キャッシュ・ブロッ
クを識別する行およびレベル情報をセーブする。送出側
CPUのBPUは、ハード停止状態に置かれる。
【0032】2.受取り側CPUは、送出側CPUから
エラー信号を受取り、BPUハード停止状態に入る。こ
のCPUは、SPが評価するため、送出側CPUからエ
ラー信号を受取ったことを指示するエラー状態にアラー
ムをセットする。これはまた、後でのSP照合のためブ
ロックがそのキャッシュ履歴レジスタ・バンクについて
目標とされたキャッシュ記憶行およびレベルに関する情
報をセーブする。
【0033】3.SCUもまたエラー信号に注目して、
故障ブロックを不良パリティでメモリーに強制する(図
3のデータ流れ28A、28B)。これは、SPに対す
るアラームを結果として生じて、ページ・アドレスが特
にこのエラー・タイプに対して留保されたレジスタに書
込まれる。SCUは、不良状態信号を既にハード停止状
態にある送出側のCPUに戻す。
【0034】4.SPはこれらの事象を分析しなければ
ならない、即ち、SCUのアラームがサイフォン・エラ
ーが生じた第2のCPUからセットされたキャッシュ・
パリティ・エラー表示を持つアラームと関連して、1つ
のCPUからのサイフォン/DTエラーと関連して通報
されたため、これを通報しなければならない。SPは、
相互に対する読出しDDエラー・レポートの発行を介し
て、送出および受取りの両CPUからエラー状態のキャ
ッシュ・ブロックに関する行およびレベル情報を取出さ
ねばならない。次に、SPは、この情報を用いて受取り
側CPUが保持するブロックを無効化する。(SPは、
これがSCUがアンロックされることを保証するため読
出されねばならないが、SCUレポートを有効に無視す
る。) 5.SPは、スワップされるブロックの宛て先メモリー
・アドレスを指定しながら、スワップ指令の発行を介し
て送出側CPUにより保持されるエラー状態のキャッシ
ュ・ブロックの訂正を強制する。スワップは、故障キャ
ッシュ・ブロックがメモリーに書込まれる結果を生じる
(図3のデータ移動29A、29B)。SCUが単ビッ
ト故障を訂正するのはこの書込み中である。SPは、ス
ワップが完了した後そのレベルを無効にすることにより
故障ブロックと関連するキャッシュの記憶要素を不能化
する。
【0035】6.スワップが完了すると、SPはある量
の情報を送出側CPUのBPUから取出さねばならな
い。この情報は、その命令再試行ルーチンが故障命令に
対する再試行可能なマシン状態を生じる可能性を増すた
め、オペレーティング・システム・ソフトウエアにより
要求される。
【0036】7.SPは、この故障の症状を書込み、受
取り側CPUのデータを後でアクセスするためオペレー
ティング・システム・ソフトウエアから使用できるよう
に主メモリーの専用記憶域に記録する。
【0037】8.SPは、送出側CPUにパリティ故障
によるその停止状態から再始動するよう指令する故障再
開指令を発行する。このCPUが再始動すると、その状
態(保護ストア)をXRAM18からキャッシュにプッ
シュして、オペレーティング・システム・ソフトウエア
の故障処理/命令再試行ルーチンに入る。
【0038】9.オペレーティング・システム・ソフト
ウエアは、パリティ事故を通知して、専用メモリーにセ
ーブされた情報を調べて故障の種類を決定する。これが
キャッシュのオペランド・エラーであることが判ると、
オペレーティング・システム・ソフトウエアは故障命令
の評価を行い、これが再試行可能かかどうかを判定す
る。オペレーティング・システム・ソフトウエアは、あ
る場合には、再試行の成功の機会を増すため予備実行状
態にセットするようにSPにより取得された送出側CP
Uレジスタ情報を使用することになる。
【0039】10.オペレーティング・システム・ソフ
トウエアが故障と関連する命令が再試行可能であると判
定するならば、これは保護ストア・スタックに強制され
た状態を調整して、スタック・エントリをポップアップ
するよう送出側CPUに指令することにより故障命令を
再始動する。
【0040】11.オペレーティング・システムがステ
ップ9および10を実施中、SPはその停止状態から受
取り側CPUを再始動するタスクを開始する。SPは、
ある量の情報を受取り側CPUのBPUから取出さねば
ならない。この情報は、その命令再試行ルーチンが故障
命令に対する再試行可能なマシンの状態を生じる可能性
を増すため、オペレーティング・システム・ソフトウエ
アにより要求される。
【0041】12.SPは、故障の症状および受取り側
CPUのレジスタ・データを、後でアクセスするためオ
ペレーティング・システム・ソフトウエアが使用可能な
ように主メモリーの専用記憶域に書込むことになる。
【0042】13.受取り側CPUにパリティ故障によ
るその停止状態から再始動するよう指令する故障再開指
令を発行する。受取り側CPUが再始動すると、これは
その状態(保護ストア)をXRAM18からキャッシュ
に強制して、オペレーティング・システム・ソフトウエ
アの故障処理/命令再試行ルーチンに入る。
【0043】14.オペレーティング・システム・ソフ
トウエアは、パリティ故障を通知して、故障の種類を判
定するため専用メモリーにセーブされた情報を調べる。
これがキャッシュ・オペランド・エラーであると判る
と、オペレーティング・システム・ソフトウエアは、故
障命令を評価してこれが再試行可能かどうかを判定す
る。オペレーティング・システム・ソフトウエアは、あ
る場合には、良好な再試行の機会を増すため、予備的実
行状態をセットするためにSPにより取得された受取り
側CPUのレジスタ情報を使用することになる。
【0044】15.オペレーティング・システム・ソフ
トウエアが、故障と関連する命令が再試行可能であると
判定するならば、保護ストア・スタックに強制された状
態を調整して、スタック・エントリをポップアップする
よう受取り側CPUに命令することにより故障命令を再
開する。この再開は、訂正されたブロックが主メモリー
から取出される結果をもたらすことになる(図3、デー
タ移動30A、30B)。正味の結果は、影響を受けた
プロセスが再開されエラーから完全に明瞭であることで
ある。
【0045】第2または第3のCPUが同じブロックを
要求して送出側CPUからエラー信号を受取ったなら
ば、上記ステップ11乃至15がこのような各受取り側
CPU毎に反復される。
【0046】CPU、SPおよびオペレーティング・シ
ステム・ソフトウエア間の応答性の区切りが例示の構成
において重要な勘案であり、また最初に絶対的な必要性
について、次に構成要素の強弱について判定がなされ
た。
【0047】例示システムのハードウエアに対して下記
の機能性を提供しなければならない中庸なサポートが構
成されねばならかった。即ち、 A)エラーの検出 B)エラーに関する情報の提供(関連するキャッシュ・
ブロックの同定を含む) C)予期し得る方法による影響を受けたBPUの凍結
(停止) D)SPへのアラーム E)下記に対するサポート指令 1)キャッシュ・ブロックのスワッピング 2)キャッシュ・ブロックの不能化(あるいは、例示マ
シンにおけるレベルの如き大きなキャッシュの細分割) 3)CPUの再始動、および F)エラー処理全体におけるサービス・システム要求の
続行(システム全体の停止を避けるために) 最初、CPUハードウエアはSPの介入なしにこれら全
ての役割を処理するように設計されねばならないよ8に
思われた。即ち、理想的には、CPU自体が自動的に訂
正のためブロックをメモリーにスワップし、訂正された
ブロックを取出して、影響を受けた命令を再開すること
になる。しかし、当業者には、このような試みが設計誤
りの可能性に満ちており、またシステム設計の労力の根
源(即ち、設計者の時間およびシリコン・スペース)の
多くを費やすことが理解されよう。CPU、SPおよび
オペレーティング・システム・ソフトウエア間に責任を
分担することにより、ハードウエアの商業的な実装およ
び開発努力に関して(設計/実現の責任は1つの主要要
員に集中しない)、例示システムの全体的な設計、開発
および生産コストが著しく減少した。更にまた、当業者
は、早期のシステム・テスト中にバグが発見されるなら
ば、ハードウエアVLSI構成要素の新しいバージョン
を作るよりソフトウエアを修正することが容易であるこ
とを容易に理解しよう。このような付加的な柔軟性は、
区分された試みにシリコンにプロセスを集中するのに勝
る利点を与える。
【0048】SPの責任は、下記のものを含む。即ち、 A)アラーム処理 B)下記を含むエラー処理および訂正の監視 1)スワップするブロックを決定する指令の発行 2)エラーのブロックをスワップする指令の発行 3)スワップ中に生じる例外の処理、即ち、エラーが回
復不能(例えば、2倍ビットの故障)ならば、SPはこ
の情報/状態をオペレーティング・システムに送るよう
にプログラムされる C)命令再試行ソフトウエアに対する影響を受けたBP
Uからレジスタを取出し D)CPUが然るべく実行するよう指令の発行を介して
再始動可能である柔軟性jにあることを保証 SPの責任は故障と関連する命令が再試行可能かどうか
の判定は含まないことが判るであろう。幾つかの要因が
これを行うことを禁止する。第1に、CPUアセンブリ
限度の命令セットにおける更に複雑な命令のあるものが
再試行可能であるかどうかの判定に要するアルゴリズム
は非常に複雑である(これが非常に大きなプログラムに
翻訳する)。予期される記憶容量の制限の故に、SPに
対するこれ以上の記憶要求が行われるべきでないと判定
された。更に、SPはこれがサポートするメインフレー
ム・コンピュータに比較して低速であり、従って再試行
ソフトウエアがメインフレームに存在すると、この処理
は遥かに更に高性能となる。
【0049】オペレーティング・システム・ソフトウエ
アの責任は、主として影響を受ける命令が再試行可能で
あるかどうかを判定する責任である。この機能性は、影
響を受けたCPUが故障で遅れさせられた後に可能にな
る。オペレーティング・システム・ソフトウエアは、故
障の種類を解釈し、これが本発明が目的とするエラーの
種類である判定される時、このソフトウエアはそのパリ
ティ故障処理手順に入る。
【0050】オペレーティング・システム・ソフトウエ
アが命令が再試行可能かどうか判定するため実行しなけ
ればならない分析は、故障した命令の種類に依存する。
実質的に、例示的CPUは、サポートするアセンブリ言
語命令セットが下記の命令からなる。即ち、 1)キャッシュからのロード・レジスタ 2)キャッシュへの書込み 3)レジスタの修正 4)同じキャッシュ・ワードに対して読込み、変更し、
次に書込む 5)キャッシュ・データを1つの場所から別の場所へ移
動する、および(または) 6)転送制御 オペレーティング・システム・ソフトウエア再試行構成
要素が、命令のこれらの種別を分析して、与えられた命
令が与えられた状況において再試行可能であるかどうか
を判定する。特に、これは、非常に簡単なタスクに見え
る。例えば、サイフォンの間に受取られたデータが不良
パリティを持った故に簡単な「A−レジスタのロード
(LDA)」命令が失敗するならば、キャッシュ・ブロ
ックの訂正に続いてLDAが再実行可能であると予期さ
れよう。しかし、単なる事例として、もしLDAが間接
的で関連したタリー有効アドレスの修正を有するならば
何が起こるかを考えよう。従って、オペレーティング・
システム・ソフトウエアはこの状況を検出してタリー・
ワードをその予備実行状態に復元しなければならない。
このLDA例は、再試行アルゴリズムを複雑にする命令
セットに対する期待であるという周知の事実を示すため
に提示する。
【0051】このシステム例においては、ハードウエア
はこれらエラーから回復するためのある重要なサポート
を提供する。このハードウエアは、あるレジスタに対す
る予備実行値を見出して再試行のため使用が可能である
ようにあるレジスタのシャドウ動作を提供する。この真
に複雑な場合(例えば、倍精度演算)は、このシャドウ
動作から最も大きな利益を受ける。このような複雑な場
合では、オペレーティング・システム・ソフトウエア
は、予備実行レジスタが存在する場所を判定してこれら
レジスタを再試行のため使用することができる。シャド
ウ動作は、実質的に、無効データが読出される時でもレ
ジスタを修正する命令を動作が完了する程度に最適化さ
せ得るが、これはレジスタの予備実行コピーが再試行に
利用可能である故である。この特徴がなければ、これら
の命令は再試行不能であると見做されるか、あるいはC
PUの実行が、無効データが検出される時動作が取消さ
れることを保証するため低速化されねばならないことに
なる。
【0052】命令が再試行可能である時、オペレーティ
ング・システム・ソフトウエアは制御を影響を受けたプ
ロセスに戻し、このプロセスはハードウエア・エラーか
ら明らかである。もし命令が再試行不能であるか、ある
いはキャッシュ・ブロックの故障が訂正不能であるなら
ば、影響を受けたプロセスが終了させられる。
【0053】次に、図4のフロー図に注目されたい。こ
のフロー図は、例示のシステムの環境と似た環境におい
て本発明を実施する際にプログラマにとって特に有効と
なる本発明の別の開示である。
【0054】本発明の原理は実施例において明瞭となっ
たが、当業者には、この原理から逸脱することなく特定
の環境および動作要件に特に適合する、本発明の実施に
際して使用される構造、配置、比率、要素、材料および
構成部分の多くの変更が明らかであろう。
【図面の簡単な説明】
【図1】本発明が用途を有する情報処理システムの中央
システム構造を示す非常に高レベルのブロック図であ
る。
【図2】図1の中央システム構造の中央処理装置を示す
全体ブロック図である。
【図3】本発明の実施中生じるあるデータ移動を示す図
1と似たブロック図である。
【図4】本発明の別の実施例を実行する流れ図である。
【符号の説明】
1 システム制御装置(SCU) 2 システム・バス 3 メモリー・バス 4 メモリー装置(MU) 5 中央処理装置(CPU) 6 入出力装置(IOU) 7 入出力バス(IOB) 8 クロックおよび保守装置(CMU) 9 サービス・プロセッサ(SP) 10 AXチップ 11 キャッシュ装置 12 キャッシュ・ディレクトリ(CD)チップ 13 複写ディレクトリ(DD)チップ 14 DNチップ 15 浮動小数点演算(FP)チップ 16 クロック分散(CK)チップ 17 FRAMチップ 18 XRAMチップ 20 マスター結果バス(MRB) 21 スレーブ結果バス(SRB) 22 COMTOバス 23 COMFROMバス 33 キャッシュ記憶装置 34 エラー検出装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 デヴィッド・エス・エドワーズ アメリカ合衆国アリゾナ州85023,フェニ ックス,ウエスト・パラダイス・レーン 3317 (72)発明者 ウィリアム・エイ・シェリー アメリカ合衆国アリゾナ州85018,フェニ ックス,イースト・オズボーン・ロード 4900 (72)発明者 ジウィー・チャン アメリカ合衆国アリゾナ州85023,フェニ ックス,ノース・サーティーファースト・ ドライブ 15620 (72)発明者 ミノル・イノシタ アメリカ合衆国アリゾナ州85302,グレン デール,ウエスト・ゴールデン・レーン 5332 (72)発明者 レナード・ジー・トルビスキ アメリカ合衆国アリゾナ州85253,スコッ ツデール,イースト・ホースシュー・レー ン 6725

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 耐故障マルチプロセッサ・コンピュータ
    ・システムにおいて、 A)第1の中央処理装置を設け、該第1の中央処理装置
    は、 1)第1のキャッシュ記憶手段と、第1のキャッシュ・
    メモリー装置に関して読出し/書込みされた情報のブロ
    ックにおけるパリティ・エラーを検出するための第1の
    パリティ・エラー検出手段とを有する第1のキャッシュ
    ・メモリー装置を含み、 B)第2の中央処理装置を設け、該第2の中央処理装置
    は、 1)第2のキャッシュ記憶手段と、第2のキャッシュ・
    メモリー装置に関して読出し/書込みされた情報のブロ
    ックにおけるパリティ・エラーを検出するための第2の
    パリティ・エラー検出手段とを有する第2のキャッシュ
    ・メモリー装置を含み、 C)前記第1の処理装置からのサイフォン要求に応答し
    て、前記第2のキャッシュ記憶手段から前記第1の中央
    処理装置へ前記第1および第2のパリティ・エラー検出
    手段を介して指定された情報ブロックを転送する手段
    と、 D)パリティ・エラー訂正装置を有するシステム制御装
    置と、 E)前記中央処理装置と前記システム制御装置とを接続
    するシステム・バスと、 F)主メモリー装置と、 G)前記システム制御装置と前記主メモリー装置とを接
    続するメモリー・バスと、 H)サイフォン動作中、前記第1の中央処理装置により
    要求された前記第2の中央処理装置からの与えられた故
    障ブロックにおける、前記第2のパリティ・エラー検出
    手段によるキャッシュ読出しパリティ・エラーの検出
    と、前記第1のパリティ・エラー検出手段によるキャッ
    シュ書込みとに応答して、前記与えられた故障ブロック
    を前記第2のキャッシュ・メモリー装置から前記与えら
    れた故障ブロックが訂正される前記システム制御装置を
    介して前記主メモリー装置へ転送し、その後前記訂正さ
    れたメモリー・ブロックを前記主メモリー装置から前記
    第1の中央処理装置へ転送するエラー回復制御手段と、
    を設けてなることを特徴とする耐故障コンピュータ・シ
    ステム。
  2. 【請求項2】 A)前記第1のパリティ・エラー検出手
    段が、キャッシュ書込みパリティ・エラーの検出に応答
    して第1のエラー・フラッグを発行する手段を含み、 B)前記第2のパリティ・エラー検出手段が、キャッシ
    ュ読出しパリティ・エラーの検出に応答して第2のエラ
    ー・フラッグを発行する手段を含み、 C)前記エラー回復制御手段が、前記第1および第2の
    エラー・フラッグを検出するための、かつ前記第2のキ
    ャッシュ・メモリー装置から、前記与えられた故障ブロ
    ックが訂正される前記システム制御装置を介して、前記
    主メモリー装置への前記与えられた故障ブロックの転送
    を指令することにより、これに応答するようプログラム
    されたサービス・プロセッサを含むことを特徴とする請
    求項1記載の耐故障コンピュータ・システム。
  3. 【請求項3】 前記第1および第2の中央処理装置が各
    々更に、 A)ランダム・アクセス・メモリーと、 B)前記サービス・プロセッサからの指令に応答して、
    前記第1および第2のエラー・フラッグの発行をもたら
    す結果となった動作の再試行に先立ち、前記ランダム・
    アクセス・メモリーに対して保護ストア情報をプッシュ
    する手段とを含むことを特徴とする請求項2記載の耐故
    障コンピュータ・システム。
  4. 【請求項4】 前記エラー回復制御手段が更に、 A)命令再試行ルーチンを含むオペレーティング・シス
    テム・ソフトウエアと、 B)前記命令再試行ルーチンにおいて、前記第1および
    第2のエラー・フラッグの存在を検出して、この存在お
    よび前記第2のキャッシュ・メモリー装置から前記主メ
    モリー装置への前記与えられた故障ブロックの以前の転
    送に応答して、前記第1および第2のエラー・フラッグ
    の発行をもたらす結果となった動作の再試行を指令し、
    かつ前記主メモリー装置から前記第1の中央処理装置へ
    の前記訂正されたメモリー・ブロックの転送を指令する
    手段を含むことを特徴とする請求項2又は請求項3記載
    の耐故障コンピュータ・システム。
  5. 【請求項5】 耐故障コンピュータ・システムにおい
    て、 A)中央処理装置を設け、該中央処理装置は、 1)キャッシュ記憶手段と、キャッシュ・メモリー装置
    から読出された情報のブロックにおけるパリティ・エラ
    ーを検出するための第1のパリティ・エラー検出手段と
    を有するキャッシュ・メモリー装置と、 2)基本処理装置に対して前記キャッシュ・メモリー装
    置から読出された情報のブロックにおけるパリティ・エ
    ラーを検出するための第2のパリティ・エラー検出手段
    を有する基本処理装置と、 3)前記基本処理装置からの要求に応答して、情報の指
    定されたブロックを前記キャッシュ記憶手段から前記第
    2のパリティ・エラー検出手段を介して前記基本処理装
    置へ転送する手段とを含み、 B)パリティ・エラー訂正手段を有するシステム制御装
    置と、 C)前記中央処理装置と前記システム制御装置とを接続
    するシステム・バスと、 D)主メモリー装置と、 E)前記システム制御装置と前記主メモリー装置とを接
    続するメモリー・バスと、 F)前記第1のパリティ・エラー検出手段と前記第2の
    パリティ・エラー検出手段との両方による、前記基本処
    理装置により要求された与えられた故障ブロックにおけ
    るパリティ・エラーの検出に応答して、前記与えられた
    故障ブロックを前記キャッシュ・メモリー装置から、前
    記与えられた故障ブロックが訂正される前記システム制
    御装置を介して、前記主メモリー装置へ転送し、その後
    前記訂正されたメモリー・ブロックを前記主メモリー装
    置から前記中央処理装置に対して転送するエラー回復制
    御手段と、を設けてなることを特徴とする耐故障コンピ
    ュータ・システム。
  6. 【請求項6】 A)前記第1のパリティ・エラー検出手
    段が、キャッシュ読出しエラーの検出に応答して第1の
    エラー・フラッグを発行する手段を含み、 B)前記第2のパリティ・エラー検出手段が、前記キャ
    ッシュ・メモリー装置から受取った情報の与えられた故
    障ブロックにおけるパリティ・エラーの検出に応答して
    第2のエラー・フラッグを発行する手段を含み、 C)前記エラー回復制御手段が、前記第1および第2の
    エラー・フラッグを検出するための、かつ前記キャッシ
    ュ・メモリー装置から、前記与えられた故障ブロックが
    訂正される前記システム制御装置を介して、前記主メモ
    リー装置への前記与えられた故障ブロックの転送を指令
    することにより、これに応答するようプログラムされた
    サービス・プロセッサを含むことを特徴とする請求項5
    記載の耐故障コンピュータ・システム。
  7. 【請求項7】 前記中央処理装置が更に、 A)ランダム・アクセス・メモリーと、 B)前記サービス・プロセッサからの指令に応答して、
    前記第1および第2のエラー・フラッグの発行をもたら
    す結果となった動作の再試行に先立ち、前記ランダム・
    アクセス・メモリーに対して保護ストア情報をプッシュ
    する手段とを含むことを特徴とする請求項6記載の耐故
    障コンピュータ・システム。
  8. 【請求項8】 前記エラー回復制御手段が更に、 A)命令再試行ルーチンを含むオペレーティング・シス
    テム・ソフトウエアと、 B)前記命令再試行ルーチンにおいて、前記第1および
    第2のエラー・フラッグの存在を検出して、この存在お
    よび前記キャッシュ・メモリー装置から前記主メモリー
    装置への前記与えられた故障ブロックの以前の転送に応
    答して、前記第1および第2のエラー・フラッグの発行
    をもたらす結果となった動作の再試行を指令し、かつ前
    記主メモリー装置から前記中央処理装置への前記訂正さ
    れたメモリー・ブロックの転送を指令する手段とを含む
    ことを特徴とする請求項6記載の耐故障コンピュータ・
    システム。
  9. 【請求項9】 前記エラー回復制御手段が更に、 A)命令再試行ルーチンを含むオペレーティング・シス
    テム・ソフトウエアと、 B)前記命令再試行ルーチンにおいて、前記第1および
    第2のエラー・フラッグの存在を検出して、この存在お
    よび前記キャッシュ・メモリー装置から前記主メモリー
    装置への前記与えられた故障ブロックの以前の転送に応
    答して、前記第1および第2のエラー・フラッグの発行
    をもたらす結果となった動作の再試行を指令し、かつ前
    記主メモリー装置から前記中央処理装置への前記訂正さ
    れたメモリー・ブロックの転送を指令する手段とを含む
    ことを特徴とする請求項7記載の耐故障コンピュータ・
    システム。
  10. 【請求項10】 前記訂正されたメモリー・ブロック
    が、与えられた故障ブロックと異なるキャッシュ・ブロ
    ック位置へ戻されることを特徴とする請求項1から請求
    項9のいずれか1項に記載の耐故障コンピュータ・シス
    テム。
  11. 【請求項11】 前記訂正されたメモリー・ブロック
    が、与えられた故障ブロックと異なるキャッシュレベル
    位置へ戻されることを特徴とする請求項10記載の耐故
    障コンピュータ・システム。
JP4138895A 1991-05-31 1992-05-29 耐故障マルチプロセッサ・コンピュータ・システム Expired - Lifetime JP2566356B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US70442091A 1991-05-31 1991-05-31
US07/708,965 US5649090A (en) 1991-05-31 1991-05-31 Fault tolerant multiprocessor computer system
US708965 1991-05-31
US704420 2000-11-01

Publications (2)

Publication Number Publication Date
JPH0628251A true JPH0628251A (ja) 1994-02-04
JP2566356B2 JP2566356B2 (ja) 1996-12-25

Family

ID=27107323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4138895A Expired - Lifetime JP2566356B2 (ja) 1991-05-31 1992-05-29 耐故障マルチプロセッサ・コンピュータ・システム

Country Status (1)

Country Link
JP (1) JP2566356B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016113774A1 (ja) * 2015-01-14 2016-07-21 三菱電機株式会社 データ処理装置
US10030618B2 (en) 2015-09-11 2018-07-24 Komatsu Ltd. Exhaust gas recirculation valve, thawing system of exhaust gas recirculation valve, and engine

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6488676A (en) * 1987-09-29 1989-04-03 Nec Corp Multiprocessor system
JPH0217550A (ja) * 1988-07-06 1990-01-22 Nec Corp マルチプロセッサシステムの障害処理方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6488676A (en) * 1987-09-29 1989-04-03 Nec Corp Multiprocessor system
JPH0217550A (ja) * 1988-07-06 1990-01-22 Nec Corp マルチプロセッサシステムの障害処理方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016113774A1 (ja) * 2015-01-14 2016-07-21 三菱電機株式会社 データ処理装置
JPWO2016113774A1 (ja) * 2015-01-14 2017-04-27 三菱電機株式会社 データ処理装置
US10030618B2 (en) 2015-09-11 2018-07-24 Komatsu Ltd. Exhaust gas recirculation valve, thawing system of exhaust gas recirculation valve, and engine

Also Published As

Publication number Publication date
JP2566356B2 (ja) 1996-12-25

Similar Documents

Publication Publication Date Title
EP0516126B1 (en) Fault tolerant multiprocessor computer system
US5276823A (en) Fault-tolerant computer system with redesignation of peripheral processor
US5437022A (en) Storage controller having additional cache memory and a means for recovering from failure and reconfiguring a control unit thereof in response thereto
EP1573544B1 (en) On-die mechanism for high-reliability processor
Spainhower et al. IBM S/390 parallel enterprise server G5 fault tolerance: A historical perspective
EP1290556B1 (en) Fast swapping of processors in a data processing system
US5890003A (en) Interrupts between asynchronously operating CPUs in fault tolerant computer system
US7340643B2 (en) Replay mechanism for correcting soft errors
CN100489801C (zh) 纠正软错误的固件机制
JP2000099406A (ja) L1デ―タ・キャッシュ・パリティ・エラ―のための回復方法及びシステム
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
CN111190774B (zh) 一种多核处理器可配置双模冗余结构
US5557737A (en) Automated safestore stack generation and recovery in a fault tolerant central processor
US5553232A (en) Automated safestore stack generation and move in a fault tolerant central processor
US5408651A (en) Store "undo" for cache store error recovery
JP2566356B2 (ja) 耐故障マルチプロセッサ・コンピュータ・システム
Saxena et al. Error detection and handling in a superscalar, speculative out-of-order execution processor system
EP1042712A1 (en) Fast domain switch and error recovery in a secure cpu architecture
EP0476262B1 (en) Error handling in a VLSI central processor unit employing a pipelined address and execution module
JPS62143149A (ja) 計算機システムのメモリ管理ユニット

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 5

Free format text: PAYMENT UNTIL: 20071004

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081004

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 6

Free format text: PAYMENT UNTIL: 20081004

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 7

Free format text: PAYMENT UNTIL: 20091004

LAPS Cancellation because of no payment of annual fees