JPH0628251A

JPH0628251A - 耐故障マルチプロセッサ・コンピュータ・システム

Info

Publication number: JPH0628251A
Application number: JP4138895A
Authority: JP
Inventors: David S Edwards; デヴィッド・エス・エドワーズ; William A Shelly; ウィリアム・エイ・シェリー; Jiuyih Chang; ジウィー・チャン; Minoru Inoshita; ミノル・イノシタ; Leonard G Trubisky; レナード・ジー・トルビスキ
Original assignee: BULL H N INF SYST Inc; Bull HN Information Systems Inc
Current assignee: BULL H N INF SYST Inc; Bull HN Information Systems Inc
Priority date: 1991-05-31
Filing date: 1992-05-29
Publication date: 1994-02-04
Anticipated expiration: 2011-12-25
Also published as: JP2566356B2

Abstract

(57)【要約】（修正有）【目的】複数の中央処理装置を含む耐故障コンピュータ
・システムを提供する。【構成】ＣＰＵの各々にキャッシュ・メモリー、及び読
出し／書込みされた情報のブロックにおけるパリティ・
エラーを検出するパリティ・エラー検出器を設ける。シ
ステム・バスが、ＣＰＵをパリティ・エラー訂正機能を
有するＳＣＵ（システム制御装置）に接続し、メモリー
・バスがＳＣＵを主メモリーに接続する。エラー回復制
御機能が、サイフォン動作と関連して送出側のＣＰＵに
おける読出しパリティ・エラー及び受取り側のＣＰＵに
おける書込みパリティ・エラーの検出に応答して、故障
ブロックを送出側ＣＰＵからＳＣＵ（与えられた故障ブ
ロックが訂正される）を介して主メモリーへ転送し、そ
の後再試行が行われる時、訂正されたメモリー・ブロッ
クを主メモリーから受取り側ＣＰＵへ転送する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータ・システ
ムに関し、特にプロセッサのサイフォン・キャッシュ記
憶装置のエラーに対して耐故障性を有するマルチプロセ
ッサ・コンピュータ・システムに関する。

【０００２】

【従来の技術】パーソナル・コンピュータおよびワーク
ステーションが益々強力になるに伴い、伝統的なメイン
フレーム・ベンダーが当面する主な問題の１つは、急激
に進歩する比較的小型のマシンからの自社の中型システ
ムの差別化にある。メインフレーム・マシンを小型のマ
シンから差別化し得る１つの重要な領域は、耐故障性の
領域にある。

【０００３】プロセッサのキャッシュ記憶装置のエラー
の問題は、メインフレーム・システムにおけるキャッシ
ュ・メモリーの使用の全歴史における問題であった。こ
れらのエラーは、主メモリー・エラーでもそうであるよ
うに、α粒子の衝突または過渡的な（あるいはハード
の）記憶要素の故障によって生じ得る。本発明が使途を
見出す事例システムでは、主メモリーの単ビット・エラ
ーは、欠点と関連するワードが要求側装置へ送られる前
にエラー状態のビットを訂正するメモリー・コントロー
ラにおける専用化されたハードウエアにより、システム
の可視性から隠蔽される。しかし、プロセッサのキャッ
シュの故障は、訂正ハードウエアがＶＬＳＩチップで使
用可能な集積回路面積制限などの多くの理由からプロセ
ッサ用に設計されていないために、キャッシュの読出し
アクティビティ中には訂正されない。

【０００４】プロセッサのキャッシュ・メモリーの利点
は、故障した時に生じる複雑な問題に大きく勝る。キャ
ッシュ・メモリーは、これによらない場合照会毎にプロ
セッサがメモリーから取出さねばならないデータおよび
命令に対する高速アクセスを提供する。キャッシュ・メ
モリーは、典型的には、主メモリーのアクセスに必要な
時間の１０乃至２５％で済み、従ってキャッシュ・メモ
リーはシステムのデータ記憶階層構造における恒久的な
地位を取得してきた。

【０００５】キャッシュ・メモリーをその中央処理装置
アーキテクチャに盛込むコンピュータ設計の労力は、下
記の逓増する困難な諸問題に当てなければならない。

【０００６】１．プロセッサは、キャッシュのエラー条
件を検出することが絶対必要であり、さもなければ、デ
ータの汚染をもたらす結果となる。この問題に対する最
も安価な解決法は、この種のエラーが発生する時システ
ムをハングアップさせるか壊す以外に何もしないことで
あるが、この方法は実際問題としてメインフレームの対
応としては全く受入れ得ない。

【０００７】２．装備の充分なマシンは、故障したキャ
ッシュ記憶要素の構成解除を支援すべきである。切離さ
れた故障要素を単に構成解除することにより、プロセッ
サは実質的な性能損失もなく実行を継続し得る。キャッ
シュ・メモリーは、多くのキャッシュ記憶要素を含むブ
ロックに分割される。この例示的なマシンでは、ブロッ
ク・サイズは１６ワード（６４バイト）である。キャッ
シュ・メモリーはまた、このような関係においてはブロ
ックの全列を意味するレベルの如き更に粗な細分割に分
割することもできる。例示的なマシンでは、そのキャッ
シュ・ブロックおよびキャッシュ・レベルを個々に構成
解除することを可能にするロジックで設計されている。

【０００８】３．真に装備の充実したマシンは、プロセ
ッサのキャッシュ・エラーが生じると、エラー状態にあ
るブロックの最近のコピーを主メモリーから検索するこ
とができるか、あるいはエラー状態のブロックを何らか
の方法で補正することができることを保証すべきであ
る。例示的なマシンにおいては、主メモリーへの書込み
中にのみ生じたキャッシュ・ブロックの単一ビット・エ
ラーを訂正するための誤り訂正コードが組み込まれてい
る。しかし、このマシンの設計は、特定のキャッシュ・
ブロックの明瞭な「不自然な」訂正あるいは影響を受け
た命令の再開は対象としていなかった。（「不自然な」
とは、本文においては、例え自然な置換アルゴリズムが
エラー時のこのような事象を指令しなくとも、ブロック
が訂正のため交換されることが要求されることを示すた
め使用される。）４．例示的な装置の如きストア・イン型のキャッシュ・
マシンは、非常に効率的に動作し得るが、その働きを実
際にする主メモリーに対する書込みの遅延の特性は、処
理能力を更に改善するため他のプロセッサがシステムに
追加される時の負担である。多重プロセッサ構成は、キ
ャッシュ・エラーの処理、即ちエラー状態のブロックが
１つのプロセッサのキャッシュに存在して１つ以上のプ
ロセッサにより要求され、ブロックの「更新された」コ
ピーがシステムの主メモリーに存在しないキャッシュ・
オペランド・ブロックのエラーの取扱いにおける最後の
挑戦である。本発明が目的とするこの問題は、一般にサ
イフォン・エラー状態と呼ばれる。（サイフォンとは、
多重プロセッサ・システムの１つのプロセッサから別の
プロセッサまたは入出力装置に対するキャッシュ・ブロ
ックの転送を規定するため使用される当技術の用語であ
る。）単一プロセッサ・システムにおいて遭遇する同様
な問題は、本願と同日付で出願されたＤ．Ｓ．Ｅｄｗａ
ｒｄｓ等の米国特許出願「ＦａｕｌｔＴｏｌｅｒａｎ
ｔＣｏｍｐｕｔｅｒＳｙｓｔｅｍ」により包含され
る関連発明が対象としている。

【０００９】あるストア・イン型キャッシュの従来技術
システムは、エラーを含むデータがキャッシュから読出
される時エラーを訂正するため、エラー訂正ハードウエ
アを各キャッシュに付設することによりプロセッサのキ
ャッシュ・エラーの問題を取扱っている。これは、問題
に対する有効ではあるが高価な解決策である。

【００１０】キャッシュのデータ訂正および再試行状態
を解決する第２の従来技術の試みは、ストア・スルー・
キャッシュを実現することにより問題を隠蔽する手法を
内蔵するものであった。（ストア・スルー構造において
は、１つのキャッシュ・ブロックが更新される時、この
キャッシュ・ブロックはキャッシュと主メモリーの両方
に即時書込まれる。）このような試みにより、キャッシ
ュからの取出しがエラーである時は常に、プロセッサは
キャッシュ・バイパスを強制して、命令の実行時とキャ
ッシュの更新（復元）時の双方において使用するブロッ
クに対するメモリー読込みを発する。この解決法の利点
は、影響を受けた命令がインパクトを受けず、従って、
このような全てのエラーが回復できるように、メモリー
からの取出しがキャッシュ・ミス条件と一致することで
ある。この解決法は、ストア・スルー設計の利点を利用
するもので、この設計は定義により主メモリーを常に更
新させる利益を提供する。

【００１１】ストア・イン・キャッシュ設計（コピー・
バック・キャッシュとして公知である）は、より少ない
プロセッサ・メモリー間書込みアクティビティを、従っ
てあるバス設計が実現される時システム・バスにおける
ボトルネックを比較的少なくすることになる比較的少な
い主メモリー通信量を結果として生じる故に、ストア・
スルー設計に勝る性能本位のシステムに有利である。強
化された性能をもたらすストア・イン特性は、必然的
に、システムにおけるデータの特定ブロックの唯一の妥
当コピーをしばしば含むキャッシュをもたらす結果とな
る。即ち、１つのキャッシュ・ブロックが修正された
時、これは主メモリーへは書戻されない。その代わり、
これは、第２のアクティブな装置（ＣＰＵまたはＩ／Ｏ
装置）により要求されるまで、あるいは新しいブロック
に対するキャッシュ内の余地を作るためこのブロックを
置換せねばならないとき主メモリーに対して書戻される
まで保持される。

【００１２】当業者には、別の試みにおいて、従来技術
の解決法と関連するコストおよび複雑さによらずに、プ
ロセッサのキャッシュ・エラー状態に対するこれらの従
来技術の解決法の利点を達成することが非常に望ましい
ことが明らかであろう。

【００１３】

【課題を解決するための手段】従って、本発明の広義の
目的は、実現が簡単かつ経済的な、プロセッサのキャッ
シュ・エラー状態に対する解決法の提供にある。

【００１４】本発明の更に特定な目的は、相互に個々の
プロセッサのキャッシュ・メモリーのアクセスを試みる
マルチプロセッサを内蔵するシステムに用いる時、問題
の状況におけるプロセッサのキャッシュ・エラー状態に
対する解決法の提供にある。

【００１５】要約すれば、本発明の上記および他の目的
は、それぞれキャッシュ・メモリー、およびキャッシュ
・メモリー装置に関して読出し／書込みされる情報ブロ
ックにおけるパリティ・エラーを検出してパリティ・エ
ラーが検出されるならば読出しまたは書込みキャッシュ
・エラー・フラッグを生じるためのパリティ・エラー検
出器を備えたキャッシュ・メモリー装置を有する複数の
中央処理装置を含む耐故障性のあるコンピュータ・シス
テムにより達成される。システム・バスが、ＣＰＵをパ
リティ・エラー訂正機能を持つシステム制御装置に接続
し、メモリー・バスがＳＣＵを主メモリーに接続する。
ＣＰＵ、サービス・プロセッサおよびオペレーティング
・システム・ソフトウエアに跨って分散されるエラー回
復制御機能が、故障ブロックを送出側ＣＰＵからＳＣＵ
（与えられた故障ブロックが訂正される）を介して主メ
モリーへ転送し、その後再試行が行われる時、訂正され
たメモリー・ブロックを主メモリーから受信側ＣＰＵへ
転送するためのサイフォン動作と関連して、送出側ＣＰ
Ｕにおける読出しパリティ・エラー・フラッグおよび受
信側ＣＰＵにおける書込みパリティ・エラー・フラッグ
の検出に応答する。

【００１６】本発明の主題は、特に本明細書の終結部分
において特に指摘され、明瞭に請求される。しかし、本
発明については、構成および作動方法の双方に関して、
頭書の特許請求の範囲および添付図面に関して以降の記
述を参照することにより最もよく理解されよう。

【００１７】

【実施例】まず、本発明が組込まれる例示的な中央サブ
システム構造（ＣＳＳ）を示す図１を参照されたい。シ
ステム制御装置（ＳＣＵ）１は、システム・バス２とメ
モリー・バス３のスケジューリングを集中して制御す
る。更に、ＳＣＵ１：Ａ）メモリー制御、単一ビット・
エラー訂正および２倍ビット・エラー検出を行い、Ｂ）
メモリー装置（ＭＵ）４当たり１つずつ存在するメモリ
ー形態を制御し、Ｃ）中央処理装置（ＣＰＵ）５のスト
ア・イン型キャッシュ構造と関連してＣＰＵとＭＵ間の
６４バイト・ブロック転送を管理し、Ｄ）ＣＰＵのキャ
ッシュの修正ブロックにあるいはＣＰＵ、ＭＵまたは入
出力装置（ＩＯＵ）６からのデータ転送時に見出される
単一ビット・エラーを訂正し、Ｅ）システム・カレンダ
・クロックを含む。

【００１８】システム・バス２は、１乃至４個のＣＰＵ
および１乃至４個のＩＯＵを相互にかつＳＣＵと相互に
接続する。このシステム・バスは、１６バイトの２方向
性データ・インターフェースと、２方向性アドレスおよ
び指令インターフェースと、全てのＣＰＵおよびＩＯＵ
により監視されるＳＣＵ状態インターフェースと、ＳＣ
Ｕと各ＣＰＵとＩＯＵ間の少数の制御線とを含む。デー
タは、１６、３２または６４バイト・グループにおける
システム・バス上で交換され、データの交換はＣＰＵと
ＭＵ、ＩＯＵとＭＵ、２つのＣＰＵ、およびＣＰＵとＩ
ＯＵ間で生じ得る。システム・バス２を介する諸動作は
下記の如くである。即ち、 −読出し：１６、３２または６４バイト −排他性読出し：６４バイト −ＩＯＵからの書込み：１６、３２または６４バイト −ＣＰＵからの書込み（スワッピング）：６４バイト −割込みおよび接続；−読出し／書込みレジスタ各システム・バス動作は、アドレス相およびデータ相か
らなり、アドレス相は２マシン・サイクル毎に開始し得
る。１つのグループ内の連続する１６バイトのデータ転
送は、連続するマシン・サイクルで起生し得る。ＩＯＵ
またはＣＰＵは、同時に２つまでの要求のデータ相を待
機することができる。データ・ブロックは、要求の受取
りと同じ順序で転送される。

【００１９】メモリー・バス３は、１乃至８個のＭＵを
ＳＣＵと連結する。このメモリー・バスは、１６バイト
の２方向性データ・インターフェースと、ＳＣＵから全
てのＭＵに至るアドレスおよび指令インターフェース
と、ＳＣＵと各ＭＵ間の少数の制御線とを含む。データ
は、メモリー・バス上で１６、３２または６４バイト・
グループで交換される。メモリー・バス３を介する動作
は下記の如くである。即ち、 −読出し：１６、３２または６４バイト −書込み：１６、３２または６４バイト主メモリーは、８個までのＭＵからなっている。（９番
目のスロット、ＭＵ４Ａは、故障の場合に再構成および
修理を容易にするため設けられる。）単一ビット訂正、
２倍ビット検出コードが２倍ワード毎に、即ち７２デー
タ・ビット毎に８コード・ビット記憶される。このコー
ドは、１チップ内の４ビットのエラーが４つの異なるワ
ードにおける４つの単一ビット・エラーとして訂正され
るように構成される。ＭＵにおけるデータは、１６バイ
ト（４ワード）の増分でＳＣＵからアドレス指定され
る。どのＭＵ内の全てのバイトは連続的にアドレス指定
される、即ち、並列で動作するＭＵ間にはインターレー
スは生じない。１つのメモリー・サイクルは、マシン・
サイクル毎に開始し、ＣＰＵから判るように、他の装置
との競合がないものとして、１つのメモリー・サイクル
は１０マシン・サイクルである。ＭＵ４は、１６０のダ
イナミック・ランダム・アクセス・メモリー（ＤＲＡ
Ｍ）回路を含み、その各々はｎ×４ビットの記憶要素を
有し、ｎ＝２５６、１０２４、あるいは４０９６であ
る。

【００２０】ＩＯＵ６はそれぞれ、各入出力バス（ＩＯ
Ｂ）７が１つのＩＯＵとインターフェースするように、
システム・バス２と２つのＩＯＢ７間の接続を提供す
る。このため、ＩＯＵはＣＳＳと図１には示さないＩ／
Ｏサブシステム間のデータ転送を管理する。

【００２１】クロックおよび保守装置（ＣＭＵ）８は、
ＣＳＳにおける全ての装置に対するクロック信号を生成
し、分配、同調して、サービス・プロセッサ（ＳＰ）９
と中央処理、入出力および電源サブシステム間にインタ
ーフェースを提供し、ＣＳＳの諸装置を初期化し、ＣＳ
Ｓ装置内で検出されたエラーを処理する。ＣＳＳは、２
相クロック・システムおよびラッチされたレジスタ要素
を使用し、これにおいては、クロック１の後エッジが位
相１の終りを定義し、クロック２の後エッジは位相２の
終りを定義し、このため各位相は１マシン・サイクルの
半分となる。

【００２２】ＳＰ９は、遠隔の保守および諸操作を容易
にするための一体モデムを備えた市販パーソナル・コン
ピュータでよく、大きなシステムは高い可用度を得るよ
うにシステムが動的に再構成できる２つのＳＰを含む。
このＳＰは、下記の４つの機能を実施する。即ち、 −初期化、エラーのロギングおよび診断操作中ＣＳＳを
監視して制御し、 −システム・ブート中またはオペレータ指令と同時に主
オペレーティング・システム・コンソールとして働き、 −入出力サブシステム保守チャンネル・アダプタ（ＭＣ
Ａ）に対するコンソールおよびデータ・サーバとして働
き、 −遠隔保守インターフェースを提供する。

【００２３】次に、図１のＣＰＵ５の１つの全体ブロッ
ク図である図２を参照されたい。アドレスおよび実行装
置（ＡＸ装置）は、全てのアドレス準備を実施し、１０
進演算、２進浮動小数点、および乗除命令を除いて全て
の命令を実行するマイクロプロ処理・エンジンである。
２つの同じＡＸチップ１０、１０Ａが、複製動作を並行
に行い、結果として得るＡＸチップ出力はエラーを検出
するため常に比較される。ＡＸ装置により行われる主要
機能は、下記を含む。即ち、 −有効および仮想アドレス生成 −メモリー・アクセス制御 −保全検査 −レジスタ変更／使用の制御 −基本命令、シフト命令、保全命令、文字操作、および
諸命令の実行キャッシュ装置１１は、６４Ｋバイト（１６ワード）の
データ部分と、キャッシュ・データ部分に記憶された各
６４バイト（１６ワード）ブロックの主メモリーの場所
を定義する１組の関連するディレクトリ部分とを含む。
キャッシュ装置は物理的に１０個のＤＴチップ、１つの
キャッシュ・ディレクトリ（ＣＤ）チップ１２および複
写ディレクトリ（ＤＤ）チップ１３のアレイに構成され
る。

【００２４】キャッシュ装置１１により行われる特定機
能は下記を含む。即ち、 −命令およびオペランド・データ記憶の組合わせ −命令およびオペランドのバッファおよび整合 −システム・バス７とのデータ・インターフェース（図
１） −ＣＬＩＭＢ安全ストア・ファイルキャッシュ書込み法は「ストア・イン（ｓｔｏｒｅｉ
ｎｔｏ）」である。キャッシュから修正ブロックの部分
を読出す時縦方向のパリティ・エラーが検出されるなら
ば、このブロックはキャッシュからスワップされ、ＳＣ
Ｕにより訂正され、主メモリーに書込まれる。訂正され
たブロックは、再試行と同時に主メモリーから再び取出
される。

【００２５】キャッシュのディレクトリ情報の２つのコ
ピーは、異なる論理機能を実施するＣＤおよびＤＤチッ
プにそれぞれ維持される。この２つのディレクトリ・コ
ピーは、ＣＰＵからの命令／オペランド・アクセスと干
渉することなくシステム・バスからのキャッシュ内容の
並行的な照会を許容し、またエラー回復を行う。ＣＤチ
ップ１２により行われる機能は下記を含む。即ち、 −ＣＰＵアクセスのためのキャッシュ・ディレクトリ −命令、オペランドおよびストア・バッファの管理 −仮想対実アドレス変換ページング・バッファＤＤチップ１３により行われる機能は下記を含む。即
ち、 −システム・アクセスのためのキャッシュ・ディレクト
リ −システム・バス制御 −分散された接続／インターフェースの管理 −キャッシュ・ディレクトリのエラー回復有効な科学計算能力は、浮動小数点演算（ＦＰ）チップ
１５、１５Ａにおいて実現される。についてＦＰチップ
は、全ての２進浮動小数点演算を重複して実行する。２
重のＡＸチップ１０、１０Ａと関連して動作するこれら
のチップは、スカラー科学演算処理を行う。

【００２６】ＦＰチップ１５（ＦＰチップ１５Ａと重
複）は、 −全ての２進、および固定および浮動小数点の乗除算を
実行し、 −１２×７２ビットの部分積を１マシン・サイクルで計
算し、 −除算サイクル毎に商の８つのビットを計算し、 −モジューロ１５の剰余の完全性検査の実施ＦＰチップ１５、１５Ａにより行われる諸機能は下記を
含む。即ち、 −乗除算を除く全ての浮動小数点の仮数演算 −２進または16進フォーマットにおける全ての指数演算
の実行 −乗除命令に対するオペランドの事前処理および結果の
事後処理 −識別子および状態制御の提供２つの特殊目的のランダム・アクセス・メモリー（ＦＲ
ＡＭ１７およびＸＲＡＭ１８）がＣＰＵに組込まれてい
る。ＦＲＡＭチップ１７は、ＦＰチップ１５、１５Ａの
付属物であり、ＦＰ制御ストアおよび１０進整数テーブ
ル索引として機能する。ＸＲＡＭチップ１８は、ＡＸチ
ップ１０、１０Ａの付属物であり、スクラッチパッドと
して働くと共に保護ストアおよびパッチ機能を提供す
る。

【００２７】ＣＰＵはまた、クロック分散（ＣＫ）チッ
プ１６を使用し、その機能は下記を含む。即ち、 −ＣＰＵを構成する幾つかのチップに対するクロック分
散 −シフト経路制御 −保守 −ＣＭＵとＣＰＵ間のインターフェース −エラー検出および回復のためのクロック停止ロジック
の提供ＤＮチップ１４（ＤＮチップ１４Ａと並列の）は、１０
進拡張命令セット（ＥＩＳ）命令の実行を行う。これは
また、１０進２進（ＤＴＢ）、２進１０進（ＢＴＤ）変
換ＥＩＳ命令、および数値移動編集（ＭＶＮＥ）ＥＩＳ
命令をＡＸチップ１０と関連して実行する。このＤＮチ
ップは、メモリーからオペランドを受取ると共に結果を
キャッシュ装置１１を介してメモリーへ送る。

【００２８】ＡＸ、ＤＮおよびＦＰチップは、時にまと
めて基本処理装置（ＢＰＵ）と呼ばれる。ＡＸ、ＤＮお
よびＦＰチップは保護検査に使用し得る複写結果を取得
するため並列に動作する複写装置と複製されることが既
に判っている。このため、マスターおよびスレーブのＫ
Ｋが、これらのチップの通常の動作において取得され
る。マスター結果は、マスター結果バス（ＭＲＢ）２０
に置かれ、スレーブ結果はスレーブ結果バス（ＳＲＢ）
２１に置かれる。マスターおよびスレーブの両結果は、
ＭＲＢおよびＳＲＢ上でそれぞれキャッシュ装置１１に
対して送られる。更に、ＣＯＭＴＯバス２２およびＣＯ
ＭＦＲＯＭバス２３は、ある相互に関連する操作のため
ＡＸチップ、ＤＮ装置およびＦＰ装置を一緒に接続す
る。

【００２９】下記の論議は、キャッシュ記憶エラーがマ
ルチプロセッサ・システムにおいて検出され、データの
流れが第１のＣＰＵのキャッシュから第２のＣＰＵのＢ
ＰＵ／キャッシュへの方向である時に生じる事象に関す
るものである。これは、２つのキャッシュのオペランド
・データ・エラーのシナリオの更に複雑な例であり、本
発明が目的とする問題である。

【００３０】このエラーが生じるために存在するはずで
ある予備条件は、下記の通り。

【００３１】１．ＣＰＵが、ＢＰＵ要求によりデータ・
ブロックをそのキャッシュに読出さねばならない２．第２の（または、第３あるいは第４の）ＣＰＵが、
依然第１のＣＰＵが所有する間同じブロックを要求しな
ければならず、このブロックの後に第１のＣＰＵのキャ
ッシュに存在する間１つのビットが予期せずに変更され
ていた。（ＢＰＵの場合に対する１つのプロセッサ・キ
ャッシュとは異なり、エラーであるワードが目標ワード
であるかどうかは重要でない、即ち、キャッシュ・ブロ
ックにおけるエラーはサイフォン状態を招来する。）エ
ラー状態のブロックを有するＣＰＵ（送出側ＣＰＵ）が
サイフォン要求に応答してそのデータ転送位相に入る
時、エラーを処理するための主なプロセスが呼出され
る。これは、下記のステップを含む。即ち、１．送出側のＣＰＵは、要求されたブロックがキャッシ
ュ記憶装置から読出される時エラーを検出する。第１の
４分の１ブロックが要求側（受取り側）ＣＰＵへ転送さ
れる（図３のデータの流れ２８Ａ、２８Ｃ）時、エラー
信号もまた送られる。送出側ＣＰＵは、このエラー・タ
イプを特別に識別してそのキャッシュ制御ロジック（Ｄ
Ｄチップ）にエラーを通報するフラッグをセットするこ
とになる。送出側のＣＰＵのＤＤは、ＢＰＵ停止指令を
セットして、そのキャッシュ履歴レジスタ・バンクのサ
イフォン履歴エントリにおける欠陥キャッシュ・ブロッ
クを識別する行およびレベル情報をセーブする。送出側
ＣＰＵのＢＰＵは、ハード停止状態に置かれる。

【００３２】２．受取り側ＣＰＵは、送出側ＣＰＵから
エラー信号を受取り、ＢＰＵハード停止状態に入る。こ
のＣＰＵは、ＳＰが評価するため、送出側ＣＰＵからエ
ラー信号を受取ったことを指示するエラー状態にアラー
ムをセットする。これはまた、後でのＳＰ照合のためブ
ロックがそのキャッシュ履歴レジスタ・バンクについて
目標とされたキャッシュ記憶行およびレベルに関する情
報をセーブする。

【００３３】３．ＳＣＵもまたエラー信号に注目して、
故障ブロックを不良パリティでメモリーに強制する（図
３のデータ流れ２８Ａ、２８Ｂ）。これは、ＳＰに対す
るアラームを結果として生じて、ページ・アドレスが特
にこのエラー・タイプに対して留保されたレジスタに書
込まれる。ＳＣＵは、不良状態信号を既にハード停止状
態にある送出側のＣＰＵに戻す。

【００３４】４．ＳＰはこれらの事象を分析しなければ
ならない、即ち、ＳＣＵのアラームがサイフォン・エラ
ーが生じた第２のＣＰＵからセットされたキャッシュ・
パリティ・エラー表示を持つアラームと関連して、１つ
のＣＰＵからのサイフォン／ＤＴエラーと関連して通報
されたため、これを通報しなければならない。ＳＰは、
相互に対する読出しＤＤエラー・レポートの発行を介し
て、送出および受取りの両ＣＰＵからエラー状態のキャ
ッシュ・ブロックに関する行およびレベル情報を取出さ
ねばならない。次に、ＳＰは、この情報を用いて受取り
側ＣＰＵが保持するブロックを無効化する。（ＳＰは、
これがＳＣＵがアンロックされることを保証するため読
出されねばならないが、ＳＣＵレポートを有効に無視す
る。）５．ＳＰは、スワップされるブロックの宛て先メモリー
・アドレスを指定しながら、スワップ指令の発行を介し
て送出側ＣＰＵにより保持されるエラー状態のキャッシ
ュ・ブロックの訂正を強制する。スワップは、故障キャ
ッシュ・ブロックがメモリーに書込まれる結果を生じる
（図３のデータ移動２９Ａ、２９Ｂ）。ＳＣＵが単ビッ
ト故障を訂正するのはこの書込み中である。ＳＰは、ス
ワップが完了した後そのレベルを無効にすることにより
故障ブロックと関連するキャッシュの記憶要素を不能化
する。

【００３５】６．スワップが完了すると、ＳＰはある量
の情報を送出側ＣＰＵのＢＰＵから取出さねばならな
い。この情報は、その命令再試行ルーチンが故障命令に
対する再試行可能なマシン状態を生じる可能性を増すた
め、オペレーティング・システム・ソフトウエアにより
要求される。

【００３６】７．ＳＰは、この故障の症状を書込み、受
取り側ＣＰＵのデータを後でアクセスするためオペレー
ティング・システム・ソフトウエアから使用できるよう
に主メモリーの専用記憶域に記録する。

【００３７】８．ＳＰは、送出側ＣＰＵにパリティ故障
によるその停止状態から再始動するよう指令する故障再
開指令を発行する。このＣＰＵが再始動すると、その状
態（保護ストア）をＸＲＡＭ１８からキャッシュにプッ
シュして、オペレーティング・システム・ソフトウエア
の故障処理／命令再試行ルーチンに入る。

【００３８】９．オペレーティング・システム・ソフト
ウエアは、パリティ事故を通知して、専用メモリーにセ
ーブされた情報を調べて故障の種類を決定する。これが
キャッシュのオペランド・エラーであることが判ると、
オペレーティング・システム・ソフトウエアは故障命令
の評価を行い、これが再試行可能かかどうかを判定す
る。オペレーティング・システム・ソフトウエアは、あ
る場合には、再試行の成功の機会を増すため予備実行状
態にセットするようにＳＰにより取得された送出側ＣＰ
Ｕレジスタ情報を使用することになる。

【００３９】１０．オペレーティング・システム・ソフ
トウエアが故障と関連する命令が再試行可能であると判
定するならば、これは保護ストア・スタックに強制され
た状態を調整して、スタック・エントリをポップアップ
するよう送出側ＣＰＵに指令することにより故障命令を
再始動する。

【００４０】１１．オペレーティング・システムがステ
ップ９および１０を実施中、ＳＰはその停止状態から受
取り側ＣＰＵを再始動するタスクを開始する。ＳＰは、
ある量の情報を受取り側ＣＰＵのＢＰＵから取出さねば
ならない。この情報は、その命令再試行ルーチンが故障
命令に対する再試行可能なマシンの状態を生じる可能性
を増すため、オペレーティング・システム・ソフトウエ
アにより要求される。

【００４１】１２．ＳＰは、故障の症状および受取り側
ＣＰＵのレジスタ・データを、後でアクセスするためオ
ペレーティング・システム・ソフトウエアが使用可能な
ように主メモリーの専用記憶域に書込むことになる。

【００４２】１３．受取り側ＣＰＵにパリティ故障によ
るその停止状態から再始動するよう指令する故障再開指
令を発行する。受取り側ＣＰＵが再始動すると、これは
その状態（保護ストア）をＸＲＡＭ１８からキャッシュ
に強制して、オペレーティング・システム・ソフトウエ
アの故障処理／命令再試行ルーチンに入る。

【００４３】１４．オペレーティング・システム・ソフ
トウエアは、パリティ故障を通知して、故障の種類を判
定するため専用メモリーにセーブされた情報を調べる。
これがキャッシュ・オペランド・エラーであると判る
と、オペレーティング・システム・ソフトウエアは、故
障命令を評価してこれが再試行可能かどうかを判定す
る。オペレーティング・システム・ソフトウエアは、あ
る場合には、良好な再試行の機会を増すため、予備的実
行状態をセットするためにＳＰにより取得された受取り
側ＣＰＵのレジスタ情報を使用することになる。

【００４４】１５．オペレーティング・システム・ソフ
トウエアが、故障と関連する命令が再試行可能であると
判定するならば、保護ストア・スタックに強制された状
態を調整して、スタック・エントリをポップアップする
よう受取り側ＣＰＵに命令することにより故障命令を再
開する。この再開は、訂正されたブロックが主メモリー
から取出される結果をもたらすことになる（図３、デー
タ移動３０Ａ、３０Ｂ）。正味の結果は、影響を受けた
プロセスが再開されエラーから完全に明瞭であることで
ある。

【００４５】第２または第３のＣＰＵが同じブロックを
要求して送出側ＣＰＵからエラー信号を受取ったなら
ば、上記ステップ１１乃至１５がこのような各受取り側
ＣＰＵ毎に反復される。

【００４６】ＣＰＵ、ＳＰおよびオペレーティング・シ
ステム・ソフトウエア間の応答性の区切りが例示の構成
において重要な勘案であり、また最初に絶対的な必要性
について、次に構成要素の強弱について判定がなされ
た。

【００４７】例示システムのハードウエアに対して下記
の機能性を提供しなければならない中庸なサポートが構
成されねばならかった。即ち、Ａ）エラーの検出Ｂ）エラーに関する情報の提供（関連するキャッシュ・
ブロックの同定を含む）Ｃ）予期し得る方法による影響を受けたＢＰＵの凍結
（停止）Ｄ）ＳＰへのアラームＥ）下記に対するサポート指令１）キャッシュ・ブロックのスワッピング２）キャッシュ・ブロックの不能化（あるいは、例示マ
シンにおけるレベルの如き大きなキャッシュの細分割）３）ＣＰＵの再始動、およびＦ）エラー処理全体におけるサービス・システム要求の
続行（システム全体の停止を避けるために）最初、ＣＰＵハードウエアはＳＰの介入なしにこれら全
ての役割を処理するように設計されねばならないよ８に
思われた。即ち、理想的には、ＣＰＵ自体が自動的に訂
正のためブロックをメモリーにスワップし、訂正された
ブロックを取出して、影響を受けた命令を再開すること
になる。しかし、当業者には、このような試みが設計誤
りの可能性に満ちており、またシステム設計の労力の根
源（即ち、設計者の時間およびシリコン・スペース）の
多くを費やすことが理解されよう。ＣＰＵ、ＳＰおよび
オペレーティング・システム・ソフトウエア間に責任を
分担することにより、ハードウエアの商業的な実装およ
び開発努力に関して（設計／実現の責任は１つの主要要
員に集中しない）、例示システムの全体的な設計、開発
および生産コストが著しく減少した。更にまた、当業者
は、早期のシステム・テスト中にバグが発見されるなら
ば、ハードウエアＶＬＳＩ構成要素の新しいバージョン
を作るよりソフトウエアを修正することが容易であるこ
とを容易に理解しよう。このような付加的な柔軟性は、
区分された試みにシリコンにプロセスを集中するのに勝
る利点を与える。

【００４８】ＳＰの責任は、下記のものを含む。即ち、Ａ）アラーム処理Ｂ）下記を含むエラー処理および訂正の監視１）スワップするブロックを決定する指令の発行２）エラーのブロックをスワップする指令の発行３）スワップ中に生じる例外の処理、即ち、エラーが回
復不能（例えば、２倍ビットの故障）ならば、ＳＰはこ
の情報／状態をオペレーティング・システムに送るよう
にプログラムされるＣ）命令再試行ソフトウエアに対する影響を受けたＢＰ
Ｕからレジスタを取出しＤ）ＣＰＵが然るべく実行するよう指令の発行を介して
再始動可能である柔軟性ｊにあることを保証ＳＰの責任は故障と関連する命令が再試行可能かどうか
の判定は含まないことが判るであろう。幾つかの要因が
これを行うことを禁止する。第１に、ＣＰＵアセンブリ
限度の命令セットにおける更に複雑な命令のあるものが
再試行可能であるかどうかの判定に要するアルゴリズム
は非常に複雑である（これが非常に大きなプログラムに
翻訳する）。予期される記憶容量の制限の故に、ＳＰに
対するこれ以上の記憶要求が行われるべきでないと判定
された。更に、ＳＰはこれがサポートするメインフレー
ム・コンピュータに比較して低速であり、従って再試行
ソフトウエアがメインフレームに存在すると、この処理
は遥かに更に高性能となる。

【００４９】オペレーティング・システム・ソフトウエ
アの責任は、主として影響を受ける命令が再試行可能で
あるかどうかを判定する責任である。この機能性は、影
響を受けたＣＰＵが故障で遅れさせられた後に可能にな
る。オペレーティング・システム・ソフトウエアは、故
障の種類を解釈し、これが本発明が目的とするエラーの
種類である判定される時、このソフトウエアはそのパリ
ティ故障処理手順に入る。

【００５０】オペレーティング・システム・ソフトウエ
アが命令が再試行可能かどうか判定するため実行しなけ
ればならない分析は、故障した命令の種類に依存する。
実質的に、例示的ＣＰＵは、サポートするアセンブリ言
語命令セットが下記の命令からなる。即ち、１）キャッシュからのロード・レジスタ２）キャッシュへの書込み３）レジスタの修正４）同じキャッシュ・ワードに対して読込み、変更し、
次に書込む５）キャッシュ・データを１つの場所から別の場所へ移
動する、および（または）６）転送制御オペレーティング・システム・ソフトウエア再試行構成
要素が、命令のこれらの種別を分析して、与えられた命
令が与えられた状況において再試行可能であるかどうか
を判定する。特に、これは、非常に簡単なタスクに見え
る。例えば、サイフォンの間に受取られたデータが不良
パリティを持った故に簡単な「Ａ−レジスタのロード
（ＬＤＡ）」命令が失敗するならば、キャッシュ・ブロ
ックの訂正に続いてＬＤＡが再実行可能であると予期さ
れよう。しかし、単なる事例として、もしＬＤＡが間接
的で関連したタリー有効アドレスの修正を有するならば
何が起こるかを考えよう。従って、オペレーティング・
システム・ソフトウエアはこの状況を検出してタリー・
ワードをその予備実行状態に復元しなければならない。
このＬＤＡ例は、再試行アルゴリズムを複雑にする命令
セットに対する期待であるという周知の事実を示すため
に提示する。

【００５１】このシステム例においては、ハードウエア
はこれらエラーから回復するためのある重要なサポート
を提供する。このハードウエアは、あるレジスタに対す
る予備実行値を見出して再試行のため使用が可能である
ようにあるレジスタのシャドウ動作を提供する。この真
に複雑な場合（例えば、倍精度演算）は、このシャドウ
動作から最も大きな利益を受ける。このような複雑な場
合では、オペレーティング・システム・ソフトウエア
は、予備実行レジスタが存在する場所を判定してこれら
レジスタを再試行のため使用することができる。シャド
ウ動作は、実質的に、無効データが読出される時でもレ
ジスタを修正する命令を動作が完了する程度に最適化さ
せ得るが、これはレジスタの予備実行コピーが再試行に
利用可能である故である。この特徴がなければ、これら
の命令は再試行不能であると見做されるか、あるいはＣ
ＰＵの実行が、無効データが検出される時動作が取消さ
れることを保証するため低速化されねばならないことに
なる。

【００５２】命令が再試行可能である時、オペレーティ
ング・システム・ソフトウエアは制御を影響を受けたプ
ロセスに戻し、このプロセスはハードウエア・エラーか
ら明らかである。もし命令が再試行不能であるか、ある
いはキャッシュ・ブロックの故障が訂正不能であるなら
ば、影響を受けたプロセスが終了させられる。

【００５３】次に、図４のフロー図に注目されたい。こ
のフロー図は、例示のシステムの環境と似た環境におい
て本発明を実施する際にプログラマにとって特に有効と
なる本発明の別の開示である。

【００５４】本発明の原理は実施例において明瞭となっ
たが、当業者には、この原理から逸脱することなく特定
の環境および動作要件に特に適合する、本発明の実施に
際して使用される構造、配置、比率、要素、材料および
構成部分の多くの変更が明らかであろう。

【図面の簡単な説明】

【図１】本発明が用途を有する情報処理システムの中央
システム構造を示す非常に高レベルのブロック図であ
る。

【図２】図１の中央システム構造の中央処理装置を示す
全体ブロック図である。

【図３】本発明の実施中生じるあるデータ移動を示す図
１と似たブロック図である。

【図４】本発明の別の実施例を実行する流れ図である。

【符号の説明】

１システム制御装置（ＳＣＵ）２システム・バス３メモリー・バス４メモリー装置（ＭＵ）５中央処理装置（ＣＰＵ）６入出力装置（ＩＯＵ）７入出力バス（ＩＯＢ）８クロックおよび保守装置（ＣＭＵ）９サービス・プロセッサ（ＳＰ）１０ＡＸチップ１１キャッシュ装置１２キャッシュ・ディレクトリ（ＣＤ）チップ１３複写ディレクトリ（ＤＤ）チップ１４ＤＮチップ１５浮動小数点演算（ＦＰ）チップ１６クロック分散（ＣＫ）チップ１７ＦＲＡＭチップ１８ＸＲＡＭチップ２０マスター結果バス（ＭＲＢ）２１スレーブ結果バス（ＳＲＢ）２２ＣＯＭＴＯバス２３ＣＯＭＦＲＯＭバス３３キャッシュ記憶装置３４エラー検出装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者デヴィッド・エス・エドワーズアメリカ合衆国アリゾナ州85023，フェニックス，ウエスト・パラダイス・レーン 3317 (72)発明者ウィリアム・エイ・シェリーアメリカ合衆国アリゾナ州85018，フェニックス，イースト・オズボーン・ロード 4900 (72)発明者ジウィー・チャンアメリカ合衆国アリゾナ州85023，フェニックス，ノース・サーティーファースト・ドライブ 15620 (72)発明者ミノル・イノシタアメリカ合衆国アリゾナ州85302，グレンデール，ウエスト・ゴールデン・レーン 5332 (72)発明者レナード・ジー・トルビスキアメリカ合衆国アリゾナ州85253，スコッツデール，イースト・ホースシュー・レーン 6725

Claims

【特許請求の範囲】

【請求項１】耐故障マルチプロセッサ・コンピュータ
・システムにおいて、Ａ）第１の中央処理装置を設け、該第１の中央処理装置
は、１）第１のキャッシュ記憶手段と、第１のキャッシュ・
メモリー装置に関して読出し／書込みされた情報のブロ
ックにおけるパリティ・エラーを検出するための第１の
パリティ・エラー検出手段とを有する第１のキャッシュ
・メモリー装置を含み、Ｂ）第２の中央処理装置を設け、該第２の中央処理装置
は、１）第２のキャッシュ記憶手段と、第２のキャッシュ・
メモリー装置に関して読出し／書込みされた情報のブロ
ックにおけるパリティ・エラーを検出するための第２の
パリティ・エラー検出手段とを有する第２のキャッシュ
・メモリー装置を含み、Ｃ）前記第１の処理装置からのサイフォン要求に応答し
て、前記第２のキャッシュ記憶手段から前記第１の中央
処理装置へ前記第１および第２のパリティ・エラー検出
手段を介して指定された情報ブロックを転送する手段
と、Ｄ）パリティ・エラー訂正装置を有するシステム制御装
置と、Ｅ）前記中央処理装置と前記システム制御装置とを接続
するシステム・バスと、Ｆ）主メモリー装置と、Ｇ）前記システム制御装置と前記主メモリー装置とを接
続するメモリー・バスと、Ｈ）サイフォン動作中、前記第１の中央処理装置により
要求された前記第２の中央処理装置からの与えられた故
障ブロックにおける、前記第２のパリティ・エラー検出
手段によるキャッシュ読出しパリティ・エラーの検出
と、前記第１のパリティ・エラー検出手段によるキャッ
シュ書込みとに応答して、前記与えられた故障ブロック
を前記第２のキャッシュ・メモリー装置から前記与えら
れた故障ブロックが訂正される前記システム制御装置を
介して前記主メモリー装置へ転送し、その後前記訂正さ
れたメモリー・ブロックを前記主メモリー装置から前記
第１の中央処理装置へ転送するエラー回復制御手段と、
を設けてなることを特徴とする耐故障コンピュータ・シ
ステム。
【請求項２】Ａ）前記第１のパリティ・エラー検出手
段が、キャッシュ書込みパリティ・エラーの検出に応答
して第１のエラー・フラッグを発行する手段を含み、Ｂ）前記第２のパリティ・エラー検出手段が、キャッシ
ュ読出しパリティ・エラーの検出に応答して第２のエラ
ー・フラッグを発行する手段を含み、Ｃ）前記エラー回復制御手段が、前記第１および第２の
エラー・フラッグを検出するための、かつ前記第２のキ
ャッシュ・メモリー装置から、前記与えられた故障ブロ
ックが訂正される前記システム制御装置を介して、前記
主メモリー装置への前記与えられた故障ブロックの転送
を指令することにより、これに応答するようプログラム
されたサービス・プロセッサを含むことを特徴とする請
求項１記載の耐故障コンピュータ・システム。
【請求項３】前記第１および第２の中央処理装置が各
々更に、Ａ）ランダム・アクセス・メモリーと、Ｂ）前記サービス・プロセッサからの指令に応答して、
前記第１および第２のエラー・フラッグの発行をもたら
す結果となった動作の再試行に先立ち、前記ランダム・
アクセス・メモリーに対して保護ストア情報をプッシュ
する手段とを含むことを特徴とする請求項２記載の耐故
障コンピュータ・システム。
【請求項４】前記エラー回復制御手段が更に、Ａ）命令再試行ルーチンを含むオペレーティング・シス
テム・ソフトウエアと、Ｂ）前記命令再試行ルーチンにおいて、前記第１および
第２のエラー・フラッグの存在を検出して、この存在お
よび前記第２のキャッシュ・メモリー装置から前記主メ
モリー装置への前記与えられた故障ブロックの以前の転
送に応答して、前記第１および第２のエラー・フラッグ
の発行をもたらす結果となった動作の再試行を指令し、
かつ前記主メモリー装置から前記第１の中央処理装置へ
の前記訂正されたメモリー・ブロックの転送を指令する
手段を含むことを特徴とする請求項２又は請求項３記載
の耐故障コンピュータ・システム。
【請求項５】耐故障コンピュータ・システムにおい
て、Ａ）中央処理装置を設け、該中央処理装置は、１）キャッシュ記憶手段と、キャッシュ・メモリー装置
から読出された情報のブロックにおけるパリティ・エラ
ーを検出するための第１のパリティ・エラー検出手段と
を有するキャッシュ・メモリー装置と、２）基本処理装置に対して前記キャッシュ・メモリー装
置から読出された情報のブロックにおけるパリティ・エ
ラーを検出するための第２のパリティ・エラー検出手段
を有する基本処理装置と、３）前記基本処理装置からの要求に応答して、情報の指
定されたブロックを前記キャッシュ記憶手段から前記第
２のパリティ・エラー検出手段を介して前記基本処理装
置へ転送する手段とを含み、Ｂ）パリティ・エラー訂正手段を有するシステム制御装
置と、Ｃ）前記中央処理装置と前記システム制御装置とを接続
するシステム・バスと、Ｄ）主メモリー装置と、Ｅ）前記システム制御装置と前記主メモリー装置とを接
続するメモリー・バスと、Ｆ）前記第１のパリティ・エラー検出手段と前記第２の
パリティ・エラー検出手段との両方による、前記基本処
理装置により要求された与えられた故障ブロックにおけ
るパリティ・エラーの検出に応答して、前記与えられた
故障ブロックを前記キャッシュ・メモリー装置から、前
記与えられた故障ブロックが訂正される前記システム制
御装置を介して、前記主メモリー装置へ転送し、その後
前記訂正されたメモリー・ブロックを前記主メモリー装
置から前記中央処理装置に対して転送するエラー回復制
御手段と、を設けてなることを特徴とする耐故障コンピ
ュータ・システム。
【請求項６】Ａ）前記第１のパリティ・エラー検出手
段が、キャッシュ読出しエラーの検出に応答して第１の
エラー・フラッグを発行する手段を含み、Ｂ）前記第２のパリティ・エラー検出手段が、前記キャ
ッシュ・メモリー装置から受取った情報の与えられた故
障ブロックにおけるパリティ・エラーの検出に応答して
第２のエラー・フラッグを発行する手段を含み、Ｃ）前記エラー回復制御手段が、前記第１および第２の
エラー・フラッグを検出するための、かつ前記キャッシ
ュ・メモリー装置から、前記与えられた故障ブロックが
訂正される前記システム制御装置を介して、前記主メモ
リー装置への前記与えられた故障ブロックの転送を指令
することにより、これに応答するようプログラムされた
サービス・プロセッサを含むことを特徴とする請求項５
記載の耐故障コンピュータ・システム。
【請求項７】前記中央処理装置が更に、Ａ）ランダム・アクセス・メモリーと、Ｂ）前記サービス・プロセッサからの指令に応答して、
前記第１および第２のエラー・フラッグの発行をもたら
す結果となった動作の再試行に先立ち、前記ランダム・
アクセス・メモリーに対して保護ストア情報をプッシュ
する手段とを含むことを特徴とする請求項６記載の耐故
障コンピュータ・システム。
【請求項８】前記エラー回復制御手段が更に、Ａ）命令再試行ルーチンを含むオペレーティング・シス
テム・ソフトウエアと、Ｂ）前記命令再試行ルーチンにおいて、前記第１および
第２のエラー・フラッグの存在を検出して、この存在お
よび前記キャッシュ・メモリー装置から前記主メモリー
装置への前記与えられた故障ブロックの以前の転送に応
答して、前記第１および第２のエラー・フラッグの発行
をもたらす結果となった動作の再試行を指令し、かつ前
記主メモリー装置から前記中央処理装置への前記訂正さ
れたメモリー・ブロックの転送を指令する手段とを含む
ことを特徴とする請求項６記載の耐故障コンピュータ・
システム。
【請求項９】前記エラー回復制御手段が更に、Ａ）命令再試行ルーチンを含むオペレーティング・シス
テム・ソフトウエアと、Ｂ）前記命令再試行ルーチンにおいて、前記第１および
第２のエラー・フラッグの存在を検出して、この存在お
よび前記キャッシュ・メモリー装置から前記主メモリー
装置への前記与えられた故障ブロックの以前の転送に応
答して、前記第１および第２のエラー・フラッグの発行
をもたらす結果となった動作の再試行を指令し、かつ前
記主メモリー装置から前記中央処理装置への前記訂正さ
れたメモリー・ブロックの転送を指令する手段とを含む
ことを特徴とする請求項７記載の耐故障コンピュータ・
システム。
【請求項１０】前記訂正されたメモリー・ブロック
が、与えられた故障ブロックと異なるキャッシュ・ブロ
ック位置へ戻されることを特徴とする請求項１から請求
項９のいずれか１項に記載の耐故障コンピュータ・シス
テム。
【請求項１１】前記訂正されたメモリー・ブロック
が、与えられた故障ブロックと異なるキャッシュレベル
位置へ戻されることを特徴とする請求項１０記載の耐故
障コンピュータ・システム。