JPH081616B2

JPH081616B2 - 記憶エラー訂正方法及び過剰エラー状態を報告する方法

Info

Publication number: JPH081616B2
Application number: JP4049858A
Authority: JP
Inventors: トーマス・マチュー・ブレイ; マチュー・アンソニー・クリゴウスキ; ブルース・ロイド・マクギルブレイ; トリン・フイ・グェン; ウィリアム・ウー・シェン; アーサー・ジェームズ・サットン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-04-17
Filing date: 1992-03-06
Publication date: 1996-01-10
Anticipated expiration: 2011-01-10
Also published as: US5274646A; JPH04338849A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は過剰エラー訂正、その制
御及び効率的なその管理に関する。過剰エラー(excessi
ve error)とは、コンピュータシステム内のランダムア
クセスメモリのようなメモリに記憶してあるデータ単位
に備えられているＥＣＣ（エラー訂正コード）では訂正
することのできないようなエラービットのことである。

【０００２】

【従来の技術】コンプリメント／リコンプリメント(com
plement/recomplement)型すなわちＣ／Ｒエラー訂正法
（以下Ｃ／Ｒ法と称する）は、エム．シー．カーター
(M.C.Carter)に付与され、本出願人に譲渡された米国特
許第３９４９２０８号「エンコードされたメモリワード
におけるエラーを検出し訂正するための装置」に開示さ
れている。Ｃ／Ｒ法は、コンピュータシステムのメモリ
に記憶されているデータ単位に対するハミング型ＥＣＣ
（エラー訂正コード）法のエラー訂正能力を高めるため
に用いられているものである。また、Ｃ／Ｒ法はデータ
単位内の１つ以上のハードエラーを訂正し、ＥＣＣ法に
そのデータ単位内の全てのソフトエラーの訂正を任せる
ようにするために用いるものである。

【０００３】ハードエラーとは断線等、回路内の永久的
障害によって起こるエラーであり、メモリ内のあるビッ
ト位置を永久的にある状態、１か０の状態に、固定する
原因となるものである。ソフトエラーとは通常回路の０
または１の状態を変えるアルファ粒子によって起こるも
ので、次回にその回路に他のデータを記憶する時には、
ソフトエラー状態は存在しない。このようにハードエラ
ーはハードウエア内に永久に残るのに対し、ソフトエラ
ーは１回のデータ単位の記録時のみに存在する。上述の
Ｃ／Ｒ法はハードエラーの永久的に固定された状態のみ
を訂正するものである。Ｃ／Ｒ法は半導体ダイナミック
ランダムアクセスメモリ（ＤＲＡＭ）の半導体チップを
用いて構成したコンピュータ記憶装置で用いることがで
きる。

【０００４】Ｃ／Ｒ法はデータ単位内のＥＣＣが過剰エ
ラーを発見した後にのみ起動される。そして読み取りを
行い、データ単位内の読み取った各ビットの補数を取る
（反転する）。次に、反転したデータ単位をメモリ内の
同じビット位置に再び記憶する。元のビット位置に記憶
する時、ハードエラーが起きた場所のエラーデータのみ
がそれらの以前の固定された状態に戻ることになる。全
ての非エラービットとソフトエラーによるエラービット
とは、状態が固定されているため反転しないハードエラ
ーによる固定ビットに関して反転されることになる。記
憶した反転データ単位の２度目の取りだしを行ない、読
み取ったビットを再び反転して全ハードエラーを訂正す
る。次にＥＣＣを用いてＥＣＣ法の最大能力まで全ての
ソフトエラーを訂正する。この２回目の反転の後、及び
Ｃ／Ｒプロセスの終了時に、データ単位を元のエラー状
態でメモリ内の元の位置に再び記憶する。

【０００５】ＥＣＣ（エラー訂正コード）法は大型コン
ピュータシステムのＤＲＡＭ即ち主記憶装置（ＭＳ）及
び拡張記憶装置（ＥＳ）に共通に用いられている。最も
共通に用いられているＥＣＣはＳＥＣ／ＤＥＤ（１エラ
ー訂正／２エラー検出）のためのもので、これはデータ
単位（ＤＵ）を記憶あるいは転送する時に、全てのＤＵ
内の２ビットエラーを検出できるが訂正できないもので
ある。このようなＳＥＣ／ＤＥＤ型のＥＣＣを用いてい
る時に第２のビットエラー（過剰エラー）を検出したと
すると、この第２のエラービットをＥＣＣを用いて訂正
することはできない。しかしながら、第２のエラービッ
ト（ＳＥＣ／ＤＥＤを用いているシステムにおける過剰
エラー）をデータ送信用のＣ／Ｒ法によってしばしば訂
正できることがあり、この場合、Ｃ／Ｒ法はいかなる数
のハードエラーでも訂正することができるが、ＤＵ毎に
１つのソフトエラーしか訂正することができない。した
がって、Ｃ／Ｒ法とＥＣＣ法との組み合せによってＥＣ
Ｃのエラー検出能力まで送信中におけるデータ内のハー
ド及びソフトエラーの全数を訂正することができるよう
になる。

【０００６】Ｃ／Ｒ法がデータ単位内のソフトエラーを
訂正するのを妨げるのはソフトエラーの過渡的特性であ
る。また、ソフトエラーを訂正するのはＥＣＣである。
したがって、Ｃ／ＲとＥＣＣ（ＳＥＣ／ＤＥＤ）とを組
み合わせた方法は１データ単位の送信中において１つの
ソフトエラーの訂正に限られ、２つのソフトエラー（Ｓ
−Ｓケース）の発生は訂正不可能である。

【０００７】また、Ｃ／ＲとＥＣＣ法の双方ともデータ
単位の送信中にのみ記憶されたエラーを訂正することに
限られている。メモリ内のデータ単位に存在するハード
またはソフトエラーはそこから送信が行われるメモリに
残ってしまう。Ｃ／Ｒ法はハードエラーを記憶されてい
るメモリデータ単位を読み出し、補数を取ったもの（反
転したもの）のみを訂正できるものである。

【０００８】Ｃ／Ｒプロセスが首尾よく完了した後で
も、記憶されたデータ単位は同じエラービットと共に、
メモリ内に残っている。しかし、ソフトエラーの数がＥ
ＣＣの能力を越えていなければ要求元は訂正後のデータ
単位を受け取る。Ｃ／Ｒ法はソフトエラービットがなけ
れば完全なエラー訂正を提供するものである。そして、
Ｃ／Ｒ法が全てのハードエラーを訂正した後にＥＣＣが
ソフトエラービットを訂正することができればＣ／Ｒ法
は完全なエラー訂正が可能である。しかし、ソフトエラ
ーの数がＥＣＣの能力を越える場合、エラー訂正をする
ことはできない。例えば、ＥＣＣの最大能力がデータ単
位当り１エラービットの訂正である場合、あるデータ単
位内の２つのソフトエラー（Ｓ−Ｓエラーケース）はＣ
／Ｒ法では訂正不可能である。

【０００９】また、Ｃ／Ｒ法は２回余分にデータを取り
だし２回余分にメモリに記憶する必要があるので、ＥＣ
Ｃ法のみを採用した場合よりかなり処理に時間がかかる
ものである。したがって、過剰エラーを検出しなければ
Ｃ／Ｒ法を呼び出さないようにしている。例えば、ＳＥ
Ｃ／ＤＥＤ型ＥＣＣを用いている時は、データ単位当り
２つのエラービットのみを検出することができる。１つ
のエラーのみ検出したのなら（過剰エラーが存在しない
ので）Ｃ／Ｒ法を起動しなくてもＥＣＣ法で訂正するこ
とができる。

【００１０】Ｃ／Ｒ法はデータ単位内のいかなる数の永
久的（ハード）エラーでも訂正することができるが、Ｅ
ＣＣエラー検出を用いてＣ／Ｒ法の起動を制御するた
め、ＥＣＣの最大エラー検出能力によってＣ／Ｒ法の能
力は限定されてしまう。

【００１１】ＳＥＣ／ＤＥＤ（１エラー訂正／２エラー
検出）型ＥＣＣをメモリに記憶しておき、１データ単位
内の２つのエラーを訂正するようにしたコンピュータシ
ステムではＣ／Ｒ法によるエラー訂正技法を効果的に用
いている。ＥＣＣ法単独では１データ単位内の１エラー
を訂正する最大能力を有している。データ単位が１つの
ハードエラーと１つのソフトエラーとを持っている場合
（以後Ｈ−Ｓケースと呼ぶ）、Ｃ／Ｒ法による処理でハ
ードエラービットを訂正した後、ＥＣＣ法による訂正を
単一のソフトエラービットに適用する。

【００１２】現在用いられている大型コンピュータシス
テムで、最良の保守を望むものは、全ての過剰エラーの
発生を訂正したか否かの記録を記憶している。これは要
求元に対してはＣ／Ｒ法を用いて過剰エラーを訂正す
る。そうしなければ中断しなくてはならないタスクの実
行を継続することができても、各過剰エラーはメモリ内
では訂正されていないからである。このため、Ｃ／Ｒ法
による過剰エラー訂正はシステムの通常のエラー訂正能
力以外のものと考えられている。Ｃ／Ｒ法で訂正された
データ単位は、もしその中に別のソフトエラーが生じる
と、システムをクラッシュさせることがある。

【００１３】別の関連技術が１９８０年ボセン及びサイ
オ(Bossen and Hsaio)によって、ＩＢＭリサーチジャー
ナル（１９８０年５月）の第３９０頁、「メモリソフト
エラーに対するシステム解決法」という題の論文に発表
されている。

【００１４】厳重なエラー報告及び記述(accounting)を
従来の大型コンピュータシステムにおいて密接に調和し
たシステム保守を保証するために用いている。これらは
過剰エラーをシステム内のシステムサービスプロセッサ
（ＳＰ）に報告し、システム内で発生した全ての重大な
エラー状態の記録を保管して、例えば、保守を行うため
にＣＰＵオフラインにいつ切り変えるかを決定する。

【００１５】従来はＣ／Ｒ法を呼び出すには、要求元の
プロセッサとメモリ動作の両方を中断しなくてはならな
かった。エラー検出の発生に応答してＣ／Ｒ法が呼び出
されると、プロセッサクロックとメモリアクセスをプロ
セッサが回復するまで停止することになり、更に、中断
信号をＳＰに送ることになる。次にＳＰは現行のプログ
ラムを中断し、停止したプロセッサに対して回復作業を
行っている。これは通常、プロセッサのクロックが止ま
った時に実行を停止した命令を再び試行させることであ
る。回復作業が完了した後、通常動作のために、ＳＰは
プロセッサを再起動し、メモリはアクセスを再開する。
プロセッサは、次に過剰エラーを有するデータ単位のた
めに、Ｃ／Ｒ法を呼び出す再読み取り要求を発生する。
Ｃ／Ｒ法の処理の後に過剰エラーが存在したら、再びプ
ロセッサの停止が起こり、上述の動作が行われている。
次にプロセッサを再起動した時に、プロセッサがタスク
に損害を与えた命令を記録している。

【００１６】このＣ／Ｒ法の従来の処理では、Ｃ／Ｒ法
を呼び出せるようになるまでに、要求元へのクロック停
止割り込み、メモリアクセスの停止、更にＳＰの介在を
必要とするため、Ｃ／Ｒ法の前処理に非常に時間がかか
り、Ｃ／Ｒ法の各動作の各動作に対して、通常のＣＰＵ
であればマイクロ秒台の速度であるのに対して、ミリ秒
台の速度であり、システム効率を低下させている。マシ
ンチェックによる割り込みが原因となって、ＣＰＵのキ
ャッシュ内の全てのデータが失われ、更にＣＰＵのＴＬ
Ｂ（変換ルックアサイドバッファ）内の全ての変換が失
われ、これにキャッシュ内で失われた全てをデータを再
び読み取り、ＴＬＢ内で失われた全てのアドレスを再変
換する必要性に起因するＣＰＵ処理能力の低下が加わ
り、システムの処理能力は更に激しく劣化する。データ
が訂正されないと、マシンチェック割り込みによってプ
ログラムタスクはアベンド（異常終了）されてしまう。

【００１７】要求元への送信中、Ｃ／Ｒ法は集合内のハ
ードエラーを訂正することができ、ＥＣＣ法はソフトエ
ラーを訂正することができるがＣ／Ｒ法によるエラー訂
正はメモり自体のハードエラーもソフトエラーもなんら
訂正しないものである。しかしながら、訂正したＤＵ＋
ＥＣＣ照合をその元の位置に記憶することによって、Ｅ
ＣＣ法で訂正したソフトエラーをＭＳ内で訂正すること
ができ、これは時として「データをスクラッブ(scru
b)」すると呼んでいるものである。

【００１８】

【発明が解決しようとする課題】本発明の目的は要求プ
ロセッサ及びメモリ制御器によってＣ／Ｒ法のプロセス
を動的に行い、サービスプロセッサによる介在を減少ま
たは除去するようにした手段を提供することである。

【００１９】本発明の別の目的は要求プロセッサによる
データ処理の中断を発生させずにデータ単位をＣ／Ｒ法
で訂正できるようにすることである。

【００２０】本発明の更なる目的はＣ／Ｒ法を実施する
ハードウエアをいくつかの障害には耐えられるように
し、そうしなければ訂正できないようなエラーをその方
法によって訂正させることができるようにすることであ
る。

【００２１】

【課題を解決するための手段】本発明はＣ／Ｒ法に再試
行性を設けることによってこの価値を大幅に高めたもの
である。Ｃ／Ｒプロセスの実行中どこで障害が生じよう
と、本発明はＣ／Ｒ法の開始前に存在していた元の誤っ
たＤＵ＋ＥＣＣの値を元の位置に記憶することを要求
し、Ｃ／Ｒ法を再試行できるようにしている。故障がな
い復元はＣ／Ｒ法を用いる場合に信頼性を得るには重要
なことである。

【００２２】本発明はＥＣＣ法が過剰エラーを検出した
時（例えば、Ｃ／Ｒ法をＳＥＣ／ＤＥＤ型ＥＣＣと共に
用いている時に２つのエラービットが１つのデータ単位
内で発見されたような時）、自動的にＣ／Ｒ法を呼び出
す。次に、本発明はＥＣＣエラー検出をＣ／Ｒ法と組み
合わせて用いＨ−Ｈ、Ｈ−Ｓ及びＳ−Ｓケースのような
異なる２つのエラーの組み合わせのケースを検出する。
Ｈ−Ｈケースの検出は２つのハードエラーがメモリ内の
データ単位に存在することを明らかにすると共に、メモ
リの故障状態も表す。Ｈ−Ｓケースの検出は、メモリ内
のデータ単位に１つのハードエラーが存在することを明
らかにすると共に、この場合もメモリの故障状態を表
す。Ｓ−Ｓケースの検出は、メモリ内のデータ単位に２
つのソフトエラーが存在することを明らかにし、メモリ
の故障状態は表さないが、メモリに記憶されているデー
タ単位の訂正不可能なエラー状態を表すことになる。

【００２３】本発明はＳＥＣ／ＤＥＤ型の代りに、２エ
ラー訂正／３エラー検出（ＤＥＣ／ＴＥＤ）あるいは３
エラー訂正／４エラー検出（ＴＥＣ／ＱＥＤ）型等の他
の型のＥＣＣと共に、Ｃ／Ｒ法を用いることができる。
ＳＥＣ／ＤＥＤを別の既知のＥＣＣの形式のいずれかと
置き換えることによって、それに対応してデータ単位内
の訂正可能なソフトエラーの数が増加する。例えば、Ｓ
ＥＣ／ＤＥＤ型ＥＣＣをＤＥＣ／ＴＥＤ型のＥＣＣと置
き換えれば、データ単位当り２つまでのソフトエラーを
訂正することができるようになり、Ｈ−Ｈ−Ｈ、Ｈ−Ｈ
−Ｓ、Ｈ−Ｓ−Ｓ及びＳ−Ｓ−Ｓケースを扱うことがで
きることになる。また、ＳＥＣ／ＤＥＤ型ＥＣＣをＴＥ
Ｃ／ＱＥＤ型ＥＣＣと置き換えることによって、３つま
でのソフトエラーを訂正することができ、Ｈ−Ｈ−Ｈ−
Ｈ、Ｈ−Ｈ−Ｈ−Ｓ、Ｈ−Ｈ−Ｓ−Ｓ、Ｈ−Ｓ−Ｓ−Ｓ
及びＳ−Ｓ−Ｓ−Ｓケースを扱うことができるようにな
り、更に高い等級のＥＣＣタイプと置き換えれば、訂正
できるようになるソフトエラーの数も増加する。本発明
ではデータ単位内のエラーの位置は重要なことではな
い。

【００２４】本発明は特定のエラーケースの発生を自動
的に知らせ、それを後に保守用に用いることができるよ
うにシステムが記録できるようにすることによって、シ
ステム内にレコードを保管できるようにし、これによっ
て、異なるタイプの訂正作用を、上述のような異なる検
出可能な場合に用いることができるようにするものであ
る。

【００２５】本発明はシステムのエラー報告によって過
度なハードエラーとソフトエラーとを検出できるように
することによって、システムを停止するような緊急保守
状況を防止することができる。報告過程を設けたことに
より、非緊急保守が後に検出したエラーの原因となるよ
うな条件を扱えるようにすることができる。

【００２６】本発明はＣ／Ｒ法とＥＣＣ法とを組み合わ
せて用いるようにし、冗長状態制御レジスタを備え、そ
れらに対して比較及びパリティチェックを用いることに
よってシステムの故障に対する耐性を向上させるもので
ある。

【００２７】本発明による報告通知(report signallin
g)の一例では、ＣＰＵがシステムの主記憶装置（ＭＳ）
内の４ＫＢのページフレーム全ての主メモリにメモリマ
ップを保持している。このメモリマップは論理トラック
レコード（ＬＴＲ）と呼ばれているものである。要求元
プロセッサは、過剰エラーのタイプを各アドレスされた
メモリユニットに前もって報告してないなら、それぞれ
のアドレスされたメモリユニット（４ＫＢページフレー
ム）に対してＨ−Ｈ、Ｈ−Ｓ、及びＳ−Ｓの過剰エラー
の場合をＬＴＲに報告し、これによって、システムの処
理を遅れさせシステムの効率を低下させる報告のための
プロセッサ割り込みの数を大幅に減少させることができ
る。

【００２８】ＬＴＲをシステムサービスプロセッサ（Ｓ
Ｐ）にも報告し、ＳＰが物理トラックレコード（ＰＴ
Ｒ）と呼ばれるそれ自体のページフレームマップを永続
的ディスクファイル内に保持できるようにする。ＬＴＲ
が揮発性ＣＰＵメモリのリセットによって失われた後
も、ＰＲＴを保持している。ＣＰＵの次回の再初期化の
時、ＳＰはＰＴＲを用いてＣＰＵのソフトウエアに対し
てメモリ内のＬＴＲを再構築するので、ＣＰＵはエラー
状態として既に報告してある不良ページに対するエラー
割り込みを報告することによって、ＬＴＲの再構築に時
間を浪費しなくても済む。ＰＴＲはエラー状態量のスレ
ショルドを有しており、これを越えるとシステムの適切
な部分を囲い込み(fenced off)、保守のために停止する
ことができる。

【００２９】

【実施例】図１はリクエスタ、すなわち要求元によって
主記憶装置（ＭＳ）１１から要求されたエラーデータを
訂正するためのＣ／Ｒ法の新規な制御をすることができ
るハードウエアを示している。この場合、要求元とはＣ
ＰＵ（中央処理ユニット）、１つ以上のＩ／Ｏデバイス
を制御するＩ／Ｏプロセッサまたはサービスプロセッサ
（ＳＰ）等とすることができる。各データ要求はコンピ
ュータシステム内のメモリからなるＭＳＤＲＡＭアレ
イ内の１つのデータラインをアクセスするためにアドレ
スをＭＳに送出する。好適実施例ではコンピュータシス
テム内の主記憶装置（ＭＳ）を用いているが、本発明は
どのようなメモリにも適用することができる。各要求は
ＭＳ内の要求したデータラインのＭＳアドレス、要求元
の識別子（ＲＩＤ）を含み、これらをメモリ制御器に供
給する。

【００３０】ＭＳ１１内の各データラインは１つ以上の
データ単位（ＤＵ）を含んでおり、各データ単位はデー
タビットの集合体である。これらのデータビットに対し
てエラー訂正コード（ＥＣＣ）を発生し、ＤＵ＋ＥＣＣ
集合体という表記で示されるビット集合体全体を与える
ことになる。１つの集合体におけるＥＣＣビットはＤＵ
ビットの間に混合しており、ＥＣＣビットはその読み取
り及び送信中に、その集合体に対して１エラー訂正／２
エラー検出（ＳＥＣ／ＤＥＤ）を実行可能とする。

【００３１】好適実施例では、各データラインは１６個
のＤＵ＋ＥＣＣ集合体から成り立っている。好適実施例
では、１つのＤＵ＋ＥＣＣ集合体内のビットを並列にメ
モリバスに読み出し送信するようにしているが、これら
を現在アクセス中のデータライン用のバスに直列に送信
するようにしてもよい。また、好適実施例は各ＤＵが６
４データビットのダブルワードであり、ＳＥＣ／ＤＥＤ
を行う８個のＥＣＣビットを有しているものとしてい
る。したがって、６４＋８＝７２ビットを並列にバス上
を転送することになる。直列バスを用いる場合は、各Ｄ
Ｕ＋ＥＣＣ集合体を並列ビット形状に組み立ててメモリ
に送り、またメモリから読み出した並列ビット形状を直
列ビット形状にすることになる。

【００３２】オリジナル読み取り要求（図８）図１のハードウエアにおいて、要求されたデータライン
内の１６個のＤＵ＋ＥＣＣ集合体の各々をＭＳ１１から
反転器１２を介してＥＣＣ論理／Ｓ，Ｐ発生器１３（以
下、回路１３と称する）に転送する。オリジナル読み取
りの間、各集合体はその真の状態（非反転）で反転器を
通過して回路１３に至る。回路１３は各ＤＵ＋ＥＣＣ集
合体のエラーをチェックし、ＥＣＣ論理がそれにエラー
がないことを発見したか否かをその要求元に返送する。
ＤＵ＋ＥＣＣ集合体が１つのエラービットのみを有する
のなら、要求元に送る前に、そのエラーを訂正する。要
求元には、データと共に状態情報も送るようにして要求
元にその集合体にエラーがないかあるいは特定のエラー
状態であるかを知らせる。

【００３３】要求元がエラーのないデータを受け取った
のなら（ＥＣＣによって訂正されたものか非訂正のも
の）、Ｃ／Ｒ機能を省略する（その要求に対しては行わ
れない）。特定の状態信号がいかなる検出したエラー状
態でも送出したＤＵ＋ＥＣＣ集合体に対して識別して要
求元に知らせるので、要求元はエラーを含むＤＵ＋ＥＣ
Ｃ集合体にＣ／Ｒ法を実行するように要求するか否かを
含む要求をすべきことを決定することができる。

【００３４】図８のフロー図はデータライン要求に対す
るオリジナル読み取り処理のステップを示しており、ス
テップ１は現在の要求を表している。ステップ２は読み
取り要求がメモリ制御器から優先権を得る時を表してお
り、ここには図４のメモリ要求レジスタ７１に要求を入
力することも包含されている。該レジスタ７１からＭＳ
内の各ＤＵ＋ＥＣＣ集合体に対してアドレスを発生する
ようにしている。ステップ３は図６及び７のレジスタ７
３及び７４に入力する状態情報の発生である。レジスタ
７３及び７４はＭＳ１１に対するメモリ制御器内に設け
られている。

【００３５】図６のレジスタ７３は要求元に送る状態情
報を表し、回路１３によって次のようなフィールドが設
定されている。要求を行ったプロセッサの要求元識別子（ＲＩＤ）、読み取った７２ビットのＤＵ＋ＥＣＣ集合体、次にあげる１ビット指示部フィールドエラー無し、１ビット訂正済みエラー、過剰エラー、特
殊ＵＥ（未訂正エラー）指示特殊ＵＥはあるメモリ位置に記憶されるユニーク文字で
あり、それによりそのメモリ位置がエラーによる回復不
可能な不良データを有することを表すものである。

【００３６】図７のレジスタ７４はサービスプロセッサ
（ＳＰ）に送る状態情報を表している。レジスタ７４が
集合体に対するＥＣＣシンドロームビットを設定するフ
ィールドも有していることを除いて、レジスタ７４にも
回路１３によってレジスタ７３に入力したのと同一情報
をセットするようにしている。ＳＰに対するシンドロー
ムビットを備えることによって、ＳＰは必要であればＥ
ＣＣ処理を確認するために、シンドロームビット及び他
の状態情報を使用するオプションを有することになる。
オリジナル読み取りでは、レジスタ７３及び７４内のフ
ィールドＨ−Ｈ、Ｈ−Ｓ及びＳ−Ｓは状態レジスタには
発生されていない（リセット状態ではオフになってい
る）。

【００３７】図８のステップ４では、レジスタ７３内の
状態情報をＲＩＤフィールドに示されている要求元に通
信する。これは図４のレジスタ７１内に現在表している
読み取り要求である。

【００３８】再読み取り要求（図９）要求元はＣＰＵ、Ｉ／ＯプロセッサまたはＳＰである。
各要求元は状態情報を受け取り、受信した状態情報を送
出するためのハードウエアであり、状態レジスタの情報
に過剰エラーが報告された場合、Ｃ／Ｒ法を用いて記憶
要求を継続するために更に動作が必要であるかを決める
ハードウエアを有している。好適実施例では、要求元が
状態レジスタにおいて過剰エラーの指示を受けると、要
求元は自動的にＭＳに再読み取り要求を行い、これがＣ
／Ｒ法を呼び出す要求になり、当該ＤＵ＋ＥＣＣ集合体
内の過度エラーの訂正を試みることになる。

【００３９】図７の状態レジスタ７４はその内容をＩＢ
Ｍ３０９０システムのプロセッサ制御要素（ＰＣＥ）内
に存在するもののようなＳＰに送信させている。要求を
扱うハードウエア内に回復可能な故障が生じた場合のよ
うな、ＭＳエラー状態に対する要求の時、ＳＰはシステ
ムのためにエラー回復処理を制御する。例えば、ＤＵ＋
ＥＣＣ集合体を扱っている時にエラー状態が生じたな
ら、ＳＰはエラー集合体を含む位置に特殊なＵＥ文字を
書き込ませ、不良データが用いられるのを防止する。

【００４０】要求元（最初の読み取り要求に対する状態
レジスタ情報を受け取る）がエラーのないフィールドを
受信中であることを発見したら、返答せずに受信した集
合体を用いる。しかし、過剰エラー指示を受け取ったな
ら、再読み取り要求（再実行要求と呼ばれることもあ
る）を要求元のハードウエアマイクロコードによってＭ
Ｓ制御器に返答として与える。再読み取り要求はエラー
のあるＤＵ（レジスタ７１によって現在アドレス指定さ
れている）を訂正する試みの中でＣ／Ｒ法を実行するハ
ードウエア（Ｃ／Ｒハードウエア）を起動する。

【００４１】Ｃ／Ｒ法を呼び出す再読み取り要求を発生
するプロセスにおいて、ＭＳ１１の通常処理または要求
元のプロセッサには割り込みは生じない。

【００４２】要求元プロセッサに割り込みを生じさせず
にＣ／Ｒ過程を首尾よく用いることによって、本発明は
従来技術に比べて重要な新規性を備えることができる。
従来は過剰エラー状態（ＳＥＣ／ＤＥＤＥＣＣでは２
ビットエラー）を感知する際、要求元プロセッサに常に
割り込みが起こり、その間にＳＰを呼び出してＣ／Ｒ法
の実行を起動し制御するようにしていた。そのような従
来のプロセスでは、本発明のプロセスと比較して大量の
処理時間が失われていたことになる。

【００４３】次の表は図４に示すＣ／Ｒシーケンサの４
つの状態と、Ｃ／Ｒプロセスの完了前にＣ／Ｒハードウ
エア内で故障が発生した場合に、エラーのあるＤＵ＋Ｅ
ＣＣ集合体をＭＳ内のその元の状態に復元するために必
要な復元作用を含むそれらシーケンサの結果のいくつか
を表したものである。

【００４４】表再試行のための状態終了時の状態終了時のＤＵ＋ＥＣＣのデータバッファＭＳ内の復元（元の状態状態中内のＤＵ＋ＥＣＣＤＵ＋ＥＣＣのＤＵ＋ＥＣＣ状態の動作の形状の形状を確保する）最初のＭＳから真真無し読み取りデータバッファ最初のデータバ真反転データバッファ記憶ッファから主記憶装置からＭＳ（比較せず）２回目のＭＳから真反転状態バッファエラ読み取り反転器、ーが回復可能ならデータこの２回目の読みバッファ取りを再び行ない、それから２回目の記憶を行なう２回目のデータバッフ真真２回目の記憶を記憶ァからＭＳ再び行なう。

【００４５】このように、Ｃ／Ｒ法の最初の読み取り状
態はメモリ制御器によって操作される際、読み取り要求
に応答して与えられ、Ｃ／Ｒ要求を要求元から図５のシ
ーケンサ７２に供給する。通常、Ｃ／Ｒ法の４つの状態
は連続して起こり、Ｃ／Ｒ法が用いているハードウエア
が正しく処理している限り、２番目の記憶状態で完了す
る。

【００４６】Ｃ／Ｒ法のいずれかの状態で誤動作信号
（シーケンサ７２の出力状態信号によって指示される）
が発生すると、この誤動作信号はＣ／Ｒプロセスのそれ
以上のステップを抑制し、復元処理を呼び出し、処理中
のＤＵ＋ＥＣＣ集合体をＭＳ内のその元の状態に確実に
復元させる。これはＣ／Ｒプロセスの最初の記憶及び２
番目の読み取り状態の終了時には、ＤＵ＋ＥＣＣ集合体
が補数（反転）の形で元のＭＳの元の位置に記憶される
可能性があるからである。特定のデータ復元作用は、中
断が起こった時にＣ／Ｒプロセスのどのステップが存在
していたかに依存する。そしてエラーのあるＤＵ＋ＥＣ
Ｃ集合体を復元したことにより、Ｃ／Ｒプロセスの再試
行が可能となり、再び潜在的訂正状態にすることができ
る。復元しなければ、Ｃ／Ｒ法の再試行を行なってエラ
ーのあるＤＵ＋ＥＣＣ集合体を訂正することはできず、
Ｃ／Ｒ法の訂正能力の信頼性を損なうことになる。

【００４７】図９及び１０は好適実施例で用いているＣ
／Ｒ法の詳細なフロー図を示し、前出の表のＣ／Ｒ法の
ステップをより詳細なサブステップで表したものであ
る。

【００４８】図９のステップ１０はレジスタ７１にアク
セスするためにＭＳ制御器が選択した再読み取り要求を
表しており、ここで複数の要求に優先順位を与え、アド
レスレジスタ７１内の現在のＭＳ要求になるまで、それ
らはパイプライン状に遅延される。したがって、ＭＳの
動作に対して行なわれる通常の優先順位選択により、読
み取りまたは再読み取り要求を発行した時間とＭＳ１１
がそれを実行する時間との間に、多くのマシンサイクル
が介在する。即ち、ＭＳ１１に対するその他の読み取り
要求及び記憶要求をこの介在期間中に実施することがで
きる。メモリ制御器内では、再読み取り要求は常に読み
取り要求より高い優先順位が得られるようになってい
る。

【００４９】図９のステップ１０は「要求元からのＣ／
Ｒ要求」を図５のＣ／Ｒシーケンサ７２に入力すること
を活性化するために、レジスタ７１に入力する再読み取
り要求をその最初の読み取り出力状態に設定することを
表している。

【００５０】図９のステップ１１はＭＳから各ＤＵ＋Ｅ
ＣＣ集合体を読み取ることを表している。

【００５１】ステップ１２は回路１３によって、状態ビ
ットＳ及びパリティビットＰを各ＤＵ＋ＥＣＣ集合体に
発生することを表している。ビットＳは現在のＤＵ＋Ｅ
ＣＣ集合体に対しての受信状態レジスタ情報の中の「過
剰エラービット」フィールドのコピーとして発生される
ものである。状態ビットは過剰エラーの指示がない時は
ゼロ状態を指示するが、一旦過剰エラーが指示される
と、１の状態を有する。そして、回路１３は各状態ビッ
トに対してパリティビットＰを発生する。パリティビッ
トは偶数、奇数パリティのいずれで発生してもよい。好
適実施例では奇数パリティを用いている。したがって、
本実施例では状態ビットが１の時、パリティビットは０
となり、状態ビットが０の時パリティビットは１とな
る。

【００５２】ステップ１４では、各ＤＵ＋ＥＣＣ集合体
に対して発生された状態ビットＳ及びそのパリティビッ
トＰを２つの別個の状態バッファ（状態バッファ１と状
態バッファ２）内にインポインタでアドレス指定された
エントリのフィールドＳ及びＰにコピーする。バッファ
１及び２内の対応するエントリは同一の状態ビット及び
パリティビット状態を受け取る。データバッファ２１及
び状態バッファ１及び２に対するインポインタは全てそ
れらの各バッファ内の対応するエントリをアドレス指定
し、最初の読み取り処理の間にインポインタを同時に増
分するようにする。

【００５３】Ｃ／Ｒ法を呼び出すのは、データバッファ
に読み込み中の現在のＭＳデータライン内の１６個のＤ
Ｕ＋ＥＣＣ集合体の少なくとも１つのＤＵ＋ＥＣＣ集合
体に対して、状態ビットが１状態に設定された時（過剰
エラーを示すため）だけである。

【００５４】一般的に、データバッファ内の殆どのＤＵ
＋ＥＣＣ集合体は誤ったものではなく、それらの各状態
ビットＳは０に設定されており、データバッファに記憶
されている対応するＤＵ＋ＥＣＣ集合体にはエラーがな
いことを示している。

【００５５】ＤＵ＋ＥＣＣ集合体の状態ビットＳの値が
１の場合は、図１のハードウエアにおいて、その集合体
のビットに対する両方の反転を制御する。したがって、
ビットＳに対する０値（エラーのないことを指示する）
はそれが図１のハードウエア中を移動する際、その集合
体の反転（補数を取る）は全く行なわれない。ステップ
２６を参照されたい。

【００５６】ステップ１５はデータバッファ２１内のイ
ンポインタの位置で各ＤＵ＋ＥＣＣ集合体を記憶するこ
とを表している。ステップ１６では、図４のメモリアド
レスレジスタ７１によって現在アドレス指定されている
データラインに対して、１６個全てのＤＵ＋ＥＣＣ集合
体をデータバッファに書き込むまで、インポインタを増
分し、次の集合体をＭＳからデータバッファ２１内の次
のエントリに読み込む。

【００５７】ステップ１８では、Ｃ／Ｒ処理ハードウエ
アにおいてなんらかのエラーが発見されたかを試験す
る。もしエラーが発見されたならＣ／Ｒ処理を禁止し、
ＭＳ内のＤＵ＋ＥＣＣ集合体を禁止されたＣ／Ｒ処理の
開始以前に存在していた元の状態に復元する。

【００５８】ステップ１８で動作的エラーが発見されな
ければ、Ｃ／Ｒ処理はステップ１９を続行し、Ｃ／Ｒシ
ーケンサを増分してその最初の記憶出力状態とする。

【００５９】図１に示すように、アウトポインタ３、２
及び１（２３、２９、２６）をデータバッファ２１と２
つの状態バッファ２及び１（２７、２４）とに備え、出
力すべき対応するエントリの選択を制御するようにして
いる。最初の記憶状態の間、これらのアウトポインタを
ステップ２５で同時に増分し、全てが同じアドレスを有
し、それらの各スタック内の対応するエントリを指すよ
うにする。ステップ２１、２２及び２３はこれらのポイ
ンタ及びそれらのアクセスしたエントリの内容について
チェック動作を行ない、発生したいかなるハードウエア
エラーも検出する。

【００６０】初期状態では、インポインタ及びアウトポ
インタは現在のデータラインのデータバッファ（及びそ
の各状態バッファエントリ）内の最初のＤＵ＋ＥＣＣ集
合体をアドレス指定する。複数のＤＵ＋ＥＣＣ集合体を
データバッファ内の複数のエントリに記憶する（状態バ
ッファ１及び２内の対応するエントリにそれらの対応す
る状態及びパリティビットを記憶すると共に）と直ち
に、インポインタはアウトポインタより先に増分し、イ
ンポインタの値が出力ポインタの値より進んでいる限
り、アウトポインタがアドレス指定したエントリをそれ
ぞれのバッファから出力することができる。

【００６１】アウトポインタがアドレス指定したＤＵ＋
ＥＣＣ集合体をアウトポインタデータスタックエントリ
から図１の反転器３２に出力する。状態バッファ１また
は２のいずれかからのＳビットの対応する出力値（これ
らは誤りがない限り同一である）を用いて、アウトポイ
ンタの制御の下で出力されたＤＵ＋ＥＣＣ集合体に対し
て、図１の全ての反転動作を制御する。現在行なわれて
いるＣ／Ｒ処理の持続期間の間、出力されたビットＳの
値を状態バッファ制御器／パリティチェック回路４３に
登録する。登録した状態ビットＳが１値を有するなら
ば、反転器３２及び反転器１２への線４４上の反転制御
信号（第１記憶及び第２読み取りにてＤＵ＋ＥＣＣビッ
トを反転させる）を活性化する。現在出力中のＤＵ＋Ｅ
ＣＣ集合体に対してビットＳが０であれば、ＤＵ＋ＥＣ
Ｃ集合体に対して反転は行なわない。

【００６２】ステップ２６は対応する状態ビットＳに１
状態が存在する場合、反転器３２内のアウトポインタが
現在指定の集合体の反転（補数を取る）を行なわせる。
次に、ステップ２７はＥＣＣ論理回路３３を不能化し、
ＤＵ＋ＥＣＣ集合体をＥＣＣ論理回路３３を通過させ、
その集合体を読み取ったのと同じＭＳの位置に記憶す
る。対応する状態ビットＳが０であれば、反転器３２は
ＤＵ＋ＥＣＣ集合体を反転しない。ＥＣＣ論理回路３３
は最初の記憶動作の間は集合体には動作しない。

【００６３】アウトポインタを増分することによって、
全てのＤＵ＋ＥＣＣ集合体をＭＳのデータラインに記憶
する動作を制御する。ここで、過剰エラーを有する集合
体（Ｓ＝１）のみがＣ／Ｒ法の最初の記憶ステップの完
了時に反転された形でＭＳに記憶されていることにな
る。

【００６４】ステップ２８では、最初の記憶動作で、Ｃ
／Ｒ処理のハードウエアになんら故障を生じることな
く、記憶が行なわれたかをチェックする。故障が検出さ
れたなら、ステップ２９に進み、上述の表に示したよう
に、Ｃ／Ｒ法の最初の記憶状態の間の故障に対して要求
される復元を行なう。

【００６５】最初の記憶が首尾よく完了したことがわか
った場合、ステップ３１を実行し、Ｃ／Ｒシーケンサ７
１をその２回目の読み取り状態に増分し、補数の形状に
なっている１つ以上のＤＵ＋ＥＣＣ集合体を有し、ＭＳ
内に現在記憶されているデータラインの２回目の読み取
りを開始する。

【００６６】Ｃ／Ｒプロセスの２回目の読み取り（図１
０）２回目の読み取りでは、インポインタ３は最初の読み取
り動作と同じように動作し、レジスタ７１によってアド
レス指定されているデータライン内の各ＤＵ＋ＥＣＣ集
合体をアクセスする。この２回目の読み取りではインポ
インタ１及び２は用いない。したがって、ステップ５１
はレジスタ７１によってアドレス指定されている現在の
データライン内の各ＤＵ＋ＥＣＣをアクセスする。

【００６７】ステップ５４、５５及び５６はＣ／Ｒハー
ドウエアのチェック動作を行なうが、これについては後
述する。

【００６８】２回目の読み取りにおいて、アウトポイン
タ１及び２は最初の読み取りとは異なった動作を行な
い、代りに、ＭＳからデータバッファ２１のインポイン
タ３の指定位置に読み出された現在のＤＵ＋ＥＣＣ集合
体に対応するＳビットを有する複数の状態バッファエン
トリをアドレス指定する。２回目の読み取りでは、アウ
トポインタ１及び２はインポインタ３と共に歩進する
が、回路１３内に対応するバッファ動作による遅れがあ
る時は、インポインタ３の増分は１または２サイクル遅
れて起こることになる。

【００６９】アウトポインタ３は一方、２回目の読み取
り動作によって早く得られたデータバッファ内のＤＵ＋
ＥＣＣ集合体に対して、２回目の記憶動作を制御するの
で、２回目の記憶動作は２回目の読み取り動作と重複す
ることができる。

【００７０】アウトポインタ１及び２は各集合体が反転
器１２を通過して図１０のステップ５７を実行する間、
状態バッファ１及び２をアドレス指定して、ＭＳから読
み出した各ＤＵ＋ＥＣＣ集合体に対するビットＳをアク
セスし、反転器１２の動作を制御する。アウトポインタ
１及び２は初期状態では読み出すべき最初のＤＵ＋ＥＣ
Ｃ集合体をアドレス指定するように設定され、こうし
て、反転器１２の必要な反転状態を制御する。アウトポ
インタ１および２を次に読み出すべきＤＵ＋ＥＣＣ集合
体等のために増分する。

【００７１】状態バッファ内のアクセスされた各ビット
Ｓ（最初の読み取りの間に発生された）を２回目の読み
取りの間変化させずに再び用い、各エラーのあるＤＵ＋
ＥＣＣ集合体の２回目の反転を制御し、２回目の読み取
り動作の間に集合体内の全てのハードエラーを訂正する
ようにする。

【００７２】したがって、各状態バッファ内の状態ビッ
トＳの順序は最初の記憶動作によってＭＳ内に記憶され
たデータラインから読み出されたそれぞれのＤＵ＋ＥＣ
Ｃ集合体の順序である。

【００７３】図１０のステップ５８では、各々次のＤＵ
＋ＥＣＣ集合体をＭＳから読み取る直前にアウトポイン
タ１及び２を増分するので、対応する状態ビットＳはＭ
Ｓから読み取られた集合体に対する反転器１２の動作を
制御するのに効果的である。

【００７４】図１０において、ステップ５８からステッ
プ６１への経路及びステップ５８からステップ７１の経
路は同時に実行される。前者の経路では、Ｃ／Ｒ法にお
ける２回目の反転で全ての存在するハードエラーを訂正
した後に、現在のＤＵ＋ＥＣＣ集合体内に残存している
エラー状態をＳＥＣ／ＤＥＤ型の回路１３が検出する。
ステップ６１では、現在の集合体に対して次の事柄を判
別する。１）ＥＣＣがエラーを訂正しなかったので、Ｈ−Ｈ状態
であるか。２）ＥＣＣがエラーを１個訂正したので、Ｈ−Ｓ状態で
あるか。３）ＥＣＣが存在するエラー状態を訂正できなかったの
で、Ｓ−Ｓ訂正不可能な状態であるか。

【００７５】ステップ６３はレジスタ７３及び７４内の
対応する１ビットフィールドをセットする。これは図１
１のシステムエラー報告処理で用いるのに必要なことで
ある。次に、ステップ６８では、状態レジスタの内容を
要求元とＳＰとに送る。これには、１６個全てのデータ
単位を要求元に送ることを含んでいる。

【００７６】上述の並列経路（後者の経路）はステップ
５８に続いてステップ７１を実行し、現在のＤＵ＋ＥＣ
Ｃ集合体をデータバッファの現在のインポインタ３の指
定位置に記録する。次にポインタ３をステップ７２で増
分する。

【００７７】次のステップ７３では、Ｃ／Ｒハードウエ
ア処理内にステップ６１でＤＵ＋ＥＣＣ集合体内で検出
したエラー状態とは異なるタイプのエラー状態を生じる
ことなく、２回目の読み取りが完了したかを試験する。
Ｃ／Ｒ処理エラーが起こったなら、ステップ８８に進
み、ＭＳ内の現在のＤＵ＋ＥＣＣ集合体を２回目の読み
取りの終了時の状態に復元する。Ｃ／Ｒ処理エラーが起
こっていなかったのなら、ステップ７４でＣ／Ｒシーケ
ンサ７２を増分し、その最後の状態、即ち２回目の記憶
を示すようにする。

【００７８】Ｃ／Ｒプロセスの２回目の記憶（図１０）エラーのある集合体（複数のこともある）を２重反転
し、エラーのないＤＵ＋ＥＣＣ集合体には全く反転を施
さなかったので、各集合体はその真の状態でデータバッ
ファに書き込まれたことになる。ステップ８１では、デ
ータバッファ内のアウトポインタ３の指定位置から各集
合体を全く反転させないで、ＭＳに書き込む。

【００７９】アウトポインタ３（アウトポインタ１及び
２とは異なる）はＣ／Ｒ法の最初の記憶に対して行なっ
たように動作する。即ち、アウトポインタ３はまずデー
タバッファ内の最初のエントリをリセットし、各ＤＵ＋
ＥＣＣ集合体をエントリから出力した後にアウトポイン
タ３を増分する。しかしながら、２回目の記憶動作では
状態ビットＳを用いないので、１回目の記憶動作中のよ
うに、ビットＳをデータバッファエントリと整合する必
要は全くない。したがって、他のポインタはアウトポイ
ンタ３と同期して動作することはない。ステップ８２で
は、各集合体を出力した後にアウトポインタ３を増分す
る。

【００８０】したがって、２回目の記憶動作では、全デ
ータラインがその真の元の状態でデータバッファに存在
し、２回目の記憶動作が完了した後、スクラッビング(s
crubbing)によって訂正可能な単一ソフトエラーのみを
有する集合体を除いて、データライン内の全ての集合体
はＭＳ内にその真の元の状態で残留することになる。よ
って、２以上のソフトエラーが１つの集合体に存在した
時は、ＭＳ内の集合体は全てのハードエラー及び全ての
ソフトエラーを未だ有していることになる。したがっ
て、Ｃ／Ｒ処理用ハードウエア内にエラーが起こらなか
ったなら、Ｃ／Ｒエラー訂正プロセスは完了したことに
なる。

【００８１】ハードウエアのエラー検出Ｃ／Ｒハードウエアの故障耐性における高い信頼性を達
成するために、新規な手段を設けて、Ｃ／Ｒハードウエ
アの動作中の故障を検出する。アルファ粒子はいかなる
バッファエントリのいかなるビット及びいかなるポイン
タレジスタ内におけるソフトエラーの原因ともなり得る
ものである。また、これらビット位置にハードエラーが
起こる可能性もある。本実施例では、Ｃ／Ｒ法の故障耐
性を高めるための動作中に、多くのエラーチェックを行
なうようにしている。

【００８２】各状態バッファ及びデータバッファは書き
込み及び読みだしの間にそれぞれ用いるインポインタ及
びアウトポインタを有している。全てのインポインタが
一斉に歩進しなくてはならない時（最初の読み取りの
間）があると共に、全てのアウトポインタが一斉に歩進
しなくてはならない時（最初の記憶の間）もある。他の
時には、状態バッファの２つのインポインタのみが一斉
に歩進しなくてはならず（２回目の読み取り中で、デー
タバッファのアウトポインタを使用していない時）、ま
た状態バッファの２つのアウトポインタが一斉に歩進し
なくてはならない。これらのポインタの１つが歩調を乱
した時、ＤＵ＋ＥＣＣ集合体を最初に記憶されていた状
態に回復しようという試みを行なうと共に、Ｃ／Ｒ動作
の再試行も行なう。

【００８３】インポインタ１及び２の値は常に同一であ
ると想定されており、これを比較器４１でチェックす
る。同様に、アウトポインタ１及び２の値も同一である
と想定されており、これを比較器４２でチェックする。
比較器４１または４２がポインタの値が等しくないこと
を発見したなら、エラーを検出したことになり、その比
較器は要求元プロセッサ及びＳＰに割り込み信号を出力
する。また、現在処理中のエラーのあるＤＵ＋ＥＣＣ集
合体を上述の表に示したように復元するので、その集合
体に対してＣ／Ｒ法を再び試行することができる。

【００８４】最初の読み取りにおいて、インポインタの
歩調が乱れた場合、主記憶装置内のデータには損傷がな
い。したがって、これは単に最初の読み取りの要求元に
割り込み信号を送って、Ｃ／Ｒ法をその開始から再試行
することを要求する程度のことである。

【００８５】最初の記憶において、アウトポインタの歩
調が乱れた場合、割り込み信号を発生して、その最初の
記憶を取り消し、データを主記憶装置に保存するように
する。次に、Ｃ／Ｒ法全体を再試行する。

【００８６】２回目のデータ読み取りにおいて、２つの
状態バッファのアウトポインタの歩調が乱れた場合、そ
の２回目のデータ読み取りを中止させるために、割り込
み信号を発生する。状態バッファとＭＳの読み取りは、
非破壊的読み取りなので、ＭＳ及び状態バッファの内容
は不変である。したがって、２回目の読み取りの再試行
または２回目の記憶のＣ／Ｒシーケンスによって回復が
可能となる。

【００８７】これらの歩調の乱れによる割り込みが、与
えられた時間間隔内で頻繁に発生する場合、Ｃ／Ｒ法に
関係するハードウエアが信頼性のないものと考えられ、
したがって直ちに交換しなくてはならない。

【００８８】状態バッファ２４及び２７へのそれらのイ
ンポインタ及びそれらのアウトポインタによる各アクセ
スにおいて、アクセスされた状態ビットｓ及びパリティ
ビットＰは同一であると仮定しており、これらについて
も回路４３内の比較器にて同一であるかを比較する。比
較されたＳ、Ｐ値が異なるのなら、エラーであることを
指示し、割り込み信号を要求元プロセッサ及びＳＰに送
る。

【００８９】また、回路４３はいかなるパリティエラー
状態をも検出するために、各アクセスした状態バッファ
エントリのビットＳ及びＰの内容のパリティチェックを
行なう。状態バッファエントリの１つでパリティチェッ
クの結果が不良である場合、別の対応する状態バッファ
エントリ内の状態ビットｓを、もしそのパリティが正し
ければ、既に説明した反転制御のために用いるようにす
る。

【００９０】この状態バッファの冗長性によって、アク
セスした一方の状態バッファのエントリにパリティエラ
ーがあり、他方の状態バッファのアクセスしたエントリ
が正常なパリティを有するような場合、Ｃ／Ｒ動作を続
けることができる。しかしながら、両方の状態バッファ
のアクセスしたエントリにパリティーエラーを発見した
時は、できるだけ早くＣ／Ｒ動作を中止し、救援のため
に割り込みをＳＰに送らなければならない。この割り込
みが最初の記憶の間に発生したなら、直ちに記憶動作を
中止し、ＭＳ内に元のデータを保存するようにする。こ
の時点において、状態バッファ及びデータバッファの内
容はＣ／Ｒ動作全体を再実行することによって、再びロ
ードすることができる。この割り込みが２回目の読み取
り中に発生したなら、パリティエラーのために状態ビッ
トはＭＳ内のＤＵ＋ＥＣＣ集合体が補数を取ったものな
のか否かを指示することができないので、Ｃ／Ｒ動作は
回復不可能な故障を被ることになる。このような場合、
Ｃ／Ｒ動作に関係したＭＳ内のアドレスに特殊なＵＥ記
号を記憶して、不良で回復不可能なデータブロックであ
ることを指示する。

【００９１】状態ビットを記憶する前に、各状態バッフ
ァは状態ビットが良好なパリティを有するかをチェック
する。不良パリティを有する状態ビットはデフォルト値
「０」及びそのパリティ「１」と共に状態バッファに書
き込むようにする。この動作は状態バッファの全てのエ
ントリが最初の読み取りの終了時において正しいパリテ
ィを有することを確かめるために、行なわれるものであ
る。デフォルトの状態ビットｓはいかなる反転も起こさ
せず、Ｃ／Ｒ法がその集合体に動作するのを防止する。

【００９２】最初の読み取りを更に詳しく述べると、ア
ウトポインタ１、２及び３を比較して、これらのアウト
ポインタが常に一斉に歩進することを確かめる。これら
アウトポインタ間に不一致があると、エラー信号を発生
して動作の不良を教えるようになっている。しかしなが
ら、２回目の読み取りでは、２つの状態バッファのアウ
トポインタ１及び２はアウトポンンタ３と一致して歩進
しないので、これら２つのみを比較するようにする。こ
れは図９のステップ２１、２２及び２３と、図１０のス
テップ５４、５５及び５６とで行なわれる。

【００９３】Ｃ／Ｒ法が完了すると、その結果は訂正済
データまたは未訂正データ（２つのソフトエラーや特殊
なＵＥの検出のようなもの）として要求元に送られる。

【００９４】過剰エラーの減少の報告（図１１）図１１の報告プロセスは過剰エラーをオペレーティング
システムソフトウエア（ＯＳ）に報告する量及び頻度を
大幅に減少し、更に１メモリ単位、例えば４ＫＢのペー
ジ内の既に報告済のハードウエアエラーに対する全ての
割り込みを除去するものである。

【００９５】図１１の報告プロセスは要求されたデータ
ラインに過剰エラーが存在することを示す状態情報（図
６に示す）を要求元が受け取った時、呼び出されるよう
にしている。

【００９６】本実施例はＬＴＲ（論理トラックレコー
ド）と呼ばれる新規な表を設け、マイクロコードにのみ
アクセス可能な記憶領域に該表を配置している。ＬＴＲ
は各々がＭＳの各データ単位（例えば４ＫＢページ）に
割り当てられた１組の報告ビットを含んでいる。

【００９７】要求元プロセッサのマイクロコードにより
ＬＴＲをアクセスして、Ｃ／Ｒ法における第２の書き込
み後に状態情報によって提供された過剰エラー状態（現
在検出済）に対して報告が必要か否かの決定がなされ
る。

【００９８】図１１は３つの異なる監視プロセスを表し
ており、これらの選択はどのタイプの過剰エラーが報告
されているかに依存する。そのタイプとはＳ−Ｓ、Ｈ−
Ｈ、Ｈ−Ｓ及び特殊ＵＥのいずれかの場合であり、Ｃ／
Ｒ法によるハード及びソフトエラーの検出の異なる場合
を表している。

【００９９】Ｈ−Ｈ及びＨ−Ｓの場合は、各々アドレス
指定されたページが不良のＭＳハードウエアに記憶され
ていることを指示している。この時ＬＴＲ内の１つのビ
ットは今検出された過剰エラーを有するデータラインの
ページアドレスを用いて、アクセスされる。アクセスさ
れたＬＴＲビットがオンにセットされていたなら、肯定
(yes)経路９１を取り、そのページに対して過剰エラー
は既に報告済みであること及びＯＳとの通信は今検出さ
れた過剰エラーには必要ないことを指示するので、プロ
セッサの割り込みは発生しない。しかし、このページに
対してエラーが報告されなかったなら、否定(no)経路が
取られてＬＲＴビットをセットし、マシンチェック割り
込みコード（ＭＣＩＣ）のビット１７をセットするＭＣ
割り込みを発生して、そのページの最初の過剰ハードエ
ラーをＯＳに伝える。

【０１００】Ｓ−Ｓの場合は、アドレス指定したページ
内の不良ハードウエアを指示するものではないが、その
中にソフトエラーを検出したことを指示する。ソフトエ
ラーは不良データ（正常なハードウエア内のこともあ
る）を示すものである。過剰ソフトエラーは発生する毎
に報告しなくてはならず、これはＭＣＩＣのビット１６
をセットしビット３２をリセットするマシンチェック割
り込みを発生して、ソフトエラーをＯＳに伝えさせるこ
とによって行われる。

【０１０１】ＬＴＲビットがＳ−Ｓ経路にてオンにセッ
トされ、その後に同じページにハードエラーが検出され
て、そのためエントリを図１１のＨ−ＨまたはＨ−Ｓ経
路に導くことになった場合、そのページのＬＴＲビット
はオンにセットされているので、経路９１が取られ、Ｃ
／Ｒ処理に起因する要求元プロセッサへの割り込みを全
て回避するようにする。

【０１０２】このように、図１１の経路９１上を取った
時、Ｃ／Ｒ法のジュウライレイノ動作で生じた２つのク
ロック停止割り込み（プロセッサ及びメモりへの）をな
くすることができる。最初の割り込みはＣ／Ｒ法の呼び
出し時に起きたもので、２つめの割り込みは検出された
過剰エラーのタイプを決定する時に起きたものである。
本発明は前者タイプの割り込みを除去し、後者のタイプ
の割り込みを大幅に減少するためのものである。

【０１０３】前述の特殊ＵＥ（訂正付加エラー記号）は
不良データがその位置に入力されたことを表し、その場
所には特殊なＵＥデータパターンとして記憶されてい
た。この特殊ＵＥは（呼び出し時に）ＭＣＩＣ内のビッ
ト１６及び３２をセットするマシンチェック割り込みを
発生し、この特殊ＵＥをＯＳに伝える。

【０１０４】

【発明の効果】本発明はＣ／Ｒ法をより信頼性高くかつ
効果的に利用し、従来のＣ／Ｒ法の使用法と比較してシ
ステム動作の中断を少なくしようとするものである。本
発明によれば、メモリが大量の過剰エラー状態を有する
時、Ｃ／Ｒ法の呼び出し及び訂正処理の際にプロセッサ
の割り込みをさせないようにすることによって、システ
ムの処理能力を大幅に改善される。更に、本発明によれ
ば、Ｃ／Ｒ法の処理を再試行する能力を簡便化すると共
に、過剰エラーの訂正を監視及び報告することによっ
て、Ｃ／Ｒ法を改善しシステム割り込みの必要性を減少
させることができる。また本発明によれば、過剰エラー
が１つのメモリ単位内で多数回発生しても、メモリペー
ジフレーム（またはその他のいずれかのメモリ報告単
位）当り１回の過剰エラー通信に通信量を減少させるこ
とができる。更に本発明による監視は、Ｃ／Ｒ法のエラ
ー訂正におけるオペレーティングシステムソフトウエア
とシステムサービスプロセッサとの双方の係わりを著し
く減少させる。

【０１０５】好適実施例では、主記憶装置に関して開示
したが、本発明は拡張記憶装置またはキー記憶装置のよ
うな他の記憶装置で用いることができると共に、ベクト
ルプロセッサのような他の要求元によっても用いること
ができるものであることは明らかであろう。

【０１０６】以上本発明の好適実施例を例示し説明した
が、本発明はここに開示した構成に限定されるものでは
なく、種種の変更が可能であることは明らかであろう。

【図面の簡単な説明】

【図１】Ｃ／Ｒ法の故障耐性を改善するための好適実施
例装置を示すブロック図である。

【図２】データバッファの構造をそのインポインタとア
ウトポインタと共に示す説明図である。

【図３】３つのバッファをそれらのインポインタまたは
アウトポインタの対応する位置でアクセスした時のそれ
ぞれの内容を示す説明図である。

【図４】コンプリメント／リコンプリメント（Ｃ／Ｒ）
エラー訂正処理を要求するＣＰＵ、Ｉ／Ｏ及び他の要求
元からの要求を受け取るために用いるメモリ要求レジス
タの内容を表す説明図である。

【図５】図１に示した装置において用いられるＣ／Ｒ法
ののステップを制御するために用いられるＣ／Ｒシーケ
ンサを表す説明図である。

【図６】現在取り込み中の要求の状態をオペレーティン
グシステムソフトウエアに指示するために用いられるＭ
Ｓ制御器内の状態要求レジスタの内容を示す説明図であ
る。

【図７】現在取り込み中の要求の状態をシステムサービ
スプロセッサ（ＳＰ）に指示するために用いられるＭＳ
制御器内の状態要求レジスタの内容を示す説明図であ
る。

【図８】取り込みエラー検出プロセスを示すフロー図で
ある。

【図９】ＭＳ制御器によって要求元に送られた２ビット
エラー状態信号に応答して、その要求元からの再読み取
り要求によって呼び出されたＣ／Ｒプロセスの前半部を
示すフロー図である。

【図１０】図９の前半部のフロー図に続く後半部のフロ
ー図である。

【図１１】上記Ｃ／Ｒ過程からサービスプロセッサに通
知するプロセス及びＣ／Ｒ法によって発生した種々の信
号のシステムの用法を示したフロー図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者マチュー・アンソニー・クリゴウスキアメリカ合衆国12533、ニューヨーク州ホープウェル・ジャンクション、タマラック・ドライブ 11番地 (72)発明者ブルース・ロイド・マクギルブレイアメリカ合衆国12569、ニューヨーク州プレザント・ヴァレイ、マクアリスター・ドライブ（番地なし) (72)発明者トリン・フイ・グェンアメリカ合衆国12590、ニューヨーク州ワッピンガーズ・フォールズ、インペリアル・ブールヴァード 50−２シー (72)発明者ウィリアム・ウー・シェンアメリカ合衆国12603、ニューヨーク州ポウキープシー、マナー・ウェイ 16番地 (72)発明者アーサー・ジェームズ・サットンアメリカ合衆国10516、ニューヨーク州コールド・スプリング、ホワイトヒル・プレイス 14番地

Claims

【特許請求の範囲】

【請求項１】記憶エラー訂正方法において、プロセッサにより、データ処理システム内のメモリから
データを読み取る要求を行ない、該データに応答してメ
モリ制御器により、エラー訂正コード（ＥＣＣ）ビット
によって検出されたデータ内の過剰エラーを指示するス
テップと、前記メモリ制御器からの過剰エラーの指示の受信に応答
して、前記プロセッサによりデータの再読み取りの要求
を行ない、エラーを含むデータに対する前記再読み取り
要求に応答して、データの第１の読み取り、第１の記
憶、第２の読み取り及び第２の記憶を用いてコンプリメ
ント／リコンプリメント（Ｃ／Ｒ）エラー訂正法を開始
するステップと、１つ以上のプロセッサから前記メモリ制御器への前記読
み取り及び再読み取り要求をパイプラインにして読み取
り要求に対するメモリアクセス及びメモリ内の異なるデ
ータに対するＣ／Ｒエラー訂正法の動作に対するメモリ
アクセスに優先順位を付けるステップと、を含み、前記Ｃ／Ｒエラー訂正法は、前記第１の読み取り及び前
記第２の読み取りによって前記Ｃ／Ｒエラー訂正法で得
られたデータ及びＥＣＣをバッファに記憶するステップ
と、過剰エラーの訂正を試みるべくデータの少なくとも
エラーを含む部分に対してダブル反転を行なうステップ
と、前記Ｃ／Ｒエラー訂正法で前記第２の読み取りによ
って得られたデータを要求元プロセッサに送るステップ
と、データ及びＥＣＣがエラーを全く含んでいないか、
１つもしくは複数の訂正済みのハードエラー、ソフトエ
ラーもしくはその両者、１つもしくは複数の訂正済みの
過剰ハードエラーもしくはソフトエラー、または１つも
しくは複数の訂正不可エラーを含んでいるかを指示する
ステップとを含み、前記バッファはデータバッファ及び状態バッファを含
み、前記データバッファのエントリは要求元プロセッサによ
り前記メモリ内の１データラインのアドレスの複数のデ
ータ単位を受取り、前記状態バッファ内の対応するエン
トリは前記データバッファ内の対応するエントリ内のデ
ータ単位内に過剰エラーが検出されたか否かを示す状態
ビットを受取る、ことを特徴とする記憶エラー訂正方法。
【請求項２】複数のデータ単位及び関連するＥＣＣよ
りなりその１つまたは複数のデータ単位及び関連するＥ
ＣＣの組が前記Ｃ／Ｒ法の前記第１の読み取り及び第２
の読み取りにおいて１つまたは複数のエラービットを有
するごときデータラインを前記バッファに記憶しするス
テップと、過剰エラーを有さないデータ単位及びＥＣＣの組は前記
Ｃ／Ｒ法のいずれの段階においても反転せず、過剰エラ
ーを有するデータ単位及びＥＣＣの組を前記Ｃ／Ｒ法の
前記第１の記憶及び前記第２の読み出しで反転するステ
ップと、を更に含む請求項１記載の記憶エラー訂正方法。
【請求項３】データ単位及び関連するＥＣＣのいずれ
かまたは両者に過剰エラーが存在することを前記状態ビ
ットが示す場合、前記データ単位及びＥＣＣの全ビット
を前記Ｃ／Ｒ法の前記第１の記憶の間に及び前記第２の
読み取りの後に反転するステップと、前記Ｃ／Ｒ法の第２の読み取りの後に、ダブル反転され
たデータ単位及びＥＣＣを、データ単位及びＥＣＣ内の
過剰エラーに対して訂正がなされたか否かを示す状態情
報と共に要求元プロセッサに送るステップと、を更に含む請求項１記載の記憶エラー訂正方法。
【請求項４】データ処理装置の記憶装置内にページフ
レームを表すエントリを有するメモリマップに過剰エラ
ー状態を報告する方法であって、前記メモリマップのエ
ントリがそれぞれのページフレームに対して検出された
過剰エラー状態を報告するように構成された方法におい
て、プロセッサにより要求されたデータ単位を記憶制御器に
よって記憶装置から読み取り、該データ単位内のエラー
を、該データ単位に付加されているＥＣＣビットによっ
て決まる最大訂正可能エラー数まで検出及び訂正して各
データ単位に所定の最大ＥＣＣエラー訂正能力を与える
ステップと、ＥＣＣのエラー訂正能力を越える数のエラーを含んでい
る過剰エラーの検出時に、前記記憶制御器内にコンプリ
メント／リコンプリメント（Ｃ／Ｒ）エラー訂正動作を
呼び出すステップと、データ単位のハードエラーを訂正するためにＣ／Ｒエラ
ー訂正を試みるべくデータ単位を再読み取りし、ＥＣＣ
ビットを用いてデータ単位のソフトエラーを訂正するス
テップと、要求元プロセッサによって前記メモリマップにアクセス
し、前記メモリマップ内により現在アクセス中のページ
フレームに対するエントリを検出し、該エントリ内の報
告フィールドが、過剰エラー状態が前記現在のページフ
レームに対して以前に報告されたことを示しているか否
かを検出するステップと、過剰エラー状態が以前に報告されなかったことを前記報
告フィールドが示す場合、制御プログラムとの通信のた
めに要求元プロセッサの動作を中断し、その後前記エン
トリを過剰エラー状態報告済状態にセットし、一方、過
剰エラー状態が既にページフレームに対して以前に報告
されたことをアクセスしたエントリが示す場合、要求元
プロセッサによる動作を中断しないステップと、を含む過剰エラー状態を報告する方法。