JPH04338849A

JPH04338849A - 記憶エラー訂正方法及び過剰エラー状態を報告する方法

Info

Publication number: JPH04338849A
Application number: JP4049858A
Authority: JP
Inventors: Thomas M Brey; トーマス・マチュー・ブレイ; Matthew A Krygowski; マチュー・アンソニー・クリゴウスキ; Bruce L Mcgilvray; ブルース・ロイド・マクギルブレイ; Trinh H Nguyen; トリン・フイ・グェン; William W Shen; ウィリアム・ウー・シェン; Arthur J Sutton; アーサー・ジェームズ・サットン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-04-17
Filing date: 1992-03-06
Publication date: 1992-11-26
Anticipated expiration: 2011-01-10
Also published as: JPH081616B2; US5274646A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【０００１】【産業上の利用分野】本発明は、過剰エラー訂正、その
制御、及び効率的なその管理に関するものである。過剰
エラー（ｅｘｃｅｓｓｉｖｅ　　ｅｒｒｏｒ）とは、コ
ンピュータシステム内のランダムアクセスメモリのよう
なメモリに記憶してあるデータ単位に備えられているＥ
ＣＣ（エラー訂正コード）では、訂正することのできな
いようなエラービットのことである。【０００２】【従来の技術】コンプリメント／リコンプリメント（ｃ
ｏｍｐｌｅｍｅｎｔ／ｒｅｃｏｍｐｌｅｍｅｎｔ）型、
すなわちＣ／Ｒエラー訂正方法（以下、Ｃ／Ｒ方法と称
する）は、エム．シー．カーター（Ｍ．Ｃ．Ｃａｒｔｅ
ｒ）に付与され、本出願人に譲渡された、米国特許第３
９４９２０８号、「エンコードされたメモリワードにお
けるエラーを検出し、訂正するための装置」に開示され
ている。Ｃ／Ｒ方法は、コンピュータシステムのメモリ
に記憶されているデータ単位に対するハミング型ＥＣＣ
（エラー訂正コード）方法のエラー訂正能力を高めるた
めに用いられているものである。また、Ｃ／Ｒ方法は、
データ単位内の１つ以上のハードエラーを訂正し、ＥＣ
Ｃ方法にそのデータ単位内の全てのソフトエラーの訂正
を任せるようにするために、用いるものである。【０００３】ハードエラーとは、断線等、回路内の永久
的障害によって起こるエラーであり、メモリ内のあるビ
ット位置を永久的に、ある状態、１か０の状態に、固定
する原因となるものである。ソフトエラーとは、通常回
路の０または１の状態を変えるアルファ粒子によって、
起こるもので、次回にその回路に他のデータを記憶する
時には、ソフトエラー状態は存在しない。このように、
ハードエラーはハードウエア内に永久に残るのに対し、
ソフトエラーは、１回のデータ単位の記録時のみに存在
する。上述のＣ／Ｒ方法は、ハードエラーの永久的に固
定された状態のみを訂正するものである。Ｃ／Ｒ方法は
、半導体ダイナミックランダムアクセスメモリ（ＤＲＡ
Ｍ）の半導体チップを用いて構成したコンピュータ記憶
装置で、用いることができる。【０００４】Ｃ／Ｒ方法は、データ単位内のＥＣＣが過
剰エラーを発見した後にのみ、起動される。そして読み
取りを行い、データ単位内の読み取った各ビットの補数
を取る（反転する）。次に、反転したデータ単位をメモ
リ内の同じビット位置に再び記憶する。元のビット位置
に記憶する時、ハードエラーが起きた場所のエラーデー
タのみが、それらの以前の固定された状態に戻ることに
なる。全ての非エラービットとソフトエラーによるエラ
ービットとは、状態が固定されているため反転しないハ
ードエラーによる固定ビットに関して反転されることに
なる。記憶した反転データ単位の２度目の取りだしを行
ない、読み取ったビットを再び反転して、全ハードエラ
ーを訂正する。次にＥＣＣを用いて、ＥＣＣ方法の最大
能力まで、全てのソフトエラーを訂正する。この２回目
の反転の後、及びＣ／Ｒプロセスの終了時に、データ単
位を、元のエラー状態で、メモリ内の元の位置に再び記
憶する。【０００５】ＥＣＣ（エラー訂正コード）方法は、大型
コンピュータシステムのＤＲＡＭ、即ち、主記憶装置（
ＭＳ）及び拡張記憶装置（ＥＳ）に共通に用いられてい
る。最も共通に用いられているＥＣＣは、ＳＥＣ／ＤＥ
Ｄ（１エラー訂正／２エラー検出）のためのもので、こ
れは、データ単位（ＤＵ）を記憶あるいは転送する時に
、全てのＤＵ内の２ビットエラーを検出できるが訂正で
きないものである。このようなＳＥＣ／ＤＥＤ型のＥＣ
Ｃを用いている時に第２のビットエラー（過剰エラー）
を検出したとすると、この第２のエラービットをＥＣＣ
を用いて訂正することはできない。しかしながら、第２
のエラービット（ＳＥＣ／ＤＥＤを用いているシステム
における過剰エラー）を、データ送信用のＣ／Ｒ方法に
よって、しばしば訂正できることがあり、この場合、Ｃ
／Ｒ方法は、いかなる数のハードエラーでも訂正するこ
とができるが、ＤＵ毎に１つのソフトエラーしか訂正す
ることができない。したがって、Ｃ／Ｒ方法とＥＣＣ方
法との組み合せによって、ＥＣＣのエラー検出能力まで
、送信中におけるデータ内のハード及びソフトエラーの
全数を訂正することができるようになる。【０００６】Ｃ／Ｒ方法がデータ単位内のソフトエラー
を訂正するのを妨げるのは、ソフトエラーの過渡的特性
である。また、ソフトエラーを訂正するのは、ＥＣＣで
ある。したがって、Ｃ／ＲとＥＣＣ（ＳＥＣ／ＤＥＤ）
とを組み合わせた方法は、１データ単位の送信中におい
て１つのソフトエラーの訂正に限られ、２つのソフトエ
ラー（Ｓ−Ｓケース）の発生は訂正不可能である。また
、Ｃ／ＲとＥＣＣ方法の双方とも、データ単位の送信中
にのみ、記憶されたエラーを訂正することに限られてい
る。メモリ内のデータ単位に存在するハードまたはソフ
トエラーは、そこから送信が行われるメモリに残ってし
まう。Ｃ／Ｒ方法は、ハードエラーを記憶されているメ
モリデータ単位を読み出し、補数を取ったもの（反転し
たもの）のみを、訂正できるものである。【０００７】Ｃ／Ｒプロセスが首尾よく完了した後でも
、記憶されたデータ単位は同じエラービットと共に、メ
モリ内に残っている。しかし、ソフトエラーの数がＥＣ
Ｃの能力を越えていなければ、要求元は、訂正後のデー
タ単位を受け取る。Ｃ／Ｒ方法は、ソフトエラービット
がなければ、完全なエラー訂正を提供するものである。そして、Ｃ／Ｒ方法が全てのハードエラーを訂正した後
にＥＣＣがソフトエラービットを訂正することができれ
ば、Ｃ／Ｒ方法は完全なエラー訂正が可能である。しかし、ソフトエラーの数がＥＣＣの能力を越える場合
、エラー訂正をすることはできない。例えば、ＥＣＣの
最大能力がデータ単位当り１エラービットの訂正である
場合、あるデータ単位内の２つのソフトエラー（Ｓ−Ｓ
エラーケース）は、Ｃ／Ｒ方法では訂正不可能である。【０００８】また、Ｃ／Ｒ方法は、２回余分にデータを
取りだし２回余分にメモリに記憶する必要があるので、
ＥＣＣ方法のみを採用した場合よりかなり処理に時間が
かかるものである。したがって、過剰エラーを検出しな
ければ、Ｃ／Ｒ方法を呼び出さないようにしている。例
えば、ＳＥＣ／ＤＥＤ型ＥＣＣを用いている時は、デー
タ単位当り２つのエラービットのみを検出することがで
きる。１つのエラーのみ検出したのなら（過剰エラーが
存在しないので）、Ｃ／Ｒ方法を起動しなくても、ＥＣ
Ｃ方法で訂正することができる。Ｃ／Ｒ方法はデータ単
位内のいかなる数の永久的（ハード）エラーでも訂正す
ることができるが、ＥＣＣエラー検出を用いてＣ／Ｒ方
法の起動を制御するため、ＥＣＣの最大エラー検出能力
によってＣ／Ｒ方法の能力は限定されてしまう。ＳＥＣ
／ＤＥＤ（１エラー訂正／２エラー検出）型ＥＣＣをメ
モリに記憶しておき、１データ単位内の２つのエラーを
訂正するようにしたコンピュータシステムでは、Ｃ／Ｒ
方法によるエラー訂正技法を効果的に用いている。ＥＣ
Ｃ方法単独では、１データ単位内の１エラーを訂正する
最大能力を有している。データ単位が１つのハードエラ
ーと１つのソフトエラーとを持っている場合（以後Ｈ−
Ｓケースと呼ぶ）、Ｃ／Ｒ方法による処理でハードエラ
ービットを訂正した後、ＥＣＣ方法による訂正を単一の
ソフトエラービットに適用する。【０００９】現在用いられている大型コンピュータシス
テムで、最良の保守を望むものは、全ての過剰エラーの
発生を訂正したか否かの記録を記憶している。これは、
要求元に対しては、Ｃ／Ｒ方法を用いて過剰エラーを訂
正しする。そうしなければ中断しなくてはならないタス
クの実行を継続することができても、各過剰エラーはメ
モリ内では訂正されていないからである。このため、Ｃ
／Ｒ方法による過剰エラー訂正は、システムの通常のエ
ラー訂正能力以外のものと考えられている。Ｃ／Ｒ方法
で訂正されたデータ単位は、もしその中に別のソフトエ
ラーが生じると、システムをクラッシュさせることがあ
る。【００１０】別の関連技術が、１９８０年ボセン及びサ
イオ（Ｂｏｓｓｅｎ　　ａｎｄ　　Ｈｓａｉｏ）によっ
て、ＩＢＭリサーチジャーナル（１９８０年５月）の第
３９０頁、「メモリソフトエラーに対するシステム解決
法」という題の論文に発表されている。厳重なエラー報
告及び記述（ａｃｃｏｕｎｔｉｎｇ）を、従来の大型コ
ンピュータシステムにおいて密接に調和したシステム保
守を保証するために用いている。これらは過剰エラーを
システム内のシステムサービスプロセッサ（ＳＰ）に報
告し、システム内で発生した全ての重大なエラー状態の
記録を保管して、例えば、保守を行うためにＣＰＵオフ
ラインにいつ切り変えるかを決定する。【００１１】従来は、Ｃ／Ｒ方法を呼び出すようにでき
るまでに、要求元のプロセッサとメモリ動作の両方を中
断しなくてはならなかった。エラー検出の発生に応答し
てＣ／Ｒ方法が呼び出されると、プロセッサクロックと
メモリアクセスを、プロセッサが回復するまで、停止す
ることになり、更に、中断信号をＳＰに送ることになる
。次にＳＰは現行のプログラムを中断し、停止したプロ
セッサに対して回復作業を行っている。これは通常、プ
ロセッサのクロックが止まった時に実行を停止した命令
を再び試行させることである。回復作業が完了した後、
通常動作のために、ＳＰはプロセッサを再起動し、メモ
リはアクセスを再開する。プロセッサは、次に、過剰エ
ラーを有するデータ単位のために、Ｃ／Ｒ方法を呼び出
す再読み取り要求を発生する。Ｃ／Ｒ方法の処理の後に
過剰エラーが存在したら、再びプロセッサの停止が起こ
り、上述の動作が行われている。次にプロセッサを再起
動した時に、プロセッサがタスクに損害を与えた命令を
記録している。【００１２】このＣ／Ｒ方法の従来の処理では、Ｃ／Ｒ
方法を呼び出せるようになるまでに、要求元へのクロッ
ク停止割り込み、メモリアクセスの停止、更にＳＰの介
在を必要とするため、Ｃ／Ｒ方法の前処理に非常に時間
がかかり、Ｃ／Ｒ方法の各動作の各動作に対して、通常
のＣＰＵであればマイクロ秒台の速度であるのに対して
、ミリ秒台の速度であり、システム効率を低下させてい
る。マシンチェックによる割り込みが原因となって、Ｃ
ＰＵのキャッシュ内の全てのデータが失われ、更にＣＰ
ＵのＴＬＢ（変換ルックアサイドバッファ）内の全ての
変換が失われ、これに、キャッシュ内で失われた全てを
データを再び読み取り、ＴＬＢ内で失われた全てのアド
レスを再変換する必要性に起因するＣＰＵ処理能力の低
下が加わり、システムの処理能力は、更に激しく劣化す
る。データが訂正されないと、マシンチェック割り込み
によってプログラムタスクはアベンド（異常終了）され
てしまう。【００１３】要求元への送信中、Ｃ／Ｒ方法は集合内の
ハードエラーを訂正することができ、ＥＣＣ方法はソフ
トエラーを訂正することができるが、Ｃ／Ｒ方法による
エラー訂正は、メモり自体のハードエラーもソフトエラ
ーもなんら訂正しないものである。しかしながら、訂正
したＤＵ＋ＥＣＣ照合をその元の位置に記憶することに
よって、ＥＣＣ方法で訂正したソフトエラーをＭＳ内で
訂正することができ、これは時として「データをスクラ
ッブ（ｓｃｒｕｂ）」すると呼んでいるものである。【００１４】【発明が解決しようとする課題】本発明は、Ｃ／Ｒ方法
をより信頼性高くかつ効果的に利用し、従来のＣ／Ｒ方
法の使用法と比較して、システム動作の中断を少なくし
ようとするものである。本発明は、メモリが大量の過剰
エラー状態を有する時、Ｃ／Ｒ方法の呼び出し及び訂正
処理の際にプロセッサの割り込みをさせないようにする
ことによって、システムの処理能力を大幅に改善するも
のである。更に、本発明は、Ｃ／Ｒ方法の処理を再試行
する能力を簡便化すると共に、過剰エラーの訂正を監視
及び報告することによって、Ｃ／Ｒ方法を改善し、シス
テム割り込みの必要性を減少させるようにしたものであ
る。本発明は、過剰エラーが１つのメモリ単位内で多数
回発生しても、メモリページフレーム（または、その他
のいずれかのメモリ報告単位）当り１回の過剰エラー通
信に、通信量を減少させることができる。本発明による
監視は、Ｃ／Ｒ方法のエラー訂正におけるオペレーティ
ングシステムソフトウエアとシステムサービスプロセッ
サとの双方の係わりを著しく減少させる。【００１５】本発明の目的は、要求プロセッサ及びメモ
リ制御器によってＣ／Ｒ方法のプロセスを動的に行い、
サービスプロセッサによる介在を減少、または除去する
ようにした手段を提供することである。本発明の別の目
的は、要求プロセッサによるデータ処理の中断を発生さ
せずに、データ単位をＣ／Ｒ方法で訂正できるようにす
ることである。本発明の更なる目的は、Ｃ／Ｒ方法を実
施するハードウエアをいくつかの障害には耐えられるよ
うにし、そうしなければ訂正できないようなエラーを、
その方法によって訂正させることができるようにするこ
とである。【００１６】【課題を解決するための手段】本発明は、Ｃ／Ｒ方法に
再試行性を設けることによって、この価値を大幅に高め
たものである。Ｃ／Ｒプロセスの実行中どこで障害が生
じようと、本発明は、Ｃ／Ｒ方法の開始前に存在してい
た元の誤ったＤＵ＋ＥＣＣの値を、元の位置に記憶する
ことを要求し、Ｃ／Ｒ方法を再試行できるようにしてい
る。故障がない復元は、Ｃ／Ｒ方法を用いる場合に信頼
性を得るには重要なことである。【００１７】本発明は、ＥＣＣ方法が過剰エラーを検出
した時（例えば、Ｃ／Ｒ方法をＳＥＣ／ＤＥＤ型ＥＣＣ
と共に用いている時に２つのエラービットが１つのデー
タ単位内で発見されたような時）、自動的にＣ／Ｒ方法
を呼び出す。次に、本発明は、ＥＣＣエラー検出をＣ／
Ｒ方法と組み合わせて用い、Ｈ−Ｈ、Ｈ−Ｓ及びＳ−Ｓ
ケースのような、異なる２つのエラーの組み合わせのケ
ースを検出する。Ｈ−Ｈケースの検出は、２つのハード
エラーがメモリ内のデータ単位に存在することを明らか
にすると共に、メモリの故障状態も表す。Ｈ−Ｓケース
の検出は、メモリ内のデータ単位に１つのハードエラー
が存在することを明らかにすると共に、この場合もメモ
リの故障状態を表す。Ｓ−Ｓケースの検出は、メモリ内
のデータ単位に２つのソフトエラーが存在することを明
らかにし、メモリの故障状態は表さないが、メモリに記
憶されているデータ単位の訂正不可能なエラー状態を表
すことになる。【００１８】本発明は、ＳＥＣ／ＤＥＤ型の代りに、２
エラー訂正／３エラー検出（ＤＥＣ／ＴＥＤ）、あるい
は３エラー訂正／４エラー検出（ＴＥＣ／ＱＥＤ）型等
の他の型のＥＣＣと共に、Ｃ／Ｒ方法を用いることがで
きる。ＳＥＣ／ＤＥＤを別の既知のＥＣＣの形式のいず
れかと置き換えることによって、それに対応して、デー
タ単位内の訂正可能なソフトエラーの数が増加する。例
えば、ＳＥＣ／ＤＥＤ型ＥＣＣをＤＥＣ／ＴＥＤ型のＥ
ＣＣと置き換えれば、データ単位当り２つまでのソフト
エラーを訂正することができるようになり、Ｈ−Ｈ−Ｈ
、Ｈ−Ｈ−Ｓ、Ｈ−Ｓ−Ｓ、及びＳ−Ｓ−Ｓケースを扱
うことができることになる。また、ＳＥＣ／ＤＥＤ型Ｅ
ＣＣをＴＥＣ／ＱＥＤ型ＥＣＣと置き換えることによっ
て、３つまでのソフトエラーを訂正することができ、Ｈ
−Ｈ−Ｈ−Ｈ、Ｈ−Ｈ−Ｈ−Ｓ、Ｈ−Ｈ−Ｓ−Ｓ、Ｈ−
Ｓ−Ｓ−Ｓ、及びＳ−Ｓ−Ｓ−Ｓケースを扱うことがで
きるようになり、更に高い等級のＥＣＣタイプと置き換
えれば、訂正できるようになるソフトエラーの数も増加
する。本発明では、データ単位内のエラーの位置は重要
なことではない。【００１９】本発明は、特定のエラーケースの発生を自
動的に知らせ、それを後に保守用に用いることができる
ようにシステムが記録できるようにすることによって、
システム内にレコードを保管できるようにし、これによ
って、異なるタイプの訂正作用を、上述のような異なる
検出可能な場合に用いることができるようにするもので
ある。本発明は、システムのエラー報告によって過度な
ハードエラーとソフトエラーとを検出できるようにする
ことによって、システムを停止するような緊急保守状況
を防止することができる。報告過程を設けたことにより
、非緊急保守が後に検出したエラーの原因となるような
条件を扱えるようにすることができる。本発明は、Ｃ／
Ｒ方法とＥＣＣ方法とを組み合わせて用いるようにし、
冗長状態制御レジスタを備え、それらに対して比較及び
パリティチェックを用いることによって、システムの故
障に対する耐性を向上させるものである。【００２０】本発明による報告通知（ｒｅｐｏｒｔ　　
ｓｉｇｎａｌｌｉｎｇ）の一例では、ＣＰＵがシステム
の主記憶装置（ＭＳ）内の４ＫＢのページフレーム全て
の主メモリにメモリマップを保持している。このメモリ
マップは論理トラックレコード（ＬＴＲ）と呼ばれてい
るものである。要求元プロセッサは、過剰エラーのタイ
プを各アドレスされたメモリユニットに前もって報告し
てないなら、それぞれのアドレスされたメモリユニット
（４ＫＢページフレーム）に対して、Ｈ−Ｈ、Ｈ−Ｓ、
及びＳ−Ｓの過剰エラーの場合を、ＬＴＲに報告し、こ
れによって、システムの処理を遅れさせシステムの効率
を低下させる、報告のためのプロセッサ割り込みの数を
大幅に減少させることができる。【００２１】ＬＴＲをシステムサービスプロセッサ（Ｓ
Ｐ）にも報告し、ＳＰが物理トラックレコード（ＰＴＲ
）と呼ばれるそれ自体のページフレームマップを永続的
ディスクファイル内に保持できるようにする。ＬＴＲが
揮発性ＣＰＵメモリのリセットによって失われた後も、
ＰＲＴを保持している。ＣＰＵの次回の再初期化の時、
ＳＰはＰＴＲを用いて、ＣＰＵのソフトウエアに対して
メモリ内のＬＴＲを再構築するので、ＣＰＵは、エラー
状態として既に報告してある不良ページに対するエラー
割り込みを報告することによって、ＬＴＲの再構築に時
間を浪費しなくても済む。ＰＴＲはエラー状態量のスレ
ショルドを有しており、これを越えるとシステムの適切
な部分を囲い込み（ｆｅｎｃｅｄ　　ｏｆｆ）、保守の
ために停止することができる。【００２２】【実施例】図１は、リクエスタ、すなわち要求元によっ
て主記憶装置（ＭＳ）１１から要求された、エラーデー
タを訂正するためのＣ／Ｒ方法の新規な制御をすること
ができるハードウエアを示している。この場合、要求元
とは、ＣＰＵ（中央処理ユニット）、１つ以上のＩ／Ｏ
デバイスを制御するＩ／Ｏプロセッサ、またはサービス
プロセッサ（ＳＰ）等とすることができる。各データ要
求は、コンピュータシステム内のメモリからなるＭＳ　
　ＤＲＡＭアレイ内の１つのデータラインをアクセスす
るために、アドレスをＭＳに送出する。好適実施例では
コンピュータシステム内の主記憶装置（ＭＳ）を用いて
いるが、本発明はどのようなメモリにも適用することが
できる。各要求は、ＭＳ内の要求したデータラインのＭ
Ｓアドレス、要求元の識別子（ＲＩＤ）を含み、これら
をメモリ制御器に供給する。【００２３】ＭＳ１１内の各データラインは、１つ以上
のデータ単位（ＤＵ）を含んでおり、各データ単位は、
データビットの集合体である。これらのデータビットに
対してエラー訂正コード（ＥＣＣ）を発生し、ＤＵ＋Ｅ
ＣＣ集合体という表記で示されるビット集合体全体を与
えることになる。１つの集合体におけるＥＣＣビットは
、ＤＵビットの間に混合しており、ＥＣＣビットは、そ
の読み取り及び送信中に、その集合体に対して１エラー
訂正／２エラー検出（ＳＥＣ／ＤＥＤ）を実行可能とす
る。【００２４】好適実施例では、各データラインは、１６
個のＤＵ＋ＥＣＣ集合体から成り立っている。好適実施
例では、１つのＤＵ＋ＥＣＣ集合体内のビットを、並列
にメモリバスに読み出し、送信するようにしているが、
これらを現在アクセス中のデータライン用のバスに直列
に送信するようにしてもよい。また、好適実施例は、各
ＤＵが６４データビットの二重ワード（ｄｏｕｂｌｅ　
　ｗｏｒｄ）であり、ＳＥＣ／ＤＥＤを行う８個のＥＣ
Ｃビットを有しているものとしている。したがって、６
４＋８＝７２ビットを並列にバス上を転送することにな
る。直列バスを用いる場合は、各ＤＵ＋ＥＣＣ集合体を
並列ビット形状に組み立ててメモリに送り、またメモリ
から読み出した並列ビット形状を直列ビット形状にする
ことになる。【００２５】オリジナル読み取り要求（図８）図１のハ
ードウエアにおいて、要求されたデータライン内の１６
個のＤＵ＋ＥＣＣ集合体の各々を、ＭＳ１１から反転器
１２を介してＥＣＣ論理／Ｓ，Ｐ発生器１３（以下、回
路１３と称する）に転送する。オリジナル読み取りの間
、各集合体は、その真の状態（非反転）で、反転器を通
過して回路１３に至る。回路１３は各ＤＵ＋ＥＣＣ集合
体のエラーをチェックし、ＥＣＣ論理がそれにエラーが
ないことを発見したか否かを、その要求元に返送する。ＤＵ＋ＥＣＣ集合体が１つのエラービットのみを有する
のなら、要求元に送る前に、そのエラーを訂正する。要
求元には、データと共に状態情報も送るようにして、要
求元にその集合体にエラーがないか、あるいは特定のエ
ラー状態であるかを、知らせる。要求元がエラーのない
データを受け取ったのなら（ＥＣＣによって訂正された
ものか非訂正のもの）、Ｃ／Ｒ機能を省略する（その要
求に対しては行われない）。特定の状態信号が、いかな
る検出したエラー状態でも、送出したＤＵ＋ＥＣＣ集合
体に対して識別して、要求元に知らせるので、要求元は
、エラーを含むＤＵ＋ＥＣＣ集合体にＣ／Ｒ方法を実行
するように要求するか否かを含む要求をすべきことを決
定することができる。【００２６】図８のフロー図は、データライン要求に対
するオリジナル読み取り処理のステップを示しており、
ステップ１は現在の要求を表している。ステップ２は、
読み取り要求がメモリ制御器から優先権を得る時を表し
ており、ここには、図４のメモリ要求レジスタ７１に要
求を入力することも包含されている。該レジスタ７１か
らＭＳ内の各ＤＵ＋ＥＣＣ集合体に対してアドレスを発
生するようにしている。ステップ３は、図６及び７のレ
ジスタ７３及び７４に入力する状態情報の発生である。レジスタ７３及び７４はＭＳ１１に対するメモリ制御器
内に設けられている。【００２７】図６のレジスタ７３は、要求元に送る状態
情報を表し、回路１３によって次のようなフィールドが
設定されている。要求を行ったプロセッサの要求元識別
子（ＲＩＤ）、読み取った７２ビットのＤＵ＋ＥＣＣ集
合体、次にあげる１ビット指示部フィールドエラー無し
、１ビット訂正済みエラー、過剰エラー、特殊ＵＥ（未
訂正エラー）指示特殊ＵＥは、あるメモリ位置に記憶されるユニーク文字
であり、それによりそのメモリ位置がエラーによる回復
不可能な不良データを有することを表すものである。【００２８】図７のレジスタ７４は、サービスプロセッ
サ（ＳＰ）に送る状態情報を表している。レジスタ７４
が集合体に対するＥＣＣシンドロームビットを設定する
フィールドも有していることを除いて、レジスタ７４に
も回路１３によってレジスタ７３に入力したのと同一情
報を、セットするようにしている。ＳＰに対するシンド
ロームビットを備えることによって、ＳＰは、必要であ
ればＥＣＣ処理を確認するために、シンドロームビット
及び他の状態情報を使用するオプションを有することに
なる。オリジナル読み取りでは、レジスタ７３及び７４
内のフィールドＨ−Ｈ、Ｈ−Ｓ及びＳ−Ｓは、状態レジ
スタには発生されていない（リセット状態ではオフにな
っている）。図８のステップ４では、レジスタ７３内の
状態情報を、ＲＩＤフィールドに示されている要求元に
通信する。これは図４のレジスタ７１内に現在表してい
る読み取り要求である。【００２９】再読み取り要求（図９）要求元は、ＣＰＵ、Ｉ／Ｏプロセッサ、またはＳＰであ
る。各要求元は、状態情報を受け取り、受信した状態情
報を送出するためのハードウエアであり、状態レジスタ
の情報に過剰エラーが報告された場合、Ｃ／Ｒ方法を用
いて記憶要求を継続するために更に動作が必要であるか
を決めるハードウエアを有している。好適実施例では、
要求元が状態レジスタにおいて過剰エラーの指示を受け
ると、要求元は自動的にＭＳに再読み取り要求を行い、
これがＣ／Ｒ方法を呼び出す要求になり、当該ＤＵ＋Ｅ
ＣＣ集合体内の過度エラーの訂正を試みることになる。【００３０】図７の状態レジスタ７４は、その内容を、
ＩＢＭ３０９０システムのプロセッサ制御要素（ＰＣＥ
）内に存在するもののようなＳＰに送信させている。要求を扱うハードウエア内に回復可能な故障が生じた場
合のような、ＭＳエラー状態に対する要求の時、ＳＰは
システムのためにエラー回復処理を制御する。例えば、
ＤＵ＋ＥＣＣ集合体を扱っている時にエラー状態が生じ
たなら、ＳＰは、エラー集合体を含む位置に特殊なＵＥ
文字を書き込ませ、不良データが用いられるのを防止す
る。要求元（最初の読み取り要求に対する状態レジスタ
情報を受け取る）が、エラーのないフィールドを受信中
であることを発見したら、返答せずに受信した集合体を
用いる。しかし、過剰エラー指示を受け取ったなら、再
読み取り要求（再実行要求と呼ばれることもある）を、
要求元のハードウエアマイクロコードによって、ＭＳ制
御器に返答として与える。再読み取り要求は、エラーの
あるＤＵ（レジスタ７１によって現在アドレス指定され
ている）を訂正する試みの中で、Ｃ／Ｒ方法を実行する
ハードウエア（Ｃ／Ｒハードウエア）を起動する。【００３１】Ｃ／Ｒ方法を呼び出す再読み取り要求を発
生するプロセスにおいて、ＭＳ１１の通常処理または要
求元のプロセッサには割り込みは生じない。要求元プロ
セッサに割り込みを生じさせずにＣ／Ｒ過程を首尾よく
用いることによって、本発明は従来技術に比べて重要な
新規性を備えることができる。従来は、過剰エラー状態
（ＳＥＣ／ＤＥＤ　　ＥＣＣでは２ビットエラー）を感
知する際、要求元プロセッサに常に割り込みが起こり、
その間にＳＰを呼び出してＣ／Ｒ方法の実行を起動し制
御するようにしていた。そのような従来のプロセスでは
、本発明のプロセスと比較して、大量の処理時間が失わ
れていたことになる。【００３２】次の表は、図４に示すＣ／Ｒシーケンサの
４つの状態と、Ｃ／Ｒプロセスの完了前にＣ／Ｒハード
ウエア内で故障が発生した場合に、エラーのあるＤＵ＋
ＥＣＣ集合体をＭＳ内のその元の状態に復元するために
必要な復元作用を含む、それらシーケンサの結果のいく
つかを表したものである。　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　表　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　再試行のための　　　　　　　　　　　　　　
　　　　　　　　状態終了時の　　　　　　状態終了時
の　　　　ＤＵ＋ＥＣＣの　　　　　　　　　　　　　
　　　　　　　データバッファ　　　　ＭＳ内の　　　
　　　　　復元（元の状態　　　　　　　　　　状態中
　　　　内のＤＵ＋ＥＣＣ　　ＤＵ＋ＥＣＣ　　　　の
ＤＵ＋ＥＣＣ　　状　　態　　　　の動作　　　　の形
状　　　　　　　　　　　　の形状　　　　　　　　　
　を確保する）　　　　最初の　　　　ＭＳから　　　
　　　真　　　　　　　　　　　　　　　　真　　　　
　　　　　　　　　　無し読み取り　　データバ　　　　　　　　　　ッファ　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　最初の　　　　デ
ータバ　　　　　　真　　　　　　　　　　　　　　　
　反転　　　　　　　　データバッファ記憶　　　　　
　ッファ　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　から主記憶装置　
　　　　　　　　　からＭＳ　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　（比較せず）　　２回目の　　ＭＳから　　　　　　
真　　　　　　　　　　　　　　　　反転　　　　　　
　　状態バッファエラ読読み取り　　反転器、　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　ーが回復可能なら　　　　　　　　　　
データバッファ　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　この２回目の読み取　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
りを再び行ない、　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　それから２回目の　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　記憶を行なう　　　　２回目の　　データ　　　　　
　　　　　真　　　　　　　　　　　　　　　　　　真
　　　　　　　　２回目の記憶を記憶　　　　　　バッ
ファ　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　再び行なう　　　　　
　　　　　からＭＳ　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　【００３３】このように、Ｃ／Ｒ方法の最初の読み取り
状態は、メモリ制御器によって操作される際、読み取り
要求に応答して与えられ、Ｃ／Ｒ要求を要求元から図５
のシーケンサ７２に供給する。通常、Ｃ／Ｒ方法の４つ
の状態は連続して起こり、Ｃ／Ｒ方法が用いているハー
ドウエアが正しく処理している限り、２番目の記憶状態
で完了する。【００３４】Ｃ／Ｒ方法のいずれかの状態で誤動作信号
（シーケンサ７２の出力状態信号によって指示される）
が発生すると、この誤動作信号はＣ／Ｒプロセスのそれ
以上のステップを抑制し、復元処理を呼び出し、処理中
のＤＵ＋ＥＣＣ集合体をＭＳ内のその元の状態に確実に
復元させる。これは、Ｃ／Ｒプロセスの最初の記憶及び
２番目の読み取り状態の終了時には、補数（反転）の形
で元のＭＳの元の位置に記憶するようにしているからで
ある。特定のデータ復元作用は、中断が起こった時にＣ
／Ｒプロセスのどのステップが存在していたかに依存す
る。そして、エラーのあるＤＵ＋ＥＣＣ集合体を復元し
たことにより、Ｃ／Ｒプロセスの再試行が可能となり、
再び潜在的訂正状態にすることができる。復元しなけれ
ば、Ｃ／Ｒ方法の再試行を行なってエラーのあるＤＵ＋
ＥＣＣ集合体を訂正することはできず、Ｃ／Ｒ方法の訂
正能力の信頼性を損なうことになる。【００３５】図９及び１０は、好適実施例で用いている
Ｃ／Ｒ方法の詳細なフロー図を示し、前出の表のＣ／Ｒ
方法のステップを、より詳細なサブステップで表したも
のである。図９のステップ１０は、レジスタ７１にアク
セスするためにＭＳ制御器が選択した再読み取り要求を
表しており、ここで複数の要求に優先順位を与え、アド
レスレジスタ７１内の現在のＭＳ要求になるまで、それ
らはパイプライン状に遅延される。したがって、ＭＳの
動作に対して行なわれる従来の優先順位選択により、読
み取りまたは再読み取り要求を発行した時間とＭＳ１１
がそれを実行する時間との間に、多くのマシンサイクル
が介在する。即ち、ＭＳ１１に対するその他の読み取り
要求及び記憶要求を、この介在期間中に実施することが
できる。メモリ制御器内では、再読み取り要求は常に読
み取り要求より高い優先順位が得られるようになってい
る。【００３６】図９のステップ１０は、「要求元からのＣ
／Ｒ要求」を図５のＣ／Ｒシーケンサ７２に入力するこ
とを活性化するために、レジスタ７１に入力する再読み
取り要求を、その最初の読み取り出力状態に設定するこ
とを表している。図９のステップ１１は、ＭＳから各Ｄ
Ｕ＋ＥＣＣ集合体を読み取ることを、表している。ステ
ップ１２は、回路１３によって、状態ビットＳ、及びパ
リティビットＰを各ＤＵ＋ＥＣＣ集合体に発生すること
を表している。ビットＳは、現在のＤＵ＋ＥＣＣ集合体
に対しての受信状態レジスタ情報の中の「過剰エラービ
ット」フィールドのコピーとして、発生されるものであ
る。状態ビットは、過剰エラーの指示がない時はゼロ状
態を指示するが、一旦過剰エラーが指示されると、１の
状態を有する。そして、回路１３は、各状態ビットに対
してパリティビットＰを発生する。パリティビットは、
偶数、奇数パリティのいずれで発生してもよい。好適実
施例では奇数パリティを用いている。したがって、本実
施例では、状態ビットが１の時、パリティビットは０と
なり、状態ビットが０の時パリティビットは１となる。【００３７】ステップ１４では、各ＤＵ＋ＥＣＣ集合体
に対して発生された状態ビットＳ及びそのパリティビッ
トＰを、２つの別個の状態バッファ（状態バッファ１と
状態バッファ２）内にインポインタでアドレス指定され
たエントリのフィールドＳ及びＰにコピーする。バッフ
ァ１及び２内の対応するエントリは、同一の状態ビット
及びパリティビット状態を受け取る。データバッファ２
１及び状態バッファ１及び２に対するインポインタは全
て、それらの各バッファ内の対応するエントリをアドレ
ス指定し、最初の読み取り処理の間にインポインタを同
時に増分するようにする。【００３８】Ｃ／Ｒ方法を呼び出すのは、データバッフ
ァに読み込み中の現在のＭＳデータライン内の１６個の
ＤＵ＋ＥＣＣ集合体の少なくとも１つのＤＵ＋ＥＣＣ集
合体に対して、状態ビットが１状態に設定された時（過
剰エラーを示すため）だけである。一般的に、データバ
ッファ内の殆どのＤＵ＋ＥＣＣ集合体は、誤ったもので
はなく、それらの各状態ビットＳは０に設定されており
、データバッファに記憶されている対応するＤＵ＋ＥＣ
Ｃ集合体にはエラーがないことを示している。ＤＵ＋Ｅ
ＣＣ集合体の状態ビットＳの値が１の場合は、図１のハ
ードウエアにおいて、その集合体のビットに対する両方
の反転を制御する。したがって、ビットＳに対する０値
（エラーのないことを指示する）は、それが図１のハー
ドウエア中を移動する際、その集合体の反転（補数を取
る）は全く行なわれない。ステップ２６を参照されたい
。【００３９】ステップ１５は、データバッファ２１内の
インポインタの位置で各ＤＵ＋ＥＣＣ集合体を記憶する
ことを、表している。ステップ１６では、図４のメモリ
アドレスレジスタ７１によって現在アドレス指定されて
いるデータラインに対して、１６個全てのＤＵ＋ＥＣＣ
集合体をデータバッファに書き込むまで、インポインタ
を増分し、次の集合体をＭＳからデータバッファ２１内
の次のエントリに読み込む。ステップ１８では、Ｃ／Ｒ
処理ハードウエアにおいてなんらかのエラーが発見され
たかを試験する。もしエラーが発見されたなら、Ｃ／Ｒ
処理を禁止し、ＭＳ内のＤＵ＋ＥＣＣ集合体を、禁止さ
れたＣ／Ｒ処理の開始以前に存在していた元の状態に復
元する。ステップ１８で動作的エラーが発見されなけれ
ば、Ｃ／Ｒ処理はステップ１９を続行し、Ｃ／Ｒシーケ
ンサを増分してその最初の記憶出力状態とする。【００４０】図１に示すように、アウトポインタ３、２
及び１（２３、２９、２６）を、データバッファ２１と
２つの状態バッファ２及び１（２７、２４）とに備え、
出力すべき対応するエントリの選択を制御するようにし
ている。最初の記憶状態の間、これらのアウトポインタ
をステップ２５で同時に増分し、全てが同じアドレスを
有し、それらの各スタック内の対応するエントリを指す
ようにする。ステップ２１、２２及び２３は、これらの
ポインタ及びそれらのアクセスしたエントリの内容につ
いてチェック動作を行ない、発生したいかなるハードウ
エアエラーも検出する。【００４１】初期状態では、インポインタ及びアウトポ
インタは、現在のデータラインのデータバッファ（及び
その各状態バッファエントリ）内の最初のＤＵ＋ＥＣＣ
集合体をアドレス指定する。複数のＤＵ＋ＥＣＣ集合体
をデータバッファ内の複数のエントリに記憶する（状態
バッファ１及び２内の対応するエントリにそれらの対応
する状態及びパリティビットを記憶すると共に）と直ち
に、インポインタはアウトポインタより先に増分し、イ
ンポインタの値が出力ポインタの値より進んでいる限り
、アウトポインタがアドレス指定したエントリをそれぞ
れのバッファから出力することができる。【００４２】アウトポインタがアドレス指定したＤＵ＋
ＥＣＣ集合体を、アウトポインタデータスタックエント
リから、図１の反転器３２に出力する。状態バッファ１
または２のいずれかからのＳビットの対応する出力値（
これらは誤りがない限り同一である）を用いて、アウト
ポインタの制御の下で出力されたＤＵ＋ＥＣＣ集合体に
対して、図１の全ての反転動作を制御する。現在行なわ
れているＣ／Ｒ処理の持続期間の間、出力されたビット
Ｓの値を状態バッファ制御器／パリティチェック回路４
３に登録する。登録した状態ビットＳが１値を有するな
らば、反転器３２及び反転器１２への線４４上の反転制
御信号（第１記憶及び第２読み取りにてＤＵ＋ＥＣＣビ
ットを反転させる）を活性化する。現在出力中のＤＵ＋
ＥＣＣ集合体に対してビットＳが０であれば、ＤＵ＋Ｅ
ＣＣ集合体に対して反転は行なわない。【００４３】ステップ２６は、対応する状態ビットＳに
１状態が存在する場合、反転器３２内のアウトポインタ
が現在指定の集合体の反転（補数を取る）を行なわせる
。次に、ステップ２７はＥＣＣ論理回路３３を不能化し
、ＤＵ＋ＥＣＣ集合体をＥＣＣ論理回路３３を通過させ
、その集合体を読み取ったのと同じＭＳの位置に記憶す
る。対応する状態ビットＳが０であれば、反転器３２は
ＤＵ＋ＥＣＣ集合体を反転しない。ＥＣＣ論理回路３３
は、最初の記憶動作の間は集合体には動作しない。アウ
トポインタを増分することによって、全てのＤＵ＋ＥＣ
Ｃ集合体をＭＳのデータラインに記憶する動作を制御す
る。ここで、過剰エラーを有する集合体（Ｓ＝１）のみ
が、Ｃ／Ｒ方法の最初の記憶ステップの完了時に、反転
された形でＭＳに記憶されていることになる。【００４４】ステップ２８では、最初の記憶動作で、Ｃ
／Ｒ処理のハードウエアになんら故障を生じることなく
、記憶が行なわれたかを、チェックする。故障が検出さ
れたなら、ステップ２９に進み、上述の表に示したよう
に、Ｃ／Ｒ方法の最初の記憶状態の間の故障に対して要
求される復元を行なう。最初の記憶が首尾よく完了した
ことがわかった場合、ステップ３１を実行し、Ｃ／Ｒシ
ーケンサ７１をその２回目の読み取り状態に増分し、補
数の形状になっている１つ以上のＤＵ＋ＥＣＣ集合体を
有し、ＭＳ内に現在記憶されているデータラインの２回
目の読み取りを開始する。【００４５】Ｃ／Ｒプロセスの２回目の読み取り（図１
０）２回目の読み取りでは、インポインタ３は、最初の読み
取り動作と同じように動作し、レジスタ７１によってア
ドレス指定されているデータライン内の各ＤＵ＋ＥＣＣ
集合体をアクセスする。この２回目の読み取りではイン
ポインタ１及び２は用いない。したがって、ステップ５
１は、レジスタ７１によってアドレス指定されている現
在のデータライン内の各ＤＵ＋ＥＣＣをアクセスする。ステップ５４、５５及び５６は、Ｃ／Ｒハードウエアの
チェック動作を行なうが、これについては後述する。【００４６】２回目の読み取りにおいて、アウトポイン
タ１及び２は、最初の読み取りとは異なった動作を行な
い、代りに、ＭＳからデータバッファ２１のインポイン
タ３の指定位置に読み出された、現在のＤＵ＋ＥＣＣ集
合体に対応するＳビットを有する複数の状態バッファエ
ントリをアドレス指定する。２回目の読み取りでは、ア
ウトポインタ１及び２は、インポインタ３と共に歩進す
るが、回路１３内に対応するバッファ動作による遅れが
ある時は、インポインタ３の増分は、１または２サイク
ル遅れて起こることになる。【００４７】アウトポインタ３は、一方、２回目の読み
取り動作によって早く得られた、データバッファ内のＤ
Ｕ＋ＥＣＣ集合体に対して、２回目の記憶動作を制御す
るので、２回目の記憶動作は、２回目の読み取り動作と
重複することができる。アウトポインタ１及び２は、各
集合体が反転器１２を通過して図１０のステップ５７を
実行する間、状態バッファ１及び２をアドレス指定して
、ＭＳから読み出した各ＤＵ＋ＥＣＣ集合体に対する、
ビットＳをアクセスし、反転器１２の動作を制御する。アウトポインタ１及び２は、初期状態では読み出すべき
最初のＤＵ＋ＥＣＣ集合体をアドレス指定するように設
定され、こうして、反転器１２の必要な反転状態を制御
する。アウトポインタ１および２を、次に読み出すべき
ＤＵ＋ＥＣＣ集合体等のために増分する。【００４８】状態バッファ内のアクセスされた各ビット
Ｓ（最初の読み取りの間に発生された）を、２回目の読
み取りの間変化させずに再び用い、各エラーのあるＤＵ
＋ＥＣＣ集合体の２回目の反転を制御し、２回目の読み
取り動作の間に集合体内の全てのハードエラーを訂正す
るようにする。したがって、各状態バッファ内の状態ビ
ットＳの順序は、最初の記憶動作によってＭＳ内に記憶
されたデータラインから読み出されたそれぞれのＤＵ＋
ＥＣＣ集合体の順序である。【００４９】図１０のステップ５８では、各々次のＤＵ
＋ＥＣＣ集合体をＭＳから読み取る直前に、アウトポイ
ンタ１及び２を増分するので、対応する状態ビットＳは
、ＭＳから読み取られた集合体に対する反転器１２の動
作を制御するのに効果的である。図１０において、ステ
ップ５８からステップ６１への経路、及びステップ５８
からステップ７１の経路は、同時に実行される。前者の
経路では、Ｃ／Ｒ方法における２回目の反転で全ての存
在するハードエラーを訂正した後に、現在のＤＵ＋ＥＣ
Ｃ集合体内に残存しているエラー状態を、ＳＥＣ／ＤＥ
Ｄ型の回路１３が検出する。ステップ６１では、現在の
集合体に対して次の事柄を判別する。１）ＥＣＣがエラーを訂正しなかったので、Ｈ−Ｈ状態
であるか。２）ＥＣＣがエラーを１個訂正したので、Ｈ−Ｓ状態で
あるか。３）ＥＣＣが存在するエラー状態を訂正できなかったの
で、Ｓ−Ｓ訂正不可能な状態であるか。【００５０】ステップ６３は、レジスタ７３及び７４内
の対応する１ビットフィールドをセットする。これは、
図１１のシステムエラー報告処理で用いるのに必要なこ
とである。次に、ステップ６８では、状態レジスタの内
容を要求元とＳＰとに送る。これには、１６個全てのデ
ータ単位を要求元に送ることを含んでいる。上述の並列
経路（後者の経路）は、ステップ５８に続いてステップ
７１を実行し、現在のＤＵ＋ＥＣＣ集合体を、データバ
ッファの現在のインポインタ３の指定位置に記録する。次にポインタ３をステップ７２で増分する。【００５１】次のステップ７３では、Ｃ／Ｒハードウエ
ア処理内に、ステップ６１でＤＵ＋ＥＣＣ集合体内で検
出したエラー状態とは異なるタイプのエラー状態を生じ
ることなく、２回目の読み取りが完了したかを試験する
。Ｃ／Ｒ処理エラーが起こったなら、ステップ８８に進
み、ＭＳ内の現在のＤＵ＋ＥＣＣ集合体を、２回目の読
み取りの終了時の状態に復元する。Ｃ／Ｒ処理エラーが
起こっていなかったのなら、ステップ７４でＣ／Ｒシー
ケンサ７２を増分し、その最後の状態、即ち２回目の記
憶を示すようにする。【００５２】Ｃ／Ｒプロセスの２回目の記憶（図１０）
エラーのある集合体（複数のこともある）を２重反転し
、エラーのないＤＵ＋ＥＣＣ集合体には全く反転を施さ
なかったので、各集合体は、その真の状態でデータバッ
ファに書き込まれたことになる。ステップ８１では、デ
ータバッファ内のアウトポインタ３の指定位置から、各
集合体を全く反転させないで、ＭＳに書き込む。【００５３】アウトポインタ３（アウトポインタ１及び
２とは異なる）は、Ｃ／Ｒ方法の最初の記憶に対して行
なったように動作する。即ち、アウトポインタ３は、ま
ずデータバッファ内の最初のエントリをリセットし、各
ＤＵ＋ＥＣＣ集合体をエントリから出力した後にアウト
ポインタ３を増分する。しかしながら、２回目の記憶動
作では状態ビットＳを用いないので、１回目の記憶動作
中のように、ビットＳをデータバッファエントリと整合
する必要は全くない。したがって、他のポインタはアウ
トポインタ３と同期して動作することはない。ステップ
８２では、各集合体を出力した後にアウトポインタ３を
増分する。【００５４】したがって、２回目の記憶動作では、全デ
ータラインが、その真の元の状態でデータバッファに存
在し、２回目の記憶動作が完了した後、スクラッビング
（ｓｃｒｕｂｂｉｎｇ）によって訂正可能な単一ソフト
エラーのみを有する集合体を除いて、データライン内の
全ての集合体は、ＭＳ内にその真の元の状態で残留する
ことになる。よって、２以上のソフトエラーが１つの集
合体に存在した時は、ＭＳ内の集合体は全てのハードエ
ラー及び全てのソフトエラーを未だ有していることにな
る。したがって、Ｃ／Ｒ処理用ハードウエア内にエラー
が起こらなかったなら、Ｃ／Ｒエラー訂正プロセスは完
了したことになる。【００５５】ハードウエアのエラー検出Ｃ／Ｒハードウ
エアの故障耐性における高い信頼性を達成するために、
新規な手段を設けて、Ｃ／Ｒハードウエアの動作中の故
障を検出する。アルファ粒子は、いかなるバッファエン
トリのいかなるビット、及びいかなるポインタレジスタ
内におけるソフトエラーの原因ともなり得るものである
。また、これらビット位置にハードエラーが起こる可能
性もある。本実施例では、Ｃ／Ｒ方法の故障耐性を高め
るための動作中に、多くのエラーチェックを行なうよう
にしている。【００５６】各状態バッファ及びデータバッファは、書
き込み及び読みだしの間にそれぞれ用いるインポインタ
及びアウトポインタを有している。全てのインポインタ
が一斉に歩進しなくてはならない時（最初の読み取りの
間）があると共に、全てのアウトポインタが一斉に歩進
しなくてはならない時（最初の記憶の間）もある。他の
時には、状態バッファの２つのインポインタのみが一斉
に歩進しなくてはならず（２回目の読み取り中で、デー
タバッファのアウトポインタを使用していない時）、ま
た状態バッファの２つのアウトポインタが一斉に歩進し
なくてはならない。これらのポインタの１つが歩調を乱
した時、ＤＵ＋ＥＣＣ集合体を最初に記憶されていた状
態に回復しようという試みを行なうと共に、Ｃ／Ｒ動作
の再試行も行なう。【００５７】インポインタ１及び２の値は常に同一であ
ると想定されており、これを比較器４１でチェックする
。同様に、アウトポインタ１及び２の値も同一であると
想定されており、これを比較器４２でチェックする。比較器４１または４２がポインタの値が等しくないこと
を発見したなら、エラーを検出したことになり、その比
較器は要求元プロセッサ及びＳＰに割り込み信号を出力
する。また、現在処理中のエラーのあるＤＵ＋ＥＣＣ集
合体を上述の表に示したように復元するので、その集合
体に対してＣ／Ｒ方法を再び試行することができる。【００５８】最初の読み取りにおいて、インポインタの
歩調が乱れた場合、主記憶装置内のデータには損傷がな
い。したがって、これは単に最初の読み取りの要求元に
割り込み信号を送って、Ｃ／Ｒ方法をその開始から再試
行することを要求する程度のことである。最初の記憶に
おいて、アウトポインタの歩調が乱れた場合、割り込み
信号を発生して、その最初の記憶を取り消し、データを
主記憶装置に保存するようにする。次に、Ｃ／Ｒ方法全
体を再試行する。【００５９】２回目のデータ読み取りにおいて、２つの
状態バッファのアウトポインタの歩調が乱れた場合、そ
の２回目のデータ読み取りを中止させるために、割り込
み信号を発生する。状態バッファとＭＳの読み取りは、
非破壊的読み取りなので、ＭＳ及び状態バッファの内容
は不変である。したがって、２回目の読み取りの再試行
または２回目の記憶のＣ／Ｒシーケンスによって回復が
可能となる。これらの歩調の乱れによる割り込みが、与
えられた時間間隔内で頻繁に発生する場合、Ｃ／Ｒ方法
に関係するハードウエアが信頼性のないものと考えられ
、したがって直ちに交換しなくてはならない。【００６０】状態バッファ２４及び２７へのそれらのイ
ンポインタ及びそれらのアウトポインタによる各アクセ
スにおいて、アクセスされた状態ビットｓ及びパリティ
ビットＰは同一であると仮定しており、これらについて
も回路４３内の比較器にて同一であるかを比較する。比
較されたＳ、Ｐ値が異なるのなら、エラーであることを
指示し、割り込み信号を要求元プロセッサ及びＳＰに送
る。また、回路４３は、いかなるパリティエラー状態を
も検出するために、各アクセスした状態バッファエント
リのビットＳ及びＰの内容のパリティチェックを行なう
。状態バッファエントリの１つでパリティチェックの結
果が不良である場合、別の対応する状態バッファエント
リ内の状態ビットｓを、もしそのパリティが正しければ
、既に説明した反転制御のために用いるようにする。【００６１】この状態バッファの冗長性によって、アク
セスした一方の状態バッファのエントリにパリティエラ
ーがあり、他方の状態バッファのアクセスしたエントリ
が正常なパリティを有するような場合、Ｃ／Ｒ動作を続
けることができる。しかしながら、両方の状態バッファ
のアクセスしたエントリにパリティーエラーを発見した
時は、できるだけ早くＣ／Ｒ動作を中止し、救援のため
に割り込みをＳＰに送らなければならない。この割り込
みが最初の記憶の間に発生したなら、直ちに記憶動作を
中止し、ＭＳ内に元のデータを保存するようにする。こ
の時点において、状態バッファ及びデータバッファの内
容は、Ｃ／Ｒ動作全体を再実行することによって、再び
ロードすることができる。この割り込みが２回目の読み
取り中に発生したなら、パリティエラーのために状態ビ
ットはＭＳ内のＤＵ＋ＥＣＣ集合体が補数を取ったもの
なのか否かを指示することができないので、Ｃ／Ｒ動作
は回復不可能な故障を被ることになる。このような場合
、Ｃ／Ｒ動作に関係したＭＳ内のアドレスに特殊なＵＥ
記号を記憶して、不良で回復不可能なデータブロックで
あることを指示する。【００６２】状態ビットを記憶する前に、各状態バッフ
ァは状態ビットが良好なパリティを有するかをチェック
する。不良パリティを有する状態ビットは、デフォルト
値「０」及びそのパリティ「１」と共に状態バッファに
書き込むようにする。この動作は、状態バッファの全て
のエントリが最初の読み取りの終了時において正しいパ
リティを有することを確かめるために、行なわれるもの
である。デフォルトの状態ビットｓは、いかなる反転も
起こさせず、Ｃ／Ｒ方法がその集合体に動作するのを防
止する。【００６３】最初の読み取りを更に詳しく述べると、ア
ウトポインタ１、２及び３を比較して、これらのアウト
ポインタが常に一斉に歩進することを確かめる。これら
アウトポインタ間に不一致があると、エラー信号を発生
して動作の不良を教えるようになっている。しかしなが
ら、２回目の読み取りでは、２つの状態バッファのアウ
トポインタ１及び２はアウトポンンタ３と一致して歩進
しないので、これら２つのみを比較するようにする。こ
れは、図９のステップ２１、２２及び２３と、図１０の
ステップ５４、５５及び５６とで行なわれる。Ｃ／Ｒ方
法が完了すると、その結果は、訂正済データまたは未訂
正データ（２つのソフトエラーや、特殊なＵＥの検出の
ようなもの）として、要求元に送られる。【００６４】過剰エラーの減少の報告（図１１）図１１
の報告プロセスは、過剰エラーをオペレーティングシス
テムソフトウエア（ＯＳ）に報告する量及び頻度を大幅
に減少し、更に１メモリ単位、例えば４ＫＢのページ内
の既に報告済のハードウエアエラーに対する全ての割り
込みを、除去するものである。図１１の報告プロセスは
、要求されたデータラインに過剰エラーが存在すること
を示す状態情報（図６に示す）を要求元が受け取った時
、呼び出されるようにしている。本実施例はＬＴＲ（論
理トラックレコード）と呼ばれる新規な表を設け、マイ
クロコードにのみアクセス可能な記憶領域に該表を配置
している。ＬＴＲは、各々がＭＳの各データ単位（例え
ば４ＫＢページ）に割り当てられた、１組の報告ビット
を含んでいる。要求元プロセッサのマイクロコードによ
りＬＴＲをアクセスして、Ｃ／Ｒ方法における第２の書
き込み後に状態情報によって提供された過剰エラー状態
（現在検出済）に対して、報告が必要か否かの決定がな
される。【００６５】図１１は３つの異なる監視プロセスを表し
ており、これらの選択は、どのタイプの過剰エラーが報
告されているかに依存する。そのタイプとは、Ｓ−Ｓ、
Ｈ−Ｈ、Ｈ−Ｓ、及び特殊ＵＥのいずれかの場合であり
、Ｃ／Ｒ方法によるハード及びソフトエラーの検出の異
なる場合を表している。Ｈ−Ｈ及びＨ−Ｓの場合は、各
々、アドレス指定されたページが不良のＭＳハードウエ
アに記憶されていることを指示している。この時ＬＴＲ
内の１つのビットは、今検出された過剰エラーを有する
データラインのページアドレスを用いて、アクセスされ
る。アクセスされたＬＴＲビットがオンにセットされて
いたなら、肯定（ｙｅｓ）経路９１を取り、そのページ
に対して過剰エラーは既に報告済みであること、及びＯ
Ｓとの通信は今検出された過剰エラーには必要ないこと
を指示するので、プロセッサの割り込みは発生しない。しかし、このページに対してエラーが報告されなかった
なら、否定（ｎｏ）経路が取られてＬＲＴビットをセッ
トし、マシンチェック割り込みコード（ＭＣＩＣ）のビ
ット１７をセットするＭＣ割り込みを発生して、そのペ
ージの最初の過剰ハードエラーをＯＳに伝える。【００６６】Ｓ−Ｓの場合は、アドレス指定したページ
内の不良ハードウエアを指示するものではないが、その
中にソフトエラーを検出したことを指示する。ソフトエ
ラーは不良データ（正常なハードウエア内のこともある
）を示すものである。過剰ソフトエラーは発生する毎に
報告しなくてはならず、これは、ＭＣＩＣのビット１６
をセットしビット３２をリセットするマシンチェック割
り込みを発生して、ソフトエラーをＯＳに伝えさせるこ
とによって行われる。ＬＴＲビットがＳ−Ｓ経路にてオ
ンにセットされ、その後に同じページにハードエラーが
検出されて、そのためエントリを図１１のＨ−Ｈまたは
Ｈ−Ｓ経路に導くことになった場合、そのページのＬＴ
Ｒビットはオンにセットされているので、経路９１が取
られ、Ｃ／Ｒ処理に起因する要求元プロセッサへの割り
込みを、全て回避するようにする。【００６７】このように、図１１の経路９１上を取った
時、Ｃ／Ｒ方法のジュウライレイノ動作で生じた２つの
クロック停止割り込み（プロセッサ及びメモりへの）を
なくすることができる。最初の割り込みはＣ／Ｒ方法の
呼び出し時に起きたもので、２つめの割り込みは、検出
された過剰エラーのタイプを決定する時に起きたもので
ある。本発明は前者タイプの割り込みを除去し、後者の
タイプの割り込みを大幅に減少するためのものである。前述の特殊ＵＥ（訂正付加エラー記号）は、不良データ
がその位置に入力されたことを表し、その場所には特殊
なＵＥデータパターンとして記憶されていた。この特殊
ＵＥは（呼び出し時に）、ＭＣＩＣ内のビット１６及び
３２をセットするマシンチェック割り込みを発生し、こ
の特殊ＵＥをＯＳに伝える。【００６８】好適実施例では、主記憶装置に関して開示
したが、本発明は、拡張記憶装置またはキー記憶装置の
ような他の記憶装置で用いることができると共に、ベク
トルプロセッサのような他の要求元によっても用いるこ
とができるものであることは、明らかであろう。以上本
発明の好適実施例を例示し説明したが、本発明はここに
開示した構成に限定されるものではなく、種種の変更が
可能であることは明らかであろう。

【図面の簡単な説明】

【図１】Ｃ／Ｒ方法の故障耐性を改善するための、好適
実施例装置を示すブロック図である。

【図２】データバッファの構造を、そのインポインタと
アウトポインタと共に示す説明図である。

【図３】３つのバッファをそれらのインポインタまたは
アウトポインタの対応する位置でアクセスした時の、そ
れぞれの内容を示す説明図である。

【図４】コンプリメント／リコンプリメント（Ｃ／Ｒ）
エラー訂正処理を要求するＣＰＵ、Ｉ／Ｏ及び他の要求
元からの要求を受け取るために用いるメモリ要求レジス
タの内容を表す説明図である。

【図５】図１に示した装置において用いられるＣ／Ｒ方
法ののステップを制御するために用いられるＣ／Ｒシー
ケンサを表す説明図である。

【図６】現在取り込み中の要求の状態をオペレーティン
グシステムソフトウエアに指示するために用いられる、
ＭＳ制御器内の状態要求レジスタの内容を示す説明図で
ある。

【図７】現在取り込み中の要求の状態をシステムサービ
スプロセッサ（ＳＰ）に指示するために用いられる、Ｍ
Ｓ制御器内の状態要求レジスタの内容を示す説明図であ
る。

【図８】取り込みエラー検出プロセスを示すフロー図で
ある。

【図９】ＭＳ制御器によって要求元に送られた２ビット
エラー状態信号に応答して、その要求元からの再読み取
り要求によって呼び出されたＣ／Ｒプロセスの前半部を
示すフロー図である。

【図１０】図９の前半部のフロー図に続く、後半部のフ
ロー図である。

【図１１】上記Ｃ／Ｒ過程からサービスプロセッサに通
知するプロセス、及びＣ／Ｒ方法によって発生した種々
の信号のシステムの用法を示したフロー図である。

Claims

【特許請求の範囲】

【請求項１】　　記憶エラーを訂正するエラー訂正方法
において、プロセッサにより、データ処理システム内の
メモリからデータを読み取る要求を行ない、そのデータ
に応答してメモリ制御器によって、エラー訂正コード（
ＥＣＣ）ビットによって検出されたデータ内の過剰エラ
ーを指示するステップ、及びメモリ制御器から過剰エラ
ーの指示を受信したことに応答して、プロセッサによっ
てデータの再読み取りの要求を行ない、エラーを含むデ
ータに対する再読み取り要求に応答して、データの第１
の読み取り、第１の記憶、第２の読み取り及び第２の記
憶を用いて、コンプリメント／リコンプリメント（Ｃ／
Ｒ）エラー訂正方法を起動、実行するステップからなり
、Ｃ／Ｒエラー訂正方法は、Ｃ／Ｒエラー訂正方法にお
ける第１の読み取り及び第２の読み取りによって得られ
たデータ及びＥＣＣをバッファ記憶するステップ、過剰
エラーの訂正を実行する際、データの少なくともエラー
を含む部分に対して二重反転を行なうステップ、Ｃ／Ｒ
エラー訂正方法における第２の読み取りによって得られ
たデータを要求元プロセッサに送るステップ、及び、デ
ータ及びＥＣＣがエラーを含んでいないか、１つまたは
複数の訂正済みのハードエラー、ソフトエラー又はその
両エラー、１つまたは複数の訂正済みの過剰ハードエラ
ー又はソフトエラー、もしくは１つまたは複数の訂正不
可エラーを含んでいるかを指示するステップを含んでい
ることを特徴とするエラー訂正方法。
【請求項２】　　請求項１記載の記憶エラー訂正方法に
おいて、該方法は更に、１つ以上のプロセッサから記憶
制御器への読み取り及び再読み取り要求をパイプライン
化して、読み取り要求のメモリアクセス及びメモリ内の
異なるデータに対するＣ／Ｒエラー訂正方法の動作に対
するアクセスに、優先順位を付けるステップを含むこと
を特徴とする記憶エラー訂正方法。
【請求項３】　　請求項１記載の記憶エラー訂正方法に
おいて、バッファ記憶するステップは、データバッファ
と、少なくとも１つの状態バッファとを提供し、前記デ
ータバッファ内のエントリがそれぞれ、要求元プロセッ
サによってメモリにアドレス指定されているデータライ
ンの複数のデータ単位を受け取り、状態バッファの対応
するエントリが、データバッファの対応するエントリ内
のデータ単位にて、過剰エラーを検出したか否かを示す
状態指示を受け取るようにしたことを特徴とする方法。
【請求項４】　　請求項１記載の記憶エラー訂正方法に
おいて、Ｃ／Ｒエラー訂正方法は、ハードウエアの障害
の場合にＣ／Ｒエラー訂正方法の再試行を可能にするた
めの、組み込まれた回復能力を有しており、記憶エラー
訂正方法はさらに、Ｃ／Ｒエラー訂正方法を行なうハー
ドウエア内の障害を検出する障害検出ステップ、Ｃ／Ｒ
エラー訂正方法によってエラーのあるデータ単位とその
関連するＥＣＣビットを反転し、Ｃ／Ｒエラー訂正方法
の部分を指示する指示ステップと、指示ステップにより
、エラーを含むデータ単位及び関連するＥＣＣビットが
反転されていることを発見したならば、障害検出ステッ
プに応答して、エラーを含むデータ単位及び関連するＥ
ＣＣビットを再反転してそれらの元の位置に記憶し、Ｃ
／Ｒエラー訂正方法の再試行を可能とすることによって
、データ単位及びＥＣＣの回復を可能とするステップを
含むことを特徴とする方法。
【請求項５】　　データ処理システムにおいて、記憶装
置内のページフレームを表す複数のエントリを有するメ
モリマップに、過剰エラー状態を報告する方法であって
、メモリマップのエントリが、各ページフレームに対し
て、検出された過剰エラー状態を報告するように構成さ
れた方法において、あるプロセッサが要求したデータ単
位を、記憶制御器によって記憶装置から読みだし、更に
データ単位内のエラーを、該データ単位に付加されてい
る、各データ単位に所定の最大ＥＣＣエラー訂正能力を
与えるＥＣＣビットによって決定される最大訂正可能エ
ラー数まで、検出及び訂正するステップ、ＥＣＣのエラ
ー訂正能力を越えた多数のエラーを含んでいる過剰エラ
ーの検出時に、記憶制御器内のコンプリメント／リコン
プリメント（Ｃ／Ｒ）エラー訂正動作を呼び出すステッ
プ、／Ｒエラー訂正を実行するために、データ単位を再
び読み出して、データ単位のいかなるハードエラーも訂
正すると共に、ＥＣＣビットを用いてデータ単位のいか
なるソフトエラーも訂正するステップと、（ｄ）要求元
プロセッサによって、メモリマップのアクセスを行ない
、該マップ内において現在アクセス中のページフレーム
に対するエントリを検出し、更に、エントリ内の、過剰
エラー状態が既に前記現在のページフレームに対して報
告されたことを示す報告フィールドを感知するステップ
、及び報告フィールドが、いかなる過剰エラー状態も以
前に報告されなかったことを示した場合、要求元プロセ
ッサの動作を中断して制御プログラムと通信し、アクセ
スしたエントリが過剰エラー状態が既にページフレーム
に対して報告されたことを示す場合、エントリを過剰エ
ラー報告済み状態に設定し、しかも要求元プロセッサに
よる動作を中断しないようにするステップからなること
を特徴とする方法。