JP2503249B2 - 記憶装置におけるeccエラ―処理方式 - Google Patents

記憶装置におけるeccエラ―処理方式

Info

Publication number
JP2503249B2
JP2503249B2 JP63116655A JP11665588A JP2503249B2 JP 2503249 B2 JP2503249 B2 JP 2503249B2 JP 63116655 A JP63116655 A JP 63116655A JP 11665588 A JP11665588 A JP 11665588A JP 2503249 B2 JP2503249 B2 JP 2503249B2
Authority
JP
Japan
Prior art keywords
error
bit
bit error
address
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63116655A
Other languages
English (en)
Other versions
JPH01286060A (ja
Inventor
孝 井比
徳二 古戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63116655A priority Critical patent/JP2503249B2/ja
Publication of JPH01286060A publication Critical patent/JPH01286060A/ja
Application granted granted Critical
Publication of JP2503249B2 publication Critical patent/JP2503249B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • For Increasing The Reliability Of Semiconductor Memories (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

【発明の詳細な説明】 〔概要〕 ECC回路をそなえた記憶装置におけるECCエラー検出時
の処理方式に関し, 多ビット・エラーが発生したとき,可能な限りエラー
発生箇所を局限できるようにして,故障修理等の復旧処
理の効率化と迅速化とを図ることを目的とし, データが1語単位で記憶される複数のアドレス領域を
有し,各アドレス領域において1語は複数のビット領域
に分割されて夫々のビット領域が異なるRAMブロックに
配置されるように構成されたメモリと,SEC-DED-SbEDコ
ードを用いたECC回路とを備えた記憶装置におけるECCエ
ラー処理方式において,1ビット・エラーもしくは多ビッ
ト・エラーが発生したアドレス領域を特定するのに必要
なアドレスビットのみからなるエラー・アドレス,1語内
の1ビット・エラーの位置,シンドロームを含むエラー
情報を,エラー発生ごとに複数回分格納するエラー情報
記憶部と,RAMブロック内のビット誤りの総ての組み合わ
せについてのシンドロームを生成する手段とを設け,多
ビット・エラー発生時に,当該多ビット・エラー発生時
のシンドロームと前記シンドロームを生成する手段が生
成する夫々のシンドロームとを比較し,一致するシンド
ロームからエラーを生じているRAMブロックの候補を推
定し,また前記エラー情報記憶部に格納されているエラ
ー情報を用いて,前記多ビット・エラー発生時に時間的
に近接して発生した1ビット・エラーの有無を調べ,1ビ
ット・エラーの発生が有るときそのエラー・アドレスと
1語内の1ビット・エラーの位置とを検出し,前記多ビ
ット・エラーのエラー・アドレスと前記検出した1ビッ
ト・エラーのエラー・アドレスとを比較し,両エラー・
アドレスが一致しかつ前記検出された1ビット・エラー
の位置が前記多ビット・エラーの前記推定したRAMブロ
ックの候補の1つに含まれるときにのみ,対応するRAM
ブロックを多ビット・エラーが生じたRAMブロックと判
定する構成をもつ。
〔産業上の利用分野〕
本発明は,ECC回路をそなえた記憶装置におけるECCエ
ラー検出時の処理方式に関するものであり,特に多ビッ
ト・エラーが検出された場合のエラー位置の特定および
エラー位置メモリの置き換えを行う処理方式に関する。
〔発明の背景〕
複数ビットで構成されるRAMを複数個用いて1ワード
を構成した記憶装置では,1つのRAMが故障すると多ビッ
ト・エラーとなってしまう。しかし従来のECC回路で
は,多ビット・エラー発生時に,これらの複数個のRAM
の中のどのRAMが故障したかを判定することができな
い。
また,これらのエラーが検出された場合,エラーの原
因がRAMなのか,あるいはRAM以外の周辺回路の故障によ
るものかを区別することも,従来は不可能であった。
ところで,エラーが1ビット・エラーの場合にはECC
回路で救済できるために修復はさほど急を要しないが,
多ビット・エラーの場合にはシステム・ダウンとなるた
めに至急,修復する必要がある。
一般にRAMはアレーカード上に搭載されており,RAMの
故障と判断できるから,アレーカードのみを交換すれば
よく,比較的短い時間でシステムを復旧できる。しかし
故障がアレーカードでなかった場合には,記憶装置その
ものを交換する必要があるために,長い時間システムを
停止しなければならない。
たとえば,故障原因がアレーカードと判断した場合,
システムを1回止めてアレーを交換するが,これでも直
らない場合には、再度システムを止めて,今度は記憶装
置全体を入れ換えなければならなくなる。またこの逆
に,アレーカードのみを交換すればよいものを,装置を
交換したりすることもある。このようなことになる原因
は,交換単位毎での故障位置の切り分けができないため
である。この結果,顧客に多大な迷惑をかけてしまうこ
とになる。
このため,特に多ビット・エラーが発生した場合に
は,正確なエラーが発生した場合には,正確なエラー発
生位置を迅速に把握して故障修理に対応しなければ,シ
ステム・ダウンの時間を不要に長くしてしまう。
また近年の記憶装置は,その処理能率を向上させるた
めに,小さな記憶単位を多数用い,各記憶単位が並列動
作可能なようにインターリーブ構成されている。ここで
各記憶単位は,BANKあるいはWAYと呼ばれている。
1つのBANKの中では,ワード方向に多数のRAMを用い
てひとつの列を作り,増設方向にもいくつかのRAMを用
いて,いくつかの列を作る。このようにして1WAY当たり
の記憶容量を大きくして,全体的に高速動作が可能でか
つ,大容量の記憶装置が構成される。
このような記憶装置では,多数のRAMを仕様するためE
CC回路が必要である。またRAMが複数ビットで構成され
ていることから特殊なコードを使用したECC回路にしな
ければならない。ここで使用されるECCコードは,複数
ビットで構成されるRAMに対応しているものであり,ど
のRAM1個が故障して1ないし複数ビット誤りが生じたと
しても,絶対に誤訂正しないようなコードが使用されて
いる。これがSEC-DED-SbEDコードと呼ばれるコードであ
り,1ビット・エラーを修正し,bビット・エラーを検出す
る機能をそなえているものである。
第7図は,b=4の場合の1ビット・エラー修正4ビッ
ト・エラー検出可能なSEC-DED-S4EDコードの一例であ
る。コードそのものは一般的なものであり,いつくもの
種類のコードが考案されていて,すでに公知な技術とな
っているので,詳細な説明は省く。
このコードは,1個のRAMが4ビットで構成されるRAMを
使用した記憶装置のECC回路に使用されるコードであり,
1個のRAMが故障して,2ビット・エラーないし4ビット・
エラーを発生しても,誤って他のビットを訂正したりす
ることのないように作られている。
コードは4列ずつが1組になって,この組が1個のRA
Mに対応している。ここの例ではRAM00ないしRAM17で示
す18個のRAMを使って,1ワード,72ビットのデータを構成
している。
1個のRAMが故障して1ビットが誤ると,1ビット・エ
ラーが発生するが,この時のシンドローム(エラーパタ
ーン)は全部で72列あるパターンのうち,ただ1つの列
のパターンが得られるようにECC回路が構成されてい
る。これによって訂正が可能となる。ところが,2〜4ビ
ットのエラーになるとシンドロームが混じり合って,い
ずれの列とも一致しない。しかし,エラーがあったこと
のみは識別できる。
本発明は,このようなECCコードを用いてエラー修正
および検出を行うECC回路をそなえた記憶装置におけるE
CCエラー処理性能の向上を図るものである。
〔従来の技術〕
記憶装置に使用されているECC回路によってエラーが
検出されると,シンドローム(エラーパターン)と,こ
の時のエラーを生じたアドレスとで構成されるエラー情
報が得られる。
1ビット・エラーの発生時は,このシンドロームを解
析することにより,エラー・ビットの位置が判り,この
ため1ワードが複数のアレーカードにまたがって構成さ
れていた場合でも,どのアレーカードが故障しているか
が決定できる。またこれらのエラー情報は,1事象もしく
は,複数事象分について装置内に保存されているのが普
通である。
従って,1ビット・エラーがシステムが運用中に発生し
ていても,従来は直ぐに修理することをせず,このシス
テムが定期保守時期になるまで待って,装置内に保存さ
れているエラー情報を使用し,アレーカードあるいは装
置を交換するなどの修理を行っていた。
1ビット・エラー時の場合はこれでもよいが,システ
ム処理中に多ビット・エラーが発生した場合には簡単で
はなく,まず故障した物を交換するために,それがアレ
ーカードか,アレーカードを制御するための回路(以下
MACと称する)かの切り分けをしなければならない。
この場合,複数ビットで構成されるRAMが故障すると
1ビットないし複数ビットのエラーとなるので,これら
のエラーが過去に発生していなかったかどうかを,装置
内に保存されている先のエラー情報を参照して調べてみ
る。そして,同じアドレスのRAMの位置にエラーが発生
していた場合には,アレーカードを疑い,他方,エラー
・アドレスが不一致の場合には,装置側を疑って交換の
対象としていた。
しかし,WAYアドレス等が異なる場合は,MAC側を疑うこ
とにさほど大きな過ちは無いが,一致している場合にお
いてアレーカードが悪いと決めるのは危険である。
これは,そのWAYにのみ関するMAC側の回路の故障等が
考えられるからである。したがって,この種の故障があ
った場合には,アレーカードを交換して復旧させると2
回以上システム・ダウンが発生することになる。
〔発明が解決しようとする課題〕
前述したように,従来の記憶装置におけるECC処理方
式では,システム運用中に多ビット・エラーが発生した
場合,故障備品を交換するために,故障原因がアレーカ
ード側かMAC側かを過去のエラー発生情報により判断し
て切り分け,被疑部品を交換していた。そのため仮にア
レーカードが悪いとこれを交換した後に,また同じ障害
が発生した場合には,今度はMAC側を交換しなければな
らなくなり,結局2度もシステム・ダウンを起してしま
うことがあった。
また,エラーが発生した時点では被疑部品の特定に確
証が得られず,また重要なシステムであって再度のダウ
ンに耐えられないものの場合には,両方の部品を一度に
交換してしまうしかなかった。これは交換時間がロスと
なるばかりでなく,保守部品の単位を大きくしておかな
ければならないという問題があった。
また,交換した部品は工場等に持ち帰り,故障調査お
よび修理が行われるが,原因がアレーカードと判明して
いても,多ビット・エラーの場合には,このアレーカー
ド上に搭載されている複数個のRAMの内のどれが故障を
起しているかは判らず,しかもこの情報はどこにも残さ
れていないため,過去の故障情報を利用して総合的に故
障箇所を判断することができなかった。
また最悪のケースとして,MACとアレーカードの両方の
部品が交換された場合,更に時間がかかるということが
あった。つまり,片方のみに原因があるにもかかわら
ず,両方の被疑部品を調査しなければならなかったから
である。
従って,1ビット,多ビット・エラーがそれぞれ発生し
ている中で,これらのエラー・アドレスを見て,多ビッ
ト・エラーの障害原因が記憶装置内の制御回路(MAC)
側なのか,アレーカード内のRAM側なのかを即座に判断
して,必要最小限の部品交換,および必要最小限の時間
でシステムを復旧できることが望ましい。また,故障原
因がアレーカードにある場合,故障しているRAMブロッ
クを指示する情報が残り,後の故障修理の助けとなるこ
とが望ましい。さらに交替メモリを具備している記憶装
置においては,このRAMブロックをそっくり交替メモリ
と交替させて,部品の交換無しに,つまりシステムの電
源を切断することなく即座にシステムを復旧させること
ができることが望ましい。
本発明は,多ビット・エラーが発生したとき,可能な
限りエラー発生箇所を局限できるようにして,故障修理
等の復旧修理の効率化と迅速化とを図ることを目的とす
る。
〔課題を解決するための手段〕
本発明は,以下の事実を考慮に入れることによって,
課題の解決を図るものである。
・ 一般的に,部品の故障というものは,単一故障が多
く,同時に2個以上の部品が故障する確率は低いこと。
従って複数ビットを有している1個の部品が故障した場
合,この部品に関係するビットのみにエラーが発生し,
他のブロックに対応するRAMは故障しないと考えること
ができる。
・ 更にこれらのエラーとなっているビットを含む1ワ
ードの“1",“0"のデータは,ランダム値に近いこと。
このために,この故障部品に関係するビット部分には,
データにより1ビット,もしくは多ビット・エラーが発
生すること。
・ 計算機システムは,高速に大容量のデータを書込
み,読出しを常に行っているから,一旦,エラーが出る
と,エラーが連続的に発生しやすいこと。
・ SEC-DED-SbEDコードを用いたECC回路は,多ビット
・エラー発生時に,エラー・ブロックの位置にほぼ固有
のシンドロームを出力するので,これからエラー・ブロ
ック位置を推定できること。
・ 故障部品(ブロック)では,1ビット・エラーと多ビ
ット・エラーが高い相関で発生すると考えられるので,
エラー情報間で相関をとり,多ビット・エラーと1ビッ
ト・エラーが同じアドレスで発生しているとき,1ビット
・エラーのエラー・ビット位置が多ビット・エラーで推
定されたエラー・ブロックに含まれていれば,そのエラ
ー・ブロックは高い確率で故障と判定できること。
第1図に,本発明の原理的構成を例示的方法で示す。
図において, 1は,メモリであり,適当なブロック構成をとってい
る。たとえばアレーカード上のRAMチップ1個を1ブロ
ックとしたり,または制御回路側にある書込み,読出し
データレジスタを数ビットずつ1個のLSI等で構成して
いる場合,このLSI等のチップ1個を1ブロックとす
る。
2は,ECC回路であり,SEC-DED-SbEDコードによるECCチ
ェックを行い,シンドローム(エラーパターン)を生成
する。
3は,エラー解析部であり,シンドロームに基づい
て,1ビット・エラーか多ビット・エラーかの判定,1ビッ
ト・エラーの場合のエラー・ビット位置の決定および修
正,などを行う。
4は,エラー情報記憶部であり,エラー解析部3によ
るエラー解析結果と,シンドローム,エラー・アドレス
などからなるエラー情報が,エラー発生ごとに複数(N
とする)回数分格納される。
5は,エラー・ブロック判定部であり,エラー解析部
3が多ビット・エラーを検出したとき,エラー情報記憶
部4のエラー情報に基づいて,可能な場合にエラー・ブ
ロックを特定する。
具体的には,多ビット・エラーに時間的に近接して1
ビット・エラーが発生しているかどうかを調べ,1ビット
・エラーが発生していたとき,両方のエラー・アドレス
が一致し,かつ1ビット・エラーの位置が,多ビット・
エラーのシンドロームから推定されたブロックの位置に
一致するかどうかを調べ,全て一致するとき,そのブロ
ックを故障と判定する。
故障と判定されたブロックの位置は記録され,故障修
理の際利用可能にする。また交替メモリが用意されてい
る場合,故障ブロックと自動的に交替させる。
〔作用〕
はじめに,本発明において,SEC-DED-SbEDコードによ
り多ビット・エラー発生時のエラー・ブロックを推定す
る方法について述べる。
第7図に示すSEC-DED-S4EDコードの例で説明すると,1
ビット・エラーが発生した場合には,図示されている72
列のコードのいずれか1つがシンドローム・パターンと
して生成されることになり,そのエラー・ビットの位置
が特定できる。しかし,2ないし4ビットの多ビット・エ
ラーが発生した場合には,生成されるシンドローム・パ
ターンが72列のコードのいずれとも一致せず,エラーが
発生したことは判ってもエラー・ブロックの位置は特定
できない。
しかし,各ブロックに対応するRAMのうちの1個が故
障して多ビット・エラーが発生したときのシンドローム
を計算してみると,第2図に例示されるように,故障し
たブロックの位置ごとにシンドローム・パターンに微妙
な差異が生ずる。
たとえば,1つのブロックのうち,4ビット全部が誤った
時のシンドロームは,第2図に示されている各ブロック
において左端の1列に示すように1組しか存在せず,こ
のシンドロームのパターンは,他のブロックで4ビット
全部が誤った時のそれとは異っている。
同様にして1つのRAM中において,任意の3ビットが
誤った場合には,43の組み合せに応じて4通りのシン
ドローム・パターンができる。これらのパターンの場合
は,他のブロック内の任意の3ビットが誤った時,たま
たま同じパターンを生じるケースも若干存在する。第2
図において,各ブロックの右端の4列が,任意の3ビッ
トを誤った時のシンドローム・パターンを示している。
同様にして1つのRAM中において,任意の2ビットが
誤った場合には,43の組合せに応じて6通りのシンド
ローム・パターンができる。これらのパターンについて
は,他のブロック内の任意の2ビットが誤った時に,た
またま同じパターンになるケースも若干存在する。
このため本発明では多ビット・エラーの場合に,故障
したブロックを1つに絞れないことがあるので,そのシ
ンドロームからいくつかのブロック位置をまず候補とし
て推定する。
そして多ビット・エラーに前後して1ビット・エラー
が同じアドレスで重ねて発生しているときには,1ビット
・エラー位置が多ビット・エラーにおける先の推定ブロ
ック位置のうちの1つに含まれる場合に限り,その推定
ブロック位置を多ビット・エラーの発生位置として特定
する。
なおここでの1ビット・エラーは,あるブロック内に
おいて複数ビットが誤り,他のビットが誤訂正を受けた
結果のものではない。これは,ここで使用しているECC
コードによって保証されている。従って故障が1つのRA
Mにしか発生していない場合に1ビット・エラーが発生
したなら,このエラーの発生原因は,このRAMの故障に
よるものしかないといえる。
一般的なSEC-DEDのみのECCコードを使用した場合に
は,ブロック・エラーが発生したときに他のビットを誤
訂正する確率が高いので,本発明ではSEC-DED-SbEDコー
ドを使用することを前提としている。
第1図に示された本発明の構成では,エラー・ブロッ
ク判定部5が,多ビット・エラーの故障部品特定処理を
行う。図中のフローはそのアルゴリズムを示したもの
で,ハードウェア回路あるいはソフトウェア手段によっ
て実現される。
以下,簡単にフローの各ステップないしを説明す
る。なお,エラー情報記憶部4には,エラー解析部3に
よって生成された最近のエラー情報が,複数回分格納さ
れているものとする。
:多ビット・エラーを検出する。
:で多ビット・エラーが検出されたとき,その時間
に近接して1ビット・エラーが生じているかどうかを調
べる。
:で1ビット・エラーが検出されたならそのアドレ
スと,多ビット・エラーのアドレスとを比較し,一致し
ているかどうかを判定する。
:でアドレスが一致した場合,1ビット・エラーのエ
ラー・ビット位置が多ビット・エラーの推定エラー・ブ
ロックに含まれるかどうかを調べる。
:で1ビット・エラーのエラー・ビット位置を含む
推定エラー・ブロックが検出されたとき,その推定エラ
ー・ブロックを故障部品と判定し,記録する。
:でアドレス不一致およびで該当する推定エラー
・ブロックが存在しなかった場合には,推定エラー・ブ
ロック以外の部品の故障と判定する。
〔実施例〕
第3図に,本発明の実施例による記憶装置(MSU)の
構成を示す。図において, 10は,記憶装置(MSU), 11,22はチェック・ビット発生器(CG), 12ないし16,20,21,25はレジスタ, 17,18,24はデコーダ(DEC), 19は,複数のRAMからなるインターリーブ構成のメモ
リ, 23は,排他的OR回路, 26は,エラー情報記憶回路, 27は,エラー・ブロック判定回路, 28は,排他的OR回路で構成された訂正回路である。
簡単に動作を説明する。書き込みアクセスの場合,図
示されいない記憶制御装置(MCU)からデータ(WD)と
アドレス(ADD)が与えられると,データ(WD)は,レ
ジスタ12にセットされるとともに,チェック・ビット発
生器(CG)11に入力され,チェック・ビット(ECCビッ
ト)が生成されて,レジスタ13にセットされる。またア
ドレス(ADD)は,バンク・アドレス,RAM内アドレス,
チップ・アドレスに分離されて,それぞれレジスタ14,1
5,16にセットされる。
バンク,アドレスおよびチップ・アドレスは,それぞ
れデコーダ17,18により,バンク・セレクト信号および
チップ・セレクト信号に変換され,RAM内アドレスととも
に,メモリ19に与えられる。
そしてこれらのアドレスによって選択されたメモリ19
の番地に,データ(WD)およびそのチェック・ビットが
書き込まれる。
一方,読み出しアクセスの場合には,与えられたアド
レスにより選択されたメモリの番地からデータとチェッ
ク・ビットが読み出され,それぞれレジスタ20,21にセ
ットされる。
レジスタ20のデータは,チェック・ビット発生器(C
G)22へ入力されて,チェック・ビットが生成される。
この生成されたチェック・ビットと,レジスタ21のチェ
ック・ビットとは,それぞれ排他的OR回路23へ入力さ
れ,レジスタ20のデータにエラーがある場合,それに応
じたシンドロームが生成される。正常データの場合のシ
ンドロームのパターンは,all“0"である。
シンドロームは,デコーダ(DEC)24で,修正用デー
タとして,1ビット・エラーのエラー・ビット位置,修正
可エラー/修正不能エラーなどの各情報に変換される。
修正用データは,1ビット・エラーのときにのみ発生さ
れ,訂正回路28に入力されて,レジスタ20からのデータ
のエラー・ビットを修正する。
1ビット・エラーあるいは多ビット・エラーがある場
合,デコーダ24から出力される各情報と,そのときのア
ドレスおよびシンドロームが,エラー情報記憶回路26に
書き込まれる。
エラー・ブロック判定回路27は,エラー情報記憶回路
26中に,多ビット・エラーのエラー情報を検出すると,
近傍にある1ビット・エラーのエラー情報との間の相関
を調べ,一定の条件のもとでエラー・ブロック位置を判
定する。
第4図および第5図に,エラー情報記憶回路26および
エラー・ブロック判定回路27の詳細な実施例構成を示
す。
エラー情報記憶回路26は,第4図上部に示される3段
4行のシフトレジスタ群で構成されている。シフトレジ
スタの段数は3段に限られるものではなく,多い程多く
のエラー情報を格納でき,エラー情報間の相関を多くと
ることができる。段はSTAGE−0,STAGE−1,STAGE−2で
表わされ,行は,S,CS,E,CEで表わされる。これらのシフ
トレジスタ群には,以下に述べる種々のエラー情報が入
力されるが,同じエラー情報が重複入力されないように
する。
S行,CS行は多ビット・エラー用で,S行のシフトレジ
スタは,8ビットのシンドロームSYNDが入力され,CS行の
シンドロームレジスタには,多ビット・エラーすなわち
データ・ブロック・エラー(CBE)が発生したときのバ
ンク・アドレスおよびバンク内チップ・セレクト(CS)
アドレス等からなるエラー・アドレスDBE-ADが入力され
る。
E行,CE行は1ビット・エラー用で,E行のシフトレジ
スタには,7ビットからなる1ビット・エラーのビット位
置データE−BITが入力され,CE行のシフトレジスタに
は,1ビット・エラー(SBE)が発生したときのエラー・
アドレスSBE-ADが入力される。
S,CS,E,CEの各行のシフトレジスタでは,データが入
力されるごとに以前のデータが右シフトされる。その結
果の各段STAGE−0,1,2から出力される信号は,それぞれ
次のように表わされる。
S−0, S−1, S−2 CS−0, CS−1, CS−2 E−0, E−1, E−2 CE−0, CE−1, CE−2 これらの信号は,第4図の下部に示されているエラー
・ブロック判定回路27の3つの点線ブロックからなるア
ドレス比較部27a,27b,27cに選択的に入力される。
アドレス比較部27aは,CE−0に一致するCS−0,CS−1,
CS−2を比較器CMP-00,CMP-01,CMP-02でそれぞれ検出
し,エラー・アドレスの一致が得られた段のS信号(SY
ND),E信号(E−BIT),CE信号(SBE-AD)を,SOUT−0,E
OUT−0,CADD−0として出力する。なお先行する段の比
較で一致が得られたとき,後段の比較は禁止され,情報
の重なり合いが防止される。
アドレス比較部27b,27cは,27aと同様な構成をもち,
それぞれCE−1,CE−2に一致するCS−0,CS−1,CS−2を
検出して,一致する段のS,E,CEの各信号を,SOUT−1,EOU
T−1,CADD−1,およびSOUT−2,EOUT−2,CADD−2として
出力する。
これらの信号は,全部で3組出力されるが,同時には
各組が選択されないように制御されている。各アドレス
比較部27a,27b,27cには,いずれかの段でエラー・アド
レスの一致が得られたときを検出するOR回路OR-IST,OR-
2ND,OR-3RDが設けられており(OR-2ND,OR-3RDは図示省
略),それぞれから一致検出信号MATCH 1ST,MATCH 2N
D,MATCH 3RDが出力される。
OR-1STは,定数“0"入力により常時出力可能にされ,O
R-2NDは,MATCH 1STが“1"のとき(一致検出)出力を禁
止され,OR-3RDは,MATCH 1STかMATCH 2NDが“1"のとき
出力を禁止される。したがって,MATCH 1ST,MATCH 2N
D,MATCH 3RDは,この配列順に優先順位をもつ択一的信
号である。
各アドレス比較部27a,27b,27cから出力されるSOUT,EO
UT,CADDの各信号は,エラー・ブロック判定回路27の残
りの部分を構成する第5図の回路における入力側のAND
回路において,MATCH 1ST,MATCH 2ND,MATCH 3RDによ
って選択され,それぞれシンドローム・デコーダSYND-D
EC,エラー・ビット位置デコーダE−BIT-DEC,エラー・
アドレス・レジスタEADに入力される。
SYND-DECは,シンドロームSYNDをデコードし,ブロッ
ク・エラー信号EBL-SELを出力する。ここでEBL-SEL信号
は,18個のブロックのうち1つを示す信号であり,1〜数
本がオンとなる。これが候補を示す。
一方,E−BIT-DECは,選択されたE−BITをデコードし
て,1ビット・エラーの位置をブロック単位で示すビット
・エラー信号BET-SELを出力し,1ビット・エラーがあれ
ば,必ずいずれかの1つのブロックに対応する線がオン
となるようにする。
各18本のEBL-SEL信号とBET-SEL信号とは,AND回路で論
理積をとられ,オン同士が一致したビットに対応するエ
ラー・ブロック・レジスタEBLのビット位置をオンにセ
ットする。エラー・ブロック・レジスタEBLは,ブロッ
ク数に対応するビット数をもっている。
このようにして,多ビット・エラーのエラー・ブロッ
クと1ビット・エラーのエラー・ブロックとが一致した
とき,対応するエラー・アドレスが,エラー・アドレス
・レジスタEADに格納される。ここでアドレス長は,8ビ
ットあるものとされる。
これにより,エラー・ブロック・レジスタEBLとエラ
ー・アドレス・レジスタEADとを見ることにより,多ビ
ット・エラーを生じたかどうか,また多ビット・エラー
を生じたとき,そのブロックのアドレス位置とを知るこ
とができ,具体的にはアレーカード上の故障したRAMを
特定することができる。またこれらのレジスタEBL,EAD
に何も情報がセットされていないエラーの場合には,RAM
の単一故障による多ビット・エラー以外のエラーとし
て,たとえばMAC部を疑うことができる。
これらのエラー・ブロック・レジスタEBL,エラー・ア
ドレス・レジスタEADの情報を用いることにより,故障
したメモリのブロック(たとえばRAM)を交替メモリと
して予め用意したメモリのブロック(RAM)と交替させ
ることができる。第6図にその1実施例を示す。
なお第6図では,図を簡単にするため,バンクを1つ
だけ示してある。またアドレスの奥行(増設方向)とし
てRAMチップが4つ使われており,これを選択するため
に2ビットのチップセレクトアドレスがある。図中のAL
T-REG ADDレジスタには,エラー・アドレス中の2ビッ
トのチップ・セレクト・アドレスと交替指示がセットさ
れ,ALT-REG DATAレジスタには,エラーブロックの位置
を示す5ビットの情報が格納される。これによって18ブ
ロック中の1ブロックを選択する交替メモリALT-MEM
は,ブロックサイズの4ビットのデータを格納する大き
さをもつ。
書き込みデータWDは72ビットあり,セレクタSEL−0
を介して書き込みレジスタWD-REGに格納される。
メモリMEMを格納する各RAMが正常の場合には,書き込
みレジスタWD-REGの出力は,並列にメモリMEMに入力さ
れ,アドレスADDによって選択された番地に書き込まれ
る。またメモリMEMから読み出された72ビットの読み出
しデータRDは,セレクタSEL−2を介して読み出しレジ
スタRD-REGに格納され,ECC処理されて出力される。
ECC処理で多ビット・エラーが検出されると,ALT-REG
DATAレジスタに前述したエラー・ブロックの位置情報が
セットされ,ALT-REG ADDレジスタにエラー・アドレス2
ビットがセットされる。また交替指示ビットもオンにさ
れる。
書き込み時には,ALT-REG DATAレジスタのエラー・ブ
ロック位置情報によりセレクタSEL−1を制御し,該当
するエラー・ブロックの4ビットデータがALT-WDを選択
して,交替メモリALT-MEMに送る。一方,比較器COMP
は,入力されたアドレスADDと,ALT-REG ADDレジスタの
エラー・アドレスとを比較し,一致したとき,交替メモ
リALT-MEMに対して,ライト・イネーブル信号WEを出力
する。
セレクタSEL−2には,ALT-REG DATAレジスタに含まれ
るエラー・ブロックの位置情報により72ビット中の対応
の4ビットが選択され,ALT-REG ADDレジスタに含まれる
交替指示ビットとにより制御され,メモリMEMから読み
出されるエラー・ブロック・データを,交替メモリALT-
MEMから読み出したブロック・データで書き換え,読み
出しレジスタRE-REGに格納する。
なお,交替メモリALT-MEMを使用した直後は,交替メ
モリALT-MEM中のデータは確定していないので,クリア
が必要となる。この作業は,SVPソフトによる命令等で,C
PUを使用して記憶装置に書き込み命令を発行することに
よりなされる。
多ビット・エラーが発生したとき仮に装置がシステム
ダウンするものとすれば,記憶装置内部のメモリの内容
を保証する必要がない。したがって,システムダウンを
確認した後は交替メモリを起動して交替させてしまい,
交替したRAM部分に該当するアドレス領域をCPUからクリ
アすることが可能である。この後,簡単なメモリ・テス
トを施した後,エラーが発生しない場合には,システム
に対し再IPLを起動して,復旧させることができる。
本実施例では,アレーカード上のRAM1個をエラー・ブ
ロック2個と定義し,それに基づくシンドローム・パタ
ーンに対応するデコーダを準備しておくことにより,MAC
等の制御回路の故障の場合の被疑箇所の推定も可能とな
る。
〔発明の効果〕
本発明は,1ビット,多ビット・エラーがそれぞれ発生
している中で,これらのエラー・アドレスを見て,多ビ
ット・エラーの障害原因が記憶装置内の制御回路(MA
C)側なのか,アレーカード内のRAM側なのかを即座に判
断して,必要最小限の部品の交換,および必要最小限の
時間でシステムを復旧させることができる。
また,故障原因がアレーカドにある場合,故障してい
るRAMブロックを指示する情報を残し,後の故障修理を
容易にする。
また,交替メモリを具備している記憶装置において
は,このRAMブロックをそっくり交替メモリと交替させ
て,部品の交換無し,つまりシステムの電源を切断する
ことなく即座にシステムを復旧させることができる。
【図面の簡単な説明】
第1図は本発明の原理的構成図,第2図は本発明の作用
を説明するための多ビット・エラーのシンドロームの説
明図,第3図は本発明の1実施例による記憶装置の構成
図,第4図および第5図はそれぞれ本発明の1実施例に
よる詳細回路図,第6図は交替メモリをもつ本発明の1
実施例の回路図,第7図はSEC-DED-S4EDコードの説明図
である。 第1図中, 1:メモリ 2:ECC回路 3:エラー解析部 4:エラー情報記憶部 5:エラー・ブロック判定部

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】データが1語単位で記憶される複数のアド
    レス領域を有し,各アドレス領域において1語は複数の
    ビット領域に分割されて夫々のビット領域が異なるRAM
    ブロックに配置されるように構成されたメモリと,SEC-D
    ED-SbEDコードを用いたECC回路(2)とをそなえた記憶
    装置におけるECCエラー処理方式において, 1ビット・エラーもしくは多ビット・エラーが発生した
    アドレス領域を特定するのに必要なアドレスビットのみ
    からなるエラー・アドレス,1語内の1ビット・エラーの
    位置,シンドロームを含むエラー情報を,エラー発生ご
    とに複数回分格納するエラー情報記憶部(4)と, RAMブロック内のビット誤りの総ての組み合わせについ
    てのシンドロームを生成する手段とを設け, 多ビット・エラー発生時に,当該多ビット・エラー発生
    時のシンドロームと前記シンドロームを生成する手段が
    生成する夫々のシンドロームとを比較し,一致するシン
    ドロームからエラーを生じているRAMブロックの候補を
    推定し, また前記エラー情報記憶部(4)に格納されているエラ
    ー情報を用いて,前記多ビット・エラー発生時に時間的
    に近接して発生した1ビット・エラーの有無を調べ,1ビ
    ット・エラーの発生が有るときそのエラー・アドレスと
    1語内の1ビット・エラーの位置とを検出し, 前記多ビット・エラーのエラー・アドレスと前記検出し
    た1ビット・エラーのエラー・アドレスとを比較し,両
    エラー・アドレスが一致しかつ前記検出された1ビット
    ・エラーの位置が前記多ビット・エラーの前記推定した
    RAMブロックの候補の1つに含まれるときにのみ,対応
    するRAMブロックを多ビット・エラーが生じたRAMブロッ
    クと判定することを特徴とする記憶装置におけるECCエ
    ラー処理方式。
  2. 【請求項2】請求項1において,交替用メモリを設け,
    エラーと判定されたRAMブロックを交替用メモリで置き
    換えることを特徴とする記憶装置におけるECCエラー処
    理方式。
JP63116655A 1988-05-13 1988-05-13 記憶装置におけるeccエラ―処理方式 Expired - Fee Related JP2503249B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63116655A JP2503249B2 (ja) 1988-05-13 1988-05-13 記憶装置におけるeccエラ―処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63116655A JP2503249B2 (ja) 1988-05-13 1988-05-13 記憶装置におけるeccエラ―処理方式

Publications (2)

Publication Number Publication Date
JPH01286060A JPH01286060A (ja) 1989-11-17
JP2503249B2 true JP2503249B2 (ja) 1996-06-05

Family

ID=14692610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63116655A Expired - Fee Related JP2503249B2 (ja) 1988-05-13 1988-05-13 記憶装置におけるeccエラ―処理方式

Country Status (1)

Country Link
JP (1) JP2503249B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890836B2 (en) * 2006-12-14 2011-02-15 Intel Corporation Method and apparatus of cache assisted error detection and correction in memory
US7721140B2 (en) * 2007-01-02 2010-05-18 International Business Machines Corporation Systems and methods for improving serviceability of a memory system
JP5910356B2 (ja) * 2012-06-29 2016-04-27 富士通株式会社 電子装置、電子装置制御方法及び電子装置制御プログラム
US20230385147A1 (en) * 2020-10-08 2023-11-30 Sony Semiconductor Solutions Corporation Memory control circuit, memory, and memory module

Also Published As

Publication number Publication date
JPH01286060A (ja) 1989-11-17

Similar Documents

Publication Publication Date Title
EP0030612B1 (en) Method of correcting double errors in a data storage apparatus and data storage apparatus
US5663969A (en) Parity-based error detection in a memory controller
US7555699B2 (en) Storage control circuit, and method for address error check in the storage control circuit
US5978952A (en) Time-distributed ECC scrubbing to correct memory errors
JP2772391B2 (ja) 不良データアルゴリズム
JPS6120166A (ja) メモリ・システムのエラー検出方法
JPS63115239A (ja) エラ−検査訂正回路
JP2519286B2 (ja) アドレス・ライン・テスト方法
US20080126905A1 (en) Memory control device, computer system and data reproducing and recording device
US5666371A (en) Method and apparatus for detecting errors in a system that employs multi-bit wide memory elements
JPH03248251A (ja) 情報処理装置
EP0242595A2 (en) Error detection using variable field parity checking
US6842867B2 (en) System and method for identifying memory modules having a failing or defective address
JP2503249B2 (ja) 記憶装置におけるeccエラ―処理方式
NO166154B (no) Fremgangsmaate for aa overvaake et hukommelsessystems arbeidsfunksjon, og anordning ved saadant hukommelsessystem.
JP2007257628A (ja) 記憶された情報データの読み取りのための誤り訂正と誤り検出の方法およびそのための記憶制御ユニット
US7831889B2 (en) Method and device for error detection for a cache memory and corresponding cache memory
JPH05225077A (ja) Eccを保持したメモリ制御回路のハードエラー検出方式
JPS6010661B2 (ja) 誤り検査方式
JPS61253564A (ja) 記憶装置
JPS62165254A (ja) Ecc回路付記憶装置
JPS6356751A (ja) メモリパトロ−ル制御方式
JPH01307852A (ja) メモリユニットの接続異常検出方法
JPH03111953A (ja) メモリアドレスの障害検出方法
JPS61246854A (ja) エラ−処理方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees