JPH081614B2 - エラー回復処理方法及び装置 - Google Patents

エラー回復処理方法及び装置

Info

Publication number
JPH081614B2
JPH081614B2 JP3214308A JP21430891A JPH081614B2 JP H081614 B2 JPH081614 B2 JP H081614B2 JP 3214308 A JP3214308 A JP 3214308A JP 21430891 A JP21430891 A JP 21430891A JP H081614 B2 JPH081614 B2 JP H081614B2
Authority
JP
Japan
Prior art keywords
data
array
parity
primary
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3214308A
Other languages
English (en)
Other versions
JPH04245558A (ja
Inventor
ブライアン・キース・セサー
タイモシー・ジヨン・スレゲル
ダレル・スミス・ホイツタカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH04245558A publication Critical patent/JPH04245558A/ja
Publication of JPH081614B2 publication Critical patent/JPH081614B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2082Data synchronisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring
    • G11C29/74Masking faults in memories by using spares or by reconfiguring using duplex memories, i.e. using dual copies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)
  • Detection And Correction Of Errors (AREA)
  • Retry When Errors Occur (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はエラー回復処理方法及び
装置に関し、特に記憶アレイにおいてエラー訂正コード
を用いた場合のような高いコスト及び複雑さをもつこと
なくエラーを回復させる方法及び装置を提供するもので
ある。
【0002】
【従来の技術】ベクトル処理性能をもつキーエレメント
としてベクトルレジスタを構成する記憶アレイチツプが
用いられている。ベクトルレジスタは誤り率が比較的高
いので、記憶アレイチツプにエラーが生じたときこれを
回復させることが望ましい。従来技術においては回復を
なし得ないような単純なパリテイや伝統的なエラー訂正
符号(ECC)が用いられていた。エラー訂正符号EC
Cはエラーの発生後これを回復させることができるが、
実行が比較的困難であり、また大規模な論理処理が必要
であり、さらにベクトル処理性能の全体的な計画と衝突
する傾向がある。
【0003】
【発明が解決しようとする課題】本発明による方法は上
述の困難性を解決するために、一般に用いられている高
密度のアレイチツプを利用して当該高密度性を活用する
ことにより、ベクトルレジスタに記憶されているすべて
のデータの冗長コピーを得、これによりエラーの回復を
当該冗長データに基づいてなし得るようにする。以下に
述べる方法はアレイチツプに一時的に生ずるエラー及び
永久エラーのうちのほとんどを回復させるために用いる
ことができる。
【0004】米国特許第4326291号には、冗長論
理ユニツトがこれと同時に動作する本来必要な論理ユニ
ツトと共に提案されている。本来必要な論理ユニツト及
び冗長ユニツトは共に必要に応じて同じ出力データを発
生する。本来必要な論理ユニツトからの出力データはデ
ータバスに供給されると共に、冗長論理ユニツトの出力
はパリテイチエツクデイジツト発生回路に供給される。
冗長論理ユニツトから受けたデータに基づいて、パリテ
イチエツクデイジツト発生回路はパリテイチエツクデイ
ジツトを発生し、このパリテイチエツクデイジツトは本
来必要な論理ユニツトからのデータと一緒にデータバス
に供給される。パリテイチエツク回路は、データバスか
らデータ及びパリテイチエツクデイジツトを受けて、当
該パリテイチエツク回路によつてパリテイが正しいか否
かを判定する演算をする。パリテイが正しくないときパ
リテイチエツク回路はユーザに警戒体制を取らせるよう
な警報を発生する。メモリチツプ内の非不良セル及び不
良セルの位置を保持させる手段を用いることによつてチ
ツプそれ自体やメモリシステム内に冗長性をもたさせる
ような技術が提案されている。例えば米国特許第437
6300、4380066、4688219及び476
8193号がある。
【0005】本発明は以上の点を考慮してなされたもの
で、1次記憶手段の完全なコピーを記憶するようなバツ
クアツプ記憶手段を用意することにより、1次記憶手段
内に生じたエラーを回復させるようにしたエラー回復処
理方法及び装置を提案しようとするものである。
【0006】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、1次データアレイと、当該1次デ
ータアレイに記憶されているデータエレメントについて
のパリテイデータを記憶するパリテイアレイとを含むコ
ンピユータシステムについて、1次データアレイに記憶
された1次データのエラーを回復する方法において、1
次データアレイに記憶されたデータの完全なコピーをバ
ツクアツプ記憶手段に記憶するステツプと、パリテイエ
ラーが検出されたときすべての処理を停止するステツプ
と、バツクアツプアレイのデータがパリテイアレイのパ
リテイと一致したとき1次データアレイのデータをバツ
クアツプアレイのデータと一致するように訂正するステ
ツプとを設けるようにする。
【0007】
【作用】1次データアレイに発生したエラーを回復する
ためシステムにはパリテイ記憶手段が設けられ、1次デ
ータアレイに記憶されているデータの完全なコピーをバ
ツクアツプ記憶手段に用意する。論理回路によつてパリ
テイエラーが検出されたときすべての処理は停止され
る。さらにバツクアツプ記憶手段にあるデータがパリテ
イと一致したとき、1次データアレイ内のデータはバツ
クアツプ記憶手段のデータと置き換えられる。さらに実
施例においてはパリテイエラーの置換えが検出されたと
きバツクアツプ記憶手段からのデータが用いられる。
【0008】
【実施例】以下図面について本発明の一実施例を詳述す
る。
【0009】図1には記憶装置10のブロツクダイヤグ
ラムが示されており、記憶装置10は本発明によるコン
ピユータシステムにおいてベクトル処理をする際に用い
るベクトルレジスタを形成している。本発明によれば、
バス11のデータは32ビツトのデータ入力レジスタ17
を介してデータアレイ13に供給されると共に、32ビツ
トのバツクアツプ入力レジスタ18を介してバツクアツ
プアレイチツプ15のバツクアツプ記憶装置に供給され
る。このベクトル処理システムは例えばそれぞれ32ビツ
ト幅及び 256素子深さをもつ論理的な16個のレジスタを
有する。
【0010】レジスタの実際的な物理的割付けはデータ
アレイ13に分類されており、データアレイ13は4つ
のインタリーブ型記憶アレイチツプを用いることによ
り、複数の読出し及び書込みを同じ機械周期の間になし
得るようになされている。データアレイ13は例えば図
2に示すように例えば32ビツト幅及び2048深さを有する
ような4つの半導体アレイチツプで構成されている。
【0011】図2にはデータ用に4つのアレイチツプを
有すると共に、パリテイ用に4つのアレイチツプを有す
る4系統のインタリーブ構成を用いて典型的に割り付け
られたブロツクダイヤグラムが示されている。第1のア
レイチツプ131において「1次データインタリーブ
0」と呼ぶ部分はレジスタのエレメント0、4、8、1
2、……を記憶している。第2のアレイチツプ132に
おいて「1次データインタリーブ1」の部分は同じレジ
スタのエレメント1、5、9、13、……を記憶してい
る。第3のアレイチツプ133において「1次データイ
ンタリーブ2」は同じレジスタのエレメント2、6、1
0、14、……を記憶している。第4のアレイチツプ1
34において「1次データインタリーブ3」は同じレジ
スタのエレメント3、7、11、15、……を記憶して
いる。
【0012】この構成は2つの異なるインタリーブから
の読出しと、第3のインタリーブへの書込みを同じサイ
クルにおいてなし得る。また入力データは4ビツトのパ
リテイ発生回路21に供給され、パリテイ発生回路21
はそれぞれ32ビツトのパリテイ入力レジスタ23及びパ
リテイアレイ19に供給される。パリテイ入力レジスタ
23は実際上8つの4ビツトパリテイを記憶する。デー
タアレイ13において特定のインタリーブに対してデー
タの書込みが生ずると、対応する書込みが対応するパリ
テイインタリーブに供給される。
【0013】第1のパリテイチツプ191の「1次パリ
テイインタリーブ0」は記憶されたエレメント0、4、
8、12、……に対するパリテイを記憶し、第2のパリ
テイチツプ192の「1次パリテイインタリーブ1」は
記憶されたエレメント1、5、9、13、……に対する
パリテイを記憶し、第3のパリテイチツプ193の「1
次パリテイインタリーブ2」は記憶されたエレメント
2、6、10、14、……に対するパリテイを記憶し、
第4のパリテイチツプ194の「1次パリテイインタリ
ーブ3」は記憶されたエレメント3、7、11、15、
……に対するパリテイを記憶する。
【0014】上述したように半導体アレイチツプ131
〜134は例えば32ビツト幅及び2048深さをもつ。この
アレイチツプはベクトルレジスタ適用装置用に通常使用
されるものよりもさらに一段と高密度である。この超高
密度性はベクトルレジスタ内に記憶されるすべてのデー
タの冗長なコピーを用意するために活用され、これによ
り当該冗長なデータに基づいてエラーの回復をすること
ができる。この方法はアレイチツプ内に生ずる一時的な
エラー及びほとんどの永久的なエラーを回復するために
用いられる。ベクトルレジスタへの応用のために実際上
使用されるのはアレイチツプ領域全体の一部分だけであ
るので、図1において2次データアレイ13Bとして示
されている同じチツプ内の第2のアドレス空間が後述す
るようにスキヤン専用ラツチ31を介して利用される。
【0015】正常動作の間は全体として符号13Aによ
つて示す第1のアドレス空間、すなわちアドレス空間ブ
ロツク13Aだけが使用される。このアドレス空間ブロ
ツク13Aは「1次データ」の語によつて表現される。
「2次データ」の語によつて表現される第2アドレス空
間ブロツク13Bは図2において、「2次データインタ
リーブ0、1、2及び3」として示すように、4系列に
インタリーブされており、第1のアレイチツプ131に
よつて冗長エレメント0、4、8、12、……を記憶
し、第2のアレイチツプ132によつて冗長エレメント
1、5、9、13、……を記憶し、第3のアレイチツプ
133によつて冗長エレメント2、6、10、14、…
…を記憶し、第4のアレイチツプ134によつて冗長エ
レメント3、7、11、15、……を記憶する。
【0016】同じようにしてパリテイアレイ19は1次
パリテイアドレス空間ブロツク19A及び2次パリテイ
アドレス空間ブロツク19Bをパリテイアレイ19内に
有する。パリテイアレイ19の第2のアドレス空間ブロ
ツク19Bは図2において1次パリテイアドレス空間に
対応させて示すように4系列にインタリーブされ、冗長
パリテイエレメント0、4、8、12、……を記憶する
第1のアレイチツプ191と、冗長パリテイエレメント
1、5、9、13、……を記憶する第2のアレイチツプ
192と、冗長パリテイエレメント2、6、10、1
4、……を記憶する第3のアレイチツプ193と、冗長
パリテイエレメント3、7、11、15、……を記憶す
る第4のアレイチツプ194とを有する。
【0017】データアレイ13から送出される出力はデ
ータ出力レジスタ33を介して出力端子50にシステム
出力として供給されると共に、パリテイチエツク論理回
路35に供給される。パリテイアレイ19からのパリテ
イ出力はパリテイ出力レジスタ37を介してパリテイチ
エツク回路35及び出力端子50に供給される。パリテ
イエラーがあるとき、エラー信号ERRORがプロセツ
サコントローラ41に供給される。
【0018】各時点のデータがデータアレイ13に書き
込まれている正常動作状態にあるとき、同じデータがバ
ツクアツプアレイ15の対応する位置に書き込まれる。
バツクアツプアレイは単一のアレイチツプでなり、1次
アレイのようにインタリーブをもたないようになされて
おり、その理由は1サイクルの間に単一の1次インタリ
ーブだけにデータが書き込まれかつ正常動作時にはこの
バツクアツプアレイチツプからデータが読み出されるこ
とはないからである。ここに説明する1つの好適な実施
例においては、バツクアツプアレイは32ビツト幅及び20
48深さの単一の分離型アレイチツプを用い得る。また注
意すべきは、4系列の異なる主インタリーブにおけるす
べてのデータを収納できるようにしなければならないの
で、バツクアツプチツプは主チツプのデータの4倍のデ
ータを保持することである。このことはさらにアレイチ
ツプに対する上述の高密度化ができることになる。バツ
クアツプアレイ15からの出力は32ビツトのバツクアツ
プ出力レジスタ39に記憶される。レジスタ17、1
8、23、33、37及び39とスキヤン専用ラツチ回
路31はプロセツサコントローラ41に直列に接続され
ている。これらのデバイスはLSSD(Level Sensitiv
e Scan Design )の部分であり、レジスタ19、23及
び17、スキヤン専用ラツチ回路31、レジスタ33、
37及び39からプロセツサコントローラ41に戻るこ
とによつてレジスタを通じてコントローラによつて順次
スキヤンされる。これらのレジスタの出力は順次プロセ
ツサコントローラ41にシフトされ、プロセツサコント
ローラ41においてレジスタのデータが制御のために比
較される。
【0019】各時点のデータがデータ入力レジスタ17
を介してデータアレイ13に書き込まれる正常動作時、
同じデータがバツクアツプ入力レジスタ18を介してバ
ツクアツプアレイ15の対応する位置に書き込まれる。
データアレイ13のデータがデータ出力レジスタ33を
介して読み出されるとき、正常パリテイチエツクがパリ
テイ出力レジスタ37を介して1次アレイチツプに記憶
されているデータによつてなされる。パリテイチエツク
回路35における論理によつてパリテイエラーが検出さ
れると、エラー信号ERRORがプロセツサコントロー
ラ41に送出されて次のステツプの処理がなされる。
【0020】(1) プロセツサコントローラ41はシ
ステムによつて実行しているすべての処理を停止する。 (2) その後プロセツサコントローラ41は1次デー
タアレイ13A(データ出力レジスタ33によつてスキ
ヤンされる)、1次パリテイアレイ19A(パリテイ出
力レジスタ37によつてスキヤンされる)及びバツクア
ツプアレイ15(バツクアツプ出力レジスタ39によつ
てスキヤンされる)の対応するデータエレメントから失
敗エレメントを読み出す。続いてこのデータは以下に述
べる処理動作を実行することによつて比較される。
【0021】(2A) 1次データアレイ13A(データ
出力レジスタ33によつてスキヤンされる)及び1次パ
リテイアレイ19A(パリテイ出力レジスタ37によつ
てスキヤンされる)間のパリテイが正しいとき(ここで
正しいということは論理「1」のビツト数の奇又は偶が
正しい数であることを意味する)、このとき問題は検査
ロジツクにエラーがある可能性があるので、システムは
正常動作手続きに戻る。
【0022】(2B) バツクアツプアレイ15(バツク
アツプ出力レジスタ39によつてスキヤンされる)及び
1次パリテイアレイ19A(パリテイ出力レジスタ37
によつてスキヤンされる)間のパリテイが「正常」であ
れば、このとき1次データアレイに異常がある可能性が
あるので、プロセツサコントローラ41は1次データア
レイ13Aのデータをバツクアツプアレイ15から得ら
れるデータに置き換える。書込みイネーブルがプロセツ
サコントローラ41によつて制御ライン41Aを介して
アレイ15に供給されると共に、バツクアツプ出力レジ
スタ39の出力がデータ入力レジスタ17に対するコン
トローラによつてスキヤンされる。
【0023】(2C) バツクアツプアレイ15がパリテ
イ出力レジスタ37の1次データアレイ13内のデータ
と等しいと、このときパリテイアレイは不良であるの
で、プロセツサコントローラ41は1次データアレイか
ら新しい1組のパリテイビツトを発生すると共に、パリ
テイ入力レジスタ23及びパリテイアレイ19をスキヤ
ンすることによつてパリテイエレメントのパリテイを訂
正する。
【0024】(2D) データアレイ13のデータのパリ
テイがパリテイアレイ19のパリテイと等しくなくかつ
バツクアツプアレイ15のデータのパリテイがパリテイ
アレイ19のパリテイと等しくないとき、このときシス
テム内には回復ができない失敗がある。
【0025】(2E) プロセツサコントローラ41が、
失敗が最初の3つの1つにあつたと判断したとき命令は
再試行される。再試行が成功すれば、動作は正常に続け
られる。
【0026】(2F) 所定回数の試行(例えば5回)が
なされた後命令の再試行が成功しなかつたとき、問題は
一時的な失敗ではなく1次データアレイ13Aの失敗で
ある可能性がある。かかる永久的失敗の場合、プロセツ
サコントローラ41は第2のアレイチツプ空間データを
2次アレイ13Bに切り換え得る。この動作はスキヤン
専用ラツチ回路31の論理レベルが変化することによつ
てなされる。スキヤン専用ラツチ回路31は通常論理
「0」を供給し、この論理「0」はインバータ43及び
44を介してイネーブル論理「1」を1次アドレス空間
ブロツク13A及び19Aに供給する。ラツチ回路が論
理「1」になると、2次アドレス空間ブロツク13B及
び19Bだけがイネーブルされる。この場合、プロセツ
サコントローラ41はすべてのデータをバツクアツプア
レイ15からデータアレイ13の2次アドレス空間ブロ
ツク13Bに複写する必要がある。続いてバツクアツプ
出力レジスタ39の出力がコントローラ41によつてス
キヤンされてデータ入力レジスタ17を介してデータ2
次アレイ13Bに送出される。またパリテイが発生され
ると共に、2次パリテイアドレス空間ブロツク19B
(2次パリテイ)と呼ぶ)内に置かれる。パリテイはコ
ントローラのバツクアツプ出力レジスタ39内のデータ
から発生されてパリテイ入力レジスタ23を介して2次
パリテイアドレス空間19Bにスキヤン送出される。こ
の時点においてプロセツサコントローラは失敗命令を再
試行することができる。
【0027】本発明の第2の実施例においては、図3及
び図4に示すように、アレイチツプ131〜134の
「2次データ」アドレス空間ブロツク13Bがバツクア
ツプアレイとして用いられる。従つてバツクアツプアレ
イはアレイチツプの第2アドレス空間を用いる。バツク
アツプデータは1次データの場合と同様にしてインタリ
ーブされると共に、同時に図4に示すように、同じレジ
スタ(データ入力レジスタ17)を介してアドレス空間
ブロツク13A及びバツクアツプアドレス空間ブロツク
13Bのデータアレイ13の両方に書き込まれる。同様
にして「2次パリテイ」空間はバツクアツプパリテイを
含んでいると共に、このパリテイがインタリーブされ
る。パリテイはパリテイ入力レジスタ23を通じて1次
パリテイアドレス空間ブロツク19A及びバツクアツプ
パリテイアドレス空間ブロツク19Bの両方に供給され
る。
【0028】アドレス空間ブロツク19Aの1次パリテ
イ及びアドレス空間ブロツク13Aの1次データは通常
ラツチ回路31及び31Aからの「読取り」スキヤンラ
インによつて制御される出力レジスタ33及び37に送
出される。パリテイチエツク回路35においてパリテイ
エラーが検出されたとき、上述のように1次データから
のデータ、1次パリテイからのパリテイ及びバツクアツ
プからのデータを比較する比較動作を実行する。1次デ
ータが再試行後引き続きエラー状態にあると決定された
とき、バツクアツプデータを含む第2のアドレス空間1
9Bが1次データの代わりに「読取り」され、同様にし
て再試行後パリテイデータがエラー状態のままになつて
いると、第2のアドレス空間19B内のパリテイバツク
アツプが「読取り」される。
【0029】図1又は図4のシステムにおけるプロセツ
サコントローラ41は状態マシン、若しくはマイクロコ
ード又は図5のフローチヤートについて説明するような
プログラム制御の下に動作する汎用のコンピユータを用
い得る。判定ブロツク101においてパリテイチエツク
が失敗すると共に、判定ブロツク102において再試行
スレシヨルドに到達しなかつた(5回の再試行後のスレ
シヨルド)とき、回復ルーチンが比較エレメントについ
て1次データ、1次パリテイ及びバツクアツプデータを
読み取ることによつて(これらのデータはコントローラ
41のレジスタ41B(図1)内にスキヤン収納されて
いる)を読み取ることによつて開始する。エレメントに
ついて正常なパリテイがあれば、判定ブロツク103に
おいて肯定出力として表しているように、命令が再試行
される。エレメントのパリテイが否定出力として表され
ているように異常であれば、このときバツクアツプアレ
イ15のエレメントがパリテイについて判定ブロツク1
05においてパリテイアレイ内のパリテイと比較チエツ
クされ、パリテイが正常であればパリテイデータアレイ
13のパリテイデータエレメントがバツクアツプアレイ
15からのバツクアツプアレイデータエレメントに置き
換えられると共に、命令が再試行される。バツクアツプ
アレイデータを含むレジスタ41B内のデータエレメン
トはレジスタ17にスキヤンにより読み込まれると共に
ライトイネーブルが与えられ、このライトイネーブルが
データをバツクアツプアレイ15からデータアレイ13
に転送する。バツクアツプアレイのエレメントのパリテ
イが異常のとき、バツクアツプデータは判定ブロツク1
07において示すように主データと比較される。両者が
等しいとき、パリテイアレイ内のデータは正しい。プロ
セツサコントローラ41はレジスタ41B内に記憶され
ている1次データに基づいてパリテイ発生回路41C
(図1)に新しいパリテイを発生すると共に、レジスタ
23にスキヤン入力し、ライトイネーブル41Aが供給
されたときパリテイアレイ19に転送される。ブロツク
107において否定結果が得られたとき、エラーを回復
することができない。
【0030】すべての再試行の場合において、プロセツ
サコントローラ41は主プロセツサを再度初期化して当
該主プロセツサをブロツク101によつて失敗を停止さ
せた時点において実行を開始させる。失敗が続いて例え
ば5回の再試行スレシヨルドに到達したとき、このとき
プログラムコントローラ41はスキヤン専用ラツチ回路
31を駆動してデータ1次アレイ13Aからデータ2次
アレイ13Bにエレメントを複写することによつてエレ
メントを訂正する。この動作は先ず比較エレメントをレ
ジスタ33及び37に読み取り、続いてエレメントをプ
ロセツサコントローラレジスタ41Bにスキヤン出力す
ることによつて実行される。このときエレメントはレジ
スタ17及び23にスキヤンによつて送り込まれると共
に、ライトイネーブル41Aがデータを2次アレイに転
送する動作を実行させる。この動作はデータ1次アレイ
及びパリテイ1次アレイ内のすべてのエレメントがそれ
ぞれデータ2次アレイ及びパリテイ2次アレイに転送さ
れるまで繰り返される。エレメントを基礎にして処理す
ることにより、エレメントがレジスタ41Bにあるとき
判定ブロツク103、105及び107の上述の処理が
繰り返され、すなわち先ずパリテイアレイ内にパリテイ
を有する1次データアレイのデータエレメントのパリテ
イが正常であるか否かが判定され、続いて否定結果が得
られたときバツクアツプアレイ内のエレメントのパリテ
イがパリテイアレイのパリテイと比較され、続いてバツ
クアツプパリテイエレメントが正常であるときデータエ
レメントがバツクアツプアレイデータエレメントと置き
換えられ、続いてバツクアツプアレイのパリテイが不良
のときバツクアツプデータエレメントが判定ブロツク1
07において1次データと比較され、続いて両者が等し
いときパリテイエラーのデータが訂正される。このすべ
ての動作はエレメントが1次データアレイ13Aから2
次データアレイ13Bに置かれると共に、パリテイアレ
イのエレメントがパリテイ2次アレイ19Bに置かれた
ときエレメントごとに実行される。
【0031】
【発明の効果】上述のように本発明によれば、1次記憶
手段の完全なコピーをバツクアツプ記憶手段において得
るようにすると共に、パリテイエラーが検出されたとき
バツクアツプ記憶手段のデータが1次記憶手段のデータ
又は1次記憶手段のパリテイと置き換えられるように用
いるようにしたことにより、1次記憶手段に発生したエ
ラーを簡易な構成によつて確実に回復させることができ
る。
【図面の簡単な説明】
【図1】図1は本発明の実施例による記憶装置を示すブ
ロツクダイヤグラムである。
【図2】図2は図1の典型的なベクトル処理アレイにお
けるインタリーブ構成を示すブロツクダイヤグラムであ
る。
【図3】図3は本発明の第2の実施例として、バツクア
ツプ記憶手段が1次アレイと同じチツプに設けられてい
る場合について、ベクトル処理アレイのインタリーブ構
成を示すブロツクダイヤグラムである。
【図4】図4は1次記憶手段と同じアレイチツプ上にバ
ツクアツプ記憶手段がある場合の装置を示すブロツクダ
イヤグラムである。
【図5】図5は図1のプロセツサコントローラによつて
実行される状態マシン処理を示すフローチヤートであ
る。
【符号の説明】
10……記憶装置、13……データアレイ、13A……
1次データアドレス空間ブロツク、13B……2次デー
タアドレス空間ブロツク、15……バツクアツプアレ
イ、19……パリテイアレイ、19A……1次パリテイ
アドレス空間ブロツク、19B……2次パリテイアドレ
ス空間ブロツク、31、31A……スキヤン専用ラツチ
回路、35……パリテイチエツク回路、41……プロセ
ツサコントローラ、41A……パリテイ発生回路、41
B……レジスタ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 タイモシー・ジヨン・スレゲル アメリカ合衆国、ニユーヨーク州12580、 スターツバーグ、コネリー・ドライブ 19 番地 (72)発明者 ダレル・スミス・ホイツタカ アメリカ合衆国、ニユーヨーク州12419、 コツトキル、マイケル・ドライブ 26番地

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】複数のインターリーブ1次アレイチツプを
    含む1次ベクトルデータアレイレジスタにおけるエラー
    回復処理方法において、 バツクアツプアレイチツプを用意するステツプと、 上記1次アレイチツプにデータを書き込み、かつ同時に
    当該書き込んだデータと同じデータを上記バツクアツプ
    アレイチツプ内の対応するメモリ位置に書き込むステツ
    プと、 複数のインターリーブアレイチツプに、上記1次アレイ
    チツプに記憶されている各データエレメントに対するパ
    リテイを、供給記憶するステツプと、 上記1次アレイチツプからデータが読み出されたとき、
    上記パリテイアレイチツプに記憶されているデータにつ
    いてパリテイチエツク処理を実行するステツプと、 パリテイアレイエラーを検出することによりすべての処
    理を論理的に停止させたとき、上記1次データアレイチ
    ツプからのデータエレメントと、上記バツクアツプアレ
    イチツプからの対応するデータエレメントと、上記アレ
    イチツプからの対応するパリテイとを比較処理するステ
    ツプと を具え、上記比較処理ステツプは、 上記バツクアツプアレイチツプのデータが上記パリテイ
    アレイチツプのデータと一致したとき、上記1次アレイ
    チツプのデータエレメントを訂正することにより上記バ
    ツクアツプアレイチツプの対応するデータエレメントと
    一致させるステツプと、 上記バツクアツプアレイのデータが上記1次アレイチツ
    プのデータと一致したとき、上記パリテイエレメントの
    パリテイを訂正するステツプと、 上記一致させるステツプ及び上記訂正するステツプの一
    方に失敗が生じたとき、命令を再試行するステツプと、 所定回数の再試行がされた後命令が成功しなかつたと
    き、上記バツクアツプアレイチツプからのデータのコピ
    ーを上記1次アレイチツプの第2のアドレス空間に置く
    と共に、当該コピーに基づいて上記パリテイアレイチツ
    プに対する新しい パリテイを発生するステツプと を具え
    ることを特徴とするエラー回復処理方法。
  2. 【請求項2】記憶装置内のエラー回復処理方法であつ
    て、上記記憶装置は1次データを格納する1次データア
    レイと、上記1次データに対応するパリテイデータを格
    納するパリテイデータアレイと、上記1次データの完全
    なコピーを格納するバツクアツプデータアレイとを有す
    るエラー回復処理方法において、 上記1次データアレイから要求されたデータを読み取る
    と共に、上記パリテイデータアレイから対応するパリテ
    イデータを読み取るステツプと、 上記要求されたデータの読取り時にパリテイエラーをチ
    エツクするステツプと、 パリテイエラーが検出されたとき、以下の処理ステツプ
    を実行するステツプと を具え、上記以下の処理ステツプ
    は、 上記1次データアレイ及びパリテイアレイから上記要求
    されたデータを再度読み取るステツプと、 上記バツクアツプデータアレイから上記要求されたデー
    タのコピーを読み取るステツプと、 上記要求されたデータの再読取りが終了した後にパリテ
    イデータが検出されないとき処理を続行するステツプと
    を有することを特徴とするエラー回復処理方法。
  3. 【請求項3】さらに、 上記要求されたデータを再読取りした後、パリテイエラ
    ーが検出されたとき、上記要求されたデータの上記コピ
    ーを上記対応するパリテイデータと比較するステツプで
    あつて、当該比較結果を第1の比較結果として表示する
    ステツプと、 上記比較が有効であるとき、上記1次データアレイ内の
    上記要求されたデータを上記コピーと置き換えるステツ
    プと を具えることを特徴とする請求項2に記載のエラー
    回復処理方法。
  4. 【請求項4】1次データを格納する1次データアレイ
    と、上記1次データに対応するパリテイデータを格納す
    るパリテイデータアレイと、上記1次データの完全なコ
    ピーを格納するバツクアツプデータアレイとを有し、上
    記1次データアレイ及び上記パリテイデータアレイは1
    次アドレス空間及び2次アドレス空間に分割されている
    ような記憶装置におけるエラー回復処理方法において、 上記1次データアレイの上記1次アドレス空間から要求
    されたデータを読み取ると共に、上記パリテイデータア
    レイの上記1次アドレス空間から対応するパリテイデー
    タを読み取るステツプと、 上記要求されたデータを読み取つたとき、パリテイデー
    タをチエツクするステツプと、 パリテイエラーが検出されたとき処理を停止すると共
    に、以下の処理ステツプを実行するステツプと を具え、上記以下の処理ステツプは、 上記1次データアレイ及びパリテイデータアレイの上記
    1次アドレス空間から上記要求されたデータを読み取る
    ステツプと、 上記バツクアツプデータアレイから上記要求されたデー
    タのコピーを読み取るステツプと、 上記要求されたデータを再読取りした後、パリテイエラ
    ーが検出されないとき処理を続行するステツプと を具え
    ることを特徴とするエラー回復処理方法。
  5. 【請求項5】上記要求されたデータを再読取りした後、
    パリテイエラーが検出されたとき、上記すべてのステツ
    プをスレシヨルド回数まで繰り返すステツプと、 上記スレシヨルド回数だけ繰り返されたとき、上記1次
    データアレイの上記2次アドレス空間及び上記パリテイ
    データアレイの上記2次アドレス空間を用いて上記ステ
    ツプを繰り返すステツプと を具えることを特徴とする請
    求項4に記載のエラー回復処理方法。
  6. 【請求項6】データエレメントを記憶する1次データ記
    憶装置と、 上記1次データ記憶装置に格納された上記データエレメ
    ントについてのパリテイをそれぞれ記憶するパリテイ記
    憶装置と、 上記1次データ記憶装置に記憶されたデータの完全なコ
    ピーを記憶するバツクアツプ記憶装置と、 上記記憶装置にそれぞれ接続される入力レジスタ及び出
    力レジスタと、 プロセツサコントローラと、 を具え、上記入力及び出力レジスタは上記プロセツサコ
    ントローラに直列に接続されていることを特徴とする記
    憶装置。
  7. 【請求項7】上記1次記憶手段は上記複数のアレイチツ
    プ上の第1のアドレス空間に配置されていると共に、 上記パリテイ記憶手段は、上記第2の複数のアレイチツ
    プ上に配置されていることを特徴とする請求項6に記載
    の記憶装置。
  8. 【請求項8】上記バツクアツプ記憶手段は、上記第1の
    複数の記憶チツプの第2のアドレス空間に配置されてい
    ことを特徴とする請求項6に記載の記憶装置。
  9. 【請求項9】プロセツサ及びプロセツサコントロール
    と、第1の複数のアレイチツプ上に形成された1次デー
    タアレイとを有するベクトルレジスタ装置とを含み、上
    記1次データアレイは1次アドレス空間及び2次アドレ
    ス空間を有するベクトル処理装置において、 上記複数のアレイチツプ上にインターリーブ分布方式で
    記憶されたデータエレメントを格納する上記1次データ
    アレイと、 第2の複数のアレイチツプ上に形成され、上記1次デー
    タアレイに記憶されている上記各データエレメントにつ
    いてのパリテイデータを記憶するパリテイデータアレイ
    と、 上記1次アレイの上記1次データ空間に上記データエレ
    メントの完全なコピーを格納するバツクアツプデータア
    レイと、 上記1次データアレイ内の特定のデータエレメントのパ
    リテイを、上記パリテイデータアレイの対応するパリテ
    イと比較する第1の手段と、 上記バツクアツプデータアレイの上記特定のデータエレ
    メントのコピーのパリテイを、上記パリテイデータアレ
    イの対応するパリテイと比較する第2の手段と、 上記第1の手段においてパリテイエラーが検出されかつ
    上記第2の手段においてパリテイエラーが検出されない
    とき、上記1次データアレイ内の上記特定のデータエレ
    メントを、上記バツクアツプアレイからの上記特定のデ
    ータエレメントの上記コピーと、置き換える第3の手段
    と、 上記第1又は第2の手段においてパリテイエラーが検出
    されないとき、上記対応するパリテイを置き換える第4
    の手段と を具えることを特徴とするベクトル処理装置。
  10. 【請求項10】さらに、 上記バツクアツプデータアレイからの上記データエレメ
    ントの上記コピーを、上記1次データアレイの上記第2
    のアドレス空間に、コピーする第4の手段を 具えること
    を特徴とする請求項9に記載のベクトル処理装置。
  11. 【請求項11】上記バツクアツプデータアレイは分離さ
    れたアレイチツプ上に形成される ことを特徴とする請求
    項10に記載のベクトル処理装置。
  12. 【請求項12】上記バツクアツプデータアレイは上記第
    1の複数のチツプのアレイ上にある上記第2のアドレス
    空間に配置される ことを特徴とする請求項9に記載のベ
    クトル処理装置。
JP3214308A 1990-09-04 1991-07-31 エラー回復処理方法及び装置 Expired - Lifetime JPH081614B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/577,352 US5177744A (en) 1990-09-04 1990-09-04 Method and apparatus for error recovery in arrays
US07/577352 1990-09-04

Publications (2)

Publication Number Publication Date
JPH04245558A JPH04245558A (ja) 1992-09-02
JPH081614B2 true JPH081614B2 (ja) 1996-01-10

Family

ID=24308344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3214308A Expired - Lifetime JPH081614B2 (ja) 1990-09-04 1991-07-31 エラー回復処理方法及び装置

Country Status (3)

Country Link
US (1) US5177744A (ja)
EP (1) EP0474451A3 (ja)
JP (1) JPH081614B2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69223104T2 (de) * 1991-08-27 1998-04-02 Toshiba Kawasaki Kk Gerät zur Vermeidung der Zerstörung von aus Speichereinheit gelesenen Rechnerdaten
JP2548480B2 (ja) * 1992-02-10 1996-10-30 富士通株式会社 アレイディスク装置のディスク装置診断方法
US5469566A (en) * 1992-03-12 1995-11-21 Emc Corporation Flexible parity generation circuit for intermittently generating a parity for a plurality of data channels in a redundant array of storage units
JP3146075B2 (ja) * 1992-10-14 2001-03-12 三菱電機株式会社 多重化メモリ装置
US5568380A (en) * 1993-08-30 1996-10-22 International Business Machines Corporation Shadow register file for instruction rollback
US5835953A (en) 1994-10-13 1998-11-10 Vinca Corporation Backup system that takes a snapshot of the locations in a mass storage device that has been identified for updating prior to updating
US5619642A (en) * 1994-12-23 1997-04-08 Emc Corporation Fault tolerant memory system which utilizes data from a shadow memory device upon the detection of erroneous data in a main memory device
JPH08263226A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 情報記憶装置
US5684944A (en) * 1995-08-14 1997-11-04 Lubbers; Clark E. Atomic update of EDC protected data
US6038680A (en) * 1996-12-11 2000-03-14 Compaq Computer Corporation Failover memory for a computer system
JP3390824B2 (ja) * 1997-03-19 2003-03-31 株式会社日立製作所 多重化制御装置及びその障害回復方法
JP3860967B2 (ja) 1998-02-02 2006-12-20 株式会社日立グローバルストレージテクノロジーズ リードの自動交替方法及びこれを用いた磁気ディスク装置
KR20000033083A (ko) * 1998-11-19 2000-06-15 윤종용 컨버전스 조정장치 및 이에 적합한 컨버전스 조정방법
US6839782B1 (en) * 1999-07-30 2005-01-04 Emc Corporation Computer storage system incorporating on-board EEPROMS containing product data
US6467047B1 (en) * 1999-07-30 2002-10-15 Emc Corporation Computer storage system controller incorporating control store memory with primary and secondary data and parity areas
US6792557B1 (en) * 1999-10-22 2004-09-14 Hitachi, Ltd. Storage area network system
US6735717B1 (en) * 2000-04-13 2004-05-11 Gnp Computers, Inc. Distributed computing system clustering model providing soft real-time responsiveness and continuous availability
US6513135B2 (en) 2000-08-02 2003-01-28 Hitachi, Ltd. Automatic read reassignment method and a magnetic disk drive
US6691212B1 (en) * 2000-10-26 2004-02-10 Mirapoint, Inc. Method and system for providing an interleaved backup
US6785783B2 (en) * 2000-11-30 2004-08-31 International Business Machines Corporation NUMA system with redundant main memory architecture
GB2393295B (en) * 2001-06-28 2005-06-08 Emc Corp Information replication system having enhanced error detection and recovery
US6950836B2 (en) * 2002-03-14 2005-09-27 International Business Machines Corporation Method, system, and program for a transparent file restore
US7315960B2 (en) * 2002-05-31 2008-01-01 Hitachi, Ltd. Storage area network system
US6922752B2 (en) * 2002-08-23 2005-07-26 Hewlett-Packard Development Company, L.P. Storage system using fast storage devices for storing redundant data
US7979632B2 (en) * 2002-09-06 2011-07-12 Hewlett-Packard Development Company, L.P. Storage system including a fast storage device for storing redundant data
JP2006107351A (ja) * 2004-10-08 2006-04-20 Fujitsu Ltd データ移行方法、記憶装置及びプログラム
US7865804B2 (en) * 2004-12-08 2011-01-04 Smiths Aerospace Llc System and method for enhanced error detection in memory peripherals
JP2006252239A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd ファイル制御装置
US20080065663A1 (en) * 2005-04-14 2008-03-13 Emc Corporation Reestablishing process context
US7657579B2 (en) * 2005-04-14 2010-02-02 Emc Corporation Traversing data in a repeatable manner
US20080065637A1 (en) * 2005-04-14 2008-03-13 Emc Corporation Locating last processed data
US8543863B2 (en) 2009-11-18 2013-09-24 Microsoft Corporation Efficiency of hardware memory access using dynamically replicated memory
US8775379B2 (en) 2012-01-25 2014-07-08 International Business Machines Corporation Ensuring partitioned dataset extended (PDSE) critical dataset redundancy (CDR)
US9378098B2 (en) * 2012-06-06 2016-06-28 Qualcomm Incorporated Methods and systems for redundant data storage in a register
US10496484B2 (en) * 2016-08-05 2019-12-03 Sandisk Technologies Llc Methods and apparatus for error detection for data storage devices
KR102483476B1 (ko) * 2018-04-03 2023-01-03 에스케이하이닉스 주식회사 데이터 입/출력 핀 단위로의 리페어를 지원하는 반도체 메모리 장치 및 그 반도체 메모리 장치의 리페어 방법

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2823457C2 (de) * 1978-05-30 1982-12-30 Standard Elektrik Lorenz Ag, 7000 Stuttgart Schaltungsanordnung zur Fehlerüberwachung eines Speichers einer digitalen Rechenanlage
US4231089A (en) * 1978-12-15 1980-10-28 Digital Equipment Corporation Data processing system with apparatus for correcting microinstruction errors
US4326291A (en) * 1979-04-11 1982-04-20 Sperry Rand Corporation Error detection system
US4380066A (en) * 1980-12-04 1983-04-12 Burroughs Corporation Defect tolerant memory
US4376300A (en) * 1981-01-02 1983-03-08 Intel Corporation Memory system employing mostly good memories
US4464747A (en) * 1982-02-18 1984-08-07 The Singer Company High reliability memory
US4573146A (en) * 1982-04-20 1986-02-25 Mostek Corporation Testing and evaluation of a semiconductor memory containing redundant memory elements
JPS59203299A (ja) * 1983-05-06 1984-11-17 Nec Corp 冗長ビット付メモリ
US4581739A (en) * 1984-04-09 1986-04-08 International Business Machines Corporation Electronically selectable redundant array (ESRA)
JPS6150293A (ja) * 1984-08-17 1986-03-12 Fujitsu Ltd 半導体記憶装置
US4654847A (en) * 1984-12-28 1987-03-31 International Business Machines Apparatus for automatically correcting erroneous data and for storing the corrected data in a common pool alternate memory array
JPS61264599A (ja) * 1985-05-16 1986-11-22 Fujitsu Ltd 半導体記憶装置
US4731758A (en) * 1985-06-21 1988-03-15 Advanced Micro Devices, Inc. Dual array memory with inter-array bi-directional data transfer
US4802117A (en) * 1985-12-16 1989-01-31 Pitney Bowes Inc. Method of preserving data storage in a postal meter
DE3716594C2 (de) * 1987-05-18 1995-08-24 Siemens Ag Schaltungsanordnung für Fernmeldeanlagen, insbesondere Fernsprechvermittlungsanlagen, mit Speichereinrichtungen, in denen gespeicherte Informationsportionen auf ihre Richtigkeit überprüft werden
US4849978A (en) * 1987-07-02 1989-07-18 International Business Machines Corporation Memory unit backup using checksum
US4942575A (en) * 1988-06-17 1990-07-17 Modular Computer Systems, Inc. Error connection device for parity protected memory systems
JPH0748314B2 (ja) * 1989-02-02 1995-05-24 株式会社東芝 半導体記憶装置

Also Published As

Publication number Publication date
EP0474451A2 (en) 1992-03-11
EP0474451A3 (en) 1993-01-07
US5177744A (en) 1993-01-05
JPH04245558A (ja) 1992-09-02

Similar Documents

Publication Publication Date Title
JPH081614B2 (ja) エラー回復処理方法及び装置
US5267242A (en) Method and apparatus for substituting spare memory chip for malfunctioning memory chip with scrubbing
US5502732A (en) Method for testing ECC logic
EP0274817B1 (en) Data storage system
US5289478A (en) Method and means for verification of write data
EP0090175B1 (en) Memory system
US5537425A (en) Parity-based error detection in a memory controller
US5590276A (en) Method for synchronizing reserved areas in a redundant storage array
EP0332662B1 (en) Byte write error code method and apparatus
EP1206739B1 (en) Methods and apparatus for correcting soft errors in digital data
JPH05346866A (ja) 冗長アレーデータ記憶システムにおける書込データ保全を確立するためのシステム及び方法
KR920001104B1 (ko) 어드레스 라인 오류 테스트 방법
JPH0744326A (ja) 記憶装置システム
US4251863A (en) Apparatus for correction of memory errors
JPH03248251A (ja) 情報処理装置
US7076686B2 (en) Hot swapping memory method and system
US6681299B1 (en) Cache-tag control method in information processing apparatus having cache, with error checking mechanism in cache tag, and information processing apparatus using this control method
JPS593798A (ja) メモリ・システムにおける置換ベクトル発生方法
JPH0425580B2 (ja)
JPS6391764A (ja) パリティ・チェック機能を有するメモリ・システム
JPH05216771A (ja) データ処理装置内の重要データの回復可能性を保証する方法と装置
JPH08171463A (ja) ディスクアレイ装置におけるデータ読み出し方法およびディスクアレイ装置
JP3913221B2 (ja) 情報処理装置
JP3527825B2 (ja) 記憶装置
JPS61253564A (ja) 記憶装置