JP2731745B2 - データ障害処理装置 - Google Patents
データ障害処理装置Info
- Publication number
- JP2731745B2 JP2731745B2 JP7063840A JP6384095A JP2731745B2 JP 2731745 B2 JP2731745 B2 JP 2731745B2 JP 7063840 A JP7063840 A JP 7063840A JP 6384095 A JP6384095 A JP 6384095A JP 2731745 B2 JP2731745 B2 JP 2731745B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- data
- ecc
- pattern
- syndrome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1044—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices with specific ECC/EDC distribution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Detection And Correction Of Errors (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Description
にECCによる誤り訂正機能および、エラー検出機能を
有しているマルチプロセッサシステムに関し、特にデー
タ障害処理装置に関する。
続しているシステムバスのデータ誤りについては、従来
からECCによる誤りの訂正とエラーの検出が行われて
いる。そして、訂正できない誤りが発生した場合は、誤
りの検出およびプロセッサに対する通知を実施してい
る。
正,エラー検出機能を持つマルチプロセッサシステムの
主としてデータ系の構成を示す。
メモリ20と、システムキャッシュユニット25から成
り、それぞれの複数個をシステムバスによって接続し構
成する。各システムキャッシュユニット25に複数個の
各プロセッサを接続し、マルチプロセッサシステムを構
成する。
モリ201のデータとECCを訂正する訂正器203
と、システムバスのデータとECCを訂正する訂正器2
02と、メモリ201のデータとECCのエラーを検出
する検出器205と、システムバスのデータとECCの
エラーを検出するエラー検出器204とから構成され
る。
テムキャッシュ251と、システムキャッシュ251の
データとECCを訂正する訂正器253と、システムバ
スのデータとECCを訂正する訂正器252と、システ
ムキャッシュ251のデータとECCのエラーを検出す
る検出器254と、システムバスのデータとECCのエ
ラーを検出する検出器255と、エラー検出時のシンド
ロームが訂正不可パターンと一致していることを判別す
る比較器256,257と、訂正不可パターン時に要求
元のプロセッサにエラーを通知するためのエラーリプラ
イ生成器264,265とで構成される。
に対する1ビット誤り訂正2ビット誤り検出符号として
一般的に用いられている1ビット誤り訂正、2ビット誤
り検出符号図である。
の排他的論理和によって求めることができる。例えば、
ECCビット(0)はデータのビット(0)〜(13)
の排他的論理和の結果により求めることができ、ECC
ビット(1)はデータのビット(0)〜(3),(14
〜23)の排他的論理和によって求めることができる。
したビットと、ECCの“1”で示したビットの排他的
論理和によって求めることができる。例えば、シンドロ
ームのビット(0)はデータのビット(0)〜(13)
とECCのビット(0)の排他的論理和によって、シン
ドロームのビット(1)はデータのビット(0)〜
(3),(14)〜(23)とECCとビット(1)の
排他的論理和によって求めることができる。
ト(0)〜(6)の値を基に、エラーの訂正,障害の報
告および要求元プロセッサに対するエラー通知を図3に
示すシンドローム判別図に従って実行する。エラーが発
生していない場合は、シンドロームのビット(0)〜
(6)の値はいずれも“0”である。この場合は、エラ
ーの訂正,障害の報告,要求元プロセッサに対するエラ
ー通知とも実行しない。
ロームのビット(0)〜(6)の値は、図2に示す訂正
可パターンのうちいずれか1つに適合する。例えば、シ
ンドロームのビット(0)〜(6)の値が“11010
00”の場合は、データのビット(0)の値がエラーし
たことが判り、ビット(0)〜(6)の値が“1000
000”の場合は、ECCのビット(0)の値がエラー
したことが判る。その場合データのビット(0)の値ま
たは、ECCのビット(0)の値を反転することによっ
て、正しいデータおよびECCを得ることができる。こ
れらのシンドロームを生成し、解読し、訂正する動作
は、図6のそれぞれの訂正器202,203,252,
253で実行している。また、1ビットエラーの場合
は、図3に示すように、障害の報告は、実行されるが、
要求元のプロセッサに対しては、訂正後の正しいデータ
を出力するためエラー通知は実行しない。
およびECCの訂正はできないが、エラーの検出はでき
る。この場合、シンドローム(0)〜(6)の値で
“1”となるビットの数は、2個,4個,6個のいずれ
かになるように、図2のパターンが設定されている。2
ビットエラーの場合、障害の報告を実行するとともに、
要求元のプロセッサに対しては、訂正できない不正なデ
ータを出力するため、図6に示す比較器256,257
による訂正不可エラーを検出しエラーリプライ生成器2
64,265によって要求元のプロセッサにエラーを通
知する。
告は、図6のエラー検出器204,205,254,2
55で実行する。
クエストがあった場合の動作について説明する。各プロ
セッサからのメモリリードリクエストは、まず、システ
ムキャッシュユニット25で処理し、システムキャッシ
ュ251を索引する。対象となるリードデータがシステ
ムキャッシュ251に存在する場合は、要求元のプロセ
ッサにリードデータを返す。その際、システムキャッシ
ュ251から読み出したデータおよびECCに対して、
訂正器253によるエラー訂正と、エラー検出器255
によるエラー検出を実行する。
行う。訂正可能なエラーの場合は訂正器253でエラー
を訂正し、訂正後のデータをプロセッサに返す。比較器
257によって、エラー検出時のシンドロームが訂正不
可パターンと一致していると判別された場合は、エラー
リプライ生成器265によって、要求元のプロセッサに
エラーを通知する。
ッシュ251に存在しない場合は、メインメモリ20に
対して読み出し動作を実行する。その場合、対象となる
リードデータをメモリ201から読み出す。そして、読
み出したデータとECCに対して訂正器203によるエ
ラー訂正203と、エラー検出器205によるエラー検
出を実行する。エラー訂正後のデータとECCは、シス
テムバスを経由して、システムキャッシュユニット25
に送られる。
キャッシュユニット25は受け取り、訂正器252によ
るエラー訂正とエラー検出器254によるエラー検出を
実行する。エラー訂正後のデータは、要求元のプロセッ
サに返されると同時に、システムキャッシュ251に格
納する。比較器256によってエラー検出時のシンドロ
ームが訂正不可パターンと一致していると判別された場
合は、エラーリプラリ生成器264によって、要求元の
プロセッサにエラーを通知する。
をリードする場合は、メモリ201読み出し時のエラー
検出と、システムバスからデータを受け取った時点のエ
ラー検出を実行することになる。従って、メモリ201
読み出し時に訂正可エラーが発生した場合は、訂正器2
03により訂正後のデータがシステムバスに出力される
ため障害報告は、エラー検出器205からのみ行うが、
メモリ201読み出し時に訂正不可エラーが発生した場
合は、エラーデータがそのままシステムバスに出力され
るため、エラー検出器205,254の両方から障害報
告を行う。
テムキャッシュ251に格納するため、同じシステムキ
ャッシュ25に接続している別プロセッサから同一デー
タのリードを実行すると、訂正不可のエラーデータをシ
ステムキャッシュ251から読み出した時点でエラー検
出器255によって再び障害報告を行う。特に、ストア
イン方式のキャッシュの場合、システムキャッシュ25
1の内容をメモリ201に書戻す処理があるので、上記
のように訂正不可データをシステムキャッシュ251に
格納した場合は、そのデータがメモリに書戻される処理
に伴い、システムキャッシュ251の内容を読み出した
時点で、エラー検出器255で障害報告し、さらに、シ
ステムバスを経由し、メインメモリ20で受け取るデー
タに対して、エラー検出204で障害報告を行う。
障害に対して、複数ヶ所から、しかも時間軸に関係なく
障害を報告する。しかも、その報告では障害個所が特定
できない。従来装置が、エラーデータを持ちまわってい
る理由は、訂正不可となった不正なデータの内容をプロ
セッサが参照した場合に確実にエラーリプライ等で要求
元プロセッサに通知する必要があるためである。不正な
データであることが通知できない場合が発生してしまう
と、データ化け等、不正動作が生じるため、確実に通知
できなければならない。
より実行される障害処理およびプロセッサに対するエラ
ー通知により実行されるショブまたはプロセス再実行処
理等によって正しい内容に書き替えられるまで必要とな
る。
の読み出し動作等が実行される際もエラー検出し、障害
報告を行うため、同一障害かどうかの判定も含めて、障
害処理が極めて複雑になっている。
て、エラー発生のメモリヶ所を特定できるようにしたメ
モリシステムが特開平04−309137に記載されて
いる。このシステムは、メモリ部のデータ転送時にメモ
リ部固有のビット情報を生成し、専用バスを通して専用
レジスタに格納し、エラー発生時に照合することにより
エラー発生ヶ所を特定できるようにしたものである。
複数ヶ所から時間軸に関係なく行われる。さらに、この
方式を用いても、システムキャッシュに格納した訂正不
可エラーのデータに対しては、メモリ部固有のビット情
報を持ちまわっていないため、再びシステムキャッシュ
から訂正不可エラーのデータを読み出した際には、エラ
ー発生の場所から特定できない障害を報告してしまう。
仮に、メモリ部固有のビット情報をシステムキャッシュ
に格納し持ちまわる方式を用いたとしても、メモリ部固
有のビット情報が最小の2〜3ビットだとし、4Mバイ
トのシステムキャッシュに対して、ブロック単位(32
バイト)にビット情報を持ったとなると、256Kビッ
ト〜384KビットのRAMが必要になってしまう。こ
のため、システムキャッシュの大容量化と複数化が進
み、現状のシステムに対しては、多大なハードウェアを
必要とすることになり非現実的である。
する方式が、特開平03−63855に記載されてい
る。この方式は、ストアスルー方式のキャッシュに関す
るものであるが、訂正不可のエラーが発生した場合、同
一のデータを保持している別のキャッシュから、正しい
データをリカバリすることを特徴としている。しかし、
別のキャッシュにデータが存在しない場合は、効果が得
られず、特にマルチプロセッサシステムにおいては、デ
ータの大部分は、そのプロセス固有のデータであること
が多いので、別キャッシュからリカバリできる可能性
は、あまり期待できない。
ラーが発生した場合、リカバリができなければ、前記と
同様にエラー発生ヶ所の特定できない障害報告を複数報
告することになってしまう。
は、訂正不可エラーが発生した場合に、1つの要因で発
生した障害であっても、複数個所から、障害発生ヶ所が
特定できない障害を報告してしまい、複雑な障害処理が
必要になるという欠点がある。
複数個所の部品交換が必要になるという欠点がある。
の発生を確実に通知するためには障害報告がそのつど行
われてしまい、障害報告を抑止すると確実に要求元のプ
ロセッサに対してエラーの発生が通知できないという、
相反する問題点をかかえている。
メモリ,システムキャッシュおよび、それらを複数個接
続することができるシステムバスまたはインタフェース
のそれぞれに、ECCによる誤り訂正・エラー検出機能
を有しているマッチプロセッサシステムにおけるデータ
障害処理装置において、データとECCから生成するシ
ンドロームに対して、使用していないシンドロームの任
意のパターンをチェック抑止パターンとして割り当てて
おき、メモリ,キャッシュおよびシステムバスのデータ
に対して、訂正不可の障害を検出した場合に、シンドロ
ームが前記チェック抑止パターンとなるようにECCを
変換して、メモリおよびキャッシュに格納するECC変
換手段と、データのチェック時にデータとECCから生
成したシンドロームが、前記チェック抑止パターンに該
当することを検出するチェック抑止パターン検出手段
と、この場合には障害報告を抑止する障害報告抑止手段
と、要求元のプロセッサに対して出力するデータでエラ
ーが検出された場合に、シンドロームが訂正不可パター
ンの場合もしくはチェック抑止パターンの場合は、要求
元のプロセッサに対してエラーの発生を通知するエラー
発生通知手段とを有することを特徴とする。
ある。本例は、メインメモリ10とシステムキャッシュ
ユニット15のそれぞれ複数個をシステムバスにより接
続し、システムキャッシュユニット15に複数個の各プ
ロセッサを接続し、構成しているマルチプロセッサシス
テムであるが、便宜上、メインメモリとシステムキャッ
シュユニットについては1個のみを示している。
実現している。1つ目の機能は、メインメモリ10の読
み出し機能であり、システムキャッシュユニット15か
らの読み出し要求を受け付けると、読み出し要求に対応
するエントリーの内容をメモり101から読み出し、シ
ステムバスを介してシステムキャッシュユニット15に
対して出力する。2つ目の機能は、メインメモリ10へ
の書き込み機能であり、システムキャッシュユニット1
5からの書き込み要求を受け付けると、システムバスを
介してシステムキャッシュユニット15が出力するデー
タを受け取り、書き込み要求に対応するメモリ101の
内容を受け取ったデータで更新する。次に、メインメモ
リ10の構成について説明する。メモリ101は、デー
タとデータに対するECCを格納している記憶装置であ
り、メインメモリ10に対する読み出し要求に応じてメ
モリ101からデータとECCを読み出す。訂正器10
3は、メモリ101から読み出したデータとECCを受
け取り、エラーの訂正を実行し訂正後のデータと訂正し
たデータに対するECCを出力する。同時にエラー検出
器105は、読み出したデータとECCからシンドロー
ムを生成し、エラーの有無を検出する。エラー検出器1
05で生成したシンドロームを比較器107と111に
出力する。比較器107は、シンドロームが訂正不可パ
ターンと一致していることを検出する。比較器111
は、シンドロームがチェック抑止パターンと一致してい
ることを検出する。ANDゲート113は、エラー検出
器105と比較器111からの検出信号を受け取り、障
害の報告を実行する。ECC変換器109は、比較器1
07からの検出信号を受け取り、訂正器103が出力す
るECCの値を任意の値に変換する。訂正器103が出
力するデータとECC変換器109が出力するECCの
値を、読み出し要求に対するリプライデータとしてシス
テムバスに出力する。メインメモリ10に対する書き込
み要求時は、システムバスからデータとECCを受け取
る。訂正器102は、システムバスからのデータとEC
Cを受け取り、エラーの訂正を実行し訂正後のデータと
訂正したデータに対するECCを出力する。同時にエラ
ー検出器104は、読み出したデータとECCからシン
ドロームを生成し、エラーの有無を検出する。エラー検
出器104で生成したシンドロームを比較器106と1
10に出力する。比較器106は、シンドロームが訂正
不可パターンと一致していることを検出する。比較器1
10は、シンドロームがチェック抑止パターンと一致し
ていることを検出する。ANDゲート112は、エラー
検出器104と比較器110からの検出信号を受け取
り、障害の報告を実行する。ECC変換器108は、比
較器106からの検出信号を受け取り訂正器102が出
力するECCの値を任意の値に変換する。訂正器102
が出力するデータとECC変換器108が出力するEC
Cの値で、書き込み要求に対応するメモリ101のエン
トリーの内容を更新する。
は、システムキャッシュ151と、システムバスのデー
タとECCに対する訂正器152,エラー検出器154
と、システムキャッシュのデータとECCに対する訂正
器153,エラー検出器155と、エラー検出器154
がエラーを検出した場合のシンドロームが訂正不可パタ
ーンと一致していることを判別する比較器156と、エ
ラー検出器155がエラーを検出した場合のシンドロー
ムが訂正不可パターンと一致しているかを判別する比較
器157と、訂正不可パターン時に要求元のプロセッサ
にエラーを通知するためのエラーリプライ生成器16
4,165と、エラー検出器154,155がシステム
バスおよびシステムキャッシュ151のデータとECC
でエラーを検出した場合のシンドロームがチェック抑止
パターンと一致しているかを判別する比較器160,1
61と、チェック抑止パターン以外の時に障害報告する
ANDゲート162,163と、上記シンドロームが訂
正不可パターンと一致していることを比較器156,1
57で検出した場合にシンドロームがチェック抑止パタ
ーンとなるようにECCを変換するECC変換器15
8,159と、チェック抑止パターンを比較器160,
161で検出した場合にも要求元のプロセッサにエラー
を通知するエラーリプライ生成器164,165とで構
成されている。
ーンのシンドローム例を図2に示す。本例では、シンド
ロームのビット(0)〜(6)が“1111111”と
なるパターンをチェック抑止パターンとして設定した
が、任意の値に設定可能である。
ト誤り検出符号図についてのシンドローム判別図を示す
が、図3によると、シンドローム(0)〜(6)の値が
“1”となるビットの数によって、エラーの識別が可能
となるため、本実施例を説明するのに最も適したパター
ンとして前記パターンを採用した。また、前記チェック
抑止パターンを採用することによって、ECC変換器1
08,109,158,159と、比較器110,11
1,160,161が簡単なハードウェアで実現でき
る。
59は、すべて同じ構成であるので図4を用いて、EC
C変換器108について説明する。
ンドロームが訂正不可パターンの場合に、訂正不可のエ
ラーとなったデータとECCのシンドロームがチェック
抑止パターンとなるようにECCを変換する機能を持
つ。図4に示すように、ECC変換器108に対する入
力は、訂正器102が出力する訂正後のECC(0)〜
(6)の値と、シンドローム(0)〜(6)の値と、比
較器106が出力する訂正不可パターン検出信号であ
る。ECC変換器108が出力するものは、変換後のE
CC(0)〜(6)であり、メモリ101に対して供給
される。訂正器102が出力する訂正後のECC(0)
〜(6)の値は、訂正可エラーの場合は訂正後の値を、
それ以外の場合は訂正しないそのままの値を出力する。
する対象となるビットは、シンドローム(0)〜(6)
を全て“1”とすることを目的とするのでシンドローム
の値が“0”のビットが対象となる。従って、インバー
タ1081により、シンドロームの値が“0”の条件を
検出し、さらにANDゲート1082により訂正不可パ
ターン検出との論理積をとることにより、ECCの値を
変換する条件が生成できる。ANDゲート1082の出
力と訂正後のECCの値を、XORゲート1083によ
り排他的論理和を実行することにより、対象となるビッ
トのECCの値を反転することができる。
致しているかを判別する比較器110,111,16
0,161は、すべて同じ構成であるので図5を用いて
比較器110を説明する。
抑止パターン以外であることを検出し、障害報告のAN
Dゲート112に出力する。比較器110に対する入力
は、エラー検出器104からのシンドローム(0)〜
(6)である。ANDゲート1101によりシンドロー
ム(0)〜(6)の論理積を実行し、チェック抑止パタ
ーンであることを検出し、さらにインバータ1102に
より、テック抑止パターン以外であることを検出する。
その結果を障害報告ANDゲート112に出力し、AN
Dゲート112はエラー検出器104の信号と論理積を
とることにより、チェック抑止パターン以外の時のみ障
害報告を実行する。また、同じ構成の比較器160,1
61は、ANDゲート1101の出力,すなわち、チェ
ック抑止パターンの検出をエラーリプライ生成器16
4,165に出力する。エラーリプライ生成器は、シン
ドロームが訂正不可パターン時と、チェック抑止パター
ン時に要求元プロセッサにエラーを通知する。
本発明の効果が期待されるケースは、訂正不可エラーが
発生したケースであるから、プロセッサからメモリリー
ドリクエストがあり、メモリで訂正不可エラーが発生し
た場合の動作について説明する。
は、まずシステムキャッシュユニット15で処理し、シ
ステムキャッシュ151を索引する。対象となるリード
データがシステムキャッシュ151に存在する場合は、
システムキャッシュ151から読み出したデータとEC
Cを、エラー訂正器153と、エラー検出器155で処
理する。エラーが検出されない時、および訂正可エラー
の時は正しい内容のデータを訂正器153が出力し、要
求元のプロセッサにデータを返す。
シュ151に存在しない場合に、メインメモリ20に対
して読み出し動作を実行する。その場合、メモリ101
から対象となるリードデータとECCを読み出す。この
データで訂正不可エラーが発生した場合を想定する。メ
モリ101から読み出したデータとECCをエラー訂正
器103と、エラー検出器105で処理する。訂正不可
エラーが発生しているため、エラー訂正器103がデー
タとECCから生成したシンドロームは、図2に示した
訂正可パターンとは一致するものが存在しない。従っ
て、エラー訂正器103は、データおよびECCを訂正
せず入力した値をそのまま出力する。エラー検出器10
5は、データとECCからシンドロームを生成し、図3
に示したようにシンドローム(0)〜(6)の値が全て
“0”でないので、エラーを検出する。訂正不可エラー
が発生しているため、シンドローム(0)〜(6)の値
が“1”となるビット数は、2,4,6コのいずれかで
ある。エラー検出器105は、エラー検出を障害報告の
ANDゲート113へ出力し、シンドローム(0)〜
(6)をチェック抑止パターン以外検出の比較器111
と、訂正不可パターンの比較器107に出力する。
11を、同じ構成図5の比較器110を用いて説明す
る。図5に示したチェック抑止パターン以外検出の比較
器110は、図3に従ってシンドローム(0)〜(6)
の値が全て“1”のチェック抑止パターン以外であるこ
とを検出する。訂正不可パターンであるため、シンドロ
ーム(0)〜(6)の値は、全て“1”ではないのでA
NDゲート1101の出力は“0”となり、インバータ
1102によって反転し“1”を出力する。従って、シ
ンドロームがチェック抑止パターン以外の場合は、比較
器111は“1”を障害報告ANDゲート113に出力
する。障害報告ANDゲート113は、エラー検出器1
05が出力するエラー検出の信号と、チェック抑止パタ
ーン以外検出の比較器111が出力する信号の論理積を
とり障害報告を行う。従って、訂正不可エラーの場合は
エラー検出器105の出力と、比較器111の出力は両
方とも“1”となるので、ANDゲート113の出力は
“1”となり障害報告を行う。訂正不可パターンの比較
器107は、図3に従って、エラー検出器105が出力
するシンドローム(0)〜(6)の値が“1”となるビ
ットの数が、2コまたは4コまた6コであることを検出
する。従って、訂正不可エラーの場合は、比較器107
から“1”を、ECC変換器109に出力する。
4のECC変換器108を用いて説明する。図中のEC
C変換器108は109に、比較器106は107に、
訂正器102は103に、それぞれ読み替える。ECC
変換器109は、比較器107から入力する訂正不可パ
ターンの検出が“1”である場合に、シンドロームをチ
ェック抑止パターンとなるようにECCを変換する。従
って訂正不可エラーが発生した場合は、エラー訂正器1
03が出力するシンドロームの値が“0”であるビット
のECCの値を反転し、出力する。
出力するデータと、ECC変換器109が出力するEC
Cをメインメモリ10からシステムバスに出力する。
ステムバスのデータとECCを受け取り、エラー訂正器
152とエラー検出器154で処理する。システムバス
に出力する前に、ECC変換器109によりECCが変
換しているため、エラー訂正器152が生成するシンド
ロームは全て“1”のチェック抑止パターンとなる。従
って、エラー訂正器152はデータおよびECCを訂正
せずに出力する。エラー検出器154は、図3に示した
ように、シンドロームがすべて“0”でないのでエラー
の検出を行い、障害報告ANDゲート162に対して
“1”を出力する。また、シンドロームをチェック抑止
パターン以外検出の比較器160と、訂正不可パターン
の比較器156に出力する。
60について、同じ構成の図5の比較器110を用いて
説明する。エラー検出器154が出力するシンドローム
は、全て“1”であるため、ANDゲート1101の出
力は“1”となり、インバータ1102で“0”に反転
する。従って、チェック抑止パターン以外検出の比較器
160は“0”を障害報告ANDゲート162に出力
し、“1”をエラーリプライ生成器164に出力する。
従って、障害報告ANDゲート162は、比較器160
からの入力が“0”であるため、出力値が“0”となり
障害報告を行わない。訂正不可パターンの比較器156
は、エラー検出器154が生成したシンドロームが全て
“1”であるため、エラーリプライ生成器164と、E
CC変換器158に値“0”を出力する。エラーリプラ
イ生成器164は、シンドロームがチェック抑止パター
ン一致時に比較器160が出力する値と、訂正不可パタ
ーン時に比較器156が出力する値の論理和により、要
求元のプロセッサにエラーを通知する。
出力するデータを要求元のプロセッサに出力するのと同
時に、エラーリプライ生成器164からエラーを通知す
る。また、ECC変換器158は、訂正不可パターンの
比較器156が“0”を出力したため、ECCの変換を
実行しない。すなわち、シンドロームが全て“1”のチ
ェック抑止パターンとなっているデータとECCを、そ
のままシステムキャッシュ151に格納する。
ック抑止パターンのシンドロームとなっているデータに
対するアクセスが、別プロセッサから実行した場合も同
様であり、チェック抑止パターンの比較器161は、障
害報告ANDゲート163に対して“0”を出力し、エ
ラーリプライ生成器165に対して“1”を出力する。
従って、図3に示したように、シンドロームがチェック
抑止パターン時は、障害の報告は行わず、要求元のプロ
セッサに対するエラー通知のみ実行する。また、データ
およびECCはそのままの値で出力するので状態が保存
できる。
うに、キャッシュの内容をメモリに書き戻したり、別キ
ャッシュに展開するシステムであっても、一度シンドロ
ームがチェック抑止パターンとなるようにECCを変換
すると、全てのシステムキャッシュの読み出し時、シス
テムバスのデータとECC受け取り時に、メモリ書き戻
し後の再読み出し時等すべての障害報告が抑止でき、し
かも、要求元のプロセッサに対しては、確実にエラーが
通知できるシステムが実現できる。従って、最初に障害
が発生した場所からのみ障害を報告する。
ECCを変換したデータに対しては、障害処理,また
は、ショブやプロセスの再実行等により、新たなデータ
を上書きすることにより簡単に正常な状態に戻すことが
できる。
に設定することによって、さらに1ビットの障害が発生
しても、図4に示すように“1”の数が6コである2ビ
ットエラーと同じ扱いになるので、障害に対して強く信
頼性の高いシステムが実現できる。
が発生した場合に、障害が最初に検出された場所からの
み障害報告が行われ、複数個所からの障害報告が抑止で
きる。そのため、障害処理が簡単になり、さらに障害対
象の特定が容易になる。
に、要求元のプロセッサに対してエラーの発生を確実に
通知できるため、障害発生時のデータ保証は、十分にな
される。しかも、訂正不可となったデータをアクセスす
るプロセッサが、どの場所にいようとも対応できるた
め、マルチプロセッサシステムに対して効果がある。
式のキャッシュに対応できる。
ビット誤り検出符号図である。
ある。
ート 164,165 エラーリプライ生成器
Claims (1)
- 【請求項1】 メインメモリ,システムキャッシュおよ
び、それらを複数個接続することができるシステムバス
またはインタフェースのそれぞれに、ECCによる誤り
訂正・エラー検出機能を有しているマッチプロセッサシ
ステムにおけるデータ障害処理装置において、 データとECCから生成するシンドロームに対して、使
用していないシンドロームの任意のパターンをチェック
抑止パターンとして割り当てておき、 メモリ,キャッシュおよびシステムバスのデータに対し
て、訂正不可の障害を検出した場合に、シンドロームが
前記チェック抑止パターンとなるようにECCを変換し
て、メモリおよびキャッシュに格納するECC変換手段
と、 データのチェック時にデータとECCから生成したシン
ドロームが、前記チェック抑止パターンに該当すること
を検出するチェック抑止パターン検出手段と、 この場合には障害報告を抑止する障害報告抑止手段と、 要求元のプロセッサに対して出力するデータでエラーが
検出された場合に、シンドロームが訂正不可パターンの
場合もしくはチェック抑止パターンの場合は、要求元の
プロセッサに対してエラーの発生を通知するエラー発生
通知手段とを有することを特徴とするデータ障害処理装
置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7063840A JP2731745B2 (ja) | 1995-03-23 | 1995-03-23 | データ障害処理装置 |
US08/620,568 US5719887A (en) | 1995-03-23 | 1996-03-22 | Data fault processing apparatus and method therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7063840A JP2731745B2 (ja) | 1995-03-23 | 1995-03-23 | データ障害処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08263453A JPH08263453A (ja) | 1996-10-11 |
JP2731745B2 true JP2731745B2 (ja) | 1998-03-25 |
Family
ID=13240947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7063840A Expired - Lifetime JP2731745B2 (ja) | 1995-03-23 | 1995-03-23 | データ障害処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5719887A (ja) |
JP (1) | JP2731745B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6519717B1 (en) * | 1999-10-06 | 2003-02-11 | Sun Microsystems Inc. | Mechanism to improve fault isolation and diagnosis in computers |
US6738942B1 (en) * | 2000-06-02 | 2004-05-18 | Vitesse Semiconductor Corporation | Product code based forward error correction system |
US7117420B1 (en) | 2001-05-17 | 2006-10-03 | Lsi Logic Corporation | Construction of an optimized SEC-DED code and logic for soft errors in semiconductor memories |
JP2012083992A (ja) * | 2010-10-13 | 2012-04-26 | Nec Computertechno Ltd | データ障害処理装置、及びデータ障害処理方法 |
US20120226949A1 (en) * | 2011-03-02 | 2012-09-06 | Texas Instruments Incorporated | Multi-Channel Bus Protection |
EP2677429A1 (en) * | 2012-06-18 | 2013-12-25 | Renesas Electronics Europe Limited | Error correction |
US9672180B1 (en) | 2014-08-06 | 2017-06-06 | Sanmina Corporation | Cache memory management system and method |
US9715428B1 (en) * | 2014-09-24 | 2017-07-25 | Sanmina Corporation | System and method for cache data recovery |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS592057B2 (ja) * | 1979-02-07 | 1984-01-17 | 株式会社日立製作所 | エラ−訂正・検出方式 |
US4388684A (en) * | 1981-03-27 | 1983-06-14 | Honeywell Information Systems Inc. | Apparatus for deferring error detection of multibyte parity encoded data received from a plurality of input/output data sources |
US4458349A (en) * | 1982-06-16 | 1984-07-03 | International Business Machines Corporation | Method for storing data words in fault tolerant memory to recover uncorrectable errors |
US5155843A (en) * | 1990-06-29 | 1992-10-13 | Digital Equipment Corporation | Error transition mode for multi-processor system |
US5274646A (en) * | 1991-04-17 | 1993-12-28 | International Business Machines Corporation | Excessive error correction control |
-
1995
- 1995-03-23 JP JP7063840A patent/JP2731745B2/ja not_active Expired - Lifetime
-
1996
- 1996-03-22 US US08/620,568 patent/US5719887A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5719887A (en) | 1998-02-17 |
JPH08263453A (ja) | 1996-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5274646A (en) | Excessive error correction control | |
US6292906B1 (en) | Method and apparatus for detecting and compensating for certain snoop errors in a system with multiple agents having cache memories | |
US6519717B1 (en) | Mechanism to improve fault isolation and diagnosis in computers | |
JPS6151241A (ja) | 制御記憶装置の誤り回復方式 | |
US4942575A (en) | Error connection device for parity protected memory systems | |
US6742159B2 (en) | Address parity error processing method, and apparatus and storage for the method | |
JP2731745B2 (ja) | データ障害処理装置 | |
US20030046628A1 (en) | Error method, system and medium | |
CN117413252A (zh) | 具有内置错误纠正和检测的存储器的错误率 | |
JP3068009B2 (ja) | 冗長化メモリのエラー訂正機構 | |
US4942578A (en) | Buffer control method and apparatus | |
US20210294691A1 (en) | Data processing device and data processing method | |
JP3450132B2 (ja) | キャッシュ制御回路 | |
JP2891897B2 (ja) | ストアインキャッシュの障害処理システム | |
JP2806856B2 (ja) | 誤り検出訂正回路の診断装置 | |
JPH05165719A (ja) | メモリアクセス処理装置 | |
US20240274218A1 (en) | Protecting memory controls and address | |
JPH0756816A (ja) | メモリの制御装置 | |
JPS59217298A (ja) | メモリエラ−救済方式 | |
JPH0230060B2 (ja) | ||
JPH0793171A (ja) | メモリアクセスにおける障害処理方法 | |
JPS6218066B2 (ja) | ||
JPH01133147A (ja) | データ処理装置 | |
JPS61112259A (ja) | キヤツシユメモリ装置の制御方式 | |
JPH01320558A (ja) | マイクロプログラム制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19971202 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071219 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081219 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091219 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091219 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101219 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101219 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 16 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |