JP2731745B2 - データ障害処理装置 - Google Patents

データ障害処理装置

Info

Publication number
JP2731745B2
JP2731745B2 JP7063840A JP6384095A JP2731745B2 JP 2731745 B2 JP2731745 B2 JP 2731745B2 JP 7063840 A JP7063840 A JP 7063840A JP 6384095 A JP6384095 A JP 6384095A JP 2731745 B2 JP2731745 B2 JP 2731745B2
Authority
JP
Japan
Prior art keywords
error
data
ecc
pattern
syndrome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP7063840A
Other languages
English (en)
Other versions
JPH08263453A (ja
Inventor
雅則 数野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP7063840A priority Critical patent/JP2731745B2/ja
Priority to US08/620,568 priority patent/US5719887A/en
Publication of JPH08263453A publication Critical patent/JPH08263453A/ja
Application granted granted Critical
Publication of JP2731745B2 publication Critical patent/JP2731745B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1044Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices with specific ECC/EDC distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Detection And Correction Of Errors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータ障害処理装置、特
にECCによる誤り訂正機能および、エラー検出機能を
有しているマルチプロセッサシステムに関し、特にデー
タ障害処理装置に関する。
【0002】
【従来の技術】メモリ,キャッシュおよび、それらを接
続しているシステムバスのデータ誤りについては、従来
からECCによる誤りの訂正とエラーの検出が行われて
いる。そして、訂正できない誤りが発生した場合は、誤
りの検出およびプロセッサに対する通知を実施してい
る。
【0003】図6に従来の一般的なECCによる誤り訂
正,エラー検出機能を持つマルチプロセッサシステムの
主としてデータ系の構成を示す。
【0004】このマルチプロセッサシステムは、メイン
メモリ20と、システムキャッシュユニット25から成
り、それぞれの複数個をシステムバスによって接続し構
成する。各システムキャッシュユニット25に複数個の
各プロセッサを接続し、マルチプロセッサシステムを構
成する。
【0005】メインメモリ20は、メモリ201と、メ
モリ201のデータとECCを訂正する訂正器203
と、システムバスのデータとECCを訂正する訂正器2
02と、メモリ201のデータとECCのエラーを検出
する検出器205と、システムバスのデータとECCの
エラーを検出するエラー検出器204とから構成され
る。
【0006】システムキャッシュユニット25は、シス
テムキャッシュ251と、システムキャッシュ251の
データとECCを訂正する訂正器253と、システムバ
スのデータとECCを訂正する訂正器252と、システ
ムキャッシュ251のデータとECCのエラーを検出す
る検出器254と、システムバスのデータとECCのエ
ラーを検出する検出器255と、エラー検出時のシンド
ロームが訂正不可パターンと一致していることを判別す
る比較器256,257と、訂正不可パターン時に要求
元のプロセッサにエラーを通知するためのエラーリプラ
イ生成器264,265とで構成される。
【0007】図2は、4バイト(32ビット)のデータ
に対する1ビット誤り訂正2ビット誤り検出符号として
一般的に用いられている1ビット誤り訂正、2ビット誤
り検出符号図である。
【0008】ECCは、データの“1”で示したビット
の排他的論理和によって求めることができる。例えば、
ECCビット(0)はデータのビット(0)〜(13)
の排他的論理和の結果により求めることができ、ECC
ビット(1)はデータのビット(0)〜(3),(14
〜23)の排他的論理和によって求めることができる。
【0009】また、シンドロームはデータの“1”で示
したビットと、ECCの“1”で示したビットの排他的
論理和によって求めることができる。例えば、シンドロ
ームのビット(0)はデータのビット(0)〜(13)
とECCのビット(0)の排他的論理和によって、シン
ドロームのビット(1)はデータのビット(0)〜
(3),(14)〜(23)とECCとビット(1)の
排他的論理和によって求めることができる。
【0010】図2に従って得られるシンドロームのビッ
ト(0)〜(6)の値を基に、エラーの訂正,障害の報
告および要求元プロセッサに対するエラー通知を図3に
示すシンドローム判別図に従って実行する。エラーが発
生していない場合は、シンドロームのビット(0)〜
(6)の値はいずれも“0”である。この場合は、エラ
ーの訂正,障害の報告,要求元プロセッサに対するエラ
ー通知とも実行しない。
【0011】1ビットエラーが発生した場合は、シンド
ロームのビット(0)〜(6)の値は、図2に示す訂正
可パターンのうちいずれか1つに適合する。例えば、シ
ンドロームのビット(0)〜(6)の値が“11010
00”の場合は、データのビット(0)の値がエラーし
たことが判り、ビット(0)〜(6)の値が“1000
000”の場合は、ECCのビット(0)の値がエラー
したことが判る。その場合データのビット(0)の値ま
たは、ECCのビット(0)の値を反転することによっ
て、正しいデータおよびECCを得ることができる。こ
れらのシンドロームを生成し、解読し、訂正する動作
は、図6のそれぞれの訂正器202,203,252,
253で実行している。また、1ビットエラーの場合
は、図3に示すように、障害の報告は、実行されるが、
要求元のプロセッサに対しては、訂正後の正しいデータ
を出力するためエラー通知は実行しない。
【0012】2ビットエラーが発生した場合は、データ
およびECCの訂正はできないが、エラーの検出はでき
る。この場合、シンドローム(0)〜(6)の値で
“1”となるビットの数は、2個,4個,6個のいずれ
かになるように、図2のパターンが設定されている。2
ビットエラーの場合、障害の報告を実行するとともに、
要求元のプロセッサに対しては、訂正できない不正なデ
ータを出力するため、図6に示す比較器256,257
による訂正不可エラーを検出しエラーリプライ生成器2
64,265によって要求元のプロセッサにエラーを通
知する。
【0013】なお、上記すべてのエラーの検出〜障害報
告は、図6のエラー検出器204,205,254,2
55で実行する。
【0014】次に、各プロセッサからのメモリリードリ
クエストがあった場合の動作について説明する。各プロ
セッサからのメモリリードリクエストは、まず、システ
ムキャッシュユニット25で処理し、システムキャッシ
ュ251を索引する。対象となるリードデータがシステ
ムキャッシュ251に存在する場合は、要求元のプロセ
ッサにリードデータを返す。その際、システムキャッシ
ュ251から読み出したデータおよびECCに対して、
訂正器253によるエラー訂正と、エラー検出器255
によるエラー検出を実行する。
【0015】エラーが検出された場合は、障害の報告を
行う。訂正可能なエラーの場合は訂正器253でエラー
を訂正し、訂正後のデータをプロセッサに返す。比較器
257によって、エラー検出時のシンドロームが訂正不
可パターンと一致していると判別された場合は、エラー
リプライ生成器265によって、要求元のプロセッサに
エラーを通知する。
【0016】対象となるリードデータが、システムキャ
ッシュ251に存在しない場合は、メインメモリ20に
対して読み出し動作を実行する。その場合、対象となる
リードデータをメモリ201から読み出す。そして、読
み出したデータとECCに対して訂正器203によるエ
ラー訂正203と、エラー検出器205によるエラー検
出を実行する。エラー訂正後のデータとECCは、シス
テムバスを経由して、システムキャッシュユニット25
に送られる。
【0017】システムバスのデータとECCをシステム
キャッシュユニット25は受け取り、訂正器252によ
るエラー訂正とエラー検出器254によるエラー検出を
実行する。エラー訂正後のデータは、要求元のプロセッ
サに返されると同時に、システムキャッシュ251に格
納する。比較器256によってエラー検出時のシンドロ
ームが訂正不可パターンと一致していると判別された場
合は、エラーリプラリ生成器264によって、要求元の
プロセッサにエラーを通知する。
【0018】このように、メインメモリ20からデータ
をリードする場合は、メモリ201読み出し時のエラー
検出と、システムバスからデータを受け取った時点のエ
ラー検出を実行することになる。従って、メモリ201
読み出し時に訂正可エラーが発生した場合は、訂正器2
03により訂正後のデータがシステムバスに出力される
ため障害報告は、エラー検出器205からのみ行うが、
メモリ201読み出し時に訂正不可エラーが発生した場
合は、エラーデータがそのままシステムバスに出力され
るため、エラー検出器205,254の両方から障害報
告を行う。
【0019】さらに、訂正不可のエラーデータは、シス
テムキャッシュ251に格納するため、同じシステムキ
ャッシュ25に接続している別プロセッサから同一デー
タのリードを実行すると、訂正不可のエラーデータをシ
ステムキャッシュ251から読み出した時点でエラー検
出器255によって再び障害報告を行う。特に、ストア
イン方式のキャッシュの場合、システムキャッシュ25
1の内容をメモリ201に書戻す処理があるので、上記
のように訂正不可データをシステムキャッシュ251に
格納した場合は、そのデータがメモリに書戻される処理
に伴い、システムキャッシュ251の内容を読み出した
時点で、エラー検出器255で障害報告し、さらに、シ
ステムバスを経由し、メインメモリ20で受け取るデー
タに対して、エラー検出204で障害報告を行う。
【0020】このように、従来装置では、1つの要因の
障害に対して、複数ヶ所から、しかも時間軸に関係なく
障害を報告する。しかも、その報告では障害個所が特定
できない。従来装置が、エラーデータを持ちまわってい
る理由は、訂正不可となった不正なデータの内容をプロ
セッサが参照した場合に確実にエラーリプライ等で要求
元プロセッサに通知する必要があるためである。不正な
データであることが通知できない場合が発生してしまう
と、データ化け等、不正動作が生じるため、確実に通知
できなければならない。
【0021】さらに、このエラーの通知は、障害報告に
より実行される障害処理およびプロセッサに対するエラ
ー通知により実行されるショブまたはプロセス再実行処
理等によって正しい内容に書き替えられるまで必要とな
る。
【0022】なお、これらの障害処理よりエラーデータ
の読み出し動作等が実行される際もエラー検出し、障害
報告を行うため、同一障害かどうかの判定も含めて、障
害処理が極めて複雑になっている。
【0023】このように複数ヶ所からの障害報告に対し
て、エラー発生のメモリヶ所を特定できるようにしたメ
モリシステムが特開平04−309137に記載されて
いる。このシステムは、メモリ部のデータ転送時にメモ
リ部固有のビット情報を生成し、専用バスを通して専用
レジスタに格納し、エラー発生時に照合することにより
エラー発生ヶ所を特定できるようにしたものである。
【0024】しかし、この方式においても、障害報告は
複数ヶ所から時間軸に関係なく行われる。さらに、この
方式を用いても、システムキャッシュに格納した訂正不
可エラーのデータに対しては、メモリ部固有のビット情
報を持ちまわっていないため、再びシステムキャッシュ
から訂正不可エラーのデータを読み出した際には、エラ
ー発生の場所から特定できない障害を報告してしまう。
仮に、メモリ部固有のビット情報をシステムキャッシュ
に格納し持ちまわる方式を用いたとしても、メモリ部固
有のビット情報が最小の2〜3ビットだとし、4Mバイ
トのシステムキャッシュに対して、ブロック単位(32
バイト)にビット情報を持ったとなると、256Kビッ
ト〜384KビットのRAMが必要になってしまう。こ
のため、システムキャッシュの大容量化と複数化が進
み、現状のシステムに対しては、多大なハードウェアを
必要とすることになり非現実的である。
【0025】また、訂正不可エラーのデータをリカバリ
する方式が、特開平03−63855に記載されてい
る。この方式は、ストアスルー方式のキャッシュに関す
るものであるが、訂正不可のエラーが発生した場合、同
一のデータを保持している別のキャッシュから、正しい
データをリカバリすることを特徴としている。しかし、
別のキャッシュにデータが存在しない場合は、効果が得
られず、特にマルチプロセッサシステムにおいては、デ
ータの大部分は、そのプロセス固有のデータであること
が多いので、別キャッシュからリカバリできる可能性
は、あまり期待できない。
【0026】従って、この方式によっても、訂正不可エ
ラーが発生した場合、リカバリができなければ、前記と
同様にエラー発生ヶ所の特定できない障害報告を複数報
告することになってしまう。
【0027】
【発明が解決しようとする課題】このように従来装置で
は、訂正不可エラーが発生した場合に、1つの要因で発
生した障害であっても、複数個所から、障害発生ヶ所が
特定できない障害を報告してしまい、複雑な障害処理が
必要になるという欠点がある。
【0028】さらに、障害対象が特定できないために、
複数個所の部品交換が必要になるという欠点がある。
【0029】また、要求元のプロセッサに対してエラー
の発生を確実に通知するためには障害報告がそのつど行
われてしまい、障害報告を抑止すると確実に要求元のプ
ロセッサに対してエラーの発生が通知できないという、
相反する問題点をかかえている。
【0030】
【課題を解決するための手段】本発明の装置は、メイン
メモリ,システムキャッシュおよび、それらを複数個接
続することができるシステムバスまたはインタフェース
のそれぞれに、ECCによる誤り訂正・エラー検出機能
を有しているマッチプロセッサシステムにおけるデータ
障害処理装置において、データとECCから生成するシ
ンドロームに対して、使用していないシンドロームの任
意のパターンをチェック抑止パターンとして割り当てて
おき、メモリ,キャッシュおよびシステムバスのデータ
に対して、訂正不可の障害を検出した場合に、シンドロ
ームが前記チェック抑止パターンとなるようにECCを
変換して、メモリおよびキャッシュに格納するECC変
換手段と、データのチェック時にデータとECCから生
成したシンドロームが、前記チェック抑止パターンに該
当することを検出するチェック抑止パターン検出手段
と、この場合には障害報告を抑止する障害報告抑止手段
と、要求元のプロセッサに対して出力するデータでエラ
ーが検出された場合に、シンドロームが訂正不可パター
ンの場合もしくはチェック抑止パターンの場合は、要求
元のプロセッサに対してエラーの発生を通知するエラー
発生通知手段とを有することを特徴とする。
【0031】
【実施例】図1は本発明の一実施例を示すブロック図で
ある。本例は、メインメモリ10とシステムキャッシュ
ユニット15のそれぞれ複数個をシステムバスにより接
続し、システムキャッシュユニット15に複数個の各プ
ロセッサを接続し、構成しているマルチプロセッサシス
テムであるが、便宜上、メインメモリとシステムキャッ
シュユニットについては1個のみを示している。
【0032】メインメモリ10は、以下の2つの機能を
実現している。1つ目の機能は、メインメモリ10の読
み出し機能であり、システムキャッシュユニット15か
らの読み出し要求を受け付けると、読み出し要求に対応
するエントリーの内容をメモり101から読み出し、シ
ステムバスを介してシステムキャッシュユニット15に
対して出力する。2つ目の機能は、メインメモリ10へ
の書き込み機能であり、システムキャッシュユニット1
5からの書き込み要求を受け付けると、システムバスを
介してシステムキャッシュユニット15が出力するデー
タを受け取り、書き込み要求に対応するメモリ101の
内容を受け取ったデータで更新する。次に、メインメモ
リ10の構成について説明する。メモリ101は、デー
タとデータに対するECCを格納している記憶装置であ
り、メインメモリ10に対する読み出し要求に応じてメ
モリ101からデータとECCを読み出す。訂正器10
3は、メモリ101から読み出したデータとECCを受
け取り、エラーの訂正を実行し訂正後のデータと訂正し
たデータに対するECCを出力する。同時にエラー検出
器105は、読み出したデータとECCからシンドロー
ムを生成し、エラーの有無を検出する。エラー検出器1
05で生成したシンドロームを比較器107と111に
出力する。比較器107は、シンドロームが訂正不可パ
ターンと一致していることを検出する。比較器111
は、シンドロームがチェック抑止パターンと一致してい
ることを検出する。ANDゲート113は、エラー検出
器105と比較器111からの検出信号を受け取り、障
害の報告を実行する。ECC変換器109は、比較器1
07からの検出信号を受け取り、訂正器103が出力す
るECCの値を任意の値に変換する。訂正器103が出
力するデータとECC変換器109が出力するECCの
値を、読み出し要求に対するリプライデータとしてシス
テムバスに出力する。メインメモリ10に対する書き込
み要求時は、システムバスからデータとECCを受け取
る。訂正器102は、システムバスからのデータとEC
Cを受け取り、エラーの訂正を実行し訂正後のデータと
訂正したデータに対するECCを出力する。同時にエラ
ー検出器104は、読み出したデータとECCからシン
ドロームを生成し、エラーの有無を検出する。エラー検
出器104で生成したシンドロームを比較器106と1
10に出力する。比較器106は、シンドロームが訂正
不可パターンと一致していることを検出する。比較器1
10は、シンドロームがチェック抑止パターンと一致し
ていることを検出する。ANDゲート112は、エラー
検出器104と比較器110からの検出信号を受け取
り、障害の報告を実行する。ECC変換器108は、比
較器106からの検出信号を受け取り訂正器102が出
力するECCの値を任意の値に変換する。訂正器102
が出力するデータとECC変換器108が出力するEC
Cの値で、書き込み要求に対応するメモリ101のエン
トリーの内容を更新する。
【0033】また、システムキャッシュユニット15
は、システムキャッシュ151と、システムバスのデー
タとECCに対する訂正器152,エラー検出器154
と、システムキャッシュのデータとECCに対する訂正
器153,エラー検出器155と、エラー検出器154
がエラーを検出した場合のシンドロームが訂正不可パタ
ーンと一致していることを判別する比較器156と、エ
ラー検出器155がエラーを検出した場合のシンドロー
ムが訂正不可パターンと一致しているかを判別する比較
器157と、訂正不可パターン時に要求元のプロセッサ
にエラーを通知するためのエラーリプライ生成器16
4,165と、エラー検出器154,155がシステム
バスおよびシステムキャッシュ151のデータとECC
でエラーを検出した場合のシンドロームがチェック抑止
パターンと一致しているかを判別する比較器160,1
61と、チェック抑止パターン以外の時に障害報告する
ANDゲート162,163と、上記シンドロームが訂
正不可パターンと一致していることを比較器156,1
57で検出した場合にシンドロームがチェック抑止パタ
ーンとなるようにECCを変換するECC変換器15
8,159と、チェック抑止パターンを比較器160,
161で検出した場合にも要求元のプロセッサにエラー
を通知するエラーリプライ生成器164,165とで構
成されている。
【0034】本発明で使用されているチェック抑止パタ
ーンのシンドローム例を図2に示す。本例では、シンド
ロームのビット(0)〜(6)が“1111111”と
なるパターンをチェック抑止パターンとして設定した
が、任意の値に設定可能である。
【0035】図3は、図2の1ビット誤り訂正,2ビッ
ト誤り検出符号図についてのシンドローム判別図を示す
が、図3によると、シンドローム(0)〜(6)の値が
“1”となるビットの数によって、エラーの識別が可能
となるため、本実施例を説明するのに最も適したパター
ンとして前記パターンを採用した。また、前記チェック
抑止パターンを採用することによって、ECC変換器1
08,109,158,159と、比較器110,11
1,160,161が簡単なハードウェアで実現でき
る。
【0036】ECC変換器108,109,158,1
59は、すべて同じ構成であるので図4を用いて、EC
C変換器108について説明する。
【0037】ECC変換器108は、エラー検出時のシ
ンドロームが訂正不可パターンの場合に、訂正不可のエ
ラーとなったデータとECCのシンドロームがチェック
抑止パターンとなるようにECCを変換する機能を持
つ。図4に示すように、ECC変換器108に対する入
力は、訂正器102が出力する訂正後のECC(0)〜
(6)の値と、シンドローム(0)〜(6)の値と、比
較器106が出力する訂正不可パターン検出信号であ
る。ECC変換器108が出力するものは、変換後のE
CC(0)〜(6)であり、メモリ101に対して供給
される。訂正器102が出力する訂正後のECC(0)
〜(6)の値は、訂正可エラーの場合は訂正後の値を、
それ以外の場合は訂正しないそのままの値を出力する。
【0038】訂正不可パターン時に、ECCの値を変換
する対象となるビットは、シンドローム(0)〜(6)
を全て“1”とすることを目的とするのでシンドローム
の値が“0”のビットが対象となる。従って、インバー
タ1081により、シンドロームの値が“0”の条件を
検出し、さらにANDゲート1082により訂正不可パ
ターン検出との論理積をとることにより、ECCの値を
変換する条件が生成できる。ANDゲート1082の出
力と訂正後のECCの値を、XORゲート1083によ
り排他的論理和を実行することにより、対象となるビッ
トのECCの値を反転することができる。
【0039】シンドロームがチェック抑止パターンと一
致しているかを判別する比較器110,111,16
0,161は、すべて同じ構成であるので図5を用いて
比較器110を説明する。
【0040】比較器110は、シンドロームがチェック
抑止パターン以外であることを検出し、障害報告のAN
Dゲート112に出力する。比較器110に対する入力
は、エラー検出器104からのシンドローム(0)〜
(6)である。ANDゲート1101によりシンドロー
ム(0)〜(6)の論理積を実行し、チェック抑止パタ
ーンであることを検出し、さらにインバータ1102に
より、テック抑止パターン以外であることを検出する。
その結果を障害報告ANDゲート112に出力し、AN
Dゲート112はエラー検出器104の信号と論理積を
とることにより、チェック抑止パターン以外の時のみ障
害報告を実行する。また、同じ構成の比較器160,1
61は、ANDゲート1101の出力,すなわち、チェ
ック抑止パターンの検出をエラーリプライ生成器16
4,165に出力する。エラーリプライ生成器は、シン
ドロームが訂正不可パターン時と、チェック抑止パター
ン時に要求元プロセッサにエラーを通知する。
【0041】次に、本実施例の動作について説明する。
本発明の効果が期待されるケースは、訂正不可エラーが
発生したケースであるから、プロセッサからメモリリー
ドリクエストがあり、メモリで訂正不可エラーが発生し
た場合の動作について説明する。
【0042】プロセッサからのメモリリードリクエスト
は、まずシステムキャッシュユニット15で処理し、シ
ステムキャッシュ151を索引する。対象となるリード
データがシステムキャッシュ151に存在する場合は、
システムキャッシュ151から読み出したデータとEC
Cを、エラー訂正器153と、エラー検出器155で処
理する。エラーが検出されない時、および訂正可エラー
の時は正しい内容のデータを訂正器153が出力し、要
求元のプロセッサにデータを返す。
【0043】対象となるリードデータがシステムキャッ
シュ151に存在しない場合に、メインメモリ20に対
して読み出し動作を実行する。その場合、メモリ101
から対象となるリードデータとECCを読み出す。この
データで訂正不可エラーが発生した場合を想定する。メ
モリ101から読み出したデータとECCをエラー訂正
器103と、エラー検出器105で処理する。訂正不可
エラーが発生しているため、エラー訂正器103がデー
タとECCから生成したシンドロームは、図2に示した
訂正可パターンとは一致するものが存在しない。従っ
て、エラー訂正器103は、データおよびECCを訂正
せず入力した値をそのまま出力する。エラー検出器10
5は、データとECCからシンドロームを生成し、図3
に示したようにシンドローム(0)〜(6)の値が全て
“0”でないので、エラーを検出する。訂正不可エラー
が発生しているため、シンドローム(0)〜(6)の値
が“1”となるビット数は、2,4,6コのいずれかで
ある。エラー検出器105は、エラー検出を障害報告の
ANDゲート113へ出力し、シンドローム(0)〜
(6)をチェック抑止パターン以外検出の比較器111
と、訂正不可パターンの比較器107に出力する。
【0044】チェック抑止パターン以外検出の比較器1
11を、同じ構成図5の比較器110を用いて説明す
る。図5に示したチェック抑止パターン以外検出の比較
器110は、図3に従ってシンドローム(0)〜(6)
の値が全て“1”のチェック抑止パターン以外であるこ
とを検出する。訂正不可パターンであるため、シンドロ
ーム(0)〜(6)の値は、全て“1”ではないのでA
NDゲート1101の出力は“0”となり、インバータ
1102によって反転し“1”を出力する。従って、シ
ンドロームがチェック抑止パターン以外の場合は、比較
器111は“1”を障害報告ANDゲート113に出力
する。障害報告ANDゲート113は、エラー検出器1
05が出力するエラー検出の信号と、チェック抑止パタ
ーン以外検出の比較器111が出力する信号の論理積を
とり障害報告を行う。従って、訂正不可エラーの場合は
エラー検出器105の出力と、比較器111の出力は両
方とも“1”となるので、ANDゲート113の出力は
“1”となり障害報告を行う。訂正不可パターンの比較
器107は、図3に従って、エラー検出器105が出力
するシンドローム(0)〜(6)の値が“1”となるビ
ットの数が、2コまたは4コまた6コであることを検出
する。従って、訂正不可エラーの場合は、比較器107
から“1”を、ECC変換器109に出力する。
【0045】ECC変換器109について、同構成の図
4のECC変換器108を用いて説明する。図中のEC
C変換器108は109に、比較器106は107に、
訂正器102は103に、それぞれ読み替える。ECC
変換器109は、比較器107から入力する訂正不可パ
ターンの検出が“1”である場合に、シンドロームをチ
ェック抑止パターンとなるようにECCを変換する。従
って訂正不可エラーが発生した場合は、エラー訂正器1
03が出力するシンドロームの値が“0”であるビット
のECCの値を反転し、出力する。
【0046】上記の処理により、エラー訂正器103が
出力するデータと、ECC変換器109が出力するEC
Cをメインメモリ10からシステムバスに出力する。
【0047】システムキャッシュユニット15は上記シ
ステムバスのデータとECCを受け取り、エラー訂正器
152とエラー検出器154で処理する。システムバス
に出力する前に、ECC変換器109によりECCが変
換しているため、エラー訂正器152が生成するシンド
ロームは全て“1”のチェック抑止パターンとなる。従
って、エラー訂正器152はデータおよびECCを訂正
せずに出力する。エラー検出器154は、図3に示した
ように、シンドロームがすべて“0”でないのでエラー
の検出を行い、障害報告ANDゲート162に対して
“1”を出力する。また、シンドロームをチェック抑止
パターン以外検出の比較器160と、訂正不可パターン
の比較器156に出力する。
【0048】チェック抑止パターン以外検出の比較器1
60について、同じ構成の図5の比較器110を用いて
説明する。エラー検出器154が出力するシンドローム
は、全て“1”であるため、ANDゲート1101の出
力は“1”となり、インバータ1102で“0”に反転
する。従って、チェック抑止パターン以外検出の比較器
160は“0”を障害報告ANDゲート162に出力
し、“1”をエラーリプライ生成器164に出力する。
従って、障害報告ANDゲート162は、比較器160
からの入力が“0”であるため、出力値が“0”となり
障害報告を行わない。訂正不可パターンの比較器156
は、エラー検出器154が生成したシンドロームが全て
“1”であるため、エラーリプライ生成器164と、E
CC変換器158に値“0”を出力する。エラーリプラ
イ生成器164は、シンドロームがチェック抑止パター
ン一致時に比較器160が出力する値と、訂正不可パタ
ーン時に比較器156が出力する値の論理和により、要
求元のプロセッサにエラーを通知する。
【0049】上記の処理により、エラー訂正器152が
出力するデータを要求元のプロセッサに出力するのと同
時に、エラーリプライ生成器164からエラーを通知す
る。また、ECC変換器158は、訂正不可パターンの
比較器156が“0”を出力したため、ECCの変換を
実行しない。すなわち、シンドロームが全て“1”のチ
ェック抑止パターンとなっているデータとECCを、そ
のままシステムキャッシュ151に格納する。
【0050】システムキャッシュ151に格納したチェ
ック抑止パターンのシンドロームとなっているデータに
対するアクセスが、別プロセッサから実行した場合も同
様であり、チェック抑止パターンの比較器161は、障
害報告ANDゲート163に対して“0”を出力し、エ
ラーリプライ生成器165に対して“1”を出力する。
従って、図3に示したように、シンドロームがチェック
抑止パターン時は、障害の報告は行わず、要求元のプロ
セッサに対するエラー通知のみ実行する。また、データ
およびECCはそのままの値で出力するので状態が保存
できる。
【0051】さらに、ストアイン方式のキャッシュのよ
うに、キャッシュの内容をメモリに書き戻したり、別キ
ャッシュに展開するシステムであっても、一度シンドロ
ームがチェック抑止パターンとなるようにECCを変換
すると、全てのシステムキャッシュの読み出し時、シス
テムバスのデータとECC受け取り時に、メモリ書き戻
し後の再読み出し時等すべての障害報告が抑止でき、し
かも、要求元のプロセッサに対しては、確実にエラーが
通知できるシステムが実現できる。従って、最初に障害
が発生した場所からのみ障害を報告する。
【0052】なお、チェック抑止パターンとなるように
ECCを変換したデータに対しては、障害処理,また
は、ショブやプロセスの再実行等により、新たなデータ
を上書きすることにより簡単に正常な状態に戻すことが
できる。
【0053】また、チェック抑止パターンを全て“1”
に設定することによって、さらに1ビットの障害が発生
しても、図4に示すように“1”の数が6コである2ビ
ットエラーと同じ扱いになるので、障害に対して強く信
頼性の高いシステムが実現できる。
【0054】
【発明の効果】本発明により、訂正不可のデータエラー
が発生した場合に、障害が最初に検出された場所からの
み障害報告が行われ、複数個所からの障害報告が抑止で
きる。そのため、障害処理が簡単になり、さらに障害対
象の特定が容易になる。
【0055】また、複雑なハードウェアを必要とせず
に、要求元のプロセッサに対してエラーの発生を確実に
通知できるため、障害発生時のデータ保証は、十分にな
される。しかも、訂正不可となったデータをアクセスす
るプロセッサが、どの場所にいようとも対応できるた
め、マルチプロセッサシステムに対して効果がある。
【0056】さらに、ストアイン,ストアアスルー両方
式のキャッシュに対応できる。
【図面の簡単な説明】
【図1】本発明の一実施例のブロック図である。
【図2】4バイトデータに対する1ビット誤り訂正,2
ビット誤り検出符号図である。
【図3】シンドローム判別図である。
【図4】本発明のECC変換器詳細図である。
【図5】本発明のチェック抑止パターン比較器詳細図で
ある。
【図6】従来装置のブロック図である。
【符号の説明】
10 メインメモリ 15 システムキャッシュユニット 101 メモリ 151 システムキャシュ 102,103,152,153 訂正器 104,105,154,155 エラー検出器 106,107,156,157 比較器 108,109,158,159 ECC変換器 110,111,160,161 比較器 112,113,162,163 障害報告ANDゲ
ート 164,165 エラーリプライ生成器

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 メインメモリ,システムキャッシュおよ
    び、それらを複数個接続することができるシステムバス
    またはインタフェースのそれぞれに、ECCによる誤り
    訂正・エラー検出機能を有しているマッチプロセッサシ
    ステムにおけるデータ障害処理装置において、 データとECCから生成するシンドロームに対して、使
    用していないシンドロームの任意のパターンをチェック
    抑止パターンとして割り当てておき、 メモリ,キャッシュおよびシステムバスのデータに対し
    て、訂正不可の障害を検出した場合に、シンドロームが
    前記チェック抑止パターンとなるようにECCを変換し
    て、メモリおよびキャッシュに格納するECC変換手段
    と、 データのチェック時にデータとECCから生成したシン
    ドロームが、前記チェック抑止パターンに該当すること
    を検出するチェック抑止パターン検出手段と、 この場合には障害報告を抑止する障害報告抑止手段と、 要求元のプロセッサに対して出力するデータでエラーが
    検出された場合に、シンドロームが訂正不可パターンの
    場合もしくはチェック抑止パターンの場合は、要求元の
    プロセッサに対してエラーの発生を通知するエラー発生
    通知手段とを有することを特徴とするデータ障害処理装
    置。
JP7063840A 1995-03-23 1995-03-23 データ障害処理装置 Expired - Lifetime JP2731745B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7063840A JP2731745B2 (ja) 1995-03-23 1995-03-23 データ障害処理装置
US08/620,568 US5719887A (en) 1995-03-23 1996-03-22 Data fault processing apparatus and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7063840A JP2731745B2 (ja) 1995-03-23 1995-03-23 データ障害処理装置

Publications (2)

Publication Number Publication Date
JPH08263453A JPH08263453A (ja) 1996-10-11
JP2731745B2 true JP2731745B2 (ja) 1998-03-25

Family

ID=13240947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7063840A Expired - Lifetime JP2731745B2 (ja) 1995-03-23 1995-03-23 データ障害処理装置

Country Status (2)

Country Link
US (1) US5719887A (ja)
JP (1) JP2731745B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519717B1 (en) * 1999-10-06 2003-02-11 Sun Microsystems Inc. Mechanism to improve fault isolation and diagnosis in computers
US6738942B1 (en) * 2000-06-02 2004-05-18 Vitesse Semiconductor Corporation Product code based forward error correction system
US7117420B1 (en) 2001-05-17 2006-10-03 Lsi Logic Corporation Construction of an optimized SEC-DED code and logic for soft errors in semiconductor memories
JP2012083992A (ja) * 2010-10-13 2012-04-26 Nec Computertechno Ltd データ障害処理装置、及びデータ障害処理方法
US20120226949A1 (en) * 2011-03-02 2012-09-06 Texas Instruments Incorporated Multi-Channel Bus Protection
EP2677429A1 (en) * 2012-06-18 2013-12-25 Renesas Electronics Europe Limited Error correction
US9672180B1 (en) 2014-08-06 2017-06-06 Sanmina Corporation Cache memory management system and method
US9715428B1 (en) * 2014-09-24 2017-07-25 Sanmina Corporation System and method for cache data recovery

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS592057B2 (ja) * 1979-02-07 1984-01-17 株式会社日立製作所 エラ−訂正・検出方式
US4388684A (en) * 1981-03-27 1983-06-14 Honeywell Information Systems Inc. Apparatus for deferring error detection of multibyte parity encoded data received from a plurality of input/output data sources
US4458349A (en) * 1982-06-16 1984-07-03 International Business Machines Corporation Method for storing data words in fault tolerant memory to recover uncorrectable errors
US5155843A (en) * 1990-06-29 1992-10-13 Digital Equipment Corporation Error transition mode for multi-processor system
US5274646A (en) * 1991-04-17 1993-12-28 International Business Machines Corporation Excessive error correction control

Also Published As

Publication number Publication date
US5719887A (en) 1998-02-17
JPH08263453A (ja) 1996-10-11

Similar Documents

Publication Publication Date Title
US5274646A (en) Excessive error correction control
US6292906B1 (en) Method and apparatus for detecting and compensating for certain snoop errors in a system with multiple agents having cache memories
US6519717B1 (en) Mechanism to improve fault isolation and diagnosis in computers
JPH02135536A (ja) チエツクポイント再試行機構
JPS6151241A (ja) 制御記憶装置の誤り回復方式
US4942575A (en) Error connection device for parity protected memory systems
US6742159B2 (en) Address parity error processing method, and apparatus and storage for the method
JP2731745B2 (ja) データ障害処理装置
US20030046628A1 (en) Error method, system and medium
JP3068009B2 (ja) 冗長化メモリのエラー訂正機構
US4942578A (en) Buffer control method and apparatus
CN117413252A (zh) 具有内置错误纠正和检测的存储器的错误率
US20210294691A1 (en) Data processing device and data processing method
JP3450132B2 (ja) キャッシュ制御回路
JP2891897B2 (ja) ストアインキャッシュの障害処理システム
JPH05165719A (ja) メモリアクセス処理装置
JPS59217298A (ja) メモリエラ−救済方式
JPH0793171A (ja) メモリアクセスにおける障害処理方法
JPS6218066B2 (ja)
JPH04311236A (ja) メモリエラー処理回路
JPH01133147A (ja) データ処理装置
JPS61112259A (ja) キヤツシユメモリ装置の制御方式
JPS59201296A (ja) Ecc付メモリの誤り訂正チエツク方式
JPH01320558A (ja) マイクロプログラム制御装置
JPH02110741A (ja) マイクロプログラム制御装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971202

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071219

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091219

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091219

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101219

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101219

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 16

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term