JPS603769A - エラ−回復方法 - Google Patents

エラ−回復方法

Info

Publication number
JPS603769A
JPS603769A JP59107677A JP10767784A JPS603769A JP S603769 A JPS603769 A JP S603769A JP 59107677 A JP59107677 A JP 59107677A JP 10767784 A JP10767784 A JP 10767784A JP S603769 A JPS603769 A JP S603769A
Authority
JP
Japan
Prior art keywords
data
cache
error
address
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59107677A
Other languages
English (en)
Inventor
ブル−ス・ロイド・マツギルプレイ
ア−サ−・ジエ−ムズ・サトン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS603769A publication Critical patent/JPS603769A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Debugging And Monitoring (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明はストアイン式のキャッシュを有するデータ処理
システムにおけるデータ保全に係り、特にキャッシュ間
転送中にエラーが生じた場合の保全に係る。
[従来技術] キャッシュには大別してストアイン式のものとストアス
ル一式のものがあることはよく、知ら扛でいるが、19
数の中火処理装置が1つの主記憶装置を共有する冬71
−j処理システムにおいては、パフォーマンスの点でス
I・アイン大のキャッシュの方が49れている。ストア
イン式のキャッシュの場合、読取りおよび1+(込みは
原則としてキヤ、ツシュに対してのみ行わJし、キャッ
シュへの書込みによって元のデータが変更されても、主
記憶装置で同様な変更が直りに行われるとは限らない。
これはデータのマスタコピ−がキャッシュにあることを
意味する。云い換えれば、ストアイン式のキャッシュは
常に最新のデータを含んでいるが、主記憶装置中の対応
するデータは古いままで、最新のものへ更新されていな
いことがある。
[発明がP+’N決しようとする問題点]ストアイン式
のキャッシュでは、データのマスタコピーがキャッシュ
にあるため、キャッシュへデータを書込んでいるとき、
あるいはキャッシュからデータを取出しているときにエ
ラーが生じると、データ保全が1を目)れる。
[問題点を解決するための手段] 本発明によれば、キャッシュと主記憶装置との開、また
はある中央処理装置のキャッシュと別の中央処理装置の
キャッシュとの間でデータ転送が行われているときにエ
ラーが生じると、転送先および転送元が識別され、それ
に基いてデータ転送が再試行される。転送先へ正しいデ
ータを送れなかった場合は、転送先においてこの正しい
データに対応するデータが使用されないようにする。こ
れは、例えば転送先における当該データの記憶位置に訂
正不能エラーを強制することによって達成される。
[実施例コ ここでは、本発明をI r1M3081モデルに処理シ
ステムに適用した例について説明する。このシステムの
詳細はIBM社が出している下記の刊行物に記載されて
いる。
(1) 3081 Functional Chara
cl;er、1stics(資料番号GA22−707
6) (2) 3081 Channel Characte
ristics andConfiguration 
Guj、de (資料番号G、A22−7077) (3) 3082 Procer;sor Contr
ollerMaintenance (資料番号S Y
 22−7063 )(4) 3082 Proces
sor Control、ler Theory /D
j、aHrams(資料番号5Y22−7064)(5
) Processor Unit Introduc
tion /Maintenance(資料番号5Y2
2−7061) (6) Central Storage and E
xternal DataControll、er I
ntroduction / Maintenance
(資料番号5Y22−7087) (7) Ce1.ral、Storage Intro
duction/Maintenance(資料番号5
Y22−7086) 第]−図はストアイン式のキャッシュを有するシステム
の概略を示している。主記憶袋! (C8)からキャッ
シュへ取出されるのはデータのマスクコピーである。シ
ステ11制御装置(Sc)および/<) ッ7i1i!
IJrj[(B CE) 、fyfH=P−’I h、
イヤ1ツシユにあるかどぅがを示すディレクトリを持つ
ている。
第2図および第3図に詳細が示されているBCEは2つ
の物理モジュールL 1. AおよびLIBに分けられ
た6 4 Kバイトのキャッシュを含み、中央処理装置
(cp)によるすべてのアクセス要求に答える。殆んど
のデータ(図示していない制御記憶装置にあるものを除
く)はキャッシュから取出さ九る。記憶動作はすべてキ
ャッシュで行われる。命令装置(T E )はキャッシ
ュからデータを取出したり、キャッシュへデータを書込
んだりする。SCはキャッシュとC8の間のデータ転送
を制御する。
BCEがC8にデータを書込んでいるとき、またはC8
からデータを取出しているときにエラーが生じると、C
Pのクロックがfζ11にするが、本発明はシステムの
保全を損うことなく、いずれのエラー状態からも回復で
きる手段を与える。場合によっては、システムが走行し
続けることも可能である。本発明によれば、良好データ
の上に不良データが重ね書きされることはなく、また最
新のものでない古いデータが使用されることもない。い
ずれのエラー状態も生じないようにするためシステムを
停止14することも考えられるが、それには新しい初期
ブUグラ110−ド(Ill、)およびクリア動作が必
要である。
本発明の良好な実施例においては、エラー回復を補助す
るために、プログラム式のサービス処理機構(MSF)
が使用される。本発明は」述のようなハードウェアで、
または新規なハードウェアおよびラフ1〜ウエアの組合
せによって実施できるが、これから述べる実施例が、経
済的にみて望ましい。ハードウェアのMSFを含むシス
テt\の一例を第4図に示す。MSFはスキャンアウト
によってF3 CEからデータを取出すことができる。
MS )iはシステムのすべての構成要素に接続されて
いる。
あるCI)がC8からデータを取出しているときにエラ
ーが生じると、”SI2”と呼ばれる特別のトリガが1
3 C,Eによってターンオンされ6る。エラー発生に
伴い、CPクロックは停止され、MSl・はエラー信号
を受取ってエラー処理マイクロコヘト(エラーハンドラ
)を呼出す。
エラーが発生してタロツクが停止しているときにS■2
トリガがターンオンされていると、それは、BCEが自
身のディレクトリに1ラインを割当てたが、そのライン
の全データがまだキャッシュに受取られていないことを
示ず。MSFのエラーハンドラは、CPのキャッシュブ
イレフ1−りにあるディレクトリアドレスを無効にする
。第5図に示したように、次のステップが実行される。
(1)キャッシュVz込みアドレスバッファにあるアド
レスをスキャンアウトし、このアドレスを用いてディレ
クトリの排他(E)ビットおよび有効(V)ビットを読
取る。
(2)読出し保管レジスタを用いて、ステップ1からの
Eビットおよびvビットをターンオフする。
(取出し保管レジスタの内容を反転し、その結果を書戻
す。) (3)ディレクトリのEビットおよびVビットを記憶し
ているアレイに新しいデータを書込む。
C1)がSGを介してデータを書込んでいるときにデー
タがrfJiよく書込まれたことを示5を解放状 ・況
信号がSCから受取られなければ、B CEは書込み中
のデータおよびそのアドレス(吐出しデータ)をライン
記憶バッファ(LSB)に置く。しかしキャッシュディ
レクトリはラインデータが記憶されたことを示している
から、このデータは既にキャッシュにはなく、LSBに
ある。
BCEがキャッシュディレクトリを変更して記憶動作を
行っている場合、”CO2”と呼ばれる特別のトリガが
B C1Σによってターンオンされる。
この1へリガは、記憶動作が首尾よく完了し7たことを
SCが知らせるまで、オン状態に保たれている。
前と同様に、エラーが生じるとCI)クロックが停止し
、M S Fはエラー発生の知らせによ−)でエラーハ
ンドラを呼出す。
エラーが生じてCPクロックがイブ止したとき、C02
トリガがまたターンオフされていなければ、キャッシュ
から(二Sへの吉戻しが完Yしでいないことになる1、
シかしキャッシュディレクト・りにお )いては、1(
戻しの対象になっているラインの割当てが13 CEか
によって解除されているので、エラーハンドラはLSB
からアドレスおよびデータをスキャンアウトし、それを
用いてC8への書戻しを実行する。第5図に示したよう
に、次のステップが実行される。
(1)LSI3から吐き出しアドレスを読取り、それを
用いてC8をアクセスする。
(2)キャッシュのセクションLIAおよびL IBに
あるL S Bアドレスレジスタに値II OOl+を
スキャンインし、更に1.、 S 13アドレスを1ず
つ増用して読りを行うための11;す御信号もスキャン
インする。
(3)読取り。
(4)主記憶データレジスタ(MSDR)にあるダブル
ワードをスキャンアウトする。
(5)MSFインタフェースを利用してcsに書戻ずべ
き1ラインの全データ(128バイト)がスキャンアラ
1−されるまで、ステップ3および4を繰返す(全部で
16回)。
不良データすなわち訂正不能エラー(UE)を含むデー
タがアクセスされると、そのデフータに付随しているE
CCビットによってtJ Eの存在がハードウェアで検
出され、データの要求元(C:)))に知らさせる。ソ
フトウェアは、欠陥記憶位置のアドレスを含む機械チェ
ック割込みによ−)てtJEの存在を知ると、それに関
連するジョブ?C打切り(異常終了あるいはABEND
という)、待ち行列にある次のジョブの処理に進む。次
のジョブが機械チェック割込みによって識別される記憶
位置への書込みであってもよい。その場合、新しいデー
タが正しいECCビットと共に書込まれ、ジョブが続行
される。
アドレスが取出されたとき、データ部にエラーがあると
、ぞのアドレスは次のようにしてSCに与えられる。
(a)SCにあるMSF−8C除去1−リガをセットす
る。この結果、記憶すべきアドレスに、不良データを示
すECCビットがイ」加される。
(b)MSF−8CQバスを介してFCCCCピットの
アドレスを記憶する。
(c) MS F−8C”、除去トリ力をリセツ1−す
る。
(a)〜(c)が終ると、エラーハンドラのシーケンス
を続けることができる。
吐出し処理中てあ−)だならば、 IL S nのう・
rンデータ (128バイl−)が保管されている。こ
のデータはQバスを介して記憶される。エラーが生じる
と、CI)は検査停止状態になる(他のエラー処理中も
同様)。次いでSCディレクトリ(キャッシュディレク
トりの写し)を用いることによって、キャッシュおよび
吐出しレジスタの内容が無効にされる。
1エラーが生じなけれは、既にデータがC8に記憶され
ているので、吐出しレジスタをリセッ1〜する指令がS
 Cへ送らJする。これは、CO2トリガに関連するデ
ータの記憶後に行われる。
キャッシュ間転送が遂行中であったかどうかを調べるた
めには、別のテストが必要である。第4図の例では2台
のCPが同時に停止することもあり、その場合MSFは
どのCPでエラーが生じたかを知らないので、どのCP
が最初のMSFによって検査されるかに基いて、キャッ
シュフラグがセラ1へされ、テストされ、そのデスト結
果に応じた動作が遂行される。
あるCI+から取出し要求元のCPへの11出しのタイ
ミングを第6図に示す。
第7図は、キャッシュ間転送中のエラー回復のための付
加的なステップを示している。812がオンであれば、
第5図のルーチンに続いて、キャッシュ間取出しくCC
F)トリガがオンが否がが調べられる。もしオフであれ
ば、” CO3”と呼ばれる複数のフラグのうちのいず
れがかオンになっているか否かが調べられる。いずれか
の003フラグがオンであれば、データの保全性が担わ
れたためシステム、に異変が生している。どのCO:+
フラグもオフであれば、CO2の検査に迎む。
CCF l−リガがオンであれば、記憶を行っているに
Pに関するCO3フラグの状態が調ハられ、もしオンで
あればリセットさJ+、て・C02・の検査 1に進む
。さもなけtシば、書込みを行っているcl)が停止さ
Jしたか否かが調べらJLる。停止されていなければC
O2の検査に進み、停止されていると、このCI3に関
するSI2フラグをセラ1−シた後、CO2の検査に進
む。
SJ2およびS 13が共にオフのとき、いずれかのC
O3フラグがオンになっていると、前と同じくシステム
に異変が生している。さもなければC02の検査に進む
SI2フラグは第1のc丁〕がラインを無効にしたとき
にセラ1〜される。第2ののCPはCO2回復を遂行し
なければならない。
CO:37 ラフは、第i (1) CI3がCO3状
態ニアり且つ第2のCPが停止されたときにセットさh
る。もし第1のCI)が003および812をセラ1〜
するか、または第2のCI)においてs■3がオンでな
番ブれは、システムダウンにつながるエラーが生じてい
る。
S I 3がオンであれば、キャッシュアドレス保管レ
ジスタおよびコンバートメン1〜選択レジスタを用いて
、元のキャッシュラインが1.、 S 13から回復さ
れる。(ST21−リガおよびs13トリガは互いに排
他的である。) CO2がオフであればCO3の検査に進む(第7b図)
。002がオンであれは、第5し1のとごろで説明しノ
ー5つのステップにIJcっτにo2回復手順が遂行さ
A+、る。
C03がオフであれば、他のCPに関するすべてのSI
2フラグおよびCO3フラグがリセッ1〜される。
CO3がオンであオしは、取出しを行っている(jPが
停止14さAしたか否かが調べられる。停止1されてい
なければ、そのCI+に門する812フラクの状態が1
i!m ’\ら、11.ろ。もしオンであれば、c02
回復子順村上び通常の除去手順が遂行され、他のC1)
に関するずべCのSI2フラグおよびCO3フラグがリ
セッ1〜される。取出しを行っているC I)が停止さ
れるど、そのCO3フラグがターンオンされ、C(’)
 2 l+j目)1手順および通′11(の除去手順が
遂行され、そして他のCPに関するすべてのS12フラ
グおよびCO3フラグがリセッ1〜される。
【図面の簡単な説明】
第1図は本発明を適用できるストアイン式のキャッシュ
を有するデータ処理システムの概略を示すブロック図。 第2図は第28図ないし第2e図のつながりを示す図。 第28図ないし第2e図はI3 CEの一部を示すブロ
ック図。 第3図は第38図および第:3+)図のつながりを示ず
図。 第3a図および第3b図はB CEの残りを示すブロッ
ク図。 第4図はMSFを利用して本発明を実施した例を示すブ
ロック図。 第5図はエラー発生後のデータ回復ステップを示す流れ
図。 第6図はキャッシュ間転送のタイミングを示す図。 第7a図および第7b図はキャッシュ間転送中に生した
エラーからの回復ステップを示す流れ図。 FIG、 7.a FIG、 7b リ

Claims (1)

  1. 【特許請求の範囲】 記憶装置間のデータ転送中に生じたエラーからの回復を
    図るために、 前記データ転送の転送元およびゃIn送先を識別し、前
    記データ転送を再試行し、 前記転送先へ正しいデータを送れなか−)だ場合は、前
    記転送先において諌止しいデータに対応するデータが使
    用されないようにする、 ことを特徴とするエラー回復方法。
JP59107677A 1983-06-09 1984-05-29 エラ−回復方法 Pending JPS603769A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US50288783A 1983-06-09 1983-06-09
US502887 1983-06-09

Publications (1)

Publication Number Publication Date
JPS603769A true JPS603769A (ja) 1985-01-10

Family

ID=23999819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59107677A Pending JPS603769A (ja) 1983-06-09 1984-05-29 エラ−回復方法

Country Status (2)

Country Link
EP (1) EP0128353A3 (ja)
JP (1) JPS603769A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0682336B2 (ja) * 1986-04-28 1994-10-19 日本電気株式会社 ブロック閉塞を用いたロールバックリカバリシステム
US5649090A (en) * 1991-05-31 1997-07-15 Bull Hn Information Systems Inc. Fault tolerant multiprocessor computer system
US6901532B2 (en) * 2002-03-28 2005-05-31 Honeywell International Inc. System and method for recovering from radiation induced memory errors

Also Published As

Publication number Publication date
EP0128353A2 (en) 1984-12-19
EP0128353A3 (en) 1987-05-27

Similar Documents

Publication Publication Date Title
US6760814B2 (en) Methods and apparatus for loading CRC values into a CRC cache in a storage controller
US5539890A (en) Microprocessor interface apparatus having a boot address relocator, a request pipeline, a prefetch queue, and an interrupt filter
US3800294A (en) System for improving the reliability of systems using dirty memories
TW413755B (en) Method and apparatus for automatically correcting errors detected in a memory subsystem
US4688221A (en) Error recovery method and apparatus
EP1659494B1 (en) Method and apparatus for classifying memory errors
US4483003A (en) Fast parity checking in cache tag memory
JPS58212694A (ja) メモリシステム
US20030037280A1 (en) Computer memory error management system and method
JPS6324428A (ja) キヤツシユメモリ
JP4339914B2 (ja) エラー訂正コード生成方法及びメモリ管理装置
JPS603769A (ja) エラ−回復方法
JP3767521B2 (ja) キャッシュフィル制御方法及びcpu
JPS60144847A (ja) キヤツシユメモリ制御方式
AU703572B2 (en) An interrupt processing apparatus
JP2703255B2 (ja) キャッシュメモリ書込み装置
JPH04115339A (ja) メモリエラー処理システム
KR100201671B1 (ko) 컴퓨팅 시스템 및 컴퓨팅 시스템의 캐시 메모리 이용방법
JPS63226751A (ja) キヤツシユメモリのバスエラ−制御方式
JPH10247157A (ja) トランザクション処理システムおよびそのリカバリ方法
JPS63206845A (ja) デ−タ処理装置
JPS6159696A (ja) 制御メモリ修復方式
JPH052532A (ja) キヤツシユメモリー
JPH0564376B2 (ja)
JPH0375850A (ja) メモリアクセス処理装置