JPS603769A

JPS603769A - エラ−回復方法

Info

Publication number: JPS603769A
Application number: JP59107677A
Authority: JP
Inventors: ブル−ス・ロイド・マツギルプレイ; ア−サ−・ジエ−ムズ・サトン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1983-06-09
Filing date: 1984-05-29
Publication date: 1985-01-10
Also published as: EP0128353A2; EP0128353A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コ本発明はストアイン式のキャッシュを有するデータ処理
システムにおけるデータ保全に係り、特にキャッシュ間
転送中にエラーが生じた場合の保全に係る。

［従来技術］キャッシュには大別してストアイン式のものとストアス
ル一式のものがあることはよく、知ら扛でいるが、１９
数の中火処理装置が１つの主記憶装置を共有する冬７１
−ｊ処理システムにおいては、パフォーマンスの点でス
Ｉ・アイン大のキャッシュの方が４９れている。ストア
イン式のキャッシュの場合、読取りおよび１＋（込みは
原則としてキヤ、ツシュに対してのみ行わＪし、キャッ
シュへの書込みによって元のデータが変更されても、主
記憶装置で同様な変更が直りに行われるとは限らない。

これはデータのマスタコピ−がキャッシュにあることを
意味する。云い換えれば、ストアイン式のキャッシュは
常に最新のデータを含んでいるが、主記憶装置中の対応
するデータは古いままで、最新のものへ更新されていな
いことがある。

［発明がＰ＋’Ｎ決しようとする問題点］ストアイン式
のキャッシュでは、データのマスタコピーがキャッシュ
にあるため、キャッシュへデータを書込んでいるとき、
あるいはキャッシュからデータを取出しているときにエ
ラーが生じると、データ保全が１を目）れる。

［問題点を解決するための手段］本発明によれば、キャッシュと主記憶装置との開、また
はある中央処理装置のキャッシュと別の中央処理装置の
キャッシュとの間でデータ転送が行われているときにエ
ラーが生じると、転送先および転送元が識別され、それ
に基いてデータ転送が再試行される。転送先へ正しいデ
ータを送れなかった場合は、転送先においてこの正しい
データに対応するデータが使用されないようにする。こ
れは、例えば転送先における当該データの記憶位置に訂
正不能エラーを強制することによって達成される。

［実施例コここでは、本発明をＩ　ｒ１Ｍ３０８１モデルに処理シ
ステムに適用した例について説明する。このシステムの
詳細はＩＢＭ社が出している下記の刊行物に記載されて
いる。

（１）　３０８１　Ｆｕｎｃｔｉｏｎａｌ　Ｃｈａｒａ
ｃｌ；ｅｒ、１ｓｔｉｃｓ（資料番号ＧＡ２２−７０７
６）（２）　３０８１　Ｃｈａｎｎｅｌ　Ｃｈａｒａｃｔｅ
ｒｉｓｔｉｃｓ　ａｎｄＣｏｎｆｉｇｕｒａｔｉｏｎ　
Ｇｕｊ、ｄｅ　（資料番号Ｇ、Ａ２２−７０７７）（３）　３０８２　Ｐｒｏｃｅｒ；ｓｏｒ　Ｃｏｎｔｒ
ｏｌｌｅｒＭａｉｎｔｅｎａｎｃｅ　（資料番号Ｓ　Ｙ
　２２−７０６３　）（４）　３０８２　Ｐｒｏｃｅｓ
ｓｏｒ　Ｃｏｎｔｒｏｌ、ｌｅｒ　Ｔｈｅｏｒｙ　／Ｄ
ｊ、ａＨｒａｍｓ（資料番号５Ｙ２２−７０６４）（５
）　Ｐｒｏｃｅｓｓｏｒ　Ｕｎｉｔ　Ｉｎｔｒｏｄｕｃ
ｔｉｏｎ　／Ｍａｉｎｔｅｎａｎｃｅ（資料番号５Ｙ２
２−７０６１）（６）　Ｃｅｎｔｒａｌ　Ｓｔｏｒａｇｅ　ａｎｄ　Ｅ
ｘｔｅｒｎａｌ　ＤａｔａＣｏｎｔｒｏｌｌ、ｅｒ　Ｉ
ｎｔｒｏｄｕｃｔｉｏｎ　／　Ｍａｉｎｔｅｎａｎｃｅ
（資料番号５Ｙ２２−７０８７）（７）　Ｃｅ１．ｒａｌ、Ｓｔｏｒａｇｅ　Ｉｎｔｒｏ
ｄｕｃｔｉｏｎ／Ｍａｉｎｔｅｎａｎｃｅ（資料番号５
Ｙ２２−７０８６）第］−図はストアイン式のキャッシュを有するシステム
の概略を示している。主記憶袋！　（Ｃ８）からキャッ
シュへ取出されるのはデータのマスクコピーである。シ
ステ１１制御装置（Ｓｃ）および／＜）　ッ７ｉ１ｉ！
ＩＪｒｊ［（Ｂ　ＣＥ）　、ｆｙｆＨ＝Ｐ−’Ｉ　ｈ、
イヤ１ツシユにあるかどぅがを示すディレクトリを持つ
ている。

第２図および第３図に詳細が示されているＢＣＥは２つ
の物理モジュールＬ　１．　ＡおよびＬＩＢに分けられ
た６　４　Ｋバイトのキャッシュを含み、中央処理装置
（ｃｐ）によるすべてのアクセス要求に答える。殆んど
のデータ（図示していない制御記憶装置にあるものを除
く）はキャッシュから取出さ九る。記憶動作はすべてキ
ャッシュで行われる。命令装置（Ｔ　Ｅ　）はキャッシ
ュからデータを取出したり、キャッシュへデータを書込
んだりする。ＳＣはキャッシュとＣ８の間のデータ転送
を制御する。

ＢＣＥがＣ８にデータを書込んでいるとき、またはＣ８
からデータを取出しているときにエラーが生じると、Ｃ
Ｐのクロックがｆζ１１にするが、本発明はシステムの
保全を損うことなく、いずれのエラー状態からも回復で
きる手段を与える。場合によっては、システムが走行し
続けることも可能である。本発明によれば、良好データ
の上に不良データが重ね書きされることはなく、また最
新のものでない古いデータが使用されることもない。い
ずれのエラー状態も生じないようにするためシステムを
停止１４することも考えられるが、それには新しい初期
ブＵグラ１１０−ド（Ｉｌｌ、）およびクリア動作が必
要である。

本発明の良好な実施例においては、エラー回復を補助す
るために、プログラム式のサービス処理機構（ＭＳＦ）
が使用される。本発明は」述のようなハードウェアで、
または新規なハードウェアおよびラフ１〜ウエアの組合
せによって実施できるが、これから述べる実施例が、経
済的にみて望ましい。ハードウェアのＭＳＦを含むシス
テｔ＼の一例を第４図に示す。ＭＳＦはスキャンアウト
によってＦ３　ＣＥからデータを取出すことができる。

ＭＳ　）ｉはシステムのすべての構成要素に接続されて
いる。

あるＣＩ）がＣ８からデータを取出しているときにエラ
ーが生じると、”ＳＩ２”と呼ばれる特別のトリガが１
３　Ｃ，Ｅによってターンオンされ６る。エラー発生に
伴い、ＣＰクロックは停止され、ＭＳｌ・はエラー信号
を受取ってエラー処理マイクロコヘト（エラーハンドラ
）を呼出す。

エラーが発生してタロツクが停止しているときにＳ■２
トリガがターンオンされていると、それは、ＢＣＥが自
身のディレクトリに１ラインを割当てたが、そのライン
の全データがまだキャッシュに受取られていないことを
示ず。ＭＳＦのエラーハンドラは、ＣＰのキャッシュブ
イレフ１−りにあるディレクトリアドレスを無効にする
。第５図に示したように、次のステップが実行される。

（１）キャッシュＶｚ込みアドレスバッファにあるアド
レスをスキャンアウトし、このアドレスを用いてディレ
クトリの排他（Ｅ）ビットおよび有効（Ｖ）ビットを読
取る。

（２）読出し保管レジスタを用いて、ステップ１からの
Ｅビットおよびｖビットをターンオフする。

（取出し保管レジスタの内容を反転し、その結果を書戻
す。）（３）ディレクトリのＥビットおよびＶビットを記憶し
ているアレイに新しいデータを書込む。

Ｃ１）がＳＧを介してデータを書込んでいるときにデー
タがｒｆＪｉよく書込まれたことを示５を解放状　・況
信号がＳＣから受取られなければ、Ｂ　ＣＥは書込み中
のデータおよびそのアドレス（吐出しデータ）をライン
記憶バッファ（ＬＳＢ）に置く。しかしキャッシュディ
レクトリはラインデータが記憶されたことを示している
から、このデータは既にキャッシュにはなく、ＬＳＢに
ある。

ＢＣＥがキャッシュディレクトリを変更して記憶動作を
行っている場合、”ＣＯ２”と呼ばれる特別のトリガが
Ｂ　Ｃ１Σによってターンオンされる。

この１へリガは、記憶動作が首尾よく完了し７たことを
ＳＣが知らせるまで、オン状態に保たれている。

前と同様に、エラーが生じるとＣＩ）クロックが停止し
、Ｍ　Ｓ　Ｆはエラー発生の知らせによ−）でエラーハ
ンドラを呼出す。

エラーが生じてＣＰクロックがイブ止したとき、Ｃ０２
トリガがまたターンオフされていなければ、キャッシュ
から（二Ｓへの吉戻しが完Ｙしでいないことになる１、
シかしキャッシュディレクト・りにお　）いては、１（
戻しの対象になっているラインの割当てが１３　ＣＥか
によって解除されているので、エラーハンドラはＬＳＢ
からアドレスおよびデータをスキャンアウトし、それを
用いてＣ８への書戻しを実行する。第５図に示したよう
に、次のステップが実行される。

（１）ＬＳＩ３から吐き出しアドレスを読取り、それを
用いてＣ８をアクセスする。

（２）キャッシュのセクションＬＩＡおよびＬ　ＩＢに
あるＬ　Ｓ　Ｂアドレスレジスタに値ＩＩ　ＯＯｌ＋を
スキャンインし、更に１．、　Ｓ　１３アドレスを１ず
つ増用して読りを行うための１１；す御信号もスキャン
インする。

（３）読取り。

（４）主記憶データレジスタ（ＭＳＤＲ）にあるダブル
ワードをスキャンアウトする。

（５）ＭＳＦインタフェースを利用してｃｓに書戻ずべ
き１ラインの全データ（１２８バイト）がスキャンアラ
１−されるまで、ステップ３および４を繰返す（全部で
１６回）。

不良データすなわち訂正不能エラー（ＵＥ）を含むデー
タがアクセスされると、そのデフータに付随しているＥ
ＣＣビットによってｔＪ　Ｅの存在がハードウェアで検
出され、データの要求元（Ｃ：）））に知らさせる。ソ
フトウェアは、欠陥記憶位置のアドレスを含む機械チェ
ック割込みによ−）てｔＪＥの存在を知ると、それに関
連するジョブ？Ｃ打切り（異常終了あるいはＡＢＥＮＤ
という）、待ち行列にある次のジョブの処理に進む。次
のジョブが機械チェック割込みによって識別される記憶
位置への書込みであってもよい。その場合、新しいデー
タが正しいＥＣＣビットと共に書込まれ、ジョブが続行
される。

アドレスが取出されたとき、データ部にエラーがあると
、ぞのアドレスは次のようにしてＳＣに与えられる。

（ａ）ＳＣにあるＭＳＦ−８Ｃ除去１−リガをセットす
る。この結果、記憶すべきアドレスに、不良データを示
すＥＣＣビットがイ」加される。

（ｂ）ＭＳＦ−８ＣＱバスを介してＦＣＣＣＣピットの
アドレスを記憶する。

（ｃ）　ＭＳ　Ｆ−８Ｃ”、除去トリ力をリセツ１−す
る。

（ａ）〜（ｃ）が終ると、エラーハンドラのシーケンス
を続けることができる。

吐出し処理中てあ−）だならば、　ＩＬ　Ｓ　ｎのう・
ｒンデータ　（１２８バイｌ−）が保管されている。こ
のデータはＱバスを介して記憶される。エラーが生じる
と、ＣＩ）は検査停止状態になる（他のエラー処理中も
同様）。次いでＳＣディレクトリ（キャッシュディレク
トりの写し）を用いることによって、キャッシュおよび
吐出しレジスタの内容が無効にされる。

１エラーが生じなけれは、既にデータがＣ８に記憶され
ているので、吐出しレジスタをリセッ１〜する指令がＳ
　Ｃへ送らＪする。これは、ＣＯ２トリガに関連するデ
ータの記憶後に行われる。

キャッシュ間転送が遂行中であったかどうかを調べるた
めには、別のテストが必要である。第４図の例では２台
のＣＰが同時に停止することもあり、その場合ＭＳＦは
どのＣＰでエラーが生じたかを知らないので、どのＣＰ
が最初のＭＳＦによって検査されるかに基いて、キャッ
シュフラグがセラ１へされ、テストされ、そのデスト結
果に応じた動作が遂行される。

あるＣＩ＋から取出し要求元のＣＰへの１１出しのタイ
ミングを第６図に示す。

第７図は、キャッシュ間転送中のエラー回復のための付
加的なステップを示している。８１２がオンであれば、
第５図のルーチンに続いて、キャッシュ間取出しくＣＣ
Ｆ）トリガがオンが否がが調べられる。もしオフであれ
ば、”　ＣＯ３”と呼ばれる複数のフラグのうちのいず
れがかオンになっているか否かが調べられる。いずれか
の００３フラグがオンであれば、データの保全性が担わ
れたためシステム、に異変が生している。どのＣＯ：＋
フラグもオフであれば、ＣＯ２の検査に迎む。

ＣＣＦ　ｌ−リガがオンであれば、記憶を行っているに
Ｐに関するＣＯ３フラグの状態が調ハられ、もしオンで
あればリセットさＪ＋、て・Ｃ０２・の検査　１に進む
。さもなけｔシば、書込みを行っているｃｌ）が停止さ
Ｊしたか否かが調べらＪＬる。停止されていなければＣ
Ｏ２の検査に進み、停止されていると、このＣＩ３に関
するＳＩ２フラグをセラ１−シた後、ＣＯ２の検査に進
む。

ＳＪ２およびＳ　１３が共にオフのとき、いずれかのＣ
Ｏ３フラグがオンになっていると、前と同じくシステム
に異変が生している。さもなければＣ０２の検査に進む
。

ＳＩ２フラグは第１のｃ丁〕がラインを無効にしたとき
にセラ１〜される。第２ののＣＰはＣＯ２回復を遂行し
なければならない。

ＣＯ：３７　ラフは、第ｉ　（１）　ＣＩ３がＣＯ３状
態ニアり且つ第２のＣＰが停止されたときにセットさｈ
る。もし第１のＣＩ）が００３および８１２をセラ１〜
するか、または第２のＣＩ）においてｓ■３がオンでな
番ブれは、システムダウンにつながるエラーが生じてい
る。

Ｓ　Ｉ　３がオンであれば、キャッシュアドレス保管レ
ジスタおよびコンバートメン１〜選択レジスタを用いて
、元のキャッシュラインが１．、　Ｓ　１３から回復さ
れる。（ＳＴ２１−リガおよびｓ１３トリガは互いに排
他的である。）ＣＯ２がオフであればＣＯ３の検査に進む（第７ｂ図）
。００２がオンであれは、第５し１のとごろで説明しノ
ー５つのステップにＩＪｃっτにｏ２回復手順が遂行さ
Ａ＋、る。

Ｃ０３がオフであれば、他のＣＰに関するすべてのＳＩ
２フラグおよびＣＯ３フラグがリセッ１〜される。

ＣＯ３がオンであオしは、取出しを行っている（ｊＰが
停止１４さＡしたか否かが調べられる。停止１されてい
なければ、そのＣＩ＋に門する８１２フラクの状態が１
ｉ！ｍ　’＼ら、１１．ろ。もしオンであれば、ｃ０２
回復子順村上び通常の除去手順が遂行され、他のＣ１）
に関するずべＣのＳＩ２フラグおよびＣＯ３フラグがリ
セッ１〜される。取出しを行っているＣ　Ｉ）が停止さ
れるど、そのＣＯ３フラグがターンオンされ、Ｃ（’）
　２　ｌ＋ｊ目）１手順および通′１１（の除去手順が
遂行され、そして他のＣＰに関するすべてのＳ１２フラ
グおよびＣＯ３フラグがリセッ１〜される。

【図面の簡単な説明】

第１図は本発明を適用できるストアイン式のキャッシュ
を有するデータ処理システムの概略を示すブロック図。第２図は第２８図ないし第２ｅ図のつながりを示す図。第２８図ないし第２ｅ図はＩ３　ＣＥの一部を示すブロ
ック図。第３図は第３８図および第：３＋）図のつながりを示ず
図。第３ａ図および第３ｂ図はＢ　ＣＥの残りを示すブロッ
ク図。第４図はＭＳＦを利用して本発明を実施した例を示すブ
ロック図。第５図はエラー発生後のデータ回復ステップを示す流れ
図。第６図はキャッシュ間転送のタイミングを示す図。第７ａ図および第７ｂ図はキャッシュ間転送中に生した
エラーからの回復ステップを示す流れ図。ＦＩＧ、　７．ａＦＩＧ、　７ｂ　リ

Claims

【特許請求の範囲】記憶装置間のデータ転送中に生じたエラーからの回復を
図るために、前記データ転送の転送元およびゃＩｎ送先を識別し、前
記データ転送を再試行し、前記転送先へ正しいデータを送れなか−）だ場合は、前
記転送先において諌止しいデータに対応するデータが使
用されないようにする、ことを特徴とするエラー回復方法。