JPH0227441A - コンピュータ・システム - Google Patents

コンピュータ・システム

Info

Publication number
JPH0227441A
JPH0227441A JP1099051A JP9905189A JPH0227441A JP H0227441 A JPH0227441 A JP H0227441A JP 1099051 A JP1099051 A JP 1099051A JP 9905189 A JP9905189 A JP 9905189A JP H0227441 A JPH0227441 A JP H0227441A
Authority
JP
Japan
Prior art keywords
data
cache
retry
error
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1099051A
Other languages
English (en)
Inventor
Steven L Gregor
ステイブン・リイ・グレゴー
Shin-Yuan Lee Victor
ビクター・シン‐ユーン・リイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0227441A publication Critical patent/JPH0227441A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、複数の並行動作または複数の独立型プロセッ
サあるいはその両方によって共通に使用されるコンピュ
ータ・システムの領域のエラー識別に関する。具体的に
は、本発明は、動作が広範にインターリーブされパイプ
ライン化された領域で発生するハードウェア・エラー 
またはコンピュータ・システムの他の部分からそうした
領域に伝播した後でその領域で検出されるエラーの影響
を最小限に抑える装置と方法に関する。
B、従来技術及びその問題点 コンピュータ・システムの信頼性と可用性が特に重要な
場合、システムがハードウェア・エラーから回復できる
ことは特に重要な問題である。これを達成するには、何
が回復する必要があるかを識別できなければならない。
しかし、同時に複数動作を高速で実行できるコンピュー
タ・ハードウェアは、複雑なため、ハードウェアの共通
領域で誤りが検出されたとき、こうしたエラー識別が極
めて難しくなる。
エラーが検出されたハードウェア装置を識別する様々な
エラー・フラグが当分野では周知である。
共通データ・バス及び命令ユニットと関連するパリティ
・チエツク・フラグ、乗算器及びALUの飽和及びあふ
れ吠態に関連するフラグ、及び特定の故障モードまたは
ハードウェアの個々の部品用の他のフラグなどである。
しかし、より複雑なシステムでは、複数の動作が/%−
ドウエア・エラーの影響を受け、影響を受ける動作が停
止される前に、複数のエラー・フラグが設定される可能
性が大きい。
2次エラー識別の方法と装置が、1988年6月24日
出願の関連米国特許出願第211489号に記載されて
いる。引用によりこの開示を本明細書に組み込む。この
2次エラー・ロックアウト・システムは、最初のエラー
が報告された単一のクロック・サイクル中に設定された
すべてのエラー・フラグをラッチすることにより、どの
エラーがコンピュータ・システムの所定領域内で発生し
た最初のエラーであるかを記録する。これらのエラーは
、「1次エラー」である。しかし、次いで、処理が停止
され、エラーが発生した装置だけが識別される。
バイブライン化、多重プログラミング化または多重処理
を伴わないシステムでは、1つのエラーの影響を受ける
特定の動作を特定する1つの周知の方法は、プロセッサ
の命令長レジスタ(ILR)を使用するものである。I
LRは、通常、こうしたシステムで所定の時間に実行で
きる1つの命令のアドレスを含む。プロセッサでエラー
が検出されると、ILRが即時にロックされる。このた
め、ILRの内容をそのエラーの原因となった命令を指
すポインタとして使用できる。このことは、IBMテク
ニカル・ディスクロージャ・プルテン、Vol、28、
N002.1985年7月に記載されている。しかし、
この方法では、プロセッサの動作が急激に停止する。
複雑なシステムでは、最大の関心事は、特定のプロセッ
サではなく特定の動作でエラーを識別することである。
ハードウェア・エラーが発生した特定の動作を識別する
と、その再試行領域ですでに実行された他の動作が正常
に完了を試みる、すなわち、「静止する」ことができる
。それにより、影響を受けない動作を並行して再試行す
ることが不変になる。すべての動作を再試行すると、コ
ンピュータ処理が不必要に混乱する。静止させると、エ
ラーの影響を受けなかった動作を再試行する必要がな(
なり、操作員の介入の必要や必要とされる再試行動作の
範囲も減少する。
ソフトウェア割込みを発生させる特定の命令のソフトウ
ェアによる識別は、個別に指定された「命令番号」を使
って多重処理環境で実施できる。
このことは、1988年5月31日出願の関連米国特許
出願第200688号に記載されている。
しかし、特定の動作でソフトウェア割込みが発生しても
、影響を受けた動作が影響を受ける点で割込みによって
停止されるので、その動作のその後の履歴を追跡する方
法または手段は必要でなく、上記特許で開示される発明
もそれをもたらさない。
こうした割込みの場合、静止は行なわれない。
キャッシュ記憶域や入出力チャンネル・コントローラな
ど、ハードウェアが高度に専用化され、かつ高度に相互
接続されている領域では、エラーの伝播が避けられない
。こうした領域を高度に専用化すると、エラーの完全な
姿を獲得するのが難しくなり、こうした領域をより効率
的に使用するためにバイブライン式構造を採用すると、
問題が複雑になる。その上、多重処理コンピュータ・シ
ステムによって冗長性がもたらされるため、エラーから
回復するコンピュータの能力が増大する。1つのエラー
の影響を受ける可能性のあるデータを見つけこうしたシ
ステムで再試行しなければならない動作を識別するため
に、複数並行動作を介してハードウェア・エラーを追跡
するタスクは複雑なため、混乱の度合が増し、消費時間
がかかる。
パイプライン式コンピュータ動作でのエラー追跡は、そ
こでのエラーが、一般にそれが発生したのと同じマシン
・クロック・サイクルで検出されないため、−層複雑に
なる。さらに、広範にパイプライン化された領域で処理
が停止する前に、影響を受けずに完了できる動作を完了
させることが一般に望ましい。以下で説明するように、
データ記憶域及びブロック転送が行なわれる領域では特
にそうである。したがって、あるエラーの位置や現在の
程度ではなくその後の効果もこうしたコンピュータ動作
で識別しなければならない。
C0問題点を解決するための手段 本発明によるコンピュータ・システムは、ハードウェア
装置を含む再試行領域をもち、各”領域は少なくとも1
つの項目をもつ追跡アレイを含む。
追跡アレイの各項目は、少なくとも1つの事象追跡ID
すなわち識別子とエラー・フラグを含む。
事象追跡IDは、前記の装置で行なわれる動作を識別し
、再試行領域でのその動作の実行によって追跡アレイへ
の事象追跡IDの挿入が開始される。
各項目は、他の再試行領域からの関連事象追跡ID1コ
マンド、アドレス、またはプロセッサIDなど、追跡I
Dに関連する他の再試行情報も含む。エラーが発生した
時から処理が停止した時までの間に発生する事象を記録
する履歴項目も、追跡アレイに含まれる。
動作が第1の再試行領域から第2の再試行領域に渡され
るとき、第2の再試行領域用の追跡アレイは、第1の再
試行領域用の事象追跡IDを含む。
第2の追跡アレイの項目は、第1の再試行領域が第2の
再試行領域で起こる事象を開始させたかどうかを示す相
互参照フラグをも含む。
再試行領域内の装置は、それぞれ装置追跡アレイを含む
。所定の再試行領域用の事象追跡IDは、連続的に割り
当てられた番号でも、またその再試行領域の追跡アレイ
に記録された事象追跡IDのうちの識別された事象にと
って一義的な他の方式による番号でもよい。
本発明によるエラー識別は、所定の再試行領域で各動作
を実行するための事象追跡IDを決定し、所定の動作が
その再試行領域で実行されるとき、その再試行領域用の
マスク追跡アレイ中の事象追跡IDを記録する。事象追
跡IDは、前記の再試行領域用の追跡アレイ項目に記録
されている前記再試行領域用の任意の事象追跡IDのう
ちのその再試行領域の所定の動作を一義的に識別する。
あるエラーが所定の項目の事象追跡10によって指定さ
れた事象の間にその追跡アレイと関連する装置で発生す
ると、再試行領域の追跡アレイの所定の項目でエラー・
フラグがセットされる。
第1の再試行領域用の事象追跡IDは、所定の動作が実
行される次の再試行領域用のマスク追跡アレイにも記録
されるので、以前の再試行領域の動作と関連する事象追
跡IDは、その動作用の次の再試行領域の事象追跡ID
を含むある項目の次の再試行領域にも記録される。各再
試行領域用のマスク追跡アレイの項目の相互参照フラグ
を使って、動作が当該の再試行領域の外部で開始された
かどうかを示すことができる。
本発明の目的は、あるエラーが発生したときに所定の再
試行領域内で実行されていたすべての動作を再試行する
必要をなくすために、再試行しなければならない特定の
動作を識別できるようにすることである。
本発明の目的には、ある種の複雑なシステムではエラー
伝播が避けられないことに鑑みて、再試行しなければな
らない特定の動作を識別し、あるエラーが構成要素中で
検出された後、そこでの動作が停止される前に、所定の
サブシステムで実行されたすべての動作を再試行する必
要をなくすようにすることも含まれる。
本発明の目的には、この影響を受ける再試行領域で実行
されているすべての動作が静止することができる場合に
エラー伝播が発生することに鑑みて、再試行しなければ
ならない特定の動作を識別して、再試行動作の回数を最
小限に抑えるようにすることも含まれる。
最後に、本発明の目的には、これらの動作内で、ハード
ウェア・エラーの影響を受は再試行しなければならない
特定の事象を識別し、サブシステム内で実行を開始した
点からすべての動作を再試行する必要をなくすようにす
ることも含まれる。
D、実施例 第1図に示す本発明の好ましい実施例による記憶サブシ
ステム10では、サブシステム内で実行される様々な動
作がパイプライン化されている。
すなわち、ある任意の時点で、共通キャッシュ(L2)
再試行領域12とメモリ制御(MC)再試行領域14は
、個別の命令に対する動作を並行して処理できる。さら
に、この記憶サブシステム10は、独立した3つの中央
演算処理装置cpo1CPI及びCF2からの入力に応
答する多重処理環境で動作する。記憶サブシステム10
は、2つの共用チャンネル・プロセッサ5HCPAと5
HCPBにも応答する。これらの共用チャンネル・プロ
セッサは、それぞれ、周辺装置や、複数の周辺装置のイ
ンターリーブ式データ転送を行なうより低速で単純な入
出力サブシステム(N I O)に対してパイプライン
式データ転送を行なう。
中央演算処理装置はそ゛れぞれ、その中央演算処理装置
が局所的−時記憶用に使用する各32キロバイトの第1
段(Ll)キャッシュ・メモリ(図示せず)をもつ。3
つの中央演算処理装置すべてに共通なより高次の(L2
)キャッシュ・メモリ25も設けられている。記憶サブ
システム10は、2つの並列ポートを介してコンピュー
タ・システム(L3)の主記憶装置と連絡する。この主
記憶装置は拡張メモリ機能(L4)をもつ。記憶サブシ
ステム10を介したデータへのアクセスは、アクセス・
キー機能によって制御される。このアクセス・キー機能
は、記憶キー・ルックアップ・テーブル18を用いてア
クセス要求の妥当性検査を行なう、アドレス/キー制御
機構16によって実施される。メモリ制御機構20は、
L3/L4主記憶装置22へのアクセスを調整し、キャ
ッシュ制御機構24はL2共通キャッシュ・メモリ25
に対するその機能を実行する。
外部装置からメモリ・アクセスが要求されると、外部装
置から送られた命令がチャンネル・プロセッサによって
復号され、アドレス・キー制御機構16によってその要
求の妥当性検査が行なわれ、キャッシュ制御装置24は
L2キャッシュ・ディレクトリ26を検査して、検索ま
たは修正すべき情報がL2キャッシュ25に入っている
かどうかを決定し、メモリ制御機構20とバス切替え装
置制御機構27は、L2キャッシュ制御機構29と関連
するバス切替え装置28を介してL3主記憶装置22へ
のデータ要求を開始する。要求されたデータがL2キャ
ッシュにないときは、データはL3主記憶装置22から
供給される。L3主記憶装置22またはL2共通キャッ
シュ25から検索されたデータは、バス切替え装置28
及び入出力チャンネル・データ・バッファ30を介して
外部装置に転送される。中央演算処理装置がデータを要
求すると、それがL1キャッシュに入っている場合、L
1キャッシュからデータが供給される。
メモリの他のレベルからのデータは、そのL1キャッシ
ュ・メモリを介して中央演算処理装置に転送される。こ
の記憶サブシステムの構造と動作は、1988年2月2
2日に出願された米国特許出願第159018号により
詳しく開示されている。その開示を引用により本明細書
に組み込む。
追跡アレイ 第2図に示す本発明の好ましい実施例によると、キャッ
シュ制御機構24とメモリ制御機構20は、それぞれの
再試行領域、L2再試行領域12とMC再試行領域14
用のマスク追跡アレイ(MTA)を含む。さらに、各再
試行領域にある選択された他の装置は、より単純な装置
追跡アレイ(DTA)を含む。
新しい動作が再試行領域内で最初に活動化される度にマ
スタ追跡アレイ中に項目が作成される。
各項目は、第2図ないし第5図に示す追跡アレイの項の
水平行の形をとる。こうした項目はそれぞれ、再試行領
域の事象追跡ID(ETID)を含む。この事象追跡I
Dは、マスク追跡アレイのその項目を開始させた動作に
割り当てられたコードである。その事象追跡IDまたと
えば、L2再試行領域12のL2IDは、それがL2再
試行領域で実行されている間、その動作を一義的に識別
し続ける。
本発明によると、各追跡アレイは、複数の項目を記録で
きる容量をもつ。アレイが一杯になると、最も古い項目
が、最新の項目で置き換えられる。
すなわち、そのアレイは「循環」して最初の項目に戻り
項目を記録し続ける。本発明の好ましい実施例の各追跡
アレイに記録できる項目の数は、記憶サブシステムが静
止している間に、1次エラーが発生したクロック・サイ
クル以降にその再試行領域で実行できる動作に対して記
録される事象の最高数より小さくはない。
マスク追跡アレイ及び装置追跡アレイの各項目はまた、
コマンド及びアドレスを含む。マスク追跡アレイ(MT
A)では、それは、動作が最初に活動化されたときにそ
の追跡アレイ項目を開始すせた命令によって再試行領域
に転送されたコマンドとアドレスである。マスク追跡ア
レイの項目はまた、その命令の供給源であったプロセッ
サのIDを含む。これらの項は、第2図ないし第5図で
は、マスク追跡アレイの各項目の3つの点と装置追跡ア
レイの2つの点で表されている。これらの追跡アレイの
各項目はまた、エラー・フラグ・ビットを含む。エラー
・フラグ・ビットは、ある追跡アレイを含む特定の装置
がその項目のETIDで指示される事象を処理している
間に装置エラーが検出された場合、その追跡アレイの特
定の項目でセットされる。
第2図のL2ID−Aの項目に表されているものなどマ
スク追跡アレイの所定のETIDに関連するコマンド及
びアドレスは、事象”A”の装置追跡アレイ(DTA)
の項目に記録されたコマンド及びアドレスと必ずしも同
じにはならない。それは、キャッシュ制御機構24から
L2キャッシュ制御機構29に送られたコマンド及びア
ドレスが、事象″A”がマスク追跡アレイ(MTA)に
よってL2ID−Aとして最初に記録されたときにキャ
ッシュ制御機構24で活動状態になった動作に対するコ
マンド及びアドレスとは異なることが十分にあり得るか
らである。
たとえば、サイクル38で、L2キャッシュ制御機構2
9 (L2CG)は、キャッシュ制御機構24からのコ
マンド及びアドレスと、キャッシュ制御機構24でその
転送を開始させた動作すなわち動作L2 I D−Hの
ETID、”H”を受は取り、1次「スクラッチ・パッ
ド」レジスタにそれをラッチする。サイクル37で、L
2キャッシュ制御機構29が、単なるラッチ入力ではな
くその動作で活動状態になったとき、これらの項はすべ
て、スクラッチ・パッド・レジスタからL2CC装置追
跡アレイ(DTA)の項目に転送される。
L2CG装置追跡アレイの項目は、L2CC装置に転送
されたコマンド、アドレス及びET I Dヲ含む。L
2マスタ追跡アレイの項目は、L2再試行領域の外部に
あるプロセッサのプロセッサIDを含む。というのはマ
スク追跡アレイの項目は、動作が最初に再試行領域に入
ったとき、スクラッチ・パッド・レジスタにラッチされ
るからである。
メモリ制御機構20は、以前述べたように、その再試行
領域であるMC再試行領域14用の同様なマスタ追跡ア
レイ(MTA)をもつ。装置追跡アレイは、バス切替え
装置制御機構(BSUC)、及びL2キャッシュ制御機
構(L2CC)のMC領域の処理を行なう部分用のMC
再試行領域に設けられている。バス切替え装置制御機構
27は、MC再試行領域のL2キャッシュ制御機構29
に対する従属マスクとして機能して、MC再試行領域で
事象が発生する間にL2CGによる動作の開始を制御す
る。
この好ましい実施例の再試行領域は重なり合わない。た
だし、個々の装置の異なる部分、またはハードウェアの
特定のブロック、たとえば特定の半導体チップの異なる
部分が、異なる再試行領域にあることがある。
命令を実行する動作が次の再試行領域で活動状態になる
と、次の再試行領域でその動作に新しいETIDが指定
され、その動作が以前の外部領域にもっていた古いET
IDが、新しく指定されたETIDと一緒に次のマスク
追跡アレイの項目に記録される。第2図ないし第5図に
示した好ましい実施例では、相互参照ETIDで表され
る外部再試行領域がその動作の発生源であった場合、マ
スク追跡アレイのその項目の相互参照フラグ・ビット(
XR)が1に設定される。その外部再試行領域は、その
項目の相互参照ETIDの位置によって識別される。記
憶サブシステム10の外部にあるコマンドの供給源は、
追跡アレイの項目のプロセッサIDによって識別される
第1図に示した各装置は、追跡アレイをもってない場合
、エラーがその装置で検出されたときにエラー・フラグ
・ビットを設定する、エラー・レジスタを含む。たとえ
ば、アドレス/キー制御機構16でエラーが発生すると
、その装置を使用する再試行領域ごとに1つずつ、計2
つのエラー・レジスタのうちの1つが、故障した動作の
ETIDをラッチし、エラー・フラグ・ビットがそのエ
ラー・レジスタで設定される。本発明の好ましい実施例
によると、エラー・レジスタは、サブシステムが静止し
ているときに発生する複数の連続エラーのETIDを記
録できる容量をもつ。
第2図ないし第5図に示した本発明の好ましい実施例に
よると、各再試行領域内のETIDは連続して指定され
る。事象が再試行領域で活動状態になり、ETIDが最
初に指定されると、マスク装置は、その領域で各装置が
処理するコマンド及びアドレスを送り出す。好ましい実
施例では、ETID自体が、再試行領域のマスク装置か
ら他の各装置のエラー・レジスタまたは追跡アレイに送
られ、こうして各再試行領域の追跡アレイ間の同期が確
保される。
再試行領域の装置エラー・レジスタと追跡アレイにET
IDを送る代わりに、新しい各ETIDがマスク追跡ア
レイに記録されるとき、アレイまたはレジスタと関連す
るカウンタを増分させることができる。従属マスク装置
が、それ自体が再試行領域のマスク装置からコマンドを
受は取ってがら数サイクル後に、再試行領域の他の装置
による動作を開始させる場合、従属マスク装置を使って
、そうした装置のETIDカウンタを増分させることが
できる。こうすると、こうした装置でその事象が活動状
態になる前に数サイクル経過する間にこうした装置のE
TIDカウンタが変化することが防止される。
このETIDの増分変化により、再試行領域内のETI
Dを同期させるために追加の通信領域を設ける必要がな
くなる。具体的には、再試行領域内の個々のハードウェ
ア装置の通信容量が厳しく制限されている場合、その領
域の装置のETIDカウンタが、マスク装置が受は取る
各コマンドによって起動でき、したがってETIDを転
送するために追加の通信容量が必要でない。その場合、
ETIDの長さは、最小限、マスク追跡アレイに記録し
なければならない項目の数、最大限、再試行領域内の様
々な装置のエラー・レジスタ及ヒ追跡アレイに課される
サイズ上の制約のみに支配される。
第2図ないし第5図は、第1図に示した記録サブシステ
ムでの「検査・設定」命令の実行によって開始される追
跡アレイ項目を示す。第6図すなわち第6a図ないし第
6d図は、検査・設定命令の実行中に第1図ないし第5
図の記憶サブシステム内で発生する主要活動を示すタイ
ミング図である。第1図の記憶サブシステムによる「検
査・設定」命令の実行は、特に複雑で長い動作であり、
不適切な割込みの影響を非常に受けやすい。これらの特
徴は、本発明によるエラー識別の方法及び装置の特に価
値ある特徴の一部である。
第2図ないし第5図では、いくつかのETIDが、記憶
サブシステム内で並列に実行中の検査・設定動作以外の
動作によって開始された事象に対する2つの再試行領域
の追跡アレイの項目として示しである。これらの事象は
、検査・設定実行中にこのサブシステムで発生する事象
の例である。
それらは検査・設定命令を実行しない。これらの追加項
目は、第6図の検査・設定タイミング図では括弧で囲ん
だETIDで示しである。
第6図で、中央演算処理装置#1(CPI)が記憶され
たデータに対する排他的アクセスを要求する検査・設定
命令をラッチしたとき、記憶サブシステム10で検査・
設定動作が開始される。この命令は、記憶サブシステム
10からのデータに対する排他的アクセスを求めるCP
Iからの要求である。この命令は、この要求と、他の中
央プロセッサまたは入出力チャンネル・プロセッサによ
って開始された並行動作との間で争奪が発生し得る、L
3メモリの共通領域に記憶されているデータにアクセス
するときに使用される。
この検査・設定動作は時間がかかり、第6図のCPU要
求に応答してL3から8個の8バイト・ブロックのデー
タを供給するのに、41クロツク・サイクルを要する。
L2キャッシュが検査・設定動作の始めに修正データを
含んでいるときは、検査・設定命令がL2キャッシェに
書き込む前に、最初L2にあったデータをL3に記憶さ
せるのに、サイクル38で追加の時間を要する。これも
またかなり複雑であり、所定のクロック・サイクルでこ
の命令によって6つもの動作が実行される。しかし、こ
の複雑さは、データを保護し検索するのに必要な時間を
減少させるのに必要である。そうしないと、要求した時
から検索される時までの間に他のプロセッサによって修
正される恐れがある。
検査・設定動作の複雑さと遅延をもたらす多くの活動は
、この記憶サブシステムが動作する多重処理環境に特有
である。この環境では、2台以上のプロセッサ、中央プ
ロセッサまたはチャンネル・プロセッサが、以前の要求
が完了する前または同時に、同じデータに対するアクセ
スを並行してシークすることがある。すなわち、所定の
検索動作中にプロセッサのデータ要求間でのこうした衝
突を避けるため、多重処理環境でデータ・インターロッ
ク処理手順を実施しなければならない。
さらに、複数のプロセッサ間のデータ交換の調整及び高
速データ・アクセスを助けるため、記憶サブシステムは
、2段のキャッシユ・メモリを備えている。共通キャッ
シュ(L2)は、1つのプロセッサによって修正された
データへの迅速なアクセスを可能にし、したがって他の
プロセッサが主記憶装置からデータを検索するのを待た
なければならない場合には、データが修正された後で長
い間、他のプロセッサはキャッシュにアクセスできない
。すなわち、検査・設定命令で要求されるどのデータも
、所定の時間に3つのメモリ・レベルの1つで利用でき
、その異なるバージョンが同時に存在し得る。そのため
、このサブシステムでは記憶されたデータの制御が複雑
になる。
これら3つのメモリ・レベルのどれかまたはすべてが要
求されたデータを含み、かつ多重処理環境ではこの記憶
サブシステムでのいくつかのメモリ・アドレスに対する
アクセス要求の間の衝突を避けるためにデータ・アクセ
スに時間のがかる検査・設定動作が必要なので、データ
要求を急送するために検査・設定動作がパイプライン化
される。
さらに、第2図ないし第6図はt記憶サブシステム10
の動作の複雑なパイプライン化の一部分を示しているだ
けである。このサブシステムで検査・設定命令と同時に
実行される可能性のある他の命令の動作は、これらの図
には十分に示されていない。括弧で囲んだ項は1.こう
した他の動作の追跡アレイの二、三の代表的項目のタイ
ミングを示したものである。たとえば、サイクル16で
、事象L2 ID−Gが無関係のデータ探索を開始する
とき、キャッシュ制御機構24は、検査・設定命令に関
する事象L2 I D−Fを実行中である。
L2 I D−Gによって開示される動作の残りの部分
は図示されていない。第6図からはっきりするように、
記憶サブシステムで検査・設定の実行中に1次エラーが
検出されたとき、同時に実行中のすべての動作を再試行
することは極めて望ましくない。
う3し」l魔 中央プロセッサ#1 (CPI)は検査・設定命令を開
始させ、第8図に示すサイクル1と2でアクセスされる
記憶アドレスを計算する。サイクル3で、CPIはその
記憶アドレス・レジスタ中の望ましいアドレスをラッチ
し、LLは同時に検査・設定命令をラッチし、CPlか
ら提供されるアドレスに相当する未修正データがL1キ
ャッシュに記憶されているかどうかを決定するためにL
1キャッシュ・ディレクトリの探索を開始し、ロック・
バイトをキャッシュ制御機構24に送る。ロック・バイ
トは、サイクル5と6でL2CGによってラッチされる
が、どのプロセッサがその゛ロックの供給源または「所
有者」であるかを示すソースIDと、ロックの所有者以
外の装置に対して要求されたデータ位置へのアクセスを
拒否するロック・ビットから構成される。
第6図に示す検査・設定動作では、要求された情報は、
L1キャッシュになく、この結果が、サイクル4で、「
ミス」としてラッチされたが、コマンド・テキスト、要
求されたアドレス及びロック・バイトはL2キャッシュ
の探索を開始するためキャッシュ制御機構24に向かう
途中であった。
サイクル5で、L1キャッシュは、受は取ルテータ用の
場所を空けておくためにその項目を無効にし、クリアさ
れたL1位置のアドレスは、サイクル6でキャッシュ制
御機構24によってラッチされる。しかし、サイクル7
で、キャッシュ制御機構24は、メモリ制御機構20に
データ要求を送り、コマンドのタイプと要求されたアド
レスをアドレス/キー制御機構16に報告する。サイク
ル10で、L3主記憶装置へのアクセスが必要かどうか
がサイクル15までわからなくても、L3メモリ・ポー
トがこの動作用にすでに予約される。
事象L2 ID−Cは、キャッシュ制御機構24がサイ
クル5と6で単に入り情報をラッチしたときではなく、
キャッシュ制御機構24がクロック・サイクル7でL3
主記憶装置22に対するアクセスを要求したときに、L
2領域で活動状態になった。同様に、メモリ制御機構2
0はサイクル8でキャッシュ制御の要求をラッチするが
、メモリ制御機構20はサイクル11まで活動状態にな
らない。すなわち、事象MCID−18は、メモリ・ア
クセスを求めるキャッシュ制御機構24の要求に応答し
て、サイクル8ではなく、サイクル11でMC領域で開
始する。すなわち、MCID−16は、第2図のサイク
ル8の追跡アレイには現れない。その事象は、サイクル
11で記録され、したがってサイクル12でのレジスタ
の状況を反映する第3図に現れている。
キャッシュ制御機構24は、L3主記憶装置22に対す
るアクセスを求める要求をメモリ制御機亭1が20に送
った後、サイクル15でL2ディレクトリを探索して、
L3主記憶装置22からのデータが必要かどうかを決定
し、その間にメモリ制御機構20は、データを求めるキ
ャッシュ制御の以前の要求に応答する準備をしている。
アドレス/キー制御機構16は、サイクル12でL2行
を無効にしフラッシュするコマンドrifL21Jと一
緒に必要なデータ・アドレスをキャッシュ制御機構に転
送することによって、L2キャッシュ・ディレクトリの
探索を実施する。これにより、要求されたコピーの最近
の形式が、L3に記憶され、サイクル14でL2キャッ
シュ・ディレクトリの探索が成功したときに、L2キャ
ッシュで見つかった要求されたデータの任意の修正形式
をL3主記憶装置に転送することにより、記憶サブシス
テムのデータの保全性が保護される。それは、第6b図
では成功せず、その結果、サイクル15で「ミス」とな
る。
L2キャッシュ・ディレクトリ26の探索は、事象「F
」、すなわち、第4図でL2 ID−Fと呼ばれる。こ
の場合も、ETID−Fは、サイクル14まで再試行領
域L2で指定されなかった。
というのは、キャッシュ制御機構24がサイクル12と
13で活動状態ではなかったからである。
キャッシュ制御機構24は、そのとき情報をラッチし優
先権を保持していただけである。
その間に、サイクル11でメモリ制御機構20が活動化
されたため、バス切替え装置制御機構27はサイクル1
2でL3から要求されたデータを受は取るべくそのバッ
ファの準備をする。これは、MC再試行領域のBSUC
装置追跡アレイに事象「16」 (McID−16)と
して記録される◇サイクル13で、アドレス/キー制御
機+iteは、必要なデータ・アドレスを転送すること
により、L3主記憶装置22の探索を実施する。
キャッシュ制御機構24がサイクル14でL2デ、イレ
ク) I728を探索する間に、バス切替え装置制御機
構27は、アドレス/キー制御機構16から転送された
L3アドレスをう、チしている。
この場合も、サイクル14でのL2ディレクトリ26の
探索の結果に関わらず、L2キャッシュ制御機措は、サ
イクル15でそのアウトベージ・バッファをロードする
準備をする。そのとき、L2CC装置が再試行領域L2
と対話するときに発生する事象を記録するL2CC/L
2装置追跡アレイに事象rFJが現れる。L2キャッシ
ュはまた、L2ディレクトリ探索が失敗してサイクル1
5で「ミス」がラッチされたにも関わらず、サイクル1
6で32バイトを読み取る。サイクル15で、L1状況
リストの探索は、L1キャッシュのコピーをj!■効に
することにより、L3からのデータの転送の準備をして
いる途中であるが、その間にL2ディレクトリの失敗し
た探索の結果がラッチされる。要求されたデータがL2
で見つからなかったので、L1キャッシュのそのデータ
に対するL1状況項目は見つからない。また、L3にデ
ータがフラッシュされない。
L2ディレクトリでの探索の「ミス」状況は、要求され
たデータが見つからなかったことを示している。すなわ
ち、サイクル16で、検査・設定命令は、メモリ制御機
構20によってラッチされるL2キャッシェで「未修正
」状況を発生させる。
このため、CPlがデータに対するロックの「所有者」
であろうとなかろうと、検査・設定動作でL2キャッシ
ニで見つかった要求されたデータの任意のコピーをL3
主記憶装置にフラッシュすることができる。サイクル1
5でラッチされたコマンドrL2回答」で、メモリ制御
機構20へのこの状況報告の供給源としてL2が識別さ
れた。L2の強制未修正状況はサイクル16でL2CG
とBSUCの両方によってラッチされるが、この間にア
ドレス/キー制御機構16は、L3主記憶装置22から
送られるデータに対するL2キャッシュの目標アドレス
を受は取る。
キャッシュ制御機構24は、アドレス/キー制御機構に
送られたアドレスを同時に記録し、その位置で凍結を実
施して、他の動作がL2キャッシュの事象rFJに干渉
することを防止する。この凍結によって、L2キャッシ
ュにあるが、他のプロセッサによって「所有」されるど
の要求データも保護される。凍結はここに示す検査・設
定動作で非常にタイムリーである。というのは、第4図
と第6図で、無関係のデータ要求により、事象rFJが
L2キャッシュでそのデータに対するアクセスを凍結す
るのと同時に、L2キャッシュ・ディレクトリを探索す
ることにより、事象rGJがL2再試行領域で活動状態
になるからである。
サイクル17で、L2キャッシュで要求されたデータを
見つけるのに失敗した結果、BSUCが取出しコマンド
を発行し、L2CCがBSUCを介してMCマスク装置
、メモリ制御機構からインページ・コマンドを得る。メ
モリ制御機構20は、転送に使用されるバスを識別し、
サイクル18で、データがL2キャッシュに転送される
ところであるとアドレス/キー制御機構18に通知する
。サイクル19で、L3メモリ・アクセスが開始L、そ
の間にキャッシュ制御機構24で状況フラグが設定され
、データがL2キャッシュに書き込まれるところである
こと、すなわち「インページ」が保留であること、及び
書き込まれるデータが事象rFJによって修正されたデ
ータとして処理されるところであることを示す。このた
め、事象rFJを開始させた中央プロセッサは、データ
に対して排他的アクセスを行なえる。
L3主記憶装置からのデータは、クロック・サイクル2
6でデータ・パス上に現れる。L2キャッシュ・バッフ
1とL1転送レジスタは、サイクル27で要求されたデ
ータのロック・バイトを受は取る。それによって、事象
rFJによってそれらのバッファとレジスタに送られて
いるデータが保護され、それらはサイクル28でデータ
をラッチし始める。主記憶装置による8つのデータ転送
のブロックの最後の転送が、サイクル35でL2キャッ
シュ・バッファによってラッチされる。
キャッシュ制御機構24は、ブロックの8つの転送の最
後のものがサイクル36でラッチされた後、自動的に事
象L2 ID−Hを開始させることにより、L3再試行
領域から転送されたデータ・ブロック全体の受信を肯定
応答する。
L1キャッシュ・バッファはまた、・L2バッファと同
時にL3主記憶装置から転送されたデータをラッチした
が、L2バッファの容量の半分しか持っていす、クロッ
ク・サイクル36で収容できる最後の転送を受は取った
。主記憶装置22からのこのデータは、L3からのデー
タがL2キャッシュに♂き込まれる前に、クロック・サ
イクル38の終りまでにL1キャッシュに書き込まれる
。要求されたデータの検索を完了するこの書込み・更新
シーケンスを遅延させるどんな動作もし1キヤツシユで
保留になっていないと仮定すると、L1キャッシュ・デ
ィレクトリはサイクル39で更新される。
サイクル35で「インページ」を完了する:Iアンドを
発行した後、L2ID−Hを活動化したL2キャッシュ
にデータが転送され、キャッシュ制御機構24は、L2
キャッシュ・ディレクトリを探索スる。L2キャッシュ
・ディレクトリは、サイクル37で更新される。サイク
ル37で、キヤ。
シュ制御機構は、サイクル16でL2キャッシュに設定
された凍結をも解除する。Llの状況が、サイクル37
でキャッシュ制御機構によって検査され、サイクル38
で事象rFJによってそこに転送されたデータをマーク
するように更新される。
事象rHJは、第5図に示すように、サイクル37で再
試行領域L2のL2CC装置について活動状態になる。
しかし、サイクル39でL2キャッシュにデータが書き
込まれる前に、L2CC1BSUC及びメモリ制御機構
は、検査・設定動作がデータを書き込むL2キャッシュ
の位置にデータの実際の状況をラッチする。この場合、
データは実際には未修正であり、このデータのコピーが
L3主記憶装置にすでに存在し、L3主記憶装置への返
送が不要であることを示す。
サイクル34で、最後のバイトがL3主記憶装置からの
バス上に現れた後、メモリ制御機構20は、L3が使用
中ではないとの通知を受ける。サイクル37で、メモリ
制御機構20は、サイクル35でのキャッシュ制御機構
の「インページ完了」動作L2 I D−Hに応答して
、「インページ完了/ポート」コマンド及びメモリ・ポ
ート・アドレスで事象MCI D−16を継続する。修
正データをL2からL3にフラッシュする必要がないの
で、アドレス/キー制御機構16とメモリ制御機構20
は、L2キャッシュ・ディレクトリの情報の複製である
L2ミニ・ディレクトリ31を更新するだけである。こ
の情報の複製は、入出力チャンネル5HCPA1SHC
PB及びNIOからのデータ要求に応答するために、M
C再試行領域によって使用される。事象MCI D−1
8とこの検査・設定動作の全体は、サイクル42の始め
までに完了する。
このL3からLlへのデータ転送のために3つのレベル
すべてが準備され、これらの転送状況のマーキングとそ
の結果得られるデータ位置のカタログ化は、L2レベル
に転送されるデータが即時に使用されない場合でも各レ
ベルで完了される。
これが行なわれるのは、この3つのレベルの記憶サブシ
ステムの各レベルで行なわなければならない様々な動作
によって多重処理環境でこれらのレベルのうちのどのレ
ベルからのデータ転送にも付随するデータ転送遅延がひ
どくなるのを防止することである。
また、主記憶装置へのアクセスは遅いが、多くのデータ
・ブロックが主記憶装置によって日常的に非常に迅速に
転送できるので、キャッシュが記憶できる最大量のデー
タが、上記の検査・設定動作によって主記憶装置から転
送された。しかし、データの宛先はLlであったので、
L3主記憶装置からLlに転送されたデータ・ブロック
の半分は必ずしも直接L1に到達しなかった。残りのデ
ータは、L3よりアクセスしやすいL2から得られる。
そうではなくて、5HCPAなどのチャンネル・プロセ
ッサからデータ要求が現れた場合、データ・ブロック全
体がL2キャッシュを介して転送されることがあり得る
検査・設定命令によって開始される様々な検査・設定手
順は、こうした複雑なデータ転送の結果をマークしカタ
ログ化すると共に、データ要求間の衝突を防止する。デ
ータが検索される前に各キャッシュ位置の修正/未修正
マーク・セットが検査されるので、データが適切なディ
レクトリにマークされカタログ化される前にデータ転送
が中断されると、メモリ障害が起こって、個別の回復動
作が企てられるまで、メモリの領域に通常のデータ要求
がアクセスできなくなる恐れがある。すなわち、動作で
誤りが検出されたとき、記憶サブシステムにマーキング
及びカタログ化がまだの情報が残るという危険よりも、
進行中のデータ転送全体を完了させることの方が重要で
ある。
さらに、L3主記憶装置22と記憶サブシステム10は
別々のクロック領域にある。これは、記憶サブシステム
10で発生した割込みが、L3主記憶装置22でのクロ
ックの中断と必ずしもちょうど同時には起こらないこと
を意味する。
また、ある装置のエラー・フラグが設定されているとし
ても、所定の再試行領域でその装置の動作を急激に停止
することは一般に望ましくない。
というのは、検出された装置エラーが断続的なエラーの
ことがあるからである。そのエラー・フラグが設定され
たとき第1図に示した装置の1つの動作を停止すると、
その装置を使用する他の重なり合った動作、うまくすれ
ば首尾よく完了できるかもしれない動作の実行継続を阻
止することによって、記憶サブシステム全体の静止が不
必要な干渉を受けることがある。
本発明に従うて動作を静止させると、装置エラーが発生
したときにサブシステムで実行中のすべての動作がきち
んと完了でき、装置エラーの影響を受けたサブシステム
で実行中の装置と動作が正確に識別されて、効率のよい
再試行及びデータ回復動作が実現される。再試行動作の
範囲を限定するために、すでに進行中の動作を停止する
のではなり、静止中にサブシステムによる新しい動作の
実行が禁止される。エラーの影響を受ける動作は、こう
した動作の実行がサブシステムで完了した後で識別され
る。
回復動作 第1図に示したメモリ・サブシステムを含むコンピュー
タ・システムの好ましい実施例は、記憶サブシステムで
発生するエラーからのシステムの回復を制御するサービ
ス・プロセッサ32をも含んでいる。サービス・プロセ
ッサ32は、記憶サブシステムの動作が静止された後、
マスク追跡アレイと装置追跡アレイに記録されたデータ
を読み取って、コンピュータ・システムによってどの動
作が再試行されるかを決定する。適切なサービス・プロ
セッサは、たとえば、システム・サービス・アダプタ(
SSA)と組み合わせたIBMパーソナル・システム/
2である。これは、1988年6月30日出願の米国特
許出願第213560号に記載されている。この開示を
引用により本明細書に組み込む。
装置エラーが発生したときマシン・チエツク・エラー・
フラグを設定する手段が当技術分野で周知である。エラ
ー・フラグが記憶サブシステムに設定される度に、その
エラーの位置がサービス・プロセッサに報告される。本
発明の好ましい実施例によれば、サービス・プロセッサ
は、エラーが報告されたときコンピュータ・システムの
他の領域で実行中の動作のすべてまたは一部を停止させ
る能力をもつ。しかし、固有チャンネル・プロセッサ(
N I O)の場合と同様に、記憶サブシステム及び広
範なパイプライン化が行なわれる選択された他の領域で
エラー・フラグが設定されたとき、クロックを止めて動
作を即時停止させるのではなく、通常は動作が静止され
る。この好ましい実施例によれば、記憶サブシステム及
び広範に動作のパイプライン化が行なわれている他の領
域が、それらのクロックを緊急に停止することによって
停止されるだけである。
どの動作を再試行しなければならないかを決定するため
、サービス・プロセッサは、最初のエラーが1次エラー
としてサービス・プロセッサに報告された特定のクロッ
ク・サイクル中に記憶サブシステム内で発生するすべて
のエラーをラッチする。
1次エラーが発生すると、そのエラーは、記憶サブシス
テムのマスク追跡アレイに追加のETIDが入ることを
阻止する。マスク追跡アレイへの入力が阻止されると、
そのサブシステムで新しい命令が実行を開始しない。次
いで、記憶サブシステムのすべての動作が静止されると
、記憶サブシステムでの処理が停止し、サービス・プロ
セッサはすべてのエラー・レジスタと追跡アレイの内容
を読み取り記憶する。
1つまたは複数の1次エラーの位置は、記憶サブシステ
ムでエラーが最初に検出されたときにラッチされた情報
である。サービス・プロセッサは、この情報を用いて、
1次エラーが発生した位置でエラーが発生したことをエ
ラー・フラグが示す、最初の動作に関連するETIDを
決定する。
1次エラーを報告する装置がエラー・レジスタをもつ場
合、障害を起こした最初の動作のETIDが、その装置
に対して最初にエラー・フラグが設定されたときに、レ
ジスタによってラッチされた。サービス拳プロセッサは
、エラー〇レジスタによってラッチされた最初のETI
Dを、その装置の1次エラーのETIDとして選択する
。11次エラーが、追跡アレイでそのエラーを記録した
装置から報告された場合、サービス・プロセッサは、そ
の追跡アレイで発生した最初のエラー・フラグがついた
項目のETIDを決定する。1次エラーのETIDを相
互参照として含む項目で発生するすべてのETIDも、
サービス・プロセッサによって識別される。このため、
以前の装置で行なわれていたように、影響を受ける処理
が、エラーが発生した再試行領域から外へ広がる前に、
そうした処理を停止する必要がなくなる。
静止中に発生する個別のエラー、そのETIDが追跡ア
レイ及びエラー・レジスタには現れるが、1次エラーの
ETIDに対して相互参照されないエラーも、サービス
・プロセッサによって「2次」エラーとして識別される
。これが特に重要なのは、11試行領域での動作を停止
させないが、その代わりに損傷のあるデータを作成し続
ける、断続的エラーが発生するときである。
これらの個別エラーのETID及びそれらと相互参照さ
れたETIDに関連するコマンド及びアドレスを、中央
プロセッサが使って、損傷データを無効化させる命令を
開始させる。この損傷データには、彫金を受けるコマン
ドによって修正されたデータが含まれる。CPUは、L
3主記憶装置からのコピーがある場合、キャッシュの損
傷を受けた未修正データ入力をそれらのコピーで置き換
える。修正されたデータがメモリの障害、特にL2キャ
ッシュ・メモリの障害によって損傷を受けた場合、サー
ビス・プロセッサは、そのデータの回復を試みる。動作
の再試行に必要なデータが得られないときは、その動作
の保留中の再試行は打ち切られる。
1次エラーであれ2次エラーであれ、個別のエラーがす
べてサービス・プロセッサによって識別されると、サー
ビス・プロセッサは、エラー、フラグ、エラー・レジス
タ及び追跡アレイをすべてリセットする。サービス・プ
ロセッサは、障害の影響を受けたチャンネル・プロセッ
サ及びCPUインターフェースもリセットする。次いで
、サービス・プロセッサは、記憶サブシステムを再起動
させて、各個別エラーの前に発生した、影響を受けなか
った事象の結果を用いて影響を受けた各動作の再試行を
開始させる。
E0発明の効果 本発明によると、再試行領域に動作が転送される度にE
TIDが指定されるので、記憶サブシステム内の命令の
実行開始時に再試行を始めるのではなく、記憶サブシス
テム内の命令の実行中のある時点で動作の再試行を始め
ることができる。エラーが発生した点が正確に識別され
るため、サブシステムで実行中のすべての動作が静止さ
れる場合でも、再試行の労力が最小になり、無効にし再
構成しなければならないデータの量も減少する。
また、別の再試行領域で動作の実行が続けられていると
きに再試行領域間でETIDが相互参照されるので、1
次エラーのETIDが影響を受ける後続のすべての動作
を識別する。したがって、本発明は、1次エラーから始
まり、エラーの影響を受けるすべての動作を含めて、静
止中に発生する各個別エラーを回復する機会をもたらす
しかし、当業者には自明の通り、本発明の範囲内で修正
及び変更を加えることができる。具体的には、本発明は
、処理装置にも記憶サブシステムにも適用でき、またE
TID自体に、事象を特定のソースまたは活動に明示的
にリンクすると共にある再試行領域内で発生する事象を
一義的に識別する、装置固有コードまたはコマンド固有
コードを含めることができる。
【図面の簡単な説明】
第1図は、本発明の好ましい実施例による記憶サブシス
テムの概略ブロック図である。 第2図は、事象L21 D−Cが共通キャッシュ(L2
)の再試行領域で活動状態になる「検査・設定」動作中
のクロック・サイクル8で、第1図に示した2つの再試
行領域のそれぞれ、及び本発明により構成され動作され
る再試行領域内の選択された装置に対する追跡アレイに
記録される項目を示す説明図である。 第3図は、L2再試行領域の事象L2ID−Cがメモリ
制御(MC)再試行領域で事象MCI D−16を開始
させるサイクル12で、第2図の追跡アレイに記録され
る項目を示す説明図である。 第4図は、L2再試行領域で事象L2 I D−Gが発
生し、MC再試行領域の事象MCID−16がL2再試
行領域の事象L2ID−Fを開始させた後に、事象L2
CC−18がMC再試行領域で発生するサイクル17で
、第2図の追跡アレイに記録される項目を示す説明図で
ある。 第5図は、データ転送事象MCID−18がL2再試行
領域でL2キャッシュ制御機構によって処理されるとき
、事象L2 ID−Hがデータ転送事象MCID−16
の完了によって開始されるサイクル37で、第2図の追
跡アレイに記録される項目を示す説明図である。 第6a図ないし第8d図は、「検査・設定」命令の実行
中に第1図の記憶サブシステムで発生するいくつかの事
象を示すタイミング図である。 10・・・・記憶サブシステム、12・・・・共通キャ
ッシュ(L2)再試行領域、14・・・・メモリ制御(
MC)再試行領域、16・・・・アドレス/キー制御機
構、20・・・・メモリ制御機構、22・・・・主記憶
装置、24・・・・キャッシュ制御機構、25・・・・
高レベル(L2)共通キャッシュ・メモリ、26・・・
・L2キャッシュ・ディレクトリ、27・・・・バス切
替え装置制御機構、28・・・・バス切替え装置、29
・・・・L2キャッシュ制御機構。 出願人  インターナシロナル・ビジネス・マシーンズ
・コーポレーシ1ン 代理人  弁理士  頓  宮  孝  −(外1名)

Claims (1)

    【特許請求の範囲】
  1. ハードウェア装置を含む再試行領域を有し、各再試行領
    域が少なくとも1つの項目を有する追跡アレイを含み、
    前記追跡アレイの各項目が少なくとも1つの事象追跡識
    別子とエラー・フラグを含み、前記事象追跡識別子が前
    記装置で行なわれる動作を識別し、前記再試行領域での
    前記動作の実行によって追跡アレイへの前記事象追跡識
    別子の挿入が開始される、コンピュータ・システム。
JP1099051A 1988-06-30 1989-04-20 コンピュータ・システム Pending JPH0227441A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US213523 1988-06-30
US07/213,523 US4924466A (en) 1988-06-30 1988-06-30 Direct hardware error identification method and apparatus for error recovery in pipelined processing areas of a computer system

Publications (1)

Publication Number Publication Date
JPH0227441A true JPH0227441A (ja) 1990-01-30

Family

ID=22795433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1099051A Pending JPH0227441A (ja) 1988-06-30 1989-04-20 コンピュータ・システム

Country Status (3)

Country Link
US (1) US4924466A (ja)
EP (1) EP0348994A3 (ja)
JP (1) JPH0227441A (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5553262B1 (en) * 1988-01-21 1999-07-06 Mitsubishi Electric Corp Memory apparatus and method capable of setting attribute of information to be cached
JP2858140B2 (ja) * 1988-10-19 1999-02-17 アポロ・コンピューター・インコーポレーテッド パイプラインプロセッサ装置および方法
US5226126A (en) * 1989-02-24 1993-07-06 Nexgen Microsystems Processor having plurality of functional units for orderly retiring outstanding operations based upon its associated tags
US5781753A (en) 1989-02-24 1998-07-14 Advanced Micro Devices, Inc. Semi-autonomous RISC pipelines for overlapped execution of RISC-like instructions within the multiple superscalar execution units of a processor having distributed pipeline control for speculative and out-of-order execution of complex instructions
US5768575A (en) * 1989-02-24 1998-06-16 Advanced Micro Devices, Inc. Semi-Autonomous RISC pipelines for overlapped execution of RISC-like instructions within the multiple superscalar execution units of a processor having distributed pipeline control for sepculative and out-of-order execution of complex instructions
US5299206A (en) * 1991-10-24 1994-03-29 Digital Equipment Corporation System and method for analyzing complex sequences in trace arrays using multiple finite automata
JPH05210640A (ja) * 1992-01-31 1993-08-20 Hitachi Ltd マルチプロセッサシステム
US5444859A (en) * 1992-09-29 1995-08-22 Amdahl Corporation Method and apparatus for tracing multiple errors in a computer system subsequent to the first occurence and prior to the stopping of the clock in response thereto
JP3338488B2 (ja) * 1992-11-18 2002-10-28 富士通株式会社 データ処理装置の検証方法及び装置
US5488706A (en) * 1992-12-18 1996-01-30 Amdahl Corporation Retry request system in a pipeline data processing system where each requesting unit preserves the order of requests
US5664195A (en) * 1993-04-07 1997-09-02 Sequoia Systems, Inc. Method and apparatus for dynamic installation of a driver on a computer system
US5809525A (en) * 1993-09-17 1998-09-15 International Business Machines Corporation Multi-level computer cache system providing plural cache controllers associated with memory address ranges and having cache directories
US5392420A (en) * 1993-09-30 1995-02-21 Intel Corporation In circuit emulator(ICE) that flags events occuring in system management mode(SMM)
US5922070A (en) * 1994-01-11 1999-07-13 Texas Instruments Incorporated Pipelined data processing including program counter recycling
US5539895A (en) * 1994-05-12 1996-07-23 International Business Machines Corporation Hierarchical computer cache system
DE69506404T2 (de) * 1994-06-10 1999-05-27 Texas Micro Inc., Houston, Tex. Hauptspeichervorrichtung und wiederanlaufkennzeichnungsverfahren für ein fehlertolerantes rechnersystem
JP3086779B2 (ja) * 1995-06-19 2000-09-11 株式会社東芝 メモリ状態復元装置
US5745672A (en) * 1995-11-29 1998-04-28 Texas Micro, Inc. Main memory system and checkpointing protocol for a fault-tolerant computer system using a read buffer
US5737514A (en) * 1995-11-29 1998-04-07 Texas Micro, Inc. Remote checkpoint memory system and protocol for fault-tolerant computer system
US5751939A (en) * 1995-11-29 1998-05-12 Texas Micro, Inc. Main memory system and checkpointing protocol for fault-tolerant computer system using an exclusive-or memory
US5864657A (en) * 1995-11-29 1999-01-26 Texas Micro, Inc. Main memory system and checkpointing protocol for fault-tolerant computer system
TW379298B (en) * 1996-09-30 2000-01-11 Toshiba Corp Memory updating history saving device and memory updating history saving method
US6018809A (en) * 1997-03-28 2000-01-25 Emc Corp Apparatus and method for capturing information off a plurality of bi-directional communication buses
US6233680B1 (en) * 1998-10-02 2001-05-15 International Business Machines Corporation Method and system for boot-time deconfiguration of a processor in a symmetrical multi-processing system
US6360333B1 (en) * 1998-11-19 2002-03-19 Compaq Computer Corporation Method and apparatus for determining a processor failure in a multiprocessor computer
US6457144B1 (en) * 1998-12-08 2002-09-24 International Business Machines Corporation System and method for collecting trace data in main storage
US6615375B1 (en) 2000-02-03 2003-09-02 International Business Machines Corporation Method and apparatus for tolerating unrecoverable errors in a multi-processor data processing system
US6931492B2 (en) * 2001-11-02 2005-08-16 International Business Machines Corporation Method for using a portion of the system cache as a trace array
US6978408B1 (en) * 2004-12-09 2005-12-20 International Business Machines Corporation Generating array bit-fail maps without a tester using on-chip trace arrays
US7367944B2 (en) 2004-12-13 2008-05-06 Tel Hashomer Medical Research Infrastructure And Services Ltd. Method and system for monitoring ablation of tissues
US7734949B2 (en) * 2006-03-30 2010-06-08 Alcatel Lucent Information error recovery apparatus and methods

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61131043A (ja) * 1984-11-30 1986-06-18 Toshiba Corp タスク間キユ−制御方式

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE27485E (en) * 1971-03-26 1972-09-26 Ls ec sdr
GB1509193A (en) * 1974-04-17 1978-05-04 Nat Res Dev Computer systems
US4044337A (en) * 1975-12-23 1977-08-23 International Business Machines Corporation Instruction retry mechanism for a data processing system
US4429360A (en) * 1978-10-23 1984-01-31 International Business Machines Corporation Process and apparatus for interrupting and restarting sequential list-processing operations
JPS5755456A (en) * 1980-09-19 1982-04-02 Hitachi Ltd Career recording system
JPS6053339B2 (ja) * 1980-10-09 1985-11-25 日本電気株式会社 論理装置のエラ−回復方式
JPS5886648A (ja) * 1981-11-18 1983-05-24 Mitsubishi Electric Corp トレ−ス装置
US4453093A (en) * 1982-04-02 1984-06-05 Honeywell Information Systems Inc. Multiple comparison circuitry for providing a software error trace signal
US4521847A (en) * 1982-09-21 1985-06-04 Xerox Corporation Control system job recovery after a malfunction
US4493035A (en) * 1982-12-07 1985-01-08 Motorola, Inc. Data processor version validation
US4524415A (en) * 1982-12-07 1985-06-18 Motorola, Inc. Virtual machine data processor
US4697266A (en) * 1983-03-14 1987-09-29 Unisys Corp. Asynchronous checkpointing system for error recovery
US4633467A (en) * 1984-07-26 1986-12-30 At&T Bell Laboratories Computer system fault recovery based on historical analysis
JPS6226580A (ja) * 1985-07-29 1987-02-04 Hitachi Ltd 障害処理方式
US4703481A (en) * 1985-08-16 1987-10-27 Hewlett-Packard Company Method and apparatus for fault recovery within a computing system
US4661953A (en) * 1985-10-22 1987-04-28 Amdahl Corporation Error tracking apparatus in a data processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61131043A (ja) * 1984-11-30 1986-06-18 Toshiba Corp タスク間キユ−制御方式

Also Published As

Publication number Publication date
EP0348994A3 (en) 1991-05-15
US4924466A (en) 1990-05-08
EP0348994A2 (en) 1990-01-03

Similar Documents

Publication Publication Date Title
JPH0227441A (ja) コンピュータ・システム
US3688274A (en) Command retry control by peripheral devices
US5193181A (en) Recovery method and apparatus for a pipelined processing unit of a multiprocessor system
US5317739A (en) Method and apparatus for coupling data processing systems
US6466988B1 (en) Multiprocessor synchronization and coherency control system
US4053752A (en) Error recovery and control in a mass storage system
US5379398A (en) Method and system for concurrent access during backup copying of data
JP2703479B2 (ja) タイム・ゼロ・バックアップ・セッションの安全保護機能を有するデータ処理方法及びシステム
US7650467B2 (en) Coordination of multiprocessor operations with shared resources
JPH0239254A (ja) データ処理システム及びそのキヤツシユ記憶システム
JPH0812619B2 (ja) リカバリ制御システム及びエラー回復方法
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
EP0431326A2 (en) Inter-processor interrupts in an n-element multi-processor
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JP3723243B2 (ja) プロセッサ装置及びその制御方法
JPH0245845A (ja) データ処理システム
JP2973425B2 (ja) 障害処理方法およびそのための装置
JP3239935B2 (ja) 密結合マルチプロセッサシステムの制御方法、密結合マルチプロセッサシステム及びその記録媒体
JPS6113261B2 (ja)
JPH0368034A (ja) チェックポイント再試行方式
JP2919457B1 (ja) 二重化装置i/o制御方式およびそのプログラム記録媒体
JPS6138504B2 (ja)
JPS5932821B2 (ja) 情報処理装置
JPH09282291A (ja) 共通記憶装置のロックフラグ解除方式および方法
EP0476262B1 (en) Error handling in a VLSI central processor unit employing a pipelined address and execution module