JPH05298134A - コンピュータシステムにおける処理誤りの処理機構及び方法 - Google Patents

コンピュータシステムにおける処理誤りの処理機構及び方法

Info

Publication number
JPH05298134A
JPH05298134A JP4284662A JP28466292A JPH05298134A JP H05298134 A JPH05298134 A JP H05298134A JP 4284662 A JP4284662 A JP 4284662A JP 28466292 A JP28466292 A JP 28466292A JP H05298134 A JPH05298134 A JP H05298134A
Authority
JP
Japan
Prior art keywords
error
processing
computer system
retry
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4284662A
Other languages
English (en)
Inventor
Kevin Roy Griess
ケビン、ロイ、グリース
Ann Caroline Merenda
アン、キャロライン、メレンダ
Donald Lloyd Pierce
ドナルド、ロイド、ピアース
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05298134A publication Critical patent/JPH05298134A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1405Saving, restoring, recovering or retrying at machine instruction level
    • G06F11/141Saving, restoring, recovering or retrying at machine instruction level for bus or memory accesses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Abstract

(57)【要約】 (修正有) 【目的】 コンピュータシステムにおける処理誤りを処
理するための機構を提供する。 【構成】 処理方法の流れ図が示される。段階702で
中央電子複合体CEC内の液体冷却モジュールTCMが
誤りを検出し段階704で処理装置制御コードPCCに
割り込む。これに応答して段階705で処理装置制御コ
ードが誤り回復手続きを開始。誤り回復の一部として段
階706でカウンタを増分、段階708で再試行しきい
値が超えられていないかを検査。否定ならば段階710
でPCCコードは回復アルゴリズムを継続する。再試行
が成功すれば処理は従来通りに継続する。再試行が成功
しなければ状態702で誤りが再検出され再試行カウン
タが増分される。段階708に戻り、しきい値を超えた
場合段階712で故障がリペアアクションUIRAを要
求するものであるか判定。否定ならば段階715で延期
サービスを呼出す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータシステム
における誤り回復に関する。さらに詳しく言えば、本発
明は、交流またはタイミング依存欠陥によって生じた処
理誤りからの回復に関する。
【0002】
【従来の技術およびその課題】アンスケジュールドイン
シデントリペアアクション(UIRA)は、たぶん、唯
一の最も重要な信頼性/可用性/保守性(RAS)特性
であろう。UIRAは、カストマのシステムを臨時に修
理のために停止させる必要性を生じる重大なハードウエ
ア機能における回復不可能な故障によって生起する。U
IRAを引き起こす回路故障は、性質上、交流または直
流のいずれかとなり得る。直流欠陥は、欠陥のある回路
が使用されている場合に常に生じる固体故障である。交
流欠陥は、通常、タイミング依存性であり、論理経路に
おけるタイミングマージンを超えた場合にのみ発現す
る。
【0003】交流欠陥を直流欠陥と区別できる自己試験
機構は、当業で公知である。例えば、論理が第1のクロ
ック速度で自己試験に失敗した場合、その故障が交流欠
陥または直流欠陥によって生じたものであるかを判定す
るために、さらに低速のクロック速度で再実行すること
は当業で公知である。その自己試験がその低速のクロッ
ク速度で合格した場合は、その故障は交流欠陥によって
生じたものと識別される。自己試験がその低速クロック
速度でも合格しなかった場合、その故障は直流欠陥によ
って生じたものと識別される。“SELF−TEST
AC ISOLATION”(IBM Technic
al Disclosure Bulletin Vo
l.28, No.1,1985年6月,第49−51
頁)は、交流故障の開始クロックパルスを識別し、収集
クロックパルスを識別し、収集記憶要素を識別し、以降
の診断のためにその故障の直前および直後のハードウエ
ア状態を抽出するための方法を記載している。
【0004】上述の試験方法は交流欠陥を直流欠陥と区
別し、試験設備環境内において障害を分離するための手
段を供するが、それらの方法は、交流欠陥によって生じ
た処理誤りからの動的な誤り回復または障害許容力を付
与するという課題を解決しない。
【0005】従来技術のコンピュータシステムは、処理
誤りから回復するための多様な機構を備えている。例え
ば、Koggeらによる米国特許第4,912,707
号は、現チェックポイントの通過以後の誤りの検出に応
答して、最新時に実行されたコードのセグメントの命令
シーケンスの再試行を可能にするチェックポイント再試
行機構の使用を開示している。命令再試行機構の別の例
は、Hicksらによる米国特許第4,044,337
号に開示されている。
【0006】こうした従来技術の再試行機構は、ソフト
ウエア誤り(再現不可能な障害症状をもたらす電気的雑
音または他の無作為発生源のために生じる誤り)からの
回復のための良好な手段を付与するが、交流欠陥によっ
て生じた固体またはハードウエア誤り(すなわち、再発
し、一貫して再現可能なタイミング誤り)からの回復は
付与しない。
【0007】処理誤りを処理するための別の従来技術の
機構は、冗長的な処理要素の使用を伴うものである。こ
うしたシステムでは、同一の命令ストリームが2つ以上
の処理要素によって並列で処理される。回復不可能な誤
りがそれらの処理要素の1つで検出された場合、それは
オフラインで受け取られ、他の処理要素はその命令スト
リームを処理し続ける。こうした冗長処理装置方式の一
つの利点は、それらが「ソフトウエア」および「固体」
または「ハードウエア」誤りの両方を処理できることで
ある。このような方式の欠点は、「障害許容力」を高め
るために複製処理要素を備えることが、部品および製造
の点でシステムのコストを著しく増大させることであ
る。
【0008】従って、他の従来のコンピュータシステム
が交流欠陥から動的に回復できるようにする安価な機構
が必要とされる。
【0009】
【課題を解決するための手段及びその作用】本発明は、
コンピュータシステムにおいて交流欠陥によって生じた
処理誤りを処理するための機構を含む。この機構は、命
令のストリームを処理するための第1の手段と、第1の
手段による命令の処理中に発生したタイミング依存誤り
を検出するための第2の手段と、第2の手段によるその
タイミング依存誤りの検出に応答して第1の手段の命令
処理サイクル時間を変化させ、かつ、第2の手段にその
変化以降の命令の少なくとも一部を再試行させるための
第3の手段とを含む。
【0010】好ましい実施例では、本発明は、回復コー
ドによって制御される可変周波数発振器を使用して、致
命的な障害と判定された事柄に続き、かつ、正常な再試
行が不成功とに終わった後に、所定の時間(Texte
nd)だけシステムクロックサイクル時間を増やす。こ
の増大されたサイクル時間は、その論理経路タイミング
スラックを延長させ、それによって、セグメントをラッ
チするためにいずれかのサイクル時間依存ラッチで発現
した一定の交流(経路遅延)欠陥に対する許容力を付与
する。この時間(Textend)は、例えば、システ
ムケーブルにおけるデータのパイプライン化から生じる
最大サイクル時間制限にもとづいて選択される。
【0011】増大(延長)されたサイクル時間で再試行
が成功すれば、その欠陥が時間依存性であり、そのサイ
クル時間延長(Textend)によって許容されるこ
とを意味する。それは依然として修理が延期されただけ
のサービス呼び出しに帰着するが、システムは停止させ
ることなく動作させることができる。増大されたサイク
ル時間で再試行が不成功に終わった場合、その欠陥は固
体(直流欠陥)欠陥であったか、または、そのサイクル
時間延長(Textend)よりも長いタイミング特性
による交流欠陥であったことを意味する。こうした場
合、再試行の不成功は、システムを停止させ、即時修理
のためのサービス呼び出しを開始するUIRAにつなが
る。
【0012】本発明は、故障ハードウエアの欠陥解析に
おいて製造/修理を支援するために使用できる誤り報告
ファイルでデータを提供するように拡張できる。現場修
理から戻されたTCMの試験が「欠陥なし」(NDF)
という報告をもたらす場合がしばしばある。NDFは、
回路タイミングのために、故障装置がカストマの機械に
配置された場合に現れるにすぎないTCM網に対するT
CMでの交流欠陥によって引き起こされる。その欠陥が
時間依存性であり、サイクル時間延長(Texten
d)によって許容されることを識別するデータが修理メ
ッセージにあれば、欠陥の分離および識別を助けること
ができる。
【0013】
【実施例】図1について説明する。IBMエンタープラ
イズ・システム・アーキテクチャ/390 (ESA/
390)に適合する形式のコンピュータシステムにおけ
る中央電子複合体(CEC)が例示されている。図1の
中央電子複合体は、3つの中央処理装置102A〜10
2Cを含む。当業で公知の通り、さらに付加的な中央処
理装置を有するコンピュータシステムを形成するために
多数のCECを相互接続することが可能である。各中央
処理装置(CP)は、自己自身の従来の第1レベルの高
速バッファ(L1)104A〜Cを有する。これらのL
1は、さらに、全部のCPによって共用される第2レベ
ルの高速バッファ(L2)106に接続されている。L
2 106は、主記憶域としても知られる、中央記憶装
置108にシステム制御要素(SCE)118を介して
接続されている。
【0014】図1のCECはまた、SCE 118、拡
張記憶装置(ES)112およびチャネルサブシステム
110Bとの間のデータ転送および通信を制御する相互
接続通信要素(ICE)110Aも含む。ICE 11
0Aおよびチャネルサブシステム110Bは、集合的に
入出力サブシステムとも称する。電源の投入/切断およ
びシステム構築といったシステム動作および支援機能
は、処理装置制御要素(PCE)116と呼ばれる支援
処理装置によって制御される。PCE 116は、機器
構成制御および誤り情報を連絡するためなどに使用され
るシステムコンソールを含む。PCEはまた、誤り回復
の際にシステム要素を援助するためにも使用される。E
SA/390アーキテクチャに従ったマシンチェック誤
り処理、チェックポイント同期化およびシステムの一般
動作については、参照によって本明細書と一体となる、
文書“Enterprise Systems Arc
hitecture/390 Principles
of Operation”IBMコーポレーション
(アーモンク,ニューヨーク)より入手できる文書SA
22−7201−00)に詳述されている。
【0015】ESA/390アーキテクチャ内の各命令
の実行は、1つ以上の演算単位から成る。1つの命令が
実行されると、その単数または複数の演算単位はCPに
よって完了させられる。ESA/390アーキテクチャ
は、(各演算単位の完了後)演算単位間のポイントで割
り込みを受けつけることができる。命令は、その最終演
算単位が「完了」した時に、「完了」したとみなされ
る。演算単位が完了すると、その結果は、それらの機能
の以前の値が一般に復元できないような、構築された機
能にコミットされる。これは、新しい値をレジスタにロ
ードし、オペランド保存結果を記憶域に書き込むことを
伴う。
【0016】図1のシステムにおけるSCE 118、
ICE 110Aおよび各CP 102A〜Cは、それ
ぞれ、回復制御/命令再試行機構120A〜120Eを
含む。この種の適切な機構は、例えば、1991年8月
29日に作成され、本発明と同一の譲受人に譲渡され
た、係属出願書第07/751,906号に記載されて
いる。出願書第07/751,906号は参照によって
本明細書と一体となる。この機構の動作は、障害命令
(または、その内部の演算単位)が、誤りなく実行され
るか、または、所定の再試行しきい値に達するまで(ど
ちらが先に生じたにせよ)、再試行されるといったもの
である。
【0017】従来と同様に、図1のCP 102(A〜
C)、SCE 118およびICE110は、回路基板
(TCMボード)上に実施されており、各ボードは電子
構成要素を包含する1つ以上の液体冷却モジュール(T
CM)を含む。これらの各要素およびPCE 116
は、PCE 116とCECとの間でのクロック、デー
タおよび制御信号を供給するサービスボード122に接
続されている。
【0018】図2は、図1のシステム内の複数の例示T
CMボード202〜206および、本発明の実施例に従
ったクロック配分・監視・制御機構とのそれらの会話を
示す機能ブロック図である。図2のこの機構は、システ
ムクロックを生成し、それらをTCM内に配置されたク
ロック配分チップ210(JC1〜JC5)に配分す
る、プログラム可能発振器/VFOカード208を含
む。クロック配分チップ210は、システムの各TCM
にクロックを配分する、扇状樹構造を成すように相互接
続されている。
【0019】また、TCMボード202〜206のそれ
ぞれは、ボード上のTCMの1つに配置された論理支援
ステーション(LSS)212を含む。LSS 212
は、対応するTCMボードの各TCMから誤り報告情報
を収集する。各LSSは、双方向バス216を介して
(サービスボードに配置された)共通の論理サービス要
素(LSE)214に接続されている。LSE 214
は、LSS 212からPCE 116へ誤り情報を通
信するために、また、PCE 116からLSS212
へ回復制御情報を通信するために使用される。PCE
116は、誤り形式、回復状態情報、LSS/ボード番
号および誤りが発生した特定のTCMを含む誤り情報を
各TCMボードから収集するためにLSE 214を使
用する。PCE 116は、誤り回復においてこの情報
を使用し、誤り回復処理情報をLSEを通じてTCMへ
返送する。LSEはまた、PCE 116と発振器/V
FOカード208との間のインタフェースとしても機能
する。
【0020】図3は、図2のシステムにおける例示TC
Mボードの例示図である。各TCMボードは、多数のT
CM 302〜312を含む。これらのTCMの1つに
あるクロック配分チップ(JC3)は、TCMボード1
(図2)の別のクロック配分チップ(JC5)によって
配分された単一のシステムクロック信号からラッチおよ
びトリガクロックを生成する。また、1つのTCMは、
そのTCMボード用のLSS 212を含んでいる。T
CMボード上の各TCMは、自己自身のクロック配分チ
ップおよびQステーション314を含む。各Qステーシ
ョン314は、その関係するTCM用の誤り収集ハード
ウエアを含んでおり、動作回復および再試行情報を維持
する対応する回復制御120(A〜E)に接続されてい
る。LSS 212は、Qステーション314のそれぞ
れから誤りおよび回復データを収集するための経路をP
CE 116に付与する。この情報は、Qステーション
からLSS 212およびLSE 214を経てPCE
116に渡される。
【0021】図4は、図2の発振器/VFOカード20
8の論理図である。発振器/VFOカード208は、ク
ロック周波数制御情報およびLSE 214からのシフ
トクロックを直列で受信するために接続されている第1
のシフトレジスタ402を含む。この情報は、PCE
116からのコマンドによってLSE 214に供給さ
れる。この第1のシフトレジスタはさらに、デコーダ4
06からの信号によってイネーブルにされるトライステ
ートドライバ404に接続されている。電源投入時に
(トライステートドライバがイネーブルになる時より前
に)、デフォールトのクロック周波数制御情報が、プラ
グロケーション408によって受信されたプログラムレ
ジスタによって供給される。
【0022】トライステートドライバ404(または、
電源投入時などのようにトライステートドライバがイネ
ーブルにされていない場合にはプログラムレジスタ)か
らの符号化されたクロック周波数データは、並列で第2
のシフトレジスタ410に供給される。この第2のシフ
トレジスタ410は、状態機構412によって供給され
るクロックおよびロード信号の制御のもとで、符号化ク
ロック周波数制御情報を直列でフェーズロックドループ
(PLL)周波数シンセサイザ414に供給するために
接続されている。この制御情報は、周波数シンセサイザ
414内の内部カウンタにロードされる2つのパラメー
タ(MおよびN)を含む。16MHz時刻クロック発振
器416は、周波数シンセサイザ414のための基準周
波数(Fref)を供給するために接続されている。シ
ンセサイザ414の出力周波数は、N/MとFrefと
の積である(Fout=M/NxFref)。周波数シ
ンセサイザをプログラムするために使用されるインタフ
ェース制御信号は、状態機構412によって供給され
る。
【0023】状態機構412の動作は、(PCE 11
6からのクロックプログラミングコマンドに応答して生
成される)LSE 214からの制御信号、または、電
源投入時にシステムによって生成されるパワーオンリセ
ット信号によって開始される。この状態機構は、PLA
またはROMによる、個別論理として実施することもで
きる。
【0024】ローカルおよびリモートの時刻(TOD)
およびシステムクロックは、時刻発振器416によって
生成された信号、および、周波数シンセサイザ414に
よって生成されたプログラム可能クロック信号(Fou
t)に応答して、クロック選択・リドライブ回路418
によって生成される。ローカルクロック信号は、リモー
トクロックが相互接続されたCEC(それが機器構成さ
れている場合)に接続されている間に、図1のCECと
同期をとるために使用される。クロック選択・リドライ
ブ論理によって生成されたローカルおよびリモートの発
振器クロックは、差分信号である。クロック選択・リド
ライブモジュールは、多数の代替クロック入力420の
1つを(周波数シンセサイザによって供給される信号の
代用として)選択するようにプログラムすることもでき
る。
【0025】LSEからの(また、PCEからのコマン
ドに応答して生成される)クロック選択信号422は、
発振器/VFOカードのクロックモードを決定する。F
outは、発振器/VFOカードが固定周波数モード
(周波数はプログラムレジスタによって決定される)ま
たはVFOモードにある場合に選択される。VFOモー
ドの選択は、デコーダ406にトライステートドライバ
404をイネーブルにさせ、それによって、第1のシフ
トレジスタ402のプログラムされたクロック値にプロ
グラムレジスタによって行われた固定された設定をオー
バライドさせる。
【0026】前述のクロック回路は、本システムおよび
その方法の文脈で利点を付与する。クロック周波数がT
extendの分だけ低下すると、(デューティサイク
ルにおいていかなる小さな欠陥も伴わずに)遷移を円滑
にさせることが有利である。本クロック回路でのフェー
ズロックドループ周波数シンセサイザ414の使用は、
円滑な遷移を保証し、その変化がそれ自体に処理誤りを
生じさせることなくクロック周波数を変化できるように
する。
【0027】次に、本発明の動作を図5から図7によっ
て説明する。図5は、図3のTCM内の例示論理チップ
502の論理図である。この論理チップ502は、クロ
ック配分チップ(JC1)から受信されたクロック信号
をバッファする多数の受信器504を含む。クロック配
分チップ(JC1)は、Lクロック(Lx)およびTク
ロック(Tx)の2つのクロックを配分する。Lxクロ
ックの立ち下がり区間は、ラッチの第1の集合(L1)
504に以前のチップまたは論理段の出力から供給され
たデータを捕捉させる。Txクロックの立ち上がり(放
出)区間は、ラッチの第2の集合(L2)506に第1
の集合のラッチ内に保持されていたデータを捕捉させ
る。
【0028】第2の集合のラッチ(L2)506内のデ
ータは、組合せ論理(データ経路508)を通じて移行
する。データ経路508の固有遅延の和は、それらの時
間遅延を通じてデータが第2の集合のラッチに捕捉され
るために伝播できるようなものでなければならない。す
なわち、データは、その次のクロックサイクルのLクロ
ックの立ち下がり区間によって捕捉できるように使用可
能でなければならない。
【0029】データが第2の集合のラッチに捕捉され安
定した後、データは誤り検査回路510によって誤りを
検査される。この誤り検査回路は、所与の論理機能につ
いて適切であるように、(パリティ検査またはデータ比
較といった)多数の形式のいずれかとすることができ
る。TCM内のいずれかのチップの誤り検査回路による
誤りの検出は、Qステーション314に報告され、これ
がさらに、その誤りの発生をそのチップが存在するTC
MボードのLSS 212に報告する。
【0030】図6は、本発明に従ったタイミングスラッ
クの変更が交流(タイミング依存)欠陥を克服するため
にどのように使用できるかを示すタイミング図である。
Lxタイミング線602およびTxタイミング線604
は、それぞれ、例えば9ナノ秒といった正常な動作サイ
クルでのLクロックおよびTクロックを表す。システム
の正常動作中の(論理経路が交流欠陥を有していない)
データ状態は、“Normal Path”で指示され
たタイミング線606によって示されている。網かけ領
域608は、L1ラッチ入力のデータが不安定または無
効である時間を表し、空白領域610は、L1ラッチ入
力のデータが安定し有効である時間を表す。正常動作で
は、データは、Lxクロックの立ち下がり区間612が
生起している時間だけ安定している。従って、Lxクロ
ックの立ち下がり(捕捉)区間612の生起時には、デ
ータはL1ラッチに捕捉される。Txクロックの立ち上
がり(放出)区間614の後、L1ラッチからのデータ
はL2ラッチに転送される。
【0031】Txクロック604の立ち上がり区間の
後、かつ、Lxクロック602がハイレベルにある間、
データはL1ラッチ504およびL2ラッチ506を通
じて直接転送される。データは、Lxの捕捉区間の前の
設定時間を満たしている限り、Txの放出区間の後、L
1ラッチの入力で有効となることができる。Txの立ち
上がり区間の後であるがLxの立ち下がり区間(−設定
時間)の前に有効となっているデータは、Txがハイレ
ベルになった時にはまだ次のデータ経路への放出に使用
可能となっていなかったので、その次のサイクルから
「盗む」。これは、後続のデータ経路が短い場合はシス
テムにとって何ら問題を生じない。データが捕捉区間
(−設定時間)前にL1で安定し有効となっている時間
の量は、正のL1スラックと称する。データが捕捉区間
(−設定時間)後に有効となっているデータは、負のL
1スラックを示し、捕捉されないこともある。これは、
データがまだ捕捉区間で不安定である(網かけされた)
遅れ経路616によって例示される。データがここで捕
捉されていたならば、誤ったデータが次の経路に放出さ
れ、検査回路510で誤りを生じさせたであろう。
【0032】(LSSおよびLSEを経てPCEに中継
された)Qステーションによる誤りの報告に応答して、
システムは回復動作をとる。ほとんどの場合、これは、
最後のチェックポイントまで戻り、システムが誤りなく
実行するかまたは再試行しきい値に達するまで(どちら
が先に生じるにせよ)、命令または演算を再試行するこ
とを意味する。
【0033】本発明の実施例に従えば、(PCEによる
検出に従って)再試行しきい値に達すると、PCE 1
16はLSEにコマンドを送り、コマンドはさらに、L
SEにシステムクロックを低速で動作させるために発振
器/VFOカード208を再プログラムさせる。例え
ば、9ナノ秒(ns)の正常サイクル時間は300ピコ
秒(ps)だけ増やされることになる。タイミング線6
20および624は、交流欠陥を有する論理の徴候を示
す遅れ経路データ616のサイクル時間を増加させる効
果を示している。Lx’およびTx’は、増加されたサ
イクル時間で動作するLxおよびTxクロックを表して
いる。
【0034】サイクル時間をTextend量だけ減速
することによって、捕捉区間および放出区間は、Lx’
620およびTx’624のタイミング線に示されたよ
うに右側へ移される。これは、それらの区間を、データ
がやはり捕捉区間Lx’に対して遅れ経路616の空白
領域によって示されるように正のL1スラックを有する
ように位置させる。この時、データは、安全に捕捉さ
れ、次のデータ経路に放出され得る。
【0035】データが空白領域で有効(Lx’およびT
x’の両者がハイレベルである)となっていても、デー
タは、Lx’に対するL1の設定時間を満たしている限
り、放出されるであろう。しかしこれは、サイクルスチ
ールを生じさせ、経路が長い場合に後続のデータ経路で
問題を生じさせる可能性がある。Textendによっ
て実現することが望ましいことは、遅れデータ経路に再
び正常データ経路に類似させることである。これは、デ
ータに対して、捕捉区間前に有効になり、次の経路のタ
イミング制限を満たすために放出区間後の安全な期間内
に放出されるように、十分な時間を付与することによっ
て実現される。
【0036】図7は、本発明の実施例に従った交流欠陥
処理方法の流れ図である。段階702で、図1のCEC
内のTCMが誤りを検出し、対応して、段階704で処
理装置制御コード(PCC)に割り込みをかける。この
割り込みに応答して、段階705で、(PCE 116
内の)処理装置制御コードが誤り回復手続きを開始す
る。誤り回復において、システムは通常、その誤りが発
生した期間中の命令または演算を再試行することによっ
て回復を試みる。誤り回復手続きの一部として、PCE
116は段階706でカウンタを増分させ、段階70
8で再試行しきい値が超えられていないかどうかを検査
する。否定であれば、段階710でPCCコードは回復
アルゴリズムを継続する。このアルゴリズムは例えば、
最新チェックポイントのTCMの状態を復元して、その
演算または命令を再試行することを含むことができる。
再試行が成功すれば、処理は従来通りに継続する。再試
行が成功しなければ、状態702で誤りが再び検出さ
れ、再試行カウンタが増分される。
【0037】段階708に戻って、しきい値を超えた場
合、段階712で、PCCコードはその故障が正常にU
IRAを要求するようなものであるかどうかを判定す
る。否定であれば、段階715で、回復アルゴリズムが
完了した時に行われる、延期サービス呼び出しを生じさ
せる状態がPCEで設定される。延期サービス呼び出し
は、その機械がまだ動作可能ではあるが、カストマの都
合しだいで修理を要することを示す。ユーザは、回復ア
ルゴリズムの終了時にシステムが電話その他の通信回線
でサービスエンジニアを呼び出し、PCE誤りメッセー
ジおよび(LSEで収集された誤り状態にもとづいて)
故障した現場交換可能装置(FRU)を識別する情報を
報告すると同時に、これらのデータの全部を磁気ディス
クなどの不揮発性媒体に記憶させるように、PCEを設
定することができる。
【0038】段階712で、その誤りがUIRAを生じ
るような形式のものであるとPCCコードが判定した場
合、システムクロックサイクルがすでに増加されている
かどうかを判定するために段階714で試験が行われ
る。肯定であれば、段階716で、PCCコードはシス
テム検査停止を実行し、関連する誤り回復・報告データ
を記憶し、UIRAメッセージをディスプレイに表示す
る。また、段階718では、システムは、(それがまだ
行われていない場合に)延期サービス呼び出しをオーバ
ライドし、延期サービス呼び出しと同様にしてサービス
エンジニアに連絡することができる即時サービス呼び出
しを送る。即時サービス呼び出しは、その機械がもはや
動作不可能であり、カストマが使用を再開できる前に修
理を要することを示す。
【0039】段階714で、クロックサイクル時間がま
だ増加されていないと判定された場合、段階720でP
CEはLSEを通じてクロックサイクル時間を延長す
る。段階722では、PCEは、LSEを介して適切な
コマンドおよび制御情報を発振器/VFOカード(これ
が代わってシステムクロック時間を増加させ、PCEに
肯定応答信号を返信する)に送信する。LSEがPCE
からのクロックサイクル変更コマンドを確認した後、段
階724でPCEは、システムが劣化モードで(低速ク
ロック速度で)動作していることを指示するメッセージ
をシステムコンソールに表示する。この時、再試行カウ
ンタもゼロにリセットされる。次に、段階715で、延
期サービス呼び出し状態が設定され、システムはその誤
り状態およびコンソールメッセージを自動連絡によって
サービスエンジニアに送る準備をする。段階710で、
回復アルゴリズムは継続し、しきい値に達するか、また
は、その演算または命令が誤りなく実行されるかのいず
れかまでその新しいクロック速度で再試行が実行され
る。
【0040】誤り回復ルーチンがその演算を誤りなく成
功して完了させた場合、延期サービス呼び出しが行われ
る。誤り回復ルーチンが成功しなかった場合、再試行カ
ウンタは増分され、その演算または命令は再試行され
る。再試行しきい値に達し、UIRA状態が依然存在す
る場合、システムは検査停止され、即時サービス呼び出
しが行われる。
【0041】単一のTextendを加えることの代替
として、クロック速度の低減は、増分単位で実施できる
ことが理解されるはずである。すなわち、複数のTex
tend(例えば、小さい増分単位で)を累積的かつ反
復的に加算することができ、演算は、その演算が成功し
て実行されるかまたは再試行しきい値に達するかのいず
れかまでそれぞれの付加的なTextendについて再
試行される。このようなシステムでは、試みられる付加
的なTextendの許容数は、カストマ選択しきい値
をシステムによって試行される反復数と比較することに
よって制御することができる。いずれの場合も、再試行
が成功したクロック速度または試行された最低クロック
速度は、システムによって記憶され、カストマサービス
エンジニアに報告されるであろう。
【0042】システムクロック周波数に対するパワーオ
ンリセットの効果も、多数の異なる方法で処理すること
ができる。例えば、パワーオンリセットは、システムの
能力を低下させる目的が故障した現場交換可能装置(F
RU)を交換することであるという理論にもとづき、シ
ステムに元のクロック周波数に戻させるようにできるで
あろう。こうした仮定が間違っていた場合でも、システ
ムは、事実上誤りを検出し、その誤りが発生しないクロ
ック周波数に自己を再度プログラムし直すであろう。代
替法として、PCEは、不揮発メモリに変更したクロッ
ク周波数を記憶し、後に、欠陥FRUが交換されたとい
う指示がオペレータまたは自動信号機構のいずれかによ
って付与されるまで、電源投入ごとにこの変更された周
波数に合わせて発振器/VFOカードをプログラムする
こともできよう。
【0043】以上、各CPが共通クロックに接続されて
いる実施例で本発明を説明してきたが、本発明はまた、
多数のCPが非同期で動作でき、それぞれが独立したク
ロック機構を備えているシステムにも適用可能であるこ
とが理解されよう。こうした実施例では、各CPのクロ
ック回路は、そのCPの命令再試行機構に結合されるで
あろう。所与のCP内の再試行しきい値を超えると、そ
の個別のCPは自己のクロック時間を増加させ、残りの
CPは全速度で動作し続ける。このような場合、延期サ
ービス呼び出しでの誤り報告メッセージは、低下速度で
動作している特定の単数または複数のCPも識別するで
あろう。
【0044】本発明はまた、エンジニアリング試験環境
での用途も有する。クロックマージン/システムサイク
ル時間特性化手続きにおいて、システムサイクル時間
は、故障が無理に発生させられるまで、短縮される。こ
の故障は多くの場合、再度のIPL(初期プログラムロ
ード)および試験プログラムモジュールを再開する必要
性を生じるシステム検査停止につながる。再始動動作
は、時間を浪費し、周波数特性化において通常、何度も
繰り返されるものである。本発明の自動サイクル時間変
更機構を使用することによって、クロックサイクル時間
は、故障が検出され、それを指示するメッセージが画面
上に表示された後、自動的に増加される。従って、試験
エンジニアは、クロックマージン/システムサイクル時
間特性化試験を、システムの検査停止または再度のIP
Lを要さずにシステム故障まで実行させることができ
る。
【0045】本発明を好ましい実施例によって説明した
が、添付特許請求の範囲に記載された本発明の真の精神
および範囲を逸脱することなく行うことができる各種修
正および変更は、当業者にとっては明白であろう。
【図面の簡単な説明】
【図1】IBM ESA/390アーキテクチャに適合
する形式のコンピュータシステムにおける中央電子複合
体(CEC)のブロック図。
【図2】図1のシステム内のTCMボードおよび、本発
明の実施例に従ったクロック配分・監視・制御機構との
それらの会話を示す機能ブロック図。
【図3】図2の例示TCMボードの多数のTCMのブロ
ック図。
【図4】図2の発振器/VFOカードの論理図。
【図5】図3のTCM内の例示論理チップの論理図。
【図6】本発明に従ったタイミングスラックの変更が交
流欠陥を克服するためにどのように使用されるかを示す
タイミング図。
【図7】本発明の実施例に従った交流欠陥処理方法の流
れ図。
【符号の説明】
102A−C 中央処理装置(CP) 108 中央記憶装置 110A 相互接続通信要素 110B チャネルサブシステム 116 処理装置制御要素(PCE) 118 システム制御要素(SCE) 120 回復制御/命令再試行機構(RC) 122 サービスボード 202〜206 TCMボード 208 発振器/VFOボード 210 クロック配分チップ(JC) 212 論理支援ステーション(LSS) 214 論理サービス要素(LSE)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アン、キャロライン、メレンダ アメリカ合衆国ニューヨーク州、ポーキー プシー、タイタス、ロード、22 (72)発明者 ドナルド、ロイド、ピアース アメリカ合衆国ニューヨーク州、ハイド、 パーク、ホワイト、オークス、ロード、31

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】処理誤りを処理するための機構を有するコ
    ンピュータシステムであって、 前記コンピュータシステムによる命令の処理中に発生し
    た誤りを検出するための第1の手段と、 前記第1の手段に結合されており、前記誤りの検出に応
    答して、前記命令によって包括された1つ以上の演算を
    前記コンピュータシステムに再試行させるための第2の
    手段と、 前記第2の手段に結合されており、前記再試行が成功し
    たかどうかを判定するための第3の手段と、 前記第2の手段および第3の手段に結合されており、前
    記再試行が成功しなかったという指示に応答して、前記
    コンピュータシステムの命令処理サイクル時間を変化さ
    せ、かつ、前記変化以降の前記1つ以上の演算を前記第
    2の手段に再度再試行させるための第4の手段とを含む
    ことを特徴とするコンピュータシステム。
  2. 【請求項2】請求項1記載のシステムであって、前記第
    4の手段に結合されており、前記変化に応答して通信リ
    ンクによって延期サービス呼び出しを開始するための第
    5の手段であり、前記延期サービス呼び出しはディジタ
    ルコンピュータシステムが劣化性能モードで動作中であ
    ることを指示するものである、前記第5の手段をさらに
    含むことを特徴とするシステム。
  3. 【請求項3】命令ストリームを処理するための手段を有
    するコンピュータシステムにおける処理誤りを処理する
    ための機構であって、 前記処理手段に結合されており、前記命令の処理中に発
    生したタイミング依存欠陥によって生じた誤りを検出す
    るための第1の手段と、 前記第1の手段に結合されており、前記処理手段の命令
    処理サイクル時間を変化させ、かつ、前記誤りが検出さ
    れた際に前記コンピュータシステムにおいて進行中であ
    った1つ以上の演算を前記変化以降に再試行させるため
    の第2の手段とを含むことを特徴とする機構。
  4. 【請求項4】請求項3記載の機構であって、前記第2の
    手段が前記命令処理サイクル時間を増加させるための手
    段を含むことを特徴とする機構。
  5. 【請求項5】多数の機能単位を有するコンピュータシス
    テムにおける処理誤りを動的に処理するための方法であ
    って、 機能単位による演算の処理中に発生した誤りを検出する
    段階と、 前記誤りがタイミング依存欠陥によって生じたことを判
    定する段階と、 前記判定後、前記機能単位に前記誤りが再発しないよう
    な劣化性能モードで以降の演算を処理させる段階とを含
    むことを特徴とする方法。
  6. 【請求項6】請求項5記載の方法であって、前記機能単
    位のそれぞれが処理装置であり、また、前記劣化性能モ
    ードが低下クロック速度で命令を処理することを含むこ
    とを特徴とする方法。
  7. 【請求項7】請求項5記載の方法であって、前記コンピ
    ュータシステムにおける残りの機能単位による演算の処
    理を前記誤り検出以前に存在したものと同一の性能水準
    で継続する段階をさらに含むことを特徴とする方法。
  8. 【請求項8】コンピュータシステムにおける処理誤りを
    処理するための方法であって、 命令ストリームを処理する段階と、 前記命令の1つ以上の前記処理中に発生したタイミング
    依存欠陥によって生じた誤りを検出する段階と、 前記誤りの検出に応答して、前記命令の1つ以上の命令
    によって包括された1つ以上の演算を前記コンピュータ
    システムに再試行させる段階と、 前記再試行が成功したかどうかを判定する段階と、 前記再試行が成功しなかったと判定された場合に、前記
    コンピュータシステムの前記命令処理サイクル時間を変
    化させ、前記1つ以上の演算を再度再試行させる段階と
    を含むことを特徴とする方法。
  9. 【請求項9】請求項8記載の方法であって、前記誤りの
    検出に応答して、前記コンピュータシステムの構成要素
    から誤り情報を収集し、かつ、前記誤り情報を特定の故
    障構成要素を識別するデータとともに記憶する段階をさ
    らに含むことを特徴とする方法。
JP4284662A 1991-12-16 1992-10-22 コンピュータシステムにおける処理誤りの処理機構及び方法 Pending JPH05298134A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US80769691A 1991-12-16 1991-12-16
US807696 1991-12-16

Publications (1)

Publication Number Publication Date
JPH05298134A true JPH05298134A (ja) 1993-11-12

Family

ID=25196977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4284662A Pending JPH05298134A (ja) 1991-12-16 1992-10-22 コンピュータシステムにおける処理誤りの処理機構及び方法

Country Status (3)

Country Link
US (3) US6128752A (ja)
EP (1) EP0547412A3 (ja)
JP (1) JPH05298134A (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298134A (ja) * 1991-12-16 1993-11-12 Internatl Business Mach Corp <Ibm> コンピュータシステムにおける処理誤りの処理機構及び方法
US6058491A (en) * 1997-09-15 2000-05-02 International Business Machines Corporation Method and system for fault-handling to improve reliability of a data-processing system
US6289474B1 (en) * 1998-06-24 2001-09-11 Torrent Systems, Inc. Computer system and process for checkpointing operations on data in a computer system by partitioning the data
US6801938B1 (en) 1999-06-18 2004-10-05 Torrent Systems, Inc. Segmentation and processing of continuous data streams using transactional semantics
US6658591B1 (en) * 2000-06-08 2003-12-02 International Business Machines Corporation Recovery from data fetch errors in hypervisor code
US6654906B1 (en) * 2000-06-08 2003-11-25 International Business Machines Corporation Recovery from instruction fetch errors in hypervisor code
JP3906015B2 (ja) 2000-07-12 2007-04-18 株式会社東芝 クロック周波数切り替え機能を有するlsi、計算機システム及びクロック周波数切り替え方法
FR2830972B1 (fr) * 2001-10-12 2004-09-10 Iroc Technologies Architecture de circuits protegee contre des perturbations
US6883113B2 (en) * 2002-04-18 2005-04-19 Bae Systems Information And Electronic Systems Integration, Inc. System and method for temporally isolating environmentally sensitive integrated circuit faults
JP3982353B2 (ja) * 2002-07-12 2007-09-26 日本電気株式会社 フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
US8185812B2 (en) * 2003-03-20 2012-05-22 Arm Limited Single event upset error detection within an integrated circuit
US8650470B2 (en) 2003-03-20 2014-02-11 Arm Limited Error recovery within integrated circuit
US7644050B2 (en) * 2004-12-02 2010-01-05 International Business Machines Corporation Method and apparatus for annotation-based behavior extensions
US20060123285A1 (en) * 2004-11-16 2006-06-08 De Araujo Daniel F Dynamic threshold scaling in a communication system
US8359187B2 (en) * 2005-06-24 2013-01-22 Google Inc. Simulating a different number of memory circuit devices
US8438328B2 (en) 2008-02-21 2013-05-07 Google Inc. Emulation of abstracted DIMMs using abstracted DRAMs
US8055833B2 (en) 2006-10-05 2011-11-08 Google Inc. System and method for increasing capacity, performance, and flexibility of flash storage
US8130560B1 (en) 2006-11-13 2012-03-06 Google Inc. Multi-rank partial width memory modules
US8397013B1 (en) 2006-10-05 2013-03-12 Google Inc. Hybrid memory module
US8386722B1 (en) 2008-06-23 2013-02-26 Google Inc. Stacked DIMM memory interface
US7386656B2 (en) 2006-07-31 2008-06-10 Metaram, Inc. Interface circuit system and method for performing power management operations in conjunction with only a portion of a memory circuit
US8090897B2 (en) * 2006-07-31 2012-01-03 Google Inc. System and method for simulating an aspect of a memory circuit
US9507739B2 (en) 2005-06-24 2016-11-29 Google Inc. Configurable memory circuit system and method
US20080126690A1 (en) * 2006-02-09 2008-05-29 Rajan Suresh N Memory module with memory stack
US8041881B2 (en) * 2006-07-31 2011-10-18 Google Inc. Memory device with emulated characteristics
US7609567B2 (en) 2005-06-24 2009-10-27 Metaram, Inc. System and method for simulating an aspect of a memory circuit
US8169233B2 (en) * 2009-06-09 2012-05-01 Google Inc. Programming of DIMM termination resistance values
US8081474B1 (en) 2007-12-18 2011-12-20 Google Inc. Embossed heat spreader
US8244971B2 (en) 2006-07-31 2012-08-14 Google Inc. Memory circuit system and method
US9171585B2 (en) 2005-06-24 2015-10-27 Google Inc. Configurable memory circuit system and method
US20080082763A1 (en) 2006-10-02 2008-04-03 Metaram, Inc. Apparatus and method for power management of memory circuits by a system or component thereof
US8089795B2 (en) 2006-02-09 2012-01-03 Google Inc. Memory module with memory stack and interface with enhanced capabilities
US10013371B2 (en) 2005-06-24 2018-07-03 Google Llc Configurable memory circuit system and method
US8060774B2 (en) 2005-06-24 2011-11-15 Google Inc. Memory systems and memory modules
US8335894B1 (en) 2008-07-25 2012-12-18 Google Inc. Configurable memory system with interface circuit
US20080028136A1 (en) * 2006-07-31 2008-01-31 Schakel Keith R Method and apparatus for refresh management of memory modules
US8796830B1 (en) 2006-09-01 2014-08-05 Google Inc. Stackable low-profile lead frame package
US8111566B1 (en) 2007-11-16 2012-02-07 Google, Inc. Optimal channel design for memory devices for providing a high-speed memory interface
US9542352B2 (en) * 2006-02-09 2017-01-10 Google Inc. System and method for reducing command scheduling constraints of memory circuits
US8077535B2 (en) 2006-07-31 2011-12-13 Google Inc. Memory refresh apparatus and method
JP2008544437A (ja) * 2005-06-24 2008-12-04 メタラム インコーポレイテッド 一体化されたメモリコア及びメモリインターフェース回路
US8327104B2 (en) * 2006-07-31 2012-12-04 Google Inc. Adjusting the timing of signals associated with a memory system
US7379316B2 (en) 2005-09-02 2008-05-27 Metaram, Inc. Methods and apparatus of stacking DRAMs
US9632929B2 (en) 2006-02-09 2017-04-25 Google Inc. Translating an address associated with a command communicated between a system and memory circuits
US20080025136A1 (en) * 2006-07-31 2008-01-31 Metaram, Inc. System and method for storing at least a portion of information received in association with a first operation for use in performing a second operation
US7724589B2 (en) * 2006-07-31 2010-05-25 Google Inc. System and method for delaying a signal communicated from a system to at least one of a plurality of memory circuits
US20080028137A1 (en) * 2006-07-31 2008-01-31 Schakel Keith R Method and Apparatus For Refresh Management of Memory Modules
US8209479B2 (en) * 2007-07-18 2012-06-26 Google Inc. Memory circuit system and method
US8080874B1 (en) 2007-09-14 2011-12-20 Google Inc. Providing additional space between an integrated circuit and a circuit board for positioning a component therebetween
US8171386B2 (en) * 2008-03-27 2012-05-01 Arm Limited Single event upset error detection within sequential storage circuitry of an integrated circuit
US8161367B2 (en) * 2008-10-07 2012-04-17 Arm Limited Correction of single event upset error within sequential storage circuitry of an integrated circuit
US8493120B2 (en) 2011-03-10 2013-07-23 Arm Limited Storage circuitry and method with increased resilience to single event upsets
GB2506825B (en) * 2014-02-12 2014-10-15 Ultrasoc Technologies Ltd Functional testing of an integrated circuit chip
US10241875B2 (en) * 2016-09-15 2019-03-26 International Business Machines Corporation Switching initial program load responsibility when components fail
US11099979B2 (en) 2019-10-31 2021-08-24 International Business Machines Corporation Testing and modifying calendar and event sensitive timer series data analytics

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55119751A (en) * 1979-03-08 1980-09-13 Fujitsu Ltd Operation system
JPS57164344A (en) * 1981-04-02 1982-10-08 Fujitsu Ltd Retrial control system for electronic computer

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3548177A (en) * 1968-01-18 1970-12-15 Ibm Computer error anticipator and cycle extender
NL7207216A (ja) * 1972-05-27 1973-11-29
US4003086A (en) * 1975-04-28 1977-01-11 Memorex Corporation Dynamic loop gain alteration for data retrieval
US4044337A (en) * 1975-12-23 1977-08-23 International Business Machines Corporation Instruction retry mechanism for a data processing system
US4025768A (en) * 1976-05-24 1977-05-24 Burroughs Corporation Method and apparatus for testing and diagnosing data processing circuitry
US4412281A (en) * 1980-07-11 1983-10-25 Raytheon Company Distributed signal processing system
EP0060909B1 (de) * 1981-03-23 1984-09-26 Ibm Deutschland Gmbh Anordnung in einer Datenverarbeitungseinrichtung zur Verkürzung der Zykluszeit
US4800564A (en) * 1986-09-29 1989-01-24 International Business Machines Corporation High performance clock system error detection and fault isolation
US4912707A (en) * 1988-08-23 1990-03-27 International Business Machines Corporation Checkpoint retry mechanism
JPH0354638A (ja) * 1989-07-21 1991-03-08 Nec Field Service Ltd 命令再試行処理方式
JPH05298134A (ja) * 1991-12-16 1993-11-12 Internatl Business Mach Corp <Ibm> コンピュータシステムにおける処理誤りの処理機構及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55119751A (en) * 1979-03-08 1980-09-13 Fujitsu Ltd Operation system
JPS57164344A (en) * 1981-04-02 1982-10-08 Fujitsu Ltd Retrial control system for electronic computer

Also Published As

Publication number Publication date
US6192489B1 (en) 2001-02-20
EP0547412A2 (en) 1993-06-23
EP0547412A3 (en) 1994-10-26
US6128752A (en) 2000-10-03
US5872907A (en) 1999-02-16

Similar Documents

Publication Publication Date Title
JPH05298134A (ja) コンピュータシステムにおける処理誤りの処理機構及び方法
US4775976A (en) Method and apparatus for backing up data transmission system
US7516361B2 (en) Method for automatic checkpoint of system and application software
US5600785A (en) Computer system with error handling before reset
US5144230A (en) Method and system for testing integrated circuits by cycle stealing
JP2573508B2 (ja) ディジタルロジック同期モニター方法および装置
US6839866B2 (en) System and method for the use of reset logic in high availability systems
EP1095333B1 (en) Fault detection in digital system
EP0125797B1 (en) Interrupt signal handling apparatus
JPS6027041B2 (ja) ハイアラキ制御システムにおける下位制御装置の切換方法
JPH03179538A (ja) データ処理システム
KR100194979B1 (ko) 이중화 프로세서 시스템의 동작모드 결정방법
JPS5917467B2 (ja) 制御用計算機のバツクアツプ方式
CN114942687B (zh) 基于监控的复位安全机制、实现方法及复位电路
US11175340B1 (en) System and method for managing testing and availability of critical components on system-on-chip
JPS5931738B2 (ja) 計算機システムの並列三重系構成方法
JPS62113241A (ja) 障害回復装置
JPS6126698B2 (ja)
JPS6258344A (ja) 障害回復装置
JP3110177B2 (ja) 2重化計算機システム
JPH0325534A (ja) 複合系計算機システムのプログラム異常処理方式
JPS62102335A (ja) 障害回復装置
JPH06214831A (ja) 中央処理装置の異常検出装置
JP3042034B2 (ja) 障害処理方式
JPS5942340B2 (ja) 故障検出装置