JPH05298134A

JPH05298134A - コンピュータシステムにおける処理誤りの処理機構及び方法

Info

Publication number: JPH05298134A
Application number: JP4284662A
Authority: JP
Inventors: Kevin Roy Griess; ケビン、ロイ、グリース; Ann Caroline Merenda; アン、キャロライン、メレンダ; Donald Lloyd Pierce; ドナルド、ロイド、ピアース
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-12-16
Filing date: 1992-10-22
Publication date: 1993-11-12
Also published as: US6192489B1; EP0547412A2; EP0547412A3; US6128752A; US5872907A

Abstract

(57)【要約】（修正有）【目的】コンピュータシステムにおける処理誤りを処
理するための機構を提供する。【構成】処理方法の流れ図が示される。段階７０２で
中央電子複合体ＣＥＣ内の液体冷却モジュールＴＣＭが
誤りを検出し段階７０４で処理装置制御コードＰＣＣに
割り込む。これに応答して段階７０５で処理装置制御コ
ードが誤り回復手続きを開始。誤り回復の一部として段
階７０６でカウンタを増分、段階７０８で再試行しきい
値が超えられていないかを検査。否定ならば段階７１０
でＰＣＣコードは回復アルゴリズムを継続する。再試行
が成功すれば処理は従来通りに継続する。再試行が成功
しなければ状態７０２で誤りが再検出され再試行カウン
タが増分される。段階７０８に戻り、しきい値を超えた
場合段階７１２で故障がリペアアクションＵＩＲＡを要
求するものであるか判定。否定ならば段階７１５で延期
サービスを呼出す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータシステム
における誤り回復に関する。さらに詳しく言えば、本発
明は、交流またはタイミング依存欠陥によって生じた処
理誤りからの回復に関する。

【０００２】

【従来の技術およびその課題】アンスケジュールドイン
シデントリペアアクション（ＵＩＲＡ）は、たぶん、唯
一の最も重要な信頼性／可用性／保守性（ＲＡＳ）特性
であろう。ＵＩＲＡは、カストマのシステムを臨時に修
理のために停止させる必要性を生じる重大なハードウエ
ア機能における回復不可能な故障によって生起する。Ｕ
ＩＲＡを引き起こす回路故障は、性質上、交流または直
流のいずれかとなり得る。直流欠陥は、欠陥のある回路
が使用されている場合に常に生じる固体故障である。交
流欠陥は、通常、タイミング依存性であり、論理経路に
おけるタイミングマージンを超えた場合にのみ発現す
る。

【０００３】交流欠陥を直流欠陥と区別できる自己試験
機構は、当業で公知である。例えば、論理が第１のクロ
ック速度で自己試験に失敗した場合、その故障が交流欠
陥または直流欠陥によって生じたものであるかを判定す
るために、さらに低速のクロック速度で再実行すること
は当業で公知である。その自己試験がその低速のクロッ
ク速度で合格した場合は、その故障は交流欠陥によって
生じたものと識別される。自己試験がその低速クロック
速度でも合格しなかった場合、その故障は直流欠陥によ
って生じたものと識別される。“ＳＥＬＦ−ＴＥＳＴ
ＡＣＩＳＯＬＡＴＩＯＮ”（ＩＢＭＴｅｃｈｎｉｃ
ａｌＤｉｓｃｌｏｓｕｒｅＢｕｌｌｅｔｉｎＶｏ
ｌ．２８，Ｎｏ．１，１９８５年６月，第４９−５１
頁）は、交流故障の開始クロックパルスを識別し、収集
クロックパルスを識別し、収集記憶要素を識別し、以降
の診断のためにその故障の直前および直後のハードウエ
ア状態を抽出するための方法を記載している。

【０００４】上述の試験方法は交流欠陥を直流欠陥と区
別し、試験設備環境内において障害を分離するための手
段を供するが、それらの方法は、交流欠陥によって生じ
た処理誤りからの動的な誤り回復または障害許容力を付
与するという課題を解決しない。

【０００５】従来技術のコンピュータシステムは、処理
誤りから回復するための多様な機構を備えている。例え
ば、Ｋｏｇｇｅらによる米国特許第４，９１２，７０７
号は、現チェックポイントの通過以後の誤りの検出に応
答して、最新時に実行されたコードのセグメントの命令
シーケンスの再試行を可能にするチェックポイント再試
行機構の使用を開示している。命令再試行機構の別の例
は、Ｈｉｃｋｓらによる米国特許第４，０４４，３３７
号に開示されている。

【０００６】こうした従来技術の再試行機構は、ソフト
ウエア誤り（再現不可能な障害症状をもたらす電気的雑
音または他の無作為発生源のために生じる誤り）からの
回復のための良好な手段を付与するが、交流欠陥によっ
て生じた固体またはハードウエア誤り（すなわち、再発
し、一貫して再現可能なタイミング誤り）からの回復は
付与しない。

【０００７】処理誤りを処理するための別の従来技術の
機構は、冗長的な処理要素の使用を伴うものである。こ
うしたシステムでは、同一の命令ストリームが２つ以上
の処理要素によって並列で処理される。回復不可能な誤
りがそれらの処理要素の１つで検出された場合、それは
オフラインで受け取られ、他の処理要素はその命令スト
リームを処理し続ける。こうした冗長処理装置方式の一
つの利点は、それらが「ソフトウエア」および「固体」
または「ハードウエア」誤りの両方を処理できることで
ある。このような方式の欠点は、「障害許容力」を高め
るために複製処理要素を備えることが、部品および製造
の点でシステムのコストを著しく増大させることであ
る。

【０００８】従って、他の従来のコンピュータシステム
が交流欠陥から動的に回復できるようにする安価な機構
が必要とされる。

【０００９】

【課題を解決するための手段及びその作用】本発明は、
コンピュータシステムにおいて交流欠陥によって生じた
処理誤りを処理するための機構を含む。この機構は、命
令のストリームを処理するための第１の手段と、第１の
手段による命令の処理中に発生したタイミング依存誤り
を検出するための第２の手段と、第２の手段によるその
タイミング依存誤りの検出に応答して第１の手段の命令
処理サイクル時間を変化させ、かつ、第２の手段にその
変化以降の命令の少なくとも一部を再試行させるための
第３の手段とを含む。

【００１０】好ましい実施例では、本発明は、回復コー
ドによって制御される可変周波数発振器を使用して、致
命的な障害と判定された事柄に続き、かつ、正常な再試
行が不成功とに終わった後に、所定の時間（Ｔｅｘｔｅ
ｎｄ）だけシステムクロックサイクル時間を増やす。こ
の増大されたサイクル時間は、その論理経路タイミング
スラックを延長させ、それによって、セグメントをラッ
チするためにいずれかのサイクル時間依存ラッチで発現
した一定の交流（経路遅延）欠陥に対する許容力を付与
する。この時間（Ｔｅｘｔｅｎｄ）は、例えば、システ
ムケーブルにおけるデータのパイプライン化から生じる
最大サイクル時間制限にもとづいて選択される。

【００１１】増大（延長）されたサイクル時間で再試行
が成功すれば、その欠陥が時間依存性であり、そのサイ
クル時間延長（Ｔｅｘｔｅｎｄ）によって許容されるこ
とを意味する。それは依然として修理が延期されただけ
のサービス呼び出しに帰着するが、システムは停止させ
ることなく動作させることができる。増大されたサイク
ル時間で再試行が不成功に終わった場合、その欠陥は固
体（直流欠陥）欠陥であったか、または、そのサイクル
時間延長（Ｔｅｘｔｅｎｄ）よりも長いタイミング特性
による交流欠陥であったことを意味する。こうした場
合、再試行の不成功は、システムを停止させ、即時修理
のためのサービス呼び出しを開始するＵＩＲＡにつなが
る。

【００１２】本発明は、故障ハードウエアの欠陥解析に
おいて製造／修理を支援するために使用できる誤り報告
ファイルでデータを提供するように拡張できる。現場修
理から戻されたＴＣＭの試験が「欠陥なし」（ＮＤＦ）
という報告をもたらす場合がしばしばある。ＮＤＦは、
回路タイミングのために、故障装置がカストマの機械に
配置された場合に現れるにすぎないＴＣＭ網に対するＴ
ＣＭでの交流欠陥によって引き起こされる。その欠陥が
時間依存性であり、サイクル時間延長（Ｔｅｘｔｅｎ
ｄ）によって許容されることを識別するデータが修理メ
ッセージにあれば、欠陥の分離および識別を助けること
ができる。

【００１３】

【実施例】図１について説明する。ＩＢＭエンタープラ
イズ・システム・アーキテクチャ／３９０（ＥＳＡ／
３９０）に適合する形式のコンピュータシステムにおけ
る中央電子複合体（ＣＥＣ）が例示されている。図１の
中央電子複合体は、３つの中央処理装置１０２Ａ〜１０
２Ｃを含む。当業で公知の通り、さらに付加的な中央処
理装置を有するコンピュータシステムを形成するために
多数のＣＥＣを相互接続することが可能である。各中央
処理装置（ＣＰ）は、自己自身の従来の第１レベルの高
速バッファ（Ｌ１）１０４Ａ〜Ｃを有する。これらのＬ
１は、さらに、全部のＣＰによって共用される第２レベ
ルの高速バッファ（Ｌ２）１０６に接続されている。Ｌ
２１０６は、主記憶域としても知られる、中央記憶装
置１０８にシステム制御要素（ＳＣＥ）１１８を介して
接続されている。

【００１４】図１のＣＥＣはまた、ＳＣＥ１１８、拡
張記憶装置（ＥＳ）１１２およびチャネルサブシステム
１１０Ｂとの間のデータ転送および通信を制御する相互
接続通信要素（ＩＣＥ）１１０Ａも含む。ＩＣＥ１１
０Ａおよびチャネルサブシステム１１０Ｂは、集合的に
入出力サブシステムとも称する。電源の投入／切断およ
びシステム構築といったシステム動作および支援機能
は、処理装置制御要素（ＰＣＥ）１１６と呼ばれる支援
処理装置によって制御される。ＰＣＥ１１６は、機器
構成制御および誤り情報を連絡するためなどに使用され
るシステムコンソールを含む。ＰＣＥはまた、誤り回復
の際にシステム要素を援助するためにも使用される。Ｅ
ＳＡ／３９０アーキテクチャに従ったマシンチェック誤
り処理、チェックポイント同期化およびシステムの一般
動作については、参照によって本明細書と一体となる、
文書“ＥｎｔｅｒｐｒｉｓｅＳｙｓｔｅｍｓＡｒｃ
ｈｉｔｅｃｔｕｒｅ／３９０Ｐｒｉｎｃｉｐｌｅｓ
ｏｆＯｐｅｒａｔｉｏｎ”ＩＢＭコーポレーション
（アーモンク，ニューヨーク）より入手できる文書ＳＡ
２２−７２０１−００）に詳述されている。

【００１５】ＥＳＡ／３９０アーキテクチャ内の各命令
の実行は、１つ以上の演算単位から成る。１つの命令が
実行されると、その単数または複数の演算単位はＣＰに
よって完了させられる。ＥＳＡ／３９０アーキテクチャ
は、（各演算単位の完了後）演算単位間のポイントで割
り込みを受けつけることができる。命令は、その最終演
算単位が「完了」した時に、「完了」したとみなされ
る。演算単位が完了すると、その結果は、それらの機能
の以前の値が一般に復元できないような、構築された機
能にコミットされる。これは、新しい値をレジスタにロ
ードし、オペランド保存結果を記憶域に書き込むことを
伴う。

【００１６】図１のシステムにおけるＳＣＥ１１８、
ＩＣＥ１１０Ａおよび各ＣＰ１０２Ａ〜Ｃは、それ
ぞれ、回復制御／命令再試行機構１２０Ａ〜１２０Ｅを
含む。この種の適切な機構は、例えば、１９９１年８月
２９日に作成され、本発明と同一の譲受人に譲渡され
た、係属出願書第０７／７５１，９０６号に記載されて
いる。出願書第０７／７５１，９０６号は参照によって
本明細書と一体となる。この機構の動作は、障害命令
（または、その内部の演算単位）が、誤りなく実行され
るか、または、所定の再試行しきい値に達するまで（ど
ちらが先に生じたにせよ）、再試行されるといったもの
である。

【００１７】従来と同様に、図１のＣＰ１０２（Ａ〜
Ｃ）、ＳＣＥ１１８およびＩＣＥ１１０は、回路基板
（ＴＣＭボード）上に実施されており、各ボードは電子
構成要素を包含する１つ以上の液体冷却モジュール（Ｔ
ＣＭ）を含む。これらの各要素およびＰＣＥ１１６
は、ＰＣＥ１１６とＣＥＣとの間でのクロック、デー
タおよび制御信号を供給するサービスボード１２２に接
続されている。

【００１８】図２は、図１のシステム内の複数の例示Ｔ
ＣＭボード２０２〜２０６および、本発明の実施例に従
ったクロック配分・監視・制御機構とのそれらの会話を
示す機能ブロック図である。図２のこの機構は、システ
ムクロックを生成し、それらをＴＣＭ内に配置されたク
ロック配分チップ２１０（ＪＣ１〜ＪＣ５）に配分す
る、プログラム可能発振器／ＶＦＯカード２０８を含
む。クロック配分チップ２１０は、システムの各ＴＣＭ
にクロックを配分する、扇状樹構造を成すように相互接
続されている。

【００１９】また、ＴＣＭボード２０２〜２０６のそれ
ぞれは、ボード上のＴＣＭの１つに配置された論理支援
ステーション（ＬＳＳ）２１２を含む。ＬＳＳ２１２
は、対応するＴＣＭボードの各ＴＣＭから誤り報告情報
を収集する。各ＬＳＳは、双方向バス２１６を介して
（サービスボードに配置された）共通の論理サービス要
素（ＬＳＥ）２１４に接続されている。ＬＳＥ２１４
は、ＬＳＳ２１２からＰＣＥ１１６へ誤り情報を通
信するために、また、ＰＣＥ１１６からＬＳＳ２１２
へ回復制御情報を通信するために使用される。ＰＣＥ
１１６は、誤り形式、回復状態情報、ＬＳＳ／ボード番
号および誤りが発生した特定のＴＣＭを含む誤り情報を
各ＴＣＭボードから収集するためにＬＳＥ２１４を使
用する。ＰＣＥ１１６は、誤り回復においてこの情報
を使用し、誤り回復処理情報をＬＳＥを通じてＴＣＭへ
返送する。ＬＳＥはまた、ＰＣＥ１１６と発振器／Ｖ
ＦＯカード２０８との間のインタフェースとしても機能
する。

【００２０】図３は、図２のシステムにおける例示ＴＣ
Ｍボードの例示図である。各ＴＣＭボードは、多数のＴ
ＣＭ３０２〜３１２を含む。これらのＴＣＭの１つに
あるクロック配分チップ（ＪＣ３）は、ＴＣＭボード１
（図２）の別のクロック配分チップ（ＪＣ５）によって
配分された単一のシステムクロック信号からラッチおよ
びトリガクロックを生成する。また、１つのＴＣＭは、
そのＴＣＭボード用のＬＳＳ２１２を含んでいる。Ｔ
ＣＭボード上の各ＴＣＭは、自己自身のクロック配分チ
ップおよびＱステーション３１４を含む。各Ｑステーシ
ョン３１４は、その関係するＴＣＭ用の誤り収集ハード
ウエアを含んでおり、動作回復および再試行情報を維持
する対応する回復制御１２０（Ａ〜Ｅ）に接続されてい
る。ＬＳＳ２１２は、Ｑステーション３１４のそれぞ
れから誤りおよび回復データを収集するための経路をＰ
ＣＥ１１６に付与する。この情報は、Ｑステーション
からＬＳＳ２１２およびＬＳＥ２１４を経てＰＣＥ
１１６に渡される。

【００２１】図４は、図２の発振器／ＶＦＯカード２０
８の論理図である。発振器／ＶＦＯカード２０８は、ク
ロック周波数制御情報およびＬＳＥ２１４からのシフ
トクロックを直列で受信するために接続されている第１
のシフトレジスタ４０２を含む。この情報は、ＰＣＥ
１１６からのコマンドによってＬＳＥ２１４に供給さ
れる。この第１のシフトレジスタはさらに、デコーダ４
０６からの信号によってイネーブルにされるトライステ
ートドライバ４０４に接続されている。電源投入時に
（トライステートドライバがイネーブルになる時より前
に）、デフォールトのクロック周波数制御情報が、プラ
グロケーション４０８によって受信されたプログラムレ
ジスタによって供給される。

【００２２】トライステートドライバ４０４（または、
電源投入時などのようにトライステートドライバがイネ
ーブルにされていない場合にはプログラムレジスタ）か
らの符号化されたクロック周波数データは、並列で第２
のシフトレジスタ４１０に供給される。この第２のシフ
トレジスタ４１０は、状態機構４１２によって供給され
るクロックおよびロード信号の制御のもとで、符号化ク
ロック周波数制御情報を直列でフェーズロックドループ
（ＰＬＬ）周波数シンセサイザ４１４に供給するために
接続されている。この制御情報は、周波数シンセサイザ
４１４内の内部カウンタにロードされる２つのパラメー
タ（ＭおよびＮ）を含む。１６ＭＨｚ時刻クロック発振
器４１６は、周波数シンセサイザ４１４のための基準周
波数（Ｆｒｅｆ）を供給するために接続されている。シ
ンセサイザ４１４の出力周波数は、Ｎ／ＭとＦｒｅｆと
の積である（Ｆｏｕｔ＝Ｍ／ＮｘＦｒｅｆ）。周波数シ
ンセサイザをプログラムするために使用されるインタフ
ェース制御信号は、状態機構４１２によって供給され
る。

【００２３】状態機構４１２の動作は、（ＰＣＥ１１
６からのクロックプログラミングコマンドに応答して生
成される）ＬＳＥ２１４からの制御信号、または、電
源投入時にシステムによって生成されるパワーオンリセ
ット信号によって開始される。この状態機構は、ＰＬＡ
またはＲＯＭによる、個別論理として実施することもで
きる。

【００２４】ローカルおよびリモートの時刻（ＴＯＤ）
およびシステムクロックは、時刻発振器４１６によって
生成された信号、および、周波数シンセサイザ４１４に
よって生成されたプログラム可能クロック信号（Ｆｏｕ
ｔ）に応答して、クロック選択・リドライブ回路４１８
によって生成される。ローカルクロック信号は、リモー
トクロックが相互接続されたＣＥＣ（それが機器構成さ
れている場合）に接続されている間に、図１のＣＥＣと
同期をとるために使用される。クロック選択・リドライ
ブ論理によって生成されたローカルおよびリモートの発
振器クロックは、差分信号である。クロック選択・リド
ライブモジュールは、多数の代替クロック入力４２０の
１つを（周波数シンセサイザによって供給される信号の
代用として）選択するようにプログラムすることもでき
る。

【００２５】ＬＳＥからの（また、ＰＣＥからのコマン
ドに応答して生成される）クロック選択信号４２２は、
発振器／ＶＦＯカードのクロックモードを決定する。Ｆ
ｏｕｔは、発振器／ＶＦＯカードが固定周波数モード
（周波数はプログラムレジスタによって決定される）ま
たはＶＦＯモードにある場合に選択される。ＶＦＯモー
ドの選択は、デコーダ４０６にトライステートドライバ
４０４をイネーブルにさせ、それによって、第１のシフ
トレジスタ４０２のプログラムされたクロック値にプロ
グラムレジスタによって行われた固定された設定をオー
バライドさせる。

【００２６】前述のクロック回路は、本システムおよび
その方法の文脈で利点を付与する。クロック周波数がＴ
ｅｘｔｅｎｄの分だけ低下すると、（デューティサイク
ルにおいていかなる小さな欠陥も伴わずに）遷移を円滑
にさせることが有利である。本クロック回路でのフェー
ズロックドループ周波数シンセサイザ４１４の使用は、
円滑な遷移を保証し、その変化がそれ自体に処理誤りを
生じさせることなくクロック周波数を変化できるように
する。

【００２７】次に、本発明の動作を図５から図７によっ
て説明する。図５は、図３のＴＣＭ内の例示論理チップ
５０２の論理図である。この論理チップ５０２は、クロ
ック配分チップ（ＪＣ１）から受信されたクロック信号
をバッファする多数の受信器５０４を含む。クロック配
分チップ（ＪＣ１）は、Ｌクロック（Ｌｘ）およびＴク
ロック（Ｔｘ）の２つのクロックを配分する。Ｌｘクロ
ックの立ち下がり区間は、ラッチの第１の集合（Ｌ１）
５０４に以前のチップまたは論理段の出力から供給され
たデータを捕捉させる。Ｔｘクロックの立ち上がり（放
出）区間は、ラッチの第２の集合（Ｌ２）５０６に第１
の集合のラッチ内に保持されていたデータを捕捉させ
る。

【００２８】第２の集合のラッチ（Ｌ２）５０６内のデ
ータは、組合せ論理（データ経路５０８）を通じて移行
する。データ経路５０８の固有遅延の和は、それらの時
間遅延を通じてデータが第２の集合のラッチに捕捉され
るために伝播できるようなものでなければならない。す
なわち、データは、その次のクロックサイクルのＬクロ
ックの立ち下がり区間によって捕捉できるように使用可
能でなければならない。

【００２９】データが第２の集合のラッチに捕捉され安
定した後、データは誤り検査回路５１０によって誤りを
検査される。この誤り検査回路は、所与の論理機能につ
いて適切であるように、（パリティ検査またはデータ比
較といった）多数の形式のいずれかとすることができ
る。ＴＣＭ内のいずれかのチップの誤り検査回路による
誤りの検出は、Ｑステーション３１４に報告され、これ
がさらに、その誤りの発生をそのチップが存在するＴＣ
ＭボードのＬＳＳ２１２に報告する。

【００３０】図６は、本発明に従ったタイミングスラッ
クの変更が交流（タイミング依存）欠陥を克服するため
にどのように使用できるかを示すタイミング図である。
Ｌｘタイミング線６０２およびＴｘタイミング線６０４
は、それぞれ、例えば９ナノ秒といった正常な動作サイ
クルでのＬクロックおよびＴクロックを表す。システム
の正常動作中の（論理経路が交流欠陥を有していない）
データ状態は、“ＮｏｒｍａｌＰａｔｈ”で指示され
たタイミング線６０６によって示されている。網かけ領
域６０８は、Ｌ１ラッチ入力のデータが不安定または無
効である時間を表し、空白領域６１０は、Ｌ１ラッチ入
力のデータが安定し有効である時間を表す。正常動作で
は、データは、Ｌｘクロックの立ち下がり区間６１２が
生起している時間だけ安定している。従って、Ｌｘクロ
ックの立ち下がり（捕捉）区間６１２の生起時には、デ
ータはＬ１ラッチに捕捉される。Ｔｘクロックの立ち上
がり（放出）区間６１４の後、Ｌ１ラッチからのデータ
はＬ２ラッチに転送される。

【００３１】Ｔｘクロック６０４の立ち上がり区間の
後、かつ、Ｌｘクロック６０２がハイレベルにある間、
データはＬ１ラッチ５０４およびＬ２ラッチ５０６を通
じて直接転送される。データは、Ｌｘの捕捉区間の前の
設定時間を満たしている限り、Ｔｘの放出区間の後、Ｌ
１ラッチの入力で有効となることができる。Ｔｘの立ち
上がり区間の後であるがＬｘの立ち下がり区間（−設定
時間）の前に有効となっているデータは、Ｔｘがハイレ
ベルになった時にはまだ次のデータ経路への放出に使用
可能となっていなかったので、その次のサイクルから
「盗む」。これは、後続のデータ経路が短い場合はシス
テムにとって何ら問題を生じない。データが捕捉区間
（−設定時間）前にＬ１で安定し有効となっている時間
の量は、正のＬ１スラックと称する。データが捕捉区間
（−設定時間）後に有効となっているデータは、負のＬ
１スラックを示し、捕捉されないこともある。これは、
データがまだ捕捉区間で不安定である（網かけされた）
遅れ経路６１６によって例示される。データがここで捕
捉されていたならば、誤ったデータが次の経路に放出さ
れ、検査回路５１０で誤りを生じさせたであろう。

【００３２】（ＬＳＳおよびＬＳＥを経てＰＣＥに中継
された）Ｑステーションによる誤りの報告に応答して、
システムは回復動作をとる。ほとんどの場合、これは、
最後のチェックポイントまで戻り、システムが誤りなく
実行するかまたは再試行しきい値に達するまで（どちら
が先に生じるにせよ）、命令または演算を再試行するこ
とを意味する。

【００３３】本発明の実施例に従えば、（ＰＣＥによる
検出に従って）再試行しきい値に達すると、ＰＣＥ１
１６はＬＳＥにコマンドを送り、コマンドはさらに、Ｌ
ＳＥにシステムクロックを低速で動作させるために発振
器／ＶＦＯカード２０８を再プログラムさせる。例え
ば、９ナノ秒（ｎｓ）の正常サイクル時間は３００ピコ
秒（ｐｓ）だけ増やされることになる。タイミング線６
２０および６２４は、交流欠陥を有する論理の徴候を示
す遅れ経路データ６１６のサイクル時間を増加させる効
果を示している。Ｌｘ’およびＴｘ’は、増加されたサ
イクル時間で動作するＬｘおよびＴｘクロックを表して
いる。

【００３４】サイクル時間をＴｅｘｔｅｎｄ量だけ減速
することによって、捕捉区間および放出区間は、Ｌｘ’
６２０およびＴｘ’６２４のタイミング線に示されたよ
うに右側へ移される。これは、それらの区間を、データ
がやはり捕捉区間Ｌｘ’に対して遅れ経路６１６の空白
領域によって示されるように正のＬ１スラックを有する
ように位置させる。この時、データは、安全に捕捉さ
れ、次のデータ経路に放出され得る。

【００３５】データが空白領域で有効（Ｌｘ’およびＴ
ｘ’の両者がハイレベルである）となっていても、デー
タは、Ｌｘ’に対するＬ１の設定時間を満たしている限
り、放出されるであろう。しかしこれは、サイクルスチ
ールを生じさせ、経路が長い場合に後続のデータ経路で
問題を生じさせる可能性がある。Ｔｅｘｔｅｎｄによっ
て実現することが望ましいことは、遅れデータ経路に再
び正常データ経路に類似させることである。これは、デ
ータに対して、捕捉区間前に有効になり、次の経路のタ
イミング制限を満たすために放出区間後の安全な期間内
に放出されるように、十分な時間を付与することによっ
て実現される。

【００３６】図７は、本発明の実施例に従った交流欠陥
処理方法の流れ図である。段階７０２で、図１のＣＥＣ
内のＴＣＭが誤りを検出し、対応して、段階７０４で処
理装置制御コード（ＰＣＣ）に割り込みをかける。この
割り込みに応答して、段階７０５で、（ＰＣＥ１１６
内の）処理装置制御コードが誤り回復手続きを開始す
る。誤り回復において、システムは通常、その誤りが発
生した期間中の命令または演算を再試行することによっ
て回復を試みる。誤り回復手続きの一部として、ＰＣＥ
１１６は段階７０６でカウンタを増分させ、段階７０
８で再試行しきい値が超えられていないかどうかを検査
する。否定であれば、段階７１０でＰＣＣコードは回復
アルゴリズムを継続する。このアルゴリズムは例えば、
最新チェックポイントのＴＣＭの状態を復元して、その
演算または命令を再試行することを含むことができる。
再試行が成功すれば、処理は従来通りに継続する。再試
行が成功しなければ、状態７０２で誤りが再び検出さ
れ、再試行カウンタが増分される。

【００３７】段階７０８に戻って、しきい値を超えた場
合、段階７１２で、ＰＣＣコードはその故障が正常にＵ
ＩＲＡを要求するようなものであるかどうかを判定す
る。否定であれば、段階７１５で、回復アルゴリズムが
完了した時に行われる、延期サービス呼び出しを生じさ
せる状態がＰＣＥで設定される。延期サービス呼び出し
は、その機械がまだ動作可能ではあるが、カストマの都
合しだいで修理を要することを示す。ユーザは、回復ア
ルゴリズムの終了時にシステムが電話その他の通信回線
でサービスエンジニアを呼び出し、ＰＣＥ誤りメッセー
ジおよび（ＬＳＥで収集された誤り状態にもとづいて）
故障した現場交換可能装置（ＦＲＵ）を識別する情報を
報告すると同時に、これらのデータの全部を磁気ディス
クなどの不揮発性媒体に記憶させるように、ＰＣＥを設
定することができる。

【００３８】段階７１２で、その誤りがＵＩＲＡを生じ
るような形式のものであるとＰＣＣコードが判定した場
合、システムクロックサイクルがすでに増加されている
かどうかを判定するために段階７１４で試験が行われ
る。肯定であれば、段階７１６で、ＰＣＣコードはシス
テム検査停止を実行し、関連する誤り回復・報告データ
を記憶し、ＵＩＲＡメッセージをディスプレイに表示す
る。また、段階７１８では、システムは、（それがまだ
行われていない場合に）延期サービス呼び出しをオーバ
ライドし、延期サービス呼び出しと同様にしてサービス
エンジニアに連絡することができる即時サービス呼び出
しを送る。即時サービス呼び出しは、その機械がもはや
動作不可能であり、カストマが使用を再開できる前に修
理を要することを示す。

【００３９】段階７１４で、クロックサイクル時間がま
だ増加されていないと判定された場合、段階７２０でＰ
ＣＥはＬＳＥを通じてクロックサイクル時間を延長す
る。段階７２２では、ＰＣＥは、ＬＳＥを介して適切な
コマンドおよび制御情報を発振器／ＶＦＯカード（これ
が代わってシステムクロック時間を増加させ、ＰＣＥに
肯定応答信号を返信する）に送信する。ＬＳＥがＰＣＥ
からのクロックサイクル変更コマンドを確認した後、段
階７２４でＰＣＥは、システムが劣化モードで（低速ク
ロック速度で）動作していることを指示するメッセージ
をシステムコンソールに表示する。この時、再試行カウ
ンタもゼロにリセットされる。次に、段階７１５で、延
期サービス呼び出し状態が設定され、システムはその誤
り状態およびコンソールメッセージを自動連絡によって
サービスエンジニアに送る準備をする。段階７１０で、
回復アルゴリズムは継続し、しきい値に達するか、また
は、その演算または命令が誤りなく実行されるかのいず
れかまでその新しいクロック速度で再試行が実行され
る。

【００４０】誤り回復ルーチンがその演算を誤りなく成
功して完了させた場合、延期サービス呼び出しが行われ
る。誤り回復ルーチンが成功しなかった場合、再試行カ
ウンタは増分され、その演算または命令は再試行され
る。再試行しきい値に達し、ＵＩＲＡ状態が依然存在す
る場合、システムは検査停止され、即時サービス呼び出
しが行われる。

【００４１】単一のＴｅｘｔｅｎｄを加えることの代替
として、クロック速度の低減は、増分単位で実施できる
ことが理解されるはずである。すなわち、複数のＴｅｘ
ｔｅｎｄ（例えば、小さい増分単位で）を累積的かつ反
復的に加算することができ、演算は、その演算が成功し
て実行されるかまたは再試行しきい値に達するかのいず
れかまでそれぞれの付加的なＴｅｘｔｅｎｄについて再
試行される。このようなシステムでは、試みられる付加
的なＴｅｘｔｅｎｄの許容数は、カストマ選択しきい値
をシステムによって試行される反復数と比較することに
よって制御することができる。いずれの場合も、再試行
が成功したクロック速度または試行された最低クロック
速度は、システムによって記憶され、カストマサービス
エンジニアに報告されるであろう。

【００４２】システムクロック周波数に対するパワーオ
ンリセットの効果も、多数の異なる方法で処理すること
ができる。例えば、パワーオンリセットは、システムの
能力を低下させる目的が故障した現場交換可能装置（Ｆ
ＲＵ）を交換することであるという理論にもとづき、シ
ステムに元のクロック周波数に戻させるようにできるで
あろう。こうした仮定が間違っていた場合でも、システ
ムは、事実上誤りを検出し、その誤りが発生しないクロ
ック周波数に自己を再度プログラムし直すであろう。代
替法として、ＰＣＥは、不揮発メモリに変更したクロッ
ク周波数を記憶し、後に、欠陥ＦＲＵが交換されたとい
う指示がオペレータまたは自動信号機構のいずれかによ
って付与されるまで、電源投入ごとにこの変更された周
波数に合わせて発振器／ＶＦＯカードをプログラムする
こともできよう。

【００４３】以上、各ＣＰが共通クロックに接続されて
いる実施例で本発明を説明してきたが、本発明はまた、
多数のＣＰが非同期で動作でき、それぞれが独立したク
ロック機構を備えているシステムにも適用可能であるこ
とが理解されよう。こうした実施例では、各ＣＰのクロ
ック回路は、そのＣＰの命令再試行機構に結合されるで
あろう。所与のＣＰ内の再試行しきい値を超えると、そ
の個別のＣＰは自己のクロック時間を増加させ、残りの
ＣＰは全速度で動作し続ける。このような場合、延期サ
ービス呼び出しでの誤り報告メッセージは、低下速度で
動作している特定の単数または複数のＣＰも識別するで
あろう。

【００４４】本発明はまた、エンジニアリング試験環境
での用途も有する。クロックマージン／システムサイク
ル時間特性化手続きにおいて、システムサイクル時間
は、故障が無理に発生させられるまで、短縮される。こ
の故障は多くの場合、再度のＩＰＬ（初期プログラムロ
ード）および試験プログラムモジュールを再開する必要
性を生じるシステム検査停止につながる。再始動動作
は、時間を浪費し、周波数特性化において通常、何度も
繰り返されるものである。本発明の自動サイクル時間変
更機構を使用することによって、クロックサイクル時間
は、故障が検出され、それを指示するメッセージが画面
上に表示された後、自動的に増加される。従って、試験
エンジニアは、クロックマージン／システムサイクル時
間特性化試験を、システムの検査停止または再度のＩＰ
Ｌを要さずにシステム故障まで実行させることができ
る。

【００４５】本発明を好ましい実施例によって説明した
が、添付特許請求の範囲に記載された本発明の真の精神
および範囲を逸脱することなく行うことができる各種修
正および変更は、当業者にとっては明白であろう。

【図面の簡単な説明】

【図１】ＩＢＭＥＳＡ／３９０アーキテクチャに適合
する形式のコンピュータシステムにおける中央電子複合
体（ＣＥＣ）のブロック図。

【図２】図１のシステム内のＴＣＭボードおよび、本発
明の実施例に従ったクロック配分・監視・制御機構との
それらの会話を示す機能ブロック図。

【図３】図２の例示ＴＣＭボードの多数のＴＣＭのブロ
ック図。

【図４】図２の発振器／ＶＦＯカードの論理図。

【図５】図３のＴＣＭ内の例示論理チップの論理図。

【図６】本発明に従ったタイミングスラックの変更が交
流欠陥を克服するためにどのように使用されるかを示す
タイミング図。

【図７】本発明の実施例に従った交流欠陥処理方法の流
れ図。

【符号の説明】

１０２Ａ−Ｃ中央処理装置（ＣＰ）１０８中央記憶装置１１０Ａ相互接続通信要素１１０Ｂチャネルサブシステム１１６処理装置制御要素（ＰＣＥ）１１８システム制御要素（ＳＣＥ）１２０回復制御／命令再試行機構（ＲＣ）１２２サービスボード２０２〜２０６ＴＣＭボード２０８発振器／ＶＦＯボード２１０クロック配分チップ（ＪＣ）２１２論理支援ステーション（ＬＳＳ）２１４論理サービス要素（ＬＳＥ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者アン、キャロライン、メレンダアメリカ合衆国ニューヨーク州、ポーキープシー、タイタス、ロード、22 (72)発明者ドナルド、ロイド、ピアースアメリカ合衆国ニューヨーク州、ハイド、パーク、ホワイト、オークス、ロード、31

Claims

【特許請求の範囲】

【請求項１】処理誤りを処理するための機構を有するコ
ンピュータシステムであって、前記コンピュータシステムによる命令の処理中に発生し
た誤りを検出するための第１の手段と、前記第１の手段に結合されており、前記誤りの検出に応
答して、前記命令によって包括された１つ以上の演算を
前記コンピュータシステムに再試行させるための第２の
手段と、前記第２の手段に結合されており、前記再試行が成功し
たかどうかを判定するための第３の手段と、前記第２の手段および第３の手段に結合されており、前
記再試行が成功しなかったという指示に応答して、前記
コンピュータシステムの命令処理サイクル時間を変化さ
せ、かつ、前記変化以降の前記１つ以上の演算を前記第
２の手段に再度再試行させるための第４の手段とを含む
ことを特徴とするコンピュータシステム。
【請求項２】請求項１記載のシステムであって、前記第
４の手段に結合されており、前記変化に応答して通信リ
ンクによって延期サービス呼び出しを開始するための第
５の手段であり、前記延期サービス呼び出しはディジタ
ルコンピュータシステムが劣化性能モードで動作中であ
ることを指示するものである、前記第５の手段をさらに
含むことを特徴とするシステム。
【請求項３】命令ストリームを処理するための手段を有
するコンピュータシステムにおける処理誤りを処理する
ための機構であって、前記処理手段に結合されており、前記命令の処理中に発
生したタイミング依存欠陥によって生じた誤りを検出す
るための第１の手段と、前記第１の手段に結合されており、前記処理手段の命令
処理サイクル時間を変化させ、かつ、前記誤りが検出さ
れた際に前記コンピュータシステムにおいて進行中であ
った１つ以上の演算を前記変化以降に再試行させるため
の第２の手段とを含むことを特徴とする機構。
【請求項４】請求項３記載の機構であって、前記第２の
手段が前記命令処理サイクル時間を増加させるための手
段を含むことを特徴とする機構。
【請求項５】多数の機能単位を有するコンピュータシス
テムにおける処理誤りを動的に処理するための方法であ
って、機能単位による演算の処理中に発生した誤りを検出する
段階と、前記誤りがタイミング依存欠陥によって生じたことを判
定する段階と、前記判定後、前記機能単位に前記誤りが再発しないよう
な劣化性能モードで以降の演算を処理させる段階とを含
むことを特徴とする方法。
【請求項６】請求項５記載の方法であって、前記機能単
位のそれぞれが処理装置であり、また、前記劣化性能モ
ードが低下クロック速度で命令を処理することを含むこ
とを特徴とする方法。
【請求項７】請求項５記載の方法であって、前記コンピ
ュータシステムにおける残りの機能単位による演算の処
理を前記誤り検出以前に存在したものと同一の性能水準
で継続する段階をさらに含むことを特徴とする方法。
【請求項８】コンピュータシステムにおける処理誤りを
処理するための方法であって、命令ストリームを処理する段階と、前記命令の１つ以上の前記処理中に発生したタイミング
依存欠陥によって生じた誤りを検出する段階と、前記誤りの検出に応答して、前記命令の１つ以上の命令
によって包括された１つ以上の演算を前記コンピュータ
システムに再試行させる段階と、前記再試行が成功したかどうかを判定する段階と、前記再試行が成功しなかったと判定された場合に、前記
コンピュータシステムの前記命令処理サイクル時間を変
化させ、前記１つ以上の演算を再度再試行させる段階と
を含むことを特徴とする方法。
【請求項９】請求項８記載の方法であって、前記誤りの
検出に応答して、前記コンピュータシステムの構成要素
から誤り情報を収集し、かつ、前記誤り情報を特定の故
障構成要素を識別するデータとともに記憶する段階をさ
らに含むことを特徴とする方法。