JPH11510934A

JPH11510934A - 高稼働率コンピュータおよびこれに関連する方法

Info

Publication number: JPH11510934A
Application number: JP9509578A
Authority: JP
Inventors: バクスター，ウイリアム・エフ; ウエイラー，パツト・ジエイ; コツクス，ジヨージフ; ジエリナス，ロバート・ジー; ジロツト，バリー・イー; ガイヤー，ジエイムズ・エム; ヘイダ，アンドレア; ホツク，ダン・アール; ハント，マイケル・エフ; キーテイング，デイビツド・エル; キメル，ジエフ・エス; パイク，ロブ・ジエイ; ラドグナ，トム・ブイ; ルークス，フイル・ジエイ; シヤーマン，アート・エイ; スポーター，マイクル; トウルーベンバツク，リズ・エム; タツカー，ダグ・ジエイ; バレンタイン，ロブ・ピー; ユン，サイモン・エヌ
Original assignee: データ・ジエネラル・コーポレイシヨン
Priority date: 1995-08-14
Filing date: 1996-08-14
Publication date: 1999-09-21
Also published as: CA2183223A1; WO1997007457A1; EP0852035A1; US6026461A; EP0852035A4; US5887146A; US6122756A; CA2229441A1

Abstract

(57)【要約】高稼働率コンピュータシステムおよび方法は少なくとも一本のバックプレーン通信バス（２０８ａ−ｄ）と診断バス（２０６）を有しているバックプレーンと、各々が診断バス（２０６）にインタフェースしている複数枚のマザーボード（２０２ａ−ｈ）を含んでいる。各マザーボード（２０２ａ−ｈ）は複数枚のマザーボード（２０２ａ−ｈ）の間に分散されたメインメモリを含んでいるメモリシステム（２５２）と、少なくとも一枚のドータボード（２５０ａ−ｂ）と、各マザーボード（２０２ａ−ｈ）およびドータボード（２５０ａ−ｂ）に実装された機能性構成要素を電気的に相互接続する走査チェーンをも含んでいる。システムは走査チェーンを使用して機能性構成要素ならびに電気接続を自動的にテストし、障害構成要素の存在を判定し、障害構成要素をコンピュータシステムから機能的に除去する命令および基準を含んでいる。

Description

【発明の詳細な説明】高稼働率コンピュータおよびこれに関連する方法本出願は１９９５年８月１４日出願の米国仮出願番号第６０／００２３２０号の利益を主張するものであり、該出願の教示は参照することにより本明細書の一部となるものである（付録Ａも参照）。発明の分野本発明はコンピュータシステムに関し、詳細にいえば、障害が生じたコンピュータシステムを自動的に感知し、診断し、構成解除（デコンフィギュア）／再構成（リコンフィギュア）して、稼働率を改善する高稼働率コンピュータシステム、ならびに高い稼働率を提供するための関連した方法に関する。発明の背景ビジネス環境においてコンピュータシステムを調達する場合、考慮する重要な要因はコンピュータが実行／動作する稼働率である。これは収益性、ならびに作業／ジョブの実績に影響を及ぼす。稼働率を改善するために単独で、あるいは組み合せて使用される四つの基本的な設計概念がある。設計技法の一つは一般に「フォールトトレラント」と呼ばれているものである。この技法を用いているコンピュータシステムは他のタイプのコンピュータであればシャットダウンさせてしまうであろう重障害にも耐え得るように設計される。このような設計は通常、ハードウェアおよびソフトウェアを重複させて、アプリケーションプログラムが複数のプロセッサで同時に動作するようにすることを含んでいる。このようにすれば、重障害がプロセッサまたはサブシステムの一つで生じた場合に、他のプロセッサ／サブシステムで動作しているアプリケーションプログラムが依然として出力を行う。それ故、ユーザに関して、コンピュータシステムはその指定されたタスクを実行していることとなる。複数のプロセッサに加えて、ボーティング手法を実施し、これにより複数のプロセッサからの出力を比較して、適正な出力を決定することができる。フォールトトレラントシステムは複雑なものであり、複数の独立した処理システムを本質的に必要とするものであり、それ故、きわめて高価なものである。さらに、システムがフォールトトレラントであったとしても、いったん障害が発生したら、サービス担当員が現場へ赴き、障害が生じたパス／サブシステムを診断し、修理する必要がある。これにより保守の費用がかさむ。他の技法は構成要素が信頼性がきわめて高く、したがって、動作サイクル中に障害を生じる可能性がないように、構成要素を設計することを含んでいる。この技法は意図している用途（たとえば、人工衛星）の大きさおよび重量の制限が通常利用可能な設計技法を限定する宇宙用、軍事用および航空用に一般的なものである。高信頼性の構成要素は通常高価であり、またこれらの設計特性を維持するためには、保守活動も費用のかさむものとなる。このような経費はコンピュータシステムを所与の用途に関して商業的に受け入れられないものとしてしまう。いずれにせよ、システムがいったん障害を起こすと、サービス担当員を派遣して、障害を起こしたシステムの診断および修理を行わなければならない。軍事用／航空用のものを取り扱う場合、障害を起こした構成要素を収納している車両／品目を修理施設に持ち込まなければならない。しかしながら、システムは修理されるまで、利用できなくなる。それ故、これは保守コストを高くし、このような修理／交換活動をクリティカルパスの問題としてしまう。第三の技法は複数の独立したコンピュータシステムをクラスタ化して、コンピュータシステムの一つが故障した場合に、その作業をクラスタ内の他のシステムの一つで行うようにすることを含んでいる。この技法はいくつかの独立したシステムが存在するか、必要とされる用途に限定される。独立型のシステムには使用できない。また、この種のシステムが動作するには、独立した各システムがクラスタ内のいずれのシステムのデータおよびアプリケーションプログラムにもアクセスできなければならない。たとえば、いずれのコンピュータシステムもアクセスできる中央データ記憶装置（たとえば、ハードディスク）を設ける。適用性が限定されていることに加えて、これは複雑であり、高価であり、しかもデータセキュリティの問題を生じる。第四の技法は冗長電源およびブロワを設けることを含んでいる。それ故、ブロワや電源の故障がコンピュータシステムのシャットダウンにつながることはない。しかしながら、サービス担当員をつれてきて、機械を修理し、動作可能な状態に復帰させられるように故障の原因を診断させなければならないため、他のコンピュータシステム構成要素に冗長性を与えることは実行できない。第四の技法はコンピュータシステムに、システムのクラッシュまたはハング後にシステムを自動的にリブートする機構を設けることも含んでいる。この技法は一時的な問題からの回復を可能とするものではあるが、動作可能状態へのシステムの復元に関連した診断は行われない。それ故、システムが故障した場合には、サービス担当損をつれてきて、機械を修理し、動作可能な状態に復帰させられるように故障の原因を診断させなければならない。それ故、大きな割合の潜在的な障害モードから自動的に回復できる（すなわち、操作員／サービス担当員の活動を必要とすることなく回復できる）コンピュータシステムが必要とされている。特に、コンピュータおよびその構成要素の機能に関するコンピュータによる自動診断を含んでいる方法、ならびに障害を起こした構成要素を分離するためにシステムを構成解除／再構成でき、それ故、おそらくはデグレード状態であってもコンピュータがシステム動作を自動的に継続できるコンピュータが必要とされている。また、このような高稼働率設計特性を有するコンピュータシステムも必要とされている。発明の概要本発明の方法およびマルチプロセッサコンピュータシステムは、複数プロセッサコンピュータシステムの稼働率を、システムの動作を中断させるいくつかの障害のいずれをも自動的に感知し、診断するようにシステムを設計して改善することを実現することによってもたらされる。さらに、継続したシステム動作を阻害する障害を診断し、分離するにあたり、コンピュータシステムはシステムを自動的に構成解除して、分離された障害を生じた構成要素／サブシステムがシステムから機能的に除去されるようにする。コンピュータシステムは次いでそれ自体、オペレーティングシステムおよびアプリケーションプログラムを自動的にリブートする。障害を生じた構成要素がサービス担当員によって交換／修理されるまで、コンピュータシステムはデクレード状態ではあるが、動作を継続する。しかしながら、他のコンピュータシステムと異なり、この交換については正規のシステム運用を回避してスケジュールを組むことができる（たとえば、非生産時間中の交換）。このようにして、修理および／または交換活動はシステムを動作可能状態に回復するのにクリティカルパスの問題ではなくなる。一般に、ほとんどのシステム、特にマルチプロセッサタイプのコンピュータシステムは、実際のパフォーマンスをほとんどあるいはまったく損なうことなく、デグレード状態で動作させることができる。コンピュータシステムはシステム（すなわち、チップおよび回路基板）を走査して、構成要素／サブシステムの障害を特定することによって、完全なシステム診断を電源投入時に並列に行うようにも設計される。このようにして、コードのロード前に動作状態になっているものとしてシステムを検査する。これはシステムが動作するようになってから、障害状態を見つけ出すよりも好ましい。走査は統合されたＪＴＡＧテスト論理を使用して、チップにおいて、また回路基板レベルにおいて開回路および短絡回路を突き止め、またシステムを構成する特定用途向け集積回路、プロセッサおよび回路基板の機能を判定することを含んでいる。電源投入時に行われる走査動作はいくつかのＡＳＩＣのうちのいずれかのものを初期化することも含んでいる。このことはコンピュータシステムのコストおよび使い方に比例したさまざまな段階またはレベルで実施できる簡単で、迅速で、しかも低コストな診断修理方針をもたらす。その広範囲にわたる用途において、システム障害につながるほとんどすべての障害についてシステムは自動的にシステムを構成解除および再構成するとともに、正確で完全な障害分離および検出をもたらす。ただし、意図している用途に基づいて継続したシステム動作を可能とするとともにユーザのコストを最小限とするのに必要なシステム冗長性の量を調整することも、本発明の範囲に含まれる。さらに、コンピュータシステムの処理動作に関する構成要素に対しては、Ｎ＋１個の冗長ブロワと電源を含めるようにシステムを構成する。電源をグルーブ化して、各電源グループがシステムの個別の部分に電源を供給するようにすることが好ましい。各グループにＮ＋１個の電源を設けることが好ましい。ブロワおよび電源がホット修理可能であって、現場でシステムを遮断せずにこれらを交換することができる。高稼働率コンピュータシステムはさらに、アプリケーションプログラムおよび基板実装構成要素（たとえば、走査チェーン、テストバスコントローラ）とともに、診断テストを行って、いずれかのアプリケーションプログラムのローディングに先立って、システムの完全性を判定する、各マザーボードに実装されたマイクロコントローラおよび診断バスを含んでいる。各マザーホードおよびドータボード上の特定用途向け集積回路は論理フリップ／フロップ（Ｆ／Ｆ）へクロックを供給するゲート式バランスクロックツリーを含んでいる。クロックツリーはクロックトランクと、これから延びている複数のブランチとを含んでいる。ＡＮＤゲートを少なくとも一つのブランチに配置し、いくつかのクロックパルスだけが論理Ｆ／Ｆへ通るように制御回路の制御の下におく。制御回路はＡＮＤゲートによって、自動的にパルスがコンピュータシステムの第一の動作状態、すなわち正規のシステム動作中にブランチを通過でき、システムが第二の動作状態、すなわちシステムに致命的なエラーが生じているときにＡＮＤゲートがパルスをブロックするように構成される。また、制御回路はコンピュータシステムが診断テストを受けているときにパルスが通過するようにも構成される。システムは一方の回路がシステムクロック源と指定されている二つの冗長クロック生成分配回路も含んでいる。クロックパルスの生成障害が特定された場合には、クロック生成分配回路は自動的にシステムが冗長クロック回路にフェイルオーバし、システムをサービス状態に戻す。回路をシステムの各マザーボードに実装するのが好ましい。特定の実施の形態において、バックプレートのスロット０にあるマザーボード上のクロック生成分配回路は正規のシステムクロック源であり、バックアップ源はスロット１のマザーボード上に実装された回路となる。要約すると、本発明の上記の方法は、システムの意図している用途およびコストに基づいて構成することのできる高稼働率コンピュータシステムをもたらす。それ故、連続したシステム運用を可能とするのに必要とされるシステムの冗長性の量は用途に合わせて、またユーザのコストを最小限とするように調整できる。このようなシステムによって、障害を起こした構成要素の修理または交換のスケジュールをユーザに与える影響が最も少ない時間に組むことが可能となる。定義本発明は以下の定義を参照することにより、もっともよく理解されよう。「ＡＳＩＣ」は特定用途向け集積回路を意味する。「ボードマスタＪＰ」は各マザーボード上の最下位の機能的ジョブプロセッサ／中央演算処理装置を意味する。ボードマスタボードレベルテストで分離した動作により決定される。「デグレード」および関連する用語は、構成要素の、たとえばＦＲＵ、コンピュータシステムからの喪失または除去を意味する。コンピュータシステムの動作またはパフォーマンスの実際の低下は、構成要素の喪失または除去によって生じることもあれば、生じないこともある。「診断マスタＪＰ（ＤＭ）」はシステムが初めてメインユーザインタフェースで停止したときに、すべての基板内テストと制御を調整する、システム内のジョブプロセッサ／中央演算処理装置を意味する。「障害検出」は障害が発生し、現行のシステムデータがだめになったことを認識できることを意味する。「障害分離／障害の分離」および関連する用語は定義のあるレベルまで障害の位置を特定できることを意味する。分離はシステム、サブシステム、基板、構成要素、ＦＲＵ、またはサブＦＲＵレベルで定義できる。「ＦＲＵ」は現場交換可能ユニットを意味する。現場交換可能ユニットはコンピュータシステムの構成要素（たとえば、基板、ドータボード、バス、電源、ブロワ）であって、フィールドサービス担当員によって現場でユニットとして取り外され、交換されるように（すなわち、現場で修理されない）設計されたものである。「マスタマイクロコントローラ」はどの基板がシステム内にあるかの基本的なサイジングを行い、ミッドプレーンＳＥＥＰＲＯＭを含めオフボード走査をテストする、システム内のマイクロコントローラを意味する。「走査可能メールボックス」は通信手段としてマイクロコントローラによりＤＢＵＳを介してアクセスされるレジスタを意味する。「ＳＥＥＰＲＯＭ」は電気的に消去可能なシリアルプログラマブルリードオンリーメモリを意味する。これらのうちの一つがＳＩＭＭ以外の各ＦＲＵ上に存在している。「ＴＣＫ」はテストクロック、すなわちＩＥＥＥ１１４９．１テストクロック信号を意味する。「ＴＭＳ」はＩＥＥＥ１１４９．１テストモード選択信号を意味する。「ＴＤＩ」はＩＥＥＥ１１４９．１テストデータイン信号を意味する。「ＴＤＯ」はＩＥＥＥ１１４９．１テストデータアウト信号を意味する。「ＴＲＳＴ」はＩＥＥＥ１１４９．１テストリセット信号を意味する。図面の簡単な説明本発明の性質および望ましい目的を完全に理解するためには、類似した参照記号が数枚の図面にわたり対応する部品をさしている添付図面に関して行われる以下の詳細な説明を参照されたい。第１Ａ図から第１Ｃ図は複数並列プロセッサ用の高稼働率方法のハイレベルの流れ図である。第２図は本発明の高稼働率コンピュータシステムのハイレベルのブロック図である。第３図は第２図のコンピュータ用のマザーボードのブロック図である。第４図は第３図のマザーボード用のドータボードのブロック図である。第５図は本発明のＡＳＩＣ用ＰＬＬゲート式バランスクロックツリーのブロック図である。第６図はＢＣＴの階層図である。第７図は本発明によるＡＳＩＣのＰＬＬモジュールのブロック図である。第８図はＡＳＩＣ内部リセットおよびクロック生成用の回路／論理のブロック図である。第９図は本発明のクロック生成および検出回路／論理のブロック図である。第１０図はクロック障害検出回路のブロック図である。第１１図はマザーボードおよびドータボードへのクロックの配布に関する例示的ブロック図である。第１２図はバックプレートの位置「０」に配置されたマザーボード用の走査チェーン／走査論理の図である。第１３Ａ図および第１３Ｂ図はマイクロプロセッサが行う電源投入時テストの表である。第１４図はジョブプロセッサ（ＪＰ）が行う電源投入時テストの表である。第１５Ａ図および第１５Ｂ図は診断マスタＪＰが行う電源投入時テストの表である。第１６図は診断マスタＪＰが行う電源テストの表である。好ましい実施の形態の説明類似した参照符号が類似した部品を指している各種の図面を参照すると、第１Ａ図から第１Ｃ図には本発明の複数プロセッサコンピュータシステム用の高稼働率方法の流れ図が示されている。本発明のコンピュータシステムおよび関連する方法は、ユーザアプリケーションコードの実行中に生じる障害事象を正常に検出し、事象を少なくとも一つのＦＲＵに分離し、ＦＲＵ／障害構成要素を構成解除し、オペレーティングシステムをリブートし、ユーザアプリケーションコードをリブートするシステムをもたらす。検出、分離、構成解除およびリブートというこのプロセスは、コンピュータシステムによって自動的に行われ、ユーザ／サービス担当員の対話／入力を必要としない。コンピュータシステムの電源投入すなわち起動を行っているときに（ステップ１００）、電源システムコントローラがいくつかの機能を実行する。これには動作電圧を正規の値にし、ブロワファンを正規の速度まで上げ、診断割込みまたはその制御下にある他の状況をクリアすることが含まれている。このモードの間、コンピュータシステムの他の機能は禁止されている。システムの動作が図示の動作順序に限定されるものではなく、動作を並列におよび／または異なる順序で行ってもよいことに留意すべきである。システムが起動すると、システムクロックが適切なシステム動作に必要なクロック信号（すなわち、クロック）を与える。以下で説明するように、クロック回路／論理２５６（第３図）が正規のシステムクロック源の動作を監視し、正規のシステムクロック源が障害を起こすと、クロック障害出力をもたらす（ステップ１０２）。システムクロック監視機能は起動時に開始され、システムの電源を切断するまで、システム動作のすべてのモードの間継続する。好ましい実施の形態において、コンピュータシステムは冗長ないしバックアップクロック回路／論理を含んでいるので、システムは単一のシステムクロック障害に耐えることができる。それ故、正規のシステムクロック源の障害が特定された場合、コンピュータシステムは冗長クロック回路をシステムクロックの指定されたクロック源であると自動的に再指定する（ステップ１０４）。スロット０のマザーボード上のクロック回路／論理２５６の障害が、スロット０のマザーボードをシステムから機能的に構成解除することを自動的に必要とするものではないことに留意すべきである。システムクロックの喪失が検索不能な障害であるから、コンピュータシステムは診断テストプロセスの始まりへ自動的に復帰する。本発明の目的では、システムのこのような再起動をシステムのコールドリセットと呼ぶ。しかしながら、このコールドリセットはシステムへの電力の除去および再確立を含むものではない。コールドリセット電源投入プロセス時に、他のシステム障害が発見されなかったものと想定すると、以下で説明するように、オペレーティングシステムが自動的にブートされ、再呼出しされる。また、システム起動プロセスの一部として、クロック障害に関するメッセージがユーザおよび当地のサービスセンタへ送られる。要約すると、上述のクロックフェイルオーバプロセスはシステムによって自動的に行われ、ユーザが介入して、クロックを切り替えることを必要としない。上記の初期電源投入プロセスが完了すると、コンピュータシステムはいくつかの診断テストおよび評価動作を行うように解除される。これらの動作は各種の構成要素（たとえば、チップ、基板、バス）を調べ、アプリケーション（たとえば、オペレーティングシステム）のロード前に、コンピュータシステムの完全性および動作可能性を確認する。好ましい実施の形態において、コンピュータシステムは統合ＪＴＡＧテスト回路／論理および走査チェーンを含むように設計されているので、診断テストおよび評価はシステムによって自動的に行われる。詳細にいえば、コンピュータシステムは基板およびチップレベルで電気的連続性を調べる（すなわち、短絡および開回路を調べる）（ステップ１１０）。連続性チェックに加えて、コンピュータは機能性チェックを行って、たとえば、ハードスタックを特定する（ステップ１１２）。障害があると特定されたすべての構成要素には、その旨のタグがつけられる。障害構成要素がある場合には（ステップ１１４のＹＥＳ）、コンピュータシステムは障害構成要素を構成解除して、これらがコンピュータシステムの論理的または動作上機能的な構成要素ではなくなるようにしようと試みる（ステップ１１６）。実際問題としてコンピュータシステムはシステム動作に必要な構成要素の最低限の数未満にシステム自体を構成解除するべきではない。たとえば、システムは最後のシステムボードを機能的に除去することはできない。コンピュータシステムの構成解除が可能でない場合（ＮＯ）、システムはそれ自体をシャットダウンする（ステップ１１８）。コンピュータシステムを構成解除できる場合には（ステップ１１６のＹＥＳ）、コンピュータシステムは障害構成要素をシステムから機能的および動作上除去するのに必要な活動を行う（ステップ１２０）。コンピュータシステムは動作して、障害分離が障害を起こしたＦＲＵに対するものとするか、あるいは障害を起こしたと考えられる構成要素が位置するＦＲＵに対するものとすることが好ましい。ＦＲＵまでの分離は診断および障害分離プロセスを正確で、迅速で、完全なものとする。システムはシステムメモリチップ（たとえば、ＥＥＰＲＯＭ）の更新を行って、障害システムクロックを含む活動しており、構成解除された構成要素の特定も行う。構成解除が完了した後、プロセスおよびコンピュータシステムは復帰して、診断テストを再度行う（ステップ１１０〜１１４）。それ故、構成解除されたシステムの動作可能性および完全性がアプリケーションのローディング前に確認される。診断テストおよび評価プロセスは障害が特定されなくなるか、システムシャットダウンが必要となるまで繰り返される。他の障害が検出されなくなった場合、あるいは初期診断テストで障害が検出されなかった場合（ステップ１１４のＮＯ）、システムはオペレーティングシステムのロードへ進む（ステップ１２２）。オペレーティングシステムが正常にロードされた場合には（ステップ１２４のＹＥＳ）、コンピュータシステムは使用可能である。すなわち、ユーザのアプリケーションプログラムをロードし、実行することができる（ステップ１２６）。以下で説明するように、システムは構成解除またはシャットダウンに関するメッセージをユーザに、また、好ましくは、該当するサービスセンターへ出力する。これには障害を起こしたシステムクロック（すなわち、冗長性の喪失）に関する勧告も含まれている。このようにして、サービスセンタおよびユーザには障害が通知される。また、これによって、ユーザおよびサービスセンタはユーザに都合のよいときに構成要素を交換するスケジュールを組むことも可能となる。アプリケーションプログラムが実行されている間中、コンピュータシステムは障害構成要素が存在していることを表すことがあるエラーを監視している。エラーが検出されない場合には（ステップ１２８のＮＯ）、ユーザはアプリケーションプログラムの実行を継続する。エラーが検出された場合には（ステップ１２８のＹＥＳ）、オペレーティングシステムおよび／またはコンピュータシステムはエラーが致命的なものであるか、非致命的なものであるかを判定する（ステップ１３０）。非致命エラーはコンピュータシステムの瞬時シャットダウンおよび／または情報、データまたは状態の検索不能な変造を結果として生じないエラーをいう。非致命エラーの例としてはシングルビットエラーがある。一方、致命エラーはシステムシャットダウンを引き起こす構成要素の潜在的な障害を示すエラー、動作しているプログラムがクラッシュまたはハングしたもの、情報、データまたは状態のコラプションがある障害である。致命エラーの例としては、所与の動作／構成要素に対するウォッチドッグタイマがタイムアウトして、ハング状態を示している場合である。エラーが致命であると判断された場合（ＹＥＳ）、コンピュータシステムはシステムのメモリおよび構成要素バッファ／レジスタで見出されるもののようなコンピュータシステム情報をセーブする状態にされる（ステップ１５０）。以下で検討するように、ボード実装ＡＳＩＣは状態またはバストランザクション情報を格納するレジスタを含んでいる。また、ＡＳＩＣは一般に、致命エラーが検出された場合に、その状態を維持するように構成されている。しかしながら、この情報のセーブにはいくつかの従来技術で示唆されている技法で必要とされるようなシステムクロックをフリーズさせることを必要としない。このように、システムは情報を自動的にセーブして、情報はたとえば、製造／修理施設で障害を起こした構成要素／障害の原因を特定するために後で使用することができる。システムをその情報セーブ状態とした後、コンピュータシステムはシステムの状態に関する情報を検索する（ステップ１５２）。好ましくは、統合ＪＴＡＧテスト論理／回路および走査チェーンを使用してこれを達成し、システム内の各種のレジスタ／バッファおよびＡＳＩＣフリップ／フロップ（Ｆ／Ｆ）から情報を走査する。情報を検索した後、ウォームリセットがアサートされる（ステップ１５４）。コンピュータシステム／オペレーティングシステムは可能な場合に、特定されたエラーを解決できる処置を行って、メモリの内容を検索することを目的として、コンピュータシステムをウォームリセットによって再起動できるようにする。それ故、ウォームリセットが成功した場合（ステップ１５６のＹＥＳ）、コンピュータシステムはメモリをダンプさせて、たとえば、システムのハードディスクにセーブする。メモリダンプの完了後、あるいはシステムが再度障害を起こした場合には、ウォームリセットのアサート後に（ステップ１５６のＹＥＳ）、プロセスは復帰して、システム診断評価プロセスを行う（ステップ１０２）（すなわち、コールドリセットをアサートする）。それ故、システムの動作を継続する前に、コンピュータシステムの完全性および動作可能性が再度確認される。エラーが致命的なものでない場合（ステップ１３０のＮＯ）、コンピュータシステム／オペレーティングシステムは必要な処置を行って、当初特定されたエラーを修正ないし解決する（ステップ１３２）。たとえば、シングルビットエラーに関与するデータの再取得／再書込みを行う。非致命エラーのある種のものに対しては、コンピュータシステム／オペレーティングシステムはこのプロセスの一部として、非致命エラーのオカレンスが閾値基準を超えたかどうかも判定する。超えている場合、表記を行って、構成要素または関係するＦＲＵをシステムの次の電源投入またはコールドリセット時に構成解除するようにする。たとえば、所与のＳＩＭＭに対するシングルビットエラーが閾値限度を超えた場合には、後で構成解除するためにＳＩＭＭにタグをつける。コンピュータシステムの動作およびアプリケーションシステムの作動は継続される（すなわち、コンピュータシステムは遮断されない）。第２図には、本発明の高稼働率マルチプロセッサコンピュータシステム２００のハイレベルブロック図を示す。本発明のマルチプロセッサコンピュータシステム２００は「ＳＹＭＭＥＴＲＩＣＭＵＬＴＩＰＲＯＣＥＳＳＩＮＧＣＯＭＰＵＴＥＲＷＩＴＨＮＯＮ−ＵＮＩＦＯＲＭＭＥＭＯＲＹＡＣＣＥＳＳＡＲＣＨＩＴＥＣＴＵＲＥ」なる名称の同一出願人に譲渡された係属米国出願第０８／、号（代理人整理番号４６．５８５、１９９６年８月日出願）に記載されているＣＣ−ＮＵＭＡアーキテクチャを用いていることが好ましい。この教示は参照することによって、本明細書の一部となる。マルチプロセッサコンピュータシステム２００は複数の基板複合体すなわちマザーボード２０２ａ −ｈを含んでおり、これらの各々はＰＩＢＵＳ２０８を構成する４本のバス２０８ａ−ｄに相互接続されている。ＰＩＢＵＳ２０８はバックプレートを横切り、システムのすべてのマザーボードを相互接続するバスである。４本のバス２０８ａ−ｄは情報、データおよび命令をマザーボード間で通信することを可能とする。各マザーボード２０２は各マザーボードを診断バス（ＤＢＵＳ）２０６に相互接続する診断バスインタフェース（ＤＢＩ）２０４も含んでいる。図示のコンピュータシステムは８枚のマザーボード２０２ａ−ｈを含んでいるが、システムを最低限２枚のマザーボードで構成できるため、これは限定条件ではない。マザーボードのブロック図である第３図も参照すると、各マザーボード２０２はマザーボードに差し込まれる２枚のジョブプロセッサ（ＪＰ）ドータボード２５０ａ、ｂ、メモリサブシステム２５２、Ｉ／Ｏサブシステム２５４、クロック回路／論理２５６、バス／ＰＩＢＵＳインタフェースサブシステム２５８、およびローカルリソース２６０を含んでいる。スロット０でマザーボードに組み込まれたクロック回路２５６は通常システムクロックおよびテストクロックを生成し、これをすべてのバックプレート一／スロットにあるマザーボードに与える。クロック回路／論理２５６についてはその分配を含めて、第９図から第１１図に関して以下で説明する。同様に、ジョブプロセッサドータボード２５０ａ、ｂについても第４図に関連して以下で説明する。各マザーボード２０２上のメモリサブシステム２５２は複数のＳＩＭＭ２７０、二つのエラー検出および修正ユニットＡＳＩＣ（ＥＤｉｉＡＣ）２７２、ディレクトリ２７４およびメモリコントローラＡＳＩＣ（ＭＣ）２７６を含んでいる。メモリサブシステム２５２は各マザーボード２０２上の最大５１２ＭＢのメモリをコンピュータシステム２００に与えることができる。実際のランダムアクセスメモリ記憶装置はマザーボード２０２上に設けられた最大８個の１６Ｍ×３６のＳＩＭＭ２７０によって提供される。マザーボード２０２にはしかしながら、４ないし８個のＳＩＭＭを搭載することができる。二つのＥＤｉｉＡＣＡＳＩＣ２７２を使用して生成／修正されるＥＣＣを使用して、メモリデータを保護する。各ＥＤｉｉＡＣは６４ビットのデータパスを備えており、そのうち二個はキャッシュブロックとインタリーブするために使用される。メモリサブシステム２５２はキャッシュコヒーレンシィを維持するために使用されるディレクトリ２７４用の記憶域も含んでいる。ディレクトリ２７４は４Ｍ ×４のダイナミックランダムアクセスメモリを含んでおり、これらはマザーボード２０２に実装されている。ディレクトリおよびメインデータ記憶装置（すなわち、ＳＩＭＭ）両方に対するＥＣＣコードはすべてのシングルビットエラーを修正し、すべてのダブルビットエラーを検出することができる。ＭＣＡＳＩＣ２７６は物理メモリ操作の実行を管理する。これはシステムコヒーレンシィを維持するディレクトリ２７４およびメモリデータ記憶ＳＩＭＭ２７０の両方を管理することを含んでいる。ＭＣＡＳＩＣ２７６はＢＡＸＢＡＲ２９２によってＭＣＢＵＳ上へ駆動されるメモリトランザクションパケットを処理する。各マザーボード２０２上のＩ／Ｏサブシステム２５４は二つのＩ／ＯサブシステムインタフェースＡＳＩＣ（ＧＧ）２８０、二枚の周辺構成要素インタフェース（ＰＣＩ）拡張カード２８２、二つのスモールコンピュータシステムインタフェース（ＳＣＳＩ）２８４、および一つのローカルエリアネットワーク（ＬＡＮ）インタフェース２８６を含んでいる。これらの各々はマザーボード２０２に実装されている。各マザーボードのＩ／Ｏサブシステム２５４は２５ＭＨｚで動作する二つのＰＣＩチャネルを備えている。各ＰＣＩチャネルはＧＧＡＳＩＣ２８０によってバス／バスインタフェースサブシステムのＧＧバスとインタフェースしている。各ＧＧ２８０はＩ／Ｏトランザクション用の統合キャッシュを含んでおり、またＧＧバスとＰＣＩバスの間にインタフェースをもたらすのに必要な、ＰＣＩアービトレーションを含むすべての論理も含んでいる。ＧＧ２８０はマザーボード及び接続されたペリフェラルからの割込みの集束器としても働き、これらの割込みを組み合わせ、バスパケットによってＪＰドータボード２５０ａ、ｂ上の該当するジョブプロセッサ（ＪＰ）へ送る。二本のＰＣＩバスの各々は統合ＳＣＳＩインタフェース２８４に接続され、また単一のＰＣＩ拡張ボード２８２にも接続されている。二本のＰＣＩバスの一本も統合１０ＭｂＬＡＮインタフェース２８６に接続されている。二つのＳＣＳＩインタフェースはＮＣＲ８２５統合ＰＣＩ−ＳＣＳＩコントローラを使用して、一対の広帯域差動ＳＣＳＩ−２インタフェースとして実現される。各コントローラは一組の差動トランシーバによって、エアダム上の６８ピン高密度ＳＣＳＩコネクタに接続されている。ＳＣＳＩバスのオンボード終端は設けられておらず、マザーボード２０２のマルチイニシエータまたは他のＳＣＳＩクラスタ構成への接続が可能である。単一ＬＡＮ接続がＤＥＣｃｈｉｐ２１０４０ＰＣＩ−イーサネットコントローラを使用して行われる。これはエアダム上のＲＪ−４５に接続される単一チップ統合ＬＡＮを提供する。各マザーボード２０２上のバス／ＰＩＢＵＳインタフェースサブシステム２５８は四つのＰＩＢＵＳインタフェースＡＳＩＣ（ＰＩ）２９０、マザーボードレベルバス用の相互接続パスとして働くクロスバー交換機（ＢＡＸＢＡＲ）２９２、アービトレーションＡＳＩＣ（ＯＲＢ）２９４および複数のボードレベルバスを含んでいる。ＯＲＢＡＳＩＣ２５４はマザーボードレベルバス用のアービトレーションとＢＡＸＢＡＲバストランシーバを管理する。ＢＡＸＢＡＲ（ＢＢ）２９２は四つのＡＳＩＣとして実施され、ＯＲＢＡＳＩＣ機能とＢＡＸＢＡＲＡＳＩＣ機能を選択するためのモードスイッチを含んでいる。バックプレートを横切るジョブプロセッサ間の一次通信はバス／ＰＩＢＵＳインタフェースサブシステム２５８のＰＩＢＵＳインタフェース部分を使用して達成される。単一ＰＩＢＵＳ２０８ａは多重化７２ビットアドレス制御／データバス、ならびに関連するアービトレーションおよび制御信号からなっている。各マザーボード２０２は四つの同一のＰＩ２８０を含んでおり、各ＰＩはＰＩＢＵＳ２０８を構成するバス２０８ａの一つに相互接続されている。トラフィックは四本のバス２０８ａ−ｄを横切って区分されているので、各バスはほぼ均等に利用される。上述したように、サブシステム２５８は複数のボードレベルのバスを含んでいる。以下はここのリストの各々を列挙したものであり、各々の簡単な説明を含んでいる。ＲＩバス。ＢＡＸＢＡＲ２９２をリソースインタフェースＡＳＩＣ（ＲＩ）３０６およびデバッグバッファ／デバッグコネクタへ相互接続するバスである。ＧＧバス。ＢＡＸＢＡＲ２９２を二つのＧＧＡＳＩＣ２８０へ相互接続するバスである。ＭＣバス。ＢＡＸＢＡＲ２９２をＭＣＡＳＩＣ２７６へ相互接続するバスである。ＣＩ₀バス。ＢＡＸＢＡＲ２９２をＪＰ₀ドータボード２５０ａに実装されたキャッシュインタフェースＡＳＩＣ（ＣＩ）４１４へ相互接続するバスである。ＣＩ₁バス。ＢＡＸＢＡＲ２９２をＪＰ₁ドータボード２５０ｂに実装されたキャッシュインタフェースＡＳＩＣ（ＣＩ）４１４へ相互接続するバスである。ＰＩＸバス。ＢＡＸＢＡＲ２９２を四つのＰＩＡＳＩＣ２９０へ相互接続するバスである。ＭＵＤＬ、ＭＵＤＨバス。ＢＡＸＢＡＲ２９２をメモリサブシステムのＥＤｉｉＡＣＡＳＩＣ２７２へ相互接続する二本のバスである。各マザーボード２０２はバックパネルに含まれているシステムＩＤＰＲＯＭ２０４を除き、システムで必要とされるすべてのローカルリソースを含んでいる。ローカルリソース２６０はマイクロコントローラ（μＣ）３００、ＥＥＰＲＯＭ３０２、ＳＲＡＭ、ＮＯＶＲＡＭ、ＤＵＡＲＴ、ＳＣＡＮインタフェース論理３０４、ＭＡＣＨ論理、およびリソースインタフェース（ＲＩ）ＡＳＩＣ３０６を含んでいる。ローカルリソース２６０は各マザーボード２０２上で重複しているが、コンピュータシステム２００はバックプレート上のスロット０またはスロット１のいずれかの基板のローカルリソース部分だけを、システム全体にわたるグローバルリソースとして使用する。ＲＩＡＳＩＣ３０６はＲＩバス／ＢＡＸＢＡＲ２９２とローカルリソース２６０内の装置との間のインタフェースを提供する。マイクロコントローラ３００はシステムのローレベル早期電源投入診断を行ってから、ＪＰドータボード２５０ａ、ｂＪＰに対するＲＥＳＥＴのアサート解除を行う。これはすべての走査動作に使用されるコントローラ／エンジンでもある。ドータボード２５０ａ上のＪＰ４００ａ、ｂが走査動作を行う必要がある場合、マイクロコントローラ３００に対して要求を行い、該マイクロコントローラは必要な動作を行う。走査は電源投入時にＡＳＩＣを構成し、電源およびブロワと通信を行い、システム内の各種のＩＤＰＲＯＭとの通信を行い、ハードウェア致命エラー後に障害情報のダンプを行うために使用される。すべてのＪＰ４００ａ、ｂおよびマイクロコントローラ３００のファームウェアを格納する四つの５１２Ｋ×８のＥＥＰＲＯＭ３０２がある。ＥＥＰＲＯＭ３０２は電源投入時にＪＴＡＧ走査テストを行うための適切なテストベクトルも含んでいる。５１２Ｋ×８のＳＲＡＭがローカルリソース２６０に含まれていて、早期電源投入用およびマイクロプロセッサスタックスペース用のスクラッチパッドＲＡＭとして使用される。１２８Ｋ×８のＮＯＶＲＡＭ／ＲＴＣも設けられており、重要な情報を不揮発性記憶装置に格納するための特別な領域を与え、システムにリアルタイムのクロックを与える。ローカルリソース２６０は三つの必要なＵＡＲＴポートを実施するためのＤＵＡＲＴをシステムに与える。四番目のＵＡＲＴポートはループバック回路の一部としても使用されて、ＪＰが主システムコンソールで何が駆動されているかを監視することを可能とする。さらに、ローカルリソース部分２６０はすべての基板実装ＡＳＩＣ、電源、ブロワ、ＳＥＥＰＲＯＭおよびＳＹＳＩＤＰＲＯＭのＪＴＡＧベースの走査を行うための論理３０４も備えている。この論理は外部テスタを使用した製造テスト中、あるいはマザーボード２０２上のマイクロコントローラ３００を使用した正規の動作／電源投入中のいずれかにおいてシステムを走査できるようにするためにおかれている。この論理により、故障している可能性のある構成要素（たとえば、ＦＲＵ）を検出し、分離するための電源投入時システムテストの一部として簡単な境界走査テストを使用することが可能となる。さらに、リソースバス上のＭＡＣＨを外部コネクタからのそのＪＴＡＧインタフェースを使用してプログラムすることができる。また、マイクロコントローラを外部コネクタとともに使用して、リソースバス上のＥＥＰＲＯＭをプログラムすることができる。これにより、組立て中に実装される部品の「バーン済み」のものを在庫しておくのではなく、製造時に基板にブランクのＭＡＣＨとＥＥＰＲＯＭを組み付けてから、テスト手順の一部としてこれらを「バーン」することが可能となる。この「回路内プログラム可能性」機能もＥＣＯ活動に関する更新を、古い部品を取り外してから、新しい部品を代りに実装するのではなく、プログラミングコネクタを差し込み、部品を再プログラムするという簡単なものとする。再度第２図を参照すると、コンピュータシステム２００はマザーボード２０２の各対に対する三つの電源２１０ａ−ｃのグループ、システムを冷却する三個のブロワ２１２、およびシステムＩＤＳＥＥＰＲＯＭ２０４も含んでいる。八枚のマザーボード２０２がある場合には、合計十二の電源がある。各グループ内の三つの電源２１０ａ−ｃはマザーボードの対に対するＮ＋１の冗長電源を表している。また、三個のブロワ２１２はシステム２００に対するＮ＋１個のブロワを表している。各グループに対する電源２１０ａ−ｃもマザーボードの対応する対の各マザーボード２０２に相互接続されている。このようにして、また以下で説明するように、各マザーボード２０２はマザーボードのこの対に対する電源の動作可能性状態を確認する（たとえば、走査、診断する）機能を有している。ブロワ２１２もバックプレートのスロット０および１のマザーボード２０２に相互接続されている。このようにして、また以下で説明するように、これらのスロットのマザーボード２０２はブロワ２１２の動作可能性状態を確認する（たとえば、走査、診断する）機能を有している。システムＩＤＳＥＥＰＲＯＭ２０４は製造番号やバックパネル構成などの重要なシステム情報を格納するための不揮発性部分を備えている。システムＩＤＳＥＥＰＲＯＭ２０４が本当の意味のＪＴＡＧインタフェースを持っていないため、ＩＥＥＥ１１４９．１走査チェーンへ直接接続することができない（以下の検討参照）。それ故、バッファを使用して、二つのシリアルプロトコルの間にインタフェースを提供する。第４図を参照すると、ＪＰプロセッサドータボード２５０の例示的なブロック図が示されている。各ＪＰドータボードは二つの５０ＭＨｚのモトローラ８８１１０中央演算処理装置ないしＪＰプロセッサ（ＪＰ）４００ａ、ｂを含んでおり、各ＪＰはこれに関連付けられたレベル２キャッシュとしての１ＭＢのスタティックランダムアクセスメモリ（ＳＲＡＭ）４０２ａ、ｂと８８４１０キャッシュコントローラ（ＳＬＣＣ）４０４ａ、ｂを有している。各ドータボード２５０には、１６ＭＢのダイナミックランダムアクセスメモリ（ＤＲＡＭ）、第三レベルのキャッシュ（ＴＬＣ）４０６およびＴＬＣを制御する第三レベルのキャッシュコントローラ（ＴＬＣＣ）ＡＳＩＣ４０８も実装されている。第三レベルキャッシュ４０８は両方のＪＰ４００ａ、ｂによって共用されている。ＤＲＡＭはＥＣＣによって保護されており、このＥＣＣはＴＬＣＣＡＳＩＣ４０８の制御下にある二つのＥＤｉｉＡＣＡＳＩＣ４１０によって生成され、チェックされる。第三レベルキャッシュ４０６のキャッシュタグはＳＲＡＭ４１２に格納されている。各ＪＰドータボード２５０はキャッシュインタフェース（ＣＩ）ＡＳＩＣ４１４も含んでいる。ＣＩＡＳＩＣ４１４の主な機能はマザーボード２０２上のパケット交換ローカルバスプロトコルとＪＰドータボード２５０上の８８４１０キャッシュコントローラバスプロトコルとの間の変換／シーケンサとして働くことである。クロックとリセットを除く、すべてのオフＪＰドータホード通信はマザーボードレベルのバスの一部であり、ＣＩはＣＩＢＵＳに直結される。二つのＥＤiiＡＣＡＳＩＣ４１０は六つのＡＢＴ１６２６０ラッチング２：１マルチプレクサ４１６を介してドータボードレベルのバスに相互接続されている。多重化のために、３２ビットのＳＡバスおよび３２ビットのＳＤバスが四つのＬＶＴ１６２２４５バスクロスオーバ４１８によってＳＡＤバスへ多重化されている。各ドータボード２５０は基板番号、製造番号および改訂履歴などの重要なドータボード情報を格納するための不揮発性部分を備えているＳＥＥＰＲＯＭ４２０を含んでいる。ＳＥＥＰＲＯＭ４２０が本当の意味でのＪＴＡＧインタフェースを持っていないため、バッファ４２２を使用して、二つのシリアルプロトコールの間のインタフェースを提供する。上述のＡＳＩＣの各々は、第５図に示すように位相ロックループ（ＰＬＬ）ベースの「ゲート式」バランスクロックツリー（ＢＣＴ）設計を使用している。ＡＳＩＣのクロック制御は各基板実装ＡＳＩＣのテストアクセスポート（ＴＡＰ）モジュールとＡＳＩＣクロック／リセット（ＣＬＫＲＳＴ）モジュール６０２によって処理される。ＢＣＴ回路／論理６００はクロックトランク６０４を含んでおり、これは複数のブランチを有している。これらのうち一つを除くすべてがゲート式ブランチ６０６であり、これはＣＬＫＲＳＴモジュールからのイネーブル機能ＡＳＩＣＣＬＫＥＮによって制御されるＡＮＤゲート６０８を含む。第６図はＡＳＩＣ階層（Ｇ１０００レベル）でのＢＣＴの接続方法を示す。無制御ブランチ６１０はクロックツリーの「自由動作」脚であり、クロックデスキュー用のＰＬＬ６１２に対する遅延クロック入力をもたらす。ＰＬＬ６１２へ入力されるクロックは遅延セル６１４を介して渡されるものであり、この遅延セルはフィードバッククロックを調節して、これらが設定ブランチ長さでの移動時間遅延を表すようにする。遅延セル６１４は最長のブランチおよび最短のブランチに対して期待される移動時間ないしブランチ線長が設定ブランチ長さ／時間に対する許容範囲内にあるように構成／設定されるのが好ましい。それ故、ＰＬＬフィードバックパスは常に活動状態であるから、ＰＬＬ６１２はＡＳＩＣの基準クロック入力ＣＬＫとの同期を維持することができる。無制御ブランチはＬＯＯＰＢＡＣＫＣＬＫ６１６を、テストクロック（ＴＣＫ）の同期に使用されるクロックリセット（ＣＬＫＲＳＴ）モジュール６０２へ給送することも行う。第７図に示すようなＰＬＬモジュールは、上述のＢＣＴＡＳＩＣ設計を使用しているすべてのシステムＡＳＩＣに対する共通モジュールである。ＡＴＥＴＥＳＴ入力を使用して、ＶＣＯ論理に対するテストモジュールを制御する。ＥＮ、ＴＳＴＮおよびＩＤＤＴＮ信号をパッケージ製造テスト中にＡＳＩＣピンレベルで制御して、すべてのＰＬＬベースＡＳＩＣがこれらのピンを個別に備えているか、あるいはこのピンを他の入力ピンと強要するかするようにする必要がある。これはピン数を節減する。ＡＴＥＴＥＳＴ入力ピンはこれらの信号の共用ピンのピンレベルでの制御を可能とするために使用される。たとえば、Ｐ１はＥＮ機能をＰＩＯＲＤＥＲＥＤＯＰ入力と共用し、ＩＤＤＴＮ機能をＰＩＭＥＤＣＵＳＴＯＭＥＲ入力と共用している。ＡＳＩＣクロック／リセット（ＣＬＫＲＳＴ）モジュール６０２はＡＳＩＣ内部リセットおよびクロック信号、ならびにＡＳＩＣ設計内のＦ／Ｆにある種のクロックパルスだけを見せるようにするイネーブル機能（ＡＳＩＣＣＬＫＥＮ）を生成する。第８図に、ＡＳＩＣ内部リセットおよびクロック生成用の回路／論理のブロック図を示す。各ＡＳＩＣ用のＣＬＫＲＳＴモジュール６０２は三つのモード、すなわち正規モード、走査モードおよびリセットモードのうちの一つで動作する。これら三つのモードの一つになっていない場合、ＣＬＫＲＳＴモジュールは一般に、ゲート式ブランチ６０６内のＦ／Ｆにクロックが到達するのをマスクすなわちブロックするように作用する。正規モードにおいて、ＣＬＫＲＳＴモジュール６０２はＡＳＩＣＣＬＫＥＮイネーブル機能を継続的に生成する。それ故、ＢＣＴのゲート式ブランチ６０６におけるＡＮＤゲート６０８はクロックがこれを通過するように構成される。ＦＡＴＡＬＩＮＮがコンピュータシステム２００によってアサートされた場合には、ＭＣＡＳＩＣ２７６（第３図）を除くすべての基板実装ＡＳＩＣに対するゲート６０８は、クロックをブロックないしマスクするように再構成される。本質的に、ＡＳＩＣがＦＡＴＡＬＩＮＮのアサートを受けるまでは、ＡＳＩＣＣＬＫは自由動作をする。走査モードまたはリセットモードになるまで、クロックはブロック／マスクされたままである。走査モードにおいて、ＪＴＡＧＴＡＰはＡＳＩＣクロックを制御する。ＡＳＩＣＣＬＫは８０ナノ秒（ｎｓｅｃ）ごとに、ＴＣＫＥＮイネーブル信号がＴＡＰによってアサートされた場合にだけ、パルスを発生することができる。走査モードはリセットモードまたは正規モードをオーバライドする。リセットモード時にも、ＡＳＩＣＣＬＫは８０ｎｓｅｃごとにパルスを発生することができる。これにより基板実装ＡＳＩＣを同期させ、同時にリセットすることが可能となる。リセットモードは正規モードをオーバライドする。ＣＬＫＲＳＴモジュール６０２に対するリセットまたは走査入力のいずれかがアサートされた場合、クロックは一般に正規システムクロック（ＳＹＳＣＬＫ）、たとえば５０ＭＨｚのクロックからテストクロック（ＴＣＫ）、たとえば１２．５ＭＨｚのクロックへ切り替えられる。しかしながら、ＭＣＡＳＩＣ２７６に対しては、ＣＯＬＤＲＥＳＥＴＮだけがクロックを切り替え、ＷＡＲＭＲＥＳＥＴＮがＴＣＫモードに登録され、一回の２０ｎｓｅｃのサイクルですべてのフロップに対して設定が行われることが期待される。外部リセットがアサートされるＴＣＫサイクルの終了時に、ＡＳＩＣＣＬＫがＳＹＳＣＬＫからＴＣＫに切り替わるように、クロックイネーブルが生成される。内部リセット信号は外部リセットのアサート後二つのＴＣＫサイクルが行われるまで、アサートを行わない。外部リセットがアサート解除されると、その後内部リセットは二つのＴＣＫサイクルをアサート解除する。ＴＣＫＥＮは走査機能に使用される。これをアサートして、ＴＣＫをクロックゲート論理へ渡さなければならない。ＴＣＫＥＮはＴＡＰコントローラで生成される。それ故、内部フリップ／フロップ（Ｆ／Ｆ）クロックに影響を及ぼす、クロック動作の三つの基本モードがある。最初のモードは論理Ｆ／ＦクロックのすべてがＣＭＰＬＬモジュール内のオンチップ電圧制御発振器（ＶＣＯ）を使用して、ＣＬＫ／ＣＬＫＮ入力クロックと同期させられた場合である。第二のモードはＸＦＡＴＡＬＩＮＮ入力ピンによって検出されたエラーの検出時に内部Ｆ／Ｆクロックが停止した場合である。これはＭＣＡＳＩＣ２７５（第３図）以外のすべての基板実装ＡＳＩＣに対して行われる。最後のモードは特定のＴＡＰ命令がＴＡＰ命令レジスタにロードされ、ＴＡＰコントローラが「ＤＲ取得」および「ＤＲシフト」ＴＡＰ状態のときに、内部Ｆ／ＦクロックがＴＣＫ入力ピンと同位相でクロックされることとなる場合である。この最後の動作モードはＡＳＩＣ状態を走査初期化または走査ダンプするのに使用される。要約すると、クロックツリーの「自由動作」脚によって、システムクロックを動作させたまま、致命エラーの検出時に内部Ｆ／Ｆクロックを停止でき、かつＰＬＬをＡＳＩＣの基準クロック入力ＣＬＫとの同期状態に維持しておくことができる。それ故、ＡＳＩＣがその状態に関して走査ダンプされている場合、ＡＳＩＣのクロックはコンピュータシステムのクロックと同期していることになる。これはこのようなクロック停止／再起動がＰＬＬの再同期を取り、したがってＡＳＩＣ状態の走査ダンプを防止することを必要とする知られているＢＣＴの設計とは対照的なものである。このような設計はシステムクロックがコンピュータシステムの他の構成要素（たとえば、マイクロコントローラ３００（第３図））、特に以下で説明するように致命エラーの受信後にコンピュータシステムを走査診断するために使用される構成要素へクロック信号を与えつづけることを可能とする。上述したように、ＭＣＡＳＩＣ２７６（第３図）の内部Ｆ／ＦはＸＦＡＴＡＬＩＮＮ入力によって停止されない。これは内部Ｆ／Ｆクロックを停止することによってマザーボード２０２に格納されるメモリイメージ（すなわち、メモリリフレッシュとのインタフェース）が破壊されるからである。メモリイメージはオペレーティングシステム（すなわち、ＤＧ／ＵＸ）のデバッグに必要とされるコアをダンプできるように維持される。ＭＣＡＳＩＣ２７６は内部Ｆ／Ｆクロックを実験室でのデバッグのために停止できるモードをサポートしている。システム内部での致命エラーの検出を表すＸＦＡＴＡＬＩＮＮの受信時に、ＭＣＡＳＩＣ２７６は現行の動作を打ち切り、メモリ（すなわち、ＤＲＡＭ／ＳＩＭＭ）のリフレッシュを除いてアイドル状態を維持する。ＭＣＡＳＩＣの入力および出力待ち行列はクリアされ、若干の内部状態機械がアイドル状態にリセットされる。ＭＣＡＳＩＣはウォームリセットを受け取るまでバス活動に対して応答しない。ウォームリセット後、ＭＣＡＳＩＣの制御スペースレジスタを読み取って、致命エラーが検出されたときにセーブされたエラー情報を取得することができる。ＭＣＡＳＩＣ２７６を走査して、致命エラーに関する情報を収集することができないため、致命エラーが生じたときに現行状態のあるもののコピーをシャドウレジスタにフリーズする。シャドウレジスタはコピーに過ぎず、これらをフリーズすることが正規のＡＳＩＣの挙動に影響を及ぼすものではない。これらのシャドウレジスタの多くは制御スペースにアクセス可能である。シャドウレジスタ内の情報はウォームリセットの間中有効であり、エラーレジスタが特定の制御スペースの書込みによってクリアされるまで、変化することがない。マザーボード２０２およびドータボード２５０ａ、ｂ上の他のＡＳＩＣも内部の若干の状態情報をフリーズコピーするためシャドウレジスタを含んでいる。致命エラーがＭＣＡＳＩＣ２７６で発生した場合、ＭＣＡＳＩＣは現在実行中の動作に関係する内部状態のシャドウコピーをただちにフリーズする。これにより、状態を取得してから、シャドウレジスタのいくつかのレベルを使用せずに先へ進むことが可能となる。含んでいる揮発性状態が少ないシャドウレジスタは、ＭＣＡＳＩＣが生成した致命エラーがシステム致命エラーとしてＭＣＡＳＩＣへ送り返されるまでフリーズされない。上述したように、また高いレベルの稼働率を維持するために、本発明のコンピュータシステム２００は冗長システムクロック回路／論理を含んでいる。クロック回路／論理２５６はシステムクロックとテストクロックを生成し、生成されるクロックを監視して、クロック生成および分配回路の障害を特定し、かつ各マザーボード２０２に設けることが好ましい。このような回路と論理が、スペアの製造および在庫を簡素化するために少なくとも各マザーボード２０２に設けられる。特定の実施の形態において、コンピュータシステムクロックとテストクロックはバックプレーンスロット０および１のマザーボードの一方にあるクロック回路／論理２５６に供給される。この構成において、スロット０のマザーボード上の回路／論理は通常、システムクロックとテストクロックを供給し、スロット１のマザーボード上の回路／論理はバックアップクロック源となる。第９図から第１０図には、システムクロックとテストクロックを生成し、しかも生成されるクロックを監視して、障害を検出するクロック回路／論理が示されている。これらのクロックをマザーボード２０２およびそのＪＰドータボード２５０ａ、ｂに分配する態様を第１１図に示す。クロック回路／論理２５６は二つの発振器を含んでいる。一次発振器５００は正規のクロックであり、特定の実施の形態においては、１００ＭＨｚの水晶である。他方の発振器、すなわちマージン発振器５０２は５％早いマージン機構を備えており、特定の実施の形態においては、１０５ＭＨｚの水晶である。発振器５００、５０２の各々は二分割回路５０４を駆動して、５０％のデューティサイクルのクロック（たとえば、５０ＭＨｚおよび５５ＭＨｚのクロック）を生成する。二分割回路５０４の出力は、その出力が正規クロック（たとえば、５０ＭＨｚのクロック）になるように構成されていることが好ましい２：１マルチプレクサ５０６に入力される。ただし、２：１マルチプレクサ５０６はクロックをマージン水晶５０２によって供給することを可能とするものである。２：１マルチプレクサ５０６からのクロック、すなわちシステムクロックはＥ１１１１：９クロックファンアウト回路５０８へ供給される。１：９ファンアウト回路５０８からの出力の一つはＥ４３１四分割回路５１０へ給送され、該四分割回路はテストクロック同期信号を形成するように駆動され、該信号は次いでＥ１１１１：９クロックファンアウト回路５１２へ供給される。システムクロック信号およびテストクロック同期信号は両方ともそれぞれのＥ１１１ファンアウト回路５０８、５１２を駆動して、システムクロック信号およびテストクロック同期信号（バックパネルを横切る）をファンアウトし、すべてのマザーボード２０２へ分配する。すべてのシステムクロックは等しい線長ですべてのマザーボード２０２にファンアウトされ、マザーボードにおいて、他のＥ１１１１：９ファンアウト回路５１４へ送られる。これらのファンアウト回路は次いで基板実装ＡＳＩＣと、ＪＰ、ＳＬＣＣ、ＥＤＡＣ、ＦＰＧＡおよびその他のＴＬＬクロックを必要とする要素を駆動するＴＴＬクロックバッファを駆動する。各ＡＳＩＣにおいて、システムクロックおよびテストクロックはＰＬＬによって自動的にスキュー解除されるので、すべてのＡＳＩＣにおけるクロック遅延が補償される。ＴＴＬクロックバッファはＡＳＩＣと同様、バッファによる遅延ならびにバッファ上のエッチおよび負荷の両方を補償するＰＬＬも有している。同様に、テストクロック同期信号はすべてのマザーボード２０２へファンアウトされる。マザーボード上で生成されたテストクロックはテストクロックを必要とするすべての構成要素へＥ１１１１：９ファンアウト回路５１２およびＨ６４１ＰＥＣＬ−ＴＴＬレベル変換器５１６を介してファンアウトされる。テストクロックは走査およびリセット両方の制御に使用され、また基板のリソース部分を制御するために使用される。システムクロックは各マザーボード２０２上でＰＣＩクロックを生成するためにも使用される。これはシステムクロックを二分割回路５１８へ入力することによって達成される。ＰＣＩクロックは２５ＭＨｚで動作し、ＧＧＡＳＩＣ２８０を含むすべてのＰＣＩバス回路へファンアウトするのが好ましい。ＧＧＡＳＩＣ２８０は２５ＭＨｚのクロックをＡＳＩＣＣＬＫ（システムクロックのＡＳＩＣの内部バージョン）と同期させて、Ｄ入力を内部Ｆ／Ｆへゲートする際に使用する。これはまずＡＳＩＣＣＬＫの後縁でクロックし、次いでＡＳＩＣＣＬＫの前縁でクロックすることによって達成される。クロック回路／論理２５６はクロック障害検出回路２１０も含んでおり、これは一次発振器５００または分配論理からの信号パルスの停止を感知する。検出回路はスタックハイまたはスタックロー状態などの他の障害を感知することもできる。クロック障害検出回路５２０は四つのＥ４３１Ｆ／Ｆ５２２ａ−ｄ、二つのＯＲゲート５２４およびＥ４３１二分割Ｆ／Ｆを含んでいる。マージンクロック（たとえば、５５ＭＨｚ）用のＥ１３１二分割４０４からの出力はＥ４３１二分割Ｆ／Ｆ５２６にクロック入力を与える。Ｅ４３１二分割Ｆ／Ｆ５２６からの出力はＥ４３１Ｆ／Ｆ５２２ａ−ｂのうち二つに対してクロック入力を与える（すなわち、Ｆ／Ｆを設定する）。マザーボードレベルのクロックもこれら二つのＥ４３１Ｆ／Ｆ５２２のリセットに給送される。このようにして、一次発振器５００の障害（たとえば、出力なし）により、Ｆ／Ｆリセットの障害がアサートされる。ＯＲゲート５２４および残っているＥ４３１Ｆ／Ｆ５２２ｃ−ｄはＥ４３１二分割５２６および最初の二つのＥ４３１Ｆ／Ｆ５２２ａ−ｂからの出力に相互接続されて、一次水晶４００からのシステムクロックの生成に障害があった場合に、第三のＥ４３１Ｆ／Ｆ５２２ｃが障害を表す出力をもたらすようになる。第四のＥ４３ＩＦ／Ｆ５２２ｄはバックアップマザーボードのクロック回路／論理２５６、すなわちスロット１マザーボードの強制選択を行うバックパネルへの出力を生成する。バックプレーンのスロット０または１いずれかにあるマザーボードはクロック源を正規クロック源（すなわち、スロット０のマザーボード上の回路）からバックアップクロック源への切替えないし再指定を行うことができる。これはバックパネル上のワイヤすなわちＰＥＣＬＭＵＸＳＥＬＯＵＴワイヤのアサートによって達成される。クロック源はバックアップクロックへ切り替えられ、診断マスタとして指定されたマザーボード上のリソース部分がシステムがＣＯＬＤＲＥＳＥＴＮを通るようにする。バックアップクロックが選択されると、クロック障害検出回路５２０はバックアップクロック回路／論理によってクロック源の監視を継続する。ＰＥＣＬＭＵＸＳＥＬＯＵＴがアサートされている際に障害が特定された場合には、エラーを検出した各マザーボード２０２上のマイクロコントローラ３００は基板ＡＳＩＣのすべてにあるＴＮピンを活動化する。これはＡＳＩＣの出力を三状態化し、長時間のバス競合による部品の損傷をなくする。コンピュータシステム２００にあるマザーボード２０２が一枚だけであり、クロックが故障した場合には、クロック障害検出回路５２０がＴＮピンを活動化させ、これによって基板の構成要素を保護する。マイクロコントローラ３００がクロック源を正規クロックからマージンクロックへ切り替える機能を有しているため、マザーボード２０２をマージン速度でオンラインに戻すことができる。本発明のコンピュータシステム２００はシステムを構成している基板、基板実装チップ、バス、ブロワおよび電源を走査して、アプリケーションのロード前に、システムの完全性および動作可能性を確認することができる。このような走査はシステムに電源が投入された場合、およびシステムが致命エラーを検出した後で行われる。走査動作は障害を自動的に検出し、障害を少なくともＦＲＵに自動的に分離し、システムを自動的に構成解除して、分離された構成要素／ＦＲＵを論理的および機能的に除去することを含んでいる。システムが構成解除された後、システムは自動的にリブートされ、アプリケーションプログラムを再ロードする。このようにして、システムはシステムが障害事象を被った後で、ユーザまたはサービス担当員の介入を必要とすることなく、システムを自動的に回復することができる。基板実装ＡＳＩＣおよび基板は統合ＪＴＡＧＩＥＥＥ１１４９．１テスト論理によって設計されているので、テストパターンを一つの装置へシフトし、論理基板へ駆動し、他の装置で取得することができる。このようにして、基板の相互接続を確認できる。適正な構成要素の選択および適正な装置の挿入を検証する規格も設けられている。コンピュータシステムはＩＥＥＥ規格の境界走査および全走査両方のインプリメンテーションを実施する。第１２図には、コンピュータシステムの一部に対する走査チェーンおよび関連する論理、特にバックプレーンのスロット「０」に配置されているマザーボード２０２に対するものが示されている。他のバックプレーンスロットにあるマザーボードに対する走査チェーンは、そのマザーボードによって走査されるべき構成要素（たとえば、基板／基板レベルの構成要素および電源）に基づいて確立される。走査チェーンは基板および基板実装ＡＳＩＣのテストの基礎として使用される。基板レベルの開口、隣接するピンのブリッジ、適切な構成要素の選択および挿入は１１４９．１境界走査によってテストされる。各マザーボード２０２はリセットの生成、走査ベースの電源投入時相互接続テストおよびＡＳＩＣテストを担うマイクロコントローラ３００を含んでいる。マイクロコントローラ３００はリソースバスをＲＩＡＳＩＣ３０６と共用している。リセットが初めて適用された場合、マイクロコントローラ３００はＲＩＡＳＩＣにリソースバスをオフにさせるＲＩＡＳＩＣ３０６に対して信号をアサートする。マイクロコントローラ３００はバスをテストし、走査ベースのテストにテストバスコントローラ（ＴＢＣ）７００を使用することができる。電源投入時相互接続テストおよびＡＳＩＣの走査ベーステストに引き続き、マイクロコントローラ３００はＲＩＡＳＩＣ３０６に対して制御信号をアサート解除して、ＲＩＡＳＩＣがリソースバスおよびこれに関連する装置に対する正規のシステムアクセスを行うことを可能とする。走査チェーンはコンピュータシステム内のすべての基板および基板実装ＡＳＩＣを特定するために使用される。具体的にいうと、各マザーボード２０２および関連するＪＰドータボード２５０の存在が検出され、基板の製造番号およびシステムＩＤが走査によって読み取られる。また、ＡＳＩＣの部品番号と改訂番号が走査により電源投入時に読み取られる。ＥＥＰＲＯＭおよびＳＥＥＰＲＯＭに対して、バッファが含まれているので、走査プロセス中に情報を抽出することができる。走査チェーンは電源２１０ａ−ｃおよび冷却ブロワ２１２との通信にも使用される。電源状態機能、たとえば電源オン、過剰温度、過剰／不足電圧、および使用不能、ならびに制御機能、たとえば障害マスクおよび使用不能も走査によって実行される。ブロワ状態、たとえば高速、低速、周囲過剰温度、電源オフならびに制御、たとえば障害マスク、スピードアップ、使用不能が走査によって伝えられる。走査インタフェース部分はテストバスコントローラ（ＴＢＣ）７００、すなわちＴＩが市販している在庫品部品番号７４ＡＣＴ８９９０である（ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓの「ＡｄｖａｎｃｅｄＬｏｇｉｃａｎｄＢｕｓＩｎｔｅｒｆａｃｅＬｏｇｉｃＤａｔａｂｏｏｋ」、１９９１年も参照されたい）。ＴＢＣ７００は１１４９．１コントローラとして機能し、パラレルデータがＴＢＣに対して読み書きされ、シリアル１１４９．１データが生成され、受信される。ＴＢＣは各マザーボードのローカルリソース２６０に常駐している。マイクロコントローラ３００はＴＢＣ内部のレジスタを使用して、システム走査動作を実行する。走査動作を実行するために、マイクロコントローラにロードされたＰＲＯＭコードはＴＢＣ７００内部のレジスタにアクセスする。目標基板、目標装置、および実行すべき動作を指定するために、データが伝送される。動作は走査チェーンシフト動作、ループバック動作、および判明した場合の他のものからなる。ＴＢＣ７００はアドレス可能シャドウポート（ＡＳＰ）を使用して、システム内の基板走査チェーンの一つまたは全部を選択し、これと通信する。各ＡＳＰはハードワイヤされたノードアドレス入力信号を有しており、この信号はＡＳＰがそのローカルチェーンに送られたメッセージを区別するのを可能とする。ノードアドレス入力は、マザーボードのバックパネルコネクタにハードワイヤされた「ノードＩＤ」に基づいている。希望する場合には、マスタＴＢＣがシステム内のすべての基板走査チェーンと通信できるようにする「ブロードキャスト」アドレスを使用することができる。ＡＳＰプロトコルの詳細は「ＡＰｒｏｐｏｓｅｄＭｅｔｈｏｄｏｆＡｃｃｅｓｓｉｎｔｈｅ１１４９．１ｉｎａＢａｃｋｐｌａｎｅＥｎｖｉｒｏｎｍｅｎｔ」、ＬｅｅＷｈｅｔｓｅｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｓｔＣｏｎｆｅｒｅｎｃｅ、１９９２年に記載されており、その教示は参照することにより本明細書の一部となる。ＰＡＬである診断バスインタフェース（ＤＢＩ）はＴＢＣをバックパネルＤバス２０８およびＡＳＰとインタフェースさせる。ＤＢＩのジョブは三つの動作モード、すなわちローカルモード、リモートモード、および製造テストモードを可能とすることである。ローカルモードにおいて、ＴＢＣ７００からのデータはローカル走査チェーンへ直接送られ、ローカル走査チェーンからのデータはＴＢＣへ直接送られる。Ｄバス２０６がローカル走査動作によって妨害されることはない。それ故、マザーボードはローカル走査モードにおいて、並列にかつ同時に動作できる。これらの同時走査動作は電源投入時テスト中に行われる。リモートモードにおいて、ＴＢＣ７００からのデータはＤバス２０６へ送出され、Ｄバス上のデータはＴＢＣへ戻される。ローカル走査チェーンはＡＳＰ部分を介してＤバス２０６にも接続されている。これにより、ＴＢＣ７００がそれ自体だけではなく、システム内の任意のマザーボードもアドレス可能となる。ＴＢＣ７００によるＤバス２０６上へのアドレスのブロードキャストが基板のハードワイヤアドレスまたはブロードキャストアドレスと一致した場合、ＡＳＰはローカル走査チェーンをＤバスへ接続する。製造テストモードにおいて、Ｄバス２０６はローカル走査チェーンに直結され、ＴＢＣ７００およびＡＳＰは使用されない。このモードにより、製造部門がテストベクトルをバックパネルＤバス信号を介してローカル走査チェーンへ直接適用することが可能となる。現在の走査動作に関係ないものはバイパスモードとしてもかまわない。マスタマイクロコントローラはＴＢＣ７００およびＤＢＩを使用して、バックパネル診断バスＤバス２０６で通信を行い、また他のマザーボード上のＤＢＩ／ＡＳＰと通信を行う。マスタＴＢＣは「選択」プロトコルを伝送して、選択した基板のスレーブＤＢＩに接続されたＡＳＰをアドレスし、使用可能とする。選択されると、マスタおよびスレーブは「接続」され、マスタＴＢＣは標準ＩＥＥＥ１１４９．１プロトコルを使用して、リモート基板上で走査動作を透過的に実行することができる。Ｄバス２０６は四つの標準ＩＥＥＥ１１４９．１信号（ＴＣＫ、ＴＤＩ、ＴＤＯおよびＴＭＳ）および「診断割込み要求」信号ＤＩＲＱＮからなっている。システム電源投入時に、診断マスタ権を決定するのにＤＩＲＱＮが使用される。正規のシステム動作中に、ＤＩＲＱＮはマスタマイクロコントローラに割込みをかけるために電力システム構成要素によって使用される。いくつかのＩＥＥＥ１１４９．１機構は信号がスタックした場合に、テスト回路が正規のシステム動作を妨害しないようにするのを助ける。論理レベルを選択して、ドライバが破壊された場合に、信号がテストインタフェースを「テスト論理リセット」モードにするレベルへ浮動するようにする。テストインタフェースがリセットされると、テスト論理が開始状態にされる。「Ｄバス駆動」ＬＥＤも各マザーボードに含まれており、ある種のＤバス障害を分離するのを援助する。このＬＥＤは基板のＤＢＩがいずれかのＤバス出力を駆動しているときに点灯する。ＤＩＲＱＮＤバス信号はいくつかの機能を果たす。上述したように、これは電源投入時に診断マスタ権を判定するために使用される。正規のシステム動作中に、ＤＩＲＱＮ信号を電源２１０またはブロワ２１２が使用して、マスタマイクロコントローラの注意を引く。装置は障害状態を検出すると、ＤＩＲＱレジスタビットをセットし、割込みがバックパネルＤバス２０６上のＤＩＲＱＮを駆動することによってマスタマイクロコントローラへ送られる。マスタマイクロコントローラは次いでＤＭのマザーボードおよびＲＩＡＳＩＣ３０６上の正規のマザーボードレベルのバスを介して、ＴＢＣ７００にアクセスしようと試みる。マザーボードレベルのバスが正常に機能している場合には、マスタマイクロコントローラはそのマスタＴＢＣ７００に正常にアクセスすることができる。マスタマイクロコントローラはコンピュータシステム２００内のスレーブＤＢＩの走査を開始して、どの装置がＤＩＲＱＮをアサートしたかを判定する。装置のＤＩＲＱレジスタビットがアサートされたと判明した場合には、これはクリアされ、装置に対するサービスが行われる。ハード障害がマザーボードレベルのバスで生じた場合には、ＤＭはマスタＴＢＣまたはこれもローカルリソース２６０にあるウォッチドッグタイマ（ＷＤＴ）にアクセスできない。この場合、ＤＩＲＱＮは受け入れられないほど長時間Ｄバス２０６上でアサートされたままとなり、コンピュータシステムはハングする。ハードウェアＷＤＴタイマがタイムアウトすると、ＮＭＩ、ウォームリセット、および最後にコールドリセットが正常に呼び出され、ハングが解除される。コールドリセットに関連する電源投入確認テスト中に、ハード障害は分離され、新しい診断マスタを選択することができる。上述したように、高い稼働率を与えるために、コンピュータシステムの電源システムは（Ｎ＋１）冗長構成として設計されている。マザーボードの対が三つの電源２１０ａ−ｃを共用している場合、必要なものは二つだけである。単一のマザーホードは二つの電源を使用しているが、必要なものは一つだけである。各電源は７４ＢＣＴ８３７３走査可能ラッチ部分を特徴としており、これは二枚の関連するマザーボードのうち一枚にあるローカル走査チェーン７０２によってアクセスされる。障害状態をスキャンアウトすることができ、制御コマンドをスキャンインすることができる。電源２１０ａ−ｃを遅延後に使用不能とすることができ、ＤＩＲＱをマスクすることができる。ＰＩバスの電気特性がマザーボードを左から右へ差すことを指示しているため、偶数のスロット番号のマザーボードが、（最大）三つの電源２１０ａ−ｃによって電力が供給される偶数／奇数マザーボード対の、たとえばスロット０に常に存在している。したがって、偶数のスロット番号のマザーボードのローカル走査チェーンが、マザーボード対用の電源との通信に常に使用される。電源との通信に加えて、マスタマイクロコントローラのマザーボード上のローカル走査チェーンが、三つのブロワ２１２およびシステムＩＤバッファとの通信に使用される。システムＩＤはバックパネルのソケットに差し込まれているＳＥＥＰＲＯＭ部分２０４に格納されている。ＳＥＥＰＲＯＭはシステム履歴情報を格納するのにも使用される。コンピュータシステム２００のブロワ２１２も（Ｎ＋１）冗長として構成されている。三つのブロワが設けられているが、必要なものは二つだけである。マスタマイクロコントローラのマザーボードのローカル走査チェーン７０４はコンピュータシステム２００の三つのブロワと通信する。ブロワに設けられている二つの主機能は、ブロワの障害の通知とブロワ速度の調節である。ブロワの障害が発生すると、ブロワインタフェースの回路が障害を検出し、ＩＥＥＥ１１４９．１走査可能レジスタにビットをセットする。回路はブロワの個別のＤＩＲＱレジスタビットもセットし、このビットはバックパネルＤＩＲＱＮ信号をアサートさせる。この場合、これは電源について上述したように、マスタマイクロコントローラによって処理される。ブロワの速度はブロワインタフェース基板上の走査可能レジスタ部分によって調節することができる。特定の実施の形態において、基板実装ＡＳＩＣの設計に関する本発明の走査テストスーツはシナプシステストコンパイラを使用することを含んでいる。コンパイラは六種類の走査方式、すなわち多重化フリップフロップ、クロック式走査、シングルラッチＬＳＳＤ（レベル感応走査設計）、ダブルラッチＬＳＳＤ、クロック式ＬＳＳＤ、および補助クロックＬＳＳＤをサポートしている（その教示が参照することによって、本明細書の一部となる「ＳｃａｎＭｅｔｈｏｄｏｌｏｇｉｅｓ」、ＭａｒｓｈａｌｌＷｏｒｄも参照）。好ましい実施の形態においては、多重化フリップフロップ方式が使用される。多重化フリップフロップが正規のシステムクロックを使用しているため、テストアクセスポート（「ＴＡＰ」）は各ＡＳＩＣ内のシステムクロックイネーブルを制御する。本発明のすべての基板実装ＡＳＩＣはＩＥＥＥ１１４９．１に準拠しており、ＴＡＰならびに関連するピンＴＣＫ、ＴＭＳ、ＴＤＩ、およびＴＤＯを含んでいる。各マザーボード上のすべてのＡＳＩＣおよびその他の１１４９．１構成要素は単一の論理１１４９．１チェーンに組み込まれている。ＴＤＩおよびＴＤＯ信号はある装置から他の装置へカスケードされ、必要な信号ＴＣＫおよびＴＭＳが適宜バッファされる。コンピュータシステムのすべての１１４９．１準拠装置は境界走査レジスタを含んでいる。これは正しい部品が基板に適正に挿入されていることを確認するハードウェア支援手段を提供する。さらに、これはＩ／Ｏドライバ、境界走査セルおよび部品内のボンディングワイヤが適正に機能していること、ならびに部品間の基板のエッチが完全であることを確認する。各基板実装ＡＳＩＣは装置識別レジスタ、たとえばＩＥＥＥ１１４９．１規格の３２ビット「装置識別レジスタ」を含んでいる。各基板実装ＡＳＩＣ用の装置ＩＤレジスタは部品を識別する（たとえば、ＤＧ部品、ＤＧ部品番号の何らかの派生物として）一意のコードおよびＡＳＩＣの改訂番号を含んでいる。基板実装ＡＳＩＣのうち少なくともあるものはＴＡＰによってアクセスされる設計固有のテストデータレジスタ（ＴＤＲ）を含んでいる。基板実装ＡＳＩＣは全走査を行って、ＡＳＩＣ内のすべての論理フリップフロップが走査できるようにするようにも設計されている。この特徴は致命エラー後の機械状態を走査アクセスできること、およびチップテスト時の対象範囲の改善をはじめとするいくつかの利点を提供する。全走査ＴＤＲはＡＳＩＣに埋め込まれている全走査回路にアクセスする。専用ＴＤＲがＡＳＩＣならびにこれが制御している回路（もしあれば）内のハードウェア検出エラーの制御および状況を与える。各ＡＳＩＣのエラー状況ＴＤＲは論理１にアサートされた場合に、ＡＳＩＣが現在そのＦＡＴＡＬＯＵＴＮ信号を駆動していることを示す読み書きビットも有している。外部信号はアクティブロー（論理０）であり、ＯＲＢＡＳＩＣに対して駆動されており、そこで他のＡＳＩＣの致命信号を組み合わされ、システム全体に分配される。エラーマスクＴＤＲはＡＳＩＣが検出した各エラーに対して１ビット、ＦＡＴＡＬＯＵＴＮに対して１ビットを含んでおり、「１」はエラーアウトをマスクする（通常、レジスタにはすべて「０」が書き込まれている）。各ＡＳＩＣのエラーマスクレジスタは各エラーのマスクに対するビット位置がエラー状況レジスタ内のビット位置に対応するように設計されている。エラー強制ＴＤＲはＡＳＩＣが検出した各エラーに対して１ビットを含んでいる。このレジスタの論理「１」はＡＳＩＣにそのタイプのエラーを生成させる（通常、レジスタはすべて「０」を含んでいる）。各エラーに対する状況ビットは読み書き、アクティブハイであり、アサートされた場合に、エラーが検出されていることを示す。したがって、このビットの「０」はエラーが検出されていないことを示し、エラー状況ＴＤＲから「すべてゼロ」を読み出すことはエラーが検出されていないことを示す。以下で、走査チェーンをコンピュータシステム２００のテストに関連して使用する方法を説明する。停電リセットのアサート解除に引き続き、各マザーボード２０２上のマイクロコントローラ３００はリソースバスおよび関連するＤＢＩの制御を引き取り、その後、そのマザーボードに対する走査環境を制御する。まず、マイクロコントローラ３００はリソース部分をテストして、その完全性を確認する。次いで、マイクロコントローラ３００はＴＢＣを使用して走査環境を初期化して、１１４９．１装置内のすべてのＴＡＰコントローラをテスト−論理−リセット状態にする。ＴＭＳを少なくとも５ＴＣＫサイクルの間論理１にする。次に、マイクロコントローラ３００はマザーボード上の相互接続テストを実行し始める。これはオンボードＥＥＰＲＯＭ３０２に格納されているテストベクトルを取り出し、ベクトルをＤＢＩを介して適用することによって行われる。これらのテストの失敗をコンソールメッセージにより、また基板上の障害ＬＥＤを点灯することによって報告することができる。最後に、マイクロコントローラ３００はＴＢＣ７００を介して基板実装ＡＳＩＣにテストベクトルを適用することによってＡＳＩＣテストを実行する。これらのテストベクトルはＥＥＰＲＯＭ３０２にも格納されている。テストのこの段階が完了すると、マイクロコントローラ３００はリソースバスの制御を放棄し、正規のプロセッサ要求がＲＩから入れるようにする。各マザーボード用のマイクロコントローラはＴＡＰコントローラを再度テスト −論理−リセット状態にすることによって、コンピュータシステムのサイジングを開始する。この状態において、ＴＡＰコントローラはＩＤＣＯＤＥ命令（ＩＤＣＯＤＥがサポートされていない場合には、ＢＹＰＡＳＳ）を１１４９．１命令レジスタにロードする。ＩＤＣＯＤＥ命令により、装置ＩＤレジスタが各装置のＴＤＩピンとＴＤＯピンの間に接続される。ＢＹＰＡＳＳは単一ビット（「０」）の「バイパス」レジスタを選択する。装置ＩＤレジスタは長さが３２ビットで、「１」から始まる。これらのビットの定義により、複数の装置からのビットストリームが装置ＩＤに関して分析される。ＴＢＣ７００は走査パスリンカ（ＳＰＬ）装置または走査ブリッジを使用して、対応する任意選択のＴＤＩ／ＴＤＯチェーンをマザーボード２０２用の主ＴＤＩ／ＴＤＯチェーンに多重化する。ＳＰＬ装置は「基板存在」信号に接続できるパラレル入力信号を特徴としている。マイクロコントローラはこれらの信号を読み取り、該当するＪＰドータボード走査チェーンを接続することができる。ＪＰドータボードチェーンが接続されていることを確認するのには、さまざまな方法がある。マイクロコントローラがチェーン上のすべての装置から装置ＩＤレジスタを読み取った場合、ＪＰドータボード上だけに存在していることが分かっている装置が存在しているかどうかを判定したり、あるいは単に走査された装置の数をカウントすることができる。いずれの方法も任意選択の装置が存在していることを判定できる。ハードワイヤ構成要素および任意選択のカード構成要素の配列は任意選択のカードの位置が確実に判定できるように選択される。Ｉ／Ｏドータボード（たとえば、ＰＣＩ拡張カード２８２）をＰＣＩチャネルを装置に対してポーリングすることによって検出できる。マイクロコントローラは次いで、Ｉ／ＯドータボードをＴＤＩ／ＴＤＯチェーンに多重化するべきかどうかを決定できる。各マザーボード２０２はドータボードのオプションを調べ、すべてのＡＳＩＣの改訂を調べることによってそれ自体のサイジングを行う。マイクロコントローラはサイジング情報を簡潔なフォーマットでアクセスが容易なオンボード位置、たとえばローカルリソース２６０のＲＡＭに一時的に格納することができる。ＤＭはこのＲＡＭを後で読み取って、全体的なシステム構成テーブルを構築することができる。マスタマイクロコントローラから離隔したマザーボードが存在しているかどうかを判定するために、マスタマイクロコントローラはＡＳＰ「選択」プロトコルをマザーボードのアドレスに対して伝送する。ＡＳＰ「確認」応答を受信した場合には、遠隔マザーボードが存在しており、マイクロコントローラはそれとの通信を開始することができる。確認応答を受信しなかった場合には、アドレス指定されたマザーボードがシステムに存在しないと考えられる。このアドレスとの以降の通信は試みられない。スロット０／スロット１のＤＢＩを通じてだけ利用できる装置も、マザーボードを任意選択のドータボードに対してサイジングするのと同じ態様でサイジングできる。バックパネルのＳＥＥＰＲＯＭは常に存在していると判断されなければならない。存在していない場合には、切れ目がＳＥＥＰＲＯＭ構成要素の位置にあるチェーンで検出され、ＳＥＥＰＲＯＭには見つからない旨が報告される。各ブロワまたはすべてのブロワはスロット０／スロット１のＤＢＩの任意選択のＴＤＩ／ＴＤＯチェーンの一つに接続される。この時点でのサイジングプロセスは専用診断ハードウェアだけを使用することに留意するのが重要である。ＰＩアレイなどの「正規」のシステム論理はこの段階のサイジングには関与しない。上述したように、コンピュータシステム２００は障害を少なくともＦＲＵに分離してから、ＦＲＵをシステムから構成解除、すなわち機能的論理的に除去するように設計されている。論理の一部を構成解除するには、１１４９．１任意選択ＨＩＧＨＺ命令を呼び出し、また、使用されている場合には、この命令はすべての出力を高インピーダンス状態にする。あらゆる基板実装ＡＳＩＣがこの命令を実施しているため、動的に再構成可能なユニット（「ＤＲＵ」）の細分性が達成される。ＪＰドータボード２５０を構成解除するには、ＣＩＡＳＩＣ４１４およびこれに実装されているＴＬＣＣＡＳＩＣ４０８をＨＩＧＨＺモードにする。あるいは、ＪＰ２５０をＣＩ４１４内の制御レジスタによってリセットしてもよい。マザーボード２０２を構成解除するには、すべてのＰＩＡＳＩＣをＨＩＧＨＺモードにする。マザーボードがその上にＩ／Ｏ装置も有しているため、Ｉ／ＯバスをＧＧＡＳＩＣ２８０内の制御レジスタによって使用不能とする必要がある。電源投入プロセス中に、基板実装ＡＳＩＣ（たとえば、ＰＩＡＳＩＣ２９０）を走査プロセスによって初期化する。電源投入時テストプロセスの後の段階において、ＩＤおよびメモリ範囲が制御スペース書込みによってＡＳＩＣにロードされる。上述したように、ＥＥＰＲＯＭ３０２はマイクロコントローラ３００およびＪＰ２５０、特に診断マスタとして指定されたＪＰおよびマスタマイクロコントローラとして指定されたマイクロコントローラに対するファームウェアを含んでいる。マイクロコントローラ用のファームウェアは電源投入時テスト、走査テスト、エラー処理、実行時のシステムスニッフィング、システム致命エラーが生じたときのエラー状態走査を含んでいる。ＪＰファームウェアは電源投入時テスト、ＸＤＩＡＧテスト、製造モードテスト、およびエラー処理を含んでいる。マイクロコントローラ３００はファームウェア診断に使用されるコンピュータシステム２００のハードウェアの最初の部分である。これはコールドリセットから始まり、それ自体およびリソースをテストすることができるのに対し、システムの他の部分はウォームリセットに維持されている。システム内のすべての走査可能構成要素についてＪＴＡＧ境界走査を開始し、内部走査状態も初期化する。分離可能性を高い水準に維持するため、システムのすべての他の部分を個別の態様でリセットさせることを担う。基板ごとの電源投入時テストを監視し、ウォッチドッグタイマ（ＷＤＴ）機構を制御し、ＥＥＰＲＯＭのフラッシングを処理する。実行時に、オペレーティングシステムが起動すると、マイクロコントローラ３００はスニッフィングタスクを行って、システムの動作が依然適正に機能していることを確認する。マイクロコントローラ３００によって行われる電源投入時テストの一覧表を、第１３Ａ図および第１３Ｂ図に示す。電源投入時に各マザーボード２００上の各マイクロコントローラ３００によって実行される事象の順序は次のとおりである。各マイクロコントローラ３００はほぼ同時にリセットされている。各マイクロコントローラは次いで、そのオンチップＥＥＰＲＯＭのチェックサムを取り、オンチップＳＲＡＭに対するそのアクセスをテストする。エラーとしてのＩＰが検出され、マイクロコントローラは一般エラー処理機能を実行する。リソースバスＬＥＤを設定して、障害の指示を行わせる試みも行われる。マイクロコントローラは次いで、ＳＴＯＰ命令を実行する。各マイクロコントローラはそのオンチップハードワイヤモジュールを初期化する。そのオンチップＵＡＲＴが初期化されると、コード改訂情報とマイクロコントローラのリセットの原因が、個々の補助コンソールへ出力される。各マイクロコントローラはリソースバスハードウェアの次の部分に対してオンボード診断を実行する。ＴＢＣ７００、ＳＲＡＭ、ＥＥＰＲＯＭ３０２、ＮＯＶＲＡＭ／ＲＴＣ、ＤＵＡＲＴ、ＬＳＭ、ＲＳＭ、Ｐ５５５、ＧＭおよびクロック。基板０のＤＵＡＲＴテストが実行されると、基板０のマイクロコンピュータ３００はメッセージをシステムコンソールへ出力する。スロット１のマイクロコントローラ以外のすべてのマイクロコントローラはそのリソースバステストスィートの初期にＤＵＡＲＴをテストする。スロット１のマイクロコントローラはそのテストスィートの後の段階でＤＵＡＲＴをテストする。このことはスロット０とスロット１がシステムコンソールへの書込みを行い、ＤＵＡＲＴをフィードバックするときの外部ループバック衝突を防止する。これらの構成要素のエラーないし障害はマザーボードにとって致命的であるとみなされ、基板の構成解除を生じる。以下で、障害が検出されたときに基板上で生じる構成解除プロセスを説明する。エラーが検出されると同時に、一般エラー処理機能が実行される。エラーコードが補助コンソールへ出力され、障害を示すためにリソースバスＬＥＤを設定する試みがなされる。障害情報（エラーコード、テスト／サブテスト、スロット、およびＦＲＵ／サブＦＲＵ）をＮＯＶＲＡＭエラーログに書き込む試みがなされる。システムがコールドリセットに保持されており、かつ走査テスト／初期化が実行されていないため、この情報にシステムＪＰがアクセスすることはできない。メッセージがオンボードの走査可能なメールボックスにおかれて、エラーを受け取ったマスタマイクロコントローラを通知する。このメッセージの内容は致命マザーボード構成解除エラーが生じたことを述べているだけのものである。メールボックスへの書込みの試みが失敗した場合には、デフォルトのマスタマイクロコントローラ、すなわちスロット０のマイクロコントローラがすべての人のスキャンボックスを結局ポーリングするのであるから、このことも有効な情報である。マザーボードに壊滅的な障害が生じたことを示すのに十分なＲＥＳＥＴ状況を、違反したマザーボードのメールボックスで見つけ出す。現行のデフォルトマスタマイクロコントローラでエラーが生じた場合には、同じステップが行われる。結局、走査メッセージもＤＵＡＲＴループバックトラフィックも受信せずに二次マスタマイクロコントローラがタイムアウトし、システムに関するマスタ権を引き継ぐ。最後に、マイクロコントローラはＳＴＯＰ命令を実行し、この状態の間、マザーボードはコールドリセットに保持される。ＳＴＯＰ命令を実行させるのではなく、マイクロコントローラをアイドルループに保持する試みがなされる。このようにして、ＮＯＶＲＡＭエラーログを電源投入プロセスの後の段階で、診断マスタＪＰによって潜在的に読み取ることができる。コールドリセットはシステムおよび各スロットについてアサート解除され、各マイクロコントローラはスロット内サイジング情報を判定し、かつインスロット走査テストを実行する。この時点で、三つのＮＯＶＲＡＭテーブルの最初のもの、すなわち各マザーボードの物理的ハードウェアを記述したテーブルが構築される。インスロットサイジングは電源およびブロワに対するＳＢ１およびＳＢ２走査ブリッジをバイパスするが、これはこれらがオフボード走査テスト中にマスタマイクロコントローラによってテストされるからである。インスロット走査テスト中にエラーが検出された場合には、下記を除いて構成解除するために、上記で概説したステップにしたがう。走査テストはオンボードマイクロコントローラ診断テストと異なり、失敗した場合に、マザーボードの構成解除を必要としない。たとえば、いずれかのドータボード個有テストが失敗した場合、そのドータボードだけを構成解除することが必要である。しかしながら、いずれかのマザーボード個有テストが失敗した場合には、そのマザーボードが構成解除される。マザーボード／ドータボード相互接続テストが失敗した場合には、ドータボードまたはマザーボード全体のいずれかが、テストによって与えられている分離の程度に応じて構成解除される。走査テスト（たとえば、ＴＡＰＩＴ中のＪＰ₀ドータボードの）中にＦＲＵが不良であると判定された場合には、これがただちに構成解除され、したがって、走査テストの他の部分についてはバイパスされる。すべての個有エラー情報、ならびにオンボードサイジング情報は各マザーボードのＮＯＶＲＡＭにローカルに維持される。オンボード走査テストが完了するか、マザーボードが走査テスト中にいずれかの点で不良であると判定された場合には、メッセージが走査可能なメールボックスに入れられて、走査テストの結果に関してマスタマイクロコントローラに通知される。このメッセージの内容は致命マザーボード構成解除エラーが生じたこと、あるいはマザーボードがテストに合格したことを述べているだけのものである。合否メッセージはデフォルトのマスタマイクロコントローラの位置であるスロット０のマザーボード用のマイクロコントローラのメール／スキャンボックスにも入れられる。スロット０のマザーボードの障害の場合には、スロット１のマザーボードが結局タイムアウトし、マスタ権を引き受け、スロット０のマザーボードのスキャンボックス情報へのアクセス権を取得する。マイクロコントローラはＤＩＲＱＮをアサート解除して、マスタマイクロコントローラとの同期を取り、それぞれの走査可能なメールボックスからの他のコマンドを待つ。マスタマイクロコントローラが次いで選択される。このようなマスタの目的は一つのマスタコントローラだけがシステムサイジング情報を収集し、アウトオブスロット走査テストを実行できるようにすることである。さらに、マイクロコントローラは以前のテスト障害のため、ならびにスロットハードウェア構成の違いのため同期しなくなる。システム内のすべてのマイクロコントローラを同期させるのは、マスタマイクロコントローラの仕事である。スロット１のマザーボード土のマイクロコントローラがマスタマイクロコントローラとして選択された場合、この時点以降、マスタマイクロコントローラはデフォルトのものではなくなる。マスタマイクロコントローラは他のマザーボード上のマイクロコントローラがインスロット走査テストを完了するのを待つ。これはすべてのマイクロコントローラに走査動作の開始前に、まずＤＩＲＱＮをローにさせることによって達成される。各マイクロコントローラは走査テストを完了すると、それぞれのＤＩＲＱＮを個別にハイにする。マスタマイクロコントローラはそれ自体のテストを完了すると、ＤＩＲＱＮラインを監視し、ＤＩＲＱＮラインがハイになると、すべての走査テストが完了したことがわかる。すべてのマイクロコントローラはこの時点で同期していなければならない。マスタマイクロコントローラは次いでコンピュータシステムのサイジングを行って、どの基板が存在しているのかを判定する。サイジングの一部として、各マイクロコントローラの走査可能なメールボックスをマスタマイクロコントローラによってポーリングして、リソースバスまたはオンボード走査の障害があったかどうかを判定する。マスタマイクロコントローラ権が移された場合には、メイルボックスの内容はそのまま残され、待機している要求は確認されないまま残され、これらのステップを繰り返さなければならない。メイルボックスの情報は各基板に対する障害を生じたマザーボードの状況を示すか、あるいは移転の指示を示す。スキャンボックスに指示（すなわち、リセット値）が存在しない場合には、マザーボードに障害があると想定する。障害が存在している場合には、関連するマザーボードがオフボード走査テストから除外される。この時点で、ＳＥＥＰＲＯＭシステムバックパネルＩＤテストが行われ、ＳＥＥＰＲＯＭからのデータを使用して、マスタマイクロコントローラは三つのＮＯＶＲＡＭテーブルのうち第二のものを構築する。このテーブルは前回システムに電源を投入したときのシステムハードウェアが何であったかを示すＳＥＥＰＲＯＭサイジング情報を含んでいる。ミッドプレーンＳＥＥＰＲＯＭは「診断マスタ」ＪＰが選択されるまで、新しい構成データによって更新されない。マスタマイクロコントローラは電源テスト、ブロワテスト、およびバックパネル相互接続テストを含む、残りのオフボード走査テストを実行する。以前のテストの結果として構成解除されたマザーボードはバックパネル相互接続テストには含められない。オフボード走査テストが成功した場合には、その旨のメッセージがスロット１のマザーボードのメールボックスに入れられる。ここでアイドルループに入っているスロット１のマザーボードのマイクロコントローラはフィードバックＤＵＡＲＴを介してシステムコンソールへ送られた特別な印刷不能文字、ならびにこの走査可能なメールボックス内の状況メッセージを定期的に調べる。このＤＵＡＲＴ文字は走査メッセージが送られるのと同時に、すなわちオフボード走査テストが完了した直後に、スロット０のマザーボードによって発行される。マスタマイクロコントローラがスロット１のマザーボードである場合、上述のメッセージバッファおよびＤＵＡＲＴ検査は実行されない。オフボード走査テストがスロット０のマザーボードに起因する態様、または分離できない態様で失敗し、現行のマスタがスロット０のマザーボードである場合、マイクロコントローラのマスタ権が走査可能なメールボックスを介してスロット１のマザーボードへ渡される。これは二つの事例の第一のものであって、タイムアウト機構を省いて、マスタ権がスロット０のマザーボードによって直接渡される。オフボード走査テストが他のマザーボードに起因する態様で失敗し、現行のマスタが基板０である場合には、問題を起こしたマザーボードが構成解除され、マスタ権は基板０によって保持される。オフボード走査テストが失敗し、現行のマスタが基板１である場合には、スロット１のマザーボードが必要なステップを取って、障害によって示されるすべての問題を起こしたマザーボードを構成解除する。エラーがスロット１のマザーボードに起因する場合には、致命システムエラーが生じる。上述のいずれかの理由でマスタ権がまだ渡されていないと想定して、ＤＵＡＲＴおよびメッセージ移転プロトコルはスロット０のマザーボードから走査テスト障害を検出する代替手段を提供する。スロット１のマザーボードがいずれかの形態の通信を受け取らず、まだマスタになっていない場合には、指定されたタイムアウト期間後に、マイクロコントローラのマスタ権を引き継ぎ、マスタマイクロコントローラの上述の動作を行う。スロット０のマザーボードが自己オフボード走査テスト障害または非属性オフボード走査テスト傷害を受けた場合には、エラーがそのＮＯＶＲＡＭにログされ、マスタ権が渡される。しかしながら、オフボードテストを行えることを除いて、良品の基板であることが今までのところ判明しているため、マザーボードは構成解除されない。本来また当然、これがシステム走査機能を実行することを担っていない限り、システムの残りの部分に脅威とはならない。スロット１のマザーボードは引継ぎを行った場合に、すべてのオフボードリソースにアクセスするのに何の問題もないことを証明するためだけに、スロット０のマザーボードがどれくらい離れているかに関わりなく、オフボード走査テストをもっとも先頭から開始しなければならない。スロット１のマザーボードがスロット０のマザーボードで問題を検出した場合には、スロット０のマザーボードが構成解除される。問題が見つからなかった場合には、スロット０のマザーボードの問題はそのオフボード走査ハードウェアに起因するものである。テストを継続した場合に他のことが明らかとならない限り、これは良好なシステムボードである。構成解除するために、マスタマイクロコントローラは走査可能なメールボックスを介してコマンドを発行する。構成解除メッセージを受信することにより、問題を起こしたマザーボードはＮＯＶＲＡＭテーブルに保管されている現行の基板状況のローカルコピーを更新する。マスタマイクロコントローラは走査可能なメールボックスを介して、あらゆるマイクロコントローラにシステムおよびスロットの両方に対してウォームリセットをアサート解除するように伝え、ＪＰＳをリセットから解除し始める。すべてのマイクロコントローラはこの時点で同期していなければならない。各マザーボードのマイクロコントローラはＮＯＶＲＡＭテーブルに示されている、開始されようとしているＪＰテストに構成解除されたドータボードとマザーボードとが含まれないようにする。上述したように、走査可能なメールボックスはすべて各マザーボードの合否の指示を依然含んでいる。ローカルＮＯＶＲＡＭが「診断マスタ」によってアクセス不能であり、それ故、障害の少なくとも若干の指示を維持している場合、この情報は維持される。マイクロコントローラは各インスロットＪＰを一つずつリセットから解除する。各ＪＰは基本サニティ診断を含んでいる「一次テスト」のスィートを実行する。マイクロコントローラはインスロットＪＰによって更新されたオンボードＳＲＡＭ位置を読み取ることによって、これらのテストの状況を監視する。このようにして、マイクロコントローラはテストの完了、失敗およびハングを認識することができる。各マイクロコントローラはインスロットＪＰ（その「一次テスト」を正常に完了した）を選択して、「二次テスト」スィートを実行する。このテストスィートはメモリおよびＩ／Ｏ初期化／テストという時間のかかる動作を含んでいる。しかしながら、このようなテストを並列に、すなわちマザーボードを横切って行えるようにすることにより、全体的な電源投入時間の短縮が援助される。一次テストの場合と同様にして、各マイクロコントローラはテスト完了、障害およびハングを含んでいる。二次テストは少なくとも一つのすべての広範囲のテストを渡すか、すべてのインスロットＪＰが使い切られるまで、二次テストが実行される。各マイクロコントローラは次いで、「ボードスレーブ」および「ボードマスタ」メッセージを、該当するインスロットＪＰに送る。マスタマイクロコントローラは上述したＤＩＲＱＮ機構を介して、すべてのＪＰの「二次テスト」の完了を待機する。マスタマイクロコントローラは次いで、その基板マスタＪＰに「三次テスト」を実行するよう伝える。このテストの最初の部分はマスタがＲＩ／リソースバスパスを介して、各非構成解除マザーボードのＮＯＶＲＡＭから広範囲の構成情報を読み取った場合に開始される。この情報はマスタが三次テストを行うのに必要とされる。このテストスィートはすべてのＪＰおよびメモリの診断を含んでいる。テストが成功した場合、「診断マスタ」メッセージがこの基板マスタＪＰへ送られる。スロット０のマザーボードで三次テストが失敗した場合には、エラーがＮＯＶＲＡＭにマークされ、システムはデフォルトマスタとしてのスロット１のマザーボードのマイクロコントローラだけを使用して再び電源投入を試みる。スロット１のマザーボードも三次テストに失敗した場合には、致命システムエラーが生じる。いずれかのマスタが三次テスト中に他のマザーボードで問題を検出した場合には、これらの障害を起こしたマザーボードが構成解除される。「診断マスタ」が最終的に選択されると、その関連するマザーボードがグローバルリソースボードとしてマップされる。診断マスタを選択する全プロセス中に、すべての障害を起こしたテストとその結果生じたマザーボード／ドータボードの構成解除は各基板ＮＯＶＲＡＭエラーログおよびＮＯＶＲＡＭ構成テーブルにログされる。オンボードマイクロコントローラ診断および走査障害について行われたものとまったく同じである。「診断マスタ」選択の完了時に、診断マスタＪＰは各種のＮＯＶＲＡＭをポーリングして、完全なエラーおよび構成解除情報があれば、これを判定する。すべての現行のシステム構成情報はシステムＩＤＳＥＥＰＲＯＭ２０４に書き込まれる。機械開始（ＭＩ）コールアウトをここで発行して、すべての失敗したテストおよび構成解除にフラグをつけ、すべてのスキャンボックスをクリアする。ＮＯＶＲＡＭのこのポーリングはリソースバスのＲＩＡＳＩＣアクセスを介して、診断マスタによって行われる。すでに構成解除されているいずれかのマザーボードに対してこのＲＩパスアクセスが失敗した場合、まだ存在しているスキャンボックス情報を限定された情報源として使用することができる。あるいは、ＮＯＶＲＡＭにアクセスし、障害を起こしたマザーボードのスキャンボックスを介して情報を戻すように、ＤＭが障害を起こしたマザーボードマイクロコントローラに要求することができる。さらに他の態様においては、基板を構成解除する直前に、エラーおよび構成解除情報をローカルマザーボードＳＥＥＰＲＯＭにコピーする。そこから、マスタマイクロコントローラはオフボード走査を介して、情報にアクセスすることができる。最後に、各マイクロコントローラはその「アイドルループ」に入る。ループ内で、マイクロコントローラは定期的にオンボードＳＲＡＭを読み取って、システムＪＰからの（グローバルまたはローカルな）要求を処理する。さらに、ウォッチドッグ処理、基板スニッフィング、および実行ＬＥＤ点滅をこのループ内で定期的に実行する。各ＪＰがリセットから抜ける時までに、各基板上のマイクロコントローラがそのローカルリソース２６０（たとえば、ＮＯＶＲＡＭ、ＥＥＰＲＯＭ、ＳＲＡＭなど）、ブロワ、および電源にあるあらゆる物をテストしているものと想定する。また、マザーボードも走査テストされている。上記のテストに何らかの障害がある場合には、マイクロコントローラはマザーボードが適正に機能するのに最小限の要件を満たしていることを確認するための処置を取る。それ以外の場合には、そのマザーボードに対するＪＰはいずれもリセットから解除されず、マザーボードはリセット状態に戻される。さらに、ＪＰは電源投入時にブロワおよび電源の障害を調べない。ＪＰＰＲＯＭ電源投入シーケンスは三つの段階に分割されている。各ステップの実行時に、各ＪＰはその基板上のマイクロコントローラへメッセージを送り、ＮＯＶＲＡＭでテストされようとしているＦＲＵまたはＤＲＵを書き込む。エラーコードもＮＯＶＲＡＭに書き込まれるので、障害／ハングが生じた場合に、システムは問題がどこにあるかを知り、ＭＩコールアウトを行うための情報を有する。テストが失敗した場合、マイクロコントローラはＪＰからエラーメッセージを取得し、またハングの場合には、マイクロコントローラはタイムアウトする。第１４図から第１６図には、ＪＰおよびＤＭＪＰによって行われる電源投入時テストの一覧表が挙げられている。各基板上のＪＰはＪＰ₀、ＪＰ₁、ＪＰ₂、およびＪＰ₃の順でリセットから解除される。次のステップの各々に対して、各ＪＰにより三つの処置が行われる。１）マイクロコントローラに次にどのテストを実行するかを知らせる。２）テストに関与するＦＲＵの名前およびエラーコードをＮＯＶＲＡＭに書き込む。３）テストを実行する。各段階の完了時に、ＪＰはマイクロコントローラからの、次に何をするか、すなわち次の段階へ進むのか、アイドル状態のままでいるのかの命令を待つ。一次段階テストの場合、マイクロコントローラはそのマザーボード上の各ＪＰを一つずつリセット状態から取り出す。一次段階では、次のテストが行われる。 −ＪＰが自己テストを実行して、適正に機能していることを確認する。 −ＪＰがＰＲＯＭアクセステストを実行して、ＰＲＯＭに適正にアクセスできることを確認する。 −ＪＰがローカルＳＲＡＭアクセスをテストする。 −ＪＰがＮＯＶＲＡＭアクセスをテストする。 −ＪＰがＳＲＡＭ内のスタック、ＳＣＭ、ＦＥ、およびスパッドを初期化する。 −ＪＰが障害をドータボードに分離するテスト（すなわち、８８１１０／８８４１０キャッシュ、ＣＩ、ＴＬＣＣ、ＥＤＡＣテスト）を実行する。これらのテストの中には、リセット状態でない複数のＪＰがある場合に、ＪＰ間の対話をテストできるが、それでもドータボードへ分離するように戻るものもある。 −ＪＰがそれ自体からの読み書きのためにバックドア方法を使用することを含む、ＲＩレジスタアクセス（読み書き）テストを実行する。 −ＪＰがＰＩレジスタアクセス（読み書き）テストを実行する。 −ＪＰがＧＧレジスタアクセス（読み書き）テストを実行する。 −ＪＰがＭＣレジスタアクセス（読み書き）テストを実行する。 −ＪＰがマザーボード上のＭＣ、ＰＩ、ＥＤＡＣレジスタおよびメインメモリをサイジングし、初期化する。 −ＪＰがそのマザーボード上にＳＩＭＭがある場合に、クイックメインメモリテストを実行する。このテストはメモリの第一のバンクの第一のＳＩＭＭでのみ実行される（すなわち、せいぜい３２ＭＢがテストされる）。このテストはＪＰがメモリにアクセスできることを確認する。マイクロコントローラはステップのいずれかで失敗したＪＰをリセット状態にする。ＪＰドータボード上の二つのＪＰのいずれか一方がこのテストのいずれかで失敗した場合には、そのＪＰおよびドータボードにデッドとマークをつけ、構成解除する。また、ＤＭによってＭＩコールを後で行う。両方のＪＰドータボードが構成解除された場合には、関連するマザーボードの他のものが、ＤＭが判定された後でテストされる。すべてのドータボードがスロット０および１の両方で不良品である場合には、システムの電源が切られる。各ＪＰは一次段階を完了した後、二次段階へ進むか、あるいはスレーブＪＰになり、アイドルループに入るかがマイクロコントローラによって通知されるのを待つ。次のテストが二次段階で実行される。 −ＪＰがそれ自体の基板のサイジングを行い、その情報をＮＯＶＲＡＭに書き込む。 −ＪＰがグローバルテストパターンを書き込み、後でテストするためパターン有効フラグをＳＲＡＭに設定する。 −ＪＰがすべてのＭＡＤＶレジスタをその基板に設定する。 −ＪＰがいくつかの広範囲なテストをＭＣＥＤＡＣ、ディレクトリＳＩＭＭ、およびオンボードメインメモリで実行する。 −ＳＩＭの障害があった場合、ＪＰＰＲＯＭがエラー状態のＳＩＭＭバンクを構成解除する。ＭＣ、ＥＤＡＣ、およびディレクトリにおけるテストのいずれかが失敗した場合には、メモリサブシステム全体を構成解除する。 −ＪＰがそのオンボードメインメモリ（存在している場合）を使用して、オンボードキャッシュテストを実行する。 −これらのテストのいずれかが失敗したら、ＪＰが搭載されているドータボードが構成解除される。 −ＪＰがすべてのＰＣＩ装置のサイジングを行い、それ自体の基板上のＧＧを初期化する。 −ＪＰが広範囲なテストを統合ＳＣＳＩおよびＬＡＮコントローラで実行する。これらのテストはマザーボード上の各ＧＧＡＳＩＣで一つずつ実行される。テストのいずれかが失敗した場合には、ＧＧ／ＰＣＩバスサブシステムが構成解除される。両方のＧＧＡＳＩＣに障害があれば、マザーボードが構成解除される。 −各基板マスタはすべてのオンボード情報（たとえば、どのＡＳＩＣが良品／不良品なのか、どのＪＰが良品／不良品なのか、そのＰＲＯＭの改訂番号など）を収集し、これをＮＯＶＲＡＭに書き込む。 −各基板マスタは基板に残っているもの、たとえばモデムを初期化する。上述のテストは他の基板上でも互いに並列に実行される。これらのタスクが行われてから、基板はＰＩバス上で使用可能とされる。このテストは特定の基板を診断マスタ権について考慮できるかどうかを判定するために使用される。マスタマイクロコントローラはそのマザーボード上の最初のＪＰに、活動診断マスタ（ＡＤＭ）になり、三次段階のテストに進み、これを行うための二次段階のテストが正常に完了したことを通知し、他のＪＰは命令を待つ。以下のテストが三次段階で行われる。 −ＡＤＭが自己ＰＩループバックテスト（ＴｈＤ）を実行する。 −ＡＤＭがオフボードテストを実行して、システム内の他の基板にアクセスできるかどうかを判定する。 −ＡＤＭがシステム内のＪＰに広範囲なキャッシュテストを実行するよう通知する。 −ＡＤＭがＲＩバックドア法を使用して、各ＡＣＴＩＶＥ基板の構成情報を収集する。 −ＡＤＭがミッドプレーン上で使用可能となる。すなわち、ＲＩおよびＰＩ両方におけるグローバルビットをリセットする。 −ＡＤＭが稼働中のＪＰが載っていない他のマザーボードを初期化し、これをテストするか、ニアメモリを有していない基板上でＩ／Ｏテストを実行する。ＤＭはそれ自体の基板上のメモリをＳＣＳＩスクリプト位置に使用する。 −ＡＤＭのＮＯＶＲＡＭ内のテーブル１、２、および３の間でハードウェア構成情報が異なっている場合、ＡＭＤがＭＩコールを行う。 −ＡＤＭがマスタマイクロコントローラに、そのＮＯＶＲＡＭ−テーブル３内の情報に従ってバックパネル上のＳＥＥＰＲＯＭを更新するよう通知する。 −ＡＤＭがシステム全体に対して最終的な初期化を行い、オペレーティングシステム、すなわちＤＧ／ＵＸに対していくつかの制御スペースレジスタを設定する。 −ＡＤＭがすべての良品のスレーブＪＰにアイドルループから抜けるように通知し、ＳＣＭに入る。上記により四つの結果が生じると考えられる。１）すべてのテストに合格する。ＡＤＭはＤＭとなり、他のステップを完了し、ＳＣＭで停止する。２）テストが失敗し、ＡＤＭはそれがそれ自体のマザーボード上の問題であることを知る。３）これらのテストの実行中にＡＤＭがハングし、そのマイクロコントローラがタイムアウトする。４）テストが失敗し、ＡＤＭはどの基板が問題なのかを知る。事例３を除くすべての場合に、ＡＤＭはマスタマイクロコントローラにテストの結果を通知する。事例２および３の場合、マスタマイクロコントローラはそのＳＥＥＰＲＯＭ内でそれ自体をデッドとマークし、システムに再度電源を投入する。事例４の場合、マスタマイクロコントローラは障害を生じた基板のマイクロコントローラに、それ自体をシステムから構成解除するよう通知する。マスタマイクロコントローラは肯定応答を取得した後、ＡＤＭに三次テストを再起動し、キャッシュテストを実行するよう通知する。上述のマイクロコントローラおよびＪＰのテストが行われた後、コンピュータシステムはデフォルトのブートパスでブートする。オペレーティングシステム（ＤＣ／ＵＸ）のブート後、すべてのＪＰはオペレーティングシステムの制御を受け、ＪＰＰＲＯＭはシステムコールが行われた場合を除き、実行されなくなる。システムの動作中に、各マザーボード２０２上のマイクロコントローラ３００はコンピュータシステムのある種の部品が適正に機能していることを確認するスニッフィングタスクを実行する。リソースバス固有のテストは、ＮＯＶＲＡＭチェックサムテスト、ＤＵＡＲＴ機能性テスト、ＰＳＳＳ一致による電源／ブロワ状況テスト、ＥＥＰＲＯＭチェックサムテストおよびＴＢＣテストを含んでいる。マスタマイクロコントローラも、走査チェーン動作により電源およびブロワの状況の設定を担う。マイクロコントローラはセマフォロックをチェックしてから、スニッフィングタスクでこれらの領域のいずれかにアクセスし、ＪＰが領域の更新または領域へのアクセスを試みたときに、データが失われないようにする必要がある。上記したように、バックプレートのスロット０および１にあるマザーボード上のマイクロコントローラおよびＪＰだけが、マスタマイクロコントローラおよび診断マスタそれぞれの存続可能な候補である。デフォルトでは、スロット０のマザーボード上のマイクロコントローラと、ＪＰの一つとがこれに指定される。両方のスロットのマザーボードおよび／または両方のスロットのＪＰが障害を生じており、構成解除可能である場合には、システムが遮断される。本発明の好ましい実施の形態を特定の用語を使用して説明してきたが、このような説明は説明のためだけのものであり、以下の請求の範囲の精神および範囲を逸脱することなく、変更および改変を行えることを理解すべきである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者コツクス，ジヨージフアメリカ合衆国、マサチユーセツツ・ 02346、ミドルボロ、ノース・メイン・ストリート（番地なし) (72)発明者ジエリナス，ロバート・ジーアメリカ合衆国、マサチユーセツツ・ 01581、ウエストボロ、フランダース・ロード・47 (72)発明者ジロツト，バリー・イーアメリカ合衆国、マサチユーセツツ・ 01640、ウシエスター、サンダーランド・ロード・270−46 (72)発明者ガイヤー，ジエイムズ・エムアメリカ合衆国、マサチユーセツツ・ 01532、ノースボロ、ブルアー・ストリート・246 (72)発明者ヘイダ，アンドレアアメリカ合衆国、マサチユーセツツ・ 01720、アクトン、マグノリア・ドライブ・４ (72)発明者ホツク，ダン・アールアメリカ合衆国、マサチユーセツツ・ 01545、シユローズベリー、ベイベリー・サークル・11 (72)発明者ハント，マイケル・エフアメリカ合衆国、マサチユーセツツ・ 01721、アツシユランド、ジヨアンヌ・ドライブ・７・ナンバー・３ (72)発明者キーテイング，デイビツド・エルアメリカ合衆国、マサチユーセツツ・ 01746、ホリストン、パインクレスト・ロード・56 (72)発明者キメル，ジエフ・エスアメリカ合衆国、ノース・カロライナ・ 27514、チヤペル・ヒル、クレイン・メドウ・プレイス・107 (72)発明者パイク，ロブ・ジエイアメリカ合衆国、マサチユーセツツ・ 01609、ウスター、ソマーセツト・ストリート・15・ナンバー・３ (72)発明者ラドグナ，トム・ブイアメリカ合衆国、マサチユーセツツ・ 01701、フラミントン、ポーツモア・レイン・５ (72)発明者ルークス，フイル・ジエイアメリカ合衆国、マサチユーセツツ・ 01746、ホリストン、ジヨーンズ・ロード・12 (72)発明者シヤーマン，アート・エイアメリカ合衆国、マサチユーセツツ・ 01721、アツシユランド、ミーテイングハウス・96 (72)発明者スポーター，マイクルアメリカ合衆国、マサチユーセツツ・ 02181、ウエルズリー、ロングフエロー・ロード・31 (72)発明者トウルーベンバツク，リズ・エムアメリカ合衆国、マサチユーセツツ・ 01776、サドベリー、フアイヤーカツト・レイン・５ (72)発明者タツカー，ダグ・ジエイアメリカ合衆国、マサチユーセツツ・ 01532、ノースボロ、サイヤー・ストリート・10・エム (72)発明者バレンタイン，ロブ・ピーアメリカ合衆国、マサチユーセツツ・ 01501、アーバーン、グリーンウツド・ドライブ・10 (72)発明者ユン，サイモン・エヌアメリカ合衆国、マサチユーセツツ・ 02146、ブルツクライン、ハーバード・アベニユー・48・ナンバー・５

Claims

【特許請求の範囲】１．障害状態の発見後コンピュータシステムを自動的に回復する方法であって、自己テストおよび自己診断機能を有するコンピュータシステムを設けるステップと、コンピュータシステムを自動的にテストするステップと、前記テストステップにより一つまたは複数の障害構成要素の存在を自動的に特定するステップと、コンピュータシステムを構成解除して、前記の自動特定ステップにより特定された障害構成要素を機能的にコンピュータシステムから除去するステップとを備えている方法。２．前記テストステップの前に、前記コンピュータシステムのメモリの内容を回復するステップをさらに含んでいる請求の範囲第１項に記載の方法。３．前記回復ステップがコンピュータシステムの構成要素に関する、および構成要素間の相互接続に関する連続性チェックを行うことを含んでいるテストステップを含んでおり、前記の特定が連続性チェックを分析して、障害構成要素および相互接続を特定することを含んでいる請求の範囲第１項に記載の方法。４．提供されるコンピュータシステムが少なくとも一個の特定用途向け集積回路（ＡＳＩＣ）を含んでおり、前記ＡＳＩＣが該ＡＳＩＣの論理Ｆ／Ｆへクロックパルスを自動的および選択的に分配するゲート式バランスクロックツリー回路を有しており、クロックツリーがこれから延びる複数のブランチを有しており、前記方法がゲート式バランスクロックツリー回路を構成して、コンピュータシステムが第一の動作状態にあるときに、クロックパルスが少なくともいくつかの論理Ｆ／Ｆに分配されるようにするステップと、ゲート式バランスクロックツリー回路を再構成して、コンピュータシステムが第二の動作状態にあるときに、少なくともいくつかの論理Ｆ／Ｆへのクロックパルスの分配をブロックするようにするステップとをさらに含んでいる請求の範囲第１項に記載の方法。５．コンピュータシステムが二つの冗長システムクロックをさらに含んでおり、一方のシステムクロックのクロックが一時にコンピュータシステムに与えられ、前記方法がコンピュータシステムへクロックを与えるシステムクロックを障害について監視するステップと、前記監視ステップがシステムクロックの障害を特定したときに、コンピュータシステムを構成して、障害を起こしたシステムクロックを機能的に除去し、その後クロックを冗長システムクロックから供給するステップとをさらに含んでいる請求の範囲第１項に記載の方法。６．特定用途向け集積回路（ＡＳＩＣ）の論理フリップフロップ（Ｆ／Ｆ）へクロックパルスを自動的選択的に供給するゲート式バランスクロックツリー回路であって、クロックパルスがＡＳＩＣの論理Ｆ／Ｆへ流れ、クロックツリー回路がこれから延びている複数のブランチを有しているクロックトランクと、少なくともいくつかの論理Ｆ／Ｆに給送を行っているクロックトランクの少なくとも一つのブランチに配置された少なくとも一つのＡＮＤゲートと、少なくとも一つのＡＮＤゲートの各々を制御して、少なくともいくつかの論理Ｆ／Ｆにいくつかのクロックパルスだけが給送されるようにする制御回路とを備えており、ＡＳＩＣを使用するコンピュータシステムの第一の動作状態の間中、クロックパルスが少なくともいくつかの論理Ｆ／Ｆに給送されることをＡＮＤゲートが自動的に可能とするように前記制御回路が構成されており、コンピュータシステムの第二の動作状態にあるときに、クロックパルスがＡＮＤゲートにより自動的にブロックされるようにも前記制御回路が構成されているゲート式バランスクロックツリー回路。７．クロックトランクへ給送されるクロック信号を制御する位相ロックループ装置（ＰＬＬ）と、前記ＰＬＬおよび前記クロックツリーの選択されたブランチに電気的に接続された遅延セルとをさらに含んでおり、遅延セルがクロックツリーの選択されたブランチからの各クロックパルスを所定量遅延させて、論理Ｆ／Ｆへのクロックパルスのスキュー解除を行い、コンピュータシステムの第二の動作状態にあるときに、選択されたブランチからのクロックパルスがＰＬＬへ行くのをブロックされない請求の範囲第６項に記載のゲート式バランスクロックツリー回路。８．第三の動作状態にあるときに、ＡＮＤゲートがクロックパルスを論理Ｆ／Ｆへ給送できるように前記制御回路が構成されている請求の範囲第６項に記載のゲート式バランスクロックツリー回路。９．第一の動作状態がコンピュータシステムの正規動作に対応しており、第二の動作状態がコンピュータシステムの致命エラー状態に対応しており、第三の動作状態が電源投入時および致命エラー状態後の少なくとも一方のコンピュータシステムのシステムテストに対応している請求の範囲第８項に記載のゲート式バランスクロックツリー回路。１０．クロックトランクの選択されたブランチ以外のすべてのブランチを通るクロックパルスを制御する複数のＡＮＤゲートをさらに含んでいる請求の範囲第６項に記載のゲート式バランスクロックツリー回路。１１．特定用途向け集積制御回路（ＡＳＩＣ）の論理フリップフロップ（Ｆ／Ｆ）へのクロックパルスを制御する方法であって、論理Ｆ／Ｆへクロックパルスを自動的選択的に分配する、複数のブランチが延びているゲート式バランスクロックツリー回路を有するＡＳＩＣを設けるステップと、ゲート式バランスクロックツリー回路を構成して、コンピュータシステムが第一の動作状態にあるときに、クロックパルスが少なくともいくつかの論理Ｆ／Ｆに給送されるようにするステップと、ゲート式バランスクロックツリー回路を再構成して、コンピュータシステムが第二の動作状態にあるときに、少なくともいくつかの論理Ｆ／Ｆへのクロックパルスの分配をブロックするステップとを備えているクロックパルスを制御する方法。１２．ゲート式バランスクロックツー回路が少なくとも一つのＡＮＤゲートを含んでおり、前記構成ステップが一つの信号をＡＮＤゲートに与えて、クロックパルスが分配されるようにすることを含んでおり、前記再構成ステップが第二の信号をＡＮＤゲートに与えて、クロックパルスをブロックすることを含んでいる請求の範囲第１１項に記載のクロックパルスを制御する方法。１３．ゲート式バランスクロックツリー回路がクロックトランクへ給送されるクロック信号を制御する位相ロックループ装置（ＰＬＬ）を含んでおり、前記方法がクロックパルスをクロックツリー回路の選択したブランチからＰＬＬへフィードバックするステップと、フィードバックされるクロックパルスを所定量遅延させて、論理Ｆ／Ｆへのクロックパルスのスキュー解除を行うステップとをさらに含んでおり、コンピュータシステムの第二の動作状態にあるときに、フィードバックされるクロックパルスがＰＬＬへ行くのをブロックされない請求の範囲第１１項に記載のクロックパルスを制御する方法。１４．クロックパルスが分配されるようにゲート式バランスクロックツリー回路を構成する前記ステップが、コンピュータシステムが第三の動作状態にあるときにも行われる請求の範囲第１１項に記載のクロックパルスを制御する方法。１５．第一の動作状態がコンピュータシステムの正規動作に対応しており、第二の動作状態がコンピュータシステムの致命エラー状態に対応しており、第三の動作状態が電源投入時および致命エラー状態後の少なくとも一方のコンピュータシステムのシステムテストに対応している請求の範囲第１４項に記載のクロックパルスを制御する方法。１６．ゲート式バランスクロックツリー回路が複数のＡＮＤゲートを含んでおり、前記構成ステップが一つの信号を複数のＡＮＤゲートに与えて、クロックパルスが分配されるようにすることを含んでおり、前記再構成ステップが第二の信号を複数のＡＮＤゲートに与えて、クロックパルスをブロックすることを含んでいる請求の範囲第１１項に記載のクロックパルスを制御する方法。１７．クロックパルスが第二の信号によってクロックツリー回路の選択されたブランチ以外のすべてのブランチにおいてブロックされる請求の範囲第１６項に記載のクロックパルスを制御する方法。１８．コンピュータシステムにクロックパルスを供給するシステムにおいて、少なくとも第一および第二のクロック生成および分配装置を備えており、第一のクロック生成および分配装置がシステムによって供給されるクロックパルスの供給源として設定されており、第一および第二のクロック生成および分配装置の各々が周期的な信号パルスを生成するように電気的に構成された一次発振回路と、発振回路によって生成された周期的パルスを監視して、回路の障害を検出するように電気的に構成された検出回路と、発振回路の障害の検出を表す出力信号をもたらすように構成された、検出回路に応答する信号生成回路とを含んでおり、第一のクロック生成および分配装置の信号生成回路からの障害信号に応じる第二のクロック生成および分配装置として、クロック供給システムが供給されるクロックパルスの供給源を自動的に再指定するように構成されたクロックパルスフェイルオーバ回路を前記システムが備えているクロック供給システム。１９．検出回路が発振回路と異なる周波数で周期的な信号を生成する二次発振回路と三つのフリップフロップ（Ｆ／Ｆ）とを含んでおり、三つのＦ／Ｆが互いに、また一次および二次発振回路と電気的に相互接続されて、Ｆ／Ｆが一次発振回路の障害を検出し、障害を表す出力を与える請求の範囲第１８項に記載のクロックパルス供給システム。２０．障害を表す出力が三つのＦ／Ｆのうち二つからの信号出力である請求の範囲第１９項に記載のクロックパルス供給システム。２１．三つのＦ／Ｆがそれぞれ第一、第二、および第三のＦ／Ｆであり、第一のＦ／Ｆが第二および第三のＦ／Ｆならびに二次発振回路に電気的に相互接続されており、第二および第三のＦ／Ｆが一次発振回路に電気的に相互接続されている請求の範囲第１９項に記載のクロックパルス供給システム。２２．一次発振回路が１００ＭＨｚの水晶を含んでおり、二次発振回路が１０５ＭＨｚの水晶を含んでいる請求の範囲第１９項に記載のクロックパルス供給システム。２３．コンピュータシステムにおいてクロックパルスを供給する方法において、周期的な信号パルスを生成する二つの冗長信号生成装置と、一方の装置が供給されるクロックパルスの供給源として当初指定される供給されるクロックパルスの供給源を自動的選択可能に制御する回路とを含んでいるクロック供給システムを設けるステップと、システムに対してクロックパルスを供給する信号生成装置によって生成される周期的な信号を監視するステップと、周期的な信号パルスを生成する第一の装置の障害の検出に応じて冗長信号発生装置へ自動的にフェイルオーバするステップとを備えているクロックパルス供給方法。２４．各信号生成装置が異なる周波数で周期的な信号パルスを生成する一次および二次発振回路を含んでおり、前記監視ステップが一次および二次発振回路の出力を監視して、一次監視装置の障害を検出することを含んでいる請求の範囲第２３項に記載のクロックパルス供給方法。２５．高稼働率スケーラブルマルチプロセッサコンピュータシステムにおいて、少なくとも一本のバックプレーン通信バスと診断バスを含んでいるバックプレーンと、前記バックプレーンに脱着可能に接続され、各々が前記の少なくとも一本のバックプレーン通信バスと前記診断バスとにインタフェースしている複数枚のマザーボードとを備えており、前記複数枚のマザーボードの各々が前記複数枚のマザーボードの少なくとも一枚を前記の少なくとも一本のバックプレーン通信バスにインタフェースする少なくとも一つのバックプレーン通信バスインタフェース機構と、前記複数枚のマザーボードの間に分散されたメインメモリ、他のマザーボード上のキャッシュとのメインメモリの一貫性を維持するディレクトリメモリ、および前記メインメモリおよびディレクトリメモリにアクセスし、かつ前記マザーボード通信バスとインタフェースするメモリコントローラモジュールを含んでいるメモリシステムと、前記マザーボードに脱着可能に接続され、前記マザーボード通信バスとインタフェースする少なくとも一枚のドータボードとを含んでおり、前記の少なくとも一枚のドータボードが前記の少なくとも一枚のドータボードを前記マザーボード通信バスおよび前記ドータボード上のローカルバスにインタフェースするマザーボード通信バスインタフェースモジュールと、キャッシュメモリおよび前記スケーラブルマルチプロセッサコンピュータシステムのプロセッサに対して前記キャッシュメモリを維持するキャッシュコントローラモジュールを含んでいる少なくとも一つのキャッシュメモリシステムとを含んでおり、前記複数枚のマザーボードの各々が前記複数枚のマザーボードの各々を前記バックプレーン診断バスにインタフェースするバックプレーン診断バスインタフェース機構と、情報を処理し、出力をもたらすマイクロコントローラと、レジスタが含まれているテストバスコントローラ機構と、をさらに含んでおり、前記コンピュータシステムが各マザーボードおよび前記少なくとも一枚のドータボードの各々に実装された機能性構成要素を前記テストバスコントローラに電気的に相互接続する走査チェーンと、機能性構成要素ならびに電気接続および相互接続を自動的にテストし、障害構成要素の存在を自動的に判定し、障害構成要素をコンピュータシステムから自動的にかつ機能的に除去する命令および基準を含んでいる、前記マイクロコントローラによって実行されるアプリケーションプログラムとをさらに含んでいる高稼働率スケーラブルマルチプロセッサコンピュータシステム。２６．前記の複数枚のマザーボードの少なくとも一枚と前記の少なくとも一枚のドータボードが少なくとも一つの特定用途向け集積回路（ＡＳＩＣ）をさらに含んでおり、前記ＡＳＩＣがＡＳＩＣの論理Ｆ／Ｆへ自動的選択的にクロックパルスを分配するゲート式バランスクロックツリーを有しており、該ゲート式バランスクロックツリー回路がクロックパルスがＡＳＩＣの論理Ｆ／Ｆへ流れ、クロックツリーがこれから延びている複数のブランチを有しているクロックトランクと、少なくともいくつかの論理Ｆ／Ｆに給送を行っているクロックトランクの少なくとも一つのブランチに配置された少なくとも一つのＡＮＤゲートと、少なくとも一つのＡＮＤゲートの各々を制御して、少なくともいくつかのＦ／Ｆにいくつかのクロックパルスだけが給送されるようにする制御回路とを含んでおり、コンピュータシステムの第一の動作状態の間中、クロックパルスが少なくともいくつかの論理Ｆ／Ｆに給送されることをＡＮＤゲートが自動的に可能とするように前記制御回路が構成されており、コンピュータシステムの第二の動作状態にあるときに、クロックパルスがＡＮＤゲートにより自動的にブロックされるようにも前記制御回路が構成されている請求の範囲第２５項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。２７．前記ゲート式バランスクロックツリー回路がクロックトランクへ給送されるクロック信号を制御する位相ロックルーブ装置（ＰＬＬ）と、前記ＰＬＬおよび前記クロックツリーの選択されたブランチに電気的に接続された遅延セルとをさらに含んでおり、遅延セルがクロックツリーの選択されたブランチからの各クロックパルスを所定量遅延させて、論理Ｆ／Ｆへのクロックパルスのスキュー解除を行い、コンピュータシステムの第二の動作状態にあるときに、選択されたブランチからのクロックパルスがＰＬＬへ行くのをブロックされない請求の範囲第２６項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。２８．第三の動作状態にあるときに、ＡＮＤゲートがクロックパルスを論理Ｆ／Ｆへ給送できるように前記制御回路が構成されている請求の範囲第２６項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。２９．第一の動作状態がコンピュータシステムの正規動作に対応しており、第二の動作状態がコンピュータシステムの致命エラー状態に対応しており、第三の動作状態が電源投入時および致命エラー状態後の少なくとも一方のコンピュータシステムのシステムテストに対応している請求の範囲第２８項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。３０．前記ゲート式バランスクロックツリー回路がクロックトランクの選択されたブランチ以外のすべてのブランチを通るクロックパルスを制御する複数のＡＮＤゲートをさらに含んでいる請求の範囲第２６項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。３１．前記の少なくとも一つのＡＳＩＣの各々が前記の少なくとも一つの走査チェーンに相互接続されて、前記マイクロコントローラが前記の少なくとも一つのＡＳＩＣの各々をテストできる請求の範囲第２６項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。３２．コンピュータシステムにクロックパルスを供給するシステムをさらに含んでおり、該システムが少なくとも第一および第二のクロック生成および分配装置を含んでおり、第一のクロック生成および分配装置がシステムによって供給されるクロックパルスの供給源として設定されており、第一および第二のクロック生成および分配装置の各々が周期的な信号パルスを生成するように電気的に構成された一次発振回路と、発振回路によって生成された周期的パルスを監視して、回路の障害を検出するように電気的に構成された検出回路と、発振回路の障害の検出を表す出力信号をもたらすように構成された、検出回路に応答する信号生成回路とを含んでおり、第一のクロック生成および分配装置の信号生成回路からの障害信号に応じる第二のクロック生成および分配装置として、クロック供給システムが供給されるクロックパルスの供給源を自動的に再指定するように構成されたクロックパルスフェイルオーバ回路を前記システムが含んでいる請求の範囲第２５項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。３３．検出回路が発振回路と異なる周波数で周期的な信号を生成する二次発振回路と三つのフリップフロップ（Ｆ／Ｆ）とを含んでおり、三つのＦ／Ｆが互いに、また一次および二次発振回路と電気的に相互接続されて、Ｆ／Ｆが一次発振回路の障害を検出し、障害を表す出力を与える請求の範囲第３２項に記載の高稼働率スケーラブルマルチプロセッサコンピュータシステム。