JP2003506788A - 冗長システム・コントローラを試験する診断ケージ・モード - Google Patents

冗長システム・コントローラを試験する診断ケージ・モード

Info

Publication number
JP2003506788A
JP2003506788A JP2001516052A JP2001516052A JP2003506788A JP 2003506788 A JP2003506788 A JP 2003506788A JP 2001516052 A JP2001516052 A JP 2001516052A JP 2001516052 A JP2001516052 A JP 2001516052A JP 2003506788 A JP2003506788 A JP 2003506788A
Authority
JP
Japan
Prior art keywords
system controller
node
mode
interface
multiprocessor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001516052A
Other languages
English (en)
Inventor
ドロギチェン,ダニエル・ピイ
グラフ,エリック・ユージーン
メイヤー,ダグラス・ビイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Microsystems Inc
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Publication of JP2003506788A publication Critical patent/JP2003506788A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Abstract

(57)【要約】 通常のシステム動作と干渉せずに冗長構成部品の試験を可能にするために、該冗長構成部品をケージする装置および方法を採用したマルチプロセッサ・システムを開示する。一実施形態において、マルチプロセッサ・システムは少なくとも2つのシステム・コントローラと、ネットワークによって相互接続された一連の処理ノードとを備えている。システム・コントローラはシステム・リソースを割り振って構成し、処理ノードはそれぞれ、該ノードをシステム・コントローラに連結するノード・インターフェースを含む。ノード・インターフェースは、ケージ・モードおよびアンケージ・モードにおいて個々別々に構成することができる。アンケージ・モードにおいて、ノード・インターフェースは、システム・コントローラの何れかからの情報を処理ノードの他の構成部品に伝達する。ケージ・モードにおいて、ノード・インターフェースは、システム・コントローラのうち少なくとも1つからの情報を検閲する。全てのノード・インターフェースが共通システム・コントローラからの情報を検閲すると、このシステム・コントローラは効果的に「ケージされ」、それによってこのシステム・コントローラからの通信は他のノード構成部品に到達することを妨げられる。これによって、システムの通常の動作と干渉することなく、ケージされたシステム・コントローラを全てのそれに関連づけられた相互接続と共に試験することが可能になる。通常のシステム構成タスクは、アンケージされたシステム・コントローラによって処理される。アンケージされたシステム・コントローラは、試験が成功裏に完了した場合に、ケージされたシステム・コントローラをアンケージするようにノード・インターフェースに命令することができる。

Description

【発明の詳細な説明】
【0001】 (発明の背景) (発明の分野) 本発明は固有の冗長度を備えたマルチプロセッサ・コンピュータ・システムの
分野に関し、特に通常のシステムの動作中に冗長機能構成部品を試験するシステ
ムおよび方法に関する。
【0002】 (関連技術の説明) マルチプロセッサ・コンピュータ・システムは、演算タスクを行うために採
用することができる2個以上のプロセッサを備えている。特定の演算タスクは、
関連する演算タスクを他のプロセッサが行う間に1つのプロセッサ上で行うこと
ができる。あるいは、特定の演算タスクの成分を多数のプロセッサの間で分散し
て、演算タスク全体を遂行するのに必要な時間を削減することもできる。プロセ
ッサは、多くの場合にユーザ提供の入力データに応じて、プログラムされた命令
を実行して所望の出力信号を生成する装置である。
【0003】 市販のマルチプロセッサ・コンピュータ・システムにおいて普及しているアー
キテクチャは、シンメトリック・マルチプロセッサ(SMP)アーキテクチャで
ある。通常、SMPコンピュータ・システムは、キャッシュ階層を介して共有バ
スにそれぞれ接続された多数のプロセッサを含む。また、メモリも共有バスに接
続されており、システムのプロセッサの間で共有されている。メモリ内のあらゆ
る特定のメモリ・ロケーションへのアクセスは、他のあらゆる特定のメモリ・ロ
ケーションへのアクセスと同様の時間内に発生する。メモリ内の各ロケーション
には一様の方法でアクセスできるので、この構造は一様メモリ・アーキテクチャ
(UMA)と呼ばれることが多い。
【0004】 マルチプロセッサ・コンピュータ・システム用の別のアーキテクチャは、分散
共有メモリ・アーキテクチャである。分散共有メモリ・アーキテクチャは、それ
ぞれが1つまたは複数のプロセッサおよび何らかのローカル・メモリを備えた多
数のノードを有する。多数のノードはネットワークによって一体に連結されてい
る。多数のノード内に備えられたメモリは、集合的に全体として考えると、コン
ピュータ・システム用の共有メモリを形成する。
【0005】 分散共有メモリ・システムは、共有バス・アーキテクチャを備えたシステムよ
りもスケーラブルである。プロセッサ・アクセスの多くはノード内で完了するの
で、ノードは通常、同じ数のプロセッサが共有バスに課すよりも遙かに低い帯域
幅要件をネットワークに課す。ノードは高いクロック周波数と帯域幅で動作して
、必要な場合にのみネットワークにアクセスすることができる。ノードのローカ
ルな帯域幅に影響を与えることなく、追加のノードをネットワークに付加するこ
とができる。代わりに、ネットワークの帯域幅のみが影響を受ける。
【0006】 高性能故に、マルチプロセッサ・コンピュータ・システムは、商業市場におけ
る多数の異なった種類のミッション・クリティカルなアプリケーションに用いら
れる。これらのシステムにとっては、ダウンタイムが収益に甚大で不都合な影響
を及ぼし得る。そのため、システム設計は、信頼性があり、必要なときに使用可
能であり、診断および修理が容易な演算プラットフォームとすることにより、か
かるミッション・クリティカルなアプリケーションのアップタイムの要求を満た
さなければならない。
【0007】 この種のシステムのアップタイムの要求を満たす1つの方法は、機械設計の初
めから、故障許容、冗長度および信頼性をもたせて設計することである。ほとん
どのマルチプロセッサ・コンピュータ・システムに組み込まれた信頼性の特徴は
、環境モニタリング、誤り訂正コード(ECC)データ保護およびモジュラ・サ
ブシステム設計を含む。さらに進歩した故障許容マルチプロセッサ・システムは
、フル・ハードウエア冗長度、故障許容パワーおよびクーリング・サブシステム
、停電後の自動復帰ならびに高度システム・モニタリング・ツールなどの、いく
つかの付加的な特徴も有する。
【0008】 トランザクション処理、決定支援システム、通信サービス、データ保管および
ファイル・サービングなどのミッション・クリティカルなアプリケーションにつ
いては、システムのハードウエア故障が処理を中断させてシステム全体をダウン
させるべきではない。あらゆる故障がユーザにトランスペアレントであって、シ
ステムによって迅速に分離されることが理想的である。補修活動を行ってコンピ
ュータ・システムを100%動作可能な状態にバックアップできるように、シス
テム管理者には故障が通知されなければならない。システム・ダウンすることな
く、回復処理を行えることが好ましい。
【0009】 多くの現在のマルチプロセッサ・システムにおいては、欠陥のあるプロセッサ
を特定してシャットダウンし、それらのタスクを他の機能しているプロセッサに
割り当てることにより、故障許容を実現している。しかし、故障はプロセッサに
限定されず、たとえば、相互接続トレースやコネクタ・ピンなどの、システムの
他の部分においても発生する場合がある。これらはシステムが始動すると容易に
試験されるが、システムが動作中に故障があるかどうか試験することは遙かに大
きな難題である。これは、「ホット・スワップ可能な」システム、すなわち、シ
ステムを補修中であっても常にシステムをユーザが利用可能であるように、通常
の動作中にボードを取り外して交換できるようにするシステムにおいて特に重要
な問題になるであろう。
【0010】 また、マルチプロセッサ・システムには多様なタスクの間でリソース(プロセ
ッサおよびメモリ)を編成して割り振る専用プロセッサまたはサブシステムであ
るシステム・コントローラを含むものがある。これらのシステムのための故障許
容は、「バックアップ」システム・コントローラの形態で実現できる。主システ
ム・コントローラおよび冗長システム・コントローラにとっては、他方に故障が
あると判断された場合に、その割り込みを制御する能力をそれぞれが有すること
が望ましい。さらに、通常のシステム・オペレーションを中断させることなく、
通常のシステムの動作中に2つのサブシステムの何れかを試験できることが望ま
しい。このことは、システム・コントローラがホット・スワップになることを許
容するシステムにとって特に有用である。
【0011】 (発明の要約) したがって、冗長成分をケージして、通常のシステム・オペレーションと干渉
することなく冗長成分の試験を可能にする装置および方法を採用した、マルチプ
ロセッサ・システムを本明細書において開示する。一実施態様において、マルチ
プロセッサ・システムは、少なくとも2つのシステム・コントローラとネットワ
ークによって相互接続された一連の処理ノードとを含む。システム・コントロー
ラはシステム・リソースを割り振り、かつ構成し、処理ノードはそれぞれ、ノー
ドをシステム・コントローラに連結するノード・インターフェースを備えている
。ノード・インターフェースを、ケージ・モードおよびアンケージ・モードで個
々別々に構成することができる。アンケージ・モードにおいて、ノード・インタ
ーフェースはシステム・コントローラの何れかからの情報を処理ノード内の他の
構成部品に伝達する。ケージ・モードにおいては、ノード・インターフェースは
システム・コントローラの少なくとも1つからの情報を検閲する。全てのノード
・インターフェースが共通のシステム・コントローラからの情報を検閲すると、
このシステム・コントローラは効果的に「ケージされて」、それによってこのシ
ステム・コントローラからの通信は他のノード構成部品に到達することを妨げら
れる。これによって、システムの通常のオペレーションと干渉することなく、ケ
ージされたシステム・コントローラを、それと関連づけられた全ての相互接続と
共に試験することが可能になる。通常のシステム構成タスクは、ケージされてい
ないシステム・コントローラによって扱われる。ケージされていないシステム・
コントローラは、試験が成功裏に完了した場合に、ケージされたシステム・コン
トローラをアンケージするようにノード・インターフェースに命令することがで
きる。
【0012】 付属の図面を参照して好適な実施形態に関する以下の詳細な説明を検討すれば
、本発明をさらによく理解できる。
【0013】 本発明は様々な変形や代替的形態が可能であるが、その具体的な実施形態を図
面において例示し、本明細書において詳細に説明する。しかし、図面および以下
の詳細な説明は、本発明を開示した特定の形態に限定することを意図してはおら
ず、逆に、添付の特許請求の範囲によって定義された本発明の主旨および範囲の
中に入る全ての変形、均等物および代替的形態を包含することを意図しているこ
とを理解されたい。
【0014】 (発明の詳細な説明) ここで図面を参照すると、図1はマルチプロセッサ・システムのブロック図を
示している。このシステムは、N個のノード(指定されたノード0からノードN
−1)をネットワーク・バス(図示せず)と相互接続するセンタプレーン102
を備えている。ネットワーク・バスはクロスバー・ネットワークであることが好
ましい。ノードはそれぞれ、一方が「スロット0ボード」106と指定され他方
が「スロット1ボード」108と指定された最大2つのボードを受け入れるノー
ド・インターフェース・ボード104を備えていることが好ましい。スロット0
ボードは、バスによって相互接続された4個のプロセッサ、メモリ・モジュール
およびシステム・インターフェースならびに、各種の支持チップをそれぞれ有す
るマルチプロセッサ・ボードであることが好ましい。スロット1ボードは、シリ
アル・ポートおよびパラレル・ポート、ディスク・ドライブ、モデム、プリンタ
などの各種周辺機器と接続するI/Oボードであることが好ましい。説明した種
類のスロット0およびスロット1ボードに加えて、他のボードの種類を用いるこ
とができ、各種ノード間における各種のボードの種類の混合は変更可能であるこ
とが好ましい。
【0015】 このシステムは、好ましくは対応するシステム・コントローラ支持ボード11
2によってセンタプレーン102に連結された、少なくとも2つのシステム・コ
ントローラ110も備えている。センタプレーン102は、ノードのメンテナン
ス、モニタリングおよび構成のために、支持ボード112からノードへのバスを
構成することが好ましい。センタプレーン102は、ノードへの通信特権をシス
テム・コントローラ110に調停させるアービトレーション・バス114も用意
している。
【0016】 ミッション・クリティカルなシステムについては、システムをダウンさせるこ
となく欠陥のある構成部品を取り外して交換できるように、各種構成部品がホッ
ト・スワップ可能であることが必要である。したがって、ノード・インターフェ
ース・ボード104および支持ボード112のそれぞれは、システムが動作中に
それらに従属するボードと共に取り外して交換できる。挿入は比較的失敗の可能
性が高いイベントであるので、新たに挿入された構成部品は、実在するタスクに
ついてそれらを信用する前に、それらのシステムへの物理的インターフェースと
共に試験することが望ましい。以下の説明はシステム・コントローラ110およ
び支持ボード112の試験に焦点を合わせているが、ノードも同様に試験できる
ことを認識されたい。
【0017】 図2はノードのそれぞれに共通の選択された構成部品を示している。ノード・
インターフェース・ボード104はシステム・データ・インターフェース・チッ
プ202を含み、各ボード106、108は、システム・データ・インターフェ
ース・チップ202を介してシステム・コントローラから受け取った情報に従っ
て、ボード上に様々な構成部品を構成して監視するように動作するシステム・デ
ータ・コントローラ・チップ204を備えている。システム・データ・インター
フェース・チップは、システム・コントローラから受けた通信に従って、ノード
・インターフェース104において様々な構成部品を構成して監視するようにも
動作する。チップ202および204は両方とも、アドレス情報をパースして、
システム・コントローラからの通信をそのアドレス情報によって示された構成部
品にルート設定できることが好ましい。チップ202、204はさらに通信を如
何なる形態にも変換することができ、あるいは、宛先構成部品がメッセージを理
解するためにバス・プロトコルが必要とされる場合もある。
【0018】 図1および図2を同時に参照すると、システム・データ・インターフェース・
チップ202はシステム・コントローラ110のそれぞれのための専用ポートを
有しているので、所与のシステム・コントローラとの全ての通信は関連づけられ
たポートを介して行われる。システム・データ・インターフェース(SDI)チ
ップ202は、何らかの誤り検出および通知回路も備えている。SDIチップ2
02は、所与のシステム・コントローラからの通信が汚染されていることを検出
した場合に、エラー通知をそのシステム・コントローラに伝えることができる。
しかし、エラー源を判断できない場合(たとえば、異なったシステム・コントロ
ーラから対立する通信を受信したとき)には、SDIチップ202は、システム
・コントローラにエラー・イベントを気づかせるためにシステム中断信号をアサ
ートすることができる。
【0019】 SDIチップ202は、いくつかの状態レジスタ、構成レジスタおよび試験レ
ジスタを備えている。状態レジスタは、たとえばエラー状態を判断するためにシ
ステム・コントローラによって読み取られる。構成レジスタの1つは、「アンケ
ージ(uncage)された」システム・コントローラによってのみアサートされデアサ
ートすることができる「ケージ(cage)」モード・ビットを含む。アンケージされ
たシステム・コントローラは、そのインターフェースの1つまたは全てをケージ
・モードにすることができるが、アンケージされたシステム・コントローラはそ
れらをアンケージ・モードに戻すことを要求される。両方のインターフェースが
ケージされているか、ケージされたシステム・コントローラが、ケージを退出せ
よとのコマンドに応じることができない状況においては、何れかのシステム・コ
ントローラ(ケージされていてもいなくても)がバス・リセットを開始すること
ができ、それによってモード・インターフェースはアンケージ・モードに戻され
る。
【0020】 システム・コントローラの何れも、関連づけられたケージ・モード・ビットの
アサーションによってケージすることができる。ケージ・モード・ビットのアサ
ーションは、システム・コントローラの1つが個々のケージ・メッセージをノー
ドのそれぞれに書き込むことによって果たすことができる。ノードのそれぞれに
おけるSDIチップ202はケージ・メッセージを解釈して、指定されたシステ
ム・コントローラに関するケージ・モード・ビットをアサートする。ノード・イ
ンターフェースへのケージ・メッセージにおいて指定されたシステム・コントロ
ーラを、以下ではそのノード・インターフェースに関するケージされたシステム
・コントローラと呼ぶ。逆に、ノード・インターフェースにおけるケージ・モー
ド・ビットがアサートされていないシステム・コントローラを、以下ではそのノ
ード・インターフェースに関するアンケージされたシステム・コントローラと呼
ぶ。
【0021】 システム・コントローラの何れも、そのインターフェースの1つまたは複数を
、当該ノード・インターフェースにケージ・イネーブル・メッセージを書き込む
ことによってケージさせることができる。全てのノード・インターフェースが同
じシステム・コントローラ・インターフェースをケージされている場合には、シ
ステム・コントローラは完全にケージされていると言われる。全てのノード・イ
ンターフェースが同じシステム・コントローラ・インターフェースをケージされ
ているのでなければ、システム・コントローラは不完全にケージされており、そ
れがアンケージされているインターフェースと通信することを許容される。
【0022】 ケージ・モード・ビットのアサーションは、ケージされたシステム・コントロ
ーラから受けたあらゆる通信をSDIチップ202に検閲させる。SDIチップ
202は、たとえば汚染された通信に関するエラー通知などの応答を、ケージさ
れたシステム・コントローラに伝えることができる。SDIチップ202は、ケ
ージされたシステム・コントローラからの通信を処理すること、たとえば、試験
レジスタに値を記憶することもできる。しかし、SDIチップ202は、ケージ
されたシステムから受けた通信に応答して、他のダウンストリームの構成部品に
メッセージを送ることはない。これは、ボード106、108に関する構成メッ
セージならびに、モード・インターフェース・ボード104上の他の構成部品に
関するメッセージを含む。SDIチップは、他のシステム・コントローラから受
け取ったメッセージと対立する、ケージされたシステム・コントローラからのメ
ッセージによって通常引き起こされるプロトコル・エラー中断などの、ケージさ
れたシステム・コントローラからの通信によって誘発される中断も抑制する。
【0023】 マルチプロセッサ・コンピュータ・システムが最初に始動されると、主システ
ム・コントローラは、そのシステム・コントローラ上の構成部品の全てを試験し
て、マルチプロセッサ・システムの他のボード/構成部品への相互接続の全てを
試験するパワーオン・セルフ・テスト(POST)を受ける。どのユーザ・アプ
リケーションも活動状態ではないので、深刻または決定的なエラーがサービスの
中断を引き起こすことはない。しかし、マルチプロセッサ・システムがユーザ・
アプリケーションを実行しており、補助システム・コントローラを試験する必要
がある場合には、主システム・コントローラがハードウエアにサービスを提供し
、試験に必要な全てのメンテナンス・バスを制御し続けている間に補助システム
・コントローラを試験するために、ケージ・モードを採用することができる。ケ
ージ・モードは、試験中のシステム・コントローラが活動状態のハードウエアの
状態情報を誤って破壊したり、分離することができず、試験中の構成部品からの
システム・エラーとして報告されるエラーを引き起こしたりすることを防止する
。そのような行為は、マルチプロセッサ・システムをダウンさせるものである。
【0024】 図1を参照すると、システム・コントローラ110が取り付けられた、新たに
挿入されたシステム・コントローラ支持ボード112が、そのノード・インター
フェースの全てをケージ・モードにすることによってケージされている。これは
、新たに挿入されたシステム・コントローラまたは常駐システム・コントローラ
によって行うことができる。そして、ケージされたシステム・コントローラ上で
実行される試験工程は、オンボードの構成部品の機能性だけでなく、支持ボード
112、センタプレーン102およびSDIチップ202の部分の構成部品の機
能性をも検証できる。システム・コントローラ110、支持ボード112、セン
タプレーン102およびノード・インターフェース104の間の相互接続もこの
試験工程によって検証されることに留意されたい。アンケージされたシステム・
コントローラは、たとえば、ケージされたシステム・コントローラにおける状態
レジスタおよび/またはSDIチップ202における状態レジスタを読み取るこ
とによって、試験工程が成功裏に完了したかどうかをチェックし、試験工程が成
功裏に完了したと判断された場合には、アンケージ・メッセージをSDIチップ
202にブロードキャストすることができる。
【0025】 それ自体を試験することに加えて、ケージされたシステム・コントローラは、
動作中のソフトウエア・アプリケーションおよび主システム・コントローラと干
渉する懸念なく、オフボードの相互接続を試験できる。この能力がなければ、ケ
ージされたシステム・コントローラはシステムの他の部分との不完全な相互接続
を検出できない。挿入されたシステム・コントローラへの未試験の相互接続が不
完全な場合に、このことは主システム・コントローラが故障した後まで分からな
い。その時点で欠陥が現れて、システムはおそらくクラッシュするであろう。主
システム・コントローラの故障前に相互接続の欠陥を検出することによって、通
知および補修活動のための時間ができる。
【0026】 全てのノード・インターフェースをケージ・モードにすることによって冗長シ
ステム・コントローラを試験することに、議論を集中してきたことに留意された
い。しかし、説明した実施形態は、ノード・インターフェースを個々別々にケー
ジ・モードにすることも許容する。これによって、システム・コントローラが他
のところでその効率を維持している間に、個々のバス接続の試験を行うことが可
能になる。
【0027】 本発明の一実施形態を上記で概略的に説明した。以下の議論は、説明を目的と
して、1つの特定の好適な実施の多様な詳細を説明している。しかし、本発明は
そのように限定されるわけではない。
【0028】 本発明は、次世代のUltraSPARC IIIベースのハイエンド・エン
タプライズ・サーバ・システムで採用することができる。システム・コントロー
ラは、多くのグローバルなリソースをマルチプロセッサ・ハードウエアの全てに
提供する、単一のプロセッサ・ベースのサブシステムであってもよい。システム
・コントローラは、全てのハードウエアへの完全なアクセスを得るために、多様
なバスを採用することができる。2つ以上のシステム・コントローラがあらゆる
所与の時間に存在するが、1つだけが活動状態であることが好ましい。主システ
ム・コントローラでハードウエア故障が発生した場合に、第2のシステム・コン
トローラはスタンバイ・モードで待機することが好ましい。
【0029】 他のハードウエアへのシステム・コントローラの相互接続は、I2C(Inter-
Integrated Circuit)、JTAG(Joint Test Activity Group)およびコンソー
ル・バスなどの様々なバスを介して発生する。通常の(アンケージされた)動作
モードでは、モード・インターフェースが両方のシステム・コントローラのコン
ソール・バスを多重して、ハードウエアを分離しない。そのため、システム内の
全てのボードおよび構成部品には、全てのトランザクションが何れかのシステム
・コントローラから生ずる。ケージ・モードにおいては、ノード・インターフェ
ースがシステム・コントローラと様々なハードウエア・ボードへのそのコンソー
ル・バス相互接続とを分離して、欠陥やプロトコル・エラーが広がることを防止
する。これによって、完全なシステム・クラッシュを引き起こさずに、システム
が、ユーザ・アプリケーション・プログラムを実行している間にシステム・コン
トローラ・ボードを適切に試験することが可能になる。
【0030】 センタプレーンは、サンマイクロシステムズ社のGigaplane−XBな
どの16×16クロスバー相互接続ネットワークにすることができる。このセン
タプレーンは、それぞれ最大8個のシステム・ボードを備えることができる2つ
の対称な側面、支持ボードおよびシステム・コントローラ・ボードを含む。シス
テム・ボードは、I2Cバスおよびコンソール・バスを介してセンタプレーンに
接続したノード・インターフェース・ボードに常駐している。I2Cバスは、ツ
ーライン・インターフェースからなる、フィリップス・コーポレーションによっ
て開発されたシリアル・データ・バスである。一方のラインは入力および出力機
能用のデータ・ピンからなり、他方のラインは参照および制御用のクロックであ
る。
【0031】 コンソール・バスはサンマイクロシステムズ社によって開発されたバスであり
、全てのシステム機能の状態および制御用のパスウェイとして、システム・コン
トローラによって用いられる。システム・データ・インターフェース(SDI)
チップは、全てのシステム機能の状態モニタリングおよび構成制御用のパスウェ
イとして、システム・コントローラによって用いられるコンソール・バス・イン
ターフェースを含む。コンソール・バスは主システム制御/診断バスであり、シ
ステムが動作状態にある間は常に正確に動作することを要求される。各システム
・コントローラに1つずつあるデュアル・コンソール・バス・インターフェース
は、冗長度のために用意される。
【0032】 その決定的な重要性故に、SDIは、2つのコンソール・バス・インターフェ
ースの一方の診断試験を、他方のコンソール・バス・インターフェースがモニタ
リングおよび構成機能用のシステムによって積極的に用いられている間に容易に
行うために、コンソール・バス・ケージ・メカニズムも含む。また、SDIチッ
プの両インターフェースは、必要に応じて(たとえば、新たなノードが動作シス
テムに挿入されたときに)、独立してケージして試験することができる。コンソ
ール・バス・ケージは、ケージされたコンソール・バスにアクセスしている間に
発生するあらゆるイベント(正しいか誤っている)が、システムの他の部分の正
常な機能、特に他のコンソール・バス動作に影響しないことを確実にするように
動作する。ケージされ試験された後のシステム・コントローラが正しく機能して
いない場合に、アンケージされたシステム・コントローラは、エラーの性質を判
断するために、診断識別情報を含むSDI状態レジスタにアクセスできる。
【0033】 通常の動作中に、SDIチップのアンケージされたコンソール・バス・インタ
ーフェースは、ノード・インターフェース・ボードから常駐スロット0およびス
ロット1ボードの何れかへの、要求されたあらゆるアドレス変換を処理する。こ
のモードにおいて、単一の状態機はSDIコンソール・バス・ポートの間で共有
できる。ケージ・モードにおいては、第2の状態機を用いてケージされたシステ
ム・コントローラとのトランザクションを処理できる。アンケージ・モードから
ケージ・モードへの移行は、いつでも発生し得る。しかし、プロトコル・エラー
を回避するために、ケージ・モードからアンケージされたモードへの移行は、ア
ンケージ・モードの状態機が静止中であるときにのみ発生し得る。ケージ制御レ
ジスタは、状態機の活動を示すビットおよび、システム・コントローラをケージ
するケージ・モード・ビットを含む。
【0034】 ケージされたシステム・コントローラからの全てのアクセスは、それらが状態
レジスタおよび試験レジスタに関するアドレスの許容範囲内にあるかどうかを判
断するために吟味される。この範囲外のアクセスは、違法アクセス・エラー受信
確認を返されて中止される。エラー通知はエラー(状態)レジスタに記入するこ
とができるが、ケージされたトランザクションによって中断は引き起こされない
【0035】 システムに採用することができるスロット0ボードの例は、支持レベル2のキ
ャッシュを備えた、4個のサンマイクロシステムズのUltraSPARC I
IIマイクロプロセッサを有するマルチプロセッサ・システム・ボードである。
システムに採用することができるスロット1ボードの例は、ネットワーキング用
スロットを有する多数のPCIインターフェースおよびI/Oアダプタを備えた
I/Oボードである。PCIバスは、データ、命令よび制御情報を論理回路間で
伝達するためにコンピュータ・システムにおいて用いられる標準バスである。
【0036】 システム・コントローラ支持ボードは、コンソール・バスおよびI2Cバスを
介してシステム・コントローラをセンタプレーンに接続している。システム・コ
ントローラ支持ボードは中継器である。すなわち、これらはシステム・コントロ
ーラ・ボードからの出力信号を増幅し逓倍し、ノード・インターフェース・ボー
ドへの出力のためにセンタプレーンに送信する。システム・コントローラ・ボー
ドは、システム・クロック・ジェネレータ、温度および気流監視回路ならびに、
診断、ブート、シャットダウンおよび環境モニタリングを処理するコンピュータ
・システムへのPCIインターフェースを備えた、何らかのシステム・レベル・
ロジックを含む。マルチプロセッサ・コンピュータ・システムは、適切な動作の
ために、1つのシステム・コントロール・ボードを必要とするだけである。しか
し、より高いレベルのシステム利用性のために、第2のオプションのシステム・
コントロール・ボードを取り付けることができる。
【0037】 システム・コントロール・ボードに含まれたコンピュータ・システムは、Ul
traSPARC IIIマイクロプロセッサならびに、マルチプロセッサ・コ
ンピュータ・システムにおけるハードウエアの構成および試験用のソフトウエア
を含む、各種のプログラム可能読み取り専用メモリ(PROM)を備えている。
システム・レベル・ロジックは、PCI信号をI2Cバスおよびコンソール・バ
スに変換して、支持ボードの増幅および逓倍の後に、これらの信号をセンタプレ
ーンに送信する。システム・レベル・ロジックは、マルチプロセッサ・コンピュ
ータ・システムのセンタプレーンおよび全てのハードウエア・ボードを通って接
続するJTAGスキャン・チェーンも制御する。JTAG試験アクセス・ポート
は、マルチプロセッサ・コンピュータ・システムのセンタプレーンおよび各種ボ
ードの全体にわたって存在し、システム・コントローラがPOSTを行うときに
、システム・ボードのより高い可視性および検証を可能にする。
【0038】 マルチプロセッサ・コンピュータ・システムの動作中に、代替マイクロプロセ
ッサ・ボードまたはI/Oボードは、挿入された後に、ハードウエアの他の部分
に電気的に結合されなければならない。構成部品は、コンピュータ・システムに
存在する他のハードウエアから分離され、取り付けの前および取り付け中に試験
されなければならない。最後に、ハードウェア・コンポーネントは、動作中のマ
ルチプロセッサ・コンピュータ・システムに論理的に組み込まれて、オペレーテ
ィング・システムを動作させてユーザ用のアプリケーション・プログラムを実行
しなければならない。
【0039】 一実施形態において、代替マイクロプロセッサまたはI/Oボードは、マルチ
プロセッサ・コンピュータ・システムのセンタプレーンに挿入された後に、ダイ
ナミック・システム・ドメインの一部になる。ダイナミック・システム・ドメイ
ンは、マルチプロセッサ・コンピュータ・システムが多数のコンピュータにダイ
ナミックに小分割されることを可能にするソフトウエア・パーティションである
。ダイナミック・システム・ドメインは1つまたは複数のシステム・ボードから
構成できる。各ドメインは、サンマイクロシステムズのソラリスなどの、マルチ
プロセッサ・オペレーティング・システムのそれ自体のローカル・コピーを実行
する別個の共有メモリSMPシステムであり、それ独自のディスク・ストレージ
およびネットワーク接続を有する。個々のシステム・ドメインは他のシステム・
ドメインから論理的に分離されているので、ハードウエアおよびソフトウエアの
エラーは、それらが発生したドメインの範囲内にとどめられ、システムの他の部
分には影響しない。システム管理者が特定のドメイン構成を要求した後に、シス
テム・コントローラは、様々なマイクロプロセッサ・ボードおよびI/Oボード
を、マルチプロセッサ・コンピュータ・システムにおけるダイナミック・システ
ム・ドメインに構成する。
【0040】 マルチプロセッサ・コンピュータ・システムが動作中に、ドメインのハードウ
エア構成に対する変更が必要になる場合がある。ダイナミック・システム・ドメ
イン構成におけるランタイムの変更を容易にするために、システム管理者はドメ
イン間でシステム・ボードをダイナミックに切り換えるか、試験、アップグレー
ドまたは修理のために活動状態のドメインからそれらを取り外すことができるべ
きである。試験または修理の後に、ハードウエア・ボードは、システム動作を中
断することなく活動状態のドメインの1つに容易に再導入されることが理想的で
ある。各システム・ドメインは、全てのドメインを制御するシステム・コントロ
ーラを介して管理される。システム・コントローラは、SPARCワークステー
ションあるいは、マイクロソフトのWindows(登録商標)NTまたはマイ
クロソフトのWindows 98、サンマイクロシステムズのソラリス、IB
MのAIX、ヒューレットパッカードのUXまたは何らかの類似の均等物などの
標準的なオペレーティング・システムおよび、一連の診断プログラムおよび管理
プログラムを実行する同等なコンピュータ・システム・ボードに接続することが
できる。外部コンピュータ・システムは、イーサネット(登録商標)などのネッ
トワーク・インターフェース・カードを介して、マルチプロセッサ・コンピュー
タ・システムに設けられたシステム・コントローラに接続することができる。シ
ステム・コントローラ・ボードのマクロプロセッサは、ネットワーク・インター
フェース・カード(たとえば、TCP/IPイーサネット)のトラフィックを解
釈して、それを符号化された制御情報に変換する。
【0041】 上記の開示が一旦完全に理解されれば、多数の変形および変更が当業者には明
白になるであろう。特許請求の範囲が全てのかかる変形および変更を包含するも
のと解釈されることを意図している。
【図面の簡単な説明】
【図1】 マルチプロセッサ・システムの機能ブロック図である。
【図2】 プロセッサ・ノードの機能ブロック図である。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年9月13日(2001.9.13)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正の内容】
【0013】 本発明は様々な変形や代替的形態が可能であるが、その具体的な実施形態を図
面において例示し、本明細書において詳細に説明する。しかし、図面および以下
の詳細な説明は、本発明を開示した特定の形態に限定することを意図してはおら
ず、逆に、添付の特許請求の範囲によって定義された本発明の範囲の中に入る全
ての変形、均等物および代替的形態を包含することを意図していることを理解さ
れたい。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW (72)発明者 グラフ,エリック・ユージーン アメリカ合衆国・97123・オレゴン州・ヒ ルズボロ・サウスイースト アスター コ ート・2121 (72)発明者 メイヤー,ダグラス・ビイ アメリカ合衆国・92111・カリフォルニア 州・サン ディエゴ・オールド コッブル コート・3456 Fターム(参考) 5B034 AA01 DD03 5B045 BB12 BB28 GG01 GG06 JJ02 JJ06 JJ12 JJ26 5H209 DD20 GG20 HH13 SS01 SS08 【要約の続き】 ジされ」、それによってこのシステム・コントローラか らの通信は他のノード構成部品に到達することを妨げら れる。これによって、システムの通常の動作と干渉する ことなく、ケージされたシステム・コントローラを全て のそれに関連づけられた相互接続と共に試験することが 可能になる。通常のシステム構成タスクは、アンケージ されたシステム・コントローラによって処理される。ア ンケージされたシステム・コントローラは、試験が成功 裏に完了した場合に、ケージされたシステム・コントロ ーラをアンケージするようにノード・インターフェース に命令することができる。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 システム・リソースを割り振って構成するようにそれぞれ構
    成可能な第1および第2のシステム・コントローラと、 通信リンクによって相互接続された複数の処理ノードであって、それぞれがさ
    らに前記第1および第2のシステム・コントローラの両方に連結された複数の処
    理ノードとを含み、 前記処理ノードのそれぞれは、ケージ・モードとアンケージ・モードとの間で
    構成可能なノード・インターフェースを含み、ノード・インターフェイスは、前
    記アンケージ・モードのときにのみ前記システム・コントローラの何れかからの
    情報を他のノード構成部品に伝達し、ケージ・モードのときには前記システム・
    コントローラのうち選択されたものからの情報を検閲する、 マルチプロセッサ・コンピュータ・システム。
  2. 【請求項2】 前記ノード・インターフェースのそれぞれは、アンケージ・
    モードからケージ・モードに切り換えられて、前記選択されたシステム・コント
    ローラをケージする請求項1に記載のマルチプロセッサ・コンピュータ・システ
    ム。
  3. 【請求項3】 前記ノード・インターフェースはさらに接続モードと分離モ
    ードとの間で構成可能であり、接続モードのときには他のノード構成部品からの
    情報を前記通信リンクに伝達し、前記分離モードのときには他のノード構成部品
    からの情報を除去する請求項1に記載のマルチプロセッサ・コンピュータ・シス
    テム。
  4. 【請求項4】 前記ノード・インターフェースはそれぞれ、前記選択された
    システム・コントローラからの情報を記憶するように構成可能であり、前記記憶
    された情報を前記システム・コントローラのうち要求するものに伝達するように
    構成可能である1つまたは複数のレジスタを含む請求項1に記載のマルチプロセ
    ッサ・システム。
  5. 【請求項5】 前記通信リンクは、前記処理ノードを形成する回路ボードを
    相互接続するセンタプレーンによって実現される請求項1に記載のマルチプロセ
    ッサ・システム。
  6. 【請求項6】 前記処理ノードのうち1つまたは複数は、多数のプロセッサ
    を有するプロセッサ・ボードと、共有バス・アーキテクチャにおいて構成された
    メモリ・モジュールとを備えており、前記多数のプロセッサは前記プロセッサ・
    ボード上に設けられたバス・ブリッジを介して前記センタプレーンと通じている
    請求項5に記載のマルチプロセッサ・システム。
  7. 【請求項7】 前記1つまたは複数の処理ノードは、前記プロセッサ・ボー
    ドと前記センタプレーンとの間に連結されたノード・インターフェース・ボード
    をさらに備えており、前記ノード・インターフェース・ボードは前記ノード・イ
    ンターフェースを有する請求項6に記載のマルチプロセッサ・システム。
  8. 【請求項8】 前記1つまたは複数の処理ノードは、前記ノード・インター
    フェース・ボードに連結されたI/Oボードをさらに含む請求項7に記載のマル
    チプロセッサ・システム。
  9. 【請求項9】 前記システム・コントローラはそれぞれ、システム・コント
    ローラ支持ボードによって前記センタプレーンに連結されており、さらに、前記
    センタプレーンおよび前記システム・コントローラ支持ボードを介して、アービ
    トレーションのために互いに連結されている請求項7に記載のマルチプロセッサ
    ・システム。
  10. 【請求項10】 前記第1のシステム・コントローラは、前記ノード・イン
    ターフェースに前記ケージ・モードに入るように命令して、前記第2のシステム
    ・コントローラが、関連づけられたシステム・コントローラ支持ボード、センタ
    プレーンおよびノード・インターフェース・ボードの接続の試験を行う前に、前
    記第2のシステム・コントローラからの情報を検閲する請求項9に記載のマルチ
    プロセッサ・システム。
  11. 【請求項11】 前記第1のシステム・コントローラは、前記ノード・イン
    ターフェースに前記ケージ・モードに入るように命令して、前記第1のシステム
    ・コントローラが前記第2のシステム・コントローラに欠陥があると判断した場
    合に、前記第2のシステム・コントローラからの情報を検閲する請求項1に記載
    のマルチプロセッサ・システム。
  12. 【請求項12】 前記アンケージ・モードのときに、前記ノード・インター
    フェースは、前記システム・コントローラの何れか1つから受け取った情報のエ
    ラーを検出した時点でシステム中断をアサートするように構成されており、ケー
    ジ・モードのときに、前記ケージされたシステム・コントローラから受け取った
    情報のエラーに応じてシステム中断をアサートしない請求項1に記載のマルチプ
    ロセッサ・システム。
  13. 【請求項13】 システム動作中に構成部品の機能性を検証する方法であっ
    て、 前記システムの冗長部分を、前記システムの該冗長システム部分と残りの部分
    との間のインターフェース要素をケージ・モードに置くことによりケージするス
    テップであって、前記インターフェース要素は、前記ケージ・モードのときに前
    記冗長構成部品からの通信を遮断するように構成されており、さらに、アンケー
    ジ・モードのときには前記システムの前記残りの部分への前記冗長構成部品から
    の通信を伝達するように構成されているステップと、 前記残りのシステム部分で通常の工程が動作し続けている間に、前記冗長シス
    テム部分で試験工程を開始するステップとを含む方法。
  14. 【請求項14】 前記システムの前記冗長部分は、 システム・リソースを割り振って構成するように構成可能なシステム・コント
    ローラと、 前記システム・コントローラとセンタプレーンとの間に連結されたシステム・
    コントローラ・インターフェースと、 前記システム・コントローラ・インターフェースと関連づけられた、前記セン
    タプレーン上のバス・ラインと、 前記バス・ラインに連結されたノード・インターフェース・ボード・コネクタ
    とを備えている請求項13に記載の方法。
  15. 【請求項15】 前記インターフェース要素は、前記センタプレーンと個々
    のプロセッサ・ボードとの間に連結されたノード・インターフェース・ボードで
    ある請求項14に記載の方法。
  16. 【請求項16】 前記冗長システム部分をケージする前に、前記冗長システ
    ム部分の構成部品の挿入を検出することと、 前記冗長部分が機能的であることを前記試験工程が示した場合に、前記冗長シ
    ステム部分をアンケージすることとをさらに含む請求項13に記載の方法。
  17. 【請求項17】 システム・リソースを割り振って構成するリソース割り振
    り手段と、 割り当てられたタスクを達成する複数の処理手段であって、通信手段によって
    相互接続されており、それぞれがさらに前記リソース割り振り手段に連結された
    複数の処理手段とを含み、 各処理手段は、前記リソース割り振り手段からの信号に応じて該処理手段の構
    成部品を構成するインターフェース手段を含み、インターフェース手段は、ケー
    ジ・モードとアンケージ・モードとの間で構成可能であり、前記アンケージ・モ
    ードで構成されたときにのみ、前記リソース割り振り手段からの信号を該処理手
    段の前記構成部品に伝達し、前記ケージ・モードのときに前記リソース手段割り
    振り手段からの情報を検閲する、 冗長システム。
  18. 【請求項18】 前記インターフェース手段はそれぞれ、前記リソース割り
    振り手段からの情報を記憶するように構成可能であり、該記憶された情報を要求
    するリソース割り振り手段に伝達するように構成可能である1つまたは複数のレ
    ジスタを含む請求項17に記載の冗長システム。
JP2001516052A 1999-08-09 2000-08-08 冗長システム・コントローラを試験する診断ケージ・モード Pending JP2003506788A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/371,059 1999-08-09
US09/371,059 US6425094B1 (en) 1999-08-09 1999-08-09 Diagnostic cage for testing redundant system controllers
PCT/US2000/021743 WO2001011468A1 (en) 1999-08-09 2000-08-08 Diagnostic cagedmode for testing redundant system controllers

Publications (1)

Publication Number Publication Date
JP2003506788A true JP2003506788A (ja) 2003-02-18

Family

ID=23462301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001516052A Pending JP2003506788A (ja) 1999-08-09 2000-08-08 冗長システム・コントローラを試験する診断ケージ・モード

Country Status (7)

Country Link
US (2) US6425094B1 (ja)
EP (1) EP1204924B1 (ja)
JP (1) JP2003506788A (ja)
AT (1) ATE231995T1 (ja)
AU (1) AU6762500A (ja)
DE (1) DE60001327T2 (ja)
WO (1) WO2001011468A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170577A (ja) * 2015-03-12 2016-09-23 日本電気株式会社 フォールトトレラントサーバおよび同期化方法、並びにコンピュータ・プログラム

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6425094B1 (en) * 1999-08-09 2002-07-23 Sun Microsystems, Inc. Diagnostic cage for testing redundant system controllers
US6618783B1 (en) * 1999-10-29 2003-09-09 Hewlett-Packard Development Company, L.P. Method and system for managing a PCI bus coupled to another system
US6325507B1 (en) * 2000-06-02 2001-12-04 Oakley, Inc. Eyewear retention system extending across the top of a wearer's head
US20040225783A1 (en) * 2001-07-30 2004-11-11 Erickson Michael John Bus to multiple jtag bus bridge
US6954929B2 (en) * 2001-07-30 2005-10-11 Hewlett-Packard Development Company, L.P. Method for just-in-time updating of programming parts
US6877108B2 (en) 2001-09-25 2005-04-05 Sun Microsystems, Inc. Method and apparatus for providing error isolation in a multi-domain computer system
US20030061326A1 (en) * 2001-09-25 2003-03-27 Gilbert Gary L. Managing one or more domains in a system
US7020753B2 (en) 2002-01-09 2006-03-28 Sun Microsystems, Inc. Inter-domain data transfer
EP1394559A1 (de) * 2002-08-27 2004-03-03 Siemens Aktiengesellschaft Verfahren und Anordnung zur Erkennung und Behebung von Leitungsdefekten
DE10345981B4 (de) * 2003-10-02 2007-10-18 Qimonda Ag Schaltungsvorrichtung zur Datenverarbeitung und Verfahren zum Verbinden eines Schaltungskernmoduls mit einem externen Schaltungsmodul
US7418367B2 (en) * 2003-10-31 2008-08-26 Hewlett-Packard Development Company, L.P. System and method for testing a cell
TWI268417B (en) * 2004-12-21 2006-12-11 Inventec Corp Method and system for system configuration debugging of computer peripheral connecting interface in which the debugging process can be executed automatically and an electronic report is automatically produced
US7694175B2 (en) * 2005-02-18 2010-04-06 Hewlett-Packard Development Company, L.P. Methods and systems for conducting processor health-checks
US7603582B2 (en) * 2005-02-18 2009-10-13 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7607040B2 (en) * 2005-02-18 2009-10-20 Hewlett-Packard Development Company, L.P. Methods and systems for conducting processor health-checks
US7917804B2 (en) * 2005-02-18 2011-03-29 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7523346B2 (en) 2005-02-18 2009-04-21 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7607038B2 (en) 2005-02-18 2009-10-20 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7673171B2 (en) 2005-02-18 2010-03-02 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US8661289B2 (en) * 2005-02-18 2014-02-25 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US8667324B2 (en) * 2005-02-18 2014-03-04 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7694174B2 (en) * 2005-02-18 2010-04-06 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US20060294317A1 (en) * 2005-06-22 2006-12-28 Berke Stuart A Symmetric multiprocessor architecture with interchangeable processor and IO modules
US8320235B2 (en) * 2006-02-17 2012-11-27 Advantest (Singapore) Pte Ltd Self-repair system and method for providing resource failure tolerance
US7430692B2 (en) * 2006-06-16 2008-09-30 Siemens Medical Solutions Usa, Inc. Processor operational status management system
US8381014B2 (en) * 2010-05-06 2013-02-19 International Business Machines Corporation Node controller first failure error management for a distributed system
RU2486568C1 (ru) * 2012-05-17 2013-06-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Тихоокеанский государственный университет" Способ поиска неисправного блока в непрерывной динамической системе
RU2486569C1 (ru) * 2012-05-17 2013-06-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Тихоокеанский государственный университет" Способ поиска неисправного блока в дискретной динамической системе
RU2486570C1 (ru) * 2012-05-18 2013-06-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Тихоокеанский государственный университет" Способ поиска неисправного блока в дискретной динамической системе
RU2541896C1 (ru) * 2013-10-24 2015-02-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Тихоокеанский государственный университет" Способ поиска неисправного блока в дискретной динамической системе на основе анализа знаков передач сигналов
US9256489B2 (en) * 2013-10-30 2016-02-09 International Business Machines Corporation Synchronized debug information generation
US9618909B2 (en) * 2013-12-20 2017-04-11 Thales Canada Inc Safety assurance of multiple redundant systems
US9940486B2 (en) * 2015-02-23 2018-04-10 Cisco Technology, Inc. Detection of hardware tampering
US10572675B2 (en) 2016-11-02 2020-02-25 Cisco Technology, Inc. Protecting and monitoring internal bus transactions
TWI746083B (zh) * 2020-07-24 2021-11-11 聯陽半導體股份有限公司 訊號中繼系統

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4133027A (en) * 1977-09-13 1979-01-02 Honeywell Inc. Process control system with backup process controller
US4342084A (en) 1980-08-11 1982-07-27 International Business Machines Corporation Main storage validation means
US4503535A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for recovery from failures in a multiprocessing system
US4684885A (en) 1985-11-04 1987-08-04 Get Communication Systems Corporation Arrangement for on-line diagnostic testing of an off-line standby processor in a duplicated processor configuration
DE3775946D1 (de) 1986-03-12 1992-02-27 Siemens Ag Verfahren zum betrieb einer fehlergesicherten hochverfuegbaren multiprozessor-zentralsteuereinheit eines vermittlungssystemes.
CA2107755C (en) 1992-11-16 1998-07-07 Paul Elliott Janssen Telecommunication system with improved reconfiguration flexibility
US5416921A (en) 1993-11-03 1995-05-16 International Business Machines Corporation Apparatus and accompanying method for use in a sysplex environment for performing escalated isolation of a sysplex component in the event of a failure
US5765034A (en) 1995-10-20 1998-06-09 International Business Machines Corporation Fencing system for standard interfaces for storage devices
US6425094B1 (en) * 1999-08-09 2002-07-23 Sun Microsystems, Inc. Diagnostic cage for testing redundant system controllers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170577A (ja) * 2015-03-12 2016-09-23 日本電気株式会社 フォールトトレラントサーバおよび同期化方法、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
DE60001327T2 (de) 2003-10-30
US6760868B2 (en) 2004-07-06
DE60001327D1 (de) 2003-03-06
ATE231995T1 (de) 2003-02-15
EP1204924A1 (en) 2002-05-15
WO2001011468A1 (en) 2001-02-15
EP1204924B1 (en) 2003-01-29
US6425094B1 (en) 2002-07-23
US20020152421A1 (en) 2002-10-17
AU6762500A (en) 2001-03-05

Similar Documents

Publication Publication Date Title
JP2003506788A (ja) 冗長システム・コントローラを試験する診断ケージ・モード
US6571360B1 (en) Cage for dynamic attach testing of I/O boards
US6970948B2 (en) Configuring system units using on-board class information
US6122756A (en) High availability computer system and methods related thereto
US7313717B2 (en) Error management
US6138247A (en) Method for switching between multiple system processors
US6886107B2 (en) Method and system for selecting a master controller in a redundant control plane having plural controllers
US6640203B2 (en) Process monitoring in a computer system
US20040221198A1 (en) Automatic error diagnosis
EP1041491A2 (en) Method and apparatus for adding and removing components without powering down the computer system
JPH01154241A (ja) 同期二重コンピュータシステム
WO2013094048A1 (ja) 試験サーバ、情報処理システム、試験プログラムおよび試験方法
US6161197A (en) Method and system for controlling a bus with multiple system hosts
JPH10228458A (ja) 構成可能なハードウエア・システム・ドメインを有するマルチプロセッサ・コンピュータ
JPH03182939A (ja) ソフトウェアのエラー処理の方法
JPH11161625A (ja) コンピュータ・システム
WO2006043227A1 (en) Data processing system and method for monitoring the cache coherence of processing units
US8166273B2 (en) Degeneration method and information processing apparatus
US7363531B2 (en) Data synchronization for system controllers
GB2342471A (en) Configuring system units
US7350063B2 (en) System and method to filter processors by health during early firmware for split recovery architecture
JP2005508045A (ja) コンピュータ・システム内のドメイン間のトランザクションを調停する方法および装置
JP3624051B2 (ja) 情報処理装置
Helmich et al. Redundant I/O interconnect
US9606795B1 (en) Providing intelligent components access to an external interface