JP2004326775A - 分散ノード環境におけるfru障害分離のための機構 - Google Patents

分散ノード環境におけるfru障害分離のための機構 Download PDF

Info

Publication number
JP2004326775A
JP2004326775A JP2004122267A JP2004122267A JP2004326775A JP 2004326775 A JP2004326775 A JP 2004326775A JP 2004122267 A JP2004122267 A JP 2004122267A JP 2004122267 A JP2004122267 A JP 2004122267A JP 2004326775 A JP2004326775 A JP 2004326775A
Authority
JP
Japan
Prior art keywords
counters
error
counter
computer
integrated circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004122267A
Other languages
English (en)
Inventor
Stephen Floyd Michael
マイケル・ステファン・フロイド
Scott Laytner Larry
ラリー・スコット・レイトナー
Kevin Franklin Reick
ケビン・フランクリン・ライク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004326775A publication Critical patent/JP2004326775A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Abstract

【課題】コンピュータ・システムを介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別する方法を提供すること。
【解決手段】コンピュータ構成要素(処理装置など)にそれぞれ関連付けられた複数のカウンタを初期化し、コンピュータ構成要素が動作している間は、カウンタを増分するが、所与のカウンタを、それに関連するコンピュータ構成要素がエラーを検出したときは一時停止させ、次いで、どのカウンタが最小のカウント値を含んでいるかを判断する。初期化信号を受信する相対遅延時間に基づいて、カウンタの同期をとる。エラーが報告されたとき、診断コードが、最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録する。
【選択図】図3

Description

本発明は、一般には、コンピュータ・システムに関し、より詳細には、複雑な通信トポロジで相互接続されたいくつかの構成要素、特に、処理装置、メモリ・デバイスなどの現場交換可能なユニットすなわちFRU(Field Replaceable Unit)のいずれか1つから生じた可能性があるシステム・エラーの発生源を判断する改良型の方法に関する。
図1に、従来の対称マルチプロセッサ・コンピュータ・システム10の基本的な構造を示す。コンピュータ・システム10は、1つまたは複数のプロセッサ・グループに構成された1つまたは複数の処理装置を含み、図示するシステムでは、プロセッサ・グループ14内に、4つの処理装置12a、12b、12cおよび12dがある。処理装置は、システムまたはファブリック・バス16を介してシステム10の他の構成要素と通信する。ファブリック・バス16は、1つまたは複数のサービス・プロセッサ18a、18b、システム・メモリ・デバイス20および様々な周辺装置22に接続される。プロセッサ・ブリッジ24を任意選択で使用して、追加のプロセッサ・グループを相互接続することができる。システム10は、ファームウェア(図示せず)を含むこともでき、このファームウェアは、システムの基本入出力論理を格納し、コンピュータに最初に電源が投入された(コンピュータが立ち上げられた)ときはいつでも、周辺装置の1つから、オペレーティング・システムを見つけてロードする。
システム・メモリ・デバイス20(ランダム・アクセス・メモリすなわちRAM)は、処理装置が使用するプログラム命令およびオペランド・データを、揮発性(一時的)状態で格納する。周辺装置22は、たとえばPCIホスト・ブリッジを使用するPCI(周辺装置相互接続:Peripheral Component Interconnect)ローカル・バスを介して、ファブリック・バス16に接続することができる。PCIブリッジは、待ち時間の小さい経路を提供し、この経路を介して処理装置12a、12b、12cおよび12dは、バス・メモリまたはI/Oアドレス空間内のどこかにマップされているPCIデバイスにアクセスすることができる。またPCIホスト・ブリッジ22は、広帯域経路を提供して、PCIデバイスがRAM20にアクセスできるようにする。こうしたPCIデバイスは、ネットワーク・アダプタと、永続記憶装置(すなわちハード・ディスク)との相互接続を提供するSCSI(小型コンピュータ・システム・インターフェース:SmallComputer System Interface)アダプタと、キーボード、表示装置に接続されたグラフィックス・アダプタ、および表示装置とともに使用するためのグラフィカル・ポインティング装置(マウス)を含めた入出力(I/O)装置に接続するためのISA(業界標準アーキテクチュア:IndustryStandard Architecture)拡張バスなどの拡張バス・ブリッジとを含むことができる。
対称マルチプロセッサ(SMP)コンピュータでは、処理装置12a、12b、12cおよび12dはすべて、一般に同一のものである。すなわち、それらはすべて、命令およびプロトコルの共通のセットまたはサブセットを使用して動作し、一般に同じアーキテクチュアを有する。処理装置12aで示すように、それぞれの処理装置は、コンピュータを動作させるためにプログラム命令を実行する1つまたは複数のプロセッサ・コア26a、26bを含むことができる。例示的なプロセッサ・コアは、インターナショナル・ビジネス・マシーンズ・コーポレーションが販売するPowerPC(商標)プロセッサを含む。このプロセッサは、様々な実行ユニット、レジスタ、バッファ、メモリおよび他の機能ユニットを含む単一の集積回路スーパースカラ・マイクロプロセッサを備えており、これらのユニットはすべて、集積回路によって形成される。プロセッサ・コアは、スーパースカラ・アーキテクチュアのパフォーマンスをさらに向上させるために、RISC(縮小命令セットコンピューティング:Reduced Instruction Set Computing)技術に従って動作することができ、また命令のパイプライン処理およびアウトオブオーダ処理の両方を使用することができる。
それぞれのプロセッサ・コア26a、26bは、高速メモリ・デバイスを使用して実装されるオンボード(L1)キャッシュ(実際には別個の命令キャッシュおよびデータ・キャッシュ)を含む。システム・メモリ20から値をロードするステップが長くなることを回避することによって処理を速めるために、キャッシュを一般に使用し、プロセッサが繰り返しアクセスする可能性がある値を一時的に格納する。処理装置は、2次(L2)キャッシュ28などの別のキャッシュを含むことができ、このL2キャッシュは、メモリ・コントローラ30とともに、コア26aおよび26bそれぞれの一部である、両方のL1キャッシュをサポートする。ファブリック・バス16を介してアクセスすることができるL3キャッシュ32などの追加のキャッシュ・レベルを設けることができる。それぞれのキャッシュ・レベルは、最も高次(L1)のものから最も低次(L3)のものへと続いて、より多くの情報を格納することができるが、アクセス・ペナルティは大きくなる。たとえば、プロセッサ・コア内のオンボードL1キャッシュは、128キロバイトのメモリ記憶容量を有することがあり、L2キャッシュ28は、512キロバイトの記憶容量を有することがあり、L3キャッシュ32は、2メガバイトの記憶容量を有することがある。欠陥のある処理装置構成要素の修理/交換を容易にするために、それぞれの処理装置12a、12b、12cおよび12dは、モジュール方式で容易にシステム10へスワップ・インストールし(swap install)、そこからスワップ・アウトすることができる、交換可能な回路板、プラグ可能モジュールまたは類似の現場交換可能ユニットすなわちFRUの形態で構成することができる。
マルチプロセッサ・コンピュータ・システムは、より規模が大きく、複雑になっているので、様々なシステム構成要素から発生するエラーの診断および訂正がますます重要視されてきた。エラーによっては、こうした構成要素に埋め込まれているエラー訂正コード(ECC:Error Correction Code)論理によって訂正することができるが、訂正コードは、それが訂正と検出の両方を行うことができるエラーの数に限りがあるので、こうしたエラーの原因を突き止めることが依然として求められている。一般に、使用されるECCコードは、SEC/DEDタイプ(Single-ErrorCorrect/Double Error Detect:単一エラー訂正/二重エラー検出)である。したがって、永続的な訂正可能エラーが発生した場合、第2のエラーが訂正不可能なエラーを引き起こし、システムをクラッシュさせることを回避するために、できるだけ早く欠陥のある構成要素のFRU交換を求めることが望ましい。システムに、システム・エラーを引き起こす障害および欠陥がある場合は、破壊によって、下流の、SMPファブリックに接続された他のチップまたは装置上で、二次エラーが発生し得るので、一次エラーの元の発生源を突き止めることが難しくなり得る。こうした破壊は、回復可能なまたはチェック停止(システム障害)状態という形をとり得る。多くのエラーは、パフォーマンスの問題に起因して、伝搬することができる。インライン・エラー訂正は、システムに多大な遅延時間をもたらし得るので、ECCは、データ・パケットのソースまたは中間ノードではなく、データ・パケットの終点(データ「コンシューマ」)でだけ使用されることがある。したがって、回復可能なエラーには、望ましくない待ち時間をシステムに加えずにデータを転送する前に、ECC訂正を行うのに十分なほどの時間がしばしば不足し、したがって、不良なデータが故意に以降のノードまたはチップに伝搬されることがある。回復可能エラーとチェック停止エラーの両方にとって、診断ファームウェアがシステムを分析し、エラーの一次発生源を確実に突き止めることができ、それによって適切な措置を講じることができることが重要である。訂正の措置は、構成要素の予防修理、選択されたリソースの構成解除、および/または完全に動作可能なユニットとスワップ・アウトすることができるFRUである場合には、欠陥構成要素交換を求めるサービス・コールを含み得る。
システム10では、エラーの元の原因を分離するために使用される方法が、それぞれの構成要素に1つ配置される複数のカウンタまたはタイマ、および構成要素を通ってループを形成する通信リンクを使用する。たとえば、図2に、システム10のプロセッサの通信トポロジを示す。複数のデータ経路すなわちバス34は、トポロジ内の隣接プロセッサ・コア間の通信を可能にする。それぞれのプロセッサ・コアに、一意のプロセッサ識別番号が割り当てられる。一実施形態では、1つのプロセッサ・コア、本例ではコア26aが、一次モジュールに指定される。この一次モジュールは、処理装置12b内のプロセッサ・コアのうち1つに情報を供給する通信バス34を含む。通信バス34は、複数のデータ・ビット、複数の制御ビット、および1つのエラー・ビットを含み得る。こうした従来技術の設計では、所与のプロセッサ・コア内のそれぞれのカウンタが、エラーが最初に検出されたときに増分し始め、システム・エラー表示が(バス34内のエラー・ビットを介して)バス・トポロジ全体を横断し、その所与のコアに戻ってきた後で、そのカウンタが停止する。次いで、カウンタを調べて、エラーの一次発生源を示す最大カウント数を含む構成要素を識別することができる。
障害分離に対するこうした手法は、単純なリング(単一ループ)トポロジでは可能であるが、たとえば通信トポロジ内で交差する複数ループを含むことがある、より複雑な処理装置の構成では実現可能でない。こうした構成では、まさにどのチップが一次エラーを受け、また特定のデータまたはコマンド・パケットがどのようにファブリック・トポロジに沿ってルーティングされるかによって決定される予測不可能な形でエラーがトポロジを介して伝搬する可能性があるので、最大カウント数のカウンタが欠陥のある構成要素に対応するという保証はない。構成要素を監視して判断を行うことができる中央制御ポイントを備える障害分離システムを考案することができるが、中央制御では、システム全体のシャットダウンを引き起こし得る単一の障害点が与えられることになるので、現代コンピューテイングの動向は、こうした中央制御から脱却しつつある。
米国特許出願第10/425397号
したがって、複雑な通信トポロジを有するコンピュータ・システムにおいて、障害を分離して、複数の構成要素のうちからシステム・エラーの発生源を正確に特定する(pinpoint)改良された方法を考案することが望ましいであろう。この方法が、追加の相互接続によってチップ配線をさらに複雑にするのではなく、構成要素間の既存の経路を使用するのであれば、それはいっそう有利であろう。
したがって、本発明の一目的は、コンピュータ・システムがエラーの発生源を識別するための改良された診断方法を提供することである。
本発明の別の目的は、プロセッサ・コアなどの構成要素を含み、および位相的に複雑な通信経路を有するコンピュータ・システムに適用することができるこうした方法を提供することである。
本発明の別の目的は、他のコンピュータ構成要素に伝搬し、こうした構成要素内で二次エラーを引き起こす可能性のあるエラーの一次発生源を突き止める方法およびシステムを提供することである。
前記の目的は、コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別する方法で達成され、この方法は一般に、コンピュータ構成要素(処理装置など)にそれぞれ関連付けられた複数のカウンタを初期化するステップと、コンピュータ構成要素が動作している間はカウンタを増分するが、所与のカウンタを、それに関連するコンピュータ構成要素がエラーを検出したときに一時停止するステップと、次いで、カウント値が最も低いカウンタはどれかを判断するステップとを含む。そのカウンタが、エラーの一次発生源であるコンピュータ構成要素に対応する。初期化信号を受信する相対遅延時間に基づいて、カウンタの同期がとられる。所与のカウンタは、それと同じ集積回路チップ上にある構成要素内にエラーが検出された結果でも、異なる集積回路チップからのエラー信号が検出された結果でも一時停止することができる。エラーが報告されたときは、診断コードが、最小カウント値を含むカウンタと関連付けられる特定のコンピュータ構成要素について、エラー・イベントをログに記録する。
カウンタが現在のカウントをゼロに(モジュロのように(in a modulofashion))ラップアラウンドするときに発生し得る潜在的な問題を回避するために、それぞれのカウンタの最大カウント値が、コンピュータ構成要素トポロジを回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に相当するように、それぞれのカウンタに十分な記憶域を設ける。次いで、診断コードが、いずれかの低いラップアラウンド値を認識し、どのカウンタのカウントが本当に最小であるかを判断したときに、最大カウント値を適切に加算する。回復可能なエラーをもたらすハードな障害(すなわち「スタック(stuck)」ビット)を伴う潜在的な問題をさらに回避するために、障害分離制御によって、コンピュータ構成要素間の通信経路を静止し、コンピュータ構成要素上の障害分離レジスタをクリアし、次いでその通信経路を再開することができる。
本発明の上記および追加の目的、特徴および利点は、以下で詳細に記載する説明から明らかになろう。
添付の図面を参照することによって、本発明がより深く理解され、またその数々の目的、特徴および利点が当業者には明らかになり得る。
様々な図面内で同じ参照記号を使用することによって、同様または同一の項目を示す。
次に図面、特に図3を参照すると、本発明に従って構成される対称マルチプロセッサ(SMP)コンピュータ・システム向けのプロセッサ・グループ40の一実装が示されている。この特定の実装では、プロセッサ・グループ40は、処理装置の3つのドロワ(drawer)42a、42b、42cで構成される。3つのドロワだけが示されているが、プロセッサ・グループは、それより少数のドロワを含むことも、追加のドロワを含むこともある。SMPシステムの物理的な設置では、ドロワは、関連するフレーム内にスライドして入るように機械的に設計されている。処理装置ドロワはそれぞれ、2つのマルチチップ・モジュール(MCM:multi-chipmodule)を含み、すなわちドロワ42aはMCM44aおよび44bを、ドロワ42bはMCM44cおよび44dを、ドロワ42cはMCM44eおよび44fを含む。この場合も、この構成は、ドロワごとに3つ以上のMCMを含み得る。それぞれのMCMは、4つの集積チップまたは別個の処理装置を含む(5つ以上でも、3つ以下でも設けることができる)。所与のMCMについて、4つの処理装置に、文字「S」、「T」、「U」および「V」のラベルが付けられる。したがって、図3には、合計で24個の処理装置すなわちチップが示されている。
送信されたデータおよびコマンドの対象設定(targeting)が行えるように、それぞれの処理装置に、一意の識別番号(PID)が割り当てられる。MCMのうち1つが、本例ではMCM44aが、一次モジュールに指定され、そのモジュールの一次チップSは、サービス・プロセッサによって直接制御される。それぞれのMCMを、現場交換可能ユニット(FRU)として製造することができ、それによって、特定のチップに欠陥が生じた場合は、モジュールまたはドロワ内の他の部分の交換を必要とせずに、新しい、機能する装置とスワップ・アウトすることができる。あるいは、技術者がどのように訓練されているか、顧客の環境においてFRUの交換がどれくらい容易か、およびドロワの構成に応じて、FRUがドロワ全体となり得る(好ましい実施形態)。
プロセッサ・グループ40は、図1に関して論じたように、他の構成要素、たとえば追加のメモリ階層、通信ファブリック、周辺装置などを含み得るSMPシステムで使用するように適合される。SMPコンピュータ・システム用のオペレーティング・システムは、ある種の構成要素、すなわちFRUを、システムの残りの部分が実行されている間に、オフラインで取り出すことを可能にする好ましいシステムであり、それによって、全体的なシステムダウンを伴わずに、FRUの交換を実施することができる。
通信ファブリックを介して使用可能な相互接続に加えて、パフォーマンスの理由から、一部のチップ間に様々なデータ経路が設けられる。図3で見られるように、こうした経路は、数個のドロワ間バス46a、46b、46cおよび46d、ならびにドロワ内バス48a、48bおよび48cを含む。所与の処理チップを、同じモジュール上の他のあらゆる処理チップに接続するモジュール内バスもある。例示的な実施形態では、こうした経路のそれぞれが、128個のデータ・ビット、40個の制御ビット、1個のエラー・ビットを提供する。さらに、図示するSチップ接続46および48と同様に、Tチップを他のTチップと、Uチップを他のUチップと、Vチップを他のVチップと接続するバスもあり得る。図が見やすいように、こうしたバスを省略している。この具体的な実施形態では、こうしたチップすべての間に存在しているバス・インターフェースがエラー信号を含むが、位相的に複雑になることを制限しながら、最大の接続性およびエラー伝搬速度を実現するために、図示されたバス上のエラー信号だけが実際に使用される。
次に、図4を参照すると、それぞれのユニットは一般に同一であり、所与のチップ50は本質的に、クロック制御された複数の構成要素52およびフリーラン構成要素(free-running component)54で構成される。クロック制御された構成要素は、2つのプロセッサ・コア56aおよび56b、メモリ・サブシステム58、ならびに障害分離回路60を含む。2つのプロセッサ・コアが、1つの集積チップ上に含まれるものとして示されているが、それより少ないことも、多いこともある。それぞれのプロセッサ・コア56aおよび56bは、それ自体の制御論理、実行ユニット、レジスタおよびバッファの別個のセット、ならびにその1次(L1)キャッシュ(それぞれのコア内の別個の命令キャッシュおよびデータ・キャッシュ)を含む。コア内のL1キャッシュおよびロード/格納ユニットは、メモリ・サブシステム58と通信し、メモリ階層から/に対してデータの読出し/書込みを行う。メモリ・サブシステム58は2次(L2)キャッシュおよびメモリ・コントローラを含み得る。プロセッサ・コアおよびメモリ・サブシステムは、前の段落で説明したデータ経路とのインターフェース62を介して他のチップと通信することができる。
チップ50のフリーラン構成要素は、スキャン通信(SCOM:ScanCommunications)コントローラ66およびスキャン・リング・コントローラ68に接続されたJTAGインターフェース64を含む。JTAGインターフェース64は、サービス・プロセッサと、チップ50の内部制御インターフェースの間のアクセスを提供する。JTAGインターフェース64は、テスト・アクセス・ポートおよびバウンダリ・スキャン・アーキテクチュアに関係するIEEE(Instituteof Electrical and Electronics Engineers:電気電子技術者協会)規格1149.1でコンパイルされる。SCOMは、システム・クロックを動作させたままにしながら、内部レジスタへの読み書きアクセスを可能にするJTAGプロトコルの拡張版である。
SCOMコントローラ66は、クロック・コントローラ70、および並列直列変換器72に接続される。SCOMコントローラ66は、サービス・プロセッサが、クロックがまだ動作している間に、クロック制御構成要素内に配置された「サテライト」にさらにアクセスできるようにする。こうしたSCOMサテライトは、構成要素内の様々な機能を可能にするために使用することができる内部の制御レジスタおよびエラー・レジスタを含む。SCOMコントローラ66は、外部SCOM(すなわちXSCOM:external SCOM)インターフェースに接続することもでき、この外部SCOMインターフェースによって、サービス・プロセッサの介入を必要とせずに、さらに多くのチップ間通信がもたらされる。SCOMサテライトおよびXSCOMチップ間インターフェースの追加の詳細については、本件と同時期に申請された、米国特許出願第10/425397号「分散ノード・トポロジにおけるチップ間の通信機構(CROSS-CHIPCOMMUNICATION MECHANISM IN DISTRIBUTED NODE TOPOLOGY)」で見ることができる。同特許を本明細書中で援用する。スキャン・リング・コントローラ68は、機能クロックが停止した内部ラッチ状態に、通常のJTAGスキャン機能(LSSDタイプ)を提供する。
プロセッサ・グループ40内の処理装置はそれぞれ、図4で示す構造を含むが、一部の処理装置またはそのサブセットに、追加ポートなどの特別な機能を、要望に応じて設けることができる。
さらに図5を参照すると、障害分離回路60がより詳しく示されている。それぞれの処理チップ(またはより一般には、SMPシステム内のいずれのFRUも)障害分離回路にカウンタ/タイマ76を含む。こうしたカウンタを使用して、どの構成要素が、システムの他の「下流」構成要素に伝搬して、二次エラーを引き起こした可能性があるエラーの一次発生源であったかを突き止める。背景技術の節で述べたように、従来技術の障害分離技術では、エラーが検出されたときに始動し、次いで、エラーがリング・トポロジを横断した後に停止するカウンタが使用されていた。その場合、最大カウント数のカウンタがエラーの発生源に対応していた。一方、本発明は、立ち上げ時に(またはエラー・イベントが生じる前の、何らかの他の一般的な初期化を行う際に)すべてのカウンタ76を始動させ、その後、エラー状態が検出されたら直ちに所与のカウンタを停止する。この場合、最小カウント数のカウンタによって、エラーの元の発生源である構成要素が識別される。
エラーが最初に発生した際に、エラー信号によってアクティブ化されるラッチ78によって、カウンタ76がフリーズまたは一時停止される。エラー信号は、コア56a、56bまたはメモリ・サブシステム58に関連する、エラー訂正コード(ECC)回路、機能制御チェッカ、またはパリティ・チェック回路から内部的に生じることもあれば、データ経路内に含まれる単一ビットのエラー・ラインから外部的に生じることもある。サービス・プロセッサ内で実行されるプロセッサ・ランタイム診断コードによって、JTAGインターフェースを介してカウンタ76をチェックして、どのカウンタが、いずれかの障害分離回路60によってエラーが検出された最初の時点に対応する最小カウンタ数を含むかを判断する。次いで、一次発生源として識別された対応する構成要素について、診断コードがエラー・イベントをログに記録する。回復可能なエラーの場合は、プロセッサがまだ実行している間に、プロセス全体が行われる。こうした改善された障害分析によって、障害が発生した後の、より迅速な修理および長い実行可能時間がもたらされる。所与のFRUについて最初に報告されたエラーに関するサービス・コールを行う必要はない。診断コードによってエラー情報を収集することができ、特定のFRUについて、エラー数が関連する閾値を超えている場合には、サービス・コールが行われる。こうした手法によって、システムが、必ずしも欠陥ハードウェアを示しているのではない、分離された「ソフト・エラー」のイベントと、構成要素に障害または欠陥が生じたことを示す、より永続的なすなわち「ハード・エラー」のイベントを区別できるようになる。
各カウンタ76のクロック(増分)周波数は同じであるが、カウント数が適切に解釈されるように、すべてのカウンタの同期をとらなければならない。同期化は立ち上げ時に実施することができる。例示的な実施形態では、同期信号用に単一ビットのエラー・ラインが使用されるが、別法として、別個の信号を設けることもできる。このようにして、システムの電源が最初に投入されたときに、エラー信号を使用して、カウンタ76を再設定する同期化論理(SYNC)80をアクティブ化することができる。同期化論理80は、特定のチップについて、エラー信号の待ち時間を考慮し、すなわち初期化エラー信号を受信する相対遅延時間に基づいて、様々なチップ内の様々なカウンタが、0以外の様々な初期値を有することができる(あるいは、エラー・サイクルのもう一方側で、診断コードによって、こうした待ち時間を考慮することもでき、すべてのカウンタがゼロ値に再設定される)。診断コードがエラーに対処した後、すべてのカウンタがクリアされ、再度同期がとられる。別法として、特殊な同期化ハードウェア80の代わりに、サービス・プロセッサを用いて、JTAGおよびSCOMインターフェースを介してカウンタの同期をとることもできる。
カウンタ76のカウント値は限られているので、カウンタはモジュロのように動作し、カウンタが最大値から増分されたときに、現在の値をゼロにラップアラウンドする。最大カウント値が比較的に低い場合には、診断コードがカウント結果の解釈を誤ることがあり得る。たとえば、モジュロ・ラップアラウンドのため、カウンタが実際には、それよりも大きいカウント数を意味する場合に、カウンタのゼロ値を最小カウント数として識別することがあり得る。こうした問題を回避するために、それぞれのカウンタに、その最大カウント値が(クロック周波数に基づく)サイクル時間に対応することを保証するのに十分なほどの記憶域を設ける。このサイクル時間は、システムを回るエラー伝搬の最大遅延時間、すなわちエラーがプロセッサ・グループ40を横断するのに要する最大時間の少なくとも2倍である。診断コードは、これを理解しており、低いラップアラウンド値と、見られる最大カウント数の差が大きい(最大伝搬遅延時間を超える)ことによって、低いラップアラウンド値を認識し、最小カウント数を識別したときに、(たとえば最大カウント値をいずれかのラップアラウンド値に加算することによって)単にモジュロ計算をラップアラウンド値に組み入れることができる。
ハードな回復可能障害(ECC保護インターフェース上の単一の「スタック」ビットなど)の場合、障害分離はさらに難しくさえなり得る。このような場合、障害分離レジスタ(FIR:Fault Isolation Register)がクリアされたときに、別のエラーが、通信トポロジを回って伝搬されている途中であることがある。特別な配慮がなされないと、FIRがクリアされることがあり、エラー報告が途中で新たに開始し、中間の二次エラーが一次エラーとして誤って識別されることになる。こうした問題は、通信経路を瞬間的に静止させ、任意の中間トラフィックを取り除き、すべてのチップ上のFIRおよびカウンタを、同期をとってクリアし、次いで通信経路を改めて再開することによって解決することができる。このようにして、中間障害の伝搬によって、誤った分離レジスタが間違ってアクティブ化され得ないようにする。こうした静止時間は非常に短いので、処理装置またはI/O装置には、それが、通信トポロジを使用するための通常の調停による遅延時間とは異なるものには見えず、それによって、診断コードが回復可能エラーの発生源を除去する際に、顧客は停止に気付かない。
特定の実施形態を参照して本発明について述べたが、こうした説明は、限定的な意味で解釈されるものではない。本発明の説明を参照することにより、開示した実施形態の様々な修正、および本発明の別の実施形態が当業者には明らかになろう。たとえば、処理装置に関連する障害分離回路の背景において本発明を開示したが、本発明はより一般に、処理装置だけでなく、コンピュータ・システムの任意の構成要素、特に、任意のFRUに適用することができる。したがって、添付の特許請求の範囲で定める本発明の精神または範囲から逸脱せずに、こうした修正を行えることが企図されている。
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別する方法であって、
複数のコンピュータ構成要素にそれぞれ関連付けられた複数のカウンタを初期化するステップと、
前記コンピュータ構成要素が動作している間、前記複数のカウンタを増分するステップと、
前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに、一時停止するステップと、
前記一時停止ステップの後で、前記複数カウンタのうちどれが最小カウント値を含むかを判断するステップとを含む方法。
(2)前記初期化ステップが、初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタのそれぞれの同期をとるステップを含む、上記(1)に記載の方法。
(3)前記複数のカウンタのうち1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーを検出するステップに応答して一時停止される、上記(1)に記載の方法。
(4)前記複数カウンタのうち1つが、第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号を検出するステップに応答して一時停止される、上記(1)に記載の方法。
(5)前記判断ステップに応答して、最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録するステップをさらに含む、上記(1)に記載の方法。
(6)前記複数カウンタのうち1つが、最大カウント値を超えて1回または複数回増分された後、低いラップアラウンド値で中断され、
前記判断ステップが、前記最大カウント値を前記低いラップアラウンド値に加算するステップを含む、上記(1)に記載の方法。
(7)前記コンピュータ構成要素間の通信経路を静止するステップと、
前記静止ステップの後に、前記コンピュータ構成要素上の障害分離レジスタをクリアするステップと、
前記クリア・ステップの後に、前記通信経路を再開するステップとをさらに含む、上記(1)に記載の方法。
(8)コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別するための機構であって、
複数のコンピュータ構成要素にそれぞれ関連付けられ、それぞれが初期化され、前記コンピュータ構成要素が動作している間に増分する複数のカウンタと、
前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに一時停止する手段と、
前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含む機構。
(9)初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、上記(8)に記載の機構。
(10)前記複数カウンタのうち特定の1つが集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーが検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、上記(8)に記載の機構。
(11)前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、上記(8)に記載の機構。
(12)最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録する診断コードをさらに含む、上記(8)に記載の機構。
(13)それぞれのカウンタの最大カウント値が、前記コンピュータ構成要素を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、上記(8)に記載の機構。
(14)前記判断手段が、前記コンピュータ構成要素間の通信経路を静止し、それらが静止している間に、前記コンピュータ構成要素上の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、上記(8)に記載の機構。
(15)複数の処理装置と、
前記処理装置にプログラム命令およびオペランド・データを提供するためのメモリ階層と、
前記複数の処理装置のうち様々な処理装置間で通信できるようにするデータ経路と、
前記複数の処理装置にそれぞれ関連付けられ、それぞれが初期化され、前記複数の処理装置が動作している間に増分する複数のカウンタと、
前記複数カウンタのうち所与の1つを、それに関連する処理装置がエラーを検出したときに一時停止する障害分離論理と、
前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含むコンピュータ・システム。
(16)初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、上記(15)に記載のコンピュータ・システム。
(17)前記複数カウンタのうち特定の1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある処理装置内でエラーが検出されたことに応答して、前記障害分離論理が前記特定のカウンタを一時停止する、上記(15)に記載のコンピュータ・システム。
(18)前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止の手段が前記特定のカウンタを一時停止する、上記(15)に記載のコンピュータ・システム。
(19)最小カウント値を含むカウンタに関連する特定の処理装置について、エラー・イベントをログに記録する診断コードをさらに含む、上記(15)に記載のコンピュータ・システム。
(20)それぞれのカウンタの最大カウント値が、前記処理装置を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、上記(15)に記載のコンピュータ・システム。
(21)前記判断手段が、前記通信経路を静止し、それらが静止されている間に、前記処理装置内の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、上記(15)に記載のコンピュータ・システム。
一般的に同一の4つの処理ユニットの1つについて、内部の詳細が示された、従来の対称マルチプロセッサ(SMP)コンピュータ・システムのブロック図である。 図1のSMPコンピュータ・システムのプロセッサの通信トポロジを示すブロック図である。 本発明の一実装による、プロセッサ・グループのレイアウトおよび通信トポロジを示すブロック図である。 特定の処理装置がエラーの一次発生源であるかどうかを判断するために使用される、本発明による障害分離回路を含む、図3のプロセッサ・グループ内の処理装置(チップ)のうち1つを示すブロック図である。 本発明による障害分離回路の一実施形態を示す、ハイレベル概略図である。
符号の説明
10 コンピュータ・システム
12a 処理装置
12b 処理装置
12c 処理装置
12d 処理装置
14 プロセッサ・グループ
16 ファブリック・バス
18a サービス・プロセッサ
18b サービス・プロセッサ
20 システム・メモリ・デバイス
22 周辺装置
24 プロセッサ・ブリッジ
26a プロセッサ・コア
26b プロセッサ・コア
28 L2キャッシュ
30 メモリ・コントローラ
32 L3キャッシュ
34 通信バス
40 プロセッサ・グループ
42a ドロワ
42b ドロワ
42c ドロワ
44a MCM
44b MCM
44c MCM
44d MCM
44e MCM
44f MCM
46a ドロワ間バス
46b ドロワ間バス
46c ドロワ間バス
46d ドロワ間バス
48a ドロワ内間バス
48b ドロワ内間バス
48c ドロワ内間バス
50 チップ
52 クロック制御された構成要素
54 フリーラン構成要素
56a プロセッサ・コア
56b プロセッサ・コア
58 メモリ・サブシステム
60 障害分離回路
62 データ経路へのインターフェース
64 JTAGインターフェース
66 SCOMコントローラ
68 スキャン・リング・コントローラ
70 クロック・コントローラ
72 並列直列変換器
76 カウンタ/タイマ
78 ラッチ
80 同期化論理

Claims (21)

  1. コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別する方法であって、
    複数のコンピュータ構成要素にそれぞれ関連付けられた複数のカウンタを初期化するステップと、
    前記コンピュータ構成要素が動作している間、前記複数のカウンタを増分するステップと、
    前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに、一時停止するステップと、
    前記一時停止ステップの後で、前記複数カウンタのうちどれが最小カウント値を含むかを判断するステップとを含む方法。
  2. 前記初期化ステップが、初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタのそれぞれの同期をとるステップを含む、請求項1に記載の方法。
  3. 前記複数のカウンタのうち1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーを検出するステップに応答して一時停止される、請求項1に記載の方法。
  4. 前記複数カウンタのうち1つが、第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号を検出するステップに応答して一時停止される、請求項1に記載の方法。
  5. 前記判断ステップに応答して、最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録するステップをさらに含む、請求項1に記載の方法。
  6. 前記複数カウンタのうち1つが、最大カウント値を超えて1回または複数回増分された後、低いラップアラウンド値で中断され、
    前記判断ステップが、前記最大カウント値を前記低いラップアラウンド値に加算するステップを含む、請求項1に記載の方法。
  7. 前記コンピュータ構成要素間の通信経路を静止するステップと、
    前記静止ステップの後に、前記コンピュータ構成要素上の障害分離レジスタをクリアするステップと、
    前記クリア・ステップの後に、前記通信経路を再開するステップとをさらに含む、請求項1に記載の方法。
  8. コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別するための機構であって、
    複数のコンピュータ構成要素にそれぞれ関連付けられ、それぞれが初期化され、前記コンピュータ構成要素が動作している間に増分する複数のカウンタと、
    前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに一時停止する手段と、
    前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含む機構。
  9. 初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、請求項8に記載の機構。
  10. 前記複数カウンタのうち特定の1つが集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーが検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、請求項8に記載の機構。
  11. 前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、請求項8に記載の機構。
  12. 最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録する診断コードをさらに含む、請求項8に記載の機構。
  13. それぞれのカウンタの最大カウント値が、前記コンピュータ構成要素を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、請求項8に記載の機構。
  14. 前記判断手段が、前記コンピュータ構成要素間の通信経路を静止し、それらが静止している間に、前記コンピュータ構成要素上の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、請求項8に記載の機構。
  15. 複数の処理装置と、
    前記処理装置にプログラム命令およびオペランド・データを提供するためのメモリ階層と、
    前記複数の処理装置のうち様々な処理装置間で通信できるようにするデータ経路と、
    前記複数の処理装置にそれぞれ関連付けられ、それぞれが初期化され、前記複数の処理装置が動作している間に増分する複数のカウンタと、
    前記複数カウンタのうち所与の1つを、それに関連する処理装置がエラーを検出したときに一時停止する障害分離論理と、
    前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含むコンピュータ・システム。
  16. 初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、請求項15に記載のコンピュータ・システム。
  17. 前記複数カウンタのうち特定の1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある処理装置内でエラーが検出されたことに応答して、前記障害分離論理が前記特定のカウンタを一時停止する、請求項15に記載のコンピュータ・システム。
  18. 前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止の手段が前記特定のカウンタを一時停止する、請求項15に記載のコンピュータ・システム。
  19. 最小カウント値を含むカウンタに関連する特定の処理装置について、エラー・イベントをログに記録する診断コードをさらに含む、請求項15に記載のコンピュータ・システム。
  20. それぞれのカウンタの最大カウント値が、前記処理装置を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、請求項15に記載のコンピュータ・システム。
  21. 前記判断手段が、前記通信経路を静止し、それらが静止されている間に、前記処理装置内の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、請求項15に記載のコンピュータ・システム。
JP2004122267A 2003-04-28 2004-04-16 分散ノード環境におけるfru障害分離のための機構 Withdrawn JP2004326775A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/425,441 US20040216003A1 (en) 2003-04-28 2003-04-28 Mechanism for FRU fault isolation in distributed nodal environment

Publications (1)

Publication Number Publication Date
JP2004326775A true JP2004326775A (ja) 2004-11-18

Family

ID=33299511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004122267A Withdrawn JP2004326775A (ja) 2003-04-28 2004-04-16 分散ノード環境におけるfru障害分離のための機構

Country Status (3)

Country Link
US (1) US20040216003A1 (ja)
JP (1) JP2004326775A (ja)
KR (1) KR100637780B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037575A (ja) * 2007-08-06 2009-02-19 Hitachi Ltd 分散システム
JPWO2012172682A1 (ja) * 2011-06-17 2015-02-23 富士通株式会社 演算処理装置及び演算処理装置の制御方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379418B2 (en) * 2003-05-12 2008-05-27 International Business Machines Corporation Method for ensuring system serialization (quiesce) in a multi-processor environment
US7801702B2 (en) 2004-02-12 2010-09-21 Lockheed Martin Corporation Enhanced diagnostic fault detection and isolation
US20050223288A1 (en) * 2004-02-12 2005-10-06 Lockheed Martin Corporation Diagnostic fault detection and isolation
US7584420B2 (en) * 2004-02-12 2009-09-01 Lockheed Martin Corporation Graphical authoring and editing of mark-up language sequences
US7177662B2 (en) * 2004-04-02 2007-02-13 Broadcom Corporation Multimode wireless communication device
US20080052281A1 (en) 2006-08-23 2008-02-28 Lockheed Martin Corporation Database insertion and retrieval system and method
US7447957B1 (en) * 2005-08-01 2008-11-04 Sun Microsystems, Inc. Dynamic soft-error-rate discrimination via in-situ self-sensing coupled with parity-space detection
JP4586750B2 (ja) * 2006-03-10 2010-11-24 日本電気株式会社 コンピュータシステムおよび起動監視方法
US7596724B2 (en) * 2006-03-31 2009-09-29 Intel Corporation Quiescence for retry messages on bidirectional communications interface
US20080256400A1 (en) * 2007-04-16 2008-10-16 Chih-Cheng Yang System and Method for Information Handling System Error Handling
US8855093B2 (en) * 2007-12-12 2014-10-07 Broadcom Corporation Method and system for chip-to-chip communications with wireline control
US8667504B2 (en) * 2008-06-20 2014-03-04 Netapp, Inc. System and method for achieving high performance data flow among user space processes in storage system
US20100306442A1 (en) * 2009-06-02 2010-12-02 International Business Machines Corporation Detecting lost and out of order posted write packets in a peripheral component interconnect (pci) express network
JP5970987B2 (ja) * 2012-07-05 2016-08-17 富士通株式会社 故障検出装置、故障検出方法および故障検出プログラム
EP2951706B1 (en) * 2013-01-30 2017-06-21 Hewlett-Packard Enterprise Development LP Controlling error propagation due to fault in computing node of a distributed computing system
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux系统下的故障内存位置定位方法
US10579499B2 (en) * 2017-04-04 2020-03-03 International Business Machines Corporation Task latency debugging in symmetric multiprocessing computer systems
US10642693B2 (en) * 2017-09-06 2020-05-05 Western Digital Technologies, Inc. System and method for switching firmware
US10817361B2 (en) 2018-05-07 2020-10-27 Hewlett Packard Enterprise Development Lp Controlling error propagation due to fault in computing node of a distributed computing system
CN109872066B (zh) * 2019-02-19 2024-02-02 北京天诚同创电气有限公司 污水处理厂的系统复杂性度量方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS594054B2 (ja) * 1979-04-17 1984-01-27 株式会社日立製作所 マルチプロセツサ障害検出方式
US5023779A (en) 1982-09-21 1991-06-11 Xerox Corporation Distributed processing environment fault isolation
US4679195A (en) * 1985-04-10 1987-07-07 Amdahl Corporation Error tracking apparatus in a data processing system
US4852095A (en) * 1988-01-27 1989-07-25 International Business Machines Corporation Error detection circuit
US4916697A (en) * 1988-06-24 1990-04-10 International Business Machines Corporation Apparatus for partitioned clock stopping in response to classified processor errors
US5383201A (en) * 1991-12-23 1995-01-17 Amdahl Corporation Method and apparatus for locating source of error in high-speed synchronous systems
US5758065A (en) * 1995-11-30 1998-05-26 Ncr Corporation System and method of establishing error precedence in a computer system
US6516429B1 (en) * 1999-11-04 2003-02-04 International Business Machines Corporation Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
US20020194319A1 (en) 2001-06-13 2002-12-19 Ritche Scott D. Automated operations and service monitoring system for distributed computer networks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037575A (ja) * 2007-08-06 2009-02-19 Hitachi Ltd 分散システム
JP4512621B2 (ja) * 2007-08-06 2010-07-28 株式会社日立製作所 分散システム
JPWO2012172682A1 (ja) * 2011-06-17 2015-02-23 富士通株式会社 演算処理装置及び演算処理装置の制御方法

Also Published As

Publication number Publication date
KR20040093405A (ko) 2004-11-05
KR100637780B1 (ko) 2006-10-25
US20040216003A1 (en) 2004-10-28

Similar Documents

Publication Publication Date Title
KR100637780B1 (ko) 분산된 노드 환경에서의 현장 교체 가능형 유닛의 결함분리를 위한 1차 에러 소스의 식별 방법, 메카니즘 및그의 컴퓨터 시스템
US7313717B2 (en) Error management
US20040221198A1 (en) Automatic error diagnosis
Spainhower et al. IBM S/390 parallel enterprise server G5 fault tolerance: A historical perspective
EP1204924B1 (en) Diagnostic caged mode for testing redundant system controllers
Meaney et al. IBM z990 soft error detection and recovery
US6910160B2 (en) System, method, and computer program product for preserving trace data after partition crash in logically partitioned systems
US7103808B2 (en) Apparatus for reporting and isolating errors below a host bridge
US7793139B2 (en) Partial link-down status for virtual Ethernet adapters
KR100342802B1 (ko) L1 데이타 캐시 패러티 에러 복구 메카니즘
US20020184576A1 (en) Method and apparatus for isolating failing hardware in a PCI recoverable error
US20070260910A1 (en) Method and apparatus for propagating physical device link status to virtual devices
US7137020B2 (en) Method and apparatus for disabling defective components in a computer system
US6950978B2 (en) Method and apparatus for parity error recovery
US6571360B1 (en) Cage for dynamic attach testing of I/O boards
JPH03182939A (ja) ソフトウェアのエラー処理の方法
KR20090122209A (ko) 병렬 컴퓨터 시스템 상에서 노드 트래픽의 동적 리라우팅
CN100375960C (zh) 用于调试输入/输出故障的方法和系统
US8166273B2 (en) Degeneration method and information processing apparatus
US20060184840A1 (en) Using timebase register for system checkstop in clock running environment in a distributed nodal environment
US7363531B2 (en) Data synchronization for system controllers
Spainhower et al. G4: A fault-tolerant CMOS mainframe
JP2015162000A (ja) 情報処理装置,制御装置及びログ情報収集方法
Alves et al. RAS Design for the IBM eServer z900
US8711684B1 (en) Method and apparatus for detecting an intermittent path to a storage system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060919

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20060919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060920

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070205

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070209