JP4015740B2 - Pciバス・エラーの障害を分離する方法およびシステム - Google Patents

Pciバス・エラーの障害を分離する方法およびシステム Download PDF

Info

Publication number
JP4015740B2
JP4015740B2 JP07008098A JP7008098A JP4015740B2 JP 4015740 B2 JP4015740 B2 JP 4015740B2 JP 07008098 A JP07008098 A JP 07008098A JP 7008098 A JP7008098 A JP 7008098A JP 4015740 B2 JP4015740 B2 JP 4015740B2
Authority
JP
Japan
Prior art keywords
pci
error
bus
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07008098A
Other languages
English (en)
Other versions
JPH113294A (ja
Inventor
チャールズ・アンドリュー・マクローリン
アロングコーン・キタモーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH113294A publication Critical patent/JPH113294A/ja
Application granted granted Critical
Publication of JP4015740B2 publication Critical patent/JP4015740B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般にコンピュータ・システムにおける入出力操作に関し、より詳細には周辺コンポーネント相互接続(PCI)構造における障害の分離に関する。
【0002】
【発明が解決しようとする課題】
多くのコンピュータ・システムでは、ハード・ディスク・ドライブ、スピーカ、CD−ROMドライブなどの周辺装置のサポートは、周辺コンポーネント相互接続(PCI)と呼ばれる標準I/O(入出力)装置アーキテクチャを通じて行われる。PCIアーキテクチャは、PCI間ブリッジを介しての入出力拡張、制御装置すなわちマスタと応答装置すなわちターゲットの間の対等(装置間)データ転送、ならびにマルチ機能装置、統合装置およびプラグ・イン装置を含む多くの複雑な機能をサポートする。
【0003】
PCIアーキテクチャはまた、PCIバス上および装置内のエラー状態の検出および捕捉に関する標準も定義する。標準機能はエラー捕捉機能を提供するが、PCIアーキテクチャにより広範囲な機能が可能になるとすれば、起こりうる障害シナリオの数が多くなる。したがって、障害を特定の障害コンポーネントに分離するのが非常に困難になってきている。
【0004】
たとえば、PCIバス上で発生する各トランザクションごとに、トランザクションを制御するマスタ装置と、マスタ装置の要求に応答するターゲット装置が存在する。データは双方向に流れることができる(つまり、マスタは読み取りも書き込みも要求できる)ので、どちらの装置が不良データの送信側で、どちらの装置が受信側なのかを知ることが重要である。また、エラーもPCI間ブリッジを横切って流れることができるので、障害の場所がブリッジの近い側と遠い側のどちらにあるかを知ることも重要である。
【0005】
結果的に、広範囲のハードウェア・プラットフォームにわたってサービス提供者に一貫した診断情報を提供しながら、PCIアーキテクチャがサポートする多くのオプションでうまく動作できるような障害分離技術が求められている。
【0006】
【課題を解決するための手段】
本発明は、この要求を満たし、PCIバスにおける障害を分離するための方法態様およびシステム態様を提供する。方法態様では、バスを介して通信する複数の入出力装置によって形成される入出力(I/O)サブシステムを含むコンピュータ・システムのバス上の障害状態を分離する方法は、入出力サブシステムを繰返し所定の範疇に分類する段階と、入出力サブシステム内のエラー状態の発生源を分離する段階を含む。さらに、この入出力サブシステムは周辺コンポーネント相互接続(PCI)バスを介して通信する。
【0007】
他の方法態様では、バス・エラーの障害分離の方法は、(a)PCIバス上の装置エラーを処理する段階と、(b)PCIバスに結合された複数の入出力装置の順序付き所定の範疇への分類を実行する段階を含む。さらに、(c)装置エラーがPCIバスの従属ブランチから生じているのかどうか判定する段階と、(d)PCIバスが所定の範疇への分類をされるまで段階(a)ないし(c)を繰返し実行する段階を含む。
【0008】
システム態様では、バス上で障害状態を分離するためのコンピュータ・システムは、処理機構、および処理機構に結合された入出力機構を含む。入出力機構は、複数の入出力装置とPCIバスに結合され、PCI標準に従って通信するブリッジを含む。さらに、システムは、入出力機構におけるエラー状態の発生源を識別する処理機構内の障害分離機構を含む。さらに、障害分離機構は繰返し入出力機構の所定の範疇へ分類をする。
【0009】
本発明によれば、障害分離技術はPCIバス・アーキテクチャにおけるエラーの発生源のより詳細な識別を首尾よく提供することができる。障害分離技術は、PCIバス・アーキテクチャでサポートされる多数のオプションを所与のシステムで利用できるとき、エラー発生の曖昧さを大幅に軽減する。さらに、PCIアーキテクチャの標準機能を利用することにより、障害分離技術は、容易に多様なシステム構成に適用し、融通のきくアプリケーションを提供することができる。
【0010】
【発明の実施の形態】
本発明は、PCIアーキテクチャの障害分離に関する。以下の説明は、当業者が本発明を実施し利用できるようにするために提示するものであり、特許出願およびその要件の文脈中で提供する。好ましい実施形態に対する様々な変更は、当業者には明白であり、これにおける一般原理は他の実施形態にも適用できる。したがって、本発明はここに示す実施形態に限定されるものではなく、ここで説明する原理及び特徴に適合する最も広い範囲を与えられる。
【0011】
図1は、本発明で使用する汎用コンピュータ・システムの基本ブロック図である。図のように、コンピュータ・システムはメモリ12、すなわちRAM(ランダム・アクセス・メモリ)およびROM(読取り専用メモリ)などに接続された、IBM
Corporation,Inc社のPowerPCなどのプロセッサ10を含む。オペレーティング・システム(O/S)14は、通常プロセッサ上で走って、コンピュータ・システムにおける基本的タスクを実行し、アプリケーション・プログラムのプラットフォームとして機能する。また、ファームウェア16も含まれ、これはプロセッサ10上で実行され、当業者にはよく理解されるように、フラッシュ・メモリ、不揮発性RAM、EPROM(消去可能プログラマブル読取り専用メモリ)などの適切なメモリに格納されたコードである。さらに、入出力サブシステム18はプロセッサ10に結合され、プロセッサ10と、入出力装置、たとえばハード・ディスク・ドライブ、モニタなどの間の相互作用をPCI(周辺コンポーネント・インタフェース)標準に従って制御する。
【0012】
図2は、図1のコンピュータ・システムの入出力サブシステム18の展開図である。当然ながら、図に示したコンポーネントの数やタイプは本発明の一実施形態を例示するものであり限定するものではない。PCIバス21を利用することにより、入出力装置20a−20fのサブシステムがプロセッサ10と対話することが可能になる。複数の入出力装置20a−20fを利用する際に、ブリッジ22a−22fは、複数の入出力装置20a−20fと、プロセッサ10へのメイン・リンクとして働くホスト・ブリッジ24との通信をサポートする。さらに、入出力サブシステム18の階層用には、たとえばブリッジ22eとリンクされたブリッジ22b用の1次バス23と2次バスなど、他のブリッジとリンクされたブリッジ用の1次バスと2次バスが存在する。多数のブリッジ22および入出力装置20がコンピュータ・システム内でPCIアーキテクチャを介して共存可能だが、発生しうる障害状況のタイプと数も多い。本発明によれば、障害状態の原因の分離は、診断操作の著しい改善をもたらす。
【0013】
図3は、本発明による障害分離の全体的流れ図である。当業者にはよく理解されるように、障害分離はファームウェア16(図1)の一部として提供することが好ましい。障害状態を分離するプロセスは、トップ・レベルのPCIバス、すなわちホスト・ブリッジ24(図2)の真下のPCIバスから開始するのが適切である(ステップ30)。プロセスは、入出力サブシステム内の装置およびコンポーネントの順序付き範疇分けに進む(ステップ32)。順序付き範疇分けは、PCI標準に従って装置内に設けられるアーキテクチャに提供される状況レジスタ内で利用できる情報に従って検査されるバス上の装置の状況を決定するものである。順序付き範疇分けの詳細は、図4に関して示す。一般に、順序付き範疇分けは、分離するプロセスにおいて、入出力サブシステム18の階層ツリー構造内でデータ伝播のために存在するエラーの可能性を全て考慮に入れるように特定の順序に従う。
【0014】
PCIバス上の主なエラーには、PERR、すなわち不良データ・パリティ状態がバス上で見られるときに信号で通知されるパリティ・エラーと、SERR、すなわち、アドレス・パリティ・エラーが発生したとき、または装置に重大なエラーがあるときに信号で通知されるシステム・エラーの2つが含まれる。パリティの発生は、全てのPCIに準拠する装置が実行しなければならないため、オプションではない。特定のPCIトランザクションのターゲット装置は、パリティを検査しアドレス・パリティ・エラーを報告する。データ・パリティ・エラーに関しては、マスタ装置が特定の読み取りトランザクションのデータ・パリティ・エラーを検出して報告し、ターゲット装置が特定の書き込みトランザクションのデータ・パリティ・エラーを検出して報告する。ただし、マスタ装置はマスタ装置とターゲット装置のどちらがエラーを発生した場合でも、エラーを検出する能力を有する。本発明の範疇分けにより、この両方のエラー状態の分離を行うことが好ましい。
【0015】
図4を参照すると、範疇(カテゴリー)分けのための検査を行なうために(ステップ39)、PCI間ブリッジがSERR#信号をその2次バス上で受信したかどうかを判定する。次に、不良パリティを2次バス上で受信したPCI間ブリッジがあるかどうか範疇分けのための検査を行う(ステップ40)。この状態が存在するときは、次に不良パリティを1次バス上で受信したPCI間ブリッジがあるかどうか検査を行う(ステップ42)。不良パリティを検出した2次バス上のターゲットに対してマスタ装置として機能するPCI間ブリッジがあるかどうかの検査に進む(ステップ44)。次にステップ42で不良パリティを検出したPCI間ブリッジについて不良パリティを検出した1次バス上のターゲットに対してマスタ装置として機能するPCI間ブリッジがあるかどうかの検査に進む(ステップ46)。範疇分けプロセスは、それを通してターゲットAbortまたはマスタAbortが信号で通知されたPCI間ブリッジがあるかどうかの検査に進む(ステップ48)。
【0016】
PCI間ブリッジの検査に続いて、範疇分けプロセスは不良パリティを検出したマスタ装置の識別に進む(ステップ50)。範疇分けプロセスはさらに、不良パリティを検出したターゲットのマスタ装置の識別に進む(ステップ52)。次の範疇分け検査は、不良アドレス・パリティのためSERR#を信号で通知した装置について行う(ステップ54)。続けて、ターゲットAbortのためSERR#を信号で通知したマスタ装置があるかどうか(ステップ56)、またマスタAbortのためSERR#を信号で通知したマスタ装置があるかどうかの検査を行う(ステップ58)。範疇分けプロセスは、内部エラーのためSERR#を送信した装置があるかどうか(ステップ60)、また不良パリティを検出したターゲット装置があるかどうか(ステップ62)、不良パリティを検出したが、SERR#の報告が不能であった装置があるかどうかの検査(ステップ64)に進む。さらに、範疇分けプロセスは、ターゲットAbortを信号で通知したターゲット装置があるかどうか(ステップ66)、およびバス上の他の装置が不良アドレス・パリティの検出を信号で通知している場合は、不良アドレス・パリティの潜在的送信側があるかどうかの検査(ステップ68)を行う。
【0017】
バスの範疇分けが行われている間は、エラー状態の経路をたどる。図3に戻ると、あるPCI間ブリッジが、そこからエラー状態が起こっている別のPCI間ブリッジに接続されていることを範疇分けプロセスが示す(ステップ32)ときは、その別のPCI間ブリッジによってサポートされるバス上での範疇分けの実行にシーケンスは戻る(ステップ34)。したがって、範疇分けは、PCIバスのトップレベルから全てのサブブリッジ、すなわち入出力サブシステム18(図2)の階層PCIバスの従属ブランチを下って、繰返し実行される。順序付き範疇分けが完了した後、結果情報がエラー・ログとして返され、入出力サブシステム18内のエラー/障害発生源分離のために分析される(ステップ36)ことが好ましい。エラー状態の多くでエラー・レジスタ値が類似するので、本発明の順序付き範疇分けは、障害発生源の分析に役立てるために、各装置が検出したエラーのタイプを正確に識別する。
【0018】
たとえば、結果としてSERR#信号を出すアドレス・パリティ・エラーは、不良アドレス・パリティを検出しなかったバス上の単一の装置を見つけることによって分離される。そうした装置は、バス上で不良アドレスを発行した装置だけだからである。データ・パリティ・エラーは、マスタ装置およびターゲット装置を見つけ、次いで実際に不良データを検出したのが二つのうちどちらかを決定することによって分離される。不良データを検出する装置は「信号通知」装置と呼び、不良データの発生源は「送信」装置と呼ぶ。「送信」装置が最高の優先順位で置換されるべき優先順位を持つ。マスタとターゲットが、2つの異なるバス上に存在する(1つまたは複数のPCI間ブリッジがこれらの間の経路上にある)場合、その障害は特定のバスに分離される。その結果、PCI間ブリッジは「送信」装置または「信号通知」装置、あるいはその両方としてリストされる可能性がある。
【0019】
さらに、マルチ機能装置の場合、同じ物理位置に分離された別個の装置であるかのように、検査を行うのが適切である。さらに、SERR#(システムエラー、無反応)信号によって報告される内部装置エラーは信号通知装置に分離される。さらに、SERR#信号を出した打ち切られた動作は、マスタ装置およびターゲット装置に分離されるのが適切であり、打切りを引き起こした装置が、置換について最高の優先順位となる。
【0020】
以上、本発明をその実施形態に従って説明したが、これらの実施形態には変形形態があり得、それらの変形形態も本発明の精神および範囲に含まれることを、当業者なら容易に理解するであろう。例を挙げると、本発明は、PCIバスに関して説明したが、障害隔離技術は他のバス構造を使用するアプリケーションにも適用している。したがって、頭記の請求の範囲の精神および範囲を逸脱することがなく、多くの修正を当業者が加えることができよう。
【0021】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0022】
(1)バスを介して通信する複数の入出力装置によって形成される入出力(I/O)サブシステムを含むコンピュータ・システムのバス上における障害状態を分離する方法であって、
(a)入出力サブシステムを繰返し所定の範疇に分類する段階と、
(b)入出力サブシステム内のエラー状態の発生源を分離する段階と
を含む方法。
(2)入出力サブシステムが周辺コンポーネント相互接続(PCI)バスを介して通信する上記(1)に記載の方法。
(3)入出力サブシステムが、PCI間ブリッジをさらに含み、PCI間ブリッジが1次バスおよび2次バスを有する上記(2)に記載の方法。
(4)所定の範疇に分類する段階(a)が、PCI間ブリッジが2次バス上でSERR#信号を受信したかどうか検査する段階をさらに含む上記(1)に記載の方法。
(5)所定の範疇に分類する段階(a)が、PCI間ブリッジの2次バス上で受信された不良パリティがあるかどうか検査する段階をさらに含む上記(4)に記載の分離方法。
(6)所定の範疇に分類する段階(a)が、PCI間ブリッジの1次バス上で受信された不良パリティがあるかどうか検査する段階をさらに含む上記(5)に記載の分離方法。
(7)所定の範疇に分類する段階(a)が、不良パリティを検出した2次バス上のターゲット装置に対してマスタ装置として機能するPCI間ブリッジがあるかどうか検査する段階をさらに含む上記(6)に記載の分離方法。
(8)所定の範疇に分類する段階(a)が、不良パリティを検出した1次バス上のターゲット装置に対してマスタ装置として機能するPCI間ブリッジがあるかどうか検査する段階をさらに含む上記(7)に記載の分離方法。
(9)所定の範疇に分類する段階(a)が、打切りを信号で通知するPCI間ブリッジがあるかどうか検査する段階をさらに含む上記(8)に記載の分離方法。
(10)所定の範疇に分類する段階(a)が、不良パリティを検出したマスタ装置があるかどうか検査する段階をさらに含む上記(9)に記載の分離方法。
(11)所定の範疇に分類する段階(a)が、不良パリティを検出したターゲット装置に対するマスタ装置があるかどうか検査する段階をさらに含む上記(10)に記載の分離方法。
(12)所定の範疇に分類する段階(a)が、不良アドレス・パリティのためシステム・エラーを信号で通知した装置があるかどうか検査する段階をさらに含む上記(11)に記載の分離方法。
(13)所定の範疇に分類する段階(a)が、ターゲット装置上での打切りのためシステム・エラーを信号で通知したマスタ装置があるかどうか検査する段階をさらに含む上記(12)に記載の分離方法。
(14)所定の範疇に分類する段階(a)が、マスタ装置上での打切りのためシステム・エラーを信号で通知したマスタ装置があるかどうか検査する段階をさらに含む上記(13)に記載の分離方法。
(15)所定の範疇に分類する段階(a)が、内部エラーのためシステム・エラーを信号で通知した装置があるかどうか検査する段階をさらに含む上記(14)に記載の分離方法。
(16)所定の範疇に分類する段階(a)が、不良パリティを検出したターゲット装置があるかどうか検査する段階をさらに含む上記(15)に記載の分離方法。
(17)所定の範疇に分類する段階(a)が、不良パリティを検出したが、システム・エラー報告機能が使用不能である装置があるかどうか検査する段階をさらに含む上記(16)に記載の分離方法。
(18)所定の範疇に分類する段階(a)が、ターゲット装置における打切りを信号で通知したターゲット装置があるかどうか検査する段階をさらに含む上記(17)に記載の分離方法。
(19)所定の範疇に分類する段階(a)が、不良アドレス・パリティの潜在的な送信側があるかどうか検査する段階をさらに含む上記(18)に記載の分離方法。
(20)周辺コンポーネント相互接続(PCI)バス上で障害を分離するコンピュータ・システムであって、
処理手段と、
処理手段に結合され、PCIバスに結合されてPCI標準に従って通信する複数の入出力装置およびブリッジを備える入出力手段と、
処理手段内にあって、入出力手段におけるエラー状態の発生源を識別するための障害分離手段と
を含むシステム。
(21)障害分離手段が入出力手段の反復的に所定の範疇への分類をさらに実行する上記
(20)に記載のシステム。
(22)障害分離手段が入出力手段内のエラー状態の発生源を分離するためのエラー・ログをさらに提供する上記(21)に記載のシステム。
(23)障害分離手段がエラー状態値を検査することによって所定の範疇への分類を行う上記(22)に記載のシステム。
(24)エラー状態値を入出力手段の状況レジスタに記憶する上記(23)に記載のシステム。
(25)周辺コンポーネント相互接続(PCI)バス・エラーの障害分離の方法であって、
(a)PCIバス上の装置エラーを処理する段階と
(b)PCIバスに結合された複数の入出力装置の順序付き所定の範疇への分類を実行する段階と
(c)装置エラーがPCIバスの従属ブランチから発生したものかどうか判定する段階と
(d)PCIバスが所定の範疇への分類されるまで、段階(a)ないし(c)を繰返し実施する段階とを
含む方法。
(26)順序付き所定の範疇への分類からエラー・ログを形成する段階をさらに含む上記(25)に記載の方法。
(27)装置エラーを分離するためにエラー・ログを分析する段階をさらに含む上記(26)に記載の方法。
(28)順序付き所定の範疇への分類段階が複数の入出力装置の状況レジスタを検査する上記(25)に記載の方法。
(29)複数の入出力装置が、1つまたは複数のPCI間ブリッジ装置を含む上記(28)に記載の方法。
(30)1つまたは複数のPCI間ブリッジ装置が、1つまたは複数のPCIバスの従属ブランチをサポートする請求項29に記載の方法。
【図面の簡単な説明】
【図1】 本発明に基づくコンピュータ・システムのブロック図である。
【図2】 図1のコンピュータ・システムの入出力サブシステムのブロック図である。
【図3】 本発明に基づく障害分離プロセスの流れ図である。
【図4】 図2における順序付き範疇分け段階のより詳細な流れ図である。
【図5】 図2における順序付き範疇わけ段階のより詳細な流れ図であり、図4の続きである。
【符号の説明】
10 プロセッサ
12 メモリ
14 オペレーティング・システム(O/S)
16 ファームウェア
18 入力/出力サブシステム
20 入出力装置
22 ブリッジ
23 1次バス
24 ホスト・ブリッジ
25 2次バス

Claims (2)

  1. 周辺コンポーネント相互接続(PCI)バス上のエラー/障害発生源を分離するコンピュータ・システムであって、
    (A)プロセッサと、
    (B)プロセッサに結合され、PCIバスに結合されてPCI標準に従って通信する複数の入出力装置およびPCI間ブリッジ装置を備える入出力サブシステムと、
    (C)プロセッサ内にあって、あるPCI間ブリッジ装置によってサポートされるPCIバス上で、エラー・レジスタ値に基づき前記複数の入出力装置の状況を決定する範疇分けにおいて、あるPCI間ブリッジ装置が、エラー状態が起こっている別のPCI間ブリッジ装置に接続されていることを示すときは、その別のPCI間ブリッジ装置によってサポートされるPCIバス上での範疇分けを行い、前記範疇分けの結果情報であるエラー・ログに基づいて入出力サブシステムにおけるエラー/障害発生源を分離するためのエラー/障害分離手段と
    (D)PCI標準に従って入出力装置内に設けられ、前記エラー・レジスタ値を記憶するアーキテクチャ付き状況レジスタと
    を含む、システム。
  2. プロセッサと、プロセッサに結合され、周辺コンポーネント相互接続(PCI)バスに結合されてPCI標準に従って通信する複数の入出力装置およびPCI間ブリッジ装置を備える入出力サブシステムとを含むコンピュータ・システムにおいて、PCIバス上のエラー/障害発生源を分離する方法であって、
    (a) あるPCI間ブリッジ装置によってサポートされるPCIバス上で、エラー・レジスタ値に基づき前記複数の入出力装置の状況を決定する範疇分けにおいて、あるPCI間ブリッジ装置が、エラー状態が起こっている別のPCI間ブリッジ装置に接続されていることを示すときは、その別のPCI間ブリッジ装置によってサポートされるPCIバス上での範疇分けを行う段階と、
    (b) 前記範疇分けを行う段階において、PCI標準に従って入出力装置内に設けられ、前記エラー・レジスタ値を記憶するアーキテクチャ付き状況レジスタを検査する段階と、
    (c) 入出力サブシステムにおけるエラー/障害発生源を分離するために、前記範疇分けの結果情報であるエラー・ログを分析する段階と、
    を含む方法。
JP07008098A 1997-03-31 1998-03-19 Pciバス・エラーの障害を分離する方法およびシステム Expired - Fee Related JP4015740B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/829,088 US6557121B1 (en) 1997-03-31 1997-03-31 Method and system for fault isolation for PCI bus errors
US08/829088 1997-03-31

Publications (2)

Publication Number Publication Date
JPH113294A JPH113294A (ja) 1999-01-06
JP4015740B2 true JP4015740B2 (ja) 2007-11-28

Family

ID=25253497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07008098A Expired - Fee Related JP4015740B2 (ja) 1997-03-31 1998-03-19 Pciバス・エラーの障害を分離する方法およびシステム

Country Status (9)

Country Link
US (1) US6557121B1 (ja)
EP (1) EP0972245B1 (ja)
JP (1) JP4015740B2 (ja)
CN (1) CN1146797C (ja)
CZ (1) CZ346099A3 (ja)
DE (1) DE69801744T2 (ja)
PL (1) PL335938A1 (ja)
SG (1) SG76539A1 (ja)
WO (1) WO1998044417A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574752B1 (en) 1999-07-15 2003-06-03 International Business Machines Corporation Method and system for error isolation during PCI bus configuration cycles
US6785840B1 (en) * 1999-08-31 2004-08-31 Nortel Networks Limited Call processor system and methods
US6393544B1 (en) 1999-10-31 2002-05-21 Institute For The Development Of Emerging Architectures, L.L.C. Method and apparatus for calculating a page table index from a virtual address
JP2001216206A (ja) * 2000-02-01 2001-08-10 Nec Corp ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム
US6691257B1 (en) * 2000-04-13 2004-02-10 Stratus Technologies Bermuda Ltd. Fault-tolerant maintenance bus protocol and method for using the same
US6708283B1 (en) 2000-04-13 2004-03-16 Stratus Technologies, Bermuda Ltd. System and method for operating a system with redundant peripheral bus controllers
US6643727B1 (en) * 2000-06-08 2003-11-04 International Business Machines Corporation Isolation of I/O bus errors to a single partition in an LPAR environment
US6950893B2 (en) 2001-03-22 2005-09-27 I-Bus Corporation Hybrid switching architecture
GB2373606B (en) * 2001-03-23 2003-06-04 Sun Microsystems Inc A computer system
GB2373607B (en) * 2001-03-23 2003-02-12 Sun Microsystems Inc A computer system
KR100448709B1 (ko) 2001-11-29 2004-09-13 삼성전자주식회사 데이터 버스 시스템 및 그 제어방법
US6904546B2 (en) * 2002-02-12 2005-06-07 Dell Usa, L.P. System and method for interface isolation and operating system notification during bus errors
US6901537B2 (en) * 2002-02-27 2005-05-31 International Business Machines Corporation Method and apparatus for preventing the propagation of input/output errors in a logical partitioned data processing system
US6934888B2 (en) * 2002-03-07 2005-08-23 International Business Machines Corporation Method and apparatus for enhancing input/output error analysis in hardware sub-systems
US6976191B2 (en) * 2002-03-07 2005-12-13 International Business Machines Corporation Method and apparatus for analyzing hardware errors in a logical partitioned data processing system
US7650530B2 (en) * 2002-09-30 2010-01-19 International Business Machines Corporation Initializing a processing system to ensure fail-safe boot when faulty PCI adapters are present
US20050081080A1 (en) * 2003-10-14 2005-04-14 International Business Machines Corporation Error recovery for data processing systems transferring message packets through communications adapters
TW200537305A (en) * 2004-05-04 2005-11-16 Quanta Comp Inc Communication system, transmission device and the control method thereof
US8028189B2 (en) * 2004-11-17 2011-09-27 International Business Machines Corporation Recoverable machine check handling
US7546514B2 (en) * 2005-04-11 2009-06-09 Hewlett-Packard Development Company, L.P. Chip correct and fault isolation in computer memory systems
US7496045B2 (en) * 2005-07-28 2009-02-24 International Business Machines Corporation Broadcast of shared I/O fabric error messages in a multi-host environment to all affected root nodes
JP4630766B2 (ja) * 2005-08-26 2011-02-09 キヤノン株式会社 プライマリシステムとセカンダリシステムを有するシステム
US20080148104A1 (en) * 2006-09-01 2008-06-19 Brinkman Michael G Detecting an Agent Generating a Parity Error on a PCI-Compatible Bus
US8305879B2 (en) * 2007-03-30 2012-11-06 International Business Machines Corporation Peripheral component switch having automatic link failover
US20090083585A1 (en) * 2007-09-21 2009-03-26 Inventec Corporation Method of pressure testing for peripheral component interconnect (pci) bus stage
JP4513852B2 (ja) * 2007-11-07 2010-07-28 日本電気株式会社 Pciバス障害リカバリ方法及びプログラム
US8510592B1 (en) * 2009-09-15 2013-08-13 Netapp, Inc. PCI error resilience
US8862944B2 (en) 2010-06-24 2014-10-14 International Business Machines Corporation Isolation of faulty links in a transmission medium
US8566682B2 (en) 2010-06-24 2013-10-22 International Business Machines Corporation Failing bus lane detection using syndrome analysis
ES2656464T3 (es) 2013-09-11 2018-02-27 Huawei Technologies Co., Ltd. Procedimiento, sistema informático y aparato de procesamiento de fallo
JP6427979B2 (ja) 2014-06-19 2018-11-28 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
JP2016186719A (ja) * 2015-03-27 2016-10-27 富士通株式会社 入出力制御装置、情報処理装置及び入出力制御装置の制御方法
US10114658B2 (en) * 2016-05-23 2018-10-30 Baida USA LLC Concurrent testing of PCI express devices on a server platform
US9940235B2 (en) 2016-06-29 2018-04-10 Oracle International Corporation Method and system for valid memory module configuration and verification
US10417458B2 (en) 2017-02-24 2019-09-17 Microsoft Technology Licensing, Llc Securing an unprotected hardware bus

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5220735A (en) 1975-08-08 1977-02-16 Hitachi Ltd Microprogram controlled computer system
US4044337A (en) 1975-12-23 1977-08-23 International Business Machines Corporation Instruction retry mechanism for a data processing system
US4215397A (en) 1978-08-24 1980-07-29 Texas Instruments Incorporated Automatic end-of-scan control system for a programmable process controller with expandable memory
US4360917A (en) * 1979-02-07 1982-11-23 The Warner & Swasey Company Parity fault locating means
JPS5717019A (en) 1980-07-07 1982-01-28 Fanuc Ltd Numerical controller
EP0126785B1 (de) 1983-05-25 1989-03-08 Ibm Deutschland Gmbh Prüf- und Diagnoseeinrichtung für Digitalrechner
CA1320276C (en) 1987-09-04 1993-07-13 William F. Bruckert Dual rail processors with error checking on i/o reads
US5267246A (en) 1988-06-30 1993-11-30 International Business Machines Corporation Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
JPH02128267A (ja) 1988-11-09 1990-05-16 Fujitsu Ltd 共有メモリによる通信方式
US4965717A (en) 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
US5251227A (en) 1989-08-01 1993-10-05 Digital Equipment Corporation Targeted resets in a data processor including a trace memory to store transactions
US5317752A (en) 1989-12-22 1994-05-31 Tandem Computers Incorporated Fault-tolerant computer system with auto-restart after power-fall
EP0449242A3 (en) 1990-03-28 1992-10-28 National Semiconductor Corporation Method and structure for providing computer security and virus prevention
US5142165A (en) 1990-08-31 1992-08-25 International Business Machines Corporation Power off/on delay circuit to prevent lockout
JP3098584B2 (ja) 1990-09-28 2000-10-16 ゼロックス コーポレイション 電子複写システムにおける障害除去及び回復方法及び装置
US5193181A (en) 1990-10-05 1993-03-09 Bull Hn Information Systems Inc. Recovery method and apparatus for a pipelined processing unit of a multiprocessor system
US5245615A (en) 1991-06-06 1993-09-14 International Business Machines Corporation Diagnostic system and interface for a personal computer
JPH056344A (ja) 1991-06-28 1993-01-14 Fujitsu Ltd プログラム走行情報採取処理方式
US5313625A (en) 1991-07-30 1994-05-17 Honeywell Inc. Fault recoverable computer system
ATE186787T1 (de) 1991-09-09 1999-12-15 Compaq Computer Corp Fern-urladessystem und verfahren zum urladen eines computersystems
US5291600A (en) 1991-10-23 1994-03-01 At&T Bell Laboratories Recovery of in-core disk data
US5313628A (en) 1991-12-30 1994-05-17 International Business Machines Corporation Component replacement control for fault-tolerant data processing system
US5307482A (en) 1992-01-28 1994-04-26 International Business Machines Corp. Computer, non-maskable interrupt trace routine override
US5471674A (en) 1992-02-07 1995-11-28 Dell Usa, L.P. Computer system with plug-in override of system ROM
US5421006A (en) 1992-05-07 1995-05-30 Compaq Computer Corp. Method and apparatus for assessing integrity of computer system software
US5444859A (en) 1992-09-29 1995-08-22 Amdahl Corporation Method and apparatus for tracing multiple errors in a computer system subsequent to the first occurence and prior to the stopping of the clock in response thereto
US5390324A (en) 1992-10-02 1995-02-14 Compaq Computer Corporation Computer failure recovery and alert system
GB9222282D0 (en) 1992-10-22 1992-12-09 Hewlett Packard Co Monitoring network status
US5758157A (en) 1992-12-31 1998-05-26 International Business Machines Corporation Method and system for providing service processor capability in a data processing by transmitting service processor requests between processing complexes
JPH06243064A (ja) 1993-02-12 1994-09-02 Honda Motor Co Ltd コンピュータネットワークの障害検出システム
US5530847A (en) * 1993-03-22 1996-06-25 Dell Usa, L.P. System and method for loading compressed embedded diagnostics
US5499346A (en) 1993-05-28 1996-03-12 International Business Machines Corporation Bus-to-bus bridge for a multiple bus information handling system that optimizes data transfers between a system bus and a peripheral bus
US5455933A (en) 1993-07-14 1995-10-03 Dell Usa, L.P. Circuit and method for remote diagnosis of personal computers
JPH0793233A (ja) 1993-09-20 1995-04-07 Fujitsu Ltd ファームウェア・トレースデータ取得方式
AUPM348794A0 (en) 1994-01-20 1994-02-17 Alcatel Australia Limited Microprocessor fault log
US5450579A (en) * 1994-03-24 1995-09-12 International Business Machines Corporation Method and apparatus for error recovery in computer peripheral devices
US5488688A (en) 1994-03-30 1996-01-30 Motorola, Inc. Data processor with real-time diagnostic capability
KR100366859B1 (ko) * 1994-06-08 2003-04-07 인텔 코오퍼레이션 Pci버스상에서이용되는디스크드라이브커넥터인터페이스
US5564054A (en) 1994-08-25 1996-10-08 International Business Machines Corporation Fail-safe computer boot apparatus and method
US5560033A (en) 1994-08-29 1996-09-24 Lucent Technologies Inc. System for providing automatic power control for highly available n+k processors
US5530946A (en) 1994-10-28 1996-06-25 Dell Usa, L.P. Processor failure detection and recovery circuit in a dual processor computer system and method of operation thereof
US5560018A (en) 1994-12-16 1996-09-24 International Business Machines Corporation Providing external interrupt serialization compatibility in a multiprocessing environment for software written to run in a uniprocessor environment
US5701409A (en) * 1995-02-22 1997-12-23 Adaptec, Inc. Error generation circuit for testing a digital bus
US5680537A (en) * 1995-03-01 1997-10-21 Unisys Corporation Method and apparatus for isolating an error within a computer system that transfers data via an interface device
US5777549A (en) 1995-03-29 1998-07-07 Cabletron Systems, Inc. Method and apparatus for policy-based alarm notification in a distributed network management environment
JP2687927B2 (ja) * 1995-05-24 1997-12-08 日本電気株式会社 外部バスの障害検出方法
EP0834135B1 (en) 1995-06-15 2003-01-02 Intel Corporation Architecture for an i/o processor that integrates a pci to pci bridge
US5619644A (en) 1995-09-18 1997-04-08 International Business Machines Corporation Software directed microcode state save for distributed storage controller
US5790870A (en) * 1995-12-15 1998-08-04 Compaq Computer Corporation Bus error handler for PERR# and SERR# on dual PCI bus system
US5805785A (en) 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US5712967A (en) * 1996-04-22 1998-01-27 Advanced Micro Devices, Inc. Method and system for graceful recovery from a fault in peripheral devices using a variety of bus structures
EP0811929A3 (en) 1996-06-05 1999-02-10 Compaq Computer Corporation Bus device configuration in a bridge between two buses

Also Published As

Publication number Publication date
PL335938A1 (en) 2000-05-22
EP0972245B1 (en) 2001-09-19
JPH113294A (ja) 1999-01-06
WO1998044417A1 (en) 1998-10-08
SG76539A1 (en) 2000-11-21
DE69801744D1 (de) 2001-10-25
CN1197954A (zh) 1998-11-04
US6557121B1 (en) 2003-04-29
EP0972245A1 (en) 2000-01-19
DE69801744T2 (de) 2002-07-04
CZ346099A3 (cs) 1999-12-15
CN1146797C (zh) 2004-04-21

Similar Documents

Publication Publication Date Title
JP4015740B2 (ja) Pciバス・エラーの障害を分離する方法およびシステム
US6834363B2 (en) Method for prioritizing bus errors
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
TWI276107B (en) Built-in-self-test using embedded memory and processor in an application specific integrated circuit
US20060061369A1 (en) Information handling system integrated cable tester
US7607043B2 (en) Analysis of mutually exclusive conflicts among redundant devices
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
US6760868B2 (en) Diagnostic cage for testing redundant system controllers
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
JPH0432417B2 (ja)
CN111414268B (zh) 故障处理方法、装置及服务器
CN100375043C (zh) 用于部署计算基础设施的方法和数据存储设备
US7003617B2 (en) System and method for managing target resets
CN109710479B (zh) 一种处理方法及第一设备、第二设备
US6189117B1 (en) Error handling between a processor and a system managed by the processor
US7925728B2 (en) Facilitating detection of hardware service actions
JP3711871B2 (ja) Pciバスの障害解析容易化方式
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
CN111367838A (zh) 用于检测数据存储系统的方法、设备和数据存储系统
JP3342039B2 (ja) ファイルを管理する処理装置
US7305497B2 (en) Performing resource analysis on one or more cards of a computer system wherein a plurality of severity levels are assigned based on a predetermined criteria
KR100303341B1 (ko) 소형컴퓨터시스템인터페이스버스비지상태회복방법
JP3334174B2 (ja) 障害処理検証装置
US20100318854A1 (en) System and method for checking firmware definition file
CN111966514A (zh) 一种异常处理方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031224

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20031225

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20040108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040319

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040428

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070914

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110921

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees