JP3644399B2 - PCI bus defective part isolation method and program thereof - Google Patents
PCI bus defective part isolation method and program thereof Download PDFInfo
- Publication number
- JP3644399B2 JP3644399B2 JP2001089687A JP2001089687A JP3644399B2 JP 3644399 B2 JP3644399 B2 JP 3644399B2 JP 2001089687 A JP2001089687 A JP 2001089687A JP 2001089687 A JP2001089687 A JP 2001089687A JP 3644399 B2 JP3644399 B2 JP 3644399B2
- Authority
- JP
- Japan
- Prior art keywords
- pci
- abnormality
- function
- pci bus
- configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、PCIバス仕様に準拠したPCIバス不良箇所切り離し方法に関するもので、特にPCIバス上にH/Wの追加をする事なく、PCIバス上の不良発生デバイス/ファンクションを論理的に切り離してシステムを立ち上げ、システムの連続稼動性を向上するものである。
【0002】
【従来の技術】
図12は例えば特開平11−191073号公報に示されたPCIバス処理装置を示す構成図である。図において、20はPCIバス処理装置であり、21はPCIバス上のトランザクションの開始を検出するトランザクション開始検出回路であり、PCIバス信号のFRAME#を入力する。22はPCIバス上のアドレス/データ線及びコマンド/バイトイネーブル線上の情報を保持する保持レジスタであり、23はPCIバス上の異常を検出する異常検出回路であり、24は有効か否かを示すvalidbitを有し、異常が発生した時のアドレス及びコマンド情報を格納する格納レジスタ、25はPCIバスインタフェースであり、すべてのPCIバス信号を入力する。
【0003】
次に動作について説明する。
(1)PCIバス上のバスマスタがPCIバス上にトランザクションを開始すると、PCIバス処理装置20内のトランザクション開始検出回路はトランザクションの開始を検出し、保持レジスタ22に通知し、保持レジスタ22はアドレス/コマンド情報を格納する。
(2)次に異常検出回路23はPCIバス上のトランザクションを監視し、異常を検出すると保持レジスタ22の内容を格納レジスタ24に格納すると同時にvalidbitを有効にする。
【0004】
(3)そしてPCIバス上で異常の報告を受けたホストCPU(不図示)はPCIバス処理装置20内の格納レジスタ24をPCIバスを介してリードする。
(4)PCIバス処理装置20内のPCIバスインタフェース25はホストCPUからのPCIリードトランザクションを受けて、validbitが有効な場合のみ格納レジスタ24の値をホストCPUに返す。
一方、validbitが無効な場合は”FFFFFFFFh”を返す。
【0005】
従って、異常発生時のアドレス及びコマンド情報をPCIバスインターフェースによりPCIバス上に出力するように構成したので、ホストCPUは異常が発生した時に異常発生アドレスにより異常PCIファンクション、異常PCIデバイスを特定し、異常発生箇所の切り離しを行う。
【0006】
【発明が解決しようとする課題】
従来のPCIバス処理装置による異常個所の特定は以上のように行われているので、PCIのトランザクションを解析するという特殊なH/W回路の追加が必要であった。
【0007】
また、PCIバス上に回路を接続する為、PCIバス上の電気的負荷となり、PCIバスの拡張スロットを1つ占有してしまうという課題があった。
【0008】
また、最初から異常であるPCIデバイス/ファンクションに対してPCIコンフィギュレーションサイクルを実行した場合、PCIデバイス/ファンクションからは初期化未完了を示すリトライが無限に繰り返されることとなるが、これ自体はPCIのトランザクションとしては正常であるため従来のPCIバス処理装置では検出不可能であり、ホストCPUとしても異常個所の特定が行えないという課題があった。
【0009】
【課題を解決するための手段】
(1)請求項1記載の発明に係わるPCIバス不良箇所切り離し方法は、ホストCPUカードと、PCIファンクションを内蔵したPCIデバイスとがPCIバスを介して接続されたシステムに対し、上記PCIファンクションまたはPCIデバイスをコンフィギュレーションした場合に異常があると、異常対象のPCIファンクションまたはPCIデバイスを上記システムから切り離すPCIバス不良個所切り離し方法において、上記システム立ち上げ時に上記各PCIファンクションまたは各PCIデバイス毎に順次コンフィギュレーションを実行する第1のステップと、上記コンフィギュレーション中に異常があると、上記ホストCPUカード及び全てのPCIファンクションまたはPCIデバイスをリセットする第2のステップと、上記リセット後に異常があったPCIファンクションまたはPCIデバイスを切り離して、残りの各PCIファンクションまたは各PCIデバイスに対し順次コンフィギュレーションを実行する第3のステップと、第3のステップでコンフィギュレーションを実行しても異常が解消しない場合は、第2のステップへ戻って上記ホストCPUカード及び全てのPCIファンクションまたはPCIデバイスに対してリセットを実行するよう、第2と第3のステップを所定回数または異常が解消するまで繰り返し行う第5のステップとを上記ホストCPUカードにて行うことにより、複数の異常PCIファンクションまたはPCIデバイスをシステムから切り離し可能としたものである。
【0010】
(2)請求項2記載の発明に係わるPCIバス不良箇所切り離し方法は、請求項1のPCIバス不良個所切り離し方法において、第2のステップでリセットした後に、第1のステップに戻り再度、全てのPCIファンクションまたはPCIデバイスに対してコンフィギュレーションするよう第1と第2のステップを少なくとも1回繰り返し、異常が解消しないと第3のステップへ移行する第4のステップを含めたものである。
【0011】
(3)請求項3記載の発明に係わるPCIバス不良箇所切り離し方法は、請求項1または請求項2のPCIバス不良個所切り離し方法において、第3のステップを実行しても異常が解消しない場合、あるいは、第3のステップを実行してから所望時間後に異常が解消しない場合、または、第1〜第3ステップのいずれか1つのステップが実行できない場合は、ホストCPUカードの異常と判定する第6のステップを含めたものである。
【0012】
(4)請求項4記載の発明に係わるPCIバス不良箇所切り離し方法を実行するプログラムは、請求項1〜3のいずれか1項に記載のPCIバス不良個所切り離し方法を実行させるためのプログラムとしたものである。
【0013】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はPCIバスを有するシステムの構成図で、10はPCIバスで、ホストCPUカード11とアドインカード12,13,14とが接続されている。ホストCPUカード11にはホストCPU11a及び図示しないがメモリ、インターフェース等の各種の計算機機能が内蔵されていてホストCPU機能を形成している。また、各種の必要なS/W11bも内蔵されていて、本発明のPCIバス不良箇所切り離し方法のソフトも内蔵されている。アドインカード12,13,14には、例えばLSIで構成されたPCIデバイス12a,13a,14aが設けられ、それらのPCIデバイス内には各種の機能を有するPCIファンクション12b,12c,13b,14b,14cを内蔵している。
【0014】
図2はこの発明の実施の形態1によるPCIバス不良箇所切り離し方法を実現するブロック図であり、図において、1はPCIバスに接続されるホストCPUカード上で動作し、PCIコンフィギュレーションサイクルを実行するPCIコンフィギュレーションサイクル実行部、2はこれからPCIコンフィギュレーションサイクルを実行するアクセスアドレス(PCIバス番号/デバイス番号/ファンクション番号の組み合わせ)を格納しておくアクセスアドレス格納領域、3は全ファンクションの論理的切り離し状況を管理するファンクション管理テーブル(図6参照)である。
【0015】
4はホストCPUカード上のCPU及びその上で動作するソフトウェアの正常動作を監視するWDT回路、5はホストCPUカード上のCPU及びその上で動作するソフトウェアが正常に動作している場合に、ソフトウェアにより定期的に書込みが行われるWDTクリアレジスタであり、書き込みが行われる事によりWDTのカウントアップ前にWDTカウンタ値のクリアを行う。なお、アドインカード上のCPUやその上で動作するソフトウェアの動作が異常の場合にはホストCPUカード上のCPU及びその上で動作するソフトウェアの異常として現れ、結果としてWDTクリアレジスタ5への書込みが停止する。従ってWDT回路4によってアドインカード側も監視している事となる。
【0016】
6はWDT回路4がカウントアップした場合に起動され、システムにウェイクアップリセット(Wake up reset)を発行するリセット生成回路、7はパワーONによるリセット解除か、ウェイクアップリセットによるリセット解除かを示すリセット要因レジスタであり、PCIコンフィギュレーションサイクル実行部1より読み込みが可能である。
なお、アクセスアドレス格納領域2とファンクション管理テーブル3のメモリ上に内容が格納され、ウェイクアップリセットをしてもその内容が保持される。
【0017】
次にWDT回路4の動作について説明する。
図3、図4はWDT回路4のカウンタ値の動きの一例を示す図である。
(1)まず図3(a)において、パワーONリセット解除(時刻:T1)にてWDT回路4がカウントし始める。
(2)ホストCPUとホストCPU上で動作しているソフトウェアが正常に動作しておりWDTカウントアップ以前にソフトウェアによりWDTクリアレジスタ5に書き込みを行うことによりWDTカウンタをクリアしている。この間にコンフィギュレーションが完了し、システムが立ち上がる。
【0018】
(3)図3(b)のように、あるPCIファンクションに異常があり、その為、そのPCIファンクションへのPCIコンフィギュレーション処理が時刻T2で停止したとすると、ソフトウェアによるWDTクリアレジスタ5への書込みが停止し、期間P1後にはWDTカウンタ値はカウントアップし、1回目のWDTカウントアップであるのでウェイクアップリセットの実施をリセット生成回路6に要求し、リセット生成回路6によりウェイクアップリセットが実施される(時刻:T3)。
(4)ウェイクアップリセット解除後に再度WDT回路4がカウントし始めるが、今回は異常PCIファンクションへのコンフィギュレーションをパスすることにより、WDTカウントアップ前にコンフィギュレーションが完了し、ソフトウェアによりWDTクリアレジスタ5をクリアするので、システムが正常に立ち上がる。
【0019】
(5)PCIファンクションに異常が発生し異常が復旧していない場合、図4(a)のように、ソフトウェアによるWDTクリアレジスタ5への書き込みが停止したままであるので、期間P2(=P1)後には再度WDTカウンタ値はカウントアップし、今回が連続した2回目のWDTカウントアップであるので、ホストCPUあるいは共通部であるPCIバスそのものの機能停止と判断し、例えばアラーム信号を送出するなどの異常判定処理を行う(時刻T5)。
(6)なお、図4(b)のように期間P2の間に一度でもソフトウェアによるWDTクリアレジスタ5への書き込みが行われた場合は、次のWDTカウントアップは1回目とみなし、ウェイクアップリセットとなる。(期間P2の間にWDTクリア処理が入ったために、連続2回目とならない。)
【0020】
次に全体の処理フローについて説明する。
図5はPCIコンフィギュレーションサイクル実行部1がPCIバス上の各ファンクションをコンフィギュレーションする一例を示すフローチャート図である。まず全PCIバス/デバイス/ファンクションが正常かつ、リセット要因がパワーONの場合を説明する。
【0021】
(1)PCIコンフィギュレーションサイクル実行部1はリセット要因レジスタ7の内容を読み出し(ステップST1−1)、
(2)今回のリセット要因を調べ(ステップST1−2)、
(3)リセット要因がWDTカウントアップによるウェイクアップリセット以外でなので、ファンクション管理テーブル3中の全ファンクションステータスを“0:正常”に初期化し(ステップST1−3)、
(4)全PCIバス/デバイス/ファンクションのコンフィギュレーション繰り返し処理に移り(ステップST1−4)、
(5)今回の繰り返し処理中にコンフィギュレーションする対象ファンクションステータスを調べ(ステップST1−5)、
【0022】
(6)異常なしなので今回コンフィギュレーションする対象のアクセスアドレスをアクセスアドレス格納領域2に格納し(ステップST1−6)、
(7)対象ファンクションのPCIコンフィギュレーション実行(ステップST1−7)、
(8)完了後にアクセスアドレス格納領域2をクリア(ステップST1−8)、全PCIバス/デバイス/ファンクション分をステップST1−4より繰り返し実行(ステップST1−9)により全PCIコンフィギュレーションを終了し、
(9)WDTカウントアップ前にWDTクリアレジスタ5に書き込みを行う(ステップST1−10)。(正常終了時でもWDTカウントアップしないようにカウンタの値を決定している。)
【0023】
次にPCIバス番号=0/デバイス番号=1/ファンクション番号=1で異常が発生している状態でパワーONリセットからの流れを説明する。
(1)ステップST1−1〜ST1−6までは前述と全く同じである。
(2)PCIバス番号=0/デバイス番号=1/ファンクション番号=1に対してPCIコンフィギュレーションを実施すると(ステップST1−7)、
【0024】
(3)PCIコンフィギュレーションサイクルが無限にリトライ処理を繰り返し、終了しないケースに陥る場合がある。(汎用のPCIチップセットとCPUを搭載し、CPU上で動作するS/Wによりこの汎用PCIチップを初期化するようなPCIターゲットカード(アドインカード)の場合、S/Wが正常に動作しないような異常が発生するとPCIチップの初期化が完了しない。この場合にはホストCPUカードからのPCIコンフィギュレーションサイクルに対して無限にリトライ処理を繰り返す結果となる場合がある。)結果としてWDTカウントアップ以前にWDTクリアレジスタ5への書き込みを行う事ができないため、ウェイクアップリセットが発生する。
【0025】
次に上記ウェイクアップリセット発生以降の流れを説明する。
(1)PCIコンフィギュレーションサイクル実行部1はリセット要因レジスタの内容を読み出し(ステップST1−1)、
(2)今回のリセット要因を調べ(ステップST1−2)、
(3)リセット要因がWDTカウントアップによるウェイクアップリセットなのでアクセスアドレス格納領域2の内容を読み出し(ステップST1−11)、
(4)格納内容を調べ(ステップST1−12)、
(5)異常を生じたアクセスアドレスが格納されているのでそのアクセスアドレス格納領域2をクリア(ステップST1−13)後、
【0026】
(6)ウェイクアップリセット発生以前にアクセスしていた情報であるPCIバス番号=0/デバイス番号=1/ファンクション番号=1を元に、ファンクション管理テーブル3中の該当するファンクションステータスを“1:異常”にセットし(ステップST1−14)、
(7)全PCIバス/デバイス/ファンクションのコンフィギュレーション繰り返し処理に移り(ステップST1−4)、
(8)今回の繰り返し処理中にコンフィギュレーションする対象ファンクションステータスを調べ(ステップST1−5)、
【0027】
(9)PCIバス番号=0/デバイス番号=1/ファンクション番号=1のファンクションステータスが”1:異常”にセットされているので、PCIバス番号=0/デバイス番号=1/ファンクション番号=1に対するPCIコンフィギュレーション処理を省略し、残りの全PCIバス/デバイス/ファンクション分をステップST1−4より繰り返し実行(ステップST1−9)により全PCIコンフィギュレーションを終了し、
(10)WDTカウントアップ前にWDTクリアレジスタ5に書き込みを行う(ステップST1−10)。
【0028】
(11)残りの全PCIバス/デバイス/ファンクションのPCIコンフィギュレーション中に他のファンクションで同様の異常となった場合には、PCIコンフィギュレーション処理で停止し、連続2回目のWDTカウントアップ後にホストCPU機能が停止していると判定する。
つまり、最初に異常を検出した1つのPCIファンクションの切り離し処理のみを行い、複数のPCIファンクションが異常の場合には、ホストCPUあるいは共通部であるPCIバスそのものの機能停止と判断し、アラーム等の送出処理を行う。
【0029】
図6にPCIバス番号=0/デバイス番号=1/ファンクション番号=1で異常が発生してPCIコンフィギュレーション処理を省略した後のファンクション管理テーブル3の例を示す。
【0030】
このように、WDTカウントアップによるウェイクアップリセットを設け、異常ファンクションに対するPCIコンフィギュレーションサイクル処理の停止からのリセット復帰をできる様にし、さらに、アクセスアドレス格納領域2とファンクション管理テーブル3により、異常となったPCIコンフィギュレーションサイクルのアクセス先(PCIバス番号/デバイス番号/ファンクション番号)を格納・保持する手段を設け、全PCIコンフィギュレーション完了後に始めてWDTクリア処理を行う為、1つの異常PCIファンクションの検出と、その1つのPCIファンクションの論理的に切り離しが可能となり、正常部分でのシステムの連続稼動性の向上が可能となる。
【0031】
また、PCIのトランザクションを解析するという特殊なH/W回路の追加も必要ない。
【0032】
また、PCIバス上の電気的負荷とならないので、PCIバスの拡張スロットを1つ占有する事も無いため、PCIバス拡張スロットを有効に使用できる。
【0033】
実施の形態2.
実施の形態1では図4(a)において、T3時点で1回目のWDTカウントアップによりウェイクアップリセットをした後、異常のPCIファンクションを除いて、残りのPCIファンクションに対してPCIコンフィギュレーションを実行するようにしたが、たまたまノイズの影響などで過渡的に異常が発生し、正常のPCIファンクションが異常とみなされることがある。
この発明の実施の形態2では、異常のあるアドレスのPCIファンクションを除かず全アドレスのPCIファンクションに対してPCIコンフィギュレーションを再度実行する。
つまり、図4(a)のP1の期間に相当する動作を少なくとも一回は繰り返すようにし、その後にP2の期間の処理に移行する。
【0034】
実施の形態3.
次に、この発明の実施の形態3について説明する。実施の形態3ではブロック図は実施の形態1での図2と同様であり、実施の形態1と異なるのはPCIコンフィギュレーションサイクル実行部1の処理を示す図7のフローチャートと、図8の使用するファンクション管理テーブルの内容である。
【0035】
次に動作について説明する。
図7はこの発明の実施の形態3によるPCIコンフィギュレーションサイクル実行部1がファンクション管理テーブル3を使用して処理を行う一例を示すフローチャート図である。図7において、実施の形態1と同等の処理ステップには図5と同一のステップ番号を付けて重複説明を省略する。また、図7において、図5と異なる部分についてのみ新たなステップ番号ST2−15を付けて説明する。
【0036】
全PCIバス/デバイス/ファンクションが正常の場合には実施の形態1と同様の処理になる為に説明を省略する。
また、PCIバス番号=0/デバイス番号=1/ファンクション番号=1で異常が発生している状態でのパワーONリセットからウェイクアップリセット1回目が発生するまでの流れも実施の形態1と同様の処理になるために説明を省略する。
【0037】
次に上記ウェイクアップリセット1回目発生以降の流れを説明する。
(1)ステップST1−1〜ST1−14までは実施の形態1と同様であり、この時点ではPCIバス番号=0/デバイス番号=1/ファンクション番号=1に該当するファンクション管理テーブル3中のファンクションステータスは“1:異常”にセットされている。
(2)この後、実施の形態3ではWDTクリアレジスタ5への書き込み処理を行い(ステップST2−15)、
(3)全PCIバス/デバイス/ファンクションのコンフィギュレーション繰り返し処理に移り(ステップST1−4)、
(4)今回の繰り返し処理中にコンフィギュレーションする対象ファンクションステータスを調べ(ステップST1−5)、
(5)PCIバス番号=0/デバイス番号=1/ファンクション番号=1のファンクションステータスが”1:異常”にセットされているので、PCIバス番号=0/デバイス番号=1/ファンクション番号=1に対するPCIコンフィギュレーション処理を省略し、残りの全PCIバス/デバイス/ファンクション分をステップST1−4より繰り返し実行する(ステップST1−9)。
【0038】
(6)ここで、残りの全PCIバス/デバイス/ファンクションのPCIコンフィギュレーション中に他のPCIファンクションで同様の異常となった場合として、PCIバス番号=0/デバイス番号=1/ファンクション番号=3の異常を想定する(図8参照)。このPCIバス番号=0/デバイス番号=1/ファンクション番号=3に対するPCIコンフィギュレーション処理が無限にリトライを繰り返し、終了しない。結果として再度WDTカウンタがカウントアップする。
(7)ここで実施の形態1と異なる点はステップST2−15にて一度WDTクリアレジスタ5への書き込みを実施しているため、今回のカウントアップでもウェイクアップリセットが発生する点である。
【0039】
(8)ウェイクアップリセット後は再度ステップST1−1より開始し、
(9)最終的にはPCIバス番号=0/デバイス番号=1/ファンクション番号=1とPCIバス番号=0/デバイス番号=1/ファンクション番号=3の両ファンクションの異常を検出し、両ファンクションに対するPCIコンフィギュレーション処理を省略することにより、両ファンクションをPCIバスより論理的に切り離す。
【0040】
図8にPCIバス番号=0/デバイス番号=1/ファンクション番号=1と、PCIバス番号=0/デバイス番号=1/ファンクション番号=3で異常が発生してPCIコンフィギュレーション処理を省略した後のファンクション管理テーブル3の例を示す。
【0041】
このように、WDTカウントアップによるウェイクアップリセットを設け、異常ファンクションに対するPCIコンフィギュレーションサイクル処理の停止からのリセット復帰をできる様にし、さらに、アクセスアドレス格納領域2とファンクション管理テーブル3により、異常となったPCIコンフィギュレーションサイクルのアクセス先(PCIバス番号/デバイス番号/ファンクション番号)を格納・保持する手段を設け、異常ファンクションを検出する度にWDTクリア処理を行う為、複数または全ての異常PCIファンクションの検出と、それら複数または全ての異常PCIファンクションを論理的に切り離し可能となり、正常部分でのシステムの連続稼動性の向上が可能となる。
【0042】
以上のように複数の異常のPCIファンクションがあり、これらの異常のある全てのPCIファンクションが切り離されるまで、コンフィギュレーションを繰り返してコンフィギュレーションを完了することができる。
しかし、ホストCPUカードの故障があると、コンフィギュレーション動作を繰り返すので、これを防止するため所定回数コンフィギュレーションするとホストCPUあるいは共通部であるPCIバスそのものの機能停止と判定し、アラーム等を送出してコンフィギュレーションを中止するようにしてもよい。
【0043】
実施の形態4.
システム構成としてPCIバス上に実装されるH/Wとして1カード=1デバイス=1ファンクションあるいは、1カード=1デバイス=複数ファンクションの構成が多く、また、異常となる単位もカード単位、つまり、デバイス単位となる場合が多い。この実施の形態4では、PCIデバイス単位での論理的切り離しを行うようにし、システム立ち上がり時間を更に短縮するものである。
【0044】
図9はこの発明の実施の形態4によるPCIバス不良箇所切り離し方法を実現するブロック図であり、図において、実施の形態3と同等のブロックには図2と同一の番号を付けて重複説明を省略する。また、図9において、図2と異なる部分についてのみ30番台の新たなブロック番号を付けて説明する。
実施の形態4ではPCIバスからの論理的切り離しの単位をPCIデバイスとするので、実施の形態3でのファンクション管理テーブル3は、デバイス管理テーブル33となる。その他のブロックは実施の形態3と同様である。
【0045】
次に動作について説明する。
図10はこの発明の実施の形態4によるPCIコンフィギュレーションサイクル実行部1がデバイス管理テーブル33を使用して処理を行う一例を示すフローチャート図である。図において、実施の形態3と同等の処理ステップには図7と同一のステップ番号を付けて重複説明を省略する。また、図10において、図7と異なる部分についてのみ新たなステップ番号ST3−3,ST3−5,ST3−14を付けて説明する。
【0046】
全PCIバス/デバイス/ファンクションが正常の場合には実施の形態3と同様の処理になる為に説明を省略する。
PCIバス番号=0/デバイス番号=1/ファンクション番号=1で異常が発生している状態でパワーONリセットからの流れを説明する。
(1)ステップST1−1〜ST1−2までは実施の形態3と全く同じである。
(2)リセット要因がWDTカウントアップによるウェイクアップリセット以外なのでデバイス管理テーブル33中の全デバイスステータスを“0:正常”に初期化し(ステップST3−3)、
【0047】
(3)ステップST1−4〜ステップST1−6は実施の形態3と同様の処理を行い、PCIバス番号=0/デバイス番号=1/ファンクション番号=1に対してPCIコンフィギュレーションを実施すると(ステップST1−7)、PCIコンフィギュレーションサイクルが無限にリトライ処理を繰り返し、終了しないケースに陥る場合がある。結果としてWDTカウントアップ以前にWDTクリアレジスタ5への書き込みを行う事ができないため、ウェイクアップリセットが発生する。
【0048】
次に上記ウェイクアップリセット発生以降の流れを説明する。
(1)ステップST1−1〜ST1−13までは実施の形態3と同様に、ウェイクアップリセット発生以前にアクセスしていた情報であるPCIバス番号=0/デバイス番号=1/ファンクション番号=1を元に、デバイス管理テーブル33中の該当するデバイスステータスを“1:異常”にセットし(ステップST3−14)、
(2)全PCIバス/デバイス/ファンクションのコンフィギュレーション繰り返し処理に移り(ステップST1−4)、
(3)今回の繰り返し処理中にコンフィギュレーションする対象デバイスステータスを調べ(ステップST3−5)、
【0049】
(4)PCIバス番号=0/デバイス番号=1のデバイスステータスが”1:異常”にセットされているので、PCIバス番号=0/デバイス番号=1の全ファンクションに対するPCIコンフィギュレーション処理を省略し、残りの全PCIバス/デバイス/ファンクション分をステップST1−4より繰り返し実行(ステップST1−9)により全PCIコンフィギュレーションを終了し、
(5)WDTカウントアップ前にWDTクリアレジスタ5に書き込みを行う(ステップST1−10)。
【0050】
(6)残りの全PCIバス/デバイス/ファンクションのPCIコンフィギュレーション中に他のデバイスで同様の異常となった場合には、デバイス管理テーブル33中の該当するデバイスステータスを“1:異常”にセットし、再度ステップST1−1より再開する。
この場合でもデバイス管理テーブル33はクリアされずに保持されている為、前回、既に異常のためにPCIコンフィギュレーション処理を省略したデバイスは、今回も再度省略される。
【0051】
図11にPCIバス番号=0/デバイス番号=1/ファンクション番号=1と、PCIバス番号=0/デバイス番号=3/ファンクション番号=1で異常が発生してPCIコンフィギュレーション処理を省略した後のデバイス管理テーブル33の例を示す。なお、コンフィギュレーションする場合や異常を検出するのはファンクション単位であるが、切り離しはデバイス単位であるので、図11のデバイス管理テーブル33にはファンクション番号が表示されない。
【0052】
このように、WDTカウントアップによるウェイクアップリセットを設け、異常デバイスに対するPCIコンフィギュレーションサイクル処理の停止からのリセット復帰をできる様にし、さらに、アクセスアドレス格納領域2とデバイス管理テーブル33により、異常となったPCIコンフィギュレーションサイクルのアクセス先(PCIバス番号/デバイス番号)を格納・保持する手段を設け、異常デバイスを検出する度にWDTクリア処理を行う為、複数または全ての異常PCIデバイスの検出と、それら複数または全ての異常PCIデバイスを論理的に切り離し可能となり、正常部分でのシステムの連続稼動性の向上が可能となる。
【0053】
また、PCIデバイス単位での論理的切り離しによって、PCIファンクション単位での論理的切り離しよりもシステム立ち上がり時間が短縮される。
【0054】
上記各実施の形態ではPCIバスについて説明したが、最近よく使用されているCompactPCIバスについてもこの発明が適用できる。
【0055】
【発明の効果】
(1)以上のように、請求項1記載の発明によれば、1つの異常PCIファンクションの検出と、その1つのPCIファンクションの論理的に切り離しが可能となり、正常部分でのシステムの連続稼動性を向上させる効果がある。
【0056】
(2)請求項2記載の発明によれば、異常があっても全てのPCIファンクションに対しコンフィギュレーションを少なくとも1回繰り返すことにより、ノイズの影響などで過渡的に異常が発生しても、正常のPCIファンクションが異常とみなされることを防止する効果がある。
【0057】
(3)また、請求項1及び2記載の発明によれば、異常があれば順次残りのPCIファンクションのコンフィギュレーションを行うことにより、複数のまたは全ての異常PCIファンクションの検出と、それら複数のまたは全ての異常PCIファンクションの論理的に切り離しが可能となり、正常なPCIファンクションだけで立ち上げることができ、正常部分でのシステムの連続稼動性を向上させる効果がある。
【0058】
(4)請求項3記載の発明によれば、PCIデバイス単位で異常を検出し、そのPCIデバイスを切り離すようにしたので、正常部分でのシステムの連続稼動性を向上させる効果がある。
【0059】
(5)請求項4記載の発明によれば、正常部分でのシステムの連続稼動性を向上するプログラムとした効果がある。
【0060】
【図面の簡単な説明】
【図1】 本発明の実施の形態1によるPCIバスシステムの構成図である。
【図2】 本発明の実施の形態1によるPCI不良箇所切り離し方法の一例を示すブロック図である。
【図3】 本発明の実施の形態1によるPCI不良箇所切り離し方法で使用するWDT回路の動作例である。
【図4】 本発明の実施の形態1によるPCI不良箇所切り離し方法で使用するWDT回路の動作例である。
【図5】 本発明の実施の形態1によるPCI不良箇所切り離し方法の一例を示すフローチャート図である。
【図6】 本発明の実施の形態1によるPCI不良箇所切り離し方法で使用するファンクション管理テーブルの一例である。
【図7】 本発明の実施の形態3によるPCI不良箇所切り離し方法の一例を示すフローチャート図である。
【図8】 本発明の実施の形態3によるPCI不良箇所切り離し方法で使用するファンクション管理テーブルの一例である。
【図9】 本発明の実施の形態4によるPCI不良箇所切り離し方法の一例を示すブロック図である。
【図10】 本発明の実施の形態4によるPCI不良箇所切り離し方法の一例を示すフローチャート図である。
【図11】 本発明の実施の形態4によるPCI不良箇所切り離し方法で使用するデバイス管理テーブルの一例である。
【図12】 従来例のPCIバス処理装置の構成例である。
【符号の説明】
1 PCIコンフィギュレーションサイクル実行部
2 アクセスアドレス格納領域 3 ファンクション管理テーブル
4 WDT回路 5 WDTクリアレジスタ
6 リセット生成回路 7 リセット要因レジスタ
12,13,14 アドインカード
12a,13a,14a PCIデバイス
12b,12c,13b,14b,14c PCIファンクション[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method for isolating a defective part of a PCI bus conforming to the PCI bus specification. In particular, the present invention logically separates a defective device / function on the PCI bus without adding H / W on the PCI bus. The system is started and the continuous operability of the system is improved.
[0002]
[Prior art]
FIG. 12 is a block diagram showing a PCI bus processing apparatus disclosed in, for example, Japanese Patent Application Laid-Open No. 11-191073. In the figure, 20 is a PCI bus processing device, 21 is a transaction start detection circuit for detecting the start of a transaction on the PCI bus, and inputs FRAME # of the PCI bus signal. 22 is a holding register for holding information on the address / data line and command / byte enable line on the PCI bus, 23 is an abnormality detection circuit for detecting an abnormality on the PCI bus, and 24 indicates whether or not it is valid. A
[0003]
Next, the operation will be described.
(1) When the bus master on the PCI bus starts a transaction on the PCI bus, the transaction start detection circuit in the PCI
(2) Next, the
[0004]
(3) Then, the host CPU (not shown) having received the abnormality report on the PCI bus reads the
(4) The
On the other hand, when validbit is invalid, “FFFFFFFFh” is returned.
[0005]
Therefore, since the address and command information at the time of occurrence of an abnormality are output on the PCI bus via the PCI bus interface, the host CPU identifies the abnormal PCI function and abnormal PCI device by the abnormality occurrence address when an abnormality occurs, Isolate the location where the error occurred.
[0006]
[Problems to be solved by the invention]
Since the abnormal part is identified by the conventional PCI bus processing apparatus as described above, it is necessary to add a special H / W circuit for analyzing a PCI transaction.
[0007]
In addition, since a circuit is connected on the PCI bus, there is a problem that an electric load is generated on the PCI bus and one expansion slot of the PCI bus is occupied.
[0008]
In addition, when a PCI configuration cycle is executed for a PCI device / function that is abnormal from the beginning, the PCI device / function will retry indefinitely indicating that the initialization has not been completed. Since this transaction is normal, it cannot be detected by a conventional PCI bus processing device, and the host CPU cannot identify an abnormal part.
[0009]
[Means for Solving the Problems]
(1) A PCI bus defective portion isolation method according to the first aspect of the present invention is a host CPU.cardAnd a PCI device with a built-in PCI function connected to the system via the PCI bus, if there is an abnormality when the PCI function or PCI device is configured, the PCI function or PCI device to be abnormally In a method for isolating a defective PCI bus from a system, a first step of sequentially performing configuration for each PCI function or each PCI device at the time of starting the system, and an abnormality during the configurationButIf there,The host CPU card andA second step of resetting all PCI functions or PCI devices and a step of performing configuration sequentially for each remaining PCI function or PCI device by disconnecting the PCI function or PCI device that has failed after the resetting. 3 steps andIf the abnormality is not resolved even after executing the configuration in the third step, the second step is performed so as to return to the second step and reset the host CPU card and all PCI functions or PCI devices. And the fifth step in which the third step is repeated a predetermined number of times or until the abnormality is resolved is performed on the host CPU card, so that a plurality of abnormal PCI functions or PCI devices can be separated from the system.Is.
[0010]
(2) The PCI bus fault location isolation method according to the invention of
[0011]
(3) The PCI bus fault location isolation method according to the invention of
[0012]
(4) The program for executing the PCI bus defective part isolation method according to the invention described in
[0013]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below.
FIG. 1 is a configuration diagram of a system having a PCI bus. Reference numeral 10 denotes a PCI bus to which a host CPU card 11 and add-in
[0014]
FIG. 2 is a block diagram for realizing the PCI bus fault location isolation method according to the first embodiment of the present invention. In FIG. 2, 1 operates on a host CPU card connected to the PCI bus and executes a PCI configuration cycle. PCI configuration cycle execution unit to perform, 2 is an access address storage area for storing an access address (combination of PCI bus number / device number / function number) for executing a PCI configuration cycle from now on, and 3 is a logical for all functions It is a function management table (refer FIG. 6) which manages the cutting | disconnection condition.
[0015]
4Is a WDT circuit that monitors the normal operation of the CPU on the host CPU card and the software operating on it, and 5 is the software when the CPU on the host CPU card and the software operating on the CPU are operating normally. This is a WDT clear register that is periodically written. By writing, the WDT counter value is cleared before the WDT counts up. If the operation of the CPU on the add-in card or the software operating on the add-in card is abnormal, it appears as an abnormality of the CPU on the host CPU card and the software operating on the CPU, and as a result, writing to the WDT
[0016]
6 is a reset generation circuit that is activated when the
The contents are stored in the memory of the access
[0017]
Next, the operation of the
3 and 4 are diagrams showing an example of the movement of the counter value of the
(1) First, in FIG. 3A, the
(2) The host CPU and the software operating on the host CPU are operating normally, and the WDT counter is cleared by writing to the WDT
[0018]
(3) As shown in FIG. 3 (b), if there is an abnormality in a PCI function and the PCI configuration processing for that PCI function is stopped at time T2, writing to the WDT
(4) The
[0019]
(5) If an abnormality occurs in the PCI function and the abnormality has not been recovered, writing to the WDT
(6) As shown in FIG. 4B, if the software writes to the WDT
[0020]
Next, the entire processing flow will be described.
FIG. 5 is a flowchart showing an example in which the PCI configuration
[0021]
(1) The PCI configuration
(2) Check the cause of reset this time (step ST1-2),
(3) Since the reset factor is other than wake-up reset by WDT count-up, all function statuses in the function management table 3 are initialized to “0: normal” (step ST1-3),
(4) Move to configuration repetition processing for all PCI buses / devices / functions (step ST1-4),
(5) Check the target function status to be configured during the current iterative process (step ST1-5),
[0022]
(6) Since there is no abnormality, the access address to be configured this time is stored in the access address storage area 2 (step ST1-6).
(7) PCI configuration execution of target function (step ST1-7),
(8) After completion, the access
(9) Write to the WDT
[0023]
Next, the flow from the power-on reset in the state where an abnormality has occurred with PCI bus number = 0 / device number = 1 / function number = 1 will be described.
(1) Steps ST1-1 to ST1-6 are exactly the same as described above.
(2) When PCI configuration is performed for PCI bus number = 0 / device number = 1 / function number = 1 (step ST1-7),
[0024]
(3) There are cases where the PCI configuration cycle repeats retry processing indefinitely and does not end. (In the case of a PCI target card (add-in card) in which a general-purpose PCI chip set and a CPU are mounted and this general-purpose PCI chip is initialized by an S / W operating on the CPU, the S / W does not operate normally. If a malfunction occurs, the initialization of the PCI chip will not be completed, and in this case, the retry process may be repeated infinitely for the PCI configuration cycle from the host CPU card.) As a result, before the WDT count up Since no data can be written to the WDT
[0025]
Next, the flow after the occurrence of the wake-up reset will be described.
(1) The PCI configuration
(2) Check the cause of reset this time (step ST1-2),
(3) Since the reset factor is a wake-up reset by WDT count-up, the contents of the access
(4) Check the stored contents (step ST1-12),
(5) Since the access address where the abnormality has occurred is stored, the access
[0026]
(6) Based on PCI bus number = 0 / device number = 1 / function number = 1, which is information accessed before the occurrence of wakeup reset, the corresponding function status in the function management table 3 is set to “1: Abnormal”. "(Step ST1-14)
(7) Move to configuration repetition processing for all PCI buses / devices / functions (step ST1-4),
(8) Check the target function status to be configured during the current iterative process (step ST1-5),
[0027]
(9) Since the function status of PCI bus number = 0 / device number = 1 / function number = 1 is set to “1: abnormal”, PCI bus number = 0 / device number = 1 / function number = 1 The PCI configuration processing is omitted, and the remaining PCI buses / devices / functions are repeatedly executed from step ST1-4 (step ST1-9) to complete the entire PCI configuration.
(10) Write to the WDT
[0028]
(11) If the same abnormality occurs in other functions during the PCI configuration of all remaining PCI buses / devices / functions, it stops at the PCI configuration process, and after the second consecutive WDT count up, the host CPU It is determined that the function is stopped.
In other words, only the process of disconnecting one PCI function that first detects an abnormality is performed. If a plurality of PCI functions are abnormal, it is determined that the function of the host CPU or the PCI bus itself that is a common unit is stopped, and an alarm, etc. Perform sending processing.
[0029]
FIG. 6 shows an example of the function management table 3 after a PCI bus number = 0 / device number = 1 / function number = 1 and an abnormality occurs and the PCI configuration processing is omitted.
[0030]
In this way, a wake-up reset by counting up the WDT is provided so that the reset can be recovered from the stop of the PCI configuration cycle processing for the abnormal function. Further, the access
[0031]
Further, it is not necessary to add a special H / W circuit for analyzing a PCI transaction.
[0032]
Further, since no electrical load is applied on the PCI bus, one PCI slot expansion slot is not occupied, so that the PCI bus expansion slot can be used effectively.
[0033]
In the first embodiment, in FIG. 4A, after the wake-up reset is performed by the first WDT count-up at time T3, the PCI configuration is executed for the remaining PCI functions except for the abnormal PCI function. However, a transient abnormality may occur due to the influence of noise or the like, and a normal PCI function may be regarded as abnormal.
In the second embodiment of the present invention, the PCI configuration is re-executed for the PCI functions of all addresses without removing the PCI functions of the abnormal addresses.
That is, the operation corresponding to the period P1 in FIG. 4A is repeated at least once, and then the process proceeds to the period P2.
[0034]
Next, a third embodiment of the present invention will be described. In the third embodiment, the block diagram is the same as that in FIG. 2 in the first embodiment. The difference from the first embodiment is the flowchart of FIG. 7 showing the processing of the PCI configuration
[0035]
Next, the operation will be described.
FIG. 7 is a flowchart showing an example in which the PCI configuration
[0036]
When all the PCI buses / devices / functions are normal, the processing is the same as that of the first embodiment, and the description thereof is omitted.
Further, the flow from the power-on reset to the first occurrence of the wake-up reset in the state where an abnormality has occurred with PCI bus number = 0 / device number = 1 / function number = 1 is the same as that of the first embodiment. The description is omitted because it is a process.
[0037]
Next, the flow after the first occurrence of the wakeup reset will be described.
(1) Steps ST1-1 to ST1-14 are the same as in the first embodiment. At this time, the function in the function management table 3 corresponding to PCI bus number = 0 / device number = 1 / function number = 1. The status is set to “1: Abnormal”.
(2) Thereafter, in the third embodiment, a write process to the WDT
(3) Shift to configuration repetition processing for all PCI buses / devices / functions (step ST1-4),
(4) Check the target function status to be configured during the current iterative process (step ST1-5),
(5) Since the function status of PCI bus number = 0 / device number = 1 / function number = 1 is set to “1: abnormal”, PCI bus number = 0 / device number = 1 / function number = 1 The PCI configuration process is omitted, and the remaining PCI bus / device / function is repeatedly executed from step ST1-4 (step ST1-9).
[0038]
(6) Here, when the same abnormality occurs in other PCI functions during the PCI configuration of all remaining PCI buses / devices / functions, PCI bus number = 0 / device number = 1 / function number = 3 (See FIG. 8). The PCI configuration processing for the PCI bus number = 0 / device number = 1 / function number = 3 is repeated indefinitely and does not end. As a result, the WDT counter counts up again.
(7) Here, the difference from the first embodiment is that the write to the WDT
[0039]
(8) After wake-up reset, start again from step ST1-1,
(9) Eventually, an abnormality of both functions of PCI bus number = 0 / device number = 1 / function number = 1 and PCI bus number = 0 / device number = 1 / function number = 3 is detected, and both functions are detected. By omitting the PCI configuration process, both functions are logically separated from the PCI bus.
[0040]
In FIG. 8, after the PCI configuration processing is omitted due to the occurrence of an abnormality with PCI bus number = 0 / device number = 1 / function number = 1 and PCI bus number = 0 / device number = 1 / function number = 3 An example of the function management table 3 is shown.
[0041]
In this way, a wake-up reset by counting up the WDT is provided so that the reset can be recovered from the stop of the PCI configuration cycle processing for the abnormal function. Further, the access
[0042]
As described above, there are multiple abnormal PCI functions, and all PCI functions with these abnormalities.ButThe configuration can be repeated to complete the configuration until disconnected.
However, the host CPUcardIf there is a failure, the configuration operation is repeated. To prevent this, if the configuration is performed a predetermined number of times, it is determined that the function of the host CPU or the PCI bus itself, which is a common unit, has stopped, and an alarm is sent to cancel the configuration. You may make it do.
[0043]
There are many configurations of 1 card = 1 device = 1 function or 1 card = 1 device = multiple functions as hardware mounted on the PCI bus as a system configuration, and an abnormal unit is also a card unit, that is, a device It is often a unit. In the fourth embodiment, logical separation is performed in units of PCI devices, and the system rise time is further shortened.
[0044]
FIG. 9 is a block diagram for realizing a PCI bus fault location isolation method according to the fourth embodiment of the present invention. In the figure, the same blocks as those in the third embodiment are given the same numbers as in FIG. Omitted. Further, in FIG. 9, only parts different from FIG. 2 will be described with new block numbers in the 30s.
In the fourth embodiment, since the unit of logical separation from the PCI bus is a PCI device, the function management table 3 in the third embodiment is a device management table 33. Other blocks are the same as those in the third embodiment.
[0045]
Next, the operation will be described.
FIG. 10 is a flowchart showing an example in which the PCI configuration
[0046]
When all the PCI buses / devices / functions are normal, the processing is the same as that of the third embodiment, so that the description is omitted.
A flow from a power-on reset in the state where an abnormality has occurred with PCI bus number = 0 / device number = 1 / function number = 1 will be described.
(1) Steps ST1-1 to ST1-2 are exactly the same as in the third embodiment.
(2) Since the reset factor is other than wake-up reset by WDT count-up, all device statuses in the device management table 33 are initialized to “0: normal” (step ST3-3).
[0047]
(3) Steps ST1-4 to ST1-6 perform the same processing as in the third embodiment, and when PCI configuration is performed for PCI bus number = 0 / device number = 1 / function number = 1 (step ST1-7) In some cases, the PCI configuration cycle repeats retry processing indefinitely and does not end. As a result, since writing to the WDT
[0048]
Next, the flow after the occurrence of the wake-up reset will be described.
(1) In steps ST1-1 to ST1-13, as in the third embodiment, PCI bus number = 0 / device number = 1 / function number = 1, which is information accessed before the wake-up reset is generated. Originally, the corresponding device status in the device management table 33 is set to “1: abnormal” (step ST3-14),
(2) Move to configuration repetition processing for all PCI buses / devices / functions (step ST1-4),
(3) Check the target device status to be configured during the current iterative process (step ST3-5),
[0049]
(4) Since the device status of PCI bus number = 0 / device number = 1 is set to “1: abnormal”, the PCI configuration processing for all functions of PCI bus number = 0 / device number = 1 is omitted. The remaining PCI bus / device / function is repeatedly executed from step ST1-4 (step ST1-9) to complete the entire PCI configuration.
(5) Write to the WDT
[0050]
(6) If the same abnormality occurs in other devices during the PCI configuration of all remaining PCI buses / devices / functions, the corresponding device status in the device management table 33 is set to “1: abnormal”. Then, it restarts again from step ST1-1.
Even in this case, since the device management table 33 is held without being cleared, a device for which the PCI configuration processing has already been omitted because of an abnormality last time is omitted again this time.
[0051]
In FIG. 11, after PCI bus number = 0 / device number = 1 / function number = 1 and PCI bus number = 0 / device number = 3 / function number = 1, an error occurs and PCI configuration processing is omitted. An example of the device management table 33 is shown. Note that when configuring or detecting an abnormality in units of functions, since disconnection is in units of devices, no function number is displayed in the device management table 33 in FIG.
[0052]
In this way, a wake-up reset by counting up the WDT is provided so that the reset can be returned from the stop of the PCI configuration cycle processing for the abnormal device. Further, the access
[0053]
In addition, the logical detachment in units of PCI devices shortens the system startup time compared with the logical detachment in units of PCI functions.
[0054]
In each of the above embodiments, the PCI bus has been described. However, the present invention can also be applied to a Compact PCI bus that is frequently used recently.
[0055]
【The invention's effect】
(1) As described above, according to the first aspect of the present invention, it is possible to detect one abnormal PCI function and logically separate the one PCI function, and the continuous operation of the system in a normal part. There is an effect of improving.
[0056]
(2) According to the invention described in
[0057]
(3)
[0058]
(4) Claim3According to the described invention, since an abnormality is detected in units of PCI devices and the PCI devices are disconnected, there is an effect of improving the continuous operability of the system in a normal part.
[0059]
(5) Claim4According to the described invention, there is an effect that the program improves the continuous operability of the system in the normal part.
[0060]
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a PCI bus system according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing an example of a PCI defective portion isolation method according to the first embodiment of the present invention.
FIG. 3 is an operation example of a WDT circuit used in the PCI defective portion isolation method according to the first embodiment of the present invention;
FIG. 4 is an operation example of a WDT circuit used in the PCI defective portion isolation method according to the first embodiment of the present invention.
FIG. 5 is a flowchart showing an example of a PCI defective portion isolation method according to the first embodiment of the present invention.
FIG. 6 is an example of a function management table used in the PCI defective portion isolation method according to the first embodiment of the present invention.
FIG. 7 is a flowchart showing an example of a PCI defective portion isolation method according to
FIG. 8 is an example of a function management table used in the PCI defective portion isolation method according to the third embodiment of the present invention.
FIG. 9 is a block diagram showing an example of a PCI defective portion isolation method according to
FIG. 10 is a flowchart showing an example of a PCI defective portion isolation method according to
FIG. 11 is an example of a device management table used in the PCI defective portion isolation method according to the fourth embodiment of the present invention.
FIG. 12 is a configuration example of a conventional PCI bus processing device.
[Explanation of symbols]
1 PCI configuration cycle execution unit
2 Access
4 WDT
6 Reset
12, 13, 14 Add-in card
12a, 13a, 14a PCI devices
12b, 12c, 13b, 14b, 14c PCI function
Claims (4)
上記システム立ち上げ時に上記各PCIファンクションまたは各PCIデバイス毎に順次コンフィギュレーションを実行する第1のステップと、
上記コンフィギュレーション中に異常があると、上記ホストCPUカード及び全てのPCIファンクションまたはPCIデバイスをリセットする第2のステップと、
上記リセット後に異常があったPCIファンクションまたはPCIデバイスを切り離して、残りの各PCIファンクションまたは各PCIデバイスに対し順次コンフィギュレーションを実行する第3のステップと、
第3のステップでコンフィギュレーションを実行しても異常が解消しない場合は、第2のステップへ戻って上記ホストCPUカード及び全てのPCIファンクションまたはPCIデバイスに対してリセットを実行するよう、第2と第3のステップを所定回数または異常が解消するまで繰り返し行う第5のステップとを上記ホストCPUカードにて行うことにより、複数の異常PCIファンクションまたはPCIデバイスをシステムから切り離し可能としたことを特徴とするPCIバス不良個所切り離し方法。If an abnormality occurs when the PCI function or PCI device is configured in a system in which a host CPU card and a PCI device with a built-in PCI function are connected via a PCI bus, the PCI function or PCI that is the target of the abnormality is detected. In the method of isolating a defective part of the PCI bus that isolates the device from the system,
A first step of sequentially performing configuration for each PCI function or each PCI device at the time of starting the system;
A second step of resetting the host CPU card and all PCI functions or PCI devices if there is an abnormality during the configuration;
A third step of disconnecting the PCI function or PCI device having an abnormality after the reset and sequentially performing configuration for each remaining PCI function or PCI device ;
If the abnormality is not resolved even after the configuration is executed in the third step, the second and the second steps are performed so that the host CPU card and all PCI functions or PCI devices are reset. It is characterized in that a plurality of abnormal PCI functions or PCI devices can be separated from the system by performing the fifth step of repeating the third step a predetermined number of times or until the abnormality is resolved with the host CPU card. To isolate defective PCI bus parts.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001089687A JP3644399B2 (en) | 2001-03-27 | 2001-03-27 | PCI bus defective part isolation method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001089687A JP3644399B2 (en) | 2001-03-27 | 2001-03-27 | PCI bus defective part isolation method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002288049A JP2002288049A (en) | 2002-10-04 |
JP3644399B2 true JP3644399B2 (en) | 2005-04-27 |
Family
ID=18944583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001089687A Expired - Fee Related JP3644399B2 (en) | 2001-03-27 | 2001-03-27 | PCI bus defective part isolation method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3644399B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4218538B2 (en) | 2004-01-28 | 2009-02-04 | 日本電気株式会社 | Computer system, bus controller, and bus fault processing method used therefor |
JP4915113B2 (en) * | 2006-03-15 | 2012-04-11 | 日本電気株式会社 | Bus system, reset initialize circuit, and fault recovery method in bus system |
US7620854B2 (en) * | 2007-01-30 | 2009-11-17 | Hewlett-Packard Development Company, L.P. | Method and system for handling input/output (I/O) errors |
JP4977494B2 (en) * | 2007-02-28 | 2012-07-18 | エヌイーシーコンピュータテクノ株式会社 | Hot-swap system |
JP5293412B2 (en) * | 2009-06-01 | 2013-09-18 | 日本電気株式会社 | Computer system and computer system failure processing method |
JP5598148B2 (en) * | 2010-08-05 | 2014-10-01 | 富士通株式会社 | Switching apparatus, information processing apparatus, and switching apparatus control method |
-
2001
- 2001-03-27 JP JP2001089687A patent/JP3644399B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002288049A (en) | 2002-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7313717B2 (en) | Error management | |
US6574748B1 (en) | Fast relief swapping of processors in a data processing system | |
US20040221198A1 (en) | Automatic error diagnosis | |
WO2020239060A1 (en) | Error recovery method and apparatus | |
US6950978B2 (en) | Method and apparatus for parity error recovery | |
CN111414268B (en) | Fault processing method and device and server | |
JP2002132697A (en) | Method for obtaining optimum utility through resource recovery | |
US20040216003A1 (en) | Mechanism for FRU fault isolation in distributed nodal environment | |
JP3644399B2 (en) | PCI bus defective part isolation method and program thereof | |
JP4644720B2 (en) | Control method, information processing apparatus, and storage system | |
CN116048400A (en) | Hardware recovery method, device, equipment and readable storage medium | |
JP3365282B2 (en) | CPU degrading method of cluster connection multi CPU system | |
TW200307200A (en) | Multiple fault location in a series of devices | |
JP2003022222A (en) | Information processor and its maintenance method | |
JP3243687B2 (en) | Hot swapping system | |
JPH11120154A (en) | Device and method for access control in computer system | |
JP3022687B2 (en) | Memory failure handling method | |
JP3298989B2 (en) | Failure detection / automatic embedded device | |
JPH06214831A (en) | Abnormality detector for central processing unit | |
JP3340284B2 (en) | Redundant system | |
CN114003461A (en) | Server failure prediction method, system, terminal and storage medium | |
JP2723008B2 (en) | Terminal device failure recovery system | |
CN117742932A (en) | Data processing system | |
JP2003345676A (en) | Dual-memory system | |
KR100862407B1 (en) | System and method to detect errors and predict potential failures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |