JP4513852B2 - Pciバス障害リカバリ方法及びプログラム - Google Patents

Pciバス障害リカバリ方法及びプログラム Download PDF

Info

Publication number
JP4513852B2
JP4513852B2 JP2007289333A JP2007289333A JP4513852B2 JP 4513852 B2 JP4513852 B2 JP 4513852B2 JP 2007289333 A JP2007289333 A JP 2007289333A JP 2007289333 A JP2007289333 A JP 2007289333A JP 4513852 B2 JP4513852 B2 JP 4513852B2
Authority
JP
Japan
Prior art keywords
pci
pci bus
bus
blocked
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007289333A
Other languages
English (en)
Other versions
JP2009116642A (ja
Inventor
大介 上石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007289333A priority Critical patent/JP4513852B2/ja
Priority to US12/266,768 priority patent/US8024619B2/en
Publication of JP2009116642A publication Critical patent/JP2009116642A/ja
Application granted granted Critical
Publication of JP4513852B2 publication Critical patent/JP4513852B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、PCI(Peripheral Component Interconnect)バス障害をリカバリする技術に関し、特に、OS(Operating System)が備えているPCIカード単位のホットプラグ機能を利用してBIOS(Basic Input/Output System)がPCIバス障害をリカバリする技術に関する。
PCIバスを利用したコンピュータ装置においては、PCIバスに障害が発生した場合、障害が発生したPCIバスを閉塞するということが行われている。PCIバス障害の多くは間欠障害であるため、コンピュータ装置を再起動することにより、多くの場合、閉塞したPCIバスを利用することが可能になる。しかし、この方法では、コンピュータ装置を再起動する必要があり、無停止稼動を実現できないという問題がある。
そこで、OSにPCIバス障害のリカバリ機能を組み込み、間欠障害によって閉塞されたPCIバスを、無停止で利用可能にするということが行われている。図4は、PCIバス障害のリカバリ機能が組み込まれたOSのリカバリ動作を示すフローチャートであり、OSは、閉塞されたPCIバスが発生すると、障害履歴を参照し、上記PCIバスの障害発生回数を取得する(ステップS101)。その後、OSは、ステップS101で取得した障害発生回数が所定回数未満であるか否かを調べる(ステップS102)。そして、所定回数未満である場合(ステップS102がYES)は、間欠障害が原因でバス閉塞が行われたものと判断し、閉塞されているPCIバスの閉塞を解除する(ステップS103)。これに対して、所定回数以上であると判断した場合は、固定障害が原因でバス閉塞が行われたものと判断し、PCIバスの閉塞を継続する(ステップS104)。
一方、コンピュータ装置を停止させることなく、障害の発生した周辺装置やI/Oカードを交換できるようにしたコンピュータ装置も従来から知られている(例えば、特許文献1参照)。この特許文献1に記載されているコンピュータ装置は、メインOSとサブOSとの2つのOSを備えており、メインOSの制御下にある装置(I/Oカード等)に障害が発生すると、障害の発生した装置をメインOSの制御から切り離すと共に、コンピュータ装置から電気的に切り離す。その後、障害装置に対する修理、交換が行われると、修理、交換された装置をコンピュータシステムに電気的に接続し、更に、サブOSを用いて修理、交換された装置の動作確認を行い、動作が正常であった場合には、修理、交換した装置をメインOSの制御下に戻す。
特開2002−366375号公報
しかし、図4に示した方法では、障害履歴に基づいてPCIバス障害が間欠障害であるか否かを判断し、間欠障害であると判断した場合はPCIバスの閉塞を解除するようにしているため、信頼性が低く、固定故障が発生しているPCIバスの閉塞が解除され、PCIバスが暴走してしまう危険性がある。そこで、障害履歴に基づいて間欠障害であると判断したときに、PCIバスの閉塞を解除するのではなく、特許文献1に記載の技術のように、実際に動作確認を行い、PCIバスが正常に動作することを確認してからPCIバスの閉塞を解除するという方法が考えられる。しかし、PCIバスの動作確認方法はプラットフォームに依存するため、上記した方法では、プラットフォームが異なるOS毎に、そのOSが使用するプラットフォームに合った、PCIバスの動作確認を行う仕組みを作り込まなければならないという問題がある。
〔発明の目的〕
そこで、本発明の目的は、OSに、そのOSが使用するプラットフォームに合った、PCIバスの動作確認を行う仕組みを作り込まなくとも、信頼性の高いPCIバスの閉塞解除判断を行うことができるPCIバス障害リカバリ方法を提供することにある。
本発明にかかる第1のPCIバス障害リカバリ方法は、
BIOSが、閉塞されたPCIバスを検出する第1のステップと、
前記BIOSが、前記第1のステップで検出されたPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示をOSに対して出力する第2のステップと、
前記OSが、前記PCIカード切離指示に応答して前記閉塞されたPCIバスに接続されているPCIカードを制御から切り離し、該切り離したPCIカードの電源を落すことを指示する電源断指示を前記BIOSに対して出力する第3のステップと、
前記BIOSが、前記電源断指示に応答して前記閉塞されたPCIバスが正常に動作するか否かを診断する第4のステップと、
前記BIOSが、前記第4のステップにおいて前記PCIバスが正常に動作すると診断されたことを条件にして、前記PCIバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力する第5のステップとを含むことを特徴とする。
本発明にかかる第1のプログラムは、
PCIカード切離指示に応答して閉塞されたPCIバスに接続されているPCIカードを制御から切り離し、該切り離したPCIカードの電源を落すことを指示する電源断指示を出力するOSを実装したコンピュータに、
閉塞されたPCIバスを検出する第1のステップと、
該第1のステップで検出されたPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示を前記OSに対して出力する第2のステップと、
前記OSからの電源断指示に応答して閉塞されているPCIバスが正常に動作するか否かを診断する第3のステップと、
該第3のステップにおいて前記PCIバスが正常に動作すると診断されたことを条件にして、前記PCIバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力する第4のステップとを実行させる。
本発明によれば、OSに、そのOSが使用するプラットフォームに合った、PCIバスの動作確認を行う仕組みを作り込まなくとも、信頼性の高いPCIバスの閉塞解除判断を行うことができる。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
〔発明の実施例〕
図1は本発明のPCIバス障害リカバリ方法を適用するバスシステムの一例を示したブロック図であり、チップセットバス101〜103と、チップセットブリッジ201〜206と、PCIバス301〜306と、PCIカード401〜406と、PCIブリッジ501、502と、CPU601と、メモリ701とを備えている。なお、PCIバス301〜306よりも上流側(CPU601に近い側)のチップセットバス101〜103は、プラットフォームに強く依存している部分であり、BIOSからは可視できるが、OSからは可視できない部分である。
CPU601は、チップセットバス101を介してメモリ701と接続されており、メモリ701に格納されているOS、BIOSなどのプログラムを実行する。チップセットバス101は、チップセットブリッジ201、202を介してチップセットバス102、103と接続されている。また、チップセットバス102はチップセットブリッジ203、204を介してそれぞれPCIバス301、302に接続され、チップセットバス103はチップセットブリッジ205、206を介してそれぞれPCIバス303、304に接続されている。
PCIバス301には、PCIカード401、402が接続され、PCIブリッジ501、502を介してそれぞれPCIバス305、306と接続されている。PCIバス305にはPCIカード403、404が、PCIバス306にはPCIカード405、406が接続されている。
図2は、メモリ701に格納され、CPU601によって実行されるOS1およびBIOS2の機能ブロック図である。
OS1は、コンピュータ装置を停止させるさせることなくPCIカードを追加、削除するホットプラグ機能を有しており、このホットプラグ機能を実現するためのPCIカード切離手段11と、PCIカード組込手段12とを備えている。ホットプラグ機能は、多くのOSが備えている機能である。
PCIカード切離手段11は、PCIカード切離指示によって指示されたPCIカードをOS1の制御から切り離し、切り離したPCIカードの電源を落すことを指示する電源断指示をBIOS2に対して出力する機能を有する。PCIカード組込手段12は、PCIカード組込指示によって指示されたPCIカードを利用可能にする機能を有する。
BIOS2は、PCIバス障害検出手段21と、PCIカード切離指示手段22と、PCIカード切離受付手段23と、PCIバス診断手段24と、PCIバス閉塞解除手段25と、PCIカード組込指示手段26とを備えている。
PCIバス障害検出手段21は、チップセットブリッジ201〜206、PCIブリッジ501、502内に設けられている障害検出訂正手段31から閉塞通知が送られてきた場合、各ブリッジ内の閉塞フラグ記憶部32を参照して閉塞されたチップセットバス、PCIバスを検出すると共に、診断開始レジスタ33をセットする。
各ブリッジ内に設けられている障害検出訂正手段31は、自ブリッジを介して上流側、下流側に送られるデータに訂正可能な誤りがある場合には、誤りを訂正してから上流側、下流側に送る。また、障害検出訂正手段31は、自ブリッジを介して下流側に送られるデータに訂正不可能な誤りがある場合には、自ブリッジ内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”にすると共に、自ブリッジよりも1階層上流側のブリッジ内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”にして、自ブリッジと自ブリッジより1階層上流側のブリッジとにより挟まれているPCIバス或いはチップセットバスを閉塞し、更に、BIOS2に対して閉塞通知を送る。また、自ブリッジを介して上流側に送られるデータに訂正不可能な誤りがある場合には、自ブリッジ内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”とすると共に、自ブリッジよりも1階層下流側のブリッジ内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”にして、自ブリッジと自ブリッジより1階層下流のブリッジとによって挟まれているPCIバス或いはチップセットバスを閉塞し、更に、BIOS2に対して閉塞通知を送る。例えば、チップセットブリッジ203内の障害検出訂正手段31は、自ブリッジ203を介して上流側に送られるデータに訂正不可能な誤りがあった場合には、自ブリッジ203およびPCIブリッジ501、502内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”とすることにより、PCIバス301を閉塞する。なお、各ブリッジは、自ブリッジ内の閉塞フラグ記憶部32に格納されている閉塞フラグが“1”になっている場合には、自ブリッジを介してデータが流れないようにする。
PCIカード切離指示手段22は、PCIバス障害検出手段21によって閉塞されたPCIバスが検出された場合は、上記PCIバスおよび上記PCIバスよりも下流に存在する全てのPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示をOS1に対して出力し、PCIバス障害検出手段21によって閉塞されたチップセットバスが検出された場合は、それよりも下流に存在する全てのPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示をOS1に対して出力する。
PCIカード切離受付手段23は、OS1から電源断指示が送られてくると、診断開始レジスタ33がセットされていない場合は、指示された各PCIカードの電源を落とし、診断開始レジスタ33がセットされている場合は、PCIカードの電源を落すことなく、PCIバス診断手段24を起動する。
PCIバス診断手段24は、閉塞されたチップセットバス或いはPCIバスが正常に動作するか否かを診断する。PCIバス診断手段24は、例えば、BIOSに組み込まれている、プラットフォームに依存した診断プログラム等によって実現される。
PCIバス閉塞解除手段25は、PCIバス診断手段24において閉塞されたチップセットバス或いはPCIバスが正常に動作すると診断された場合、上記チップセットバス或いはPCIバスの閉塞を解除する。
PCIカード組込指示手段26は、PCIカード切離指示手段22により切り離しを指示したPCIカードを再びシステムに組み込むことを指示するPCIカード組込指示をOS2に対して出力する。
〔実施例の動作の説明〕
次に、本実施例の動作について詳細に説明する。
今、例えば、チップセットブリッジ203を介して上流側に送られるデータに訂正不可能な誤りが発生したとする。チップセットブリッジ203内の障害検出訂正手段31は、自ブリッジ203を介して上流側に送られるデータに訂正不可能な誤りが発生すると、自ブリッジ203内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”とすると共に、PCIブリッジ501、502内の閉塞フラグ記憶部32に格納されている閉塞フラグを“1”にすることにより、障害の発生したPCIバス301を閉塞する。更に、チップセットブリッジ203内の障害検出訂正手段31は、BIOS2に対して閉塞通知を送る。
BIOS2内のPCIバス障害検出手段21は、閉塞通知を受け付けると、各ブリッジ201〜206、501、502内の閉塞フラグ記憶部32を参照し、閉塞されたPCIバス或いはチップセットバスを検出する(図3のステップS31)。この例の場合、チップセットブリッジ203、PCIブリッジ501、502内の閉塞フラグ記憶部32に格納されている閉塞フラグが“1”となっているので、PCIバス障害検出手段21は、上記各ブリッジ203、501、502に挟まれているPCIバス301が閉塞されたことを検出する。その後、PCIバス障害検出手段21は、診断開始レジスタ33をセットする(ステップS32)。
PCIカード切離指示手段22は、PCIバス障害検出手段21によってPCIバス301の閉塞が検出されると、上記PCIバス301に接続されているPCIカード401、402、及び上記PCIバス301の下流に存在するPCIバス305、306に接続されているPCIカード403〜406の切り離しを指示するPCIカード切離指示をOS1に対して出力する(ステップS33)。
OS1内のPCIカード切離手段11は、BIOS2からPCIカード切離指示が送られてくると、指示されたPCIカード401〜406を制御から切り離し、その後、ACPI(Advanced Configuration and Power Interface Specification)を介してBIOS2に対して上記各PCIカード401〜406の電源を落すことを指示する電源断指示を出力する。
BIOS2内のPCIカード切離受付手段23は、電源断指示を受け付けると(ステップS34がYES)、診断開始レジスタ33がセットされているか否かを調べる(ステップS35)。
そして、診断開始レジスタ33がセットされていない場合(ステップS35がNO)は、OS1がホットプラグ機能を有効にするために、電源断指示を出力したと判断して、電源断指示によって指示されたPCIカードの電源を落す(ステップS36)。
これに対して、診断開始レジスタ33がセットされている場合(ステップS35がYES)は、閉塞されたPCIバス或いはチップセットバスを診断する必要があると判断してPCIバス診断手段24を起動する。これにより、PCIバス診断手段24は閉塞されたPCIバス或いはチップセットバスが正常に動作するか否かを診断する(ステップS37)。この例の場合は、PCIバス診断手段24は、PCIバス301が正常に動作するか否かを診断する。なお、診断方法としては、種々の方法を採用することができ、また、必要に応じてPCIバス301の閉塞を解除して診断を行うようにしても良い。なお、PCIバス301の閉塞を解除して診断を行った場合には、診断終了後、再び、PCIバス301を閉塞する。
そして、正常に動作すると診断された場合(ステップS38がYES)は、PCIバス閉塞解除手段25が、該当する閉塞フラグを“0”とすることにより、閉塞されているPCIバス或いはチップセットバスの閉塞を解除する(ステップS39)。この例では、チップセットブリッジ203、PCIブリッジ501、502内の閉塞フラグ記憶部32に格納されている閉塞フラグを“0”とすることにより、PCIバス301の閉塞を解除する。その後、PCIカード組込指示手段26が、PCIカード401〜406の組み込みを指示するPCIカード組込指示をOS1に対して出力する(ステップS40)。これにより、OS1内のPCIカード組込手段12は、PCIカード組込指示によって指示されたPCIカード401〜406のドライバのロード、初期設定を行い、PCIカードを利用可能にする。
これに対して、正常に動作しないと診断された場合(ステップS38がNO)は、PCIバス診断手段24は、閉塞されたPCIバス或いはチップセットバスの設定を再度行い(ステップS41)、その後、閉塞されたPCIバス或いはチップセットバスが正常に動作するか否かを診断する(ステップS42)。この例では、PCIバス301の設定(バス番号、メモリレンジ、マックスペイロードサイズ等の設定)を再度行い、その後、PCIバス301が正常の動作するか否かを診断することになる。ここで、PCIバスの設定を再度行うのは、PCIバス301の設定値が壊れてしまっていた場合、再設定することで、PCIバス301が復旧(正常に動作)する可能性があるためである。
そして、再設定を行っても、正常に動作しないと診断された場合(ステップS43がNO)は、処理を終了する。これにより、PCIバス301の閉塞状態は継続する(ステップS44)。これに対して、正常に動作すると診断された場合(ステップS43がYES)は、前述したステップS39以降の処理が行われる。
なお、上述した実施例では、診断開始レジスタ33を設け、OS1から電源断指示が送られてきた場合、診断開始レジスタ33の状態によって異なる処理を行うようにしたが(ステップS35の判断結果がYESの場合とNOの場合で異なる動作を行うようにしたが)、診断開始レジスタ33を設けずに、OS1から電源断指示が送られてきた場合は、常に、電源断指示によって指示されたPCIカードの電源を落とし、その後、ステップS37以降の処理を行うようにしても良い。
〔実施例の効果〕
本実施例によれば、OSに、そのOSが使用するプラットフォームに合った、PCIバスの動作確認を行う仕組みを作り込まなくとも、信頼性の高いPCIバスの閉塞解除判断を行うことができる。その理由は、プラットフォームに依存したBIOS2を用いて閉塞されたPCIバスが正常に動作するか否かを診断しているからである。
また、本実施例によれば、プラットフォームに強く依存したチップセットバスの障害もリカバリの対象とすることができる。その理由は、プラットフォームに依存したBIOS2を用いて、閉塞されたチップセットバスが正常に動作するか否かを診断しているからである。
更に、本実施例では、正常に動作しないと診断されたPCIバスの設定を再度行うようにしているので、設定値の破壊により障害となったPCIバスを復旧することが可能になるという効果を得ることができる。
また、本実施例は、閉塞されたPCIバスが検出されたときにセットされる診断開始レジスタを備えているので、OS1から電源断指示が送られてきたとき、診断開始レジスタ33の状態に応じて、PCIバスの診断を行うのか、それともPCIカードの電源を落すのかを切り分けることができる。
本発明は、無停止稼動が要求されている、PCIバスを使用したコンピュータ装置に適用することができる。
本発明のPCIバス障害リカバリ方法を適用するバスシステムの一例を示したブロック図である。 本発明の実施例で使用するOS1及びBIOS2の機能ブロック図である。 BIOS2の動作を示すフローチャートである。 従来の技術を説明するためのフローチャートである。
符号の説明
1…OS
11…PCIカード切離手段
12…PCIカード組込手段
2…BIOS
21…PCIバス障害検出手段
22…PCIカード切離指示手段
23…PCIカード切離受付手段
24…PCIバス診断手段
25…PCIバス閉塞解除手段
26…PCIカード組込指示手段
31…障害検出訂正手段
32…閉塞フラグ記憶部
33…診断開始レジスタ
101〜103…チップセットバス
201〜206…チップセットブリッジ
301〜306…PCIバス
401〜406…PCIカード
501、502…PCIブリッジ
601…CPU
701…メモリ

Claims (8)

  1. 各ブリッジが、自ブリッジを流れるデータに訂正不可能な誤りがある場合、自ブリッジ内の閉塞フラグ記憶部に記録されている閉塞フラグを有効にすると共に、前記データの流れる方向に応じて、自ブリッジよりも1階層上流側あるいは1階層下流側のブリッジ内の閉塞フラグ記憶部に記録されている閉塞フラグを有効にし、その後、BIOSに閉塞通知を送る閉塞通知ステップと、
    前記BIOSが、閉塞通知を受信することにより、前記各ブリッジ内の閉塞フラグ記憶部に記録されている閉塞フラグの値に基づいて、閉塞されたPCIバスを検出する第1のステップと、
    前記BIOSが、前記第1のステップで検出されたPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示をOSに対して出力する第2のステップと、
    前記OSが、前記PCIカード切離指示に応答して前記閉塞されたPCIバスに接続されているPCIカードを制御から切り離し、該切り離したPCIカードの電源を落すことを指示する電源断指示を前記BIOSに対して出力する第3のステップと、
    前記BIOSが、前記電源断指示に応答して前記閉塞されたPCIバスが正常に動作するか否かを、前記PCIバスの閉塞を一旦解除してから診断し、診断終了後、前記PCIバスを再び閉塞する第4のステップと、
    前記BIOSが、前記第4のステップにおいて前記PCIバスが正常に動作すると診断されたことを条件にして、前記PCIバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力する第5のステップとを含むことを特徴とするPCIバス障害リカバリ方法。
  2. 請求項1記載のPCIバス障害リカバリ方法において、
    前記第1のステップでは、前記BIOSが、閉塞されたPCIバスを検出した場合に診断開始レジスタをセットし、
    前記第4のステップでは、前記BIOSが、前記診断開始レジスタがセットされていない場合は、前記電源断指示に応答して前記OSの制御から切り離されたPCIカードの電源を落とし、前記診断開始レジスタがセットされている場合は、前記電源断指示に応答して前記OSの制御から切り離されたPCIカードの電源を落すことなく、前記閉塞されたPCIバスが正常に動作するか否かを診断することを特徴とするPCIバス障害リカバリ方法。
  3. 請求項1または2記載のPCIバス障害リカバリ方法において、
    前記BIOSが、前記第4のステップにおいて前記PCIバスが正常に動作しないと診断されたことを条件にして、前記PCIバスの設定値を再設定する第6のステップと、
    前記BIOSが、前記第6のステップを実行後、前記閉塞されたPCIバスが正常に動作するか否かを診断する第7のステップと、
    前記BIOSが、前記第7のステップにおいて前記PCIバスが正常に動作すると診断されたことを条件にして、前記PCIバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力する第8のステップとを含むことを特徴とするPCIバス障害リカバリ方法。
  4. 請求項記載のPCIバス障害リカバリ方法において、
    前記第1のステップでは、前記BIOSが、閉塞されたチップセットバスを検出して前記診断開始レジスタをセットし、
    前記第2のステップでは、前記BIOSが、前記第1のステップで検出されたチップセットバスの下流に存在するPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示を前記OSに対して出力し、
    前記第4のステップでは、前記BIOSが、前記閉塞されたチップセットバスが正常に動作するか否かを診断し、
    前記第5のステップでは、前記BIOSが、前記第4のステップにおいて前記チップセットバスが正常に動作すると診断されたことを条件にして、閉塞されたチップセットバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力することを特徴とするPCIバス障害リカバリ方法。
  5. PCIカード切離指示に応答して閉塞されたPCIバスに接続されているPCIカードを制御から切り離し、該切り離したPCIカードの電源を落すことを指示する電源断指示を出力するOSを実装すると共に、複数のブリッジを備えたコンピュータであって、前記複数のブリッジがそれぞれ自ブリッジを流れるデータに訂正不可能な誤りがある場合、自ブリッジ内の閉塞フラグ記憶部に記録されている閉塞フラグを有効にすると共に、前記データの流れる方向に応じて、自ブリッジよりも1階層上流側あるいは1階層下流側のブリッジ内の閉塞フラグ記憶部に記録されている閉塞フラグを有効にし、その後、BIOSに閉塞通知を送る閉塞通知ステップを行うコンピュータに、
    閉塞通知を受信することにより、前記各ブリッジ内の閉塞フラグ記憶部に記録されている閉塞フラグの値に基づいて、閉塞されたPCIバスを検出する第1のステップと、
    該第1のステップで検出されたPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示を前記OSに対して出力する第2のステップと、
    前記OSからの電源断指示に応答して閉塞されているPCIバスが正常に動作するか否かを、前記PCIバスの閉塞を一旦解除してから診断し、診断終了後、前記PCIバスを再び閉塞する第3のステップと、
    該第3のステップにおいて前記PCIバスが正常に動作すると診断されたことを条件にして、前記PCIバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力する第4のステップとを実行させるためのプログラム。
  6. 請求項記載のプログラムにおいて、
    前記第1のステップでは、閉塞されたPCIバスを検出した場合に診断開始レジスタをセットし、
    前記第3のステップでは、前記診断開始レジスタがセットされていない場合は、前記電源断指示に応答して前記OSの制御から切り離されたPCIカードの電源を落とし、前記診断開始レジスタがセットされている場合は、前記電源断指示に応答して前記OSの制御から切り離されたPCIカードの電源を落すことなく、前記閉塞されたPCIバスが正常に動作するか否かを診断することを特徴とするプログラム。
  7. 請求項5または6記載のプログラムにおいて、
    前記コンピュータに、
    前記第3のステップにおいて前記PCIバスが正常に動作しないと診断されたことを条件にして、前記PCIバスの設定値を再設定する第5のステップと、
    該第5のステップを実行後、前記閉塞されたPCIバスが正常に動作するか否かを診断する第6のステップと、
    該第6のステップにおいて前記PCIバスが正常に動作すると診断されたことを条件にして、前記PCIバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力する第7のステップとを実行させることを特徴とするプログラム。
  8. 請求項記載のプログラムにおいて、
    前記第1のステップでは、閉塞されたチップセットバスを検出して前記診断開始レジスタをセットし、
    前記第2のステップでは、前記第1のステップで検出されたチップセットバスの下流に存在するPCIバスに接続されているPCIカードの切り離しを指示するPCIカード切離指示を前記OSに対して出力し、
    前記第3のステップでは、前記閉塞されたチップセットバスが正常に動作するか否かを診断し、
    前記第4のステップでは、前記第3のステップにおいて前記チップセットバスが正常に動作すると診断されたことを条件にして、前記チップセットバスの閉塞を解除し、前記OSの制御から切り離されたPCIカードの組み込みを指示するPCIカード組込指示を前記OSに対して出力することを特徴とするプログラム。
JP2007289333A 2007-11-07 2007-11-07 Pciバス障害リカバリ方法及びプログラム Expired - Fee Related JP4513852B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007289333A JP4513852B2 (ja) 2007-11-07 2007-11-07 Pciバス障害リカバリ方法及びプログラム
US12/266,768 US8024619B2 (en) 2007-11-07 2008-11-07 Method for recovering from PCI bus fault, recording medium and computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007289333A JP4513852B2 (ja) 2007-11-07 2007-11-07 Pciバス障害リカバリ方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009116642A JP2009116642A (ja) 2009-05-28
JP4513852B2 true JP4513852B2 (ja) 2010-07-28

Family

ID=40589374

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007289333A Expired - Fee Related JP4513852B2 (ja) 2007-11-07 2007-11-07 Pciバス障害リカバリ方法及びプログラム

Country Status (2)

Country Link
US (1) US8024619B2 (ja)
JP (1) JP4513852B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4873073B2 (ja) 2009-12-16 2012-02-08 日本電気株式会社 情報処理装置及び情報処理装置の障害復旧方法
CN102486746A (zh) * 2010-12-03 2012-06-06 鸿富锦精密工业(深圳)有限公司 服务器及其检测pci系统错误的方法
JP5790723B2 (ja) * 2013-09-12 2015-10-07 日本電気株式会社 クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム
US10417458B2 (en) 2017-02-24 2019-09-17 Microsoft Technology Licensing, Llc Securing an unprotected hardware bus
JP6962243B2 (ja) * 2018-03-08 2021-11-05 日本電気株式会社 コンピュータシステム
CN109254887A (zh) * 2018-09-25 2019-01-22 郑州云海信息技术有限公司 一种ntb故障检测方法及系统
JP7548559B2 (ja) 2020-10-23 2024-09-10 Necソリューションイノベータ株式会社 拡張デバイス調停装置、拡張デバイス調停方法、障害復旧システム装置、プログラム、及び記録媒体
JP7298950B1 (ja) 2022-02-08 2023-06-27 Necプラットフォームズ株式会社 情報処理装置、リカバリ方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232445A (ja) * 1988-07-22 1990-02-02 Oki Electric Ind Co Ltd 共通バスインタフェース故障状態検出方式
JP2002366375A (ja) * 2001-06-05 2002-12-20 Hitachi Ltd コンピュータ装置および診断方法
JP2004348335A (ja) * 2003-05-21 2004-12-09 Nec System Technologies Ltd 障害検出方法及び情報処理システム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6557121B1 (en) * 1997-03-31 2003-04-29 International Business Machines Corporation Method and system for fault isolation for PCI bus errors
US6904546B2 (en) * 2002-02-12 2005-06-07 Dell Usa, L.P. System and method for interface isolation and operating system notification during bus errors
US7401253B2 (en) * 2005-05-09 2008-07-15 International Business Machines Corporation Convolution-encoded data storage on a redundant array of independent devices
US7447934B2 (en) * 2005-06-27 2008-11-04 International Business Machines Corporation System and method for using hot plug configuration for PCI error recovery
JP4728896B2 (ja) * 2006-07-13 2011-07-20 エヌイーシーコンピュータテクノ株式会社 コンピュータシステム
US7552371B2 (en) * 2007-02-15 2009-06-23 Inventec Corporation Method and system for automatically diagnosing disability of computer peripheral devices
US20090083585A1 (en) * 2007-09-21 2009-03-26 Inventec Corporation Method of pressure testing for peripheral component interconnect (pci) bus stage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232445A (ja) * 1988-07-22 1990-02-02 Oki Electric Ind Co Ltd 共通バスインタフェース故障状態検出方式
JP2002366375A (ja) * 2001-06-05 2002-12-20 Hitachi Ltd コンピュータ装置および診断方法
JP2004348335A (ja) * 2003-05-21 2004-12-09 Nec System Technologies Ltd 障害検出方法及び情報処理システム

Also Published As

Publication number Publication date
JP2009116642A (ja) 2009-05-28
US8024619B2 (en) 2011-09-20
US20090119546A1 (en) 2009-05-07

Similar Documents

Publication Publication Date Title
JP4513852B2 (ja) Pciバス障害リカバリ方法及びプログラム
US8843785B2 (en) Collecting debug data in a secure chip implementation
JP5607863B2 (ja) セキュア・リカバリ装置及び方法
US7802138B2 (en) Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus
US8930931B2 (en) Information processing apparatus using updated firmware and system setting method
US20110093741A1 (en) Method for recovering bios and computer system thereof
US7408475B2 (en) Power supply monitoring device
US20110043323A1 (en) Fault monitoring circuit, semiconductor integrated circuit, and faulty part locating method
CN101349905A (zh) 引擎控制模块的双核体系结构
WO2010021632A1 (en) Dual independent non volatile memory systems
WO2012119432A1 (zh) 提高计算机系统稳定性的方法及计算机系统
JP5874492B2 (ja) フォールトトレラント制御装置、フォールトトレラントシステムの制御方法
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
TWI723477B (zh) 電子設備、可遠端維護電子設備運作的系統及方法
JP5966181B2 (ja) 二重化装置および電源停止方法
JP5295251B2 (ja) 給電電圧監視されるマイクロコントローラを有する車両制御ユニット、および関連の方法
CN112559059A (zh) 一种bios选项配置方法及相关装置
JPWO2018116400A1 (ja) 制御装置および制御装置の故障時処理方法
US11764807B2 (en) Processing system, related integrated circuit, device and method
JP2011076295A (ja) 組込系コントローラ
US20080126864A1 (en) Fault isolation in a microcontroller based computer
CN111338456B (zh) 一种bbu掉电保护实现方法及系统
JP4715552B2 (ja) 障害検出方式
JP5489742B2 (ja) 保護継電器
JP4613019B2 (ja) コンピュータシステム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090611

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100503

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140521

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees