JP3838992B2

JP3838992B2 - 障害検出方法及び情報処理システム

Info

Publication number: JP3838992B2
Application number: JP2003143214A
Authority: JP
Inventors: 勲永野
Original assignee: エヌイーシーシステムテクノロジー株式会社
Priority date: 2003-05-21
Filing date: 2003-05-21
Publication date: 2006-10-25
Anticipated expiration: 2023-05-21
Also published as: JP2004348335A

Description

【０００１】
【発明の属する技術分野】
本発明は複数の情報処理装置から構成される情報処理システムで発生した致命的な障害の情報を取得するための障害検出方法及び情報処理システムに関する。
【０００２】
【従来の技術】
汎用コンピュータやミニコンピュータと呼ばれる比較的大規模な情報処理装置は、コンピュータネットワークのホストコンピュータ等でも利用されため、何らかの障害が発生した場合に、その障害内容や障害部位を検出して外部に通知する故障診断機能が非常に重要になる。
【０００３】
故障診断機能を有する従来の情報処理装置として、オペレーティングシステムで動作するメインシステムとは別に独立して動作するマイクロ診断装置を有し、致命的な障害となりうる、例えばＣＰＵとメモリ間等で障害が発生した場合に、その障害を検出して外部に通報する構成が特許文献１に記載されている。
【０００４】
また、独立して動作可能な２台のプロセッサを有し、一方のプロセッサで障害が発生したときに、他方のプロセッサでその障害情報を収集して外部に通知する構成が特許文献２、３に記載されている。
【０００５】
【特許文献１】
特開平５−２６５８１２号
【特許文献２】
特開平４−３２９４６１号
【特許文献３】
特開平３−０１４１３６号
【０００６】
【発明が解決しようとする課題】
上記したような従来の情報処理装置のうち、特許文献１に記載されたマイクロ診断装置を備えた構成では、情報処理装置内に、メインシステムから独立して動作するＣＰＵやメモリを含む処理装置が必要になるため、装置構成が複雑になって実装面積が大きくなり、コストが増大して非常に高価なものになってしまう。そのため、省スペース化や低コスト化が要求されるワークステーションサーバやオフィスコンピュータ、あるいはパーソナルコンピュータ等の比較的小規模な情報処理装置ではマイクロ診断装置を備えた構成を採用できないことが多い。
【０００７】
マイクロ診断装置を持たない情報処理装置では、致命的な障害が発生すると、ＣＰＵ自体が動作できない状態、あるいはＣＰＵからメモリやＰＣＩ／ＬＰＣ（ＩＳＡ）バス等に対して命令を送出できない状態となるため、結果としてオペレーティングシステムの動作が停止してしまう。また、このような情報処理装置では、処理途中のメモリやレジスタの内容を保存したり、最低限の障害情報を記録しておくためのイベントログも実行できなくなる。
【０００８】
一方、特許文献２、３に記載された、２台のプロセッサが互いの障害情報を取得する構成は、少ないハードウェア量の増加で障害情報を取得できるようになるため、比較的小規模な情報処理装置に適用することが可能である。
【０００９】
しかしながら、特許文献２、３に記載された構成では、プロセッサの状態を互いに監視するための回路や障害情報を転送するための専用のバスを設ける必要があるため、汎用性に乏しいという問題がある。したがって、例えば、近年のブレードサーバのように、情報処理装置の機能を備えたブレードを増設することでサーバ全体の処理能力を向上させる構成に適用する場合、増設する度に各ブレード内の回路構成やソフトウェアを変更しなければならないため、変更のための手間が増大して高価なものになってしまう。
【００１０】
本発明は上記したような従来の技術が有する問題点を解決するためになされたものであり、障害情報を省スペース、低コストな構成で取得可能にして、信頼性の高い情報処理システムが得られる障害検出方法及び情報処理システムを提供することを目的とする。
【００１１】
【課題を解決するための手段】
上記目的を達成するため本発明の障害検出方法は、内部デバイスからそれぞれの装置情報を収集するための汎用バスを備えた複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の２つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備えたブリッジボードと、
を有する情報処理システムで発生した致命的な障害の情報を収集するための障害検出方法であって、
前記情報処理装置で障害が発生すると、該情報処理装置から障害の発生を示す割り込みを前記ブリッジボードに送出し、
前記ブリッジボードで前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、
前記ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の前記汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、
前記ブリッジボードは、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続し、
前記故障診断装置に選定された情報処理装置はＢＩＯＳのプログラムにしたがって前記障害が発生した情報処理装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する方法である。
【００１２】
一方、本発明の情報処理システムは、内部デバイスからそれぞれの装置情報を収集するための汎用バスを備え、障害が発生すると該障害の発生を示す割り込みを外部に送出し、外部から障害の発生を示す障害通知信号を受け取ると所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した装置の前記汎用バスにアクセスするためのバス切替信号を外部に送出すると共に、ＢＩＯＳのプログラムにしたがって該装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の２つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備え、前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に前記障害通知信号をそれぞれ送出し、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続するブリッジボードと、
を有する構成である。
【００１３】
上記のような障害検出方法及び情報処理システムでは、障害の発生を示す割り込みを受け取ったブリッジボードが該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、ブリッジボードで割り込みを発行した情報処理装置の汎用バスと故障診断装置に選定された情報処理装置の汎用バスとを接続し、故障診断装置に選定された情報処理装置により、ＢＩＯＳのプログラムにしたがって障害が発生した情報処理装置の内部デバイスから汎用バスを介してそれぞれ障害情報を収集することで、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を取得することが可能になる。
【００１４】
【発明の実施の形態】
次に本発明について図面を参照して説明する。
【００１５】
本発明は、複数の情報処理装置を、汎用のバス（例えばＩ２Ｃバス）を含むブリッジボードを用いてそれぞれ接続することで、任意の情報処理装置で発生した障害の情報を他の情報処理装置で収集可能にする。Ｉ２Ｃバスは、情報処理装置内の各内部デバイスから各種装置情報（障害情報を含む）を収集するために、予め情報処理装置に備えたバスである。但し、ＣＰＵや主要なバス等で致命的な障害が発生した場合、オペレーティングシステムが動作しないため、それらの障害情報は収集できなくなる。本発明では致命的な障害が発生した情報処理装置のＩ２Ｃバスに対して他の情報処理装置からアクセスし、Ｉ２Ｃバスに繋がる内部デバイス（以下、Ｉ２Ｃバスデバイスと称すこともある）からそれぞれの障害情報を収集する。
【００１６】
例えば、任意の情報処理装置のローカルバス、システムバス、メモリバス等の配下のデバイスで障害が発生した場合、該情報処理装置からブリッジボードを介して障害発生を示す信号であるＳＭＩ(System Management Interrupt)割り込みが各情報処理装置に通知される。ブリッジボードは、ＳＭＩ割り込みに対して最初に応答した情報処理装置のＩ２Ｃバスと障害が発生した情報処理装置のＩ２Ｃバス間を接続する。障害情報を収集する故障診断装置に選定された情報処理装置は、障害が発生した情報処理装置のＩ２Ｃバスにアクセスし、そのＳＲＯＭ（Serial Read Only Memory）に格納されたシステム構成情報を参照しつつＢＩＯＳのプログラムにしたがって障害が発生した情報処理装置の各Ｉ２Ｃバスデバイスからそれぞれ障害情報を取得する。このような処理を行うことで、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を収集することが可能になり、信頼性の高い情報処理システムを構築できる。
【００１７】
（第１の実施の形態）
図１は本発明の情報処理システムの第１の実施の形態の構成を示すブロック図であり、図２は図１に示したブリッジボードの構成を示すブロック図である。また、図３は図１に示した情報処理システムによるバス切替動作の様子を示す模式図である。
【００１８】
第１の実施の形態の情報処理システムは、情報処理装置としての機能を有する２つのプロセッサボード１₁、１₂がブリッジボード２で接続された構成である。
【００１９】
図１に示すように、プロセッサボード１₁、１₂は、ＣＰＵ１１と、メインメモリ１４と、ＣＰＵ１１に繋がるローカルバス、及びメインメモリ１４に繋がるメモリバスの情報通信を制御するノースブリッジ１２と、ノースブリッジ１２に繋がるシステムバス、ＰＣＩデバイス１５が繋がるＰＣＩバス、及びＢＩＯＳＲＯＭ１６やSuper I/O１７等のＬＰＣ／ＩＳＡデバイスが繋がるＬＰＣ／ＩＳＡバスの情報通信を制御するサウスブリッジ１３と、ブリッジボード２と接続するためのコネクタ２０と、Ｉ２Ｃバスに接続された、アクセス可能な装置構成情報が格納される不揮発性メモリであるＳＲＯＭ１９と、Ｉ２Ｃバスに接続された、温度や電源電圧等の装置状態を監視するためのセンサ１８とを有する構成である。
【００２０】
ローカルバスは、ＣＰＵ１１とノースブリッジ１２間で通信するためのバスであり、ローカルバスで致命的な障害が発生した場合はプロセッサボード１₁、１₂の動作がフリーズ（停止）する。
【００２１】
メモリバスは、ノースブリッジ１２内の不図示のメモリコントローラとメインメモリ１４間で通信するためのバスである。メモリバスで訂正不可能な障害が発生した場合、障害が発生した部位によってはプロセッサボード１₁、１₂の動作が停止する可能性がある。
【００２２】
システムバスは、ノースブリッジ１２とサウスブリッジ１３間で通信するためのバスである。システムバスで致命的な障害が発生した場合もプロセッサボード１₁、１₂の動作は停止する。
【００２３】
ＣＰＵ１１は、ＣＰＵ１１による処理のエラーを外部へ通知するためのＣＰＵエラー通知回路１１２と、サウスブリッジ１３で発行されたＳＭＩ割り込みを受信するためのＳＭＩ受信回路（ＳＭＩ）１１１とを有し、ＳＭＩ(System Management Interrupt)割り込みを受信するとＳＭＭ(System Management Mode)で動作する。
【００２４】
メインメモリ１４は、ＣＰＵ１１の処理で必要なプログラムやデータを保持するための記憶装置であり、メモリアクセス時に発生した障害を外部へ通知するためのメモリエラー通知回路（ＳＰＤ）１４１を備えている。
【００２５】
ノースブリッジ１２は、ローカルバス及びメモリバスの情報通信を制御すると共に、システムコントローラ及びメモリコントローラとしての機能も備えている。また、ローカルバス及びメモリバス上で発生した障害を検出し、該障害検出結果をＣＰＵ１１へ通知するためのノースブリッジエラー通知回路（NB Error）１２１を備えている。
【００２６】
サウスブリッジ１３は、ＳＭＩ割り込みを発行するＳＭＩ発行回路１３１と、障害発生情報が格納されるエラー要因登録回路(Error登録回路)１３２と、障害が復旧したか否かを判定するために用いられるタイマ回路（Timer）１３３と、ＰＣＩバス及びＬＰＣ／ＩＳＡバス上で発生した障害を検出するサウスブリッジエラー通知回路（SM Error）１３４と、ブリッジボード２に対してバス切替信号を送出するＧＰＩＯ回路１３５と、Ｉ２Ｃバスの通信を制御するＩ２Ｃバスマスタ１３６とを有する構成である。
【００２７】
ＰＣＩバスには、ＰＣＩバスアーキテクチャを備えたＰＣＩデバイス１５が接続される。また、ＬＰＣ／ＩＳＡバスには、例えば電源シーケンス等を制御するためのSuper I/O１７、システムＢＩＯＳコードが格納されたＲＯＭであるＢＩＯＳＲＯＭ１６等のＬＰＣ／ＩＳＡバスアーキテクチャを備えたＬＰＣ／ＩＳＡデバイスが接続される。
【００２８】
ＣＰＵ１１は、ＢＩＯＳＲＯＭ１６に格納されたＲＯＭコードをメインメモリ１４にコピーすることで、ＳＭＭ時に用いるＳＭＩハンドラのコードを実行できる。本実施形態では、図１に示すように、各プロセッサボード１₁、１₂のＣＰＵエラー通知回路１１２、メモリエラー通知回路１４１、ノースブリッジエラー通知回路１２１、サウスブリッジエラー通知回路１３４、ＰＣＩデバイス１５、Super I/O１７、センサ１８、及びＳＲＯＭ１９がＩ２Ｃバスにそれぞれ接続され、ＢＩＯＳＲＯＭ内に障害情報を収集するためのプログラムが格納されている。ＣＰＵ１１は、ＢＩＯＳＲＯＭ内のプログラム（ＳＭＩハンドラ）にしたがって処理を実行することで、障害が発生したプロセッサボードの各デバイスからＩ２Ｃバスを介して必要な障害情報を取得する。
【００２９】
図２に示すように、ブリッジボード２は、プロセッサボード１₁、１₂と接続するためのコネクタ２１₁、２１₂と、Ｉ２Ｃバスの接続を切り替えるためのバス切替回路２２と、プロセッサボード１₁、１₂毎に障害が発生したことを示す障害通知信号（ＳＭＩＩＮ信号）を生成する論理積回路（ＡＮＤ）２３₁、２３₂とを有する構成である。
【００３０】
ブリッジボード２には、プロセッサボード１₁、１₂で障害が発生したことを示すＳＭＩＯＵＴ信号（＝ＳＭＩ割り込み）、及びプロセッサボードが接続されていることを示すレベル信号であるPresence信号が各プロセッサボード１₁、１₂からそれぞれ入力される。
【００３１】
ＳＭＩＯＵＴ信号及びPresence信号は論理積回路２３₁、２３₂に入力され、それらの論理積結果であるＳＭＩＩＮ信号が自ボードを除く全てのプロセッサボードへ送信される。このようにＳＭＩＯＵＴ信号とPresence信号との論理積結果を用いることで、プロセッサボードが未接続による障害発生の誤検出を防止できる。
【００３２】
バス切替回路２２は、各プロセッサボード１₁、１₂のＩ２Ｃバスマスタ１３６と各デバイスが接続されたＩ２Ｃバスとを中継する回路であり、障害が発生していないとき（または障害復旧が可能なとき）は、各プロセッサボード１₁、１₂からのＩ２Ｃバスを自身のボードへ戻す経路（図３の経路▲１▼）に設定する。また、致命的な障害により復旧が不可能なときは、障害が発生したプロセッサボードのＩ２Ｃバスと故障診断装置となるプロセッサボードのＩ２Ｃバスとを接続する経路（図３の経路▲２▼）に設定する。
【００３３】
なお、図１では、Ｉ２Ｃバスマスタ１３６に対して、ＣＰＵエラー通知回路１１２、メモリエラー通知回路１４１、ノースブリッジエラー通知回路１２１、サウスブリッジエラー通知回路１３４、ＰＣＩデバイス１５、Super I/O１７、センサ１８、ＳＲＯＭ１９、及びコネクタ２０がそれぞれ直接接続された構成を示しているが、実際の各Ｉ２Ｃバスデバイスが接続されたＩ２Ｃバスは、ブリッジボード２を経由して（図２の▲１▼、または▲２▼の経路）Ｉ２Ｃバスマスタ１３６に接続される。このような構成では、障害が発生したプロセッサボードのＩ２Ｃバスマスタ１３６を完全に切り離した状態で、故障診断装置となるプロセッサボードのＩ２Ｃバスマスタと障害が発生したプロセッサボードのＩ２Ｃバスデバイスとを接続することができる。
【００３４】
障害が発生したプロセッサボードのＩ２Ｃバスと故障診断装置となるプロセッサボードのＩ２Ｃバスマスタ１３６とは、バス切替信号がアサートされている間は継続して接続される。本実施形態では、バス切替回路２２を介して２つのプロセッサボード１₁、１₂のＩ２Ｃバス間を接続する場合、一方のプロセッサボードは必ず致命的な障害によって動作が停止しているため、バス切替信号の排他処理は不要である。
【００３５】
次に、第１の実施の形態の情報処理システムの動作について説明する。
【００３６】
図１に示す構成において、一方のプロセッサボード１₁のＣＰＵ１１、ローカルバス、システムバス、及びメモリバスで致命的な障害が発生した場合を想定する。
【００３７】
このとき、障害を監視しているＣＰＵエラー通知回路（CPU Error）１１２、ノースブリッジエラー通知回路（NB Error）１２１、及びサウスブリッジエラー通知回路（SM Error）１３４からサウスブリッジ１３内にあるエラー要因登録回路（Error登録回路）１３２に障害発生を示すAlert信号が格納される。
【００３８】
エラー要因登録回路１３２にAlert信号が格納されると、サウスブリッジ１３のＳＭＩ発行回路１３１からＣＰＵ１１のＳＭＩ受信回路（SMI）１１１に対してＳＭＩ割り込みが発行される。
【００３９】
ＳＭＩ割り込みは、システム障害が発生したプロセッサボード１₁のＣＰＵ１１だけでなく、上述したＳＭＩＯＵＴ信号としてブリッジボード２に入力され、ＳＭＩＩＮ信号としてプロセッサボード１₂にも通知される。ＳＭＩＩＮ信号は、プロセッサボード毎の障害通知としてプロセッサボード１₂のエラー要因登録回路１３２に格納される。なお、ＳＭＩ割り込みによる障害通知はレベル信号で送出され、プロセッサボード１₁で発生した障害が所定の時間内に全て復旧した場合は自動的にクリアされる。
【００４０】
発生した障害が致命的でない場合、プロセッサボード１₁のＣＰＵ１１はＳＭＭを起動し、システムＢＩＯＳで提供されるＳＭＩハンドラにしたがってＩ２Ｃバスを介して自ボード内の各Ｉ２Ｃバスデバイスから障害情報を収集する。
【００４１】
一方、発生した障害が致命的な場合、プロセッサボード１₁のＣＰＵ１１はＳＭＭを起動することができず、結果として自身のエラー情報を収集することができない。このような場合、ブリッジボード２を経由して接続されたプロセッサボード１₂でプロセッサボード１₁の障害情報を収集する。
【００４２】
プロセッサボード１₂は、エラー要因登録回路１３２にプロセッサボード１₁から発行された障害通知が格納されると、まず、サウスブリッジ１３内にあるタイマ回路１３３を用いて所定の時間内に該障害通知がクリアされるか否かをチェックする。
【００４３】
所定時間内にプロセッサボード１₁の障害通知がクリアされない場合、Timer割り込み（Timeout）が発生し、プロセッサボード１₂のＣＰＵ１１にＳＭＩ受信回路１１１を介して通知される。プロセッサボード１₂のＣＰＵ１１は、ＳＭＭを起動してシステムＢＩＯＳで提供されるＳＭＩハンドラにしたがってＧＰＩＯ回路１３５を制御し、Timeout要因をアサートしてバス切替信号を送出する。
【００４４】
バス切替信号はブリッジボード２のバス切替回路２２へ入力される。バス切替信号を受け取ったバス切替回路２２は、通常、図３の▲１▼に示す経路に接続されたＩ２Ｃバスを図３の▲２▼に示す経路に切り替える。これにより、プロセッサボード１₂のＩ２Ｃバスマスタ１３６とプロセッサボード１₁の各Ｉ２Ｃバスデバイスとが接続され、プロセッサボード１₂のＩ２Ｃバスマスタ１３６からプロセッサボード１₁の各Ｉ２Ｃバスデバイスにアクセスすることが可能になる。
【００４５】
プロセッサボード１₂のＣＰＵ１１は、システムＢＩＯＳで提供されるＳＭＩハンドラにしたがって自ボードのＩ２Ｃバスマスタ１３６を制御し、プロセッサボード１₁の各Ｉ２Ｃバスデバイスからそれぞれ障害情報を取得する。そして、必要であれば障害が発生したプロセッサボード１₁のSuper I/O１７へアクセスし、プロセッサボード１₁のReset/DC OFF（電源のオフと再投入を行うリセット動作）を実施する。また、プロセッサボード１₂の通報機能(LAN/COM)を使用して収集したプロセッサボード１₁の障害情報を外部へ通報する。その後、ＧＰＩＯ回路１３５を制御してバス切替信号をデアサートする。
【００４６】
バス切替信号のデアサートを検出したバス切替回路２２は、Ｉ２Ｃバスを図３の▲１▼に示す経路に切り替え、プロセッサボード１₂のＩ２Ｃバスマスタ１３６と各Ｉ２Ｃバスデバイスとを再び接続させる。
【００４７】
（第２の実施の形態）
図４は本発明の情報処理システムの第２の実施の形態の構成を示すブロック図である。
【００４８】
第２の実施の形態の情報処理システムは、情報処理装置としての機能を有する３台以上のプロセッサボードがブリッジボード３で接続された構成である。
【００４９】
図４に示すように、本実施形態のブリッジボード３は、３台のプロセッサボードと接続するためのコネクタ３１₁、３１₂、３１₃と、Ｉ２Ｃバスの接続を切り替えるためのバス切替回路３２と、プロセッサボード毎に障害が発生したことを示す信号（ＳＭＩＩＮ信号）を生成する論理積回路（ＡＮＤ）３３₁、３３₂、３３₃とを有する構成である。なお、図４は３台のプロセッサボードがブリッジボードに接続される例を示しているが、図４と同様に各プロセッサボードからのＩ２Ｃバスをバス切替回路３２へ接続し、各プロセッサボードに対応するコネクタ３１及び論理積回路３３をそれぞれ設ければ、４台以上のプロセッサボードが接続される構成にも対応できる。
【００５０】
ブリッジボード３には、第１の実施の形態と同様に、プロセッサボードで障害が発生したことを示すＳＭＩＯＵＴ信号（＝ＳＭＩ割り込み）及びプロセッサボードが接続されていることを示すレベル信号であるPresence信号が各プロセッサボードからそれぞれ入力される。ＳＭＩＯＵＴ信号及びPresence信号は論理積回路３３₁〜３３₃に入力され、それらの論理積結果であるＳＭＩＩＮ信号はバス切替回路３２を介して自ボードを除く全てのプロセッサボードに送出される。
【００５１】
バス切替回路３２は、第１の実施の形態と同様に、障害が発生していない（または障害復旧が可能な）プロセッサボードからのＩ２Ｃバスをそれぞれ自身のボードへ戻す経路に設定する。また、致命的な障害により復旧が不可能なプロセッサボードからのＩ２Ｃバスは故障診断装置となるプロセッサボードのＩ２Ｃバスと接続する経路に設定する。
【００５２】
本実施形態のバス切替回路３２は、ＳＭＩＩＮ信号を各プロセッサボードに送出すると、複数の情報処理装置のうち、該ＳＭＩＩＮ信号に対して最初にバス切替信号を返送したプロセッサボードを故障診断装置として選定し、該プロセッサボードのＩ２ＣバスとＳＭＩＯＵＴ信号を送出したプロセッサボードのＩ２Ｃバスとを接続する。その場合、バス切替回路３２は、Ｉ２Ｃバスの経路切り替え完了後に他のプロセッサボードから発行されるバス切替信号の受付けを無効にする排他処理を実行する。このような排他処理は、例えば種々の論理ゲートを組み合わせた論理回路によって実現すればよい。
【００５３】
なお、バス切替回路は、故障が発生したプロセッサボードに対して、予め決められたプロセッサボードを故障診断装置として選定するようにしてもよい。その場合、Ｉ２Ｃバスの切替経路が限定されるためバス切替回路の構成が簡単になることが期待できる。しかしながら、このような構成では選定されたプロセッサボードでも障害が発生していると、他に正常なプロセッサボードがあるにも拘わらず障害情報を収集できなくなるおそれがある。したがって、本実施形態のようにＳＭＩＩＮ信号に対して最初にバス切替信号を返送したプロセッサボードを故障診断装置に選定する構成が好ましい。
【００５４】
プロセッサボードの構成及び動作、並びにＩ２Ｃバス切替後の障害が発生したプロセッサボードからの障害情報の収集動作については、第１の実施の形態と同様であるため、それらの説明は省略する。
【００５５】
したがって、本発明によれば、複数の情報処理装置から構成される情報処理システムにおいて、致命的な障害が発生して動作不能に陥った場合でも、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を取得することが可能になり、その情報に基づいて電源のリセット動作や障害情報を外部に通知することが可能になる。よって、信頼性の高い情報処理システムを安価に構築できる。
【００５６】
特に、本発明では、プロセッサボードに必ず備えるＢＩＯＳのプログラムを用い、プロセッサボードが元々備える汎用バスを介して内部デバイスの障害情報を収集するため、障害検出のための新たなソフトウェアを作成する必要がない。また、本発明のブリッジボードを予め設けておけば、プロセッサボードを増設する場合でも、わずかな変更で対応することができるため、処理能力が高く、かつ信頼性の高い情報処理システムをコストの増大を招くことなく得ることができる。
【００５７】
【発明の効果】
本発明は以上説明したように構成されているので、以下に記載する効果を奏する。
【００５８】
障害の発生を示す割り込みを受け取ったブリッジボードが該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、ブリッジボードで割り込みを発行した情報処理装置の汎用バスと故障診断装置に選定された情報処理装置の汎用バスとを接続し、故障診断装置に選定された情報処理装置により、ＢＩＯＳのプログラムにしたがって障害が発生した情報処理装置の内部デバイスから汎用バスを介してそれぞれ障害情報を収集することで、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を取得することが可能になる。したがって、その障害情報に基づいて電源のリセット動作や障害情報を外部に通知することが可能になり、信頼性の高い情報処理システムを安価に構築できる。
【図面の簡単な説明】
【図１】本発明の情報処理システムの第１の実施の形態の構成を示すブロック図である。
【図２】図１に示したブリッジボードの構成を示すブロック図である。
【図３】図１に示した情報処理システムによるバス切替動作の様子を示す模式図である。
【図４】本発明の情報処理システムの第２の実施の形態の構成を示すブロック図である。
【符号の説明】
１₁、１₂ プロセッサボード
２ブリッジボード
１１ＣＰＵ
１２ノースブリッジ
１３サウスブリッジ
１４メインメモリ
１５ＰＣＩバス
１６ＢＩＯＳＲＯＭ
１７ Super I/O
１８センサ
１９ＳＲＯＭ
２０、２１₁、２１₂、３１₁〜３１₃ コネクタ
２２、３２バス切替回路
２３₁、２３₂、３３₁〜３３₃ 論理積回路
１１１ＳＭＩ受信回路
１１２ＣＰＵエラー通知回路
１２１ノースブリッジエラー通知回路
１３１ＳＭＩ発行回路
１３２エラー要因登録回路
１３３タイマ回路
１３４サウスブリッジエラー通知回路
１３５ＧＰＩＯ回路
１３６Ｉ２Ｃバスマスタ
１４１メモリエラー通知回路

Claims

内部デバイスからそれぞれの装置情報を収集するための汎用バスを備えた複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の２つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備えたブリッジボードと、
を有する情報処理システムで発生した致命的な障害の情報を収集するための障害検出方法であって、
前記情報処理装置で障害が発生すると、該情報処理装置から障害の発生を示す割り込みを前記ブリッジボードに送出し、
前記ブリッジボードで前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、
前記ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の前記汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、
前記ブリッジボードは、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続し、
前記故障診断装置に選定された情報処理装置はＢＩＯＳのプログラムにしたがって前記障害が発生した情報処理装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する障害検出方法。
前記ブリッジボードは、前記障害通知信号を送出すると、前記複数の情報処理装置のうち、最初に前記バス切替信号を返送した情報処理装置の前記汎用バスと前記割り込みを発行した情報処理装置の前記汎用バスとを接続し、他の情報処理装置から発行されるバス切替信号の受付けを無効にする請求項１記載の障害検出方法。
前記情報処理装置から前記ブリッジボードに接続されているか否かを判定するためのPresence信号をそれぞれ送出し、
前記ブリッジボードは、前記割り込みと前記Presence信号の論理積結果を前記障害通知信号として送出する請求項１または２記載の障害検出方法。
内部デバイスからそれぞれの装置情報を収集するための汎用バスを備え、障害が発生すると該障害の発生を示す割り込みを外部に送出し、外部から障害の発生を示す障害通知信号を受け取ると所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した装置の前記汎用バスにアクセスするためのバス切替信号を外部に送出すると共に、ＢＩＯＳのプログラムにしたがって該装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の２つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備え、前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に前記障害通知信号をそれぞれ送出し、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続するブリッジボードと、
を有する情報処理システム。
前記ブリッジボードは、
前記障害通知信号を送出すると、前記複数の情報処理装置のうち、最初に前記バス切替信号を返送した情報処理装置の前記汎用バスと前記割り込みを発行した情報処理装置の前記汎用バスとを接続し、他の情報処理装置から発行されるバス切替信号の受付けを無効にする請求項４記載の情報処理システム。
前記情報処理装置は、
自装置が前記ブリッジボードに接続されているか否かを判定するためのPresence信号を送出し、
前記ブリッジボードは、
前記割り込みと前記Presence信号の論理積結果を前記障害通知信号として送出する請求項４または５記載の情報処理システム。