JP2004348335A - Fault detection method and information processing system - Google Patents

Fault detection method and information processing system Download PDF

Info

Publication number
JP2004348335A
JP2004348335A JP2003143214A JP2003143214A JP2004348335A JP 2004348335 A JP2004348335 A JP 2004348335A JP 2003143214 A JP2003143214 A JP 2003143214A JP 2003143214 A JP2003143214 A JP 2003143214A JP 2004348335 A JP2004348335 A JP 2004348335A
Authority
JP
Japan
Prior art keywords
information processing
bus
failure
fault
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003143214A
Other languages
Japanese (ja)
Other versions
JP3838992B2 (en
Inventor
Isao Nagano
勲 永野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC System Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC System Technologies Ltd filed Critical NEC System Technologies Ltd
Priority to JP2003143214A priority Critical patent/JP3838992B2/en
Publication of JP2004348335A publication Critical patent/JP2004348335A/en
Application granted granted Critical
Publication of JP3838992B2 publication Critical patent/JP3838992B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a fault detection method that makes it possible to obtain fault information in reduced space at low cost to provide an information processing system of high reliability and to provide an information processing system. <P>SOLUTION: The information processing system has a bridge board with a bus switch circuit for connecting the universal buses of a plurality of information processors to one another. Should a fault occur in any of the information processors, an SMI interrupt indicating the occurrence of the fault is sent via the bridge board to each of the information processors. On receiving a signal indicating the occurrence of the fault, one of the information processors sends a bus switch signal for accessing the universal bus of the information processor where the fault occurred, and the bridge board connects the universal bus of the information processor which issued the SMI interrupt to the universal bus of the information processor which was selected as a fault diagnosis device by sending the bus switch signal. Following the program of a BIOS, the information processor selected as the fault diagnosis device collects fault information via the universal bus from the internal device of the information processor where the fault occurred. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は複数の情報処理装置から構成される情報処理システムで発生した致命的な障害の情報を取得するための障害検出方法及び情報処理システムに関する。
【0002】
【従来の技術】
汎用コンピュータやミニコンピュータと呼ばれる比較的大規模な情報処理装置は、コンピュータネットワークのホストコンピュータ等でも利用されため、何らかの障害が発生した場合に、その障害内容や障害部位を検出して外部に通知する故障診断機能が非常に重要になる。
【0003】
故障診断機能を有する従来の情報処理装置として、オペレーティングシステムで動作するメインシステムとは別に独立して動作するマイクロ診断装置を有し、致命的な障害となりうる、例えばCPUとメモリ間等で障害が発生した場合に、その障害を検出して外部に通報する構成が特許文献1に記載されている。
【0004】
また、独立して動作可能な2台のプロセッサを有し、一方のプロセッサで障害が発生したときに、他方のプロセッサでその障害情報を収集して外部に通知する構成が特許文献2、3に記載されている。
【0005】
【特許文献1】
特開平5−265812号
【特許文献2】
特開平4−329461号
【特許文献3】
特開平3−014136号
【0006】
【発明が解決しようとする課題】
上記したような従来の情報処理装置のうち、特許文献1に記載されたマイクロ診断装置を備えた構成では、情報処理装置内に、メインシステムから独立して動作するCPUやメモリを含む処理装置が必要になるため、装置構成が複雑になって実装面積が大きくなり、コストが増大して非常に高価なものになってしまう。そのため、省スペース化や低コスト化が要求されるワークステーションサーバやオフィスコンピュータ、あるいはパーソナルコンピュータ等の比較的小規模な情報処理装置ではマイクロ診断装置を備えた構成を採用できないことが多い。
【0007】
マイクロ診断装置を持たない情報処理装置では、致命的な障害が発生すると、CPU自体が動作できない状態、あるいはCPUからメモリやPCI/LPC(ISA)バス等に対して命令を送出できない状態となるため、結果としてオペレーティングシステムの動作が停止してしまう。また、このような情報処理装置では、処理途中のメモリやレジスタの内容を保存したり、最低限の障害情報を記録しておくためのイベントログも実行できなくなる。
【0008】
一方、特許文献2、3に記載された、2台のプロセッサが互いの障害情報を取得する構成は、少ないハードウェア量の増加で障害情報を取得できるようになるため、比較的小規模な情報処理装置に適用することが可能である。
【0009】
しかしながら、特許文献2、3に記載された構成では、プロセッサの状態を互いに監視するための回路や障害情報を転送するための専用のバスを設ける必要があるため、汎用性に乏しいという問題がある。したがって、例えば、近年のブレードサーバのように、情報処理装置の機能を備えたブレードを増設することでサーバ全体の処理能力を向上させる構成に適用する場合、増設する度に各ブレード内の回路構成やソフトウェアを変更しなければならないため、変更のための手間が増大して高価なものになってしまう。
【0010】
本発明は上記したような従来の技術が有する問題点を解決するためになされたものであり、障害情報を省スペース、低コストな構成で取得可能にして、信頼性の高い情報処理システムが得られる障害検出方法及び情報処理システムを提供することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するため本発明の障害検出方法は、内部デバイスからそれぞれの装置情報を収集するための汎用バスを備えた複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の2つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備えたブリッジボードと、
を有する情報処理システムで発生した致命的な障害の情報を収集するための障害検出方法であって、
前記情報処理装置で障害が発生すると、該情報処理装置から障害の発生を示す割り込みを前記ブリッジボードに送出し、
前記ブリッジボードで前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、
前記ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の前記汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、
前記ブリッジボードは、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続し、
前記故障診断装置に選定された情報処理装置はBIOSのプログラムにしたがって前記障害が発生した情報処理装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する方法である。
【0012】
一方、本発明の情報処理システムは、内部デバイスからそれぞれの装置情報を収集するための汎用バスを備え、障害が発生すると該障害の発生を示す割り込みを外部に送出し、外部から障害の発生を示す障害通知信号を受け取ると所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した装置の前記汎用バスにアクセスするためのバス切替信号を外部に送出すると共に、BIOSのプログラムにしたがって該装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の2つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備え、前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に前記障害通知信号をそれぞれ送出し、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続するブリッジボードと、
を有する構成である。
【0013】
上記のような障害検出方法及び情報処理システムでは、障害の発生を示す割り込みを受け取ったブリッジボードが該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、ブリッジボードで割り込みを発行した情報処理装置の汎用バスと故障診断装置に選定された情報処理装置の汎用バスとを接続し、故障診断装置に選定された情報処理装置により、BIOSのプログラムにしたがって障害が発生した情報処理装置の内部デバイスから汎用バスを介してそれぞれ障害情報を収集することで、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を取得することが可能になる。
【0014】
【発明の実施の形態】
次に本発明について図面を参照して説明する。
【0015】
本発明は、複数の情報処理装置を、汎用のバス(例えばI2Cバス)を含むブリッジボードを用いてそれぞれ接続することで、任意の情報処理装置で発生した障害の情報を他の情報処理装置で収集可能にする。I2Cバスは、情報処理装置内の各内部デバイスから各種装置情報(障害情報を含む)を収集するために、予め情報処理装置に備えたバスである。但し、CPUや主要なバス等で致命的な障害が発生した場合、オペレーティングシステムが動作しないため、それらの障害情報は収集できなくなる。本発明では致命的な障害が発生した情報処理装置のI2Cバスに対して他の情報処理装置からアクセスし、I2Cバスに繋がる内部デバイス(以下、I2Cバスデバイスと称すこともある)からそれぞれの障害情報を収集する。
【0016】
例えば、任意の情報処理装置のローカルバス、システムバス、メモリバス等の配下のデバイスで障害が発生した場合、該情報処理装置からブリッジボードを介して障害発生を示す信号であるSMI(System Management Interrupt)割り込みが各情報処理装置に通知される。ブリッジボードは、SMI割り込みに対して最初に応答した情報処理装置のI2Cバスと障害が発生した情報処理装置のI2Cバス間を接続する。障害情報を収集する故障診断装置に選定された情報処理装置は、障害が発生した情報処理装置のI2Cバスにアクセスし、そのSROM(Serial Read Only Memory)に格納されたシステム構成情報を参照しつつBIOSのプログラムにしたがって障害が発生した情報処理装置の各I2Cバスデバイスからそれぞれ障害情報を取得する。このような処理を行うことで、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を収集することが可能になり、信頼性の高い情報処理システムを構築できる。
【0017】
(第1の実施の形態)
図1は本発明の情報処理システムの第1の実施の形態の構成を示すブロック図であり、図2は図1に示したブリッジボードの構成を示すブロック図である。また、図3は図1に示した情報処理システムによるバス切替動作の様子を示す模式図である。
【0018】
第1の実施の形態の情報処理システムは、情報処理装置としての機能を有する2つのプロセッサボード1、1がブリッジボード2で接続された構成である。
【0019】
図1に示すように、プロセッサボード1、1は、CPU11と、メインメモリ14と、CPU11に繋がるローカルバス、及びメインメモリ14に繋がるメモリバスの情報通信を制御するノースブリッジ12と、ノースブリッジ12に繋がるシステムバス、PCIデバイス15が繋がるPCIバス、及びBIOS ROM16やSuper I/O17等のLPC/ISAデバイスが繋がるLPC/ISAバスの情報通信を制御するサウスブリッジ13と、ブリッジボード2と接続するためのコネクタ20と、I2Cバスに接続された、アクセス可能な装置構成情報が格納される不揮発性メモリであるSROM19と、I2Cバスに接続された、温度や電源電圧等の装置状態を監視するためのセンサ18とを有する構成である。
【0020】
ローカルバスは、CPU11とノースブリッジ12間で通信するためのバスであり、ローカルバスで致命的な障害が発生した場合はプロセッサボード1、1の動作がフリーズ(停止)する。
【0021】
メモリバスは、ノースブリッジ12内の不図示のメモリコントローラとメインメモリ14間で通信するためのバスである。メモリバスで訂正不可能な障害が発生した場合、障害が発生した部位によってはプロセッサボード1、1の動作が停止する可能性がある。
【0022】
システムバスは、ノースブリッジ12とサウスブリッジ13間で通信するためのバスである。システムバスで致命的な障害が発生した場合もプロセッサボード1、1の動作は停止する。
【0023】
CPU11は、CPU11による処理のエラーを外部へ通知するためのCPUエラー通知回路112と、サウスブリッジ13で発行されたSMI割り込みを受信するためのSMI受信回路(SMI)111とを有し、SMI(System Management Interrupt)割り込みを受信するとSMM(System Management Mode)で動作する。
【0024】
メインメモリ14は、CPU11の処理で必要なプログラムやデータを保持するための記憶装置であり、メモリアクセス時に発生した障害を外部へ通知するためのメモリエラー通知回路(SPD)141を備えている。
【0025】
ノースブリッジ12は、ローカルバス及びメモリバスの情報通信を制御すると共に、システムコントローラ及びメモリコントローラとしての機能も備えている。また、ローカルバス及びメモリバス上で発生した障害を検出し、該障害検出結果をCPU11へ通知するためのノースブリッジエラー通知回路(NB Error)121を備えている。
【0026】
サウスブリッジ13は、SMI割り込みを発行するSMI発行回路131と、障害発生情報が格納されるエラー要因登録回路(Error登録回路)132と、障害が復旧したか否かを判定するために用いられるタイマ回路(Timer)133と、PCIバス及びLPC/ISAバス上で発生した障害を検出するサウスブリッジエラー通知回路(SM Error)134と、ブリッジボード2に対してバス切替信号を送出するGPIO回路135と、I2Cバスの通信を制御するI2Cバスマスタ136とを有する構成である。
【0027】
PCIバスには、PCIバスアーキテクチャを備えたPCIデバイス15が接続される。また、LPC/ISAバスには、例えば電源シーケンス等を制御するためのSuper I/O17、システムBIOSコードが格納されたROMであるBIOS ROM16等のLPC/ISAバスアーキテクチャを備えたLPC/ISAデバイスが接続される。
【0028】
CPU11は、BIOS ROM16に格納されたROMコードをメインメモリ14にコピーすることで、SMM時に用いるSMIハンドラのコードを実行できる。本実施形態では、図1に示すように、各プロセッサボード1、1のCPUエラー通知回路112、メモリエラー通知回路141、ノースブリッジエラー通知回路121、サウスブリッジエラー通知回路134、PCIデバイス15、Super I/O17、センサ18、及びSROM19がI2Cバスにそれぞれ接続され、BIOS ROM内に障害情報を収集するためのプログラムが格納されている。CPU11は、BIOS ROM内のプログラム(SMIハンドラ)にしたがって処理を実行することで、障害が発生したプロセッサボードの各デバイスからI2Cバスを介して必要な障害情報を取得する。
【0029】
図2に示すように、ブリッジボード2は、プロセッサボード1、1と接続するためのコネクタ21、21と、I2Cバスの接続を切り替えるためのバス切替回路22と、プロセッサボード1、1毎に障害が発生したことを示す障害通知信号(SMI IN信号)を生成する論理積回路(AND)23、23とを有する構成である。
【0030】
ブリッジボード2には、プロセッサボード1、1で障害が発生したことを示すSMI OUT信号(=SMI割り込み)、及びプロセッサボードが接続されていることを示すレベル信号であるPresence信号が各プロセッサボード1、1からそれぞれ入力される。
【0031】
SMI OUT信号及びPresence信号は論理積回路23、23に入力され、それらの論理積結果であるSMI IN信号が自ボードを除く全てのプロセッサボードへ送信される。このようにSMI OUT信号とPresence信号との論理積結果を用いることで、プロセッサボードが未接続による障害発生の誤検出を防止できる。
【0032】
バス切替回路22は、各プロセッサボード1、1のI2Cバスマスタ136と各デバイスが接続されたI2Cバスとを中継する回路であり、障害が発生していないとき(または障害復旧が可能なとき)は、各プロセッサボード1、1からのI2Cバスを自身のボードへ戻す経路(図3の経路▲1▼)に設定する。また、致命的な障害により復旧が不可能なときは、障害が発生したプロセッサボードのI2Cバスと故障診断装置となるプロセッサボードのI2Cバスとを接続する経路(図3の経路▲2▼)に設定する。
【0033】
なお、図1では、I2Cバスマスタ136に対して、CPUエラー通知回路112、メモリエラー通知回路141、ノースブリッジエラー通知回路121、サウスブリッジエラー通知回路134、PCIデバイス15、Super I/O17、センサ18、SROM19、及びコネクタ20がそれぞれ直接接続された構成を示しているが、実際の各I2Cバスデバイスが接続されたI2Cバスは、ブリッジボード2を経由して(図2の▲1▼、または▲2▼の経路)I2Cバスマスタ136に接続される。このような構成では、障害が発生したプロセッサボードのI2Cバスマスタ136を完全に切り離した状態で、故障診断装置となるプロセッサボードのI2Cバスマスタと障害が発生したプロセッサボードのI2Cバスデバイスとを接続することができる。
【0034】
障害が発生したプロセッサボードのI2Cバスと故障診断装置となるプロセッサボードのI2Cバスマスタ136とは、バス切替信号がアサートされている間は継続して接続される。本実施形態では、バス切替回路22を介して2つのプロセッサボード1、1のI2Cバス間を接続する場合、一方のプロセッサボードは必ず致命的な障害によって動作が停止しているため、バス切替信号の排他処理は不要である。
【0035】
次に、第1の実施の形態の情報処理システムの動作について説明する。
【0036】
図1に示す構成において、一方のプロセッサボード1のCPU11、ローカルバス、システムバス、及びメモリバスで致命的な障害が発生した場合を想定する。
【0037】
このとき、障害を監視しているCPUエラー通知回路(CPU Error)112、ノースブリッジエラー通知回路(NB Error)121、及びサウスブリッジエラー通知回路(SM Error)134からサウスブリッジ13内にあるエラー要因登録回路(Error登録回路)132に障害発生を示すAlert信号が格納される。
【0038】
エラー要因登録回路132にAlert信号が格納されると、サウスブリッジ13のSMI発行回路131からCPU11のSMI受信回路(SMI)111に対してSMI割り込みが発行される。
【0039】
SMI割り込みは、システム障害が発生したプロセッサボード1のCPU11だけでなく、上述したSMI OUT信号としてブリッジボード2に入力され、SMI IN信号としてプロセッサボード1にも通知される。SMI IN信号は、プロセッサボード毎の障害通知としてプロセッサボード1のエラー要因登録回路132に格納される。なお、SMI割り込みによる障害通知はレベル信号で送出され、プロセッサボード1で発生した障害が所定の時間内に全て復旧した場合は自動的にクリアされる。
【0040】
発生した障害が致命的でない場合、プロセッサボード1のCPU11はSMMを起動し、システムBIOSで提供されるSMIハンドラにしたがってI2Cバスを介して自ボード内の各I2Cバスデバイスから障害情報を収集する。
【0041】
一方、発生した障害が致命的な場合、プロセッサボード1のCPU11はSMMを起動することができず、結果として自身のエラー情報を収集することができない。このような場合、ブリッジボード2を経由して接続されたプロセッサボード1でプロセッサボード1の障害情報を収集する。
【0042】
プロセッサボード1は、エラー要因登録回路132にプロセッサボード1から発行された障害通知が格納されると、まず、サウスブリッジ13内にあるタイマ回路133を用いて所定の時間内に該障害通知がクリアされるか否かをチェックする。
【0043】
所定時間内にプロセッサボード1の障害通知がクリアされない場合、Timer割り込み(Timeout)が発生し、プロセッサボード1のCPU11にSMI受信回路111を介して通知される。プロセッサボード1のCPU11は、SMMを起動してシステムBIOSで提供されるSMIハンドラにしたがってGPIO回路135を制御し、Timeout要因をアサートしてバス切替信号を送出する。
【0044】
バス切替信号はブリッジボード2のバス切替回路22へ入力される。バス切替信号を受け取ったバス切替回路22は、通常、図3の▲1▼に示す経路に接続されたI2Cバスを図3の▲2▼に示す経路に切り替える。これにより、プロセッサボード1のI2Cバスマスタ136とプロセッサボード1の各I2Cバスデバイスとが接続され、プロセッサボード1のI2Cバスマスタ136からプロセッサボード1の各I2Cバスデバイスにアクセスすることが可能になる。
【0045】
プロセッサボード1のCPU11は、システムBIOSで提供されるSMIハンドラにしたがって自ボードのI2Cバスマスタ136を制御し、プロセッサボード1の各I2Cバスデバイスからそれぞれ障害情報を取得する。そして、必要であれば障害が発生したプロセッサボード1のSuper I/O17へアクセスし、プロセッサボード1のReset/DC OFF(電源のオフと再投入を行うリセット動作)を実施する。また、プロセッサボード1の通報機能(LAN/COM)を使用して収集したプロセッサボード1の障害情報を外部へ通報する。その後、GPIO回路135を制御してバス切替信号をデアサートする。
【0046】
バス切替信号のデアサートを検出したバス切替回路22は、I2Cバスを図3の▲1▼に示す経路に切り替え、プロセッサボード1のI2Cバスマスタ136と各I2Cバスデバイスとを再び接続させる。
【0047】
(第2の実施の形態)
図4は本発明の情報処理システムの第2の実施の形態の構成を示すブロック図である。
【0048】
第2の実施の形態の情報処理システムは、情報処理装置としての機能を有する3台以上のプロセッサボードがブリッジボード3で接続された構成である。
【0049】
図4に示すように、本実施形態のブリッジボード3は、3台のプロセッサボードと接続するためのコネクタ31、31、31と、I2Cバスの接続を切り替えるためのバス切替回路32と、プロセッサボード毎に障害が発生したことを示す信号(SMI IN信号)を生成する論理積回路(AND)33、33、33とを有する構成である。なお、図4は3台のプロセッサボードがブリッジボードに接続される例を示しているが、図4と同様に各プロセッサボードからのI2Cバスをバス切替回路32へ接続し、各プロセッサボードに対応するコネクタ31及び論理積回路33をそれぞれ設ければ、4台以上のプロセッサボードが接続される構成にも対応できる。
【0050】
ブリッジボード3には、第1の実施の形態と同様に、プロセッサボードで障害が発生したことを示すSMI OUT信号(=SMI割り込み)及びプロセッサボードが接続されていることを示すレベル信号であるPresence信号が各プロセッサボードからそれぞれ入力される。SMI OUT信号及びPresence信号は論理積回路33〜33に入力され、それらの論理積結果であるSMI IN信号はバス切替回路32を介して自ボードを除く全てのプロセッサボードに送出される。
【0051】
バス切替回路32は、第1の実施の形態と同様に、障害が発生していない(または障害復旧が可能な)プロセッサボードからのI2Cバスをそれぞれ自身のボードへ戻す経路に設定する。また、致命的な障害により復旧が不可能なプロセッサボードからのI2Cバスは故障診断装置となるプロセッサボードのI2Cバスと接続する経路に設定する。
【0052】
本実施形態のバス切替回路32は、SMI IN信号を各プロセッサボードに送出すると、複数の情報処理装置のうち、該SMI IN信号に対して最初にバス切替信号を返送したプロセッサボードを故障診断装置として選定し、該プロセッサボードのI2CバスとSMI OUT信号を送出したプロセッサボードのI2Cバスとを接続する。その場合、バス切替回路32は、I2Cバスの経路切り替え完了後に他のプロセッサボードから発行されるバス切替信号の受付けを無効にする排他処理を実行する。このような排他処理は、例えば種々の論理ゲートを組み合わせた論理回路によって実現すればよい。
【0053】
なお、バス切替回路は、故障が発生したプロセッサボードに対して、予め決められたプロセッサボードを故障診断装置として選定するようにしてもよい。その場合、I2Cバスの切替経路が限定されるためバス切替回路の構成が簡単になることが期待できる。しかしながら、このような構成では選定されたプロセッサボードでも障害が発生していると、他に正常なプロセッサボードがあるにも拘わらず障害情報を収集できなくなるおそれがある。したがって、本実施形態のようにSMI IN信号に対して最初にバス切替信号を返送したプロセッサボードを故障診断装置に選定する構成が好ましい。
【0054】
プロセッサボードの構成及び動作、並びにI2Cバス切替後の障害が発生したプロセッサボードからの障害情報の収集動作については、第1の実施の形態と同様であるため、それらの説明は省略する。
【0055】
したがって、本発明によれば、複数の情報処理装置から構成される情報処理システムにおいて、致命的な障害が発生して動作不能に陥った場合でも、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を取得することが可能になり、その情報に基づいて電源のリセット動作や障害情報を外部に通知することが可能になる。よって、信頼性の高い情報処理システムを安価に構築できる。
【0056】
特に、本発明では、プロセッサボードに必ず備えるBIOSのプログラムを用い、プロセッサボードが元々備える汎用バスを介して内部デバイスの障害情報を収集するため、障害検出のための新たなソフトウェアを作成する必要がない。また、本発明のブリッジボードを予め設けておけば、プロセッサボードを増設する場合でも、わずかな変更で対応することができるため、処理能力が高く、かつ信頼性の高い情報処理システムをコストの増大を招くことなく得ることができる。
【0057】
【発明の効果】
本発明は以上説明したように構成されているので、以下に記載する効果を奏する。
【0058】
障害の発生を示す割り込みを受け取ったブリッジボードが該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、ブリッジボードで割り込みを発行した情報処理装置の汎用バスと故障診断装置に選定された情報処理装置の汎用バスとを接続し、故障診断装置に選定された情報処理装置により、BIOSのプログラムにしたがって障害が発生した情報処理装置の内部デバイスから汎用バスを介してそれぞれ障害情報を収集することで、高価なマイクロ診断装置を用いることなく、経済的(省スペース、低コスト)に障害情報を取得することが可能になる。したがって、その障害情報に基づいて電源のリセット動作や障害情報を外部に通知することが可能になり、信頼性の高い情報処理システムを安価に構築できる。
【図面の簡単な説明】
【図1】本発明の情報処理システムの第1の実施の形態の構成を示すブロック図である。
【図2】図1に示したブリッジボードの構成を示すブロック図である。
【図3】図1に示した情報処理システムによるバス切替動作の様子を示す模式図である。
【図4】本発明の情報処理システムの第2の実施の形態の構成を示すブロック図である。
【符号の説明】
、1 プロセッサボード
2 ブリッジボード
11 CPU
12 ノースブリッジ
13 サウスブリッジ
14 メインメモリ
15 PCIバス
16 BIOS ROM
17 Super I/O
18 センサ
19 SROM
20、21、21、31〜31 コネクタ
22、32 バス切替回路
23、23、33〜33 論理積回路
111 SMI受信回路
112 CPUエラー通知回路
121 ノースブリッジエラー通知回路
131 SMI発行回路
132 エラー要因登録回路
133 タイマ回路
134 サウスブリッジエラー通知回路
135 GPIO回路
136 I2Cバスマスタ
141 メモリエラー通知回路
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a failure detection method for acquiring information on a fatal failure that has occurred in an information processing system including a plurality of information processing apparatuses and an information processing system.
[0002]
[Prior art]
Since a relatively large-scale information processing device called a general-purpose computer or a minicomputer is also used by a host computer of a computer network, etc., when a failure occurs, the content and location of the failure are detected and notified to the outside. The fault diagnosis function becomes very important.
[0003]
As a conventional information processing device that has a failure diagnosis function, it has a micro diagnostic device that operates independently of the main system that runs on the operating system, and can cause a fatal failure, for example, a failure between the CPU and memory. Patent Document 1 discloses a configuration in which when a fault occurs, the fault is detected and reported to the outside.
[0004]
Patent Documents 2 and 3 disclose configurations in which two processors that can operate independently are provided, and when a failure occurs in one processor, failure information is collected by the other processor and notified to the outside. Has been described.
[0005]
[Patent Document 1]
JP-A-5-265812
[Patent Document 2]
JP-A-4-329461
[Patent Document 3]
JP-A-3-014136
[0006]
[Problems to be solved by the invention]
Among the conventional information processing devices as described above, in the configuration including the micro diagnostic device described in Patent Document 1, a processing device including a CPU and a memory that operate independently of the main system is included in the information processing device. This necessitates a complicated device configuration and a large mounting area, and increases the cost and makes the device very expensive. Therefore, a relatively small information processing device such as a workstation server, an office computer, or a personal computer, which requires space saving and cost reduction, cannot often adopt a configuration including a micro diagnostic device.
[0007]
In a data processing device without a micro diagnostic device, if a catastrophic failure occurs, the CPU itself cannot operate, or the CPU cannot transmit an instruction to a memory or a PCI / LPC (ISA) bus. As a result, the operation of the operating system stops. Further, such an information processing apparatus cannot execute an event log for saving the contents of a memory or a register in the process of processing or for recording minimum failure information.
[0008]
On the other hand, the configuration described in Patent Literatures 2 and 3 in which two processors obtain fault information from each other can obtain fault information with a small increase in the amount of hardware. It can be applied to a processing device.
[0009]
However, the configurations described in Patent Literatures 2 and 3 have a problem of poor versatility because it is necessary to provide a circuit for monitoring the states of the processors with each other and a dedicated bus for transferring fault information. . Therefore, for example, when the present invention is applied to a configuration in which the processing capability of the entire server is improved by adding a blade having an information processing device function like a recent blade server, the circuit configuration in each blade is increased each time the blade server is added. And the software must be changed, which increases the time and effort required for the change.
[0010]
SUMMARY OF THE INVENTION The present invention has been made to solve the problems of the conventional technology as described above, and it is possible to obtain fault information in a space-saving and low-cost configuration to obtain a highly reliable information processing system. It is an object of the present invention to provide a fault detection method and an information processing system which are used.
[0011]
[Means for Solving the Problems]
In order to achieve the above object, a failure detection method according to the present invention includes a plurality of information processing apparatuses including a general-purpose bus for collecting respective apparatus information from internal devices,
A bridge board including a bus switching circuit for connecting the general-purpose buses of any two information processing devices among the plurality of information processing devices;
A failure detection method for collecting information on a fatal failure that has occurred in an information processing system having
When a failure occurs in the information processing device, the information processing device sends an interrupt indicating the occurrence of the failure to the bridge board,
When the bridge board receives the interrupt, each of the information processing devices except the information processing device that issued the interrupt sends a fault notification signal indicating the occurrence of a fault,
The information processing device that has received the fault notification signal indicating the occurrence of the fault from the bridge board accesses the general-purpose bus of the faulty information processing device if the fault notification signal is not cleared after a predetermined time has elapsed. Bus switch signal to the bridge board,
The bridge board connects the general-purpose bus of the information processing device selected as the failure diagnosis device by transmitting the bus switching signal and the general-purpose bus of the information processing device that has issued the interrupt,
The information processing apparatus selected as the failure diagnosis apparatus is a method of collecting failure information from internal devices of the information processing apparatus in which the failure has occurred via the general-purpose bus according to a BIOS program.
[0012]
On the other hand, the information processing system of the present invention includes a general-purpose bus for collecting device information from internal devices, and when a failure occurs, sends an interrupt indicating the occurrence of the failure to the outside, and detects the occurrence of the failure from outside. If the failure notification signal is not cleared after a predetermined period of time upon receipt of the failure notification signal shown, a bus switching signal for accessing the general-purpose bus of the device in which the failure has occurred is sent out to the outside, and the program of the BIOS is transmitted to the outside. Therefore, a plurality of information processing devices for collecting fault information from the internal device of the device via the general-purpose bus, respectively,
The information processing apparatus further includes a bus switching circuit for connecting the general-purpose buses of any two of the information processing apparatuses, and when the interrupt is received, all of the information processing apparatuses except the information processing apparatus that has issued the interrupt are provided. The general-purpose bus of the information processing device selected as the fault diagnosis device by transmitting the failure notification signal to the information processing device and transmitting the bus switching signal to the general-purpose bus of the information processing device that has issued the interrupt. A bridge board to connect
It is a structure which has.
[0013]
In the above failure detection method and information processing system, a bridge board that receives an interrupt indicating the occurrence of a failure sends a failure notification signal indicating the occurrence of a failure to all information processing apparatuses except the information processing apparatus that issued the interrupt. Each of the information processing devices which has transmitted the fault notification signal indicating the occurrence of the fault from the bridge board, accesses the general-purpose bus of the faulty information processing device if the fault notification signal is not cleared after a predetermined time has elapsed. To the bridge board, and connect the general-purpose bus of the information processing device that issued the interrupt with the bridge board to the general-purpose bus of the information processing device selected as the fault diagnosis device, and select the fault diagnosis device. From the internal device of the information processing device that failed according to the BIOS program Respectively via the use bus by collecting fault information, without using an expensive micro diagnostic apparatus, economic (space, cost) it is possible to acquire the fault information.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, the present invention will be described with reference to the drawings.
[0015]
According to the present invention, by connecting a plurality of information processing devices using a bridge board including a general-purpose bus (for example, an I2C bus), information of a failure occurring in an arbitrary information processing device can be transmitted to another information processing device. Make it collectable. The I2C bus is a bus provided in the information processing device in advance to collect various device information (including fault information) from each internal device in the information processing device. However, when a catastrophic failure occurs in the CPU, the main bus, or the like, the operating system does not operate, so that such failure information cannot be collected. In the present invention, another information processing apparatus accesses the I2C bus of the information processing apparatus in which a catastrophic failure has occurred, and an internal device connected to the I2C bus (hereinafter, also referred to as an I2C bus device) causes each failure. Gather information.
[0016]
For example, when a failure occurs in a device under a local bus, a system bus, a memory bus, or the like of an arbitrary information processing apparatus, an SMI (System Management Interrupt) which is a signal indicating the occurrence of the failure from the information processing apparatus via a bridge board. ) An interrupt is notified to each information processing device. The bridge board connects between the I2C bus of the information processing device that first responded to the SMI interrupt and the I2C bus of the information processing device in which a failure has occurred. The information processing apparatus selected as the failure diagnosis apparatus that collects the failure information accesses the I2C bus of the information processing apparatus in which the failure has occurred, and refers to the system configuration information stored in its SROM (Serial Read Only Memory). In accordance with the BIOS program, failure information is acquired from each I2C bus device of the information processing apparatus in which the failure has occurred. By performing such processing, fault information can be economically (space-saving, low-cost) collected without using an expensive micro diagnostic device, and a highly reliable information processing system can be constructed. .
[0017]
(First Embodiment)
FIG. 1 is a block diagram showing the configuration of the first embodiment of the information processing system of the present invention, and FIG. 2 is a block diagram showing the configuration of the bridge board shown in FIG. FIG. 3 is a schematic diagram showing a state of a bus switching operation by the information processing system shown in FIG.
[0018]
The information processing system according to the first embodiment includes two processor boards 1 each having a function as an information processing apparatus. 1 , 1 2 Are connected by the bridge board 2.
[0019]
As shown in FIG. 1 , 1 2 Are a CPU 11, a main memory 14, a local bus connected to the CPU 11, and a north bridge 12 for controlling information communication of a memory bus connected to the main memory 14, a system bus connected to the north bridge 12, and a PCI bus connected to the PCI device 15. And a south bridge 13 for controlling information communication of an LPC / ISA bus to which an LPC / ISA device such as a BIOS ROM 16 or a Super I / O 17 is connected, a connector 20 for connecting to the bridge board 2, and an I2C bus. And an SROM 19, which is a non-volatile memory storing accessible device configuration information, and a sensor 18 connected to an I2C bus for monitoring device status such as temperature and power supply voltage.
[0020]
The local bus is a bus for communicating between the CPU 11 and the north bridge 12, and when a fatal failure occurs in the local bus, the processor board 1 1 , 1 2 Operation freezes (stops).
[0021]
The memory bus is a bus for communicating between a memory controller (not shown) in the north bridge 12 and the main memory 14. If an uncorrectable fault occurs in the memory bus, the processor board 1 1 , 1 2 Operation may stop.
[0022]
The system bus is a bus for communicating between the north bridge 12 and the south bridge 13. Processor board 1 even if a catastrophic failure occurs in the system bus 1 , 1 2 Operation stops.
[0023]
The CPU 11 includes a CPU error notification circuit 112 for notifying an error of a process by the CPU 11 to the outside, and an SMI receiving circuit (SMI) 111 for receiving an SMI interrupt issued by the south bridge 13. When a system management interrupt (System Management Interrupt) is received, it operates in an SMM (System Management Mode).
[0024]
The main memory 14 is a storage device for storing programs and data necessary for the processing of the CPU 11, and includes a memory error notification circuit (SPD) 141 for notifying a failure that has occurred during memory access to the outside.
[0025]
The north bridge 12 controls information communication of a local bus and a memory bus, and also has a function as a system controller and a memory controller. Further, it has a north bridge error notification circuit (NB Error) 121 for detecting a fault that has occurred on the local bus and the memory bus and notifying the CPU 11 of the fault detection result.
[0026]
The south bridge 13 includes an SMI issuing circuit 131 that issues an SMI interrupt, an error factor registration circuit (Error registration circuit) 132 that stores failure occurrence information, and a timer that is used to determine whether the failure has been recovered. A circuit (Timer) 133, a south bridge error notifying circuit (SM Error) 134 for detecting a fault occurring on the PCI bus and the LPC / ISA bus, and a GPIO circuit 135 for sending a bus switching signal to the bridge board 2. , An I2C bus master 136 for controlling the communication of the I2C bus.
[0027]
A PCI device 15 having a PCI bus architecture is connected to the PCI bus. The LPC / ISA bus includes, for example, an LPC / ISA device having an LPC / ISA bus architecture such as a Super I / O 17 for controlling a power supply sequence and the like and a BIOS ROM 16 which is a ROM storing a system BIOS code. Connected.
[0028]
The CPU 11 can execute the code of the SMI handler used at the time of SMM by copying the ROM code stored in the BIOS ROM 16 to the main memory 14. In the present embodiment, as shown in FIG. 1 , 1 2 The CPU error notification circuit 112, the memory error notification circuit 141, the north bridge error notification circuit 121, the south bridge error notification circuit 134, the PCI device 15, the Super I / O 17, the sensor 18, and the SROM 19 are connected to the I2C bus, respectively. A program for collecting fault information is stored in the ROM. The CPU 11 executes processing according to a program (SMI handler) in the BIOS ROM to acquire necessary failure information from each device of the failed processor board via the I2C bus.
[0029]
As shown in FIG. 2, the bridge board 2 is a processor board 1 1 , 1 2 Connector 21 for connecting to 1 , 21 2 A bus switching circuit 22 for switching the connection of the I2C bus, and a processor board 1 1 , 1 2 AND circuit 23 that generates a failure notification signal (SMI IN signal) indicating that a failure has occurred for each time 1 , 23 2 This is a configuration having:
[0030]
The bridge board 2 has a processor board 1 1 , 1 2 An SMI OUT signal (= SMI interrupt) indicating that a fault has occurred and a Presence signal, which is a level signal indicating that a processor board is connected, are output to each processor board 1. 1 , 1 2 Respectively.
[0031]
The SMI OUT signal and the Presense signal are output from the AND circuit 23. 1 , 23 2 , And the SMI IN signal, which is the result of their logical product, is transmitted to all processor boards except the own board. By using the logical product of the SMI OUT signal and the Presence signal in this way, it is possible to prevent erroneous detection of a failure due to the processor board not being connected.
[0032]
The bus switching circuit 22 is connected to each processor board 1 1 , 1 2 Is a circuit that relays between the I2C bus master 136 and the I2C bus to which each device is connected. When no failure occurs (or when failure recovery is possible), each processor board 1 1 , 1 2 Is set as a path (path {circle around (1)} in FIG. 3) for returning the I2C bus from the board to its own board. If recovery is impossible due to a catastrophic failure, the path (path {circle around (2)} in FIG. 3) connecting the I2C bus of the failed processor board and the I2C bus of the processor board serving as the failure diagnosis device is connected. Set.
[0033]
In FIG. 1, the CPU error notification circuit 112, the memory error notification circuit 141, the north bridge error notification circuit 121, the south bridge error notification circuit 134, the PCI device 15, the Super I / O 17, and the sensor 18 are provided to the I2C bus master 136. , SROM 19, and connector 20 are directly connected to each other. However, an actual I2C bus to which each I2C bus device is connected is connected via a bridge board 2 ((1) or (1) in FIG. 2). 2) The path is connected to the I2C bus master 136. In such a configuration, the I2C bus master of the processor board serving as the failure diagnostic device is connected to the I2C bus device of the failed processor board while the I2C bus master 136 of the failed processor board is completely disconnected. Can be.
[0034]
The I2C bus of the failed processor board and the I2C bus master 136 of the processor board serving as the failure diagnosis device are continuously connected while the bus switching signal is asserted. In the present embodiment, the two processor boards 1 1 , 1 2 When connecting between the I2C buses, since one processor board always stops operating due to a fatal failure, exclusive processing of the bus switching signal is unnecessary.
[0035]
Next, the operation of the information processing system according to the first embodiment will be described.
[0036]
In the configuration shown in FIG. 1 It is assumed that a fatal failure has occurred in the CPU 11, local bus, system bus, and memory bus.
[0037]
At this time, an error cause in the south bridge 13 from the CPU error notifying circuit (CPU Error) 112, the north bridge error notifying circuit (NB Error) 121, and the south bridge error notifying circuit (SM Error) 134 that is monitoring the failure. An alert signal indicating the occurrence of a fault is stored in a registration circuit (Error registration circuit) 132.
[0038]
When the Alert signal is stored in the error factor registration circuit 132, an SMI interrupt is issued from the SMI issuing circuit 131 of the south bridge 13 to the SMI receiving circuit (SMI) 111 of the CPU 11.
[0039]
The SMI interrupt is sent to the processor board 1 where the system failure has occurred. 1 Not only the CPU 11 but also the SMI OUT signal, which is input to the bridge board 2 and the SMI IN signal 2 Will also be notified. The SMI IN signal is sent to the processor board 1 as a fault notification for each processor board. 2 Is stored in the error factor registration circuit 132. It should be noted that the failure notification due to the SMI interrupt is sent as a level signal, and the processor board 1 1 When all of the faults that have occurred in the above are recovered within a predetermined time, they are automatically cleared.
[0040]
If the failure is not fatal, the processor board 1 1 CPU 11 starts the SMM and collects failure information from each I2C bus device in the own board via the I2C bus according to the SMI handler provided by the system BIOS.
[0041]
On the other hand, if the failure is fatal, the processor board 1 1 CPU 11 cannot start SMM, and as a result, cannot collect its own error information. In such a case, the processor board 1 connected via the bridge board 2 2 With processor board 1 1 Collect fault information.
[0042]
Processor board 1 2 Is the processor board 1 1 When the failure notification issued from is stored, first, it is checked whether or not the failure notification is cleared within a predetermined time by using a timer circuit 133 in the south bridge 13.
[0043]
Processor board 1 within a predetermined time 1 If the failure notification is not cleared, a Timer interrupt (Timeout) occurs and the processor board 1 2 Via the SMI receiving circuit 111. Processor board 1 2 CPU 11 starts the SMM, controls the GPIO circuit 135 in accordance with the SMI handler provided by the system BIOS, asserts a Timeout factor, and sends out a bus switching signal.
[0044]
The bus switching signal is input to the bus switching circuit 22 of the bridge board 2. The bus switching circuit 22 that has received the bus switching signal normally switches the I2C bus connected to the path indicated by (1) in FIG. 3 to the path indicated by (2) in FIG. Thereby, the processor board 1 2 I2C bus master 136 and processor board 1 1 Connected to each I2C bus device, and the processor board 1 2 I2C bus master 136 to processor board 1 1 Can access each I2C bus device.
[0045]
Processor board 1 2 CPU 11 controls its own I2C bus master 136 according to the SMI handler provided by the system BIOS, and 1 The failure information is acquired from each I2C bus device. If necessary, the failed processor board 1 1 Access to the Super I / O 17 of the processor board 1 1 Reset / DC OFF (reset operation for turning off and on the power). Also, processor board 1 2 Board 1 collected using the notification function (LAN / COM) 1 Notify the trouble information to the outside. After that, it controls the GPIO circuit 135 to deassert the bus switching signal.
[0046]
Upon detecting the deassertion of the bus switching signal, the bus switching circuit 22 switches the I2C bus to the path indicated by (1) in FIG. 2 The I2C bus master 136 and each I2C bus device are connected again.
[0047]
(Second embodiment)
FIG. 4 is a block diagram showing the configuration of the second embodiment of the information processing system of the present invention.
[0048]
The information processing system according to the second embodiment has a configuration in which three or more processor boards having a function as an information processing device are connected by a bridge board 3.
[0049]
As shown in FIG. 4, the bridge board 3 of the present embodiment has a connector 31 for connecting to three processor boards. 1 , 31 2 , 31 3 A bus switching circuit 32 for switching the connection of the I2C bus, and an AND circuit 33 for generating a signal (SMI IN signal) indicating that a failure has occurred for each processor board 1 , 33 2 , 33 3 This is a configuration having: Although FIG. 4 shows an example in which three processor boards are connected to a bridge board, an I2C bus from each processor board is connected to the bus switching circuit 32 in the same manner as in FIG. By providing the connector 31 and the AND circuit 33 respectively, it is possible to cope with a configuration in which four or more processor boards are connected.
[0050]
As in the first embodiment, the bridge board 3 has an SMI OUT signal (= SMI interrupt) indicating that a failure has occurred in the processor board and a Presence which is a level signal indicating that the processor board is connected. A signal is input from each processor board. The SMI OUT signal and the Presense signal are output from the AND circuit 33. 1 ~ 33 3 , And the SMI IN signal as a result of the logical product thereof is sent out to all processor boards except the own board via the bus switching circuit 32.
[0051]
As in the first embodiment, the bus switching circuit 32 sets the I2C buses from the processor boards in which a failure has not occurred (or the failure can be recovered) to paths for returning the I2C buses to their own boards. In addition, an I2C bus from a processor board that cannot be recovered due to a catastrophic failure is set as a path connected to the I2C bus of the processor board serving as a failure diagnosis device.
[0052]
When the bus switching circuit 32 of the present embodiment sends the SMI IN signal to each processor board, the bus switching circuit 32 of the plurality of information processing apparatuses, the processor board that first returned the bus switching signal in response to the SMI IN signal is connected to the failure diagnosis device. And connects the I2C bus of the processor board to the I2C bus of the processor board that sent the SMI OUT signal. In this case, the bus switching circuit 32 executes an exclusion process for invalidating the reception of a bus switching signal issued from another processor board after the completion of the path switching of the I2C bus. Such exclusive processing may be realized by, for example, a logic circuit combining various logic gates.
[0053]
Note that the bus switching circuit may select a predetermined processor board as a failure diagnosis device for a processor board in which a failure has occurred. In this case, since the switching path of the I2C bus is limited, the configuration of the bus switching circuit can be expected to be simplified. However, in such a configuration, if a failure occurs in the selected processor board, failure information may not be collected even though there is another normal processor board. Therefore, it is preferable to select the processor board that first returns the bus switching signal in response to the SMI IN signal as the failure diagnosis apparatus as in the present embodiment.
[0054]
The configuration and operation of the processor board, and the operation of collecting fault information from the processor board in which a fault has occurred after the I2C bus switching is the same as in the first embodiment, and a description thereof will be omitted.
[0055]
Therefore, according to the present invention, even if a catastrophic failure occurs and an operation becomes inoperable in an information processing system including a plurality of information processing apparatuses, economical operation is possible without using an expensive micro diagnostic device. Fault information can be acquired in a space-saving and low-cost manner, and a reset operation of the power supply and fault information can be notified to the outside based on the information. Therefore, a highly reliable information processing system can be constructed at low cost.
[0056]
In particular, according to the present invention, it is necessary to create new software for fault detection because a BIOS program always provided on the processor board is used and fault information of internal devices is collected via a general-purpose bus originally provided on the processor board. Absent. Further, if the bridge board of the present invention is provided in advance, even if an additional processor board is added, it is possible to cope with a slight change, so that an information processing system with high processing capability and high reliability is increased in cost. Can be obtained without inviting.
[0057]
【The invention's effect】
Since the present invention is configured as described above, the following effects can be obtained.
[0058]
The bridge board that received the interrupt indicating the occurrence of the fault sends a fault notification signal indicating the occurrence of the fault to all information processing apparatuses except the information processing apparatus that issued the interrupt, and the fault indicating the occurrence of the fault from the bridge board. The information processing device that has received the notification signal sends a bus switching signal to the bridge board for accessing the general-purpose bus of the information processing device in which the failure has occurred, if the failure notification signal is not cleared after a predetermined time has elapsed, The general-purpose bus of the information processing device that issued the interrupt on the bridge board is connected to the general-purpose bus of the information processing device selected as the failure diagnosis device, and the information processing device selected as the failure diagnosis device causes a failure according to the BIOS program. By collecting fault information from the internal device of the information processing device where the error occurred via the general-purpose bus, Without using a valence micro diagnostic apparatus, economic (space, cost) it is possible to acquire the fault information. Therefore, it is possible to notify the power reset operation and the failure information to the outside based on the failure information, and it is possible to construct a highly reliable information processing system at low cost.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a first embodiment of an information processing system according to the present invention.
FIG. 2 is a block diagram illustrating a configuration of a bridge board illustrated in FIG. 1;
FIG. 3 is a schematic diagram showing a state of a bus switching operation by the information processing system shown in FIG. 1;
FIG. 4 is a block diagram showing a configuration of a second embodiment of the information processing system of the present invention.
[Explanation of symbols]
1 1 , 1 2 Processor board
2 Bridge board
11 CPU
12 North Bridge
13 South Bridge
14 Main memory
15 PCI bus
16 BIOS ROM
17 Super I / O
18 Sensor
19 SROM
20, 21 1 , 21 2 , 31 1 ~ 31 3 connector
22, 32 bus switching circuit
23 1 , 23 2 , 33 1 ~ 33 3 AND circuit
111 SMI receiving circuit
112 CPU error notification circuit
121 North Bridge Error Notification Circuit
131 SMI issuing circuit
132 Error cause registration circuit
133 Timer circuit
134 South Bridge Error Notification Circuit
135 GPIO circuit
136 I2C bus master
141 Memory error notification circuit

Claims (6)

内部デバイスからそれぞれの装置情報を収集するための汎用バスを備えた複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の2つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備えたブリッジボードと、
を有する情報処理システムで発生した致命的な障害の情報を収集するための障害検出方法であって、
前記情報処理装置で障害が発生すると、該情報処理装置から障害の発生を示す割り込みを前記ブリッジボードに送出し、
前記ブリッジボードで前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に障害の発生を示す障害通知信号をそれぞれ送出し、
前記ブリッジボードから障害の発生を示す障害通知信号を受け取った情報処理装置は、所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した情報処理装置の前記汎用バスにアクセスするためのバス切替信号をブリッジボードに送出し、
前記ブリッジボードは、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続し、
前記故障診断装置に選定された情報処理装置はBIOSのプログラムにしたがって前記障害が発生した情報処理装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する障害検出方法。
A plurality of information processing apparatuses having a general-purpose bus for collecting respective apparatus information from internal devices,
A bridge board including a bus switching circuit for connecting the general-purpose buses of any two information processing devices among the plurality of information processing devices;
A failure detection method for collecting information on a fatal failure that has occurred in an information processing system having
When a failure occurs in the information processing device, the information processing device sends an interrupt indicating the occurrence of the failure to the bridge board,
When the bridge board receives the interrupt, each of the information processing devices except the information processing device that issued the interrupt sends a fault notification signal indicating the occurrence of a fault,
The information processing device that has received the fault notification signal indicating the occurrence of the fault from the bridge board accesses the general-purpose bus of the faulty information processing device if the fault notification signal is not cleared after a predetermined time has elapsed. Bus switch signal to the bridge board,
The bridge board connects the general-purpose bus of the information processing device selected as the failure diagnosis device by transmitting the bus switching signal and the general-purpose bus of the information processing device that has issued the interrupt,
A failure detection method in which the information processing devices selected as the failure diagnosis devices collect failure information from internal devices of the failed information processing device via the general-purpose bus according to a BIOS program.
前記ブリッジボードは、前記障害通知信号を送出すると、前記複数の情報処理装置のうち、最初に前記バス切替信号を返送した情報処理装置の前記汎用バスと前記割り込みを発行した情報処理装置の前記汎用バスとを接続し、他の情報処理装置から発行されるバス切替信号の受付けを無効にする請求項1記載の障害検出方法。The bridge board, when transmitting the failure notification signal, among the plurality of information processing devices, the general-purpose bus of the information processing device that first returned the bus switching signal and the general-purpose bus of the information processing device that issued the interrupt. 2. The failure detection method according to claim 1, wherein the failure detection method is connected to a bus to invalidate reception of a bus switching signal issued from another information processing device. 前記情報処理装置から前記ブリッジボードに接続されているか否かを判定するためのPresence信号をそれぞれ送出し、
前記ブリッジボードは、前記割り込みと前記Presence信号の論理積結果を前記障害通知信号として送出する請求項1または2記載の障害検出方法。
Each of the information processing devices sends a Presence signal for determining whether or not the information processing device is connected to the bridge board,
The failure detection method according to claim 1, wherein the bridge board sends a logical product of the interrupt and the Presence signal as the failure notification signal.
内部デバイスからそれぞれの装置情報を収集するための汎用バスを備え、障害が発生すると該障害の発生を示す割り込みを外部に送出し、外部から障害の発生を示す障害通知信号を受け取ると所定の時間経過後に該障害通知信号がクリアされない場合に、障害が発生した装置の前記汎用バスにアクセスするためのバス切替信号を外部に送出すると共に、BIOSのプログラムにしたがって該装置の内部デバイスから前記汎用バスを介してそれぞれ障害情報を収集する複数の情報処理装置と、
前記複数の情報処理装置のうち、任意の2つの情報処理装置の前記汎用バス間を接続するためのバス切替回路を備え、前記割り込みを受け取ると、該割り込みを発行した情報処理装置を除く全ての情報処理装置に前記障害通知信号をそれぞれ送出し、前記割り込みを発行した情報処理装置の前記汎用バスと前記バス切替信号を送出することで故障診断装置に選定された情報処理装置の前記汎用バスとを接続するブリッジボードと、
を有する情報処理システム。
A general-purpose bus for collecting device information from internal devices is provided. When a fault occurs, an interrupt indicating the occurrence of the fault is sent to the outside, and when a fault notification signal indicating the occurrence of the fault is received from the outside, a predetermined time period If the failure notification signal is not cleared after the elapse, a bus switching signal for accessing the general-purpose bus of the failed device is sent to the outside, and the general-purpose bus is transmitted from an internal device of the device according to a BIOS program. A plurality of information processing devices each collecting failure information via
The information processing apparatus further includes a bus switching circuit for connecting the general-purpose buses of any two of the information processing apparatuses, and when the interrupt is received, all of the information processing apparatuses except the information processing apparatus that has issued the interrupt are provided. The general-purpose bus of the information processing device selected as the fault diagnosis device by transmitting the failure notification signal to the information processing device and transmitting the bus switching signal to the general-purpose bus of the information processing device that has issued the interrupt. A bridge board to connect
Information processing system having
前記ブリッジボードは、
前記障害通知信号を送出すると、前記複数の情報処理装置のうち、最初に前記バス切替信号を返送した情報処理装置の前記汎用バスと前記割り込みを発行した情報処理装置の前記汎用バスとを接続し、他の情報処理装置から発行されるバス切替信号の受付けを無効にする請求項4記載の情報処理システム。
The bridge board,
When the failure notification signal is transmitted, among the plurality of information processing devices, the general-purpose bus of the information processing device that first returns the bus switching signal is connected to the general-purpose bus of the information processing device that has issued the interrupt. 5. The information processing system according to claim 4, wherein the reception of a bus switching signal issued from another information processing apparatus is invalidated.
前記情報処理装置は、
自装置が前記ブリッジボードに接続されているか否かを判定するためのPresence信号を送出し、
前記ブリッジボードは、
前記割り込みと前記Presence信号の論理積結果を前記障害通知信号として送出する請求項4または5記載の情報処理システム。
The information processing device,
Sending a Presence signal for determining whether or not the own device is connected to the bridge board;
The bridge board,
6. The information processing system according to claim 4, wherein a logical product of the interrupt and the Presence signal is transmitted as the failure notification signal.
JP2003143214A 2003-05-21 2003-05-21 Fault detection method and information processing system Expired - Fee Related JP3838992B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003143214A JP3838992B2 (en) 2003-05-21 2003-05-21 Fault detection method and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003143214A JP3838992B2 (en) 2003-05-21 2003-05-21 Fault detection method and information processing system

Publications (2)

Publication Number Publication Date
JP2004348335A true JP2004348335A (en) 2004-12-09
JP3838992B2 JP3838992B2 (en) 2006-10-25

Family

ID=33531062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003143214A Expired - Fee Related JP3838992B2 (en) 2003-05-21 2003-05-21 Fault detection method and information processing system

Country Status (1)

Country Link
JP (1) JP3838992B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116642A (en) * 2007-11-07 2009-05-28 Nec Corp Method and program for recovering from pci bus fault
JP2009252006A (en) * 2008-04-08 2009-10-29 Nec Computertechno Ltd Log management system and method in computer system
JP2010231340A (en) * 2009-03-26 2010-10-14 Hitachi Ltd Computer and failure processing method for the same
JP2015056042A (en) * 2013-09-12 2015-03-23 日本電気株式会社 Cluster system, information processing apparatus, cluster system control method, and program
JP2018022405A (en) * 2016-08-05 2018-02-08 富士通株式会社 Control apparatus, storage device, and control program
JP2021128396A (en) * 2020-02-12 2021-09-02 富士通クライアントコンピューティング株式会社 Information processing system, information processing device, and program

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116642A (en) * 2007-11-07 2009-05-28 Nec Corp Method and program for recovering from pci bus fault
JP4513852B2 (en) * 2007-11-07 2010-07-28 日本電気株式会社 PCI bus failure recovery method and program
US8024619B2 (en) 2007-11-07 2011-09-20 Nec Corporation Method for recovering from PCI bus fault, recording medium and computer
JP2009252006A (en) * 2008-04-08 2009-10-29 Nec Computertechno Ltd Log management system and method in computer system
JP2010231340A (en) * 2009-03-26 2010-10-14 Hitachi Ltd Computer and failure processing method for the same
US8122285B2 (en) 2009-03-26 2012-02-21 Hitachi, Ltd. Arrangements detecting reset PCI express bus in PCI express path, and disabling use of PCI express device
US8365012B2 (en) 2009-03-26 2013-01-29 Hitachi, Ltd. Arrangements detecting reset PCI express bus in PCI express path, and disabling use of PCI express device
JP2015056042A (en) * 2013-09-12 2015-03-23 日本電気株式会社 Cluster system, information processing apparatus, cluster system control method, and program
JP2018022405A (en) * 2016-08-05 2018-02-08 富士通株式会社 Control apparatus, storage device, and control program
JP2021128396A (en) * 2020-02-12 2021-09-02 富士通クライアントコンピューティング株式会社 Information processing system, information processing device, and program

Also Published As

Publication number Publication date
JP3838992B2 (en) 2006-10-25

Similar Documents

Publication Publication Date Title
US6311296B1 (en) Bus management card for use in a system for bus monitoring
US5933614A (en) Isolation of PCI and EISA masters by masking control and interrupt lines
US6742139B1 (en) Service processor reset/reload
US5864653A (en) PCI hot spare capability for failed components
US6070253A (en) Computer diagnostic board that provides system monitoring and permits remote terminal access
US7594144B2 (en) Handling fatal computer hardware errors
US5907689A (en) Master-target based arbitration priority
JPH10143387A (en) Computer system with fault diagnostic function
CN100375960C (en) Method and apparatus for regulating input/output fault
JPH0651802A (en) Programmable controller having backup function
JPH11149433A (en) Defect reporting system using local area network and its method
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
JP3595033B2 (en) Highly reliable computer system
WO2013101140A1 (en) Early fabric error forwarding
JP4655718B2 (en) Computer system and control method thereof
CN114610551A (en) Method for realizing dual-computer hot standby system based on FPGA fault detection
JP3838992B2 (en) Fault detection method and information processing system
US7430691B2 (en) Method, system, and product for providing extended error handling capability in host bridges
JP2008176477A (en) Computer system
US11360839B1 (en) Systems and methods for storing error data from a crash dump in a computer system
JP2956849B2 (en) Data processing system
US11221926B2 (en) Information processing system and information processing apparatus
Hansen et al. The 3B20D Processor & DMERT operating systems: Fault detection and recovery
JP2004013723A (en) Device and method for fault recovery of information processing system adopted cluster configuration using shared memory
JPH11120154A (en) Device and method for access control in computer system

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060801

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S633 Written request for registration of reclamation of name

Free format text: JAPANESE INTERMEDIATE CODE: R313633

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090811

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100811

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120811

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130811

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees