JP2012128697A

JP2012128697A - 情報処理装置

Info

Publication number: JP2012128697A
Application number: JP2010280003A
Authority: JP
Inventors: Motoi Nishijima; 基西嶋; Takashi Nishiyama; 隆西山; Takashi Aoyagi; 隆青柳
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2010-12-16
Filing date: 2010-12-16
Publication date: 2012-07-05
Also published as: US20120159241A1; EP2535817A1; EP2535817B1; EP2466467B1; EP2466467A1

Abstract

【課題】
プロセッサ及びチップセットの接続形態の制約を満たすように設計を行うと、プロセッサ縮退を行えない場合がある。
【解決手段】
複数のCPUとBIOS ROMとの間に、CPUとBIOS ROMとの接続を制御する経路切り替え機能を設ける。あるCPUで障害が発生したら、障害の発生していないCPUとBIOS ROMとを接続する経路を決定する。次に、決定した経路情報に基づき、経路を切り替える。
【選択図】図１

Description

本発明は、情報処理装置に関し、特に、複数のマイクロプロセッサを有する情報処理装置の縮退制御技術に関する。

従来、複数のプロセッサを有するマルチプロセッサ方式の情報処理装置において、特定のプロセッサ上でシステムの継続動作が困難となるような致命的なエラーが発生した場合、（１）システムが再起動できなくなり継続運用が不可能になる、または、（２）システムの再起動により継続運転は可能であるが前回エラーの発生したマイクロプロセッサを継続動作させる可能性があるため、再度同一現象によるシステムダウンが発生する、という問題があった。

特許文献１には、複数のプロセッサを持つ情報処理装置において、その情報処理装置の可用性を高める技術として、「プロセッサ縮退機能」が開示されている。また、特許文献２には、障害が発生したプロセッサへの電力の供給を停止することで、正常な他のプロセッサに影響を及ぼすことなく、プロセッサの縮退を行う技術が開示されている。

特開２０００−１２２９８６号公報特開１９９９−５３３２９号公報

従来のプロセッサ縮退に関する技術は、複数のプロセッサを同一のプロセッサバス上に接続し、プロセッサバスを介して信号のやり取りが行われることを、想定している。

近年のプロセッサでは、従来のI/Oブリッジがプロセッサ内に内蔵されるという新しい取り組みが行われている。例えば、Ｉｎｔｅｌ社Ｘｅｏｎ３４００番台などのプロセッサ及びチップセットが知られている。

このようなプロセッサ及びチップセットを採用し、プロセッサ縮退機能をサポートするためには、種々の制約を考慮する必要がある。例えば、プロセッサ及びチップセットの接続形態の制約を満たすように設計を行うと、プロセッサ縮退を行えない場合がある。

例として、マルチプロセッサ方式の情報処理装置の主要部品の接続形態を示したシステムブロック図を用いて、説明する。

図４の情報処理装置100-3は、プロセッサ0(1000)、プロセッサ1(1001)を備える。これらのプロセッサ1000、1001は、メモリ制御機能を有し、メモリインターフェース1002を介してDIMMスロット1003に接続される。また、各プロセッサ1000、1001は、I/O制御機能を有し、PCI-Express 1004を介してI/Oスロット 1005に接続される。さらに各プロセッサ1000、1001は、DIMMエラー、I/Oエラー、内部演算エラーなどの障害が発生した場合に、エラー検出信号を出力するエラー検出機能を有している。

これらのプロセッサ1000、1001は、プロセッサ−プロセッサ間リンク1006を介して相互接続することで、プロセッサ間におけるデータの送受信が行える構成としている。また、プロセッサ0(1000)には、サウスブリッジI/F 1007を介してサウスブリッジ1008を接続している。サウスブリッジ1008には、I/Oインターフェース1011を介して、ビデオデバイスやＬＡＮデバイス及びストレージデバイスといった入出力装置（図示を省略）や、シリアルポートなどのレガシーI/Oデバイスといったサーバ装置において標準的に必要となる標準I/Oデバイス 1012が、接続されている。また、サウスブリッジ1008は、ROM I/F 1009を介してBIOS ROM 1010に接続されている。BIOS ROM 1010は、サーバ装置の初期化時において、プロセッサ0(1000)より読み出され、サーバ装置の初期化処理に必要となる命令が実行される。

なお、上記サウスブリッジ1008及び標準I/Oデバイス1012及びBISO ROM 1010は、プロセッサ及びチップセットの制約により、情報処理装置100-3内に複数接続されることは許されない。このため、プロセッサ1(1001)のサウスブリッジI/F 1007は未接続とするか、異なる他のデバイスを接続することが一般的である。

また、ここで言うプロセッサとは、プロセッサチップとしての物理的なデバイスの個数を指し、近年主流であるマルチコアプロセッサであっても1個とみなす。また、本例においてプロセッサ及び、DIMMスロット、I/Oスロットの数は、この限りでなくとも構わない。

一方、情報処理装置100-3の管理部1013は、プロセッサ0(1000)及びプロセッサ1(1001)とそれぞれ接続されたエラー検出信号1015a、1015bの情報を格納する障害検出部1014と、障害検出部1014に格納された情報に基づいて、プロセッサ0及びプロセッサ1とそれぞれ接続されたプロセッサ縮退制御信号1017a,1017bを出力することで、任意のプロセッサの縮退制御を行う縮退制御部1016を備えて構成する。

このように構成された図４に示す情報処理装置100-3において、プロセッサ0(1000)に致命的な障害が発生し、その他のプロセッサは障害が発生していない場合を、考える。管理部1013は、障害検出部1014の情報に基づき、縮退制御部1016よりプロセッサ縮退制御信号1017aを出力することで、プロセッサ0(1000)を縮退可能である。しかしながら、プロセッサ0(1000)を縮退した場合においても、サウスブリッジ1008及びBIOS ROM 1010へのアクセスはプロセッサ0(1000)を介して行う必要があるため、プロセッサ0(1000)が縮退している間はサウスブリッジ1008及びBIOS ROM 1010へのアクセスは不可能となる。その結果、プロセッサ0(1000)を交換するまでの間、情報処理装置100-3を起動することができないという問題が生じる。

上記課題を解決するために、本発明に係る情報処理装置は、複数の演算部と第一の記憶部（例えばBIOS ROM)との間に、演算部と第一の記憶部との接続を制御する経路切り替え機能を設ける。ある演算部で障害が発生したら、障害の発生していない別の演算部と第一の記憶部とを接続するように、経路切り替え機能が経路を切り替える。

本発明によれば、複数のプロセッサを有するマルチプロセッサ方式の情報処理装置において、プロセッサ及びチップセットの制約によりBIOS ROMへのアクセスは、特定のプロセッサを介して接続された経路を介して行われるプラットフォームであっても、別のプロセッサを介して接続された経路を介してBIOS ROMへのアクセスを可能とすることができることから、プロセッサ縮退機能を提供することが可能であり情報処理装置の可用性を向上する。

以上のことにより、例えばエラーが発生したプロセッサとサウスブリッジが接続された構成においても、エラーが発生したプロセッサを縮退したうえで、サウスブリッジの接続先を正常な他のプロセッサと切り替えることで、プロセッサ及びチップセットの制約に依存せず、プロセッサ縮退機能を提供可能となる。

実施例１の情報処理装置のブロック図。実施例１の縮退制御のフローチャート。実施例１における経路切り替え部の接続経路の設定情報テーブル。従来の情報処理装置。実施例２の情報処理装置のブロック図。実施例２の縮退制御のフローチャート。実施例２における縮退制御の設定情報テーブル。実施例２における縮退するプロセッサとサウスブリッジI/F接続経路の設定情報テーブル。実施例２の経路制御スイッチの詳細ブロック図。

以下、本発明を適用した情報処理装置について、図面を参照して説明する。

図１は本発明を適用した情報処理装置100-1のブロック図である。なお、図４と同一の符号が付された箇所は同一の部品または同一の機能を指し、既に説明した図４に示された同一の符号を付された構成及び、同一の機能を有する部分についての説明は省略する。

図１に示す情報処理装置100-1において、図４に示す従来の情報処理装置100-3との違いは、情報処理装置100-1内に経路切り替え部1018を設けたことである。経路切り替え部1018は、経路制御部1022、送受信部0(1019)、送受信部1(1020)、送受信部2(1021)を有する。

経路切り換え部1018では、プロセッサ0(1000)に接続されるサウスブリッジI/F 1007が送受信部0(1019)と接続され、プロセッサ1(1001)に接続されるサウスブリッジI/F 1007が送受信部１(1020)と接続され、サウスブリッジ1008に接続されるサウスブリッジI/F 1007が送受信部2(1021) と接続されている。

経路制御部1022は、各送受信部1019〜1021とそれぞれ電気的に接続され、内部信号1023を送受信する。また、経路切り替え部1018は、経路制御信号1024の情報を基に、各内部信号1023の接続先を変更する。これにより、経路切り替え部1018は、送受信部2(1021)を介して接続されたサウスブリッジ1008を、送受信部0(1019)を介して接続されたプロセッサ0(1000)又は、送受信部1(1020)を介して接続されたプロセッサ1(1001)の、何れか一方と接続する。

なお、経路切り替え部1018は、例えば具体的な構成として、サウスブリッジI/F 1007の電気特性がPCI-Expressに準拠している場合、PCI-Expressに対応したスイッチ機能を備えたシグナルコンディショナー素子を用いた構成により実現可能である。

また、2入力(以上)、1出力(以上)の切り替えが可能なスイッチデバイス素子を、サウスブリッジ I/F 1007の電気特性を満足するように選定し、各送受信部1019〜1021に配置して構成することで実現しても良い。

管理部1013は、縮退制御部1016、障害検出部1014、経路決定部1025を有する。経路決定部1025は、経路切り替え部1018と電気的に接続され、経路制御信号1024を送信する。障害検出部1014は、サウスブリッジ1008から出力されるシステムリセット信号1026を受信し、情報処理装置100-1のリセット状態を監視する。ここで言うリセット状態とは、管理部1013を除く情報処理装置100-1の各デバイス（即ちリセット対象）に、リセットがかかった状態である。

なお、障害検出部1014、経路決定部1025及び縮退制御部1016は、図示を省略しているが電気的に接続している。経路決定部1025は、障害検出部1014に格納された情報に基づいて経路制御信号1024の出力を制御し、サウスブリッジ1008の接続先の切り替えを行う。同様に、縮退制御部1016は、障害検出部1014に格納された情報に基づいて、任意のプロセッサ1000〜1001に対して、縮退制御を行う。なお、プロセッサの縮退制御を行う手段は特に限定されるものではなく、従来公知の手段を用いてもよい。

また、管理部1013の経路決定部1025、縮退制御部1016及び障害検出部1014はそれぞれ内部にレジスタを持っており、それらに格納された情報は、例えばバックアップ電源としてバッテリを設けて、情報処理装置100-1の電源が切られた場合においても、不揮発な情報となるように構成している。

次に、プロセッサ縮退の流れを、図１及び図２を用いて説明する。

まず、プロセッサ0(1000)、プロセッサ1(1001)の内プロセッサ0(1000)にエラーが発生したとする。

この時、プロセッサ0(1000)からは、エラー検出信号1015aが障害検出部1014に通知される。障害検出部1014は、エラー検出信号1015aを受信し、プロセッサ0(1000)に障害が発生したことを検出する。(図２のS101)
ここでプロセッサ0(1000)はエラー検出信号を出力した後、所定のエラー処理の実行を行うか、障害の程度によっては所定の命令を実行できずに発生するタイムアウト処理により、サウスブリッジ1008からシステムリセット信号1026を制御して、情報処理装置100-1の再起動を行う。(図２のS102)
障害検出部1014は、システムリセット信号1026のアサート（信号の電圧レベルの変化）を検出し、経路決定部1025及び縮退制御部1016にプロセッサ0(1000)の障害発生の通知を行う。(図２のS103)
経路決定部1025は、障害検出部1014からのプロセッサ0(1000)の障害発生の通知をもとに、経路制御信号1024を経路制御部1022へ出力し、サウスブリッジ1008とプロセッサ1(1001)とがサウスブリッジI/F 1007で接続されるように、経路切り替え部1018を設定する。（図２のS104）なお、上記設定は、図３に示す各プロセッサ1000、1001の障害発生の有無の状態と、経路決定部1025におけるサウスブリッジ1008の接続経路の設定情報テーブルにより、決定する。

一方、縮退制御部1016は、プロセッサ0(1000)の障害発生の通知をもとに、縮退制御信号1017aを、障害が発生したプロセッサ0(1000)へ出力する。（図２のS105）
縮退制御信号1017aの受信により、プロセッサ0(1000)は縮退する。そして、論理的または電気的にプロセッサ0(1000)を搭載していない状態と等価となった情報処理装置100-1は、経路切り替え部1018によりサウスブリッジ1008と接続されたプロセッサ1(1001)を用いて、BIOS ROM 1010にアクセスし、情報処理装置100-1を起動する。（図２のS106）。

以上により、本実施の形態によれば、経路切り替え部1018がエラーの発生していないプロセッサとサウスブリッジ1008とを接続し、縮退制御部1016がエラーの発生したプロセッサの縮退を行うので、プロセッサ及びチップセットの制約によりBIOS ROM 1010へのアクセスは特定のプロセッサを介して接続された経路を介して行われるプラットフォームであっても、エラーの発生した任意のプロセッサを縮退して情報処理装置100-1を起動し、計算機としての動作を再開することが出来る。

実施例２では、１つのシャーシ（筐体）内に、サーバコンピュータとして動作することが可能に構成されたサーバモジュールが複数搭載可能な情報処理装置100-2に、本発明を適用した例を説明する。

図５は実施例２における情報処理装置100-2のブロック図である。図１及び図４と同一の符号が付された箇所は同一の部品または同一の機能を指し、既に説明した図１及び図４に示された同一の符号を付された構成及び、同一の機能を有する部分についての説明は省略する。

情報処理装置100-2は、サーバモジュール200〜2n（n=02,03…）を搭載する。サーバモジュール200〜2nは、プロセッサ(1000、1001)、ＤＩＭＭスロット(1003)、Ｉ／Ｏスロット(1005)、等が搭載され、サーバコンピュータとして動作することが可能に構成されている。

また、図示を省略しているが、サーバモジュール2nは、サーバモジュール200,201と同一構成である。

更に、サーバモジュール200〜2nは、電源や各種信号を伝送するバックプレーン400を介して、装置全体の情報を集約し管理する装置管理モジュール500及び経路切り替えスイッチモジュール600と接続されている。また、サーバモジュール200〜2nは、図示は省略しているが電源ユニットやLAN、Fiber Channelといった情報処理装置100-2の運用にあわせた各種スイッチモジュールとも接続されている。

図５に示す実施例２の情報処理装置100-2において、図1に示す実施例１の情報処理装置100-1との違いは、プロセッサ0(1000)と接続されるサウスブリッジI/F (200a〜2na）、プロセッサ1(1001)と接続されるサウスブリッジI/F(200b〜2nb）、及びサウスブリッジ1008と接続されるサウスブリッジI/F (200c〜2nc)を、バックプレーン400を介して経路切り替えスイッチモジュール600に接続していることである。

管理部1013は、障害管理部300、障害検出部1014、縮退制御部1016を有する。

障害検出部1014は、サーバモジュール200〜2ｎにおける所定の初期化処理が完了し、システムの起動が完了したことを通知するブート完了信号1027を、サウスブリッジ1008から受信する。障害検出部1014は、各プロセッサの障害状態と共に、サーバモジュール200〜2nが正常に起動したか否かを、監視する。

障害管理部300は、装置管理モジュール500内の障害情報収集部501に対し、バックプレーン400を介してサーバモジュール制御信号301〜3nを出力する。サーバモジュール上の各プロセッサの障害発生の有無は、サーバモジュール制御信号301〜3nを介して障害情報収集部501に通知される。

装置管理モジュール500は、障害情報収集部501と電気的に接続された経路決定部502を有する。経路決定部502は、障害情報収集部501の情報に基づき、経路切り替えスイッチモジュール600内の経路制御部601に対し、バックプレーン400を介して経路制御信号503を出力する。

経路切り替えスイッチモジュール600は、経路制御部601と電気的に接続された経路制御スイッチ602を有する。経路切り替えスイッチモジュール600は、経路決定部502から経路制御部601に対して設定されたサウスブリッジI/F接続経路の情報に基づき、プロセッサ0,1に接続されたサウスブリッジI/Fとサウスブリッジ1008に接続されたサウスブリッジI/Fとの接続を行う。

ここで、経路制御スイッチ602の内部は、全てのポート（700a〜7nc）が任意の組み合わせで接続できるようになっている。サウスブリッジI/F (200a〜2na、200b〜2nb、200c〜2nc)は、任意のサーバモジュール200〜2nが有する任意の１プロセッサと、任意のサーバモジュール200〜2nが有するサウスブリッジ1008とを、接続することが可能である。なお、実施例２では、情報処理装置100-2に搭載されたサーバモジュールの内、偶数番目とその次の番号のサーバモジュールがペアとなり、後者は前者に障害が発生した場合の待機モジュールとして構成して運用を行うものとした。

さて、このように構成された情報処理装置100-2において、サーバモジュール200〜2n自身が有するプロセッサ0(1000)、プロセッサ1(1001)の何れか一方に障害が発生し、他方が正常な場合のプロセッサ縮退方法は、実施例１に記載した通りである。

これに対し、ここでは、サーバモジュール200内のプロセッサ0(1000)、プロセッサ1(1001)の何れか一方もしくは双方に障害が発生し、サーバモジュール 200の正常起動ができなかった場合、サウスブリッジ00(1008)の接続先プロセッサを、別のサーバモジュール201におけるプロセッサ0（1000）に切り替える例について、図５及び図６を用いて説明する。なお、初期状態におけるサーバモジュール200内のプロセッサ0,1は、正常に動作しており、縮退していない。また、サーバモジュール201のプロセッサ0,1は、待機状態として縮退している。また、サウスブリッジ00(1008)は、サーバモジュール200内のプロセッサ0(1000)に接続されている。

サーバモジュール200の通常のシステム起動処理または実施例１に基づいたプロセッサ縮退処理実施による再起動処理において、障害検出部1014は、システムリセット信号1026のアサートを検出後、ブート完了信号1027の所定の時間内での出力有無について、監視を行う。（図６のS201）
ブート完了信号が出力された場合、サーバモジュール200は正常にブートが完了しており、処理は終了となる。

一方、何らかの障害によりブート完了信号1027が出力されない場合、サーバモジュール200内の障害管理部300は、サーバモジュール200がシステムの起動に失敗したことと、次回起動時におけるプロセッサの縮退情報とを、サーバモジュール制御信号301を介して、装置管理モジュール500内の障害情報収集部501へ通知する。なお、次回縮退プロセッサは、現在の縮退プロセッサの情報を基に決定する。（図６のS202）
図７は、プロセッサの縮退ルールを定めたテーブルである。縮退プロセッサの情報として、図７に示すテーブルを用いてもよいし、図７に示すテーブルを使用せずにプロセッサの障害情報から次回縮退プロセッサを決定してもよい。なお、図７のテーブルは管理部1013内に保存される。

サーバモジュール200は、所定のエラー処理の実行を行うか、障害の程度によっては所定の命令を実行できずに発生するタイムアウト処理により、サウスブリッジ00(1008)からシステムリセット信号1026を制御して、サーバモジュール200の再起動を行う。（図６のS203）
障害検出部1014は、システムリセット信号1026のアサートを検出し、サーバモジュール制御信号301を介して障害情報収集部501へ、システムが再起動されたことを通知する。（図６のS204）
システムが再起動されたことを通知された装置管理モジュール500は、サーバモジュール制御信号302を介して、サーバモジュール201内の障害管理部300に、システムが再起動されたことを通知する。（図６のS205）
システム再起動時、サーバモジュール200内の縮退制御部1016は、縮退制御信号1017a、1017bを出力し、図７に従って所定のプロセッサの縮退制御を行う。同様に、サーバモジュール201内の縮退制御部1016は、縮退制御信号1017a、1017bを出力し、図7に従って所定のプロセッサの縮退制御を行う。（図６のS206）
また、サーバモジュール201は、サーバモジュール制御信号302を介して、現在のプロセッサ縮退情報を障害情報収集部501へ通知する。（図６のS207）
次に、経路決定部502は、障害情報収集部501の持つ各サーバモジュールのプロセッサ縮退情報を基に、例えば図８に示すサウスブリッジ接続先プロセッサを定めたテーブル経路接続情報に記載された接続となるよう、接続経路情報及び経路切り替え指示を含んだ経路制御信号503を出力し、経路制御部601に経路切り替えの指示をする。（図６のS208）
なお、図８に示すテーブルを用いてもよいし、図８に示すテーブルを使用せずにプロセッサの障害情報からサウスブリッジ接続先プロセッサを決定してもよい。また、図８のテーブルは経路決定部502内に保存される。

この説明では、サウスブリッジ00(1008)の接続先であるサーバモジュール200のプロセッサ0(1000)を、サーバモジュール201のプロセッサ0(1000)に切り替える例を、説明する。

なお、これから説明する切り替えの切り替え後の状態は、サーバモジュール200の両プロセッサ(1000, 1001)及びサーバモジュール201のプロセッサ1(1001)が縮退した状態であり、図８の状態3に該当する。

ここで、経路制御部601は、経路制御スイッチ602を設定し、サウスブリッジI/Fの接続先を切り替える。（図６のS209）
具体的な経路切り替えを、図９に示す経路制御スイッチ602の詳細図を用いて説明する。

経路制御スイッチ602は、送受信部700a、700b、700c〜7na、7nb、7nc及び接続切り替え部603を具備する。各送受信部700a、700b、700c〜7na、7nb、7ncには、それぞれ各サーバモジュール200〜2nからサウスブリッジI/F 200a、200b、200c〜2na、2nb、2ncが接続されている。また、各送受信部700a、700b、700c〜7na、7nb、7ncは、接続切り替え部603と電気的に接続され、内部信号1023を送受信する。接続切り替え部603は、サウスブリッジI/F 200cを介してサウスブリッジ00(1008)と接続された送受信部700cと、サウスブリッジI/F 201aを介してサーバモジュール201のプロセッサ0 (1000)と接続された送受信部701aとを、接続する。また、送受信部700a、700b、701b、701cは未接続とする。

なお、経路制御スイッチ602は、サウスブリッジI/F 200a、200b、200c〜2na、2nb、2nc の電気的特性がPCI-Expressに準拠している場合、PCI-Expressに対応したスイッチを用いた構成により実現可能である。

そして、経路切り替えスイッチモジュール600により、サーバモジュール201の所定のプロセッサと接続されたサウスブリッジ00(1008)を介して、BIOS ROM 1010へアクセスしてサーバモジュール200を起動する。

このようにして、サーバモジュール200の各プロセッサを縮退し、待機モジュールであるサーバモジュール201のプロセッサを使用することにより、システムの起動が可能である。（図６のS210）
なお、本実施例ではサーバモジュール200及び201の組み合わせを用いて説明したが、他の組み合わせにおいても同様にしてサウスブリッジ接続先のプロセッサを変更することが可能である。

以上により、本実施例の形態によれば、１つのシャーシ（筐体）内にサーバモジュールが複数搭載可能な情報処理装置100-2において、経路切り替えスイッチモジュール600が、バックプレーン400により接続された任意のサーバモジュール上の任意の１プロセッサと、任意のサーバモジュール上のサウスブリッジとを接続することが可能であり、あるサーバモジュールのプロセッサまたはサウスブリッジに障害が発生した場合には、サウスブリッジI/F 200a、200b、200c〜2na、2nb、2ncの接続先を別のサーバモジュールのデバイスへと変更することにより、システムを再起動し、計算機としての動作を再開することが出来る。

また、実施例２の情報装置では、BIOS ROM 1010へのアクセスを行うプロセッサを任意のサーバモジュールの任意のプロセッサとしているが、本発明の適用にあたりこの限りではなく、例えば、サウスブリッジ1008をサーバモジュール200、201間で切り替えることにより障害部位の切り離しを行ってもよい。更には、実施例２の情報装置では、複数のサーバモジュールを待機モジュールとして運用を行っているが、本発明の適用にあたりこの限りではなく、例えば複数のサーバモジュールでSMP構成による運用を行う環境においてサウスブリッジと接続されたプロセッサの縮退処理を行う場合に実施しても良い。

なお、本発明は上記した実施例に限定されるものではなく、さまざまな変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

また、上記した各構成、機能処理手段は、それらの一部又は全部を例えば集積回路で設計するなどによりハードウェアで実現しても良いし、プロセッサが各機能を実現するプログラムを解釈して実行することによりソフトウェアで実現してもよい。

1000〜1001：プロセッサ、1002：メモリインターフェース、1003：DIMMスロット、1004：PCI Express、1005：I/Oスロット、1006：プロセッサ−プロセッサ間リンク、1007：サウスブリッジI/F、1008：サウスブリッジ、1009：ROM I/F、1010：BIOS ROM、1011：I/Oインターフェース、1012：標準I/Oデバイス、1013：情報処理装置管理部、1014：障害検出部、1015a,1015b：エラー検出信号、1016：縮退制御部、1017a,1017b：縮退制御信号、1018：経路切り替え部、1019〜1021：送受信部、1022：経路制御部、1023：内部信号、1024：経路制御信号、1025：経路決定部、1026：システムリセット信号、1027：ブート完了信号、200〜2n：サーバモジュール、200a〜2nc：サウスブリッジI/F、300：障害管理部、301〜3n：サーバモジュール制御信号、400：バックプレーン、500：装置管理モジュール、501：障害情報収集部、502：経路決定部、503：経路制御信号、600：経路切り替えスイッチモジュール、601：経路制御部、602：経路制御スイッチ、603：接続切り替え部、700a〜7nc：送受信部

Claims

複数の演算部を備える情報処理装置において、
BIOSを有する第一の記憶部と、
前記複数の演算部と前記第一の記憶部との間で、何れか１つの演算部と前記第一の記憶部とを接続する経路切り替え部と、
前記演算部で発生した障害を検出する障害検出部、前記障害検出部に格納された情報に基づいて障害の発生した演算部の縮退制御を行う縮退制御部、及び前記経路切り換え部の経路を制御する経路決定部を有する管理部とを備え、
前記管理部は、前記演算部で障害が発生すると、
障害の発生していない演算部と前記第一の記憶部とを接続する経路を決定し、
前記決定した経路情報を前記経路切り換え部に送信し、
前記経路切り換え部は、前記管理部から送信された経路情報に基づき、経路を切り替えることを特徴とする情報処理装置。
前記第一の記憶部は、BIOS ROMであることを特徴とする請求項１記載の情報処理装置。
前記経路切り替え部は、サウスブリッジを介して前記第一の記憶部と接続することを特徴とする請求項１記載の情報処理装置。
前記経路切り替え部は、前記複数の演算部とインターフェースを介して接続する複数の第一の送受信部と、前記サウスブリッジとインターフェースを介して接続する第二の送受信部と、経路制御部とを有し、
前記経路制御部は、
前記管理部から送信された前記経路情報を受信し、
前記受信した経路情報に基づき、障害が発生していない演算部とインターフェースを介して接続する第一の送受信部と、前記第二の送受信部とを接続することを特徴とする請求項３記載の情報処理装置。
複数のサーバモジュールが、バックプレーンを介して、装置管理モジュール及び経路切り替えスイッチモジュールと接続され、
前記サーバモジュールは、複数の演算部及びサウスブリッジを有し、
前記経路切り替えスイッチモジュールは、前記バックプレーンにより接続された任意の前記サーバモジュール上の何れか１つの演算部と、前記バックプレーンにより接続された任意の前記サーバモジュール上の前記サウスブリッジとを接続することを特徴とする情報処理装置。
前記サーバモジュールは、管理部と、複数の演算部と、サウスブリッジと、前記サウスブリッジと接続された第一の記憶部とを有し、
前記管理部は、前記サーバモジュール内の前記演算部で発生した障害を検出する障害検出部と、前記障害検出部に格納された情報に基づいて障害が発生した演算部の縮退制御を行う縮退制御部と、前記サーバモジュール内における各演算部の障害発生の有無を前記装置管理モジュールに通知する障害管理部とを有し、
前記演算部の障害が発生したあるサーバモジュールは、前記障害が発生した演算部の縮退情報を装置管理モジュールに送信し、前記障害が発生した演算部の縮退制御をし、
前記演算部の障害が発生していない他のサーバモジュールは、障害が発生していない演算部の縮退情報を装置管理モジュールに送信し、
前記装置管理モジュールは、前記サーバモジュールから受信した前記縮退情報を基に、接続経路情報及び経路切り替え指示を含んだ経路制御信号を前記経路切り替えスイッチモジュールに送信し、
前記経路切り替えスイッチモジュールは、前記装置管理モジュールから受信した前記経路制御信号に基づき、障害が発生したあるサーバモジュールのサウスブリッジと、他のサーバモジュールのうち何れか１つの演算部とを、接続することを特徴とする請求項５記載の情報処理装置。
前記経路切り替えスイッチモジュールは、
前記複数の演算部と前記バックプレーンを介して接続する複数の第一の送受信部と、前記サウスブリッジと前記バックプレーンを介して接続する第二の送受信部と、接続切り替え部とを有し、
前記装置管理モジュールから受信した前記障害が発生したあるサーバモジュールの演算部の縮退制御及び前記装置管理モジュールから受信した前記障害が発生していない他のサーバモジュールの演算部の縮退情報に基づき、前記障害が発生していないサーバモジュールの演算部とバックプレーンを介して接続する第一の送受信部と、前記障害が発生したサーバモジュールのサウスブリッジとバックプレーンを介して接続する前記第二の送受信部とを、接続することを特徴とする請求項６記載の情報処理装置。