JP2012128697A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2012128697A
JP2012128697A JP2010280003A JP2010280003A JP2012128697A JP 2012128697 A JP2012128697 A JP 2012128697A JP 2010280003 A JP2010280003 A JP 2010280003A JP 2010280003 A JP2010280003 A JP 2010280003A JP 2012128697 A JP2012128697 A JP 2012128697A
Authority
JP
Japan
Prior art keywords
unit
failure
occurred
processor
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010280003A
Other languages
English (en)
Other versions
JP2012128697A5 (ja
Inventor
Motoi Nishijima
基 西嶋
Takashi Nishiyama
隆 西山
Takashi Aoyagi
隆 青柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010280003A priority Critical patent/JP2012128697A/ja
Priority to EP11193336.2A priority patent/EP2466467B1/en
Priority to EP12182536.8A priority patent/EP2535817B1/en
Priority to US13/327,190 priority patent/US20120159241A1/en
Publication of JP2012128697A publication Critical patent/JP2012128697A/ja
Publication of JP2012128697A5 publication Critical patent/JP2012128697A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1423Reconfiguring to eliminate the error by reconfiguration of paths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

【課題】
プロセッサ及びチップセットの接続形態の制約を満たすように設計を行うと、プロセッサ縮退を行えない場合がある。
【解決手段】
複数のCPUとBIOS ROMとの間に、CPUとBIOS ROMとの接続を制御する経路切り替え機能を設ける。あるCPUで障害が発生したら、障害の発生していないCPUとBIOS ROMとを接続する経路を決定する。次に、決定した経路情報に基づき、経路を切り替える。
【選択図】 図1

Description

本発明は、情報処理装置に関し、特に、複数のマイクロプロセッサを有する情報処理装置の縮退制御技術に関する。
従来、複数のプロセッサを有するマルチプロセッサ方式の情報処理装置において、特定のプロセッサ上でシステムの継続動作が困難となるような致命的なエラーが発生した場合、(1)システムが再起動できなくなり継続運用が不可能になる、または、(2)システムの再起動により継続運転は可能であるが前回エラーの発生したマイクロプロセッサを継続動作させる可能性があるため、再度同一現象によるシステムダウンが発生する、という問題があった。
特許文献1には、複数のプロセッサを持つ情報処理装置において、その情報処理装置の可用性を高める技術として、「プロセッサ縮退機能」が開示されている。また、特許文献2には、障害が発生したプロセッサへの電力の供給を停止することで、正常な他のプロセッサに影響を及ぼすことなく、プロセッサの縮退を行う技術が開示されている。
特開2000−122986号公報 特開1999−53329号公報
従来のプロセッサ縮退に関する技術は、複数のプロセッサを同一のプロセッサバス上に接続し、プロセッサバスを介して信号のやり取りが行われることを、想定している。
近年のプロセッサでは、従来のI/Oブリッジがプロセッサ内に内蔵されるという新しい取り組みが行われている。例えば、Intel社 Xeon3400番台などのプロセッサ及びチップセットが知られている。
このようなプロセッサ及びチップセットを採用し、プロセッサ縮退機能をサポートするためには、種々の制約を考慮する必要がある。例えば、プロセッサ及びチップセットの接続形態の制約を満たすように設計を行うと、プロセッサ縮退を行えない場合がある。
例として、マルチプロセッサ方式の情報処理装置の主要部品の接続形態を示したシステムブロック図を用いて、説明する。
図4の情報処理装置100-3は、プロセッサ0(1000)、プロセッサ1(1001)を備える。これらのプロセッサ1000、1001は、メモリ制御機能を有し、メモリインターフェース1002を介してDIMMスロット1003に接続される。また、各プロセッサ1000、1001は、I/O制御機能を有し、PCI-Express 1004を介してI/Oスロット 1005に接続される。さらに各プロセッサ1000、1001は、DIMMエラー、I/Oエラー、内部演算エラーなどの障害が発生した場合に、エラー検出信号を出力するエラー検出機能を有している。
これらのプロセッサ1000、1001は、プロセッサ−プロセッサ間リンク1006を介して相互接続することで、プロセッサ間におけるデータの送受信が行える構成としている。また、プロセッサ0(1000)には、サウスブリッジI/F 1007を介してサウスブリッジ1008を接続している。サウスブリッジ1008には、I/Oインターフェース1011を介して、ビデオデバイスやLANデバイス及びストレージデバイスといった入出力装置(図示を省略)や、シリアルポートなどのレガシーI/Oデバイスといったサーバ装置において標準的に必要となる標準I/Oデバイス 1012が、接続されている。また、サウスブリッジ1008は、ROM I/F 1009を介してBIOS ROM 1010に接続されている。BIOS ROM 1010は、サーバ装置の初期化時において、プロセッサ0(1000)より読み出され、サーバ装置の初期化処理に必要となる命令が実行される。
なお、上記サウスブリッジ1008及び標準I/Oデバイス1012及びBISO ROM 1010は、プロセッサ及びチップセットの制約により、情報処理装置100-3内に複数接続されることは許されない。このため、プロセッサ1(1001)のサウスブリッジI/F 1007は未接続とするか、異なる他のデバイスを接続することが一般的である。
また、ここで言うプロセッサとは、プロセッサチップとしての物理的なデバイスの個数を指し、近年主流であるマルチコアプロセッサであっても1個とみなす。また、本例においてプロセッサ及び、DIMMスロット、I/Oスロットの数は、この限りでなくとも構わない。
一方、情報処理装置100-3の管理部1013は、プロセッサ0(1000)及びプロセッサ1(1001)とそれぞれ接続されたエラー検出信号1015a、1015bの情報を格納する障害検出部1014と、障害検出部1014に格納された情報に基づいて、プロセッサ0及びプロセッサ1とそれぞれ接続されたプロセッサ縮退制御信号1017a,1017bを出力することで、任意のプロセッサの縮退制御を行う縮退制御部1016を備えて構成する。
このように構成された図4に示す情報処理装置100-3において、プロセッサ0(1000)に致命的な障害が発生し、その他のプロセッサは障害が発生していない場合を、考える。管理部1013は、障害検出部1014の情報に基づき、縮退制御部1016よりプロセッサ縮退制御信号1017aを出力することで、プロセッサ0(1000)を縮退可能である。しかしながら、プロセッサ0(1000)を縮退した場合においても、サウスブリッジ1008及びBIOS ROM 1010へのアクセスはプロセッサ0(1000)を介して行う必要があるため、プロセッサ0(1000)が縮退している間はサウスブリッジ1008及びBIOS ROM 1010へのアクセスは不可能となる。その結果、プロセッサ0(1000)を交換するまでの間、情報処理装置100-3を起動することができないという問題が生じる。
上記課題を解決するために、本発明に係る情報処理装置は、複数の演算部と第一の記憶部(例えばBIOS ROM)との間に、演算部と第一の記憶部との接続を制御する経路切り替え機能を設ける。ある演算部で障害が発生したら、障害の発生していない別の演算部と第一の記憶部とを接続するように、経路切り替え機能が経路を切り替える。
本発明によれば、複数のプロセッサを有するマルチプロセッサ方式の情報処理装置において、プロセッサ及びチップセットの制約によりBIOS ROMへのアクセスは、特定のプロセッサを介して接続された経路を介して行われるプラットフォームであっても、別のプロセッサを介して接続された経路を介してBIOS ROMへのアクセスを可能とすることができることから、プロセッサ縮退機能を提供することが可能であり情報処理装置の可用性を向上する。
以上のことにより、例えばエラーが発生したプロセッサとサウスブリッジが接続された構成においても、エラーが発生したプロセッサを縮退したうえで、サウスブリッジの接続先を正常な他のプロセッサと切り替えることで、プロセッサ及びチップセットの制約に依存せず、プロセッサ縮退機能を提供可能となる。
実施例1の情報処理装置のブロック図。 実施例1の縮退制御のフローチャート。 実施例1における経路切り替え部の接続経路の設定情報テーブル。 従来の情報処理装置。 実施例2の情報処理装置のブロック図。 実施例2の縮退制御のフローチャート。 実施例2における縮退制御の設定情報テーブル。 実施例2における縮退するプロセッサとサウスブリッジI/F接続経路の設定情報テーブル。 実施例2の経路制御スイッチの詳細ブロック図。
以下、本発明を適用した情報処理装置について、図面を参照して説明する。
図1は本発明を適用した情報処理装置100-1のブロック図である。なお、図4と同一の符号が付された箇所は同一の部品または同一の機能を指し、既に説明した図4に示された同一の符号を付された構成及び、同一の機能を有する部分についての説明は省略する。
図1に示す情報処理装置100-1において、図4に示す従来の情報処理装置100-3との違いは、情報処理装置100-1内に経路切り替え部1018を設けたことである。経路切り替え部1018は、経路制御部1022、送受信部0(1019)、送受信部1(1020)、送受信部2(1021)を有する。
経路切り換え部1018では、プロセッサ0(1000)に接続されるサウスブリッジI/F 1007が送受信部0(1019)と接続され、プロセッサ1(1001)に接続されるサウスブリッジI/F 1007が送受信部1(1020)と接続され、サウスブリッジ1008に接続されるサウスブリッジI/F 1007が送受信部2(1021) と接続されている。
経路制御部1022は、各送受信部1019〜1021とそれぞれ電気的に接続され、内部信号1023を送受信する。また、経路切り替え部1018は、経路制御信号1024の情報を基に、各内部信号1023の接続先を変更する。これにより、経路切り替え部1018は、送受信部2(1021)を介して接続されたサウスブリッジ1008を、送受信部0(1019)を介して接続されたプロセッサ0(1000)又は、送受信部1(1020)を介して接続されたプロセッサ1(1001)の、何れか一方と接続する。
なお、経路切り替え部1018は、例えば具体的な構成として、サウスブリッジI/F 1007の電気特性がPCI-Expressに準拠している場合、PCI-Expressに対応したスイッチ機能を備えたシグナルコンディショナー素子を用いた構成により実現可能である。
また、2入力(以上)、1出力(以上)の切り替えが可能なスイッチデバイス素子を、サウスブリッジ I/F 1007の電気特性を満足するように選定し、各送受信部1019〜1021に配置して構成することで実現しても良い。
管理部1013は、縮退制御部1016、障害検出部1014、経路決定部1025を有する。経路決定部1025は、経路切り替え部1018と電気的に接続され、経路制御信号1024を送信する。障害検出部1014は、サウスブリッジ1008から出力されるシステムリセット信号1026を受信し、情報処理装置100-1のリセット状態を監視する。ここで言うリセット状態とは、管理部1013を除く情報処理装置100-1の各デバイス(即ちリセット対象)に、リセットがかかった状態である。
なお、障害検出部1014、経路決定部1025及び縮退制御部1016は、図示を省略しているが電気的に接続している。経路決定部1025は、障害検出部1014に格納された情報に基づいて経路制御信号1024の出力を制御し、サウスブリッジ1008の接続先の切り替えを行う。同様に、縮退制御部1016は、障害検出部1014に格納された情報に基づいて、任意のプロセッサ1000〜1001に対して、縮退制御を行う。なお、プロセッサの縮退制御を行う手段は特に限定されるものではなく、従来公知の手段を用いてもよい。
また、管理部1013の経路決定部1025、縮退制御部1016及び障害検出部1014はそれぞれ内部にレジスタを持っており、それらに格納された情報は、例えばバックアップ電源としてバッテリを設けて、情報処理装置100-1の電源が切られた場合においても、不揮発な情報となるように構成している。
次に、プロセッサ縮退の流れを、図1及び図2を用いて説明する。
まず、プロセッサ0(1000)、プロセッサ1(1001)の内プロセッサ0(1000)にエラーが発生したとする。
この時、プロセッサ0(1000)からは、エラー検出信号1015aが障害検出部1014に通知される。障害検出部1014は、エラー検出信号1015aを受信し、プロセッサ0(1000)に障害が発生したことを検出する。(図2のS101)
ここでプロセッサ0(1000)はエラー検出信号を出力した後、所定のエラー処理の実行を行うか、障害の程度によっては所定の命令を実行できずに発生するタイムアウト処理により、サウスブリッジ1008からシステムリセット信号1026を制御して、情報処理装置100-1の再起動を行う。(図2のS102)
障害検出部1014は、システムリセット信号1026のアサート(信号の電圧レベルの変化)を検出し、経路決定部1025及び縮退制御部1016にプロセッサ0(1000)の障害発生の通知を行う。(図2のS103)
経路決定部1025は、障害検出部1014からのプロセッサ0(1000)の障害発生の通知をもとに、経路制御信号1024を経路制御部1022へ出力し、サウスブリッジ1008とプロセッサ1(1001)とがサウスブリッジI/F 1007で接続されるように、経路切り替え部1018を設定する。(図2のS104)なお、上記設定は、図3に示す各プロセッサ1000、1001の障害発生の有無の状態と、経路決定部1025におけるサウスブリッジ1008の接続経路の設定情報テーブルにより、決定する。
一方、縮退制御部1016は、プロセッサ0(1000)の障害発生の通知をもとに、縮退制御信号1017aを、障害が発生したプロセッサ0(1000)へ出力する。(図2のS105)
縮退制御信号1017aの受信により、プロセッサ0(1000)は縮退する。そして、論理的または電気的にプロセッサ0(1000)を搭載していない状態と等価となった情報処理装置100-1は、経路切り替え部1018によりサウスブリッジ1008と接続されたプロセッサ1(1001)を用いて、BIOS ROM 1010にアクセスし、情報処理装置100-1を起動する。(図2のS106)。
以上により、本実施の形態によれば、経路切り替え部1018がエラーの発生していないプロセッサとサウスブリッジ1008とを接続し、縮退制御部1016がエラーの発生したプロセッサの縮退を行うので、プロセッサ及びチップセットの制約によりBIOS ROM 1010へのアクセスは特定のプロセッサを介して接続された経路を介して行われるプラットフォームであっても、エラーの発生した任意のプロセッサを縮退して情報処理装置100-1を起動し、計算機としての動作を再開することが出来る。
実施例2では、1つのシャーシ(筐体)内に、サーバコンピュータとして動作することが可能に構成されたサーバモジュールが複数搭載可能な情報処理装置100-2に、本発明を適用した例を説明する。
図5は実施例2における情報処理装置100-2のブロック図である。図1及び図4と同一の符号が付された箇所は同一の部品または同一の機能を指し、既に説明した図1及び図4に示された同一の符号を付された構成及び、同一の機能を有する部分についての説明は省略する。
情報処理装置100-2は、サーバモジュール200〜2n(n=02,03…)を搭載する。サーバモジュール200〜2nは、プロセッサ(1000、1001)、DIMMスロット(1003)、I/Oスロット(1005)、等が搭載され、サーバコンピュータとして動作することが可能に構成されている。
また、図示を省略しているが、サーバモジュール2nは、サーバモジュール200,201と同一構成である。
更に、サーバモジュール200〜2nは、電源や各種信号を伝送するバックプレーン400を介して、装置全体の情報を集約し管理する装置管理モジュール500及び経路切り替えスイッチモジュール600と接続されている。また、サーバモジュール200〜2nは、図示は省略しているが電源ユニットやLAN、Fiber Channelといった情報処理装置100-2の運用にあわせた各種スイッチモジュールとも接続されている。
図5に示す実施例2の情報処理装置100-2において、図1に示す実施例1の情報処理装置100-1との違いは、プロセッサ0(1000)と接続されるサウスブリッジI/F (200a〜2na)、プロセッサ1(1001)と接続されるサウスブリッジI/F(200b〜2nb)、及びサウスブリッジ1008と接続されるサウスブリッジI/F (200c〜2nc)を、バックプレーン400を介して経路切り替えスイッチモジュール600に接続していることである。
管理部1013は、障害管理部300、障害検出部1014、縮退制御部1016を有する。
障害検出部1014は、サーバモジュール200〜2nにおける所定の初期化処理が完了し、システムの起動が完了したことを通知するブート完了信号1027を、サウスブリッジ1008から受信する。障害検出部1014は、各プロセッサの障害状態と共に、サーバモジュール200〜2nが正常に起動したか否かを、監視する。
障害管理部300は、装置管理モジュール500内の障害情報収集部501に対し、バックプレーン400を介してサーバモジュール制御信号301〜3nを出力する。サーバモジュール上の各プロセッサの障害発生の有無は、サーバモジュール制御信号301〜3nを介して障害情報収集部501に通知される。
装置管理モジュール500は、障害情報収集部501と電気的に接続された経路決定部502を有する。経路決定部502は、障害情報収集部501の情報に基づき、経路切り替えスイッチモジュール600内の経路制御部601に対し、バックプレーン400を介して経路制御信号503を出力する。
経路切り替えスイッチモジュール600は、経路制御部601と電気的に接続された経路制御スイッチ602を有する。経路切り替えスイッチモジュール600は、経路決定部502から経路制御部601に対して設定されたサウスブリッジI/F接続経路の情報に基づき、プロセッサ0,1に接続されたサウスブリッジI/Fとサウスブリッジ1008に接続されたサウスブリッジI/Fとの接続を行う。
ここで、経路制御スイッチ602の内部は、全てのポート(700a〜7nc)が任意の組み合わせで接続できるようになっている。サウスブリッジI/F (200a〜2na、200b〜2nb、200c〜2nc)は、任意のサーバモジュール200〜2nが有する任意の1プロセッサと、任意のサーバモジュール200〜2nが有するサウスブリッジ1008とを、接続することが可能である。なお、実施例2では、情報処理装置100-2に搭載されたサーバモジュールの内、偶数番目とその次の番号のサーバモジュールがペアとなり、後者は前者に障害が発生した場合の待機モジュールとして構成して運用を行うものとした。
さて、このように構成された情報処理装置100-2において、サーバモジュール200〜2n自身が有するプロセッサ0(1000)、プロセッサ1(1001)の何れか一方に障害が発生し、他方が正常な場合のプロセッサ縮退方法は、実施例1に記載した通りである。
これに対し、ここでは、サーバモジュール200内のプロセッサ0(1000)、プロセッサ1(1001)の何れか一方もしくは双方に障害が発生し、サーバモジュール 200の正常起動ができなかった場合、サウスブリッジ00(1008)の接続先プロセッサを、別のサーバモジュール201におけるプロセッサ0(1000)に切り替える例について、図5及び図6を用いて説明する。なお、初期状態におけるサーバモジュール200内のプロセッサ0,1は、正常に動作しており、縮退していない。また、サーバモジュール201のプロセッサ0,1は、待機状態として縮退している。また、サウスブリッジ00(1008)は、サーバモジュール200内のプロセッサ0(1000)に接続されている。
サーバモジュール200の通常のシステム起動処理または実施例1に基づいたプロセッサ縮退処理実施による再起動処理において、障害検出部1014は、システムリセット信号1026のアサートを検出後、ブート完了信号1027の所定の時間内での出力有無について、監視を行う。(図6のS201)
ブート完了信号が出力された場合、サーバモジュール200は正常にブートが完了しており、処理は終了となる。
一方、何らかの障害によりブート完了信号1027が出力されない場合、サーバモジュール200内の障害管理部300は、サーバモジュール200がシステムの起動に失敗したことと、次回起動時におけるプロセッサの縮退情報とを、サーバモジュール制御信号301を介して、装置管理モジュール500内の障害情報収集部501へ通知する。なお、次回縮退プロセッサは、現在の縮退プロセッサの情報を基に決定する。(図6のS202)
図7は、プロセッサの縮退ルールを定めたテーブルである。縮退プロセッサの情報として、図7に示すテーブルを用いてもよいし、図7に示すテーブルを使用せずにプロセッサの障害情報から次回縮退プロセッサを決定してもよい。なお、図7のテーブルは管理部1013内に保存される。
サーバモジュール200は、所定のエラー処理の実行を行うか、障害の程度によっては所定の命令を実行できずに発生するタイムアウト処理により、サウスブリッジ00(1008)からシステムリセット信号1026を制御して、サーバモジュール200の再起動を行う。(図6のS203)
障害検出部1014は、システムリセット信号1026のアサートを検出し、サーバモジュール制御信号301を介して障害情報収集部501へ、システムが再起動されたことを通知する。(図6のS204)
システムが再起動されたことを通知された装置管理モジュール500は、サーバモジュール制御信号302を介して、サーバモジュール201内の障害管理部300に、システムが再起動されたことを通知する。(図6のS205)
システム再起動時、サーバモジュール200内の縮退制御部1016は、縮退制御信号1017a、1017bを出力し、図7に従って所定のプロセッサの縮退制御を行う。同様に、サーバモジュール201内の縮退制御部1016は、縮退制御信号1017a、1017bを出力し、図7に従って所定のプロセッサの縮退制御を行う。(図6のS206)
また、サーバモジュール201は、サーバモジュール制御信号302を介して、現在のプロセッサ縮退情報を障害情報収集部501へ通知する。(図6のS207)
次に、経路決定部502は、障害情報収集部501の持つ各サーバモジュールのプロセッサ縮退情報を基に、例えば図8に示すサウスブリッジ接続先プロセッサを定めたテーブル経路接続情報に記載された接続となるよう、接続経路情報及び経路切り替え指示を含んだ経路制御信号503を出力し、経路制御部601に経路切り替えの指示をする。(図6のS208)
なお、図8に示すテーブルを用いてもよいし、図8に示すテーブルを使用せずにプロセッサの障害情報からサウスブリッジ接続先プロセッサを決定してもよい。また、図8のテーブルは経路決定部502内に保存される。
この説明では、サウスブリッジ00(1008)の接続先であるサーバモジュール200のプロセッサ0(1000)を、サーバモジュール201のプロセッサ0(1000)に切り替える例を、説明する。
なお、これから説明する切り替えの切り替え後の状態は、サーバモジュール200の両プロセッサ(1000, 1001)及びサーバモジュール201のプロセッサ1(1001)が縮退した状態であり、図8の状態3に該当する。
ここで、経路制御部601は、経路制御スイッチ602を設定し、サウスブリッジI/Fの接続先を切り替える。(図6のS209)
具体的な経路切り替えを、図9に示す経路制御スイッチ602の詳細図を用いて説明する。
経路制御スイッチ602は、送受信部700a、700b、700c〜7na、7nb、7nc及び接続切り替え部603を具備する。各送受信部700a、700b、700c〜7na、7nb、7ncには、それぞれ各サーバモジュール200〜2nからサウスブリッジI/F 200a、200b、200c〜2na、2nb、2ncが接続されている。また、各送受信部700a、700b、700c〜7na、7nb、7ncは、接続切り替え部603と電気的に接続され、内部信号1023を送受信する。接続切り替え部603は、サウスブリッジI/F 200cを介してサウスブリッジ00(1008)と接続された送受信部700cと、サウスブリッジI/F 201aを介してサーバモジュール201のプロセッサ0 (1000)と接続された送受信部701aとを、接続する。また、送受信部700a、700b、701b、701cは未接続とする。
なお、経路制御スイッチ602は、サウスブリッジI/F 200a、200b、200c〜2na、2nb、2nc の電気的特性がPCI-Expressに準拠している場合、PCI-Expressに対応したスイッチを用いた構成により実現可能である。
そして、経路切り替えスイッチモジュール600により、サーバモジュール201の所定のプロセッサと接続されたサウスブリッジ00(1008)を介して、BIOS ROM 1010へアクセスしてサーバモジュール200を起動する。
このようにして、サーバモジュール200の各プロセッサを縮退し、待機モジュールであるサーバモジュール201のプロセッサを使用することにより、システムの起動が可能である。(図6のS210)
なお、本実施例ではサーバモジュール200及び201の組み合わせを用いて説明したが、他の組み合わせにおいても同様にしてサウスブリッジ接続先のプロセッサを変更することが可能である。
以上により、本実施例の形態によれば、1つのシャーシ(筐体)内にサーバモジュールが複数搭載可能な情報処理装置100-2において、経路切り替えスイッチモジュール600が、バックプレーン400により接続された任意のサーバモジュール上の任意の1プロセッサと、任意のサーバモジュール上のサウスブリッジとを接続することが可能であり、あるサーバモジュールのプロセッサまたはサウスブリッジに障害が発生した場合には、サウスブリッジI/F 200a、200b、200c〜2na、2nb、2ncの接続先を別のサーバモジュールのデバイスへと変更することにより、システムを再起動し、計算機としての動作を再開することが出来る。
また、実施例2の情報装置では、BIOS ROM 1010へのアクセスを行うプロセッサを任意のサーバモジュールの任意のプロセッサとしているが、本発明の適用にあたりこの限りではなく、例えば、サウスブリッジ1008をサーバモジュール200、201間で切り替えることにより障害部位の切り離しを行ってもよい。更には、実施例2の情報装置では、複数のサーバモジュールを待機モジュールとして運用を行っているが、本発明の適用にあたりこの限りではなく、例えば複数のサーバモジュールでSMP構成による運用を行う環境においてサウスブリッジと接続されたプロセッサの縮退処理を行う場合に実施しても良い。
なお、本発明は上記した実施例に限定されるものではなく、さまざまな変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、上記した各構成、機能処理手段は、それらの一部又は全部を例えば集積回路で設計するなどによりハードウェアで実現しても良いし、プロセッサが各機能を実現するプログラムを解釈して実行することによりソフトウェアで実現してもよい。
1000〜1001:プロセッサ、1002:メモリインターフェース、1003:DIMMスロット、1004:PCI Express、1005:I/Oスロット、1006:プロセッサ−プロセッサ間リンク、1007:サウスブリッジI/F、1008:サウスブリッジ、1009:ROM I/F、1010:BIOS ROM、1011:I/Oインターフェース、1012:標準I/Oデバイス、1013:情報処理装置管理部、1014:障害検出部、1015a,1015b:エラー検出信号、1016:縮退制御部、1017a,1017b:縮退制御信号、1018:経路切り替え部、1019〜1021:送受信部、1022:経路制御部、1023:内部信号、1024:経路制御信号、1025:経路決定部、1026:システムリセット信号、1027:ブート完了信号、200〜2n:サーバモジュール、200a〜2nc:サウスブリッジI/F、300:障害管理部、301〜3n:サーバモジュール制御信号、400:バックプレーン、500:装置管理モジュール、501:障害情報収集部、502:経路決定部、503:経路制御信号、600:経路切り替えスイッチモジュール、601:経路制御部、602:経路制御スイッチ、603:接続切り替え部、700a〜7nc:送受信部

Claims (7)

  1. 複数の演算部を備える情報処理装置において、
    BIOSを有する第一の記憶部と、
    前記複数の演算部と前記第一の記憶部との間で、何れか1つの演算部と前記第一の記憶部とを接続する経路切り替え部と、
    前記演算部で発生した障害を検出する障害検出部、前記障害検出部に格納された情報に基づいて障害の発生した演算部の縮退制御を行う縮退制御部、及び前記経路切り換え部の経路を制御する経路決定部を有する管理部とを備え、
    前記管理部は、前記演算部で障害が発生すると、
    障害の発生していない演算部と前記第一の記憶部とを接続する経路を決定し、
    前記決定した経路情報を前記経路切り換え部に送信し、
    前記経路切り換え部は、前記管理部から送信された経路情報に基づき、経路を切り替えることを特徴とする情報処理装置。
  2. 前記第一の記憶部は、BIOS ROMであることを特徴とする請求項1記載の情報処理装置。
  3. 前記経路切り替え部は、サウスブリッジを介して前記第一の記憶部と接続することを特徴とする請求項1記載の情報処理装置。
  4. 前記経路切り替え部は、前記複数の演算部とインターフェースを介して接続する複数の第一の送受信部と、前記サウスブリッジとインターフェースを介して接続する第二の送受信部と、経路制御部とを有し、
    前記経路制御部は、
    前記管理部から送信された前記経路情報を受信し、
    前記受信した経路情報に基づき、障害が発生していない演算部とインターフェースを介して接続する第一の送受信部と、前記第二の送受信部とを接続することを特徴とする請求項3記載の情報処理装置。
  5. 複数のサーバモジュールが、バックプレーンを介して、装置管理モジュール及び経路切り替えスイッチモジュールと接続され、
    前記サーバモジュールは、複数の演算部及びサウスブリッジを有し、
    前記経路切り替えスイッチモジュールは、前記バックプレーンにより接続された任意の前記サーバモジュール上の何れか1つの演算部と、前記バックプレーンにより接続された任意の前記サーバモジュール上の前記サウスブリッジとを接続することを特徴とする情報処理装置。
  6. 前記サーバモジュールは、管理部と、複数の演算部と、サウスブリッジと、前記サウスブリッジと接続された第一の記憶部とを有し、
    前記管理部は、前記サーバモジュール内の前記演算部で発生した障害を検出する障害検出部と、前記障害検出部に格納された情報に基づいて障害が発生した演算部の縮退制御を行う縮退制御部と、前記サーバモジュール内における各演算部の障害発生の有無を前記装置管理モジュールに通知する障害管理部とを有し、
    前記演算部の障害が発生したあるサーバモジュールは、前記障害が発生した演算部の縮退情報を装置管理モジュールに送信し、前記障害が発生した演算部の縮退制御をし、
    前記演算部の障害が発生していない他のサーバモジュールは、障害が発生していない演算部の縮退情報を装置管理モジュールに送信し、
    前記装置管理モジュールは、前記サーバモジュールから受信した前記縮退情報を基に、接続経路情報及び経路切り替え指示を含んだ経路制御信号を前記経路切り替えスイッチモジュールに送信し、
    前記経路切り替えスイッチモジュールは、前記装置管理モジュールから受信した前記経路制御信号に基づき、障害が発生したあるサーバモジュールのサウスブリッジと、他のサーバモジュールのうち何れか1つの演算部とを、接続することを特徴とする請求項5記載の情報処理装置。
  7. 前記経路切り替えスイッチモジュールは、
    前記複数の演算部と前記バックプレーンを介して接続する複数の第一の送受信部と、前記サウスブリッジと前記バックプレーンを介して接続する第二の送受信部と、接続切り替え部とを有し、
    前記装置管理モジュールから受信した前記障害が発生したあるサーバモジュールの演算部の縮退制御及び前記装置管理モジュールから受信した前記障害が発生していない他のサーバモジュールの演算部の縮退情報に基づき、前記障害が発生していないサーバモジュールの演算部とバックプレーンを介して接続する第一の送受信部と、前記障害が発生したサーバモジュールのサウスブリッジとバックプレーンを介して接続する前記第二の送受信部とを、接続することを特徴とする請求項6記載の情報処理装置。
JP2010280003A 2010-12-16 2010-12-16 情報処理装置 Pending JP2012128697A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010280003A JP2012128697A (ja) 2010-12-16 2010-12-16 情報処理装置
EP11193336.2A EP2466467B1 (en) 2010-12-16 2011-12-13 Information Processing System
EP12182536.8A EP2535817B1 (en) 2010-12-16 2011-12-13 Information processing system
US13/327,190 US20120159241A1 (en) 2010-12-16 2011-12-15 Information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010280003A JP2012128697A (ja) 2010-12-16 2010-12-16 情報処理装置

Publications (2)

Publication Number Publication Date
JP2012128697A true JP2012128697A (ja) 2012-07-05
JP2012128697A5 JP2012128697A5 (ja) 2013-03-14

Family

ID=45418405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010280003A Pending JP2012128697A (ja) 2010-12-16 2010-12-16 情報処理装置

Country Status (3)

Country Link
US (1) US20120159241A1 (ja)
EP (2) EP2466467B1 (ja)
JP (1) JP2012128697A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016091480A (ja) * 2014-11-11 2016-05-23 三菱電機株式会社 二重化制御システム
WO2017090164A1 (ja) * 2015-11-26 2017-06-01 三菱電機株式会社 制御装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4437560B2 (ja) * 2007-08-02 2010-03-24 ソニー株式会社 情報処理装置および方法、並びに、非接触icカードデバイス
US10491701B2 (en) * 2016-07-14 2019-11-26 Cisco Technology, Inc. Interconnect method for implementing scale-up servers
CN110799404A (zh) * 2017-04-17 2020-02-14 移动眼视力科技有限公司 包括驾驶相关系统的安全系统
US11009874B2 (en) 2017-09-14 2021-05-18 Uatc, Llc Fault-tolerant control of an autonomous vehicle with multiple control lanes
WO2019229534A2 (en) * 2018-05-28 2019-12-05 Mobileye Vision Technologies Ltd. Secure system that includes driving related systems

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06168218A (ja) * 1992-11-30 1994-06-14 Fujitsu Ltd マルチプロセッサシステム
JPH1153329A (ja) * 1997-08-05 1999-02-26 Hitachi Ltd 情報処理システム
JPH11232237A (ja) * 1998-02-16 1999-08-27 Hitachi Ltd クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
JP2000076216A (ja) * 1998-09-02 2000-03-14 Nec Corp マルチプロセッサシステム及びそのプロセッサ二重化方法並びにその制御プログラムを記録した記録媒体
JP2000122986A (ja) * 1998-10-16 2000-04-28 Hitachi Ltd マルチプロセッサシステム
JP2005507116A (ja) * 2001-09-28 2005-03-10 チヤパラル ネツトワーク ストレージ,インコーポレーテツド チャネル独立記憶制御装置アーキテクチャにおけるバス区分
JP2005149281A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
JP2006172220A (ja) * 2004-12-16 2006-06-29 Nec Corp フォールトトレラント・コンピュータシステム
JP2007219571A (ja) * 2006-02-14 2007-08-30 Hitachi Ltd 記憶制御装置及びストレージシステム
JP2009193469A (ja) * 2008-02-15 2009-08-27 Nec Corp 動的切り替え装置、動的切り替え方法、及び動的切り替えプログラム
US20090235104A1 (en) * 2000-09-27 2009-09-17 Fung Henry T System, architecture, and method for logical server and other network devices in a dynamically configurable multi-server network environment
US20090240981A1 (en) * 2008-03-24 2009-09-24 Advanced Micro Devices, Inc. Bootstrap device and methods thereof
WO2010103562A1 (ja) * 2009-03-09 2010-09-16 富士通株式会社 情報処理装置、情報処理装置の制御方法、及び情報処理装置の制御プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6971043B2 (en) * 2001-04-11 2005-11-29 Stratus Technologies Bermuda Ltd Apparatus and method for accessing a mass storage device in a fault-tolerant server
JP2003131900A (ja) * 2001-10-24 2003-05-09 Hitachi Ltd サーバシステム運用管理方式
US6874103B2 (en) * 2001-11-13 2005-03-29 Hewlett-Packard Development Company, L.P. Adapter-based recovery server option
US7389411B2 (en) * 2003-08-29 2008-06-17 Sun Microsystems, Inc. Secure transfer of host identities
US20050125557A1 (en) * 2003-12-08 2005-06-09 Dell Products L.P. Transaction transfer during a failover of a cluster controller
JP4182948B2 (ja) * 2004-12-21 2008-11-19 日本電気株式会社 フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法
EP1977635A2 (en) * 2006-01-13 2008-10-08 Sun Microsystems, Inc. Modular blade server
WO2009081737A1 (ja) * 2007-12-26 2009-07-02 Nec Corporation 縮退構成設計システムおよび方法
US7802042B2 (en) * 2007-12-28 2010-09-21 Intel Corporation Method and system for handling a management interrupt event in a multi-processor computing device
TW200947224A (en) * 2008-05-02 2009-11-16 Inventec Corp A sharing basic input output system type server device and method thereof
US8335943B2 (en) * 2009-06-22 2012-12-18 Citrix Systems, Inc. Systems and methods for stateful session failover between multi-core appliances
US9141489B2 (en) * 2009-07-09 2015-09-22 Uniloc Luxembourg S.A. Failover procedure for server system

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06168218A (ja) * 1992-11-30 1994-06-14 Fujitsu Ltd マルチプロセッサシステム
JPH1153329A (ja) * 1997-08-05 1999-02-26 Hitachi Ltd 情報処理システム
JPH11232237A (ja) * 1998-02-16 1999-08-27 Hitachi Ltd クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
JP2000076216A (ja) * 1998-09-02 2000-03-14 Nec Corp マルチプロセッサシステム及びそのプロセッサ二重化方法並びにその制御プログラムを記録した記録媒体
JP2000122986A (ja) * 1998-10-16 2000-04-28 Hitachi Ltd マルチプロセッサシステム
US20090235104A1 (en) * 2000-09-27 2009-09-17 Fung Henry T System, architecture, and method for logical server and other network devices in a dynamically configurable multi-server network environment
JP2005507116A (ja) * 2001-09-28 2005-03-10 チヤパラル ネツトワーク ストレージ,インコーポレーテツド チャネル独立記憶制御装置アーキテクチャにおけるバス区分
JP2005149281A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
JP2006172220A (ja) * 2004-12-16 2006-06-29 Nec Corp フォールトトレラント・コンピュータシステム
JP2007219571A (ja) * 2006-02-14 2007-08-30 Hitachi Ltd 記憶制御装置及びストレージシステム
JP2009193469A (ja) * 2008-02-15 2009-08-27 Nec Corp 動的切り替え装置、動的切り替え方法、及び動的切り替えプログラム
US20090240981A1 (en) * 2008-03-24 2009-09-24 Advanced Micro Devices, Inc. Bootstrap device and methods thereof
WO2010103562A1 (ja) * 2009-03-09 2010-09-16 富士通株式会社 情報処理装置、情報処理装置の制御方法、及び情報処理装置の制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016091480A (ja) * 2014-11-11 2016-05-23 三菱電機株式会社 二重化制御システム
WO2017090164A1 (ja) * 2015-11-26 2017-06-01 三菱電機株式会社 制御装置

Also Published As

Publication number Publication date
US20120159241A1 (en) 2012-06-21
EP2535817A1 (en) 2012-12-19
EP2535817B1 (en) 2014-04-02
EP2466467B1 (en) 2013-05-01
EP2466467A1 (en) 2012-06-20

Similar Documents

Publication Publication Date Title
US9582448B2 (en) Transmission apparatus and control unit
JP2012128697A (ja) 情報処理装置
US8745438B2 (en) Reducing impact of a switch failure in a switch fabric via switch cards
US8948000B2 (en) Switch fabric management
US8880938B2 (en) Reducing impact of a repair action in a switch fabric
US9195553B2 (en) Redundant system control method
US8677175B2 (en) Reducing impact of repair actions following a switch failure in a switch fabric
AU2005246990A1 (en) Fault tolerant computer system and interrupt control method for the same
JP2013097553A (ja) 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
US20110179493A1 (en) Information processing device, a hardware setting method for an information processing device and a computer readable storage medium stored its program
JP2013073289A (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
TW201137601A (en) DMI redundancy in multiple processor computer systems
US8181064B2 (en) Information processing apparatus for inhibiting instructions, saving and restoring internal information in response to abnormality in redundant processor system
JP2009237758A (ja) サーバシステム、サーバ管理方法、およびそのプログラム
US20120311223A1 (en) Information system
WO2012114498A1 (ja) 情報処理装置
JP4779948B2 (ja) サーバシステム
JP5561790B2 (ja) ハードウェア障害被疑特定装置、ハードウェア障害被疑特定方法、及びプログラム
JP5439736B2 (ja) コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム
JP2013168064A (ja) 計算機システム及び計算機システムの制御方法
Center SYSTEM REQUIREMENTS SPECIFICATION
KR20020053127A (ko) 모드전환이 적시에 신속하게 이루어지는 이중화제어시스템

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140819