JP4630023B2 - システム制御装置、システム制御方法およびシステム制御プログラム - Google Patents

システム制御装置、システム制御方法およびシステム制御プログラム Download PDF

Info

Publication number
JP4630023B2
JP4630023B2 JP2004252461A JP2004252461A JP4630023B2 JP 4630023 B2 JP4630023 B2 JP 4630023B2 JP 2004252461 A JP2004252461 A JP 2004252461A JP 2004252461 A JP2004252461 A JP 2004252461A JP 4630023 B2 JP4630023 B2 JP 4630023B2
Authority
JP
Japan
Prior art keywords
system information
bridge
device bridge
core
system control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004252461A
Other languages
English (en)
Other versions
JP2006072492A (ja
Inventor
秀英 畠守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004252461A priority Critical patent/JP4630023B2/ja
Priority to US10/998,935 priority patent/US7779293B2/en
Publication of JP2006072492A publication Critical patent/JP2006072492A/ja
Application granted granted Critical
Publication of JP4630023B2 publication Critical patent/JP4630023B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant

Description

この発明は、コンピュータシステムに含まれる複数のデバイスを制御するシステム制御装置、システム制御方法およびシステム制御プログラムに関し、特に、コアI/Oデバイスブリッジが故障した場合でも、迅速にシステムを復旧させることができるシステム制御装置、システム制御方法およびシステム制御プログラムに関する。
近年、コンピュータシステムには、デバイス間でやり取りされるデータの制御を行うべくチップセットが内蔵されている。なお、現在主流のチップセットは、非特許文献1に記載されているようにノースブリッジやサウスブリッジ(以下、サウスブリッジを運用系コアI/Oデバイスブリッジと表記する)などから構成されている。
図6は、従来のコンピュータシステムのシステム構成の一例を示すブロック図である。同図に示すように、従来のコンピュータシステムは、CPU群、メモリ群、メモリコントローラ、I/Oコントローラ、システム制御装置、運用系コアI/Oデバイスブリッジ、I/Oデバイスブリッジなどから構成され、システム制御装置が、I/Oコントローラを介して各装置を制御している。
ここで、運用系コアI/Oデバイスブリッジは、FWD(Firmware Device)、VGA(Video Graphics Array)、SLAN(システム管理用LANコントローラ)およびI/Oコントローラ間を流れるデータを制御する装置である。
また、運用系コアI/Oデバイスブリッジは、システム稼動時に必要となるBIOSやシステムの構成に係る情報をFWDに保持させ、該情報を利用してシステムを稼動させるため、コンピュータシステムに対して重要な役割を果たしている。
ASCII24、[online]、[平成16年8月5日検索]、インターネット<URL:http://ascii24.com/news/columns/10104/article/2000/06/06/619437-000.html>
しかしながら、従来のコンピュータシステムは、運用系コアI/Oデバイスブリッジを1つしか内蔵していないため、この運用系コアI/Oデバイスブリッジに異常が発生した場合には、システム全体が停止してしまい、異常の発生した運用系コアI/Oデバイスブリッジを正常な運用系コアI/Oデバイスブリッジに交換するまでシステムを再起動することが出来ず、迅速にシステムを復旧させることが出来ないという問題があった。
また、運用系コアI/Oデバイスブリッジの故障したコンピュータシステムがサーバの役割を担っている場合には、ユーザからのニーズに答えるために、迅速にシステムを復旧させる必要があるため、システム再起動の遅れは更に深刻なものとなる。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、運用系コアI/Oデバイスブリッジが故障した場合でも、迅速にシステムを復旧させることができるシステム制御装置、システム制御方法およびシステム制御プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明に係るシステム制御装置は、コンピュータシステムに含まれる複数のデバイスを制御するシステム制御装置であって、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報が更新されるごとに、該システム情報を該デバイスから取得するシステム情報取得手段と、前記システム情報取得手段が取得したシステム情報を保持するシステム情報保持手段と、前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記システム情報保持手段によって保持されたシステム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理手段とを備えたことを特徴とする。
この請求項1の発明によれば、システム制御装置は、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得し、取得したシステム情報を保持し、運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、システム情報を記憶させ、運用デバイスブリッジを代用デバイスブリッジに切り替える。
また、請求項2の発明に係るシステム制御装置は、請求項1の発明において、前記システム情報取得手段は、前記システム情報が更新されたか否かを検知する検知手段を更に備え、前記検知手段が前記システム情報の更新を検知した場合に、前記システム情報取得手段は、前記システム情報を取得することを特徴とする。
この請求項2の発明によれば、システム制御装置は、運用系デバイスブリッジの配下に接続されたデバイスに記録されるシステム情報の更新を検知した場合に、更新されたシステム情報を取得する。
また、請求項3の発明に係るシステム制御方法は、コンピュータシステムに含まれる複数のデバイスを制御するシステム制御方法であって、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報が更新されるごとに、該システム情報を該デバイスから取得するシステム情報取得工程と、前記システム情報取得工程において取得したシステム情報を記憶装置に記憶させるシステム情報記憶工程と、前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記記憶装置に記憶されたシステム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理工程とを含んだことを特徴とする。
この請求項3の発明によれば、システム制御方法は、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得し、取得したシステム情報を記憶装置に記憶させ、運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、システム情報を記憶させ、運用デバイスブリッジを代用デバイスブリッジに切り替える。
また、請求項4の発明に係るシステム制御方法は、請求項3の発明において、前記システム情報取得工程は、前記システム情報が更新されたか否かを検知する検知工程を更に備え、前記検知工程が前記システム情報の更新を検知した場合に、前記システム情報取得工程は、前記システム情報を取得することを特徴とする。
この請求項4の発明によれば、システム制御方法は、運用系デバイスブリッジの配下に接続されたデバイスに記録されるシステム情報の更新を検知した場合に、更新されたシステム情報を取得する。
また、請求項5の発明に係るシステム制御プログラムは、コンピュータシステムに含まれる複数のデバイスを制御するシステム制御プログラムであって、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報が更新されるごとに、該システム情報を該デバイスから取得するシステム情報取得手順と、前記システム情報取得手順において取得したシステム情報を記憶装置に記憶させるシステム情報記憶手順と、前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記記憶装置に記憶されたシステム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理手順と、をコンピュータに実行させることを特徴とする。
この請求項5の発明によれば、システム制御プログラムは、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得し、取得したシステム情報を記憶装置に記憶させ、運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、システム情報を記憶させ、運用デバイスブリッジを代用デバイスブリッジに切り替える。
請求項1の発明によれば、システム制御装置は、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得し、取得したシステム情報を保持し、運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、システム情報を記憶させ、運用デバイスブリッジを代用デバイスブリッジに切り替えるので、運用系コアI/Oデバイスブリッジが故障した場合でも、迅速にシステムを復旧させることができるという効果を奏する。また、請求項1の発明によれば、システム制御装置は、運用デバイスブリッジの配下に接続されたデバイスに記憶されるシステム情報が更新されるごとに、該システム情報を取得するので、運用系コアI/Oデバイスブリッジが故障した場合でも、最新のBIOSやシステム構成情報を利用してシステムを復旧させることができるという効果を奏する。
また、請求項2の発明によれば、システム制御装置は、運用系デバイスブリッジの配下に接続されたデバイスに記録されるシステム情報の更新を検知した場合に、更新されたシステム情報を取得するので、効率よく、最新のBIOSやシステム構成情報を取得することができるという効果を奏する。
また、請求項3の発明によれば、システム制御方法は、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得し、取得したシステム情報を記憶装置に記憶させ、運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、システム情報を記憶させ、運用デバイスブリッジを代用デバイスブリッジに切り替えるので、運用系コアI/Oデバイスブリッジが故障した場合でも、迅速にシステムを復旧させることができるという効果を奏する。また、請求項3の発明によれば、システム制御方法は、運用デバイスブリッジの配下に接続されたデバイスに記憶されるシステム情報が更新されるごとに、該システム情報を取得するので、運用系コアI/Oデバイスブリッジが故障した場合でも、最新のBIOSやシステム構成情報を利用してシステムを復旧させることができるという効果を奏する。
また、請求項4の発明によれば、システム制御方法は、運用系デバイスブリッジの配下に接続されたデバイスに記録されるシステム情報の更新を検知した場合に、更新されたシステム情報を取得するので、効率よく、最新のBIOSやシステム構成情報を取得することができるという効果を奏する。
また、請求項5の発明によれば、システム制御プログラムは、運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得し、取得したシステム情報を記憶装置に記憶させ、運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、システム情報を記憶させ、運用デバイスブリッジを代用デバイスブリッジに切り替えるので、運用系コアI/Oデバイスブリッジが故障した場合でも、迅速にシステムを復旧させることができるという効果を奏する。
以下に添付図面を参照して、この発明に係るシステム制御装置、システム制御方法およびシステム制御プログラムの好適な実施の形態を詳細に説明する。
まず、本実施例に係るシステム制御装置が含まれるコンピュータシステムのシステム構成について説明する。図1は、本実施例に係るシステム制御装置100が含まれるコンピュータシステム200のシステム構成を示すブロック図である。
図1に示すように、このコンピュータシステム200は、CPU(Central ProcessingUnit)群10と、メモリ群20と、メモリコントローラ30と、I/O(Input/Output)コントローラ40と、運用系コアI/Oデバイスブリッジ50と、待機系コアI/Oデバイスブリッジ60と、I/Oデバイスブリッジ70および80と、接続回路90と、システム制御装置100とから構成される。なお、ここでは説明の便宜上、2台のI/Oデバイスブリッジ70、80を示したが、このコンピュータシステム200は、任意の台数のI/Oデバイスブリッジを有する。
CPU群10は、各装置の制御やデータの計算・加工を行うコンピュータの中枢部であり、メモリ群20に記憶されたプログラムを実行する装置である。ここに、メモリ群20は、CPU群10が実行するプログラムなどを記憶する装置である。
メモリコントローラ30は、CPU群10およびI/Oコントローラ40からのメモリ群20へのアクセスを制御する装置である。また、このメモリコントローラ30は、CPU群10、メモリ群20およびI/Oコントローラ40に接続される。
I/Oコントローラ40は、メモリコントローラ30、運用系コアI/Oデバイスブリッジ50、待機系コアI/Oデバイスブリッジ60およびI/Oデバイスブリッジ80からのアクセスを制御する装置であり、メモリコントローラ30と、運用系コアI/Oデバイスブリッジ50と、待機系コアI/Oデバイスブリッジ60と、I/Oデバイスブリッジ70および80とを接続する。
ここで、運用系コアI/Oデバイスブリッジ50は、運用中のコアI/Oデバイスブリッジを示し、待機系コアI/Oデバイスブリッジ60は、運用系コアI/Oデバイスブリッジ50の予備となるコアI/Oデバイスブリッジを示す。なお、運用系コアI/Oデバイスブリッジ50および待機系コアI/Oデバイスブリッジ60の詳細な説明は後述する。
なお、運用系コアI/Oデバイスブリッジ50が故障した場合には、後述するシステム制御装置100によって、運用系コアI/Oデバイスブリッジ50が無効にされ、待機系コアI/Oデバイスブリッジ60が有効にされることによって、運用系コアI/Oデバイスブリッジ50が、待機系コアI/Oデバイスブリッジ60と切り替わる。
図2は、I/Oコントローラ40が、運用系コアI/Oデバイスブリッジ50を待機系コアI/Oデバイスブリッジ60に切り替える処理を説明するための説明図である。同図に示すように、I/Oコントローラ40は、システム構成制御レジスタ40aを有する。
このシステム構成制御レジスタ40aは、システム制御装置100によって、特定の位置のビットが立てられることによって、運用系コアI/Oデバイスブリッジ50および待機系コアI/Oデバイスブリッジ60に関するバスを有効または無効にするレジスタである。
システム構成制御レジスタ40aは、運用系コアフラグ40bと、待機系コアフラグ40cとを有する。運用系コアフラグ40bにビットが立っているときには、運用系コアI/Oデバイスブリッジ50に繋がるバス41が有効となり、待機系コアフラグ40cのビットが立っているときは、待機系コアI/Oデバイスブリッジ60に繋がるバス42が有効となる。
すなわち、運用系コアI/Oデバイスブリッジ50が故障した場合には、システム制御装置100が、運用系コアフラグ40bのビットを下ろして、待機系コアフラグ40cのビットを立てることによって、運用系コアI/Oデバイスブリッジ50を待機系コアI/Oデバイスブリッジ60に切り替えることができる。
運用系コアI/Oデバイスブリッジ50は、FWD51、VGA(Video Graphics Array)52およびSLAN(システム管理用LANコントローラ)と、I/Oコントローラ40との間を流れるデータを制御する装置である。また、運用系コアI/Oデバイスブリッジ50は、FWD51、VGA52およびSLAN53からCPU群10に対して通知される割り込み要求を管理する。
FWD51は、システム稼動時に必要となるBIOSやシステムの構成情報を示すFWDデータを格納する装置である。また、FWD51は、FWDデータが更新された場合には、FWDデータが更新された旨をシステム制御装置100に通知する。
VGA52は、画像データなどを処理する装置であり、SLAN53は、システム管理用に利用されるLANのコントローラである。
待機系コアI/Oデバイスブリッジ60は、運用系コアI/Oデバイスブリッジ50と同様の処理を行う装置である。なお、待機系コアI/Oデバイスブリッジ60は、運用系コアI/Oデバイスブリッジ50が正常な間は、運用を停止し、運用系コアI/Oデバイスブリッジ50に故障が発生した場合には、運用を開始する。
待機系コアI/Oデバイスブリッジ60は、FWD61と、VGA62と、SLAN63とを接続する。ここで、FWD61は、運用系コアI/Oデバイスブリッジ50が故障した際に、システム制御装置100から渡されるFWDデータを記憶する装置である。なお、VGA62およびSLAN63は上述したVGA52およびSLAN53と同様であるため説明を省略する。
I/Oデバイスブリッジ70は、I/Oコントローラ40、SLOT71およびSCSI72の間でやり取りされるデータを制御する装置である。SLOT71は、周辺機器と接続するための装置であり、SCSI72は、ハードディスクやCD−ROM(Compact Disc Read Only Memory)ドライブなどの接続に用いられる装置である。本実施例のSCSI72は、ハードディスクを示すDISK73に接続される。
I/Oデバイスブリッジ80は、I/Oコントローラ40、SLOT81および82の間でやり取りされるデータを制御する装置である。ここで、SLOT81および82は上述したSLOT71と同様であるため説明を省略する。
接続回路90は、システム制御装置100が、FWD51および61に対してアクセスすることを可能にするための回路である。
システム制御装置100は、運用系コアI/Oデバイスブリッジ50に故障が発生した場合に、運用系コアI/Oデバイスブリッジ50を待機系コアI/Oデバイスブリッジ60に切り替えて運用させる装置である。
図3は、システム制御装置100の構成を示す機能ブロック図である。同図に示すように、このシステム制御装置100は、制御部110と、インターフェース部120と、更新検知処理部130と、FWDデータ記憶部140と、FWDデータコピー処理部150と、運用ブリッジ切り替え処理部160とを有する。
制御部110は、システム制御装置100全体を制御する処理部であり、インターフェース部120は、I/Oコントローラ40および接続回路90との間でデータの受け渡しを行う処理部である。
更新検知処理部130は、FWD51に記録されたFWDデータが更新された場合に、更新されたFWDデータを取得し、取得したFWDデータを、FWDデータ記憶部140に記録させる処理部である。
FWDデータ記憶部140は、FWDデータを記憶する記憶部である。また、FWDデータ記憶部140は、新たなFWDデータを記憶する場合には、以前記憶したFWDデータを新たなFWDデータに更新する。
FWDデータコピー処理部150は、運用系コアI/Oデバイスブリッジ50に故障が発生した場合に、待機系コアI/Oデバイスブリッジ60を、次回運用するコアI/Oデバイスブリッジとして選択し、FWDデータ記憶部140からFWDデータを受け取り、受け取ったFWDデータを、選択した待機系コアI/Oデバイスブリッジ60の配下に接続されたFWD61に記憶させる処理部である。
運用ブリッジ切り替え処理部160は、運用系コアI/Oデバイスブリッジ50に故障が発生し、FWDデータコピー処理部150によって、FWDデータがFWD61に記録された後に、運用系コアI/Oデバイスブリッジ50へのバスを無効にし、待機系コアI/Oデバイスブリッジ60へのバスを有効にする処理部である。
また、運用ブリッジ切り替え処理部160は、運用系コアI/Oデバイスブリッジ50へのバスを無効にし、待機系コアI/Oデバイスブリッジ60へのバスを有効にした後、システム全体を再起動する。
次に、図3に示したシステム制御装置100の処理について説明する。図4は、図3に示したシステム制御装置100の処理手順を示すフローチャートである。同図に示すように、システム制御装置100は、FWDデータコピー処理部150が、運用系コアI/Oデバイスブリッジ50の故障を検知する(ステップS101)。
そして、待機系コアI/Oデバイスブリッジが存在しない場合には(ステップS102,No)、処理を終了し、待機系コアI/Oデバイスブリッジが存在する場合には(ステップS102,Yes)、FWDデータコピー処理部150が、待機系コアI/Oデバイスブリッジ60を、次回運用系コアI/Oデバイスブリッジとして選択する(ステップS103)。
そして、FWDデータコピー処理部150が、次回運用系コアI/Oデバイスブリッジ60の配下のFWD61に、予め保持しておいたFWDデータをコピーし(ステップS104)、運用ブリッジ切り替え処理部160が、旧運用系コアI/Oデバイスブリッジへのバスを無効にする(ステップS105)。
そして、運用ブリッジ切り替え処理部160が、次回運用系コアI/Oデバイスブリッジへのバスを有効し(ステップS106)、システムを再起動する(ステップS107)。
このように、FWDデータコピー処理部150が、故障した運用系コアI/Oデバイスブリッジ50の代わりに待機系コアI/Oデバイスブリッジ50を選択し、FWDデータをFWD61に記憶させ、運用ブリッジ切り替え処理部160が、運用系コアI/Oデバイスブリッジ50と待機系コアI/Oデバイスブリッジ50とを切り替えるので、効率よくシステムを再稼動させることができる。
上述してきたように、本実施例に係るシステム制御装置100は、更新検知処理部130が、FWD51からFWDデータを取得し、取得したFWDデータをFWDデータ記憶部140に記憶させる。そして、運用系コアI/Oデバイスブリッジ50が故障した場合に、FWDデータコピー処理部150が、待機系コアI/Oデバイスブリッジ50に接続されたFWD61にFWDデータをコピーし、運用ブリッジ切り替え処理部が、運用系コアI/Oデバイスブリッジ50を無効にし、待機系コアI/Oデバイスブリッジ60を有効にした後、システムを再起動するので、運用系コアI/Oデバイスブリッジ50が故障した場合でも、迅速にシステムを再起動させ、システムを復旧させることができる。
なお、本実施例では、システム制御装置100が、単一の論理システム(以下、ノードと表記する)に含まれる運用系コアI/Oデバイスブリッジが故障した場合に、待機系コアI/Oデバイスブリッジを利用して、システムを迅速に復旧させていたが、ノードが複数存在し、運用系コアI/Oデバイスブリッジが複数存在する場合であっても、同様に、システムを迅速に復旧させることができる。
図5は、システム制御装置が、複数のノードを制御する場合の、コンピュータシステムの一例を示す図である。同図に示すように、このコンピュータシステム300は、CPU310a、メモリ310bおよびメモリコントローラ310cを含んだボード(以下、SBボードと表記する)310〜330と、バスブリッジ340と、I/Oコントローラ360、運用系コアI/Oデバイスブリッジ370、I/Oデバイスブリッジ380,390,410,420,430,440、待機系コアI/Oデバイスブリッジ400、接続回路450を含んだボード(以下、IOUボードと表記する)350,460とを有する。
なお、ここでは説明の便宜上、3個のSBボード310〜330と、2個のIOUボード350,460とを示すが、このコンピュータシステム300は、任意の個数のSBボードおよびIOUボードを接続することができる。また、本実施例では一例としてSBボード310と、SBボード320と、IOUボード350とが一つのノードを成し、SBボード330と、IOUボード460とが一つのノードを成す。
SBボード310は、CPU310aと、メモリ310bと、メモリコントローラ310cとを有する。ここで、CPU310a、メモリ310bおよびメモリコントローラ310cは、図1に示したCPU群10、メモリ群20およびメモリコントローラ30とほぼ同様であるため説明を省略する。また、SBボード320〜330は、SBボード310と同様であるため説明を省略する。
バスブリッジ340は、SBボード310〜330と、IOUボード350,460とをそれぞれ接続する装置である。
IOUボード350は、I/Oコントローラ360と、運用系コアI/Oデバイスブリッジ370と、I/Oデバイスブリッジ380,390,410,420,430,440と、待機系コアI/Oデバイスブリッジ400と、接続回路450とを有する。なお、IOUボード460は、IOUボード350と同様であるため説明を省略する。
ここで、I/Oコントローラ360と、運用系コアI/Oデバイスブリッジ370と、待機系コアI/Oデバイスブリッジ400と、I/Oデバイスブリッジ380,390,410,420,430,440と、接続回路90とは、図1に示したI/Oコントローラ40と、運用系コアI/Oデバイスブリッジ50と、待機系コアI/Oデバイスブリッジ60と、I/Oデバイスブリッジ70,80とほぼ同様であるため説明を省略する。
次に、システム制御装置100の処理を説明する。システム制御装置100は、FWD370aおよび480aに記憶されたFWDデータを記憶する。そして、運用系コアI/Oデバイスブリッジ370が故障した場合には、FWD370aから取得したFWDデータをFWD400aにコピーし、運用系コアI/Oデバイスブリッジ370を待機系コアI/Oデバイスブリッジ400に切り替えた後、システムを再起動する。
また、システム制御装置100は、運用系コアI/Oデバイスブリッジ480が故障した場合には、FWD480aから取得したFWDデータをFWD510bにコピーし、運用系コアI/Oデバイスブリッジ480を待機系コアI/Oデバイスブリッジ510に切り替えた後、システムを再起動する。
このように、システム制御装置100は、ノードが複数存在する場合にでも、運用系コアI/Oデバイスブリッジが故障した際に、対応する待機系コアI/OデバイスブリッジのFWDにFWDデータをコピーし、再起動することによって、迅速にシステムを復旧させることができる。
(付記1)コンピュータシステムに含まれる複数のデバイスを制御するシステム制御装置であって、
運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得するシステム情報取得手段と、
前記システム情報取得手段が取得したシステム情報を保持するシステム情報保持手段と、
前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記システム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理手段と、
を備えたことを特徴とするシステム制御装置。
(付記2)前記システム情報取得手段は、前記運用デバイスブリッジの配下に接続されたデバイスに記憶される前記システム情報が更新されるごとに、該システム情報を取得することを特徴とする付記1に記載のシステム制御装置。
(付記3)前記システム情報取得手段は、前記システム情報が更新されたか否かを検知する検知手段を更に備え、前記検知手段が前記システム情報の更新を検知した場合に、前記システム情報取得手段は、前記システム情報を取得することを特徴とする付記1または2に記載のシステム制御装置。
(付記4)コンピュータシステムに含まれる複数のデバイスを制御するシステム制御方法であって、
運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得するシステム情報取得工程と、
前記システム情報取得工程において取得したシステム情報を記憶装置に記憶させるシステム情報記憶工程と、
前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記システム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理工程と、
を含んだことを特徴とするシステム制御方法。
(付記5)前記システム情報取得工程は、前記運用デバイスブリッジの配下に接続されたデバイスに記憶される前記システム情報が更新されるごとに、該システム情報を取得することを特徴とする付記4に記載のシステム制御方法。
(付記6)前記システム情報取得工程は、前記システム情報が更新されたか否かを検知する検知工程を更に含み、前記検知工程によって前記システム情報の更新を検知した場合に、前記システム情報取得工程において、前記システム情報を取得することを特徴とする付記4または5に記載のシステム制御方法。
(付記7)コンピュータシステムに含まれる複数のデバイスを制御するシステム制御プログラムであって、
運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報を取得するシステム情報取得手順と、
前記システム情報取得手順において取得したシステム情報を記憶装置に記憶させるシステム情報記憶手順と、
前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記システム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理手順と、
をコンピュータに実行させることを特徴とするシステム制御プログラム。
(付記8)前記システム情報取得手順は、前記運用デバイスブリッジの配下に接続されたデバイスに記憶される前記システム情報が更新されるごとに、該システム情報を取得することを特徴とする付記7に記載のシステム制御プログラム。
(付記9)前記システム情報取得手順は、前記システム情報が更新されたか否かを検知する検知手順を更に含み、前記検知手順によって前記システム情報の更新を検知した場合に、前記システム情報取得手順において、前記システム情報を取得することを特徴とする付記7または8に記載のシステム制御プログラム。
以上のように、本発明にかかるシステム制御装置、システム制御方法およびシステム制御プログラムは、運用中のコアI/Oデバイスブリッジが故障した場合にでも、システムを迅速に復旧させる必要があるコンピュータシステムに適している。
本実施例に係るシステム制御装置が含まれるコンピュータシステムのシステム構成を示すブロック図である。 I/Oコントローラが、運用系コアI/Oデバイスブリッジを待機系コアI/Oデバイスブリッジに切り替える処理を説明するための説明図である。 システム制御装置の構成を示す機能ブロック図である。 図3に示したシステム制御装置の処理手順を示すフローチャートである。 システム制御装置が、複数のノードを制御する場合の、コンピュータシステムの一例を示す図である。 従来のコンピュータシステムのシステム構成の一例を示すブロック図である。
符号の説明
10 CPU群
20 メモリ群
30 メモリコントローラ
40 I/Oコントローラ
50 運用系コアI/Oデバイスブリッジ
60 待機系コアI/Oデバイスブリッジ
70,80 I/Oデバイスブリッジ
90 接続回路
100 システム制御装置
110 制御部
120 インターフェース部
130 更新検知処理部
140 FWDデータ記憶部
150 待機用ブリッジ検索処理部
160 運用ブリッジ切り替え処理部

Claims (5)

  1. コンピュータシステムに含まれる複数のデバイスを制御するシステム制御装置であって、
    運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報が更新されるごとに、該システム情報を該デバイスから取得するシステム情報取得手段と、
    前記システム情報取得手段が取得したシステム情報を保持するシステム情報保持手段と、
    前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記システム情報保持手段によって保持されたシステム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理手段と
    を備えたことを特徴とするシステム制御装置。
  2. 前記システム情報取得手段は、前記システム情報が更新されたか否かを検知する検知手段を更に備え、前記検知手段が前記システム情報の更新を検知した場合に、前記システム情報取得手段は、前記システム情報を取得することを特徴とする請求項1に記載のシステム制御装置。
  3. コンピュータシステムに含まれる複数のデバイスを制御するシステム制御方法であって、
    運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報が更新されるごとに、該システム情報を該デバイスから取得するシステム情報取得工程と、
    前記システム情報取得工程において取得したシステム情報を記憶装置に記憶させるシステム情報記憶工程と、
    前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記記憶装置に記憶されたシステム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理工程と
    を含んだことを特徴とするシステム制御方法。
  4. 前記システム情報取得工程は、前記システム情報が更新されたか否かを検知する検知工程を更に備え、前記検知工程が前記システム情報の更新を検知した場合に、前記システム情報取得工程は、前記システム情報を取得することを特徴とする請求項3に記載のシステム制御方法。
  5. コンピュータシステムに含まれる複数のデバイスを制御するシステム制御プログラムであって、
    運用中のコアデバイスブリッジである運用デバイスブリッジの配下に接続されたデバイスに記憶されるBIOSおよびシステムの構成情報を含んだシステム情報が更新されるごとに、該システム情報を該デバイスからシステム情報取得手順と、
    前記システム情報取得手順において取得したシステム情報を記憶装置に記憶させるシステム情報記憶手順と、
    前記運用デバイスブリッジが故障した場合に、該運用デバイスブリッジの代用となるコアデバイスブリッジである代用デバイスブリッジの配下に接続されたデバイスに、前記記憶装置に記憶されたシステム情報を記憶させ、前記運用デバイスブリッジを前記代用デバイスブリッジに切り替える切り替え処理手順と、
    をコンピュータに実行させることを特徴とするシステム制御プログラム。
JP2004252461A 2004-08-31 2004-08-31 システム制御装置、システム制御方法およびシステム制御プログラム Expired - Fee Related JP4630023B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004252461A JP4630023B2 (ja) 2004-08-31 2004-08-31 システム制御装置、システム制御方法およびシステム制御プログラム
US10/998,935 US7779293B2 (en) 2004-08-31 2004-11-30 Technology to control input/output device bridges

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004252461A JP4630023B2 (ja) 2004-08-31 2004-08-31 システム制御装置、システム制御方法およびシステム制御プログラム

Publications (2)

Publication Number Publication Date
JP2006072492A JP2006072492A (ja) 2006-03-16
JP4630023B2 true JP4630023B2 (ja) 2011-02-09

Family

ID=36035486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004252461A Expired - Fee Related JP4630023B2 (ja) 2004-08-31 2004-08-31 システム制御装置、システム制御方法およびシステム制御プログラム

Country Status (2)

Country Link
US (1) US7779293B2 (ja)
JP (1) JP4630023B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853825B2 (en) * 2005-08-16 2010-12-14 Hewlett-Packard Development Company, L.P. Methods and apparatus for recovering from fatal errors in a system
JP5076400B2 (ja) * 2006-08-16 2012-11-21 富士通株式会社 データ処理システムおよび情報処理装置
JP4743282B2 (ja) * 2009-01-26 2011-08-10 横河電機株式会社 冗長化入出力モジュール
EP2228725A1 (en) * 2009-03-13 2010-09-15 Giga-Byte Technology Co., Ltd. Motherboard with backup chipset
CN101895472B (zh) * 2010-07-16 2013-11-06 华为技术有限公司 流业务负载分担方法和处理方法以及相应的设备和系统
JP5915086B2 (ja) * 2011-10-31 2016-05-11 富士通株式会社 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
JP5796139B2 (ja) * 2012-10-26 2015-10-21 華為技術有限公司Huawei Technologies Co.,Ltd. Pcieスイッチベースのサーバ・システム、スイッチング方法、及びデバイス
JP5954338B2 (ja) 2014-01-14 2016-07-20 横河電機株式会社 計装システム及びその保守方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182189A (ja) * 1993-12-24 1995-07-21 Mitsubishi Electric Corp 計算機システム及びプロセッサチップ及び障害復旧方法
JPH11232237A (ja) * 1998-02-16 1999-08-27 Hitachi Ltd クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
JP2002099436A (ja) * 2000-09-25 2002-04-05 Toshiba Corp コンピュータシステムおよびそのレジューム処理方法
JP2003316752A (ja) * 2002-04-25 2003-11-07 Nec Corp マルチプロセッサシステムおよびリソース割り当て方法
JP2004062589A (ja) * 2002-07-30 2004-02-26 Nec Corp 情報処理装置
JP2004164394A (ja) * 2002-11-14 2004-06-10 Mitsubishi Heavy Ind Ltd 二重化制御装置の起動方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5793943A (en) * 1996-07-29 1998-08-11 Micron Electronics, Inc. System for a primary BIOS ROM recovery in a dual BIOS ROM computer system
US6112311A (en) * 1998-02-20 2000-08-29 International Business Machines Corporation Bridge failover system
US6633996B1 (en) * 2000-04-13 2003-10-14 Stratus Technologies Bermuda Ltd. Fault-tolerant maintenance bus architecture
GB2369692B (en) * 2000-11-29 2002-10-16 Sun Microsystems Inc Processor state reintegration
US6807596B2 (en) * 2001-07-26 2004-10-19 Hewlett-Packard Development Company, L.P. System for removing and replacing core I/O hardware in an operational computer system
US7093043B2 (en) * 2001-12-27 2006-08-15 Hewlett-Packard Development Company, L.P. Data array having redundancy messaging between array controllers over the host bus
US6952792B2 (en) * 2002-03-19 2005-10-04 International Business Machines Corporation Failover system for storage area network
US7028215B2 (en) * 2002-05-03 2006-04-11 Hewlett-Packard Development Company, L.P. Hot mirroring in a computer system with redundant memory subsystems
US7143275B2 (en) * 2002-08-01 2006-11-28 Hewlett-Packard Development Company, L.P. System firmware back-up using a BIOS-accessible pre-boot partition
US7398427B2 (en) * 2004-07-08 2008-07-08 International Business Machines Corporation Isolation of input/output adapter error domains

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182189A (ja) * 1993-12-24 1995-07-21 Mitsubishi Electric Corp 計算機システム及びプロセッサチップ及び障害復旧方法
JPH11232237A (ja) * 1998-02-16 1999-08-27 Hitachi Ltd クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
JP2002099436A (ja) * 2000-09-25 2002-04-05 Toshiba Corp コンピュータシステムおよびそのレジューム処理方法
JP2003316752A (ja) * 2002-04-25 2003-11-07 Nec Corp マルチプロセッサシステムおよびリソース割り当て方法
JP2004062589A (ja) * 2002-07-30 2004-02-26 Nec Corp 情報処理装置
JP2004164394A (ja) * 2002-11-14 2004-06-10 Mitsubishi Heavy Ind Ltd 二重化制御装置の起動方法

Also Published As

Publication number Publication date
JP2006072492A (ja) 2006-03-16
US7779293B2 (en) 2010-08-17
US20060059389A1 (en) 2006-03-16

Similar Documents

Publication Publication Date Title
JP4839091B2 (ja) データベース回復方法及び計算機システム
US8127174B1 (en) Method and apparatus for performing transparent in-memory checkpointing
JP4385215B2 (ja) スナップショットシミュレーション機能を有するディスクアレイ装置
JP4523639B2 (ja) ファームウェアによるメモリエラーアドレス管理
US7971014B2 (en) Information processing apparatus and data recovering method
WO2019156062A1 (ja) 情報処理システム、情報処理装置、情報処理装置のbios更新方法、及び情報処理装置のbios更新プログラム
JP2004295462A (ja) リカバリ処理方法及びその実施システム並びにその処理プログラム
JP4630023B2 (ja) システム制御装置、システム制御方法およびシステム制御プログラム
JP2004334698A (ja) 計算機システム及び故障計算機代替制御プログラム
JP2003345528A (ja) 記憶システム
JP2008250458A (ja) ストレージシステム及びストレージシステムの管理方法
JP2017078998A (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
JP5445572B2 (ja) コンピュータシステム、待機電力削減方法、及びプログラム
CN107111459B (zh) 存储系统及其控制方法
US8046630B2 (en) Storage control apparatus, storage control method, and computer product
JP2009265973A (ja) データ同期システム、障害復旧方法、及び、プログラム
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
JP2009169469A (ja) 計算機システム
JP2007164495A (ja) Raid制御装置、raid制御プログラム、raid制御方法
WO2014147707A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2014010739A (ja) システムの状態の復元についての情報処理方法、情報処理プログラム及び情報処理装置
JP6449671B2 (ja) コアi/oフェールオーバー制御システムおよびコアi/oフェールオーバー制御方法
JP2005128629A (ja) データベースの更新方式
JP2009054116A (ja) メモリシステムおよび情報処理装置
JP5439736B2 (ja) コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees