JP5299283B2 - 情報処理装置及び情報処理システム並びにそれらの制御方法 - Google Patents

情報処理装置及び情報処理システム並びにそれらの制御方法 Download PDF

Info

Publication number
JP5299283B2
JP5299283B2 JP2009542401A JP2009542401A JP5299283B2 JP 5299283 B2 JP5299283 B2 JP 5299283B2 JP 2009542401 A JP2009542401 A JP 2009542401A JP 2009542401 A JP2009542401 A JP 2009542401A JP 5299283 B2 JP5299283 B2 JP 5299283B2
Authority
JP
Japan
Prior art keywords
unit
information processing
control
computer
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009542401A
Other languages
English (en)
Other versions
JPWO2009066336A1 (ja
Inventor
晃広 堂下
行展 野々村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009066336A1 publication Critical patent/JPWO2009066336A1/ja
Application granted granted Critical
Publication of JP5299283B2 publication Critical patent/JP5299283B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage

Description

本発明は、データ処理技術に関し、特に、データ処理を行う情報処理装置や情報処理システムでのハードウェアの故障に対処する技術に関する。
従来の情報処理システムの全体構成の一例を図7に示す。この情報処理システムは、複数の情報処理装置である計算機ユニット100−1、100−2、…、及び100−nと、外部制御端末400とを備えて構成されている。
計算機ユニット100−1、100−2、…、及び100−nは、外部制御端末400の管理下で、各種のデータ処理機能を提供する。また、外部制御端末400は、計算機ユニット100−1、100−2、…、及び100−nに対し各種のデータ処理の実行指示や設定指示、電源投入指示などの各種指示を与える機能や、計算機ユニット100−1、100−2、…、及び100−nから送られてくるエラー情報を保持する機能を有している。
計算機ユニット100−1、100−2、…、及び100−nは、異なる構成であってもよいが、ここでは、いずれも同一の構成を有しているものとする。また、簡単のため、計算機ユニット100−1の構成についてのみ説明することとする。
図8は、計算機ユニット100−1の詳細構成を示している。
計算機ユニット100−1は、ユニット本体110、拡張筐体120、及び外部IO筐体130を備えて構成されている。
ユニット本体110は、複数の計算機コンポーネント200−1、200−2、200−3、…をハードウェア資源として有しており、更に、一般的にサービスプロセッサ(SVP)と呼ばれるシステム制御装置である計算機コンポーネント制御部300を備えて構成されている。
計算機コンポーネント200−1、200−2、200−3、…は、例えば、各々が演算処理装置、半導体メモリ、IO、及び各種のコントローラを有していて計算機が構成されており、各種の演算処理を単独でも行うことができる。
計算機コンポーネント制御部300は、外部制御端末400の管理下で計算機コンポーネント200−1、200−2、200−3、…の動作制御を行う。なお、計算機コンポーネント制御部300は、プリント基板やケーブル等で形成されているバス接続により、計算機コンポーネント200−1、200−2、200−3、…と接続されている。また、計算機コンポーネント制御部300は、外部制御端末400とLAN(Local Area Network)用のケーブル等により有線接続されている。
拡張筐体120は、ユニット本体110が備えているものと同様の計算機コンポーネント200−nをハードウェア資源として有している。計算機ユニット100−1によるデータ処理機能の提供において、ユニット本体110に備えられている計算機コンポーネント200−1、200−2、200−3、…のみではデータ処理のためのハードウェア資源が不足する場合に、必要に応じて拡張筐体120がユニット本体110に接続される。拡張筐体120の計算機コンポーネント200−nは、前述したものと同様のバス接続によりユニット本体110の計算機コンポーネント制御部300に接続され、その動作が、外部制御端末400の管理下の計算機コンポーネント制御部300により制御される。
外部IO筐体130は、拡張RAIDディスク装置等の外部記憶装置や拡張PCIインタフェース等の外部コントローラなどをハードウェア資源として有している。外部IO筐体130がケーブル等によりユニット本体110に有線接続されると、外部制御端末400の管理下の計算機コンポーネント制御部300により、外部IO筐体130の構成要素の動作が制御される。
計算機ユニット100−1では、それぞれオペレーションシステムが独立して動作するパーティション101−1、101−2、…を個々に形成することにより、1つの計算機ユニット内でオペレーションシステムが複数並行して動作する。各パーティション101−1、101−2、…は、前述した計算機ユニット100−1の各ハードウェア資源を必要に応じ管理下に置く。このとき、計算機コンポーネント制御部300は、システム制御装置として、各パーティションの管理下のハードウェア資源に対し、電源制御、リセット動作(ハードウェア初期化)制御、動的構成変更(各パーティションによる管理対象の変更)、エラー情報の収集、環境監視等を行う。
また、計算機コンポーネント制御部300は、計算機ユニット100−1に対する各種の設定情報を保持しておく。
計算機ユニット100−1は以上のように構成されている。
図7に示した外部制御端末400は、このような構成を有する計算機ユニット100−1、100−2、…、及び100−nの動作管理を行うと共に、計算機ユニット100−1、100−2、…、及び100−nの個別の情報の保持を行う。具体的には、例えば、各パーティションの管理下のハードウェア資源に対するパワーオン(電源投入)及びシャットダウン(電源遮断)並びにリブート(再起動)等の指示、計算機ユニット100−1、100−2、…、及び100−nの各ハードウェア資源の各パーティションへの分割設定指示、各計算機ユニット100−1、100−2、…、及び100−nのエラーログの保存及び表示、各パーティションにおけるヒューマン・インタフェース用コンソールに対する表示及びオペレータからの指示の取得、計算機ユニット100−1、100−2、…、及び100−nの各々に固有の設定情報(計算機コンポーネント制御部300が保持しているものと同一の情報)の保持、などを行う。
図7に示した情報処理システムにおいて、例えば計算機ユニット100−1に対するパワーオン及びシャットダウン並びにリブートの指示が外部制御端末400より出されると、計算機ユニット100−1が有している計算機コンポーネント制御部300が、これらの指示に応じた制御動作を行う。また、計算機ユニット100−1の有するいずれかのハードウェア資源においてエラーが発生すると、このエラー情報は、計算機コンポーネント制御部300を経由して外部制御端末400に伝えられて、エラーログの保存及び表示が外部制御端末400で行われる。
また、例えば、計算機ユニット100−1に備えられている計算機コンポーネント制御部300に故障が発生したことにより計算機コンポーネント制御部300の交換を行ったときには、交換後の新しい計算機コンポーネント制御部300へ、外部制御端末400がバックアップ用に保持していた計算機ユニット100−1固有の設定情報の書き戻しが実施される。
この他、本願発明に関し、例えば特許文献1には、サーバ装置を管理する管理装置と携帯端末とを、無線伝送路を介して接続することで、当該サーバ装置の入出力制御を当該携帯端末で行えるようにするという発明が開示されている。
また、例えば特許文献2には、筐体に内蔵した機器構成ユニット間のデータのやり取りを、無線通信により行うという発明が開示されている。
特開2005−267225号公報 特開2004−220264号公報
近年、基幹システム等で使用される情報処理システムにおいては、ハードウェア故障が発生しても、代替機能等により動作継続可能であり、故障したハードウェアの交換(ホットスワップ)を、システムを停止させることなく行えるような、高い信頼性(堅牢性)が要求されている。
しかし、図8に示した従来の情報処理システムにおける計算機ユニット100−1の構成では、コンポーネント200−1、200−2、200−3、…、及び200−nと計算機コンポーネント制御部300との接続、並びに、外部IO筐体130の構成要素と計算機コンポーネント制御部300との接続が有線により行われている。このため、計算機コンポーネント制御部300に故障が発生すると、計算機ユニット100−1のシャットダウン、リブート、動的構成変更及びエラー情報の収集などの制御動作が一切できなくなってしまっていた。また、故障した計算機コンポーネント制御部300を交換する際には、例えば、情報処理システム全体の電源を落として計算機ユニット100−1内の全てのパーティション101−1、101−2、…を停止させた上で行わなければならず、当該情報処理システムを基幹システムとして使用している場合には当該基幹システムを運用している企業に多大な影響を与えるおそれがある。
ここで、例えば、計算機コンポーネント制御部300を二重化して計算機ユニット100−1に備えることで、上述した問題を解決することができる。しかし、計算機コンポーネント制御部300の二重化は、単純に構成の複雑化とコストの増大とをもたらす上に、二重化した計算機コンポーネント制御部300の切り替えを行うために必要となるセレクタ部の故障には対処することができない。
本発明は上述した問題に鑑みてなされたものであり、その解決しようとする課題は、ハードウェア故障が発生しても動作継続可能であり、故障したハードウェアの交換を、電源を落とすことなく行えるようにすることである。
本発明の態様のひとつである情報処理システムは、第1及び第2の情報処理装置を有する情報処理システムにおいて、該第1の情報処理装置は、演算を行う第1の演算処理装置と、無線伝送路を介して該第1の演算処理装置を制御する第1のシステム制御装置を有し、該第2の情報処理装置は、演算を行う第2の演算処理装置と、無線伝送路を介して該第2の演算処理装置を制御するとともに、所定の指示に応じて、無線伝送路を介して該第1の演算処理装置を制御する第2のシステム制御装置を有するというものである。
この情報処理システムによれば、例え第1の情報処理装置に備えられている第1のシステム制御装置で故障が発生しても、当該第1の情報処理装置に備えられている第1の演算処理装置の動作制御を、第2の情報処理装置に備えられている第2のシステム制御装置が代替して行うことができる。従って、情報処理システムの動作を継続することが可能であり、また、情報処理システムを停止させずに、故障した第1のシステム制御装置を交換することができる。また、この情報処理システムは、システム制御装置を二重化してはいないので、構成の複雑化やコストの増大を招くことがない。
なお、該情報処理システムはさらに、該第2のシステム制御装置に対して、該所定の指示を行うことにより、該第1の演算処理装置の制御を該第2のシステム制御装置に引き継がせる情報処理装置制御部を有するように構成することができる。
この構成によれば、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が生じた場合に、その異常の発生を情報処理装置制御部が認識して所定の指示を第2のシステム制御装置に与えることで、第1の情報処理装置に備えられている第1の演算処理装置の動作制御を、第2の情報処理装置に備えられている第2のシステム制御装置が代替して行えるようになる。
なお、該情報処理装置制御部は、該情報処理装置制御部が該第1の演算処理装置を制御するための情報を格納する記憶部を有するように構成することができる。
この構成によれば、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が発生した場合に、この第1のシステム制御装置が動作制御を行っていた第1の演算処理装置を、情報処理装置制御部が特定することができる。
なお、該情報処理装置制御部が該第1の演算処理装置を制御するための情報は、該第1の演算処理装置を特定するための情報、該第1の情報処理装置を特定するための情報、該第1の演算処理装置を制御するシステム制御装置を特定するための情報、該第1の情報処理装置の通電状態についての情報、該第1の情報処理装置に備えられたハードウェアの構成情報、該第1の情報処理装置において発生したエラー情報又は該第1の情報処理装置の初期設定情報の少なくともいずれか一つを有するものとすることができる。
また、該情報処理装置制御部は、該所定の指示を与える場合に、該第1のシステム制御装置が制御をしていた第1の演算処理装置を特定するための情報を該記憶部から取得して、該所定の指示とともに該第2のシステム制御装置に与えるように構成することができる。
この構成によれば、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が発生した場合に、代替して制御を行う必要のある第1の演算処理装置を、当該指示を受けた第2のシステム制御装置に認識させることができる。
また、該情報処理装置制御部は、該所定の指示を該第2のシステム制御装置に与える場合に、該記憶部に記憶した該第1の演算処理装置を制御するシステム制御装置を特定するための情報を、該第1のシステム制御装置を特定する情報から該第2のシステム制御装置を特定する情報に変更するように構成することができる。
この構成によれば、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が発生した場合に、この第1のシステム制御装置に代わって動作制御を行っている第2のシステム制御装置と制御対象の第1の演算処理装置との関係を、情報処理装置制御部で覚えておくことができる。
また、該情報処理装置制御部は、該第1のシステム制御装置にエラーが発生した場合に、該所定の指示を該第2のシステム制御装置に与えるように構成することができる。
この構成によれば、第1のシステム制御装置で動作異常が発生した場合に、第1の情報処理装置に備えられている第1の演算処理装置の動作制御を、第2の情報処理装置に備えられている第2のシステム制御装置が代替して行えるようになる。
また、該情報処理装置制御部は、該第1及び第2の演算処理装置の動作の監視及び制御を、無線伝送路を介して行うように構成することができる。
この構成によれば、情報処理装置制御部と第1及び第2の演算処理装置の各々とを有線接続しないで済むので、第1の演算処理装置の制御を第2の情報処理装置が物理的な接続の変更無しで処理を引き継ぐことができ、第1の演算処理装置が故障しても、電源を落とさずに、当該第1の演算処理装置を交換することができる。
また、本発明の別の態様のひとつである情報処理装置は、演算を行う第1の演算処理装置と無線伝送路を介して該第1の演算処理装置を制御する第1のシステム制御装置を有する第1の情報処理装置を制御する情報処理装置制御部から制御される第2の情報処理装置である情報処理装置であって、該第2の情報処理装置は、演算を行う第2の演算処理装置と、無線伝送路を介して該第2の演算処理装置を制御するとともに、所定の指示に応じて、無線伝送路を介して該第1の演算処理装置を制御する第2のシステム制御装置を有するというものである。
この情報処理装置によれば、第1及び第2の情報処理装置を有する情報処理システムを構成することで、前述した情報処理システムを構成することができる。
本発明の更なる別の態様のひとつである情報処理システムの制御方法は、第1の演算処理装置を備えた第1の情報処理装置と第2の演算処理装置を備えた第2の情報処理装置を有する情報処理システムの制御方法であって、該第1の情報処理装置が有する第1のシステム制御装置が、無線伝送路を介して該第1の演算処理装置を制御するステップと、該第2の情報処理装置が有する第2のシステム制御装置が、無線伝送路を介して該第2の演算処理装置を制御するステップと、所定の指示に応じて、該第2のシステム制御装置が、無線伝送路を介して該第1の演算処理装置を制御するステップを有するというものである。
このようにすることにより、例え第1の情報処理装置に備えられている第1のシステム制御装置で故障が発生しても、当該第1の情報処理装置に備えられている第1の演算処理装置の動作制御を、第2の情報処理装置に備えられている第2のシステム制御装置が代替して行うことができる。従って、計算機システムの動作を継続することが可能であり、また、情報処理システムを停止させずに、故障した第1のシステム制御装置を交換することができる。また、この情報処理システムは、システム制御装置を二重化してはいないので、構成の複雑化やコストの増大を招くことがない。
なお、上述した情報処理システムの制御方法において、該所定の指示に応じて、該第2のシステム制御装置が、無線伝送路を介して該第1の演算処理装置を制御するステップは、該第1及び第2の情報処理装置を制御する情報処理装置制御部が、該第2のシステム制御装置に対して、該所定の指示を行うことにより、該第1の演算処理装置の制御を該第2のシステム制御装置に引き継がせるステップとすることができる。
このようにすることにより、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が生じた場合に、その異常の発生を情報処理装置制御部が認識して所定の指示を第2のシステム制御装置に与えることで、第1の情報処理装置に備えられている第1の演算処理装置の動作制御を、第2の情報処理装置に備えられている第2のシステム制御装置が代替して行えるようになる。
なお、該制御方法はさらに、該情報処理装置制御部が該第1の演算処理装置を制御するための情報を該情報処理装置制御部が有する記憶部に格納するステップを有するようにすることができる。
このようにすることにより、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が発生した場合に、この第1のシステム制御装置が動作制御を行っていた第1の演算処理装置を、情報処理装置制御部が特定することができる。
なお、該情報処理装置制御部は、該所定の指示を与える場合に、該第1のシステム制御装置が制御をしていた第1の演算処理装置を特定するための情報を該記憶部から取得して、該所定の指示とともに該第2のシステム制御装置に与えるようにすることができる。
このようにすることにより、第1の情報処理装置に備えられている第1のシステム制御装置で動作異常が発生した場合に、代替して制御を行う必要のある第1の演算処理装置を、当該指示を受けた第2のシステム制御装置に認識させることができる。
以上のように、本発明によれば、情報処理装置の制御を行うシステム制御装置にハードウェア故障が発生しても動作継続可能であり、故障したシステム制御装置の交換を、電源を落とすことなく行えるようになるという効果を奏する。
本発明を実施する情報処理システムの動作を説明する図である。 本発明を実施する情報処理システムの構成を示す図である。 システムボードの詳細構成を示す図である。 サービスプロセッサの詳細構成を示す図である。 図2に示した外部制御端末の詳細構成を示す図である。 計算機コンポーネント制御部に故障が発生したときの図2の情報処理システムの動作の遷移例を示す図である。 従来の情報処理システムの全体構成の一例を示す図である。 図7に示した計算機ユニットの詳細構成を示す図である。
符号の説明
10−1〜10−n、100−1〜100−n 計算機ユニット
11−1、11−2、110 ユニット本体
12−1、12−2、130 外部IO筐体
20 システムボード
20−1、20−2、20−1−1〜20−1−3、
20−2−1〜20−2−3、200−1〜200−n 計算機コンポーネント
21、31、42 RFユニット
22、32 ベースバンドチップ
23 コンポーネント制御用LSI
23−1、33−1 通信制御部
23−2 コンポーネント動作管理部
24−1〜24−8 CPU
25−1、25−2 システムコントローラ
26−1、26−2 データクロスバ
27−1、27−2 メモリモジュール
28−1、28−2 I/Oコントローラ
29−1〜29−8 PCIカード
30 サービスプロセッサ(SVP)
30−1、30−2、300 計算機コンポーネント制御部
33 制御LSI
34 FMEM
35 SRAM
36 MPU
37 半導体メモリ
37−1 制御プログラム
37−2 自ユニット制御情報
37−3 代替計算機ユニット制御情報
40、400 外部制御端末
41 CPU
43 記憶部
43−1 計算機ユニット情報エリア
43−2 管理テーブル
100−1、100−2 パーティション
120 拡張筐体
以下、本発明の実施の形態を図面に基づいて説明する。
まず、本発明を実施する情報処理システムの動作について、図1を用いて説明する。
同図に示す情報処理システムは、複数の情報処理装置である計算機ユニット10−1、10−2、…と外部制御端末40とを備えて構成されている。なお、ここでは、簡単のため、計算機ユニット10−1及び10−2のみ示している。
計算機ユニット10−1、10−2、…は、いずれも、少なくとも1以上の計算機コンポーネントと、一般的にサービスプロセッサ(SVP)と呼ばれるシステム制御装置である計算機コンポーネント制御部とを備えている。図1においては、計算機ユニット10−1が計算機コンポーネント20−1−1、20−1−2、及び20−1−3と計算機コンポーネント制御部30−1とを備えており、計算機ユニット10−2が計算機コンポーネント20−2−1、20−2−2、及び20−2−3と計算機コンポーネント制御部30−2とを備えている。なお、計算機ユニット10−1、10−2、…の各々が備えている計算機コンポーネントの数は異なっていてもよく、また同一であってもよい。
計算機コンポーネント20−1−1、20−1−2、及び20−1−3並びに20−2−1、20−2−2、及び20−2−3は、例えば、演算処理装置を各々備えていて情報処理装置が構成されており、各種の演算処理を単独でも行うことができる。
計算機ユニット10−1に備えられている計算機コンポーネント制御部30−1はシステム制御装置として、平常の状態においては、計算機ユニット10−1に備えられている計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御を行う。また、計算機ユニット10−2に備えられている計算機コンポーネント制御部30−2は、平常の状態においては、計算機ユニット10−2に備えられている計算機コンポーネント20−2−1、20−2−2、及び20−2−3の動作制御を行う。ここで、計算機コンポーネント制御部30−1は、この動作制御を、計算機コンポーネント20−1−1、20−1−2、及び20−1−3との間で無線伝送路を介して制御信号を授受することで行い、計算機コンポーネント制御部30−2は、この動作制御を、計算機コンポーネント20−2−1、20−2−2、及び20−2−3との間で無線伝送路を介して制御信号を授受することで行う。
外部制御端末40は、計算機ユニット10−1、10−2、…の動作の監視と動作の制御とを、無線伝送路を介した各種の信号の授受により行う計算機ユニット制御部(情報処理装置制御部)である。
図1においては、外部制御端末40は、計算機ユニット10−1及び10−2に対し各種のデータ処理の実行指示や設定指示、パワーオン指示などの各種指示を与える機能や、計算機ユニット10−1及び10−2から送られてくるエラー情報を保持する機能を有している。なお、外部制御端末40は、計算機コンポーネント制御部30−1及び30−2との間で無線伝送路を介して各種の信号を授受することで、各種の指示を計算機ユニット10−1及び10−2に与え、また、計算機ユニット10−1及び10−2からのエラー情報を受け取る。
この図1に示した構成の情報処理システムにおいて、計算機コンポーネント制御部30−1に故障が発生し、計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御が不能になった場合を想定する。
計算機ユニット10−1及び10−2の動作の監視を行っている外部制御端末40は、この計算機コンポーネント制御部30−1の動作異常を、計算機ユニット10−1から無線伝送路を介して送られてくるエラー情報により認識する。あるいは、計算機コンポーネント制御部30−1の応答が無くなることで認識する。すると、外部制御端末40は、所定の代替指示を示す信号を、計算機ユニット10−2に備えられている計算機コンポーネント制御部30−2へ無線伝送路を介して伝送する。
計算機コンポーネント制御部30−2は、無線伝送路を介してこの所定の代替指示を示す信号を受け取ると、当該信号で示されている代替指示に応じ、図1の情報処理システムが有している計算機ユニット10−1及び10−2のうち、当該計算機コンポーネント制御部30−2を備えているものとは別の計算機ユニット、すなわち計算機ユニット10−1に備えられている計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御を、計算機コンポーネント制御部30−1に代わって、無線伝送路を介した制御信号の授受により行う。
以上のように、図1に示した情報処理システムでは、外部制御端末40が、計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御を、故障した計算機コンポーネント制御部30−1に代わって計算機コンポーネント制御部30−2に引き継がせるので、計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作を継続させることができる。また、計算機コンポーネント制御部30−1は、計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御を、無線伝送路を介した制御信号の授受により故障発生前まで行っており、計算機コンポーネント制御部30−2も、計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御を、故障した計算機コンポーネント制御部30−1に代わって、無線伝送路を介した制御信号の授受により行う。従って、図1の情報処理システムを停止させることなく、故障した計算機コンポーネント制御部30−1を交換することができる。
次に図2について説明する。同図は、本発明を実施する情報処理システムの構成を示す図である。なお、図2において、図1に示した構成要素には同一の符号を付している。
同図に示す情報処理システムは、複数の情報処理装置である計算機ユニット10−1、10−2、…、10−nと外部制御端末40とを備えて構成されている。
計算機ユニット10−1、10−2、…、10−nは、いずれも、ユニット本体と外部IO筐体とを備えている。図2においては、簡単のため、計算機ユニット10−1及び10−2のみ、その構成を示している。ここでは、計算機ユニット10−1及び10−2の構成についてのみ説明する。
計算機ユニット10−1は、ユニット本体11−1と外部IO筐体12−1とを備えており、計算機ユニット10−2は、ユニット本体11−2と外部IO筐体12−2とを備えている。
ユニット本体は、いずれも、少なくとも1以上の計算機コンポーネントと、一般的にサービスプロセッサ(SVP)と呼ばれるシステム制御装置である計算機コンポーネント制御部とを備えている。図2では、計算機ユニット10−1のユニット本体11−1は、計算機コンポーネント20−1−1、20−1−2、及び20−1−3と計算機コンポーネント制御部30−1とを備えており、計算機ユニット10−2のユニット本体11−2は、計算機コンポーネント20−2−1、20−2−2、及び20−2−3と計算機コンポーネント制御部30−2とを備えている。なお、計算機ユニット10−1、10−2、…、10−nの各々のユニット本体が備えている計算機コンポーネントの数は異なっていてもよく、また同一であってもよい。
計算機コンポーネント20−1−1、20−1−2、及び20−1−3並びに20−2−1、20−2−2、及び20−2−3は、演算処理装置を各々備えていて情報処理装置が構成されており、各種の演算処理を単独でも行うことができる。
計算機ユニット10−1に備えられている計算機コンポーネント制御部30−1はシステム制御装置として、平常の状態においては、計算機ユニット10−1に備えられている計算機コンポーネント20−1−1、20−1−2、及び20−1−3の動作制御を行う。また、計算機ユニット10−2に備えられている計算機コンポーネント制御部30−2は、平常の状態においては、計算機ユニット10−2に備えられている計算機コンポーネント20−2−1、20−2−2、及び20−2−3の動作制御を行う。ここで、計算機コンポーネント制御部30−1は、この動作制御を、計算機コンポーネント20−1−1、20−1−2、及び20−1−3との間で無線伝送路を介して制御信号を授受することで行い、計算機コンポーネント制御部30−2は、この動作制御を、計算機コンポーネント20−2−1、20−2−2、及び20−2−3との間で無線伝送路を介して制御信号を授受することで行う。
計算機ユニット10−1及び10−2がそれぞれ備えている外部IO筐体12−1及び12−2は、どちらも、拡張RAIDディスク装置等の外部記憶装置や拡張PCIインタフェース等の外部コントローラなどをハードウェア資源として有している。計算機ユニット10−1に備えられている計算機コンポーネント制御部30−1は、平常の状態においては、計算機ユニット10−1に備えられている外部IO筐体12−1の動作制御についても、外部IO筐体12−1との間で無線伝送路を介して制御信号を授受することで行う。また、計算機ユニット10−2に備えられている計算機コンポーネント制御部30−2は、平常の状態においては、計算機ユニット10−2に備えられている外部IO筐体12−2の動作制御についても、外部IO筐体12−2との間で無線伝送路を介して制御信号を授受することで行う。
外部制御端末40は、計算機ユニット10−1、10−2、…、10−nの動作の監視と動作の制御とを、無線伝送路を介した各種の信号の授受により行う計算機ユニット制御部(情報処理装置制御部)である。
図2においては、外部制御端末40は、計算機ユニット10−1、10−2、…、10−nに対し各種のデータ処理の実行指示や設定指示、電源投入指示などの各種指示を与える機能や、計算機ユニット10−1、10−2、…、10−nから送られてくるエラー情報を保持する機能を有している。ここで、外部制御端末40は、計算機ユニット10−1、10−2、…、10−nが各々有している計算機コンポーネント制御部との間で無線伝送路を介して各種の信号を授受することで、各種の指示を計算機ユニット10−1、10−2、…、10−nに与え、また、計算機ユニット10−1、10−2、…、10−nからのエラー情報を受け取る。
図2に示した情報処理システムは以上のように構成されている。
次に、計算機コンポーネント20−1−1、20−1−2、20−1−3、20−2−1、20−2−2、及び20−2−3、計算機コンポーネント制御部30−1及び30−2、並びに外部制御端末40の構成の詳細について、更に説明する。
まず図3について説明する。同図はシステムボード20の詳細構成を示している。このシステムボード20は、図2に示した計算機システムを構成する情報処理装置における演算処理装置である計算機コンポーネント20−1−1、20−1−2、20−1−3、20−2−1、20−2−2、及び20−2−3の各々として使用するものである。
システムボード20は、RFユニット21、ベースバンドチップ22、コンポーネント制御用LSI23、CPU24−1乃至24−8、システムコントローラ25−1及び25−2、データクロスバ26−1及び26−2、メモリモジュール27−1及び27−2、I/Oコントローラ28−1及び28−2、並びにPCIカード29−1乃至29−8を備えて構成されている。
RF(Radio Frequency)ユニット21は、計算機コンポーネント制御部との間で各種の信号の送受信を、無線伝送路を介して行う。
ベースバンドチップ22は、コンポーネント制御用LSI23から送られてくるデジタルデータを変調処理して送信信号を生成しRFユニット21に渡す。また、RFユニット21から送られてくる受信信号からデジタルデータを復調処理してコンポーネント制御用LSI23に渡す。
コンポーネント制御用LSI23はいわゆるサービスプロセッサに該当し、通信制御部23−1とコンポーネント動作管理部23−2とを備えて構成されている。
通信制御部23−1は、RFユニット21及びベースバンドチップ22の通信動作を制御して、RFユニット21が受信しベースバンドチップ22で復調処理した各種のデータをコンポーネント動作管理部23−2に渡すと共にコンポーネント動作管理部23−2から渡される各種のデータをベースバンドチップ22で変調処理しRFユニット21に送信させる。
コンポーネント動作管理部23−2は、CPU24−1乃至24−8、システムコントローラ25−1及び25−2、データクロスバ26−1及び26−2、並びにI/Oコントローラ28−1及び28−2の動作管理と動作状態の監視とを行う。
CPU24−1乃至24−8は、各種のデータ処理を実行する演算処理装置である。
システムコントローラ25−1及び25−2は、コンポーネント動作管理部23−2の管理の下でCPU24−1乃至24−8、データクロスバ26−1及び26−2、並びにI/Oコントローラ28−1及び28−2の動作制御を行って各種のデータ処理を実行させると共に、これらの動作状態の監視をコンポーネント動作管理部23−2と並行して行う。
データクロスバ26−1及び26−2は、コンポーネント動作管理部23−2の管理の下で、CPU24−1乃至24−8と、メモリモジュール27−1及び27−2と、I/Oコントローラ28−1及び28−2との相互間での各種のデータの交換を、システムコントローラ25−1及び25−2による制御に従って行う。
メモリモジュール27−1及び27−2は半導体メモリ群であり、各種データの一時記憶に利用される記憶部である。
I/Oコントローラ28−1及び28−2は、データクロスバ26−1及び26−2とPCIカード29−1乃至29−8との間のデータフォーマットの変換をシステムコントローラ25−1及び25−2による制御に従って行い、各種のデータの授受を可能とするものである。
PCIカード29−1乃至29−8は、ネットワークインタフェースカード等のシステムボード20の機能又はインタフェースを拡張する機能拡張装置又はインタフェース制御装置が実装されているカードである。
この図3に示したシステムボード20において、通信制御部23−1の有する記憶部にはコンポーネント制御部IDが記憶されている。コンポーネント制御部IDは、RFユニット21による通信の相手先となる計算機コンポーネント制御部を個別に識別する情報である。通信制御部23−1は、RFユニット21に送信させる信号に、このコンポーネント制御部IDを当該信号の宛先情報として付加する。また、通信制御部23−1は、RFユニット21が受信した信号のうち、この記憶部に記憶されていたものと同一のコンポーネント制御部IDが宛先情報として示されていた信号のみを、コンポーネント動作管理部23−2に渡す。但し、RFユニット21が受信した信号が代替制御の開始通知を示すものであった場合には、通信制御部23−1は、その記憶部の記憶情報を、その信号に宛先情報として含まれていた新たなコンポーネント制御部IDに書き換える。
また、通信制御部23−1は、上述したコンポーネント制御部IDの他に、この計算機コンポーネントであるシステムボード20を個別に識別する情報である、計算機コンポーネントID(不図示)も記憶している。通信制御部23−1は、RFユニット21に送信させる信号に、この計算機コンポーネントIDを当該信号の発信元として付加する。また、通信制御部23−1は、RFユニット21が受信した信号のうち、この記憶部に記憶されていたものと同一の計算機コンポーネントIDが宛先として示されていた信号のみを、コンポーネント動作管理部23−2に渡す。
以上のように、計算機コンポーネントであるシステムボード20は演算処理装置を構成しており、各種の演算処理をそれ自体単独でも行うことができる。
次に図4について説明する。同図は、SVP(サービスプロセッサ)30の詳細構成を示している。このSVP30は、図2に示した情報処理システムにおけるシステム制御装置である計算機コンポーネント制御部30−1及び30−2として使用するものである。
SVP30は、RFユニット31、ベースバンドチップ32、制御LSI33、FMEM34、SRAM35、MPU36、及び半導体メモリ37を備えて構成されている。
RFユニット31は、演算処理装置である各計算機コンポーネントとの間及び外部制御端末40との間で各種の信号の送受信を、無線伝送路を介して行う。
ベースバンドチップ32は、制御LSI33から送られてくるデジタルデータを変調処理して送信信号を生成しRFユニット31に渡す。また、RFユニット31から送られてくる受信信号からデジタルデータを復調処理して制御LSI33に渡す。
制御LSI33は通信制御部33−1を備えて構成されている。通信制御部33−1は、RFユニット31及びベースバンドチップ32の通信動作を制御して、RFユニット31が受信しベースバンドチップ32で復調処理した各種のデータをSVP30の制御を行うMPU(Micro Processing Unit )36に渡すと共にMPU36から渡される各種のデータをベースバンドチップ32で変調処理しRFユニット31に送信させる。
FMEM34はSVPを動作させるための制御プログラムが格納されており、MPU36から読み出されて半導体メモリ37に展開される。
NVSRAM35(NonVolatile SRAM)は、MPU36が制御処理の実行のために必要とする各種の情報を格納しておくための不揮発性記憶部であり、この計算機コンポーネント制御部であるSVP30を他のものと識別するための固有のコンポーネント制御部IDも記憶されている。
MPU36は、半導体メモリ37に展開された制御プログラムを読み出して実行することにより、各計算機コンポーネントの動作の監視と動作の制御とを行う。なお、MPU36は、RFユニット31に送信させるために制御LSI33に渡す各種のデータに、SRAM35で保持されているコンポーネント制御部IDを当該信号の発信元情報として付加する。また、MPU36は、RFユニット31が受信して制御LSI33から渡されたデータのうち、SRAM35で保持されているものと同一のコンポーネント制御部IDが宛先情報として示されていたデータのみを、このSVP30に対するデータとして受け付ける。
半導体メモリ37は、図4に示すように、MPU36により実行される上述した制御プログラム37−1がFMEM34から展開されており、更に、SVP30が計算機ユニットの制御を行うために必要な制御情報の記憶領域を有している。この記憶領域で記憶する制御情報のうち、自ユニット制御情報37−2は、このSVP30自身が備えられている計算機ユニット(「自ユニット」と称することとする)のための制御情報であり、代替計算機ユニット制御情報37−3は、このSVP30が代替して制御を行う計算機ユニット(「代替ユニット」と称することとする)の制御情報である。
ここで、自ユニット制御情報37−2は、自ユニットが備えている計算機ユニットの計算機ユニットIDの情報と、自ユニットのリセットの制御状態やその動作状態、自ユニットの電源のオン・オフの状態やその制御状態、計算機ユニットに形成されているパーティションの構成やハードウェア構成の変更などといった、自ユニットの直近の動作状態や制御状態を示す情報である。MPU36は、この情報が変化する度に、半導体メモリ37に記憶されている自ユニット制御情報37−2を書き換えて更新する。
また、代替計算機ユニット制御情報37−3には、代替ユニットの計算機ユニットID、代替制御する計算機コンポーネントの計算機コンポーネントID、及び、このSVP30が制御を代替する代替元の計算機コンポーネント制御部(すなわち代替元のSVP)からの引継ぎ情報が含まれている。ここで、計算機ユニットIDとは、図2に示した情報処理システムに備えられている計算機ユニット10−1、10−2、…、10−nを個別に識別する情報である。また、引継ぎ情報とは、より具体的には、代替元の計算機コンポーネント制御部(すなわち代替元のSVP)における初期設定等の自ユニット制御情報である。
SVP30は以上のように構成されており、計算機コンポーネントとの間で無線伝送路を介して制御信号を授受することが可能であり、この制御信号の授受により当該計算機コンポーネントの動作制御を行うことができる。
次に図5について説明する。同図は、図2に示した外部制御端末40の詳細構成を示している。
外部制御端末40は、CPU41、RFユニット42、及び記憶部43を備えて構成されている。このうち、記憶部43は、例えば、ハードディスク装置、あるいは半導体メモリで構成される。ここで、例えば、CPU41及び記憶部43を備えている一般的なワークステーションに、RFユニット42が構成されているPCIカードを組み込むことで外部制御端末40を構成することができる。
CPU41は、記憶部43に記憶されている不図示の制御プログラムを実行することにより、外部制御端末40全体の動作制御を行い、前述した外部制御端末40の各種の機能を提供する。
RFユニット42は、情報処理装置である計算機ユニット10−1、10−2、…、10−nが各々有しているシステム制御装置である計算機コンポーネント制御部との間で各種の信号の送受信を、無線伝送路を介して行う。
記憶部43は、CPU41が実行する前述した制御プログラムが予め格納されている他に、図5に示すように、計算機ユニット情報エリア43−1を有しており、更に、管理テーブル43−2を記憶している。
計算機ユニット情報エリア43−1は、各計算機ユニットについての管理情報を記憶する記憶領域である。この管理情報は、具体的には、計算機ユニットの計算機ユニットID、計算機ユニットの電源のオン・オフの状態、計算機ユニットに形成されているパーティションの構成、計算機ユニットのハードウェア構成、計算機ユニットのエラー情報、計算機ユニットが備えている各計算機コンポーネントの計算機コンポーネントID、計算機ユニットが備えている計算機コンポーネント制御部のコンポーネント制御部ID、及び、計算機ユニットが備えている計算機コンポーネント制御部による各計算機コンポーネントの制御を他のものに引き継がせるときの引継ぎ情報、などである。
管理テーブル43−2は、計算機ユニットと、当該計算機ユニットが備えている計算機コンポーネントの制御を行っている計算機コンポーネント制御部との関係を示している。管理テーブル43−2において、左側の列の欄には、計算機ユニットIDが格納され、右側の列の欄には、その左側の欄の計算機ユニットIDで特定される計算機ユニットが備えている計算機コンポーネントの制御を行っている計算機コンポーネント制御部のコンポーネント制御部IDが格納される。
例えば、図2の情報処理システムのオペレータが外部制御端末40を操作して、計算機ユニット10−1、10−2、…、10−nのパーティション設定、電源投入、切断等の指示を行うと、前述した制御プログラムを実行中のCPU41は、まず、その指示に関する設定情報を、計算機ユニット10−1、10−2、…、10−nの各々に区別して記憶部43の計算機ユニット情報エリア43−1に格納する処理を行う。次に、CPU41は、記憶部43の管理テーブル43−2も参照して、当該指示の対象である計算機ユニットの計算機コンポーネントの制御を行っている計算機コンポーネント制御部を特定する処理を行う。その後、CPU41は、RFユニット42を制御して特定した計算機コンポーネント制御部との間で無線通信を行わせ、計算機ユニット10−1、10−2、…、10−nの動作の監視処理及び動作の制御処理を行う。
ここで、計算機ユニット10−1、10−2、…、10−nのいずれかよりユニットの状態遷移の情報やエラー情報等を示す信号をRFユニット42が受信したときには、CPU41は、受信した信号に示されている発信元の計算機コンポーネント制御部IDと管理テーブル43−2の情報とに基づき、当該信号が計算機ユニット10−1、10−2、…、10−nのうちのいずれからのものであるかを認識し、計算機ユニット情報エリア43−1に格納されている情報を、受信した信号で示されている情報に基づいて更新する処理を行う。
次に、図2に示した情報処理システムにおいて、計算機ユニット10−1に備えられている計算機コンポーネント制御部30−1に故障が発生した場合の動作について、図6を参照しながら説明する。図6は、計算機コンポーネント制御部30−1に故障が発生したときの情報処理システムの動作の遷移例を示している。
図6に示す表において、左端の第一列に示されているカッコで括られている番号は、状態遷移の順序を示しており、第二列は外部制御端末40の状態を示している。また、第三列は、情報処理装置である計算機ユニット10−1が備えているシステム制御装置である計算機コンポーネント制御部30−1の状態を示しており、第四列は、計算機ユニット10−1が備えている演算処理装置である計算機コンポーネント20−1−1、20−1−2、及び20−1−3(簡単のため、「計算機コンポーネント20−1」とする)の状態を示している。更に、第五列は、計算機ユニット10−2が備えている計算機コンポーネント制御部30−2の状態を示しており、第四列は、計算機ユニット10−2が備えている計算機コンポーネント20−2−1、20−2−2、及び20−2−3(簡単のため、「計算機コンポーネント20−2」とする)の状態を示している。
図6において、(1)の状態は、情報処理システムが正常動作している状態を示している。
この状態において、計算機コンポーネント20−1及び20−2の動作制御をそれぞれ行っている計算機コンポーネント制御部30−1及び30−2は、それぞれ自身の半導体メモリ34の自ユニット制御情報34−2を更新する度に、また更新がなくても定期的に、外部制御端末40と無線通信を行って自ユニット制御情報34−2を伝送する。
外部制御端末40は、自ユニット制御情報34−2を計算機コンポーネント制御部30−1及び30−2から受信すると、記憶部43の計算機ユニット情報エリア43−1に記憶されている計算機ユニット10−1及び10−2それぞれの管理情報を受信情報に基づいて更新する。この結果、受信した自ユニット制御情報34−2は、自ユニットに備えられている計算機コンポーネントの制御を中途の状態から引き継いでもらうための引継ぎ情報として、外部制御端末の記憶部43でバックアップされる。
次に、(2)の状態は、計算機コンポーネント制御部30−1に故障が発生した状態を示している。
外部制御端末40は、計算機コンポーネント制御部30−1が送信したエラー情報を受信することにより、若しくは、外部制御端末40から計算機コンポーネント制御部30−1へ送信した信号に対する応答を所定時間以上経過しても受信しないことにより、認識する。
次に、(3)の状態は、計算機コンポーネント制御部30−1で記憶されている最新の自ユニット制御情報34−2のバックアップを試みる状態を示している。
計算機コンポーネント制御部30−1の故障の発生を認識した外部制御端末40は、計算機コンポーネント制御部30−1に対し、引継ぎ情報である自ユニット制御情報34−2の送付要求を示す信号を送信する。
ここで、計算機コンポーネント制御部30−1が当該送信要求に応じて送信した自ユニット制御情報34−2を外部制御端末40が取得できた場合には、記憶部43の計算機ユニット情報エリア43−1に記憶されている計算機ユニット10−1の管理情報を取得情報に基づいて更新する。この結果、受信した自ユニット制御情報34−2は、計算機コンポーネント20−1の制御を中途の状態から引き継いでもらうための最新の引継ぎ情報として、記憶部43でバックアップされ、故障発生直前に計算機コンポーネント20−1で行われていた処理を有効に活用することができる。
一方、計算機コンポーネント制御部30−1からの自ユニット制御情報34−2を外部制御端末40が取得できなかった場合には、記憶部43でバックアップされている、計算機コンポーネント制御部30−1が正常に機能していたときに外部制御端末40が受け取っていた引継ぎ情報を用いて、計算機コンポーネント20−1の代替制御を行う。
次に、(4)の状態は、外部制御端末40が、計算機コンポーネント20−1の代替制御を計算機コンポーネント制御部30−2に行わせることを決定した状態を示している。
このとき、外部制御端末40は、記憶部43に記憶されている管理テーブル43−2の更新処理を行い、計算機ユニット10−1(計算機ユニットIDは「#1」)が備えている計算機コンポーネント20−1の制御を担当するものを、計算機コンポーネント制御部30−1(コンポーネント制御部IDは「#001」)から計算機コンポーネント制御部30−2(コンポーネント制御部IDは「#002」)へと変更する。
次に、(5)の状態は、計算機コンポーネント20−1の制御の引継ぎを、外部制御端末40が計算機コンポーネント制御部30−2に指示する状態を示している。
外部制御端末40は、まず、それまで計算機コンポーネント制御部30−1が制御していた計算機コンポーネント20−1の計算機コンポーネントID及び計算機コンポーネント20−1が備えられている計算機ユニット10−1の計算機ユニットIDと、計算機コンポーネント20−1の動作制御を引き継ぐための引継ぎ情報とを、記憶部43の計算機ユニット情報エリア43−1に記憶されている計算機ユニット10−1の管理情報から取得する。そして、取得した情報を含む引継ぎ指示信号を、計算機コンポーネント制御部30−2へ送信する。
計算機コンポーネント制御部30−2は、この引継ぎ指示信号を受信すると、受信信号に含まれている情報を、代替計算機ユニット制御情報34−3として半導体メモリ34に記憶させる。
次に、(6)の状態は、計算機コンポーネント制御部30−2が代替制御を開始することを計算機コンポーネント20−1へ通知する状態を示している。
計算機コンポーネント制御部30−2は、半導体メモリ34の代替計算機ユニット制御情報34−3を参照して計算機コンポーネント20−1の計算機コンポーネントIDを取得すると、この計算機コンポーネントIDを宛先とし、計算機コンポーネント制御部30−2のコンポーネント制御部IDを発信元として含む代替制御の開始通知信号を、計算機コンポーネント20−1へ送信する。計算機コンポーネント20−1は、この開始通知信号を受信すると、通信制御部24の記憶部に記憶されているコンポーネント制御部IDを、当該信号に含まれていた発信元のコンポーネント制御部IDに書き換える処理を行う。
最後に、(7)の状態は、それまで計算機コンポーネント20−2のみの動作制御を行っていた計算機コンポーネント制御部30−2が、計算機コンポーネント20−1の動作制御を並行して開始した状態を示している。
計算機コンポーネント制御部30−2に備えられているMPU33が、計算機コンポーネント20−1の動作制御と計算機コンポーネント20−2の動作制御とで共通の制御プログラム34−1を半導体メモリ34から読み出して実行することで、計算機コンポーネント20−1及び20−2の両者の動作制御が計算機コンポーネント制御部30−2により行われる。
なお、この状態において、計算機コンポーネント20−1及び20−2の両者の動作制御を行っている計算機コンポーネント制御部30−2は、半導体メモリ34の自ユニット制御情報34−2及び代替計算機ユニット制御情報34−3の少なくともどちらか一方を更新する度に、また両者共に更新がなくても定期的に、外部制御端末40と無線通信を行って自ユニット制御情報34−2及び代替計算機ユニット制御情報34−3を伝送する。
外部制御端末40は、自ユニット制御情報34−2及び代替計算機ユニット制御情報34−3を計算機コンポーネント制御部30−2から受信すると、記憶部43の計算機ユニット情報エリア43−1に記憶されている計算機ユニット10−1及び10−2それぞれの管理情報を受信情報に基づいて更新する。この結果、受信した自ユニット制御情報34−2は、計算機ユニット10−1に備えられている計算機コンポーネントの制御を引き継いでもらうための引継ぎ情報として、記憶部43でバックアップされる。また、受信した代替計算機ユニット制御情報34−3は、計算機ユニット10−2に備えられている計算機コンポーネントの制御を引き継いでもらうための引継ぎ情報として、記憶部43でバックアップされる。
以上のように、図2に示した情報処理システムでは、システム制御装置である計算機コンポーネント制御部30−1で故障が発生しても、計算機コンポーネント20−2の動作制御を行う計算機コンポーネント制御部30−2が代替して、計算機コンポーネント20−1の動作制御を行う。従って、情報処理システムの動作を継続することが可能であり、また、情報処理システムを停止させずに、故障した計算機コンポーネント制御部30−1を交換することができる。また、計算機コンポーネント20−1の動作制御部を二重化するものではないので、構成の複雑化やコストの増大を招くことがない。
以上、本発明の実施形態を説明したが、本発明は、上述した実施形態に限定されることなく、本発明の要旨を逸脱しない範囲内で種々の改良・変更が可能である。

Claims (9)

  1. 第1及び第2の情報処理装置を有する情報処理システムにおいて、
    前記第1の情報処理装置は、
    演算を行う第1の演算処理装置と、
    無線伝送路を介して前記第1の演算処理装置の動作制御を平常の状態において行う第1のシステム制御装置を有し、
    前記第2の情報処理装置は、
    演算を行う第2の演算処理装置と、
    無線伝送路を介して前記第2の演算処理装置の動作制御を平常の状態において行うとともに、故障した前記第1の演算処理装置の動作制御の引き継ぎを指示する所定の指示に応じて、前記第1のシステム制御装置から前記動作制御を引き継いで、無線伝送路を介して前記第1の演算処理装置の動作制御を行う第2のシステム制御装置を有し、
    前記情報処理システムは、前記第2のシステム制御装置に対して前記所定の指示を行う情報処理装置制御部を更に有することを特徴とする情報処理システム。
  2. 前記情報処理装置制御部は、
    前記情報処理装置制御部が前記第1の演算処理装置を制御するための情報を格納する記憶部を有すること特徴とする請求項1記載の情報処理システム。
  3. 前記情報処理装置制御部は、
    前記所定の指示を与える場合に、前記第1のシステム制御装置が制御をしていた第1の演算処理装置を特定するための情報を前記記憶部から取得して、前記所定の指示とともに前記第2のシステム制御装置に与えることを特徴とする請求項2記載の情報処理システム。
  4. 演算を行う第1の演算処理装置と無線伝送路を介して前記第1の演算処理装置の動作制御を平常状態において行う第1のシステム制御装置を有する第1の情報処理装置を制御する情報処理装置制御部から制御される第2の情報処理装置である情報処理装置であって、
    前記第2の情報処理装置は、
    演算を行う第2の演算処理装置と、
    無線伝送路を介して前記第2の演算処理装置の動作制御を平常状態において行うとともに、前記情報処理装置制御部からの、故障した前記第1の演算処理装置の動作制御の引き継ぎを指示する所定の指示に応じて、前記第1のシステム制御装置から前記動作制御を引き継いで、無線伝送路を介して前記第1の演算処理装置の動作制御を行う第2のシステム制御装置を有することを特徴とする情報処理装置。
  5. 前記情報処理装置制御部は、
    前記情報処理装置制御部が前記第1の演算処理装置を制御するための情報を格納する記憶部を有すること特徴とする請求項4記載の情報処理装置。
  6. 前記情報処理装置制御部は、
    前記所定の指示を与える場合に、前記第1のシステム制御装置が制御をしていた第1の演算処理装置を特定するための情報を前記記憶部から取得して、前記所定の指示とともに前記第2のシステム制御装置に与えることを特徴とする請求項5記載の情報処理装置。
  7. 第1の演算処理装置を備えた第1の情報処理装置と第2の演算処理装置を備えた第2の情報処理装置を有する情報処理システムの制御方法であって、
    前記第1の情報処理装置が有する第1のシステム制御装置が、無線伝送路を介して前記第1の演算処理装置の動作制御を平常の状態において行うステップと、
    前記第2の情報処理装置が有する第2のシステム制御装置が、無線伝送路を介して前記第2の演算処理装置の動作制御を平常の状態において行うステップと、
    前記第1及び前記第2の情報処理装置を制御する情報処理装置制御部からの、故障した前記第1の演算処理装置の動作制御の引き継ぎを指示する所定の指示に応じて、前記第2のシステム制御装置が、前記第1のシステム制御装置から前記動作制御を引き継いで、無線伝送路を介して前記第1の演算処理装置の動作制御を行うステップを有することを特徴とする制御方法。
  8. 前記制御方法はさらに、
    前記情報処理装置制御部が前記第1の演算処理装置を制御するための情報を前記情報処理装置制御部が有する記憶部に格納するステップを有すること特徴とする請求項7記載の情報処理システム。
  9. 前記情報処理装置制御部は、
    前記所定の指示を与える場合に、前記第1のシステム制御装置が制御をしていた第1の演算処理装置を特定するための情報を前記記憶部から取得して、前記所定の指示とともに前記第2のシステム制御装置に与えることを特徴とする請求項8記載の制御方法。
JP2009542401A 2007-11-19 2007-11-19 情報処理装置及び情報処理システム並びにそれらの制御方法 Expired - Fee Related JP5299283B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/001249 WO2009066336A1 (ja) 2007-11-19 2007-11-19 情報処理装置及び情報処理システム並びにそれらの制御方法

Publications (2)

Publication Number Publication Date
JPWO2009066336A1 JPWO2009066336A1 (ja) 2011-03-31
JP5299283B2 true JP5299283B2 (ja) 2013-09-25

Family

ID=40667177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009542401A Expired - Fee Related JP5299283B2 (ja) 2007-11-19 2007-11-19 情報処理装置及び情報処理システム並びにそれらの制御方法

Country Status (3)

Country Link
US (1) US8745436B2 (ja)
JP (1) JP5299283B2 (ja)
WO (1) WO2009066336A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014147773A1 (ja) * 2013-03-20 2014-09-25 富士通株式会社 ハードウェア装置およびハードウェア装置の制御方法
RU2657166C1 (ru) * 2017-04-17 2018-06-08 Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" Самодиагностируемая бортовая вычислительная система с резервированием замещением
US10613950B2 (en) 2018-01-05 2020-04-07 Quanta Computer Inc. CMC failover for two-stick canisters in rack design

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143564A (ja) * 1991-11-22 1993-06-11 Mitsubishi Electric Corp 計算機システム
JPH0652130A (ja) * 1992-07-30 1994-02-25 Mitsubishi Electric Corp マルチプロセッサシステム
JP2001022712A (ja) * 1999-07-13 2001-01-26 Hitachi Ltd 情報処理装置の初期設定方式
JP2004220264A (ja) * 2003-01-14 2004-08-05 Mitsubishi Electric Corp 電子機器
JP2005267225A (ja) * 2004-03-18 2005-09-29 Nec Computertechno Ltd サーバ管理システム、サーバ管理装置及びサーバ管理プログラム
JP2006146685A (ja) * 2004-11-22 2006-06-08 Nec Corp マルチノードシステム及び障害復旧方法
JP2006228220A (ja) * 2005-02-18 2006-08-31 Internatl Business Mach Corp <Ibm> ブレード・サーバにおけるクライアント再割り当てのためのシステムおよび方法
JP2006268278A (ja) * 2005-03-23 2006-10-05 Nec Corp 遠隔保守コンピュータ保守システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681282B1 (en) * 2000-08-31 2004-01-20 Hewlett-Packard Development Company, L.P. Online control of a multiprocessor computer system
US20040054765A1 (en) * 2002-09-12 2004-03-18 Dwyer Thomas J. Method and apparatus for accessing multiple system controllers within a computer system
US7450940B2 (en) * 2003-04-28 2008-11-11 Chantry Networks, Inc. Wireless network communication system and method
GB2420300B (en) 2004-11-17 2007-01-10 Accuma Plastics Ltd Method and apparatus for the manufacture of a terminal for a lead-acid type accumulator and a terminal manufactured therewith
US7945773B2 (en) * 2007-09-18 2011-05-17 International Business Machines Corporation Failover of blade servers in a data center

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143564A (ja) * 1991-11-22 1993-06-11 Mitsubishi Electric Corp 計算機システム
JPH0652130A (ja) * 1992-07-30 1994-02-25 Mitsubishi Electric Corp マルチプロセッサシステム
JP2001022712A (ja) * 1999-07-13 2001-01-26 Hitachi Ltd 情報処理装置の初期設定方式
JP2004220264A (ja) * 2003-01-14 2004-08-05 Mitsubishi Electric Corp 電子機器
JP2005267225A (ja) * 2004-03-18 2005-09-29 Nec Computertechno Ltd サーバ管理システム、サーバ管理装置及びサーバ管理プログラム
JP2006146685A (ja) * 2004-11-22 2006-06-08 Nec Corp マルチノードシステム及び障害復旧方法
JP2006228220A (ja) * 2005-02-18 2006-08-31 Internatl Business Mach Corp <Ibm> ブレード・サーバにおけるクライアント再割り当てのためのシステムおよび方法
JP2006268278A (ja) * 2005-03-23 2006-10-05 Nec Corp 遠隔保守コンピュータ保守システム

Also Published As

Publication number Publication date
US8745436B2 (en) 2014-06-03
US20100229028A1 (en) 2010-09-09
WO2009066336A1 (ja) 2009-05-28
JPWO2009066336A1 (ja) 2011-03-31

Similar Documents

Publication Publication Date Title
JP4568764B2 (ja) システム監視装置の制御方法、プログラム及びコンピュータシステム
CN111045866B (zh) 一种bmc故障处理方法、装置、电子设备及存储介质
JP2006277205A (ja) 記憶装置システムおよびその制御方法、制御プログラム
WO2019156062A1 (ja) 情報処理システム、情報処理装置、情報処理装置のbios更新方法、及び情報処理装置のbios更新プログラム
EP2590072A1 (en) System control device, information processing system, and data migration and restoration method for information processing system
JP2015035175A (ja) 情報処理装置、仮想マシン制御方法および仮想マシン制御プログラム
JP2011253408A (ja) サーバシステム及びそのbios復旧方法
JP5299283B2 (ja) 情報処理装置及び情報処理システム並びにそれらの制御方法
JP2020088470A (ja) 情報処理装置、ネットワークシステム及びチーミングプログラム
US7627774B2 (en) Redundant manager modules to perform management tasks with respect to an interconnect structure and power supplies
JP4893731B2 (ja) 通信制御装置
JP5470884B2 (ja) マルチノードシステム、異常処理方法、スイッチ、ノード及びプログラム
JP6554801B2 (ja) 冗長通信装置及びその制御方法
JP2003115896A (ja) 保守管理方法および保守管理システムならびに情報処理システム
JP2008197907A (ja) 監視ネットワークシステムおよびデータバックアップ方法
JP6090335B2 (ja) 情報処理装置
JP2013250732A (ja) ブレードサーバシステム
JP6364773B2 (ja) 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP2005115472A (ja) 運行管理装置
JP2019040331A (ja) 分散制御システムおよびノード
JP6822706B1 (ja) クラスタシステム、サーバ装置、引継ぎ方法、及びプログラム
JP2010147803A (ja) 通信装置および通信装置起動時の運用情報復元方法
JP5682320B2 (ja) 電源制御システム
JP2020145663A (ja) 通信制御装置、電子機器装置、通信制御方法、及び通信制御プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130307

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees