JP5332257B2 - サーバシステム、サーバ管理方法、およびそのプログラム - Google Patents

サーバシステム、サーバ管理方法、およびそのプログラム Download PDF

Info

Publication number
JP5332257B2
JP5332257B2 JP2008081034A JP2008081034A JP5332257B2 JP 5332257 B2 JP5332257 B2 JP 5332257B2 JP 2008081034 A JP2008081034 A JP 2008081034A JP 2008081034 A JP2008081034 A JP 2008081034A JP 5332257 B2 JP5332257 B2 JP 5332257B2
Authority
JP
Japan
Prior art keywords
main control
control unit
divided area
firmware
master
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008081034A
Other languages
English (en)
Other versions
JP2009237758A (ja
Inventor
宮崎  淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008081034A priority Critical patent/JP5332257B2/ja
Publication of JP2009237758A publication Critical patent/JP2009237758A/ja
Application granted granted Critical
Publication of JP5332257B2 publication Critical patent/JP5332257B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、サーバ機能を有する複数の分割領域を備えたサーバシステムにあって、一のセルボックス内の一方の分割領域(パーティション)の主制御部に異常が発生した場合に、その分割領域で実施されていた処理動作を他の分割領域に転移(フェイルオーバ)させて受け継がせるサーバシステム、サーバ管理方法、およびそのプログラムに関する。
サーバシステムの中には、例えば、プロセッサ及びメモリ等を実装した制御基板(セル)を収納したセルボックスを複数有し、1セルボックス内に使用者から要求されたサーバ処理を実施可能な(即ち、サーバ機能を備えた)2個の分割領域(パーティション)を有するものが知られている。
そのような個々の分割領域には、各分割領域における処理動作を制御する主制御部(ベース・マネジメント・コントローラ:Base Management Controller)を有し、当該主制御部には、例えばOS(オペレーションシステム:Operation System)等の基本制御プログラムを含んで当該分割領域内の各部の処理動作を規制するファームウエアが搭載されている。
また、そのような2個(例えば第1及び第2)の分割領域を備えるサーバシステムには、第1の分割領域の処理動作に異常が発生した時に、その処理動作を第2の分割領域に転移させて代替実施を試みることで第1の分割領域の処理動作を中断させないで受け継がせるサーバシステムが知られている。
そのような代替実施を試みるサーバシステムとしては、複数の分割領域、エージェント、ウオッチドッグタイマ、リセットタイプセレクタ等を備え、各々の分割領域にオペレーションシステムを搭載すると共に、エージェントにも、正常動作時には異常発生を判定するしきい値を超えないようにウオッチドッグタイマを定期的にリセットできるプロセッサを備えるシステムが知られている(例えば、特許文献1参照)。
この特許文献1のシステムにおけるエージェントは、内部のプロセッサでウオッチドッグタイマのカウント値が異常発生を判定するしきい値を超えないように、定期的にリセットして分割領域が安全な実行状態であることを判断しており、又、分割領域が安全な実行状態ではない場合にはハードリセットを選択せずにソフトリセットを選択して実施している。
また、一つの電子計算機が同時にアクセスできる2個のプロセス入出力装置を有し、その各プロセス入出力装置に正常か異常かを診断する自己診断手段を設け、診断結果を電子計算機に通知するプロセス入出力装置の切替え方法が知られている(例えば、特許文献2参照)。
この特許文献2に開示されたプロセス入出力装置の切替方法では、プロセスの入出力について二重化すると共に相互に状態を監視して状態信号を記憶し、2個のプロセス入出力装置を管理するCPUにより外部入出力にいずれを使うかの初期設定をすると共に、一方の入出力装置に異常が発生した場合には記憶した状態信号を用いて他方の入出力装置を稼働させて使用するプロセス入出力装置の切替を行うようになっている。
更に、複数のサービスプロセッサと複数の分割領域を共通接続回路で接続し、複数のサービスプロセッサが、各々分割領域毎の運転と保守診断を実行する形態のシステムが知られている(例えば、特許文献3参照)。この特許文献3のシステムは、異常が発生したサービスプロセッサのアドレスを変更して、代わりのサービスプロセッサによって分割領域が制御されるシステム構成となっている。
そして、この特許文献3のシステムの各分割領域には、優先度の高い分割領域に接続されたサービスプロセッサに異常が発生した時に、そのサービスプロセッサ宛のアドレスを他の分割領域に接続されている優先度の低い分割領域に接続されているサービスプロセッサに接続を変更してデータを送受する手段が設けられている。
特開2000−272899号公報 特開平5−20251号公報 特開昭59−135567号公報
しかしながら、上記関連技術におけるそのようなシステムでは、一の分割領域の主制御部に異常が発生した場合に、異常が発生した分割領域の主制御部による処理動作を別の分割領域の主制御部に代行実施させることができる場合があるものの、分割領域の異常が他の分割領域との通信に影響する場合等には、異常が発生した分割領域の主制御部による処理動作を別の分割領域の主制御部に転移できず、当該主制御部による処理動作が動作不能になって中断されてしまうという不都合があった。
また、特許文献1のシステムでは、各分割領域に、その分割領域用として各々1個ずつのオペレーションシステムを搭載するものであり、これがため上記した異常が発生した分割領域の主制御部による処理動作を別の分割領域の主制御部に転移できないという不都合があった。
更に、特許文献2のシステムは、1個のCPUにバス接続された各プロセス入出力装置を異常発生時に切替えるシステムであり、異常発生時に分割領域の処理動作を別の分割領域に転移させるようなシステム構成とはなっていない。
また、特許文献3の計算機システムでは、異常が発生したサービスプロセッサのアドレスを変更して代わりのサービスプロセッサによる分割領域の制御を実施しているが、異常発生時に分割領域の処理動作を代わりのサービスプロセッサに転移させていないことから、処理動作の継続性に難点がある。
〔発明の目的〕
本発明は、一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備えると共に、一の分割領域に異常が発生した場合であっても当該分割領域による処理動作の中断を有効に回避し得るサーバシステム、サーバ管理方法、及びそのプログラムを提供することを、その目的とする。
上記目的を達成するために、本発明にかかるサーバシステムは、一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備え、前記各分割領域内には当該分割領域内の各構成要素の動作を制御する主制御部がそれぞれ個別に装備され、前記各主制御部
は少なくとも当該分割領域内の各部の基本処理動作を規制するファームウエアをマスタ用ファームウエアとして搭載すると共に、同一セルボックス内の前記一方の分割領域の主制御部に異常が発生した場合には他方の分割領域の主制御部に前記一方の分割領域内における各構成要素の動作制御を委ねる構成のサーバシステムであって、
前記各主制御部が、各々同一のセルボックス内の他方の分割領域用のファームウエアをスレーブ用ファームウエアとして割込待ち状態で保持すると共に、
前記同一のセルボックス内に、前記各主制御部と接続され且つ一方の分割領域の主制御部に異常が発生した場合に、他方の分割領域の主制御部に対して当該主制御部に搭載された前記一方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切り替えさせる共通管理モジュールを備え、
この共通管理モジュールが、前記各主制御部から送られてくる正常稼働データを更新し記憶する稼働データ記憶部と、前記各主制御部に対して正常稼働データの送信を要求すると共に当該各主制御部からの正常稼働データが送信されない状態が先に送られた正常稼働データの更新時を基準として予め設定したタイムアウト時間を越えている場合に、対応する主制御部に異常が発生したと判定する稼働データチェック手段とを備えている、という構成を採っている
上記目的を達成するために、本発明にかかるサーバ管理方法は、一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備え、前記各分割領域内には当該分割領域内の各構成要素の動作を制御する主制御部がそれぞれ個別に装備され、前記各主制御部は少なくとも当該分割領域内の各部の基本処理動作を規制するファームウエアをマスタ用ファームウエアとして搭載すると共に、同一セルボックス内の前記一方の分割領域の主制御部に異常が発生した場合には他方の分割領域の主制御部に前記一方の分割領域内における各構成要素の動作制御を委ねる構成のサーバシステムにあって
同一のセルボックス内の一方の分割領域の前記主制御部が、同一のセルボックス内の他方の分割領域用のファームウエアをスレーブ用ファームウエアとして割込待ち状態で組み込まれた場合にこれを保持するスレーブ用ファームウエア保持工程と、
前記他方の分割領域の主制御部による処理動作に異常が発生した場合に、前記同一のセルボックス内の前記各主制御部の動作を制御する共通管理モジュールが、前記一方の分割領域の主制御部に対し当該主制御部に搭載された前記他方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切替えるためのマスタ切替要求を出力するマスタ切替要求出力工程と、
前記マスタ切替要求を受信した主制御部が、前記搭載された前記一方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切替えるマスタ切替え工程とを設けると共に、
前記マスタ切替要求出力工程の実行に先立って、
前記各主制御部から送られてくる正常稼働データを、予め装備された稼働データ記憶部が更新し更新する正常稼働データ更新記憶工程と、
前記各主制御部に対して正常稼働データの送信を要求すると共に当該各主制御部からの正常稼働データが送信されない状態が先に送られた正常稼働データの更新時を基準として予め設定したタイムアウト時間を越えている場合に、予め装備された稼働データチェック手段が対応する主制御部に異常が発生したと判定する稼働データチェック工程とを実行するという構成を採っている
上記目的を達成するために、本発明にかかるサーバ管理プログラムは、一のセルボックス内に 一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備え、前記各分割領域内には当該分割領域内の各構成要素の動作を制御する主制御部がそれぞれ個別に装備され、前記各主制御部は少なくとも当該分割領域内の各部の基本処理動作を規制するファームウエアをマスタ用ファームウエアとして搭載すると共に、同一セルボックス内の前記一方の分割領域の主制御部に異常が発生した場合には、予め装備した共通管理モジュールからの要請に基づいて他方の前記分割領域の主制御部に前記一方の分割領域内における各構成要素の動作制御を委ねる構成のサーバシステムにあって
前記各分割領域の主制御部から一定の周期で送られてくる正常稼働データを受信しその受信時刻を記憶する稼働データ記憶処理機能、
この正常稼働データの受信時刻の時間間隔の変化から前記各分割領域にかかる主制御部の動作の異常を検出する異常動作検出処理機能、
および前記各分割領域のうちの何れか一方の主制御部に異常が発生した場合に他方の分割領域の主制御部に対して当該主制御部に搭載された前記一方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切替えるマスタ切替要求を出力する切替要求出力処理機能を設けると共に
前記切替要求出力処理機能の実行に先立って機能する、
前記各主制御部から送られてくる正常稼働データを、予め装備された稼働データ記憶部に記憶させる正常稼働データ更新制御処理機能、及び前記各主制御部に対して正常稼働データの送信を要求すると共に当該各主制御部からの正常稼働データが送信されない状態が先に送られた正常稼働データの更新時を基準として予め設定したタイムアウト時間を越えている場合に対応する主制御部に異常が発生したと判定する稼働データチェック処理機能を設け、
これらの各処理機能を、前記共通管理モジュールが備えているコンピュータに実現させるようにした、という構成を採っている
本発明は以上のように構成されているので、これによると、一の分割領域の主制御部に異常が発生した場合には、共通管理モジュールと他の分割領域に予め装備した一の分割領域用のスレーブ用ファームウエアとが有効に機能して、異常が発生した分割領域の主制御部の処理動作を他の分割領域の主制御部に確実に転移させ且つ受け継がせるようにしたので、当該一の分割領域の主制御部による処理動作が動作不能となってもシステム全体の処理動作が中断されてしまう事態を有効に回避することができ、これにより、システム全体の処理の迅速化と共にシステム全体の信頼性を大幅に向上させることができるという従来にない優れたサーバシステム、サーバ管理方法、及びそのプログラムを提供することができる。
以下、本発明の一実施形態を、添付図面に従って説明する。
まず、図1において、サーバシステム1は、例えば、プロセッサ,メモリ等を実装した制御基板(セル)を備えた1つ又は2以上のセルボックス10,11を有する。各セルボックス10,11内には、それぞれ使用者(オペレータ)から要求された処理を実施可能な各々2個の分割領域(パーティション)、第1の分割領域20,第2の分割領域30と、この各分割領域20,30の処理動作に発生する異常を監視すると共に各分割領域20,30への電源の供給と冷却ファンの運転とを制御する共通モジュール40と、を備えている。
ここで、セルボックス10,11は本実施形態では同一に構成されている。このため、以下、セルボックス10について、その内部構成を説明する。
セルボックス10内の第1分割領域20は、使用者の要求した処理動作を実行するプロセッサ/メモリモジュール(以下「PMモジュール」とする)21,22と、周辺デバイスを接続するための周辺デバイスの入出力用インターフェースを有する入出力モジュール(以下「IOモジュール」とする)23と、各種I/Oコントローラの入出力を統合して拡張バス等と接続させる統合入出力モジュール(Core IOモジュール:以下「コアIOモジュール」とする)24とを有する。
又、この第1分割領域20は、当該第1分割領域20内の処理動作を制御する第1主制御部25と、この第1主制御部25内のデータ更新期間等を計時するタイマ25Tと、第1主制御部25のファームウエア(FW:例えばOS等の基本制御プログラム)を搭載すると共に各種プログラムの格納領域を提供するメモリ25Mとを有する。
更に、PMモジュール21,22は、オペレータの要求した処理動作を実行するためのCPU等の演算手段と当該演算に必要なプログラムおよびデータを格納したメモリとを少なくとも含むモジュールである。
前述した第1主制御部25は、内部LAN又は内部バスによりコアIOモジュール24とタイマ25Tとメモリ25Mとに接続され、メモリ25Mと協働して実行される処理動作を制御するコンピュータとして機能する。この第1主制御部25をコンピュータとして機能させる場合、当該第1主制御部25は、IOモジュール23又はコアIOモジュール24を介して周辺装置,外部装置,又は記憶素子等から、ファームウエア及び各種アプリケーションプログラム及び各種データ等をメモリ25Mにロードする。そして、この第1主制御部25は、メモリ25M上にファームウエア及び各種プログラム等を展開制御してから各種データ等を用いて処理動作を実行する。
その後、第1主制御部25は、IOモジュール23又はコアIOモジュール24を介して周辺装置等又は外部装置等に処理動作結果を出力する。タイマ25Tは、搭載されたファームウエアにより規制された第1主制御部25が正常に稼働していることを示す正常稼働データを所定周期毎に送出するための期間を計時する。ファームウエアについては図2を用いて後述する。又、所定周期については図3を用いて後述する。
第2分割領域30は、前述した第1分割領域20と同様の構成であり、オペレータの要求した処理動作を実行するPMモジュール31,32と、IOモジュール33と、コアIOモジュール34と、第2分割領域30内の処理動作を制御する第2主制御部35と、当該第2主制御部35内のデータ更新期間等を計時するタイマ35Tと、第2主制御部35のファームウエアを搭載すると共に各種プログラム用の記憶領域を提供するメモリ35Mとを有する。PMモジュール31,32の構成と第2主制御部35の機能は、上記した第1分割領域20のPMモジュール21,22の構成と第1主制御部25の機能と、それぞれ同一に設定されている。
共通モジュール40は、第1および第2の各分割領域20,30が正常に機能していることを監視する共通管理モジュール41と、第1分割領域20及び第2分割領域30の各部に必要な電力を供給する電源モジュール42と、セルボックス10内に気流を発生させて電源部及びプロセッサを含む発熱部を空冷する冷却ファン用のファン駆動モジュール43とを有する。
ここで、共通管理モジュール41は、セルボックス10の内部においてファームウエアにより規制された第1,第2の各主制御部25,35がそれぞれ正常に機能していることを監視する機能を有する。
この共通管理モジュール41は、内部ラン(LAN)と内部バスとに接続され、図示しない入出力モジュール、統合入出力モジュール、処理時間等を計時するタイマ、制御プログラムを搭載すると共に各種プログラムの展開領域を提供するメモリ等を有している。そして、この共通管理モジュール41は、前述した各種プログラムの展開領域を提供するメモリと協働して実行される処理動作を制御するコンピュータとして機能する。
ここで、共通管理モジュール41をコンピュータとして機能させる場合、この共通管理モジュール41は、IOモジュール23又はコアIOモジュール24を介して周辺装置等,外部装置又は記憶素子等からファームウエアや各種アプリケーションプログラム及び各種データ等をメモリにロードする。
そして、共通管理モジュール41は、メモリ上にファームウエア及び各種プログラム等を展開した後に各種データ等を用いて処理動作を実行し、IOモジュール23又はコアIOモジュール24を介して周辺装置等又は外部装置等に処理動作結果を出力する。
ここで、図1の第1主制御部25,第2主制御部35,及びそれらの上に搭載されるファームウエアについて説明する。
図2(a)は、第1主制御部25上に搭載される2つのファームウエアの状態を示す図であり、図2(b)は、第2主制御部35上に搭載される2つのファームウエアの状態を示す図である。この第1主制御部25上には、その第1主制御部25を含む第1分割領域20内の各部の処理動作を規制するためのファームウエアである第1分割領域用のマスタ用ファームウエア26(以下、単に「マスタ用FW」26とする)と、第2分割領域30内の各部で実行される処理動作を代替で規制するためのファームウエアである第2分割領域用のスレーブ用ファームウエア27(以下、単に「スレーブ用FW27」とする)とが搭載されている。
ここで、マスタ用FW26は、当該マスタ用FW26が搭載される第1分割領域20内の各部の処理動作を規制するために、当該第1分割領域20の第1主制御部25に接続されたメモリ25Mに読み込まれるファームウエアである。それに対してスレーブ用FW27は、当該スレーブ用FW27が搭載される第1分割領域20と同一のセルボックス10内で異なる第2分割領域30内の各部の処理動作を代替で規制するために、当該第1分割領域20の第1主制御部25に接続されたメモリ25Mにロードされるファームウエアである。
この図2において、スレーブ用FW27は、第2分割領域用のマスタ用FW36により規制される第2主制御部35が制御する第2分割領域30に異常が発生した場合に、第1主制御部25によりその処理動作を代替する予備のファームウエアである。このスレーブ用FW27は、割込待ち状態で第1主制御部25に搭載される。
ここで、このスレーブ用FW27によって規制される第1主制御部25は、以下においては第1主制御部25(スレーブ用FW27)と記載する。
この場合のスレーブ用FW27の割込待ち状態では、第1分割領域20の制御および各種ハードウエア制御を行う基本機能については、マスタ用FW26と同様に動作させることができ、その他の機能についてはスリープモードとした状態である。
第2主制御部35上には、その第2主制御部35を含む第2分割領域30の各部の処理動作を規制するためのファームウエアである第2分割領域用のマスタ用FW36(以下、単に「マスタ用FW36」とする)と、第1分割領域20の各部で実行される処理動作を代替で規制するためのファームウエアである第1分割領域用のスレーブ用FW(以下、単に「スレーブ用FW」とする)37とが搭載されている。
ここで、マスタ用FW36は、当該マスタ用FW36が搭載される第2分割領域30内の各部の処理動作を規制するために、当該第2分割領域30の第2主制御部35に接続されたメモリ35Mに読み込まれるファームウエアである。それに対して、スレーブ用FW37は、当該スレーブ用FW37が搭載される第2分割領域30と同一のセルボックス10内で異なる第1分割領域20内の各部の処理動作を代替で規制するために、当該第2分割領域30の第2主制御部35に接続されたメモリ35Mに読み込まれるファームウエアである。
スレーブ用FW37は、第1分割領域用のマスタ用FW26によって規制される第1主制御部25が制御対象とする第1分割領域20に異常が発生した場合に、第2主制御部35によってその処理動作を代替してもらうための予備のファームウエアである。このスレーブ用FW37は、割込待ち状態で第2主制御部35に搭載される。
この場合のスレーブ用FW37の割込待ち状態も、第2分割領域30の制御及び各種ハードウエア制御を行う基本機能については、マスタ用FW36と同様に動作させることができ、その他の機能はスリープモードとした状態である。
次に、図1の説明に戻り、セルボックス10内の各部の接続状況について説明する。
第1分割領域20内のIOモジュール23は、第1分割領域20内のPMモジュール21,22、PMモジュール31,32、第1制御部25及び第2制御部35等のプログラムによる処理動作が可能なコンピュータ機能部と周辺デバイスとの間を接続し、各々のコンピュータ機能部と周辺デバイスとの間でデータ等の入出力を実施可能とする。
但し、本実施形態におけるIOモジュール23は、コアIOモジュール24を介して演算手段を内部LAN29等に接続する。また、IOモジュール23は、PMモジュール21,22における処理動作中にも、プロセッサ等の演算手段と周辺デバイスとの間でデータ等の入出力を行うことができる構成となっている。
第1分割領域20のコアIOモジュール24は、接続線又は内部LAN29等によってIOモジュール23と第1主制御部25とに接続され、更に、第2分割領域30内の第2主制御部35とも接続される。又、このコアIOモジュール24は、拡張バス等を用いて外部の装置等との間でデータ等の入出力を行うことができる。IOモジュール23及びコアIOモジュール24により入出力される装置は、周辺デバイス又は周辺装置である。
第1主制御部25は、接続線又は内部LAN29等により、コアIOモジュール24とタイマ25Tとメモリ25Mとに接続されるのみでなく、第2分割領域30内のコアIOモジュール34及び第2主制御部35とも接続され、更に、システム内の集積回路間に通信リンクを提供するコントロールバスであるインターICバス(以下「I2Cバス」とも記載する)28により共通モジュール40内の共通管理モジュール41と接続される。第1主制御部25内の正常稼働データ送信手段80については図4を用いて後述する。
ここで、上記した周辺デバイスとは、例えば、RAM、ROM、ハードディスクドライブ装置、CD−ROMドライブ装置、フロッピーディスクドライブ装置(「フロッピー」は登録商標)、その他のリムーバブル記憶装置、ユーザーインターフェースを介したキーボード等の対人入出力装置、グラフィックコントローラを介した表示装置、通信インターフェース等である。
また、通信インターフェースは、更に専用回線又はインターネット等と接続されて、例えば使用者のコンピュータ等と通信することができる。これにより、遠隔地等の使用者のコンピュータからの処理要求をサーバシステム1へ入力させることができ、逆にサーバシステム1における処理結果を使用者に出力することができる。
ここで、本実施形態のサーバシステム1におけるハードウェア構成の一例を説明する。 サーバシステム1は、専用回線又はネットワークに接続されて外部の端末装置等と通信することができる。
このサーバシステム1内には、本実施形態に説明したセルボックス10及び11が複数個実装される。サーバシステム1内には、図示しない電源部、各セルボックス10,11用の管理装置、各セルボックス10,11と外部装置又はネットワークとのインターフェースおよび及び通信装置、入出力制御部、各種記憶装置、ユーザーインターフェース、表示用インターフェース、各種記憶媒体の読み取り/書き込み装置、入力装置、出力装置等を備えている。
本実施形態のサーバシステム1にプログラムを供給するには、インターフェース及び通信装置を介してサーバーシステム1の外部から供給するか、CD−ROM等の着脱自在な記憶媒体をその読み取り/書き込み装置に挿入するか、使用者がユーザーインターフェース及び入力手段により入力することにより、サーバーシステム1内の記憶装置に各種のプログラムを格納することができる。
それらのプログラムは、使用者の要求する処理動作の内容に応じてサーバシステム1内の記憶装置等から読み出され、第1主制御部25又は第2主制御部35に接続されるメモリ25M又はメモリ35Mに読み込まれる。
又、それらのプログラムにより規制される第1主制御部25又は第2主制御部35は、各々の分割領域内においてプログラムの処理動作を実行し、又は各々の分割領域内の各部を各種モジュール等として動作させる。
更に、上記したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク、CD−ROMの他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。又、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをサーバシステム1に提供してもよい。
ここで、前述した図1の内容説明に戻る。
前述した第2分割領域30内の各部の接続及び入出力の状況も、第1分割領域20と同様であり、第2分割領域30内のIOモジュール33は、第2分割領域30内の各演算手段と周辺デバイスとの間を接続し、各々の演算手段と周辺デバイスとの間でデータ等の入出力を実施可能とする。
第2分割領域30のコアIOモジュール34は、接続線又は内部LAN29等によりIOモジュール33と第2主制御部35に接続されるのみでなく、第1分割領域20内の第1主制御部25とも接続される。又、第2制御部35は、接続線又は内部LAN29等を介して、コアIOモジュール34とタイマ35Tとメモリ35Mとに接続され、第1分割領域20内のコアIOモジュール24及び第1主制御部25とも接続され、更に、I2Cバス28により共通モジュール40内の共通管理モジュール41にも接続されている。
第2主制御部35内の稼働データ送信手段80は、第1主制御部25の処理動作及び第2主制御部35の処理動作が正常であるか異常であるかを判断するための正常稼働データを送信する。この稼働データ送信手段80の詳細な動作については、図4を用いて後述する。
次に、第1分割領域20,第2分割領域30と、共通管理モジュール41の各構成について説明する。
ここで、この第1,第2の各分割領域20,30は、共に同様の構成であることから、各分割領域20,30内の詳細な説明は第1分割領域20について説明し、第2分割領域30の構成についは第1分割領域20の構成の説明を読み替え適用するものとする。
まず、第1分割領域20では、コアIOモジュール24により使用者からの処理要求が入力されると、第1主制御部25でその要求された処理内容が判断され、当該処理に必要となるプログラム及びデータがコアIOモジュール24により外部の記憶装置等又はIOモジュール23により周辺デバイスの記憶装置等から入力される。入力されたプログラム及びデータは、前述したPMモジュール21,22に格納され、当該PMモジュール21,22において使用者から要求された処理動作が実行される。
共通モジュール40における共通管理モジュール41は、例えば、ファームウエアがチップ上で動作するマイクロコントローラチップであり、I2Cバス28又は接続線により第1分割領域20内の第1主制御部25、第2分割領域30内の第2主制御部35、電源モジュール42、及びファンモジュール43と接続されている。又、この共通管理モジュール41は、I2Cバス28によって、第1主制御部25及び第2主制御部35によってスレーブ用デバイスとして制御される。
上記共通管理モジュール41は、搭載されたファームウエアにて第1主制御部25及び第2主制御部35とのインターフェース機能を備える。更に、この共通管理モジュール41は、電源モジュール42とファンモジュール43の処理動作を制御し、例えば、第1主制御部25及び第2主制御部35からの指示等により、電源モジュール42の処理動作を制御すると共に異常を監視し、ファンモジュール43の処理動作を制御する。
この共通管理モジュール41は、上記内容に加えて、第1,第2の各主制御部25,35の処理動作が正常に機能していることを、例えば稼働状況を一定周期毎に確認することにより監視する。この第1,第2の各主制御部25,35が正常に機能していることを示す正常稼働データは、一定周期毎の時刻を示すデータと共に共通管理モジュール41内の稼働データ記憶部50に記憶される。
又、共通管理モジュール41は、第1主制御部25の処理動作が後述するように異常であると判断した場合、第2主制御部35に対して第1分割領域用のスレーブ用FW37をマスタ用FW37’に切替えるマスタ切替要求を出力する。その結果、第2主制御部35には、第2分割領域30用のマスタ用FW36に加えてマスタ用FW37’(図5(b)参照)が搭載される。
同様に、共通管理モジュール41は、第2主制御部35の処理動作が後述するように異常であると判断した場合、第1主制御部25に対して第2分割領域用のスレーブ用FW27をマスタ用FW27’に切替える要求(マスタ切替要求)を出力する。その結果、第1主制御部25には、第1分割領域20用のマスタ用FW26に加えてマスタ用FW27’(図示せず)が搭載される。
上記共通管理モジュール41は、更に、稼働データチェック手段44を備えている(図1参照)。この稼働データチェック手段44は、第1主制御部25の処理動作及び第2主制御部25の処理動作が正常であるか異常であるかを判断するために各主制御部25,35に正常稼働データの送信を要求すると共に、送られてくる正常稼働データを受信して稼働データ記憶部50記憶された最新の正常稼働データの更新後の時間がタイムアウト時間を越えた場合に異常が発生したと判断する。このタイムアウト時間については図3を用いて後述する。

又、稼働データ記憶部50は、主制御部毎に受信した最新の正常稼働データを記憶し、同時に、新規に正常稼働データを受信する毎に最新の正常稼働データの記憶を更新する。そして、この稼働データ記憶部50は、最新の正常稼働データを稼働データチェック手段44からの要求に応じて出力する。
ここで、稼働データ記憶部50は、主制御部25,35毎の最新の正常稼働データとその1個前の正常稼働データを記憶するようにしてもよい。この稼働データチェック手段44及び稼働データ記憶部50の動作については後述する。
更に、共通管理モジュール41は、稼働データチェック手段44がセルボックス10内の2個の分割領域20,30の両主制御部25,35に異常が発生したと判断した場合、後から異常が発生した主制御部25又は35に対してI2Cバス28を介してリセット信号を送出し、当該主制御部25又は35をリセットする。この場合、第1,第2の各主制御部25,35と共通管理モジュール41との間のI2Cバス28はリセット信号線として機能する。
ここで、共通管理モジュール41を更に詳述する。
図3は、共通管理モジュール41の内部構成を示すブロック図である。この図3において、共通管理モジュール41は、各主制御部20,30から受信した正常稼働データをチェックする稼働データチェック手段44と、I2Cバス28を介してのデータの転送処理を行うI2Cバス処理手段45と、異常が検出された分割領域用のスレーブ用FWをマスタ用FWに切替える要求を出力するマスタ切替要求手段46と、及びセルボックス10内の各分割領域に異常が発生した場合には後から異常が発生した分割領域の主制御部25,35をリセットする主制御部リセット手段47とを有する。
また、共通管理モジュール41は、受信した正常稼働データを分割領域毎に記憶する稼働データ記憶部50および各分割領域がどのように構成されているかの情報を記憶する引継ぎ情報記憶部60と、各主制御部25,35に搭載された各ファームウエアの情報を格納するファームウエア状態情報部(以下「FW状態情報部」とする)70と、正常稼働データの要求周期間隔と最新の正常稼働データの更新後の時間を判断するためのタイムアウト時間を格納する監視タイミング設定部71とを有する。
更に、前述したI2Cバス処理手段45は、第1,第2の各主制御部25,35と共通管理モジュール41との間のデータの転送及び当該共通管理モジュール41へのデータの読み/書き要求を行う。
前述したマスタ切替要求手段46は、稼働データチェック手段44が異常を検出した場合に、異常が検出された分割領域の主制御部25又は35のスレーブ用FWをマスタ用FWに切替えるマスタ切替要求を当該スレーブ用FWを搭載した主制御部25又は35に対して出力する。
前述した主制御部リセット手段47は、稼働データチェック手段44がセルボックス10内の各分割領域に異常が発生したと判断した場合に、当該分割領域の主制御部25又は35にリセット信号を送出する。
前述したFW状態情報部70は、各主制御部25,35に搭載された各ファームウエアがマスタ用FWであるかスレーブ用FWであるかを示すファームウエア状態情報を格納する。
監視タイミング設定部71は、稼働データチェック手段44から第1,第2の各主制御部25,35への正常稼働データの要求周期間隔および当該要求周期間隔に基づく最新の正常稼働データの受信から正常と判断できる基準となる受信時間(タイムアウト時間)を予め格納する。
このタイムアウト時間は、第1,第2の各分割領域20,30の異常を検出するために用いられる。尚、上記した各情報は、例えば、共通管理モジュール41のチップのメモリ或いは共通管理モジュール41に接続されるフラッシュROM等に格納される。
共通管理モジュール41の稼働データチェック手段44は、第1主制御部25に対しては当該第1主制御部25による処理動作が正常であることを示す正常稼働データを所定周期の時刻データと共に要求し、更に第2主制御部35に対しては、当該第2主制御部35による処理動作が正常であることを示す正常稼働データを所定周期の時刻データと共に要求する。
そして、稼働データチェック手段44は、第1,第2の各主制御部25,35から正常稼働データを受信した場合、稼働データ記憶部50に受信した主制御部25,35毎の最新の正常稼働データを上書き記憶して更新する。その後、稼働データチェック手段44は、稼働データ記憶部50に記憶される最新の正常稼働データの更新後の時間をチェックし、所定のタイムアウト時間以上の間、更新が実施されない場合に異常と判断する。
これにより、稼働データチェック手段44は、異常が検出された分割領域におけるファームウエアによって規制された各主制御部25,35についてはその機能が停止したと判断する。
以下、このように稼働データチェック手段44が、各第1主制御部25及び第2主制御部35の内部の各制御機能部分(構成要素である各手段)に対して、当該各制御機能部分から共通管理モジュール41に正常稼働データを送信させる要求を順番に送り、受信した正常稼働データの記憶を更新する処理をポーリング処理とする。
この共通管理モジュール41の稼働データチェック手段44は、後述する主制御部25又は35から正常稼働データの監視を開始する要求(稼働データ監視開始要求)を受信してポーリング処理を設定した時の時刻データを、ポーリング処理の開始時刻とする。従って、本実施形態における所定周期は、ポーリング処理の周期である。
共通管理モジュール41の前記I2Cバス処理手段45は、I2Cバス28を介して第1主制御部25からI2Cバス28を介して共通管理モジュール41にデータを書き込む要求があった場合、この要求されたデータを共通管理モジュール41のメモリ上に書き込む。又、I2Cバス処理手段45は、I2Cバス28を介して第1主制御部25から共通管理モジュール41のメモリ上からデータを取得する要求があった場合、この要求されたデータを要求元へ転送する。
更に、I2Cバス処理手段45は、I2Cバス28を介して第2主制御部35から書き込み又は読み出しの要求があった場合も、同様にして要求されたデータをI2Cバス28を介して共通管理モジュール41に書き込み、又は読み出したデータをI2Cバス28を介して要求元へ転送する。
同様に、I2Cバス処理手段45は、I2Cバス28を介してスレーブ用FW27又は37から書き込み又は読み出しの要求があった場合も、要求されたデータをI2Cバス28を介して共通管理モジュール41に書き込み、又は読み出したデータを要求元へ転送する。
共通管理モジュール41のマスタ切替要求手段46は、第1分割領域20又は第2分割領域30について稼働データチェック手段44が異常を検出した場合に、その異常が検出された分割領域用のスレーブ用FWを搭載する主制御部25又は35に対して、スレーブ用FWをマスタ用FWに切替える要求(マスタ切替要求)を出力する。
具体例として稼働データチェック手段44が第1分割領域20の異常を検出した場合、マスタ切替要求手段46は、その異常が検出された分割領域用のスレーブ用FWを搭載する主制御部25,35におけるI2Cバス28のポートにマスタ切替要求(例えば、SMbus Alert)を非同期割り込みで送信する。
但し、その前に、マスタ切替要求手段46は、ファームウエア状態情報部70をチェックし、異常が検出された分割領域の主制御部上に搭載された両方のファームウエアがマスタ用FWであると判断した場合、第2主制御部35は処理動作できない可能性が高いので、マスタ切替要求通知をマスクして使用しない。
共通管理モジュール41の主制御部リセット手段47は、稼働データチェック手段44が1個のセルボックス内の両分割領域20,30に異常が発生したと判断した場合に、後で異常が発生した主制御部25又は35をリセットするために当該各主制御部25又は35にリセット信号を送出する。
この稼働データ記憶部50は、第1分割領域20の各部を制御するために第1主制御部25による処理動作の正常稼働データを記憶する第1分割領域用の稼働データ領域51と、第2分割領域30の各部を制御するために第2主制御部35による処理動作の正常稼働データを記憶する第2分割領域用の稼働データ領域52を有する。
共通管理モジュール41の引継ぎ情報記憶部60は、更に第1分割領域20がどのように構成されているかの情報として各分割領域(パーティション)の構成情報,接続情報および設定情報等を記憶する第1分割領域用の構成情報領域(パーティション情報領域)61を備えている。
又、この引継ぎ情報記憶部60は、第1分割領域20に発生した異常によって機能停止した障害の内容を示すログ情報(障害ログ,障害情報)を記憶する第1分割領域用の障害情報記憶領域62と、第2分割領域30がどのように構成されているかの情報として各分割領域(パーティション)の構成情報,接続情報及び設定情報等を記憶する第2分割領域用の構成情報領域(パーティション情報領域)63と、第2分割領域30に発生した異常により機能停止した障害の内容を示すログ情報を記憶する第2分割領域用の障害情報記憶領域64とを備えている。
共通管理モジュール41の上記構成情報領域61には、第1分割領域20を構成する各モジュールの構成情報(分割領域を構成するPMモジュール21,22、IOモジュール23、コアIOモジュール24、共通管理モジュール41の情報と接続情報)が、第1分割領域20の設定情報(分割領域名、分割領域ID、ネットワーク設定情報)が、更には、システムジェネレータ(SG)情報としてのデバイスおよび各主制御部の処理動作に関連する設定情報が、それぞれ保持されている。
前述した各構成情報は、例えば、第1主制御部25がセルボックス10内に第1分割領域20を設定する際に構成情報領域(パーティション情報領域)61に格納する。
同様にして、構成情報領域63には、第2分割領域30を構成する各モジュールの構成情報(分割領域を構成するPMモジュール31,32、IOモジュール33、コアIOモジュール34および共通管理モジュール41の情報と接続情報)が、第2分割領域30の設定情報(分割領域名,分割領域ID,ネットワーク設定情報)が、更にはSG情報(デバイス,各主制御部の処理動作に関連する設定情報)が、それぞれ保持されている。
そして、これらの構成情報も、例えば第2主制御部35がセルボックス10内に第2分割領域30を設定する際の構成情報領域(パーティション情報領域)63に格納する。
共通管理モジュール41の前述したFW状態情報部70には、第1主制御部25内の各ファームウエア26,27の各々についてマスタ用FWであるかスレーブ用FWであるかを示すファームウエア状態情報と、第2主制御部35内の各ファームウエア36,37の各々についてマスタ用FWであるかスレーブ用FWであるかを示すファームウエア状態情報が格納される。
このFW状態情報部70には、このファームウエア状態情報が、例えば、サーバシステム1の製造時又は設置時に、図2に示す第1主制御部25内のファームウエア26が第1分割領域20用のマスタ用FWであり、ファームウエア27が第2分割領域30用のスレーブ用FWであることが格納される。その際、FW状態情報部70には、同様に第2主制御部35内のファームウエア36が第2分割領域30用のマスタ用FWであり、ファームウエア37が第1分割領域20用のスレーブ用FWであることが格納される。
又、このFW状態情報部70は、例えば、マスタ切替要求手段46がスレーブ用FWをマスタ用FWに切替えるマスタ切替要求を送出した後に、送出先の当該スレーブ用FWがマスタ用FWに変更されたことを示すファームウエア状態情報を格納する。
共通管理モジュール41の監視タイミング設定部71は、稼働データチェック手段44が第1主制御部25に搭載された各ファームウエア26,27、第2主制御部35に搭載された各ファームウエア36,37に対して要求するポーリング処理を実施する所定周期の設定値、及び所定のタイムアウト時間を格納する。
この所定のタイムアウト時間は、例えばポーリング処理の所定周期に基づき、通信時間と各モジュール等の処理時間,誤差,設計値,試験値,及び安全係数等を考慮して予め定められる。ポーリング処理の間隔は、例えば、マスタ用FW26,36のWEB用のコンソール機能を用いるか、或いはファームウエアのコマンドライン用のインターフェースを用いること等により設定することができる。
そして、この稼働データチェック手段44は、この所定周期の設定値を用いて第1主制御部25及び第2主制御部35へ正常稼働データを要求し、タイムアウト時間を用いて正常稼働データの更新を監視する。
図4は、第1主制御部25の内部構成を示すブロック図である。
ここで、第2主制御部35の内部構成は、第1主制御部25の内部構成と同一となっている。
前述した第1主制御部25は、設定された周期間隔でマスタ用FWの実行およびスレーブ用FWの実行にかかる正常稼働データを共通管理モジュール41へ送信する稼働データ送信手段80と、第1主制御部25と第2主制御部35の間を通信接続するネットワークを確立するネットワーク確立手段81と、第1主制御部25及び第2主制御部35の上に搭載されたファームウエアがマスタ用FWであるか或いはスレーブ用FWであるかを判別するスレーブ/マスタ判別手段82と、共通管理モジュール41からのマスタ切替要求を受信してマスタ切替え手段84を起動するマスタ切替要求受領手段83とを有する。
上記第1主制御部25は、障害が検出された分割領域についての構成情報及び障害情報を共通管理モジュール41から取得するマスタ切替え手段84と、共通管理モジュール41から分割領域の構成情報を取得する分割領域引継ぎ手段85と、共通管理モジュール41から分割領域の障害情報を取得する障害情報引継ぎ手段86とを有する。
また、この第1主制御部25は、分割領域内の主制御部に搭載された各ファームウエアがマスタ用FWかスレーブ用FWかの情報を格納する(分割領域)ファームウエア状態情報設定手段(以下「FW状態情報設定手段」とする)87と、分割領域内の各ファームウエアにより規制される当該主制御部に異常が発生した場合の機能停止等の障害情報を格納する障害情報設定手段88と、稼働データ記憶部50への書き込み間隔等の設定値を格納する稼働データ更新間隔設定部89とを有する。
稼働データ送信手段80は、第1主制御部25の内部に設けられる場合、第1主制御部25が起動された時から予め設定された所定周期毎に、共通管理モジュール41の稼働データ記憶部50へI2Cバス28経由で正常稼働データを送信する。
第2主制御部35の内部に設けられる場合の稼働データ送信手段80は、第2主制御部35が起動された時から設定された所定周期毎に、共通管理モジュール41の稼働データ記憶部50へI2Cバス28経由で送信する。
ネットワーク確立手段81は、第1主制御部25の内部に設けられる場合、サーバシステム1の起動時に、マスタ用FW26で稼働する場合の第1分割領域20の第1主制御部25とスレーブ用FWで稼働する場合の第2分割領域30の第2主制御部35との間、およびスレーブ用FWで稼働する場合の第1分割領域20の第1主制御部25とマスタ用FW26で稼働する場合の第2分割領域30の第2主制御部35との間が、それそれネットワークで接続されていることを導通試験により確認する機能を備えている。
又、ネットワーク確立手段81は、第2主制御部35の内部に設けられる場合も、同様にして、サーバシステム1の起動時に、マスタ用FW26で稼働する場合の第1分割領域20の第1主制御部25とスレーブ用FWで稼働する場合の第2分割領域30の第2主制御部35との間、およびスレーブ用FWで稼働する場合の第1分割領域20の第1主制御部25とマスタ用FW26で稼働する場合の第2分割領域30の第2主制御部35との間が、それそれネットワークで接続されていることを導通試験により確認する機能を備えている。
スレーブ/マスタ判別手段82は、第1主制御部25の内部に設けられる場合、第1主制御部25上に搭載された各ファームウエア26,27がマスタ用FWであるか或いはスレーブ用FWであるかの判別を行う。第1主制御部25(スレーブ用FW27)は、スレーブ/マスタ判別手段82により当該第1主制御部25(スレーブ用FW27)がスレーブ用FWに規制されていると認識した場合、割込待ち状態に移行して共通管理モジュール41からの割込待ち状態となる。
第2主制御部35の内部に設けられる場合のスレーブ/マスタ判別手段82は、第2主制御部35上に搭載された各ファームウエア36及び37がマスタ用FWであるか或いはスレーブ用FWであるかの判別を行う。
第2主制御部35(スレーブ用FW37)は、スレーブ/マスタ判別手段82により当該第2主制御部35(スレーブ用FW37)がスレーブ用FWにより規制されていると認識した場合には、割込待ち状態に移行して共通管理モジュール41からの割込待ち状態となる。
但し、これらの場合のスレーブ用FW27及びスレーブ用FW37は、各々割込待ち状態であっても第1分割領域20及び第2分割領域30の制御及び各種周辺装置等のハードウエア制御を行う基本機能については、マスタ用FW36と同様に動作させることができる。
マスタ切替要求受領手段83は、第1主制御部25の内部に設けられる場合で、第1主制御部25(スレーブ用FW27)が共通管理モジュール41からのマスタ切替要求を割込処理で受信した場合、I2Cバス28のインターフェースにおけるレジスタから割り込み要因を取得し、マスタ切替要求に対応する割り込みか否かを判別する。この場合、マスタ切替要求受領手段83は、マスタ切替要求の割り込みであると判別した場合には、マスタ切替え手段84を起動し、そうでない場合は処理を終了する。
第2主制御部35の内部に設けられる場合のマスタ切替要求受領手段83は、第2主制御部35(スレーブ用FW37)が共通管理モジュール41からのマスタ切替要求を受信した場合、I2Cバス28のインターフェースにおけるレジスタから割り込み要因を取得し、マスタ切替要求に対応する割り込みか否かを判別する。その場合のマスタ切替要求受領手段83は、マスタ切替要求の割り込みであると判別した場合にはマスタ切替え手段84を起動し、そうでない場合は処理を終了する。
マスタ切替え手段84は、第1主制御部25の内部に設けられる場合で且つ第2分割領域30に異常が検出された場合には、後述する分割領域引継ぎ手段85及び障害情報引継ぎ手段86を用いて第2分割領域30についての構成情報及び障害情報を取得する。
第2主制御部35の内部に設けられる場合のマスタ切替手段84は、第1分割領域20に異常が検出された場合、後述する分割領域引継ぎ手段85及び障害情報引継ぎ手段86を用いて第1分割領域20についての構成情報及び障害情報を取得する。
分割領域引継ぎ手段85は、第1主制御部25の内部に設けられる場合、マスタ切替え手段84からの指示によりI2Cバス28を介して共通管理モジュール41の構成情報領域63から第2分割領域30の構成情報を取得する。
第2主制御部35の内部に設けられる場合の分割領域引継ぎ手段85は、マスタ切替え手段84からの指示によりI2Cバス28を介して共通管理モジュール41の構成情報領域61から第1分割領域20の構成情報を取得する。
障害情報引継ぎ手段86は、第1主制御部25の内部に設けられる場合、マスタ切替え手段84からの指示により、I2Cバス28を介して共通管理モジュール41の第2分割領域30の障害情報記憶領域64から第2分割領域30の障害情報を取得する。
第2主制御部35の内部に設けられる場合の障害情報引継ぎ手段86は、マスタ切替え手段84からの指示により、I2Cバス28を介して共通管理モジュール41における第1分割領域の障害情報記憶領域62から、第1分割領域20の障害情報を取得する。
FW状態情報設定手段87は、第1主制御部25の内部に設けられる場合で、マスタ用FW26及びスレーブ用FW27が第1分割領域20内の第1主制御部25に搭載される場合に、共通管理モジュール41のファームウエア状態情報部70に「第1分割領域20のファームウエア26がマスタ用FWとして搭載され、ファームウエア27がスレーブ用FWとして搭載されている」ということを示すファームウエア状態情報を格納する機能を備えている。
第2主制御部35の内部に設けられる場合のFW状態情報設定手段87は、マスタ用FW36及びスレーブ用FW37が第2分割領域30内の第2主制御部35に搭載される場合に、共通管理モジュール41のファームウエア状態情報部70に「第2分割領域30のファームウエア36がマスタ用FWファームウエアとして搭載され、ファームウエア37がスレーブ用FWとして搭載されている」ということを示すファームウエア状態情報を格納する機能を備えている。
障害情報設定手段88は、第1主制御部25の内部に設けられる場合で、第1主制御部25(マスタ用FW26)に異常が発生した時に、障害ログおよび障害情報等を共通管理モジュール41の第1分割領域の障害情報記憶領域62に設定する。
第2主制御部35の内部に設けられる場合の障害情報設定手段88は、第2主制御部35(マスタ用FW36)に異常が発生した時に、障害ログおよび障害情報等を共通管理モジュール41の第2分割領域の障害情報記憶領域64に設定する。
稼働データ更新間隔設定部89は、第1主制御部25の内部に設けられる場合には、共通管理モジュール41における第1分割領域用の稼働データ部51に、正常稼働データを出力して書き込む間隔等を示す設定値を格納する。
又、第2主制御部35の内部に設けられる場合の稼働データ更新間隔設定部89は、共通管理モジュール41の第2分割領域用の稼働データ部52に、正常稼働データを出力して書き込む間隔等を示す設定値を格納する。
この場合、各設定値は、例えばWEB用のコンソール機能を使用するか、或いはファームウエアのコマンドライン用のインターフェースに接続することにより、設定を変更することができるようになっている。
図5(a)は、図2(a)に示した第1主制御部25(マスタ用FW26)に異常が発生した状態を示す図であり、図5(b)は、図2(b)に示したスレーブ用FW37がマスタ用FW37’に切り替えられた状態を示す図である。
第2主制御部35(スレーブ用FW37)は、例えば、共通管理モジュール41からスレーブ用FW37をマスタ用FWに切替える要求(マスタ切替要求)を受信した場合、基本処理動作以外の制限を解除する等により、スレーブ用FWをマスタ用FWに切替える。
これにより、第2主制御部35において切り替えられた第1分割領域用のマスタ用FW37’(以下、単に「マスタ用FW37’」とする)により規制された第2主制御部35(以下、「第2主制御部35(マスタ用FW37’)」とする)は、第1主制御部25(マスタ用FW26)の処理動作を中断しないで受け継ぎできるように制御を開始する。
具体的には、新規にマスタ用FWとなったファームウエアを搭載する第2主制御部35(マスタ用FW37’)は、共通管理モジュール41の構成情報領域61及び第1分割領域用の障害情報記憶領域62から第1分割領域20に関する構成情報及び障害情報を取得して、それらの情報に基づいて第2分割領域30の第2主制御部35により各部の制御を開始する。
同様にして、スレーブ用FW27が搭載された第1主制御部25は、共通管理モジュール41からマスタ切替要求を受信した場合、基本処理動作以外の制限を解除する等により、スレーブ用FW27をマスタ用FWに切替える。
これにより、第1主制御部25においてマスタ用FWに切り替えられたスレーブ用FW27’(以下、単に「マスタ用FW27’」とする)により規制された第1主制御部25(マスタ用FW27’)は、第2主制御部35(マスタ用FW36)の処理動作を中断しないで受け継ぎできるように制御を開始する。
具体的には、新規にマスタ用FWとなったファームウエアを搭載した第1主制御部25(マスタ用FW27’)は、共通管理モジュール41の構成情報領域63及び第2分割領域の障害情報記憶領域64から第2分割領域30に関する構成情報及び障害情報を取得して、それらの情報に基づいて第1分割領域20の第1主制御部25により各部の制御を開始する。
次に、本実施形態における各主制御部25,35の起動時の動作を図6のフローチャートに基づいて説明する。ここで、この図6は第1主制御部25の起動時にかかるものであるが、第2主制御部35の起動時の動作も同様である。
まず最初に、同一セルボックス10内の一方と他方の各分割領域内における主制御部25,35は、それぞれ他の分割領域内の主制御部35,25が搭載しているマスタファームウエアと同一のファームウエアを、スレーブ用ファームウエアとして搭載する工程が事前に実行され保持される。
続いて、一方の分割領域内における第1主制御部25は、電源がオン(ON)されたか否かを判断し(図6:ステップS1)、オンされていない場合(図6:ステップS1/NO)には、ステップS1の判断を繰り返して待ち受け、オンされた場合(図6:ステップS1/YES)には第1主制御部25及び第2主制御部35上の全ファームウエアを起動する(図6;ステップS2)。
具体的には、第1主制御部25は、第1主制御部25上で第1分割領域20の制御を行うマスタ用FW26とスレーブ用FW27を起動する。
同様にして、第2主制御部35は、第2主制御部35上で第2分割領域30の制御を行うマスタ用FW36とスレーブ用FW37を起動する。
次に、第1分割領域20の第1主制御部25(マスタ用FW26)は、ネットワーク確立手段81により、内部LAN29を介して第2主制御部35との間で相互に導通テストを行い、両者間がネットワークに接続されて且つネットワークが正常に動作していることを確認する。
同様にして、第2分割領域30の第2主制御部35(マスタ用FW36)は、ネットワーク確立手段81により、内部LAN29を介して第1主制御部25との間で相互に導通テストを行い、両者間がネットワークに接続されて、ネットワークが正常に動作していることを確認する(図6:ステップS3)。
第1主制御部25及び第2主制御部35は、スレーブ/マスタ判別手段82により、ネットワーク確立手段81による導通テストの応答で得られたファームウエア情報に基いて当該第1主制御部25及び第2主制御部35がマスタ用FWかスレーブ用FWかを判別する(図6:S4)。
具体的には、第1主制御部25(マスタ用FW26)の場合、当該第1主制御部25がマスタ用FWに規制された状態であることをスレーブ/マスタ判別手段82により自ら判別する。又、第1主制御部25(スレーブ用FW27)の場合も同様に、当該第1主制御部25がスレーブ用FWに規制された状態であることをスレーブ/マスタ判別手段82により自ら判別する。
続いて、第2主制御部35(マスタ用FW36)は、当該第2主制御部35がマスタ用FWに規制された状態であることをスレーブ/マスタ判別手段82により自ら判別する。又、第2主制御部35(スレーブ用FW37)の場合も同様に、当該第2主制御部35(スレーブ用FW37)がスレーブ用FWに規制された状態であることをスレーブ/マスタ判別手段82により自ら判別する(図6:S5)。
そして、第2主制御部35(スレーブ用FW37)及び第1主制御部25(スレーブ用FW27)は、各々がスレーブ用FWに規制された状態であると判別した場合(図6:ステップS5/NO)、共通管理モジュール41からの割込待ち状態に移行する(図6:ステップS11)。
これに対し、第1主制御部25(マスタ用FW26)及び第2主制御部35(マスタ用FW36)は、各々がマスタ用FWに規制された状態であると判別した場合(図6:ステップS5/YES)には、稼働データ送信手段80により共通管理モジュール41に対して正常稼働データの監視を開始させる要求(稼働データ監視開始要求)を送出し(図6:ステップS6)、同時に、タイマ25T及び35Tにより稼働データ送信手段80を予め設定されているポーリング処理の所定周期で起動し、I2Cバス28を介して、正常稼働データを一定周期の時刻データと共に共通管理モジュール41に対して送信する(図6:ステップS7、正常稼働データ送出工程)。
この時、所定周期で起動される間隔は、稼働データ更新間隔設定記憶部89から取得される。又、第1主制御部25(マスタ用FW26)が送信した正常稼働データは、共通管理モジュール41内の第1分割領域用の稼働データ部51に所定周期で書き込まれて更新される。第2主制御部35(マスタ用FW36)が送信した正常稼働データは、共通管理モジュール41により第2分割領域用の稼働データ部52に書き込まれて更新される(受信時刻記憶工程)。
第1分割領域20に異常が発生しない間、第1主制御部25(マスタ用FW26)は、上記のように正常稼働データを所定周期で送信し続ける。同時に、共通管理モジュール41は、第1分割領域用の稼働データ部51に受信した正常稼働データを更新し続ける。
同様にして、第2分割領域30に異常が発生しない間、第2主制御部35(マスタ用FW36)は、上記のように正常稼働データを所定周期で送信し続ける。同時に、共通管理モジュール41は、前記正常稼働データを受信しその時刻を記録する共に、この受信した正常稼働データを第2分割領域用の稼働データ部52にて更新する(稼働データ記憶処理工程)。
第1分割領域20からの正常稼働データの更新が途絶えると、それを検出した共通管理モジュール41は、第1分割領域20に異常が発生したと判断し(異常動作検出処理工程)、第2分割領域30内の第2主制御部35(スレーブ用FW37)に対してI2Cバス28を用いた割り込み処理によりマスタ切替要求を送信する(切替要求出力処理工程)。同様に、第2分割領域30からの正常稼働データの更新が途絶えると、それを検出した共通管理モジュール41は、第2分割領域30に異常が発生したと判断して第1分割領域20内の第1主制御部25(スレーブ用FW27)に対してI2Cバス28を用いた割り込み処理によりマスタ切替要求を送信する。
第2主制御部35(スレーブ用FW37)は、マスタ切替要求受信手段83によってI2Cバス28からの割り込み処理を検出すると、その割り込み処理の内容がマスタ切替要求を示すか否かを判断する。同様に、第1主制御部25(スレーブ用FW27)は、マスタ切替要求受信手段83によってI2Cバス28からの割り込み処理を検出すると、その割り込み処理の内容がマスタ切替え要求を示すか否かを判断する(図6:ステップS8)。
第2主制御部35(スレーブ用FW37)は、割り込み処理の内容がマスタ切替要求を示さない場合(図6:ステップS8/NO)にはステップS8の判断を再度繰り返して待ち受けると共に、割り込みがマスタ切替要求を示す場合(図6:ステップS8/YES)には、マスタ切替え手段84により自身を第1分割領域用のマスタ用FWウエア37’に切り替える。
同様にして第1主制御部25(スレーブ用FW27)は、割り込み処理の内容がマスタ切替要求を示さない場合(図6:ステップS8/NO)にはステップS8の判断を再度繰り返して待ち受け、割り込みがマスタ切替要求を示す場合(図6:ステップS8/YES)には、マスタ切替え手段84により自らを第2分割領域用のマスタ用FW27’に切り替える(図6:ステップS9)。
続いて、第2主制御部35(マスタ用FW37’)は、分割領域引継ぎ手段85及び障害情報引継ぎ手段86を使用して、共通管理モジュール41の構成情報領域61及び第1分割領域の障害情報記憶領域62から第1分割領域20の構成情報と障害情報(障害ログ等)を取得する。そして、第2分割領域30において処理動作を開始し、異常が発生した元の第1主制御部25(マスタ用FW26)から、そこで実施されていた処理動作を受け継ぐ。
同様にして第1主制御部25(マスタ用FW27’)は、分割領域引継ぎ手段85、及び、障害情報引継ぎ手段86を使用して共通管理モジュール41の構成情報領域63及び第2分割領域の障害情報記憶領域64から第2分割領域30の構成情報と障害情報を取得して第1分割領域20にて処理動作を開始し、異常が発生した元の第2主制御部35(マスタ用FW36)から、そこで実施されていた処理動作を受け継ぐ(図6:ステップS10)。
以降、第2主制御部35(マスタ用FW37’)は、障害発生時まで第1分割領域20で実施されていた処理動作を実施するように制御する。同様に、第1主制御部25(マスタ用FW27’)は、障害発生時まで第2分割領域30で使用者の要求により実施されていた処理動作を第1分割領域20で実施するように制御する。
次に、前述した共通管理モジュール41の動作を図7のフローチャートに基づいて説明する。
まず、サーバシステム1が起動された後、共通管理モジュール41は、図6のステップS6に示された第1主制御部25(マスタ用FW26)及び第2主制御部35(マスタ用FW36)からの稼働監視開始要求を受信したか否かを判断する(図7:ステップS21)。
そして、共通管理モジュール41は、上記稼働監視開始要求を受信していない場合(図7:ステップS21/NO)には、再度S21の判断を繰り返して待ち受け、稼働監視開始要求を受信した場合(図7:ステップS21/YES)には、その要求をトリガとして稼働データチェック手段44を起動させ、正常稼働データ記憶部50における第1分割領域用の稼働データ部51と第2分割領域用の稼働データ部52に所定周期で正常稼働データが書き込まれて更新されていることを確認する(図7:ステップS22)。この時、正常稼働データの所定周期で確認する間隔は、監視タイミング設定部71から取得されて稼働データチェック手段44に提供される。
尚、第1主制御部25(マスタ用FW26)から所定周期に受信する正常稼働データは、共通管理モジュール41内の第1分割領域用の稼働データ部51に、時刻データと共に所定周期毎に書き込まれて更新される。第2主制御部35(マスタ用FW36)から所定周期に受信する正常稼働データは、共通管理モジュール41内の第2分割領域用の稼働データ部52に、時刻データと共に所定周期毎に書き込まれて更新される(稼働データ記憶処理工程)。
共通管理モジュール41は、前回の正常稼働データが更新されると、その更新された時刻データと現在の時刻データとの差分を算出し、その差分を監視タイミング設定部71に予め設定された第1主制御部25(マスタ用FW26)、第1主制御部25(スレーブ用FW27)、第2主制御部35(マスタ用FW36)、第2主制御部35(スレーブ用FW37)の異常を検出するための更新のタイムアウト時間と比較し(図7:ステップS23)、比較結果が設定されタイムアウト時間以上であるか否かを判断する(図7:ステップS24)。
第1主制御部25(マスタ用FW26)からの正常稼働データの差分がタイムアウト時間以上になった場合(図7:S24/YES)に、共通管理モジュール41は、第1主制御部25(マスタ用FW26)が何らかの原因によって動作不能になったと判断する。
同様にして、第2主制御部35(マスタ用FW36)からの正常稼働データの差分がタイムアウト時間以上になった場合(図7:S24/YES)、共通管理モジュール41は、第2主制御部35(マスタ用FW36)が何らかの原因によって動作不能になったと判断する(異常動作検出処理工程)。
第1主制御部25(マスタ用FW26)が動作不能と判断した共通管理モジュール41は、マスタ切替え要求手段46により第2主制御部35上のI2Cバス28のポートに割り込みを設定すると共に、第2主制御部35上の第2主制御部35(スレーブ用FW37)に対してマスタ切替要求を送信する。
同様にして、第2主制御部35(マスタ用FW36)が動作不能と判断した共通管理モジュール41は、マスタ切替え要求手段46により第1主制御部25上のI2Cバス28のポートに割り込みを設定すると共に、第1主制御部25上の第1主制御部25(スレーブ用FW27)に対してマスタ切替要求を送信する(切替要求出力処理工程)。
このマスタ切替要求としては、例えば、SMbus Alert(SMバス アラート)を送信する。共通管理モジュール41は、マスタ切替要求を第1主制御部25(スレーブ用FW27)に送信した場合には、ファームウエア状態情報部70における第1主制御部25上で動作しているファームウエアの構成情報の記録を更新し、マスタ切替要求を第2主制御部35(スレーブ用FW37)に送信した場合には、ファームウエア状態情報部70における第2主制御部35上で動作しているファームウエアの構成情報の記録を更新する(S25)。
ここで、上述した稼働データ記憶処理工程,異常動作検出処理工程,および切替要求出力処理工程を含む上記共通管理モジュール41における図6,図7に開示したデータ処理内容全体をプログラム化し,コンピュータに実行させるように構成してもよい。
このように、本発明にかかる上記本実施形態によると、第1分割領域20の第1主制御部25及び第2分割領域30の第2主制御部35の異常を監視する共通モジュールを設け、この第1,第2の各主制御部25,35内に相手の分割領域用のファームウエアをスレーブ用FWとして搭載するので、同一セルボックス内の一方の分割領域の制御手段に障害が発生した場合、異常が発生した分割領域の主制御部の処理動作を別の分割領域の主制御部に確実に転移させて受け継がせることができる。
又、本実施形態にあっては、第1分割領域20の第1主制御部25(マスタ用FW26)と第2分割領域30用の第2主制御部35(マスタ用FW36)の何れか一方に異常が発生した場合に確実に他方の分割領域に処理動作を転移して処理動作を受け継がせることができることから、サーバシステムの信頼性を向上させることができる。
その結果、本実施形態によると、例えば、落雷によるサージ等の雑音の侵入、電源電圧変動等に対する仕様の値を大きくできるので、それら発生が多い悪環境下での使用が可能になり、さらに、主制御部における障害発生後の使用時間を長くできることから、全体的には製品寿命を長くすることができるという利点がある。
また、本実施形態によると、分割領域の引継ぎ情報記憶部60に、一のセルボックス10内の各第1分割領域20、第2分割領域30に発生した異常又は障害の情報を格納するので、必要に応じて障害の内容を知ることができる。
更に、各主制御部のスレーブ用FWとしてのファームウエアを通常は割込待ち状態で待機させるようにして、共通管理モジュール41から、一方の主制御部におけるマスタ用FWを搭載する主制御部に異常が発生したことを通知するアラート通知を受信することにより、他方の主制御部におけるスレーブ用FWの割込待ち状態を解除してマスタ用FWに切替えることができる。
そして又、本実施形態によると、一方の分割領域の主制御部で実施されていた制御を他方の主制御部により再開するため、他方の主制御部上で動作するマスタファームウエアによる処理動作の性能及び動作に対する影響を、異常が発生するまでは最低限に抑えることができる。
更に、前述した関連技術では、単一のセルボックス内に2個の分割領域を備えたサーバシステムは共通モジュールを備えていなかったので、異常が発生した分割領域の主制御部の処理動作を別の分割領域の主制御部に転移させる場合、スレーブ用FWにより規制された主制御部とマスタ用FWにより規制された主制御部の間で相互に監視する手段を設置しなければならないという不都合があった。
かかる場合、前述した関連技術では、同一のセルボックス内において一方の分割領域から他方の分割領域へ処理動作を転移させる場合には、一方の分割領域の主制御部でマスタ用FWと、他方の分割領域の主制御部でスレーブ用FWを動作させ、内部LAN又はI2Cバス等を使用してハートビート方式(マスタ死活監視:ネット上でコンピュータやネットワーク機器が、正常動作していることを外部に信号で通知する方式)によりスレーブ/マスタ間でファームウエアの相互監視を行っていた。
このため、上記した従来周知のサーバシステムは、内部LAN又はI2Cバス等の通信インターフェースの負荷が大きく、各主制御部35又は25への割込処理が煩雑になり、NIC(ネットワーク・インターフェース・カード)及びI2Cバス等からの割り込み量が多くなり、通信過負荷状態が発生して制御手段及びマスタファームウエアにより規制された主制御部の処理動作の性能を低下させていた。また、従来のそのようなサーバシステムは、その性能低下を補償するために性能の高い演算素子等が必要になることから開発コストを上昇させていた。
しかしながら、本実施形態におけるサーバシステム1は、共通モジュール40を備えており、その共通モジュール40が各主制御部25,35と構成情報及び障害情報について通信するので、スレーブ用FWにより規制された主制御部とマスタ用FWにより規制された主制御部との間の通信インターフェースの負荷が大きくならない。
従って、本実施形態のサーバシステムでは、ハートビート方式の相互監視の機能を無くすことができることから、各ファームウエアにより規制された主制御部の処理動作の性能の劣化を低減させることができ、各主制御部におけるファームウエアにより規制された主制御部の処理動作に対するコストを削減できる。
また、前述した従来の関連技術における単一のセルボックス内に2個の分割領域を備えるサーバシステムは、各制御手段内に代替ファームウエアを搭載していなかったので、一方の分割領域に異常が発生した場合、その処理動作を転移させるには、他方の分割領域の主制御部を用いなければならなかった。そのため、従来の関連技術におけるサーバシステムでは、他方の分割領域のファームウエアを稼働状態で待機させることが必要だった。更に、障害発生時に他方の分割領域の主制御部で処理を実施していた場合は、前述した関連技術におけるサーバシステムでは、その実施されていた処理を中断させることが必要となっていた。
これに対し、本実施形態では、各主制御部25,35内に代替ファームウエアを搭載しているので、一方の分割領域の主制御部25又は35による処理動作に異常が発生した場合に、他方の分割領域の主制御部35又は25により、実施されている処理動作を中断させることなくそれまでの処理動作を受け継がせることで、異常が発生した分割領域の主制御部による処理動作を転移させることができるという利点がある。
また、前述した関連技術における1セルボックス内に2個の分割領域を備えるサーバシステムでは、通信インターフェースに問題が発生することにより制御手段に異常が発生した場合、同一制御手段上で動作しているファームウエアにより規制された制御手段も動作不能となる可能性があった。更に、前述した関連技術におけるサーバシステムでは、ファームウエアにより規制された制御手段が動作不能となった場合は異常の発生した分割領域の処理動作の転移ができなくなりダウンする可能性があった。
これに対して、本実施形態では、スレーブ用FWにより規制された主制御部25,35の領域は割込待ち状態で基本機能以外はスリープさせていることから、同じ主制御部25,35上で動作しているマスタ用FWにより規制された主制御部25,35を動作不能にする等の悪影響を与えず、そのようなスレーブ用FWにより規制された主制御部25又は35の異常に関する問題を解決するための開発コストを低減させることができる。
以上、本発明を1セルボックス内に2個の分割領域を備えるサーバシステムに適用した一実施形態について説明したが、本発明は1セルボックス内に2個の分割領域を備えるサーバシステムに限らず、例えば、1セルボックス内に3個以上の分割領域を備えるサーバシステムにおいても主制御部にそれらのスレーブファームウエアを搭載することにより実施することができる。
本発明は、複数のコンピュータをネットワークを介して協働できるように接続されたシステム、或いは複数の分割領域を備えるコンピュータ装置等においても、本発明の共通モジュールに相当する手段を設けることにより、各分割領域又はコンピュータの正常稼働状態を監視することで、異常が発生したコンピュータ又は分割領域の処理動作を中断することなく確実に転移することができる。
本発明の一実施形態におけるサーバシステムの概略構成を示すブロック図である。 図1に示すサーバシステムの各セルが備えている主制御部のファームウエアを示す図で、図2(a)は第1主制御部上に搭載されるファームウエアの状態を示す説明図、図2(b)は第2主制御部上に搭載されるファームウエアの状態を示す説明図である。 図1に示すサーバシステム内に開示した共通管理モジュールの内部構成を示すブロック図である。 図1に示すサーバシステム内に開示した各セル内の第1主制御部及び第2主制御部の内部構成を示すブロック図である。 図1に示すサーバシステムの各セルが備えている主制御部の異常発生と切替え動作等を示す図で、図5(a)は図2(a)に示したマスタファームウエアによって規制された第1主制御部に異常が発生した場合の状態を示す説明図、図5(b)は図2(b)に示した第1分割領域用のスレーブ用FWをマスタ用FWに切り替えた場合の状態を示す説明図である。 図1に示すサーバシステム内に開示した第1,第2の各主制御部の動作を示すフローチャートである。 図1に示すサーバシステム内に開示した共通管理モジュールの動作を示すフローチャートである。
符号の説明
1 サーバシステム
10,11 セルボックス
20 第1分割領域
21,22,31,32 プロセッサ/メモリモジュール(PMモジュール)
23,33 入出力モジュール(IOモジュール)
24,34 統合入出力モジュール(コアIOモジュール)
25 第1の主制御部
25T,35T タイマ
26 第1分割領域用のマスタ用ファームウエア(マスタ用FW)
27 第2分割領域用のスレーブ用ファームウエア(スレーブ用FW)
28 インターICバス(I2Cバス)
29 内部LAN
30 第2分割領域
35 第2の主制御部
36 第2分割領域用のマスタ用ファームウエア(マスタ用FW)
37 第1分割領域用のスレーブ用ファームウエア(スレーブ用FW)
40 共通モジュール
41 共通管理モジュール
42 電源モジュール
43 ファンモジュール

Claims (9)

  1. 一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備え、前記各分割領域内には当該分割領域内の各構成要素の動作を制御する主制御部がそれぞれ個別に装備され、前記各主制御部は少なくとも当該分割領域内の各部の基本処理動作を規制するファームウエアをマスタ用ファームウエアとして搭載すると共に、同一セルボックス内の前記一方の分割領域の主制御部に異常が発生した場合には他方の分割領域の主制御部に前記一方の分割領域内における各構成要素の制御動作を委ねる構成のサーバシステムであって、
    前記各主制御部が、各々同一のセルボックス内の他方の分割領域用のファームウエアをスレーブ用ファームウエアとして割込待ち状態で保持すると共に、
    前記同一のセルボックス内に、前記各主制御部と接続され且つ一方の分割領域の主制御部に異常が発生した場合に、他方の分割領域の主制御部に対して当該主制御部に搭載された前記一方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切り替えさせる共通管理モジュールを備え、
    この共通管理モジュールが、前記各主制御部から送られてくる正常稼働データを更新し記憶する稼働データ記憶部と、前記各主制御部に対して正常稼働データの送信を要求すると共に当該各主制御部からの正常稼働データが送信されない状態が先に送られた正常稼働データの更新時を基準として予め設定したタイムアウト時間を越えている場合に、対応する主制御部に異常が発生したと判定する稼働データチェック手段とを備えていることを特徴とするサーバシステム。
  2. 前記請求項1に記載のサーバシステムにおいて、
    前記タイムアウト時間は、前記稼働データチェック手段から前記各主制御部へ正常稼働データの送信を要求する要求周期間隔に基づいて設定され、最新の正常稼働データの受信から正常と判定し得る範囲の受信経過時間であることを特徴とするサーバシステム。
  3. 前記請求項に記載のサーバシステムにおいて、
    前記共通管理モジュールは、前記稼働データチェック手段が前記各分割領域の内の一方の分割領域の異常を検出した場合に機能し、当該異常が検出された分割領域のスレーブ用ファームウエアを搭載している前記他方の主制御部に対して、当該スレーブ用ファームウエアをマスタ用ファームウエアに切替えるマスタ切替要求を送出するマスタ切替要求手段を備えていることを特徴としたサーバシステム。
  4. 前記請求項に記載のサーバシステムにおいて、
    前記各主制御部は、前記スレーブ用ファームウエアを、少なくとも直接に対応する分割領域内の各部の基本処理動作の制御が可能な割込待ち状態で当該各主制御部が備えるメモリに搭載すると共に、
    前記共通管理モジュールから前記マスタ切替要求を受信した場合に作動し前記主制御部のスレーブ用ファームウエアの割込待ち状態を解除することで当該スレーブ用ファームウエアをマスタ用ファームウエアとして動作させるマスタ切替え手段を、前記各主制御部に併設したことを特徴とするサーバシステム。
  5. 前記請求項に記載のサーバシステムにおいて、
    前記各主制御部は、当該各主制御部内のファームウエアがマスタ用ファームウエアであるかスレーブ用ファームウエアであるかを判別しその判別結果を構成情報として前記共通管理モジュールに送出するスレーブ/マスタ判別手段と、前記マスタ切替要求を受信した場合に機能し前記共通管理モジュールから前記異常が検出された分割領域の構成情報を取得する分割領域引継ぎ手段とを有し、
    前記共通管理モジュールは、前記各主制御部から受信した前記分割領域の構成情報を格納する引継ぎ情報記憶部を備えていることを特徴としたサーバシステム。
  6. 前記請求項に記載のサーバシステムにおいて、
    前記共通管理モジュールの引継ぎ情報記憶部は、前記一のセルボックス内の各分割領域で検出された異常の内容を障害情報として格納する障害情報記憶領域を有することを特徴としたサーバシステム。
  7. 前記請求項に記載のサーバシステムにおいて、
    前記各主制御部は、前記マスタ切替要求を受信した場合に作動し前記障害情報記憶領域から前記異常が検出された分割領域の障害情報を取得する障害情報引継ぎ手段を有することを特徴としたサーバシステム。
  8. 一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備え、前記各分割領域内には当該分割領域内の各構成要素の動作を制御する主制御部がそれぞれ個別に装備され、前記各主制御部は少なくとも当該分割領域内の各部の基本処理動作を規制するファームウエアをマスタ用ファームウエアとして搭載すると共に、同一セルボックス内の前記一方の分割領域の主制御部に異常が発生した場合には他方の分割領域の主制御部に前記一方の分割領域内における各構成要素の制御動作を委ねる構成のサーバシステムにあって、
    同一のセルボックス内の一方の分割領域の前記主制御部が、同一のセルボックス内の他方の分割領域用のファームウエアをスレーブ用ファームウエアとして割込待ち状態で組み込まれた場合にこれを保持するスレーブ用ファームウエア保持工程と、
    前記他方の分割領域の主制御部による処理動作に異常が発生した場合に、前記同一のセルボックス内の前記各主制御部の動作を制御する共通管理モジュールが、前記一方の分割領域の主制御部に対し当該主制御部に搭載された前記他方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切替えるためのマスタ切替要求を出力するマスタ切替要求出力工程と、
    前記マスタ切替要求を受信した主制御部が、前記搭載された前記一方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切替えるマスタ切替え工程とを設けると共に、
    前記マスタ切替要求出力工程の実行に先立って、
    前記各主制御部から送られてくる正常稼働データを、予め装備された稼働データ記憶部が更新し更新する正常稼働データ更新記憶工程と、前記各主制御部に対して正常稼働データの送信を要求すると共に当該各主制御部からの正常稼働データが送信されない状態が先に送られた正常稼働データの更新時を基準として予め設定したタイムアウト時間を越えている場合に、予め装備された稼働データチェック手段が対応する主制御部に異常が発生したと判定する稼働データチェック工程とを設定したことを特徴とするサーバ管理方法。
  9. 一のセルボックス内にサーバとしての機能を備えた2個の分割領域を備え、前記各分割領域内には当該分割領域内の各構成要素の動作を制御する主制御部がそれぞれ個別に装備され、前記各主制御部は少なくとも当該分割領域内の各部の基本処理動作を規制するファームウエアをマスタ用ファームウエアとして搭載すると共に、同一セルボックス内の前記一方の分割領域の主制御部に異常が発生した場合には、予め装備した共通管理モジュールからの要請に基づいて他方の前記分割領域の主制御部に前記一方の分割領域内における各構成要素の制御動作を委ねる構成のサーバシステムにあって、
    前記各分割領域の主制御部から一定の周期で送られてくる正常稼働データを受信しその受信時刻を記憶する稼働データ記憶処理機能、
    この正常稼働データの受信時刻の時間間隔の変化から前記各分割領域にかかる主制御部の動作の異常を検出する異常動作検出処理機能、
    および前記各分割領域のうちの何れか一方の主制御部に異常が発生した場合に他方の分割領域の主制御部に対して当該主制御部に搭載された前記一方の分割領域用のスレーブ用ファームウエアをマスタ用ファームウエアに切替えるマスタ切替要求を出力する切替要求出力処理機能を設けると共に、
    前記切替要求出力処理機能の実行に先立って機能する、
    前記各主制御部から送られてくる正常稼働データを、予め装備された稼働データ記憶部に記憶させる正常稼働データ更新制御処理機能、及び前記各主制御部に対して正常稼働データの送信を要求すると共に当該各主制御部からの正常稼働データが送信されない状態が先に送られた正常稼働データの更新時を基準として予め設定したタイムアウト時間を越えている場合に対応する主制御部に異常が発生したと判定する稼働データチェック処理機能を設け、
    これらの各処理機能を、前記共通管理モジュールが備えているコンピュータに実現させるようにしたことを特徴とするサーバ管理プログラム。
JP2008081034A 2008-03-26 2008-03-26 サーバシステム、サーバ管理方法、およびそのプログラム Expired - Fee Related JP5332257B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008081034A JP5332257B2 (ja) 2008-03-26 2008-03-26 サーバシステム、サーバ管理方法、およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008081034A JP5332257B2 (ja) 2008-03-26 2008-03-26 サーバシステム、サーバ管理方法、およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2009237758A JP2009237758A (ja) 2009-10-15
JP5332257B2 true JP5332257B2 (ja) 2013-11-06

Family

ID=41251652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008081034A Expired - Fee Related JP5332257B2 (ja) 2008-03-26 2008-03-26 サーバシステム、サーバ管理方法、およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5332257B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012101759A1 (ja) * 2011-01-25 2012-08-02 富士通株式会社 プロセッサ処理方法、およびプロセッサシステム
JP5549688B2 (ja) * 2012-01-23 2014-07-16 日本電気株式会社 情報処理システム、及び、情報処理システムの制御方法
JP7230677B2 (ja) * 2019-05-13 2023-03-01 オムロン株式会社 制御装置
CN115396295A (zh) * 2021-05-24 2022-11-25 中兴通讯股份有限公司 设备运维方法、网络设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047893A (ja) * 1998-07-27 2000-02-18 Hitachi Ltd 複数オンラインシステムにおける障害回復方法およびオンライン処理システム
JP2003131882A (ja) * 2001-10-22 2003-05-09 Fujitsu Ltd 装置立ち上げ時の選択メモリ固定方法及び選択メモリ固定システム
JP2005258983A (ja) * 2004-03-15 2005-09-22 Hitachi Ltd 複数のクラスタシステムを有するコンピュータシステム、および、コンピュータシステムの制御方法
JP4462024B2 (ja) * 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
JP2007041953A (ja) * 2005-08-04 2007-02-15 Mitsubishi Heavy Ind Ltd 制御装置のバックアップ方法及びコンピュータプログラム、並びに制御システム
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
EP1980943B1 (en) * 2006-01-31 2011-03-16 Fujitsu Limited System monitor device control method, program, and computer system

Also Published As

Publication number Publication date
JP2009237758A (ja) 2009-10-15

Similar Documents

Publication Publication Date Title
JP5561622B2 (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
US9195553B2 (en) Redundant system control method
JP2011070655A (ja) 情報処理装置、メモリダンプシステムおよびメモリダンプ方法
JP2010500693A (ja) プロセッサのパフォーマンスを制限するシステム及び方法
JP2010140361A (ja) コンピュータシステム及び異常検出回路
TW201119173A (en) Method of using power supply to execute remote monitoring of an electronic system
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
EP2936320A1 (en) Distributed cache coherency directory with failure redundancy
JP4655718B2 (ja) コンピュータシステム及びその制御方法
US20120159241A1 (en) Information processing system
JP2010186242A (ja) 計算機システム
CN113742165B (zh) 双主控设备及主备控制方法
JP5327105B2 (ja) バックアップシステム
TW201729097A (zh) 機櫃裝置
WO2013018183A1 (ja) システム制御装置、電力制御方法及び電子システム
JP2009026182A (ja) プログラム実行システム及び実行装置
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
JP4779948B2 (ja) サーバシステム
JP2015153146A (ja) 情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP6697102B1 (ja) 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム
JP4973755B2 (ja) ストール監視装置、ストール監視方法及びプログラム
US11836100B1 (en) Redundant baseboard management controller (BMC) system and method
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130715

R150 Certificate of patent or registration of utility model

Ref document number: 5332257

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees