JP5493452B2 - 復旧サーバ、復旧処理プログラム及び計算機システム - Google Patents

復旧サーバ、復旧処理プログラム及び計算機システム Download PDF

Info

Publication number
JP5493452B2
JP5493452B2 JP2009107258A JP2009107258A JP5493452B2 JP 5493452 B2 JP5493452 B2 JP 5493452B2 JP 2009107258 A JP2009107258 A JP 2009107258A JP 2009107258 A JP2009107258 A JP 2009107258A JP 5493452 B2 JP5493452 B2 JP 5493452B2
Authority
JP
Japan
Prior art keywords
server
boot
recovery
management
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009107258A
Other languages
English (en)
Other versions
JP2009295146A (ja
Inventor
直広 田村
沢男 岩谷
薫 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009107258A priority Critical patent/JP5493452B2/ja
Priority to US12/463,085 priority patent/US8090975B2/en
Publication of JP2009295146A publication Critical patent/JP2009295146A/ja
Application granted granted Critical
Publication of JP5493452B2 publication Critical patent/JP5493452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • G06F11/201Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Description

本発明は、復旧サーバ、復旧処理プログラム及び計算機システムに関し、特に、冗長化された計算機システムにおいて高い信頼性でブート制御を行うことができる復旧サーバ、復旧処理プログラム及び計算機システムに関する。
ストレージエリアネットワーク(SAN)からのブートを行う計算機システム(SAN環境における計算機システム)が知られている。SAN環境における計算機システムにおいては、各々のサーバが、SANを介してストレージの外部ディスク装置からOS(オペレーティングシステム)等のプログラムを読み込む。これにより、各々のサーバがブートされる。
SAN環境における計算機システムにおいては、その信頼性を向上するために、例えば、あるサーバ(現用系計算機)に障害が発生すると、他のサーバ(待機系計算機)が障害のあるサーバの業務を継続して実行するようにされる。即ち、サーバの冗長化が図られている。
また、SAN環境における冗長化された計算機システムにおいて、同様の目的で、SANを構成するネットワークスイッチ及び外部ディスク装置に障害が発生しても、待機系計算機が現用系計算機の業務を継続することができるようにされる(特許文献1参照)。
特開2007−293422号公報
SAN環境における計算機システムは、種々の構成により、その信頼性の向上が図られている。しかし、前述のように、サーバ(管理対象サーバ)、ネットワークスイッチ及び外部ディスク装置の障害については種々の考慮が払われているが、管理サーバ(ブートサーバ)の障害については考慮されていない。
即ち、SAN環境における冗長化された計算機システムにおいても、管理サーバにハードウェア障害又はソフトウェア障害が発生する場合がある。本発明者の検討によれば、この場合、管理対象サーバは、管理サーバから固有のIDであるWWN(World Wide Name )値を取得することができないので、そのHBAにWWN値を設定することができない。このため、管理対象サーバは、SANを介してストレージからOS(オペレーティングシステム)等のプログラムをブートすることができない。
本発明は、管理サーバに障害が発生した場合でも管理対象サーバのブートを可能とする復旧サーバを提供することを目的とする。
また、本発明は、管理サーバに障害が発生した場合でも管理対象サーバのブートを可能とする復旧処理プログラムを提供することを目的とする。
また、本発明は、管理サーバに障害が発生した場合でも管理対象サーバのブートを可能とする計算機システムを提供することを目的とする。
この復旧サーバは、管理ネットワークを介して、管理サーバと、複数の管理対象サーバに接続される。この復旧サーバは、復旧管理テーブルと、監視手段と、記憶手段とを備える。復旧管理テーブルは、第1ブート、第2ブート、SANブートの順に優先順位が定められた前記管理対象サーバにおける、前記第1ブート要求を送信する第1の送受信手段のアドレスと、前記第2ブート要求を送信する第2の送受信手段のアドレスとを格納する。監視手段は、前記管理サーバからの前記第1ブート要求に対する応答である第1ブート応答を監視する。記憶手段は、前記管理対象サーバに対する復旧処理を行わないNOPプログラムと、前記復旧処理を行う復旧プログラムとを格納する。前記監視手段が、前記管理サーバからの前記第1ブート応答を受信した場合に、前記復旧管理テーブルに当該受信時刻を格納する。また、前記監視手段が、前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記復旧管理テーブルに格納された前記受信時刻から予め定められた時間が経過していない場合に、前記管理サーバは正常であると判断して、前記NOPプログラムを前記管理対象サーバに送信し、前記予め定められた時間が経過している場合に、前記管理サーバは停止していると判断して、前記復旧プログラムを前記管理対象サーバに送信する。
この復旧処理プログラムは、管理ネットワークを介して、管理サーバと、複数の管理対象サーバに接続される復旧サーバにおいて実行される。この復旧処理プログラムは、コンピュータである復旧サーバに、以下のステップを実行させる。即ち、第1の格納ステップは、第1ブート、第2ブート、SANブートの順に優先順位が定められた前記管理対象サーバにおける、前記第1ブート要求を送信する第1の送受信手段のアドレスと、前記第2ブート要求を送信する第2の送受信手段のアドレスとを、復旧管理テーブルに格納する。監視ステップは、前記管理サーバからの前記第1ブート要求に対する応答である第1ブート応答を監視する。第2の格納ステップは、前記管理サーバからの前記第1ブート応答を受信した場合に、前記復旧管理テーブルに当該受信時刻を格納する。第1の送信ステップは、前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記復旧管理テーブルに格納された前記受信時刻から予め定められた時間が経過していない場合に、前記管理サーバは正常であると判断して、前記管理対象サーバに対する復旧処理を行わないNOPプログラムを前記管理対象サーバに送信する。第2の送信ステップは、前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記受信時刻から前記予め定められた時間が経過している場合に、前記管理サーバは停止していると判断して、前記復旧処理を行う復旧プログラムを前記管理対象サーバに送信する。
この計算機システムは、管理サーバと、復旧サーバと、複数の管理対象サーバと、これらの間を接続する管理ネットワークとを備える。この計算機システムにおいて、前記管理対象サーバが、ブート優先順位設定手段と、第1の送受信手段と、第2の送受信手段と、ブート要求手段とを備える。ブート優先順位設定手段は、第1ブート、第2ブート、SANブートの順に優先順位を定める。第1の送受信手段は、前記第1ブート要求を送信する。第2の送受信手段は、前記第2ブート要求を送信する。前記ブート要求手段は、前記第1又は第2の送受信手段からブート要求を行う。前記管理サーバは、ブート処理プログラムと、送信手段とを備える。前記ブート処理プログラムは、前記管理対象サーバにおいてブート処理を実行する。前記送信手段は、前記管理対象サーバからの前記第1ブート要求を受信した場合に、前記ブート処理プログラムを当該管理対象サーバに送信する。前記復旧サーバが、復旧管理テーブルと、監視手段と、記憶手段とを備える。復旧管理テーブルは、前記管理対象サーバの第1及び第2の送受信手段のアドレスを格納する。監視手段は、前記管理サーバからの前記第1ブート要求に対する応答である第1ブート応答を監視する。記憶手段は、前記管理対象サーバに対する復旧処理を行わないNOPプログラムと、前記復旧処理を行う復旧プログラムとを格納する。前記監視手段が、前記管理サーバからの前記第1ブート応答を受信した場合に、前記復旧管理テーブルに当該受信時刻を格納する。また、前記監視手段が、前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記復旧管理テーブルに格納された前記受信時刻から予め定められた時間が経過していない場合に、前記管理サーバは正常であると判断して、前記NOPプログラムを前記管理対象サーバに送信し、前記予め定められた時間が経過している場合に、前記管理サーバは停止していると判断して、前記復旧プログラムを前記管理対象サーバに送信する。
この復旧サーバ及び復旧処理プログラムによれば、管理対象サーバの第1の送受信手段からのブート要求(第1ブート要求)に対する管理サーバのブロードキャスト応答(第1ブート応答)を受信した受信時刻を基準として、管理サーバの状態についての判断処理が実行される。
即ち、管理対象サーバの第2の送受信手段からブート要求(第2ブート要求)を受信した場合において、前記受信時刻から所定の時間が経過していない場合には、管理サーバは正常であると判断する。これは、第1の送受信手段からのブート要求に対する第1ブート応答から所定の時間内に、その次に実行されるべき第2の送受信手段からのブート要求が実行されているからである。この場合、復旧処理を行わないNOPプログラムが管理対象サーバに送信される。これにより、第2の送受信手段からのブート要求の次に実行すべきブート要求(例えば、SANからのブート)を実行することができる。
一方、前記受信時刻から所定の時間が経過している場合には、管理サーバは停止していると判断される。これは、第1の送受信手段からのブート要求に対する第1ブート応答から所定の時間を経過しても、その次に実行されるべき第2の送受信手段からのブート要求が実行されていないからである。この場合、復旧処理を行う復旧プログラムが管理対象サーバに送信される。これにより、管理対象サーバは、管理サーバの停止にも拘わらず、復旧プログラムにより、第1及び第2の送受信手段からのブート要求の次に実行すべきブート要求(例えば、SANからのブート)を実行することができる。
以上により、例えばSAN環境における冗長化された計算機システムにおいて、管理サーバがハードウェア障害又はソフトウェア障害により停止した場合でも、管理対象サーバは、SANを介してストレージからOS等のプログラムをブートすることができる。
この計算機システムによれば、管理ネットワークが管理サーバと前述の復旧サーバとにより二重化されているので、管理サーバが正常である場合には、管理サーバが実行する処理により管理対象サーバがブートできるようにし、管理サーバが停止した場合には、当該停止にも拘わらず、復旧サーバが実行する処理により、前述のように、管理対象サーバがブートできるようにすることができる。
SAN環境における冗長化された計算機システムの構成の一例を示す。 SAN環境における冗長化された計算機システムにおける管理サーバ及び管理対象サーバの構成の一例を示す。 ブート優先順位情報及びWWN値について示す。 サーバ管理テーブルの一例を示す。 サーバ定義ファイルの一例を示す。 復旧管理テーブルの一例を示す。 管理サーバ、復旧サーバが正常である場合の処理を示す。 管理サーバ、復旧サーバは正常である場合の、管理対象サーバにおけるブート処理を示す。 管理サーバが停止し、復旧サーバが正常に動作する場合の、管理対象サーバにおけるブート処理を示す。 サーバ管理手段が実行するブート処理の処理フローを示す。 HBAベンダ判別プログラムが実行するベンダ判別処理の処理フローを示す。 HBAベンダ専用プログラムが実行するベンダ専用処理の処理フローを示す。 復旧管理手段が実行するブート処理の処理フローを示す。 管理対象サーバが実行するブート処理の処理フローを示す。 管理対象サーバが実行するブート処理の処理フローを示す。 管理サーバ、復旧サーバは正常である場合の、管理対象サーバにおけるブート処理の他の一例を示す。 図16の処理において、正ブート制御手段が実行するブート処理の処理フローを示す。 図16の処理において、サーバ管理手段が実行するブート処理の処理フローを示す。 図16の処理において、副ブート制御手段が実行するブート処理の処理フローを示す。 図16の処理において、復旧管理手段が実行するブート処理の処理フローを示す。
(第1の実施態様)
図1は、この例のSAN環境における冗長化された計算機システムの構成の一例を示す図である。
この計算機システムは、管理サーバ1、復旧サーバ2、管理ネットワーク3、複数の管理対象サーバ4、ストレージエリアネットワーク(SAN:Storage Area Network )5、ストレージ(ストレージ装置)6を備える。管理サーバ1及び復旧サーバ2は、管理ネットワーク3を介して、複数の管理対象サーバ4に接続される。複数の管理対象サーバ4は、SAN5を介して、ストレージ6に接続される。
管理ネットワーク3は、2個のネットワークスイッチ31により二重化されている。このために、管理サーバ1は2個のNIC(Network Interface Card)11を備え、復旧サーバ2は2個のNIC21を備え、複数の管理対象サーバ4の各々は、2個のNIC41を備える。これにより、管理サーバ1及び復旧サーバ2と複数の管理対象サーバ4とは、図1に示すように、二重化されて接続される。
SAN5は、2個のFC(ファイバーチャネル:Fibre Channel )スイッチ51により二重化されている。このために、複数の管理対象サーバ4は、各々、2個のHBA(ホストバスアダプタ:Host Bus Adopter )42を備える。これにより、複数の管理対象サーバ4とストレージ6とは、図1に示すように、二重化されて接続される。管理対象サーバ4は、SAN5を介して、ストレージ6からOS等のプログラム(これらをソフトウェアイメージと言う)をブートし、また、SAN5を介して、ストレージ6のデータにアクセスする。
ストレージ6は、複数の論理ユニット(LU:Logical Unit)61を備える。管理対象サーバ4が使用するFCスイッチ51のポートには、固有のIDであるWWPN値が予め割り当てられる。SAN5は、当該管理対象サーバ4のOSが格納されたLU61と、管理対象サーバ4のHBA42のWWNN値及びその使用するFCスイッチ51のポートのWWPN値とを対応付ける。これにより、SAN5は、ブート処理において、当該WWNN値のHBA42及びWWPN値のポートのみから、当該LU61へのアクセスを実行する。
図2は、この例のSAN環境における冗長化された計算機システムにおける管理サーバ1及び管理対象サーバ4の構成の一例を示す図である。
この例の管理対象サーバ4は、図2に示すように、2個のNIC41、2個のHBA42、BIOS(Basic Input-Output System )43を備える。
NIC41は、各々の管理対象サーバ4において、管理ネットワーク3を介して、管理サーバ1又は復旧サーバ2との間で送受信処理を行う送受信手段又はインタフェースである。NIC41は、第1の送受信手段又はインタフェースであるNIC41−1と、第2の送受信手段又はインタフェースであるNIC41−2とを含む。管理対象サーバ4においては、NIC41−1とNIC41−2とは、相互に区別される。即ち、管理対象サーバ4の起動時においては、OSの機能であるチーミング(Teaming )機能は用いることができないので、NIC41−1及びNIC41−2は、各々、個別に動作する。NIC41−1は管理サーバ1に対応し、NIC41−2は復旧サーバ2に対応する。
HBA42は、各々の管理対象サーバ4において、SAN5を介して、ストレージ6との間で送受信処理を行う送受信手段又はインタフェースである。
BIOS43は、管理対象サーバ4のOSの一部を構成する制御プログラムであり、NIC41−1又はNIC41−2からブート要求を行うブート要求手段である。BIOS43は、ブート優先順位情報44を備える。ブート優先順位情報44は、予め用意され、不変である。
図3(A)は、BIOS43の備えるブート優先順位情報44の一例を示す。ブート優先順位情報44は、管理対象サーバ4におけるブート処理の実行の優先順位を定める情報であり、例えば管理対象サーバ4のBIOS43が管理する所定のメモリに保持される。BIOS43はブート優先順位設定手段である。ブート処理の優先順位は、ブート優先順位情報44により、図3(A)に示す優先順位に固定される。即ち、第1優先順位が「NIC1ブート」とされ、以下、「NIC2ブート」「SANブート」「その他」の順とされる。
「NIC1ブート」は、NIC41−1からのネットワークブートである。即ち、二重化された管理ネットワーク3における第1のネットワークブートである。「NIC2ブート」はNIC41−2からの第2のネットワークブートである。即ち、二重化された管理ネットワーク3における第2のネットワークブートである。「SANブート」はSAN5におけるブートである。「その他」は前記3つのブート以外のブート(例えば、ローカルブート)である。
管理対象サーバ4においては、ブート優先順位情報44により、ブート優先順位が、少なくとも、管理サーバ1に対応するNIC41−1からのブート、復旧サーバ2に対応するNIC41−2からのブート、SAN5からのブートの順に固定される。その他のブートは、省略しても良い。
図3(B)は、HBA42の備えるWWN値について示す。HBA42は、WWN値を格納する格納領域420を備える。格納領域420は、F−WWN値を格納する格納領域421であるF−WWN、V−WWN値を格納する格納領域422であるV−WWN、NV−WWN値を格納する格納領域423であるNV−WWNを備える。
F−WWNは、例えばROMの所定の領域であり、その値であるF−WWN値は、工場から当該管理対象サーバ4が出荷される際に当該領域に書き込まれる。F−WWN値は工場出荷値である。V−WWNは、DRAM等の揮発性のメモリの所定の領域であり、その値であるV−WWN値は、例えばブート処理により当該領域に書き込まれる。NV−WWNは、フラッシュメモリ等の不揮発性のメモリの所定の領域であり、その値であるNV−WWN値は、例えばブート処理により当該領域に書き込まれる。
HBA42において、WWN値は、優先順位に従って有効とされる。この優先順位は、V−WWN値、NV−WWN値、F−WWN値の順とされる。F−WWN値は、V−WWN値及びNV−WWN値が設定されていない場合にのみ、有効である。NV−WWN値は、V−WWN値が設定されていない場合にのみ、有効である。
なお、前述のように、WWN値には、ノード(即ち、HBA42)毎に割り当てられるWWNN値と、HBA42が備える複数のポート毎に割り当てられるWWPN値とがある。単に、WWN値という場合には、WWNN値とWWPN値の双方を指す。
図2に戻って、この例の管理サーバ1は、2個のNIC11、サーバ管理手段12、正ブート制御手段13を備える。サーバ管理手段12はサーバ管理テーブル14を備える。正ブート制御手段13は、正ブート制御オブジェクト15を備える。正ブート制御オブジェクト15は、正ブート制御手段13の使用する記憶手段(例えばファイル)であり、1個のHBAベンダ判別プログラム16、複数のHBAベンダ専用プログラム17、複数のサーバ定義ファイル18を備える。
NIC11は、管理サーバ1において、管理ネットワーク3を介して、管理対象サーバ4との間で送受信処理を行う送受信手段又はインタフェースである。NIC11は、第1の送受信手段(NIC1)と第2の送受信手段(NIC2)とを含む。第1の送受信手段は、本来であれば、第2の送受信手段と相互に区別される。しかし、この例においては、管理サーバ1のOSの処理により区別されない。即ち、2個のNIC11は、当該管理サーバ1のOSにより、チーミングする。即ち、2個のNIC11は、協働して1個のNIC11として動作する。
サーバ管理手段12は、管理サーバ1の全体を制御し、また、管理対象サーバ4を管理する。このために、サーバ管理テーブル14が用いられる。
図4は、サーバ管理テーブル14の一例を示す。サーバ管理テーブル14は、管理対象サーバ4(のサーバ名)毎に、MACアドレス、IPアドレス、WWN値、状態情報、電源情報、BMC(Baseboard Management Controller )情報、予備サーバ情報を格納する。
MACアドレスは、当該管理対象サーバ4のNIC41−1のMACアドレスであるMAC1と、NIC41−2のMACアドレスであるMAC2とを含む。IPアドレス(ip)は、当該管理対象サーバ4のIPアドレスである。WWN値は、前述のように、WWNN値(WWNN)とWWPN値(WWPN)とを含む。状態情報は、当該管理対象サーバ4が正常である(ok)か、異常である(ng)かを示す。電源情報は、当該管理対象サーバ4の電源がオンであるか、オフであるかを示す。BMC情報は、当該管理対象サーバ4が接続されるBMCのIPアドレスを示す。予備サーバ情報は、当該管理対象サーバ4が停止した場合にこれに変わって業務を引き継ぐべきサーバ即ち待機系計算機(のサーバ名)を示す。
正ブート制御手段13は、管理対象サーバ4からのブート要求を受信してこれを監視する第1の監視手段である。正ブート制御手段13は、ブート要求の監視結果に基づいて、管理対象サーバ4の第1の送受信手段NIC41−1からブート要求を受信した場合に、ブート処理プログラムを当該管理対象サーバ4に送信する。即ち、正ブート制御手段13は、サーバ管理テーブル14に登録されたMAC1を持つ管理対象サーバ4からのブート要求にのみ応答する。
HBAベンダ判別プログラム16及びHBAベンダ専用プログラム17は、管理対象サーバ4においてブート処理を実行するブート処理プログラムである。ブート処理プログラムは、ブート処理を行い、ブート優先順位を次の順位とするプログラムである。サーバ定義ファイル18は、管理対象サーバ4のWWN値を定義する。
HBAベンダ判別プログラム16は、HBA42のベンダを判別し、その結果に基づいて、当該HBA42に対応するHBAベンダ専用プログラム17を求める。HBAベンダ専用プログラム17は、WWN値をV−WWNに記憶し、更にWWN値をエンコードしてNV−WWNに記憶する。
HBAベンダ判別プログラム16は予め用意される。HBAベンダ専用プログラム17は、HBAベンダの数の分だけ、HBAベンダ毎に予め用意される。サーバ定義ファイル18は、管理対象サーバ4の数の分だけ、管理対象サーバ4毎に作成される。HBAベンダ判別プログラム16及びHBAベンダ専用プログラム17は、例えばファームウェアである。
図5は、サーバ定義ファイル18の一例を示す。サーバ定義ファイル18は、図5(A)に示すように、当該管理対象サーバ4(のサーバ名)毎に、当該管理対象サーバ4のHBA42のWWN値(WWNN)、当該管理対象サーバ4のHBA42の備えるポートのWWN値(WWPN)を格納する。例えば、図5(B)は、管理対象サーバ4srv−2のサーバ定義ファイル18と、その予備サーバsrv−10のサーバ定義ファイル18とを示す。
図2に戻って、この例の復旧サーバ2は、2個のNIC21、復旧管理手段22、副ブート制御手段23、ブート監視手段24を備える。復旧管理手段22は復旧管理テーブル25を備える。ブート監視手段24は、副ブート制御オブジェクト26を備える。副ブート制御オブジェクト26は、復旧プログラム27、NOPプログラム28を備える。これらは予め用意される。
NIC21は、復旧サーバ2において、管理ネットワーク3を介して、管理対象サーバ4との間で送受信処理を行う送受信手段又はインタフェースである。NIC21は、管理サーバ1のNIC11と同様の構成とされる。即ち、2個のNIC21は、復旧サーバ2のOSの処理により、協働して1個のNIC21として動作する。
復旧管理手段22は、復旧サーバ2の全体を制御し、また、管理対象サーバ4を管理する。このために、復旧管理テーブル25が用いられる。復旧管理テーブル25は、少なくとも、管理対象サーバ4の第1及び第2の送受信手段NIC41−1及び41−2のアドレスを格納するテーブルである。
図6は、復旧管理テーブル25の一例を示す。復旧管理テーブル25は、当該管理対象サーバ4(のサーバ名)毎に、MAC1、MAC2、IPアドレス、MAC1ブート時刻を格納する。MAC1ブート時刻は、後述するように、当該MAC1からのブート要求に対する管理サーバ1のブロードキャスト応答(第1ブート応答)の受信時刻(以下、NIC41−1ブート時刻)である。
副ブート制御手段23(及びブート監視手段24)は、管理対象サーバ4からのブート要求と、管理対象サーバ4からのブート要求に対する管理サーバ1のブロードキャスト応答(第1ブート応答)とを受信して、これらを監視する第2の監視手段である。副ブート制御手段23は、ブート要求及びブート応答(以下、単にブート要求)の監視結果に基づいて、管理対象サーバ4の第2の送受信手段NIC41−2からブート要求を受信した場合に、復旧プログラム27を当該管理対象サーバ4に送信する。即ち、副ブート制御手段23は復旧管理テーブル25に登録されたMAC2を持つ管理対象サーバ4からのブート要求にのみ応答する。
復旧プログラム27は、復旧処理を行い、ブート優先順位を次の順位とする復旧プログラムである。復旧処理は、副ブート制御手段23によって、管理サーバ1が動作していない時のみ実行される。即ち、管理対象サーバ4のNV−WWNが読み込まれ、これに値が設定されていた場合に、これがデコードされてV−WWNに復元され、HBA42が再初期化される。NOPプログラム28は、この復旧処理を行わず(オペレーションを実行せず)、ブート優先順位を次の順位とするプログラムである。復旧プログラム27及びNOPプログラム28は、例えばファームウェアである。
ブート監視手段24は、副ブート制御手段23でのブート要求の監視結果に基づいて、管理対象サーバ4の第1の送受信手段NIC41−1からのブート要求に対する管理サーバ1のブロードキャスト応答(第1のブート応答)を受信した場合に、このブート応答を復旧管理テーブル25に記録する。具体的には、復旧管理テーブル25に当該受信時刻が格納される。
副ブート制御手段23は、管理対象サーバ4の第2の送受信手段NIC41−2からブート要求を受信した場合において、復旧管理テーブル25に格納された受信時刻から予め定められた時間が経過していない場合に、管理サーバ1は正常であると判断する。この場合、副ブート制御手段23は、NOPプログラム28を管理対象サーバ4に送信する。また、副ブート制御手段23は、管理対象サーバ4の第2の送受信手段NIC41−2からブート要求を受信した場合において、復旧管理テーブル25に格納された受信時刻から予め定められた時間が経過している場合に、管理サーバ1は停止していると判断する。この場合、副ブート制御手段23は、復旧プログラム27を管理対象サーバ4に送信する。
図7〜図9は、この例のSAN環境における冗長化された計算機システムにおける処理について示す。
図7は、管理サーバ1、復旧サーバ2が正常である場合の処理を示す。この場合、管理対象サーバ4はブート処理を実行しない。従って、復旧サーバ2が管理サーバ1へのポーリングを定期的に実行するのみである。
復旧サーバ2が処理を開始すると、復旧管理手段22が、管理ネットワーク3を介して、管理サーバ1のサーバ管理手段12に対してポーリングを実行する(#11)。ポーリングは、予め定められた時間間隔で、繰り返し実行される。この時間間隔は、例えば1分とされるが、これ以外の値であっても良い。
復旧サーバ2の復旧管理手段22は、このポーリングの結果として、管理サーバ1からサーバ管理テーブル14の内容を取得し、これに基づいて、復旧管理テーブル25を更新する。取得されるサーバ管理テーブル14の内容は、例えば、サーバ名、MAC1、MAC2、IPを含む。
図8は、管理サーバ1、復旧サーバ2は正常であるが、管理対象サーバ4がブート処理を実行する場合の処理を示す。なお、この場合でも、復旧サーバ2は管理サーバ1へのポーリングを実行するが、図8においてはその図示を省略する。
管理対象サーバ4が、NIC41−1からブート要求を発行することにより、NIC1からネットワークブートしようとする(#21)。このブート要求は、管理ネットワーク3の全体にブロードキャストされる。この場合、管理サーバ1は、正常であるので、NIC41−1からのブート要求を受信する。
管理サーバ1において、正ブート制御手段13は、NIC41−1からの第1ブート要求を受信して、管理対象サーバ4のNIC41−1に第1ブート応答を返す(#22)。この応答は、管理ネットワーク3の全体にブロードキャストされる。更に、正ブート制御手段13は、受信したNIC41−1からのブート要求をサーバ管理手段12に送る(#23)。
一方、復旧サーバ2において、副ブート制御手段23は、NIC41−1からのブート要求(第1ブート要求)に対する管理サーバ1のブロードキャスト応答(第1ブート応答)を受信して、ブート監視手段24に送る。ブート監視手段24は、受信したブート応答がNIC41−1へのブート応答であるので、当該ブート応答の受信時刻(NIC41−1ブート時刻)を復旧管理手段22に送る。復旧管理手段22は、復旧管理テーブル25のMAC1ブート時刻に、受信したNIC41−1ブート時刻を記録させる(#23’)。
管理サーバ1において、サーバ管理手段12は、正ブート制御手段13からブート要求を受信すると、正ブート制御オブジェクト15にサーバ定義ファイル18を作成して(#24)、HBAベンダ判別プログラム16を読み出して管理対象サーバ4のNIC41−1に送信する(#25)。
管理対象サーバ4は、受信したHBAベンダ判別プログラム16を実行し、ベンダ種別が判明した場合は、管理サーバ1からHBAベンダ専用プログラム17を読み出して管理対象サーバ4のNIC41−1で受信する(#26)。
これにより、管理対象サーバ4は、HBAベンダ専用プログラム17を実行し、これにより、WWN値を更新し、HBA42を初期化した後、ブート処理の優先順位を、予め定められた(固定された)順位に従って次の順位に更新する(インクリメントする)。即ち、その時点で設定されているブート優先順位の次の優先順位のブート処理に制御が移され、当該ブート処理が実行される。この場合、#21においてNIC41−1からブート要求を発行したのであるから、この時点の優先順位の処理は「NIC1ブート」であり、従って、次の優先順位の処理である「NIC2ブート」が実行される。
この後、管理対象サーバ4が、HBA42が初期化されたので、新しい優先順位であるNIC41−2からブート要求を発行すると(#27)、復旧サーバ2の副ブート制御手段23が、NIC41−2に応答を返す(#28)。
この後、復旧サーバ2において、副ブート制御手段23は、受信したNIC41−2からのブート要求を、ブート監視手段24に送る。ブート監視手段24は、受信したブート要求がNIC41−2のブート要求であるので、NIC41−1ブート時刻に基づく処理を実行する。
即ち、NIC41−2からのブート要求を受信した時刻(NIC41−2ブート時刻)がNIC41−1ブート時刻から所定の時間以内である場合、ブート監視手段24は、管理サーバ1が正常に動作しており、NIC41−1からのブート処理でのWWN値の書換えが成功したと判断する。そこで、ブート監視手段24は、NOPプログラムを管理対象サーバ4に送信し(#29)、復旧管理テーブル25のMAC1ブート時刻に記録したNIC41−1ブート時刻をクリアする。所定の時間は、例えば10分とされるが、これ以外の値であっても良い。
管理対象サーバ4は、NOPプログラム28を受信すると、これに制御(制御権)を移してこれをBIOS43上で実行する。NOPプログラム28は、次のブート優先順位の処理に制御を移す。この場合、NIC41−2におけるブート処理においてNOPプログラム28を受信したのであるから、この時点の優先順位の処理は「NIC2ブート」であり、従って、次の優先順位である「SANブート」の処理が実行される。これにより、NOPプログラム28は、予め定められたブート優先順位に従ってブート処理を変更することができ、管理対象サーバ4は、書き換えられたWWN値を用いてSANブートすることができる。
図9は、管理サーバ1が停止し、復旧サーバ2が正常に動作し、管理対象サーバ4がブート処理を実行する場合の処理を示す。なお、この場合でも、復旧サーバ2は管理サーバ1へのポーリングを実行するが、図9においてはその図示を省略する。
管理対象サーバ4が、NIC41−1からブート要求(第1ブート要求)を発行することにより、NIC41−1からネットワークブートしようとする(#31)。しかし、この場合、管理サーバ1が停止しているので、管理サーバ1がNIC41−1からのブート要求を受信することはない。従って、管理対象サーバ4のNIC41−1が管理サーバ1から応答を受信することも無い。
そこで、管理対象サーバ4が、NIC41−2からブート要求(第2ブート要求)を発行する(#32)。このブート要求は、管理ネットワーク3の全体にブロードキャストされる。この場合、復旧サーバ2は、正常であるので、NIC41−2からのブート要求を受信する。
復旧サーバ2において、副ブート制御手段23は、NIC41−2からのブート要求を受信して、管理対象サーバ4のNIC41−2に応答(第2ブート応答)を返す(#33)。この応答は、管理ネットワーク3の全体にブロードキャストされる。
副ブート制御手段23は、NIC41−2からのブート要求を受信して、ブート監視手段24に送る。ブート監視手段24は、受信したブート要求がNIC41−2のブート要求であるので、副ブート制御オブジェクト26から復旧プログラム27を読み出して管理対象サーバ4のNIC41−2に送信する(#34)。
NIC41−2ブート時刻がNIC41−1ブート時刻から所定の時間だけ経過している場合、又は、NIC41−1ブート時刻が「0」である場合、ブート監視手段24は、管理サーバ1が停止していると判断する。この停止は何らかの原因によって生じる。従って、管理サーバ1は正常に動作しておらず、NIC41−1でのWWN値の書き換えは失敗したと考えられる。そこで、ブート監視手段24は、復旧プログラム27を管理対象サーバ4に送信し、MAC1ブート時刻に記録したNIC41−1ブート時刻をクリアする。
なお、NIC41−1ブート時刻が「0」である場合とは、例えば、工場出荷の後において、F−WWN値のみが設定されており、管理サーバ1が一度も正常に動作していない場合等である。
管理対象サーバ4は、復旧プログラム27を受信すると、これに制御を移してこれをBIOS43上で実行する。復旧プログラム27は、HBA42のNV−WWNに値があるか否かをチェックし、値がある場合には、NV−WWN(NV−WWNN及びNV−WWPN)をデコードし、デコードの結果(デコード)値をV−WWNに設定する。この後、復旧プログラム27は、HBA42を初期化して、次のブート優先順位の処理に制御を移す。この場合、この時点の優先順位の処理は「NIC2ブート」であり、従って、次の優先順位である「SANブート」が実行される。これにより、管理対象サーバ4は、書き換えられたWWN値を用いてSANブートすることができる。
なお、管理対象サーバ4は、HBA42のNV−WWNに値が無い場合、そのまま、次のブート優先順位の処理に制御を移す。これは、HBA42のWWN値として、F−WWN値を用いる場合であり、WWN値を制御しない場合即ち管理対象サーバ4のアドレス(I/Oアドレス)を仮想制御しない場合である。
図10〜図12は、管理サーバ1において実行されるサーバ管理処理フローを示す。
図10は、管理サーバ1が動作している場合に、管理サーバ1のサーバ管理手段12が実行するブート処理の処理フローを示す。
サーバ管理手段12は、正ブート制御手段13を介して、管理対象サーバ4からのブート要求を受信すると(ステップS11)、当該ブート要求がNIC41−1からのものか否かを調べる(ステップS12)。当該ブート要求がNIC41−1からのものでない場合、管理サーバ1は、当該ブート要求を廃棄した後(ステップS13)、ステップS11以下を繰り返す。当該ブート要求がNIC41−1からのものである場合、管理サーバ1は、サーバ定義ファイル18を作成して(ステップS14)、当該ブート要求をHBAベンダ判別プログラム16へ送信する(ステップS15)。
図11は、管理対象サーバ4に送信されたHBAベンダ判別プログラム16が、管理対象サーバ4のBIOS43上で実行するベンダ判別処理の処理フローを示す。
HBAベンダ判別プログラム16は、ステップS15においてサーバ管理手段12からBIOS43に送信されると、BIOS43上で、PCI(Peripheral Component Interface)があるか否かを調べる(ステップS21)。PCIがない場合、HBAベンダ判別プログラム16は、有効な(制御を移すべき)ブート処理を、その時点で設定されている優先順位の次の優先順位のブート処理とする(ステップS22)。PCIがある場合、HBAベンダ判別プログラム16は、更に、PCIに含まれるベンダIDと、管理対象サーバ4のデバイスIDとを用いて、ベンダの種別を判明できるか否かを調べる(ステップS23)。ベンダIDはベンダを一意に特定する。デバイスIDは管理対象サーバ4を一意に特定する。従って、これらにより、ベンダの種別を特定することができる。ベンダの種別が判明できない場合、HBAベンダ判別プログラム16は、ステップS22を実行する。ベンダの種別が判明できる場合、HBAベンダ判別プログラム16は、当該判明しているベンダに対応するHBAベンダ専用プログラム17を、管理サーバ1から読み込む(ステップS24)。
図12は、管理対象サーバ4に送信されたHBAベンダ専用プログラム17が、管理対象サーバ4のBIOS43上で実行するベンダ専用処理の処理フローを示す。
HBAベンダ専用プログラム17は、ステップS24においてBIOS43上に読み込まれると、サーバ定義ファイル18を読み込んで(ステップS31)、V−WWNN値がある(設定されている)か否かを調べる(ステップS32)。V−WWNN値がある場合、HBAベンダ専用プログラム17は、ブート処理を、その時点で設定されている優先順位の次の優先順位のブート処理とする(ステップS33)。V−WWNN値がない場合、HBAベンダ専用プログラム17は、WWN値をV−WWNに設定し(ステップS34)、当該WWN値をエンコードしてNV−WWNに設定する(ステップS35)。WWN値のエンコードにより、WWN値としての値ではない形式で正しいWWN値を保存し、これを復旧処理においてデコードして使用することができる。即ち、保存したWWN値のエンコード値が、他のWWN値と混同されることを回避することができる。この後、HBAベンダ専用プログラム17は、HBA42を再度初期化して(ステップS36)、ステップS33を実行する。
図13は、管理サーバ1が停止している場合に、復旧サーバ2の復旧管理手段22が実行するブート処理の処理フローを示す。
復旧管理手段22は、管理サーバ1のサーバ管理手段12に対してポーリングを行い(ステップS41)、当該ポーリングによりサーバ管理手段12から受信した情報に基づいて復旧管理テーブル25を更新し(ステップS42)、所定の時間間隔でステップS41以下を繰り返す。なお、ステップS41及びS42は、復旧管理手段22の実行する復旧管理手順である。
一方、ブート監視手段24は、副ブート制御手段23を介して、管理対象サーバ4からのブート要求を受信すると(ステップS43)、当該ブート要求がNIC41−1からのものか否かを調べる(ステップS44)。当該ブート要求がNIC41−1からのものでない場合、ブート監視手段24は、更に、当該ブート要求がNIC41−2からのものか否かを調べる(ステップS45)。当該ブート要求がNIC41−2からのものでない場合、ブート監視手段24は、ステップS43以下を繰り返す。
ステップS44において当該ブート要求がNIC41−1からのものである場合、ブート監視手段24は、NIC41−1からのブート要求に対する管理サーバ1のブロードキャスト応答(第1ブート応答)が着信した時刻(NIC41−1ブート時刻)を記録した後(ステップS46)、ステップS43以下を繰り返す。なお、ステップS44及びS46は、ブート監視手段24の実行するブート監視手順である。
ステップS45において当該ブート要求がNIC41−2からのものである場合、ブート監視手段24は、NIC41−1ブート時刻が「0」でなくかつNIC41−1ブート時刻から「10分経過」したか否かを調べる(ステップS47)。NIC41−1ブート時刻が「0」である場合、又は、NIC41−1ブート時刻から「10分経過」した場合、ブート監視手段24は、管理対象サーバ4に対してNOPプログラム28を送信し(ステップS48)、NIC41−1ブート時刻の記録をクリアした後(ステップS49)、ステップS43以下を繰り返す。ステップS47においてNIC41−1ブート時刻が「0」でなくかつ「10分経過」した場合、ブート監視手段24は、管理対象サーバ4に対して復旧プログラム27を送信し(ステップS410)、ステップS49を実行した後に、ステップS43以下を繰り返す。なお、ステップS45及びS47〜S410は、ブート制御手順である。
図14及び図15は、管理対象サーバ4において実行されるブート処理の処理フローを示す。
図14は、管理対象サーバ4に送信されたNOPプログラム28が、管理対象サーバ4のBIOS43上で実行するブート処理の処理フローを示す。
管理対象サーバ4(のBIOS43)は、ステップS410において送信されたNOPプログラム28を受信すると、当該NOPプログラム28をBIOS43上で実行して、ブート処理を、その時点で設定されている優先順位の次の優先順位のブート処理とする(ステップS51)。
図15は、管理対象サーバ4に送信された復旧プログラム27が、管理対象サーバ4のBIOS43上で実行するブート処理の処理フローを示す。
管理対象サーバ4(のBIOS43)は、ステップS48において送信された復旧プログラム27を受信すると、当該復旧プログラム27をBIOS43上で実行する。即ち、復旧プログラム27が、データNV−WWN値があるか否かを調べる(ステップS61)。データNV−WWN値がない場合、復旧プログラム27は、ブート処理を、その時点で設定されている優先順位の次の優先順位のブート処理とする(ステップS62)。データNV−WWN値がある場合、復旧プログラム27は、データNV−WWNをデコードしてその結果をV−WWNに設定する(ステップS63)。このように、復旧プログラム27は、送信先の管理対象サーバ4において、当該管理対象サーバ4が使用するWWN値を予めエンコードした値をデコードする。これにより、復旧プログラム27は、HBAベンダ専用プログラム17が設定したWWN値を復旧する。この後、復旧プログラム27は、HBA42を再度初期化して(ステップS64)、ステップS62を実行する。
例えば、ある管理対象サーバ4(例えばsrv−2)のHBA42には、工場出荷時において、F−WWN値のみが設定されているが、その起動処理時において、管理サーバ1により、WWN値がV−WWN値として設定される(書換えられる)。この後、何らかの原因で、管理対象サーバ4(srv−2)の業務を他の管理対象サーバ4(例えばsrv−10)が引き継ぐとする。
管理サーバ1が正常である場合、他の管理対象サーバ4(srv−10)のHBA42においても、管理サーバ1により、正しくWWN値が設定される。例えば、管理対象サーバ4(srv−10)の電源がONされると、そのNIC41−1からネットワークブートが開始され、これに応じて、前述の図10〜図12の処理が実行される。この後、管理対象サーバ4(srv−10)においては、図12のステップS33により次のブート優先順位であるNIC41−2のネットワークブートに制御が移り、これが実行される。これに応じて、前述の図13〜図14の処理が実行される。この結果、図14のステップS51により、管理対象サーバ4(srv−10)においては、次のブート優先順位であるSANブートに制御が移り、これが実行される。従って、管理対象サーバ4(srv−10)はSANブートする。
一方、管理サーバ1が停止している場合、そのままでは、管理対象サーバ4(srv−10)はWWN値を書き換えられないので、SANブートできない。この場合、復旧サーバ2により、管理対象サーバ4が、WWN値を復旧し、ストレージ6と接続して、SANブートする。例えば、管理対象サーバ4(srv−10)の電源がONされると、そのNIC41−1からネットワークブート(第1ブート)が開始されるが、管理サーバ1からの応答(第1ブート応答)が得られない。このため、管理対象サーバ4(srv−10)のBIOS43では、第1ブートのタイムアウトが発生し、次の優先順位であるNIC41−2からネットワークブート(第2ブート)が開始される。これに応じて、前述の図13及び図15の処理が実行される。この結果、図15のステップS62により、管理対象サーバ4(srv−10)においては、次のブート優先順位であるSANブートに制御が移り、これが実行される。従って、管理対象サーバ4(srv−10)はSANブートする。
(第2の実施態様)
図2のSAN環境における冗長化された計算機システムによれば、正ブート制御手段13は、管理対象サーバ4からの第1ブート要求に対する管理サーバ1の第1ブート応答を受信した受信時刻を基準として、管理サーバ1の状態についての判断処理を実行する。これにより、管理サーバ1がハードウェア障害又はソフトウェア障害により停止した場合でも、管理対象サーバ4は、SANを介してストレージからOS等のプログラムをブートすることができる。
ここで、図2のSAN環境における冗長化された計算機システムにおいて、管理サーバ1が、停止してはいないが、正常に動作していない状態が考えられる。これは、例えば、正ブート制御手段13は正常に動作しているが、サーバ管理手段12のみがソフトウェア障害により正常に動作していない状態である。この場合、管理サーバ1は、停止してはいないが、正常に動作していないので、管理サーバ1は、管理対象サーバ4からの第1ブート要求に対する第1ブート応答を管理ネットワーク3上に送出すべきではない。
しかし、図2のSAN環境における冗長化された計算機システムにおいては、管理サーバ1の正ブート制御手段13は、NIC41−1からの第1ブート要求を受信すると、管理対象サーバ4のNIC41−1への第1ブート応答を、管理ネットワーク3の全体にブロードキャストする。これに応じて、復旧サーバ2の副ブート制御手段23は、ブロードキャストによる第1ブート応答を受信してしまう。
この結果、復旧サーバ2は、管理対象サーバ4のNIC41−2からの第2ブート要求を受信した場合、第1ブート応答を受信した受信時刻から所定の時間が経過していない、換言すれば、管理サーバ1は正常であると判断する。従って、復旧サーバ2は、復旧処理を行わないNOPプログラム28を管理対象サーバ4に送信する。一方、管理サーバ1も、サーバ管理手段12が動作していないので、ブート要求を実行することができない。このため、管理対象サーバ4は、管理サーバ1からも復旧サーバ2からもブートできない。
なお、サーバ管理手段12は正常に動作しているが、正ブート制御手段13のみがソフトウェア障害により正常に動作していない状態においては、第1ブート応答が得られないので、以上のような問題は生じない。
そこで、第2の実施態様においては、正ブート制御手段13は、以下の処理を実行するようにされる。
前述したように、正ブート制御手段13は、管理対象サーバ4の第1の送受信手段NIC41−1からのブート要求(第1ブート要求)を受信した場合、第1ブート要求に対する応答である第1ブート応答を、管理ネットワーク3にブロードキャストにより送信する。そして、正ブート制御手段13は、この第1ブート応答の送信の後に、例えば、管理対象サーバ4からのブート要求に応答する。
ここで、正ブート制御手段13は、管理対象サーバ4からの第1ブート要求を受信した場合、管理サーバ1が正常であるか否かを判断する。この判断処理は、第1ブート応答の送信の前に実行される。この判断処理の結果に基づいて、管理サーバ1が正常でない場合に、正ブート制御手段13は、正常でないことを示す情報を出力する。この情報は、例えば、システム管理者にエラーの発生を知らせる警告等である。この情報は、例えば、ログを出力することにより、又は、予め設定されたアドレスに電子メールを送信することにより、通知される。また、管理サーバ1が正常である場合には、正ブート制御手段13は、第1の実施態様と同様にして、第1ブート応答を管理ネットワーク3にブロードキャストにより送信する。
具体的には、正ブート制御手段13は、管理対象サーバ4からの第1ブート要求を受信した場合、サーバ管理手段12が正常であるか否かを判断する。このために、正ブート制御手段13は、第1ブート要求を受信すると、応答要求例えば「alive query」を、サーバ管理手段12に送信する。「alive query」を受信したサーバ管理手段12は、応答例えば「alive」を、正ブート制御手段13に送信する。サーバ管理手段12は、例えばソフトウェア障害により正常に動作していない場合、「alive」を正ブート制御手段13に送信することができない。
正ブート制御手段13は、「alive query」の送信の時刻から予め設定された待ち時間が経過した場合、サーバ管理手段12からの「alive」の受信の有無を調べる。これにより、正ブート制御手段13は、サーバ管理手段12が正常に動作しているか否かを知ることができる。
なお、サーバ管理手段12が正常でない場合、正ブート制御手段13が、サーバ管理手段12を再起動するようにしても良い。この場合、前記待ち時間は、前述の第1ブートのタイムアウトと比較して十分に短い時間とされる。これにより、サーバ管理手段12が再起動されて正常に動作した場合、管理対象サーバ4は、これを意識する必要が無い。サーバ管理手段12の再起動は、予め設定された回数、例えば3回実行される。
以上により、復旧サーバ2は、管理対象サーバ4のNIC41−2からの第2ブート要求を受信した場合、第1ブート応答を受信した受信時刻から所定の時間が経過している、換言すれば、管理サーバ1は正常に動作していないと判断する。従って、復旧サーバ2は、復旧処理を行う復旧プログラム27を管理対象サーバ4に送信する。これにより、管理対象サーバ4は、管理サーバ1が停止してはいないが正常に動作していない場合に、復旧プログラム27により、第1及び第2の送受信手段からのブート要求の次に実行すべきブート要求(例えば、SANからのブート)を実行することができる。
なお、第2の実施態様においては、副ブート制御手段23も、正ブート制御手段13と同様に、以下の処理を実行するようにされる。
副ブート制御手段23は、管理対象サーバ4の第2の送受信手段NIC41−2からのブート要求(第2ブート要求)を受信した場合、第2ブート要求に対する応答である第2ブート応答を、管理ネットワーク3にブロードキャストにより送信する。そして、副ブート制御手段23は、この第2ブート応答の送信の後に、復旧プログラム27を当該管理対象サーバ4に送信する。
ここで、副ブート制御手段23は、管理対象サーバ4からの第2ブート要求を受信した場合、復旧サーバ2が正常であるか否かを判断する。この判断処理は、第2ブート応答の送信の前に実行される。この判断処理の結果に基づいて、復旧サーバ2が正常でない場合に、副ブート制御手段23は、正常でないことを示す情報を出力する。この情報は、例えば、システム管理者にエラーの発生を知らせる警告等である。また、復旧サーバ2が正常である場合には、副ブート制御手段23は、第1の実施態様と同様にして、第2ブート応答を管理ネットワーク3にブロードキャストにより送信する。
具体的には、副ブート制御手段23は、管理対象サーバ4からの第2ブート要求を受信した場合、復旧管理手段22が正常であるか否かを判断する。このために、副ブート制御手段23は、第2ブート要求を受信すると、応答要求例えば「alive query」を、復旧管理手段22に送信する。「alive query」を受信した復旧管理手段22は、応答例えば「alive」を、副ブート制御手段23に送信する。復旧管理手段22は、例えばソフトウェア障害により正常に動作していない場合、「alive」を副ブート制御手段23に送信することができない。
副ブート制御手段23は、「alive query」の送信の時刻から予め設定された待ち時間が経過した場合、復旧管理手段22からの「alive」の受信の有無を調べる。これにより、副ブート制御手段23は、復旧管理手段22が正常に動作しているか否かを知ることができる。この結果、復旧サーバ2が停止してはいないが正常に動作していない場合に、これを知ることができる。
なお、復旧管理手段22が正常でない場合、副ブート制御手段23が、復旧管理手段22を再起動するようにしても良い。この場合、前記待ち時間は、前述の第1ブートのタイムアウトと比較して十分に短い時間とされる。これにより、復旧管理手段22が再起動されて正常に動作した場合、管理対象サーバ4は、これを意識する必要が無い。復旧管理手段22の再起動は、予め設定された回数、例えば3回実行される。
図16は、管理サーバ1、復旧サーバ2は正常である場合の、管理対象サーバ4におけるブート処理の他の一例を示す。なお、この場合でも、復旧サーバ2は管理サーバ1へのポーリングを実行するが、図16においてはその図示を省略する。
管理対象サーバ4が、図8における処理#21と同様に、NIC41−1からブート要求を発行することにより、NIC1からネットワークブートしようとする(#21)。この場合、管理サーバ1の正ブート制御手段13は、正常であるので、NIC41−1からのブート要求を受信する。
管理サーバ1において、正ブート制御手段13は、NIC41−1からのブート要求を受信すると、「alive query」をサーバ管理手段12に送信し、「alive query」の送信の時刻から予め設定された待ち時間の間、サーバ管理手段12からの「alive」の受信を待つ。(#21’)。
サーバ管理手段12から「alive」を受信しない場合、正ブート制御手段13は、システム管理者にエラーの発生を知らせて処理を終了する。サーバ管理手段12から「alive」を受信した場合、正ブート制御手段13は、図8における処理#22と同様に、管理対象サーバ4のNIC41−1に第1ブート応答を返す(#22)。この後、図8と同様にして、処理#23〜#26が実行される。
この後、管理対象サーバ4が、HBA42が初期化されたので、新しい優先順位であるNIC41−2からブート要求を発行する(#27)。この場合、復旧サーバ2の副ブート制御手段23は、正常であるので、NIC41−2からのブート要求を受信する。
復旧サーバ2において、副ブート制御手段23は、NIC41−2からのブート要求を受信すると、「alive query」を復旧管理手段22に送信し、「alive query」の送信の時刻から予め設定された待ち時間の間、復旧管理手段22からの「alive」の受信を待つ(#27’)。
復旧管理手段22から「alive」を受信しない場合、副ブート制御手段23は、システム管理者にエラーの発生を知らせて処理を終了する。復旧管理手段22から「alive」を受信した場合、副ブート制御手段23は、図8における処理#28と同様に、管理対象サーバ4のNIC41−2に第2ブート応答を返す(#28)。この後、図8と同様にして、処理#29が実行される。
なお、図9に示すように、管理サーバ1が停止し、復旧サーバ2が正常に動作し、管理対象サーバ4がブート処理を実行する場合においても、図16の処理#27’が、処理#28に先立って実行される。
図17は、図16の処理において、正ブート制御手段13が実行するブート処理の処理フローを示す。
正ブート制御手段13は、管理対象サーバ4からのブート要求を受信すると(ステップS71)、当該ブート要求がNIC41−1からのものか否かを調べる(ステップS72)。当該ブート要求がNIC41−1からのものでない場合(ステップS72 NO)、正ブート制御手段13は、当該ブート要求を廃棄した後(ステップS73)、ステップS71を繰り返す。
当該ブート要求がNIC41−1からのものである場合(ステップS72 YES)、正ブート制御手段13は、「alive query」をサーバ管理手段12に送信した後、サーバ管理手段12からの「alive」の受信の有無を調べる(ステップS74)。
サーバ管理手段12から「alive」を受信した場合、換言すれば、サーバ管理手段12が正常である場合(ステップS74 YES)、正ブート制御手段13は、管理対象サーバ4のNIC41−1にブロードキャストにより第1ブート応答を送信する(ステップS75)。この後、正ブート制御手段13は、サーバ管理手段12に、サーバ管理テーブル14の更新を依頼し(ステップS76)、この後、ステップS71を繰り返す。なお、サーバ管理テーブル14の更新は、例えば、サーバ管理テーブル14にNIC41−1からのブート要求の受信時刻を記録する処理である。
サーバ管理手段12から「alive」を受信しない場合、換言すれば、サーバ管理手段12が正常でない場合(ステップS74 NO)、正ブート制御手段13は、システム管理者にエラーの発生というイベントを通知する(ステップS77)。この後、正ブート制御手段13は、サーバ管理手段12を予め設定された回数だけ再起動し(ステップS78)、この後、ステップS71を繰り返す。
図18は、図16の処理において、サーバ管理手段12が実行するブート処理の処理フローを示す。
サーバ管理手段12は、正ブート制御手段13からの要求を受信すると(ステップS81)、当該要求が正ブート制御手段13からの当該サーバ管理手段12に対する「alive query」か否かを調べる(ステップS82)。当該要求がステップS74における「alive query」である場合(ステップS82 YES)、サーバ管理手段12は、正ブート制御手段13に応答としての「alive 」を送信し(ステップS83)、この後、ステップS81を繰り返す。
当該要求が「alive query」でない場合、換言すれば、当該要求がステップS76におけるサーバ管理テーブル14の更新の依頼である場合(ステップS82 NO)、サーバ管理手段12は、サーバ管理テーブル14を更新し(ステップS84)、サーバ定義ファイル18を作成して(ステップS85)、当該ブート要求をHBAベンダ判別プログラム16へ送信し(ステップS86)、この後、ステップS81を繰り返す。
図19は、図16の処理において、副ブート制御手段23が実行するブート処理の処理フローを示す。
副ブート制御手段23は、管理対象サーバ4からのブート要求を受信すると(ステップS91)、「alive query」を復旧管理手段22に送信した後、復旧管理手段22からの「alive」の受信の有無を調べる(ステップS92)。
復旧管理手段22から「alive」を受信しない場合、換言すれば、復旧管理手段22が正常でない場合(ステップS92 NO)、副ブート制御手段23は、システム管理者にエラーの発生というイベントを通知する(ステップS93)。この後、副ブート制御手段23は、復旧管理手段22を予め設定された回数だけ再起動し(ステップS94)、この後、ステップS91を繰り返す。
復旧管理手段22から「alive」を受信した場合、換言すれば、復旧管理手段22が正常である場合(ステップS92 YES)、ブート監視手段24が、図13のステップS44及びS410と同様にして、ステップS95〜S911を実行する。
図20は、図16の処理において、復旧管理手段22が実行するブート処理の処理フローを示す。
復旧管理手段22は、副ブート制御手段23からの要求を受信すると(ステップS101)、当該要求が副ブート制御手段23からの当該復旧管理手段22に対する「alive query」か否かを調べる(ステップS102)。当該要求がステップS74における「alive query」である場合(ステップS102 YES)、復旧管理手段22は、副ブート制御手段23に応答としての「alive 」を送信し(ステップS103)、この後、ステップS101を繰り返す。
当該要求が「alive query」でない場合、復旧管理手段22は、管理サーバ1のサーバ管理手段12に対してポーリングを行い(ステップS104)、当該ポーリングによりサーバ管理手段12から受信した情報に基づいて復旧管理テーブル25を更新し(ステップS105)、この後、ステップS101を繰り返す。なお、ステップS104及びS105は、復旧管理手段22の実行する復旧管理手順である。実際には、ステップS104及びS105は、ステップS101において副ブート制御手段23からの要求を受信しなくても、所定の時間間隔でステップS101を繰り返され、その間に副ブート制御手段23からの要求を受信するとステップS101〜S103が実行される。
1 管理サーバ
2 復旧サーバ
3 管理ネットワーク
4 管理対象サーバ
5 ストレージエリアネットワーク(SAN)
6 ストレージ
11、21、41 NIC
12 サーバ管理手段
13 正ブート制御手段
14 サーバ管理テーブル
15 正ブート制御オブジェクト
16 HBAベンダ判別プログラム
17 HBAベンダ専用プログラム
18 サーバ定義ファイル
22 復旧管理手段
23 副ブート制御手段
24 ブート監視手段
25 復旧管理テーブル
26 副ブート制御オブジェクト
27 復旧プログラム
28 NOPプログラム

Claims (10)

  1. 管理ネットワークを介して、管理サーバと、複数の管理対象サーバに接続される復旧サーバであって、
    第1ブート、第2ブート、SANブートの順に優先順位が定められた前記管理対象サーバにおける、前記第1ブートの要求である第1ブート要求を送信する第1の送受信手段のアドレスと、前記第2ブートの要求である第2ブート要求を送信する第2の送受信手段のアドレスとを格納する復旧管理テーブルと、
    前記管理サーバからの前記第1ブート要求に対する応答である第1ブート応答を監視する監視手段と、
    前記管理対象サーバに対する復旧処理を行わないNOPプログラムと、前記復旧処理を行う復旧プログラムとを格納する記憶手段とを備え、
    前記監視手段が、
    前記管理サーバからの前記第1ブート応答を受信した場合に、前記復旧管理テーブルに当該受信時刻を格納し、
    前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記復旧管理テーブルに格納された前記受信時刻から予め定められた時間が経過していない場合に、前記管理サーバは正常であると判断して、前記NOPプログラムを前記管理対象サーバに送信し、前記予め定められた時間が経過している場合に、前記管理サーバは停止していると判断して、前記復旧プログラムを前記管理対象サーバに送信する
    ことを特徴とする復旧サーバ。
  2. 前記復旧プログラムは、送信先の前記管理対象サーバにおいて、当該管理対象サーバが使用するストレージエリアネットワークにおける固有のIDを予めエンコードした値をデコードすることにより、新たな固有のIDを得る
    ことを特徴とする請求項1に記載の復旧サーバ。
  3. 前記監視手段が、前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記NOPプログラム又は前記復旧プログラムの送信の前に、当該復旧サーバが正常であるか否かを判断して、当該復旧サーバが正常でない場合に、前記正常でないことを示す情報を出力する
    ことを特徴とする請求項1に記載の復旧サーバ。
  4. 管理ネットワークを介して、管理サーバと、複数の管理対象サーバに接続される復旧サーバにおいて実行される復旧処理プログラムであって、
    コンピュータである復旧サーバに、
    第1ブート、第2ブート、SANブートの順に優先順位が定められた前記管理対象サーバにおける、前記第1ブートの要求である第1ブート要求を送信する第1の送受信手段のアドレスと、前記第2ブートの要求である第2ブート要求を送信する第2の送受信手段のアドレスとを、復旧管理テーブルに格納する格納ステップと、
    前記管理サーバからの前記第1ブート要求に対する応答である第1ブート応答を監視する監視ステップと、
    前記管理サーバからの前記第1ブート応答を受信した場合に、前記復旧管理テーブルに当該受信時刻を格納する格納ステップと、
    前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記復旧管理テーブルに格納された前記受信時刻から予め定められた時間が経過していない場合に、前記管理サーバは正常であると判断して、前記管理対象サーバに対する復旧処理を行わないNOPプログラムを前記管理対象サーバに送信する送信ステップと、
    前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記受信時刻から前記予め定められた時間が経過している場合に、前記管理サーバは停止していると判断して、前記復旧処理を行う復旧プログラムを前記管理対象サーバに送信する送信ステップとを実行させる
    ことを特徴とする復旧処理プログラム。
  5. 管理サーバと、復旧サーバと、複数の管理対象サーバと、これらの間を接続する管理ネットワークとを備える計算機システムであって、
    前記管理対象サーバが、
    第1ブート、第2ブート、SANブートの順に優先順位を定めるブート優先順位設定手段と、
    前記第1ブートの要求である第1ブート要求を送信する第1の送受信手段と、
    前記第2ブートの要求である第2ブート要求を送信する第2の送受信手段と、
    前記第1の送受信手段から前記第1ブート要求を行い、前記第2の送受信手段から前記第2ブート要求を行うブート要求手段とを備え、
    前記管理サーバが、
    前記管理対象サーバにおいてブート処理を実行するブート処理プログラムを格納する記憶手段と、
    前記管理対象サーバからの前記第1ブート要求を受信した場合に、前記ブート処理プログラムを当該管理対象サーバに送信する送信手段とを備え、
    前記復旧サーバが、
    前記第1ブート要求を送信する第1の送受信手段のアドレスと、前記第2ブート要求を送信する第2の送受信手段のアドレスとを格納する復旧管理テーブルと、
    前記管理サーバからの前記第1ブート要求に対する応答である第1ブート応答を監視する監視手段と、
    前記管理対象サーバに対する復旧処理を行わないNOPプログラムと、前記復旧処理を行う復旧プログラムとを格納する記憶手段とを備え、
    前記監視手段が、
    前記管理サーバからの前記第1ブート応答を受信した場合に、前記復旧管理テーブルに当該受信時刻を格納し、
    前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記復旧管理テーブルに格納された前記受信時刻から予め定められた時間が経過していない場合に、前記管理サーバは正常であると判断して、前記NOPプログラムを前記管理対象サーバに送信し、前記予め定められた時間が経過している場合に、前記管理サーバは停止していると判断して、前記復旧プログラムを前記管理対象サーバに送信する
    ことを特徴とする計算機システム。
  6. 前記送信手段が、前記管理対象サーバからの前記第1ブート要求を受信した場合に、前記第1ブート要求に対する応答である前記第1ブート応答を、前記管理ネットワークに送信する
    ことを特徴とする請求項5に記載の計算機システム。
  7. 前記送信手段が、前記管理対象サーバからの前記第1ブート要求を受信した場合において、前記第1ブート応答の送信の前に、当該管理サーバが正常であるか否かを判断して、当該管理サーバが正常でない場合に、前記正常でないことを示す情報を出力する
    ことを特徴とする請求項6に記載の計算機システム。
  8. 前記管理サーバが、前記複数の管理対象サーバを管理するサーバ管理手段を備え、
    前記送信手段が、前記管理対象サーバからの前記第1ブート要求を受信した場合において、前記第1ブート応答の送信の前に、前記サーバ管理手段が正常であるか否かを判断して、前記サーバ管理手段が正常でない場合に、前記正常でないことを示す情報を出力する
    ことを特徴とする請求項7に記載の計算機システム。
  9. 前記送信手段が、前記サーバ管理手段が正常でない場合に、前記サーバ管理手段を再起動する
    ことを特徴とする請求項8に記載の計算機システム。
  10. 前記監視手段が、前記管理対象サーバからの前記第2ブート要求を受信した場合において、前記NOPプログラム又は前記復旧プログラムの送信の前に、当該復旧サーバが正常であるか否かを判断して、当該復旧サーバが正常でない場合に、前記正常でないことを示す情報を出力する
    ことを特徴とする請求項5に記載の計算機システム。
JP2009107258A 2008-05-09 2009-04-27 復旧サーバ、復旧処理プログラム及び計算機システム Active JP5493452B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009107258A JP5493452B2 (ja) 2008-05-09 2009-04-27 復旧サーバ、復旧処理プログラム及び計算機システム
US12/463,085 US8090975B2 (en) 2008-05-09 2009-05-08 Recovery server for recovering managed server

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008123375 2008-05-09
JP2008123375 2008-05-09
JP2009107258A JP5493452B2 (ja) 2008-05-09 2009-04-27 復旧サーバ、復旧処理プログラム及び計算機システム

Publications (2)

Publication Number Publication Date
JP2009295146A JP2009295146A (ja) 2009-12-17
JP5493452B2 true JP5493452B2 (ja) 2014-05-14

Family

ID=41267860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009107258A Active JP5493452B2 (ja) 2008-05-09 2009-04-27 復旧サーバ、復旧処理プログラム及び計算機システム

Country Status (2)

Country Link
US (1) US8090975B2 (ja)
JP (1) JP5493452B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5736547B2 (ja) 2009-12-25 2015-06-17 パナソニックIpマネジメント株式会社 家電機器
JP5609335B2 (ja) * 2010-07-06 2014-10-22 富士通株式会社 サーバ管理プログラム、サーバ管理装置及びサーバ管理方法
US8904159B2 (en) 2010-08-23 2014-12-02 International Business Machines Corporation Methods and systems for enabling control to a hypervisor in a cloud computing environment
US9281999B2 (en) 2010-09-30 2016-03-08 American Megatrends, Inc. Apparatus for remotely configuring network interfaces in a remote management system
US8843607B2 (en) * 2010-09-30 2014-09-23 American Megatrends, Inc. System and method for managing computer network interfaces
US8627054B2 (en) 2010-12-29 2014-01-07 American Megatrends, Inc. Method and apparatus to create single firmware image for multiple server platforms
US8742717B2 (en) 2011-04-27 2014-06-03 American Megatrends, Inc. Method and apparatus to harness keyboard strokes and mouse movement to charge an electrical storage device
US8719560B2 (en) * 2011-12-13 2014-05-06 International Business Machines Corporation Virtual machine monitor bridge to bare-metal booting
JP5910246B2 (ja) * 2012-03-29 2016-04-27 富士通株式会社 情報処理システム及び仮想アドレス設定方法
CN109766217B (zh) * 2018-12-20 2021-06-22 北京梧桐车联科技有限责任公司 一种车机系统故障修复方法及装置
JP7289739B2 (ja) * 2019-06-27 2023-06-12 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931558B1 (en) * 2000-11-29 2005-08-16 Veritas Operating Corporation Computer restoration systems and methods
JP2003216593A (ja) * 2002-01-17 2003-07-31 Hitachi Ltd サーバ管理システム
US7207039B2 (en) * 2003-12-24 2007-04-17 Intel Corporation Secure booting and provisioning
IL163314A (en) * 2004-08-02 2010-06-16 Lsi Technologies Israel Ltd Booting from a storage area network
JP4826077B2 (ja) * 2004-08-31 2011-11-30 株式会社日立製作所 ブートディスク管理方法
EP1806657B1 (en) * 2004-10-18 2010-05-26 Fujitsu Ltd. Operation management program, operation management method, and operation management device
US7627781B2 (en) * 2004-10-25 2009-12-01 Hewlett-Packard Development Company, L.P. System and method for establishing a spare processor for recovering from loss of lockstep in a boot processor
US7330965B2 (en) * 2005-02-09 2008-02-12 International Business Machines Corporation Multi-tiered boot list
JP4802527B2 (ja) * 2005-03-18 2011-10-26 株式会社日立製作所 計算機システム
JP4701929B2 (ja) * 2005-09-02 2011-06-15 株式会社日立製作所 ブート構成変更方法、管理サーバ、及び計算機システム
JP4710518B2 (ja) * 2005-09-28 2011-06-29 株式会社日立製作所 計算機システムとそのブート制御方法
JP4487920B2 (ja) * 2005-12-12 2010-06-23 株式会社日立製作所 ブート制御方法および計算機システム並びにその処理プログラム
JP4414961B2 (ja) * 2005-12-13 2010-02-17 株式会社日立製作所 管理サーバによる管理方法、管理サーバ、計算機システムおよび管理プログラム
US7526639B2 (en) * 2006-02-13 2009-04-28 International Business Machines Corporation Method to enhance boot time using redundant service processors
JP4939102B2 (ja) * 2006-04-21 2012-05-23 株式会社日立製作所 ネットワークブート計算機システムの高信頼化方法
JP5068056B2 (ja) * 2006-10-11 2012-11-07 株式会社日立製作所 障害回復方法、計算機システム及び管理サーバ
US20080201605A1 (en) * 2007-02-21 2008-08-21 Inventec Corporation Dead man timer detecting method, multiprocessor switching method and processor hot plug support method
US7856488B2 (en) * 2007-03-30 2010-12-21 Hewlett-Packard Development Company, L.P. Electronic device profile migration
JP5032191B2 (ja) * 2007-04-20 2012-09-26 株式会社日立製作所 サーバ仮想化環境におけるクラスタシステム構成方法及びクラスタシステム
US7783877B2 (en) * 2007-05-15 2010-08-24 Inventec Corporation Boot-switching apparatus and method for multiprocessor and multi-memory system
JP2008287631A (ja) * 2007-05-21 2008-11-27 Hitachi Ltd デプロイ対象計算機、デプロイメントシステムおよびデプロイ方法
US7962737B2 (en) * 2007-11-21 2011-06-14 Dell Products L.P. Methods, media and apparatus for booting diskless systems
JP4571203B2 (ja) * 2008-05-09 2010-10-27 株式会社日立製作所 情報処理システムにおける管理サーバ、及びクラスタ管理方法
US8171278B2 (en) * 2008-08-11 2012-05-01 Vmware, Inc. Booting a computer system from central storage
JP4648447B2 (ja) * 2008-11-26 2011-03-09 株式会社日立製作所 障害復旧方法、プログラムおよび管理サーバ
US8380971B2 (en) * 2008-12-02 2013-02-19 Dell Products, Lp Information handling systems including network adapters and methods of booting the information handling systems using boot configuration information from remote sources

Also Published As

Publication number Publication date
JP2009295146A (ja) 2009-12-17
US8090975B2 (en) 2012-01-03
US20090282284A1 (en) 2009-11-12

Similar Documents

Publication Publication Date Title
JP5493452B2 (ja) 復旧サーバ、復旧処理プログラム及び計算機システム
JP4939102B2 (ja) ネットワークブート計算機システムの高信頼化方法
US8788636B2 (en) Boot controlling method of managed computer
US7472308B2 (en) Storage switch system, storage switch method, management server, management method, and management program
JP4448878B2 (ja) 障害回復環境の設定方法
US20070157016A1 (en) Apparatus, system, and method for autonomously preserving high-availability network boot services
US20110270962A1 (en) Method of building system and management server
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
US9552265B2 (en) Information processing apparatus and storage system
JP2008299509A (ja) 仮想計算機システム
JP2011014088A (ja) 計算機装置及びパス管理方法
JP2017010390A (ja) ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法
US7499987B2 (en) Deterministically electing an active node
US8015437B2 (en) Restoring data to a distributed storage node
US11531498B2 (en) Peer storage device messaging over control bus
CN113765697B (zh) 管理数据处理系统的日志的方法和系统及计算机可读介质
KR101385910B1 (ko) 노드들 간의 장치 동기 에러 정보
WO2011158367A1 (ja) 実行中のプログラムの更新技術
JP5922127B2 (ja) 障害処理方法、コンピュータ可読ストレージ媒体およびコンピュータシステム
TWI802065B (zh) 可控制周邊裝置電源與訊號的通信介面轉接器、動態分配通信介面轉接器識別碼的方法及自動化診斷周邊裝置並修復問題的方法
JP2015053555A (ja) データ転送装置、およびデータ転送方法
WO2023107581A1 (en) Provision and configuration of quorum witnesses in clusters
CN114500577A (zh) 数据访问系统及数据访问方法
Rivero de la Cruz High available GNU/Linux systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5493452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150