JP4572250B2 - 計算機切り替え方法、計算機切り替えプログラム及び計算機システム - Google Patents

計算機切り替え方法、計算機切り替えプログラム及び計算機システム Download PDF

Info

Publication number
JP4572250B2
JP4572250B2 JP2008233286A JP2008233286A JP4572250B2 JP 4572250 B2 JP4572250 B2 JP 4572250B2 JP 2008233286 A JP2008233286 A JP 2008233286A JP 2008233286 A JP2008233286 A JP 2008233286A JP 4572250 B2 JP4572250 B2 JP 4572250B2
Authority
JP
Japan
Prior art keywords
computer
management unit
standby
server
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008233286A
Other languages
English (en)
Other versions
JP2010067042A (ja
Inventor
康之 神原
恵介 畑崎
隆治 新地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008233286A priority Critical patent/JP4572250B2/ja
Priority to US12/510,416 priority patent/US8245077B2/en
Publication of JP2010067042A publication Critical patent/JP2010067042A/ja
Application granted granted Critical
Publication of JP4572250B2 publication Critical patent/JP4572250B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Description

本発明は、業務を行うサーバ装置に障害が発生した場合に、待機サーバ装置に切り替える計算機切り替え方法に関し、特に、N+1コールドスタンバイに関する。
サーバシステムの信頼性を確保する方法として、多重化サーバがある。業務を行うサーバ装置とは別に待機しているサーバ装置を備えることによって、業務を行うサーバ装置に障害が発生した場合に、待機しているサーバ装置に切り替えて業務を引き継がせるものである。
多重化には様々の方法がある。例えば、ネットワーク上に冗長配備され監視周期毎に他の1つのサーバを重複することなく監視して現用系サーバに異常があるときには待機系サーバに切り替える方法がある(特許文献1参照)。
また、ノードの優先度に応じて前述した処理の順位を決定し、優先度の高いノードの引き継ぎ処理が遅延するのを防止する方法もある(特許文献2参照)。
従来から、低コストでサーバシステムの信頼性が求められてきた。低コストでサーバシステムの信頼性を得る方法としては、コールドスタンバイがある。
コールドスタンバイは、システム構成が同一のサーバ装置を2台以上用意しておき、1台は業務を行い、その他のサーバ装置は稼働させずに待機させておく。業務を行うサーバ装置に障害が発生した場合、待機しているサーバ装置が起動し、業務を引き継ぐ。
しかし、コールドスタンバイは、管理サーバ装置を設ける必要があり前述した要求を満たすものではない。
これを解決する方法として、サーバ装置に管理サーバ装置と同等の処理を行う管理プログラムを稼働させ、サーバ全体を管理する方法がある。
特開2006−229512号公報 特開2007−279890号公報
しかし、サーバ全体の管理を行うサーバ装置に障害が発生した場合、障害に対応するサーバ装置自身に障害が発生したため待機しているサーバ装置に切り替えることができない。また、他のサーバ装置の障害にも対応できない問題がある。
本発明は、別途管理サーバ装置を設けることなく、サーバ全体を管理するサーバ装置に障害が発生しても切り替え処理を正常に行い、サーバシステムの信頼性を確保する、コールドスタンバイ管理方法を提供する。
本発明の代表的な一例を示せば以下の通りである。すなわち、業務を行う第1の計算機と、待機系の計算機と、前記第1の計算機及び前記待機系の計算機の管理を行う管理部を備える第2の計算機と、前記待機系の計算機の起動及び停止の管理を行う第3の計算機と、を備える計算機システムにおける計算機切り替え方法であって、前記第3の計算機が、前記第2の計算機の管理部から前記第1の計算機、前記第2の計算機及び前記待機系の計算機の構成情報を取得するステップと、前記第3の計算機が、発生した障害が前記管理部を備える前記第2の計算機か否かを判定するステップと、前記第1の計算機に障害が発生したときに、当該障害が発生したことを前記第2の計算機に通知するステップと、前記第3の計算機から前記通知を受信した前記第2の計算機が、前記第1の計算機から前記待機系の計算機に業務を引き継がせるステップと、前記第3の計算機が、前記第2の計算機に障害が発生したときに、前記取得した構成情報に基づき前記第2の計算機から前記待機系の計算機に前記管理部を引き継がせるステップと、を備えることを特徴とする。
本発明によれば、管理部を備える計算機に障害が発生しても、管理部を備える計算機を待機系の計算機に切り替えることができる。また、待機系の計算機に引き継がれた管理部は、管理部を備える計算機に障害が発生したことを検知し、管理部を備える計算機を待機系の計算機に切り替えられる間に受信できなかったイベントを取得できる。これによって、管理部は切り替え処理の前後の整合性をとることができる。
まず、本発明の概要について説明する。
本願発明は、正常にサーバ管理部が稼働している時に、SVP(SerVice Processor)が予めサーバ管理部が稼働しているサーバ装置に関する情報を保持しておく。サーバ管理部が稼働するサーバ装置に障害が発生した場合、障害を検知したSVPは、前述したサーバ管理部が稼働しているサーバ装置に関する情報を、待機しているサーバ装置に書き込み、待機サーバ装置にサーバ管理部を引き継がせる。そして、SVPは、障害によってサーバ管理部が稼働していたサーバ装置の切り替え処理を行ったことを待機サーバ装置で引き継がれたサーバ管理部に通知する。
SVPは、サーバ管理部が稼働しているサーバ装置に関する情報を待機サーバに書き込むため、障害が発生したサーバと同一の稼働環境を実現できる。これによって、サーバ管理部を待機サーバに切り替えるための設定を行う必要がなく、障害発生時から素早くサーバ管理部を待機サーバ装置に引き継がせることができ、また、ユーザの操作の負担も減らすことができる。
待機サーバ装置で引き継がれたサーバ管理部は、サーバ管理部が稼働していたサーバ装置自身に障害が起きたことをSVPの通知から知ることができる。
また、サーバ管理部が稼働するサーバ装置に障害があってもサーバ装置の切り替えを行うことができ、業務に与える影響を最小限に抑えることができる。また、前述した処理は、低コストで実現することができる。 図1は、本発明の実施の形態のブレードサーバのハードウェア構成を説明するブロック図である。
ブレードサーバは、ブレードサーバシャーシ101とストレージ装置114とを備える。ブレードサーバシャーシ101は、ネットワークスイッチ102、ストレージスイッチ104、及びSVP113を備え、サーバ装置103−1、サーバ装置103−2、サーバ装置103−3、及びサーバ装置103−4が接続されている。また、ストレージスイッチ104には、ストレージ装置114が接続されている。以下、サーバ装置103−1、サーバ装置103−2、サーバ装置103−3、及びサーバ装置103−4を区別しない場合、サーバ装置103と記載する。
サーバ装置103−1上には、サーバ管理部105が稼働している。サーバ管理部105は、ブレードサーバ上で稼働しているサーバ装置103を管理するプログラムである。サーバ装置103−2及びサーバ装置103−3上で、業務を行うためのプログラムが実行されている。サーバ装置103−4は、サーバ装置103−1、サーバ装置103−2、及びサーバ装置103−3に障害が発生したときに切り替えるための待機サーバ装置である。なお、どのサーバ装置103が待機サーバ装置であるかを区別しない場合、待機サーバ装置103と記載する。
サーバ管理部105は、障害管理部106、エージェント部116、サーバ管理テーブル117、切り替え管理テーブル118、及び切り替え情報管理テーブル119を備える。
エージェント部116は、サーバ管理部105が監視する全てのサーバ装置103に配置されており、各々のサーバ装置103のOSの種類もしくはOSの状態、プロセスの監視、または、ソフトウェア障害の監視等を行っている。
サーバ管理テーブル117は、ブレードサーバにおけるサーバ装置103の構成及び状態を管理する。具体的な内容については図5を用いて後述する。
切り替え管理テーブル118は、サーバ装置103のいずれかで障害が発生したときに、待機サーバに切り替えるための情報を管理する。つまり、N+1コールドスタンバイを制御するための情報が管理されている。具体的な内容については図6を用いて後述する。
なお、N+1コールドスタンバイとは、N台の稼働中のサーバ装置103と、1台の待機サーバ装置103を備えたブレードサーバにおいて、業務を行っていたサーバ装置に障害が発生した場合、業務を行っていたサーバ装置103の処理(業務)を待機サーバ装置103に引き継がせる方法をいう。
切り替え情報管理テーブル119は、サーバ管理部105が障害が発生したサーバ装置103を待機サーバ装置103に切り替えるときに引き継ぐときに必要な情報を管理する。具体的には、サーバ管理部105は、切り替え情報管理テーブル119が管理する前述の情報を待機サーバ装置103に書き込み、障害が発生したサーバ装置103を待機サーバ装置103に切り替える。具体的な内容については図7を用いて後述する。
障害管理部106は、障害監視部107、切り替え情報管理部108、イベントログ管理部109、切り替え部110、起動管理部111、及び状態更新部112を備え、サーバ装置103の障害を監視し、及び発生した障害を処理する。
障害監視部107は、サーバ装置103のハードウェアの障害を監視する。図1では、障害監視部107は、サーバ装置103−2及びサーバ装置103−3の障害を監視している。
切り替え情報管理部108は、サーバ管理部105が監視しているサーバ装置103(この場合は、サーバ装置103−2及びサーバ装置103−3)に障害が発生した場合、障害が発生したサーバ装置103を待機サーバ装置103(この場合は、サーバ装置103−4)に切り替えるための情報を管理する。また、本実施の形態において、切り替え情報管理部108は、サーバ管理部105が稼働しているサーバ装置103(この場合は、サーバ装置103−1)に障害が発生した場合に待機サーバ(この場合は、サーバ装置103−4)に切り替えるための情報をSVP113に設定する。具体的な処理については図10を用いて後述する。
イベントログ管理部109は、サーバ装置103からのイベントを受信し、受信されたイベントをログとして管理している。また、本実施の形態において、イベントログ管理部109は、サーバ管理部105が稼働するサーバ装置103に障害が発生し、待機サーバ装置103に切り替えられるまでの間に当該サーバ装置103が受信できなかったイベントのログを切り替え処理後にSVP113から取得する。具体的な処理については図13を用いて後述する。
切り替え部110は、サーバ管理部105が監視しているサーバ装置103(この場合は、サーバ装置103−2及びサーバ装置103−3)に障害が発生した場合に、待機サーバ装置103(この場合は、サーバ装置103−4)に切り替える処理を行う。
起動管理部111は、サーバ管理部105が監視しているサーバ装置103(この場合は、サーバ装置103−2及びサーバ装置103−3)に障害が発生した場合に、当該サーバ装置103を待機サーバ装置103(この場合は、サーバ装置103−4)に切り替え、切り替えられた待機サーバ装置103を起動させ、起動後の引き継ぎ処理を行う。本実施の形態において、起動管理部111は、サーバ管理部105が稼働しているサーバ装置103(この場合は、サーバ装置103−1)に障害が発生し、待機サーバ装置103に切り替えられた後の処理を行う。具体的な処理については、図9を用いて後述する。
状態更新部112は、サーバ管理部105が監視しているサーバ装置103(この場合は、サーバ装置103−2及びサーバ装置103−3)に障害が発生し、待機サーバ装置103(この場合は、サーバ装置103−4)に切り替えられた後のブレードサーバ内のサーバ装置103の構成及び状態を更新する。
SVP113は、サーバ装置103の障害を監視し、監視しているサーバ装置103に障害が発生した場合に、サーバ装置103に障害が発生したことをサーバ管理部105に通知する。本実施の形態において、SVP113は、サーバ管理部105が稼働するサーバ装置103に関する情報を保持し、サーバ管理部105が稼働するサーバ装置103に障害が発生した場合に、当該情報を待機サーバ装置103に書き込むことによって、待機サーバ装置にサーバ管理部105を引き継がせることができる。
また、サーバ管理部105が稼働していたサーバ装置103から待機サーバ装置103にサーバ管理部105が引き継がれる間に、サーバ管理部105に送信されたイベントログを保持し、引き継ぎ処理が終了した後に、待機サーバ装置103に引き継がれたサーバ管理部105に当該イベントログを送信する。これによって、サーバ管理部105は、待機サーバ装置にサーバ管理部105が引き継がれる前後の整合性をとることができる。また、引き継ぎ処理の間受信できなかったイベントを正しく処理することができる。具体的な処理については、図14、図15及び図16を用いて後述する。
ストレージ装置114は、複数の不揮発性記憶媒体(例えば、HDD)又は記録媒体を備え、各々の不揮発性記憶媒体又は記録媒体には、サーバ管理部105を実現するプログラム、及び業務を行うためのプログラムが格納される。なお、ストレージ装置114は、前述したプログラム以外のプログラムまたはデータを格納してもよい。
各サーバ装置におけるストレージ装置114の記憶領域の割り当ては、物理的な記憶領域を割り当ててもよいし、論理的な記憶領域を割り当ててもよい。図1では、ストレージ装置114の記憶領域を論理ボリューム(LU)に分割し、分割された論知ボリューム(LU)が各サーバ装置103に割り当てられている。割り当てられた論理ボリューム(LU)は、サーバ装置103からは1つのディスク115として認識される。本実施の形態では、各ディスク115に必要なデータが格納されている。以下、論理ボリュームをLUと記載する。
なお、図1では、サーバ管理部105が稼働するサーバ装置103が1台であったが、本発明は、サーバ管理部105が稼働するサーバ装置103が複数あってもよい。また、本発明は、複数のサーバ管理部105が稼働するサーバ装置103が監視するサーバ装置103が異なっていてもよい。また、本発明は、複数のブレードサーバシャーシ101を備えるブレードサーバであってもよい。
図2は、本発明の実施の形態のサーバ管理部105か稼働するサーバ装置103−1のハードウェア構成及びソフトウェア構成を説明するブロック図である。
サーバ装置103−1は、メモリ201、プロセッサ202、ネットワークI/F203、BMC(Basebord Managment Controller)204、ディスクI/F206、及びBIOS(Basic Input/Output System)208を備える。
サーバ装置103−1のメモリ201には、サーバ管理部105を実現するためのプログラムがロードされている。前述したプログラムは、プロセッサ202によって実行されている。
ネットワークI/F203は、サーバ装置103−1とネットワーク機器(図示省略)とを接続するためのインタフェースである。ネットワークI/F203は、各々のサーバ装置103のネットワークI/F203を識別するためにMAC(Madia Access Control)205を保持する。なお、図2において、サーバ装置103−1は、一つのネットワークI/F203を備えているが、複数備えていてもよい。
ディスクI/F206は、サーバ装置103−1とストレージ装置114とを接続するためのインタフェースである。ディスクI/F206は、各々のサーバ装置103のディスクI/F206を識別するためにWWN(World Wide Name)207を保持する。なお、図2において、サーバ装置103−1は、一つのディスクI/F206を備えているが、複数備えていてもよい。
BMC204は、サーバ装置103−1自身の障害を監視するためのプロセッサである。サーバ装置103−1自身に障害が発生した場合、BMC204が障害を検出し、障害が発生したことをSVP113に通知する。
BIOS208は、サーバ装置103−1に搭載される各種機器に対する入出力をOS、または、ミドルウェアに提供するプログラムである。
図3は、本発明の実施の形態の業務を行うサーバ装置103−2のハードウェア構成及びソフトウェア構成を説明するブロック図である。
業務を行うサーバ装置103−2のハードウェア構成は、前述したサーバ装置103−1のハードウェア構成と同一である。サーバ装置103−2のメモリ201に格納されているプログラムがサーバ装置103−1と異なる。
具体的には、サーバ装置103−2のメモリ201上ではプロセッサ202によってOS302が稼働しており、該OS302はアプリケーションプログラム301と、エージェント部116の実行を管理している。
なお、サーバ装置103−3についても同一である。
図4は、本発明の実施の形態のSVP113のハードウェア構成及びソフトウェア構成を説明するブロック図である。
SVP113は、メモリ401、プロセッサ408、及びネットワークI/F409を備える。
メモリ401には、ブレード管理プログラム402がロードされている。ブレード管理プログラム402は、ブレードサーバに接続されている全てのサーバ装置103の障害を監視し、発生した障害に応じた処理を行うためのプログラムである。
ブレード管理プログラム402は、障害検出部403、イベント管理部404、切り替え処理部405、切り替え情報格納領域406、及びイベント格納領域407を備える。
障害検出部403は、監視対象となっている全てのサーバ装置103の障害を監視する。
イベント管理部404は、サーバ管理部105が稼働するサーバ装置103が処理するイベントのログを管理する。なお、イベントは各サーバ装置103から送信させたものである。
切り替え処理部405は、サーバ管理部105が稼働するサーバ装置103に障害が発生した場合、該障害が発生したサーバ装置103を待機サーバ装置103に切り替える処理を行う。
切り替え情報格納領域406は、サーバ管理部105が稼働するサーバ装置103に障害が発生した場合、該障害が発生したサーバ装置103を待機サーバ装置103に切り替える処理を行うために必要な情報を管理する。具体的な内容については図11を用いて後述する。
イベント格納領域407は、サーバ管理部105が稼働するサーバ装置103に障害が発生した場合、該障害が発生したサーバ装置103が待機サーバ装置103に切り替えられる間にSVP113が受信したイベントのログを格納する。また、本実施の形態においてSVP113は、サーバ管理部105がサーバ装置103−1から待機サーバ装置103−4へ引き継がれるまでの期間、サーバ管理部105に代わって現用系のサーバ装置103−2、103−3などからのイベントを受信する。具体的な内容については、図17を用いて後述する。
本発明は、SVP113が切り替え処理部405、切り替え情報格納領域406、及びイベント格納領域407を備えることによって、サーバ管理部105が稼働するサーバ装置103に障害が発生しても、素早く待機サーバ装置103に切り替えることができる。また、切り替え前と切り替え後のサーバ管理部の105の動作の整合性を保つことができる。
図5は、本発明の実施の形態のサーバ管理テーブル117の一例を示す説明図である。
サーバ管理テーブル117は、シャーシ識別子501、サーバ装置識別子502、電源状態503、サーバ装置構成504、割り当てディスク505、サーバ状態506、切り替え先507、及び種別508を管理する。
シャーシ識別子501は、ブレードサーバシャーシ101を特定するための識別子を格納する。
サーバ装置識別子502は、サーバ装置103を特定するための識別子を格納する。
電源状態503は、サーバ装置103の電源が入っているか否かを示す情報を格納する。具体的には、サーバ装置103の電源が入っている場合には、「ON」が電源状態503に格納され、サーバ装置103に電源が入っていない場合には、「OFF」が電源状態503に格納される。
サーバ装置構成504は、サーバ装置103のハードウェア構成に関する情報を格納する。具体的には、プロセッサ(CPU)、メモリ(MEM)、ディスクI/F(HBA)、及びネットワークI/F(NIC)に関する情報がサーバ装置構成504に格納されている。
割り当てディスク505は、ストレージ装置114のどのディスク115がサーバ装置103に割り当てられているかを示す情報を格納する。例えば、サーバ装置103−1には、LU1が割り当てられている。なお、サーバ管理部105がディスクI/F206が保持するWWN207とディスク115とを対応づけることによって、サーバ装置103とディスク115とが接続される。
サーバ状態506は、サーバ装置103の状態を示す情報を格納する。具体的には、サーバ装置103が正常に稼働している場合には、「正常」がサーバ状態506に格納され、サーバ装置103に異常が発生した場合には、「異常」がサーバ状態506に格納さる。
切り替え先507は、サーバ装置103に異常が発生し、切り替え処理によって切り替えられたサーバ装置103を特定する情報を格納する。具体的には、対応するサーバ装置103のサーバ装置識別子502が切り替え先507に格納される。
種別508は、稼働しているサーバ装置103の役割を示す情報を格納する。例えば、サーバ管理部105が稼働しているサーバ装置103には、「サーバ管理」が種別508に格納される。
図6は、本発明の実施の形態の切り替え管理テーブル118の一例を示す説明図である。
切り替え管理テーブル118は、切り替えグループ601、現用サーバ装置識別子602、待機サーバ装置識別子603、及び状態604を管理する。
切り替えグループ601は、切り替え処置を行う対象を示すグループに関する情報を格納する。サーバ管理部105は、切り替えグループ601で指定されているグループごとに切り替え処理を行う。
現用サーバ装置識別子602は、実際に稼働しているサーバ装置103を特定するための情報を格納する。具体的には、該当するサーバ装置103のサーバ装置識別子502が現用サーバ装置識別子602に格納される。
待機サーバ装置識別子603は、現用サーバ装置識別子602に該当するサーバ装置103に障害が発生した場合に切り替えられるサーバ装置、つまり、待機サーバ装置103を特定するための識別子を格納する。
状態604は、切り替え処理によって待機サーバ装置103(この場合はサーバ装置103−4)が稼働しているか否かを示す情報を格納する。具体的には、待機サーバ装置103が稼働している場合には、「使用中」が状態604に格納され、待機サーバ装置103が稼働していない場合には、「未使用」が状態604に格納される。この情報によって、サーバ装置103に障害が発生し、切り替え処理が行われたことが分かる。
図7は、本発明の実施の形態の切り替え情報管理テーブル119の一例を示す説明図である。
切り替え情報管理テーブル119は、切り替えグループ701、現用サーバ装置識別子702、デバイス識別子703、及びBIOS情報704を管理する。
切り替えグループ701及び現用サーバ装置識別子702は、図7の切り替えグループ601及び現用サーバ装置識別子602と同一のものである。
デバイス識別子703は、サーバ装置103のディスクI/F206を特定するためのWWN(World Wide Name)、及び、サーバ装置103のネットワークI/F203を特定するためのMAC(Madia Access Control)を格納する。例えば、サーバ装置103−1は、ディスクI/F206を一つ備えているので、WWN(WWN1)207がWWN11となっており、また、ネットワークI/F203を一つ備えているので、MAC(MAC1)205がMAC11となっていることが分かる。
なお、サーバ装置103が複数のネットワークI/F203、又は複数のディスクI/F206を備える場合には、複数の識別子が格納される。
BIOS情報704は、サーバ装置103のBIOS(Basic Input/Output System)に関する情報を格納する。なお、BIOS情報704は、BIOSに関する情報だけではなくEFI(Extensible Fireware Interface)に関する情報を格納してもよい。
まず、従来のコールドスタンバイの処理について説明する。
図18は、従来のコールドスタンバイにおける、障害監視部107の処理を説明するフローチャートである。SVP113から障害発生の通知がサーバ管理部105に送られることによって以下で説明する処理が行われる。
障害監視部107は、SVP113から障害発生の通知を受信する(1801)。受信した通知には、障害を検知したサーバ装置103のサーバ装置識別子502と障害の内容とが含まれる。
障害監視部107は、受信した障害発生の通知を参照し、サーバ装置103の障害であるか否かを判定する(1802)。
サーバ装置103の障害でないと判定された場合、障害監視部107は、受信したハードウェア障害の通知に対応した障害処理を行い(1804)、処理を終了する。サーバ装置103以外のハードウェア障害としては、例えば、ブレードサーバの電源の障害、またはファンの障害などがある。
サーバ装置103の障害であると判定された場合、障害監視部107は、切り替え部110を呼び出し(1803)、処理を終了する。
図19は、従来のコールドスタンバイにおける、切り替え部110の処理を説明するフローチャートである。切り替え部110は、ステップ1803で障害監視部107から呼び出され、以下で説明する処理を行う。
切り替え部110は、SVP113から受信した障害発生の通知を参照し、障害が発生したサーバ装置103のサーバ装置識別子502を取得する(1901)。
切り替え部110は、取得されたサーバ装置識別子502に該当するサーバ装置103をサーバ管理テーブル117から検索し、該当するサーバ装置103を停止する(1902)。
切り替え部110は、切り替え先の待機サーバ装置103が設定されているか否かを判定する(1903)。
切り替え先の待機サーバ装置103が設定されていないと判定された場合、切り替え部110は、ブレードサーバの管理者にその旨を通知する(1904)。
切り替え先の待機サーバ装置103が設定されていると判定された場合、切り替え部110は、サーバ管理テーブル117を参照し、障害が発生したサーバ装置103のI/Oデバイスの識別子を取得する(1905)。具体的には、サーバ装置構成504に格納されているディスクI/F(HBA)を取得する。
次に、切り替え部110は、待機サーバ装置103の電源をONにし(1906)、ステップ1906で取得されたI/Oデバイスの識別子を待機サーバ装置103に書き込む(1907)。これによって、障害が発生したサーバ装置103が行っていた業務を待機サーバ装置103が引き継ぐことができる。
以下、本発明の実施の形態について説明する。
図8は、本発明の実施の形態のサーバ管理部105が稼働するサーバ装置103に障害が発生した場合の切り替え処理を説明する図である。サーバ装置103−1に障害が発生し、サーバ装置103−4に切り替えられる処理について示している。
サーバ装置103−1に障害が発生した場合、サーバ装置103−1のBMC204が障害が発生したことをSVP113に通知する。通知を受信したSVP113は、BMC204の通知に含まれるサーバ装置識別子502を参照し、切り替え情報格納領域406から該当する情報を検索する。該当する情報があった場合、SVP113は、該当する情報から待機サーバ装置103に切り替えるために必要な情報を、サーバ装置103−4に書き込む。
これによって、サーバ管理部105を実現するためのプログラムが格納されたディスク115の接続がサーバ装置103−1からサーバ装置103−4に切り替えられ、切り替えられたサーバ装置103−4でサーバ管理部105が稼働する。具体的には、サーバ装置103−1のディスクI/F206が保持していたWWN207がサーバ装置103−4に書き込まれることによって、ディスク115がサーバ装置103−1と接続される。また、サーバ装置103−1のネットワークI/Fが保持していたMAC205がサーバ装置103−4に書き込まれることによって、ネットワークからは、サーバ管理部が稼働するサーバ装置103(サーバ装置103−4)として認識される。
図9は、本発明の実施の形態の起動管理部111の処理を示すフローチャートである。
切り替え処理が行われ、サーバ管理テーブル117が更新された後、起動管理部111は以下で説明する処理を行う。なお、サーバ管理テーブル117の更新方法については、図12を用いて後述する。
まず、起動管理部111は、サーバ管理テーブル117の電源状態503及び種別508を参照し、サーバ管理部105が稼働するサーバ装置103が起動したか否かを判定する(901)。図5では、サーバ装置103−4の種別508がサーバ管理となっているが、電源状態503がOFFなので、切り替え処理が終了していない。したがって、切り替え処理が終了し、サーバ管理テーブル117が更新された後にステップ901の処理が行われる。 サーバ管理部105が稼働するサーバ装置103が起動していないと判定された場合、起動管理部111は、処理を終了する。
サーバ管理部105が稼働するサーバ装置103が起動したと判定された場合、起動管理部111は、SVP113に障害の内容を問い合わせ(902)、当該問い合わせの返答を参照し、サーバ管理部105が稼働するサーバ装置103の切り替え処理が行われた否かを判定する(903)。
サーバ管理部105が稼働するサーバ装置103−1の切り替え処理が行われていないと判定された場合、起動管理部111は処理を終了する。
サーバ管理部105が稼働するサーバ装置103−1の切り替え処理が行われたと判定された場合、起動管理部111は、状態更新部112を呼び出す(904)。呼び出された状態更新部112は、後述する処理を行う(図12参照)。また、起動管理部111は、切り替え情報管理部108を呼び出す(905)。呼び出された切り替え情報管理部108は、後述する処理を行う(図13参照)。
前述した処理が終了すると、起動管理部111は、サーバ管理部105が引き継がれたサーバ装置103上で正常に稼働していることをSVP113に通知する(906)。
図10は、切り替え情報管理部108の処理を示すフローチャートである。サーバ管理部105が稼働するサーバ装置103に障害が起きた場合に、SVP113が待機サーバ装置103に切り替えるための情報を取得するために以下で説明する処理が行われる。また、ステップ904において、切り替え情報管理部108が起動管理部111から呼び出された場合も同一の処理が行われる。
切り替え情報管理部108は、サーバ管理テーブル117のシャーシ識別子501、サーバ装置識別子502及び種別508を参照し、サーバ管理部105が稼働するサーバ装置103が接続されたブレードサーバシャーシ101に、複数のサーバ装置103が接続されているか否かを判定する(1001)。前述した判定は、サーバ管理部105が稼働するサーバ装置103がブレードサーバ内に存在するか否かを判定する。
N+1コールドスタンバイは、ブレード構成の環境を前提としており、サーバ管理部105が稼働するサーバ装置103が、いずれのブレードサーバ内に存在するかを特定するため、前述した判定がなされる。
図5においては、サーバ管理部105が稼働するサーバ装置103が接続されたブレードサーバシャーシ101には、サーバ装置103−1、103−2、103−3及び103−4が接続されているので、サーバ管理部105が稼働するサーバ装置103が接続されたブレードサーバシャーシ101に、複数のサーバ装置103が接続されていると判定される。
サーバ管理部105が稼働するサーバ装置103が接続されたブレードサーバシャーシ101に、複数のサーバ装置103が接続されていないと判定されて場合、切り替え情報管理部108は、処理を終了する。
サーバ管理部105が稼働するサーバ装置103が接続されたブレードサーバシャーシ101に、複数のサーバ装置103が接続されていると判定された場合、切り替え情報管理部108は、サーバ管理部105が稼働するサーバ装置103に該当するサーバ装置識別子502を検索キーとして、切り替え情報管理テーブル119を検索し、当該サーバ装置識別子502に該当するエントリからデバイス識別子703及びBIOS情報704とを取得する(1002)。
切り替え情報管理部108は、サーバ管理部105が稼働するサーバ装置103のサーバ装置識別子502と、待機サーバ装置103のサーバ装置識別子502と、取得されたデバイス識別子703及びBIOS情報704とをSVP113に通知して処理を終了する(1003)。
SVP113は、サーバ管理部105が稼働するサーバ装置103のサーバ装置識別子502と、待機サーバ装置103のサーバ装置識別子502と、通知されたデバイス識別子703及びBIOS情報704と、を切り替え情報格納領域406に格納する。
図11は、本発明の実施の形態の切り替え情報格納領域406の一例を示す説明図である。
情報1101は、サーバ管理部が稼働するサーバ装置のサーバ装置識別子、待機サーバ装置103のサーバ装置識別子、及び、切り替え情報を管理する。
サーバ管理部が稼働するサーバ装置のサーバ装置識別子は、切り替え情報管理部108から通知された、サーバ管理部105が稼働するサーバ装置103のサーバ装置識別子502を格納する。
待機サーバ装置103のサーバ装置識別子は、切り替え情報管理部108から通知された、待機サーバ装置103のサーバ装置識別子502を格納する。
切り替え情報は、切り替え情報管理部108から通知された、デバイス識別子703及びBIOS情報704を格納する。
図12は、本発明の実施の形態の状態更新部112の処理を説明するフローチャートである。状態更新部112は、起動管理部111から呼び出された後に以下で説明する処理を行う。
状態更新部112は、サーバ管理テーブル117からサーバ管理部105が稼働しているサーバ装置103のサーバ装置識別子502を取得し(1201)、当該取得されたサーバ装置識別子502が待機サーバ装置103のサーバ装置識別子502と一致するか否かを判定する(1202)。
取得されたサーバ装置識別子502が待機サーバ装置103のサーバ装置識別子502と一致しないと判定された場合、状態更新部112は、処理を終了する。
取得されたサーバ装置識別子502が待機サーバ装置103のサーバ装置識別子502と一致すると判定された場合、状態更新部112は、切り替え管理テーブル118の状態604を「使用中」に変更する(1203)。
次に、状態更新部112は、サーバ管理テーブル117の種別508を参照し、待機サーバ装置103に切り替える前にサーバ管理部105が稼働していたサーバ装置103を検索し、該当するエントリのサーバ状態506を「異常」に変更する。また、状態更新部112は、該当するエントリの切り替え先507に、切り替えられた待機サーバ装置103のサーバ装置識別子502を書き込む(1204)。
図13は、本発明の実施の形態のイベントログ管理部109の処理を説明するフローチャートである。イベントログ管理部109は、起動管理部111が処理を終えた後に以下で説明する。
ステップ906の処理が行われた後に、イベントログ管理部109は、サーバ管理部105に送信されていないイベントログの送信をSVP113に要求する(1301)。なお、ステップ906において前述した処理を行ってもよい。
当該イベントログをSVP113から受信したイベントログ管理部109は、受信された当該イベントログから一つのイベントログを取り出し(1302)、当該イベントログがハードウェア障害であるか否かを判定する(1303)。
当該イベントログかハードウェア障害でないと判定された場合、イベントログ管理部109は、ステップ1305に進む。
当該イベントログかハードウェア障害であると判定された場合、イベントログ管理部109は、当該イベントを障害監視部107に送信する(1304)。
前述した処理の後、イベントログ管理部109は、受信したイベント全てを処理したか否かを判定する(1305)。
受信したイベント全ての処理をしていないと判定された場合、イベントログ管理部109は、ステップ1302に戻り、同様の処理を行う。
受信したイベント全ての処理をしたと判定された場合、イベントログ管理部109は、処理を終了する。
以上が本実施の形態のサーバ管理部105の処理である。以下SVP113の処理について説明する。
図14は、本発明の実施の形態の障害検出部403の処理を説明するフローチャートである。この処理は、サーバ装置103からハードウェア障害の通知送られることによって開始する。
まず、障害検出部403は、ハードウェア障害の通知をサーバ装置103のBMC204から受信する(1401)。
障害検出部403は、受信したハードウェア障害通知がサーバ装置103の障害か否かを判定する(1402)。
受信したハードウェア障害の通知がサーバ装置103の障害でないと判定された場合、障害検出部403は、受信したハードウェア障害の通知に対応した障害処理を行い(1406)、ステップ1407へ進む。サーバ装置103以外のハードウェア障害としては、例えば、ブレードサーバの電源の障害、またはファンの障害などがある。
受信したハードウェア障害の通知がサーバ装置103の障害であると判定された場合、障害検出部403は、サーバ管理部105が稼働しているサーバ装置のサーバ装置識別子502を、切り替え情報格納領域406から取得する(1403)。
障害検出部403は、障害が発生したサーバ装置103のサーバ装置識別子502と該取得されたサーバ装置識別子502とを参照し、サーバ管理部105が稼働するサーバ装置103の障害であるか否かを判定する(1404)。
サーバ管理部105が稼働するサーバ装置103の障害でないと判定された場合、障害検出部403は、サーバ装置103の障害処理を行い(1406)、ステップ1407へ進む。なお、サーバ装置103の障害処理は、例えば、従来のコールドスタンバイを用いた切り替え処理などである。
サーバ管理部105が稼働するサーバ装置103の障害であると判定された場合、障害検出部403は、切り替え処理部405を呼び出す(1405)。なお、呼び出された切り替え処理部405の具体的な処理については、図15を用いて後述する。
障害検出部403は、障害のイベントをサーバ管理部105に送信するためイベント管理部404を呼び出す(1407)。なお、呼び出されたイベント管理部404の具体的な処理については、図16を用いて後述する。
図15は、本発明の実施の形態の切り替え処理部405の処理を説明するフローチャートである。
図14のステップ1405において、障害検出部403から呼び出された切り替え処理部405は、切り替え情報格納領域406から切り替え情報を取得する(1501)。
次に、切り替え処理部405は、障害が発生したサーバ管理部105が稼働するサーバ装置103を停止させる(1502)。
切り替え処理部405は、待機サーバ装置103の電源をONにして待機サーバを起動させる(1503)。
次に、切り替え処理部405は、ステップ1501で取得された切り替え情報に含まれる待機サーバのサーバ装置識別子502を参照し、待機サーバ装置103のサーバ装置識別子502に該当する待機サーバ装置103に、ステップ1501で取得された切り替え情報を書き込む(1504)。この処理によって、待機サーバ装置103とサーバ管理部105を実現するプログラムが格納されているストレージ装置114のディスク115とが接続される。
図16は、本発明の実施の形態のイベント管理部404の処理を説明するフローチャートである。イベント管理部404は、サーバ装置103から受信したイベントを周期的にサーバ管理部105に送信している。
図14のステップ1407において、障害検出部403から呼び出されたイベント管理部404は、サーバ管理部105が稼働するサーバ装置103に対しイベントログを送信する(1601)。
イベント管理部404は、サーバ管理部105が稼働するサーバ装置103に対しイベントログを正しく送信されたか否かを判定する。つまり、イベント管理部404は、送信エラーが発生したか否かを判定する(1602)。
送信エラーが発生していないと判定された場合、イベント管理部404は、ステップ1704に進む。
送信エラーが発生したと判定された場合、イベント管理部404は、送信できなかったイベントにサーバ管理部105が稼働するサーバ装置103への未送信フラグを付与する(1603)。
イベント管理部404は、サーバ管理部105が稼働するサーバ装置103に送信されたイベント、及び、未送信フラグが付与されているイベントをイベント格納領域407に格納する(1604)。
送信エラーが発生したイベントに対し未送信フラグを付与することによって、待機サーバ装置103に引き継がれたサーバ管理部105が切り替え処理の間受信することができなかったイベントを待機サーバ装置103に引き継がれたサーバ管理部105が送信することができる。これによって、切り替え処理の前後においてサーバ管理部105の整合性を保つことができる。また、受信したイベントログを正しく処理することができる(図13参照)。
図17は、本発明の実施の形態のイベント格納領域407の一例を示す説明図である。
イベント格納領域407は、時間1701、イベント1702、及び送信状態1703を管理する。
時間1701は、イベントが発生した時間を格納する。イベント1702は、発生したイベントの内容を格納する。送信状態1703は、サーバ管理部105が稼働するサーバ装置103にイベントが送信されたか否かを示す情報を格納する。具体的には、サーバ管理部105が稼働するサーバ装置103にイベントが送信された場合には、「済」が送信状態1703に格納され、サーバ管理部105が稼働するサーバ装置103にイベントが送信されなかった場合には、「未」が送信状態1703に格納される。
本発明によれば、事前にSVP113に切り替え情報を設定することによって、サーバ管理部105が稼働するサーバ装置103に障害が発生した場合、障害を検知したSVP113は、待機サーバ装置103に切り替え情報を書き込み、迅速に待機サーバ装置103にサーバ管理部105を引き継がせることができる。また、SVP113は、待機サーバ装置103に引き継がれたサーバ管理部105に対して、サーバ管理部105が稼働していたサーバ装置103の障害によって切り替え処理を行ったことを通知することができる。
また、待機サーバ装置103で稼働しているサーバ管理部105は、サーバ管理部105自身に障害が起きたことをSVP113から知ることができる。
また、切り替え処理の前後でサーバ管理部105が受信できなかったイベントログをSVP113から取得できるのでサーバ管理部105の整合性を保つことができる。また、待機サーバ装置103で稼働しているサーバ管理部105は、受信したイベントログを正しく処理することができる。
なお、本実施の形態では、SVP113は、サーバ管理部105からイベントログの取得要求を受けてから、サーバ管理部105にイベントログを送信したが、本発明は、これに限定されない。SVP113が、起動した待機サーバ装置103にイベントログを送信する方法であってもよい。
本発明の実施の形態のブレードサーバのハードウェア構成を説明するブロック図である。 本発明の実施の形態のサーバ管理部か稼働するサーバ装置のハードウェア構成及びソフトウェア構成を説明するブロック図である。 本発明の実施の形態の業務を行うサーバ装置のハードウェア構成及びソフトウェア構成を説明するブロック図である。 本発明の実施の形態のSVPのハードウェア構成及びソフトウェア構成を説明するブロック図である。 本発明の実施の形態のサーバ管理テーブルの一例を示す説明図である。 本発明の実施の形態の切り替え管理テーブルの一例を示す説明図である。 本発明の実施の形態の切り替え情報管理テーブルの一例を示す説明図である。 本発明の実施の形態のサーバ管理部が稼働するサーバ装置に障害が発生した場合の切り替え処理を説明する図である。 本発明の実施の形態の起動管理部の処理を示すフローチャートである。 切り替え情報管理部の処理を示すフローチャートである。 本発明の実施の形態の切り替え情報格納領域の一例を示す説明図である。 本発明の実施の形態の状態更新部の処理を説明するフローチャートである。 本発明の実施の形態のイベントログ管理部の処理を説明するフローチャートである。 本発明の実施の形態の障害検出部の処理を説明するフローチャートである。 本発明の実施の形態の切り替え処理部の処理を説明するフローチャートである。 本発明の実施の形態のイベント管理部の処理を説明するフローチャートである。 本発明の実施の形態のイベント格納領域の一例を示す説明図である。 従来のコールドスタンバイにおける、障害監視部の処理を説明するフローチャートである。 従来のコールドスタンバイにおける、切り替え部の処理を説明するフローチャートである。
符号の説明
101 ブレードサーバシャーシ
102 ネットワークスイッチ
103 サーバ装置、待機サーバ装置
104 ストレージスイッチ
105 サーバ管理部
106 障害管理部
107 障害監視部
108 切り替え情報管理部
109 イベントログ管理部
110 切り替え部
111 起動管理部
112 状態更新部
113 SVP
114 ストレージ装置
115 ディスク
116 エージェント部
117 サーバ管理テーブル
118 切り替え管理テーブル
119 切り替え情報管理テーブル
201 メモリ
202 プロセッサ
203 ネットワークI/F
204 BMC
205 MAC
206 ディスクI/F
207 WWN
208 BIOS
301 アプリケーションプログラム
302 OS
401 メモリ
402 ブレード管理プログラム
403 障害検出部
404 イベント管理部
405 切り替え処理部
406 切り替え情報格納領域
407 イベント格納領域
408 プロセッサ
409 ネットワークI/F

Claims (14)

  1. 業務を行う第1の計算機と、待機系の計算機と、前記第1の計算機及び前記待機系の計算機の管理を行う管理部を備える第2の計算機と、前記待機系の計算機の起動及び停止の管理を行う第3の計算機と、を備える計算機システムにおける計算機切り替え方法であって、
    前記第3の計算機が、前記第2の計算機の管理部から前記第1の計算機、前記第2の計算機及び前記待機系の計算機の構成情報を取得するステップと、
    前記第3の計算機が、
    発生した障害が前記管理部を備える前記第2の計算機か否かを判定するステップと、
    前記第1の計算機に障害が発生したときに、当該障害が発生したことを前記第2の計算機に通知するステップと、
    前記第3の計算機から前記通知を受信した前記第2の計算機が、
    前記第1の計算機から前記待機系の計算機に業務を引き継がせるステップと、
    前記第3の計算機が、
    前記第2の計算機に障害が発生したときに、前記取得した構成情報に基づき前記第2の計算機から前記待機系の計算機に前記管理部を引き継がせるステップと、
    を備えることを特徴とする計算機切り替え方法。
  2. 前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれた場合に、
    前記第3の計算機が、前記待機系の計算機に引き継がれた管理部に、前記第2の計算機に障害が発生したことを通知するステップを備えることを特徴とする請求項1に記載の計算機切り替え方法。
  3. 前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれた場合に、
    前記待機系の計算機に引き継がれた前記管理部が、前記第2の計算機に障害が発生したか否かを前記第3の計算機に問い合わせるステップを備えることを特徴とする請求項1に記載の計算機切り替え方法。
  4. 前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれる場合に、
    前記第3の計算機が、前記取得された第2の計算機に関する構成情報を前記待機系の計算機に書き込むステップを備えることを特徴とする請求項1に記載の計算切り替え方法。
  5. 前記第3の計算機が、前記第2の計算機に障害が発生したことを検知した場合に、
    前記第2の計算機から前記待機系の計算機に切り替えられるまでの間に、前記第2の計算機に送信されたイベントを保持するステップを備えることを特徴とする請求項1に記載の計算機切り替え方法。
  6. 前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれた場合に、
    前記第3の計算機は、前記第2の計算機を停止してから前記待機系の計算機を起動するステップを備えることを特徴とする請求項1に記載の計算機切り替え方法。
  7. 前記待機系の計算機に引き継がれた前記管理部は、
    前記第2の計算機に障害が発生したことを検知したときには、
    計算機システムの前記構成情報を更新するステップを備えることを特徴とする請求項1に記載の計算機切り替え方法。
  8. 前記待機系の計算機に引き継がれた前記管理部は、
    前記第2の計算機に障害が発生したことを検知したときには、
    前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれるまでの間に、前記第2の計算機に送信されたイベントを前記第3の計算機から取得し、
    前記取得したイベントの処理を実行するステップを備えることを特徴とする請求項1に記載の計算機切り替え方法。
  9. 業務を行う第1の計算機、または前記第1の計算機及び待機系の計算機の管理を行う管理部を備える第2の計算機に障害が発生した場合に前記待機系の計算機に前記管理部を引き継がせる第3の計算機における計算機切り替えプログラムであって、
    前記計算機切り替えプログラムは、
    前記第2の計算機の管理部から前記第1の計算機、前記第2の計算機及び前記待機系の計算機の構成情報を取得させる手順と、
    発生した障害が前記管理部を備える前記第2の計算機か否かを判定する手順と、
    前記第1の計算機に障害が発生したときに前記第2の計算機に前記第1の計算機に障害が発生したことを通知させる手順と、
    前記第2の計算機において障害が発生したときに、前記取得した構成情報に基づき前記第2の計算機から前記待機系の計算機に前記管理部を引き継がせる手順と、
    を備えて前記第3の計算機に実行させることを特徴とする計算機切り替えプログラム。
  10. 前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれた場合に、
    前記待機系の計算機に引き継がれた管理部に、前記第2の計算機に障害が発生したことを通知する手順を備えて前記第3の計算機に実行させることを特徴とする請求項9に記載の計算機切り替えプログラム。
  11. 前記第2の計算機から前記待機系の計算機に前記管理部引き継がれた場合に、
    前記取得された第2の計算機に関する構成情報を前記待機系の計算機に書き込む手順を備えて前記第3の計算機に実行させることを特徴とする請求項9に記載の計算切り替えプログラム。
  12. 前記第3の計算機が、前記第2の計算機に障害が発生したことを検知した場合に、
    前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれるまでの間に、前記第2の計算機に送信されたイベントを保持する手順を備えて前記第3の計算機に実行させることを特徴とする請求項9に記載の計算機切り替えプログラム。
  13. 前記第2の計算機から前記待機系の計算機に前記管理部が引き継がれた場合に、
    前記第2の計算機を停止してから前記待機系の計算機を起動する手順を備え前記第3の計算機に実行させることを特徴とする請求項9に記載の計算機切り替えプログラム。
  14. 業務を行う第1の計算機と、待機系の計算機と、前記第1の計算機及び前記待機系の計算機の管理を行う管理部を備える第2の計算機と、前記待機系の計算機の起動及び停止の管理を行う第3の計算機と、を備える計算機システムであって、
    前記第3の計算機は、
    前記第2の計算機の管理部から前記第1の計算機、前記第2の計算機及び前記待機系の計算機の構成情報を取得し、
    発生した障害が前記管理部を備える前記第2の計算機か否かを判定し、
    前記第1の計算機に障害が発生したときに前記第2の計算機に前記第1の計算機に障害が発生したことを通知し、
    前記第3の計算機から前記通知を受信した前記第2の計算機は、
    前記第1の計算機から前記待機系の計算機に業務を引き継がせ、
    前記第3の計算機は、
    前記第2の計算機に障害が発生したときに、前記取得された構成情報に基づき前記第2の計算機から前記待機系の計算機に前記管理部を引き継がせることを特徴とする計算機システム。
JP2008233286A 2008-09-11 2008-09-11 計算機切り替え方法、計算機切り替えプログラム及び計算機システム Expired - Fee Related JP4572250B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008233286A JP4572250B2 (ja) 2008-09-11 2008-09-11 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
US12/510,416 US8245077B2 (en) 2008-09-11 2009-07-28 Failover method and computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008233286A JP4572250B2 (ja) 2008-09-11 2008-09-11 計算機切り替え方法、計算機切り替えプログラム及び計算機システム

Publications (2)

Publication Number Publication Date
JP2010067042A JP2010067042A (ja) 2010-03-25
JP4572250B2 true JP4572250B2 (ja) 2010-11-04

Family

ID=41800188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008233286A Expired - Fee Related JP4572250B2 (ja) 2008-09-11 2008-09-11 計算機切り替え方法、計算機切り替えプログラム及び計算機システム

Country Status (2)

Country Link
US (1) US8245077B2 (ja)
JP (1) JP4572250B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4650203B2 (ja) * 2005-10-20 2011-03-16 株式会社日立製作所 情報システム及び管理計算機
US7768797B1 (en) * 2008-03-05 2010-08-03 Google Inc. Automatically detecting a computer chassis type
US8832259B1 (en) * 2009-10-30 2014-09-09 Hewlett-Packard Development Company, L.P. Virtual service mode methods for network remote monitoring and managing system
WO2012131761A1 (ja) 2011-03-28 2012-10-04 富士通株式会社 情報処理システム及び情報処理システムの処理方法
JP5634379B2 (ja) * 2011-10-27 2014-12-03 株式会社日立製作所 計算機システムおよび計算機システムの情報保存方法
JP5843888B2 (ja) 2012-01-19 2016-01-13 株式会社日立製作所 計算機システムの管理方法、計算機システム及び記憶媒体
JP2013225208A (ja) * 2012-04-20 2013-10-31 Toyota Motor Corp 情報処理装置、情報処理方法、及びプログラム
JP6035961B2 (ja) * 2012-07-31 2016-11-30 富士通株式会社 情報処理装置、管理プログラムおよび管理方法
WO2014091535A1 (ja) * 2012-12-10 2014-06-19 株式会社日立製作所 計算機システム及び記憶部の暗号化方法
JP6179101B2 (ja) 2013-01-16 2017-08-16 日本電気株式会社 管理装置、管理方法、および管理プログラム
US10521480B2 (en) * 2013-05-07 2019-12-31 International Business Machines Corporation Informative communication history
WO2015052836A1 (ja) * 2013-10-11 2015-04-16 株式会社日立製作所 ストレージ装置及びフェールオーバ方法
JP6421516B2 (ja) * 2014-09-25 2018-11-14 沖電気工業株式会社 サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
WO2017175350A1 (ja) * 2016-04-07 2017-10-12 株式会社日立製作所 計算機システム
GB2570143B (en) * 2018-01-12 2020-04-08 Garrison Tech Ltd Secure sharing of storage resources
KR102411260B1 (ko) * 2020-11-06 2022-06-21 한국전자기술연구원 러기드 환경에서 관리 모듈간 데이터 이중화 처리 방법
JP7498731B2 (ja) * 2022-01-17 2024-06-12 株式会社日立製作所 クラスタシステム、復旧方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295465A (ja) * 2003-03-27 2004-10-21 Hitachi Ltd 計算機システム
JP2007058549A (ja) * 2005-08-24 2007-03-08 Nec Corp マルチコンピュータモジュールシステム、マルチコンピュータモジュール方法、および、プログラム
JP2007265333A (ja) * 2006-03-30 2007-10-11 Hitachi Software Eng Co Ltd 業務復旧支援システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3771162B2 (ja) * 2001-10-03 2006-04-26 株式会社日立製作所 保守管理方法、保守管理システム、情報処理システムおよびコンピュータプログラム
US7318095B2 (en) * 2001-11-21 2008-01-08 Clearcube Technology, Inc. Data fail-over for a multi-computer system
US7178050B2 (en) * 2002-02-22 2007-02-13 Bea Systems, Inc. System for highly available transaction recovery for transaction processing systems
JP4462024B2 (ja) 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
JP2006229512A (ja) 2005-02-17 2006-08-31 Nec Engineering Ltd サーバ切替方法,サーバ及びサーバ切替プログラム
JP4701929B2 (ja) 2005-09-02 2011-06-15 株式会社日立製作所 ブート構成変更方法、管理サーバ、及び計算機システム
JP4487920B2 (ja) 2005-12-12 2010-06-23 株式会社日立製作所 ブート制御方法および計算機システム並びにその処理プログラム
JP4839841B2 (ja) 2006-01-04 2011-12-21 株式会社日立製作所 スナップショット再起動方法
JP2007279890A (ja) 2006-04-04 2007-10-25 Hitachi Ltd バックアップシステム及びバックアップ方法
JP4939102B2 (ja) 2006-04-21 2012-05-23 株式会社日立製作所 ネットワークブート計算機システムの高信頼化方法
JP5068056B2 (ja) 2006-10-11 2012-11-07 株式会社日立製作所 障害回復方法、計算機システム及び管理サーバ
JP4923990B2 (ja) 2006-12-04 2012-04-25 株式会社日立製作所 フェイルオーバ方法、およびその計算機システム。
JP4842210B2 (ja) 2007-05-24 2011-12-21 株式会社日立製作所 フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
US7945773B2 (en) * 2007-09-18 2011-05-17 International Business Machines Corporation Failover of blade servers in a data center

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295465A (ja) * 2003-03-27 2004-10-21 Hitachi Ltd 計算機システム
JP2007058549A (ja) * 2005-08-24 2007-03-08 Nec Corp マルチコンピュータモジュールシステム、マルチコンピュータモジュール方法、および、プログラム
JP2007265333A (ja) * 2006-03-30 2007-10-11 Hitachi Software Eng Co Ltd 業務復旧支援システム

Also Published As

Publication number Publication date
US20100064165A1 (en) 2010-03-11
US8245077B2 (en) 2012-08-14
JP2010067042A (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
US7802127B2 (en) Method and computer system for failover
JP5080140B2 (ja) I/oデバイス切り替え方法
JP4448878B2 (ja) 障害回復環境の設定方法
JP4462024B2 (ja) ディスク引き継ぎによるフェイルオーバ方法
JP4939102B2 (ja) ネットワークブート計算機システムの高信頼化方法
JP4701929B2 (ja) ブート構成変更方法、管理サーバ、及び計算機システム
EP2800303B1 (en) Switch method, device and system for virtual application dual machine in cloud environment
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
JP2010003061A (ja) 計算機システム及びそのi/o構成変更方法
WO2012004902A1 (ja) 計算機システム及び計算機システムの系切替制御方法
WO2011111245A1 (ja) 計算機システム、計算機システムの制御方法及びプログラムを格納した記憶媒体
JP5316616B2 (ja) 業務引き継ぎ方法、計算機システム、及び管理サーバ
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
US7437445B1 (en) System and methods for host naming in a managed information environment
US20130007512A1 (en) Managing storage providers in a clustered appliance environment
JP5484434B2 (ja) ネットワークブート計算機システム、管理計算機、及び計算機システムの制御方法
JP5131336B2 (ja) ブート構成変更方法
JP5267544B2 (ja) ディスク引き継ぎによるフェイルオーバ方法
JP4877368B2 (ja) ディスク引き継ぎによるフェイルオーバ方法
JP5321658B2 (ja) フェイルオーバ方法、およびその計算機システム。
JP5423855B2 (ja) ブート構成変更方法
JP2013149201A (ja) 情報処理システム、及び、情報処理システムの制御方法
CN111901415A (zh) 数据处理方法和系统、计算机可读存储介质及处理器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4572250

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees