JP5305040B2 - サーバ計算機の切替方法、管理計算機及びプログラム - Google Patents

サーバ計算機の切替方法、管理計算機及びプログラム Download PDF

Info

Publication number
JP5305040B2
JP5305040B2 JP2010122884A JP2010122884A JP5305040B2 JP 5305040 B2 JP5305040 B2 JP 5305040B2 JP 2010122884 A JP2010122884 A JP 2010122884A JP 2010122884 A JP2010122884 A JP 2010122884A JP 5305040 B2 JP5305040 B2 JP 5305040B2
Authority
JP
Japan
Prior art keywords
switching
server computer
information
failure
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010122884A
Other languages
English (en)
Other versions
JP2011248735A5 (ja
JP2011248735A (ja
Inventor
雄二郎 市川
良史 高本
恵介 畑▲崎▼
貴志 爲重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010122884A priority Critical patent/JP5305040B2/ja
Priority to PCT/JP2010/064460 priority patent/WO2011148524A1/ja
Priority to US13/695,050 priority patent/US8880936B2/en
Publication of JP2011248735A publication Critical patent/JP2011248735A/ja
Publication of JP2011248735A5 publication Critical patent/JP2011248735A5/ja
Application granted granted Critical
Publication of JP5305040B2 publication Critical patent/JP5305040B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Description

本発明は、フェイルオーバー構成を備える計算機システムに係り、特にサーバの切替パターンを決定する手順を含むサーバ切替の技術に関する。
サーバの障害発生時の業務復旧方法として、サーバの切替手段が存在する(例えば、特許文献1、特許文献2、特許文献3)。このようなサーバの切替手段を備えたフェイルオーバー構成における、予備サーバの有効活用に関する方法として、予備サーバでの開発、テスト、Webサーバなどへの一時的な割当が知られている。
特開2006−163963号公報 特開2006−11781号公報 特開2006−227770号公報
しかし、上記従来の方法では、サーバの切替を実施する際に予備系サーバ上で稼動する業務(例えば、ソフトウェアの開発業務等)が一旦停止されてしまう。これは、切替の際に、I/O(Input/Output)障害発生の防止、WWN(World Wide Name)やBIOS(Basic Input/Output System)設定の更新などのため、予備系サーバを一旦停止させる必要があるからである。
上記は、サーバ切替において、予備系または現用系サーバ上の業務に影響を与えることとなる。例えば、迅速な切替のために予備系サーバを強制停止した場合、ハードウェアの故障や、業務データの破損などが発生する場合がある。予備系サーバ上の業務停止を待ってからサーバを切り替えた場合、現用系サーバ上の業務復旧が遅延しSLA(Service Level Agreement)を満たせない場合が発生する。この問題は、要件の異なる複数の業務で予備系サーバを共有する状況にて特に顕著となる。
そこで、本発明が解決しようとする課題は、業務要件を満たしかつサーバ切替の予備系サーバへの影響を抑えるために、サーバ切替時に予備系サーバを可能な限り安全に停止させるサーバの切替方法を決定すること、また現用系サーバの障害予兆を検出し事前に予備系サーバを停止させることである。
本発明は、第1の業務を提供する第1のサーバ計算機と、第2の業務を提供する第2のサーバ計算機と、前記第1のサーバ計算機及び第2のサーバ計算機に接続された管理計算機が、前記第1のサーバ計算機で提供される第1の業務を、前記第2のサーバ計算機に引き継がせるサーバ計算機の切り替え方法であって、前記管理計算機が、前記第1の業務を第2のサーバ計算機へ切り替える際の切り替えパターンを設定した切替レベル情報を参照し、前記切り替えパターン毎にレベルを設定する第1のステップと、前記管理計算機が、前記切替レベル情報を参照し、前記切り替えパターン毎に前記第1の業務を第2のサーバ計算機へ切り替える際の切り替え所要時間を設定する第2のステップと、前記管理計算機が、前記第1の業務を第2のサーバ計算機へ切り替える際に許容された停止時間を予め設定した業務要件情報を参照する第3のステップと、前記管理計算機が、前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択する第4のステップと、前記管理計算機が、前記選択された切り替えパターンで、前記第2のサーバ計算機の第2の業務を停止させてから、前記第1の業務を前記第2のサーバ計算機で提供させる第5のステップと、を含む。
また、前記管理計算機が、前記第1のサーバ計算機の障害の予兆を検知する第7のステップをさらに含み、前記第1のサーバ計算機の障害の予兆の検知したことを契機に、前記第3のステップ、第4のステップ及び第5のステップを行う。
したがって、本発明によれば、サーバ切替時に第2のサーバ計算機(予備サーバ)を可能な限り安全に停止させるサーバの切替パターンを決定することができる。また、第1のサーバ計算機(現用サーバ)の障害予兆を検出し事前に予備サーバを停止させることで、サーバ切替時に予備サーバで稼動する業務への影響を抑えることができる。
本発明の第1の実施形態を示し、計算機システムの構成を示すブロック図である。 本発明の第1の実施形態を示し、管理サーバ装置の構成を示すブロック図である。 本発明の第1の実施形態を示し、サーバ装置の構成を示すブロック図である。 本発明の第1の実施形態を示し、仮想化システムを備えるサーバ装置の構成を示すブロック図である。 本発明の第1の実施形態を示し、現用のサーバ装置と予備のサーバ装置及び管理サーバ間の処理を示すシーケンス図である。 本発明の第1の実施形態を示し、切り替えレベルテーブルの構成を示す説明図である。 本発明の第1の実施形態を示し、業務要件テーブルの構成を示す説明図である。 本発明の第1の実施形態を示し、切り替え方法決定部の処理の一例を示すフローチャートである。 本発明の第1の実施形態を示し、切替情報テーブル群の構成を示すブロック図である。 本発明の第1の実施形態を示し、切替方法特徴テーブルの構成を示す説明図である。 本発明の第1の実施形態を示し、制御対象レートテーブルの構成を示す説明図である。 本発明の第1の実施形態を示し、資源解放方法レートテーブルの構成を示す説明図である。 本発明の第1の実施形態を示し、業務再起動レートテーブルの構成を示す説明図である。 本発明の第1の実施形態を示し、切替レベルテーブル生成部の処理の一例を示すフローチャートである。 本発明の第1の実施形態を示し、切替方法のレベルを決定する処理の一例を示すフローチャートである。 本発明の第1の実施形態を示し、切替方法の所要時間を決定する処理の一例を示すフローチャートである。 本発明の第1の実施形態を示し、切替レベル情報を設定するGUIの例を示す画面イメージである。 本発明の第1の実施形態を示し、業務要件情報を設定するGUIの例を示す画面イメージである。 本発明の第1の実施形態を示し、切替実行部の処理の一例を示すフローチャートである。 本発明の第2の実施形態を示し、障害制約テーブルの構成を示す図である。 本発明の第2の実施形態を示し、切替方法決定部の処理の一例を示すフローチャートである。 本発明の第3の実施形態を示し、現用サーバ装置と予備サーバ装置及び管理サーバ間の処理の一例を示すシーケンス図である。 本発明の第3の実施形態を示し、障害予兆情報テーブルの構成を示す説明図である。 本発明の第3の実施形態を示し、障害予兆情報テーブル生成部の処理の一例を示すフローチャートである。 本発明の第3の実施形態を示し、障害予兆情報を設定するGUIの例を示す画面イメージである。 本発明の第1の実施形態を示し、業務管理部が保持する情報の例を示す説明図である。
以下、本発明の一実施形態を添付図面に基づいて説明する。
<第1実施形態>
図1は、計算機システムの構成を示す。この計算機システムは、管理サーバ装置100、1つ以上のサーバ装置110−A、110−B、SVP(Service Processor)111、サーバ装置110−A、110−B及びSVP111を収めるサーバシャーシ112、ストレージ装置120、1つ以上のネットワークスイッチ130、1つ以上のストレージスイッチ140を有する。なお、図1において、サーバ装置110−Aは現用系として機能し、サーバ装置110−Bは予備系として機能する。また、複数のサーバ装置110−A,110−Bの総称をサーバ装置110とする。
管理サーバ装置100は、プログラム制御により動作するコンピュータであり、管理サーバ装置100のユーザ(本計算機システムの管理者)が使用する入力装置150及び出力装置151を接続し、ネットワークスイッチ130に接続するNIC(Network Interface Card)、及びストレージスイッチ140に接続するHBA(Host Bus Adapter)を備える。
管理サーバ装置100は、ネットワークスイッチ130、ストレージスイッチ140を介して、各サーバ装置110、SVP111、及びストレージ装置120に接続する。管理サーバ装置100は、障害復旧管理部101を動作させ、また障害復旧管理部101の動作に必要なテーブル群102を有する。テーブル群102に含まれる各テーブルは、図6以降のテーブル構成例を用いて後述する。
サーバ装置110は、プログラム制御により動作するコンピュータであり、ネットワークスイッチ130に接続するNIC(Network Interface Card)、及びストレージスイッチ140に接続するHBA(Host Bus Adapter)を備える。サーバ装置110は、ネットワークスイッチ130、ストレージスイッチ140を介して、管理サーバ装置100、他のサーバ装置110、SVP111、及びストレージ装置120に接続する。
ストレージ装置120は、FC(Fiber Channel)及びLANインタフェースを備えてストレージスイッチ140、ネットワークスイッチ130に接続され、管理サーバ装置100及び各サーバ装置110が使用する1つ以上のディスク121を含む記憶装置システムである。
ネットワークスイッチ130は、1つ以上のネットワーク機器である。ネットワーク機器は、具体的にはネットワークスイッチやルータ、ロードバランサ、及びファイアウォールなどである。
図2は、管理サーバ装置100の構成を示すブロック図である。管理サーバ装置100は、演算処理を行うプロセッサ(CPU)241と、データやプログラムを格納するメモリ242と、データやプログラムを保持するローカルディスク243と、ネットワークスイッチ130に接続されるNIC245と、ストレージスイッチ140に接続されるHBA244を備える。なお、ローカルディスク243は、各プログラムを記憶する媒体として機能する。メモリ242には、障害復旧管理部101、テーブル群102、サーバ管理部200がロードされる。
障害復旧管理部101は、切替レベルテーブル生成部210、切り替え実行部212、切り替え方法決定部213、障害予兆情報テーブル生成部214を含む。尚、本実施形態では、障害復旧管理部101、及びサーバ管理部200は、プロセッサ241により実行されるプログラムとして説明するが、管理サーバ装置100に搭載するハードウェアやファームウェア、またはそれらの組み合わせにより実装しても良い。また、障害復旧管理部101、及びサーバ管理部200は、管理サーバ装置100が備えるローカルディスク243等の補助記憶装置に格納され、実行時にはメモリ242にロードされてから、プロセッサ241によって実行される。
障害管理部232は、各サーバ装置110で発生した障害(CPU温度上昇、ファン回転数異常、メモリECCコレクトエラーなど)を、各サーバ装置110またはSVP111から送信される情報によって検知する。
テーブル群102は、業務要件テーブル220、切り替えレベルテーブル221、切替情報テーブル群222、障害制約テーブル223、障害予兆情報テーブル224を含む。なお、障害制約テーブル223は第2の実施形態で使用するテーブルである。また、障害予兆情報テーブル224は第3の実施形態で使用するテーブルである。
サーバ管理部200は、障害管理部230、構成管理部231、資源管理部232、ログ管理部233及び業務管理部234を含む。構成管理部231は、各サーバ装置110に関する構成情報(ホスト名、オペレーティングシステムの種別、デバイス情報など)を、各サーバ装置110より収集して保持する。
資源管理部232は、各サーバ装置110の負荷情報(CPU使用率、メモリ使用量など)を、各サーバ装置110より収集して保持する。ログ管理部233は、過去に実施した切替の履歴(切替方法602(切り替えパターン))の識別子、開始時刻、終了時刻、対象サーバ装置、対象業務など)を保持する。業務管理部234は、各サーバ装置110上で稼動する業務の情報を収集して保持する。なお、ログ管理部233は、過去に実施した切替の実績を示す情報として、切替方法602(切り替えパターン)の識別子と、切り替えに要した時間(所要時間)を含んでいてもよい。また、切り替えの所要時間は、後述するように過去に実施した切り替えパターン毎の平均値を用いることができる。
図26は、業務管理部234が保持する情報の例を示す。カラム2600は、サーバ装置110を識別するための識別子である。具体的には、サーバ装置110上で稼動するオペレーティングシステムに設定されたホスト名、IPアドレス、サーバ装置110に設定されたUUID(Universally Unique Identifier)などである。カラム2601は、各サーバ装置110上で稼動する業務を識別するための識別子である。具体的には、業務の名称、及びユーザ(またはシステム管理者)が定義した名称である。
図3は、サーバ装置110の構成を示すブロック図である。ブレードサーバシャーシ112に格納されるサーバ装置110−A、110−Bは同一の構成である。サーバ装置110は、メモリ300、ローカルディスク301、プロセッサ(CPU)302、NIC303、HBA304を有する。ローカルディスク301は、補助記憶装置として使用する。尚、サーバ装置110は補助記憶装置としてフラッシュメモリなどを使用しても良い。またサーバ装置110は複数のNIC及びHBAを有しても良い。
メモリ300は、オペレーティングシステム311を動作させるプログラムを保持する。サーバ装置110内では、プロセッサ302がメモリ300にロードしたオペレーティングシステム311、アプリケーション(業務)310などのプログラムを実行する。
また、サーバ装置110は、図示しないBMC(Baseboard Management Controller)を備えており、SVP111からの指令に応じて電源の制御や、プロセッサ302の温度やファン回転数などハードウェアの監視を行うことができる。
また、サーバ装置110内では仮想化システムを動作させても良い。仮想化システムを備える場合のサーバ装置110の構成は、図4を用いて後述する。
図4は、仮想化システムを備える場合のサーバ装置110の構成を示す。メモリ300は、仮想化システム400を動作させるプログラムを保持する。仮想化システム400としては、ハイパバイザやVMM(Virtual Machine Monitor)等を採用することができる。仮想化システム400内では、仮想サーバ401、構成管理部402、障害管理部403、資源管理部404が動作する。
仮想サーバ401は、物理コンピュータをエミュレートした論理コンピュータであり、仮想化システム400によって割当てられた仮想資源を使用して、仮想サーバ401内で、OS(Operating System)311、アプリケーション310などのプログラムを動作させる。
構成管理部402は、仮想化システム400及び各仮想サーバ401に関する構成情報(ホスト名、仮想サーバ名など)を収集し、収集した情報を整形し、整形した情報を管理サーバ装置100へ送信する。
障害管理部403は、サーバ装置110及び仮想化システム400で発生した障害(CPU温度上昇、ファン回転数異常など)を検知し、障害内容を示す情報を整形し、整形した情報を管理サーバ装置100へ送信する。
資源管理部404は、サーバ装置110及び仮想サーバ401の負荷情報(CPU使用率、メモリ使用量など)を計測し、現況の負荷情報を整形し、整形した負荷情報を管理サーバ装置100へ送信する。尚、資源管理部404が、管理サーバ装置100へ送信する情報には、過去に計測した情報を含んでも良い。
図5は、現用のサーバ装置110−A、予備のサーバ装置110−B、及び管理サーバ装置100間の処理の一例を示すシーケンス図である。現用のサーバ装置110−Aは、その上で動作するOS311または仮想化システム400を通じて、現用のサーバ装置110−A及びその上で稼動する仮想化システム400に関する構成情報、障害情報、資源情報を管理サーバ装置100に送信する(処理500)。なお、処理500は、所定の周期毎に繰り返して実行される。また、サーバ装置110のBMC(図示省略)が構成情報、障害情報、資源情報を管理サーバ装置100に送信するようにしても良い。
管理サーバ装置100は、現用のサーバ装置110から送信された情報を受信し、その内容をサーバ管理部200の、障害管理部230、構成管理部231、及び資源管理部232に通知する(処理501)。
管理サーバ装置は、障害管理部230、構成管理部231、資源管理部232、及びログ管理部233の情報を元に、テーブル群102の、業務要件テーブル220、及び切り替えレベルテーブル221の内容を生成または更新する(処理502)。
管理サーバ装置100は、現用のサーバ装置110の障害を検知することなどを契機とし(処理510)、テーブル群102の参照を行い(処理511)、参照した情報を元に障害が発生した現用のサーバ装置110の切替方法(または切り替えパターン)を選択する(処理512)。管理サーバ装置100は、処理512で選択した切替方法に基づいて、現用のサーバ装置110−Aの業務を予備のサーバ装置110−Bへ引き継ぐ切替を実施する(処理513)。サーバ装置110の切替は、まず、予備のサーバ装置110−Bで提供(または実行)されている業務(第2の業務)を選択した切替方法に応じて停止させ、現用のサーバ装置110−Aで提供されていた業務(第1の業務)を、予備のサーバ装置110−Bで提供させることで行われる。
尚、本実施形態では、処理510で検知する契機を現用のサーバ装置110の障害(ハードウェア故障によるサーバ停止など)として説明するが、現用のサーバ装置110を構成するハードウェアの保守、ハードウェアまたはソフトウェアからのイベント通知、及びユーザが入力装置150及び出力装置151によるGUI(Graphical User Interface)を通して設定した情報を契機として用いても良い。
図6は、切り替えレベルテーブル221の例を示す説明図である。切り替えレベルテーブル221は、切替レベルテーブル生成部210によって生成または更新され、サーバ装置110の切り替え方法(または切り替えパターン)とその特徴に関する情報を保持する。レベル601は、切り替え方法を安全度などの非数値項目を数値化し、比較するための情報である。尚、本実施形態ではレベル601の情報を後述する安全度として説明するが他の情報を用いても良い。安全度とは、稼働中の予備のサーバ装置110−Bに対して系切り替えを実施した場合の、ハードウェアの消費、業務継続性、データ破損、などに基づいて管理サーバ装置100が、切り替えパターン毎に決定する情報である。本実施形態では、安全度の数値がより高い切り替えパターンの方が、予備のサーバ装置110−Bの業務に与える影響を抑制しながら現用のサーバ装置110−Aの業務を引き継ぐことができる。
レベル601は、後述する図9の、切替方法特徴テーブル900、制御対象レートテーブル901、資源解放レートテーブル902、及び業務再起動レートテーブル903の内容より、管理サーバ装置100が決定する値が格納される。切替方法(または切り替えパターン)602は、現用のサーバ装置110−Aの業務を予備のサーバ装置110−Bへ引き継ぐ切り替え方法(切り替えパターン)を識別するための識別子である。具体的には、切替方法の名称、及びユーザ(またはシステム管理者)が定義した名称である。カラム603は、切り替え方法毎の実施に要する所要時間603である。所要時間603は、ログ管理部233の情報や、ユーザが入力装置150及び出力装置151によるGUI(Graphical User Interface)を通して設定した情報を元に、管理サーバ装置100が決定する。
図7は、業務要件テーブル220の例を示す説明図である。業務要件テーブル700は、サーバ装置110を切り替える際に業務ダウン許容時間などのSLAに基づいた切り替え時間要件である。カラム(業務識別子)701は、サーバ装置110で実行される業務を識別するための識別子である。この識別子には、業務管理部234が保持する業務識別子2601と関連付けられるものを使用する。カラム(切替時間要件)702は、業務を現用のサーバ装置110−Aから予備のサーバ装置110−Bへの切り替える際に許可される停止時間である。例えば、カラム702の値が60秒である場合、所要時間が60秒を超える切り替え方法(または切り替えパターン)は業務要件上許可されないこととなる。尚、本実施形態ではカラム702の単位を秒として説明するが他の単位を用いても良い。また、カラム702の値は、業務の提供を受けるクライアントとの間に停止時間に関する定めがない場合には、値なし(要件が特にない)とすることもできる。また、業務要件テーブル700は、管理者などが予め設定しておくことができる。
図8は、障害復旧管理部101に含まれる切り替え方法決定部213で行われる処理の一例を示すフローチャートである。切替方法決定部213は、障害復旧管理部101が切替方法(または切り替えパターン)を決定する(図5の処理512)際に動作する。切替方法決定部213は、切り替え対象の現用系のサーバ装置110−Aで実行されている業務について、業務要件テーブル220を参照して切替対象となる業務の切替時間要件702を参照する。切替対象となる業務とは、管理サーバ装置100が障害を検出した現用のサーバ装置110−Aに関連付けられている業務である。現用のサーバ装置110−A上で仮想化システム400が稼動することで、複数の業務が関連付けられている場合は、複数の業務の切替時間要件702の中から最も低い切替時間要件702を参照する(ステップ800)。
切替方法決定部213は、現用のサーバ装置110−Aの切替先となる予備のサーバ装置110−Bを選択する。予備のサーバ装置110−Bが複数ある場合は、各予備のサーバ装置110−Bの稼動状態を資源管理部232より参照し、未稼働または別の現用サーバ装置(図示省略)の切替先として選択されていないサーバ装置110から選択する。なお、切替先として選択するサーバ装置110は、ユーザが入力装置150及び出力装置151によるGUI(Graphical User Interface)を通して設定した情報(優先度や、ユーザが直接指定した予備サーバ装置)から選択してもよい(ステップ801)。
切替方法決定部213は、切替レベルテーブル221より、本処理にてまだ一度も選択されていない切替方法602があるか否かを判定し、一度も選択されていない切替方法602があればステップ802へ、無ければステップ806に移動する(ステップ805)。
切り替え方法決定部213は、切替レベルテーブル221より、最もレベル601が高く(値が大きい)、本処理にて一度も選択されていない切替方法602を選択する(ステップ802)。切替方法決定部213は、ステップ802において選択した切替方法602の所要時間603と、ステップ800で参照した業務の切替時間要件702を比較する(ステップ803)。
切替方法決定部213は、ステップ803の比較により切替時間要件702が所要時間603を上回らない場合、ステップ802で選択した切替方法602の実行によって業務がダウンしてもそれは業務要件を違反しないものとして判定し、切替方法決定部213の処理を終了する。切替時間要件702が所要時間603を上回る場合、当該切替方法は業務要件に対し利用できないと判定しステップ805に移動する(ステップ804)。ステップ806は、切替時間要件702を満足する切替方法602が無い場合の処理である。ステップ806では、所要時間603が最も早い切替方法602を選択する。
上記処理により、まず切り替え対象の業務に許される切替時間要件702と、切り替え先の予備系のサーバ装置110−Bが選択される。そして、ステップ802、803、804、805を切替レベルテーブル221のエントリの数だけ繰り返し行うことで、切替方法602(または切り替えパターン)の内、切替時間要件702を満たしかつ最もレベル601の値が大きい切替方法602を選択する。また、ステップ804でNOとなった回数が切替レベルテーブル221のエントリの数を超えた場合には、所要時間603が最も短い切替方法602を選択することができる。
図9は、切替情報テーブル群222の構成を示す説明図である。切替情報テーブル群222は、切替方法特徴テーブル900、制御対象レートテーブル901、資源解放レートテーブル902、業務再起動レートテーブル903を有する。切替情報テーブル群222は、切替レベルテーブル221のレベル601の判定に用いる。
図10は、切替方法特徴テーブル900の構成を示す説明図である。切替方法特徴テーブル900は、各切替方法(切り替えパターン)を実施する際の、予備のサーバ装置110−Bの動作の特徴、及び予備のサーバ装置110−B上で既に実行されている業務への影響に関する情報を保持する。切替方法特徴テーブル900はユーザなどが予め設定したテーブルである。
カラム(切替方法)1000は、サーバ装置110の切替方法を識別するための識別子である。具体的には、切替方法の名称、及びユーザ(またはシステム管理者)が定義した名称である。カラム1001は、レベル601が示す情報(本実施形態では安全度)の判定要素となる情報である。換言すれば、切替方法1000を実行する際に、予備のサーバ装置110−Bに指令する制御の内容を、制御の項目毎に設定したものである。
カラム1001は、サブカラム(制御の項目)として制御対象1010、資源確保方法1011、業務再起動1012を備える。制御対象1010は、切替方法(切り替えパターン)1000を実施する際の、制御命令の送信先となる、予備のサーバ装置110−B内の構成要素(OS、ハードウェア、仮想化システムなど)である。資源解放方法1011は、切替方法1000を実施する際の、現用のサーバ装置110−A上の業務を割り当てるために予備のサーバ装置110−Bの資源を解放する方法(サーバ装置停止、資源割当率変更など)を示す。業務再起動1012は、切替方法1000を実施する際に、予備のサーバ装置110−B上の業務の再起動の有無を示す。
図11は、制御対象レートテーブル901の構成を示す説明図である。制御対象レートテーブル901は、制御対象1010をレベル601が示す情報(本実施形態では安全度)に関連付けるための情報を示す。制御対象レートテーブル901はユーザなどが予め設定したテーブルである。
カラム1100は、制御対象レートテーブル901を制御対象1010と関連付けるための識別子である。カラム1101は、カラム1100間でレベル601が示す情報(本実施形態では安全度)を比較するための情報である。例えば、図11を例として用いると、ハードウェアに対して電源停止などの制御命令を送信する場合と比べて、OSや仮想化システムなどのソフトウェアにシャットダウンなどの制御命令を送信する場合の方が、ハードウェアの負担を低減できるため安全度が高い。なお、ハードウェアを強制的に電源停止させた場合、再度通電したときに管理サーバ装置100からサーバ装置110を認識できない場合などの不具合が発生することがある。このため、ハードウェアの電源を強制的に停止する手順を含む切り替えパターン(切り替え方法)の安全度を低く設定しておく。
図12は、資源解放レートテーブル902の構成を示す。資源解放レートテーブル902は、資源解放方法1011をレベル601が示す情報(本実施形態では安全度)に関連付けるための情報を示す。資源解放レートテーブル902はユーザなどが予め設定したテーブルである。
カラム1200は、資源解放レートテーブル902を資源解放方法1011と関連付けるための識別子である。カラム1201は、カラム1200間でレベル601が示す情報(本実施形態では安全度)を比較するための情報である。例えば、図12を例として用いると、予備のサーバ装置110−Bを停止し、予備のサーバ装置110−B全体を現用のサーバ装置110−A上の業務に割り当てる場合の方が、資源割当率を変更して予備のサーバ装置110−Bの一部を現用のサーバ装置110−A上の業務に割り当てる場合と比べて、必要な資源を用意できるため業務継続性の面で安全度が高い。
図13は、業務再起動レートテーブル903の構成を示す説明図である。業務再起動レートテーブル903は、業務再起動1012をレベル601が示す情報(本実施形態では安全度)に関連付けるための情報を示す。業務再起動レートテーブル903はユーザなどが予め設定したテーブルである。
カラム1300は、業務再起動レートテーブル903を業務再起動1012と関連付けるための識別子である。カラム1301は、カラム1300間でレベル601が示す情報(本実施形態では安全度)を比較するための情報である。例えば、図13を例として用いると、業務の再起動が必要な場合と比べて、業務再起動が不要な場合の方がデータ損失性の面で安全度が高い。
図14は、切替レベルテーブル生成部210で行われる処理の一例を示すフローチャートである。この処理は、図5の処理502で実行される。
切替レベルテーブル生成部210は、障害復旧管理部101が切替レベルテーブル221を生成する(処理502)際に動作する。切替レベルテーブル生成部210は、切替方法特徴テーブル900より切替方法1000を参照し、切替レベルテーブル221の切替方法602に追加する(ステップ1400)。
切替レベルテーブル生成部210は、ステップ1400で追加した切替方法の内、本処理にて一度も選択されていない選択方法があるか否かを判定し、一度も選択されていない選択方法がある場合はステップ1402へ進み、無い場合は処理を終了する(ステップ1401)。なお、切替レベルテーブル221には、図示しないフラグなどを設けておき、切替方法602が選択されたときにフラグをセットすることで、上記判定を行うようにすればよい。
切替レベルテーブル生成部210は、切替レベルテーブル221の切替方法602のうち本処理にて一度も選択されていない切替方法を1つ選択する(ステップ1402)。切替レベルテーブル生成部210は、ステップ1402にて選択した切替方法602のレベルを決定し、切替レベルテーブル221の該当するレコードのレベル601に追加する(ステップ1403)。ステップ1403の詳細な処理フローチャートは図15に示す。
切替レベルテーブル生成部210は、ステップ1402にて選択した切替方法602の所要時間を決定し、切替レベルテーブル221の該当するレコードのレベル601に追加し、ステップ1401に移動する(ステップ1404)。ステップ1404の詳細な処理フローチャートは図17に示す。
図15は、図14に示したステップ1403の、切替方法602のレベル601を決定する処理のフローチャートを示す。ステップ1500では、選択した切替方法602に対応する制御対象1010を図10の切替方法特徴テーブル900より読み込んで、図11に示した制御対象レートテーブル901のレート1101を参照する。
ステップ1501では、選択した切替方法602に対応する資源解放方法1011を図10の切替方法特徴テーブル900より読み込んで、資源解放レートテーブル902のレート1201を参照する。
ステップ1502では、選択した切替方法602の業務再起動1012を図10の切替方法特徴テーブル900より読み込んで、業務再起動レートテーブル903のレート1301を参照する。
ステップ1503では、ステップ1500、ステップ1501、ステップ1502で参照した情報より切替レベルテーブル221のレベル601を決定する。尚、本実施形態ではステップ1502の決定方法を、レート1101、レート1201、レート1301の和として説明するが、最も高いレートの値や、切替レベルテーブル221における順位(例えば、前記和の値が切替レベルテーブル221において2番目に高い場合は2)など、別の決定方法を用いても良い。
図16は、図14に示したステップ1404の、選択した切替方法602の所要時間603を決定する処理のフローチャートを示す。ステップ1600では、ログ管理部233から上記選択した切替方法602の開始、終了といった実行履歴を示すイベントログ情報を参照する。
ステップ1601では、ステップ1600で参照したイベントログ情報より、所要時間を決定する。尚、本実施形態ではステップ1601の決定方法を、ステップ1404にて選択した切替方法602(切り替えパターン)に関する直近の終了時刻と開始時刻の差として説明するが、過去N回分の実施に関する差の最悪値や平均値など、別の決定方法を用いても良い。尚、イベントログ情報からの切替方法602(切り替えパターン)に関する情報の取得は、ステップ1404にて選択した切替方法の識別子と、イベントログ情報に含まれる切替方法602(切り替えパターン)の識別子の比較によって行うこととする。
図17は、障害復旧管理部101が、ユーザに切替レベルテーブル221の内容を設定させるために提供するUI(User Interface)の例として、GUI(Graphical User Interface)の例を示す。このGUIは、管理サーバ装置100に接続した出力装置151や、管理サーバ装置100にネットワークスイッチ130を介して接続された他の端末の表示装置等にブラウザや専用のプログラム、及びテキストなどを用いて表示する。
切替レベル情報設定ウィンドウ1700には、切替レベル情報と、操作のためのボタン等が表示される。ウィンドウ1700に表示される切替レベル情報は、切替レベルテーブル221の内容に基づいている。
レベル1701には、レベル601の情報が表示される。切替方法1702には、切替方法602の情報が表示される。所要時間1703には、カラム603の情報が表示される。ユーザは、レベル1701、所要時間1703に値を入力する。ユーザは、設定を更新する場合、ボタン1704をクリックし、キャンセルする場合はボタン1705をクリックする。ボタン1704をクリックすると、障害復旧管理部101は、レベル1701、所要時間1703に入力された情報を切替レベルテーブル221に反映する。
図18は、障害復旧管理部101が、ユーザに業務要件テーブル220の内容を設定させるために提供するUI(User Interface)の例として、GUI(Graphical User Interface)の例を示す。このGUIは、管理サーバ装置100に接続した出力装置151や、管理サーバ装置100にネットワークスイッチ130を介して接続された他の端末の表示装置等にブラウザや専用のプログラム、及びテキストなどを用いて表示する。
業務要件情報設定ウィンドウ1800には、業務要件情報と、操作のためのボタン等が表示される。ウィンドウ1800に表示される業務要件情報は、業務要件テーブル220の内容に基づいている。業務1801には、カラム701の情報が表示される。切替時間要件1802には、カラム702の情報が表示される。ユーザは切替時間要件1802に値を入力する。ユーザは、設定を更新する場合、ボタン1803をクリックし、キャンセルする場合はボタン1804をクリックする。ボタン1803をクリックすると、障害復旧管理部101は、切替時間要件1802に入力された情報を業務要件テーブル220に反映する。
図19は、切替実行部212で行われる処理の一例を示すフローチャートである。切替実行部212は、切替方法選択(図5の処理512)の際に、切替方法決定部213の処理の後に、障害復旧管理部101によって動作が開始される。
切替実行部212は、切替方法決定部213で決定された切替方法を障害復旧管理部101より受け取る(ステップ1900)。切替実行部212は、ステップ1900で受け取った切替方法に基づいて、現用及び予備のサーバ装置110を制御する(ステップ1901)。例えば、受け取った切替方法が強制電源停止の場合、予備のサーバ装置110−Bのハードウェアに対し電源停止命令を送信し、電源停止を判定した後、現用のサーバ装置110−Aの系切替を実施する。
本実施形態によれば、障害復旧管理部101は、サーバ切替時に予備のサーバ装置110−Bを可能な限り安全に停止させるためのサーバの切替方法(切替手順)をレベルに応じて決定し、決定した切替方法に基づいてサーバ切替を実施することで業務の復旧が可能となる。サーバ装置110の切り替え時には、予備系が現用系を引き継ぐまでの制約である業務要件を満たし、かつ、予備系のサーバ装置110−Bを可能な限り安全に停止させることが可能となり、予備系のサーバ装置110−Bで実行していた業務(開発やテスト)のデータが破損するのを防ぐことができる。
以上のように、予備のサーバ装置110−Bで開発やテストなどの業務を実行することで、計算機システムのリソースを有効に活用しながら、現用のサーバ装置110−Aに障害が発生したときには、予備のサーバ装置110−Bで実行していた業務に与える影響を最小にしながら、所定の業務条件を満たして現用系から予備系に切り替えを実施することが可能となる。
<第2実施形態>
前記実施形態1では、切替方法毎のレベル601と切替対象となる業務の要件から切替方法を選択するステップを含む切替方法について述べた。本第2実施形態では、現用のサーバ装置110−Aで発生した障害の内容を考慮して切替方法を選択するステップを含む切替方法について述べる。本実施形態では、障害制約テーブル223を新たに用いる。その他の構成については、前記第1実施形態と同様である。
図20は、障害制約テーブル223の構成を示す。障害制約テーブル223は、図2のテーブル群102に含まれ、現用のサーバ装置110−A(また、その上で稼動するOS311や仮想化システム400など)で発生した障害内容(障害要因)に対する、切替方法決定の際の制約(例えば、CPU(プロセッサ)に温度障害が発生した場合は、仮想サーバマイグレーションなどCPUを酷使する移動手段を多用しない、など)を示す。カラム2000は、障害内容を識別するための識別子である。具体的には、ユーザ(またはサーバ管理者)が定義した名称である。カラム2001は、障害が切替方法の決定に与える制約の内容を示す。図20を例とすると、ネットワークアダプタ障害が発生しネットワーク帯域が低下した場合は、仮想サーバマイグレーションなどネットワーク負荷の大きい切替方法は実施しないよう切替方法を決定する。
なお、障害要因の特定は、管理サーバ装置100がサーバ装置110のBMCやOS等から取得したログや通知に基づいて行うことができる。障害要因の特定については、公知または周知の技術を用いることができる。
図21は、本第2実施形態の切替方法決定部213の処理フローチャートを示す。図21は、前記第1実施形態の図8に示した切替方法決定部213を本実施形態のために変更した処理である。図21が図8と異なる箇所は、ステップ2105、ステップ2106の追加である。その他のステップは、前記第1実施形態の図8と同様である。
切替方法決定部213は、管理サーバ装置100が受信した現用のサーバ装置110−Aの障害情報より、障害制約テーブル223の障害内容2000を参照する(ステップ2105)。切替方法決定部213は、ステップ2102で選択した切替方法を実行することによって、ステップ2105で取得した制約に違反しない否かを判定する(ステップ2106)。違反するならば、ステップ2102に移動する。
本実施形態によれば、障害復旧管理部101は、現用のサーバ装置110−Aに発生した障害の内容を考慮し、サーバ装置110の切替方法を決定することができる。その結果、サーバ装置110の切替方法が障害を誘発することや、障害によりサーバ装置110の切替に必要な資源が使用できず切替失敗となるなどの問題を回避することができる。
<第3実施形態>
本第3実施形態では、特徴的な切替方法として現用のサーバ装置110−Aの障害予兆検出に基づいた切替方法について述べる。図22では、本第3実施形態における、現用のサーバ装置110−A、予備のサーバ装置110−B、及び管理サーバ装置100間の処理シーケンスの例を示す。なお、図22の処理は、前記第1実施形態の図5に示した処理500〜502に加えて実行される。
管理サーバ装置100は、サーバ管理部200の障害管理部230、ログ管理部233の情報を元に、障害予兆情報テーブル224を生成する(処理2207)。
現用のサーバ装置110は、サーバ装置110、その上で動作するOS311または仮想化システム400に関する警告情報(例えば、CPU温度上昇、ファン回転上昇、メモリコレクトエラー、リソース逼迫など)を管理サーバ装置100に送信する(処理2200)。なお、処理2200は、所定の周期毎に繰り返して実行される。
管理サーバ装置100は、現用のサーバ装置110−Aから送信された警告情報を受信し、その内容より現用のサーバ装置110−Aの障害予兆を検出する(処理2201)。管理サーバ装置100は、現用のサーバ装置110−Aの障害予兆を検出すると予備のサーバ装置110−Bに対して停止命令(OSシャットダウンなど)を送信する(処理2202)。予備のサーバ装置110−Bは、管理サーバ装置100から停止命令を受信するとその内容に基づいてサーバ装置110−Bを停止する(処理2203)。
その後、現用のサーバ装置110−Aが障害発生により停止すると、管理サーバ装置100は、現用のサーバ装置110−Aの障害を検知する(処理2204)。管理サーバ装置100は、障害検知後に、現用のサーバ装置110−Aから予備のサーバ装置110−Bへの切替を開始する(処理2205)。現用及び予備のサーバ装置110は、管理サーバ装置100からの要求に対し切替を実施する(処理2206)。
図23は、障害予兆情報テーブル224の構成を示す説明図である。障害予兆情報テーブル224は、後述の障害予兆情報テーブル生成部214によって生成され、障害復旧管理部101が、サーバ装置110の障害予兆を判定するための情報を保持する。カラム2300は、サーバ装置110の障害予兆に関する情報を示す。図23を例とすると、現用のサーバ装置110−AよりCPU温度警告に関する状態情報を、管理サーバ装置100が受信した場合、障害復旧管理部101は現用のサーバ装置110−Aに、今後障害が発生し停止すると判定する。
図24は、障害予兆情報テーブル生成部214で行われる処理の一例を示すフローチャートである。障害予兆情報テーブル生成部214は、障害復旧管理部101が障害予兆情報を生成する(処理2207)際に動作する。
障害予兆情報テーブル生成部214は、ログ管理部233より過去の現用のサーバ装置110−Aについて警告情報及び障害情報を参照する(ステップ2400)。障害予兆情報テーブル生成部214は、ステップ2400で参照した警告情報及び障害情報を関連付ける(ステップ2401)。
この関連付けは、直接的な関連がある部位(例えば、CPU(プロセッサ)の障害情報とCPU(プロセッサの)警告情報は関連がある)、間接的な関連がある部位(例えば、CPUの警告情報が発生すると、その関連部位であるOS、仮想化システム、アプリケーションの性能障害などが発生する可能性がある)、受信時刻(例えば、受信時刻が近いほど関連がある)などより行う。
障害予兆情報テーブル生成部214は、ステップ2401により障害情報に関連する警告情報があるか否かを判定し、障害情報に関連する警告情報がある場合はステップ2403へ進み、無い場合は処理を終了する(ステップ2402)。障害予兆情報テーブル生成部214は、ステップ2401により障害情報に関連する警告情報を、障害予兆情報テーブルに追加してステップ2402に移動する(ステップ2403)。
図25は、障害復旧管理部101が、ユーザに障害予兆情報テーブル224の内容を設定させるために提供するUI(User Interface)の例として、GUI(Graphical User Interface)の例を示す。このGUIは、管理サーバ装置100に接続した出力装置151や、管理サーバ装置100にネットワークスイッチ130を介して接続された他の端末の表示装置等にブラウザや専用のプログラム、及びテキストなどを用いて表示する。
障害予兆情報設定ウィンドウ2500には、障害予兆情報と、操作のためのボタン等が表示される。ウィンドウ2500に表示される障害予兆情報は、障害予兆情報テーブル224の内容に基づいている。障害予兆2501には、カラム2300の情報が表示される。ユーザは、2501に、管理サーバ装置100が備える、サーバ装置110の状態に関する情報より、障害予兆として扱う情報を選択することができる。ユーザは、新しい障害予兆2501を追加する場合、ボタン2505をクリックする。ユーザは、既存の障害予兆2501を削除する場合、ボタン2502をクリックする。ユーザは、設定を更新する場合、ボタン2503をクリックし、キャンセルする場合はボタン2504をクリックする。ボタン2503をクリックすると、障害復旧管理部101は、切替時間要件2501に入力された情報を障害予兆情報テーブル224に反映する。
本実施形態によれば、障害復旧管理部101は、現用のサーバ装置110―Aの障害予兆を検出して、実際に障害が発生する前に予備のサーバ装置110−Bを停止させることができる。その結果、障害発生による現用サーバ装置110−A及び予備サーバ装置110−Bの強制停止、及び強制停止による予備サーバ装置110−B上のデータの破損などの問題を回避することができる。
以上のように、本発明は、現用系のサーバに障害が発生したときに予備系のサーバに切り替える計算機システムや、管理サーバに適用することができる。特に、予備系のサーバにテストやシステム開発などの業務を割り当てて、計算機システムの計算資源を有効活用する計算機システムに好適である。
100 管理サーバ
101 障害復旧管理部
110−A、110−B サーバ装置
200 サーバ管理部
210 切替レベル生成テーブル
212 切替実行部
213 切替方法決定部
214 障害予兆情報テーブル生成部
220 業務要件テーブル
221 切替レベルテーブル
222 切替情報テーブル
223 障害制約テーブル
224 障害予兆情報テーブル
230 障害管理部
231 構成管理部
232 資源管理部
233 ログ管理部
234 業務管理部
900 切替方法特徴テーブル
901 制御対象レートテーブル
902 資源解放レートテーブル
903 業務再起動レートテーブル

Claims (15)

  1. 第1の業務を提供する第1のサーバ計算機と、第2の業務を提供する第2のサーバ計算機と、前記第1のサーバ計算機及び第2のサーバ計算機に接続された管理計算機が、前記第1のサーバ計算機で提供される第1の業務を、前記第2のサーバ計算機に引き継がせるサーバ計算機の切り替え方法であって、
    前記管理計算機が、前記第1の業務を第2のサーバ計算機へ切り替える際の切り替えパターンを設定した切替レベル情報を参照し、前記切り替えパターン毎にレベルを設定する第1のステップと、
    前記管理計算機が、前記切替レベル情報を参照し、前記切り替えパターン毎に前記第1の業務を第2のサーバ計算機へ切り替える際の切り替え所要時間を設定する第2のステップと、
    前記管理計算機が、前記第1の業務を第2のサーバ計算機へ切り替える際に許容された停止時間を予め設定した業務要件情報を参照する第3のステップと、
    前記管理計算機が、前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択する第4のステップと、
    前記管理計算機が、前記選択された切り替えパターンで、前記第2のサーバ計算機の第2の業務を停止させてから、前記第1の業務を前記第2のサーバ計算機で提供させる第5のステップと、
    を含むことを特徴とするサーバ計算機の切替方法。
  2. 請求項1に記載のサーバ計算機の切替方法であって、
    前記第1のステップは、
    前記切替レベル情報の切り替えパターン毎に設定された前記第2のサーバ計算機に対する複数の制御項目を予め設定した切替特徴情報を参照し、前記制御項目毎に前記レベルを算出する数値情報を取得し、前記切り替えパターンに含まれる前記制御項目の数値情報から当該切り替えパターンのレベルを設定し、
    前記第2のステップは、
    前記切り替えパターン毎の過去の実績を格納したログ情報を参照して前記切り替え所要時間を設定することを特徴とするサーバ計算機の切替方法。
  3. 請求項1に記載のサーバ計算機の切替方法であって、
    前記管理計算機が、前記第1のサーバ計算機の障害を検知する第6のステップをさらに含み、
    前記第1のサーバ計算機の障害の検知を契機に、前記第3のステップ、第4のステップ及び第5のステップを行うことを特徴とするサーバ計算機の切替方法。
  4. 請求項3に記載のサーバ計算機の切替方法であって、
    前記第4のステップは、
    前記第1のサーバ計算機の障害要因を特定し、前記障害要因毎に制限すべき切り替えパターンを予め設定した障害制約情報を参照して、前記特定した障害要因に対応する制限すべき切り替えパターンを取得して、前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記制限すべき切り替えパターン以外の切り替えパターンのうち、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択することを特徴とするサーバ計算機の切替方法。
  5. 請求項1に記載のサーバ計算機の切替方法であって、
    前記管理計算機が、前記第1のサーバ計算機の障害の予兆を検知する第7のステップをさらに含み、
    前記第1のサーバ計算機の障害の予兆の検知したことを契機に、前記第3のステップ、第4のステップ及び第5のステップを行うことを特徴とするサーバ計算機の切替方法。
  6. 第1の業務を提供する第1のサーバ計算機と第2の業務を提供する第2のサーバ計算機にそれぞれ接続されて、前記第1のサーバ計算機で提供される第1の業務を、前記第2のサーバ計算機に引き継がせる障害復旧部を備えた管理計算機であって、
    前記障害復旧部は、
    前記第1の業務を第2のサーバ計算機へ切り替える際の切り替えパターンと、前記切り替えパターン毎のレベルと、前記切り替えパターン毎に前記第1の業務を第2のサーバ計算機へ切り替える際の切り替え所要時間とを設定する切替レベル情報生成部と、
    前記第1の業務を第2のサーバ計算機へ切り替える際に許容された停止時間を予め設定した業務要件情報と、
    前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択する切り替えパターン選択部と、
    前記選択された切り替えパターンで、前記第2のサーバ計算機の第2の業務を停止させてから、前記第1の業務を前記第2のサーバ計算機で提供させる切り替え実行部と、
    を備えたことを特徴とする管理計算機。
  7. 請求項6に記載の管理計算機であって、
    前記切替レベル情報生成部は、
    前記切替レベル情報の切り替えパターン毎に設定された前記第2のサーバ計算機に対する複数の制御項目を予め設定した切替特徴情報を参照し、前記制御項目毎に前記レベルを算出する数値情報を取得し、前記切り替えパターンに含まれる前記制御項目の数値情報から当該切り替えパターンのレベルを設定し、前記切り替えパターン毎の過去の実績を格納したログ情報を参照して前記切り替え所要時間を設定することを特徴とする管理計算機。
  8. 請求項6に記載の管理計算機であって、
    前記第1のサーバ計算機の障害を検知する障害管理部をさらに有し、
    前記切り替えパターン選択部は、障害管理部が前記第1のサーバ計算機の障害の検知したことを契機に、前記切り替えパターンを選択することを特徴とする管理計算機。
  9. 請求項8に記載の管理計算機であって、
    前記切り替えパターン選択部は、
    前記障害管理部が検知した前記第1のサーバ計算機の障害要因を特定し、前記障害要因毎に制限すべき切り替えパターンを予め設定した障害制約情報を参照して、前記特定した障害要因に対応する制限すべき切り替えパターンを取得して、前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記制限すべき切り替えパターン以外の切り替えパターンのうち、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択することを特徴とする管理計算機。
  10. 請求項8に記載の管理計算機であって、
    前記第1のサーバ計算機の障害の予兆を検知する障害管理部をさらに有し、
    前記切り替えパターン選択部は、障害管理部が前記第1のサーバ計算機の障害の予兆を検知したことを契機に、前記切り替えパターンを選択することを特徴とする管理計算機。
  11. 第1の業務を提供する第1のサーバ計算機と、第2の業務を提供する第2のサーバ計算機と、前記第1のサーバ計算機及び第2のサーバ計算機に接続されて、プロセッサとメモリを備えた管理計算機を制御するプログラムであって、
    前記第1の業務を第2のサーバ計算機へ切り替える際の切り替えパターンを設定した切替レベル情報を参照し、前記切り替えパターン毎にレベルを設定する第1の手順と、
    前記切替レベル情報を参照し、前記切り替えパターン毎に前記第1の業務を第2のサーバ計算機へ切り替える際の切り替え所要時間を設定する第2の手順と、
    前記第1の業務を第2のサーバ計算機へ切り替える際に許容された停止時間を予め設定した業務要件情報を参照する第3の手順と、
    前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択する第4の手順と、
    前記選択された切り替えパターンで、前記第2のサーバ計算機の第2の業務を停止させてから、前記第1の業務を前記第2のサーバ計算機で提供させる第5の手順と、
    を前記プロセッサに実行させることを特徴とするプログラム。
  12. 請求項11に記載のプログラムであって、
    前記第1の手順は、
    前記切替レベル情報の切り替えパターン毎に設定された前記第2のサーバ計算機に対する複数の制御項目を予め設定した切替特徴情報を参照し、前記制御項目毎に前記レベルを算出する数値情報を取得し、前記切り替えパターンに含まれる前記制御項目の数値情報から当該切り替えパターンのレベルを設定し、
    前記第2の手順は、
    前記切り替えパターン毎の過去の実績を格納したログ情報を参照して前記切り替え所要時間を設定することを特徴とするプログラム。
  13. 請求項11に記載のプログラムであって、
    前記第1のサーバ計算機の障害を検知する第6の手順をさらに含み、
    前記第1のサーバ計算機の障害の検知を契機に、前記第3の手順、第4の手順及び第5の手順を行うことを特徴とするプログラム。
  14. 請求項13に記載のプログラムであって、
    前記第4の手順は、
    前記第1のサーバ計算機の障害要因を特定し、前記障害要因毎に制限すべき切り替えパターンを予め設定した障害制約情報を参照して、前記特定した障害要因に対応する制限すべき切り替えパターンを取得して、前記切替レベル情報の前記切り替え所要時間が、前記第1の業務に設定された前記業務要件情報の停止時間未満で、かつ、前記制限すべき切り替えパターン以外の切り替えパターンのうち、前記切替レベル情報のレベルが最も高い前記切り替えパターンを選択することを特徴とするプログラム。
  15. 請求項11に記載のプログラムであって、
    前記第1のサーバ計算機の障害の予兆を検知する第7の手順をさらに含み、
    前記第1のサーバ計算機の障害の予兆の検知したことを契機に、前記第3の手順、第4の手順及び第5の手順を行うことを特徴とするプログラム。
JP2010122884A 2010-05-28 2010-05-28 サーバ計算機の切替方法、管理計算機及びプログラム Expired - Fee Related JP5305040B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010122884A JP5305040B2 (ja) 2010-05-28 2010-05-28 サーバ計算機の切替方法、管理計算機及びプログラム
PCT/JP2010/064460 WO2011148524A1 (ja) 2010-05-28 2010-08-26 アプリケーションサーバの切替方法、管理計算機及びプログラムを格納した記憶媒体
US13/695,050 US8880936B2 (en) 2010-05-28 2010-08-26 Method for switching application server, management computer, and storage medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010122884A JP5305040B2 (ja) 2010-05-28 2010-05-28 サーバ計算機の切替方法、管理計算機及びプログラム

Publications (3)

Publication Number Publication Date
JP2011248735A JP2011248735A (ja) 2011-12-08
JP2011248735A5 JP2011248735A5 (ja) 2012-04-26
JP5305040B2 true JP5305040B2 (ja) 2013-10-02

Family

ID=45003528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010122884A Expired - Fee Related JP5305040B2 (ja) 2010-05-28 2010-05-28 サーバ計算機の切替方法、管理計算機及びプログラム

Country Status (3)

Country Link
US (1) US8880936B2 (ja)
JP (1) JP5305040B2 (ja)
WO (1) WO2011148524A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429398B2 (en) 2017-06-14 2022-08-30 Nec Corporation Change procedure generation device, change procedure generation method, and change procedure generation program

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013105926A1 (en) 2011-03-22 2013-07-18 Aerovironment Inc. Invertible aircraft
US8667340B2 (en) * 2011-03-29 2014-03-04 Hewlett-Packard Development Company, L.P. Method and system for distributed processing of alerts
US20120259956A1 (en) * 2011-04-07 2012-10-11 Infosys Technologies, Ltd. System and method for implementing a dynamic change in server operating condition in a secured server network
JP5949780B2 (ja) * 2011-12-19 2016-07-13 富士通株式会社 プログラム、情報処理装置および方法
JP2013156963A (ja) * 2012-01-31 2013-08-15 Fujitsu Ltd 制御プログラム、制御方法、情報処理装置、制御システム
WO2014006728A1 (ja) * 2012-07-05 2014-01-09 富士通株式会社 処理装置、処理システム、及びプログラム
JP6007988B2 (ja) * 2012-09-27 2016-10-19 日本電気株式会社 予備系装置、運用系装置、冗長構成システム、及び負荷分散方法
JP6179119B2 (ja) * 2013-02-19 2017-08-16 日本電気株式会社 管理装置、管理方法、及び管理プログラム
KR101444783B1 (ko) 2013-05-16 2014-09-26 국방과학연구소 시스템 가용성 향상을 위한 시스템 운용 방법
CN104898435B (zh) * 2015-04-13 2019-01-15 惠州Tcl移动通信有限公司 家庭服务系统及其故障处理方法、家电设备、服务器
JP2019008548A (ja) * 2017-06-23 2019-01-17 三菱電機株式会社 切替管理装置、監視制御システム、切替管理方法および切替管理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125023A (ja) * 1997-07-08 1999-01-29 Yokogawa Electric Corp 協調自律分散システム
JP3117666B2 (ja) * 1997-09-10 2000-12-18 三菱電機株式会社 コールドスタンバイ型二重系システム
JP4054616B2 (ja) * 2002-06-27 2008-02-27 株式会社日立製作所 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US7496794B1 (en) * 2006-01-13 2009-02-24 Network Appliance, Inc. Creating lightweight fault analysis records
JP5032191B2 (ja) * 2007-04-20 2012-09-26 株式会社日立製作所 サーバ仮想化環境におけるクラスタシステム構成方法及びクラスタシステム
US7698598B1 (en) * 2007-04-24 2010-04-13 Netapp, Inc. Automatic generation of core files and automatic generation of support information with generation of core files
JP5286942B2 (ja) * 2008-05-30 2013-09-11 富士通株式会社 制御方法、制御プログラム及び情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429398B2 (en) 2017-06-14 2022-08-30 Nec Corporation Change procedure generation device, change procedure generation method, and change procedure generation program

Also Published As

Publication number Publication date
JP2011248735A (ja) 2011-12-08
WO2011148524A1 (ja) 2011-12-01
US8880936B2 (en) 2014-11-04
US20130138998A1 (en) 2013-05-30

Similar Documents

Publication Publication Date Title
JP5305040B2 (ja) サーバ計算機の切替方法、管理計算機及びプログラム
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
EP2972870B1 (en) Coordinating fault recovery in a distributed system
US7992032B2 (en) Cluster system and failover method for cluster system
US8156490B2 (en) Dynamic migration of virtual machine computer programs upon satisfaction of conditions
US7802127B2 (en) Method and computer system for failover
US9361199B2 (en) Protecting virtual machines against storage connectivity failures
JP5074274B2 (ja) 計算機システム及び通信経路の監視方法
US8413144B1 (en) Providing application-aware high availability of virtual machines
US9058265B2 (en) Automated fault and recovery system
WO2011074284A1 (ja) 仮想計算機の移動方法、仮想計算機システム及びプログラムを格納した記憶媒体
JP2010244524A (ja) 仮想サーバの移動方法の決定方法及びその管理サーバ
US11157373B2 (en) Prioritized transfer of failure event log data
WO2012004902A1 (ja) 計算機システム及び計算機システムの系切替制御方法
US20200150946A1 (en) System and method for the dynamic expansion of a cluster with co nodes before upgrade
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
WO2013190694A1 (ja) 計算機の復旧方法、計算機システム及び記憶媒体
US20230308342A1 (en) Network service management apparatus and network service management method
US10754753B1 (en) Performance of virtual machine instances using machine recognition of screenshot images
US20150220380A1 (en) Dynamically determining an external systems management application to report system errors
JP4883492B2 (ja) 仮想マシン管理システムおよび計算機、並びに、プログラム
US20240036905A1 (en) Network service management apparatus and network service management method
WO2022009438A1 (ja) サーバメンテナンス制御装置、システム、制御方法及びプログラム
US20140040447A1 (en) Management system and program product

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5305040

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees