JP2009080704A - 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法 - Google Patents
仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法 Download PDFInfo
- Publication number
- JP2009080704A JP2009080704A JP2007250225A JP2007250225A JP2009080704A JP 2009080704 A JP2009080704 A JP 2009080704A JP 2007250225 A JP2007250225 A JP 2007250225A JP 2007250225 A JP2007250225 A JP 2007250225A JP 2009080704 A JP2009080704 A JP 2009080704A
- Authority
- JP
- Japan
- Prior art keywords
- virtual machine
- state
- monitoring
- notification
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
【課題】仮想マシンのスローダウン状態を考慮した当該仮想マシンの障害検出を行うことにより、スプリットプレインを招くことなくサービスの引き継ぎが行えるようにする。
【解決手段】サーバ計算機10-1及び10-2には、それぞれVM11-1及び11-2が配置される。サーバ計算機10-1のVMM12-1上に配置されるスローダウン検出機構122-1は、VM11-1の使用する仮想化されたメモリ領域(に割り当てられる共有管理領域121-1)内の定期更新領域に対するVM11-1による更新状況を監視することでVM11-1のスローダウン状態を検出する。VMM12-1上に配置される状態通知・監視機構123-1は、検出機構122-1によって検出されるVM11-1の状態をサーバ計算機10-2のVMM12-2上に配置される状態通知・監視機構123-2に通知する。するとクラスタ制御機構13-2は、VM11-1が提供していたサービスをVM11-2に引き継がせる。
【選択図】 図1
【解決手段】サーバ計算機10-1及び10-2には、それぞれVM11-1及び11-2が配置される。サーバ計算機10-1のVMM12-1上に配置されるスローダウン検出機構122-1は、VM11-1の使用する仮想化されたメモリ領域(に割り当てられる共有管理領域121-1)内の定期更新領域に対するVM11-1による更新状況を監視することでVM11-1のスローダウン状態を検出する。VMM12-1上に配置される状態通知・監視機構123-1は、検出機構122-1によって検出されるVM11-1の状態をサーバ計算機10-2のVMM12-2上に配置される状態通知・監視機構123-2に通知する。するとクラスタ制御機構13-2は、VM11-1が提供していたサービスをVM11-2に引き継がせる。
【選択図】 図1
Description
本発明は、仮想マシンが動作可能な複数の物理計算機を備えた仮想計算機システムに係り、特に、仮想マシンのスローダウン状態を考慮したサービスの引き継ぎに好適な仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法に関する。
複数の計算機から構成されるクラスタシステムでは、複数の計算機のいずれかで障害が発生すると、障害が発生した計算機で実行されていたサービスを他のいずれかの計算機が引き継ぐ、いわゆるフェイルオーバが行われる。
従来のクラスタシステムでは、計算機の障害の検出は、例えば非特許文献1に記載されているように、計算機同士を結合し、その接続系路を用いて計算機同士が行う状態監視通信によって行われている。例えば互いにネットワークで接続された2台の計算機によって構成されるクラスタシステムでは、当該2台の計算機同士が相手に向かって定期的に状態通知パケットを送信する。各計算機は、相互に通信相手からの状態通知パケットを監視し、当該パケット受信している間は通信相手が正常に動作していると判断する。
このように従来のクラスタシステムでは、計算機の障害の検出は、その通信相手である別の計算機によって行われる。この計算機障害の検出のために計算機相互で行われる状態通知パケットの通信はハートビートと呼ばれ、状態通知パケットはハートビートパケットと呼ばれる。また、状態通知パケットの通信を用いて相手計算機の障害検出(動作確認)を行う機構はハートビート機構と呼ばれる。
金子哲夫、森良哉、「クラスタソフトウェア」、東芝レビュー、Vol.54 No.12(1999)、p.18-21(特に第4.2節)
金子哲夫、森良哉、「クラスタソフトウェア」、東芝レビュー、Vol.54 No.12(1999)、p.18-21(特に第4.2節)
一方、近年は、仮想マシンが動作可能な複数の物理計算機によってクラスタシステムが構成される仮想計算機システムが出現している。そこで、このような仮想計算機システムにおいても、上述したような従来のクラスタシステムと同様に各物理計算機にハートビート機構を設けて、各ハートビート機構が通信相手となるハートビート機構を有する計算機の障害を検出することが考えられる。
しかしながら、ハートビート機構を利用して計算機障害を検出するクラスタシステムではスプリットブレインシンドロームと呼ばれる状態が発生する可能性がある。以下、スプリットブレインシンドロームについて述べる。
クラスタシステムにおいて、ある計算機上でアプリケーション(アプリケーションプログラム)が実行されている状態で、その計算機の故障、或いは当該アプリケーションの異常が発生したものとする。この場合、クラスタシステムでは、該当する計算機で実行されていたアプリケーションをクラスタシステム内の他の計算機で再起動させて動作させることにより、システムとして当該アプリケーションが提供するサービスの継続が実現される。
このようなクラスタシステムでは、アプリケーションが実行される計算機の障害を検出するためにハートビート機構が用いられる。ハートビート機構は、前述したように、当該ハートビート機構が設けられた計算機から、クラスタシステムを構成する別の計算機へハートビートパケットを定期的に送信する一方、別の計算機に設けられたハートビート機構からのハートビートパケットの送信を監視する。
ハートビート機構は、ハートビートパケットの通信相手となる計算機(内のハートビート機構)からのハートビートパケットが途絶えたことを検出すると、当該計算機の障害(故障)を判定する。換言するならば、ハートビート機構が通信相手となる計算機が正常であると判定するためには、当該計算機がハートビートパケットを送信できる状態になければならない。
しかしながら、計算機が故障していなくても、当該計算機がハートビート機構からハートビートパケットを送信できない状態に陥ることは発生する。このような状態は、例えば、オペレーティングシステム(OS)やアプリケーションの高負荷により通信が一時的に阻害されるスローダウンの場合、ネットワークやハートビートパケット受信側のような計算機自身には関係ない部分の故障の場合に発生する。クラスタシステムでは特に、スローダウンが問題となる。
計算機がスローダウン状態に陥ると、当該計算機は一時的に他の計算機との通信や、アプリケーションの処理が阻害される。しかし、このような計算機では、スローダウンの要因が解消されれば、また何事も無かったように、アプリケーションの実行が継続される。
前述したようにクラスタシステムでは、計算機の障害検出は、当該クラスタシステムを構成する別の計算機(内のハートビート機構)が外部で行っている。このため、計算機がスローダウンに陥ってハートビートが途絶えると、当該計算機に障害が発生したと別の計算機によって判定される。すると、障害発生が判定された計算機で実行されていたアプリケーションを、クラスタシステム内の他の計算機で再起動する処理が行われる。
ところが、障害発生が判定された計算機、つまりスローダウン状態に陥った計算機が当該スローダウン状態から抜け出すと、本来システム上で1つしか動作できないアプリケーションが、スローダウン状態にあった計算機と引き継ぎ先の計算機の各々で動作してしまう。このような状態をスプリットブレインシンドロームと呼び、このまま動作を継続するとシステム不整合状態やデータの整合性破壊に陥ってしまう。このスプリットブレインシンドロームは、複数の物理計算機上でそれぞれ動作する仮想マシンから構成されるクラスタシステムにおいても、同様に発生し得る。
本発明は上記事情を考慮してなされたものでその目的は、仮想マシンのスローダウン状態を確実に検出して、当該スローダウン状態を考慮した当該仮想マシンの障害検出を行うことにより、スプリットプレインを招くことなくサービスの引き継ぎが行える仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法を提供することにある。
本発明の1つの観点によれば、仮想マシンがそれぞれ配置される複数の物理計算機から構成される仮想計算機システムが提供される。このシステムにおいて、前記複数の物理計算機の各々は、当該物理計算機に配置される前記仮想マシンを管理すると共に、当該仮想マシンが使用するメモリ領域を管理する仮想マシンモニタと、前記仮想マシンモニタ上に配置されるスローダウン検出機構であって、当該仮想マシンモニタによって管理される前記メモリ領域に対する前記仮想マシンによる更新の状況を監視することで、当該仮想マシンのスローダウン状態を検出するスローダウン検出機構と、前記仮想マシンモニタ上に配置される状態通知・監視機構であって、前記スローダウン検出機構によって検出される前記仮想マシンの状態を、当該仮想マシンが配置される前記物理計算機とは別の物理計算機の仮想マシンモニタ上に配置される別の状態通知・監視機構に通知すると共に、当該別の状態通知・監視機構からの状態通知を監視することによって前記別の物理計算機に配置される別の仮想マシンの状態を判定し、当該別の仮想マシンが前記スローダウン状態にある場合に当該別の仮想マシンを障害状態として判定する状態通知・監視機構と、当該物理計算機に配置される前記仮想マシンに、前記別の物理計算機に配置される別の仮想マシンが提供していたサービスを引き継がせるためのクラスタ制御を行うクラスタ制御機構であって、前記状態通知・監視機構によって前記別の仮想マシンが障害状態と判定された場合に前記クラスタ制御を行うクラスタ制御機構とを具備する。
本発明によれば、物理計算機上で動作する仮想マシンを管理する仮想マシンモニタ上にスローダウン検出機構を配置し、当該スローダウン検出機構が当該仮想マシンの外部から当該仮想マシンの動作状態を監視する構成とすることにより、当該仮想マシンのスローダウン状態を確実に検出して、当該仮想マシンが提供していたサービスを他の物理計算機上の仮想マシンに引き継がせることができるため、スローダウン誤検出よるスプリットブレインの発生を防止できる。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る仮想計算機システムの構成を示すブロック図である。図1の仮想計算機システムは、複数の物理サーバ計算機(物理計算機)、例えば2台のサーバ計算機(物理サーバ計算機)10-1及び10-2から構成される。サーバ計算機10-1及び10-2は、通信路21によって相互接続されている。この通信路21は、例えばネットワークによって実現される。
図1は本発明の一実施形態に係る仮想計算機システムの構成を示すブロック図である。図1の仮想計算機システムは、複数の物理サーバ計算機(物理計算機)、例えば2台のサーバ計算機(物理サーバ計算機)10-1及び10-2から構成される。サーバ計算機10-1及び10-2は、通信路21によって相互接続されている。この通信路21は、例えばネットワークによって実現される。
サーバ計算機10-1及び10-2は、CPU、I/O装置及びメモリのような周知のハードウェア資源(図示せず)を備えている。サーバ計算機10-1及び10-2が有するハードウェア資源は、仮想化されることにより、仮想マシン(Virtual Machine)が動作する環境(仮想マシン実行環境)を提供する。図1では、サーバ計算機10-1及び10-2の仮想マシン実行環境に、つまりサーバ計算機10-1及び10-2上に、それぞれ仮想マシン(VM)11-1及び11-2が配置されている。VM11-1及び11-2はクラスタシステムを構成する。
サーバ計算機10-1及び10-2上では、ハイパバイザである仮想マシンモニタ(Virtual Machine Monitor:VMM)12-1及び12-2がそれぞれ動作する。VMM12-1及び12-2は、仮想マシンマネージャ(Virtual Machine Manager:VMM)とも呼ばれ、それぞれ、サーバ計算機10-1及び10-2が有する上述のハードウェア資源の利用を管理することで、仮想マシンを管理する。例えばVMM12-1及び12-2は、サーバ計算機10-1及び10-2が有するハードウェア資源を仮想化することによりVM(仮想マシン)が動作するVM実行環境を提供する。つまりVMM12-1及び12-2は、仮想化されたハードウェア資源を有するVMを構築する。
VMM12-1及び12-2は、それぞれ共有管理領域121-1及び121-2を有する。共有管理領域121-1及び121-2は、それぞれサーバ計算機10-1及び10-2が有するメモリ(物理メモリ)を用いて実現される。共有管理領域121-1及び121-2は、それぞれVM11-1及び11-2の使用する仮想化されたメモリ領域に割り当てられる。このため共有管理領域121-1及び121-2の内容は、VM11-1及び11-2の動作状態に応じて随時更新される。共有管理領域121-1及び121-2は、それぞれVM11-1及び11-2の動作状態とは無関係に、VMM12-1及び12-2(上の後述するスローダウン検出機構122-1及び122-2)によってアクセス可能である。
VMM12-1及び12-2上には、それぞれスローダウン検出機構122-1及び122-2が配置されている。スローダウン検出機構122-i(i=1,2)は、VMM12-i上の共有管理領域121-i(に格納される情報)の更新状態を定期的に監視することにより、当該VM11-iのスローダウン状態を検出する。ここでは、VM11-iの使用するメモリ領域に割り当てられる共有管理領域121-i内でVM11-iによって定期的に更新されるべき特定領域(定期更新領域)が監視対象領域として監視される。このような定期更新領域に格納される情報として、例えばVM11-i上で動作しているOS(いわゆるゲストOS)が定期的に更新する時計情報(クロック情報)が挙げられる。
スローダウン検出機構122-iは、VM11-i(監視対象VM11-i)のスローダウン状態の検出を次のように行う。スローダウン検出機構122-iは、共有管理領域121-1内の定期更新領域(監視対象領域)の状態を定期的に監視することにより、当該定期更新領域の最新の更新頻度を取得する。スローダウン検出機構122-iは、更新頻度が予め指定された値(頻度下限値)以下であるか、または更新が行われない期間(更新停止期間)が予め指定された時間(停止閾値)を超えている場合、監視対象VM11-iが回復不能なスローダウン状態または停止状態に陥ったと判定する。但し、以下では、回復不能なスローダウン状態と回復不能な停止状態とを区別する必要がある場合を除いて、回復不能な停止状態も回復不能なスローダウン状態として説明する。
VMM12-1及び12-2上には、それぞれ、上述のスローダウン検出機構122-1及び122-2に加えて状態通知・監視機構123-1及び123-2が配置されている。状態通知・監視機構123-1及び123-2は、それぞれスローダウン検出機構122-1及び122-2によって監視されるVM11-1及び11-2が回復不能なスローダウン状態にない(つまり障害状態にない)と判定されている限り、そのVM11-1及び11-2の状態を通知するための状態通知パケットを通信路21を介して定期的に相互に送信し合う。状態通知・監視機構123-1及び123-2はまた、通信相手からの状態通知パケットを監視する。つまり状態通知・監視機構123-1及び123-2は、一種のハートビート機構として機能する。
状態通知・監視機構123-i(i=1,2)は、スローダウン検出機構122-iによってVM11-iが回復不能なスローダウン状態に陥ったと判定された場合、状態通知パケットの送信を停止する。このことは、VM11-iが回復不能なスローダウン状態(障害状態)にある旨を、状態通知・監視機構123-iが通信相手である状態通知・監視機構123-j(j=1,2、但しj≠i)に通知することと等価である。同様の動作は、状態通知・監視機構123-jにおいても行われる。
状態通知・監視機構123-iは、状態通知・監視機構123-jによる状態通知パケット送信の停止(ハートビート切断)の結果、当該状態通知・監視機構123-jから状態通知パケットを受信できなくなった場合、VM11-jが回復不能なスローダウン状態(障害状態)にあると判定する。同様の判定は、VM11-jにおいても行われる。
サーバ計算機10-1及び10-2上では、それぞれクラスタ制御機構13-1及び13-2も動作する。クラスタ制御機構13-1及び13-2は、サーバ計算機10-1及び10-2にそれぞれ配置されているVM11-1及びVM11-2から構成されるクラスタシステムを制御する。クラスタ制御機構13-i(i=1,2)は、VM11-j(j=1,2、但しj≠i)が回復不能なスローダウン状態(障害状態)にあると状態通知・監視機構123-iによって判定された場合、当該VM11-jで実行されていたアプリケーションをVM11-iで再起動することにより、VM11-jが提供していたサービスをVM11-iに引き継がせるクラスタ制御を行う。
次に、図1の仮想計算機システムにおける動作を、図2乃至図4のフローチャートを参照して説明する。なお、図2はスローダウン検出機構122-1及び122-2によるスローダウン検出処理の手順を示すフローチャート、図3は状態通知・監視機構123-1及び123-2によるハートビート通信処理(状態通知処理)の手順を示すフローチャート、図4は状態通知・監視機構123-1及び123-2によるハートビート監視処理(状態監視処理)の手順を示すフローチャートである。
まず、サーバ計算機10-2のVMM12-2上ではスローダウン検出機構122-2及び状態通知・監視機構123-2が動作する。スローダウン検出機構122-2は、VM11-2によってアクセスされる共有管理領域121-2を当該VM11-2の外側から一定期間監視する(ステップS1)。ここでは、VM11-2によって定期的に更新されるべき情報が格納される、共有管理領域121-2内の特定領域(定期更新領域)が監視対象領域として監視される。
スローダウン検出機構122-2は、共有管理領域121-2の監視により、当該共有管理領域121-2内の定期更新領域の情報が更新されているかを判定する(ステップS2)。もし、更新されているならば(ステップS2)、スローダウン検出機構122-2は、定期更新領域に対する更新頻度(最新の更新頻度)を算出する(ステップS3)。ここでは、一定期間における、スローダウン検出機構122-2による監視回数(ステップS1の実行回数)に対して更新が検出された回数の割合が、更新頻度として算出される。スローダウン検出機構122-2は、この算出された更新頻度が、予め定められた頻度下限値(第1の頻度閾値)を超えているかを判定する(ステップS4)。
もし、算出された更新頻度が頻度下限値(第1の頻度閾値)を超えているならば(ステップS4)、スローダウン検出機構122-2はVM11-1の動作状態が、正常状態であるか、或いは対処不要な程度のスローダウン状態(つまり、回復可能な一時的なスローダウン状態)であると判定する(ステップS5)。なお、VM11-1の動作状態が、正常状態、或いは一時的なスローダウン状態のいずれであるかは、算出された更新頻度が、頻度下限値(第1の頻度閾値)よりも高い頻度上限値(第2の頻度閾値)を超えているか、或いは(頻度下限値(第1の頻度閾値)は超えているものの)当該頻度上限値(第2の頻度閾値)以下であるかによって判定可能である。
スローダウン検出機構122-2は、VM11-1の動作状態が、正常状態であるか、或いは一時的なスローダウン状態であると判定された場合(ステップS5)、共有管理領域121-2の監視を続ける(ステップS1)。このようにして本実施形態では、VM11-2によって定期的に更新されるべき情報が格納される、共有管理領域121-2内の定期更新領域が、例えば、その更新周期と同一周期またはその更新周期より長い周期で定期的に監視される。
一方、共有管理領域121-2の監視により、当該共有管理領域121-2内の定期更新領域の情報が更新されていないと判定された場合(ステップS2)、スローダウン検出機構122-2は、当該定期更新領域に対する更新が停止されている最新の期間(更新停止期間)を算出する(ステップS6)。この最新の更新停止期間は、前回までの更新停止期間に今回の更新停止期間を加算することにより算出される。算出された更新停止期間は、次回には、前回までの更新停止期間として用いられる。前回までの更新停止期間の初期値は0である。また、定期更新領域の情報が更新されていないと判定された場合、更新停止期間は初期化される。
次にスローダウン検出機構122-2は、算出された更新停止期間が予め定められた停止閾値を超えているかを判定する(ステップS7)。もし、算出された更新停止期間が停止閾値を超えていないならば、スローダウン検出機構122-2は、VM11-2が一時的な停止状態にはあるものの、回復不能な停止状態にあるとは判定できないとして、共有管理領域121-2の監視を続ける(ステップS1)。
一方、サーバ計算機10-1のVMM12-1上では、スローダウン検出機構122-1及び状態通知・監視機構123-1が動作する。スローダウン検出機構122-1は、上述のスローダウン検出機構122-2と同様の動作を行って、サーバ計算機10-1上で動作するVM11-1の動作状態を当該VM11-1の外側から監視する。
さて、スローダウン検出機構122-2によって、最新の更新頻度が頻度下限値(第1の頻度閾値)を超えていないと判定されたものとする(ステップS4)。この場合、スローダウン検出機構122-2は、VM11-2が回復不能なスローダウン状態にあるとして、当該VM11-2の障害を判定する(ステップS8)。つまりスローダウン検出機構122-2は、最新の更新頻度が頻度下限値(第1の頻度閾値)未満の場合(ステップS4)、VM11-2の障害を判定する(ステップS8)。
また、最新の更新停止期間が停止閾値を超えていると判定された場合(ステップS7)、スローダウン検出機構122-2はVM11-1が回復不能な停止状態に陥っているとして、当該VM11-1の障害を判定する(ステップS8)。
スローダウン検出機構122-2はVM11-1を障害発生VMであると判定すると(ステップS8)、状態通知・監視機構123-2に対して、他のサーバ計算機(他系)で動作する状態通知・監視機構(ここでは状態通知・監視機構123-1)への状態通知パケット送信の停止(ハートビート停止)を指示する(ステップS9)。
さて、サーバ計算機10-2のVMM12-2上で動作する状態通知・監視機構123-2は、通常は自身が動作状態にある期間、サーバ計算機10-1のVMM12-1上で動作する状態通知・監視機構123-1に対し、VM11-1が障害状態にない旨を通知するための状態通知パケットを通信路21を介して定期的に送信している(ステップS11)。しかし状態通知・監視機構123-2は、スローダウン検出機構122-2からVM11-1の障害検出(回復不能なスローダウン状態または停止状態の検出)に伴うハートビート通信停止指示を受けた場合(ステップS12)、ステップS13に分岐する。このステップS13において状態通知・監視機構123-2は、サーバ計算機10-2上の状態通知・監視機構123-1に対する状態通知パケットの送信を停止する。即ち状態通知・監視機構123-2は、スローダウン検出機構122-2によるVM11-1の障害検出(回復不能なスローダウン状態または停止状態の検出)に応じて、サーバ計算機10-2に対するハートビート通信を停止(切断)する。
一方、サーバ計算機10-1のVMM12-1上で動作する状態通知・監視機構123-1は、サーバ計算機10-2のVMM12-2上で動作する状態通知・監視機構123-2から通信路21を介して定期的に送信されるべき状態通知パケット(ハートビートパケット)を監視している(ステップS21)。そして状態通知・監視機構123-1は、この状態通知パケットの監視(ハートビート通信の監視)により、サーバ計算機10-2上で動作するVM11-2の死活を判定する。
もし、状態通知・監視機構123-2からの状態通知パケットの送信(つまりハートビート通信)が途絶えた場合(ステップS22)、状態通知・監視機構123-1はサーバ計算機10-2上で動作するVM11-2が障害状態にあると判定する(ステップS23)。この場合、状態通知・監視機構123-1は、サーバ計算機10-2上で動作するVM11-2が障害状態にある旨をクラスタ制御機構13-1に通知する(ステップS24)。
するとクラスタ制御機構13-1は、サーバ計算機10-2上のVM11-2で実行されていたアプリケーションをサーバ計算機10-1上のVM11-1で再起動させるためのクラスタ制御を行う。これにより、サーバ計算機10-2上のVM11-2によって提供されていたサービスを、サーバ計算機10-1上のVM11-1によって引き継ぐ(継続する)ことができる。
ここで、スローダウン検出機構122-2は、サーバ計算機10-2のVMM12-2上、つまりVM11-2の外側で動作する。したがって、スローダウン検出機構122-2の動作はVM11-2のスローダウン状態に影響されない。このためスローダウン検出機構122-2は、VM11-2のスローダウン状態を確実に検出することができる。このことは、サーバ計算機10-1のVMM12-1上で動作するスローダウン検出機構122-1においても同様である。つまりスローダウン検出機構122-1は、VM11-1の外側で動作することにより、当該VM11-1のスローダウン状態を確実に検出することができる。
また本実施形態では、VMM12-1及び12-2上で、それぞれ状態通知・監視機構123-1及び123-2が動作して相互にハートビート通信を行う。状態通知・監視機構123-j(j=1,2)は、スローダウン検出機構122-iによってVM11-jが回復不能なスローダウン状態または停止状態に陥ったと判定された場合、ハートビート通信を停止する。また状態通知・監視機構123-jは、サーバ計算機10-jの障害時とVMM12-jの障害時には動作できなくなるため、必然的にハートビート通信を停止する。このことは、状態通知・監視機構123-jが、VM11-jの障害(スローダウン状態または停止状態)だけでなく、サーバ計算機10-j及びVMM12-jの障害も検出することを意味する。
状態通知・監視機構123-iは、サーバ計算機10-j側のいずれの箇所の障害も、状態通知・監視機構123-jのハートビート通信の停止(ハートビートの切断)を検出することにより、VM11-jの障害として検出する。この場合、状態通知・監視機構123-iは、VM11-jの障害をクラスタ制御機構13-iに通知する。するとクラスタ制御機構13-iは、サーバ計算機10-j上のVM11-jで実行されていたアプリケーションをサーバ計算機10-i上のVM11-iで再起動させるためのクラスタ制御を行う。これにより本実施形態においては、サーバ計算機10-jまたはVMM12-jの障害時も、前述のVM11-j(VM11-2)の障害時と同様に、VM11-jからVM11-iへのフェールオーバによる処理の継続が実現できる。
これに対して従来技術では、本実施形態における状態通知・監視機構123-1及び123-2に相当するハートビート機構はVM上で動作する。このため従来技術では、VMの一時的なスローダウン状態または停止状態による一時的な通信遅延に対して、スプリットブレイン状態が起きる可能性がある。また、VMのスローダウンまたは停止によりハートビート機構自体もスローダウンまたは停止してしまうので、当該VMの異常も検出できない。本実施形態では、VMのスローダウンの検出及びスローダウンによる通信阻害の影響を受けるクラスタシステムの整合性を持った運用が可能となる。
上記実施形態では、スローダウン検出機構122-iがVM11-iの回復不能なスローダウン状態または停止状態(つまりVM11-iの障害状態)を検出した場合、状態通知・監視機構123-iはハートビート通信を停止することで、その検出されたVM11-iの状態(障害状態)を通信相手である状態通知・監視機構123-jに通知している。しかし、検出されたVM11-iの状態(障害状態)を示す状態通知パケットを、状態通知・監視機構123-iから状態通知・監視機構123-jに送信するようにしても良い。
上記実施形態では、2台のサーバ計算機10-i(i=1,2)から構成される仮想計算機システムを想定している。しかし、仮想計算機システムが3台以上のサーバ計算機10-i(i=1,2,…)から構成されていても構わない。この場合、各サーバ計算機10-i上の状態通知・監視機構123-iは他の全てのサーバ計算機上の状態通知・監視機構との間で相互に状態通知パケットを交換し合えば良い。
[第1の変形例]
次に上記実施形態の第1の変形例について説明する。
次に上記実施形態の第1の変形例について説明する。
図5は、上記実施形態の第1の変形例に係る仮想計算機システムの構成を示すブロック図である。図5において、図1と同様の要素には同一参照番号を付してある。
図5に示す仮想計算機システムが図1に示す仮想計算機システムと相違する点は、サーバ計算機10-1及び10-2上に、それぞれ複数のVM11-1及び11-2、例えば2台のVM11-1及び11-2が配置されていることにある。
図5の仮想計算機システムでは、VMM12-i(i=1,2)によって管理される共有管理領域121-iは、2台(複数)の仮想マシン11-iがそれぞれ使用する仮想化されたメモリ領域に割り当てられる。
このような構成では、スローダウン検出機構122-iは、2台(複数)の仮想マシン11-iによってそれぞれ定期的に更新されるべき情報が格納される、共有管理領域121-i内の特定領域(定期更新領域)の更新状態を個別に監視することにより、対応するVM11-iのスローダウン状態を検出すれば良い。また状態通知・監視機構123-iは、スローダウン検出機構122-iによる複数のVM各々のスローダウン状態検出結果に基づき、複数のVM各々の動作状態を通知するための状態通知パケットを、サーバ計算機10-j(j=1,2、但しj≠i)側の状態通知・監視機構123-jに定期的に送信すれば良い。
さて、例えば状態通知・監視機構123-2は、サーバ計算機10-2の障害時とVMM12-2の障害時には動作できなくなるため、必然的に状態通知パケットの送信(ハートビート通信)を停止する。これに対し、サーバ計算機10-2及びVMM12-2が障害状態になく、当該VMM12-2上で動作するスローダウン検出機構122-2によって2台(複数)の仮想マシン11-2の各々の動作状態が検出される場合には、当該2台の仮想マシン11-2が回復不能なスローダウン状態にあるか否かに無関係に、当該2台の仮想マシン11-2の各々の動作状態が、状態通知・監視機構123-2からサーバ計算機10-1側の状態通知・監視機構123-1に、状態通知パケットを用いて定期的に通知される。したがって、状態通知・監視機構123-2によるハートビート通信の停止(ハートビート切断)は、サーバ計算機10-2またはVMM12-2の障害を状態通知・監視機構123-2が状態通知・監視機構123-1に通知することと等価である。
状態通知・監視機構123-1においても、上述の状態通知・監視機構123-2と同様の動作が行われ、状態通知・監視機構123-1によるハートビート通信の停止は、サーバ計算機10-1またはVMM12-1の障害を状態通知・監視機構123-1が状態通知・監視機構123-2に通知することと等価である。
このため第1の変形例においては、例えば状態通知・監視機構123-2によるハートビート通信の停止の結果、状態通知・監視機構123-1が当該状態通知・監視機構123-2から状態通知パケットを受信できなくなった場合、その要因がサーバ計算機10-2またはVMM12-2の障害にあると判定できる。この場合、クラスタ制御機構13-1は、サーバ計算機10-2上の2台(複数)のVM11-2によって提供されているサービスの全てを、サーバ計算機10-1上の例えば2台(複数)のVM11-1によって一度に引き継がせるためのクラスタ制御を行う。
一方、状態通知・監視機構123-2からのハートビート通信(状態通知パケットの送信)により2台(複数)のVM11-2の動作状態が通知された場合には、状態通知・監視機構123-1は、当該2台(複数)のVM11-2の動作状態を個別に判定できる。この場合、2台(複数)のVM11-2の中に障害状態が通知されたVMが含まれているならば、クラスタ制御機構13-1は、そのVMによって提供されているサービスをサーバ計算機10-1上のVM11-1に引き継がせるためのクラスタ制御を行えば良い。
クラスタ制御機構13-2においても、上述のクラスタ制御機構13-1におけるのと同様のクラスタ制御が行われる。
このように第1の変形例においては、サーバ計算機10-i(i=1,2)に複数のVM11-iが配置されている場合にも、当該複数のVM11-iのスローダウン状態を個別に検出することにより、上記実施形態と同様の効果を得ることができる。また、サーバ計算機10-jまたはVMM12-jの障害時には、当該サーバ計算機10-j上の全てのVM11-2によって提供されているサービスを、サーバ計算機10-i側に一度に引き継がせることができる。
[第2の変形例]
次に上記実施形態の第2の変形例について説明する。
次に上記実施形態の第2の変形例について説明する。
図6は、上記実施形態の第2の変形例に係る仮想計算機システムの構成を示すブロック図である。図6において、図1と同様の要素には便宜的に同一参照番号を付してある。
図6の仮想計算機システムにおいて、VMM12-1及び12-2上には、図1の仮想計算機システムにおけるのと同様に、それぞれ、スローダウン検出機構122-1及び122-2と、状態通知・監視機構123-1及び123-2が配置されている。但し、第2の変形例においてスローダウン検出機構122-1及び122-2は、それぞれ、VM11-1及び11-2の回復不能なスローダウン状態(障害状態)を判定(検出)した場合に、上記実施形態と異なって、状態通知・監視機構123-1及び123-2に対してその旨を通知する。状態通知・監視機構123-1及び123-2は、それぞれ、スローダウン検出機構122-1及び122-2からの通知を受けて通信相手(状態通知・監視機構123-2及び123-1)に対してVM11-1及び11-2の障害を通知する。
また、図6の仮想計算機システムでは、ハートビート機構111-1及び111-2が、従来のハートビート機構と同様に、それぞれVM11-1及び11-2上に配置される。ハートビート機構111-1及び111-2は、通信路22によって相互接続されている。この通信路22は、例えば通信路21を実現するのに用いられるネットワークまたは当該ネットワークとは別のネットワークによって実現される。
ハートビート機構111-1及び111-2は、それぞれVM11-1及び11-2が障害状態にないと判定できる限り、その旨を通知するための状態通知パケットを通信路22を介して定期的に送信すると共に、通信相手からの状態通知パケットを監視する。この点では、ハートビート機構111-1及び111-2は従来のハートビート機構と同様である。
ハートビート機構111-i(i=1,2)が従来のハートビート機構と相違するのは、通信相手のハートビート機構111-j(j=1,2、但しj≠i)からのハートビート通信が停止された場合に、VM11-jの状態を状態通知・監視機構123-iに問い合わせる点である。ハートビート機構111-iは、状態通知・監視機構123-iへの問い合わせに対してVM11-jの障害が通知された場合に、その旨をクラスタ制御機構13-iに通知する。
次に、図6の仮想計算機システムにおける動作を、図7及び図8のフローチャートを参照して説明する。なお、図7はスローダウン検出機構122-1及び122-2によるスローダウン検出処理の手順を示すフローチャート、図8は状態通知・監視機構123-1及び123-2によるハートビート監視処理の手順を示すフローチャートである。
まず、サーバ計算機10-1のVMM12-1上ではスローダウン検出機構122-1が動作し、サーバ計算機10-2のVMM12-2上ではスローダウン検出機構122-1が動作する。スローダウン検出機構122-1及び122-2は、図7のフローチャートの示す手順に従って、それぞれVM11-1及び11-2のスローダウン状態(及び停止状態)を監視するための、上記実施形態におけるステップS1〜S7に相当する処理(ステップS31〜S37)を定期的に実行する。
今、スローダウン検出機構122-2でのスローダウン状態監視の結果、共有管理領域121-2内の定期更新領域に対する更新の頻度(更新頻度)が頻度下限値(第1の頻度閾値)未満となるか、または当該定期更新領域に対する更新の停止期間(更新停止期間)が停止閾値を超えたものとする(ステップS34またはS37)。この場合、スローダウン検出機構122-2は、VM11-2が回復不能なスローダウン状態または停止状態にあるとして、当該VM11-2の障害を判定する(ステップS38)。
スローダウン検出機構122-2は、VM11-2の障害を判定すると(ステップS38)、上記実施形態とは異なって、その旨を状態通知・監視機構123-2に通知する(ステップS39)。状態通知・監視機構123-2は、スローダウン検出機構122-2からVM11-2の障害が通知されると、サーバ計算機10-1のVMM12-1上で動作する状態通知・監視機構123-1に対して当該VM11-2の障害を通信路21を介して通知する。
一方、サーバ計算機10-1のVM11-1上ではハートビート機構111-1が動作し、サーバ計算機10-2のVM11-2上ではハートビート機構111-2が動作する。ハートビート機構111-1及び111-2は、それぞれVM11-1及び11-2が障害状態にないと判定できる限り、その旨を通知するための状態通知パケットを通信路22を介して定期的に送信する。また、ハートビート機構111-1及び111-2は、通信相手からの状態通知パケットを監視するためのハートビート監視処理を、図8のフローチャートの示す手順に従って実行する。ここでは、ハートビート機構111-1によるハートビート監視処理について説明する。
まずハートビート機構111-1は、通信相手となるハートビート機構111-2から通信路22を介して定期的に送信されるべき状態通知パケット(ハートビートパケット)を監視する(ステップS41)。ハートビート機構111-1は、この状態通知パケットの監視(ハートビート通信の監視)結果に基づき、ハートビート機構111-2からの状態通知パケットの送信(つまりハートビート通信)が途絶えたかを判定する(ステップS42)。
VM11-2が回復不能なスローダウン状態または回復可能(対処不要)なスローダウン状態(一時的なスローダウン状態)に陥った場合、当該VM11-2上で動作するハートビート機構111-2も同様のスローダウン状態に陥る。また、VM11-2が回復不能な停止状態または回復可能な停止状態(一時的な停止状態)に陥った場合、ハートビート機構111-2も同様の停止状態に陥る。この場合、このハートビート機構111-2からのハートビート通信は途絶える(切断する)。
VM11-1上で動作するハートビート機構111-1は、ハートビート機構111-2からのハートビート通信の監視の結果(ステップS41)、状態通知パケットが受信できない場合には、当該ハートビート通信が途絶えたと判定する(ステップS42)。
ハートビート機構111-2からのハートビート通信が途絶えるのは、前述のように、VM11-2が回復不能なスローダウン状態または停止状態に陥った場合、つまりVM11-2が真に障害状態にある場合だけに限らない。そこでハートビート機構111-1は、ハートビート機構111-2からのハートビート通信が途絶えたと判定した場合(ステップS42)、VM11-2が真に障害状態にあるかを判定するために、状態通知・監視機構123-1に対して当該VM11-2の状態を問い合わせる(ステップS43)。
第2の変形例のように、スローダウン検出機構122-2によってVM11-2の障害が判定(検出)されている場合、前述のように、当該VM11-2の障害が状態通知・監視機構123-2によって通信路21を介して状態通知・監視機構123-1に通知されている(ステップS39)。そこで状態通知・監視機構123-1は、ハートビート機構111-1からの問い合わせに対して、VM11-2が障害状態にあることを応答する。
これに対し、VM11-2の一時的なスローダウン状態(対処不要なスローダウン状態)または停止状態の場合には、VM11-2の障害であると判定されないため、当該VM11-2の障害が状態通知・監視機構123-2によって状態通知・監視機構123-1に通知されることはない。このような場合、状態通知・監視機構123-1は、ハートビート機構111-1からの問い合わせに対して、VM11-2が障害状態にないことを応答する。
ハートビート機構111-1は、状態通知・監視機構123-1に対する問い合わせに対する当該状態通知・監視機構123-1からの応答に基づき、VMM12-2が障害状態にあるかを判定する(ステップS44)。もし、VMM12-2が障害状態にあると判定されたならば、ハートビート機構111-1は、その旨をクラスタ制御機構13-1に通知する(ステップS45)。
するとクラスタ制御機構13-1は、サーバ計算機10-2上のVM11-2で実行されていたアプリケーションをサーバ計算機10-1上のVM11-1で再起動させる。これにより、サーバ計算機10-2上のVM11-2によって提供されていたサービスを、サーバ計算機10-1上のVM11-1によって引き継ぐ(継続する)ことができる。
これに対し、ハートビート通信が切断されていない場合(ステップS42)、或いはハートビート通信が切断されていても状態通知・監視機構123-2から状態通知・監視機構123-1に対してVM11-2の障害状態の通知がなされていない場合(ステップS43,S44)には、ハートビート機構111-1はハートビート通信の監視(ステップS1)を継続する。前述のようにスローダウン検出機構122-2では、VM11-2の一時的なスローダウン状態または停止状態は、VM11-2が正常な状態にある場合と同様に扱われることから、状態通知・監視機構123-2から状態通知・監視機構123-1に対するVM11-2の障害状態の通知の対象とはならない。したがって第2の変形例においては、VM11-2の一時的なスローダウン状態または停止状態のために、ハートビート機構111-2からのハートビート通信が一時的に切断されたとしても、ハートビート機構111-1が誤ってVM11-2の障害を判定することはない。これにより、VM11-2の一時的なスローダウン状態または停止状態に起因してフェイルオーバ処理が行われてスプリットブレイン状態が起きるのを防止できる。
なお、本発明は、上記実施形態またはその変形例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態またはその変形例に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態またはその変形例に示される全構成要素から幾つかの構成要素を削除してもよい。
10-1,10-2…サーバ計算機(物理計算機)、11-1,11-2…仮想マシン(VM)、12-1,12-2…仮想マシンモニタ(VMM)、13-1,13-2…クラスタ制御機構、111-1,111-2…ハートビート機構、121-1,121-2…共有管理領域(メモリ領域)、122-1,122-2…スローダウン検出機構、123-1,123-2…状態通知・監視機構。
Claims (9)
- 仮想マシンがそれぞれ配置される複数の物理計算機から構成される仮想計算機システムにおいて、
前記複数の物理計算機の各々は、
当該物理計算機に配置される前記仮想マシンを管理すると共に、当該仮想マシンが使用するメモリ領域を管理する仮想マシンモニタと、
前記仮想マシンモニタ上に配置されるスローダウン検出機構であって、当該仮想マシンモニタによって管理される前記メモリ領域に対する前記仮想マシンによる更新の状況を監視することで、当該仮想マシンのスローダウン状態を検出するスローダウン検出機構と、
前記仮想マシンモニタ上に配置される状態通知・監視機構であって、前記スローダウン検出機構によって検出される前記仮想マシンの状態を、当該仮想マシンが配置される前記物理計算機とは別の物理計算機の仮想マシンモニタ上に配置される別の状態通知・監視機構に通知すると共に、当該別の状態通知・監視機構からの状態通知を監視することによって前記別の物理計算機に配置される別の仮想マシンの状態を判定し、当該別の仮想マシンが前記スローダウン状態にある場合に当該別の仮想マシンを障害状態として判定する状態通知・監視機構と、
当該物理計算機に配置される前記仮想マシンに、前記別の物理計算機に配置される別の仮想マシンが提供していたサービスを引き継がせるためのクラスタ制御を行うクラスタ制御機構であって、前記状態通知・監視機構によって前記別の仮想マシンが障害状態と判定された場合に前記クラスタ制御を行うクラスタ制御機構と
を具備することを特徴とする仮想計算機システム。 - 前記複数の物理計算機の各々には前記仮想マシンを含む複数の仮想マシンが配置されており、
前記仮想マシンモニタは、前記メモリ領域を含む、複数の仮想マシンがそれぞれ使用する複数のメモリ領域を管理し、
前記スローダウン検出機構は、前記複数のメモリ領域に対する前記複数の仮想マシンによる更新の状況を個別に監視することで、当該複数の仮想マシンの各々のスローダウン状態を検出し、
前記状態通知・監視機構は、前記スローダウン検出機構によって検出される前記複数の仮想マシンの状態を、当該複数の仮想マシンが配置される前記物理計算機とは別の物理計算機の仮想マシンモニタ上に配置される別の状態通知・監視機構に通知すると共に、当該別の状態通知・監視機構からの状態通知を監視することによって前記別の物理計算機に配置される別の複数の仮想マシンの状態を判定し、当該別の複数の仮想マシンのうち前記スローダウン状態にある別の仮想マシンを障害状態として判定する
ことを特徴とする請求項1記載の仮想計算機システム。 - 前記状態通知・監視機構は、前記別の状態通知・監視機構からの状態通知が途絶えた場合、前記別の物理計算機に配置される前記別の複数の仮想マシンを全て障害状態として判定し、
前記クラスタ制御機構は、前記状態通知・監視機構によって前記別の複数の仮想マシンが全て障害状態と判定された場合、当該別の複数の仮想マシンが提供していたサービスの全ての引き継ぎのためのクラスタ制御を行う
ことを特徴とする請求項2記載の仮想計算機システム。 - 前記複数の物理計算機の各々は、当該物理計算機に配置される前記仮想マシン上で動作するハートビート機構であって、当該仮想マシンの動作状態を、当該物理計算機とは別の物理計算機に配置される別の仮想マシン上で動作する別のハートビート機構に定期的に通知すると共に、当該別のハートビート機構からの状態通知を監視し、当該別のハートビート機構からの状態通知が途絶えた場合に、前記状態通知・監視機構によって前記別の仮想マシンの状態が障害状態と判定されたかを当該状態通知・監視機構に問い合わせるハートビート機構を更に具備し、
前記クラスタ制御機構は、前記ハートビート機構からの問い合わせに応じて、前記状態通知・監視機構から当該ハートビート機構に対して前記別の仮想マシンの状態が障害状態と判定されたことが通知された場合に前記クラスタ制御を行う
ことを特徴とする請求項1、2または3に記載の仮想計算機システム。 - 前記状態通知・監視機構は、前記スローダウン検出機構によって前記仮想マシンのスローダウン状態が検出された場合、当該仮想マシンの状態を前記別の状態通知・監視機構に通知しないことにより、当該仮想マシンのスローダウン状態を当該仮想マシンの障害状態として通知し、前記別の状態通知・監視機構からの状態通知が途絶えた場合、前記別の仮想マシンを障害状態として判定することを特徴とする請求項1、2または3に記載の仮想計算機システム。
- 前記メモリ領域は、前記仮想マシンによって定期的に更新される特定領域を含み、
前記スローダウン検出機構は、前記メモリ領域内の前記特定領域に対する前記仮想マシンによる更新の状況を監視することで、当該仮想マシンのスローダウン状態を検出する
ことを特徴とする請求項1、2または3に記載の仮想計算機システム。 - 前記スローダウン検出機構は、前記特定領域に対する前記仮想マシンによる更新の状況を定期的に監視することにより前記特定領域に対する更新の頻度を算出し、当該更新の頻度が予め定められた頻度閾値以下であることをもって、当該仮想マシンのスローダウン状態を検出することを特徴とする請求項6記載の仮想計算機システム。
- 前記スローダウン検出機構は、前記特定領域に対する前記仮想マシンによる更新の状況を定期的に監視することにより更新が行われていない更新停止期間をカウントし、当該更新停止期間が予め定められた停止閾値を超えている場合に、当該仮想マシンの停止状態を判定し、この停止状態の判定をもって当該仮想マシンのスローダウン状態を検出したとすることを特徴とする請求項6記載の仮想計算機システム。
- 第1の仮想マシンが配置される第1の物理計算機及び第2の仮想マシンが配置される第2の物理計算機を含む複数の物理計算機から構成される仮想計算機システムにおいて、前記第1の仮想マシンの障害時に、当該第1の仮想マシンが提供していたサービスを前記第2の仮想マシンに引き継がせるためのサービス引き継ぎ制御方法であって、
前記第1の物理計算機上で動作して前記第1の仮想マシンを管理する第1の仮想マシンモニタに配置されるスローダウン検出機構が、当該第1の仮想マシンモニタによって管理されるメモリ領域であって、前記第1の仮想マシンの使用するメモリ領域に対する当該第1の仮想マシンによる更新の状況を監視するステップと、
前記スローダウン検出機構が、前記メモリ領域に対する更新の状況の監視結果に基づき、前記仮想マシンのスローダウン状態を検出するステップと、
前記第1の仮想マシンモニタに配置される第1の状態通知・監視機構が、前記第1の仮想マシンの検出された状態を前記第2の物理計算機上で動作する第2の仮想マシンモニタに配置された第2の状態通知・監視機構に通知するステップと、
前記第2の状態通知・監視機構が、前記第1の状態通知・監視機構からの状態通知を監視するステップと、
前記第2の状態通知・監視機構が、前記状態通知の監視結果に基づき前記第1の仮想マシンの状態を判定し、当該第1の仮想マシンが前記スローダウン状態にある場合に当該第1の仮想マシンを障害状態として判定するステップと、
前記第2の状態通知・監視機構によって前記第1の仮想マシンが障害状態として判定された場合、前記第2の物理計算機で動作するクラスタ制御機構が、当該第2の物理計算機に配置される前記第2の仮想マシンに、前記第1の仮想マシンの提供していたサービスを引き継がせるステップと
を具備することを特徴とするサービス引き継ぎ制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007250225A JP2009080704A (ja) | 2007-09-26 | 2007-09-26 | 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007250225A JP2009080704A (ja) | 2007-09-26 | 2007-09-26 | 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009080704A true JP2009080704A (ja) | 2009-04-16 |
Family
ID=40655396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007250225A Pending JP2009080704A (ja) | 2007-09-26 | 2007-09-26 | 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009080704A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010122709A1 (ja) * | 2009-04-23 | 2010-10-28 | 日本電気株式会社 | 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法 |
WO2010122710A1 (ja) * | 2009-04-23 | 2010-10-28 | 日本電気株式会社 | 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法 |
JP2011216072A (ja) * | 2010-04-01 | 2011-10-27 | Accenture Global Services Ltd | 再目的化可能回復環境 |
JP2011258098A (ja) * | 2010-06-11 | 2011-12-22 | Hitachi Ltd | 仮想計算機システム、仮想計算機システムの監視方法及びネットワーク装置 |
WO2012023171A1 (ja) * | 2010-08-16 | 2012-02-23 | 富士通株式会社 | 情報処理装置、リモート保守方法、及びプログラム |
CN102792277A (zh) * | 2010-03-12 | 2012-11-21 | 国际商业机器公司 | 在云计算环境中启动虚拟实例 |
JP2013140526A (ja) * | 2012-01-05 | 2013-07-18 | Hitachi Ltd | 計算機システム及び障害処理方法 |
WO2013111240A1 (ja) * | 2012-01-25 | 2013-08-01 | 株式会社 東芝 | 二重化制御システムおよびその制御方法 |
JP2013535745A (ja) * | 2010-07-30 | 2013-09-12 | シマンテック コーポレーション | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 |
JP2013190955A (ja) * | 2012-03-13 | 2013-09-26 | Toshiba Corp | ホットスタンバイ方式によるクライアントサーバシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002116920A (ja) * | 2000-10-05 | 2002-04-19 | Toshiba Corp | クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム |
JP2002259155A (ja) * | 2001-02-26 | 2002-09-13 | Hitachi Ltd | 多重系計算機システム |
JP2007034479A (ja) * | 2005-07-25 | 2007-02-08 | Nec Corp | 稼働系装置、待機系装置、稼働・待機システム、稼働系制御方法、待機系制御方法、および、稼働系・待機系制御方法 |
-
2007
- 2007-09-26 JP JP2007250225A patent/JP2009080704A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002116920A (ja) * | 2000-10-05 | 2002-04-19 | Toshiba Corp | クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム |
JP2002259155A (ja) * | 2001-02-26 | 2002-09-13 | Hitachi Ltd | 多重系計算機システム |
JP2007034479A (ja) * | 2005-07-25 | 2007-02-08 | Nec Corp | 稼働系装置、待機系装置、稼働・待機システム、稼働系制御方法、待機系制御方法、および、稼働系・待機系制御方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010122710A1 (ja) * | 2009-04-23 | 2010-10-28 | 日本電気株式会社 | 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法 |
US8984123B2 (en) | 2009-04-23 | 2015-03-17 | Nec Corporation | Rejuvenation processing device, rejuvenation processing system, computer program, and data processing method |
US8789045B2 (en) | 2009-04-23 | 2014-07-22 | Nec Corporation | Rejuvenation processing device, rejuvenation processing system, computer program, and data processing method |
JP5403051B2 (ja) * | 2009-04-23 | 2014-01-29 | 日本電気株式会社 | 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法 |
WO2010122709A1 (ja) * | 2009-04-23 | 2010-10-28 | 日本電気株式会社 | 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法 |
CN102792277A (zh) * | 2010-03-12 | 2012-11-21 | 国际商业机器公司 | 在云计算环境中启动虚拟实例 |
JP2013522709A (ja) * | 2010-03-12 | 2013-06-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | クラウド・コンピューティング環境内における仮想インスタンスの起動 |
JP2011216072A (ja) * | 2010-04-01 | 2011-10-27 | Accenture Global Services Ltd | 再目的化可能回復環境 |
JP2011258098A (ja) * | 2010-06-11 | 2011-12-22 | Hitachi Ltd | 仮想計算機システム、仮想計算機システムの監視方法及びネットワーク装置 |
JP2013535745A (ja) * | 2010-07-30 | 2013-09-12 | シマンテック コーポレーション | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 |
JP5354107B2 (ja) * | 2010-08-16 | 2013-11-27 | 富士通株式会社 | 情報処理装置、リモート保守方法、及びプログラム |
WO2012023171A1 (ja) * | 2010-08-16 | 2012-02-23 | 富士通株式会社 | 情報処理装置、リモート保守方法、及びプログラム |
JP2013140526A (ja) * | 2012-01-05 | 2013-07-18 | Hitachi Ltd | 計算機システム及び障害処理方法 |
JP2013152631A (ja) * | 2012-01-25 | 2013-08-08 | Toshiba Corp | 二重化制御システムおよびその制御方法 |
WO2013111240A1 (ja) * | 2012-01-25 | 2013-08-01 | 株式会社 東芝 | 二重化制御システムおよびその制御方法 |
CN104067235A (zh) * | 2012-01-25 | 2014-09-24 | 株式会社东芝 | 双重化控制系统及其控制方法 |
US9910754B2 (en) | 2012-01-25 | 2018-03-06 | Kabushiki Kaisha Toshiba | Duplexed control system and control method thereof |
JP2013190955A (ja) * | 2012-03-13 | 2013-09-26 | Toshiba Corp | ホットスタンバイ方式によるクライアントサーバシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009080704A (ja) | 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法 | |
US7617411B2 (en) | Cluster system and failover method for cluster system | |
JP5851503B2 (ja) | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 | |
JP4920391B2 (ja) | 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム | |
US9176834B2 (en) | Tolerating failures using concurrency in a cluster | |
JP4529767B2 (ja) | クラスタ構成コンピュータシステム及びその系リセット方法 | |
US20100332890A1 (en) | System and method for virtual machine management | |
US20100274885A1 (en) | Proactive load balancing | |
CN106980529B (zh) | 基板管理控制器资源管理的电脑系统 | |
US10331472B2 (en) | Virtual machine service availability | |
US9210059B2 (en) | Cluster system | |
EP2645635B1 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
WO2013190694A1 (ja) | 計算機の復旧方法、計算機システム及び記憶媒体 | |
CN101442437B (zh) | 一种实现高可用性的方法、系统及设备 | |
JP5712714B2 (ja) | クラスタシステム、仮想マシンサーバ、仮想マシンのフェイルオーバ方法、仮想マシンのフェイルオーバプログラム | |
JP2014048933A (ja) | プラント監視システム、プラント監視方法およびプラント監視プログラム | |
JP2011203941A (ja) | 情報処理装置、監視方法、および監視プログラム | |
JP7044971B2 (ja) | クラスタシステム、オートスケールサーバ監視装置、オートスケールサーバ監視プログラムおよびオートスケールサーバ監視方法 | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
US20210247996A1 (en) | Service continuation system and service continuation method | |
JP5353378B2 (ja) | Haクラスタシステムおよびそのクラスタリング方法 | |
WO2024013828A1 (ja) | 信号処理リソース切替装置、信号処理リソース切替システム、信号処理リソース切替方法およびプログラム | |
Patil et al. | Fault Tolerance in Cluster Computing System | |
JP7311335B2 (ja) | 分散型コンテナ監視システム及び分散型コンテナ監視方法 | |
JP7260820B2 (ja) | 処理装置、処理システム、処理方法、および処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100727 |