JP2022007301A - 復旧制御装置及び復旧制御方法 - Google Patents

復旧制御装置及び復旧制御方法 Download PDF

Info

Publication number
JP2022007301A
JP2022007301A JP2020110199A JP2020110199A JP2022007301A JP 2022007301 A JP2022007301 A JP 2022007301A JP 2020110199 A JP2020110199 A JP 2020110199A JP 2020110199 A JP2020110199 A JP 2020110199A JP 2022007301 A JP2022007301 A JP 2022007301A
Authority
JP
Japan
Prior art keywords
recovery
virtual machine
information
alarm
recovery control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020110199A
Other languages
English (en)
Inventor
則克 井元
Norikatsu Imoto
渉 石井
Wataru Ishii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020110199A priority Critical patent/JP2022007301A/ja
Publication of JP2022007301A publication Critical patent/JP2022007301A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】仮想マシンの障害発生時に、復旧の判断に複数種別の装置における情報が必要となる場合でも、自動で復旧判断を行う復旧制御装置及び復旧制御方法を提供する。【解決手段】仮想マシンシステムで動作する復旧制御装置は、仮想マシンシステムで稼働する仮想マシンにおいてアラームが発生した場合にS11、当該アラームの内容を示す情報又は仮想マシンシステムを構成する複数種別の構成装置における所定の情報を収集しS12、S15、S18、S21、収集した情報を用いて仮想マシンの復旧要否を判断するS13、S16、S19、S22。【選択図】図4

Description

本発明は、復旧制御装置及び復旧制御方法に関し、障害発生時に仮想マシンの復旧要否を判断する復旧制御装置及び復旧制御方法に適用して好適なものである。
近年、ITシステムの運用効率化と余剰な物理リソースの削減を目的に、様々な分野でシステムの仮想化が行われている。しかし、仮想化されたマシン(仮想マシン)を備えて構成される仮想マシンシステムでは、仮想マシン上で障害が発生した際に、障害の原因が仮想マシンのOSにあるのか、仮想基盤を提供しているミドルウェア、ハードウェアにあるのかを即座に切り分けることが難しいという問題があった。このため、切り分けや原因調査をするために時間が掛かり、その間はシステムを正常に稼働できない場合があった。
ここで例えば、特許文献1には、仮想マシンの自動復旧を制御する復旧制御アルゴリズムを有する復旧制御装置が開示されている。特許文献1に開示された復旧制御装置は、障害の発生原因及び発生装置を特定してアプリケーションによるユーザ端末に対するサービス提供を継続するよう障害発生装置を復旧制御する復旧制御部と、復旧制御部による復旧制御処理のトリガ及びその復旧処理内容を関連づけて復旧制御履歴として記憶する復旧制御履歴記憶部とを備え、復旧制御部は、復旧制御履歴記憶部に記憶された復旧制御履歴に基づき復旧制御アルゴリズムを構成して障害発生装置の復旧制御を行う。
特開2018-025968号公報
しかし、特許文献1に記載された復旧制御装置は、仮想マシンで障害が発生した際、仮想マシンシステムを構成する複数種別の装置における情報が復旧判断の判断基準となる場合に、対応ができないという課題があった。
本発明は以上の点を考慮してなされたもので、仮想マシンの障害発生時に、復旧の判断に複数種別の装置における情報が必要となる場合でも、自動で復旧判断を行うことが可能な復旧制御装置及び復旧制御方法を提案しようとするものである。
かかる課題を解決するため本発明においては、仮想マシンシステムで動作する復旧制御装置であって、前記仮想マシンシステムで稼働する仮想マシンにおいてアラームが発生した場合に、当該アラームの内容を示す情報、または前記仮想マシンシステムを構成する複数種別の構成装置における所定の情報を収集し、前記収集した情報を用いて前記仮想マシンの復旧要否を判断する復旧制御装置が提供される。
また、かかる課題を解決するため本発明においては、仮想マシンシステムで動作する復旧制御装置による復旧制御方法であって、前記仮想マシンシステムで稼働する仮想マシンにおいてアラームが発生した場合に、当該アラームの内容を示す情報、または前記仮想マシンシステムを構成する複数種別の構成装置における所定の情報を収集し、前記収集した情報を用いて前記仮想マシンの復旧要否を判断する復旧制御方法が提供される。
本発明によれば、仮想マシンの障害発生時に、復旧の判断に複数種別の装置における情報が必要となる場合でも、自動で復旧判断を行うことができる。
本発明の一実施形態に係る復旧制御装置10が動作する仮想マシンシステム1の概略構成例を説明するブロック図である。 本番環境2におけるシステム構成例を示すブロック図である。 復旧制御装置10の構成例を示す図である。 仮想マシン20の障害発生時に復旧要否を判断する処理の処理手順例を示すフローチャートである。 復旧要件情報100の一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳述する。
図1は、本発明の一実施形態に係る復旧制御装置10が動作する仮想マシンシステム1の概略構成例を説明するブロック図である。図1に示すように、仮想マシンシステム1は、本番環境2(実稼働環境)で稼働する仮想マシン20と、バックアップ環境3に格納されるバックアップデータ30と、仮想マシン20及びバックアップデータ30にアクセス可能な復旧制御装置10と、を備えて構成される。本実施形態に係る復旧制御装置10による復旧制御の対象となるシステムは、本番環境2である。
バックアップデータ30は仮想マシン20のバックアップ用のデータであって、仮想マシン20はバックアップ取得の頻度に基づいて定期的に、バックアップデータ30を取得してバックアップ環境3に保管する。仮想マシン20で障害が発生した場合、復旧制御装置10は、障害からの復旧要否及び復旧方法を判断し、復旧が必要と判断した場合には、判断した復旧方法に従ってバックアップデータ30(厳密にはそのコピーデータ)を用いて仮想マシン20の復旧処理を制御する。
図2は、本番環境2におけるシステム構成例を示すブロック図である。図2に示すように、本番環境2には、サーバ装置21、ネットワーク装置22、ストレージ装置23、監視サーバ24、及び仮想マネージャ25が備えられる。
サーバ装置21は、汎用の物理サーバ上にハイパーバイザ28を導入して構成され、ハイパーバイザ28上で仮想マシン20が稼働する。
ネットワーク装置22は、サーバ装置21、ストレージ装置23、監視サーバ24、及び仮想マネージャ25との通信経路を形成する機器である。ネットワーク装置22が形成する通信経路上には、各装置に接続するための接続ポート(不図示)と、ネットワーク装置22自身をメンテナンスするためのメンテナンスポートとが存在し、メンテナンスポートは監視サーバ24に到達性を有する。
ストレージ装置23は、サーバ装置21上で稼働する仮想マシン20のデータを格納する記憶装置である。図2では図示を省略しているが、ストレージ装置23とサーバ装置21は物理的に接続されているとする。
監視サーバ24は、仮想マシン20、サーバ装置21、ネットワーク装置22、及びストレージ装置23といった各装置の状態を監視し、各装置で異常が発生した場合にアラームを受け付けるサーバである。アラームの取得頻度やアラームに対する対応方針は、監視サーバ24から復旧制御装置10に転送される。アラーム発生の契機となるレイヤは、各装置及び各アラームごとに異なり、サーバ装置21ではハードウェア部29またはハイパーバイザ28からのアラームが考えられる。例えばハードウェア部29は、ハードウェアベンダにおいて定義/設計されたメッセージをアラームとして監視サーバ24に送付する。またハイパーバイザ28は、仮想化製品ベンダにおいて定義/設計されたメッセージをアラームとして監視サーバ24に送付する。同様に、仮想マシン20からは、アプリケーション(APP)26のレイヤやゲストOS(Operating System)27のレイヤからもアラームが発生する可能性がある。
また、監視サーバ24は、仮想マシン20、サーバ装置21、ネットワーク装置22、及びストレージ装置23といった各装置の死活監視も行う。監視サーバ24は、各装置に対して定期的に疎通確認を実施し、応答が返ってこない場合に、当該装置との接続が切断された旨のアラームを出力する。
仮想マネージャ25は、仮想マシン20上で稼働するAPP26の状態、及びサーバ装置21上で稼働するハイパーバイザ28の状態を取得可能な仮想インフラ管理サーバである。
図3は、復旧制御装置10の構成例を示す図である。図3を参照しながら、復旧制御装置10の内部構成や、復旧制御装置10と監視サーバ24及び仮想マネージャ25との関係について詳しく説明する。図3に示すように、復旧制御装置10は、復旧制御部11及びデータベース(DB)12を備え、例えばパーソナルコンピュータ(PC)等の計算機で実現される。
復旧制御部11は、プロセッサがプログラムを読込んで実行することによって所定の機能を提供する制御手段であって、具体的な機能としては例えば、仮想マシン20の復旧要否を判断する機能、及び仮想マシン20の復旧動作を仮想マネージャ25に指示する機能を提供する。
DB12は、データの記憶手段であって、復旧制御部11が仮想マシン20の復旧要否及び復旧動作を判断するために必要とされる情報(要件)等が登録された復旧要件情報100を保持する。復旧要件情報100の詳細なデータ構成等は、図5を参照しながら後述するが、復旧要件情報100は、予めユーザによって登録されるとし、また、ユーザの入力を受けて追加または更新することも可能とする。また、DB12は、復旧制御部11が復旧要否を判断するために用いられる要素として、過去のアラーム内容、復旧要否判断に使用した仮想マシン20の状態、復旧要否判断に使用したAPP26の状態を保持する。上記各要素は、復旧制御部11によって取得されてDB12に格納される。具体的には例えば、復旧制御部11は、過去のアラーム内容を本番環境2内の監視サーバ24から受け取り、復旧要否判断に使用した仮想マシン20の状態、及び復旧要否判断に使用したAPP26の状態を、仮想マネージャ25から受け取る。
なお、復旧制御装置10(復旧制御部11)は、本番環境2の仮想マネージャ25を操作する権限を有するが、復旧制御装置10が制御可能な処理は、仮想マシン20のバックアップデータ30を本番環境2にコピーし、コピーした仮想マシン20の電源を起動すること、及び、バックアップ取得の頻度の変更を仮想マネージャ25に依頼することに限定されるとする。
監視サーバ24は、アラーム受信時または死活監視による機器(装置)の切断検知時に、アラーム内容と切断対象の機器を復旧制御装置10に通知する。
仮想マネージャ25は、定期的に、仮想マシン20の状態と仮想マシン20上で稼働するアプリケーション26の状態を復旧制御装置10に通知する。あるいは、仮想マネージャ25は、復旧制御装置10の要求に基づいて、上記情報(仮想マシン20の状態と仮想マシン20上で稼働するアプリケーション26の状態)を復旧制御装置10に通知する。
図4は、仮想マシン20の障害発生時に復旧要否を判断する処理の処理手順例を示すフローチャートである。図4の各処理は、主として復旧制御部11によって実行される。
図4によるとまず、復旧制御部11は、仮想マシン20からアラームが発生しているか否かを確認する(ステップS11)。具体的には、復旧制御部11は、監視サーバ24が仮想マシン20からアラームを受信したか否かを、監視サーバ24からの通知を確認することによって判断する。仮想マシン20からアラームが発生していない場合(ステップS11のNO)、復旧制御部11は復旧不要と判断して処理を終了する。一方、仮想マシン20からアラームが発生している場合は(ステップS11のYES)、復旧制御部11は、当該アラーム(以後、仮想マシン20のアラームとも称する)の内容を確認し(ステップS12)、ステップS13に進む。仮想マシン20のアラームの内容は、監視サーバ24からの通知の内容を参照することによって確認することができる。
ステップS13では、復旧制御部11は、ここまでの処理で収集した情報によって復旧要否を判断可能であるか否かを判定する。ステップS13の処理は、言い換えれば、復旧制御部11が復旧要否を判断するために、ステップS12で確認した仮想マシン20のアラーム内容以外に、追加情報が必要かを確認するための処理である。
ステップS13において具体的には、復旧制御部11は、DB12に保持されている復旧要件情報100と仮想マシン20のアラーム内容とを突合し、上記アラーム内容のみを判断基準とする復旧要否の要件が復旧要件情報100に登録されている場合には、復旧要否を判断可能と判定して(ステップS13のYES)、ステップS14に進む。ステップS14に遷移することにより、復旧制御部11は復旧要否の判断のためのこれ以上の情報収集が不要となり、後述するステップS15~S25の処理をスキップすることができる。なお、詳細は図5を参照しながら後述するが、復旧要件情報100には、仮想マシン20で発生するアラームごとに、復旧要否の判断のために必要とされる要件の組合せ、復旧要否、及び、復旧方法が登録されている。
ステップS14において、復旧制御部11は、復旧要件情報100に基づいて、障害からの復旧動作が必要か否か(復旧要否)を判断する。ステップS14において復旧が必要と判断された場合(ステップS14のYES)、復旧制御部11は、復旧要件情報100に登録された復旧方法にしたがって復旧動作を仮想マネージャ25に指示することにより、仮想マシン20を復旧する(ステップS26)。また、ステップS14において復旧が不要と判断された場合には(ステップS14のNO)、復旧制御部11は復旧動作を指示することなく処理を終了する。
一方、ステップS13において復旧制御部11がここまでの処理で収集した情報だけでは復旧要否を判断できないと判定した場合は(ステップS13のNO)、ステップS15に進む。ステップS15において、復旧制御部11は、ステップS11で確認したアラームの発生時刻から一定時間(例えば10秒)前後に発生したアラーム(以後、事象発生前後のアラームと称する)の内容を確認する。ステップS15で確認するアラームの内容は、ステップS11で確認したアラームの内容と同一のものに限定されず、事象発生前後の全てのアラームの内容が確認される。
ステップS15の後、復旧制御部11は、ここまでの処理で収集した情報によって復旧要否を判断可能であるか否かを判定する(ステップS16)。ステップS16の処理は、言い換えれば、復旧制御部11が復旧要否を判断するために、仮想マシン20のアラーム内容及び事象発生前後のアラーム内容以外に、追加情報が必要かを確認するための処理である。
ステップS16において具体的には、復旧制御部11は、DB12に保持されている復旧要件情報100と仮想マシン20のアラーム内容及び事象発生前後のアラーム内容とを突合し、これらの情報のみを判断基準とする復旧要否の要件が復旧要件情報100に登録されている場合には、復旧要否を判断可能と判定して(ステップS16のYES)、ステップS17に進む。ステップS17に遷移することにより、復旧制御部11は復旧要否の判断のためのこれ以上の情報収集が不要となり、後述するステップS18~S25の処理をスキップすることができる。
ステップS17において、復旧制御部11は、復旧要件情報100に基づいて、復旧要否を判断する。ステップS17において復旧が必要と判断された場合(ステップS17のYES)、復旧制御部11は、復旧要件情報100に登録された復旧方法にしたがって復旧動作を仮想マネージャ25に指示することにより、仮想マシン20を復旧する(ステップS26)。また、ステップS17において復旧が不要と判断された場合には(ステップS17のNO)、復旧制御部11は復旧動作を指示することなく処理を終了する。
一方、ステップS16において復旧制御部11がここまでの処理で収集した情報だけでは復旧要否を判断できないと判定した場合は(ステップS16のNO)、ステップS18に進む。ステップS18において、復旧制御部11は、仮想マシン20の状態を確認する。
ステップS18の後、復旧制御部11は、ここまでの処理で収集した情報によって復旧要否を判断可能であるか否かを判定する(ステップS19)。ステップS16の処理は、言い換えれば、復旧制御部11が復旧要否を判断するために、仮想マシン20のアラーム内容、事象発生前後のアラーム内容、及び仮想マシン20の状態以外に、追加情報が必要かを確認するための処理である。
ステップS19において具体的には、復旧制御部11は、DB12に保持されている復旧要件情報100と、仮想マシン20のアラーム内容、事象発生前後のアラーム内容、及び仮想マシン20の状態と、を突合し、これらの情報のみを判断基準とする復旧要否の要件が復旧要件情報100に登録されている場合には、復旧要否を判断可能と判定して(ステップS19のYES)、ステップS20に進む。ステップS20に遷移することにより、復旧制御部11は復旧要否の判断のためのこれ以上の情報収集が不要となり、後述するステップS21~S25の処理をスキップすることができる。
ステップS20において、復旧制御部11は、復旧要件情報100に基づいて、復旧要否を判断する。ステップS20において復旧が必要と判断された場合(ステップS20のYES)、復旧制御部11は、復旧要件情報100に登録された復旧方法にしたがって復旧動作を仮想マネージャ25に指示することにより、仮想マシン20を復旧する(ステップS26)。また、ステップS20において復旧が不要と判断された場合には(ステップS20のNO)、復旧制御部11は復旧動作を指示することなく処理を終了する。
一方、ステップS19において復旧制御部11がここまでの処理で収集した情報だけでは復旧要否を判断できないと判定した場合は(ステップS19のNO)、ステップS21に進む。ステップS21において、復旧制御部11は、APP26の状態を確認する。
ステップS21の後、復旧制御部11は、ここまでの処理で収集した情報によって復旧要否を判断可能であるか否かを判定する(ステップS22)。ステップS22の処理は、言い換えれば、復旧制御部11が復旧要否を判断するために、仮想マシン20のアラーム内容、事象発生前後のアラーム内容、仮想マシン20の状態、及びAPP26の状態以外に、追加情報が必要かを確認するための処理である。
ステップS22において具体的には、復旧制御部11は、DB12に保持されている復旧要件情報100と、仮想マシン20のアラーム内容、事象発生前後のアラーム内容、仮想マシン20の状態、及びAPP26の状態と、を突合し、これらの情報のみを判断基準とする復旧要否の要件が復旧要件情報100に登録されている場合には、復旧要否を判断可能と判定して(ステップS22のYES)、ステップS23に進む。
ステップS23において、復旧制御部11は、復旧要件情報100に基づいて、復旧要否を判断する。ステップS23において復旧が必要と判断された場合(ステップS23のYES)、復旧制御部11は、復旧要件情報100に登録された復旧方法にしたがって復旧動作を仮想マネージャ25に指示することにより、仮想マシン20を復旧する(ステップS26)。また、ステップS23において復旧が不要と判断された場合には(ステップS23のNO)、復旧制御部11は復旧動作を指示することなく処理を終了する。
一方、ステップS22において復旧制御部11がここまでの処理で収集した情報だけでは復旧要否を判断できないと判定した場合は(ステップS22のNO)、ステップS24に進む。ステップS24に遷移する場合は、復旧制御部11が自動で復旧要否の判断及び復旧動作の決定を行うことができない場合であり、このとき、復旧制御部11は、担当者に判断を要求する。
具体的には、ステップS24において、復旧制御部11は、予め用意されたインタフェース(例えばGUI)を用いて、担当者に復旧要否の判断を求める判断要求画面を表示する。そして、担当者が判断要求画面に対して、復旧要否と判断の根拠とする状況(判断基準の要件)とを入力すると、復旧制御部11は入力された内容をDB12に登録する(ステップS25)。なお、担当者に入力を求め、DB12に登録する「判断の根拠とする状況」は、具体的には、復旧要件情報100に記載される各項目の少なくとも一部、すなわち、アラーム内容、事象発生前後のアラーム内容、仮想マシン20の状態、及びAPP26の状態の一部またはすべて、とすることができる。また、復旧方法も、判断要求画面において担当者に入力を要求する項目としてよく、復旧方法が入力された場合、復旧制御部11はステップS25において復旧方法も合わせてDB12に登録する。ステップS25で登録した情報は、次回以降のアラーム発生時に、復旧制御部11による復旧要否及び復旧方法の判断に利用される。そしてステップS25の処理後、復旧制御部11は処理を終了する。
以上ステップS11~S26の処理が行われることにより、復旧制御部11は、仮想マシン20の障害発生時に、復旧要否を判断し、さらに復旧が必要な場合にはその復旧動作を仮想マネージャ25に指示することにより、障害からの復旧を制御することができる。
図5は、復旧要件情報100の一例を示す図である。復旧要件情報100は、DB12に保持されるデータであり、復旧制御部11が仮想マシン20の復旧要否及び復旧動作を判断するために必要とされる情報(要件)が担当者によって予め登録される。また、図4のステップS25で説明したように、復旧要否の判断ができない状況が発生した場合には、担当者によって復旧判断の要否等に関する情報が新たに入力され、当該入力の内容が復旧制御部11によって復旧要件情報100に新規に追加される。
図5に例示した復旧要件情報100は、項番101、仮想マシンアラーム102、前後アラーム103、仮想マシン状態104、APP状態105、復旧要否106、及び復旧方法107のデータ項目を有して構成される。
項番101は、復旧要件情報100のレコードごとの整理番号であり、仮想マシンアラーム102ごとに異なる番号が割り当てられる。仮想マシンアラーム102には、仮想マシン20で発生するアラームの内容が示される。前後アラーム103には、仮想マシンアラーム102の一定時間(例えば10秒)前後に発生したアラーム(事象発生前後のアラーム)の内容が示される。仮想マシン状態104には、仮想マシン20における「正常状態」や「パワーオフ状態」等の動作状態が示される。APP状態105には、APP26における「正常状態」や「異常状態」等の動作状態が示される。復旧要否106には、仮想マシンアラーム102が発生した場合の復旧作業の要否が示される。復旧方法107には、仮想マシンアラーム102が発生した場合の復旧作業の方法が示される。そして図5の場合、仮想マシンアラーム102からAPP状態105までの各項目が、復旧要否106の判断基準(要件)であり、復旧方法107は、各要件に基づいて復旧要否106が「要」とされるときの復旧方法である。なお、図5は復旧要件情報100の一例を示すものに過ぎず、本実施形態に係る復旧要件情報100のデータ構成はこれに限定されるものではなく、仮想マシンシステム1の構成や通知アラーム等に応じて、様々なデータ構成を有するとしてよい。
以下、図5の各レコードの登録内容について具体的に説明する。
項番「1」のレコードには、仮想マシン20がダウンした旨のアラーム(サーバダウン)が発生し、当該アラームが仮想マシン20から監視サーバ24に到達しており、かつ、当該アラームの発生時刻から一定時間前後の時間帯に他のアラーム(事象発生前後のアラーム)が発生していない状況が登録されている。上記項番「1」の状況は、仮想マシン20単体の障害であり、サーバ装置21、ネットワーク装置22、またはストレージ装置23を起因としたハードウェア障害ではないと考えられるため、復旧が有効(復旧要否106が「要」)とされる。また、この状況で有効な復旧方法は、復旧制御部11が仮想マネージャ25に以下の復旧動作を指示する方法(復旧方法A)が考えられる。すなわち、復旧方法Aでは、復旧制御部11からの復旧指示にしたがって、仮想マネージャ25は、バックアップ環境3から仮想マシン20のバックアップデータ30をコピーし、そのコピーデータを本番環境2の仮想マシン20に上書きする。
したがって、上記のようなアラームの発生に対する復旧要否及び復旧方法を担当者が新たに登録する場合は、項番「1」に示されるように、復旧要否106を「要」とする判断基準(要件)として、仮想マシンアラーム102に「サーバダウン」、前後アラーム103に「アラームが存在しない」、仮想マシン状態104及びAPP状態105に不問を意味する「問わない」、が復旧要件情報100に登録される。また、復旧方法107には「A」が登録される。
項番「2」のレコードには、仮想マシン20上で稼働している印刷用のサービス(印刷サービス)がダウンした旨のアラームが発生し、当該アラームが仮想マシン20から監視サーバ24に到達しており、かつ、当該アラームの発生時刻から一定時間前後の時間帯に他のアラーム(事象発生前後のアラーム)が発生していない状況が登録されている。上記項番「2」の状況は、仮想マシン20単体の障害であり、サーバ装置21、ネットワーク装置22、またはストレージ装置23を起因としたハードウェア障害ではないと考えられる。但し、項番「1」に登録された「サーバダウン」の状況と比較すると、項番「2」の状況は、業務との関連性が比較的低いサービス(印刷サービス)単体のダウンであることから、業務上の緊急性が低いと考えられるため、復旧は不要(復旧要否106が「不要」)とされる。この場合、当然ながら、復旧方法は登録不要である。
したがって、上記のようなアラームの発生に対する復旧要否及び復旧方法を担当者が新たに登録する場合は、項番「2」に示されるように、復旧要否106を「不要」とする判断基準(要件)として、仮想マシンアラーム102に「印刷サービスがダウン」、前後アラーム103に「アラームが存在しない」、仮想マシン状態104及びAPP状態105に「問わない」、が復旧要件情報100に登録される。また、復旧方法107には、特段の方法が登録されない。
項番「3」のレコードには、仮想マシン20においてディスク領域(ストレージ装置23)にアクセスできない旨のアラームが発生し、当該アラームが仮想マシン20から監視サーバ24に到達しており、かつ、当該アラームの発生時刻から一定時間前後の時間帯に、ホストとストレージ装置23との接続が切断された旨のアラームが監視サーバ24に到達している状況が登録されている。上記項番「3」の状況は、仮想マシン20単体の障害ではなく、複数の装置を起因としたハードウェア障害であると考えられるため、仮想マシン20を含めた複数の装置に対して復旧動作を行うことによって、復旧が有効(復旧要否106を「要」)とされる。この状況で有効な復旧方法は、復旧制御部11が仮想マネージャ25に以下の復旧動作を指示する方法(復旧方法B)が考えられる。すなわち、復旧方法Bでは、復旧制御部11からの復旧指示にしたがって、仮想マネージャ25は、バックアップ環境3から仮想マシン20のバックアップデータ30をコピーし、そのコピーデータを用いて、サーバ装置21以外の他のホストサーバ上で仮想マシン20を稼働させる。この復旧方法Bが実行されることにより、仮想マシン20とストレージ装置23の接続だけでなく、ホストとストレージ装置23の接続を復旧することができる。
したがって、上記のようなアラームの発生に対する復旧要否及び復旧方法を担当者が新たに登録する場合は、項番「3」に示されるように、復旧要否106を「要」とする判断基準(要件)として、仮想マシンアラーム102に「ディスクにアクセスできない」、前後アラーム103に「ホストとストレージの接続が切断」、仮想マシン状態104及びAPP状態105に不問を意味する「問わない」、が復旧要件情報100に登録される。さらに、復旧方法107には「B」が登録される。
項番「4」のレコードには、仮想マシン20と監視サーバ24との接続が切断し、監視サーバ24から仮想マシン20に接続できなくなった旨のアラームが発生し、仮想マネージャ25から確認できる仮想マシン20の状態がパワーオフ状態である状況が登録されている。上記項番「4」の状況は、仮想マシン20単体の障害でありハードウェア障害ではないと考えられるため、復旧方法Aによる復旧が有効(復旧要否106が「要」)とされる。
したがって、上記のようなアラームの発生に対する復旧要否及び復旧方法を担当者が新たに登録する場合は、項番「4」に示されるように、復旧要否106を「要」とする判断基準(要件)として、仮想マシンアラーム102に「監視サーバとの接続が切断」、前後アラーム103に「問わない」、仮想マシン状態104に「パワーオフ状態」、APP状態105に「問わない」、が復旧要件情報100に登録される。また、復旧方法107には「A」が登録される。
項番「5」のレコードには、仮想マシン20と監視サーバ24との接続が切断し、監視サーバ24から仮想マシン20に接続できなくなった旨のアラームが発生し、仮想マネージャ25から確認できる仮想マシン20の動作状態が「正常状態」であり、仮想マネージャ25から確認できるAPP26の動作状態が「正常状態」である状況が登録されている。上記項番「5」の状況は、仮想マシン20と監視サーバ24との接続が切断された状態ではあるが、仮想マシン20及びAPP26が正常状態であることから、業務上の緊急性が低いと考えられるため、復旧は不要(復旧要否106が「不要」)とされる。この場合、当然ながら、復旧方法は登録不要である。
したがって、上記のようなアラームの発生に対する復旧要否及び復旧方法を担当者が新たに登録する場合は、項番「5」に示されるように、復旧要否106を「不要」とする判断基準(要件)として、仮想マシンアラーム102に「監視サーバとの接続が切断」、前後アラーム103に「問わない」、仮想マシン状態104に「正常状態」、APP状態105に「正常状態」、が復旧要件情報100に登録される。また、復旧方法107には、特段の方法が登録されない。
次に、図5の復旧要件情報100がDB12に保持されている場合について、図4に示した処理の具体的な遷移パターンをいくつか確認する。
まず一例として、仮想マシン20からアラームが発生しているとする場合、ステップS11はYESと判定されるため、ステップS12に遷移する。そしてステップS12において、例えば仮想マシン20がダウンした旨のアラーム(サーバダウン)を確認したとする場合、次のステップS13において復旧制御部11は、DB12に保持されている復旧要件情報100を参照し、当該アラームの内容だけを根拠として復旧要否106を判断可能なレコードが登録されているかを確認する。しかし、図5の復旧要件情報100にはこのようなレコードは存在しないため、ステップS15に遷移する。そしてステップS15において、復旧制御部11が、例えばサーバダウンのアラーム発生時刻の一定時間前後に他のアラームが発生していないことを確認したとすると、次のステップS16において、これまでに取得・確認した情報が、図5の復旧要件情報100の項番「1」のレコードに登録された要件に合致することが確認されるため(ステップS16のYES)、ステップS17に遷移する。そして、ステップS17では、図5の復旧要件情報100の項番「1」のレコードの復旧要否106が「要」であることから、復旧制御部11は復旧が必要であると判断し(ステップS17のYES)、ステップS26に遷移して、項番「1」のレコードの復旧方法107に登録された復旧方法「A」にしたがって、仮想マネージャ25による復旧動作が行われる。
このように上記例では、復旧制御部11は、仮想マシン20で発生したアラームの内容(サーバダウン)と、仮想マシンシステム1を構成する装置全体における事象発生前後のアラームの内容(アラームが存在しない)とを判断基準として、復旧の要否を判断し、適切な復旧動作(復旧方法A)を制御することができる。
また別例として、仮想マシン20からアラームが発生しているとする場合、ステップS11はYESと判定されるため、ステップS12に遷移する。そしてステップS12において、例えば仮想マシン20と監視サーバ24との接続が切れた旨のアラーム(監視サーバとの接続が切断)を確認したとする場合、次のステップS13において復旧制御部11は、DB12に保持されている復旧要件情報100を参照し、当該アラームの内容だけを根拠として復旧要否106を判断可能なレコードが登録されているかを確認する。しかし、図5の復旧要件情報100にはこのようなレコードは存在しないため、ステップS15に遷移する。そしてステップS15において、復旧制御部11が、例えばサーバダウンのアラーム発生時刻の一定時間前後に他のアラームが発生していないことを確認したとすると、次のステップS16で、再び復旧要件情報100を参照し、これまでに取得・確認した情報を根拠として復旧要否106を判断可能なレコードが登録されているかを確認する。しかし、図5の復旧要件情報100にはこのようなレコードは存在しないため、ステップS18に遷移する。そしてステップS18において、復旧制御部11が、例えば仮想マシン20の動作状態が「正常状態」であると確認できたとすると、次のステップS19で、再び復旧要件情報100を参照し、これまでに取得・確認した情報を根拠として復旧要否106を判断可能なレコードが登録されているかを確認する。しかし、図5の復旧要件情報100にはこのようなレコードは存在しないため、ステップS21に遷移する。そしてステップS21において、復旧制御部11が、例えばAPP26の動作状態が「正常状態」であると確認できたとすると、次のステップS22においてようやく、これまでに取得・確認した情報が、図5の復旧要件情報100の項番「5」のレコードに登録された要件に合致することが確認されるため(ステップS22のYES)、ステップS23に遷移する。そして、ステップS23では、図5の復旧要件情報100の項番「5」のレコードの復旧要否106が「不要」であることから、復旧制御部11は復旧が不要であると判断し(ステップS23のNO)、仮想マネージャ25に復旧動作を指示することなく処理を終了する。
このように上記例では、仮想マシン20で発生したアラームの内容(監視サーバとの接続が切断)に加えて、仮想マシンシステム1を構成する複数の装置、すなわち、仮想マシン20及びAPP26の動作状態を判断基準として、復旧の要否を判断することができる。
以上に説明したように、本実施形態に係る復旧制御装置10によれば、仮想マシン20の障害発生時に、復旧を判断するために複数種別の構成装置(具体的には、仮想マシン20、サーバ装置21、ネットワーク装置22、ストレージ装置23、監視サーバ24、仮想マネージャ25、APP26、ゲストOS27、ハイパーバイザ28、ハードウェア部29)における情報が必要となる場合でも、必要な情報を収集し、自動で復旧要否を判断することができる。また、復旧制御装置10は、上記の復旧要否を判断するための要件(復旧要件情報100)をデータ記憶部(DB12)に保存することで、仮想マシン20の障害発生時に、障害の切り分けや原因調査を行わなくても仮想マシン20の復旧要否を判断できるため、障害の切り分けや原因調査に要する時間を待つことなく、迅速な復旧対応が可能となる。
また、本実施形態に係る復旧制御装置10では、仮想マシン20でアラームが発生した場合に、復旧制御部11が、当該アラームの内容を示す情報を収集する(図4のステップS12)とともに、復旧要否の判断基準(要件)を構成し得る他の情報を、仮想マシンシステム1の構成装置から段階的に収集し(図4のステップS12,S15,S18,S21)、各段階で当該アラームに対する復旧要否の判断の可否を判定し(図4のステップS13,S16,S19,S22)、復旧要否の判断が可能と判定した場合は残りの段階の情報収集を行うことなく、判定結果に従って復旧要否を判断する(図4のステップS14,S17,S20,S23)ため、必要な情報を収集できた時点で不要な処理を省略して、少ない処理負荷で復旧要否を判断することができる。
また、本実施形態に係る復旧制御装置10では、復旧要件情報100において、復旧要否106とその判断基準(仮想マシンアラーム102、前後アラーム103、仮想マシン状態104、APP状態105)に加えて、復旧を必要とする場合の好適な復旧方法107を紐付けて登録することができ、復旧制御部11が、復旧が必要と判断した場合には、当該判断の判断基準に対応する復旧方法にしたがって仮想マシン20の復旧動作を制御することにより、障害の切り分けや原因調査を行う時間を待つことなく、障害が発生した仮想マシン20を自動的に迅速に復旧することができる。
また、本実施形態に係る復旧制御装置10では、復旧要否及び復旧方法並びにそれらの判断基準について、担当者(ユーザ)による入力を受け付けて、復旧要件情報に追加したり修正したりできるため、ユーザによる任意のカスタマイズが可能となり、柔軟な復旧判断に対応することができる。
また、本実施形態に係る復旧制御装置10では、復旧制御部11が復旧要否の判断基準を構成し得る情報を段階的に収集する際、監視サーバ24からの情報の収集(図4のステップS12,S15)を先行して行い、仮想マネージャ25からの情報の収集(図4のステップS18,S21)を後続して行う。これは、監視サーバ24から収集する情報(例えば、仮想マシン20で発生したアラームの内容、事象発生前後のアラームの内容)が、仮想マネージャ25から収集する情報(例えば、仮想マシン20やAPP26の動作状態)よりも比較的情報量が多いためであり、情報量が多い情報の収集を先に行うようにすることで、全体的な処理速度及び処理効率を高める効果に期待できる。また、同じ収集先から連続して情報を収集するように構成することで、復旧制御部11による処理効率を高める効果にも期待できる。
また、本実施形態に係る復旧制御装置10では、仮想マシン20でアラームが発生したとき、復旧制御部11は、仮想マシン20の復旧が必要であると判断した場合には、復旧要件情報100に登録された復旧方法107に沿った復旧動作の実行を仮想マネージャ25に指示することで、仮想マシン20の復旧動作を制御することができる。
なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。例えば、監視サーバ24による監視対象の種類に増減があった場合でも、本発明を適用可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、図面において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実施には殆ど全ての構成が相互に接続されていると考えてもよい。
1 仮想マシンシステム
2 本番環境
3 バックアップ環境
10 復旧制御装置
11 復旧制御部
12 データベース(DB)
20 仮想マシン
21 サーバ装置
22 ネットワーク装置
23 ストレージ装置
24 監視サーバ
25 仮想マネージャ
26 アプリケーション(APP)
27 ゲストOS
28 ハイパーバイザ
29 ハードウェア部
30 バックアップデータ
100 復旧要件情報

Claims (12)

  1. 仮想マシンシステムで動作する復旧制御装置であって、
    前記仮想マシンシステムで稼働する仮想マシンにおいてアラームが発生した場合に、当該アラームの内容を示す情報、または前記仮想マシンシステムを構成する複数種別の構成装置における所定の情報を収集し、前記収集した情報を用いて前記仮想マシンの復旧要否を判断する
    ことを特徴とする復旧制御装置。
  2. 前記仮想マシンの障害からの復旧要否を判断する復旧制御部と、
    前記復旧要否の判断基準が登録された復旧要件情報を保持する情報記憶部と、
    を備え、
    前記復旧要否の判断基準は、前記仮想マシンで発生するアラームの内容と、前記構成装置における1乃至複数の情報と、を組合せて構成され、
    前記仮想マシンでアラームが発生した場合、
    前記復旧制御部は、
    前記発生したアラームの内容を示す情報を収集するとともに、前記復旧要否の判断基準を構成し得る情報として、前記複数種別の構成装置における情報を段階的に収集し、
    前記収集の各段階で、当該段階までに収集した情報と前記復旧要件情報とに基づいて、前記アラームに対する復旧要否の判断の可否を判定し、
    前記復旧要否の判断が可能と判定した時点で、残りの段階の前記収集を行うことなく、前記判定の結果に従って復旧要否を判断する
    ことを特徴とする請求項1に記載の復旧制御装置。
  3. 前記復旧要件情報には、復旧を必要とする場合の好適な復旧方法が前記復旧要否の判断基準に紐付けて登録され、
    前記復旧制御部は、前記復旧要否の判断で復旧が必要と判断した場合に、当該判断の判断基準に対応する前記復旧方法に従って、前記仮想マシンの復旧動作を制御する
    ことを特徴とする請求項2に記載の復旧制御装置。
  4. 前記情報記憶部は、ユーザによる入力を受けて、前記復旧要件情報において、前記復旧要否及びその判断基準を追加登録することができる
    ことを特徴とする請求項2に記載の復旧制御装置。
  5. 前記復旧制御部は、前記復旧要否の判断基準を構成し得る情報を段階的に収集する際、
    先行する段階で、収集する情報量が比較的多い第1の前記構成装置から情報を収集し、
    後続する段階で、前記第1の構成装置よりも収集する情報量が少ない第2の前記構成装置から情報を収集する
    ことを特徴とする請求項2に記載の復旧制御装置。
  6. 前記復旧制御部は、前記仮想マシンシステムの監視サーバから、
    前記復旧要否の判断基準を構成し得る情報として、前記仮想マシンで発生したアラームの内容を示す情報と、当該アラームの発生タイミングから所定時間前後する期間に前記仮想マシンシステムの構成装置で発生したアラームの内容を示す情報と、を収集する
    ことを特徴とする請求項2に記載の復旧制御装置。
  7. 前記復旧制御部は、前記仮想マシンシステムの仮想インフラを管理する仮想マネージャから、
    前記復旧要否の判断基準を構成し得る情報として、前記仮想マシンの動作状態、または前記仮想マシン上で稼働するアプリケーションの動作状態を収集する
    ことを特徴とする請求項2に記載の復旧制御装置。
  8. 前記復旧制御部は、前記仮想マシンの復旧動作を制御する際、前記仮想マシンシステムにおける仮想インフラを管理する仮想マネージャに、前記復旧要件情報に登録された前記復旧方法に沿った復旧動作の実行を指示する
    ことを特徴とする請求項3に記載の復旧制御装置。
  9. 仮想マシンシステムで動作する復旧制御装置による復旧制御方法であって、
    前記仮想マシンシステムで稼働する仮想マシンにおいてアラームが発生した場合に、当該アラームの内容を示す情報、または前記仮想マシンシステムを構成する複数種別の構成装置における所定の情報を収集し、
    前記収集した情報を用いて前記仮想マシンの復旧要否を判断する
    ことを特徴とする復旧制御方法。
  10. 前記復旧制御装置は、
    前記仮想マシンの障害からの復旧要否を判断する復旧制御部と、
    前記復旧要否の判断基準が登録された復旧要件情報を保持する情報記憶部と、
    を有し、
    前記復旧要否の判断基準は、前記仮想マシンで発生するアラームの内容と、前記構成装置における1乃至複数の情報と、を組合せて構成され、
    前記仮想マシンでアラームが発生した場合、
    前記復旧制御部が、前記発生したアラームの内容を示す情報を収集するとともに、前記復旧要否の判断基準を構成し得る情報として、前記複数種別の構成装置における情報を段階的に収集する情報収集ステップと、
    前記復旧制御部が、前記情報収集ステップの各段階で、当該段階までに収集した情報と前記復旧要件情報とに基づいて、前記アラームに対する復旧要否の判断の可否を判定する判断可否判定ステップと、
    前記復旧制御部が、前記判断可否判定ステップで前記復旧要否の判断が可能と判定した時点で、前記情報収集ステップの残りの段階の処理を行うことなく、前記判定の結果に従って復旧要否を判断する復旧要否判断ステップと、
    を備えることを特徴とする請求項9に記載の復旧制御方法。
  11. 前記復旧要件情報には、復旧を必要とする場合の好適な復旧方法が前記復旧要否の判断基準に紐付けて登録され、
    前記復旧制御部が、前記復旧要否判断ステップで復旧が必要と判断した場合に、当該判断の判断基準に対応する前記復旧方法に従って、前記仮想マシンの復旧動作を制御する復旧制御ステップ、をさらに備える
    ことを特徴とする請求項10に記載の復旧制御方法。
  12. 前記情報記憶部が、ユーザによる入力を受けて、前記復旧要件情報において、前記復旧要否及びその判断基準を追加登録することができる
    ことを特徴とする請求項10に記載の復旧制御方法。
JP2020110199A 2020-06-26 2020-06-26 復旧制御装置及び復旧制御方法 Pending JP2022007301A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020110199A JP2022007301A (ja) 2020-06-26 2020-06-26 復旧制御装置及び復旧制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020110199A JP2022007301A (ja) 2020-06-26 2020-06-26 復旧制御装置及び復旧制御方法

Publications (1)

Publication Number Publication Date
JP2022007301A true JP2022007301A (ja) 2022-01-13

Family

ID=80111066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020110199A Pending JP2022007301A (ja) 2020-06-26 2020-06-26 復旧制御装置及び復旧制御方法

Country Status (1)

Country Link
JP (1) JP2022007301A (ja)

Similar Documents

Publication Publication Date Title
US8386830B2 (en) Server switching method and server system equipped therewith
US9519656B2 (en) System and method for providing a virtualized replication and high availability environment
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
CN104823160B (zh) 虚拟机‑保留主机更新
CN109684032B (zh) 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法
CN109634716B (zh) 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法
US20110004791A1 (en) Server apparatus, fault detection method of server apparatus, and fault detection program of server apparatus
US20080281959A1 (en) Managing addition and removal of nodes in a network
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN104036043B (zh) 一种mysql高可用的方法及管理节点
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
CN109614201B (zh) 防脑裂的OpenStack虚拟机高可用系统
US11604806B2 (en) System and method for highly available database service
CN108369544A (zh) 计算系统中延期的服务器恢复
EP2645635B1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US9465643B1 (en) Systems and methods for monitoring a primary operating system (OS) and/or migrating data using an OS hypervisor
JP6124644B2 (ja) 情報処理装置および情報処理システム
CN111078474A (zh) 一种数据安全备份系统及方法
JP2022007301A (ja) 復旧制御装置及び復旧制御方法
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム
CN104683131A (zh) 一种应用级虚拟化高可靠性方法及装置
CN114217905A (zh) 虚拟机高可用恢复处理方法及系统
CN112035295A (zh) 一种虚拟机崩溃事件处理方法、系统、终端及存储介质