JP2020181272A - 管理装置及びプログラム - Google Patents

管理装置及びプログラム Download PDF

Info

Publication number
JP2020181272A
JP2020181272A JP2019082308A JP2019082308A JP2020181272A JP 2020181272 A JP2020181272 A JP 2020181272A JP 2019082308 A JP2019082308 A JP 2019082308A JP 2019082308 A JP2019082308 A JP 2019082308A JP 2020181272 A JP2020181272 A JP 2020181272A
Authority
JP
Japan
Prior art keywords
server
monitoring information
management device
processing
acquisition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019082308A
Other languages
English (en)
Inventor
大輔 南
Daisuke Minami
大輔 南
貴啓 石福
Takahiro Ishifuku
貴啓 石福
惇史 福元
Atsushi Fukumoto
惇史 福元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
Original Assignee
MUFG Bank Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MUFG Bank Ltd filed Critical MUFG Bank Ltd
Priority to JP2019082308A priority Critical patent/JP2020181272A/ja
Publication of JP2020181272A publication Critical patent/JP2020181272A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】現用システムと予備リソースとを運用する際の重複したソフトウェアの稼働を回避するためのクラウドシステムを提供することである。【解決手段】本発明の一態様は、第1のシステムの第1のサーバの監視情報を取得する監視情報取得部と、前記第1のサーバの処理の稼働状態を取得する稼働状態取得部と、前記監視情報と前記稼働状態とに基づき、第2のシステムの第2のサーバに前記処理を復旧させる復旧部と、を有する管理装置に関する。【選択図】図3

Description

本発明は、クラウドシステムに関する。
分散配置された各種計算リソースをインターネットなどのコンピュータネットワークを経由して利用するクラウドコンピューティングが、様々なビジネス分野に導入されてきている。高度な安全性が求められる金融分野においても、クラウドシステムが導入され始めており、銀行の勘定系システムを含む基幹系システムにもクラウドシステムの導入が検討され始めている。
例えば、商用のクラウドシステムでは、図1に示されるように、一定の地理的範囲(アベイラビリティゾーン(AZ)と呼ばれうる)内にデータセンタ、サーバ等から構成される現用システムが構築されると共に、当該現用システムと同一地域(リージョンと呼ばれうる)における地理的に遠隔した場所に予備リソースが構築される(例えば、マルチアベイラビリティゾーンなど)。
このようなマルチAZによるクラウドシステムでは、現用システムが配置されるアベイラビリティゾーンと予備リソースが配置されるアベイラビリティゾーンとは地理的に離間し、各アベイラビリティゾーンは物理的に完全に独立したインフラストラクチャ上で稼働している。このため、現用システムに障害又は機能停止が発生した場合、他方の予備リソースによって継続的なサービスの提供が確保される。
特開2014−053050号公報
一方、典型的なマルチAZによるクラウドシステムでは、現用システムと予備リソースとの双方のサーバ等に同一のソフトウェアがインストールされ、インストールされるソフトウェアもサーバ数に応じて重複して稼働される。このため、ソフトウェアのライセンス費用や作り込みに係るコストが増大する可能性がある。
上記問題点に鑑み、本発明の課題は、現用システムと予備リソースとを運用する際の重複したソフトウェアの稼働を回避するためのクラウドシステムを提供することである。
上記課題を解決するため、本発明の一態様は、第1のシステムの第1のサーバの監視情報を取得する監視情報取得部と、前記第1のサーバの処理の稼働状態を取得する稼働状態取得部と、前記監視情報と前記稼働状態とに基づき、第2のシステムの第2のサーバに前記処理を復旧させる復旧部と、を有する管理装置に関する。
本発明によると、、復旧処理において自動的に現用システムにおけるソフトウェアの稼働を停止し、予備リソース上で当該ソフトウェアを稼働させることによって、現用システムと予備リソースとを運用する際に重複してソフトウェアが稼働することなくクラウドシステムが運用され、ソフトウェアの利用に係るコストを低減することが可能である。
クラウドシステムにおけるマルチAZによる計算リソース配置を示す概略図である。 本発明の一実施例によるアベイラビリティゾーン間の復旧処理を示す概略図である。 本発明の一実施例によるクラウドシステムを示す概略図である。 本発明の一実施例による監視処理を示す概略図である。 本発明の一実施例による管理装置のハードウェア構成を示すブロック図である。 本発明の一実施例による管理装置の機能構成を示すブロック図である。 本発明の一実施例による復旧処理を示す概略図である。 本発明の他の実施例による復旧処理を示す概略図である。 本発明の一実施例による管理処理を示すフローチャートである。
以下、図面に基づいて本発明の実施の形態を説明する。
以下の実施例では、クラウドシステムに利用される管理装置が開示される。後述される実施例を概略すると、図2に示されるように、異なるアベイラビリティゾーンに配置された現用システムと予備リソースとを含むクラウドシステムにおいて、監視サーバは、現用システムの疎通状態を監視する。監視サーバによって疎通異常が検知されると、管理装置は、疎通異常が検知された現用システムのサーバにおける実行中の処理(インスタンスなど)の稼働状態を取得し、稼働異常を検知すると、現用システムにおける故障したサーバの利用を停止し、異なるアベイラビリティゾーンに属する予備リソースへの復旧処理を起動する。
これにより、現用システムの正常稼働時には、現用システムのアプリケーション(AP)サーバ及びデータベース(DB)サーバのみにおいてソフトウェアが稼働し、予備リソースではソフトウェアは利用されず、予備リソースについては利用に応じた課金はされない。また、予備リソースへの移行時、現用システムにおいてソフトウェアは利用停止されるため、重複した課金を回避できる。
まず、図3を参照して、本発明の一実施例によるクラウドシステムを説明する。図3は、本発明の一実施例によるクラウドシステムを示す概略図である。
図3に示されるように、クラウドシステム10は、現用システム20、予備リソース30、監視サーバ40、ステータス管理データベース(DB)50及び管理装置100を有する。クラウドシステム10には、マルチAZポリシーが適用され、現用システム20と予備リソース30とは、例えば、自然災害等によるリスク分散のために数十〜数百キロ離間されるなど遠隔に配置されると共に、物理的に独立したインフラストラクチャ上に構築される。例えば、このようなクラウドシステム10は、銀行等の金融機関のシステムにおいても運用されうる。
現用システム20は、稼働中のAPサーバ及びDBサーバを含む、あるアベイラビリティゾーンに配備されたサーバ群から構成される。APサーバ及びDBサーバでは、例えば、ライセンス契約したソフトウェアが実行され、ソフトウェアの利用に応じた課金が発生する。
予備リソース30は、マルチAZポリシーによって、現用システム20と異なるアベイラビリティゾーンに配備されたサーバ群から構成される。本発明によるクラウドシステム10では、現用システム20の稼働中は予備リソース30におけるAPサーバ及びDBサーバは稼働されず、現用システム20における障害発生時に復旧処理によって、予備リソース30のサーバの稼働が開始される。すなわち、現用システム20の正常稼働中、予備リソース30では、ソフトウェアは実行されず、ソフトウェアの利用に応じた課金は発生しない。
監視サーバ40は、現用システム20のAPサーバ及びDBサーバの疎通状態を監視する。具体的には、複数の監視サーバ40が配設され、各監視サーバ40は、定期的にnc(netcat)コマンドなどの疎通確認コマンドを現用システム20のAPサーバ及びDBサーバに送信することによってAPサーバ及びDBサーバに対して疎通確認を実行し、確認結果を監視情報としてステータス管理DB50に記録する。例えば、疎通状態が所定の(連続)回数以上異常値を示した場合、監視サーバ40は、該当するサーバに障害が発生していると判断し、疎通異常を示す監視情報をステータス管理DB50に通知する。
ステータス管理DB50は、監視サーバ40から取得した監視情報を格納すると共に、管理装置100に監視情報を提供する。例えば、監視情報は、図4に示されるようなデータ形式によりステータス管理DB50に格納されてもよい。図示された具体例では、ホスト名(host)、デバイス名(device)、配置場所(az)、疎通状態(status)、復旧状態(recovery)及び関係(relation)のデータ項目が設定され、当該データ形式によって監視サーバ40から提供された監視情報が格納される。例えば、deviceが"EC2"である場合、当該デバイスはAPサーバであり、deviceが"RDS"である場合、当該デバイスはDBサーバである。また、statusが"0"である場合、疎通状態が正常であることを示し、statusが"1"である場合、疎通状態が異常であることを示す。
管理装置100は、以降において詳述されるように、ステータス管理DB50から監視情報を取得し、疎通異常を示すサーバを検出すると、当該サーバにおいて実行されている処理(例えば、インスタンスなど)の稼働状態を確認し、復旧処理の要否を判定する。復旧処理が必要である場合、管理装置100は、例えば、現用システム20のDBサーバのスナップショットから、予備リソース30のDBサーバを復元し、予備リソース30においてAPサーバ及び/又はDBサーバを稼働させる。
ここで、管理装置100は、典型的には、サーバにより実現され、例えば、図5に示されるようなハードウェア構成を有してもよい。すなわち、管理装置100は、バスBを介し相互接続されるドライブ装置101、補助記憶装置102、メモリ装置103、CPU(Central Processing Unit)104、インタフェース装置105及び通信装置106を有する。
管理装置100における後述される各種機能及び処理を実現するプログラムを含む各種コンピュータプログラムは、CD−ROM(Compact Disk−Read Only Memory)などの記録媒体107によって提供されてもよい。プログラムを記憶した記録媒体107がドライブ装置101にセットされると、プログラムが記録媒体107からドライブ装置101を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体107により行う必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータなどを格納する。メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムやデータを読み出して格納する。プロセッサとして機能するCPU104は、メモリ装置103に格納されたプログラムやプログラムを実行するのに必要なパラメータなどの各種データに従って、後述されるような管理装置100の各種機能及び処理を実行する。インタフェース装置105は、ネットワーク又は外部装置に接続するための通信インタフェースとして用いられる。通信装置106は、外部装置と通信するための各種通信処理を実行する。しかしながら、管理装置100は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
次に、図6〜8を参照して、本発明の一実施例による管理装置100を説明する。図6は、本発明の一実施例による管理装置100の機能構成を示すブロック図である。
図6に示されるように、管理装置100は、監視情報取得部110、稼働状態取得部120及び復旧部130を有する。
監視情報取得部110は、現用システム20のサーバの監視情報を取得する。具体的には、監視情報取得部110は、定期的にステータス管理DB50にアクセスし、ステータス管理DB50から監視情報を取得する。取得した監視情報から疎通異常を示すサーバを検出すると、監視情報取得部110は、疎通異常と検出されたサーバを稼働状態取得部120に通知する。
稼働状態取得部120は、通知されたサーバの処理の稼働状態を取得する。具体的には、監視情報取得部110から疎通異常を示すサーバが通知されると、稼働状態取得部120は、例えば、クラウドシステム10におけるAWSコマンドなどの稼働確認コマンドを利用して、通知されたサーバにおいて実行中の処理のインスタンスの稼働状態を確認する。インスタンスが稼働異常を示す場合、稼働状態取得部120は、当該サーバに対して復旧処理が必要であると判定し、当該サーバに対して復旧処理を実行するよう復旧部130に通知する。
復旧部130は、監視情報と稼働状態とに基づき、予備リソース30のサーバに処理を復旧させる。具体的には、復旧部130は、監視情報が疎通異常であって、稼働状態が稼働異常である場合に現用システム20のサーバに対して復旧処理が必要であると稼働状態取得部120から通知されると、当該サーバにおけるインスタンスの実行を停止し、予備リソース30のサーバにおいて当該インスタンスを起動する。このため、例えば、予備リソース30のDBサーバに現用システム20のDBサーバのスナップショットを転送すると共にDBサーバ及び/又はAPサーバを起動してもよい。
図7に示される具体例では、監視サーバ40によって現用システム20のAPサーバとDBサーバとの双方に疎通異常が検出され、さらにAPサーバとDBサーバとの双方に稼働異常も検出された場合、管理装置100は、現用システム20のAPサーバ及びDBサーバの稼働を停止し、現用システム20のAPサーバ及びDBサーバから予備リソース30のAPサーバ及びDBサーバへのフェイルオーバを実行する。この際、現用システム20のDBサーバのスナップショットが予備リソース30のDBサーバに移入され、当該スナップショット取得時の状態で予備リソース30のAPサーバ及びDBサーバが稼働可能になる。
一実施例では、復旧部130は、所定の復旧順序により予備リソース30のサーバにインスタンスを復旧させてもよい。具体的には、当該復旧順序は、サーバ間の依存関係に基づき決定されてもよい。例えば、現用システム20のAPサーバとDBサーバとの双方に障害が発生していると判断された場合、予備リソース30のDBサーバを先行して復旧させ、当該復旧後に予備リソース30のAPサーバを復旧させるようにしてもよい。これは、仮に予備リソース30のAPサーバがDBサーバに先行して復旧されると、APサーバはその後にDBサーバに接続を開始するが、DBサーバはまだ復旧されていないため、当該接続は失敗することになるためである。
また、図8に示される具体例では、監視サーバ40によって現用システム20のAPサーバに疎通異常が検出され、さらに当該APサーバに稼働異常も検出された場合、管理装置100は、現用システム20のAPサーバの稼働を停止し、現用システム20のAPサーバから予備リソース30のAPサーバへの復旧処理を実行する。この場合、現用システム20のDBサーバは稼働したままとされ、図示されるように、現用システム20のDBサーバと予備リソース30のAPサーバとによって処理が継続される。
しかしながら、本発明による復旧処理は、これに限定されず、例えば、当該サーバを再起動させてもよいし、あるいは、現用システム10の他のサーバに当該インスタンスを移してもよい。
次に、図9を参照して、本発明の一実施例による管理処理を説明する。図9は、本発明の一実施例による管理処理を示すフローチャートである。当該管理処理は、管理装置100によって実行され、例えば、当該管理処理を実現するためのプログラムを管理装置100のプロセッサが実行することによって実現されてもよい。
図9に示されるように、ステップS101において、管理装置100は、ステップS101において、現用システム20のサーバに疎通異常が発生しているか判定する。具体的には、管理装置100は、ステータス管理DB50に格納される監視サーバ40からの監視情報を定期的に確認し、疎通異常を示す監視情報を検出すると、疎通異常が検出されたサーバを特定する。
ステップS102において、管理装置100は、当該サーバにおける処理に稼働異常が発生しているか判定する。具体的には、ステップS101において疎通異常が検出されたサーバを特定すると、管理装置100は、当該サーバにおいて実行されている処理(インスタンス)の稼働状態を判断し、当該サーバにおける処理に稼働異常が発生しているか判定する。
ステップS103において、管理装置100は、予備リソース30のサーバに対して復旧処理を実行し、現用システム20の異常と判定されたサーバにおける処理を停止すると共に、当該処理を予備リソース30のサーバにおいて継続する。
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 クラウドシステム
20 現用システム
30 予備リソース
40 監視サーバ
50 ステータス管理データベース(DB)
100 管理装置
110 監視情報取得部
120 稼働状態取得部
130 復旧部

Claims (8)

  1. 第1のシステムの第1のサーバの監視情報を取得する監視情報取得部と、
    前記第1のサーバの処理の稼働状態を取得する稼働状態取得部と、
    前記監視情報と前記稼働状態とに基づき、第2のシステムの第2のサーバに前記処理を復旧させる復旧部と、
    を有する管理装置。
  2. 前記監視情報は、前記第1のサーバに対する疎通確認の結果を含む、請求項1記載の管理装置。
  3. 前記第1のサーバに対する疎通確認において異常値が所定回数以上検知されると、前記疎通確認の結果は疎通異常と判定される、請求項2記載の管理装置。
  4. 前記取得した監視情報が疎通異常を示すと、前記稼働状態取得部は、前記第1のサーバの処理の稼働状態を取得する、請求項1乃至3何れか一項記載の管理装置。
  5. 前記復旧部は、前記監視情報が疎通異常を示すと共に、前記稼働状態が稼働異常を示す場合、前記第2のサーバに前記処理を復旧させる、請求項1乃至4何れか一項記載の管理装置。
  6. 前記復旧部は、所定の復旧順序により前記第2のサーバに前記処理を復旧させる、請求項1乃至5何れか一項記載の管理装置。
  7. 前記第1のシステムと前記第2のシステムとは、遠隔に配置される、請求項1乃至6何れか一項記載の管理装置。
  8. 第1のシステムの第1のサーバの監視情報を取得するステップと、
    前記第1のサーバの処理の稼働状態を取得するステップと、
    前記監視情報と前記稼働状態とに基づき、第2のシステムの第2のサーバに前記処理を復旧させるステップと、
    をコンピュータに実行させるプログラム。
JP2019082308A 2019-04-23 2019-04-23 管理装置及びプログラム Pending JP2020181272A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019082308A JP2020181272A (ja) 2019-04-23 2019-04-23 管理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019082308A JP2020181272A (ja) 2019-04-23 2019-04-23 管理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2020181272A true JP2020181272A (ja) 2020-11-05

Family

ID=73024049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019082308A Pending JP2020181272A (ja) 2019-04-23 2019-04-23 管理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2020181272A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222110A (ja) * 2004-02-03 2005-08-18 Hitachi Ltd ストレージサブシステム
JP2011150459A (ja) * 2010-01-20 2011-08-04 Nomura Research Institute Ltd ディザスタリカバリシステムおよびバックアップサイト構築方法
JP2014052687A (ja) * 2012-09-05 2014-03-20 Nec Engineering Ltd 仮想マシン管理システム、管理サーバ及び仮想マシン管理方法
JP2014191491A (ja) * 2013-03-26 2014-10-06 Japan Digital Laboratory Co Ltd 情報処理装置および情報処理システム
JP2018055518A (ja) * 2016-09-30 2018-04-05 株式会社日立製作所 ディザスタリカバリシステム
JP2018206170A (ja) * 2017-06-07 2018-12-27 富士通株式会社 制御装置及び仮想マシン生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222110A (ja) * 2004-02-03 2005-08-18 Hitachi Ltd ストレージサブシステム
JP2011150459A (ja) * 2010-01-20 2011-08-04 Nomura Research Institute Ltd ディザスタリカバリシステムおよびバックアップサイト構築方法
JP2014052687A (ja) * 2012-09-05 2014-03-20 Nec Engineering Ltd 仮想マシン管理システム、管理サーバ及び仮想マシン管理方法
JP2014191491A (ja) * 2013-03-26 2014-10-06 Japan Digital Laboratory Co Ltd 情報処理装置および情報処理システム
JP2018055518A (ja) * 2016-09-30 2018-04-05 株式会社日立製作所 ディザスタリカバリシステム
JP2018206170A (ja) * 2017-06-07 2018-12-27 富士通株式会社 制御装置及び仮想マシン生成方法

Similar Documents

Publication Publication Date Title
US11108859B2 (en) Intelligent backup and recovery of cloud computing environment
US9015527B2 (en) Data backup and recovery
KR100297906B1 (ko) 동적인구성변화를지원하는방법및그장치
US6526521B1 (en) Methods and apparatus for providing data storage access
JP5444178B2 (ja) バックアップ・リストア処理装置とバックアップ・リストア処理方法およびプログラム
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
US8812896B1 (en) High-availability data center
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US8713376B1 (en) Escalating data backup protection in response to a failure in a cluster of nodes
CA2616229A1 (en) Redundant systems management frameworks for network environments
US9092396B2 (en) Standby system device, a control method, and a program thereof
JP5124237B2 (ja) ストレージシステムおよびストレージサブシステム
CN106445746A (zh) 一种面向应急接替的容灾备份方法及装置
JP5154843B2 (ja) クラスタシステム、計算機、および障害回復方法
US7519857B2 (en) Method, apparatus, and system for a software based business continuity solution for a computing environment
Yin et al. Availability modeling and analysis for data backup and restore operations
KR100953732B1 (ko) 테스크 관리 장치
JP2020181272A (ja) 管理装置及びプログラム
CN115378800A (zh) 无服务器架构分布式容错系统、方法、装置、设备及介质
CN111367711A (zh) 一种基于超融合数据安全容灾方法
US11188393B1 (en) Systems and methods for performing load balancing and distributed high-availability
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231212