JP6540072B2 - 管理装置、情報処理システム及び管理プログラム - Google Patents

管理装置、情報処理システム及び管理プログラム Download PDF

Info

Publication number
JP6540072B2
JP6540072B2 JP2015027768A JP2015027768A JP6540072B2 JP 6540072 B2 JP6540072 B2 JP 6540072B2 JP 2015027768 A JP2015027768 A JP 2015027768A JP 2015027768 A JP2015027768 A JP 2015027768A JP 6540072 B2 JP6540072 B2 JP 6540072B2
Authority
JP
Japan
Prior art keywords
site
resource
amount
disaster
resource usage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015027768A
Other languages
English (en)
Other versions
JP2016151816A (ja
Inventor
勝雄 飯村
勝雄 飯村
健一郎 下川
健一郎 下川
隆弘 小島
隆弘 小島
裕 江▲崎▼
裕 江▲崎▼
インジン タラ
インジン タラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015027768A priority Critical patent/JP6540072B2/ja
Priority to US15/009,876 priority patent/US9946615B2/en
Publication of JP2016151816A publication Critical patent/JP2016151816A/ja
Application granted granted Critical
Publication of JP6540072B2 publication Critical patent/JP6540072B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3442Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、管理装置、情報処理システム及び管理プログラムに関する。
近年、企業の扱うデータ量が増え、システム環境の変更に柔軟に対応するため、例えば、クラウドコンピューティング等の普及が進んでいる。クラウドコンピューティングによるシステム環境(以下、クラウド環境ともいう)が災害やシステム障害により被害を受けた場合、業務を継続するために、実行環境やデータは、別のクラウド環境に移行される。クラウド環境その他のコンピュータシステムにおいて、災害等の発生時に業務を継続するためのソリューションは、ディザスタリカバリ(Disaster Recovery、DR)とも呼ばれる。
DRでは、業務を稼働する運用サイト(以下、本番サイトともいう)の他、災害等の発生時に本番サイトの業務を移行するための災害対策用サイト(以下、災対サイトともいう)が用意される。災対サイトは、災害等の発生に備えて用意されるが、資源の有効活用の観点から、本番サイトとは別の業務を稼働する。災対サイトで稼働される業務は、本番サイトで稼働される業務よりも優先度が低いことが多い。
クラウド環境等を対象としたDRでは、災害等の発生時に災対サイトに移行される本番サイトの業務、および本番サイトの業務を稼働するために停止される災対サイトの業務が、事前に定義される。災害等が発生した場合には、事前の定義に従って、業務の切替えや停止が実行される。
特開2013−117889号公報 特開2013−058126号公報 特開2011−197989号公報
しかしながら、クラウド環境等のコンピュータシステムでは、業務構成が繰り返し変更され、リソース使用量が頻繁に変動する。したがって、災害等が発生した場合には、事前の定義に従って、業務の切替えや停止が実行されても、災対サイトでのリソース不足や無駄な業務の停止を回避できない場合が生じる。例えば、本番サイトのリソース使用量が増加した場合、災対サイトのリソース空き容量が減少した場合、または各業務の負荷が上がった場合に、災対サイトにおけるリソースが不足する可能性がある。一方、本番サイトのリソース使用量が減少した場合、または災対サイトのリソース空き容量が増加した場合には、災対サイトで継続可能な業務まで停止される可能性がある。
本発明の一態様は、運用サイトから災対サイトに業務を移行する場合の災対サイトでのリソース不足を回避し、災対サイトのリソースを有効活用する管理装置、情報処理システム及び管理プログラムを提供することを目的とする。
本発明の態様の一つは、第1サイトの情報処理装置において稼働される1または複数の第1サイトの処理のリソース使用量、および第2サイトの情報処理装置において稼働され
る1または複数の第2サイトの処理のリソース使用量を収集する収集部と、収集部により収集された第1サイトの各処理のリソース使用量および第2サイトの各処理のリソース使用量の変動に応じて、第2サイトの処理のいずれか1つ以上を停止すること、および第2サイトの処理のいずれか1つ以上に対する割当てリソースを削減することの少なくとも一方を、リソース制御情報として定義するリソース制御部と、を備える管理装置である。
開示の管理装置、情報処理システム及び管理プログラムによれば、運用サイトから災対サイトに業務を移行する場合の災対サイトでのリソース不足を回避し、災対サイトのリソースを有効活用することができる。
クラウド環境を対象としたDRソリューションの例を示す図である。 災害等の発生時に復旧シナリオに定義された動作が実行される例を示す図である。 情報処理システムの一例を示す図である。 管理装置のハードウェア構成の一例を示す図である。 管理装置の機能構成の一例を示す図である。 管理装置が収集する管理情報の例を示す図である。 復旧シナリオの再定義の要否を判定する例を示す図である。 災対サイトの空き容量に余裕がある場合に、各業務から不足分のリソースを供出する例を示す図である。 災対サイトの空き容量に余裕がある場合に、他の業務よりもリソース使用率が高い業務を停止する例を示す図である。 災対サイトの空き容量に余裕がない場合に、リソース使用率が所定の閾値よりも高い業務を停止する例を示す図である。 災対サイトの空き容量に余裕がない場合に、他の業務よりもリソース使用率が高い業務を停止する例を示す図である。 災対サイトの空き容量に余裕がほとんどない場合に、災対サイトの業務をいずれも停止する例を示す図である。 通常運用時に復旧シナリオを再定義する処理のフローチャートの一例である。 災害発生時に復旧シナリオに従ってサイトの切替えを実行する処理のフローチャートの一例である。 災対サイトの空き容量に余裕がある場合の、復旧シナリオの動的定義の判断フローの一例である。 災対サイトの空き容量に余裕がない場合の、復旧シナリオの動的定義の判断フローの一例である。 災対サイトの空き容量に余裕がほとんどない場合の、復旧シナリオの動的定義の判断フローの一例である。
以下、図面に基づいて、本発明の実施の形態を説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。
<DRソリューション>
DRソリューションは、クラウド環境等のコンピュータシステムが被災した場合等に、別のコンピュータシステムに実行環境やデータを移行させ、業務継続するための解決手段である。
図1は、クラウド環境を対象としたDRソリューションの例を示す図である。図1において、本番サイト20(運用サイト)は、サイト管理マネージャ25、Virtual Machine
(VM、仮想マシン)ホスト26、ストレージ27を含むコンピュータである。VMホスト26は、複数のVMを動作させ業務を稼働させる。ストレージ27は、業務に対応するデータを記憶する。
災対サイト30は、本番サイト20と同様のクラウド環境を有し、ミラーリングにより本番サイト20と同期を取るコンピュータである。災害等の発生時、本番サイト20は災対サイト30に切り替えられる。本番サイト20から災対サイト30への切替えは、事前に定義された復旧シナリオに従って実行される。復旧シナリオは、災対サイト30に移行される本番サイト20の業務、および災対サイト30で停止される業務等を定義する。なお、本番サイト20および災対サイト30のコンピュータはVMホスト26を有する仮想コンピュータに限定される訳ではない。また、本番サイト20および災対サイト30はクラウド環境に限定される訳ではない。
図2は、災害等の発生時に復旧シナリオ23に定義された動作が実行される例を示す図である。図2において、本番サイト20は業務A、業務Bおよび業務Cを稼働している。また、災対サイト30は業務1、業務2、業務3および業務4を稼働している。
災害の発生により、本番サイト20の業務Aから業務Cは停止する。復旧シナリオ23に従って、災対サイト30は、業務1から業務4を停止する。次に、災対サイト30は、業務Aから業務Cを起動する。
なお、図2において、災対サイト30は、業務1を起動する余裕があり、業務1を停止することなく稼働することができる。各業務のリソース使用量が変動した場合、復旧シナリオ23を再定義することで、災対サイト30は、リソース不足を回避し、稼働可能な業務を停止することなくリソースを有効活用できる。
<実施形態>
クラウド環境において、災害等の発生により本番サイトの業務が停止した場合、停止した業務は、復旧シナリオに従って災対サイトに移行される。本実施形態は、本番サイトおよび災対サイトで稼働する各業務のリソース使用量を定期的に監視し、各業務のリソース使用量や災対サイトのリソースの空き容量の変動に応じて、動的に復旧シナリオを再定義する。
これにより、業務構成が変更され、各業務のリソース使用量が変動しても、災害等発生時の状況に応じた復旧シナリオに従って業務が移行されるため、災対サイトは、リソース不足を回避し、リソースを有効活用することができる。
<装置構成>
図3は、情報処理システム1の一例を示す図である。情報処理システム1は、管理装置10、本番サイト20および災対サイト30を含む。図3において、本番サイト20は、業務A、業務Bおよび業務Cを稼働する。災対サイト30は、業務1、業務2、業務3および業務4を稼働する。災対サイト30は、災害等の発生時には、復旧シナリオに従って業務1から業務4の一部を停止し、業務Aから業務Cを稼働する。
なお、本番サイト20および災対サイト30は、いずれも1つに限られず複数であってもよい。本番サイト20は、第1サイトの一例である。災対サイト30は、第2サイトの一例である。
図4は、管理装置10のハードウェア構成の一例を示す図である。管理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、ネットワークインタフェース16を備える。また、これらはバス17により互いに接続される。
プロセッサ11は、補助記憶装置13に保持されたOSや様々なコンピュータプログラムを主記憶装置12にロードして実行することによって、様々な処理を実行する。ただし、コンピュータプログラムによる処理の一部がハードウェア回路により実行されてもよい。プロセッサ11は、例えば、Central Processing Unit(CPU)や、Digital Signal Processor(DSP)である。
主記憶装置12は、プロセッサ11に、補助記憶装置13に格納されているプログラムをロードするための記憶領域、及びプログラムを実行するための作業領域を提供する。また、主記憶装置12は、データを保持するためのバッファとして用いられる。主記憶装置12は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)等の半導体メモリである。
補助記憶装置13は、様々なプログラムや、各プログラムの実行に際してプロセッサ11が使用するデータを格納する。補助記憶装置13は、例えば、Erasable Programmable ROM(EPROM)、又はハードディスクドライブ(Hard Disk Drive、HDD)等の不揮発性のメモリである。補助記憶装置13は、例えば、オペレーティングシステム(Operating System、OS)、管理プログラム、その他様々なアプリケーションプログラムを保持する。また、補助記憶装置13は、管理装置10が収集した本番サイト20および災対サイト30の使用状況等の情報を保持する。
入力装置14は、ユーザからの操作入力を受け付ける。例えば、入力装置14は、タッチパッド、マウス、タッチパネル等のポインティングデバイス、キーボード、操作ボタン、遠隔操作機からの信号を受信する回路等である。出力装置15は、管理装置10により再定義された復旧シナリオの内容を出力する。出力装置15は、例えば、液晶ディスプレイ(Liquid Crystal Display、LCD)である。
ネットワークインタフェース16は、ネットワークとの情報の入出力を行うインタフェースである。ネットワークインタフェース16は、有線のネットワーク、または無線のネットワークと接続する。ネットワークインタフェース16は、例えば、Network Interface Card(NIC)、無線Local Area Network(LAN)カード等である。ネットワークインタフェース16で受信されたデータ等は、プロセッサ11に出力される。
例えば、管理装置10では、プロセッサ11が、補助記憶装置13に保持される管理プログラムを主記憶装置12にロードして実行する。なお、管理装置10のハードウェア構成は一例であり、上記に限られず、実施の形態に応じて適宜構成要素の省略や置換、追加が可能である。
図5は、管理装置10の機能構成の一例を示す図である。管理装置10は、機能構成として、収集部21、リソース制御部22、復旧シナリオ23および移行部24を備える。管理装置10のプロセッサ11は、コンピュータプログラムにより、収集部21、リソース制御部22および移行部24の処理を実行する。ただし、収集部21、リソース制御部22および移行部24のいずれか、またはその処理の一部がハードウェア回路により実行されてもよい。
収集部21は、本番サイト20および災対サイト30で稼働する各業務のリソース使用
量を収集する。リソース使用量は、例えば、CPU使用量、メモリ使用量、ディスクInput/Output(I/O)量、ネットワークI/O量である。
リソース制御部22は、本番サイト20および災対サイト30で稼働する各業務のリソース使用量の変動に応じて、災対サイト30に移行される本番サイト20の業務、および災対サイト30で停止される業務等を定義する復旧シナリオ23を生成する。
復旧シナリオ23は、本番サイト20から災対サイト30への業務の移行、災対サイト30での業務の停止、災対サイト30の各業務への割当てリソースの削減等を定義する。復旧シナリオ23は、コンピュータプログラムにより、プロセッサ11が読み出して実行可能な形式、例えば、テキストやバイナリ形式で定義されたものであればよい。復旧シナリオ23は、リソース制御情報の一例である。
移行部24は、災害等の発生時に、復旧シナリオ23に従って、災対サイト30での業務の停止、災対サイト30の各業務への割当てリソースの削減等を行う。また、移行部24は、本番サイト20で稼働される各業務を、災対サイト30に移行する。
<復旧シナリオ定義>
図6から図12は、復旧シナリオ23の定義を説明するための図である。管理装置10は、所定の時間間隔で業務ごとのリソースの使用状況および災対サイト30のリソースの空き状況等の管理情報を収集する。管理装置10は、収集した管理情報から得られる所定の指標値に応じた復旧シナリオ23を定義する。図6および図7は、収集される管理情報および指標値について説明する。図8から図12は、指標値に応じた復旧シナリオ23の例を示す。
復旧シナリオ23の定義に使用する管理情報を収集するため、ユーザは、監視対象のリソース種別および監視間隔を指定する。監視対象のリソース種別は、例えば、CPU、メモリ、ディスク、ネットワーク等の使用量である。監視間隔は、管理装置10が、復旧シナリオ23の定義に使用する管理情報を収集する時間間隔である。管理装置10は、監視間隔として指定された時間ごとに、各業務のリソース使用状況、および災対サイト30のリソースの空き状況等を収集する。
図6は、管理装置10が収集する管理情報40の例を示す図である。図6において、「業務」の項目は、本番サイト20および災対サイト30で稼働する業務名を示す。各「業務」に対し、「サイト」および「最新状態」の情報が保持される。「サイト」は、業務が本番サイト20で稼働しているか、災対サイト30で稼働しているかを示す。「最新状態」は、業務が起動されているか否かを示す。
また、図6の例では、各「業務」に対し、「2014年8月8日0時20分」、「2014年8月8日6時20分」、「2014年8月8日12時20分」の各時刻におけるCPU使用量の情報が保持されている。管理装置10は、リソースの使用量を定期的に監視し、情報収集をした時刻(以下、情報収集時刻ともいう)における各業務のリソース使用量を保持していく。
具体的には、“業務A”は、本番サイト20の業務であり起動状態である。“業務A”のCPU使用量は、2014年8月8日0時20分には2GHz、2014年8月8日6時20分には1GHz、2014年8月8日12時20分には3GHzである。
各業務のリソース使用量のほか、災対サイト30の空き容量も収集され、保持される。具体的には、災対サイト30の空き容量は、2014年8月8日0時20分には5GHz
、2014年8月8日6時20分には5GHz、2014年8月8日12時20分には3GHzである。
図7は、復旧シナリオの再定義の要否を判定する例を示す図である。管理装置10は、「災対サイトのCPU空き容量」、「本番サイトのCPU使用量」および「指標値X」から「復旧シナリオの再定義」の要否を判定する。
「災対サイトのCPU空き容量」は、各情報収集時刻における災対サイト30のCPU空き容量である。「本番サイトのCPU使用量」は、各情報収集時刻において各業務が使用する本番サイト20のCPU使用量の合計である。
「指標値X」は、「災対サイトのCPU空き容量」をA、「本番サイトのCPU使用量」をBとした場合、A÷Bにより算出される値である。なお、「指標値X」は、AとBの比率を表す値であれば、他の計算式により算出されてもよい。
「復旧シナリオの再定義」は、復旧シナリオ23を再定義するか否かを示す。「災対サイトのCPU空き容量」が「本番サイトのCPU使用量」以上であれば、復旧シナリオ23は、再定義されなくてもよい。管理装置10は、例えば、「指標値X」が1以上の場合は復旧シナリオ23を再定義せず、「指標値X」が1より小さい場合は復旧シナリオ23を再定義する。
具体的には、2014年8月8日0時20分における「災対サイトのCPU空き容量」は5GHz、「本番サイトのCPU使用量」は4GHzである。「指標値X」は、5÷4=1.25と算出される。「指標値X」が1以上であるため、復旧シナリオ23は再定義されない。
また、2014年8月8日12時20分における「災対サイトのCPU空き容量」は3GHz、「本番サイトのCPU使用量」は7GHzである。「指標値X」は、3÷7より約0.43と算出される。「指標値X」が1より小さく、災対サイト30の空き容量が不足しているため、復旧シナリオ23は再定義される。
さらに、復旧シナリオ23の再定義の要否は、災害等の発生時にも確認される。図7では、2014年8月8日12時41分に災害が発生した例が示される。災害発生時、「災対サイトのCPU空き容量」は1GHz、「本番サイトのCPU使用量」は7GHzである。「指標値X」は、1÷7より約0.14と算出される。「指標値X」が、前回の情報収集時刻である2014年8月8日12時20分における値から変動しているため、復旧シナリオ23は再定義される。
図8から図12は、指標値Xに応じた復旧シナリオ23の例を示す。本実施形態では、指標値Xの値に応じてケース1からケース5に場合を分けて、復旧シナリオ23を再定義する。図8から図12は、それぞれケース1からケース5に対応する。
なお、復旧シナリオ23の再定義は、ケース1からケース5の場合分けに限られず、任意の条件によって場合分けをしてもよい。各場合分け(ケース)において、災対サイト30の空き容量を確保する処理は、ケース1からケース5で行われる処理を適宜組み合わせてもよい。
また、ケース1からケース5は、リソースがCPU使用量であるものとして説明されるが、リソースはメモリ使用量、ディスクI/O量、ネットワークI/O量等であってもよい。
(ケース1)
ケース1は、災対サイト30の空き容量に余裕がある場合である。この場合、例えば、指標値Xは0.6≦X<1を満たす。指標値Xの閾値は0.6に限られず、災対サイト30の空き容量に余裕があるとされる値であればよい。
災対サイト30の空き容量に余裕があるため、不足するリソースは、災対サイト30の各業務に分散して負担される。具体的には、不足するリソースは、リソースの使用率に応じて、災対サイト30の各業務から供出される。
図8は、災対サイトの空き容量に余裕がある場合に、各業務から不足分のリソースを供出する例を示す図である。管理装置10が収集した管理情報40に基づいて、復旧シナリオ23が再定義されるか否かが判断される。図8において、2014年8月8日12時20分における「災対サイトのCPU空き容量」は7GHz、「本番サイトのCPU使用量」は10GHz、「不足するリソース量」は3GHzである。「指標値X」は、7÷10=0.7と算出される。「指標値X」が1より小さいため、復旧シナリオ23は再定義される。
災対サイト30において、業務1から業務4が稼働中である。業務1から業務4のリソース使用量は、それぞれ2GHz、3GHz、3GHz、2GHzであり、災対サイト30のリソース使用量は10GHzとなる。災対サイト30のリソース使用量10GHzに対する業務1から業務4のリソース使用率は、それぞれ20%、30%、30%、20%である。
不足するリソースの3GHzは、各業務のリソース使用率に応じて供出される。業務1は、不足するリソース3GHzに、業務1のリソース使用率0.2を乗じた0.6GHzを供出する。業務2は、不足するリソース3GHzに、業務2のリソース使用率0.3を乗じた0.9GHzを供出する。業務3は、不足するリソース3GHzに、業務3のリソース使用率0.3を乗じた0.9GHzを供出する。業務4は、不足するリソース3GHzに、業務4のリソース使用率0.2を乗じた0.6GHzを供出する。
各業務からのリソースの供出により、災対サイト30の空き容量は、3GHz増加して10GHzとなる。指標値Xは10÷10=1となり、指標値Xが1以上であるため、復旧シナリオ23は終了する。
(ケース2)
ケース2は、災対サイト30の空き容量に余裕がある場合である。この場合、例えば、指標値Xは0.6≦X<1を満たす。指標値Xの閾値は0.6に限られず、災対サイト30の空き容量に余裕があるとされる値であればよい。
さらに、ケース2は、ケース1のように災対サイト30の各業務からリソースを供出すると、いずれかの業務において、供出後のリソース使用量が所定の基準を下回る場合である。この場合、リソース使用率が他の業務よりも高い業務が停止される。なお、所定の基準は、業務の継続に使用されるリソース量であって、業務ごとに事前に定義される値である。
図9は、災対サイトの空き容量に余裕がある場合に、他の業務よりもリソース使用率が高い業務を停止する例を示す図である。図9では、ケース1と同様に「指標値X」が1より小さいため、復旧シナリオ23は再定義される。
災対サイト30において、業務1から業務4が稼働中である。業務1から業務4のリソース使用量は、それぞれ1GHz、4GHz、3GHz、2GHzであり、災対サイト30のリソース使用量は10GHzとなる。災対サイト30のリソース使用量10GHzに対する業務1から業務4のリソース使用率は、それぞれ10%、40%、30%、20%である。
不足するリソースを各業務から供出する場合、業務1は、不足するリソース3GHzに、業務1のリソース使用率0.1を乗じた0.3GHzを供出することになる。供出後のリソース使用量は、0.7GHzであって、所定の基準を下回るものとする。この場合、不足するリソースを各業務から供出せずに、リソース使用率が他の業務よりも高い業務2が停止される。
業務2の停止により、災対サイト30の空き容量は、4GHz増加して11GHzとなる。指標値Xは11÷10=1.1となり、指標値Xが1以上であるため、復旧シナリオ23は終了する。
(ケース3)
ケース3は、災対サイト30の空き容量に余裕がない場合である。この場合、例えば、指標値Xは0.2≦X<0.6を満たす。指標値Xの閾値は、0.2と0.6に限られず、災対サイト30の空き容量に余裕がないとされる値であればよい。
災対サイト30の空き容量に余裕がないため、災対サイト30の各業務のうちリソース使用率が相対的に高い業務が停止される。例えば、リソース使用率が40%以上の業務が停止される。リソース使用率が相対的に高い業務の停止により、災対サイト30の他の業務は、影響を受けることなく稼働を継続することができる。
リソース使用率が相対的に高い業務を停止しても、指標値Xが1以上にならない場合、災対サイト30の各業務は、リソースの使用率に応じて不足分のリソースを供出すればよい。
図10は、災対サイトの空き容量に余裕がない場合に、リソース使用率が所定の閾値よりも高い業務を停止する例を示す図である。管理装置10が収集した管理情報40に基づいて、復旧シナリオ23が再定義されるか否かが判断される。図10において、2014年8月8日12時20分における「災対サイトのCPU空き容量」は3GHz、「本番サイトのCPU使用量」は7GHz、「不足するリソース量」は4GHzである。「指標値X」は、3÷7より約0.43と算出される。「指標値X」が1より小さいため、復旧シナリオ23は再定義される。
災対サイト30において、業務1から業務4が稼働中である。業務1から業務4のリソース使用量は、それぞれ3GHz、8GHz、3GHz、2GHzであり、災対サイト30のリソース使用量は16GHzとなる。災対サイト30のリソース使用量16GHzに対する業務1から業務4のリソース使用率は、それぞれ約19%、50%、19%、12%である。
リソース使用率が50%と他の業務よりも相対的に高い業務2が停止される。業務2の停止により、災対サイト30の空き容量は、8GHz増加して11GHzとなる。指標値Xは11÷7より約1.57と算出される。指標値Xが1以上であるため、復旧シナリオ23は終了する。
(ケース4)
ケース4は、災対サイト30の空き容量に余裕がない場合である。例えば、指標値Xが0.2≦X<0.6を満たす場合である。指標値Xの閾値は、0.2と0.6に限られず、災対サイト30の空き容量に余裕がないとされる値であればよい。
さらに、ケース4は、ケース3と異なり、リソース使用率が相対的に高い業務がない場合である。この場合、不足するリソースは、リソースの使用率に応じて災対サイト30の各業務から供出される。
災対サイト30の各業務からリソースを供出すると、いずれかの業務において、供出後のリソース使用量が所定の基準を下回る場合には、リソース使用率が他の業務よりも高い業務が停止されればよい。なお、所定の基準は、業務ごとに事前に定義される値である。
各業務からのリソースの供出または業務の停止によっても、指標値Xが1より小さい場合は、指標値Xが1以上になるまで、各業務からのリソースの供出または業務の停止を繰り返す。
図11は、災対サイトの空き容量に余裕がない場合に、他の業務よりもリソース使用率が高い業務を停止する例を示す図である。管理装置10が収集した管理情報40に基づいて、復旧シナリオ23が再定義されるか否かが判断される。図11において、2014年8月8日12時20分における「災対サイトのCPU空き容量」は2.5GHz、「本番サイトのCPU使用量」は10GHz、「不足するリソース量」は7.5GHzである。「指標値X」は、2.5÷10=0.25と算出される。「指標値X」が1より小さいため、復旧シナリオ23は再定義される。
災対サイト30において、業務1から業務4が稼働中である。業務1から業務4のリソース使用量は、それぞれ2.6GHz、1.3GHz、4.8GHz、4.3GHzであり、災対サイト30のリソース使用量は13GHzとなる。災対サイト30のリソース使用量13GHzに対する業務1から業務4のリソース使用率は、それぞれ約20%、10%、37%、33%である。
不足するリソースを各業務から供出する場合、業務2は、不足するリソース7.5GHzに、業務2のリソース使用率0.1を乗じた0.75GHzを供出することになる。供出後のリソース使用量は、0.55GHzであって、所定の基準を下回るものとする。この場合、不足するリソースを各業務から供出せずに、リソース使用率が他の業務よりも高い業務3が停止される。
業務3の停止により、災対サイト30の空き容量は、4.8GHz増加して7.3GHzとなる。指標値Xは7.3÷10=0.73と算出される。指標値Xが1より小さいため、さらに不足するリソースは、各業務から供出される。
災対サイト30において、業務1、業務2および業務4が稼働中である。業務1、業務2および業務4のリソース使用量は、それぞれ2.6GHz、1.3GHz、4.3GHzであり、災対サイト30のリソース使用量は8.2GHzとなる。災対サイト30のリソース使用量8.2GHzに対する業務1、業務2および業務4のリソース使用率は、それぞれ約37%、18%、62%である。また、不足するリソースは10−7.32.7GHzとなる。
不足するリソースを各業務から供出する場合、業務2は、不足するリソース2.7GHzに、業務2のリソース使用率0.18を乗じた0.486GHzを供出することになる。供出後のリソース使用量は、0.8GHzであって、所定の基準を下回るものとする。この場合、不足するリソースを各業務から供出せずに、リソース使用率が他の業務よりも高い業務4が停止される。
業務4の停止により、災対サイト30の空き容量は、4.3GHz増加して11.6GHzとなる。指標値Xは11.6÷10=1.16となり、指標値Xが1以上であるため、復旧シナリオ23は終了する。
(ケース5)
ケース5は、災対サイト30の空き容量に余裕がほとんどない場合である。例えば、指標値XがX<0.2を満たす場合である。指標値Xの閾値は、0.2に限られず、災対サイト30の空き容量に余裕がほとんどないとされる値であればよい。災対サイト30の空き容量に余裕がほとんどないため、災対サイト30の各業務は停止される。
図12は、災対サイト30の空き容量に余裕がほとんどない場合に、災対サイトの業務をいずれも停止する例を示す図である。管理装置10が収集した管理情報40に基づいて、復旧シナリオ23が再定義されるか否かが判断される。図12において、2014年8月8日12時20分における「災対サイトのCPU空き容量」は1GHz、「本番サイトのCPU使用量」は13GHz、「不足するリソース量」は12GHzである。「指標値X」は、1÷13より約0.08と算出される。「指標値X」が1より小さいため、復旧シナリオ23は再定義される。
災対サイト30の空き容量に余裕がほとんどないため、災対サイト30で稼働中の各業務は停止される。各業務の停止により、災対サイト30の空き容量は、12GHz増加して13GHzとなる。指標値Xは13÷13=1と算出される。指標値Xが1以上であるため、復旧シナリオ23は終了する。
<処理の流れ>
図13および図14は、復旧シナリオ23の再定義および実行の処理の流れを説明する。図15から図17は、復旧シナリオ23の動的定義の判断フローの詳細を説明する。
図13は、通常運用時に復旧シナリオを再定義する処理のフローチャートの一例である。通常運用時に復旧シナリオを再定義する処理は、例えば、管理装置10の起動により開始される。
OP11では、管理装置10は、復旧シナリオ23の初期設定をする。初期設定は、例えば、監視対象のリソース種別および監視間隔の設定を含む。次に処理がOP12に進む。OP12では、管理装置10は、本番サイト20および災対サイト30のリソースの使用状況を一定時間ごとに収集する。次に処理がOP13に進む。
OP13では、管理装置10は、指標値Xを計算する。次に処理がOP14に進む。OP14では、管理装置10は、使用状況を収集した時点で復旧シナリオ23の再定義をするか否かを判定する。復旧シナリオ23の再定義をする場合、すなわち指標値X<1の場合には(OP14:Yes)、処理がOP15に進む。復旧シナリオ23の再定義をしない場合、すなわち指標値X≧1の場合には(OP14:No)、処理がOP12に戻る。
OP15では、管理装置10は、図15から図17に示される復旧シナリオ23の動的定義の判断フローに従って復旧シナリオ23を再定義する。次に、処理がOP12に戻る。管理装置10が起動されている間、OP12からOP15までの処理が繰り返される。
図14は、災害発生時に復旧シナリオに従ってサイトの切替えを実行する処理のフロー
チャートの一例である。災害発生時に復旧シナリオに従ってサイトの切替えを実行する処理は、例えば、管理装置10が災害等の発生を検知することにより開始される。災害等の発生は、例えば、本番サイト20への通信障害、オペレータ入力等によって検知される。
OP21では、管理装置10は、本番サイト20および災対サイト30のリソースの使用状況を収集する。次に処理がOP22に進む。OP22では、管理装置10は、指標値Xを計算する。次に処理がOP23に進む。
OP23では、管理装置10は、復旧シナリオ23の再定義をするか否かを判定する。復旧シナリオ23の再定義をする場合、すなわち指標値X<1の場合には(OP23:Yes)、処理がOP24に進む。復旧シナリオ23の再定義をしない場合、すなわち指標値X≧1の場合には(OP23:No)、処理がOP26に進む。
OP24では、管理装置10は、平時に設定した復旧シナリオ23の再定義をするか否かを判定する。すなわち、管理装置10は、災害発生時に算出した指標値Xが、平時に設定した復旧シナリオ23に対する指標値Xの範囲外であるか否かを判定する。
復旧シナリオ23の再定義をする場合、すなわち災害発生時に算出した指標値Xが、平時に設定した復旧シナリオ23に対する指標値Xの範囲外である場合には(OP24:Yes)、処理がOP25に進む。復旧シナリオ23の再定義をしない場合、すなわち災害発生時に算出した指標値Xが、平時に設定した復旧シナリオ23に対する指標値Xの範囲内である場合には(OP24:No)、処理がOP26に進む。
OP25では、管理装置10は、図15から図17に示す、復旧シナリオ23の動的定義の判断フローに従って復旧シナリオ23を再定義する。次に処理がOP26に進む。OP26では、管理装置10は、復旧シナリオ23に従って、本番サイト20の業務を、災対サイト30に切り替え、処理が終了する。
図15から図17は、復旧シナリオ23の動的定義の判断フローの詳細を説明する。図15から図17の処理は、図13のOP15および図14のOP25の処理の詳細であり、それぞれ動的定義の判断フロー1、動的定義の判断フロー2、動的定義の判断フロー3と称される。
図15は、災対サイトの空き容量に余裕がある場合の、復旧シナリオ23の動的定義の判断フローの一例である。すなわち、図15は、ケース1およびケース2の復旧シナリオ23の流れを説明する。
OP31では、管理装置10は、指標値Xが0.6≦指標値X<1.0を満たすか否かを判定する。0.6≦指標値X<1.0を満たす場合には(OP31:Yes)、処理がOP32に進む。0.6≦指標値X<1.0を満たさない場合には(OP31:No)、処理が動的定義の判断フロー2に進む。
OP32では、管理装置10は、リソース供出後に、リソース使用量の所定基準を下回る業務が存在するか否かを判定する。リソース使用量の所定基準を下回る業務が存在する場合には(OP32:Yes)、処理がOP33に進む。リソース使用量の所定基準を下回る業務が存在しない場合には(OP32:No)、ケース1の復旧シナリオ23が定義され、処理が終了する。ケース1の復旧シナリオ23は、災対サイトの各業務のリソース使用量に応じて、リソースを供出するシナリオである。
OP33では、管理装置10は、相対的にリソース使用率が高い業務を停止する。ケー
ス2の復旧シナリオ23が定義され、処理が終了する。ケース2の復旧シナリオ23は、所定基準を下回る業務を除外し、その他の各業務のリソース使用量に応じて、リソースを供出するシナリオである。
図16は、災対サイトの空き容量に余裕がない場合の、復旧シナリオの動的定義の判断フローの一例である。すなわち、図16は、ケース3およびケース4の復旧シナリオ23の流れを説明する。
OP41では、管理装置10は、指標値Xが0.2≦指標値X<0.6を満たすか否かを判定する。0.2≦指標値X<0.6を満たす場合には(OP41:Yes)、処理がOP42に進む。0.2≦指標値X<0.6を満たさない場合には(OP41:No)、処理が動的定義の判断フロー3に進む。
OP42では、管理装置10は、災対サイト30の各業務の中で相対的にリソース使用量が多い業務があるか否かを判定する。相対的にリソース使用量が多い業務がある場合には(OP42:Yes)、処理がOP43に進む。相対的にリソース使用量が多い業務がない場合には(OP42:No)、処理がOP45に進む。
OP43では、管理装置10は、相対的にリソース使用率が高い業務を停止する。次に処理がOP44に進む。OP44では、管理装置10は、指標値Xを再計算し、指標値X≧1.0となるか否かを判定する。指標値X≧1.0となる場合には(OP44:Yes)、ケース3の復旧シナリオ23が定義され、処理が終了する。ケース3の復旧シナリオ23は、災対サイトでリソース使用率が相対的に高い業務を停止し、リソースを供出するシナリオである。指標値X≧1.0とならない場合には(OP44:No)、処理がOP45に進む。
OP45では、管理装置10は、リソース供出後に、リソース使用量の所定基準を下回る業務が存在するか否かを判定する。リソース使用量の所定基準を下回る業務が存在する場合には(OP45:Yes)、処理がOP46に進む。リソース使用量の所定基準を下回る業務が存在しない場合には(OP45:No)、ケース4の復旧シナリオ23が定義され、処理が終了する。
OP46では、管理装置10は、相対的にリソース使用率が高い業務を停止する。なお、OP46の処理後、指標値X<1.0である場合には、指標値X≧1.0となるまで、OP45およびOP46の処理が繰り返される。次に、ケース4の復旧シナリオ23が定義され、処理が終了する。ケース4の復旧シナリオ23は、災対サイトでのリソース使用率とリソース使用量の所定基準の両方を加味してリソースを供出するシナリオである。
図17は、災対サイトの空き容量に余裕がほとんどない場合の、復旧シナリオの動的定義の判断フローの一例である。すなわち、図17は、ケース5の復旧シナリオ23の流れを説明する。
OP51では、管理装置10は、指標値Xが指標値X<0.2を満たすか否かを判定する。指標値X<0.2を満たす場合には(OP51:Yes)、処理がOP52に進む。動的定義の判断フロー1および2の処理において、指標値X≧0.2となる場合は除かれているため、通常は指標値X<0.2が満たされる。しかしながら、指標値X<0.2を満たさない場合には(OP51:No)、処理が動的定義の判断フロー1に戻るようにしてもよい。
OP52では、管理装置10は、災対サイト30の各業務を停止する。ケース5の復旧
シナリオ23が定義され、処理が終了する。ケース5の復旧シナリオ23は、災対サイト30の各業務を停止するシナリオである。
<実施形態の作用効果>
管理装置10は、定期的に、および災害等の発生時に、本番サイト20および災対サイト30で稼働される各業務のリソースの使用量を収集し、収集したリソース使用量の変動に応じて復旧シナリオ23を再定義する。これにより、管理装置10は、各サイトのリソース使用状況に合わせた復旧シナリオ23を自動で生成し、実行することができる。また、復旧シナリオ23の維持管理の工数が削減される。
管理装置10は、災対サイト30の空きリソースが、本番サイト20のリソース使用量以上となるように復旧シナリオ23を再定義する。これにより、災対サイト30のリソース不足を回避することができる。
管理装置10は、不足するリソースを確保するため、災対サイト30における各業務のリソース使用率を算出し、リソース使用率が他の業務よりも高い業務を停止する。これにより、災対サイト30で稼働中の業務への影響範囲が局所化される。
また、管理装置10は、不足するリソースを確保するため、リソース使用率に応じて各業務からリソースを供出させる。なお、管理装置10は、リソースの供出により、業務に割り当てられるリソースが所定の基準を下回る場合には、リソース使用率が他の業務よりも高い業務を停止すればよい。これにより、災対サイト30で稼働中の業務への影響が低減される。災対サイト30で稼働中の業務への影響範囲を局所化し、影響を低減することで、災対サイト30のリソースを有効活用することができる。
災害等の発生時には、復旧シナリオ23を再定義し、本番サイト20の各業務を災対サイト30に移行することで、管理装置10は、災害等発生時の両サイトの稼働状況に応じた移行が可能となる。災害等の発生時に、本番サイト20のリソース使用状況の収集ができない等、復旧シナリオ23を再定義できない場合には、管理装置10は、直前の復旧シナリオ23に従って移行を行えばよい。これにより、災害等の発生時により近い稼働状況に応じた移行が可能となる。
<記録媒体>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、ブルーレイディスク、DAT、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM(リードオンリーメモリ)等がある。さらに、Solid State Drive(SSD)はコンピュータ等から取り外し可能な記録媒体としても、コンピュータ等
に固定された記録媒体としても利用可能である。
1 情報処理システム
10 管理装置
11 プロセッサ
12 主記憶装置
13 補助記憶装置
14 入力装置
15 出力装置
16 ネットワークインタフェース
17 バス
20 本番サイト
21 収集部
22 リソース制御部
23 復旧シナリオ
24 移行部
25 サイト管理マネージャ
26 VMホスト
27 ストレージ
30 災対サイト
40 管理情報

Claims (6)

  1. 第1サイトの情報処理装置において稼働される1または複数の第1サイトの処理のリソース使用量、および第1サイトの処理が移行される第2サイトの情報処理装置において稼働される1または複数の第2サイトの処理のリソース使用量を収集する収集ステップと、
    前記収集ステップにより収集された前記第1サイトの各処理のリソース使用量の合計が前記第2サイトの空きリソース量以上となる場合であって、
    (1)前記第2サイトの各処理に対する現在の割り当てリソース量の比率で前記第2サイトの各処理に対する割り当てリソース量を削減すると前記第2サイトの各処理のいずれかのリソース量が所定の基準に達しない場合に、前記第2サイトの空きリソース量が前記第1サイトの各処理のリソース使用量の合計以上となるまで前記第2サイトの処理のいずれか1つ以上を停止し、
    (2)前記第2サイトの処理の各処理に対する現在の割り当てリソースの比率で前記第2サイトの各処理に対する割り当てリソース量を削減しても前記第2サイトの各処理のすべてのリソース量が所定の基準に達する場合に、前記第1サイトの各処理のリソース使用量の合計から前記第2サイトの空きリソース量を減算した不足値を算出し、前記第2サイトの各処理に対する割当てリソース量の比率で前記不足値を分割して割り当てた分割リソース量を前記第2サイトの処理から削減すること、
    リソース制御情報として定義するステップと、を定期的時点および災害の発生を検知した時点の少なくとも一方の時点で実行する定義部と、
    前記災害の発生を検知した時点で、前記定義されたリソース制御情報による処理を実行するリソース制御部と、
    を備える管理装置。
  2. 前記リソース制御部は、前記第2サイトの各処理のリソース使用量の合計に対する前記第2サイトの各処理のリソース使用量の割合であるリソース使用率を算出し、前記第2サイトの各処理のうち、前記リソース使用率が他の処理よりも高い処理を停止することを定義する、
    請求項1に記載の管理装置。
  3. 前記リソース制御部は、前記第2サイトの各処理の前記リソース使用率に応じて、前記
    第2サイトの各処理に対する割当てリソースを削減することによって前記第2サイトのいずれかの処理において割当てリソース削減後のリソース使用量が所定の基準を下回る場合には、前記第2サイトの各処理のうち、前記リソース使用率が他の処理よりも高い処理を停止することを定義する、
    請求項1または2に記載の管理装置。
  4. 前記リソース制御情報に従って、前記第2サイトの各処理に割り当てるリソース使用量を変更し、前記第1サイトの処理を前記第2サイトの情報処理装置に移行する移行部をさらに備える、
    請求項1からのいずれか一項に記載の管理装置。
  5. 管理装置と、第1サイトの情報処理装置と、第2サイトの情報処理装置とを有する情報処理システムであって、
    前記管理装置は、
    前記第1サイトの情報処理装置において稼働される1または複数の第1サイトの処理のリソース使用量、および前記第2サイトの情報処理装置において稼働される1または複数の第2サイトの処理のリソース使用量を収集するステップと、
    前記収集部により収集された前記第1サイトの各処理のリソース使用量の合計が前記第2サイトの空きリソース量以上となる場合であって、
    (1)前記第2サイトの各処理に対する現在の割り当てリソース量の比率で前記第2サイトの各処理に対する割り当てリソース量を削減すると前記第2サイトの各処理のいずれかのリソース量が所定の基準に達しない場合に、前記第2サイトの空きリソース量が前記第1サイトの各処理のリソース使用量の合計以上となるまで前記第2サイトの処理のいずれか1つ以上を停止し、
    (2)前記第2サイトの処理の各処理に対する現在の割り当てリソースの比率で前記第2サイトの各処理に対する割り当てリソース量を削減しても前記第2サイトの各処理のすべてのリソース量が所定の基準に達する場合に、前記第1サイトの各処理のリソース使用量の合計から前記第2サイトの空きリソース量を減算した不足値を算出し、前記第2サイトの各処理に対する割当てリソース量の比率で前記不足値を分割して割り当てた分割リソース量を前記第2サイトの処理から削減すること
    をリソース制御情報として定義するステップと、を定期的時点および災害の発生を検知した時点の少なくとも一方の時点で実行する定義部と
    前記災害の発生を検知した時点で、前記定義されたリソース制御情報による処理を実行するリソース制御部と、を備える、
    情報処理システム。
  6. コンピュータに、
    第1サイトの情報処理装置において稼働される1または複数の第1サイトの処理リソース使用量、および第2サイトの情報処理装置において稼働される1または複数の第2サイトの処理のリソース使用量を収集するステップと
    収集された前記第1サイトの各処理のリソース使用量の合計が前記第2サイトの空きリソース量以上となる場合であって、
    (1)前記第2サイトの各処理に対する現在の割り当てリソース量の比率で前記第2サイトの各処理に対する割り当てリソース量を削減すると前記第2サイトの各処理のいずれかのリソース量が所定の基準に達しない場合に、前記第2サイトの空きリソース量が前記第1サイトの各処理のリソース使用量の合計以上となるまで前記第2サイトの処理のいずれか1つ以上を停止し、
    (2)前記第2サイトの処理の各処理に対する現在の割り当てリソースの比率で前記第2サイトの各処理に対する割り当てリソース量を削減しても前記第2サイトの各処理のすべてのリソース量が所定の基準に達する場合に、前記第1サイトの各処理のリソース使用量
    の合計から前記第2サイトの空きリソース量を減算した不足値を算出し、前記第2サイトの各処理に対する割当てリソース量の比率で前記不足値を分割して割り当てた分割リソース量を前記第2サイトの処理から削減すること
    をリソース制御情報として定義するステップと、を定期的時点および災害の発生を検知した時点の少なくとも一方の時点で実行させ、
    前記災害の発生を検知した時点で、前記定義されたリソース制御情報による処理を実行させる、
    ための管理プログラム。
JP2015027768A 2015-02-16 2015-02-16 管理装置、情報処理システム及び管理プログラム Active JP6540072B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015027768A JP6540072B2 (ja) 2015-02-16 2015-02-16 管理装置、情報処理システム及び管理プログラム
US15/009,876 US9946615B2 (en) 2015-02-16 2016-01-29 Management apparatus and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015027768A JP6540072B2 (ja) 2015-02-16 2015-02-16 管理装置、情報処理システム及び管理プログラム

Publications (2)

Publication Number Publication Date
JP2016151816A JP2016151816A (ja) 2016-08-22
JP6540072B2 true JP6540072B2 (ja) 2019-07-10

Family

ID=56621518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015027768A Active JP6540072B2 (ja) 2015-02-16 2015-02-16 管理装置、情報処理システム及び管理プログラム

Country Status (2)

Country Link
US (1) US9946615B2 (ja)
JP (1) JP6540072B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10855515B2 (en) * 2015-10-30 2020-12-01 Netapp Inc. Implementing switchover operations between computing nodes
US10838767B2 (en) * 2016-09-12 2020-11-17 International Business Machines Corporation Distributed computing utilizing a recovery site

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250839A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害性システム
JP2011128967A (ja) * 2009-12-18 2011-06-30 Hitachi Ltd 仮想計算機の移動方法、仮想計算機システム及びプログラム
JP2011197989A (ja) 2010-03-19 2011-10-06 Nomura Research Institute Ltd 情報処理システムの動的管理装置、動的管理システムおよび動的管理方法
JP2013012187A (ja) * 2011-06-03 2013-01-17 Panasonic Corp 負荷分散サーバシステム
JP5738133B2 (ja) 2011-09-09 2015-06-17 三菱電機株式会社 縮退処理装置、縮退処理システム、縮退処理装置の縮退処理方法および縮退処理プログラム
JP5632820B2 (ja) * 2011-12-05 2014-11-26 株式会社日立システムズ 広域分散構成変更システム
US9170849B2 (en) * 2012-01-09 2015-10-27 Microsoft Technology Licensing, Llc Migration of task to different pool of resources based on task retry count during task lease
US9483324B2 (en) * 2012-06-26 2016-11-01 Nec Corporation Program conversion device and method, process switching method, method of determining execution scheme and program storage medium therefor, processor system, and parallel execution scheme

Also Published As

Publication number Publication date
JP2016151816A (ja) 2016-08-22
US20160241450A1 (en) 2016-08-18
US9946615B2 (en) 2018-04-17

Similar Documents

Publication Publication Date Title
EP2598993B1 (en) Providing application high availability in highly-available virtual machine environments
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US20120137289A1 (en) Protecting high priority workloads in a virtualized datacenter
US10333859B2 (en) Multi-tenant resource coordination method
US9317381B2 (en) Storage system and data management method
WO2014073045A1 (ja) 計算機システム、ストレージ管理計算機及びストレージ管理方法
US8392736B2 (en) Managing memory power usage
US20120131180A1 (en) Server system and method for managing the same
CN109358947B (zh) 一种虚拟机快照的实现方法及系统
JP2009252204A (ja) 計算機の運用管理システム及び運用管理方法
JP4618263B2 (ja) ソフトウェア挙動監視装置及びソフトウェア挙動監視システム
JP2014186652A (ja) データ転送装置、データ転送システム、データ転送方法及びプログラム
WO2014073046A1 (ja) 情報処理装置、プログラムおよび仮想マシン移動方法
US20180139100A1 (en) Storage-aware dynamic placement of virtual machines
JP2008257572A (ja) 論理区画に動的に資源割り当てを行うストレージシステム及びストレージシステムの論理分割方法
KR102513961B1 (ko) 멀티 운영시스템을 지닌 전자장치 및 이의 동적 메모리 관리 방법
KR20130019698A (ko) 사용자 스케줄러와 마이그레이션(Migration)을 통한 자원 최적화 방법 및 시스템
KR20160094434A (ko) 다중-운영-체제 환경들에서 운영 체제 전환들을 위한 기술들
JP2008217575A (ja) ストレージ装置及びその構成最適化方法
US9910709B2 (en) Allocation control method and apparatus
JP6540072B2 (ja) 管理装置、情報処理システム及び管理プログラム
US20180136958A1 (en) Storage-aware dynamic placement of virtual machines
US10002173B1 (en) System and methods for dynamically adjusting between asynchronous and synchronous data replication policies in a networked virtualization environment
US10095533B1 (en) Method and apparatus for monitoring and automatically reserving computer resources for operating an application within a computer environment
JP2012216008A (ja) 仮想計算機装置及び仮想計算機装置の制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R150 Certificate of patent or registration of utility model

Ref document number: 6540072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150