JP2013161305A - リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム - Google Patents

リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム Download PDF

Info

Publication number
JP2013161305A
JP2013161305A JP2012023503A JP2012023503A JP2013161305A JP 2013161305 A JP2013161305 A JP 2013161305A JP 2012023503 A JP2012023503 A JP 2012023503A JP 2012023503 A JP2012023503 A JP 2012023503A JP 2013161305 A JP2013161305 A JP 2013161305A
Authority
JP
Japan
Prior art keywords
resource
resources
information
service
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012023503A
Other languages
English (en)
Other versions
JP5508449B2 (ja
Inventor
Hiroshi Ko
博 胡
Kunio Namito
邦夫 波戸
Junichi Murayama
純一 村山
Yuichi Murata
祐一 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012023503A priority Critical patent/JP5508449B2/ja
Publication of JP2013161305A publication Critical patent/JP2013161305A/ja
Application granted granted Critical
Publication of JP5508449B2 publication Critical patent/JP5508449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】複数リソースを利用するサービスにおいて、異常リソースを適切に特定する。
【解決手段】連携してサービスを提供する複数のリソース各々に関する複数の情報を異なる管理装置から取得し、取得した複数の情報間の相関関係と所定の相関関係との差が、許容値よりも大きくなったリソースを異常リソース候補として抽出し、前記サービスにおける複数のリソースの構成を示す構成情報に基づいて、前記異常リソース候補の中から、前記異常リソース候補に異常を発生させる原因となったリソースである異常原因リソースを特定する。
【選択図】図1

Description

本発明は、リソース監視サーバ、リソース監視システム、リソース監視方法およびリソース監視プログラムに関する。
近年、インタークラウドシステムが注目されている。インタークラウドシステムは、複数のクラウドシステムのリソースをシステム縦断的に利用可能とする技術である。インタークラウドシステムにおいては、複数の別個のクラウドを相互に連携させて、各クラウドが管理するリソースを、一つのシステムのリソースであるかのように、ユーザに提供する。
インタークラウドシステムにおいては、ユーザは、提供元が異なるリソースを組み合わせて利用する。例えば、事業者Aが提供するクラウドのネットワークリソースと事業者Bが提供するクラウドのサーバリソースとを組み合わせて利用する。また、事業者は仮想化技術を適用して、物理的リソースを複数の論理的リソースに分割して、ユーザに提供することがある。この場合、複数のユーザが、実際には同一の物理的リソースを共用することになる。このように提供元が異なる複数リソースを組み合わせて利用するユーザは、それらのリソースを利用して、エンドユーザにアプリケーションサービス等のサービスを提供することもある。かかるインタークラウドシステムにおけるリソースの適切な管理のために、様々な手法が提案されている。
例えば、インタークラウドにおいて、各テナントユーザに複数のクラウドのリソースを適正に割り当てるためのアルゴリズムが提案されている。また、システムを適正に運用するために、時間的相関性のない変更イベントと故障とを相関付けて、システムにおいて発生した故障の根本原因を特定する技術が提案されている。さらに、ログを分析することで分散型システム内の構成要素間の依存関係を抽出する技術が開示されている。
胡博、波戸邦夫、村田祐一、村山純一著、「インタークラウド環境におけるリソース割当アルゴリズムの提案」、信学技報、電子情報通信学会技術研究報告、110(449)、157−162、2011−02−24、社団法人電子情報通信学会 Manoj K. Agarwal, Venkateswara R. Madduri, "Correlating Failures with Asynchronous Changes for Root Cause Analysis in Enterprise Environments", pp. 517-526, 2010 IEEE/IFIP International Conference on Dependable Systems & Networks (DSN), 2010 Jian-Guang Lou, Qiang Fu, Yi Wang, Jiang Li, "Mining Dependency in Distributed Systems Through Unstructured Logs Analysis", the 2nd Workshop on Analysis of System Logs, pp. 91-96, Oct. 2010
しかしながら、インタークラウドにおいては、各クラウドは異なる事業者によって管理され、リソースの管理も異なるポリシに基づいて行われる。そのため、いずれかのクラウドのリソースに異常が発生しても、インタークラウド全体を管理する装置には、通知が送られず、異常発生箇所を特定できない場合がある。
例えば、ユーザが利用しているサービスが、事業者Aが管理するクラウドシステムが提供するリソースを利用したアプリケーションと、事業者Bが管理するクラウドシステムが提供するリソースを利用したデータベースとによって提供されているとする。この場合、事業者Aと事業者Bとは、それぞれ異なるポリシに基づいて、不具合発生時の警告等の通知を、インタークラウドを管理する装置に送信する。しかし、各事業者が他の事業者に対しては非開示としている不具合が発生した場合には、通知は送られない。そのため、インタークラウドを管理する装置は、システムに性能劣化等の不具合が発生しても、不具合の原因となった箇所を特定することができないことがある。そのため、不具合の原因の特定や問題箇所の把握が遅れることになる。
開示の実施の形態は、上記に鑑みてなされたものであって、故障箇所を適正に特定することを可能にすることを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、連携してサービスを提供する複数のリソース各々に関する複数の情報を異なる管理装置から取得し、取得した複数の情報間の相関関係と所定の相関関係との差が、許容値よりも大きくなったリソースを異常リソース候補として抽出し、前記サービスにおける複数のリソースの構成を示す構成情報に基づいて、前記異常リソース候補の中から、前記異常リソース候補に異常を発生させる原因となったリソースである異常原因リソースを特定することを特徴とする。
開示するリソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラムは、故障箇所を適正に特定することを可能にするという効果を奏する。
図1は、実施例1に係るリソース監視システムの構成の一例を示す図である。 図2−1は、実施例1に係る構成情報の構造の一例を示す図である。 図2−2は、実施例1に係る構成情報を説明するための図である。 図3は、実施例1における異常リソース候補の抽出処理の流れの一例を示すフローチャートである。 図4は、実施例1における異常原因リソースの特定処理の流れの一例を示すフローチャートである。 図5は、実施例2に係るインタークラウドサーバの構成の一例を示す図である。 図6は、実施例2に係るインタークラウドシステムにおける、リソースとサービスとの関係の一例を示す図である。 図7は、実施例2に係る管理装置と、サーバ管理装置と、リソースと、サービスとの関係の一例を示す図である。 図8は、実施例2に係る相関関係記憶部に格納される情報の一例を示す図である。 図9は、実施例2に係る構成情報の一例を示す図である。 図10は、実施例2に係る異常リソース候補リストの一例を示す図である。 図11−1は、実施例2に係る管理装置から送信される情報の構成の一例を示す図である。 図11−2は、実施例2に係る管理装置から送信される情報の構成の一例を示す図である。 図12−1は、実施例2に係るサービス管理装置から送信される情報について説明するための図である。 図12−2は、実施例2に係るサービス管理装置から送信される情報の構成の一例を示す図である。 図13は、実施例2に係るインタークラウドサーバにおける異常リソース検出処理の流れの一例を示す図である。 図14は、実施例2に係る相関関係算出処理の流れの一例を示す図である。 図15は、実施例2に係る異常リソース候補抽出処理の流れの一例を示すフローチャートである。 図16は、実施例2に係る自己相関関数を示す一次近似曲線と許容誤差の一例を示す図である。 図17は、実施例2に係る異常原因リソース特定処理の流れの一例を示す図である。 図18は、実施例2に係る異常原因リソース特定処理を説明するための図である。 図19は、実施例2の変形例1を示す図である。 図20は、実施例3に係るインタークラウドサーバの概略図である。 図21は、実施例3に係る異常リソース検出処理の流れの一例を説明するための図である。 図22は、インタークラウドサーバによる一連の処理を実行するプログラムであるリソース監視プログラムによる情報処理が、コンピュータを用いて具体的に実現されることを示す図である。
以下に、本発明に係るリソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
[実施例1に係るリソース監視システムの構成]
図1は、実施例1に係るリソース監視システムの構成の一例を示す図である。実施例1に係るリソース監視システムは、リソース監視装置と、複数の管理装置と、複数のリソースにより実現される。図1中、リソース監視装置1は、複数の管理装置2−1〜2−7と接続される。複数の管理装置2−1〜2−7のうち、管理装置2−1〜2−5は、それぞれリソース3−1〜3−5と接続される。また、管理装置2−6〜2−7は、リソース3−1〜3−5のうち、複数のリソースと接続される。図1中、管理装置2−6は、リソース3−4および3−5と接続され、管理装置2−7は、リソース3−1〜3−3と接続される。管理装置2−1〜2−5は、それぞれが接続されたリソースを管理する。例えば、管理装置2−1〜2−5は、それぞれが接続されたリソース3−1〜3−5が実行する処理に関する情報を検出する。管理装置2−6および2−7は、それぞれが接続されたリソース3−4〜3−5、3−1〜3−3によって提供されているサービスを管理する。例えば、管理装置2−6および2−7は、それぞれが接続されたリソース3−4〜3−5、3−1〜3−3によって提供されているサービスの処理に関する情報を検出する。
実施例1のリソース監視装置1は、例えば、インタークラウドサーバである。また、実施例1の管理装置2−1〜2−5は、例えば、リソースを提供する事業者、例えばCSP(Cloud Service Provider)事業者がリソースを管理するために使用する管理装置、例えば、データセンタオペレーションシステム(DC-OPS)等である。また、実施例1の管理装置2−6、2‐7は、例えば、サービスを提供するASP(Application Service Provider)事業者がサービス管理のために使用するサービスプロバイダオペレーションシステム(SP-OPS)等である。また、実施例1のリソースは、例えば、網リソース、計算リソース、記憶リソース等である。なお、図1には、7つの管理装置と5つのリソースを示すが、リソース監視装置に接続される管理装置の数および当該管理装置が管理するリソースの数は、図示される数に限定されるものではない。
リソース監視装置1は、制御部11と記憶部12とを備える。制御部11は、リソース監視装置1において実行される、以下に説明する処理を制御する。記憶部12は、リソース監視装置1における処理に使用される情報および処理の結果生成される情報を記憶する。例えば、記憶部12は、所定の相関関係および構成情報を各リソースに対応づけて記憶する。
リソース監視装置1は、各リソースに関する複数の情報を、リソースを管理する複数の管理装置2−1〜2−7から取得する。例えば、リソース監視装置1は、管理装置2−1からリソース3−1の情報を取得する。また、リソース監視装置1は、管理装置2−7からリソース3−1〜3−3の情報を取得する。そして、リソース監視装置1は、リソース3−1に対応付けて記憶部12に格納した相関関係と、リソース3−1について取得した2つの情報とを照合する。取得した2つの情報間の相関関係と記憶部に格納した相関関係との差が、許容値を上回る場合、リソース監視装置1は、リソース3−1を異常が発生した可能性のある異常リソース候補として抽出する。ここで、異常リソース候補とは、異常、例えば物理的インタフェースの破損等の故障が生じている可能性のあるリソースとして抽出されるリソースである。また、実施例1では、相関関係は特に限定されず、リソースに関する複数の情報間の相関関係であればよいものとする。
リソース監視装置1は、さらに、リソース3−2の情報を管理装置2−2から取得する。また、リソース監視装置1は、管理装置2−7からリソース3−1〜3−3の情報を取得する。そして、リソース監視装置1は、リソース3−2に対応付けて記憶部12に格納した相関関係と、リソース3−2について取得した2つの情報とを照合する。取得した2つの情報間の相関関係と記憶部に格納した相関関係との差が、許容値を上回る場合、リソース監視装置1は、リソース3−2を異常が発生した可能性のある異常リソース候補として抽出する。
上記処理を各リソースについて行い、一つのサービスに利用されている複数のリソースが異常リソース候補として抽出された場合、リソース監視装置1は、さらに、複数の異常リソース候補から異常原因リソースを特定する。異常原因リソースとは、複数のリソースが異常リソース候補として抽出された場合に、それらすべてのリソースに異常を発生させている原因と考えられるリソースである。
ここでは、リソース3−1とリソース3−2とが異常リソース候補として抽出されたとする。すると、リソース監視装置1は、まず、リソース3−1、3−2、3−3によって構成されているサービスの構成情報を記憶部12から読み出す。
ここで、構成情報とは、リソース間の依存関係を示す情報である。例えば、構成情報は、一つのサービスを提供するためにリソースがどのように構成されているかを示す情報である。例えば、リソース3−1がユーザからのリクエストを受信するサーバであり、リソース3−2がリソース3−1であるサーバからのリクエストを転送するネットワークであり、リソース3−3が、転送されたリクエストを受信してデータを処理するサーバである場合を考える。この場合、リソース3−1とリソース3−2との間に接続関係が存在し、さらにリソース3−2とリソース3−3との間に接続関係が存在する。構成情報は、かかる接続関係を示す。また、上記の場合、リソース3−1〜3−3の間には一つのリクエストに対応して順次処理を行っていくという、順番関係がある。構成情報は、かかる処理順序を示すものであってもよい。
[構成情報の構造の一例]
図2−1を参照して、構成情報の構造の一例を示す。図2−1は、実施例1に係る構成情報の構造の一例を示す図である。図2−1中、構成情報は、各サービスを一意に識別するためのサービスID(Identifier)と、当該サービスにおいて利用されるリソース間の処理順序、接続関係等と、を対応づけることで構成されている。例えば、図2−1中、サービスID「0001」に、処理順序「Web1−AP1−DB1」「Web1−AP1−DB2」「Web2−AP2−DB2」が対応付けられている。この構成情報は、サービス「0001」においては、リソースID「Web1」のウェブと、リソースID「AP1」のアプリケーションと、リソースID「DB1」のデータベースとが、この順番に接続されて処理を行っていることを示す。例えば、図2−1のサービスID「0001」のサービスにおけるリソース構成は、図2−2のようになる。
リソース監視装置1は、読み出した構成情報を参照して、リソース3−1と3−2とが接続関係を有しているか否かを判定する。すなわち、当該サービスのユーザがリクエストを入力し、リクエストに応じてリソース3−1および3−2の一方が処理を行った後に、さらにリソース3−1および3−2の他方が処理を行う、という関係が存在するか否かを判定する。リソース3−1および3−2の間に接続関係がなければ、リソース監視装置1は、リソース3−1と3−2の双方を異常原因リソースとして特定する。他方、両者間に接続関係があれば、当該サービスのユーザからのリクエストの処理順序が後のリソースを異常原因リソースとして特定する。
例えば、図2−1に示すサービス「0001」の場合に、リソース「AP1」とリソース「DB1」とが異常リソース候補として抽出されたとする。この場合、リソース監視装置1は、構成情報を参照して、リソース「AP1」とリソース「DB1」との間に接続関係があるか否かを判定した上で、処理順序が後であるリソース「DB1」を異常原因リソースとして特定する。
[実施例1における異常リソース候補抽出処理の概要]
図3を参照し、実施例1のリソース監視装置1における異常リソース候補を抽出する処理の流れを説明する。図3は、実施例1における異常リソース候補の抽出処理の流れの一例を示すフローチャートである。
まず、リソース監視装置1は、一つのリソースR[n](n=k、kは1以上の自然数)を選択する(ステップS31)。そして、リソース監視装置1は、リソースR[n]について複数の情報x[n],y[n]を複数の管理装置から受信する(ステップS32)。リソース監視装置1は、受信した情報x[n]と情報y[n]との相関関係と、記憶部12にリソースR[n]に対応付けて格納された所定の相関関係とを比較する(ステップS33)。そして、リソース監視装置1は、比較の結果、情報x[n]と情報y[n]との相関関係と所定の相関関係との差が、許容値以下であるか否かを判定する(ステップS34)。情報x[n]と情報y[n]との相関関係と所定の相関関係との差が、許容値以下である場合(ステップS34、否定)、リソース監視装置1は、全てのリソースについて処理を行ったか否かを判定する(ステップS35)。全てのリソースについて処理を終えていれば(ステップS35、肯定)、処理を終了する。全てのリソースについて処理を終えていなければ(ステップS35、否定)、次のリソースを選択し(n=k+1)(ステップS36)、ステップS32に戻る。情報x[n]と情報y[n]との相関関係と所定の相関関係との差が、許容値より大きい場合(ステップS34、肯定)、リソース監視装置1は、リソースR[n]を異常リソース候補として抽出する(ステップS37)。抽出された異常リソース候補のリソースIDは、記憶部12に格納する。そして、リソース監視装置1は、全てのリソースを処理したか否かを判定する(ステップS38)。全てのリソースを処理したと判定した場合(ステップS38、肯定)、リソース監視装置1は、処理を終了する。全てのリソースの処理を終えていないと判定した場合(ステップS38、否定)、リソース監視装置1は、ステップS36に戻って、次のリソースを選択する(ステップS36)。
次に、図4を参照して、実施例1における異常原因リソースを特定する処理の流れの一例を説明する。図4は、実施例1における異常原因リソースの特定処理の流れの一例を示すフローチャートである。リソース監視装置1は、まず、記憶部12を参照して、一つのサービスについて、複数の異常リソース候補が抽出されたか否かを判定する(ステップS41)。複数の異常リソース候補が抽出されていないと判定した場合(ステップS41、否定)、リソース監視装置1は、一つの異常リソース候補が抽出されたか否かを判定する(ステップS44)。一つの異常リソース候補が抽出されていると判定すれば(ステップS44、肯定)、当該異常リソース候補を異常原因リソースであると特定する(ステップS45)。そして処理を終了する。他方、一つの異常リソース候補も抽出されていないと判定すれば(ステップS44、否定)、そのまま処理を終了する。
他方、複数の異常リソース候補が抽出されていると判定すると(ステップS41、肯定)、リソース監視装置1は、当該サービスに対応づけて記憶部12に格納された構成情報を参照する(ステップS42)。そして、リソース監視装置1は、構成情報において、処理順序が最も後の異常リソース候補を異常原因リソースとして特定し(ステップS43)、処理を終了する。
[実施例1のリソース監視装置の効果]
上記のように、実施例1のリソース監視装置は、複数の管理装置から各リソースについての情報を受信し、情報間の相関関係を予め準備した所定の相関関係と比較し、両者の差が許容値より大きければ、当該リソースを異常リソース候補として抽出する。このため、一つの管理装置からの情報に基づいて、リソースにおける異常発生の有無を判定することができない場合であっても、異常が発生した可能性のあるリソースを適正に抽出することができる。このため、リソース管理において、故障箇所を適正に特定し、故障に迅速に対応することが可能になるという効果を奏する。また、実施例1のリソース監視装置によれば、複数の事業者からリソースの情報を取得している場合に、一つの事業者において非開示としている不具合が発生しても、複数の管理装置からの情報に基づいて、故障箇所を適正に特定することができるという効果を奏する。
また、実施例1のリソース監視装置は、さらに、一つのサービスについて複数の異常リソース候補が抽出された場合は、サービスの構成情報を参照して、異常原因リソースを特定する。このため、多数の異常リソース候補が抽出された場合であっても、複数のリソースにおいて異常を発生させる原因となっている異常原因リソースを適正に特定することができる。このため、リソース管理において、故障箇所を適正に特定し、故障に迅速に対応することが可能になるという効果を奏する。
なお、実施例1においては、管理装置2−1〜2−5がそれぞれ一つのリソースを管理し、管理装置2−6、2−7が複数リソースにより構成されるサービスを管理するものとして説明した。しかし、実施例1は、この例に限定されず、管理装置によって、一つのリソースについて複数の情報が検出されるシステムであれば、適用することができる。例えば、複数の管理装置がそれぞれ、サービスやリソース等からなる異なるレイヤーにおいてリソースを管理し情報を検出してもよい。また、一つの管理装置が、異なるレイヤーにおけるリソースの情報を複数検出してもよい。
図5は、実施例2に係るインタークラウドサーバの構成の一例を示す図である。図5に示すインタークラウドサーバ100は、複数のクラウドシステムを連携させることによって実現されるインタークラウドシステムを管理する。例えば、インタークラウドサーバ100は、インタークラウドシステムにより提供されるリソースを利用したサービスに不具合が生じた場合に、異常の発生したリソースを検出し、異常原因リソースを特定する。
実施例2では、インタークラウドサーバ100が、SaaS(Software as a Service)、PaaS(Platform as a Service)、Haas(Hardware as a Service)、IaaS(Infrastructure as a Service)等の利用形態によって複数事業者からユーザに提供されるリソースの異常を検出し、異常原因リソースを特定することを想定している。ただし、本実施例は、これらの利用形態に限られず、異なる事業者が提供するリソースを組み合わせてユーザが利用するシステムにおいて、各事業者から何らかの理由で性能劣化情報を取得できない場合に適用することができる。また、リソースを提供する各事業者がリソースの提供のために利用する技術は特に限定されない。各事業者は、例えば、仮想化技術を利用してリソースを提供してもよいし、グリッドコンピューティング等を利用してもよい。
図5中、インタークラウドサーバ100は、複数の管理装置200と、サービス管理装置300と接続される。インタークラウドサーバ100は、管理装置200に対して、当該管理装置200が管理するリソースの情報を要求する通知を送信する。例えば、インタークラウドサーバ100は、管理装置200に対して、所定時点でのリソースの処理性能に関する性能情報を要求する通知を送信する。そして、管理装置200は通知に応じて情報をインタークラウドサーバ100に送信する。
インタークラウドサーバ100は、同様に、サービス管理装置300に対して、当該サービス管理装置300が管理するサービスに関する情報を要求する通知を送信する。例えば、インタークラウドサーバ100は、サービスにおいてリソースにかかる負荷の情報や、リソースによる処理の状況に関する情報を要求する。そして、インタークラウドサーバ100は、当該サービス管理装置300が要求に応じて送信する情報を受信する。
インタークラウドサーバ100は、継続的に、管理装置200およびサービス管理装置300から送信される情報を受信し、複数の情報間の相関関係の変動を検出する。そして、情報間の相関関係と予め定められた所定の相関関係との差が、許容値よりも大きくなるとその情報に対応するリソース400を異常リソース候補として抽出する。さらに、単一のサービスに利用されるリソース400のうち、複数のリソース400が異常リソース候補として抽出された場合、異常リソース候補の中から異常原因リソースを特定する。異常リソース候補の抽出処理および異常原因リソースの特定処理の詳細については、後述する。
管理装置200は、インタークラウドサーバ100及びリソース400と接続される。管理装置200は、リソース400を管理する。管理装置200は、インタークラウドサーバ100からの通知に応じて、リソース400の情報を検出し、インタークラウドサーバ100に送信する。例えば、管理装置200は、リソース400の処理状況に関する情報を検出する。例えば、管理装置200は、リソース400のCPU(Central Processing Unit)使用率やメモリ使用率、レスポンスタイム等を検出する。
なお、一つのリソース400を一つの管理装置200が管理してもよく、複数のリソース400をまとめて一つの管理装置200が管理してもよい。通常、クラウドを提供する事業者ごとに異なる管理装置200が設けられる。ただし、1事業者が提供するクラウド内のリソースについて、異なる種類のリソースごとに異なる管理装置200を設けてもよい。例えば、ネットワークのリソースを管理する管理装置200と、サーバのリソースを管理する管理装置200とを設けてもよい。また、ひとつのデータセンタを一つの管理装置200が管理するものとしてもよい。また、複数事業者が提供するクラウドを単一の管理装置200が管理するものとしてもよい。また、異なるクラウドシステムのリソースを異なる管理装置200が管理するものとしてもよく、異なるクラウドシステムのリソースを一つの管理装置200がまとめて管理するものとしてもよい。図5では、異なる事業者が提供するリソースごとに一つの管理装置200を設けるものとする。
サービス管理装置300は、インタークラウドサーバ100およびリソース400と接続される。サービス管理装置300は、所定のサービスを提供するユーザに割り当てられたリソース400から構成されるサービスを管理する。例えば、リソース400の中から所定のユーザに対して割り当てられたリソースによってデータベース(DB)やアプリケーション(AP)を含むサービスが構成される。サービス管理装置300は、このようにして構成されたサービスの情報を検出する。そして、サービス管理装置300は、検出した情報をインタークラウドサーバ100に送信する。例えば、サービス管理装置300は、インタークラウドサーバ100からの通知に応じて、サービスにおいて各リソースにかかる負荷の情報を検出する。例えば、サービス管理装置300は、各リソースが受信した1秒当たりのリクエストの数や1秒あたりのクエリの数等や、各リソースが転送した1秒当たりのリクエストの数や1秒あたりのクエリの数等を検出する。
リソース400は、インタークラウドシステムにおいて利用される資源である。例えば、計算リソース、記憶リソース、網リソース等がリソースに該当する。例えば、計算リソースとしては、仮想マシン(Virtual Machine)、サーバ、CPU(Central Processing Unit)、メモリ、ディスク等が挙げられる。また、記憶リソースとしては、ストレージ装置等が挙げられる。さらに網リソースとしては、ネットワーク、ローカルエリアネットワーク(LAN:Local Area Network)、広域ネットワーク(WAN:Wide Area Network)、光ファイバー、光パス、IPネットワーク、イーサネット(登録商標)、トンネルネットワーク等が挙げられる。
リソース400は、ユーザからの割当要求に応じて、割当要求を送信したユーザに割当られ、所定のサービスを提供するよう構成される。サービスは、リソース400の中からユーザに割り当てられたリソースを、データベース(DB)、アプリケーション(AP)、ウェブ(WEB)等として構成することで実現される(図6参照)。サービスは、エンドユーザ側からは独立したシステムと認識されるが、実際には複数のクラウドが提供するリソース400によって構築されている。
図6を参照して、リソースとサービスとの関係についてさらに説明する。図6は、実施例2に係るインタークラウドシステムにおける、リソースとサービスとの関係の一例を示す図である。図6中、リソース400によって構成されるシステムをクラウドリソース層として示す。また、リソース400の中からサービスのために割り当てられたリソースを利用して構築されるシステムをサービス層として示す。図6中、クラウドリソース層は、異なる事業者が運営するデータセンタDC1、DC2、DC3をネットワークNWによって接続することで構成されている。これらのリソースは、ユーザからの要求に応じてユーザが提供するサービスに適合するよう組み合わされ、サービスを構成する。例えば、図6のサービス層は、データベースDB1,DB2とアプリケーションAP1,AP2とウェブWEB1,WEB2とから構成されている。データベースDB1,DB2はそれぞれ、データセンタDC1の物理マシン上に仮想的に構築される仮想マシンVM1,VM2によって実現されている。また、アプリケーションAP1,AP2は、データセンタDC2内のリソースによって実現され、WEB1,WEB2は、データセンタDC3内のリソースによって実現されている。また、AP1とWEB1とを接続するネットワークは、ネットワークNWによって実現されている。サービスを利用するエンドユーザは、サービス層を独立したシステムとして認識するが、実際にはクラウドリソース層内の複数の事業者が提供するリソースを組み合わせることで実現されている。
図7を参照し、実施例2における管理装置200と、サーバ管理装置300と、リソース400と、サービスとの関係をさらに詳しく説明する。図7は、実施例2に係る管理装置200と、サーバ管理装置300と、リソース400と、サービスとの関係の一例を示す図である。図7においては、インタークラウドサーバ100は、複数のクラウドシステムのリソースを管理する6つの管理装置200−1〜200−6と接続される。管理装置200−1〜200−3はそれぞれ、リソースとしてサーバ401−1〜401−3、サーバ401−4〜401−6、サーバ401−7〜401−9を管理する。また、管理装置200−4〜200−6はそれぞれ、リソースとしてネットワーク402−1、402−2、402−3を管理する。
ユーザ端末500−1〜500−3は、それぞれが利用するサービスを構成するリソースと接続される。例えば、ユーザ端末500−1は、管理装置200−4が管理するネットワーク402−1を介して管理装置200−3が管理するサーバ401−7と接続される。ユーザ端末500−2は、管理装置200−5が管理するネットワーク402−2を介して、管理装置200−2が管理するサーバ401−5および管理装置200−3が管理するサーバ401−9と接続される。ユーザ端末500−3は、管理装置200−6が管理するネットワーク402−3を介して、管理装置200−1が管理するサーバ401−1および管理装置200−2が管理するサーバ401−6と接続される。
図7において、ユーザ端末500−1〜500−3それぞれが利用するサービスは、異なる事業者、例えば、ASP(Application Service Provider)事業者によって提供されているものとする。
図7中、インタークラウドサーバ100はまた、サービス管理装置300−1〜300−3と接続される。サービス管理装置300−1〜300−3はそれぞれ、異なるASP事業者により管理されているものとする。サービス管理装置300−1は、ユーザ端末500−1が利用するサービスを管理する。つまり、サービス管理装置300−1は、ネットワーク402−1と、サーバ401−7によって実現されるサービスの性能、例えば、処理速度を検出する。同様に、サービス管理装置300−2は、ネットワーク402−2、サーバ401−5、サーバ401−9によって実現されるサービスの性能を検出する。また、同様に、サービス管理装置300−3は、ネットワーク402−3、サーバ401−1、サーバ401−6によって実現されるサービスの性能を検出する。
このように、管理装置200は、リソース層における各リソースの状態を検出し、検出した情報をインタークラウドサーバ100に送信する。また、サービス管理装置300は、サービス層における各リソースの状態を検出し、検出した情報をインタークラウドサーバ100に送信する。これによって、インタークラウドサーバ100は、一つのリソースを異なる側面からみた複数の情報を取得することができる。
[実施例2に係るインタークラウドサーバの構成]
図5に戻って、インタークラウドサーバ100の構成につきさらに詳細に説明する。インタークラウドサーバ100は、通信部101、記憶部110及び制御部120を備える。通信部101は、インタークラウドサーバ100と、その外部の装置との通信を行う。図5中、通信部101は、管理装置200とサービス管理装置300とからの情報を受信し、インタークラウドサーバ100内の機能部から出力される情報を、管理装置200およびサービス管理装置300に送信する。記憶部110は、インタークラウドサーバ100内での処理に利用される情報や処理の結果生成された情報を記憶する。例えば、記憶部110は、異常リソース候補として抽出されたリソースのリソースIDや、異常原因リソースの特定のために使用される構成情報を記憶する。制御部120は、インタークラウドサーバ100内で実行される各種処理を制御する。例えば、制御部120は、インタークラウドサーバ100内の異常リソース候補の検出および異常原因リソースの特定のための処理を制御する。記憶部110および制御部120における処理の詳細については、以下にさらに詳細に説明する。
[実施例2に係る記憶部の構成]
記憶部110は、インタークラウドサーバ100内での異常リソース候補の検出や異常原因リソースの特定のための処理に使用する情報を記憶する。記憶部110は、相関関係記憶部111と構成情報記憶部112と異常リソース候補記憶部113とを備える。相関関係記憶部111は、リソースが正常であるか否かを判定するための基準値として、正常時のリソース400に関する複数の情報間の相関関係を格納する。構成情報記憶部112は、各サービスにおいて利用する複数リソース間の関係を示す構成情報を格納する。異常リソース候補記憶部113は、後述する抽出部123が抽出した異常リソース候補を示す異常リソース候補リストを格納する。
[相関関係の概要]
相関関係は、正常時の各リソース400について、管理装置200やサービス管理装置300から送信される複数情報間の関係を示す情報である。例えば、管理装置200が検出した、リソースにおけるCPU使用率と、サービス管理装置300が検出した、当該リソースに対する1秒当たりのリクエスト数との相関関係である。実施例2では、正常時のリソース400に関する各情報間の相関関係を予め算出して、相関関係記憶部111に記憶しておく。
図8を参照して、相関関係記憶部111に格納される相関関係について説明する。図8は、実施例2に係る相関関係記憶部111に格納される情報の一例を示す図である。図8に示すように、相関関係記憶部111は、各リソースを一意に識別するリソースIDと当該リソースを利用するサービスのサービスIDとに対応付けて、相関関係として、リソースに関する情報間の自己相関関数と許容誤差の値とを格納する。また、リソースIDとサービスIDとに対応づけて正常時のリソースに関する情報を格納する。ここで、正常時とは、例えば、リソースの性能がサービスにおいて要求される所定の性能基準に達している時をいう。例えば、図8の例では、リソースID「NW#1」のリソースに対応づけて、サービスID「0001」が格納されている。さらに、相関関係として、リソースのCPU使用率と1秒あたりのリクエスト数との自己相関関数「y=2x+0.5」、許容誤差「0.1%」が格納されている。さらに、リソースに関する情報として、CPU使用率が「ynw[1][1]=50%」として格納されている。また、1秒あたりのリクエスト数が「xvm[1][1]=6」として記憶されている。ここで、「ynw[i][k]」中、[i]はリソースIDであり、[k]はデータの番号である。また、「ynw」は、ネットワークのリソースの使用率を示す。つまり、「ynw[1][1]=50%」は、リソースID「1」のネットワークリソースの使用率を示す情報のうち、1番目のデータが「50%」であることを示す。また、「xvm[i][k]」中、[i]はリソースIDであり、[k]はデータの番号であり、「xvm」は、仮想マシンリソースのリクエスト数/秒を示す。つまり、「xvm[1][1]=6」は、リソースID「1」の仮想マシンリソースのリクエスト数/秒を示す情報のうち、1番目のデータが「6」であることを示す。なお、リソースに関する情報についてはさらに後述する(図11−1、11−2、12−1、12−2を参照)。
[構成情報の概要]
次に、図9を参照し、構成情報について説明する。図9は、構成情報の一例を示す図である。構成情報は、それぞれのサービスの提供において利用されるリソース間の関係を表す情報である。例えば、リソースがどのように接続されているか、という接続関係を示す。また、リソース間で処理がどのような順序で行われるか、という処理順序を示す。また、各リソースで行われる処理がどのように相互に依存しているか、という依存関係を示す。例えば、リソースXがリクエストを発行し、リソースYがリクエストを転送し、リソースZがリクエストを受信して処理する等の関係を示す。構成情報は、例えばリソーストポロジとして構成情報記憶部112に格納される。
図9に示すように、リソーストポロジは、「Connection」と「point」によって示される。「Connection」はネットワークを表わし、「point」はサーバを表わしている。「Connection」は、ネットワークのリソースIDによって示され、「point」はサーバのリソースIDによって示される。「point」に付された番号は、処理の順序を表わしており、「point1」のリソースから転送・送信された情報が「point2」のリソースによって受信され処理されることを示す。例えば、図9に示す「Connection List」中、一行目の「Connection =”NW#1” point1=”client#1” point2=”LB1” /」は、ネットワークが、リソースID「NW#1」で表わされるネットワークであり、そこに、リソースID「Client#1」で表わされるサーバが接続されており、当該サーバから転送されるリクエストが、リソースID「LB1」で表わされるサーバによって受信され処理されることを表わしている。
なお、ここでは、構成情報は、各サービスに対してリソースが割り当てられた時点で、構成情報記憶部112に格納されるものとする。例えば、インタークラウドサーバ100が、リソースの割当処理も行う場合は、割当処理の完了時に格納する。他の装置がリソースの割当処理を行う場合は、割当処理の完了後、インタークラウドサーバ100に送信する。なお、構成情報の取得タイミングはこれに限られるものではない。例えば、リソースの割当後、サービスの提供が開始した後に、適宜、インタークラウドサーバ100からサービス管理装置300やサービスを提供する事業者の端末等に要求を送信することで、インタークラウドサーバ100が構成情報を受信して構成情報記憶部112に格納するものとしてもよい。また、構成情報の構造は、図9に示すものに限られず、リソース間の接続関係や処理順序、依存関係を示すものであれば、その構造は特に限定されない。構成情報は、リソーストポロジ、サービス構成マップ等とも呼ぶ。
[異常リソース候補リストの概要]
図10を参照し、異常リソース候補リストについて説明する。図10は、実施例2に係る異常リソース候補リストの一例を示す図である。異常リソース候補リストは、各リソースを利用して構成されるサービスのサービスIDと、異常リソース候補であるリソースのリソースIDとを対応付ける。図10のリストにおいては、サービスID「0001」のサービスについて利用されているリソースID「#VM0001」のリソースとリソースID「#VM0002」のリソースとが異常リソース候補であることが示されている。
[実施例2に係る制御部の構成]
図5に戻って、インタークラウドサーバ100の制御部120の構成について説明する。制御部120は、受信部121と、算出部122と、抽出部123と、特定部124と、出力部125とを備える。受信部121は、管理装置200およびサービス管理装置300から送信される情報を、通信部101を介して受信する。例えば、受信部121は、管理装置200およびサービス管理装置300から送信される各リソースの情報を受信する。受信部121は、受信した情報を算出部122に送信する。
算出部122は、受信部121が受信した各リソースについての複数の情報を受け取り、複数の情報間の相関関係を算出する。例えば、算出部122は、管理装置200から送信されるリソース400のCPU使用率と、リソース管理装置300から送信される所定のサービスにおいてリソース400が受け取った1秒あたりのリクエスト数との相関関係を算出する。算出部122による算出処理の詳細については後述する。
なお、算出部122は、リソースを利用するユーザによるサービス提供開始後、所定の期間にわたって、当該サービスにおいて利用されるリソースの情報を受信して相関関係を算出し、算出した相関関係を相関関係記憶部111に格納するものとしてもよい。また、相関関係記憶部111に格納する相関関係は別途、リソースの性能やサービスにおいて要求される性能基準に基づいて算出してサービス提供開始前に予め相関関係記憶部111に格納するものとしてもよい。
抽出部123は、相関関係記憶部111にリソースに対応付けて格納された相関関係と、受信部121が受信した情報の相関関係との差を算出する。そして、抽出部123は、算出した差と許容値とを比較する。抽出部123は、比較結果に基づき、異常リソース候補を抽出する。例えば、抽出部123は、相関関係記憶部111に格納された相関関係と、算出した相関関係との差が、相関関係記憶部111に格納された許容値よりも大きい場合、当該情報に対応するリソースを異常リソース候補として抽出する。抽出した異常リソース候補は、当該リソースを利用するサービスのサービスIDに対応づけて、異常リソース候補記憶部113内に格納する。抽出部123による異常リソース候補抽出処理の詳細については後述する。
特定部124は、構成情報記憶部112に格納された構成情報と、抽出部123が抽出し、異常リソース候補記憶部113に格納された異常リソース候補リストとを照合し、異常原因リソースを特定する。例えば、特定部124は、サービスID「0001」で識別されるサービスに対応づけて構成情報記憶部112内に格納された構成情報を読み出す。そして、特定部124は、サービスID「0001」に対応づけて異常リソース候補記憶部113内に格納された異常リソース候補リストを読み出す。異常リソース候補リストに、複数の異常リソース候補が含まれている場合、特定部124は、構成情報を参照して、複数の異常リソース候補から異常原因リソースを特定する。例えば、構成情報として処理順序が示されている場合、異常リソース候補のうち、最も後に処理を行うリソースを、異常原因リソースとして特定する。特定部124の処理の詳細についても後述する。
出力部125は、特定部124が異常原因リソースとして特定したリソースを出力する。なお、図5には図示しないが、出力部125から出力された異常原因リソースは、通信部101を介して、インタークラウドサーバ100の管理者の端末等に送信される。
[リソースについての情報の構成]
ここで、図11−1、図11−2、図12−1、図12−2を参照し、管理装置200から送信される各リソースについての情報について説明する。図11−1は、実施例2に係る管理装置200から送信される情報の構成の一例を示す図である。例えば、管理装置200が管理するリソース400が仮想マシンであって、当該仮想マシンによってウェブ(WEB)やアプリケーション(AP)が構成される場合を考える。この場合、図11−1に示すように、リソースについての情報は、当該ウェブやアプリケーションのレスポンスタイム、当該ウェブやアプリケーションによるCPUの使用率、メモリ使用率等である。
また、例えば、管理装置200が管理するリソース400が仮想マシンであって、当該仮想マシンによってデータベース(DB)が構成される場合を考える。この場合、図11−1に示すように、リソースについての情報は、当該データベースのレスポンスタイム、CPU使用率、メモリ使用率等である。
また、例えば、管理装置200が管理するリソース400がネットワークである場合を考える。この場合、図11−1に示すように、リソースについての情報は、当該ネットワークの使用率等である。
なお、リソースについての情報は、所定期間にわたって継続的に管理装置200からインタークラウドサーバ100に送信されるため、一つのリソースについて複数の情報が蓄積される(図8参照)。したがって、適宜、図11−1に示す「ys[i][k]」、「yc[i][k]」、「ym[i][k]」、「ynw[i][k]」のように表される。例えば、「ys[i][k]」は、リソースID「i」のリソースについて、k番目に受信されたレスポンスタイムのデータである。また、「yc[i][k]」は、リソースID「i」のリソースについて、k番目に受信されたCPU使用率のデータである。また、「ym[i][k]」は、リソースID「i」のリソースについて、k番目に受信されたメモリ使用率のデータである。また、「ynw[i][k]」は、リソースID「i」のリソースについて、k番目に受信されたネットワーク使用率のデータである。
次に、図11−2を参照し、管理装置200から送信される情報の構成について説明する。図11−2は、実施例2に係る管理装置200から送信される情報の構成の一例を示す図である。図11−2に示すように、管理装置200は、当該リソースを利用するサービスのIDと、当該リソースのIDと、検出した情報、例えばCPU使用率と、当該CPU使用率を検出した日時とを送信する。図11−2の例では、送信される情報は、サービスID「0001」と、リソースID「#VM0003」と、CPU使用率「40%」と、タイムスタンプ「2012/0101/20:30」とを含む。
次に、図12−1を参照し、サービス管理装置300から送信される情報の一例につき説明する。図12−1は、実施例2に係るサービス管理装置300から送信される情報について説明するための図である。例えば、リソースが仮想マシンである場合を考える。この場合、当該リソースにより実現されるサービスにおける当該リソースの情報であって、サービス管理装置300が検出し送信する情報は、図12−1に示すように、ウェブ(WEB)やアプリケーション(AP)に対するリクエスト数/秒、データベース(DB)に対するクエリ数/秒等である。また、リソースがネットワークリソースである場合、当該リソースにより実現されるサービスにおける当該リソースの情報とは、図12−1に示すように、当該ネットワークを通じて送信される、当該ネットワークに接続されたウェブやアプリケーションのリクエスト数/秒、データベースのクエリ数/秒等である。
上述した管理装置200が送信する情報と同様、サービス管理装置300が送信する情報は、所定期間にわたって継続的にサービス管理装置300からインタークラウドサーバ100に送信される。このため、一つのリソースについて複数のデータが蓄積される(図8参照)。したがって、適宜、図12−1に示す「xvm[i][k]」のように表される。例えば、「xvm[i][k]」は、リソースID「i」のリソースについて、k番目に受信された1秒当たりのリクエスト数、または、1秒当たりのクエリ数である。
次に、図12−2を参照し、サービス管理装置300が送信する情報の構成について説明する。図12−2は、実施例2に係るサービス管理装置300から送信される情報の構成の一例を示す図である。図12−2に示すように、サービス管理装置300は、提供するサービスにおける各リソースの情報として、当該サービスのIDと、各リソースのIDと、リクエスト数/秒と、当該情報を検出した日時とを送信する。図12−2に示す例では、送信される情報は、サービスID「0002」と、リソースID「#VM0001」と、リクエスト数/秒「6」と、タイムスタンプ「2011/1225/00:30」と、を含む。
[実施例2における異常リソース検出処理の概要]
図13を参照し、実施例2に係るインタークラウドサーバ100における異常リソース検出処理の概要を説明する。図13は、実施例2に係るインタークラウドサーバ100における異常リソース検出処理の流れの一例を示す図である。まず、受信部121が、管理装置200およびサービス管理装置300から複数の情報を受信する(ステップS101)。次に、算出部122が、複数の情報間の相関関係を算出する(ステップS102)。そして、抽出部123が、相関関係記憶部111に格納された相関関係と、算出部122が算出した相関関係との比較に基づき、異常リソース候補を抽出する(ステップS103)。特定部124は、抽出部123が抽出した異常リソース候補と、構成情報記憶部112に格納された構成情報とを照合し、異常原因リソースを特定する(ステップS104)。
[相関関係記憶部に格納する相関関係の算出処理]
次に、図14を参照し、相関関係記憶部111に格納される相関関係の算出処理について説明する。図14は、実施例2に係る相関関係算出処理の流れの一例を示す図である。ここでは、受信部121が、正常時に管理装置200およびサービス管理装置300が送信した情報を受信し、受信した情報に基づき、算出部122が相関関係格納部111に格納する相関関係を算出するものとして説明する。
実施例2に係る相関関係算出処理においては、算出部122は、正常時に受信した複数の情報間の自己相関関数を算出する。さらに、算出部122は、算出した自己相関関数から逸脱しても正常値と判定する範囲を、許容値として設定する。
まず、算出部122は、受信部121から正常時のリソースに関する複数の情報を取得する(ステップS201)。例えば、受信部121は、管理装置200からリソース400のCPU使用率を受信する。また、受信部121は、サービス管理装置300からリソース400に対する1秒当たりのリクエスト数を受信する。そして、算出部122は、取得した情報を、検出日時に基づいて組み合わせて、n個のデータペア{y[i][k],x[i][k]}(式中「i」は、リソース番号を示す)を生成する(ステップS202)。
次に、算出部122は、生成したn個のデータペアを用いて、最小二乗法により、自己相関関数y[i]=f[i](x[i])を求める(ステップS203)。最小二乗法とは、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とするような係数を決定する方法である。具体的には、自己相関関数を一次関数とするため、取得したn個のデータペアを用いて、一次近似直線y=ax+bを算出する。式中のa及びbは、以下の式によって求める。
Figure 2013161305
Figure 2013161305
次に、算出部122は、データペアを構成する{y[i][k]}と{x[i][k]}とを用いて、算出した自己相関関数の値{f[i](x[i][k])}と、{y[i][k]}とから、二乗平均平方根rms[i]を算出する(ステップS204)。さらに、許容係数αを用いて、自己相関関数からの許容誤差の値βを、「β=rms[i]・α」として算出する(ステップS205)。
ステップS201乃至S205の処理を全てのリソースについて実行することで、各リソースについての自己相関関数と許容誤差の値とが算出される。算出した自己相関関数と許容誤差の値とは、リソースIDに対応づけて、記憶部110内の相関関係記憶部111に格納される(ステップS206)(図8参照)。
[抽出部による異常リソース候補抽出処理]
次に、図15を参照して、抽出部123による異常リソース候補抽出処理(図13、ステップS103)について説明する。図15は、異常リソース候補抽出処理の流れの一例を示すフローチャートである。抽出部123は複数の情報を取得すると(ステップS301)、情報に含まれるサービスID、リソースIDおよびタイムスタンプに基づき、データペア{y,x}を生成する(ステップS302)。そして、相関関係記憶部111に格納された当該リソースIDおよびサービスIDに対応づけられた自己相関関数と許容誤差の値とを読み出す(ステップS303)。次に、抽出部123は、読みだした自己相関関数fに、生成したデータペアの「x」を代入し、正常値として、f(x)を算出する(ステップS304)。そして、抽出部123は、データペアの「y」と算出したf(x)とを比較し、f(x)に許容値を加算した値よりも「y」が小さく、かつ、f(x)から許容値を減算した値よりも「y」が大きいか否かを判定する(ステップS305)。データペアの「y」がf(x)に許容値を加算した値よりも小さく、かつ、f(x)から許容値を減算した値よりも大きいと判定した場合(ステップS305、肯定)、抽出部123は、当該リソースを正常リソースであると判定する(ステップS306)。これに対し、データペアの「y」がf(x)に許容値を加算した値よりも大きいか、またはf(x)から許容値を減算した値よりも小さいと判定した場合(ステップS305、否定)、抽出部123は、当該リソースを異常リソース候補と判定する(ステップS307)。
抽出部123による自己相関関数と許容誤差を用いた判定を、図16を用いてさらに説明する。図16は、実施例2に係る自己相関関数を示す一次近似曲線と許容誤差の一例を示す図である。例えば、自己相関関数が図16の直線によって表わされているとする。また、自己相関関数からの許容誤差の範囲が図16の破線によって表わされているとする。この場合に、抽出部123がステップS302で生成したデータペア{x,y}が、白丸で示す位置に示される値であるとする。すると、白丸は、許容誤差を示す破線に挟まれた領域内にある。すなわち、「y」がf(x)に許容誤差を加算した値よりも小さく、かつ、f(x)から許容誤差を減算した値よりも大きい。したがって、白丸で表わされるデータペアに対応するリソースは正常リソースと判定される。これに対して、図16中、×印で示す位置に示される値は、「y」がf(x)に許容誤差を加算した値よりも大きい。したがって、この値のデータペアに対応するリソースは異常リソース候補と判定される。なお、図16中、自己相関関数を算出するために用いた情報の値を、「学習データ」として、白抜きの三角で示している。
[特定部による異常原因リソース特定処理]
次に、図17を参照して、特定部124による異常原因リソース特定処理について説明する。図17は、実施例2に係る異常原因リソース特定処理の流れの一例を示す図である。まず、特定部124は、異常リソース候補記憶部113から異常リソース候補のリスト(図10参照)を読み出す(ステップS401)。特定部124は、次に、構成情報記憶部112から構成情報(図9参照)を読み出す(ステップS402)。
次に、特定部124は、異常リソース候補リストから異常リソース候補を一つ選択する(ステップS403)。そして、特定部124は、選択した異常リソース候補の、構成情報中の位置を特定する。次に、特定部124は、構成情報中、選択した異常リソース候補よりもエンドユーザから遠い位置にあり、選択した異常リソース候補と接続されたリソースがあるか否かを判定する(ステップS404)。ないと判定すると(ステップS404、否定)、特定部124は、選択した異常リソース候補が異常原因リソースであると特定する(ステップS406)。次のリソースがあると判定する(ステップS404、肯定)と、特定部124は、次のリソースが、異常リソース候補であるか否かを判定する(ステップS405)。次のリソースが異常リソース候補であると判定した場合(ステップS405、肯定)は、特定部124は、さらにステップS404に戻って、さらにその次のリソースがあるか否かを判定する。ステップS405で、次のリソースが異常リソース候補ではないと判定された場合(ステップS405、否定)は、特定部124は、当該リソースを異常原因リソースと特定する(ステップS406)。
例えば、図18を参照して異常原因リソース特定処理をさらに説明する。図18は、実施例2に係る異常原因リソース特定処理を説明するための図である。図18において、リソースA,B,C,D,E,Fがリソースとしてエンドユーザに対するサービスに利用されている。これらのリソースのうち、リソースA,B,D,E,Fが異常リソース候補として抽出されている。このとき、特定部124は、まず、異常リソース候補のリストからリソースAを選択し、構成情報中の位置を特定する。そして、特定部124は、リソースAよりもエンドユーザから遠く、リソースAと接続されているリソースBが異常リソース候補か否かを判定する。判定結果が肯定であるため、特定部124はさらに、リソースBよりもエンドユーザから遠く、リソースBと接続されているリソースC、Fが異常リソース候補か否かを判定する。その結果、リソースFが異常リソース候補と判定される。そして、リソースFよりもエンドユーザから遠いリソースはないため、リソースFが異常原因リソースとして特定される。
[実施例2の効果]
上記のとおり、実施例2においては、インタークラウドサーバ100は、管理装置200およびサービス管理装置300から各リソースに関する複数の情報を受信する。そして、インタークラウドサーバ100は、複数の情報間の相関関係を算出する。インタークラウドサーバ100は、算出した相関関係と、予め準備した所定の相関関係とを比較し、差が許容値を上回る場合、当該情報に対応するリソースを異常リソース候補として抽出する。さらに、インタークラウドサーバ100は、リソースを利用するサービスの構成情報を取得して、当該構成情報に基づき、異常リソース候補のうち、最も処理順序が後のリソースを異常原因リソースとして特定する。このため、リソースに異常が発生した時に、管理装置200から故障に関する通知がなくとも、故障個所を推定することができ、故障個所を適正に特定して故障に迅速に対応することができる。
また、上記の通り、実施例2においては、インタークラウドサーバ100は、リソースについて取得することができる情報が限られている場合であっても、取得した情報相互間の自己相関関数を予め正常時に取得しておき、異常発生時には、予め取得した自己相関関数に基づいて、異常発生リソースを抽出する。このため、直接異常に関する情報を取得できない場合であっても、故障箇所を適正に特定して故障に迅速に対応することができる。
また、上記の通り、実施例2においては、インタークラウドサーバ100は、自己相関関数と許容誤差値とに基づいて異常リソース候補を抽出した後、構成情報に基づいて、異常原因リソースを特定する。このため、多数の異常リソース候補が検出された場合であっても、適切に故障原因を絞り込むことができ、故障箇所を適正に特定して故障に迅速に対応することができる。
[実施例2の変形例1]
なお、上記実施例2では、インタークラウドサーバ100の機能として、異常リソース候補を抽出し異常原因リソースを特定するものとして説明したが、インタークラウドサーバ100は、このほかに、リソース400のユーザに対する新規割当や割当廃止等の処理も行うものとしてよい。また、インタークラウドサーバ100を、図19に示すように、管理サーバ1000と監視サーバ2000とに分けて機能を分散してもよい。図19は、実施例2の変形例1を示す図である。例えば、図19に示すように、管理サーバ1000を管理装置1200およびユーザ端末1400と接続し、監視サーバ2000を管理装置1200およびサービス管理装置1300と接続する。管理装置1200及びサービス管理装置1300をそれぞれ、リソース1500と接続する。そして、リソース割当に関連する処理については、管理サーバ1000が実行し、異常リソース候補抽出、異常原因リソース特定に関連する処理については、監視サーバ2000が実行する。
[実施例2の変形例1の効果]
上記のように構成することで、インタークラウドサーバ100にかかる負荷を分散することができ、柔軟にインタークラウドシステムを構築することができる。
[実施例2の変形例2]
また、上記実施例2では、インタークラウドサーバ100が継続的に、複数の管理装置200およびサービス管理装置300から送信される情報を受信し、複数情報間の相関関係の変動に基づいて、異常リソース候補を抽出するものとした。しかし、インタークラウドサーバ100は特定の要求を受け付けた場合にのみ、異常リソース候補の抽出や異常原因リソースの特定のための処理を行うものとしてもよい。例えば、管理装置200およびリソース管理装置300が、それぞれ管理するリソースおよびサービスの処理状況に異常を検出した場合には、インタークラウドサーバ100に異常を通知する警告を送信するものとしてもよい。そして、インタークラウドサーバ100は、管理装置200からは警告を受信していないが、サービス管理装置300から警告を受信した場合のみ、異常リソース候補抽出処理および異常原因リソース特定処理を実行するものとしてもよい。また、インタークラウドサーバ100は、管理装置200から警告を受信しているが、サービス管理装置300からは警告を受信していない場合のみ、異常リソース候補抽出処理および異常原因リソース特定処理を実行するものとしてもよい。また、それぞれの場合に応じて、使用する情報の種類や適用する許容係数αを変更してもよい。
[実施例2の変形例2の効果]
上記のように構成することで、インタークラウドサーバ100にかかる負荷を軽減し、必要なときにのみ異常リソース候補抽出処理および異常原因リソース特定処理を実行して、迅速かつ効率的に異常に対処することができる。また、異常の種類に応じて、判定手法を柔軟に調整することができ、的確に異常を検出し対処することができる。
実施例3では、インタークラウドサーバの詳細について更に説明する。実施例3では、インタークラウドサーバ700にインストールされたプログラムが一連の処理を実行することで、各クラウドシステムが提供するリソースの異常を検出し異常の原因となっているリソースを特定する場合を用いて説明する。
なお、以下では、CSP(Cloud Service Provider)事業者により提供されるリソースが、ASP(Application Service Provider)運用者に割り当てられ、ASP運用者により提供されるサービスをユーザが利用する場合を用いて説明する。
図20は、実施例3に係るインタークラウドサーバの概略図である。実施例3に係るインタークラウドサーバ700は、データセンタのリソースやネットワークのリソースを提供するクラウドシステム各々について、リソースの状況を示す情報を収集し、異なるクラウドシステムに属するリソースをASP運用者に割り当てる。例えば、実施例3に係るインタークラウドサーバ700は、異なるクラウドシステムにより提供されるリソースを組み合わせて提供することで、スケールアウト等のマイグレーションを支援する。
さらに、インタークラウドサーバ700は、ASP運用者に割り当てられたリソースの状況を示す監視情報を、ASP運用者が提供するサービスの状況を監視するSP−OPS(Service Provider-Operation System)611から収集する。同時に、インタークラウドサーバ700は、各CSP事業者からリソースの状況を示す監視情報を収集する。そして収集した情報に基づき、異常リソースを検出して、異常原因となっているリソースを特定する。
実施例3に係るインタークラウドサーバ700は、リソースの割当に関する条件を記憶する制約条件データベース(DB)711と、リソースに関する管理情報を記憶する管理情報DB712とを備える。制約条件DB711および管理情報DB712は、実施例2のインタークラウドサーバ100が備える記憶部110に相当する。
制約条件DB711は、インタークラウドシステムにより提供されるリソースが割り当てられるASP運用者を識別するユーザIDと、当該ASP運用者が要求するリソースに関する情報(以下、制約条件とも呼ぶ)とを対応づけて記憶する。例えば、制約条件DB711は、ASP運用者とインタークラウドシステムの管理者との間で合意されたリソースの性能についての条件(SLA:Service Level Agreement)等に基づく性能条件等を記憶する。また、実施例2の相関関係や構成情報に相当する情報をそれぞれ、各リソースおよび各サービスに対応づけて記憶する。
管理情報DB712は、リソースを管理する管理装置についての管理情報を記憶する。例えば、DC−OPS603−1についての管理情報を記憶し、NW−OPS604−1についての管理情報を記憶する。管理情報とは、例えば、管理装置の識別名や管理装置にアクセスする際に用いられるURL、管理装置にアクセスする際に用いられるパスワードなどが該当する。
図20に示す例では、インタークラウドサーバ700に加えて、オペレータ端末601と、ASP端末602と、DC−OPS(Data Center-Operation System)603−1〜603−4と、NW−OPS(Network-Operation System)604−1〜604−4と、DC(Data Center、データセンタ)605−1〜605−4と、R(Router、ルータ)606−1〜606−4と、ユーザ端末607−1〜607−3と、CSP端末609と、SP−OPS(Service Provider-Operation System)611とを示す。
オペレータ端末601は、インタークラウドサーバ700と接続される。オペレータ端末601は、インタークラウドサーバ700を管理するオペレータにより用いられる。オペレータ端末601は、Webブラウザを有する。例えば、オペレータ端末601は、インタークラウドサーバ700の設定や運用、管理等を行うためのインタフェースをWebブラウザ上に表示する。
ASP端末602は、インタークラウドサーバ700と接続される。ASP端末602は、クラウドシステムにより提供されるリソースを用いてサービスを提供するASP運用者により用いられる。ASP端末602は、Webブラウザを有する。例えば、ASP端末602は、インタークラウドサーバ700の設定や運用、管理等を行うためのインタフェースをWebブラウザ上に表示する。
CSP端末609は、インタークラウドサーバ700と接続される。CSP端末609は、各クラウドシステムを提供する事業者により用いられる。CPS端末609は、Webブラウザを有する。例えば、CSP端末609は、管理するリソースに関する設定や運用、管理等を行うためのインタフェースをWebブラウザ上に表示する。
R606−1〜606−4は、NW−OPS604−1〜604−4及びDC605−1〜605−4、ユーザ端末607−1〜607−3と接続される。R606−1〜606−4は、ネットワーク装置であり、例えば、ルータである。R606−1〜606−4は、ネットワークを形成する。なお、R606−1〜606−4により形成されるネットワーク608により、DC605−1〜605−4とユーザ端末607−1〜607−3とが接続され、複数あるDC605−1〜605−4各々が接続される。R606−1〜606−4は、NW−OPS604−1〜604−4により管理される。
DC605−1〜605−4は、DC−OPS603−1〜603−4及びR606−1〜606−4と接続される。DC605−1〜605−4は、仮想マシンサービスを提供する。DC605−1〜605−4は、DC−OPS603−1〜603−4により管理される。なお、仮想マシン(VM:Virtual Machine)とは、ソフトウェアによって提供される仮想的なPCを示す。
DC−OPS603−1〜603−4は、インタークラウドサーバ700及びDC605−1〜605−4と接続される。DC−OPS603−1〜603−4は、DC605−1〜605−4のリソースを管理する管理装置である。具体的には、DC−OPS603−1〜603−4は、DC605−1〜605−4の監視情報をASP運用者毎に把握する。例えば、DC−OPS603−1は、DC605−1〜605−4の内1つ又は複数のDCを管理する。
NW−OPS604−1〜604−4は、インタークラウドサーバ700及びR606−1〜606−4と接続される。NW−OPS604−1〜604−4は、R606−1〜606−4を管理する管理装置である。具体的には、NW−OPS604−1〜604−4は、R606−1〜606−4により形成されるネットワーク608について、ネットワーク608の監視情報をASP運用者毎に把握する。例えば、NW−OPS604−1は、R606−1〜606−4の内1つ又は複数のRを管理する。
SP−OPS611は、インタークラウドサーバ700および管理対象であるサービスを構成するリソースと接続される(図示せず)。SP−OPS611は、サービスを構成するリソースをサービス層において管理する管理装置である。例えば、DC605−1、605−3と、R606−1、606−4とを用いてサービスが提供されている場合、SP−OPS611は、サービス層においてDC605−1、605−3および、R606−1、606−4の処理状況を監視する。
なお、図20に示す例では、説明の便宜上、オペレータ端末が1つあり、ASP端末が1つあり、CSP端末が1つあり、DC−OPSが4つあり、NW−OPSが4つあり、DCが4つあり、Rが4つあり、SP−OPSが1つあり、ユーザ端末が3つある場合を示した。ただし、これに限定されるものではなく、各装置の数は任意であって良い。例えば、ASP端末が2つ以上あっても良く、DC−OPSやNW−OPS、DC、Rなどが3つ以下でも良く、5つ以上でも良い。また、CSP端末およびSP−OPSは、インタークラウドシステムにおいては通常複数存在する。
また、図20に示す例では、オペレータ端末601と、ASP端末602と、ユーザ端末607、CSP端末609とが別装置である場合を例に示したが、これに限定されるものではない。例えば、オペレータ端末601と、ASP端末602と、ユーザ端末607と、CSP端末609とのうち、任意の装置を組み合わせて1つの装置としても良い。
インタークラウドサーバ700は、各種のハードウェアを有し、OSやミドルウェアなどの各種プログラムが予めインストールされる。具体的には、インタークラウドサーバ700は、詳細については後述するように、インタークラウドサーバ700が有する各種のハードウェアにより実行されるプログラムとして、ICSソフトウェア701を実行する。なお、ICSソフトウェア701は、実施例2における制御部120の各部により実行される処理を実行する。
また、実施例3におけるICSソフトウェア701は、後述するように、DC−OPS603−1〜603−4およびNW−OPS604−1〜604−4から各リソースの監視情報を取得する。また、ICSソフトウェア701は、SP−OPS611からサービスにおけるリソースの監視情報を取得する。そして、ICSソフトウェア701は、正常時の監視情報に基づき、相関関係を算出する。また、ICSソフトウェア701は、SP−OPS611から警告通知を受信すると、DC−OPS603−1〜603−4、NW−OPS604−1〜604−4、SP−OPS611に対して監視情報の送信を要求する。そして、ICSソフトウェア701は、相関関係と監視情報とを照合することで異常リソース候補を抽出し、その中から、異常原因リソースを特定する。ICSソフトウェア701は、オペレータ端末601に、特定された異常原因リソースを通知する。また、ICSソフトウェア701は、異常リソース候補とされたリソースのリストをオペレータ端末601に送信する。さらに、ICSソフトウェア701は、異常原因リソースを提供しているCSP事業者のCSP端末609に、異常原因リソースのメンテナンスを要求する通知を送る。オペレータおよびCSP事業者はそれぞれ、Webブラウザ上で、異常リソース候補のリストや異常原因リソースの情報を視認することができる。
[実施例3における異常リソース検出処理]
図21を参照して、実施例3における異常リソース検出処理の流れの一例について説明する。図21は、実施例3に係る異常リソース検出処理の流れの一例を説明するための図である。まず、ASP事業者からの要求に応じてリソースが割り当てられ、サービスが開始する。すると、サービスを管理するSP−OPS611は所定の期間にわたってインタークラウドサーバ700に、サービスを構成するリソースの監視情報を送信する(図21の(1))。また、当該サービスを構成するリソースを管理するDC−OPS603−2、NW−OPS604−1は、リソースの監視情報を所定の期間にわたってインタークラウドサーバ700に送信する(図21の(1))。ICSソフトウェア701は、受信した情報間の相関関係を算出し、リソースIDと対応づけて制約条件DB711に格納する(図21の(2))。その後、提供しているサービスの性能劣化を検出すると、SP−OPS611は、インタークラウドサーバ700に対して警告通知を送信する(図21の(3))。警告通知を受信すると、ICSソフトウェア701は、該当するサービスを構成するリソースを提供している管理装置に対して、監視情報の送信を要求する通知を送信する(図21の(4))。通知を受信した管理装置は、ICSソフトウェア701に対して監視情報を送信する(図21の(5))。ICSソフトウェア701は、受信した監視情報と、制約条件DB711に格納した相関関係とを、リソースごとに照合する(図21の(6))。そして、受信した監視情報が格納された相関関係から許容値を超えて逸脱していると判定すると、ICSソフトウェア701は、当該監視情報に対応するリソースを異常リソース候補として抽出する(図21の(7))。さらに、ICSソフトウェア701は、制約条件DB711に格納された構成情報を参照し、異常原因リソースを特定する(図21の(8))。ICSソフトウェア701は、抽出された異常リソース候補のリストと異常原因リソースとをオペレータ端末601に送信する(図21の(9))。さらに、ICSソフトウェア701は、異常原因リソースと特定されたリソースを提供しているCSP事業者に、異常原因リソースを通知する(図21の(10))。
[実施例3におけるインタークラウドサーバの効果]
上述の通り、実施例3に係るインタークラウドサーバ700は、リソースを管理するDC−OPSやNW−OPSからリソースの監視情報を受信し、サービスを管理するSP−OPSからサービスにおけるリソースの監視情報を受信する。そして、インタークラウドサーバ700は、受信した監視情報間の相関関係を予め算出しておく。その後、SP−OPSから性能劣化を通知する警告を受信すると、該当するDS−OPS、NW−OPS、SP−OPSから新たに監視情報を受信して、予め算出した相関関係と照合する。照合の結果、新たに受信した監視情報が許容値を超えて相関関係から逸脱していれば、当該監視情報に対応するリソースを異常リソース候補として抽出する。このため、実施例3に係るインタークラウドサーバ700は、DS−OPSやNW−OPSからリソースの異常を通知されなくても、SP−OPSからの通知に基づいて、複数の装置から監視情報を取得して、異常が発生したリソースを適切に特定することができる。
これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、その他の実施例にて実施されてもよい。以下に、その他の実施例を説明する。
[システム構成]
本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。例えば、相関関係や許容値の算出は算出部122が行うものとして説明したが、オペレータが手動で相関関係を算出し経験値を考慮して許容値を設定してもよい。この他、上述文書中や図面中に示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、図8に示す相関関係は、リソースIDおよびサービスIDに対応づけて格納されているが、リソースIDのみに対応づけて格納してもよい。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、図5に示す例では、記憶部110をインタークラウドサーバ100の内部に配置したが、記憶部110をインタークラウドサーバ100の外部装置としてネットワーク経由で接続するようにしてもよい。また、例えば、図5に示す例において、制御部120が、抽出部123の機能を分離して、データペアを生成するペア生成部と生成したペアについて異常値か否かを判定する判定部とに分けて備えてもよい。
[プログラム]
図22は、インタークラウドサーバによる一連の処理を実行するプログラムであるリソース監視プログラムによる情報処理が、コンピュータを用いて具体的に実現されることを示す図である。図22に例示するように、コンピュータ3000は、例えば、メモリ3010と、CPU(Central Processing Unit)3020と、ハードディスクドライブ3080と、ネットワークインタフェース3070とを有する。コンピュータ3000の各部はバス3100によって接続される。
メモリ3010は、図22に例示するように、ROM3011およびRAM3012を含む。ROM3011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。
ここで、図22に例示するように、ハードディスクドライブ3080は、例えば、OS3081、アプリケーションプログラム3082、プログラムモジュール3083、プログラムデータ3084を記憶する。すなわち、開示の実施の形態に係るリソース監視プログラムは、コンピュータによって実行される指令が記述されたプログラムモジュール3083として、例えばハードディスクドライブ3080に記憶される。例えば、制御部120の各部と同様の情報処理を実行する手順各々が記述されたプログラムモジュール3083が、ハードディスクドライブ3080に記憶される。
また、記憶部110に記憶されるデータのように、リソース監視プログラムによる情報処理に用いられるデータは、プログラムデータ3084として、例えばハードディスクドライブ3080に記憶される。そして、CPU3020が、ハードディスクドライブ3080に記憶されたプログラムモジュール3083やプログラムデータ3084を必要に応じてRAM3012に読み出し、各種の手順を実行する。
なお、リソース監視プログラムに係るプログラムモジュール3083やプログラムデータ3084は、ハードディスクドライブ3080に記憶される場合に限られない。例えば、プログラムモジュール3083やプログラムデータ3084は、着脱可能な記憶媒体に記憶されてもよい。この場合、CPU3020は、ディスクドライブなどの着脱可能な記憶媒体を介してデータを読み出す。また、同様に、更新プログラムに係るプログラムモジュール3083やプログラムデータ3084は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。この場合、CPU3020は、ネットワークインタフェース3070を介して他のコンピュータにアクセスすることで各種データを読み出す。
[その他]
なお、本実施例で説明したリソース監視プログラムは、インターネット等のネットワークを介して配布することができる。また、リソース監視プログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読取可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
1 リソース監視装置
2−1〜2−7 管理装置
3−1〜3−5 リソース
11 制御部
12 記憶部
100 インタークラウドサーバ
101 通信部
110 記憶部
111 相関関係記憶部
112 構成情報記憶部
113 異常リソース候補記憶部
120 制御部
121 受信部
122 算出部
123 抽出部
124 特定部
125 出力部
200 管理装置
300 サービス管理装置
400 リソース

Claims (8)

  1. 連携してサービスを提供する複数のリソース各々に関する複数の情報を異なる管理装置から取得する取得部と、
    前記取得部が取得した複数の情報間の相関関係と所定の相関関係との差が、許容値よりも大きくなったリソースを異常リソース候補として抽出する抽出部と、
    前記サービスにおける複数のリソースの構成を示す構成情報に基づいて、前記異常リソース候補の中から、前記異常リソース候補に異常を発生させる原因となったリソースである異常原因リソースを特定する特定部と、
    を備えることを特徴とするリソース監視装置。
  2. 前記取得部は、前記リソースを管理する管理装置から当該リソースの性能情報を取得し、前記サービスを管理する管理装置から当該サービスにおけるリソースの性能情報を取得することを特徴とする請求項1に記載のリソース監視装置。
  3. 前記構成情報は、前記リソースを利用するサービスにおける複数のリソース間の処理順序および/または接続関係を含み、
    前記特定部は、前記処理順序および/または前記接続関係に基づいて、前記異常リソース候補の中から、前記異常原因リソースを特定することを特徴とする請求項1または2に記載のリソース監視装置。
  4. 前記特定部は、前記処理順序を参照して、処理順序が最も後の異常リソース候補を異常原因リソースとして特定することを特徴とする請求項3に記載のリソース監視装置。
  5. 前記取得部は、前記管理装置が、同一時刻および/または同一時間間隔で取得した情報を取得することを特徴とする請求項1〜4のいずれか1項に記載のリソース監視装置。
  6. 複数の管理装置と、リソース監視装置とを備えたリソース監視システムであって、
    前記複数の管理装置は、リソースに関する複数の情報を前記リソース監視装置に送信する送信部を備え、
    前記リソース監視装置は、
    連携してサービスを提供する複数のリソース各々に関する複数の情報を異なる管理装置から取得する取得部と、
    前記取得部が取得した複数の情報間の相関関係と所定の相関関係との差が、許容値よりも大きくなったリソースを異常リソース候補として抽出する抽出部と、
    前記サービスにおける複数のリソースの構成を示す構成情報に基づいて、前記異常リソース候補の中から、前記異常リソース候補に異常を発生させる原因となったリソースである異常原因リソースを特定する特定部と、
    を備えることを特徴とするリソース監視システム。
  7. リソース監視装置で実行されるリソース監視方法であって、
    連携してサービスを提供する複数のリソース各々に関する複数の情報を異なる管理装置から取得する取得工程と、
    前記取得部が取得した複数の情報間の相関関係と所定の相関関係との差が、許容値よりも大きくなったリソースを異常リソース候補として抽出する抽出工程と、
    前記サービスにおける複数のリソースの構成を示す構成情報に基づいて、前記異常リソース候補の中から、前記異常リソース候補に異常を発生させる原因となったリソースである異常原因リソースを特定する特定工程と、
    を含むリソース監視方法。
  8. コンピュータを請求項1〜5のいずれか1項に記載のリソース監視装置として機能させるためのリソース監視プログラム。
JP2012023503A 2012-02-06 2012-02-06 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム Active JP5508449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012023503A JP5508449B2 (ja) 2012-02-06 2012-02-06 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012023503A JP5508449B2 (ja) 2012-02-06 2012-02-06 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム

Publications (2)

Publication Number Publication Date
JP2013161305A true JP2013161305A (ja) 2013-08-19
JP5508449B2 JP5508449B2 (ja) 2014-05-28

Family

ID=49173485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012023503A Active JP5508449B2 (ja) 2012-02-06 2012-02-06 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム

Country Status (1)

Country Link
JP (1) JP5508449B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016029520A (ja) * 2014-07-25 2016-03-03 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
KR20170108315A (ko) * 2016-03-17 2017-09-27 한국전자통신연구원 시스템 장애 모니터링 방법 및 장치
JP2020038525A (ja) * 2018-09-05 2020-03-12 東日本電信電話株式会社 異常検知装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006133983A (ja) * 2004-11-04 2006-05-25 Hitachi Ltd 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2006243777A (ja) * 2005-02-28 2006-09-14 Ricoh Co Ltd 認証システムの監視方法とコンピュータ読み取り可能な記録媒体
JP2010146154A (ja) * 2008-12-17 2010-07-01 Mitsubishi Electric Corp 障害対応手段判定装置及びコンピュータプログラム及び障害対応手段判定方法
JP2011090429A (ja) * 2009-10-21 2011-05-06 Nomura Research Institute Ltd 統合監視システム
WO2011083687A1 (ja) * 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006133983A (ja) * 2004-11-04 2006-05-25 Hitachi Ltd 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2006243777A (ja) * 2005-02-28 2006-09-14 Ricoh Co Ltd 認証システムの監視方法とコンピュータ読み取り可能な記録媒体
JP2010146154A (ja) * 2008-12-17 2010-07-01 Mitsubishi Electric Corp 障害対応手段判定装置及びコンピュータプログラム及び障害対応手段判定方法
JP2011090429A (ja) * 2009-10-21 2011-05-06 Nomura Research Institute Ltd 統合監視システム
WO2011083687A1 (ja) * 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016029520A (ja) * 2014-07-25 2016-03-03 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
KR20170108315A (ko) * 2016-03-17 2017-09-27 한국전자통신연구원 시스템 장애 모니터링 방법 및 장치
KR102561702B1 (ko) 2016-03-17 2023-08-01 한국전자통신연구원 시스템 장애 모니터링 방법 및 장치
JP2020038525A (ja) * 2018-09-05 2020-03-12 東日本電信電話株式会社 異常検知装置

Also Published As

Publication number Publication date
JP5508449B2 (ja) 2014-05-28

Similar Documents

Publication Publication Date Title
CN107689953B (zh) 一种面向多租户云计算的容器安全监控方法及系统
JP6426850B2 (ja) 管理装置、管理方法、および、管理プログラム
EP3281360B1 (en) Virtualized network function monitoring
CN110865867B (zh) 应用拓扑关系发现的方法、装置和系统
US10474519B2 (en) Server fault analysis system using event logs
US10037237B2 (en) Method and arrangement for fault management in infrastructure as a service clouds
US9276803B2 (en) Role based translation of data
US20150280968A1 (en) Identifying alarms for a root cause of a problem in a data processing system
US20150280969A1 (en) Multi-hop root cause analysis
RU2679344C1 (ru) Способ обработки информации об аварийных сигналах, соответствующее устройство и система
JP5596716B2 (ja) リソース管理装置、リソース管理システム、リソース管理方法およびリソース管理プログラム
TW201403480A (zh) 用於應用服務自動遷移之方法及裝置
AU2015419073A1 (en) Network service lifecycle management method and device
US10089163B2 (en) Automatic discovery and prioritization of fault domains
WO2016134542A1 (zh) 虚拟机的迁移方法、装置及设备
KR20150011250A (ko) 클라우드 센터 관리 방법 및 그 시스템
US10891164B2 (en) Resource setting control device, resource setting control system, resource setting control method, and computer-readable recording medium
EP3058703B1 (en) Optimizing data transfers in cloud computing platforms
US20160006640A1 (en) Management computer, allocation management method, and non-transitory computer readable storage medium
KR101371068B1 (ko) 클라우드 컴퓨팅 자원 관리를 위한 모니터링 메트릭을 활용한 트리거링 방법 및 그 시스템
JP5508449B2 (ja) リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム
CN103309723A (zh) 虚拟机资源整合系统及方法
CN114780214A (zh) 任务处理方法、装置、系统及设备
US9349012B2 (en) Distributed processing system, distributed processing method and computer-readable recording medium
US10067778B2 (en) Management system, recording medium and method for managing virtual machines

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140320

R150 Certificate of patent or registration of utility model

Ref document number: 5508449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150