JP2018160020A - 監視システム、プログラムおよび監視方法 - Google Patents

監視システム、プログラムおよび監視方法 Download PDF

Info

Publication number
JP2018160020A
JP2018160020A JP2017055882A JP2017055882A JP2018160020A JP 2018160020 A JP2018160020 A JP 2018160020A JP 2017055882 A JP2017055882 A JP 2017055882A JP 2017055882 A JP2017055882 A JP 2017055882A JP 2018160020 A JP2018160020 A JP 2018160020A
Authority
JP
Japan
Prior art keywords
graph
components
resource information
node
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017055882A
Other languages
English (en)
Other versions
JP6775452B2 (ja
Inventor
朝信 丹羽
Tomonobu NIWA
朝信 丹羽
雅典 宮澤
Masanori Miyazawa
雅典 宮澤
林 通秋
Michiaki Hayashi
通秋 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017055882A priority Critical patent/JP6775452B2/ja
Priority to PCT/JP2018/008031 priority patent/WO2018173698A1/ja
Publication of JP2018160020A publication Critical patent/JP2018160020A/ja
Application granted granted Critical
Publication of JP6775452B2 publication Critical patent/JP6775452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】仮想化基盤の異常、並びにその根本原因となるコンポーネントを早期に検出する仮想化基盤の監視システムを提供する。【解決手段】複数の物理計算機10−1〜10−n上に構成された複数の仮想化基盤20−1〜20−nの送信部27は、コンポーネントごとのシステム資源情報や通信資源情報を加工した資源情報を仮想化基盤解析システム1に送信する。仮想化基盤解析システムにおいて、グラフ生成部4は、受信部2が複数の物理計算機から受信した資源情報に基づく値を用い、一定の時間間隔で、各コンポーネントをノードとし、各コンポーネント間の相関関係をエッジとしたグラフを生成し、グラフ保存部5に保存する。グラフ解析部6は、グラフ生成部が生成した現時刻のグラフと、グラフ保存部に保存された過去のグラフとを比較し、グラフ構造の時系列変動を検証する。グラフ構造の時系列変動が正常と異なれば、仮想化基盤に障害が発生したと判定する。【選択図】図1

Description

本発明は、物理計算機上に構成された複数のコンポーネントおよび各コンポーネント間の相関関係を監視する技術に関する。
従来から、クラウドコンピューティングと呼ばれる技術が知られている。この技術は、物理計算機(物理マシンまたは物理サーバ)に仮想化技術を適用することで仮想化基盤(クラウド基盤)を構築し、この仮想化基盤上に仮想計算機(仮想マシンまたは仮想サーバ)を動作させる。そして、この仮想計算機上でアプリケーションを実行することでサービスを提供する。
このようなクラウドコンピューティングでは、動的に仮想計算機を作成し、破棄し、移動することができるため、仮想計算機上で実行されるサービスの利用形態に応じて、コンピューティング、ストレージ、ネットワーク等のリソースを、仮想計算機に柔軟に割り当てすることができる。さらに、物理計算機の異常や障害の発生時には、物理計算機上で動作している仮想計算機を、別の健全な物理計算機に移動させることも容易であるため、高い可用性を担保できるという特徴もある。
仮想化基盤は、種々の機能が連携することでクラウドコンピューティングサービスを実現する。例えば、仮想基盤操作へのアクセス権限を管理する認証機能、仮想計算機の作成、破棄を管理するコンピュート機能、仮想計算機の起動イメージを管理するイメージ管理機能、仮想計算機にストレージを提供するストレージ機能、仮想計算機にネットワークを提供するネットワーキング機能、仮想化基盤制御システムにおけるウェブインターフェースを提供するダッシュボード機能等である。さらに、このような各機能は、データベース、メッセージキュー、HTTPサービス、NTPサービス等を提供するミドルウェアと相互に連携し、動作する。
図6は、仮想化基盤の構成の一例を示す図である。図6では、仮想計算機を実行する仮想化基盤を「コンピュートノード」、コンピュートノードをコントロールする仮想化基盤を「コントローラノード」とし、それぞれの機能やミドルウェアが連携する様子を示している。以下、仮想化基盤を構成する各機能と、各機能と連携する各ミドルウェアを総称して、「仮想化基盤の構成要素」、「コンポーネント」と呼ぶ。
安定したクラウドコンピューティングサービスを提供するには、仮想化基盤には高い耐障害性が求められ、特に仮想化基盤の異常や障害を迅速に発見することは、クラウドコンピューティングサービスの品質を向上させる上で重要である。直接的な手段としては、仮想化基盤の異常や障害の発生時に、管理者が各コンポーネントのログを解析し、解析結果に応じて対策が講じられている。
特許文献1および2には、各コンポーネントの異常や障害を検出する技術が開示されている。特許文献1に記載されている技術では、アプリケーションのログを監視し続け、所定のログメッセージの出現頻度が所定回数以上であった場合や、ログ更新が所定時間間隔以上行なわれなかった場合を障害としてみなしている。
特許文献2に記載されている技術では、アプリケーションが自発的に発生させたコンテキストスイッチ回数とオペレーションシステムがアプリケーションを制御するために発生させたコンテキストスイッチ回数を監視し、これらコンテキストスイッチ回数の変化度合と、アプリケーションのプロセス状態を関連づけることで、アプリケーションの異常を検出する。
特許文献3および非特許文献1には、仮想化基盤の異常や障害を検出する技術が開示されている。特許文献3に記載されている技術では、仮想化基盤のCPU使用率やメモリ使用率等の性能情報を収集し、クラスタリングアルゴリズムを用いて正常な状態との乖離を検出することで、仮想化基盤の異常を検出する。
非特許文献1に記載されている技術では、仮想化基盤のオープンソース実装である「OpenStack」に焦点を当て、障害を意図的に挿入することで、予めバグや障害要因を特定する。
特許第4230946号明細書 特許第4562568号明細書 特開2015−070528号公報
Xiaoen Ju et al., On Fault Resilience of OpenStack, SOCC 2013, DOI:10.1145/2523616.2523622
しかしながら、仮想化基盤の異常や障害の発生時に、管理者が各コンポーネントのログを解析し、解析結果に応じて対策を講じる手法では、各コンポーネントが複雑に連携している状況下において、各コンポーネントに対する十分な知見が求められ、一般に、管理者が異常や障害の原因を早期に特定することは困難である。
特許文献1に記載されている技術では、管理者が障害時にアプリケーションがどのようなログを出力するかを予め把握するか、アプリケーションが所定のログを出力するようにアプリケーションのソースコードを改修する必要がある。このように、特許文献1では、コンポーネントのログを解析することで障害の検出を試みるが、仮想化基盤の挙動に対して深い知見が要求され、例えば、仮想化基盤のバージョンアップ等ログの仕様が変更される度に監視システムの改修が必要となる。
また、特許文献2に記載されている技術では、アプリケーションがCPUを使用し続ける無限ループや、アプリケーションが「I/O待ち」や「CPU待ち」で停止するといった単純な異常事象に対しては有効ではあるものの、メモリリーク等のコンテキストスイッチが関与しない異常を検出できない。すなわち、検出できる障害が限定的である。
また、特許文献3に記載されている技術では、物理計算機や仮想計算機の異常を検出することはできるが、コンポーネントの異常や障害そのものを検出するわけではないため、根本原因となるコンポーネントを特定することができず、異常や障害の切り分け、対応には適用することができない。
また、非特許文献1に記載されている技術では、ログ解析が必要とされるため、各コンポーネントについて深い知識が要求される。また、障害を挿入するという性質上、稼働中の仮想化基盤には適用できず、障害発生時に即座に障害を検出できない。
このように、従来から種々の技術が提案されてきたが、仮想化基盤は複数のコンポーネントから構成されており、これらコンポーネントが複雑に連携していることから、依然として、異常や障害の早期検出、特定が容易ではない。
本発明は、このような事情に鑑みてなされたものであり、管理者が仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合においても、仮想化基盤の異常、並びにその根本原因となるコンポーネントを早期に検出することができる監視システム、プログラムおよび監視方法を提供することを目的とする。
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の監視システムは、物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視システムであって、前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得し、前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成するグラフ生成部と、特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出するグラフ解析部と、を備えることを特徴とする。
このように、各コンポーネントのシステム資源情報および各コンポーネント間の通信資源情報を取得し、各コンポーネントのシステム資源情報に基づく値および各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、各コンポーネントをノードとし、各コンポーネント間の相関関係をエッジとしたグラフを作成し、特定のノードおよび特定のノードからの距離が所定値以下である他のノード並びに特定のノードと他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、グラフの時系列的な変化を検出するので、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合であっても、仮想化基盤やコンポーネントの異常を検出することが可能となる。
(2)また、本発明の監視システムにおいて、前記グラフ生成部および前記グラフ解析部は、物理計算機の仮想化基板解析システム上に構成され、前記各コンポーネントは、物理計算機の仮想化基盤上に構成されていることを特徴とする。
このように、グラフ生成部およびグラフ解析部は、物理計算機の仮想化基板解析システム上に構成され、各コンポーネントは、物理計算機の仮想化基盤上に構成されているので、仮想化基盤解析システムと仮想化基盤とを物理的に離れた場所で構築することができる。これにより、仮想化基盤解析システムに対して遠隔地に構成された仮想化基盤やコンポーネントの異常を検出することが可能となる。なお、仮想化基盤解析システムと仮想化基盤とを同一の物理計算機上に構築することも可能である。
(3)また、本発明の監視システムは、一定の時間間隔で生成された前記グラフ、並びに前記各ノードの属性を示す情報および前記エッジを示す情報を含むマトリクスを保存するグラフ保存部をさらに備えることを特徴とする。
このように、一定の時間間隔で生成されたグラフ、並びに各ノードの属性を示す情報およびエッジを示す情報を含むマトリクスを保存するグラフ保存部をさらに備えるので、グラフの時系列的な変動を把握することが可能となる。
(4)また、本発明のプログラムは、物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視装置のプログラムであって、前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得する処理と、前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成する処理と、特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出する処理と、の一連の処理をコンピュータに実行させることを特徴とする。
このように、各コンポーネントのシステム資源情報および各コンポーネント間の通信資源情報を取得し、各コンポーネントのシステム資源情報に基づく値および各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、各コンポーネントをノードとし、各コンポーネント間の相関関係をエッジとしたグラフを作成し、特定のノードおよび特定のノードからの距離が所定値以下である他のノード並びに特定のノードと他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、グラフの時系列的な変化を検出するので、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合であっても、仮想化基盤やコンポーネントの異常を検出することが可能となる。
(5)また、本発明の監視方法は、物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視方法であって、前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得するステップと、前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成するステップと、特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出するステップと、を少なくとも含むことを特徴とする。
このように、各コンポーネントのシステム資源情報および各コンポーネント間の通信資源情報を取得し、各コンポーネントのシステム資源情報に基づく値および各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、各コンポーネントをノードとし、各コンポーネント間の相関関係をエッジとしたグラフを作成し、特定のノードおよび特定のノードからの距離が所定値以下である他のノード並びに特定のノードと他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、グラフの時系列的な変化を検出するので、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合であっても、仮想化基盤やコンポーネントの異常を検出することが可能となる。
本発明によれば、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合においても、仮想化基盤を構成するコンポーネントとその相関から、仮想化基盤やコンポーネントの異常を検出することができる。
本実施形態に係る仮想化基盤の監視システムの概略構成を示す図である。 グラフ生成部4が作成したグラフの一例を示す図である。 時刻t0、t1、t2にグラフが生成され、時々刻々とグラフ構造が変化している様子を示す図である。 特定のノードCとの隣接距離がN=1であるノードB、ノードD、ノードEと、それらを接続するエッジを表す図である。 時刻t0〜t9の時系列グラフをクラスタリングし、異常を検出した例を示す。 仮想化基盤の構成の一例を示す図である。
本発明者らは、仮想化基盤が複数のコンポーネントから構成されており、これらのコンポーネントが複雑に連携しているため、異常や障害の早期検出や特定が容易ではないことに着目し、仮想化基盤を構成するコンポーネントとコンポーネントの相関関係をグラフ化し、グラフ構造の時系列変化の異常を検出することによって、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合においても、仮想化基盤やコンポーネントの異常を把握できることを見出し、本発明に至った。
すなわち、本発明の監視システムは、物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視システムであって、前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得し、前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成するグラフ生成部と、特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出するグラフ解析部と、を備えることを特徴とする。
これにより、本発明者らは、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合であっても、仮想化基盤やコンポーネントの異常を検出することを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。
本実施形態では、仮想化基盤を構成するコンポーネントをノード、コンポーネントの相関をエッジと見立てたグラフを時系列毎に作成する。グラフの構成要素であるノードは、コンポーネントの使用するシステム資源情報(CPU使用時間、メモリ使用量、I/O情報等)、またはシステム資源情報から導出される情報を属性として有する。グラフの構成要素であるエッジは、コンポーネント間で送受信される通信資源情報(トラフィック量、パケット数、ソケットの再起動回数等)、または通信資源情報から導出される情報を属性として有する。そして、ある時間区間における属性から定まるグラフ構造を取得し、グラフ構造の時系列変化を監視し、グラフ構造の異常を検出する。これにより、仮想化基盤システムの異常を検出する。
図1は、本実施形態に係る仮想化基盤の監視システムの概略構成を示す図である。この仮想化基盤の監視システムは、物理計算機上に構成された仮想化基盤解析システム1と、複数の物理計算機10−1〜10−n上に構成された複数の仮想化基盤20−1〜20−nから構成されている。前提として、図1に示す各仮想化基盤20−1〜20−nにおいて、仮想化基盤を構成する各機能および各機能と連携する各ミドルウェアとしてのコンポーネントが設けられているが、ここでは図示していない。また、図1では、仮想化基盤解析システム1と、複数の物理計算機10−1〜10−n上に構成された複数の仮想化基盤20−1〜20−nを示したが、本発明は、これに限定されるわけではなく、同一の物理計算機上に仮想化基盤解析システム1および複数の仮想化基盤20−1〜20−nを構成することもできるし、単一の物理計算機上に仮想化基盤解析システム1を構成し、他の単一の物理計算機上に複数の仮想化基盤20−1〜20−nを構成することも可能である。
図1に示す各仮想化基盤20−1〜20−nにおいて、システム資源情報収集部22は、各コンポーネントが使用するシステム資源情報21を一定時間間隔で収集する。ここで、使用するシステム資源情報とは、例えば、ユーザCPU使用時間、システムCPU使用時間、メモリ使用量、スワップ量、ページフォールト数、ディスクアクセス数、ディスク書き込み数等である。Linux(登録商標)では、procファイルシステム(/proc配下のファイル)のファイルの参照、あるいはコマンドを実行することで情報を取得可能である。システム資源情報加工部23は、システム資源情報収集部22が取得した情報に対して、統計的処理(前回取得した値との差分や平均値からの乖離の算出等)や規格化(パーセンテージ化や正規化等)をする。
通信資源情報収集部25は、各コンポーネントが使用する通信資源情報24を一定時間間隔で収集する。使用する通信資源情報とは、例えば、プロトコル、パケットサイズ、パケット数、使用しているソケットの数等である。Linux(登録商標)では、パケットキャプチャ情報と、各コンポーネントが使用するソケット情報とを紐付けることで情報を取得可能である。通信資源情報加工部26は、通信資源情報収集部25が取得した情報に対して、統計的処理(前回取得した値との差分や平均値からの乖離の算出等)や規格化(パーセンテージ化や正規化等)をする。
送信部27は、加工したシステム資源情報や加工した通信資源情報(以下、「資源情報」と呼称する。)を仮想化基盤解析システム1に送信する。
一方、仮想化基盤解析システム1において、受信部2は、複数の物理計算機10−1〜10−nの送信部27から送信された資源情報を受信し、資源情報保存部3に保存する。グラフ生成部4は、資源情報保存部3内の資源情報をもとに、コンポーネントを「ノード」、コンポーネントの相関を「エッジ」としたグラフを生成し、グラフ保存部5に保存する。ここで、ノードやエッジは、資源情報や資源情報から計算される変換値を有する。
グラフ解析部6は、グラフ生成部4が生成した現時刻のグラフと、グラフ保存部5に保存された過去のグラフとを比較し、グラフ構造の時系列変動を検証する。グラフ構造の時系列変動が正常と異なれば、仮想化基盤に障害が発生したと判定する。グラフ表示部7は、仮想化基盤の管理者にグラフを表示するインターフェースを提供する。解析結果送信部8は、グラフ解析結果を外部監視システムに送信する。
次に、本実施形態に係るグラフ生成部4について説明する。グラフ生成部4では、コンポーネントをノード、コンポーネントの相関をエッジとしたグラフを生成する。図2は、グラフ生成部4が作成したグラフの一例を示す図である。図2では、2つの物理計算機(ホスト(1)とホスト(2))上で動作するコンポーネントから成るグラフの例を示している。ノードは、ホスト名とコンポーネント名(あるいはコンポーネントを実行するプロセス名)の組を識別子として、各コンポーネントが使用するシステム資源情報(例えば、CPU使用時間、メモリ使用量、ディスクI/O量等)、またはシステム資源情報を元に計算される値を属性に持つ。エッジは、通信をする送信ノードと受信ノードの組を識別子として、各エッジは通信資源情報(例えば、トラフィック量、パケット数、使用ソケット数等)、または通信資源情報を元に計算される値を属性に持つ。グラフ生成部4は、一定の時間間隔でグラフを生成し、生成したグラフをグラフ保存部5に格納する。
図3は、時刻t0、t1、t2にグラフが生成され、時々刻々とグラフ構造が変化している様子を示す図である。図3では、各コンポーネントと各コンポーネント間の相関は、マトリクスとしてデータを保持できる。図3の例では、時刻t2ではノード(A)は20の属性を持ち、ノード(A)からノード(B)に接続するエッジは92の属性を持つ。時刻t0ではノード(A)は18の属性を持ち、ノード(A)からノード(B)に接続するエッジは89の属性を持つ。ノードやエッジは、CPU使用時間やメモリ使用量等の複数の属性値を持つ。この例では、属性値を簡易的にシステム資源情報や通信資源情報を表す単一の数値で示したが、属性値を各要素に持つベクトル値として保持しても良いし、複数の属性値から計算される変換値として保持しても良い。
次に、本実施形態に係るグラフ解析部6について説明する。グラフの解析については、一般的な手法として、時系列データからノードの相関関係を抽出することで、グラフ全体、あるいは相関性が強いノードで構成された部分グラフに対して、異常検知を適用する手法が考えられる。しかし、本実施形態では、パケットのヘッダを解析するためコンポーネント間の接続関係は明示的であり、さらに、あるコンポーネントが送信する通信は複数のコンポーネントを経由するケースは少ない。本実施形態における異常検知の目的は、どのホストのどのコンポーネントが異常要因となっているかを検出することにあり、ノードの連なりを解析し、ネットワークとしての異常検知を適用することは計算量の観点からも望ましくない。一方で、ノードやエッジ単体での異常検知を実施した場合、異常の根本原因の追求は容易となるものの、コンポーネント間の通信は0(通信は発生していない)が支配的なノード、エッジも多く、属性値の情報量が少ない場合には、特徴量の抽出が困難であり、異常検知の精度が課題となる。
そこで、本実施形態では、各ノードを基準として解析を行なう。すなわち、ノードと、ノードからの隣接距離がN以下となるノードと、ノードと隣接距離がN以下となるノードとを接続するエッジのデータを基に異常検知を適用する。
図4は、特定のノードCとの隣接距離がN=1であるノードB、ノードD、ノードEと、それらを接続するエッジを表す図である。すなわち、図4では、ノードCを基準として、ある一定時間内においてノードCに隣接関係にあるノード群(ノードB、ノードD、ノードE)と関連するエッジを異常検知対象としている。図4の紙面に対して右側のマトリクスにおいては斜線で塗りつぶした数値を対象としている。異常検知には、既存の異常検知アルゴリズムが適用できる。例えば、K近傍法等のクラスタリングアルゴリズムを適用し、外れ値を検知することで、グラフの異常を検出する。図5は、時刻t0〜t9の時系列グラフをクラスタリングし、異常を検出した例を示す。ここでは、各時系列グラフにおいて、最も近い距離と閾値とを比較し、閾値よりも大きい場合に外れ値と判定した例を示している。このように、各ノードと、前記ノードからの隣接距離がN以下となるノードと、ノードと隣接距離がN以下となるノードを接続するエッジとに異常検知アルゴリズムを適用することで、コンポーネントの異常を検出できる。
以上説明したように、本実施形態によれば、仮想化基盤の管理者が、仮想化基盤を構成する各コンポーネントに対して十分な知見を有していない場合であっても、仮想化基盤を構成するコンポーネントとその相関から、仮想化基盤やコンポーネントの異常を検出することが可能となる。
1 仮想化基盤解析システム
2 受信部
3 資源情報保存部
4 グラフ生成部
5 グラフ保存部
6 グラフ解析部
7 グラフ表示部
8 解析結果送信部
10−1〜10−n 物理計算機
20−1〜20−n 仮想化基盤
21 コンポーネント毎のシステム資源情報
22 システム資源情報収集部
23 システム資源情報加工部
24 コンポーネント毎の通信資源情報
25 通信資源情報収集部
26 通信資源情報加工部
27 送信部

Claims (5)

  1. 物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視システムであって、
    前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得し、前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成するグラフ生成部と、
    特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出するグラフ解析部と、を備えることを特徴とする監視システム。
  2. 前記グラフ生成部および前記グラフ解析部は、物理計算機の仮想化基板解析システム上に構成され、
    前記各コンポーネントは、物理計算機の仮想化基盤上に構成されていることを特徴とする請求項1記載の監視システム。
  3. 一定の時間間隔で生成された前記グラフ、並びに前記各ノードの属性を示す情報および前記エッジを示す情報を含むマトリクスを保存するグラフ保存部をさらに備えることを特徴とする請求項1または請求項2記載の監視システム。
  4. 物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視装置のプログラムであって、
    前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得する処理と、
    前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成する処理と、
    特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出する処理と、の一連の処理をコンピュータに実行させることを特徴とするプログラム。
  5. 物理計算機上に構成された複数のコンポーネントおよび前記各コンポーネント間の相関関係を監視する監視方法であって、
    前記各コンポーネントのシステム資源情報および前記各コンポーネント間の通信資源情報を取得するステップと、
    前記各コンポーネントのシステム資源情報に基づく値および前記各コンポーネント間の通信資源情報に基づく値を用い、一定の時間間隔で、前記各コンポーネントをノードとし、前記各コンポーネント間の相関関係をエッジとしたグラフを作成するステップと、
    特定のノードおよび前記特定のノードからの距離が所定値以下である他のノード並びに前記特定のノードと前記他のノードとを接続するエッジに対して異常検知アルゴリズムを適用し、前記グラフの時系列的な変化を検出するステップと、を少なくとも含むことを特徴とする監視方法。
JP2017055882A 2017-03-22 2017-03-22 監視システム、プログラムおよび監視方法 Active JP6775452B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017055882A JP6775452B2 (ja) 2017-03-22 2017-03-22 監視システム、プログラムおよび監視方法
PCT/JP2018/008031 WO2018173698A1 (ja) 2017-03-22 2018-03-02 監視システム、コンピュータ可読記憶媒体および監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017055882A JP6775452B2 (ja) 2017-03-22 2017-03-22 監視システム、プログラムおよび監視方法

Publications (2)

Publication Number Publication Date
JP2018160020A true JP2018160020A (ja) 2018-10-11
JP6775452B2 JP6775452B2 (ja) 2020-10-28

Family

ID=63585321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017055882A Active JP6775452B2 (ja) 2017-03-22 2017-03-22 監視システム、プログラムおよび監視方法

Country Status (2)

Country Link
JP (1) JP6775452B2 (ja)
WO (1) WO2018173698A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3885905A1 (en) 2020-03-25 2021-09-29 Fujitsu Limited Network configuration diagram generate method and network configuration diagram generate program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089015A (ja) * 2010-10-21 2012-05-10 Hitachi Ltd 分散情報処理システム、分散情報処理方法及びデータ転送装置
JP2013545174A (ja) * 2010-10-15 2013-12-19 アティヴィオ, インコーポレイテッド メッセージのグループの順序化された処理
WO2017002222A1 (ja) * 2015-07-01 2017-01-05 株式会社日立製作所 システムデプロイ装置およびシステムデプロイ方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013545174A (ja) * 2010-10-15 2013-12-19 アティヴィオ, インコーポレイテッド メッセージのグループの順序化された処理
JP2012089015A (ja) * 2010-10-21 2012-05-10 Hitachi Ltd 分散情報処理システム、分散情報処理方法及びデータ転送装置
WO2017002222A1 (ja) * 2015-07-01 2017-01-05 株式会社日立製作所 システムデプロイ装置およびシステムデプロイ方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
北川 潤也 他: "「ネットワークトラフィックデータ間の相関に基づくインシデント検知の検討」", 電子情報通信学会技術研究報告 信学技報, vol. 第108巻 第474号, JPN6018018416, 2 March 2009 (2009-03-02), JP, pages 321 - 328, ISSN: 0004248481 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3885905A1 (en) 2020-03-25 2021-09-29 Fujitsu Limited Network configuration diagram generate method and network configuration diagram generate program
US11374815B2 (en) 2020-03-25 2022-06-28 Fujitsu Limited Network configuration diagram generate method and recording medium

Also Published As

Publication number Publication date
WO2018173698A1 (ja) 2018-09-27
JP6775452B2 (ja) 2020-10-28

Similar Documents

Publication Publication Date Title
US10158541B2 (en) Group server performance correction via actions to server subset
US10462027B2 (en) Cloud network stability
US8041996B2 (en) Method and apparatus for time-based event correlation
US9167028B1 (en) Monitoring distributed web application transactions
US9836952B2 (en) Alarm causality templates for network function virtualization
US11138058B2 (en) Hierarchical fault determination in an application performance management system
KR101971013B1 (ko) 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
US10452469B2 (en) Server performance correction using remote server actions
EP3692443B1 (en) Application regression detection in computing systems
CN112073262B (zh) 一种云平台监控方法、装置、设备及系统
US10225155B2 (en) Network anomaly detection
CN109245966A (zh) 云平台的服务状态的监控方法和装置
US20140189103A1 (en) System for monitoring servers and method thereof
US20200351293A1 (en) Out-of-band management security analysis and monitoring
CN107168844B (zh) 一种性能监控的方法及装置
US20120054324A1 (en) Device, method, and storage medium for detecting multiplexed relation of applications
US10848371B2 (en) User interface for an application performance management system
CN112235300A (zh) 云虚拟网络漏洞检测方法、系统、装置及电子设备
WO2018173698A1 (ja) 監視システム、コンピュータ可読記憶媒体および監視方法
EP3852424B1 (en) Application resilience for applications deployed on a cloud platform
KR101630088B1 (ko) 가상머신의 라이프사이클 모니터링 방법 및 그 장치
CN112685252A (zh) 微服务监控方法、装置、设备和存储介质
Arefin et al. Cloudinsight: Shedding light on the cloud
WO2017131777A1 (en) Application aware cluster monitoring
Gunasekaran et al. Correlating log messages for system diagnostics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201006

R150 Certificate of patent or registration of utility model

Ref document number: 6775452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150