JP5971395B2 - システム分析装置、及び、システム分析方法 - Google Patents

システム分析装置、及び、システム分析方法 Download PDF

Info

Publication number
JP5971395B2
JP5971395B2 JP2015500136A JP2015500136A JP5971395B2 JP 5971395 B2 JP5971395 B2 JP 5971395B2 JP 2015500136 A JP2015500136 A JP 2015500136A JP 2015500136 A JP2015500136 A JP 2015500136A JP 5971395 B2 JP5971395 B2 JP 5971395B2
Authority
JP
Japan
Prior art keywords
correlation
destruction
aggregated
pattern
correlations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015500136A
Other languages
English (en)
Other versions
JPWO2014125796A1 (ja
Inventor
謙太郎 矢吹
謙太郎 矢吹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of JP5971395B2 publication Critical patent/JP5971395B2/ja
Publication of JPWO2014125796A1 publication Critical patent/JPWO2014125796A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0243Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
    • G05B23/0254Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model based on a quantitative model, e.g. mathematical relationships between inputs and outputs; functions: observer, Kalman filter, residual calculation, Neural Networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、システム分析装置、及び、システム分析方法に関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害や異常等の要因を判定する運用管理システムの一例が特許文献1に記載されている。
特許文献1に記載の運用管理システムは、システムの複数のメトリックの計測値をもとに、複数のメトリックの内の各ペアの相関関係を示す相関関数を決定することにより、システムの相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、相関関係の破壊(相関破壊)を検出し、相関破壊をもとにシステムの障害要因を判定する。このように、相関破壊をもとにシステムの状態を分析する技術は、不変関係分析と呼ばれる。
不変関係分析において、過去の障害時と現在との間の相関破壊の状態の類似度をもとに、障害要因を判定する技術の一例が、特許文献2に開示されている。特許文献2に記載の運用管理装置は、メトリックをいくつかのグループに分類し、過去の障害時と現在との間で、相関破壊が発生したメトリック数のグループ毎の分布を比較する。しかしながら、特許文献2の運用管理装置では、グループにおいて相関破壊が発生したメトリックが異なっていても、グループ毎の相関破壊が発生したメトリック数の分布が類似していれば、同一の障害と判定される可能性がある。
この課題を解決する技術の一例が、特許文献3に開示されている。特許文献3に記載の運用管理装置は、過去の障害時と現在との間で、相関破壊が発生した相関関係のパターン(相関破壊パターン)を比較する。運用管理装置は、相関モデルの中の各相関関係における相関破壊の発生有無が一致する割合を比較することにより、障害の要因を判定する。
特許第4872944号公報 国際公開第2010/032701号 国際公開第2011/155621号
上述の特許文献3の技術では、相関破壊パターンを比較するため、過去の障害時と現在におけるシステムが、同一の相関モデルを有する同一のシステムであることが要求される。また、過去と現在における障害箇所が、同一の障害箇所でなければ、同一の障害と判定されない。
例えば、過去の障害時と現在との間で、分散処理を行う同種の装置を追加することにより、システムの相関モデルに変更があった場合、過去の障害時の相関破壊パターンを用いて障害要因の判定を行うことができない。また、過去と現在の障害が発生した装置が、分散処理を行う同種の異なる装置の場合、過去の障害時の相関破壊パターンを用いて障害要因の判定を行うことができない。
本発明の目的は、上述した課題を解決し、相関破壊パターンを用いたシステムの状態検出において、相関破壊パターンの汎用性を向上できる、システム分析装置、及び、システム分析方法を提供することにある。
本発明の一態様におけるシステム分析装置は、システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターンを複数記憶する、相関破壊パターン記憶手段と、前記複数の相関破壊パターンの内の、同種の相関破壊パターンを集約した集約破壊パターンを生成する、集約破壊パターン生成手段と、前記集約破壊パターンと新たに検出された相関破壊パターンとの類似度を算出し、出力する、類似度算出手段と、を備える。
本発明の一態様におけるシステム分析方法は、システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターンを複数記憶し、前記複数の相関破壊パターンの内の、同種の相関破壊パターンを集約した集約破壊パターンを生成し、前記集約破壊パターンと新たに検出された相関破壊パターンとの類似度を算出し、出力する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターンを複数記憶し、前記複数の相関破壊パターンの内の、同種の相関破壊パターンを集約した集約破壊パターンを生成し、前記集約破壊パターンと新たに検出された相関破壊パターンとの類似度を算出し、出力する、処理を実行させるプログラムを格納する。
本発明の効果は、相関破壊パターンを用いたシステムの状態検出において、相関破壊パターンの汎用性を向上できることである。
本発明の実施の形態の特徴的な構成を示すブロック図である。 本発明の実施の形態におけるシステム分析装置100の構成を示すブロック図である。 本発明の実施の形態における、被監視システムの例を示す図である。 本発明の実施の形態における、集約破壊パターン生成処理を示すフローチャートである。 本発明の実施の形態における、異常度算出処理を示すフローチャートである。 本発明の実施の形態における、相関モデル122の例を示す図である。 本発明の実施の形態における、相関マップ125の例を示す図である。 本発明の実施の形態における、相関破壊検出結果の例を示す図である。 本発明の実施の形態における、相関破壊パターン123の例を示す図である。 本発明の実施の形態における、相関破壊検出結果の他の例を示す図である。 本発明の実施の形態における、相関破壊パターン123の他の例を示す図である。 本発明の実施の形態における、集約破壊パターン124の生成例を示す図である。 本発明の実施の形態における、相関破壊検出結果の他の例を示す図である。 本発明の実施の形態における、相関破壊パターン123の他の例を示す図である。 本発明の実施の形態における、類似度の算出例を示す図である。 本発明の実施の形態における、表示画面300の例を示す図である。
本発明の実施の形態について説明する。
はじめに、本発明の実施の形態の構成について説明する。図2は、本発明の実施の形態におけるシステム分析装置100の構成を示すブロック図である。
図2を参照すると、本発明の実施の形態におけるシステム分析装置100は、1以上の被監視装置200を含む被監視システムと接続される。被監視装置200は、被監視システムを構成するサーバ装置やネットワーク装置である。ここで、分散配置されるサーバ装置やネットワーク装置のように、同じサービスを提供する被監視装置200は、同一の装置グループに属する。ここで、被監視装置200の装置識別子が、装置グループの識別子を含むように付与されてもよい。
なお、以下の説明において、「」内の符号は、識別子を示す。例えば、装置グループ「WEB」は、識別子WEBの装置グループ、Webサーバ「WEB1」は、識別子WEB1のWebサーバを示す。
図3は、本発明の実施の形態における、被監視システムの例を示す図である。図3の例では、被監視システムは、被監視装置200として、ネットワーク装置「NW1」、「NW2」、Webサーバ「WEB1」、「WEB2」、「WEB3」、アプリケーション(AP)サーバ「AP1」、「AP2」、及び、データベース(DB)サーバ「DB1」、「DB2」を含む。ここで、ネットワーク装置「NW1」、「NW2」は、装置グループ「NW」に属する。Webサーバ「WEB1」、「WEB2」、「WEB3」は、装置グループ「WEB」に属する。アプリケーション(AP)サーバ「AP1」、「AP2」は、装置グループ「AP」に属する。データベース(DB)サーバ「DB1」、「DB2」は、装置グループ「WEB」に属する。
被監視装置200は、被監視装置200の複数種目の性能値の実測データ(計測値)を一定間隔毎に計測し、システム分析装置100へ送信する。性能値の種目として、例えば、CPU(Central Processing Unit)使用率、メモリ使用率、ディスクアクセス頻度、入出力パケット数等、コンピュータリソースやネットワークリソースの使用率や使用量が用いられる。
ここで、被監視装置200と性能値の種目の組をメトリック(性能指標)と定義し、同一時刻に計測された複数のメトリックの値の組を性能情報と定義する。メトリックは、整数や小数の数値より表される。メトリックは、特許文献1における相関モデルの生成対象である「要素」に相当する。
以下、メトリックの識別子を、装置識別子と性能値の種目の組により示す。例えば、メトリック「WEB1.CPU」は、Webサーバ「WEB1」のCPU使用率を示す。また、メトリック「NW1.IN」は、ネットワーク装置「NW1」の入力パケット数を示す。
システム分析装置100は、被監視装置200から収集した性能情報をもとに、被監視システムの相関モデル122を生成し、生成した相関モデル122を用いて、被監視システムの状態を分析する。
システム分析装置100は、性能情報収集部101、相関モデル生成部102、相関破壊検出部103、集約破壊パターン生成部104、類似度算出部105、及び、対話部106を含む。システム分析装置100は、さらに、性能情報記憶部111、相関モデル記憶部112、相関破壊パターン記憶部113、及び、集約破壊パターン記憶部114を含む。
性能情報収集部101は、被監視装置200から性能情報を収集する。
性能情報記憶部111は、性能情報収集部101が収集した性能情報の時系列変化を、性能系列情報121として記憶する。
相関モデル生成部102は、性能系列情報121をもとに、被監視システムの相関モデル122を生成する。
ここで、相関モデル122は、複数のメトリックの内のメトリックの各ペア(対)の相関関係を示す相関関数(または、変換関数)を含む。相関関数は、メトリックのペアの内の一方のメトリック(入力メトリック)の時刻tとtより前の時系列データと、他方のメトリック(出力メトリック)の時刻tより前の時系列データを用いて、時刻tでの出力メトリックの値を予測する関数である。相関モデル生成部102は、所定のモデル化期間の性能情報をもとに、各メトリックのペアについて、相関関数の係数を決定する。相関関数の係数は、特許文献1の運用管理装置と同様に、メトリックの計測値の時系列に対する、システム同定処理によって決定される。相関モデル生成部102は、特許文献1の運用管理装置と同様に、メトリックの各ペアについて、相関関数の変換誤差をもとに重みを算出し、重みが所定値以上の相関関数(有効な相関関数)の集合を相関モデル122としてもよい。
図6は、本発明の実施の形態における、相関モデル122の例を示す図である。相関モデル122は、メトリックの各ペアについての相関関数を含む。以下、入力メトリック(X)と出力メトリック(Y)の間の相関関数をfx,yと記載する。
図7は、本発明の実施の形態における、相関マップ125の例を示す図である。図7の相関マップ125は、図6の相関モデル122に対応する。図7において、相関モデル122は、ノード(丸印)と矢印から成るグラフで示される。ここで、各ノードはメトリックを示し、メトリック間の矢印は相関関係を示す。また、矢印の元のメトリックが入力メトリック、矢印の先のメトリックが出力メトリックを示す。
以下、相関モデル122における各相関関係を、入力メトリックの識別子と出力メトリックの識別子のペアにより示す。例えば、相関関係「NW1.IN−WEB1.CPU」は、メトリック「NW1.IN」を入力、メトリック「WEB1.CPU」を出力とする相関関係を示す。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
相関破壊検出部103は、特許文献1の運用管理装置と同様に、新たに入力された性能情報について、相関モデル122に含まれる相関関係の相関破壊を検出する。
ここで、相関破壊検出部103は、特許文献1と同様に、メトリックの各ペア(対)について、メトリックの計測値を相関関数に入力して出力メトリックの予測値を得る。そして、相関破壊検出部103は、得られた出力メトリックの予測値と、当該出力メトリックの計測値との差分(相関関数による変換誤差)が所定値以上の場合、当該ペアの相関関係の相関破壊として検出する。
図8、図10、及び、図13は、本発明の実施の形態における、相関破壊検出結果の例を示す図である。図8、図10、及び、図13では、図7の相関マップ125上で、相関破壊が検出された相関関係が、点線の矢印で示されている。
また、相関破壊検出部103は、相関破壊が検出された相関関係の集合である、相関破壊パターン123を生成する。
図9、図11、及び、図14は、本発明の実施の形態における、相関破壊パターン123の例を示す図である。図9、図11、及び、図14の相関破壊パターン123は、それぞれ、図8、図10、及び、図13の相関破壊検出結果に対応する。
相関破壊パターン123は、相関破壊が検出された相関関係の集合を含む。また、相関破壊パターン123は、さらに、相関破壊が検出されたときに発生した障害や異常を識別する、障害名や異常名を含んでいてもよい。この場合、障害名や異常名は、例えば、障害や異常が発生したときの相関破壊が検出された相関関係の集合に対して、管理者等により設定される。
相関破壊パターン記憶部113は、相関破壊検出部103が生成した相関破壊パターン123を記憶する。
集約破壊パターン生成部104は、相関破壊パターン記憶部113に記憶された相関破壊パターン123から、同種の相関破壊パターン123を抽出し、当該同種の相関破壊パターン123を集約した集約破壊パターン124を生成する。
集約破壊パターン記憶部114は、集約破壊パターン生成部104が生成した集約破壊パターン124を記憶する。
類似度算出部105は、新たに検出された相関破壊パターン123と集約破壊パターン124との類似度を算出する。
対話部106は、類似度算出部105による類似度の算出結果を管理者等に提示する。
システム分析装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、相関破壊パターン記憶部113、及び、集約破壊パターン記憶部114は、それぞれ個別の記憶媒体でも、1つの記憶媒体によって構成されてもよい。
次に、本発明の実施の形態におけるシステム分析装置100の動作について説明する。
ここでは、相関モデル生成部102により、所定のモデル化期間の性能情報をもとに、図6に示すような相関モデル122が生成され、相関モデル記憶部112に記憶されていると仮定する。また、Webサーバ「WEB1」、「WEB2」の障害時に検出された、図8、図10のような相関破壊に対して、図9、図11のような相関破壊パターン123a、123bが生成され、相関破壊パターン記憶部113に記憶されていると仮定する。
はじめに、本発明の実施の形態における、集約破壊パターン生成処理について説明する。
図4は、本発明の実施の形態における、集約破壊パターン生成処理を示すフローチャートである。
集約破壊パターン生成部104は、相関破壊パターン記憶部113に記憶されている相関破壊パターン123から、同種の相関破壊パターン123を抽出する(ステップS101)。
図12は、本発明の実施の形態における、集約破壊パターン124の生成例を示す図である。
ここで、集約破壊パターン生成部104は、相関破壊パターン123間で、メトリックの種類のペアが同じで、かつ、相関係数の差異が所定範囲内の相関関係を同種の相関関係と判定する。ここで、メトリックの種類のペアが同じとは、相関関係間で、入力メトリックの種類、及び、出力メトリックの種類がそれぞれ同じであることを意味する。そして、集約破壊パターン生成部104は、例えば、同種の相関関係を所定数以上、または、所定割合以上含む相関破壊パターン123を、同種の相関破壊パターン123として抽出する。
メトリックの種類は、被監視システム上で同様の振る舞いをするメトリックが同じ種類のメトリックとなるように決定される。例えば、同じサービスを提供する(同じ装置グループに属する)異なる被監視装置200における、同じ性能値の種目のメトリックは、同じ種類のメトリックである。
メトリックの種類は、例えば、メトリックの識別子に含まれる装置グループ、及び、性能値の種目をもとに決定される。また、メトリックの識別子がメトリックの種類を含む場合、メトリックの種類はメトリックの識別子から取得されてもよい。また、メトリックの識別子とメトリックの種類が対応付けられた情報が、図示しない記憶部に記憶されている場合、メトリックの種類は、当該情報をもとに決定されてもよい。
以下、メトリックの種類を、被監視装置200が属する装置グループと性能値の種目の組により示す。例えば、メトリックの種類「WEB.CPU」は、装置グループ「WEB」に属する被監視装置200のCPU使用率に係るメトリックを示す。また、メトリックの種類「NW.IN」は、装置グループ「NW」に属する被監視装置200の入力パケット数に係るメトリックを示す。また、メトリックの種類のペアを、入力メトリックの種類と出力メトリックの種類の組により示す。例えば、メトリックの種類のペア「NW.IN−WEB.CPU」は、入力メトリックの種類が「NW.IN」、出力メトリックの種類が「WEB.CPU」であることを示す。
例えば、図12において、相関破壊パターン123aに含まれる相関関係「NW1.IN−WEB1.CPU」と、相関破壊パターン123bに含まれる相関関係「NW2.IN−WEB3.CPU」のメトリックの種類のペアは、同一の「NW.IN−WEB.CPU」である。ここで、相関関係「NW1.IN−WEB1.CPU」の相関関数fn1,w1と、相関関係「NW2.IN−WEB3.CPU」の相関関数fn2,w3の相関係数の差異が所定の範囲内であると仮定する。この場合、集約破壊パターン生成部104は、これらの相関関係は同種であると判断する。
同様に、メトリックの種類のペアが「NW.IN−AP.CPU」である、相関関係「NW1.IN−AP1.CPU」の相関関数fw1,a1と、相関関係「NW2.IN−AP2.CPU」の相関関数fw2,a2の相関係数の差異が所定の範囲内であると仮定する。この場合、集約破壊パターン生成部104は、これらの相関関係も同種であると判断する。さらに、メトリックの種類のペアが「WEB.CPU−AP.CPU」である、相関関係「WEB1.CPU−AP1.CPU」の相関関数fw1,a1と、相関関係「WEB3.CPU−AP2.CPU」の相関関数fw3,a2の相関係数の差異が所定の範囲内であると仮定する。この場合、集約破壊パターン生成部104は、これらの相関関係も同種であると判断する。
一方、メトリックの種類のペアが「AP.CPU−DB.CPU」である、相関関係「AP1.CPU−DB1.CPU」の相関関数fa1,d1と、相関関係「AP2.CPU−DB2.CPU」の相関関数fa2,d2の相関係数の差異が所定の範囲を超えていると仮定する。この場合、集約破壊パターン生成部104は、これらの相関関係は同種でないと判断する。
そして、例えば、同種の相関関係の割合が60%以上の場合に、相関破壊パターン123が同種であると判断すると仮定する。この場合、集約破壊パターン生成部104は、相関破壊パターン123aと相関破壊パターン123bとを、同種の相関破壊パターン123として抽出する。
なお、集約破壊パターン生成部104は、相関係数を用いずに、メトリックの種類のペアが同じ相関関係を同種の相関関係と判定してもよい。
次に、集約破壊パターン生成部104は、同種の相関破壊パターン123をもとに、集約破壊パターン124を生成する(ステップS102)。
ここで、集約破壊パターン124は、同種の相関関係を集約した集約相関関係の集合を含む。集約相関関係には、同種の相関関係に係るメトリックの種類のペアが用いられる。
以下、各集約相関関係を、入力メトリックの種類と出力メトリックの種類のペアにより示す。例えば、集約相関関係「NW.IN−WEB.CPU」は、入力メトリックの種類が「NW.IN」、出力メトリックの種類が「WEB.CPU」である集約相関関係を示す。
例えば、集約破壊パターン生成部104は、図12において、同種の相関関係に係るメトリックの種類のペア「NW.IN−WEB.CPU」、「NW.IN−AP.CPU」、「WEB.CPU−AP.CPU」を集約相関関係として、集約破壊パターン124に設定する。
また、集約破壊パターン生成部104は、同種の相関破壊パターン123の障害名や異常名に対する共通な障害名や異常名を、集約破壊パターン124に設定してもよい。この場合、共通な障害名や異常名は、例えば、同種の相関破壊パターン123に対して、管理者等により設定されてもよい。
例えば、集約破壊パターン生成部104は、図12において、障害名「WEB障害」を、集約破壊パターン124に設定する。
次に、本発明の実施の形態における、異常度算出処理について説明する。
図5は、本発明の実施の形態における、異常度算出処理を示すフローチャートである。
相関破壊検出部103は、性能情報収集部101により新たに収集された性能情報を用いて、相関モデル122に含まれる相関関係の相関破壊を検出し、新たな相関破壊パターン123を生成する(ステップS201)。
例えば、相関破壊検出部103は、新たに収集された性能情報に対して図13のような相関破壊を検出し、図14の相関破壊パターン123cを生成する。
次に、類似度算出部105は、集約破壊パターン124と新たな相関破壊パターン123との類似度を算出する(ステップS202)。
ここで、類似度算出部105は、集約破壊パターン124に含まれる集約相関関係と新たな相関破壊パターン123に含まれる相関関係との間で、メトリックの種類のペアが同じ場合、当該集約相関関係と当該相関関係とが同種であると判定する。ここで、メトリックの種類のペアが同じとは、集約相関関係と相関関係との間で、入力メトリックの種類、及び、出力メトリックの種類がそれぞれ同じであることを意味する。そして、類似度算出部105は、例えば、集約破壊パターン124に含まれる集約相関関係の内、新たな相関破壊パターン123に含まれる相関関係と同種の集約相関関係の数や割合を類似度として算出する。
図15は、本発明の実施の形態における、類似度の算出例を示す図である。
例えば、図15において、相関破壊パターン123cに含まれる、相関関係「NW2.IN−WEB2.CPU」のメトリックの種類のペアは、集約破壊パターン124に含まれる集約相関関係「NW.IN−WEB.CPU」と同一である。したがって、類似度算出部105は、集約相関関係「NW.IN−WEB.CPU」と相関関係「NW2.IN−WEB3.CPU」とは、同種であると判断する。同様に、類似度算出部105は、集約相関関係「WEB.CPU−AP.CPU」と相関関係「WEB2.CPU−AP1.CPU」とは、同種であると判断する。
そして、類似度算出部105は、類似度として、同種の集約相関関係の割合である67%を算出する。
次に、類似度算出部105は、対話部106を介して、管理者等に、類似度の算出結果を出力する(ステップS203)。ここで、類似度算出部105は、集約破壊パターン124に含まれる障害名や異常名とともに、類似度を出力してもよい。また、類似度算出部105は、複数の集約破壊パターン124の各々に対する類似度を、類似度の順番で並べたリストを出力してもよい。
図16は、本発明の実施の形態における、表示画面300の例を示す図である。表示画面300は、類似度リスト表示部301、及び、相関破壊パターン比較画面302を含む。
図16の例では、類似度リスト表示部301には、障害名と類似度の組が、類似度の大きい順のリストとして表示されている。また、相関破壊パターン比較画面302には、選択された障害について、集約破壊パターン124(過去の障害時の相関破壊)と相関破壊パターン123(現在の相関破壊)の比較結果が表示されている。
管理者等は、表示画面300を参照し、類似度の大きい障害や異常が、監視対象システムにおいて発生している可能性があると判断できる。
例えば、管理者等は、図16の表示画面300をもとに、類似度の大きいWEBサーバ(「WEB2」)の障害が発生している可能性があると判断できる。
以上により、本発明の実施の形態の動作が完了する。
なお、本発明の実施の形態では、集約破壊パターン生成部104は、入力メトリックの種類、及び、出力メトリックの種類がそれぞれ同じ相関関係を、同種の相関関係として抽出している。しかしながら、集約破壊パターン生成部104は、一方の入力メトリックの種類、出力メトリックの種類が、他方の出力メトリックの種類、入力メトリックの種類とそれぞれ同じ相関関係を、同種の相関関係として抽出してもよい。同様に、類似度算出部105は、入力メトリックの種類、及び、出力メトリックの種類がそれぞれ同じ集約相関関係と相関関係を同種と判定している。しかしながら、類似度算出部105は、一方の入力メトリックの種類、出力メトリックの種類が、他方の出力メトリックの種類、入力メトリックの種類とそれぞれ同じ集約相関関係と相関関係を同種と判定してもよい。
次に、本発明の実施の形態の特徴的な構成を説明する。図1は、本発明の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、システム分析装置100は、相関破壊パターン記憶部113、集約破壊パターン生成部104、及び、類似度算出部105を含む。
相関破壊パターン記憶部113は、システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターン123を複数記憶する。集約破壊パターン生成部104は、複数の相関破壊パターン123の内の、同種の相関破壊パターン123を集約した集約破壊パターン124を生成する。類似度算出部105は、集約破壊パターン124と新たに検出された相関破壊パターン123との類似度を算出し、出力する。
本発明の実施の形態によれば、相関破壊パターンを用いたシステムの状態検出において、相関破壊パターンの汎用性を向上できる。その理由は、次の通りである。すなわち、集約破壊パターン生成部104が、複数の相関破壊パターン123の内の、同種の相関破壊パターン123を集約した集約破壊パターン124を生成する。そして、類似度算出部105が、集約破壊パターン124と新たに検出された相関破壊パターン123との類似度を算出するためである。
これにより、分散処理を行う同種の装置を追加するような相関モデルの変更があった場合でも、過去の障害や異常時の相関破壊パターン123をもとに生成された集約破壊パターン124を用いて、障害や異常の要因を判定できる。また、過去と現在の障害や異常が発生した装置が、分散処理を行う同種の異なる装置の場合でも、集約破壊パターン124を用いて、障害や異常の要因を判定できる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、上記実施の形態では、被監視システムを、サーバ装置やネットワーク装置等を被監視装置200として含むITシステムとした。しかしながら、被監視システムの相関モデルを生成し、相関破壊により異常要因を判定できれば、被監視システムは他のシステムでもよい。例えば、被監視システムは、工場の設備、発電所等のプラントシステム、橋梁、トンネル等の構造物、自動車、航空機等の輸送機器であってもよい。この場合、システム分析装置100は、例えば、温度、振動、位置、電流、電圧、速度、角度等の各種センサの値をメトリックとして相関モデル122を生成する。そして、システム分析装置100は、同一の種類で、同様の振る舞いをする(例えば、同様の位置に配置された)センサを、同じ種類のメトリックとして、集約破壊パターン124の生成、及び、類似度の算出を行う。
この出願は、2013年2月18日に出願された日本出願特願2013−028746を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、相関モデル上で検出された相関破壊により異常や障害の要因を判定する、ITシステムや、プラントシステム、物理的システム、社会的システム等のシステム分析に適用できる。
100 システム分析装置
101 性能情報収集部
102 相関モデル生成部
103 相関破壊検出部
104 集約破壊パターン生成部
105 類似度算出部
106 対話部
111 性能情報記憶部
112 相関モデル記憶部
113 相関破壊パターン記憶部
114 集約破壊パターン記憶部
121 性能系列情報
122 相関モデル
123 相関破壊パターン
124 集約破壊パターン
125 相関マップ
200 被監視装置
300 表示画面
301 類似度リスト表示部
302 相関破壊パターン比較画面

Claims (12)

  1. システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターンを複数記憶する、相関破壊パターン記憶手段と、
    前記複数の相関破壊パターンの内の、同種の相関破壊パターンを集約した集約破壊パターンを生成する、集約破壊パターン生成手段と、
    前記集約破壊パターンと新たに検出された相関破壊パターンとの類似度を算出し、出力する、類似度算出手段と、
    を備えるシステム分析装置。
  2. 前記集約破壊パターン生成手段は、同種の相関関係を、所定数、または、所定割合以上含む相関破壊パターンを、同種の相関破壊パターンとして抽出し、当該抽出した相関破壊パターン間で、同種の相関関係を集約した集約相関関係の集合を、前記集約破壊パターンとして生成し、
    前記類似度算出手段は、前記集約破壊パターンに含まれる集約相関関係の内、前記新たに検出された相関破壊パターンに含まれる相関関係と同種の集約相関関係の数、または、割合を、前記類似度として算出する、
    請求項1に記載のシステム分析装置。
  3. 前記集約破壊パターン生成手段は、メトリックの種類のペアが同じ相関関係を同種の相関関係と判定し、同種の相関関係に係るメトリックの種類のペアを前記集約相関関係として用い、
    前記類似度算出手段は、前記集約相関関係のメトリックの種類のペアと前記新たに検出された相関破壊パターンに含まれる相関関係に係るメトリックの種類のペアとが同じ場合、当該集約相関関係と当該相関関係とが同種であると判定する、
    請求項2に記載のシステム分析装置。
  4. 前記集約破壊パターン生成手段は、メトリックの種類のペアが同じで、かつ、相関係数の差異が所定範囲内の相関関係を同種の相関関係と判定する、
    請求項3に記載のシステム分析装置。
  5. システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターンを複数記憶し、
    前記複数の相関破壊パターンの内の、同種の相関破壊パターンを集約した集約破壊パターンを生成し、
    前記集約破壊パターンと新たに検出された相関破壊パターンとの類似度を算出し、出力する、
    システム分析方法。
  6. 前記集約破壊パターンを生成する場合、同種の相関関係を、所定数、または、所定割合以上含む相関破壊パターンを、同種の相関破壊パターンとして抽出し、当該抽出した相関破壊パターン間で、同種の相関関係を集約した集約相関関係の集合を、前記集約破壊パターンとして生成し、
    前記類似度を算出する場合、前記集約破壊パターンに含まれる集約相関関係の内、前記新たに検出された相関破壊パターンに含まれる相関関係と同種の集約相関関係の数、または、割合を、前記類似度として算出する、
    請求項5に記載のシステム分析方法。
  7. 前記集約破壊パターンを生成する場合、メトリックの種類のペアが同じ相関関係を同種の相関関係と判定し、同種の相関関係に係るメトリックの種類のペアを前記集約相関関係として用い、
    前記類似度を算出する場合、前記集約相関関係のメトリックの種類のペアと前記新たに検出された相関破壊パターンに含まれる相関関係に係るメトリックの種類のペアとが同じ場合、当該集約相関関係と当該相関関係とが同種であると判定する、
    請求項6に記載のシステム分析方法。
  8. 前記集約破壊パターンを生成する場合、メトリックの種類のペアが同じで、かつ、相関係数の差異が所定範囲内の相関関係を同種の相関関係と判定する、
    請求項7に記載のシステム分析方法。
  9. コンピュータに、
    システムにおけるメトリックのペアの相関関係の内の相関破壊が検出された相関関係の集合である相関破壊パターンを複数記憶し、
    前記複数の相関破壊パターンの内の、同種の相関破壊パターンを集約した集約破壊パターンを生成し、
    前記集約破壊パターンと新たに検出された相関破壊パターンとの類似度を算出し、出力する、
    処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  10. 前記集約破壊パターンを生成する場合、同種の相関関係を、所定数、または、所定割合以上含む相関破壊パターンを、同種の相関破壊パターンとして抽出し、当該抽出した相関破壊パターン間で、同種の相関関係を集約した集約相関関係の集合を、前記集約破壊パターンとして生成し、
    前記類似度を算出する場合、前記集約破壊パターンに含まれる集約相関関係の内、前記新たに検出された相関破壊パターンに含まれる相関関係と同種の集約相関関係の数、または、割合を、前記類似度として算出する、
    処理を実行させる請求項9に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  11. 前記集約破壊パターンを生成する場合、メトリックの種類のペアが同じ相関関係を同種の相関関係と判定し、同種の相関関係に係るメトリックの種類のペアを前記集約相関関係として用い、
    前記類似度を算出する場合、前記集約相関関係のメトリックの種類のペアと前記新たに検出された相関破壊パターンに含まれる相関関係に係るメトリックの種類のペアとが同じ場合、当該集約相関関係と当該相関関係とが同種であると判定する、
    処理を実行させる請求項10に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  12. 前記集約破壊パターンを生成する場合、メトリックの種類のペアが同じで、かつ、相関係数の差異が所定範囲内の相関関係を同種の相関関係と判定する、
    処理を実行させる請求項11に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
JP2015500136A 2013-02-18 2014-02-05 システム分析装置、及び、システム分析方法 Active JP5971395B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013028746 2013-02-18
JP2013028746 2013-02-18
PCT/JP2014/000613 WO2014125796A1 (ja) 2013-02-18 2014-02-05 システム分析装置、及び、システム分析方法

Publications (2)

Publication Number Publication Date
JP5971395B2 true JP5971395B2 (ja) 2016-08-17
JPWO2014125796A1 JPWO2014125796A1 (ja) 2017-02-02

Family

ID=51353809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015500136A Active JP5971395B2 (ja) 2013-02-18 2014-02-05 システム分析装置、及び、システム分析方法

Country Status (5)

Country Link
US (1) US20150363250A1 (ja)
EP (1) EP2958023B1 (ja)
JP (1) JP5971395B2 (ja)
CN (1) CN105027088B (ja)
WO (1) WO2014125796A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5267736B2 (ja) * 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10445253B2 (en) * 2016-04-20 2019-10-15 International Business Machines Corporation Cost effective service level agreement data management
JP2017204017A (ja) * 2016-05-09 2017-11-16 公益財団法人鉄道総合技術研究所 プログラム、生成装置及び予兆検知装置
CN112164417A (zh) * 2020-10-10 2021-01-01 上海威固信息技术股份有限公司 一种存储芯片的性能检测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168619A (ja) * 1993-10-20 1995-07-04 Hitachi Ltd 機器/設備診断方法およびシステム
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4201027B2 (ja) * 2006-07-10 2008-12-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数の観測結果の間の差異を検出するシステムおよびその方法
US7770072B2 (en) * 2007-01-16 2010-08-03 Xerox Corporation Method and system for analyzing time series data
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
CN102713862B (zh) * 2010-02-15 2015-12-02 日本电气株式会社 故障原因提取装置、故障原因提取方法和程序记录介质
US8069370B1 (en) * 2010-07-02 2011-11-29 Oracle International Corporation Fault identification of multi-host complex systems with timesliding window analysis in a time series
EP2657843B1 (en) * 2010-12-20 2020-04-08 Nec Corporation Operation management device, operation management method, and program
CN103502951B (zh) * 2011-03-23 2016-12-07 日本电气株式会社 操作管理系统、操作管理方法及其程序
JP5803463B2 (ja) * 2011-09-13 2015-11-04 日本電気株式会社 セキュリティイベント監視装置、方法およびプログラム
US9389946B2 (en) * 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
WO2013111560A1 (ja) * 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168619A (ja) * 1993-10-20 1995-07-04 Hitachi Ltd 機器/設備診断方法およびシステム
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体

Also Published As

Publication number Publication date
CN105027088A (zh) 2015-11-04
US20150363250A1 (en) 2015-12-17
EP2958023A1 (en) 2015-12-23
EP2958023A4 (en) 2016-11-16
JPWO2014125796A1 (ja) 2017-02-02
EP2958023B1 (en) 2022-04-27
WO2014125796A1 (ja) 2014-08-21
CN105027088B (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
WO2012101933A1 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
JP6489235B2 (ja) システム分析方法、システム分析装置、および、プログラム
JPWO2018073960A1 (ja) 表示方法、表示装置、および、プログラム
JP5267748B2 (ja) 運用管理システム、運用管理方法、及びプログラム
JP6176390B2 (ja) 情報処理装置、解析方法、及び、プログラム記録媒体
JP6915693B2 (ja) システム分析方法、システム分析装置、および、プログラム
US10157113B2 (en) Information processing device, analysis method, and recording medium
US11271832B2 (en) Communication monitoring apparatus and communication monitoring method
JP2019145160A (ja) 表示方法、表示装置、および、プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R150 Certificate of patent or registration of utility model

Ref document number: 5971395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150