JP6160673B2 - 運用管理装置、運用管理方法、及びプログラム - Google Patents

運用管理装置、運用管理方法、及びプログラム Download PDF

Info

Publication number
JP6160673B2
JP6160673B2 JP2015206891A JP2015206891A JP6160673B2 JP 6160673 B2 JP6160673 B2 JP 6160673B2 JP 2015206891 A JP2015206891 A JP 2015206891A JP 2015206891 A JP2015206891 A JP 2015206891A JP 6160673 B2 JP6160673 B2 JP 6160673B2
Authority
JP
Japan
Prior art keywords
metric
correlation
degree
metrics
abnormality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015206891A
Other languages
English (en)
Other versions
JP2016015171A (ja
Inventor
謙太郎 矢吹
謙太郎 矢吹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015206891A priority Critical patent/JP6160673B2/ja
Publication of JP2016015171A publication Critical patent/JP2016015171A/ja
Application granted granted Critical
Publication of JP6160673B2 publication Critical patent/JP6160673B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Description

本発明は、運用管理装置、運用管理方法、及びプログラムに関し、特に、システムの障害検出を行う運用管理装置、運用管理方法、及びプログラムに関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害を検出する運用管理システムの一例が特許文献1に記載されている。
特許文献1記載の運用管理システムは、システムの複数のメトリック(性能指標)の計測値をもとに、複数のメトリック間の組み合わせのそれぞれに対して相関関数を決定することにより、複数の相関関係を示す相関関数を含む相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、新たに入力されたメトリックの計測値に対する相関関係の破壊(相関破壊)を検出し、相関破壊をもとに障害の要因を判定する。このように、相関破壊をもとに障害要因を分析する技術は、不変関係分析と呼ばれる。
特開2009‐199533号公報
上述の特許文献1に記載された不変関係分析においては、各メトリックについて、当該メトリックと他のメトリックとの間の相関関数の内の相関破壊が検出された相関関係の数や割合を異常度とし、異常度をもとに障害の要因を判定する。しかしながら、各メトリック間の相関関係の有無の状況や、各メトリックが有する相関関係の数によっては、障害要因が正確に判定できない場合がある。
図10から図13は、特許文献1の不変関係分析における、異常度の算出結果の例を示す図である。ここで、各ノードはメトリックを示し、メトリック間の矢印は、2つのメトリックの内の一方から他方への相関関係を示す。また、太線で示されたノードは、障害要因である被監視装置やリソースに関するメトリック(障害要因メトリック)を、太線の矢印は、相関破壊が検出されている相関関係を示す。さらに、各ノードに添付された括弧内の数字は、当該メトリックの異常度を示す。図10及び図12では、メトリックSV1に関する障害により、メトリックSV1と他のメトリックとの間で相関破壊が発生している。図11及び図13では、メトリックSV2に関する障害により、メトリックSV2とSV1の間に相関破壊が発生している。
図10及び図11は、相関破壊が検出された相関関係の数を異常度とした場合の例である。例えば、図10では、メトリックSV1の異常度が大きく(異常度=4)、メトリックSV1が障害要因と判定できる。しかしながら、図11では、メトリックSV1、SV2の異常度が同一(異常度=1)であり、メトリックSV1とSV2のどちらが障害要因か判定できない。このように、相関破壊が検出された相関関係の数を異常度とする場合、図11のような他の障害要因により発生した相関破壊や、たまたま発生したノイズによる相関破壊の影響により、障害要因を正確に判定できないことがある。
図12及び図13は、相関破壊が検出された相関関係の割合を異常度とした場合の例である。例えば、図12では、メトリックSV1〜5の異常度が同一(異常度=1.0)であり、メトリックSV1〜5の内のどれが障害要因か判定できない。しかしながら、図13では、メトリックSV2の異常度(異常度=1.0)が、メトリックSV1の異常度(異常度=0.25)より大きく、メトリックSV2が障害要因と判定できる。このように、相関破壊が検出された相関関係の割合を異常度とする場合、相関関係の数を異常度とした場合の問題は改善されるが、各メトリックの相関関係の数によっては、図12のように、障害要因を正確に判定できないことがある。
本発明の目的は、上述の課題を解決し、不変関係分析において、障害要因を正確に判定できる運用管理装置、運用管理方法、及びプログラムを提供することである。
本発明の一態様における運用管理装置は、システムにおける複数メトリックの相関関係を示す相関関数を1以上含む相関モデルを記憶する相関モデル記憶手段と、新たに入力された前記複数メトリックの値を前記相関モデルに適用し、当該相関モデルに含まれる前記相関関係の相関破壊を検出する相関破壊検出手段と、前記相関破壊をもとに、障害要因である第一のメトリックと、前記第一のメトリック以外の異常なメトリックである第二のメトリックと、を区別して出力する異常度算出手段と、を含む。
本発明の一態様における運用管理方法は、システムにおける複数メトリックの相関関係を示す相関関数を1以上含む相関モデルに、新たに入力された前記複数メトリックの値を適用し、当該相関モデルに含まれる前記相関関係の相関破壊を検出し、前記相関破壊をもとに、障害要因である第一のメトリックと、前記第一のメトリック以外の異常なメトリックである第二のメトリックと、を区別して出力する。
本発明の一態様におけるプログラムは、コンピュータに、システムにおける複数メトリックの相関関係を示す相関関数を1以上含む相関モデルに、新たに入力された前記複数メトリックの値を適用し、当該相関モデルに含まれる前記相関関係の相関破壊を検出し、前記相関破壊をもとに、障害要因である第一のメトリックと、前記第一のメトリック以外の異常なメトリックである第二のメトリックと、を区別して出力する、処理を実行させる。
本発明の効果は、不変関係分析において、障害要因を正確に判定できることである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態における運用管理装置100を適用した運用管理システムの構成を示すブロック図である。 本発明の第1の実施の形態における、運用管理装置100の処理を示すフローチャートである。 本発明の第1の実施の形態における、相関モデル122の例を示す図である。 本発明の第1の実施の形態における、相関破壊の検出例と異常度の算出方法の例を示す図である。 本発明の第1の実施の形態における、相関破壊の検出例と異常度の算出方法の他の例を示す図である。 本発明の第1の実施の形態における、異常度の算出結果の例を示す図である。 本発明の第1の実施の形態における、異常度の算出結果の他の例を示す図である。 本発明の第1の実施の形態における、解析結果130の例を示す図である。 特許文献1の不変関係分析における、異常度の算出結果の例を示す図である。 特許文献1の不変関係分析における、異常度の算出結果の他の例を示す図である。 特許文献1の不変関係分析における、異常度の算出結果の他の例を示す図である。 特許文献1の不変関係分析における、異常度の算出結果の他の例を示す図である。
(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における運用管理装置100を適用した運用管理システムの構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における運用管理システムは、運用管理装置100、及び、1以上の被監視装置200を含む。運用管理装置100と被監視装置200とは、ネットワークにより接続される。
被監視装置200は、WebサーバやDatabaseサーバ等、システムを構成する装置である。
被監視装置200は、被監視装置200の複数種目の性能値の実測データ(計測値)を一定間隔毎に計測し、運用管理装置100へ送信する。性能値の種目として、例えば、CPU(Central Processing Unit)使用率、メモリ使用率、ディスクアクセス頻度等、コンピュータリソースの使用率や使用量が用いられる。
ここで、被監視装置200と性能値の種目の組をメトリック(性能指標)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックは、整数や小数の数値より表される。また、メトリックは、特許文献1における要素に相当する。
運用管理装置100は、監視対象である被監視装置200から収集した性能情報をもとに、被監視装置200についての相関モデル122を生成し、生成した相関モデル122を用いて、被監視装置200の障害や異常の検出を行う。
運用管理装置100は、性能情報収集部101、相関モデル生成部102、相関破壊検出部103、異常度算出部104、表示部105、性能情報記憶部111、相関モデル記憶部112、及び、相関破壊記憶部113を含む。
性能情報収集部101は、被監視装置200から性能情報を収集し、その時系列変化を性能系列情報121として性能情報記憶部111に保存する。
相関モデル生成部102は、性能系列情報121をもとに、被監視装置200により構成されるシステムの相関モデル122を生成する。
ここで、相関モデル122は、複数のメトリックの内の2つのメトリックの組み合わせ毎の、当該2つのメトリック間の相関関係を示す相関関数(または、変換関数)を含む。相関関数は、1つのメトリックの値の時系列から他のメトリックの値の時系列を予測する関数である。相関モデル生成部102は、所定のモデル化期間の性能系列情報121をもとに、各メトリックの組み合わせについて、相関関数の係数を決定する。相関関数の係数は、特許文献1の運用管理装置と同様に、メトリックの計測値の時系列に対する、システム同定処理によって決定される。
なお、相関モデル生成部102は、特許文献1の運用管理装置と同様に、各メトリックの組み合わせについて、相関関数の重みを算出し、重みが所定値以上の相関関数の集合を相関モデル122としてもよい。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
図4は、本発明の第1の実施の形態における、相関モデル122の例を示す図である。図4において、相関モデル122は、ノードと矢印を含むグラフで示される。ここで、各ノードはメトリックを示し、メトリック間の矢印は、2つのメトリックの内の一方から他方への相関関係を示す。これらの相関関係のそれぞれについて、相関関数が決定される。
図4の相関モデル122では、装置識別子SV1〜5の被監視装置200の各々に1つのメトリック(以下、メトリックSV1〜5とする)が存在し、メトリックSV1〜5の内の2つのメトリックの組み合わせ毎に、相関関係が示されている。
相関破壊検出部103は、特許文献1の運用管理装置と同様に、新たに入力された性能情報について、相関モデル122に含まれる相関関係の相関破壊を検出する。
ここで、相関破壊検出部103は、特許文献1と同様に、複数のメトリックの内の2つのメトリックの内の一方のメトリックの計測値を、当該2つのメトリックに対応する相関関数に入力して得られた他方のメトリックの予測値と、当該他方のメトリックの計測値との差分(相関関数による変換誤差)が所定値以上の場合、当該2つのメトリック間の相関関係の相関破壊として検出する。
相関破壊記憶部113は、相関破壊が検出された相関関係を示す相関破壊情報123を記憶する。
図5及び図6は、本発明の第1の実施の形態における、相関破壊の検出例と異常度の算出方法の例を示す図である。図5及び図6において、太線の矢印は、図4の相関モデル122において、相関破壊が検出されている相関関係を示す。また、図5において、太線で示されたノードは、障害要因である被監視装置200のメトリック(障害要因メトリック)を示す。図5の例では、装置識別子SV1の被監視装置200の障害により、メトリックSV1とメトリックSV2〜5との間の相関関数に、相関破壊が発生している。また、図6の例では、装置識別子SV2〜5のいずれかの被監視装置200の障害、あるいは、メトリックの計測値のノイズにより、各相関関数に、相関破壊が発生している。
異常度算出部104は、相関モデル122上での相関破壊の分布をもとに、各メトリックについて、異常度を算出する。以下、図5及び図6を参照して、異常度の算出方法を説明する。
図5に示すように、被監視装置200やリソースに障害が発生した場合、当該被監視装置200やリソースに関するメトリック(障害要因メトリック)に異常が発生するため、障害要因メトリックと、当該障害要因メトリックと相関関係を有するメトリック(隣接メトリック)との間の相関関係には、相関破壊が発生する。ここで、あるメトリック(第1のメトリック、ここでは、メトリックSV1)と第1のメトリックの隣接メトリック(第2のメトリック、ここでは、メトリックSV2〜SV5)との間の相関関数の相関破壊の度合いが大きいほど、当該メトリックが障害要因メトリックである可能性が高いと推定できる。
また、障害の波及により、障害要因メトリックの隣接メトリックや他のメトリックにも異常が発生するため、隣接メトリックと他のメトリックとの間の相関関係にも相関破壊が発生することがあるが、隣接メトリックと他のメトリックとの間に相関破壊が発生する可能性は、障害要因メトリックと隣接メトリックとの間に相関破壊が発生する可能性より低いと仮定する。この場合、相関破壊は、相関モデル122上で、障害要因メトリックを中心に分布する。したがって、図5に示すように、あるメトリック(第1のメトリック、ここでは、メトリックSV1)の隣接メトリック(第2のメトリック、ここでは、メトリックSV2〜SV5)と、第1のメトリック以外の他のメトリックとの間の相関関係の相関破壊が少ない場合、すなわち、第1のメトリックが相関破壊の分布の中心にある場合、第1のメトリックが障害要因メトリックである可能性が高いと推定できる。
また、図6に示すように、あるメトリック(第1のメトリック、ここでは、メトリックSV1)の隣接メトリック(第2のメトリック、ここでは、メトリックSV2〜SV5)と、第1のメトリック以外の他のメトリックとの間の相関関係の相関破壊が多い場合、すなわち、第1のメトリックが相関破壊の分布の中心にない場合、第1のメトリックが障害要因メトリックである可能性が低いと推定できる。
異常度算出部104は、各メトリックに関して、上述の、相関破壊の度合い(相関破壊度)、及び、相関破壊の分布の中心にある度合い(中心度)を算出し、相関破壊度と中心度とをもとに、異常度を算出する。
異常度算出部104は、例えば、数1式により、相関破壊度を算出する。
Figure 0006160673
ここで、N0は、異常度算出の対象メトリックが有する相関関係の数、Nd0は、対象メトリックが有する相関関係の内、相関破壊が検出された相関関係の数を示す。
例えば、図5の場合、異常度算出部104は、メトリックSV1について、相関破壊度1.0を得る。また、図6の場合も、異常度算出部104は、メトリックSV1について、相関破壊度1.0を得る。
また、異常度算出部104は、例えば、数2式により、中心度を算出する。
Figure 0006160673

ここで、nは、異常度算出の対象メトリックと相関関係を有するメトリック(隣接メトリック)の数である。Niは、i番目の隣接メトリックと対象メトリック以外のメトリックとの相関関係の数、Ndiは、i番目の隣接メトリックと対象メトリック以外のメトリックとの相関関係の内、相関破壊が検出された相関関係の数を示す。
例えば、図5の場合、異常度算出部104は、メトリックSV1について、中心度1.0を得る。また、図6の場合、異常度算出部104は、メトリックSV1について、中心度0を得る。
さらに、異常度算出部104は、例えば、数3式により、異常度を算出する。
Figure 0006160673
例えば、図5の場合、異常度算出部104は、メトリックSV1について、異常度2.0を得る。また、図6の場合、異常度算出部104は、メトリックSV1について、異常度1.0を得る。
なお、異常度算出部104は、対象メトリックが有する相関関数の相関破壊の度合いを算出できれば、数1式に限らず、他の方法で、相関破壊度を算出してもよい。例えば、異常度算出部104は、対象メトリックが有する相関関数の内の相関破壊が検出された相関関数の数や、対象メトリックが有する相関関数による変換誤差の大きさをもとに、相関破壊度を算出してもよい。
また、異常度算出部104は、対象メトリックが相関破壊の分布の中心にある度合いを算出できれば、数2式に限らず、他の方法で、中心度を算出してもよい。例えば、異常度算出部104は、隣接メトリックが有する相関関数の内の相関破壊が検出された相関関数の数や、隣接メトリックが有する相関関数による変換誤差の大きさをもとに、中心度を算出してもよい。さらに、異常度算出部104は、隣接メトリックに関する相関破壊の分布に限らず、相関モデル122上の、対象メトリックから所定数の相関関数の範囲において検出された相関破壊の分布や、相関モデル122全体で検出された相関破壊の分布に対して中心度を算出してもよい。
また、異常度算出部104は、相関破壊度や中心度の増加に伴い、大きな異常度が得られれば、数3式に限らず、他の方法で、異常度を算出してもよい。例えば、異常度算出部104は、相関破壊度に中心度を乗じることにより、異常度を算出してもよい。
異常度算出部104は、算出した相関破壊度、中心度、及び、異常度を含む解析結果130を、表示部105を介して出力する。表示部105は、解析結果130を表示する。ここで、異常度算出部104は、解析結果130を、ファイルとして出力してもよい。
なお、運用管理装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、及び、相関破壊記憶部113は、それぞれ個別の記憶媒体でも、一つの記憶媒体によって構成されてもよい。
次に、本発明の第1の実施の形態における運用管理装置100の動作について説明する。
図3は、本発明の第1の実施の形態における、運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100の性能情報収集部101は、被監視装置200から性能情報を収集し、性能情報記憶部111に保存する(ステップS101)。
相関モデル生成部102は、性能情報記憶部111の性能系列情報121を参照し、管理者等により指定された所定のモデル化期間の性能情報をもとに、相関モデル122を生成し、相関モデル記憶部112に保存する(ステップS102)。
図7及び図8は、本発明の第1の実施の形態における、異常度の算出結果の例を示す図である。図7及び図8の相関モデル122及び相関破壊の検出状況は、それぞれ、図10及び図11、あるいは、図12及び図13の相関モデル122及び相関破壊の検出状況に対応する。
例えば、相関モデル生成部102は、図7に示すような相関モデル122を生成する。
次に、相関破壊検出部103は、性能情報収集部101により新たに収集された性能情報を用いて、相関モデル122に含まれる相関関係の相関破壊を検出し、相関破壊情報123を生成する(ステップS103)。相関破壊検出部103は、相関破壊情報123を相関破壊記憶部113に保存する。
例えば、相関破壊検出部103は、図7に示すように相関破壊を検出する。
次に、異常度算出部104は、各メトリックについて、数1式により、相関破壊度を算出する(ステップS104)。また、異常度算出部104は、各メトリックについて、数2式により、中心度を算出する(ステップS105)。さらに、異常度算出部104は、各メトリックについて、数3式により、異常度を算出する(ステップS106)。
例えば、相関破壊検出部103は、図7の表に示すように、相関破壊度、中心度、及び、異常度を算出する。図7において、メトリックSV1の中心度、異常度が、他のメトリックより大きい。したがって、メトリックSV1が障害要因メトリックである可能性が高いと判断できる。
また、図8のように相関破壊が検出された場合、異常度は、それぞれ、図8の表のように算出される。図8において、メトリックSV1、SV2の中心度が、他のメトリックより大きく、さらに、メトリックSV2の異常度が、他のメトリックより大きい。したがって、メトリックSV2が障害要因メトリックである可能性が高いと判断できる。
次に、異常度算出部104は、算出した相関破壊度、中心度、及び、異常度を含む解析結果130を、表示部105を介して出力する(ステップS107)。
図9は、本発明の第1の実施の形態における、解析結果130の例を示す図である。図9において、解析結果130は、相関破壊検出結果131、及び、異常度リスト132を含む。
相関破壊検出結果131は、相関モデル122を示すグラフ上で、相関破壊が検出された相関関係を示す。図9の例では、中心度が大きいメトリックに対するノードが点線で囲まれており、異常度が大きいメトリックが黒色のノードで示されている。異常度リスト132は、相関破壊が検出された相関関係に関係するメトリックと当該メトリックの相関破壊度、中心度、及び異常度を示す。図9の例では、相関破壊が検出された相関関係に関係するメトリックが、異常度が大きい順に示されている。
管理者は、解析結果130を参照し、中心度、及び、異常度の大きいメトリックに関する被監視装置200やリソースを障害要因の候補として把握できる。
例えば、異常度算出部104は、図7の異常度算出結果に対して、図9のような解析結果130を表示部105へ出力する。管理者は、図9の解析結果130を参照し、装置識別子SV1の被監視装置200を障害要因の候補として把握する。
なお、異常度算出部104は、解析結果130において、異常度が最も大きいメトリックに関する被監視装置200やリソースの識別子を、障害要因の候補として、示してもよい。
以上により、本発明の第1の実施の形態の動作が完了する。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、運用管理装置100は、相関モデル記憶部112、相関破壊検出部103、及び、異常度算出部104を含む。
相関モデル記憶部112は、システムにおける複数メトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデル122を記憶する。相関破壊検出部103は、新たに入力された複数メトリックの値を相関モデル122に適用し、当該相関モデル122に含まれる相関関係の相関破壊を検出する。異常度算出部104は、複数メトリックの内の第1のメトリックと相関関係を有する1以上の第2のメトリックと、第1のメトリック以外の1以上の他のメトリックと、の間の1以上の相関関係の相関破壊の度合いをもとに、第1のメトリックが相関破壊の分布の中心と推定される度合いである中心度を算出し、出力する。
本発明の第1の実施の形態によれば、不変関係分析において、障害要因を正確に判定できる。その理由は、異常度算出部104が、複数メトリックの内の第1のメトリックと相関関係を有する1以上の第2のメトリックと、第1のメトリック以外の1以上の他のメトリックと、の間の相関関係の相関破壊の度合いをもとに、第1のメトリックが相関破壊の分布の中心と推定される度合いである中心度を算出し、出力するためである。
また、本発明の第1の実施の形態によれば、不変関係分析において、障害要因をより正確に判定できる。その理由は、異常度算出部104が、第1のメトリックと1以上の第2のメトリックとの間の相関関係の相関破壊の度合いと、第1のメトリックに対して算出された中心度とをもとに、第1のメトリックの異常度を算出するためである。
また、本発明の第1の実施の形態によれば、不変関係分析において、障害要因を判断するための相関破壊の分布の中心を容易に把握できる。その理由は、異常度算出部104が、解析結果130における相関モデル122上の相関破壊を示すグラフ上で、中心度が大きいメトリックを示すためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年1月23日に出願された日本出願特願2012−011076を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 運用管理装置
101 性能情報収集部
102 相関モデル生成部
103 相関破壊検出部
104 異常度算出部
105 表示部
111 性能情報記憶部
112 相関モデル記憶部
113 相関破壊記憶部
121 性能系列情報
122 相関モデル
123 相関破壊情報
130 解析結果
131 相関破壊検出結果
132 異常度リスト
200 被監視装置

Claims (5)

  1. システムにおける複数メトリックの相関関係を示す相関関数を1以上含む相関モデルを記憶する相関モデル記憶手段と、
    新たに入力された前記複数メトリックの値を前記相関モデルに適用し、当該相関モデルに含まれる前記相関関係の相関破壊を検出する相関破壊検出手段と、
    前記相関破壊をもとに、障害要因であって相関破壊分布の中心と推定される第一のメトリックと、前記第一のメトリック以外の異常なメトリックである第二のメトリックと、を区別して出力する異常度算出手段と、
    を含み、
    前記異常度算出手段は、前記複数メトリックの各々について、当該メトリックが障害要因メトリックである度合いとして、当該メトリックが相関破壊の分布の中心と推定される度合いである中心度を算出し、当該メトリックが障害要因メトリックである度合いをもとに、当該メトリックの前記異常度を算出し、当該異常度をもとに、前記相関破壊が検出された前記相関関係に係るメトリックを、前記第一のメトリックと、前記第二のメトリックと、に区別する、
    運用管理装置。
  2. 前記異常度算出手段は、前記複数メトリックの各々について、当該メトリックと相関関係を有する1以上の他のメトリックと、当該メトリック以外の1以上のさらに他のメトリックと、の間の1以上の相関関係の相関破壊の度合いをもとに、当該メトリックの前記中心度を算出する、
    請求項に記載の運用管理装置。
  3. 前記異常度算出手段は、前記複数メトリックの各々について、当該メトリックと前記1以上の他のメトリックとの間の1以上の相関関係の相関破壊の度合いと、当該メトリックに対して算出された前記中心度と、をもとに、当該メトリックの前記異常度を算出する、
    請求項に記載の運用管理装置。
  4. システムにおける複数メトリックの相関関係を示す相関関数を1以上含む相関モデルに、新たに入力された前記複数メトリックの値を適用し、当該相関モデルに含まれる前記相関関係の相関破壊を検出し、
    前記相関破壊をもとに、障害要因であって相関破壊分布の中心と推定される第一のメトリックと、前記第一のメトリック以外の異常なメトリックである第二のメトリックと、を区別して出力する、
    運用管理方法であって、
    前記第一のメトリックと前記第二のメトリックとを区別する場合に、前記複数メトリックの各々について、当該メトリックが障害要因メトリックである度合いとして、当該メトリックが相関破壊の分布の中心と推定される度合いである中心度を算出し、当該メトリックが障害要因メトリックである度合いをもとに、当該メトリックの前記異常度を算出し、当該異常度をもとに、前記相関破壊が検出された前記相関関係に係るメトリックを、前記第一のメトリックと、前記第二のメトリックと、に区別する、
    運用管理方法
  5. コンピュータに、
    システムにおける複数メトリックの相関関係を示す相関関数を1以上含む相関モデルに、新たに入力された前記複数メトリックの値を適用し、当該相関モデルに含まれる前記相関関係の相関破壊を検出し、
    前記相関破壊をもとに、障害要因であって相関破壊分布の中心と推定される第一のメトリックと、前記第一のメトリック以外の異常なメトリックである第二のメトリックと、を区別して出力する、
    処理を実行させるプログラムであって、
    前記第一のメトリックと前記第二のメトリックとを区別する場合に、前記複数メトリックの各々について、当該メトリックが障害要因メトリックである度合いとして、当該メトリックが相関破壊の分布の中心と推定される度合いである中心度を算出し、当該メトリックが障害要因メトリックである度合いをもとに、当該メトリックの前記異常度を算出し、当該異常度をもとに、前記相関破壊が検出された前記相関関係に係るメトリックを、前記第一のメトリックと、前記第二のメトリックと、に区別する、
    プログラム
JP2015206891A 2012-01-23 2015-10-21 運用管理装置、運用管理方法、及びプログラム Active JP6160673B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015206891A JP6160673B2 (ja) 2012-01-23 2015-10-21 運用管理装置、運用管理方法、及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012011076 2012-01-23
JP2012011076 2012-01-23
JP2015206891A JP6160673B2 (ja) 2012-01-23 2015-10-21 運用管理装置、運用管理方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013555192A Division JP5831558B2 (ja) 2012-01-23 2013-01-22 運用管理装置、運用管理方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017052185A Division JP6394726B2 (ja) 2012-01-23 2017-03-17 運用管理装置、運用管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016015171A JP2016015171A (ja) 2016-01-28
JP6160673B2 true JP6160673B2 (ja) 2017-07-12

Family

ID=48873292

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2013555192A Active JP5831558B2 (ja) 2012-01-23 2013-01-22 運用管理装置、運用管理方法、及びプログラム
JP2015206891A Active JP6160673B2 (ja) 2012-01-23 2015-10-21 運用管理装置、運用管理方法、及びプログラム
JP2017052185A Active JP6394726B2 (ja) 2012-01-23 2017-03-17 運用管理装置、運用管理方法、及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013555192A Active JP5831558B2 (ja) 2012-01-23 2013-01-22 運用管理装置、運用管理方法、及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017052185A Active JP6394726B2 (ja) 2012-01-23 2017-03-17 運用管理装置、運用管理方法、及びプログラム

Country Status (5)

Country Link
US (2) US9367382B2 (ja)
EP (1) EP2808797B1 (ja)
JP (3) JP5831558B2 (ja)
CN (1) CN104137078B (ja)
WO (1) WO2013111560A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
EP2808797B1 (en) * 2012-01-23 2019-07-31 NEC Corporation Operation management device, operation management method, and program
JP5971395B2 (ja) * 2013-02-18 2016-08-17 日本電気株式会社 システム分析装置、及び、システム分析方法
WO2014132611A1 (ja) * 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法
US20170103148A1 (en) * 2014-03-27 2017-04-13 Nec Corporation System-analyzing device, analysis-model generation method, system analysis method, and system-analyzing program
WO2015174063A1 (ja) * 2014-05-16 2015-11-19 日本電気株式会社 情報処理装置、分析方法、及び、記録媒体
JP6398383B2 (ja) * 2014-07-01 2018-10-03 株式会社Ihi 異常診断装置
JP6008070B1 (ja) 2014-12-22 2016-10-19 日本電気株式会社 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
JP6819610B2 (ja) * 2015-12-09 2021-01-27 日本電気株式会社 診断装置、診断方法、及び、診断プログラム
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US20170251967A1 (en) * 2016-03-04 2017-09-07 FlourishiQ Inc. System, apparatus and method for individualized stress management
WO2017169949A1 (ja) * 2016-03-30 2017-10-05 日本電気株式会社 ログ分析装置、ログ分析方法及びプログラムを格納する記録媒体
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
JP7139946B2 (ja) * 2016-06-08 2022-09-21 日本電気株式会社 システム分析装置、システム分析方法及びプログラム
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11156476B2 (en) 2017-02-07 2021-10-26 Nec Corporation Abnormality determination device, abnormality determination method, and non-transitory recording medium
JP6689995B2 (ja) * 2017-02-07 2020-04-28 株式会社日立製作所 コンピュータシステムの監視装置および方法
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
JP6823265B2 (ja) 2017-03-28 2021-02-03 富士通株式会社 分析装置、分析システム、分析方法および分析プログラム
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444263B2 (en) 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
JP4430989B2 (ja) 2004-06-28 2010-03-10 株式会社日立製作所 運用管理支援システムおよび性能情報表示方法
US8352589B2 (en) * 2005-11-15 2013-01-08 Aternity Information Systems Ltd. System for monitoring computer systems and alerting users of faults
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8700953B2 (en) * 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
US7992040B2 (en) * 2009-02-20 2011-08-02 International Business Machines Corporation Root cause analysis by correlating symptoms with asynchronous changes
EP2523115B1 (en) 2010-01-08 2020-05-06 Nec Corporation Operation management device, operation management method, and program storage medium
WO2011099341A1 (ja) 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
WO2012086824A1 (ja) * 2010-12-20 2012-06-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
EP2808797B1 (en) * 2012-01-23 2019-07-31 NEC Corporation Operation management device, operation management method, and program
WO2014132611A1 (ja) * 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法

Also Published As

Publication number Publication date
JP2017126363A (ja) 2017-07-20
US20150026521A1 (en) 2015-01-22
CN104137078A (zh) 2014-11-05
EP2808797A1 (en) 2014-12-03
WO2013111560A1 (ja) 2013-08-01
EP2808797B1 (en) 2019-07-31
JP5831558B2 (ja) 2015-12-09
CN104137078B (zh) 2017-03-22
JP2016015171A (ja) 2016-01-28
US20160239366A1 (en) 2016-08-18
EP2808797A4 (en) 2015-08-12
US10296408B2 (en) 2019-05-21
JPWO2013111560A1 (ja) 2015-05-11
JP6394726B2 (ja) 2018-09-26
US9367382B2 (en) 2016-06-14

Similar Documents

Publication Publication Date Title
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP5267749B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
WO2016147657A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
US20160321128A1 (en) Operations management system, operations management method and program thereof
WO2018073955A1 (ja) システム分析方法、システム分析装置、および、プログラム
JPWO2017150286A1 (ja) システム分析装置、システム分析方法、及び、プログラム
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
US10157113B2 (en) Information processing device, analysis method, and recording medium
WO2015182072A1 (ja) 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
JP6973445B2 (ja) 表示方法、表示装置、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170317

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6160673

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150