JP5418610B2 - 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体 - Google Patents

障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体 Download PDF

Info

Publication number
JP5418610B2
JP5418610B2 JP2011553783A JP2011553783A JP5418610B2 JP 5418610 B2 JP5418610 B2 JP 5418610B2 JP 2011553783 A JP2011553783 A JP 2011553783A JP 2011553783 A JP2011553783 A JP 2011553783A JP 5418610 B2 JP5418610 B2 JP 5418610B2
Authority
JP
Japan
Prior art keywords
correlation
performance
degree
destruction
performance value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011553783A
Other languages
English (en)
Other versions
JPWO2011099341A1 (ja
Inventor
謙太郎 矢吹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011553783A priority Critical patent/JP5418610B2/ja
Publication of JPWO2011099341A1 publication Critical patent/JPWO2011099341A1/ja
Application granted granted Critical
Publication of JP5418610B2 publication Critical patent/JP5418610B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体に関する。
企業情報システムやIDC(Internet Data Center)などのような大規模な情報システムなどで、ウェブサービスや業務サービスといった情報通信サービスの社会インフラとしての重要性が高まるにつれて、そのサービスを提供するコンピュータ装置には安定して稼動し続けることが求められている。このようなコンピュータ装置の運用管理は、通常は管理者により手作業で行われる。そして、装置が大規模・複雑化するにつれて、管理者に対する負担が飛躍的に増大し、判断ミスや操作ミスによるサービス停止が発生しやすくなっている。
このため、それらのシステムを構成するハードウェアやソフトウェアの動作状態を一元的に状態監視して制御する統合障害原因抽出システムが提供されている。この統合障害原因抽出システムは、管理対象である複数のコンピュータ装置でハードウェアまたはソフトウェアの稼動状況に関する情報を取得し、該システムに接続した障害原因抽出装置に出力する。管理対象であるシステムの障害を判別する方法としては、あらかじめ稼動情報に閾値を設定しておく方法や、稼動情報の平均値からのずれを評価する方法などがある。
例えば、このような統合障害原因抽出システムの障害原因抽出装置は、性能情報毎に閾値を設定し、各々の性能情報が閾値を越えたことを検出して障害を検知する。障害原因抽出装置は、予め異常であることが明確な値を閾値に設定して、個々の要素の性能の異常を検出して、これを管理者に報告する。
異常検出が報告された場合、管理者は、その異常を解決するために発生原因を特定する必要がある。たとえばCPUの過負荷、メモリ容量の不足、ネットワークの過負荷などが、その発生原因として代表的なものである。しかしながら、発生原因の特定には、関連性がありそうなコンピュータを特定して、そのシステムログやパラメータなどを調査することが必要である。この作業は、各管理者に、高度な知識やノウハウ、及び、時間と労力を要求する。
このため、統合障害原因抽出システムでは、複数の機器から収集したイベントデータ(状態通知)に基づいて、動作状態の組み合わせなどについて相関分析を自動的に行い、大局的な問題点や原因を推定して、これらを管理者に通知し、対処支援を行っている。特に、サービスの長期連続運用での信頼性確保には、発生した異常に対処するだけでなく、現時点では目に見える異常が発生していなくても将来的に異常の発生要因となり得る要素を抽出して、計画的に設備の増強などの対策を取ることが求められている。
このような統合障害原因抽出システム、あるいはそこで利用しうる相関分析に関連する技術が、例えば次に示す各々の特許文献に記載されている。
特開2009−199533号公報には、正常時の任意の2つの性能情報の値(性能値)の時系列に対して、一方を入力とし他方を出力とした場合の変換関数を導出することで相関モデルを生成し、別の時点での性能情報を用いて相関モデルの変換関数に従った性能値との比較検証を行い、その相関関係の破壊の度合いによって障害の検出を行う技術が記載されている。
特開2009−199534号公報には、特開2009−199533号公報と同様の相関モデルを利用して、実運用で発生するボトルネックを予測する障害原因抽出装置が記載されている。また特開2007−227481号公報には、半導体ウエハの製造不良の原因特定で、ウエハ上のテストパターンに電流を流して得られる2次元輝度画像やビア抵抗などから得られる相関関係を利用する技術が記載されている。特開平05−035769号公報には、「相関異常点」の有無を分析して、「相関異常点」があればその点を分析から除外する相関関係解析装置が記載されている。
さらに特開平09−307550号公報には、ネットワークシステムの分析で、発生した多数の「アラーム」の中から、規則性に着目することによって、「代表アラーム」を抽出するネットワークシステム監視装置が記載されている。特開平10−257054号公報には、第1および第2のノード群で発生した障害イベントの間の相関値に基づいて、それらの対応関係を取得するネットワーク管理装置が記載されている。
特開2009−199533号公報に記載の技術では、ある性能情報に対して相関を持つ性能情報の中で、相関が破壊されているものの個数や破壊度合いの総和、もしくは割合によって、物理的な接続関係において隣接した機器について異常の度合いを算出することができる。さらに、その技術では、現時点で顕在化した障害が発生していなくても、相関関係の破壊を検出することによって、障害の発生要因となり得る性能情報を抽出し、設備の増強などの対策を取ることができる。
しかしながら、システム内のある相関関係の破壊は、他の相関関係に伝播し、さらに他の相関関係にも伝播し、…といったことを繰り返し、システム全体に影響を及ぼすという現象が実際のシステムの運用で見出されている。特開2009−199533号公報に記載の技術ではこの相関関係の破壊の伝播について全く考慮されておらず、これを検出することはできない。特開2009−199534号公報、特開2007−227481号公報、特開平05−035769号公報、特開平09−307550号公報、及び、特開平10−257054号公報にも、同様に、相関関係の破壊の伝播に着目し、これを検出するという技術は記載されていない。このため、これらの技術では、相関関係の破壊が伝播した場合に、障害の発生要因となり得る性能情報を的確に抽出することができない。
本発明の目的は、相関関係の破壊の伝播がある場合に、障害の発生要因となり得る性能情報を的確に抽出することを可能とする障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体を提供することにある。
本発明の障害原因抽出装置は、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶する記憶手段と、一つの前記種別である基点の性能値から直接または間接的に変換可能であり、かつ、前記相関関数の入力とならない、他の前記種別の性能値への変換に使用される前記相関関数である基点伝播関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する相関破壊伝播検出手段とを含む。
本発明の障害原因抽出方法は、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶し、一つの前記種別である基点の性能値から直接または間接的に変換可能であり、かつ、前記相関関数の入力とならない、他の前記種別の性能値への変換に使用される前記相関関数である基点伝播関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する。
本発明のプログラム記録媒体は、コンピュータに、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶し、一つの前記種別である基点の性能値から直接または間接的に変換可能であり、かつ、前記相関関数の入力とならない、他の前記種別の性能値への変換に使用される前記相関関数である基点伝播関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する処理を実行させるプログラムを記録する。
本発明の効果は、相関関係の破壊の伝播がある場合に、異常の発生要因となり得る要素を的確に抽出できることである。
本発明の第1の実施形態に係る障害原因抽出装置および被監視コンピュータの構成を示す説明図である。 本発明の第1の実施形態に係る障害原因抽出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。 図1に示した障害原因抽出装置の、処理の流れを示す説明図である。 図1および図3に示した性能情報蓄積部が蓄積する正常時性能情報データの例を示す説明図である。 図4で示した正常時性能情報データに対する相関モデル生成処理の一例を示す説明図である。 図4に示した正常時性能情報データから相関モデル生成部が生成した相関モデル情報データの例を示す説明図である。 図6に示した相関モデル情報データから描かれる相関グラフの例を示す説明図である。 図1および図3に示した相関破壊情報データの例を示す説明図である。 図1および図3に示した相関破壊伝播検出部および異常度計算部による相関破壊の伝播についての計算の一例を示す説明図である。 本発明の第1の実施形態の障害原因抽出装置における処理の一例を示すフローチャートである。 図10のステップS11として示した相関モデル生成の詳細な処理の一例を示すフローチャートである。 図10のステップS12として示した相関モデルの変化の分析の詳細な処理の一例を示すフローチャートである。 図10のステップS13として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。 異常度を算出するために用いる相関関係の範囲の一例を示す説明図である。 本発明の第2の実施形態に係る障害原因抽出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。 本発明の第2の実施形態に係る障害原因抽出装置および被監視コンピュータの構成を示す説明図である。 図16に示した障害原因抽出装置の、処理の流れを示す説明図である。 本発明の第2の実施形態の障害原因抽出装置における処理の一例を示すフローチャートである。 図18のステップS23として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。 図19のステップS604で示した最大影響度の計算の概念について示す説明図である。 本発明の第1の実施形態の特徴的な構成を示すブロック図である。
(第1の実施形態)
以下、本発明の第1の実施形態の構成について添付図1に基づいて説明する。
最初に、第1の実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
第1の実施形態に係る障害原因抽出装置10は、システムを構成する複数の被管理装置(被監視コンピュータ2A、2B、2C、…)から複数種の性能種目(例えば、CPU利用率、メモリ使用量等)毎の性能値を含む性能情報を取得し、性能種目、被管理装置、またはそれらの組み合わせを要素(性能値の種別、または、単に種別)として性能情報を分析し、これらの要素の中から障害の発生要因となりうる要素を抽出する。
この障害原因抽出装置10は、性能情報蓄積部22、相関モデル生成部23、相関分析部24、相関破壊伝播検出部25、異常度算出部26、及び、障害分析部27を含む。
性能情報蓄積部22は、複数の被管理装置から複数種の性能種目毎の性能値を含む性能情報を取得する。
相関モデル生成部23は、取得された性能情報から、少なくとも第1の要素に関する性能値の時系列変化を示す第1の性能系列情報と、第2の要素に関する性能値の時系列変化を示す第2の性能系列情報との間の相関関数を導出すると共に、この相関関数に基づいて各要素の性能値間の組み合わせについて相関モデルを生成する。
相関分析部24は、被管理装置から新たに検出された第1の要素に関する性能値と相関関数とに基づいて、第2の要素に関する予測性能値を算出し、新たに検出された第2の要素に関する性能値と予測性能値とを比較して予測誤差を算出する。そして、相関分析部24は、この予測誤差が一定の誤差範囲内を満たすか否かを分析し、予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断する。
相関破壊伝播検出部25は、相関モデル上の任意の要素を基点とした相関関係の連鎖(相関関係の伝播)を表す相関グラフ(例えば、図7の41B)をもとに、その要素が、相関関係の伝播を通してシステムに与える影響の度合いである影響度を算出する。例えば、相関破壊伝播検出部25は、第1の要素と第2の要素との相関関係の破壊(相関破壊)が検出された場合に、その要素の、相関破壊が検出された相関関係に対する影響(相関破壊の伝播)の度合を影響度として算出する。なお、一つの基点を始点とし、他の要素に至る相関グラフ上の辺に対応する相関関数を当該基点の基点伝播関数とする。
異常度算出部26は、相関破壊伝播検出部25によって算出された影響度に基づいて、相関モデル上の任意の要素の異常度を算出する。
障害分析部27は、異常度が予め与えられた閾値以上である場合に、その要素に異常が発生したと判定する。
また、この障害原因抽出装置10では、相関関係に相関破壊が検出された場合に、相関分析部24が予測誤差に基づいてその相関破壊の破壊度を算出し、相関破壊伝播検出部25が、この破壊度を用いて影響度を算出する。
そして相関破壊伝播検出部25は、相関モデル上の任意の要素を基点とした相関グラフにおいて、相関破壊の破壊度に、その要素から相関破壊が検出された相関関係までの間に存在する相関関係の数を指数として、予め与えられた定数を累乗した減衰率を乗算し、これを相関破壊が検出された相関関係の集合について合計することにより、その要素の影響度(総相関破壊伝播)を算出する。また、相関破壊伝播検出部25は、減衰率をその相関グラフ上の相関関係の集合について加算することにより、その要素の総相関伝播を算出する。異常度算出部26は、総相関破壊伝播を総相関伝播で除算してその要素の異常度を算出する。
このような構成を備えることにより、障害原因抽出装置10は、相関破壊の伝播によるネットワーク全体への影響を的確に検出することが可能となる。
以下、これをより詳細に説明する。
図2は、本発明の第1の実施形態に係る障害原因抽出装置10を含む障害原因抽出システム1の全体の概略構成の一例を示す説明図である。第1の実施形態に係る障害原因抽出システム1は、複数の被管理装置である被監視コンピュータ2A、2B、2C、…と、これらのコンピュータ2を運用管理する障害原因抽出装置10とが、ネットワーク3を介して相互に通信可能に接続されて構成される。
障害原因抽出装置10は、各々の被監視コンピュータ2A、2B、2C、…から複数種の性能種目ごと(例えばCPU利用率やメモリ残量など)の性能値を含む性能情報を取得し、この性能情報に基づいて以後に説明する動作を行う。
図1は、本発明の第1の実施形態に係る障害原因抽出装置10および被監視コンピュータ2の構成を示す説明図である。図2に示した被監視コンピュータ2A、2B、2C、…は、全て被監視コンピュータ2Aと同一の構成を有するので、図1では詳細な記載を省略し、これらを総称して被監視コンピュータ2とする。図3は、図1に示した障害原因抽出装置10の処理の流れを示す説明図である。
本発明の第1の実施形態に係る障害原因抽出装置10は、例えば、一般的なコンピュータ装置であり、コンピュータプログラムを実行する主体となる主演算制御部(CPU:Central Processing Unit)11と、データを記憶する記憶部12と、ネットワーク3を介して他のコンピュータとのデータ通信を行う通信部13と、ユーザ(この場合はネットワーク管理者)からの操作を受け付け、また処理結果を提示する入出力部14とを備える。
障害原因抽出装置10の主演算制御部11では、性能情報蓄積部22、相関モデル生成部23、相関分析部24、相関破壊伝播検出部25、異常度計算部26、障害分析部27、及び、管理者対話部28の各々が、コンピュータプログラムとして動作する。また、記憶部12には、正常時性能情報データ31、相関モデル情報データ32、相関破壊情報データ33、及び、分析設定情報データ34の各々が記憶される。
被監視コンピュータ2も、障害原因抽出装置10と同様に、主演算制御部51、記憶部52、及び、通信部53を備える。これらの機能は、障害原因抽出装置10の主演算制御部11、記憶部12、通信部13と同一であるが、被監視コンピュータ2の主演算制御部51では、サービス実行部61、情報収集部62、および対処実行部63の各々が、コンピュータプログラムとして動作する。
被監視コンピュータ2のサービス実行部61は、ウェブサービスや業務サービスといった情報通信サービスを提供する。情報収集部62は、サービス実行部61の動作状態を検出し、その動作状態に含まれる性能情報を取得し、障害原因抽出装置10の性能情報蓄積部22に送信する。障害原因抽出装置10の性能情報蓄積部22は、各々の被監視コンピュータ2の情報収集部62から性能情報を受信し、これを正常時性能情報データ31として保存する。
相関モデル生成部23は、正常時性能情報データ31から一定期間の性能情報を取り出し、任意の2つの種別の性能値の時系列に対して、一方を入力とし他方を出力とした場合の変換関数(相関関数)を導出する。相関モデル生成部23は、この相関関数で生成された性能値の系列と、その性能値の実際の検出値の系列とを比較し、その値の差から相関関数の重み情報を算出する。さらに、相関モデル生成部23は、これらの処理をすべての種別間の組み合わせに対して繰り返すことで、サービス実行部61の全体的な稼動状態の相関モデルを生成する。相関モデル生成部23は同時に、生成した相関モデルを相関モデル情報データ32として保存する。
相関分析部24は、性能情報蓄積部22から新たに検出された性能情報を受け取り、この性能情報に含まれる性能値が相関モデル情報データ32に蓄積される相関モデルの各々の種別の性能値間の相関関数で示された関係を一定の誤差範囲内で満たしているかを分析して、その結果を出力する。
また、相関分析部24は、新たに検出された第1の要素に関する性能値と相関関数とに基づいて第2の要素に関する予測性能値を算出し、新たに検出された第2の要素に関する性能値と予測性能情報とを比較して予測誤差を算出し、この予測誤差が一定の誤差範囲内を満たすか否かを分析する。相関分析部24はさらに、この予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断し、それぞれの要素間の相関破壊の破壊度を算出し、この破壊度を相関破壊情報データ33として保存する。
障害分析部27は、性能情報蓄積部22が収集した動作状態と相関分析部24による分析結果とを受け取って、分析設定情報データ34に予め記憶された分析設定の内容に従って障害分析を行う。
管理者対話部28は、障害分析部27から障害分析の結果を受け取り、これを入出力部14を介して管理者に提示する。そして、管理者対話部28は、管理者からの操作入力を受け付け、この操作入力に従って被監視コンピュータ2の対処実行部63に対処を指示する。対処実行部63は、管理者対話部28からの指示に応じてサービス実行部61上で障害の対処となる処理を実行する。
以上は、特開2009−199533号公報に記載の障害原因抽出装置と同様の構成であるが、第1の実施形態に係る障害原因抽出装置10はこれに加えて相関破壊伝播検出部25と異常度計算部26とを有する。
相関破壊伝播検出部25は、要素間の相関破壊が検出された場合に、相関モデル情報データ32と相関破壊データ33とをもとに、相関モデル上の各要素の影響度を算出する。
異常度算出部26は、相関破壊伝播検出部によって算出された影響度に基づいて、相関モデル上の各要素の異常度を算出する。
相関破壊伝播検出部25および異常度計算部26によるこれらの処理の詳細は後述する。
障害分析部27は、異常度計算部26によって算出された異常度に対して、分析設定情報データ34に蓄積されている分析設定に従って障害分析を行う。分析設定情報データ34には、たとえば異常度が一定の閾値以上であれば管理者に警告メッセージを提示することが指定されている。障害分析部27は、これに従って、性能情報蓄積部22で検出された性能情報から、特定のコンピュータの負荷が高くなっているかどうかを、閾値を用いて判定する。ここで、利用される閾値は、分析設定情報データ34に予め記憶されている。また、特定の性能種目や特定の被監視コンピュータ2について、他と異なる閾値が分析設定情報データ34上に指定されていてもよい。
管理者対話部28は、このような障害分析の結果を、入出力部14を介して管理者に提示する。また、管理者が入出力部14を介して何らかの対処を指示する入力を行った場合、管理者対話部28はこの入力された内容を対処実行部63に渡して対処を実行させる。たとえば、特定の被監視コンピュータ2のCPU利用率やメモリ残量について異常が発生した場合には、管理者は、その被監視コンピュータ2の業務量を減らして他の被監視コンピュータ2に回すなどの対処を行うことができる。
この後、一定時間間隔で性能情報蓄積部22によって収集された性能情報に相関破壊が検出されなければ、障害分析部27は障害が回復したと判断し、その結果が管理者対話部28を介して管理者に提示される。このような情報収集、分析、対処の処理の繰り返しにより、サービス実行部61上の障害対処が継続して行われる。
(相関モデルの生成と相関破壊の検出)
図4は、図1および図3に示した性能情報蓄積部22が蓄積する正常時性能情報データ31の例を示す説明図である。被監視コンピュータ2の情報収集部62は、サービス実行部61の動作状態を検出し、そこから性能情報を抽出し、障害原因抽出装置10の性能情報蓄積部22に送信する。性能情報蓄積部22は、受信した性能情報を正常時性能情報データ31として記録し、蓄積する。
正常時性能情報データ31は、情報収集部62が順次収集する、サービス実行部61の性能情報の一覧である。個々の性能情報は、図2に示した被監視コンピュータ2の各々で、同一時刻において測定された複数種目の性能値で構成され、それらが一定時間間隔でリストアップされたものである。たとえば、サービス実行部61でウェブサービスが実行されている場合、情報収集部62は該ウェブサービスを提供する被監視コンピュータ2の各々のCPU使用率やメモリ残量を一定時間間隔で検出し、障害原因抽出装置10の性能情報蓄積部22に送信する。性能情報蓄積部22は、これを正常時性能情報データ31として記録し、蓄積する。
図4は、このようにして蓄積された正常時性能情報データ31の例を示している。ここで、図2に示した被監視コンピュータ2の各々は被監視コンピュータ2A、2B、2C、…として示され、被監視コンピュータ2A、2B、2C、…の名前は、それぞれ「SV1」、「SV2」、「SV3」、…である。
たとえば、種別「SV1.CPU」は、被監視コンピュータ2A(SV1)のCPU利用率を示し、「SV1.CPU」の2010年1月5日の17時25分時点に測定された性能値が「12」で、それから1分間隔に測定された性能値は、17時26分からそれぞれ、「15」、「34」、「63」、…である。同様に、種別「SV1.MEM」は、被監視コンピュータ2A(SV1)のメモリ使用量を示し、「SV1.CPU」の性能値として「SV1.CPU」と同時刻に測定された性能値が示されている。種別「SV2.CPU」は、被監視コンピュータ2B(SV2)のCPU利用率を示し、「SV2.CPU」の性能値として他の性能値と同時刻に測定された性能値が示されている。
相関モデル生成部23は、この蓄積された正常時性能情報データ31の各種別の性能値に対して、以下に示すように相関モデル生成の処理を行う。図5は、図4で示した正常時性能情報データ31に対する相関モデル生成処理の一例を示す説明図である。グラフG101は、時間軸tに対する種別「SV1.CPU」の性能値をxとした場合の、tとxとの関係を示すグラフである。グラフG102は、時間軸tに対する種別「SV1.MEM」の性能値をyとした場合の、tとyとの関係を示すグラフである。グラフG101は「第1の性能系列情報」、グラフG102は「第2の性能系列情報」を各々示す。
ここで、相関モデル生成部23は、xとyとの間の関係を、指示された所定の近似式、例えば「y=f(x)=Ax+B」(A、Bは定数)、で近似し、係数の値「A=−0.6」、「B=100」を算出する。相関モデル生成部23は、この相関関数により、グラフG101で示される種別「SV1.CPU」の実際の性能値の系列から生成される種別「SV1.MEM」の性能値の予測値の系列と、グラフG102で示される種別「SV1.MEM」の実際の性能値の系列との差分(グラフG103)を算出する。そして、相関モデル生成部23は、例えば、その差分の平均値に応じて小さくなり、最大値が1である重み「w=0.88」を算出する。この近似式は、このような1次関数に限られるものではなく、有効に近似することが可能であればいかなる関数を使用してもよい。
相関モデル生成部23は、この重みwが特定の閾値以上である場合に、このxとyとの間の相関関係を「有効」と判定する。たとえば閾値を「0.5以上」とした場合、このxとy、即ち「SV1.CPU」と「SV1.MEM」との間の相関関係は「有効」と判定される。
図6は、図4に示した正常時性能情報データ31から相関モデル生成部23が生成した相関モデル情報データ32の例を示す説明図である。相関モデル情報データ32は、上述のようにして正常時性能情報データ31に記録された全ての種別の相互間で、相関関数の入力となる種別の名称と、出力となる種別の名称と、相関関数を特定する各々の係数および重みの値と、相関関係が有効であるか否かを示す相関関係判定情報(有効性)と、を含んで構成される。
たとえば、図5に示した「SV1.CPU」と「SV1.MEM」の相関関係に対して、相関モデル情報データ32では「SV1.MEM」を出力とし、「y=Ax+B」の式における係数Aの値が「−0.6」、係数Bの値が「100」、重みが「0.88」である相関関係が蓄積される。相関モデル生成部23は、このような分析を性能情報蓄積部22が蓄積した正常時性能情報データ31の全ての種別の相互間で行う。
相関分析部24は、その全ての種別の相互間に対して、重みwが特定の閾値以上であるか否か、即ち相関関係が有効であるか否かを判定し、その相関関係が有効であれば「○」、無効であれば「×」のデータを相関モデル情報データ32の相関関係判定情報(有効性)に設定する。
図7は、図6に示した相関モデル情報データ32から描かれる相関グラフ41の例を示す説明図である。相関分析部24は、操作者からの指示入力に伴って、このような相関グラフ41を描いて管理者対話部28を介して出力する機能も持つ。図7に示した例では、相関グラフ41は被監視コンピュータ2A、2B、2Cの3台について、各々のCPU利用率とメモリ使用量を、それぞれ要素A〜Fで表している。
被監視コンピュータ2AのCPU利用率とメモリ使用量は各々「SV1.CPU」と「SV1.MEM」、被監視コンピュータ2BのCPU利用率とメモリ使用量は各々「SV2.CPU」と「SV2.MEM」、被監視コンピュータ2CのCPU利用率とメモリ使用量は各々「SV3.CPU」と「SV3.MEM」である。
例えば、要素Aは「SV1.CPU」、即ち被監視コンピュータ2AのCPU利用率を示す。また、要素Fは「SV3.MEM」、即ち被監視コンピュータ2Cのメモリ使用量を示す。
そして、それぞれの要素の間を結ぶ線が、相関モデルの相関関数で表される、一方の要素から他方の要素への相関関係を示している。また、それぞれの相関関係は、0〜1の範囲で表される重みwが0.5以上であれば太線で、それ以下であれば細線で表されている。図7の相関グラフ41は、このように重みwに応じた線の太さで相関関係を示したものである。
例えば、要素Aと要素Bとの相関関係は、太線となっており、要素Aから要素Bへの相関関係の重みwが0.5以上であることを示す。また、要素Aと要素Fとの相関関係は、細線となっており、要素Aから要素Fへの相関モデルの重みwが0.5未満であることを示す。重みwは、相関関数の誤差によって算出されるため、この線の太さが相関関係の強さを表している。
相関モデル生成部23は、例えば、相関グラフ41から重みが0.5以上であるような安定した相関関係(太線)のみを抽出し、図7の相関グラフ41Bのような相関関係を得ることができる。相関モデル生成部23は、この相関モデル情報データ32を、障害原因抽出システム1全体が安定して正常に動作している間に取得された性能情報をもとに作成する。
そして、相関分析部24は、以上に示した相関関係の分析を、新たに得られた性能情報に対して行う。すると、障害原因抽出システム1全体が正常に動作していた時に有効(「○」)であった相関関係が、時間の経過と共に無効(「×」)になる場合がある。これが、本実施形態における「相関破壊」であり、正常に動作していた時と比べて、障害原因抽出システム1の動作状態に明らかに何らかの変化が発生していることを示唆する。
図7の相関グラフ41Cは、そのように時間の経過に伴って破壊された相関関係を破線で示す。相関グラフ41Cでは、正常動作時の相関グラフ41Bと比べて、要素Aと要素C、要素Bと要素C間の相関が破壊されている。相関分析部24は、新たに得た性能情報を相関モデル情報データ32と照らし合わせ、性能値相互間の変換誤差の大きさを示す「破壊度」を算出し、相関破壊情報データ33として保存する。
ここで、相関分析部24は、例えば、最大値を1とした、所定の最大誤差に対する割合を破壊度としてもよい。この場合、所定の最大誤差は、例えば、管理者により、変換誤差の最大値の想定値として与えられる。
図8は、図1および図3に示した相関破壊情報データ33の例を示す説明図である。相関破壊情報データ33は、相関破壊が検出された各相関関係に対して、算出された破壊度を保存している。
(相関破壊の伝播についての計算)
図9は、図1および図3に示した相関破壊伝播検出部25および異常度計算部26による、相関破壊の伝播についての計算の一例を示す説明図である。相関破壊伝播検出部25は、相関分析部24が以上に示したような相関破壊を検出した場合に、相関グラフ上の各要素の影響度(総相関破壊伝播)を算出する。
図9に示す例では、要素A〜Gの7つの要素を持つ障害原因抽出システムにおいて、正常時には要素A−B間(入力が要素A、出力が要素Bの相関関係。以下、同様。)、要素A−E間、要素B−C間、要素B−D間、要素E−F間、要素E−G間で相関関係が有効となっている系で、要素A−E間、および要素E−F間で相関が破壊されたことを相関分析部24が検出している。
また図9に示す例では、要素Aが、要素Aを基点とした相関グラフで表わされる相関関係の伝播を通して、他の要素に関係する相関関係に影響を与え、相関破壊が検出されている。ここで、相関関係iの破壊度をbrk(i)とし、また要素Aから相関関係iまで至る相関関係の数をhop(i)、相関関係の伝播の減衰率をdump(i)とすると、相関グラフの基点要素の総相関破壊伝播F(影響度)、総相関伝播G、及び、異常度evalは、以下に示す数1で計算される。ここで、nは、相関グラフ上で相関破壊が検出された相関関係の集合、mは、相関グラフ上の相関関係の集合を示す。
Figure 0005418610
図9に示す例で、要素A−E間、要素E−F間の破壊度をbrk=0.6、減衰率dump(i)=0.5^(hop(i)−1)と定義すると、総相関破壊伝播F、総相関伝播G、及び、異常度evalは、以下に示す数2のように計算される。この例では要素A−E間、要素E−F間の相関関係が集合nに該当し、それ以外も含めた全ての相関関係が集合mに該当する。また、要素A−B間およびA−E間の相関関係について、hop(i)=1、要素B−C間、B−D間、E−F間、E−G間の相関関係について、hop(i)=2である。図9では、相関破壊が検出された相関関係を破線の矢印で、それ以外の相関関係を実線の矢印で示している。
Figure 0005418610
数2で、総相関破壊伝播Fの式の右辺第1項は要素A−E間、第2項は要素E−F間の相関関係に対する相関破壊の伝播を示す。また総相関伝播Gの式の右辺第1〜6項は各々、要素A−B間、B−C間、B−D間、A−E間、E−F間、E−G間の減衰率を示す。
同様の計算を、相関破壊伝播検出部25および異常度計算部26は、全ての要素を基点として行う。障害分析部27は、ある要素を基点として算出された異常度evalが所定の閾値を超えた場合に、その要素に異常が発生したと判定し、このことを管理者対話部28を介して管理者に提示する。異常度evalに対する閾値は、分析設定情報データ34としてあらかじめ与えられている。
(処理の流れ)
図10は、本発明の第1の実施形態の障害原因抽出装置10における処理の一例を示すフローチャートである。本実施の形態においては、障害原因抽出システム1を構成する複数の被監視コンピュータ2から取得される1種または複数種の性能情報について、この性能種目、被管理装置、または、それらの組み合わせを要素とする。相関モデル生成部23は、障害原因抽出システム1全体が安定して正常に動作している間に取得された性能情報をもとに、性能情報に含まれる各々の要素の性能値の時系列変化を示す性能系列情報の相互間で、相関モデルを生成する(ステップS11)。
これに続いて、相関分析部24は、新たに検出し取得される性能情報をその相関モデルに当てはめて、相関破壊を検出する(ステップS12)。そして相関破壊伝播検出部25が、検出された相関破壊について、要素ごとに影響度を計算し、異常度算出部26は、その基点の異常度を計算する(ステップS13)。ステップS11およびS12は、特開2009−199533号公報に記載の障害原因抽出装置と同様の動作である。ステップS13が、本発明に係るに障害原因抽出装置に特有の動作である。
図11は、図10のステップS11として示した相関モデル生成の詳細な処理の一例を示すフローチャートである。障害原因抽出システム1全体が安定して正常に動作している間に、被監視コンピュータ2の情報収集部62がサービス実行部61の動作状態を検出して、その動作状態に含まれる性能情報を障害原因抽出装置10の性能情報蓄積部22に送信する。障害原因抽出装置10の性能情報蓄積部22は、この性能情報を正常時性能情報データ31として保存する。
相関モデル生成部23は、この正常時性能情報データ31を読み込み(ステップS101)、未分析の性能値の種別が残っているか否かを判定する(ステップS102)。未分析の種別が残っていなければ(ステップS102/NO)、相関モデル生成部23は、処理を終了する。
未分析の種別が残っていれば(ステップS102/YES)、相関モデル生成部23は、性能値の種別間の相関関数の係数等を算出する処理を開始する。相関モデル生成部23は、上述の、図4、5に示した種別「SV1.CPU」と「SV1.MEM」の各々の性能値の系列間の相関関数を算出する処理と同様に、未分析の種別間の相関関数の係数等の算出を行う。たとえば「y=Ax+B」の式で示される相関関数で近似を行う場合、相関モデル生成部23は、係数AおよびBを算出する(ステップS103)。
さらに、これに続いて、相関モデル生成部23は、相関関数の重みwも算出する(ステップS104)。そして、相関モデル生成部23は、算出された係数と重みを、相関モデル情報データ32として保存する(ステップS105)。相関モデル生成部23は、以上のステップS103〜105に示した処理を全ての性能値の種別の組み合わせについて繰り返して、障害原因抽出システム1全体に対して相関モデル情報データ32を生成する。
図12は、図10のステップS12として示した相関モデルの変化の分析の詳細な処理の一例を示すフローチャートである。相関分析部24は、図11に示した処理によって生成された相関モデル情報データ32を読み込み(ステップS201)、そこに含まれる重み情報に応じて相関関係を選別する(ステップS202)。この処理は、図7(a)で示した相関モデルの重みwに応じて異なる線の太さで相関関係を描いた相関グラフ41から、重みwが0.5以上の安定した相関関係を示す太線のみを抽出して相関グラフ41Bを得ることに相当する。
続いて、相関分析部24は、被監視コンピュータ2の情報収集部62から送信された性能情報を、性能情報蓄積部22を介して取得する(ステップS203)。たとえば、図4に示した正常時性能情報データ31で最下行にある「2010/1/07 8:30」時点の性能情報を得た場合、相関分析部24は、相関モデル情報データ32として保存された相関関数を順次探索し、未探索の相関関数が残っているか否かを判定する(ステップS204)。未探索の相関関数が残っていなければ(ステップS204/NO)、相関分析部24は、ここまでの処理結果を相関破壊情報データ33として保存して(ステップS208)、処理を終了する。
未探索の相関関数が残っていれば(ステップS204/YES)、相関分析部24は、新たに得た性能情報を相関モデル情報データ32と照らし合わせ、性能値の種別相互間の変換誤差を算出する(ステップS205)。たとえば、「SV1.CPU」が「20」、「SV1.MEM」が「79」という性能情報を得た場合、相関分析部24は、「SV1.CPU」の性能値「20」を相関モデル情報データ32に記録された近似式に当てはめて(−0.6)*(20)+100=「88」という予測値を算出し、この予測値と実測値「79」とを比較して誤差「9」を得る。
続いて、相関分析部24は、この誤差が検出値に占める割合を算出し、この割合が所定の範囲内にあるか否かを判定する(ステップS206)。所定の範囲内であれば(ステップS206/YES)、相関分析部24は、特に異常が発生していないと判断して、ステップS204の処理に戻る。所定の範囲以上であれば(ステップS206/NO)、相関が破壊されたと判断して、相関分析部24はこの変換誤差から相関破壊の破壊度を算出し、その結果を相関破壊情報データ33として記録する(ステップS207)。
図13は、図10のステップS13として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。相関破壊伝播検出部25は、まず、相関モデル情報データ32および相関破壊情報データ33を読み込み(ステップS301)、未分析の要素が残っているか否かを判定する(ステップS302)。未分析の要素が残っていなければ(ステップS302/NO)、処理を終了する。
ステップS302で未分析の要素が残っていれば(ステップS302/YES)、相関破壊伝播検出部25は相関破壊情報データ33に記録された破壊度の数値を利用して、この要素の総相関破壊伝播(影響度)および総相関伝播を計算する(ステップS303)。そして、異常度計算部26は、得られた総相関破壊伝播を総相関伝播で除算し、該要素の異常度を算出する(ステップS304)。
そして、この異常度の計算結果に対して、障害分析部27が所定の閾値を超えたか否かを判断する(ステップS305)。所定の閾値を超えた要素が存在していない場合は(ステップS305/NO)、ステップS302からの処理が継続される。特定の閾値を超えた場合は(ステップS305/YES)、障害分析部27は、その要素に異常が発生した旨を管理者対話部28を介して管理者に提示する(ステップS306)。そして、ステップS302からの処理が継続される。
図14は、異常度を算出するために用いる相関関係の範囲の一例を示す説明図である。図14は、A〜Hの8つの要素について、有効な相関関係を太い実線、無効である相関関係を細い実線、破壊された相関関係を破線で示している。相関グラフ401と402は、いずれも要素Aを基点(即ち評価対象)とした相関グラフを示している。相関グラフ401は、前述の特開2009−199533号公報に記載の障害原因抽出装置の処理対象である、段階数hop(i)1まで、即ち基点の要素に隣接した要素から成る相関グラフを示す。これに対して相関グラフ402は、本発明の第1の実施形態に係る障害原因抽出装置10の処理対象である、段階数hop(i)2以上の要素を含む相関グラフを示す。即ち、本発明の第1の実施形態の障害原因抽出装置10は、障害原因抽出システム1全体にまで、異常度の計算に用いる相関関係の範囲を広げる。
(第1の実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。第1の実施形態に係る障害原因抽出装置10は、システムを構成する複数の被管理装置から取得される複数種の性能種目毎の性能情報に基づいて、性能種目、被管理装置、または、それらの組み合わせを要素として性能情報を分析し、これらの要素の中から障害の発生要因となりうる要素を抽出する。性能情報蓄積部22は、複数の被管理装置から複数種の性能種目毎の性能値を含む性能情報を取得する。相関モデル生成部23は、少なくとも第1の要素に関する性能情報の時系列変化を示す第1の性能系列情報と、第2の要素に関する性能情報の時系列変化を示す第2の性能系列情報との相関関数を導出すると共に、この相関関数に基づいて各要素間の組み合わせについて相関モデルを生成する(図11・ステップS101〜105)。相関分析部24は、被管理装置から新たに検出し取得される性能情報に基づいて、新たに検出された第1の要素に関する性能値と相関関数とに基づいて、第2の要素に関する予測性能値を算出し、新たに検出された第2の要素に関する性能値と予測性能値とを比較して予測誤差を算出する(図12・ステップS205)。そして、相関分析部24は、この予測誤差が一定の誤差範囲内を満たすか否かを分析し(図12・ステップS206)、予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断する(図12・ステップS207)。相関破壊伝播検出部25は、相関関係が破壊されている場合に、相関モデル上の任意の要素の影響度を算出する(図13・ステップS303)。異常度算出部26は、相関破壊伝播検出部25によって算出された影響度に基づいて、相関モデル上の任意の要素の異常度を算出する(図13・ステップS304)。障害分析部27は、異常度が予め与えられた閾値以上である場合に、その要素に異常が発生したと判定する(図13・ステップS305)。
ここで、上記各動作ステップをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータである障害原因抽出装置10に実行させるようにしてもよい。
次に、本発明の第1の実施形態の特徴的な構成について説明する。図21は、本発明の第1の実施形態の特徴的な構成を示すブロック図である。
障害原因抽出装置10は、記憶部12と、相関破壊伝播検出部25とを含む。
ここで、記憶部12は、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる種別の性能値から出力となる種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶する。相関破壊伝播検出部25は、一つの種別である基点の性能値から直接または間接的に変換可能であり、かつ、相関関数の入力とならない、他の種別の性能値への変換に使用される相関関数である基点伝播関数の数をもとに、基点の性能値がシステムに与える影響度を算出する。
本発明の第1の実施形態によれば、相関破壊の伝播がある場合に、障害の発生要因となり得る要素を的確に抽出できる。その理由は、相関破壊伝播検出部25が、相関モデル上の任意の要素が相関破壊が検出された相関関係に対して与えた影響度を算出し、異常度算出部26が、影響度に基づいて、相関モデル上の任意の要素の異常度を算出するためである。
さらに、現時点で目に見える異常が発生していなくても、異常の発生要因となり得る要素を抽出して設備の増強などの対策を取ることができる。その理由は、上述の通り、相関破壊伝播検出部25と異常度算出部26が、相関モデル上の任意の要素の影響度と異常度を算出するためである。
また、本発明の第1の実施形態によれば、障害の発生要因となり得る要素が相関関係を通して相関破壊に対して与える影響を、管理者にわかりやすく表示できる。その理由は、相関グラフ上で、相関破壊の伝播を容易に可視化できるためである。
(第2の実施形態)
第2の実施形態に係る障害原因抽出装置510では、障害原因抽出装置10の相関破壊伝播検出部525に、最大影響度を計算する機能が追加されている。最大影響度は、相関モデル上の任意の要素について算出される影響度の最大値である。
これによって、実際に相関破壊が検出されなくても、障害原因抽出システム1の中で、弱点となり得る要素をシミュレーションして抽出することができる。
以下、これをより詳細に説明する。
図15は、本発明の第2の実施形態に係る障害原因抽出装置510を含む障害原因抽出システム501の全体の概略構成の一例を示す説明図である。第2の実施形態に係る障害原因抽出システム501は、第1の実施形態で説明した障害原因抽出システム1で、障害原因抽出装置10を障害原因抽出装置510に置き換えたものである。被監視コンピュータ2A、2B、2C、…およびネットワーク3については第1の実施形態と同一である。
図16は、本発明の第2の実施形態に係る障害原因抽出装置510および被監視コンピュータ2の構成を示す説明図である。図17は、図16に示した障害原因抽出装置510の、処理の流れを示す説明図である。第2の実施形態における相関破壊伝播検出部525の動作は、第1の実施形態における相関破壊伝播検出部25の動作と異なる。以下、その相違点について説明する。
図18は、本発明の第2の実施形態の障害原因抽出装置510における処理の一例を示すフローチャートである。ここで、第2の実施形態における、正常動作時の性能情報から相関モデルを生成する動作(ステップS11)は、図10に示した第1の実施形態における障害原因抽出装置10の動作と同様である。しかしながら、第2の実施形態においては、その後の動作中の性能情報に対する相関破壊の検出(図10のステップS12)は行われない。第2の実施形態においては、相関破壊伝播検出部525は、生成された相関モデルに対して、全ての要素間で相関が破壊され、かつ、破壊度=1と仮定し、要素ごとの総相関伝播をその要素の最大影響度として計算する(ステップS23)。なお、障害原因抽出装置510は、さらに、図10に示した第1の実施形態と同様の動作を行ってもよい。
図19は、図18のステップS23として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。相関破壊伝播検出部525は、図18のステップS11で生成された相関モデル情報データ32を読み込み(ステップS601)、相関モデルの中で未分析の要素が残っているか否かを判定する(ステップS602)。未分析の要素が残っていなければ(ステップS602/NO)、ここまでの処理で算出された最大影響度と、その影響が及びうる範囲とを管理者対話部28を介して管理者に提示して(ステップS603)、処理を終了する。
未分析の要素が残っていれば(ステップS602/YES)、相関破壊伝播検出部525は、その相関モデルの中で任意の1つ以上の要素を基点として、前述の数1の式における相関破壊が検出された相関関係の集合n=相関関係の集合m、かつ、全ての相関破壊について破壊度=1と仮定して、この要素について算出される最大の総相関破壊伝播(影響度)である最大影響度Fmaxを、以下の数3で計算する(ステップS604)。
Figure 0005418610
図20は、図19のステップS604で示した最大影響度の計算の概念について示す説明図である。図20において、要素Aは、要素B〜Gまでの相関関係に影響するが、要素Hは、要素I〜Qまでの相関関係に影響するので、要素Aよりも要素Hがより広い範囲(多くの要素)の相関関係に影響し、それに伴って最大影響度が大きくなる。なお、図20に示した例では、数1、2と同じく、減衰率dump(i)=0.5^(hop(i)−1)としている。
本発明の第2の実施形態によれば、相関モデルにおける全ての相関関係が破壊されたと仮定した場合の最大影響度を計算することによって、実際に相関破壊が検出されるよりも前に、障害原因抽出システム501の中で弱点となり得る要素をシミュレーションして抽出することができる。障害原因抽出システム501の相関モデルでは、たとえば要素Aから要素Bへの相関関係はあるが要素Bから要素Aへの相関関係がない場合や、要素間の相関関係が元からない場合がある。このため、全ての相関関係が破壊されてかつ破壊度=1とした場合であっても、基点となる要素ごとに、その要素の影響により相関破壊が検出される範囲は異なり、それによって最大影響度は異なる。
また、この処理で算出された基点ごとの最大影響度をランキングすることにより、いずれの要素が障害時に障害原因抽出システム501全体に対する影響が大きくなるかを容易に抽出することができる。従って、抽出された要素について、システムの処理能力の増強や構成変更などの措置を行うことが容易となる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年2月15日に出願された日本出願特願2010−030071を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1、501 障害原因抽出システム
2、2A、2B、2C 被監視コンピュータ
3 ネットワーク
10、510 障害原因抽出装置
11、51 主演算制御部
12、52 記憶部
13、53 通信部
14 入出力部
22 性能情報蓄積部
23 相関モデル生成部
24 相関分析部
25、525 相関破壊伝播検出部
26 異常度計算部
27 障害分析部
28 管理者対話部
31 正常時性能情報データ
32 相関モデル情報データ
33 相関破壊情報データ
34 分析設定情報データ
61 サービス実行部
62 情報収集部
63 対処実行部

Claims (15)

  1. システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶する記憶手段と、
    前記相関モデル上で、基点となる1の種別の性能値から、1以上の前記相関関数の系列により、1以上の他の種別の性能値へ変換可能な場合、前記1以上の他の前記種別の性能値の各々に対する前記系列に含まれる前記相関関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する相関破壊伝播検出手段と
    を含む障害原因抽出装置。
  2. さらに、入力された前記性能情報を前記相関モデルに適用し、前記相関モデルに含まれる前記相関関数に対する相関破壊を検出する相関分析手段を含み、
    前記相関破壊伝播検出手段は、前記系列に含まれる前記相関破壊が検出された前記相関関数の数をもとに前記影響度を算出する
    請求項1に記載の障害原因抽出装置。
  3. 前記相関破壊伝播検出手段は、前記系列に含まれる前記相関破壊が検出された前記相関関数の各々について、前記相関破壊の程度を表す破壊度に前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を乗じた値を算出し、当該値を合計することにより、前記影響度を算出する
    請求項2に記載の障害原因抽出装置。
  4. さらに、前記基点の性能値について算出された前記影響度を、前記系列に含まれる前記相関関数の各々について算出された前記減衰率の合計で除することにより、前記基点の異常度を算出する異常度計算手段を含む
    請求項3に記載の障害原因抽出装置。
  5. 前記相関破壊伝播検出手段は、前記系列に含まれる前記相関関数の各々について、前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を算出し、当該値を合計することにより、前記影響度を算出する
    請求項1に記載の障害原因抽出装置。
  6. システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶し、
    前記相関モデル上で、基点となる1の種別の性能値から、1以上の前記相関関数の系列により、1以上の他の種別の性能値へ変換可能な場合、前記1以上の他の前記種別の性能値の各々に対する前記系列に含まれる前記相関関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する
    障害原因抽出方法。
  7. さらに、入力された前記性能情報を前記相関モデルに適用し、前記相関モデルに含まれる前記相関関数に対する相関破壊を検出し、
    前記系列に含まれる前記相関破壊が検出された前記相関関数の数をもとに前記影響度を算出する
    請求項6に記載の障害原因抽出方法。
  8. 前記系列に含まれる前記相関破壊が検出された前記相関関数の各々について、前記相関破壊の程度を表す破壊度に前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を乗じた値を算出し、当該値を合計することにより、前記影響度を算出する
    請求項7に記載の障害原因抽出方法。
  9. さらに、前記基点の性能値について算出された前記影響度を、前記系列に含まれる前記相関関数の各々について算出された前記減衰率の合計で除することにより、前記基点の異常度を算出する
    請求項8に記載の障害原因抽出方法。
  10. 前記系列に含まれる前記相関関数の各々について、前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を算出し、当該値を合計することにより、前記影響度を算出する
    請求項6に記載の障害原因抽出方法。
  11. コンピュータに、
    システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を1以上含む相関モデルを記憶し、
    前記相関モデル上で、基点となる1の種別の性能値から、1以上の前記相関関数の系列により、1以上の他の種別の性能値へ変換可能な場合、前記1以上の他の前記種別の性能値の各々に対する前記系列に含まれる前記相関関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する
    処理を実行させるプログラム
  12. さらに、入力された前記性能情報を前記相関モデルに適用し、前記相関モデルに含まれる前記相関関数に対する相関破壊を検出し、
    前記系列に含まれる前記相関破壊が検出された前記相関関数の数をもとに前記影響度を算出する
    処理を実行させる請求項11に記載のプログラム
  13. 前記系列に含まれる前記相関破壊が検出された前記相関関数の各々について、前記相関破壊の程度を表す破壊度に前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を乗じた値を算出し、当該値を合計することにより、前記影響度を算出する
    処理を実行させる請求項12に記載のプログラム
  14. さらに、前記基点の性能値について算出された前記影響度を、前記系列に含まれる前記相関関数の各々について算出された前記減衰率の合計で除することにより、前記基点の異常度を算出する
    処理を実行させる請求項13に記載のプログラム
  15. 前記系列に含まれる前記相関関数の各々について、前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を算出し、当該値を合計することにより、前記影響度を算出する
    処理を実行させる請求項11に記載のプログラム
JP2011553783A 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体 Active JP5418610B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011553783A JP5418610B2 (ja) 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010030071 2010-02-15
JP2010030071 2010-02-15
PCT/JP2011/051031 WO2011099341A1 (ja) 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
JP2011553783A JP5418610B2 (ja) 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2011099341A1 JPWO2011099341A1 (ja) 2013-06-13
JP5418610B2 true JP5418610B2 (ja) 2014-02-19

Family

ID=44367627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011553783A Active JP5418610B2 (ja) 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Country Status (5)

Country Link
US (2) US8719636B2 (ja)
EP (1) EP2538332B1 (ja)
JP (1) JP5418610B2 (ja)
CN (1) CN102713862B (ja)
WO (1) WO2011099341A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2579156B1 (en) * 2010-06-07 2019-08-28 Nec Corporation Malfunction detection device, obstacle detection method, and program recording medium
WO2012086824A1 (ja) * 2010-12-20 2012-06-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
WO2013042789A1 (ja) * 2011-09-19 2013-03-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP5831558B2 (ja) * 2012-01-23 2015-12-09 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN104769551B (zh) * 2012-11-01 2018-07-03 日本电气株式会社 分布式数据处理系统和分布式数据处理方法
US20150363250A1 (en) * 2013-02-18 2015-12-17 Nec Corporation System analysis device and system analysis method
EP3144815A4 (en) * 2014-05-16 2018-01-17 Nec Corporation Information processing device, analysis method, and recording medium
JP6366091B2 (ja) * 2014-06-13 2018-08-01 日本電気株式会社 ミスアライメント検知装置、方法、およびプログラム
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10037025B2 (en) 2015-10-07 2018-07-31 Business Objects Software Ltd. Detecting anomalies in an internet of things network
US10062843B2 (en) * 2015-12-11 2018-08-28 Samsung Electronics Co., Ltd. Variable resistive memory device and method of manufacturing the same
KR102494751B1 (ko) * 2015-12-11 2023-02-02 삼성전자 주식회사 가변 저항 메모리 소자 및 그 제조 방법
US10152363B2 (en) * 2016-03-16 2018-12-11 Microsoft Technology Licensing, Llc Identifying potential computer system problems using machine learning techniques
US11487747B2 (en) * 2018-01-12 2022-11-01 Nippon Telegraph And Telephone Corporation Anomaly location identification device, anomaly location identification method, and program
WO2019236119A1 (en) * 2018-06-07 2019-12-12 Hewlett-Packard Development Company, L.P. Evaluation of a performance parameter of a monitoring service
CN111309567B (zh) * 2020-01-23 2024-03-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
CN115277357A (zh) * 2021-04-30 2022-11-01 华为技术有限公司 网络故障分析方法、装置、设备及存储介质
CN113839806B (zh) * 2021-08-12 2023-06-09 中国地质大学(武汉) 基于时滞关联检测的根源报警分析方法和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009842A (ja) * 2006-06-30 2008-01-17 Hitachi Ltd コンピュータシステムの制御方法及びコンピュータシステム
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2855590B2 (ja) 1991-07-26 1999-02-10 日本電信電話株式会社 相関関係解析装置
JPH09307550A (ja) 1996-05-10 1997-11-28 Hitachi Ltd ネットワークシステム監視装置
JPH10257054A (ja) 1997-03-11 1998-09-25 Sumitomo Electric Ind Ltd ネットワーク管理装置およびネットワーク管理方法
US7096459B2 (en) * 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems
US7020802B2 (en) * 2002-10-17 2006-03-28 Sun Microsystems, Inc. Method and apparatus for monitoring and recording computer system performance parameters
JP2007227481A (ja) 2006-02-21 2007-09-06 Nec Electronics Corp 不良原因解析方法
US7770072B2 (en) * 2007-01-16 2010-08-03 Xerox Corporation Method and system for analyzing time series data
WO2008114863A1 (ja) * 2007-03-22 2008-09-25 Nec Corporation 診断装置
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
US8060782B2 (en) * 2010-03-01 2011-11-15 Microsoft Corporation Root cause problem identification through event correlation
WO2012086824A1 (ja) * 2010-12-20 2012-06-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009842A (ja) * 2006-06-30 2008-01-17 Hitachi Ltd コンピュータシステムの制御方法及びコンピュータシステム
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム

Also Published As

Publication number Publication date
CN102713862B (zh) 2015-12-02
EP2538332A1 (en) 2012-12-26
WO2011099341A1 (ja) 2011-08-18
US9274869B2 (en) 2016-03-01
US20140325276A1 (en) 2014-10-30
JPWO2011099341A1 (ja) 2013-06-13
EP2538332B1 (en) 2020-04-01
EP2538332A4 (en) 2015-08-12
US8719636B2 (en) 2014-05-06
US20120030522A1 (en) 2012-02-02
CN102713862A (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
JP5418610B2 (ja) 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6777069B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP4859558B2 (ja) コンピュータシステムの制御方法及びコンピュータシステム
JP5621937B2 (ja) 運用管理装置、運用管理方法、及びプログラム
WO2010032701A1 (ja) 運用管理装置、運用管理方法、および運用管理プログラム
US20090167520A1 (en) Communication network failure detection system, and communication network failure detection method and failure detection program
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
US20160321128A1 (en) Operations management system, operations management method and program thereof
JP6777142B2 (ja) システム分析装置、システム分析方法、及び、プログラム
WO2008050323A2 (en) Method for measuring health status of complex systems
JP6954379B2 (ja) 異常箇所特定装置、異常箇所特定方法及びプログラム
JP2020083492A (ja) 繰り返し故障防止装置、繰り返し故障防止システム及び繰り返し故障防止方法
EP2916222A1 (en) Distributed data processing system and distributed data processing method
CN113886046A (zh) 作业资源竞争识别方法、装置和电子设备

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131104

R150 Certificate of patent or registration of utility model

Ref document number: 5418610

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150