JP5418610B2

JP5418610B2 - 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Info

Publication number: JP5418610B2
Application number: JP2011553783A
Authority: JP
Inventors: 謙太郎矢吹
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-02-15
Filing date: 2011-01-14
Publication date: 2014-02-19
Anticipated expiration: 2031-01-14
Also published as: CN102713862B; EP2538332A1; WO2011099341A1; US9274869B2; US20140325276A1; JPWO2011099341A1; EP2538332B1; EP2538332A4; US8719636B2; US20120030522A1; CN102713862A

Description

本発明は、障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体に関する。

企業情報システムやＩＤＣ（ＩｎｔｅｒｎｅｔＤａｔａＣｅｎｔｅｒ）などのような大規模な情報システムなどで、ウェブサービスや業務サービスといった情報通信サービスの社会インフラとしての重要性が高まるにつれて、そのサービスを提供するコンピュータ装置には安定して稼動し続けることが求められている。このようなコンピュータ装置の運用管理は、通常は管理者により手作業で行われる。そして、装置が大規模・複雑化するにつれて、管理者に対する負担が飛躍的に増大し、判断ミスや操作ミスによるサービス停止が発生しやすくなっている。
このため、それらのシステムを構成するハードウェアやソフトウェアの動作状態を一元的に状態監視して制御する統合障害原因抽出システムが提供されている。この統合障害原因抽出システムは、管理対象である複数のコンピュータ装置でハードウェアまたはソフトウェアの稼動状況に関する情報を取得し、該システムに接続した障害原因抽出装置に出力する。管理対象であるシステムの障害を判別する方法としては、あらかじめ稼動情報に閾値を設定しておく方法や、稼動情報の平均値からのずれを評価する方法などがある。
例えば、このような統合障害原因抽出システムの障害原因抽出装置は、性能情報毎に閾値を設定し、各々の性能情報が閾値を越えたことを検出して障害を検知する。障害原因抽出装置は、予め異常であることが明確な値を閾値に設定して、個々の要素の性能の異常を検出して、これを管理者に報告する。
異常検出が報告された場合、管理者は、その異常を解決するために発生原因を特定する必要がある。たとえばＣＰＵの過負荷、メモリ容量の不足、ネットワークの過負荷などが、その発生原因として代表的なものである。しかしながら、発生原因の特定には、関連性がありそうなコンピュータを特定して、そのシステムログやパラメータなどを調査することが必要である。この作業は、各管理者に、高度な知識やノウハウ、及び、時間と労力を要求する。
このため、統合障害原因抽出システムでは、複数の機器から収集したイベントデータ（状態通知）に基づいて、動作状態の組み合わせなどについて相関分析を自動的に行い、大局的な問題点や原因を推定して、これらを管理者に通知し、対処支援を行っている。特に、サービスの長期連続運用での信頼性確保には、発生した異常に対処するだけでなく、現時点では目に見える異常が発生していなくても将来的に異常の発生要因となり得る要素を抽出して、計画的に設備の増強などの対策を取ることが求められている。
このような統合障害原因抽出システム、あるいはそこで利用しうる相関分析に関連する技術が、例えば次に示す各々の特許文献に記載されている。
特開２００９−１９９５３３号公報には、正常時の任意の２つの性能情報の値（性能値）の時系列に対して、一方を入力とし他方を出力とした場合の変換関数を導出することで相関モデルを生成し、別の時点での性能情報を用いて相関モデルの変換関数に従った性能値との比較検証を行い、その相関関係の破壊の度合いによって障害の検出を行う技術が記載されている。
特開２００９−１９９５３４号公報には、特開２００９−１９９５３３号公報と同様の相関モデルを利用して、実運用で発生するボトルネックを予測する障害原因抽出装置が記載されている。また特開２００７−２２７４８１号公報には、半導体ウエハの製造不良の原因特定で、ウエハ上のテストパターンに電流を流して得られる２次元輝度画像やビア抵抗などから得られる相関関係を利用する技術が記載されている。特開平０５−０３５７６９号公報には、「相関異常点」の有無を分析して、「相関異常点」があればその点を分析から除外する相関関係解析装置が記載されている。
さらに特開平０９−３０７５５０号公報には、ネットワークシステムの分析で、発生した多数の「アラーム」の中から、規則性に着目することによって、「代表アラーム」を抽出するネットワークシステム監視装置が記載されている。特開平１０−２５７０５４号公報には、第１および第２のノード群で発生した障害イベントの間の相関値に基づいて、それらの対応関係を取得するネットワーク管理装置が記載されている。

特開２００９−１９９５３３号公報に記載の技術では、ある性能情報に対して相関を持つ性能情報の中で、相関が破壊されているものの個数や破壊度合いの総和、もしくは割合によって、物理的な接続関係において隣接した機器について異常の度合いを算出することができる。さらに、その技術では、現時点で顕在化した障害が発生していなくても、相関関係の破壊を検出することによって、障害の発生要因となり得る性能情報を抽出し、設備の増強などの対策を取ることができる。
しかしながら、システム内のある相関関係の破壊は、他の相関関係に伝播し、さらに他の相関関係にも伝播し、…といったことを繰り返し、システム全体に影響を及ぼすという現象が実際のシステムの運用で見出されている。特開２００９−１９９５３３号公報に記載の技術ではこの相関関係の破壊の伝播について全く考慮されておらず、これを検出することはできない。特開２００９−１９９５３４号公報、特開２００７−２２７４８１号公報、特開平０５−０３５７６９号公報、特開平０９−３０７５５０号公報、及び、特開平１０−２５７０５４号公報にも、同様に、相関関係の破壊の伝播に着目し、これを検出するという技術は記載されていない。このため、これらの技術では、相関関係の破壊が伝播した場合に、障害の発生要因となり得る性能情報を的確に抽出することができない。
本発明の目的は、相関関係の破壊の伝播がある場合に、障害の発生要因となり得る性能情報を的確に抽出することを可能とする障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体を提供することにある。

本発明の障害原因抽出装置は、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶する記憶手段と、一つの前記種別である基点の性能値から直接または間接的に変換可能であり、かつ、前記相関関数の入力とならない、他の前記種別の性能値への変換に使用される前記相関関数である基点伝播関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する相関破壊伝播検出手段とを含む。
本発明の障害原因抽出方法は、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶し、一つの前記種別である基点の性能値から直接または間接的に変換可能であり、かつ、前記相関関数の入力とならない、他の前記種別の性能値への変換に使用される前記相関関数である基点伝播関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する。
本発明のプログラム記録媒体は、コンピュータに、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶し、一つの前記種別である基点の性能値から直接または間接的に変換可能であり、かつ、前記相関関数の入力とならない、他の前記種別の性能値への変換に使用される前記相関関数である基点伝播関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する処理を実行させるプログラムを記録する。

本発明の効果は、相関関係の破壊の伝播がある場合に、異常の発生要因となり得る要素を的確に抽出できることである。

本発明の第１の実施形態に係る障害原因抽出装置および被監視コンピュータの構成を示す説明図である。本発明の第１の実施形態に係る障害原因抽出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。図１に示した障害原因抽出装置の、処理の流れを示す説明図である。図１および図３に示した性能情報蓄積部が蓄積する正常時性能情報データの例を示す説明図である。図４で示した正常時性能情報データに対する相関モデル生成処理の一例を示す説明図である。図４に示した正常時性能情報データから相関モデル生成部が生成した相関モデル情報データの例を示す説明図である。図６に示した相関モデル情報データから描かれる相関グラフの例を示す説明図である。図１および図３に示した相関破壊情報データの例を示す説明図である。図１および図３に示した相関破壊伝播検出部および異常度計算部による相関破壊の伝播についての計算の一例を示す説明図である。本発明の第１の実施形態の障害原因抽出装置における処理の一例を示すフローチャートである。図１０のステップＳ１１として示した相関モデル生成の詳細な処理の一例を示すフローチャートである。図１０のステップＳ１２として示した相関モデルの変化の分析の詳細な処理の一例を示すフローチャートである。図１０のステップＳ１３として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。異常度を算出するために用いる相関関係の範囲の一例を示す説明図である。本発明の第２の実施形態に係る障害原因抽出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。本発明の第２の実施形態に係る障害原因抽出装置および被監視コンピュータの構成を示す説明図である。図１６に示した障害原因抽出装置の、処理の流れを示す説明図である。本発明の第２の実施形態の障害原因抽出装置における処理の一例を示すフローチャートである。図１８のステップＳ２３として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。図１９のステップＳ６０４で示した最大影響度の計算の概念について示す説明図である。本発明の第１の実施形態の特徴的な構成を示すブロック図である。

（第１の実施形態）
以下、本発明の第１の実施形態の構成について添付図１に基づいて説明する。
最初に、第１の実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
第１の実施形態に係る障害原因抽出装置１０は、システムを構成する複数の被管理装置（被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…）から複数種の性能種目（例えば、ＣＰＵ利用率、メモリ使用量等）毎の性能値を含む性能情報を取得し、性能種目、被管理装置、またはそれらの組み合わせを要素（性能値の種別、または、単に種別）として性能情報を分析し、これらの要素の中から障害の発生要因となりうる要素を抽出する。
この障害原因抽出装置１０は、性能情報蓄積部２２、相関モデル生成部２３、相関分析部２４、相関破壊伝播検出部２５、異常度算出部２６、及び、障害分析部２７を含む。
性能情報蓄積部２２は、複数の被管理装置から複数種の性能種目毎の性能値を含む性能情報を取得する。
相関モデル生成部２３は、取得された性能情報から、少なくとも第１の要素に関する性能値の時系列変化を示す第１の性能系列情報と、第２の要素に関する性能値の時系列変化を示す第２の性能系列情報との間の相関関数を導出すると共に、この相関関数に基づいて各要素の性能値間の組み合わせについて相関モデルを生成する。
相関分析部２４は、被管理装置から新たに検出された第１の要素に関する性能値と相関関数とに基づいて、第２の要素に関する予測性能値を算出し、新たに検出された第２の要素に関する性能値と予測性能値とを比較して予測誤差を算出する。そして、相関分析部２４は、この予測誤差が一定の誤差範囲内を満たすか否かを分析し、予測誤差が誤差範囲外となる場合に、第１の要素と第２の要素との相関関係が破壊されていると判断する。
相関破壊伝播検出部２５は、相関モデル上の任意の要素を基点とした相関関係の連鎖（相関関係の伝播）を表す相関グラフ（例えば、図７の４１Ｂ）をもとに、その要素が、相関関係の伝播を通してシステムに与える影響の度合いである影響度を算出する。例えば、相関破壊伝播検出部２５は、第１の要素と第２の要素との相関関係の破壊（相関破壊）が検出された場合に、その要素の、相関破壊が検出された相関関係に対する影響（相関破壊の伝播）の度合を影響度として算出する。なお、一つの基点を始点とし、他の要素に至る相関グラフ上の辺に対応する相関関数を当該基点の基点伝播関数とする。
異常度算出部２６は、相関破壊伝播検出部２５によって算出された影響度に基づいて、相関モデル上の任意の要素の異常度を算出する。
障害分析部２７は、異常度が予め与えられた閾値以上である場合に、その要素に異常が発生したと判定する。
また、この障害原因抽出装置１０では、相関関係に相関破壊が検出された場合に、相関分析部２４が予測誤差に基づいてその相関破壊の破壊度を算出し、相関破壊伝播検出部２５が、この破壊度を用いて影響度を算出する。
そして相関破壊伝播検出部２５は、相関モデル上の任意の要素を基点とした相関グラフにおいて、相関破壊の破壊度に、その要素から相関破壊が検出された相関関係までの間に存在する相関関係の数を指数として、予め与えられた定数を累乗した減衰率を乗算し、これを相関破壊が検出された相関関係の集合について合計することにより、その要素の影響度（総相関破壊伝播）を算出する。また、相関破壊伝播検出部２５は、減衰率をその相関グラフ上の相関関係の集合について加算することにより、その要素の総相関伝播を算出する。異常度算出部２６は、総相関破壊伝播を総相関伝播で除算してその要素の異常度を算出する。
このような構成を備えることにより、障害原因抽出装置１０は、相関破壊の伝播によるネットワーク全体への影響を的確に検出することが可能となる。
以下、これをより詳細に説明する。
図２は、本発明の第１の実施形態に係る障害原因抽出装置１０を含む障害原因抽出システム１の全体の概略構成の一例を示す説明図である。第１の実施形態に係る障害原因抽出システム１は、複数の被管理装置である被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…と、これらのコンピュータ２を運用管理する障害原因抽出装置１０とが、ネットワーク３を介して相互に通信可能に接続されて構成される。
障害原因抽出装置１０は、各々の被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…から複数種の性能種目ごと（例えばＣＰＵ利用率やメモリ残量など）の性能値を含む性能情報を取得し、この性能情報に基づいて以後に説明する動作を行う。
図１は、本発明の第１の実施形態に係る障害原因抽出装置１０および被監視コンピュータ２の構成を示す説明図である。図２に示した被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…は、全て被監視コンピュータ２Ａと同一の構成を有するので、図１では詳細な記載を省略し、これらを総称して被監視コンピュータ２とする。図３は、図１に示した障害原因抽出装置１０の処理の流れを示す説明図である。
本発明の第１の実施形態に係る障害原因抽出装置１０は、例えば、一般的なコンピュータ装置であり、コンピュータプログラムを実行する主体となる主演算制御部（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、データを記憶する記憶部１２と、ネットワーク３を介して他のコンピュータとのデータ通信を行う通信部１３と、ユーザ（この場合はネットワーク管理者）からの操作を受け付け、また処理結果を提示する入出力部１４とを備える。
障害原因抽出装置１０の主演算制御部１１では、性能情報蓄積部２２、相関モデル生成部２３、相関分析部２４、相関破壊伝播検出部２５、異常度計算部２６、障害分析部２７、及び、管理者対話部２８の各々が、コンピュータプログラムとして動作する。また、記憶部１２には、正常時性能情報データ３１、相関モデル情報データ３２、相関破壊情報データ３３、及び、分析設定情報データ３４の各々が記憶される。
被監視コンピュータ２も、障害原因抽出装置１０と同様に、主演算制御部５１、記憶部５２、及び、通信部５３を備える。これらの機能は、障害原因抽出装置１０の主演算制御部１１、記憶部１２、通信部１３と同一であるが、被監視コンピュータ２の主演算制御部５１では、サービス実行部６１、情報収集部６２、および対処実行部６３の各々が、コンピュータプログラムとして動作する。
被監視コンピュータ２のサービス実行部６１は、ウェブサービスや業務サービスといった情報通信サービスを提供する。情報収集部６２は、サービス実行部６１の動作状態を検出し、その動作状態に含まれる性能情報を取得し、障害原因抽出装置１０の性能情報蓄積部２２に送信する。障害原因抽出装置１０の性能情報蓄積部２２は、各々の被監視コンピュータ２の情報収集部６２から性能情報を受信し、これを正常時性能情報データ３１として保存する。
相関モデル生成部２３は、正常時性能情報データ３１から一定期間の性能情報を取り出し、任意の２つの種別の性能値の時系列に対して、一方を入力とし他方を出力とした場合の変換関数（相関関数）を導出する。相関モデル生成部２３は、この相関関数で生成された性能値の系列と、その性能値の実際の検出値の系列とを比較し、その値の差から相関関数の重み情報を算出する。さらに、相関モデル生成部２３は、これらの処理をすべての種別間の組み合わせに対して繰り返すことで、サービス実行部６１の全体的な稼動状態の相関モデルを生成する。相関モデル生成部２３は同時に、生成した相関モデルを相関モデル情報データ３２として保存する。
相関分析部２４は、性能情報蓄積部２２から新たに検出された性能情報を受け取り、この性能情報に含まれる性能値が相関モデル情報データ３２に蓄積される相関モデルの各々の種別の性能値間の相関関数で示された関係を一定の誤差範囲内で満たしているかを分析して、その結果を出力する。
また、相関分析部２４は、新たに検出された第１の要素に関する性能値と相関関数とに基づいて第２の要素に関する予測性能値を算出し、新たに検出された第２の要素に関する性能値と予測性能情報とを比較して予測誤差を算出し、この予測誤差が一定の誤差範囲内を満たすか否かを分析する。相関分析部２４はさらに、この予測誤差が誤差範囲外となる場合に、第１の要素と第２の要素との相関関係が破壊されていると判断し、それぞれの要素間の相関破壊の破壊度を算出し、この破壊度を相関破壊情報データ３３として保存する。
障害分析部２７は、性能情報蓄積部２２が収集した動作状態と相関分析部２４による分析結果とを受け取って、分析設定情報データ３４に予め記憶された分析設定の内容に従って障害分析を行う。
管理者対話部２８は、障害分析部２７から障害分析の結果を受け取り、これを入出力部１４を介して管理者に提示する。そして、管理者対話部２８は、管理者からの操作入力を受け付け、この操作入力に従って被監視コンピュータ２の対処実行部６３に対処を指示する。対処実行部６３は、管理者対話部２８からの指示に応じてサービス実行部６１上で障害の対処となる処理を実行する。
以上は、特開２００９−１９９５３３号公報に記載の障害原因抽出装置と同様の構成であるが、第１の実施形態に係る障害原因抽出装置１０はこれに加えて相関破壊伝播検出部２５と異常度計算部２６とを有する。
相関破壊伝播検出部２５は、要素間の相関破壊が検出された場合に、相関モデル情報データ３２と相関破壊データ３３とをもとに、相関モデル上の各要素の影響度を算出する。
異常度算出部２６は、相関破壊伝播検出部によって算出された影響度に基づいて、相関モデル上の各要素の異常度を算出する。
相関破壊伝播検出部２５および異常度計算部２６によるこれらの処理の詳細は後述する。
障害分析部２７は、異常度計算部２６によって算出された異常度に対して、分析設定情報データ３４に蓄積されている分析設定に従って障害分析を行う。分析設定情報データ３４には、たとえば異常度が一定の閾値以上であれば管理者に警告メッセージを提示することが指定されている。障害分析部２７は、これに従って、性能情報蓄積部２２で検出された性能情報から、特定のコンピュータの負荷が高くなっているかどうかを、閾値を用いて判定する。ここで、利用される閾値は、分析設定情報データ３４に予め記憶されている。また、特定の性能種目や特定の被監視コンピュータ２について、他と異なる閾値が分析設定情報データ３４上に指定されていてもよい。
管理者対話部２８は、このような障害分析の結果を、入出力部１４を介して管理者に提示する。また、管理者が入出力部１４を介して何らかの対処を指示する入力を行った場合、管理者対話部２８はこの入力された内容を対処実行部６３に渡して対処を実行させる。たとえば、特定の被監視コンピュータ２のＣＰＵ利用率やメモリ残量について異常が発生した場合には、管理者は、その被監視コンピュータ２の業務量を減らして他の被監視コンピュータ２に回すなどの対処を行うことができる。
この後、一定時間間隔で性能情報蓄積部２２によって収集された性能情報に相関破壊が検出されなければ、障害分析部２７は障害が回復したと判断し、その結果が管理者対話部２８を介して管理者に提示される。このような情報収集、分析、対処の処理の繰り返しにより、サービス実行部６１上の障害対処が継続して行われる。
（相関モデルの生成と相関破壊の検出）
図４は、図１および図３に示した性能情報蓄積部２２が蓄積する正常時性能情報データ３１の例を示す説明図である。被監視コンピュータ２の情報収集部６２は、サービス実行部６１の動作状態を検出し、そこから性能情報を抽出し、障害原因抽出装置１０の性能情報蓄積部２２に送信する。性能情報蓄積部２２は、受信した性能情報を正常時性能情報データ３１として記録し、蓄積する。
正常時性能情報データ３１は、情報収集部６２が順次収集する、サービス実行部６１の性能情報の一覧である。個々の性能情報は、図２に示した被監視コンピュータ２の各々で、同一時刻において測定された複数種目の性能値で構成され、それらが一定時間間隔でリストアップされたものである。たとえば、サービス実行部６１でウェブサービスが実行されている場合、情報収集部６２は該ウェブサービスを提供する被監視コンピュータ２の各々のＣＰＵ使用率やメモリ残量を一定時間間隔で検出し、障害原因抽出装置１０の性能情報蓄積部２２に送信する。性能情報蓄積部２２は、これを正常時性能情報データ３１として記録し、蓄積する。
図４は、このようにして蓄積された正常時性能情報データ３１の例を示している。ここで、図２に示した被監視コンピュータ２の各々は被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…として示され、被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…の名前は、それぞれ「ＳＶ１」、「ＳＶ２」、「ＳＶ３」、…である。
たとえば、種別「ＳＶ１．ＣＰＵ」は、被監視コンピュータ２Ａ（ＳＶ１）のＣＰＵ利用率を示し、「ＳＶ１．ＣＰＵ」の２０１０年１月５日の１７時２５分時点に測定された性能値が「１２」で、それから１分間隔に測定された性能値は、１７時２６分からそれぞれ、「１５」、「３４」、「６３」、…である。同様に、種別「ＳＶ１．ＭＥＭ」は、被監視コンピュータ２Ａ（ＳＶ１）のメモリ使用量を示し、「ＳＶ１．ＣＰＵ」の性能値として「ＳＶ１．ＣＰＵ」と同時刻に測定された性能値が示されている。種別「ＳＶ２．ＣＰＵ」は、被監視コンピュータ２Ｂ（ＳＶ２）のＣＰＵ利用率を示し、「ＳＶ２．ＣＰＵ」の性能値として他の性能値と同時刻に測定された性能値が示されている。
相関モデル生成部２３は、この蓄積された正常時性能情報データ３１の各種別の性能値に対して、以下に示すように相関モデル生成の処理を行う。図５は、図４で示した正常時性能情報データ３１に対する相関モデル生成処理の一例を示す説明図である。グラフＧ１０１は、時間軸ｔに対する種別「ＳＶ１．ＣＰＵ」の性能値をｘとした場合の、ｔとｘとの関係を示すグラフである。グラフＧ１０２は、時間軸ｔに対する種別「ＳＶ１．ＭＥＭ」の性能値をｙとした場合の、ｔとｙとの関係を示すグラフである。グラフＧ１０１は「第１の性能系列情報」、グラフＧ１０２は「第２の性能系列情報」を各々示す。
ここで、相関モデル生成部２３は、ｘとｙとの間の関係を、指示された所定の近似式、例えば「ｙ＝ｆ（ｘ）＝Ａｘ＋Ｂ」（Ａ、Ｂは定数）、で近似し、係数の値「Ａ＝−０．６」、「Ｂ＝１００」を算出する。相関モデル生成部２３は、この相関関数により、グラフＧ１０１で示される種別「ＳＶ１．ＣＰＵ」の実際の性能値の系列から生成される種別「ＳＶ１．ＭＥＭ」の性能値の予測値の系列と、グラフＧ１０２で示される種別「ＳＶ１．ＭＥＭ」の実際の性能値の系列との差分（グラフＧ１０３）を算出する。そして、相関モデル生成部２３は、例えば、その差分の平均値に応じて小さくなり、最大値が１である重み「ｗ＝０．８８」を算出する。この近似式は、このような１次関数に限られるものではなく、有効に近似することが可能であればいかなる関数を使用してもよい。
相関モデル生成部２３は、この重みｗが特定の閾値以上である場合に、このｘとｙとの間の相関関係を「有効」と判定する。たとえば閾値を「０．５以上」とした場合、このｘとｙ、即ち「ＳＶ１．ＣＰＵ」と「ＳＶ１．ＭＥＭ」との間の相関関係は「有効」と判定される。
図６は、図４に示した正常時性能情報データ３１から相関モデル生成部２３が生成した相関モデル情報データ３２の例を示す説明図である。相関モデル情報データ３２は、上述のようにして正常時性能情報データ３１に記録された全ての種別の相互間で、相関関数の入力となる種別の名称と、出力となる種別の名称と、相関関数を特定する各々の係数および重みの値と、相関関係が有効であるか否かを示す相関関係判定情報（有効性）と、を含んで構成される。
たとえば、図５に示した「ＳＶ１．ＣＰＵ」と「ＳＶ１．ＭＥＭ」の相関関係に対して、相関モデル情報データ３２では「ＳＶ１．ＭＥＭ」を出力とし、「ｙ＝Ａｘ＋Ｂ」の式における係数Ａの値が「−０．６」、係数Ｂの値が「１００」、重みが「０．８８」である相関関係が蓄積される。相関モデル生成部２３は、このような分析を性能情報蓄積部２２が蓄積した正常時性能情報データ３１の全ての種別の相互間で行う。
相関分析部２４は、その全ての種別の相互間に対して、重みｗが特定の閾値以上であるか否か、即ち相関関係が有効であるか否かを判定し、その相関関係が有効であれば「○」、無効であれば「×」のデータを相関モデル情報データ３２の相関関係判定情報（有効性）に設定する。
図７は、図６に示した相関モデル情報データ３２から描かれる相関グラフ４１の例を示す説明図である。相関分析部２４は、操作者からの指示入力に伴って、このような相関グラフ４１を描いて管理者対話部２８を介して出力する機能も持つ。図７に示した例では、相関グラフ４１は被監視コンピュータ２Ａ、２Ｂ、２Ｃの３台について、各々のＣＰＵ利用率とメモリ使用量を、それぞれ要素Ａ〜Ｆで表している。
被監視コンピュータ２ＡのＣＰＵ利用率とメモリ使用量は各々「ＳＶ１．ＣＰＵ」と「ＳＶ１．ＭＥＭ」、被監視コンピュータ２ＢのＣＰＵ利用率とメモリ使用量は各々「ＳＶ２．ＣＰＵ」と「ＳＶ２．ＭＥＭ」、被監視コンピュータ２ＣのＣＰＵ利用率とメモリ使用量は各々「ＳＶ３．ＣＰＵ」と「ＳＶ３．ＭＥＭ」である。
例えば、要素Ａは「ＳＶ１．ＣＰＵ」、即ち被監視コンピュータ２ＡのＣＰＵ利用率を示す。また、要素Ｆは「ＳＶ３．ＭＥＭ」、即ち被監視コンピュータ２Ｃのメモリ使用量を示す。
そして、それぞれの要素の間を結ぶ線が、相関モデルの相関関数で表される、一方の要素から他方の要素への相関関係を示している。また、それぞれの相関関係は、０〜１の範囲で表される重みｗが０．５以上であれば太線で、それ以下であれば細線で表されている。図７の相関グラフ４１は、このように重みｗに応じた線の太さで相関関係を示したものである。
例えば、要素Ａと要素Ｂとの相関関係は、太線となっており、要素Ａから要素Ｂへの相関関係の重みｗが０．５以上であることを示す。また、要素Ａと要素Ｆとの相関関係は、細線となっており、要素Ａから要素Ｆへの相関モデルの重みｗが０．５未満であることを示す。重みｗは、相関関数の誤差によって算出されるため、この線の太さが相関関係の強さを表している。
相関モデル生成部２３は、例えば、相関グラフ４１から重みが０．５以上であるような安定した相関関係（太線）のみを抽出し、図７の相関グラフ４１Ｂのような相関関係を得ることができる。相関モデル生成部２３は、この相関モデル情報データ３２を、障害原因抽出システム１全体が安定して正常に動作している間に取得された性能情報をもとに作成する。
そして、相関分析部２４は、以上に示した相関関係の分析を、新たに得られた性能情報に対して行う。すると、障害原因抽出システム１全体が正常に動作していた時に有効（「○」）であった相関関係が、時間の経過と共に無効（「×」）になる場合がある。これが、本実施形態における「相関破壊」であり、正常に動作していた時と比べて、障害原因抽出システム１の動作状態に明らかに何らかの変化が発生していることを示唆する。
図７の相関グラフ４１Ｃは、そのように時間の経過に伴って破壊された相関関係を破線で示す。相関グラフ４１Ｃでは、正常動作時の相関グラフ４１Ｂと比べて、要素Ａと要素Ｃ、要素Ｂと要素Ｃ間の相関が破壊されている。相関分析部２４は、新たに得た性能情報を相関モデル情報データ３２と照らし合わせ、性能値相互間の変換誤差の大きさを示す「破壊度」を算出し、相関破壊情報データ３３として保存する。
ここで、相関分析部２４は、例えば、最大値を１とした、所定の最大誤差に対する割合を破壊度としてもよい。この場合、所定の最大誤差は、例えば、管理者により、変換誤差の最大値の想定値として与えられる。
図８は、図１および図３に示した相関破壊情報データ３３の例を示す説明図である。相関破壊情報データ３３は、相関破壊が検出された各相関関係に対して、算出された破壊度を保存している。
（相関破壊の伝播についての計算）
図９は、図１および図３に示した相関破壊伝播検出部２５および異常度計算部２６による、相関破壊の伝播についての計算の一例を示す説明図である。相関破壊伝播検出部２５は、相関分析部２４が以上に示したような相関破壊を検出した場合に、相関グラフ上の各要素の影響度（総相関破壊伝播）を算出する。
図９に示す例では、要素Ａ〜Ｇの７つの要素を持つ障害原因抽出システムにおいて、正常時には要素Ａ−Ｂ間（入力が要素Ａ、出力が要素Ｂの相関関係。以下、同様。）、要素Ａ−Ｅ間、要素Ｂ−Ｃ間、要素Ｂ−Ｄ間、要素Ｅ−Ｆ間、要素Ｅ−Ｇ間で相関関係が有効となっている系で、要素Ａ−Ｅ間、および要素Ｅ−Ｆ間で相関が破壊されたことを相関分析部２４が検出している。
また図９に示す例では、要素Ａが、要素Ａを基点とした相関グラフで表わされる相関関係の伝播を通して、他の要素に関係する相関関係に影響を与え、相関破壊が検出されている。ここで、相関関係ｉの破壊度をｂｒｋ（ｉ）とし、また要素Ａから相関関係ｉまで至る相関関係の数をｈｏｐ（ｉ）、相関関係の伝播の減衰率をｄｕｍｐ（ｉ）とすると、相関グラフの基点要素の総相関破壊伝播Ｆ（影響度）、総相関伝播Ｇ、及び、異常度ｅｖａｌは、以下に示す数１で計算される。ここで、ｎは、相関グラフ上で相関破壊が検出された相関関係の集合、ｍは、相関グラフ上の相関関係の集合を示す。

図９に示す例で、要素Ａ−Ｅ間、要素Ｅ−Ｆ間の破壊度をｂｒｋ＝０．６、減衰率ｄｕｍｐ（ｉ）＝０．５＾（ｈｏｐ（ｉ）−１）と定義すると、総相関破壊伝播Ｆ、総相関伝播Ｇ、及び、異常度ｅｖａｌは、以下に示す数２のように計算される。この例では要素Ａ−Ｅ間、要素Ｅ−Ｆ間の相関関係が集合ｎに該当し、それ以外も含めた全ての相関関係が集合ｍに該当する。また、要素Ａ−Ｂ間およびＡ−Ｅ間の相関関係について、ｈｏｐ（ｉ）＝１、要素Ｂ−Ｃ間、Ｂ−Ｄ間、Ｅ−Ｆ間、Ｅ−Ｇ間の相関関係について、ｈｏｐ（ｉ）＝２である。図９では、相関破壊が検出された相関関係を破線の矢印で、それ以外の相関関係を実線の矢印で示している。

数２で、総相関破壊伝播Ｆの式の右辺第１項は要素Ａ−Ｅ間、第２項は要素Ｅ−Ｆ間の相関関係に対する相関破壊の伝播を示す。また総相関伝播Ｇの式の右辺第１〜６項は各々、要素Ａ−Ｂ間、Ｂ−Ｃ間、Ｂ−Ｄ間、Ａ−Ｅ間、Ｅ−Ｆ間、Ｅ−Ｇ間の減衰率を示す。
同様の計算を、相関破壊伝播検出部２５および異常度計算部２６は、全ての要素を基点として行う。障害分析部２７は、ある要素を基点として算出された異常度ｅｖａｌが所定の閾値を超えた場合に、その要素に異常が発生したと判定し、このことを管理者対話部２８を介して管理者に提示する。異常度ｅｖａｌに対する閾値は、分析設定情報データ３４としてあらかじめ与えられている。
（処理の流れ）
図１０は、本発明の第１の実施形態の障害原因抽出装置１０における処理の一例を示すフローチャートである。本実施の形態においては、障害原因抽出システム１を構成する複数の被監視コンピュータ２から取得される１種または複数種の性能情報について、この性能種目、被管理装置、または、それらの組み合わせを要素とする。相関モデル生成部２３は、障害原因抽出システム１全体が安定して正常に動作している間に取得された性能情報をもとに、性能情報に含まれる各々の要素の性能値の時系列変化を示す性能系列情報の相互間で、相関モデルを生成する（ステップＳ１１）。
これに続いて、相関分析部２４は、新たに検出し取得される性能情報をその相関モデルに当てはめて、相関破壊を検出する（ステップＳ１２）。そして相関破壊伝播検出部２５が、検出された相関破壊について、要素ごとに影響度を計算し、異常度算出部２６は、その基点の異常度を計算する（ステップＳ１３）。ステップＳ１１およびＳ１２は、特開２００９−１９９５３３号公報に記載の障害原因抽出装置と同様の動作である。ステップＳ１３が、本発明に係るに障害原因抽出装置に特有の動作である。
図１１は、図１０のステップＳ１１として示した相関モデル生成の詳細な処理の一例を示すフローチャートである。障害原因抽出システム１全体が安定して正常に動作している間に、被監視コンピュータ２の情報収集部６２がサービス実行部６１の動作状態を検出して、その動作状態に含まれる性能情報を障害原因抽出装置１０の性能情報蓄積部２２に送信する。障害原因抽出装置１０の性能情報蓄積部２２は、この性能情報を正常時性能情報データ３１として保存する。
相関モデル生成部２３は、この正常時性能情報データ３１を読み込み（ステップＳ１０１）、未分析の性能値の種別が残っているか否かを判定する（ステップＳ１０２）。未分析の種別が残っていなければ（ステップＳ１０２／ＮＯ）、相関モデル生成部２３は、処理を終了する。
未分析の種別が残っていれば（ステップＳ１０２／ＹＥＳ）、相関モデル生成部２３は、性能値の種別間の相関関数の係数等を算出する処理を開始する。相関モデル生成部２３は、上述の、図４、５に示した種別「ＳＶ１．ＣＰＵ」と「ＳＶ１．ＭＥＭ」の各々の性能値の系列間の相関関数を算出する処理と同様に、未分析の種別間の相関関数の係数等の算出を行う。たとえば「ｙ＝Ａｘ＋Ｂ」の式で示される相関関数で近似を行う場合、相関モデル生成部２３は、係数ＡおよびＢを算出する（ステップＳ１０３）。
さらに、これに続いて、相関モデル生成部２３は、相関関数の重みｗも算出する（ステップＳ１０４）。そして、相関モデル生成部２３は、算出された係数と重みを、相関モデル情報データ３２として保存する（ステップＳ１０５）。相関モデル生成部２３は、以上のステップＳ１０３〜１０５に示した処理を全ての性能値の種別の組み合わせについて繰り返して、障害原因抽出システム１全体に対して相関モデル情報データ３２を生成する。
図１２は、図１０のステップＳ１２として示した相関モデルの変化の分析の詳細な処理の一例を示すフローチャートである。相関分析部２４は、図１１に示した処理によって生成された相関モデル情報データ３２を読み込み（ステップＳ２０１）、そこに含まれる重み情報に応じて相関関係を選別する（ステップＳ２０２）。この処理は、図７（ａ）で示した相関モデルの重みｗに応じて異なる線の太さで相関関係を描いた相関グラフ４１から、重みｗが０．５以上の安定した相関関係を示す太線のみを抽出して相関グラフ４１Ｂを得ることに相当する。
続いて、相関分析部２４は、被監視コンピュータ２の情報収集部６２から送信された性能情報を、性能情報蓄積部２２を介して取得する（ステップＳ２０３）。たとえば、図４に示した正常時性能情報データ３１で最下行にある「２０１０／１／０７８：３０」時点の性能情報を得た場合、相関分析部２４は、相関モデル情報データ３２として保存された相関関数を順次探索し、未探索の相関関数が残っているか否かを判定する（ステップＳ２０４）。未探索の相関関数が残っていなければ（ステップＳ２０４／ＮＯ）、相関分析部２４は、ここまでの処理結果を相関破壊情報データ３３として保存して（ステップＳ２０８）、処理を終了する。
未探索の相関関数が残っていれば（ステップＳ２０４／ＹＥＳ）、相関分析部２４は、新たに得た性能情報を相関モデル情報データ３２と照らし合わせ、性能値の種別相互間の変換誤差を算出する（ステップＳ２０５）。たとえば、「ＳＶ１．ＣＰＵ」が「２０」、「ＳＶ１．ＭＥＭ」が「７９」という性能情報を得た場合、相関分析部２４は、「ＳＶ１．ＣＰＵ」の性能値「２０」を相関モデル情報データ３２に記録された近似式に当てはめて（−０．６）＊（２０）＋１００＝「８８」という予測値を算出し、この予測値と実測値「７９」とを比較して誤差「９」を得る。
続いて、相関分析部２４は、この誤差が検出値に占める割合を算出し、この割合が所定の範囲内にあるか否かを判定する（ステップＳ２０６）。所定の範囲内であれば（ステップＳ２０６／ＹＥＳ）、相関分析部２４は、特に異常が発生していないと判断して、ステップＳ２０４の処理に戻る。所定の範囲以上であれば（ステップＳ２０６／ＮＯ）、相関が破壊されたと判断して、相関分析部２４はこの変換誤差から相関破壊の破壊度を算出し、その結果を相関破壊情報データ３３として記録する（ステップＳ２０７）。
図１３は、図１０のステップＳ１３として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。相関破壊伝播検出部２５は、まず、相関モデル情報データ３２および相関破壊情報データ３３を読み込み（ステップＳ３０１）、未分析の要素が残っているか否かを判定する（ステップＳ３０２）。未分析の要素が残っていなければ（ステップＳ３０２／ＮＯ）、処理を終了する。
ステップＳ３０２で未分析の要素が残っていれば（ステップＳ３０２／ＹＥＳ）、相関破壊伝播検出部２５は相関破壊情報データ３３に記録された破壊度の数値を利用して、この要素の総相関破壊伝播（影響度）および総相関伝播を計算する（ステップＳ３０３）。そして、異常度計算部２６は、得られた総相関破壊伝播を総相関伝播で除算し、該要素の異常度を算出する（ステップＳ３０４）。
そして、この異常度の計算結果に対して、障害分析部２７が所定の閾値を超えたか否かを判断する（ステップＳ３０５）。所定の閾値を超えた要素が存在していない場合は（ステップＳ３０５／ＮＯ）、ステップＳ３０２からの処理が継続される。特定の閾値を超えた場合は（ステップＳ３０５／ＹＥＳ）、障害分析部２７は、その要素に異常が発生した旨を管理者対話部２８を介して管理者に提示する（ステップＳ３０６）。そして、ステップＳ３０２からの処理が継続される。
図１４は、異常度を算出するために用いる相関関係の範囲の一例を示す説明図である。図１４は、Ａ〜Ｈの８つの要素について、有効な相関関係を太い実線、無効である相関関係を細い実線、破壊された相関関係を破線で示している。相関グラフ４０１と４０２は、いずれも要素Ａを基点（即ち評価対象）とした相関グラフを示している。相関グラフ４０１は、前述の特開２００９−１９９５３３号公報に記載の障害原因抽出装置の処理対象である、段階数ｈｏｐ（ｉ）１まで、即ち基点の要素に隣接した要素から成る相関グラフを示す。これに対して相関グラフ４０２は、本発明の第１の実施形態に係る障害原因抽出装置１０の処理対象である、段階数ｈｏｐ（ｉ）２以上の要素を含む相関グラフを示す。即ち、本発明の第１の実施形態の障害原因抽出装置１０は、障害原因抽出システム１全体にまで、異常度の計算に用いる相関関係の範囲を広げる。
（第１の実施形態の全体的な動作）
次に、上記の実施形態の全体的な動作について説明する。第１の実施形態に係る障害原因抽出装置１０は、システムを構成する複数の被管理装置から取得される複数種の性能種目毎の性能情報に基づいて、性能種目、被管理装置、または、それらの組み合わせを要素として性能情報を分析し、これらの要素の中から障害の発生要因となりうる要素を抽出する。性能情報蓄積部２２は、複数の被管理装置から複数種の性能種目毎の性能値を含む性能情報を取得する。相関モデル生成部２３は、少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能系列情報と、第２の要素に関する性能情報の時系列変化を示す第２の性能系列情報との相関関数を導出すると共に、この相関関数に基づいて各要素間の組み合わせについて相関モデルを生成する（図１１・ステップＳ１０１〜１０５）。相関分析部２４は、被管理装置から新たに検出し取得される性能情報に基づいて、新たに検出された第１の要素に関する性能値と相関関数とに基づいて、第２の要素に関する予測性能値を算出し、新たに検出された第２の要素に関する性能値と予測性能値とを比較して予測誤差を算出する（図１２・ステップＳ２０５）。そして、相関分析部２４は、この予測誤差が一定の誤差範囲内を満たすか否かを分析し（図１２・ステップＳ２０６）、予測誤差が誤差範囲外となる場合に、第１の要素と第２の要素との相関関係が破壊されていると判断する（図１２・ステップＳ２０７）。相関破壊伝播検出部２５は、相関関係が破壊されている場合に、相関モデル上の任意の要素の影響度を算出する（図１３・ステップＳ３０３）。異常度算出部２６は、相関破壊伝播検出部２５によって算出された影響度に基づいて、相関モデル上の任意の要素の異常度を算出する（図１３・ステップＳ３０４）。障害分析部２７は、異常度が予め与えられた閾値以上である場合に、その要素に異常が発生したと判定する（図１３・ステップＳ３０５）。
ここで、上記各動作ステップをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータである障害原因抽出装置１０に実行させるようにしてもよい。
次に、本発明の第１の実施形態の特徴的な構成について説明する。図２１は、本発明の第１の実施形態の特徴的な構成を示すブロック図である。
障害原因抽出装置１０は、記憶部１２と、相関破壊伝播検出部２５とを含む。
ここで、記憶部１２は、システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる種別の性能値から出力となる種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶する。相関破壊伝播検出部２５は、一つの種別である基点の性能値から直接または間接的に変換可能であり、かつ、相関関数の入力とならない、他の種別の性能値への変換に使用される相関関数である基点伝播関数の数をもとに、基点の性能値がシステムに与える影響度を算出する。
本発明の第１の実施形態によれば、相関破壊の伝播がある場合に、障害の発生要因となり得る要素を的確に抽出できる。その理由は、相関破壊伝播検出部２５が、相関モデル上の任意の要素が相関破壊が検出された相関関係に対して与えた影響度を算出し、異常度算出部２６が、影響度に基づいて、相関モデル上の任意の要素の異常度を算出するためである。
さらに、現時点で目に見える異常が発生していなくても、異常の発生要因となり得る要素を抽出して設備の増強などの対策を取ることができる。その理由は、上述の通り、相関破壊伝播検出部２５と異常度算出部２６が、相関モデル上の任意の要素の影響度と異常度を算出するためである。
また、本発明の第１の実施形態によれば、障害の発生要因となり得る要素が相関関係を通して相関破壊に対して与える影響を、管理者にわかりやすく表示できる。その理由は、相関グラフ上で、相関破壊の伝播を容易に可視化できるためである。
（第２の実施形態）
第２の実施形態に係る障害原因抽出装置５１０では、障害原因抽出装置１０の相関破壊伝播検出部５２５に、最大影響度を計算する機能が追加されている。最大影響度は、相関モデル上の任意の要素について算出される影響度の最大値である。
これによって、実際に相関破壊が検出されなくても、障害原因抽出システム１の中で、弱点となり得る要素をシミュレーションして抽出することができる。
以下、これをより詳細に説明する。
図１５は、本発明の第２の実施形態に係る障害原因抽出装置５１０を含む障害原因抽出システム５０１の全体の概略構成の一例を示す説明図である。第２の実施形態に係る障害原因抽出システム５０１は、第１の実施形態で説明した障害原因抽出システム１で、障害原因抽出装置１０を障害原因抽出装置５１０に置き換えたものである。被監視コンピュータ２Ａ、２Ｂ、２Ｃ、…およびネットワーク３については第１の実施形態と同一である。
図１６は、本発明の第２の実施形態に係る障害原因抽出装置５１０および被監視コンピュータ２の構成を示す説明図である。図１７は、図１６に示した障害原因抽出装置５１０の、処理の流れを示す説明図である。第２の実施形態における相関破壊伝播検出部５２５の動作は、第１の実施形態における相関破壊伝播検出部２５の動作と異なる。以下、その相違点について説明する。
図１８は、本発明の第２の実施形態の障害原因抽出装置５１０における処理の一例を示すフローチャートである。ここで、第２の実施形態における、正常動作時の性能情報から相関モデルを生成する動作（ステップＳ１１）は、図１０に示した第１の実施形態における障害原因抽出装置１０の動作と同様である。しかしながら、第２の実施形態においては、その後の動作中の性能情報に対する相関破壊の検出（図１０のステップＳ１２）は行われない。第２の実施形態においては、相関破壊伝播検出部５２５は、生成された相関モデルに対して、全ての要素間で相関が破壊され、かつ、破壊度＝１と仮定し、要素ごとの総相関伝播をその要素の最大影響度として計算する（ステップＳ２３）。なお、障害原因抽出装置５１０は、さらに、図１０に示した第１の実施形態と同様の動作を行ってもよい。
図１９は、図１８のステップＳ２３として示した相関破壊の伝播についての分析の詳細な処理の一例を示すフローチャートである。相関破壊伝播検出部５２５は、図１８のステップＳ１１で生成された相関モデル情報データ３２を読み込み（ステップＳ６０１）、相関モデルの中で未分析の要素が残っているか否かを判定する（ステップＳ６０２）。未分析の要素が残っていなければ（ステップＳ６０２／ＮＯ）、ここまでの処理で算出された最大影響度と、その影響が及びうる範囲とを管理者対話部２８を介して管理者に提示して（ステップＳ６０３）、処理を終了する。
未分析の要素が残っていれば（ステップＳ６０２／ＹＥＳ）、相関破壊伝播検出部５２５は、その相関モデルの中で任意の１つ以上の要素を基点として、前述の数１の式における相関破壊が検出された相関関係の集合ｎ＝相関関係の集合ｍ、かつ、全ての相関破壊について破壊度＝１と仮定して、この要素について算出される最大の総相関破壊伝播（影響度）である最大影響度Ｆｍａｘを、以下の数３で計算する（ステップＳ６０４）。

図２０は、図１９のステップＳ６０４で示した最大影響度の計算の概念について示す説明図である。図２０において、要素Ａは、要素Ｂ〜Ｇまでの相関関係に影響するが、要素Ｈは、要素Ｉ〜Ｑまでの相関関係に影響するので、要素Ａよりも要素Ｈがより広い範囲（多くの要素）の相関関係に影響し、それに伴って最大影響度が大きくなる。なお、図２０に示した例では、数１、２と同じく、減衰率ｄｕｍｐ（ｉ）＝０．５＾（ｈｏｐ（ｉ）−１）としている。
本発明の第２の実施形態によれば、相関モデルにおける全ての相関関係が破壊されたと仮定した場合の最大影響度を計算することによって、実際に相関破壊が検出されるよりも前に、障害原因抽出システム５０１の中で弱点となり得る要素をシミュレーションして抽出することができる。障害原因抽出システム５０１の相関モデルでは、たとえば要素Ａから要素Ｂへの相関関係はあるが要素Ｂから要素Ａへの相関関係がない場合や、要素間の相関関係が元からない場合がある。このため、全ての相関関係が破壊されてかつ破壊度＝１とした場合であっても、基点となる要素ごとに、その要素の影響により相関破壊が検出される範囲は異なり、それによって最大影響度は異なる。
また、この処理で算出された基点ごとの最大影響度をランキングすることにより、いずれの要素が障害時に障害原因抽出システム５０１全体に対する影響が大きくなるかを容易に抽出することができる。従って、抽出された要素について、システムの処理能力の増強や構成変更などの措置を行うことが容易となる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、２０１０年２月１５日に出願された日本出願特願２０１０−０３００７１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１、５０１障害原因抽出システム
２、２Ａ、２Ｂ、２Ｃ被監視コンピュータ
３ネットワーク
１０、５１０障害原因抽出装置
１１、５１主演算制御部
１２、５２記憶部
１３、５３通信部
１４入出力部
２２性能情報蓄積部
２３相関モデル生成部
２４相関分析部
２５、５２５相関破壊伝播検出部
２６異常度計算部
２７障害分析部
２８管理者対話部
３１正常時性能情報データ
３２相関モデル情報データ
３３相関破壊情報データ
３４分析設定情報データ
６１サービス実行部
６２情報収集部
６３対処実行部

Claims

システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶する記憶手段と、
前記相関モデル上で、基点となる１の種別の性能値から、１以上の前記相関関数の系列により、1以上の他の種別の性能値へ変換可能な場合、前記１以上の他の前記種別の性能値の各々に対する前記系列に含まれる前記相関関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する相関破壊伝播検出手段と
を含む障害原因抽出装置。
さらに、入力された前記性能情報を前記相関モデルに適用し、前記相関モデルに含まれる前記相関関数に対する相関破壊を検出する相関分析手段を含み、
前記相関破壊伝播検出手段は、前記系列に含まれる前記相関破壊が検出された前記相関関数の数をもとに前記影響度を算出する
請求項１に記載の障害原因抽出装置。
前記相関破壊伝播検出手段は、前記系列に含まれる前記相関破壊が検出された前記相関関数の各々について、前記相関破壊の程度を表す破壊度に前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を乗じた値を算出し、当該値を合計することにより、前記影響度を算出する
請求項２に記載の障害原因抽出装置。
さらに、前記基点の性能値について算出された前記影響度を、前記系列に含まれる前記相関関数の各々について算出された前記減衰率の合計で除することにより、前記基点の異常度を算出する異常度計算手段を含む
請求項３に記載の障害原因抽出装置。
前記相関破壊伝播検出手段は、前記系列に含まれる前記相関関数の各々について、前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を算出し、当該値を合計することにより、前記影響度を算出する
請求項１に記載の障害原因抽出装置。
システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶し、
前記相関モデル上で、基点となる１の種別の性能値から、１以上の前記相関関数の系列により、1以上の他の種別の性能値へ変換可能な場合、前記１以上の他の前記種別の性能値の各々に対する前記系列に含まれる前記相関関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する
障害原因抽出方法。
さらに、入力された前記性能情報を前記相関モデルに適用し、前記相関モデルに含まれる前記相関関数に対する相関破壊を検出し、
前記系列に含まれる前記相関破壊が検出された前記相関関数の数をもとに前記影響度を算出する
請求項６に記載の障害原因抽出方法。
前記系列に含まれる前記相関破壊が検出された前記相関関数の各々について、前記相関破壊の程度を表す破壊度に前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を乗じた値を算出し、当該値を合計することにより、前記影響度を算出する
請求項７に記載の障害原因抽出方法。
さらに、前記基点の性能値について算出された前記影響度を、前記系列に含まれる前記相関関数の各々について算出された前記減衰率の合計で除することにより、前記基点の異常度を算出する
請求項８に記載の障害原因抽出方法。
前記系列に含まれる前記相関関数の各々について、前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を算出し、当該値を合計することにより、前記影響度を算出する
請求項６に記載の障害原因抽出方法。
コンピュータに、
システムにおける複数種別の性能値を含む性能情報の時系列をもとに生成された、入力となる前記種別の性能値から出力となる前記種別の性能値への変換を行う相関関数を１以上含む相関モデルを記憶し、
前記相関モデル上で、基点となる１の種別の性能値から、１以上の前記相関関数の系列により、1以上の他の種別の性能値へ変換可能な場合、前記１以上の他の前記種別の性能値の各々に対する前記系列に含まれる前記相関関数の数をもとに、前記基点の性能値が前記システムに与える影響度を算出する
処理を実行させるプログラム。
さらに、入力された前記性能情報を前記相関モデルに適用し、前記相関モデルに含まれる前記相関関数に対する相関破壊を検出し、
前記系列に含まれる前記相関破壊が検出された前記相関関数の数をもとに前記影響度を算出する
処理を実行させる請求項１１に記載のプログラム。
前記系列に含まれる前記相関破壊が検出された前記相関関数の各々について、前記相関破壊の程度を表す破壊度に前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を乗じた値を算出し、当該値を合計することにより、前記影響度を算出する
処理を実行させる請求項１２に記載のプログラム。
さらに、前記基点の性能値について算出された前記影響度を、前記系列に含まれる前記相関関数の各々について算出された前記減衰率の合計で除することにより、前記基点の異常度を算出する
処理を実行させる請求項１３に記載のプログラム。
前記系列に含まれる前記相関関数の各々について、前記基点の性能値から当該相関関数の出力である前記種別の性能値への変換過程において当該相関関数が適用された順番に応じて小さくなる減衰率を算出し、当該値を合計することにより、前記影響度を算出する
処理を実行させる請求項１１に記載のプログラム。