JP5459431B2

JP5459431B2 - 運用管理装置および運用管理方法

Info

Publication number: JP5459431B2
Application number: JP2013143069A
Authority: JP
Inventors: 堅石王
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2014-04-02
Anticipated expiration: 2029-02-12
Also published as: JP2013200899A

Description

本発明は、ＷＥＢサービスまたは業務サービスといった情報通信サービスを提供する情報処理装置に関し、特に、システムの性能劣化を正確に検知するとともに局所化する機能を有する運用管理装置および運用管理方法に関するものである。

第１の従来技術としては、性能情報毎に閾値を設定し、各々の性能情報について閾値を越えたことを検出して障害を検知する運用管理装置があった。この従来の運用管理装置では、明確に異常であることを示す値を予め閾値に設定して、個々の要素の性能の異常を検出する。

第２の従来技術としては、任意の２つの性能情報の値の時系列に対して、一方を入力とし他方を出力とした場合の変換関数を導出することで相関モデルを生成する運用管理装置が考え出されている。この従来の運用管理装置では、新たに性能情報を検出した場合に前記の相関モデルの変換関数に従った性能値であるか否かを判定し、相関関係の崩れた数および量によって障害を検出する。

特開２００７−２９３３９３号公報特開２００８−２９３４４１号公報

しかしながら、上記第１の従来技術による運用管理装置では、閾値を低く設定してしまうと、性能情報の変動が大きい場合などに誤報が多発して管理者が混乱するという問題があった。また、閾値を高く設定してしまうと、重大な障害以外検出できなくなり、システムは動作しているものの応答速度が劣化しているなどの性能異常の検出が困難になるという問題があった。さらに、個々の要素毎の異常値は検出できるものの、ボトルネックなど入出力の関係にある他の要素の性能値との関係に起因する異常を検出することができないという問題があった。

また、上記第２の従来技術による運用管理装置では、相関関係の崩れの数および量を基に障害を検出していた。このため、上記第２の従来技術では、構成要素の数に偏りがあるようなシステムの場合には、数の少ない要素に相関関係の崩れが多く発生しても、システム全体の崩れの数が多くなければ障害として検出されない、という問題があった。

すなわち、上記第２の従来技術による運用管理装置では、システムの性能劣化障害を検出するために、平常時の相関関係のモデルを生成し、運用時にその相関関係の崩れた状況から障害を検出して異常を特定する。しかし、この従来の手法では、第一の課題として、相関関係の崩れの数や量を元に障害を検出していたため、構成要素の数に偏りがあるようなシステムの場合には、数の少ない要素に相関関係の崩れが多く発生しても、システム全体の崩れの数が多くなければ障害として検出されないという問題があった。例えばＷｅｂ、ＡＰ、ＤＢなどで構成される一般的な３階層システムにおいては、負荷分散などを考慮してＷｅｂやＡＰは数多く設置するが、ＤＢについては少ないのが一般的である。このようなシステムにおいてＤＢで相関関係の崩れが多く発生しても、ＷｅｂやＡＰの相関関係と比べて数が少ないため、システム全体としては崩れが少なく異常はないと見なされることがあった。また、第二の課題として、例えば２点間のネットワークトラフィック量などのように、通常状態では相関関係の崩れが発生することがなく、もし崩れが発生した場合には障害であることがほぼ間違いの無いようなモデルであったとしても、やはり障害として検出されないという問題があった。

そこで、本発明は、システムの性能劣化を正確に検知する機能またはシステムの性能劣化を局所化する機能を有する運用管理装置および運用管理方法を提供することを目的としている。

本発明は、上述の課題を解決すべくなされたもので、サービスを実行するシステムの性能情報を監視し、正常時の前記システムにおいて成立する複数の性能値の相互間の相関関係を抽出し、前記システムの運用時の複数の性能値を検出して該検出結果から前記相関関係の変化を抽出して管理者に提示することで、前記システムの性能劣化を検知及び局所化する機能を有する運用管理装置であって、各々の性能値間の相関関係の崩れの分布において、システムが正常に動作している場合の前記相関関係の崩れの分布の範囲である正常相関モデルの崩れの分布の範囲を保持する正常モデル分布蓄積手段と、システムに異常が発生している場合の前記相関関係の崩れの分布を示す障害モデルを保持する障害モデル分布蓄積手段と、前記性能情報の各相関モデルの崩れの分布と前記正常モデル分布蓄積手段の中の正常相関モデルの崩れの分布の範囲とを比較し、前記性能情報の各相関モデルの崩れの分布が前記正常モデル分布蓄積手段の中の正常相関モデルの崩れの分布の範囲内に収まっているか否かを判断する相関変化分布判別手段と、前記相関変化分布判別手段によって範囲内に収まっていないと判断された前記性能情報の各相関モデルの崩れの分布を保持する相関変化履歴蓄積手段と、前記相関変化履歴蓄積手段に所定数の相関モデルの崩れの分布である履歴が蓄積されると、該履歴が前記障害モデル分布蓄積手段に蓄積された障害モデルの崩れの分布に近似していく傾向があるか否かを判断する相関崩れ増加判別手段と、を有することを特徴とする運用管理装置である。

また本発明は、サービスを実行するシステムの性能情報を監視し、正常時の前記システムにおいて成立する複数の性能値の相互間の相関関係を抽出し、前記システムの運用時の複数の性能値を検出して該検出結果から前記相関関係の変化を抽出して管理者に提示する運用管理方法であって、各々の性能値間の相関関係の崩れの分布において、システムが正常に動作している場合の前記相関関係の崩れの分布の範囲である正常相関モデルの崩れの分布の範囲を保持する正常モデル分布蓄積ステップと、システムに異常が発生している場合の前記相関関係の崩れの分布を示す障害モデルを保持する障害モデル分布蓄積ステップと、前記性能情報の各相関モデルの崩れの分布と前記正常モデル分布蓄積ステップで保持された正常相関モデルの崩れの分布の範囲とを比較し、前記性能情報の各相関モデルの崩れの分布が前記正常モデル分布蓄積ステップで保持された正常相関モデルの崩れの分布の範囲内に収まっているか否かを判断する相関変化分布判別ステップと、前記相関変化分布判別ステップにおいて範囲内に収まっていないと判断された前記性能情報の各相関モデルの崩れの分布を保持する相関変化履歴蓄積ステップと、前記相関変化履歴蓄積ステップによって所定数の相関モデルの崩れの分布である履歴が蓄積されると、該履歴が前記障害モデル分布蓄積ステップによって蓄積された障害モデルの崩れの分布に近似していく傾向があるか否かを判断する相関崩れ増加判別ステップと、を有することを特徴とする運用管理方法である。

また本発明は、サービスを実行するシステムの性能情報を監視し、正常時の前記システムにおいて成立する複数の性能値の相互間の相関関係を抽出し、前記システムの運用時の複数の性能値を検出して該検出結果から前記相関関係の変化を抽出して管理者に提示する処理をコンピュータに実行させるプログラムであって、各々の性能値間の相関関係の崩れの分布において、システムが正常に動作している場合の前記相関関係の崩れの分布の範囲である正常相関モデルの崩れの分布の範囲を保持する正常モデル分布蓄積処理と、システムに異常が発生している場合の前記相関関係の崩れの分布を示す障害モデルを保持する障害モデル分布蓄積処理と、前記性能情報の各相関モデルの崩れの分布と前記正常モデル分布蓄積処理で保持された正常相関モデルの崩れの分布の範囲とを比較し、前記性能情報の各相関モデルの崩れの分布が前記正常モデル分布蓄積処理で保持された正常相関モデルの崩れの分布の範囲内に収まっているか否かを判断する相関変化分布判別処理と、前記相関変化分布判別処理において範囲内に収まっていないと判断された前記性能情報の各相関モデルの崩れの分布を保持する相関変化履歴蓄積処理と、前記相関変化履歴蓄積処理によって所定数の相関モデルの崩れの分布である履歴が蓄積されると、該履歴が前記障害モデル分布蓄積処理によって蓄積された障害モデルの崩れの分布に近似していく傾向があるか否かを判断する相関崩れ増加判別処理と、をコンピュータに実行させるプログラムである。

本発明によれば、平常時の各々の性能情報の相関関係をモデル化し、運用時にその相関関係の崩れの要素毎の分布傾向を監視することで、障害の予兆を検出し、発生場所の特定を可能にすることができ、システムの性能劣化を正確に検知する機能またはシステムの性能劣化を局所化する機能を有する運用管理装置および運用管理方法ならびにそのプログラムを提供することができる。

また、本発明によれば、相関関係のモデルの崩れについて、システムの構成要素毎の分布に着目し、異常時の相関関係のモデルの崩れの分布を予め登録しておいた上で、運用時の相関関係のモデルの崩れの分布が異常時の崩れの分布にある程度の期間を通じて近似している傾向があれば、障害の予兆と見なして管理者に異常を通知することができる。これにより、本発明によれば、崩れた障害モデルの数が少ない場合であっても異常を検知することができ、上記の第一および第二の課題を解決することができる。また、本発明によれば、運用時の相関関係のモデルの崩れの分布が正常範囲内であるかどうかも判定する。これにより、異常の通知が無ければ管理者はシステムが正常に動作していると見なすことができる。

本発明の前提となる運用管理装置を示すブロック図である。性能情報の一例を示す図である。性能情報の相関変化を分析するステップを示すフローチャート図である。相関モデルの一例を示す図である。図１の運用管理装置によって提示される画面の一例を示す図である。本発明の第１の実施形態に係る運用管理装置を示すブロック図である。図６に示す運用管理装置の動作を示すフローチャート図である。異常時の相関モデルの崩れの分布として登録する情報を示す図である。本発明の実施形態に係る性能情報の各相関モデルの崩れの分布と正常モデルの崩れの分布の範囲の比較の概要を示す図である。図６の運用管理装置によって提示される画面の一例を示す図である。本発明の第２の実施形態に係る運用管理装置によって提示される画面の一例を示す図である。本発明の第３の実施形態に係る運用管理装置の動作を示すフローチャート図である。

（前提となる構成）
まず、図１から図５を参照して、本発明の前提となる運用管理装置の構成および動作を説明する。

図１を参照すると、本発明の前提となる運用管理装置は、サービス実行手段１と、性能情報蓄積手段２と、情報収集手段３と、障害分析手段４と、管理者対話手段５と、対処実行手段６と、相関モデル生成手段７と、相関モデル蓄積手段８と、相関変化分析手段９を有して構成される。

サービス実行手段１は、ＷＥＢサービスまたは業務サービスといった情報通信サービスを提供する情報処理装置などである。

性能情報蓄積手段２は、サービス実行手段１の各々の要素の性能情報を蓄積するものである。

情報収集手段３は、サービス実行手段１の性能情報または異常メッセージなどの動作状態を検出して出力するとともに、動作状態に含まれる性能情報を性能情報蓄積手段２に蓄積させるものである。

障害分析手段４は、情報収集手段３および相関変化分析手段９の出力を受け取って障害分析を行うものである。

管理者対話手段５は、障害分析手段４から障害分析の結果を受け取って管理者に提示するとともに、管理者からの入力を受け取って対処実行手段６に出力するものである。

対処実行手段６は、管理者対話手段５の出力に応じて、サービス実行手段１において障害に対処する処理を実行させるものである。

相関モデル生成手段７は、性能情報蓄積手段２から一定期間についての性能情報を取り出し、任意の２つの性能情報の値の時系列の変換関数を導出することで、サービス実行手段１の全体的な稼動状態の相関モデルを生成するものである。

相関モデル蓄積手段８は、相関モデル生成手段７が生成した相関モデルを蓄積するものである。

相関変化分析手段９は、情報収集手段３から新たに検出された性能情報を受け取り、この性能情報に含まれる性能値が相関モデル蓄積手段８に蓄積される相関モデルの各々の性能情報間の変換関数で示された関係を一定の誤差範囲内で満たしているか否かを分析して、その結果を出力するものである。

図１から図５を参照して、本発明の前提となる運用管理装置の動作について、以下に説明する。

まず、図１に示す情報収集手段３がサービス実行手段１の動作状態を検出し、性能情報蓄積手段２に性能情報を蓄積する。例えば、情報収集手段３は、サービス実行手段１でＷＥＢサービスが実行されている場合、ＷＥＢサービスを提供する各サーバのＣＰＵ使用率またはメモリ残量を一定時間間隔で検出する。図２に示す性能情報１０１は、このようにして検出された性能情報の一例である。図２において、例えば、「Ａ．ＣＰＵ」は、１つのサーバのＣＰＵ利用率の値を示し、２００７年１０月５日の１７時２５分の値が１２である。さらに１分間隔で１７時２６分から１５、３４、６３といった値が検出されている。同様に、「Ａ．ＭＥＭ」は同じサーバのメモリ残量の値を、「Ｂ．ＣＰＵ」は別のサーバのＣＰＵ利用率の値を、それぞれ同時刻に検出したものである。

次に、障害分析手段４は、予め決められた方法で障害分析を行う。例えば、障害分析手段４は、ＣＰＵ利用率が一定値以上であれば管理者に警告メッセージを提示するといった指定に従って、情報収集手段３で検出された性能情報の値から、特定のサーバの負荷が高くなっているか否かを閾値判定する。

管理者対話手段５は、上記のような障害分析手段４による障害分析の結果を管理者に提示する。そして、管理者対話手段５は、管理者が何らかの対処を指示する入力を行った場合、対処実行手段６を介してサービス実行手段１に対処コマンドを実行させる。例えば、管理者は、管理者対話手段５の提示によって、ＣＰＵ負荷が高くなっていることを知ることにより、業務量を減らしたり、負荷分散を行うための構成変更を行ったりすることができる。このような情報収集、分析、対処の処理の繰り返しにより、サービス実行手段１の障害対処が継続して行われる。

さらに、図１に示す運用管理装置は、相関モデル生成手段７、相関モデル蓄積手段８および相関変化分析手段９によって、上記のような障害分析における性能異常をより正確に検出することができる。

図３は、このような性能異常をより正確に検出するための処理を示すものであって、性能情報の相関変化を分析するステップを示す。

まず、性能情報蓄積手段２において図２の性能情報１０１に示す情報が蓄積されている状態で、相関モデル生成手段７は各々の性能情報の間の変換関数を導出することによって相関モデルを作成し、該相関モデルを相関モデル蓄積手段８に蓄積させる（図３のステップＳ５０１）。

図４に示す相関モデル２０１は、このようにして生成された相関モデルの一例を示している。相関モデル２０１を参照すると、例えば、「Ａ．ＣＰＵ」を入力Ｘとし、「Ａ．ＭＥＭ」を出力Ｙとした場合の変換関数「Ｙ＝αＸ＋β」は、図２の性能情報１０１で示される値の時系列を参照して、αとβの値として、それぞれ「−０．６」、「１００」を決定し、その変換関数で生成した値の時系列と、出力となる性能情報の実際の値の時系列を比較し、その差分である変換誤差からこの変換関数の重み「０．８８」が算出されている。同様に、任意の２つの性能情報間の変換関数を導出し、一定の重みを持つものを有効な相関として抽出し、相関モデル２０１が生成される。尚、ここでは、変換関数「Ｙ＝αＸ＋β」の場合を説明したが、この例に限定されるものではなく、任意の２つの性能情報の値の時系列を変換するものであればよい。

次に、相関変化分析手段９は、情報収集手段３から新たに取得した性能情報が、相関モデルに示される相関関係と一致しているか否かを分析する（ステップＳ５０２）。

例えば、相関変化分析手段９は、図２に示す性能情報１０１において、最下行にある「２００７／１１／０７８：３０」時点の性能情報を得た場合、図４に示す相関モデル２０１に記載された変換関数を順次探索し、入力である性能情報から変換関数を用いて算出した変換値と、出力となる性能情報の新たに取得された値が、一定の変換誤差の範囲内にある場合には相関が維持されていると判断し、変換誤差範囲を超えている場合には相関関係が崩れたものと判断する。相関変化分析手段９は、このような処理を全ての変換関数に対して繰り返し、新たに取得された全性能情報の相関変化の有無を判断した後、この相関変化の程度を示す異常度情報と相関変化に関係する要素を示す異常要素情報とを含む相関変化情報を作成して障害分析手段４に出力する。

障害分析手段４は、この相関変化情報を受け取り、変化した異常度が予め規定された値を超えている場合には（ステップＳ５０３）、該変化した異常度について、障害の可能性があることを管理者対話手段５に提示させる（ステップＳ５０４）。

図５は、このようにして管理者対話手段５が管理者に提示する画面の例を示す。表示画面４０１には、異常度合いを示す相関崩れの数（ａ）、異常場所を示す相関関係図（ｂ）、異常度合いの大きい要素のリスト（ｃ）などが含まれる。このようにして、例えば、異常度合いの大きい要素「Ｃ．ＣＰＵ」に障害の可能性があることを管理者に提示することができる。

以上説明したように、本発明の前提となる運用管理装置では、障害の発生していない平常時の性能情報から相関モデルを生成し、検出された性能情報がこの平常時の相関モデルから変化した割合を算出することで、応答劣化などの性能異常の発生を検出し、該性能異常の発生場所を特定することができる。

しかしながら、前記本発明の前提となる運用管理装置では、管理者に障害の可能性として提示されるのは異常度合いを示す相関崩れの数がある程度大きい場合に限られる。このため、前記本発明の前提となる運用管理装置では、システムを構成する各アプリケーションの数に偏りがあると、少ないアプリケーションのサーバで異常が多く生じても、該性能異常が提示されないという問題がある。

例えば、前記本発明の前提となる運用管理装置が、ＷＥＢサービスを構成するアプリケーションとしてのＷＥＢサーバとＤＢサーバとを管理する場合を考える。この場合、サーバの台数はＷＥＢサーバの方がＤＢサーバよりも多いのが一般的であるため、ＤＢサーバで異常が多く生じても全体としての相関崩れの数はそれほど多くならず、障害が提示されない可能性があった。

（第１の実施形態）
次に、図６から図１０を参照して、本発明の第１の実施形態に係る運用管理装置を説明する。

［第１の実施形態の構成］
図６は、本発明の第１の実施形態に係る運用管理装置を示すブロック図である。本実施形態の運用管理装置は、図１に示す運用管理装置の構成に加えて、正常モデル分布蓄積手段１０と、障害モデル分布蓄積手段１１と、相関変化分布判別手段１２と、相関変化履歴蓄積手段１３と、相関崩れ増加判別手段１４とを有して構成されている。

正常モデル分布蓄積手段１０は、管理者が入力する性能情報の正常時の相関モデルの崩れの分布の範囲（図９の分布の範囲８０２参照）を蓄積するものである。

障害モデル分布蓄積手段１１は、管理者が入力する性能情報の異常時の相関モデルの崩れの分布を蓄積するものである。

相関変化分布判別手段１２は、相関変化分析手段９から性能情報を受け取り、性能情報の相関モデルの崩れの分布と正常モデル分布蓄積手段１０の中の相関モデルの崩れの分布の範囲とを比較し、該比較結果に基づき、性能情報が正常の範囲内に収まっているか否かを分析するものである。

相関変化履歴蓄積手段１３は、性能情報の相関モデル毎の崩れの数を蓄積するものである。

相関崩れ増加判別手段１４は、相関変化履歴蓄積手段１３に蓄積された相関モデル毎の崩れの数の履歴に基づいて、相関モデルの崩れの分布が障害モデル分布蓄積手段１１に蓄積されている異常時の相関モデルの崩れの分布（すなわち障害モデルの分布）に近似しているか否か、を障害モデル毎に分析する。その結果、近似している障害モデルの分布があると判断した場合、相関崩れ増加判別手段１４は、その性能情報と近似している障害モデルと、障害モデルと比較して算出した近似の割合とを障害分析手段４に通知する。

さらに、障害分析手段４は、性能情報と近似している障害モデルと、障害モデルと比較して算出した近似の割合とを相関崩れ増加判別手段１４から受け取り、管理者対話手段５を介してこれらの情報を管理者に提示する機能を新たに有する。

［第１の実施形態の動作］
次に、図６から図１０を参照して、本実施形態の運用管理装置の動作を説明する。

まず前提として、管理者は、正常モデル分布蓄積手段１０に、正常時の相関モデルの崩れの範囲を登録する（図７のステップＳ７１１）。これは運用管理装置を動作させる前に行ってもよいし、動作中に適宜追加してもよい。例えば、サーバＡのＣＰＵ使用率とサーバＢのＣＰＵ使用率との相関を示す相関モデルＡがあり、その崩れが全体の５〜１０％の範囲内であれば正常と見なすのであれば、相関モデルＡの範囲を５〜１０として登録する。他の相関モデルも同様に登録する。

同じく前提として、管理者は、異常モデル分布蓄積手段１１に、異常時の相関モデルの崩れの分布を登録する。これも運用管理装置を動作させる前に行ってもよいし、動作中に適宜追加してもよい（ステップＳ７１２）。

図８は、異常時の相関モデルの崩れの分布として登録する情報を示している。例えば、管理者は、異常時の相関モデルの崩れの分布として、相関モデル名、重要度、相関モデルの崩れの分布の組を登録する。

本実施形態の前提となる運用管理装置について図１から図５を参照して説明した場合と同様に、情報収集手段３がサービス実行手段１から収集した性能情報に基づいて、相関モデル生成手段７が相関モデルを生成する（ステップＳ７１３）。さらに、情報収集手段３が運用時の性能情報を収集すると、相関変化分析手段９が、この性能情報が相関モデルに示される相関関係と一致しているか否かを分析し、相関関係の変化から異常度を算出する（ステップＳ７１４）。

次に、相関変化分布判別手段１２は、受け取った性能情報の各相関モデルの崩れの分布と正常モデル分布蓄積手段１０の中の相関モデルの崩れの分布の範囲とを比較し、性能情報が正常モデル分布蓄積手段１０の中の相関モデルの崩れの分布の範囲内に収まっているか否かを分析する（ステップＳ７１５）。収まっている場合、相関変化分布判別手段１２は相関変化履歴蓄積手段１３に蓄積されている全ての相関モデル毎の崩れの数をクリアする（ステップＳ７１６）。

図９は、本実施形態における性能情報の各相関モデルの崩れの分布と正常モデルの崩れの分布の範囲とを比較したものの概要を示す図である。図９を参照すると、グラフ８０１に示す相関モデルＡ、Ｂ、Ｃ、Ｄとあるうちの、相関モデルＤが、分布の範囲８０２として示す正常モデル分布蓄積手段１０内にある正常モデルの崩れの分布の範囲を超えていることがわかる。すなわち、グラフ８０１における相関モデルＤの値「２０．４」が、分布の範囲８０２における相関モデルＤの分布の範囲「１０〜１５％」を超えている。このような場合、相関変化履歴蓄積手段１３は性能情報の相関モデル毎の崩れの数を蓄積する（ステップＳ７１７）。

ステップＳ７１３からステップＳ７１７を繰り返し、相関崩れ増加判別手段１４は、相関変化履歴蓄積手段１３に所定数の性能情報が蓄積されたか否か判断する（ステップＳ７１８）。ここで、相関変化履歴蓄積手段１３に所定数の性能情報が蓄積されたと判断されると、相関崩れ増加判別手段１４は、障害モデル分布蓄積手段１１に問い合わせて異常時の相関モデルの崩れの分布を取得する（ステップＳ７１９）。すると、相関崩れ増加判別手段１４は、相関変化履歴蓄積手段１３に蓄積された相関モデル毎の崩れの数の履歴を基に、相関モデルの崩れの分布がステップＳ７１９で取得した相関モデルの崩れの分布に近似していく傾向があるか否かを分析する（ステップＳ７２０）。

ステップＳ７２０の結果、近似していく障害モデルがあると判断された場合、障害分析手段４は、その障害モデルと、相関モデル毎の崩れの数の履歴のうち最新の履歴の分布と、近似の度合いを相関崩れ増加判別手段１４から受け取り、管理者対話手段５を介して、結果を管理者に提示する（ステップＳ７２１）。

図１０は、このようにして管理者に提示される表示画面の例を示す。図１０を参照すると、グラフ９０１によって、現在のサービスの相関モデルの崩れの分布状況、及び近似している障害モデルの崩れの分布がわかる。また、情報９０２によって、近似している障害モデルと近似の度合いがわかる。また、グラフ９０３によって、異常度の時系列変化がわかる。

この場合、異常度グラフの時系列変化では、現在時刻において異常と判断される閾値には達していないため、異常は通知されない。そのため管理者は異常が発生していると気がつかない可能性が大きい。しかし、崩れの分布を参照すると、ある相関モデルの崩れに偏りが見られ、それが管理者によって事前に登録されている「ＤＢコネクション遅延障害モデル」に近似していることが理解できる（情報９０２参照）。このため管理者は、ＤＢコネクションに関する遅延障害の予兆があると判断でき、的確な対処をすることができる。
例えば、原因追求のためにＤＢのログを参照して問題が無いか確認する、あるいはＤＢに接続するＡＰサーバ側への影響を調査する、といった対処をすることが可能となる。

［第１の実施形態の効果］
本実施形態の運用管理装置では、相関崩れ増加判別手段１４が、性能情報の相関モデルの崩れの分布が予め登録された異常時の相関モデルに近似しているか否かを判別することで、管理者へ通知するか否かを判断している。これにより、本実施形態の運用管理装置は、サービスを構成する全要素の中で少数の要素に対して相関モデルの崩れが集中している場合でも異常を検知することができる。これは、従来の運用管理装置ではできなかったことである。したがって、本実施形態の運用管理装置は、本発明の第一の課題である、サービスを構成する全要素の中で少数の要素に対して相関モデルの崩れが集中しても異常が検知できないという課題を、克服することができる。

また、本実施形態の運用管理装置によれば、通常状態では相関関係の崩れが発生することがなく、崩れが発生した場合は障害であることがほぼ間違いの無いようなモデルについて、異常を検知することができる。したがって、本実施形態の運用管理装置は、本発明の第二の課題である、通常状態では相関関係の崩れが発生することがなく、崩れが発生した場合は障害であることがほぼ間違いの無いようなモデルであっても異常が検知できないという課題を、克服することができる。

また、本実施形態の運用管理装置によれば、過去の実績に基づく異常時の相関モデルに近似しているか否かを判別するため、発生した異常に対して行うべき対処が過去の経験により明確である可能性が高く、対処にかかる管理者の負担が軽減されるという効果がある。さらに、正常モデル分布蓄積手段１０に蓄積された正常時の相関モデルの崩れの分布の範囲に収まらない性能情報のみを分析の対象としているため、異常が検知されない期間はシステムが正常に動作していると特定できる。したがって、本実施形態の運用管理装置によれば、異常発生時に管理者がログを参照しながら原因調査を行う場合に、正常動作期間のログを調査対象から外すことができ、負担が軽減されるという効果もある。

（第２の実施形態）
第１の実施形態と同様に、図６を参照して本実施形態の構成および動作を説明する。

本実施形態の運用管理装置における、正常時の相関モデルの崩れの分布の範囲に収まらない性能情報を所定数だけ蓄積する動作は、第１の実施形態で説明したものと同じである。さらに、本実施形態の相関崩れ増加判別手段１４は、相関変化履歴蓄積手段１３に蓄積された相関モデル毎の崩れの数の履歴を、障害モデル分布蓄積手段１１から取得した複数の異常時の相関モデルの崩れの分布と比較し、それぞれの障害モデル毎に、近似していく傾向かあるか否か分析する。

次に、本実施形態の効果について説明する。図１１は、前記の本実施形態の相関崩れ増加判別手段１４によって障害モデル毎に近似値が求められた場合に、管理者に提示される表示画面の例を示している。図１１を参照すると、情報９０６により、現在の性能情報が複数の障害モデルに対して各々どれくらい近似しているのかがわかる。これにより、管理者は提示された複数の障害モデルの組み合わせから様々な障害の可能性を推測することができるようになる。例えば、図１１では、ＤＢ関連の障害が最も近似度合いが高いと表示されているが、それに続く３つの障害全てがＷｅｂ関連のものであるとも表示されている。管理者は、図１１の表示画面を見て、ＤＢ関連で異常が発生している可能性に加え、Ｗｅｂ関連でも異常が発生している可能性についても考慮することができる。

（第３の実施形態）
図１２を参照して、本実施形態の運用管理装置の構成および動作を説明する。

図１２に示された本実施形態の運用管理装置は、第１の実施形態に係る運用管理装置の構成に加えて、正常モデル分布自動生成手段１５を有して構成されることを特徴とする。

正常モデル分布自動生成手段１５は、相関変化分析手段９が取得した全性能情報が相関モデルに示される相関関係と一定の誤差範囲で一致していると分析すると、その相関変化情報を受け取り、各相関モデルの崩れが全体の中で占める割合を算出する。正常モデル分布自動生成手段１５は、このような処理をある一定の回数繰り返し、相関モデル毎の崩れの割合の最小値と最大値を求め、その結果を正常状態の相関モデルの崩れ分布と見なして正常モデル分布蓄積手段１０に登録する。

次に、本実施形態の効果について説明する。上記のようにして正常モデル分布蓄積手段１０に正常状態の相関モデルの崩れ分布が自動的に蓄積されていくことにより、管理者は図７のステップＳ７１１に示したような、正常な状態の相関モデルの崩れ分布を自ら算出して登録するという行為を行わずとも、相関モデルの崩れの分布を元にした障害の検知が可能となる。

なお、上述した本発明の各実施形態に係る運用管理装置の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されていることとしてもよい。このプログラムをコンピュータが読み出して実行することによって、上記処理が行われることとしてもよい。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

１サービス実行手段
２性能情報蓄積手段
３情報収集手段
４障害分析手段
５管理者対話手段
６対処実行手段
７相関モデル生成手段
８相関モデル蓄積手段
９相関変化分析手段
１０正常モデル分布蓄積手段
１１障害モデル分布蓄積手段
１２相関変化分布判別手段
１３相関変化履歴蓄積手段
１４相関崩れ増加判別手段
１５正常モデル分布自動生成手段

Claims

システムの性能情報を監視し、前記システムにおいて成立する複数の性能値間の関係を示すモデルとして抽出し、前記システムの運用時の複数の性能値を検出して当該検出結果から前記関係の変化を検出する運用管理装置であって、
モデル毎の前記関係の崩れの分布を第１の分布として保持する蓄積手段と、
前記モデル毎の現在の崩れの分布を第２の分布とし、前記第１の分布と前記第２の分布とを比較して、前記第２の分布が前記第１の分布に近似しているか否かを判別する第１の判別手段と
を備える運用管理装置。
前記第１の判別手段による判別結果を履歴として保持する履歴蓄積手段と、
前記履歴から前記第２の分布が前記第１の分布に近似する傾向にあるか否かを判別する第２の判別手段と
を更に備える請求項１に記載の運用管理装置。
前記第１の分布及び前記第２の分布は、前記モデル毎の関係の崩れを示す数の比率である
請求項１又は２に記載の運用管理装置。
システムの性能情報を監視し、前記システムにおいて成立する複数の性能値間の関係を示すモデルとして抽出し、前記システムの運用時の複数の性能値を検出して当該検出結果から前記関係の変化を検出する運用管理方法であって、
モデル毎の前記関係の崩れの分布を第１の分布として保持する蓄積段階と、
前記モデル毎の現在の崩れの分布を第２の分布とし、前記第１の分布と前記第２の分布とを比較して、前記第２の分布が前記第１の分布に近似しているか否かを判別する第１の判別段階と
を備える運用管理方法。
前記第１の判別段階における判別結果を履歴として保持する履歴蓄積段階と、
前記履歴から前記第２の分布が前記第１の分布に近似する傾向にあるか否かを判別する第２の判別段階と
を更に備える請求項４に記載の運用管理方法。
前記第１の分布及び前記第２の分布は、前記モデル毎の関係の崩れを示す数の比率である
請求項４又は５に記載の運用管理方法。