JP5459431B2 - 運用管理装置および運用管理方法 - Google Patents

運用管理装置および運用管理方法 Download PDF

Info

Publication number
JP5459431B2
JP5459431B2 JP2013143069A JP2013143069A JP5459431B2 JP 5459431 B2 JP5459431 B2 JP 5459431B2 JP 2013143069 A JP2013143069 A JP 2013143069A JP 2013143069 A JP2013143069 A JP 2013143069A JP 5459431 B2 JP5459431 B2 JP 5459431B2
Authority
JP
Japan
Prior art keywords
distribution
correlation
model
operation management
collapse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013143069A
Other languages
English (en)
Other versions
JP2013200899A (ja
Inventor
堅 石王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013143069A priority Critical patent/JP5459431B2/ja
Publication of JP2013200899A publication Critical patent/JP2013200899A/ja
Application granted granted Critical
Publication of JP5459431B2 publication Critical patent/JP5459431B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、WEBサービスまたは業務サービスといった情報通信サービスを提供する情報処理装置に関し、特に、システムの性能劣化を正確に検知するとともに局所化する機能を有する運用管理装置および運用管理方法に関するものである。
第1の従来技術としては、性能情報毎に閾値を設定し、各々の性能情報について閾値を越えたことを検出して障害を検知する運用管理装置があった。この従来の運用管理装置では、明確に異常であることを示す値を予め閾値に設定して、個々の要素の性能の異常を検出する。
第2の従来技術としては、任意の2つの性能情報の値の時系列に対して、一方を入力とし他方を出力とした場合の変換関数を導出することで相関モデルを生成する運用管理装置が考え出されている。この従来の運用管理装置では、新たに性能情報を検出した場合に前記の相関モデルの変換関数に従った性能値であるか否かを判定し、相関関係の崩れた数および量によって障害を検出する。
特開2007−293393号公報 特開2008−293441号公報
しかしながら、上記第1の従来技術による運用管理装置では、閾値を低く設定してしまうと、性能情報の変動が大きい場合などに誤報が多発して管理者が混乱するという問題があった。また、閾値を高く設定してしまうと、重大な障害以外検出できなくなり、システムは動作しているものの応答速度が劣化しているなどの性能異常の検出が困難になるという問題があった。さらに、個々の要素毎の異常値は検出できるものの、ボトルネックなど入出力の関係にある他の要素の性能値との関係に起因する異常を検出することができないという問題があった。
また、上記第2の従来技術による運用管理装置では、相関関係の崩れの数および量を基に障害を検出していた。このため、上記第2の従来技術では、構成要素の数に偏りがあるようなシステムの場合には、数の少ない要素に相関関係の崩れが多く発生しても、システム全体の崩れの数が多くなければ障害として検出されない、という問題があった。
すなわち、上記第2の従来技術による運用管理装置では、システムの性能劣化障害を検出するために、平常時の相関関係のモデルを生成し、運用時にその相関関係の崩れた状況から障害を検出して異常を特定する。しかし、この従来の手法では、第一の課題として、相関関係の崩れの数や量を元に障害を検出していたため、構成要素の数に偏りがあるようなシステムの場合には、数の少ない要素に相関関係の崩れが多く発生しても、システム全体の崩れの数が多くなければ障害として検出されないという問題があった。例えばWeb、AP、DBなどで構成される一般的な3階層システムにおいては、負荷分散などを考慮してWebやAPは数多く設置するが、DBについては少ないのが一般的である。このようなシステムにおいてDBで相関関係の崩れが多く発生しても、WebやAPの相関関係と比べて数が少ないため、システム全体としては崩れが少なく異常はないと見なされることがあった。また、第二の課題として、例えば2点間のネットワークトラフィック量などのように、通常状態では相関関係の崩れが発生することがなく、もし崩れが発生した場合には障害であることがほぼ間違いの無いようなモデルであったとしても、やはり障害として検出されないという問題があった。
そこで、本発明は、システムの性能劣化を正確に検知する機能またはシステムの性能劣化を局所化する機能を有する運用管理装置および運用管理方法を提供することを目的としている。
本発明は、上述の課題を解決すべくなされたもので、サービスを実行するシステムの性能情報を監視し、正常時の前記システムにおいて成立する複数の性能値の相互間の相関関係を抽出し、前記システムの運用時の複数の性能値を検出して該検出結果から前記相関関係の変化を抽出して管理者に提示することで、前記システムの性能劣化を検知及び局所化する機能を有する運用管理装置であって、各々の性能値間の相関関係の崩れの分布において、システムが正常に動作している場合の前記相関関係の崩れの分布の範囲である正常相関モデルの崩れの分布の範囲を保持する正常モデル分布蓄積手段と、システムに異常が発生している場合の前記相関関係の崩れの分布を示す障害モデルを保持する障害モデル分布蓄積手段と、前記性能情報の各相関モデルの崩れの分布と前記正常モデル分布蓄積手段の中の正常相関モデルの崩れの分布の範囲とを比較し、前記性能情報の各相関モデルの崩れの分布が前記正常モデル分布蓄積手段の中の正常相関モデルの崩れの分布の範囲内に収まっているか否かを判断する相関変化分布判別手段と、前記相関変化分布判別手段によって範囲内に収まっていないと判断された前記性能情報の各相関モデルの崩れの分布を保持する相関変化履歴蓄積手段と、前記相関変化履歴蓄積手段に所定数の相関モデルの崩れの分布である履歴が蓄積されると、該履歴が前記障害モデル分布蓄積手段に蓄積された障害モデルの崩れの分布に近似していく傾向があるか否かを判断する相関崩れ増加判別手段と、を有することを特徴とする運用管理装置である。
また本発明は、サービスを実行するシステムの性能情報を監視し、正常時の前記システムにおいて成立する複数の性能値の相互間の相関関係を抽出し、前記システムの運用時の複数の性能値を検出して該検出結果から前記相関関係の変化を抽出して管理者に提示する運用管理方法であって、各々の性能値間の相関関係の崩れの分布において、システムが正常に動作している場合の前記相関関係の崩れの分布の範囲である正常相関モデルの崩れの分布の範囲を保持する正常モデル分布蓄積ステップと、システムに異常が発生している場合の前記相関関係の崩れの分布を示す障害モデルを保持する障害モデル分布蓄積ステップと、前記性能情報の各相関モデルの崩れの分布と前記正常モデル分布蓄積ステップで保持された正常相関モデルの崩れの分布の範囲とを比較し、前記性能情報の各相関モデルの崩れの分布が前記正常モデル分布蓄積ステップで保持された正常相関モデルの崩れの分布の範囲内に収まっているか否かを判断する相関変化分布判別ステップと、前記相関変化分布判別ステップにおいて範囲内に収まっていないと判断された前記性能情報の各相関モデルの崩れの分布を保持する相関変化履歴蓄積ステップと、前記相関変化履歴蓄積ステップによって所定数の相関モデルの崩れの分布である履歴が蓄積されると、該履歴が前記障害モデル分布蓄積ステップによって蓄積された障害モデルの崩れの分布に近似していく傾向があるか否かを判断する相関崩れ増加判別ステップと、を有することを特徴とする運用管理方法である。
また本発明は、サービスを実行するシステムの性能情報を監視し、正常時の前記システムにおいて成立する複数の性能値の相互間の相関関係を抽出し、前記システムの運用時の複数の性能値を検出して該検出結果から前記相関関係の変化を抽出して管理者に提示する処理をコンピュータに実行させるプログラムであって、各々の性能値間の相関関係の崩れの分布において、システムが正常に動作している場合の前記相関関係の崩れの分布の範囲である正常相関モデルの崩れの分布の範囲を保持する正常モデル分布蓄積処理と、システムに異常が発生している場合の前記相関関係の崩れの分布を示す障害モデルを保持する障害モデル分布蓄積処理と、前記性能情報の各相関モデルの崩れの分布と前記正常モデル分布蓄積処理で保持された正常相関モデルの崩れの分布の範囲とを比較し、前記性能情報の各相関モデルの崩れの分布が前記正常モデル分布蓄積処理で保持された正常相関モデルの崩れの分布の範囲内に収まっているか否かを判断する相関変化分布判別処理と、前記相関変化分布判別処理において範囲内に収まっていないと判断された前記性能情報の各相関モデルの崩れの分布を保持する相関変化履歴蓄積処理と、前記相関変化履歴蓄積処理によって所定数の相関モデルの崩れの分布である履歴が蓄積されると、該履歴が前記障害モデル分布蓄積処理によって蓄積された障害モデルの崩れの分布に近似していく傾向があるか否かを判断する相関崩れ増加判別処理と、をコンピュータに実行させるプログラムである。
本発明によれば、平常時の各々の性能情報の相関関係をモデル化し、運用時にその相関関係の崩れの要素毎の分布傾向を監視することで、障害の予兆を検出し、発生場所の特定を可能にすることができ、システムの性能劣化を正確に検知する機能またはシステムの性能劣化を局所化する機能を有する運用管理装置および運用管理方法ならびにそのプログラムを提供することができる。
また、本発明によれば、相関関係のモデルの崩れについて、システムの構成要素毎の分布に着目し、異常時の相関関係のモデルの崩れの分布を予め登録しておいた上で、運用時の相関関係のモデルの崩れの分布が異常時の崩れの分布にある程度の期間を通じて近似している傾向があれば、障害の予兆と見なして管理者に異常を通知することができる。これにより、本発明によれば、崩れた障害モデルの数が少ない場合であっても異常を検知することができ、上記の第一および第二の課題を解決することができる。また、本発明によれば、運用時の相関関係のモデルの崩れの分布が正常範囲内であるかどうかも判定する。これにより、異常の通知が無ければ管理者はシステムが正常に動作していると見なすことができる。
本発明の前提となる運用管理装置を示すブロック図である。 性能情報の一例を示す図である。 性能情報の相関変化を分析するステップを示すフローチャート図である。 相関モデルの一例を示す図である。 図1の運用管理装置によって提示される画面の一例を示す図である。 本発明の第1の実施形態に係る運用管理装置を示すブロック図である。 図6に示す運用管理装置の動作を示すフローチャート図である。 異常時の相関モデルの崩れの分布として登録する情報を示す図である。 本発明の実施形態に係る性能情報の各相関モデルの崩れの分布と正常モデル の崩れの分布の範囲の比較の概要を示す図である。 図6の運用管理装置によって提示される画面の一例を示す図である。 本発明の第2の実施形態に係る運用管理装置によって提示される画面の一 例を示す図である。 本発明の第3の実施形態に係る運用管理装置の動作を示すフローチャート 図である。
(前提となる構成)
まず、図1から図5を参照して、本発明の前提となる運用管理装置の構成および動作を説明する。
図1を参照すると、本発明の前提となる運用管理装置は、サービス実行手段1と、性能情報蓄積手段2と、情報収集手段3と、障害分析手段4と、管理者対話手段5と、対処実行手段6と、相関モデル生成手段7と、相関モデル蓄積手段8と、相関変化分析手段9を有して構成される。
サービス実行手段1は、WEBサービスまたは業務サービスといった情報通信サービスを提供する情報処理装置などである。
性能情報蓄積手段2は、サービス実行手段1の各々の要素の性能情報を蓄積するものである。
情報収集手段3は、サービス実行手段1の性能情報または異常メッセージなどの動作状態を検出して出力するとともに、動作状態に含まれる性能情報を性能情報蓄積手段2に蓄積させるものである。
障害分析手段4は、情報収集手段3および相関変化分析手段9の出力を受け取って障害分析を行うものである。
管理者対話手段5は、障害分析手段4から障害分析の結果を受け取って管理者に提示するとともに、管理者からの入力を受け取って対処実行手段6に出力するものである。
対処実行手段6は、管理者対話手段5の出力に応じて、サービス実行手段1において障害に対処する処理を実行させるものである。
相関モデル生成手段7は、性能情報蓄積手段2から一定期間についての性能情報を取り出し、任意の2つの性能情報の値の時系列の変換関数を導出することで、サービス実行手段1の全体的な稼動状態の相関モデルを生成するものである。
相関モデル蓄積手段8は、相関モデル生成手段7が生成した相関モデルを蓄積するものである。
相関変化分析手段9は、情報収集手段3から新たに検出された性能情報を受け取り、この性能情報に含まれる性能値が相関モデル蓄積手段8に蓄積される相関モデルの各々の性能情報間の変換関数で示された関係を一定の誤差範囲内で満たしているか否かを分析して、その結果を出力するものである。
図1から図5を参照して、本発明の前提となる運用管理装置の動作について、以下に説明する。
まず、図1に示す情報収集手段3がサービス実行手段1の動作状態を検出し、性能情報蓄積手段2に性能情報を蓄積する。例えば、情報収集手段3は、サービス実行手段1でWEBサービスが実行されている場合、WEBサービスを提供する各サーバのCPU使用率またはメモリ残量を一定時間間隔で検出する。図2に示す性能情報101は、このようにして検出された性能情報の一例である。図2において、例えば、「A.CPU」は、1つのサーバのCPU利用率の値を示し、2007年10月5日の17時25分の値が12である。さらに1分間隔で17時26分から15、34、63といった値が検出されている。同様に、「A.MEM」は同じサーバのメモリ残量の値を、「B.CPU」は別のサーバのCPU利用率の値を、それぞれ同時刻に検出したものである。
次に、障害分析手段4は、予め決められた方法で障害分析を行う。例えば、障害分析手段4は、CPU利用率が一定値以上であれば管理者に警告メッセージを提示するといった指定に従って、情報収集手段3で検出された性能情報の値から、特定のサーバの負荷が高くなっているか否かを閾値判定する。
管理者対話手段5は、上記のような障害分析手段4による障害分析の結果を管理者に提示する。そして、管理者対話手段5は、管理者が何らかの対処を指示する入力を行った場合、対処実行手段6を介してサービス実行手段1に対処コマンドを実行させる。例えば、管理者は、管理者対話手段5の提示によって、CPU負荷が高くなっていることを知ることにより、業務量を減らしたり、負荷分散を行うための構成変更を行ったりすることができる。このような情報収集、分析、対処の処理の繰り返しにより、サービス実行手段1の障害対処が継続して行われる。
さらに、図1に示す運用管理装置は、相関モデル生成手段7、相関モデル蓄積手段8および相関変化分析手段9によって、上記のような障害分析における性能異常をより正確に検出することができる。
図3は、このような性能異常をより正確に検出するための処理を示すものであって、性能情報の相関変化を分析するステップを示す。
まず、性能情報蓄積手段2において図2の性能情報101に示す情報が蓄積されている状態で、相関モデル生成手段7は各々の性能情報の間の変換関数を導出することによって相関モデルを作成し、該相関モデルを相関モデル蓄積手段8に蓄積させる(図3のステップS501)。
図4に示す相関モデル201は、このようにして生成された相関モデルの一例を示している。相関モデル201を参照すると、例えば、「A.CPU」を入力Xとし、「A.MEM」を出力Yとした場合の変換関数「Y=αX+β」は、図2の性能情報101で示される値の時系列を参照して、αとβの値として、それぞれ「−0.6」、「100」を決定し、その変換関数で生成した値の時系列と、出力となる性能情報の実際の値の時系列を比較し、その差分である変換誤差からこの変換関数の重み「0.88」が算出されている。同様に、任意の2つの性能情報間の変換関数を導出し、一定の重みを持つものを有効な相関として抽出し、相関モデル201が生成される。尚、ここでは、変換関数「Y=αX+β」の場合を説明したが、この例に限定されるものではなく、任意の2つの性能情報の値の時系列を変換するものであればよい。
次に、相関変化分析手段9は、情報収集手段3から新たに取得した性能情報が、相関モデルに示される相関関係と一致しているか否かを分析する(ステップS502)。
例えば、相関変化分析手段9は、図2に示す性能情報101において、最下行にある「2007/11/07 8:30」時点の性能情報を得た場合、図4に示す相関モデル201に記載された変換関数を順次探索し、入力である性能情報から変換関数を用いて算出した変換値と、出力となる性能情報の新たに取得された値が、一定の変換誤差の範囲内にある場合には相関が維持されていると判断し、変換誤差範囲を超えている場合には相関関係が崩れたものと判断する。相関変化分析手段9は、このような処理を全ての変換関数に対して繰り返し、新たに取得された全性能情報の相関変化の有無を判断した後、この相関変化の程度を示す異常度情報と相関変化に関係する要素を示す異常要素情報とを含む相関変化情報を作成して障害分析手段4に出力する。
障害分析手段4は、この相関変化情報を受け取り、変化した異常度が予め規定された値を超えている場合には(ステップS503)、該変化した異常度について、障害の可能性があることを管理者対話手段5に提示させる(ステップS504)。
図5は、このようにして管理者対話手段5が管理者に提示する画面の例を示す。表示画面401には、異常度合いを示す相関崩れの数(a)、異常場所を示す相関関係図(b)、異常度合いの大きい要素のリスト(c)などが含まれる。このようにして、例えば、異常度合いの大きい要素「C.CPU」に障害の可能性があることを管理者に提示することができる。
以上説明したように、本発明の前提となる運用管理装置では、障害の発生していない平常時の性能情報から相関モデルを生成し、検出された性能情報がこの平常時の相関モデルから変化した割合を算出することで、応答劣化などの性能異常の発生を検出し、該性能異常の発生場所を特定することができる。
しかしながら、前記本発明の前提となる運用管理装置では、管理者に障害の可能性として提示されるのは異常度合いを示す相関崩れの数がある程度大きい場合に限られる。このため、前記本発明の前提となる運用管理装置では、システムを構成する各アプリケーションの数に偏りがあると、少ないアプリケーションのサーバで異常が多く生じても、該性能異常が提示されないという問題がある。
例えば、前記本発明の前提となる運用管理装置が、WEBサービスを構成するアプリケーションとしてのWEBサーバとDBサーバとを管理する場合を考える。この場合、サーバの台数はWEBサーバの方がDBサーバよりも多いのが一般的であるため、DBサーバで異常が多く生じても全体としての相関崩れの数はそれほど多くならず、障害が提示されない可能性があった。
(第1の実施形態)
次に、図6から図10を参照して、本発明の第1の実施形態に係る運用管理装置を説明する。
[第1の実施形態の構成]
図6は、本発明の第1の実施形態に係る運用管理装置を示すブロック図である。本実施形態の運用管理装置は、図1に示す運用管理装置の構成に加えて、正常モデル分布蓄積手段10と、障害モデル分布蓄積手段11と、相関変化分布判別手段12と、相関変化履歴蓄積手段13と、相関崩れ増加判別手段14とを有して構成されている。
正常モデル分布蓄積手段10は、管理者が入力する性能情報の正常時の相関モデルの崩れの分布の範囲(図9の分布の範囲802参照)を蓄積するものである。
障害モデル分布蓄積手段11は、管理者が入力する性能情報の異常時の相関モデルの崩れの分布を蓄積するものである。
相関変化分布判別手段12は、相関変化分析手段9から性能情報を受け取り、性能情報の相関モデルの崩れの分布と正常モデル分布蓄積手段10の中の相関モデルの崩れの分布の範囲とを比較し、該比較結果に基づき、性能情報が正常の範囲内に収まっているか否かを分析するものである。
相関変化履歴蓄積手段13は、性能情報の相関モデル毎の崩れの数を蓄積するものである。
相関崩れ増加判別手段14は、相関変化履歴蓄積手段13に蓄積された相関モデル毎の崩れの数の履歴に基づいて、相関モデルの崩れの分布が障害モデル分布蓄積手段11に蓄積されている異常時の相関モデルの崩れの分布(すなわち障害モデルの分布)に近似しているか否か、を障害モデル毎に分析する。その結果、近似している障害モデルの分布があると判断した場合、相関崩れ増加判別手段14は、その性能情報と近似している障害モデルと、障害モデルと比較して算出した近似の割合とを障害分析手段4に通知する。
さらに、障害分析手段4は、性能情報と近似している障害モデルと、障害モデルと比較して算出した近似の割合とを相関崩れ増加判別手段14から受け取り、管理者対話手段5を介してこれらの情報を管理者に提示する機能を新たに有する。
[第1の実施形態の動作]
次に、図6から図10を参照して、本実施形態の運用管理装置の動作を説明する。
まず前提として、管理者は、正常モデル分布蓄積手段10に、正常時の相関モデルの崩れの範囲を登録する(図7のステップS711)。これは運用管理装置を動作させる前に行ってもよいし、動作中に適宜追加してもよい。例えば、サーバAのCPU使用率とサーバBのCPU使用率との相関を示す相関モデルAがあり、その崩れが全体の5〜10%の範囲内であれば正常と見なすのであれば、相関モデルAの範囲を5〜10として登録する。他の相関モデルも同様に登録する。
同じく前提として、管理者は、異常モデル分布蓄積手段11に、異常時の相関モデルの崩れの分布を登録する。これも運用管理装置を動作させる前に行ってもよいし、動作中に適宜追加してもよい(ステップS712)。
図8は、異常時の相関モデルの崩れの分布として登録する情報を示している。例えば、管理者は、異常時の相関モデルの崩れの分布として、相関モデル名、重要度、相関モデルの崩れの分布の組を登録する。
本実施形態の前提となる運用管理装置について図1から図5を参照して説明した場合と同様に、情報収集手段3がサービス実行手段1から収集した性能情報に基づいて、相関モデル生成手段7が相関モデルを生成する(ステップS713)。さらに、情報収集手段3が運用時の性能情報を収集すると、相関変化分析手段9が、この性能情報が相関モデルに示される相関関係と一致しているか否かを分析し、相関関係の変化から異常度を算出する(ステップS714)。
次に、相関変化分布判別手段12は、受け取った性能情報の各相関モデルの崩れの分布と正常モデル分布蓄積手段10の中の相関モデルの崩れの分布の範囲とを比較し、性能情報が正常モデル分布蓄積手段10の中の相関モデルの崩れの分布の範囲内に収まっているか否かを分析する(ステップS715)。収まっている場合、相関変化分布判別手段12は相関変化履歴蓄積手段13に蓄積されている全ての相関モデル毎の崩れの数をクリアする(ステップS716)。
図9は、本実施形態における性能情報の各相関モデルの崩れの分布と正常モデルの崩れの分布の範囲とを比較したものの概要を示す図である。図9を参照すると、グラフ801に示す相関モデルA、B、C、Dとあるうちの、相関モデルDが、分布の範囲802として示す正常モデル分布蓄積手段10内にある正常モデルの崩れの分布の範囲を超えていることがわかる。すなわち、グラフ801における相関モデルDの値「20.4」が、分布の範囲802における相関モデルDの分布の範囲「10〜15%」を超えている。このような場合、相関変化履歴蓄積手段13は性能情報の相関モデル毎の崩れの数を蓄積する(ステップS717)。
ステップS713からステップS717を繰り返し、相関崩れ増加判別手段14は、相関変化履歴蓄積手段13に所定数の性能情報が蓄積されたか否か判断する(ステップS718)。ここで、相関変化履歴蓄積手段13に所定数の性能情報が蓄積されたと判断されると、相関崩れ増加判別手段14は、障害モデル分布蓄積手段11に問い合わせて異常時の相関モデルの崩れの分布を取得する(ステップS719)。すると、相関崩れ増加判別手段14は、相関変化履歴蓄積手段13に蓄積された相関モデル毎の崩れの数の履歴を基に、相関モデルの崩れの分布がステップS719で取得した相関モデルの崩れの分布に近似していく傾向があるか否かを分析する(ステップS720)。
ステップS720の結果、近似していく障害モデルがあると判断された場合、障害分析手段4は、その障害モデルと、相関モデル毎の崩れの数の履歴のうち最新の履歴の分布と、近似の度合いを相関崩れ増加判別手段14から受け取り、管理者対話手段5を介して、結果を管理者に提示する(ステップS721)。
図10は、このようにして管理者に提示される表示画面の例を示す。図10を参照すると、グラフ901によって、現在のサービスの相関モデルの崩れの分布状況、及び近似している障害モデルの崩れの分布がわかる。また、情報902によって、近似している障害モデルと近似の度合いがわかる。また、グラフ903によって、異常度の時系列変化がわかる。
この場合、異常度グラフの時系列変化では、現在時刻において異常と判断される閾値には達していないため、異常は通知されない。そのため管理者は異常が発生していると気がつかない可能性が大きい。しかし、崩れの分布を参照すると、ある相関モデルの崩れに偏りが見られ、それが管理者によって事前に登録されている「DBコネクション遅延障害モデル」に近似していることが理解できる(情報902参照)。このため管理者は、DBコネクションに関する遅延障害の予兆があると判断でき、的確な対処をすることができる。
例えば、原因追求のためにDBのログを参照して問題が無いか確認する、あるいはDBに接続するAPサーバ側への影響を調査する、といった対処をすることが可能となる。
[第1の実施形態の効果]
本実施形態の運用管理装置では、相関崩れ増加判別手段14が、性能情報の相関モデルの崩れの分布が予め登録された異常時の相関モデルに近似しているか否かを判別することで、管理者へ通知するか否かを判断している。これにより、本実施形態の運用管理装置は、サービスを構成する全要素の中で少数の要素に対して相関モデルの崩れが集中している場合でも異常を検知することができる。これは、従来の運用管理装置ではできなかったことである。したがって、本実施形態の運用管理装置は、本発明の第一の課題である、サービスを構成する全要素の中で少数の要素に対して相関モデルの崩れが集中しても異常が検知できないという課題を、克服することができる。
また、本実施形態の運用管理装置によれば、通常状態では相関関係の崩れが発生することがなく、崩れが発生した場合は障害であることがほぼ間違いの無いようなモデルについて、異常を検知することができる。したがって、本実施形態の運用管理装置は、本発明の第二の課題である、通常状態では相関関係の崩れが発生することがなく、崩れが発生した場合は障害であることがほぼ間違いの無いようなモデルであっても異常が検知できないという課題を、克服することができる。
また、本実施形態の運用管理装置によれば、過去の実績に基づく異常時の相関モデルに近似しているか否かを判別するため、発生した異常に対して行うべき対処が過去の経験により明確である可能性が高く、対処にかかる管理者の負担が軽減されるという効果がある。さらに、正常モデル分布蓄積手段10に蓄積された正常時の相関モデルの崩れの分布の範囲に収まらない性能情報のみを分析の対象としているため、異常が検知されない期間はシステムが正常に動作していると特定できる。したがって、本実施形態の運用管理装置によれば、異常発生時に管理者がログを参照しながら原因調査を行う場合に、正常動作期間のログを調査対象から外すことができ、負担が軽減されるという効果もある。
(第2の実施形態)
第1の実施形態と同様に、図6を参照して本実施形態の構成および動作を説明する。
本実施形態の運用管理装置における、正常時の相関モデルの崩れの分布の範囲に収まらない性能情報を所定数だけ蓄積する動作は、第1の実施形態で説明したものと同じである。さらに、本実施形態の相関崩れ増加判別手段14は、相関変化履歴蓄積手段13に蓄積された相関モデル毎の崩れの数の履歴を、障害モデル分布蓄積手段11から取得した複数の異常時の相関モデルの崩れの分布と比較し、それぞれの障害モデル毎に、近似していく傾向かあるか否か分析する。
次に、本実施形態の効果について説明する。図11は、前記の本実施形態の相関崩れ増加判別手段14によって障害モデル毎に近似値が求められた場合に、管理者に提示される表示画面の例を示している。図11を参照すると、情報906により、現在の性能情報が複数の障害モデルに対して各々どれくらい近似しているのかがわかる。これにより、管理者は提示された複数の障害モデルの組み合わせから様々な障害の可能性を推測することができるようになる。例えば、図11では、DB関連の障害が最も近似度合いが高いと表示されているが、それに続く3つの障害全てがWeb関連のものであるとも表示されている。管理者は、図11の表示画面を見て、DB関連で異常が発生している可能性に加え、Web関連でも異常が発生している可能性についても考慮することができる。
(第3の実施形態)
図12を参照して、本実施形態の運用管理装置の構成および動作を説明する。
図12に示された本実施形態の運用管理装置は、第1の実施形態に係る運用管理装置の構成に加えて、正常モデル分布自動生成手段15を有して構成されることを特徴とする。
正常モデル分布自動生成手段15は、相関変化分析手段9が取得した全性能情報が相関モデルに示される相関関係と一定の誤差範囲で一致していると分析すると、その相関変化情報を受け取り、各相関モデルの崩れが全体の中で占める割合を算出する。正常モデル分布自動生成手段15は、このような処理をある一定の回数繰り返し、相関モデル毎の崩れの割合の最小値と最大値を求め、その結果を正常状態の相関モデルの崩れ分布と見なして正常モデル分布蓄積手段10に登録する。
次に、本実施形態の効果について説明する。上記のようにして正常モデル分布蓄積手段10に正常状態の相関モデルの崩れ分布が自動的に蓄積されていくことにより、管理者は図7のステップS711に示したような、正常な状態の相関モデルの崩れ分布を自ら算出して登録するという行為を行わずとも、相関モデルの崩れの分布を元にした障害の検知が可能となる。
なお、上述した本発明の各実施形態に係る運用管理装置の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されていることとしてもよい。このプログラムをコンピュータが読み出して実行することによって、上記処理が行われることとしてもよい。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
1 サービス実行手段
2 性能情報蓄積手段
3 情報収集手段
4 障害分析手段
5 管理者対話手段
6 対処実行手段
7 相関モデル生成手段
8 相関モデル蓄積手段
9 相関変化分析手段
10 正常モデル分布蓄積手段
11 障害モデル分布蓄積手段
12 相関変化分布判別手段
13 相関変化履歴蓄積手段
14 相関崩れ増加判別手段
15 正常モデル分布自動生成手段

Claims (6)

  1. システムの性能情報を監視し、前記システムにおいて成立する複数の性能値間の関係を示すモデルとして抽出し、前記システムの運用時の複数の性能値を検出して当該検出結果から前記関係の変化を検出する運用管理装置であって、
    モデル毎の前記関係の崩れの分布を第1の分布として保持する蓄積手段と、
    前記モデル毎の現在の崩れの分布を第2の分布とし、前記第1の分布と前記第2の分布とを比較して、前記第2の分布が前記第1の分布に近似しているか否かを判別する第1の判別手段と
    を備える運用管理装置。
  2. 前記第1の判別手段による判別結果を履歴として保持する履歴蓄積手段と、
    前記履歴から前記第2の分布が前記第1の分布に近似する傾向にあるか否かを判別する第2の判別手段と
    を更に備える請求項1に記載の運用管理装置。
  3. 前記第1の分布及び前記第2の分布は、前記モデル毎の関係の崩れを示す数の比率である
    請求項1又は2に記載の運用管理装置。
  4. システムの性能情報を監視し、前記システムにおいて成立する複数の性能値間の関係を示すモデルとして抽出し、前記システムの運用時の複数の性能値を検出して当該検出結果から前記関係の変化を検出する運用管理方法であって、
    モデル毎の前記関係の崩れの分布を第1の分布として保持する蓄積段階と、
    前記モデル毎の現在の崩れの分布を第2の分布とし、前記第1の分布と前記第2の分布とを比較して、前記第2の分布が前記第1の分布に近似しているか否かを判別する第1の判別段階と
    を備える運用管理方法。
  5. 前記第1の判別段階における判別結果を履歴として保持する履歴蓄積段階と、
    前記履歴から前記第2の分布が前記第1の分布に近似する傾向にあるか否かを判別する第2の判別段階と
    を更に備える請求項4に記載の運用管理方法。
  6. 前記第1の分布及び前記第2の分布は、前記モデル毎の関係の崩れを示す数の比率である
    請求項4又は5に記載の運用管理方法。
JP2013143069A 2013-07-08 2013-07-08 運用管理装置および運用管理方法 Active JP5459431B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013143069A JP5459431B2 (ja) 2013-07-08 2013-07-08 運用管理装置および運用管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013143069A JP5459431B2 (ja) 2013-07-08 2013-07-08 運用管理装置および運用管理方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009029848A Division JP5428372B2 (ja) 2009-02-12 2009-02-12 運用管理装置および運用管理方法ならびにそのプログラム

Publications (2)

Publication Number Publication Date
JP2013200899A JP2013200899A (ja) 2013-10-03
JP5459431B2 true JP5459431B2 (ja) 2014-04-02

Family

ID=49521034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013143069A Active JP5459431B2 (ja) 2013-07-08 2013-07-08 運用管理装置および運用管理方法

Country Status (1)

Country Link
JP (1) JP5459431B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747188B2 (en) 2015-03-16 2020-08-18 Nec Corporation Information processing apparatus, information processing method, and, recording medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6369895B2 (ja) * 2014-06-13 2018-08-08 日本電気株式会社 モータ異常検知システム、モータ異常検知方法、及びモータ異常検知プログラム
JP6366091B2 (ja) * 2014-06-13 2018-08-01 日本電気株式会社 ミスアライメント検知装置、方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008293441A (ja) * 2007-05-28 2008-12-04 Nec Corp 機器障害予測方法及び機器障害予測装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747188B2 (en) 2015-03-16 2020-08-18 Nec Corporation Information processing apparatus, information processing method, and, recording medium

Also Published As

Publication number Publication date
JP2013200899A (ja) 2013-10-03

Similar Documents

Publication Publication Date Title
JP5428372B2 (ja) 運用管理装置および運用管理方法ならびにそのプログラム
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US8930757B2 (en) Operations management apparatus, operations management method and program
JP5375829B2 (ja) 運用管理装置、運用管理方法、および運用管理プログラム
JP5267684B2 (ja) 運用管理装置、運用管理方法、及びプログラム記憶媒体
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
US9778972B2 (en) Operation management device, operation management method
WO2013136739A1 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP5267748B2 (ja) 運用管理システム、運用管理方法、及びプログラム
JP5459431B2 (ja) 運用管理装置および運用管理方法
JP2019057139A (ja) 運用管理システム、監視サーバ、方法およびプログラム
US9331912B2 (en) Violation sign condition setting supporting system, violation sign condition setting supporting method, and violation sign condition setting supporting program
JP5949785B2 (ja) 情報処理方法、装置及びプログラム
US10157113B2 (en) Information processing device, analysis method, and recording medium
JP2010244137A (ja) 障害情報収集装置
JP2017211806A (ja) 通信の監視方法、セキュリティ管理システム及びプログラム
JP2020038525A (ja) 異常検知装置
CN112838962A (zh) 一种大数据集群的性能瓶颈检测方法及装置
JP6627258B2 (ja) システムモデル生成支援装置、システムモデル生成支援方法、及び、プログラム
US9054995B2 (en) Method of detecting measurements in service level agreement based systems
JP6131101B2 (ja) 障害検知プログラム、障害検知方法、及び情報処理装置
JP5261510B2 (ja) ネットワーク監視装置及び方法及びプログラム
CN118018388A (zh) 一种确定并处理弹性计算中异常实例的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131230

R150 Certificate of patent or registration of utility model

Ref document number: 5459431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150