JP2009217381A - 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム - Google Patents

障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム Download PDF

Info

Publication number
JP2009217381A
JP2009217381A JP2008058440A JP2008058440A JP2009217381A JP 2009217381 A JP2009217381 A JP 2009217381A JP 2008058440 A JP2008058440 A JP 2008058440A JP 2008058440 A JP2008058440 A JP 2008058440A JP 2009217381 A JP2009217381 A JP 2009217381A
Authority
JP
Japan
Prior art keywords
information
abnormality
degree
abnormality degree
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008058440A
Other languages
English (en)
Inventor
Shinji Nakadai
慎二 中台
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008058440A priority Critical patent/JP2009217381A/ja
Priority to PCT/JP2009/052992 priority patent/WO2009110326A1/ja
Publication of JP2009217381A publication Critical patent/JP2009217381A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】保守運用者の方針の如何に関わらず、正常なシステムを障害として誤検出することが多い代わりに、本来検出すべき障害を見落とすことが少ないような障害検出を行ったり、逆に、本来検出すべき障害を見落とすことが多い代わりに、正常なシステムを障害として誤検出することができないような障害検出を行うことになっていた。
【解決手段】保守運用者が障害全般あるいは個別の障害毎に障害検出感度を設定可能とし、設定された値を、学習に用いる事例が特徴空間における超平面を越えることに課すコストの比として反映させる。
【選択図】図3

Description

本発明はシステム障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラムに関し、特にルールや閾値を設定することなく、システム障害を検出し分類できるシステム障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラムに関する。
従来の障害分析システムの一例が、特許文献1に記載されている。図1に示すように、
この従来の障害分析システム100は、動作測定記録(OM)転送ユニットや障害記録転送ユニットといった異常呼量監視手段と、閾値判定手段と、判定結果表示手段とから構成されている。
また、他の従来の障害分析システムの一例が、非特許文献1に記載されている。図2に示すように、この従来の障害分析システム200は、監視対象装置231〜234からなる監視対象システム230を管理するために、異常度監視手段201と、異常度格納部210と、障害事例登録手段211と、事例格納部212と、パターン学習手段213と、知識格納部214と、パターン判定手段215と、判定結果表示手段216と、判定修正入力手段217とから構成されている。
パターン学習手段213は、Support Vector Machine(SVM)というパターン識別器を用いて行われるパターン学習によって知識情報を生成する。
このSVMは、非特許文献2に詳しい。一般に、パターン学習においては、まず、多次元の変数から一次元のクラス(パターン)を推定する。この多次元の変数として用いる変数を特徴と呼ぶ。またd個からなる特徴が張るd次元空間を特徴空間Rと呼ぶ。また、入力変数を、この特徴空間における特徴変数x(∈R)とし、出力変数をクラスy(∈{1,−1})とすると、特徴空間内でxがある領域を超えるとyが変化する。このような変化を生む領域の境界を超平面と呼ぶ。
この超平面は、n個の入力値x(i=1,2,...,n)に対する出力値yが与えられると、パターン学習により生成することができる。パターン学習の際、出力値yの異なる入力値間の距離をマージンと呼ぶ。
パターン学習手段213にて得られる知識情報とは、この障害を検出し分類するための閾値であり、異常度の組み合わせからなる特徴空間においては、複数のクラスを分類する超平面となる。
特許第3581934号公報 JING WU,JIAN-GUO ZHOU, PU-LIU YAN, MING WU、「A STUDY ON NETWORK FAULT KNOWLEDGEACQUISITION BASED ON SUPPORT VECTOR MACHINE」、Proceedings of the FourthInternational Conference on Machine Learning and Cybernetics, Guangzhou, 18-21August 2005 麻生英樹, 津田宏治,村田昇,「パターン認識と学習の統計学」、岩波書店, pp.107-123, 2005 Chih-ChungChang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001.Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm
特許文献1に記載の構成を有する従来の障害分析システムはつぎのように動作する。
異常呼量監視手段101が、監視対象装置から異常の発生を示すログの有無を監視し、存在する場合は異常の種別に応じて、時間当たりのトラフィック量である呼量をカウントする。閾値判定手段115は、一定時間内の呼量が所定の閾値以上になると、判定結果表示手段116を通じて、保守運用者にその異常を障害として通知する。
このような動作により、この従来の障害分析システムでは、自動で障害を検出することができる。
また、非特許文献1に記載の構成を有する従来の障害分析システムはつぎのように動作する。
すなわち、監視対象装置231〜234に対する監視結果から、装置や回線単位の故障の可能性を表す指標である異常度を収集する。
異常度の例は、図3の301〜313のように、リンクが落ちているか否か、エラー率、輻輳率、棄却率、利用率といった値である。
得られた異常度の組み合わせを、パターン判定手段215は知識格納部214に格納された知識情報を用いて、監視対象システム230において障害が発生したか否か判定し、判定結果表示手段216を通して、判定結果を保守運用者に提示する。
知識格納部214に格納される知識情報は、以下の手順で生成される。
まず、保守運用者が障害事例登録手段211を用いて、過去の障害事例を事例格納部212に登録する。
パターン学習手段213は、事例格納部212に格納されている障害事例と、異常度格納部210に格納された異常度の組み合わせとから知識情報を生成し、知識格納部214に格納する。ここで、障害事例とは、いつどこでどのような障害が発生したかを表す情報である。
前記判定結果表示手段216が保守運用者に対して示した障害判定結果が、実際には障害ではなかった場合には、判定修正入力手段217を用いて、事例格納部212に入力される。
このような動作により、この従来の障害分析システムでは、前記従来の障害分析システムとは異なり、障害検出および分類のための閾値を設定することなく、障害を検出することができる。
しかしながら、上述の従来例では、事例から障害検出閾値を生成する際に、保守運用者が望む障害検出感度を反映しておらず、保守運用者の方針が、正常な状態を障害と誤検出しても良いので障害の見落としを減らしたいという方針であったとしても、生成される閾値は誤検出が少ない代わりに、障害の見落としが多い閾値であることもあり得る。
本発明は上記課題を鑑みてなされたものであって、その目的の1つは、保守運用者が望む障害検出感度を反映した障害検出、または分類ができる障害分析システムを提供することにある。
本発明による情報処理装置の好ましい一態様は、監視対象装置の異常度を示す複数の指標値を含む異常度情報を前記異常度情報の識別情報とともに順次出力する監視対象装置から、前記異常度情報および前記異常度情報の識別情報を順次受信する異常度情報受信手段と、前記異常度情報受信手段が受信した前記各異常度情報を所定の判定基準と比較し、比較の結果に基づいて前記各異常度情報を種別毎に分類する種別判定手段と、前記各異常度情報の識別情報と、前記各異常度情報が分類された各種別を示す情報と、を対応付けて出力する判定結果出力部と、前記各異常度情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、前記各異常度情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、障害の種類あるいは場所に対して、その障害の検出感度の入力を受ける検出感度入力手段と、前記入力された検出感度を格納する検出感度格納部と、
前記異常度情報受信手段が受信した各異常度情報と、前記各異常度情報の識別情報に対応付けて記憶されている真の種別を示す情報と、前記検出感度格納部が格納した検出感度と、に基づいて前記判定基準を更新するパターン学習手段と、を備えた。
本発明による情報処理装置の制御方法の好ましい一態様は、情報処理装置の制御方法であって、前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含む異常度情報を前記異常度情報の識別情報とともに順次出力する監視対象装置から、前記異常度情報および前記異常度情報の識別情報を順次受信し、前記情報処理装置が、受信した前記各異常度情報を所定の判定基準と比較し、比較の結果に基づいて前記各異常度情報を種別毎に分類し、前記情報処理装置が、前記各異常度情報の識別情報と、前記各異常度情報が分類された各種別を示す情報と、を対応付けて出力し、前記情報処理装置が、前記各異常度情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け、前記情報処理装置が、前記各異常度情報の識別情報を前記真の種別と対応付けて記憶し、前記情報処理装置が、障害の種類あるいは場所に対して、その障害の検出感度の入力を受け、前記情報処理装置が、前記入力された検出感度を格納し、前記情報処理装置が、受信した各異常度情報と、前記各異常度情報の識別情報に対応付けて記憶されている真の種別を示す情報と、格納した検出感度と、に基づいて前記判定基準を更新する。 本発明による情報処理装置の制御プログラムの好ましい一態様は、情報処理装置の制御プログラムであって、前記情報処理装置に、監視対象装置の異常度を示す複数の指標値を含む異常度情報を前記異常度情報の識別情報とともに順次出力する監視対象装置から、前記異常度情報および前記異常度情報の識別情報を順次受信する処理と、受信した前記各異常度情報を所定の判定基準と比較し、比較の結果に基づいて前記各異常度情報を種別毎に分類する処理と、前記各異常度情報の識別情報と、前記各異常度情報が分類された各種別を示す情報と、を対応付けて出力する処理と、前記各異常度情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける処理と、前記各異常度情報の識別情報を前記真の種別と対応付けて記憶する処理と、障害の種類あるいは場所に対して、その障害の検出感度の入力を受ける処理と、前記入力された検出感度を格納する処理と、受信した各異常度情報と、前記各異常度情報の識別情報に対応付けて記憶されている真の種別を示す情報と、格納した検出感度と、に基づいて前記判定基準を更新する処理と、を実行させる。
本発明の効果は、保守運用者が望む障害検出感度を反映した障害検出、または分類ができる障害分析システムを提供できることにある。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図3を参照すると、本発明の第1の実施の形態は、監視対象装置331〜334を備えるシステム330と通信可能に接続されている、プログラム制御により動作するコンピュータ(中央処理装置とプロセッサとデータ処理装置とを少なくとも備える)300である。
コンピュータ300は、障害事例登録手段311と、事例格納部312と、異常度監視手段301と、異常度格納部310と、パターン学習手段313と、知識格納部314と、パターン判定手段315と、判定結果表示手段316と、判定修正入力手段317と、検出感度入力手段318と、検出感度格納部319を含む。
障害事例登録手段311は事例格納部312と接続し、事例格納部312は障害事例登録手段311とパターン学習手段313とそれぞれ接続し、検出感度入力手段318は検出感度格納部319と接続し、検出感度格納部319は検出感度入力手段318とパターン学習手段313とそれぞれ接続し、パターン学習手段313は異常度格納部310と事例格納部312と検出感度格納部319と知識格納部314とそれぞれ接続し、異常度格納部310はパターン学習手段313と異常度監視手段301とそれぞれ接続し、知識格納部314は、パターン学習手段313とパターン判定手段315とそれぞれ接続し、異常度監視手段301は、異常度格納部310とパターン判定手段315とそれぞれ接続し、パターン判定手段315は、知識格納部314と異常度監視手段301と判定結果表示手段316とそれぞれ接続し、判定結果表示手段316はパターン判定手段315と接続している。
本明細書において、知識情報、閾値、境界面および超平面は同一のものを指し、特許請求の範囲に記載の判定基準に相当する。また本明細書では、特徴は特許請求の範囲に記載の指標値に相当する。また本明細書では、オペレータが入力する検出感度は、図9〜図14の表中に示すコストに相当する。
検出感度とは、上記閾値(判定基準)を変更するための設定パラメータであり、後述の各事例に対しそれぞれ設定されるコストである。検出感度は特許請求の範囲に記載の設定パラメータに相当する。
これらの手段はそれぞれ概略つぎのように動作する。
障害事例登録手段311は、保守運用者(特許請求の範囲に記載のオペレータに相当する)が使用する図示しない端末から、障害発生時間と場所との入力を受け付ける。この障害発生時間と場所との組を事例と呼ぶ。これには、障害の種類や根本原因の箇所も含めて良い。
事例とは、前記の障害発生時間と場所とが、あるいは正常であった時間と場所とが、対応付けられている情報である。ここで、事例として記憶されている時間と場所とはともに、期間や範囲のように広がりを持っていても良い。また、事例には実際に障害であった場合の事例を示す障害事例と実際には正常であった場合の事例を示す正常事例とがある。障害事例には障害発生時間と場所とが、正常事例には正常であった時間と場所とが含まれている。また、事例には事例の種類(クラス、パターンに相当する。また、特許請求の範囲に記載の真の種別に相当する)が含まれていてもよい。事例の種類とは、当該事例が正常であることを示す情報または障害の種類を含む情報である。この場合、障害事例には障害発生時間と場所と障害の種類とが、正常事例には正常であった時間と場所と当該事例が正常であることを示す情報とが、含まれている。あるいは、事例の種類は、事例とは独立した情報として構成されていてもよい。本明細書では事例に、事例の種類を含まないものとして考える。もちろん、事例に事例の種類を含んでいてもよい。
障害事例登録手段311は、事例とともに、当該事例の種類の入力を受け付けてもよい。場所とは、各監視対象装置を識別する識別子であってもよいし、回線名、住所などのように障害発生の箇所を特定できるものであればよい。障害発生時間と場所とは特許請求の範囲に記載の異常度情報の識別情報に含まれるものである。また本明細書では、異常度情報の識別情報は事例に相当する。
なお、異常度情報の識別情報は異常度情報が識別できる情報を含んでいればよく、一意に付される識別子などを含んでいればよい。
事例格納部312は、障害事例登録手段311または後述の判定修正入力手段317から事例を受け取り、受け取った事例を図15のように格納する。図15を参照すると、事例番号と時刻と場所とパターンとを対応付けて記憶している。事例番号、時刻および場所は異常度情報の識別情報であり、パターンは事例の種類である。なお、事例番号、時刻、場所はそれぞれ必須ではなく、異常度情報を識別できる情報が少なくとも1つあればよい。
異常度監視手段301(特許請求の範囲の記載の異常度情報受信部に相当する)は、監視対象システム330における監視対象装置331〜334から異常度を含む異常度情報を取得する。異常度監視手段301は、取得した異常度情報を異常度格納部310に格納する。また、異常度監視手段301は、異常度情報に含まれている時刻を示す情報もしくは異常度監視手段301が異常度情報を受信した時刻を示す情報をパターン判定手段315に渡す。
異常度格納部310は、過去に異常度監視手段301が受信した異常度情報に含まれる異常度と、時刻と、場所と値と、を対応付けて記憶している。また、例えば時間と場所で識別できる異常度情報を返すことができるように格納してもよい。
パターン学習手段313(特許請求の範囲に記載のパターン学習手段に相当する)は、保守運用者から障害事例登録手段300あるいは判定修正入力手段317に対して入力があったタイミングで、あるいは定期的に実行され、事例格納部312に格納された各事例に対応付けられている異常度情報を、異常度格納部310から読み出す。読み出された各異常度情報に含まれる各異常度(特徴)でパターン学習手段313が用いる特徴空間を構成している。
また、パターン学習手段313は、後述の検出感度格納部319から障害事例の種類や正常といったラベル(特許請求の範囲に記載の種別に相当する)ごとの検出感度を読み出す。
また、パターン学習手段313は、異常度格納部310から読み出した異常度情報および検出感度格納部319から読み出した検出感度に基づいて障害を検出し分類するための閾値(超平面)を生成し、知識格納部314に格納する。
ここで非特許文献3の記載にならいパターン学習の具体例を示し、障害検出感度を反映させる様子を例示する。
超平面の導出には、特徴空間Rにおける、数2に記載の制約のもと数1の最適化を行うことで実現する。ここで、非特許文献2でスラックス変数として記載されるξiは、事例iが超平面を超えて学習されている程度を表し、ξiが事例iのラベルyに対応して定められるコストCyiで重み付けられることにより学習される超平面は、各ラベル間でのコストCの比を反映したものとなる。このコストCyiが検出感度である。
この例は2クラスの分類のみを示しているが、複数の障害パターンのような多クラスの分類においても同様の方法で実現できる。
なお、非特許文献3で提供されるSVMでは、このCyiを重みとして設定可能であるが、非特許文献3のような、従来のパターン学習を用いた障害検出システムでは、障害検出感度を可変とするためにこのCyiを利用することには言及していない。
知識格納部314には、パターン学習手段313によって生成された閾値を格納する。
パターン判定手段315(特許請求の範囲に記載の種別判定手段に相当する)は、異常度取得手段301から異常度情報を受信する。そしてパターン判定手段315は、知識格納部314に格納された閾値を読み出して、異常度取得手段301から受信した異常度情報が、どのような障害であるか、あるいは正常であるかを示しているかを判定する。さらに障害であると判定された場合はどのような障害であるかを判定し、異常度情報の識別情報と判定結果とを判定結果表示手段316に渡す。
判定結果表示手段316(特許請求の範囲に記載の判定結果出力部に相当する)は、前記パターン判定手段315から受け取った判定結果(パターン、事例の種類、特許請求の範囲に記載の種別に相当する)と異常度情報の識別情報(事例)とを保守運用者に対して表示する。
判定修正入力手段317は、前記判定結果表示手段316が保守運用者に対して提示した判定結果(パターン、事例の種類、特許請求の範囲に記載の種別に相当する)が間違いであった場合に、保守運用者が正しいと考える事例の種類(特許請求の範囲に記載の真の種別に相当する)と事例とを事例格納部312に登録する。たとえば、時間と場所(事例)に加え、事例の種類(真の種別)などを、事例格納部312に追加する、あるいは事例格納部312に格納されている事例を保守運用者が正しいと考える事例に修正してもよい。
検出感度入力手段318は、保守運用者が使用する図示しない端末から、検出感度の入力を受け付ける。この検出感度に真の種別を対応付けて入力を受け付けてもよい。
検出感度格納部319は、検出感度入力手段318から検出感度を受け取り格納する。検出感度格納部319は、検出感度とともに真の種別を受け取り、受け取った検出感度と真の種別とを対応付けて記憶してもよい。
次に、図4、図5、図6及び図7のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、異常度取得手段301が監視対象システム330から異常度を含む異常度情報を取得し(図4の401)、取得した異常度情報をパターン判別手段315に渡す。
パターン判定手段315が知識格納部314に含まれる閾値(超平面)を用いて、前記異常度監視手段から受け取った異常度情報から、監視対象システム330における事例の種類を判定し、判定結果(事例の種類、種別)と当該異常度情報の識別情報(事例)とを判定結果表示手段316に渡す(図4の402)。
次に、図4の402においてパターン判定部315が障害であると判定した場合には、判定結果表示手段316は、パターン判定手段315から受け取ったパターン(種別)と異常度の識別情報とを保守運用者に表示する(図4の403)。
次に、保守運用者は、障害事例登録手段311、あるいは判定修正手段317に対して、事例および真の種別として障害発生時間または正常である時間、場所、事例の種類を入力する。障害事例登録手段311、あるいは判定修正手段317は入力された事例を事例格納部312に格納する(図6の601)。また、保守運用者は、検出感度格納部319に種別毎の検出感度を設定し(図5の500)、検出感度入力手段318を介して、設定した種別毎の検出感度を入力する(図5の501)。ここで正常に対する検出感度が高いことは、障害全般を検出しにくくなることと同様の意味を持つため、入力される情報が、種別毎の検出感度と、各種別に共通の検出感度と、であっても良い。
次にパターン学習手段313は、パターン学習により障害判定を行うための閾値を生成する(図6の602)。このステップは、別途保守運用者からの指示により実行されても良い。
事例から障害判定を行うための閾値を生成するために、パターン学習手段413は、事例格納部312に含まれる全ての事例について、状況格納部310から当該事例に含まれる時間または場所に対応付けられているシステム情報を取得する(図7の701、702)。パターン学習手段313は、事例格納部312から得られた各事例に対応付けられている各システム情報に含まれる異常度および状況情報から構成される特徴ベクトルを用いて、各システム情報について、各システム情報の事例の種類というパターンに分類するための超平面を学習し(図7の703)超平面を生成する。このとき、パターン学習部313は、検出感度格納部319に格納された各検出感度が読み出し、各検出感度を、各事例が超平面を超えることに対して与えられるコストの重みとして用いることで、学習をおこなう。
パターン学習部313は学習し生成した超平面を知識格納部314に格納し、前記パターン判定手段315は、知識格納部314に格納された超平面を用いて異常度監視手段301から受け取った各異常度情報についてパターンを分類する(図7の704)。
次に、本実施の形態の効果について説明する。
本実施の形態では、保守運用者が考える各障害の種類や障害全般の検出感度の情報が、特徴空間において各障害や正常でラベル付けされた事例が超平面を超えるコストとして与えられるため、生成された超平面で表される閾値が、保守運用者の考える障害検出方針を反映したものとなり、誤検出が多いが見落としが少ない障害検出・分類を行ったり、逆に誤検出が少なく見落としが多い障害検出・分類を行うことができる。
また、本実施の形態によれば、特徴空間内で複数の種類や場所の障害を隔てる超平面が生成される際に、保守運用者により入力された各障害の深刻度に基づいて検出感度の値を大きくし、その値が大きいほど他の障害種類の事例や正常事例に対する超平面を超えるコストを大きくすることで、生成される超平面が障害と判定する領域内により多くの障害事例が含まれるようになり、この超平面からなる閾値をシステム監視データに適用して障害検出に用いることで、障害と判定しやすくなる。また逆に入力された障害検出感度の値を小さくするほど前記コストを小さくすることで、障害と判定しにくくなる。
次に、具体的な第1の実施例を用いて本発明を実施するための最良の形態の動作を説明する。
図8に示すように、監視対象のシステム330には監視対象装置901と902が存在し、それらの間で通信が行われており、本発明の管理システム300は、監視対象装置901から監視対象装置902との通信の呼損率904および、監視対象装置902から監視対象装置902のCPU利用率905を異常度として取得し、これを特徴空間としてパターン判定手段315が、障害の種類を特定するものとする。
このとき、保守運用者からは検出感度入力手段から検出感度が登録され、この情報から検出閾値を表す特徴空間内での超平面が生成される。
保守運用者が、図9の1010に示されるような正常と障害とが同一の検出感度の値として設定されると、生成される超平面1003は、正常領域1005側に存在する障害事例が超平面1003を超えている割合と、障害領域側に存在する正常事例が超平面1003を超えている割合とが、同程度となる。
この超平面1003で表される閾値で障害を検出すると、超平面1003付近の監視結果では正常と判定されるものもあれば、異常と判定される場合もある。
次に、仮に保守運用者が、超平面1003付近のような正常と看做せるような監視結果も頻繁に障害検出するようでは、障害の発生確認作業等に時間が取られ煩わしいと考え、検出感度を落として本当に深刻そうな場合のみ検知すると判断し、図10の1110に示されるような正常の検出感度を高く設定したとする。
このとき生成される超平面1103で表される検出閾値は、図9の超平面1003付近の特徴を持つデータを、全て正常と判断して、障害検出を少なくすることができる。
逆に、仮に保守運用者が、障害と少しでも疑われる場合は検出したいと考え、検出感度を高め、図11の1210に示されるような障害の検出感度を高く設定したとする。
このとき生成される超平面1203で表される検出閾値は、図11の超平面1203付近の特徴を持つデータを、全て障害と判断して、障害と少しでも疑われる場合は全て検出させることができる。
次に、具体的な第2の実施例を用いて本発明を実施するための最良の形態の動作を説明する。
図8と同様のシステムを監視するとするが、ここではCPU利用率と呼損率の上昇をおよぼす2種類の障害があるとする。
保守運用者が、図12の1310に記載の検出感度を設定したとすると、障害1と判定される領域は超平面1303で囲まれた領域となり、障害2と判定される領域は超平面1304で囲まれた領域となる。
次に、仮に保守運用者が、障害1は重大な障害であると判断し、この検出感度を図13の1410のように高く設定したとすると、生成される超平面1403は図12の超平面1303の境界付近の監視結果も障害1と判定するようになり、この障害を見落とす割合が減る。
このとき他の障害についてはその検出感度はほとんど変化しない。
逆に、仮に保守運用者が、障害2が重要な障害であると判断し、この検出感度を図14の1510のように高く設定したとすると、生成される超平面1504は図12の超平面1304の境界付近の監視結果も障害2と判定するようになり、この障害を見落とす割合が減る。
ここでも、他の障害についてはその検出感度はほとんど変化しない。
本発明によれば、コンピュータやネットワーク機器・通信装置からなるシステムを監視し、障害を検出・分類するといった用途に適用できる。
従来の第1の発明を示すブロック図である。 従来の第2の発明を示すブロック図である。 本発明を実施するための最良の形態の構成を示すブロック図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作の第1の具体例を示す監視対象の構成図である。 本発明を実施するための最良の形態の動作の第1の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の第1の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の第1の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の第1の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の第1の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の第1の具体例を示す特徴空間である。 事例格納部312に格納するデータ構造を示す図である。
符号の説明
100,200,300 コンピュータ
301 異常度監視手段
310 異常度格納部
311 障害事例登録手段
312 事例格納部
313 パターン学習手段
314 知識格納部
315 パターン判定手段
316 判定結果表示手段
317 判定修正入力手段
318 検出感度入力手段
319 検出感度格納部
331、332、333、334 監視対象装置

Claims (6)

  1. 監視対象装置の異常度を示す複数の指標値を含む異常度情報を前記異常度情報の識別情報とともに順次出力する監視対象装置から、前記異常度情報および前記異常度情報の識別情報を順次受信する異常度情報受信手段と、
    前記異常度情報受信手段が受信した前記各異常度情報を所定の判定基準と比較し、比較の結果に基づいて前記各異常度情報を種別毎に分類する種別判定手段と、
    前記各異常度情報の識別情報と、前記各異常度情報が分類された各種別を示す情報と、を対応付けて出力する判定結果出力部と、
    前記各異常度情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、
    前記各異常度情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、
    前記判定基準を更新するための設定パラメータの入力を受ける検出感度入力手段と、
    前記異常度情報受信手段が受信した各異常度情報と、前記各異常度情報の識別情報に対応付けて記憶されている真の種別を示す情報と、前記設定パラメータと、に基づいて前記判定基準を更新するパターン学習手段と、
    を備える、情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記真の種別を示す情報は、前記監視対象装置が正常であるか異常であるかを示す情報である、情報処理装置。
  3. 請求項1に記載の情報処理装置であって、
    前記障害事例登録手段は、前記真の種別を示す情報を、オペレータにより操作される端末から受信する、情報処理装置。
  4. 請求項1に記載の情報処理装置であって、
    前記検出感度入力手段は、前記検出感度を、オペレータにより操作される端末から受信する、情報処理装置。
  5. 情報処理装置の制御方法であって、
    前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含む異常度情報を前記異常度情報の識別情報とともに順次出力する監視対象装置から、前記異常度情報および前記異常度情報の識別情報を順次受信し、
    前記情報処理装置が、受信した前記各異常度情報を所定の判定基準と比較し、比較の結果に基づいて前記各異常度情報を種別毎に分類し、
    前記情報処理装置が、前記各異常度情報の識別情報と、前記各異常度情報が分類された各種別を示す情報と、を対応付けて出力し、
    前記情報処理装置が、前記各異常度情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け、
    前記情報処理装置が、前記各異常度情報の識別情報を前記真の種別と対応付けて記憶し、
    前記情報処理装置が、前記判定基準を更新するための設定パラメータの入力を受け、
    前記情報処理装置が、受信した各異常度情報と、前記各異常度情報の識別情報に対応付けて記憶されている真の種別を示す情報と、前記設定パラメータと、に基づいて前記判定基準を更新する、
    情報処理装置の制御方法。
  6. 情報処理装置の制御プログラムであって、
    前記情報処理装置に、
    監視対象装置の異常度を示す複数の指標値を含む異常度情報を前記異常度情報の識別情報とともに順次出力する監視対象装置から、前記異常度情報および前記異常度情報の識別情報を順次受信する処理と、
    受信した前記各異常度情報を所定の判定基準と比較し、比較の結果に基づいて前記各異常度情報を種別毎に分類する処理と、
    前記各異常度情報の識別情報と、前記各異常度情報が分類された各種別を示す情報と、を対応付けて出力する処理と、
    前記各異常度情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける処理と、
    前記各異常度情報の識別情報を前記真の種別と対応付けて記憶する処理と、
    前記判定基準を更新するための設定パラメータの入力を受ける処理と、
    受信した各異常度情報と、前記各異常度情報の識別情報に対応付けて記憶されている真の種別を示す情報と、前記設定パラメータと、に基づいて前記判定基準を更新する処理と、
    を実行させる情報処理装置の制御プログラム。
JP2008058440A 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム Pending JP2009217381A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008058440A JP2009217381A (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
PCT/JP2009/052992 WO2009110326A1 (ja) 2008-03-07 2009-02-20 障害分析装置、障害分析方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008058440A JP2009217381A (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム

Publications (1)

Publication Number Publication Date
JP2009217381A true JP2009217381A (ja) 2009-09-24

Family

ID=41055887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008058440A Pending JP2009217381A (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム

Country Status (2)

Country Link
JP (1) JP2009217381A (ja)
WO (1) WO2009110326A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751874B2 (en) 2010-12-10 2014-06-10 Fujitsu Limited Managing apparatus, managing method
WO2015129879A1 (ja) * 2014-02-28 2015-09-03 三菱重工業株式会社 監視装置、監視方法及びプログラム
JP2016028495A (ja) * 2010-06-04 2016-02-25 三菱電機株式会社 放送受信システム及び放送受信方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6753398B2 (ja) * 2015-06-26 2020-09-09 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002318734A (ja) * 2001-04-18 2002-10-31 Teamgia:Kk 通信ログ処理方法及びシステム
JP2005198970A (ja) * 2004-01-19 2005-07-28 Konica Minolta Medical & Graphic Inc 医用画像処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120058A (ja) * 1991-10-24 1993-05-18 Nec Ibaraki Ltd 障害装置解析辞書
JPH0744526A (ja) * 1993-07-29 1995-02-14 Kubota Corp 事例に基づく電子機器不良原因診断装置
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
JP4646287B2 (ja) * 2003-06-02 2011-03-09 株式会社リコー 画像形成システム、画像形成方法、画像形成プログラム、及び記録媒体
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002318734A (ja) * 2001-04-18 2002-10-31 Teamgia:Kk 通信ログ処理方法及びシステム
JP2005198970A (ja) * 2004-01-19 2005-07-28 Konica Minolta Medical & Graphic Inc 医用画像処理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200300699003; 井上拓也: 'サポートベクトルマシンの学習の高速化とファジィクラシファイアとの性能比較' システム制御情報学会論文誌 第15巻、第1号, 20020115, pp.25-33, システム制御情報学会 *
CSNG200500628011; 宮本貴朗: 'SVMを用いたネットワークトラヒックからの異常検出' 電子情報通信学会論文誌 第J87-B巻、第4号, 20040401, pp.593-598, 社団法人電子情報通信学会 *
JPN6012053242; 宮本貴朗: 'SVMを用いたネットワークトラヒックからの異常検出' 電子情報通信学会論文誌 第J87-B巻、第4号, 20040401, pp.593-598, 社団法人電子情報通信学会 *
JPN6013019609; 井上拓也: 'サポートベクトルマシンの学習の高速化とファジィクラシファイアとの性能比較' システム制御情報学会論文誌 第15巻、第1号, 20020115, pp.25-33, システム制御情報学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016028495A (ja) * 2010-06-04 2016-02-25 三菱電機株式会社 放送受信システム及び放送受信方法
US8751874B2 (en) 2010-12-10 2014-06-10 Fujitsu Limited Managing apparatus, managing method
WO2015129879A1 (ja) * 2014-02-28 2015-09-03 三菱重工業株式会社 監視装置、監視方法及びプログラム
JP2015164005A (ja) * 2014-02-28 2015-09-10 三菱重工業株式会社 監視装置、監視方法及びプログラム

Also Published As

Publication number Publication date
WO2009110326A1 (ja) 2009-09-11

Similar Documents

Publication Publication Date Title
EP3745272B1 (en) An application performance analyzer and corresponding method
US10931511B2 (en) Predicting computer network equipment failure
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
US20180159871A1 (en) Machine Learning Based Malware Detection System
CN106462702B (zh) 用于在分布式计算机基础设施中获取并且分析电子取证数据的方法和系统
AU2019275633B2 (en) System and method of automated fault correction in a network environment
JP4892367B2 (ja) 異常兆候検出システム
US9524223B2 (en) Performance metrics of a computer system
US20150262068A1 (en) Event detection apparatus and event detection method
KR100856924B1 (ko) 네트워크 상태 표시 장치 및 방법
US11698962B2 (en) Method for detecting intrusions in an audit log
US20220383128A1 (en) Image-based anomaly detection based on a machine learning analysis of an object
CN111459692B (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
KR102472081B1 (ko) 공정 모니터링 시스템 및 방법
CN112202783A (zh) 一种基于自适应深度学习的5g网络异常检测方法及系统
CN103606221A (zh) 清分机故障自动诊断方法以及装置
JP2009217381A (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP2014115768A (ja) ログ判定システム、ログ判定基準構築装置及びログ判定方法
JP2007189644A (ja) 管理装置及び管理方法及びプログラム
CN115189961A (zh) 一种故障识别方法、装置、设备及存储介质
CN116527329B (zh) 一种基于机器学习的入侵检测方法及系统
JP7318711B2 (ja) 異常検知装置、異常検知方法、及びプログラム
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
US20230350780A1 (en) Parsing Event Logs for Internet of Things Devices
WO2022143436A1 (zh) 一种设备的状态分析方法和分析装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100623

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130430