JP2009217382A - 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム - Google Patents

障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム Download PDF

Info

Publication number
JP2009217382A
JP2009217382A JP2008058441A JP2008058441A JP2009217382A JP 2009217382 A JP2009217382 A JP 2009217382A JP 2008058441 A JP2008058441 A JP 2008058441A JP 2008058441 A JP2008058441 A JP 2008058441A JP 2009217382 A JP2009217382 A JP 2009217382A
Authority
JP
Japan
Prior art keywords
information
system information
processing apparatus
monitoring target
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008058441A
Other languages
English (en)
Other versions
JP5277667B2 (ja
Inventor
Shinji Nakadai
慎二 中台
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008058441A priority Critical patent/JP5277667B2/ja
Priority to PCT/JP2009/053017 priority patent/WO2009110329A1/ja
Priority to US12/735,863 priority patent/US8448025B2/en
Publication of JP2009217382A publication Critical patent/JP2009217382A/ja
Application granted granted Critical
Publication of JP5277667B2 publication Critical patent/JP5277667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】システムにおける障害を検出し、障害の種類または場所を保守運用者に提示する運用管理システムの中で、事例を登録してルールや閾値が学習されるような障害分析システムにおいては、障害検出の精度が悪く、本来検出されるべき障害とは異なる種類または場所の障害が検出されていた。
【解決手段】障害の種類や場所を学習する際に用いる特徴空間を、監視対象装置の異常度を示す値と、監視対象装置に関する状況情報と、を含めることで、障害を分類する超平面を生成する際に、障害の種類や場所、あるいは正常であるといったラベルがついた事例間が、特徴空間内で距離を持つことができ、障害を高い精度で検出し分類できる超平面を生成することができるようになる。
【選択図】図4

Description

本発明はシステム障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラムに関し、特にルールや閾値を設定することなく、システム障害を検出し分類できるシステム障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラムに関する。
従来の障害分析システムの一例が、特許文献1に記載されている。図1に示すように、
この従来の障害分析システム100は、動作測定記録(OM)転送ユニットや障害記録転送ユニットといった異常呼量監視手段と、閾値判定手段と、判定結果表示手段とから構成されている。
また、他の従来の障害分析システムの一例が、非特許文献1に記載されている。図2に示すように、この従来の障害分析システム200は、監視対象装置231〜234からなる監視対象システム230を管理するために、異常度監視手段201と、異常度格納部210と、障害事例登録手段211と、事例格納部212と、パターン学習手段213と、知識格納部214と、パターン判定手段215と、判定結果表示手段216と、判定修正入力手段217とから構成されている。
パターン学習手段213は、Support Vector Machine(SVM)というパターン識別器を用いて行われるパターン学習によって知識情報を生成する。
このSVMは、非特許文献2に詳しい。一般に、パターン学習においては、まず、多次元の変数から一次元のクラス(パターン)を推定する。この多次元の変数として用いる変数を特徴と呼ぶ。またd個からなる特徴が張るd次元空間を特徴空間Rと呼ぶ。また、入力変数を、この特徴空間における特徴変数x(∈R)とし、出力変数をクラスy(∈{1,−1})とすると、特徴空間内でxがある領域を超えるとyが変化する。このような変化を生む領域の境界を超平面と呼ぶ。
この超平面は、n個の入力値x(i=1,2,...,n)に対する出力値yが与えられると、パターン学習により生成することができる。パターン学習の際、出力値yの異なる入力値間の距離をマージンと呼ぶ。
パターン学習手段213にて得られる知識情報とは、この障害を検出し分類するための閾値であり、異常度の組み合わせからなる特徴空間においては、複数のクラスを分類する超平面となる。
特許第3581934号公報 JING WU, JIAN-GUO ZHOU, PU-LIUYAN, MING WU、「A STUDY ON NETWORK FAULT KNOWLEDGE ACQUISITION BASED ON SUPPORTVECTOR MACHINE」、Proceedings of the Fourth International Conference on MachineLearning and Cybernetics, Guangzhou, 18-21 August 2005 麻生英樹, 津田宏治, 村田昇,「パターン認識と学習の統計学」、岩波書店,pp.107-123, 2005
特許文献1に記載の構成を有する従来の障害分析システムはつぎのように動作する。
異常呼量監視手段101が、監視対象装置から異常の発生を示すログの有無を監視し、存在する場合は異常の種別に応じて、時間当たりのトラフィック量である呼量をカウントする。閾値判定手段115は、一定時間内の呼量が所定の閾値以上になると、判定結果表示手段116を通じて、保守運用者にその異常を障害として通知する。
このような動作により、この従来の障害分析システムでは、自動で障害を検出することができる。
また、非特許文献1に記載の構成を有する従来の障害分析システムはつぎのように動作する。
すなわち、監視対象装置231〜234に対する監視結果から、装置や回線単位の故障の可能性を表す指標である異常度を収集する。
異常度の例は、図3の301〜313のように、リンクが落ちているか否か、エラー率、輻輳率、棄却率、利用率といった値である。
得られた異常度の組み合わせを、パターン判定手段215は知識格納部214に格納された知識情報を用いて、監視対象システム230において障害が発生したか否か判定し、判定結果表示手段216を通して、判定結果を保守運用者に提示する。
知識格納部214に格納される知識情報は、以下の手順で生成される。
まず、保守運用者が障害事例登録手段211を用いて、過去の障害事例を事例格納部212に登録する。
パターン学習手段213は、事例格納部212に格納されている障害事例と、異常度格納部210に格納された異常度の組み合わせとから知識情報を生成し、知識格納部214に格納する。ここで、障害事例とは、いつどこでどのような障害が発生したかを表す情報である。
前記判定結果表示手段216が保守運用者に対して示した障害判定結果が、実際には障害ではなかった場合には、判定修正入力手段217を用いて、事例格納部212に入力される。
このような動作により、この従来の障害分析システムでは、前記従来の障害分析システムとは異なり、障害検出および分類のための閾値を設定することなく、障害を検出することができる。
しかしながら、上述の従来例では、障害の影響が異常度を示す変数には表れず、例えば装置間通信における所定の期間にデータを送信した回数といった異常度を示す変数ではない変数に表れるような障害は、保守運用者が障害事例を登録しても、障害の検出やその障害の分類ができない、あるいは検出の精度が悪い。
本発明は上記課題を鑑みてなされたものであって、その目的の1つは、障害による影響が異常度を示す変数に表れず、異常度を示す変数ではない変数に表れるような障害も検出でき、または分類できる障害分析システムを提供することにある。
本発明による情報処理装置の好ましい一態様は、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信するシステム情報受信手段と、前記システム情報受信手段が受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する種別判定手段と、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報と、を対応付けて出力する判定結果出力部と、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、前記各システム情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、前記システム情報受信手段が受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報と、に基づいて前記判定基準を更新するパターン学習手段と、を備え、前記種別判定手段は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する。
本発明による情報処理装置の制御方法の好ましい一態様は、前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信し、前記情報処理装置が、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類し、前記情報処理装置が、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報と、を対応付けて出力し、前記情報処理装置が、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け、前記情報処理装置が、前記各システム情報の識別情報を前記真の種別と対応付けて記憶し、前記情報処理装置が、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報と、に基づいて前記判定基準を更新し、前記情報処理装置が、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する。
本発明による情報処理装置の制御プログラムの好ましい一態様は、前記情報処理装置に、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信する処理と、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する処理と、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報と、を対応付けて出力する処理と、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける処理と、前記各システム情報の識別情報を前記真の種別と対応付けて記憶する処理と、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報と、に基づいて前記判定基準を更新する処理と、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する処理と、を実行させる。
本発明の効果は、障害の影響が異常度を示す変数には表れず、異常度を示す変数ではない変数に表れるような障害も検出しその障害を分類できる障害分析システムを提供できることにある。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図4を参照すると、本発明の第1の実施の形態は、監視対象装置431〜434を備えるシステム430と通信可能に接続されている、プログラム制御により動作するコンピュータ(中央処理装置とプロセッサとデータ処理装置とを少なくとも備える)400である。
コンピュータ400は、障害事例登録手段411と、事例格納部412と、システム状況取得手段401と、状況格納部410と、パターン学習手段413と、知識格納部414と、パターン判定手段415と、判定結果表示手段416と、判定修正入力手段417を含む。
障害事例登録手段411は事例格納部412と接続し、事例格納部412は障害事例登録手段411とパターン学習手段413とそれぞれ接続し、パターン学習手段413は状況格納部410と知識格納部414とそれぞれ接続し、状況格納部410はパターン学習手段413とシステム状況取得手段401とそれぞれ接続し、知識格納部414は、パターン学習手段413とパターン判定部415とそれぞれ接続し、システム状況取得手段401は、状況格納部410とパターン判定手段414とそれぞれ接続し、パターン判定手段415は、知識格納部414とシステム状況取得手段401と判定結果表示手段416とそれぞれ接続し、判定結果表示手段416はパターン判定手段415と接続している。
本明細書において、知識情報、閾値、境界面および超平面は同一のものを指し、特許請求の範囲に記載の判定基準に相当する。また本明細書では、特徴は特許請求の範囲に記載の指標値に相当する。
これらの手段はそれぞれ概略つぎのように動作する。
障害事例登録手段411は、保守運用者(特許請求の範囲に記載のオペレータに相当する)が使用する図示しない端末から、障害発生時間と場所との入力を受け付ける。この障害発生時間と場所との組を事例と呼ぶ。
事例とは、前記の障害発生時間と場所とが、あるいは正常であった時間と場所とが、対応付けられている情報である。ここで、事例として記憶されている時間と場所とはともに、期間や範囲のように広がりを持っていても良い。また、事例には実際に障害であった場合の事例を示す障害事例と実際には正常であった場合の事例を示す正常事例とがある。障害事例には障害発生時間と場所とが、正常事例には正常であった時間と場所とが含まれている。また、事例には事例の種類(クラス、パターンに相当する。また、特許請求の範囲に記載の真の種別に相当する)が含まれていてもよい。事例の種類とは、当該事例が正常であることを示す情報または障害の種類を含む情報である。この場合、障害事例には障害発生時間と場所と障害の種類とが、正常事例には正常であった時間と場所と当該事例が正常であることを示す情報とが、含まれている。あるいは、事例の種類は、事例とは独立した情報として構成されていてもよい。本明細書では事例に、事例の種類を含まないものとして考える。もちろん、事例に事例の種類を含んでいてもよい。
障害事例登録手段411は、事例とともに、当該事例の種類の入力を受け付けてもよい。場所とは、各監視対象装置を識別する識別子であってもよいし、回線名、住所などのように障害発生の箇所を特定できるものであればよい。障害発生時間と場所とは特許請求の範囲に記載のシステム情報(状況情報)の識別情報に含まれるものである。また本明細書では、システム情報の識別情報は事例に相当する。
なお、システム情報の識別情報はシステム情報が識別できる情報を含んでいればよく、一意に付される識別子などを含んでいればよい。
事例格納部412は、障害事例登録手段411または後述の判定修正入力手段417から事例を受け取り、受け取った事例を図16のように格納する。図16を参照すると、事例番号と時刻と場所とパターンとを対応付けて記憶している。事例番号、時刻および場所はシステム情報の識別情報であり、パターンは事例の種類である。なお、事例番号、時刻、場所はそれぞれ必須ではなく、システム情報を識別できる情報が少なくとも1つあればよい。
システム状況取得手段401(特許請求の範囲の記載のシステム情報受信部に相当する)は、監視対象システム430における監視対象装置431〜434から当該監視対象装置におけるシステム情報(状況情報)を取得する。このシステム情報には、異常度だけではなく、当該監視対象装置における状況情報も含む。システム状況取得手段401は、取得したシステム情報を状況格納部410に格納する。
状況情報とは、異常度とは異なり、その値の大小が障害の可能性を表さない値である。例えば、装置が他の装置と所定の期間にデータを送信した回数は、その値が大きくても、故障の可能性を示すものではない。本明細書では、異常度は、特許請求の範囲に記載の監視対象装置の異常度を示す複数の指標値に相当する。また、状況情報は、監視対象装置の異常度とは関係のない指標値に相当する。また、異常度と状況情報とを含む情報(システム情報を呼ぶ)は特許請求の範囲に記載のシステム情報に相当する。
システム状況取得手段401は、取得したシステム情報を状況格納部410に格納する。パターン学習手段413がパターン学習を行う際に用いる特徴空間の基底となる特徴は、これらのシステム情報に含まれる。
また、このシステム状況取得手段401は、試行回数取得手段402、イベント数取得手段403、時刻取得手段404、曜日取得手段405、時間的状況推測値取得手段406、構成状況推測値取得手段407を備える。システム状況取得手段401は、試行回数取得手段402、イベント数取得手段403、時刻取得手段404、曜日取得手段405、時間的状況推測値取得手段406、構成状況推測値取得手段407に受け取ったシステム情報を渡す。試行回数取得手段402、イベント数取得手段403、時刻取得手段404、曜日取得手段405、時間的状況推測値取得手段406、構成状況推測値取得手段407は受け取ったシステム情報を基に各処理を行い、出力結果をパターン判定手段415に渡す。
試行回数取得手段402は、監視対象装置431〜434が、当該監視対象装置に接続されるその他の装置に所定の期間にデータを送信した回数を示す送信回数情報を取得する。取得方法は、例えばシステム情報に含まれる送信回数情報を抽出することによって行ってもよい。そして、試行回数取得手段402は、取得した送信回数情報をパターン判定手段415に渡す。
イベント数取得手段403は、監視対象装置431〜434において発生した所定の期間のイベント数を取得する。例えば、当該監視対象装置における所定の期間の起動回数などである。取得方法は、例えばシステム情報に含まれる前述の起動回数などを示す情報を抽出することによって行ってもよい。そして、試行回数取得手段402は、取得したイベント数を示す情報をパターン判定手段415に渡す。
時刻取得手段404は、その事例が発生した時刻、あるいは監視を行った時刻を示す時刻情報を取得する。取得方法は、例えばシステム情報に含まれる時刻情報を抽出することによって行ってもよいし、時刻取得手段404が計測する現在の時刻を時刻情報として取得してもよい。そして時刻取得手段404は、取得した時刻情報をパターン判定手段415に渡す。
曜日取得手段405は、その事例が発生した曜日、あるいは監視を行った曜日を示す曜日情報を取得する。取得方法は、例えばシステム情報に含まれる曜日情報を抽出することによって行ってもよいし、曜日取得手段405が計測する現在の曜日を曜日情報として取得してもよい。そして曜日取得手段405は、取得した曜日情報をパターン判定手段415に渡す。
時間的状況推測値取得手段406は、図示しない時間的状況推測値算出手段を含む。時間的状況推測値算出手段は各監視対象装置が過去に送信し、後述の状況格納部410に記憶されているシステム情報に基づいて現在の当該監視対象装置のシステム情報の予測値を算出する。そして、時間的状況推測値取得手段406は、算出したシステム情報の予測値をパターン判定部415に渡す。
例えば、過去数日の同時刻の平均値を用いることで、その監視対象装置の状況またはコンテキストを含んだ情報を取得することができる。
構成状況推測値取得手段407は、図示しない構成状況推測値算出手段を含む。構成状況推測値算出手段は当該監視対象装置のシステム情報とあるほかの監視対象装置のシステム情報との関係を求め、当該ほかの監視対象装置の現在のシステム情報を用いて、当該監視対象装置のシステム情報を算出する。例えば、監視対象装置431の観測値aと監視対象装置432の観測値bとの間にb=2aの関係が定常的に成り立っているときに、監視対象装置431の値aから推測される監視対象装置432の値2aが、ここで取得される。b=2aの関係は後述の状況格納部410に記憶されている過去の当該監視対象装置のシステム情報および当該ほかの監視対象装置の現在のシステム情報から算出する。例えば、当該監視対象装置と当該ほかの監視対象装置との間に定常的に成り立っている数式モデル(例えばARXモデル(autoregressive model with exogenous input))をもとに算出してもよい。そして、構成状況推測値取得手段407は、算出したシステム情報の予測値をパターン判定部415に渡す。
状況格納部410は、図18に示すように、過去にシステム状況取得手段401が受信したシステム情報に含まれる異常度または状況情報を示す特徴と、時刻と、場所と値と、を対応付けて記憶している。また、例えば時間と場所で識別できるシステム情報を返すことができるように格納してもよい。
パターン学習手段413(特許請求の範囲に記載のパターン学習部に相当する)は、保守運用者から障害事例登録手段411あるいは判定修正入力手段417に対して入力があったタイミングで、あるいは定期的に、事例格納部412に格納された各事例に対応付けられているシステム情報を状況格納部410から読み出す。読み出された各システム情報に含まれる各特徴でパターン学習手段413が用いる特徴空間を構成している。
すなわち、事例を基に読み出されるシステム情報に含まれる異常度または状況情報は、この特徴空間における特徴ベクトルを表している。
図17は、パターン学習手段413内にて格納するデータ構造を示す図である。図17において、1901および1902は異常度に関するものであり、1903〜1909はシステム情報に関するものである。
また、パターン学習手段413は、読み出されたシステム情報を基に障害を検出し分類するための閾値(超平面)を生成し、知識格納部414に格納する。
知識格納部414は、パターン学習手段413によって生成された閾値を格納する。
パターン判定手段415(特許請求の範囲に記載の種別判定手段に相当する)は、システム状況取得手段401からシステム情報を受信する。そしてパターン判定手段415は、知識格納部414に格納された閾値を読み出して、受信したシステム情報が、障害であるか、あるいは正常であるかを示しているかを判定する。さらに障害であると判定された場合はどのような障害であるかを判定し、システム情報の識別情報と判定結果とを判定結果表示手段416に渡す。
判定結果表示手段416(特許請求の範囲に記載の判定結果出力部に相当する)は、前記パターン判定手段415から受け取った判定結果(パターン、事例の種類、特許請求の範囲に記載の種別に相当する)とシステム情報の識別情報(事例)とを保守運用者に対して表示する。
判定修正入力手段417は、前記判定結果表示手段416が保守運用者に対して提示した判定結果(パターン、事例の種類、特許請求の範囲に記載の種別に相当する)が間違いであった場合に、保守運用者が正しいと考える事例の種類(特許請求の範囲に記載の真の種別に相当する)と事例とを事例格納部412に登録する。例えば、時間と場所(事例)に加え、事例の種類(真の種別)などを、事例格納部412に追加する、あるいは事例格納部412に格納されている事例を保守運用者が正しいと考える事例に修正してもよい。
次に、図5、図6及び図7のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、システム状況取得手段401が監視対象システム430からシステム情報(異常度および状況情報を含む情報)を取得し、取得したシステム情報をパターン判定手段415に渡す(図5の501)。
パターン判定手段415が知識格納部414に含まれる閾値(超平面)を用いて、前記システム状況取得手段から受け取ったシステム情報から、監視対象システム430における事例の種類を判定し、判定結果(事例の種類、種別)と当該システム情報の識別情報(事例)とを判定結果表示手段416に渡す(図5の502)。
次に、図5の502においてパターン判定手段415が障害であると判定した場合には、判定結果表示手段416は、パターン判定手段415から受け取った判定されたパターン(種別)とシステム情報の識別情報(事例)とを保守運用者に表示する。(図5の503)。
次に、保守運用者は、障害事例登録手段411、あるいは判定修正手段417に対して、事例および真の種別として障害発生時間または正常である時間、場所、事例の種類を入力する。障害事例登録手段411、あるいは判定修正手段417は入力された事例を事例格納部412に格納する(図6の601)。
次にパターン学習手段413は、パターン学習により障害判定を行うための閾値を生成する(図6の602)。このステップは、別途保守運用者からの指示により実行されても良い。
事例から障害判定を行うための閾値を生成するために、パターン学習手段413は、事例格納部412に含まれる全ての事例について、状況格納部410から当該事例に含まれる時間または場所に対応付けられているシステム情報を取得する(図7の701、702)。パターン学習手段413は、事例格納部412から得られた各事例に対応付けられている各システム情報に含まれる異常度および状況情報から構成される特徴ベクトルを用いて、各システム情報について、各システム情報の事例の種類というパターンに分類するための超平面を学習し(図7の703)超平面を生成する。
パターン学習部413は学習し生成した超平面を知識格納部414に格納し、前記パターン判定手段415は、知識格納部414に格納された超平面を用いてシステム状況取得手段401から受け取った各システム情報についてパターンを分類する(図7の704)。
次に、本実施の形態の効果について説明する。
本実施の形態では、監視対象装置に関する状況情報を含むシステム情報を取得し、これをパターン学習手段における特徴空間に含めるように構成されているため、保守運用者が事例の種類と事例とを登録した場合に、より精度の良い障害検出および分類を自動で行うことができる。その理由は、異常度を示す変数ではない変数も特徴空間に含めることで、特徴空間において、従来は分類できなかった、障害事例と正常事例とを分類する超平面が生成できる、あるいは生成される超平面が持つマージンが大きくなるためである。
また、本実施の形態では、障害の影響が異常度としては表れるものの、他の異なる種類の障害も同じ異常度として表れるようなシステムにおいても、保守運用者が障害事例を登録して異なる障害として検出できる。その理由は、試行回数といった変数も特徴空間に含めることで、異なる障害を分類するような超平面を特徴空間に生成できる、あるいは生成できる超平面のマージンが大きくなるためである。
また、本実施の形態では、ユーザがシステムを利用する回数が変化するようなシステムの障害を分析し、さらに特徴空間には、システムの異常度を示す変数に呼損率や失敗率などが含まれている場合、システムの利用回数が少ない時間帯でも、障害検出の精度を高くできる。その理由は、試行回数を特徴空間に含めることで、試行回数が少なく、かつ失敗率が高い空間と、試行回数が多く、かつ失敗率の低い空間とを分離する超平面を生成することができる点にある。
また、本実施の形態では、単一の監視対象装置の異常度だけでは根本的な障害を発見できず、複数の監視対象装置が影響しあうようなシステムにおいても、保守運用者が障害事例を登録して、障害検出の精度を高くすることができる。その理由は、当該監視対象装置の構成状況から推測される値を特徴空間に含めることで、定常的に監視対象装置間で成り立っていた関係が崩れた上で、当該監視対象装置のみが異常度が上昇していることを示す空間と、その関係を保ちながら、他の監視対象装置も共に異常度が上昇していることを示す空間とを分類するような超平面を、特徴空間に生成できる、あるいは生成できる超平面のマージンが大きくなるためである。
次に、具体的な実施例を用いて本発明を実施するための第1の最良の形態の動作を説明する。
図8に示すように、監視対象システム430には、監視対象装置1001が存在し、他の装置1002との接続において、監視対象装置1001からの接続要求の単位時間あたりの試行回数が、1011に示されるような変化であり、その試行の呼損率が1012に示されるような変化であるとする。
この時系列データは、ある時刻において障害が発生しているものとするが1012に示すように、呼損率には表れていない。試行回数の低下となって表れているが、試行回数の多寡自体は障害とは言えない。
ここで、保守運用者が障害事例登録手段411を用いて、図8の障害期間を障害事例として登録し、それ以外の正常である期間を正常事例として登録したとすると、システム状況取得手段401における試行回数取得手段402が存在しなく、試行回数を特徴空間に含めない場合は、図9に示すように、正常事例1101も、障害事例1102も特徴空間において近傍の領域に分布するため、それらを分離する超平面の生成は困難である、あるいは精度の低い境界面しか生成できない。
それに対して、特徴空間に試行回数1113も含めた場合は、正常事例と障害事例とを分離する超平面1115を生成することができる。
ただし、ここで深夜時間帯など本来正常な時間帯にも、試行回数1113が低くなるため、正常事例1116のような障害事例に紛れ込んでしまうことがある。これはすなわち、深夜時間帯になると障害として検知してしまうことと対応する。
このため別の特徴として、試行回数1117以外に時間帯1118を特徴空間に含めても良い。このようにすることで、深夜時間帯に試行回数が少なくなっている事例と、昼間に試行回数が少なくなっている事例を高精度に分離する超平面を生成することができる。
あるいは、試行回数1119以外に、この試行回数の時間的状況推測値1013(1120)を用いても良い。
これにより、過去の正常な期間の監視対象のデータから推測される現在の試行回数が大きいときに、試行回数が小さいと障害であると判定するようになり、逆に推測される現在の試行回数が小さい時に、試行回数が小さいときには、正常であると判定されるようになる。
次に、具体的な実施例を用いて本発明を実施するための第2の最良の形態の動作を説明する。
図10に示すように、監視対象システム430には、監視対象装置1201が存在し、他の装置1202との接続において、接続要求が失敗した際に再送されるような状態での障害と、再送されないような状態での障害とがあるとする。
前者の障害では試行1211〜1213のように、一定回数の試行を繰り返すため、単位時間あたりの試行回数の時間変化1204は上昇し、単位時間あたりの呼損率1203も上昇する。
これに対して、監視対象装置1231と他の装置1232との接続で、後者の障害では試行1241で失敗すると再試行が行われないため、試行回数の時間変化1234は変わらず、呼損率1233のみが劣化する。
ここで、保守運用者が障害事例登録手段411を用いて、図10の障害期間を障害事例として登録し、それ以外の正常である期間を正常事例として登録したとすると、システム状況取得手段401における試行回数取得手段402が存在しなく、試行回数を特徴空間に含めない場合は、図11に示すように、障害パターン1の事例1311も、障害パターン2の事例1312も特徴空間において近傍の領域に分布するため、それらを分離する超平面の生成は困難である、あるいは精度の低い超平面しか生成できない。
それに対して、特徴空間に試行回数1322も含めた場合は、障害パターン1の事例1311と障害パターン2の事例1312とを分離する超平面1323を生成することができる。
次に、具体的な実施例を用いて本発明を実施するための第3の最良の形態の動作を説明する。
図12に示すように、監視対象システム430には、監視対象装置1401が存在し、他の装置1402との接続において、単位時間あたりの試行回数の時間変化1403に対して、単位時間あたりの呼損率1404があるとする。
ここで、保守運用者が事例登録手段411を用いて、障害事例と、図12の期間を正常事例として登録したとすると、システム状況取得手段における試行回数取得手段402が存在しなく、試行回数を特徴空間に含めない場合は、図13に示すように、正常事例1504も障害と判定するような超平面が生成されてしまうが、特徴空間に試行回数1512も含めた場合は、試行回数が少ないときに呼が落ちて呼損率が高くなるような事例1514と、実際の障害である事例との間に、両者を分離しやすい超平面を生成することができる。
次に、具体的な実施例を用いて本発明を実施するための第4の最良の形態の動作を説明する。
図14に示すように、監視対象システム430には、監視対象装置としてAppサーバ1601が存在し、その異常度としてCPU利用率が監視により取得され、また別の監視対象装置としてWebサーバ1604が存在し、その異常度としてCPU利用率が監視により取得され、前者の時系列データとして1605が得られるとする。
また、WebサーバとAppサーバの間には定常的な数理的な関係が成り立っており、Webサーバ1604から得られた値から推測されるAppサーバの値の時系列データとして1606が得られるとする。
ここで、保守運用者が障害事例登録手段411を用いて、図14の1607の期間を障害事例として登録し、それ以外の期間のデータを正常事例として登録したとすると、システム状況取得手段における試行回数取得手段402が存在しなく、構成状況推測値を特徴空間に含めない場合は、図15に示すように、当該装置の障害事例1704と正常事例1703とを分離するような超平面が生成されない、あるいは分類精度の低い超平面しか生成できないが、特徴空間に構成状況推測値も含めた場合は、関連する装置が正常であるにも関わらず、当該装置のみの異常度のみが高いことを表す空間と、当該装置も、他の関連する装置も共に異常度が高くなっていることを表す空間とを分離しやすい超平面を生成することができる。
本発明によれば、コンピュータシステムやネットワークシステムを運用管理するといった用途に適用できる。
従来の第1の発明を示すブロック図である。 従来の第2の発明を示すブロック図である。 従来の第2の発明で用いられる特徴空間を示す表である。 本発明を実施するための最良の形態の構成を示すブロック図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作を示す流れ図である。 本発明を実施するための最良の形態の動作の具体例を示す監視対象の構成図である。 本発明を実施するための最良の形態の動作の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の具体例を示す監視対象の構成図である。 本発明を実施するための最良の形態の動作の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の具体例を示す監視対象の構成図である。 本発明を実施するための最良の形態の動作の具体例を示す特徴空間である。 本発明を実施するための最良の形態の動作の具体例を示す監視対象の構成図である。 本発明を実施するための最良の形態の動作の具体例を示す特徴空間である。 事例格納部412に格納するデータ構造を示す図である。 パターン学習手段413内にて格納するデータ構造を示す図である。 状況格納部410に格納するデータ構造を示す図である。
符号の説明
100、200、400 コンピュータ
401 システム状況取得手段
402 試行回数取得手段
403 イベント数取得手段
404 時刻取得手段
405 曜日取得手段
406 時間的状況推測値取得手段
407 構成状況推測値取得手段
410 状況格納部
411 障害事例登録手段
412 事例格納部
413 パターン学習手段
414 知識格納部
415 パターン判定手段
416 判定結果表示手段
417 判定修正入力手段
431、432、433、434 監視対象装置

Claims (11)

  1. 監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信するシステム情報受信手段と、
    前記システム情報受信手段が受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する種別判定手段と、
    前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報と、を対応付けて出力する判定結果出力部と、
    前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、
    前記各システム情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、
    前記システム情報受信手段が受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報と、に基づいて前記判定基準を更新するパターン学習手段と、
    を備え、
    前記種別判定手段は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する、情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記監視対象装置の異常度とは関係のない指標値には、前記監視対象装置が前記監視対象装置と接続される他の装置に所定の期間にデータを送信した回数を示す送信回数情報を含める、情報処理装置。
  3. 請求項1に記載の情報処理装置であって、
    前記監視対象装置の異常度とは関係のない指標値には、時刻を示す時刻情報を含める、情報処理装置。
  4. 請求項1に記載の情報処理装置であって、
    前記監視対象装置の異常度とは関係のない指標値には、曜日を示す曜日情報を含める、情報処理装置。
  5. 請求項1に記載の情報処理装置であって、
    前記情報処理装置は、前記システム情報受信部が受信したシステム情報に含まれる指標値に基づいて、前記指標値の現在の予測値を算出する時間的状況推測値算出手段を備え、
    前記監視対象装置の異常度とは関係のない指標値には、前記時間的状況推測値算出手段が算出した前記予測値を含める、情報処理装置。
  6. 請求項1に記載の情報処理装置であって、
    前記情報処理装置は、第1の監視対象装置と第2の監視対象装置とそれぞれ通信可能に接続され、
    前記事例格納部は、前記監視対象装置毎に前記各システム情報の識別情報を前記真の種別と対応付けて記憶し、
    前記第1の監視対象装置の各指標値と前記第2の監視対象装置の各指標値との関係を算出する構成状況推測値算出手段を備え、
    前記構成状況推測値算出手段は、前記第1の監視対象装置の各指標値と前記算出された関係とに基づいて、前記第2の監視対象装置の各指標値の予測値を求め、
    前記種別判定手段は、前記求めた予測値を前記判定基準と比較することで前記第2の監視対象装置の各システム情報を種別毎に分類する、情報処理装置。
  7. 請求項1に記載の情報処理装置であって、
    前記監視対象装置の異常度とは関係のない指標値には、前記監視対象装置において所定の期間に発生したイベントの回数を示すイベント回数情報を含める、情報処理装置。
  8. 請求項1に記載の情報処理装置であって、
    前記真の種別を示す情報は、前記監視対象装置が正常であるか異常であるかを示す情報である、情報処理装置。
  9. 請求項1に記載の情報処理装置であって、
    前記障害事例登録手段は、前記真の種別を示す情報を、オペレータにより操作される端末から受信する、情報処理装置。
  10. 情報処理装置の制御方法であって、
    前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信し、
    前記情報処理装置が、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類し、
    前記情報処理装置が、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報と、を対応付けて出力し、
    前記情報処理装置が、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け、
    前記情報処理装置が、前記各システム情報の識別情報を前記真の種別と対応付けて記憶し、
    前記情報処理装置が、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報と、に基づいて前記判定基準を更新し、
    前記情報処理装置が、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する、情報処理装置の制御方法。
  11. 情報処理装置の制御プログラムであって、
    前記情報処理装置に、
    監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信する処理と、
    受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する処理と、
    前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報と、を対応付けて出力する処理と、
    前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける処理と、
    前記各システム情報の識別情報を前記真の種別と対応付けて記憶する処理と、
    受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報と、に基づいて前記判定基準を更新する処理と、
    前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する処理と、
    を実行させる情報処理装置の制御プログラム。
JP2008058441A 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム Active JP5277667B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008058441A JP5277667B2 (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
PCT/JP2009/053017 WO2009110329A1 (ja) 2008-03-07 2009-02-20 障害分析装置、障害分析方法および記録媒体
US12/735,863 US8448025B2 (en) 2008-03-07 2009-02-20 Fault analysis apparatus, fault analysis method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008058441A JP5277667B2 (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム

Publications (2)

Publication Number Publication Date
JP2009217382A true JP2009217382A (ja) 2009-09-24
JP5277667B2 JP5277667B2 (ja) 2013-08-28

Family

ID=41055890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008058441A Active JP5277667B2 (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム

Country Status (3)

Country Link
US (1) US8448025B2 (ja)
JP (1) JP5277667B2 (ja)
WO (1) WO2009110329A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135932A (zh) * 2011-03-08 2011-07-27 浪潮(北京)电子信息产业有限公司 一种监控系统及监控方法
US9167463B2 (en) * 2011-09-02 2015-10-20 Telcordia Technologies, Inc. Communication node operable to estimate faults in an ad hoc network and method of performing the same
CN102750462B (zh) * 2011-12-13 2015-07-29 北京安天电子设备有限公司 基于环境的日志分析转换方法及装置
JP6160064B2 (ja) * 2012-11-19 2017-07-12 富士通株式会社 適用判定プログラム、障害検出装置および適用判定方法
JP6152788B2 (ja) * 2013-12-02 2017-06-28 富士通株式会社 障害予兆検知方法、情報処理装置およびプログラム
CN105515817A (zh) * 2015-01-21 2016-04-20 上海北塔软件股份有限公司 一种将管理对象进行等级化运维的方法及系统
US9971344B2 (en) * 2015-03-27 2018-05-15 Rockwell Automation Technologies, Inc. Systems and methods for assessing a quality of an industrial enterprise
DE112016006264T5 (de) * 2016-01-20 2018-09-27 Mitsubishi Electric Corporation Anomalie-Detektionseinrichtung und Anomalie-Detektionssystem
WO2019012654A1 (ja) * 2017-07-13 2019-01-17 日本電気株式会社 分析システム、分析方法及び記憶媒体
CN112650200B (zh) * 2020-12-25 2022-08-30 中能融安(北京)科技有限公司 一种厂站设备故障的诊断方法及诊断装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225152A (ja) * 1992-02-13 1993-09-03 Hitachi Ltd プロセスコントローラ
JP2004348740A (ja) * 2003-05-22 2004-12-09 Microsoft Corp 異常検出のための自己学習方法及びシステム
JP2005085157A (ja) * 2003-09-10 2005-03-31 Toshiba Corp 不正アクセス検出装置、不正アクセス検出方法、および管理端末
WO2007052327A1 (ja) * 2005-10-31 2007-05-10 Fujitsu Limited 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253184A (en) * 1991-06-19 1993-10-12 Storage Technology Corporation Failure and performance tracking system
JPH06325016A (ja) 1993-05-10 1994-11-25 Toshiba Corp 異常解析装置
JPH08101258A (ja) 1994-09-29 1996-04-16 Hitachi Ltd テストパターン生成方法及びその装置
US7672756B2 (en) * 1995-06-07 2010-03-02 Automotive Technologies International, Inc. Vehicle communications using the internet
EP0870390B1 (en) 1995-12-26 2001-11-14 Nortel Networks Limited Call traffic based exception generating system
JP3301383B2 (ja) 1998-06-05 2002-07-15 日本電気株式会社 ネットワークシステムの試験方法とネットワーク試験システム
JP3190902B2 (ja) * 1999-02-02 2001-07-23 中部日本電気ソフトウェア株式会社 性能監視装置、性能監視方法および性能監視プログラムを記録した記録媒体
US6600821B1 (en) * 1999-10-26 2003-07-29 Rockwell Electronic Commerce Corp. System and method for automatically detecting problematic calls
MXPA02004194A (es) * 1999-10-28 2002-10-17 Gen Electric Metodo y sistema para administrar remotamente la comunicacion de datos utilizados para pronosticar malos funcionamientos en una pluralidad de maquinas.
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
US7233933B2 (en) 2001-06-28 2007-06-19 Microsoft Corporation Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability
JP2003263342A (ja) * 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
US6892163B1 (en) * 2002-03-08 2005-05-10 Intellectual Assets Llc Surveillance system and method having an adaptive sequential probability fault detection test
JP3995569B2 (ja) 2002-09-20 2007-10-24 昌一 手島 波形パターンデータから設備の診断・監視のための特徴を抽出する方法及びプログラム
US7536370B2 (en) * 2004-06-24 2009-05-19 Sun Microsystems, Inc. Inferential diagnosing engines for grid-based computing systems
JP2006059266A (ja) 2004-08-23 2006-03-02 Fujitsu Ltd 障害解析方法及びその装置
JP4413806B2 (ja) 2005-03-25 2010-02-10 富士通株式会社 障害切り分け方法、障害切り分け機能を有する通信装置及びプログラム
JP2007172131A (ja) 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
KR100738537B1 (ko) 2005-12-27 2007-07-11 삼성전자주식회사 네트워크 침입 탐지 시스템 및 그 탐지 방법
EP1991929A4 (en) * 2006-03-10 2010-03-03 Edsa Micro Corp SYSTEMS AND METHOD FOR REAL-TIME EVALUATION OF A PROTECTION DEVICE IN AN ELECTROENERGY DISTRIBUTION SYSTEM
US20070239629A1 (en) * 2006-04-10 2007-10-11 Bo Ling Cluster Trending Method for Abnormal Events Detection
JP4151985B2 (ja) 2006-07-19 2008-09-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常の生じた情報処理装置を検出する技術
US20080097945A1 (en) * 2006-08-09 2008-04-24 The University Of North Carolina At Chapel Hill Novelty detection systems, methods and computer program products for real-time diagnostics/prognostics in complex physical systems
US7894917B2 (en) * 2006-10-20 2011-02-22 Rockwell Automation Technologies, Inc. Automatic fault tuning
US8135994B2 (en) * 2006-10-30 2012-03-13 The Trustees Of Columbia University In The City Of New York Methods, media, and systems for detecting an anomalous sequence of function calls
WO2008148075A1 (en) * 2007-05-24 2008-12-04 Alexander George Parlos Machine condition assessment through power distribution networks
US20100306574A1 (en) * 2007-11-27 2010-12-02 Takaaki Suzuki Communication method, communication system, node, and program
JP5468837B2 (ja) * 2009-07-30 2014-04-09 株式会社日立製作所 異常検出方法、装置、及びプログラム
US8301333B2 (en) * 2010-03-24 2012-10-30 GM Global Technology Operations LLC Event-driven fault diagnosis framework for automotive systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225152A (ja) * 1992-02-13 1993-09-03 Hitachi Ltd プロセスコントローラ
JP2004348740A (ja) * 2003-05-22 2004-12-09 Microsoft Corp 異常検出のための自己学習方法及びシステム
JP2005085157A (ja) * 2003-09-10 2005-03-31 Toshiba Corp 不正アクセス検出装置、不正アクセス検出方法、および管理端末
WO2007052327A1 (ja) * 2005-10-31 2007-05-10 Fujitsu Limited 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Also Published As

Publication number Publication date
WO2009110329A1 (ja) 2009-09-11
US20100325489A1 (en) 2010-12-23
JP5277667B2 (ja) 2013-08-28
US8448025B2 (en) 2013-05-21

Similar Documents

Publication Publication Date Title
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
JP6847591B2 (ja) 異常検知システム、モデル生成装置、異常検知装置、異常検知方法、モデル生成プログラム、および、異常検知プログラム
US9658916B2 (en) System analysis device, system analysis method and system analysis program
US8352789B2 (en) Operation management apparatus and method thereof
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP6585482B2 (ja) 機器診断装置及びシステム及び方法
US9524223B2 (en) Performance metrics of a computer system
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US9547545B2 (en) Apparatus and program for detecting abnormality of a system
AU2019275633B2 (en) System and method of automated fault correction in a network environment
US11669771B2 (en) Learning system, analysis system, learning method, and storage medium
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JP2018147172A (ja) 異常検知装置、異常検知方法及びプログラム
US20180052726A1 (en) Information processing device, information processing method, and recording medium
US20190265088A1 (en) System analysis method, system analysis apparatus, and program
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN111459692A (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
JP2009217381A (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP6226463B2 (ja) ネットワーク管理システム、ネットワーク装置および制御装置
JP2013011987A (ja) 異常状態検知装置及び異常状態検知方法
CN114297034A (zh) 云平台监控方法及云平台
JP7167714B2 (ja) 異常判定装置、異常判定方法、及び異常判定プログラム
JP2013200899A (ja) 運用管理装置および運用管理方法

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100623

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5277667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150