JP2010049551A - 障害監視装置および障害監視方法 - Google Patents

障害監視装置および障害監視方法 Download PDF

Info

Publication number
JP2010049551A
JP2010049551A JP2008214058A JP2008214058A JP2010049551A JP 2010049551 A JP2010049551 A JP 2010049551A JP 2008214058 A JP2008214058 A JP 2008214058A JP 2008214058 A JP2008214058 A JP 2008214058A JP 2010049551 A JP2010049551 A JP 2010049551A
Authority
JP
Japan
Prior art keywords
occurrence
failure
past
occurrence pattern
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008214058A
Other languages
English (en)
Inventor
Yoshitaka Koshiro
義孝 小城
Hideaki Yamaguchi
英昭 山口
Hiroyuki Oguma
博行 小熊
Masafumi Murata
雅文 村田
Katsuya Ishida
勝也 石田
Kiyotaka Watanabe
清隆 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008214058A priority Critical patent/JP2010049551A/ja
Publication of JP2010049551A publication Critical patent/JP2010049551A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】多数通知される障害内容から障害の発生原因を予測して利用者へ通知すると共に、障害の発生原因と発生パターンの関係を逐次更新する。
【解決手段】障害の検出機能を備えた複数の機器から少なくとも障害の識別情報および障害の発生機器の識別情報を含む障害通知をそれぞれ受信する。次に、受信された障害通知を解析して所定の時間内に発生した障害に係る障害番号を発生機器毎にグループ化し、各グループを発生パターンとして抽出する。次に、過去に生じた障害に係る発生パターンと過去の障害の発生原因との関係を表す登録情報を参照し、抽出された発生パターンと過去発生パターンとの一致度を発生原因毎に計算する。そして、各発生原因に対する一致度を比較して障害通知に係る発生原因を特定する。
【選択図】図1

Description

本発明は、機器の稼働状態を監視し、検出した障害を通知する障害監視装置および障害監視方法に関する。
システム内で障害が発生した際に検出装置から出力される情報(障害通知やログ情報など)を解析することで、障害の発生原因を特定する種々の技術が知られている。例えば、以下の(1)〜(3)の処理により障害の発生原因を通知する障害監視装置および方法がある(例えば、特許文献1参照)。
(1)正常ログと異常ログが混在しているログ情報から異常ログのみを抽出する。
(2)障害の発生原因を特定するために事前に登録されているデータと(1)で抽出した異常ログを比較する。
(3)(2)の比較結果に基づいて障害の発生原因を特定し、利用者に通知する。
上記の処理によって障害の発生原因を特定できるので、ログ情報の全てを確認する必要がなくなり、保守担当者の作業負担を軽減できる。
特開2006−190002号公報
しかしながら、上記の技術においては、障害の発生原因の特定に用いるデータを更新する仕組みを有さないため、実際のシステム運用中に発生した障害の情報を有効に利用することができない。また、複数の機器において障害が同時に発生した場合には、障害によるエラー通知が混在するため、障害監視装置において障害の発生原因を特定することが困難という問題があった。
そこで、本発明は、従来技術の問題に鑑み、多数通知される障害通知から障害の発生原因を予測して利用者へ提示すると共に、障害の発生原因と発生パターンの関係を逐次更新する障害監視装置および障害監視方法を提供することを目的とする。
本発明に係る障害監視装置は、障害の検出機能を備えた複数の機器から少なくとも前記障害の識別情報および前記障害の発生機器の識別情報を含む障害通知をそれぞれ受信する障害通知受信部と、この障害通知受信部において受信された障害通知を解析して所定の時間内に発生した前記障害の識別情報を前記発生機器毎にグループ化し、各グループを発生パターンとして抽出する発生パターン抽出部と、過去の障害に係る前記発生パターンである過去発生パターンと前記過去の障害の発生原因との関係を予め記憶する過去発生パターン記憶部と、前記発生パターン抽出部において抽出された前記発生パターンと前記過去発生パターン記憶部に記憶された前記過去発生パターンとの一致度を前記発生原因毎に計算し、前記一致度に比較結果に基づいて前記障害通知に係る発生原因を予測する発生原因予測部と、を有することを特徴とする。
本発明に係る障害監視方法は、障害の検出機能を備えた複数の機器から少なくとも前記障害の識別情報および前記障害の発生機器の識別情報を含む障害通知をそれぞれ受信する障害通知受信ステップと、この障害通知受信ステップにおいて受信された障害通知を解析して所定の時間内に発生した前記障害の識別情報を前記発生機器毎にグループ化し、各グループを発生パターンとして抽出する発生パターン抽出ステップと、過去の障害に係る前記発生パターンである過去発生パターンと前記過去の障害の発生原因との関係を予め記憶する過去発生パターン記憶ステップと、前記発生パターン抽出ステップにおいて抽出された前記発生パターンと前記過去発生パターン記憶ステップにおいて記憶された前記過去発生パターンとの一致度を前記発生原因毎に計算し、前記一致度に比較結果に基づいて前記障害通知に係る発生原因を予測する発生原因予測ステップと、を有することを特徴とする。
本発明によれば、多数通知される障害通知から障害の発生原因を予測して利用者へ提示すると共に、障害の発生原因と発生パターンの関係を逐次更新する障害監視装置および障害監視方法が提供される。
(実施形態1)
以下、本発明の実施形態について図面を用いて説明する。図1は、本発明の一実施形態に係る障害監視装置の全体構成例を示す図である。同図において、障害監視装置は、監視サーバ1、監視機器2、および監視端末3から構成されている。
監視サーバ1は、障害通知受信部11、障害通知ログ記憶部12、発生パターン抽出部13、過去発生パターン記憶部14、発生原因予測部15、発生原因送受信部16、および過去発生パターン更新部17を備えるコンピュータである。
図2は、本実施形態に係る障害監視装置のネットワーク構成例を示す図である。ここでは、監視サーバ1にLANなどのネットワーク4を介して複数の監視機器A〜Dが接続されている。また、監視機器Eが接点入力によって接続されている。このように、各種の接続方法によって監視サーバ1が複数の監視機器2から障害内容の識別情報である障害番号と発生機器の識別情報などを含んだ障害通知をそれぞれ受信できるように構成されている。
障害通知受信部11は、監視機器2から障害通知を受信する通信装置である。また、障害通知受信部11は、受信した障害通知をログ情報として障害通知ログ記憶部12に保存する。
障害通知ログ記憶部12は、障害通知受信部11において受信した障害通知をログ情報として記憶する記憶装置である。図3は、障害通知ログ記憶部12に記憶された障害通知ログの具体例を示す図である。ここでは、障害の発生日時、発生機器、障害番号、および障害内容を項目としている。
発生パターン抽出部13は、障害通知ログ記憶部12から所定の時間内に発生した障害に係るログ情報を取得し、このログ情報を解析して障害の発生パターンを抽出するプログラムである。図4は、発生パターンの抽出方法を説明する図である。ここでは、図3の障害通知に含まれる障害番号を発生機器毎にグループ化し、監視機器Aについての発生パターン、監視機器Bについての発生パターン、監視機器Cについての発生パターン、監視機器Dについての発生パターンとして抽出することが示されている。例えば、監視機器Aの場合には「障害番号:10,18,11」を発生パターンとしている。
過去発生パターン記憶部14は、過去に発生した障害の各種情報を記憶する記憶装置である。図5は、過去発生パターン記憶部14の記憶内容の具体例を示す図である。ここでは、障害の発生原因、発生回数、発生機器、発生パターン(過去発生パターン)、発生頻度、および障害番号を項目としている。同一の発生原因によって各監視機器2から通知された障害番号のグループである過去発生パターンと各パターンの発生頻度の関係を記録している。また、発生機器毎に過去発生パターンの発生頻度を合計すると発生回数に等しくなっている。尚、障害が発生していない場合には障害通知は送信されないが、障害通知が無かった場合を過去発生パターン「障害番号:無し」として記録している。例えば、原因番号1000の発生原因が生じた場合に、監視機器Bからの障害通知が無い場合は発生パターンB0(障害番号:無し)に該当する。
発生原因予測部15は、発生パターン抽出部13において抽出された発生パターンと過去発生パターン記憶部14に記憶された過去発生パターンを所定の規則に基づいて比較し、障害の発生原因を予測するプログラムである。
発生原因送受信部16は、発生原因予測部15において予測された障害の発生原因を含む障害情報を監視端末3に送信すると共に、監視端末3から障害情報に対する入力情報を受信する通信装置である。
過去発生パターン更新部17は、発生原因送受信部16において受信された監視端末3における入力情報に基づいて障害の発生原因を特定すると共に、特定された発生原因と発生パターンの関係に基づいて過去発生パターン記憶部14の記憶内容(発生回数、過去発生パターン、発生頻度、障害番号など)を更新するプログラムである。
また、過去発生パターン更新部17は、発生原因と発生パターンの関係に基づいて過去発生パターン記憶部14の記憶内容を参照し、抽出した発生パターンが障害通知に係る監視機器2の過去発生パターンとして存在しない場合には、そのパターンを過去発生パターンとして新規登録する。例えば、監視機器Aから障害番号35、36、37の障害通知を受信した場合には、これに該当する過去発生パターンは未登録なので、「障害番号:35,36,37」を過去発生パターンA3として新規登録する。
監視機器2は、自機器若しくは接続機器において発生した障害を検出して監視サーバ1に通知するコンピュータであり、監視サーバ1にネットワーク4などを介して接続されている。
監視端末3は、入力部31、表示部32、およびデータ送受信部33を備えるコンピュータであり、監視サーバ1にネットワーク4を介して接続されている。
入力部31は、利用者がキーボードやマウスなど入力装置(図示省略する)を用いて入力した情報を取得するプログラムである。表示部32は、データ送受信部33において受信した障害情報を取得して表示装置(図示省略する)に出力し、画面表示を行うプログラムである。利用者は、表示装置(図示省略する)に画面表示された発生原因などの障害情報を参照して障害の復旧作業等を行った後に、作業結果に応じて入力機器(図示省略する)から障害に関する詳細な情報を入力する。例えば、監視サーバ1側で予測された障害の発生原因が実際の発生原因と一致する場合には、その旨が入力される。これに対し、実際の発生原因と異なる場合には、実際の発生原因が訂正入力される。
データ送受信部33は、監視サーバ1から障害情報を受信すると共に、この障害情報に対する入力情報を入力部31から取得して監視サーバ1へ送信する通信装置およびプログラムである。
以下、障害監視装置における動作を図面に基づいて説明する。図6は、本実施形態に係る障害監視装置の処理の具体例を示すフローチャートである。
S601において、障害通知受信部11は、監視機器2において検出された障害についての障害通知を受信し、この障害通知をログ情報として障害通知ログ記憶部12に保存する。
S602において、発生パターン抽出部13は、障害通知ログ記憶部12から一定時間内に発生した障害に係るログ情報を取得し、所定の規則に基づいて障害の発生パターンを抽出する。
S603において、発生原因予測部15は、発生パターン抽出部13において抽出された発生パターンと過去発生パターン記憶部14に記憶された過去発生パターンとの一致度を発生原因毎に計算し、一致度の比較結果に基づいて障害の発生原因を予測する。
S604において、発生原因送受信部16は、発生原因予測部15において予測された障害の発生原因を監視端末3に通知する。
S605において、利用者は、監視端末3に表示された発生原因が適切か否かを判断して入力動作を行い、発生原因が特定される。具体的には、通知した発生原因が正しい場合にはその旨が入力され、間違っていた場合には正しい発生原因が訂正入力される。そして、この入力情報が発生原因送受信部16へ送信される。
S606において、過去発生パターン更新部17は、特定された発生原因と抽出された発生パターンの関係に基づいて過去発生パターン記憶部14の過去発生パターンを更新し、処理を終了する。
以下、図6の各処理について詳細に説明する。図7は、発生パターン抽出部13における処理の具体例を示すフローチャートであり、図6のS602の処理に該当する。
S701においては、障害通知ログ記憶部12から一定時間内に発生した障害に係るログ情報を取得する。
S702においては、障害通知ログを解析し、障害番号を監視機器毎にグループ化して発生パターンを抽出する。例えば、監視機器Aから障害番号10,18,11の3つの障害通知がある場合には、監視機器Aについての発生パターンは「障害番号:10,18,11」とする。
S703においては、抽出した発生パターンを発生原因予測部15へ出力し、処理を終了する。
図8は、発生原因予測部15における処理の具体例を示すフローチャートであり、図6のS603の処理に該当する。
S801においては、過去発生パターン記憶部14を参照し、発生原因が登録されているか否かを判定する。ここで、発生原因が登録済みと判定された場合には、S802へ進む。これに対し、発生原因が未登録と判定された場合には、発生原因を予測せずに処理を終了する。
S802においては、抽出された発生パターンと過去発生パターンを監視機器毎に比較する。例えば、監視機器Aに係る発生パターン(障害番号:10、18、11)を原因番号1000の過去発生パターンと比較すると、過去発生パターンA2に一致することが分かる。
S803においては、監視機器毎に過去発生パターンに対する重みを計算する。上記図5の場合には、原因番号1000の発生回数は30であり、監視機器Aに係る過去発生パターンA2の発生頻度は25となっているが、この発生回数と発生頻度を1ずつ増加する。そして、増加した発生頻度を発生回数で割ることで、監視機器Aの重みを計算する。一方、一致する過去発生パターンが無い場合は、発生頻度を1として重みを計算する。この重みの計算処理は、全ての監視機器2について同様に行われる。図9および図10は、重みの計算例を示す図である。図9は原因番号1000、図10は原因番号1100を発生原因とする場合の重みを監視機器毎に計算した結果を示している。
S804においては、全ての監視機器2の過去発生パターンとの比較が完了したか否かを判定する。ここで、比較処理が完了したと判定された場合には、S805へ進む。これに対し、比較処理が完了していないと判定された場合には、S802へ戻り、全ての監視機器2の過去発生パターンとの比較が完了するまでS802〜S804の処理を繰り返す。
S805においては、発生原因との一致度を所定の規則に基づいて計算する。ここでは、監視機器A〜Eについて求められた重みを掛け合わせることにより一致度を計算するが、計算方法はこれに限られない。
S806においては、全ての発生原因について一致度の計算が完了したか否かを判定する。ここで、計算処理が完了したと判定された場合には、S807へ進む。これに対し、計算処理が完了していないと判定された場合には、S802へ戻り、全ての発生原因について一致度の計算が完了するまでS802〜S806の処理を繰り返す。
S807においては、計算された各発生原因との一致度を比較して発生原因を予測し、処理を終了する。図11は、一致度の計算例を示す図である。ここでは、原因番号1000との一致度が最も大きいので、これを障害の発生原因と予測する。
図12は、過去発生パターン更新部17における処理の具体例を示すフローチャートであり、図6のS606の処理に該当する。
S1201においては、発生原因送受信部16において受信した監視端末3側での入力情報を取得し、発生原因予測部15において予測した発生原因が実際の発生原因と一致した否かを判定する。ここで、実際の発生原因と一致したと判定された場合には、S1202へ進む。これに対して、実際の発生原因と異なったと判定された場合には、S1203へ進む。
S1202においては、発生原因予測部15において予測した発生原因を実際の発生原因として特定し、発生パターン抽出部13において抽出された発生パターンと関係付ける。
S1203においては、監視端末3側で入力された発生原因を実際の発生原因として特定し、発生パターン抽出部13において抽出された発生パターンと関係付ける。
S1204においては、過去発生パターン記憶部14を参照し、発生パターンに関係付けされた発生原因が新規の発生原因か否かを判定する。ここで、新規の発生原因であると判定された場合には、S1205へ進む。これに対して、登録済みの発生原因と判定された場合には、S1206へ進む。
S1205においては、過去発生パターン記憶部14に発生原因および原因番号を新規登録する。また、発生原因が登録される際には、発生回数、発生機器、過去発生パターン、および発生頻度の記録領域が設けられ、各項目に初期値が設定されるものとする。
S1206においては、発生原因に対する発生回数を加算する。S1207においては、発生原因に関係付けられた監視機器毎の発生パターンを過去発生パターンと比較する。
S1208においては、発生原因に関係付けられた発生パターンが新規の発生パターンか否かを判定する。ここで、新規の発生パターンと判定された場合には、S1209へ進む。これに対し、登録済みの発生パターンと判定された場合には、S1210へ進む。
S1209においては、該当する監視機器2の過去発生パターンとして発生パターンを新規登録する。
S1210においては、監視機器2毎に過去発生パターンに対する発生頻度を1加算し、更新する。
図13は、更新処理後の過去発生パターンの具体例を示す図である。ここでは、図4の発生パターンに対する発生原因が1000であり、更新前の過去発生パターンが図5の場合における過去発生パターンの更新結果が示されている。具体的には、発生回数と発生パターンA2、B1、C1、およびE0の発生頻度が1ずつ加算され、発生パターンD3が新規登録されている。
S1211においては、全ての監視機器2に係る過去発生パターンの更新が完了したか否かを判定する。ここで、全ての監視機器2について更新が完了したと判定された場合には、処理を終了する。これに対し、更新が完了していないと判定された場合には、S1207へ戻り、全ての監視機器2についての処理が完了するまでS1207〜S1211の処理を繰り返す。
このように、過去発生パターンとその発生頻度を記録し、抽出した発生パターンと比較を行うことにより、複数の障害が発生しても発生原因を容易に特定でき、障害復旧までの時間を短縮できるという効果がある。
また、過去発生パターンの登録・更新を繰り返すことにより、発生原因の予測精度を向上させることができる。
更に、複数の監視機器2において障害が発生した場合でも、発生原因毎に一致度を計算して比較することで、最も近い発生原因を利用者に提示することができる。
(実施形態2)
図14は、実施形態2に係る障害監視装置の全体構成例を示す図である。尚、図1と共通する符号は同一の対象を表すので説明を省略し、実施形態1と相違する箇所について詳細に説明する。
本実施形態では、監視サーバ1が過去発生パターン編集部18を更に備える点が実施形態1と相違する。過去発生パターン編集部18は、利用者がキーボードやマウスなどの入力装置(図示省略する)を用いて外部から入力した情報に基づいて過去発生パターン記憶部14の記憶内容を編集し、更新するプログラムである。具体的には、既に登録されている過去発生パターンに対する発生確率の設定、想定される発生パターンの新規登録などを行う。
図15は、過去発生パターン記憶部14の記憶内容の具体例を示す図である。ここでは、ある発生原因に対して特定の監視機器2で発生することが予め分かっている発生パターンの発生確率の欄が設けられており、編集処理によって監視機器CおよびDについて発生確率が設定されている。尚、発生確率は、同一の発生原因に係る同一の発生機器内で足したときに「1(100%)」を超えないものとする。例えば、原因番号1200については、監視機器Cの発生パターン「C0」「C1」の発生確率を合計すると1である。
図16は、過去発生パターン更新部17における処理の具体例を示すフローチャートであり、図8のS803の処理に該当する。
S1601においては、過去発生パターン記憶部14の記憶内容を参照し、発生原因に係る発生機器の過去発生パターンに発生確率が設定済みか否かを判定する。ここで、発生確率が設定済みと判定された場合には、S1602へ進む。これに対し、発生確率が未設定と判定された場合には、S1605へ進む。
S1602においては、抽出した発生パターンに対して発生確率が設定済みか否かを判定する。ここで、抽出した発生パターンに対して発生確率が設定済みと判定された場合には、S1603へ進む。これに対して、発生確率が未設定と判定された場合には、S1604へ進む。
S1603においては、設定された発生確率を重みに設定し処理を終了する。S1604においては、発生回数や発生頻度を使用せず、予め設定されている発生確率を使用して重みを計算し、処理を終了する。
S1605においては、発生回数と発生頻度に基づいて重みを計算し、処理を終了する。
以下、図4の抽出パターンに対する発生原因が原因番号1200である場合を例として、発生確率の設定の有無による一致度の変化を図面に基づいて説明する。尚、図4において抽出された発生パターンは、監視機器Aについては「障害番号:10,18,11」、監視機器Bについては「障害番号:25,22」、監視機器Cについては「障害番号:38」、監視機器Dについては「障害番号:48,43」である。
(1)発生確率を使用しない場合
図17は、発生確率を使用しない場合の重みの計算例を示す図である。重みの計算方法は実施形態1と共通であるので説明を省略する。
(2)発生確率を使用した場合
図18は、発生確率を使用した場合の重みの計算例を示す図である。ここでは、図15に示される過去発生パターンを参照し、発生確率の有無に応じて重みを設定する。例えば、監視機器Dの発生パターンD0には発生確率「0.7」が設定されているため、この発生確率を重みに設定する。また、監視機器Cの場合は、発生パターンC0に「0.1」、C1に「0.9」の発生確率が設定されているが、抽出した発生パターン「障害番号:38」が登録されていない。したがって、以下の計算式のように、発生パターンC0およびC1に設定されている発生確率を足した値を1から引くことで新規の発生パターンに対する発生確率を計算し、これを重みとする。
計算式:(重み)=1−(設定済みの発生確率の総和)
=1−(0.1+0.9)=0
また、監視機器A、Eについては、発生パターンが過去発生パターンに登録されていない。監視機器Bについては、過去発生パターンと一致するが、発生確率は予め設定されていない。したがって、監視機器A、B、Eについては、発生頻度と発生回数に基づいて重みを計算する。
そして、実施形態1の場合と同様に、各監視機器の重みを掛け合わせ、発生原因(原因番号:1200)についての一致度を計算する。図19は、発生確率の使用有無と一致度の関係を示す図である。ここでは、発生確率を使用しない場合の一致度が0.25であり、使用した場合には0となっている。これは、原因番号1200の発生原因について監視機器Cで発生パターン「C0」「C1」の少なくとも一つが発生することが分かっている場合に、その発生確率を予め設定しておくことで、重みと一致度を調節できることを示している。すなわち、想定される発生パターンが実際に発生した場合には一致度を高く、想定外の発生パターンでは一致度を低くすることができる。
本実施形態によれば、予め発生することが分かっている発生パターンの重みを利用者が変更することによって、運用開始時点でも発生原因の予測が可能となる。また、実際に障害が発生しなくても過去発生パターンを更新できるため、発生頻度の学習に要する時間を短縮することができる。すなわち、発生回数が少なく学習が進んでいない場合に、誤った発生原因を通知することを防止できる。
尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
具体的には、上記実施形態においては、過去発生パターン編集部18を監視サーバ1内に設けているが、監視端末3内に設けても良い。同様に、監視端末3の入力機能や表示機能を監視サーバ1内に実装しても良い。既存のシステムの構成などに応じて任意に設計変更可能である。
また、発生原因や発生日時などの障害情報を利用者へ通知する方法は、監視端末3における画面表示に限らない。例えば、携帯端末への電子メールや印刷物の出力によって利用者に提示しても良い。
更に、利用者に提示する発生原因は一つに限られない。例えば、発生原因を一致度の順に並べ、一覧形式で利用者に提示するとしても良い。
本発明の実施形態1に係る障害監視装置の全体構成例を示すブロック図。 本発明の実施形態1に係る障害監視装置のネットワーク構成例を示す図。 障害通知ログ記憶部12に記憶された障害通知ログの具体例を示す図。 発生パターンの抽出方法を説明する図。 過去発生パターン記憶部14の記憶内容の具体例を示す図。 本発明の実施形態1に係る障害監視装置の処理の具体例を示すフローチャート。 発生パターン抽出部13における処理の具体例を示すフローチャート。 発生原因予測部15における処理の具体例を示すフローチャート。 重みの計算例を示す図。 重みの計算例を示す図。 一致度の計算例を示す図。 過去発生パターン更新部17における処理の具体例を示すフローチャート。 更新処理後の過去発生パターンの具体例を示す図。 本発明の実施形態2に係る障害監視装置の全体構成例を示すブロック図。 過去発生パターン記憶部14の記憶内容の具体例を示す図。 過去発生パターン更新部17における処理の具体例を示すフローチャート。 発生確率を使用しない場合の重みの計算例を示す図。 発生確率を使用した場合の重みの計算例を示す図。 発生確率の使用有無と一致度の関係を示す図。
符号の説明
1…監視サーバ、
2…監視機器、
3…監視端末、
4…ネットワーク、
11…障害通知受信部、
12…障害通知ログ記憶部、
13…発生パターン抽出部、
14…過去発生パターン記憶部、
15…発生原因予測部、
16…発生原因送受信部、
17…過去発生パターン更新部、
18…過去発生パターン編集部、
31…入力部、
32…表示部、
33…データ送受信部。

Claims (5)

  1. 障害の検出機能を備えた複数の機器から少なくとも前記障害の識別情報および前記障害の発生機器の識別情報を含む障害通知をそれぞれ受信する障害通知受信部と、
    この障害通知受信部において受信された障害通知を解析して所定の時間内に発生した前記障害の識別情報を前記発生機器毎にグループ化し、各グループを発生パターンとして抽出する発生パターン抽出部と、
    過去の障害に係る前記発生パターンである過去発生パターンと前記過去の障害の発生原因との関係を予め記憶する過去発生パターン記憶部と、
    前記発生パターン抽出部において抽出された前記発生パターンと前記過去発生パターン記憶部に記憶された前記過去発生パターンとの一致度を前記発生原因毎に計算し、前記一致度に比較結果に基づいて前記障害通知に係る発生原因を予測する発生原因予測部と、
    を有することを特徴とする障害監視装置。
  2. 前記抽出された発生パターンに基づいて前記過去発生パターンの登録若しくは前記過去発生パターンの発生頻度の更新を逐次行う過去発生パターン更新部を更に有することを特徴とする請求項1記載の障害監視装置。
  3. 前記過去発生パターン記憶部に記憶された前記過去発生パターンを外部からの入力情報に基づいて編集する過去発生パターン編集部を更に有することを特徴とする請求項1または請求項2記載の障害監視装置。
  4. 障害の検出機能を備えた複数の機器から少なくとも前記障害の識別情報および前記障害の発生機器の識別情報を含む障害通知をそれぞれ受信する障害通知受信ステップと、
    この障害通知受信ステップにおいて受信された障害通知を解析して所定の時間内に発生した前記障害の識別情報を前記発生機器毎にグループ化し、各グループを発生パターンとして抽出する発生パターン抽出ステップと、
    過去の障害に係る前記発生パターンである過去発生パターンと前記過去の障害の発生原因との関係を予め記憶する過去発生パターン記憶ステップと、
    前記発生パターン抽出ステップにおいて抽出された前記発生パターンと前記過去発生パターン記憶ステップにおいて記憶された前記過去発生パターンとの一致度を前記発生原因毎に計算し、前記一致度に比較結果に基づいて前記障害通知に係る発生原因を予測する発生原因予測ステップと、
    を有することを特徴とする障害監視方法。
  5. 前記抽出された発生パターンに基づいて前記過去発生パターンの登録若しくは前記過去発生パターンの発生頻度の更新を逐次行う過去発生パターン更新ステップを更に有することを特徴とする請求項4記載の障害監視方法。
JP2008214058A 2008-08-22 2008-08-22 障害監視装置および障害監視方法 Pending JP2010049551A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008214058A JP2010049551A (ja) 2008-08-22 2008-08-22 障害監視装置および障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008214058A JP2010049551A (ja) 2008-08-22 2008-08-22 障害監視装置および障害監視方法

Publications (1)

Publication Number Publication Date
JP2010049551A true JP2010049551A (ja) 2010-03-04

Family

ID=42066575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008214058A Pending JP2010049551A (ja) 2008-08-22 2008-08-22 障害監視装置および障害監視方法

Country Status (1)

Country Link
JP (1) JP2010049551A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209879A (ja) * 2010-03-29 2011-10-20 Toshiba Corp 評価装置および評価プログラム
US8510794B1 (en) * 2012-07-15 2013-08-13 Identropy, Inc. Methods and apparatus for a unified identity management interface across internal and shared computing applications
US8751874B2 (en) 2010-12-10 2014-06-10 Fujitsu Limited Managing apparatus, managing method
JP2015005077A (ja) * 2013-06-20 2015-01-08 株式会社日立製作所 障害情報管理方法、障害情報管理装置及びプログラム
JP2017509262A (ja) * 2014-03-24 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー ネットワーク障害のトラブルシューティング・オプションの識別
WO2019026171A1 (ja) * 2017-08-01 2019-02-07 株式会社日立製作所 ストレージシステムの管理システム
WO2019221461A1 (ko) * 2018-05-18 2019-11-21 주식회사 케이티 네트워크 장애 원인 분석 장치 및 방법
JP2020170397A (ja) * 2019-04-04 2020-10-15 富士電機株式会社 情報処理装置、情報処理方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149577A (ja) * 1992-11-13 1994-05-27 Nec Corp 障害診断方法および装置
JP2000187585A (ja) * 1998-12-22 2000-07-04 Mitsubishi Electric Corp 遠隔障害情報管理装置並びにその方法
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
JP2007148728A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd ポリシ制御方法、装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149577A (ja) * 1992-11-13 1994-05-27 Nec Corp 障害診断方法および装置
JP2000187585A (ja) * 1998-12-22 2000-07-04 Mitsubishi Electric Corp 遠隔障害情報管理装置並びにその方法
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
JP2007148728A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd ポリシ制御方法、装置及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209879A (ja) * 2010-03-29 2011-10-20 Toshiba Corp 評価装置および評価プログラム
US8751874B2 (en) 2010-12-10 2014-06-10 Fujitsu Limited Managing apparatus, managing method
US8510794B1 (en) * 2012-07-15 2013-08-13 Identropy, Inc. Methods and apparatus for a unified identity management interface across internal and shared computing applications
JP2015005077A (ja) * 2013-06-20 2015-01-08 株式会社日立製作所 障害情報管理方法、障害情報管理装置及びプログラム
JP2017509262A (ja) * 2014-03-24 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー ネットワーク障害のトラブルシューティング・オプションの識別
WO2019026171A1 (ja) * 2017-08-01 2019-02-07 株式会社日立製作所 ストレージシステムの管理システム
WO2019221461A1 (ko) * 2018-05-18 2019-11-21 주식회사 케이티 네트워크 장애 원인 분석 장치 및 방법
JP2020170397A (ja) * 2019-04-04 2020-10-15 富士電機株式会社 情報処理装置、情報処理方法、プログラム
JP7259497B2 (ja) 2019-04-04 2023-04-18 富士電機株式会社 情報処理装置、情報処理方法、プログラム

Similar Documents

Publication Publication Date Title
JP2010049551A (ja) 障害監視装置および障害監視方法
US20220006685A1 (en) Network log time alignment method, apparatus, and host
US8612372B2 (en) Detection rule-generating facility
KR101547721B1 (ko) 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
US20180075235A1 (en) Abnormality Detection System and Abnormality Detection Method
US20200365262A1 (en) Self-correcting method for annotation of data pool using feedback mechanism
JP5530897B2 (ja) 機器障害分析装置、機器障害分析方法、および機器障害分析プログラム
JP2016024786A (ja) ログ解析装置
CN104718533A (zh) 企业设备的强健硬件故障管理系统、方法及架构
US10437695B2 (en) Fault information providing server and fault information providing method for users of in-vehicle terminals
JP2011170802A (ja) 障害パターン生成プログラムおよび障害パターン生成装置
WO2012160637A1 (ja) メッセージ判定装置およびメッセージ判定プログラム
US10360090B2 (en) Determination method, determination apparatus, and recording medium
JP2005269238A (ja) ネットワーク障害推定方法及びネットワーク障害推定装置
CN111210029A (zh) 辅助分析业务的装置、方法及相关设备
US20140149524A1 (en) Information processing apparatus and information processing method
JP6512646B1 (ja) 保守管理装置、システム及びプログラム
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
US12001271B2 (en) Network monitoring apparatus, method, and program
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof
JP2016071696A (ja) 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
JP2008015596A (ja) 管理サーバ及び修復プログラム送信方法
US20220342788A1 (en) Anomaly location estimating apparatus, method, and program
WO2021123924A1 (en) Log analyzer for fault detection
JP2009182934A (ja) 障害監視装置及び障害監視方法並びにそのためのプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111206