JP5503177B2 - 障害情報収集装置 - Google Patents

障害情報収集装置 Download PDF

Info

Publication number
JP5503177B2
JP5503177B2 JP2009089439A JP2009089439A JP5503177B2 JP 5503177 B2 JP5503177 B2 JP 5503177B2 JP 2009089439 A JP2009089439 A JP 2009089439A JP 2009089439 A JP2009089439 A JP 2009089439A JP 5503177 B2 JP5503177 B2 JP 5503177B2
Authority
JP
Japan
Prior art keywords
information
failure
analysis
unit
information collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009089439A
Other languages
English (en)
Other versions
JP2010244137A (ja
Inventor
智之 望月
実 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2009089439A priority Critical patent/JP5503177B2/ja
Publication of JP2010244137A publication Critical patent/JP2010244137A/ja
Application granted granted Critical
Publication of JP5503177B2 publication Critical patent/JP5503177B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、サーバ装置やストレージ装置等の装置からなる情報システムを対象として、ハードウェアやソフトウェアの障害が発生したときに、その障害の原因分析をするための分析用情報を収集する障害情報収集装置に関する。
従来、情報システムを最適な状態に維持するために、その運用・保守が行われてきた。運用・保守では、監視対象となるサーバ装置やストレージ装置等の装置が正常に動作しているかを監視し、障害を検知した場合にはその原因を分析・特定し、対策処理を実行する。
監視では、監視対象装置に対して、インターネットやイントラネットなどのネットワークを診断するプログラムであるping(Packet InterNet Groper)等のアクセスを行って応答を確認するものと、監視対象装置にエージェントプログラムをインストールし、そのエージェントプログラムから情報を取得するものがある。応答を確認する場合、適切な時間内に応答が返ってきているか、応答内容が適切であるかを判断する。エージェントプログラムを利用する場合には、エージェントプログラムが監視対象装置の状態をチェックして問題を検出したときに外部に通知する場合と、外部からエージェントプログラムに対して問い合わせをしたときに応答として監視対象装置の状態情報を返す場合がある。
監視により監視対象装置で障害が発生していることを検知した場合には、障害復旧のための対策処理を実行するために、障害の発生した原因を分析する。障害原因分析では、まず障害が発生した監視対象装置に直接アクセス、または、エージェントプログラムを介して障害原因分析のための分析用情報を取得する。特許文献1では、障害発生を検出したときに、事前に登録したルールに従い個別収集部を起動して、障害原因分析のための情報を収集する。
特開平7−219817号公報
しかし、障害発生を検出したときに、障害原因分析をするための分析用情報を収集しようとしても、システムがビジーであったり停止したりして収集できない場合や、障害により分析用情報が欠落する場合があり、十分な分析用情報を収集できず障害原因分析を実行できない場合がある。
そこで、本発明の障害情報収集装置は、情報システムを構成する監視対象装置の障害発生時に障害原因分析のための分析用情報を収集・蓄積する障害情報収集装置であって、障害情報収集部、障害情報記憶部、障害時分析用情報収集部、退避分析用情報記憶部、分析用情報収集設定情報を記憶した分析用情報収集設定情報記憶部、定期分析用情報収集部、一時蓄積分析用情報記憶部、を有し、前記障害情報収集部は、前記監視対象装置を監視し、障害が発生したとき、当該障害情報を検出し、障害情報記憶部に登録し、かつ当該障害情報記憶部を参照して、障害の発生した監視対象装置の障害情報をパラメータとして、障害時分析用情報収集部を起動し、前記障害時分析用情報収集部は、前記障害情報収集部による障害検出時に、前記分析用情報収集設定情報記憶部を参照して、当該記憶部の分析用情報収集設定情報を元に、前記一時蓄積分析用情報記憶部に一時蓄積した分析用情報の中から、検出した障害の原因分析に必要となる分析用情報を取得し、前記退避分析用情報記憶部に退避保存し、定期分析用情報収集部は、前記分析用情報収集設定情報記憶部を参照して、当該記憶部の分析用情報収集設定情報を元に、定期的に前記監視対象装置から分析用情報を収集し、当該収集した情報を前記一時蓄積分析用情報記憶部に一時蓄積し、前記障害時分析用情報収集部により障害情報を検出したとき、検出した障害情報とその障害原因分析するための分析用情報、又は当該障害情報のみを、前記障害情報収集装置の管理者側に通報し得るように構成し、前記監視対象装置がビジーや停止している場合にも、障害要因分析を分析するに足りる分析用情報を収集することが可能としたことを特徴とする。
本発明の障害情報収集装置は、検出した障害情報と退避した分析用情報を管理者に通知する障害情報通報部を備えたことを特徴とする。
また、検出した障害情報を管理者に通知する障害情報通報部と、障害情報と退避した分析用情報を参照する障害情報表示部と、を備え、前記障害時分析用情報収集部は、障害情報を検出したとき、前記障害情報通報部を起動し、検出した障害情報とその障害原因分析するための分析用情報、又は当該障害情報のみを、前記障害情報通報部を介して前記障害情報収集装置の管理者側に通報することを特徴とする。
また、前記一時蓄積分析用情報記憶部に定期的に収集することにより一時蓄積した分析用情報が設定された容量を超えた場合に、優先度の低い分析用情報から削除する分析用情報削除部を備えたことを特徴とする。
本発明によれば、障害発生に至るまでの分析用情報を利用することにより、障害原因分析が可能となる範囲を拡大することができる。これにより、障害復旧の迅速化や障害の再発防止につながり、システムの稼働率を向上させることができる。
図1は、障害情報収集装置を利用するときのシステム構成を示す図である。 図2は、情報種別を格納する情報種別DB1111を示す。 図3は、監視設定情報を格納する監視設定情報DB1112を示す。 図4は、分析用情報収集設定情報を格納する分析用情報収集設定情報DB1113を示す。 図5は、障害情報を格納する障害情報DB1114を示す。 図6は、分析用情報DB(退避)1115・分析用情報DB(一時蓄積)1116の(a)構成情報を示す。 図7は、分析用情報DB(退避)1115・分析用情報DB(一時蓄積)1116の(b)稼働情報(CPU使用率)を示す。 図8は、分析用情報DB(退避)1115・分析用情報DB(一時蓄積)1116の(c)ログ情報を示す。 図9は、分析用情報DB(退避)1115・分析用情報DB(一時蓄積)1116の(d)設定ファイルを示す。 図10は、障害情報収集部1121の動作のフローチャートである。 図11は、分析用情報収集部(障害時)1122の動作のフローチャートである。 図12は、分析用情報収集部(定期)1123の動作のフローチャートである。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の障害情報収集装置を利用するときのシステム構成を示したものである。障害情報収集装置1は、サーバ装置やストレージ装置などの装置からなる情報システムである監視対象システム2の稼働状況を監視し、障害発生の検出と、障害原因分析のための情報を収集するものである。
障害情報収集装置1は、データやプログラムを格納するハードディスクなどからなる記憶部11と、演算処理をするCPU(中央処理装置)12、プログラムや演算処理に関係する一時的な情報を記憶するメモリ13、キーボードやマウスなどの入力部14、ディスプレイなどの出力部15、Ethernet(登録商標)などの通信部16からなる。記憶部11は、データとして、情報種別を格納する情報種別DB(データベース)1111、監視設定情報を格納する監視設定情報DB1112、分析用情報収集設定情報を格納する分析用情報収集設定情報DB1113、障害情報を格納する障害情報DB1114、分析用情報を格納する分析用情報DB(退避)1115、および、分析用情報DB(一時蓄積)1116を備えている。また、記憶部11では、障害情報収集部1121、分析用情報収集部(障害時)1122、分析用情報収集部(定期)1123、障害情報通報部1124、障害情報表示部1125を構成するプログラムを格納する。障害情報収集装置1は、プログラムを記憶部11からメモリ13にロードし、CPU12で演算することで、各種プログラムを実行する。
監視対象システム2は、サーバ装置やストレージ装置等の監視対象装置21、22からなる。ここでは、監視対象装置21はWebサーバが動作するサーバ装置、監視対象装置22はDBサーバが動作するサーバ装置で、WebサーバとDBサーバが連携して動作する。障害情報収集装置1が監視対象装置21、22を監視するときには、それぞれの監視対象装置にエージェントプログラム211、221をインストールする。エージェントプログラムは監視対象装置上で動作し、監視対象装置が正常に稼動しているかをチェックして障害を検出した場合に、障害情報収集装置1に障害情報を通知する。また、障害情報収集装置1からの要求に応じて情報を返す。さらに、定期的または情報が生成されるタイミングで、障害情報収集装置1に障害原因分析のための情報を通知する。障害情報収集装置1は、エージェントプログラム211、221を介することで、監視対象装置21、22の情報を取得する。
図2は、障害情報収集装置1で監視対象システム2から収集する情報種別について纏めた情報種別DB1111である。ここでいう「情報」は、監視対象システム2が正常に稼動しているかを監視するために収集する収集情報と、障害検出時に原因分析を行うために収集する障害原因の分析用情報がある。情報種別DB1111は、収集する情報の種別を識別する情報コード111、監視対象装置を識別する装置コード112、収集する情報の内容を示す収集情報113、情報を取得するために方法を示す取得方法114を含む。障害情報収集装置1は、取得方法114で指定したコマンドを実行することで、監視対象装置21,22やエージェントプログラム211,221と通信して情報を取得する。
また、情報種別DB1111は、障害原因を分析するために収集する障害原因の分析用情報115に関して、定期的に収集する収集間隔116と、その情報を保持するときの最大容量116、保持するときの優先度118の情報を含む。収集間隔116は、障害原因分析に必要な情報が確実に収集でき、かつ、監視対象システム2の稼働状況に問題を与えない範囲で設定する。また、最大容量116は、障害原因分析で必要となる情報量となるように設定する。後述の分析用情報収集部(定期)1123で説明するが、障害原因の分析用情報115が最大容量116を超えたら、情報の種別ごとに決められた優先度118に従い、優先度の低いものから削除する。優先度には、時間やログレベルなどがある。
時間では直近のものほど優先度118が高い。ログレベルでは、CRITICALやERRORなどの重要なログほど優先度が高く、INFOやDEBUGなどのログほど優先度が低いと区別する。
図3は、障害情報収集部1121が、監視対象システム2が正常に稼動しているかを監視するための設定である監視設定情報DB1112である。監視設定情報DB1112は、個々の監視設定を識別する監視コード121、監視対象システム2が正常に稼動しているかを監視するために収集する収集情報(情報コード)122、収集情報(情報コード)122から障害が発生したかを判断するときの閾値123、収集情報(情報コード)122を収集する監視間隔124、障害と判断する障害判断条件125、障害と判断したときの障害コード126を含む。
例えば、監視設定M001では、監視対象装置21(Webサーバ)に対して10分ごとにアクセスし、その応答時間が10秒以上であれば、E001の障害と判断する。また、応答コードが500番であれば、E002の障害と判断する。また、監視設定M002のSNMPトラップのように、エージェントプログラム211,221が障害を検出して通知する場合には、監視間隔124の設定は不要となる。SNMPトラップの内容により、障害判断条件125であるCPU障害・メモリ障害・電源異常等を判断する。なお、閾値123・障害判断条件125・障害コード126は、監視設定情報DB1112に記述するのではなく、各種情報を取得する情報種別DB1111で指定したコマンド内に埋め込まれていても良い。
図4は、分析用情報収集設定情報DB1113である。分析用情報収集設定情報DB1113は、障害の発生した装置の装置コード131、発生した障害の種別を識別する障害コード132、定期的に収集する定期収集分133の障害分析用情報についての情報コード134及び抽出期間135、障害発生時に収集する障害時収集分136の障害分析用情報についての情報コード137を含む。
例えば、「監視対象装置21でE001の障害が発生した場合、分析用情報収集部(定期)1123は、定期的に収集する情報から直近1日分のD000(構成情報)、D003(CPU使用率)、D004(メモリ使用量)、D005(システムログ)、D006(設定ファイル)を抽出し、さらに最新の構成情報を収集する」という設定となっている。収集する分析用情報は、障害の発生した装置からだけでなく、関連する装置からも収集する場合がある。
図5は、障害情報収集部1112で検出した障害情報を記憶する障害情報DB1114である。障害情報DB1114は、監視設定情報DB1112の監視コード141、障害が発生した装置の装置コード142、検出した障害の障害コード144、障害を検出した検出時刻144、検出した障害の詳細情報145を含む。例えば1114aは、「M001の監視において、2008年12月01日の12:01に監視対象装置21でE001の障害(Webサーバの応答時間が10秒を超えた)を検出した」ことを示す。
図6〜図9は、障害原因分析に使用する分析用情報を記憶する分析用情報DB(退避)1115や分析用情報DB(一時蓄積)1116である。障害情報収集装置1が分析用情報DB(退避)1115と分析用情報DB(一時蓄積)1116で格納する情報は同様の形式のものであり、後述する分析用収集部(障害時)1122が、必要に応じて、分析用情報DB(一時蓄積)1116から分析用情報を抽出して、分析用情報DB(退避)1115に保存する。
分析用情報には、構成情報、稼動情報、ログ情報、設定ファイルがある。図6の(a)構成情報は、監視対象システム2にどのような構成アイテムがあるかを示した情報である。構成情報は、どのような装置があるかのハードウェア情報、各装置上で動作するソフトウェアの情報、及び、それらの接続情報を持つ。例えば、2008年12月01日11:00に取得した構成情報では、監視対象機器21と監視対象機器22があり、それぞれでweb-serverとdb-serverが稼動して、通信していることがわかる。
図7の(b)稼動情報は、CPU使用率・メモリ使用量・ディスク使用量などのリソースの利用状況や、構成アイテムのステータスに関する稼働情報である。稼動情報は、取得時刻、取得した値の情報を持つ。
図8の(c)ログ情報は、障害ログやアクセスログなどのログである。ログ情報は、ログを出力した時刻、ログメッセージの情報を持つ。
図9の(d)設定情報は、監視対象装置やそれ上で動作するソフトウェアの設定である。設定情報は、取得するごとにファイルに出力し、そのファイル名と取得時刻を持つ。
なお、分析用情報DB(退避)1115と分析用情報DB(一時蓄積)1116は同様の形式であるため、別々のDBとして分けるのではなく、同一のDBに格納し、退避用と一時蓄積用を区別するフラグ情報を使用して管理しても良い。
図10は、障害が発生したか否かを監視する障害情報収集部1121の動作のフローチャートである。障害情報収集部1121は、図3に示す監視設定情報DB1112を参照し、監視項目を取得する(ステップ1)。この場合、監視コードM001、M002に関する障害情報を取得する。以降、監視設定ごとに、停止要求があるまでステップ2〜4を繰返し継続する。
障害情報収集部1121は、例えば、監視コードM001に関しては、10分間隔で監視対象装置21であるWebサーバに対してアクセスを行い、応答時間が閾値の10秒を超えているか、応答コードが適切かをチェックする(ステップ2)。また、監視コードM002に関しては、障害情報収集部1121は、監視対象装置22のエージェントプログラム221からの障害通報を受けるべくSNMPトラップを待ち受けし、SNMPトラップの内容をチェックする。障害情報収集部1121は、障害を検出した場合、検出した障害情報を障害情報DB1114に登録する(ステップ3)。
障害情報収集部1121は、図5に示す障害情報DB1114を参照して、障害の発生した監視対象装置の装置コード142と、発生した障害の障害コード143をパラメータとして、分析用情報収集部(障害時)1122を起動する(ステップ4)。
図11は、障害情報収集部1121が障害を検出したときに起動される分析用情報収集部(障害時)1122の動作のフローチャートである。以下では、「装置コード:21、障害コード:E001」を引数として分析用情報収集部(障害時)1122を起動したときを例に説明する。
分析用情報収集部(障害時)1122は、図4に示す分析用情報収集設定情報DB1113を参照して、装置コード131と障害コード132を元に、分析用情報DB(一時蓄積)DB1116から抽出する分析用情報を取得する(ステップ1)。「装置コード:21、障害コード:E001」より、「定期収集分:D000・D003・D004・D005・D006(1日分)、障害時収集分:D000」がわかる。
分析用情報収集部(障害時)1122は、分析用情報DB(一時蓄積)DB1116から指定期間の分析用情報を抽出し、分析用情報DB(退避)1115に保存する(ステップ2)。ステップ1で取得した情報から、定期収集分133としてD000・D003・D004・D005・D006の1日分の情報を取得すれば良いことがわかる。そこで、分析用情報DB(一時蓄積)1116から直近1日分の構成情報・稼動情報(CPU使用率)・稼動情報(メモリ使用量)・システムログ・設定情報を抽出し、分析用情報DB(退避)1115に保存する。
分析用情報収集部(障害時)1122は、障害時収集分136の情報が定義されている場合に、管理対象機器21からそれらの情報を取得する(ステップ3)。ステップ1で取得した情報から、障害時収集分136として情報コード137のD000を収集すれば良いことがわかる。また、図2に示す情報種別DB1111を参照すると、情報コード111のD000はコマンド0を実行することで取得することがわかる。そこで、コマンド0を実行することで最新の構成情報を取得し、分析用情報DB(退避)DB1115に保存する。
分析用情報収集部(障害時)1122は、障害情報通報部1124を起動し、検出した障害情報とその障害原因を分析するための分析用情報をメールなどで管理者に通報する(ステップ4)。
図12は、分析用情報を定期的に収集する分析用情報収集部(定期)1123の動作のフローチャートである。分析用情報収集部(定期)1123は、図4に示す分析用情報収集設定情報DB1113を参照して、定期的に収集する定期収集分133の情報を取得する(ステップ1)。分析用情報収集設定情報DB1113より、定期的にD000・D003・D004・D005・D006を収集する必要があることがわかる。以下、分析用情報の種別ごと、図2に示す情報種別DB1111にある分析用情報の収集間隔116で情報収集する。例えば、D005のシステムログは、10分間隔でステップ2・ステップ3を実行する。
分析用情報収集部(定期)1123は、取得した情報を分析用情報DB(一時蓄積)1116に登録する(ステップ2)。情報の種別ごとに登録方法が異なる。図6に示す(a)構成情報の場合、監視対象システム全体へのpingによる応答の有無から装置一覧の取得や、エージェントプログラムを介して各装置で稼動するソフトウェアのプロセス情報、ソフトウェア間の通信接続情報などを収集し、前回の収集結果から変化があれば分析用情報DB(一時蓄積)に登録する。図7に示す(b)稼動情報の場合、収集した情報をそのまま分析用情報DB(一時蓄積)DB1116に追記する。図8に示す(c)ログ情報の場合、前回取得分から追加された部分のみを分析用情報DB(一時蓄積)1116に追記する。図9に示す(d)設定情報の場合、前回収集した設定情報から変化があった場合に、分析用情報DB(一時蓄積)DBに登録する。
分析用情報収集部(定期)1123は、分析用情報DB(一時蓄積)1116の容量が最大容量以上になった場合、優先度の低い情報から順に削除する(ステップ3)。容量の基準となる値は、図2に示す情報種別DB1111の最大容量117で設定された値である。優先度118は、前述したように、情報を取得した時間やログレベルなどにより決まる。保存している分析用情報が最大容量117を超えなくなるように、優先度の低い分析用情報から削除する。
以上から、監視対象装置21のWebサーバの応答時間が閾値の10秒を超えたことを検出したときに、監視対象装置21がビジーでアクセスできないなどの場合でも、障害発生に至るまでの構成情報、稼動情報(CPU使用率・メモリ使用量)、ログ情報、設定情報を取得することが可能となる。
図7の(b)稼動情報(CPU使用率)を見ると、図5に示す障害発生時(2008/12/01 12:01)の前にCPU使用率が高くなっている(92%−95%)ことがわかる。また、図8の(c)ログ情報を見ると、障害発生前にDBコネクションエラーが多発していることがわかる。図6の(a)構成情報を見ると、監視対象装置21のWebサーバは、取得時刻(2008/12/01 12:00)で、監視対象装置22のDBサーバと通信していることがわかるので、「DBサーバとの接続関係でエラーが発生してCPU使用率が高くなりWebサーバの応答が悪くなった」などと推測することができる。また、図9の(d)DBサーバの最新の設定ファイルなどを含めて調査することで、DBの設定に問題がないかなど、より障害の原因を分析することができる。
実施例1では、障害情報を検出したときに、障害情報通報部1124が障害情報と分析用情報を管理者に通報していたが、障害情報のみを通報するようにしても良い。その場合、障害原因分析の作業者が障害情報収集装置1の障害情報表示部1125を利用して分析用情報を参照する。
以上のように、本発明では、障害が発生したために監視対象装置と通信ができずに障害分析情報を収集できない場合や、障害が発生することによりメモリやディスクにある障害分析用情報を損失した場合でも、定期的に収集した情報を利用することで障害原因分析を実行可能となる。
なお、常に障害原因分析用の情報を収集せずに、障害の予兆を検知したときに障害に関連する情報を収集して分析する方法がある。しかし、実際には予兆を定義することは難しい。また、予兆を定義しても、監視をしたときに予兆を検出できない、または、予兆を検出してすぐに障害が発生した場合には、障害原因分析のための情報を収集することができないことがある。本発明は、予兆を定義できなくても障害原因分析用の情報を収集可能であるので、幅広く活用可能である。
1 障害情報収集装置
2 監視対象システム
11 記憶部
12 CPU
13 メモリ
14 入力部
15 出力部
16 通信部
21 監視対象装置
22 監視対象装置
111 情報コード
112 装置コード
113 収集情報
114 取得方法
115 障害原因の分析用情報
116 収集間隔
117 最大容量
118 優先度
121 監視コード
122 収集情報(情報コード)
123 閾値
124 監視間隔
125 障害判断条件
126 障害コード
131 装置コード
132 障害コード
133 定期収集分
134 情報コード
135 抽出期間
136 障害時収集分
137 情報コード
141 監視コード
142 装置コード
143 障害コード
144 検出時刻
145 詳細情報
211 エージェントプログラム
221 エージェントプログラム
1111 情報種別DB
1112 監視設定情報DB
1113 分析用情報収集設定情報DB
1114 障害情報DB
1115 分析用情報DB(退避)
1116 分析用情報DB(一時蓄積)
1121 障害情報収集部
1122 分析用情報収集部(障害時)
1123 分析用情報収集部(定期)
1124 障害情報通報部
1125 障害情報表示部

Claims (4)

  1. 情報システムを構成する監視対象装置の障害発生時に障害原因分析のための分析用情報を収集・蓄積する障害情報収集装置において、
    障害情報収集部、障害情報記憶部、障害時分析用情報収集部、退避分析用情報記憶部、分析用情報収集設定情報を記憶した分析用情報収集設定情報記憶部、定期分析用情報収集部、一時蓄積分析用情報記憶部、を有し、
    前記障害情報収集部は、
    前記監視対象装置を監視し、障害が発生したとき、当該障害情報を検出し、障害情報記憶部に登録し、かつ当該障害情報記憶部を参照して、障害の発生した監視対象装置の障害情報をパラメータとして、障害時分析用情報収集部を起動し、
    前記障害時分析用情報収集部は、
    前記障害情報収集部による障害検出時に、前記分析用情報収集設定情報記憶部を参照して、当該記憶部の分析用情報収集設定情報を元に、前記一時蓄積分析用情報記憶部に一時蓄積した分析用情報の中から、検出した障害の原因分析に必要となる分析用情報を取得し、前記退避分析用情報記憶部に退避保存し、
    定期分析用情報収集部は、
    前記分析用情報収集設定情報記憶部を参照して、当該記憶部の分析用情報収集設定情報を元に、定期的に前記監視対象装置から分析用情報を収集し、当該収集した情報を前記一時蓄積分析用情報記憶部に一時蓄積し、
    前記障害時分析用情報収集部により障害情報を検出したとき、検出した障害情報とその障害原因分析するための分析用情報、又は当該障害情報のみを、前記障害情報収集装置の管理者側に通報し得るように構成し、
    前記監視対象装置がビジーや停止している場合にも、障害要因分析を分析するに足りる分析用情報を収集することが可能とした
    ことを特徴とする障害情報収集装置。
  2. 請求項1に記載の障害情報収集装置において、
    検出した障害情報と退避した分析用情報を管理者に通知する障害情報通報部を備えたことを特徴とする障害情報収集装置。
  3. 請求項1又は請求項2に記載の障害情報収集装置において、
    検出した障害情報を管理者に通知する障害情報通報部と、
    障害情報と退避した分析用情報を参照する障害情報表示部と、
    を備え、
    前記障害時分析用情報収集部は、障害情報を検出したとき、前記障害情報通報部を起動し、検出した障害情報とその障害原因分析するための分析用情報、又は当該障害情報のみを、前記障害情報通報部を介して前記障害情報収集装置の管理者側に通報することを特徴
    とする障害情報収集装置。
  4. 請求項1ないし請求項3のいずれかに記載の障害情報収集装置において、
    前記一時蓄積分析用情報記憶部に定期的に収集することにより一時蓄積した分析用情報が設定された容量を超えた場合に、優先度の低い分析用情報から削除する分析用情報削除部を備えたことを特徴とする障害情報収集装置。
JP2009089439A 2009-04-01 2009-04-01 障害情報収集装置 Expired - Fee Related JP5503177B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009089439A JP5503177B2 (ja) 2009-04-01 2009-04-01 障害情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009089439A JP5503177B2 (ja) 2009-04-01 2009-04-01 障害情報収集装置

Publications (2)

Publication Number Publication Date
JP2010244137A JP2010244137A (ja) 2010-10-28
JP5503177B2 true JP5503177B2 (ja) 2014-05-28

Family

ID=43097117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009089439A Expired - Fee Related JP5503177B2 (ja) 2009-04-01 2009-04-01 障害情報収集装置

Country Status (1)

Country Link
JP (1) JP5503177B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5697557B2 (ja) * 2011-06-28 2015-04-08 キヤノン株式会社 サーバーシステム、その制御方法、およびプログラム。
JP6003350B2 (ja) * 2012-07-30 2016-10-05 富士通株式会社 監視装置、情報処理装置、及び監視方法
WO2014021069A1 (ja) * 2012-08-02 2014-02-06 日本電気株式会社 トラフィックデータ収集装置、トラフィックデータ収集方法、及びプログラム
WO2014053313A1 (en) * 2012-10-04 2014-04-10 Alcatel Lucent Data logs management in a multi-client architecture
CN113190391A (zh) * 2019-04-23 2021-07-30 神讯电脑(昆山)有限公司 烧机实时检测方法及其系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002372979A (ja) * 2001-06-15 2002-12-26 Victor Co Of Japan Ltd Webサーバ機能付きカラオケ端末を用いた通信カラオケシステム
JP2003216594A (ja) * 2002-01-21 2003-07-31 Hitachi Ltd 障害資料採取方法及びその実施システム並びにその処理プログラム
JP2003303117A (ja) * 2002-02-07 2003-10-24 Matsushita Electric Ind Co Ltd 情報機器管理システム
JP2006172401A (ja) * 2004-12-20 2006-06-29 Olympus Corp 情報収集装置
JP2007293699A (ja) * 2006-04-26 2007-11-08 Toshiba Corp プログラム異常動作時における解析用データ取得装置及びプログラム
JP4894567B2 (ja) * 2007-03-09 2012-03-14 セイコーエプソン株式会社 トレース情報出力装置、および、トレース情報出力方法

Also Published As

Publication number Publication date
JP2010244137A (ja) 2010-10-28

Similar Documents

Publication Publication Date Title
US10977154B2 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US9003230B2 (en) Method and apparatus for cause analysis involving configuration changes
JP5736881B2 (ja) ログ収集システム、装置、方法及びプログラム
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
KR100561628B1 (ko) 통계적 분석을 이용한 네트워크 수준에서의 이상 트래픽감지 방법
CN107766208B (zh) 一种监控业务系统的方法、系统及装置
JP5503177B2 (ja) 障害情報収集装置
CN109614283B (zh) 分布式数据库集群的监控系统
JPWO2011155621A1 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
US8903923B2 (en) Methods and apparatus for system monitoring
US10747529B2 (en) Version management system and version management method
CN105610648A (zh) 一种运维监控数据的采集方法及服务器
JP7202932B2 (ja) サイバー攻撃検知装置
CN107533492B (zh) 中继装置和程序
JP4872058B2 (ja) 自動障害対応システム
US8554908B2 (en) Device, method, and storage medium for detecting multiplexed relation of applications
JP2004145536A (ja) 管理システム
JP5240709B2 (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP4575020B2 (ja) 障害解析装置
JP5435225B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US8086912B2 (en) Monitoring and root cause analysis of temporary process wait situations
JP2004086278A (ja) 装置障害監視方法および装置障害監視システム
JP4968092B2 (ja) ストール検出装置、ストール検出方法、及びストール検出プログラム
JP4286594B2 (ja) 障害解析データ採取装置およびその方法
CN107968721B (zh) 针对服务器主动放行的方法、网络管控系统及被管控终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140314

R150 Certificate of patent or registration of utility model

Ref document number: 5503177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees