JP4826831B2 - 障害検知装置、障害検知方法及びそのプログラム - Google Patents

障害検知装置、障害検知方法及びそのプログラム Download PDF

Info

Publication number
JP4826831B2
JP4826831B2 JP2008056746A JP2008056746A JP4826831B2 JP 4826831 B2 JP4826831 B2 JP 4826831B2 JP 2008056746 A JP2008056746 A JP 2008056746A JP 2008056746 A JP2008056746 A JP 2008056746A JP 4826831 B2 JP4826831 B2 JP 4826831B2
Authority
JP
Japan
Prior art keywords
failure
determination
score
threshold value
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008056746A
Other languages
English (en)
Other versions
JP2009211658A (ja
Inventor
佳正 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008056746A priority Critical patent/JP4826831B2/ja
Publication of JP2009211658A publication Critical patent/JP2009211658A/ja
Application granted granted Critical
Publication of JP4826831B2 publication Critical patent/JP4826831B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、被監視装置からの監視情報に基づいて被監視装置の障害を検知し通報する障害検知装置、障害検知方法及びプログラムに関する。
システムの運用管理においては、システムを構成するコンピュータ等の被監視装置から採取した監視情報に基づいて被監視装置の障害を検知する方法が採用されている。
このような障害検知においては、一般的に、被監視装置のソフトウェア又はハードウェアに関する個々の監視項目についての監視情報を採取し、個々の監視項目毎に、障害(問題)が発生しているかどうかを判断する手法が用いられている。
例えば、この種の障害監視装置の関連技術が特許文献1に開示されている。この特許文献1には、監視対象(項目)の障害状態にあらかじめ重み付けを行っておき、監視対象について障害が発生した場合でもその障害より大きな重み付けの障害が以前に通知されている場合には通知を抑制して、不要な障害通報を抑止させる技術が記載されている。
特開2002−171304号公報
システムの運用管理においては、個々の監視項目についての監視情報から検知する障害単独では大きな問題とならない場合でも、複数の監視項目に対する障害が複合的に組み合わさった場合に緊急性の高い重大な問題が発生する可能性ある。
上述した特許文献1等に記載される関連技術の障害検知方法では、個々の管理項目についての監視情報に基づいて監視項目毎に障害を検知しているため、上述したような複数の監視項目が複合的に組み合わさって重大な問題が発生した場合に、原因の特定が困難であるという問題があった。特に、システムの監視対象(監視項目)が多くなればなるほど原因の究明に時間がかかるという問題があった。
(発明の目的)
本発明の目的は、個々の監視項目についての監視情報だけでなく、複数の監視項目の組み合わせについての複合的な情報に基づいて、監視項目が複合的に組み合わさって発生する障害を検出することが可能な障害検知装置、障害検知方法及びそのプログラムを提供することにある。
本発明による障害検知装置は、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、被監視対象の障害の発生を検知する障害検知装置であって、監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する手段と、複数の監視項目のグループ毎に、点数を累積する点数累積手段と、累積した点数と、グループ毎に設定した閾値とを比較することにより、被監視対象の障害の有無を判定する判定手段とを含む。
本発明による障害検知方法は、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、被監視対象の障害の発生を検知する障害検知方法であって、監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与するステップと、複数の監視項目のグループ毎に、点数を累積するステップと、累積した点数と、グループ毎に設定した閾値とを比較することにより、被監視対象の障害の有無を判定する判定ステップとを含む。
本発明によるプログラムは、コンピュータ上で実行され、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、被監視対象の障害の発生を検知するプログラムであって、コンピュータに、監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する処理と、複数の監視項目のグループ毎に、点数を累積する処理と、累積した点数と、グループ毎に設定した閾値とを比較することにより、被監視対象の障害の有無を判定する判定処理を、実行させる。
本発明によれば、監視項目が複合的に組み合わさって発生する障害を検出することが可能となる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
(第1の実施の形態)
図1を参照すると、本発明の第1の実施の形態による障害検知通報システムは、障害監視を行う対象である被監視装置100と、被監視装置100の障害を検知して通報する障害検知通報装置10を備えて構成される。
被監視装置100は、コンピュータ、ルータ、ハブ、ファイアウオール装置などの機器であり、障害検知通報装置10は、被監視装置100から収集した監視情報に基づいて障害の検知と通報までの処理を行う装置である。被監視装置100と障害検知通報装置10は、互いにローカルエリアネットワーク(LAN)やインターネットを介して相互に接続さている。
被監視装置100は、被監視装置100上のハードウェア、ソフトウェアに関する監視情報を採取する監視情報採取部101を有している。この監視情報採取部101は、プログラムによって実現され、例えばハードウェア、ソフトウェアに関する監視情報をOS(オペレーションシステム)の機能を利用して採取する機能を有する。
監視情報採取部101が監視情報には、被監視装置100の温度、電圧、ファン、CPU、メモリ、ディスク(DBテーブル)、ネットワーク、プロセス、メッセージログ(アプリケーションログ、イベントログ、システムログ)、死活監視等に関する情報が含まれる。
障害検知通報装置10は、監視情報取得部11と、監視情報記録処理部12と、点数累積処理部13と、障害判定処理部14と、通報実行部15と、点数付与ルールテーブル21と、データ記憶部22と、問題判定テーブル23と、点数更新用情報テーブル24と、累積点数記憶部25を含んで構成される。
監視情報取得部11は、監視情報採取部101で採取した被監視装置100の監視情報をLAN、インターネット等を通じて取得する機能を有する。
監視情報記録処理部12は、監視情報取得部11で取得した監視情報を受け取り、点数付与ルールテーブル21を参照して監視情報に累積対象フラグと点数を付け加えると共に、そのデータをデータ記憶部22に格納する機能を有する。
点数累積処理部13は、監視情報記録処理部12で監視情報に付加された点数を設定された所定時間の間、一時記憶領域として機能する累積点数記憶部25に加算していく機能を有する。
障害判定処理部14は、監視情報記録処理部12又は点数累積処理部13から送付された累積点数を、問題判定テーブル23の閾値点数と比較することによって、障害発生の有無を検知し、障害有りの判定をした場合に、通報方法を決定する機能を有する。また、障害判定処理部14は、点数更新用情報テーブル24を参照することによって、誤った判定がなされた場合に問題判定テーブル23中の閾値点数の補正を行う機能も有している。
通報実行部15は、障害判定処理部14で決定した通報方法に従って通報を実行する機能を有する。
点数付与ルールテーブル21は、「サーバ(システム名)」、「監視種類」、「ルール条件」、「累積対象フラグ」、「累積グループ名」、「付与点数」のフィールドを有する。
サーバ(システム名)には、被監視装置100のサーバ名又はシステム名が登録されている。
監視種類には、温度、電圧、ファン(回転数)、CPU、メモリ、ディスク(DBテーブル)、ネットワーク、プロセス、メッセージログ(アプリケーションログ、イベントログ、シスログ)、死活監視等の監視項目の種類が登録されている。
ルール条件には、監視種類で指定された監視項目の状態に対する閾値条件や文字列条件が登録されている。
閾値条件としては、上限又は下限の一方、或いは上限と下限の両方を指摘することが可能である。例えば、CPUの負荷率の場合であれば、「上限:80%以上」、「下限:20%以下」、或いは「上限:80%以上、下限:20%以下」のように指定することができる。また、文字列条件としては、メッセージログ等に含まれる所定の文字列が指定される。
累積対象フラグには、当該監視種類で指定された監視項目が点数を累積する対象であるかどうかを示すフラグとして、YES又はNOが登録されている。
累積グループ名には、点数の累積を行う単位となるグループを示す名称が登録されている。例えば、ある監視項目単独では重大な事態が発生しないが、他の監視項目と組み合わさった場合に重大な事態が発生すると想定できる場合、その組み合わせに含まれる複数の監視項目を1つのグループとし、そのグループを累積グループ名で区別する。
例えば、監視項目のうち、「温度」、「電圧」、「ファン」をグループとして、累積グループ名を「AA1」のように登録してある。
監視項目が累積対象でない場合(累積グループに属さない場合)には、累積グループ名に、「default」の文字列が登録されている。
付与点数には、監視項目又は累積グループ毎に付与する点数(1、2、3、・・・)が指定されている。
データ記憶部22の記録情報は、「ID」、「サーバ(システム名)」、「監視種類」、「発生時刻」、「監視情報詳細」、「累積対象フラグ」、「点数」のフィールドを有する。
IDには、監視情報記録処理部12が付与した監視情報を一意に識別する識別番号(例えば、ID1、ID2、ID3、・・・)を登録する。
発生時刻には、監視情報が発生した時刻が指定され、監視情報詳細には、監視情報の詳細な内容を登録する。
点数には、点数付与ルールテーブル21に基づいて付与された点数を登録する。
サーバ(システム名)、監視種類、累積対象フラグについては、点数付与ルールテーブル21の対応するフィールドと同様である。
問題判定テーブル23は、「累積グループ名」、「閾値点数」、「問題ランク」、「通報方法」のフィールドを有する。累積グループ名については、上述した通りである。
閾値点数には、監視項目又は累積グループ毎の点数(累積点数)の閾値が記載されている。この閾値点数には、重要度の違いに応じて幾つかの段階に分けた閾値を設定することが可能である。
障害判定処理部14は、監視項目又は累積グループの点数又は累積点数が、閾値点数に登録された値を上回る場合に、被監視装置100に障害が発生している(通報の必要有り)と判定する。
問題ランクには、上記点数の閾値に応じた問題の重要度(例えば、重要度が高い順に、A、B、C・・・等)が記載されている。
通報方法には、パトランプの点灯、電子メールによる通知、他のアプリケーションへの通知、電話による通知又はそれらの組み合わせ等の問題の通報方法が記載されている。
点数更新用情報テーブル24は、「累積グループ名」、「待機時間」、「サーバ(システム名)」、「監視種類」、「ルール条件」、「補正係数」のフィールドを有する。この点数更新用情報テーブル24の累積グループ、サーバ(システム名)、監視種類、ルール条件のフィールドについては、点数付与ルールテーブル21の各フィールドと同じデータが記載され、さらに、以下の待機時間と、補正係数のフィールドが追加されている。
待機時間には、更新用情報の待ち合わせ時間が指定されている。
補正係数には、問題判定テーブル23の「閾値点数」フィールドの点数を補正するための係数が記載される。
累積点数記憶部25は、「累積グループ名」、「累積点数」、「ID」のフィールドを有する。累積グループ名については、上述した通りである。
累積点数には、一定の設定時間の間に加算された点数が記載される。
IDには、加算の対象になった監視情報のIDが記載される。
次に、上記障害検知通知装置10のハードウェア構成例について、図10を参照して説明する。
図10を参照すると、障害検知通知装置10は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができ、CPU(Central Processing Unit)401、RAM(Random Access Memory)等のメインメモリであり、データの作業領域やデータの一時退避領域に用いられる主記憶部402、ネットワーク600を介してデータの送受信を行う通信部403、外部装置と接続してデータの送受信を行う入出力インタフェース部404、ROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置である補助記憶部405(例えば、点数付与ルールテーブル21、データ記憶部22、問題判定テーブル23、点数更新用情報テーブル24、累積点数記憶部25は、この補助記憶部405上に構築される)、本情報処理装置の上記各構成要素を相互に接続するシステムバス406、ディスプレイ装置等の出力装置407及びキーボード等の入力装置408を備えている。
本実施の形態による障害検知通知装置10は、障害の検知と通報を実行するプログラムを組み込んだ、LSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、監視情報取得部11、監視情報記録処理部12、点数累積処理部13、障害判定処理部14、通報実行部15の各機能を提供するプログラムを、補助記憶部405に格納し、そのプログラムを主記憶部402にロードしてCPU401で実行することにより、ソフトウェア的に実現することも可能である。
(実施の形態による動作)
次に、上記のように構成される本実施の形態による障害検知通知装置10の動作について、図1、図2〜図6及び図7を参照して説明する。図7、図8は、障害検知通知装置10の動作内容を説明するフローチャートである。
図7を参照すると、監視情報取得部11が、採取した被監視装置100の監視情報を監視情報採取部101からLAN、インターネットを介して取得し、取得情報に不正がないかを確認した後、監視情報記録処理部12に渡す(ステップS101)。
監視情報記録処理部12は、点数付与ルールテーブル21を参照して、「サーバ(システム)名」、「監視種類」、「ルール条件」に合致するかどうかを監視情報取得部11から渡された監視情報1件1件に対して照合する(ステップS102)。
条件に合致した場合、監視情報記録処理部12は、監視情報に、点数付与ルールテーブル21に設定している「累積対象フラグ」(YES又はNO)、「累積グループ名」、「付与点数」の情報を付加する。
条件に合致するものがなかった場合には、監視情報に、「累積対象フラグ」(=NO)、「累積グループ」(=default)、「付与点数」の情報を付加する。
点数付与ルールテーブル21との照合が終了すると、監視情報記録処理部12は、その監視情報に関して、ID、サーバ(システム)名、監視種類、発生時刻、監視情報詳細、累積対象フラグ、点数の情報を、図3に示すように記録情報としてデータ記録部22に登録する(ステップS103)。
また、監視情報記録処理部12は、付加された「累積対象フラグ」を参照して(ステップS104)、累積対象フラグ=YESであればデータ記録部22に記録した情報を点数累積処理部13へ送付し(ステップS105)、累積対象フラグ=NOの場合には、情報を障害判定処理部14へ送付する(ステップS106)。
点数累積処理部13は、送付された記録情報を受け取ると、累積グループ名単位で累積点数記憶部25の記録情報と同じ累積グループ名に対応する累積点数に、記録情報に付与された点数を加算する(ステップS107〜S109)。
点数累積処理部13による点数の加算は、予め設定した一定の設定時間間隔で行う。この設定時間については、監視する被監視装置100の種類や稼動状況等に応じて任意の時間を予め設定するものとする。
点数累積処理部13は、最初に情報を受け取ったときから累積グループ名毎に設定時間のカウントを開始し(ステップS107)、設定時間の間待ち合わせを行い、カウントが終了するまで(ステップS109)、記録情報に付加された点数を累積点数記憶部25の「累積点数」に累積していく(ステップS108)。
カウントが終了すると、累積点数記憶部25の累積点数と、カウント開始から終了までに到着した記録情報を障害判定処理部14へ送付する(ステップS110)。
なお、設定時間のカウントが終了後、新たな情報を受け取った場合、累積点数記憶部25は、受け取り次第再び設定時間のカウントを開始して、点数を累積する。
障害判定処理部14では、累積点数を受け取ると、問題判定テーブル23に基づいて、通報の必要性、問題の重要度、通報方法を判定する(ステップS111)。
障害判定処理部14による判定処理の詳細について以下に説明する。
(1)記録情報が累積対象フラグ=NOである場合(監視情報記録処理部12から送付された記録情報の場合)
問題判定テーブル23の「累積グループ名」=defaultのフィールドを参照して、その「閾値点数」と送付された記録情報に記録されている「点数」とを比較して、「点数」が「閾値点数」を上回っている場合に被監視装置100に障害が発生していると判定し、通報の必要有りの決定をする。
(2)情報が累積対象フラグ=YESである場合(点数累積処理部13から送付された記録情報の場合)
問題判定テーブル23の該当する「累積グループ名」を参照して、対応する「閾値点数」と点数累積処理部13から送られてきた「累積点数」とを比較して、「累積点数」が「閾値点数」を上回っている場合に被監視装置100に障害が発生していると判定し、通報の必要有りの決定をする。
通報の必要有りと決定した場合、障害判定処理部14は、問題判定テーブル23を参照し、「問題ランク」に記載された重要度と、「通報方法」に記載された通報方法を指定し、通報実行部15に対して通報を指示する。
例えば、重要度が低い場合には、通報方法としてパトランプの点灯を指定し、重要度が高い場合には、通報方法としてパトランプの点灯に加えて、電子メールによる通報を指定することが考えられる。
なお、上記何れの場合にも、点数又は累積点数が問題判定テーブル23を「閾値点数」を下回っている場合には、障害が発生していないと判定し、通報の必要無しと決定し、通報は行わない。
障害判定処理部14から通報の指示を受けると、通報実行部15が指示された通報方法で通報を実施する(ステップS112)。
その際、電子メール、他アプリケーションへの通知、電話での通報に関しては、監視情報についてデータ記録部22に記録した記録情報の内容を添付して通知を行う。さらに、点数の累積対象である監視情報に関しては、累積グループに含まれる全ての監視項目の内容を添付して通知する。
また、パトランプの点灯によって障害を通報するようにしてもよい。さらに、パトランプの点灯は、電子メールや他アプリケーションへの通知と併せて、行うようにしてもよい。
次に、障害判定処理部14による問題判定テーブル23の「閾値点数」の補正処理について、図8及び図9を参照して説明する。
まず、障害有り(通報の必要有り)の判定が誤判定であった場合の補正処理について、図8のフローチャートを参照して説明する。
障害判定処理部14は、障害有り(通報の必要有り)と判定し通報を実施した後、点数更新用情報テーブル24を参照して「待機時間」に指定された時間の間、想定される障害が発生したかどうかを、すなわち、通報した累積グループ名と同じ累積グループ名の記録情報が、待機時間の間に点数累積処理部13から到着したかどうかを判定する(ステップS201〜203)。
通報した累積グループ名と同じ累積グループ名の記録情報が、待機時間の間に到着した場合には、障害有り(通報の必要有り)の判定が適切であったと判断できるので、閾値点数の補正処理を行わない。
通報した累積グループ名と同じ累積グループ名の記録情報が、待機時間の間に到着しない場合には、障害有り(通報の必要有り)の判定が誤判定であったと判断できるので、点数更新用情報テーブル24の同じ累積グループ名に対応する「補正係数」を使用して算出した補正点数αを問題判定テーブル23の「閾値点数」フィールドに加算することによって、「閾値点数」の点数を補正する(ステップS204)。
この補正点数αは、例えば下記の式に基づいて算出する。
補正点数α=(X−Y)*F
ここで、X:累積点数記憶部25の「累積点数」の値、Y:問題判定テーブル23の「閾値点数」の値、F:点数更新用情報テーブル24の「補正係数」の値である。
次に、障害無し(通報の必要無し)の判定が誤判定であった場合の補正処理について、図9のフローチャートを参照して説明する。
障害判定処理部14は、障害無し(通報の必要無し)と判定した後、点数更新用情報テーブル24に登録している障害が発生したかどうかを判定する。すなわち、障害判定処理部14は、点数累積処理部13から監視情報が到着すると、到着した監視情報が、点数更新用情報テーブル24の同じ累積グループ名のルール条件に合致するかどうかを判定する(ステップS301)。
到着した監視情報が、点数更新用情報テーブル24のルール条件に合致しない場合には、点数更新用情報テーブル24に登録している障害は発生していない(障害無し(通報の必要無し)の判定が適切)と判断し、処理を終了する。
到着した監視情報が、点数更新用情報テーブル24の同じ累積グループ名のルール条件に合致する場合、点数累積処理部13において点数の累積(図7のステップS107〜S109)が行われているかどうかを判定する(ステップS302)。
点数の累積が行われている場合には、設定時間のカウントが終了するまで待ち合わせる。
点数の累積が行われていない場合には、さらに、点数更新用情報テーブル24の「待機時間」の待ち合わせ中であるかを判定する(ステップS303)。待機時間の待ち合わせ中であれば、障害有り(通報の必要有り)と判定した場合であるので、処理を終了する。
待機時間の待ち合わせ中でなければ、障害無し(通報の必要無し)の判定を行ったにもかかわらず、点数更新用情報テーブル24に登録している障害が発生したと判断することができる。すなわち、障害無しの判定が誤判定であったと判断できるので、点数更新用情報テーブル24の「補正係数」を参照して算出した補正点数βを、問題判定テーブル23の「閾値点数」フィールドから減算することにより、「閾値点数」の点数を補正する(ステップS304)。
この補正点数βは、例えば下記の式に基づいて算出する。
補正点数β = Y * F
(第1の実施の形態による効果)
本実施の形態によれば、監視項目に対する監視情報毎に、点数付与ルールテーブル21のルール条件に従って点数を付与すると共に、複数の監視項目の組み合わせたグループ毎に、点数を累積し、累積した点数に基づいて障害の有無を検知するため、監視項目が複合的に組み合わさって発生する障害を検出し、通報することが可能となる。
また、監視項目のグループ毎に、障害の重要度に応じた通報方法を設定しておくことにより、障害の重要度に応じた適切な通報方法を選択することができる。
以上好ましい実施の形態と実施例をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態及び実施例に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
上記の実施の形態は、障害の検知と通報を行う障害検知通報装置について説明したが、上述した方法によって障害の検知だけを行い、通報については、通報実行部15として機能する外部の装置に通報を指示する構成とすることも可能である。
本発明の実施の形態による障害検知通報装置の構成を示すブロック図である。 本発明の実施の形態における点数付与ルールテーブルの構成例を示す図である。 本発明の実施の形態におけるデータ記憶部の記録情報の構成例を示す図である。 本発明の実施の形態における問題判定テーブルの構成例を示す図である。 本発明の実施の形態における累積点数記憶部の登録内容の構成例を示す図である。 本発明の実施の形態における点数更新用情報テーブルの構成例を示す図である。 本発明の実施の形態による障害検知通報装置の動作を説明するフローチャートである。 本発明の実施の形態による障害検知通報装置における閾値の補正処理の動作を説明するフローチャートである。 本発明の実施の形態による障害検知通報装置における閾値の補正処理の動作を説明するフローチャートである。 本発明の実施の形態による障害検知通報装置のハードウェア構成例を示すブロック図である。
符号の説明
10:障害検知通報装置
11: 監視情報取得部
12:監視情報記録処理部
13:点数累積処理部
14:障害判定処理部
15:通報実行部
21:点数付与ルールテーブル
22:データ記憶部22
23:問題判定テーブル
24:点数更新用情報テーブル
25:累積点数記憶部
100:被監視装置
101:監視情報採取部

Claims (30)

  1. 被監視対象から取得した所定の監視項目に対する監視情報に基づいて、前記被監視対象の障害の発生を検知する障害検知装置であって、
    前記監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する手段と、
    複数の前記監視項目のグループ毎に、前記点数を累積する点数累積手段と、
    累積した点数と、前記グループ毎に設定した閾値とを比較することにより、前記被監視対象の障害の有無を判定する判定手段と
    を備えることを特徴とする障害検知装置。
  2. 前記障害と判定した場合に通報を実行する通報実行手段を備え、
    前記判定手段は、前記障害有りと判定した場合に、前記グループの種類毎に設定された通報方法を選択し、前記通報実行手段に指示することを特徴とする請求項1に記載の障害検知装置。
  3. 段階的に複数設定された閾値毎に異なる通報方法が設定され、
    前記判定手段は、前記累積した点数が上回った閾値に応じて通報方法を選択して、前記通報実行手段に指示することを特徴とする請求項2に記載の障害検知装置。
  4. 前記判定手段は、障害の有無の判定が誤判定であった場合、所定の補正係数に基づいて、前記閾値を増減することを特徴とする請求項1から請求項3の何れかに記載の障害検知装置。
  5. 前記判定手段は、障害有りの判定が誤判定であった場合、所定の補正係数を使用して算出した値を前記閾値に加算することにより、前記閾値を補正することを特徴とする請求項4に記載の障害検知装置。
  6. 前記判定手段は、障害無しの判定が誤判定であった場合、所定の補正係数を使用して算出した値を、前記閾値から減算することにより、前記閾値を補正することを特徴とする請求項4に記載の障害検知装置。
  7. 前記監視項目毎に、点数を付与するか否かを示すルール条件と、点数を累積するか否かを示す累積対象フラグと、グループ名と、付与する点数を登録したルールテーブルを備え、
    前記点数を付与する手段は、前記監視情報を取得すると、前記ルールテーブルを参照し、前記監視情報に示される前記監視項目の値が前記ルール条件を満たし、かつ、累積対象フラグに累積対象であることが示されている場合に、前記監視情報に、前記ルールテーブルに登録されている点数を付与することを特徴とする請求項1から請求項6の何れかに記載の障害検知装置。
  8. 前記グループ毎に、累積点数を記録する累積点数記憶手段と、前記グループ毎に、前記閾値と、障害の重要度を示す問題ランクと、前記問題ランクに応じて少なくとも1の前記通報方法を登録した問題判定テーブルを備え、
    前記点数累積手段は、前記監視情報に付与された点数を、前記累積点数記憶手段の累積点数に累積し、
    前記判定手段は、前記累積点数記憶手段の前記累積点数を、前記問題判定テーブルの前記閾値と比較することで、障害の有無を判定し、障害有りの判定の場合に、前記問題ランクの重要度に応じて前記通報方法を選択することを特徴とする請求項2から請求項7の何れかに記載の障害検知装置。
  9. 前記判定手段は、予め定めた設定時間の間に累積した点数を、前記閾値と比較することで、前記障害の有無を判定することを特徴とする請求項1から請求項8の何れかに記載の障害検知装置。
  10. 前記グループ毎に、前記閾値を補正するための補正係数を登録した更新用テーブルを備え、
    前記判定手段は、
    障害有りの判定をした場合、所定の待機時間の間に、障害有りの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得しない場合に、前記障害有りの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値に加算し、
    障害無しの判定をした場合、障害無しの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得した場合に、前記障害無しの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値から減算することを特徴とする請求項4又は請求項5に記載の障害検知装置。
  11. 被監視対象から取得した所定の監視項目に対する監視情報に基づいて、前記被監視対象の障害の発生を検知する障害検知方法であって、
    前記監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与するステップと、
    複数の前記監視項目のグループ毎に、前記点数を累積するステップと、
    累積した点数と、前記グループ毎に設定した閾値とを比較することにより、前記被監視対象の障害の有無を判定する判定ステップと
    を含むことを特徴とする障害検知方法。
  12. 前記判定ステップで前記障害有りと判定した場合に、前記グループの種類毎に設定された通報方法によって通報を実行する通報ステップを含むことを特徴とする請求項11に記載の障害検知方法。
  13. 段階的に複数設定された閾値毎に異なる通報方法が設定され、
    前記判定ステップで、前記累積した点数が上回った閾値に応じて通報方法を選択して、前記通報ステップで、選択した通報方法によって通報を実行することを特徴とする請求項12に記載の障害検知方法。
  14. 前記判定ステップが、障害の有無の判定が誤判定であった場合、所定の補正係数に基づいて、前記閾値を増減するステップを含むことを特徴とする請求項11から請求項13の何れかに記載の障害検知方法。
  15. 前記判定ステップが、障害有りの判定が誤判定であった場合、所定の補正係数を使用して算出した値を前記閾値に加算することにより、前記閾値を補正するステップを含むことを特徴とする請求項14に記載の障害検知方法。
  16. 前記判定ステップが、障害無しの判定が誤判定であった場合、所定の補正係数を使用して算出した値を、前記閾値から減算することにより、前記閾値を補正するステップを含むことを特徴とする請求項14に記載の障害検知方法。
  17. 前記監視項目毎に、点数を付与するか否かを示すルール条件と、点数を累積するか否かを示す累積対象フラグと、グループ名と、付与する点数を登録したルールテーブルを備え、
    前記点数を付与するステップにおいて、前記監視情報を取得すると、前記ルールテーブルを参照し、前記監視情報に示される前記監視項目の値が前記ルール条件を満たし、かつ、累積対象フラグに累積対象であることが示されている場合に、前記監視情報に、前記ルールテーブルに登録されている点数を付与することを特徴とする請求項11から請求項16の何れかに記載の障害検知方法。
  18. 前記グループ毎に、累積点数を記録する累積点数記憶手段と、前記グループ毎に、前記閾値と、障害の重要度を示す問題ランクと、前記問題ランクに応じて少なくとも1の前記通報方法を登録した問題判定テーブルを備え、
    前記点数を累積するステップにおいて、前記監視情報に付与された点数を、前記累積点数記憶手段の累積点数に累積し、
    前記判定ステップにおいて、前記累積点数記憶手段の前記累積点数を、前記問題判定テーブルの前記閾値と比較することで、障害の有無を判定し、障害有りの判定の場合に、前記問題ランクの重要度に応じて前記通報方法を選択することを特徴とする請求項12から請求項17の何れかに記載の障害検知方法。
  19. 前記判定ステップで、予め定めた設定時間の間に累積した点数を、前記閾値と比較することで、前記障害の有無を判定することを特徴とする請求項11から請求項18の何れかに記載の障害検知方法。
  20. 前記グループ毎に、前記閾値を補正するための補正係数を登録した更新用テーブルを備え、
    前記判定ステップにおいて、
    障害有りの判定をした場合、所定の待機時間の間に、障害有りの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得しない場合に、前記障害有りの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値に加算し、
    障害無しの判定をした場合、障害無しの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得した場合に、前記障害無しの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値から減算することを特徴とする請求項14又は請求項15に記載の障害検知方法。
  21. コンピュータ上で実行され、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、前記被監視対象の障害の発生を検知するプログラムであって、
    前記コンピュータに、
    前記監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する処理と、
    複数の前記監視項目のグループ毎に、前記点数を累積する処理と、
    累積した点数と、前記グループ毎に設定した閾値とを比較することにより、前記被監視対象の障害の有無を判定する判定処理を、実行させることを特徴とするプログラム。
  22. 前記判定処理で前記障害有りと判定した場合に、前記グループの種類毎に設定された通報方法によって通報を実行する通報処理を実行させることを特徴とする請求項21に記載のプログラム。
  23. 段階的に複数設定された閾値毎に異なる通報方法が設定され、
    前記判定処理で、前記累積した点数が上回った閾値に応じて通報方法を選択して、前記通報処理で、選択した通報方法によって通報を行うことを特徴とする請求項22に記載のプログラム。
  24. 前記判定処理が、障害の有無の判定が誤判定であった場合、所定の補正係数に基づいて、前記閾値を増減する処理を含むことを特徴とする請求項21から請求項23の何れかに記載のプログラム。
  25. 前記判定処理が、障害有りの判定が誤判定であった場合、所定の補正係数を使用して算出した値を前記閾値に加算することにより、前記閾値を補正する処理を含むことを特徴とする請求項24に記載のプログラム。
  26. 前記判定処理が、障害無しの判定が誤判定であった場合、所定の補正係数を使用して算出した値を、前記閾値から減算することにより、前記閾値を補正する処理を含むことを特徴とする請求項24に記載のプログラム。
  27. 前記監視項目毎に、点数を付与するか否かを示すルール条件と、点数を累積するか否かを示す累積対象フラグと、グループ名と、付与する点数を登録したルールテーブルを備え、
    前記点数を付与する処理において、前記監視情報を取得すると、前記ルールテーブルを参照し、前記監視情報に示される前記監視項目の値が前記ルール条件を満たし、かつ、累積対象フラグに累積対象であることが示されている場合に、前記監視情報に、前記ルールテーブルに登録されている点数を付与することを特徴とする請求項21から請求項26の何れかに記載のプログラム。
  28. 前記グループ毎に、累積点数を記録する累積点数記憶手段と、前記グループ毎に、前記閾値と、障害の重要度を示す問題ランクと、前記問題ランクに応じて少なくとも1の前記通報方法を登録した問題判定テーブルを備え、
    前記点数を累積する処理において、前記監視情報に付与された点数を、前記累積点数記憶手段の累積点数に累積し、
    前記判定処理において、前記累積点数記憶手段の前記累積点数を、前記問題判定テーブルの前記閾値と比較することで、障害の有無を判定し、障害有りの判定の場合に、前記問題ランクの重要度に応じて前記通報方法を選択することを特徴とする請求項22から請求項27の何れかに記載のプログラム。
  29. 前記判定処理で、予め定めた設定時間の間に累積した点数を、前記閾値と比較することで、前記障害の有無を判定することを特徴とする請求項21から請求項28の何れかに記載のプログラム。
  30. 前記グループ毎に、前記閾値を補正するための補正係数を登録した更新用テーブルを備え、
    前記判定処理において、
    障害有りの判定をした場合、所定の待機時間の間に、障害有りの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得しない場合に、前記障害有りの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値に加算し、
    障害無しの判定をした場合、障害無しの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得した場合に、前記障害無しの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値から減算することを特徴とする請求項24又は請求項25に記載のプログラム。
JP2008056746A 2008-03-06 2008-03-06 障害検知装置、障害検知方法及びそのプログラム Expired - Fee Related JP4826831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008056746A JP4826831B2 (ja) 2008-03-06 2008-03-06 障害検知装置、障害検知方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008056746A JP4826831B2 (ja) 2008-03-06 2008-03-06 障害検知装置、障害検知方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2009211658A JP2009211658A (ja) 2009-09-17
JP4826831B2 true JP4826831B2 (ja) 2011-11-30

Family

ID=41184703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008056746A Expired - Fee Related JP4826831B2 (ja) 2008-03-06 2008-03-06 障害検知装置、障害検知方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4826831B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244381A (ja) * 2010-05-21 2011-12-01 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法およびそのプログラム
WO2013035264A1 (ja) * 2011-09-05 2013-03-14 日本電気株式会社 監視装置、監視方法およびプログラム
US9356848B2 (en) 2011-09-05 2016-05-31 Nec Corporation Monitoring apparatus, monitoring method, and non-transitory storage medium
CN104572391B (zh) * 2013-10-16 2019-03-15 深圳市腾讯计算机系统有限公司 监控告警策略配置方法及装置、监控告警方法及装置
JPWO2016129275A1 (ja) * 2015-02-10 2017-12-28 日本電気株式会社 情報処理装置、ログ管理システム、ログ管理方法及びプログラム
JP6223380B2 (ja) * 2015-04-03 2017-11-01 三菱電機ビルテクノサービス株式会社 中継装置及びプログラム
JP6880241B2 (ja) * 2018-01-15 2021-06-02 三菱電機株式会社 障害検知装置、監視制御システム、および障害検知方法
EP3731122B1 (en) * 2018-01-17 2021-09-01 Mitsubishi Electric Corporation Attack detection apparatus, attack detection method, and attack detection program
DE102019218138A1 (de) * 2018-11-27 2020-05-28 Presenso Ltd. Ein proaktives und automatisiertes System und Verfahren davon zum Reparieren eines suboptimalen Betriebs einer Maschine
CN116016123A (zh) * 2022-12-09 2023-04-25 京东科技信息技术有限公司 故障处理方法、装置、设备及介质
CN117148091B (zh) * 2023-11-01 2024-02-06 杭州高坤电子科技有限公司 一种半导体测试方法、系统、终端及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3681634B2 (ja) * 2000-11-30 2005-08-10 株式会社日立インフォメーションテクノロジー 障害通報処理方法および監視装置
JP2003241999A (ja) * 2002-02-14 2003-08-29 Hitachi Ltd 保守管理システム

Also Published As

Publication number Publication date
JP2009211658A (ja) 2009-09-17

Similar Documents

Publication Publication Date Title
JP4826831B2 (ja) 障害検知装置、障害検知方法及びそのプログラム
EP2523115B1 (en) Operation management device, operation management method, and program storage medium
US9176803B2 (en) Collecting data from a system in response to an event based on an identification in a file of the data to collect
US8819220B2 (en) Management method of computer system and management system
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US8429455B2 (en) Computer system management method and management system
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP6387747B2 (ja) 情報処理装置、障害回避方法およびコンピュータプログラム
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN110659147B (zh) 一种基于模块自检行为的自修复方法和系统
CN110990245A (zh) 基于调用链数据的微服务运行状态判断方法及装置
US7694179B2 (en) Suspected place identifying apparatus and processing method
JP5588295B2 (ja) 情報処理装置、および障害復旧方法
JP2013201695A (ja) 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム
CN111327685A (zh) 分布式存储系统数据处理方法、装置及设备和存储介质
JP4449929B2 (ja) トランザクション装置、遅延障害検出装置及び方法、並びにプログラム
EP2562651A1 (en) Management system and management method for computer system
JP6269199B2 (ja) 管理サーバおよび障害復旧方法、並びにコンピュータ・プログラム
JP5417264B2 (ja) 分析情報提供方法
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
CN110955587A (zh) 一种待更换设备确定方法及装置
US20200196172A1 (en) Network fault discovery
JP2020021432A (ja) 制御方法、制御装置および制御プログラム
JP6572722B2 (ja) 事象発生通知プログラム、事象発生通知方法、及び、事象発生通知装置
US20150101036A1 (en) Network filtering device, network filtering method and computer-readable recording medium having stored therein a program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110830

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees