JP4826831B2

JP4826831B2 - 障害検知装置、障害検知方法及びそのプログラム

Info

Publication number: JP4826831B2
Application number: JP2008056746A
Authority: JP
Inventors: 佳正服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-06
Filing date: 2008-03-06
Publication date: 2011-11-30
Anticipated expiration: 2028-03-06
Also published as: JP2009211658A

Description

本発明は、被監視装置からの監視情報に基づいて被監視装置の障害を検知し通報する障害検知装置、障害検知方法及びプログラムに関する。

システムの運用管理においては、システムを構成するコンピュータ等の被監視装置から採取した監視情報に基づいて被監視装置の障害を検知する方法が採用されている。

このような障害検知においては、一般的に、被監視装置のソフトウェア又はハードウェアに関する個々の監視項目についての監視情報を採取し、個々の監視項目毎に、障害（問題）が発生しているかどうかを判断する手法が用いられている。

例えば、この種の障害監視装置の関連技術が特許文献１に開示されている。この特許文献１には、監視対象（項目）の障害状態にあらかじめ重み付けを行っておき、監視対象について障害が発生した場合でもその障害より大きな重み付けの障害が以前に通知されている場合には通知を抑制して、不要な障害通報を抑止させる技術が記載されている。
特開２００２−１７１３０４号公報

システムの運用管理においては、個々の監視項目についての監視情報から検知する障害単独では大きな問題とならない場合でも、複数の監視項目に対する障害が複合的に組み合わさった場合に緊急性の高い重大な問題が発生する可能性ある。

上述した特許文献１等に記載される関連技術の障害検知方法では、個々の管理項目についての監視情報に基づいて監視項目毎に障害を検知しているため、上述したような複数の監視項目が複合的に組み合わさって重大な問題が発生した場合に、原因の特定が困難であるという問題があった。特に、システムの監視対象（監視項目）が多くなればなるほど原因の究明に時間がかかるという問題があった。

（発明の目的）
本発明の目的は、個々の監視項目についての監視情報だけでなく、複数の監視項目の組み合わせについての複合的な情報に基づいて、監視項目が複合的に組み合わさって発生する障害を検出することが可能な障害検知装置、障害検知方法及びそのプログラムを提供することにある。

本発明による障害検知装置は、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、被監視対象の障害の発生を検知する障害検知装置であって、監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する手段と、複数の監視項目のグループ毎に、点数を累積する点数累積手段と、累積した点数と、グループ毎に設定した閾値とを比較することにより、被監視対象の障害の有無を判定する判定手段とを含む。

本発明による障害検知方法は、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、被監視対象の障害の発生を検知する障害検知方法であって、監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与するステップと、複数の監視項目のグループ毎に、点数を累積するステップと、累積した点数と、グループ毎に設定した閾値とを比較することにより、被監視対象の障害の有無を判定する判定ステップとを含む。

本発明によるプログラムは、コンピュータ上で実行され、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、被監視対象の障害の発生を検知するプログラムであって、コンピュータに、監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する処理と、複数の監視項目のグループ毎に、点数を累積する処理と、累積した点数と、グループ毎に設定した閾値とを比較することにより、被監視対象の障害の有無を判定する判定処理を、実行させる。

本発明によれば、監視項目が複合的に組み合わさって発生する障害を検出することが可能となる。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

（第１の実施の形態）
図１を参照すると、本発明の第１の実施の形態による障害検知通報システムは、障害監視を行う対象である被監視装置１００と、被監視装置１００の障害を検知して通報する障害検知通報装置１０を備えて構成される。

被監視装置１００は、コンピュータ、ルータ、ハブ、ファイアウオール装置などの機器であり、障害検知通報装置１０は、被監視装置１００から収集した監視情報に基づいて障害の検知と通報までの処理を行う装置である。被監視装置１００と障害検知通報装置１０は、互いにローカルエリアネットワーク（ＬＡＮ）やインターネットを介して相互に接続さている。

被監視装置１００は、被監視装置１００上のハードウェア、ソフトウェアに関する監視情報を採取する監視情報採取部１０１を有している。この監視情報採取部１０１は、プログラムによって実現され、例えばハードウェア、ソフトウェアに関する監視情報をＯＳ（オペレーションシステム）の機能を利用して採取する機能を有する。

監視情報採取部１０１が監視情報には、被監視装置１００の温度、電圧、ファン、ＣＰＵ、メモリ、ディスク（ＤＢテーブル）、ネットワーク、プロセス、メッセージログ（アプリケーションログ、イベントログ、システムログ）、死活監視等に関する情報が含まれる。

障害検知通報装置１０は、監視情報取得部１１と、監視情報記録処理部１２と、点数累積処理部１３と、障害判定処理部１４と、通報実行部１５と、点数付与ルールテーブル２１と、データ記憶部２２と、問題判定テーブル２３と、点数更新用情報テーブル２４と、累積点数記憶部２５を含んで構成される。

監視情報取得部１１は、監視情報採取部１０１で採取した被監視装置１００の監視情報をＬＡＮ、インターネット等を通じて取得する機能を有する。

監視情報記録処理部１２は、監視情報取得部１１で取得した監視情報を受け取り、点数付与ルールテーブル２１を参照して監視情報に累積対象フラグと点数を付け加えると共に、そのデータをデータ記憶部２２に格納する機能を有する。

点数累積処理部１３は、監視情報記録処理部１２で監視情報に付加された点数を設定された所定時間の間、一時記憶領域として機能する累積点数記憶部２５に加算していく機能を有する。

障害判定処理部１４は、監視情報記録処理部１２又は点数累積処理部１３から送付された累積点数を、問題判定テーブル２３の閾値点数と比較することによって、障害発生の有無を検知し、障害有りの判定をした場合に、通報方法を決定する機能を有する。また、障害判定処理部１４は、点数更新用情報テーブル２４を参照することによって、誤った判定がなされた場合に問題判定テーブル２３中の閾値点数の補正を行う機能も有している。

通報実行部１５は、障害判定処理部１４で決定した通報方法に従って通報を実行する機能を有する。

点数付与ルールテーブル２１は、「サーバ(システム名)」、「監視種類」、「ルール条件」、「累積対象フラグ」、「累積グループ名」、「付与点数」のフィールドを有する。

サーバ(システム名)には、被監視装置１００のサーバ名又はシステム名が登録されている。

監視種類には、温度、電圧、ファン（回転数）、ＣＰＵ、メモリ、ディスク（ＤＢテーブル）、ネットワーク、プロセス、メッセージログ（アプリケーションログ、イベントログ、シスログ）、死活監視等の監視項目の種類が登録されている。

ルール条件には、監視種類で指定された監視項目の状態に対する閾値条件や文字列条件が登録されている。

閾値条件としては、上限又は下限の一方、或いは上限と下限の両方を指摘することが可能である。例えば、ＣＰＵの負荷率の場合であれば、「上限：８０％以上」、「下限：２０％以下」、或いは「上限：８０％以上、下限：２０％以下」のように指定することができる。また、文字列条件としては、メッセージログ等に含まれる所定の文字列が指定される。

累積対象フラグには、当該監視種類で指定された監視項目が点数を累積する対象であるかどうかを示すフラグとして、ＹＥＳ又はＮＯが登録されている。

累積グループ名には、点数の累積を行う単位となるグループを示す名称が登録されている。例えば、ある監視項目単独では重大な事態が発生しないが、他の監視項目と組み合わさった場合に重大な事態が発生すると想定できる場合、その組み合わせに含まれる複数の監視項目を１つのグループとし、そのグループを累積グループ名で区別する。

例えば、監視項目のうち、「温度」、「電圧」、「ファン」をグループとして、累積グループ名を「ＡＡ１」のように登録してある。

監視項目が累積対象でない場合（累積グループに属さない場合）には、累積グループ名に、「default」の文字列が登録されている。

付与点数には、監視項目又は累積グループ毎に付与する点数（１、２、３、・・・）が指定されている。

データ記憶部２２の記録情報は、「ＩＤ」、「サーバ（システム名）」、「監視種類」、「発生時刻」、「監視情報詳細」、「累積対象フラグ」、「点数」のフィールドを有する。

ＩＤには、監視情報記録処理部１２が付与した監視情報を一意に識別する識別番号（例えば、ＩＤ１、ＩＤ２、ＩＤ３、・・・）を登録する。

発生時刻には、監視情報が発生した時刻が指定され、監視情報詳細には、監視情報の詳細な内容を登録する。

点数には、点数付与ルールテーブル２１に基づいて付与された点数を登録する。

サーバ（システム名）、監視種類、累積対象フラグについては、点数付与ルールテーブル２１の対応するフィールドと同様である。

問題判定テーブル２３は、「累積グループ名」、「閾値点数」、「問題ランク」、「通報方法」のフィールドを有する。累積グループ名については、上述した通りである。

閾値点数には、監視項目又は累積グループ毎の点数(累積点数)の閾値が記載されている。この閾値点数には、重要度の違いに応じて幾つかの段階に分けた閾値を設定することが可能である。
障害判定処理部１４は、監視項目又は累積グループの点数又は累積点数が、閾値点数に登録された値を上回る場合に、被監視装置１００に障害が発生している（通報の必要有り）と判定する。

問題ランクには、上記点数の閾値に応じた問題の重要度（例えば、重要度が高い順に、Ａ、Ｂ、Ｃ・・・等）が記載されている。

通報方法には、パトランプの点灯、電子メールによる通知、他のアプリケーションへの通知、電話による通知又はそれらの組み合わせ等の問題の通報方法が記載されている。

点数更新用情報テーブル２４は、「累積グループ名」、「待機時間」、「サーバ（システム名）」、「監視種類」、「ルール条件」、「補正係数」のフィールドを有する。この点数更新用情報テーブル２４の累積グループ、サーバ（システム名）、監視種類、ルール条件のフィールドについては、点数付与ルールテーブル２１の各フィールドと同じデータが記載され、さらに、以下の待機時間と、補正係数のフィールドが追加されている。

待機時間には、更新用情報の待ち合わせ時間が指定されている。

補正係数には、問題判定テーブル２３の「閾値点数」フィールドの点数を補正するための係数が記載される。

累積点数記憶部２５は、「累積グループ名」、「累積点数」、「ＩＤ」のフィールドを有する。累積グループ名については、上述した通りである。

累積点数には、一定の設定時間の間に加算された点数が記載される。

ＩＤには、加算の対象になった監視情報のＩＤが記載される。

次に、上記障害検知通知装置１０のハードウェア構成例について、図１０を参照して説明する。

図１０を参照すると、障害検知通知装置１０は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができ、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメインメモリであり、データの作業領域やデータの一時退避領域に用いられる主記憶部４０２、ネットワーク６００を介してデータの送受信を行う通信部４０３、外部装置と接続してデータの送受信を行う入出力インタフェース部４０４、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置である補助記憶部４０５（例えば、点数付与ルールテーブル２１、データ記憶部２２、問題判定テーブル２３、点数更新用情報テーブル２４、累積点数記憶部２５は、この補助記憶部４０５上に構築される）、本情報処理装置の上記各構成要素を相互に接続するシステムバス４０６、ディスプレイ装置等の出力装置４０７及びキーボード等の入力装置４０８を備えている。

本実施の形態による障害検知通知装置１０は、障害の検知と通報を実行するプログラムを組み込んだ、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、監視情報取得部１１、監視情報記録処理部１２、点数累積処理部１３、障害判定処理部１４、通報実行部１５の各機能を提供するプログラムを、補助記憶部４０５に格納し、そのプログラムを主記憶部４０２にロードしてＣＰＵ４０１で実行することにより、ソフトウェア的に実現することも可能である。

（実施の形態による動作）
次に、上記のように構成される本実施の形態による障害検知通知装置１０の動作について、図１、図２〜図６及び図７を参照して説明する。図７、図８は、障害検知通知装置１０の動作内容を説明するフローチャートである。

図７を参照すると、監視情報取得部１１が、採取した被監視装置１００の監視情報を監視情報採取部１０１からＬＡＮ、インターネットを介して取得し、取得情報に不正がないかを確認した後、監視情報記録処理部１２に渡す（ステップＳ１０１）。

監視情報記録処理部１２は、点数付与ルールテーブル２１を参照して、「サーバ（システム）名」、「監視種類」、「ルール条件」に合致するかどうかを監視情報取得部１１から渡された監視情報1件１件に対して照合する（ステップＳ１０２）。

条件に合致した場合、監視情報記録処理部１２は、監視情報に、点数付与ルールテーブル２１に設定している「累積対象フラグ」（ＹＥＳ又はＮＯ）、「累積グループ名」、「付与点数」の情報を付加する。

条件に合致するものがなかった場合には、監視情報に、「累積対象フラグ」（＝ＮＯ）、「累積グループ」（＝default）、「付与点数」の情報を付加する。

点数付与ルールテーブル２１との照合が終了すると、監視情報記録処理部１２は、その監視情報に関して、ＩＤ、サーバ（システム）名、監視種類、発生時刻、監視情報詳細、累積対象フラグ、点数の情報を、図３に示すように記録情報としてデータ記録部２２に登録する（ステップＳ１０３）。

また、監視情報記録処理部１２は、付加された「累積対象フラグ」を参照して（ステップＳ１０４）、累積対象フラグ＝ＹＥＳであればデータ記録部２２に記録した情報を点数累積処理部１３へ送付し（ステップＳ１０５）、累積対象フラグ＝ＮＯの場合には、情報を障害判定処理部１４へ送付する（ステップＳ１０６）。

点数累積処理部１３は、送付された記録情報を受け取ると、累積グループ名単位で累積点数記憶部２５の記録情報と同じ累積グループ名に対応する累積点数に、記録情報に付与された点数を加算する（ステップＳ１０７〜Ｓ１０９）。

点数累積処理部１３による点数の加算は、予め設定した一定の設定時間間隔で行う。この設定時間については、監視する被監視装置１００の種類や稼動状況等に応じて任意の時間を予め設定するものとする。

点数累積処理部１３は、最初に情報を受け取ったときから累積グループ名毎に設定時間のカウントを開始し（ステップＳ１０７）、設定時間の間待ち合わせを行い、カウントが終了するまで（ステップＳ１０９）、記録情報に付加された点数を累積点数記憶部２５の「累積点数」に累積していく（ステップＳ１０８）。

カウントが終了すると、累積点数記憶部２５の累積点数と、カウント開始から終了までに到着した記録情報を障害判定処理部１４へ送付する（ステップＳ１１０）。

なお、設定時間のカウントが終了後、新たな情報を受け取った場合、累積点数記憶部２５は、受け取り次第再び設定時間のカウントを開始して、点数を累積する。

障害判定処理部１４では、累積点数を受け取ると、問題判定テーブル２３に基づいて、通報の必要性、問題の重要度、通報方法を判定する（ステップＳ１１１）。

障害判定処理部１４による判定処理の詳細について以下に説明する。
（１）記録情報が累積対象フラグ＝ＮＯである場合（監視情報記録処理部１２から送付された記録情報の場合）
問題判定テーブル２３の「累積グループ名」＝defaultのフィールドを参照して、その「閾値点数」と送付された記録情報に記録されている「点数」とを比較して、「点数」が「閾値点数」を上回っている場合に被監視装置１００に障害が発生していると判定し、通報の必要有りの決定をする。
（２）情報が累積対象フラグ＝ＹＥＳである場合（点数累積処理部１３から送付された記録情報の場合）
問題判定テーブル２３の該当する「累積グループ名」を参照して、対応する「閾値点数」と点数累積処理部１３から送られてきた「累積点数」とを比較して、「累積点数」が「閾値点数」を上回っている場合に被監視装置１００に障害が発生していると判定し、通報の必要有りの決定をする。

通報の必要有りと決定した場合、障害判定処理部１４は、問題判定テーブル２３を参照し、「問題ランク」に記載された重要度と、「通報方法」に記載された通報方法を指定し、通報実行部１５に対して通報を指示する。

例えば、重要度が低い場合には、通報方法としてパトランプの点灯を指定し、重要度が高い場合には、通報方法としてパトランプの点灯に加えて、電子メールによる通報を指定することが考えられる。

なお、上記何れの場合にも、点数又は累積点数が問題判定テーブル２３を「閾値点数」を下回っている場合には、障害が発生していないと判定し、通報の必要無しと決定し、通報は行わない。

障害判定処理部１４から通報の指示を受けると、通報実行部１５が指示された通報方法で通報を実施する（ステップＳ１１２）。

その際、電子メール、他アプリケーションへの通知、電話での通報に関しては、監視情報についてデータ記録部２２に記録した記録情報の内容を添付して通知を行う。さらに、点数の累積対象である監視情報に関しては、累積グループに含まれる全ての監視項目の内容を添付して通知する。

また、パトランプの点灯によって障害を通報するようにしてもよい。さらに、パトランプの点灯は、電子メールや他アプリケーションへの通知と併せて、行うようにしてもよい。

次に、障害判定処理部１４による問題判定テーブル２３の「閾値点数」の補正処理について、図８及び図９を参照して説明する。

まず、障害有り（通報の必要有り）の判定が誤判定であった場合の補正処理について、図８のフローチャートを参照して説明する。

障害判定処理部１４は、障害有り（通報の必要有り）と判定し通報を実施した後、点数更新用情報テーブル２４を参照して「待機時間」に指定された時間の間、想定される障害が発生したかどうかを、すなわち、通報した累積グループ名と同じ累積グループ名の記録情報が、待機時間の間に点数累積処理部１３から到着したかどうかを判定する（ステップＳ２０１〜２０３）。

通報した累積グループ名と同じ累積グループ名の記録情報が、待機時間の間に到着した場合には、障害有り（通報の必要有り）の判定が適切であったと判断できるので、閾値点数の補正処理を行わない。

通報した累積グループ名と同じ累積グループ名の記録情報が、待機時間の間に到着しない場合には、障害有り（通報の必要有り）の判定が誤判定であったと判断できるので、点数更新用情報テーブル２４の同じ累積グループ名に対応する「補正係数」を使用して算出した補正点数αを問題判定テーブル２３の「閾値点数」フィールドに加算することによって、「閾値点数」の点数を補正する（ステップＳ２０４）。

この補正点数αは、例えば下記の式に基づいて算出する。
補正点数α＝（Ｘ−Ｙ）＊Ｆ
ここで、Ｘ：累積点数記憶部２５の「累積点数」の値、Ｙ：問題判定テーブル２３の「閾値点数」の値、Ｆ：点数更新用情報テーブル２４の「補正係数」の値である。

次に、障害無し（通報の必要無し）の判定が誤判定であった場合の補正処理について、図９のフローチャートを参照して説明する。

障害判定処理部１４は、障害無し（通報の必要無し）と判定した後、点数更新用情報テーブル２４に登録している障害が発生したかどうかを判定する。すなわち、障害判定処理部１４は、点数累積処理部１３から監視情報が到着すると、到着した監視情報が、点数更新用情報テーブル２４の同じ累積グループ名のルール条件に合致するかどうかを判定する（ステップＳ３０１）。

到着した監視情報が、点数更新用情報テーブル２４のルール条件に合致しない場合には、点数更新用情報テーブル２４に登録している障害は発生していない（障害無し（通報の必要無し）の判定が適切）と判断し、処理を終了する。

到着した監視情報が、点数更新用情報テーブル２４の同じ累積グループ名のルール条件に合致する場合、点数累積処理部１３において点数の累積（図７のステップＳ１０７〜Ｓ１０９）が行われているかどうかを判定する（ステップＳ３０２）。

点数の累積が行われている場合には、設定時間のカウントが終了するまで待ち合わせる。

点数の累積が行われていない場合には、さらに、点数更新用情報テーブル２４の「待機時間」の待ち合わせ中であるかを判定する（ステップＳ３０３）。待機時間の待ち合わせ中であれば、障害有り（通報の必要有り）と判定した場合であるので、処理を終了する。

待機時間の待ち合わせ中でなければ、障害無し（通報の必要無し）の判定を行ったにもかかわらず、点数更新用情報テーブル２４に登録している障害が発生したと判断することができる。すなわち、障害無しの判定が誤判定であったと判断できるので、点数更新用情報テーブル２４の「補正係数」を参照して算出した補正点数βを、問題判定テーブル２３の「閾値点数」フィールドから減算することにより、「閾値点数」の点数を補正する（ステップＳ３０４）。

この補正点数βは、例えば下記の式に基づいて算出する。
補正点数β ＝Ｙ＊Ｆ

（第１の実施の形態による効果）
本実施の形態によれば、監視項目に対する監視情報毎に、点数付与ルールテーブル２１のルール条件に従って点数を付与すると共に、複数の監視項目の組み合わせたグループ毎に、点数を累積し、累積した点数に基づいて障害の有無を検知するため、監視項目が複合的に組み合わさって発生する障害を検出し、通報することが可能となる。

また、監視項目のグループ毎に、障害の重要度に応じた通報方法を設定しておくことにより、障害の重要度に応じた適切な通報方法を選択することができる。

以上好ましい実施の形態と実施例をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態及び実施例に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。

上記の実施の形態は、障害の検知と通報を行う障害検知通報装置について説明したが、上述した方法によって障害の検知だけを行い、通報については、通報実行部１５として機能する外部の装置に通報を指示する構成とすることも可能である。

本発明の実施の形態による障害検知通報装置の構成を示すブロック図である。本発明の実施の形態における点数付与ルールテーブルの構成例を示す図である。本発明の実施の形態におけるデータ記憶部の記録情報の構成例を示す図である。本発明の実施の形態における問題判定テーブルの構成例を示す図である。本発明の実施の形態における累積点数記憶部の登録内容の構成例を示す図である。本発明の実施の形態における点数更新用情報テーブルの構成例を示す図である。本発明の実施の形態による障害検知通報装置の動作を説明するフローチャートである。本発明の実施の形態による障害検知通報装置における閾値の補正処理の動作を説明するフローチャートである。本発明の実施の形態による障害検知通報装置における閾値の補正処理の動作を説明するフローチャートである。本発明の実施の形態による障害検知通報装置のハードウェア構成例を示すブロック図である。

符号の説明

１０：障害検知通報装置
１１：監視情報取得部
１２：監視情報記録処理部
１３：点数累積処理部
１４：障害判定処理部
１５：通報実行部
２１：点数付与ルールテーブル
２２：データ記憶部２２
２３：問題判定テーブル
２４：点数更新用情報テーブル
２５：累積点数記憶部
１００：被監視装置
１０１：監視情報採取部

Claims

被監視対象から取得した所定の監視項目に対する監視情報に基づいて、前記被監視対象の障害の発生を検知する障害検知装置であって、
前記監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する手段と、
複数の前記監視項目のグループ毎に、前記点数を累積する点数累積手段と、
累積した点数と、前記グループ毎に設定した閾値とを比較することにより、前記被監視対象の障害の有無を判定する判定手段と
を備えることを特徴とする障害検知装置。
前記障害と判定した場合に通報を実行する通報実行手段を備え、
前記判定手段は、前記障害有りと判定した場合に、前記グループの種類毎に設定された通報方法を選択し、前記通報実行手段に指示することを特徴とする請求項１に記載の障害検知装置。
段階的に複数設定された閾値毎に異なる通報方法が設定され、
前記判定手段は、前記累積した点数が上回った閾値に応じて通報方法を選択して、前記通報実行手段に指示することを特徴とする請求項２に記載の障害検知装置。
前記判定手段は、障害の有無の判定が誤判定であった場合、所定の補正係数に基づいて、前記閾値を増減することを特徴とする請求項１から請求項３の何れかに記載の障害検知装置。
前記判定手段は、障害有りの判定が誤判定であった場合、所定の補正係数を使用して算出した値を前記閾値に加算することにより、前記閾値を補正することを特徴とする請求項４に記載の障害検知装置。
前記判定手段は、障害無しの判定が誤判定であった場合、所定の補正係数を使用して算出した値を、前記閾値から減算することにより、前記閾値を補正することを特徴とする請求項４に記載の障害検知装置。
前記監視項目毎に、点数を付与するか否かを示すルール条件と、点数を累積するか否かを示す累積対象フラグと、グループ名と、付与する点数を登録したルールテーブルを備え、
前記点数を付与する手段は、前記監視情報を取得すると、前記ルールテーブルを参照し、前記監視情報に示される前記監視項目の値が前記ルール条件を満たし、かつ、累積対象フラグに累積対象であることが示されている場合に、前記監視情報に、前記ルールテーブルに登録されている点数を付与することを特徴とする請求項１から請求項６の何れかに記載の障害検知装置。
前記グループ毎に、累積点数を記録する累積点数記憶手段と、前記グループ毎に、前記閾値と、障害の重要度を示す問題ランクと、前記問題ランクに応じて少なくとも１の前記通報方法を登録した問題判定テーブルを備え、
前記点数累積手段は、前記監視情報に付与された点数を、前記累積点数記憶手段の累積点数に累積し、
前記判定手段は、前記累積点数記憶手段の前記累積点数を、前記問題判定テーブルの前記閾値と比較することで、障害の有無を判定し、障害有りの判定の場合に、前記問題ランクの重要度に応じて前記通報方法を選択することを特徴とする請求項２から請求項７の何れかに記載の障害検知装置。
前記判定手段は、予め定めた設定時間の間に累積した点数を、前記閾値と比較することで、前記障害の有無を判定することを特徴とする請求項１から請求項８の何れかに記載の障害検知装置。
前記グループ毎に、前記閾値を補正するための補正係数を登録した更新用テーブルを備え、
前記判定手段は、
障害有りの判定をした場合、所定の待機時間の間に、障害有りの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得しない場合に、前記障害有りの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値に加算し、
障害無しの判定をした場合、障害無しの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得した場合に、前記障害無しの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値から減算することを特徴とする請求項４又は請求項５に記載の障害検知装置。
被監視対象から取得した所定の監視項目に対する監視情報に基づいて、前記被監視対象の障害の発生を検知する障害検知方法であって、
前記監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与するステップと、
複数の前記監視項目のグループ毎に、前記点数を累積するステップと、
累積した点数と、前記グループ毎に設定した閾値とを比較することにより、前記被監視対象の障害の有無を判定する判定ステップと
を含むことを特徴とする障害検知方法。
前記判定ステップで前記障害有りと判定した場合に、前記グループの種類毎に設定された通報方法によって通報を実行する通報ステップを含むことを特徴とする請求項１１に記載の障害検知方法。
段階的に複数設定された閾値毎に異なる通報方法が設定され、
前記判定ステップで、前記累積した点数が上回った閾値に応じて通報方法を選択して、前記通報ステップで、選択した通報方法によって通報を実行することを特徴とする請求項１２に記載の障害検知方法。
前記判定ステップが、障害の有無の判定が誤判定であった場合、所定の補正係数に基づいて、前記閾値を増減するステップを含むことを特徴とする請求項１１から請求項１３の何れかに記載の障害検知方法。
前記判定ステップが、障害有りの判定が誤判定であった場合、所定の補正係数を使用して算出した値を前記閾値に加算することにより、前記閾値を補正するステップを含むことを特徴とする請求項１４に記載の障害検知方法。
前記判定ステップが、障害無しの判定が誤判定であった場合、所定の補正係数を使用して算出した値を、前記閾値から減算することにより、前記閾値を補正するステップを含むことを特徴とする請求項１４に記載の障害検知方法。
前記監視項目毎に、点数を付与するか否かを示すルール条件と、点数を累積するか否かを示す累積対象フラグと、グループ名と、付与する点数を登録したルールテーブルを備え、
前記点数を付与するステップにおいて、前記監視情報を取得すると、前記ルールテーブルを参照し、前記監視情報に示される前記監視項目の値が前記ルール条件を満たし、かつ、累積対象フラグに累積対象であることが示されている場合に、前記監視情報に、前記ルールテーブルに登録されている点数を付与することを特徴とする請求項１１から請求項１６の何れかに記載の障害検知方法。
前記グループ毎に、累積点数を記録する累積点数記憶手段と、前記グループ毎に、前記閾値と、障害の重要度を示す問題ランクと、前記問題ランクに応じて少なくとも１の前記通報方法を登録した問題判定テーブルを備え、
前記点数を累積するステップにおいて、前記監視情報に付与された点数を、前記累積点数記憶手段の累積点数に累積し、
前記判定ステップにおいて、前記累積点数記憶手段の前記累積点数を、前記問題判定テーブルの前記閾値と比較することで、障害の有無を判定し、障害有りの判定の場合に、前記問題ランクの重要度に応じて前記通報方法を選択することを特徴とする請求項１２から請求項１７の何れかに記載の障害検知方法。
前記判定ステップで、予め定めた設定時間の間に累積した点数を、前記閾値と比較することで、前記障害の有無を判定することを特徴とする請求項１１から請求項１８の何れかに記載の障害検知方法。
前記グループ毎に、前記閾値を補正するための補正係数を登録した更新用テーブルを備え、
前記判定ステップにおいて、
障害有りの判定をした場合、所定の待機時間の間に、障害有りの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得しない場合に、前記障害有りの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値に加算し、
障害無しの判定をした場合、障害無しの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得した場合に、前記障害無しの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値から減算することを特徴とする請求項１４又は請求項１５に記載の障害検知方法。
コンピュータ上で実行され、被監視対象から取得した所定の監視項目に対する監視情報に基づいて、前記被監視対象の障害の発生を検知するプログラムであって、
前記コンピュータに、
前記監視項目に対する監視情報毎に、所定のルール条件に従って点数を付与する処理と、
複数の前記監視項目のグループ毎に、前記点数を累積する処理と、
累積した点数と、前記グループ毎に設定した閾値とを比較することにより、前記被監視対象の障害の有無を判定する判定処理を、実行させることを特徴とするプログラム。
前記判定処理で前記障害有りと判定した場合に、前記グループの種類毎に設定された通報方法によって通報を実行する通報処理を実行させることを特徴とする請求項２１に記載のプログラム。
段階的に複数設定された閾値毎に異なる通報方法が設定され、
前記判定処理で、前記累積した点数が上回った閾値に応じて通報方法を選択して、前記通報処理で、選択した通報方法によって通報を行うことを特徴とする請求項２２に記載のプログラム。
前記判定処理が、障害の有無の判定が誤判定であった場合、所定の補正係数に基づいて、前記閾値を増減する処理を含むことを特徴とする請求項２１から請求項２３の何れかに記載のプログラム。
前記判定処理が、障害有りの判定が誤判定であった場合、所定の補正係数を使用して算出した値を前記閾値に加算することにより、前記閾値を補正する処理を含むことを特徴とする請求項２４に記載のプログラム。
前記判定処理が、障害無しの判定が誤判定であった場合、所定の補正係数を使用して算出した値を、前記閾値から減算することにより、前記閾値を補正する処理を含むことを特徴とする請求項２４に記載のプログラム。
前記監視項目毎に、点数を付与するか否かを示すルール条件と、点数を累積するか否かを示す累積対象フラグと、グループ名と、付与する点数を登録したルールテーブルを備え、
前記点数を付与する処理において、前記監視情報を取得すると、前記ルールテーブルを参照し、前記監視情報に示される前記監視項目の値が前記ルール条件を満たし、かつ、累積対象フラグに累積対象であることが示されている場合に、前記監視情報に、前記ルールテーブルに登録されている点数を付与することを特徴とする請求項２１から請求項２６の何れかに記載のプログラム。
前記グループ毎に、累積点数を記録する累積点数記憶手段と、前記グループ毎に、前記閾値と、障害の重要度を示す問題ランクと、前記問題ランクに応じて少なくとも１の前記通報方法を登録した問題判定テーブルを備え、
前記点数を累積する処理において、前記監視情報に付与された点数を、前記累積点数記憶手段の累積点数に累積し、
前記判定処理において、前記累積点数記憶手段の前記累積点数を、前記問題判定テーブルの前記閾値と比較することで、障害の有無を判定し、障害有りの判定の場合に、前記問題ランクの重要度に応じて前記通報方法を選択することを特徴とする請求項２２から請求項２７の何れかに記載のプログラム。
前記判定処理で、予め定めた設定時間の間に累積した点数を、前記閾値と比較することで、前記障害の有無を判定することを特徴とする請求項２１から請求項２８の何れかに記載のプログラム。
前記グループ毎に、前記閾値を補正するための補正係数を登録した更新用テーブルを備え、
前記判定処理において、
障害有りの判定をした場合、所定の待機時間の間に、障害有りの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得しない場合に、前記障害有りの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値に加算し、
障害無しの判定をした場合、障害無しの判定をした前記グループに含まれる監視項目に対する前記監視情報を取得した場合に、前記障害無しの判定が誤判定と判断して、前記更新用テーブルの補正係数を使用して算出した値を前記閾値から減算することを特徴とする請求項２４又は請求項２５に記載のプログラム。