JP3983138B2

JP3983138B2 - 障害情報収集プログラムおよび障害情報収集装置

Info

Publication number: JP3983138B2
Application number: JP2002250050A
Authority: JP
Inventors: 幹也中條
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-08-29
Filing date: 2002-08-29
Publication date: 2007-09-26
Anticipated expiration: 2022-08-29
Also published as: US20040044929A1; US7281172B2; JP2004086792A

Description

【０００１】
【発明の属する技術分野】
本発明はネットワーク環境を監視するための障害情報収集プログラムおよび障害情報収集装置に関し、特に冗長構成によってネットワークの状態を示すメッセージを受け取ることができる障害情報収集プログラムおよび障害情報収集装置に関する。
【０００２】
【従来の技術】
近年、業務のコンピュータ化が進み、多くの企業が社内にコンピュータネットワークを構築している。これにより、たとえば業務のために作成された文書は、電子メールやグループウェア等の機能を用いてネットワーク経由で関係者に配付されるのが一般的になっている。
【０００３】
このようにネットワークが日常の業務に深く関わるようになったことで、ネットワークに障害が発生したときの業務上の損失も大きくなっている。そのため、ネットワークの状態を監視し、障害が発生したとき、あるいは障害の原因となり得る事象が検出されたときには迅速に対処することが求められている。
【０００４】
複数の小規模なネットワークの組み合わせで構成される大規模なネットワークを監視する場合、小規模のネットワーク毎に技術者を配置して監視していたのでは、ネットワークを管理する技術者が大勢必要となり非効率的である。そこで、ネットワーク上で発生した障害に関する情報を特定のサーバに集め、そのサーバで障害等の解析を行う方法が採られている。これにより、ネットワークの監視を効率よく行うことができる。
【０００５】
なお、ネットワーク上で障害が発生しても、その障害を示す情報がサーバに届かなくては、対処することができない。そのため、サーバで遠隔地のネットワークを監視するには、各ネットワークの障害に関する情報が間違いなくサーバに送られてくる必要がある。
【０００６】
そこで、一般的には、監視対象のネットワークからサーバまでの情報伝達経路に冗長性を持たせている。具体的には、監視対象のネットワークの障害に関する障害情報を管理サーバに送るための通信経路が複数設けられる。そして、通常は一方の経路から障害情報を管理サーバに転送し、その経路に障害が発生すると、障害情報の伝送経路を他の経路に切り替える。このようにして、障害情報が確実に管理サーバに届けられる。
【０００７】
ただし、障害発生時に経路切替を行うシステムでは、最初の経路で障害が発生してから、その障害が確認され経路の切替が行われるまでの間、サーバに障害情報が届かないという問題がある。
【０００８】
そこで、常に複数の通信経路のそれぞれを介して、障害情報を重複してサーバに送る方法が考えられる。障害情報を重複して送信すれば、一方の通信経路に障害が発生しても、他方の通信経路を介した障害情報がサーバに届けられる。
【０００９】
ところが、常に複数の通信経路を介して重複した情報を管理サーバに送ると、管理サーバでは同様の障害が多発したのか、それとも単一の障害に関して二重通報されたのかが判断できない。ネットワーク上の障害によっては、障害の発生頻度によって対処方法が異なる場合があるため、二重通報があるとシステム管理者の混乱を招く。
【００１０】
なお、二重通報を防止する技術として、たとえば、特開平１−１２３３５５号公報に記載された相互監視制御方式がある。この発明では、送信側から複数の物理通信パスに同一の電文を並列的に送信し、受信側では、先着の電文を採り後着の電文を捨てるようにしている。これにより、一方の物理通信パスに障害が発生しても、他方の物理通信パスによって電文が受信側に渡される。その結果、障害を通知する電文を確実に他のコンピュータに渡すことができる。
【００１１】
なお、上記公報記載の発明は、ホストコンピュータにおいて重複して出力される複数の電文に、同一の識別情報（時刻識別子や通番）が付与されている。受信側のホストコンピュータでは、識別情報が同一の電文同士の到着の前後関係を比較することで、重複して出力された電文のうち、後着の電文を捨てることができる。
【００１２】
【発明が解決しようとする課題】
しかし、上記公報記載の発明のように、電文の送信元のホストコンピュータが１つの場合、物理通信パスが複数設けられていたとしても、送信元のホストコンピュータの障害により電文の通信が途絶えてしまう。そこで、１つのネットワークの状態を複数のコンピュータ（監視サーバ）で監視することが考えられる（監視サーバを含めた冗長構成）が、その場合、異なる監視サーバにより重複して出力される電文に同一の識別情報を付与するのは困難である。
【００１３】
たとえば、ポーリングによりネットワークの状態を監視する場合、監視サーバ毎にポーリングのタイミングが異なる。そのため、同一事象による障害であっても、その障害を検出する時刻が異なる。その結果、受信側では、障害の検出時刻を参照しても、同一の事象に基づく通報か否か（重複しているか否か）の判断ができない。
【００１４】
本発明はこのような点に鑑みてなされたものであり、同一の監視対象の状態を示す情報を複数の装置から受信した場合でも、同一事象に関する情報の重複の有無を的確に判別することができる障害情報収集プログラムおよび障害情報収集装置を提供することを目的とする。
【００１５】
【課題を解決するための手段】
本発明では上記課題を解決するために、図１に示す様な処理をコンピュータに実行させるための障害情報収集プログラムが提供される。なお、本発明に係る障害情報収集プログラムは、冗長構成のネットワークを介して障害情報を収集するためのものである。本発明に係る障害情報収集プログラムに従って、コンピュータは以下の処理を実行する。
【００１６】
まず、障害の検出日時および通報周期が含まれた新規の障害情報６ａ，６ｂを受信すると、過去の障害の検出日時および通報周期を含む複数の障害情報が蓄積された通報情報記憶手段４から、新規の障害情報６ａ，６ｂと同一事象の障害を示す障害情報を検索する。次に、新規の障害情報６ａ，６ｂと同一事象の障害を示す障害情報がない場合には、新規の障害情報を有効な障害情報として通報情報記憶手段４に格納する。新規の障害情報６ａ，６ｂと同一事象の障害を示す障害情報がある場合には、新規の障害情報６ａ，６ｂと同一事象の障害を示す直近の障害情報４ａを取得する。新規の障害情報６ａ，６ｂで示された障害の検出日時が、直近の障害情報４ａで示される障害の検出日時から直近の障害情報４ａで示される通報周期を経過したか否かを判定する。そして、通報周期の経過後であれば、新規の障害情報を有効な障害情報として通報情報記憶手段４に格納する。
【００１７】
このようなコンピュータによれば、新規の障害情報６ａ，６ｂを受信すると、通報情報記憶手段４から新規の障害情報６ａ，６ｂと同一事象の障害を示す直近の障害情報４ａが取得される。次に、新規の障害情報６ａ，６ｂで示された障害の検出日時が、直近の障害情報４ａで示される障害の検出日時から直近の障害情報４ａで示される通報周期を経過したか否かが判定され、通報周期の経過後であれば、新規の障害情報が有効な障害情報として通報情報記憶手段４に格納される。
【００１８】
また、本発明では上記課題を解決するために、冗長構成のネットワークを介して障害情報を収集する障害情報収集装置において、過去の障害の検出日時および通報周期を含む複数の障害情報が蓄積された通報情報記憶手段と、障害の検出日時および通報周期が含まれた新規の障害情報を受信すると、前記通報情報記憶手段から前記新規の障害情報と同一事象の障害を示す障害情報を検索し、前記新規の障害情報と同一事象の障害を示す障害情報がある場合には、前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得する取得手段と、前記新規の障害情報で示された障害の検出日時が、前記取得手段で取得された前記直近の障害情報で示される障害の検出日時から前記直近の障害情報で示される通報周期を経過したか否かを判定する判定手段と、前記新規の障害情報と同一事象の障害を示す障害情報が前記通報情報記憶手段にない場合、または、前記判定手段により前記通報周期の経過後と判定された場合、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する格納手段と、を有することを特徴とする障害情報収集装置が提供される。
【００１９】
このような障害情報収集装置によれば、新規の障害情報を受信すると、通報情報記憶手段から新規の障害情報と同一事象の障害を示す直近の障害情報が取得される。次に、新規の障害情報で示された障害の検出日時が、直近の障害情報で示される障害の検出日時から直近の障害情報で示される通報周期を経過したか否かが判定され、通報周期の経過後であれば、新規の障害情報が有効な障害情報として通報情報記憶手段に格納される。
【００２０】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
【００２１】
図１は、実施の形態に適用される発明の概念図である。本発明では、監視対象ノード１に対して、ネットワークを介して複数の監視サーバ２ａ，２ｂが接続されている。なお、監視対象ノード１のノード名は「Node#1」であるものとする。また、監視サーバ２ａ，２ｂは、それぞれ個別のネットワークを介して障害情報収集装置３に接続されている。障害情報収集装置３は、障害に関する情報を格納するための通報情報記憶手段４を有している。通報情報記憶手段４には、過去の障害の検出日時を含む複数の障害情報４ａ，４ｂが蓄積されている。
【００２２】
監視サーバ２ａは、監視対象ノード１の動作を監視している。たとえば、監視サーバ２ａは、監視対象ノード１の運用状況を示す管理情報５ａを、定期的に監視対象ノード２ａから取得する。そして、監視サーバ２ａは、管理情報５ａを解析し、障害があると判断すると、障害情報６ａを障害情報収集装置３に送信する（障害通報を行う）。なお、ここでいう障害には、障害の発生原因となるさまざまな事象（通信負荷の増加）等を含む。
【００２３】
同様に監視サーバ２ｂは、監視対象ノード１の動作を監視している。たとえば、監視サーバ２ｂは、監視対象ノード１の運用状況を示す管理情報５ｂを、定期的に監視対象ノード１から取得する。なお、管理情報５ｂを取得する周期は、監視サーバ２ａが管理情報５ａを取得する周期と同じである。そして、監視サーバ２ｂは、管理情報５ｂを解析し、障害があると判断すると、障害情報６ｂを障害情報収集装置３に送信する（障害通報を行う）。
【００２４】
このように、本発明では、冗長構成のネットワークにより監視対象ノード１が監視され、障害情報６ａ，６ｂが障害情報収集装置３に送られる。図１の例では、障害情報６ａ，６ｂには、障害の検出日時、監視対象ノード１のノード名、障害種別等の情報が含まれている。監視サーバ２ａから出力された障害情報６ａは、障害の検出日時「２００２年８月１日１２時２５分」、監視対象ノードのノード名「Node#1」、障害種別「Error#1」である。監視サーバ２ｂから出力された障害情報６ｂは、障害の検出日時「２００２年８月１日１２時２８分」、監視対象ノードのノード名「Node#1」、障害種別「Error#1」である。
【００２５】
障害情報収集装置３は、新規の障害情報６ａ，６ｂが入力されると、通報情報記憶手段４から新規の障害情報６ａ，６ｂと同一事象の障害を示す直近の障害情報４ａを取得する（ステップＳ１）。ここで同一事象であるということは、たとえば、新規の障害情報で示される監視対象ノードと障害の種別とが同一ということである。図１の例では、障害情報６ａが入力された際には、障害情報４ａが取得される（障害情報４ｂは、障害種別が異なるため取得の対象とならない）。また、最終的に障害情報６ａは障害情報記憶手段４に格納されるため、障害情報６ｂが入力された際には、障害情報記憶手段４に格納された障害情報６ａが取得される。
【００２６】
次に、新規の障害情報６ａ，６ｂで示された障害の検出日時が、直近の障害情報４ａで示される障害の検出日時から所定の通報周期を経過したか否かを判定する（ステップＳ２）。なお、図１の例では、通報周期は１０分であるものとする。
【００２７】
障害情報６ａについては、障害情報４ａと比較される。直近の障害情報４ａの障害の検出日時は「２００２年８月１日１２時１５分であり、新規の障害情報６ａの障害の検出日時は「２００２年８月１日１２時２５分である。この場合、１０分経過しており、通報周期を経過していると判断される。
【００２８】
障害情報６ｂについては、障害情報６ａと比較される。直近の障害情報６ａの障害の検出日時は「２００２年８月１日１２時２５分であり、新規の障害情報６ｂの障害の検出日時は「２００２年８月１日１２時２８分である。この場合、３分しか経過してないため、通報周期を経過していないと判断される。
【００２９】
ここで、所定の通報周期は、たとえば、直近の障害情報内で指定されている情報を用いることができる。その場合、監視サーバ２ａ，２ｂが障害情報６ａ，６ｂを出力する際に、障害内容に応じた通報周期の値を障害情報６ａ，６ｂに含める。なお、通報周期としては、たとえば、監視サーバ２ａ，２ｂが監視対象ノード１に対して、監視対象ノード１の動作状態を示す管理情報５ａ，５ｂを取得するためのポーリングを行う周期が用いられる。
【００３０】
通報周期を経過したと判定された場合、新規の障害情報を有効な障害情報として通報情報記憶手段４に格納する（ステップＳ３）。図１の例では、障害情報６ａは通報情報記憶手段４に格納されるが、障害情報６ｂは格納されずに破棄される。
【００３１】
このように、同一事象に関する直近の障害情報から通報周期を経過している場合にのみ新規の障害情報を格納することで、冗長構成により重複して送られてくる複数の障害情報のうちの１つだけを、障害情報記憶手段４に格納することができる。その結果、複数の監視サーバ２ａ，２ｂでネットワーク上の環境を同時に監視した場合でも、障害情報の重複登録を回避することができる。
【００３２】
すなわち、所定の通報周期として監視サーバ２ａ，２ｂにおける障害検出動作の最短期間（たとえば、監視対象ノード１の監視のためのポーリング周期）を設定しておけば、それより短い期間で同一事象の障害情報が複数出された場合、重複した障害情報であると考えることができる。そこで、通報周期より短い期間で同一事象に関する複数の障害情報を受け取ると、２つめ以降を破棄することで、障害情報の二重登録が回避される。
【００３３】
なお、ネットワークの状態を示す情報は、たとえばポーリングにより取得することができる。ポーリングで情報を取得することで、監視対象ノードの構成の構成を簡略化ことができる。すなわち、監視対象ノードに特別な機能を付加せずに、その監視対象ノードが接続されているネットワークに関する情報を収集することが可能となる。以下、ポーリングで情報を収集することができるネットワーク監視システムの例を用いて、本発明の実施の形態を具体的に説明する。
【００３４】
図２は、本実施の形態におけるネットワーク監視システムの構成例を示す図である。本実施の形態に係るネットワーク監視システムは、主に障害情報収集サーバ１００、監視サーバ２１０，２２０、監視対象ノード３１０，３２０，３３０で構成される。
【００３５】
障害情報収集サーバ１００は、ネットワーク２１を介して監視サーバ２１０に接続されている。また、障害情報収集サーバ１００は、ネットワーク２２を介して監視サーバ２２０に接続されている。
【００３６】
監視サーバ２１０は、ネットワーク２３を介して、監視対象ノード３１０，３２０，３３０に接続されている。監視サーバ２１０をネットワーク上で識別するためのノード名は「Ｂ０１」である。同様に、監視サーバ２２０は、ネットワーク２３を介して、監視対象ノード３１０，３２０，３３０に接続されている。監視サーバ２２０をネットワーク上で識別するためのノード名は「Ｂ０２」である。
【００３７】
監視対象ノード３１０は、ネットワーク２４に接続されている。監視対象ノード３１０をネットワーク上で識別するためのノード名は「Ａ０１」である。監視対象ノード３２０は、ネットワーク２５に接続されている。監視対象ノード３２０をネットワーク上で識別するためのノード名は「Ａ０２」である。監視対象ノード３３０は、ネットワーク２６に接続されている。監視対象ノード３３０をネットワーク上で識別するためのノード名は「Ａ０３」である。
【００３８】
監視対象ノード３１０，３２０，３３０は、接続されたネットワークの運用状況等に関する情報（管理情報）を保持し、その情報を逐次更新している。監視対象ノード３１０，３２０，３３０は、たとえば、接続されたネットワークの状態を監視し、そのネットワークを介して伝送される単位時間当たりのパケット量などの情報を保持している。このような情報収集を行う監視対象ノード３１０，３２０，３３０には、たとえば、ルータがある。
【００３９】
２つの監視サーバ２１０，２２０は、それぞれネットワーク２３を介して、監視対象ノード３１０，３２０，３３０に保持されているネットワークの管理情報をポーリングによって取得する。たとえば、ＳＮＭＰ(Simple Network Management Protocol)を用いて、ネットワークの管理情報を取得することができる。監視サーバ２１０，２２０は、取得した管理情報の内容を解析し、障害の有無を判断する。障害があると判断された場合、監視サーバ２１０，２２０は、障害の内容を示す障害情報を障害情報収集サーバ１００に送信する。
【００４０】
障害情報収集サーバ１００は、監視サーバ２１０，２２０から送られる障害情報を受け取り、その障害情報を蓄積する。その際、障害情報収集サーバ１００は、同一事象に関する重複した障害情報を検出し、重複した障害情報の場合には、最初の障害情報のみを蓄積する。障害情報が重複しているか否かは、障害の検出日時が、所定の管理情報（管理対象ノード、障害種別番号）が共通する直前の障害情報で通知された障害の検出日時から、所定の通報間隔以上経過しているか否かで判断される。
【００４１】
たとえば、ネットワーク２４での単位時間当たりの転送パケット数が過大になると、過大な転送パケット数を示す情報が監視対象ノード３１０に格納される。その情報は、監視サーバ２１０と監視サーバ２２０とのそれぞれにより、ポーリングで取得される。各監視サーバ２１０，２２０は、転送パケット数が過大であると判断し、それぞれ障害情報を障害情報収集サーバ１００に送信する。すると、障害情報収集サーバ１００には、監視対象ノード３１０における転送パケット数の過大を示す障害情報が、監視サーバ２１０と監視サーバ２２０とから重複して送られる。
【００４２】
そこで、障害情報収集サーバ１００は、先に受け取った障害情報を格納する。その後、障害情報収集サーバ１００は、同じ事象に関する障害情報を受け取ると、先に受け取った障害情報と所定の管理情報が同じであり、所定の通報間隔以内に検出された障害であることから、重複した障害情報であると判断する。障害情報収集サーバ１００は、重複して後から入力された障害情報を破棄する。
【００４３】
図３は、本実施の形態に係る障害情報収集サーバのハードウェア構成例を示す図である。障害情報収集サーバ１００は、ＣＰＵ(Central Processing Unit)１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０８を介してＲＡＭ(Random Access Memory)１０２、ハードディスクドライブ（ＨＤＤ:Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、および２つの通信インタフェース１０６，１０７が接続されている。
【００４４】
ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳやアプリケーションプログラムが格納される。
【００４５】
グラフィック処理装置１０４には、モニタ１１が接続されている。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１１の画面に表示させる。入力インタフェース１０５には、キーボード１２とマウス１３とが接続されている。入力インタフェース１０５は、キーボード１２やマウス１３から送られてくる信号を、バス１０８を介してＣＰＵ１０１に送信する。
【００４６】
通信インタフェース１０６は、ネットワーク２１に接続されている。通信インタフェース１０６は、ネットワーク２１を介して、他のコンピュータとの間でデータの送受信を行う。通信インタフェース１０７は、ネットワーク２２に接続されている。通信インタフェース１０７は、ネットワーク２２を介して、他のコンピュータとの間でデータの送受信を行う。
【００４７】
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図３には、障害情報収集サーバ１００のハードウェア構成例を示したが、監視サーバ２１０，２２０や監視対象ノード３１０，３２０，３３０も同様のハードウェア構成で実現することができる。
【００４８】
図４は、障害情報収集サーバの処理機能を示す機能ブロック図である。障害情報収集サーバ１００は、通報情報記憶部１１０、通報取得部１２０、採否判定部１３０、通報登録部１４０、および通報内容集計部１５０を有している。
【００４９】
通報情報記憶部１１０は、過去に入力された障害情報のうち、有効なものとして採用された障害情報が記録された記憶領域である。たとえば、図３のＨＤＤ１０３内の記憶領域の一部が用いられる。
【００５０】
通報取得部１２０は、ネットワーク２１，２２を介して入力された障害情報を取得する。通報取得部１２０は、取得した障害情報を採否判定部１３０に渡す。
採否判定部１３０は、通報情報記憶部１１０の内容を参照し、通報取得部１２０から受け取った障害情報が有効な障害情報か否かを判定する。有効な障害情報とは、過去の同一事象の障害情報を受け取ってから所定期間以上を経過してから入力された障害情報である。すなわち、所定期間未満しか経過していない場合には、受け取った障害情報は、以前に受け取った同一事象の障害情報と重複しているとみなされる。採否判定部１３０は、有効な障害情報を通報登録部１４０に渡し、有効でない障害情報は破棄する。
【００５１】
通報登録部１４０は、採否判定部１３０から受け取った有効な障害情報を、通報情報記憶部１１０に格納する。
通報内容集計部１５０は、通報情報記憶部１１０に記憶された障害情報から、監視対象のネットワークの状態に関する統計情報を集計し、モニタ１１等に出力する。
【００５２】
次に、図２〜図４に示した構成のネットワーク監視システムの動作について説明する。
図５は、ネットワーク監視システムの動作シーケンスを示す図である。なお、図５では、監視対象ノード３１０、監視サーバ２１０、および障害情報収集サーバ１００の間での障害情報の収集動作を示している。
【００５３】
まず、監視サーバ２１０は、定期的に管理情報取得要求を監視対象ノード３１０に対して出力する（ステップＳ１１）。監視対象ノード３１０は、監視サーバ２１０から送られた管理情報取得要求を受け取る（ステップＳ１２）。そして、監視対象ノード３１０は、管理情報取得要求で指定された管理情報を、監視サーバ２１０に対して送信する（ステップＳ１３）。
【００５４】
監視サーバ２１０は、監視対象ノード３１０から送られた管理情報を受け取る（ステップＳ１４）。次に、監視サーバ２１０は、受け取った管理情報に基づいて、監視対象ノード３１０や監視対象ノード３１０に接続されているネットワーク２４の状態の障害有無判断を行う（ステップＳ１５）。たとえば、ネットワーク２４の負荷が最大許容負荷の３０％になったときに障害有りと判断する。
【００５５】
管理サーバ２１０は、障害有りと判断した場合には、障害情報を作成する（ステップＳ１６）。その後、監視サーバ２１０は、障害情報を障害情報収集サーバ１００に送信する。たとえば、障害情報を１つのファイルとして作成し、そのファイルを障害情報収集サーバ１００宛の電子メールに添付することで、障害情報を障害情報収集サーバ１００に送信することができる。
【００５６】
障害情報収集サーバ１００は、障害情報を受け取る（ステップＳ１８）と、その障害情報を採用するか否かを判定する（ステップＳ１９）。障害情報を採用する場合には、障害情報収集サーバ１００は、障害情報の内容を、通報情報記憶部１１０に格納する（ステップＳ２０）。また、障害情報メッセージを採用しない場合には、障害情報収集サーバ１００は、障害情報の内容を破棄する（ステップＳ２１）。
【００５７】
このように、監視対象ノード３１０から取得した管理情報が障害の発生を示していた場合には、監視サーバ２１０から障害情報収集サーバ１００へ障害情報が送られる。
【００５８】
図６は、障害情報のデータ構造例を示す図である。障害情報４１には、検出日時、監視対象ノード、障害種別番号、通報間隔、詳細情報などの項目の情報が含まれている。
【００５９】
検出日時の項目には、監視サーバ２１０が障害有りと判断した時刻が登録される。監視対象ノードの項目には、障害検出の元となった管理情報の送信元の監視対象ノードのノード名が登録される。障害種別番号の項目には、検出された障害の種別を示すコード番号が登録される。通報間隔の項目には、検出された障害の種別に対応付けて予め決定されている障害通報間隔が登録される。詳細情報の項目には、障害の内容に関する詳細な情報が登録される。
【００６０】
このような障害情報が障害情報収集サーバ１００に送られる。そして、過去の情報と重複していないことが確認された有効な障害情報が、通報情報記憶部１１０に蓄積される。
【００６１】
図７は、通報情報記憶部内のデータ構造例を示す図である。図７の例では、通報情報記憶部１４０には、「障害通報番号」、「検出日時」、「監視対象ノード」、「監視サーバ」、「障害種別番号」、「通報間隔」、および「詳細情報」の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連づけられている。
【００６２】
「障害通報番号」の欄には、登録された障害通報を一意に識別するための識別番号が登録される。「検出日時」の欄には、障害が発見された日時が登録される。「監視対象ノード」の欄には、障害検出の元となった管理情報の送信元の監視対象ノードのノード名が登録される。「監視サーバ」の欄には、障害情報の送信元の監視サーバのノード名が登録される。「障害種別番号」の欄には、発見された障害の種別を識別するための識別情報が登録される。「通報間隔」の欄には、障害内容に応じた障害通報間隔が登録される。「詳細情報」の欄には、障害の内容に関する詳細な情報が登録される。
【００６３】
図８は、障害情報収集サーバで行われる処理の詳細を示すフローチャートである。以下、図８に示す処理をステップ番号に沿って説明する。
［ステップＳ３１］通報取得部１２０は、障害情報を受け取る。
【００６４】
［ステップＳ３２］採否判定部１３０は、通報情報記憶部１１０から、ステップＳ３１で受け取った障害情報と監視対象ノードが同じであり、且つ障害種別が同じ直前の障害情報を検索する。
【００６５】
［ステップＳ３３］採否判定部１３０は、ステップＳ３２において、該当する障害情報が検出されたか否かを判断する。検出された場合には、処理がステップＳ３４に進められる。検出されなかった場合には、処理がステップＳ３７に進められる。
【００６６】
［ステップＳ３４］採否判定部１３０は、検出された障害情報に含まれる障害通報間隔を取得する。
［ステップＳ３５］採否判定部１３０は、検出された障害情報に含まれる障害検出時刻から、ステップＳ３１で受け取った障害情報の障害検出時刻までの経過時間を算出する。
【００６７】
［ステップＳ３６］採否判定部１３０は、ステップＳ３５で算出された経過時間が、検出された障害情報に含まれる障害通報間隔以上か否かを判断する。障害通報間隔以上であれば、ステップＳ３１で受け取った障害情報が通報登録部１４０に渡され、処理がステップＳ３７に進められる。障害通報間隔未満であれば処理がステップＳ３８に進められる。
【００６８】
［ステップＳ３７］通報登録部１４０は、ステップＳ３１で受け取った障害情報を通報情報記憶部１１０に格納する。その後、処理が終了する。
［ステップＳ３８］採否判定部１３０は、ステップＳ３１で受け取った障害情報を破棄する。その後、処理が終了する。
【００６９】
このようにして、重複した障害情報が入力された場合に、最初の障害情報のみを通報情報記憶部１４０に格納することができる。
図９は、障害情報の登録の採否判断例を示す図である。図９の左から右に向かって時間が進行するように時間軸をとっている。ノード名が「Ｂ０１」の監視サーバ２１０とノード名が「Ｂ０２」の監視サーバ２２０とにより、監視対象ノード３１０を監視した場合の障害情報の例を示している。
【００７０】
ここで、監視対象ノード３１０に接続されているネットワーク２４の負荷が過大になったものとする。なお、各監視サーバ２１０，２２０は、ポーリングによって、ネットワーク２４の負荷に関する管理情報を１０分間隔で監視対象ノード３１０から取得しているものとする。
【００７１】
図９の例では、ノード名が「Ｂ０１」の監視サーバ２１０から時刻「2002/8/1 12:15」（２００２年８月１日１２時１５分）に障害が検出され、障害情報４１が出力されている。この障害情報４１の内容は、図６に示した通りである。障害情報４１は、同様の障害に関する最初の障害情報であるため、障害情報収集サーバ１００において採用され、通報情報記憶部１１０に格納される。この障害情報は、図７に示す障害通報番号「M0001」の情報である。
【００７２】
その後、ノード名が「Ｂ０２」の監視サーバ２２０において時刻「2002/8/1 12:18」に障害が検出され、障害情報４２が出力される。この障害情報４２は、監視対象ノードと障害種別番号とが、障害情報４１と同じである。図７の例によれば、障害情報４１の通報間隔は「１０分」である。一方、障害情報４１の障害検出時刻から障害情報４２の障害検出時刻まで３分しか経過していない。したがって、障害情報４２は、障害情報４１と重複していると判断され、破棄される。
【００７３】
次に、ノード名が「Ｂ０１」の監視サーバ２１０において時刻「2002/8/1 12:25」に障害が検出され、障害情報４３が出力されている。この障害情報４３は、障害情報４１における障害の検出日時から１０分後に出力されている。従って、通報間隔（１０分）以上となり、障害情報４３は、通報情報記憶部１１０に格納される。この障害情報は、図７に示す障害通報番号「M0015」の情報である。
【００７４】
次に、ノード名が「Ｂ０２」の監視サーバ２２０において時刻「2002/8/1 12:28」に障害が検出され、障害情報４４が出力される。この障害情報は、監視対象ノードと障害種別番号とが、障害情報４３と同じである。図７の例によれば、障害情報４３の通報間隔が「１０分」である。一方、障害情報４３の障害検出時刻から障害情報４４の障害検出時刻まで３分しか経過していない。したがって、障害情報４４は、障害情報４３と重複していると判断され、破棄される。
【００７５】
その後、監視サーバ２１０自身に障害が発生し、監視サーバ２１０による監視対象ノード３１０の監視ができなくなったものとする。この場合、以後、ノード名が「Ｂ０１」の監視サーバ２１０から障害情報収集サーバ１００へは、障害情報は送られない。
【００７６】
そこで、ノード名が「Ｂ０２」の監視サーバ２２０において時刻「2002/8/1 12:38」に障害が検出され、障害情報４５が出力されている。この障害情報４５は、障害情報４３における障害の検出日時から１３分後に出力されている。従って、通報間隔以上となり、障害情報４５は、通報情報記憶部１１０に格納される。この障害情報は、図７に示す障害通報番号「M0021」の情報である。
【００７７】
さらに、ノード名が「Ｂ０２」の監視サーバ２２０において時刻「2002/8/1 12:48」に障害が検出され、障害情報４６が出力されている。この障害情報４６は、障害情報４５における障害の検出日時から１０分後に出力されている。従って、通報間隔以上となり、障害情報４５は、通報情報記憶部１１０に格納される。この障害情報は、図７に示す障害通報番号「M0051」の情報である。
【００７８】
このように、本実施の形態では、障害情報が重複して送られてきた場合、前回の障害情報からの経過時間が所定の通報間隔以内の場合にのみ、その障害情報を有効な情報として採用するようにしたため、障害情報が重複して登録されることが無くなる。
【００７９】
しかも、ネットワーク監視システムが冗長構成を採っており、複数の経路で障害情報が送られるため、一部の経路（監視サーバ等）に障害が発生しても、障害情報収集サーバ１００において障害情報を確実に受け取ることができる。その際、障害情報が送られてこない期間が長期に発生することもない。
【００８０】
なお、上記の説明では、不採用の障害情報を破棄するものとしたが、破棄せずに、無効な情報であることを示すフラグを付けて通報情報記憶部１１０に格納してもよい。この場合、通報内容集計部１５０が障害情報の内容を集計する際には、通報情報記憶部１１０内の無効であることを示すフラグが設定されていない障害情報のみを集計の対象とする。
【００８１】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、障害情報収集サーバが有すべき機能の処理内容を記述した障害情報収集プログラムが提供される。その障害情報収集プログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述した障害情報収集プログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ(Digital Versatile Disc)、ＤＶＤ−ＲＡＭ(Random Access Memory)、ＣＤ−ＲＯＭ(Compact Disc Read Only Memory)、ＣＤ−Ｒ(Recordable)／ＲＷ(ReWritable)などがある。光磁気記録媒体には、ＭＯ(Magneto-Optical disc)などがある。
【００８２】
障害情報収集プログラムを流通させる場合には、たとえば、その障害情報収集プログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、障害情報収集プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにその障害情報収集プログラムを転送することもできる。
【００８３】
障害情報収集プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録された障害情報収集プログラムもしくはサーバコンピュータから転送された障害情報収集プログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置から障害情報収集プログラムを読み取り、障害情報収集プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接障害情報収集プログラムを読み取り、その障害情報収集プログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータから障害情報収集プログラムが転送される毎に、逐次、受け取った障害情報収集プログラムに従った処理を実行することもできる。
【００８４】
（付記１）冗長構成のネットワークを介して障害情報を収集するための障害情報収集プログラムにおいて、
コンピュータに、
障害の検出日時が含まれた新規の障害情報が入力されると、過去の障害の検出日時を含む複数の障害情報が蓄積された通報情報記憶手段から、前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得し、
前記新規の障害情報で示された障害の検出日時が、前記直近の障害情報で示される障害の検出日時から所定の通報周期を経過したか否かを判定し、
前記通報周期の経過後であれば、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する、
処理を実行させることを特徴とする障害情報収集プログラム。
【００８５】
（付記２）前記通報周期の経過前であれば、前記新規の障害情報を破棄することを特徴とする付記１記載の障害情報収集プログラム。
（付記３）前記所定の通報周期は、前記直近の障害情報内で指定されていることを特徴とする付記１記載の障害情報収集プログラム。
【００８６】
（付記４）前記所定の通報周期は、ネットワーク上の監視対象ノードの状態を監視する監視サーバが前記監視対象ノードに対して、前記監視対象ノードの動作状態を示す管理情報を取得するためのポーリングを行う周期であることを特徴とする付記１記載の障害情報収集プログラム。
【００８７】
（付記５）前記新規の障害情報で示される監視対象ノードと障害の種別とが同一である前記通報情報記憶手段内の障害情報を、同一事象の障害を示す障害情報と判断することを特徴とする付記１記載の障害情報収集プログラム。
【００８８】
（付記６）冗長構成のネットワークを介して障害情報を収集する障害情報収集装置において、
過去の障害の検出日時を含む複数の障害情報が蓄積された通報情報記憶手段と、
障害の検出日時が含まれた新規の障害情報が入力されると、前記通報情報記憶手段から前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得する取得手段と、
前記新規の障害情報で示された障害の検出日時が、前記取得手段で取得された前記直近の障害情報で示される障害の検出日時から所定の通報周期を経過したか否かを判定する判定手段と、
前記判定手段により前記通報周期の経過後と判定された場合、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する格納手段と、
を有することを特徴とする障害情報収集装置。
【００８９】
（付記７）冗長構成のネットワークを介して障害情報をコンピュータにより収集するための障害情報収集方法において、
障害の検出日時が含まれた新規の障害情報が前記コンピュータに入力されると、過去の障害の検出日時を含む複数の障害情報が蓄積された通報情報記憶手段から、前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得し、
前記新規の障害情報で示された障害の検出日時が、前記直近の障害情報で示される障害の検出日時から所定の通報周期を経過したか否かを判定し、
前記通報周期の経過後であれば、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する、
ことを特徴とする障害情報収集方法。
【００９０】
（付記８）冗長構成のネットワークを介して障害情報を収集するための障害情報収集プログラムを記録したコンピュータ読み取り可能な記録媒体において、
前記コンピュータに、
障害の検出日時が含まれた新規の障害情報が入力されると、過去の障害の検出日時を含む複数の障害情報が蓄積された通報情報記憶手段から、前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得し、
前記新規の障害情報で示された障害の検出日時が、前記直近の障害情報で示される障害の検出日時から所定の通報周期を経過したか否かを判定し、
前記通報周期の経過後であれば、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する、
処理を実行させることを特徴とする障害情報収集プログラムを記録したコンピュータ読み取り可能な記録媒体。
【００９１】
【発明の効果】
以上説明したように本発明では、同一事象に関する直近の障害情報から通報周期を経過している場合にのみ新規の障害情報を格納するようにしたため、冗長構成により重複して送られてくる複数の障害情報のうちの１つだけを、障害情報記憶手段に格納することができる。その結果、複数の監視サーバでネットワーク上の環境を同時に監視した場合でも、障害情報の重複登録を回避することができる。
【図面の簡単な説明】
【図１】実施の形態に適用される発明の概念図である。
【図２】本実施の形態におけるネットワーク監視システムの構成例を示す図である。
【図３】本実施の形態に係る障害情報収集サーバのハードウェア構成例を示す図である。
【図４】障害情報収集サーバの処理機能を示す機能ブロック図である。
【図５】ネットワーク監視システムの動作シーケンスを示す図である。
【図６】障害情報のデータ構造例を示す図である。
【図７】通報情報記憶部内のデータ構造例を示す図である。
【図８】障害情報収集サーバで行われる処理の詳細を示すフローチャートである。
【図９】障害情報の登録の採否判断例を示す図である。
【符号の説明】
１監視対象ノード
２ａ，２ｂ監視サーバ
３障害情報収集装置
４障害情報記憶手段
５ａ，５ｂ管理情報
６ａ，６ｂ障害情報
１００障害情報収集サーバ
１１０通報情報記憶部
１２０通報取得部
１３０採否判定部
１４０通報登録部
１５０通報内容集計部

Claims

冗長構成のネットワークを介して障害情報を収集するための障害情報収集プログラムにおいて、
コンピュータに、
障害の検出日時および通報周期が含まれた新規の障害情報を受信すると、過去の障害の検出日時および通報周期を含む複数の障害情報が蓄積された通報情報記憶手段から、前記新規の障害情報と同一事象の障害を示す障害情報を検索し、
前記新規の障害情報と同一事象の障害を示す障害情報がない場合には、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納し、
前記新規の障害情報と同一事象の障害を示す障害情報がある場合には、前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得し、
前記新規の障害情報で示された障害の検出日時が、前記直近の障害情報で示される障害の検出日時から前記直近の障害情報で示される通報周期を経過したか否かを判定し、
前記通報周期の経過後であれば、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する、
処理を実行させることを特徴とする障害情報収集プログラム。
障害情報は、監視対象ノードおよび障害の種別を更に含み、該監視対象ノードおよび該障害の種別が同一である場合に同一事象と判断することを特徴とする請求項１記載の障害情報収集プログラム。
冗長構成のネットワークを介して障害情報を収集する障害情報収集装置において、
過去の障害の検出日時および通報周期を含む複数の障害情報が蓄積された通報情報記憶手段と、
障害の検出日時および通報周期が含まれた新規の障害情報を受信すると、前記通報情報記憶手段から前記新規の障害情報と同一事象の障害を示す障害情報を検索し、前記新規の障害情報と同一事象の障害を示す障害情報がある場合には、前記新規の障害情報と同一事象の障害を示す直近の障害情報を取得する取得手段と、
前記新規の障害情報で示された障害の検出日時が、前記取得手段で取得された前記直近の障害情報で示される障害の検出日時から前記直近の障害情報で示される通報周期を経過したか否かを判定する判定手段と、
前記新規の障害情報と同一事象の障害を示す障害情報が前記通報情報記憶手段にない場合、または、前記判定手段により前記通報周期の経過後と判定された場合、前記新規の障害情報を有効な障害情報として前記通報情報記憶手段に格納する格納手段と、
を有することを特徴とする障害情報収集装置。