JP2006319683A

JP2006319683A - ネットワークシステム監視方式およびネットワークシステム監視装置

Info

Publication number: JP2006319683A
Application number: JP2005140459A
Authority: JP
Inventors: Atsufumi Fujita; 淳文藤田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-05-13
Filing date: 2005-05-13
Publication date: 2006-11-24

Abstract

【課題】計算機の故障かネットワークの故障かを容易に判断して監視することができるネットワークシステム監視方式を提供する。
【解決手段】分散して配置された複数の計算機が広域ネットワーク網にルータを介して接続されて構成された拠点を複数個有するネットワークシステムにおいて、任意の計算機１−１から他の各計算機に対してハローコールデータを送信して受信する第１の監視および任意の計算機から各ルータに対してピングコマンドを実施する第２の監視を行い、これら監視より第１の所定時間不通となる計算機が検出されかつ不通となる計算機の拠点のルータ器情報が正常であると検出されると不通とされた計算機の異常と判断し、第１の所定時間不通となる計算機が検出されかつ不通となる計算機の拠点のルータ情報が不通であると検出されると任意の計算機から不通となる計算機間のネットワークの異常と判断する。
【選択図】図１

Description

この発明は、距離が離れた複数の拠点に分散して配置された複数台の計算機を、インターネットや社内イントラネット等の広域ネットワーク（ＷＡＮ）網にルータを介して接続し、相互にデータを交換するネットワークシステムにおいて、各計算機の障害かネットワークの障害かを容易に判断して監視することができるネットワークシステム監視方式およびネットワークシステム監視装置である。

近年、通信ネットワークの伝送速度および信頼性が向上し、広域ネットワーク網を介して隔てられた複数の拠点に、データの収集や加工処理を行うためのサーバ計算機や、操作員がサーバ計算機に対して各種設定変更要求及びデータ閲覧等を行うための端末として使用するクライアント計算機を分散配置した構成を持つ監視制御システムが増えてきている。このような構成をもつ監視制御システムでは、システムの要素であるネットワーク機器の状態や各計算機の状態を監視し、故障時には故障部位を特定する必要がある。

例えば、同一拠点内にすべての計算機が配置された形態にて構成されるシステムでは、システム内に接続された全計算機に対してハローコールデータを送信し、各計算機からの応答の有無を監視するだけで故障部位を特定することができた。故障発生時には、各計算機の状態をシステム運転員が直接確認することが可能であるため、ハローコールデータが途絶えた場合は、その計算機への経路上の機器をチェックすることで、計算機本体に問題が生じてもネットワーク機器に問題が生じても問題発生時には故障部位が容易に特定できた。

しかし、計算機が広域ネットワークを介して結合したシステムの場合は、すべての機器の状態が容易に把握できないことに加え、ネットワーク経路が複数のルータによって実現されており、また、実際の通信に使用される経路はルーティングプロトコルにより動的に決定されるため、計算機間のハローコールデータの返信が途絶えた場合は、問題が計算機にあるのか、ネットワーク側にあるのかを区別するのは非常に困難を伴っていた。

通信経路上の問題箇所を特定する従来の方法として、経路上のすべてのルータを常に監視しておく方法がある。例えば、監視端末は、各端末宛にトレースルートコマンド（ｔｒａｃｅｒｏｕｔｅを指し、以下、トレースルートコマンドのみにて示す）コマンドを送信し、配送経路の各ルータから応答情報を返送させる。端末宛のトレースルートコマンドにより、各ルータから応答情報が返送される。監視端末は、各ルータからの応答情報及び応答順序を基にＬＡＮ上に存在するすべてのルータを検出し、配置構成を登録する。また、各端末へのトレースルートコマンドにより検出・登録した各ルータに対して、通信相手の応答確認に使用されるピングコマンド（ｐｉｎｇを指し、以下、ピングコマンドのみにて示す。）コマンドを送信し、その応答の有無により各ルータの状態（正常性）の監視を行っている。ピングコマンドの応答がない場合は、そのルータ名を抽出しシステム操作員に通知を行う（例えば、特許文献１参照）。

その他に、通信経路上の問題箇所を特定する従来の方法として、ＳＮＭＰ（ｓｉｍｐｌｅｎｅｔｗｏｒｋｍａｎａｇｅｍｅｎｔｐｒｏｔｏｃｏ１）等のネットワーク管理専用のプロトコルを用いたノード管理を行う方法がある。

特開２００２−１１１６６５号公報

従来のシステムによる計算機間のハローコールデータによる故障チェックだけでは、ネットワーク上の問題か、計算機上の問題かを切り分けることが非常に困難であった。また、ネットワーク内の問題を切り分ける方法として、上述したように経路上にある全ルータの生死をトレースルートコマンドおよびピングコマンドで常にチェックしたり、ＳＮＭＰ等のネットワーク管理専用のプロトコルをサポートした機器やソフトを導入して機器の故障を検出したりしていたが、これらの方式では故障チェックを全ルータに対して実施しなければならず、広域ネットワーク網が複雑になればなるほどルータの数が増えるために、監視に要するオーバーヘッドが重くなるという問題点があった。

また、広域ネットワーク網では一般に収束までに数十秒かかるルーティングプロトコルにより、経路が一時的に切断され、復帰することになるが、遠隔の計算機との通信が実施できない事象が発生し、復旧した場合に、経路振り替えなしで復旧したネットワーク障害なのか、ルーティングプロトコル動作により復旧した一時的な切断なのかどうかを把握するのが困難であるという問題点があった。

この発明は上記のような課題を解決するためになされたものであり、計算機上の問題かネットワーク上の問題かを容易に把握できるネットワークシステム監視方式およびネットワークシステム監視装置を提供することを目的とする。

この発明は、分散して配置された複数の計算機が広域ネットワーク網にゲートウェイ器を介して接続されて構成された拠点を複数個有するネットワークシステムにおいて、各計算機のうち任意の計算機から他の各計算機に対して定期的にハローコールデータを送信して受信する第１の監視および任意の計算機から各ゲートウェイ器に対して定期的にピングコマンドを実施する第２の監視を行い、第１の監視により第１の所定時間不通となる計算機が検出されかつ第２の監視により不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると不通とされた計算機の異常と判断し、第１の監視により第１の所定時間不通となる計算機が検出されかつ第２の監視により不通となる計算機の拠点のゲートウェイ器情報が不通であると検出されると任意の計算機から不通となる計算機間のネットワークの異常と判断するものである。

この発明のネットワークシステム監視方式は、分散して配置された複数の計算機が広域ネットワーク網にゲートウェイ器を介して接続されて構成された拠点を複数個有するネットワークシステムにおいて、各計算機のうち任意の計算機から他の各計算機に対して定期的にハローコールデータを送信して受信する第１の監視および任意の計算機から各ゲートウェイ器に対して定期的にピングコマンドを実施する第２の監視を行い、第１の監視により第１の所定時間不通となる計算機が検出されかつ第２の監視により不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると不通とされた計算機の異常と判断し、第１の監視により第１の所定時間不通となる計算機が検出されかつ第２の監視により不通となる計算機の拠点のゲートウェイ器情報が不通であると検出されると任意の計算機から不通となる計算機間のネットワークの異常と判断するもので、計算機の故障かネットワークの故障かを容易に判断して監視することができる。

実施の形態１．
以下、この発明の実施の形態を図に基づいて説明する。図１はこの発明の実施の形態１におけるネットワークシステムの構成を示すブロック図、図２は図１に示したネットワークシステムにおけるピングコマンドおよびトレースルートコマンドによる監視手順を示す図、図３および図４は図１に示したネットワークシステムにおける判断方法を示す図である。図において、拠点Ａには各計算機１−１、Ａ１、Ａ２が配置され、拠点Ｂには計算機Ｂ１、Ｂ２が配置され、拠点Ｃには計算機Ｃ１、Ｃ２がそれぞれ配置されている。そして、これら拠点Ａ、Ｂ、Ｃはそれぞれ各拠点Ａ、Ｂ、Ｃのゲートウェイ器としてのルータＲ１−１、ルータＲ２−１、ルータＲ３−１を経由して、多数のルータ群Ｒｎによって構成された広域ネットワーク網に接続されている。

ここでは任意の計算機を計算機１−１とする。そして計算機１−１には、各拠点Ａ、Ｂ、Ｃにある計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２と、各拠点Ａ、Ｂ、ＣのゲートウェイとなるルータＲ１−１、ルータＲ２−１、ルータＲ３−１のＩＰアドレスのみが登録されている。但し、広域ネットワーク網内のルータ群Ｒｎの情報は登録する必要はない。計算機１−１には図示は省略するが、他の各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２に対して定期的にハローコールデータを送信して受信する第１の監視手段と、各ルータＲ１−１、ルータＲ２−１、ルータＲ３−１に対して定期的にピングコマンドを実施する第２の監視手段と、各ルータＲ１−１、ルータＲ２−１、ルータＲ３−１に対するトレースルートコマンドを定期的に実施する第３の監視手段と、第１の監視手段および第２の監視手段の内容から計算機の故障およびネットワークの故障のいずれかを判断し、ネットワークの復帰がルート変更ありかルート変更無しかを判断する判断手段とにて成るネットワークシステム監視装置を備えている。

次に上記のように構成された実施の形態１のネットワークシステムにおけるネットワークシステム監視方式について説明する。まず、計算機１−１の第１の監視手段は、ＩＰアドレスが登録されている各拠点の計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２に対して、定周期で各計算機の生死を監視するためのハローコールデータを送信する。そして、ハローコールデータを受信した各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２は、自計算機の運転状態などの付加情報をセットして、即座に計算機１−１の第１の監視手段に応答データを返信する。次に計算機１−１の第１の監視手段は、各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２から応答データを受信すると、受信した応答データを基に計算機１−１にて保持している各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２の状態管理情報を更新する。

システム運転員は、この状態管理情報を閲覧することで、ネットワークシステム内にある各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２の運用状態を把握することができる。また、計算機１−１の第１の監視手段はハローコールデータを送信してから、応答データを受信するまでの時間を監視しており、第１の所定時間Ｔ１を経過しても応答を受信できない場合は、当該計算機或いは当該計算機から計算機１−１までのネットワークに何らかの問題が発生したとみなし、計算機１−１で保持している、当該計算機の第１の監視結果を”正常”から”異常”に更新する。ここで言う第１の所定時間Ｔ１とは、ハローコールデータを発信して返信されるまでにかかる時間や、それの複数回分の時間などを適宜設定することが考えられる。

さらに計算機１−１の第２の監視手段および第３の監視手段は、各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２に対するハローコールデータによる第１の監視とあわせて、ピングコマンドおよびトレースルートコマンドによる各拠点Ａ、Ｂ、Ｃのゲートウェイとして使用しているルータＲ−１、ルータＲ２−１、ルータＲ３−１の第２の監視および第３の監視を行う。図２（ａ）に示すように、第２の監視手段がピングコマンドを各ルータＲ−１、ルータＲ２−１、ルータＲ３−１に対して使用する。そして、各ルータＲ−１、ルータＲ２−１、ルータＲ３−１が計算機１−１と通信可能であるか否かを判断することができる。計算機１−１の第２の監視手段は、各拠点Ａ、Ｂ、Ｃに設置されたルータＲ−１、ルータＲ２−１、ルータＲ３−１に対して定期的にピングコマンドを送信する。そしてピングコマンドが失敗になった場合は、当該ルータは異常であるとみなし、計算機１−１で保持しているルータの第２の監視結果の状態を”正常”から”異常”に更新する。

また、図２（ｂ）に示すように、第３の監視手段はトレースルートコマンドを各ルータＲ−１、ルータＲ２−１、ルータＲ３−１に対して使用すると、ルータまでの経路上にあるルータの一覧を取得することができる。計算機１−１の第３の監視手段は、各拠点Ａ、Ｂ、Ｃに設置されたルータＲ−１、ルータＲ２−１、Ｒ３−１に対して定期的にトレースルートコマンドを実行し、各ルータＲ−１、ルータＲ２−１、ルータＲ３−１までの経路を取得する。経路情報は計算機１−１の第３の監視手段に保存する。そして、前回実施し保存したルートと、新規に実施して保存したルートとが少しでも変化していれば、計算機１−１で保持しているルート変化状態を”変化なし”から”変化あり”に更新する。尚、トレースルートコマンドが失敗した場合には、ルート変更とはせずその収集結果は保存せず破棄する。これはトレースルートコマンドが失敗する場合をルート変更として見なすことを防止している。

計算機１−１の判断手段は、各計算機Ａ１、計算機Ａ２、計算機Ｂ１、計算機Ｂ２、計算機Ｃ１、計算機Ｃ２に対して第１の監視手段により、第１の監視結果が”異常”と検出された場合には、第２の監視手段によるピングコマンドの第２の監視結果を参照し、ピングコマンドが”正常”であれば、当該計算機の異常と判断して、”計算機異常発生”をシステム運転員に通知する。また、ピングコマンドが”異常”であれば、計算機１−１と当該計算機間のネットワークに問題があるとして、”ネットワーク異常発生”をシステム運転員に通知する。”ネットワーク異常発生”とした場合は、さらに第２の所定時間Ｔ２時間のタイマを動作させネットワーク異常の復帰を監視する。第２の所定時間Ｔ２後又はまでにピングコマンドおよびトレースルートコマンドによる各拠点のルータＲ２−１、Ｒ３−１の監視結果とを組み合わせて最終判定を実施し、結果をユーザ通知する。ここで言う第２の所定時間Ｔ２とは、広域ネットワーク網で使用されている、ルーティングプロトコルの収束時間よりも長い時間をセットする。これは、計算機から別の計算機までのルートが変更されることにより接続可能となる場合もあるためであり、この時間より小さいとルート変更が実施される前に故障と判断されてしまうためである。

次に具体的な信号に基づいて、判断手段の具体的な判断について図３および図４に基づいて説明する。図３および図４においては、計算機１−１からルータＲ２−１および計算機Ｂ１への信号について示す。ただし、他のルータおよび計算機においても同様にして信号を受信して判断していることは言うまでもなくその説明は省略する。図３（ａ）は、遠隔の計算機本体に復旧できない継続故障が発生したときの処理フローを表している。まず、計算機Ｂ１へのハローコールデータが”失敗”となった時点から第１の所定時間Ｔ１後にハローコールデータによる監視結果がまだ”失敗”となり計算機Ｂ１が故障ではないかということが検出される。次にその時点におけるルータＲ２−１ヘのピングコマンドが”成功”となっているため、遠隔の計算機Ｂ１に問題があると判断される。そしてこのことをシステム運転員に”計算機Ｂ１の異常発生”として通知する。

図３（ｂ）は、ネットワーク経路上に復旧できない継続故障が発生したときの処理フローを表している。上記に示した場合と同様に、計算機Ｂ１のハローコールデータが第１の所定時間”失敗”となり、計算機Ｂ１が故障ではないかということが検出される。次にその時点におけるルータＲ２−１ヘのピングコマンドが”失敗”となっているため、その時点においてまず”計算機１−１と計算機Ｂ１との間のネットワーク異常発生”をシステム運転員に第一報として通知する。さらに、第２の所定時間Ｔ２時間後に、ピングコマンドおよびトレースルートコマンドによる監視結果を総合してチェックがおこわれる。この場合、ピングコマンドは失敗のままであるため、”計算機１−１と計算機Ｂ１との間のネットワーク異常継続”と判定し、システム運転員に最終判断結果として通知する。

図４（ａ）は、広域ネットワーク網のルーティングプロトコルによる経路切替により一時的なネットワーク不通が発生したときの処理フローを表している。上記に示した場合と同様に、計算機Ｂ１のハローコールデータが第１の所定時間”失敗”となり、計算機Ｂ１が故障ではないかということが検出される。次にその時点における、ルータＲ２−１ヘのピングコマンド監視結果も”失敗”となっているため、その時点においてまず”計算機１−１と計算機Ｂ１との間のネットワーク異常発生”をシステム運転員に第一報として通知する。さらに、第２の所定時間Ｔ２後に、ピングコマンドおよびトレースルートコマンドによる監視結果を総合してチェックがおこわれる。この場合、ピングコマンドは成功しており、トレースルートコマンド結果は変化しているため、”計算機１−１と計算機Ｂ１との間のルート変更によるネットワーク復帰”と判定し、システム運転員に最終判断結果として通知する。

図４（ｂ）は、ネットワーク経路上に瞬時故障が発生したときの処理フローを表している。上記に示した場合と同様に、計算機Ｂ１のハローコールデータが第１の所定時間”失敗”となり、計算機Ｂ１が故障ではないかということが検出される。次にその時点における、ルータＲ２−１ヘのピングコマンド監視結果も”失敗”となっている。その時点においてまず”計算機１−１と計算機Ｂ１との間のネットワーク異常発生”をシステム運転員に第一報として通知する。さらに、第２の所定時間Ｔ２後に、ピングコマンドおよびトレースルートコマンドによる監視結果を総合してチェックがおこわれる。この場合、ピングコマンドは失敗から成功に変化しており、トレースルートコマンド結果は変化がないため、”計算機１−１と計算機Ｂ１との間のルート変更なしのネットワーク復帰”と判定し、システム運転員に最終判断結果として通知する。

上記のように構成された実施の形態１のネットワークシステム監視装置によるネットワークシステム監視方式は、大掛かりなネットワーク解析ツールを導入しなくても、また、広域ネットワーク網内において多数のルータをすべてチェックしなくても、計算機間のハローコールデータの監視および、ピングコマンドおよびトレースルートコマンドによる各拠点のルータに限定した監視とを組み合わせ、２種類のタイマにより１次判断と最終判断との２回の判定を実施することで、障害の発生および復帰の検出と、障害が計算機側にあるのかネットワーク側にあるのかを切り分けることが容易にできる。さらに、ネットワーク障害の場合は、ルーティングプロトコル動作で復旧したのか否かを切り分けて、システム運転員に通知することで、システム運転員が容易に故障状況を把握でき、システム運転員の負担が軽減される。ルーティングプロトコル動作にて復旧していない場合、すなわちルート変更なしのネットワーク復帰が頻繁に発生するような場合はシステム自体の異常が起こっている可能性があるため、メンテナンスを行うなど、適当な対応が必要であるということを判断することができる。

実施の形態２．
上記実施の形態１では各拠点Ａ、Ｂ、Ｃに設置されたゲートウェイのルータを１個だけ備える例を示したが、これに限られることはなく、本実施の形態２では各拠点Ａ、Ｂ、Ｃに複数のルータを備え、広域ネットワーク網に対して多重化する場合について述べる。図５はこの発明の実施の形態２におけるネットワークシステム監視装置の構成を示すブロック図である。図において、上記実施の形態１と同様な部分と同一部分は同一符号を付してて説明を省略する。各拠点Ａ、Ｂ、Ｃのゲートウェイ器としてのルータを多重化するために、ルータＲ１−２、ルータＲ２−２、ルータＲ３−２がそれぞれルータＲ１−１、ルータＲ２−１、ルータＲ３−１とは別に設置されている。そしてこの場合には、いずれかのルータが正常（生きていれば）であれば使用できる仮想ＩＰアドレスを用意し、その仮想ＩＰアドレスに対してピングコマンドおよびトレースルートコマンドを実行する。

このように設定することにより、上記実施の形態１と同じ方式で、第２の監視は各拠点において多重化されたルータうちのいずれかのルータが正常であれば各拠点のルータ情報を正常であるという判断を行うことができ、計算機の障害かネットワークの障害かの切り分けを行うことができる。また、仮想ＩＰアドレスを使用しない場合には、多重化されたルータのそれぞれに対してピングコマンドおよびトレースルートコマンドを実行し、ピングコマンドはどちらか一方が成功していれば”成功”とみなし、トレースルートコマンドはどちらも変化しなければ”変化無し”とみなすことで、上記実施の形態１と同じ方式で、障害切り分けを行うことができる。

この発明の実施の形態１におけるネットワークシステムの構成を示すブロック図である。図１に示したネットワークシステムにおけるピングコマンドおよびトレースルートコマンドによる監視手順を示す図である。図１に示したネットワークシステムにおけるシステム障害箇所の判定方法を示す図である。図１に示したネットワークシステムにおけるシステム障害箇所の判定方法を示す図である。この発明の実施の形態２におけるネットワークシステムの構成を示すブロック図である。

符号の説明

１−１，Ａ１，Ａ２，Ｂ１，Ｂ２，Ｃ１，Ｃ２計算機、
Ｒ１−１，Ｒ１−２，Ｒ２−１，Ｒ２−２，Ｒ３−１，Ｒ３−２ルータ。

Claims

分散して配置された複数の計算機が広域ネットワーク網にゲートウェイ器を介して接続されて構成された拠点を複数個有するネットワークシステムにおいて、上記各計算機のうち任意の計算機から上記他の各計算機に対して定期的にハローコールデータを送信して受信する第１の監視および上記任意の計算機から上記各ゲートウェイ器に対して定期的にピングコマンドを実施する第２の監視を行い、上記第１の監視により第１の所定時間不通となる計算機が検出されかつ上記第２の監視により上記不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると上記不通とされた計算機の異常と判断し、上記第１の監視により第１の所定時間不通となる計算機が検出されかつ上記第２の監視により上記不通となる計算機の拠点のゲートウェイ器情報が不通であると検出されると上記任意の計算機から上記不通となる計算機間のネットワークの異常と判断することを特徴とするネットワークシステム監視方式。
上記任意の計算機から上記各ゲートウェイ器に対するトレースルートコマンドを定期的に実施する第３の監視を行い、上記ネットワークが異常と判断されてから第２の所定時間内において上記第１の監視により上記不通とされた計算機の正常が検出されると、上記第３の監視により上記不通となる計算機の拠点のゲートウェイ器へのルート変更が検出されずかつ上記第２の監視により上記不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると上記任意の計算機から上記不通となる計算機間のネットワークはルート変更の伴わない復帰と判断され、上記第３の監視により上記不通となる計算機の拠点のゲートウェイ器へのルート変更が検出されかつ上記第２の監視により上記不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると上記任意の計算機から上記不通となる計算機間のネットワークはルート変更による復帰と判断されることを特徴とする請求項１に記載のネットワークシステム監視方式。
上記第２の所定時間は、上記ネットワークシステムのルーティングプロトコルの収束時間より長い時間にて設定されていることを特徴とする請求項２に記載のネットワークシステム監視方式。
上記拠点毎に、分散して配置された上記複数の計算機が上記広域ネットワーク網に対して多重化された複数のゲートウェイ器を介して接続され構成されたネットワークシステムにおいて、上記第２の監視は上記各拠点において多重化されたゲートウェイ器うちのいずれかのゲートウェイ器が正常であれば上記各拠点のゲートウェイ器情報を正常であるとすることを特徴とする請求項１ないし請求項３のいずれかに記載のネットワークシステム監視方式。
分散して配置された複数の計算機が広域ネットワーク網にゲートウェイ器を介して接続されて構成された拠点を複数個有するネットワークシステムにおいて、上記各計算機のうち任意の計算機から上記他の各計算機に対して定期的にハローコールデータを送信して受信する第１の監視手段と、上記任意の計算機から上記各ゲートウェイ器に対して定期的にピングコマンドを実施する第２の監視手段と、上記第１の監視手段により第１の所定時間不通となる計算機が検出されかつ上記第２の監視手段により上記不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると上記不通とされた計算機の異常と判断し、上記第１の監視手段により第１の所定時間不通となる計算機が検出されかつ上記第２の監視手段により上記不通となる計算機の拠点のゲートウェイ器情報が不通であると検出されると上記任意の計算機から上記不通となる計算機間のネットワークの異常と判断する判断手段とを備えたことを特徴とするネットワークシステム監視装置。
上記任意の計算機から上記各ゲートウェイ器に対するトレースルートコマンドを定期的に実施する第３の監視手段を備え、上記判断手段は、上記ネットワークが異常と判断されてから第２の所定時間内において上記第１の監視手段により上記不通とされた計算機の正常が検出されると、上記第３の監視手段により上記不通となる計算機の拠点のゲートウェイ器へのルート変更が検出されずかつ上記第２の監視手段により上記不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると上記任意の計算機から上記不通となる計算機間のネットワークはルート変更の伴わない復帰と判断し、上記第３の監視手段により上記不通となる計算機の拠点のゲートウェイ器へのルート変更が検出されかつ上記第２の監視手段により上記不通となる計算機の拠点のゲートウェイ器情報が正常であると検出されると上記任意の計算機から上記不通となる計算機間のネットワークはルート変更による復帰と判断することを特徴とする請求項５に記載のネットワークシステム監視装置。
上記判断手段は、第２の所定時間を上記ネットワークシステムのルーティングプロトコルの収束時間より長い時間にて設定することを特徴とする請求項６に記載のネットワークシステム監視装置。
上記拠点毎に、分散して配置された上記複数の計算機が上記広域ネットワーク網に対して多重化された複数のゲートウェイ器を介して接続され構成されたネットワークシステムにおいて、上記第２の監視手段は、上記各拠点において多重化されたゲートウェイ器うちのいずれかのゲートウェイ器が正常であれば上記各拠点のゲートウェイ器情報を正常であるとすることを特徴とする請求項５ないし請求項７のいずれかに記載のネットワークシステム監視装置。