JP2004104540A - Support system for analyzing network performance fault - Google Patents
Support system for analyzing network performance fault Download PDFInfo
- Publication number
- JP2004104540A JP2004104540A JP2002264894A JP2002264894A JP2004104540A JP 2004104540 A JP2004104540 A JP 2004104540A JP 2002264894 A JP2002264894 A JP 2002264894A JP 2002264894 A JP2002264894 A JP 2002264894A JP 2004104540 A JP2004104540 A JP 2004104540A
- Authority
- JP
- Japan
- Prior art keywords
- response time
- network
- operation information
- delay
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Small-Scale Networks (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、ネットワークシステム運用管理方法に関し、さらに詳しくは、ネットワーク機器の応答時間を監視することにより性能管理を行い、ネットワークシステム稼動状態の診断、障害部位分析、予防保守を行う方法に関する。
【0002】
【従来の技術】
ネットワークシステムの管理者やシステムエンジニアは、ネットワークの性能を把握するために、通常、ネットワーク機器間における応答時間の測定を行う。応答時間の測定には、ICMP(Internet Control Message Protocol)エコーの要求/応答時間(pingコマンド)を利用したIPパケットの応答時間測定方法が、広く利用されている。
【0003】
特許文献1には、ネットワークシステムにおいて遅延個所を分離するための方法が開示されている。
【0004】
また、特許文献2には、ネットワークシステムにおいて遅延個所を自動的に調査するための方法が開示されている。
【0005】
【特許文献1】
特開平11−346238号公報
【特許文献2】
特開2002−152203号公報
【0006】
【発明が解決しようとする課題】
特許文献1では、遅延個所を分離するためにネットワークシステム上に多数の応答時間測定プローブを設置する必要がある。
【0007】
また、特許文献2では、遅延個所を分離するために、経路を特定の上、経路上の各ノードからの応答時間を測定する必要がある。
【0008】
これらの従来方法は、数千台以上のネットワーク機器からなるような大規模なネットワークシステム全体をカバーする応答時間の測定行い、遅延個所の絞込みを行う場合においては効率的な方法ではない。
【0009】
【課題を解決するための手段】
本発明は、数千台以上のネットワーク機器からなるような大規模なネットワークシステムにおいても、システム全体におけるクライアントからサーバへ至る経路での応答時間を推定できるネットワーク性能障害分析支援方法を提供する。
【0010】
また、本発明は、数千台以上のネットワーク機器からなるような大規模なネットワークシステムにおいても遅延発生時に原因部位を自動的に絞り込むことができるネットワーク性能障害分析支援方法を提供する。
【0011】
また、本発明は、数千台以上のネットワーク機器からなるような大規模なネットワークシステムにおいても遅延発生時に原因部位のみの稼動情報を自動的に収集することができるネットワーク性能障害分析支援方法を提供する。
【0012】
具体的には、本発明は、幹線部の中継拠点から支線部の複数のネットワーク機器に至るツリー型のネットワークの、幹線部に接続した監視装置から中継拠点を通り支線部のいずれかのネットワーク機器に至る経路におけるIPパケット応答時間および到達率の測定を行う応答時間測定手段と、支線部分に設置したクライアント機器から別の支線部分に設置したサーバ機器に至る経路における応答時間を推定するサーバ・クライアント応答時間推定手段を設けている。
【0013】
また、本発明は、応答時間に遅延が生じているかを判定する応答時間確認手段と、遅延発生の原因部位を自動的に絞り込む遅延原因部位絞込み手段とをさらに設けている。
【0014】
また、本発明は、自動的に絞り込んだ遅延発生の原因部位に設置されたネットワーク機器を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、作成した設定ファイルを監視装置内の稼動情報収集手段に対して再設定する稼動情報収集設定ファイル変更手段と、稼動情報収集手段を起動する稼動情報収集手段起動手段と、設定ファイルに従ってネットワーク機器から稼動情報を収集する稼動統計情報収集手段と、収集した稼動情報を格納、保存する稼動情報保存手段を設けている。
【0015】
さらに、本発明は、現在稼動中の稼動情報収集手段の設定ファイルに対して部分的な設定変更を行う稼動情報収集設定ファイル変更手段を設けている。
【0016】
本発明は以上の構成を備えているので、大規模なネットワークシステムにおいても、システム全体に対し少ない監視経路でクライアントからサーバへ至る経路での応答時間を推定することができる。また、大規模なネットワークシステムにおいても、遅延発生時に原因部位を自動的に絞り込むことができる。また、大規模なネットワークシステムにおいても、遅延発生時に原因部位のみの稼動情報を自動的に収集することができる。
【0017】
【発明の実施の形態】
以下、図を参照して本発明の実施形態を説明する。
【0018】
図1は、本発明の一実施形態にかかるネットワーク性能障害分析支援システムの機能構成例である。図1を参照しながら、ネットワーク性能障害分析支援システムのハードウェア構成および機能構成を説明する。
【0019】
ネットワーク機器119は、ルータ、ATM交換機、スイッチングハブ、インテリジェントハブなどの機器であり、IPパケット応答時間測定のためのICMPエコー応答機能、および、稼動情報測定のためのSNMP(Simple Network Management Protocol )エージェント機能を備えている。また、サーバやクライアントが、ICMPエコー応答機能およびSNMPエージェント機能を備えている場合は、ネットワーク機器と見なすことが出来る。
【0020】
ネットワーク監視装置120、ネットワーク情報表示装置121は、一般的なパーソナルコンピュータであり、CPU(Central Processing Unit )がプログラム命令を解釈し実行することができる。
【0021】
応答時間測定処理部102は、ネットワーク監視装置120内にあり、監視装置120からネットワーク機器119に至る経路における応答時間およびIPパケット到達率101を周期的に測定する。
【0022】
サーバ・クライアント応答時間推定処理部103は、ネットワーク監視装置120内にあり、監視装置120からサーバに至る経路における応答時間、および、監視装置120からクライアントに至る経路における応答時間から、クライアントからサーバに至る経路における応答時間を推定する。推定方法の詳細については後述する。
【0023】
応答時間格納処理部104は、ネットワーク監視装置120内にある記憶装置であり、応答時間測定処理部102により測定された応答時間情報およびパケット到達率情報101を格納、蓄積する。
【0024】
応答時間表示処理部105は、ネットワーク監視装置120内にあり、応答時間測定処理部102により測定された応答時間情報およびパケット到達率情報101をネットワーク情報表示装置を通じて表示する。
【0025】
応答時間確認処理部108は、ネットワーク監視装置120内にあり、監視装置120から個々のネットワーク機器119に至る経路における応答時間およびIPパケット到達率101が、それぞれに設定した閾値以上であるか判定する。
【0026】
遅延部位絞込み処理部109は、ネットワーク監視装置120内にあり、監視装置120から個々のネットワーク機器119に至る経路における応答時間およびIPパケット到達率101において、閾値以上の値が検知された場合に、遅延の原因となるネットワーク部位を自動的に絞り込む。絞り込み方法の詳細については後述する。
【0027】
稼動情報収集設定ファイル作成処理部110は、ネットワーク監視装置120内にあり、自動的に絞り込んだ遅延原因部位に設置されたネットワーク機器119を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する。
【0028】
稼動情報収集設定ファイル変更処理部111は、ネットワーク監視装置120内にあり、作成した設定ファイルを監視装置120内の稼動情報収集処理部115に対して再設定する。また、稼動情報収集設定ファイル変更処理部111は、作成した設定ファイルをもとに現在稼動中の稼動情報収集処理部の設定ファイルに対して部分的な設定変更を行う。
【0029】
稼動情報収集処理部起動処理部112は、ネットワーク監視装置120内にあり、監視装置120から個々のネットワーク機器119に至る経路における応答時間およびIPパケット到達率101において、閾値以上の値が検知された場合に、稼動情報収集処理部115を起動する。
【0030】
稼動情報収集処理部115は、ネットワーク監視装置120内にあり、ネットワーク機器119が稼動情報測定処理部113により測定したネットワーク稼動情報114を、設定ファイルに従って、ネットワーク機器119から収集する。
【0031】
稼動情報格納処理部116は、ネットワーク監視装置120内にある記憶装置であり、稼動情報収集処理部115により収集されたネットワーク稼動情報114を格納、蓄積する。
【0032】
稼動情報表示処理部117は、ネットワーク監視装置120内にあり、稼動情報収集処理部115により収集された稼動情報114をネットワーク情報表示装置を通じて表示する。
【0033】
表示処理部呼び出し処理部107は、ネットワーク情報表示装置121内にあり、ネットワーク監視装置120にある応答時間表示処理部105を呼び出すことにより、応答時間情報やパケット到達率情報106を表示する。また、ネットワーク監視装置120にある稼動情報表示処理部117を呼び出すことにより、ネットワーク稼動情報118を表示する。 上記各処理部は、上記CPUがプログラムを実行することにより具現化される。プログラムは、予め記憶装置に格納されていても良いし、記憶媒体または通信媒体を介して他の装置から導入されても良い。
【0034】
次に、以上の機能構成を持つネットワーク監視装置120によるネットワーク性能障害分析支援の例を、図2のフローチャートを利用して説明する。
【0035】
(step 201)
応答時間測定処理部102により、監視装置120からネットワーク機器119に至る経路における応答時間およびIPパケット到達率を、10分毎や5毎という設定周期に従い、測定する。
【0036】
ここで、監視対象とする数千台以上のネットワーク機器からなるような大規模なネットワークシステムの代表的な構成例を、図3に示す。数百オーダのサーバと数千オーダ以上のクライアントからなる大規模なネットワークシステムおいては、ネットワークの拡張性や回線コストの観点から、ネットワークにハブとなる中継拠点303、304を設置し、ここで回線を集約するトポロジーとすることが多い。また、信頼性の観点から、中継拠点303、304を複数設置し、クライアント330〜337からサーバ320〜323までの経路が2重系となるようにしている。これは、サーバ320〜323の設置されたデータセンタ302、基幹となる中継拠点303、304、クライアント330〜337の設置された支店305〜308からなる階層型ネットワークトポロジーであるが、見方を変えれば、中継拠点303、304を幹線部としサーバ320〜323側を支線部とするツリー型構成と、中継拠点303、304を幹線部としクライアント330〜337側を支線部とするツリー型構成が組み合わさったネットワーク構成である。
【0037】
クライアント330〜337からサーバ320〜323に至る経路においてIPパケットの応答時間を測定する場合に、通常、クライアントにおいてサーバをターゲットとしてICMPエコーの要求/応答時間(pingコマンド)を測定する。しかしながら、上記のような構成のネットワークにおいては、全サーバ320〜323から全クライアント330〜337に至る経路における応答時間を測定するためには、サーバ320〜323数をm台、クライアント330〜337数をn台としたときに、
m×n
だけの経路数の監視をする必要がある。この場合、監視トラフィック量も多くなるため、通常のトラフィックの妨げになる恐れがある。また、監視装置をクライアント330〜337毎あるいはサーバ320〜323毎に分散して設置しなければならないので、管理上の問題が生じる。
【0038】
本実施例では、ネットワーク全体をカバーするための方法として、中継拠点303、304を中心とする監視方法を採用する。これは、図3において点線の矢印で示した監視経路370〜376のように、ネットワークのツリー型構成部分において、監視センタ301内の監視装置NMS310から幹線部(中継拠点303、304)を通り支線部(データセンタ302、あるいは、支店305〜308)のネットワーク機器に至る経路におけるIPパケット応答時間および到達率の測定を行う方法である。監視対象数が多く監視装置(310)1台でカバーできない場合は、複数台で分担することも可能である。これら複数台の監視装置310は、監視センタに一括して設置する。
【0039】
なお、図3の監視装置310は、図1におけるネットワーク監視装置120に相当し、応答時間測定処理部102、サーバ・クライアント応答時間推定処理部103、応答時間格納処理部104、応答時間表示処理部105、応答時間確認処理部108、遅延部位絞込み処理部109、稼動情報収集設定ファイル作成処理部110、稼動情報収集設定ファイル変更処理部111、稼動情報収集処理部起動処理部112、稼動情報収集処理部115、稼動情報格納処理部116、稼動情報表示処理部117の各処理部を有する。
【0040】
また、図3のサーバ320〜323、クライアント330〜337、ルータ340〜359は、図1におけるネットワーク機器119に相当する。 この方法においては、クライアント330〜337からサーバ320〜323に至る経路におけるIPパケット応答時間、例えば、図3における支店305のクライアントCL1(330)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV1(320)に至る経路におけるIPパケット応答時間tは、監視装置NMS(310)から中継拠点のルータR5(344)を通り支店305のクライアントCL1(330)に至る経路(監視経路D(373))におけるIPパケット応答時間をtc、監視装置NMS(310)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV1(320)に至る経路(監視経路B(371))におけるIPパケット応答時間をts、監視装置NMS(310)から中継拠点303のルータR5(344)に至る経路(監視経路A(370))におけるIPパケット応答時間をt0とした場合、
t=tc+ts−2×t0
により推定する。
【0041】
サーバ・クライアント応答時間推定処理部103は、この方法に従い、それぞれのサーバ320〜323とクライアント330〜337の組み合わせに応じて、サーバ320〜323からクライアント330〜337に至る経路における応答時間を推定する。
【0042】
この方法により、全サーバ320〜323から全クライアント330〜337に至る経路における応答時間を測定するためには、サーバ320〜323数をm台、クライアント330〜337数をn台としたときに、
m+n
だけの経路数の監視で可能である。従って、監視トラフィック量を削減でき、また、監視センタ301のみに設置した監視装置310からの集中監視により、ネットワーク全体を監視できる。
【0043】
(step 202)
応答時間確認処理部108は、応答時間測定処理部102により測定した監視装置からネットワーク機器に至る経路における応答時間およびIPパケット到達率が、それぞれの監視経路に対して設定した閾値を超えているかどうか判定する。
【0044】
閾値の設定基準は、以下のとおりである。
【0045】
・ネットワークの各経路における応答時間設計値
・過去の測定結果における同一の時間帯の平均値、分散値
・過去の測定結果における同一の曜日、時間帯の平均値、分散値
・過去の測定結果における同一の週、曜日、時間帯の平均値、分散値
・過去の測定結果における同一の日付、時間帯の平均値、分散値
(step 203)
遅延原因部位絞込み処理部109は、少なくとも一つの監視経路において応答時間およびIPパケット到達率が、それぞれの監視経路に対して設定した閾値を超えている場合には、遅延発生の原因部位を自動的に絞込み、その部位を稼動情報の収集対象とする。
【0046】
図3および図4を用いて、遅延部位絞込み処理部109による、遅延発生の原因部位の絞込み方法を解説する。中継拠点303、304を幹線部とするツリー型構成において、基幹から支線部に至る経路での応答時間の監視を行っているとき、基幹部に近いネットワーク機器やインターフェースが原因で応答時間に遅延が発生した場合、基幹を通る複数の監視経路において、遅延が検知されるはずである。一方、支線部に近いネットワーク機器やインターフェースが原因で応答時間に遅延が発生した場合、支線を通る少数の監視経路においてのみ、遅延が検知されるはずである。従って、ツリー型構成における基幹から支線部に至る複数経路での応答時間の比較をおこない、応答時間の測定結果より原因個所の推定を行うことにより、遅延の原因部位を絞り込むことが可能である。
【0047】
例えば、図3に示すクライアントCL1(330)、クライアントCL3(332)、クライアントCL5(334)、クライアントCL7(336)から、サーバSV1(320)およびサーバSV3(322)に至るそれぞれの通信経路における応答時間を、監視装置NMS(310)から中継拠点303のルータR5(344)に至る経路(監視経路A(370))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV1(320)に至る経路(監視経路B(371))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV3(322)に至る経路(監視経路C(372))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店305のクライアントCL1(330)に至る経路(監視経路D(373))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店306のクライアントCL3(332)に至る経路(監視経路E(374))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店307のクライアントCL5(334)に至る経路(監視経路F(375))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店308のクライアントCL7(336)に至る経路(監視経路G(376))における応答時間を測定し前述の方法に従うことにより推定しているとする。
【0048】
いずれかの監視経路A(370)〜G(376)において遅延が検知された場合、監視装置NMS310は、各経路A(370)〜G(376)の遅延状態を組み合わせ、比較する。各監視経路A(370)〜G(376)における遅延検知状態の組み合わせを図4の表401に表す。
【0049】
中継拠点303のルータR5(344)からデータセンタ302のサーバSV1(320)およびサーバSV3(322)に至る経路における遅延時間の比較において、表401の列403のように監視経路A(370)において遅延が検知された場合、遅延の原因部位はルータR5(344)およびそのインタフェースIF1(360)付近と絞り込むことができる。表401の列404のように監視経路A(370)においては正常、監視経路B(371)および監視経路C(372)において遅延が検知された場合、遅延の原因部位はルータR5(344)およびそのインタフェースIF2(361)付近と絞り込むことができる。表401の列405のように監視経路A(370)および監視経路C(302)においては正常、監視経路B(371)において遅延が検知された場合、遅延の原因部位はルータR1(340)およびその全インタフェース付近と絞り込むことができる。表401の列406のように監視経路A(370)および監視経路B(371)においては正常、監視経路C(372)において遅延が検知された場合、遅延の原因部位はルータR3(342)およびその全インタフェース付近と絞り込むことができる。
【0050】
同様に、中継拠点303のルータR5(344)から各支店305〜308のクライアントCL1(330)、クライアントCL3(332)、クライアントCL5(334)、クライアントCL7(336)に至る経路における遅延時間の比較において、表401の列407のように監視経路A(370)、監視経路E(374)、監視経路F(375)および監視経路G(376)においては正常、監視経路D(373)において遅延が検知された場合、遅延の原因部位はルータR13(352)およびその全インタフェース付近と絞り込むことができる。表401の列408のように監視経路A(370)、監視経路F(375)および監視経路G(376)においては正常、監視経路D(373)および監視経路E(374)において遅延が検知された場合、遅延の原因部位はルータR7(346)およびそのインタフェースIF5(364)付近と絞り込むことができる。表401の列409のように監視経路A(370)および監視経路Gにおいては正常、監視経路D、監視経路Eおよび監視経路Fにおいて遅延が検知された場合、遅延の原因部位はルータR7およびそのインタフェースIF4付近と絞り込むことができる。表401の列410のように監視経路A(370)においては正常、監視経路D(373)、監視経路E(374)、監視経路F(375)および監視経路G(376)において遅延が検知された場合、遅延の原因部位はルータR5(344)およびそのインタフェースIF3(362)付近と絞り込むことができる。
【0051】
以上のように、ネットワークのツリー型構成部分において、監視装置310から幹線部を通り支線部のネットワーク機器に至る複数経路での遅延状態を比較することにより、遅延発生の原因部位を絞り込むこが可能である。図4の各監視経路A(370)〜G(376)における遅延状態の比較表401とそれに対応する原因部位の絞込み結果402を予め記述しておけば、遅延原因部位絞込み処理部109は、それらの表の対応関係を参照することにより、各監視経路A(370)〜G(376)の遅延状態に応じて自動的に原因部位を絞り込むことができる。遅延原因の調査を行うため遅延原因部位の稼動情報を収集する必要があるが、遅延原因部位絞込み処理部109は、絞り込んだ遅延の原因部位を、稼動情報の収集対象に設定する。
【0052】
(step 204)
稼動情報収集設定ファイル作成処理部110は、稼動情報収集のための設定項目として収集情報種別を決定する。
【0053】
ネットワーク稼動情報の収集情報種別は、ルータやレイヤー3スイッチやATMスイッチなどのネットワーク機器に対しては、CPU利用率、空きメモリ量とする。またそれらのインターフェースに対しては、入出力トラフィック量、入出力パケット数、入出力パケット廃棄数、入出力エラーバケット数、コリジョン数とする。
【0054】
(step 205)
稼動情報収集設定ファイル作成処理部110は、稼動情報収集のための設定項目として収集周期を決定する。
【0055】
ネットワーク稼動情報の収集周期は、1分というように予め設定した値を利用するか、通常の長期的傾向把握のための定期的な稼動情報収集の周期の10分の1というように設定する。
【0056】
(step 206)
稼動情報収集設定ファイル作成処理部110は、稼動情報収集のための設定項目として収集期間を決定する。
【0057】
ネットワーク稼動情報の収集周期は、30分というように予め設定した値を利用するか、応答時間が閾値を超えていた監視経路において、その後の応答時間測定結果が閾値以下になるまでとする。
【0058】
(step 207)
稼動情報収集設定ファイル作成処理部110は、step203からstep206での決定事項に基づき、稼動情報収集処理部115の設定ファイルを作成する。
【0059】
(step 208)
稼動情報収集設定ファイル変更処理部111は、稼動情報収集設定ファイル作成処理部110が作成した設定ファイルを、稼動情報収集処理部115の設定ファイルに上書きするか、部分的に変更を加える。また、既にネットワークの定期的稼動情報収集のための処理部が動作している場合は、その設定ファイルに対して、部分的な変更を加えることも可能である。
【0060】
(step 209)
稼動情報収集処理部起動処理部112は、設定ファイルの変更をされた稼動情報収集処理部115を起動する。稼動情報収集処理部115は、再設定された設定ファイルに従い、ネットワーク稼動情報を収集する。
【0061】
本実施例は以上のstepを監視装置において実施することにより、本実施例は以上の構成を備えているので、大規模なネットワークシステムにおいても、システム全体に対し少ない監視経路、少ない監視トラフィック量でクライアントからサーバへ至る経路での応答時間を推定することができる。さらに、大規模なネットワークシステムにおいても、遅延発生時に原因部位を自動的に絞り込むことができる。さらに、大規模なネットワークシステムにおいても、遅延発生時に原因部位のみの稼動情報を自動的に収集するというような効率的な情報収集が可能である。
【0062】
【発明の効果】
本発明によれば、大規模なネットワークシステムにおいても、効率的に、応答時間の測定や遅延個所の絞込みを行うことが可能になる。
【図面の簡単な説明】
【図1】本実施形態のシステム構成図である。
【図2】本実施形態のネットワーク監視装置による性能障害分析支援処理の流れである。
【図3】本実施形態のネットワーク論理構成図および応答時間監視経路の例である。
【図4】本実施形態のネットワーク監視装置による応答時間測定結果からの遅延部位絞込みの例である。
【符号の説明】
101……応答時間情報・パケット到達率情報、102……応答時間測定処理部、103……サーバ・クライアント応答時間推定処理部、104……応答時間格納処理部、105……応答時間表示処理部、106……応答時間情報・パケット到達率情報、107……表示処理部呼び出し処理部、108……応答時間確認処理部、109……遅延部位絞込み処理部、110……稼動情報収集設定ファイル作成処理部、111……稼動情報収集設定ファイル変更処理部、112……稼動情報収集処理部起動処理部、113……稼動情報測定処理部、114……ネットワーク稼動情報、115……稼動情報収集処理部、116……稼動情報格納処理部、117……稼動情報表示処理部、118……ネットワーク稼動情報、119……ネットワーク機器、120……ネットワーク監視装置、121……ネットワーク情報表示装置。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a network system operation management method, and more particularly, to a method for performing performance management by monitoring response times of network devices, diagnosing a network system operation state, performing a failure site analysis, and performing preventive maintenance.
[0002]
[Prior art]
A network system manager or system engineer usually measures response time between network devices in order to grasp network performance. For measuring the response time, a response time measurement method of an IP packet using a request / response time (ping command) of an ICMP (Internet Control Message Protocol) echo is widely used.
[0003]
[0004]
Patent Document 2 discloses a method for automatically investigating a delay point in a network system.
[0005]
[Patent Document 1]
JP-A-11-346238
[Patent Document 2]
JP-A-2002-152203
[0006]
[Problems to be solved by the invention]
In
[0007]
In Patent Document 2, it is necessary to specify a route and measure a response time from each node on the route in order to separate a delay point.
[0008]
These conventional methods are not efficient methods for measuring response time covering the entire large-scale network system including thousands or more network devices and narrowing down delay points.
[0009]
[Means for Solving the Problems]
The present invention provides a network performance failure analysis support method capable of estimating a response time on a path from a client to a server in a large-scale network system including thousands or more network devices.
[0010]
Further, the present invention provides a network performance failure analysis support method that can automatically narrow down a cause part when a delay occurs even in a large-scale network system including thousands or more network devices.
[0011]
Also, the present invention provides a network performance failure analysis support method that can automatically collect operation information of only a cause part when a delay occurs even in a large-scale network system including thousands or more network devices. I do.
[0012]
More specifically, the present invention relates to a tree-type network that extends from a trunk base relay point to a plurality of branch line network devices. Response time measuring means for measuring the response time and the arrival rate of IP packets on a route to a server, and a server / client for estimating a response time on a route from a client device installed on a branch line to a server device installed on another branch line Response time estimating means is provided.
[0013]
Further, the present invention further includes a response time confirming means for determining whether a delay has occurred in the response time, and a delay cause part narrowing means for automatically narrowing down the cause part of the delay.
[0014]
In addition, the present invention automatically selects network devices installed at the cause of delay occurrence as operation information collection target devices, and further determines the type of operation information to be collected, a collection cycle, and a collection period to determine operation information. Operating information collection setting file creating means for creating a setting file for collection, operating information collection setting file changing means for resetting the created setting file to the operating information collecting means in the monitoring device, and operating information collecting means Operating information collecting means for activating the operation information, operating statistical information collecting means for collecting operating information from network devices in accordance with a setting file, and operating information storing means for storing and storing the collected operating information.
[0015]
Further, the present invention includes an operation information collection setting file change unit for partially changing the setting file of the currently operating operation information collection unit.
[0016]
Since the present invention has the configuration described above, even in a large-scale network system, it is possible to estimate the response time in a path from a client to a server with a small number of monitoring paths for the entire system. Further, even in a large-scale network system, a cause part can be automatically narrowed down when a delay occurs. In addition, even in a large-scale network system, it is possible to automatically collect operation information of only a cause part when a delay occurs.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0018]
FIG. 1 is a functional configuration example of a network performance failure analysis support system according to an embodiment of the present invention. The hardware configuration and the functional configuration of the network performance failure analysis support system will be described with reference to FIG.
[0019]
The network device 119 is a device such as a router, an ATM switch, a switching hub, or an intelligent hub, and has an ICMP echo response function for measuring an IP packet response time, and an SNMP (Simple Network Management Protocol) agent for measuring operation information. Has functions. When the server or the client has the ICMP echo response function and the SNMP agent function, it can be regarded as a network device.
[0020]
The
[0021]
The response time
[0022]
The server / client response time
[0023]
The response time
[0024]
The response time
[0025]
The response time
[0026]
The delay part narrowing down processing
[0027]
The operation information collection setting file
[0028]
The operation information collection setting file change processing unit 111 is in the
[0029]
The operation information collection processing unit
[0030]
The operation information
[0031]
The operation information
[0032]
The operation information
[0033]
The display processing unit
[0034]
Next, an example of network performance failure analysis support by the
[0035]
(Step 201)
The response time
[0036]
Here, FIG. 3 shows a typical configuration example of a large-scale network system including thousands or more network devices to be monitored. In a large-scale network system including a server of several hundred orders and a client of several thousand orders or more, from the viewpoint of network expandability and line cost, relay bases 303 and 304 serving as hubs are installed in the network. It is often a topology that aggregates lines. Further, from the viewpoint of reliability, a plurality of
[0037]
When measuring the response time of an IP packet in the path from the
mxn
It is necessary to monitor only the number of routes. In this case, the amount of monitoring traffic increases, which may hinder normal traffic. In addition, since monitoring devices must be distributed and installed for each of the
[0038]
In the present embodiment, as a method for covering the entire network, a monitoring method centered on the relay points 303 and 304 is adopted. This is because, as shown by the monitoring
[0039]
The
[0040]
The servers 320 to 323, the
t = tc + ts−2 × t0
Estimate by
[0041]
According to this method, the server / client response time
[0042]
According to this method, in order to measure the response time in the path from all servers 320 to 323 to all
m + n
It is possible to monitor only the number of paths. Therefore, the amount of monitoring traffic can be reduced, and the entire network can be monitored by centralized monitoring from the
[0043]
(Step 202)
The response time
[0044]
The threshold setting criteria are as follows.
[0045]
・ Response time design value for each route of the network
・ Average value and variance value of the same time zone in past measurement results
・ Average and variance values of the same day of the week and time zone in past measurement
・ Average value and variance value of the same week, day, and time zone in the past measurement results
・ Average value and variance value of the same date and time zone in past measurement results
(Step 203)
If the response time and the IP packet arrival rate in at least one of the monitoring paths exceed the thresholds set for the respective monitoring paths, the delay cause part narrowing down processing
[0046]
With reference to FIGS. 3 and 4, a method of narrowing down a part causing a delay by the delay part narrowing down processing
[0047]
For example, responses in respective communication paths from the client CL1 (330), the client CL3 (332), the client CL5 (334), and the client CL7 (336) shown in FIG. 3 to the server SV1 (320) and the server SV3 (322). The response time in the route (monitoring route A (370)) from the monitoring device NMS (310) to the router R5 (344) of the
[0048]
When a delay is detected in any of the monitoring paths A (370) to G (376), the
[0049]
In comparison of the delay time on the route from the router R5 (344) of the
[0050]
Similarly, a comparison of the delay time in the route from the router R5 (344) of the
[0051]
As described above, in the tree-type configuration of the network, it is possible to narrow down the cause of the delay by comparing the delay states in a plurality of paths from the
[0052]
(Step 204)
The operation information collection setting file
[0053]
The collected information type of the network operation information is a CPU utilization rate and an available memory amount for network devices such as a router, a
[0054]
(Step 205)
The operation information collection setting file
[0055]
The collection period of the network operation information is set to use a preset value such as one minute, or set to one tenth of the period of regular operation information collection for grasping a normal long-term trend.
[0056]
(Step 206)
The operation information collection setting file
[0057]
The collection cycle of the network operation information is set to a value set in advance such as 30 minutes, or until the subsequent response time measurement result becomes equal to or less than the threshold value in the monitoring route whose response time exceeds the threshold value.
[0058]
(Step 207)
The operation information collection setting file
[0059]
(Step 208)
The operation information collection setting file change processing unit 111 overwrites or partially changes the setting file created by the operation information collection setting file
[0060]
(Step 209)
The operation information collection processing unit
[0061]
In the present embodiment, the above-described steps are performed by the monitoring apparatus. Thus, the present embodiment has the above-described configuration. The response time on the path from the client to the server can be estimated. Further, even in a large-scale network system, a cause part can be automatically narrowed down when a delay occurs. Further, even in a large-scale network system, it is possible to efficiently collect information such as automatically collecting operation information of only a cause part when a delay occurs.
[0062]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to this invention, even in a large-scale network system, it becomes possible to measure a response time and narrow down a delay point efficiently.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of an embodiment.
FIG. 2 is a flow of a performance failure analysis support process by the network monitoring device of the present embodiment.
FIG. 3 is an example of a network logical configuration diagram and a response time monitoring path according to the embodiment;
FIG. 4 is an example of narrowing down a delay portion from a response time measurement result by the network monitoring device of the present embodiment.
[Explanation of symbols]
101: Response time information / packet arrival rate information, 102: Response time measurement processing unit, 103: Server / client response time estimation processing unit, 104: Response time storage processing unit, 105: Response time display processing unit , 106... Response time information / packet arrival rate information, 107... Display processing unit call processing unit, 108... Response time confirmation processing unit, 109... Delay part narrowing down processing unit, 110. Processing unit, 111: Operation information collection setting file change processing unit, 112: Operation information collection processing unit activation processing unit, 113: Operation information measurement processing unit, 114: Network operation information, 115: Operation information collection processing , Operation information storage processing unit, 117 operation information display processing unit, 118 network operation information, 119 network device , 120 ...... network monitoring apparatus, 121 ...... network information display device.
Claims (5)
応答時間に遅延が生じているかを判定する応答時間確認手段と、
複数経路の遅延状態を比較することにより、遅延発生の原因部位を自動的に絞り込む遅延原因部位絞込み手段とを備える
ことを特徴とするネットワーク性能障害分析支援システム。In a tree-type network from a trunk base relay point to a plurality of branch line network devices, an IP in a path from a monitoring device connected to the trunk line to the network device of any of the branch lines through the relay base through the relay base. Response time measuring means for measuring packet response time and arrival rate;
Response time checking means for determining whether a delay has occurred in the response time,
A network performance failure analysis support system, comprising: a delay cause part narrowing means for automatically narrowing down a cause part of a delay by comparing delay states of a plurality of paths.
監視装置から中継拠点を通り支線部のクライアント機器に至る経路におけるIPパケット応答時間と、監視装置から中継拠点を通り支線部のサーバ機器に至る経路におけるIPパケット応答時間と、監視装置から中継拠点におけるサーバ機器からクライアント機器への経路の中心となるネットワーク機器に至る経路におけるIPパケット応答時間をもとに、クライアント機器からサーバ機器に至る経路における応答時間を推定するサーバ・クライアント応答時間推定手段をさらに具備したことを特徴とするネットワーク性能障害分析支援システム。The network performance failure analysis support system according to claim 2,
The IP packet response time on the path from the monitoring device to the client device in the branch line through the relay base, the IP packet response time in the route from the monitoring device to the server device in the branch line through the relay base, and the IP packet response time in the route from the monitoring device to the relay base A server / client response time estimating means for estimating a response time in a path from the client device to the server device based on an IP packet response time in a path from the server device to the network device serving as a center of the route from the server device to the client device; A network performance failure analysis support system characterized by comprising:
自動的に絞り込んだ遅延発生の原因部位に設置されたネットワーク機器を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、
作成した設定ファイルを稼動情報収集手段に対して再設定する稼動情報収集設定ファイル変更手段と、
稼動情報収集手段を起動する稼動情報収集手段起動手段と、
設定ファイルに従ってネットワーク機器から稼動情報を収集する稼動統計情報収集手段をさらに具備したことを特徴とするネットワーク性能障害分析支援システム。The network performance failure analysis support system according to claim 2,
A network device installed at the cause of the delay that was automatically narrowed down is set as the operation information collection target device, and the type of operation information to be collected, the collection cycle, and the collection period are determined, and a configuration file for collecting operation information Means for creating an operation information collection setting file for creating
Operating information collection setting file changing means for resetting the created setting file to the operating information collecting means;
Operating information collecting means starting means for starting the operating information collecting means,
A network performance failure analysis support system, further comprising operation statistics information collecting means for collecting operation information from a network device according to a setting file.
自動的に絞り込んだ遅延発生の原因部位に設置されたネットワーク機器を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、
作成した設定ファイルをもとに現在稼動中の稼動情報収集手段の設定ファイルに対して部分的な設定変更を行う稼動情報収集設定ファイル変更手段をさらに具備したことを特徴とするネットワーク性能障害分析支援システム。The network performance failure analysis support system according to claim 2,
A network device installed at the cause of the delay that was automatically narrowed down is set as the operation information collection target device, and the type of operation information to be collected, the collection cycle, and the collection period are determined, and a configuration file for collecting operation information Means for creating an operation information collection setting file for creating
Network performance failure analysis support, further comprising an operation information collection setting file change unit for partially changing a setting file of the operation information collection unit currently in operation based on the created setting file. system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002264894A JP2004104540A (en) | 2002-09-11 | 2002-09-11 | Support system for analyzing network performance fault |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002264894A JP2004104540A (en) | 2002-09-11 | 2002-09-11 | Support system for analyzing network performance fault |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004104540A true JP2004104540A (en) | 2004-04-02 |
Family
ID=32264182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002264894A Pending JP2004104540A (en) | 2002-09-11 | 2002-09-11 | Support system for analyzing network performance fault |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004104540A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008112347A (en) * | 2006-10-31 | 2008-05-15 | Fujitsu Ltd | System, unit, method and program for controlling communication between rf-id tag and network, and manufacturing method for manufacturing product utilizing the same control method |
JP2009088732A (en) * | 2007-09-28 | 2009-04-23 | Hitachi Ltd | Control network system |
JP2011188282A (en) * | 2010-03-09 | 2011-09-22 | Ntt Comware Corp | Deteriorated path detection system, deteriorated path detection method, and computer program |
JP2011258098A (en) * | 2010-06-11 | 2011-12-22 | Hitachi Ltd | Virtual computer system, monitoring method of virtual computer system and network system |
WO2012029422A1 (en) | 2010-08-30 | 2012-03-08 | 日本電気株式会社 | Communication quality monitoring system, communication quality monitoring method, and storage medium |
US8255518B2 (en) | 2006-10-26 | 2012-08-28 | Hitachi, Ltd. | Computer system and method for monitoring performance of the computer system |
US8593974B2 (en) | 2006-01-30 | 2013-11-26 | Fujitsu Limited | Communication conditions determination method, communication conditions determination system, and determination apparatus |
-
2002
- 2002-09-11 JP JP2002264894A patent/JP2004104540A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8593974B2 (en) | 2006-01-30 | 2013-11-26 | Fujitsu Limited | Communication conditions determination method, communication conditions determination system, and determination apparatus |
US8255518B2 (en) | 2006-10-26 | 2012-08-28 | Hitachi, Ltd. | Computer system and method for monitoring performance of the computer system |
JP2008112347A (en) * | 2006-10-31 | 2008-05-15 | Fujitsu Ltd | System, unit, method and program for controlling communication between rf-id tag and network, and manufacturing method for manufacturing product utilizing the same control method |
JP2009088732A (en) * | 2007-09-28 | 2009-04-23 | Hitachi Ltd | Control network system |
JP2011188282A (en) * | 2010-03-09 | 2011-09-22 | Ntt Comware Corp | Deteriorated path detection system, deteriorated path detection method, and computer program |
JP2011258098A (en) * | 2010-06-11 | 2011-12-22 | Hitachi Ltd | Virtual computer system, monitoring method of virtual computer system and network system |
WO2012029422A1 (en) | 2010-08-30 | 2012-03-08 | 日本電気株式会社 | Communication quality monitoring system, communication quality monitoring method, and storage medium |
US9178794B2 (en) | 2010-08-30 | 2015-11-03 | Nec Corporation | Communication quality monitoring system, communication quality monitoring method and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6856942B2 (en) | System, method and model for autonomic management of enterprise applications | |
JP3556842B2 (en) | Network monitoring mechanism, network monitoring device, and network management method | |
EP1469636B1 (en) | Centralized connectivity verification in a communications network management context | |
JP4758259B2 (en) | Network monitoring apparatus and method | |
CA2493525C (en) | Method and apparatus for outage measurement | |
US20110270957A1 (en) | Method and system for logging trace events of a network device | |
US20050243729A1 (en) | Method and apparatus for automating and scaling active probing-based IP network performance monitoring and diagnosis | |
US20040153835A1 (en) | Automated and embedded software reliability measurement and classification in network elements | |
WO2017015462A1 (en) | Methods, systems, and apparatus to generate information transmission performance alerts | |
JP2004228828A (en) | Network failure analysis support system | |
US20080298229A1 (en) | Network wide time based correlation of internet protocol (ip) service level agreement (sla) faults | |
JP2009049708A (en) | Apparatus for gathering network fault information, system, method and program | |
JP4412031B2 (en) | Network monitoring system and method, and program | |
EP2807563B1 (en) | Network debugging | |
US9298583B2 (en) | Network traffic based power consumption estimation of information technology systems | |
Roughan et al. | IP forwarding anomalies and improving their detection using multiple data sources | |
JP2004104540A (en) | Support system for analyzing network performance fault | |
US8509093B2 (en) | Outage analysis system | |
JP2014053658A (en) | Failure site estimation system and failure site estimation program | |
JP3598394B2 (en) | Service management method and device | |
JP2007228421A (en) | Ip network route diagnosis apparatus and ip network route diagnosis system | |
JP4117291B2 (en) | Device for collecting and analyzing network information and creating network configuration information, method for creating network configuration information, and program for creating network configuration information | |
Panahi et al. | The llama middleware support for accountable service-oriented architecture | |
CN113300914A (en) | Network quality monitoring method, device, system, electronic equipment and storage medium | |
JP2014036310A (en) | Apparatus and method for evaluating effect |