JP2004104540A - Support system for analyzing network performance fault - Google Patents

Support system for analyzing network performance fault Download PDF

Info

Publication number
JP2004104540A
JP2004104540A JP2002264894A JP2002264894A JP2004104540A JP 2004104540 A JP2004104540 A JP 2004104540A JP 2002264894 A JP2002264894 A JP 2002264894A JP 2002264894 A JP2002264894 A JP 2002264894A JP 2004104540 A JP2004104540 A JP 2004104540A
Authority
JP
Japan
Prior art keywords
response time
network
operation information
delay
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002264894A
Other languages
Japanese (ja)
Inventor
Yukio Ogawa
小川 祐紀雄
Eiji Ohira
大平 栄二
Satoshi Hasegawa
長谷川 聡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002264894A priority Critical patent/JP2004104540A/en
Publication of JP2004104540A publication Critical patent/JP2004104540A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method that can measure a response time of the entire network even in a large-scale network system and collect operational information of a cause part by narrowing down the cause part when delay occurs about a network system performance fault analysis supporting method. <P>SOLUTION: A tree type configuration part of a network system comprises a means for measuring an IP packet response time in a path that goes through a trunk part from a monitor to a network device of a branch line part, a means for estimating a response time in a path that goes from a client device of the branch line part to a server device of a second supporting part from measuring results, a means for determining delay occurrence of the response time, a means for automatically narrowing down the cause part of the delay occurrence by comparing delay states of a plurality of paths, and a means for collecting operational information by considering a network device located at the narrowed down part as a collection object of the operational information. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークシステム運用管理方法に関し、さらに詳しくは、ネットワーク機器の応答時間を監視することにより性能管理を行い、ネットワークシステム稼動状態の診断、障害部位分析、予防保守を行う方法に関する。
【0002】
【従来の技術】
ネットワークシステムの管理者やシステムエンジニアは、ネットワークの性能を把握するために、通常、ネットワーク機器間における応答時間の測定を行う。応答時間の測定には、ICMP(Internet Control Message Protocol)エコーの要求/応答時間(pingコマンド)を利用したIPパケットの応答時間測定方法が、広く利用されている。
【0003】
特許文献1には、ネットワークシステムにおいて遅延個所を分離するための方法が開示されている。
【0004】
また、特許文献2には、ネットワークシステムにおいて遅延個所を自動的に調査するための方法が開示されている。
【0005】
【特許文献1】
特開平11−346238号公報
【特許文献2】
特開2002−152203号公報
【0006】
【発明が解決しようとする課題】
特許文献1では、遅延個所を分離するためにネットワークシステム上に多数の応答時間測定プローブを設置する必要がある。
【0007】
また、特許文献2では、遅延個所を分離するために、経路を特定の上、経路上の各ノードからの応答時間を測定する必要がある。
【0008】
これらの従来方法は、数千台以上のネットワーク機器からなるような大規模なネットワークシステム全体をカバーする応答時間の測定行い、遅延個所の絞込みを行う場合においては効率的な方法ではない。
【0009】
【課題を解決するための手段】
本発明は、数千台以上のネットワーク機器からなるような大規模なネットワークシステムにおいても、システム全体におけるクライアントからサーバへ至る経路での応答時間を推定できるネットワーク性能障害分析支援方法を提供する。
【0010】
また、本発明は、数千台以上のネットワーク機器からなるような大規模なネットワークシステムにおいても遅延発生時に原因部位を自動的に絞り込むことができるネットワーク性能障害分析支援方法を提供する。
【0011】
また、本発明は、数千台以上のネットワーク機器からなるような大規模なネットワークシステムにおいても遅延発生時に原因部位のみの稼動情報を自動的に収集することができるネットワーク性能障害分析支援方法を提供する。
【0012】
具体的には、本発明は、幹線部の中継拠点から支線部の複数のネットワーク機器に至るツリー型のネットワークの、幹線部に接続した監視装置から中継拠点を通り支線部のいずれかのネットワーク機器に至る経路におけるIPパケット応答時間および到達率の測定を行う応答時間測定手段と、支線部分に設置したクライアント機器から別の支線部分に設置したサーバ機器に至る経路における応答時間を推定するサーバ・クライアント応答時間推定手段を設けている。
【0013】
また、本発明は、応答時間に遅延が生じているかを判定する応答時間確認手段と、遅延発生の原因部位を自動的に絞り込む遅延原因部位絞込み手段とをさらに設けている。
【0014】
また、本発明は、自動的に絞り込んだ遅延発生の原因部位に設置されたネットワーク機器を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、作成した設定ファイルを監視装置内の稼動情報収集手段に対して再設定する稼動情報収集設定ファイル変更手段と、稼動情報収集手段を起動する稼動情報収集手段起動手段と、設定ファイルに従ってネットワーク機器から稼動情報を収集する稼動統計情報収集手段と、収集した稼動情報を格納、保存する稼動情報保存手段を設けている。
【0015】
さらに、本発明は、現在稼動中の稼動情報収集手段の設定ファイルに対して部分的な設定変更を行う稼動情報収集設定ファイル変更手段を設けている。
【0016】
本発明は以上の構成を備えているので、大規模なネットワークシステムにおいても、システム全体に対し少ない監視経路でクライアントからサーバへ至る経路での応答時間を推定することができる。また、大規模なネットワークシステムにおいても、遅延発生時に原因部位を自動的に絞り込むことができる。また、大規模なネットワークシステムにおいても、遅延発生時に原因部位のみの稼動情報を自動的に収集することができる。
【0017】
【発明の実施の形態】
以下、図を参照して本発明の実施形態を説明する。
【0018】
図1は、本発明の一実施形態にかかるネットワーク性能障害分析支援システムの機能構成例である。図1を参照しながら、ネットワーク性能障害分析支援システムのハードウェア構成および機能構成を説明する。
【0019】
ネットワーク機器119は、ルータ、ATM交換機、スイッチングハブ、インテリジェントハブなどの機器であり、IPパケット応答時間測定のためのICMPエコー応答機能、および、稼動情報測定のためのSNMP(Simple Network Management Protocol )エージェント機能を備えている。また、サーバやクライアントが、ICMPエコー応答機能およびSNMPエージェント機能を備えている場合は、ネットワーク機器と見なすことが出来る。
【0020】
ネットワーク監視装置120、ネットワーク情報表示装置121は、一般的なパーソナルコンピュータであり、CPU(Central Processing Unit )がプログラム命令を解釈し実行することができる。
【0021】
応答時間測定処理部102は、ネットワーク監視装置120内にあり、監視装置120からネットワーク機器119に至る経路における応答時間およびIPパケット到達率101を周期的に測定する。
【0022】
サーバ・クライアント応答時間推定処理部103は、ネットワーク監視装置120内にあり、監視装置120からサーバに至る経路における応答時間、および、監視装置120からクライアントに至る経路における応答時間から、クライアントからサーバに至る経路における応答時間を推定する。推定方法の詳細については後述する。
【0023】
応答時間格納処理部104は、ネットワーク監視装置120内にある記憶装置であり、応答時間測定処理部102により測定された応答時間情報およびパケット到達率情報101を格納、蓄積する。
【0024】
応答時間表示処理部105は、ネットワーク監視装置120内にあり、応答時間測定処理部102により測定された応答時間情報およびパケット到達率情報101をネットワーク情報表示装置を通じて表示する。
【0025】
応答時間確認処理部108は、ネットワーク監視装置120内にあり、監視装置120から個々のネットワーク機器119に至る経路における応答時間およびIPパケット到達率101が、それぞれに設定した閾値以上であるか判定する。
【0026】
遅延部位絞込み処理部109は、ネットワーク監視装置120内にあり、監視装置120から個々のネットワーク機器119に至る経路における応答時間およびIPパケット到達率101において、閾値以上の値が検知された場合に、遅延の原因となるネットワーク部位を自動的に絞り込む。絞り込み方法の詳細については後述する。
【0027】
稼動情報収集設定ファイル作成処理部110は、ネットワーク監視装置120内にあり、自動的に絞り込んだ遅延原因部位に設置されたネットワーク機器119を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する。
【0028】
稼動情報収集設定ファイル変更処理部111は、ネットワーク監視装置120内にあり、作成した設定ファイルを監視装置120内の稼動情報収集処理部115に対して再設定する。また、稼動情報収集設定ファイル変更処理部111は、作成した設定ファイルをもとに現在稼動中の稼動情報収集処理部の設定ファイルに対して部分的な設定変更を行う。
【0029】
稼動情報収集処理部起動処理部112は、ネットワーク監視装置120内にあり、監視装置120から個々のネットワーク機器119に至る経路における応答時間およびIPパケット到達率101において、閾値以上の値が検知された場合に、稼動情報収集処理部115を起動する。
【0030】
稼動情報収集処理部115は、ネットワーク監視装置120内にあり、ネットワーク機器119が稼動情報測定処理部113により測定したネットワーク稼動情報114を、設定ファイルに従って、ネットワーク機器119から収集する。
【0031】
稼動情報格納処理部116は、ネットワーク監視装置120内にある記憶装置であり、稼動情報収集処理部115により収集されたネットワーク稼動情報114を格納、蓄積する。
【0032】
稼動情報表示処理部117は、ネットワーク監視装置120内にあり、稼動情報収集処理部115により収集された稼動情報114をネットワーク情報表示装置を通じて表示する。
【0033】
表示処理部呼び出し処理部107は、ネットワーク情報表示装置121内にあり、ネットワーク監視装置120にある応答時間表示処理部105を呼び出すことにより、応答時間情報やパケット到達率情報106を表示する。また、ネットワーク監視装置120にある稼動情報表示処理部117を呼び出すことにより、ネットワーク稼動情報118を表示する。 上記各処理部は、上記CPUがプログラムを実行することにより具現化される。プログラムは、予め記憶装置に格納されていても良いし、記憶媒体または通信媒体を介して他の装置から導入されても良い。
【0034】
次に、以上の機能構成を持つネットワーク監視装置120によるネットワーク性能障害分析支援の例を、図2のフローチャートを利用して説明する。
【0035】
(step 201)
応答時間測定処理部102により、監視装置120からネットワーク機器119に至る経路における応答時間およびIPパケット到達率を、10分毎や5毎という設定周期に従い、測定する。
【0036】
ここで、監視対象とする数千台以上のネットワーク機器からなるような大規模なネットワークシステムの代表的な構成例を、図3に示す。数百オーダのサーバと数千オーダ以上のクライアントからなる大規模なネットワークシステムおいては、ネットワークの拡張性や回線コストの観点から、ネットワークにハブとなる中継拠点303、304を設置し、ここで回線を集約するトポロジーとすることが多い。また、信頼性の観点から、中継拠点303、304を複数設置し、クライアント330〜337からサーバ320〜323までの経路が2重系となるようにしている。これは、サーバ320〜323の設置されたデータセンタ302、基幹となる中継拠点303、304、クライアント330〜337の設置された支店305〜308からなる階層型ネットワークトポロジーであるが、見方を変えれば、中継拠点303、304を幹線部としサーバ320〜323側を支線部とするツリー型構成と、中継拠点303、304を幹線部としクライアント330〜337側を支線部とするツリー型構成が組み合わさったネットワーク構成である。
【0037】
クライアント330〜337からサーバ320〜323に至る経路においてIPパケットの応答時間を測定する場合に、通常、クライアントにおいてサーバをターゲットとしてICMPエコーの要求/応答時間(pingコマンド)を測定する。しかしながら、上記のような構成のネットワークにおいては、全サーバ320〜323から全クライアント330〜337に至る経路における応答時間を測定するためには、サーバ320〜323数をm台、クライアント330〜337数をn台としたときに、
m×n
だけの経路数の監視をする必要がある。この場合、監視トラフィック量も多くなるため、通常のトラフィックの妨げになる恐れがある。また、監視装置をクライアント330〜337毎あるいはサーバ320〜323毎に分散して設置しなければならないので、管理上の問題が生じる。
【0038】
本実施例では、ネットワーク全体をカバーするための方法として、中継拠点303、304を中心とする監視方法を採用する。これは、図3において点線の矢印で示した監視経路370〜376のように、ネットワークのツリー型構成部分において、監視センタ301内の監視装置NMS310から幹線部(中継拠点303、304)を通り支線部(データセンタ302、あるいは、支店305〜308)のネットワーク機器に至る経路におけるIPパケット応答時間および到達率の測定を行う方法である。監視対象数が多く監視装置(310)1台でカバーできない場合は、複数台で分担することも可能である。これら複数台の監視装置310は、監視センタに一括して設置する。
【0039】
なお、図3の監視装置310は、図1におけるネットワーク監視装置120に相当し、応答時間測定処理部102、サーバ・クライアント応答時間推定処理部103、応答時間格納処理部104、応答時間表示処理部105、応答時間確認処理部108、遅延部位絞込み処理部109、稼動情報収集設定ファイル作成処理部110、稼動情報収集設定ファイル変更処理部111、稼動情報収集処理部起動処理部112、稼動情報収集処理部115、稼動情報格納処理部116、稼動情報表示処理部117の各処理部を有する。
【0040】
また、図3のサーバ320〜323、クライアント330〜337、ルータ340〜359は、図1におけるネットワーク機器119に相当する。 この方法においては、クライアント330〜337からサーバ320〜323に至る経路におけるIPパケット応答時間、例えば、図3における支店305のクライアントCL1(330)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV1(320)に至る経路におけるIPパケット応答時間tは、監視装置NMS(310)から中継拠点のルータR5(344)を通り支店305のクライアントCL1(330)に至る経路(監視経路D(373))におけるIPパケット応答時間をtc、監視装置NMS(310)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV1(320)に至る経路(監視経路B(371))におけるIPパケット応答時間をts、監視装置NMS(310)から中継拠点303のルータR5(344)に至る経路(監視経路A(370))におけるIPパケット応答時間をt0とした場合、
t=tc+ts−2×t0
により推定する。
【0041】
サーバ・クライアント応答時間推定処理部103は、この方法に従い、それぞれのサーバ320〜323とクライアント330〜337の組み合わせに応じて、サーバ320〜323からクライアント330〜337に至る経路における応答時間を推定する。
【0042】
この方法により、全サーバ320〜323から全クライアント330〜337に至る経路における応答時間を測定するためには、サーバ320〜323数をm台、クライアント330〜337数をn台としたときに、
m+n
だけの経路数の監視で可能である。従って、監視トラフィック量を削減でき、また、監視センタ301のみに設置した監視装置310からの集中監視により、ネットワーク全体を監視できる。
【0043】
(step 202)
応答時間確認処理部108は、応答時間測定処理部102により測定した監視装置からネットワーク機器に至る経路における応答時間およびIPパケット到達率が、それぞれの監視経路に対して設定した閾値を超えているかどうか判定する。
【0044】
閾値の設定基準は、以下のとおりである。
【0045】
・ネットワークの各経路における応答時間設計値
・過去の測定結果における同一の時間帯の平均値、分散値
・過去の測定結果における同一の曜日、時間帯の平均値、分散値
・過去の測定結果における同一の週、曜日、時間帯の平均値、分散値
・過去の測定結果における同一の日付、時間帯の平均値、分散値
(step 203)
遅延原因部位絞込み処理部109は、少なくとも一つの監視経路において応答時間およびIPパケット到達率が、それぞれの監視経路に対して設定した閾値を超えている場合には、遅延発生の原因部位を自動的に絞込み、その部位を稼動情報の収集対象とする。
【0046】
図3および図4を用いて、遅延部位絞込み処理部109による、遅延発生の原因部位の絞込み方法を解説する。中継拠点303、304を幹線部とするツリー型構成において、基幹から支線部に至る経路での応答時間の監視を行っているとき、基幹部に近いネットワーク機器やインターフェースが原因で応答時間に遅延が発生した場合、基幹を通る複数の監視経路において、遅延が検知されるはずである。一方、支線部に近いネットワーク機器やインターフェースが原因で応答時間に遅延が発生した場合、支線を通る少数の監視経路においてのみ、遅延が検知されるはずである。従って、ツリー型構成における基幹から支線部に至る複数経路での応答時間の比較をおこない、応答時間の測定結果より原因個所の推定を行うことにより、遅延の原因部位を絞り込むことが可能である。
【0047】
例えば、図3に示すクライアントCL1(330)、クライアントCL3(332)、クライアントCL5(334)、クライアントCL7(336)から、サーバSV1(320)およびサーバSV3(322)に至るそれぞれの通信経路における応答時間を、監視装置NMS(310)から中継拠点303のルータR5(344)に至る経路(監視経路A(370))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV1(320)に至る経路(監視経路B(371))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通りデータセンタ302のサーバSV3(322)に至る経路(監視経路C(372))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店305のクライアントCL1(330)に至る経路(監視経路D(373))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店306のクライアントCL3(332)に至る経路(監視経路E(374))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店307のクライアントCL5(334)に至る経路(監視経路F(375))における応答時間、監視装置NMS(310)から中継拠点303のルータR5(344)を通り支店308のクライアントCL7(336)に至る経路(監視経路G(376))における応答時間を測定し前述の方法に従うことにより推定しているとする。
【0048】
いずれかの監視経路A(370)〜G(376)において遅延が検知された場合、監視装置NMS310は、各経路A(370)〜G(376)の遅延状態を組み合わせ、比較する。各監視経路A(370)〜G(376)における遅延検知状態の組み合わせを図4の表401に表す。
【0049】
中継拠点303のルータR5(344)からデータセンタ302のサーバSV1(320)およびサーバSV3(322)に至る経路における遅延時間の比較において、表401の列403のように監視経路A(370)において遅延が検知された場合、遅延の原因部位はルータR5(344)およびそのインタフェースIF1(360)付近と絞り込むことができる。表401の列404のように監視経路A(370)においては正常、監視経路B(371)および監視経路C(372)において遅延が検知された場合、遅延の原因部位はルータR5(344)およびそのインタフェースIF2(361)付近と絞り込むことができる。表401の列405のように監視経路A(370)および監視経路C(302)においては正常、監視経路B(371)において遅延が検知された場合、遅延の原因部位はルータR1(340)およびその全インタフェース付近と絞り込むことができる。表401の列406のように監視経路A(370)および監視経路B(371)においては正常、監視経路C(372)において遅延が検知された場合、遅延の原因部位はルータR3(342)およびその全インタフェース付近と絞り込むことができる。
【0050】
同様に、中継拠点303のルータR5(344)から各支店305〜308のクライアントCL1(330)、クライアントCL3(332)、クライアントCL5(334)、クライアントCL7(336)に至る経路における遅延時間の比較において、表401の列407のように監視経路A(370)、監視経路E(374)、監視経路F(375)および監視経路G(376)においては正常、監視経路D(373)において遅延が検知された場合、遅延の原因部位はルータR13(352)およびその全インタフェース付近と絞り込むことができる。表401の列408のように監視経路A(370)、監視経路F(375)および監視経路G(376)においては正常、監視経路D(373)および監視経路E(374)において遅延が検知された場合、遅延の原因部位はルータR7(346)およびそのインタフェースIF5(364)付近と絞り込むことができる。表401の列409のように監視経路A(370)および監視経路Gにおいては正常、監視経路D、監視経路Eおよび監視経路Fにおいて遅延が検知された場合、遅延の原因部位はルータR7およびそのインタフェースIF4付近と絞り込むことができる。表401の列410のように監視経路A(370)においては正常、監視経路D(373)、監視経路E(374)、監視経路F(375)および監視経路G(376)において遅延が検知された場合、遅延の原因部位はルータR5(344)およびそのインタフェースIF3(362)付近と絞り込むことができる。
【0051】
以上のように、ネットワークのツリー型構成部分において、監視装置310から幹線部を通り支線部のネットワーク機器に至る複数経路での遅延状態を比較することにより、遅延発生の原因部位を絞り込むこが可能である。図4の各監視経路A(370)〜G(376)における遅延状態の比較表401とそれに対応する原因部位の絞込み結果402を予め記述しておけば、遅延原因部位絞込み処理部109は、それらの表の対応関係を参照することにより、各監視経路A(370)〜G(376)の遅延状態に応じて自動的に原因部位を絞り込むことができる。遅延原因の調査を行うため遅延原因部位の稼動情報を収集する必要があるが、遅延原因部位絞込み処理部109は、絞り込んだ遅延の原因部位を、稼動情報の収集対象に設定する。
【0052】
(step 204)
稼動情報収集設定ファイル作成処理部110は、稼動情報収集のための設定項目として収集情報種別を決定する。
【0053】
ネットワーク稼動情報の収集情報種別は、ルータやレイヤー3スイッチやATMスイッチなどのネットワーク機器に対しては、CPU利用率、空きメモリ量とする。またそれらのインターフェースに対しては、入出力トラフィック量、入出力パケット数、入出力パケット廃棄数、入出力エラーバケット数、コリジョン数とする。
【0054】
(step 205)
稼動情報収集設定ファイル作成処理部110は、稼動情報収集のための設定項目として収集周期を決定する。
【0055】
ネットワーク稼動情報の収集周期は、1分というように予め設定した値を利用するか、通常の長期的傾向把握のための定期的な稼動情報収集の周期の10分の1というように設定する。
【0056】
(step 206)
稼動情報収集設定ファイル作成処理部110は、稼動情報収集のための設定項目として収集期間を決定する。
【0057】
ネットワーク稼動情報の収集周期は、30分というように予め設定した値を利用するか、応答時間が閾値を超えていた監視経路において、その後の応答時間測定結果が閾値以下になるまでとする。
【0058】
(step 207)
稼動情報収集設定ファイル作成処理部110は、step203からstep206での決定事項に基づき、稼動情報収集処理部115の設定ファイルを作成する。
【0059】
(step 208)
稼動情報収集設定ファイル変更処理部111は、稼動情報収集設定ファイル作成処理部110が作成した設定ファイルを、稼動情報収集処理部115の設定ファイルに上書きするか、部分的に変更を加える。また、既にネットワークの定期的稼動情報収集のための処理部が動作している場合は、その設定ファイルに対して、部分的な変更を加えることも可能である。
【0060】
(step 209)
稼動情報収集処理部起動処理部112は、設定ファイルの変更をされた稼動情報収集処理部115を起動する。稼動情報収集処理部115は、再設定された設定ファイルに従い、ネットワーク稼動情報を収集する。
【0061】
本実施例は以上のstepを監視装置において実施することにより、本実施例は以上の構成を備えているので、大規模なネットワークシステムにおいても、システム全体に対し少ない監視経路、少ない監視トラフィック量でクライアントからサーバへ至る経路での応答時間を推定することができる。さらに、大規模なネットワークシステムにおいても、遅延発生時に原因部位を自動的に絞り込むことができる。さらに、大規模なネットワークシステムにおいても、遅延発生時に原因部位のみの稼動情報を自動的に収集するというような効率的な情報収集が可能である。
【0062】
【発明の効果】
本発明によれば、大規模なネットワークシステムにおいても、効率的に、応答時間の測定や遅延個所の絞込みを行うことが可能になる。
【図面の簡単な説明】
【図1】本実施形態のシステム構成図である。
【図2】本実施形態のネットワーク監視装置による性能障害分析支援処理の流れである。
【図3】本実施形態のネットワーク論理構成図および応答時間監視経路の例である。
【図4】本実施形態のネットワーク監視装置による応答時間測定結果からの遅延部位絞込みの例である。
【符号の説明】
101……応答時間情報・パケット到達率情報、102……応答時間測定処理部、103……サーバ・クライアント応答時間推定処理部、104……応答時間格納処理部、105……応答時間表示処理部、106……応答時間情報・パケット到達率情報、107……表示処理部呼び出し処理部、108……応答時間確認処理部、109……遅延部位絞込み処理部、110……稼動情報収集設定ファイル作成処理部、111……稼動情報収集設定ファイル変更処理部、112……稼動情報収集処理部起動処理部、113……稼動情報測定処理部、114……ネットワーク稼動情報、115……稼動情報収集処理部、116……稼動情報格納処理部、117……稼動情報表示処理部、118……ネットワーク稼動情報、119……ネットワーク機器、120……ネットワーク監視装置、121……ネットワーク情報表示装置。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a network system operation management method, and more particularly, to a method for performing performance management by monitoring response times of network devices, diagnosing a network system operation state, performing a failure site analysis, and performing preventive maintenance.
[0002]
[Prior art]
A network system manager or system engineer usually measures response time between network devices in order to grasp network performance. For measuring the response time, a response time measurement method of an IP packet using a request / response time (ping command) of an ICMP (Internet Control Message Protocol) echo is widely used.
[0003]
Patent Literature 1 discloses a method for separating a delay point in a network system.
[0004]
Patent Document 2 discloses a method for automatically investigating a delay point in a network system.
[0005]
[Patent Document 1]
JP-A-11-346238
[Patent Document 2]
JP-A-2002-152203
[0006]
[Problems to be solved by the invention]
In Patent Literature 1, it is necessary to install a large number of response time measurement probes on a network system in order to separate a delay point.
[0007]
In Patent Document 2, it is necessary to specify a route and measure a response time from each node on the route in order to separate a delay point.
[0008]
These conventional methods are not efficient methods for measuring response time covering the entire large-scale network system including thousands or more network devices and narrowing down delay points.
[0009]
[Means for Solving the Problems]
The present invention provides a network performance failure analysis support method capable of estimating a response time on a path from a client to a server in a large-scale network system including thousands or more network devices.
[0010]
Further, the present invention provides a network performance failure analysis support method that can automatically narrow down a cause part when a delay occurs even in a large-scale network system including thousands or more network devices.
[0011]
Also, the present invention provides a network performance failure analysis support method that can automatically collect operation information of only a cause part when a delay occurs even in a large-scale network system including thousands or more network devices. I do.
[0012]
More specifically, the present invention relates to a tree-type network that extends from a trunk base relay point to a plurality of branch line network devices. Response time measuring means for measuring the response time and the arrival rate of IP packets on a route to a server, and a server / client for estimating a response time on a route from a client device installed on a branch line to a server device installed on another branch line Response time estimating means is provided.
[0013]
Further, the present invention further includes a response time confirming means for determining whether a delay has occurred in the response time, and a delay cause part narrowing means for automatically narrowing down the cause part of the delay.
[0014]
In addition, the present invention automatically selects network devices installed at the cause of delay occurrence as operation information collection target devices, and further determines the type of operation information to be collected, a collection cycle, and a collection period to determine operation information. Operating information collection setting file creating means for creating a setting file for collection, operating information collection setting file changing means for resetting the created setting file to the operating information collecting means in the monitoring device, and operating information collecting means Operating information collecting means for activating the operation information, operating statistical information collecting means for collecting operating information from network devices in accordance with a setting file, and operating information storing means for storing and storing the collected operating information.
[0015]
Further, the present invention includes an operation information collection setting file change unit for partially changing the setting file of the currently operating operation information collection unit.
[0016]
Since the present invention has the configuration described above, even in a large-scale network system, it is possible to estimate the response time in a path from a client to a server with a small number of monitoring paths for the entire system. Further, even in a large-scale network system, a cause part can be automatically narrowed down when a delay occurs. In addition, even in a large-scale network system, it is possible to automatically collect operation information of only a cause part when a delay occurs.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0018]
FIG. 1 is a functional configuration example of a network performance failure analysis support system according to an embodiment of the present invention. The hardware configuration and the functional configuration of the network performance failure analysis support system will be described with reference to FIG.
[0019]
The network device 119 is a device such as a router, an ATM switch, a switching hub, or an intelligent hub, and has an ICMP echo response function for measuring an IP packet response time, and an SNMP (Simple Network Management Protocol) agent for measuring operation information. Has functions. When the server or the client has the ICMP echo response function and the SNMP agent function, it can be regarded as a network device.
[0020]
The network monitoring device 120 and the network information display device 121 are general personal computers, and a CPU (Central Processing Unit) can interpret and execute program instructions.
[0021]
The response time measurement processing unit 102 is provided in the network monitoring device 120, and periodically measures a response time and an IP packet arrival rate 101 in a path from the monitoring device 120 to the network device 119.
[0022]
The server / client response time estimation processing unit 103 is provided in the network monitoring device 120, and determines a response time from the client to the server based on a response time in a path from the monitoring device 120 to the server and a response time in a path from the monitoring device 120 to the client. Estimate the response time in the route to be reached. Details of the estimation method will be described later.
[0023]
The response time storage processing unit 104 is a storage device in the network monitoring device 120, and stores and stores the response time information and the packet arrival rate information 101 measured by the response time measurement processing unit 102.
[0024]
The response time display processing unit 105 is provided in the network monitoring device 120, and displays the response time information and the packet arrival rate information 101 measured by the response time measurement processing unit 102 through the network information display device.
[0025]
The response time confirmation processing unit 108 is located in the network monitoring device 120, and determines whether the response time and the IP packet arrival rate 101 in the path from the monitoring device 120 to each network device 119 are equal to or greater than the threshold value set for each. .
[0026]
The delay part narrowing down processing unit 109 is provided in the network monitoring apparatus 120, and when a value greater than or equal to a threshold value is detected in the response time and the IP packet arrival rate 101 in the path from the monitoring apparatus 120 to each network device 119, Automatically narrow down network parts that cause delay. Details of the narrowing method will be described later.
[0027]
The operation information collection setting file creation processing unit 110 sets the network device 119 in the network monitoring device 120, which is installed at the delay cause part that has been automatically narrowed down, as the operation information collection target device, and furthermore, the type of operation information to be collected. , A collection cycle and a collection period are determined, and a setting file for collecting operation information is created.
[0028]
The operation information collection setting file change processing unit 111 is in the network monitoring device 120 and resets the created setting file to the operation information collection processing unit 115 in the monitoring device 120. The operation information collection setting file change processing unit 111 performs a partial setting change to the setting file of the currently operating operation information collection processing unit based on the created setting file.
[0029]
The operation information collection processing unit activation processing unit 112 is located in the network monitoring apparatus 120, and a value equal to or greater than the threshold value is detected in the response time and the IP packet arrival rate 101 in the path from the monitoring apparatus 120 to each network device 119. In this case, the operation information collection processing unit 115 is started.
[0030]
The operation information collection processing unit 115 is provided in the network monitoring apparatus 120, and collects the network operation information 114 measured by the network device 119 by the operation information measurement processing unit 113 from the network device 119 according to the setting file.
[0031]
The operation information storage processing unit 116 is a storage device in the network monitoring device 120, and stores and accumulates the network operation information 114 collected by the operation information collection processing unit 115.
[0032]
The operation information display processing unit 117 is located in the network monitoring device 120, and displays the operation information 114 collected by the operation information collection processing unit 115 through the network information display device.
[0033]
The display processing unit call processing unit 107 is located in the network information display device 121 and displays the response time information and the packet arrival rate information 106 by calling the response time display processing unit 105 in the network monitoring device 120. Also, by calling the operation information display processing unit 117 in the network monitoring device 120, the network operation information 118 is displayed. Each of the processing units is embodied by the CPU executing a program. The program may be stored in a storage device in advance, or may be introduced from another device via a storage medium or a communication medium.
[0034]
Next, an example of network performance failure analysis support by the network monitoring device 120 having the above-described functional configuration will be described with reference to the flowchart of FIG.
[0035]
(Step 201)
The response time measurement processing unit 102 measures the response time and the IP packet arrival rate in the path from the monitoring device 120 to the network device 119 according to a set cycle of every 10 minutes or every 5 minutes.
[0036]
Here, FIG. 3 shows a typical configuration example of a large-scale network system including thousands or more network devices to be monitored. In a large-scale network system including a server of several hundred orders and a client of several thousand orders or more, from the viewpoint of network expandability and line cost, relay bases 303 and 304 serving as hubs are installed in the network. It is often a topology that aggregates lines. Further, from the viewpoint of reliability, a plurality of relay bases 303 and 304 are installed, and the routes from the clients 330 to 337 to the servers 320 to 323 are configured to be a dual system. This is a hierarchical network topology composed of the data center 302 where the servers 320 to 323 are installed, the relay bases 303 and 304 serving as the core, and the branches 305 to 308 where the clients 330 to 337 are installed. The tree structure in which the relay bases 303 and 304 are trunk lines and the servers 320 to 323 are branch lines is combined with the tree structure in which the relay bases 303 and 304 are trunk lines and the clients 330 to 337 are branch lines. Network configuration.
[0037]
When measuring the response time of an IP packet in the path from the clients 330 to 337 to the servers 320 to 323, the client typically measures the request / response time (ping command) of the ICMP echo with the server as the target. However, in the network having the above configuration, in order to measure the response time on the path from all the servers 320 to 323 to all the clients 330 to 337, m servers 320 to 323 and m clients 330 to 337 are required. Is n units,
mxn
It is necessary to monitor only the number of routes. In this case, the amount of monitoring traffic increases, which may hinder normal traffic. In addition, since monitoring devices must be distributed and installed for each of the clients 330 to 337 or each of the servers 320 to 323, a management problem arises.
[0038]
In the present embodiment, as a method for covering the entire network, a monitoring method centered on the relay points 303 and 304 is adopted. This is because, as shown by the monitoring paths 370 to 376 indicated by the dotted arrows in FIG. This is a method for measuring the response time and the arrival rate of the IP packet in the route to the network device of the data unit 302 (or the data center 302 or the branches 305 to 308). When the number of monitoring targets is large and cannot be covered by one monitoring device (310), a plurality of monitoring devices (310) can be shared. The plurality of monitoring devices 310 are collectively installed in a monitoring center.
[0039]
The monitoring device 310 in FIG. 3 corresponds to the network monitoring device 120 in FIG. 1, and includes a response time measurement processing unit 102, a server / client response time estimation processing unit 103, a response time storage processing unit 104, and a response time display processing unit. 105, response time confirmation processing unit 108, delay part narrowing down processing unit 109, operation information collection setting file creation processing unit 110, operation information collection setting file change processing unit 111, operation information collection processing unit activation processing unit 112, operation information collection processing The processing unit includes a processing unit 115, an operation information storage processing unit 116, and an operation information display processing unit 117.
[0040]
The servers 320 to 323, the clients 330 to 337, and the routers 340 to 359 in FIG. 3 correspond to the network device 119 in FIG. In this method, the IP packet response time in the path from the clients 330 to 337 to the servers 320 to 323, for example, from the client CL1 (330) of the branch 305 to the data center through the router R5 (344) of the relay base 303 in FIG. The IP packet response time t on the route to the server SV1 (320) of the server 302 is determined by the route (monitoring route D) from the monitoring device NMS (310) to the client CL1 (330) of the branch 305 through the router R5 (344) at the relay base. In (373)), the IP packet response time is tc, and a route from the monitoring device NMS (310) to the server SV1 (320) of the data center 302 through the router R5 (344) of the relay base 303 (monitoring route B (371)) The response time of the IP packet in the monitoring device to ts If the MS path from (310) to the router R5 (344) of the relay site 303 the IP packet response time in (monitoring path A (370)) was t0,
t = tc + ts−2 × t0
Estimate by
[0041]
According to this method, the server / client response time estimation processing unit 103 estimates the response time on the path from the server 320 to 323 to the client 330 to 337 according to the combination of the server 320 to 323 and the client 330 to 337. .
[0042]
According to this method, in order to measure the response time in the path from all servers 320 to 323 to all clients 330 to 337, when the number of servers 320 to 323 is m and the number of clients 330 to 337 is n,
m + n
It is possible to monitor only the number of paths. Therefore, the amount of monitoring traffic can be reduced, and the entire network can be monitored by centralized monitoring from the monitoring device 310 installed only in the monitoring center 301.
[0043]
(Step 202)
The response time confirmation processing unit 108 determines whether the response time and the IP packet arrival rate in the path from the monitoring device to the network device measured by the response time measurement processing unit 102 exceed the threshold set for each monitoring path. judge.
[0044]
The threshold setting criteria are as follows.
[0045]
・ Response time design value for each route of the network
・ Average value and variance value of the same time zone in past measurement results
・ Average and variance values of the same day of the week and time zone in past measurement
・ Average value and variance value of the same week, day, and time zone in the past measurement results
・ Average value and variance value of the same date and time zone in past measurement results
(Step 203)
If the response time and the IP packet arrival rate in at least one of the monitoring paths exceed the thresholds set for the respective monitoring paths, the delay cause part narrowing down processing unit 109 automatically identifies the cause of the delay. And the part is set as the collection target of the operation information.
[0046]
With reference to FIGS. 3 and 4, a method of narrowing down a part causing a delay by the delay part narrowing down processing unit 109 will be described. In a tree-type configuration with the relay bases 303 and 304 as trunks, when monitoring the response time on the path from the trunk to the branch, there is a delay in the response time due to network devices and interfaces close to the trunk. If this occurs, delays should be detected in multiple monitoring paths through the backbone. On the other hand, if a delay occurs in the response time due to a network device or an interface near the branch line, the delay should be detected only in a small number of monitoring paths passing through the branch line. Therefore, it is possible to narrow down the cause of the delay by comparing the response times of a plurality of paths from the trunk to the branch line in the tree-type configuration, and estimating the cause of the delay based on the measurement result of the response time.
[0047]
For example, responses in respective communication paths from the client CL1 (330), the client CL3 (332), the client CL5 (334), and the client CL7 (336) shown in FIG. 3 to the server SV1 (320) and the server SV3 (322). The response time in the route (monitoring route A (370)) from the monitoring device NMS (310) to the router R5 (344) of the relay base 303, the router R5 (344) of the relay base 303 from the monitoring device NMS (310). , The response time on the route (monitoring route B (371)) to the server SV1 (320) of the data center 302, the server SV3 of the data center 302 from the monitoring device NMS (310) through the router R5 (344) of the relay base 303. On the route to (322) (monitoring route C (372)) Response time on the route (monitoring route D (373)) from the monitoring device NMS (310) to the client CL1 (330) of the branch 305 through the router R5 (344) of the relay base 303, and the monitoring device NMS (310). ) Through the router R5 (344) of the relay base 303 to the client CL3 (332) of the branch 306 (monitoring route E (374)), the response time from the monitoring device NMS (310) to the router R5 of the relay base 303 ( 344), the response time on the route (monitoring route F (375)) to the client CL5 (334) of the branch 307, and the client CL7 of the branch 308 from the monitoring device NMS (310) through the router R5 (344) of the relay base 303. Measures the response time on the route to (336) (monitoring route G (376)) And it is estimated by following the above-described method.
[0048]
When a delay is detected in any of the monitoring paths A (370) to G (376), the monitoring device NMS 310 combines and compares the delay states of the paths A (370) to G (376). The combinations of the delay detection states in each of the monitoring paths A (370) to G (376) are shown in Table 401 of FIG.
[0049]
In comparison of the delay time on the route from the router R5 (344) of the relay base 303 to the server SV1 (320) and the server SV3 (322) of the data center 302, the monitoring route A (370) as shown in the column 403 of the table 401. If a delay is detected, the cause of the delay can be narrowed down to the vicinity of the router R5 (344) and its interface IF1 (360). As shown in the column 404 of the table 401, when the monitoring path A (370) is normal and the monitoring path B (371) and the monitoring path C (372) detect a delay, the cause of the delay is the router R5 (344) and It can be narrowed down to the vicinity of the interface IF2 (361). If the monitoring path A (370) and the monitoring path C (302) are normal and the delay is detected in the monitoring path B (371) as shown in a column 405 of the table 401, the cause of the delay is the router R1 (340) and It can be narrowed down to near all interfaces. If the monitoring route A (370) and the monitoring route B (371) are normal and the delay is detected in the monitoring route C (372) as shown in the column 406 of the table 401, the cause of the delay is the router R3 (342) and It can be narrowed down to near all interfaces.
[0050]
Similarly, a comparison of the delay time in the route from the router R5 (344) of the relay base 303 to the clients CL1 (330), the client CL3 (332), the client CL5 (334), and the client CL7 (336) of each of the branches 305 to 308. In the monitoring path A (370), the monitoring path E (374), the monitoring path F (375), and the monitoring path G (376), the delay is normal in the monitoring path D (373) as shown in the column 407 of the table 401. If detected, the cause of the delay can be narrowed down to the vicinity of the router R13 (352) and all its interfaces. As shown in a column 408 of the table 401, the monitoring path A (370), the monitoring path F (375), and the monitoring path G (376) are normal, and the delay is detected in the monitoring path D (373) and the monitoring path E (374). In this case, the cause of the delay can be narrowed down to the vicinity of the router R7 (346) and its interface IF5 (364). As shown in the column 409 of the table 401, when the monitoring route A (370) and the monitoring route G are normal, and when a delay is detected in the monitoring route D, the monitoring route E and the monitoring route F, the cause of the delay is the router R7 and the router R7. It can be narrowed down to near the interface IF4. As shown in the column 410 of the table 401, the monitoring path A (370) is normal, and the delay is detected in the monitoring path D (373), the monitoring path E (374), the monitoring path F (375), and the monitoring path G (376). In this case, the cause of the delay can be narrowed down to the vicinity of the router R5 (344) and its interface IF3 (362).
[0051]
As described above, in the tree-type configuration of the network, it is possible to narrow down the cause of the delay by comparing the delay states in a plurality of paths from the monitoring device 310 to the branch line network device through the trunk line. It is. If the comparison table 401 of the delay status in each of the monitoring paths A (370) to G (376) in FIG. 4 and the narrowing result 402 of the cause part corresponding thereto are described in advance, the delay cause part narrowing processing unit 109 By referring to the correspondence in the table, the cause part can be automatically narrowed down according to the delay state of each of the monitoring paths A (370) to G (376). In order to investigate the cause of the delay, it is necessary to collect operation information of the delay cause part. However, the delay cause part narrowing down processing unit 109 sets the narrowed cause part of the delay as an operation information collection target.
[0052]
(Step 204)
The operation information collection setting file creation processing unit 110 determines a collection information type as a setting item for collecting operation information.
[0053]
The collected information type of the network operation information is a CPU utilization rate and an available memory amount for network devices such as a router, a layer 3 switch, and an ATM switch. For those interfaces, the input / output traffic amount, the input / output packet number, the input / output packet discard number, the input / output error bucket number, and the collision number are used.
[0054]
(Step 205)
The operation information collection setting file creation processing unit 110 determines a collection cycle as a setting item for collecting operation information.
[0055]
The collection period of the network operation information is set to use a preset value such as one minute, or set to one tenth of the period of regular operation information collection for grasping a normal long-term trend.
[0056]
(Step 206)
The operation information collection setting file creation processing unit 110 determines a collection period as a setting item for collecting operation information.
[0057]
The collection cycle of the network operation information is set to a value set in advance such as 30 minutes, or until the subsequent response time measurement result becomes equal to or less than the threshold value in the monitoring route whose response time exceeds the threshold value.
[0058]
(Step 207)
The operation information collection setting file creation processing unit 110 creates a setting file of the operation information collection processing unit 115 based on the items determined in steps 203 to 206.
[0059]
(Step 208)
The operation information collection setting file change processing unit 111 overwrites or partially changes the setting file created by the operation information collection setting file creation processing unit 110 on the setting file of the operation information collection processing unit 115. When the processing unit for collecting the periodic operation information of the network is already operating, it is possible to partially change the setting file.
[0060]
(Step 209)
The operation information collection processing unit activation processing unit 112 activates the operation information collection processing unit 115 whose setting file has been changed. The operation information collection processing unit 115 collects network operation information according to the reset configuration file.
[0061]
In the present embodiment, the above-described steps are performed by the monitoring apparatus. Thus, the present embodiment has the above-described configuration. The response time on the path from the client to the server can be estimated. Further, even in a large-scale network system, a cause part can be automatically narrowed down when a delay occurs. Further, even in a large-scale network system, it is possible to efficiently collect information such as automatically collecting operation information of only a cause part when a delay occurs.
[0062]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to this invention, even in a large-scale network system, it becomes possible to measure a response time and narrow down a delay point efficiently.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of an embodiment.
FIG. 2 is a flow of a performance failure analysis support process by the network monitoring device of the present embodiment.
FIG. 3 is an example of a network logical configuration diagram and a response time monitoring path according to the embodiment;
FIG. 4 is an example of narrowing down a delay portion from a response time measurement result by the network monitoring device of the present embodiment.
[Explanation of symbols]
101: Response time information / packet arrival rate information, 102: Response time measurement processing unit, 103: Server / client response time estimation processing unit, 104: Response time storage processing unit, 105: Response time display processing unit , 106... Response time information / packet arrival rate information, 107... Display processing unit call processing unit, 108... Response time confirmation processing unit, 109... Delay part narrowing down processing unit, 110. Processing unit, 111: Operation information collection setting file change processing unit, 112: Operation information collection processing unit activation processing unit, 113: Operation information measurement processing unit, 114: Network operation information, 115: Operation information collection processing , Operation information storage processing unit, 117 operation information display processing unit, 118 network operation information, 119 network device , 120 ...... network monitoring apparatus, 121 ...... network information display device.

Claims (5)

幹線部の中継拠点から支線部の複数のネットワーク機器に至るツリー型のネットワークの、前記幹線部に接続した監視装置から前記中継拠点を通り前記支線部のいずれかの前記ネットワーク機器に至る経路におけるIPパケット応答時間および到達率の測定を行い、複数経路の遅延状態を比較することにより、遅延発生の原因部位を自動的に絞り込むことを特徴とするネットワークシステム性能障害分析支援方法。In a tree-type network from a trunk line relay point to a plurality of branch line network devices, an IP in a route from a monitoring device connected to the trunk line to the network device of any of the branch lines through the relay point through the relay point. A network system performance failure analysis support method characterized in that a packet response time and an arrival rate are measured, and a delay cause is automatically narrowed down by comparing delay states of a plurality of paths. 幹線部の中継拠点から支線部の複数のネットワーク機器に至るツリー型のネットワークの、前記幹線部に接続した監視装置から前記中継拠点を通り前記支線部のいずれかの前記ネットワーク機器に至る経路におけるIPパケット応答時間および到達率の測定を行う応答時間測定手段と、
応答時間に遅延が生じているかを判定する応答時間確認手段と、
複数経路の遅延状態を比較することにより、遅延発生の原因部位を自動的に絞り込む遅延原因部位絞込み手段とを備える
ことを特徴とするネットワーク性能障害分析支援システム。
In a tree-type network from a trunk base relay point to a plurality of branch line network devices, an IP in a path from a monitoring device connected to the trunk line to the network device of any of the branch lines through the relay base through the relay base. Response time measuring means for measuring packet response time and arrival rate;
Response time checking means for determining whether a delay has occurred in the response time,
A network performance failure analysis support system, comprising: a delay cause part narrowing means for automatically narrowing down a cause part of a delay by comparing delay states of a plurality of paths.
請求項2に記載のネットワーク性能障害分析支援システムにおいて、
監視装置から中継拠点を通り支線部のクライアント機器に至る経路におけるIPパケット応答時間と、監視装置から中継拠点を通り支線部のサーバ機器に至る経路におけるIPパケット応答時間と、監視装置から中継拠点におけるサーバ機器からクライアント機器への経路の中心となるネットワーク機器に至る経路におけるIPパケット応答時間をもとに、クライアント機器からサーバ機器に至る経路における応答時間を推定するサーバ・クライアント応答時間推定手段をさらに具備したことを特徴とするネットワーク性能障害分析支援システム。
The network performance failure analysis support system according to claim 2,
The IP packet response time on the path from the monitoring device to the client device in the branch line through the relay base, the IP packet response time in the route from the monitoring device to the server device in the branch line through the relay base, and the IP packet response time in the route from the monitoring device to the relay base A server / client response time estimating means for estimating a response time in a path from the client device to the server device based on an IP packet response time in a path from the server device to the network device serving as a center of the route from the server device to the client device; A network performance failure analysis support system characterized by comprising:
請求項2に記載のネットワーク性能障害分析支援システムにおいて、
自動的に絞り込んだ遅延発生の原因部位に設置されたネットワーク機器を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、
作成した設定ファイルを稼動情報収集手段に対して再設定する稼動情報収集設定ファイル変更手段と、
稼動情報収集手段を起動する稼動情報収集手段起動手段と、
設定ファイルに従ってネットワーク機器から稼動情報を収集する稼動統計情報収集手段をさらに具備したことを特徴とするネットワーク性能障害分析支援システム。
The network performance failure analysis support system according to claim 2,
A network device installed at the cause of the delay that was automatically narrowed down is set as the operation information collection target device, and the type of operation information to be collected, the collection cycle, and the collection period are determined, and a configuration file for collecting operation information Means for creating an operation information collection setting file for creating
Operating information collection setting file changing means for resetting the created setting file to the operating information collecting means;
Operating information collecting means starting means for starting the operating information collecting means,
A network performance failure analysis support system, further comprising operation statistics information collecting means for collecting operation information from a network device according to a setting file.
請求項2に記載のネットワーク性能障害分析支援システムにおいて、
自動的に絞り込んだ遅延発生の原因部位に設置されたネットワーク機器を稼動情報収集対象機器とし、さらに、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、
作成した設定ファイルをもとに現在稼動中の稼動情報収集手段の設定ファイルに対して部分的な設定変更を行う稼動情報収集設定ファイル変更手段をさらに具備したことを特徴とするネットワーク性能障害分析支援システム。
The network performance failure analysis support system according to claim 2,
A network device installed at the cause of the delay that was automatically narrowed down is set as the operation information collection target device, and the type of operation information to be collected, the collection cycle, and the collection period are determined, and a configuration file for collecting operation information Means for creating an operation information collection setting file for creating
Network performance failure analysis support, further comprising an operation information collection setting file change unit for partially changing a setting file of the operation information collection unit currently in operation based on the created setting file. system.
JP2002264894A 2002-09-11 2002-09-11 Support system for analyzing network performance fault Pending JP2004104540A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002264894A JP2004104540A (en) 2002-09-11 2002-09-11 Support system for analyzing network performance fault

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002264894A JP2004104540A (en) 2002-09-11 2002-09-11 Support system for analyzing network performance fault

Publications (1)

Publication Number Publication Date
JP2004104540A true JP2004104540A (en) 2004-04-02

Family

ID=32264182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002264894A Pending JP2004104540A (en) 2002-09-11 2002-09-11 Support system for analyzing network performance fault

Country Status (1)

Country Link
JP (1) JP2004104540A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112347A (en) * 2006-10-31 2008-05-15 Fujitsu Ltd System, unit, method and program for controlling communication between rf-id tag and network, and manufacturing method for manufacturing product utilizing the same control method
JP2009088732A (en) * 2007-09-28 2009-04-23 Hitachi Ltd Control network system
JP2011188282A (en) * 2010-03-09 2011-09-22 Ntt Comware Corp Deteriorated path detection system, deteriorated path detection method, and computer program
JP2011258098A (en) * 2010-06-11 2011-12-22 Hitachi Ltd Virtual computer system, monitoring method of virtual computer system and network system
WO2012029422A1 (en) 2010-08-30 2012-03-08 日本電気株式会社 Communication quality monitoring system, communication quality monitoring method, and storage medium
US8255518B2 (en) 2006-10-26 2012-08-28 Hitachi, Ltd. Computer system and method for monitoring performance of the computer system
US8593974B2 (en) 2006-01-30 2013-11-26 Fujitsu Limited Communication conditions determination method, communication conditions determination system, and determination apparatus

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8593974B2 (en) 2006-01-30 2013-11-26 Fujitsu Limited Communication conditions determination method, communication conditions determination system, and determination apparatus
US8255518B2 (en) 2006-10-26 2012-08-28 Hitachi, Ltd. Computer system and method for monitoring performance of the computer system
JP2008112347A (en) * 2006-10-31 2008-05-15 Fujitsu Ltd System, unit, method and program for controlling communication between rf-id tag and network, and manufacturing method for manufacturing product utilizing the same control method
JP2009088732A (en) * 2007-09-28 2009-04-23 Hitachi Ltd Control network system
JP2011188282A (en) * 2010-03-09 2011-09-22 Ntt Comware Corp Deteriorated path detection system, deteriorated path detection method, and computer program
JP2011258098A (en) * 2010-06-11 2011-12-22 Hitachi Ltd Virtual computer system, monitoring method of virtual computer system and network system
WO2012029422A1 (en) 2010-08-30 2012-03-08 日本電気株式会社 Communication quality monitoring system, communication quality monitoring method, and storage medium
US9178794B2 (en) 2010-08-30 2015-11-03 Nec Corporation Communication quality monitoring system, communication quality monitoring method and recording medium

Similar Documents

Publication Publication Date Title
US6856942B2 (en) System, method and model for autonomic management of enterprise applications
JP3556842B2 (en) Network monitoring mechanism, network monitoring device, and network management method
EP1469636B1 (en) Centralized connectivity verification in a communications network management context
JP4758259B2 (en) Network monitoring apparatus and method
CA2493525C (en) Method and apparatus for outage measurement
US20110270957A1 (en) Method and system for logging trace events of a network device
US20050243729A1 (en) Method and apparatus for automating and scaling active probing-based IP network performance monitoring and diagnosis
US20040153835A1 (en) Automated and embedded software reliability measurement and classification in network elements
WO2017015462A1 (en) Methods, systems, and apparatus to generate information transmission performance alerts
JP2004228828A (en) Network failure analysis support system
US20080298229A1 (en) Network wide time based correlation of internet protocol (ip) service level agreement (sla) faults
JP2009049708A (en) Apparatus for gathering network fault information, system, method and program
JP4412031B2 (en) Network monitoring system and method, and program
EP2807563B1 (en) Network debugging
US9298583B2 (en) Network traffic based power consumption estimation of information technology systems
Roughan et al. IP forwarding anomalies and improving their detection using multiple data sources
JP2004104540A (en) Support system for analyzing network performance fault
US8509093B2 (en) Outage analysis system
JP2014053658A (en) Failure site estimation system and failure site estimation program
JP3598394B2 (en) Service management method and device
JP2007228421A (en) Ip network route diagnosis apparatus and ip network route diagnosis system
JP4117291B2 (en) Device for collecting and analyzing network information and creating network configuration information, method for creating network configuration information, and program for creating network configuration information
Panahi et al. The llama middleware support for accountable service-oriented architecture
CN113300914A (en) Network quality monitoring method, device, system, electronic equipment and storage medium
JP2014036310A (en) Apparatus and method for evaluating effect