JP3805711B2 - How to identify bottlenecks in the site area - Google Patents

How to identify bottlenecks in the site area Download PDF

Info

Publication number
JP3805711B2
JP3805711B2 JP2002103695A JP2002103695A JP3805711B2 JP 3805711 B2 JP3805711 B2 JP 3805711B2 JP 2002103695 A JP2002103695 A JP 2002103695A JP 2002103695 A JP2002103695 A JP 2002103695A JP 3805711 B2 JP3805711 B2 JP 3805711B2
Authority
JP
Japan
Prior art keywords
bottleneck
log information
server
network element
site area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002103695A
Other languages
Japanese (ja)
Other versions
JP2003298655A (en
Inventor
正樹 徳久
芳之 千葉
宜伯 川村
慎也 能上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002103695A priority Critical patent/JP3805711B2/en
Publication of JP2003298655A publication Critical patent/JP2003298655A/en
Application granted granted Critical
Publication of JP3805711B2 publication Critical patent/JP3805711B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、サイト領域内ボトルネック特定方法に関し、詳しくは、インターネットのエンド・トゥ・サーバ(End-to-Server )におけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するためのサイト領域内ボトルネック特定方法に係わる。
【0002】
【従来の技術】
近年、インターネットにおける性能、経済性、信頼性といったネットワーク品質に対する関心が高まり、広域ネットワークの特性を計測する手法の重要性が増してきている。
【0003】
例えば、MSP(Managed Service Provider)において、映像等の大衆向け配信サービスを提供するアプリケーション、ネットワーク、サーバを対象とした品質管理サービス事業を効率良く実現するには、対象ネットワークの品質劣化監視及びその検出分析を行うことが必須となる。
【0004】
このため、上記のようなサービスを提供する際に、エンドユーザからの申告等によりネットワーク品質に劣化が生じていることが判明した場合には、サービス提供者は、その劣化の要因となっている対象ネットワーク上の箇所、即ちボトルネックを早急かつ的確に特定し、これに対処することが責務であるといえる。
【0005】
従来、対象ネットワーク上のエンド・トゥ・サーバにおけるボトルネックを特定する方法としては、その対象ネットワーク上に存在する全てのサーバの中で、何れのサーバがボトルネックとなっているかをリモートで逐一検査していくものが知られている。
【0006】
しかし、この方法では、対象ネットワークが大規模になるにつれて、自ずと適用性が悪くなり、当該対象ネットワーク中におけるボトルネック特定箇所を総合的に判断することも困難である。
【0007】
これに対し、対象ネットワーク上のエンド・トゥ・エンド(End-to-End)におけるボトルネックを特定する方法として、MINCプロジェクト(MINC:Multicast-based Inference of Network-internal Characteristics )によるものが知られている。
【0008】
このMINCプロジェクトによる方法は、マルチキャストにより、対象ネットワーク上の1つの始点から多数の終点へ向けて試験パケットを送信し、このときのエンド・トゥ・エンドの観測データからパス上の特性を得て、その対象ネットワーク中のパケットロスや遅延を推定するものである。
【0009】
【発明が解決しようとする課題】
しかしながら、上述のMINCプロジェクトによる方法は、マルチキャスト適用時における木構造の特質から理論的には高い精度を持つものの、インターネットが、その広域性と管理主体の分散に起因して、その状態を直接的に管理し制御することが困難な対象であるため、以下に示すような問題を有している。
【0010】
即ち、MINCプロジェクトによる方法に用いられるマルチキャストは、現在運用されているインターネットでは実用的でないため柔軟性が低く、また、試験パケットによる片道特性の観測は、現在運用されているインターネットでは困難な場合がある。
【0011】
以上の問題を解消するには、所要のボトルネック特定方法が、パス全体が木構造をとらないネットワークに対しても適用可能であることが条件となるが、以上のMINCプロジェクトによる手法を木構造以外のネットワークに適用することはできず、現時点では、これを実際のISP(Internet Service Provider )に適用することも事実上困難である。
【0012】
即ち、現状では、インターネット上に分散した複数のネットワーク要素に生じ得るボトルネックを直接的に特定することが困難であるため、そのボトルネックを他の計測データから統計的に推定可能な新たな技術が必要とされている。
【0013】
ここにおいて、本発明の解決すべき主要な目的は、次のとおりである。
【0014】
即ち、本発明の第1の目的は、サイト領域に存在する複数のネットワーク要素におけるボトルネックを効率良く特定することの可能なサイト領域内ボトルネック特定方法を提供せんとするものである。
【0015】
本発明の第2の目的は、サイト領域に存在する1以上のサーバにおけるボトルネックを特に効率良く特定することの可能なサイト領域内ボトルネック特定方法を提供せんとするものである。
【0016】
本発明の他の目的は、明細書、図面、特に特許請求の範囲の各請求項の記載から、自ずと明らかとなろう。
【0017】
【課題を解決するための手段】
本発明方法においては、インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにおいて、各ネットワーク要素の処理能力の判定に供し得るログ情報を収集するログ情報収集処理と、各ネットワーク要素のログ情報に基づいて、当該各ネットワーク要素がボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、各ネットワーク要素中にボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理とを順次実行する、という特徴的構成手法を講じる。
【0018】
さらに具体的詳細に述べると、当該課題の解決は、本発明が、以下に列挙する上位概念から下位概念に亙る新規な特徴的構成手法を採用することにより、前記目的を達成するよう為される。
【0019】
即ち、本発明方法の第1の特徴は、インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、前記コンピュータは、前記ボトルネック判定処理において、その収集した前記1以上のログ情報中において前記ボトルネックの判定基準とすべき単一のログ情報を当該コンピュータ内に予め対応設定された判定閾値と比較した結果、当該単一のログ情報が当該判定閾値の許容範囲外であった場合に、該当する特定のサーバの個体識別子を前記ボトルネックリストに記載するボトルネックサーバ記載処理、を経た後の当該ボトルネックリスト中に、指定数を超える当該特定のサーバの前記個体識別子が存在すると、前記ログ情報収集処理において前記所定時間内に収集した当該単一のログ情報の平均値を算出するログ情報平均値算出処理と、その算出した前記単一のログ情報の前記平均値を元に、前記特定のサーバの前記個体識別子を前記判定閾値との差異が大きいものから順に前記指定数だけ抽出するサーバ指定数抽出処理と、その指定数だけ抽出した前記特定のサーバの前記個体識別子により、前記ボトルネックサーバ記載処理を経た後の前記ボトルネックリストの内容を書き換えるボトルネックリスト書換処理と、を順次実行してなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0021】
本発明方法の第2の特徴は、上記本発明方法の第1の特徴における前記複数のネットワーク要素が、その1つの要素として、1以上からなるサーバを含んで構成され、前記ログ情報収集処理が、所要の前記ログ情報として、当該1以上のサーバにおける利用可能RAMメモリ残量、NIC使用総帯域、CPU使用率、HDDデータ読込み速度、接続待ちクライアント数、及び秒間累積発生エラー数のうち1以上を収集してなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0022】
本発明方法の第3の特徴は、上記本発明方法の第2の特徴における前記ログ情報収集処理が、前記1以上のサーバに関する前記1以上のログ情報の収集に際し、前記コンピュータ内に設定されたパフォーマンスモニタを用いてなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0023】
本発明方法の第4の特徴は、上記本発明方法の第2又は第3の特徴における前記コンピュータが、前記ログ情報収集処理において、前記1以上のサーバ中に前記1以上のログ情報を前記所定時間内に収集できないものが存在した場合、そのログ情報収集不能な特定のサーバに関する前記ボトルネック判定処理を実行することなく、その特定のサーバの個体識別子を前記ボトルネックリストに追記する故障候補サーバ追記処理、を実行してなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0024】
本発明方法の第5の特徴は、インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、前記複数のネットワーク要素が、その1つの要素として、1以上からなるファイアウォールを含んで構成され、前記ログ情報収集処理が、所要の前記ログ情報として、当該1以上のファイアウォールにおけるパケットロス率を収集し、前記コンピュータが、前記ボトルネック判定処理において、その収集した前記パケットロス率を、当該コンピュータ内に前記各ネットワーク要素毎の前記ログ情報と対応して予め設定された判定閾値と比較した結果、当該パケットロス率が当該判定閾値の許容範囲外であった場合に、該当する特定のファイアウォールの個体識別子を前記ボトルネックリストに記載するボトルネックファイアウォール記載処理、を実行してなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0025】
本発明方法の第6の特徴は、上記本発明方法の第5の特徴における前記ログ情報収集処理が、前記1以上のファイアウォールに関する前記パケットロス率の収集に際し、前記コンピュータ内に設定された管理情報ベースを用いてなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0026】
本発明方法の第7の特徴は、インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、前記複数のネットワーク要素が、その1つの要素として、1以上からなる負荷分散装置を含んで構成され、前記ログ情報収集処理が、所要の前記ログ情報として、当該1以上の負荷分散装置におけるパケットロス率を収集し、前記コンピュータが、前記ボトルネック判定処理において、その収集した前記パケットロス率を、当該コンピュータ内に前記各ネットワーク要素毎の前記ログ情報と対応して予め設定された判定閾値と比較した結果、当該パケットロス率が当該判定閾値の許容範囲外であった場合に、該当する特定の負荷分散装置の個体識別子を前記ボトルネックリストに記載するボトルネック負荷分散装置記載処理、を実行してなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0027】
本発明方法の第8の特徴は、上記本発明方法の第7の特徴における前記ログ情報収集処理が、前記1以上の負荷分散装置から取得したパケット送受信のカウンタ数に基づいて、所要の前記パケットロス率を計算する処理を伴いてなる、サイト領域内ボトルネック特定方法。
【0028】
本発明方法の第9の特徴は、インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、前記複数のネットワーク要素が、その1つの要素として、1以上からなるサーバLANを含んで構成され、前記ログ情報収集処理が、所要の前記ログ情報として、当該1以上のサーバLANにおけるパケットロス率を収集し、前記コンピュータが、前記ボトルネック判定処理において、その収集した前記パケットロス率を当該コンピュータ内に前記各ネットワーク要素毎の前記ログ情報と対応して予め設定された判定閾値と比較した結果、当該パケットロス率が当該判定閾値の許容範囲外であった場合に、該当する特定のサーバLANの個体識別子を前記ボトルネックリストに記載するボトルネックサーバLAN記載処理、を実行してなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0029】
本発明方法の第10の特徴は、上記本発明方法の第9の特徴における前記ログ情報収集処理が、前記1以上のサーバLANから取得したパケット送受信のカウンタ数に基づいて、所要の前記パケットロス率を計算する処理を伴ってなる、サイト領域内ボトルネック特定方法の構成採用にある。
【0031】
【発明の実施の形態】
以下、本発明の実施の形態につき、添付図面を参照しつつ、サイト領域に存在する複数のネットワーク要素におけるボトルネック特定を実現するための第1方法例と、同サイト領域に存在する1以上のサーバにおけるボトルネック特定を実現するための第2方法例とを順に挙げて説明する。
【0032】
(第1方法例)
まず初めに、図1は、本発明の第1方法例に係るサイト領域内ボトルネック特定方法に適用されるサイト領域のシステム構成を示す図であり、図2は、図1に示したサイト領域内の各ネットワーク要素から収集されるログ情報の判定閾値を規定したボトルネック閾値テーブルを示す図である。
【0033】
まず、図1に示すように、本第1方法例に係るサイト領域内ボトルネック特定方法は、サイト領域に存在する複数のネットワーク要素におけるボトルネック特定を実現するための前提として、インターネット1との接続が図られたサイト領域2a内に、3つのサーバS1,S2及びS3と、2つのファイアウォールF1及びF2と、2つの負荷分担装置B1及びB2と、2つのサーバLAN(LAN:Local Area Network):P1及びP2とを有するシステムに適用されるものとする。
【0034】
一方、図2に示すように、ネットワーク要素をなすサーバS1,S2及びS3には、ログ情報判定項目として、判定閾値を100MB/s(メガバイト/秒.上限値)としたNIC使用総帯域(NIC:Network Information Card)と、判定閾値を50%(上限値)としたCPU使用率(CPU:Central Processing Unit )とが設定されているものとする。
【0035】
また、ネットワーク要素をなすファイアウォールF1及びF2、負荷分担装置B1及びB2、並びにサーバLAN:P1及びP2には、ログ情報判定項目として、それぞれ、判定閾値を2.0%としたパケットロス率が設定されているものとする。
【0036】
なお、以上のログ情報判定項目及び対応する判定閾値が設定されたボトルネック閾値テーブル3aは、サイト領域2aに設置された任意のコンピュータに保持されるようになっており、同コンピュータとしては、サイト領域2a内に存在する何れかのサーバ(S1,S2又はS3)を当てたり、或いは、これらサーバ(S1,S2又はS3)とは独立して、同サイト領域2a内に個別に設置することが可能である。
【0037】
次に、図3は、本発明の第1方法例に係るサーバ領域内ボトルネック特定方法を説明するためのフローチャートである。
【0038】
同図に示すように、この方法例に係るサーバ領域内ボトルネック特定方法は、上述したコンピュータが、まず、サーバS1,S2及びS3におけるボトルネックの特定(ST1)と、ファイアウォールF1及びF2におけるボトルネックの特定(ST2)と、負荷分担装置B1及びB2におけるボトルネックの特定(ST3)と、サーバLAN:P1及びP2におけるボトルネックの特定(ST4)とをそれぞれ実行することにより開始される(実行順序は問わず)。
【0039】
以上の各ボトルネックの特定に際し、コンピュータは、各ネットワーク要素の処理能力の判定に供し得るログ情報として、サーバS1,S2及びS3からは、NIC使用総帯域及びCPU使用率を所定時間に亙って収集し、ファイアウォールF1及びF2、負荷分担装置B1及びB2、並びにサーバLAN:P1及びP2からは、パケットロス率を所定時間に亙って収集する(ログ情報収集処理)。
【0040】
なお、コンピュータが、サーバS1,S2及びS3からNIC使用総帯域及びCPU使用率を収集する際には、同コンピュータ内に設定されたパフォーマンスモニタ(ソフトウェア手段.図示せず)を利用することができ、ファイアウォールF1及びF2からパケットロス率を収集する際には、同コンピュータ内に設定された管理情報ベース(MIB:Management Information Base )を利用することができる。
【0041】
また、同コンピュータが、負荷分担装置B1及びB2並びにサーバLAN:P1及びP2からパケットロス率を収集する際には、これら各ネットワーク要素から取得したパケット送受信のカウンタ数に基づいて、所要のパケットロス率を計算するようにするとよい。
【0042】
次に、コンピュータは、図4(a)〜(d)に例示するように、各ネットワーク要素毎に得られるログ情報の観測値を、自身が保持するログ情報観測値テーブル4aに書き出し、当該ログ情報観測値と、これらに対応して予め設定されたボトルネック閾値テーブル3aにおける判定閾値とを比較して、それら各ネットワーク要素がボトルネックを構成するか否かを判定する(ボトルネック判定処理)。なお、図中に示す「○」は、該当するネットワーク要素がボトルネックを構成しないと判定されたことを意味する(後に示す「●」は、該当するネットワーク要素がボトルネックを構成すると判定されたことを意味する。以下同じ)。
【0043】
このとき、コンピュータは、先に収集したNIC使用総帯域及びCPU使用率のうちボトルネックの判定基準とすべき単一のログ情報(詳細は第2方法例にて述べる)を、対応する上記判定閾値と比較した結果、その単一のログ情報が判定閾値の許容範囲外であった場合に、該当するサーバの個体識別子(S1,S2又はS3)をボトルネックリスト(図示せず)に記載するようにする(ボトルネックサーバ記載処理)。
【0044】
また、同コンピュータは、収集したパケットロス率を、対応する上記判定閾値と比較した結果、それが判定閾値の許容範囲外であった場合に、該当する特定のファイアウォールの個体識別子(F1又はF2)、負荷分担装置の個体識別子(B1又はB2)、及びサーバLANの個体識別子(P1又はP2)をボトルネックリストに記載するようにする(ボトルネックファイアウォール記載処理、ボトルネック負荷分担装置記載処理、及びボトルネックサーバLAN記載処理)。
【0045】
次に、コンピュータは、上記ボトルネックリストが空(φ)であるか否かを判別する(ST5)。以上の例示では、全てのネットワーク要素がボトルネックを構成しないと判定されており、その結果、ボトルネックリストが空であるため(ST5;YES)、同コンピュータは、今回の観測では、特定すべきボトルネックがサイト領域2a内に全く存在しなかったものと判断する(ST6)。
【0046】
これに対し、図5(a)〜(d)に例示するように、ログ情報観測値テーブル4bに書き出された各ネットワーク要素毎のログ情報観測値のうち、サーバS2のCPU使用率とファイアウォールF1のパケットロス率とが、共に判定閾値の許容範囲外であり、これら各ネットワーク要素がボトルネックを構成すると判定された場合、コンピュータは、該当する個体識別子S2及びF1をボトルネックリストに記載する。
【0047】
そして、コンピュータは、上記ボトルネックリストが空であるか否かを判別するが、今回は、当該ボトルネックリストが空ではないため(ST5;NO)、ボトルネックが、サイト領域2a内のサーバS2及びファイアウォールF1に存在していると判断し、そのボトルネックリストを外部に出力する(ST7)。
【0048】
(第2方法例)
続いて、図6は、本発明の第2方法例に係るサイト領域内ボトルネック特定方法に適用されるサイト領域の部分システム構成を示す図であり、図7は、本発明の第2方法例に係るサーバ領域内ボトルネック特定方法を説明するためのフローチャートである。
【0049】
まず、図6に示すように、本第2方法例に係るサイト領域内ボトルネック特定方法は、サイト領域に存在する1以上のサーバにおけるボトルネック特定を実現するための前提として、サイト領域2b内に、5つのサーバS1,S2,S3,S4及びS5を有するシステムに適用されるものとする(ファイアウォール、負荷分担装置、及びサーバLANの数及び有無は問わない)。
【0050】
また、上記サーバS1,S2,S3,S4及びS5に関するログ情報判定項目としては、第1方法例における場合と同様、判定閾値を100MB/s(上限値)としたNIC使用総帯域と、判定閾値を50%(上限値)としたCPU使用率とが設定されており、これらNIC使用総帯域及びCPU使用率のうち、ボトルネックの判定基準、即ち、優先的に判定すべき単一のログ情報として、システム保守者(図示せず)により「CPU使用率」が選択されているものとする。
【0051】
そして、図7に示すように、この方法例に係るサーバ領域内ボトルネック特定方法は、サイト領域2b内のコンピュータが、まず、サーバS1,S2,S3,S4及びS5におけるログ情報を、所定時間Tに亙り間隔tでx回収集するためのタイムスライスτ(1≦τ≦x,x=T/t)に「1」をセットすると共に(ST11)、サーバの個体識別子をSi(1≦i≦n,n=5)としたときのカウンタに「1」をセットし(ST12)、さらに、該当するS1のログ情報の収集(ST13)を実行することにより開始される。なお、以降の説明では、簡単のため、各サーバS1,S2,S3,S4及びS5に関するログ情報の収集回数xを「x=3」とする。
【0052】
次に、コンピュータは、サーバS1に関するログ情報が正常に収集できたか否かを判別し(ST14)、当該ログ情報が正常に収集できている場合には(ST14;YES)、タイムスライスτ=1におけるサーバS1内のボトルネックを判定する(ST15)。
【0053】
次に、コンピュータは、カウンタiを「1」インクリメントし(ST16)、上述したタイムスライスτ=1におけるST13以降の処理を、サーバS2,S3,S4及びS5についても同様に実行し(ST17:NO)、そのカウンタiの値が規定値の「5(=n)」を上回った時点で(ST17;YES)、タイムスライスτを「1」インクリメントする(ST18)。
【0054】
そして、コンピュータは、今度は、タイムスライスτ=2におけるST12以降の処理を、全てのサーバS1,S2,S3,S4及びS5についても同様に実行し(ST19;NO)、以下、この繰り返し処理を、そのタイムスライスτの値が規定値の「3(=x)」を上回るまで実行する(ST19;YES)。
【0055】
以上の処理の結果、コンピュータ内に、図8に示すようなログ情報観測値テーブル4cが得られたとする。このとき、全てのタイムスライスτ=1,2,3において所要のログ情報が正常に収集できており、しかも、全てのサーバS1,S2,S3,S4及びS5に関し、判定閾値を超過したログ情報が全く存在していないため、コンピュータは、今回の観測では、特定すべきボトルネックが、何れのサーバS1,S2,S3,S4及びS5にも存在しなかったものと判断する(ボトルネックリストには何も記載しない)。
【0056】
これに対し、コンピュータ内に、図9に示すようなログ情報観測値テーブル4dが得られた場合、同コンピュータは、サーバS1における所要のログ情報(NIC使用総帯域及びCPU使用率)が、全てのタイムスライスτ=1,2,3の何れにおいても正常に収集できなかったとして(ST14;NO)、該当する個体識別子S1を、自身に保持される故障候補リスト(図示せず)に記載する(ST20)。但し、この故障候補リストへの個体識別子の記載は、図7のフローチャートからも明らかなように、実際には、前述した処理の過程において(所要のログ情報を正常に収集できなかったことが判明した時点で)随時実行される。
【0057】
次に、コンピュータは、上記故障候補リストに、同一の個体識別子により特定されるサーバ(S1)がx個(3個)あるか否かを判別するが(ST21)、図9のログ情報観測値テーブル4dによれば、サーバS1における所要のログ情報が全てのタイムスライスτ=1,2,3において正常に収集されておらず、その度に上述のST20の処理が実行され、当該故障候補リストには同一のサーバ(個体識別子S1)が3個存在することになるため(ST21;YES)、同コンピュータは、その故障候補リストの内容(個体識別子S1)をボトルネックリストに追記する(ST22.故障候補サーバ追記処理)。
【0058】
なお、図9のログ情報観測値テーブル4dに示されるサーバS1以外の残りのサーバS2,S3,S4及びS5に関しては、判定閾値を超過したログ情報が存在していないため、コンピュータは、特定すべきボトルネックが、これら残りのサーバS2,S3,S4及びS5には存在しなかったものと判断する(これら残りのサーバS2,S3,S4及びS5に関しては、ボトルネックリストには何も記載しない)。
【0059】
次に、コンピュータは、上記故障候補リストに、同一の個体識別子により特定されるサーバがx個存在しない場合には(ST21;NO)、特定すべきボトルネックが、何れのサーバS1,S2,S3,S4及びS5にも存在していないとして、今度は、ボトルネックリストに、k個を超えるサーバ(個体識別子)があるか否かを判別する(ST23)。
【0060】
なお、以上に示す「k」なる値は、システム保守者により指定される数(指定数)であり、上記ボトルネックリスト中に、仮にこの指定数を超えるサーバ(個体識別子)が存在している場合に、障害が重度に及んでいるボトルネックのみを最終的なボトルネックリストへ出力させて、軽度のボトルネックに関する不要な出力を排除するためのものである。なお、以降の説明では、簡単のため、この指定数kを「k=3」とする。
【0061】
ここで、システム保守者によりボトルネックの判定基準として事前に選択された「CPU使用率」に基づき、サーバS1,S2,S3及びS4がボトルネックと判定され、それらの個体識別子S1,S2,S3及びS4がボトルネックリストに記載されているものとする。
【0062】
そして、これに伴い、コンピュータ内に、図10に示すようなログ情報観測値テーブル4eが得られており、サーバS1,S2及びS3に関するCPU使用率が、全てのタイムスライスτ=1,2,3において判定閾値を超過し、かつ、サーバS4に関するCPU使用率が、タイムスライスτ=3において判定閾値を超過しているものとする(超過項目を下線により示す。以下同じ)。
【0063】
このとき、コンピュータは、ボトルネックリストにk個(3個)を超える4個のサーバの個体識別子S1,S2,S3及びS4が存在するとして(ST23;YES)、そのボトルネックリストに記載のサーバS1,S2,S3及びS4に関する各ログ情報、即ち、各CPU使用率の平均値を算出する(ST24.ログ情報平均値算出処理)。
【0064】
この結果、コンピュータは、図11に示すような新たなログ情報観測値テーブル4fを得て、これら各CPU使用率(各ログ情報)の平均値を元に、各サーバの個体識別子S1,S2,S3及びS4を判定閾値(50%)との差異が大きい順にソートし(S2(=90)>S1(=70)>S3(=60)>S4(=40))、上位3個(k個)のサーバに関する個体識別子、即ち、S2,S1及びS3を抽出する(ST25.サーバ指定数抽出処理)。
【0065】
なお、図10のログ情報観測値テーブル4eに示される全てのサーバS1,S2,S3,S4及びS5には、NIC使用総帯域に関して判定閾値を超過したログ情報が存在していないため、コンピュータは、同NIC使用総帯域につき特定すべきボトルネックが、何れのサーバS1,S2,S3,S4及びS5にも存在しなかったものと判断する(ボトルネックリストには何も記載しない)。
【0066】
そして以下、コンピュータは、上述したST25の処理で抽出した上位3個のサーバに関する個体識別子S2,S1及びS3を、最終的なボトルネックリストに出力すると共に、前述したST20〜ST22の処理において、ボトルネックリストに故障候補リストの内容が追記された場合には、その内容により示されるサーバの個体識別子(図9の例では「S1」)を、故障のサーバを示すものとして、最終的なボトルネックリストに出力する(ST26)。
【0067】
これに対し、コンピュータ内に、図12に示すようなログ情報観測値テーブル4gが得られており、サーバS1に関するCPU使用率のみが、タイムスライスτ=3において判定閾値を超過している場合、同コンピュータは、ボトルネックリストに、k個(3個)を超えない1個のサーバの個体識別子S1のみが存在するとして(ST23;NO)、上述したST24及びST25の処理を実行することなく、該当する個体識別子S1を、ボトルネックを構成するサーバとして、最終的なボトルネックリストに出力する。
【0068】
なお、以上の第2方法例の説明では、サーバS1,S2,S3,S4及びS5に関するログ情報判定項目として、NIC使用総帯域及びCPU使用率を挙げたが、この他にも、例えば、利用可能RAMメモリ残量(RAM:Random Access Memory)、HDDデータ読込み速度(HDD:Hard Disk Drive )、接続待ちクライアント数、秒間累積発生エラー数などを併せて適用することが可能であり、これら各ログ情報判定項目は、何れも、コンピュータ内に設定された前述のパフォーマンスモニタにより収集することが可能である。
【0069】
最後に、以上の第2方法例で説明したサーバ内ボトルネック判定処理(図7のフローチャートにおけるST15の処理)につき、上述した多数のログ情報判定項目を適用した場合の具体例を挙げて説明する。
【0070】
図13は、図6に示したサイト領域2b内の各サーバS1,S2,S3,S4及びS5から収集される各種ログ情報の判定閾値を規定したボトルネック閾値テーブルを示す図であり、図14は、図7に示したサーバ内ボトルネック判定処理の詳細を説明するためのフローチャートである。
【0071】
まず、図13に示すように、コンピュータ内に設定されたボトルネック閾値テーブル3bには、サイト領域2b内の各サーバS1,S2,S3,S4及びS5のログ情報判定項目として、判定閾値を100MB(下限値)とした利用可能RAMメモリ残量と、判定閾値を10MB/s(上限値)としたNIC使用総帯域と、判定閾値を50%(上限値)としたCPU使用率と、判定閾値を50MB/s(上限値)としたHDDデータ読込み速度と、判定閾値を1(上限値)とした接続待ちクライアント数と、判定閾値を1個/s(上限値)とした秒間累積発生エラー数とが設定されているものとする。
【0072】
また、サーバS1に関するログ情報として、利用可能RAMメモリ残量:200MB、NIC使用総帯域:5MB/s、CPU使用率:30%、HDDデータ読込み速度:30MB/s、接続待ちクライアント数:0、秒間累積発生エラー数:0個/sがそれぞれ収集され、サーバS2に関するログ情報として、利用可能RAMメモリ残量:50MB、NIC使用総帯域:5MB/s、CPU使用率:30%、HDDデータ読込み速度:30MB/s、接続待ちクライアント数:0、秒間累積発生エラー数:0個/sがそれぞれ収集されたものとする。
【0073】
ここで、まず、サーバS1のログ情報に基づくサーバ内ボトルネック判定処理に際しては、図14に示すように、利用可能RAMメモリ残量が閾値未満(ST31;NO)であり、NIC使用総帯域が閾値以上(ST32;NO)であり、CPU使用率が閾値以上(ST33;NO)であり、HDDデータ読込み速度が閾値以上(ST34;NO)であり、接続待ちクライアント数が閾値以上(ST35;NO)であり、秒間累積発生エラー数が閾値以上(ST36;NO)であるため、コンピュータは、ボトルネックリストにサーバS1(個体識別子)を記載しない(ST37)。
【0074】
これに対し、サーバS2のログ情報に基づくサーバ内ボトルネック判定処理に際しては、同図に示すように、利用可能RAMメモリ残量が閾値以上(ST31;YES)であるため(図13参照)、コンピュータは、ボトルネックリストにサーバS2(個体識別子)を記載するようにする(ST38)。
【0075】
以上、本発明の実施の形態につき、第1及び第2方法例を挙げて説明したが、本発明は、必ずしも上述した手法にのみ限定されるものではなく、本発明にいう目的を達成し、後述の効果を有する範囲内において、適宜、変更実施することが可能なものである。
【0076】
【発明の効果】
以上、詳細に説明したように、本発明によれば、サイト領域に存在する複数のネットワーク要素の性能低下や障害などの故障を、観測値を元にいち早く把握するようにしたことから、それら複数のネットワーク要素におけるボトルネック、特に、1以上のサーバにおけるボトルネックを、極めて効率良く特定することが可能になる。
【図面の簡単な説明】
【図1】本発明の第1方法例に係るサイト領域内ボトルネック特定方法に適用されるサイト領域のシステム構成を示す図である。
【図2】図1に示したサイト領域内の各ネットワーク要素から収集されるログ情報の判定閾値を規定したボトルネック閾値テーブルを示す図である。
【図3】本発明の第1方法例に係るサーバ領域内ボトルネック特定方法を説明するためのフローチャートである。
【図4】本発明の第1方法例において適用されるログ情報観測値テーブルの一例を示す図である。
【図5】本発明の第1方法例において適用されるログ情報観測値テーブルの他の例を示す図である。
【図6】本発明の第2方法例に係るサイト領域内ボトルネック特定方法に適用されるサイト領域の部分システム構成を示す図である。
【図7】本発明の第2方法例に係るサーバ領域内ボトルネック特定方法を説明するためのフローチャートである。
【図8】本発明の第2方法例において適用されるログ情報観測値テーブルの一例を示す図である。
【図9】本発明の第2方法例において適用されるログ情報観測値テーブルの他の例を示す図である。
【図10】本発明の第2方法例において適用されるログ情報観測値テーブルのさらに他の例を示す図である。
【図11】図10に示したログ情報観測値テーブルからログ情報の平均値を算出して得た新たなログ情報観測値テーブルを示す図である。
【図12】本発明の第2方法例において適用されるログ情報観測値テーブルのさらにまた他の例を示す図である。
【図13】図6に示したサイト領域内の各サーバ収集される各種ログ情報の判定閾値を規定したボトルネック閾値テーブルを示す図である。
【図14】図7に示したサーバ内ボトルネック判定処理の詳細を説明するためのフローチャートである。
【符号の説明】
1…インターネット
2a,2b…サイト領域
3a,3b…ボトルネック閾値テーブル
4a〜4g…ログ情報観測値テーブル
S1〜S5…サーバ
F1,F2…ファイアウォール
B1,B2…負荷分散装置
P1,P2…サーバLAN
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method for identifying bottlenecks in a site area. More specifically, the present invention relates to a plurality of computers existing in a site area in an end-to-server of the Internet. The present invention relates to a bottleneck identification method in a site area for identifying whether a network element constitutes a bottleneck.
[0002]
[Prior art]
In recent years, interest in network quality such as performance, economy, and reliability on the Internet has increased, and the importance of techniques for measuring the characteristics of wide area networks has increased.
[0003]
For example, in MSP (Managed Service Provider), in order to efficiently realize a quality management service business for applications, networks, and servers that provide distribution services for the public such as video, quality degradation monitoring and detection of the target network Analysis is essential.
[0004]
For this reason, when it is found that the network quality has deteriorated due to the declaration from the end user when providing the service as described above, the service provider becomes a factor of the deterioration. It can be said that it is the responsibility to quickly and accurately identify a location on the target network, that is, a bottleneck, and deal with it.
[0005]
Conventionally, as a method of identifying a bottleneck in an end-to-server on a target network, it is remotely inspected which server is the bottleneck among all the servers existing on the target network. What is going on is known.
[0006]
However, in this method, as the target network becomes large, the applicability naturally deteriorates, and it is difficult to comprehensively determine the bottleneck specific location in the target network.
[0007]
On the other hand, the MINC project (MINC: Multicast-based Inference of Network-internal Characteristics) is known as a method for identifying the bottleneck at the end-to-end (End-to-End) on the target network. Yes.
[0008]
The MINC project method transmits a test packet from one start point to a number of end points on the target network by multicast, obtains characteristics on the path from the end-to-end observation data at this time, It estimates the packet loss and delay in the target network.
[0009]
[Problems to be solved by the invention]
However, although the above-mentioned method by the MINC project has a theoretically high accuracy due to the characteristics of the tree structure when multicast is applied, the Internet directly determines the state due to its wide area and the dispersion of management subjects. However, since it is difficult to manage and control, it has the following problems.
[0010]
That is, the multicast used in the method by the MINC project is not practical because it is not practical on the currently operated Internet, and it is difficult to observe the one-way characteristics using test packets on the currently operated Internet. is there.
[0011]
In order to solve the above problems, it is necessary that the required bottleneck identification method can be applied to a network in which the entire path does not take a tree structure. It is impossible to apply to other networks, and at present, it is practically difficult to apply this to an actual ISP (Internet Service Provider).
[0012]
That is, at present, it is difficult to directly identify a bottleneck that can occur in a plurality of network elements distributed on the Internet, so a new technology that can statistically estimate the bottleneck from other measurement data Is needed.
[0013]
Here, the main objects to be solved by the present invention are as follows.
[0014]
That is, a first object of the present invention is to provide a method for identifying bottlenecks in a site area that can efficiently identify bottlenecks in a plurality of network elements existing in the site area.
[0015]
The second object of the present invention is to provide a bottleneck identification method in a site area that can particularly efficiently identify a bottleneck in one or more servers existing in the site area.
[0016]
Other objects of the present invention will become apparent from the specification, drawings, and particularly the description of each claim.
[0017]
[Means for Solving the Problems]
In the method of the present invention, in any computer installed in the site area of the Internet end-to-server, log information collection processing for collecting log information that can be used for determination of the processing capability of each network element, and each network element Bottleneck determination processing for determining whether or not each network element constitutes a bottleneck based on the log information, and when one or more network elements constituting the bottleneck exist in each network element A characteristic configuration technique is taken in which bottleneck list output processing for outputting a bottleneck list in which individual identifiers of the network elements are described is sequentially executed.
[0018]
More specifically, in order to solve the problem, the present invention achieves the above-mentioned object by adopting a novel characteristic configuration method ranging from a superordinate concept to a subordinate concept listed below. .
[0019]
That is, the first feature of the method of the present invention is whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server. In the computer, a log information collection process for collecting log information that can be used for determination of processing capability of each network element over a predetermined time from the plurality of network elements, and the collected each Based on the log information of the network element, bottleneck determination processing for determining whether or not each network element constitutes the bottleneck, and as a result of this determination, the bottleneck is configured in each network element. If one or more network elements exist, A bottleneck list output process for outputting a bottleneck list in which individual identifiers are described, and a bottleneck identification method in a site area that sequentially executes the computer, wherein the computer collects the bottleneck list in the bottleneck determination process As a result of comparing the single log information to be used as the bottleneck determination criterion in the one or more log information with a determination threshold value set in advance in the computer, the single log information is determined as the determination threshold value. The specific server exceeding the specified number in the bottleneck list after the bottleneck server description process in which the individual identifier of the corresponding specific server is described in the bottleneck list when it is outside the allowable range If the individual identifier is present, the single log collected within the predetermined time in the log information collection process. A log information average value calculation process for calculating an average value of information and a large difference between the individual identifier of the specific server and the determination threshold based on the calculated average value of the single log information A bottle that rewrites the contents of the bottleneck list after the bottleneck server description process by using the server-specified number extraction process for extracting the specified number in order from the first and the individual identifier of the specific server extracted by the specified number. It is in the configuration adoption of the bottleneck identification method in the site area, which is obtained by sequentially executing the neck list rewriting process.
[0021]
According to a second feature of the method of the present invention, the plurality of network elements in the first feature of the method of the present invention include one or more servers as one element, and the log information collection processing is performed. As the required log information, at least one of the remaining RAM memory available in the one or more servers, the total bandwidth used by the NIC, the CPU usage rate, the HDD data reading speed, the number of clients waiting for connection, and the cumulative number of errors generated per second In the site adoption of the method for identifying bottlenecks in the site area.
[0022]
A third feature of the method of the present invention is that the log information collection processing in the second feature of the method of the present invention is set in the computer when collecting the one or more log information relating to the one or more servers. The configuration of the bottleneck identification method in the site area using the performance monitor is adopted.
[0023]
According to a fourth feature of the method of the present invention, in the log information collection process, the computer according to the second or third feature of the method of the present invention stores the one or more log information in the one or more servers. Failure candidate server that adds the individual identifier of the specific server to the bottleneck list without executing the bottleneck determination process for the specific server that cannot collect log information when there is something that cannot be collected in time This is in the configuration adoption of the bottleneck identification method in the site area, which is obtained by executing the additional recording process.
[0024]
The fifth feature of the method of the present invention is to identify whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server. Therefore, in the computer, log information collection processing for collecting log information that can be used for determination of processing capability of each network element over a predetermined time from the plurality of network elements, and the collected network elements Based on the log information, a bottleneck determination process for determining whether or not each network element constitutes the bottleneck, and, as a result of this determination, 1 constitutes the bottleneck in each network element. If the above network elements exist, A bottleneck list output process for outputting a bottleneck list in which identifiers are described, and a bottleneck identification method in a site area that sequentially executes the plurality of network elements as one element from one or more The log information collection process collects the packet loss rate in the one or more firewalls as the required log information, and the computer collects the collected data in the bottleneck determination process. When the packet loss rate is outside the allowable range of the determination threshold as a result of comparing the packet loss rate with a determination threshold set in advance corresponding to the log information for each network element in the computer The individual identifier of the particular firewall in question, the bottleneck list Bottleneck firewall according the process described, formed by a running, in the configuration adopted in the site area bottleneck identification process.
[0025]
A sixth feature of the method of the present invention is that the log information collection processing in the fifth feature of the method of the present invention is the management information set in the computer when collecting the packet loss rate related to the one or more firewalls. It is in the configuration adoption of the bottleneck identification method in the site area using the base.
[0026]
The seventh feature of the method of the present invention is to identify whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server. Therefore, in the computer, log information collection processing for collecting log information that can be used for determination of processing capability of each network element over a predetermined time from the plurality of network elements, and the collected network elements Based on the log information, a bottleneck determination process for determining whether or not each network element constitutes the bottleneck, and, as a result of this determination, 1 constitutes the bottleneck in each network element. If the above network elements exist, A bottleneck list output process for outputting a bottleneck list in which identifiers are described, and a bottleneck identification method in a site area that sequentially executes the plurality of network elements as one element from one or more The log information collection process collects the packet loss rate in the one or more load distribution apparatuses as the required log information, and the computer performs the bottleneck determination process. As a result of comparing the collected packet loss rate with a determination threshold value set in advance corresponding to the log information for each network element in the computer, the packet loss rate is outside the allowable range of the determination threshold value. If there is an error, the individual identifier of the corresponding specific load balancer is recorded in the bottleneck list. Runekku load balancer described process, formed by execution, in the configuration adopted in the site area bottleneck identification process.
[0027]
According to an eighth feature of the method of the present invention, the log information collection processing according to the seventh feature of the method of the present invention is based on the number of packet transmission / reception counters acquired from the one or more load balancers. A bottleneck identification method in the site area, which involves processing to calculate the loss rate.
[0028]
The ninth feature of the method of the present invention is to determine whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server. Therefore, in the computer, log information collection processing for collecting log information that can be used for determination of processing capability of each network element over a predetermined time from the plurality of network elements, and the collected network elements Based on the log information, a bottleneck determination process for determining whether or not each network element constitutes the bottleneck, and, as a result of this determination, 1 constitutes the bottleneck in each network element. If the above network elements exist, A bottleneck list output process for outputting a bottleneck list in which identifiers are described, and a bottleneck identification method in a site area that sequentially executes the plurality of network elements as one element from one or more The log information collection process collects the packet loss rate in the one or more server LANs as the required log information, and the computer collects the log information in the bottleneck determination process. When the packet loss rate is outside the allowable range of the determination threshold as a result of comparing the packet loss rate with the determination threshold set in advance corresponding to the log information for each network element in the computer And the individual identifier of the corresponding specific server LAN in the bottleneck list. The neck server LAN described processing, by executing, in the configuration adopted in the site area bottleneck identification process.
[0029]
According to a tenth feature of the method of the present invention, the log information collection process according to the ninth feature of the method of the present invention is based on the number of packet transmission / reception counters acquired from the one or more server LANs. It is in the configuration adoption of the bottleneck identification method in the site area, which is accompanied by processing for calculating the rate.
[0031]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a first example method for realizing bottleneck identification in a plurality of network elements existing in a site area, and one or more existing in the site area, with reference to the accompanying drawings, according to an embodiment of the present invention A second method example for realizing bottleneck identification in the server will be described in order.
[0032]
(First method example)
First, FIG. 1 is a diagram showing a system configuration of a site area applied to the bottleneck identification method in the site area according to the first method example of the present invention, and FIG. 2 is a diagram showing the site area shown in FIG. It is a figure which shows the bottleneck threshold value table which prescribed | regulated the determination threshold value of the log information collected from each network element.
[0033]
First, as shown in FIG. 1, the site area bottleneck identification method according to the first method example is based on the assumption that the bottleneck identification in a plurality of network elements existing in the site area is performed with the Internet 1. In the connected site area 2a, three servers S1, S2 and S3, two firewalls F1 and F2, two load sharing devices B1 and B2, and two server LANs (LAN: Local Area Network) : Applicable to a system having P1 and P2.
[0034]
On the other hand, as shown in FIG. 2, the servers S1, S2 and S3 constituting the network element have a NIC usage total bandwidth (NIC) with a determination threshold as 100 MB / s (megabytes / second, upper limit) as a log information determination item. : Network Information Card) and a CPU usage rate (CPU: Central Processing Unit) with a determination threshold of 50% (upper limit value) are set.
[0035]
Also, the firewalls F1 and F2, which constitute the network elements, the load sharing apparatuses B1 and B2, and the server LANs: P1 and P2, respectively, have a packet loss rate with a determination threshold of 2.0% as log information determination items. It is assumed that
[0036]
The bottleneck threshold value table 3a in which the log information determination items and the corresponding determination threshold values are set is stored in an arbitrary computer installed in the site area 2a. Either one of the servers (S1, S2 or S3) existing in the area 2a can be applied, or can be individually installed in the site area 2a independently of these servers (S1, S2 or S3). Is possible.
[0037]
Next, FIG. 3 is a flowchart for explaining a method of identifying a bottleneck in the server area according to the first method example of the present invention.
[0038]
As shown in the figure, in the server area bottleneck identification method according to this method example, the computer described above first identifies the bottleneck (ST1) in the servers S1, S2, and S3, and the bottles in the firewalls F1 and F2. This is started by executing the identification of the neck (ST2), the identification of the bottleneck in the load sharing apparatuses B1 and B2 (ST3), and the identification of the bottleneck in the server LANs P1 and P2 (ST4), respectively (execution) Any order).
[0039]
When identifying each bottleneck as described above, the computer obtains the NIC total bandwidth and CPU usage rate from the servers S1, S2 and S3 over a predetermined period of time as log information that can be used for determining the processing capability of each network element. From the firewalls F1 and F2, the load sharing apparatuses B1 and B2, and the server LANs P1 and P2, packet loss rates are collected over a predetermined time (log information collection process).
[0040]
When the computer collects the total NIC usage bandwidth and CPU usage rate from the servers S1, S2 and S3, a performance monitor (software means, not shown) set in the computer can be used. When collecting packet loss rates from the firewalls F1 and F2, a management information base (MIB) set in the computer can be used.
[0041]
When the computer collects packet loss rates from the load sharing devices B1 and B2 and the server LANs P1 and P2, the required packet loss is determined based on the number of packet transmission / reception counters acquired from each of these network elements. The rate should be calculated.
[0042]
Next, as illustrated in FIGS. 4A to 4D, the computer writes the observation value of the log information obtained for each network element into the log information observation value table 4a held by itself, and the log The information observation value is compared with the determination threshold value in the bottleneck threshold value table 3a set in advance corresponding to these, and it is determined whether or not each network element constitutes a bottleneck (bottleneck determination process). . In the figure, “◯” means that the corresponding network element is determined not to constitute a bottleneck (“●” shown later is determined to be that the corresponding network element constitutes a bottleneck) Meaning the same).
[0043]
At this time, the computer uses a single log information (details will be described in the second method example) to be used as a bottleneck determination criterion among the previously collected NIC usage total bandwidth and CPU usage rate, and the corresponding determination described above. If the single log information is outside the allowable range of the determination threshold as a result of comparison with the threshold, the individual identifier (S1, S2 or S3) of the corresponding server is entered in the bottleneck list (not shown). (Bottleneck server description process).
[0044]
Further, the computer compares the collected packet loss rate with the corresponding determination threshold value, and if it is outside the allowable range of the determination threshold value, the individual identifier (F1 or F2) of the corresponding specific firewall The individual identifier (B1 or B2) of the load sharing device and the individual identifier (P1 or P2) of the server LAN are described in the bottleneck list (bottleneck firewall description processing, bottleneck load sharing device description processing, and Bottleneck server LAN description process).
[0045]
Next, the computer determines whether or not the bottleneck list is empty (φ) (ST5). In the above example, it is determined that all network elements do not constitute a bottleneck, and as a result, the bottleneck list is empty (ST5; YES), so the computer should be specified in this observation. It is determined that there is no bottleneck in the site area 2a (ST6).
[0046]
On the other hand, as illustrated in FIGS. 5A to 5D, among the log information observation values for each network element written in the log information observation value table 4b, the CPU usage rate of the server S2 and the firewall When it is determined that the packet loss rate of F1 is outside the allowable range of the determination threshold and each of these network elements constitutes a bottleneck, the computer describes the corresponding individual identifiers S2 and F1 in the bottleneck list. .
[0047]
Then, the computer determines whether or not the bottleneck list is empty. However, since the bottleneck list is not empty this time (ST5; NO), the bottleneck is the server S2 in the site area 2a. And it is determined that it exists in the firewall F1, and the bottleneck list is output to the outside (ST7).
[0048]
(Second method example)
Next, FIG. 6 is a diagram showing a partial system configuration of the site region applied to the site region bottleneck identification method according to the second method example of the present invention, and FIG. 7 is a second method example of the present invention. It is a flowchart for demonstrating the bottleneck identification method in a server area | region which concerns on.
[0049]
First, as shown in FIG. 6, the bottleneck identification method in the site area according to the second method example is based on the assumption that the bottleneck identification in one or more servers existing in the site area is realized in the site area 2b. In addition, the present invention is applied to a system having five servers S1, S2, S3, S4, and S5 (regardless of the number and presence of firewalls, load sharing devices, and server LANs).
[0050]
Further, as the log information determination items related to the servers S1, S2, S3, S4, and S5, as in the case of the first method example, the NIC use total bandwidth with the determination threshold set to 100 MB / s (upper limit value), and the determination threshold The CPU usage rate is set to 50% (upper limit value). Of these NIC usage total bandwidth and CPU usage rate, the bottleneck criterion, that is, the single log information to be preferentially determined. Assuming that “CPU usage rate” is selected by a system maintenance person (not shown).
[0051]
Then, as shown in FIG. 7, in the server area bottleneck identification method according to this method example, the computer in the site area 2b first stores the log information in the servers S1, S2, S3, S4 and S5 for a predetermined time. “1” is set in a time slice τ (1 ≦ τ ≦ x, x = T / t) for collecting x times at intervals t over T (ST11), and the individual identifier of the server is Si (1 ≦ i It is started by setting “1” to the counter when (≦ n, n = 5) (ST12) and further collecting the log information of the corresponding S1 (ST13). In the following description, for the sake of simplicity, it is assumed that the number x of log information collection about the servers S1, S2, S3, S4, and S5 is “x = 3”.
[0052]
Next, the computer determines whether or not the log information related to the server S1 has been normally collected (ST14). If the log information has been normally collected (ST14; YES), the time slice τ = 1. The bottleneck in the server S1 is determined (ST15).
[0053]
Next, the computer increments the counter i by “1” (ST16), and similarly executes the above-described processing after ST13 in the time slice τ = 1 for the servers S2, S3, S4, and S5 (ST17: NO). ) When the value of the counter i exceeds the prescribed value “5 (= n)” (ST17; YES), the time slice τ is incremented by “1” (ST18).
[0054]
Then, this time, the computer executes the processing after ST12 in the time slice τ = 2 similarly for all the servers S1, S2, S3, S4 and S5 (ST19; NO). The process is executed until the value of the time slice τ exceeds the prescribed value “3 (= x)” (ST19; YES).
[0055]
As a result of the above processing, it is assumed that the log information observation value table 4c as shown in FIG. 8 is obtained in the computer. At this time, required log information can be normally collected in all the time slices τ = 1, 2, and 3, and the log information that exceeds the determination threshold for all the servers S1, S2, S3, S4, and S5. Therefore, the computer determines that the bottleneck to be identified does not exist in any of the servers S1, S2, S3, S4, and S5 in this observation (in the bottleneck list). Does not describe anything).
[0056]
On the other hand, when the log information observation value table 4d as shown in FIG. 9 is obtained in the computer, the computer has all the necessary log information (NIC usage total bandwidth and CPU usage rate) in the server S1. If the time slices τ = 1, 2, and 3 cannot be normally collected (ST14; NO), the corresponding individual identifier S1 is described in a failure candidate list (not shown) held by itself. (ST20). However, as described in the flowchart of FIG. 7, the description of the individual identifier in the failure candidate list is actually found in the course of the above-described processing (the required log information could not be collected normally). At any time).
[0057]
Next, the computer determines whether there are x (three) servers (S1) identified by the same individual identifier in the failure candidate list (ST21), but the log information observation value of FIG. According to the table 4d, required log information in the server S1 is not normally collected in all the time slices τ = 1, 2, 3, and the processing of ST20 described above is executed each time, and the failure candidate list Since there are three identical servers (individual identifier S1) (ST21; YES), the computer adds the contents of the failure candidate list (individual identifier S1) to the bottleneck list (ST22. Failure candidate server addition process).
[0058]
Note that for the remaining servers S2, S3, S4, and S5 other than the server S1 shown in the log information observation value table 4d in FIG. 9, there is no log information that exceeds the determination threshold, so the computer specifies Judge that the bottleneck should not exist in these remaining servers S2, S3, S4 and S5 (nothing is written in the bottleneck list for these remaining servers S2, S3, S4 and S5) ).
[0059]
Next, when there are no x servers identified by the same individual identifier in the failure candidate list (ST21; NO), the computer should identify which server S1, S2, S3 is the bottleneck to be identified. , S4 and S5, it is determined whether there are more than k servers (individual identifiers) in the bottleneck list (ST23).
[0060]
The value “k” shown above is the number (specified number) specified by the system maintainer, and there are temporarily servers (individual identifiers) exceeding the specified number in the bottleneck list. In this case, only the bottleneck where the fault is serious is output to the final bottleneck list, and unnecessary output related to the minor bottleneck is excluded. In the following description, for the sake of simplicity, the designated number k is “k = 3”.
[0061]
Here, the servers S1, S2, S3, and S4 are determined as bottlenecks based on the “CPU usage rate” selected in advance by the system maintainer as a bottleneck determination criterion, and their individual identifiers S1, S2, S3 are determined. And S4 are described in the bottleneck list.
[0062]
As a result, a log information observation value table 4e as shown in FIG. 10 is obtained in the computer, and the CPU usage rates for the servers S1, S2 and S3 are all time slices τ = 1, 2, It is assumed that the determination threshold value is exceeded at 3 and the CPU usage rate related to the server S4 exceeds the determination threshold value at time slice τ = 3 (excess items are indicated by an underline, the same applies hereinafter).
[0063]
At this time, the computer assumes that there are four server individual identifiers S1, S2, S3, and S4 exceeding k (three) in the bottleneck list (ST23; YES), and the servers described in the bottleneck list Each log information regarding S1, S2, S3, and S4, that is, an average value of each CPU usage rate is calculated (ST24. Log information average value calculation process).
[0064]
As a result, the computer obtains a new log information observation value table 4f as shown in FIG. 11, and based on the average value of each CPU usage rate (each log information), the individual identifiers S1, S2, and S2 of each server. S3 and S4 are sorted in descending order from the determination threshold (50%) (S2 (= 90)> S1 (= 70)> S3 (= 60)> S4 (= 40)), and the top three (k) ), That is, S2, S1 and S3 are extracted (ST25. Server specified number extraction process).
[0065]
Note that in all the servers S1, S2, S3, S4, and S5 shown in the log information observation value table 4e in FIG. 10, there is no log information that exceeds the determination threshold with respect to the NIC use total bandwidth. Therefore, it is determined that the bottleneck to be specified for the total bandwidth used by the NIC does not exist in any of the servers S1, S2, S3, S4, and S5 (nothing is described in the bottleneck list).
[0066]
Thereafter, the computer outputs individual identifiers S2, S1 and S3 relating to the top three servers extracted in the process of ST25 described above to the final bottleneck list, and in the processes of ST20 to ST22 described above, When the content of the failure candidate list is added to the neck list, the individual identifier (“S1” in the example of FIG. 9) of the server indicated by the content is used to indicate the failed server, and the final bottleneck It outputs to the list (ST26).
[0067]
On the other hand, when the log information observation value table 4g as shown in FIG. 12 is obtained in the computer, and only the CPU usage rate related to the server S1 exceeds the determination threshold in the time slice τ = 3, The computer assumes that there is only one server individual identifier S1 that does not exceed k (three) in the bottleneck list (ST23; NO), without executing the above-described processing of ST24 and ST25. The corresponding individual identifier S1 is output to the final bottleneck list as a server constituting the bottleneck.
[0068]
In the above description of the second method example, the NIC use total bandwidth and the CPU use rate are cited as the log information determination items regarding the servers S1, S2, S3, S4, and S5. Available RAM memory remaining capacity (RAM: Random Access Memory), HDD data reading speed (HDD: Hard Disk Drive), number of clients waiting to be connected, number of errors generated in seconds, etc. can be applied together. Any of the information determination items can be collected by the above-described performance monitor set in the computer.
[0069]
Finally, with respect to the in-server bottleneck determination process (the process of ST15 in the flowchart of FIG. 7) described in the second method example, a specific example in the case where the above-described many log information determination items are applied will be described. .
[0070]
FIG. 13 is a diagram showing a bottleneck threshold table that defines determination thresholds for various log information collected from the servers S1, S2, S3, S4, and S5 in the site region 2b shown in FIG. FIG. 8 is a flowchart for explaining details of a bottleneck determination process in the server shown in FIG. 7.
[0071]
First, as shown in FIG. 13, the bottleneck threshold table 3b set in the computer has a determination threshold of 100 MB as log information determination items for each of the servers S1, S2, S3, S4 and S5 in the site area 2b. The available RAM memory remaining amount (lower limit value), the NIC usage total bandwidth with a determination threshold value of 10 MB / s (upper limit value), the CPU usage rate with a determination threshold value of 50% (upper limit value), and the determination threshold value HDD data reading speed with 50MB / s (upper limit), the number of clients waiting for connection with a judgment threshold of 1 (upper limit), and the cumulative number of errors generated per second with a judgment threshold of 1 / s (upper limit) And are set.
[0072]
Further, as log information related to the server S1, available RAM memory remaining amount: 200 MB, NIC used total bandwidth: 5 MB / s, CPU usage rate: 30%, HDD data reading speed: 30 MB / s, number of clients waiting for connection: 0, Accumulated error count per second: 0 / s, collected as log information related to server S2, available RAM memory remaining capacity: 50MB, total NIC bandwidth used: 5MB / s, CPU usage rate: 30%, HDD data read It is assumed that the speed: 30 MB / s, the number of clients waiting for connection: 0, and the number of accumulated errors generated per second: 0 / s.
[0073]
First, in the server bottleneck determination process based on the log information of the server S1, as shown in FIG. 14, the available RAM memory remaining amount is less than the threshold (ST31; NO), and the total NIC use bandwidth is More than the threshold (ST32; NO), the CPU usage rate is more than the threshold (ST33; NO), the HDD data reading speed is more than the threshold (ST34; NO), and the number of clients waiting for connection is more than the threshold (ST35; NO). ) And the cumulative number of errors generated per second is equal to or greater than the threshold (ST36; NO), the computer does not describe the server S1 (individual identifier) in the bottleneck list (ST37).
[0074]
On the other hand, in the in-server bottleneck determination process based on the log information of the server S2, as shown in the figure, the available RAM memory remaining amount is equal to or greater than the threshold (ST31; YES) (see FIG. 13). The computer describes the server S2 (individual identifier) in the bottleneck list (ST38).
[0075]
As described above, the embodiments of the present invention have been described with reference to the first and second method examples. However, the present invention is not necessarily limited only to the above-described method, and the object of the present invention is achieved. Modifications can be made as appropriate within the scope of the effects described below.
[0076]
【The invention's effect】
As described above in detail, according to the present invention, it is possible to quickly grasp failures such as performance degradation and failures of a plurality of network elements existing in the site area based on observation values. It is possible to identify a bottleneck in each network element, particularly a bottleneck in one or more servers, extremely efficiently.
[Brief description of the drawings]
FIG. 1 is a diagram showing a system configuration of a site area applied to an intra-site area bottleneck identification method according to a first method example of the present invention.
FIG. 2 is a diagram showing a bottleneck threshold value table that defines determination thresholds for log information collected from each network element in the site area shown in FIG. 1;
FIG. 3 is a flowchart for explaining a server area bottleneck identification method according to a first method example of the present invention;
FIG. 4 is a diagram showing an example of a log information observation value table applied in the first method example of the present invention.
FIG. 5 is a diagram showing another example of a log information observation value table applied in the first method example of the present invention.
FIG. 6 is a diagram showing a partial system configuration of a site area applied to a site area bottleneck identification method according to a second method example of the present invention.
FIG. 7 is a flowchart for explaining a server area bottleneck identification method according to a second method example of the present invention;
FIG. 8 is a diagram showing an example of a log information observation value table applied in the second method example of the present invention.
FIG. 9 is a diagram showing another example of the log information observation value table applied in the second method example of the present invention.
FIG. 10 is a diagram showing still another example of the log information observation value table applied in the second method example of the present invention.
11 is a diagram showing a new log information observation value table obtained by calculating an average value of log information from the log information observation value table shown in FIG.
FIG. 12 is a diagram showing still another example of the log information observation value table applied in the second method example of the present invention.
13 is a diagram showing a bottleneck threshold value table defining determination threshold values for various log information collected by each server in the site area shown in FIG. 6;
14 is a flowchart for explaining the details of the in-server bottleneck determination process shown in FIG. 7; FIG.
[Explanation of symbols]
1 ... Internet
2a, 2b ... Site area
3a, 3b ... Bottleneck threshold table
4a-4g ... Log information observation value table
S1-S5 ... Server
F1, F2 ... Firewall
B1, B2 ... Load balancer
P1, P2 ... Server LAN

Claims (10)

インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、
前記コンピュータは、
前記ボトルネック判定処理において、その収集した前記1以上のログ情報中において前記ボトルネックの判定基準とすべき単一のログ情報を当該コンピュータ内に予め対応設定された判定閾値と比較した結果、当該単一のログ情報が当該判定閾値の許容範囲外であった場合に、該当する特定のサーバの個体識別子を前記ボトルネックリストに記載するボトルネックサーバ記載処理、を経た後の当該ボトルネックリスト中に、指定数を超える当該特定のサーバの前記個体識別子が存在すると、
前記ログ情報収集処理において前記所定時間内に収集した当該単一のログ情報の平均値を算出するログ情報平均値算出処理と、
その算出した前記単一のログ情報の前記平均値を元に、前記特定のサーバの前記個体識別子を前記判定閾値との差異が大きいものから順に前記指定数だけ抽出するサーバ指定数抽出処理と、
その指定数だけ抽出した前記特定のサーバの前記個体識別子により、前記ボトルネックサーバ記載処理を経た後の前記ボトルネックリストの内容を書き換えるボトルネックリスト書換処理と、を順次実行する、
ことを特徴とするサイト領域内ボトルネック特定方法。
In order to identify whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server, Based on the log information collection process for collecting log information that can be used for determining the processing capability of each network element over a predetermined time from the network element, and the collected log information of each network element, A bottleneck determination process for determining whether or not a network element constitutes the bottleneck, and as a result of this determination, when one or more network elements constituting the bottleneck exist in the network elements, A bot that describes the individual identifier of the network element A site area bottleneck identification method of performing a bottleneck list output process of outputting the neck list, sequentially,
The computer
In the bottleneck determination process, as a result of comparing the single log information that should be used as the determination criterion for the bottleneck in the collected one or more log information with a determination threshold value set in advance in the computer, In the bottleneck list after the bottleneck server description process in which the individual identifier of the corresponding specific server is described in the bottleneck list when single log information is outside the allowable range of the determination threshold If there are more individual identifiers of the specific server than the specified number,
Log information average value calculation processing for calculating an average value of the single log information collected within the predetermined time in the log information collection processing;
Based on the calculated average value of the single log information, the server specified number extraction process of extracting the specified number of the individual identifiers of the specific server in descending order of the difference from the determination threshold;
The bottleneck list rewriting process for rewriting the contents of the bottleneck list after the bottleneck server description process is sequentially executed by the individual identifier of the specific server extracted by the designated number,
A bottleneck identification method in a site region characterized by the above.
前記複数のネットワーク要素は、
その1つの要素として、1以上からなるサーバを含んで構成され、
前記ログ情報収集処理は、
所要の前記ログ情報として、当該1以上のサーバにおける利用可能RAMメモリ残量、NIC使用総帯域、CPU使用率、HDDデータ読込み速度、接続待ちクライアント数、及び秒間累積発生エラー数のうち1以上を収集する、
ことを特徴とする請求項1に記載のサイト領域内ボトルネック特定方法。
The plurality of network elements are:
As one element, it is configured to include a server consisting of one or more,
The log information collection process includes:
As the required log information, at least one of available RAM memory remaining capacity, NIC usage total bandwidth, CPU usage rate, HDD data reading speed, number of clients waiting for connection, and number of accumulated errors generated per second as the one or more servers. collect,
The method for identifying bottlenecks in a site area according to claim 1.
前記ログ情報収集処理は、
前記1以上のサーバに関する前記1以上のログ情報の収集に際し、
前記コンピュータ内に設定されたパフォーマンスモニタを用いる、
ことを特徴とする請求項2に記載のサイト領域内ボトルネック特定方法。
The log information collection process includes:
In collecting the one or more log information relating to the one or more servers,
Using a performance monitor set in the computer,
The method for identifying bottlenecks in the site area according to claim 2.
前記コンピュータは、
前記ログ情報収集処理において、前記1以上のサーバ中に前記1以上のログ情報を前記所定時間内に収集できないものが存在した場合、
そのログ情報収集不能な特定のサーバに関する前記ボトルネック判定処理を実行することなく、その特定のサーバの個体識別子を前記ボトルネックリストに追記する故障候補サーバ追記処理、を実行する、
ことを特徴とする請求項2又は3に記載のサイト領域内ボトルネック特定方法。
The computer
In the log information collection process, when one or more servers cannot collect the one or more log information within the predetermined time,
Without executing the bottleneck determination process for a specific server that cannot collect log information, the failure candidate server additional process for adding the individual identifier of the specific server to the bottleneck list is executed.
The method for identifying a bottleneck in a site area according to claim 2 or 3, wherein:
インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、
前記複数のネットワーク要素は、
その1つの要素として、1以上からなるファイアウォールを含んで構成され、
前記ログ情報収集処理は、
所要の前記ログ情報として、当該1以上のファイアウォールにおけるパケットロス率を収集し、
前記コンピュータは、
前記ボトルネック判定処理において、その収集した前記パケットロス率を、当該コンピュータ内に前記各ネットワーク要素毎の前記ログ情報と対応して予め設定された判定閾値と比較した結果、当該パケットロス率が当該判定閾値の許容範囲外であった場合に、
該当する特定のファイアウォールの個体識別子を前記ボトルネックリストに記載するボトルネックファイアウォール記載処理、を実行する、
ことを特徴とするサイト領域内ボトルネック特定方法。
In order to identify whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server, Based on the log information collection process for collecting log information that can be used for determining the processing capability of each network element over a predetermined time from the network element, and the collected log information of each network element, A bottleneck determination process for determining whether or not a network element constitutes the bottleneck, and as a result of this determination, when one or more network elements constituting the bottleneck exist in the network elements, A bot that describes the individual identifier of the network element A site area bottleneck identification method of performing a bottleneck list output process of outputting the neck list, sequentially,
The plurality of network elements are:
As one element, it is configured to include a firewall consisting of one or more,
The log information collection process includes:
Collect the packet loss rate in the one or more firewalls as the required log information,
The computer
In the bottleneck determination process, as a result of comparing the collected packet loss rate with a determination threshold set in advance corresponding to the log information for each network element in the computer, the packet loss rate is If it is outside the allowable threshold range,
Executing a bottleneck firewall description process in which an individual identifier of the corresponding specific firewall is described in the bottleneck list;
A bottleneck identification method in a site region characterized by the above.
前記ログ情報収集処理は、
前記1以上のファイアウォールに関する前記パケットロス率の収集に際し、
前記コンピュータ内に設定された管理情報ベースを用いる、
ことを特徴とする請求項5に記載のサイト領域内ボトルネック特定方法。
The log information collection process includes:
In collecting the packet loss rate for the one or more firewalls,
Using a management information base set in the computer,
The method for identifying bottlenecks in a site area according to claim 5.
インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、
前記複数のネットワーク要素は、
その1つの要素として、1以上からなる負荷分散装置を含んで構成され、
前記ログ情報収集処理は、
所要の前記ログ情報として、当該1以上の負荷分散装置におけるパケットロス率を収集し、
前記コンピュータは、
前記ボトルネック判定処理において、その収集した前記パケットロス率を、当該コンピュータ内に前記各ネットワーク要素毎の前記ログ情報と対応して予め設定された判定閾値と比較した結果、当該パケットロス率が当該判定閾値の許容範囲外であった場合に、
該当する特定の負荷分散装置の個体識別子を前記ボトルネックリストに記載するボトルネック負荷分散装置記載処理、を実行する、
ことを特徴とするサイト領域内ボトルネック特定方法。
In order to identify whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server, Based on the log information collection process for collecting log information that can be used for determining the processing capability of each network element over a predetermined time from the network element, and the collected log information of each network element, A bottleneck determination process for determining whether or not a network element constitutes the bottleneck, and as a result of this determination, when one or more network elements constituting the bottleneck exist in the network elements, A bot that describes the individual identifier of the network element A site area bottleneck identification method of performing a bottleneck list output process of outputting the neck list, sequentially,
The plurality of network elements are:
As one element, it is configured to include a load balancer consisting of one or more,
The log information collection process includes:
As the required log information, the packet loss rate in the one or more load balancers is collected,
The computer
In the bottleneck determination process, as a result of comparing the collected packet loss rate with a determination threshold set in advance corresponding to the log information for each network element in the computer, the packet loss rate is If it is outside the allowable threshold range,
Executing a bottleneck load distribution device description process for describing an individual identifier of the corresponding specific load distribution device in the bottleneck list;
A bottleneck identification method in a site region characterized by the above.
前記ログ情報収集処理は、
前記1以上の負荷分散装置から取得したパケット送受信のカウンタ数に基づいて、所要の前記パケットロス率を計算する処理を伴う、
ことを特徴とする請求項7に記載のサイト領域内ボトルネック特定方法。
The log information collection process includes:
With a process of calculating the required packet loss rate based on the number of packet transmission / reception counters acquired from the one or more load balancers;
8. The method for identifying bottlenecks in a site area according to claim 7.
インターネットのエンド・トゥ・サーバにおけるサイト領域に設置された任意のコンピュータにより、当該サイト領域に存在する複数のネットワーク要素がボトルネックを構成するか否かを特定するため、前記コンピュータにおいて、前記複数のネットワーク要素から、各ネットワーク要素の処理能力の判定に供し得るログ情報を所定時間に亙ってそれぞれ収集するログ情報収集処理と、その収集した前記各ネットワーク要素の前記ログ情報に基づいて、当該各ネットワーク要素が前記ボトルネックを構成するか否かをそれぞれ判定するボトルネック判定処理と、この判定の結果、前記各ネットワーク要素中に前記ボトルネックを構成する1以上のネットワーク要素が存在した場合に、当該ネットワーク要素の個体識別子を記載してなるボトルネックリストを出力するボトルネックリスト出力処理と、を順次実行するサイト領域内ボトルネック特定方法であって、
前記複数のネットワーク要素は、
その1つの要素として、1以上からなるサーバLANを含んで構成され、
前記ログ情報収集処理は、
所要の前記ログ情報として、当該1以上のサーバLANにおけるパケットロス率を収集し、
前記コンピュータは、
前記ボトルネック判定処理において、その収集した前記パケットロス率を当該コンピュータ内に前記各ネットワーク要素毎の前記ログ情報と対応して予め設定された判定閾値と比較した結果、当該パケットロス率が当該判定閾値の許容範囲外であった場合に、
該当する特定のサーバLANの個体識別子を前記ボトルネックリストに記載するボトルネックサーバLAN記載処理、を実行する、
ことを特徴とするサイト領域内ボトルネック特定方法。
In order to identify whether or not a plurality of network elements existing in the site area constitute a bottleneck by an arbitrary computer installed in the site area of the Internet end-to-server, Based on the log information collection process for collecting log information that can be used for determining the processing capability of each network element over a predetermined time from the network element, and the collected log information of each network element, A bottleneck determination process for determining whether or not a network element constitutes the bottleneck, and as a result of this determination, when one or more network elements constituting the bottleneck exist in the network elements, A bot that describes the individual identifier of the network element A site area bottleneck identification method of performing a bottleneck list output process of outputting the neck list, sequentially,
The plurality of network elements are:
As one element, it is configured to include a server LAN consisting of one or more,
The log information collection process includes:
Collect the packet loss rate in the one or more server LANs as the required log information,
The computer
In the bottleneck determination process, as a result of comparing the collected packet loss rate with a determination threshold set in advance corresponding to the log information for each network element in the computer, the packet loss rate is determined If it was outside the threshold tolerance,
Executing a bottleneck server LAN description process for describing an individual identifier of the corresponding specific server LAN in the bottleneck list;
A bottleneck identification method in a site region characterized by the above.
前記ログ情報収集処理は、
前記1以上のサーバLANから取得したパケット送受信のカウンタ数に基づいて、所要の前記パケットロス率を計算する処理を伴う、
ことを特徴とする請求項9に記載のサイト領域内ボトルネック特定方法。
The log information collection process includes:
A process of calculating the required packet loss rate based on the number of packet transmission / reception counters acquired from the one or more server LANs;
The method for identifying bottlenecks in a site area according to claim 9.
JP2002103695A 2002-04-05 2002-04-05 How to identify bottlenecks in the site area Expired - Fee Related JP3805711B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002103695A JP3805711B2 (en) 2002-04-05 2002-04-05 How to identify bottlenecks in the site area

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002103695A JP3805711B2 (en) 2002-04-05 2002-04-05 How to identify bottlenecks in the site area

Publications (2)

Publication Number Publication Date
JP2003298655A JP2003298655A (en) 2003-10-17
JP3805711B2 true JP3805711B2 (en) 2006-08-09

Family

ID=29389363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002103695A Expired - Fee Related JP3805711B2 (en) 2002-04-05 2002-04-05 How to identify bottlenecks in the site area

Country Status (1)

Country Link
JP (1) JP3805711B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100866857B1 (en) 2003-10-29 2008-11-04 인터내셔널 비지네스 머신즈 코포레이션 Information system, load control method, load control program, and recording medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1944699B1 (en) * 2005-10-31 2015-07-08 Fujitsu Ltd. Performance failure analysis method, device and program
US8359378B2 (en) 2005-11-24 2013-01-22 Hewlett-Packard Development Company, L.P. Network system and method of administrating networks
CN104246713B (en) 2012-03-30 2017-05-10 日本电信电话株式会社 User sensory quality estimation device, main quality dropping reason determination device, similar operation extraction device, and methods therefor
JP2014192584A (en) * 2013-03-26 2014-10-06 Kddi Corp Setting device, terminal device, setting program, measuring system, and measuring method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100866857B1 (en) 2003-10-29 2008-11-04 인터내셔널 비지네스 머신즈 코포레이션 Information system, load control method, load control program, and recording medium

Also Published As

Publication number Publication date
JP2003298655A (en) 2003-10-17

Similar Documents

Publication Publication Date Title
US7836330B2 (en) Stream distribution system and failure detection method
US11671342B2 (en) Link fault isolation using latencies
US7266758B2 (en) Network monitoring program, network monitoring method, and network monitoring apparatus
US9183033B2 (en) Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines
CN110290012A (en) The detection recovery system and method for RabbitMQ clustering fault
US20020177910A1 (en) Performance measurement system for large computer network
US20090310491A1 (en) Distributed Flow Analysis
US20030074161A1 (en) System and method for automated analysis of load testing results
CN103718535B (en) The alleviation of hardware fault
EP2657843B1 (en) Operation management device, operation management method, and program
US8291066B2 (en) Method and system for transaction monitoring in a communication network
JP6220625B2 (en) Delay monitoring system and delay monitoring method
US20070086350A1 (en) Method, system, and computer program product for providing failure detection with minimal bandwidth usage
Martinello et al. Web service availability—impact of error recovery and traffic model
JP3805711B2 (en) How to identify bottlenecks in the site area
JP2012004781A (en) Configuration information acquisition method, virtual probe and configuration information acquisition control apparatus
US8499074B2 (en) Method and apparatus for accessing files stored in a storage access network (SAN) or network attached storage (NAS)
Iyer et al. Measurement-based analysis of networked system availability
US7254638B2 (en) Method and apparatus for identifying slow links and for providing application-based responses to slow links in a distributed computer network
Borzemski et al. An Empirical Study of Web Quality: Measuring the Web from Wroclaw University of Technology Campus.
Dutta et al. ReDAL: an efficient and practical request distribution technique for application server clusters
JP2006033715A (en) Network e2e performance evaluation system, method, and program
JP4286594B2 (en) Fault analysis data collection device and method
JP2001195285A (en) Method and system for analyzing application performance deterioration factor and its program recording medium
Wang et al. PCAD: cloud performance anomaly detection with data packet counts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060510

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090519

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120519

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees