JP4464256B2 - ネットワーク上位監視装置 - Google Patents

ネットワーク上位監視装置 Download PDF

Info

Publication number
JP4464256B2
JP4464256B2 JP2004333825A JP2004333825A JP4464256B2 JP 4464256 B2 JP4464256 B2 JP 4464256B2 JP 2004333825 A JP2004333825 A JP 2004333825A JP 2004333825 A JP2004333825 A JP 2004333825A JP 4464256 B2 JP4464256 B2 JP 4464256B2
Authority
JP
Japan
Prior art keywords
route
monitoring device
router
server
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004333825A
Other languages
English (en)
Other versions
JP2006148376A (ja
Inventor
健次郎 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004333825A priority Critical patent/JP4464256B2/ja
Publication of JP2006148376A publication Critical patent/JP2006148376A/ja
Application granted granted Critical
Publication of JP4464256B2 publication Critical patent/JP4464256B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、多数のサーバを多数の中継機器を経由して分散配置したネットワークにおいて、サーバや中継機器の動作を効果的に監視する監視装置、監視システムに関するものである。
データ通信ネットワークとして普及している、IP(Internet Protocol)ネットワークのネットワーク管理システムにおいては、管理の対象である複数のノードの障害(動作している、動作していない)を監視するために、各ノードに対して定期的なポーリングを行っている。その結果、ノードからの応答が得られなかったときは、時間を置いて何度かポーリングを行い、それでも応答が無いときは、ノードが停止していると判断し、表示画面上にそのノードの障害を示すようにしている。通常このポーリングはICMP(Internet Control Message Protocol)の「エコー要求及びエコー応答」メッセージにより行うことが多い。ICMPは必須プロトコルであるからである。
SNMP(Simple Network Management Protocol)は、IPネットワークを管理するプロトコルとして標準となっているプロトコルである。SNMPではマネージャから管理対象内で動作するエージェントに管理情情報のID(MIB―OID+インスタンスID)を指定して監視対象内のエージェントソフトウェアに問い合わせる。エージェントは該当するIDに対応する値をマネージャに応答する。
SNMPはその名の通り、プロトコルの仕様が簡素であることから実装が比較的容易であり、現在では広く普及している。上記ポーリングをSNMP要求/応答により行う場合もある。
上記方式の一例として、以下の特許文献1の、「ネットワーク管理システムおよびデータ記憶媒体」がある。このシステムによれば、サーバからのポーリングへの応答が無かった時点で障害と判定できるが、サーバ自体に問題があるのか、途中の経路に問題があるのか、など真の障害部位が特定できないという課題を解決するとしている。そのため、稼働監視をしているターゲットからの応答がなかった場合に、監視装置とポーリング対象の接続構成データベースを検索し、監視装置から近い順に順次中継ノードに対しポーリングをかけ、最初に応答がなかった部分が障害障害であると推定する障害部位特定を行うというものである。
しかし、引用発明で想定する監視装置は、公開公報に添付された図面の記載から明らかなように、データセンターに設置された(集中)監視装置である。この場合監視装置とターゲットサーバ間のルートのチェックは可能であるが、データセンターからは途中にあり、ターゲットのクライアントは利用しない中継ノードが障害であるような場合は、利用者はサーバAを使えているにもかかわらず、サーバAが使えない(障害)と判断してしまう。これは単純な例であるが、実際のネットワークはもっと複雑であるため、上記の主旨を適用できるケースはさらに限定される。
第2の従来例として特許文献2に示される、「ネットワーク監視機構」においては、ポーリングする各インタフェースについて一次故障と二次故障を区別する手段を備えることにより、管理者に障害の根本原因を明確に提示することが提案されている。この方式によれば、一次故障と二次故障を区別するための手段として複数のネットワーク・インタフェースの各々に関する臨界ルート属性を設定し、接続状態や影響を分析しようとしている。分析用の情報収集手段としては、SNMPのMIB、ICMP、IPXパケットなどが利用される。
しかしこの方式では、ネットワークの構成を間接的に把握するので、直ちに障害機器を特定はできない。
第3の従来例として特許文献3に示される、「ネットワーク監視システム及びネットワーク監視方法」においては、上記の中央監視装置からのポーリングまたは問合せと共に、末端のサーバに並行して「監視プローブサーバ」を設けて、この監視プローブサーバからも担当機器に個別に問合せを行い、中央の監視サーバと監視プローブサーバとによる、それぞれの個別応答結果の組み合わせに基づいて故障機器を推定するシステムを提案している。
上記のシステムによれば、中央の監視サーバが監視プローブサーバからの個別応答結果を得て、中央監視サーバからの個別応答と突合わせて、初めて故障機器を推定ができる。しかし層間接続はこのように単一で単純な接続形態ばかりであるとは限らず、冗長度のある層間接続に対しては、必ずしも簡単に障害機器を特定出来るとは限らず、複数の並列機器に順次問合せを行うことは、多大の時間がかかって実用的でない。何よりもこのままではこの経路が使えなくなってしまう。
なおSNMPのプロトコルの一般的な解説については、例えば非特許文献1で述べられている。
従来のネットワーク監視では、利用者が十分な応答性能でネットワークアプリケーションを利用できているかどうかとういう視点での監視が十分ではなかった。これは、クライアント端末とサーバは同一のネットワークセグメントに設置されているということを前提とし、またIPプロトコルがベストエフォートサービスを前提としていたため、アプリケーションの多くは通信できれば(遅延が起こっても)動作するので、応答性能の監視は重要項目になりにくかったからである。
しかし、近年ネットワーク運用形態が変化し、IPネットワーク上で利用されるアプリケーションも変化してきている。まず、通信事業者が提供するWAN(Wide Area Network)回線の高速化・常時接続化が進展し、これに伴って各支店に設置していたサーバをデータセンターに集約することが多くなっている。すなわち、クライアント端末とサーバは、同一LAN(Local Area Network)内ではなく、常時接続ネットワークを介して離れた位置に設置される場合が多くなっている。このような運用形態においても、ネットワーク監視装置はデータセンター内に設置されることが多い。そしてデータセンター内の監視装置からサーバを監視しても、クライアントからサーバまでの経路が異なり、かつデーターセンター内は高速LANで接続されていてWAN回線より高速なので、その応答速度は、クライアント端末からの応答速度と異なることが多い。
またIPネットワークが進展したことにより、IPネットワーク上でVoIP電話を初めとする応答性能に敏感なアプリケーションが利用され初めている。従ってネットワークの応答遅延や、応答速度の揺らぎがアプリケーションの使用感を大きく左右するものが増えつつあり、応答性能の監視が重要になっている。
更に、中継路では2重化技術、動的経路変更技術などにより、冗長化がすすんでいる。従来の監視方法のみでは、ネットワーク機器が故障した場合に、故障によりバックアップ経路に切り替わったかどうかの判断を簡単な方法で行うことは困難で一次故障による影響範囲も判断しにくいという問題があった。
特開平11−4223号公報 特開平11−184781号公報 特開2001−356972号公報 「シンプルブック インターネット管理入門」M・T・Rose(プレンティスホール出版発行)発行1995年12月15日
従来の監視機構は上記のように構成されており、ある業務を成立させる(ある業務アプリケーションを正常に動作させる)のに必要な検査対象機器(サーバ、ルータ等)間の関連付けが弱いか、関連付けがあっても固定的にプログラムに組み込まれていた。このため、ある業務が停止した場合に、その原因を追及するためには、その業務に関連する(検査対象)機器(複数の場合が多い)を、ネットワーク管理者が類推特定し、それに対する各障害検査手段を適用し、障害を追求していかなければならず、解析・復旧に時間がかかるという課題がある。上記第3の従来例も、同様の課題がある。そもそもこうしたシステムは多重化されていることが多く、1つの障害で全てが使用不可になるのではなく、複数の障害によりダウンすることが多い。こうした場合に1つの障害を早めに取り除くことでシステムの信頼性が向上する。しかし従来の障害検出方式では、こうした障害の度合いは、まして判らないという課題がある。
この発明は上記の課題を解決するためになされたもので、監視装置により、事前に各検査対象機器、特にサーバとクライアントの端末間を結ぶ複数のルートの接続状態を知り、またルータ等の特定中継経路機器の状態を知り、システムの稼動状態を把握して、重大障害を事前に予防することを目的とする。
この発明に係るネットワーク監視システムは、所定のサーバに接続する中継路グループを構成する各機器に対して経路問合せを行う経路問合せ部と、経路問合せに対する応答結果をモニタするネットワークモニタ部と、応答結果を経路情報として記憶するネットワーク管理用データベースと、を備えて、前に記憶している経路情報と上記応答結果の経路情報とが異なると、変化した経路情報を送信する下位監視装置と、
上記下位監視装置からの上記経路の変化情報を受信して記憶する上位ネットワーク管理用データベースと、複数の上記下位監視装置からの上記上位ネットワーク管理用データベースに記憶した変化した経路情報が所定の基準値を超えると、基準値を超えた経路の関連情報を出力するデータ制御部と、を備えた上位監視装置と、で構成される。
上記のようにこの発明によれば、エッジ(下位)監視装置が定期的にルート情報を監視し、ルートの変更があれば直ちに統合ネットワーク(上位)監視装置に通報し、ルート接続状態と障害情報とを併せ出力するようにしたので、重大障害を予防できる効果がある。
実施の形態1.
実システムでは、冗長度のある機器構成と接続となっているので、単一の機器に障害が生じても、直ぐにはシステムに影響が現れず、しかしそれが進展すると重大障害となる事態が多々ある。ここでは、中央にあるサーバと末端にあるクライアントの端末間の、特に中継経路が多重化されているシステムについて、その状況を絶えず把握して、重大障害の可能性が生じた場合に直ちに障害部分を出力する形態を説明する。
図1は、本実施の形態における監視装置と監視対象グループとの接続関係を示すシステム構成図である。先ずシステムの構成を図1により説明する。図において、監視対象機器グループとしてこの場合には、エッジ監視装置からみたネットワークをクライアント端末近傍のクライアントネットワークグループ1、中継路グループ2、サーバグループ3の単位のグループとする。
各グループは更に、クライアントネットワークグループ1として複数のクライアント端末C 4aと下位監視装置の一種としてのエッジ監視装置5a、及びルータRc1a 11、Rc2a 12とで構成される。このようにルータまたはIPパケットルーティングをサポートするスイッチは冗長構成されていて、実アドレスに対して一つの仮想インタフェースが設定されている。組にしたアドレスには優先付けがされて仮想インターフェースにマッピングする優先度を定める(Active/Standby)。通常、クライアント端末に設定するデフォルトゲートウェイには仮想アドレスを設定する。VRRP/HSRPは仮想インタフェースに対する通信を正常動作している実インタフェースに対応させる役割をもつ。
また中継路グループ2として、異なる通信業者(ISPまたはInternet Service Provider)が提供するWAN等のネットワークISP−1 21、ISP−2 22、及びルータR1a 23、R2a 24、で構成される。サーバグループ3として、複数のサーバS1 6、S2 7とこれらを統合した仮想ホスト(VR−S)32と、スイッチまたはルータRs 31及びエッジ監視装置5と協働してネットワーク全体の状況を監視・制御する上位監視装置の一種としての統合ネットワーク監視装置8とで構成される。
また中継路グループ2と、その上位のサーバグループ3では、RIP(Routing Information Protocol)またはOSPF(Open Shortest Path First)等で代表されるダイナミックルーティング技術により、機器の故障時に2重化された経路の代替経路に自動的に切換わるようにネットワーク設計されている。
図2は下位監視装置であるエッジ監視装置5a等(以下、5で代表)、及び上位監視装置である統合ネットワーク監視装置8のハードウェア構成を示す図であり、典型的にはシステムバス51にCPU53とメモリ例えばRAM54と表示装置(DISP)52とキーボード等の入力インタフェース(I/F)55と、LAN11と接続する通信I/F56とハードディスク(HDD)57と、CDやFDやフラッシュメモリ等の外部記憶装置群と接続する外部記憶装置I/F58とが接続されている。
図3はエッジ監視装置5、及び統合ネットワーク監視装置8の、同じくソフトウェア構成を示す図であり、以下の各構成要素、例えば管理プロトコル制御部61は、図2に示すRAM54にプログラムとしてHDD57等から読込まれて図3に記載する機能を持つ。各ソフトウェア構成要素として、ICMPやSNMPやTELNET等のプロトコルを管理する管理プロトコル制御部61、通信回線等からのデータを制御し、また差異情報に基づいて統合ネットワーク監視装置8へ差異情報を送信するデータ制御部62、それらのデータに基づいて管理用のデータベースを構成するネットワーク管理用データベース(DB)63、モニタ結果も考慮して問合せ内容である構成・経路情報を作成・検索する構成・経路情報作成・検索(経路・機器問合せ)部64と、応答結果をモニタするネットワークモニタ部65と、性能計測部66と、ローカルな通信回線(LAN等)11に接続するIP通信ソフトウェア部67とで構成される。なおデータ制御部62は、統合ネットワーク監視装置8においては上位ネットワーク管理用データベース63のデータと基準値62bとに基づいてDISP52に情報を出力する。
なお、サーバグループ3に近いエッジ監視装置EM、またはサーバSが、他のエッジ監視装置EMからクライアントネットワークグループの障害報告を受けて蓄積して、統合ネットワーク監視装置の役割を果たす場合は、その装置が上位監視装置になる。
同様に、端末C等が図2のハードウェア構成を持ち、図3の機能を持てば、その端末が下位監視装置となる。
また図4は、障害通知時に、対応して監視装置から各監視対象グループに対して送信される問い合わせ内容の一例を示す検査内容テーブルであり、図5は中継路グループにおける経路特定の問い合わせ、応答を説明するための経路説明図であり、図6は装置間のシーケンスを示す図であり、図7はエッジ監視装置5と、統合監視装置8が行う動作を示すフローチャートである。
これらの図を用いて動作を説明する。問い合わせテーブルを示す図4において、各グループに対して異なる問い合わせを行うために、個々の監視対象を1つのグループにまとめて管理する、それぞれシステムでユニークな名前を付けられたグループ名71、グループの対象構成要素を抽出する式、例えばグループの構成要素を全てリストする方法や、SQLデータベースの検索式を指定するなどの対象抽出式の種別72、対象抽出式の種別がLISTなら要素名をあげ、SQLならその式を記載した対象抽出式73、監視コマンド74、及び監視コマンドに対応して発生させる発生イベント74を規定しておく。中継路グループ2に対する例では、$EMID、$IP、@ROUTE_IP等は(予約)変数であり、エッジ監視装置のID(識別子)、対象となっているIPアドレス、IPアドレスのリスト等が入る。
対象抽出式73について補足する。対象抽出式は対象をいくつかのグループにまとめて監視したい場合に、監視の対象を特定するための式である。
具体的には対象抽出式種別72で示されるように、監視対象を個別に指定してリストすることによりグループ化する方式(LIST)、SQL文によりデータベースから監視対象を抽出し、グループ化する方式(SQL)の他、経路情報のような場合はエンドノードを指定しその経路上の中継機器(ルータ等)を自動検出しグループ化する方式(GROUPED_BY_ENDNODE)などが考えられる。
また、発生イベント75について補足すると、監視コマンドの結果ステータスやエッジ監視装置の出力($EM_OUTPUT)等を使って、発生させるイベントを運用管理者が自由に変更することを可能なように実装することもできる。
エッジ監視装置5の構成・経路情報作成/検索(この場合は経路問合せ)部64は、例えば定期的に中継路グループ(ROUTE_GROUP)2に対して問合せ動作を開始する。
経路問合せの方法としてICMP TIME EXCEEDエラーを応用して行う方法を経路説明の図5とシーケンスを示す図6により説明する。図6において、先ず端末Cに代わってエッジ監視装置EMの構成・経路情報作成/検索部64はステップS81で、宛先アドレスをサーバS(インタフェースI1)、送信元アドレスをEM(I1)、ICMPヘッダーのTTL(Time To Live)値を初期値(=1)にしてサーバS宛にパケットを送信する。このパケットは送信元であるエッジ監視装置EMのメモリ上にあるルーティング情報に基づいて最初のルータRc(I1)に到達する。ルータRc(I1)は最終的な宛先アドレス(サーバS(I1))ではないため、ルータRcは次のルータに転送する準備を行う。ここでTTL値はルータを経由する際に1減らされるため、ルータRcでTTLは1減らされ0となる。
TTL値が0になるとS82で、ルータRcはICMP TIME−EXCEEDエラーを送信元アドレスにあるエッジ監視装置EMに返信して終了する(転送しなくなる)。
エッジ監視装置EMのネットワークモニタ部65はルータRcからICMP TIME−EXCEEDエラーを受信するが、エラーパケット内にはエラーを返したルータRc(I1)のIPアドレスが入っているため、これを調べることでエッジ監視装置EMからのホップ数(経由するルータの数)1のルータ(最も近いルータ)はルータRc(I1)であると判別できる。これをS81の開始時刻と共にネットワーク管理用データベース(DB)63に記録する。
次にエッジ監視装置EMの構成・経路情報作成/検索部64はネットワークモニタ部65からの通知を受けてS81と同様に、宛先アドレスをルータS1(I1)、送信元アドレスをエッジ監視装置EM(I1)、ICMPヘッダーのTTL値を前回設定した値(初期値)に1加えた値(2)に設定してS83でパケットを送信する。
このパケットはルータRc−I1で受信され、TTL値が1減らされる。ルータRcは内部に保持しているルーティング情報を検索し、サーバSに到達するための次のルータR1(I1)に同じS83でパケットを転送する。
このパケットを受信したルータR1でも、ルータRcが行ったと同様なTTL減算処理を行う。すると、ルータR1でTTL値が0となり、ルータR1からICMP TIME−EXCEEDエラーがS84でエッジ監視装置EMに送信される。
エッジ監視装置EMではこの受信により、TTL値2(すなわちホップ数2)のルータはルータR1(I1)であることがわかるので、これをS81の開始時刻と共にデータベースに記録する。
次にエッジ監視装置EMはTTL値を3にしてS85のように上記の手順を繰り返すと、ホップ数3のルータRs(I1)がわかるので、これを開始時刻とともにデータベースに記録する。
この手順をパケットがS85以降もサーバSに到達できるまで繰り返し、やがてS86でサーバSに到達し、レスポンスS87を得る。
こうして最終的には図5の経路I1の場合は、エッジ監視装置EM→ルータRc(I1)→ルータR1(I1)→ルータRs(I1)→サーバS(I1)と経路を確定することができる。
こうして図7で経路問い合わせ動作S91とネットワークモニタS92とを繰り返してサーバSまでの経路情報が蓄積されてS93でネットワーク管理用DB63に記憶されると、この経路情報はS94で統合ネットワーク監視装置M8に送信される。
統合ネットワーク監視装置8は、あるトリガ、例えば定期的にエッジ監視装置からの経路情報を収集する。勿論S94で記載のように、エッジ監視装置5が経路の変化を検出すると、その変化した経路情報を送信してくる。そして中継路のルータまたはスイッチ毎に所定の基準値62bを設定しておき、後で述べるようにそれに基いてDISP52にその超えたルータとその経路情報群を表示する。
一方、統合ネットワーク監視装置Mは、その構成・経路情報作成/検索(この場合は機器問合せ)部64により、従来の方式によりルータの各インタフェース(Rs(I1〜I4)、R1(I1〜I2)、R2(I1〜I2)、Rc(I1〜I3)にポーリングをかけることにより、障害を検出しているものとする。
ここでルータR1が停止(またはルータR1のインタフェースI1が停止でもよい)すると、ルータR1を経由していたエッジ監視装置EMまたは端末CからサーバSへの通信が一時的に途絶える。しかし、OSPF等のダイナミックルーティングプロトコルにより、システムとしては自動的にルートが切換わって、ルータRc(I3)からルータR2(I1)に転送されるようになる。
なお統合ネットワーク監視装置MからルータR1の故障は検出できるが、利用者端末CからサーバSに通信ができているかどうの判定は難しい。これを推定するアルゴリズムも幾つか提案されているが、制限付きの場合が多く、全てのネットワークに適用はできない。即ち、実際にはネットワークの冗長化は全ての部分で行われ、1つの中継ノードに接続する回線ももっと多いので複雑化であり、推定が難しい。従ってエッジ監視装置EMからの現在生きている経路情報が非常に重要である。
エッジ監視装置EMは各支店(クライアント)側に設置されており、各エッジ監視装置EM(n)は端末C(n)の代わりに定期的に経路探索を行っており、上記で説明した経路問合せにより、例えばルータRcからルータR2に転送されたS83’に対するルータR2からのエラー応答S84’により経路が変わったことを検知する。サーバSに到達するまでに経由するルータが全て判明したら、エッジ監視装置EMは最終的に得た経路の変化を統合ネットワーク監視装置Mに、到達確認を行わない通知型のプロトコルであるSNMP−TRAP、応答確認型のプロトコルであるSNMP−INFORM−REQUEST)またはXML形式の情報に変換してHTTPプロトコル等で送信する。TRAPで送信するデータとしては、例えば、ルートが変化した旨のメッセージ、エッジ監視装置EM5のID及びIPアドレス、宛先のIPアドレス、経由するルータのIPリスト(ホップ数1から順に)を、先に述べた図7のS94で送信する。
対応して統合ネットワーク監視装置8は、S96で各エッジ監視装置5からの経路情報を受けて、これらの経路情報をネットワーク管理用DB63に記憶する。
統合ネットワーク監視装置M8では、個別ポーリング監視方法等によりルータR1の故障を検出しているとする。即ちその構成・経路情報作成/検索部64は、図7のS97で機器問合せを行っている。この状態で更に、エッジ監視装置EM(n)からステップS96の変化した経路情報を受けることで、端末C(n)とサーバSとの経路は変更されたが、通信はできていると判断できる。言い換えれば、経路中に縮退動作をしている中継ノードがあることを表している。なお、このS96とS97のステップは、どちらを先に行ってもよいし、S97は常に行うようにしなくてもよい。
この切換えが一つの支店(クライアントネットワークグループ)からの経路であればまだ余裕があるかも知れないが、幹線経路を多数の支店が共用していて、冗長ルータの一部が故障している状態(縮退運転状態)であると、現状では各支店からサーバに通信は出来ていても、次に重大障害が発生する可能性を持っている。そこでS98において統合ネットワーク監視装置8のデータ制御部62は、各支店とサーバ間で行われている支所からの通信経路毎の経路使用数を加算して、支店から使用する経路数が基準値62bより多くなる経路があると、その支店からの経路数が多くなった経路またはルータを画面上線路の色を変えるなどしてその影響・状況を表示することができる。図7でエンドからスタートへ戻るループは、問合せ等の動作が定期的に繰返されることを意味している。
例えば図1において、ルータR1aに障害が発生して、それまで太い実線で示される経路で通信を行っていた支店端末4a(即ち、EM5a)が点線経路のルータR2a経路に変ると、ルータR2aとルータRs間の経路数は2になる。そして基準値が2であると、この経路をアラーム表示する。同時に支店端末4bからルータR1a経由の太い実線経路も、ルータR1b経由の点線経路に変り、変更前経路を点滅させ、または変更後経路を別色の実線表示で表示する、等の注意表示を行う。これによりルータR1a 23に障害が生じていることが推定でき、構成・経路情報作成/検索部64での、それまで使用されていたルータが代替された情報によりそのルータに対する検索を行うプログラムにより図7のS97で、ルータR1a 23にポーリングをかけて、時間を置かずルータR1aの機器障害を確認できる。そして基準値62b以上に支店が集中して使用する経路があって、同時にその近辺で障害がある機器があると、その機器は早急に復旧が必要であると判る。
なお必要があれば支店の重要度(大規模店など)に応じて支店毎の経路に重み付けして、重み付け係数付きで経路数を加算して加算合計経路数を得るようにしてもよい。
こうして表示形式や表示色の変化で重大障害の発生可能性を出力し、障害機器の早期置き換えの必要性が迅速かつ容易にわかる。
また、統合ネットワー監視装置8において、宛先サーバ毎に、関連する各中継機器を、各中継機器の(重み付け係数付き経路数を加算した)加算合計経路数に基づいてソートし、昇順(重要度順)にならべて表示すること(TopN表示)で、ネットワーク上で重要な中継機器を俯瞰的に把握することができるネットワーク運用管理上の効果がある。
さらに、別途収集可能な各中継機器の冗長度設定情報を加えて表示することもできる。こうすることで経路上重要な中継器とその冗長度がわかり、重要な中継機器に対するバックアップ設定ができているかどうかを確認することもできる。
本ケースはルータR1の全面障害の場合で説明したが、ルータR(n)のバグや設定ミスによって、経路が不安定になり、経路のフラッピング(一定周期で経路が切り替わる)などの現象が生じる場合がある。このような現象は従来のポーリング手法では検出が難しく(経路フラップの場合は統合ネットワーク監視装置M8からのポーリングには、リトライによって応答してしまう場合が多い)、上記の手順によるルート検出情報を統合ネットワーク監視装置へ上げるシステム・方法が有効である。即ち途中の機器の応答が不安定である場合でも、上記したように各エッジ監視装置5からの経路情報を収集して、統合的な経路上の機器の動作を把握できる。
上記図5と図6による経路検索は、ICMP TIME EXCEEDエラーによる方法であった。これをSNMPで行うことも出来る。
即ち各ルータのSNMP MIBを調査し、各ルータのip Route Dest,ip Route IF Index,ip Route NextHop MIB(RFC1213)を順次読みとり、これを監視装置の構成データベースに反映させることで経路を特定する方法もある。しかしこの方法は、ルータでSNMPエージェントモジュールが動作していなかったり、適切なアクセス権限(コミュニティパスワード)がないと適用できない等の制約があり、ICMP方式の方が好ましい。
なおシステムによっては、現用系から予備系への切換わりに時間がかかり場合があり、アプリケーションによってはこの予備系への移行時間内にタイムアウトとなって、見かけ上は不具合に見えることもある。しかし上記の構成と動作によると、統合ネットワーク監視装置8が出力する経路情報と故障機器とを見れば、アプリケーションの不具合か、経路変更または機器の不具合かが判定できる。
実施の形態2.
上記の実施の形態では、ルート情報に変更があった場合に統合ネットワーク監視装置で複数のエッジ監視装置からのルート情報と、それらに基づく障害機器とを出力してシステム上の重大障害予防を行う動作を説明した。ここではルート情報に変更が無くて、システムの応答が悪くなった場合に障害部分を推測する構成と動作を説明する。
システム構成は図1と同様である。またエッジ監視装置5aには、性能計測部66があり、またネットワーク管理用データベース63には、応答時間を計測する対象となるサーバ6のIPアドレスまたはホスト名、及び計測周期、計測プロトコル、TRAP敷居値、パケットサイズ等が設定されている。
次にこの構成による動作を説明する。
定期的に、または機器からの応答がシステムで定めた遅延時間を超すと、エッジ監視装置5aの性能計測部66は、例えば、計測プロトコルが‘IP(ICMP)’の場合は指定されたサイズのICMPパケット要求をサーバ6に送信し、その応答時間を計測する。そして先の実施の形態で述べた動作と同様に、各ルータ等のどの部分がボトルネックになっているか、性能劣化があるのか、応答時間が計測できる。計測した値は、エッジ監視装置5a内のデータベース(リレーショナルデータベースであることが多い)に記録する。図1の構成では、ネットワーク管理用DB63に計測した値がTRAPしきい値(所定基準値)を超えている場合は、内部的に性能劣化をログに記録する(SNMP−TARPを内部的に発生させ、TRAPログに記録することが多い)と共に、統合ネットワーク監視装置8に対してもSNMP−TRAP(またはSNMP−INFORM−ERQUEST/RESPONSE等の別の通知手段)により、しきい値を超えてネットワーク性能の劣化が起こったことを通知する。TRAPの通知パケットには、性能劣化が起こった監視対象のIPアドレスの他、エッジ監視装置のIDやエリア情報を付加して送信する。
遅延情報を通知すべき統合ネットワーク監視装置8のアドレス等は、エッジ監視装置5aに事前に定義されているものとする。
なお、計測プロトコルはICMPプロトコル他、HTTP(WEB)、SMTP(メール)、その他のアプリケーション(UDP/TCPポート)であってもよい。
HTTP−GETであれば、URLを指定してそのページが表示される時間を計測することができる。
なおポーリングを定期的に行うことは、通信経路の利用効率を低下させることになる。従って定期的に行うのは、実は終端ノードのみにICMPエコー要求/応答パケットを用いて監視する。そして一定の性能以下に低下した場合に、サーバに向けて関連する経路をたどって順次、機器の応答性能を計測する。
こうして中継路グループ2に性能低下が無ければ、システムの性能低下はサーバ側の障害またはサーバ負荷増大によることが推定される。
いずれにせよ、統合監視装置8では、各クライアントネットワークグループ1に設けたエッジ監視装置5からの性能報告情報を出力して、しきい値を超えて性能低下した場合でも、その原因が経路上のどの部分がボトルネックであるか経路情報を出力して、または経路情報が基準値62bに満たない場合はサーバ側に問題があると出力して、重大障害に至る前に注意を喚起できる効果がある。
実施の形態3.
上記の各実施の形態では、エッジ監視装置5と統合ネットワーク監視装置8の各構成要素は、専用の要素であるとして説明した。
しかし、汎用の計算機でこれらの構成要素の機能、図7の各ステップをプログラムでステップとして記述して、メモリ上に記憶してエッジ監視装置相当を構成してもよい。つまり図6に記載の中継路への問合せを行い、また応答をモニタして設定変更とデータ記憶を行って経路問合せを繰返し、トリガで指定されるか、または経路変更を検出すると、統合ネットワーク監視装置8に向けて経路変更情報を送信する、各ステップを備える。
また統合ネットワーク監視装置についても同様であり、機器問合せを行い、縮退動作を検出して、または所定のトリガで使用経路数が基準値を超えることを検出すると、その経路情報と障害と推定される機器を出力するステップ、つまりS91ないしS98のステップを備える。
このようにしても、上記の各実施の形態と同様の効果が得られる。
この発明の実施の形態1における監視装置と監視対象との接続関係を示すシステム構成図である。 実施の形態1等における監視装置のハードウェア構成を示す図である。 実施の形態1等における監視装置のソフトウェア構成を示す図である。 実施の形態1等における検査内容テーブルの例を示す図である。 実施の形態1等の中継路グループにおける経路特定の問合せ、応答を説明するための経路説明図である。 実施の形態1等における装置間のシーケンスを示す図である。 実施の形態1等における監視装置の動作を示すフロー図である。
符号の説明
1,1a クライアントネットワークグループ、2 中継路グループ、3 サーバグループ、4,4a,4b,4c 端末(C)、5,5a,5b,5c エッジ(下位)監視装置(EM)、6 サーバS1、7 サーバS2、8 統合ネットワーク(上位)監視装置(M)、10 LAN,11 ルータRc1a、12 ルータRc2a、21 ISP−1、22 ISP−2、23 ルータR1a、24 ルータR2a、31 ルータRs、32 VR−S、51 システムバス、52 表示装置(DISP)、53 CPU、54 RAM、55 入力I/F、56 通信I/F、57 ハードディスク(HDD)、58 外部記憶装置I/F、61 管理プロトコル制御部、62 データ制御部、62b 基準値、63 ネットワーク管理用データベース(DB)、64 構成・経路情報作成/検索部、65 ネットワークモニタ部、66 性能計測部、67 IP通信ソフトウェア部、S91 経路問い合わせステップ、S92 経路モニタ結果蓄積ステップ、S93 DB記憶ステップ、S94 経路情報送信ステップ、S96 DB記憶ステップ、S97 危機問合せステップ、S98 基準値を超える機器,経路情報出力ステップ。

Claims (1)

  1. クライアント端末からサーバまでの1つ以上のルータを経由する経路を示す経路情報であって、上記1つ以上のルータを示すリストを含む経路情報記憶するネットワーク管理用データベースと、
    上記クライアント端末からサーバまでの経路の変化を通知するメッセージと、経路の変化後に経由する1つ以上のルータを示すリストとを含む変化した経路情報を通信回線を介して受信するインターネットプロトコル(IP)通信ソフトウェア部と、
    上記IP通信ソフトウェア部が受信した変化した経路情報が含む1つ以上のルータを示すリストから上記クライアント端末からサーバまでの経路の変化後に使用する経路使用数を求め、求めた経路使用数とあらかじめ記憶した所定の基準値とを比較して経路使用数が上記所定の基準値を超える場合、上記所定の基準値を超える上記変化した経路情報が含む1つ以上のルータを示すリストに基づく経路と、上記ネットワーク管理用データベースに記憶された経路情報が含む1つ以上のルータを示すリストに基づく経路とを表示装置に表示するデータ制御部
    を備えたことを特徴とするネットワーク上位監視装置。
JP2004333825A 2004-11-18 2004-11-18 ネットワーク上位監視装置 Expired - Fee Related JP4464256B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004333825A JP4464256B2 (ja) 2004-11-18 2004-11-18 ネットワーク上位監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004333825A JP4464256B2 (ja) 2004-11-18 2004-11-18 ネットワーク上位監視装置

Publications (2)

Publication Number Publication Date
JP2006148376A JP2006148376A (ja) 2006-06-08
JP4464256B2 true JP4464256B2 (ja) 2010-05-19

Family

ID=36627562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004333825A Expired - Fee Related JP4464256B2 (ja) 2004-11-18 2004-11-18 ネットワーク上位監視装置

Country Status (1)

Country Link
JP (1) JP4464256B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4648246B2 (ja) * 2006-06-08 2011-03-09 日本電信電話株式会社 経路数監視装置及び経路数監視方法並びに経路数監視プログラム
JP2008287672A (ja) * 2007-05-21 2008-11-27 Hitachi Ltd 計算機システムの管理装置及び方法
JP2009165028A (ja) * 2008-01-09 2009-07-23 Fujitsu Ltd ネットワーク監視装置、ネットワーク監視システム、ネットワーク監視方法およびネットワーク監視プログラム
JP5035219B2 (ja) * 2008-11-06 2012-09-26 富士通株式会社 通信経路検出方法、通信経路検出プログラム、および通信経路検出装置
JP5440200B2 (ja) * 2010-01-19 2014-03-12 富士通株式会社 中継装置及び帯域制御方法
JP5581487B2 (ja) 2010-04-14 2014-09-03 株式会社Pfu 監視装置、監視方法、及びプログラム
JP5514153B2 (ja) * 2011-05-13 2014-06-04 株式会社東芝 伝送装置、中継装置、監視制御装置、ipネットワークシステム及びネットワーク機器生存確認方法
JP2013030826A (ja) * 2011-07-26 2013-02-07 Ricoh Co Ltd ネットワーク監視システム、ネットワーク監視方法
JP6629174B2 (ja) * 2016-12-05 2020-01-15 Kddi株式会社 通信監視装置、通信監視方法及び通信監視プログラム
CN111049881B (zh) * 2019-10-30 2022-07-22 烽火通信科技股份有限公司 一种云平台节点资源监控方法、系统及计算机可读介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321760A (ja) * 1996-05-31 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 経路情報監視方法及びシステム
JP2000324106A (ja) * 1999-05-14 2000-11-24 Nec Corp ネットワーク障害検出方式
US20030023716A1 (en) * 2001-07-25 2003-01-30 Loyd Aaron Joel Method and device for monitoring the performance of a network

Also Published As

Publication number Publication date
JP2006148376A (ja) 2006-06-08

Similar Documents

Publication Publication Date Title
US11038744B2 (en) Triggered in-band operations, administration, and maintenance in a network environment
US7974219B2 (en) Network troubleshooting using path topology
Yan et al. G-rca: a generic root cause analysis platform for service quality management in large ip networks
Shaikh et al. OSPF Monitoring: Architecture, Design, and Deployment Experience.
EP2920917B1 (en) Characterizing service levels on an electronic network
US8976681B2 (en) Network system, network management server, and OAM test method
WO2021018309A1 (zh) 报文传输路径确定方法、装置及系统、计算机存储介质
WO2006028808A2 (en) Method and apparatus for assessing performance and health of an information processing network
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
CN111030873A (zh) 一种故障诊断方法及装置
JP5617304B2 (ja) スイッチング装置、情報処理装置および障害通知制御プログラム
JP4464256B2 (ja) ネットワーク上位監視装置
JP2010034876A (ja) 障害監視サーバおよびネットワーク障害監視システム。
JP5842641B2 (ja) 通信システム、および生成装置
JP4861293B2 (ja) 通信装置、通信方法および通信プログラム
JP5035219B2 (ja) 通信経路検出方法、通信経路検出プログラム、および通信経路検出装置
US7724659B2 (en) Network-based autodiscovery system for MAC forwarding dispatcher
EP1262040B1 (en) Non-fault tolerant network nodes in a multiple fault tolerant network
KR20050002263A (ko) 망 관리에서의 장애 관리 시스템 및 그 방법
JP2006157313A (ja) 経路作成システム、経路作成装置及び経路作成プログラム
JP5653947B2 (ja) ネットワーク管理システム、ネットワーク管理装置、ネットワーク管理方法及びネットワーク管理プログラム
US20230254227A1 (en) Network monitoring device, network monitoring method, and network monitoring program
EP3474489B1 (en) A method and a system to enable a (re-)configuration of a telecommunications network
Song et al. Internet router outage measurement: An embedded approach
JP2015035678A (ja) ネットワークシステム、経路の監視方法、及び中継装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees