JP2013207367A - ネットワーク障害監視装置およびネットワーク障害監視方法 - Google Patents

ネットワーク障害監視装置およびネットワーク障害監視方法 Download PDF

Info

Publication number
JP2013207367A
JP2013207367A JP2012071479A JP2012071479A JP2013207367A JP 2013207367 A JP2013207367 A JP 2013207367A JP 2012071479 A JP2012071479 A JP 2012071479A JP 2012071479 A JP2012071479 A JP 2012071479A JP 2013207367 A JP2013207367 A JP 2013207367A
Authority
JP
Japan
Prior art keywords
reception
transmission
monitoring
thread
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012071479A
Other languages
English (en)
Other versions
JP5476415B2 (ja
Inventor
Naoki Tateishi
直規 立石
Taku Kihara
拓 木原
Mitsuo Tawara
光穂 田原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012071479A priority Critical patent/JP5476415B2/ja
Publication of JP2013207367A publication Critical patent/JP2013207367A/ja
Application granted granted Critical
Publication of JP5476415B2 publication Critical patent/JP5476415B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】ネットワーク障害監視装置内のリソースの使い切りによる処理性能の低下を防ぎ、かつ、トータルでネットワーク装置の監視に要する時間を短縮する。
【解決手段】ネットワーク障害監視装置1は、ネットワークの装置群を監視する複数の監視パケット送受信スレッド23(#1)〜(#n)と、その複数の監視パケット送受信スレッド23のパケットの送受信処理の開始や終了を管理する送受信スレッド群管理部22とを備える。送受信スレッド群管理部22は、監視パケット送受信スレッド23の1つが監視パケットの最終再送後の応答待ちに入った時点で、他の監視パケット送受信スレッド23の送受信処理を開始させる。また、送受信スレッド群管理部22は、送受信処理を実行中の監視パケット送受信スレッド23の数を、送信中スレッド最大数以下になるように制御する。
【選択図】図2

Description

本発明は、ネットワークからデータを収集し、ネットワークに発生する障害を監視する、ネットワーク障害監視装置およびネットワーク障害監視方法に関する。
ネットワークを運用、管理する場合においては、ネットワークで発生する障害を検出等するため、ネットワーク内の装置(ネットワーク装置)やそのパッケージ(装置内の部品)の稼動の確認や、CPU(Central Processing Unit)、メモリの稼動状態、装置間のトラフィック量等の情報の収集が行われる。このうち、装置等の稼動確認にはICMP(Internet Control Message Protocol:非特許文献1)によるping(Packet INternet Groper)ツール、CPU、メモリ等の情報の収集にはSNMP(Simple Network Management Protocol:非特許文献2)ツール、といったポーリングによる監視ツールが主に用いられる。
このpingやSNMP等を用いた一般的な監視ツール群では、1装置ずつ稼動確認や情報収集を実行する。このとき、監視ツール群には、監視対象装置のIP(Internet Protocol)アドレス等の一意なキーと、情報を収集するために必要なオプション(例えば、再送回数やタイムアウト時間等)が情報として渡される。監視ツール群からは、装置の稼動の有無や稼動状況等に関する要求情報が送信され、各装置から応答情報を受信することにより、各装置を監視する。
"INTERNET CONTROL MESSAGE PROTOCOL",[online], September 1981, IETF RFC792, [平成24年3月12日検索],インターネット<URL:http://www.ietf.org/rfc/rfc792.txt> "An Architecture for Describing Simple Network Management Protocol (SNMP) Management Frameworks",[online], December 2002, IETF RFC3411, [平成24年3月12日検索],インターネットURL:http://www.ietf.org/rfc/rfc3411.txt>
近年、VPN(Virtual Private Network)の普及やネットワークの規模拡大に伴い、ネットワーク管理においては、多くのネットワークに属する多くの装置を監視しなければならなくなってきている。そこで、従来の監視ツールの単独実行では、要求時間内に1監視サイクルを終了できない場合や、相互にパケットの到達性が無い複数のネットワークを監視する場合等は、1つのサーバ内で監視ツールを多重起動させ、それぞれの監視ツールに監視対象装置群を割り当て、並列実行させることが多い。
しかしながら、多重起動数を増やすと、それに応じてトータルの性能は高くなるが、サーバ内のリソースを使い切ると、それ以降は起動数を増やしてもタスク切り替え等のオーバーヘッドが増大することから、結果としてトータルの性能が低下することになる。図6に示すように、例えば、監視ツール(#1〜#n)の処理負荷をそれぞれ「3」とし、CPUコアの処理能力を「10」とすると、CPUコアを2台備えるネットワーク監視サーバでは、10×2<3×nとなるような状況において、監視ツールの起動数をさらに増やしても(nを7以上)、サーバの処理能力を超えるため、全体としての性能は低下してしまう。
このような背景に鑑みて本発明がなされたのであり、本発明は、ネットワーク障害監視装置内のリソースの使い切りによる処理性能の低下を防ぎ、かつ、トータルでネットワーク装置の監視に要する時間を短縮することができる、ネットワーク障害監視装置およびネットワーク障害監視方法を提供することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、複数のネットワーク装置から構成される複数の装置群と接続され、前記装置群に対しパケットを送受信することによりネットワークに発生する障害を監視するネットワーク障害監視装置であって、監視対象となる装置群の情報が格納される監視対象装置情報と、前記パケットを送受信する監視パケット送受信スレッドを同時に稼動可能な最大数を示す送信中スレッド最大数を含むスレッド制御情報と、を記憶する記憶部と、前記パケットの送受信処理を実行し、前記装置群毎に障害の発生を監視する複数の前記監視パケット送受信スレッドと、前記複数の監視パケット送受信スレッドの前記パケットの送受信処理の開始を少なくとも制御する送受信スレッド群管理部と、を備え、前記監視パケット送受信スレッドが、前記監視対象の装置群の1つに対し、前記監視対象装置情報に基づき、監視パケットを送信し前記監視パケットに対応する応答パケットを受信する前記パケットの送受信処理を繰り返し、前記応答パケットを受信できない場合に、前記監視パケットを所定の回数再送し、前記所定の回数の最終再送を実行したとき、最終応答待ちに入ったことを示す最終応答待ちメッセージを前記送受信スレッド群管理部に送信し、前記送受信スレッド群管理部が、前記最終応答待ちメッセージを受信すると、前記パケットの送受信処理を現在実行していない他の前記監視パケット送受信スレッドに実行させた場合に、前記送信中スレッド最大数を超えるか否かを判定し、前記送受信スレッド最大数を超えない場合に、前記他の監視パケット送受信スレッドに送受信開始メッセージを送信し、前記他の監視パケット送受信スレッドが、前記送受信開始メッセージを受信し、前記監視対象装置情報に基づき、まだ監視が実行されていない前記監視対象の装置群の1つに対し、前記パケットの送受信処理を開始することを特徴とするネットワーク障害監視装置とした。
また、請求項4に記載の発明は、複数のネットワーク装置から構成される複数の装置群と接続され、前記装置群に対しパケットを送受信することによりネットワークに発生する障害を監視するネットワーク障害監視装置のネットワーク障害監視方法であって、前記ネットワーク障害監視装置が、監視対象となる装置群の情報が格納される監視対象装置情報と、前記パケットを送受信する監視パケット送受信スレッドを同時に稼動可能な最大数を示す送信中スレッド最大数を含むスレッド制御情報と、を記憶する記憶手段と、前記パケットの送受信処理を実行し、前記装置群毎に障害の発生を監視する複数の前記監視パケット送受信スレッドと、前記複数の監視パケット送受信スレッドの前記パケットの送受信処理の開始を少なくとも制御する送受信スレッド群管理手段と、を備えており、前記監視パケット送受信スレッドが、前記監視対象の装置群の1つに対し、前記監視対象装置情報に基づき、監視パケットを送信し前記監視パケットに対応する応答パケットを受信する前記パケットの送受信処理を繰り返し、前記応答パケットを受信できない場合に、前記監視パケットを所定の回数再送し、前記所定の回数の最終再送を実行したとき、最終応答待ちに入ったことを示す最終応答待ちメッセージを前記送受信スレッド群管理手段に送信するステップを実行し、前記送受信スレッド群管理手段が、前記最終応答待ちメッセージを受信すると、前記パケットの送受信処理を現在実行していない他の前記監視パケット送受信スレッドに実行させた場合に、前記送信中スレッド最大数を超えるか否かを判定し、前記送受信スレッド最大数を超えない場合に、前記他の監視パケット送受信スレッドに送受信開始メッセージを送信するステップを実行し、前記他の監視パケット送受信スレッドが、前記送受信開始メッセージを受信し、前記監視対象装置情報に基づき、まだ監視が実行されていない前記監視対象の装置群の1つに対し、前記パケットの送受信処理を開始するステップを実行することを特徴とするネットワーク障害監視方法とした。
このようにすることで、ネットワーク障害監視装置は、装置群を監視している監視パケット送受信スレッドが、監視パケットの所定の回数の最終転送を実行したとき、最終応答待ちに入ったことを示す最終応答待ちメッセージを送受信スレッド群管理部に送信する。送受信スレッド群管理部は、送受信スレッド最大数を超えない場合に、他の監視パケット送受信スレッドに対し送受信開始メッセージを送信して、監視対象の装置群の1つについて送受信処理を開始させる。よって、ネットワーク内の装置群に対するトータルの監視時間を短縮することができる。
また、送受信スレッド群管理部は、送信中スレッド最大数を超えない場合に、他の監視パケット送受信スレッドに対し送受信開始メッセージを送信することにより、ネットワーク障害監視装置内のリソースの使い切りによる処理性能の低下を防ぐことができる。
請求項2に記載の発明は、前記監視パケット送受信スレッドが、送信処理部と受信処理部とを備え、前記送信処理部が、前記監視対象の装置群に対する前記監視パケットの送信処理を実行し、前記受信処理部が、前記応答パケットの受信処理を実行し、前記送信処理部が、前記所定の回数の前記監視パケットの最終再送を実行したとき、前記最終応答待ちメッセージを前記送受信スレッド群管理部に送信することを特徴とする請求項1に記載のネットワーク障害監視装置とした。
このようにすることで、監視パケット送受信スレッドは、パケットの送受信処理を、送信処理部が行う監視パケットの送信処理と、受信処理部が行う応答パケットの受信処理と分けて実行させることができる。よって、監視パケット送受信スレッドは、監視パケットの最終再送後の最終応答待ち完了を待たずに、最終応答待ちに入った時点で、受信処理部による、送受信スレッド群管理部への最終応答待ちメッセージの送信を実行させることができる。
請求項3に記載の発明は、前記送受信スレッド群管理部が、現時点で前記パケットの送受信処理を実行している前記監視パケット送受信スレッドの数を、使用中スレッド管理用変数として記憶しており、前記監視パケット送受信スレッドから、前記最終応答待ちメッセージを受信すると、前記使用中スレッド管理用変数を1減算し、前記他の監視パケット送受信スレッドに前記送受信開始メッセージを送信するに際し、前記使用中スレッド管理用変数を1加算し、前記1加算した後の使用中スレッド管理用変数が、前記送受信スレッド最大数を超えない場合に、前記他の監視パケット送受信スレッドに送受信開始メッセージを送信することを特徴とする請求項1または請求項2に記載のネットワーク障害監視装置とした。
このように、送受信スレッド群管理部が、使用中スレッド管理用変数を記憶することにより、送信中スレッド最大数を超えないように、現時点でパケットの送受信を実行している監視パケット送受信スレッドの数を、制御することができる。
本発明によれば、ネットワーク障害監視装置内のリソースの使い切りによる処理性能の低下を防ぎ、かつ、トータルでネットワーク装置の監視に要する時間を短縮することができる、ネットワーク障害監視装置およびネットワーク障害監視方法を提供することができる。
本実施形態に係るネットワーク障害監視装置の処理概要を説明するためのシーケンス図である。 本実施形態に係るネットワーク障害監視装置の構成例を示す機能ブロック図である。 本実施形態に係る監視対象装置情報のデータ構成の一例を示す図である。 本実施形態に係るネットワーク障害監視装置の送受信スレッド群管理部が行う処理の流れを示すフローチャートである。 本実施形態に係るネットワーク障害監視装置が行う処理の具体例を示すシーケンス図である。 監視ツールを多重起動させた従来のネットワーク監視サーバの例を説明するための図である。
次に、本発明を実施するための形態(以下、「本実施形態」という)におけるネットワーク障害監視装置1等について説明する。
<概要>
まず、本実施形態に係るネットワーク障害監視装置1が実行する処理の概要について説明する。ネットワーク障害監視装置1は、ポーリングによりネットワークの装置群を監視する複数のスレッド(後記する「監視パケット送受信スレッド23」)を備える。また、各スレッドは送信部と受信部とを分離して備える(後記する、「送信処理部231」と「受信処理部232」)。
そして、各スレッド(監視パケット送受信スレッド23)の送信部が、監視対象装置に対してパケット(以下、「監視パケット」という場合がある)を周期的に(連続して)送信し、受信部が、監視対象装置から返信されるパケット(以下、「応答パケット」という場合がある)を連続受信する。ネットワークにおいては、監視対象装置の一部が故障等することにより、応答パケットが返信されないことがある。このため、各スレッド(監視パケット送受信スレッド23)の受信部では、稼動している装置からの応答パケットの受信後、所定時間を過ぎても次の応答パケットを受信できないこと、または、送信部からの監視パケットの送信の後、所定時間を過ぎても対応する応答パケットを受信できないこと、を検知して応答パケットの受信待ちを終了する。そして、受信部が応答パケットを受信できない場合に、各スレッド(監視パケット送受信スレッド23)は、送信部による監視パケットの再送処理を所定の回数に亘って実行する。
このスレッド(監視パケット送受信スレッド23)の受信部(受信処理部232)が、応答パケットの受信待ちの状態に入ると、ネットワーク障害監視装置1のリソースをほとんど消費しない。
また、一般的には、再送回数を重ねる度に、応答パケットが返信される可能性が減少するため、所定の再送回数における最終再送では、監視パケットを送信しても応答パケットを受信できる可能性は極めて低く、最終再送後の応答待ち(受信処理のみ)の時間は、リソース消費が少なくなる。このため、本実施形態に係るネットワーク障害監視装置1では、ある監視対象の装置群に対する送受信処理の最終再送後の応答待ちの入る時点で、他の監視対象の装置群に対する送受信処理を開始し、ネットワーク障害監視装置1全体としての障害監視の処理時間を短縮する。
図1は、本実施形態に係るネットワーク障害監視装置1の処理概要を説明するためのシーケンス図である。
本実施形態1に係るネットワーク障害監視装置1は、装置群をポーリングにより監視する監視パケット送受信スレッド23を「n」個立ち上げ、そのうち、ネットワーク障害監視装置1のリソースを使い切らないように予め設定された送信中スレッド最大数「M」以下の監視パケット送受信スレッド23を使用して、監視パケットおよび応答パケットの送受信処理を行う。
また、ネットワーク障害監視装置1は、各監視パケット送受信スレッド23の送受信処理の開始や終了等を制御する送受信スレッド群管理部22を備える。そして、この送受信スレッド群管理部22が、現時点で送受信処理を実行している監視パケット送受信スレッド23の数を、使用中スレッド管理用変数「D」として記憶することにより、送受信処理を実行中の監視パケット送受信スレッド23の数が、送信中スレッド最大数「M」以下となるように制御する。
ネットワーク障害監視装置1では、図1に示すように、例えば、監視パケット送受信スレッド23(#1)が、最終再送を実行し、最終応答待ちに入ると(ステップS1)、監視パケット送受信スレッド23(#1)から、送受信スレッド群管理部22に向けて、最終再送後の最終応答待ちに入ったことを示す最終応答待ちメッセージ(MSG_FIN_SEND)が送信される(ステップS2)。
送受信スレッド群管理部22は、最終応答待ちメッセージを受信すると、使用中スレッド管理用変数「D」を「1」減算し(ステップS3)、新たな監視対象の装置群の情報を未使用の他の監視パケット送受信スレッド23(ここでは、「#M+1」)に割り当て、使用中スレッド管理用変数Dに「1」加算し(ステップS4)、割り当てた監視パケット送受信スレッド23(#M+1)に向けて、送受信開始メッセージ(MSG_START_SEND)を送信する(ステップS5)。そして、監視パケット送受信スレッド23(#M+1)は、送受信開始メッセージ(MSG_START_SEND)を受信し、監視対象の装置群に対する送受信処理を開始する(ステップS6)。
一方、監視パケット送受信スレッド23(#1)は、所定時間の経過後に最終応答待ちを完了し(ステップS7)、監視対象の装置群についての監視結果を示す結果通知メッセージ(MSG_RESULT)を送受信スレッド群管理部22に送信する(ステップS8)。
このように、ネットワーク障害監視装置1は、監視パケット送受信スレッド23(#1)の最終応答待ちの完了(ステップS7)を待たずに、最終再送を実行し最終応答待ちに入った時点において(ステップS1)、他の監視パケット送受信スレッド23(#M+1)の送受信処理を開始(ステップS6)することができる。従って、ネットワーク障害監視装置1のトータルの監視時間を短縮することができる。
また、ネットワーク障害監視装置1は、送受信処理中となる監視パケット送受信スレッド23の数を、使用中スレッド管理用変数「D」を用いて管理することにより、送信中スレッド最大数「M」を超えないように制御することができる。従って、ネットワーク障害監視装置1内のリソースの使い切りによる処理性能の低下を防ぐことができる。
以下、具体的に、ネットワーク障害監視装置1の構成および処理について説明する。
<ネットワーク障害監視装置の構成>
図2は、本実施形態に係るネットワーク障害監視装置1の構成例を示す機能ブロック図である。
ネットワーク障害監視装置1は、ネットワーク内の各装置の稼動状態を監視する装置であり、入出力部10と、制御部20と、記憶部30とを備える。
入出力部10は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力手段やモニタ等の出力手段等との間で情報の入出力を行う入出力インタフェースとから構成され、情報入力部11、結果出力部12および装置アクセス部13(#1〜#n)を備える。
情報入力部11は、キーボード等の入力手段(不図示)や、ネットワーク管理装置(不図示)に格納された監視対象装置ファイル等から、後記する監視対象装置情報310やスレッド制御情報320を受信し、制御部20(後記する「監視対象装置解析部21」)に引き渡す。なお、監視対象装置情報310およびスレッド制御情報320は、監視対象装置解析部21により記憶部30に記憶される。
図3は、本実施形態に係る監視対象装置情報310のデータ構成の一例を示す図である。
図3に示すように、監視対象装置情報310には、ネットワーク障害監視装置1が監視対象とする装置群のネットワーク内における固有な番号である装置群番号311毎に、その装置群に含まれる各ネットワーク装置のIPアドレス312が記憶される。
また、スレッド制御情報320は、制御部20内で起動するスレッド(「監視パケット送受信スレッド23」)の数である起動スレッド数(NUM_THREAD_ON)「n」、および、実際にパケットの送受信処理を実行するスレッドの同時に稼動可能な最大数を示す送信中スレッド最大数(MAX_NUM_THREAD_SEND)「M」を含む情報である。スレッド制御情報320のその他の情報として、例えば、パケットの再送回数や、タイムアウト時間等を含むことができる。
図2に戻り、結果出力部12は、制御部20(後記する「送受信スレッド群管理部22」)から、各装置群に対する監視結果を取得し、モニタ等の出力手段(不図示)に出力したり、ネットワーク管理装置(不図示)の試験結果ファイル等に、その監視結果を出力したりする。
装置アクセス部13(#1〜#n)は、制御部20内の後記する監視パケット送受信スレッド23(#1〜#n)に対応付けて設けられる通信インタフェースであり、ネットワーク内の監視対象となる装置群(#1〜#n)の各装置に対して、監視のためのパケットの送受信を行う。
制御部20は、ネットワーク障害監視装置1全体の制御を司り、監視対象装置解析部21と、送受信スレッド群管理部22と、監視パケット送受信スレッド23(#1〜#n)とを含んで構成される。
監視対象装置解析部21は、情報入力部11から、監視対象装置情報310やスレッド制御情報320等の情報を取得し、取得した情報のフォーマット等が正しいか否かを解析した上で、正しい場合は、取得した情報を記憶部30に記憶する。なお、監視対象装置解析部21は、取得した情報のフォーマット等が正しくない場合は、その旨を、結果出力部を介して出力する。
送受信スレッド群管理部22は、監視パケット送受信スレッド23(#1〜#n)によるネットワーク装置の監視処理の全般を制御する。
具体的には、送受信スレッド群管理部22は、記憶部30内のスレッド制御情報320を参照し、監視パケット送受信スレッド23の起動スレッド数「n」、および、送信中スレッド最大数「M」を読み込む。
なお、送受信スレッド群管理部22は、監視パケット送受信スレッド23(#1〜#n)がパケットの送受信処理を行うために必要となるオプション(例えば、再送回数やタイムアウト時間等)も併せて読み込み、監視パケット送受信スレッド23(#1〜#n)に設定する。
送受信スレッド群管理部22は、監視パケット送受信スレッド23を起動スレッド数「n」個立ち上げる。そして、送受信スレッド群管理部22は、立ち上げた「n」個の監視パケット送受信スレッド23のうち、送信中スレッド最大数「M」を超えない数の監視パケット送受信スレッド23それぞれについて、記憶部30に記憶された監視対象となる装置群の監視対象装置情報310(装置群番号311とIPアドレス312の組)のうちの1つを割り当て、監視のための送受信処理を開始させる。
このとき、送受信スレッド群管理部22は、送受信処理を実行中の監視パケット送受信スレッド23のうちの1つが、最終再送を実行し最終応答待ちに入ると、送受信処理を行っていない(待機の状態にある)他の監視パケット送受信スレッド23の1つに、新たな装置群の監視対象装置情報310を割り当て、監視のための送受信処理を開始させる。
また、送受信スレッド群管理部22は、送受信処理を実行している監視パケット送受信スレッド23の数を、使用中スレッド管理用変数(NUM_THREAD_SEND)「D」として記憶しており、使用中スレッド管理用変数「D」が、送信中スレッド最大数「M」を超えないように制御する。さらに、送受信スレッド群管理部22は、監視パケット送受信スレッド23(#1〜#n)それぞれから、各装置群の監視結果を受け取り、その監視結果の情報を、結果出力部12を介して、出力する。
なお、送受信スレッド群管理部22が行う処理の詳細は、図4において説明する。
監視パケット送受信スレッド23(#1〜#n)それぞれは、装置群ごとに監視を実行する。
具体的には、監視パケット送受信スレッド23は、送受信スレッド群管理部22から監視対象となる装置群の監視対象装置情報310(装置群番号311とIPアドレス312の組)を受け取り、監視対象の装置を監視するためのパケットの送受信を行う。このとき、監視パケット送受信スレッド23は、例えば、pingやSNMP等に基づきパケットの送受信を行うようにしてもよい。
この監視パケット送受信スレッド23は、送信処理部231および受信処理部232を備える。送信処理部231は、送受信スレッド群管理部22から、送受信開始メッセージ(MSG_START_SEND)を受信すると、監視対象の装置群に対して、監視パケットを送信する。受信処理部232は、監視対象の装置群からの監視パケットに対応する応答パケットを受信する。また、受信処理部232は、稼動している装置からの応答パケットの受信後、所定時間を過ぎても次の応答パケットを受信できないこと、または、送信処理部231からの監視パケットの送信の後、所定時間を過ぎても対応する応答パケットを受信できないこと、を検知した場合に、応答パケットの受信待ちを完了する。そして、監視パケット送受信スレッド23は、受信処理部232が応答パケットを受信できず受信待ちを完了した場合に、送信処理部231による監視パケットの再送処理を所定の回数に亘って実行する。
また、受信処理部232は、設定された所定の再送回数の最後となる最終送信を、送信処理部231が実行した場合に、最終応答待ちに入ったことを示すメッセージ(最終応答待ちメッセージ(MSG_FIN_SEND))を送受信スレッド群管理部22に送信する。また、受信処理部232は、最終応答待ちが完了した場合に、監視対象となる装置群の監視結果を、結果通知メッセージ(MSG_RESULT)として、送受信スレッド群管理部22に送信する。
記憶部30には、前記した監視対象装置情報310と、スレッド制御情報320とを含む情報が記憶される。また、記憶部30は、RAM(Random Access Memory)や、HDD(Hard Dick Drive)、フラッシュメモリ等の記憶媒体から構成される。
なお、ネットワーク障害監視装置1をプログラム実行処理により実現する場合、記憶部30には、ネットワーク障害監視装置1の制御部20の機能を実現するためのプログラムが格納される。そして、制御部20は、記憶部30に記憶されたプログラムを、不図示のCPUが、RAM等に展開し実行することで実現される。
<ネットワーク障害監視装置の処理>
次に、本実施形態に係るネットワーク障害監視装置1が行うネットワーク障害監視処理について説明する。
図4は、本実施形態に係るネットワーク障害監視装置1の送受信スレッド群管理部22が行う処理の流れを示すフローチャートである。なお、ここでは、監視対象装置解析部21により、情報入力部11を介して取得した、監視対象装置情報310やスレッド制御情報320等の情報が記憶部30に記憶されているものとする。また、送受信スレッド群管理部22は、スレッド制御情報320を参照することにより、起動スレッド数(NUM_THREAD_ON)「n」、および、送信中スレッド最大数(MAX_NUM_THREAD_SEND)「M」の情報を取得しており、さらに、各監視パケット送受信スレッド23に、パケットの再送回数や、タイムアウト時間等を設定済みとする。
まず、ネットワーク障害監視装置1の送受信スレッド群管理部22は、監視パケット送受信スレッド23を、起動スレッド数「n」個立ち上げる(ステップS10)。
次に、送受信スレッド群管理部22は、使用中スレッド管理用変数「D」に、初期値として「1」を設定する(ステップS11)。
続いて、送受信スレッド群管理部22は、起動した「n」個の監視パケット送受信スレッド23のうち未使用のものを1つ選択し、記憶部30に記憶された監視対象となる装置群の監視対象装置情報310(装置群番号311とIPアドレス312の組)のうちの1つを割り当て、その選択した監視パケット送受信スレッド23に対し、送受信開始メッセージ(MSG_START_SEND)を送信する(ステップS12)。送受信開始メッセージを受け取った監視パケット送受信スレッド23は、割り当てられた装置群に対するパケットの送受信処理(送信処理部231による監視パケットの送信、および、受信処理部232による応答パケットの受信等)を開始する。
そして、送受信スレッド群管理部22は、使用中スレッド管理用変数「D」と送信中スレッド最大数「M」とを比較し、D<Mが成り立つか否かを判定する(ステップS13)。
ここで、D<Mが成り立つ場合は(ステップS13→Yes)、次のステップS14に進む。
ステップS14において、送受信スレッド群管理部22は、使用中スレッド管理用変数Dを「1」加算し、ステップS12に戻り、未使用の監視パケット送受信スレッド23の送受信処理を開始させる処理を続ける。
一方、ステップS13において、D<Mが成り立たない場合(ステップS13→No)、つまり、使用中スレッド管理用変数「D」が、送信中スレッド最大数「M」に達した場合は、次のステップS15に進む。
ステップS15において、送受信スレッド群管理部22は、所定の時間間隔毎に、1つでも、送信処理部231が最終再送を実行することにより最終応答待ちに入った監視パケット送受信スレッド23があるか否かを判定する。具体的には、送受信スレッド群管理部22は、いずれかの監視パケット送受信スレッド23(受信処理部232)から最終応答待ちメッセージ(MSG_FIN_SEND)を受信したか否か判定する。
ステップS15において、最終再送を実行した監視パケット送受信スレッド23がない場合(ステップS15→No)、送受信スレッド群管理部22は、所定の時間間隔を待って、ステップS15の判定を再び行う。
一方、ステップS15において、送受信スレッド群管理部22が、最終再送を実行して最終応答待ちに入った監視パケット送受信スレッド23が1つでもあると判定した場合(ステップS15→Yes)、つまり、監視パケット送受信スレッド23のうちのいずれか1つからでも、最終応答待ちメッセージ(MSG_FIN_SEND)を受信した場合には、送受信スレッド群管理部22は、使用中スレッド管理用変数Dを「1」減算し(ステップS16)、次のステップS17へ進む。
ステップS17において、送受信スレッド群管理部22は、記憶部30内の監視対象装置情報310を参照し、まだ監視パケット送受信スレッド23に割り当てていない装置群の情報(装置群番号311とIPアドレス312の組)があるか否かを判定する。
まだ、割り当てていない装置群の情報がある場合に(ステップS17→Yes)、送受信スレッド群管理部22は、現在送受信処理を実行していない、つまり未使用の監視パケット送受信スレッド23があるか否かを判定する(ステップS18)。そして、送受信処理を実行していない監視パケット送受信スレッド23がない場合には(ステップS18→No)、ステップS15に戻る。
一方、送受信スレッド群管理部22は、ステップS18において、現在送受信処理を実行していない監視パケット送受信スレッド23がある場合には(ステップS18→Yes)、使用中スレッド管理用変数Dを「1」加算する(ステップS19)。
続いて、送受信スレッド群管理部22は、現在送受信処理を実行していない監視パケット送受信スレッド23のうちの1つを選択し、記憶部30に記憶された監視対象装置情報310を参照して、まだ割り当てていない監視対象となる装置群の監視対象装置情報310(装置群番号311とIPアドレス312の組)のうちの1つを割り当てる。そして、送受信スレッド群管理部22は、その選択した監視パケット送受信スレッド23に対し、送受信開始メッセージ(MSG_START_SEND)を送信する(ステップS20)。送受信開始メッセージ(MSG_START_SEND)を受け取った監視パケット送受信スレッド23は、割り当てられた装置群に対する監視パケットの送受信処理を開始する。そして、ステップS15に戻り処理を続ける。
一方、送受信スレッド群管理部22は、ステップS17において、記憶部30内の監視対象装置情報310を参照し、監視パケット送受信スレッド23に割り当てていない装置群の情報(装置群番号311とIPアドレス312の組)がない場合(ステップS17→No)、つまり、監視対象装置情報310のすべてが割り当て済みの場合は、次のステップS21へ進む。
ステップS21において、送受信スレッド群管理部22は、現在使用している(送受信処理を行っている)すべての監視パケット送受信スレッド23の送受信処理が完了するまで待ち、処理を終える。
以上説明した、本実施形態に係るネットワーク障害監視装置1が行うネットワーク障害監視処理の具体例を、図5を参照して説明する。
図5は、本実施形態に係るネットワーク障害監視装置1が行う処理の具体例を示すシーケンス図である。図5においては、起動スレッド数「n」=3、送信中スレッド最大数「M」=2、監視対象となる装置群数を「3」とした場合の例を示している。
ここで、図5(a)は、比較例として、最終応答待ち完了後、具体的には、監視パケット送受信スレッド23(#1)の受信処理部232が結果通知メッセージ(MSG_RESULT)を送受信スレッド群管理部22送信してから、次の監視対象の装置群に対しての送受信処理を、監視パケット送受信スレッド23(#3)において開始する例を示している。一方、図5(b)は、本実施形態に係るネットワーク障害監視装置1の具体例であり、最終再送後の応答待ちに入った時点で、監視パケット送受信スレッド23(#1)の受信処理部232が最終応答待ちメッセージ(MSG_FIN_SEND)を送受信スレッド群管理部22に送信することにより、新たな監視対象の装置群に対しての送受信処理を、監視パケット送受信スレッド23(#3)において開始する例を示している。
このように本実施形態に係るネットワーク障害監視装置1では、監視パケット送受信スレッド23の受信処理部232が、送信処理部231による監視パケットの送信(再送)とは独立して、応答パケットの受信の有無を確認することにより、最終再送後の応答待ちに入った時点で、最終応答待ちメッセージ(MSG_FIN_SEND)を送受信スレッド群管理部22に送信することができる。そして、送受信スレッド群管理部22は、新たな監視対象の装置群の情報を未使用の監視パケット送受信スレッド23(#3)に割り当て、送受信開始メッセージ(MSG_START_SEND)を送信し、送受信処理を開始させることができる。
よって、図5に示すように、本実施形態に係るネットワーク障害監視装置1は、比較例と比べ、ネットワーク装置の監視に要する時間を短縮することができる。また、ネットワーク障害監視装置1の送受信スレッド群管理部22により、使用中スレッド管理用変数「D」が、送信中スレッド最大数「M」を超えないように監視パケット送受信スレッド23の使用数を制御することができる。
以上より、本実施形態に係るネットワーク障害監視装置1およびネットワーク障害監視方法によれば、ネットワーク障害監視装置1内のリソースの使い切りによる処理性能の低下を防ぎ、かつ、トータルでネットワーク装置の監視に要する時間を短縮することができる。
1 ネットワーク障害監視装置
10 入出力部
11 情報入力部
12 結果出力部
13 装置アクセス部
20 制御部
21 監視対象装置解析部
22 送受信スレッド群管理部
23 監視パケット送受信スレッド
30 記憶部
231 送信処理部
232 受信処理部
310 監視対象装置情報
320 スレッド制御情報

Claims (4)

  1. 複数のネットワーク装置から構成される複数の装置群と接続され、前記装置群に対しパケットを送受信することによりネットワークに発生する障害を監視するネットワーク障害監視装置であって、
    監視対象となる装置群の情報が格納される監視対象装置情報と、前記パケットを送受信する監視パケット送受信スレッドを同時に稼動可能な最大数を示す送信中スレッド最大数を含むスレッド制御情報と、を記憶する記憶部と、
    前記パケットの送受信処理を実行し、前記装置群毎に障害の発生を監視する複数の前記監視パケット送受信スレッドと、
    前記複数の監視パケット送受信スレッドの前記パケットの送受信処理の開始を少なくとも制御する送受信スレッド群管理部と、を備え、
    前記監視パケット送受信スレッドは、
    前記監視対象の装置群の1つに対し、前記監視対象装置情報に基づき、監視パケットを送信し前記監視パケットに対応する応答パケットを受信する前記パケットの送受信処理を繰り返し、前記応答パケットを受信できない場合に、前記監視パケットを所定の回数再送し、前記所定の回数の最終再送を実行したとき、最終応答待ちに入ったことを示す最終応答待ちメッセージを前記送受信スレッド群管理部に送信し、
    前記送受信スレッド群管理部は、
    前記最終応答待ちメッセージを受信すると、前記パケットの送受信処理を現在実行していない他の前記監視パケット送受信スレッドに実行させた場合に、前記送信中スレッド最大数を超えるか否かを判定し、前記送受信スレッド最大数を超えない場合に、前記他の監視パケット送受信スレッドに送受信開始メッセージを送信し、
    前記他の監視パケット送受信スレッドは、
    前記送受信開始メッセージを受信し、前記監視対象装置情報に基づき、まだ監視が実行されていない前記監視対象の装置群の1つに対し、前記パケットの送受信処理を開始すること
    を特徴とするネットワーク障害監視装置。
  2. 前記監視パケット送受信スレッドは、送信処理部と受信処理部とを備え、
    前記送信処理部が、前記監視対象の装置群に対する前記監視パケットの送信処理を実行し、
    前記受信処理部が、前記応答パケットの受信処理を実行し、前記送信処理部が、前記所定の回数の前記監視パケットの最終再送を実行したとき、前記最終応答待ちメッセージを前記送受信スレッド群管理部に送信すること
    を特徴とする請求項1に記載のネットワーク障害監視装置。
  3. 前記送受信スレッド群管理部は、
    現時点で前記パケットの送受信処理を実行している前記監視パケット送受信スレッドの数を、使用中スレッド管理用変数として記憶しており、
    前記監視パケット送受信スレッドから、前記最終応答待ちメッセージを受信すると、前記使用中スレッド管理用変数を1減算し、
    前記他の監視パケット送受信スレッドに前記送受信開始メッセージを送信するに際し、前記使用中スレッド管理用変数を1加算し、
    前記1加算した後の使用中スレッド管理用変数が、前記送受信スレッド最大数を超えない場合に、前記他の監視パケット送受信スレッドに送受信開始メッセージを送信すること
    を特徴とする請求項1または請求項2に記載のネットワーク障害監視装置。
  4. 複数のネットワーク装置から構成される複数の装置群と接続され、前記装置群に対しパケットを送受信することによりネットワークに発生する障害を監視するネットワーク障害監視装置のネットワーク障害監視方法であって、
    前記ネットワーク障害監視装置は、
    監視対象となる装置群の情報が格納される監視対象装置情報と、前記パケットを送受信する監視パケット送受信スレッドを同時に稼動可能な最大数を示す送信中スレッド最大数を含むスレッド制御情報と、を記憶する記憶手段と、
    前記パケットの送受信処理を実行し、前記装置群毎に障害の発生を監視する複数の前記監視パケット送受信スレッドと、
    前記複数の監視パケット送受信スレッドの前記パケットの送受信処理の開始を少なくとも制御する送受信スレッド群管理手段と、を備えており、
    前記監視パケット送受信スレッドは、
    前記監視対象の装置群の1つに対し、前記監視対象装置情報に基づき、監視パケットを送信し前記監視パケットに対応する応答パケットを受信する前記パケットの送受信処理を繰り返し、前記応答パケットを受信できない場合に、前記監視パケットを所定の回数再送し、前記所定の回数の最終再送を実行したとき、最終応答待ちに入ったことを示す最終応答待ちメッセージを前記送受信スレッド群管理手段に送信するステップを実行し、
    前記送受信スレッド群管理手段は、
    前記最終応答待ちメッセージを受信すると、前記パケットの送受信処理を現在実行していない他の前記監視パケット送受信スレッドに実行させた場合に、前記送信中スレッド最大数を超えるか否かを判定し、前記送受信スレッド最大数を超えない場合に、前記他の監視パケット送受信スレッドに送受信開始メッセージを送信するステップを実行し、
    前記他の監視パケット送受信スレッドは、
    前記送受信開始メッセージを受信し、前記監視対象装置情報に基づき、まだ監視が実行されていない前記監視対象の装置群の1つに対し、前記パケットの送受信処理を開始するステップを実行すること
    を特徴とするネットワーク障害監視方法。
JP2012071479A 2012-03-27 2012-03-27 ネットワーク障害監視装置およびネットワーク障害監視方法 Active JP5476415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012071479A JP5476415B2 (ja) 2012-03-27 2012-03-27 ネットワーク障害監視装置およびネットワーク障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012071479A JP5476415B2 (ja) 2012-03-27 2012-03-27 ネットワーク障害監視装置およびネットワーク障害監視方法

Publications (2)

Publication Number Publication Date
JP2013207367A true JP2013207367A (ja) 2013-10-07
JP5476415B2 JP5476415B2 (ja) 2014-04-23

Family

ID=49526090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012071479A Active JP5476415B2 (ja) 2012-03-27 2012-03-27 ネットワーク障害監視装置およびネットワーク障害監視方法

Country Status (1)

Country Link
JP (1) JP5476415B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114221861A (zh) * 2021-03-26 2022-03-22 无锡江南计算技术研究所 一种大规模互连网络的管理包收发方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05327749A (ja) * 1992-05-21 1993-12-10 Fujitsu Ltd データ転送方式
JP2007325155A (ja) * 2006-06-05 2007-12-13 Matsushita Electric Ind Co Ltd ネットワーク管理装置及びネットワーク管理システム
JP2010004487A (ja) * 2008-06-23 2010-01-07 Toshiba Corp 無線通信システム、監視装置及び交換ノード
WO2010131608A1 (ja) * 2009-05-12 2010-11-18 三菱電機株式会社 端末切り替え方法、基地局および通信システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05327749A (ja) * 1992-05-21 1993-12-10 Fujitsu Ltd データ転送方式
JP2007325155A (ja) * 2006-06-05 2007-12-13 Matsushita Electric Ind Co Ltd ネットワーク管理装置及びネットワーク管理システム
JP2010004487A (ja) * 2008-06-23 2010-01-07 Toshiba Corp 無線通信システム、監視装置及び交換ノード
WO2010131608A1 (ja) * 2009-05-12 2010-11-18 三菱電機株式会社 端末切り替え方法、基地局および通信システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114221861A (zh) * 2021-03-26 2022-03-22 无锡江南计算技术研究所 一种大规模互连网络的管理包收发方法
CN114221861B (zh) * 2021-03-26 2023-07-07 无锡江南计算技术研究所 一种大规模互连网络的管理包收发方法

Also Published As

Publication number Publication date
JP5476415B2 (ja) 2014-04-23

Similar Documents

Publication Publication Date Title
JP4840236B2 (ja) ネットワークシステム及びノード装置
CN104184756A (zh) 一种数据同步方法、装置及系统
JP2008077428A (ja) 負荷分散装置、負荷分散方法及び負荷分散プログラム
US11144423B2 (en) Dynamic management of monitoring tasks in a cloud environment
CN107135279A (zh) 一种处理长连接建立请求的方法和装置
EP1697843A2 (en) System and method for managing protocol network failures in a cluster system
WO2016107424A1 (zh) 一种链路状态检测方法、装置和系统
EP3075101A1 (en) Dynamically optimized many tree multicast networks
WO2014094314A1 (zh) 一种最优路径选择方法、相关设备及通信系统
WO2016177144A1 (zh) 网元监测方法和装置
CN112311896A (zh) 健康检查方法、装置、设备及计算机可读存储介质
CN108134986B (zh) 报文传输方法及装置
JP5476415B2 (ja) ネットワーク障害監視装置およびネットワーク障害監視方法
EP2736204B1 (en) Rendezvous Point Convergence Method and Apparatus
CN107534917A (zh) 一种主从型网络中的切换方法、主设备、从设备和系统
JP2010239299A (ja) ネットワークの管理システム及び管理方法
WO2013131431A1 (zh) 一种管理网络设备链路聚合组的方法及装置
JP2002261767A (ja) ノード情報管理システム及びノード
US20150156164A1 (en) Communication system, communication control method, communication relay system, and communication relay control method
JP4891950B2 (ja) 無線通信システム、監視装置及び交換ノード
WO2011048740A1 (ja) データ伝送システム、送信速度制御方法、受信端末、送信端末
CN101764737B (zh) 基于边界网关协议的路由老化方法、装置和路由器
EP3896926A1 (en) Network device and packet processing method using same
JP2010182017A (ja) 分散計算機システム、マネージャ引き継ぎ方法及びマネージャ引き継ぎプログラム
JP5128556B2 (ja) トラヒック情報収集装置、トラヒック情報収集方法およびそのプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140207

R150 Certificate of patent or registration of utility model

Ref document number: 5476415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150