JP2016146581A - トラヒック情報収集装置およびトラヒック情報収集方法 - Google Patents

トラヒック情報収集装置およびトラヒック情報収集方法 Download PDF

Info

Publication number
JP2016146581A
JP2016146581A JP2015023299A JP2015023299A JP2016146581A JP 2016146581 A JP2016146581 A JP 2016146581A JP 2015023299 A JP2015023299 A JP 2015023299A JP 2015023299 A JP2015023299 A JP 2015023299A JP 2016146581 A JP2016146581 A JP 2016146581A
Authority
JP
Japan
Prior art keywords
switches
congestion
flow
traffic information
sampling rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015023299A
Other languages
English (en)
Inventor
健 伊藤
Takeshi Ito
健 伊藤
敢一郎 小野
Kanichiro Ono
敢一郎 小野
隆典 岩井
Takanori Iwai
隆典 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015023299A priority Critical patent/JP2016146581A/ja
Publication of JP2016146581A publication Critical patent/JP2016146581A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】データセンタ内LAN等に用いられるトラヒック情報収集装置において、汎用スイッチが有するリソースを有効利用しつつ、必要に応じて高精度なフロー情報を取得できるようにする。【解決手段】ネットワークに配置されフロー情報を収集する複数のスイッチ(61〜74)のうち何れかの輻輳を検出する輻輳検出手段(111)と、複数のスイッチの残りリソースを確認するリソース確認手段(112)と、輻輳検出手段(111)が輻輳を検出すると、複数のスイッチ(61〜74)に対し、各々の残りリソースに応じて、フロー情報に係るサンプリングレートを設定するサンプリングレート設定手段(113)と、複数のスイッチから、各々のフロー情報に含まれるトラヒック情報を収集するトラヒック情報収集手段(114)とをトラヒック情報収集装置(100)に設けた。【選択図】図1

Description

本発明は、ネットワーク内の輻輳の検出に用いて好適なトラヒック情報収集装置およびトラヒック情報収集方法に関する。
データセンタ等のLAN(Local Area Network)においては、複数のサーバ機(以下、物理サーバという)と、これら物理サーバ間、あるいは物理サーバとWAN(広域ネットワーク,Wide Area Network)との間でIPパケットを伝送する汎用スイッチと、LAN内のトラヒックを制御するトラヒックコントローラとが設けられている。そして、各物理サーバには、一または複数の仮想マシンと、これら仮想マシン間または仮想マシンと汎用スイッチとの間でIPパケットを伝送する仮想スイッチとが配置される。
近年の汎用スイッチは、非特許文献1(RFC3954)、NetFlow(登録商標)、sFlow(登録商標)、AppFlow(登録商標)等に規定されているフロー情報をトラヒックコントローラに供給できるものが多い。ここで、「フロー」とは、送信元IPアドレス、宛先IPアドレス、送信元ポート番号、宛先ポート番号およびプロトコルが同一であるパケット群を指し、「フロー情報」とは、フローの様々なパラメータを示すものである。但し、汎用スイッチ等においては、フロー情報を収集するために全てのIPパケットを解析しているわけではなく、解析するIPパケットを指定されたサンプリングレートで抽出している。
サンプリングレートは、「解析するパケット数/全パケット数」で表現される。例えば、サンプリングレートが「0.001」であれば、1000パケットのうち1パケットのみが解析され、残り999パケットは解析されない。従って、サンプリングレートが高いほど高精度なフロー情報が得られる。非特許文献1には、トラヒックコントローラ等がサンプリングレートを汎用スイッチ等に設定し、フロー情報を収集する点が開示されている。また、非特許文献2には、収集したフロー情報に基づいて、輻輳の原因となっているフローを特定する点が開示されている。また、非特許文献3には、MIB(Management Information Base)によってトラヒック統計情報を収集する点が開示されている。
B. Claise、Cisco Systems NetFlow Services Export Version 9 (RFC3954)、[online]、[平成27年2月2日検索]、インターネット〈URL:http://tools.ietf.org/pdf/rfc3954.pdf〉 川原亮一,他5名、異常トラヒック測定分析手法(NTT技術ジャーナル 2008.3,pp.21-25)、[online]、[平成27年2月2日検索]、インターネット〈URL:http://www.ntt.co.jp/journal/0803/files/jn200803021.pdf〉 McCloghrie,M. Rose、Management Information Base for Network Management of TCP/IP-based internets: MIB-II(RFC1213)、[online]、[平成27年2月2日検索]、インターネット〈URL:http://tools.ietf.org/pdf/rfc1213.pdf〉
ところで、上述したサンプリングレートが低すぎると、フロー情報の精度が下がり、非特許文献2の技術を用いて輻輳の原因となっているフローを特定することが困難になる。一方、サンプリングレートを高くすると、確かにフロー情報の精度は向上し、輻輳の原因となっているフローを特定しやすくなる。しかし、これはフロー情報の収集のために汎用スイッチが有するリソース(CPUの処理時間やメモリ容量)をより多く消費するということであり、汎用スイッチが伝送できる最大データ量が減少し、汎用スイッチが有するリソースを平常時に有効利用できなくなる。
この発明は上述した事情に鑑みてなされたものであり、汎用スイッチが有するリソースを有効利用しつつ、必要に応じて高精度なフロー情報を取得できるトラヒック情報収集装置およびトラヒック情報収集方法を提供することを目的とする。
上記課題を解決するため本発明にあっては、下記構成を有することを特徴とする。
請求項1記載のトラヒック情報収集装置にあっては、ネットワークに配置されフロー情報を収集する複数のスイッチのうち何れかの輻輳を検出する輻輳検出手段と、複数の前記スイッチの残りリソースを確認するリソース確認手段と、前記輻輳検出手段が前記輻輳を検出すると、複数の前記スイッチに対し、各々の前記残りリソースに応じて、前記フロー情報に係るサンプリングレートを設定するサンプリングレート設定手段と、複数の前記スイッチから、各々の前記フロー情報に含まれトラヒック量を示すトラヒック情報を収集するトラヒック情報収集手段とを有することを特徴とする。
この構成によれば、輻輳検出手段が何れかのスイッチの輻輳を検出すると、リソース確認手段は複数のスイッチの残りリソースを確認し、サンプリングレート設定手段は各々の残りリソースに応じたサンプリングレートを各スイッチに設定する。これにより、輻輳が生じた際のサンプリングレートを平常時と比較して高くすることができ、トラヒック情報収集手段が各スイッチから収集するトラヒック情報の精度を高めることができ。従って、平常時にはスイッチが有するリソースを有効利用しつつ、輻輳が生じた場合には高精度なフロー情報を取得でき、輻輳の原因となったフローを容易に特定できるようになる。
さらに、請求項2記載の構成にあっては、請求項1に記載のトラヒック情報収集装置において、収集した前記トラヒック情報に基づいて、前記輻輳の原因となったフローを検出する輻輳原因特定手段をさらに有することを特徴とする。
この構成によれば、輻輳の原因となったフローを、輻輳原因特定手段によって自動的に検出することができる。
さらに、請求項3記載の構成にあっては、請求項2に記載のトラヒック情報収集装置において、前記輻輳の原因となったフローの経路を、前記輻輳が検出されたスイッチを迂回するように変更する経路変更手段をさらに有することを特徴とする。
この構成によれば、輻輳の原因となったフローの経路を、輻輳が検出されたスイッチを迂回するように、経路変更手段が自動的に変更することができる。
さらに、請求項4記載の構成にあっては、請求項3に記載のトラヒック情報収集装置において、前記サンプリングレート設定手段は、前記経路変更手段によって前記輻輳の原因となったフローの経路が変更されると、複数の前記スイッチに対して、各々の前記サンプリングレートを前記輻輳が検出する前の値に戻すことを特徴とする。
この構成によれば、経路変更手段によって輻輳の原因となったフローの経路が変更されると、サンプリングレート設定手段は、複数のスイッチの各々のサンプリングレートを輻輳が検出する前の値に自動的に戻すことができる。これにより、経路が変更された後は、各スイッチのリソースを有効に利用できるようになる。
さらに、請求項5記載の構成にあっては、請求項1ないし4の何れか一項に記載のトラヒック情報収集装置において、複数の前記スイッチは、各々が中央処理装置とメモリとを含むものであり、前記リソース確認手段によって確認される前記残りリソースは、複数の前記スイッチの残りメモリ量と、複数の前記スイッチに含まれる中央処理装置の残り使用率とを少なくとも含むことを特徴とする。
この構成によれば、リソース確認手段は、複数のスイッチの残りメモリ量と、複数のスイッチに含まれる中央処理装置の残り使用率とを残りリソースとして確認できるから、残りメモリ量および残り使用率に応じたサンプリングレートを設定できるようになる。
さらに、請求項6記載の構成にあっては、請求項5に記載のトラヒック情報収集装置において、前記サンプリングレート設定手段は、各々の前記スイッチにおける前記残り使用率が高いほど、当該スイッチに設定する前記サンプリングレートを高くすることを特徴とする。
この構成によれば、サンプリングレート設定手段は、各々のスイッチにおける残り使用率が高いほど、当該スイッチに設定するサンプリングレートを高くすることができるから、残り使用率が高いほど、収集するトラヒック情報の精度を高めることができる。
さらに、請求項7記載の構成にあっては、請求項5または6に記載のトラヒック情報収集装置において、前記サンプリングレート設定手段は、各々の前記スイッチにおける前記残りメモリ量が当該スイッチにおけるフロー情報量以上であるときは、前記残りメモリ量が前記フロー情報量未満であるときよりも、当該スイッチに設定する前記サンプリングレートを高くすることを特徴とする。
この構成によれば、サンプリングレート設定手段は、各々のスイッチにおける残りメモリ量が当該スイッチにおけるフロー情報量以上であるときは、残りメモリ量がフロー情報量未満であるときよりも、当該スイッチに設定するサンプリングレートを高くすることができるから、後者の場合において、収集するトラヒック情報の精度をさらに高めることができる。
また、請求項8記載のトラヒック情報収集方法にあっては、ネットワークに配置されフロー情報を収集する複数のスイッチのうち何れかの輻輳を検出する過程と、複数の前記スイッチの残りリソースを確認する過程と、前記輻輳を検出すると、複数の前記スイッチに対し、各々の前記残りリソースに応じて、前記フロー情報に係るサンプリングレートを設定する過程と、複数の前記スイッチから、各々の前記フロー情報に含まれトラヒック量を示すトラヒック情報を収集する過程とをコンピュータに実行させることを特徴とする。
この構成によれば、何れかのスイッチの輻輳を検出すると、複数のスイッチの残りリソースを確認し、各々の残りリソースに応じたサンプリングレートを各スイッチに設定するから、請求項1のものと同様に収集するトラヒック情報の精度を高めることができ、輻輳の原因となったフローを容易に特定できるようになる。
このように、本発明によれば、汎用スイッチが有するリソースを有効利用しつつ、必要に応じて高精度なフロー情報を取得することができる。
本発明の一実施形態のデータセンタ内LANのブロック図である。 データセンタ内LANのフローの経路の一例を示す図である。 データセンタ内LANのフローの経路の他の例を示す図である。 汎用スイッチの動作説明図である。 汎用スイッチの他の動作説明図である。 輻輳処理ルーチンのフローチャートである。
[実施形態の構成]
次に、図1のブロック図を参照し、本発明の一実施形態によるデータセンタ内LAN(Local Area Network)の構成を説明する。
図1において物理サーバ20〜23は、汎用スイッチ61,62,71〜74を介して相互に接続されるとともに、WAN(広域ネットワーク,Wide Area Network)80にも接続される。コントローラ100は、物理サーバ20〜23および汎用スイッチ61,62,71〜74を制御する。なお、本明細書において「汎用スイッチ」とは、OSI(Open Systems Interconnection)参照モデルのレイヤ2スイッチ、レイヤ3スイッチおよびルータの機能を備えたものをいう。
物理サーバ20には、複数の仮想マシン40−1〜40−hと、仮想スイッチ30とが配置されており、これらによって仮想LAN50が構成されている。同様に、物理サーバ21には、複数の仮想マシン41−1〜41−iと、仮想スイッチ31とが配置されており、これらによって仮想LAN51が構成されている。同様に、物理サーバ22には、複数の仮想マシン42−1〜42−jと、仮想スイッチ32とが配置されており、これらによって仮想LAN52が構成されている。同様に、物理サーバ23には、複数の仮想マシン43−1〜43−kと、仮想スイッチ33とが配置されており、これらによって仮想LAN53が構成されている。このように、各物理サーバ20〜23は、仮想LAN50〜53を備えた仮想化ノードを構成している。
物理サーバ20内の仮想スイッチ30は、汎用スイッチ71,72の双方に接続されている。これにより、物理サーバ20と、他の物理サーバ21〜23またはWAN80(広域ネットワーク,Wide Area Network)とを接続するルートとして、汎用スイッチ71,72の何れを経由するルートも選択できる。同様に、物理サーバ21内の仮想スイッチ31は、汎用スイッチ71,72の双方に接続されている。また、物理サーバ22内の仮想スイッチ32と、物理サーバ23内の仮想スイッチ33とは、共に汎用スイッチ73,74の双方に接続されている。そして、汎用スイッチ71〜74は、汎用スイッチ61,62の双方に接続され、汎用スイッチ61,62はWAN80に接続されている。
各物理サーバ20〜23は、各々2台の汎用スイッチに接続できるように、2つのIPアドレスを有しているが、これら物理サーバに配置される仮想マシン40−1〜43−kには、固有のIPアドレスは付与されていない。そこで、物理サーバ20〜23および汎用スイッチ61〜74の相互間には、IPアドレスを用いた「仮想トンネル」が形成される。そして、仮想LAN50〜53と仮想スイッチ30〜33と仮想トンネルとを介することにより、各仮想マシン40−1〜43−kの相互間の通信が可能になる。
コントローラ100は、通常のコンピュータと同様に、CPU(中央処理装置;Central Processing Unit)110と、記憶装置122と、入出力インタフェース124と、これらを接続するバス120とを有している。入出力インタフェース124は、物理サーバ20〜23および汎用スイッチ61〜74との間で、トラヒックに係る各種情報を入出力する。そして、CPU110は、記憶装置122に記憶されたプログラムを実行することにより、後述する各手段111〜116として機能する。
各汎用スイッチ61〜74は、非特許文献3に開示されたMIBを有しており、輻輳検出手段111は、入出力インタフェース124を介して、その内容(以下、MIBデータという)を定期的に収集し、記憶装置122に記憶させる。MIBデータには、受信IPパケット総数、エラーになった受信IPパケット数が含まれており、これらの値を所定時間(例えば1分)毎に取得し、前回取得した値を減算すると、直近の所定時間内の受信IPパケット総数、エラーになった受信IPパケット数が得られる。
そして、後者を前者で除算すると、直近の所定時間内のエラーレートが求められる。輻輳検出手段111は、このエラーレートが所定の閾値を超えたか否かに基づいて、各汎用スイッチ61〜74に輻輳が生じているか否かを検出する。
リソース確認手段112は、輻輳検出手段111が輻輳を検出した場合に、各汎用スイッチ61〜74の残りリソースを確認する。確認される残りリソースには、これら汎用スイッチ内のCPUの残り使用率と、残りメモリ量とが含まれる。サンプリングレート設定手段113は、各汎用スイッチ61〜74に対し、各々のCPUの残り使用率と残りメモリ量とに基づいて、IPパケットをサンプリングするサンプリングレートを設定する。トラヒック情報収集手段114は、各汎用スイッチ61〜74からトラヒック情報(各フローのパケット数、バイト数等)を収集する。
輻輳原因特定手段115は、収集したトラヒック情報に基づいて、輻輳の原因となったフローを特定する。例えば、輻輳が生じた汎用スイッチに流入するフローのうち、他の汎用スイッチに迂回可能なフローであってトラヒック量(受信パケット数または受信バイト数)が最大であるフローが、「輻輳の原因となったフロー」であると特定することができる。経路変更手段116は、輻輳の原因となったフローの経路を、上述の「他の汎用スイッチ」を経由するように変更する。
[実施形態の動作]
<動作の概要>
次に、図2を参照し、本実施形態の動作の概要を説明する。なお、図2は、データセンタ内LANのフローの経路の一例を示す図である。
図2において仮想マシン40−1から仮想マシン42−jに供給されるIPパケットのフローをL1とし、仮想マシン40−hから仮想マシン42−1に供給されるIPパケットのフローをL2とし、仮想マシン41−1から仮想マシン43−1に供給されるIPパケットのフローをL3とし、仮想マシン41−iから仮想マシン43−kに供給されるIPパケットのフローをL4とする。これらフローL1〜L4のうち、フローL4のトラヒック量が最大であったとする。
図2においては、汎用スイッチ61に対して多くのフローが集中しているため、汎用スイッチ61において輻輳が生じている。輻輳が検出された際に、その原因となっているフロー(図2の例ではフローL3)を特定し、その経路を変更すれば輻輳が解消できるものと考えられる。例えば、図3に示すように、汎用スイッチ62を経由するようにフローL3の経路を変更することが考えられる。本実施形態は、このように、フローの経路の変更を実現しようとするものである。
<汎用スイッチのフロー情報に関する動作>
次に、図4に示す動作説明図を参照し、汎用スイッチ61〜74においてフロー情報を収集し送信する動作を説明する。
汎用スイッチ61〜74は、複数のIPパケット202を送受信するが、汎用スイッチのハードウエア処理(CPU以外の制御回路による処理)により、これらのIPパケット202のうち一部が、指定されたサンプリングレートRでサンプリングされる。
IPパケット202のヘッダには、送信元IPアドレス、宛先IPアドレス、送信元ポート、宛先ポート番号、プロトコル等が含まれており、これらによりフローが特定される。汎用スイッチ61〜74には、メモリが設けられており、そのうちの所定の領域がフロー管理領域210として確保される。フロー管理領域210においては、各々のフローについて、パケット数とバイト数等のトラヒック情報が累積されてゆく。これらトラヒック情報はコントローラ100に送信される。なお、フロー管理領域210に対するフロー情報の書き込み、トラヒック情報の累積、コントローラ100に対するトラヒック情報の送信は、当該汎用スイッチ内のCPUによって実行される。
次に、フロー管理領域210からコントローラ100にフロー情報が送信される間隔について、図5(a),(b)を参照し説明する。
図5(a)において、フロー管理領域210には、複数のフロー情報FL1〜FL98が格納されている。ここで、フロー情報FL1〜FL98の全体の情報量は、フロー管理領域210に割り当てられ得る最大容量よりも小さくなっている。このような場合、フロー情報FL1〜FL98は、古い順に、定期的な間隔でコントローラ100に送信される。そして、送信されたフロー情報は、フロー管理領域210から削除される。
次に、フロー情報の全体の情報量が、フロー管理領域210に割り当てられ得る最大容量よりも大きくなった場合の例を図5(b)に示す。図5(b)において、フロー情報FL1〜FL100がフロー管理領域210に記憶されており、これらによってフロー管理領域210は最大容量に達している。その状態で、新たなフロー情報FL101がエントリされると、その時点で最も古いフロー情報(トラヒック情報)がコントローラ100に送信され、送信されたフロー情報はフロー管理領域210から削除される。
このように、新たなフローがエントリされる毎に古いフロー情報が送信されるため、コントローラ100に対する送信間隔は不定期になる。また、フロー情報(トラヒック情報)を送信するためにはある程度の時間が必要であるため、古いフロー情報の送信が間に合わなかった場合には、エントリしようとした新たなフロー情報が破棄される場合もある。
<コントローラ100の動作>
次に、図6を参照し、コントローラ100の動作を説明する。なお、図6は、記憶装置122に記憶されCPU110によって実行されるプログラム(輻輳処理ルーチン)のフローチャートである。図6において処理がステップS2に進むと、輻輳を検出したか否かが輻輳検出手段111(図1参照)によって判定される。ここで「No」と判定されると、ステップS2のループが繰り返される。一方、ステップS2にて「Yes」と判定されると、処理はステップS4に進む。
ステップS4においては、リソース確認手段112によって、各汎用スイッチ61〜74の残りリソースが確認される。ところで、コントローラ100の記憶装置122には、経路テーブル(送信元の物理サーバから宛先の物理サーバに至るまでの汎用スイッチ61〜74の経路を示すテーブル)が記憶されている。ステップS4においては、輻輳を検出した汎用スイッチを経由する経路が検索され、検索された経路が通過する汎用スイッチの残りリソースが確認される。
確認されるリソースには、これら汎用スイッチ内のフロー管理領域210の残りメモリ量、これら汎用スイッチ内のCPUの残り使用率、および流入トラヒック量(受信パケット数)が含まれる。これらは、上述したMIBデータに含まれている。次に、処理がステップS6に進むと、各汎用スイッチ61〜74のサンプリングレートRがサンプリングレート設定手段113によって決定される。
ここで、ステップS6の処理の詳細を説明する。まず、処理対象の汎用スイッチ(61〜74のうち何れか)について、フロー情報量Pを下式(1)によって求める。
P=E×(F+G) …(1)
但し、Eは1フローあたりの消費メモリ量、Fは当該汎用スイッチに流入する仮想化ノード(すなわち物理サーバ20〜23)からの総フロー数、Gは保守系トラヒック等によるフロー数である。
次に、当該汎用スイッチのMIBデータから得られる残りメモリ量をQとしたとき、フロー情報量Pと残りメモリ量Qとの大小関係に応じて、下式(2),(3)によって、当該汎用スイッチに設定するサンプリングレートRが求められる。
残りメモリ量Q≧フロー情報量Pの場合:
R=(S−C)×B/A …(2)
残りメモリ量Q<フロー情報量Pの場合:
R=(S−C−D)×B/A …(3)
但し、式(2),(3)において、Sは当該汎用スイッチ内のCPUの残り使用率、Aは当該汎用スイッチに単位時間あたり流入するパケット総数、Bは当該汎用スイッチが単位時間あたり解析処理できる最大処理パケット数、Cは定期的な間隔でフロー情報を送信する場合(図5(a)参照)のCPU使用率、Dはフロー情報を順次送信する場合(図5(b)参照)のCPU使用率である。
式(1)〜(3)において、CPUの残り使用率Sおよびパケット総数Aは、MIBデータから得られる。また、最大処理パケット数B、CPU使用率C,D、1フローあたりの消費メモリ量Eは、当該汎用スイッチの評価時に情報を収集しておき、コントローラ100の記憶装置122に予め記憶させておくとよい。
総フロー数Fは経路テーブル情報から求まる。すなわち、コントローラ100が各汎用スイッチ61〜74にアクセスして各汎用スイッチ61〜74内の経路テーブルを収集し、コントローラ100が有する経路テーブルと照合することによって総フロー数Fを算出するとよい。保守系トラヒックは、pingコマンドや、時刻合わせのためのパケット等からなる。保守系トラヒック等によるフロー数Gは、ネットワークの設計時に算出することができるため、記憶装置122に予め記憶させておくとよい。
次に、処理がステップS8に進むと、決定されたサンプリングレートが、サンプリングレート設定手段113から入出力インタフェース124を介して、各汎用スイッチ61〜74毎に通知される。以後、各汎用スイッチ61〜74においては、新たに決定されたサンプリングレートでIPパケットがサンプリングされる。多くの場合、この新たに決定されたサンプリングレートは、平常時のサンプリングレートよりも高くなるため、汎用スイッチ61〜74においては、平常時よりも高精度なフロー情報が得られるようになる。
次に、処理がステップS10に進むと、トラヒック情報収集手段114によってトラヒック情報(各フローのパケット数、バイト数等)が収集される。次に、処理がステップS12に進むと、輻輳の原因となったフローが輻輳原因特定手段115によって特定される。次に、処理がステップS14に進むと、経路変更手段116によって、当該フローの経路が変更される。例えば、図2に示した例では、フローL3の経路が、図3に示すように汎用スイッチ62を介する経路に変更される。次に、処理がステップS16に進むと、サンプリングレート設定手段113によって、各汎用スイッチ61〜74のサンプリングレートが、通常の値(輻輳を検出する前の値)に戻される。次に、処理はステップS2に戻り、上述したものと同様の動作が繰り返される。
[構成・効果の総括]
以上のように、本実施形態におけるコントローラ100は、ネットワークに配置されフロー情報を収集する複数のスイッチ(61〜74)のうち何れかの輻輳を検出する輻輳検出手段(111)と、複数のスイッチ(61〜74)の残りリソースを確認するリソース確認手段(112)と、輻輳検出手段(111)が輻輳を検出すると、複数のスイッチ(61〜74)に対し、各々の残りリソースに応じて、フロー情報に係るサンプリングレートを設定するサンプリングレート設定手段(113)と、複数のスイッチ(61〜74)から、各々のフロー情報に含まれトラヒック量を示すトラヒック情報を収集するトラヒック情報収集手段(114)と、収集したトラヒック情報に基づいて、輻輳の原因となったフローを検出する輻輳原因特定手段(115)と、輻輳の原因となったフローの経路を、輻輳が検出されたスイッチ(61〜74)を迂回するように変更する経路変更手段(116)と有する。
これにより、輻輳検出手段(111)が何れかのスイッチ(61〜74)の輻輳を検出すると、リソース確認手段(112)は複数のスイッチ(61〜74)の残りリソースを確認し、サンプリングレート設定手段(113)は各々の残りリソースに応じたサンプリングレートを各スイッチに設定する。これにより、輻輳が生じた際のサンプリングレートを平常時と比較して高くすることができ、トラヒック情報収集手段(114)が各スイッチ(61〜74)から収集するトラヒック情報の精度を高めることができる。従って、平常時にはスイッチ(61〜74)が有するリソースを有効利用しつつ、輻輳が生じた場合には高精度なフロー情報を取得でき、輻輳の原因となったフローを容易に特定できるようになる。さらに、輻輳原因特定手段(115)によって輻輳の原因となったフローを自動的に検出することができ、輻輳の原因となったフローの経路を、輻輳が検出されたスイッチ(61〜74)を迂回するように、経路変更手段(116)が自動的に変更することができる。
さらに、サンプリングレート設定手段(113)は、経路変更手段(116)によって輻輳の原因となったフローの経路が変更されると、複数のスイッチ(61〜74)に対して、各々のサンプリングレート(R)を輻輳が検出する前の値に戻すので、経路が変更された後は、各スイッチ(61〜74)のリソースを有効に利用できるようになる。
さらに、複数のスイッチ(61〜74)は、各々が中央処理装置を含むものであり、リソース確認手段(112)によって確認される残りリソースは、複数のスイッチ(61〜74)の残りメモリ量(Q)と、複数のスイッチ(61〜74)に含まれる中央処理装置の残り使用率(S)とを少なくとも含むので、残りメモリ量(Q)および残り使用率(S)に応じたサンプリングレートを設定できるようになる。
さらに、サンプリングレート設定手段(113)は、各々のスイッチ(61〜74)における残り使用率(S)が高いほど、当該スイッチ(61〜74)に設定するサンプリングレート(R)を高くするので、残り使用率(S)が高いほど、収集するトラヒック情報の精度を高めることができる。
さらに、サンプリングレート設定手段(113)は、各々のスイッチ(61〜74)における残りメモリ量(Q)が当該スイッチ(61〜74)におけるフロー情報量(P)以上であるときは、残りメモリ量(Q)がフロー情報量(P)未満であるときよりも、当該スイッチ(61〜74)に設定するサンプリングレート(R)を高くするので、後者の場合において、収集するトラヒック情報の精度をさらに高めることができる。
[変形例]
本発明は上述した実施形態に限定されるものではなく、種々の変形が可能である。上述した実施形態は本発明を理解しやすく説明するために例示したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について削除し、若しくは他の構成の追加・置換をすることが可能である。上記実施形態に対して可能な変形は、例えば以下のようなものである。
(1)上記実施形態において、輻輳原因特定手段115および経路変更手段116(輻輳処理ルーチン(図6)においてはステップS12およびS14)は必須の構成ではない。例えば、トラヒック情報収集手段114によって収集したトラヒック情報をグラフ化してディスプレイ等に表示し、その表示内容を作業者が目視することによって、輻輳の原因となったフローを特定してもよい。そして、作業者のマニュアル操作によって、当該フローの経路を変更してもよい。
(2)上記実施形態におけるコントローラ100のハードウエアは一般的なコンピュータによって実現できるため、図6に示したプログラムのみを記憶媒体に格納し、または伝送路を介して頒布してもよい。
(3)図6に示した処理は、上記実施形態ではプログラムを用いたソフトウエア的な処理として説明したが、その一部または全部をASIC(Application Specific Integrated Circuit;特定用途向けIC)、あるいはFPGA(field-programmable gate array)等を用いたハードウエア的な処理に置き換えても良い。
20〜23 物理サーバ
30〜33 仮想スイッチ
40−1〜43−k 仮想マシン
50〜53 仮想LAN
61〜74 汎用スイッチ(スイッチ)
80 WAN
100 コントローラ
110 CPU
111 輻輳検出手段
112 リソース確認手段
113 サンプリングレート設定手段
114 トラヒック情報収集手段
115 輻輳原因特定手段
116 経路変更手段
120 バス
122 記憶装置
124 入出力インタフェース
202 IPパケット
210 フロー管理領域
L1〜L4 フロー
FL1〜FL101 フロー情報

Claims (8)

  1. ネットワークに配置されフロー情報を収集する複数のスイッチのうち何れかの輻輳を検出する輻輳検出手段と、
    複数の前記スイッチの残りリソースを確認するリソース確認手段と、
    前記輻輳検出手段が前記輻輳を検出すると、複数の前記スイッチに対し、各々の前記残りリソースに応じて、前記フロー情報に係るサンプリングレートを設定するサンプリングレート設定手段と、
    複数の前記スイッチから、各々の前記フロー情報に含まれトラヒック量を示すトラヒック情報を収集するトラヒック情報収集手段と
    を有することを特徴とするトラヒック情報収集装置。
  2. 収集した前記トラヒック情報に基づいて、前記輻輳の原因となったフローを検出する輻輳原因特定手段
    をさらに有することを特徴とする請求項1に記載のトラヒック情報収集装置。
  3. 前記輻輳の原因となったフローの経路を、前記輻輳が検出されたスイッチを迂回するように変更する経路変更手段
    をさらに有することを特徴とする請求項2に記載のトラヒック情報収集装置。
  4. 前記サンプリングレート設定手段は、前記経路変更手段によって前記輻輳の原因となったフローの経路が変更されると、複数の前記スイッチに対して、各々の前記サンプリングレートを前記輻輳が検出する前の値に戻す
    ことを特徴とする請求項3に記載のトラヒック情報収集装置。
  5. 複数の前記スイッチは、各々が中央処理装置とメモリとを含むものであり、
    前記リソース確認手段によって確認される前記残りリソースは、複数の前記スイッチの残りメモリ量と、複数の前記スイッチに含まれる中央処理装置の残り使用率とを少なくとも含む
    ことを特徴とする請求項1ないし4の何れか一項に記載のトラヒック情報収集装置。
  6. 前記サンプリングレート設定手段は、各々の前記スイッチにおける前記残り使用率が高いほど、当該スイッチに設定する前記サンプリングレートを高くする
    ことを特徴とする請求項5に記載のトラヒック情報収集装置。
  7. 前記サンプリングレート設定手段は、各々の前記スイッチにおける前記残りメモリ量が当該スイッチにおけるフロー情報量以上であるときは、前記残りメモリ量が前記フロー情報量未満であるときよりも、当該スイッチに設定する前記サンプリングレートを高くする
    ことを特徴とする請求項5または6に記載のトラヒック情報収集装置。
  8. ネットワークに配置されフロー情報を収集する複数のスイッチのうち何れかの輻輳を検出する過程と、
    複数の前記スイッチの残りリソースを確認する過程と、
    前記輻輳を検出すると、複数の前記スイッチに対し、各々の前記残りリソースに応じて、前記フロー情報に係るサンプリングレートを設定する過程と、
    複数の前記スイッチから、各々の前記フロー情報に含まれトラヒック量を示すトラヒック情報を収集する過程と
    をコンピュータに実行させることを特徴とするトラヒック情報収集方法。
JP2015023299A 2015-02-09 2015-02-09 トラヒック情報収集装置およびトラヒック情報収集方法 Pending JP2016146581A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015023299A JP2016146581A (ja) 2015-02-09 2015-02-09 トラヒック情報収集装置およびトラヒック情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015023299A JP2016146581A (ja) 2015-02-09 2015-02-09 トラヒック情報収集装置およびトラヒック情報収集方法

Publications (1)

Publication Number Publication Date
JP2016146581A true JP2016146581A (ja) 2016-08-12

Family

ID=56686517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015023299A Pending JP2016146581A (ja) 2015-02-09 2015-02-09 トラヒック情報収集装置およびトラヒック情報収集方法

Country Status (1)

Country Link
JP (1) JP2016146581A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018093383A (ja) * 2016-12-05 2018-06-14 Kddi株式会社 通信監視装置、通信監視方法及び通信監視プログラム
JP2022537825A (ja) * 2019-06-25 2022-08-30 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ソフトウェア定義型ネットワークにおいて限られた転送ルールで負荷分散を改善するデバイスおよび方法
CN115002009A (zh) * 2022-05-17 2022-09-02 中国电信股份有限公司 一种流量采样方法、装置、系统、电子设备及介质
US11683343B2 (en) 2018-10-26 2023-06-20 Netography, Inc. Distributed network and security operations platform

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018093383A (ja) * 2016-12-05 2018-06-14 Kddi株式会社 通信監視装置、通信監視方法及び通信監視プログラム
US11683343B2 (en) 2018-10-26 2023-06-20 Netography, Inc. Distributed network and security operations platform
US11711398B2 (en) * 2018-10-26 2023-07-25 Netography, Inc. Distributed network security service
JP2022537825A (ja) * 2019-06-25 2022-08-30 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ソフトウェア定義型ネットワークにおいて限られた転送ルールで負荷分散を改善するデバイスおよび方法
JP7351595B2 (ja) 2019-06-25 2023-09-27 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ソフトウェア定義型ネットワークにおいて限られた転送ルールで負荷分散を改善するデバイスおよび方法
CN115002009A (zh) * 2022-05-17 2022-09-02 中国电信股份有限公司 一种流量采样方法、装置、系统、电子设备及介质

Similar Documents

Publication Publication Date Title
US11818025B2 (en) Methods, systems, and apparatus to generate information transmission performance alerts
Queiroz et al. An approach for SDN traffic monitoring based on big data techniques
US10560311B2 (en) Management apparatus, management method, and recording medium
JP4774357B2 (ja) 統計情報収集システム及び統計情報収集装置
JP5300076B2 (ja) コンピュータシステム、及びコンピュータシステムの監視方法
EP1742416B1 (en) Method, computer readable medium and system for analyzing and management of application traffic on networks
CN101933290B (zh) 基于流信息对网络设备上的acl进行配置的方法
EP2081321A2 (en) Sampling apparatus distinguishing a failure in a network even by using a single sampling and a method therefor
JP4542359B2 (ja) ネットワーク監視装置及び監視方法、並びに監視システム
JP4988674B2 (ja) ネットワーク監視装置、ネットワーク監視方法、および、ネットワーク監視プログラム
CN108370333B (zh) 用于分段路由网络中性能测量的系统、方法和节点
EP3222003B1 (en) Inline packet tracing in data center fabric networks
JP2011146920A (ja) トポロジーツリー作成装置、プログラム、及び方法
JP2008283621A (ja) ネットワーク輻輳状況監視装置、ネットワーク輻輳状況監視方法及びプログラム
JP2010088031A (ja) アンダーレイネットワーク障害検知方法及びネットワークシステム
JP2016146581A (ja) トラヒック情報収集装置およびトラヒック情報収集方法
JP3868939B2 (ja) 通信ネットワークの障害を検出する装置
JP2022515990A (ja) 通信ネットワークにおけるトラフィックフローをモニタリングするシステム及び方法
Luong et al. Traffic monitoring in software defined networks using opendaylight controller
JP2013030092A (ja) ログ管理システム、ログ管理装置及びログ管理方法
JP2005286684A (ja) トラフィックフロー計測環境設定方式
JP4871775B2 (ja) 統計情報収集装置
CN106161339A (zh) 获取ip访问关系的方法及装置
JP2016100799A (ja) 監視システムおよび監視方法
JP5443406B2 (ja) 推定装置、推定方法、ネットワークシステム及び推定プログラム