JP7396469B2

JP7396469B2 - トラフィックモニタリング装置、方法及びプログラム

Info

Publication number: JP7396469B2
Application number: JP2022514890A
Authority: JP
Inventors: 暢間野; 幸男築島; 智也日比; 潤紀市川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2023-12-12
Anticipated expiration: 2040-04-14
Also published as: EP4138345A1; WO2021210056A1; US11924097B2; US20230179519A1; EP4138345A4; JPWO2021210056A1

Description

本開示は、単位時間当たりの多量なトラフィックに対するＩＰフローの計測を高速に処理するための技術である。

ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワークにおいてトラフィック計測は日々の管理、運用、課金に必要な技術であるとともに設備計画、収容設計、トラフィックエンジニアリングやセキュリティ対応に必要な情報を提供する重要なタスクである。ＩＰフロー計測は代表的なＩＰトラフィック計測のひとつである。フロー毎のパケット数やバイト数などの統計量を計測する。例えば、ＮｅｔＦｌｏｗ、ｓＦｌｏｗ、ｉｐｆｉｘなどである。ここでフローとは観測の粒度でありＩＰアドレスペア（送信元アドレス、宛先アドレス）であったり、ＩＰ５タプル（送信元ＩＰアドレス、宛先ＩＰアドレス、プロトコル番号、送信元ポート、宛先ポート）などである。ＩＰ５タプルは、５Ｔｕｐｌｅと表記することがある。

ＩＰフロー計測では受信パケット毎にパケットがどのフローに属するかを識別し対応するカウンタを更新する。高速なトラフィックに対しては、このカウンタ更新も高速に処理する必要がある。

ＰａｔＪｒ，Ｍｏｒｉｎ． "ＯｐｅｎＤａｔａＳｔｒｕｃｔｕｒｅｓ．" ＡＵＰｒｅｓｓＡｔｈａｂａｓｃａＵｎｉｖｅｒｓｉｔｙ，２０１３．ｈｔｔｐ：／／ｗｗｗ．ａｕｐｒｅｓｓ．ｃａ／ｉｎｄｅｘ．ｐｈｐ／ｂｏｏｋｓ／１２０２２６

ＩＰネットワークのトラフィック計測である、ＩＰフローの計測では、一定時間間隔でフローごとの統計量を計測し、メモリ上のハッシュテーブルに記録した後にハードディスクに格納し、次の一定時間間隔のフローを計測することを繰り返して行う。パケットを受信してハッシュテーブルにフロー情報を記録するためには、メモリ上のハッシュテーブルの記録対象となる領域を検索する必要がある。この検索の際のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）とメモリの間のデータ転送は、ハッシュテーブルの複数ｂｙｔｅの領域単位であるキャッシュラインごとに行われるため、ハッシュテーブルに格納されるデータのメモリ配置およびメモリの占有率によってはデータ転送回数が多くなりＩＰフローの記録に時間がかかる場合がある。このようなＩＰフロー計測の処理速度がパケットの到着速度よりも遅い場合にはパケットの記録漏れが発生し、正しいフロー情報が計測できないという問題があった。

本開示は、時系列的に変化する高速なトラヒックに対応したＩＰフローを計測可能にすることを目的とする。

本開示に係るトラフィックモニタリング装置は、パケット受信部、フローデータ記録部、フローデータ出力部に加えて、過去に計測されたフロー数の時系列データから次の計測区間でのトラフィックの状況を予測するトラフィック特徴量計算部と、予測されたトラフィックの状況からメモリアクセス数が小さくなるメモリ配置方法を選定するフローデータ配置方法決定部と、を備える。

具体的には、本開示に係るトラフィックモニタリング装置は、
ネットワークにおけるトラフィックをモニタリングする装置であって、
ネットワーク内のフローごとに、計測に用いるメタデータ及びフロー情報を記録するメモリを備え、
ネットワーク内を流れるパケットを用いてトラフィックの状況を予測し、
前記メモリにおける前記メタデータ及び前記フロー情報の記録対象領域を、予測したトラフィックの状況に基づいて設定する。

具体的には、本開示に係るトラフィックモニタリング方法は、
ネットワークにおけるトラフィックをモニタリングするトラフィックモニタリング装置が実行するトラフィックモニタリング方法であって、
前記トラフィックモニタリング装置は、ネットワーク内のフローごとに、計測に用いるメタデータ及びフロー情報を記録するメモリを備え、
ネットワーク内を流れるパケットを用いてトラフィックの状況を予測し、
前記メモリにおける前記メタデータ及び前記フロー情報の記録対象領域を、予測したトラフィックの状況に基づいて設定する。

具体的には、本開示に係るトラフィックモニタリングプログラムは、本開示に係るトラフィックモニタリング装置に備わる各機能部をコンピュータに実現させるためのプログラムであり、本開示に係るトラフィックモニタリング方法に備わる各ステップをコンピュータに実行させるためのプログラムである。

本開示によれば、過去のＩＰフローの履歴に基づいて次の計測区間での最適なメモリ配置を決定してＩＰフローの計測を行うため、時系列的に変化する高速なトラヒックに対応したＩＰフロー計測を実現することができる。

ＩＰｖ４ペアをキーにもつハッシュテーブルの一例である。線形探索によるオープンアドレス法によるハッシュ値の衝突の解決の一例である。ハッシュテーブルにおける課題の説明図である。ＩＰｖ４５Ｔｕｐｌｅ毎のパケット数（８Ｂｙｔｅ）を配置する際のキャッシュラインと要素サイズの一例である。キャッシュライン単位でのデータ配置の一例である。メモリ領域に敷き詰める配置の一例である。本開示に係る装置構成の一例である。中間的な配置の一例である。ＩＰｖ４５Ｔｕｐｌｅ計測のメモリアクセス回数の一例である。ＩＰｖ６ＰａｉｒのＵｎｐａｃｋｅｄな配置の一例である。ＩＰｖ６ＰａｉｒのＰａｃｋｅｄな配置の一例である。ＩＰｖ６ＰａｉｒのＰａｒｔｉａｌＰａｃｋｅｄな配置の一例である。ＩＰｖ６Ｐａｉｒ計測のメモリアクセス回数の一例である。ＩＰｖ６５ＴｕｐｌｅのＵｎｐａｃｋｅｄな配置の一例である。ＩＰｖ６５ＴｕｐｌｅのＰａｃｋｅｄな配置の一例である。ＩＰｖ６５Ｔｕｐｌｅ計測のメモリアクセス回数の一例である。

以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

（概要）
代表的なＩＰトラフィック計測であるＩＰフローの計測を高速トラフィックに対して実現するにはパケット受信毎にカウンタを高速に更新する必要がある。汎用サーバで高速なＩＰフロー計測の実現には、カウンタ更新処理のメモリアクセス回数の削減が必要である。ＩＰフロー計測で用いるフロー情報を記録するデータ構造においてメモリ配置をトラヒック状況に応じて変更することでメモリアクセス回数を削減する手法を提案する。本開示ではメモリへの記録に際してハッシュテーブルを用いる例を示すが、本開示はカウンタ更新処理を行う任意のメモリに適用可能である。

１．ハッシュテーブル
ハッシュテーブル［例えば非特許文献１参照。］は高速なＩＰフロー計測に用いられるデータ構造である。ハッシュテーブルは、ｋｅｙ及びｖａｌｕｅのペアを効率良く保存、更新するデータ構造を有する。ハッシュテーブルは、フローをｋｅｙに、カウンタをｖａｌｕｅとしてハッシュテーブルを利用することでフロー情報を記録、更新する。ハッシュテーブルは、検索、挿入、更新がＯ（１）で実現できるため高速な記録、更新ができる。ハッシュテーブルの処理を高速化することでＩＰフローの計測が高速に実現できる。

ハッシュテーブルはｋｅｙのハッシュ値を計算し、対応するメモリアドレスにｖａｌｕｅを保存する（図１）。ハッシュ値はハッシュ関数によって計算される。ハッシュ関数は入力を固定長の０－１ビット列に変換する関数である。ハッシュ関数の例は、Ｃｙｃｌｉｃｒｅｄｕｎｄａｎｃｙｃｈｅｃｋ（ＣＲＣ）、ＳＨＡ－１、ＭｕｒｍｕｒＨａｓｈなどである。

図１はＩＰｖ４で定められる送信元アドレスと宛先アドレスのペアをキーにもつハッシュテーブルの例である。異なるｋｅｙが同じハッシュ値をもつこと（ハッシュ値の衝突）があるので、ハッシュテーブルにはｖａｌｕｅとともにｋｅｙを保存しておく。

ハッシュ値の衝突が発生した場合の対処方法はおおきく２つ存在する。具体的には、オープンアドレス法及びチェイン法である。チェイン法は、各ハッシュ値に対応したリストを用意しておき、ハッシュ衝突の際にはそのリストに追加する。

オープンアドレス法は、各ハッシュ値に固定長配列を用意し、ここに直接ｋｅｙとｖａｌｕｅのペアを格納する。ハッシュ衝突の際には配列の中の空き要素に格納する。空き要素がない場合の処理は様々な手法が提案されているが、線形探索によるオープンアドレス法では、次のハッシュ値に対応する配列の空き要素に格納する（図２）。もし、ここにも空き要素がない場合はさらに次のハッシュ値に対応する配列を調べる。
このように隣接する配列から空き要素を線形に探索していく。

図２では要素Ａと要素Ｂが同じハッシュ値をもちハッシュ値の衝突が発生している要素Ｂの本来の格納場所には既に要素Ａが格納されている。次のハッシュ値（２進数表記では１０）に対応する場所に要素Ｂが格納されている。

２．課題
高速なＩＰフロー計測を実現するためには、使用可能なメモリ量に限りがあるなかで、キャッシュラインを考慮したメモリアクセス回数が小さくなるようなハッシュテーブルが必要である。

高速なＩＰフロー計測を実現するためには、ハッシュテーブルにおける性能ボトルネックであるメモリアクセスを削減する必要がある。これはＣＰＵの処理速度に比べてメモリアクセス速度が相対的に遅いためである。汎用サーバは階層的なメモリ構成となっており、複数のキャッシュメモリとメインメモリから構成されている。キャッシュメモリは容量が小さいが高速、メインメモリは容量が大きいが低速である。

本開示では以下の状況を想定する。
・ハッシュテーブルのｋｅｙとｖａｌｕｅのペアはいずれもキャッシュメモリ上に存在せず、それ以外のデータは全てキャッシュメモリ上に存在する。
・大量のＩＰフローを計測する。
・キャッシュメモリの容量が小さく、大量のＩＰフローにそれぞれに対応する大量のｋｅｙとｖａｌｕｅペアは大部分がキャッシュメモリに格納することができない。
・メインメモリへのアクセスをメモリアクセス回数とする。
・キャッシュメモリは高速にアクセスできるためメインメモリアクセスが処理時間の大部分を占める。

ハッシュ値の衝突がなければカウンタ更新はひとつのｋｅｙとｖａｌｕｅのペアを取得するためのメモリアクセスで十分である。例えば、挿入時ハッシュ値が衝突しなければ、ハッシュ値に対応するｋｅｙとｖａｌｕｅのペアは空であるから、そのペアに記録して挿入処理は終了である。

一方でハッシュ値が衝突した場合は空のｋｅｙとｖａｌｕｅペアを探すために、２つ以上のｋｅｙとｖａｌｕｅペアにアクセスする必要がある。例えば、図２では要素Ａと要素Ｂが同じハッシュ値１をもち、ハッシュ値が衝突している。要素Ａが挿入された後に要素Ｂを挿入する際はハッシュ値１に対応するｋｅｙとｖａｌｕｅのペアとその隣りのハッシュ値２に対応するｋｅｙとｖａｌｕｅのペアに２つにアクセスする必要がある。

したがって、ハッシュ値の衝突回数や衝突時の処理に必要なメモリアクセスを削減する必要がある。

メモリアクセスを削減する際には次の２点を考慮する必要がある。
（１）使用可能なメモリには限りがある。
ハッシュ空間のサイズが大きいほどハッシュ値の衝突確率は小さくなるが使用可能なメモリ量には限界があるためハッシュ空間を際限なく大きくすることはできない。

（２）メモリアクセス回数はＢｙｔｅ数から計算するのではなく、アクセスしたキャッシュラインの数となる。
ＣＰＵとメモリの間のデータ転送は１ｂｉｔ単位ではなく複数ｂｙｔｅからなる領域単位で実行される（図３）。この単位はキャッシュラインまたはキャッシュブロックと呼ばれる。汎用サーバで利用されるＩｎｔｅｌ（登録商標）やＡＭＤ（ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ）（登録商標）のＣＰＵでは、この領域のサイズは６４ｂｙｔｅである。

例えばデータが２つのキャッシュラインにまたがり格納されていた場合、そのデータを取得するのに必要なメモリアクセス回数は２回となる。図３はデータＡが３行目のキャッシュライン、データＢが３行目と４行目のキャッシュラインにまたがって格納されている。また、データＣ，Ｄが５行目のキャッシュラインに格納されている。データＡにアクセスするにはキャッシュラインの転送は１回で十分だが、データＢにアクセスするにはキャッシュラインの転送が２回必要となる。データＣとデータＤの両方にアクセスする場合でもキャッシュラインの転送は１回で十分となる。

そこで、使用可能なメモリ量のなかでハッシュ衝突によるメモリアクセス回数を削減するようにｋｅｙとｖａｌｕｅのペアを配置する手法が必要となる。

３．開発技術の具体的な説明
開発技術はＩＰフロー計測で用いるフロー情報を記録するハッシュテーブルのメモリ配置をトラヒック状況に応じて変更することでメモリアクセス回数を削減する。トラフィックの状況は、メモリへの負荷に影響する任意の情報を考慮することが可能である。例えば、フロー情報を取得したパケットの数や観測した相異なるフローの数が例示できる。このほか、パケット長などのパケットから取得可能な任意の情報を用いてもよい。

開発技術を説明するためにまず、ハッシュテーブルのデータのメモリ配置により、メモリアクセス回数、つまりキャッシュラインのアクセス回数が変化することを説明する。次に開発技術の全体像を説明する。最後に具体例として次のフロー毎にＩＰトラフィックを計測する場合のメモリ配置の変更方法について説明する。
・ＩＰｖ４５Ｔｕｐｌｅ
・ＩＰｖ６Ｐａｉｒ
・ＩＰｖ６５ｔｕｐｌｅ

ここで、ＩＰｖ４５Ｔｕｐｌｅは、ＩＰｖ４で定められる５Ｔｕｐｌｅである。ＩＰｖ４での送信元ＩＰアドレスを「ＩＰｖ４ｓｒｃ」と表記し、ＩＰｖ４での宛先ＩＰアドレスを「ＩＰｖ４ｄｓｔ」と表記し、送信元ポート番号を「Ｓｏｕｒｃｅｐｏｒｔ」と表記し、宛先ポート番号を「Ｄｅｓｔｉｎａｔｉｏｎｐｏｒｔ」と表記することがある。ＩＰｖ６５Ｔｕｐｌｅについても同様である。ＩＰｖ６Ｐａｉｒは、ＩＰｖ６で定められる送信元アドレスと宛先アドレスのペアである。

３．１メモリ配置方法とメモリアクセス回数
ハッシュテーブルのデータのメモリ配置により、メモリアクセス回数、つまりキャッシュラインのアクセス回数が変化することを説明する。ＩＰｖ４５Ｔｕｐｌｅ毎のパケット数を計測するＩＰフロー計測を考える（図４）。

ハッシュテーブルのｋｅｙとｖａｌｕｅは次のようになる。ｋｅｙはフロー情報すなわちＩＰｖ４５Ｔｕｐｌｅであり、１６Ｂｙｔｅの領域に記録する。ｖａｌｕｅはパケット数、ここでは６４ｂｉｔ（８Ｂｙｔｅ）整数に記録するとする。このときｋｅｙとｖａｌｕｅのサイズ合計は２４Ｂｙｔｅである。

少なくとも、次の２通りのデータの配置方法がある。
第１の配置方法：キャッシュラインアクセスを小さくするためのキャッシュライン単位の配置方法（図５）
第２の配置方法：メモリ領域を有効活用するために使用可能なメモリ領域に敷き詰める配置方法（図６）

３．１．１第１の配置方法の説明（図５）
６４ｂｙｔｅのキャッシュラインに対し、ｋｅｙとｖａｌｕｅのサイズ合計は２４Ｂｙｔｅである。そこで、キャッシュラインアクセスを小さくするためのキャッシュライン単位の配置方法では、各キャッシュラインの先頭領域から２つの要素を配置する。これにより、どの要素も一つのキャッシュラインにアクセスすることで要素へアクセスできる。
各キャッシュラインの後方領域が未使用となっている。
使用可能なメモリ量がキャッシュラインに換算してＮ行の場合、ハッシュ空間は最大Ｎで、格納可能な要素数は最大２Ｎとなる。

３．１．２第２の配置方法の説明（図６）
使用可能なメモリ領域に敷き詰める配置方法では、使用可能なメモリ領域に隙間なく要素を配置する。各キャッシュラインに未使用となっている領域はない。
複数のキャッシュラインにまたがって配置されている要素が存在するため、要素アクセスに複数回のメモリアクセスが必要となる場合がある。
使用可能なメモリ量がキャッシュラインに換算してＮ行の場合、ハッシュ空間は最大Ｎ／３で、格納可能な要素数は最大８Ｎ／３となる。

３．１．３メモリ配置とアクセス回数
例えば３番目の要素にアクセスするには、
第１の配置方法では２行目のキャッシュラインにのみアクセスすれば良い（図５）が、
第２の配置方法では１行目と２行目のキャッシュラインにアクセスする必要がある（図６）。
また、
ハッシュ空間は第１の配置方法が第２の配置方法より大きく、
格納できる要素数では第２の配置方法が第１の配置方法より大きい。
これらの理由から、同じ要素集合を挿入した場合でもメモリアクセス回数が異なる。定量的な差については後述する。

３．２開発技術の全体像
通常のＩＰフロー計測器が、パケットを受信し、フローデータを記録し、フローデータを出力するのに対して、本開示はトラヒック特徴量計算部とフローデータ配置決定部をさらに備える（図７）。まず、通常のＩＰフロー計測器の動作について説明し、その差分として開発技術の動作を説明する。

３．２．１従来技術の構成及び動作
通常のＩＰフロー計測器は、パケット受信部１１、フローデータ記録部１２、フローデータ出力部１３から構成される。すなわち、図７においてトラフィック特徴量計算部１４とフローデータ配置決定部１５を備えない構成に相当する。ここでＩＰフロー計測とは一定時間間隔でフロー毎の統計量を計測、記録することとする。例えばＩＰｖ４ペア毎の通信量（バイト数）を計測し、１０秒毎に直近１０秒間に計測されたフロー情報を記録することなどである。また、フロー種別や統計量、時間間隔はネットワーク運用者が、管理するネットワークの特性、状況やそのとき必要としている情報などから決定する。

パケット受信部１１は、外部からパケットを受信する。そして受信したパケット毎にパケットヘッダを読み、フロー情報とパケットのメタデータを抽出する。抽出したフロー情報とメタデータをフローデータ記録部１２に入力する。

ここで、フロー情報は、パケットのフローを表す情報であり、パケットヘッダから取得可能な任意の情報を含む。フロー情報は、計測対象のフロー種別に応じて異なる。例えば、フロー種別がＩＰｖ４ペアである場合、フロー情報はＩＰｖ４の送信元アドレス及び宛先アドレスである。

メタデータは、計測に用いるデータであり、パケットヘッダから取得可能な１以上の任意のデータを含む。例えば、フロー毎のデータ量を計測する場合、メタデータはパケットの長さである。

フローデータ記録部１２は、フロー情報とメタデータを受け取り、ハッシュテーブルからフローに対応するカウンタを更新する。具体的にはフローに対応するカウンタを検索し、存在する場合は対応するカウンタを更新し、存在しない場合はエントリを作成し、カウンタ値をメタデータに基づき設定する。例えばカウンタが通信量（バイト数）である場合、エントリが存在するときは以前のカウンタ値に現在のパケット長を加算し、エントリが存在しない場合はエントリを作成し、カウンタ値を受信したパケット長の値に設定する。このカウンタ更新処理速度がパケット到着速度よりも遅いとパケットの記録漏れが発生するため正しいフロー情報を計測できない。

フローデータ出力部１３は一定時間間隔でハッシュテーブルの全てのフローのエントリを読み取り、その内容を外部のデータベースやローカルの不揮発ディスクに書き込み永続化させる。これはハッシュテーブルが揮発メモリ上に保存されており、ＩＰフローを計測するアプリケーションが終了すると不揮発メモリ上から削除されるためである。ハッシュテーブルが揮発メモリ上に保存されている理由は揮発メモリのほうが不揮発メモリに比べ高速だからである（例えばメインメモリとハードディスクのアクセス速度など）。フローデータ出力部１３はフローデータを永続化後、ハッシュテーブルの全てのエントリをゼロクリア（初期化）し、次の計測に備える。

３．２．２本開示技術の構成及び動作
図７に、本開示に係るシステム構成の一例を示す。ＩＰフロー計測器１０は、本開示に係るトラフィックモニタリング装置として機能し、パケット受信部１１、フローデータ記録部１２、フローデータ出力部１３、トラフィック特徴量計算部１４、フローデータ配置決定部１５を備える。本開示の装置はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

従来の方法ではハッシュテーブル上でのエントリ配置方法は一通りであったが、本開示のＩＰフロー計測器１０は、トラフィック状況に応じて配置方法を変える。トラフィック特徴量計算部１４は、トラフィックの状況を把握する。その結果に従い、フローデータ配置決定部１５がハッシュテーブルのエントリ配置方法を決定する。その決定された配置方法に従い、フローデータ記録部１２はハッシュテーブル上にエントリを配置する。またフローデータ出力部１３も、決定された配置方法に従い、ハッシュテーブルのエントリを読出す。

トラフィック特徴量計算部１４における具体的な特徴量の計算方法は次節で説明する。次節ではフローの特徴量としてフロー数を採用し、次の計測間隔でのフロー数を予測し、その数に従いエントリの配置方法を決定している。以下ではＩＰｖ６Ｐａｉｒ毎の計測の場合を例として、トラフィック特徴量計算部１４及びフローデータ配置方法決定部１５の動作について説明する。

トラフィック特徴量計算部１４は、それぞれの計測間隔（例えば１０秒毎など）でフローデータ出力部１３によりハッシュテーブルがリセットされる直前にエントリ数を記録することで、それぞれの計測間隔中に計測されたフロー数のデータを蓄積する。このフロー数の時系列データから次のような典型的な統計的時系列予測手法を用いて、次の計測で出現するフロー数を予測する。予測結果であるフロー数をフローデータ配置決定部１５に入力する。

統計的時系列予測手法は、例えば、以下を用いることができる。
・直前の値を利用
・自己回帰モデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅｍｏｄｅｌ）
・移動平均モデル（ｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ）
・自己回帰移動平均モデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅａｎｄｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ）
・自己回帰和分移動平均モデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ，ｉｎｔｅｇｒａｔｅｄａｎｄｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ）

フローデータ配置決定部１５は、予測されるフロー数とＵｎｐａｃｋｅｄな配置方法が収容できる最大のフロー数を比較して、図１３からメモリアクセス回数が小さくなる配置方法を決定する。Ｕｎｐａｃｋｅｄな配置方法が収容できる最大のフロー数は利用可能なメモリ量から計算できる。

図１３により、予測されるフロー数が『Ｕｎｐａｃｋｅｄな配置方法が収容できる最大のフロー数』の４割以下の場合はＵｎｐａｃｋｅｄな配置方法を選択し、それ以外の場合はＰａｒｔｉａｌＰａｃｋｅｄな配置方法を選択する。この選択された配置方法をフローデータ記録部１２とフローデータ出力部１３に渡す。フローデータ記録部１２では配置方法に従いエントリを配置し、フローデータ出力部１３でも、同様に配置方法に従いエントリを読み取る。

このようにトラヒックの特徴量にもとづいてハッシュテーブルのフローデータのハッシュテーブル上での配置方法を決定する。これらトラフィック特徴量計算部１４及びフローデータ配置決定部１５の追加により、トラヒック状況に応じてメモリ配置を変更することでメモリアクセス数を削減する。その他の場合の具体的なデータ配置方法については次節で説明する。

３．３具体的なデータ配置方法の決定
ＩＰフロー計測におけるメモリ配置の決定方法について説明する。次の３種類のフロー毎に６４ｂｉｔ整数に保存できる値（パケット数やバイト数など）を計測する場合について説明する。なお計測結果は一定時間毎に外部に出力し、その際計測データはゼロクリアされるものとする。
・ＩＰｖ４５Ｔｕｐｌｅ
・ＩＰｖ６Ｐａｉｒ
・ＩＰｖ６５ｔｕｐｌｅ

３．３．１Ｉｐｖ４５Ｔｕｐｌｅ毎の計測の場合
まず、３つのデータ配置方法について説明する。次に各配置の定量的なメモリアクセス回数比較について説明する。最後に、以上をふまえてデータ配置の決定方法について説明する。

（データ配置方法）
メモリの配置方法として、前述した次の２つの方法に加えて、それらの中間的な方法を加え３つの配置方法について考える。
・第１の配置方法：キャッシュライン単位でのデータ配置（図５）。この場合、フローデータ記録部１２は、各フローのフロー情報及びメタデータを、フロー情報ごとに異なるキャッシュラインに配置する。
・第２の配置方法：メモリ領域に敷き詰める配置（図６）。この場合、フローデータ記録部１２は、各フローのフロー情報及びメタデータを隙間なく配置する。
・第３の配置方法：第１の配置方法と第２の配置方法の中間的な配置（図８）。この場合、フローデータ記録部１２は、２つのキャッシュラインに分離して配置されるフローよりも１つのキャッシュラインに配置されるフローが多くなるように、各フローのフロー情報及びメタデータを配置する。
以降、簡単のため、第１の配置方法をＵｎｐａｃｋｅｄ、第２の配置方法をＰａｃｋｅｄ、第３の配置方法をＰａｒｔｉａｌＰａｃｋｅｄと書く。

（メモリアクセス回数）
図９は利用可能なメモリ領域が１ＧｉＢ（１０２４^３Ｂｙｔｅ）の場合、つまりキャッシュラインの数に換算すると２^２４行のキャッシュラインが利用可能な場合に相異なる一様ランダムな要素を連続でハッシュテーブルに挿入した際のキャッシュラインの追加アクセス回数である。挿入操作では必ず１回のキャッシュラインにアクセスするため、その１回を引いた値をプロットした。縦軸がキャッシュラインのアクセス回数で横軸は追加した要素数である。追加した要素数はＵｎｐａｃｋｅｄなメモリ配置で最大格納できる要素数を１とした割合で表記してある。Ｕｎｐａｃｋｅｄな配置が格納できる要素数が３つの配置方法のなかで最小であるためである。

ここで、フロー情報の記録時には、（１）処理すべきパケットのＩＰに対応する要素がすでに記録されているかどうかの検索と、（２）記録されていない新たなＩＰの場合にハッシュテーブルの空いている領域を検索して記録する、という２つの処理を行う。そのため、ハッシュテーブルに記録されている要素が比較的少ない場合は（１）の検索を少ないアクセス回数で行えるＵｎｐａｃｋｅｄの方が有利である。一方、記録されている要素が多くなり、ハッシュテーブルの占有率が大きくなると、Ｕｎｐａｃｋｅｄでは（１）および（２）の処理においてより多くのキャッシュラインを検索する必要があるため、Ｐａｃｋｅｄ又はＰａｒｔｉａｌｐａｃｋｅｄの方が検索するライン数が少なくなり有利になる。したがって、処理すべきパケットが増えるほどＵｎｐａｃｋｅｄの方がアクセス回数が増える。

図９より挿入する要素数がＵｎｐａｃｋｅｄで格納できる最大数の７割以下の場合はＵｎｐａｃｋｅｄな配置が、それ以上ではＰａｒｔｉａｌＰａｃｋｅｄな配置がメモリアクセス数を最小化していることが確認できる。

（データ配置の決定方法）
過去のトラフィック特徴量の履歴から次の計測区間（計測結果出力から次の結果出力までの間）に観測されるフロー数を予測し、その値とＵｎｐａｃｋｅｄな配置で格納できる最大数と比較することでメモリアクセス数が最小となる配置を選択する。

フロー数の予測には一般的な時系列予測が利用でき、例えば次のような方法が使用できる。
・直前の値を利用
・自己回帰モデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅｍｏｄｅｌ）
・移動平均モデル（ｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ）
・自己回帰移動平均モデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅａｎｄｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ）
・自己回帰和分移動平均モデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ，ｉｎｔｅｇｒａｔｅｄａｎｄｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ）

図９より、予測結果がＵｎｐａｃｋｅｄで格納できる最大数の７割以下の場合はＵｎｐａｃｋｅｄな配置を利用して、それ以上の場合はＰａｒｔｉａｌＰａｃｋｅｄな配置を利用する。

３．３．２ＩＰｖ６Ｐａｉｒ毎の計測の場合
ＩＰｖ４５Ｔｕｐｌｅと同様に、まず、３つのデータ配置方法について説明する。次に各配置の定量的なメモリアクセス回数比較について説明する。最後に、以上をふまえてデータ配置の決定方法について説明する。

（データ配置方法）
メモリの配置方法として、ＩＰｖ４５Ｔｕｐｌｅと同様に次の３つの配置方法について考える。
・第１の配置方法：キャッシュライン単位でのデータ配置、すなわちＵｎｐａｃｋｅｄな配置（図１０）
・第２の配置方法：メモリ領域に敷き詰める配置、すなわちＰａｃｋｅｄな配置（図１１）
・第３の配置方法：第１の配置方法と第２の配置方法の中間的な配置、すなわちＰａｒｔｉａｌＰａｃｋｅｄな配置（図１２）

（メモリアクセス回数）
図１３は利用可能なメモリ領域が１ＧｉＢ（１０２４^３Ｂｙｔｅ）の場合、つまりキャッシュラインの数に換算すると２^２４行のキャッシュラインが利用可能な場合に相異なる一様ランダムな要素を連続でハッシュテーブルに挿入した際のキャッシュラインの追加アクセス回数である。挿入操作では必ず１回のキャッシュラインにアクセスするため、その１回を引いた値をプロットした。縦軸がキャッシュラインのアクセス回数で横軸は追加した要素数である。追加した要素数はＵｎｐａｃｋｅｄなメモリ配置で最大格納できる要素数を１とした割合で表記してある。Ｕｎｐａｃｋｅｄな配置が格納できる要素数が３つの配置方法のなかで最小であるためである。

図１３より挿入する要素数がＵｎｐａｃｋｅｄで格納できる最大数の４割以下の場合はＵｎｐａｃｋｅｄな配置が、それ以上ではＰａｒｔｉａｌＰａｃｋｅｄな配置がメモリアクセス数を最小化していることが確認できる。

図１３より、予測結果がＵｎｐａｃｋｅｄで格納できる最大数の４割以下の場合はＵｎｐａｃｋｅｄな配置を利用して、それ以上の場合はＰａｒｔｉａｌＰａｃｋｅｄな配置を利用する。

３．３．３ＩＰｖ６５Ｔｕｐｌｅ毎の計測の場合
ＩＰｖ４５Ｔｕｐｌｅと同様に、まず、２つのデータ配置方法について説明する。次に各配置の定量的なメモリアクセス回数比較について説明する。最後に、以上をふまえてデータ配置の決定方法について説明する。

（データ配置方法）
メモリの配置方法として次の２つの配置方法について考える。
・第１配置方法：キャッシュライン単位でのデータ配置、すなわちＵｎｐａｃｋｅｄな配置（図１４）
・第２配置方法：メモリ領域に敷き詰める配置、すなわちＰａｃｋｅｄな配置（図１５）
なお、ＩＰｖ４５Ｔｕｐｌｅ及びＩＰｖ６ＰａｉｒでのＰａｒｔｉａｌＰａｃｋｅｄに相当する配置は、要素のサイズがキャッシュラインサイズに比べ大きいため、そのように配置することができない。

（メモリアクセス回数）
図１６は利用可能なメモリ領域が３ＧｉＢ（３×１０２４^３Ｂｙｔｅ）の場合、つまりキャッシュラインの数に換算すると３×２^２４行のキャッシュラインが利用可能な場合に相異なる一様ランダムな要素を連続でハッシュテーブルに挿入した際のキャッシュラインの追加アクセス回数である。挿入操作では必ず１回のキャッシュラインにアクセスするため、その１回を引いた値をプロットした。縦軸がキャッシュラインのアクセス回数で横軸は追加した要素数である。追加した要素数はＵｎｐａｃｋｅｄなメモリ配置で最大格納できる要素数を１とした割合で表記してある。Ｕｎｐａｃｋｅｄな配置が格納できる要素数が２つの配置方法のなかで最小であるためである。

図１６より挿入する要素数がＵｎｐａｃｋｅｄで格納できる最大数の４．５割以下の場合はＵｎｐａｃｋｅｄな配置が、それ以上ではＰａｃｋｅｄな配置がメモリアクセス数を最小化していることが確認できる。

図１６より、予測結果がＵｎｐａｃｋｅｄで格納できる最大数の４．５割以下の場合はＵｎｐａｃｋｅｄな配置を利用して、それ以上の場合はＰａｃｋｅｄな配置を利用する。

４．本開示技術によって生じる効果
代表的なＩＰトラフィック計測であるＩＰフローの計測を高速トラフィックに対して実現するにはパケット受信毎にカウンタを高速に更新する必要がある。本開示技術により、カウンタ更新処理中のメモリアクセス回数が削減され、高速に処理が完了するため高速なトラフィックに対してもＩＰフロー計測が実現できる。

（発明のポイント）
汎用サーバで高速なＩＰフロー計測を実現には、カウンタ更新処理のメモリアクセス回数を削減が必要である。これはＣＰＵでの演算速度に比べメモリアクセス速度が相対的に遅いためである。フロー情報及びメタデータの配置方法には自由度があり、その配置方法と格納する要素数によりメモリアクセス回数が異なる。到着するフロー数を予測し、メモリ配置方法を変更することでメモリアクセス回数を削減することができる。

（付記１）
受信したパケットからフロー情報とメタデータを抽出するパケット受信部と、
フロー情報からメモリのハッシュテーブルの記録対象領域を検索してフロー情報とメタデータを記録するフローデータ記録部と、
一定時間間隔でメモリのハッシュテーブルのすべてのエントリを読み取り、外部の記録媒体に書き込み永続化させるとともにメモリのハッシュテーブルを初期化するフローデータ出力部と、
過去に計測されたフロー数の時系列データから次の計測区間でのフロー数を予測するトラヒック特徴量計算部と、
フロー種別と予測された次の計測区間のフロー数からメモリアクセス数が最小となるメモリ配置方法を選定するフローデータ配置方法決定部と、
を備え、
フローデータ記録部とフローデータ出力部は、フローデータ配置方法決定部が選定したメモリ配置方法に従い機能することを特徴とするトラフィックモニタリング装置。

（付記２）
パケット受信部が、受信したパケットからフロー情報とメタデータを抽出し、
フローデータ記録部が、フロー情報からメモリのハッシュテーブルの記録対象領域を検索してフロー情報とメタデータを記録し、
フローデータ出力部が、一定時間間隔でメモリのハッシュテーブルのすべてのエントリを読み取り、外部の記録媒体に書き込み永続化させるとともにメモリのハッシュテーブルを初期化するトラフィックモニタリング方法であって、
トラヒック特徴量計算部が、過去に計測されたフロー数の時系列データから次の計測区間でのフロー数を予測し、
フローデータ配置方法決定部が、フロー種別と予測された次の計測区間のフロー数からメモリアクセス数が最小となるメモリ配置方法を選定し、
前記フローデータ記録部及び前記フローデータ出力部は、前記フローデータ配置方法決定部が選定したメモリ配置方法に従い機能することを特徴とするトラフィックモニタリング方法。

（付記３）
パケット受信部が、受信したパケットからフロー情報とメタデータを抽出し、
フローデータ記録部が、フロー情報からメモリのハッシュテーブルの記録対象領域を検索してフロー情報とメタデータを記録し、
フローデータ出力部が、一定時間間隔でメモリのハッシュテーブルのすべてのエントリを読み取り、外部の記録媒体に書き込み永続化させるとともにメモリのハッシュテーブルを初期化する、
トラフィックモニタリング装置としてコンピュータを機能させるためのトラフィックモニタリングプログラムであって、
トラヒック特徴量計算部が、過去に計測されたフロー数の時系列データから次の計測区間でのフロー数を予測し、
フローデータ配置方法決定部が、フロー種別と予測された次の計測区間のフロー数からメモリアクセス数が最小となるメモリ配置方法を選定し、
前記フローデータ記録部及び前記フローデータ出力部は、前記フローデータ配置方法決定部が選定したメモリ配置方法に従い機能する、
各ステップをコンピュータに実行させることを特徴とするトラフィックモニタリングプログラム。

本開示は情報通信産業に適用することができる。

１０：トラフィックモニタリング装置
１１：パケット受信部
１２：フローデータ記録部
１３：フローデータ出力部
１４：トラフィック特徴量計算部
１５：フローデータ配置決定部

Claims

ネットワークにおけるトラフィックをモニタリングする装置であって、
ネットワーク内のフローごとに、計測に用いるメタデータ及びフロー情報を記録するメモリを備え、
ネットワーク内を流れるパケットを用いてトラフィックの状況を予測し、
前記メモリにおける前記メタデータ及び前記フロー情報の記録対象領域を、予測したトラフィックの状況に基づいて設定する、
トラフィックモニタリング装置。
パケットを受信し、受信したパケットから前記メタデータ及び前記フロー情報を抽出するパケット受信部と、
前記フロー情報から前記メモリの記録対象領域を検索し、検索した記録対象領域に前記メタデータ及び前記フロー情報を記録するフローデータ記録部と、
前記メモリに記録されている前記メタデータ及び前記フロー情報を外部に出力し、前記メモリに記録されている前記メタデータ及び前記フロー情報を初期化するフローデータ出力部と、
前記パケット受信部の受信したパケットから取得可能な情報を用いて、未来のトラフィックの状況を予測するトラフィック特徴量計算部と、
前記メモリにおける前記記録対象領域を、前記トラフィック特徴量計算部の予測したトラフィックの状況に基づいて設定するフローデータ配置方法決定部と、
を備え、
前記フローデータ記録部は、前記フローデータ配置方法決定部の設定に従い、フロー情報から前記メモリの記録対象領域を検索し、
前記フローデータ出力部は、前記フローデータ配置方法決定部の設定に従い、前記メモリに記録されている前記メタデータ及び前記フロー情報を読み出す、
請求項１に記載のトラフィックモニタリング装置。
前記メモリの記録対象領域は、キャッシュメモリ上に構築されているハッシュテーブルであり、
前記フローデータ配置方法決定部は、
（ｉ）前記メタデータ及び前記フロー情報を、フローごとに異なるキャッシュラインに配置する第１の配置方法、
（ｉｉ）前記メタデータ及び前記フロー情報を、各キャッシュラインに隙間なく敷き詰める第２の配置方法、
（ｉｉｉ）前記メタデータ及び前記フロー情報を、２つのキャッシュラインに分離して配置されるフローよりも１つのキャッシュラインに配置されるフローが多くなるように配置する第３の配置方法、
のいずれかのなかから、キャッシュラインのアクセス回数が最小になるものを選択する、
請求項２に記載のトラフィックモニタリング装置。
ネットワークにおけるトラフィックをモニタリングするトラフィックモニタリング装置が実行するトラフィックモニタリング方法であって、
前記トラフィックモニタリング装置は、ネットワーク内のフローごとに、計測に用いるメタデータ及びフロー情報を記録するメモリを備え、
ネットワーク内を流れるパケットを用いてトラフィックの状況を予測し、
前記メモリにおける前記メタデータ及び前記フロー情報の記録対象領域を、予測したトラフィックの状況に基づいて設定する、
トラフィックモニタリング方法。
前記トラフィックモニタリング装置は、
一定時間間隔で、前記メモリに記録されている前記メタデータ及び前記フロー情報を外部に出力し、前記メモリに記録されている前記メタデータ及び前記フロー情報を初期化し、
前記メモリに記録されている前記メタデータ及び前記フロー情報の初期化を契機に、前記メモリにおける前記メタデータ及び前記フロー情報の記録対象領域を、予測したトラフィックの状況に基づいて設定する、
請求項４に記載のトラフィックモニタリング方法。
ネットワークにおけるトラフィックをモニタリングするトラフィックモニタリング装置が実行するトラフィックモニタリングプログラムであって、
前記トラフィックモニタリング装置は、ネットワーク内のフローごとに、計測に用いるメタデータ及びフロー情報を記録するメモリを備え、
ネットワーク内を流れるパケットを用いてトラフィックの状況を予測し、
前記メモリにおける前記メタデータ及び前記フロー情報の記録対象領域を、予測したトラフィックの状況に基づいて設定する、
各ステップを前記トラフィックモニタリング装置に実行させるためのトラフィックモニタリングプログラム。