JP2022035056A

JP2022035056A - 情報処理装置およびパケット制御方法

Info

Publication number: JP2022035056A
Application number: JP2020139120A
Authority: JP
Inventors: 貴志清水; Takashi Shimizu; 智宏石原; Tomohiro Ishihara
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-03-04
Also published as: EP3958523B1; EP3958523A1; US11637767B2; US20220060405A1

Abstract

【課題】パケットのルーティングのスループットを向上させる。
【解決手段】情報処理装置は、第１のメモリと第２のメモリと制御部とを有する。第１のメモリは、パケットの転送方法を示すエントリが、パケットのヘッダ情報から算出されるハッシュ値に応じた位置に格納される第１のテーブルを記憶する。第２のメモリは、第１のテーブルより大きい第２のテーブルを記憶する。制御部は、第１のテーブルの更新の際に、第１のテーブルにおいて異なるエントリの格納位置が衝突する衝突状態を検出し、衝突状態の検出に応じて、第１のテーブルに格納されているエントリを第２のテーブルに移行し、第２のテーブルの更新の際に、衝突状態の解消を検出し、解消の検出に応じて、第２のテーブルに格納されているエントリを第１のテーブルに移行する。
【選択図】図１

Description

本発明は情報処理装置およびパケット制御方法に関する。

ソフトウェア制御によって仮想的なネットワークを実現するＳＤＮ（Software Defined Networking）が提案されている。ＳＤＮシステムは、コントロールプレーンとデータプレーンという２種類のモジュールを含む。コントロールプレーンは、スイッチ間のパケットの転送経路を決定し、パケットの処理方法を示すエントリを各スイッチのフローテーブルに登録する。データプレーンは、スイッチに到着したパケットとフローテーブルとを照合して、そのパケットの処理方法を決定する。

フローテーブルの１つのエントリは、１つのフローに対応する。フローは、送信元ＩＰ（Internet Protocol）アドレス、送信元ポート番号、宛先ＩＰアドレス、宛先ポート番号などのパケットのヘッダ情報によって規定される。フローテーブルの中のエントリが格納される位置は、ヘッダ情報から算出されるハッシュ値に基づいて決定される。データプレーンは、到着したパケットのハッシュ値を用いてフローテーブルを検索する。

なお、ルーティングテーブルを、高速なＣＡＭ（Contents Accessible Memory）と低速なＲＡＭ（Random Access Memory）とに跨がって格納するルータが提案されている。

特開２００２－２０８９４５号公報

データプレーンのパケット転送は、情報処理装置が有する限られたハードウェアリソースを用いて実装されることがある。例えば、サーバコンピュータに追加したＦＰＧＡ（Field Programmable Gate Array）などのハードウェアアクセラレータを用いて、データプレーンのパケット転送が実装されることがある。

この場合、フローテーブルを格納するメモリが、スループットのボトルネックになることがあるという問題がある。パケットを処理する回路との間に高速なインタフェースをもつメモリは、記憶容量が少ないことが多い。そのようなメモリにフローテーブルを格納すると、フローテーブルのサイズが小さくなり、ハッシュ値によって決定されるエントリの格納位置の衝突頻度が高くなる。一方、記憶容量が大きいメモリは、パケットを処理する回路との間に高速なインタフェースをもたないことが多い。そのようなメモリにフローテーブルを格納すると、フローテーブルのアクセス速度が低下する。

１つの側面では、本発明は、パケットのルーティングのスループットを向上させる情報処理装置およびパケット制御方法を提供することを目的とする。

１つの態様では、第１のメモリと第２のメモリと制御部とを有する情報処理装置が提供される。第１のメモリは、パケットの転送方法を示すエントリが、パケットのヘッダ情報から算出されるハッシュ値に応じた位置に格納される第１のテーブルを記憶する。第２のメモリは、第１のテーブルより大きい第２のテーブルを記憶する。制御部は、第１のテーブルの更新の際に、第１のテーブルにおいて異なるエントリの格納位置が衝突する衝突状態を検出し、衝突状態の検出に応じて、第１のテーブルに格納されているエントリを第２のテーブルに移行し、第２のテーブルの更新の際に、衝突状態の解消を検出し、解消の検出に応じて、第２のテーブルに格納されているエントリを第１のテーブルに移行する。

また、１つの態様では、コンピュータが実行するパケット制御方法が提供される。

１つの側面では、パケットのルーティングのスループットが向上する。

第１の実施の形態の情報処理装置を説明するための図である。第２の実施の形態の情報処理システムの例を示す図である。サーバ装置のハードウェア例を示すブロック図である。拡張ボードのハードウェア例を示すブロック図である。サーバ装置のソフトウェア例を示すブロック図である。フローテーブルの例を示す図である。フローテーブルのアクセス例を示す図である。最長プレフィクス一致の例を示す図である。ＦＰＧＡの回路構成例を示すブロック図である。衝突リストの例を示す図である。フロー登録の手順例を示すフローチャートである。フロー削除の手順例を示すフローチャートである。テーブル整理の手順例を示すフローチャートである。ルーティングの手順例を示すフローチャートである。ルーティングのスループットの例を示すグラフである。エントリの非衝突確率の例を示すグラフである。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、テーブルを参照してパケットを転送する。情報処理装置１０は、ＳＤＮのデータプレーンの機能を実装するものであってもよく、いわゆる仮想ルータを実装するものであってもよい。また、情報処理装置１０は、サーバコンピュータでもよく、仮想マシンを実行していてもよい。例えば、情報処理装置１０は、仮想ルータを用いて、仮想マシンが送受信するパケットを転送する。

情報処理装置１０は、メモリ１１，１２および制御部１３を有する。メモリ１１，１２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリである。メモリ１１および制御部１３は、ＦＰＧＡなどのハードウェアアクセラレータに含まれていてもよく、メモリ１２は、ハードウェアアクセラレータの外部に配置されていてもよい。例えば、メモリ１１はＦＰＧＡに含まれるＳＲＡＭ（Static Random Access Memory）、メモリ１２はＦＰＧＡに接続されたオンボードメモリであるＤＲＡＭ（Dynamic Random Access Memory）、制御部１３はＦＰＧＡに含まれる論理回路である。ただし、制御部１３がＣＰＵ（Central Processing Unit）であってもよく、メモリ１２がＣＰＵによって使用されるシステムメモリであるＤＲＡＭであってもよい。

パケットを処理する回路（例えば、ＦＰＧＡの論理回路）からメモリ１１には、高速なインタフェースを介してアクセスされる。一方、パケットを処理する回路からメモリ１２には、メモリ１１よりも低速なインタフェースを介してアクセスされる。よって、相対的に、メモリ１１は高速小容量のメモリであり、メモリ１２は低速大容量のメモリである。

メモリ１１は、テーブル１４を記憶する。テーブル１４がフローテーブルと呼ばれてもよい。テーブル１４は、複数のエントリを格納することができる。１つのエントリは、１つのフローに対応し、そのフローに属するパケットの処理方法を示している。フローは、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレス、宛先ポート番号などのヘッダ情報によって識別される。処理方法を示す情報は、パケットを転送するか破棄するかの情報を含んでもよく、ＩＰアドレスやポート番号を変換するためのＮＡＴ（Network Address Translation）情報を含んでもよい。また、処理方法を示す情報は、パケットを出力する通信インタフェースの情報を含んでもよい。

テーブル１４において、あるフローのエントリは、ヘッダ情報から算出されるハッシュ値に応じた位置に格納される。ハッシュ値は、例えば、ＣＲＣ（Cyclic Redundancy Checksum）３２として算出される３２ビットのビット列である。テーブル１４では、例えば、ハッシュ値の下位の所定長のビット列（例えば、下位１０ビットのビット列）が、エントリのインデックスとして使用される。一例として、エントリ１６ａは、192.168.24.20から10.1.120.5へのパケットをドロップすることを示している。テーブル１４では、エントリ１６ａは０ｘ００１の位置に格納される。また、エントリ１６ｂは、192.168.24.20から192.168.25.10へのパケットを転送することを示している。テーブル１４では、エントリ１６ｂは０ｘ２１０の位置に格納される。

メモリ１２は、テーブル１５を記憶する。テーブル１５がフローテーブルと呼ばれてもよい。テーブル１５は、テーブル１４と同様、複数のエントリを格納することができる。テーブル１５は、テーブル１４よりもサイズが大きく、テーブル１４よりも多くのエントリを格納することができる。テーブル１５では、例えば、ハッシュ値の下位の所定長のビット列（例えば、下位２０ビットのビット列）が、エントリのインデックスとして使用される。テーブル１５のインデックスのビット長は、テーブル１４よりも大きい。

フローが少ないうちは、全てのエントリがテーブル１４に格納されており、テーブル１５は空である。情報処理装置１０に到着したパケットの処理方法は、テーブル１４を参照して決定される。新たなフローのエントリは、テーブル１４に追加される。制御部１３は、テーブル１４の更新を監視する。そして、制御部１３は、テーブル１４において、異なるエントリの格納位置が衝突する衝突状態を検出する。例えば、テーブル１４に、エントリ１６ｃを追加しようとする場合を考える。エントリ１６ｃは、192.168.24.30から192.168.26.20へのパケットを転送することを示している。ヘッダ情報から算出されるハッシュ値によれば、テーブル１４では、エントリ１６ｃは０ｘ２１０の位置に格納される。しかし、テーブル１４ではエントリ１６ｂ，１６ｃの格納位置が衝突してしまう。

そこで、衝突状態を検出すると、制御部１３は、テーブル１４に格納されているエントリをテーブル１５に移行する。例えば、制御部１３は、テーブル１４に格納されている全てのエントリをテーブル１５にコピーする。テーブルサイズが異なるため、エントリの移行によって、各エントリのインデックスは変化する。テーブル１５が有効になると、情報処理装置１０に到着したパケットの処理方法は、テーブル１４に代えてテーブル１５を参照して決定される。テーブル１５はテーブル１４よりサイズが大きいため、テーブル１４では衝突するエントリの格納位置が分散する。例えば、テーブル１５では、エントリ１６ａが０ｘ００００１の位置に格納され、エントリ１６ｂが０ｘ１０２１０の位置に格納され、エントリ１６ｃが０ｘ２０２１０の位置に格納される。

テーブル１５が有効になると、エントリの追加や削除は、テーブル１４に代えてテーブル１５に対して行われる。制御部１３は、テーブル１５の更新を監視する。そして、制御部１３は、衝突状態の解消を検出する。例えば、制御部１３は、テーブル１４では格納位置が衝突することになるエントリを列挙した衝突リストを保持しておく。制御部１３は、衝突リストを用いて、テーブル１５の更新（例えば、テーブル１５からのエントリの削除）によって衝突状態が解消したことを検出してもよい。

衝突状態の解消を検出すると、制御部１３は、テーブル１５に格納されているエントリをテーブル１４に移行する。例えば、制御部１３は、テーブル１５に格納されている全てのエントリをテーブル１４にコピーする。テーブルサイズが異なるため、エントリの移行によって、各エントリのインデックスは変化する。テーブル１４が有効になると、情報処理装置１０に到着したパケットの処理方法は、再びテーブル１４を参照して決定される。

第１の実施の形態の情報処理装置１０によれば、フローを示すエントリの動的な追加や削除を通じて、ソフトウェアによる柔軟なネットワーク制御が可能となる。また、ＦＰＧＡなどの限定されたハードウェアリソースによって、仮想ルータを実装することができる。また、フローが少なくエントリの格納位置の衝突が発生していない間は、高速なメモリ１１に記憶されたテーブル１４を参照してパケット制御が行われる。一方、フローが多くテーブル１４ではエントリの格納位置の衝突が発生してしまうと、大容量のメモリ１２に記憶されたテーブル１５を参照してパケット制御が行われる。よって、パケット処理速度と登録可能フロー数のバランスを図って、スループットを向上させることができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

第２の実施の形態の情報処理システムは、仮想マシンを用いてコンピュータを仮想化し、仮想ルータを用いてネットワークを仮想化する。情報処理システムは、データセンタのシステムであってもよく、いわゆるクラウドシステムであってもよい。情報処理システムは、サーバ装置１００，１００ａ，１００ｂなどの複数のサーバ装置を含む。サーバ装置１００，１００ａ，１００ｂは、ネットワーク３０に接続されている。サーバ装置１００，１００ａ，１００ｂには、それぞれ１以上の仮想マシンが配置され、それぞれ仮想ルータが配置される。複数のサーバ装置の仮想ルータが連携して、それらサーバ装置上の仮想マシンが利用する仮想ネットワークを形成する。

図３は、サーバ装置のハードウェア例を示すブロック図である。
サーバ装置１００は、ＣＰＵ１０１、ＤＲＡＭ１０２、ＨＤＤ１０３、画像インタフェース１０４、入力インタフェース１０５、媒体リーダ１０６、通信インタフェース１０７および拡張ボード１２０を有する。サーバ装置１００が有するこれらのユニットは、バスに接続されている。サーバ装置１００は、第１の実施の形態の情報処理装置１０に対応する。他のサーバ装置が、サーバ装置１００と同様のハードウェアを有してもよい。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＤＲＡＭ１０２にロードし、プログラムを実行する。ＣＰＵ１０１が複数のプロセッサコアを備えてもよく、サーバ装置１００が複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。また、ＣＰＵ１０１は、拡張ボード１２０にデータを転送し、拡張ボード１２０に処理を実行させることがある。

ＤＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。ＤＲＡＭ１０２は、サーバ装置１００のシステムメモリであると言うこともできる。サーバ装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数種類のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。サーバ装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよく、複数種類のストレージを備えてもよい。

画像インタフェース１０４は、ＣＰＵ１０１からの命令に従って、サーバ装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。サーバ装置１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０５は、サーバ装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。サーバ装置１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＤＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク３０に接続され、ネットワーク３０を介して他のサーバ装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

拡張ボード１２０は、ＦＰＧＡを含むハードウェアアクセラレータである。拡張ボード１２０は、ＣＰＵ１０１からの指示に応じて、ＣＰＵ１０１が実行可能な処理の一部をＣＰＵ１０１に代わって実行する。拡張ボード１２０は、特定種類の定型的な処理の高速化に使用される。後述するように第２の実施の形態では、拡張ボード１２０は、仮想ルータの処理の一部を実行する。拡張ボード１２０は、例えば、ＤＲＡＭ１０２から回路データを取得してＦＰＧＡの論理回路を設定する。拡張ボード１２０は、設定された論理回路を用いて入力データを処理し、処理結果をＤＲＡＭ１０２に出力する。

図４は、拡張ボードのハードウェア例を示すブロック図である。
拡張ボード１２０は、ＤＲＡＭ１２１およびＦＰＧＡ１２２を有する。ＤＲＡＭ１２１とＦＰＧＡ１２２とは、メモリバスで接続されている。ＤＲＡＭ１２１は、拡張ボード１２０に含まれているがＦＰＧＡ１２２の外部に配置されたオンボードメモリである。ＤＲＡＭ１２１は、ＦＰＧＡ１２２が使用するデータを記憶する。

ＦＰＧＡ１２２は、製造後に回路データに基づいて論理回路を再構成可能なプログラマブルデバイスである。ＦＰＧＡ１２２は、ＳＲＡＭ１２３、論理ブロック領域１２４およびレジスタ１２５を含む。ＳＲＡＭ１２３は、論理ブロック領域１２４からアクセス可能な揮発性半導体メモリであり、論理ブロック領域１２４で使用されるデータを記憶する。

論理ブロック領域１２４は、入出力関係を変更可能な多数の論理ブロックを含む。各論理ブロックは、例えば、入力信号から出力信号を決定するルックアップテーブルを含む。回路データに従って各論理ブロックの入出力関係を変更することで、論理ブロック領域１２４に所望の論理回路を実装することができる。レジスタ１２５は、少量のデータを一時的に記憶する揮発性半導体メモリである。レジスタ１２５は、論理ブロック領域１２４で使用されるデータを一時的に記憶する。

論理ブロック領域１２４から使用可能なメモリには、システムメモリであるＤＲＡＭ１０２、オンボードメモリであるＤＲＡＭ１２１、ＳＲＡＭ１２３およびレジスタ１２５がある。レジスタ１２５は、最も記憶容量が小さい。ＳＲＡＭ１２３は、レジスタ１２５より記憶容量が大きい。ＤＲＡＭ１２１は、ＳＲＡＭ１２３より更に記憶容量が大きい。ＤＲＡＭ１０２は、ＤＲＡＭ１２１より更に記憶容量が大きい。

ＤＲＡＭ１０２は、論理ブロック領域１２４からのアクセスが最も遅い。ＤＲＡＭ１２１は、ＤＲＡＭ１０２より論理ブロック領域１２４からのアクセスが速い。ＳＲＡＭ１２３は、ＤＲＡＭ１２１より更に論理ブロック領域１２４からのアクセスが速い。レジスタ１２５は、ＳＲＡＭ１２３より更に論理ブロック領域１２４からのアクセスが速い。よって、記憶容量は、ＤＲＡＭ１０２、ＤＲＡＭ１２１、ＳＲＡＭ１２３、レジスタ１２５の順に大きい。論理ブロック領域１２４からのアクセス速度は、レジスタ１２５、ＳＲＡＭ１２３、ＤＲＡＭ１２１、ＤＲＡＭ１０２の順に速い。

図５は、サーバ装置のソフトウェア例を示すブロック図である。
前述のように、仮想マシンを用いてコンピュータが仮想化され、仮想ルータを用いてネットワークが仮想化される。図５はサーバ装置１００，１００ａの例を示しているが、他のサーバ装置も仮想マシンおよび仮想ルータを含む。

サーバ装置１００は、仮想マシン１３１，１３２などの複数の仮想マシンと、仮想ルータ１３５とを含む。サーバ装置１００は、仮想マシン１３１，１３２を制御するためのハイパーバイザまたは管理ＯＳを含んでもよい。仮想マシン１３１は、ゲストＯＳ１３３を含む。仮想マシン１３２は、ゲストＯＳ１３４を含む。仮想マシン１３１，１３２には、サーバ装置１００が有するＣＰＵリソースやＲＡＭリソースなどのハードウェアリソースが割り当てられる。ゲストＯＳ１３３は、仮想マシン１３１に割り当てられたハードウェアリソースを管理し、仮想マシン１３１上でのアプリケーションソフトウェアの実行を制御する。ゲストＯＳ１３４は、仮想マシン１３２に割り当てられたハードウェアリソースを管理し、仮想マシン１３２上でのアプリケーションソフトウェアの実行を制御する。

仮想ルータ１３５は、パケットを処理するルータとして機能する。仮想ルータ１３５は、コントロールプレーン１３６およびデータプレーン１３７を含む。仮想ルータ１３５は、仮想マシン１３１，１３２が出力したパケットを受け付け、受け付けたパケットのヘッダに基づいて、他のサーバ装置にパケットを転送するなど当該パケットを処理する。また、仮想ルータ１３５は、他のサーバ装置からパケットを受信し、受信したパケットのヘッダに基づいて、仮想マシン１３１，１３２にパケットを振り分けるなど当該パケットを処理する。仮想ルータ１３５の機能の詳細については後述する。

同様に、サーバ装置１００ａは、仮想マシン１３１ａ，１３２ａなどの複数の仮想マシンと、仮想ルータ１３５ａとを含む。仮想マシン１３１ａは、ゲストＯＳ１３３ａを含む。仮想マシン１３２ａは、ゲストＯＳ１３４ａを含む。仮想ルータ１３５ａは、コントロールプレーン１３６ａおよびデータプレーン１３７ａを含む。

ここで、各サーバ装置に含まれる仮想ルータの機能について説明する。各仮想ルータは、コントロールプレーンおよびデータプレーンを含む。コントロールプレーンは、フロー毎にパケットの転送経路を決定し、パケット転送のためのフロー情報を各仮想ルータのデータプレーンに設定する。フローは、パケットの送信主体と受信主体の組み合わせ毎に規定され、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレスおよび宛先ポート番号を含むヘッダ情報から特定される。

第２の実施の形態では、複数の仮想ルータのコントロールプレーンが連携してフローを決定する分散フロー制御を採用している。よって、仮想ルータ１３５のコントロールプレーン１３６や仮想ルータ１３５ａのコントロールプレーン１３６ａが相互に通信して、フローを決定する。データプレーンは、パケットを受け付け、コントロールプレーンによって設定されたフロー情報に従って、受け付けたパケットの処理方法を決定する。

例えば、データプレーン１３７は、受信したパケットからヘッダ情報を抽出し、抽出したヘッダ情報に対応するフロー情報を検索する。該当するフロー情報が存在する場合、データプレーン１３７は、該当するフロー情報に従ってパケットの転送先を決定する。一方、該当するフロー情報が存在しない場合、データプレーン１３７は、未知のフローのパケットとして、受信したパケットをコントロールプレーン１３６に転送する。

コントロールプレーン１３６は、データプレーン１３７から取得したパケットのヘッダ情報に基づいて、パケットの送信元（例えば、送信元の仮想マシン）から宛先（例えば、宛先の仮想マシン）までの最短経路を探索して、パケットの転送経路を決定する。コントロールプレーン１３６は、仮想ルータ１３５における当該ヘッダ情報をもつパケットの処理方法を示すフロー情報を生成し、データプレーン１３７に提供する。このとき、コントロールプレーン１３６は、フロー情報のタイムアウト時間を指定してもよい。

このように、新たな仮想マシンの起動などによって未知のフローが検出されたとき、データプレーン１３７に新たなフロー情報が追加されることがある。また、フロー情報のタイムアウトによって、データプレーン１３７からフロー情報が削除されることがある。フロー情報のタイムアウトは、そのフロー情報が登録されてから指定時間が経過することで発生するハードタイムアウトであることもあるし、そのフロー情報が参照されない時間が指定時間に達することで発生するアイドルタイムアウトであることもある。また、コントロールプレーン１３６が仮想マシンのシャットダウンを検出したときに、データプレーン１３７からフロー情報が削除されてもよい。コントロールプレーン１３６は、ハイパーバイザなどから仮想マシンの停止を示すコマンドを受信してもよい。

コントロールプレーン１３６は、ＣＰＵ１０１やＤＲＡＭ１０２を用いて実行されるソフトウェアとして実装される。一方、データプレーン１３７は、大量のパケットを受信し、受信した各パケットの転送先を短時間で決定できることが好ましい。そのため、データプレーン１３７の全体を同様のソフトウェアとして実装すると、ＣＰＵ１０１の負荷が過大となるおそれがある。そこで、サーバ装置１００は、データプレーン１３７の機能の少なくとも一部を、ＦＰＧＡ１２２を用いて実装する。すなわち、サーバ装置１００は、パケット転送の負荷をＦＰＧＡ１２２にオフロードする。

次に、フロー情報の検索について説明する。
図６は、フローテーブルの例を示す図である。
フローテーブル１６１は、サーバ装置１００のデータプレーン１３７によって保持される。他のサーバ装置のデータプレーンも、同様のフローテーブルを保持する。フローテーブル１６１には、複数のフローのフロー情報が登録される。

フローテーブル１６１は、アドレス、ヘッダフィールド、アクションおよびアクションデータをそれぞれ対応付けた複数のエントリを含む。エントリをレコードやフロー情報と呼んでもよい。１つのエントリは、原則として１つのフローに対応する。アドレスは、フローテーブル１６１の中でエントリの格納位置を識別する識別番号である。アドレスのビット長は、フローテーブル１６１のサイズ、すなわち、フローテーブル１６１に格納可能なエントリの個数に応じて決まる。図６の例では、アドレスのビット長は１０ビットである。よって、フローテーブル１６１には、０ｘ０００～０ｘ３ＦＦのアドレスの範囲内に最大で１０２４個のエントリを格納することが可能である。

ヘッダフィールドは、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレスおよび宛先ポート番号の５つ組のヘッダ情報を示す。通信プロトコルは、ＴＣＰ（Transmission Control Protocol）やＵＤＰ（User Datagram Protocol）などのトランスポート層のプロトコルを含んでもよく、ＩＰｖ４やＩＰｖ６などのネットワーク層のプロトコルのバージョンを含んでもよい。

アクションは、ヘッダフィールドにマッチするパケットに対して実行される処理の種類を示す。１つのパケットに対して２以上のアクションが実行されることがある。アクションには、パケットを転送することを示すFORWARD、パケットを破棄することを示すDROP、パケットのヘッダを書き換えることを示すNATなどが含まれ得る。アクションデータは、アクションの実行に使用される引数を示す。アクションによって、アクションデータが存在することもあるし存在しないこともある。例えば、ヘッダの書き換えを伴わない単純なFORWARDに対しては、アクションデータが存在しなくてもよい。また、NATのアクションに対して、書き換え後の送信元ＩＰアドレスと送信元ポート番号が指定されることがある。

フローテーブル１６１において、各エントリの格納位置を示すアドレスは、ヘッダフィールドから算出される。例えば、ＣＲＣ３２の技術を用いて、ヘッダフィールドからハッシュ値として３２ビットのビット列が算出される。ハッシュ値のうちアドレス長に相当する下位のビット列（例えば、下位１０ビット）が、アドレスとして使用される。フローテーブル１６１のサイズが十分に大きければ、異なるエントリの格納位置が衝突する（格納位置が同一になる）確率は十分に小さい。一方、フローテーブル１６１のサイズが小さいほど、衝突確率が大きくなってしまう。

なお、フローテーブル１６１を参照してパケットの処理方法を決定する際には、アクションおよびアクションデータが読み出されればよい。アクセスすべきフローテーブル１６１の位置は、受信されたパケットのハッシュ値から特定できる。そこで、ヘッダフィールドとアクションおよびアクションデータとは、同一のテーブルに格納されていなくてもよく、異なるテーブルに分けて格納されていてもよい。

図７は、フローテーブルのアクセス例を示す図である。
フローテーブル１６１にアクセスするＦＰＧＡ１２２は、ADDRESS，READ REQUEST，WRITE REQUEST，WRITE DATAという入力信号線と、READ DATA，READ DATA VALIDという出力信号線とをもつ。ADDRESSは、フローテーブル１６１の中の位置を示す。前述のように、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレスおよび宛先ポート番号の５つ組を示すヘッダ情報１６２から、ハッシュ値が算出される。ハッシュ値の中の一部のビット列が、ADDRESSの値として使用される。

READ REQUESTは、エントリの読み出し要求の有無を示す。読み出し要求の際はREAD REQUESTがＯＮ（例えば、１）に指定され、それ以外のときはREAD REQUESTがＯＦＦ（例えば、０）に指定される。WRITE REQUESTは、エントリの書き込み要求の有無を示す。書き込み要求の際はWRITE REQUESTがＯＮに指定され、それ以外のときはWRITE REQUESTがＯＦＦに指定される。WRITE DATAは、フローテーブル１６１に書き込まれるエントリを示す。

READ DATAは、フローテーブル１６１から読み出されたエントリを示す。READ REQUESTがＯＮの場合に、ADDRESSが示す位置のエントリが読み出される。READ DATAの値には、アクションおよびアクションデータが含まれる。READ DATA VALIDは、フローテーブル１６１からの読み出しの成否を示す。ADDRESSが示す位置にエントリが存在した場合（ヒットの場合）はREAD DATA VALIDがＯＮに指定され、ADDRESSが示す位置にエントリが存在しない場合（ミスの場合）はREAD DATA VALIDがＯＦＦに指定される。READ DATA VALIDは、READ DATAの値が有効であるか否かを示している。なお、WRITE REQUESTがＯＮの場合、ADDRESSが示す位置にWRITE DATAの値が書き込まれる。

次に、宛先ＩＰアドレスの抽象化について説明する。
図８は、最長プレフィクス一致の例を示す図である。
１つの送信主体（例えば、１つの仮想マシン）が、多数の受信主体（例えば、多数の仮想マシン）にパケットを送信することがある。このため、具体的な送信主体と受信主体の組毎にフロー情報を設定すると、フローテーブル１６１に登録されるエントリが膨大になる。一方、類似する宛先ＩＰアドレスをもつ受信主体は、物理的に同一または近接するネットワークに属していることが多い。このため、類似する宛先ＩＰアドレスをもつパケットに対するアクションは、同一になることが多い。

そこで、宛先ＩＰアドレスの抽象化が行われる。宛先ＩＰアドレスの抽象化では、フロー情報に含まれる宛先ＩＰアドレスの下位ビットがマスクされる。宛先ＩＰアドレスのうちマスクされない上位ビットがプレフィクスと呼ばれることがあり、マスクされない上位ビットの長さがプレフィクス長と呼ばれることがある。抽象化では、宛先ＩＰアドレスのうちマスクされる下位ビットが、所定の値に置換される。例えば、３２ビットの宛先ＩＰアドレスのうちマスクされる部分が、８ビット単位で「＊＊」に置換される。

宛先ＩＰアドレスの抽象化により、宛先ＩＰアドレスの下位ビットのみが異なり他の情報が同一である複数のエントリが、１つのエントリに統合される。例えば、宛先ＩＰアドレスが192.168.25.**に抽象化されたエントリは、宛先ＩＰアドレスが192.168.25.0～192.168.25.255の範囲に属するパケットに対してヒットする。抽象化された宛先ＩＰアドレスを含むフローテーブルの検索の際には、宛先ＩＰアドレスの下位ビットがマスクされ、マスク済みのヘッダ情報からハッシュ値が算出される。

ただし、抽象化されたアドレス範囲に属する宛先ＩＰアドレスをもつパケットの全てに対して、常に同一のアクションを適用できるとは限らない。例えば、宛先ＩＰアドレスが192.168.25.0～192.168.25.255の範囲に属するパケットのうち、宛先ＩＰアドレスが192.168.25.20のパケットのみに対して、異なるアクションを適用したいことがある。

そこで、プレフィクス長が異なる複数のエントリをフローテーブルに登録することが許容される。その場合、最長プレフィクス一致（Longest Prefix Match）の原則が適用される。受信されたパケットが、プレフィクス長の異なる複数のエントリにマッチした場合、プレフィクスが長い方のエントリが優先的に使用される。例えば、あるパケットが、宛先ＩＰアドレスが192.168.25.20であるエントリと宛先ＩＰアドレスが192.168.25.**に抽象化されたエントリの両方にマッチした場合、前者のエントリが優先的に使用される。

宛先ＩＰアドレスの抽象化を考慮すると、１つのパケットに対して、プレフィクス長が３２ビット、２４ビット、１６ビット、８ビットである４通りのエントリがヒットし得る。ＦＰＧＡ１２２は、プレフィクス長が異なるエントリの検索を高速化するため、プレフィクス長が異なる４つのエントリの検索を並列に実行する。

ＦＰＧＡ１２２は、フローテーブル１６１－１，１６１－２，１６１－３，１６１－４を保持する。フローテーブル１６１－１は、プレフィクス長が３２ビットのエントリを記憶する。フローテーブル１６１－１の各エントリのヘッダフィールドでは、宛先ＩＰアドレスがマスクされていない。フローテーブル１６１－２は、プレフィクス長が２４ビットのエントリを記憶する。フローテーブル１６１－２の各エントリのヘッダフィールドでは、宛先ＩＰアドレスの下位８ビットがマスクされている。

フローテーブル１６１－３は、プレフィクス長が１６ビットのエントリを記憶する。フローテーブル１６１－３の各エントリのヘッダフィールドでは、宛先ＩＰアドレスの下位１６ビットがマスクされている。フローテーブル１６１－４は、プレフィクス長が８ビットのエントリを記憶する。フローテーブル１６１－４の各エントリのヘッダフィールドでは、宛先ＩＰアドレスの下位２４ビットがマスクされている。

ＦＰＧＡ１２２は、受信された１つのパケットから、ヘッダ情報１６２－１，１６２－２，１６２－３，１６２－４を生成する。ヘッダ情報１６２－１は、受信されたパケットのヘッダ情報そのものである。ヘッダ情報１６２－２は、受信されたパケットのヘッダ情報のうち、宛先ＩＰアドレスの下位８ビットがマスクされている。ヘッダ情報１６２－３は、受信されたパケットのヘッダ情報のうち、宛先ＩＰアドレスの下位１６ビットがマスクされている。ヘッダ情報１６２－４は、受信されたパケットのヘッダ情報のうち、宛先ＩＰアドレスの下位２４ビットがマスクされている。ＦＰＧＡ１２２は、ヘッダ情報１６２－１，１６２－２，１６２－３，１６２－４を並列に生成し得る。

ＦＰＧＡ１２２は、ヘッダ情報１６２－１からハッシュ値を算出し、ハッシュ値に応じたアドレスを用いてフローテーブル１６１－１にアクセスする。また、ＦＰＧＡ１２２は、ヘッダ情報１６２－２からハッシュ値を算出し、ハッシュ値に応じたアドレスを用いてフローテーブル１６１－２にアクセスする。また、ＦＰＧＡ１２２は、ヘッダ情報１６２－３からハッシュ値を算出し、ハッシュ値に応じたアドレスを用いてフローテーブル１６１－３にアクセスする。また、ＦＰＧＡ１２２は、ヘッダ情報１６２－４からハッシュ値を算出し、ハッシュ値に応じたアドレスを用いてフローテーブル１６１－４にアクセスする。宛先ＩＰアドレスの下位ビットが異なるため、ヘッダ情報１６２－１，１６２－２，１６２－３，１６２－４から算出されるハッシュ値は異なることが多い。ＦＰＧＡ１２２は、異なるフローテーブルのアクセスを並列に実行し得る。

ＦＰＧＡ１２２は、フローテーブル１６１－１，１６１－２，１６１－３，１６１－４の出力のうちの何れか１つを、最小プレフィクス一致の原則に基づいて選択する。フローテーブル１６１－１の検索結果がヒットである場合、ＦＰＧＡ１２２は、フローテーブル１６１－１のエントリを選択する。フローテーブル１６１－１の検索結果がミスであり、フローテーブル１６１－２の検索結果がヒットである場合、ＦＰＧＡ１２２は、フローテーブル１６１－２のエントリを選択する。フローテーブル１６１－１，１６１－２の検索結果がミスであり、フローテーブル１６１－３の検索結果がヒットである場合、ＦＰＧＡ１２２は、フローテーブル１６１－３のエントリを選択する。

フローテーブル１６１－１，１６１－２，１６１－３の検索結果がミスであり、フローテーブル１６１－４の検索結果がヒットである場合、ＦＰＧＡ１２２は、フローテーブル１６１－４のエントリを選択する。フローテーブル１６１－１，１６１－２，１６１－３，１６１－４の検索結果が全てミスである場合、ＦＰＧＡ１２２は、該当するエントリが存在しないと判定する。図８の例では、フローテーブル１６１－１，１６１－４の検索結果がミスであり、フローテーブル１６１－２，１６１－３の検索結果がヒットである。そこで、ＦＰＧＡ１２２は、フローテーブル１６１－２の出力を採用する。

ここで、分割されたフローテーブル１６１－１，１６１－２，１６１－３，１６１－４を何れのメモリに記憶させるかが問題となる。ＦＰＧＡ１２２の内部にあるＳＲＡＭ１２３は、論理ブロック領域１２４からのアクセスが高速であるものの記憶容量が小さい。そのため、ＳＲＡＭ１２３がフローテーブル１６１－１，１６１－２，１６１－３，１６１－４を記憶すると、フローテーブル１６１－１，１６１－２，１６１－３，１６１－４のサイズが小さくなる。その結果、異なるエントリの格納位置が衝突する確率が高くなる。

一方、ＦＰＧＡ１２２の外部にあるＤＲＡＭ１２１は、記憶容量が大きいものの論理ブロック領域１２４からのアクセスがＳＲＡＭ１２３より低速である。そのため、ＤＲＡＭ１２１が常にフローテーブル１６１－１，１６１－２，１６１－３，１６１－４を記憶すると、エントリ検索が遅くなりスループットが低下する。

そこで、第２の実施の形態では、ＦＰＧＡ１２２は、エントリの衝突状況に応じてＤＲＡＭ１２１とＳＲＡＭ１２３を使い分ける。ＤＲＡＭ１２１とＳＲＡＭ１２３の使い分けは、分割されたフローテーブル単位で行われる。ＦＰＧＡ１２２は、エントリが少なくエントリの格納位置が衝突していないフローテーブルを、ＳＲＡＭ１２３に記憶させる。一方、ＦＰＧＡ１２２は、エントリが増えてエントリの格納位置が衝突したフローテーブルを、ＳＲＡＭ１２３からＤＲＡＭ１２１に移動する。このとき、ＦＰＧＡ１２２は、フローテーブルのサイズを拡張する。エントリの削除などによって衝突状態が解消すると、ＦＰＧＡ１２２は、ＤＲＡＭ１２１からＳＲＡＭ１２３にフローテーブルを戻す。

図９は、ＦＰＧＡの回路構成例を示すブロック図である。
ＦＰＧＡ１２２の論理ブロック領域１２４に、ヘッダ解析部１４１、ハッシュ計算部１４２－１，１４２－２，１４２－３，１４２－４、スイッチ１４３－１，１４３－２，１４３－３，１４３－４、判定部１４４－１，１４４－２，１４４－３，１４４－４、優先エンコーダ１４５、スイッチ１４６およびテーブルコントローラ１４７が形成される。ＳＲＡＭ１２３は、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４、拡張フラグ１５２および衝突リスト１５３を記憶する。ＤＲＡＭ１２１は、拡張フローテーブル１５４を記憶する。ただし、拡張フラグ１５２と衝突リスト１５３の少なくとも一方が、ＤＲＡＭ１２１に記憶されてもよく、ＤＲＡＭ１０２に記憶されてもよい。

また、後述するテーブルコントローラ１４７の機能を、ＣＰＵ１０１が実行するソフトウェアによって実装することも可能である。なお、ＳＲＡＭ１２３は、第１の実施の形態のメモリ１１の一例である。ＤＲＡＭ１２１は、第１の実施の形態のメモリ１２の一例である。テーブルコントローラ１４７は、第１の実施の形態の制御部１３の一例である。

ヘッダ解析部１４１は、パケットの入力を受け付け、受け付けたパケットのヘッダから、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレスおよび宛先ポート番号を含むヘッダ情報を抽出する。

ハッシュ計算部１４２－１，１４２－２，１４２－３，１４２－４は、ヘッダ解析部１４１が抽出したヘッダ情報からそれぞれハッシュ値を算出する。ハッシュ計算部１４２－１は、３２ビットのプレフィクス長に対応する。ハッシュ計算部１４２－１は、ヘッダ情報からＣＲＣ３２によって３２ビットのハッシュ値を算出する。ハッシュ計算部１４２－２は、２４ビットのプレフィクス長に対応する。ハッシュ計算部１４２－１は、ヘッダ情報に含まれる宛先ＩＰアドレスの下位８ビットをマスクし、マスク後のヘッダ情報からＣＲＣ３２によって３２ビットのハッシュ値を算出する。

ハッシュ計算部１４２－３は、１６ビットのプレフィクス長に対応する。ハッシュ計算部１４２－３は、ヘッダ情報に含まれる宛先ＩＰアドレスの下位１６ビットをマスクし、マスク後のヘッダ情報からＣＲＣ３２によって３２ビットのハッシュ値を算出する。ハッシュ計算部１４２－４は、８ビットのプレフィクス長に対応する。ハッシュ計算部１４２－４は、ヘッダ情報に含まれる宛先ＩＰアドレスの下位２４ビットをマスクし、マスク後のヘッダ情報からＣＲＣ３２によって３２ビットのハッシュ値を算出する。

スイッチ１４３－１，１４３－２，１４３－３，１４３－４は、ハッシュ値に基づいて、ＳＲＡＭ１２３とＤＲＡＭ１２１の何れか一方を選択的にアクセスする。スイッチ１４３－１，１４３－２，１４３－３，１４３－４のアクセス先は、テーブルコントローラ１４７によって制御される。初期のアクセス先は、ＳＲＡＭ１２３である。

スイッチ１４３－１は、３２ビットのプレフィクス長に対応する。スイッチ１４３－１は、ハッシュ計算部１４２－１が算出したハッシュ値の下位ビットをアドレスとして用いて、フローテーブル１５１－１または拡張フローテーブル１５４にアクセスする。例えば、フローテーブル１５１－１のアドレスはハッシュ値の下位１０ビットであり、拡張フローテーブル１５４のアドレスはハッシュ値の下位２０ビットである。

スイッチ１４３－２は、２４ビットのプレフィクス長に対応する。スイッチ１４３－２は、ハッシュ計算部１４２－２が算出したハッシュ値の下位ビットをアドレスとして用いて、フローテーブル１５１－２または拡張フローテーブル１５４にアクセスする。スイッチ１４３－３は、１６ビットのプレフィクス長に対応する。スイッチ１４３－３は、ハッシュ計算部１４２－３が算出したハッシュ値の下位ビットをアドレスとして用いて、フローテーブル１５１－３または拡張フローテーブル１５４にアクセスする。スイッチ１４３－４は、８ビットのプレフィクス長に対応する。スイッチ１４３－４は、ハッシュ計算部１４２－４が算出したハッシュ値の下位ビットをアドレスとして用いて、フローテーブル１５１－４または拡張フローテーブル１５４にアクセスする。

判定部１４４－１，１４４－２，１４４－３，１４４－４は、ＳＲＡＭ１２３の出力とＤＲＡＭ１２１の出力のうち、何れか一方の有効な出力を選択する。判定部１４４－１は、３２ビットのプレフィクス長に対応する。判定部１４４－１は、フローテーブル１５１－１の出力と拡張フローテーブル１５４の出力のうち有効な方の出力を選択する。

判定部１４４－２は、２４ビットのプレフィクス長に対応する。判定部１４４－２は、フローテーブル１５１－２の出力と拡張フローテーブル１５４の出力のうち有効な方の出力を選択する。判定部１４４－３は、１６ビットのプレフィクス長に対応する。判定部１４４－３は、フローテーブル１５１－３の出力と拡張フローテーブル１５４の出力のうち有効な方の出力を選択する。判定部１４４－４は、８ビットのプレフィクス長に対応する。判定部１４４－４は、フローテーブル１５１－４の出力と拡張フローテーブル１５４の出力のうち有効な方の出力を選択する。

優先エンコーダ１４５は、最長プレフィクス一致の原則に基づいて、判定部１４４－１，１４４－２，１４４－３，１４４－４の出力の何れか１つを選択する。検索結果がヒットである出力が１つ存在する場合、優先エンコーダ１４５は、その出力を選択する。検索結果がヒットである出力が２つ以上存在する場合、優先エンコーダ１４５は、それら２つ以上の出力のうちプレフィクス長が最大の出力を選択する。検索結果がヒットである出力が存在しない場合、優先エンコーダ１４５は、所定の出力（例えば、判定部１４４－１の出力または判定部１４４－４の出力）を選択する。

スイッチ１４６は、優先エンコーダ１４５の出力に基づいてパケットを処理する。例えば、スイッチ１４６は、検索されたアクションがDROPである場合、パケットを破棄する。また、スイッチ１４６は、検索されたアクションがFORWARDであり、宛先ＩＰアドレスがサーバ装置１００上の仮想マシンのＩＰアドレスである場合、パケットを該当の仮想マシンに転送させる。また、スイッチ１４６は、検索されたアクションがFORWARDであり、宛先ＩＰアドレスがサーバ装置１００上の仮想マシンのＩＰアドレスでない場合、パケットを通信インタフェース１０７から出力させる。また、スイッチ１４６は、検索されたアクションにNATが含まれる場合、アクションデータに基づいてヘッダを書き換える。

なお、スイッチ１４６は、宛先ＩＰアドレスとパケットを出力する通信インタフェースとの対応関係を示す情報を学習して保持していてもよい。また、パケットを出力する通信インタフェースを示す情報が、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４や拡張フローテーブル１５４のエントリに含まれていてもよい。

フローテーブル１５１－１は、３２ビットのプレフィクス長に対応する。フローテーブル１５１－１は、宛先ＩＰアドレスがマスクされていないエントリを保持する。フローテーブル１５１－２は、２４ビットのプレフィクス長に対応する。フローテーブル１５１－２は、宛先ＩＰアドレスの下位８ビットがマスクされたエントリを保持する。フローテーブル１５１－３は、１６ビットのプレフィクス長に対応する。フローテーブル１５１－３は、宛先ＩＰアドレスの下位１６ビットがマスクされたエントリを保持する。フローテーブル１５１－４は、８ビットのプレフィクス長に対応する。フローテーブル１５１－４は、宛先ＩＰアドレスの下位２４ビットがマスクされたエントリを保持する。

拡張フラグ１５２は、ＳＲＡＭ１２３からＤＲＡＭ１２１へのエントリの移行の有無（拡張の有無）を示すフラグである。拡張フラグ１５２は、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４それぞれに対して割り当てられる。例えば、フローテーブル１５１－１に対応する拡張フラグ１５２がＯＦＦ（例えば、０）である場合、プレフィクス長が３２ビットであるエントリがフローテーブル１５１－１に格納されている。一方、フローテーブル１５１－１に対応する拡張フラグ１５２がＯＮ（例えば、１）である場合、プレフィクス長が３２ビットのエントリが拡張フローテーブル１５４に格納されている。拡張フラグ１５２の初期値はＯＦＦである。拡張フラグ１５２は、テーブルコントローラ１４７によって書き換えられる。

衝突リスト１５３には、格納位置が衝突したエントリのペアが記録される。衝突リスト１５３は、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４のうち拡張フラグ１５２がＯＮであるフローテーブルに対して作成される。衝突リスト１５３の作成、更新および削除は、テーブルコントローラ１４７によって行われる。

拡張フローテーブル１５４は、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４よりもサイズが大きいフローテーブルである。例えば、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４のアドレス長が１０ビットであり、拡張フローテーブルのアドレス長が２０ビットである。このため、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４では格納位置が衝突するエントリを、拡張フローテーブル１５４に衝突なしに登録できることが多い。拡張フローテーブル１５４は、例えば、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４のうち拡張フラグがＯＮであるフローテーブルそれぞれに対して作成される。ただし、拡張フローテーブル１５４が、４通りのプレフィクス長に共通のフローテーブルであってもよい。

テーブルコントローラ１４７は、ＳＲＡＭ１２３とＤＲＡＭ１２１の間のエントリの移行を制御する。テーブルコントローラ１４７は、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４の更新を監視し、エントリの衝突が発生したフローテーブルを検出する。テーブルコントローラ１４７は、衝突が発生したフローテーブルに含まれるエントリを全て拡張フローテーブル１５４に移動させる。そして、テーブルコントローラ１４７は、スイッチ１４３－１，１４３－２，１４３－３，１４３－４のうち衝突が発生したフローテーブルに対応するスイッチのアクセス先をＤＲＡＭ１２１に切り替える。

その後、テーブルコントローラ１４７は、拡張フローテーブル１５４の更新を監視し、衝突リスト１５３を参照して、エントリの衝突が解消したフローテーブルを検出する。テーブルコントローラ１４７は、衝突が解消したフローテーブルに登録されるべきエントリを全て拡張フローテーブル１５４から当該フローテーブルに戻す。また、テーブルコントローラ１４７は、衝突リスト１５３に記録されたエントリのペアを確認し、宛先ＩＰアドレスの抽象化によって当該ペアを統合可能か判断する。統合可能である場合、テーブルコントローラ１４７は、エントリの統合によって衝突状態を解消する。

図１０は、衝突リストの例を示す図である。
衝突リスト１５３は、１つのフローテーブル（例えば、フローテーブル１５１－１）においてアドレスが衝突することになるエントリの情報を記憶する。衝突リスト１５３は、ペアを識別するＩＤを含む。また、衝突リスト１５３は、衝突するエントリそれぞれについて、ヘッダフィールドおよびハッシュ値を含む。ヘッダフィールドは、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレスおよび宛先ポート番号を含む。ハッシュ値は、ヘッダフィールドから算出される。

図１０の例では、ＩＤ＝０の２つのエントリはそれぞれ、下位１６ビットが０ｘ３２１０であるハッシュ値をもつ。よって、この２つのエントリの格納位置は、フローテーブル１５１－１において衝突する。また、ＩＤ＝１の２つのエントリはそれぞれ、下位１６ビットが０ｘａｂｃｄであるハッシュ値をもつ。よって、この２つのエントリの格納位置は、フローテーブル１５１－１において衝突する。

次に、サーバ装置１００の処理手順について説明する。
図１１は、フロー登録の手順例を示すフローチャートである。
（Ｓ１０）テーブルコントローラ１４７は、フロー登録要求を受信する。フロー登録要求は、例えば、コントロールプレーン１３６によって発行され、データプレーン１３７のソフトウェア実装部分を通じて受信される。

（Ｓ１１）テーブルコントローラ１４７は、エントリの登録先の対象フローテーブルを確認し、対象フローテーブルに対応する拡張フラグがＯＮであるか判断する。対象フローテーブルは、宛先ＩＰアドレスのプレフィクス長に応じて決定される。拡張フラグがＯＮの場合はステップＳ１８に進み、拡張フラグがＯＦＦの場合はステップＳ１２に進む。

（Ｓ１２）テーブルコントローラ１４７は、対象フローテーブルに対して、フロー登録要求に含まれるエントリを登録することを試みる。例えば、テーブルコントローラ１４７は、エントリのヘッダフィールドからハッシュ値を算出して格納位置を特定する。

（Ｓ１３）テーブルコントローラ１４７は、ステップＳ１２によって、対象フローテーブルにおいてエントリの格納位置の衝突が検出されたか判断する。衝突が検出された場合はステップＳ１４に進み、衝突が検出されなかった場合はフロー登録が終了する。

（Ｓ１４）テーブルコントローラ１４７は、対象フローテーブルに対応する衝突リストを作成する。作成した衝突リストには、フロー登録要求に含まれるエントリの情報と、そのエントリと衝突した既存エントリの情報とが対応付けて記録される。各エントリの情報には、ヘッダフィールドとハッシュ値が含まれる。

（Ｓ１５）テーブルコントローラ１４７は、対象フローテーブルから拡張フローテーブルに全ての既存エントリを移行する。また、テーブルコントローラ１４７は、フロー登録要求に含まれるエントリを拡張フローテーブルに登録する。このとき、テーブルコントローラ１４７は、例えば、対象フローテーブルに含まれる各エントリのハッシュ値を算出して、拡張フローテーブルにおける格納位置を特定する。

（Ｓ１６）テーブルコントローラ１４７は、スイッチ１４３－１，１４３－２，１４３－３，１４３－４のうち対象フローテーブルに対応するスイッチのアクセス先を、対象フローテーブルから拡張フローテーブルに切り替える。

（Ｓ１７）テーブルコントローラ１４７は、対象フローテーブルに対応する拡張フラグをＯＦＦからＯＮに更新する。そして、フロー登録が終了する。
（Ｓ１８）テーブルコントローラ１４７は、拡張フローテーブルに登録された既存エントリとフロー登録要求に含まれるエントリとの間で、対象フローテーブルに格納した場合に衝突が発生するか判断する。例えば、テーブルコントローラ１４７は、拡張フローテーブルに登録された既存エントリのアドレスの下位ビット（例えば、下位１０ビット）と、フロー登録要求に含まれるエントリのハッシュ値の下位ビット（例えば、下位１０ビット）とが同一であるか判断する。衝突が生じる場合はステップＳ１９に進み、衝突が生じない場合はステップＳ２０に進む。

（Ｓ１９）テーブルコントローラ１４７は、対象フローテーブルに対応する衝突リストに、衝突するエントリのペアを記録する。
（Ｓ２０）テーブルコントローラ１４７は、フロー登録要求に含まれるエントリを拡張フローテーブルに登録する。

図１２は、フロー削除の手順例を示すフローチャートである。
（Ｓ３０）テーブルコントローラ１４７は、フロー削除要求を受信する。フロー削除要求は、コントロールプレーン１３６によって発行され、データプレーン１３７のソフトウェア実装部分を通じて受信されることがある。また、フロー削除要求は、エントリに対して指定されたタイムアウト時間の経過によって発生することがある。

（Ｓ３１）テーブルコントローラ１４７は、エントリの削除先の対象フローテーブルを確認し、対象フローテーブルに対応する拡張フラグがＯＮであるか判断する。対象フローテーブルは、宛先ＩＰアドレスのプレフィクス長に応じて決定される。拡張フラグがＯＮの場合はステップＳ３３に進み、拡張フラグがＯＦＦの場合はステップＳ３２に進む。

（Ｓ３２）テーブルコントローラ１４７は、対象フローテーブルから、フロー削除要求によって指定されたエントリを削除する。そして、フロー削除が終了する。
（Ｓ３３）テーブルコントローラ１４７は、対象フローテーブルに対応する衝突リストに、フロー削除要求によって指定されたエントリが記録されているか判断する。記録されている場合はステップＳ３４に進み、記録されていない場合はステップＳ３５に進む。

（Ｓ３４）テーブルコントローラ１４７は、衝突リストから、フロー削除要求によって指定されたエントリを含むエントリペアを削除する。
（Ｓ３５）テーブルコントローラ１４７は、拡張フローテーブルから、フロー削除要求によって指定されたエントリを削除する。

図１３は、テーブル整理の手順例を示すフローチャートである。
テーブル整理は、定期的に実行されてもよい。また、テーブル整理は、上記のフロー削除の後に実行されてもよく、衝突リストの更新を契機に実行されてもよい。

（Ｓ４０）テーブルコントローラ１４７は、フローテーブル１５１－１，１５１－２，１５１－３，１５１－４のうちの１つを対象フローテーブルとして選択する。テーブルコントローラ１４７は、各フローテーブルに対してステップＳ４０～Ｓ４８を実行してもよいし、更新されたフローテーブルのみに対してステップＳ４０～Ｓ４８を実行してもよい。テーブルコントローラ１４７は、対象フローテーブルに対応する拡張フラグがＯＮであるか判断する。拡張フラグがＯＮの場合はステップＳ４１に進み、拡張フラグがＯＦＦの場合は対象フローテーブルのテーブル整理が終了する。

（Ｓ４１）テーブルコントローラ１４７は、対象フローテーブルに対応する衝突リストに、エントリが記録されているか判断する。衝突リストにエントリが記録されている場合はステップＳ４２に進み、衝突リストが空の場合はステップＳ４６に進む。

（Ｓ４２）テーブルコントローラ１４７は、衝突リストから、宛先ＩＰアドレスの抽象化によって統合可能なエントリを検索する。統合可能なエントリは、宛先ＩＰアドレスの下位ビットのみが異なり他の情報が同一であるため、宛先ＩＰアドレスのプレフィクス長を小さくすることで内容が同一になる２以上のエントリである。

（Ｓ４３）テーブルコントローラ１４７は、ステップＳ４２において、統合可能なエントリが検出されたか判断する。統合可能なエントリがある場合はステップＳ４４に進み、統合可能なエントリが無い場合は対象フローテーブルのテーブル整理が終了する。

（Ｓ４４）テーブルコントローラ１４７は、統合可能な２以上のエントリから、宛先ＩＰアドレスのプレフィクス長を小さくした統合後エントリを生成する。テーブルコントローラ１４７は、統合後エントリの登録を要求する。これにより、統合後エントリに対して図１１のフロー登録が実行される。また、テーブルコントローラ１４７は、拡張フローテーブルから、統合可能な２以上のエントリを削除する。

（Ｓ４５）テーブルコントローラ１４７は、衝突リストから、統合可能な２以上のエントリについてのエントリペアを削除する。そして、ステップＳ４１に戻る。
（Ｓ４６）テーブルコントローラ１４７は、拡張フローテーブルから対象フローテーブルに全ての既存エントリを移行する。このとき、テーブルコントローラ１４７は、例えば、拡張フローテーブルに含まれる各エントリのアドレスの下位ビットに基づいて、対象フローテーブルにおける格納位置を特定する。

（Ｓ４７）テーブルコントローラ１４７は、スイッチ１４３－１，１４３－２，１４３－３，１４３－４のうち対象フローテーブルに対応するスイッチのアクセス先を、拡張フローテーブルから対象フローテーブルに切り替える。

（Ｓ４８）テーブルコントローラ１４７は、対象フローテーブルに対応する拡張フラグをＯＮからＯＦＦに更新する。
図１４は、ルーティングの手順例を示すフローチャートである。

（Ｓ５０）ヘッダ解析部１４１は、ＦＰＧＡ１２２に入力されたパケットから、通信プロトコル、送信元ＩＰアドレス、送信元ポート番号、宛先ＩＰアドレスおよび宛先ポート番号を含むヘッダ情報を抽出する。以下のステップＳ５１～Ｓ５４は、４通りのプレフィクス長について並列度４で並列に実行される。

（Ｓ５１）ハッシュ計算部１４２－２，１４２－３，１４２－４は、ヘッダ情報に含まれる宛先ＩＰアドレスの下位ビットを所定値に置換するマスク処理を実行する。
（Ｓ５２）ハッシュ計算部１４２－１，１４２－２，１４２－３，１４２－４は、マスク後のヘッダ情報から、ＣＲＣ３２によってハッシュ値を算出する。

（Ｓ５３）スイッチ１４３－１，１４３－２，１４３－３，１４３－４は、ステップＳ５２で算出されたハッシュ値の下位ビットをアドレスとして抽出する。アドレス長は、アクセス先がフローテーブルか拡張フローテーブルかによって異なる。

（Ｓ５４）スイッチ１４３－１，１４３－２，１４３－３，１４３－４は、テーブルコントローラ１４７からの設定に従って、ステップＳ５３で算出されたアドレスを用いて、フローテーブルまたは拡張フローテーブルからエントリの読み出しを試みる。判定部１４４－１，１４４－２，１４４－３，１４４－４は、フローテーブルまたは拡張フローテーブルから出力された読み出し結果を取得する。

（Ｓ５５）優先エンコーダ１４５は、最長プレフィクス一致により、４通りのプレフィクス長の読み出し結果のうちの１つを選択して、最終的な読み出し結果を決定する。
（Ｓ５６）スイッチ１４６は、ステップＳ５５で決定された読み出し結果に基づいて、パケットの処理方法を決定する。また、スイッチ１４６は、パケットを転送する場合、パケットを出力する通信インタフェースを決定する。

次に、仮想ルータ１３５のスループットについて説明する。
図１５は、ルーティングのスループットの例を示すグラフである。
ここでは、以下のハードウェア条件を仮定する。レジスタ１２５の記憶容量が１６キロバイト（１６ｋＢ）、ＳＲＡＭ１２３の記憶容量が４メガバイト（４ＭＢ）、ＤＲＡＭ１２１の記憶容量が１ギガバイト（１ＧＢ）である。ＦＰＧＡ１２２とＤＲＡＭ１２１との間のメモリインタフェースの速度が９６ギガビット毎秒（９６Ｇｂｐｓ）、メモリアクセスの粒度が６４バイト、ランダムアクセスの実効性能が１０％である。また、エントリのデータ長が３２バイト、フローテーブルの最大エントリ数が２^１０＝１０２４、拡張フローテーブルの最大エントリ数が２^２０＝１０４８５７６である。

曲線４１，４２，４３の横軸は、エントリ数、すなわち、登録フロー数である。曲線４１，４２，４３の縦軸は、スループット、すなわち、１秒当たりに処理可能なパケットの個数である。曲線４１は、ＳＲＡＭ１２３のみ使用してＤＲＡＭ１２１を使用しない場合のスループットを示す。ただし、曲線４１は、ＳＲＡＭ１２３の記憶容量の制限を無視した理想的なスループットを示しており、現実的には達成困難である。

曲線４２は、第２の実施の形態で説明したようにＳＲＡＭ１２３とＤＲＡＭ１２１を併用した場合のスループットを示す。曲線４３は、ＤＲＡＭ１２１のみ使用してＳＲＡＭ１２３を使用しない場合のスループットを示す。曲線４３が示すように、ＤＲＡＭ１２１のみを使用した場合はスループットが低い。これに対して、曲線４２が示すように、ＳＲＡＭ１２３とＤＲＡＭ１２１を併用すると、エントリが少ないうちは、アクセスが高速なＳＲＡＭ１２３の影響によりスループットが向上する。

図１６は、エントリの非衝突確率の例を示すグラフである。
曲線４４，４５，４６の横軸は、エントリ数、すなわち、登録フロー数である。曲線４４，４５，４６の縦軸は、異なるエントリの格納位置が衝突しない非衝突確率である。曲線４４は、第２の実施の形態で説明したようにＳＲＡＭ１２３とＤＲＡＭ１２１を併用した場合の非衝突確率を示す。曲線４５は、ＤＲＡＭ１２１のみ使用してＳＲＡＭ１２３を使用しない場合の非衝突確率を示す。曲線４６は、ＳＲＡＭ１２３のみ使用してＤＲＡＭ１２１を使用しない場合の非衝突確率を示す。

曲線４６が示すように、ＳＲＡＭ１２３のみを使用した場合は、エントリ数の増加によって、早期にフローテーブル内でエントリの衝突が発生する。これに対して、曲線４４が示すように、ＳＲＡＭ１２３とＤＲＡＭ１２１を併用すると、エントリ数が増加しても、非衝突確率を合理的に低い水準に維持することができる。このように、第２の実施の形態のテーブル制御により、ＳＲＡＭ１２３の高速性とＤＲＡＭ１２１の大容量の利点を生かして、スループットと非衝突確率のバランスを図ることができる。なお、第２の実施の形態では、高速小容量メモリの例としてＳＲＡＭ１２３を挙げ、低速大容量メモリの例としてＤＲＡＭ１２１を挙げたが、２種類のメモリの組み合わせはこれに限定されない。

第２の実施の形態の情報処理システムによれば、仮想ルータによってネットワークが仮想化される。よって、サーバ装置に配置される仮想マシンの通信の制御が効率化される。また、仮想ルータにはＳＤＮが採用され、フローを制御するコントロールプレーンとパケットを処理するデータプレーンとが分離される。よって、仮想マシンの起動や停止に応じて柔軟なフロー設定が可能となり、仮想マシンの通信の制御が効率化される。また、データプレーンの処理の少なくとも一部がＦＰＧＡによって実行される。よって、ＣＰＵやシステムメモリの負荷が軽減され、仮想マシンの処理への影響が低減される。

また、エントリが少ないうちはＦＰＧＡ内のＳＲＡＭに記憶されたフローテーブルが使用され、エントリが増えてアドレスの衝突が発生すると、ＦＰＧＡ外のオンボードメモリに記憶された拡張フローテーブルが使用される。また、拡張フローテーブルの更新によって衝突が解消されると、ＦＰＧＡ内のＳＲＡＭに記憶されたフローテーブルが再び使用される。よって、パケット処理のスループットを向上させることができる。

また、登録されたエントリに対して宛先ＩＰアドレスの抽象化を行うことで、エントリの衝突を解消できる可能性が高くなる。また、宛先ＩＰアドレスのプレフィクス長が異なるエントリの検索を並列に実行することで、スループットが向上する。また、プレフィクス長が異なる複数のフローテーブルそれぞれに対して独立にテーブル制御を行うことで、高速なＳＲＡＭを可能な限り使用することが可能となる。

１０情報処理装置
１１，１２メモリ
１３制御部
１４，１５テーブル
１６ａ，１６ｂ，１６ｃエントリ

Claims

パケットの転送方法を示すエントリが、前記パケットのヘッダ情報から算出されるハッシュ値に応じた位置に格納される第１のテーブルを記憶する第１のメモリと、
前記第１のテーブルより大きい第２のテーブルを記憶する第２のメモリと、
前記第１のテーブルの更新の際に、前記第１のテーブルにおいて異なるエントリの格納位置が衝突する衝突状態を検出し、前記衝突状態の検出に応じて、前記第１のテーブルに格納されているエントリを前記第２のテーブルに移行し、前記第２のテーブルの更新の際に、前記衝突状態の解消を検出し、前記解消の検出に応じて、前記第２のテーブルに格納されているエントリを前記第１のテーブルに移行する制御部と、
を有する情報処理装置。
前記第１のテーブルおよび前記第２のテーブルの何れか一方にアクセスして、受信されたパケットの転送方法を決定するルーティング部を更に有し、
前記制御部は、前記衝突状態の検出に応じて、前記ルーティング部のアクセス先を前記第１のテーブルから前記第２のテーブルに切り替え、前記解消の検出に応じて、前記アクセス先を前記第２のテーブルから前記第１のテーブルに切り替える、
請求項１記載の情報処理装置。
前記制御部は、前記衝突状態の検出に応じて、前記異なるエントリを示す衝突リストを生成し、前記第２のテーブルの更新の際に、前記衝突リストと更新内容とに基づいて前記衝突状態が解消したか否か判定する、
請求項１記載の情報処理装置。
前記ヘッダ情報は、宛先アドレスを含み、
前記第１のメモリは、前記宛先アドレスの一部分をマスクすることで算出される他のハッシュ値に応じたエントリが格納される他の第１のテーブルを更に記憶し、
前記制御部は、前記衝突状態の検出およびエントリの移行を、前記第１のテーブルおよび前記他の第１のテーブルそれぞれに対して独立に実行する、
請求項１記載の情報処理装置。
前記ヘッダ情報は、宛先アドレスを含み、
前記制御部は、前記宛先アドレスの一部分をマスクすることで前記異なるエントリを統合可能な場合、前記異なるエントリを統合することで前記衝突状態を解消する、
請求項１記載の情報処理装置。
前記第１のテーブルのエントリは、前記ハッシュ値から抽出される第１のビット長のビット列を用いて識別され、前記第２のテーブルのエントリは、前記ハッシュ値から抽出される前記第１のビット長より大きい第２のビット長のビット列を用いて識別される、
請求項１記載の情報処理装置。
プログラマブルデバイスを更に有し、
前記第１のメモリおよび前記制御部は、前記プログラマブルデバイスに含まれており、前記第２のメモリは、前記プログラマブルデバイスの外部に配置されている、
請求項１記載の情報処理装置。
仮想マシンを実行するプロセッサを更に有し、
前記第１のテーブルおよび前記第２のテーブルの何れか一方が選択的に、前記仮想マシンが送信または受信するパケットのルーティングに用いられる、
請求項１記載の情報処理装置。
コンピュータが、
パケットの転送方法を示すエントリが前記パケットのヘッダ情報から算出されるハッシュ値に応じた位置に格納されるテーブルであって、前記コンピュータが有する第１のメモリに記憶された第１のテーブルの更新の際に、前記第１のテーブルにおいて異なるエントリの格納位置が衝突する衝突状態を検出し、
前記衝突状態の検出に応じて、前記第１のテーブルに格納されているエントリを、前記第１のテーブルより大きいテーブルであって、前記コンピュータが有する第２のメモリに記憶された第２のテーブルに移行し、
前記第２のテーブルの更新の際に、前記衝突状態の解消を検出し、
前記解消の検出に応じて、前記第２のテーブルに格納されているエントリを前記第１のテーブルに移行する、
パケット制御方法。