JP2022512879A

JP2022512879A - ネットワークインターフェースデバイス

Info

Publication number: JP2022512879A
Application number: JP2021523691A
Authority: JP
Inventors: ポぺ，スティーブン; タートン，ニール; リドック，デイビッド; キタリエブ，ドミトリ; ソハン，リプデュマン; ロバーツ，デレク
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2018-11-05
Filing date: 2019-11-05
Publication date: 2022-02-07
Also published as: KR20210088652A; EP3877851A1; CN113272793A; WO2020094664A1

Abstract

複数の処理ユニットを備えるハードウェアモジュールを有するネットワークインターフェースデバイス。複数の処理ユニットの各々は、それ自体の少なくとも１つの所定の動作に関連付けられる。コンパイル時に、ハードウェアモジュールは、複数の処理ユニットのうちの少なくともいくつかを、データパケットに対してそれぞれの少なくとも１つの動作を特定の順序で実行し、そのデータパケットに関する機能を実行するように配置することによって構成される。各処理ユニットに異なる処理ステージを割り当てるために、コンパイラが提供される。コントローラが、別の処理回路がコンパイルされている間に１つの処理回路が使用され得るように、オンザフライで異なる処理回路間で切り替えるために設けられる。

Description

分野
本出願は、データパケットに関する機能を実行するためのネットワークインターフェースデバイスに関する。

背景
ネットワークインターフェースデバイスが既知であり、典型的には、コンピューティングデバイスとネットワークとの間のインターフェースを提供するために使用される。ネットワークインターフェースデバイスは、ネットワークから受信されるデータを処理し、および／またはネットワーク上に置かれるデータを処理するように構成することができる。

概要
一態様によれば、ホストデバイスをネットワークにインターフェースするためのネットワークインターフェースデバイスであって、第１のインターフェースであり、第１のインターフェースは、複数のデータパケットを受信するように構成されている、第１のインターフェースと、複数の処理ユニットを備える構成可能ハードウェアモジュールであり、各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられる、構成可能ハードウェアモジュールとを備え、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられ、ハードウェアモジュールは、上記複数のデータパケットのうちの１つまたは複数を処理して上記複数のデータパケットのうちの上記１つまたは複数に関して第１の機能を実行するための第１のデータ処理パイプラインを提供するために、上記複数の上記処理ユニットのうちの少なくともいくつかを相互接続するように構成可能である、ネットワークインターフェースデバイスが提供される。

いくつかの実施形態では、第１の機能は、フィルタリング機能を含む。いくつかの実施形態では、機能は、トンネリング、カプセル化、およびルーティング機能のうちの少なくとも１つを含む。いくつかの実施形態では、第１の機能は、拡張Ｂｅｒｋｌｅｙパケットフィルタ機能を含む。

いくつかの実施形態では、第１の機能は、分散型サービス妨害スクラブ動作を含む。
いくつかの実施形態では、第１の機能は、ファイアウォール動作を含む。

いくつかの実施形態では、第１のインターフェースは、ネットワークから第１のデータパケットを受信するように構成される。

いくつかの実施形態では、第１のインターフェースは、ホストデバイスから第１のデータパケットを受信するように構成される。

いくつかの実施形態では、複数の処理ユニットの少なくともいくつかのうちの２つ以上は、それらの関連する少なくとも１つの所定の動作を並列に実行するように構成される。

いくつかの実施形態では、複数の処理ユニットのうちの少なくともいくつかのうちの２つ以上は、ハードウェアモジュールの共通クロック信号に従ってそれらの関連する所定のタイプの動作を実行するように構成される。

いくつかの実施形態では、複数の処理ユニットの少なくともいくつかのうちの２つ以上の各々は、クロック信号によって定義される所定の時間長内にその関連する所定のタイプの動作を実行するように構成される。

いくつかの実施形態では、複数の処理ユニットのうちの少なくともいくつかのうちの２つ以上は、所定の時間長の期間内に第１のデータパケットにアクセスし、所定の時間長の終了に応答して、それぞれの上記少なくとも１つの動作の結果を次の処理ユニットに転送するように構成される。

いくつかの実施形態では、結果は、少なくとも、複数のデータパケットのうちの１つまたは複数からの値、マップ状態への更新、およびメタデータのうちの少なくとも１つまたは複数を含む。

いくつかの実施形態では、複数の処理ユニットの各々は、それぞれの処理ユニットに関連付けられる少なくとも１つの動作を実行するように構成された特定用途向け集積回路を含む。

いくつかの実施形態では、処理ユニットの各々は、フィールドプログラマブルゲートアレイを含む。いくつかの実施形態では、処理ユニットの各々は、任意の他のタイプのソフトロジックを含む。

いくつかの実施形態では、複数の処理ユニットのうちの少なくとも１つは、デジタル回路と、デジタル回路によって実行される処理に関連する状態を記憶するメモリとを備え、デジタル回路は、メモリと通信して、それぞれの処理ユニットに関連付けられる所定のタイプの動作を実行するように構成される。

いくつかの実施形態では、ネットワークインターフェースデバイスは、複数の処理ユニットのうちの２つ以上にアクセス可能なメモリを備え、メモリは、第１のデータパケットに関連付けられる状態を記憶するように構成され、ハードウェアモジュールによる第１の機能の実行中、複数の処理ユニットのうちの２つ以上は、状態にアクセスし、状態を修正するように構成される。

いくつかの実施形態では、複数の処理ユニットのうちの少なくともいくつかのうちの第１の処理ユニットは、複数の処理ユニットのうちの第２の処理ユニットによる状態の値のアクセス中にストールするように構成される。

いくつかの実施形態では、複数の処理ユニットのうちの１つまたは複数は、それらの関連する所定のタイプの動作に基づいて、それぞれのパイプラインに固有の動作を実行するように個別に構成可能である。

いくつかの実施形態では、ハードウェアモジュールは、命令を受信し、上記命令に応答して、上記複数のデータパケットのうちの１つまたは複数を処理するためのデータ処理パイプラインを提供するために、上記複数の上記処理ユニットのうちの少なくともいくつかを相互接続すること、上記複数の処理ユニットのうちの１つまたは複数に、上記１つまたは複数のデータパケットに関してそれらの関連する所定のタイプの動作を実行させること、上記複数の処理ユニットのうちの１つまたは複数をデータ処理パイプラインに追加すること、および、データ処理パイプラインから上記複数の処理ユニットのうちの１つまたは複数を除去することのうちの少なくとも１つを行うように構成されている。

いくつかの実施形態では、所定の動作は、メモリから第１のデータパケットの少なくとも１つの値をロードすること、データパケットの少なくとも１つの値をメモリに記憶すること、および、データパケットに関して実行されるべきアクションを決定するためにルックアップテーブル内のルックアップを実行することのうちの少なくとも１つを含む。

いくつかの実施形態では、ハードウェアモジュールは、命令を受信するように構成され、ハードウェアモジュールは、上記命令に応答して、上記複数のデータパケットのうちの１つまたは複数を処理するためのデータ処理パイプラインを提供するために、上記複数の上記処理ユニットのうちの少なくともいくつかを相互接続するように構成可能であり、命令は、第３の処理パイプラインを介して送信されるデータパケットを含む。

いくつかの実施形態では、複数の処理ユニットのうちの１つまたは複数少なくともいくつかは、上記命令に応答して、複数のデータパケットのうちの上記１つまたは複数に関してそれらの関連する所定のタイプの動作のうちの選択された動作を実行するように構成可能である。

いくつかの実施形態では、複数の構成要素は、ハードウェアモジュールとは異なる回路において第１の機能を提供するように構成された複数の構成要素のうちの第２の構成要素を含み、ネットワークインターフェースデバイスは、処理パイプラインを通過するデータパケットが、複数の構成要素のうちの第１の構成要素および複数の構成要素のうちの第２の構成要素のうちの１つによって処理されるようにするように構成された少なくとも１つのコントローラを備える。

いくつかの実施形態では、ネットワークインターフェースデバイスは、ハードウェアモジュールにデータパケットに対する第１の機能の実行を開始させる命令を発行するように構成された少なくとも１つのコントローラを備え、命令は、複数の構成要素のうちの第１の構成要素が処理パイプラインに挿入されるようにするように構成される。

いくつかの実施形態では、ネットワークインターフェースデバイスは、ハードウェアモジュールにデータパケットに対する第１の機能の実行を開始させる命令を発行するように構成された少なくとも１つのコントローラを備え、命令は、処理パイプラインを通じて送信され、複数の構成要素のうちの第１の構成要素が作動されるようにするように構成される制御メッセージを含む。

いくつかの実施形態では、複数の処理ユニットの少なくともいくつかのうちの１つまたは複数について、関連する少なくとも１つの動作は、ネットワークインターフェースデバイスのメモリから第１のデータパケットの少なくとも１つの値をロードすること、第１のデータパケットの少なくとも１つの値をネットワークインターフェースデバイスのメモリに記憶することと、および、第１のデータパケットに関して行われるべきアクションを決定するためにルックアップテーブル内のルックアップを行うことのうちの少なくとも１つを含む。

いくつかの実施形態では、複数の処理ユニットのうちの少なくともいくつかのうちの１つまたは複数は、その関連する少なくとも１つの所定の動作の少なくとも１つの結果を第１の処理パイプライン内の次の処理ユニットに渡すように構成され、次の処理ユニットは、少なくとも１つの結果に応じて次の所定の動作を実行するように構成される。

いくつかの実施形態では、異なる所定のタイプの動作の各々は、異なるテンプレートによって定義される。

いくつかの実施形態では、所定の動作のタイプは、データパケットにアクセスすること、ハードウェアモジュールのメモリに記憶されたルックアップテーブルにアクセスすること、データパケットからロードされたデータに対して論理演算を実行すること、および、ルックアップテーブルからロードされたデータに対して論理演算を実行することのうちの少なくとも１つを含む。

いくつかの実施形態では、ハードウェアモジュールはルーティングハードウェアを備え、ハードウェアモジュールは、第１のデータ処理パイプラインによって定義される特定の順序で複数の処理ユニット間でデータパケットをルーティングするようにルーティングハードウェアを構成することによって、第１のデータ処理パイプラインを提供するために上記複数の上記処理ユニットの少なくともいくつかを相互接続するように構成可能である。

いくつかの実施形態では、ハードウェアモジュールは、上記複数の上記処理ユニットの少なくともいくつかを相互接続して、上記複数のデータパケットのうちの１つまたは複数を処理して第１の機能とは異なる第２の機能を実行するための第２のデータ処理パイプラインを提供するように構成可能である。

いくつかの実施形態では、ハードウェアモジュールは、複数の上記処理ユニットのうちの少なくともいくつかを相互接続して第１のデータ処理パイプラインを提供した後に、上記複数の上記処理ユニットのうちの少なくともいくつかを相互接続して第２のデータ処理パイプラインを提供するように構成可能である。

いくつかの実施形態では、ネットワークインターフェースデバイスは、ハードウェアモジュールとは別個の、上記複数のデータパケットのうちの１つまたは複数に対して第１の機能を実行するように構成されたさらなる回路を備える。

いくつかの実施形態では、さらなる回路は、フィールドプログラマブルゲートアレイ、および複数の中央処理装置のうちの少なくとも１つを含む。

いくつかの実施形態では、ネットワークインターフェースデバイスは、少なくとも１つのコントローラを備え、さらなる回路は、第１の機能がハードウェアモジュールにおいて実行されるようにするためのコンパイルプロセス中にデータパケットに対して第１の機能を実行するように構成され、少なくとも１つのコントローラは、コンパイルプロセスの完了に応答して、データパケットに対する第１の機能の実行を開始するようにハードウェアモジュールを制御するように構成される。

いくつかの実施形態では、さらなる回路は、複数の中央処理装置を含む。
いくつかの実施形態では、少なくとも１つのコントローラは、第１の機能がハードウェアモジュールにおいて実行されるようにするためのコンパイルプロセスが完了したという上記決定に応答して、データパケットに対する第１の機能の実行を停止するようにさらなる回路を制御するように構成される。

いくつかの実施形態では、ネットワークインターフェースデバイスは少なくとも１つのコントローラを備え、ハードウェアモジュールは、第１の機能がさらなる回路において実行されるようにするためのコンパイルプロセス中にデータパケットに対して第１の機能を実行するように構成され、少なくとも１つのコントローラは、第１の機能がさらなる回路において実行されるようにするためのコンパイルプロセスが完了したと決定し、上記決定に応答して、データパケットに対する第１の機能の実行を開始するようにさらなる回路を制御するように構成される。

いくつかの実施形態では、さらなる回路はフィールドプログラマブルゲートアレイを含む。

いくつかの実施形態では、少なくとも１つのコントローラは、第１の機能がさらなる回路において実行されるようにするためのコンパイルプロセスが完了したという上記決定に応答して、データパケットに対する第１の機能の実行を停止するようにハードウェアモジュールを制御するように構成される。

いくつかの実施形態では、ネットワークインターフェースデバイスは、第１の機能がハードウェアモジュールにおいて実行されることを可能にするためのコンパイルプロセスを実行するように構成された少なくとも１つのコントローラを備える。

いくつかの実施形態では、コンパイルプロセスは、制御メッセージに応答するハードウェアモジュール内の制御プレーンインターフェースを提供するための命令を提供することを含む。

別の態様によれば、第１の態様によるネットワークインターフェースデバイスと、ホストデバイスとを備えるデータ処理システムが提供され、データ処理システムは、第１の機能がハードウェアモジュールにおいて実行されることを可能にするためのコンパイルプロセスを実行するように構成された少なくとも１つのコントローラを備える。

いくつかの実施形態では、少なくとも１つのコントローラは、ネットワークインターフェースデバイス、およびホストデバイスのうちの１つまたは複数によって提供される。

いくつかの実施形態では、コンパイルプロセスは、第１の機能を表現するコンピュータプログラムがホストデバイスのカーネルモードにおいて安全に実行されるという、少なくとも１つのコントローラによる決定に応答して実行される。

いくつかの実施形態では、少なくとも１つのコントローラは、複数の処理ユニットのうちの少なくともいくつかの各々を、第１のデータ処理パイプラインの特定の順序で、コンピュータコード命令のシーケンスによって表される複数の動作からの少なくとも１つの動作を実行するために割り当てることによってコンパイルプロセスを実行するように構成され、複数の動作は、複数のデータパケットのうちの１つまたは複数に対する第１の機能を提供する。

いくつかの実施形態では、少なくとも１つのコントローラは、コンパイルプロセスの完了前に、ネットワークインターフェースデバイスのさらなる回路に、データパケットに対して第１の機能を実行させるための第１の命令を送信し、上記コンパイルプロセスの完了後に、上記ハードウェアモジュールに、データパケットに対する第１の機能の実行を開始させるための第２の命令を送信するように構成される。

別の態様によれば、ネットワークインターフェースデバイスにおける実施のための方法が提供され、本方法は、第１のインターフェースにおいて、複数のデータパケットを受信するステップと、ハードウェアモジュールの複数の処理ユニットのうちの少なくともいくつかを相互接続して、上記複数のデータパケットのうちの１つまたは複数を処理して上記複数のデータパケットのうちの上記１つまたは複数に対して第１の機能を実行するための第１のデータ処理パイプラインを提供するように、ハードウェアモジュールを構成するステップとを含み、各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられ、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられる。

別の態様によれば、ネットワークインターフェースデバイスに方法を実施させるためのプログラム命令を含む非一時的コンピュータ可読媒体が提供され、方法は、第１のインターフェースにおいて、複数のデータパケットを受信するステップと、ハードウェアモジュールの複数の処理ユニットのうちの少なくともいくつかを相互接続して、上記複数のデータパケットのうちの１つまたは複数を処理して上記複数のデータパケットのうちの上記１つまたは複数に対して第１の機能を実行するための第１のデータ処理パイプラインを提供するように、ハードウェアモジュールを構成するステップとを含み、各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられ、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられる。

別の態様によれば、処理ユニットが提供され、処理ユニットは、ネットワークインターフェースデバイスにおいて受信される第１のデータパケットに対して少なくとも１つの所定の動作を実行し、第１のデータパケットに関して第１のさらなる少なくとも１つの所定の動作を行うように構成された第１のさらなる処理ユニットに接続され、上記第１のデータパケットに関して第２のさらなる少なくとも１つの所定の動作を行うように構成された第２のさらなる処理ユニットに接続され、第１のさらなる処理ユニットから、第１のさらなる少なくとも１つの所定の動作の結果を受信し、第１のさらなる少なくとも１つの所定の動作の結果に応じて少なくとも１つの所定の動作を実行し、上記第２のさらなる少なくとも１つの所定の動作における処理のために、少なくとも１つの所定の動作の結果を第２のさらなる処理ユニットに送信するように構成されている。

いくつかの実施形態では、処理ユニットは、少なくとも１つの所定の動作をタイミング調整するためのクロック信号を受信するように構成され、処理ユニットは、クロック信号の少なくとも１つのサイクルにおいて少なくとも１つの所定の動作を実行するように構成される。

いくつかの実施形態では、処理ユニットは、クロック信号の単一サイクルにおいて少なくとも１つの所定の動作を実行するように構成される。

いくつかの実施形態では、少なくとも１つの所定の動作、第１のさらなる少なくとも１つの所定の動作、および第２のさらなる少なくとも１つの所定の動作は、ネットワークインターフェースデバイスにおいて受信される第１のデータパケットに対して実行される機能の一部を形成する。

いくつかの実施形態では、第１のデータパケットは、ホストデバイスから受信され、ネットワークインターフェースデバイスは、ホストデバイスをネットワークにインターフェースするように構成される。

いくつかの実施形態では、第１のデータパケットはネットワークから受信され、ネットワークインターフェースデバイスは、ホストデバイスをネットワークにインターフェースするように構成される。

いくつかの実施形態では、機能はフィルタリング機能である。
いくつかの実施形態では、フィルタリング機能は、拡張Ｂｅｒｋｌｅｙパケットフィルタ機能である。

いくつかの実施形態では、処理ユニットは、少なくとも１つの所定の動作を実行するように構成された特定用途向け集積回路を含む。

いくつかの実施形態では、処理ユニットは、少なくとも１つの所定の動作を実行するように構成されたデジタル回路と、実行される少なくとも１つの所定の動作に関連する状態を記憶するメモリとを備える。

いくつかの実施形態では、処理ユニットは、第１のさらなる処理ユニットおよび第２のさらなる処理ユニットにアクセス可能なメモリにアクセスするように構成され、メモリは、第１のデータパケットに関連付けられた状態を記憶するように構成され、少なくとも１つの所定の動作は、メモリに記憶された状態を変更することを含む。

いくつかの実施形態では、処理ユニットは、第１のクロックサイクル中にメモリから上記状態の値を読み出し、第２のさらなる処理ユニットによる修正のために上記値を第２のさらなる処理ユニットに提供するように構成され、処理ユニットは、第１のクロックサイクル後の第２のクロックサイクル中にストールするように構成される。

いくつかの実施形態では、少なくとも１つの所定の動作は、ネットワークインターフェースデバイスのメモリから第１のデータパケットをロードすること、第１のデータパケットをネットワークインターフェースデバイスのメモリに記憶すること、および、第１のデータパケットに関して実行されるべきアクションを決定するためにルックアップテーブル内のルックアップを実行することのうちの少なくとも１つを含む。

別の態様によれば、処理ユニットにおいて実施される方法が提供され、方法は、ネットワークインターフェースデバイスにおいて受信される第１のデータパケットに関して少なくとも１つの所定の動作を実行するステップと、第１のデータパケットに関して第１のさらなる少なくとも１つの所定の動作を行うように構成された第１のさらなる処理ユニットに接続するステップと、上記第１のデータパケットに関して第２のさらなる少なくとも１つの所定の動作を行うように構成された第２のさらなる処理ユニットに接続するステップと、第１のさらなる処理ユニットから、第１のさらなる少なくとも１つの所定の動作の結果を受信するステップと、第１のさらなる少なくとも１つの所定の動作の結果に応じて少なくとも１つの所定の動作を実行するステップと、上記第２のさらなる少なくとも１つの所定の動作における処理のために、少なくとも１つの所定の動作の結果を第２のさらなる処理ユニットに送信するステップとを含む。

別の態様によれば、処理ユニットによって実行されると、処理ユニットに方法を実施させる命令を記憶しているコンピュータ可読非一時的記憶デバイスが提供され、方法は、ネットワークインターフェースデバイスにおいて受信される第１のデータパケットに関して少なくとも１つの所定の動作を実行するステップと、第１のデータパケットに関して第１のさらなる少なくとも１つの所定の動作を行うように構成された第１のさらなる処理ユニットに接続するステップと、上記第１のデータパケットに関して第２のさらなる少なくとも１つの所定の動作を行うように構成された第２のさらなる処理ユニットに接続するステップと、第１のさらなる処理ユニットから、第１のさらなる少なくとも１つの所定の動作の結果を受信するステップと、第１のさらなる少なくとも１つの所定の動作の結果に応じて少なくとも１つの所定の動作を実行するステップと、上記第２のさらなる少なくとも１つの所定の動作における処理のために、少なくとも１つの所定の動作の結果を第２のさらなる処理ユニットに送信するステップとを含む。

別の態様によれば、ホストデバイスをネットワークにインターフェースするためのネットワークインターフェースデバイスが提供され、ネットワークインターフェースデバイスは、少なくとも１つのコントローラと、データパケットを受信するように構成されている第１のインターフェースと、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するように構成された第１の回路と、第２の回路とを備え、第１の回路は、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセス中に、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するように構成され、少なくとも１つのコントローラは、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したと決定し、上記決定に応答して、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始するように第２の回路を制御するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したという上記決定に応答して、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を停止するように第１の回路を制御するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したという上記決定に応答して、第１のインターフェースにおいて受信される第１のデータフローのデータパケットに対する第１の機能の実行を開始し、第１のデータフローのデータパケットに対する第１の機能の実行を停止するように第１の回路を制御するように構成されている。

いくつかの実施形態では、第１の回路は、少なくとも１つの中央処理装置を備え、少なくとも１つの中央処理装置の各々は、第１のインターフェースにおいて受信される少なくとも１つのデータパケットに対して第１の機能を実行するように構成される。

いくつかの実施形態では、第２の回路は、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始するように構成されたフィールドプログラマブルゲートアレイを備える。

いくつかの実施形態では、第２の回路は、複数の処理ユニットを備えるハードウェアモジュールを備え、各処理ユニットは少なくとも１つの所定の動作に関連付けられ、第１のインターフェースは、第１のデータパケットを受信するように構成され、ハードウェアモジュールは、第１の機能が第２の回路において実行されるためのコンパイルプロセスの後に、複数の処理ユニットの少なくともいくつかに、第１のデータパケットに対して第１の機能を実行するように、特定の順序でそれらの関連付けられる少なくとも１つの所定の動作を実行させるように構成される。

いくつかの実施形態では、第１の回路は、複数の処理ユニットを備えるハードウェアモジュールを備え、各処理ユニットは少なくとも１つの所定の動作に関連付けられ、第１のインターフェースは、第１のデータパケットを受信するように構成され、ハードウェアモジュールは、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセス中に、複数の処理ユニットの少なくともいくつかに、第１のデータパケットに対して第１の機能を実行するように、特定の順序でそれらの関連付けられる少なくとも１つの所定の動作を実行させるように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、第２の回路によって実行されるように第１の機能をコンパイルするためのコンパイルプロセスを実行するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、コンパイルプロセスの完了前に、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するように第１の回路に命令するように構成される。

いくつかの実施形態では、第２の回路によって実行されるように第１の機能をコンパイルするためのコンパイルプロセスは、ホストデバイスによって実行され、少なくとも１つのコントローラは、ホストデバイスからのコンパイルプロセスの完了の指示の受信に応答して、コンパイルプロセスが完了したと決定するように構成される。

いくつかの実施形態では、第１のインターフェースにおいて受信されるデータパケットを処理するための処理パイプラインを備え、処理パイプラインは、第１のインターフェースにおいて受信されるデータパケットに対して複数の機能のうちの１つを各々が実行するように構成された複数の構成要素を備え、複数の構成要素のうちの第１の構成要素は、第１の回路によって提供されるときに第１の機能を提供するように構成され、複数の構成要素のうちの第２の構成要素は、第２の少なくとも１つの処理ユニットによって提供されるときに第１の機能を提供するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、複数の構成要素のうちの第２の構成要素を処理パイプラインに挿入することによって、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始するように第２の回路を制御するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したという上記決定に応答して、処理パイプラインから複数の構成要素のうちの第１の構成要素を除去することによって、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を停止するように第１の回路を制御するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、複数の構成要素のうちの第２の構成要素を作動させるために処理パイプラインを通じて制御メッセージを送信することによって、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始するように第２の回路を制御するように構成される。

いくつかの実施形態では、少なくとも１つのコントローラは、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したという上記決定に応答して、複数の構成要素のうちの第２の構成要素を機能停止するために処理パイプラインを介して制御メッセージを送信することによって、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を停止するように第１の回路を制御するように構成される。

いくつかの実施形態では、複数の構成要素のうちの第１の構成要素は、処理パイプラインを通過するデータパケット第１のデータフローに対して第１の機能を提供するように構成され、複数の構成要素のうちの第２の構成要素は、処理パイプラインを通過する第２のデータフローのデータパケットに対して第１の機能を提供するように構成される。

いくつかの実施形態では、第１の機能は、データパケットをフィルタリングすることを含む。

いくつかの実施形態では、第１のインターフェースは、ネットワークからデータパケットを受信するように構成される。

いくつかの実施形態では、第１のインターフェースは、ホストデバイスからデータパケットを受信するように構成される。

いくつかの実施形態では、第２の回路の第１の機能のコンパイル時間は、第１の回路の第１の機能のコンパイル時間よりも長い。

別の態様によれば、方法が提供され、方法は、ネットワークインターフェースデバイスの第１のインターフェースにおいてデータパケットを受信するステップと、ネットワークインターフェースデバイスの第１の回路において、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するステップとを含み、第１の回路は、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセス中に、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するように構成され、方法は、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したと決定するステップと、上記決定に応答して、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始するようにネットワークインターフェースデバイスの第２の回路を制御するステップとを含む。

別の態様によれば、データ処理システムに方法を実施させるためのプログラム命令を含む非一時的コンピュータ可読媒体が提供され、方法は、ネットワークインターフェースデバイスの第１のインターフェースにおいてデータパケットを受信するステップと、ネットワークインターフェースデバイスの第１の回路において、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するステップとを含み、第１の回路は、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセス中に、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行するように構成され、方法は、第１の機能が第２の回路において実行されるようにするためのコンパイルプロセスが完了したと決定するステップと、上記決定に応答して、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始するようにネットワークインターフェースデバイスの第２の回路を制御するステップとを含む。

別の態様によれば、非一時的コンピュータ可読媒体が提供され、媒体は、データ処理システムに、ネットワークインターフェースデバイスの第２の回路によって実行されるように第１の機能をコンパイルするためのコンパイルプロセスを実行するステップと、上記コンパイルプロセスの完了前に、ネットワークインターフェースデバイスの第１の回路に、ネットワークインターフェースデバイスの第１のインターフェースにおいて受信されるデータパケットに関して第１の機能を実行させるための第１の命令を送信するステップと、第２の回路に、コンパイルプロセスの完了後に、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始させるための第２の命令を送信するステップとを実施させるためのプログラム命令を含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、第１の回路によって実行されるように第１の機能をコンパイルするためのさらなるコンパイルプロセスを実行させるためのプログラム命令を含み、コンパイルプロセスにかかる時間は、さらなるコンパイルプロセスにかかる時間よりも長い。

いくつかの実施形態では、データ処理システムは、ホストデバイスを備え、ネットワークインターフェースデバイスは、ホストデバイスをネットワークとインターフェースするように構成される。

いくつかの実施形態では、データ構成システムは、ネットワークインターフェースデバイスを備え、ネットワークインターフェースデバイスは、ホストデバイスをネットワークとインターフェースするように構成される。

いくつかの実施形態では、データ処理システムは、ホストデバイスと、ネットワークインターフェースデバイスとを備え、ネットワークインターフェースデバイスは、ホストデバイスをネットワークとインターフェースするように構成される。

いくつかの実施形態では、第１の機能は、ネットワークから第１のインターフェースにおいて受信されるデータパケットをフィルタリングすることを含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、コンパイルプロセスの完了後に、第１の回路に、第１のインターフェースにおいて受信されるデータパケットに対する機能の実行を停止させる第３の命令を送信することを、データ処理システムに実行させるための構成プログラム命令を含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、第２の回路に、第１のデータフローのデータパケットに対して第１の機能を実行させる命令を送信することと、第１の回路に、第１のデータフローのデータパケットに対する第１の機能の実行を停止させる命令を送信することとを、データ処理システムに実行させるためのプログラム命令を含む。

いくつかの実施形態では、第１の回路は、少なくとも１つの中央処理装置を備え、第２のコンパイルプロセスの完了前に、少なくとも１つの中央処理装置の各々は、第１のインターフェースにおいて受信される少なくとも１つのデータパケットに対して第１の機能を実行するように構成される。

いくつかの実施形態では、第２の回路は、複数の処理ユニットを備えるハードウェアモジュールを備え、各処理ユニットは少なくとも１つの所定の動作に関連付けられ、第１のインターフェースにおいて受信されるデータパケットは第１のデータパケットを含み、ハードウェアモジュールは、第２のコンパイルプロセスの完了後に、第１のデータパケットに対するそのそれぞれの少なくとも１つの動作を実施する複数の処理ユニットの各処理ユニット少なくともいくつかによって、第１のデータパケットに対して第１の機能を実行するように構成される。

いくつかの実施形態では、第１の回路は、データパケットに対して第１の機能を提供するように構成されている複数の処理ユニットを備えるハードウェアモジュールを備え、各処理ユニットは少なくとも１つの所定の動作に関連付けられ、第１のインターフェースにおいて受信されるデータパケットは第１のデータパケットを含み、ハードウェアモジュールは、第２のコンパイルプロセスの完了前に、第１のデータパケットに対するそのそれぞれの少なくとも１つの動作を実施する複数の処理ユニットのうちの少なくともいくつかの各処理ユニットによって、第１のデータパケットに対して第１の機能を実行するように構成される。

いくつかの実施形態では、コンパイルプロセスは、コンピュータコード命令のシーケンス内の複数の処理ステージのうちの１つに関連付けられる少なくとも１つの動作を特定の順序で実行するために、第２の回路の複数の処理ユニットの各々を割り当てることを含む。

いくつかの実施形態では、第１の回路によって提供される第１の機能は、第１のインターフェースにおいて受信されるデータパケットを処理するための処理パイプラインの構成要素として提供され、第２の回路によって提供される第１の機能は、処理パイプラインの構成要素として提供される。

いくつかの実施形態では、第１の命令は、複数の構成要素のうちの第１の構成要素が処理パイプラインに挿入されるようにするように構成された命令を含む。

いくつかの実施形態では、第２の命令は、複数の構成要素のうちの第２の構成要素が処理パイプラインに挿入されるようにするように構成された命令を含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、コンパイルプロセスの完了後に、第１の回路に、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を停止させる第３の命令を送信することを、データ処理システムに実行させるための構成プログラム命令を含み、第３の命令は、複数の構成要素のうちの第１の構成要素が処理パイプラインから除去されるようにするように構成された命令を含む。

いくつかの実施形態では、第１の命令は、複数の構成要素のうちの第２の構成要素を作動させるために処理パイプラインを通じて送信される制御メッセージを含む。

いくつかの実施形態では、第２の命令は、複数の構成要素のうちの第２の構成要素を作動させるために処理パイプラインを通じて送信される制御メッセージを含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、コンパイルプロセスの完了後に、第１の回路に、第１のインターフェースにおいて受信されるデータパケットに対する機能の実行を停止させる第３の命令を送信することを、データ処理システムに実行させるためのプログラム命令を含み、第３の命令は、複数の構成要素のうちの第１の構成要素を機能停止するための処理パイプラインを介した制御メッセージを含む。

別の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備えるデータ処理システムが提供され、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサを用いて、データ処理システムに、ネットワークインターフェースデバイスの第２の回路によって実行されるように機能をコンパイルするためのコンパイルプロセスを実行するステップと、コンパイルプロセスの完了前に、ネットワークインターフェースデバイスの第１の回路に、ネットワークインターフェースデバイスの第１のインターフェースにおいて受信されるデータパケットに対して機能を実行するように命令するステップと、第２の少なくとも１つの処理ユニットに、第２のコンパイルプロセスの完了後に、第１のインターフェースにおいて受信されるデータパケットに対する機能の実行を開始するように命令するステップとを行わせるように構成されている。

別の態様によれば、データ処理システムにおいて実施するための方法が提供され、方法は、ネットワークインターフェースデバイスの第２の回路によって実行されるように機能をコンパイルするためのコンパイルプロセスを実行するステップと、上記コンパイルプロセスの完了前に、ネットワークインターフェースデバイスの第１の回路に、ネットワークインターフェースデバイスの第１のインターフェースにおいて受信されるデータパケットに関して機能を実行させるための第１の命令を送信するステップと、第２の回路に、コンパイルプロセスの完了後に、第１のインターフェースにおいて受信されるデータパケットに対する機能の実行を開始させるための第２の命令を送信するステップとを含む。

別の態様によれば、データ処理システムに、コンピュータコード命令のシーケンス内の複数の処理ステージのうちの１つに関連付けられる少なくとも１つの動作を特定の順序で実行するために、複数の処理ユニットの各々を割り当てさせるためのプログラム命令を含む非一時的コンピュータ可読媒体が提供され、複数の処理ステージは、ネットワークインターフェースデバイスの第１のインターフェースにおいて受信される第１のデータパケットに対する第１の機能を提供し、複数の処理ユニットの各々は、複数のタイプの処理のうちの１つを実行するように構成され、複数の処理ユニットのうちの少なくともいくつかは、異なるタイプの処理を実行するように構成され、複数の処理ユニットの各々について、割り当ては、処理ユニットがそれぞれの少なくとも１つの処理を実行するのに適したタイプの処理を実行するように構成されているという決定に応じて実行される。

いくつかの実施形態では、処理のタイプの各々は、複数のテンプレートのうちの１つによって定義される。

いくつかの実施形態では、処理のタイプは、ネットワークインターフェースデバイスにおいて受信されるデータパケットにアクセスすること、ハードウェアモジュールのメモリに記憶されたルックアップテーブルにアクセスすること、データパケットからロードされたデータに対して論理演算を実行すること、および、ルックテーブルからロードされたデータに対して論理演算を実行することのうちの少なくとも１つを含む。

いくつかの実施形態では、複数の処理ユニットのうちの少なくともいくつかのうちの２つ以上は、ハードウェアモジュールの共通クロック信号に従ってそれらの関連する少なくとも１つの動作を実行するように構成される。

いくつかの実施形態では、割り当ては、複数の処理ユニットの少なくともいくつかのうちの２つ以上の各々を、クロック信号によって定義される所定の時間長内にその関連する少なくとも１つの動作を実行するために割り当てることを含む。

いくつかの実施形態では、割り当ては、複数の処理ユニットのうちの少なくともいくつかのうちの２つ以上を、所定の時間長の期間内に第１のデータパケットにアクセスするために割り当てることを含む。

いくつかの実施形態では、割り当ては、複数の処理ユニットの少なくともいくつかのうちの２つ以上の各々を、所定の時間長の期間の終了に応答して、それぞれの少なくとも１つの動作の結果を次の処理ユニットに転送するために割り当てることを含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、複数のステージのうちの少なくともいくつかを単一のクロックサイクルを占有するように割り当てることを実行させるためのプログラム命令を含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、複数の処理ユニットのうちの２つ以上を、並列に実行されるそれらの割り当てられた少なくとも１つの動作を実行するために割り当てさせるためのプログラム命令を含む。

いくつかの実施形態では、ネットワークインターフェースデバイスは、複数の処理ユニットを備えるハードウェアモジュールを備える。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、割り当てを含むコンパイルプロセスを実施するステップと、コンパイルプロセスの完了前に、ネットワークインターフェースデバイスの回路に、第１のインターフェースにおいて受信されるデータパケットに対して第１の機能を実行させるための第１の命令を送信するステップと、複数の処理ユニットに、コンパイルプロセスの完了後に、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始させるための第２の命令を送信するステップとを実施させるためのコンピュータプログラム命令を含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は含み、複数の処理ユニットの少なくともいくつかのうちの１つまたは複数について、割り当てられる少なくとも１つの動作は、ネットワークインターフェースデバイスのメモリから第１のデータパケットの少なくとも１つの値をロードすること、第１のデータパケットの少なくとも１つの値をネットワークインターフェースデバイスのメモリに記憶することと、および、第１のデータパケットに関して行われるべきアクションを決定するためにルックアップテーブル内のルックアップを行うことのうちの少なくとも１つを含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、第１のデータパケットに対して第１の機能を実行するように、特定の順序で複数の処理ユニット間で第１のデータパケットをルーティングするようにネットワークインターフェースデバイスのルーティングハードウェアを構成する命令を発行させるためのコンピュータプログラム命令を含む。

いくつかの実施形態では、複数の処理ユニットによって提供される第１の機能は、第１のインターフェースにおいて受信されるデータパケットを処理するための処理パイプラインの構成要素として提供される。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、構成要素が処理パイプラインに挿入されるようにする命令を発行させることによって、複数の処理ユニットに、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始させるためのコンピュータプログラム命令を含む。

いくつかの実施形態では、非一時的コンピュータ可読媒体は、データ処理システムに、構成要素が処理パイプライン内で作動されるようにする命令を発行させることによって、複数の処理ユニットに、第１のインターフェースにおいて受信されるデータパケットに対する第１の機能の実行を開始させるためのコンピュータプログラム命令を含む。

いくつかの実施形態では、データ処理システムはネットワークインターフェースデバイスを備える。

いくつかの実施形態では、データ処理システムは、ネットワークインターフェースデバイスと、ホストデバイスとを備え、ネットワークインターフェースデバイスは、ホストデバイスをネットワークとインターフェースするように構成される。

別の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備えるデータ処理システムが提供され、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサを用いて、データ処理システムに、コンピュータコード命令のシーケンス内の複数の処理ステージのうちの１つに関連付けられる少なくとも１つの動作を特定の順序で実行するために、複数の処理ユニットの各々を割り当てさせるように構成されており、複数の処理ステージは、ネットワークインターフェースデバイスの第１のインターフェースにおいて受信される第１のデータパケットに対する第１の機能を提供し、複数の処理ユニットの各々は、複数のタイプの処理のうちの１つを実行するように構成され、複数の処理ユニットのうちの少なくともいくつかは、異なるタイプの処理を実行するように構成され、複数の処理ユニットの各々について、割り当ては、処理ユニットがそれぞれの少なくとも１つの処理を実行するのに適したタイプの処理を実行するように構成されているという決定に応じて実行される。

別の態様によれば、コンピュータコード命令のシーケンス内の複数の処理ステージのうちの１つに関連付けられる少なくとも１つの動作を特定の順序で実行するために、複数の処理ユニットの各々を割り当てるステップを含む方法が提供され、複数の処理ステージは、ネットワークインターフェースデバイスの第１のインターフェースにおいて受信される第１のデータパケットに対する第１の機能を提供し、複数の処理ユニットの各々は、複数のタイプの処理のうちの１つを実行するように構成され、複数の処理ユニットのうちの少なくともいくつかは、異なるタイプの処理を実行するように構成され、複数の処理ユニットの各々について、割り当ては、処理ユニットがそれぞれの少なくとも１つの処理を実行するのに適したタイプの処理を実行するように構成されているという決定に応じて実行される。

ハードウェアモジュールの処理ユニットは、それらのタイプの動作を単一のステップで実行するものとして説明されている。しかしながら、当業者は、この特徴が好ましい特徴に過ぎず、本発明の機能に必須または不可欠ではないことを認識するであろう。

一態様によれば、コンパイラにおいてビットファイル記述およびプログラムを受信するステップであって、上記ビットファイル記述は回路の一部分のルーティングの記述を含む、受信するステップと、上記プログラムのためのビットファイルを出力するために上記ビットファイル記述を使用して上記プログラムをコンパイルするステップとを含む方法が提供される。

方法は、上記プログラムに関連付けられる機能を実行するように上記回路の上記部分の少なくとも一部を構成するために上記ビットファイルを使用するステップを含むことができる。

ビットファイル記述は、回路の上記部分の複数の処理ユニット間のルーティングに関する情報を含むことができる。

ビットファイル記述は、上記複数の処理ユニットのうちの少なくとも１つについて、１つまたは複数の他の処理ユニットのいずれにデータを出力することができるか、および、１つまたは複数の他の処理ユニットのいずれからデータを受信することができるか、のうちの少なくとも１つを示すルーティング情報を含むことができる。

ビットファイル記述は、２つ以上のそれぞれの処理ユニット間の１つまたは複数のルートを示すルーティング情報を含むことができる。

ビットファイル記述は、プログラムのためのビットファイルを提供するためにプログラムをコンパイルするときにコンパイラによって使用可能なルートのみを示す情報を含むことができる。

ビットファイルは、それぞれの処理ユニットについて、それぞれの処理ユニットのビットファイル記述内の上記１つまたは複数の他の処理ユニットのうちの１つまたは複数のいずれから入力が提供されるべきか、それぞれの処理ユニットのビットファイル記述内の上記１つまたは複数の他の処理ユニットのうちの１つまたは複数のいずれに出力が提供されるべきか、のうちの少なくとも１つを示す情報を含むことができる。

回路の一部は、複数の処理ユニットを備える構成可能ハードウェアモジュールの少なくとも一部分を含むことができ、各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられ、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられ、上記ビットファイル記述は、複数の処理ユニットのうちの少なくともいくつかの間のルーティングに関する情報を含み、上記方法は、上記ビットファイルを使用して、ハードウェアに、上記複数のデータパケットのうちの１つまたは複数を処理して上記複数のデータパケットのうちの上記１つまたは複数に関して第１の機能を実行するための第１のデータ処理パイプラインを提供するために、上記複数の上記処理ユニットのうちの少なくともいくつかを相互接続させるステップを含むことができる。

ビットファイル記述は、ＦＰＧＡの少なくとも一部のものであってもよい。
ビットファイル記述は、動的にプログラム可能なＦＰＧＡの一部のものであってもよい。

プログラムは、ｅＢＰＦプログラムおよびＰ４プログラムのうちの１つを含んでもよい。

コンパイラおよびＦＰＧＡは、ネットワークインターフェースデバイス内に設けられてもよい。

別の態様によれば、少なくとも１つのプロセッサと、１つまたは複数のプログラムのためのコンピュータコードを含む少なくとも１つのメモリとを備える装置が提供され、少なくとも１つのメモリおよびコンピュータコードは、少なくとも１つのプロセッサを用いて、装置に、少なくとも、ビットファイル記述およびプログラムを受信することであって、上記ビットファイル記述は、回路の一部分のルーティングの記述を含む、受信することと、上記プログラムのためのビットファイルを出力するために上記ビットファイル記述を使用して上記プログラムをコンパイルすることとを行わせるように構成されている。

少なくとも１つのメモリおよびコンピュータコードは、少なくとも１つのプロセッサを用いて、装置に、上記ビットファイルを使用して、上記プログラムに関連付けられる機能を実行するように上記回路の上記部分の少なくとも一部を構成させるように構成することができる。

回路の一部は、複数の処理ユニットを備える構成可能ハードウェアモジュールの少なくとも一部分を含むことができ、各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられ、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられ、上記ビットファイル記述は、複数の処理ユニットのうちの少なくともいくつかの間のルーティングに関する情報を含み、少なくとも１つのメモリおよびコンピュータコードは、少なくとも１つのプロセッサを用いて、装置に、上記ビットファイルを使用して、ハードウェアに、上記複数のデータパケットのうちの１つまたは複数を処理して上記複数のデータパケットのうちの上記１つまたは複数に関して第１の機能を実行するための第１のデータ処理パイプラインを提供するために、上記複数の上記処理ユニットのうちの少なくともいくつかを相互接続させるステップを行わせるように構成されている。

別の態様によれば、ネットワークインターフェースデバイスが提供され、ネットワークインターフェースデバイスは、複数のデータパケットを受信するように構成された第１のインターフェースと、複数の処理ユニットを備える構成可能ハードウェアモジュールであって、各処理ユニットは、単一のステップで実行可能な所定のタイプの動作に関連付けられている、構成可能ハードウェアモジュールと、上記構成可能ハードウェアモジュールの少なくとも一部分のルーティングの記述を含ビットファイル記述およびプログラムを受信し、上記プログラムのためのビットファイルを出力するために上記ビットファイル記述を使用して上記プログラムをコンパイルするように構成されているコンパイラとを備え、上記ハードウェアモジュールは、プログラムに関連付けられる第１の機能を実行するために上記ビットファイルを使用して構成可能である。

ネットワークインターフェースデバイスは、ホストデバイスをネットワークにインターフェースするためのものであってもよい。

上記複数の処理ユニットの少なくともいくつかは、異なる所定のタイプの動作に関連付けられてもよい。

ハードウェアモジュールは、上記複数の上記処理ユニットの少なくともいくつかを相互接続して、上記複数のデータパケットのうちの１つまたは複数を処理して、上記複数のデータパケットのうちの上記１つまたは複数に対して第１の機能を実行するための第１のデータ処理パイプラインを提供するように構成可能であり得る。

別の態様によれば、コンピュータ実施方法が提供され、方法は、複数の処理ユニットを備える構成可能ハードウェアモジュールの少なくとも一部のルーティング情報を決定するステップを含み、各処理ユニットは、単一のステップで実行可能な所定のタイプの動作に関連付けられ、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられ、上記ルーティング情報は、少なくとも複数の処理ユニット間の利用可能なルートに関する情報を提供する。

構成可能ハードウェアモジュールは、実質的に静的な部分および実質的に動的な部分を含むことができ、上記決定するステップは、上記実質的に動的な部分のルーティング情報を決定することを含む。

上記実質的に動的な部分のルーティング情報を決定することは、上記実質的に静的な部分の処理ユニットのうちの１つまたは複数によって使用される上記実質的に動的な部分のルーティングを決定することを含むことができる。

決定することは、上記ルーティング情報を決定するために、上記構成可能ハードウェアモジュールの少なくとも一部のビットファイル記述を分析することを含むことができる。

別の態様によれば、非一時的コンピュータ可読媒体が提供され、媒体は、複数の処理ユニットを備える構成可能ハードウェアモジュールの少なくとも一部のルーティング情報を決定するためのプログラム命令を含み、各処理ユニットは、単一のステップで実行可能な所定のタイプの動作に関連付けられ、上記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられ、上記ルーティング情報は、少なくとも複数の処理ユニット間の利用可能なルートに関する情報を提供する。

方法（複数可）を実行するように適合されたプログラムコード手段を含むコンピュータプログラムも提供され得る。コンピュータプログラムは、キャリア媒体によって記憶および／または他の方法で具現化されてもよい。

以上、多くの異なる実施形態について説明した。さらなる実施形態が、上述の実施形態のうちの任意の２つ以上の組み合わせによって提供されてもよいことを理解されたい。

様々な他の態様およびさらなる実施形態もまた、以下の詳細な説明および添付の特許請求の範囲に記載される。

図面の簡単な説明
ここで、いくつかの実施形態を、添付の図面を参照して単なる例として説明する。

ネットワークに結合されたデータ処理システムの概略図である。ホストコンピューティングデバイス上でユーザモードにおいて作動するように構成されたフィルタリング動作アプリケーションを備えるデータ処理システムの概略図である。ホストコンピューティングデバイス上でカーネルモードにおいて作動するように構成されたフィルタリング動作を備えるデータ処理システムの概略図である。データパケットに関して機能を実行するための複数のＣＰＵを備えるネットワークインターフェースデバイスの概略図である。データパケットに関して機能を実行するためのアプリケーションを作動させるフィールドプログラマブルゲートアレイを備えるネットワークインターフェースデバイスの概略図である。データパケットに関して機能を実行するためのハードウェアモジュールを備えるネットワークインターフェースデバイスの概略図である。データパケットに関して機能を実行するための、フィールドプログラマブルゲートアレイと、少なくとも１つの処理ユニットとを備えるネットワークインターフェースデバイスの概略図である。いくつかの実施形態によるネットワークインターフェースデバイス内で実施される方法を示す図である。いくつかの実施形態によるネットワークインターフェースデバイス内で実施される方法を示す図である。一連のプログラムによってデータパケットを処理する実施例を示す図である。複数の処理ユニットによってデータパケットを処理する実施例を示す図である。複数の処理ユニットによってデータパケットを処理する実施例を示す図である。データパケットを処理するための処理ステージのパイプラインの例を示す図である。複数のプラガブル構成要素を有するスライスアーキテクチャの例を示す図である。複数の処理ユニットの処理の構成および順序の例示的な表現を示す図である。機能をコンパイルする例示的な方法を示す図である。ステートフル処理ユニットの一例を示す図である。ステートレス処理ユニットの一例を示す図である。いくつかの実施形態の方法を示す図である。ＦＰＧＡにおけるスライス間のルーティングを示す図である。ＦＰＧＡにおけるスライス間のルーティングを示す図である。ＦＧＰＡ上のパーティションを概略的に示す図である。

詳細な説明
以下の説明は、当業者が本発明を作成および使用することを可能にするために提示され、特定の用途の文脈で提供される。開示された実施形態に対する様々な変更は、当業者には容易に明らかであろう。

本明細書で定義される一般的な原理は、本発明の思想および範囲から逸脱することなく、他の実施形態および用途に適用することができる。したがって、本発明は、示された実施形態に限定されることを意図するものではなく、本明細書に開示された原理および特徴と一致する最も広い範囲が与えられるべきである。

データがネットワークなどのデータチャネルを介して２つのデータ処理システム間で転送される場合、データ処理システムの各々は、チャネルを介して通信することを可能にする適切なネットワークインターフェースを有する。多くの場合、ネットワークはイーサネット（登録商標）技術に基づいている。ネットワークを介して通信するデータ処理システムは、ネットワークプロトコルの物理的および論理的要件をサポートすることができるネットワークインターフェースを備えている。ネットワークインターフェースの物理ハードウェア構成要素は、ネットワークインターフェースデバイスまたはネットワークインターフェースカード（ＮＩＣ）と呼ばれる。

ほとんどのコンピュータシステムは、ユーザレベルアプリケーションがネットワークと通信するためのオペレーティングシステム（ＯＳ）を含む。カーネルとして知られるオペレーティングシステムの一部は、アプリケーションとネットワークインターフェースデバイスに固有のデバイスドライバとの間でコマンドおよびデータを変換するためのプロトコルスタックを含む。デバイスドライバは、ネットワークインターフェースデバイスを直接制御することができる。オペレーティングシステムカーネルにこれらの機能を提供することにより、ネットワークインターフェースデバイスの複雑さおよび違いをユーザレベルアプリケーションから隠すことができる。ネットワークハードウェアおよび他のシステムリソース（メモリなど）は、多くのアプリケーションによって安全に共有することができ、システムは、欠陥または悪意のあるアプリケーションから保護することができる。

ネットワークを介した送信を実行するための典型的なデータ処理システム１００が図１に示されている。データ処理システム１００は、ホストをネットワーク１０３にインターフェースするように構成されたネットワークインターフェースデバイス１０２に結合されたホストコンピューティングデバイス１０１を備える。ホストコンピューティングデバイス１０１は、１つまたは複数のユーザレベルアプリケーション１０５をサポートするオペレーティングシステム１０４を含む。ホストコンピューティングデバイス１０１は、ネットワークプロトコルスタック（図示せず）も含むことができる。例えば、プロトコルスタックは、アプリケーションの構成要素であってもよく、アプリケーションがリンクされているライブラリであってもよく、またはオペレーティングシステムによって提供されてもよい。いくつかの実施形態では、２つ以上のプロトコルスタックが提供されてもよい。

ネットワークプロトコルスタックは、伝送制御プロトコル（ＴＣＰ）スタックであってもよい。アプリケーション１０５は、ソケットを開き、ソケットに対してデータを読み書きすることによってＴＣＰ／ＩＰメッセージを送受信することができ、オペレーティングシステム１０４は、ネットワークを介してメッセージが転送されるようにする。例えば、アプリケーションは、ソケットを通じて、次いでオペレーティングシステム１０４を介してネットワーク１０３にデータを送信するためのシステムコール（ｓｙｓｃａｌｌ）を呼び出すことができる。メッセージを送信するためのこのインターフェースは、メッセージパッシングインターフェースとして知られ得る。

スタックをホスト１０１に実装する代わりに、いくつかのシステムは、プロトコルスタックをネットワークインターフェースデバイス１０２にオフロードする。例えば、スタックがＴＣＰスタックである場合、ネットワークインターフェースデバイス１０２は、ＴＣＰプロトコル処理を実行するためのＴＣＰオフロードエンジン（ＴＯＥ）を備えることができる。ホストコンピューティングデバイス１０１ではなくネットワークインターフェースデバイス１０２内でプロトコル処理を実行することによって、ホストシステム１０１のプロセッサ（複数可）に対する需要を低減することができる。ネットワークを介して送信されるデータは、ＴＯＥ対応仮想インターフェースドライバを介してアプリケーション１０５によって、カーネルＴＣＰ／ＩＰスタックを部分的にまたは完全に渡すことによって送信されてもよい。したがって、この高速経路に沿って送信されるデータは、ＴＯＥドライバの要件を満たすようにフォーマットされるだけでよい。

ホストコンピューティングデバイス１０１は、１つまたは複数のプロセッサおよび１つまたは複数のメモリを備えることができる。いくつかの実施形態では、ホストコンピューティングデバイス１０１およびネットワークインターフェースデバイス１０２は、バス、例えば周辺機器相互接続エクスプレス（ＰＣＩｅバス）を介して通信することができる。

データ処理システムの動作中、ネットワーク上に送信されるべきデータは、送信のためにホストコンピューティングデバイス１０１からネットワークインターフェースデバイス１０２に転送することができる。一例では、データパケットは、ホストプロセッサによってホストからネットワークインターフェースデバイスに直接転送されてもよい。ホストは、ネットワークインターフェースデバイス１０２上に配置された１つまたは複数のバッファ１０６にデータを提供することができる。次いで、ネットワークインターフェースデバイス１０２は、データパケットを準備し、それらをネットワーク１０３を介して送信することができる。

あるいは、データは、ホストシステム１０１内のバッファ１０７に書き込まれてもよい。次いで、データは、ネットワークインターフェースデバイスによってバッファ１０７から取り出し、ネットワーク１０３を介して送信することができる。

これらの場合の両方において、データは、ネットワークを介した送信の前に、１つまたは複数のバッファに一時的に記憶される。ネットワークを介して送信されたデータは、（ルックバックにおいて）ホストに返され得る。

データパケットがネットワーク１０３を介して送受信されるとき、ネットワークを介して送信されるデータパケット上で、またはネットワークを介して受信されるデータパケット上で、データパケットに対する動作として表現することができる多くの処理タスクが存在する。例えば、ホストシステム１０１を分散型サービス妨害（ＤＤＯＳ）フィルタリングから保護するように、受信されるデータパケットに対してフィルタリングプロセスを実行することができる。このようなフィルタリングプロセスは、単純なパック検査または拡張Ｂｅｒｋｌｅｙパケットフィルタ（ｅＢＰＦ）によって実行することができる。別の例として、ネットワーク１０３を介して送信されるデータパケットに対してカプセル化および転送が実行され得る。これらのプロセスは、多くのＣＰＵサイクルを消費し、従来のＯＳアーキテクチャにとって負担となり得る。

フィルタリング動作または他のパケット処理動作がホストシステム２２０において実施され得る一方法を示す図２を参照する。ホストシステム２２０によって実行されるプロセスは、ユーザ空間またはカーネル空間のいずれかで実行されるものとして示されている。ネットワークインターフェースデバイス２１０においてネットワークから受信されるデータパケットを終端アプリケーション２５０に送達するための受信経路が、カーネル空間に存在する。この受信経路は、ドライバ２３５と、プロトコルスタック２４０と、ソケット２４５とを備える。フィルタリング動作２３０は、ユーザ空間において実施される。ネットワークインターフェースデバイス２１０によってホストシステム２２０に提供される入来パケットは、（プロトコル処理が行われる）カーネルをバイパスし、フィルタリング動作２３０に直接提供される。

フィルタリング動作２３０には、ホストシステム２２０内の他の要素とデータパケットを交換するための仮想インターフェース（エーテルファブリック仮想インターフェース（ＥＦＶＩ）もしくはデータプレーン開発キット（ＤＰＤＫ）または任意の他の適切なインターフェースであってもよい）が与えられる。フィルタリング動作２３０は、ＤＤＯＳスクラブおよび／または他の形態のフィルタリングを実行することができる。ＤＤＯＳスクラブプロセスは、ＤＤＯＳ候補として容易に認識されるすべてのパケット、例えば、サンプルパケット、パケットのコピー、およびまだ分類されていないパケットに対して実行することができる。フィルタリング動作２３０に送達されないパケットは、ネットワークインターフェースからドライバ２３５に直接渡すことができる。動作２３０は、フィルタリングを実行するための拡張Ｂｅｒｋｅｌｅｙパケットフィルタ（ｅＢＰＦ）を提供することができる。受信されるパケットが動作２３０によって提供されるフィルタリングを通過する場合、動作２３０は、受信されるパケットを処理するためにカーネル内の受信経路にパケットを再注入するように構成される。具体的には、パケットは、ドライバ２３５またはスタック２４０に提供される。その後、パケットはプロトコルスタック２４０によってプロトコル処理される。その後、パケットは、終端アプリケーション２５０に関連付けられたソケット２４５に渡される。終端アプリケーション２５０は、ｒｅｃｖ（）呼び出しを発行して、関連するソケットのバッファからデータパケットを取り出す。

しかしながら、この手法にはいくつかの問題がある。最初に、フィルタリング動作２３０はホストＣＰＵ上で作動する。フィルタリング２３０を作動させるために、ホストＣＰＵは、ネットワークから受信される速度でデータパケットを処理しなければならない。ネットワークからデータが送受信される速度が速い場合、これはホストＣＰＵの処理リソースの大きな損失を構成する可能性がある。フィルタリング動作２３０への高いデータ流量は、Ｉ／Ｏ帯域幅および内部メモリ／キャッシュ帯域幅などの他の限られたリソースの大量消費をもたらす可能性がある。

データパケットのカーネルへの再注入を実行するために、再注入を実行するための特権ＡＰＩをフィルタリング動作２３０に提供する必要がある。再注入プロセスは煩雑であり、パケットの順序付けに注意を要する場合がある。再注入を実行するために、動作２３０は、多くの場合、専用のＣＰＵコアを必要とし得る。

データを動作に提供し、再注入するステップは、データをメモリにコピーし、メモリからコピーする必要がある。このコピーは、システムに対するリソース負荷である。

ネットワークを介して送受信されるデータに対するフィルタリング以外の他のタイプの動作を提供する場合にも、同様の問題が発生する可能性がある。

いくつかの動作（ＤＰＤＫタイプの動作など）は、処理されたパケットをネットワーク上に戻す転送を必要とする場合がある。

別の手法を示す図３を参照する。同様の要素は、同様の参照符号によって参照される。この例では、エクスプレスデータパス（ＸＤＰ）３１０として知られる追加の層が、カーネルにおける送信および受信経路へ挿入される。ＸＤＰ３１０への拡張は、送信経路への挿入を可能にする。ＸＤＰヘルパは、（受信動作の結果として）パケットが送信されることを可能にする。ＸＤＰ３１０は、オペレーティングシステムのドライバレベルで挿入され、スタック２４０によってプロトコル処理される前にネットワークから受信されるデータパケットに対して動作を実行するように、このレベルでプログラムが実行されることを可能にする。ＸＤＰ３１０はまた、ネットワークを介して送信されるデータパケットに対して動作を実行するために、このレベルでプログラムが実行されることを可能にする。したがって、ｅＢＰＦプログラムおよび他のプログラムは、送信経路および受信経路において動作することができる。

図３に例示されるように、フィルタリング動作３２０は、ＸＤＰ３１０の一部であるプログラム３３０を形成するために、ユーザ空間からＸＤＰへ挿入され得る。動作３２０は、データ受信経路上で実行されることになるＸＤＰ制御プレーンを使用して挿入されて、受信経路上のパケットに対してフィルタリング動作（例えばＤＤＯＳスクラブ）を実行するプログラム３３０を提供する。このようなプログラム３３０は、ｅＢＰＦプログラムであってもよい。

プログラム３３０は、ドライバ２３５とプロトコルスタック２４０との間でカーネルに挿入されて示されている。しかしながら、他の例では、プログラム３３０は、カーネル内の受信経路内の他の点に挿入されてもよい。プログラム３３０は、データパケットを受信する別個の制御経路の一部であってもよい。プログラム３３０は、アプリケーションによって、そのアプリケーションのためのソケット２４５のアプリケーションプログラミングインターフェース（ＡＰＩ）に対する拡張を提供することによって提供されてもよい。

このプログラム３３０は、付加的または代替的に、送信経路を介して送信されているデータに対して１つまたは複数の動作を実行することができる。次いで、ＸＤＰ３１０は、ネットワークインターフェースデバイス２１０を介してネットワークを介してデータを送信するためにドライバ２３５の送信機能を呼び出す。この場合のプログラム３３０は、ネットワークを介して送信されるべきデータパケットに関する負荷分散またはルーティング動作を提供することができる。プログラム３３０は、ネットワークを介して送信されるべきデータパケットに関するセグメント再カプセル化および転送動作を提供することができる。

プログラム３３０は、ファイアウォール、仮想スイッチング、またはプロトコル終了もしくはアプリケーション処理を必要としない他の動作に使用することができる。

このようにＸＤＰ３１０を使用する利点の１つは、プログラム３３０が中間コピーなしでドライバによって処理されるメモリバッファに直接アクセスできることである。

このように動作のためのプログラム３３０をカーネルに挿入するためには、プログラム３３０が安全であることを保証する必要がある。安全でないプログラムがカーネルに挿入される場合、これは、カーネルをクラッシュさせる可能性がある無限ループ、バッファオーバフロー、初期化されない変数、コンパイラエラー、大型プログラムによって引き起こされる性能問題などの特定のリスクをもたらす。

このようにしてＸＤＰ３１０に挿入される前にプログラム３３０が安全であることを保証するために、検証器がホストシステム２２０上で作動して、プログラム３３０の安全性を検証することができる。検証器は、ループが存在しないことを保証するように構成することができる。後方ジャンプ動作は、ループを発生させない限り許可され得る。検証器は、プログラム３３０が所定数（例えば、４０００）以下の命令を有することを保証するように構成することができる。検証器は、プログラム３３０のデータパスをトラバースすることによってレジスタ使用の有効性のチェックを実行することができる。可能な経路が多すぎる場合、プログラム３３０は、カーネルモードで実行するのに安全ではないとして拒否される。例えば、１０００を超える分岐がある場合、プログラム３３０は拒否され得る。

ＸＤＰは、安全なプログラム３３０をカーネルにおいてインストールすることができる一例であり、これを達成することができる他の方法があることが当業者には理解されよう。

図３に関して上述した手法は、例えば、動作がカーネルにおいてコードを実行するために必要な安全な（またはサンドボックス化された）言語で表現できる場合、図２に関して上述した手法と同じくらい効率的であり得る。ｅＢＰＦ言語は、ｘ８６プロセッサ上で効率的に実行することができ、ＪＩＴ（ジャストインタイム）コンパイル技法は、ｅＢＰＦプログラムをネイティブマシンコードにコンパイルすることを可能にする。言語は安全であるように設計されており、例えば、状態は、（ハッシュテーブルなどの）共有データ構造である構造体のみをマッピングするように制限されている。許容されるループは制限されており、代わりに、１つのｅＢＰＦプログラムが別のｅＢＰＦプログラムをテールコールすることができる。状態空間は制約される。

しかしながら、いくつかの実装形態では、この手法によれば、ホストシステム２２０のリソース（例えば、Ｉ／Ｏ帯域幅および内部メモリ／キャッシュ帯域幅、ホストＣＰＵ）上で大きな損失が存在し得る。データパケットに対する動作は依然としてホストＣＰＵによって実行されており、ホストＣＰＵは、データが送信／受信されている速度でそのような動作を実行する必要がある。

別の提案は、ホストシステムではなくネットワークインターフェースデバイスで上記の動作を実行することである。そうすることにより、消費されるＩ／Ｏ帯域幅、メモリおよびキャッシュ帯域幅に加えて、動作を実行するときにホストＣＰＵによって使用されるＣＰＵサイクルを解放することができる。処理動作の実行をホストからネットワークインターフェースデバイスのハードウェアに移行することは、いくつかの課題を提示し得る。

ネットワークハードウェアにおいて処理を実施するための１つの提案は、パケット処理および／または操作動作に特化した複数のＣＰＵを備えるネットワーク処理ユニット（ＮＰＵ）をネットワークインターフェースデバイスに提供することである。

例えばＣＰＵ４２０などの中央処理装置（ＣＰＵ）のアレイ４１０を備えるネットワークインターフェースデバイス４００の例を示している、図４を参照する。ＣＰＵは、ネットワークから送受信されるデータパケットをフィルタリングするなどの機能を実行するように構成される。ＣＰＵのアレイ４１０の各ＣＰＵは、ＮＰＵであってもよい。図４には示されていないが、ＣＰＵは、付加的または代替的に、ネットワークを介した送信のためにホストから受信されるデータパケットに対する負荷分散などの動作を実行するように構成されてもよい。これらのＣＰＵは、そのようなパケット処理／操作動作に特化している。ＣＰＵは、このようなパケット処理／操作動作に最適化された命令セットを実行する。

ネットワークインターフェースデバイス４００は、ＣＰＵのアレイ４１０の間で共有され、アレイにとってアクセス可能なメモリ（図示せず）をさらに備える。

ネットワークインターフェースデバイス４００は、ネットワークインターフェースデバイス４００をネットワークとインターフェースするためのネットワーク媒体アクセス制御（ＭＡＣ）層４３０を備える。ＭＡＣ層４３０は、ネットワークを介してデータパケットを受信し、ネットワークを介してデータパケットを送信するように構成される。

ネットワークインターフェースデバイス４００において受信されるパケットに対する動作は、ＣＰＵにわたって並列化される。図示のように、ＭＡＣ層４３０においてデータフローが受信されると、それは拡散機能４４０に渡され、拡散機能は、フローからデータパケットを抽出し、ＣＰＵがこれらのデータパケットの処理、例えばフィルタリングを実行するために、ＮＰＵ４１０内の複数のＣＰＵにわたってデータパケットを分配するように構成される。拡散機能４４０は、受信データパケットを解析して、それらが属するデータフローを識別することができる。拡散機能４４０は、各パケットについて、パケットが属するデータフロー内のそれぞれのパケットの位置の指示を生成する。指示は、例えば、タグであってもよい。拡散機能４４０は、各パケットの関連するメタデータにそれぞれの指示を追加する。各データパケットの関連するメタデータは、データパケットに付加することができる。関連するメタデータは、サイドバンド制御情報として拡散機能４４０に渡すことができる。指示は、任意の特定のフローのデータパケットの順序が再構築され得るように、データパケットが属するフローに応じて追加される。

複数のＣＰＵ４１０によってプログラミングされた後、データパケットは次いで、再順序付け機能４５０に渡され、再順序付け機能は、データフローのパケットをホストインターフェース層４６０に渡す前に正しい順序に順序付けし直す。再順序付け機能４５０は、フローのデータパケット内の指示（例えば、タグ）を比較してデータパケットの順序を再構築することによって、フロー内のデータパケットを順序付けし直すことができる。次いで、順序付けし直されたデータパケットは、ホストインターフェース４６０をトラバースし、ホストシステム２２０に送達される。

図４は、ネットワークから受信されるデータパケットに対してのみ動作するＣＰＵのアレイ４１０を示しているが、ネットワークを介した送信のためにホストから受信されるデータパケットに対して同様の原理（拡散および順序付けし直しを含む）を実行することができ、ＣＰＵのアレイ４１０は、ホストから受信されるこれらのデータパケットに対して機能（例えば、負荷分散）を実行する。

ＣＰＵによって実行されるプログラムは、図３に関して上述した例においてホストＣＰＵ上で実行されるプログラムのコンパイルまたはトランスコードされたバージョンであってもよい。言い換えれば、動作を実行するためにホストＣＰＵ上で実行される命令セットは、ネットワークインターフェース４００内の専用ＣＰＵの各ＣＰＵアレイ上での実行のために変換される。

ＣＰＵにわたる並列化を達成するために、プログラムの複数のインスタンスがコンパイルされ、複数のＣＰＵ上で並列に実行される。プログラムの各インスタンスは、ネットワークインターフェースデバイスにおいて受信されるデータパケットの異なるセットを処理する役割を果たすことができる。しかしながら、各個々のデータパケットは、そのデータパケットに対してプログラムの機能を提供するときに単一のＣＰＵによって処理される。並列プログラムの実行の全体的な効果は、ホストＣＰＵ上での単一のプログラム（例えば、プログラム３３０）の実行と同じであり得る。

専用のＣＰＵのうちの１つは、毎秒５０００万パケット程度でデータパケットを処理することができる。この動作速度は、ホストＣＰＵの動作速度よりも低速であり得る。したがって、並列化を使用して、ホストＣＰＵ上で同等のプログラムを実行することによって達成されるのと同じ性能を達成することができる。並列化を実行するために、データパケットはＣＰＵ上に拡散され、次いでＣＰＵによる処理後に順序付けし直される。再順序付けステップ４５０と共に各フローのデータパケットを順に処理する要件は、ボトルネックを導入し、メモリリソースオーバーヘッドを増加させる可能性があり、デバイスの利用可能なスループットを制限する可能性がある。この要件および再順序付けステップ４５０は、ネットワークトラフィックの内容および並列性を適用できる程度に応じて処理スループットが変動する可能性があるため、デバイスのジッタを増加させる可能性がある。

このような専用ＣＰＵを使用する利点の１つは、短いコンパイル時間であり得る。例えば、そのようなＣＰＵ上で１秒未満で実行するように、フィルタリングアプリケーションをコンパイルすることが可能であり得る。

この手法がより高いリンク速度にスケーリングされる場合、ＣＰＵのアレイの使用に問題があり得る。ホストネットワークインターフェースが、近い将来にテラビット／秒の速度に到達するために必要とされ得る。このようなＣＰＵアレイ４１０をこれらのより高い速度にスケールアップする場合、必要な電力量が問題になる可能性がある。

別の提案は、ネットワークインターフェースデバイスにフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含め、ＦＰＧＡを使用してネットワークから受信されるデータパケットに対して動作を実行することである。

ネットワークインターフェースデバイス５００において受信されるデータパケットに対して動作を実行するためのＦＰＧＡアプリケーション５１５を有するＦＰＧＡ５１０の、ネットワークインターフェースデバイス５００における使用の一例を示す図５を参照する。図４にあるものと同様の要素は、同様の参照符号によって参照される。

図５は、ネットワークから受信されるデータパケットに対してのみ動作するＦＰＧＡアプリケーション５１５を示しているが、そのようなＦＰＧＡアプリケーション５１５は、ネットワークを介した送信のために、またはホストもしくはシステム上の別のネットワークインターフェースに戻すために、ホストから受信されるこれらのデータパケットに対して機能（例えば、負荷分散および／またはファイアウォール機能）を実行するために使用されてもよい。

ＦＰＧＡアプリケーション５１５は、ＣもしくはＣ＋＋またはｓｃａｌａなどの一般的なシステムレベル言語で記述されたプログラムをＦＰＧＡ５１０上で作動するようにコンパイルすることによって提供することができる。

そのＦＰＧＡ５１０は、ネットワークインターフェース機能およびＦＰＧＡ機能を有することができる。ＦＰＧＡ機能は、ネットワークインターフェースデバイスのユーザの必要に応じてＦＰＧＡ５１０にプログラムされ得るＦＰＧＡアプリケーション５１５を提供することができる。ＦＰＧＡアプリケーション５１５は、例えば、ネットワーク２３０からホストへの受信経路上でメッセージのフィルタリングを提供することができる。ＦＰＧＡアプリケーション５１５は、ファイアウォールを提供することができる。

ＦＰＧＡ５１０は、ＦＰＧＡアプリケーション５１５を提供するようにプログラム可能とすることができる。ネットワークインターフェースデバイス機能の一部は、ＦＰＧＡ５１０内の「ハード」ロジックとして実装されてもよい。例えば、ハードロジックは、特定用途向け集積回路（ＡＳＩＣ）のゲートであってもよい。ＦＰＧＡアプリケーション５１５は、「ソフト」ロジックとして実装されてもよい。ソフトロジックは、ＦＰＧＡＬＵＴ（ルックアップテーブル）をプログラミングすることによって提供されてもよい。ハードロジックは、ソフトロジックと比較してより高いレートでクロックされることが可能であり得る。

ネットワークインターフェースデバイス５００は、ホストとデータを送受信するように構成されたホストインターフェース５０５を備える。ネットワークインターフェースデバイス５２０は、ネットワークとデータを送受信するように構成されたネットワーク媒体アクセス制御（ＭＡＣ）インターフェース５２０を含む。

ＭＡＣインターフェース５２０においてネットワークからデータパケットが受信されると、データパケットはＦＰＧＡアプリケーション５１５に渡され、ＦＰＧＡアプリケーションはデータパケットに対してフィルタリングなどの機能を実行するように構成されている。次いで、データパケット（任意のフィルタリングを通過する場合）は、ホストインターフェース５０５に渡され、そこからホストに渡される。あるいは、データパケットＦＰＧＡアプリケーション５１５は、データパケットをドロップまたは再送信することを決定することができる。

ＦＰＧＡを使用してデータパケットに対して機能を実行するこの手法に伴う１つの問題は、必要とされるコンパイル時間が比較的長いことである。ＦＰＧＡは、ＡＮＤ、ＯＲ、ＮＯＴなどのようなプリミティブ論理演算を個別に表す多くの論理要素（例えば論理セル）から構成される。これらの論理要素は、プログラム可能な相互接続を有するマトリクスに配置構成される。機能を提供するために、これらの論理セルは、回路定義および同期クロックタイミング制約を実施するためにともに動作する必要があり得る。各論理セルを配置し、セル間をルーティングすることは、アルゴリズム的に困難な課題であり得る。利用レベルがより低いＦＰＧＡ上でコンパイルする場合、コンパイル時間は１０分未満であり得る。しかしながら、ＦＰＧＡデバイスが様々なアプリケーションによってより利用されるようになるにつれて、所与の機能をＦＰＧＡ上にコンパイルする時間が増加するように、場所およびルートの課題が増大する可能性がある。そのため、そのルーティングリソースの大部分が既に消費されているＦＰＧＡに追加のロジックを追加するには、数時間のコンパイル時間がかかる場合がある。

１つの手法は、解析プリミティブ、マッチングプリミティブ、およびアクションプリミティブなどの特定の処理プリミティブを使用してハードウェアを設計することである。これらは、すべてのパケットが３つのプロセスの各々を受ける処理パイプラインを構築するために使用され得る。最初に、パケットが解析されて、プロトコルヘッダのメタデータ表現が構築される。第二に、パケットは、テーブルに保持された規則と柔軟にマッチングされる。最後に、一致がみつかったとき、パケットは、マッチング動作において選択されたテーブルからのエントリに応じて動作される。

解析／マッチング／アクションモデルを使用して機能を実装するために、Ｐ４プログラミング言語（または同様の言語）を使用することができる。Ｐ４プログラミング言語は、標的に依存せず、これは、Ｐ４で書かれたプログラムをコンパイルして、ＣＰＵ、ＦＰＧＡ、ＡＳＩＣ、ＮＰＵなどのような異なるタイプのハードウェアで実行できることを意味する。各異なるタイプの標的には、Ｐ４ソースコードを適切な標的スイッチモデルにマッピングする独自のコンパイラが設けられている。

Ｐ４は、高レベルプログラムがパケット処理パイプラインのパケット処理動作を表現することを可能にするプログラミングモデルを提供するために使用され得る。この手法は、宣言的なスタイルで自然に自身を表現する動作に対して良好に機能する。Ｐ４言語では、プログラマは、解析、マッチング、およびアクションステージを、受信されるデータパケットに対して実行される動作として表現する。これらの動作は、効率的に実行するために専用ハードウェアについてまとめられている。しかしながら、この宣言的なスタイルは、ｅＢＰＦプログラムなどの命令的な性質のプログラムを表現するのに適切ではない場合がある。

ネットワークインターフェースデバイスでは、ｅＢＰＦプログラムのシーケンスが連続的に実行される必要があり得る。この場合、互いに呼び合うｅＢＰＦプログラムのチェーンが生成される。各プログラムは、状態を修正することができ、出力は、プログラムのチェーン全体が連続的に実行されたかのようになる。コンパイラがすべての解析、マッチング、およびアクションステップを収集することは困難であり得る。しかしながら、ｅＢＰＦプログラムのチェーンが既にインストールされている場合であっても、チェーンをインストール、削除、または変更する必要があり得、さらなる課題を提示する可能性がある。

リピート実行を必要とするそのようなプログラムの例を提供するために、データパケットを処理するように構成されたプログラムｅ_１、ｅ_２、ｅ_３のシーケンスの例を示す図１０を参照する。各プログラムは、例えば、ｅＢＰＦプログラムであってもよい。各プログラムは、受信データパケットを解析し、テーブル１０１０内の一致するエントリにおけるアクションを決定するためにテーブル１０１０内のルックアップを実行し、次いでデータパケットに対するアクションを実行するように構成される。アクションは、パケットを修正することを含むことができる。各ｅＢＰＦプログラムはまた、ローカル状態および共有状態に応じてアクションを実行することができる。データパケットＰ_０は、パイプライン内の次のプログラムｅ_２に渡され、修正される前に、ｅＢＰＦプログラムｅ_１によって最初に処理される。プログラムのシーケンスの出力は、パイプライン内の最終プログラムの出力、すなわちｅ_３である。

ｎ個のそのようなプログラムの各々の効果を単一のＰ４プログラムに組み合わせることは、コンパイラにとって複雑であり得る。さらに、特定のプログラミングモデル（ＸＤＰなど）は、状況の変化に応じて迅速に、プログラムのシーケンスの任意の時点においてプログラムを動的に挿入および削除する必要があり得る。

本出願のいくつかの実施形態によれば、複数の処理ユニットを備えるネットワークインターフェースデバイスが提供される。各処理ユニットは、ハードウェアにおいて少なくとも１つの所定の動作を実行するように構成される。各処理ユニットは、それ自体のローカル状態を記憶するメモリを備える。各処理ユニットは、この状態を変更するデジタル回路を備える。デジタル回路は、特定用途向け集積回路であってもよい。各処理ユニットは、それぞれの複数の動作を実行するように、構成可能なパラメータを含むプログラムを実行するように構成される。各処理ユニットはアトムであってもよい。アトムは、予め定義されたテンプレートの特定のプログラミングおよびルーティングによって定義される。これは、接続された複数の処理ユニットによって提供されるフローにおけるその特定の動作挙動および論理的場所を定義する。「アトム」という用語が本明細書で使用される場合、これは、単一のステップでその動作を実行するように構成されたデータ処理ユニットを指すと理解され得る。すなわち、アトムは、その動作をアトム動作として実行する。

アトムは、１つまたは複数の入力を取り、１つまたは複数の出力を生成する、一連の計算のうちの１つを繰り返し実行するように構成することができるハードウェア構造の集合と見なすことができる。

アトムはハードウェアによって提供される。アトムは、コンパイラによって構成されてもよい。アトムは、計算を実行するように構成され得る。

コンパイル中、複数の処理ユニットのうちの少なくともいくつかは、複数の処理ユニットのうちの少なくともいくつかによってネットワークインターフェースデバイスにおいて受信されるデータパケットに関して機能が実行されるように、動作を実行するように構成される。複数の処理ユニットの少なくともいくつかの各々は、データパケットに関して機能を実行するように、それぞれの少なくとも１つの所定の動作を実行するように構成される。言い換えれば、接続された処理ユニットが実行するように構成された動作は、受信データパケットに対して実行される。動作は、複数の処理ユニットの少なくともいくつかによって順次実行される。集合的に、複数の動作の各々の実行は、受信パケットに関する機能、例えばフィルタリングを提供する。

機能を実行するようにそれぞれの少なくとも１つの所定の動作を実行するように各アトムを配置することによって、図５に関して上述したＦＰＧＡアプリケーション例と比較してコンパイル時間を短縮することができる。さらに、ハードウェア内で特定の動作を実行するために特に専用にされている処理ユニットを使用して機能を実行することにより、図４に関して上述したように、ネットワークインターフェースデバイス内のソフトウェアを実行するＣＰＵを使用して各データパケットの機能を実行することに関して、機能を実行できる速度を改善することができる。

本出願の実施形態によるネットワークインターフェースデバイス６００の一例を示す図６を参照する。ネットワークインターフェースデバイスは、ネットワークインターフェースデバイス６００のインターフェースにおいて受信されるデータパケットの処理を実行するように構成されたハードウェアモジュール６１０を備える。図６は、受信経路上のデータパケットのための機能（例えば、フィルタリング）を実行するハードウェアモジュール６１０を示しているが、ハードウェアモジュール６１０は、ホストから受信される送信経路上のデータパケットのための機能（例えば、負荷分散またはファイアウォール）を実行するためにも使用され得る。

ネットワークインターフェースデバイス６００は、ホストとデータパケットを送受信するためのホストインターフェース６２０と、ネットワークとデータパケットを送受信するためのネットワークＭＡＣインターフェース６３０とを含む。

ネットワークインターフェースデバイス６００は、複数の処理ユニット６４０ａ、６４０ｂ、６４０ｃ、６４０ｄを備えるハードウェアモジュール６１０を備える。各処理ユニットは、アトム処理ユニットであってもよい。アトムという用語は、本明細書において処理ユニットを指すために使用される。各処理ユニットは、ハードウェアにおいて少なくとも１つの動作を実行するように構成される。処理ユニットの各々は、少なくとも１つの動作を実行するように構成されたデジタル回路６４５を備える。デジタル回路６４５は、特定用途向け集積回路であってもよい。処理ユニットの各々は、状態情報を記憶するメモリ６５０をさらに備える。デジタル回路６４５は、複数の動作のそれぞれを実行する際に、状態情報を更新する。ローカルメモリに加えて、各処理ユニットは、複数の処理ユニットの各々にアクセス可能な状態情報を同じく記憶することができる共有メモリ６６０にアクセスすることができる。

共有メモリ６６０内の状態情報および／または処理ユニットのメモリ６５０内の状態情報は、処理ユニット間で渡されるメタデータ、一時変数、データパケットの内容、１つまたは複数の共有マップの内容のうちの少なくとも１つを含むことができる。

複数の処理ユニットは共に、ネットワークインターフェースデバイス６００において受信されるデータパケットに対して実行される機能を提供することができる。コンパイラは、複数の処理ユニットのうちの少なくともいくつかを、各入来データパケットに関してそれらのそれぞれの少なくとも１つの所定の動作を実行するように構成することによって、入来データパケットに関して機能を実行するようにハードウェアモジュール６１０を構成するための命令を出力する。これは、処理ユニット６４０ａ、６４０ｂ、６４０ｃ、６４０ｄのうちの少なくともいくつかをともに連結（すなわち、接続）することによって達成され得、その結果、接続された処理ユニットの各々は、各入来データパケットに対してそれぞれの少なくとも１つの動作を実行する。各処理ユニットは、機能を実行するために、特定の順序でそれぞれの少なくとも１つの動作を実行する。順序は、２つ以上の処理ユニットが互いに並列に、すなわち同時に実行するようなものであってもよい。例えば、１つの処理ユニットは、第２の処理ユニットも同じデータパケット内の異なる位置から読み出す期間（ハードウェアモジュール６１０の周期信号（例えば、クロック信号）によって定義される）中にデータパケットから読み出すことができる。

いくつかの実施形態では、データパケットは、処理ユニットによって表される各ステージを順に通過する。この場合、各処理ユニットは、その処理を実行するためにデータパケットを次の処理ユニットに渡す前にその処理を完了する。

図６に示す例では、処理ユニット６４０ａ、６４０ｂ、および６４０ｄは、コンパイル時に互いに接続され、結果、それらの各々は、受信データパケットに関して機能、例えばフィルタリングを実行するように、それぞれの少なくとも１つの動作を実行する。処理ユニット６４０ａ、６４０ｂ、６４０ｄは、データパケットを処理するためのパイプラインを形成する。データパケットは、各々が等しい期間を有する複数のステージにおいて、このパイプラインに沿って移動することができる。期間は、周期信号またはビートに従って定義することができる。期間は、クロック信号によって定義されてもよい。クロックのいくつかの期間は、パイプラインの各ステージの１つの期間を定義することができる。データパケットは、繰り返し期間の各発生の終わりにパイプライン内の１つのステージに沿って移動する。期間は、固定間隔であってもよい。あるいは、パイプライン内のステージの各期間は、可変量の時間を要してもよい。パイプラインの次のステージを示す信号は、前の処理ステージが動作を終了したときに生成されてもよく、これは可変の時間量を要し得る。ストールが、何らかの所定の時間量にわたって信号を遅延させることによって、パイプラインの任意のステージにおいて導入されてもよい。

処理ユニット６４０ａ、６４０ｂ、６４０ｄの各々は、それらのそれぞれの少なくとも１つの動作の一部として共有メモリ６６０にアクセスするように構成されてもよい。処理ユニット６４０ａ、６４０ｂ、６４０ｄの各々は、それらのそれぞれの少なくとも１つの動作の一部としてメタデータを互いに渡すように構成されてもよい。処理ユニット６４０ａ、６４０ｂ、６４０ｄの各々は、それらのそれぞれの少なくとも１つの動作の一部として、ネットワークから受信されるデータパケットにアクセスするように構成され得る。

この例では、処理ユニット６４０ｃは、機能を提供するように受信データパケットの処理を実行するために使用されず、パイプラインから省略される。

ネットワークＭＡＣ層６３０において受信されるデータパケットは、処理のためにハードウェアモジュール６１０に渡され得る。図６には示されていないが、ハードウェアモジュール６１０によって実行される処理は、ハードウェアモジュール６１０によって提供される機能以外のデータパケットに関する追加の機能を提供するより大きな処理パイプラインの一部であってもよい。これは、図１４に関して示されており、下記により詳細に説明される。

第１の処理ユニット６４０ａはデータパケットに対して第１の少なくとも１つの動作を実施するよう構成される。この第１の少なくとも１つの動作は、データパケットからの読み出し、メモリ６６０内の共有状態への読み出しおよび書き込み、ならびに／またはアクションを決定するためにテーブル内のルックアップを実行することのうちの少なくとも１つを含むことができる。次いで、第１の処理ユニット６４０ａは、その少なくとも１つの動作から結果を生成するように構成される。結果は、メタデータの形態であってもよい。結果は、データパケットに対する修正を含むことができる。結果は、メモリ６６０内の共有状態に対する修正を含むことができる。第２の処理ユニット６４０ｂは、第１の処理ユニット６４０ａによって実行された動作の結果に応じて、第１のデータパケットに対して少なくとも１つの動作を実行するように構成されている。第２の処理ユニット６４０ｂは、その少なくとも１つの動作から結果を生成し、第１のデータパケットに対してその少なくとも１つの動作を行うように構成された第３の処理ユニット６４０ｄにその結果を渡す。第１の処理ユニット６４０ａ、第２の処理ユニット６４０ｂ、および第３の処理ユニット６４０ｄは共に、データパケットに関する機能を提供するように構成されている。次いで、データパケットは、ホストインターフェース６２０に渡され得、ホストインターフェースからホストシステムに渡される。

したがって、接続された処理ユニットは、ネットワークインターフェースデバイスにおいて受信されるデータパケットを処理するためのパイプラインを形成することが分かる。このパイプラインは、ｅＢＰＦプログラムの処理を提供することができる。パイプラインは、複数のｅＢＰＦプログラムの処理を提供することができる。パイプラインは、順に実行される複数のモジュールの処理を提供することができる。

ハードウェアモジュール６１０内の処理ユニットの相互接続は、ハードウェアモジュール６１０の予め合成された相互接続ファブリックのルーティング機能をプログラムすることによって実行されてもよい。この相互接続ファブリックは、ハードウェアモジュール６１０の様々な処理ユニット間の接続を提供する。相互接続ファブリックは、ファブリックによってサポートされるトポロジに従ってプログラムされる。可能な例示的なトポロジを、図１５を参照して下記に説明する。

ハードウェアモジュール６１０は、少なくとも１つのバスインターフェースをサポートする。少なくとも１つのバスインターフェースは、ハードウェアモジュール６１０においてデータパケットを受信する（例えば、ホストまたはネットワークから）。少なくとも１つのバスインターフェースは、ハードウェアモジュール６１０から（例えば、ホストまたはネットワークに）データパケットを出力する。少なくとも１つのバスインターフェースは、ハードウェアモジュール６１０において制御メッセージを受信する。制御メッセージは、ハードウェアモジュール６１０を構成するためのものであってもよい。

図６に示す例は、図５に示すＦＰＧＡアプリケーション５１５と比較してコンパイル時間が短縮されるという利点を有する。図６のハードウェアモジュール６１０は、例えば、フィルタリング機能をコンパイルするために必要な時間が１０秒未満であり得る。図６に示す例は、図４に示すＣＰＵのアレイの例と比較して処理速度が向上するという利点を有する。

アプリケーションは、汎用プログラム（または複数のプログラム）を予め合成されたデータパスにマッピングすることによって、そのようなハードウェアモジュール６１０における実行のためにコンパイルすることができる。コンパイラは、任意の数の処理ステージインスタンスをリンクすることによってデータパスを構築し、各インスタンスは、予め合成された処理ステージアトムのうちの１つから構築される。

各アトムは回路から構築される。各回路は、ＲＴＬ（レジスタ転送言語）または高レベル言語を使用して定義することができる。各回路は、コンパイラまたはツールチェーンを使用して合成される。アトムは、ハードロジックに合成されてもよく、そのため、ネットワークインターフェースデバイスのハードウェアモジュール内のハード（ＡＳＩＣ）リソースとして利用可能であってもよい。アトムは、ソフトロジックに合成されてもよい。ソフトロジック内のアトムには、物理デバイス上の合成ロジックの場所およびルート情報を割り当てて維持する制約を設けることができる。アトムは、アトムの挙動を指定する構成可能なパラメータを用いて設計することができる。各パラメータは、処理パイプラインのクロックサイクル中に処理ユニットによって実行されるべき少なくとも１つの動作を指定することができる変数、またはさらには動作のシーケンス（マイクロプログラム）であってもよい。アトムを実装するロジックは、同期的または非同期的にクロックされてもよい。

アトムの処理パイプライン自体は、周期信号に従って動作するように構成されてもよい。この場合、各データパケットおよびメタデータは、信号の各発生に応答してパイプラインに沿って１つのステージを移動する。処理パイプラインは非同期的に動作することができる。この場合、パイプライン内のより高いレベルの背圧は、上流ステージからのデータがそれに提示されたときにのみ、各下流ステージに処理を開始させる。

複数のそのようなアトムによって実行される機能をコンパイルするとき、コンピュータコード命令のシーケンスが複数の動作に分離され、各動作は単一のアトムにマッピングされる。各動作は、コンピュータコード命令内の逆アセンブルされた命令の単一の行を表すことができる。各動作は、アトムの１つによって実行されるように、アトムの１つに割り当てられる。コンピュータコード命令内の表現ごとに１つのアトムが存在し得る。各アトムは、１つのタイプの動作に関連付けられ、その関連付けられた動作のタイプに基づいてコンピュータコード命令内の少なくとも１つの動作を実行するように選択される。例えば、アトムは、データパケットからのロード動作を実行するように事前構成され得る。したがって、そのようなアトムは、コンピュータコード内のデータパケットからのロード動作を表す命令を実行するために割り当てられる。

コンピュータコード命令内で、１行につき１つのアトムを選択することができる。したがって、そのようなアトムを含むハードウェアモジュール内で機能を実装する場合、そのようなアトムが１００個存在し得、各々がそのデータパケットに関して機能を実行するようにそれぞれの動作を実行する。

各アトムは、その関連する動作（複数可）のタイプを決定する処理ステージテンプレートのセットのうちの１つに従って構築することができる。コンパイルプロセスは、その関連するタイプに基づいて特定の少なくとも１つの動作を実行するように各アトムを制御するための命令を生成するように構成される。例えば、アトムがパケットアクセス動作を実行するように事前構成されている場合、コンパイルプロセスは、そのアトムに、パケットのヘッダから特定の情報（例えば、パケットのソースＩＤ）をロードするための動作を割り当てることができる。コンパイルプロセスは、命令をハードウェアモジュールに送信するように構成され、アトムは、コンパイルプロセスによってアトムに割り当てられた動作を実行するように構成される。

アトムの挙動を指定する処理ステージテンプレートは、論理ステージテンプレート（例えば、レジスタ、スクラッチパッドメモリ、およびスタック、ならびに分岐に対する動作を提供する）、パケットアクセス状態テンプレート（例えば、パケットデータロードおよび／またはパケットデータストアを提供する）、およびマップアクセスステージテンプレート（例えば、マップ検索アルゴリズム、マップテーブルサイズ）である。

パケットアクセスステージは、データパケットからのバイトシーケンスの読み出し、データパケット内の１つのバイトシーケンスの異なるバイトシーケンスによる置換、データパケットへのバイトの挿入、および、データパケット内のバイトの削除のうちの少なくとも１つを含むことができる。

マップアクセスステージを使用して、ダイレクトインデックス配列および連想配列を含む異なるタイプのマップ（例えばルックアップテーブル）にアクセスすることができる。マップアクセスステージは、あるロケーションからの値の読み出し、あるロケーションへの値の書き込み、マップ内のあるロケーションにおける値の異なる値による置換のうちの少なくとも１つを含むことができる。マップアクセスステージは、値がマップ内のあるロケーションから読み出され、異なる値と比較される比較動作を含むことができる。そのロケーションから読み出された値が異なる値よりも小さい場合、第１のアクション（例えば、何もしない、そのロケーションにおける値を異なる値と交換する、または値をともに加算する）が実行され得る。そうでなければ、第２のアクション（例えば、何もしない、値を交換または加算する）が実行され得る。いずれの場合も、そのロケーションから読み出された値は、次の処理ステージに提供され得る。

各マップアクセスステージは、ステートフル処理ユニットにおいて実施され得る。マップアクセスステージの処理を実行するように構成されたアトムに含まれ得る回路１７００の一例を示す図１７を参照する。回路１７００は、ルックアップテーブルへの入力として使用される入力値のハッシュを実行するように構成されたハッシュ機能１７１０を含むことができる。回路１７００は、アトムの動作に関連付けられる状態を記憶するように構成されたメモリ１７２０を含む。回路１７００は、演算を実行するように構成された算術論理演算ユニット１７３０を含む。

論理ステージは、先行するステージによって提供される値に対して計算を実行することができる。論理ステージを実施するように構成された処理ユニットは、ステートレス処理ユニットであってもよい。各ステートレス処理ユニットは、単純な演算を行うことができる。各処理ユニットは、例えば８ビット演算を行ってもよい。

各論理ステージはステートレス処理ユニットに実装されてもよい。論理ステージの処理を実行するように構成されたアトムに含まれ得る回路１８００の一例を示す図１８を参照する。回路１８００は、算術論理演算ユニット（ＡＬＵ）およびマルチプレクサのアレイを備える。ＡＬＵおよびマルチプレクサは層に配列され、ＡＬＵによる処理の１つの層の出力は、マルチプレクサによって使用されてＡＬＵの次の層に入力を提供する。

ハードウェアモジュールに実装されたステージのパイプラインは、第１のパケットアクセスステージ（ｐｋｔ０）、それに続く第１の論理ステージ（ｌｏｇｉｃ０）、それに続く第１のマップアクセスステージ（ｍａｐ０）、それに続く第２の論理ステージ（ｌｏｇｉｃ１）、それに続く第２のパケットアクセスステージ（ｐｋｔ１）などを含むことができる。したがって、これは次の形態、ｐｋｔ０－＞ｌｏｇｉｃ０－＞ｍａｐ０－＞ｌｏｇｉｃ１－＞ｐｋｔ１、をとることができる。

いくつかの例では、ステージｐｋｔ０は、パケットから必要な情報を抽出し、ステージｐｋｔ０は、この情報をステージｌｏｇｉｃ０に渡す。ステージｌｏｇｉｃ０は、パケットが有効なＩＰパケットであるか否かを決定する。場合によっては、ｌｏｇｉｃ０はマップ要求を形成し、マップ要求をｍａｐ０に送信し、ｍａｐ０はマップ動作を実行する。ステージｍａｐ０は、ルックアップテーブルの更新を実行することができる。次に、ステージｌｏｇｉｃ１は、マップ動作からの結果を収集し、結果としてパケットをドロップするか否かを決定する。

場合によっては、このパケットに対してマップ動作を実行すべきでない場合をカバーするために、マップ要求が無効にされる。マップ動作が行われない場合、ｌｏｇｉｃ０は、パケットが有効なＩＰパケットであるか否かに応じて、パケットをドロップすべきか否かをｌｏｇｉｃ１に示す。いくつかの例では、ルックアップテーブルは２５６個のエントリを含み、各エントリは８ビット値である。

説明されるこの例は、５つのステージのみを含む。しかしながら、上述したように、さらに多くのものを使用することができる。さらに、動作はすべて順に実行される必要はなく、同じデータパケットに関するいくつかの動作は、異なる処理ユニットによって同時に実行されてもよい。

図６に示すハードウェアモジュール６１０は、データパケットに関して機能を実行するためのアトムの単一のパイプラインを示す。しかしながら、ハードウェアモジュール６１０は、データパケットを処理するための複数のパイプラインを備えてもよい。複数のパイプラインの各々は、データパケットに関して異なる機能を実行することができる。ハードウェアモジュール６１０は、ハードウェアモジュール６１０の第１のセットアトムを相互接続して第１のデータ処理パイプラインを形成するように構成可能である。ハードウェアモジュール６１０はまた、ハードウェアモジュール６１０のアトムの第２のセットを相互接続して第２のデータ処理パイプラインを形成するように構成可能である。

複数の処理ユニットを備えるハードウェアモジュールにおいて実施される機能をコンパイルするために、コンピュータコードのシーケンスから始まる一連のステップが実行されてもよい。ホストデバイスまたはネットワークインターフェースデバイス上のプロセッサ上で実行することができるコンパイラは、コンピュータコードの逆アセンブルされたシーケンスにアクセスすることができる。

第一に、コンパイラは、コンピュータコード命令のシーケンスを別個のステージに分割するように構成される。各ステージは、上述の処理ステージテンプレートのうちの１つによる動作を含むことができる。例えば、１つのステージは、データパケットからの読み出しを提供することができる。１つのステージは、マップデータの更新を提供することができる。別のステージは、パスドロップ決定を行うことができる。コンパイラは、コードによって表現される複数の演算の各々を、複数のステージのうちの１つに割り当てる。

第二に、コンパイラは、コードから決定される処理ステージの各々を、異なる処理ユニットによって実行されるように割り当てるように構成される。これは、処理ステージのそれぞれの少なくとも１つの動作の各々が異なる処理ステージによって実行されることを意味する。次いで、コンパイラの出力を使用して、処理ユニットに、機能を実行するように特定の順序で各ステージの動作を実行させることができる。

コンパイラの出力は、ハードウェアモジュールの処理ユニットに各処理ステージに関連付けられる動作を実行させるために使用される生成された命令を含む。

コンパイラの出力はまた、ハードウェアモジュール６１０を構成するための制御メッセージに応答するハードウェアモジュール内の論理を生成するために使用されてもよい。そのような制御メッセージは、図１４に関して下記により詳細に説明される。

ネットワークインターフェースデバイス６００上で実行されるように機能をコンパイルするためのコンパイルプロセスは、機能を提供するためのプロセスがホストデバイスのカーネルにおいて安全に実行されると決定したことに応答して実行することができる。プログラムの安全性の決定は、図３に関して上述したように、適切な検証器によって実行することができる。プロセスがカーネルでの実行に対して安全であると決定されると、プロセスはネットワークインターフェースデバイスでの実行のためにコンパイルすることができる。

データパケットに関して機能を実行するためにそれぞれの少なくとも１つの動作を実行する複数の処理ユニットのうちの少なくともいくつかの表現を示す図１５を参照する。そのような表現は、コンパイラによって生成され、機能を実行するようにハードウェアモジュールを構成するために使用され得る。表現は、動作が実行され得る順序、および処理ユニットのいくつかがそれらの動作をどのように並列に実行するかを示す。

表現１５００は、行および列を有する表の形態である。表のエントリのいくつかは、それぞれの動作を実行するように構成されたアトム、例えばアトム１５１０ａを示す。処理ユニットが属する行は、特定のデータパケットに対してその処理ユニットによって実行される動作のタイミングを示す。各行は、クロック信号の１つまたは複数のサイクルによって表される単一の期間に対応することができる。同じ行に属する処理ユニットは、それらの動作を並列に実行する。

論理ステージへの入力は行０に提供され、計算フローは後の行に進む。デフォルトでは、アトムは、それ自体と同じ列にあるが前の行にあるアトムによる処理からの結果を受信する。例えば、アトム１５１０ｂは、アトム１５１０ａによる処理の結果を受信し、これらの結果に応じて自身の処理を実行する。

ローカルルーティングリソースを使用する場合、アトムはまた、列番号が２以下だけ異なる前の行のアトムからの出力にアクセスすることもできる。例えば、アトム１５１０ｄは、アトム１５１０ｃによって実行された処理からの結果を受信することができる。

グローバルルーティングリソースを使用する場合、アトムは、前の２行かつ任意の列内のアトムからの出力にアクセスすることもできる。これは、グローバルルーティングリソースを使用して実行され得る。例えば、アトム１５１０ｆは、アトム１５１０ｅによって実行された処理からの結果を受信することができる。

アトム間のルーティングに関するこれらの制約は一例として与えられ、他の制約が適用されてもよい。より制限の強い制約を適用することにより、アトム間の情報のルーティングをより容易にすることができる。より制限の弱い制約を適用することにより、スケジューリングをより容易にすることができる。所与のタイプ（例えば、マップ、ロジック、またはパケットアクセス）のアトムの数が使い尽くされた場合、またはアトム間のルーティングを行うことができない場合、ハードウェアモジュールへの機能のコンパイルは失敗する。

特定の制約は、ハードウェアモジュールによってサポートされる相互接続ファブリックによってサポートされるトポロジによって決定される。相互接続ファブリックは、ハードウェアモジュールのアトムに特定の順序でそれらの動作を実行させ、制約内で互いにデータを提供させるようにプログラムされる。図１５は、相互接続ファブリックをそのようにプログラムすることができる方法の特定の一例を示す。

（図５に示すように）ＦＰＧＡアプリケーション５１５をＦＰＧＡに合成する間に、配置配線アルゴリズムが使用される。しかしながら、この場合、解空間は制約され、そのため、アルゴリズムは短い有界実行時間を有する。

処理速度または効率とコンパイル時間との間にはトレードオフが存在する。本出願の実施形態によれば、受信されるデータパケットに関する機能を提供するために、最初に、少なくとも１つの処理ユニット（図６に関して上述したようにＣＰＵまたはアトムであり得る）上でプログラムをコンパイルし実行することが望ましい場合がある。次いで、少なくとも１つの処理ユニットは、第１の期間中に受信データパケットに関して機能を作動させ、実行することができる。ネットワークインターフェースデバイスの動作中、第２の少なくとも１つの処理ユニット（図６に関して上述したようにＦＰＧＡアプリケーションまたはテンプレートタイプの処理ユニットであってもよい）は、データパケットに関して機能を実行するように構成することができる。次いで、第２の少なくとも１つの処理ユニットがその後にネットワークインターフェースデバイスにおいて受信されるデータパケットに対して機能を実行するように、機能を第１の少なくとも１つの処理ユニットから第２の少なくとも１つの処理ユニットに移行することができる。したがって、第１の少なくとも１つの処理ユニットはより速くコンパイルすることができ、機能が第２の少なくとも１つの処理ユニットのためにコンパイルされている間にデータパケットに関して機能を実行するために使用することができるため、第２の少なくとも１つの処理ユニットのより遅いコンパイル時間は、第２の少なくとも１つの処理ユニットのために機能がコンパイルされる前にネットワークインターフェースデバイスがデータパケットに関して機能を実行することを妨げない。第２の少なくとも１つの処理ユニットは典型的には、より速い処理時間を有するため、コンパイルされるときに第２の少なくとも１つの処理ユニットに移行することにより、ネットワークインターフェースデバイスにおいて受信されるデータパケットのより速い処理が可能になる。

本出願の実施形態によれば、コンパイルプロセスは、データ処理システムの少なくとも１つのプロセッサ上で作動するように構成することができ、少なくとも１つのプロセッサは、第１の少なくとも１つの処理ユニットおよび第２の少なくとも１つの処理ユニットが適切なときにデータパケットに関して少なくとも１つの機能を実行するための命令を送信するように構成される。少なくとも１つのプロセッサは、ホストＣＰＵを含んでもよい。少なくとも１つのプロセッサは、ネットワークインターフェースデバイス上の制御プロセッサを含んでもよい。少なくとも１つのプロセッサは、ホストシステム上の１つまたは複数のプロセッサと、ネットワークインターフェースデバイス上の１つまたは複数のプロセッサとの組み合わせを含むことができる。

したがって、少なくとも１つのプロセッサは、ネットワークインターフェースデバイスの第１の少なくとも１つの処理ユニットによって実行されるように機能をコンパイルするための第１のコンパイルプロセスを実行するように構成される。少なくとも１つのプロセッサはまた、ネットワークインターフェースデバイスの第２の少なくとも１つの処理ユニットによって実行されるように機能をコンパイルするための第２のコンパイルプロセスを実行するように構成される。第２のコンパイルプロセスの完了前に、少なくとも１つの処理ユニットは、ネットワークから受信されるデータパケットに関して機能を実行するように、第１の少なくとも１つの処理ユニットに命令する。その後、第２のコンパイルプロセスの完了後に、少なくとも１つの処理ユニットは、ネットワークから受信されるデータパケットに関する機能の実行を開始するように、第２の少なくとも１つの処理ユニットに命令する。

これらのステップを実行することにより、ネットワークインターフェースデバイスは、第２のコンパイルプロセスが完了するのを待っている間に、第１の少なくとも１つの処理ユニット（コンパイル時間がより短いが、処理がより低速および／またはより低効率であり得る）を使用して機能を実行することができる。第２のコンパイルプロセスが完了すると、ネットワークインターフェースデバイスは、第１の少なくとも１つの処理ユニットに加えて、またはその代わりに、第２の少なくとも１つの処理ユニット（コンパイル時間がより長いが、処理がより高速および／またはより高効率であり得る）を使用して機能を実行することができる。

本出願の実施形態による例示的なネットワークインターフェースデバイス７００を示す図７を参照する。前の図に示されたものと同様の参照要素は、同様の参照符号で示されている。

ネットワークインターフェースデバイスは、第１の少なくとも１つの処理ユニット７１０を備える。第１の少なくとも１つの処理ユニット７１０は、複数の処理ユニットを備える、図６に示すハードウェアモジュール６１０を含むことができる。第１の少なくとも１つの処理ユニット７１０は、図４に示すように、１つまたは複数のＣＰＵを含むことができる。

機能は、第１の期間中に、ネットワークから受信されるデータパケットに関して第１の少なくとも１つの処理ユニット７１０によって機能が実行されるように、第１の少なくとも１つの処理ユニット７１０上で実行されるようにコンパイルされる。第１の少なくとも１つの処理ユニット７１０は、第２の少なくとも１つの処理ユニットの第２のコンパイルプロセスの完了前に、ネットワークから受信されるデータパケットに関して機能を実行するように、第１の少なくとも１つのプロセッサによって命令される。

ネットワークインターフェースデバイスは、第２の少なくとも１つの処理ユニット７２０を備える。第２の少なくとも１つの処理ユニット７２０は、（図５に示すような）ＦＰＧＡアプリケーションを有するＦＰＧＡを備えることができ、または複数の処理ユニットを備える図６に示すハードウェアモジュール６１０を備えることができる。

第１の期間中、第２のコンパイルプロセスは、第２の少なくとも１つの処理ユニット上で実行するための機能をコンパイルするために実行される。すなわち、ネットワークインターフェースデバイスは、ＦＰＧＡアプリケーション５１５をオンザフライでコンパイルするように構成される。

第１の期間後に（すなわち、第２のコンパイルプロセスの完了後に）、第２の少なくとも１つの処理ユニット７２０は、ネットワークから受信されるデータパケットに関する機能の実行を開始するように構成されている。

第１の期間の後、第１の少なくとも１つの処理ユニット７１０は、ネットワークから受信されるデータパケットに関する機能の実行を停止することができる。いくつかの実施形態では、第１の少なくとも１つの処理ユニット７１０は、部分的に、データパケットに関する機能の実行を停止することができる。例えば、第１の少なくとも１つの処理ユニットが複数のＣＰＵを含む場合、第１の期間の後、１つまたは複数のＣＰＵは、ネットワークから受信されるデータパケットに関する処理の実行を停止することができ、複数のＣＰＵの残りのＣＰＵは処理を実行し続ける。

第１の少なくとも１つの処理ユニット７１０は、第１のデータフローのデータパケットに関して機能を実行するよう構成することができる。第２のコンパイルプロセスが完了すると、第２の少なくとも１つの処理ユニット７２０は、第１のデータフローのデータパケットに関する機能の実行を開始することができる。第２のコンパイルプロセスが完了すると、第１の少なくとも１つの処理ユニットは、第１のデータフローのデータパケットに関する機能の実行を停止することができる。

第１の少なくとも１つの処理ユニットおよび第２の少なくとも１つの処理ユニットについて、異なる組み合わせが可能である。例えば、いくつかの実施形態では、第１の少なくとも１つの処理ユニット７１０は、（図４に示すように）複数のＣＰＵを含み、一方、第２の少なくとも１つの処理ユニット７２０は、（図６に示すように）複数の処理ユニットを有するハードウェアモジュールを備える。いくつかの実施形態では、第１の少なくとも１つの処理ユニット７１０は、（図４に示すように）複数のＣＰＵを含み、一方、第２の少なくとも１つの処理ユニット７２０は、（図５に示すように）ＦＰＧＡを含む。いくつかの実施形態では、第１の少なくとも１つの処理ユニット７１０は、（図６に示すように）複数の処理ユニットを有するハードウェアモジュールを備え、一方、第２の少なくとも１つの処理ユニット７２０は、（図５に示すように）ＦＰＧＡを含む。

接続された複数の処理ユニット６４０ａ、６４０ｂ、６４０ｄがデータパケットに対してそのそれぞれの少なくとも１つの動作をどのように実行することができるかを示す図１１を参照する。処理ユニットの各々は、受信されるデータパケットに対してそのそれぞれの少なくとも１つの動作を実行するように構成される。

各処理ユニットの少なくとも１つの動作は、機能（例えば、ｅＢＰＦプログラムの機能）内の論理ステージを表すことができる。各処理ユニットの少なくとも１つの動作は、処理ユニットによって実行される命令によって表現可能とすることができる。命令は、アトムの挙動を決定することができる。

図１１は、パケット（Ｐ_０）が各処理ユニットによって実施される処理ステージに沿ってどのように進行するかを示している。

各処理ユニットは、コンパイラによって指定される特定の順序でパケットに対して処理を実行する。順序は、処理ユニットのいくつかがそれらの処理を並列に実行するように構成されるようなものであってもよい。この処理は、メモリに保持されるパケットの少なくとも一部にアクセスすることを含むことができる。付加的にまたは代替的に、この処理は、パケットに対して実行されるべきアクションを決定するために、ルックアップテーブルへのルックアップを実行することを含んでもよい。付加的にまたは代替的に、この処理は、状態１１１０を修正することを含むことができる。

処理ユニットは、メタデータＭ_０，Ｍ_１，Ｍ_２，Ｍ_３を互いに交換する。第１の処理ユニット６４０ａは、それぞれの少なくとも１つの所定の動作を実行し、それに応じてメタデータＭ_１を生成するように構成されている。第１の処理ユニット６４０ａは、メタデータＭ_１を第２の処理ユニット６４０ｂに渡すように構成されている。

処理ユニットの少なくともいくつかは、データパケットの内容、それ自体の記憶されている状態、グローバル共有状態、およびデータパケットに関連付けられたメタデータ（例えば、Ｍ_０、Ｍ_１、Ｍ_２、Ｍ_３）のうちの少なくとも１つに応じて、それぞれの少なくとも１つの動作を実行する。処理ユニットのいくつかはステートレスであり得る。

処理ユニットの各々は、少なくとも１クロックサイクルの間にデータパケット（Ｐ_０）のためのその関連するタイプの動作を実行することができる。いくつかの実施形態では、処理ユニットの各々は、単一のクロックサイクル中にその関連するタイプの動作を実行することができる。処理ユニットの各々は、それらの動作を実行するために個別にクロックされてもよい。このクロッキングは、処理ユニットの処理パイプラインのクロッキングに追加され得る。

第２の処理ユニット６４０ｂの動作をより詳細に調べると、第２の処理ユニット６４０ｂは、第１のデータパケットに対して第１の少なくとも１つの所定の動作を行うように構成された第１の処理ユニット６４０ａに接続されるように構成されている。第２の処理ユニット６４０ｂは、第１の少なくとも１つの所定動作の結果を第１のさらなる処理ユニットから受信するように構成されている。第２の処理ユニット６４０ｂは、第１の少なくとも１つの所定の動作の結果に応じて第２の少なくとも１つの所定の動作を実行するように構成されている。第２の処理ユニット６４０ｂは、第１のデータパケットに対して第３の少なくとも１つの所定の動作を行うように構成された第３の処理ユニット６４０ｄに接続されるように構成されている。第２の処理ユニット６４０ｂは、第２の少なくとも１つの所定の動作の結果を、第３の少なくとも１つの所定の動作における処理のために第３の処理ユニット６４０ｄに送信するように構成されている。

処理ユニットは、同様に、複数のデータパケットの各々に関して機能を提供するような順序において動作することができる。

本出願の実施形態は、機能が可能にする場合、複数のパケットが同時にパイプライン化され得るようなものである。

データパケットのパイプライン化を示す図１２を参照する。図示されるように、異なるパケットは、異なる処理ユニットによって同時に処理され得る。第１の処理ユニット６４０ａは、第３のデータパケット（Ｐ_２）に対して第１の時点（ｔ_０）においてそれぞれの少なくとも１つの動作を実行している。第２の処理ユニット６４０ｂは、第２のデータパケット（Ｐ_１）に対して第１の時点（ｔ_０）においてそれぞれの少なくとも１つの動作を実行している。第３の処理ユニット６４０ｄは、第１のデータパケット（Ｐ_０）に対して第１の時点（ｔ_０）においてそれぞれの少なくとも１つの動作を実行している。

各処理ユニットにより少なくともそれぞれの動作が実行された後、各パケットは、シーケンス内で１つのステージに沿って移動する。例えば、後続の第２の時点（ｔ_１）において、第１の処理ユニット６４０ａは、第４のデータパケット（Ｐ_３）に対する第１の時点（ｔ_０）におけるそのそれぞれの少なくとも１つの動作を実行している。第２の処理ユニット６４０ｂは、第３のデータパケット（Ｐ_２）に対して第１の時点（ｔ_０）においてそのそれぞれの少なくとも１つの動作を実行している。第３の処理ユニット６４０ｄは、第１のデータパケット（Ｐ_１）に対して第１の時点（ｔ_０）においてそのそれぞれの少なくとも１つの動作を実行している。

いくつかの実施形態では、所与のステージに複数のパケットが存在し得ることを理解されたい。

いくつかの実施形態では、パケットは、必ずしもロックステップではなく、１つのステージから次のステージに移動することができる。

パイプライン危険性がない限り、固定クロックで動作するそのようなパイプラインは一定の帯域幅を有することができる。これにより、システム内のジッタを低減することができる。

命令を実行するときの危険（共有状態にアクセスするときの競合など）を回避するために、各処理ユニットは、必要に応じて動作なし（すなわち、処理ユニットはストールする）命令を実行するように構成され得る。

いくつかの実施形態では、動作（単純な算術、インクリメント、定数値の加算／減算、シフト、データパケットまたはメタデータからの値の加算／減算など）は、処理ユニットによって実行される１クロックサイクルを必要とする。これは、ある処理ユニットが必要とする共有状態の値が別の処理ユニットによってまだ更新されていないことを意味し得る。したがって、共有状態１１１０の古い値が、それらを必要とする処理ユニットによって読み出され得る。したがって、共有状態に値を読み書きするときに危険が発生する可能性がある。他方、中間値に対する動作が、危険が発生することなくメタデータとして渡され得る。

回避され得る共有状態１１１０への読み出しおよび書き込みの際の危険の例は、インクリメント動作のコンテキストにおいて与えられ得る。このようなインクリメント動作は、共有状態１１１０においてパケットカウンタをインクリメントする動作であり得る。インクリメント動作の一実施態様では、パイプラインの第１のタイムスロット中に、第２の処理ユニット６４０ｂが、共有状態１１１０からカウンタの値を読み出し、この読み出し動作の出力（例えば、メタデータＭ_２として）を第３の処理ユニット６４０ｄに提供するように構成されている。第３の処理ユニット６４０ｄは、第２の処理ユニット６４０ｂからカウンタの値を受け取るように構成されている。第２のタイムスロットの間、第３の処理ユニット６４０ｄはこの値をインクリメントし、インクリメントされた新たな値を共有状態１１１０に書き込む。

このようなインクリメント動作を実行するときに問題が発生する可能性があり、すなわち、第２のタイムスロット中に、第２の処理ユニット６４０ｂが共有状態１１１０に記憶されたカウンタにアクセスしようとする場合、第２の処理ユニット６４０ｂは、共有状態１１１０のカウンタ値が第３の処理ユニット６４０ｄによって更新される前にカウンタの以前の値を読み出す可能性がある。

したがって、この問題に対処するために、第２の処理ユニット６４０ｂは、（動作なし命令またはパイプラインバブルの第２の処理ユニット６４０ｂによる実行を通じて）第２のタイムスロット中にストールされ得る。ストールは、次の命令の実行の遅延であると理解することができる。この遅延は、次の命令の代わりに「動作なし」命令の実行によって実施することができる。次に、第２の処理ユニット６４０ｂは、後続の第３のタイムスロットの間に共有状態１１１０からカウンタ値を読み出す。第３のタイムスロットの間、共有状態１１１０のカウンタは更新されており、そのため、第２の処理ユニット６４０ｂが更新された値を読み出すことが保証される。

いくつかの実施形態では、それぞれのアトムは、単一のパイプラインタイムスロット中に状態から読み出し、状態を更新し、更新された状態を書き込むように構成される。この場合、上述した処理ユニットのストールを用いなくてもよい。しかしながら、処理ユニットをストールすることによって、必要とされるメモリインターフェースのコストを低減することができる。

いくつかの実施形態では、危険を回避するために、パイプライン内の処理ユニットは、それら自体の動作を実行する前に、パイプライン内の他の処理ユニットがそれらの処理を終了するまで待機することができる。

上述したように、コンパイラは、任意の数の処理ステージインスタンスをリンクすることによってデータパスを構築し、各インスタンスは、所定の数（与えられた例では３つ）の予め合成された処理ステージテンプレートのうちの１つから構築される。処理ステージテンプレートは、論理ステージテンプレート（例えば、レジスタ、スクラッチパッドメモリ、およびメタデータに対する演算を提供する）、パケットアクセス状態テンプレート（例えば、パケットデータロードおよび／またはパケットデータストアを提供する）、およびマップアクセスステージテンプレート（例えば、マップ検索アルゴリズム、マップテーブルサイズ）である。

各処理ステージインスタンスは、単一の処理ユニットによって実装されてもよい。すなわち、各処理ステージは、処理ユニットによって実行されるそれぞれの少なくとも１つの動作を含む。

図１３は、受信されるデータパケットを処理するために処理ステージがパイプライン１３００内でどのように互いに接続され得るかの一例を示す。図１３に示すように、第１のデータパケットはＦＩＦＯ１３０５において受信され記憶される。第１の論理ステージ１３１０において、１つまたは複数の呼び出し引数が受信される。呼び出し引数は、受信されるデータパケットに対して実行されるべき機能を識別するプログラムセレクタを含むことができる。呼び出し引数は、受信されるデータパケットのパケット長の指示を含むことができる。第１の論理ステージ１３１０は、呼び出し引数を処理し、第１のパケットアクセスステージ１３１５に出力を提供するように構成されている。

第１のパケットアクセスステージ１３１５はネットワークタップ１３２０において第１のパケットからデータをロードする。第１のパケットアクセスステージ１３１５はまた、第１の論理ステージ１３１０の出力に応じて第１のパケットにデータを書き込むこともできる。第１のパケットアクセスステージ１３１５は、第１のデータパケットの先頭にデータを書き込むことができる。第１のパケットアクセスステージ１３１５は、データパケット内のデータを上書きすることができる。

ロードされたデータならびに任意の他のメタデータおよび／または引数は、次に、第２の論理ステージ１３２５に提供され、第２の論理ステージは、第１のデータパケットに関して処理を実行し、出力引数を第１のマップアクセスステージ１３３０に提供する。第１のマップアクセスステージ１３３０は、第２の論理ステージ１３２５からの出力を使用してルックアップテーブルへのルックアップを実行し、第１のデータパケットに関して実行されるべきアクションを決定する。次に、出力は第３の論理ステージ１３３５に渡され、第３の論理ステージはこの出力を処理し、結果を第２のパケットアクセスステージ１３４０に渡す。

第２のパケットアクセスステージ１３４０は、第３の論理ステージ１３３５の出力に応じて、第１のデータパケットからデータを読み出し、および／または第１のデータパケットにデータを書き込むことができる。次に、第２のパケットアクセスステージ１３４０の結果は、受信される入力に関して処理を実行するように構成された第４の論理ステージ１３４５に渡される。

パイプラインは、複数のパケットアクセスステージ、論理ステージ、およびマップアクセスステージを含むことができる。最後の論理ステージ１３５０は、戻り引数を出力するように構成されている。戻り引数は、データパケットの開始を識別するポインタを備えることができる。戻り引数は、データパケットに関して実行されるべきアクションの指示を含むことができる。アクションの指示は、パケットがドロップされるべきか否かを示すことができる。アクションの指示は、パケットがホストシステムに転送されるべきか否かを示すことができる。ネットワークインターフェースデバイスは、パケットがドロップされるべきであるという指示に応答して、それぞれのデータパケットをドロップするように構成された少なくとも１つの処理ユニットを備えることができる。

パイプライン１３００は、１つまたは複数のバイパスＦＩＦＯ１３５５ａ、１３５５ｂ、１３５５ｃをさらに含むことができる。バイパスＦＩＦＯは、マップアクセスステージおよび／またはパケットアクセスステージの周りの第１のデータパケットからのデータなどの処理データを渡すために使用され得る。いくつかの実施形態では、マップアクセスステージおよび／またはパケットアクセスステージは、そのそれぞれの少なくとも１つの動作を実行するために第１のデータパケットからのデータを必要としない。マップアクセスステージおよび／またはパケットアクセスステージは、入力引数に応じてそれらのそれぞれの少なくとも１つの動作を実行することができる。

本出願の実施形態によるネットワークインターフェースデバイス６００，７００によって実行される方法８００を示す図８を参照する。

Ｓ８１０において、ネットワークインターフェースデバイスの機能ハードウェアモジュールが機能を実施するように構成される。ハードウェアモジュールは、各々がデータパケットに関してある種の動作をハードウェアにおいて実行するように構成された複数の処理ユニットを備える。Ｓ８１０は、受信される各データパケットに関する機能を提供するように、特定の順序でそれぞれの所定のタイプの動作を実行するように複数の処理ユニットの少なくともいくつかを構成することを含む。ハードウェアモジュールをそのように構成することは、受信されるデータパケットが複数の処理ユニットのうちの少なくともいくつかの複数の動作の各々によって処理を受けるように、複数の処理ユニットのうちの少なくともいくつかを接続することを含む。接続は、処理ユニット間でデータパケットおよび関連するメタデータをルーティングするように、ハードウェアモジュールのルーティングハードウェアを構成することによって達成され得る。

Ｓ８２０において、ネットワークインターフェースデバイスの第１のインターフェースにおいてネットワークから第１のデータパケットが受信される。

Ｓ８３０において、第１のデータパケットが、Ｓ８１０のコンパイルプロセス中に接続された少なくともいくつかの処理ユニットの各々によって処理される。少なくともいくつかの処理ユニットの各々は、少なくとも１つのデータパケットに対して、それが実行するように事前構成された動作のタイプを実行する。したがって、機能は第１のデータパケットに対して実行される。

Ｓ８４０において、処理された第１のデータパケットが、その宛先に向かって転送される。これは、データパケットをホストに送信することを含み得る。これは、ネットワークを介してデータパケットを送信することを含むことができる。

本出願の実施形態によるネットワークインターフェースデバイス７００において実行することができる方法９００を示す図９を参照する。

Ｓ９１０において、ネットワークインターフェースデバイスの第１の少なくとも１つの処理ユニット（すなわち、第１の回路）が、ネットワークを介して受信されるデータパケットを受信して処理するように構成される。この処理は、データパケットに関して機能を実行することを含む。処理は、第１の期間中に実行される。

Ｓ９２０において、第２の少なくとも１つの処理ユニット（すなわち、第２の回路）上で実行するために機能をコンパイルするように、第２のコンパイルプロセスが第１の期間中に実行される。

Ｓ９３０において、第２のコンパイル処理が完了したか否かが決定され、完了していない場合、方法はＳ９１０およびＳ９２０に戻り、第１の少なくとも１つの処理ユニットは、ネットワークから受信されるデータパケットに関して処理を実行し続け、第２のコンパイルプロセスが継続する。

Ｓ９４０において、第２のコンパイルが完了したという決定に応答して、第１の少なくとも１つの処理ユニットは、受信されるデータパケットに関する機能の実行を停止する。いくつかの実施形態では、第１の少なくとも１つの処理ユニットは、特定のデータフローに関してのみ機能を実行することを停止することができる。次いで、第２の少なくとも１つの処理ユニットが、代わりにそれらの特定のデータフローに関して機能を実行することができる（Ｓ９５０）。

Ｓ９５０において、第２のコンパイルプロセスが完了すると、第２の少なくとも１つの処理ユニットは、ネットワークから受信されるデータパケットに関する機能の実行を開始するように構成される。

本出願の実施形態による方法１６００を示す図１６を参照する。方法１６００は、ネットワークインターフェースデバイスまたはホストデバイスにおいて実行することができる。

Ｓ１６１０において、第１の少なくとも１つの処理ユニットによって実行されるように機能をコンパイルするように、コンパイルプロセスが実行される。

Ｓ１６２０において、第２の少なくとも１つの処理ユニットによって実行されるように機能をコンパイルするように、コンパイルプロセスが実行される。このプロセスは、第１の機能を提供するようにデータパケットを処理するための複数のステージのうちの１つのステージに関連付けられる少なくとも１つの動作を実行するために、第２の少なくとも１つの処理ユニットの複数の処理ユニットの各々を割り当てることを含む。複数の処理ユニットの各々は、あるタイプの処理を行うように構成され、割り当ては、処理ユニットがそれぞれの少なくとも１つの動作を行うのに適したタイプの処理を行うように構成されているという決定に応じて行われる。言い換えれば、処理ユニットは、それらのテンプレートに従って選択される。

１６３０において、Ｓ１６２０におけるコンパイルプロセスの完了に先立って、第１の少なくとも１つの処理ユニットに機能を実行させるための命令が送信される。この命令は、Ｓ１６２０のコンパイルプロセスが開始する前に送信されてもよい。

Ｓ１６４０において、Ｓ１６２０におけるコンパイルプロセスの完了後に、第２の回路にデータパケットに関する機能を実行させるための命令が第２の回路に送信される。この命令は、Ｓ１６２０において生成されたコンパイル済み命令を含むことができる。

本出願の実施形態による機能は、ネットワークインターフェース内の処理スライスのプラガブル構成要素として提供されてもよい。スライス１４２５がネットワークインターフェースデバイス６００でどのように使用され得るかの例を示す図１４を参照する。スライス１４２５は、処理パイプラインと呼ばれる場合がある。

ネットワークインターフェースデバイス６００は、スライス１４２５によって処理され、次いでネットワークを介して送信されることになるデータパケットをホストから受信して記憶するための送信キュー１４０５を含む。ネットワークインターフェースデバイス６００は、スライス１４２５によって処理され、次いでホストに送達されることになる、ネットワーク１４１０から受信されるデータパケットを記憶するための受信キュー１４１０を含む。ネットワークインターフェースデバイス６００は、スライス１４２５によって処理されており、ホストに送達するためのものである、ネットワークから受信されるデータパケットを記憶するための受信キュー１４１５を含む。ネットワークインターフェースデバイス６００は、スライス１４２５によって処理されており、ネットワークに送達するためのものである、ホストから受信されるデータパケットを記憶するための送信キューを含む。

ネットワークインターフェースデバイス６００のスライス１４２５は、受信経路および送信経路上でデータパケットを処理するための複数の処理機能を備える。スライス１４２５は、受信経路および送信経路上でデータパケットのプロトコル処理を実行するように構成されたプロトコルスタックを備えることができる。いくつかの実施形態では、ネットワークインターフェースデバイス６００内に複数のスライスが存在してもよい。複数のスライスのうちの少なくとも１つは、ネットワークから受信される受信データパケットを処理するように構成されてもよい。複数のスライスのうちの少なくとも１つは、ネットワークを介した送信のために送信データパケットを処理するように構成されてもよい。スライスは、少なくとも１つのＦＰＧＡおよび／または少なくとも１つのＡＳＩＣなどのハードウェア処理装置によって実装されてもよい。

アクセラレータ構成要素１４３０ａ、１４３０ｂ、１４３０ｃ、１４３０ｄを、図示のようにスライス内の異なるステージに挿入することができる。アクセラレータ構成要素は各々、スライスをトラバースするデータパケットに関する機能を提供する。アクセラレータ構成要素は、オンザフライで、すなわちネットワークインターフェースデバイスの動作中に挿入または除去することができる。したがって、アクセラレータ構成要素は、プラガブル構成要素である。アクセラレータ構成要素は論理領域であり、スライス１４２５に割り当てられる。それらの各々は、スライスをトラバースするパケットが構成要素の内外にストリーミングされることを可能にするストリーミングパケットインターフェースをサポートする。

例えば、１つのタイプのアクセラレータ構成要素は、受信または送信経路上のデータパケットの暗号化を提供するように構成され得る。別のタイプのアクセラレータ構成要素は、受信または送信経路上でデータパケットの解読を提供するように構成されてもよい。

（図６を参照して上述したように）複数の接続された処理ユニットによって実行される動作を実行することによって提供される上述した機能は、アクセラレータ構成要素によって提供することができる。同様に、（図４を参照して上述したような）ネットワーク処理ＣＰＵのアレイおよび／または（図５を参照して上述したような）ＦＰＧＡアプリケーションによって提供される機能は、アクセラレータ構成要素によって提供されてもよい。

説明したように、ネットワークインターフェースデバイスの動作中に、第１の少なくとも１つの処理ユニット（複数の接続された処理ユニットなど）によって実行される処理は、第２の少なくとも１つの処理ユニットから移行されてもよい。この移行を実施するために、スライス１４２５の構成要素のうちの第１の少なくとも１つの処理ユニットによる処理のための構成要素は、第２の少なくとも１つの処理ユニットによる処理のための構成要素に置き換えることができる。

ネットワークインターフェースデバイスは、スライス１４２５から構成要素を挿入および除去するように構成された制御プロセッサを備えることができる。上述した第１の期間中、第１の少なくとも１つの処理ユニットによる機能の実行からの構成要素がスライス１４２５内に存在し得る。制御プロセッサは、第１の期間の後に、第１の少なくとも１つの処理ユニットにより機能を提供するプラガブル構成要素をスライス１４２５から除去し、第２の少なくとも１つの処理ユニットにより機能を提供するプラガブル構成要素をスライス１４２５に挿入するように構成することができる。

スライスからの構成要素の挿入および除去に加えて、またはその代わりに、制御プロセッサは、プログラムを構成要素にロードし、制御プレーンコマンドを発行して、構成要素へのフレームの流れを制御することができる。この場合、構成要素は、パイプラインに挿入されず、または、パイプラインから除去されずに動作させられ、または動作させられなくてもよい。

いくつかの実施形態では、制御プレーンまたは構成情報は、別個の制御バスを必要とすることなく、データパスを介して搬送される。いくつかの実施形態では、データパス構成要素の構成を更新する要求は、ネットワークパケットと同じバスを介して搬送されるメッセージとして符号化される。したがって、データパスは、ネットワークパケットおよび制御パケットの２種類のパケットを搬送することができる。

制御パケットは、制御プロセッサによって形成され、スライス１４２５を使用してデータパケットを送信または受信するために使用されるのと同じメカニズムを使用してスライス１４２５に注入される。この同じメカニズムは、送信キューまたは受信キューであってもよい。制御パケットは、任意の適切な方法でネットワークパケットと区別することができる。いくつかの実施形態では、異なるタイプのパケットは、メタデータワード内の１つまたは複数のビットによって区別されてもよい。

いくつかの実施形態では、制御パケットは、制御パケットがスライス１４２５を通る経路を決定するメタデータワード内のルーティングフィールドを含む。制御パケットは、制御コマンドのシーケンスを搬送することができる。各制御コマンドは、スライス１４２５の１つまたは複数の構成要素を対象とすることができる。それぞれのデータパス構成要素は、構成要素ＩＤフィールドによって識別される。各制御コマンドは、それぞれの識別された構成要素に対する要求を符号化する。要求は、その構成要素の構成に変更を加えることであってもよい。要求は、構成要素が作動されるか否か、すなわち、構成要素がスライスをトラバースするデータパケットに関してその機能を実行するか否かを制御することができる。

したがって、いくつかの実施形態では、ネットワークインターフェースデバイス６００の制御プロセッサは、スライスの構成要素のうちの１つに、ネットワークインターフェースデバイスにおいて受信されるデータパケットに関する機能の実行を開始させるためのメッセージを送信するように構成される。このメッセージは、プラガブル構成要素を通じて送信され、機能を実行するための構成要素へのフレームのアトミックスイッチオーバーを引き起こす制御プレーンメッセージである。次いで、この構成要素は、スイッチアウトされるまでスライスをトラバースするすべての受信データパケットに対して実行する。制御プロセッサは、スライスの構成要素のうちの別の構成要素に、この構成要素が、ネットワークインターフェースデバイス６００において受信されるデータパケットに関する機能の実行を停止するようにさせるためのメッセージを送信するように構成される。

構成要素をデータスライス１４２５に出入りするように切り替えるために、ソケットは、イングレスおよびエグレスデータパスの様々な点に存在することができる。制御プロセッサは、スライス１４２５に出入りする追加のロジックを精査することができる。この追加のロジックは、構成要素間に配置されるＦＩＦＯの形態をとることができる。

制御プロセッサは、スライス１４２５を通じてスライス１４２５の構成された構成要素に制御プレーンメッセージを送信することができる。構成は、スライス１４２５の構成要素によって実行される機能を決定することができる。例えば、スライス１４２５を介して送信される制御メッセージは、ハードウェアモジュールが、データパケットに関して機能を実行するように構成されるようにすることができる。そのような制御メッセージは、ハードウェアモジュールのアトムが、特定の機能を提供するようにハードウェアモジュールのパイプラインに相互接続されるようにすることができる。そのような制御メッセージは、ハードウェアモジュールの個々のアトムが、個々に選択されたアトムによって実行される動作を選択するように構成されるようにすることができる。各アトムはあるタイプの動作を実行するように事前構成されているため、各アトムの動作の選択は、各アトムが実行するように事前構成されている動作のタイプに応じて行われる。

次に、いくつかのさらなる実施形態を、図１９～図２１を参照して説明する。本実施形態では、ＦＰＧＡにおいてパケット処理プログラムまたはフィードフォワードパイプラインが作動される。ＦＰＧＡのサブユニットにパケット処理プログラムまたはフィードフォワードパイプラインを実装させる方法について説明する。パケット処理プログラムまたはフィードフォワードパイプラインは、ｅＢＰＦプログラムもしくはＰ４プログラムまたは任意の他の適切なプログラムであってもよい。

このＦＰＧＡは、ネットワークインターフェースデバイスに設けられてもよい。いくつかの実施形態では、パケット処理プログラムは、ネットワークインターフェースデバイスがそのホストに対してインストールされた後にのみ展開または作動される。

パケット処理プログラムまたはフィードフォワードパイプラインは、ループのない論理フローを実装することができる。

いくつかの実施形態では、プログラムは、ユーザレベルなどの非特権ドメインまたはより低い特権ドメインで書かれてもよい。プログラムは、カーネルなどの特権ドメインまたはより高い特権ドメインで作動されてもよい。プログラムを作動させるハードウェアは、任意のループがないことを必要とする場合がある。

以下の実施形態では、ｅＢＰＦプログラム例を参照する。しかしながら、他の実施形態は、任意の他の適切なプログラムと共に使用されてもよいことを理解されたい。

以下の実施形態のうちの１つまたは複数は、前述の実施形態のうちの１つまたは複数と組み合わせて使用することができることを理解されたい。

いくつかの実施形態は、ＦＰＧＡ、ＡＳＩＣ、または任意の他の適切なハードウェアデバイスのコンテキストで提供され得る。いくつかの実施形態は、ＦＰＧＡまたはＡＳＩＣなどのサブユニットを使用する。以下の例は、ＦＰＧＡを参照して説明される。同様のプロセスが、ＡＳＩＣまたは任意の他の適切なハードウェアデバイスによって実行されてもよいことを理解されたい。

サブユニットはアトムであってもよい。アトムのいくつかの例は前述されている。前述のアトムの例のいずれも、代替的または付加的にサブユニットとして使用されてもよいことを理解されたい。代替的または付加的に、これらのサブユニットは、「スライス」または構成可能論理ブロックと呼ばれる場合がある。

これらのサブユニットの各々は、単一の命令または複数の関連する命令を実行するように構成されてもよい。後者の場合、関連する命令は、（１つまたは複数のビットによって定義され得る）単一の出力を提供し得る。

サブユニットは、計算ユニットであると考えることができる。サブユニットは、パケットが順に処理されるパイプラインに配列されてもよい。いくつかの実施形態では、サブユニットは、プログラム内のそれぞれの命令（または複数の命令）を実行するように動的に割り当てることができる。

いくつかの実施形態では、サブユニットは、例えばＦＰＧＡのブロックを定義するために使用されるユニットの全部または一部であってもよい。いくつかのＦＰＧＡでは、ＦＰＧＡのブロックはスライスと呼ばれる。いくつかの実施形態では、サブユニットまたはアトムは、スライスに等しい。

それぞれのアトムまたはサブユニットをＦＰＧＡのそれぞれのブロックまたはスライスにマッピングすることによって、ＲＴＬアトムをＦＰＧＡリソースにマッピングする手法と比較して、改善されたリソース利用率が達成され得る。そのような後者の手法の結果として、ＲＴＬアトムは、ＦＰＧＡの比較的多数の個々のブロックまたはスライスを必要とし得る。

いくつかの実施形態では、コンパイルはアトムレベルであってもよい。これは、処理がパイプライン化されるという利点を有し得る。パケットは順に処理され得る。コンパイルプロセスは、比較的迅速に実行され得る。

いくつかの実施形態では、算術演算は、１バイト当たり１スライスを必要とし得る。論理演算は、１バイト当たり半分のスライスを必要とし得る。シフト演算は、シフト演算の幅に応じてスライスの集合を必要とする場合がある。比較演算は、１バイト当たり１つのスライスを必要とし得る。選択動作は、１バイト当たり半分のスライスを必要とし得る。

コンパイルプロセスの一部として、配置およびルーティングが実行される。配置は、特定の命令または複数の命令を実行するための特定の物理サブユニットの割り当てである。ルーティングは、特定のサブユニットの１つまたは複数の出力が、例えば別の１つまたは複数のサブユニットであり得る正しい宛先にルーティングされることを保証する。

配置およびルーティングは、パイプラインの一端から始まる特定のサブユニットに動作が割り当てられるプロセスを使用することができる。いくつかの実施形態では、最も重要な動作が、より重要性の低い動作の前に配置され得る。いくつかの実施形態では、ルーティングは、特定の動作が配置されるのと同時に割り当てられてもよい。いくつかの実施形態では、ルートは、予め計算されたルートの限定されたセットから選択されてもよい。これについては、後にさらに詳細に説明する。

いくつかの実施形態では、ルートを割り当てることができない場合、動作は後のために保留される。

いくつかの実施形態では、予め計算されたルートは、バイト幅のルートであってもよい。しかしながら、これは単なる例であり、他の実施形態では、異なるルート幅が定義されてもよい。いくつかの実施形態では、複数の異なるサイズのルートが提供されてもよい。

いくつかの実施形態では、ルーティングは、近くのサブユニット間のルーティングに限定されてもよい。

いくつかの実施形態では、サブユニットは、ＦＰＧＡ上に規則的な構造で物理的に配列されてもよい。

いくつかの実施形態では、ルーティングを容易にするために、サブユニットがどのように通信することができるかに関する規則を作成することができる。例えば、サブユニットは、その隣、その上または下にあるサブユニットにのみ出力を提供することができる。

代替的または付加的に、ルーティングの目的のために、次のサブユニットがどれだけ離れているかに制限を設けることができる。例えば、サブユニットは、隣接するサブユニット、または規定の距離内にある（例えば、２つ以上の介在するサブユニットが存在しない）サブユニットにのみデータを出力することができる。

いくつかの実施形態の方法を示す図１９を参照する。
いくつかの実施形態では、ＦＰＧＡは、１つまたは複数の「静的」領域および１つまたは複数の「動的」領域を有することができる。静的領域は標準的な構成を提供し、動的機能はエンドユーザの要件に従って機能を提供することができる。静的部分は、例えば、エンドユーザがネットワークインターフェースデバイスを受け取る前に、例えばネットワークインターフェースデバイスがホストに対して設置される前に定義されてもよい。例えば、静的領域は、ネットワークインターフェースデバイスに特定の機能を提供させるように構成されてもよい。静的領域には、アトム間の予め計算されたルートが提供される。後により詳細に説明するように、１つまたは複数の動的領域を通過する１つまたは複数の静的領域間のルーティングが存在してもよい。動的領域は、ネットワークインターフェースデバイスがホストに対して展開されるときに、エンドユーザによってその要件に応じて構成されてもよい。動的領域は、経時的にエンドユーザのために異なる機能を実行するように構成されてもよい。

ステップＳ１において、メインビットファイル５０およびツールチェックポイント５２と呼ばれる第１のビットファイルを提供するために、第１のコンパイルプロセスが実行される。これは、いくつかの実施形態では静的領域の少なくとも一部のビットファイルである。ビットファイルは、ＦＰＧＡにダウンロードされると、ＦＰＧＡに、ビットファイルがそこからコンパイルされたプログラムにおいて指定されるように機能させる。いくつかの実施形態では、第１のコンパイルプロセスにおいて使用されるプログラムは、任意の１つまたは複数のプログラムであってもよく、またはＦＰＧＡの一部内のルーティングの決定を支援するように特に設計されたテストプログラムであってもよい。いくつかの実施形態では、一連の単純なプログラムが代替的または付加的に使用されてもよい。

プログラムは、修正されてもよく、またはコンパイラによって使用され得る再構成可能なパーティションを有してもよい。プログラムは、再構成可能パーティションからネットを移動させることによって、コンパイラのジョブをより容易にするように修正され得る。

ステップＳ１は、設計ツールにおいて実行されてもよい。単なる例として、Ｖｉｖａｄｏツールが、ＸｉｌｉｎＸＦＰＧＡと共に使用されてもよい。チェックポイントファイルは、設計ツールによって提供されてもよい。チェックポイントファイルは、ビットファイルが生成された時点での設計のスナップショットを表す。チェックポイントファイルは、合成ネットリスト、設計制約、配置情報、およびルーティング情報のうちの１つまたは複数を含むことができる。

ステップＳ２において、ビットファイル記述５４を提供するためにチェックポイントファイルを考慮に入れてビットファイルが分析される。分析は、リソースを検出すること、ルートを生成すること、タイミングをチェックすること、１つまたは複数の部分バイトファイルを生成すること、およびビットファイル記述を生成することのうちの１つまたは複数のためのものであり得る。

分析は、ビットファイルからルーティング情報を抽出するように構成されてもよい。分析は、信号がいずれのワイヤまたはルートを伝搬したかを決定するように構成され得る。

分析フェーズは、少なくとも部分的に合成または設計ツール内で実行することができる。いくつかの実施形態では、Ｖｉｖａｄｏのスクリプト作成ツールを使用することができる。スクリプト作成ツールは、ＴＣＬ（ツールコマンド言語）であってもよい。ＴＣＬは、Ｖｉｖａｄｏの機能を追加または変更するために使用することができる。Ｖｉｖａｄｏの機能は、ＴＣＬスクリプトによって呼び出され、制御され得る。

ビットファイル記述５４は、ＦＰＧＡの所与の部分がどのように使用され得るかを定義する。例えば、ビットファイル記述は、いずれのアトムがいずれの他のアトムにルーティングされ得るか、およびそれらのアトム間をルーティングすることが可能な１つまたは複数のルートを示す。例えば、各アトムについて、ビットファイル記述は、そのアトムへの入力がどこに由来し得るか、および、データの出力のための１つまたは複数のルートと共に、そのアトムからの出力がどこにルーティングされ得るかを示す。ビットファイル記述は、いかなるプログラムからも独立している。

ビットファイル記述は、ルート情報、いずれのルート対が競合するかの指示、およびアトムの必要な構成からビットファイルを生成する方法の記述のうちの１つまたは複数を含むことができる。

ビットファイル記述は、アトムのセット間で利用可能なルートのセットを提供することができるが、これは任意の特定の命令が所与のアトムによって実行される前である。

ビットファイル記述は、ＦＰＧＡの一部のためのものであってもよい。ビットファイル記述は、ＦＰＧＡの動的な部分のためのものであってもよい。ビットファイル記述は、いずれのルートが利用可能であるか、および／またはいずれのルートが利用不可能であるかを含む。例えば、ビットファイルは、例えばＦＰＧＡの静的部分（複数可）によって、必要とされるＦＰＧＡの動的部分にわたる任意のルーティングを考慮して、ＦＰＧＡの動的部分に対して、いずれのルートが利用可能であるかを示すことができる。

いくつかの実施形態では、ビットファイル記述は、任意の適切な方法で取得することができることを理解されたい。例えば、ビットファイル記述は、ＦＰＧＡまたはＡＳＩＣのプロバイダによって提供されてもよい。

いくつかの実施形態では、ビットファイル記述は、設計ツールによって提供されてもよい。本実施形態では、分析ステップを省略してもよい。設計ツールは、ビットファイル記述を出力することができる。ビットファイル記述は、ＦＰＧＡの動的部分にわたる任意の必要なルーティングを含むＦＰＧＡの静的部分のためのものであり得る。

ビットファイル記述を生成するために、任意の他の適切な技術が使用されてもよいことが認識されるべきである。前述の例では、ＦＰＧＡを設計するために使用されるツールは、ビットファイルを生成するために使用される解析を提供するために使用される。

他の実施形態では異なるツールが使用されてもよいことを理解されたい。いくつかの実施形態では、ツールは、製品または一連の製品に固有のものであってもよい。例えば、ＦＰＧＡのプロバイダは、そのＦＰＧＡを管理するための関連ツールを提供することができる。

他の実施形態では、汎用スクリプト作成ツールを使用することができる。
いくつかの実施形態では、異なるツールまたは異なる技法を使用して、部分ビットファイルを決定することができる。例えば、いずれの特徴がいずれの特徴に対応するかを決定するために、メインビットファイルを分析することができる。これは、複数の部分ビットファイルが生成されることを必要とする場合がある。

ステップＳ３は、ネットワークインターフェースデバイスがホストに対してインストールされ、物理ＦＰＧＡデバイス上で実行されるときに実施されることを理解されたい。ステップＳ１およびＳ２は、設計合成プロセスの一部として実行されて、ネットワークインターフェースデバイスを実装するビットファイルイメージを生成することができる。いくつかの実施形態では、ステップＳ１および／またはステップＳ２は、ＦＰＧＡの動作を特徴付けるために使用される。ＦＰＧＡが特徴付けられると、ビットファイル記述は、所与の規定の様式で動作することになるすべての物理ネットワークインターフェースデバイスのメモリに記憶される。

ステップＳ３において、ビットファイル記述およびｅＢＰＦプログラムを使用してコンパイルが実行される。コンパイルの出力は、ｅＢＰＦプログラムの部分ビットファイルである。コンパイルは、部分ビットファイル、および、個々のスライスによって実行されることになるプログラミングにルートを追加する。

ビットファイル記述は、展開されるシステム内で提供されてもよいことを理解されたい。ビットファイル記述は、メモリに記憶され得る。ビットファイル記述は、ＦＰＧＡ、ネットワークインターフェースデバイス、またはホストデバイスに記憶することができる。いくつかの実施形態では、ビットファイル記述は、ネットワークインターフェースデバイス上のＦＰＧＡに接続されたフラッシュメモリなどに記憶される。フラッシュメモリは、メインビットファイルも含み得る。

ｅＢＰＦプログラムは、ビットファイル記述と共に記憶されてもよいし、または別個に記憶されてもよい。ｅＢＰＦプログラムは、ＦＰＧＡ、ネットワークインターフェースデバイス、またはホストに記憶されてもよい。ｅＢＰＦの場合、プログラムは、両方ともホスト上で作動しているユーザモードプログラムからカーネルに転送され得る。カーネルは、プログラムをデバイスドライバに転送し、デバイスドライバは、ホストまたはネットワークインターフェースデバイス上で作動しているコンパイラにプログラムを転送する。いくつかの実施形態では、ｅＢＰＦプログラムは、ホストＯＳがブートする前に作動することができるように、ネットワークインターフェースデバイスに記憶されてもよい。

コンパイラは、ネットワークインターフェースデバイス、ＦＰＧＡ、またはホスト上の任意の適切な位置に設けられてもよい。単なる例として、コンパイラは、ネットワークインターフェースデバイス上のＣＰＵ上で作動されてもよい。

次に、コンパイラフローについて説明する。コンパイラのフロントエンドが、ｅＢＰＦプログラムを受信する。ｅＢＰＦプログラムは、任意の適切な言語で書かれてもよい。例えば、ｅＢＰＦプログラムは、Ｃ型言語で書かれてもよい。コンパイラは、フロントエンドにおいて、プログラムを中間表現ＩＲに変換するように構成される。いくつかの実施形態では、ＩＲはＬＬＶＭ－ＩＲまたは任意の他の適切なＩＲであってもよい。

いくつかの実施形態では、ポインタ解析を実行して、パケット／マップアクセスプリミティブを作成することができる。

いくつかの実施形態では、ＩＲの最適化がコンパイラによって実行されてもよいことを理解されたい。これは、いくつかの実施形態では任意選択であり得る。

コンパイラの高レベル合成バックエンドは、プログラムパイプラインをステージに分割し、パケットアクセスタップを生成し、Ｃコードを放出するように構成される。いくつかの実施形態では、設計ツールのＨＬＳ部分および／または使用されている設計ツールを呼び出して、ＨＬＳフェーズの出力を合成することができる。

ＦＰＧＡアトムのコンパイラバックエンドは、パイプラインをステージに分割し、パケットアクセスタップを生成する。ｉｆ変換は、制御依存性をデータ依存性に変換するために実行され得る。設計が配置され、ルーティングされる。ｅＢＰＦプログラムの部分ビットファイルが出力される。

ルーティング競合がある場合、図２０ａに示すようなルーティング問題が発生する可能性がある。例えば、スライスＡはスライスＣと通信することができ、スライスＢはスライスＤと通信することができる。図２０ａの構成では、共通ルーティング部６０は、スライスＡとスライスＣとの間の通信、ならびにスライスＢとスライスＤとの間の通信に割り当てられている。いくつかの実施形態では、このルーティング競合は回避され得る。これに関して、図２０ｂを参照する。図から分かるように、スライスＢとスライスＤとの間のルート６２と比較して、スライスＡとスライスＣとの間に別個のルート６４が設けられている。

いくつかの実施形態では、ビットファイル記述は、サブユニットの少なくともいくつかの対に対する複数の異なるルートを含むことができる。コンパイルプロセスは、図２０ａに示すように、ルーティング競合をチェックする。ルーティング競合の場合、コンパイラは、ルートの適切な代替の１つを選択することによって、そのような競合を解決または回避することができる。

図２１は、ｅＢＰＦプログラムを実行するためのＦＰＧＡ内のパーティション６６を示す。パーティションは、例えば、一連の入力フリップフロップ６８および一連の出力フリップフロップを介してＦＰＧＡの静的部分とインターフェースする。いくつかの実施形態では、前述のように、設計全体にルーティング７０があってもよい。

コンパイラは、コンパイラによって構成されているＦＰＧＡの領域にわたるルーティングに対処する必要があり得る。コンパイラは、メインビットファイル内の再構成可能パーティションに適合する部分ビットファイルを生成する必要がある。再構成可能パーティションを用いてメインビットファイルが生成されるとき、設計ツールは、再構成可能パーティション内の論理リソースの使用を回避し、結果、それらのリソースを部分ビットファイルによって使用することができる。しかしながら、設計ツールは、再構成可能パーティション内のルーティングリソースの使用を回避することができない場合がある。

その結果、分析ツールは、メインビットファイル内にある設計ツールによって使用されたルーティングリソースの使用を回避する必要がある。分析ツールは、ビットファイル記述内の利用可能なルートのそのリストが、メインビットファイルによって使用されているいずれの使用リソースも含まないことを確認する必要があり得る。利用可能なルートは、ＦＰＧＡが非常に規則的であるため、ＦＰＧＡ内の多数の場所で使用することができるルートテンプレートに関して定義することができる。メインビットファイルによって使用されるルーティングリソースは規則性を破り、これは、分析ツールがメインビットファイルと競合する場所でそれらのテンプレートを使用することを回避することを意味する。分析ツールは、それらの場所で使用することができる新しいルートテンプレートを生成すること、および／または特定のルートテンプレートが特定の場所で使用されるのを防ぐことを必要とする場合がある。

いくつかの例示的なｅＢＰＦプログラム断片をアトムによって実行される命令に変換する際にコンパイラによって提供される機能のいくつかの例をここで説明する。

いくつかの実施形態は、ビットファイル記述を生成するために任意の適切な合成ツールを使用することができる。単なる例として、いくつかの実施形態は、ハードウェアのためにアトミックトランザクションを使用するモードに基づくＢｌｕｅｓｐｅｃツールを使用することができる。

第１の例では、ｅＢＰＦプログラム断片は以下の２つの命令を有する。
命令１：ｒ１＋＝ｒ２
命令２：ｒ１＋＝ｒ３
第１の命令は、レジスタ１内の数（ｒ１）をレジスタ２内の数（ｒ２）に加算し、その結果をｒ１内に置く。第２の命令はｒ１をｒ３に加算し、結果をｒ１に置く。この例の両方の命令は６４ビットレジスタを使用するが、最下位の３２ビットのみを使用する。結果の上位３２ビットはゼロで満たされる。

コンパイラは、これらをアトムによって実行される命令に変換する。３２ビット加算命令は、３２対のルックアップテーブル（ＬＵＴ）、３２ビットのキャリーチェーン、および３２個のフリップフロップを必要とする。

ルックアップテーブルの各対は、２ビットの結果を生成するために２ビットを加算する。キャリーチェーンは、加算中にビットを桁列から次の列に運ぶことを可能にし、減算中にビットを次の列から借用することを可能にする構造である。

３２個のフリップフロップは、１つのクロックサイクルで値を受け取り、次のクロックサイクルで値を再生する記憶要素である。これらは、クロックサイクルごとに行われる作業量を制限し、タイミング分析を単純化するために使用され得る。

いくつかの実施形態では、ＦＰＧＡは、いくつかのスライスを含むことができる。いくつかの例示的なスライスでは、キャリーチェーンは、スライスの底部（ＣＩＮ）からスライスの上部（ＣＯＵＴ）に伝搬し、その後、次のスライスアップのＣＩＮ入力に接続する。

各スライスが４ビットのキャリーチェーンを有する例では、３２ビット加算を実行するために８つのスライスが使用される。この実施形態では、アトムは、一対のスライスによって提供されると考えることができる。これは、アトムが８ビット値に対して動作することがいくつかの実施形態において好都合であり得るためである。

各スライスが８ビットのキャリーチェーンを有する例では、３２ビット加算を実行するために４つのスライスが使用される。この実施形態では、アトムは、スライスによって提供されると考えることができる。

これは単なる例であり、前述のように、アトムは任意の適切な方法で定義され得ることを理解されたい。

この例では、ＦＰＧＡが８ビットのキャリーチェーンをサポートするスライスを有する事例が、ここで第１の例示的なｅＢＰＦプログラム断片のコンパイルにおいて使用される。

３２ビット幅の３つの入力値および３２ビット幅の１つの出力値がある。これら３つの入力値を生成した他の先行する命令があり得る。以下では、スライス（アトム）のいくつかの任意の位置を想定する。

以下の番号付け規則が使用される。スライス（アトム）は、規則的な行および列の配列に配列されている。ＸｎＹｍは、配列中のアトムの位置を示す。Ｘｎは列を示し、Ｙｍは行を示す。Ｘ６Ｙ０は、スライスが列６および行０にあることを示す。他の実施形態では、任意の他の適切な番号付け方式を使用できることを理解されたい。

初期値が以下の場所で同時に生成されたと仮定する。
ｒ１：スライスＸ６Ｙ０、Ｘ６Ｙ１、Ｘ６Ｙ２およびＸ６Ｙ３
ｒ２：スライスＸ６Ｙ４、Ｘ６Ｙ５、Ｘ６Ｙ６およびＸ６Ｙ７
ｒ３：スライスＸ６Ｙ８、Ｘ６Ｙ９、Ｘ６Ｙ１０およびＸ６Ｙ１１
第１の命令の結果は、キャリーチェーンが正しく接続されるように、同じ列内の４つの隣接するスライスによって計算される必要がある。コンパイラは、その結果をスライスＸ７Ｙ０、Ｘ７Ｙ１、Ｘ７Ｙ２およびＸ７Ｙ３において計算することを選択し得る。これが奏効するためには、入力を接続する必要がある。Ｘ６Ｙ０からＸ７Ｙ０への接続、別のＸ６Ｙ１からＸ７Ｙ１への接続、Ｘ６Ｙ２からＸ７Ｙ２への１つの接続、およびＸ６Ｙ３からＸ７Ｙ３への１つの接続が存在する。Ｘ６Ｙ４－Ｘ６Ｙ７からＸ７Ｙ０－Ｘ７Ｙ３への対応する接続も必要である。

これらは、８つの入力ビットの各々が対応する出力ビットに接続されることを意味するフルバイト接続である。例えば、スライスＸ６Ｙ０フリップフリップ０からの出力は、スライスＸ７Ｙ０ＬＵＴ０の入力０に接続される。

スライスＸ６Ｙ０フリップフリップ１からの出力は、スライスＸ７Ｙ０ＬＵＴ１の入力０に接続される。

以降も同様である。
スライスＸ６Ｙ０フリップフリップ７からの出力は、スライスＸ７Ｙ０ＬＵＴ７の入力０に接続される。

第１のクロックサイクルの間、スライスＸ６Ｙ０－Ｘ６Ｙ７からのｒ１およびｒ２値は、スライスＸ７Ｙ０－Ｘ７Ｙ３の入力に転送され、ＬＵＴおよびキャリーチェーンによって処理され、結果はそれらのスライスのフリップフリップ（Ｘ７Ｙ０－Ｘ７Ｙ３）に記憶され、次のサイクルで使用される準備ができる。

命令２に移る。コンパイラは、命令２の結果を計算する場所を選択する必要がある。スライスＸ７Ｙ４～Ｘ７Ｙ７を選択し得る。ここでも、命令１の結果（Ｘ７Ｙ０～Ｘ７Ｙ３）から命令２の入力（Ｘ７Ｙ４～Ｘ７Ｙ７）へのフルバイト接続が存在することになる。

ｒ３の値も必要である。ｒ１、ｒ２およびｒ３がサイクル０において生成された場合、ｒ１＋ｒ２がサイクル１において生成される。ｒ３の値は、サイクル１において生成されるようにクロックサイクルだけ遅延させる必要がある。コンパイラは、スライスＸ７Ｙ８～Ｘ７Ｙ１１を使用してサイクル１においてｒ３を生成することを選択し得る。次に、サイクル０においてｒ３を生成した元のスライス（Ｘ６Ｙ８～Ｘ６Ｙ１１）から、サイクル１において同じ値を生成する新しいスライス（Ｘ７Ｙ８～Ｘ７Ｙ１１）への接続が必要になる。それが完了すると、命令２のために、それらの新しいスライスから命令２のスライスへの接続がここで必要になる。したがって、スライスＸ７Ｙ８からの出力は、スライスＸ７Ｙ４の入力に接続し、以下同様である。

このとき、ＦＰＧＡビットファイルは、以下の機能を含む。
－Ｘ６Ｙ０からＸ７Ｙ０入力０へのフルバイト接続（初期ｒ１バイト０）
－Ｘ６Ｙ１からＸ７Ｙ１入力０へのフルバイト接続（初期ｒ１バイト１）
－Ｘ６Ｙ２からＸ７Ｙ２入力０へのフルバイト接続（初期ｒ１バイト２）
－Ｘ６Ｙ３からＸ７Ｙ３入力０へのフルバイト接続（初期ｒ１バイト３）
－Ｘ６Ｙ４からＸ７Ｙ０入力１へのフルバイト接続（初期ｒ２バイト０）
－Ｘ６Ｙ５からＸ７Ｙ１入力１へのフルバイト接続（初期ｒ２バイト１）
－Ｘ６Ｙ６からＸ７Ｙ２入力１へのフルバイト接続（初期ｒ２バイト２）
－Ｘ６Ｙ７からＸ７Ｙ３入力１へのフルバイト接続（初期ｒ２バイト３）
－Ｘ６Ｙ８からＸ７Ｙ８入力０へのフルバイト接続（初期ｒ３バイト０）
－Ｘ６Ｙ９からＸ７Ｙ９入力０へのフルバイト接続（初期ｒ３バイト１）
－Ｘ６Ｙ１０からＸ７Ｙ１０入力０へのフルバイト接続（初期ｒ３バイト２）
－Ｘ６Ｙ１１からＸ７Ｙ１１入力０へのフルバイト接続（初期ｒ３バイト３）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ０（命令１バイト０）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ１（命令１バイト１）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ２（命令１バイト２）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ３（命令１バイト３）
－入力０を出力にコピーするように構成されたスライスＸ７Ｙ８（ｒ３遅延バイト０）
－入力０を出力にコピーするように構成されたスライスＸ７Ｙ９（ｒ３遅延バイト１）
－入力０を出力にコピーするように構成されたスライスＸ７Ｙ１０（ｒ３遅延バイト２）
－入力０を出力にコピーするように構成されたスライスＸ７Ｙ１１（ｒ３遅延バイト３）
－Ｘ７Ｙ０からＸ７Ｙ４入力０へのフルバイト接続（命令１バイト０）
－Ｘ７Ｙ１からＸ７Ｙ５入力０へのフルバイト接続（命令１バイト１）
－Ｘ７Ｙ２からＸ７Ｙ６入力０へのフルバイト接続（命令１バイト２）
－Ｘ７Ｙ３からＸ７Ｙ７入力０へのフルバイト接続（命令１バイト３）
－Ｘ７Ｙ８からＸ７Ｙ４入力１へのフルバイト接続（ｒ３遅延バイト０）
－Ｘ７Ｙ９からＸ７Ｙ５入力１へのフルバイト接続（ｒ３遅延バイト１）
－Ｘ７Ｙ１０からＸ７Ｙ６入力１へのフルバイト接続（ｒ３遅延バイト２）
－Ｘ７Ｙ１１からＸ７Ｙ７入力１へのフルバイト接続（ｒ３遅延バイト３）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ４（命令２バイト０）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ５（命令２バイト１）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ６（命令２バイト２）
－入力０を入力１に加算するように構成されたスライスＸ７Ｙ７（命令２バイト３）
コンパイラは、命令２の結果の上位３２ビットを生成する必要がない。これは、それらが０であることが分かっているためである。その事実に注目し、それらが使用されるときはいつでも０を使用することができる。

次に、ｅＢＰＦ断片のコンパイルの第２の例について説明する。
命令１：ｒ１＆＝０ｘｆｆ
命令２：ｒ２＆＝０ｘｆｆ
命令３：ｒ１＜ｒ２の場合、Ｌ１へ進む
命令４：ｒ１＝ｒ２
ラベルＬ１。

第１の命令は、ｒ１と定数０ｘｆｆとのビット積を実行し、結果をｒ１に置く。対応するビットがｒ１において元々１に設定されており、対応するビットが定数において１に設定されていた場合、結果における所与のビットは１に設定される。そうでなければ０に設定される。定数０ｘｆｆは、ビット０～７が設定されており、ビット８～６３がクリアされており、そのため、結果として、ｒ１のビット０～７は変更されないが、ビット８～６３は０に設定される。これにより、コンパイラはビット８～６３が０であり、それらを生成する必要がないことを理解するため、コンパイラに関する物事が単純化される。第２の命令はｒ２に対して同じことを行う。

命令３は、ｒ１がｒ２未満であるか否かをチェックし、そうであればラベルＬ１にジャンプする。これにより、命令４がスキップされる。命令４は、単純に値をｒ２からｒ１にコピーする。この命令シーケンスは、ｒ１バイト０およびｒ２バイト０の最小値を見つけ、結果をｒ１バイト０に置く。

コンパイラは、「ｉｆ変換」として知られる技法を使用して、条件付きジャンプを選択命令に変えることができる。

命令１：ｒ１＆＝０ｘｆｆ
命令２：ｒ２＆＝０ｘｆｆ
命令５：ｃ１＝（ｒ１＜ｒ２）
命令６：ｒ１＝ｃ１？ｒ１：ｒ２
命令５は、ｒ１をｒ２と比較し、ｒ１がｒ２未満であればｃ１を１に設定し、そうでなければｃ１を０に設定する。命令６は、ｃ１が設定されている場合にｒ１をｒ１にコピーし（これは効果を有しない）、そうでない場合にｒ２をｒ１にコピーする選択命令である。ｃ１が１に等しい場合、命令３は命令４をスキップしていることになり、これはｒ１がその値を命令１から保持することを意味する。この場合、選択命令もｒ１を変更せずに保持する。ｃ１が０に等しい場合、命令３は命令４をスキップしていないため、ｒ２は命令４によってｒ１にコピーされる。ここでも、選択命令はｒ２をｒ１にコピーするため、新しいシーケンスは古いシーケンスと同じ効果を有する。

命令６は有効なｅＢＰＦ命令ではない。しかしながら、この命令は、コンパイラがそれらに対して作用している間にＬＬＶＭ－ＩＲにおいて表現される。命令６は、ＬＬＶＭ－ＩＲにおいては有効な命令である。

これらの命令は、ここでアトムに割り当てられる必要がある。入力ｒ１がスライスＸ０Ｙ０～Ｘ０Ｙ７において利用可能であり、ｒ２がスライスＸ０Ｙ８～Ｘ０Ｙ１５において利用可能であると仮定する。命令１および２は、ｒ１およびｒ２の上位７バイトが０に設定されることをコンパイラに注記させる。

次に、コンパイラは、スライスＸ１Ｙ０内の命令５の結果を計算することを選択し得る。スライスＸ０Ｙ０の出力からスライスＸ１Ｙ０の入力０へのフルバイト接続、およびスライスＸ０Ｙ８の出力からスライスＸ１Ｙ０の入力１へのフルバイト接続が必要である。２つの値を比較する方法は、一方を他方から減算し、次のビットアップから借用しようとすることによって計算がオーバーフローするか否かを確認することである。そして、この比較結果は、スライスＸ１Ｙ１のフリップフロップ７に記憶される。

第１の例と同様に、ｒ１およびｒ２は、命令６に対して適時に値を提示するために１サイクルだけ遅延される必要がある。コンパイラは、ｒ１およびｒ２に対してそれぞれスライスＸ１Ｙ１およびＸ１Ｙ２を使用し得る。

選択命令は、ｃ１、ｒ１、およびｒ２の３つの入力を必要とする。ｒ１およびｒ２は１バイト幅であるが、ｃ１は１ビット幅しかないことに留意されたい。コンパイルが選択命令スライスＸ２Ｙ０の結果を計算すると仮定する。選択はビットごとに実行され、スライスＸ２Ｙ０内の各ＬＵＴが１ビットを扱う。

ｃ１が設定される場合、結果のビット０はｒ１ビット０であり、
そうでない場合、ｒ２ビット０である。

ｃ１が設定される場合、結果のビット１はｒ１ビット１であり、
そうでない場合、ｒ２ビット１である。

．．．そして、以下まで同様である。
ｃ１が設定される場合、結果のビット７はｒ１ビット７であり、
そうでない場合、ｒ２ビット７である。

各ＬＵＴはｒ１からの対応するビットおよびｒ２からの対応するビットにアクセスする必要があり得るが、すべてのＬＵＴはｃ１にアクセスする必要がある。これは、ｃ１がスライスの入力０のビットにわたって複製される必要があることを意味する。したがって、命令６の入力のための接続は以下のようになる。

スライスＸ１Ｙ０の出力のビット７をスライスＸ２Ｙ０の入力０に複製する。
スライスＸ１Ｙ１の出力からスライスＸ２Ｙ０の入力１へのフルバイト接続。

スライスＸ１Ｙ２の出力からスライスＸ２Ｙ０の入力２へのフルバイト接続。
対処する必要がある別の問題は、シフト命令に関する。以下の例を考える。

５ビット左への１６ビットシフトは、
出力ビット０を０に設定し、
出力ビット１を０に設定し、
出力ビット２を０に設定し、
出力ビット３を０に設定し、
出力ビット４を０に設定し、
入力ビット０を出力ビット５にコピーし、
入力ビット１を出力ビット６にコピーし、
．．．
入力ビット１０を出力ビット１５にコピーすることを必要とする。

ここでの入力および出力は、接続のものであることに留意されたい。接続の入力は、第１のスライスの出力からのものである。接続の出力は、第２のスライスの入力に進む。

スライス内でこの種の接続を行うことは可能でない場合があり、そうではなく、スライス間の相互接続によってこの種の接続を行うことは可能である場合がある。コンパイラは、１６ビット入力値が同じ列内の２つの隣接するスライスによって生成されたと仮定することができる。これは、コンパイラがそこで値が生成されることを確認することができるためである。

一例として、入力がスライスＸ０Ｙ４およびＸ０Ｙ５によって生成され、出力がスライスＸ１Ｙ４およびＸ１Ｙ５に向かうと仮定する。その場合、以下の接続が必要となる。

スライスＸ１Ｙ４ビット０は０であることが分かっているため、必要ではない
スライスＸ１Ｙ４ビット１は０であることが分かっているため、必要ではない
スライスＸ１Ｙ４ビット２は０であることが分かっているため、必要ではない
スライスＸ１Ｙ４ビット３は０であることが分かっているため、必要ではない
スライスＸ１Ｙ４ビット４は０であることが分かっているため、必要ではない
スライスＸ１Ｙ４ビット５はスライスＸ０Ｙ４ビット０からのものである
スライスＸ１Ｙ４ビット６はスライスＸ０Ｙ４ビット１からのものである
スライスＸ１Ｙ４ビット７はスライスＸ０Ｙ４ビット２からのものである
スライスＸ１Ｙ５ビット０はスライスＸ０Ｙ４ビット３からのものである
スライスＸ１Ｙ５ビット１はスライスＸ０Ｙ４ビット４からのものである
スライスＸ１Ｙ５ビット２はスライスＸ０Ｙ４ビット５からのものである
スライスＸ１Ｙ５ビット３はスライスＸ０Ｙ４ビット６からのものである
スライスＸ１Ｙ５ビット４はスライスＸ０Ｙ４ビット７からのものである
スライスＸ１Ｙ５ビット５はスライスＸ０Ｙ５ビット０からのものである
スライスＸ１Ｙ５ビット６はスライスＸ０Ｙ５ビット１からのものである
スライスＸ１Ｙ５ビット７はスライスＸ０Ｙ５ビット２からのものである
スライスＸ１Ｙ５の入力への８つの接続は、シフトされた接続またはシフトされたルートと考えることができる。スライスＸ１Ｙ４にも同じ構造を使用することができるが、Ｘ１Ｙ３およびＸ１Ｙ４からの入力を有する。これは、ビット５～７が照合され、スライスはビット０～４を無視することができるため、いずれの入力がそこに提示されるかは問題ではないためである。

１～７ビットの任意の量だけシフトできる必要があり得る。０ビットまたは８ビットだけシフトする接続は、その場合、各ビットが別のスライスの対応するビットに接続するため、フルバイト接続とまったく同じである。

可変量のシフトは、シフトされる値の幅に応じて、２ステージまたは３ステージ内で行われ得る。ステージは以下の通りである。

ステージ１：０、１、２または３だけシフトする。
ステージ２：０、４、８または１２だけシフトする。

ステージ３：０、１６、３２または４８だけシフトする（３２ビットまたは６４ビットのみ）。

別の例として、可変量バイト分の算術右シフトがあるとすると、シフトされる値はスライスＸ３Ｙ２によって生成され、シフト量はＸ３Ｙ３によって生成される。

算術右シフトは、「算術右シフト」タイプの接続を必要とする。このタイプの接続は、１つのスライスの出力を取り、それらを別のスライスの入力に接続するが、そのプロセスにおいてそれらを一定量だけ右にシフトし、必要に応じて符号ビットを複製する。

例えば、「算術右３シフト」接続は、以下を有する。
出力ビット０は入力ビット３からのものである
出力ビット１は入力ビット４からのものである
出力ビット２は入力ビット５からのものである
出力ビット３は入力ビット６からのものである
出力ビット４は入力ビット７からのものである
出力ビット５は入力ビット７（符号ビット）からのものである
出力ビット６は入力ビット７（符号ビット）からのものである
出力ビット７は入力ビット７（符号ビット）からのものである
ステージ１は、スライスＸ４Ｙ２において計算することができ、その場合、以下の接続が必要になる。

スライスＸ３Ｙ２からスライスＸ４Ｙ２入力０へのフルバイト
スライスＸ３Ｙ２からスライスＸ４Ｙ２入力１への算術右１シフト
スライスＸ３Ｙ２からスライスＸ４Ｙ２入力２への算術右２シフト
スライスＸ３Ｙ２からスライスＸ４Ｙ２入力３への算術右３シフト
スライスＸ３Ｙ３ビット０をスライスＸ４Ｙ２入力４に複製する
スライスＸ３Ｙ３ビット１をスライスＸ４Ｙ２入力５に複製する
次に、スライスＸ４Ｙ２は、以下のように入力４および入力５に基づいて最初の４つの入力のうちの１つを選択するように構成される。

入力４が０であり、入力５が０である：入力０を選択する
入力４が１であり、入力５が０である：入力１を選択する
入力４が０であり、入力５が１である：入力２を選択する
入力４が１であり、入力５が１である：入力３を選択する
スライスＸ３Ｙ３からスライスＸ４Ｙ３にシフト量をコピーして遅延バージョンを提供することができる。

ステージ２は、スライスＸ５Ｙ２において計算され得、その場合、以下の接続が必要になる。

スライスＸ４Ｙ２からスライスＸ５Ｙ２入力０へのフルバイト
スライスＸ４Ｙ２からスライスＸ５Ｙ２入力１への算術右４シフト
スライスＸ４Ｙ３ビット２をスライスＸ５Ｙ２入力２に複製する
次に、スライスＸ５Ｙ２は、以下のように入力２に基づいて入力０または入力１を選択するように構成される。

入力２が０：入力０を選択する
入力２が１：入力１を選択する
スライスＸ５Ｙ２の出力は、可変算術右シフト演算の結果となる。

所与のアトムのビットファイルは以下のとおりであり得る。
アトムの識別情報
所与のアトムが入力およびその入力に利用可能なルートを受け取ることができる他のアトムのリスト。

所与のアトムが出力およびその出力に利用可能なルートを提供することができる他のアトムのリスト
ＦＰＧＡは規則的な構造であるため、必要に応じて個々のアトムの修正を伴う複数のアトムに使用できる共通のテンプレートがあり得ることを理解されたい。

一例として、スライスＸ７Ｙ１のビットファイル記述は、以下の可能な入力および出力を指定することができる。

ルートＡまたはルートＢを介したＸ６Ｙ１からの入力
ルートＣまたはルートＤを介したＸ６Ｙ５からの入力
ルートＥまたはルートＦを介したＸ７Ｙ０からの入力
ルートＧまたはルートＨを介したＸ８Ｙ１への出力
ルートＩまたはルートＪを介したＸ７Ｙ２への出力
ルートＫまたはルートＬを介したＸ７Ｙ５への出力。

コンパイラは、このビットファイル記述を使用して、以下の前述した第１のｅＢＰＦ例のスライスＸ７Ｙ１の入力および出力のための部分ビットファイルを提供する。

ルートＡを介したＸ６Ｙ１からの入力
ルートＣを介したＸ６Ｙ５からの入力
ルートＫまたはルートＬを介したＸ７Ｙ５への出力。

一例として、スライスＸｎＹｍのビットファイル記述は、以下の可能な入力および出力を指定することができる。

ルートＡまたはルートＢを介したＸｎ－１Ｙｍからの入力
ルートＣまたはルートＤを介したＸｎ－１Ｙｍ＋４からの入力
ルートＥまたはルートＦを介したＸｎＹｍ－１からの入力
ルートＧまたはルートＨを介したＸｎ＋１Ｙｍへの出力
ルートＩまたはルートＪを介したＸｎＹｍ＋１への出力
ルートＫまたはルートＬを介したＸｎＹｍ＋４への出力。

このビットファイル記述は、前述のように、コンパイラが使用するのに利用できない１つまたは複数のルートを除去するように修正することができる。これは、ルートが別のアトムによって使用されるか、またはパーティションをまたいだルーティングに使用されるためであり得る。

コンパイラは、１つまたは複数のコンピュータプロセッサによって実行され得るコンピュータ実行可能命令を含むコンピュータプログラムによって実装され得ることを理解されたい。コンパイラは、１つまたは複数のメモリと連携して動作する少なくとも１つのプロセッサなどのハードウェア上で実行することができる。

上記は例示的な実施形態を説明しているが、本発明の範囲から逸脱することなく開示された解決策に対して行うことができるいくつかの変形および修正があることに留意されたい。

したがって、実施形態は、添付の特許請求項の範囲内で変化し得る。一般に、いくつかの実施形態は、ハードウェアもしくは専用回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせにおいて実施することができる。例えば、いくつかの態様はハードウェアにおいて実装されてもよく、一方、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアにおいて実装されてもよいが、実施形態はそれらに限定されない。

実施形態は、メモリに記憶され、関与するエンティティの少なくとも１つのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組み合わせによって実行可能なコンピュータソフトウェアによって実施することができる。

ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロックなどの物理媒体、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気媒体、および例えばＤＶＤおよびそのデータ変形、ＣＤなどの光学媒体に記憶することができる。

メモリは、ローカル技術環境に適した任意のタイプのものであってもよく、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなどの任意の適切なデータ記憶技術を使用して実装することができる。

データプロセッサは、ローカル技術環境に適した任意のタイプのものであってもよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つまたは複数を含んでもよい。

添付の図面および添付の特許請求の範囲と併せて読めば、前述の説明を考慮して、様々な修正および適合が当業者には明らかになり得る。しかしながら、本教示のすべてのそのようなおよび類似の修正は、添付の特許請求の範囲に定義される範囲内に依然として含まれる。

Claims

ホストデバイスをネットワークにインターフェースするためのネットワークインターフェースデバイスであって、
第１のインターフェースであり、前記第１のインターフェースは、複数のデータパケットを受信するように構成されている、第１のインターフェースと、
複数の処理ユニットを備える構成可能ハードウェアモジュールであり、各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられる、構成可能ハードウェアモジュールとを備え、
前記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられ、
前記ハードウェアモジュールは、前記複数のデータパケットのうちの１つまたは複数を処理して前記複数のデータパケットのうちの前記１つまたは複数に関して第１の機能を実行するための第１のデータ処理パイプラインを提供するために、前記複数の前記処理ユニットのうちの少なくともいくつかを相互接続するように構成可能である、ネットワークインターフェースデバイス。
前記複数の処理ユニットの前記少なくともいくつかのうちの２つ以上は、関連する少なくとも１つの所定の動作を並列に実行するように構成される、請求項１に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットのうちの前記少なくともいくつかのうちの２つ以上は、
クロック信号によって規定される所定の時間長内に関連する所定のタイプの動作を実施し、
前記所定の時間長の終了に応答して、それぞれの前記少なくとも１つの動作の結果を次の処理ユニットに転送するように構成される、請求項１または２に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットの各々は、それぞれの前記処理ユニットに関連付けられる前記少なくとも１つの動作を実行するように構成された特定用途向け集積回路を含む、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットのうちの少なくとも１つは、デジタル回路と、前記デジタル回路によって実行される処理に関連する状態を記憶するメモリとを備え、前記デジタル回路は、前記メモリと通信して、それぞれの前記処理ユニットに関連付けられる前記所定のタイプの動作を実行するように構成される、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットのうちの２つ以上にアクセス可能なメモリを備え、前記メモリは、第１のデータパケットに関連付けられる状態を記憶するように構成され、前記ハードウェアモジュールによる前記第１の機能の実行中、前記複数の処理ユニットのうちの２つ以上は、前記状態にアクセスし、前記状態を修正するように構成される、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットのうちの前記少なくともいくつかのうちの第１の処理ユニットは、前記複数の処理ユニットのうちの第２の処理ユニットによる前記状態の値のアクセス中にストールするように構成される、請求項６に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットのうちの１つまたは複数は、関連する所定のタイプの動作に基づいて、それぞれのパイプラインに固有の動作を実行するように個別に構成可能である、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記ハードウェアモジュールは、命令を受信し、前記命令に応答して、
前記複数のデータパケットのうちの１つまたは複数を処理するためのデータ処理パイプラインを提供するために、前記複数の前記処理ユニットのうちの少なくともいくつかを相互接続すること、
前記複数の処理ユニットのうちの１つまたは複数に、前記１つまたは複数のデータパケットに関して関連する所定のタイプの動作を実行させること、
前記複数の処理ユニットのうちの１つまたは複数をデータ処理パイプラインに追加すること、および
データ処理パイプラインから前記複数の処理ユニットのうちの１つまたは複数を除去することのうちの少なくとも１つを行うように構成されている、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記所定の動作は、
メモリから前記第１のデータパケットの少なくとも１つの値をロードすること、
データパケットの少なくとも１つの値をメモリに記憶すること、および
データパケットに関して実行されるべきアクションを決定するためにルックアップテーブル内のルックアップを実行することのうちの少なくとも１つを含む、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記複数の処理ユニットのうちの前記少なくともいくつかのうちの１つまたは複数は、関連する少なくとも１つの所定の動作の少なくとも１つの結果を第１の処理パイプライン内の次の処理ユニットに渡すように構成され、前記次の処理ユニットは、前記少なくとも１つの結果に応じて次の所定の動作を実行するように構成される、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記異なる所定のタイプの動作の各々は、異なるテンプレートによって定義される、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記所定の動作のタイプは、
データパケットにアクセスすること、
前記ハードウェアモジュールのメモリに記憶されたルックアップテーブルにアクセスすること、
データパケットからロードされたデータに対して論理演算を実行すること、および
前記ルックアップテーブルからロードされたデータに対して論理演算を実行することのうちの少なくとも１つを含む、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記ハードウェアモジュールはルーティングハードウェアを備え、前記ハードウェアモジュールは、前記第１のデータ処理パイプラインによって定義される特定の順序で前記複数の処理ユニット間でデータパケットをルーティングするように前記ルーティングハードウェアを構成することによって、前記第１のデータ処理パイプラインを提供するために前記複数の前記処理ユニットの少なくともいくつかを相互接続するように構成可能である、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記ハードウェアモジュールは、前記複数の前記処理ユニットの少なくともいくつかを相互接続して、前記複数のデータパケットのうちの１つまたは複数を処理して前記第１の機能とは異なる第２の機能を実行するための第２のデータ処理パイプラインを提供するように構成可能である、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記ハードウェアモジュールは、前記複数の前記処理ユニットのうちの少なくともいくつかを相互接続して、前記第１のデータ処理パイプラインを提供した後に、前記複数の前記処理ユニットのうちの少なくともいくつかを相互接続して第２のデータ処理パイプラインを提供するように構成可能である、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記ハードウェアモジュールとは別個の、前記複数のデータパケットのうちの１つまたは複数に対して前記第１の機能を実行するように構成されたさらなる回路を備える、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
前記さらなる回路は、
フィールドプログラマブルゲートアレイ、および
複数の中央処理装置のうちの少なくとも１つを含む、請求項１７に記載のネットワークインターフェースデバイス。
前記ネットワークインターフェースデバイスは、少なくとも１つのコントローラを備え、前記さらなる回路は、前記第１の機能が前記ハードウェアモジュールにおいて実行されるようにするためのコンパイルプロセス中にデータパケットに対して前記第１の機能を実行するように構成され、前記少なくとも１つのコントローラは、前記コンパイルプロセスの完了に応答して、データパケットに対する前記第１の機能の実行を開始するように前記ハードウェアモジュールを制御するように構成される、請求項１７または１８に記載のネットワークインターフェースデバイス。
前記少なくとも１つのコントローラは、前記第１の機能が前記ハードウェアモジュールにおいて実行されるようにするための前記コンパイルプロセスが完了したという前記決定に応答して、データパケットに対する前記第１の機能の実行を停止するように前記さらなる回路を制御するように構成される、請求項１９に記載のネットワークインターフェースデバイス。
前記ネットワークインターフェースデバイスは少なくとも１つのコントローラを備え、前記ハードウェアモジュールは、前記第１の機能が前記さらなる回路において実行されるようにするためのコンパイルプロセス中にデータパケットに対して前記第１の機能を実行するように構成され、前記少なくとも１つのコントローラは、前記第１の機能が前記さらなる回路において実行されるようにするための前記コンパイルプロセスが完了したと決定し、前記決定に応答して、データパケットに対する前記第１の機能の実行を開始するように前記さらなる回路を制御するように構成される、請求項１７または１８のいずれか１項に記載のネットワークインターフェースデバイス。
前記少なくとも１つのコントローラは、前記第１の機能が前記さらなる回路において実行されるようにするための前記コンパイルプロセスが完了したという前記決定に応答して、データパケットに対する前記第１の機能の実行を停止するように前記ハードウェアモジュールを制御するように構成される、請求項２１に記載のネットワークインターフェースデバイス。
前記第１の機能が前記ハードウェアモジュールにおいて実行されることを可能にするためのコンパイルプロセスを実行するように構成された少なくとも１つのコントローラを備える、先行する請求項のいずれか１項に記載のネットワークインターフェースデバイス。
先行する請求項のいずれか１項に記載のネットワークインターフェースデバイスと、ホストデバイスとを備えるデータ処理システムであって、前記データ処理システムは、前記第１の機能が前記ハードウェアモジュールにおいて実行されることを可能にするためのコンパイルプロセスを実行するように構成された少なくとも１つのコントローラを備える、データ処理システム。
前記少なくとも１つのコントローラは、
前記ネットワークインターフェースデバイス、および
前記ホストデバイスのうちの１つまたは複数によって提供される、請求項２４に記載のデータ処理システム。
前記コンパイルプロセスは、前記第１の機能を表現するコンピュータプログラムが前記ホストデバイスのカーネルモードにおいて安全に実行されるという、前記少なくとも１つのコントローラによる決定に応答して実行される、請求項２４または２５に記載のデータ処理システム。
前記少なくとも１つのコントローラは、前記複数の処理ユニットのうちの前記少なくともいくつかの各々を、前記第１のデータ処理パイプラインの特定の順序で、コンピュータコード命令のシーケンスによって表される複数の動作からの少なくとも１つの動作を実行するために割り当てることによって前記コンパイルプロセスを実行するように構成され、前記複数の動作は、前記複数のデータパケットのうちの前記１つまたは複数に対する前記第１の機能を提供する、請求項２４、２５または２６に記載のデータ処理システム。
前記少なくとも１つのコントローラは、
前記コンパイルプロセスの完了前に、前記ネットワークインターフェースデバイスのさらなる回路に、データパケットに対して前記第１の機能を実行させるための第１の命令を送信し、
前記コンパイルプロセスの完了後に、前記ハードウェアモジュールに、データパケットに対する前記第１の機能の実行を開始させるための第２の命令を送信するように構成される、請求項２４～２７のいずれか１項に記載のデータ処理システム。
ネットワークインターフェースデバイスにおける実施のための方法であって、
第１のインターフェースにおいて、複数のデータパケットを受信するステップと、
ハードウェアモジュールの複数の処理ユニットのうちの少なくともいくつかを相互接続して、前記複数のデータパケットのうちの１つまたは複数を処理して前記複数のデータパケットのうちの前記１つまたは複数に対して第１の機能を実行するための第１のデータ処理パイプラインを提供するように、前記ハードウェアモジュールを構成するステップとを含み、
各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられ、
前記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられる、方法。
ネットワークインターフェースデバイスに方法を実施させるためのプログラム命令を含む非一時的コンピュータ可読媒体であって、前記方法は、
第１のインターフェースにおいて、複数のデータパケットを受信するステップと、
ハードウェアモジュールの複数の処理ユニットのうちの少なくともいくつかを相互接続して、前記複数のデータパケットのうちの１つまたは複数を処理して前記複数のデータパケットのうちの前記１つまたは複数に対して第１の機能を実行するための第１のデータ処理パイプラインを提供するように、前記ハードウェアモジュールを構成するステップとを含み、
各処理ユニットは、単一のステップにおいて実行可能な所定のタイプの動作に関連付けられ、
前記複数の処理ユニットのうちの少なくともいくつかは、異なる所定のタイプの動作に関連付けられる、非一時的コンピュータ可読媒体。