JP7400105B2

JP7400105B2 - データ処理方法、装置、分散型データフロープログラミングフレームワーク及び関連コンポーネント

Info

Publication number: JP7400105B2
Application number: JP2022532624A
Authority: JP
Inventors: 宏偉 ▲かん▼; 楠呉; 仁剛李; 彦偉王
Original assignee: ▲蘇▼州浪潮智能科技有限公司
Priority date: 2020-02-05
Filing date: 2020-04-27
Publication date: 2023-12-18
Anticipated expiration: 2040-04-27
Also published as: CN111324558B; WO2021155642A1; JP2022549527A; EP4095703A4; EP4095703A1; CN111324558A; US20230004433A1

Description

本出願は、２０２０年２月５日に出願された中国特許出願第２０２０１００８０８５３．６号（発明の名称：データ処理方法、装置、分散型データフロープログラミングフレームワーク及び関連コンポーネント）に基づく優先権を主張し、引用によりその全ての記載内容が本明細書に組み込まれる。

本出願は、クラウド計算技術の分野に関し、特に、データ処理方法、装置、分散型データフロープログラミングフレームワーク、電子装置及び記憶媒体に関する。

人工知能及びビッグデータの急速な発展に伴い、データセンターにおけるデータが倍増するとともに、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の急速な発展は、データの高性能計算に対する要求をもたらす。これは、一方では、データの指数関数的な成長をもたらし、他方では、これらのデータ処理に必要な計算リソースも同様に成長する。従来の計算はＣＰＵで処理されており、技術の進歩に伴ってＣＰＵの性能を倍に向上させることができなくなっている。フィールドプログラマブルゲートアレイ（ＦＰＧＡ、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）のような再構成可能なチップは、多くの作業負荷を加速する潜在性を有し、復号化演算、画像処理、伸張演算及び人工知能関連演算を実行することができる。従来、通信集中や計算集中のタスクの処理は、ＦＰＧＡ加速側によって実現されていた。しかしながら、従来技術におけるＦＰＧＡ加速側における2つのＦＰＧＡ加速カードの間にデータのやり取りが必要である場合、ＦＰＧＡ加速カードがＰＣＩＥを介してホスト側にデータを転送し、ホスト側が更に他のカードにデータを転送する、ということが必要であり、データの計算の効率が低く、ＦＰＧＡクラウドサーバにおけるマルチカード装置をサポートする数は、ホスト側でのサポート可能なＰＣＩＥカードの数に物理的制限される。

したがって、ＦＰＧＡ加速側におけるＦＰＧＡ加速カードの数がホストインターフェースに物理的制限されることを回避し、データ処理効率を向上させることは、当業者が現在解決すべき技術的課題である。

本発明は、ＦＰＧＡ加速側におけるＦＰＧＡ加速カードの数がホストインターフェースに物理的制限されることを回避し、データ処理効率を向上させることができるデータ処理方法、装置、分散型データフロープログラミングフレームワーク、電子装置及び記憶媒体を提供することを目的とする。

上記課題を解決するために、本発明は、ホスト側に適用され、前記ホスト側が複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速側に接続され、前記ＦＰＧＡ加速カード間でネットワークを介して接続されたデータ処理方法であって、
データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定するステップと、
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されるステップと、を含むデータ処理方法を提供する。

任意選択で、計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送するステップの後、前記計算されるデータのデータアドレス及びデータ長さを、前記ターゲットＦＰＧＡ加速カードが前記データアドレス及び前記データ長さに従って前記計算されるデータを格納するように、前記ターゲットＦＰＧＡ加速カードに設定するステップ、をさらに含む。

任意選択で、前記ターゲットＦＰＧＡ加速カードが中間計算データ及び/又は前記最終処理結果を計算結果格納アドレスに格納するように、前記計算結果格納アドレスを前記ターゲットＦＰＧＡ加速カードに設定するステップ、をさらに含む。

任意選択で、全ての前記ターゲットＦＰＧＡ加速カードから第１のターゲットＦＰＧＡ加速カードを選択するステップと、
全ての前記データ処理サブタスク及びタスク割当情報を前記第１のターゲットＦＰＧＡ加速カードに転送し、ところで、前記タスク割当情報には、前記データ処理サブタスクと前記ターゲットＦＰＧＡ加速カードとの対応関係が含まれるステップと、
前記第１のターゲットＦＰＧＡ加速カードを用いて、前記タスク割当情報により前記データ処理サブタスクを対応するターゲットＦＰＧＡ加速カードに転送するステップと、をさらに含む。

任意選択で、計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送するステップは、
全ての前記ターゲットＦＰＧＡ加速カードから第２のターゲットＦＰＧＡ加速カードを選択するステップと、
全ての前記計算されるデータ及びデータ割当情報を前記第２のターゲットＦＰＧＡ加速カードに転送し、ところで、前記データ割当情報には、前記計算されるデータと前記ターゲットＦＰＧＡ加速カードとの対応関係が含まれるステップと、
前記第２のターゲットＦＰＧＡ加速カードを用いて、前記データ割当情報により前記計算されるデータを対応するＦＰＧＡ加速カードに転送するステップと、を含む。

任意選択で、計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送するステップは、
計算されるデータをカスタムＲＤＭＡ転送方法で前記ターゲットＦＰＧＡ加速カードに転送することを含み、
対応的には、対応するデータ処理サブタスクを所定転送方法で前記ターゲットＦＰＧＡ加速カードに転送し、ところで、前記所定転送方法には、ストリーミング転送又は一括パケット転送が含まれること、をさらに含む。

任意選択で、前記ターゲットＦＰＧＡ加速カードがネットワークを介して前記中間計算データを他のターゲットＦＰＧＡ加速カードに転送する場合、前記中間計算データのデータアドレス及びデータ長さを、前記他のターゲットＦＰＧＡ加速カードが前記中間計算データのデータアドレス及びデータ長さに従って前記中間計算データを格納するように、前記他のターゲットＦＰＧＡ加速カードに転送すること、をさらに含む。

任意選択で、前記ターゲットＦＰＧＡ加速カードの間では、ＭＡＣインターフェースを介してデータを転送し、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間では、ＰＣＩＥインターフェースを介してデータを転送し、遠端装置と前記ターゲットＦＰＧＡ加速カードとの間では、ＭＡＣインターフェースを介してデータを転送する。

任意選択で、前記ホスト側及び前記ターゲットＦＰＧＡ加速カードがローカルエリアネットワーク内の装置である場合、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間の通信データは、ＭＡＣ層においてパケット化され、
前記ホスト側及び前記ターゲットＦＰＧＡ加速カードがパブリックネットワーク内の装置である場合、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間の通信データは、ＵＤＰのｐａｙｌｏａｄ層においてパケット化され、前記ターゲットＦＰＧＡ加速カード間の通信データは、ＵＤＰのｐａｙｌｏａｄ層においてパケット化される。

本発明は、複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速カード側に接続され、前記ＦＰＧＡ加速カード間がネットワークを介して接続されたデータ処理装置であって、
データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において、各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定するように構成されたタスク割当モジュールと、
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されるように構成されたタスク実行モジュールと、を備えるデータ処理装置をさらに提供する。

本発明は、ＣＰＵ加速スタック及びＦＰＧＡ加速スタックを含む分散型データフロープログラミングフレームワークであって、
前記ＣＰＵ加速スタックは、データ処理タスクの分割のための基礎となるサポートを提供し、さらに、データ処理サブタスクのスケジューリングのためのホスト側プログラミングインターフェースを提供するように構成され、
前記ＦＰＧＡ加速スタックは、ホスト側プログラミングインターフェースに対応する加速インターフェースを提供し、さらに、前記データ処理サブタスクを実行する際に加速データ制御プログラム及びｋｅｒｎｅｌ制御プログラムを提供するように構成され、
ここで、前記分散型データフロープログラミングフレームワークが機能する場合、前記ＣＰＵ加速スタックは、データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において、各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定し、計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送される、分散型データフロープログラミングフレームワークをさらに提供する。

任意選択で、前記ＦＰＧＡ加速スタックは、
前記ＣＰＵ加速スタックから配信されたデータ処理サブタスクを実行し、さらに、データ処理結果を前記ＣＰＵ加速スタック又は他のターゲットＦＰＧＡ加速カードに転送するように構成された静的領域と、
前記データ処理サブタスクをローカル加速ユニット又は他のターゲットＦＰＧＡ加速カードの加速ユニットに転送し、加速計算動作を行うように構成されたＦＰＧＡ加速エンジンと、を備える。

本発明は、コンピュータプログラムが記憶されている記憶媒体をさらに提供する。前記コンピュータプログラムが実行されると、上記のデータ処理方法のステップを実施する。

本発明は、メモリ及びプロセッサを含む電子装置をさらに提供する。前記メモリには、コンピュータプログラムが記憶されており、前記コンピュータプログラムが前記プロセッサによって実行されると、上記のデータ処理方法のステップを実施する。

本発明は、ホスト側に適用され、前記ホスト側が複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速側に接続され、前記ＦＰＧＡ加速カード間でネットワークを介して接続されたデータ処理方法であって、
データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定するステップと、
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されるステップと、を含むデータ処理方法を提供する。

本発明では、まず、データ処理タスクを複数のデータ処理サブタスクに分割し、ＦＰＧＡ加速側において各データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定し、ターゲットＦＰＧＡ加速カードを用いて対応するデータ処理サブタスクを実行する。ターゲットＦＰＧＡ加速カードがデータ処理サブタスクを処理する際には、他のターゲットＦＰＧＡ加速カードのデータ処理結果を入力データとしてもよいし、自身が計算したデータ処理結果を他のターゲットＦＰＧＡ加速カードに転送してもよい。データ処理結果は、一旦ホスト側に転送してからホスト側を介して転送するのではなく、ＦＰＧＡ加速カード同士の間でネットワークを介して転送する。このように、本発明は、ＦＰＧＡ加速側におけるＦＰＧＡ加速カードの数がホストコンピュータインターフェースの物理的な制限を回避することができ、データ処理効率を向上させることができる。本発明は、データ処理装置、分散型データフロープログラミングフレームワーク、電子装置および記憶媒体も同時に提供し、上述の利点を有するので、ここではその説明を省略する。

本発明の実施形態又は従来技術における技術案をより明確に説明するために、実施形態又は従来技術の説明に必要な図面を簡単に説明するが、以下の説明における図面は本発明の実施形態の一部に過ぎず、当業者にとっては、創造的な労力を払わない限り、これらの図面に基づいて他の図面を獲得することができることは明らかである。
本発明の実施形態によるデータ処理方法のフローチャートである。本発明の実施形態によるデータ処理サブタスクの割当方法のフローチャートである。本発明の実施形態による計算されるデータの転送方法のフローチャートである。本発明の実施形態による再構成可能なデータセンターの構成図である。本発明の実施形態による再構成可能なデータセンターの加速フレームワーク図である。本発明の実施形態によるＣＰＵ加速スタックの構成の模式図である。本発明の実施形態によるＦＰＧＡ加速スタックの機能の構成図である。本発明の実施形態によるＦＰＧＡ加速スタックのフレームワーク図である。本発明の実施形態によるＦＰＧＡクラウドプラットフォームの計算原理の模式図である。

以下、本発明の実施形態における技術的解決策を、本発明の実施形態における図面を参照して明確かつ完全に説明するが、明らかに、説明された実施形態は本発明の一部の実施例に過ぎず、全ての実施例にすぎない。本出願における実施形態に基づいて、当業者が創造的な労働をすることなく得た他の全ての実施形態は、本出願の保護範囲に属する。

図1を参照すると、図1は、本発明の実施形態によるデータ処理方法のフローチャートである。

具体的には、下記のステップを含み、
ステップＳ１０１：データ処理タスクを複数のデータ処理サブタスクに分割する。

ここで、本実施形態は、複数のＦＰＧＡ加速カードを有し、前記ＦＰＧＡ加速カード間がネットワークを介して接続されたＦＰＧＡ加速側に接続されたホスト側に適用することができ、ホスト側におけるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、データ処理サブタスクに対する割当を実現するために用いられることができる。

具体的には、本実施形態では、データ処理タスクに応じて、計算されるデータ及びその計算されるデータに対する全ての計算動作を決定し、その計算動作の数や種類に応じて、データ処理タスクを複数のデータ処理サブタスクに分割することができる。例えば、一つのデータ処理タスクを９段階の計算動作に分け、第１～３項の計算動作を第１のデータ処理サブタスクとし、第４～６項の計算動作を第２のデータ処理サブタスクとし、第７～９項の計算動作を第３のデータ処理サブタスクとしてもよい。さらに例えば、１つのデータ処理タスクには形態素解析、意味解析、ハッシュマッピングの３種類の計算動作が含まれ、形態素解析の全てを第４のデータ処理サブタスクとし、構文解析の全てを第５のデータ処理サブタスクとし、ハッシュマッピングの全てを第６のデータ処理サブタスクとしてもよい。

複数のデータ処理サブタスクを得た後、各データ処理サブタスクの対応するファームウェアを生成して、対応するＦＰＧＡ加速カードにバースト記録することができ、ＦＰＧＡ加速カードは、ファームウェアを実行することにより対応するデータ処理動作を実行する。

ステップＳ１０２：前記ＦＰＧＡ加速側において各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定する。

ここで、ＦＰＧＡ加速側には複数のＦＰＧＡ加速カードが含まれてもよく、本実施形態では、データ処理サブタスクのサブタスク数に基づいてＦＰＧＡ加速側から同じ数のＦＰＧＡ加速カードを選択することができる。ターゲットＦＰＧＡ加速カードを決定した後、各ターゲットＦＰＧＡ加速カードとデータ処理サブタスクとの間の対応関係も決定し、当該対応関係に基づいてデータ処理サブタスクを対応するターゲットＦＰＧＡ加速カードに転送してもよく、すなわち、データ処理サブタスクに対応するファームウェアを、対応するターゲットＦＰＧＡ加速カードにバースト記録してもよい。

ステップＳ１０３：計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得する。

ここで、本実施形態では、データ処理タスクに基づいて対応する計算されるデータを決定し、計算されるデータをターゲットＦＰＧＡ加速カードに転送することができる。ターゲットＦＰＧＡ加速カードがデータ処理サブタスクを実行する際のソースデータは、計算されるデータであってもよいし、他のＦＰＧＡ加速カードの中間計算結果であってもよいし、計算されるデータと中間計算結果であってもよい。各ターゲット加速カードが対応するデータ処理サブタスクを実行することで得られるデータ処理結果には中間計算データ、又は前記データ処理タスクの最終処理結果が含まれてもよく、各前記データ処理サブタスクのソースデータには前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送される。

実行可能な実施形態として、計算されるデータをターゲットＦＰＧＡ加速カードに転送した後、計算されるデータのデータアドレス及びデータ長さを、前記ターゲットＦＰＧＡ加速カードが前記データアドレス及び前記データ長さに従って前記計算されるデータを格納するように、ターゲットＦＰＧＡ加速カードに設定してもよい。上述の実施形態において、ホスト側が計算されるデータのデータアドレスとデータ長さをターゲットターゲットＦＰＧＡ加速カードに転送することで、ターゲットＦＰＧＡ加速カードにデータアドレスとデータ長さに従って計算されるデータを格納させることができる。

別の実行可能な実施形態として、ホスト側は計算結果格納アドレスをターゲットＦＰＧＡ加速カードに設定することもでき、これにより、ターゲットＦＰＧＡ加速カードは中間計算データ及び/又は前記最終処理結果を計算結果格納アドレスに格納する。上述の実施形態において、ホスト側がターゲットＦＰＧＡ加速カードに計算結果格納アドレスを転送することにより、ターゲットＦＰＧＡ加速カードは当該計算結果格納アドレスに基づいて中間計算データ及び/又は最終処理結果を格納し、他のターゲットＦＰＧＡ加速カードは計算結果格納アドレスに基づいて中間計算データを読み取ることができ、ホスト側は計算結果格納アドレスに基づいて最終処理結果を読み取ることができる。

ターゲットＦＰＧＡ加速カードがネットワークを介して他のターゲットＦＰＧＡ加速カードに中間計算データを転送する場合に、前記他のターゲットＦＰＧＡ加速カードに前記中間計算データのデータアドレスとデータ長さとを転送することにより、前記他のターゲットＦＰＧＡ加速カードが前記中間計算データのデータアドレスとデータ長さとに従って前記中間計算データを格納してもよい。具体的には、ターゲットＦＰＧＡ加速カード同士の間ではＭＡＣインターフェースを介して中間計算データを転送することができ、ホスト側と前記ターゲットＦＰＧＡ加速カードとの間ではＰＣＩＥインターフェースを介して最終処理結果及び/又は計算されるデータを転送し、遠端装置とターゲットＦＰＧＡ加速カードとの間ではＭＡＣインターフェースを介してデータを転送する。

本実施形態では、まず、データ処理タスクを複数のデータ処理サブタスクに分割し、ＦＰＧＡ加速側において各データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定し、ターゲットＦＰＧＡ加速カードを用いて対応するデータ処理サブタスクを実行する。ターゲットＦＰＧＡ加速カードがデータ処理サブタスクを処理する際には、他のターゲットＦＰＧＡ加速カードのデータ処理結果を入力データとしてもよいし、自身が計算したデータ処理結果を他のターゲットＦＰＧＡ加速カードに転送してもよい。データ処理結果は、一旦ホスト側に転送してからホスト側を介して転送するのではなく、ＦＰＧＡ加速カード間でネットワークを介して転送する。このように、本実施形態は、ＦＰＧＡ加速側におけるＦＰＧＡ加速カードの数がホストコンピュータインターフェースの物理的な制限を回避することができ、データ処理効率を向上させることができる。

図２を参照すると、図２は本発明の実施形態によるデータ処理サブタスクの割当方法のフローチャートであり、本実施形態では、図1の対応する実施形態におけるデータ処理サブタスクを決定した後のさらなる説明であり、本実施形態を図1の対応する実施形態と組み合わせることでさらなる実施形態を得てもよく、本実施形態は以下のステップを含んでもよい。

ステップＳ２０１：全ての前記ターゲットＦＰＧＡ加速カードから第１のターゲットＦＰＧＡ加速カードを選択する。

ステップＳ２０２：全ての前記データ処理サブタスク及びタスク割当情報を前記第１のターゲットＦＰＧＡ加速カードに転送する。

ステップＳ２０３：前記第１のターゲットＦＰＧＡ加速カードを用いて、前記タスク割当情報により前記データ処理サブタスクを対応するターゲットＦＰＧＡ加速カードに転送する。

ここで、本実施形態の実行主体は、ＦＰＧＡ加速側に接続されたホスト側であってもよく、全ての選択されたターゲットＦＰＧＡ加速カードから第1のターゲットＦＰＧＡ加速カードを決定し、第1のターゲットＦＰＧＡ加速カードに全てのデータ処理サブタスクを転送するようにしてもよい。ホスト側は、データ処理サブタスクの全てを第1のターゲットＦＰＧＡ加速カードに転送すると同時に、タスク割当情報も第1のターゲットＦＰＧＡ加速カードに転送する。タスク割当情報にはデータ処理サブタスクとターゲットＦＰＧＡ加速カードとの対応関係が記憶されており、第1のターゲットＦＰＧＡ加速カードは、この対応関係を用いて、対応するターゲットＦＰＧＡ加速カードに前記データ処理サブタスクを転送することができる。

もちろん、図２の実施形態において説明した一つのターゲットＦＰＧＡ加速カードを用いてデータ処理サブタスクの全てを割り当てることに加え、ホスト側は、各ターゲットＦＰＧＡ加速カードにそれぞれの対応するデータ処理サブタスクを転送することもできる。一実行可能な実施形態として、ホスト側は、ストリーミング又は一括パケットの転送方法を用いて対応するデータ処理サブタスクをＦＰＧＡ加速カードに転送し得る。

図３を参照すると、図３は、本発明の実施形態による計算されるデータの転送方法のフローチャートであり、本実施形態は、図１の対応する実施形態のステップＳ１０３に対するさらなる説明であり、本実施形態と図1の対応する実施形態を組み合わせることでさらなる実施形態を得てもよく、本実施例は以下のステップを含んでもよい。

ステップＳ３０１：全ての前記ターゲットＦＰＧＡ加速カードから第２のターゲットＦＰＧＡ加速カードを選択する。

ステップＳ３０２：全ての前記計算されるデータ及びデータ割当情報を前記第２のターゲットＦＰＧＡ加速カードに転送し、
ところで、前記データ割当情報には前記計算されるデータと前記ターゲットＦＰＧＡ加速カードとの対応関係が含まれる。

ステップＳ３０３：前記第２のターゲットＦＰＧＡ加速カードを用いて、前記データ割当情報により前記計算されるデータを対応するＦＰＧＡ加速カードに転送する。

ここで、本実施形態の実行主体は、ＦＰＧＡ加速側に接続されたホスト側であってもよく、全ての選択されたターゲットＦＰＧＡ加速カードから第２のターゲットＦＰＧＡ加速カードを決定し、第２のターゲットＦＰＧＡ加速カードに全ての計算されるデータを転送するようにしてもよい。ホスト側は、データ処理サブタスクの全てを第２のターゲットＦＰＧＡ加速カードに転送すると同時に、データ割当情報も第１のターゲットＦＰＧＡ加速カードに転送する。データ割当情報には、各計算されるデータとターゲットＦＰＧＡ加速カードとの対応関係が記憶されており、第２のターゲットＦＰＧＡ加速カードは、この対応関係を用いて、対応するターゲットＦＰＧＡ加速カードに計算されるデータを転送することができる。一実行可能な実施形態として、ホスト側は、カスタムＲＤＭＡ（ＲｅｍｏｔｅＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）である転送方法で対応する計算されるデータを前記ターゲット加速カードに転送することができる。

さらに、前記ホスト側及び前記ターゲットＦＰＧＡ加速カードがローカルエリアネットワーク内の装置である場合、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間の計算されるデータ及び／又は最終処理結果などの通信データは、ＭＡＣ層においてパケット化を完了する。前記ホスト側及び前記ターゲットＦＰＧＡ加速カードがパブリックネットワーク内の装置である場合、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間の計算されるデータ及び／又は最終処理結果などの通信データは、ＵＤＰ（ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ）のｐａｙｌｏａｄ層においてパケット化を完了し、前記ターゲットＦＰＧＡ加速カードの間の計算されるデータ及び／又は最終処理結果などの通信データは、ＤＰのｐａｙｌｏａｄ層においてパケット化を完了する。ここで、ｐａｙｌｏａｄ層とはユーザデータグラムプロトコルのペイロード層を指し、ペイロードとはデータ転送において転送が必要な情報を指す。

図４を参照すると、図４は本発明の実施形態による再構成可能なデータセンターの構成であり、再構成可能なデータセンターは、ホスト側とＦＰＧＡキャビネット（すなわち、ＦＰＧＡ加速側）とを含む。本実施形態に開示された再構成可能なデータセンターは、ネットワークを介してＦＰＧＡリソースをプールし、ＦＰＧＡ加速カード間はネットワーク（１０Ｇネットワーク、４０Ｇネットワーク又は１００Ｇネットワーク）を介して接続され、一方では、カード結合の形式を維持し、すなわち、一台のサーバーに、一枚又は複数枚のＦＰＧＡ加速器を搭載し、他方では、ＢＯＸＯＦＦＰＧＡ（ＦＰＧＡキャビネット）モードを導入する。ＦＰＧＡキャビネット内のさまざまなタイプのＦＰＧＡ加速カード（Ｉｎｔｅｌチップ及びＸｉｌｉｎｘチップを含んでもよい）が、ネットワークを介してデータのやりとりをする。ＦＰＧＡキャビネット内のＦＰＧＡ加速カードとホスト側に設定されたＦＰＧＡ加速カードもネットワークを介して相互に接続されている。以上のように、ＦＰＧＡとＣＰＵの密結合を切り離すことで、通信データはホスト側のＣＰＵを介して転送されることなく、ＭＡＣ層やＵＤＰ層以上の軽量で高信頼なプロトコルを用いて転送されるため、システムスループット遅延が低減される。図４の光モジュールは、光ファイバインタフェースモジュールである。

図４に示す再構成可能なデータセンターは、下記の特徴がある。ホスト側のＣＰＵ、ホスト側におけるＦＰＧＡ加速カード、及びＦＰＧＡキャビネットにおけるＦＰＧＡ加速カードが協働する。ホスト側のＣＰＵは論理処理を担当し、ＦＰＧＡキャビネットのＦＰＧＡ加速カードは通信集約及び計算集約型タスクを担当する。再構成可能なデータセンターでは、ネットワークを介して記憶リソースを共有し、ノード間で分散トポロジを採用する。再構成可能な装置に関連する論理機能は、分散的にロードされ、標準的なイーサネットインターフェース及びプロトコルをサポートする。

従来のＣＰＵ分散型プラットフォームでのタスク分割とスケジューリング、ソフトウェアパイプライン構成及びデータ通信などの処理方法は、再構成可能なデータセンターに直接適用することができず、再構成可能なデータセンターにおける異種計算リソースの並列構成及び再構成可能な特性に対し、データフローのプログラミングを基礎として、本発明が提供する再構成可能なデータセンター向けの分散型データフロープログラミングフレームワークは、分散型並列プログラミングインターフェースを提供し、再構成可能な装置への計算タスクのマッピングを完成する。分散型データフロープログラミングフレームワークは、ＣＰＵ加速スタック、ＦＰＧＡ加速スタックおよびマッピングモデルからなる。

ＣＰＵ加速スタックは、並列タスクモデルの分割、スケジューリングのためのＨＯＳＴ側プログラミングインターフェース(ＡＰＩ)を提供し、軽量で高信頼性のプロトコルモジュール、再分割可能なデータセンターのメモリ管理モジュール、ＦＰＧＡ加速器の駆動ジュールを含む基礎的なサポートを提供する。

ＦＰＧＡ加速スタックは、具体的な計算タスクを実現するために、加速データ制御、ｋｅｒｎｅｌ制御などのＩＰを提供する。ＦＰＧＡＩＰは、ＨＯＳＴ側ＡＰＩが提供可能な機能に対して全く同じインターフェースを提供する。これにより、統一された分散型マルチエンジン加速スタックを実現する。マルチエンジン加速スタックは、上記インターフェースを介して、主にＦＰＧＡに対するリモートロード及び更新、ＦＰＧＡ上のアルゴリズムアプリケーションへのオフロードのロード、アルゴリズムパラメータのロード、データ転送経路の制御、アプリケーションの起動停止などを実現し、ＦＰＧＡクラウドプラットフォームの各命令に対する制御を完了する。ＦＰＧＡ加速スタックは、ホスト側プログラミングインターフェースに対応する加速インターフェースを提供してもよく、データ処理サブタスクを実行するときに加速データ制御プログラム及びｋｅｒｎｅｌ制御プログラムを提供してもよい。ＦＰＧＡカードがデータ処理サブタスクを実行するとき、ＦＰＧＡ加速スタックは、ＦＰＧＡカードが処理の必要な元のデータを取得し、データ処理結果を特定の領域に格納するように、加速データ制御プログラムを用いてデータの割当及び搬送を実現することができる。Ｋｅｒｎｅｌ制御プログラムとは、ＦＰＧＡカードのカーネル制御プログラムを指し、ＦＰＧＡ加速スタックは、Ｋｅｒｎｅｌ制御プログラムを用いて元のデータの計算を行うことにより対応するデータ処理結果を得ることができる。前記分散型データフロープログラミングフレームワークが機能する場合、ＣＰＵ加速スタックは、データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において、各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定し、前記ターゲットＦＰＧＡ加速カードに計算されるデータを転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには前記計算されるデータ及び／又は前記中間計算データが含まれ、前記中間計算データは前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送される。ＦＰＧＡ加速スタックは、前記ＣＰＵ加速スタックから割当されたデータ処理サブタスクを実行し、さらに、データ処理結果を前記ＣＰＵ加速スタック又は他のターゲットＦＰＧＡ加速カードに転送するように構成された静的領域と、ローカル加速ユニット又は他のターゲットＦＰＧＡ加速カードの加速ユニットに前記データ処理サブタスクを転送し、加速計算動作を行うように構成されたＦＰＧＡ加速エンジンと、を備える。

図５を参照すると、図５は、本発明の実施形態による再構成可能なデータセンターの加速フレームワーク図である。図５におけるＦＰＧＡ加速器は本明細書で言及されるＦＰＧＡ加速カードである。ＦＰＧＡ分散型異種システムは、ユーザの要求に応じて論理サブネットの分割を実行することができ、サブネット全体は、複数の計算タスクノードから構成され、ノード間は、カスタマイズされた高信頼で軽量の転送プロトコルによって、サーバノードとＦＰＧＡ加速ユニットとの間、ＦＰＧＡノードとＦＰＧＡノードとの間のデータ転送、制御命令の通信を可能にする。各計算タスクは、サーバノード上で動作する論理制御モジュールと、ＦＰＧＡ上で動作する加速計算モジュールとを含む。サーバノードの論理制御モジュールは、拡張可能な分散型プログラミングフレームワークによって提供されるＦＰＧＡクラウドプラットフォームの関数ライブラリを用いて実現され、ＦＰＧＡ上で動作する加速計算モジュールは、ＲＴＬを用いて実現され、分散型プログラミングフレームワークによって提供されるＩＰ層制御インターフェースを用いて、再構成可能なデータセンターの並列計算タスクを完了する。図５において、ＮＩＣはネットワークカードであり、ＵｓｅｒＡｐｐｌｉｃａｔｉｏｎはユーザアプリケーションであり、ＰＣＩｅ（ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）は高速直列コンピュータ拡張バスの規格であり、ＭＡＣ（ＭｅｄｉｕｍＡｃｃｅｓｓＣｏｎｔｒｏｌ）は媒体アクセス制御プロトコルであり、ＫＥＲＮＥＬはＦＰＧＡ加速カードのカーネルであり、ＦＰＧＡＯＦＢＯＸは複数のＦＰＧＡ加速カードが設置されたＦＰＧＡ加速側であり、ＤａｔａＦｌｏｗはＦＰＧＡ加速カード間のデータ転送のプロセスであり、ＣｏｎｔｒｏｌＦｌｏｗはＦＰＧＡ加速側の各ＦＰＧＡ加速カードに対する制御フローであり、Ｓｗｉｔｃｈはコンバータである。

図６は、本発明の実施形態によるＣＰＵ加速スタックの構成の模式図である。ＣＰＵ加速スタックは、基盤ＦＰＧＡ加速器駆動モジュール、ＲＤＣＳＤＫ（ＲｅｃｏｎｆｉｇｕｒａｂｌｅＤａｔａＣｅｎｔｅｒＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、すなわち、再構成可能なデータセンターのソフトウェア開発キット）、認証管理モジュール、メモリ管理層、ストリームテーブルマッチング層、加速データ管理モジュール、加速制御管理モジュール、ＲＬＴＬ（ＲｅｌａｙＬａｙｅｒ－ＴｒａｎｓｆｅｒＬａｙｅｒ、すなわち、中継層と転送層）プロトコルサポート層に分けられる。ユーザは、ＲＤＣＳＤＫ（再構成可能なデータセンターのソフトウェア開発キット）を通じて、アプリケーションデータの移転、Ｋｅｒｎｅｌの更新、および動作監視などのタスクを完了することができる。認証管理モジュールは、主にユーザの要求に応じてＦＰＧＡベースのワークグループ管理および権限付与機構を実行し、チップＩＤベースのセキュリティチェック機構を実行し、ユーザネットリスト／ＢＩＴ文書の安全性を高める。ストリームテーブルマッチングモジュールは、主にプロトコルに基づいて関連コンテンツを解析し、関連機能モデルにマッチングさせる。加速データと制御管理モジュールは、主に制御フローおよびデータフローの管理を実行する。

表１を参照すると、表１は、再構成可能なデータセンターのソフトウェア開発キットのインターフェース機能説明表であり、現在のＳＤＫは、ユーザによるＤＤＲ（ＤｏｕｂｌｅＤａｔａＲａｔｅ）メモリの指定アドレスへのデータ移転、ＲＤＭＡ（ＲｅｍｏｔｅＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）を用いたデータ移転、ＰＲ（オペレーティングシステムコマンドの一種）ロードの実行、およびＫｅｒｎｅｌパラメータの設定などをサポートする。

図７を参照すると、図７は、本発明の実施形態によるＦＰＧＡ加速スタック機能の構成図であり、図７において、Ｍａｔｃｈエンジンはマッチングエンジンを指し、データフロー割当を行うことに用いられ、Ａｃｔｉｏｎｓは、ＦＰＧＡ加速スタックの制御動作を指し、ＲＤＭＡ（ＲｅｍｏｔｅＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）は、遠隔直接データアクセスを指し、プールＫＥＹは、プールの鍵を指し、ＰＲロードは、オペレーティングシステム命令のロードを指し、ＦＬＡＳＨ（登録商標）は、フラッシュメモリを指し、ｖＦＰＧＡは、ユーザ加速エンジンを指す。前記ＦＰＧＡ加速カードの加速スタックは、データ計算命令を実行し、ホスト側と情報をやりとりし、物理インターフェースを提供するための静的領域と、加速計算動作を実行するように、加速ユニットに前記計算されるデータを転送するためのＦＰＧＡ加速エンジンと、を含む。前記ＦＰＧＡ加速エンジンは、ＰＣＩＥインターフェースを介してローカルな加速計算操作のために前記計算されるデータを転送するように構成され、ＰＣＩＥインターフェース及びＭＡＣインターフェースを介して計算されるデータを送信することにより、遠隔の加速計算動作を実行するようにさらに構成される。前記静的領域は、ターゲットのバスを介して前記ＦＰＧＡ加速エンジンとデータをやりとりする。そのうち、ターゲットのバスは、ＢＵＳＡ、ＢＵＳＣ、ＢＵＳＤ及びＢＵＳＥのうちのいずれか１つのバス又は複数のバスの組み合わせを含む。

ＦＰＧＡ加速スタックは、静的領域及びユーザアプリケーション加速エンジンからなる。静的部分は、制御面とデータ面の２つの部分を含む。制御面は、主にホストと連携してルーティング、フロー制御、認証などの管理機能を実行し、ホストから発行された制御命令を実行し、ＦＰＧＡのローカルな情報を報告し、ホストとのやりとり処理を実行する。データ面は、主に１０／１００ＧＭＡＣおよびＰＣＩＥパスなどを含む様々な種類の物理インターフェースである。

具体的には、ＦＰＧＡ加速エンジンは、ＰＣＩＥインターフェースを介して加速ユニットに送信することによりローカル加速をしてもよく、ＰＣＩＥ－＞ＭＡＣインターフェースを介して他のカードに出力することにより遠隔加速してもよく、動的再構成可能加速ユニットは、ＰＲ技術を通じて遠隔動的再構成を実行することができ、ルーティング転送モジュールの転送経路表ソフトウェアは、設定可能であり、ＦＰＧＡ内部で経路転送表をルックアップすることにより、ルーティングを実施することができる。

図８を参照すると、図８は本発明の実施形態によるＦＰＧＡ加速スタックのフレームワーク図であり、表２はファイバーインターフェース機能表であり、表２に示される静的領域とユーザアプリケーションの加速エンジンはＢＵＳＡ、ＢＵＳＢ、ＢＵＳＣ、ＢＵＳＤ、ＢＵＳＥバスを介してやりとりをする。表２において、ＦＩＭはＦＰＧＡＩｎｔｅｒｆａｃｅＭａｎａｇｅｒ（ＦＰＧＡインターフェース管理）を指す。

次に、上記実施形態で説明した流れを、実際的な適用例を用いて具体的に説明する。図９を参照すると、図９は、本発明の実施形態によるＦＰＧＡクラウドプラットフォームの計算原理の模式図である。

この適用例では、ユーザによって使用されるＨＯＳＴ側を含み、ユーザに割り当てられたＦＰＧＡクラウドプラットフォームの４枚のカードは、それぞれＦＰＧＡ加速カード１（以下、ＦＰＧＡ１と略称する）、ＦＰＧＡ加速カード２（以下、ＦＰＧＡ２と略称する)、FPGA加速カード３（以下、ＦＰＧＡ３と略称する）、及びＦＰＧＡ加速カード４（以下、ＦＰＧＡ４と略称する）である。

各ＦＰＧＡ加速カードにおけるＫｅｒｎｅｌの主な機能：Ｋｅｒｎｅｌ１は、ＨＯＳＴ側から転送されたデータａ、ｂをそれぞれ＋１及び＋２のように動作する；Ｋｅｒｎｅｌ２は、ａ＋１の結果を、ＨＯＳＴ側からＦＰＧＡ２に転送されたデータｃと加算又は減算又は乗算又は除算する；Ｋｅｒｎｅｌ３はｂ＋２の結果を、ＨＯＳＴからＦＰＧＡ３に転送されたデータｄと加算又は減算又は乗算又は除算する。Ｋｅｒｎｅｌ４は、Ｋｅｒｎｅｌ２とＫｅｒｎｅｌ３の出力を乗算し、その結果をＨＯＳＴ側に転送する。

本実施形態の例示的な機能流れ：ＨＯＳＴ側は標準ネットワークカードを介してＦＰＧＡ１にデータａ及びｂを転送する。Ｋｅｒｎｅｌ１はａを１加算し、ｂを２加算し、ａ＋１の結果をＦＰＧＡ２に転送し、ｂ＋１の結果をＦＰＧＡ３に転送する。ＨＯＳＴ側はＦＰＧＡ２とＦＰＧＡ３にそれぞれデータｃ、ｄを転送し、Ｋｅｒｎｅｌ２は（ａ＋１）とｃとを計算し（＋－＊／選択可能）、Ｋｅｒｎｅｌ３は（ｂ＋２）とｄとを計算し（＋－＊／選択可能）、計算結果をＦＰＧＡ４に転送する。Ｋｅｒｎｅｌ４は、結果を乗算し、結果をＨＯＳＴ側の要求に応じてローカルに記憶し、ＨＯＳＴは演算結果をＨＯＳＴ側に転送する。

図９の対応する実施形態におけるＦＰＧＡ加速カードの計算流れは、以下の通りである。

ステップ１、ＨＯＳＴは、Ｋｅｒｎｅｌ１をＦＰＧＡ１にストリーミング方法でロードする。
標準インターフェース：ｉｃｆＣｒｅａｔｅＰｒｏｇｒａｍＴｏＦＰＧＡ（）。
ステップ２、ＨＯＳＴは、Ｋｅｒｎｅｌ２、Ｋｅｒｎｅｌ３、Ｋｅｒｎｅｌ４のａｏｃｘファイルをそれぞれＦＰＧＡ２に移す。
標準インターフェース：ｉｃｆＴｒａｎｓｔｅｒＤａｔａＲＤＭＡ（）。
ステップ３、ＨＯＳＴは、Ｋｅｒｎｅｌｉｆ２をＦＰＧＡ２にロードするための命令をＦＰＧＡ２に送信する。
標準インターフェース：ｉｃｆＬｏａｄＰｒｏｇｒａｍＴｏＦＰＧＡ（）。
ステップ４、ＦＰＧＡ２は、Ｋｅｒｎｅｌ１をストリーミング方法でＦＰＧＡ３にロードする。
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供されるインターフェース；
ステップ５、ＦＰＧＡ２は、Ｋｅｒｎｅｌ４のａｏｃｘファイルをＦＰＧＡ２に移す；
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供されるインターフェース；
ステップ６、ＦＰＧＡ２は、ＦＰＧＡ４にＫｅｒｎｅｌ４をロードするための命令をＦＰＧＡ４に送信する；
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供されるインターフェース；
ここで、ステップ１からステップ６はＦＰＧＡＫｅｒｎｅｌのロード過程であり、ＨＯＳＴ側からロードを行うこと（ステップ１～３はＨＯＳＴ側コードである）及びＦＰＧＡ側とロードを行うこと（ステップ４～６はＦＰＧＡ２エンジニアリングである）を含む。
ステップ７、ＨＯＳＴは、ＲＤＭＡの方法でデータＡをＦＰＧＡ１に移す；
標準インターフェース：ｉｃｆＴｒａｎｓｔｅｒＤａｔａＲＤＭＡ（）；
ステップ８、ＨＯＳＴは、直接転送の方法でデータＢをＦＰＧＡ１に移す；
標準インターフェース：ｉｃｆＴｒａｎｓｔｅｒＤａｔａ（）；
ステップ９、ＨＯＳＴは、ＡのＦＰＧＡにおけるアドレス及びデータ長さをＦＰＧＡ１に設定する；
標準インターフェース：ｉｃｆＣｏｎｆｉｇＫｅｒｎｅｌＰａｒａｍ（）；
ステップ１０、ＨＯＳＴは、ＢのＦＰＧＡ１におけるアドレス及びデータ長さをＦＰＧＡ１に設定する；
標準インターフェース：ｉｃｆＣｏｎｆｉｇＫｅｒｎｅｌＰａｒａｍ（）；
ステップ１１、ＨＯＳＴは、ｋｅｒｎｅｌ１－１の計算結果Ａ１格納アドレスをＦＰＧＡ１に設定する；
標準インターフェース：ｉｃｆＣｏｎｆｉｇＫｅｒｎｅｌＲｅｔｕｒｎ（）；
ステップ１２、ＨＯＳＴは、ｋｅｒｎｅｌ１－２の計算結果Ａ２格納アドレスをＦＰＧＡ１に設定する；
標準インターフェース：ｉｃｆＣｏｎｆｉｇＫｅｒｎｅｌＲｅｔｕｒｎ（）；
ステップ１３、ＨＯＳＴ側は、ｋｅｒｎｅｌ１－１を起動する；
標準インターフェース：ｉｃｆＳｔａｒｔＫｅｒｎｅｌ（）；
ステップ１４、ＨＯＳＴ側は、ｋｅｒｎｅｌ１－２を起動する；
標準インターフェース：ｉｃｆＳｔａｒｔＫｅｒｎｅｌ（）；
このうち、ステップ７からステップ１４は、ＨＯＳＴ側コードがソフトウェアアプリケーション層インターフェースを用いてＦＰＧＡ１とのやりとりを実現するためのものであり、ＦＰＧＡ１を制御してｋｅｒｎｅｌを起動する。
ステップ１５、ＦＰＧＡ１は、Ａ１をＲＤＭＡの方法でＦＰＧＡ２に移す；
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供される；
ステップ１６、ＨＯＳＴは、ＲＤＭＡの方法でデータｃをＦＰＧＡ２に移す；
標準インターフェース：ｉｃｆＴｒａｎｓｔｅｒＤａｔａＲＤＭＡ（）；
ステップ１７、ＦＰＧＡ１は、Ａ１のＦＰＧＡ２におけるアドレス及びデータ長さをＦＰＧＡ２に設定する；
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供される；
ステップ１８、ＨＯＳＴは、ｃのＦＰＧＡ２におけるアドレス及びデータ長さをＦＰＧＡ２に設定する；
標準インターフェース：ｉｃｆＣｏｎｆｉｇＫｅｒｎｅｌＰａｒａｍ（）；
ステップ１９、ＦＰＧＡ１は、ｋｅｒｎｅｌ２の計算結果Ａ２格納アドレスをＦＰＧＡ２に設定する；
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供される；
ステップ２０、ＦＰＧＡ１は、ＦＰＧＡ２のｋｅｒｎｅｌ２を起動してパラメータＡ１、ｃを転送する；
標準インターフェース：ＦＰＧＡＩＰｃｏｒｅから提供される；
このうち、ステップ１５からステップ２０は、ＦＰＧＡ１及びＨＯＳＴがそれらの提供されるインターフェースを用いることによりＦＰＧＡ２とのやりとりを行い、ＦＰＧＡ１によりＦＰＧＡ２を制御してｋｅｒｎｅｌを起動する。
ステップ２１、ＦＰＧＡ１は、直接転送の方法でＢ１をＦＰＧＡ３に移す；
ステップ２２、ＨＯＳＴは、直接転送の方法でデータｄをＦＰＧＡ３に移す；
ステップ２３、ＦＰＧＡ１は、Ｂ１のＦＰＧＡ３におけるアドレス及びデータ長さをＦＰＧＡ３に設定する；
ステップ２４、ＨＯＳＴは、ｄのＦＰＧＡ３におけるアドレス及びデータ長さをＦＰＧＡ３に設定する；
ステップ２５、ＦＰＧＡ１は、ｋｅｒｎｅｌ３の計算結果Ｂ２格納アドレスをＦＰＧＡ３に設定する；
ステップ２６、ＦＰＧＡ１は、ＦＰＧＡ３のｋｅｒｎｅｌ３を起動してパラメータＢ１、ｄを転送する；
このうち、ステップ２１からステップ２６までは、ＦＰＧＡ１及びＨＯＳＴがそれらの提供されるインターフェースを用いることによりＦＰＧＡ３とのやりとりを行い、ＦＰＧＡ１によりＦＰＧＡ３を制御してｋｅｒｎｅｌを起動する。
ステップ２７、ＦＰＧＡ２は、ＲＤＭＡの方法でＡ２をＦＰＧＡ４に移す；
ステップ２８、ＦＰＧＡ３は、直接転送の方法でＢ２をＦＰＧＡ４に移す；
ステップ２９、ＦＰＧＡ２は、Ａ２のＦＰＧＡ４におけるアドレス及びデータ長さをＦＰＧＡ４に設定する；
ステップ３０、ＦＰＧＡ３は、Ｂ２のＦＰＧＡ４におけるアドレス及びデータ長さをＦＰＧＡ４に設定する；
ステップ３１、ＦＰＧＡ２は、ｋｅｒｎｅｌ４の計算結果ＡＢ３格納アドレスをＦＰＧＡ４に設定する；
ステップ３２、ＦＰＧＡ２は、ＦＰＧＡ４のｋｅｒｎｅｌ４を起動してパラメータＡ２、Ｂ２を転送する；
このうち、ステップ２７からステップ３２までは、ＦＰＧＡ２及びＦＰＧＡ３がそれらの提供されるインターフェースを用いることによりＦＰＧＡ４とのインタラクションを行い、ＦＰＧＡ２によりＦＰＧＡ４を制御してｋｅｒｎｅｌを起動する。
ステップ３３、ＦＰＧＡ４は、ＦＰＧＡ３のｋｅｒｎｅｌ３を起動してパラメータＢ１、ｄを転送する。

本発明の実施形態では、データ処理装置がさらに提供され、複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速カード側に接続され、前記ＦＰＧＡ加速カード間がネットワークを介して接続されたデータ処理装置であって、
データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において、各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定するように構成されたタスク割当モジュールと、
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されるように構成されたタスク実行モジュールと、を備える。

本実施形態は、まず、データ処理タスクを複数のデータ処理サブタスクに分割し、ＦＰＧＡ加速側において各データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定し、ターゲットＦＰＧＡ加速カードを用いて対応するデータ処理サブタスクを実行する。ターゲットＦＰＧＡ加速カードがデータ処理サブタスクを処理する際には、他のターゲットＦＰＧＡ加速カードのデータ処理結果を入力データとしてもよいし、自身が計算したデータ処理結果を他のターゲットＦＰＧＡ加速カードに転送してもよい。データ処理結果は、一旦ホスト側に転送してからホスト側を介して転送するのではなく、ＦＰＧＡ加速カード同士の間でネットワークを介して転送する。このように、本実施形態は、ＦＰＧＡ加速側におけるＦＰＧＡ加速カードの数がホストコンピュータインターフェースの物理的な制限を回避することができ、データ処理効率を向上させることができる。

装置部分に係わる実施形態は、方法部分に係わる実施形態に対応するため、装置部分に係わる実施形態は、方法部分に係わる実施形態の説明を参照し、ここではその説明を省略する。

本発明は、コンピュータプログラムが記憶されている記憶媒体をさらに提供し、このコンピュータプログラムの記憶媒体が実行されると、上述の実施形態の各ステップを実施することができる。この記憶媒体は、Ｕ－ディスク、ポータブルハードディスク、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、磁気ディスク、光ディスクなど、種々のプログラムコードを記憶できる媒体を含んでもよい。

本発明は、メモリとプロセッサとを含む電子装置をさらに提供し、そのメモリには、コンピュータプログラムが記憶されており、前記コンピュータプログラムが前記プロセッサによって実行されると、上述の実施形態の各ステップを実施することができる。もちろん、その電子装置は、各種のネットワークインターフェースや電源等を備えていてもよい。

本明細書における様々な実施形態は、逐次的な方法で説明され、各実施形態は、他の実施形態との相違点を中心に説明され、様々な実施形態の同様の部分は、相互に参照され得る。実施形態に開示されたシステムは、実施形態に開示された方法に対応するので、説明が比較的単純であることに関しては、方法の部分の説明を参照すればよい。なお、本発明の原理から逸脱することなく、本発明の特許請求の範囲内に含まれるいくつかの修正および変更を本発明に加えることができることは、当業者には明らかである。

また、本明細書において、第１、第２などの関係用語は、単に１つの実体または動作を他の実体または動作と区別するために使用されるものであり、必ずしもその実体または動作の間にそのような実際の関係または順序が存在することを必要とするものでも、あるいは暗示するものでもない。さらに、「備える」、「含む」、またはそれらの任意の他の変形例は、非排他的な包含をカバーするように意図され、したがって、要素のリストを含むプロセス、方法、品目、または装置は、それらの要素だけでなく、明示的に列挙されていない他の要素も含み、またはそのようなプロセス、方法、品目、または装置に固有の要素も含む。「……を含む」という表現によって定義される要素は、これ以上の限定はないが、その要素を含むプロセス、方法、物品、又は装置内に、同じ要素が追加で存在することを除外しない。

Claims

ホスト側に適用され、前記ホスト側が複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速側に接続され、前記ＦＰＧＡ加速カード間がネットワークを介して接続されたデータ処理方法であって、
データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定するステップと、
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、各前記ターゲットＦＰＧＡ加速カード自身が計算した中間結果データとなる中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されるステップと、
を含み、
前記ホスト側及び前記ＦＰＧＡ加速側は、再構成可能なデータセンターの構成部分であり、前記再構成可能なデータセンターの分散型データフロープログラミングフレームワークは、ＣＰＵ加速スタック及びＦＰＧＡ加速スタックを含み、
前記ＣＰＵ加速スタックは、データ処理タスクの分割のための基礎となるサポートを提供し、さらに、データ処理サブタスクのスケジューリングのためのホスト側プログラミングインターフェースを提供するように構成され、ところで、前記ＣＰＵ加速スタックは、再構成可能なデータセンターのソフトウェア開発キットを含み、前記ソフトウェア開発キットは、ユーザによるカードＤＤＲアドレスの指定のインターフェース、ＲＤＭＡの転移のためのインターフェース、ＰＲをストリーミングの方法でＦＰＧＡへのロードのためのインターフェース、ＰＲをＦＰＧＡへのロードのための指令インターフェース、Ｆｌａｓｈへのロードのための指令インターフェース、ｋｅｒｎｅｌパラメータの設定のためのインターフェース、ｋｅｒｎｅｌリターン値の設定のためのインターフェース、Ｋｅｒｎｅｌの起動のためのインターフェース及びＫｅｒｎｅｌの強制終了のためのインターフェースを含み、
前記ＦＰＧＡ加速スタックは、ホスト側プログラミングインターフェースに対応する加速インターフェースを提供し、さらに、前記データ処理サブタスクを実行する際に加速データ制御プログラム及びｋｅｒｎｅｌ制御プログラムを提供するように構成されることを特徴とする、データ処理方法。
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送するステップの後、
前記計算されるデータのデータアドレス及びデータ長さを、前記ターゲットＦＰＧＡ加速カードが前記データアドレス及び前記データ長さに従って前記計算されるデータを格納するように、前記ターゲットＦＰＧＡ加速カードに設定するステップ、
をさらに含むことを特徴とする、請求項１に記載のデータ処理方法。
前記ターゲットＦＰＧＡ加速カードが中間計算データ及び/又は前記最終処理結果を計算結果格納アドレスに格納するように、前記計算結果格納アドレスを前記ターゲットＦＰＧＡ加速カードに設定するステップ、
をさらに含むことを特徴とする、請求項１に記載のデータ処理方法。
全ての前記ターゲットＦＰＧＡ加速カードから第１のターゲットＦＰＧＡ加速カードを選択するステップと、
全ての前記データ処理サブタスク及びタスク割当情報を前記第１のターゲットＦＰＧＡ加速カードに転送し、ところで、前記タスク割当情報には、前記データ処理サブタスクと前記ターゲットＦＰＧＡ加速カードとの対応関係が含まれるステップと、
前記第１のターゲットＦＰＧＡ加速カードを用いて、前記タスク割当情報により前記データ処理サブタスクを対応するターゲットＦＰＧＡ加速カードに転送するステップと、
をさらに含むことを特徴とする、請求項１に記載のデータ処理方法。
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送するステップは、
全ての前記ターゲットＦＰＧＡ加速カードから第２のターゲットＦＰＧＡ加速カードを選択するステップと、
全ての前記計算されるデータ及びデータ割当情報を前記第２のターゲットＦＰＧＡ加速カードに転送し、ところで、前記データ割当情報には前記計算されるデータと前記ターゲットＦＰＧＡ加速カードとの対応関係が含まれるステップと、
前記第２のターゲットＦＰＧＡ加速カードを用いて、前記データ割当情報により前記計算されるデータを対応するＦＰＧＡ加速カードに転送するステップと、
を含むことを特徴とする、請求項１に記載のデータ処理方法。
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送するステップは、
計算されるデータをカスタムＲＤＭＡ転送方法で前記ターゲットＦＰＧＡ加速カードに転送することを含み、
対応的には、対応するデータ処理サブタスクを所定転送方法で前記ターゲットＦＰＧＡ加速カードに転送し、ところで、前記所定転送方法には、ストリーミング転送又は一括パケット転送が含まれること、
をさらに含むことを特徴とする、請求項1に記載のデータ処理方法。
前記ターゲットＦＰＧＡ加速カードがネットワークを介して前記中間計算データを他のターゲットＦＰＧＡ加速カードに転送する場合、前記中間計算データのデータアドレス及びデータ長さを、前記他のターゲットＦＰＧＡ加速カードが前記中間計算データのデータアドレス及びデータ長さに従って前記中間計算データを格納するように、前記他のターゲットＦＰＧＡ加速カードに転送すること、
をさらに含むこと特徴とする、請求項1に記載のデータ処理方法。
前記ターゲットＦＰＧＡ加速カードの間では、ＭＡＣインターフェースを介してデータを転送し、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間では、ＰＣＩＥインターフェースを介してデータを転送し、遠端装置と前記ターゲットＦＰＧＡ加速カードとの間では、ＭＡＣインターフェースを介してデータを転送することを特徴とする、請求項1に記載のデータ処理方法。
前記ホスト側及び前記ターゲットＦＰＧＡ加速カードがローカルエリアネットワーク内の装置である場合、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間の通信データは、ＭＡＣ層においてパケット化され、
前記ホスト側及び前記ターゲットＦＰＧＡ加速カードがパブリックネットワーク内の装置である場合、前記ホスト側と前記ターゲットＦＰＧＡ加速カードとの間の通信データは、ＵＤＰのｐａｙｌｏａｄ層においてパケット化され、前記ターゲットＦＰＧＡ加速カード間の通信データは、ＵＤＰのｐａｙｌｏａｄ層においてパケット化されることを特徴とする、請求項1に記載のデータ処理方法。
複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速側に接続され、前記ＦＰＧＡ加速カード間がネットワークを介して接続されたデータ処理装置であって、
データ処理タスクを複数のデータ処理サブタスクに分割し、前記ＦＰＧＡ加速側において、各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定するように構成されたタスク割当モジュールと、
計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、各前記ターゲットＦＰＧＡ加速カード自身が計算した中間結果データとなる中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されるように構成されたタスク実行モジュールと、
を備え、
前記データ処理装置は、ホスト側に適用され、前記ホスト側及び前記ＦＰＧＡ加速側は、再構成可能なデータセンターの構成部分であり、前記再構成可能なデータセンターの分散型データフロープログラミングフレームワークは、ＣＰＵ加速スタック及びＦＰＧＡ加速スタックを含み、
前記ＣＰＵ加速スタックは、データ処理タスクの分割のための基礎となるサポートを提供し、さらに、データ処理サブタスクのスケジューリングのためのホスト側プログラミングインターフェースを提供するように構成され、ところで、前記ＣＰＵ加速スタックは、再構成可能なデータセンターのソフトウェア開発キットを含み、前記ソフトウェア開発キットは、ユーザによるカードＤＤＲアドレスの指定のインターフェース、ＲＤＭＡの転移のためのインターフェース、ＰＲをストリーミングの方法でＦＰＧＡへのロードのためのインターフェース、ＰＲをＦＰＧＡへのロードのための指令インターフェース、Ｆｌａｓｈへのロードのための指令インターフェース、ｋｅｒｎｅｌパラメータの設定のためのインターフェース、ｋｅｒｎｅｌリターン値の設定のためのインターフェース、Ｋｅｒｎｅｌの起動のためのインターフェース、及びＫｅｒｎｅｌの強制終了のためのインターフェースを含み、
前記ＦＰＧＡ加速スタックは、ホスト側プログラミングインターフェースに対応する加速インターフェースを提供し、さらに、前記データ処理サブタスクを実行する際に加速データ制御プログラム及びｋｅｒｎｅｌ制御プログラムを提供するように構成されることを特徴とする、データ処理装置。
ＣＰＵ加速スタック及びＦＰＧＡ加速スタックを含む分散型データフロープログラミングフレームワークであって、
前記ＣＰＵ加速スタックは、データ処理タスクの分割のための基礎となるサポートを提供し、さらに、データ処理サブタスクのスケジューリングのためのホスト側プログラミングインターフェースを提供するように構成され、ところで、前記ＣＰＵ加速スタックは、再構成可能なデータセンターのソフトウェア開発キットを含み、前記ソフトウェア開発キットは、ユーザによるカードＤＤＲアドレスの指定のインターフェース、ＲＤＭＡの転移のためのインターフェース、ＰＲをストリーミングの方法でＦＰＧＡへのロードのためのインターフェース、ＰＲをＦＰＧＡへのロードのための指令インターフェース、Ｆｌａｓｈへのロードのための指令インターフェース、ｋｅｒｎｅｌパラメータの設定のためのインターフェース、ｋｅｒｎｅｌリターン値の設定のためのインターフェース、Ｋｅｒｎｅｌの起動のためのインターフェース、及びＫｅｒｎｅｌの強制終了のためのインターフェースを含み、
前記ＦＰＧＡ加速スタックは、ホスト側プログラミングインターフェースに対応する加速インターフェースを提供し、さらに、前記データ処理サブタスクを実行する際に加速データ制御プログラム及びｋｅｒｎｅｌ制御プログラムを提供するように構成され、
ここで、前記分散型データフロープログラミングフレームワークが機能する場合、前記ＣＰＵ加速スタックは、データ処理タスクを複数のデータ処理サブタスクに分割し、複数のＦＰＧＡ加速カードを有するＦＰＧＡ加速側において、各前記データ処理サブタスクに対応するターゲットＦＰＧＡ加速カードを決定し、計算されるデータを前記ターゲットＦＰＧＡ加速カードに転送し、各前記ターゲットＦＰＧＡ加速カードにより対応するデータ処理サブタスクを実行してデータ処理結果を取得し、ところで、前記データ処理結果には、各前記ターゲットＦＰＧＡ加速カード自身が計算した中間結果データとなる中間計算データ又は前記データ処理タスクの最終処理結果が含まれ、各前記データ処理サブタスクのソースデータには、前記計算されるデータ及び/又は前記中間計算データが含まれ、前記中間計算データは、前記ターゲットＦＰＧＡ加速カード間のネットワークを介して転送されることを特徴とする、分散型データフロープログラミングフレームワーク。
前記ＦＰＧＡ加速スタックは、
前記ＣＰＵ加速スタックから配信されたデータ処理サブタスクを実行し、さらに、データ処理結果を前記ＣＰＵ加速スタック又は他のターゲットＦＰＧＡ加速カードに転送するように構成された静的領域と、
前記データ処理サブタスクをローカル加速ユニット又は他のターゲットＦＰＧＡ加速カードの加速ユニットに転送し、加速計算動作を行うように構成されたＦＰＧＡ加速エンジンと、を備えることを特徴とする、請求項11に記載の分散型データフロープログラミングフレームワーク。
メモリとプロセッサとを含む電子装置であって、
前記メモリにはコンピュータプログラムが記憶されており、
前記コンピュータプログラムが前記プロセッサによって実行されると、請求項１～９のいずれか一項に記載のデータ処理方法のステップを実施することを特徴とする、電子装置。
コンピュータ読み取り可能な命令が記憶されている記憶媒体であって、
前記コンピュータ読み取り可能な命令がプロセッサによってロードされて実行されると、請求項１～９のいずれか一項に記載のデータ処理方法のステップを実施することを特徴とする、記憶媒体。