JP2023534242A

JP2023534242A - ネットワーク上におけるホストとアクセラレータとの間の通信

Info

Publication number: JP2023534242A
Application number: JP2023502602A
Authority: JP
Inventors: トルドゥバッケンオラ; リングウェイウェイ
Original assignee: Graphcore Ltd
Current assignee: Graphcore Ltd
Priority date: 2020-07-14
Filing date: 2020-12-22
Publication date: 2023-08-08
Also published as: GB202010810D0; CN116137907A; EP4182793A1; KR20230035416A; GB2597078B; US20220019487A1; GB2597078A; WO2022012770A1

Abstract

ホストシステムは、ネットワーク上で多数のサブシステムに提供されるローカルプログラムのセットをコンパイルする。ホスト上で同期動作を定義し、次いで、その情報をサブシステムに提供することにより、ホストは、大多数のサブシステムへのサービス提供を行うことができる。同期動作の定義は、同期バリアが生じる同期グループの定義と、プログラム実行の間のホストとのデータ交換が起こる時点の定義とを含む。サブシステム間の同期動作を定義することにより、ホストとの必要な交換を最小限に抑えながら、大多数のサブシステムを接続することができる。

Description

本出願は、ネットワーク上で通信するホストシステムと処理ユニットに関する。

複雑な又は大量のアプリケーションに対するデータ処理の文脈では、ワークアクセラレータは、あるデータの処理がホストシステムからオフロードされたサブシステムであり得る。そのようなワークアクセラレータは、特定のタイプの処理の実行に特化したハードウェアを有し得る。

例として、そのような特化したアクセラレータサブシステムが有用であり得るコンピューティングの一分野は、機械知能において見られる。機械知能の分野の当業者によく知られているように、機械知能アルゴリズムは、複数の相互接続ノードのグラフによって表すことができる「知識モデル」の反復更新の実行を中心とする。各ノードの実装は、データの処理を伴い、グラフの相互接続は、ノード間で交換されるデータに相当する。典型的には、各ノードの処理の少なくともいくつかは、グラフの他のノードのいくつか又はすべてから独立して行うことができ、従って、大規模なグラフは、マルチスレッディングの絶好の機会に触れる。従って、機械知能アプリケーションに特化したワークアクセラレータは、膨大なマルチスレッディングを含み得る。並列処理の一形態は、同じチップ（すなわち、同じダイ）上に複数のタイルの配列を含むプロセッサによって達成することができ、各タイルは、別個の処理ユニット並びにメモリ（プログラムメモリ及びデータメモリを含む）を含む。従って、プログラムコードの別個の部分は、異なるタイル上で並列に実行できる。タイルは、オンチップ相互接続部を介して互いに接続され、それにより、タイル間でのデータの交換が可能になる。そのようなアクセラレータは、提供されるデータセットの並列処理を実行するために、ホストシステム用のサブシステムとして機能し得る。

一般に、異なるタイル上で実行されているプログラムの部分間の依存性が存在し得る。従って、先に実行されているあるタイル上のコード片の依存データが、別のタイル上の別のコード片によって利用できるようになるのを防ぐための技法が必要とされる。これを達成するための可能なスキームが多く存在し、本明細書では、その１つであるバルク同期並列（「ＢＳＰ」）が例として説明される。ＢＳＰによれば、各タイルは、交互サイクルで演算フェーズと交換フェーズを実行する。演算フェーズの間、各タイルは、タイル上で局所的に１つ又は複数の演算タスクを実行するが、他のいかなるタイルともその演算の結果を通信することはない。交換フェーズでは、各タイルは、先行する演算フェーズからの演算の１つ又は複数の結果をグループの１つ又は複数の他のタイルと交換できるが、次の演算フェーズには未だ進まない。さらに、ＢＳＰ原理によれば、バリア同期は、演算フェーズから交換フェーズに移行する接合点、交換フェーズから演算フェーズに移行する接合点又はその両方に配置される。すなわち、（ａ）グループのいずれかのタイルが次の交換フェーズに進めるようになる前に、すべてのタイルがそれらのそれぞれの演算フェーズを完了する必要があるか、（ｂ）グループのいずれかのタイルが次の演算フェーズに進めるようになる前に、グループのすべてのタイルがそれらのそれぞれの交換フェーズを完了する必要があるか、又は、（ｃ）その両方であるかのいずれかである。いくつかのシナリオでは、演算を実行しているタイルは、グループの他のタイルとの通信を伴わない限り、ネットワークカード又は記憶ディスクなどの他のシステム資源と通信することができる。

交換フェーズの間、データ交換は、アクセラレータ内で内部的に（すなわち、タイル間で）起こるのみならず、いくつかの状況では、アクセラレータとさらなるアクセラレータとの間又はアクセラレータとホストシステムとの間で起こる必要もあり得る。サブシステムがワークアクセラレータとしての働きをする際、サブシステムは、（例えば、ホストシステムから又は拡張システムの記憶装置の別の形態から）提供されるデータセットを処理するように構成される。

ホストから１つ又は複数のサブシステムに作業負荷を提供するため、ホストは、ＰＣＩｅインタフェース上でそれらのサブシステムにローカル接続することができる。これにより、低いレイテンシでのホストと１つ又は複数のサブシステムとの間のデータ転送が可能になる。しかし、問題の１つは、ＰＣＩｅ接続上でホストが直接接続することができるサブシステムの数が限られるということである。従って、より大規模なアプリケーションを実行するためにサブシステムの数の拡大を試みる上で、それらのサブシステムとホストとの間のデータ交換を達成する方法に問題があるため、いくつかの課題が提示される。

より大規模なアプリケーションを処理するには、ワークアクセラレータとしての働きをすることができるさらに多くのアクセラレータサブシステムをホストに互いに接続することが望ましい。これを達成するための提案の１つは、ネットワーク上でホストをアクセラレータサブシステムに接続することである。ホストデバイスがサブシステムによって実行された演算からの結果を受信する動作と、それに応答して、さらなる作業負荷をサブシステムに提供する動作との間には遅延がある。これは特に、それらの作業負荷が他のサブシステムによって出力された結果に依存し得る際に当てはまる。いくつかの事例では、ホストは、あるサブシステムから結果を受信し、別のサブシステムに結果を提供しなければならない。

第１の態様によれば、１つ又は複数のサブシステムの各々において実行されるローカルプログラムに従ってホストシステムに対するワークアクセラレータとして動作する複数のサブシステムとネットワークを介して接続されるように構成されたホストシステムであって、ホストシステムは、少なくとも１つのプロセッサと、コンピュータ可読命令を格納する少なくとも１つのメモリとを含み、ホストシステムの少なくとも１つのプロセッサは、ローカルプログラムのセットをコンパイルするためにコンピュータ可読命令を実行するように構成され、各ローカルプログラムは、１つ又は複数のサブシステムの各々において実行されるものであり、ソースコードをコンパイルするステップは、同期グループのセットを定義することを含み、各同期グループは、サブシステムの少なくともいくつかを含み、各ローカルプログラムは、それぞれのサブシステムの少なくとも１つのプロセッサによって実行される際に、サブシステムの複数の演算フェーズのうちの１つ又は複数の間に演算動作を実行するための演算命令セットと、サブシステムの少なくとも１つのプロセッサによって実行される際に、ローカルプログラムの実行における事前に定義された時点において複数のバリア同期を実行するためのデータ転送命令セットを含み、バリア同期の少なくともいくつかの各々は、同期グループのうちの１つの間で定義され、バリア同期の少なくとも１つは、ホストの関与を必要とする同期であり、ホストの関与を必要とする同期に続いて、データ転送の開始プログラムがそれぞれのサブシステムによってホストシステムに提供されることに応答して、それぞれのサブシステムとホストシステムとの間でデータ交換が実行され、ホストシステムの少なくとも１つのプロセッサは、データ転送の受信された開始プログラムの各々に応答して、識別子の受信元であるサブシステムのうちの１つとネットワーク上でデータを交換するように構成される、ホストシステムが提供される。

ホスト上で同期動作を定義し、次いで、その情報をサブシステムに提供することにより、ホストは、大多数のサブシステムへのサービス提供を行うことができる。同期動作の定義は、同期バリアが生じる同期グループの定義と、プログラム実行の間のホストとのデータ交換が起こる時点の定義とを含む。サブシステム間の同期動作を定義することにより、ホストとの必要な交換を最小限に抑えながら、大多数のサブシステムを接続することができる。

いくつかの実施形態では、識別子の受信元であるサブシステムのうちの１つとのネットワーク上でのデータの交換は、リモートダイレクトメモリアクセスを使用して行われる。

いくつかの実施形態では、ネットワークは、イーサネット（登録商標）ネットワークである。

いくつかの実施形態では、識別子の受信元であるサブシステムのうちの１つとネットワーク上でデータを交換するステップは、ホストシステムのバッファの少なくとも一部を、識別子の受信元であるサブシステムのうちの１つがアクセスすることができるネットワークインタフェースデバイスのバッファの少なくとも一部と同期させることを含む。

いくつかの実施形態では、データ転送の受信された開始プログラムの各々は、ホストサブシステムと識別子の受信元であるサブシステムのうちの１つとの間のストリームの識別子を含み、識別子の受信元であるサブシステムのうちの１つとネットワーク上でデータを交換するステップは、それぞれの識別されたストリームに属するデータを送信する及び／又は受信することを含む。

いくつかの実施形態では、ホストシステムのバッファの少なくとも一部は、識別されたストリームと関連付けられたバッファの一部を含み、識別子の受信元であるサブシステムのうちの１つがアクセスすることができるネットワークインタフェースデバイスのバッファの少なくとも一部は、識別されたストリームと関連付けられたバッファの一部を含む。

いくつかの実施形態では、識別子の受信元であるサブシステムのうちの１つとネットワーク上でデータを交換するステップは、識別子の受信元であるサブシステムのローカルプログラムにおいて定義される複数のバリア同期のうちの１つの前に、そのサブシステムがアクセスすることができるネットワークインタフェースデバイスにデータを送信することと、識別子の受信元であるサブシステムのローカルプログラムにおいて定義される複数のバリア同期のうちの１つに続いて、そのサブシステムがアクセスすることができるネットワークインタフェースデバイスからデータを受信することを含む。

いくつかの実施形態では、ホストシステムの少なくとも１つのプロセッサは、ローカルプログラムの各々をネットワーク上でそれぞれのサブシステムに発送することを行わせるように構成される。

第２の態様によれば、ホストシステムとネットワークを介して接続されるように構成されたサブシステムであって、サブシステムの少なくとも１つのプロセッサ上で実行されるローカルプログラムに従ってホストシステムに対するワークアクセラレータとして動作するように構成され、ネットワーク上でホストシステムからローカルプログラムを受信するように構成されたインタフェースを含み、ローカルプログラムは、同期グループのセットの表示であって、同期グループの少なくともいくつかが、サブシステム及びホストに対するアクセラレータとして動作するための１つ又は複数のさらなるサブシステムを含む、同期グループのセットの表示と、少なくとも１つのプロセッサによって実行される際に、サブシステムの複数の演算フェーズのうちの１つ又は複数の間に複数の演算動作を実行するための演算命令セットと、少なくとも１つのプロセッサによって実行される際に、それぞれのローカルプログラムの実行における事前に定義された時点において複数のバリア同期を実行するためのデータ転送命令セットと、を含み、バリア同期の少なくともいくつかは、同期グループのうちの１つのサブシステム間で定義され、バリア同期の少なくとも１つは、ホストの関与を必要とする同期であり、ホストの関与を必要とする同期に続いて、サブシステムによってホストシステムにデータ転送の開始プログラムを送信することに続いて、ネットワーク上でサブシステムとホストシステムとの間でデータ交換が実行される、サブシステムが提供される。

いくつかの実施形態では、サブシステムとホストシステムとの間のデータ交換は、リモートダイレクトメモリアクセスを使用して行われる。

いくつかの実施形態では、サブシステムとホストシステムとの間のデータ交換は、少なくとも１つのプロセッサがサブシステム用のネットワークインタフェースデバイスのバッファとのデータ交換を行わせることを含み、バッファの少なくとも一部は、ホストシステムのバッファの少なくとも一部と同期される。

いくつかの実施形態では、データ転送の開始プログラムは、サブシステムとホストサブシステムとの間のストリームの識別子を含み、サブシステムとホストシステムとの間のデータ交換は、それぞれの識別されたストリームに属するデータを交換することを含む。

いくつかの実施形態では、ネットワークインタフェースデバイスのバッファの少なくとも一部は、識別されたストリームと関連付けられたバッファの一部を含む。

いくつかの実施形態では、サブシステムとホストシステムとの間のデータ交換は、識別子の受信元であるサブシステムのローカルプログラムにおいて定義される複数のバリア同期のうちの１つの前に、そのサブシステムがアクセスすることができるネットワークインタフェースデバイスにデータを送信することと、識別子の受信元であるサブシステムのローカルプログラムにおいて定義される複数のバリア同期のうちの１つに続いて、そのサブシステムがアクセスすることができるネットワークインタフェースデバイスからデータを受信することとを含む。

いくつかの実施形態では、インタフェースは、ネットワーク上でホストシステムからローカルプログラムを受信するように構成される。

第３の態様によれば、ホストシステムにおいて実施される方法であって、１つ又は複数のサブシステムの各々において実行されるローカルプログラムに従ってホストシステムに対するワークアクセラレータとして動作する複数のサブシステムとネットワークを介して接続することを含み、１つ又は複数のサブシステムの各々において実行されるローカルプログラムセットをコンパイルすることを含み、ソースコードをコンパイルするステップは、少なくともいくつかのサブシステムを含む同期グループのセットを定義することを含み、各ローカルプログラムは、サブシステムの少なくとも１つのプロセッサによって実行される際に、サブシステムの複数の演算フェーズのうちの１つ又は複数の間に演算動作を実行するための演算命令セットと、サブシステムの少なくとも１つのプロセッサによって実行される際に、ローカルプログラムの実行における事前に定義された時点において複数のバリア同期を実行するためのデータ転送命令セットと、を含み、バリア同期の少なくともいくつかは、同期グループのうちの１つのサブシステム間で定義され、バリア同期の少なくとも１つは、ホストの関与を必要とする同期であり、ホストの関与を必要とする同期に続いて、データ転送の開始プログラムがそれぞれのサブシステムによってホストシステムに提供されることに応答して、それぞれのサブシステムとホストシステムとの間でデータ交換が実行され、データ転送の受信された開始プログラムの各々に応答して、識別子の受信元であるサブシステムのうちの１つとネットワーク上でデータを交換することを含む、方法が提供される。

第４の態様によれば、ホストシステムの少なくとも１つのプロセッサに第３の態様による方法を実行させるコンピュータプログラムが提供される。

第５の態様によれば、第４の態様によるコンピュータプログラムを格納する非一時的なコンピュータ可読媒体が提供される。

第６の態様によれば、ホストシステム用のサブシステムにおいて実施される方法であって、ホストシステムとネットワークを介して接続することと、ネットワーク上でホストシステムからローカルプログラムを受信することと、サブシステムの少なくとも１つのプロセッサ上で実行され、サブシステム及びホストに対するアクセラレータとして動作するための１つ又は複数のさらなるサブシステムを含む同期グループのセットの表示を含むローカルプログラムに従って、ホストシステムに対するワークアクセラレータとして動作することと、サブシステムの複数の演算フェーズのうちの１つ又は複数の間に演算動作を実行するためにローカルプログラムの演算命令を実行することと、ローカルプログラムの実行における事前に定義された時点において、同期グループのうちの１つのサブシステム間で定義されホストの関与を必要とする同期である複数のバリア同期を実行するために、ローカルプログラムのデータ転送命令を実行することとを含み、ホストの関与を必要とする同期に続いて、サブシステムによってホストシステムにデータ転送の開始プログラムを送信することに続いて、ネットワーク上でそれぞれのサブシステムとホストシステムとの間でデータ交換が実行される、方法が提供される。

第７の態様によれば、サブシステムの少なくとも１つのプロセッサに第６の態様による方法を実行させるコンピュータプログラムが提供される。

第８の態様によれば、第７の態様によるコンピュータプログラムを格納する非一時的なコンピュータ可読媒体が提供される。

本発明をより良く理解するため及び本発明をどのように実施できるかを示すため、ここでは、例として、添付の図を参照する。

複数のタイルを含むプロセッサチップの概略ブロック図である。バルク同期並列（ＢＳＰ）演算モデルの概略図である。ＢＳＰモデルの別の概略図である。多段ＢＳＰスキームの概略図である。外部同期のための同期要求及び確認応答の交換の概略図である。異なる同期グループの別の概略図である。ホスト同期プロキシを伴うプログラムフローを概略的に示す。ネットワークを介してホストシステムと通信する２つのアクセラレータ及び１つのゲートウェイの概略図である。ネットワークを介してホストシステムと通信するさらに多くのアクセラレータ及びゲートウェイの概略図である。アクセラレータサブシステムとホストとの間でデータ交換が実行されるシステムのさらなる概略図である。ゲートウェイを介するホストとアクセラレータとの間のメッセージの交換を示すメッセージシーケンス図である。本出願の実施形態による方法を示す。

この出願は、処理ユニット上での実行のためにホストシステムがローカルプログラムセットのコンパイル及び転送を行う方法及びシステムに関する。処理ユニットは、互いに同期し、コンパイル済みのコードに挿入された事前に定義された時点において、ホストとデータを交換する。実施形態が実装される処理ユニットの例を最初に説明する。

図１を参照すると、図１は、例示的な処理ユニット２を示している。この例示的な処理ユニット２は、マルチタイル処理ユニット２である。処理ユニット２は、その内容が参照により組み込まれる、我々の先の米国特許出願第１６／５３８９８０号明細書で説明されている知能処理ユニット（ＩＰＵ）であり得る。ＩＰＵの各々は、別個の集積回路上に形成される。

処理ユニット２は、複数のプロセッサタイル４のアレイ６と、タイル４間を接続する相互接続部３４とを含む。処理ユニット２は、同じＩＣパッケージにパッケージ化された複数のダイのうちの１つとして単独で実装することができる。相互接続部３４は、本明細書では、タイル４がデータを交換できるようにするためのものであるため、「交換ファブリック」３４と呼ぶこともできる。各タイル４は、実行ユニット及びメモリのそれぞれのインスタンスを含む。例えば、例示として、処理ユニット２は、何百ものタイル４又は千をも超えるタイル４を含み得る。完全を期すため、本明細書で言及される「アレイ」は、必ずしも特定の次元数又は物理的なレイアウトのタイル４を含意するとは限らないことも留意されたい。

実施形態では、各処理ユニット２は、１つ又は複数の外部のリンク８も含み、処理ユニット２を１つ又は複数の他の処理ユニット（例えば、同じ処理ユニット２の１つ又は複数の他のインスタンス）に接続できるようにする。これらの外部のリンク８は、処理ユニット２をホストシステムに接続するための１つ又は複数の処理ユニット・ホスト間リンク、並びに／或いは、同じＩＣパッケージ若しくはカード上の又は異なるカード上の処理ユニット２の１つ又は複数の他のインスタンスとまとめて接続するための１つ又は複数の処理ユニット間リンクのうちの１つ又は複数を含み得る。処理ユニット２は、処理ユニット２が処理するアプリケーションデータという形態で、ホストからワークを受信する。

相互接続部３４は、アレイ６の異なるタイル４が互いに通信できるように構成される。しかし、同じタイル４上のスレッド間の依存性が潜在的に存在するのと同様に、アレイ６の異なるタイル４上で実行されるプログラムの部分間の依存性も存在し得る。従って、先に実行されているあるタイル４上のコード片の依存データが、別のタイル４上の別のコード片によって利用できるようになるのを防ぐための技法が必要とされる。これは、データ一貫性モデルを使用して達成される。

ＡＩ及びデータ科学の並列プログラミングモデルは、通常、演算、バリア及び交換の３フェーズの反復実行モデルに従う。その意味は、プロセッサへの及びプロセッサからのデータ転送が、通常、プロセッサ間及び各プロセッサと外部の記憶装置との間のデータ一貫性を提供するためにバリア依存性を有するというものである。典型的に使用されるデータ一貫性モデルは、バルク同期並列（ＢＳＰ）、ステイル同期並列（ＳＳＰ）及び非同期である。本明細書で説明される処理ユニット２はＢＳＰモデルを使用するが、代替の形態として他の同期モデルを利用できることが明らかであろう。

図２及び３を参照すると、図２及び３は、ＢＳＰ交換スキームの実装形態を示しており、各タイル４は、交互サイクルで演算フェーズ３３と交換フェーズ３２を実行し、演算フェーズ３３と交換フェーズ３２は、タイル間でバリア同期３０によって相互に分離される。図２及び３によって示される事例では、バリア同期は、各演算フェーズ３３とそれに続く交換フェーズ３２との間に配置される。演算フェーズ３３の間、各タイル４は、タイル上で局所的に１つ又は複数の演算タスクを実行するが、他のいかなるタイル４ともこれらの演算の結果を通信することはない。交換フェーズ３２では、各タイル４は、先行する演算フェーズからの演算の１つ又は複数の結果を１つ又は複数の他のタイル４と交換できるが、そのタスクが依存性を有するデータを他のタイル４から受信するまで、新しい演算を実行することはない。また、先行する演算フェーズにおいて演算されたもの以外のデータを他のタイル４に送信することもない。交換フェーズ３２において内部制御関連動作などの他の動作を実行できることも除外されない。タイルグループの外部との通信は、ＢＳＰメカニズムを任意に利用できるが、代替として、ＢＳＰを利用せずに、それ自体の他の何らかの同期メカニズムを代わりに使用することができる。

ＢＳＰ原理によれば、バリア同期３０は、演算フェーズ３３から交換フェーズ３２に移行する接合点、交換フェーズ３２から演算フェーズ３３に移行する接合点又はその両方に配置される。すなわち、（ａ）グループのいずれかのタイルが次の交換フェーズ３２に進めるようになる前に、すべてのタイル４がそれらのそれぞれの演算フェーズ３３を完了する必要があるか、（ｂ）グループのいずれかのタイルが次の演算フェーズ３３に進めるようになる前に、グループのすべてのタイル４がそれらのそれぞれの交換フェーズ３２を完了する必要があるか、又は、（ｃ）これらの条件の両方が実施されるかのいずれかである。３つのすべての変形形態では、フェーズを交互に行うのは個々のタイルであり、同期するのはアセンブリ全体である。次いで、交換フェーズと演算フェーズのシーケンスは、複数の繰り返しにわたって繰り返すことができる。ＢＳＰの専門用語では、交換フェーズ及び演算フェーズの各繰り返しは、「スーパーステップ」と呼ばれる場合がある（ただし、文献上では、専門用語が常に一貫して使用されるとは限らないことに留意されたい。すなわち、個々の交換フェーズ及び演算フェーズの各々が個別にスーパーステップと呼ばれる場合があるのに対して、本明細書で採用される専門用語のように、交換フェーズ及び演算フェーズが合わせてスーパーステップと呼ばれる場合もある）。

また、同じ処理ユニット２又は異なる処理ユニット上のタイル４の複数の異なる独立したグループの各々は、互いに非同期的に動作する別個のそれぞれのＢＳＰグループを形成することができ、演算、同期及び交換のＢＳＰサイクルは所定の各グループ内でのみ課されるが、各グループは他のグループから独立してそれを行うことは除外されないことにも留意されたい。すなわち、マルチタイルアレイ６は、複数の内部同期グループを含み得、各々は、他のそのようなグループから独立して及び非同期的に動作する（後にさらに詳細に論じられる）。いくつかの実施形態では、後にさらに詳細に論じられるように、同期及び交換の階層的分類がある。

図３は、（ａ）演算フェーズ３３から交換フェーズ３２へのバリア同期（上記を参照）が課される事例における、アレイ６のタイルのいくつか又はすべてのグループ４ｉ、４ｉｉ、４ｉｉｉの間で実装されるようなＢＳＰ原理を示す。この配列では、いくつかの他のタイルが依然として交換を行っている間に、いくつかのタイル４が演算３３を開始できることに留意されたい。

ＢＳＰモデルは、処理ユニット２上のタイル４間でのデータの交換のために使用される。我々の先の出願である米国特許出願第１６／５３８９８０号明細書に示されるように、処理ユニット２のタイル４間の通信は時間決定論的に起こり、データパケットはヘッダなしで送信される。それに加えて、ＢＳＰモデルは、処理ユニット２間のデータの交換のために使用することもできる。

実施形態では、処理ユニット２の複数のインスタンスは、互いに接続して、複数の処理ユニット２に広がるさらに大きなタイル４のアレイを形成することができる。このように互いに接続された処理ユニット２は、データを交換するために、互いのバリア同期に参加することができる。単一の処理ユニット２上のタイル４間でのみ起こるバリア同期は、内部（チップ上）同期と呼ばれる。他方では、処理ユニット２間で起こるバリア同期は、外部（チップ間）同期と呼ばれる。

図４を参照すると、図４は、内部同期と外部同期の両方を伴う例示的なＢＳＰプログラムフローを示している。示されるように、フローは、（同じチップ２上のタイル４間のデータの）内部交換５０及び（異なるチップ２上のタイル４間のデータの）外部交換５０’を含む。図４のプログラムフローは、第１の処理ユニット２ｉ及び第２の処理ユニット２ｉｉに対するプログラムフローを示す。

図４に示されるように、（同じチップ２上のタイル４間のデータの内部交換５０を含む）内部ＢＳＰスーパーステップは、（異なるチップ２上のタイル４間のデータの外部交換５０’を含む）外部同期及び交換から分離しておく。

プログラムは、（ｉ）第１の演算フェーズ、次いで、（ｉｉ）内部バリア同期３０、次いで、（ｉｉｉ）内部交換フェーズ５０、次いで、（ｉｖ）外部バリア同期８０、次いで、（ｖ）外部交換フェーズ５０’の順番で含む、同期、交換フェーズ及び演算フェーズのシーケンスを実行するように配列することができる。外部バリア８０は、内部交換フェーズ５０の後に課され、その結果、プログラムは、内部交換５０の後にのみ外部交換５０’に進む。また、図４のチップ２Ｉに関して示されるように、内部交換（ｉｉｉ）と外部バリア（ｉｖ）との間に演算フェーズを任意に含めることができることにも留意されたい。

このシーケンス全体は、（例えば、コンパイラによってそのように生成されている）プログラムによって実施される。実施形態では、プログラムは、タイル４によって実行されるＳＹＮＣ命令によってこのような働きをするようにプログラムされる。内部同期及び交換は、別のチップ２上の任意のタイル又は他のエンティティまで及ぶことはない。（ｉｉｉとｉｖとの間の前述の任意の演算フェーズを伴う）シーケンス（ｉ）～（ｖ）は、一連の全反復において繰り返すことができる。反復ごとに、外部同期及び交換の前に、内部演算、同期及び交換（ｉ）～（ｉｉｉ）の複数のインスタンスが存在し得る。すなわち、（ｉ）～（ｉｉｉ）の複数のインスタンス（その順番を保って）、すなわち、複数の内部ＢＳＰスーパーステップは、（ｉｖ）～（ｖ）、すなわち、外部同期及び交換の前に実施することができる。また、いずれのタイル４もその各々は内部同期及び交換（ｉｉ）～（ｉｉｉ）のそれら自体のインスタンスを他のタイル４と並行して実行できることにも留意されたい。

従って、ＢＳＰサイクル全体（ｉ）～（ｖ）につき、サイクル（ｉｉ）～（ｉｉｉ）の少なくとも一部が存在し得、同期は、内部でのみ（すなわち、チップ上でのみ）実行されるという制約を受ける。

外部交換５０の間、通信は外部のみに限られないことに留意されたい。すなわち、いくつかのタイルは、単に、内部交換を実行することができ、いくつかのタイルは、外部交換のみを実行することができ、いくつかのタイルは、それらを混ぜ合わせて実行することができる。

また、図４に示されるように、いくつかのタイル４は、演算フェーズの間、ローカル入力／出力を実行することができる。例えば、それらのタイル４は、ホスト又は他のタイプの外部の記憶装置とデータを交換することができる。

また、図４に示されるように、一般に、任意の又はすべてのタイルが任意の所定のＢＳＰスーパーステップにおいてヌル演算フェーズ５２又はヌル交換フェーズ５０を有することが可能であることにも留意されたい。

図４に示される同期バリアの各々は、同期要求及び確認応答の伝送の交換が完了した時点で、タイル４によって通過される。内部バリア同期の場合、処理ユニット２の各タイル４は、内部バリア同期に達した時点で、相互接続部３４の内部同期コントローラ３６（図１を参照）に内部同期要求を送信する。内部同期コントローラ３６が、処理ユニット２の一部であるタイル４のすべてから同期要求を受信すると、同期コントローラ３６は、タイル４の各々に同期確認応答を返す。同期確認応答を受信次第、タイル４の各々は、交換フェーズに入り、タイル４間のデータ交換が起こる。この技法は、タイルのいずれかが交換フェーズに進めるようになる前に、各タイル４がバリアに達しなければならないことを保証する。

外部バリア同期の場合、同期要求及び確認応答の交換は、同期グループと呼ばれる処理ユニット２のグループ間で行われる。外部バリア同期に対する同期要求及び確認応答の交換に続いて、処理ユニット２は、交換フェーズの間、データを交換する。

処理ユニット２上のタイル４の各々は、外部バリア同期に達した時点で、処理ユニット２と関連付けられた外部同期ロジック（図１では図示せず）に外部同期要求を発行する。外部同期ロジックが処理ユニット２上のタイル４のすべてから同期要求を受信した時点で、外部同期ロジックは、それらの同期要求の確認応答を行うか、又は、別の処理ユニット２と関連付けられた外部同期ロジックに同期要求を伝播する。同期要求に応答して別の処理ユニット２の外部同期ロジックによって取られる措置は、論理が同期グループのマスタとして定義されるか又はそのグループの伝播ノードとして定義されるかに依存する。伝播ノードは、受信したそれらの同期要求を同期グループに対して定義されたマスタに向けて伝播する。同期マスタは、同期グループの一部である処理ユニット２の各々に対する外部同期要求を受信した時点で、同期グループの他の処理ユニット２の各々と関連付けられた外部同期ロジックに同期確認応答を返す。また、同期マスタは、それ自体の処理ユニット２のタイル４の各々にも同期確認応答を返す。同期グループの他の処理ユニット２の各外部同期ロジック（すなわち、伝播ノード）は、同期確認応答を受信次第、その処理ユニット２のタイル４に同期確認応答を返す。

図５を参照すると、図５は、処理ユニット２間のデータの交換のために外部バリア同期に対して実行される同期要求の交換の例を示している。示されるシステム５００は、同期グループの一部である３つの処理ユニット２ａ、２ｂ、２ｃ（総称で処理ユニット２と呼ばれる）を含む。３つの処理ユニット２の各々は、別個の集積回路５１０ａ、５１０ｂ、５１０ｃ（総称でチップ５１０と呼ばれる）に属する。チップ５１０の各々は、グローバル同期周辺機器（ＧＳＰ）５２０と呼ばれる外部同期ロジック５２０を含む。いくつかの事例では、外部同期ロジック５２０は、チップ外（例えば、ゲートウェイデバイス上）に位置し得る。

タイル４の各々がバリアに達すると、タイル４は、関連付けられたＧＳＰ５２０に同期要求を発行する。図５では、簡単にするため、関連付けられたＧＳＰ５２０に同期要求を送信するものとして、各処理ユニット２のタイル４は１つしか示されていないが、実践では、チップ上のすべてのタイル４がＧＳＰ５２０に同期要求を発行することになる。いくつかの実施形態では、各同期要求は、バリア同期のために使用される同期グループの表示を含み、ＧＳＰ５２０は、要求の表示に従って、受信した同期要求の伝播及び／又は確認応答を行う。他の実施形態では、ＧＳＰ５２０への同期要求の書き込みに先行して、近々行われるバリア同期のために使用される同期グループの関連付けられた処理ユニット２のノミネートされたタイル４からの書き込みが起こる。同期グループの表示は、ＧＳＰ５２０の構成設定を選択するために使用される。ＧＳＰ５２０は、バリア同期に達すると、選択された構成設定に従って、受信した同期要求の伝播及び／又は確認応答を行う。

この例では、ＧＳＰ５２０ａ、５２０ｃは、伝播ノードとして構成される。処理ユニット２のすべてのタイル４から同期要求を受信した後、ＧＳＰ５２０ａ、５２０ｃの各々は、同期グループに対して定義された同期マスタ（すなわち、ＧＳＰ５２０ｂ）に向けて上流に同期要求を伝播する。ＧＳＰ５２０ｂは、ＧＳＰ５２０ａ、５２０ｃから及び関連付けられた処理ユニット２ｂのすべてのタイル４から同期要求を受信した後、処理ユニット２ｂのタイル４に向けて及びＧＳＰ５２０ａ、５２０ｃに向けて下流に同期確認応答を発行する。ＧＳＰ５２０ａ、５２０ｃは、それぞれの処理ユニット２ａ、２ｃのタイル４に同期確認応答を発行することによって、受信した確認応答に応答する。

同期確認応答を受信することに応答して、タイル４は、バリア同期を通過し、交換フェーズの間に同期グループの他の処理ユニット２とデータを交換する。この異なる処理ユニット２間のデータの交換は、我々の先の出願である米国特許出願第１５／８８６０６５号明細書で説明されるように、非時間決定論的に行われる。

各外部バリア同期におけるデータの交換に対しては、異なる同期グループを定義することができる。これらの同期グループは、処理ユニット上で実行するローカルプログラムにプログラムされる。タイル４は、バリア同期において同期要求を生成するために同期命令を実行する。同期命令は、オペランドとして同期グループを取り入れ、どの処理ユニット２間で各同期が起こるかを制御する。

図６Ａを参照すると、図６Ａは、複数の異なる可能な外部同期グループ（例えば、グループ＿１又はグループ＿２）を示している。実施形態では、これらは、異なる階層レベルに相当する。すなわち、より高い階層レベル９２（例えば、グループ２）の各々は、少なくとも１つ低い階層レベルの２つ以上のグループ９１Ａ、９１Ｂを包含する。実施形態では、２つの階層レベルしか存在しないが、より多くの入れ子レベルが存在することは除外されない。バリア同期を開始するため、処理ユニット２のタイル４の実行ユニットは、ＳＹＮＣ命令を実行する。ＳＹＮＣ命令のオペランドは、同期グループを示す。ＳＹＮＣ命令のオペランドが外部同期グループのより低い階層レベル（ＳＹＮＣグループ＿１）に設定される場合は、ＳＹＮＣが実行されたタイルと同じ低いレベルの外部同期グループにおいてのみ、チップ２上のタイル４に関連して、上記で説明される同期及び集計動作が実行される。他方では、ＳＹＮＣ命令のオペランドが外部同期グループのより高い階層レベル（ＳＹＮＣグループ＿２）に設定される場合は、ＳＹＮＣが実行されたタイルと同じ高いレベルの外部同期グループにおいて、すべてのチップ２上のすべてのタイル４に関連して、上記で説明される同期及び集計動作が自動的に実行される。

オペランドとして外部同期グループを有するＳＹＮＣ命令のオペコードに応答して、その同期グループの各タイル４は、オペランドによって指定された同期レベルを関連付けられたＧＳＰ５２０に信号伝達することを行わせる。これに応答して、ＧＳＰ５２０は、信号伝達されたグループのタイル４の間でのみ実行するように、同期要求（ｓｙｎｃ＿ｒｅｑ）及び確認応答（ｓｙｎｃ＿ａｃｋ）のプロセスを行う。

他の実施形態では、ＳＹＮＣ命令のモードによって指定することができる同期グループは、本質的に階層的であるとは限らないことに留意されたい。一般に、ＳＹＮＣ命令には、いかなる種類のグループにも対応するモードを提供することができる。例えば、モードは、非階層的なグループの中からのみ又は階層的なグループと１つ又は複数の非階層的なグループとを混ぜ合わせたもの（少なくとも１つのグループは、別のものの中に完全にネストされるというわけではない）から、選択を可能にすることができる。これにより、有利には、プログラマ又はコンパイラが、最小コード密度で、互いに非同期である内部同期グループの異なるレイアウト間で選択する上での柔軟性が可能になる。

処理ユニット２間での交換のために提供される外部バリア同期に加えて、外部バリア同期は、処理ユニット２とホストシステムとの間でデータを交換するために実行することができる。そのようなデータは、処理ユニット２による処理のためにホストシステムによって提供されるアプリケーションデータを含み得る。データは、ホストシステムに提供される処理ユニット２による処理の結果を含み得る。このタイプのバリア同期は、ホストの関与を伴うバリア同期と呼ばれる。

ホストの関与を伴うバリア同期と他のバリア同期との関係は、図６Ｂに示されている。この図は、例示的な処理ユニット２が参加したバリア同期を示す。処理ユニット２は、ホストからの同期確認応答を必要とするバリア９０が課される前に、Ｐ個のバリア同期８０に参加することができる。Ｐ個のバリア同期は、関連同期グループのすべての（休止していない）タイル４からの同期要求を必要とする。後続のバリア同期９０は、処理ユニット２のすべての（休止していない）タイル４からの同期要求を必要とし、特定のバリアを通過する許可をホストが以前に示していることを必要とする。バリア９０の後、ホストと処理ユニット２の１つ又は複数のタイル４（例えば、演算結果をホストに報告するための１つ又は複数のタイル４）との間で交換５０”を実行することができる。

このバリア同期及び関連付けられたデータ交換は、処理ユニット２とホストシステムとの間を接続するためのネットワークインタフェースデバイスを使用して行われる。ネットワークインタフェースデバイスは、ゲートウェイデバイスであると説明されているが、別のタイプのネットワークインタフェースデバイスでもあり得る。ゲートウェイデバイスは、参照により組み込まれる、先の米国特許出願第１６／２３５１０９号明細書で詳細に説明されている。

図７を参照すると、図７は、データ処理システム７００の例を示しており、処理ユニット２は、ゲートウェイ７２０を介してホストシステム７１０と通信するように構成される。この例では、単一のゲートウェイ７２０が２つの処理ユニット２とネットワーク７４０を介して接続するように構成される。しかし、他の実施形態では、そのようなゲートウェイ７２０の各々は、異なる数（例えば、１つ）の処理ユニット２とネットワーク７４０を介して接続することができる。

ホストシステム７２０は、各処理ユニット２と関連付けられたバッファ７２５を含む。バッファ７２５の各々は、ゲートウェイ７１０上に関連付けられたバッファ７３０を有する。ゲートウェイ７１０上のバッファ７３０は、ホスト７２０上の関連付けられたバッファ７２５のミラーである。読み取り及び書き込み要求は、ホストバッファ７２５のデータをゲートウェイバッファ７３０のデータと同期させるために、ネットワーク７４０上で発行される。読み取り及び書き込み要求は、ＲＤＭＡ読み取り及び書き込み要求であり得る。１つ又は複数のＲＤＭＡコントローラ７３５は、ＲＤＭＡ読み取り／書き込みをゲートウェイ７１０に発行してバッファ７２５とバッファ７３０との間のデータ転送を行うために、ホスト７２０に存在する。同様に、ＲＤＭＡコントローラ７３６は、バッファ７３０とバッファ７２５との間のデータ転送を行うために、ゲートウェイ７１０に存在する。ＲＤＭＡ交換は、ネットワーク７４０上で起こる。実施形態では、ネットワーク７４０は、イーサネット（登録商標）ネットワーク７４０である。この事例では、データは、ＲＤＭＡオーバーコンバージドイーサネット（ＲｏＣＥ：ＲＤＭＡｏｖｅｒＣｏｎｖｅｒｇｅｄＥｔｈｅｒｎｅｔ）を介してネットワーク７４０上で送信される。

本明細書で論じられる主要な例はＲｏＣＥを介してデータを送信するものであるが、他の例では、異なるネットワーク化技術を使用することができる。例えば、データは、通常のイーサネット（登録商標）上でデータプレーン開発キット（ＤＰＤＫ）を使用して、ネットワーク７４０上で送信することができる。しかし、ＲＤＭＡの使用は、低レイテンシという利点を有する。ＲＤＭＡ以外の異なるプロトコルが使用される実施形態では、図７及び９に示されるＲＤＭＡコントローラ７２５、７３５、７３６、７４０は、説明されるデータ転送動作を実行するために使用される他のタイプの処理回路であり得る。

処理ユニット２は、それらの割り当てられたプログラムの事前に定義された時点において、ゲートウェイ７１０上のそれらの関連付けられたメモリ７３０とデータを交換するために、バリア同期を開始するように構成される。そのような事前に定義されたバリア同期では、処理ユニット２の一方又は両方は、ゲートウェイ７１０の関連付けられた外部同期ロジック７４５に同期要求を送信する。外部同期ロジック７４５は、ローカル同期伝播モジュール（ＬＳＰＭ）７４５として示されている。同期要求を受信次第、各ＬＳＰＭ７４５は、同期要求の確認応答を行うように構成される。処理ユニット２は、そのような同期確認応答を受信次第、ゲートウェイ７１０上のその関連付けられたメモリ７３０とのデータ交換を実行する。メモリ７３０は、処理ユニット２のメモリにマッピングされたメモリであり得る。この事例では、処理ユニット２は、メモリ７３０からのデータの送信及び受信を行うために、メモリマップドＩ／Ｏ（ＭＭＩＯ）読み取り／書き込みを発行する。交換フェーズの間、処理ユニット２は、先行する演算フェーズにおいて生成されたその処理の結果をメモリ７３０に送信したり、後続の演算フェーズで処理するためにメモリ７３０から作業負荷を受信したりすることができる。同期要求、確認応答及びデータ交換は、処理ユニット２とゲートウェイ７１０との間のＰＣＩｅリンク上で行われる。

図７では、ホスト７２０と通信するものとして、処理ユニット２は２つしか示されていないが、本発明の実施形態は、大多数の処理ユニットがホスト７２０と通信することを可能にする。図８を参照すると、図８は、単一のホスト７２０と通信する多数の処理ユニット２を含むシステム８００の例を示している。処理ユニット２は、各々がホスト７２０によって提供されるローカルプログラムを実行することによって、共に、分散型アプリケーションを実行するように構成される。処理ユニットは、バッファ７３０を介してホストとデータを交換し、ローカルプログラムの事前に定義された同期時点において他の処理ユニットとデータを交換する。処理ユニット２間のデータ交換は、処理ユニット２間のＰＣＩｅリンクを介して又はゲートウェイ７１０間のＰＣＩｅリンクを介して起こり得る。ゲートウェイ７１０とホスト７２０との間のデータ交換は、ネットワーク７４０上の接続を介して起こる。各処理ユニット２に対して、別個の接続が存在する。これらの接続の各々は、ＲＤＭＡ接続であり得る。

図９を参照すると、図９は、ホストシステム７２０と処理ユニット２のうちの１つとの間の対話をさらに詳細に示している。ここでは、プログラムのコンパイル及び処理ユニット２への提供並びにプログラムの実行から生じる後続のデータ交換について説明する。

示されるように、ホスト７２０は、処理ユニット２上で実行させるためにプログラムのセットをコンパイルするように構成された少なくとも１つのプロセッサ８１０を含む。アプリケーションに対してソースコードから生成されたローカルプログラムを合わせて、コンパイル済みのアプリケーションとなる。プログラムの各々は、実行可能なイメージの形態を取る。少なくとも１つのプロセッサ８１０は、ソースコードセットを受信し、コンパイラプログラムに基づいて、ソースコードからローカルプログラムのセットを生成する。コンパイルプロセスは、別個のローカルプログラムを生成し、処理ユニット２にわたってそれらを割り当てることを含む。ローカルプログラムを生成するためのコンパイルプロセスの一部として、少なくとも１つのプロセッサ８１０は、交換同期時点のセットを各ローカルプログラムに挿入する。ローカルプログラムの実行におけるこれらの時点の各々では、それぞれの処理ユニット２は、バリア同期に参加するように構成される。バリア同期のいくつかは、上記で説明されるような内部バリア同期である。バリア同期のいくつかは、アプリケーションを実行することに関与する１つ又は複数の他の処理ユニット２とデータを交換するための外部バリア同期である。バリア同期のいくつかは、付属のゲートウェイ７１０を介してホスト７２０とデータを交換するための外部バリア同期である。

ホスト７２０が処理ユニット２用にローカルプログラムをコンパイルした後、プログラムは、制御プログラムバッファ９２０に格納される。ホストは、各処理ユニット２に対してそのような制御プログラムバッファを個別に有する。制御プログラムバッファ９２０に関するコメントは、これらの他の制御プログラムバッファに等しくうまく当てはまる。ホスト７２０とゲートウェイ７１０との間でデータを交換するために使用されるバッファ７２５、７３０と同様に、バッファ９２０及びバッファ９３０は、互いのミラーである。ローカルプログラムは、ネットワーク７４０上で、１つ又は複数の書き込みにおいて、バッファ９２０からバッファ９３０に転送される。この転送は、ネットワーク７４０上で、１つ又は複数のＲＤＭＡ書き込みにおいて、バッファ９２０からバッファ９３０にローカルプログラムを転送するように構成された１つ又は複数のＲＤＭＡコントローラ７３６によって、行うことができる。処理ユニット２は、制御プログラムバッファ９３０からプログラムを読み取るために、ゲートウェイ７１０に読み取りを発行するように構成される。処理ユニット２は、そのような読み取りを実行するための少量の二次ブートローダコードを含む。読み取りは、ＭＭＩＯ読み取りである。

処理ユニット２がバッファ９３０からローカルプログラムをロードした時点で、処理ユニット２は、プログラムを実行する。作業負荷を処理するため、プログラムは、最初に、それらの作業負荷をホスト７２０から受信しなければならない。ホスト７２０は、その実行の間、プログラムによって必要とされる作業負荷を格納する。ホスト７２０は、処理ユニット２が利用できるようになる前に、これらの作業負荷をバッファ７２５に格納する。データ（作業負荷を含む）は、異なるストリームに分割され、処理ユニット２は、そのローカルプログラムの実行における異なる条件の結果に応じて、読み取り及び書き込み対象のストリームを選択することができる。

各ストリームは、例えば、処理ユニット２が多数の処理ユニット２上で実行されている機械学習又は機械知能アルゴリズムへの入力として使用するためにホストサブシステム７２０から処理ユニット２に送信されている、画像シーケンス（個々の静止画像若しくは映像フレーム）、１つ若しくは複数の音声サンプルの音声ストリーム又は他の任意の経験データシーケンス（例えば、オンラインショッピング習慣など）を含み得る。例えば、これは、ストリーミングデータに基づいてニューラルネットワークを訓練するため、又は、既に訓練済みのニューラルネットに基づくデータから推論するためのものであり得る。例では、ストリームが処理ユニット２からホストサブシステム７２０への方向である場合、ストリームは、処理ユニット２上で実行されている訓練済みのニューラルネットなどの機械知能アルゴリズムから生じた推論のストリームを含み得る。

バッファ７２５、７３０は、複数の異なるストリームのデータの転送に備えて格納するために使用されるマルチストリームバッファ７２５、７３０である。また、バッファ７２５、７３０は、双方向性でもあり、各ストリームのデータは、各バッファ７２５、７３０からの書き込みと読み取りの両方を行うことができる。処理ユニット２は、ストリームの識別子をゲートウェイに供給することによって、異なるストリームから選択的に読み取り／書き込みを行うことができる。ローカルプログラムが処理ユニット２にロードされた後、処理ユニット２は、このプログラムを実行して、処理ユニット２への読み取り対象のストリームの識別子の書き込みを発行する。ストリームの識別子は、バッファ７２５、７３０のインデックス又はアドレスのうちの１つ又は複数を含む。ストリームの識別子は、ストリームを明示的に識別するというよりむしろ、図９に示されるバッファ７２５、７３０のメモリ領域（その各々は、ストリームのうちの１つと関連付けられる）のうちの１つを識別することができる。ゲートウェイ７１０は、ストリームの識別子を受信し、その識別子は、ストリームＩＤストア９４０に一時的に格納される。ゲートウェイ７１０は、ストリームの識別子を受信することに応答して、ネットワーク７４０上で、その識別子をホスト７２０に書き込む。識別子の受信に応答して、ホスト７２０は、ネットワーク７４０上で、バッファ７２５から識別されたストリームのデータをバッファ７３０に書き込む。次いで、処理ユニット２は、そのデータをバッファ７３０から読み取る。

バッファ７３０から作業負荷を得た後、処理ユニット２は、そのローカルプログラムに従ってその作業負荷を処理する。その実行の間のある時点において、処理ユニット２は、ストリームの表示を書き込み、その表示は、近々行われるバリア同期に続く交換フェーズにおいて読み取り又は書き込みが行われる。この書き込みは、処理ユニット２の演算フェーズの間又は先の交換フェーズの間に行うことができる。その後、プログラムの実行の間に、同期バリアに達する。この時点では、処理ユニット２は、図７に関して上記で説明される同期要求／確認応答手順を実行する。この手順に続いて、処理ユニット２は、バッファ７３０からの読み取り及び書き込みを行う。その際、処理ユニット７３０は、提供されたストリームの表示によって識別されたストリームに対応するバッファのメモリ領域からの読み取り及び書き込みを行う。そのストリームへのデータ書き込みに応答して、ゲートウェイ７１０は、バッファ７２５にデータを書き込む。従って、交換フェーズの間、ホスト７２０は、処理ユニット２から作業負荷データの処理の結果を受信し、処理ユニット２は、ホスト７２０からさらなる作業負荷データを受信する。

図１０を参照すると、図１０は、ホスト７２０とゲートウェイ７１０と処理ユニット２との間のメッセージの交換を示すメッセージシーケンス図を示している。図１０に示されるように、ステップ１では、処理ユニット２は、ストリームの識別子をゲートウェイに書き込む。ゲートウェイは、このストリーム識別子を受信し、それをホスト７２０に書き込む。ステップ２では、ストリームＩＤの受信に応答して、ホスト７２０は、作業負荷をゲートウェイ７１０に書き込む。示されるように、バリア同期は、処理ユニット２によって達する。バリア同期に続いて、処理ユニット２は、ステップ２においてホスト７２０から提供された作業負荷をゲートウェイ７１０から読み取る。また、ステップ３では、処理ユニット２は、先の作業負荷の処理から得られた結果を書き込む。

ステップ４では、処理ユニット２は、ステップ３において処理ユニット２によって書き込まれたストリームの識別子をゲートウェイ７１０に書き込む。ストリーム識別子の受信に応答して、ゲートウェイ７１０は、ステップ３において処理ユニット２によって書き込まれたデータをホストに書き込む。

そのデータ交換に続いて、処理ユニット２は、さらなる演算フェーズに進む。図１０に示されるデータ交換のためのプロセスは、多数回実行することができる。

図１０では、ゲートウェイ７２０とホスト７１０との間のデータ転送を開始するために処理ユニット２が制御メッセージＭｅｍＷｒを送信しているが、他の実施形態では、ホスト７１０が、バッファ７２５とバッファ７３０を定期的に同期させることによって、このデータ転送を開始することができる。

図１１を参照すると、図１１は、本出願の実施形態による例示的な方法１１００を示している。この図は、ホストと、ネットワークインタフェースデバイス（すなわち、上記の実施形態で説明されるゲートウェイ）と、各々がローカルプログラムを実行することによってアプリケーションを走らせるように構成された処理ユニットとを含むシステムによって実行される方法１１００の概要を提供する。

Ｓ１１１０では、ホストは、ローカルプログラムを処理ユニットに転送する。

Ｓ１１２０では、各処理ユニットは、指定ストリームからの作業負荷データの要求を発行する。各処理ユニットによって指定されるストリームは、その処理ユニットに割り当てられたローカルプログラムに依存する。要求は、指定ストリームと共に、ネットワークインタフェースデバイスを介してホストに提供される。

Ｓ１１３０では、要求の各々の受信に応答して、ホストは、識別されたストリームからのデータを書き込む。ホストは、処理ユニットへの伝達のために、このデータをネットワークインタフェースデバイスに書き込む。処理ユニットは、ネットワークインタフェースデバイスメモリからデータを読み取る。

Ｓ１１４０では、処理ユニットは、Ｓ１１３０において受信した作業負荷データを使用して計算を実行するために、演算フェーズの間、演算を実行する。実行される計算は、各処理ユニットに提供されるローカルプログラムで指定されている。

Ｓ１１５０では、処理ユニットは、Ｓ１１４０の間のそれらのデータ処理の結果を交換し合う。このステップは、処理ユニットの同期グループ間でバリア同期を使用して実行される。そのようなバリア同期の時間及び同期グループの定義は、処理ユニットの各々に提供されるローカルプログラムで指定されている。

Ｓ１１５０におけるそのような外部バリア同期の各々に続いて、方法は、Ｓ１１４０に戻り、さらなるコンピュータフェーズの間にさらなる計算が実行される。

ローカルプログラムの実行における後の時点では、処理ユニットは、Ｓ１１６０に進み、ホストとデータ転送を開始するためのプロセスが始まる。このステップは、Ｓ１１４０又はＳ１１５０とオーバーラップし得る。

Ｓ１１６０では、処理ユニットは、ネットワークインタフェースデバイスを介して、ストリーム識別子をホストに提供する。

Ｓ１１７０では、ホストは、識別されたストリームのデータをネットワークインタフェースデバイスに書き込む。

Ｓ１１８０では、事前にコンパイル済みの同期バリアに続いて、処理ユニットは、ネットワークインタフェースデバイスから／への、識別されたストリームのデータの読み取り及び書き込みを行う。ネットワークインタフェースデバイスは、データをホストに書き込む。

各処理ユニットがステップＳ１１４０～Ｓ１１８０を同時に実行する必要はなく、１つ又は複数の他処理ユニット２がＳ１１８０のホストとのデータの交換を行っている間に、いくつかの処理ユニット２は、Ｓ１１４０の演算又はＳ１１５０のデータの交換を行うことができる。Ｓ１１５０においてバリア同期が処理ユニット２のグループ間で行われる時以外は、処理ユニットは、互いに非同期的に動作する。各処理ユニットによって実行されるようなステップの順序及びタイミングは、ホストによって処理ユニットに割り当てられているローカルプログラムに依存する。

外部交換５０’の間、通信は外部のみに限られないことに留意されたい。すなわち、いくつかのタイルは、単に、内部交換を実行することができ、いくつかのタイルは、外部交換のみを実行することができ、いくつかのタイルは、それらを混ぜ合わせて実行することができる。

図７を参照すると、図７は、データ処理システム７００の例を示しており、処理ユニット２は、ゲートウェイ７１０を介してホストシステム７２０と通信するように構成される。この例では、単一のゲートウェイ７１０が２つの処理ユニット２とネットワーク７４０を介して接続するように構成される。しかし、他の実施形態では、そのようなゲートウェイ７１０の各々は、異なる数（例えば、１つ）の処理ユニット２とネットワーク７４０を介して接続することができる。

本明細書で論じられる主要な例はＲｏＣＥを介してデータを送信するものであるが、他の例では、異なるネットワーク化技術を使用することができる。例えば、データは、通常のイーサネット（登録商標）上でデータプレーン開発キット（ＤＰＤＫ）を使用して、ネットワーク７４０上で送信することができる。しかし、ＲＤＭＡの使用は、低レイテンシという利点を有する。ＲＤＭＡ以外の異なるプロトコルが使用される実施形態では、図７及び９に示されるＲＤＭＡコントローラ７３５、７３６は、説明されるデータ転送動作を実行するために使用される他のタイプの処理回路であり得る。

示されるように、ホスト７２０は、処理ユニット２上で実行させるためにプログラムのセットをコンパイルするように構成された少なくとも１つのプロセッサ９１０を含む。アプリケーションに対してソースコードから生成されたローカルプログラムを合わせて、コンパイル済みのアプリケーションとなる。プログラムの各々は、実行可能なイメージの形態を取る。少なくとも１つのプロセッサ９１０は、ソースコードセットを受信し、コンパイラプログラムに基づいて、ソースコードからローカルプログラムのセットを生成する。コンパイルプロセスは、別個のローカルプログラムを生成し、処理ユニット２にわたってそれらを割り当てることを含む。ローカルプログラムを生成するためのコンパイルプロセスの一部として、少なくとも１つのプロセッサ９１０は、交換同期時点のセットを各ローカルプログラムに挿入する。ローカルプログラムの実行におけるこれらの時点の各々では、それぞれの処理ユニット２は、バリア同期に参加するように構成される。バリア同期のいくつかは、上記で説明されるような内部バリア同期である。バリア同期のいくつかは、アプリケーションを実行することに関与する１つ又は複数の他の処理ユニット２とデータを交換するための外部バリア同期である。バリア同期のいくつかは、付属のゲートウェイ７１０を介してホスト７２０とデータを交換するための外部バリア同期である。

バッファ７３０から作業負荷を得た後、処理ユニット２は、そのローカルプログラムに従ってその作業負荷を処理する。その実行の間のある時点において、処理ユニット２は、ストリームの表示を書き込み、その表示は、近々行われるバリア同期に続く交換フェーズにおいて読み取り又は書き込みが行われる。この書き込みは、処理ユニット２の演算フェーズの間又は先の交換フェーズの間に行うことができる。その後、プログラムの実行の間に、同期バリアに達する。この時点では、処理ユニット２は、図７に関して上記で説明される同期要求／確認応答手順を実行する。この手順に続いて、処理ユニット２は、バッファ７３０からの読み取り及び書き込みを行う。その際、処理ユニット２は、提供されたストリームの表示によって識別されたストリームに対応するバッファのメモリ領域からの読み取り及び書き込みを行う。そのストリームへのデータ書き込みに応答して、ゲートウェイ７１０は、バッファ７２５にデータを書き込む。従って、交換フェーズの間、ホスト７２０は、処理ユニット２から作業負荷データの処理の結果を受信し、処理ユニット２は、ホスト７２０からさらなる作業負荷データを受信する。

図１０では、ゲートウェイ７１０とホストシステム７２０との間のデータ転送を開始するために処理ユニット２が制御メッセージＭｅｍＷｒを送信しているが、他の実施形態では、ホストシステム７２０が、バッファ７２５とバッファ７３０を定期的に同期させることによって、このデータ転送を開始することができる。

Claims

複数のサブシステムの各々において実行されるローカルプログラムに従ってホストシステムに対するワークアクセラレータとして動作するする複数のサブシステムとネットワークを介して接続されるように構成されたホストシステムであって、
前記ホストシステムは、少なくとも１つのプロセッサと、コンピュータ可読命令を格納する少なくとも１つのメモリとを含み、
前記ホストシステムの少なくとも１つのプロセッサは、ローカルプログラムのセットをコンパイルするために前記コンピュータ可読命令を実行するように構成され、各ローカルプログラムは、複数のサブシステムのうちの１つにおいて実行されるものであり、ソースコードをコンパイルするステップは、同期グループのセットを定義することを含み、各同期グループは、前記サブシステムの少なくともいくつかを含み、
各ローカルプログラムは、
前記サブシステムの少なくとも１つのプロセッサによって実行される際に、前記サブシステムの複数の演算フェーズのうちの１つ又は複数の間に演算動作を実行するための演算命令セットと、
前記サブシステムの少なくとも１つのプロセッサによって実行される際に、前記ローカルプログラムの実行における事前に定義された時点において複数のバリア同期を実行するためのデータ転送命令セットを含み、前記バリア同期の少なくともいくつかは、前記同期グループのうちの１つの間で定義され、前記バリア同期の少なくとも１つは、ホストの関与を必要とする同期であり、ホストの関与を必要とする同期に続いて、データ転送の開始プログラムが前記サブシステムによってホストシステムに提供されることに応答して、前記サブシステムと前記ホストシステムとの間でデータ交換が実行され、
ホストシステムの少なくとも１つのプロセッサは、データ転送の受信された開始プログラムの各々に応答して、前記開始プログラムの受信元である前記サブシステムのうちの１つと前記ネットワーク上でデータを交換するように構成される、
ホストシステム。
前記開始プログラムの受信元である前記サブシステムのうちの１つとの前記ネットワーク上でのデータの交換が、リモートダイレクトメモリアクセスを使用して行われる、請求項１に記載のホストシステム。
前記ネットワークが、イーサネット（登録商標）ネットワークである、請求項１又は２に記載のホストシステム。
前記開始プログラムの受信元である前記サブシステムのうちの１つと前記ネットワーク上でデータを交換するステップは、
ホストシステムのバッファの少なくとも一部を、前記開始プログラムの受信元である前記サブシステムのうちの１つがアクセスすることができるネットワークインタフェースデバイスのバッファの少なくとも一部と同期させることを含む、請求項１～３のいずれか一項に記載のホストシステム。
データ転送の受信された開始プログラムの各々は、ホストサブシステムと識別子の受信元である前記サブシステムのうちの前記１つとの間のストリームの識別子を含み、
前記識別子の受信元である前記サブシステムのうちの１つと前記ネットワーク上でデータを交換する前記ステップは、それぞれの識別されたストリームに属するデータを送信する及び／又は受信することを含む、請求項１～４のいずれか一項に記載のホストシステム。
前記ホストシステムのバッファの少なくとも一部は、識別されたストリームと関連付けられたバッファの一部を含み、
前記識別子の受信元である前記サブシステムのうちの１つがアクセスすることができるネットワークインタフェースデバイスのバッファの少なくとも一部が、識別されたストリームと関連付けられたバッファの一部を含む、請求項４に従属する請求項５に記載のホストシステム。
前記開始プログラムの受信元である前記サブシステムのうちの１つと前記ネットワーク上でデータを交換する前記ステップは、
前記開始プログラムの受信元である前記サブシステムの前記ローカルプログラムにおいて定義される複数のバリア同期のうちの１つの前に、そのサブシステムがアクセスすることができるネットワークインタフェースデバイスにデータを送信することと、
前記開始プログラムの受信元である前記サブシステムの前記ローカルプログラムにおいて定義される複数のバリア同期のうちの前記１つに続いて、そのサブシステムがアクセスすることができる前記ネットワークインタフェースデバイスからデータを受信することと、
を含む、請求項１～６のいずれか一項に記載のホストシステム。
前記ホストシステムの少なくとも１つのプロセッサは、前記ローカルプログラムの各々を前記ネットワーク上でそれぞれのサブシステムに発送することを行わせるように構成される、請求項１～７のいずれか一項に記載のホストシステム。
ホストシステムとネットワークを介して接続されるように構成されたサブシステムであって、
前記サブシステムの少なくとも１つのプロセッサ上で実行されるローカルプログラムに従って前記ホストシステムに対するワークアクセラレータとして動作するように構成され、
前記ネットワーク上で前記ホストシステムから前記ローカルプログラムを受信するように構成されたインタフェースを含み、
前記ローカルプログラムは、
同期グループのセットの表示であって、前記同期グループの少なくともいくつかが、前記サブシステム及びホストに対するアクセラレータとして動作するための１つ又は複数のさらなるサブシステムを含む、同期グループのセットの表示と、
少なくとも１つのプロセッサによって実行される際に、前記サブシステムの複数の演算フェーズのうちの１つ又は複数の間に複数の演算動作を実行するための演算命令セットと、
少なくとも１つのプロセッサによって実行される際に、それぞれのローカルプログラムの実行における事前に定義された時点において複数のバリア同期を実行するためのデータ転送命令セットと、を含み、
前記バリア同期の少なくともいくつかは、前記同期グループのうちの１つのサブシステム間で定義され、前記バリア同期の少なくとも１つが、ホストの関与を必要とする同期であり、ホストの関与を必要とする同期に続いて、前記サブシステムによって前記ホストシステムにデータ転送の開始プログラムを送信することに続いて、前記ネットワーク上で前記サブシステムと前記ホストシステムとの間でデータ交換が実行される、
サブシステム。
前記サブシステムと前記ホストシステムとの間の前記データ交換は、リモートダイレクトメモリアクセスを使用して行われる、請求項９に記載のサブシステム。
前記ネットワークが、イーサネット（登録商標）ネットワークである、請求項９又は１０に記載のサブシステム。
前記サブシステムと前記ホストシステムとの間のデータ交換は、
少なくとも１つのプロセッサがサブシステム用のネットワークインタフェースデバイスのバッファとのデータ交換を行わせることを含み、
前記バッファの少なくとも一部は、前記ホストシステムの前記バッファの少なくとも一部と同期される、請求項９～１１のいずれか一項に記載のサブシステム。
データ転送の前記開始プログラムは、前記サブシステムとホストサブシステムとの間のストリームの識別子を含み、
前記サブシステムと前記ホストシステムとの間のデータ交換は、それぞれの識別されたストリームに属するデータを交換することを含む、請求項９～１２のいずれか一項に記載のサブシステム。
ネットワークインタフェースデバイスのバッファの少なくとも一部が、識別されたストリームと関連付けられたバッファの一部を含む、請求項１２に従属する時に請求項１３に記載のサブシステム。
前記サブシステムと前記ホストシステムとの間のデータ交換が、
前記開始プログラムの受信元である前記サブシステムの前記ローカルプログラムにおいて定義される複数のバリア同期のうちの１つの前に、そのサブシステムがアクセスすることができるネットワークインタフェースデバイスにデータを送信することと、
前記開始プログラムの受信元である前記サブシステムの前記ローカルプログラムにおいて定義される複数のバリア同期のうちの１つに続いて、そのサブシステムがアクセスすることができる前記ネットワークインタフェースデバイスからデータを受信することと、
を含む、請求項９～１４のいずれか一項に記載のサブシステム。
前記インタフェースは、前記ネットワーク上で前記ホストシステムから前記ローカルプログラムを受信するように構成される、請求項９～１５のいずれか一項に記載のサブシステム。
ホストシステムにおいて実施される方法であって、
複数のサブシステムの各々において実行されるローカルプログラムに従って前記ホストシステムに対するワークアクセラレータとして動作する複数のサブシステムとネットワークを介して接続することを含み、
複数のサブシステムのうちの１つにおいて実行されるローカルプログラムのセットをコンパイルすることを含み、
ソースコードをコンパイルするステップは、少なくともいくつかのサブシステムを含む同期グループのセットを定義することを含み、
各ローカルプログラムは、
前記サブシステムの少なくとも１つのプロセッサによって実行される際に、前記サブシステムの複数の演算フェーズのうちの１つ又は複数の間に演算動作を実行するための演算命令セットと、
前記サブシステムの少なくとも１つのプロセッサによって実行される際に、前記ローカルプログラムの実行における事前に定義された時点において複数のバリア同期を実行するためのデータ転送命令セットを含み、前記バリア同期の少なくともいくつかは、前記同期グループのうちの１つのサブシステム間で定義され、前記バリア同期の少なくとも１つは、ホストの関与を必要とする同期であり、ホストの関与を必要とする同期に続いて、データ転送の開始プログラムが前記サブシステムによって前記ホストシステムに提供されることに応答して、前記サブシステムと前記ホストシステムとの間でデータ交換が実行され、
データ転送の前記受信された開始プログラムの各々に応答して、前記開始プログラムの受信元である前記サブシステムのうちの１つと前記ネットワーク上でデータを交換することを含む、
方法。
ホストシステムの少なくとも１つのプロセッサに請求項１７に記載の方法を実行させるコンピュータプログラム。
ホストシステム用のサブシステムにおいて実施される方法であって、
ホストシステムとネットワークを介して接続することと、
前記ネットワーク上で前記ホストシステムからローカルプログラムを受信することと、
前記サブシステムの少なくとも１つのプロセッサ上で実行され、前記サブシステム及びホストに対するアクセラレータとして動作するための１つ又は複数のさらなるサブシステムを含む同期グループのセットの表示を含むローカルプログラムに従って、前記ホストシステムに対するワークアクセラレータとして動作することと、
前記サブシステムの複数の演算フェーズのうちの１つ又は複数の間に演算動作を実行するために前記ローカルプログラムの演算命令を実行することと、
前記ローカルプログラムの実行における事前に定義された時点において、前記同期グループのうちの１つのサブシステム間で定義されホストの関与を必要とする同期である複数のバリア同期を実行するために、前記ローカルプログラムのデータ転送命令を実行することと、
ホストの関与を必要とする同期に続いて、前記サブシステムによって前記ホストシステムにデータ転送の開始プログラムを送信することに続いて、前記ネットワーク上で前記ホストシステムとデータ交換を実行することと、
を含む、方法。
サブシステムの少なくとも１つのプロセッサに請求項１９に記載の方法を実行させるコンピュータプログラム。