JP7389231B2

JP7389231B2 - 同期ネットワーク

Info

Publication number: JP7389231B2
Application number: JP2022512773A
Authority: JP
Inventors: ポールヒューズラーズ
Original assignee: Graphcore Ltd
Current assignee: Graphcore Ltd
Priority date: 2019-12-23
Filing date: 2020-11-25
Publication date: 2023-11-29
Anticipated expiration: 2040-11-25
Also published as: US11902149B2; EP3973387A1; GB201919154D0; US20220070087A1; US11258699B2; CN114026829B; KR20220011681A; JP2022545697A; WO2021129992A1; GB2590661B; GB2590661A; US20210194793A1; CN114026829A

Description

本開示は、ワークアクセラレータとして作用するコンピュータサブシステムに接続されるゲートウェイに関し、特にゲートウェイにおける同期要求及び肯定応答の伝播の制御に関する。

複雑な又は大量のアプリケーションのためのデータ処理に関して、ワークアクセラレータは、特定のデータの処理がホストシステムからオフロードされる（ｏｆｆｌｏａｄｅｄ）サブシステムである。そのようなワークアクセラレータは、特定のタイプの処理を実行する専用ハードウェアを有する。

一例として、そのような専用アクセラレータサブシステムが有用である計算の１つの分野は、機械知能に見出される。機械知能の当業者によく知られているように、機械知能アルゴリズムは、複数の相互接続されたノードのグラフによって表すことができる「知識モデル」に対して反復的更新を実行することに基づく。各ノードの実施は、データの処理を含み、グラフの相互接続は、ノード間で交換されるデータに対応する。典型的には、各ノードの処理の少なくとも幾らかは、グラフ内の他のノードの幾つか又は全てから独立して実行することができ、したがって、大きいグラフは、マルチスレッド処理への大きい機会を明らかにする。したがって、機械知能用途に特化したワークアクセラレータは、大きい度合いのマルチスレッド処理を含み得る。並列処理の一形態は、同じチップ（すなわち同じダイ）上に複数のタイルの配置を含むプロセッサによって達成することができ、各タイルは、それ自体の別個の処理ユニット及びメモリ（プログラムメモリ及びデータメモリを含む）を含む。したがって、プログラムコードの別個の部分は、複数のタイルのうちの異なるタイルで並列に実行することができる。タイルは、データをその間で交換できるようにするオンチップ相互接続を介して一緒に接続される。そのようなアクセラレータは、提供されたデータセットの並列処理を実行する、ホストシステムのサブシステムとして機能し得る。

一般に、異なるタイルで実行されるプログラムの部分間に依存性が存在し得る。したがって、あるタイル上の１つのコードが、依存するデータが別のタイル上の別のコードによって提供されるよりも先に実行されないようにする技法が必要とされる。これを達成する幾つかのかの方式があり、その１つは、例として本明細書では「ＢＳＰ」バルク同期並列化（ｂｕｌｋｓｙｎｃｈｒｏｎｏｕｓｐａｒａｌｌｅｌ）として説明される。ＢＳＰによれば、各タイルは、計算フェーズ及び交換フェーズを交互サイクルで実行する。計算フェーズ中、各タイルは、１つ又は複数の計算タスクをタイルでローカルに実行するが、その計算のいかなる結果もいかなる他のタイルにも通信しない。交換フェーズにおいて、各タイルは、先の計算フェーズからの計算の１つ又は複数の結果をグループ内の他の１つ又は複数のタイルと交換することが許されるが、次の計算フェーズには依然として進まない。更に、ＢＳＰ原理によれば、バリア同期は、計算フェーズから交換フェーズに遷移する接合点、交換フェーズから計算フェーズに遷移する接合点又はこれらの両方に配置される。すなわち、（ａ）グループ内の任意のタイルが次の交換フェーズに進むことが許されるには、全てのタイルが先にそれぞれの計算フェーズを完了する必要があるか、若しくは（ｂ）グループ内の任意のタイルが次の計算フェーズに進むことが許されるには、グループ内の全てのタイルが先にそれぞれの交換フェーズを完了する必要があるか、又は（ｃ）それらの両方の何れかである。幾つかのシナリオでは、計算を実行中のタイルは、グループ内の他のタイルとの通信が関わらない限り、ネットワークカード又はストレージディスク等の他のシステムリソースと通信することが許されないことがある。

交換フェーズ中、データ交換は、アクセラレータ内で内部的に（すなわちタイル間で）行われる必要があるのみならず、幾つかの状況では複数のアクセラレータ間でも行われる必要がある。これらのアクセラレータの一部は、異なるゲートウェイに結合されるか、又は同じゲートウェイに結合され得る。

サブシステムを一緒に（直接又は間接的に）結合することによってサブシステムをスケーリングする場合、どのようにして、同期を、同期信号の伝送に使用されるケーブルの破断等のシステムにおける故障に対して耐性を有するようにできるかとの問題が生じ得る。

本発明は、データを外部ストレージからアクセラレータに提供し、それらを相互接続して、ワークアクセラレータとして作用するサブシステムをスケーリングすることができるゲートウェイの概念を使用する。アクセラレータは、交換フェーズにおいてデータをゲートウェイから受信し、続く計算フェーズにおいてデータを計算する。幾つかの形態のゲートウェイでは、ゲートウェイ自体がデータのアクティブプロセッサであり、そのデータフローを自律的に管理する。ゲートウェイは、外部ストレージと１つ又は複数のアクセラレータとの間の仲介として作用する。

ゲートウェイを使用して一緒にリンクし得る異なるサブシステムの数は、システムを通した１つ又は複数の同期信号の伝送を妨げ得る故障が生じた場合でも、データの同期をシステムにおいてどのように実行するかという課題を生じさせる。

ゲートウェイは、同期ネットワークにおける冗長性をサポートする。ゲートウェイは、同期ネットワーク内で異なる経路に沿って送信される冗長同期要求を提供するように構成された同期伝播モジュールを含む。これらの同期要求は、同期ネットワーク内の異なるマスタに向かって送信される。故障がパスの１つにおける点で生じる場合、ゲートウェイは、他のパスに沿って返された同期肯定応答を依然として受信する。したがって、同期ネットワークのパスの１つに故障がある場合でも、同期を完了することが可能である。

第１の態様によれば、少なくとも１つのホストを、少なくとも１つのホストに対してワークアクセラレータとして作用する１つ又は複数のサブシステムと接続するためのゲートウェイが提供され、本ゲートウェイは、サブシステムの計算フェーズと交換フェーズとの間のバリアとして作用する、サブシステムによって到達される事前コンパイル済みデータ交換同期点において、１つ又は複数のサブシステムへの及びそれからのデータの転送を可能にし、本ゲートウェイは、１つ又は複数の同期伝播回路を含み、同期伝播回路の少なくとも１つは、後の事前コンパイル済みデータ交換同期点において同期ネットワークのサブシステム間で同期を実行するための１つ又は複数の同期要求を同期ネットワーク内の１つ又は複数の下流パスから受信することと、１つ又は複数の同期要求の受信に応答して、複数の同期要求を同期ネットワーク内で異なるパスに沿って上流に伝播させることと、複数の同期要求の伝播に続いて、異なるパスの少なくとも１つから少なくとも１つの同期肯定応答を受信することと、少なくとも１つの同期肯定応答の受信に応答して、１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させることとを行うように構成される。

幾つかの実施形態では、同期伝播回路の少なくとも１つは、少なくとも１つの同期肯定応答のうち、最初の同期肯定応答の受信に応答して、タイマを開始することと、異なるパスの全てから同期肯定応答を受信することなく、タイマによって定義された所定の期限が切れたことに応答して、続けて、タイマが切れる前に同期肯定応答が受信されなかった同期ネットワーク内の異なるパスの各々に沿って同期要求を伝播させることなく、更なるデータ交換同期点のための１つ又は複数の同期要求を同期ネットワーク内で上流に伝播させることと、を実行するように構成される。このようにしてタイマを使用することにより、同期ネットワーク内の故障したパスを検出し得る。システムは、もはや故障したパスに沿って同期要求を伝播させないことにより、これらの故障したパスに応答することが可能である。

本発明をよりよく理解し、本発明をどのように実施し得るかを示すために、ここで、添付の図面を例として参照する。

複数のタイルを含むプロセッサチップの概略ブロック図である。バルク同期並列（ＢＳＰ）計算モデルの概略図である。ＢＳＰモデルの別の概略図である。アクセラレータとゲートウェイとの間の同期要求／肯定応答の交換の概略図である。複数のプロセッサチップのシステムの別の概略図である。ホストとの同期が関わるプログラムフローを概略的に示す。アクセラレータ、ゲートウェイ及びホストを含むシステムを概略的に示す。ゲートウェイを通る異なるデータパスの概略図である。ゲートウェイを使用したアクセラレータ及びホストの集約を概略的に示す。ゲートウェイを通るデータフローの概略図である。アクセラレータ、ゲートウェイ及びホストを含むシステムの概略図である。複数のアクセラレータ及びゲートウェイを含む機械の概略図である。複数の機械を含むポッドの概略図である。データをデプロイし、計算する一例の方法を示す。３つのゲートウェイ間の同期要求及び肯定応答の交換の概略図である。アクセラレータによってプルされるゲートウェイ転送メモリにデータをプリロードすることの概略図である。ゲートウェイがプルモデルに従って動作する、ゲートウェイを通してデータをアクセラレータにストリーミングする方法を示す。シャーシグループ内の複数のシャーシの概略図である。システム内の複数のシャーシグループの概略図である。シャーシグループ内のゲートウェイ間の冗長同期要求の伝送を示す。冗長性を実施する４シャーシグループシステム内の同期配線を示す。ゲートウェイ内の同期伝播回路例の概略図である。第４のゲートウェイのモジュールによる同期要求の伝播を示す。第１のゲートウェイ又は第２のゲートウェイのモジュールによる同期要求の伝播を示す。第３のゲートウェイのモジュールによる同期要求の伝播を示す。第３のゲートウェイのモジュールによる同期肯定応答の伝播を示す。第１のゲートウェイ又は第２のゲートウェイのモジュールによる同期肯定応答の伝播を示す。第４のゲートウェイのモジュールによる同期肯定応答の伝播を示す。冗長性を実施する１６シャーシグループシステム内の同期配線を示す。本願の実施形態による方法の一例を示す。

以下の説明で本願の種々の実施形態を更に詳細に説明する。本願は、ホストシステムのワークアクセラレータとして作用するサブシステム、及び、複数のそのようなサブシステムの組合せに関する。サブシステムは、主に反復処理を受ける大量のデータを必要とするプロセスを実行中であるホストによって割り振られたデータセット（ワーク）に対して、所定の処理ステップを実行するアクセラレータとして作用する。各サブシステムは、いわゆる知的処理ユニット（ＩＰＵ）又は任意のクラスのアクセラレータ（ＸＰＵ）であり得る。本明細書に記載の技法は、その内容が参照により本明細書に援用される、本願と同じ出願人による先の米国特許出願公開第１５／８８５９２５号明細書に記載されているＩＰＵと併用することができるが、任意のアクセラレータに適用することも可能である。より詳細に説明するように、幾つかのアクセラレータを結合して、アクセラレータ機又は設備を形成し得る。幾つかのアクセラレータ設備は、シャーシ内で組み合わされ得る。複数のシャーシは、ラックに配置することができるグループに編成され得る。その結果としてのアクセラレータの組合せは、並列動作を実行する大量の処理力を有するシステムを生成することができる。これは、特に、人工知能用途でニューラルネットワーク処理を実施するために有用である。本明細書で展開される原理は、同様に、潜在的に単一のラックを超えてスケーリングするために使用することもできる。

本願は、そのようなアクセラレータの有効性を改善するにあたり、幾つかの利点を有する新規のゲートウェイに関する。ゲートウェイは、アクセラレータによる処理のためのデータセットを提供する１つ又は複数のホストシステムからアクセラレータを分離することを可能にする。これには、幾つかの利点がある。第１に、１ホスト当たりのアクセラレータの数をユーザ構成可能にすることができ、ホストの物理的容量を超えて増大可能とする。第２に、アクセラレータＩ／Ｏをホストから切り離せるようにし、Ｉ／Ｏ容量をアクセラレータの数の関数としてスケーリングできるようにする。第３に、分離により、複数のホストが、アクセラレータリソース及び関連するホストのライフサイクル管理をサポートする明確に定義されたＡＰＩを通して、需要に応じてホストに割り振られ、グループ化されるアクセラレータリソースの組を利用できるようになる。

各アクセラレータは、単一のチッププロセッサであり得る。図１は、複数のプロセッサタイル４のアレイ６と、タイル４間を接続するオンチップ相互接続３４とを含む単一のチッププロセッサ２、すなわち単一のダイを示す。プロセッサタイル４は、集合的に、１つ又は複数のＡＩモデルの計算を実行し得る。チップ２は、単一のチップ集積回路パッケージ上に単独で実装され得るか、又は同じＩＣパッケージにパッケージされた複数のダイの１つとして実装され得る。オンチップ相互接続は、タイル４がデータを交換できるようにするため、本明細書では「交換ファブリック」３４と呼ばれることもある。各タイル４は、ローカル命令メモリからの命令（コード）を実行し、ローカルデータメモリ内のデータを取り扱うことが可能な処理ユニットである。タイル４は、バレルスレッドの処理ユニット１０及びメモリ１１の各インスタンスを含み得る。例えば、例示として、チップ２は、約数百枚のタイル４又は千を超えるタイル４で構成され得る。完全を期すために、本明細書で参照する「アレイ」は、必ずしもタイル４のいかなる具体的な数の寸法又は物理的レイアウトも暗示しないことにも留意されたい。

各チップ２は、１つ又は複数の外部リンク８も含み、チップ２を１つ以上の他のもの（例えば、同じチップ２の１つ又は複数の他のインスタンス）上の外部プロセッサに接続できるようにする。これらの外部リンク８は、同じＩＣパッケージ若しくはカード又は異なるカード上のチップ２の１つ又は複数の他のインスタンスと一緒に接続するためのチップ間リンクとして作用し得る。チップ２の複数のインスタンスをチップ間リンクによって一緒に接続して、（後述する図１２に示すように）カードにすることができる。チップは、詳細に後述するゲートウェイにチップを接続するコネクタ９も有する。本明細書に記載の目的のために、全てのアクセラレータがゲートウェイコネクタ９を有する必要があるわけではなく、少なくとも幾つかがゲートウェイコネクタ９を有する必要があることに留意されたい。一構成例では、チップ２は、チップ２によって処理される入力データの形態において、ホストによって割り振られたゲートウェイからワークを受け取る。ホストへの言及は、代わりに、ネットワーク接続ストレージ（ＮＡＳ）等のオフチップストレージシステムへの言及も暗示し得ることに留意されたい。ゲートウェイは、ホスト又はＮＡＳからのデータを、単一のチッププロセッサ２として又は場合により複数の相互接続されたカードに配置された複数の単一のチッププロセッサ２として設計された１つ又は複数のアクセラレータに提供できるようにする。ゲートウェイは、以下で詳述するように、アクセラレータとホストとの間の中継及び離解を可能にする。

相互接続３４は、アレイ６内の異なるプロセッサタイル４がチップ２上で互いに通信できるようにするように構成される。本出願人による先の特許出願に記載のＩＰＵでは、アクセラレータ２上のタイル４間の通信は、時間決定論的に行われる。しかしながら、他の形態のタイル間交換も可能である。アレイ６内の異なるタイル４上で実行中のプログラムの部分間に依存性があり得る。すなわち、あるタイルでのデータ処理は、別のタイルからの結果に依存し得、例えば、あるタイルでのデータ処理は、結果を提供し得、別のタイルは、その結果に依存する。したがって、あるタイル４上の１つのコードが、依存するデータが別のタイル４上の別のコードによって提供されるよりも先に実行されないようにする技法が必要とされる。

ＡＩ及びデータサイエンスの並列プログラミングモデルは、通常、計算、バリア、交換との３フェーズ反復実行モデルに従う。アクセラレータとのデータ転送が、通常、アクセラレータ間及び各アクセラレータとホストとの間にデータ一貫性を提供するためにバリア依存であることが含意されている。典型的に使用されるデータ一貫性モデルは、バルク同期並列（ＢＳＰ）、陳腐化同期並列（ＳＳＰ）（ＳｔａｌｅＳｙｎｃｈｒｏｎｏｕｓＰａｒａｌｌｅｌ）、及び、非同期（Ａｓｙｎｃｈｒｏｎｏｕｓ）である。

ＳＳＰでは、複数のワーカスレッドのうちの高速ワーカスレッドを、低速ワーカスレッドよりも数クロックサイクル分先んじて実行することが許される。ワーカスレッドは、ある範囲のタイムスタンプを有する共有パラメータに対して行われた更新を見ることが可能である。例えば、クロックｔにおけるワーカは、ｔ－Δのタイムスタンプを有する更新までのワーカからの全ての更新を見ることが可能である。

ＢＳＰは、Δ＝０であり、複数のワーカが互いに先んじて実行されることが禁止されているＳＳＰの特殊な場合である。

非同期データ一貫性モデルでは、共有パラメータは、随時読み出し及び／又は書き込みされ得る。

本明細書に記載の本発明の実施形態は、ＢＳＰモデルを使用するが、他のデータ一貫性モデルを代替として利用できることが明らかになるであろう。

図２及び図３を参照すると、図２及び図３は、各タイル４がタイル間のバリア同期３０によって互いに隔てられた計算フェーズ３３及び交換フェーズ３２を交互サイクルで実行するＢＳＰ交換方式の一実装形態を示す。図２及び図３によって示される実施例では、バリア同期は、各計算フェーズ３３と、続く交換フェーズ３２との間に配置される。計算フェーズ３３中、各タイル４は、１つ又は複数の計算タスクをタイル上でローカルに実行するが、これらの計算の何れの結果も何れの他のタイル４とも通信しない。交換フェーズ３２では、各タイル４は、先の計算フェーズからの計算の１つ又は複数の結果を１つ又は複数の他のタイルと交換することが許されるが、そのタスクが依存する任意のデータを他のタイル４から受信するまで、いかなる新しい計算も実行しない。先の計算フェーズで計算されたもの以外、いかなるデータもいかなる他のタイルにも送信しない。内部制御関連の動作等の他の動作が交換フェーズで実行され得ることも除外されない。同期中のグループ内の他のタイル４との通信をしない限りにおいては、計算を実行中のタイル４は、計算フェーズ３３中、同期中のタイル４のアレイの外側にあるゲートウェイと通信することが許され得ることにも留意されたい。タイルグループの外部の通信は、任意に、ＢＳＰメカニズムを利用し得るが、代替的に、ＢＳＰを利用せず、代わりに何らかの他の同期メカニズムを利用し得る。

ＢＳＰ原理によれば、バリア同期３０は、計算フェーズ３３から交換フェーズ３２に遷移する接合部若しくは交換フェーズ３２から計算フェーズ３３に遷移する接合部又はそれらの両方に配置される。すなわち、（ａ）グループ内の任意のタイルが次の交換フェーズ３２に進むことが許されるには、全てのタイル４が先にそれぞれの計算フェーズ３３を完了する必要があるか、若しくは、（ｂ）グループ内の任意のタイルが次の計算フェーズ３３に進むことが許されるには、グループ内の全てのタイル４が先にそれぞれの交換フェーズ３２を完了する必要があるか、又は、（ｃ）それらの両方の条件が満たされるかの何れかである。３つ全ての変形において、フェーズ及び同期するアセンブリ全体を変更するのは、個々のプロセッサである。交換フェーズ及び計算フェーズのシーケンスは、次いで、複数の反復にわたり繰り返され得る。ＢＳＰ用語では、交換フェーズ及び計算フェーズの各反復は、「スーパーステップ」と呼ばれることがある（しかし、文献でこの用語が一貫して常に使用されるわけではないことに留意されたい。個々の各交換フェーズ及び計算フェーズが個々にスーパーステップと呼ばれることもあれば、他の箇所では、本明細書に採用される用語と同様に、交換フェーズ及び計算フェーズが一緒にスーパーステップと呼ばれることもある）。

同じチップ２又は異なるチップ上のタイル４の複数の異なる独立グループは、互いに非同期で動作する別個の各ＢＳＰグループをそれぞれ形成できることが除外されないことにも留意されたく、計算、同期及び交換のＢＳＰサイクルは、所与の各グループ内のみに課されるが、各グループは、他のグループから独立してそれを行い、すなわち、マルチタイルアレイ６は、各々が独立し、他のグループと非同期に動作する複数の内部同期グループを含み得る。幾つかの実施形態では、より詳細に後述するように、同期及び交換の階層グループ化がある。

図２は、（ａ）計算フェーズ３３から交換フェーズ３２へのバリア同期（上記を参照されたい）を課す場合にアレイ６内のタイルの幾つか又は全てのグループ４ｉ、４ｉｉ、４ｉｉｉ内で実施されるＢＳＰ原理を示す。この構成では、幾つかのタイル４は、他の幾つかのタイルが依然として交換中である間、計算３３を開始することが許されることに留意されたい。

本明細書に開示の実施形態によれば、このタイプのＢＳＰは、機械コード命令に、バリア同期を実行する追加の特別な専用機能、すなわち同期命令を組み込むことによって促進され得る。同期命令は、タイルのプロセッサで実行され得、それによりデータが交換されて、タイルのメモリに記憶されたデータを同期させる交換フェーズを開始する。

上記のように、幾つかのアクセラレータ、例えばＩＰＵを組み合わせて、単一のアクセラレータと比較して改善された処理力を有するアクセラレータ機１６１を生成することが可能である。そのようなアクセラレータ機１６１を図１２に示す。アクセラレータ機１６１は、リンク８によって近隣に接続された各アクセラレータ及びアレイ状に接続された複数（この例では４つ）のアクセラレータ１６２を含む。アクセラレータ機１６１は、アクセラレータ機１６１を１つ又は複数のホスト（図示せず）に接続するように構成された２つのゲートウェイ１６３も含む。各ゲートウェイ１６３は、ゲートウェイリンク９を介して４つのアクセラレータ１６２の２つに接続される。

更に詳細に説明するように、ゲートウェイ１６３は、データ交換同期点に続いて、交換フェーズにおいて接続されたアクセラレータ１６２とデータを交換することが可能である。データ交換同期点は、アクセラレータで実行中の事前コンパイルされたコードの一部である同期命令の実行の結果としてトリガーされる。データ交換同期点の開始時、同期命令をタイルのプロセッサで実行し得る。アクセラレータ１６２の１つ又は複数のタイルによる１つ又は複数の同期命令の実行は、１つ又は複数の同期要求を１つ又は複数のタイルによって発行させる。これらの同期要求は、アクセラレータ１６２によって集計され、アクセラレータ１６２は、次いで、関連するゲートウェイ１６３に集計同期要求を発行する。ゲートウェイは、接続されて、ゲートウェイ間で同期信号を伝送し、複数のゲートウェイ及びアクセラレータで同期ゾーンを形成できるようにし得る。同期信号の一機能は、ＢＳＰモデルの交換フェーズにおいてゲートウェイ１６３と関連するアクセラレータ１６２との間でのデータ交換を促進することであるが、他の非データ関連用途も有する。各ゲートウェイ１６３は、ローカルメモリを有し、データ交換同期点でアクセラレータに送信されるデータを取得（ホストから、リモートストレージから又は別のゲートウェイから）し記憶するように構成される。データは、アクセラレータ１６２からの同期要求前にローカルメモリに記憶され、したがってアクセラレータに転送される準備ができている。ゲートウェイの一機能は、アクセラレータがデータを必要とするとき、要求されたデータをアクセラレータに供給することである。データは、後に論考する異なるメカニズムによりホスト又はリモートストレージからゲートウェイによって取得することができる。

各ゲートウェイ１６３は、他のゲートウェイとデータを交換するようにも構成される。ゲートウェイ１６３は、アクセラレータ１６２に送信されるデータのコピーを他のゲートウェイに配信し得る。これらの他のゲートウェイは、次いで、接続されたアクセラレータ１６２にデータを配信し得る。したがって、データのコピーを受信する他のゲートウェイは、ストレージ（例えば、ホスト又はリモートストレージ）からデータを独立して取得する必要がなく、それにより冗長データが複数のゲートウェイによってストレージから検索されないようにする。これについて、より詳細に後述する。更に、より詳細に後述するように、ゲートウェイ１６３は、複数の異なるタイプのデータ転送を可能にするように構成される。ゲートウェイ１６３は、他のゲートウェイとデータを交換するように構成される。ゲートウェイ１６３は、結合された１つ又は複数のアクセラレータ１６２とデータを交換するように構成される。ゲートウェイ１６３は、１つ又は複数のホスト（図示せず）とデータを交換するように構成される。

図４を参照すると、図４は、アクセラレータ５１の１つ又は複数のタイル５３が同期要求をゲートウェイ５２に発行する場合、同期要求／肯定応答メカニズムがどのように機能するかの一例を示す。

ゲートウェイ５２は、実行されるその後の同期の同期ゾーンの指示を含むゲートウェイ同期レジスタ５９を含む。レジスタ５９は、ゲートウェイ５２内の共有レジスタブロック（ＳＲＢ）で実施され得る。ゲートウェイ５２は、通信する別個のアクセラレータに別個のゲートウェイ同期レジスタを含む。図４は、アクセラレータ５１のゲートウェイ同期レジスタを示す。バリア同期前に、アクセラレータ５１のタイル５３は、その後の同期について属する同期ゾーンの指示３２を送信するように構成される。より詳細に後述するように、本願の実施形態によれば、同期ゾーンの指示は、ゲートウェイにおける同期要求及び肯定応答（ａｃｋｎｏｗｌｅｄｇｍｅｎｔ）の伝播を制御することによって同期ゾーンを確定する。アクセラレータ５１のタイル５３の多くは、同じ同期ゾーンに属し得るため、コンパイラは、指示３２の書き込みに対して特定の同期ゾーンに属するタイルをノミネートする。同期ゾーンは、何れのタイルが一緒に同期に関わるべきかを示す。幾つかの場合、同期ゾーンは、同じチップ上のタイル５３のみを含み得、その場合、ゲートウェイが関わらないことが理解される。他の場合、同期ゾーンは、異なるチップ上のタイル５３を含む外部同期であり得る。幾つかの場合、同期ゾーンは、異なるアクセラレータ上のタイルを含む。幾つかの場合、同期ゾーンは、ゲートウェイ、ホスト及び／又はリモートストレージを含む。

同期ゾーンの指示は、ここでは、同期要求とは別個に送信されるものとして提示されるが、幾つかの他の実施形態では、指示は、アクセラレータ５１から受信される同期要求５６の一部として又は同期要求がアサートされる前に提供される帯域外（例えば、ＰＣＩｅ書き込み）同期情報の一部として提供され得る。

データ交換同期点は、アクセラレータ５１のタイル５３で実行中のコードで事前コンパイルされた同期命令の結果としてトリガーされる。データ交換同期点の開始時、１つ又は複数の同期命令は、タイル５３の１つ又は複数のタイルのプロセッサで実行され得る。同期命令を実行する各タイルは、同期要求を送信し、同期要求は、アクセラレータ５１の同期ロジック５４において受信される。同期ロジック５４は、これらの同期要求５５を集計し、集計された同期要求５６をゲートウェイ５２に送信する。

ゲートウェイ５２は、アクセラレータ５１から同期要求５６を受信し、同期バリアを通過できるようにし得る。これは、同期要求５６に応答して同期肯定応答５７をアクセラレータ５１に送信することを含む。同期バリアを通過できるようにすると、アクセラレータ５１のタイル５３と互いに、幾つかの状況ではゲートウェイ５２自体とデータを交換させる。ゲートウェイ５２とのデータ交換は、ホスト（図示せず）からゲートウェイ５２において受信されたデータがアクセラレータ５１の１つ又は複数のタイル５３に転送されることを含み得る。ゲートウェイ５２とのデータ交換は、別のゲートウェイ（図示せず）からゲートウェイ５２において受信したデータがアクセラレータの１つ又は複数のタイル５３に転送されることを含み得る。他のゲートウェイから受信したデータは、別のアクセラレータから発信されたものであり得る。これは、ゲートウェイを介してアクセラレータ間のデータ交換を達成し得る１つのメカニズムである。他のゲートウェイから受信したデータは、別のホストから発信されたものであり得る。別のメカニズムは、ゲートウェイの設備を通して、ゲートウェイに接続された１つのアクセラレータが、ゲートウェイ間のファブリックポートを介して、別のゲートウェイに接続された別のアクセラレータに直接書き込めるようにする。これを達成するために、アクセラレータ／ゲートウェイの各グループ（すなわちシャーシ／グループ／ラック等）内の全ての記憶場所は、単一のグローバルアドレス空間の一部を形成する。

ゲートウェイ５２は、３つのデータ交換境界、（ｉ）ゲートウェイ－アクセラレータ、（ｉｉ）ゲートウェイ－外部、及び（ｉｉｉ）ゲートウェイ－ゲートウェイ、を有する。これらは、異なる要件を有し、したがって異なるプロトコルによって管理される。しかしながら、アクセラレータ５１によって要求されたとき（すなわち同期時）、アクセラレータ５１のデータがゲートウェイメモリで利用可能であるが、ゲートウェイ５２のデータを記憶するゲートウェイメモリがオーバーフローしないようにコーディネートされる必要がある。

述べたように、同期前に、アクセラレータのタイル５３のグループの同期ゾーンについての指示がレジスタ５９に記憶される。幾つかの実施形態では、このレジスタ５９への書き込み５０は、好ましくは、同期要求５６をゲートウェイ５２に発行する前に行われる。好ましくは、タイルは、前の交換フェーズの終了時又は対応する同期が行われる交換フェーズ前の計算ステップの開始時に指示を送信する。レジスタ５９への別個の書き込み５０が各同期バリアで実行される。同期要求５６を受信すると、ゲートウェイ５２は、レジスタ５９から、同期要求に対応する指示を消費するように構成される。ゲートウェイ５２は、同期要求５６に対応する指示がレジスタ５９に書き込まれた場合にのみ、同期要求の肯定応答５７をアクセラレータ５１に送信するように構成される。換言すれば、ゲートウェイ５２は、最後のバリアから値がリフレッシュされた場合にのみ、同期要求への肯定応答５７をアクセラレータ５１に送信する。

例えば、アクセラレータの１つ又は複数のタイル５３が計算フェーズの終わりまで同期ゾーンを決定することができなかったために同期ゾーンの指示のレジスタ５９への書き込みに遅延が生じた場合、レジスタが同期ゾーンの対応する指示で更新される前に同期要求を受信し得る。この場合、ゲートウェイ５２は、レジスタ５９が同期ゾーンの対応する指示を受信するまで肯定応答５７の送信を待つ。したがって、システムは、レジスタ５９がリフレッシュされることを待つ間、小さいレイテンシヒットを受け得る。

ゲートウェイ５２は、レジスタ５９に記憶された同期ゾーンの指示を使用して同期肯定応答５７を生成し、正しいタイル、チップ及び／又はアクセラレータに送信する。例えば、同期ゾーンの指示が、同期ゾーンがアクセラレータ５１を含み、加えて更なるアクセラレータ（図示せず）を含むというものである場合、ゲートウェイ５２は、同期要求の受信に応答して、同期肯定応答をアクセラレータ５１に送信するとともに、更なるアクセラレータにも送信する。ゲートウェイ５２は、同期ゾーンの指示をレジスタ５９から読み取り、この指示に応じて、同期肯定応答又は要求５７をそれに従って伝播させ得る。

アクセラレータ５１によってレジスタ５９に書き込まれる情報は、ゲートウェイ５２自体からのデータ転送が同期の一環として要求されるか否かの指示を含む。この指示は、レジスタ５９に記憶された同期ゾーンの指示から暗示され得る。データ転送が要求されるとゲートウェイ５２が判断する場合、ゲートウェイ５２は、クレジット制御メカニズムを適用して、同期バリアの通過を許すか否かを判断する。データ転送が要求されないとゲートウェイ５２が判断する場合、ゲートウェイ５２は、クレジット制御メカニズムを適用せずに同期肯定応答５７をアクセラレータ５１に送信する。クレジット制御メカニズムについて、ゲートウェイ５２のストレージ（後述するローカル同期バリアモジュール（ＬＳＢＭ））に第１の組のクレジット（ＥＳＰ（交換同期点）クレジットと呼ばれる）の１つ又は複数がある場合、ゲートウェイ５２は、同期肯定応答５７をアクセラレータ５１に送信し、同期のデータをゲートウェイメモリ（図４に示さず）からアクセラレータ５１に転送することにより、同期要求５６の受信に応答して同期バリアを通過させるように構成される。利用可能なＥＳＰクレジットがゼロである場合、ゲートウェイ５２は、同期要求５６に対して肯定応答５７せず、データは、ゲートウェイメモリ（図４に示さず）からアクセラレータ５１に転送されず、したがって同期をストールさせる。このクレジット制御メカニズムについては、より詳細に後述し、このメカニズムは、ゲートウェイ５２及びアクセラレータ５１が互いに関してＢＳＰプロトコルで同期された状態を保てるようにする。

幾つかの実施形態では、ゲートウェイ５２及びアクセラレータ５１は、ゲートウェイ５２が要求されたデータを正しいときにアクセラレータ５１に提供できるようにする事前コンパイルされたコードをそれぞれ含む。

アクセラレータ５１の同期ロジック５４が同期要求５６を送信した後、同期ロジック５４は、ゲートウェイ５２からの同期肯定応答（ｓｙｎｃ＿ａｃｋ）５７を待つ。アクセラレータ５１の同期ロジック５４は、同期肯定応答５７をゲートウェイ５２から受信すると、同期肯定応答信号５７（ｓｙｎｃ＿ａｃｋ）を、同期要求５５を発行したタイル５３に返す。同期を要求した全てのタイル５３は、自動的に、外部の同期ロジック５４からの同期肯定応答５８（ｓｙｎｃ＿ａｃｋ）が返されるまで一時停止する。同期肯定応答５８に応答して、タイル５３は、スーパーバイザの命令発行を再開し、すなわち計算フェーズに再び入る。

実際のデータ（コンテンツ）は、同期要求５５／５６及び同期肯定応答５７／５８への異なるチャネルによってアクセラレータタイル５３とゲートウェイ５２との間で送信され得る。更に、当業者であれば、本明細書に開示する同期及び集計機能の仕様を所与として、開示される同期及び集計機能を実施する異なるタイプの回路を構築可能であることを理解するであろう。例えば、同期ロジック５４は、同期要求５６及び同期肯定応答５７／５８の送信に専用配線を使用することができる。同期ロジック５４は、専用配線の代替として、代わりに相互接続を経由して運ばれるパケットを使用することもできる。例えば、同期要求５５／５６及び／又は同期肯定応答５７／５８は、それぞれ１つ又は複数のパケットの形態で送信することができる。例えば、同期要求５５／５６及び／又は同期肯定応答５７／５８は、それぞれ１つ又は複数のパケットの形態で送信することができる。

図５を参照すると、図５は、同期ゾーンの概念をより詳細に示す。図５は、２つの異なる可能な同期ゾーン、例えばゾーン１又はゾーン２を示す。実施形態では、これらは、異なる階層レベルに対応する。すなわち、各上位階層レベル９２（例えば、ゾーン２）は、少なくとも１つの下位階層レベルの２つ以上のゾーン９１Ａ、９１Ｂを包含する。図９を一例として使用すると、２つの左端のゲートウェイ及びアクセラレータは、２つのゲートウェイの一方がマスタである同期ゾーン０を有し得る。同様に、右端の２つのゲートウェイ及びアクセラレータも、２つのゲートウェイの一方がマスタである同期ゾーン０を有し得る。次いで、図全体である同期ゾーン１が更に存在し得る（次いで、何れかの任意のゲートウェイが同期マスタとしてノミネートされ得る）。

その場合、同期の幾つかの階層がプログラムにより利用可能となる。
１．内部アクセラレータのみ同期－同じアクセラレータ上のタイルが同期し得る。
２．ＩＰＵ＋ゲートウェイのみ（データ）同期－（例えば、データ交換を調整するために）ゲートウェイに同期を求める単一のアクセラレータ。
３．左端同期ゾーン０（各ゲートウェイにクレジットあり又はなし）。
４．右端同期ゾーン０（各ゲートウェイにクレジットあり又はなし）。
５．同期ゾーン１（各ゲートウェイにクレジットあり又はなし）。

レジスタ５９に書き込まれる情報は、同期へのゲートウェイの関与（すなわちそのデータがゲートウェイ５２とアクセラレータ５１との間で転送されるべきであること）を示し得る。したがって、対応する同期命令が実行されるとき、アクセラレータ５１とゲートウェイ５２との間のデータ交換が行われる。指示は、ゲートウェイ５２以外の更なるゲートウェイの関与を示し得、その場合、アクセラレータ５１は、ゲートウェイ５２を介してその更なるゲートウェイと通信し得る。更なるゲートウェイの関与が示される場合、アクセラレータ５１からの同期要求は、（ゲートウェイ５２で受信した他の同期要求と集計された後）更なるゲートウェイに向かって上流に渡され得る。ゲートウェイ５２は、更なるゲートウェイからの同期肯定応答を待ってから、同期肯定応答をアクセラレータに提供する。このシナリオについて、図８に関連してより詳細に後述する。

アクセラレータ５１から同期要求を受信したことに応答して、ゲートウェイ５２は、同期肯定応答５７をアクセラレータ５１に送信する。アクセラレータ内の専用ハードウェア同期論理５４は、ゲートウェイから同期肯定応答（ｓｙｎｃ＿ａｃｋ）５７を受信し、同期肯定応答５８を同期ゾーンのタイル４に送信する。同期論理５４は、同期要求（ｓｙｎｃ＿ｒｅｑ）５５がそのゾーン内の全てのタイル４から受信されてからのみ、同期肯定応答信号５８（ｓｙｎｃ＿ａｃｋ）をシグナリングされた同期ゾーン内のタイルに返す（しかし、グローバル同期でない場合、そのゾーン外部のいかなる他のタイルも待たない）。

他の実施形態では、レジスタ５９内の指示によって指定することができる同期ゾーンは、階層を有する性質のものに限定されないことに留意されたい。一般に、レジスタ５９内の指示は、任意の種類のグループ化に対応するモードで提供し得る。例えば、モードは、１つの非階層グループのみ又は階層グループ及び１つ又は複数の非階層グル－プ（少なくとも１つのグループは、別のグループ内に完全にはネストされない）の混合の中からの選択を可能にし得る。これにより、有利には、最小のコード密度で、プログラマ又はコンパイラが、より広い同期が要求されるまで、互いに非同期で実行することができる内部同期グループの異なるレイアウト間で選択する柔軟性が可能になる。

説明したように、同期バリアによっては、ゲートウェイを介して提供されるホストからのデータとのアクセラレータのタイルの同期に関わるものもあれば、関わらないものもある。グローバル同期ゾーン９２の例を図６に概略的に示す。システムは、ホスト６３によって提供されるデータとの同期も求めるバリア９０が課される前にＮ個のスーパーステップを実行し、Ｎ個の同期バリア８０を通過することが許される。同期バリア９０において、ホスト６３からゲートウェイ５２に転送されたデータは、ゲートウェイ５２からアクセラレータ５１に転送される。Ｎ個の同期バリアは、関連する同期グループ９２内の全ての（非棄権）タイル４からの同期要求を要求する。これらの同期要求は、集計され、ゲートウェイ５２に渡され、ゲートウェイ５２は、集計された要求に対して肯定応答する。続く同期バリア８０も、同期グループ９２内の全ての（非棄権）タイル４からの同期要求を要求する。これらの同期要求は、集計され、ゲートウェイ５２に渡され、ゲートウェイ５２は、適したＥＳＰクレジットがゲートウェイ５２で利用可能である場合にのみ、集計された要求に肯定応答する。換言すれば、同期バリア８０を通過するには、ゲートウェイが特定のバリアを通過するために少なくとも１つのＥＳＰクレジットを記憶していることが求められる。このバリア９０後、例えばタイル４の１つ又は複数が計算結果をホスト６３に報告するために、交換５０’’をゲートウェイとタイル４の１つ又は複数との間で実行し得る。

ここで、図７を参照すると、図７は、ホスト６３がアクセラレータ５１とどのように対話し、データを交換するかを更に詳細に示す。ホスト６３は、アクセラレータ５１が処理するデータを提供するように構成される。アクセラレータ５１は、そのデータを処理し、処理の結果をホスト６３に送るように構成される。ゲートウェイ５２は、データ交換のためにホスト６３とアクセラレータ５１との間で管理される様式でデータをストリーミングすることを担当する。例では、アクセラレータ５１は、先の図を参照して上述したようにＩＰＵであり得る。しかしながら、ゲートウェイ５２は、他のタイプのアクセラレータ５１とのホスト６３のインターフェースとして使用することも可能である。

交換同期点を通したホスト６３、ゲートウェイ５２及びアクセラレータ５１間のデータ同期は、ゲートウェイデータ一貫性及びＩ／Ｏ動作の迅速さを保証する。ゲートウェイ５２とアクセラレータ５１との間のデータの可用性は、ＥＳＰクレジットのクレジットメカニズムを介して扱われる。１つのクレジットは、１つのＥＳＰを通過させることができる。ＥＳＰ前のゲートウェイメモリ１１４の準備は、ゲートウェイ５２が「事前ワーク」命令を実行することによって扱われる。ＥＳＰ後のデータ扱いは、「事後ワーク」命令を実行することによって実行される。後述のＰＰＥ実行エンジン１２３が事前ワーク及び事後ワーク命令を実行する。

図７に示すように（及び図５も参照すると）、ゲートウェイ５２は、少なくとも１つの「ローカル同期伝播モジュール（ＬｏｃａｌＳｙｎｃＰｒｏｐａｇａｔｉｏｎＭｏｄｕｌｅ）」（ＬＳＰＭ）１１７及び少なくとも１つの「ローカル同期バリアモジュール」（ＬＳＢＭ）１１８を含む。ＬＳＢＭ１１８は、ＰＰＥへの一種のプロキシと見なすことができ、アクセラレータで実行中のプログラムがホストから切り離されるデータのバッチを処理できるようにする。アクセラレータ５１／ゲートウェイ５２の同期は、データをゲートウェイ５２に提供するにあたり、ホスト６３の活動から非同期で実行することができる。ＬＳＢＭ１１８は、上述したＥＳＰクレジットを記憶するように構成される。ＬＳＢＭは、ＬＳＰＭ１１７にアクセス可能である。

ＬＳＢＭ１１８は、ＬＳＢＭ１１８がＰＰＥへのプロキシとして作用するように構成された各同期グループ９２にホスト６３が参加できるようにするように構成されたハードウェア回路を含む。タイル４によって発せられた同期要求５６は、ゲートウェイが関与する同期である場合、ゲートウェイ５２のＬＳＰＭ１１７及びＬＳＢＭ１１８の両方を利用する一方、ゲートウェイ５２とアクセラレータ５１との間のデータ転送を含まない同期のための同期要求５６は、ＬＳＰＭ１１７によって受信され、ＬＳＢＭ１１８が関わることなく要求側タイルに返される。したがって、タイル４はプログラムにより、アクセラレータ５１がＬＳＢＭ１１８を介してゲートウェイと対話する必要があった場合、それをいつ実行するかを判断する。

アクセラレータ５１がゲートウェイと対話する必要がある場合、ＬＳＰＭ１１７は、ＬＳＢＭ１１８内のＥＳＰクレジットの数がゼロよりも大きいとの判断に応答して、同期要求５６が受信されたときに同期バリアを通過させるように構成される。同期バリアを通過させることは、同期肯定応答（図示せず）の生成及びこの同期肯定応答のアクセラレータ５１への送信を含む。

先に説明したように、ゲートウェイ５２は、ＬＳＢＭ１１８に、それ自体とアクセラレータ５１と間のインターフェースに関連するクレジットの組を記憶する。これらのクレジットは、本説明では交換同期点（ＥＳＰ）クレジットと呼ばれる。しかしながら、この名称がクレジットを適宜識別するためにのみ使用され、クレジットの性質への限定を暗示しないことを当業者であれば理解する。ＥＳＰクレジットは、データ交換動作をあるバリアに対して実行し得るか否かを制御するため、バリアクレジットと呼ばれることもある。

ＬＳＢＭ１１８内のＥＳＰクレジットの数がゼロである場合、同期要求５６が受信され、レジスタ５９内の対応する指示が、ゲートウェイとのデータ転送が要求されるようなものであるとき、ＬＳＰＭ１１７は、同期バリアを通過させず、したがってＥＳＰクレジットの数がゼロよりも大きくなるまで、グループ９２内のタイル４に再度実行を継続させない。ＥＳＰクレジットの生成は、交換同期点においてアクセラレータ５１に転送するためのデータがゲートウェイ５２で利用可能になったときに達成され得る。幾つかの場合、このデータは、ホスト６３、取り付けられたネットワーク又は他の外部ストレージから転送されている結果として利用可能になり得る。他の場合、このデータは、別のゲートウェイから転送されている結果として利用可能になり得る。他のゲートウェイから受信されるデータは、別のアクセラレータ又は別のホスト若しくはリモートストレージからのデータであり得る。

幾つかの実施形態では、ゲートウェイ５２によって保持される複数の組のＥＳＰクレジットがあり得る。異なる同期グループに異なる組のクレジットがあり得る。この場合、１つの同期グループに対応する同期要求５６は、ゲートウェイ５２に要求に肯定応答させ得る（そのグループのＥＳＰクレジットの数が非ゼロである場合）一方、別の同期グループに対応する同期要求５６は、ゲートウェイ５２に要求に肯定応答させなくてよい（そのグループのＥＳＰクレジットの数がゼロである場合）。ゲートウェイ５２と通信するように構成された異なるアクセラレータに対して異なる組のクレジットもあり得る。図１２に示すように、各ゲートウェイ１６３は、２つのアクセラレータ１６２と通信するように構成され、したがって、ゲートウェイ５２は、各アクセラレータ１６２にＥＳＰクレジットの２つの組を記憶し得る。各アクセラレータ１６２が、ゲートウェイデータ転送を要求する２つの可能な同期グループを有する場合、これは、各ゲートウェイ１６３によってクレジットの合計で４つの組が保持されることに繋がる。

幾つかの実施形態では、アクセラレータの異なる同期ゾーンに対して確立される異なる組のクレジットは、ＬＳＢＭ１１８内の単一のＥＳＰクレジットレジスタによって制御され得る。この場合、１同期ゾーン当たりの全ての組のＥＳＰクレジットは、所与のアクセラレータについてＧＷ内の全てのクレジットを制御する単一のＥＳＰクレジットレジスタと同一である。同期バリアが通過される場合、アクセラレータの単一のＥＳＰクレジットレジスタのＥＳＰクレジットは、デクリメントされる。

同期グループのタイル４は、ゲートウェイのＥＳＰクレジットのチェック実行を必要とせずに、同期された（同期要求がＬＳＰＭ１１７に転送され、ＬＳＰＭ１１７により肯定応答されて）Ｎ個のバリアを通して実行を継続することが許され得、その後、ＬＳＢＭ１１８を介してゲートウェイと同期しなければならない（次いで、データをゲートウェイと交換し得る）。例えば、図６を参照されたい。

先に説明したように、タイル４で実行中のソフトウェアは、ゲートウェイ関与が同期に必要であるか否かについての指示（同期要求に含まれるか又は別個に送信され得る）を送信することにより、ゲートウェイとの同期を要求するようにプログラムされる。この指示は、ゲートウェイ５２のレジスタ５９に記憶される。そのような実施形態では、上述したクレジット制御メカニズムは、ゲートウェイの関与を必要とするものとして記された同期に対応するバリアのＬＳＢＭ１１８によってのみ適用される（任意の所与のバリアへのゲートウェイの「関与」は、ホストの代理としてのＬＳＰＭ１１８による同期肯定応答のプロキシ認可（ＬＳＢＭ）又はときにＬＳＢＭ１１８へのより多くのＥＳＰクレジットの明示的な認可の何れかである）。

実施形態では、ゲートウェイによって実行されるバリアの準備は、モデル学習における次の段階のためにアクセラレータ５１によって必要とされる経験データセット等、アクセラレータ５１によってフェッチされるデータの準備を含み得る。これに関連して、準備は、ストレージディスク又は他の媒体からのデータのフェッチ、アクセラレータ５１で実行中のトレーニングアルゴリズムによって要求される形態へのデータのフォーマット又はイメージデータの分解を含み得る。更に、バリアの準備は、アクセラレータ５１によって生成される出力データの消費を含み得る。後述するように、この準備の幾らか又は全ては、ゲートウェイ５２で行われる。最低限でも、ゲートウェイ５２は、ストレージディスク又は他の媒体とアクセラレータ５１との間の経路にある。

ＬＳＰＭ１１７への同期要求５６は、ネットワーク（又はＰＣＩｅ）パケットとして処理要素から送ることができ、及び／又は、同期肯定応答５７は、ネットワーク（又はＰＣＩｅ）パケットとして返すことができる。一般に、ゲートウェイは、同期の階層レベルの１つ又は複数に関わり得る。

一般に、ＥＳＰクレジットの概念は、本明細書に開示するアーキテクチャ例のみならず、任意のマルチタイルアーキテクチャに適用可能であり得る。また、それは、必ずしもＢＳＰ適用状況に限定されない。開示される技法は、ＢＳＰ等の単一のランデブー点を利用するシステム又はホスト若しくは他の外部世界システムと、対象の機械との間の別個のランデブー点の数が１つのみのランデブー又は非常に少ない数（例えば、ＣＳＰとは対照的に）に制限される場合、特定の相乗効果を有する。それにも関わらず、本開示の適用可能性は、これに関して絶対的に限定されない。任意のシステム又は用途において、タイルがゲートウェイに関与せずに特定の数の同期バリアを通過できるようにし、したがってゲートウェイと対話する必要があるマルチタイルサブシステムの数を低減し、したがってそれを行うための待ち時間ペナルティが発生する回数を低減することにより、待ち時間の節減を達成することができる。

更に、カード間又はホスト６３との間のＰＣＩｅインターフェースに関して実施形態を例示したが、これは、限定ではなく、他のタイプのインターフェース、例えばＥｔｈｅｒｎｅｔ（登録商標）を使用することもできる。

更に、実装形態は、本発明を用いない場合に非同期で実行される、ホストシステム６３とアクセラレータ５１との間の通信の同期に限定されない。実施形態では、ゲートウェイ５２は、内部で同期して実行されるが、互いに関して非同期で実行される２つの独立したＢＳＰ間又は他の並列処理サブシステム間の同期に利用することができる。ゲートウェイ５２は、同期グループのサイズを遙かに大きいサイズに増大させることができ、それらのより大きいグループに対してより効率的なツリー構造を可能にする。

ゲートウェイ５２において受信されるデータのバッチは、メモリ１１４に記憶される。メモリ１１４は、ゲートウェイ５２による使用に確保されたローカルメモリ（例えば、ＤＲＡＭ）である。同期要求５６に応答して、データは、ゲートウェイ５２によりメモリ１１４から検索され、アクセラレータ５１に転送され得る。パス１１６は、データの各バッチのフローを示す。データの各バッチは、バッチ毎に異なり得る期間にわたりメモリ１１４に保持されることに留意されたい。それは、バッチがゲートウェイ５２に入る時間及びアクセラレータ５１にプッシュされる時間に依存し、これらは、必ずしも関連しない。

ＬＳＰＭ１１７は、メモリ１１４からアクセラレータ５１に又はアクセラレータ５１からメモリ１１４にデータを転送するタイミングをゲートウェイ５２に示すように構成され得る。これにより、ＬＳＰＭ１１７は、ゲートウェイメモリ１１４のオーバーフローを回避するように、アクセラレータ６１からメモリ１１４へのデータのデプロイ（ｄｅｐｌｏｙ）に適切なタイミングを指示することができる。

更に、ホスト／リモートストレージからゲートウェイメモリ１１４へのデータフローは、ゲートウェイメモリ１１４のオーバーフローを回避するように管理される。

図７では、アクセラレータ５１により処理されるデータは、ホスト６３からゲートウェイ５２に転送され、ゲートウェイ５２は、それをローカルメモリ１１４に記憶する。データは、ＲＤＭＡ読み出しを介してゲートウェイ５２によってプルされ得るか、又はホスト６３によって行われるゲートウェイ５２へのＲＤＭＡ書き込みを介して書き込まれ得る。

図１１を参照すると、図１１は、データ１１６がゲートウェイ５２によってネットワーク接続ストレージ１５１から検索される代替の方式を示す。ネットワーク接続ストレージ１５１は、本明細書ではリモートストレージとも呼ばれる。図１１では、図１１の要素と同様の要素は、同様の参照番号で示される。

図１１では、ホスト６３は、記述子１１９をゲートウェイ５２に送信する。記述子１１９は、ゲートウェイ５２がアクセス可能なネットワーク接続ストレージ１５１のロケーションを識別する。ゲートウェイ５２は、記述子１１９と呼ばれるデータフェッチ命令を実行する場合、データ１１６をネットワーク接続ストレージ１５１から検索する。ゲートウェイ５２は、次いで、データ１１６をメモリ１１４に記憶し、それからデータ１１６をアクセラレータ５１に転送する。

幾つかの実施形態では、記述子１１９をホスト６３からゲートウェイ５２に転送する代わりに、ゲートウェイ５２によって記憶された事前コンパイルされたコードが記述子を含む。この場合、ゲートウェイ５２は、ホストの介在なしでリモートストレージ１５１からデータを自律的に検索する。本願の幾つかの例では、ゲートウェイ５２は、外部ホスト６３が必要とされないようにスタンドアロン設備として機能するシステムオンチップ（ＳｏＣ）を含む。アプリケーションスタック全体は、直接ＳｏＣ上で又はより広いシステム内の複数のＳｏＣの１つで実行される。ゲートウェイ５２は、外部ホスト６３のプロセッサと対話する第１のモード及びそのような外部ホスト６３が必要とされない第２のモードで動作するように構成可能である。ゲートウェイ５２の残りの部分（例えば、図８に関して説明するストリーミングエンジン）は、ゲートウェイ５２が動作するように構成されたこれらのモードの何れかであるかに関係なく、同じ機能を実行する。スタンドアロン設備を実行中のゲートウェイ５２は、ネットワーク接続ストレージデバイス１５１等の外部ストレージからデータを検索する。

図８を参照すると、図８は、ゲートウェイ５２をより詳細に示す。図８は、データがゲートウェイ５２を通るために取る種々のパスを示す。

図８は、アクセラレータ５１により処理されるデータ１２０がどのようにホスト６３又はリモートストレージ１５１からメモリ１１４に転送されるかを示す。既に述べたように、幾つかの例では、データ１２０は、ホスト６３からゲートウェイ５２に転送される。他の例では、データ１２０は、ゲートウェイ５２によって行われたリモートストレージ１５１からの読み出し要求に応答して、ローカル又はリモートストレージ１５１（例えば、ネットワーク接続ストレージ）から受信される。ゲートウェイ５２は、ＲＤＭＡを介してリモートストレージ１５１からデータ１２０を検索する。データ１２０は、データ中心ポートを介して受信される。更に、データ検索と同様に、ゲートウェイ５２は、データ（図示せず）をホスト６３／リモートストレージ１５１に書き込む。データ書き込みは、データ中心ポートを介して行われる。交換フェーズ中、データは、ゲートウェイメモリ１１４からアクセラレータ５１に転送され得る。

交換フェーズ中、ゲートウェイメモリ１１４からアクセラレータ５１へのデータ転送の代わりに又は追加として、データは、アクセラレータ５１からゲートウェイ５２に転送され得る。アクセラレータ５１は、データパケットの形態でデータをゲートウェイ５２に送信するように構成され、各データパケットは、アドレスを示すヘッダを含む。ゲートウェイ５２は、データパケットのアドレスを使用して、パケットを送信する場所を特定する。例えば、データパケットは、ローカルメモリ１１４に記憶され得る。データパケットは、更なるゲートウェイ１２８に送信され得る。データパケットは、更なるゲートウェイ１２８に接続されたアクセラレータに発送され得る。データパケットは、ホスト６３／リモートストレージ１５１に送信され得る。

データ１２０は、ストリーミングエンジン１２４（アクセラレータ５１に送るためのメモリ１１４からのデータ１２１の検索も担当する）の制御下でゲートウェイ５２からメモリ１１４に巡回する。ストリーミングエンジン１２４は、データストリーミング動作を行う。データバッチのこれらの動作は、ワーク記述子（ＷＤ）によって指定され得る。ストリーミングエンジン１２４は、２つの実行エンジン及びコードメモリ（図示せず）を含む。実行エンジンの１つは、データムーバエンジン（ＤＭＥ）１２２であり、他方は、事前／事後ワークエンジン（ＰＰＥ）１２３である。それらは、コンパイラによって生成される実行可能イメージとしてコードメモリにロードされる命令を実行する。ストリーミングエンジン１２４は、ＤＭＥ１２２により実行されるワーク命令の組及びＰＰＥ１２３によって実行されるワーク命令の組を有する。ＤＭＥ及びＰＰＥの命令の組は、コンパイル時にセットアップされるＷＤによって調整される。単一のデータ交換同期点のこれらの命令は、単一のＷＤに一緒にグループ化され得る。ＤＭＥ１２４は、実行可能イメージのＤＭＥセクションで見られる特定のＤＭＥ命令によって動作する。ＤＭＥ１２４は、所与のＥＳＰに関するデータムーバ（ＤＭＯＶ）命令の組へのナビゲートにＷＤを使用する。ＰＰＥ１２３は、実行可能イメージのＰＰＥセクションで見られる特定のＰＰＥ命令によって動作する。ＰＰＥ１２３は、所与のＥＳＰに関する事前／事後ワーク命令の組へのナビゲートにＷＤを使用する。

ＰＰＥの事前ワークは、アクセラレータ５１とのデータ交換前に使用可能でなければならない。ＷＤでのＰＰＥの事後ワークは、交換が完了した後にのみ開始することができる。データ交換は、同期要求５６が肯定応答され、アクセラレータ５１及びストリーミングエンジン１２４の両方にシグナリングされた直後に行われる。この要求／肯定応答は、「交換同期点」（ＥＳＰ）をシグナリングする。

ストリーミングエンジン１２４は、異なるデータストリーミングモデルをサポートする。

全てのモデルは、ホストがＥＳＰクレジットの消費を密に制御することが許される構成をサポートする。これは、ホスト６３、ゲートウェイ５２及びアクセラレータ５１間のＩ／Ｏ動作の調整並びにゲートウェイメモリ１１４を利用しない他のアクセラレータレベルＩ／Ｏメカニズムに必要な場合にアクセラレータ５１をストールさせるメカニズムをサポートする。それは、ブレークポイントの設定又はアクセラレータの全ファブリックの単一のステッピングに使用されるメカニズムでもあり得る。ホスト６３からの密なフロー制御下で任意のモデルを実行する場合、ホスト６３によって認可されるＥＳＰクレジットは、ＰＰＥスケジューラにより「ＥＳＰクレジットレジスタ」（ＬＳＢＭ１１８の部分）に転送される。ＥＳＰクレジットレジスタは、ゲートウェイ５２のハードウェア及びファームウェアによって読み出し／書き込みすることができる。

ここで、異なるストリーミングモデルについて論考する。ストリーミングモデルが相互に排他的ではなく、本願の実施形態によるゲートウェイが２つ以上のモデルに従って動作し得ることが当業者に理解される。

ストリーミングエンジン１２４によってサポートされる第１のストリーミングモデルは、「アドバンストゲートウェイ（ＧＷ）プッシュ」と呼ばれる。アドバンストＧＷプッシュでは、ＰＰＥ１２３は、外部ストレージ及びゲートウェイ（ＧＷ）メモリ１１４から／にデータをストリーミングする一方、ＤＭＥ１２２は、データをアクセラレータ５１にプッシュする。実行は、ゲートウェイによって保持されるコンパイルされた実行可能イメージからの命令に基づく。ストリーミングエンジン１２４の実行可能イメージの生成は、アクセラレータコンパイラと統合される。コンパイラは、２つの関連するコンパイルされたコードシーケンス又は実行可能イメージを生成する。これらの第１のものは、アクセラレータ５１で実行される一方、第２のものは、ゲートウェイ５２で実行される。幾つかの実施形態では、ホスト６３は、コンパイルされたコードシーケンスをアクセラレータ５１及びゲートウェイ５２に提供し得る。

「ゲートウェイプッシュモデル」は、ゲートウェイ５２がデータをプッシュするものである使用モデルである。このモデルは、データを合意時点（合意ＥＳＰ）でアクセラレータ５１にプッシュするという点で「ゲートウェイプルモデル」（後述）と異なる。この一般プッシュモデルは、並列プログラミングに異なるタイプのメモリ一貫性プロトコル又はブリッジングモデルをサポートすることができる。例には、バルク同期並列（ＢＳＰ）、陳腐化同期並列（ＳＳＰ）及び非同期並列がある。

アドバンストゲートウェイ（ＧＷ）プッシュモデルは、（アクセラレターに対する）プッシュされるデータ入力の可能性及びデータを出力するアクセラレータ５１のゲートウェイ５２データバッファの可用性の制御にクレジットメカニズムを使用する。ゲートウェイ５２は、外部ノード（ホスト、ＮＡＳ又は他のゲートウェイ）とのデータ転送のためにデータムーバ命令（ＤＭＥ１２２は、データをアクセラレータ５１にプッシュしている）及び事前／事後ワークエンジン命令の両方を実行する。ＰＰＥ１２３は、外部Ｉ／Ｏボトルネックに起因してアクセラレータ入力データが利用可能でない場合、ＥＳＰクレジットがないことを通してＤＭＥ１２２を効率的にストールさせることを担当する。外部Ｉ／Ｏボトルネックに起因してアクセラレータ出力データ（リモートホスト／ストレージを宛先とする）がゲートウェイ５２のメモリ１１４に蓄積されている場合でも、同様のストールが求められる。

データは、アクセラレータ５１へのプッシュが生じる前に、ＧＷメモリ１１４から高速ゲートウェイ転送メモリ１２７（例えば、ＳＲＡＭ）へのデータのプリフェッチにより、低い待ち時間で送ることができる。

上述したメモリ一貫性モデル（ＢＳＰ、ＳＳＰ、非同期等）は、プッシュモデルと組み合わせることができる。その場合、アクセラレータ５１のランタイムは、外部バリアがＤＭＥ１２２及びＰＰＥ１２３のデータ移動をトリガーすることを確実にする必要がある。プッシュ動作の場合、ＥＳＰクレジットは、ゲートウェイ５２により１だけデクリメントされる。

上述したストリーミングプッシュモデルでは、ゲートウェイ５２は、オンチップストリーミングバッファとしてゲートウェイメモリ１１４を使用することによってアクセラレータメモリアクセス待ち時間を隠す。ストリーミングエンジン１２４の全体的な利点は、データ移動がアクセラレータ計算と重なることができ、計時プッシュ動作前にゲートウェイ５２のメモリ１１４にプリロードできることである。

第２のストリーミングモデルは、アドバンストアクセラレータプルと呼ばれる。このストリーミングモデルでは、ＰＰＥ１２３がデータを外部ストレージに／からゲートウェイメモリ１１４にストリーミングする。アクセラレータ５１は、次いで、ＰＣＩｅ読み取り動作を介してゲートウェイ５２からデータをプルする。ＰＰＥ１２３の実行は、コードメモリ内の実行可能イメージからの命令に基づく。

このモデルでは、ＰＰＥ１２３は、アクティブであり、外部ストレージから「プル要求」（すなわち読み出し要求）を発行することによりデータを取得してメモリ１１４に記憶する。アクセラレータ５１は、次いで、所定のＥＳＰにおいてゲートウェイからデータをプルする。アドバンストアクセラレータプルモデルは、ＤＭＯＶプッシュ命令なしで事前／事後ワーク命令を含む実行可能イメージを利用する。しかしながら、論考するように、ＤＭＥ１２２は、依然として実行可能イメージからの命令を実行して、高速ゲートウェイ転送メモリ（例えば、ＳＲＡＭ）にデータをプリロードし得、高速ゲートウェイ転送メモリからデータをアクセラレータ５１により低待ち時間でプルすることができる。

プルモデルでは、ホスト６３は、ゲートウェイメモリ１１４で準備された有効データを予期されるＥＳＰにおいてプルするように、ＥＳＰクレジットメカニズムを介してアクセラレータ５１を同期させる。このモデルでは、ＰＰＥ１２３は、外部ＩＯボトルネックに起因してアクセラレータ５１の入力データが利用可能でない場合、ＬＳＰＭのストール（クレジットメカニズムを介する）も担当する。外部ＩＯボトルネックに起因してアクセラレータ５１の出力データ（リモートホスト／ストレージを宛先とする）がゲートウェイメモリ１１４に蓄積されている場合にも、同様のストールを実行し得る。

プルモデルでは、その後のＥＳＰにおいてアクセラレータ５１に転送されるデータの幾らか又は全ては、アクセラレータ５１によってゲートウェイ転送メモリからプルされる前に、メモリ１１４からゲートウェイ転送メモリ（例えば、ＳＲＡＭ）にプリロードされる。このゲートウェイ転送メモリは、図８に示され、アクセラレータ５１にプッシュされるデータの記憶に使用されるゲートウェイ転送メモリ１２７と同じであるか又は異なり得る。

図１６を参照すると、図１６は、プルモデルが使用される場合のゲートウェイ５２とアクセラレータ５１との間の対話を示す。示すように、ゲートウェイ５２は、ゲートウェイ転送メモリ１６１０を含む。ゲートウェイ転送メモリ１６１０は、一連のストリーミングバッファ（仮想ＦＩＦＯとして示される）を含む。

幾つかの実施形態では、プリロードを実行するために、ストリーミングエンジン１２４の少なくとも１つのプロセッサは、実行可能イメージの命令を実行するように構成される。幾つかの実施形態では、ホスト６３又はアクセラレータ５１空のコマンドは、ストリーミングエンジンにプリロードを実行させ得る。ＤＭＥ１２２は、プルモデルの以下の説明では、これらの動作を実行するものとして説明される。しかしながら、幾つかの実施形態では、メモリ１６１０に転送する動作は、ＤＭＥ１２２以外のハードウェアによって実行され得ることが理解される。プリロード動作を実行するハードウェアは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）であり得る。

ＤＭＥ１２２は、所定の数のその後のＥＳＰでのデータをメモリ１６１０にプリロードする。アクセラレータ５１は、ＥＳＰに到達することに応答してメモリ１６１０から直接、プリロードされたデータを読み出す読み出し要求を発行するように構成される。図１６に示すように、アクセラレータ５１は、メモリ１１４からデータを更にプルし得る。

ゲートウェイ５２からプルされたデータは、複数のアクセラレータ入力ストリームに編成され得る。アクセラレータ入力ストリームは、固定順でアクセラレータメモリに転送される複数の組のデータとして定義される。各組のデータは、何れかの任意のサイズであり得、単一のストリームは、何れかの任意の数の組のデータであり得る。複数の組のデータは、データバッファに配置される（メモリ１６１０の仮想ＦＩＦＯと混同すべきではない）。ここで論考するプルモデルでは、これらの組のデータは、ＩＰＵ発行の読み出しによってＩＰＵに送られる。任意の２つの入力ストリーム間に順序はない。

メモリ１６１０は、バッファ（仮想ＦＩＦＯとして示される）の組に編成される。バッファは、好ましくは、メモリ１６１０内の物理的範囲のメモリアドレス（連続又は不連続であり得る）にマッピングされる仮想アドレス空間によって定義される仮想データバッファである。仮想バッファは、読み出しポインタ及び書き込みポインタのそれぞれを使用して示されるメモリ１６１０内のロケーションから読み取られ、書き込まれる。ポインタは、ゲートウェイのメモリ（メモリ１６１０と同じ又は別個であり得る）に保持される。仮想バッファは、好ましくは、図１６に示すように仮想ＦＩＦＯである。

各バッファは、異なる入力ストリームに対応する。アクセラレータの視点から、特定の入力ストリームは、メモリ１１４内の特定のロケーションに配置される。しかしながら、その入力ストリームからのデータの少なくとも幾らかは、メモリ１６１０のバッファにプリロードされている可能性がある。その入力ストリームのデータをゲートウェイからプルするために、アクセラレータは、メモリ１１４のアドレスへの連続読み出しを発行する。読み出し要求は、その入力ストリームに読み出されるバイト数も含む。ゲートウェイ５２が読み出し要求を受信する場合、ゲートウェイ５２のロジックは、読み出し要求内に配置されたアドレス情報に基づいて、読み出し要求が読み出されている入力ストリームを特定する。この入力ストリームのバッファがロード済み状態である場合、データは、メモリ１１４の代わりにそのバッファから読み出される。バッファがロード中である場合、ロードが完了すると、データがそのバッファから読み出される。バッファがロードされていないか又はロード中でない場合、データは、要求において示されたアドレスにおいてメモリ１１４から読み出される。

アクセラレータ５１は、メモリ１１４内の特定のメモリアドレスからの読み出す要求を発行しており、ＦＩＦＯ構造がメモリ１６１０に使用されているため、あたかも読み出しがメモリ１１４から行われているかのように同じデータが返されることを保証し得る。２つのタイルが同じ入力ストリームから読み出すことが許される場合、一方のタイルは、他方のタイルが読み出しプロセスの何れの箇所にいるかの知識を有さず、したがって他のタイルがＦＩＦＯから既に読み出した、特定のアドレスから特定のデータを読み出す要求を発行し得るため、それは、保証されない。この問題は、特定の入力ストリームの読み出しの全てが、メモリ１６１０において受信された読み出しが適切な順序であるように同じアクセラレータ５１の同じタイルによって発行されることを保証することによって対処される。

ゲートウェイ５２は、各入力ストリームの状態を記憶するように構成される。入力ストリームの記憶される状態は、ベースアドレス及びサイズを含む。これは、アクセラレータが入力ストリームにアクセスするために使用するメモリ１６１０のアドレス範囲を示す。これは、ストリーミングバッファ／ポート論理に維持される。

入力ストリームの記憶される状態は、入力ストリームに関連するバッファにロードされたバイト数を含み得る。

入力ストリームの記憶される状態は、入力ストリームに関連するバッファのロード状態を含み得る。ロード状態は、アクセラレータ５１に転送されるデータがバッファにプリロードされているか否かの指示である。

入力ストリームのバッファの組を管理する幾つかの手法がある。幾つかの実施形態では、各バッファのバッファアドレス及びサイズは、固定される。アクセラレータは、同じバッファから繰り返し読み出しを発行するように構成される。

幾つかの実施形態では、バッファアドレス及びサイズは、ＤＭＥ１２２の制御及びステータスレジスタ（ＣＳＲ）に記憶される値によって決定される。ＣＳＲに記憶される値は、ＤＭＥ１２２による関連するプリロード命令の実行前に決定される。

幾つかの実施形態では、バッファアドレス及びサイズは、ＤＭＥ１２２によって実行されるプリロード命令において示される。これらの指示は、プリロードプロセスの一環としてＤＭＥ１２２からゲートウェイ転送メモリ１６１０に渡される。指示は、例えば、メモリ１６１０にプリロードされるデータのヘッダにおいて渡すことができる。この手法は、高レベルの柔軟性を提供する。

述べたように、ゲートウェイ転送メモリ１６１０は、バッファの組として実施され、１つのバッファは、１つのアクセラレータ入力ストリームに対応する。図１６に示す例では、メモリ１６１０は、４つのそのような仮想ＦＩＦＯをサポートするように構成されるが、別の数の仮想ＦＩＦＯを使用し得る。単一のＰＣＩＥリンクを飽和されるために十分な帯域幅の通信を生成するために必要なアクセラレータタイルの数が４であるため、この例では４が選択される。

メモリ１６１０にロードされるデータは、ゲートウェイ５２で実行されるエンジン（例えば、ＤＭＥ１２２）によってロードされる。エンジンは、ハードウェア（例えば、ＦＰＧＡにおいて）又はソフトウェア（例えば、ＣＰＵで実行されるコードとして）で実施され得る。

ＥＳＰ前に、ＤＭＥ１２２は、次のステップについてのデータとともにデータをメモリ１６１０内の仮想ＦＩＦＯの１つにロードする。次いで、バッファの状態は、バッファにデータがロードされていることを示すように設定される。ゲートウェイ５２がアクセラレータ５１から読み出し要求を受信する場合、対応するバッファがロード済み状態であるとの判断に応答して、データがアクセラレータ５１に転送される。判断は、ゲートウェイ上のＦＰＧＡ論理によって行われる。バッファがロード済み状態であるとの判断の代わりに、ロードが進行中であると判断される場合、バッファのロードが完了したとき、データは、バッファから転送されることになる。バッファにロードされておらず、ロード中でもないと判断される場合、データは、メモリ１１４から読み出されることになる。

幾つかの場合、その後のＥＳＰ前にデータの全てがメモリ１６１０にプリロードされるわけではない。この場合、ＥＳＰが発生し、アクセラレータ５１がメモリ１６１０から入力ストリームのデータの読み出しを開始するとき、ＤＭＥ１２２は、ＥＳＰに続く交換フェーズ中、アクセラレータ５１に転送される入力ストリームの任意の残りのデータをプリロードする。したがって、入力ストリームの残りのデータのプリロードは、入力ストリームのデータがメモリ１６１０からプルされているのと同時に行われる。データは、交換フェーズ中にプリロードされている残りのデータのための余地を作るために十分に高速にメモリからプルされる。

メモリ１６１０は、アクセラレータにより発行される読み出しによって空になる。特定の入力ストリームのアクセラレータからの読み出しは、アドレス順にゲートウェイ５２に到着する。読み出しは、バッファのベースアドレスから開始され、バッファのアドレス範囲全体を通して続く。

ゲートウェイ５２は、読み出しを受信すると、アドレスを入力ストリームのメモリ１１４内のバッファアドレス範囲の組と比較する。その入力ストリームに指定された範囲内に読み出しがある場合、読み出しは、メモリ１６１０の入力ストリームに関連するバッファからアクセラレータ５１に次の所定の数のバイト（読み出し要求において指定される）を転送することによって実行される。アドレスのオフセット部分は、無視され得、データは、ＦＩＦＯ様式でバッファから読み出される。

バッファの各々は、バッファから読み出された合計データ量を示す読み出しカウントに関連付けられる。特定の入力ストリームに関するアクセラレータ読み出しが処理されるにつれて、このカウントは、増大する。カウントがバッファ全体のサイズに達したとき、バッファの状態は、バッファが空であることを示すように変更される。ＤＭＥ１２２に次いで、バッファからのデータの読み出しが完了したことが通知される。

図１６に示す例としてのゲートウェイ転送メモリ１６１０は、４つの入力ストリームのデータを記憶するように構成される。アクセラレータに転送されたデータの入力ストリームが５つ以上である場合、アクセラレータは、ゲートウェイ転送メモリ１６１０の代わりにメモリ１１４からそれらの追加のストリームのデータをプルする。入力ストリームが大きすぎて、そのストリームのデータをゲートウェイ転送メモリ１６１０に記憶することができないと判断される場合、アクセラレータは、代わりに、メモリ１１４からそのストリームのデータをプルする。

アクセラレータ５１によりメモリ１６１０の代わりにメモリ１１４からストリームが読み出される場合、ＤＭＥ１２２には、このストリームに関する命令がロードされず、このストリームでバッファがメモリ１６１０に割り振られない。このストリームに関する読み出しは、次いで、ゲートウェイ５２により直接メモリ１１４に対するものであろう。

図４に関連して論考したように、アクセラレータ５１の１つ又は複数のタイル５３は、ゲートウェイとデータを交換する必要がある場合、同期要求５５を送信し、同期要求５５は、集計され、同期論理５４を介してゲートウェイ５２に渡される。したがって、ゲートウェイ５２は、同期肯定応答を同期論理５４に送信し、同期論理５４は、同期肯定応答を、同期要求を送信したタイル５３に返す。図１６は、タイル５３がデータをゲートウェイ内のメモリ１６１０からプルする場合、この同期要求／肯定応答方式に続けて生じるメッセージングを示す。

同期肯定応答の受信に続いて、図１６に示すように、タイル５３は、１つ又は複数の制御パケット１６２０を送信する。１つ又は複数の制御パケットは、タイル５３のスーパーバイザスレッドの読み出し命令の実行に応答してタイルによって送信され得る。制御パケットは、アクセラレータ５１の読み出し要求論理１６４０に送信される。読み出し要求ロジック１６４０は、ＰＣＩｅコントローラであり得る。１つ又は複数の制御パケットに応答して、読み出し要求ロジック１６４０は、ゲートウェイ５２のメモリ１６１０に送信される読み出し要求１６５０を生成するように構成される。読み出し要求１６５０は、ＤＭＡ読み出し要求である。ＤＭＡ読み出し要求１６５０は、ＰＣＩｅ読み出しであり得る。読み出し要求１６５０に応答して、データ１６３０は、メモリ１６１０のロジックによって読み出され、読み出し要求ロジックに送信される。読み出し要求ロジックは、データ１６３０を、読み出し命令を発効したタイル５３に転送する。更に、これらの動作は、メモリ１１４からデータをプルするために実行し得る。

図１７を参照すると、図１７は、本願の実施形態による方法１７００の一例を示す。方法１７００は、ゲートウェイ５２がプルモデルに従って動作する場合に実行されるステップを示す。これらのステップは、データが外部ストレージからゲートウェイメモリ１１４に転送された後に行われる。

Ｓ１７１０において、ＤＭＥ１２２は、ゲートウェイ転送メモリ１６１０に、データの所与のストリームをメモリ１６１０にプリロードするためのスペースがあるか否かを判断する。メモリ１６１０がデータを記憶することができる最大数のストリーム（すなわち図１６に示す例では４）を超えず、データストリームが許される最大サイズを超えない場合、スペースがあると判断される。

スペースが利用可能である場合、Ｓ１７２０において、ストリームのデータは、メモリ１１４からメモリ１６１０にプリロードされる。プリロードされるストリームのデータは、複数のその後の交換フェーズ中、アクセラレータ５１に転送されるデータを含み得る。

十分な空間が利用可能でない場合、Ｓ１７３０において、ストリームのデータは、プリロードされずにメインゲートウェイメモリ１１４に残る。

Ｓ１７４０において、同期要求がアクセラレータ５１からゲートウェイ５２において受信される。

Ｓ１７５０において、ゲートウェイＬＳＢＭ１１８に記憶されているＥＳＰクレジットのチェックが行われる。関連するアクセラレータ及び同期グループに非ゼロ数のクレジットが利用可能であると仮定すると、方法１７００は、Ｓ１７６０に進む。

Ｓ１７６０において、ゲートウェイ５１は、同期肯定応答をアクセラレータ５１に送信する。

Ｓ１７７０において、同期肯定応答の受信に応答して、アクセラレータ５１は、データをゲートウェイ５２からプルする読み出し要求を発行する。アクセラレータ５１は、メインメモリ１１４及びゲートウェイ転送メモリ１６１０の少なくとも一方からデータを読み出す。アクセラレータ５１は、メモリ１６１０から、メモリ１６１０にプリロードされたストリームのデータを読み出す。アクセラレータ５１は、メモリ１１４から、メモリ１６１０にプリロードされなかったストリームのデータを読み出す。

Ｓ１７８０において、アクセラレータがデータをメモリ１６１０から読み出している間、ＤＭＥ１２２は、引き続き、アクセラレータ５１によって読み出されるデータをメモリ１６１０にプリロードする。アクセラレータ５１は、ストリームのバッファから読み出し得、ＤＭＥ１２２は、メモリ１１４からのストリームの追加のデータで、バッファから読み出されたデータを上書きする。アクセラレータ５１による読み出し中にプリロードされたデータは、現在の交換フェーズ中、アクセラレータ５１に転送される残りデータである。

プリロードを使用したプルモデルには、その後の事前コンパイルされた交換同期点前に、ゲートウェイ５２が高速転送メモリ１６１０にデータを準備することが可能であり、したがってデータがアクセラレータ５１によるプルにより適時に提供されるという利点がある。したがって、データをゲートウェイ５２からより短い待ち時間でプルし得る。更に、高速転送メモリ１６１０にデータをプリロードすることは、データ転送の帯域幅を改善する。

第３のストリーミングモデルは、簡易アクセラレータプルと呼ばれる。このストリーミングモデルでは、ホスト６３がゲートウェイメモリ１１４に／からデータをストリーミングする。アクセラレータ５１は、ＰＣＩｅ読み出し動作を介してゲートウェイ５２からデータをプルする。この場合、ゲートウェイ５２は、ＰＰＥ命令を実行せず、代わりにホスト６３とゲートウェイ５２との間の所定のＩ／Ｏスキームのスレーブである。

このモデルでは、ゲートウェイメモリ１１４は、メモリ領域として機能し、ホスト６３は、その内容を制御する。データをメモリ１１４にロードするために、ゲートウェイ５２で命令が実行されない。ＰＰＥ１２３は、命令を実行しておらず、依然としてＥＳＰクレジットを更新し、データが利用可能なときをアクセラレータ５１が発見するためにホスト６３によって与えられるプリロード動作についてＤＭＥに命令するプロキシとして機能している。

データのストリーミングに割り振られたゲートウェイメモリ１１４は、あたかもＰＣＩｅ接続メモリであるかのようにホスト６３によって維持され、唯一の違いは、ＲＤＭＡがＰＣＩｅの代わりに使用されることである。

簡易プルモデルでも、データは、図１６及び図１７を参照してアドバンストプルモデルについて上述したように、ゲートウェイ転送メモリ１６１０にプリロードされる。簡易プルモデルでは、ＰＰＥ１２３は、データをメモリ１６１０にプリロードするように命令するコマンドをホスト６３及び／又はアクセラレータ５１から受信する。コマンドの受信に応答して、ＰＰＥ１２３は、ＤＭＥ１２２に、データをメモリ１６１０にプリロードさせる。したがって、ＰＰＥ１２３は、ホスト６３及び／又はアクセラレータ５１から到来したプリロードコマンドのプロキシとして作用する。

更に、簡易プルモデルは、簡易プルモデルではＰＰＥ１２３がホスト又は他の外部ストレージからデータを検索する命令を実行しないという点において、アドバンストアクセラレータプルモデルと異なる。

ゲートウェイ５２におけるデータストリーミング動作の実行は、ストリーミングエンジン１２４によって実行され、ストリーミングエンジン１２４は、動作モデルに応じて、ゲートウェイ５２の命令セットの全てを実行するか（アドバンストプッシュモデル）、ゲートウェイ５２の命令セットのサブセットを実行するか（アドバンストプルモデル）、又はゲートウェイ５２の命令セットの何れも実行しない（簡易プルモデル）。簡易プルモデルでは、ゲートウェイ５２は、ホスト６３又はアクセラレータ５１からのコマンドに応答してストリーミング動作を実行する。

ゲートウェイ５２が命令セットの全て又は幾つかを実行する場合、命令は、実行可能イメージとしてゲートウェイメモリ１１４にロードされる。ストリーミングエンジン１２４の実行可能イメージの生成は、コンパイラがアクセラレータ５１及びゲートウェイ５２で実行される関連するコードを生成する特定のアクセラレータ／ゲートウェイコンパイラ環境と統合される。

ストリーミングエンジン１２４は、一緒に機能して、アクセラレータにデータＩ／Ｏが性能最適に供給されることを保証するハードウェア及びソフトウェア構成要素の組を含むものと見ることができる。ゲートウェイ５２又はストリーミングエンジン１２４の動作モードに応じて、ストリーミングエンジン１２４は、データを「ジャストインタイム」様式において、すなわち次のアクセラレータ計算ステップへの条件付きエントリ点を表す計画されたデータ交換フェーズにおいてプッシュし得るか、又はアクセラレータ５１が同じ「ジャストインタイム」様式でプルするためにゲートウェイメモリ１１４及び／又はメモリ１６１０においてデータを利用可能にし得る。データ交換フェーズ前にゲートウェイメモリ１１４において関連データを準備することは、ゲートウェイストリーミングエンジン１２４によって実行される予めスケジュールされたデータストリーミング命令を介して行われる。プッシュモデルは、データ交換フェーズ中の待ち時間を短縮するために、ゲートウェイメモリ１１４からゲートウェイ転送メモリ１２７（例えば、ＳＲＡＭ）にデータを更に予めフェッチすることができる。データをゲートウェイメモリ１１４に「ジャストインタイム」で運ぶ概念は、ゲートウェイメモリ１１４が、アクセラレータ計算アルゴリズムが必要とする全てのデータを保持するために十分に大きくない場合に有用である。

ＰＰＥエンジンは、所与のＥＳＰに関する事前ワーク（ＰＲＷ）及び事後ワーク（ＰＯＷ）命令の組にナビゲートするためにＷＤを使用する。「事前」及び「事後」という用語は、動作が、アクセラレータ又は他のターゲットとのＷＤのデータ交換フェーズ前に行われるか又は後に行われるかを示す。ＰＲＷ命令は、主な担当として又は１つ若しくは複数のＤＭＯＶプッシュ命令への準備として、データをホスト６３から（例えば、ホスト６３、リモートストレージ１５１又は更なるゲートウェイ１２８から）ゲートウェイメモリ１１４に運ぶことを有する。「事後ワーク」は、その主な担当として、ＧＷメモリ１１４からデータを移動する（例えば、ホスト６３又はリモートストレージ１５１に）移すことを有する。ＰＰＥ命令は、ＰＰＥ固有のイメージセクションに配置される。

ＤＭＥ１２２は、上述した「ゲートウェイプッシュ」動作モデルにおいてゲートウェイからアクセラレータにデータを転送するためにアクティブであるとともに、このプリロード最適化がイネーブルされる場合、メモリ１６１０ＶＦＩＦＯをプリロードするために両方のプルモデルでもアクティブである。プッシュモデルでは、ＤＭＥ１２２は、所与のＥＳＰに関するデータムーバ（ＤＭＯＶ）命令の組にナビゲートするためにＷＤを使用する。ＤＭＯＶ命令は、データをアクセラレータに向かってプッシュする。ＷＤ及びＤＭＥ関連命令は、ＤＭＥ固有のイメージセクションに配置される。ゲートウェイ５２の物理的ＤＤＲメモリ内のイメージを源とするＤＭＥ命令は、ＤＭＯＶ命令の一環としてＤＭＥのＤＭＡ機によって実行されるＤＭＡ記述子リストに変換される。ＤＭＥ１２２は、アクセラレータ５１との各バッチデータ交換のサイズの完全制御を可能にする停止基準によって制御される幾つかの計画されたデータ交換のためにＤＭＡ記述子を準備する。

ＤＭＥ１２２は、アクセラレータメモリに対してデータをストリーミングするように設計された高水準プログラマブルマルチチャネルＤＭＡ装置を使用する。ＤＭＥ１２２は、負荷分散を使用して、１つ又は２つの高速データバスを経由した単一のアクセラレータ５１へのデータのストリーミングをサポートする。アクセラレータ５１がデータロードシーケンスに依存しない場合、負荷分散は、ローカルＤＭＥ決定によった達成され、交換可能イメージで見られる情報によって制御されない。

ＷＤは、ＷＤの全ての事前ワーク関連命令及びＷＤの終了基準を有する全ての事後ワーク命令が完了した場合、「実行準備ができている」（又は完全に準備された）と見なされる。その場合にのみ、ＷＤのＥＳＰクレジットは、ＬＳＢＭ１１８内のＥＳＰクレジットの組に追加される。

ＷＤは、「交換終了」基準が満たされた場合、「完了した」と見なされる。これは、全てのデプロイメント（ｄｅｐｌｏｙｍｅｎｔ）動作（ＤＭＯＶ）が完了し、アクセラレータ５１から受信した全ての出力データが、予期された出力サイズに等しいと判断されたときである。予期される出力サイズは、ＷＤにおいて示される。

ゲートウェイ５２は、ＷＤが完全に準備されたとき、ＰＰＥ１２３がＤＭＥ１２２にシグナリングする方法を必要とし、これは、ＥＳＰクレジットをＤＭＥ１２２に追加することによって行われる（これをＷＤクレジット又は交換クレジットとも同様に呼ぶことができる）。ＤＭＥ１２２前に、幾つかのＷＤを実行中のＰＰＥ１２３エンジンは、幾つかのＥＳＰクレジットを追加することが許される。これは、各ＥＳＰにおいてＰＰＥワークの完了をアクセラレータが待つ必要がないようにする。最適には、アクセラレータをストールさせずにバリアを通過することができるように、各ＥＳＰ遷移において、ＥＳＰクレジットが既に利用可能であるべきである。

１つのクレジットは、アクセラレータ５２との第１のデータ交換で全てのデータを転送するＤＭＥ１２２の能力を表す。ＰＰＥ１２３は、ＰＰＥが次のシーケンシャルＥＳＰへのデータプリフェッチを完了（すなわち事前ワークを完了）するたびに、新しいクレジットを追加することによってＥＳＰクレジットをインクリメントする。ＰＰＥ１２３による外部ノードからのデータプリロードがＥＳＰに間に合うように完了しない場合、ＤＭＥ１２２は、そのＥＳＰクレジットがゼロであることを発見することになり、ＰＰＥ１２３がクレジットカウントをインクリメントするまで、実行がストールする。データ欠損に起因して１つのアクセラレータ５１をストールさせることは、事実上、同期して（すなわち同じバリア同期ネットワークを共有して）実行中の協働しているアクセラレータの組全体をストールさせることになる。

各ＤＭＯＶ命令は、ＤＭＡ動作としてハードウェア内でＤＭＥ１２２によって実行される。これらのＤＭＯＶ命令は、ゲートウェイプッシュモデルが適用される場合に実行される。ＤＭＯＶ命令は、参照されたデータバッファ（ゲートウェイメモリ１１４内）に存在するデータをその宛先に移動させる。それは、通常、アクセラレータ５１のメモリであるが、他の宛先も同様にサポートされる。

データのストリーミングは、ＥＳＰ毎にバッチされるため、ＤＭＥ１２２は、ゲートウェイメモリ１１４からの必要とされる数のバッファが転送されるとき、データ転送を停止することになる。ＥＳＰバッチ毎に交換されるバイト数は、１）ストリーミングエンジン１２４のプッシュ動作、及び、２）ゲートウェイメモリ１１４への書き込みの両方のパラメータフィールドによってＷＤにおいて示される。プッシュするバイト数は、同じＷＤにスケジュールされた全てのバッファ内のバイト数に等しいと予期される。不一致がある場合、これは、例外状況に繋がる。

ＤＭＥ１２２は、メモリ管理ユニット（ＭＭＵ）のサポートなしでメモリ１１４からデータを検索するために物理メモリアドレスを使用するように構成される。

ゲートウェイ５２へのデュアルバス接続を有するアクセラレータ５１の場合、ＤＭＯＶには、データを何れのバスに向けるべきかを示す情報がない。ＤＭＥ１２２は、２つのバスを経由して送信されるトラフィックのバランスを取るようにバスの選択を制御する。

ＤＭＯＶは、ゲートウェイメモリ１１４内の予め初期化されたデータバッファにリンクし得、したがって、この場合、関連する事前ワーク命令がバッファを埋める必要がない。

代替的に、単一のＤＭＯＶ（メモリ１１４内に単一のメモリデータバッファを有する）は、データ収集動作で事前ワーク命令の組にリンクし得る。そのような参照された各事前ワーク命令は、データを、特定のソース及びロケーションから、異なるオフセットにある同じデータバッファに運び、したがって収集動作を形成する。事前ワーク命令は、データを準備する対象であるＤＭＯＶと同じＷＤにおいてスケジュールされる。単一の事前ワーク動作は、幾つかのＤＭＯＶ動作によってプッシュされるデータを提供し得る。

事前／事後ワークエンジン命令セットは、ソフトウェアで実施される事前／事後ワークエンジンによって実行される。所与のＥＳＰに関連して「事前ワーク」を実行する必要があり、所与のＥＳＰに関連して「事後ワーク」を実行する必要がある。

ＰＰＥによる命令の自律実行は、「ゲートウェイプッシュ」及び「アドバンストアクセラレータプル」動作モデルで実施され得る。ＰＰＥ１２３は、ゲートウェイ外部メモリ／ストレージ１１４とデータをやりとりするために、ＲＤＭＡ、ＮＦＳ、ＮＶＭｏＦ、ｉＳＣＳＩ又は任意の他のサポートされるファイルアクセスプロトコルを使用する。ストリーミング動作の実行は、実行可能イメージの「事後／事前ワークセクション」で見られるＰＰＥ命令によって直接制御される。ＰＰＥ１２３は、イメージファイルから命令を取り、これをローカル／リモートストレージ動作に変換するソフトウェアベースのストリーミングプロセッサとして見ることができる。これらの転送は、ゲートウェイメモリ１１４と外部メモリ／ストレージとの間である。

ＰＰＥ１２３は、ＤＭＥ１２２と並列に実行し、ＤＭＥ１２２はＰＰＥ１２３の結果に依存するため、ＰＰＥ１２３は、ＤＭＥ１２２によって実行されるデータムーバ動作がスケジュールされる前にワークを完了させる必要がある。これは、ワーク記述子を使用して、同じデータ交換同期点に属するＤＭＥ１２２及びＰＰＥ１２３を一緒にグループ化することによって実行可能イメージにおいて対処される。

各ＰＲＷ命令は、データを外部ストレージから検索し、ＰＲＷ命令が指す予めコンパイルされたデータバッファ（ゲートウェイメモリ１１４内）にデータを記憶する。ＰＲＷ命令は、データソースに応じて様々なバリアント（ｖａｒｉａｎｔ）で到来する。これらのバリアントは、外部Ｉ／Ｏ動作に対処する異なるパラメータセットを必要とする。これらの詳細は、実行開始前に、ゲートウェイ制御チャネルを介して制御プレーンによってセットアップされた参照されるＩ／Ｏパラメータにおいて調べられる。

コンパイラは、ＰＲＷ命令によって参照されるバッファにメモリ１１４の領域を予め割り当てる。これらのバッファは、ＰＲＷ命令が実行されるとき、外部ストレージから検索されるデータの記憶に使用される。

ＥＳＰクレジットの組は、このＷＤにスケジュールされた全ての事前ワーク関連命令が完了したとき及び前の全てのＷＤにスケジュールされた全ての事前ワーク関連命令も完了し、このＷＤに終了基準を有する全ての事後ワーク関連命令も完了した場合のみ、各ＷＤについてＰＰＥ１２３によってインクリメントされる。

ＰＲＷ命令は、データのソース／宛先に応じて様々なバリアントで到来する。

ＰＲＷ命令の実行順序は、実行可能イメージ内で表現される順序である。しかしながら、ＰＲＷ命令のより小さいバッチは、並列で実行されて、リモートロケーションからのＩ／Ｏ性能を最適化する。１つ又は複数のＷＤからの１つ又は複数のＰＲＷ命令は、データが必要とされる場合、ＷＤよりも先に実行される。これは、ＷＤが消費するデータ「パイプライン」を埋めるために必要とされる。ゲートウェイ５２は、事前ワークのための並列実行エンジンを有し、並列実行エンジンがデータ「パイプライン」を埋めるこの事前ワークを行うことができるようにする。

ＰＲＷ命令の完了順序は、実行可能イメージ内の命令の順序と同じではないことがある。しかしながら、データは、ゲートウェイメモリ１１４内でシーケンス要件なしで終わるため、そのような順序通りではない完了は、問題ではない。アクセラレータ５１へのこのデータのデプロイメントシーケンスが到来したとき、ＤＭＥ１２２は、命令順序が実行可能イメージによって表現された順序であることを保証する。

ＰＲＷ命令は、常に終了基準を有する。ＰＲＷ命令は、供給されたデータが、アクセラレータ５１によって必要となる所与のＷＤよりも先の期限時間までに完了するようにＧＷ５２によってスケジュールされる。終了基準は、ＰＲＷ命令が含まれるＷＤによって表される。データをＷＤに間に合うように供給することができない場合、データ交換フェーズは、データが利用できるようになるまで遅延する。これは、事実上、データが利用可能になるまでアクセラレータ５１の計算フェーズをストールさせる。そのようなストールの発生は、カウントされ、そのような監視からのフィードバックは、ゲートウェイ及び／又はコンパイラの最適化に役立つ。

ＰＯＷ命令は、所与のＥＳＰに関する「事後ワーク」を行う。その主な機能は、データをゲートウェイメモリ１１４から外部ストレージ（例えば、ホスト６３又はリモートストレージ１５１）に移すことである。ゲートウェイメモリ１１４に記憶されるデータは、アクセラレータ５１から受信されたデータである。ＰＯＷ命令は、データの宛先に応じて様々なバリアントで到来する。これらのバリアントは、外部Ｉ／Ｏ動作に対応する異なるパラメータセットを必要とする。

ＰＯＷ命令を動作するメモリ１１４内のデータバッファにリンクすることは、コンパイラ次第である。

事後ワークの場合、結果は、アクセラレータ５１に通信されず、代わりにホスト６３、リモートストレージ１５１ストレージ又はゲートウェイメモリ１１４に記憶されるため、命令は、順序通りに実行されなくてよく、純粋なデータの書き込み順序に関するセマンティクスは、暗示されない。

ＰＯＷ命令は、常に必須開始基準を有し、必須開始基準は、命令を実行し得る最速時点を表す。ＰＯＷ命令は、必須開始点よりも後に実行することができるが、必須開始点よりも先に実行することができない。したがって、ＰＯＷ命令は、所与のＷＤでの開始のためにトリガーされる。このトリガーＷＤは、ＰＯＷ命令が含まれるＷＤとして表される。前のＷＤの完了時、アクセラレータ５１は、ＰＯＷ命令のバッファへの書き込みを終えていなければならない。

異なるタイプのＰＯＷ命令がある。第１のタイプのＰＯＷ命令は、データをローカルＧＷメモリ１１４からリモートストレージ１５１に移すことに関わる。これは、制御チャネルを介して送信される命令（例えば、記述子１１９）によりホスト６３によって構成することができる。第２のタイプのＰＯＷ命令は、データをローカルゲートウェイメモリ１１４からホスト６３に移すことに関わる。これも、制御チャネルを介して送信される命令によりホスト６３によって構成することができる。第３のタイプのＰＯＷ命令は、ゲートウェイメモリ１１４に記憶されたデータの操作に関わる。

ＰＯＷ命令は、ＰＯＷ命令のパラメータによって表される任意の終了基準を有することもできる。これは、以下の用途を有し得る。第１に、この任意の終了基準は、事前ワーク命令が、一部をなすＷＤによって暗黙的に与えられる終了基準を有するのとほぼ同じように、ＰＯＷ命令が特定のＷＤのためにデータを準備できるようにし得る。第２に、ゲートウェイコンパイラが、外部ノードにエクスポートするためにＰＯＷ命令によって使用される「出力」バッファを再使用している場合、保存されていないデータを依然として保持しているバッファをアクセラレータ５１による上書きから保護することが重要である。この場合、プログラムは、全てのＰＯＷがバッファのフラッシュを完了し、それにより、再使用及びそれ以上のアクセラレータ５１の出力動作のためにバッファを自由にするまで、いわゆる名前付き実行バリア（ＮＥＢ）命令をＤＭＥ命令ストリームに停止点として配置することによりバッファを保護することができる。これらのＮＥＢ命令について後に説明する。

ＰＯＷ命令が終了基準を満たすことができない場合、ＰＰＥ１２３は、ローカルＤＭＥ１２２を一時停止し、したがって、全てのアクセラレータは、同じ同期レベルに同期される。ＰＰＥ１２３は、ＰＯＷ命令を一時停止し、終了基準を見つける。同じ停止基準を有するか、異なる停止基準を有するか又は停止基準を有さない幾つかのＰＯＷ命令があり得る。

上述したように、コンパイラは、停止／通過「実行バリア」を所与の実行時点に配置し得る。（ＮＥＢ）命令は、完了時（例えば、ＰＯＷ命令）に名前付き「実行バリア」完了済み（ＮＥＢ）にシグナリングするように命令されたオブジェクトからの完了リポート数を収集するＮＥＢＣオブジェクトを参照する。

ＮＥＢ命令は、常にＷＤに属し、すなわちＷＤによってエンベロープ（ｅｎｖｅｌｏｐｅ）される。それは、３つ全ての命令ストリーム（ＤＭＥ、ＰＰＥ＿ＰＲＥ及びＰＰＥ＿ＰＯＳＴ）に挿入することができる。

「停止」状態は、ＷＤ内の命令の実行に進まないようにするＤＭＥ／ＰＰＥへの停止信号を表す。他の可能な状態は、「通過」であり、ＤＭＥ／ＰＰＥがＷＤ内の命令の実行に進めるようにし、したがってＮＥＢ命令を通過する。この終了基準にリンクされた全ての命令が、ＮＥＢＣオブジェクト内の「ｃｏｍｐｌｅｔｉｏｎｓ＿ｓｅｅｎ」カウンタをインクリメントすることによって完了を報告した場合、状態は、「停止」から「通過」に変わる。

「実行バリア」の概念は、バルク同期並列（ＢＳＰ）メモリ一貫性モデルでバリア制御に使用され得るＥＳＰ同期の従来のもの（ｐｒｉｍｉｔｉｖｅ）と混同されるべきではない。幾つかの例では、ＮＥＢ命令挿入点は、アクセラレータプログラムの特定のＥＳＰと相関付けられるが、そのような直接的要件はない。ＮＥＢは、全ての種類の同期の一般停止点として使用することができる。

ＮＥＢ命令がＤＭＥ命令ストリームの開始点においてＷＤに挿入されるＮＥＢ命令の第１の使用例を与えることができる。ＮＥＢは、ＤＭＥ命令を実行する前提条件を表す。前提条件は、ＰＯＷ命令を介して外部ノード（例えば、ホスト６３又はリモートストレージ１５１）へのアクセラレータ出力バッファのフラッシュ（又はリングバッファ充填閾値）を制御するために使用される。ＥＳＰクレジットの組は、ＮＥＢ前提条件が満たされ、ＰＲＷ命令が完了するまでインクリメントされない。これは、利用可能なＥＳＰクレジットがない場合、ＷＤがＤＭＥによりキャッシュすることができるが、それ以上実行できないことを意味する。ＰＰＥ１２２がＰＲＷ命令の実行を完了した場合、ＰＰＥ１２２は、まず、ＷＤ内の全てのＮＥＢ命令が「通過」状態であるか否かをチェックする。「通過」状態であり、クレジットを与えるための他の全ての前提条件が満たされる場合、クレジットは、インクリメントされる。ＤＭＥ実行エンジンは、ＮＥＢ命令が停止状態であることが分かる場合、例外を生じさせる。この例外は、「停止」状態であるにも関わらず、ＰＰＥがクレジットを誤って追加したこと又はＤＭＥ／ＰＰＥ実装に何らかの発生条件があることを示す。

ＮＥＢ命令が、ゲートウェイ５２からホスト６３へのデータエクスポートをフロー制御するために事後ワーク命令ストリームに挿入されるＮＥＢ命令の第２の使用例を与えることができる。この場合、ホスト６３は、ＮＥＢＣの状態を制御する。このモデルでは、ホストは、ＰＰＥ１２３が、データをホスト６３に転送し、したがってＮＥＢ命令を通過させるＰＯＷ命令の実行を許すか否かを制御する。これは、ホストが、「リンクされた」ＮＥＢＣオブジェクトの状態に更新を提供して、状態を「通過」状態に設定することによって制御される。ホストは、リンクされた全てのＰＯＷ命令が完了した場合のみ、「通過」状態を設定することが許される。

終了基準は、常に、命令ストリーム内でＮＥＢが「次に発生」するときに配置される。「次の発生」は、ＰＯＷの実行に関連して理解されるべきである。

ＮＥＢ命令が、ホスト６３から供給されるデータインポートをフロー制御するために事前ワーク命令ストリームに挿入されるＮＥＢ命令の第３の使用例を与えることができる。この場合、ホスト６３は、ＮＥＢＣの状態を制御している。このモデルでは、ホストは、ＰＰＥ１２３が、ホスト６３又はリモートストレージ１５１からメモリ１１４にデータを転送し、したがってＮＥＢ命令を通過させるＰＲＷ命令の実行を許すか否かを制御する。これは、ホスト６３が、「リンクされた」ＮＥＢＣオブジェクトの状態に更新を提供して、状態を「通過」状態に設定することによって制御される。

ＮＥＢＣオブジェクトは、常に、プログラム実行の開始時に停止状態で初期化される。ＮＥＢ後に次の命令を開始する際にも同じ再初期化が実行される。状態を「停止」に設定する場合、「ｃｏｍｐｌｅｔｉｏｎｓ＿ｓｅｅｎ」も同様にゼロに設定される。

ＤＭＥの場合、ＤＭＥ１２２は、それ自体、ＮＥＢが見られる実行に依然として至っていないことがあり、ＮＥＢ命令が見られるときまでに、リンクされた全ての命令が完了している場合、「ｃｏｍｐｌｅｔｉｏｎｓ＿ｓｅｅｎ」は、「ｅｘｐｅｃｔｅｄ＿ｃｏｍｐｌｅｔｉｏｎｓ」と同一であり、状態は、「通過」として観測され、したがって待つことなく実行が続く。他の場合、ＤＭＥ１２２は、リンクされた全ての命令が完了するまで待つ。

ゲートウェイ５２には、アクセラレータ５１毎に１つのストリーミングエンジン１２４があり、各ストリーミングエンジン１２４は、説明した種々のモードで実行し得る。

ファブリックにわたり提供される幾つかのストリーミングエンジンインスタンスがある。アクセラレータ５１毎に１つのストリーミングエンジン１２４があり、各ストリーミングエンジン１２４は、イメージを実行している。各ストリーミングエンジン１２４は、１つ又は複数の高速バス（例えば、ＰＣＩｅＧｅｎ４）を介してアクセラレータ５１にデータを供給する。

ストリーミングエンジン１２４を使用して実施し得る複数の異なる可能なストリーミングフローがある。例えば、第１の可能なストリーミングフローでは、ゲートウェイ５２は、アクセラレータ５１へのデータのストリーミングを可能にし得る。データのこのストリーミングは、データを提供するように構成された更なるアクセラレータによって開始し得る。代替的に、データのストリーミングは、ゲートウェイ５２のＤＭＥ１２２によって開始しでき、ＤＭＥ１２２は、命令を実行して、データをメモリ１１４からアクセラレータ５１に転送する。そのようなデータは、ホスト６３又はリモートストレージ１５１からゲートウェイ５２において受信されていた可能性がある。

第２の可能なストリーミングフローでは、ゲートウェイ５２は、リモートアクセラレータへのデータのストリーミングを可能にし得る。アクセラレータ５１は、グローバルアドレス空間においてリモートアクセラレータを識別するアドレスを有するパケットをゲートウェイ５２に提供し得る。ゲートウェイ５２は、このアドレスを使用して、リモートアクセラレータに送るためにデータパケットを更なるゲートウェイ１２８に転送するように構成される。

第３の可能なストリーミングフローでは、ゲートウェイ５２は、ローカルゲートウェイメモリ１１４へのデータのストリーミングを可能にし得る。これは、ローカルゲートウェイオフロードの結果であり得る。メモリ１１４へのデータの転送は、ＥＳＰにおけるアクセラレータ５１からであり得る。メモリ１１４へのデータの転送は、ローカルＲＤＭＡ又はホストＲＤＭＡの結果であり得る。データは、ホスト６３、ＮＡＳ１５１又は更なるゲートウェイ１２８等の外部ストレージからメモリ１１４に転送し得る。そのような外部ストレージからメモリ１１４へのデータの転送は、ＰＰＥ１２３によって実行される事前ワークの一環である。

第４の可能なストリーミングフローでは、ゲートウェイ５２は、更なるゲートウェイ１２８のメモリへのデータのストリーミングを可能にし得る。データ転送は、ゲートウェイ５２自体によって開始し得る。データ転送は、アクセラレータ５１によって開始し得、アクセラレータ５１は、グローバルアドレス空間において更なるゲートウェイ１２８を識別するアドレスを有するパケットをゲートウェイ５２に提供する。更なるゲートウェイ１２８へのデータの転送は、更なるゲートウェイ１２８によって実行される、ゲートウェイメモリ１１４からデータをプルする事前ワーク命令の結果であり得る。

第５の可能なストリーミングフローでは、ゲートウェイ５２は、リモートストレージ１５１へのデータのストリーミングを可能にし得る。データは、ＲＤＭＡ、ネットワークファイルシステム（ＮＦＳ）プロトコル、不揮発性メモリオーバファブリック（Ｎｏｎ－ＶｏｌａｔｉｌｅＭｅｍｏｒｙｏｖｅｒＦａｂｒｉｃｓ）（ＮＶＭｏＦ）及びインターネット小型コンピュータシステムインターフェース（ｉｎｔｅｒｎｅｔＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）（ｉＳＣＳＩ）プロトコルの１つ又は複数によってゲートウェイメモリ１１４からリモートストレージ１５１に転送される。データ転送は、ゲートウェイによって開始される。リモートストレージ１５１へのこの転送は、ＰＰＥ１２３による事後ワーク命令の実行から生じ得る。

第６の可能なストリーミングフローでは、ゲートウェイ５２は、ホスト６３へのデータのストリーミングを可能にし得る。データは、ゲートウェイメモリ１１４からピン留めされたホストメモリ又はＲＤＭＡアクセス可能なホストメモリの何れかに転送される。ホスト６３へのこの転送は、ＰＰＥ１２３による事後ワーク命令の実行から生じ得る。

第７の可能なストリーミングフローでは、ゲートウェイ５２は、１つ又は複数のリモートＮＦＳサーバからのデータのストリーミングを可能にし得る。これらのサーバからのデータ転送は、ゲートウェイ５２によって送信される要求に応答して行われ得る。

先に述べたように、ＡＩ及びＨＰＣの並列プログラミングモデルは、通常、３フェーズインタラクティブ実行モデル、すなわち、計算、バリア及び交換（データ転送、コレクティブ及びブロードキャスト）に従う。含意されるのは、アクセラレータが、通常、予めコンパイルされたデータ交換同期点及び／又はアクセラレータ要求時に実行されるコレクティブにおいてアクセラレータとデータ転送を行う必要があることである。要求は、アクセラレータ５１が利用可能なデータの処理を終えた同期点を表し、ここで、いくらかのデータのエクスポートを要求するとともに、いくらかのデータのインポートを要求する。ゲートウェイ５２は、アクセラレータが、肯定応答されたアクセラレータ要求を交換した直後にデータ移動をスケジュールする。

ゲートウェイストリーミングエンジン１２４は、データ移動を最適化し、したがって、データバッファ「オブジェクト」は、データ保持に重要な役割を果たす。実行中、ポインタをバッファ（ゲートウェイメモリ１１４内）に渡すことにより、システムは、動作中、ゼロコピーセマンティクスを実施する。データバッファは、ロードされたイメージで予め初期化されているか又はＰＰＥ１２３によって充填される。両方の事例において、メモリ１１４内のバッファへの参照は、ＥＳＰでのアクセラレータ５１へのデータ転送のためにＤＭＥ１２２によって使用され得る。

データが既に準備され、ロードされた実行可能イメージに埋め込まれている場合等、アクセラレータデータを準備するために事前ワークが必要ない場合があり得る。そのような場合、ＰＰＥ１２３は、ＥＳＰクレジットをＤＭＥ１２２にポストすることも担当する。

アクセラレータ５１に向かうデータ移動がない（例えば、アクセラレータ出力データのみ）ＥＳＰが存在することもでき、そのような場合、ＰＰＥ１２３は、ＥＳＰクレジットをＤＭＥ１２２にポストすることも担当する。この場合、ＰＰＥ１２３は、その後のＥＳＰ中にアクセラレータ５１に向かうデータ移動がないとの判断に応答して、その後のＥＳＰのためにＥＳＰクレジットをインクリメントする。

ＥＳＰクレジットを追加するのは、常にＰＰＥ１２３である。

事前ワーク命令のみの場合：ＷＤの事前ワークが、先に発行されたＷＤ内の事前ワークと比較して時間的に先に完了する場合、設計は、事前ワーク完了情報をキューに入れ、前の全てのＷＤが完了したとき、前の全てのＷＤの処理後、ＥＳＰクレジットの数を増大させる必要がある。

アクセラレータデータインポート（すなわちゲートウェイ５２からアクセラレータ５１へのデータ転送）の場合、ＷＤは、交換中、両方向（すなわちアクセラレータ５１とゲートウェイ５２との間）で転送されるバイト数を記述する。プッシュモデルでのアクセラレータ５１は、編集の結果として同じ情報を有し、したがってこの交換で予期された全てのデータが受信されたときを知り、全てのデータが受信された直後、計算フェーズを開始する。プルモデルでは、アクセラレータ５１は、ゲートウェイ５２からのデータの読み出しを停止することにより、交換が終わるときを制御する。

アクセラレータデータエクスポートの場合：アクセラレータ５１は、コンパイルされたコードから、所与のＥＳＰについてゲートウェイ５２に送信されるデータ量を知り、ゲートウェイ５２は、この情報をＷＤから読み出すことによってどの程度が予期されるかを知る。

ゲートウェイ５２は、アクセラレータ５１から予期される厳密な数のバイトを受信すると、次のＷＤの実行に移る。次のＷＤを実行するにあたり、ゲートウェイ５２は、ゲートウェイメモリ１１４内のデータに対して、ローカル動作を含む事後ワークを実行し得る。追加又は代替として、ゲートウェイ５２は、データをその最終宛先に転送する事後ワークを実行し得る。代替として、ゲートウェイ５２は、事後ワークを実行しなくてもよい。例えば、データをゲートウェイメモリ１１４に留まらせ、メモリ１１４が後のリードバックのためにオフアクセラレータデータキャッシュとして機能できるようにし得る。次のＷＤを実行するにあたり、ゲートウェイ５２は、次のＥＳＰ前に完了する必要がある事前ワークを実行し得る。追加又は代替として、ゲートウェイ５２は、次のＥＳＰ後に実行されるＤＭＯＶ命令を実行し得る。利用可能なＥＳＰクレジットがある場合、ＤＭＯＶ命令は、ＥＳＰ前にゲートウェイ転送メモリ１２７にデータをプリロードするために使用される。ＥＳＰクレジットがない場合、ＤＭＥ１２２は、ＥＳＰクレジットを待ち、ＥＳＰクレジットが利用可能になったときにプリロードを実行する。

ＰＰＥ命令、すなわち、事後ワーク（ＰＯＷ）及び事前ワーク（ＰＲＷ）命令の両方が、ストレージノードで既に利用可能であることが分かっている静的データについてリモートストレージ１１４をターゲットとしている場合、ゲートウェイがデータへの直接アクセスするためのストレージプロトコルをサポートする限り、そのノードとのデータ同期の必要はない。

ホスト６３のメモリは、ゲートウェイ５２及びアクセラレータ５１に転送されるデータ量よりも小さく、したがって、ホスト６３は、データをメモリに「１つずつ」運ぶ必要がある。この「１つずつ」の性質に起因して、ゲートウェイ５２とホスト６３との間には、ゲートウェイ５２開始のＲＤＭＡ読み出し（ゲートウェイデータインポート）にいつデータが利用可能になるかを制御する同期メカニズムが必要とされる。同様に、ゲートウェイ５２開始のＲＤＭＡ書き込み（すなわちゲートウェイデータエクスポート）の場合でも、同様の同期が必要である。トータルＡＩ設備の課題は、ゲートウェイ／アクセラレータ内外への連続したデータストリーミングを有することであり、したがって、そのような同期メカニズムは、ＡＩ性能にとって極めて重要である。システムは、大きいＡＩファブリックにスケーリングするために、このためのオーバーヘッドが最小である良好に設計された解決策を必要とする。

ストリーミングエンジン１２３は、ゲートウェイとホストとの間でデータを移動させる幾つかの動作モードを有する。

第１の動作モードでは、ストリーミングエンジン１２４は、ホスト６３からのコマンド下でホスト６３のスレーブとして実行される。第２の動作モードでは、ストリーミングエンジン１２４は、そのコードメモリに記憶された予めコンパイルされた命令に基づいて実行される。

第１の動作モードでは、ストリーミングエンジン１２４は、ホスト６３のスレーブとして動作し、ホスト６３の制御下において、データをメモリ１１４に記憶し、アクセラレータ５１に送るために上記データをメモリ１１４から検索する動作を実行する。

第２の動作モードでは、ストリーミングエンジン１２４は、アクセラレータ及びゲートウェイで構成された完全なシステムのコードの生成に使用される、コンパイラから導出された予めコンパイルされた実行可能ファイルに依存して、ホスト６３又はリモートストレージ１５１からデータをプリフェッチする。コンパイラは、アクセラレータ５１に送られるデータをフェッチするコードをゲートウェイ５２に生成するために使用され、アクセラレータ５１は、データを処理し、ホスト６３、ゲートウェイ５２及びアクセラレータ５１は、互いに同期して動作することが可能である。ゲートウェイ５２のファイルは、アクセラレータ５１が必要とするデータを予期し、それをメモリ１１４に記憶することにより、関連する計算フェーズ前にデプロイのためにそのデータを準備する。ゲートウェイ５２は、コンパイラによって生成されたコードに依存して、適切な時間に転送するためにデータを準備する。ＤＭＥ１２２は、アクセラレータ５１からの同期要求５６に応答して、アクセラレータ５１にとって厳密な正しい時間に待ち時間を最適化した様式でアクセラレータ５１にそのデータを転送する。ＤＭＥ１２２は、待ち時間を最適化した発送のためにアクセラレータ５１の近傍に配置される。

第３の動作モードでは、アクセラレータ５１は、次のＮ個のバリア前に、対応するＮ個のバリアについてメモリ１１４からアクセラレータ５１への転送のために何れのデータを準備すべきかをゲートウェイ５２に通知する。この動作モードでは、アクセラレータコンパイラは、将来のＩ／Ｏ動作を予見し、したがってゲートウェイ５２がデータ発送に適切な時間を有するようにそのようなコマンドをゲートウェイ５２にスケジュールすることができる。

コンパイラは、アクセラレータ５１によって実行されるコンピュータコード命令の組を生成する。これらの組のコンピュータコード命令は、実行可能イメージと呼ぶことができる。幾つかの実施形態（例えば、上述した第２の動作モード）では、コンパイラは、ゲートウェイ５２によって実行される関連する組のストリーミングエンジンデータ移動／処理コマンドを生成することもできる。

コンパイラは、ストリーミングエンジン毎に１つの実行可能イメージを生成する。実行可能イメージは、アクセラレータから見られるようにフラットで連蔵した（ｃｏｎｔｉｇｕｏｕｓ）ＸＰＵ仮想アドレス（ＸＶＡ）空間を参照する。このＸＶＡ空間は、内部アクセラレータメモリ及び同じＸＶＡ空間へのメモリ管理ユニット（ＭＭＵ）マッピングを介してマッピングされる「ストリーミングエンジンサンドボックス」メモリをカバーする。実行イメージは、ストリーミングエンジン１２２がアクセス可能である、必要とされるホストメモリをカバーする「ホストサンドボックス」仮想アドレス（ＨＳＶＡ）空間も参照する。このＨＳＶＡ空間は、ＧＷ動作モデル、すなわち、「ＧＷプッシュモデル」及び「アドバンストＸＰＵプルモデル」において関連する。

これらの２つの仮想アドレス空間（ＸＶＡ及びＨＳＶＡ）内では、コンパイラは、ストリーミングエンジン１２２、アクセラレータ５１及びホスト６３が必要とするバッファリソース及びアドレス可能要素の存在の定義を担当する。

コンパイラは、適切であるように見え、限られたゲートウェイメモリ１１４に起因して必要になるとき、ＷＤの反復間及びシーケンス間でのメモリ１１４内のゲートウェイバッファの再使用の定義も担当する。バッファ再使用最適化は、十分なメモリがゲートウェイ５２に割り当てられる限り必要ない。

２つ以上のアクセラレータと通信するように構成されたゲートウェイ５２の場合、現在、あるアクセラレータが、他のアクセラレータに割り当てられたストリーミングエンジンサンドボックスにアクセスすることは可能ではない。これは、各アクセラレータ又はアクセラレータサポートチップ内部のＭＭＵセットアップによって強いられる。異なるアクセラレータのＸＶＡ空間は、物理的ゲートウェイメモリと重複しない。ストリーミングエンジンは、別個の「ＸＰＵサンドボックス」で実行され、全てのアクセスは、それ自体のサンドボックス内に留まるように実行時に強いられる。アクセラレータのオンボードＭＭＵに起因して、これらのストリーミングエンジン間で共有される共通メモリ領域を構築することが可能であり得る。

図７に示すアクセラレータへのデータ転送を再び参照すると、幾つかの例では、ゲートウェイ５２は、データをホスト６３又はリモートストレージ１５１から受信し、アクセラレータ５１への転送のために高速ゲートウェイ転送メモリ１２７に提供する前にメモリ１１４に記憶する。ＤＭＥ１２２は、ＤＭＥ命令に依存して、メモリ１１４から高速ゲートウェイ転送メモリ１２７にプリロードする。ゲートウェイ転送メモリ１２７の内容は、ハンドシェーク要求の完了に応答してアクセラレータ５１に転送される。ゲートウェイ転送メモリ１２７へのこのプリロードは、上述したプッシュモデルで使用される。同様に、プルモデルでも、ゲートウェイ転送メモリ１６１０へのプリロードが実行される。幾つかの例では、ゲートウェイ転送メモリ１２７／１６１０の何れか又は両方へのプリロードは、ＥＳＰクレジットの数がゼロよりも大きい場合のみ実行される。

図１４を参照すると、図１４は、データの準備、ゲートウェイ５２とアクセラレータ５１との間でのデータの交換及びこのデータの処理がどのように関連するかを示す。準備段階及びデプロイ段階は、ゲートウェイ５２によって実行される一方、計算段階は、アクセラレータ５１によって実行される。データは、関連する計算フェーズ前にゲートウェイ５２によって準備される。データは、アクセラレータ５１の可能な限り近くに記憶される。アクセラレータ５１がデータを受け入れることが可能であり、同期要求５６をゲートウェイ５２に送信することによってそれを示す場合、ゲートウェイ５２は、外部に依存することなく、アクセラレータ５１にリンクされたポートの全容量を使用してデータをデプロイする。デプロイされたデータがアクセラレータ５１によって処理されているとき、ゲートウェイ５２は、デプロイするデータの次のフェーズを準備する。エンジンは、利用可能な全てのゲートウェイデータセンタポートにわたりその動作をスケーリングする。

ゲートウェイ５２は、データをホスト６３又はリモートストレージ１５１から受信し、追加のゲートウェイによって必要とされるデータの記憶及び増強を実行することが可能である。このデータは、追加のゲートウェイに転送され得る。追加のゲートウェイに転送されたデータは、次いで、それらの追加のゲートウェイに関連するアクセラレータに提供され得る。これは、ボトルネックの回避に有用であり得る。例えば、各ゲートウェイが独立してリモートストレージ１５１からデータを検索し、したがってリモートストレージ１５１へのアクセスにおいてボトルネックを生じさせる代わりに、あるゲートウェイ５２は、データをリモートストレージ１５１から検索し、上記データを複数のゲートウェイに提供し得る。これは、リモートストレージ１５１にアクセスするときのボトルネック問題に対処し得る。

ゲートウェイ５２がデータをホスト６３又はリモートストレージ１５１から受信すると、このデータをアクセラレータ５１に提供する前に、ゲートウェイ５２は、データを処理する。この処理は、ストリーミングエンジン１２４によって実行され得る。処理は、データ増強（ノイズ注入）、圧縮解除、（例えば、ＪＰＥＧフォーマットイメージ及びＨ２６４フォーマットビデオ等のイメージ及びビデオデータの）デコードの１つ又は複数を含み得る。この処理は、上述した簡易アクセラレータプルモデルでは実行されない。

メモリの使用を最小にするために、データは、ゲートウェイ５２にロードされるとき、圧縮され、アクセラレータ５１に送られる前の可能な限り遅い時間に圧縮解除される。ゲートウェイ５２は、待ち時間最適化されたハードウェア圧縮解除エンジン（図示せず）を特定のタイプの圧縮に提供し得る。更に、圧縮解除は、ゲートウェイソフトウェアで実施されて、拡張サポートを任意の圧縮アルゴリズムに提供することができる。

データ増強（例えば、ノイズ注入）をゲートウェイ５２で実行することにより、元データは、一度元のフォーマットで記憶され、一度フェッチされ得る。そのデータは、次いで、複数のアクセラレータに複製することができ、ゲートウェイ５２によって各複製コピーに異なる増強設定が適用される。ゲートウェイ５２は、増強方法の組をハードウェアで提供し、上記増強に異なるアルゴリズムを実施するゲートウェイソフトウェアの能力を提供する。

一実施形態では、ストリーミングエンジン１２４は、２つのデータ加速特徴を提供する。ストリーミング機能は、複製特徴並びに複製及び転置特徴を提供する。これにより、トレーニングデータを１つのゲートウェイから多くの他のゲートウェイに複製することができ、それによりＩ／Ｏ接続ニーズを低減する。

データは、ホスト６３又はリモートストレージ１５１からゲートウェイ５２において受信され、ＰＰＥ１２３によってメモリ１１４に記憶される（巡回パス１２０後）。ＤＭＥ１２２は、メモリ１１４からパス１２１に沿って送信されるデータを検索し、そのデータをアクセラレータ５１に送信させる。データは、示されたアクセラレータポートを介してメモリ１１４からアクセラレータ５１に送信される。パス１２１に沿ったデータ転送は、既に述べた同期信号によってトリガーされる。

ゲートウェイ５２は、アクセラレータ５１へのデータ提供（パス１２１を経由したデータの転送を含む）をホスト６３又はリモートストレージ１５１からのデータの検索から切り離せるようにする。換言すれば、ゲートウェイ５２は、アクセラレータ５１により実行される計算前にホスト６３又はリモートストレージ１５１からのデータ転送を進められるようにする。

図８は、ゲートウェイ５２と更なるゲートウェイとの間でデータを交換できるようにする２つの更なるデータパスを示す。ゲートウェイ５２は、パス１２５を含み、パス１２５から、データを（示されるアクセラレータポートによってゲートウェイ５２に結合される）アクセラレータ５１と更なるアクセラレータ（図示せず）との間で、（示されるファブリックポートによってゲートウェイ５２に結合される）更なるゲートウェイ１２８を介して転送され得る。ゲートウェイ５２及び更なるゲートウェイ１２８は、このパス１２５上のスイッチとして動作し、アクセラレータ間での拡張データ交換ファブリックを可能にする。更なるゲートウェイ１２８は、接続された更なるホストとデータを転送するように構成され得る。このパス１２５に沿ったデータ転送は、ユニキャスト（すなわち単一のアクセラレータに向けられたデータ）、ブロードキャスト（特定のアクセラレータに向けられずに送信されるデータ）及びマルチキャスト（複数の指定されたアクセラレータに向けられるデータ）であり得る。ブロードキャストモードでは、ファブリックポートで送信されたパケットは、マルチキャストグループＩＤを含む。各ゲートウェイは、各マルチキャストグループＩＤの宛先リストを含むテーブルを有する。ゲートウェイは、そのようなパケットを受信すると、テーブルにおいてパケットに含まれるマルチキャストグループＩＤに対応する宛先のリストを調べ、パケットをそれらの宛先に送信する。

一実施形態では、ＸＰＵポートは、専用データ移動能力を提供するカスタムルートコンプレックス実装（ｃｕｓｔｏｍＲｏｏｔＣｏｍｐｌｅｘｉｎｐｌｅｍｅｎｔａｔｉｏｎ）である。パケットをゲートウェイメモリ１１４と転送することに加えて、ＸＰＵポートは、ファブリックポートとのピアツーピア能力も提供する。リモートアクセラレータへのメモリ空間マッピングをターゲットとしているパケットは、ＸＰＵポートにおいて検出され、適切なファブリックポートに向けられる。受信ファブリックポートは、パケットを正しい宛先のアクセラレータポートに向ける。ゲートウェイは、パケットをあるファブリックポートから別のファブリックポートに転送することもできる。これにより、任意の大きいファブリックを巡回することができる。このようにして、ゲートウェイファブリックを通して完全なアクセラレータ間交換が可能になる。

図８は、ゲートウェイ５２と更なるゲートウェイとの間でデータを交換するデータパス１２６も示す。データパス１２６は、ゲートウェイ５２と更なるゲートウェイ１２８との間の同期及び管理メッセージの交換に使用される。更に、データパス１２６は、ゲートウェイ５２に関連するメモリ１１４と、更なるゲートウェイ１２８に関連するメモリとの間でデータを交換するために使用される。データパス１２６を介して交換されるデータは、事前ワーク命令がＰＰＥ１２３によって実行される場合、事前ワークの一環として交換される。

データは、ＰＰＥ１２３による事前ワーク命令の実行に応答して、更なるゲートウェイ１２８のメモリからメモリ１１４に転送され得る。このデータは、次いで、その後のＥＳＰでのアクセラレータ５２への転送のために（例えば、アクセラレータからのＰＣＩｅ読み出し動作により又はＤＭＥ１２２によるＤＭＯＶ命令の実行により）メモリ１１４で利用可能になる。ＰＰＥ１２３は、メモリ１１４にデータを転送する事前ワーク命令の実行を完了すると、その組のＥＳＰクレジットをインクリメントする。

先に記したように、同期ゾーン／グループは、複数のゲートウェイを含み得る。そのような場合、同期要求を関連するアクセラレータ５１から受信することの代替又は追加として、同期要求は、更なるゲートウェイ１２８からゲートウェイ５２において受信され得る。この場合、この他のゲートウェイ１２８は、「下流ゲートウェイ」と呼ぶことができる。

ここで、図１５を参照すると、図１５は、更なるゲートウェイ１２８及び更に第３のゲートウェイ１５２と通信するゲートウェイ５２を示す。同期要求１２９が更なるゲートウェイ１２８から受信されると、ゲートウェイ５２は、ゲートウェイ５２が同期マスタではない（すなわちゲートウェイ５２が同期スレーブである）場合、同期要求１５３を上流の第３のゲートウェイに送信することによって同期バリアを通過させることができる。同期要求１２９は、まず、ローカルアクセラレータ（例えば、アクセラレータ５１）から受信した１つ又は複数の同期要求（例えば、同期要求５６）と集計され得る。この場合、上流の第３のゲートウェイに送信されるのは、この集計された同期要求１５３である。

代替的に、例えば同期要求１２９が他のゲートウェイ１２８から受信されるとき、ゲートウェイ１５２がゲートウェイ５２の同期ゾーンの一部ではない場合、ゲートウェイ５２は、ゲートウェイ５２がマスタゲートウェイである場合、同期肯定応答１５４を更なるゲートウェイ１２８に送信することにより同期バリアを通過させ得る。ゲートウェイ５２がマスタゲートウェイである場合、同期要求は、構成された全ての下流ゲートウェイから受信されるため、ローカルアクセラレータ（例えば、アクセラレータ５１）からの受信される任意の同期要求も、（例えば、肯定応答１５５を送信することにより）肯定応答される。

ゲートウェイ５２によって保持されるＬＳＢＭ１１８内のＥＳＰクレジットは、ゲートウェイ５２と更なるゲートウェイ１２８との間で同期要求転送の制御に使用され得る。アクセラレータ５１とゲートウェイ５２との間のバリアと同様に、ＥＳＰクレジットは、同期要求１５５をゲートウェイ５２に送信するローカルアクセラレータ（例えば、アクセラレータ５１）によってゲートウェイの関与が示される場合、ゲートウェイ５２と更なるゲートウェイ１２８との間の同期要求転送の制御にのみ使用される。この指示は、上述したようにレジスタ５９に記憶され得る。ゲートウェイの関与がレジスタ５９において示されない場合、同期要求１２９が受信されたとき、同期要求１５３は、上流に送信され、同期肯定応答１５４が返され、ＬＳＢＭ１１８からのＥＳＰクレジットを要求せずに同期バリアが通過される。

アクセラレータ５１によるゲートウェイ関与が示されると仮定すると、アクセラレータ５１に関連するＥＳＰクレジットの数が非ゼロであり、ゲートウェイ５２が同期要求１２９を下流ゲートウェイ１２８から受信しており、ゲートウェイ５２が同期マスタゲートウェイではない（すなわち同期スレーブゲートウェイである）場合、バリアは、上流に通過される。同期要求１２９は、アクセラレータ５１からの同期要求５６と集計されて、上流ゲートウェイ１５２に送信される同期要求１５３を形成する。ゲートウェイ関与を要求する同期での同期要求１５３に対応する同期肯定応答１５６を受信すると、同期チェーン内の各ＬＳＢＭ１１８内のＥＳＰクレジットは、デクリメントされる。

アクセラレータ５１によるゲートウェイ関与が示されると仮定すると、アクセラレータ５１に関連するＥＳＰクレジットの数が非ゼロであり、ゲートウェイ５２が同期要求１２９を下流ゲートウェイから受信しており、ゲートウェイ５２が同期マスタゲートウェイである場合、ゲートウェイ５２は、同期肯定応答１５４を下流ゲートウェイ１２８及びそれ自体のストリーミングエンジン１２４に送信する。同期肯定応答を受信すると、ストリーミングエンジン１２４は、ＬＳＢＭ１１８によって保持されるＥＳＰクレジットの数をデクリメントする。

したがって、ゲートウェイ５２のＬＳＰＭ１１７は、ＬＳＢＭ１１８内にＥＳＰクレジットがない場合、同期要求及び肯定応答の他のゲートウェイ（すなわちＬＳＰＭ）への伝播を阻止することができる。これは、肯定応答が同期マスタによって最終的に生成されるとき、全てのアクセラレータが同時にスーパーステップの実行を開始することを保証する。

ゲートウェイ５２は、複数のインターフェース、例えばアクセラレータ５１へのインターフェース、更なるゲートウェイ１２８へのインターフェース、第３のゲートウェイ１５２へのインターフェースを含む。これらのインターフェースは、同期伝播モジュールの一部である。ゲートウェイ５２は、同期目的でのこれらの各インターフェースの方向性、すなわち更なるゲートウェイ１２８等のエンティティがゲートウェイ５２の上流であるか又は下流であるかを示すレジスタを含む。したがって、レジスタは、ゲートウェイ５２が同期要求を下流エンティティから受信したことに応答して、ゲートウェイ５２により同期要求を何れのインターフェースに送り出すべきかを示す。何れのインターフェースも同期要求の送信用ではないことをレジスタ５９が示す場合、これは、ゲートウェイ５２が同期マスタであることを示す。この場合、ゲートウェイ５２は、同期要求の受信時に経由した全てのインターフェースを経由して同期肯定応答を送信する。

ゲートウェイ５２は、スレーブゲートウェイとして機能する場合、ゲートウェイ５２に関連するアクセラレータ（例えば、アクセラレータ５１）から１つ又は複数の同期要求を受信し得る。これらの同期要求は、ゲートウェイ５２によって集約され、ゲートウェイ５２は、次いで、集計された同期要求を上流の更なるゲートウェイ１２８に渡す（それが同期要求を受信するゲートウェイ関与を示す各ローカルアクセラレータでＥＳＰクレジットが利用可能であると仮定した場合）。更なるゲートウェイ１２８もスレーブであると仮定すると、その更なるゲートウェイは、その要求及びそれ自体のローカルアクセラレータからの全ての同期要求を収集し、次いで新しい集約された同期要求を次のゲートウェイに転送する（それが同期要求を受信するゲートウェイ関与を示す各ローカルアクセラレータでＥＳＰクレジットが利用可能であると仮定した場合）。

これは、同期ネットワークにわたり並列して発生する。最終的に、マスタゲートウェイは、全ての下流ゲートウェイ及びそれ自体に関連するアクセラレータから同期要求を受信する。そうして初めて同期が完了し、（それが同期要求を受信するゲートウェイ関与を示す各ローカルアクセラレータでＥＳＰクレジットが利用可能であると仮定した場合）同期肯定応答が、マスタゲートウェイによって生成され、受信した同期要求を発信した下流のエンティティ（すなわちローカルアクセラレータ又は下流のゲートウェイ）に送信される。同期肯定応答を受信した下流の各ゲートウェイは、受信した同期要求を発信したエンティティに同期肯定応答を送信する。

述べたように、同期要求は、複数のローカルアクセラレータ（例であるアクセラレータ５１のみならず）からゲートウェイ５２において受信され得る。各アクセラレータは、異なる組のＥＳＰクレジットと関連付けられる。受信した同期要求の送信元である（及びゲートウェイ関与を示す）各アクセラレータの全てのＥＳＰクレジットが非ゼロである場合のみ、ゲートウェイ５２は、集約された同期要求を上流に渡す（この場合、ゲートウェイは、スレーブである）か、又は同期要求に肯定応答し得る（この場合、ゲートウェイは、マスタである）。

論考したように、ゲートウェイは、一緒に接続されて、同期要求及び肯定応答を交換し、複数のアクセラレータ間でデータを交換する同期ネットワークを提供し得る。しかしながら、同期ネットワークのサイズが大きくなる（すなわち同期グループ内で同期するアクセラレータの数が増える）につれて、同期ネットワークが故障する確率が高くなるという問題が生じ得る。そのような故障は、例えば、ゲートウェイ間のケーブル破断又はゲートウェイの故障によって生じ得る。そのような故障の場合、同期マスタは、同期ネットワーク内の下流から予期される同期要求の全てを受信することができないことがあるため、同期マスタは、予期される同期肯定応答を返さないことがある。任意のそのような故障は、同期の失敗を生じさせる。したがって、実施形態によれば、冗長性メカニズムがゲートウェイで実施されて、そのような故障の確率を下げる。

冗長メカニズムは、同期ネットワーク内の上流に送信する同期要求を複製するように構成された１つ又は複数の新しい同期伝播モジュールをゲートウェイに提供することを含む。このゲートウェイ同期ロジックは、各々が同期ネットワーク内の下流から１つ又は複数の同期要求を受信し、同期要求を集約し（２つ以上ある場合）、少なくとも２つの同期要求を同期ネットワーク内の異なる宛先に伝播させる１つ又は複数の新しい同期伝播モジュールを含む。少なくとも２つの同期要求は、同一の冗長同期要求である。少なくとも２つの同期要求は、異なるゲートウェイに送信される。２つの同期要求をこのようにして同期ネットワーク内の異なるパスに沿って送信することにより、冗長性を同期ネットワークに組み込む。同期要求は、２つの異なる同期伝播モジュールにおいて受信され、これらは、肯定応答を返すことによってマスタとして機能し得るか、又は各々が更に２つの冗長同期要求を同期ネットワーク内の上流の異なる宛先に送信することによって伝播ノードとして機能し得る。したがって、同期ネットワーク内の各ゲートウェイにおいて、冗長同期要求の数は、２倍になる。各ゲートウェイで生成される冗長同期要求は、異なる同期マスタに向かって上流に送信される。同期ネットワーク内の何れかのリンクが故障した場合、それでもなお、同期要求は、ネットワークの少なくとも１つのマスタに到達することになり、肯定応答が同期ネットワーク内の下流の全てのゲートウェイ及びアクセラレータに伝播される。

冗長マスタ及び同期要求のこのモードは、高可用性モード（ＨＡモード）と呼ぶことができる。ゲートウェイの新しい同期伝播モジュール（高可用性同期複製モジュールと呼ばれる）は、このモード又は単一の同期要求のみが上流の単一のマスタに送信される非ＨＡモードで動作し得る。

ここで、実施形態について、図１８～図２８を参照してより詳細に説明する。図１８を参照すると、図１８は、本明細書ではシャーシグループと呼ばれるゲートウェイ５２ａ、５２ｂ、５２ｃ、５２ｄ（まとめてゲートウェイ５２と呼ばれる）及びアクセラレータのグループの一例を示す。シャーシは、単一のゲートウェイと、そのゲートウェイが接続されるアクセラレータとを含む。シャーシグループは、複数のシャーシを含む。シャーシグループという用語は、本明細書では、単に１つ又は複数のアクセラレータと接続されるゲートウェイのグループを指すために使用される。

この例では、各ゲートウェイは、４つのアクセラレータ（「ＩＰＵ」と記される）と通信するものとして示されているが、他の数のアクセラレータも可能である。したがって、図１８は、１～４と記された４つのシャーシを示す。４つ全てのシャーシは、一緒になってシャーシグループを構成する。ゲートウェイ５２の各々は、ゲートウェイ同期ロジック１８１０を含み、ゲートウェイ同期ロジック１８１０は、同期ネットワーク内の下流から１つ又は複数の同期要求を受信し、受信した同期要求を集約し（２つ以上ある場合）、複数の同期要求を同期ネットワーク内の上流に送信するように構成された１つ又は複数の同期伝播回路を含む。したがって、同期要求の上流への送信に続いて、より多くの同期伝播回路は、同期ネットワーク内の上流パスから１つ又は複数の同期肯定応答を受信するように構成される。１つ又は複数の同期伝播回路は、同期肯定応答を同期ネットワーク内の下流に提供する。

図１９を参照すると、図１９は、シャーシグループが、複数のシャーシグループを含むシステム１９００にどのように配置され得るかの一例を示す。このシステム１９００は、Ａ～Ｄと記された４つのシャーシグループを含む。しかしながら、１６のシャーシグループ等の他の数のシャーシグループがシステム１９００に存在し得る。異なるシャーシは、同期配線及びデータ接続（図示せず）を介して一緒に接続される。同期配線は、同期要求及び肯定応答を同期ネットワークに従ってシャーシ間で交換できるようにする。同期ネットワークは、システム内のシャーシの幾つか又は全てのゲートウェイ同期論理及びアクセラレータを含み得る。同期ネットワークは、更なるゲートウェイ及びアクセラレータを含むようにシステム１９００を超えて拡張され得る。

同期ネットワークは、アクセラレータ間及び任意にアクセラレータとゲートウェイメモリとの間の同期を調整するために、同期要求及び肯定応答がその間で渡されるシステム内の一連のノードを含むものとして理解される。同期ネットワークのこれらの「ノード」は、ゲートウェイの同期伝播モジュールを含むとともに、アクセラレータ及びＤＭＥを更に含む。ノードは、３つの異なるタイプのノードの１つである。第１のタイプは、スレーブノードである。このタイプのノードは、同期ネットワークでの一番下の葉（ｌｅａｆ）である。スレーブノードは、同期要求を受信せず、同期要求を生成して他のノードに渡すのみである。同期要求は、マスタノードとして知られる第２のタイプのノードに向かって同期ネットワーク内の上流に渡されると言える。同期ネットワークにおけるスレーブノードは、アクセラレータ及びＤＭＥである。

マスタノードは、同期要求を他のノードに渡さず、同期ネットワークでマスタノードから下流に位置する他のノードから同期要求を受信するのみである。マスタノードに接続されたノードの全てのインターフェースは、（無効化されていない限り）同期要求をマスタノードに渡す。マスタノードは、その後のＥＳＰに予期される全ての同期要求を受信すると、同期要求を受信したノードに同期肯定応答を返すように構成される。同期肯定応答は、同期要求を発信したスレーブノードに向かって同期ネットワーク内の下流に渡されると言える。

マスタノードを含むゲートウェイは、本明細書ではマスタゲートウェイと呼ばれ得る。マスタゲートウェイは、同期肯定応答を下流ゲートウェイに返す。

第３のタイプのノードは、伝播ノードである。このタイプのノードは、同期ネットワークの葉でもなく、幹（ｔｒｕｎｋ）でもなく、それらの間の枝（ｂｒａｎｃｈ）である。伝播ノードは、１つ又は複数の同期要求を下流ノードから受信し、同期要求を集約し（２つ以上ある場合）、集約された同期要求を上流のマスタノードに向かって渡す。したがって、伝播ノードは、１～Ｎの下流ノード（それら自体は、同期ノード又は他の伝搬ノードであり得る）から同期要求を受信するように構成された１～Ｎのインターフェースと、少なくとも１つの同期要求を上流ノード（マスタノード又は別の伝播ノードであり得る）に送信するように構成された少なくとも１つのインターフェースとを有する。マスタノードが同期肯定応答を伝播ノードに送信すると、伝播ノードは、同期肯定応答を受信し、受信した同期要求を発信した１つ又は複数の各下流ノードに同期肯定応答を送信する。

したがって、各同期ネットワークは、スレーブノード、伝播ノード及びマスタノードを含む。同期ネットワークは、同期／肯定応答ハンドシェークを使用して動作する。同期ネットワーク内の全てのスレーブノードは、実行において、同期する必要があるポイントに達するまで非同期で実行する。スレーブノードは、それぞれ独立して、別個の時間にその同期ポイントに達する。同期ポイントに達すると、スレーブノードは、それぞれ同期要求を上流のマスタノードに向かって送信し、その後、同期肯定応答を受信するまでストールする。同期ネットワークにおけるゲートウェイ同期伝播モジュールは、受信した要求を集約し、集約した要求を上流のマスタノードに向かって転送し、同期肯定応答を下流の１つ又は複数のスレーブノードに向かって転送することを担当する。スレーブは、予期された同期肯定応答を受信すると、同期要求ラインをデアサート（ｄｅａｓｓｅｒｔ）し、実行を続けることができる。同期伝播モジュールは、同期要求を転送すると、対応する同期肯定応答を待ち、それから、受信した更なる同期肯定応答を処理する。

説明したシステムでは、アクセラレータ（例えば、図７に示すアクセラレータ５１）及びＤＭＥ（例えば、図８に示すＤＭＥ１２２）の両方は、常にスレーブノードとして動作するように構成される。他方では、図１８に示すゲートウェイ同期ロジック１８１０の一部である同期伝播モジュールの各々は、同期ネットワークにおいてマスタノード、伝播ノード又はスレーブノードの１つとして動作するように構成することができる。各同期伝播モジュールがどのように構成されるかは、同期ネットワーク、したがってアクセラレータのグループ／ゾーンを定義する。

したがって、上流という用語は、マスタノードに向かうことを意味する一方、下流は、スレーブノードに向かうことを意味することが理解される。

この応用の実施形態では、新しい伝播ノードは、それぞれが異なる上流パスに沿って異なるマスタに向かって送信される複数の同期要求を提供する複数のインターフェースを有する。したがって、同期ネットワークに複数のマスタノードが提供される。各ゲートウェイにおいて、新しい同期伝播モジュールの少なくとも１つは、ゲートウェイから出力された同期要求の複製を提供する。これらの同期要求の１つは、同期ネットワーク内の第１のマスタノードに向かって第１の上流パスに沿って送信される一方、同期要求の別の１つは、第２の上流パス上で第２のマスタノードに向かって送信される。したがって、同期ネットワークに冗長パス及び冗長同期要求が存在する。少なくとも１つの新しい同期伝播モジュールは、同期要求を送信したノードの何れか一方から同期肯定応答を受信すると、１つ又は複数の肯定応答をスレーブノードに向かって下流に伝播させる。したがって、少なくとも１つの新しい同期伝播モジュールは、マスタノードの１つから発せられた１つの同期肯定応答を受信するのみでよい。したがって、同期ネットワーク内のあるポイントで故障があった場合、それでもなおネットワーク内の冗長パスに起因して同期肯定応答を返すことができる。

したがって、ゲートウェイは、同期要求の複製を実施して、完全冗長同期ネットワークを構築する同期伝播モジュールを含む。このモジュールは、続けて説明する例では高可用性同期複製モジュール（ＨＲＳＭ）と呼ばれる。ＨＲＳＭは、ゲートウェイの別の同期伝播モジュールへの単一の内部同期／肯定応答インターフェースを有する。ＨＲＳＭは、１～Ｍの外部同期ポートへのインターフェースを更に有し、ここで、Ｍは、同期ファブリックに必要とされる冗長の程度である。Ｍは、通常、２である。上述したように、モジュールは、ＨＡモードと非ＨＡモードとの２つのモードのうち１つで動作することができる。ＨＡモードに関係なく、モジュールは、常に、内部同期ポートで受信した同期伝播モジュールからの同期要求を外部同期ポートの少なくとも１つに伝播させるように構成される。内部同期ポートは、同じゲートウェイの一部である同期伝播モジュールへの内部インターフェースを提供する一方、外部ポートは、同期要求／肯定応答を異なるゲートウェイに提供する外部インターフェースを提供する。

非ＨＡモードで動作しているとき、２つの外部ポートの一方は、アクティブポートと記される。モジュールは、アクティブ外部ポートを経由して内部ポートで受信した同期要求を伝播させる。同様に、非ＨＡモードで動作しているとき、モジュールは、内部ポートを経由して、アクティブ外部ポートにおいて受信した同期肯定応答を伝播させる。

ＨＡモードで動作しているとき、モジュールは、内部同期入力から同期要求を受け入れ、その同期要求を複数の外部出力ポートに伝播させる。モジュールは、次いで、全ての外部出力ポート上の同期肯定応答を待つ。最初の肯定応答をポートの１つで受信すると、その同期肯定応答は、下流に渡される。最初の同期肯定応答を受信したとき、モジュールのタイマも開始される。タイマが切れる前に、肯定応答の全てを残りのアクティブ外部ポートで受信しなかった場合、故障した外部ポートが記録される。続けて、モジュールは、故障したと記された外部ポートを経由して更なる同期要求を送信しない。故障していない１つのみの外部ポートがある場合、モジュールは、非ＨＡモードに遷移し、故障していないポートをアクティブポートとして使用する。ソフトウェア介入によりモジュールをＨＡモードに移すことができる。

幾つかの実施形態では、非ＨＡモードへの切り替えへのタイマの使用は、任意である。タイマは、非ＨＡモードへの切り替えに使用されない場合でも、依然として故障の検出及び報告に使用し得る。

幾つかの実施形態では、最初の肯定応答が受信されると、同期伝播モジュールは、タイマが切れるか、又は同期肯定応答が同期伝播モジュールの全てのアクティブインターフェースで受信されるまで同期肯定応答を下流に伝播させない。

図２０を参照すると、図２０は、同期要求がシャーシグループ２０００においてどのように伝播し得るかの一例を示す。ゲートウェイの各々において、ゲートウェイ同期ロジックは、ローカル同期論理及びスケールアウト同期伝播モジュール（ＳＳＰＭ）を含むものとして示されている。ローカル同期ロジックは、上述したＬＳＰＭ及びＬＳＢＭを含む。各アクセラレータに関連する１つのＬＳＰＭ及びＬＳＢＭ対がある。

図２０の同期ネットワーク例では、シャーシ１及びシャーシ２は、それぞれ冗長同期要求をシャーシ３及びシャーシ４から受信する。これらは、次いで、それら自体の冗長同期要求を集計してシステム内の他のシャーシに伝播させる。シャーシ１のゲートウェイは、ここでは、第１のゲートウェイ５２ａと呼ばれ、シャーシ２のゲートウェイは、ここでは、第２のゲートウェイ５２ｂと呼ばれる等である。

第４のゲートウェイ５２ｄは、接続されたアクセラレータの１つ又は複数から１つ又は複数の同期要求を受信する。第４のゲートウェイ５２ｄは、次いで、これらの要求を集約し（必要に応じて）、２つの冗長同期要求を形成する。これらの冗長同期要求の第１のものは、第１のゲートウェイ５２ａに渡され、これらの冗長同期要求の第２のものは、第２のゲートウェイ５２ｂに渡される。

第３のゲートウェイ５２ｃは、接続されたアクセラレータの１つ又は複数から１つ又は複数の同期要求を受信する。第３のゲートウェイ５２ｃは、次いで、これらの要求を集約し（必要に応じて）、２つの冗長同期要求を形成する。これらの冗長同期要求の第１のものは、第１のゲートウェイ５２ａに渡され、これらの冗長同期要求の第２のものは、第２のゲートウェイ５２ｂに渡される。

第２のゲートウェイ５２ｂは、接続されたアクセラレータの１つ又は複数から１つ又は複数の同期要求を受信する。第２のゲートウェイ５２ｂは、次いで、これらの要求を集約し（必要に応じて）、２つの冗長同期要求を形成する。これらの冗長同期要求の第１のものは、第１のゲートウェイ５２ａに渡される。冗長同期要求の第２のものは、第２のゲートウェイ５２ｂへの外部入力の１つに提供される。したがって、冗長同期要求の第２のものは、第２のゲートウェイ５２ｂ自体のゲートウェイ同期ロジックへの入力として提供される。冗長同期要求の第２のものは、第２のゲートウェイ５２ｂから出力され、第２のゲートウェイ５２ｂの外部インターフェースに提供されて示されているが、幾つかの例では、冗長同期要求の第２のものは、内部接続を介して第２のゲートウェイ５２ｂのゲートウェイ同期ロジックに提供し得る。

第１のゲートウェイ５２ａは、接続されたアクセラレータの１つ又は複数から１つ又は複数の同期要求を受信する。第１のゲートウェイ５２ａは、次いで、これらの要求を集約し（必要に応じて）、２つの冗長同期要求を形成する。これらの冗長同期要求の第１のものは、第２のゲートウェイ５２ｂに渡される。冗長同期要求の第２のものは、第１のゲートウェイ５２ａへの外部入力の１つに提供される。したがって、冗長同期要求の第２のものは、第１のゲートウェイ５２ａ自体のゲートウェイ同期ロジックへの入力として提供される。冗長同期要求の第２のものは、第１のゲートウェイ５２ａから出力され、第１のゲートウェイ５２ａの外部インターフェースに提供されて示されているが、幾つかの例では、冗長同期要求の第２のものは、内部接続を介して第１のゲートウェイ５２ａのゲートウェイ同期論理に提供することができる。

したがって、第１及び第２のゲートウェイ５２ａ、５２ｂの各々は、シャーシグループ２０００内の全てのゲートウェイから同期要求を受信する。ゲートウェイの２つの間のリンクの１つが故障した場合でも、第１及び第２のゲートウェイ５２ａ、５２ｂの一方は、第１及び第２のゲートウェイ５２ａ、５２ｂの他方が同期要求を受信しない場合でも、シャーシグループ２０００内の全てのゲートウェイから全ての同期要求を依然として受信する。

第１のゲートウェイ５２ａ及び第２のゲートウェイ５２ｂが同期ネットワークのマスタノードを構成する場合、第１及び第２のゲートウェイ５２ａ、５２ｂは、同期要求を受信した同期ネットワーク内の下流パスに沿って同期肯定応答を返す。しかしながら、図２０に示すこの例では、同期ネットワークは、シャーシグループ２０００を超えて拡張し、したがって、第１及び第２のゲートウェイ５２ａ、５２ｂは、シャーシグループ２０００を超えて更なるゲートウェイまで同期要求を伝播させる。シャーシグループ２０００内の各ゲートウェイから同期要求を受信した後、第１のゲートウェイ５２ａは、これらの同期要求を集約して、２つの更なる冗長同期要求を形成する。第１のゲートウェイ５２ａは、冗長同期要求の１つをシャーシグループ２０００の第３のゲートウェイ５２ｃに提供し、冗長同期要求の別の１つを第２のシャーシグループの第３のゲートウェイに提供する。同様に、シャーシグループ２０００内の各ゲートウェイから同期要求を受信した後、第２のゲートウェイ５２ｂは、これらの同期要求を集約して、２つの更なる冗長同期要求を形成する。第２のゲートウェイ５２ｂは、冗長同期要求の１つを第３のシャーシグループの第３のゲートウェイに提供し、冗長同期要求の別の１つを第４のシャーシグループの第３のゲートウェイに提供する。したがって、それらの間において、第１及び第２のゲートウェイ５２ａ、５２ｂは、４つの冗長同期要求を出力し、各要求は、異なるマスタに向かって異なる上流パスに沿って伝播する。

図２１を参照すると、図２１は、４つのシャーシグループを含むシステム１９００において同期要求がどのように交換されるかを示す。シャーシグループの各々は、「Ａ」、「Ｂ」、「Ｃ」及び「Ｄ」と記される。「ａ」、「ｂ」、「ｃ」及び「ｄ」と記されたポートは、システム１９００の各ゲートウェイへの入力ポートである。「ｅ」及び「ｆ」と記されたポートは、冗長同期要求を他のシャーシグループに出力し得る際に経由する出力ポートである。「ｇ」及び「ｈ」と記されたポートは、冗長同期要求を同じシャーシグループ内のゲートウェイに出力する際に経由する出力ポートである。シャーシグループの各々は、４つのゲートウェイを含む。各シャーシグループにおいて、そのシャーシグループの４つのゲートウェイは、本明細書では、各シャーシグループの第１のゲートウェイ、第２のゲートウェイ、第３のゲートウェイ及び第４のゲートウェイと呼ばれる。

図２１に示すシャーシグループＡのシャーシ１、２、３及び４は、図２０に示すシャーシ１及びシャーシ２に対応し得る。これらの２つのシャーシの出力「ｅ」及び「ｆ」は、ローカル同期出力Ａ／Ｂ及びローカル同期出力Ｃ／Ｄと記された４つの冗長出力に対応する。示すように、シャーシグループＡ内の第１のゲートウェイ５２ａからの２つの出力は、シャーシグループＡ内の第３のゲートウェイ５２ｃ及びシャーシグループＢ内の第３のゲートウェイに提供される。これも示すように、シャーシグループＡ内の第２のゲートウェイ５２ｂからの２つの出力は、シャーシグループＣ内の第３のゲートウェイ及びシャーシグループＤ内の第３のゲートウェイに提供される。

図２１から、各シャーシグループ内の第３のゲートウェイは、あらゆるシャーシグループ（それ自体を含む）内のゲートウェイから同期要求を受信することを理解し得る。図２０では、その図に示される第３のゲートウェイ５２ｃにおいて受信されるこれらの同期要求は、「ＥｘｔＳｙｎｃ０Ｉｎ」と記される。各シャーシグループ内の第３のゲートウェイが同期ネットワークのマスタノードを構成する場合、これらの第３のゲートウェイは、同期要求を受信した同期ネットワーク内の下流パスに沿って同期肯定応答を返す。この場合、同期ネットワークは、システム１９００に制限される。しかしながら、図２１によって示す例では、同期ネットワークは、システム１９００を超えて拡張し、したがって、各シャーシグループ内の第３のゲートウェイは、システム１９００を超えて更なるゲートウェイまで同期要求を伝播させる。４つの同期要求を受信した後、各第３のゲートウェイは、これらの同期要求を集約して２つの更なる同期要求を形成する。各第３のゲートウェイは、同期要求の１つを１つのシステム内のゲートウェイに提供し、別の１つを異なるシステム内のゲートウェイに提供する。それらの間において、第３のゲートウェイは、８つの冗長同期要求を提供し、各要求は、異なるマスタに向かって異なる上流パスに沿って伝播する。これらの８つの要求は、図２１では、「Ｏｕｔ０」、「Ｏｕｔ１」、「Ｏｕｔ２」、「Ｏｕｔ３」、「Ｏｕｔ４」、「Ｏｕｔ５」、「Ｏｕｔ６」及び「Ｏｕｔ７」と記されている。

したがって、「ファンアウト（ｆａｎｏｕｔ）」があり、同期階層内の新しい各レベルにおいて、冗長同期要求の数は、２倍になることが理解される。したがって、同期ネットワーク内の任意の単一の故障点は、同期肯定応答がネットワーク内の全てのスレーブノードに返されることを妨げない。

図２２～図２８を参照すると、これらの図は、ゲートウェイの同期伝播モジュールをより詳細に示すとともに、同期ネットワークに冗長性を実施する際、これらの同期伝播モジュールの幾つかによって実行される動作を示す。これらの同期伝播モジュールの各々は、適切な回路によって提供される。したがって、同期伝播モジュールは、同期伝播回路と呼ぶこともできる。各モジュールを提供する回路は、例えば、ＦＰＧＡ又はＡＳＩＣを含むハードウェア処理ユニットであり得る。各モジュールを提供する回路は、非一時的コンピュータ可読媒体に記憶されるコンピュータ可読命令を実行するように構成されたプロセッサであり得る。図２２～図２８に示す同期伝播回路は、ＬＳＰＭ、ＳＳＰＭ及びＨＲＳＭを含む。図２２は、ゲートウェイ５２と、ゲートウェイ５２内の同期伝播モジュール間の接続とを示す。この図は、ゲートウェイ５２内の全ての同期伝播モジュールの導入概要を提供し、同期要求及び肯定応答の交換に使用し得る、これらのモジュール間の接続を示す。図２３～図２８は、図２０に示すシャーシグループ２０００の異なるゲートウェイにおける同期要求及び肯定応答の交換を示す。

図２２を参照すると、図２２は、ゲートウェイ５２と、ゲートウェイ５２内の同期伝播モジュール間の接続とを示す。

ゲートウェイ５２は、複数のＬＳＰＭ１１７を含み、ＬＳＰＭ１１７の各々は異なるアクセラレータ５１と関連付けられる。ＬＳＰＭ１１７は、マスタノード又は伝播ノードとして動作することができる。ＥＳＰ前に、ＬＳＰＭ１１７は、同期要求をそれに関連するアクセラレータ５１及びそれに関連するＤＭＥ（図示せず）から受信する。同期が、ゲートウェイメモリと関連するアクセラレータとの間でのデータ交換を必要とする（すなわち同期がＩ／Ｏ同期である）場合、ＤＭＥからＬＳＰＭ１１７で受信した同期要求は、同期完了前に、少なくとも１つのＥＳＰクレジットがそのＬＳＰＭに関連するＬＳＢＭ（図示せず）に存在しなければならないことの指示をＬＳＰＭ１１７に提供する。同期要求は、ＬＳＰＭ１１７のメモリに記憶されるｌｓｂｍ＿ｒｅｑｕｉｒｅｄビットを設定する。そのような指示に応答して、ＬＳＰＭ１１７は、同期肯定応答を関連するアクセラレータ５１及び関連するＤＭＥに提供する前に、ＬＳＢＭ１１８からＥＳＰクレジットを要求するように構成される。ＥＳＰクレジットの数が非ゼロである場合、ＬＳＰＭ１１７は、同期肯定応答を関連するアクセラレータ５１及びＤＭＥの両方に伝播させる。

ＬＳＰＭ１１７の各々は、高可用性同期複製モジュール（ｈｉｇｈａｖａｉｌａｂｉｌｉｔｙｓｙｎｃｒｅｐｌｉｃａｔｉｏｎｍｏｄｕｌｅ）（ＨＲＳＭ）２２３０に接続される。ＨＲＳＭ２２３０は、同期要求をＬＳＰＭ１１７から受信し、それらの要求を集約し（２つ以上ある場合）、２つの冗長同期要求を送信する。ＨＲＳＭ２２３０は、同期肯定応答も受信し、それに応答して、要求をＨＲＳＭ２２３０に提供したＬＳＰＭ１１７に同期肯定応答を提供する。特定のＨＲＳＭ２２３０は、冗長同期要求を同じシャーシグループ内の他のゲートウェイに送信する。

ゲートウェイ５２は、スケールアウト同期伝播モジュール（ｓｃａｌｅｏｕｔｓｙｎｃｐｒｏｐａｇａｔｉｏｎｍｏｄｕｌｅ）（ＳＳＰＭ）２２１０を含む。ＳＳＰＭ２２１０は、他のゲートウェイから、また幾つかの場合、同じゲートウェイ２２１０のＨＲＳＭ２２３０から同期要求を受信する。ＳＳＰＭ２２１０は、受信した同期要求を集約し、集約した同期要求をＨＲＳＭ２２２０に提供する。ＨＲＳＭ２２２０から同期肯定応答を受信したことに応答して、ＳＳＰＭ２２１０は、同期要求を受信したパスに沿って同期肯定応答を下流に返す。

ゲートウェイ５２は、第２のＨＲＳＭ２２２０を更に含み、第２のＨＲＳＭ２２２０は、同期要求をＳＳＰＭ２２１０から受信し、２つの冗長同期要求を提供し、これらは、他のゲートウェイに送信される。ＨＲＳＭ２２２０は、これらのゲートウェイから肯定応答も受信し、それに応答して肯定応答を下流のＳＳＰＭ２２１０に提供する。

同期伝播モジュールがマスタとして、スレーブとして又は伝播ノードとして動作するように構成されるかは、ゲートウェイステータスレジスタ（例えば、図７に示すレジスタ５９）内の値（同期伝播設定）に依存する。ゲートウェイステータスレジスタに同期伝播設定の指示を書き込んだことに続いて、ゲートウェイは、これらの同期伝播設定に依存して、制御設定を同期伝播モジュールの幾つか、すなわちＬＳＰＭ及びＨＲＳＭのレジスタ（制御及びステータスレジスタ（ＣＳＲ））に記憶する。これらの同期伝播モジュールの各々は、同期伝播モジュールが、受信した同期要求及び／又は肯定応答をどのように伝播させるかを制御する制御及びステータスレジスタ（ＣＳＲ）を含む。各同期伝播モジュールのＣＳＲに記憶される設定は、そのインターフェースの各々について、そのインターフェースが有効化（ｅｎａｂｌｅｄ）／無効化（ｄｉｓａｂｌｅｄ）されているかどうか、及び、（有効化されている場合）インターフェースの方向性を制御する。したがって、各伝播モジュールのＣＳＲに記憶される設定は、そのモジュールがマスタノードとして、同期伝播ノードとして又はスレーブノードとして機能するかを制御する。１つ又は複数のアクセラレータ５１によりゲートウェイ５２の１つ又は複数のレジスタ（例えば、図４及び図７に示すレジスタ５９）に書き込まれる構成設定の指示は、同期要求の発行前に書き込まれる。これらのレジスタ内の設定は、ＬＳＰＭ１１７及びＨＲＳＭ２２２０、２２３０のインターフェースの構成に使用される。設定は、これらのモジュールのインターフェースが有効化／無効化されているかどうか、及び、有効化された各インターフェースの方向性（すなわち同期要求が伝播する方向）を構成する。ＳＳＰＭの構成設定は、ハードコードされ、アクセラレータ５１により構成可能ではない。ＳＳＰＭ２２１０は、受信した任意の同期要求をＨＲＳＭ２２２０に伝播させ、ＨＲＳＭ２２２０からの同期肯定応答の受信に続いて、４つのインターフェースの１つを経由して、受信した任意の同期要求に肯定応答する。

図２３を参照すると、図２３は、同期要求を他のゲートウェイに送信する際、第４のゲートウェイ５２ｄの同期伝播モジュールの各々によって実行され得る動作を示す。

アクセラレータ５１の１つ又は複数は、同期要求を関連するＬＳＰＭ１１７に提供する。そのような各ＬＳＰＭ１１７は、アクセラレータ５１に関連するＤＭＥから同期要求も受信する。同期要求の受信に応答して、そのような各ＬＳＰＭ１１７は、同期要求を同期ネットワーク内の上流のＨＲＳＭ２２３０に送信する。ＨＲＳＭ２２３０は、ＬＳＰＭ１１７からの１つ又は複数の同期要求の受信に応答して、２つの同期要求を他のゲートウェイに送信する。ＨＲＳＭ２２３０は、同期の構成設定に従い、インターフェースを有効化したＬＳＰＭ１１７の全てから同期要求を受信した場合、２つの同期要求を送信する。２つの同期要求は、冗長同期要求であり、これらは、それぞれ異なるゲートウェイに送信される。これらの１つは、第１のゲートウェイ５２ａに送信され、別の１つは、第２のゲートウェイ５２ｂに送信される。

図２３に示すように、第４のゲートウェイ５２ｄ内のＳＳＰＭ２２１０及びＨＲＳＭ２２２０は、その後のＥＳＰで同期要求を送受信しない。

図２４を参照すると、図２４は、同期要求を受信して他のゲートウェイに送信する場合、第１のゲートウェイ５２ａ及び第２のゲートウェイ５２ｂの同期伝播モジュールの各々によって実行され得る動作を示す。図に示すゲートウェイは、示される同じ動作が第１のゲートウェイ５２ａ及び第２のゲートウェイ５２ｂによって実行されるため、ゲートウェイ５２ａ／５２ｂと記される。

アクセラレータ５１の１つ又は複数は、同期要求を関連するＬＳＰＭ１１７に提供する。ＬＳＰＭ１１７は、アクセラレータ５１に関連するＤＭＥからも同期要求を受信する。同期要求の受信に応答して、各ＬＳＰＭ１１７は、同期要求を同期ネットワーク内の上流のＨＲＳＭ２２３０に送信する。ＨＲＳＭ２２３０は、ＬＳＰＭ１１７からの１つ又は複数の同期要求の受信に応答して、２つの同期要求をネットワーク内の上流に送信する。ＨＲＳＭ２２３０は、インターフェースを有効化したＬＳＰＭ１１７の全てから同期要求を受信した場合、２つの同期要求を送信する。２つの同期要求は、冗長同期要求である。

同期要求の１つは、ＨＲＳＭ２２３０によって別のゲートウェイに送信される。例えば、示すゲートウェイ５２ａ／５２ｂが第１のゲートウェイ５２ａに対応する場合、要求の１つは、ゲートウェイ５２ｂに送信される。同様に、示すゲートウェイ５２ａ／５２ｂが第２のゲートウェイ５２ｂに対応する場合、要求の１つは、第１のゲートウェイ５２ａに送信される。

ＨＲＳＭ２２３０によって送信された同期要求の別の１つは、ゲートウェイ５２ａ／５２ｂ自体のＳＳＰＭ２２１０に送信される。この同期要求は、ゲートウェイ５２ａ／５２ｂ外部の配線を介して送信し得る。同期要求は、ＨＲＳＭ２２３０に接続された出力ポート及びＳＳＰＭ２２１０に接続された入力ポートを介して送信される。代替的に、ＨＲＳＭ２２３０は、ゲートウェイ５２ａ／ｂ内部の接続を介してＳＳＰＭ２２１０に同期要求を提供する。

ゲートウェイ５２ａ／５２ｂのＳＳＰＭ２２１０は、複数の同期要求を受信する。この複数の同期要求は、ゲートウェイ５２ａ／５２ｂの他方のＨＲＳＭ２２３０からの同期要求を含む。例えば、ゲートウェイ５２ａ／５２ｂが第１のゲートウェイ５２ａに対応する場合、要求は、第２のゲートウェイ５２ｂから受信される。他方、ゲートウェイ５２ａ／５２ｂが第２のゲートウェイ５２ｂに対応する場合、要求は、第１のゲートウェイ５２ａから受信される。ゲートウェイ５２ａ／５２ｂで受信した複数の同期要求は、第３及び第４のゲートウェイ５２ｃ、５２ｄの各々からの同期要求も含む。

複数の同期要求の全てを受信したことに応答して、ＳＳＰＭ２２１０は、同期要求を上流のＨＲＳＭ２２２０に提供する。ＨＲＳＭ２２２０は、下流のＳＳＰＭ２２１０から同期要求を受信したことに応答して、２つの同期要求を異なるゲートウェイに送信する。これらは、冗長同期要求である。２つの同期要求の各々は、異なるシャーシグループ内のゲートウェイに送信される。図２１に与える例から理解し得るように、これらの２つの同期要求は、２つのシャーシグループの第３のゲートウェイに送信される。

図２５を参照すると、図２５は、同期要求を受信して他のゲートウェイに送信する場合、第３のゲートウェイ５２ｃの同期伝播モジュールの各々によって実行され得る行為を示す。

アクセラレータ５１の１つ又は複数は、同期要求を関連するＬＳＰＭ１１７に提供する。ＬＳＰＭ１１７は、アクセラレータ５１に関連するＤＭＥからも同期要求を受信する。同期要求の受信に応答して、各ＬＳＰＭ１１７は、同期要求を同期ネットワーク内の上流のＨＲＳＭ２２３０に送信する。ＨＲＳＭ２２３０は、ＬＳＰＭ１１７からの１つ又は複数の同期要求の受信に応答して、２つの同期要求を他のゲートウェイに送信する。ＨＲＳＭ２２３０は、インターフェースを有効化したＬＳＰＭ１１７の全てから同期要求を受信した場合、２つの同期要求を送信する。２つの同期要求は、冗長同期要求であり、各要求は、異なるゲートウェイに送信される。それらの１つは、第１のゲートウェイ５２ａに送信され、別の１つは、第２のゲートウェイ５２ｂに送信される。

第３のゲートウェイ５２ｃのＳＳＰＭ２２１０は、複数の同期要求を受信する。図２１に示すように、複数の同期要求の各々は、シャーシグループの各々の第１のゲートウェイの１つから受信される。

複数の同期要求の全てを受信したことに応答して、ＳＳＰＭ２２１０は、同期要求を上流のＨＲＳＭ２２２０に提供する。この例では、ＨＲＳＭ２２２０は、下流のＳＳＰＭ２２１０から同期要求を受信したことに応答して、２つの同期要求を送信する。これらは、冗長同期要求である。２つの同期要求の各々は、システム１９００外部のゲートウェイに送信される。

図２５に示す例では、ＨＲＳＭ２２２０は、同期要求をシステム１９００の外部に送信するが、他の場合、ＨＲＳＭ２２２０は、システムのマスタノードとして機能し得、ＳＳＰＭ２２１０からの同期要求の受信に応答して、同期要求を伝播させる代わりに、同期肯定応答をＳＳＰＭ２２１０に返し得る。この場合、第３のゲートウェイ５２ｃは、システム１９００のマスタゲートウェイであると見なすことができる。

図２６を参照すると、図２６は、同期肯定応答を受信して伝播させる場合、第３のゲートウェイ５２ｃの同期伝播モジュールの各々によって実行され得る行為を示す。

同期要求の送信に続いて、特定の時間後、ＨＲＳＭ２２２０は、１つ又は複数の同期肯定応答を１つ又は複数の上流エンティティから受信する。これらは、同期ネットワーク内の冗長マスタから送信された冗長同期肯定応答である。典型的には、２つの冗長同期肯定応答がＨＲＳＭ２２２０に返される。しかしながら、故障、例えばシャーシ間のケーブル破断がある場合、単一の同期肯定応答のみがＨＲＳＭ２２２０に返されることがあり得る。ＨＲＳＭ２２２０は、タイマを含む。ＨＲＳＭ２２２０が同期肯定応答を受信すると、ＨＲＳＭ２２２０は、この同期肯定応答を下流のＳＳＰＭ２２１０に伝播させ、ＨＲＳＭ２２２０は、タイマを開始する。（プログラマブルクロックサイクルの数をカウントすることによって測定され得る）特定の時間期間が過ぎた後、第２の肯定応答がＨＲＳＭ２２２０で受信されない場合、ＨＲＳＭ２２２０は、第２の肯定応答が予期された外部ポートが故障していると記録する。ＨＲＳＭ２２２０は、次いで、非高可用性モード（非ＨＡモード）に遷移し、故障したポートを経由して同期要求を送信せず、アクティブポートを経由して単一の同期要求のみを送信する。

ＳＳＰＭ２２１０は、単一の同期肯定応答をＨＲＳＭ２２２０から受信し、それに応答して、受信した同期要求を発信したゲートウェイの各々に同期肯定応答を提供する。したがって、ＳＳＰＭ２２１０は、これらの同期肯定応答をシャーシグループの各々内の第１のゲートウェイに提供する。

ＨＲＳＭ２２３０は、続けて、同期要求を提供したゲートウェイの１つ又は複数、すなわち第１及び第２のゲートウェイ５２ａ、５２ｂから１つ又は複数の同期肯定応答を受信する。ＨＲＳＭ２２３０は、１つの同期肯定応答の受信に応答して肯定応答を下流に伝播させる。ＨＡモードで動作しているとき、ＨＲＳＭ２２３０は、１つの同期肯定応答の受信に続いて、タイマを開始する。他の同期肯定応答を受信する前にタイマが切れた場合、ＨＲＳＭ２２３０は、将来のＥＳＰについて非ＨＡでの動作に移る。非ＨＡモードで動作しているとき、ＨＲＳＭ２２３０は、もはや冗長同期要求を伝播させず、単一の同期要求のみを上流に送信する。単一の同期要求は、第１の同期肯定応答を受信したパスに沿って上流に伝播する。

ＨＲＳＭ２２３０による下流への同期肯定応答の伝播は、同期要求を受信した各ＬＳＰＭ１１７に同期肯定応答を提供することを含む。各ＬＳＰＭ１１７は、そのような同期肯定応答の受信に応答して、同期肯定応答を関連するアクセラレータ５１に提供する。各ＬＳＰＭ１１７は、同期肯定応答を関連する各ＤＭＥにも提供する。

図２７を参照すると、図２７は、同期肯定応答を受信して送信する場合、第１のゲートウェイ５２ａ及び第２のゲートウェイ５２ｂの同期伝播モジュールの各々によって実行され得る動作を示す。図に示すゲートウェイは、示される同じ行為が第１のゲートウェイ５２ａ及び第２のゲートウェイ５２ｂによって実行されるため、ゲートウェイ５２ａ／５２ｂと記される。

ＨＲＳＭ２２２０は、１つ又は複数の同期肯定応答を１つ又は複数の上流エンティティから受信する。これらの同期肯定応答は、ＨＲＳＭ２２２０が同期要求を送信したゲートウェイ、すなわち異なるシャーシグループ内の第３のゲートウェイから受信される。ＨＲＳＭ２２３０は、第１の同期肯定応答の受信に応答して肯定応答をＳＳＰＭ２２１０に提供する。ＨＡモードで動作しているとき、ＨＲＳＭ２２３０は、１つの同期肯定応答の受信に続いて、タイマを開始する。ＨＲＳＭ２２３０が他の肯定応答を受信する前にタイマが切れた場合、ＨＲＳＭ２２３０は、将来のＥＳＰについて非ＨＡでの動作に移る。非ＨＡモードで動作しているとき、ＨＲＳＭ２２３０は、冗長同期要求を提供しない。

ＳＳＰＭ２２１０は、ＨＲＳＭ２２２０からの同期肯定応答の受信に応答して、ゲートウェイ５２ａ／５２ｂのＨＲＳＭ２２３０を含むシャーシグループ内の各ゲートウェイのＨＲＳＭ２２３０に同期肯定応答を提供する。

ＨＲＳＭ２２３０は、１つ又は複数の同期肯定応答を受信する。これらの１つは、第１のゲートウェイ５２ａのＳＳＰＭ２２１０から受信し得、他の１つは、第２のゲートウェイ５２ｂのＳＳＰＭ２２１０から受信し得る。ＨＲＳＭ２２３０は、第１の同期肯定応答の受信に応答して肯定応答を下流に伝播させる。ＨＡモードで動作しているとき、ＨＲＳＭ２２３０は、１つの同期肯定応答の受信に続いて、タイマを開始する。他の同期肯定応答を受信する前にタイマが切れた場合、ＨＲＳＭ２２３０は、将来のＥＳＰについて非ＨＡでの動作に移る。非ＨＡモードで動作しているとき、ＨＲＳＭ２２３０は、もはや冗長同期要求を伝播させず、単一の同期要求のみを上流に送信する。単一の同期要求は、第１の同期肯定応答を受信したパスに沿って上流に伝播する。

同期肯定応答の伝播は、受信した同期要求を発信した各ＬＳＰＭ１１７に同期肯定応答を提供することを含む。各ＬＳＰＭ１１７は、そのような同期肯定応答の受信に応答して、同期肯定応答を関連するアクセラレータ５１に提供する。各ＬＳＰＭ１１７は、同期肯定応答を関連する各ＤＭＥにも提供する。

図２８を参照すると、図２８は、同期肯定応答を受信して伝播させる場合、第４のゲートウェイ５２ｄの同期伝播モジュールの各々によって実行され得る動作を示す。

同期肯定応答の伝播は、ＨＲＳＭ２２３０が受信した同期要求を発信した各ＬＳＰＭ１１７に同期肯定応答を提供することを含む。各ＬＳＰＭ１１７は、そのような同期肯定応答の受信に応答して、同期肯定応答を関連するアクセラレータ５１に提供する。各ＬＳＰＭ１１７は、同期肯定応答を関連する各ＤＭＥにも提供する。

したがって、同期肯定応答は、シャーシ間のケーブルの破断又は他の故障の場合でも、同期ネットワーク内のスレーブモジュールの各々に返される。

図２１に示す（及び図２２～図２８を参照してより詳細に説明する）同期ネットワークの配置例は、単なる一例であり、複数のゲートウェイを含む他の可能な同期ネットワークも可能である。図２９を参照すると、図２９は、１６のシャーシグループを含むシステム２９００での同期書き込みを示す。この図は、２つのラックの簡易図を示し、各ラックに８つのシャーシグループがあり、４つのシャーシグループセットからの出力（ポートｅ／ｆの上部セット）のみを示し、残りのポートは、図２１に示す４シャーシグループ例では使用されなかった。この例では、ポートａ～ｄは、８つの上位レベルシャーシへの入力として機能し、下位レベルアグリゲータの出力に接続される。これらの８つの上位レベルシャーシは、次いで、１６個の冗長出力を生成する。

図３０を参照すると、図３０は、本願の実施形態による方法３０００の一例を示す。

Ｓ３０１０において、同期伝播回路、例えばＨＲＳＭは、１つ又は複数の同期要求を同期ネットワーク内の下流パスから受信する。ＨＲＳＭで受信される同期要求の数は、その後のＥＳＰの同期グループに依存する。同期グループは、同期伝播モジュールの構成設定の各々に保持される構成設定によって定義される。ＨＲＳＭ内の同期伝播設定は、同期伝播設定を示すアクセラレータからのゲートウェイのレジスタへの書き込みに依存する。ＨＲＳＭの構成設定は、そのインターフェースの何れがその後のＥＳＰのために有効化されるかを定義する。ＨＲＳＭは、有効化されたインターフェースの全てで同期要求を受信したとの判断に応答してＳ３０２０に移る。

Ｓ３０２０において、１つ又は複数の同期要求の受信に応答して、同期ネットワーク内の異なるパスに沿って２つの同期要求を上流に提供する。これらの２つの同期要求は、異なるパスに沿って異なる冗長マスタに送信される冗長同期要求である。

Ｓ３０３０において、続けて同期伝播回路は、同期要求が送信された異なるパスの１つ又は複数上で１つ又は複数の同期肯定応答を受信する。同期伝播回路は、同期肯定応答の１つ又は複数の受信に応答して又は受信したパス上で受信する所定の数の同期肯定応答の受信に応答して開始されたタイマが切れたことに応答して、次のステップに進み得る。

Ｓ３０４０において、同期伝播回路は、Ｓ３０１０において受信した同期要求を発信した下流のパス上で同期肯定応答を提供する。

図１０を参照すると、図１０は、ストリーミングエンジン１２４によって実施されるゲートウェイ機能を示す。ＰＰＥ１２３は、ＤＭＥ１２２と並列に実行されるが、ＤＭＥ１２２は、ＰＰＥ１２３の結果に依存するため、ＰＰＥ１２３は、ＤＭＥ動作がスケジュールされる前にその結果を提供する必要がある。これは、予めコンパイルされる実行可能イメージ又はアクセラレータ５１からゲートウェイ５２に送られるコマンドのユーザプログラムシーケンシングを通して対応付けられる。

図１０に示すように、ＰＰＥ１２３とネットワークスタック１４１との間にモジュール１４２がある（ＧＤ×ＳＭモジュールとして示される）。ＧＤ×ＳＭモジュール１４２は、２つのモジュール、すなわちＧＷデータインポート同期モジュール（ＧＤＩＳＭ）及びＧＷデータエクスポート同期モジュール（ＧＤＥＳＭ）を含む。両方のモジュールは、ゲートウェイとホストとの間のＩ／Ｏバッファ要素の同期に対処する。

同期は、フロー制御され、交換同期点（ＥＳＰ）でのＩ／Ｏ動作でのＧＷデータ一貫性及び準備を保証する。

第１の組のクレジット（既に詳細に論考した）は、ＥＳＰクレジットである。ＥＳＰクレジットは、アクセラレータ５１とゲートウェイ５２との間又はゲートウェイ５２と更なるゲートウェイ１２８との間の何れかの同期バリアの通過を支配する。ＥＳＰクレジットを使用して、バリアクレジットメカニズムが使用されて、ゲートウェイ５２とアクセラレータ５１との間のデータ転送を制御する。ＥＳＰクレジットが利用可能であることは、データ交換動作を１つのバリアに対して実行できることを暗示する。

第２の組のクレジットは、ゲートウェイ５２へのデータの転送（ホスト６３、リモートストレージ１５１又は更なるゲートウェイ１２８からの）を支配する。これらのクレジットは、ＧＤ×ＳＭ１４２によって記憶される。より具体的には、これらのクレジットは、ＧＢ×ＳＭ１４２のＧＤＩＳＭに記憶される。第２の組のクレジットは、ＧＤＩＳＭクレジットと呼ぶことができる。「ＧＤＩＳＭクレジット」という用語が名前のみであり、このクレジットの性質がこの名前によって限定されないことを当業者であれば理解する。

ゲートウェイ５２は、利用可能なＧＤＩＳＭクレジットの数が非ゼロであるとの判断に応答して、事前ワーク命令を実行して、データをホスト６３、リモートストレージ１５１又は更なるゲートウェイ１２８から検索する。ゲートウェイ５２は、利用可能なＧＤＩＳＭクレジットがゼロであると判断する場合、データを検索しない。ホスト６３は、命令の送信にＲＤＭＡを使用してＧＤＩＳＭクレジットを更新／インクリメントする命令を送信する。ストリーミングエンジン１２４に、ホスト６３からのＲＤＭＡ書き込みを介してＧＤＩＳＭクレジットレジスタへの更新が通知されると、ストリーミングエンジン１２４は、それに従ってクレジットレジスタを更新する。ゲートウェイ５２は、事前ワークがＰＰＥ１２３によって完了したことに応答して、記憶されているＧＤＩＳＭクレジットの数をデクリメントする。事前ワークは、外部ストレージからゲートウェイ５２にデータを転送することである。

ＧＤＩＳＭクレジット制御メカニズムは、事前ワーク（ＰＲＷ）命令の早過ぎる実行を回避し得る。ＧＤＩＳＭは、現在実行中のＥＳＰのＷＤ何個分先に事前ワーク（ＰＲＷ）エンジンが機能することが可能になるかを制御する。

ホスト６３は、ゲートウェイのグループに対してＧＤＩＳＭクレジットの同じクレジット更新を実行するように構成され得る。クレジット更新は、ＲＤＭＡ及びＲＤＭＡの上のプロトコルを使用して、信頼性の高いブロードキャストを行う。これは、同期グループが複数のゲートウェイを含む場合に必要になり得る。この場合、ゲートウェイのグループは、同じ数の利用可能なＧＤＩＳＭクレジットを有する必要があり得、同じ数の利用可能なＧＤＩＳＭクレジットを有さない場合、アクセラレータの１つがストールし、したがって他の全てのアクセラレータが停止し得る。

幾つかの例では、ＧＤＩＳＭクレジットは、ゲートウェイからホストへのデータ転送の制御にも使用される。外部ストレージからゲートウェイ５２へのデータ転送に使用される同じ組のＧＤＩＳＭクレジット（すなわち上述した第２の組）は、ゲートウェイ５２から外部ストレージ（例えば、ホスト６３、リモートストレージ１５１）へのデータ転送の制御に使用され得る。ゲートウェイ５２がデータを外部ストレージに送信することに応答して、インポートクレジット及びエクスポートクレジットの両方を表すこれらのＧＤＩＳＭクレジットは、ＰＰＥ１２３がＷＤ内のコマンドを完了するとデクリメントされる。ゲートウェイ１２８は、ＧＤＩＳＭクレジットの数が非ゼロである場合のみ、データを外部ストレージに送信する。

このようにして、ＧＤＩＳＭクレジットは、ＰＯＷ命令及びＰＲＷ命令の調整に使用し得る。ＧＤＩＳＭクレジットの数が非ゼロである場合、ＰＯＷ命令は、実行することができない。ＧＤＩＳＭクレジットが外部ストレージへのデータ転送及び外部ストレージからのデータ転送の両方を制御する場合、全てのＰＯＷ命令及びＰＲＷ命令が所与のＥＳＰに対して完了した場合のみ、１つのＧＤＩＳＭクレジットが消費される。

幾つかの例では、第３の組のクレジットは、ゲートウェイ５２からホスト６３又はリモートストレージ１５１へのデータ転送を支配する。これらのクレジットは、ＧＤ×ＳＭ１４２によって記憶される。より具体的には、これらのクレジットは、ＧＢ×ＳＭ１４２のＧＤＥＳＭに記憶される。第３の組のクレジットは、ＧＤＥＳＭクレジットと呼ぶことができる。「ＧＤＥＳＭクレジット」という用語が名前のみであり、このクレジットの性質がこの名前によって限定されないことを当業者であれば理解する。

ゲートウェイ１２８は、ＧＤＥＳＭクレジットの数が非ゼロである場合のみ、データを外部ストレージに送信する。ゲートウェイ５２がデータを外部ストレージに送信したことに応答して、ＧＤＥＳＭクレジットは、デクリメントされる。このようにして、ＧＤＥＳＭクレジットは、ＰＯＷ命令の調整に使用され得る。ＧＤＥＳＭクレジットの数が非ゼロである場合、ＰＯＷ命令は、実行することができない。ゲートウェイ５２は、ＰＯＷ命令の完了に応答してＧＤＥＳＭクレジットの数をデクリメントする。

ホスト６３は、命令の送信にＲＤＭＡを使用して、ＧＤＩＳＭクレジットを更新／インクリメントする命令を送信する。ストリーミングエンジン１２４に、ホスト６３からのＲＤＭＡ書き込みを介してＧＤＩＳＭクレジットレジスタへの更新が通知されると、ストリーミングエンジン１２４は、それに従ってクレジットレジスタを更新する。

ＧＤＩＳＭクレジットとＥＳＰクレジットとの間には関係がある。ＧＤＩＳＭクレジットは、ゲートウェイ５２に、１つのスーパーステップでホストメモリからゲートウェイメモリ１１４にデータを転送する許容を与える。ゲートウェイ５２は、このスーパーステップのデータをメモリ１１４にロードした場合、ＧＤＩＳＭクレジットをデクリメントし、１クレジットをＥＳＰクレジットに追加する。ここで、ＥＳＰクレジットの数がゼロよりも大きい場合、ＬＳＰＭ１１７及び／又はＬＳＢＭ１１８は、同期要求に肯定応答するため、アクセラレータ５１は、このデータのプル（任意のプルモデルに従ったプルを含む）を実行することができるか、又はゲートウェイ５２は、アクセラレータ５１へのデータのプッシュ（任意のプッシュモデルに従ったプッシュ）を行うことができる。

図９を参照すると、図９は、複数のアクセラレータ１３１、複数のゲートウェイ１３２及び複数のホスト１３３を含むシステム１３０の一例を示す。ゲートウェイ１３２は、互いに通信するため、ゲートウェイ１３２は、集合的にＥｔｈｅｒｎｅｔ（登録商標）ネットワーク１３４を形成する。ゲートウェイ１３２間の通信は、アクセラレータとホストとの離解を可能にする。換言すれば、システム１３０内の任意のホスト１３３は、任意のアクセラレータ１３１と通信することが可能である。

図９は、通信するホスト１３３と関連付けられた各ゲートウェイ１３２を示すが、幾つかの実施形態では、ゲートウェイ毎に１つのホストがない。幾つかの実施形態では、図９に示すゲートウェイ１３２の１つのみがホスト１３３と直接通信し得る。その１つのホスト１３３は、複数のゲートウェイ１３４を制御することができる。ホストに結合されたゲートウェイは、データをホストから残りのゲートウェイ１３４に配布し得る。代替的に、複数のゲートウェイ１３４は、データをリモートストレージ１５１から検索し得る。

１つのみのゲートウェイ１３４がホスト１３３と通信する場合、その１つのゲートウェイ１３４は、複数のゲートウェイ１３４のうち、ネットワークインターフェースデバイスを含む唯一のゲートウェイ１３４であり得る。これには、残りのゲートウェイの構築に必要な構成要素数を下げることによるコスト削減という利点がある。残りのゲートウェイは、データをホストに提供する場合、ホストと通信するためのネットワークインターフェースデバイスを含むゲートウェイにそのデータを提供する前にまずデータ増強動作をデータに対して実行し得る。

幾つかの実施形態では、システム１３０に外部ホスト１３３は存在せず、むしろ、ホストシステムは、ゲートウェイ１３４の１つ又は複数で実行される。この場合、コンパイラは、ゲートウェイ１３４で実行される。

幾つかの例では、ゲートウェイ１３２は、データをホスト１３３から受信し、このデータを１つ又は複数の他のゲートウェイ１３２に配布する。他の例では、ゲートウェイ１３２のサブセットがデータを１つ又は複数のホスト１３３から受信し、受信したデータを１つ又は複数の他のゲートウェイに配布する。１つ又は複数の他のゲートウェイ１３２の各々は、配布されたデータを関連するアクセラレータ１３１に提供し得る。そうすることにより、ゲートウェイ１３２の全てがホスト１３３からデータを受信する必要があるわけではない。この場合、ゲートウェイの全てに全帯域幅を提供する必要があるわけではないため、この方法は、コストを削減することができる。効率を改善することもできる。幾つかの例では、アクセラレータのグループ内の各アクセラレータ１３１は、同一のデータを受信し処理する。この場合、データは、ホスト１３３から１回のみフェッチするのみでよい。したがって、ゲートウェイ１３２は、上記データをホスト１３３から受信し、このデータのコピーを１つ又は複数のゲートウェイ１３２に配布し、１つ又は複数のゲートウェイ１３２は、関連するアクセラレータ１３１にデータをそれぞれ配布するように構成される。したがって、同じデータをホスト１３３から複数回フェッチする必要がないため、効率利得が実現される。更に、これは、ゲートウェイによるデータの検索にリモートストレージ１５１の使用と組み合わせることができる。検索へのリモートストレージ１５１の使用は、コスト削減を達成することができ、ゲートウェイが全帯域幅を有し得ることを意味する。ホストは、ストレージ記述子を多くのゲートウェイに送信し得、ゲートウェイは、並列してこれらの記述子に対して作用し、ゲートウェイ毎に独立したネットワーク接続を経由してリモートストレージ１５１からデータをプル／プッシュし得る。この技法は、ゲートウェイの数の関数としてＩ／Ｏをスケーリングする。

幾つかの場合、ゲートウェイ１３２から１つ又は複数の他のゲートウェイ１３２に配布されたデータは、１つ又は複数の他のゲートウェイ１３２において変更される。例えば、１つ又は複数の他のゲートウェイ１３２は、データ増強（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）を１つ又は複数の他のゲートウェイ１３２に適用する。このデータ増強は、各ゲートウェイ内のＤＭＥによって実行される。１つ又は複数の他のゲートウェイ１３２の各々が、受信したデータを変更した場合、データは、関連するアクセラレータ１３１に転送プッシュされる。プッシュモデルで動作しているゲートウェイは、ＤＭＯＶ命令を実行して、データを関連するアクセラレータ１３１にプッシュするように構成される。プルモデルで動作しているゲートウェイは、関連するアクセラレータから読み出し要求を受信し、それにより、データは、関連するアクセラレータ１３１にプルされる。

予めコンパイルされたゲートウェイソフトウェアは、何れのアクセラレータ５２が、ゲートウェイ１３２によってメモリ１１４に保持されている、何れのホストからの何れのデータを取得するかを指定する。アクセラレータコードのコンパイラは、データをアクセラレータ間でどのように分けるか及びそれによりアクセラレータ間でワークをどのように分けるかを決定する。ゲートウェイ１３２は、アクセラレータに向かって有する２つのＰＣＩｅポートにわたりＩ／Ｏトラフィックを負荷平衡する。

システムのゲートウェイ及びアクセラレータ層は、システムのスケーリングを可能にするように複製される。図１２を参照すると、図１２は、複数のアクセラレータ１６２及び複数のゲートウェイ１６３を含む装置１６１の一例を示す。装置１６１は、機械１６１と呼ばれる。機械１６１は、４つのアクセラレータ１６２及び２つのゲートウェイ１６３を含む。ゲートウェイ１６３の各々は、１つ又は複数のホスト（図示せず）にも結合される。

図１３を参照すると、図１３は、図１２に示す複数の機械１６１を含む装置１７０の一例を示す。複数の機械１６１は、クラスタ１７１と呼ばれる装置１７１に配置される。各クラスタ１７１は、４つまでの機械１６１を含む。複数のクラスタ１７１は、ポッド１７１と呼ばれる装置１７０に配置される。各ポッド１７１は、３２までの機械１６１を含む。このようにしてシステムをスケーリングすることにより、結果として生成されるポッド１７１は、１２８個のアクセラレータを含み、１６ＰＦＬｏｐｓ及び８ＴＢのＤＲＡＭを有するシステムを生成する。

図１２及び図１３に示すこのモデルでは、各ゲートウェイ１６３は、低遅延ブリッジをアクセラレータ１６２の２つ以上のグループ間に提供し、異なるゲートウェイ１６３に接続されたアクセラレータ１６２があたかも同じ内部ファブリックで接続されているかのように互いに通信できるようにする。パケットは、ゲートウェイ１６３のＸＰＵポート（図８に示される）においてアクセラレータ１６２から受信される。リモートアクセラレータにマッピングされるメモリ空間をターゲットとしているパケットは、ＸＰＵポートにおいて検出され、ゲートウェイ１６３の適切なファブリックポート（図８に示される）に向ける。適切なアクセラレータポートで受信されたパケットは、適切なゲートウェイに転送される。そこから、ゲートウェイは、パケットを、パケットによってターゲットとされるメモリ空間によって示されるリモートアクセラレータに転送する。

各ゲートウェイ１６３は、ＰＣＩｅポートを含む。これらのＰＣＩｅポートの４つは、パケットをアクセラレータ１６２とやりとりするように構成される。各ＰＣＩｅポート（図１２に示される）は、異なるアクセラレータ固有プロトコルを使用するように構成することができる。カスタムゲートウェイトランザクション層は、次いで、そのプロトコルとゲートウェイ内部プロトコルとの間の変換を行う。カスタムゲートウェイ層は、アドレスマップを実施し、コレクティブ及ブロードキャスト／マルチキャストオフロードサポートを提供する。各ゲートウェイ１６３は、アドレスマッピングスキームを提供し、グローバルアドレス空間において参加している全てのアクセラレータ１６２を露出する。アクセラレータ１６２からゲートウェイ１６３において受信したパケットは、パケットをルーティングする宛先ゲートウェイを識別するゲートウェイＩＤを含む。

グローバルアドレス空間は、ポッド１７０に属する全てのアクセラレータ１６２及び全てのゲートウェイ１６３のメモリリソースを包含する。アクセラレータは、グローバルアドレス空間内のアドレスを指定するパケットを送り得る。アドレスの幾つかの部分は、ターゲットゲートウェイでリソースを選択するために使用される。アドレスの幾つかの部分は、アドレス指定されているゲートウェイの識別に使用される。幾つかの他の部分は、ゲートウェイメモリ又は関連するアクセラレータのタイルメモリ内のメモリにおけるアドレスを識別するために使用される。アクセラレータのタイルメモリは、タイルインデックス及びメモリオフセットによってアドレス指定可能である。アドレスは、データパケットのデータが記憶されるアクセラレータ内のロケーションを識別するために、このタイルインデックス及びメモリオフセットを含み得る。

パケットが受信されると、アドレス内のゲートウェイの識別情報がこのゲートウェイのグローバルＩＤと比較される。一致がある場合、要求は、このゲートウェイに属するリソース（ローカルアクセラレータ又はローカルメモリ）をターゲットとしている。一致がない場合、アドレスの部分は、ルーティングテーブルのインデックス付けに使用される。ルーティングテーブルの内容は、システム内のターゲットポートを示す。アドレスの幾つかのビットは、ゲートウェイルーティングテーブルと照合されて、パケットを何れにルーティングするかを判断する。

進入パケットパイプラインは、必要とされる特徴の実施に必要なパイプライン段以外にバッファがないカットスルーパイプラインであることが意図される。パケットは、まず、マルチキャスト／ブロードキャスト、コレクティブ及びユニキャスト／メモリ書き込みとのタイプによって分類される。これらは、次いで、処理のために個々のブロックに分割される。ゲートウェイ５２は、ユニキャストパケットを処理するためのユニキャストモジュール及びマルチキャストグループ化テーブルを含み得る。ユニキャストパケットルーティングテーブルは、ユニキャストパケット、すなわち単一のアクセラレータに向けられたパケットのルーティングを実行するためにゲートウェイ５２によって使用される。入力アドレスは、復号化され、選択されたビットが宛先の特定に使用される。これは、２ステッププロセスである。まず、ゲートウェイＩＤビットを使用して、このパケットがこのゲートウェイをターゲットとするか否かを判断する。このゲートウェイをターゲットとしていない場合、ゲートウェイＩＤビットは、このパケットの出力ファブリックポートを返すルーティングテーブルのインデックス付けに使用される。

パケットがゲートウェイ５２をターゲットとしている場合、パケットアドレス内のローカルアドレスビットを使用して、複数の領域からなるローカルゲートウェイベースアドレスレジスタ（ＢＡＲ）の組、すなわちゲートウェイメモリに１つのＢＡＲ及び各アクセラレータポートに１つのＢＡＲを調べる。パケットがゲートウェイメモリ、例えばメモリ１１４に記憶されるものであることをローカルアドレスビットが示す場合、パケットは、ゲートウェイメモリのＢＡＲ内のアドレスに従ってゲートウェイメモリに記憶される。パケットがアクセラレータに送られるものであることをローカルアドレスビットが示す場合、パケットは、ゲートウェイ５２のＤＭＥ１２２に転送される。そこから、データパケットは、関連するアクセラレータポートのＢＡＲ内のアドレスに従ってアクセラレータに転送され得る。

マルチキャスト／ブロードキャストサービスを指定するパケットは、マルチキャストグループテーブルにおいて処理される。各ファブリックポートは、各グループのコピーを取得するポートのリストを有するそれ自体のテーブルを有する（ブロードキャストを含む）。３つの組の宛先がある。第１に、パケットは、パケットがゲートウェイと同じｖファブリックに属する場合のみ、ローカルアクセラレータに送信される。第２に、全ての入力ブロードキャスト／マルチキャストパケットは、ファブリックテーブルと突き合わせてチェックされて、転送されなければならないか否かを調べる。第３に、コピーがローカルＤＲＡＭに送信される。宛先ポートベクトルが構築されると、ベクトル及びパケットは、複製サービスを提供するスイッチ相互接続に転送される。

本願の実施形態の実施について記載されたシステム、すなわちゲートウェイ及びコンピュータサブシステムは、１つ又は複数のデータプロセッサによって提供され得る必要とされるデータ処理装置及び機能を含む。ストリーミングエンジン及び同期伝播モジュール等のゲートウェイの異なる構成要素は、そのようなデータプロセッサによって提供し得る。データプロセッサは、ローカル技術環境に適する任意のタイプであり得、非限定的な例として、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及びマルチコアプロセッサアーキテクチャに基づくプロセッサの１つ又は複数を含み得る。データ処理は、幾つかのデータ処理モジュールにわたり分散し得る。

図面を参照して本明細書に記載した実施形態の少なくとも幾つかの態様は、処理システム又はプロセッサで実行されるコンピュータプロセスを含むが、本発明は、本発明を実施するように適合されたコンピュータプログラム、特にキャリア上又はキャリア内のコンピュータプログラムにも拡張する。プログラムは、非一時的ソースコード、オブジェクトコード、部分的にコンパイルされた形態等のコード中間ソース及びオブジェクトコードの形態又は本発明によるプロセスの実施での使用に適した任意の他の非一時的形態であり得る。キャリアは、プログラムを搬送することが可能な任意のエンティティ又はデバイスであり得る。例えば、キャリアは、ソリッド・ステート・ドライブ（ＳＳＤ）又は他の半導体ベースのＲＡＭ、ＲＯＭ、例えばＣＤ－ＲＯＭ又は半導体ＲＯＭ、磁気記録媒体、例えばフロッピーディスク又はハードディスク、光メモリデバイス全般等を含み得る。

本明細書の記載の例は、本発明の実施形態の説明のための例として理解されたい。更なる実施形態及び例が考えられる。任意の１つの例又は実施形態に関連して説明された任意の特徴は、単独で又は他の特徴と組み合わせて使用され得る。加えて、任意の１つの例又は実施形態に関連して説明された任意の特徴は、任意の他の例若しくは実施形態又は任意の他の例若しくは実施形態の任意の組合せの１つ又は複数の特徴と組み合わせて使用され得る。更に、特許請求の範囲に規定される本発明の範囲内において、本明細書に記載されていない均等物及び変更形態を利用することもできる。

上記実施形態が単なる例として説明されたことが理解されるであろう。

本明細書における開示を所与として、開示された技法の他の変形形態及び／又は用途が当業者に明らかになり得る。本開示の範囲は、記載の実施形態によって限定されず、添付の特許請求の範囲によってのみ限定される。

上記実施形態は、単なる例として記載されたことが理解されるであろう。より一般には、本明細書に開示される一態様によれば、１．少なくとも１つのホストを、少なくとも１つのホストに対してワークアクセラレータとして作用する１つ又は複数のサブシステムと接続し、サブシステムの計算フェーズと交換フェーズとの間のバリアとして作用する、サブシステムによって到達される事前コンパイル済みデータ交換同期点において、１つ又は複数のサブシステムへの及びサブシステムからのデータの転送を可能にするゲートウェイであって、１つ又は複数の同期伝播回路を含み、同期伝播回路の少なくとも１つは、後の事前コンパイル済みデータ交換同期点において同期ネットワークのサブシステム間で同期を実行するための１つ又は複数の同期要求を同期ネットワーク内の１つ又は複数の下流パスから受信することと、１つ又は複数の同期要求の受信に応答して、複数の同期要求を同期ネットワーク内で異なるパスに沿って上流に伝播させることと、複数の同期要求の伝播に続いて、異なるパスの少なくとも１つから少なくとも１つの同期肯定応答を受信することと、少なくとも１つの同期肯定応答の受信に応答して、１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させることとを行うように構成される、ゲートウェイを含むゲートウェイが提供される。

幾つかの実施形態では、同期伝播回路の少なくとも１つは、少なくとも１つの同期肯定応答のうち、最初の同期肯定応答の受信に応答して、タイマを開始することと、異なるパスの全てから同期肯定応答を受信することなく、タイマによって定義された所定の期限が切れたことに応答して、続けて、タイマが切れる前に同期肯定応答が受信されなかった同期ネットワーク内の異なるパスの各々に沿って同期要求を伝播させることなく、更なるデータ交換同期点のための１つ又は複数の同期要求を同期ネットワーク内で上流に伝播させることと、を実行するように構成される。

幾つかの実施形態では、１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させるステップは、タイマによって定義される所定の期限が切れたことに応答して実行される。

幾つかの実施形態では、複数の同期要求を同期ネットワーク内で異なるパスに沿って上流に伝播させることは、複数の同期要求の少なくとも１つをゲートウェイに送信することを含む。

幾つかの実施形態では、１つ又は複数の同期伝播回路の少なくとも１つは、１つ又は複数の同期要求を１つ又は複数のサブシステムから受信することと、１つ又は複数の同期要求に応答して、単一の同期要求を同期ネットワーク内で上流に伝播させることと、を実行するように構成される

幾つかの実施形態では、単一の同期要求を同期ネットワーク内で上流に伝播させることは、同期伝播回路の少なくとも１つのうちの１つに単一の同期要求を伝播させることを含む。

幾つかの実施形態では、ゲートウェイは、少なくとも１つのストレージを含み、ストレージは、少なくとも１つの同期伝播回路において１つ又は複数の同期要求を受信する前に、１つ又は複数のサブシステムから、同期ネットワークの少なくとも一部の構成設定の指示を受信するように構成され、少なくとも１つの同期伝播回路は、構成設定の指示に応じて、複数の同期要求を上流に伝播させる異なるパスを選択するように構成される。

幾つかの実施形態では、構成設定の指示は、構成設定を含む。

幾つかの実施形態では、構成設定の指示は、少なくとも１つのストレージに保持された構成設定の組の識別子を含む。

幾つかの実施形態では、少なくとも１つのストレージは、１つ又は複数のレジスタを含む。

幾つかの実施形態では、１つ又は複数の同期伝播回路の１つは、受信された同期要求を更なる同期伝播モジュールに伝播させることなく、受信された同期要求に対して肯定応答するように構成される。

幾つかの実施形態では、ゲートウェイは、システムオンチップである。

幾つかの実施形態では、少なくとも１つの同期伝播回路は、１つ又は複数の同期要求の受信に応答して、複数の同期要求を同期ネットワーク内で異なるパスに沿って上流に伝播させるステップを実行するように構成された２つの同期伝播回路を含む。

幾つかの実施形態では、任意の先行する請求項に記載のゲートウェイを含む複数のゲートウェイである。

幾つかの実施形態では、複数のゲートウェイは、同期ネットワークのための複数のマスタゲートウェイを含み、マスタゲートウェイの各々は、少なくとも１つの同期要求を受信し、少なくとも１つの同期要求の受信に応答して、少なくとも１つの同期肯定応答を返すように構成された同期伝播回路を含む。

第２の態様によれば、少なくとも１つのホストを、少なくとも１つのホストに対してワークアクセラレータとして作用する１つ又は複数のサブシステムと接続するためのゲートウェイで実行される方法が提供され、ゲートウェイは、サブシステムの計算フェーズと交換フェーズとの間のバリアとして作用する、サブシステムによって到達される事前コンパイル済みデータ交換同期点において、１つ又は複数のサブシステムへの及びそれからのデータの転送を可能にし、方法は、後の事前コンパイルデータ交換同期点において同期ネットワークのサブシステム間で同期を実行するための１つ又は複数の同期要求を同期ネットワーク内の１つ又は複数の下流パスから受信することと、１つ又は複数の同期要求の受信に応答して、複数の同期要求を同期ネットワーク内で異なるパスに沿って上流に伝播させることと、複数の同期要求の伝播に続いて、異なるパスの少なくとも１つから少なくとも１つの同期肯定応答を受信することと、少なくとも１つの同期肯定応答の受信に応答して、１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させることとを含む。

Claims

少なくとも１つのホストを、前記少なくとも１つのホストに対してワークアクセラレータとして作用する１つ又は複数のサブシステムと接続し、前記サブシステムの計算フェーズと交換フェーズとの間のバリアとして作用する、前記サブシステムによって到達される事前コンパイル済みデータ交換同期点において、前記１つ又は複数のサブシステムへの及びサブシステムからのデータの転送を可能にするゲートウェイであって、
１つ又は複数の同期伝播回路を含み、
前記同期伝播回路の少なくとも１つは、
後の事前コンパイル済みデータ交換同期点において、前記サブシステムを含む同期ネットワークのサブシステム間で同期を実行するための１つ又は複数の同期要求を、前記同期ネットワーク内の１つ又は複数の下流パスから受信することと、
１つ又は複数の同期要求の受信に応答して、複数の同期要求を前記同期ネットワーク内で異なるパスに沿って上流に伝播させることと、
前記複数の同期要求の伝播に続いて、異なるパスの少なくとも１つから少なくとも１つの同期肯定応答を受信することと、
少なくとも１つの同期肯定応答の受信に応答して、１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させることと、
を実行するように構成され、
前記同期伝播回路の少なくとも１つは、
少なくとも１つの同期肯定応答のうち、最初の同期肯定応答の受信に応答して、タイマを開始することと、
異なるパスの全てから同期肯定応答を受信することなく、前記タイマによって定義された所定の期限が切れたことに応答して、続けて、前記タイマが切れる前に同期肯定応答が受信されなかった前記同期ネットワーク内の異なるパスの各々に沿って同期要求を伝播させることなく、更なるデータ交換同期点のための１つ又は複数の同期要求を前記同期ネットワーク内で上流に伝播させることと、
を実行するように構成される、
ゲートウェイ。
１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させるステップは、前記タイマによって定義された前記所定の期限が切れたことに応答して実行される、請求項１に記載のゲートウェイ。
複数の同期要求を前記同期ネットワーク内で異なるパスに沿って上流に伝播させることは、複数の同期要求の少なくとも１つをゲートウェイに送信することを含む、請求項１又は２に記載のゲートウェイ。
１つ又は複数の同期伝播回路の少なくとも１つは、
１つ又は複数の同期要求を前記１つ又は複数のサブシステムから受信することと、
１つ又は複数の同期要求に応答して、単一の同期要求を前記同期ネットワーク内で上流に伝播させることと、
を実行するように構成される、請求項１～３の何れか一項に記載のゲートウェイ。
前記単一の同期要求を前記同期ネットワーク内で上流に伝播させることは、前記同期伝播回路の少なくとも１つのうちの１つに前記単一の同期要求を伝播させることを含む、請求項４に記載のゲートウェイ。
前記ゲートウェイは、少なくとも１つのストレージを含み、
前記ストレージは、少なくとも１つの同期伝播回路において１つ又は複数の同期要求を受信する前に、１つ又は複数のサブシステムから、前記同期ネットワークの少なくとも一部の構成設定の指示を受信するように構成され、
少なくとも１つの同期伝播回路は、前記構成設定の前記指示に応じて、複数の同期要求を上流に伝播させる異なるパスを選択するように構成される、請求項１～５の何れか一項に記載のゲートウェイ。
少なくとも１つのストレージは、１つ又は複数のレジスタを含む、請求項６に記載のゲートウェイ。
１つ又は複数の同期伝播回路の１つは、受信された同期要求を更なる同期伝播回路に伝播させることなく、受信された同期要求に対して肯定応答するように構成される、請求項１～７の何れか一項に記載のゲートウェイ。
前記ゲートウェイは、システムオンチップに内蔵される、請求項１～８の何れか一項に記載のゲートウェイ。
１つ又は複数の同期要求の受信に応答して、複数の同期要求を前記同期ネットワーク内で異なるパスに沿って上流に伝播させるステップを実行するように構成された２つの同期伝播回路を含む、請求項１～９の何れか一項に記載のゲートウェイ。
複数のゲートウェイを含むシステムであって、前記複数のゲートウェイは、請求項１～１０の何れか一項に記載のゲートウェイを含む、システム。
前記複数のゲートウェイは、前記同期ネットワークのための複数のマスタゲートウェイを含み、マスタゲートウェイの各々は、少なくとも１つの同期要求を受信し、少なくとも１つの同期要求の受信に応答して、少なくとも１つの同期肯定応答を返すように構成された同期伝播回路を含む、請求項１１に記載のシステム。
少なくとも１つのホストを、少なくとも１つのホストに対してワークアクセラレータとして作用する１つ又は複数のサブシステムと接続するためのゲートウェイで実行される方法であって、前記ゲートウェイは、前記サブシステムの計算フェーズと交換フェーズとの間のバリアとして作用する、前記サブシステムによって到達される事前コンパイル済みデータ交換同期点において、前記１つ又は複数のサブシステムへの及びそれからのデータの転送を可能にし、前記方法は、
後の事前コンパイルデータ交換同期点において前記サブシステムを含む同期ネットワークのサブシステム間で同期を実行するための１つ又は複数の同期要求を、前記同期ネットワーク内の１つ又は複数の下流パスから受信することと、
１つ又は複数の同期要求の受信に応答して、複数の同期要求を前記同期ネットワーク内で異なるパスに沿って上流に伝播させることと、
複数の同期要求の伝播に続いて、異なるパスの少なくとも１つから少なくとも１つの同期肯定応答を受信することと、
少なくとも１つの同期肯定応答の受信に応答して、１つ又は複数の同期要求が受信された１つ又は複数の下流パスの各々に沿って同期肯定応答を伝播させることと、
少なくとも１つの同期肯定応答のうち、最初の同期肯定応答の受信に応答して、タイマを開始することと、
異なるパスの全てから同期肯定応答を受信することなく、前記タイマによって定義された所定の期限が切れたことに応答して、続けて、前記タイマが切れる前に同期肯定応答が受信されなかった前記同期ネットワーク内の異なるパスの各々に沿って同期要求を伝播させることなく、更なるデータ交換同期点のための１つ又は複数の同期要求を前記同期ネットワーク内で上流に伝播させることと、
を含む、方法。