JP2022539844A

JP2022539844A - 静止再構成可能データ・プロセッサ

Info

Publication number: JP2022539844A
Application number: JP2022500801A
Authority: JP
Inventors: ラグープラバカール，; マニッシュケイ．シャア，; プラモッドナタラジャ，; デイヴィッドブライアンジャクソン，; キンヒンレオン，; ラムシヴァラマクリシュナン，; サムティジャイラス，; グレゴリーフレデリックグロースキー，
Original assignee: SambaNova Systems Inc
Current assignee: SambaNova Systems Inc
Priority date: 2019-07-08
Filing date: 2020-07-03
Publication date: 2022-09-13
Also published as: US20210011770A1; US20210271519A1; TWI758770B; CA3146815A1; TW202115575A; KR20220027245A; EP3997566A1; US11928512B2; CN114586004B; WO2021007131A1; CN114586004A; US11055141B2

Abstract

再構成可能データプロセッサは、データ処理動作のそれぞれの実行フラグメントを実施するために、アレイ内に構成可能ユニットの複数のセットを割り当てるように構成可能な構成可能ユニットのアレイを含む。静止ロジックは、アレイ内の構成可能ユニットに結合され、静止制御信号に応答して、それぞれの実行フラグメントの静止境界上でアレイ内の構成可能ユニットのセットを静止させ、対応する処理ユニットのセットが準備状態であるときに、それぞれの実行フラグメントに対して静止準備信号を転送するように構成可能である。アレイ静止コントローラは、静止制御信号をアレイ内の構成可能ユニットに分配し、静止ロジックからそれぞれの実行フラグメントに対する静止準備信号を受信する。【選択図】図１

Description

本技術は再構成可能アーキテクチャ及び、他の分散型処理アーキテクチャにおける静止に関するものであり、粗粒度再構成可能アーキテクチャ上で実行される動作の静止に特に適用することができる。

フィールド・プログラマブル・ゲートアレイＦＰＧＡを含む再構成可能プロセッサは、コンピュータ・プログラムを実行する汎用プロセッサを使用して達成され得るものよりも効率的または高速に様々な機能を実装するように構成され得る。いわゆる粗粒度再構成可能アーキテクチャ（例えば、ＣＧＲＡ）が開発されており、このアーキテクチャでは、アレイ内の構成可能ユニットが、典型的なより細粒度のＦＰＧＡで使用されるよりも複雑であり、様々なクラスの機能のより高速またはより効率的な実行を可能にすることができる。例えば、機械学習及び人工知能作業負荷のためのエネルギー効率のよいアクセラレータの実施態様を可能にすることができるＣＧＲＡが提案されている。Prabhakar, et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns"、ISCA '17, June 24-28, 2017, Toronto, ON, Canadaを参照されたい。

ＣＧＲＡ等の分散型処理システムにおけるチェックポインティング、マルチタスキング、及び、マルチプログラミングは、複雑な問題を提示する。通常、ランタイム制御プログラムは、構成ファイルをロードし、終了するように構成されたマシンを実行するだけで、その後、ハードウェアを静止させることができる。プリエンプティブ・マルチタスキングやデバッグ等のシステム管理機能のために、実行中にマシンを中断する機能がない場合がある。動作効率を最大にし、再構成可能なプロセッサの構成可能な処理要素等の処理システム上の処理ユニット間で調整することができるようにするために、処理ユニットの静止を効率的に管理する手段が必要とされる。

粗粒度再構成可能アレイ・プロセッサの再構成可能な処理ユニット間の静止を含む、データ処理システムの処理ユニットの効率的な静止を可能にする技術について説明される。

データ処理動作の実行フラグメントを実施するためにアレイ内の処理ユニットのセットを割り当てるように構成可能かつ再構成可能な処理ユニットのアレイを含む処理システムが説明される。論理回路を含む静止ロジックは、アレイ内の処理ユニットの幾つかまたはすべてに結合されて提供される。静止ロジック回路は、制御信号に応答して、アレイ内のデータ処理ユニットのセットを、実行フラグメントの静止境界上で静止させるように構成可能である。本明細書で説明される実施形態では、セット内の処理ユニットがアレイ内に分散され、非同期に動作することができる。静止ロジックは、静止境界上で非同期に動作する処理ユニットのセットを同期させるように動作可能である。静止境界は、構成可能な処理ユニットのアレイにおいて構成データによって規定できる。

幾つかの実施形態では、処理ユニットのアレイが、データ処理動作のそれぞれの実行フラグメントを実施するために、アレイ内の複数の処理ユニットのセットを指定された実行フラグメント・リソース・グループ（ＥＦＲＧ）に割り当てるように構成可能であり、実行フラグメントは、例えば、ＣＧＲＡ内に、データ処理動作の制御及び、データ・フロー・グラフ内の動作のサブセットを含む。この場合の静止ロジックは、静止制御信号を分配してアレイ内の処理ユニットに関連するロジックを静止させ、それぞれの処理ユニットのセットから静止準備信号を受け取る静止制御信号を分配する静止コントローラを含むことができる。

静止モードを有する構成可能処理ユニットのアレイを含む処理システムを動作させるための方法が説明される。該方法は、静止境界を有する対応する実行フラグメントのためにアレイを複数のＥＦＲＧに構成するデータ処理動作のために構成データをアレイにロードするステップと、静止コマンドをアレイ内の複数のＥＦＲＧに分配するステップとを含むことができる。アレイに分配される静止コマンドは例えば、アレイがマルチタスキングをサポートするための静止コントローラに信号を送信するホストプロセッサ内のランタイム制御プログラムのような外部静止イベントに応答して、または、制御ネットワークによってアレイの静止コントローラに提供されるアレイ内のデータ処理動作によって生成される内部静止イベント（自己静止）から生成することができる。実行フラグメント・リソース・グループでは、該方法は、静止コマンドに応答して、対応する実行フラグメント内の静止コマンドに続く静止境界を検出すること、静止境界を超える対応する実行フラグメントの実行を無効にすること、及び、対応する実行フラグメントに対する静止準備信号を立ち上げることを含む。静止境界は、構成データ内で、各ＥＦＲＧの処理ユニットにおける実行の構成された状態のセットによって、規定することができる。該方法は、グループ内の処理ユニットの構成された状態のセットを検出することによって、ＥＦＲＧ内の静止境界を検出することを含むことができる。

静止ロジックが所与のＥＦＲＧに対して、実行フラグメント内に１または複数の静止境界を規定し、制御信号に応答して静止境界上でＥＦＲＧ内の処理ユニットを静止させるように構成可能である技術が説明される。説明される例では、ＥＦＲＧ内の処理ユニット内の構成された状態を検出するために、処理ユニット内の実行ループまたは他のタイプの処理サイクルをカウントするループ・カウンタ等のカウンタを含めることができる。静止ロジックはカウンタに応答して、実行フラグメント内の静止境界に対応する処理ユニット内の構成された状態等のイベントを検出し、検出できなければＥＦＲＧ内の実行フラグメントの進行を追跡することができる。したがって、静止ロジックは、実行フラグメントに割り当てられたＥＦＲＧ内の静止境界上の静止動作を同期させることができる。説明される例では、ＥＦＲＧ内の処理ユニット間の実行フラグメントの進行の差異を追跡するために、スキュー・カウンタが提供される。幾つかの実施形態では、プログラム実行が次の静止境界に達することができる前に、実行フラグメントに残っている保留作業があるときに、スキュー・カウンタは非ゼロであり、或いは、スキュー・カウンタの非ゼロ値は、プログラムが静止境界にないことを反映するものと考えることもできる。他の実施形態では、スキュー・カウンタまたは様々な追跡手段の異なる値が、これらの状態を表してもよい。

本明細書で説明されるシステムの例における実行フラグメントは、処理ユニットのセットに割り当てられ、セット内の１または複数の処理ユニットは入力のプロデューサとして構成され、セット内の１または複数の処理ユニットは入力のコンシューマとして構成される。静止ロジックが、静止境界上でプロデューサまたは各プロデューサを停止し、コンシューマまたは各コンシューマが静止境界の前に生成された入力の処理を終了した後にＥＦＲＧを静止させるように構成可能である静止技術が説明される。

本明細書において、処理システムがアレイ内の処理ユニットに結合された制御バリア・ネットワークを含むアーキテクチャを説明する。制御バリア・ネットワークは、制御バリア・ネットワーク内に信号ルートを形成するように構成可能な制御バスと、制御バス及び処理ユニットのアレイに接続された入力及び出力を有する複数のバリア・ロジック・ユニットとを備えることができる。静止ロジックのサポートにおいて、特定の実行フラグメントに割り当てられたＥＦＲＧの第１のロジック・ユニットは、実行フラグメント内のプロデューサからトークン（Ｐ＿ＱＢ）を受信するように構成可能である。この場合、トークンは、実行フラグメント内の静止境界に対応するプロデューサユニット内のイベントを通知し、プロデューサからのトークンに基づいて出力にプロデューサ・バリア・トークンを生成する。プロデューサ・バリア・トークンは、セット内のプロデューサが実行フラグメントの静止境界を超えて進むことを可能にするために使用することができる。また、特定の実行フラグメントに割り当てられたＥＦＲＧのための第２のロジック・ユニットは、プロセッサ・ユニットのセット内のコンシューマ・ユニットからトークン（Ｃ＿ＱＢ）を受信して、コンシューマからのトークンに基づいて出力にコンシューマ・バリア・トークンを生成するように構成可能である。コンシューマ・バリア・トークンは、静止境界上のユニットのセットを同期させるために、プロデューサ・バリア・トークンと共に静止ロジックにおいて使用することができる。静止ロジックは、制御バスに接続するように構成可能であり、プロデューサ・バリア・トークン及びコンシューマ・バリア・トークンを受信するように構成可能なスキュー・カウンタを含むことができ、セット内の処理ユニット間の静止境界トークン（Ｐ＿ＱＢ及びＣ＿ＱＢ）のスキューを含むプロデューサ及び、コンシューマ間の実行フラグメントの進行の差異を追跡する。

更に、イネーブル回路が、プロデューサ・バリア・トークンと他のデータ及び、制御依存性に応答して、プロデューサとして構成されたＥＦＲＧ内の関連するプロセッサ・ユニットのためのイネーブル信号を生成するために提供され得る。また、データ及び、制御依存性に応答してコンシューマとして構成されたＥＦＲＧ内の関連するプロセッサ・ユニットのためのイネーブル信号を生成するように構成可能なイネーブル回路を提供することができる。プロデューサ・バリア・トークン及び、コンシューマ・バリア・トークンを使用して、プロデューサとコンシューマとの間の実行フラグメントの進行の差異を追跡することができる。また、静止ロジックは、プロデューサ・バリア・トークンを無効にすることでプロデューサを停止でき、コンシューマが構成された状態に達すると、ＥＦＲＧは静止する。

本明細書で説明する静止アーキテクチャでは、アレイ内の処理ユニットのために、アレイ静止コントローラが制御信号を静止ロジックに転送するロジックを含むことができる。処理ユニットのセットに関連付けられた静止ロジックは、アレイ内の対応する処理ユニットに関連付けられた静止準備ロジックを含み、静止準備信号をアレイ静止コントローラに提供することができる。本明細書で説明される例では、処理ユニットのための静止準備ロジックがアレイ内の処理ユニット間でデイジー・チェーンで接続される。静止準備ロジックは、デイジー・チェーンの前のメンバからの静止準備信号が受信され、対応するＥＦＲＧの静止が準備状態であるとき、静止準備信号をデイジー・チェーン上のアレイ静止コントローラに転送することができる。また、アーキテクチャは、構成可能な静止参加フラグと、静止参加フラグの状態に応じて静止準備ロジックをオーバーライドするロジックを提供できる。このようにして、アレイは、静止準備ロジック内のプロデューサに関連する静止準備信号を使用するように構成することができる。

概して、構成可能な処理ユニットのアレイを含む、処理システムを動作させるための一方法が提供され、それは、アレイ内のＥＦＲＧ内のデータ処理動作の実行フラグメントの進行を監視すること、及び、制御信号に応答して、実行フラグメントの静止境界上でアレイ内のデータ処理ユニットのセットを静止させることとを含む。

該方法は、データ処理動作のそれぞれの実行フラグメントのアレイ内の処理ユニットの複数セットにおける進行を監視すること、アレイ内の処理ユニットへ静止制御信号を分配すること、及び、処理ユニットの各セットから静止準備信号を受信することを含むことができる。

また、実行フラグメント内に複数の静止境界を規定するロジックを含む処理システムに対して、該方法は制御信号の後の共通の静止境界上でＥＦＲＧ内の処理ユニットを静止させることを含むことができる。

ＥＦＲＧ内の処理ユニット間の静止境界を越える実行フラグメントの進行の差異を追跡するための技術も提供される。

構成可能ユニットのアレイが、チェックポイント動作、ブレークポイント動作、サスペンド及び再開動作、再構成可能なシステム上のマルチプログラミング及びマルチタスキング、並びに、構成可能ユニットのアレイ上で実行されるプログラムのデバッグを補助する機能等の他の機能をサポートする静止制御信号を生成する制御プログラムを実行するホストに結合される、データ処理システムを動作させるための方法が説明される。１つの動作では、制御プログラムが静止境界上の動作を反復的に静止させ、各々の静止境界において状態データ及びメモリ・コンテンツのようなチェックポイント・データのコピーをアンロードし、動作を再開し、静止境界を越える動作の実行に関する情報を収集するために繰り返すことができる。

また、データ処理システムを動作させるための方法であって、該方法において、時々他の処理による使用のためにリソースをもたらすことがあるマルチプログラミング環境において、及び、処理ユニットのアレイにおけるデータ処理動作が、スケジューラ、割り込み、または他の外部の力に応じてリソースをもたらすことを強制され得るマルチタスキング環境において、処理ユニットのアレイにおけるデータ処理動作が、制御プログラムを実行するホストに構成可能ユニットのアレイが結合されている場合が、説明される。制御プログラムは構成可能ユニットのアレイを使用して、実行のための複数の動作を管理することができ、これには、リソースがもたらされているマルチプログラミング・イベントまたはマルチタスキング・イベント上の動作の間の優先順位の割り当てが含まれる。本明細書に記載する技術を利用することにより、ホストは、構成可能ユニットのアレイに配置された動作よりも高い優先度を有する動作のためのトリガー・イベントによって、優先度に従って動作をスケジューリングすることができ、制御プログラムは静止境界上で実行中のプログラムを中断し、構成ファイルの全部または一部をアンロードし、静止境界で実行中のプログラムの状態及び作業メモリをアンロードし、その後、より高い優先度の動作のために構成ファイルをロードし、より高い優先度のファイルの実行を開始することができる。また、より高い優先度の動作が完了すると、中断された動作は、随意的に、その構成ファイル、状態、及び、メモリをロードし、静止境界で動作を再開することによって、再開することができる。

本明細書で説明される技術の他の態様及び利点は、以下の図面、詳細な説明、及び特許請求の範囲を検討することによって理解することができる。

ホスト、メモリ、及び、静止制御ネットワークを含む再構成可能データ・プロセッサを含むシステムを示すシステム図である。

アレイ静止コントローラ及び分散型静止ロジックを有する構成可能ユニットのアレイを有するタイルの簡略図である。

アレイ・レベル・ネットワーク内の素子を接続する例示的なスイッチ・ユニットを示す。

図２のようなタイルの処理ユニットのセットの図であり、タイル内の静止ロジックに接続された構成可能相互接続を示す。

静止ロジックを含む例示的な構成可能ユニットを示すブロック図である。

静止をサポートするように構成可能なバリア・ロジック・ユニットの一実施態様を示す図である。

プロデューサ・バリア・トークン及び静止準備ロジックを生成するための静止ロジックの簡略化された論理図である。

静止境界ロジックの簡略化されたロジック図である。

コンシューマ・バリア・トークンを生成するための静止ロジックの簡略化された論理図である。

トップ・レベル・ネットワークと、複数のタイルを有する実施形態をサポートするＣＧＲＡ（粗粒度再構成可能アーキテクチャ）の構成要素との簡略化されたブロック図である。

構成可能ユニットにおけるユニット構成ロード処理を制御するために使用することができるステート・マシン図の一例を示す。

構成可能ユニットにおける構成ファイルのロード及びアンロードをサポートする構造の論理表現である。

アレイ構成ロード処理を実行するロジックの一例を示すステート・マシン図である。

アレイ構成アンロード処理を実行するロジックの一例を示すステート・マシン図である。

構成可能な処理ユニットのアレイのためのアレイ構成及びプログラム・アンロード処理に続く静止動作の一例のフローチャートである。

静止を使用して構成可能なアレイにおいてデータ処理動作を変更する方法のフローチャートである。

静止を使用して構成可能なアレイにおいてデータ処理動作のブレークポイント・ファイルをアンロードする方法のフローチャートである。

以下の説明は、典型的には特定の構造的な実施形態及び方法を参照して行われる。本技術を、具体的に開示された実施形態及び方法に限定する意図はないが、本技術は他の特徴、要素、方法、及び実施形態を使用して実施されてもよいことを理解されたい。好ましい実施形態は、本技術を説明するために記載されており、請求項によって規定される本技術の技術的範囲を限定するものではない。当業者であれば、以下の説明に対して様々な同等の変形を認識するであろう。

図１は、ホスト１２０、メモリ１４０、及び、再構成可能データ・プロセッサ１１０を含むシステムを示すシステム図である。図１の例に示すように、再構成可能データ・プロセッサ１１０は、本明細書で説明する静止制御ネットワークを含む処理ユニットのアレイ１９０を含む。処理ユニットは、この例の構成可能ユニットであり、構成ファイルまたはビットファイルを使用して構成可能であり、データフロー・フォームまたはデータフロー・フォームの一部におけるデータ処理動作を実施する。他の実施形態では、処理ユニットのアレイがノイマン型または制御フロー動作のため、またはハイブリッド動作のために構成することができる。

アレイの処理ユニットは非同期的に実行することができ、これは、静止するための安全なプログラム・ポイントにおける保証の邪魔にはならない。

データ処理動作の実行のために構成された処理ユニットのアレイを備えるＣＧＲＡ及び、他の処理システムでは、アレイ内で本明細書で「実行フラグメント・リソース・グループ、ＥＦＲＧ」と呼ばれる処理ユニットのセットを割り当てて、本明細書でデータ処理動作の「実行フラグメントＥＦ」と呼ばれるデータ処理動作の様々な部分を実施するように、アレイを構成することができる。アレイは、アレイの処理ユニットの様々なセットにおいて、複数の実行フラグメントを実行するように構成することができる。これらの処理ユニットの様々なセットは、これらが非同期的に構成された実行フラグメントを実行できる。また、単一の実行フラグメントに割り当てられた所与の処理ユニットのセット内の処理ユニットは、非同期に動作することができ、これは、例えば、アレイ内の処理ユニットの分散性をサポートする。このため、データ処理動作を停止し、安全に再開できるようにアレイ内の処理ユニットを静止させなければならない場合に問題が生じる。

この説明のために、実行フラグメント（ＥＦ）は一般に、データ処理動作を実施するプログラムの一部であり、同様の制御フロー・シーケンスに従うプログラム内の動作のシーケンス等の動作のセットを含む。ＥＦは、ループ本体、または、ｉｆ－ｅｌｓｅまたはｓｗｉｔｃｈステートメント等の条件構文に基づいて実行される動作とすることができる。ＥＦは階層構造にすることができ、他のループネストを完全に含むことができる。１つの具体例は、深層学習トレーニング及び推論作業負荷のようなループ・ヘビー・プログラムにおいて最も外側のループレベルで定義されるＥＦである。幾つかの実施態様に適した制御フロー・グラフ表現を使用して、プログラム制御フロー・グラフＧがエッジＥ及び、頂点Ｖの集合によって表される場合、それぞれの固有ＥＦは、ＧをＧの別個のエッジｅ及び、頂点ｖに分割するＧの別個のサブグラフｇである。

この説明において、実行フラグメント・リソース・グループ（ＥＦＲＧ）は、ＥＦを実行するために割り当てまたは構成された物理ハードウェア・リソースのセットである。ＥＦとそのＥＦＲＧとの間には１：１の対応があり得るが、ＥＦＲＧはシングル・スレッド配備におけるＥＦＲＧ内の各構成要素が１つのＥＦのみを実行している任意の所与の時間に、複数のＥＦを連続して持ち得て且つ実行することができる。ＣＧＲＡ内の構成可能ユニット等の処理ユニットのアレイでは、ＥＦＲＧがアレイ内の処理ユニットのセットを備えることができる。

この説明において、静止境界（ＱＢ）は、ＱＢにおいて一貫性のある状態を有するように制約されるＥＦ内の動作のセットを記述するイベントである。例えば、ループでは、ＱＢは、完全に実行されたループ反復に続く、または先行するものとして規定することができる。各ＥＦは２つの自然なＱＢを有し、１つはＥＦの実行の前であり、もう１つはＥＦが実行を完了した直後である。追加のＱＢは、必要に応じてＥＦ内で規定され、構築されることができる。

コメントが擬似コード内のＱＢの位置を示す汎用ループの幾つかの単純な例を以下に示す：
// 汎用ループ
// １つの自然なＱＢがループ実行の直前にある。
for (i=0; i<N; i++) {
c[i]= a[i]+ b[i];
}
// 別の自然なＱＢがループ実行の直後にある。
// 汎用ループ
// 各反復はＱＢであってもよい
for (i=0; i<N; i++) {
// 以下のｉｆステートメントは、コンパイラによって効果的に挿入される
if (quiesce_received())wait(); // wait()は、ｒｅｓｕｍｅ／ｕｎｌｏａｄ等を待つＨＷ構文である。
c[i] = a[i] + b[i];
}
// 汎用ループ
// 各４番目の反復はＱＢであってもよい
for (i=0; i<N; i++) {
// 以下のｉｆステートメントは、コンパイラによって効果的に挿入される
if (!(i%4) && quiesce_received()) wait(); // wait()は、ｒｅｓｕｍｅ／ｕｎｌｏａｄ等を待つＨＷ構文である。
c[i] = a[i] + b[i];
}

ＱＢを実施するために、ユーザはコンパイラにＱＢを直接指定することができ、あるいは、ユーザ入力に基づくブレークポイントのような自己チェックポインティングまたは他の能力を可能にするために、コンパイラがデフォルトで適宜ＱＢを挿入することができる。ユーザは、ユーザによってコードに挿入されたコンパイラ・ディレクティブ（プラグマ）、コンパイラのコマンド・ライン呼び出しを介してユーザによって指定されたオプション、コンパイラが使用する構成ファイル、これらの技術の組合せ、またはその他の手段を介して、ＱＢを指定できる。次に、コンパイラは、制御フローの実施形態において、静止リクエストをサンプリングし、静止リクエストがＱＢでアクティブである場合に実行を同期／一時停止する追加のエッジ及び、頂点を挿入することによって、元の制御フロー・グラフＧをＧ’に変換する。ＥＦ内で、この同期／一時停止は、プロデューサ及び、コンシューマを識別し、たとえば以下の動作を実行することによって行うことができる：
ａ) 全ての（初期）プロデューサの論理関数（例えば、ＡＮＤ）であるプロデューサ・バリアを生成する。プロデューサ・バリアは、プロデューサの数が多い場合、再帰的に構築されてもよい。
ｂ) すべての（エンド）コンシューマの論理関数（たとえば、ＡＮＤ）であるコンシューマ・バリアを生成する。コンシューマ・バリアは、コンシューマの数が多い場合、再帰的に構築することができる。
ｃ) スキュー・カウンタ及び、関連する制御を含む、またはそれに関連するＥＦＲＧの１つの構成要素を示す。静止リクエスト、プロデューサ・バリア、及び、コンシューマ・バリアをこのスキュー・カウンタにルーティングする。プロデューサ・バリアをスキュー・カウンタ・インクリメント入力に接続し、コンシューマ・バリアをスキュー・カウンタ・デクリメント入力に接続する。
ｄ) 上記のステップｃ）におけるＥＦＲＧ内の示された構成要素内の、または該構成要素に関連するバリア・ロジックは、ＥＦのプロデューサが次のＱＢまで実行を進めるべきか、またはすべてのコンシューマがプロデューサと同じＱＢに追いつくのを停止し、待つべきかを決定する。次のＱＢまでに実行を再開するために、関係する構成要素は、すべてのプロデューサに制御信号を送信する。実行を停止するために、１つのアプローチでは、この制御信号は単に送出されず、ＥＦが進行するのを効果的に阻止する。静止リクエストが関係する構成要素によって受信された場合、プロデューサは、該制御信号を受信しない。関係する構成要素は、スキュー・カウンタを使用して、すべてのコンシューマがプロデューサと同じＱＢに到達するのを待つ。スキュー・カウンタがゼロに達すると、関係する構成要素は、ＥＦが静止可能であることを示す信号を生成する。

構成可能ユニットのアレイでは、データ処理動作の複数の実行フラグメントを規定することによって、データ処理動作を実施することができる。ＥＦはプログラムに適合するように、固定または可変量の作業から構成されてもよい。同様に、異なるＥＦは、異なる量の計算を含むことができる。ＥＦは、並列パターン、並列パターンの部分、または、プログラムの制御及び、データ・フロー・グラフ内の動作の任意の他のサブセットを表すことができる。

データ処理動作の全部または一部は、ＥＦのセットに分割することができる。構成可能ユニットのアレイは、データ処理動作の実行フラグメントを実施するために、アレイ内に複数のメンバを有する処理ユニットのセットを含むＥＦＲＧを割り当てるように、構成ファイルを使用して構成可能である。多くのＥＦＲＧ及び、構成可能ユニットの対応するセットを、それぞれの実行フラグメントに割り当てることができる。ＥＦは、入力のプロデューサのセットから入力データを受け取る入力を有する。入力のプロデューサのセットは、１または複数のプロデューサを含むことができる。ＥＦは、入力データを消費し、結果を生成する、ＥＦに割り当てられた構成可能ユニットのセットの間に分配された機能要素を有する。１つのＥＦによって生成された結果は、異なるＥＦにおける入力として利用されてもよい。

アレイ内の構成可能ユニットに結合された静止ロジックは、制御信号に応答して、実行フラグメントの静止境界上で、特定の実行フラグメントに割り当てられたアレイ内のデータ処理ユニットのセットを静止させるように構成可能である。実行フラグメントは、特定の実施態様に応じて、１つの静止境界、または複数の静止境界を含むように構成することができる。

同期時には、ＥＦに割り当てられたＥＦＲＧ内の静止境界までの動作に対応するサイクルが完全に実行されるか、または全く実行されないかの何れかである。

処理ユニットのアレイは、アレイ内の全てのユニットがそれらが割り当てられるＥＦＲＧのためのＥＦ内の静止境界に達した後、静止したと考えることができ、特定の実施態様に対して、アレイ内の実行は安全な方法で停止することができる。

例えば、静止したＥＦＲＧまたは静止したアレイは、以下の特徴を有することができる：
１．新しい計算は実行されておらず、新しいトランザクションは作成されていない。
２．すべての関連する進行中のトランザクション（データ及び、制御ビット）が完了し、それらの宛先に到達している。
３．すべての関連するプログラム状態及び、中間データは、プログラム・アンロード動作中にアンロードすることができる構成可能な処理ユニット内の状態素子及び、メモリに格納される。

図１の例に示すように、再構成可能データ・プロセッサ１１０は、構成可能ユニット（処理ユニット）のアレイ１９０と、チェックポイント及び、復元動作、ブレークポイント動作、及び、他の動作で使用可能なアレイ静止コントローラ１９５とを含む。静止コントローラは、構成ロード／アンロード・コントローラを含むことができ、または構成ロード／アンロード・コントローラと結合することができ、構成ロード／アンロード・コントローラは、構成ロード・コントローラ及び、構成アンロード・コントローラの組合せを含むことができる。構成ロード・コントローラ及び、構成アンロード・コントローラは、別個のロジック及び、データ・パス・リソースを使用して実装されてもよく、または特定の実施形態に適合するように、共用のロジック及び、データ・パス・リソースを使用して実装されてもよい。

プロセッサ１１０は、ライン１２５によりホスト１２０に接続された外部Ｉ／Ｏインタフェース１３０と、ライン１４５によりメモリ１４０に接続された外部Ｉ／Ｏインタフェース１５０とを含む。Ｉ／Ｏインタフェース１３０，１５０は、バス・システム１１５を介して、構成可能ユニットのアレイ１９０に接続する。バス・システム１１５は、データの１つのチャンクを搬送するバス幅を有してもよく、本例ではバス幅は１２８ビットとすることができる（全体を通した１２８ビットへの言及は、より一般的にはチャンク・サイズの一例と見なすことができる）。

構成ファイルを用いて構成可能ユニットのアレイ１９０内の構成可能ユニットを構成するために、ホスト１２０は、再構成可能データ・プロセッサ１１０内のインタフェース１３０、バス・システム１１５、及びインタフェース１５０を介して、構成ファイルをメモリ１４０に送信することができる。構成ファイルは、再構成可能プロセッサ１１０外のデータパス内を含む特定のアーキテクチャに適するように、多くの方法でロードされ得る。構成ファイルは、メモリ・インタフェース１５０を介してメモリ１４０から検索することができる。次いで、構成ファイルのチャンクは、分配シーケンスで、再構成可能データ・プロセッサ１１０における構成可能ユニットのアレイ１９０内の構成可能ユニットに送信することができる。

外部クロック発生器１７０または他のクロック信号源は、構成可能ユニットのアレイ１９０、バス・システム１１５、及び外部データＩ／Ｏインタフェースを含む、再構成可能データ・プロセッサ１１０内の素子にクロック信号１７５またはクロック信号を供給することができる。

実行フラグメントの調整に使用可能な構成可能ユニット間に制御信号ルートを確立するように構成可能な静止制御ネットワークを含むことができる。静止制御ネットワークは、例えば、ＣＧＲＡプロセッサの構成可能ユニットを含む構成可能ユニットのアレイにおいて、複雑なデータ処理動作をサポートするのに適した信号ルーティングを提供するように、構成可能及び再構成可能なアーキテクチャにおいて構成可能である。

静止制御ネットワークは、構成データ・ストア内で定義することができるＣＧＲＡ上の幾つかの別個のソースからのインバウンド・トークン及びステータス信号を登録または記録する能力を提供し、インバウンド・トークン及びステータス信号の指定された組合せに基づいて、出力バリア・トークン及び他の信号を生成することができる。本明細書に記載される例は、バリア・ロジックを複数のレベルに分解することによって、任意の数のソースにわたる制御バリアをサポートするのに十分に柔軟である。

本明細書で説明する静止制御ネットワークは、より広いデータ処理動作のために連携を必要とすることがある実行フラグメントを実行する処理ユニットのアレイを含む他のタイプのデータ・プロセッサと共に利用することができる。

図１は、データ処理動作を実行するように構成可能な、再構成可能ユニットと相互接続とのアレイと、制御信号に応答してアレイを静止させるように構成可能な、アレイ内の再構成可能ユニットに結合された静止ロジックとを含む、処理システムを示す。制御信号は、アレイ内で発生する内部イベントに応答して生成され得る。制御信号は、アレイの外部で生じる外部イベントに応答して生成され得る。

図１に示すホストプロセッサは、マルチタスキングを用いてランタイム・プログラムを実行することができ、静止を引き起こす制御信号は、マルチタスキングをサポートして生成され得る。

図１に示すように、ホストプロセッサは、マルチタスキングを用いてランタイム・プログラムを実行することができ、静止を引き起こす制御信号は、チェックポインティングをサポートして生成され得る。

図１に示すように、ホストプロセッサはマルチタスキングを用いてランタイム・プログラムを実行でき、静止を引き起こす制御信号は、アレイ内部で発生したイベントに応答して生成され得て、ランタイム・プログラムは、マルチプログラミングをサポートして静止後にアレイを再構成できる。

図２は、構成可能ユニットのアレイを備えるタイルの簡略図であり、アレイ内の構成可能ユニットは、データ・バス・システム上のノードであり、データ・バス・システムは、複数タイルの実施態様におけるアレイ・レベル・ネットワークとして構成可能であり、タイル間の通信及びデバイス上の外部インターフェースとの通信のために構成された高位レベル・ネットワークまたはトップ・レベル・ネットワークと接続可能である（図９参照）。

この例では、構成可能ユニット２００のアレイが複数のタイプの構成可能処理ユニットを含む。この例における構成可能処理ユニットのタイプは、パターン計算ユニット（ＰＣＵ）、パターン・メモリ・ユニット（ＰＭＵ）、スイッチ・ユニット（Ｓ）、及びアドレス生成及び結合ユニット（ＡＧＣＵ）（それぞれ２つのアドレス生成器ＡＧ及び共用ＣＵを含む）を含む。これらのタイプの構成可能ユニットの機能の例については、「Prabhakar et al., "Plasticine: A Reconfigurable Architecture For Parallel Patterns", ISCA '17, June 24-28, 2017, Toronto, ON, Canada」を参照されたく、また、上記文献は本明細書に完全に記載されているかのように参照により組み込まれる。図２に示すアーキテクチャでは、マスタＡＧＣＵ２５０が、タイル内の構成可能ユニットのアレイのための静止動作を制御するアレイ静止コントローラ２５１を含む。

タイルの構成によって実施されるデータ処理動作（「マシン」と呼ばれることもある）は、構成可能ユニット（この例ではＡＧ、ＣＵ、ＰＭＵ、ＰＣＵ）の対応するセット間で分散され、該セットによって実行されるデータ処理動作の複数の実行フラグメントを含む。

静止処理に参加するアレイの構成要素は、ＥＦ静止境界におけるマスタＡＧＣＵ２５０（ＭＡＧＣＵ）内のアレイ静止コントローラ２５１からの静止リクエストに従う。以下で説明する例では、各ＥＦ静止境界におけるプロデューサとコンシューマとの間の同期が、制御バリア・ネットワークを使用して構成可能ユニットにリンクすることができるプロデューサ・バリア（ｐ＿ｂａｒｒｉｅｒ）及び、コンシューマ・バリア（ｃ＿ｂａｒｒｉｅｒ）という２つの構成を使用して達成される。アレイ内の静止ロジックは、制御バリア・ネットワークの構成、別個の専用ロジック及び、通信リンク、または制御バリア・ネットワークと専用ロジック及び、リンクの組合せによって実現することができる。

静止制御ネットワークとして使用可能な制御バリア・ネットワークは、この例では、アレイ内の構成可能ユニットに結合された複数の構成可能静止ロジック・ユニット（バリア・ロジック・ユニットを含む）を備える。この例では、複数の静止ロジック・ユニットが、アドレス発生器ＡＧ内の、または、アドレス発生器ＡＧと動作可能に結合したロジック・ユニット（例えば、２０１）、ＰＭＵ内のロジック・ユニット（例えば、２０２）、及び、ＰＣＵ内のロジック・ユニット（例えば、２０３）を含む。所与のデータ処理動作のための制御バリア・ネットワークは、実行フラグメント間の関係を強制し、タイルにわたって分散された実行フラグメントの遂行の終了及び、開始のタイミングを調整し、本明細書で説明する静止処理をサポートするように構成することができる。

静止ロジック・ユニットは、この例では、構成可能な相互接続（図示せず、図３参照）を使用して実施される制御バスに接続される。制御バスは、構成データを使用して、それぞれの実行フラグメントに割り当てられた構成可能ユニットの複数のセットを含む、データ処理動作を実行するように設計されたタイルの特定の構成をサポートするタイル内の静止／バリア・ロジック・ユニット間の信号経路を形成するように、構成することができる。

これらの構成可能ユニットのそれぞれは、それが割り当てられた実行フラグメントを実行するためのセットアップまたはシーケンスの何れかを表す構成データを格納するレジスタまたはフリップフロップのセットを含む構成ストアを含み、ネスト化されたループの数、各ループ・イテレータの限界、各ステージに対して実行される命令、オペランドのソース、及び、入力及び出力インタフェースのネットワーク・パラメータを含むことができる。構成データには、さまざまな実行フラグメントにおいて静止境界を規定するデータを含めることもできる。

更に、これらの構成可能ユニットのそれぞれは、ネスト化されたループまたは他のものにおける進行を追跡するために使用可能な状態を記憶するレジスタまたはフリップフロップのセットを備える構成ストアを含む。構成ファイルは、プログラムを実行する各構成要素の初期構成または開始状態を表すビットストリームを含む。このビットストリームは、ビットファイルと呼ばれる。

バス・システムは、アレイ内の構成可能ユニットを相互接続するリンクを含む。アレイ・レベル・ネットワーク内のリンクは、１以上の物理バスを含み、この場合では、チャンクレベル・ベクトル・バス（例えば、１２８ビットのデータ）、ワードレベル・スカラバス（例えば、３２ビットのデータ）の２種類の物理データ・バスを含む。例えば、スイッチ・ユニット２１１と２１２との間の相互接続２２１は、１２８ビットのベクトル・バス幅を有するベクトル・バス相互接続と、３２ビットのスカラ・バス幅を有するスカラ・バス相互接続とを含む。また、構成可能相互接続、或いは専用相互接続と構成可能相互接続の組みあわせを備えることができる制御バス（図３参照）が含まれ、タイルの構成ファイル内の構成ビットによって指定される信号ルート上の複数の制御ビットを搬送する。幾つかの実施形態では、制御バスは、データ・バスとは別個の物理ラインを備えることができる。他の実施形態では、制御バスは、別個のプロトコルを有する同じ物理ラインを使用して、または、時分割手順で実装することができ、且つ、データ・バスを備えた共用ハードウェア上で実行する仮想バスとして実装することができる。

バスは、転送されるデータの粒度が異なる。一実施形態では、ベクトル・バスがそのペイロードとして１６バイト（＝１２８ビット）のデータを含むチャンクを搬送することができる。スカラ・バスは３２ビットのペイロードを持つことができ、スカラ・オペランドまたは制御情報を搬送することができる。制御バスは、トークン及び他の信号等の制御ハンドシェイクを搬送することができる。ベクトル・バスとスカラ・バスはパケット交換が可能であり、各パケットの宛先を示すヘッダと、パケットが順不同で受信されたときにファイルを再構成するために使用できるシーケンス番号等のその他の情報を含む。各パケットヘッダには、宛先スイッチ・ユニットの地理的座標（例：アレイ内の行と列）を識別する宛先識別子と、宛先ユニットに到達するために使用される宛先スイッチ上のインタフェースを識別するインタフェース識別子（例：北、南、東、西等）を含めることができる。制御ネットワークは、例えば、デバイス内のタイミング回路に基づいて回路を切り替えることができる。構成ロード／アンロード・コントローラは、１２８ビットの構成データのチャンクごとにヘッダを生成できる。ヘッダは、ヘッダバス上で、構成可能ユニットのアレイ内の各構成可能ユニットに送信される。

一例では、１２８ビットのデータのチャンクが構成可能ユニットへのベクトル入力としてチャンクを提供するベクトル・バス上で送信される。ベクトル・バスには、１２８本のペイロードラインと、一組のヘッダラインを含めることができる。ヘッダには、チャンクごとに、シーケンスＩＤを含めることができ、それは、以下を含み得る：
・チャンクがスクラッチパッド・メモリか構成ストアデータかを示すビット。
・チャンク番号を形成するビット。
・列識別子を示すビット。
・行識別子を示すビット。
・構成要素識別子を示すビット。

ロード動作の場合、構成ロード・コントローラは、Ｎ－１から０までの順序で、Ｎ個のチャンクを構成可能ユニットに送信することができる。この例では、６つのチャンクが、チャンク５－＞チャンク４－＞チャンク３－＞チャンク２－＞チャンク１－＞チャンク０の最上位ビット・ファーストの順序で送信される（この最上位ビット・ファーストの順序は、チャンク５がアレイ構成ロード・コントローラからの分配シーケンスのラウンド０に分配されることに注意する）。アンロード動作の場合、構成アンロード・コントローラは、静止した構成可能ユニット内の構成データ、状態レジスタ・データ、及び、作業メモリの１つ以上を順にメモリに書き出すことができる。ロード動作及びアンロード動作の両方について、構成可能ユニット内の構成データ・ストア内の構成シリアル・チェーン内のシフトは、ＬＳＢ(最下位ビット）からＭＳＢ(最上位ビット）へ、またはＭＳＢアウト・ファーストである。

図２Ａは、アレイ・レベル・ネットワーク内の素子を接続する例示的なスイッチ・ユニットを示す。図２Ａの例に示すように、スイッチ・ユニットは、８つのインタフェースを有することができる。スイッチ・ユニットの北、南、東、及び西インタフェースは、スイッチ・ユニット間の接続に使用される。スイッチ・ユニットの北東、南東、北西、及び南西インタフェースはそれぞれ、ＰＣＵまたはＰＭＵインスタンスへの接続を行うために使用される。各タイル象限内の２つのスイッチ・ユニットは、複数のアドレス生成（ＡＧ）ユニットと、複数のアドレス生成ユニットに接続された結合ユニット（ＣＵ）とを含むアドレス生成ユニット及び結合ユニット（ＡＧＣＵ）への接続を有する。結合ユニット（ＣＵ）はＡＧ間を調停し、メモリ・リクエストを処理する。スイッチ・ユニットの８つのインタフェースのそれぞれは、ベクトル・インタフェース、スカラ・インタフェース、及び、ベクトル・ネットワーク、スカラ・ネットワーク、及び制御ネットワークと通信するための制御インタフェースを含むことができる。

構成後のマシンの実行フラグメントの実行中に、データは、アレイ・レベル・ネットワーク上の１以上のスイッチ・ユニットのベクトル・バス及びベクトル・インタフェースを使用して、１以上のユニットスイッチ及びユニットスイッチ間の１以上のリンクを介して構成可能ユニットに送信することができる。

一実施形態では、構成可能ユニットは、構成ロード処理でロードされるか、または構成アンロード処理でアンロードされるユニット構成ファイルを保持する構成レジスタ及びステータス・レジスタを含む。レジスタは、シリアル・チェーンで接続でき、シリアル・チェーンを介してビットをシフトする処理を通じてロードできる。幾つかの実施形態では、並列または直列に配置された２以上のシリアル・チェーンがあってもよい。構成可能ユニットが、例えば、１つのバス・サイクルで１２８ビットの構成データを受信すると、構成可能ユニットは、このデータを、１サイクル当たり１ビットのレートで、そのシリアル・チェーンを介してシフトする。ここで、シフト・サイクルは、バス・サイクルと同じレートで実行することができる。構成可能ユニットが、ベクトル・インタフェースを介して受信された１２８ビットのデータを有する１２８の構成ビットをロードするのに、１２８シフト・サイクルを要する。

タイルの構成前に、構成ファイルまたはビットファイルを、同じベクトル・バスを使用して、アレイ・レベル・ネットワーク上の１以上のスイッチ・ユニットのベクトル・バス及びベクトル・インタフェースを使用して、１以上のユニットスイッチと、ユニットスイッチ間の１以上のリンクとを介して、構成可能ユニットに送信することができる。例えば、構成可能ユニットＰＭＵ２４１に特有のユニットファイル内の構成データのチャンクは、ＰＭＵ２４１に、アドレス生成ＡＧ内のロード・コントローラとスイッチ・ユニット２１１の西（Ｗ）ベクトル・インタフェースとの間のリンク２２０、及びスイッチ・ユニット２１１の南東（ＳＥ）ベクトル・インタフェースとＰＭＵ２４１との間のリンク２３１を介して、送信することができる。制御バリア・ネットワークのための構成データは、関連する構成可能ユニットのための構成データに含めることができ、または他の構成データ構造を介して提供することができる。

構成可能ユニットは、複数のメモリ・インタフェースを介してメモリとインタフェースする。メモリ・インタフェースのそれぞれには、幾つかのＡＧＣＵを使用してアクセスできる。各ＡＧＣＵは、オフチップ・メモリのリクエストを生成するための再構成可能スカラ・データパスを含む。各ＡＧＣＵには、送信するコマンド、データ、及び、オフチップ・メモリからの受信応答をバッファするためのＦＩＦＯ（データを編成するための先入先出バッファ）が含まれている。

構成ファイルは、構成可能ユニット内の実行フラグメント、相互接続構成、及び制御バリア・ネットワーク構成を含む特定のデータ処理動作の目的のために、ＥＦＲＧ、静止／バリア・ロジック・ユニット及び制御バスを含むタイルの構成を指定するためにロードすることができる。構成ファイルのロード及びアンロードを調整するための技術は、シャア他による、２０１８年１１月２１日出願の米国特許出願第１６／１９７，８２６号「再構成可能データ・プロセッサの構成ロード」に記載されており、当該出願は、参照により本明細書に完全に組み込まれる。

図３は、データ・ネットワークが除去されたタイルの一部（図２の右上の部分）を示し、静止／バリア・ロジック・ユニット間の信号ルートを形成するために使用可能な構成可能相互接続を含む制御バスの一部を示す。アレイの図示された部分における複数の構成可能なユニットは、スイッチＳ（例えば、３５０）、ＰＭＵ（例えば、３５１）、ＰＣＵ（例えば、３５２）、ＡＧ（３５４）及びＣＵ（３５５）を含む。静止／バリア・ロジック・ユニット（例えば、３７０）は、アレイ内の構成可能ユニットに含まれる。この例では、スイッチＳ及び結合ユニットＣＵを除くすべての構成可能ユニットが静止／バリア・ロジック・ユニットを含む。他の例では、静止／バリア・ロジック・ユニットがアレイ内の２以上の構成可能ユニットに接続される例、及び制御バリア・ロジック・ユニットがすべての構成可能ユニットに接続される例（例えば、図示の例ではＳ型及びＣＵ型ユニットを含む）を含む、制御バリア・ロジック・ユニットの様々な分配を利用することができる。静止／バリア・ロジック・ユニットは、制御信号及びトークンの交換のために接続されているか、または、構成可能ユニットが割り当てられる実行フラグメントの動作中に構成ファイルによって構成可能ユニットにそのように接続されるように構成可能である場合、アレイ内の構成可能ユニットに関連付けられる。

構成可能相互接続は、水平導体（例えば、３６１）が交差する垂直導体（例えば、３６０）のグリッドによって示される。スイッチボックス（例えば、３６２）は、各交差部で垂直導体と水平導体内の特定の線または線の組を相互接続するように構成データによって設定される。同様に、構成可能ユニットの各々は、水平及び垂直導体内の特定のラインに接続するように構成することができる構成可能相互接続を使用してルーティングされる制御信号のための入力及び出力（図示せず）を含むことができる。

この実施形態では、静止／バリア・ロジック・ユニット（例えば、３７０）のそれぞれは、相互接続の水平導体内の特定のラインへの接続のために構成可能である複数の入力及び出力（例えば、３７１）を含む。図では、構成可能相互接続内の静止／バリア・ロジック・ユニット間の接続が、構成可能相互接続内の水平導体で行われる。この図は、構成可能相互接続、及び静止／バリア・ロジック・ユニット内の制御ネットワーク或いは静止／バリア・ロジック・ユニットと関連している制御ネットワークを用いて作成できる構成可能な接続の実施態様及び分配について、如何なる限定も示唆していない。

構成可能なスイッチは、一般に、静止／バリア・ロジック・ユニットのための構成ファイルのビットを記憶するレジスタに接続された制御入力を有するパス・ゲートを使用して実施することができる。幾つかの実施形態では、構成が、静止と他の特定データ処理動作をサポートするために実装された制御バリア・ネットワークを確立し、データ処理動作をサポートするタイルの構成可能ユニット間に分散される実行フラグメントの制御をサポートするために、静止／バリア・ロジック・ユニットの入出力間におけるデータ処理動作、或いは実行フラグメントの実行を通して持続的な静的ルートを形成する。他の実施形態では、構成が、プログラムの実行フェーズに従って、または、制御フロー述部（ｉｆ－ｔｈｅｎ－ｅｌｓｅ構成）の結果として、または実行フラグメントの制御フロー依存シーケンスを表す他の動的入力依存動作の結果として、変化する動的ルートを形成することができる。

構成可能ユニットのセットを規定する１または複数の構成可能ユニットを含むＥＦＲＧに、実行フラグメントを割り当てることができ、該セットは、タイル全体に空間的に分散された多数のメンバを有することができる。空間的な分散は、バリアント待ち時間、各ユニットにおけるバリアント・ジョブ、バリアント依存性等のために、ＥＦＲＧ内のユニット間の非同期動作という結果になり得る。

例えば、実行フラグメントは、１または複数のＰＭＵ及び１または複数のＰＣＵを含む構成可能ユニットのセット（例えば、３８０）に割り当てることができる。また、実行フラグメントは、１または複数のＡＧまたはＡＧＣＵ、１または複数のＰＭＵ及び、１または複数のＰＣＵを含む構成可能ユニットのセットに割り当てることができる。構成可能ユニットのセット内の構成可能ユニットのうち、幾つかのユニットは入力のプロデューサとして構成され、他のユニットはコンシューマとして構成される。例えば、実行フラグメントに割り当てられた構成可能ユニットの１つのセットは、コンシューマとして作用する１つのＰＣＵに入力を提供するプロデューサとして作用する２つのＰＭＵを含むことができ、その出力は、第３のＰＭＵまたはＰＣＵ上のメモリに格納することができる。静止ロジック及び、制御バリア・ネットワークは、静止のために、特定の実行フラグメントに割り当てられた各セット内の構成可能ユニットをリンクするように構成することができる。

図４は、パターン計算ユニット（ＰＣＵ）等の例示的な構成可能ユニット４００を示すブロック図である。構成可能ユニットのアレイ内の構成可能ユニットは、対応する構成可能ユニットと関連する静止／バリア・ロジック・ユニット４７５に特有の構成データの複数のチャンク（または他のサイズのサブファイル）を含むユニットファイルを格納するための構成データ・ストア４２０（例えば、シリアル・チェーン）を含む。構成可能ユニットのアレイ内の構成可能ユニットはそれぞれ、ユニット構成ロード処理を実行するために、ライン４２２を介して構成データ・ストア４２０に接続されたユニット構成ロード／アンロード・ロジック４４０を含む。ユニット構成ロード処理は、バス・システム（例えば、ベクトル入力）を介して、構成可能ユニットに特有のユニットファイルのチャンクを受信することと、受信したチャンクを構成可能ユニットの構成データ・ストア４２０にロードすることとを含む。ユニット構成ロード処理は、図５を参照して更に説明される。

この例での複数の構成可能ユニット内の構成可能ユニットにおける構成データ・ストア４２０は、ラッチのシリアル・チェーンを備え、ラッチは構成可能ユニット内のリソースの構成を制御するビットを格納する。構成データ・ストアのシリアル・チェーンには、構成データ用のシフト・レジスタ・チェーンと、直列に接続された状態情報及びカウンタ値用の第２のシフト・レジスタ・チェーンを含めることができる。

構成可能ユニットは、スカラ入力／出力、ベクトル入力／出力、及び制御入力／出力の３つの対応する入力及び出力（Ｉ／Ｏ）のセットを使用して、スカラ・バス、ベクトル・バス、及び制御バスとインタフェースすることができる。スカラＩ／Ｏは、データの単一ワード（３２ビット等）の通信に使用できる。ベクトルＩ／Ｏは、ユニット構成ロード処理において構成データを受信し、構成後の動作中に複数のＰＣＵ間の長いパイプラインを介してデータを送受信するような場合に、データのチャンク（例えば、１２８ビット）を通信するために使用することができる。制御Ｉ／Ｏを使用して、構成可能ユニットの実行の開始または終了等の制御信号を通信することができる。制御入力は制御ブロック４７０によって受信され、制御出力は制御ブロック４７０によって供給される。

各ベクトル入力は、１以上のベクトルＦＩＦＯを含むことのできるベクトルＦＩＦＯブロック４６０内のベクトルＦＩＦＯを使用してバッファリングされる。各スカラ入力は、スカラＦＩＦＯ４５０を使用してバッファリングされる。入力ＦＩＦＯを使用することで、データのプロデューサとコンシューマ間のタイミングを切り離し、入力遅延不整合に対してロバストにすることによって、構成可能ユニット間の制御ロジックを単純化する。

入力構成データ４１０は、ベクトル入力としてベクトルＦＩＦＯに供給され、次いで構成データ・ストア４２０に転送される。出力構成データ４３０は、ベクトル出力を使用して構成データ・ストア４２０からアンロードすることができる。

アレイは、ロード／アンロード・コマンドが完了した時を示すためと、以下に説明する静止準備信号を通信するためにデイジー・チェーン接続された完了／静止準備バスを使用する。マスタＡＧＣＵは、デイジー・チェーン接続されたコマンド・バスを介して、構成可能ユニットのアレイ内の構成可能ユニットにプログラム・ロード及びアンロード・コマンドと静止を送信する（図１０のＳ０からＳ１への遷移）。図４の例に示すように、デイジー・チェーン接続された完了／静止準備バス４９１及びデイジー・チェーン接続されたコマンド・バス４９２がデイジー・チェーン・ロジック４９３に接続されており、これはユニット構成ロード／アンロード・ロジック４４０と通信する。デイジー・チェーン・ロジック４９３は、以下に説明するように、ロード／アンロード完了、及び、静止準備状態ロジックを含むことができる。デイジー・チェーン接続された完了バスについては、以下で更に説明する。コマンド・バス及び完了／静止準備バスの他のトポロジも明らかに可能であるが、ここでは説明しない。

本例での構成可能ユニットは、ブロック４８０内に複数の再構成可能データパスを含む。構成可能ユニット内のデータパスは、マルチステージ（ステージ１・・・ステージＮ）、再構成可能ＳＩＭＤ（単一命令、マルチデータ）パイプラインとして編成することができる。構成可能ユニットの構成シリアル・チェーンにプッシュされるデータのチャンクには、構成可能ユニットの各データパスの各ステージの構成データが含まれる。構成データ・ストア４２０内の構成シリアル・チェーンは、ライン４２１を介してブロック４８０内の複数のデータパスに接続される。

図示された例におけるＰＣＵは、データ処理動作の実行フラグメントの部分を実行するように設計され、データ処理動作はアプリケーションにおける単一の最も内側の並列パターン、または静止及び制御バリア・ネットワークを使用する制御に適した他のパターンを備えることができる。ＰＣＵデータパスは、マルチステージ再構成可能ＳＩＭＤパイプラインとして編成することができる。この設計は、各ＰＣＵが高い計算密度を達成することを可能にし、レーンにわたるループレベル並列性とステージにわたるパイプライン並列性の両方を利用する。各ＳＩＭＤレーンの各ステージ（ステージ１・・・ステージＮ）は、機能ユニット（ＦＵ）及び関連するパイプライン・レジスタで構成することができる。ＦＵは、例えば、浮動小数点演算や整数演算のサポートを含み、３２ビットワードレベルの算術演算やバイナリ演算を実行可能である。単一のパイプライン・ステージ内のＦＵは、ＳＩＭＤで動作するので、各ステージは、例示的な実施形態では単一の構成レジスタのみを必要とする。各ＦＵからの結果は、その関連するレジスタに書き込まれる。

各レーンのパイプライン・レジスタは、同じレーン内のステージ間でライブ値が伝播することを可能にするために、パイプライン・ステージにわたって一緒に連鎖することができる。ＦＵ間のクロス・レーン通信は、２つのタイプのＰＣＵ内ネットワークを使用して捕捉することができる。これらは、複数のレーンからの値を単一のスカラに低減することを可能にする縮小ツリーネットワークと、ステンシル・アプリケーションでの再利用を活用するために、ステージにわたるスライディング・ウィンドウとしてＰＲを使用することを可能にするシフト・ネットワークである。どちらのネットワークも、ハードウェアのオーバーヘッドを最小限に抑えるために、ＰＲ内で専用レジスタを使用する。

各ベクトルＩ／Ｏ（例えば、ベクトルＦＩＦＯ４６０）は、ＰＣＵ内のレーン当たり１ワードの通信を可能にし、ＰＭＵ内のスクラッチパッドへの読取り及び書込み、及び複数のＰＣＵ間の長いパイプラインを介した中間データの伝送等の場合に使用される。入力ＦＩＦＯを使用することは、データのプロデューサとコンシューマとを切り離し、入力遅延不整合に対してロバストにすることによってＰＣＵ間制御ロジックを単純化する。ＦＩＦＯ４５０、４６０は、制御ブロック４７０及びユニット内の他の回路に接続され、必要な入力データがＦＩＦＯ内で利用可能であるかどうか等、実行フラグメントの状態を示すために使用可能な、ＦＩＦＯ空信号またはＦＩＦＯ非空信号等のステータス信号を生成することができる。

制御Ｉ／Ｏ（制御入力、制御出力）は、制御ブロック４７０に接続され、ＰＣＵの実行の開始または終了等の制御信号を通信するために、または背圧を示すために使用される。

カウンタ４７１の再構成可能チェーンは、実行フラグメントの状態を示すために使用することができ、構成可能ユニットの要素間の実行を調整するために使用することができるパターン反復インデックスとステータス信号及び制御信号を生成する。カウンタ・チェーン４７１は、例えば、ループまたは幾つかの反復数を含むループ内の反復等の実行フラグメントのサイクル数、静止境界、及び、実行フラグメント内のループが完了したかどうか（ループの全サイクルが実行された）等の実行フラグメントの状態を示すために使用することができるカウンタ完了信号を生成することができる。

ＰＣＵ内の実行フラグメントの実行は、制御ブロック４７０がカウンタの内の１つをイネーブルにするときに有効にできる。アプリケーションの制御及びデータ依存性に基づいて、制御ブロックは、ＰＣＵ実行をトリガするために、ローカルＦＩＦＯ及びグローバル制御入力の両方からの複数のステータス信号を結合するように構成することができる。制御ブロック４７０は、ステート・マシンのための再構成可能な組合せ論理及びプログラミング可能なアップダウン・カウンタを使用して実装される。

静止／バリア・ロジック４７５は、構成可能ユニットのこの例に含まれる。静止／バリア・ロジック４７５は、制御ブロック４７０の一部であってもよいし、デバイス上の別個のブロックとして実装されてもよい。静止／バリア・ロジック４７５は、制御入力及び制御出力に連結される。また、静止／バリア・ロジック４７５は、制御ブロック４７０及びカウンタ・チェーン４７１に連結され、上述したように構成されたアレイ・ワイド静止ロジックと制御バリア・ネットワークをサポートしてステータス信号及び制御信号を交換する。

パターン・メモリ・ユニット（例えば、ＰＭＵ）は、ＰＣＵで使用されるバス・インタフェースと共に、アドレス計算と他のスカラ計算用の再構成可能スカラ・データパスに連結されたスクラッチパッド・メモリを含むことができる。ＰＭＵは、再構成可能ユニットのアレイ全体にオンチップメモリを分配するために使用することができる。一実施形態では、ＰＭＵ内のメモリ内のアドレス計算がＰＭＵデータパス上で実行され、コア計算がＰＣＵ内で実行される。ＰＭＵは、また、ＰＭＵの要素とステータス信号及び制御信号を交換するように構成された静止／バリア・ロジック・ユニットを含むことができ、静止のため、及び、ＰＭＵ内の実行フラグメントを有効にするために使用可能である。更に、この例におけるアドレス生成器ＡＧは、ＡＧの要素とステータス信号及び制御信号を交換するように構成された静止／バリア・ロジック・ユニットを含むことができ、静止のため、及び、ＡＧ内の実行フラグメントを有効にするために使用可能である。

図５は、本明細書で説明されるような構成可能な静止／バリア・ネットワークを形成するために構成可能ユニットのアレイにおいて使用可能な静止／バリア・ロジック・ユニットの一例を示す。図５のような複数のロジック・ユニットを使用して、アレイ内の構成可能ユニット内に、またはそれに関連して、制御バリア・ネットワークを再帰的に構築して、複雑なＥＦＲＧをサポートすることができる。図５の例は、例えば、図４の静止／バリア・ロジック４７５として使用可能であり、図５の静止／バリア・ロジック・ユニットは、制御バス（図３の構成可能相互接続）に接続される入力（例えば、５０１，５５１，５５７）及び出力（例えば、５０２，５６１）と、上述の例のＰＣＵ、ＰＭＵ、ＡＧ等の関連する構成可能ユニットとを含む。

静止／バリア・ロジック・ユニットは、この例では、複数のアップ／ダウン・カウンタＵＤＣ（例えば、５１０）を備えるトークン・ストアを含む。他の実施形態では、セット／リセットＳＲラッチ等の様々なタイプのラッチを使用して、トークン・ストアを実装することができる。更に他の実施形態では、ＦＩＦＯバッファの様々な実施態様を使用して、トークン・ストアを実装することができる。ＵＤＣの各々は、インクリメント入力（例えば、５１１）及びデクリメント入力（例えば、５１２）を有する。インクリメント入力を使用すると、ＵＤＣに格納されているロジック０をロジック１に変更すること、または換言すると、トークン・ストアに値を設定することができる。デクリメント入力を使用すると、ＵＤＣに格納されているロジック１をロジック０に変更すること、または換言すると、トークン・ストアの値をリセットすることができる。ＵＤＣは、１ビットカウンタとして構成することも、複数ビットカウンタとして構成することもできる。

トークン・ストアは、この例では複数の構成可能クロスバー・スイッチを含む構成可能入力回路に連結される。構成可能入力回路のステータス・クロスバー５５０は、アレイ内の構成可能ユニット内の実行フラグメントの状態を示すために使用可能な信号に接続された入力５５１を有する。この例では、ステータス信号は、実行フラグメントの状態を示すために使用することができる、関連する構成可能ユニット内の複数のカウンタからの静止境界カウンタ完了信号を含むことができる。ステータス・クロスバー５５０は、インクリメント・クロスバー５３０及びデクリメント・クロスバー５４０に接続可能な出力５５２，５５３を含む。

構成可能入力回路のインクリメント・クロスバー５３０は、トークン・ストア内のＵＤＣの各々にインクリメント信号を供給し、制御バスの構成可能相互接続に接続された入力５５７と、ステータス・クロスバー５５０の出力に接続された入力とを有する。従って、各ＵＤＣは、ステータス・クロスバー５５０及び構成可能相互接続の入力５５７からの出力の構成可能な選択に基づくインクリメント信号を有する。インクリメント・クロスバーは、また、後述するように、バリア・ロジック５２０によって生成されたライン５５２上のバリア・トークンを受信するように接続された入力を有する。

構成可能入力回路のデクリメント・クロスバー５４０は、トークン・ストア内の各ＵＤＣにデクリメント信号を供給し、制御バスの構成可能相互接続に接続された入力５５８（または複数の入力）と、ステータス・クロスバー５５０の出力５５２，５５３に接続された入力とを有する。従って、各ＵＤＣは、ステータス・クロスバー５５０及び構成可能相互接続の入力５５８からの出力の構成可能な選択に基づくデクリメント信号を有する。デクリメント・クロスバーは、また、後述するように、バリア・ロジック５２０によって生成されたライン５５２上のバリア・トークンを受信するように接続された入力を有する。

静止／バリア・ロジック・ユニットは、トークン・ストア内の信号と、関連する構成可能ロジック・ユニットからのステータス信号との構成可能な組合せに基づいて、関連する構成可能ロジック・ユニットへの接続のために、ライン５０２上にイネーブル信号を生成する構成可能イネーブル・マスク５０３を含むイネーブル・ロジック５００（ＡＮＤツリー）を含む。例えば、ライン５０２上のイネーブル信号は、実行フラグメントを開始及び停止するためにライン５０２上のイネーブル信号を利用するＰＣＵのための制御信号を生成するロジックを含み得る、図４の制御ブロック４７０に供給することができる。イネーブル・ロジック５００への入力は、ＦＩＦＯ非空信号等の、関連する構成可能ユニットからのライン５０１上のステータス信号を含む。また、イネーブル・ロジック５００への入力は、トークン・ストアの出力（例えば、５１３）を含むことができる。従って、ライン５０２上のイネーブル信号は、トークン・ストアの出力の構成可能な組合せに基づいて生成することができる。また、ライン５０２上のイネーブル信号は、トークン・ストアの出力と、関連する構成可能ユニットからのステータス信号との構成可能な組合せに基づいて生成することができる。

静止／バリア・ロジック・ユニットは、トークン・ストアに記憶されたライン５１３上の信号の構成可能な組合せに基づいてライン５２２上にバリア・トークンを生成する構成可能なバリア・マスク５２１を含むバリアトークン・ロジック５２０を含む。ライン５２２上のバリア・トークンは、例えば、トークン・ストアをリセットするために使用可能な、デクリメント・クロスバー５４０へのフィードバック信号としてフィードバックされる。また、ライン５２２上のバリア・トークンは、この例では、インクリメント・クロスバー５３０への入力として利用され、トークン・ストアに値を設定するための条件として使用可能である。バリア・トークンは、構成ファイルに従って、プロデューサ・バリア（ｐ＿ｂａｒｒｉｅｒ）トークンまたはコンシューマ・バリア（ｃ＿ｂａｒｒｉｅｒ）トークンとして作用し得る。

静止／バリア・ロジック・ユニットは、出力クロスバー５６０を含む。この例における出力クロスバーへの入力は、ライン５２２上のバリア・トークンと、ＰバリアまたはＣバリアと、ステータス・クロスバー５５０によって出力されるステータス信号とを含む。他の入力は、他の実施態様と同様に、出力クロスバー５６０に提供することができる。出力クロスバーは、ライン５２２からのバリア・トークン及び他の信号を、構成可能相互接続上の選択されたライン５６１に印加するように構成可能である。構成可能相互接続上の選択されたライン５６１は、構成可能ロジック・アレイの制御バリア・ネットワーク内の別の静止／バリア・ロジック・ユニットの入力（例えば、入力５５７）として、バリア・トークンを供給する信号ルート内に構成され得る。構成可能相互接続上の選択されたライン５６１は、構成可能ロジック・アレイの制御バリア・ネットワーク内の別の静止／バリア・ロジック・ユニットの入力（例えば、入力５５７）として、構成可能ユニットの１つからステータス信号（例えば、信号５５２，５５３）を供給する信号ルート内に構成され得る。

図５のような静止／バリア・ロジック・ユニットを利用すると、バリア動作は以下のように動作する。各ユニットは、ＵＤＣをインクリメントできる全ての信号にわたるバリアを実装するように構成することができる。これは、関連する構成可能ユニットの外部から供給される制御バスからの外部制御入力と、関連する構成可能ユニットの内部から供給されるカウンタ完了信号のような内部ステータス信号とを含む。これらの信号のサブセットにわたるバリアを実施するために、構成ファイルは、サブセット内の各信号についてトークン・ストア内に１つのゼロ初期化ＵＤＣを確保する。クロスバーは、必要な信号を、インクリメント・クロスバー５３０を介して入力をインクリメントするそれらの各ＵＤＣにルーティングするように構成されている。次に、バリア・マスクが、確保されたＵＤＣを選択するように構成される。マスクは、ＡＮＤツリーに関係するＵＤＣを選択する。ＡＮＤツリーの出力は、１ビットのバリア・トークンで、例えば、マスク内のすべてのＵＤＣの値がゼロより大きい場合にハイになる。バリア・トークンは、デクリメント・クロスバー５４０においてライン５２２を選択することにより、バリアに関係しているすべてのＵＤＣをデクリメントするように構成することができる。これは、バリア信号が入力トークンのすべてのセットに対して１サイクルだけハイであり、従って、１つの出力トークンを生成することを保証するために使用することができる。他の実施形態では、その目的のために異なる信号を使用することができる。また、バリア・トークンは、すべてのビットではなく、トークン・ストア内の１ビットのみ、または一部のビットのみをリセットするために使用することができる。結果として生成されたバリア・トークンは、「出力」クロスバー５６０をプログラミングすることによって、制御出力上に送出される。次いで、このトークンは、プログラムによって必要とされるように、例えば、次の計算ステージへの入力、または、次のバリア・ノードへの入力等に使用することができる。場合によっては、バリア・トークンもローカルにノードに送信する必要がある。この使用事例を促進するために、バリア・トークンは、他のＵＤＣをインクリメントできるインクリメント・クロスバー５３０への入口でもある。この構成では、バリア・トークンは、トークン・ストアをリセットする目的で使用される。

これは、リソースをより良く利用するためにバリア・トークンのコンシューマに近いバリアを実装するソフトウェアに最大限の柔軟性を提供する。

構成可能ユニットのアレイ内の複数のソースからの制御トークンは、しばしば、バリアで同期される必要があり、そこでは、単一のトークン（制御パルス）が各ソースから１つのトークンを受信した後に生成され、再帰的で階層的な制御ネットワークを可能にする。

図６は、アレイ内の構成可能ユニット（またはより一般的には処理ユニット）のうちの１つの一部であり得るか、または、論理的シグナリングの意味で、それに関連し得る静止ロジックを示す。一例では、静止ロジックが、図４に示されるバリア・ロジック、制御コマンド・デイジー・チェーン、及び、完了／静止デイジー・チェーン回路に結合される。図６に示される静止ロジックは、スキュー・カウンタを含む。スキュー・カウンタは、プロデューサとコンシューマとの間のループ反復スキューまたは静止境界スキューを追跡するために使用される専用カウンタとすることができる。深いパイプラインを有するループでは、またはプロデューサとコンシューマが物理的に離れているとき、プロデューサはコンシューマより先に実行または作動し、スキューを生成する可能性がある。

複数の構成可能ユニットを含むＥＦＲＧでは、ＱＢがＥＦＲＧ内の構成可能ユニットの幾つかの間で分散された構成可能状態等のイベントの組合せによって規定され得る。所与の実施態様では、ＥＦＲＧの構成可能ユニットの幾つかをプロデューサとして構成でき、幾つかをコンシューマとして構成できる。実行フラグメントのＱＢは、ＥＦＲＧ内のプロデューサにおける異なるイベントの関数であるイベントを含むことができる。ＥＦＲＧ内のコンシューマは非同期に動作し、プロデューサによって提供される信号及び、データに応答するか、またはそれを使用することができる。コンシューマにおけるイベントは、プロデューサからの信号またはデータの消費を信号で送信する。

図６では、ＱＢに対するプロデューサにおけるイベントを示す信号がＰ＿ＱＢ＿ｘで示され、ここで、ｘはイベント信号のソースの指示子であり、図示された例では０からＮに進む。Ｐ＿ＱＢ＿ｘ信号は、図７に示すように生成できる。この例では、Ｐ＿ＱＢ＿ｘ信号の構成可能な組合せを使用して、ＥＦＲＧ内のＱＢの検出を示す信号ＥＦ＿ＱＢを生成し、静止制御信号と組み合わせて信号を生成する。したがって、静止ロジックは、ＥＦＲＧ内の少なくとも１つの処理ユニット内のループ・カウンタに応答して、静止境界を検出する。信号Ｃ＿ＢＡＲＲＩＥＲは、以下の図８によって示されるように、Ｃ＿ＱＢ＿ｘで示されるＱＢに対するコンシューマにおけるイベントの組合せに基づいて、ＥＦＲＧ内のコンシューマに関連付けられた静止／バリア・ロジックにおいて生成される。ここで、ｘはイベント信号のソースの指示子であり、図示の例では０からＭに進む。Ｍ及びＮは、ＥＦＲＧの特定の構成に応じて、同じであっても異なっていてもよい。

Ｐ＿ＢＡＲＲＩＥＲ信号は、この実施態様では、ＥＦＲＧ中のプロデューサがＱＢを超えて継続することを可能にするために使用される。該信号がアサートされていない場合、プロデューサはＱＢを超えて進むことができない。コンシューマは、プロデューサが次のＱＢを開始する前に、所与のＱＢに対して完了することができず、ＥＦＲＧ内にスキューの可能性を生じさせる。

基本動作では、図６のスキュー・カウンタがＰ＿ＢＡＲＲＩＥＲ信号によってインクリメントされ、Ｃ＿ＢＡＲＲＩＥＲ信号によってデクリメントされる。したがって、スキュー・カウンタは、ＥＦＲＧのプロデューサとコンシューマとの間の静止境界（Ｐ＿ＢＡＲＲＩＥＲによって表される）の数を追跡する。スキュー・カウンタは、プロデューサからコンシューマへの進行中のデータ・パケットまたはトランザクションを検出するメカニズムとしても機能する。

図示されたロジックでは、アレイ内のマスタＡＧＣＵからのコマンドＡＧＣＵ＿ＣＭＤが、コマンド・デイジー・チェーンを介してデコーダ６０１に配信される。マスタＡＧＣＵは、実行時に外部プロセッサ上のホスト制御プログラムから受信した信号によって示されるように、アレイの外部で起った外部イベントに応答して、デイジー・チェーンを使用してこのコマンドを分配することができる。また、マスタＡＧＣＵは、アレイの現構成によって実施され、制御バス上、または、別の方法でマスタＡＧＣＵに配信されるマシンによって生成される信号等によって示されるような、アレイ内で発生する内部イベントに応答して、デイジー・チェーンを使用してこのコマンドを分配することができる。静止コマンドの場合、フリップフロップ６０２は、静止動作を開始するためにフラグＱ＿ＲＣＶを記憶するように設定される。このフラグは、例えば、マスタＡＧＣＵからの静止コマンドではない任意の後に受信されるコマンドに応答して、または制御バリア・ロジック内のトークンを使用して、リセット信号を生成することを含む、多くの方法でリセットされ得る。フリップフロップ６０２の出力は、マルチプレクサ６０４及び、構成ストア６０５を備える静止準備デイジー・チェーン・ロジックを可能にするゲート６０３に接続される。構成ストア６０５は、静止参加Ｑ＿ＰＣＰＴフラグを格納する。静止参加フラグは、静止動作に参加するために必要な静止ロジックに関連付けられた構成可能ユニットに対して設定される。例えば、静止動作では、プロデューサとして作用する構成可能ユニットのみが参加することを要求され得る。静止参加フラグを使用すると、静止ために構成リソースを効率的に使用できる。

ゲート６０３への第２の入力は、構成可能ユニットの対応するセットに割り当てられた静止境界を越える実行フラグメントの進行を追跡する論理回路から提供される。この例では、素子６３３によって示されるように、スキュー・カウンタＳＫＥＷＵＤＣ６３２の出力がゼロに等しいとき、第２の入力が提供される。

また、フリップフロップ６０２は、ゲート６３０への反転入力として提供され、ロジックが実行フラグメントの実行の進行を追跡することを可能にする。ゲート６３０への第２の入力は、バリア・マスク及び、ＡＮＤツリーｐの出力ＥＦ＿ＱＢであり、バリア・マスク及び、ＡＮＤツリー６１０は、図５に示す素子５２０及び、５２１を使用して実施できる。バリア・マスク及び、ＡＮＤツリー６１０はＥＦ＿ＱＢ信号を生成するように構成することができる。図６の簡略化された図では、バリア・マスク及び、ＡＮＤツリー６１０への入力は、ＵＤＣ６２０～６２２において信号Ｐ＿ＱＢ＿０～Ｐ＿ＱＢ＿Ｎを受信するように構成されたトークン・ストアの素子を含み、これはプロデューサ構成可能ユニットの関連するセットに対し実行フラグメント静止境界を信号で知らせる。更に、トークン・ストアは、例えばマスタＡＧＣＵ内のマスタ・ステート・マシンによってアレイ内の構成可能ユニットに配信されるＵＤＣ６１１内のスタート・トークンと、他のトークン及び、制御信号とを含むことができる。バリア・マスク及び、ＡＮＤツリー６１０は、特定の実行フラグメントに必要なプロデューサのための構成静止ロジックに応答して、ゲート６３０への入力としてＥＦ＿ＱＢを生成するように構成することができる。

ゲート６３０の出力は、ゲート６３１への入力として提供され、ゲート６３１の出力は、ＳＫＥＷ・ＵＤＣ６３２の増分入力に印加される。ＳＫＥＷ・ＵＤＣ６３２のデクリメント入力は、制御入力クロスバー６４０によって提供され、制御入力クロスバー６４０は、静止する目的で、制御バリア・ネットワークのライン６４１上でコンシューマ・バリア・トークンＣ＿ＢＡＲＲＩＥＲを受信するように構成される。

ＳＫＥＷ・ＵＤＣ６３２がフル（満状態）になると、ゲート６３１を無効にする信号がアサートされる。ＳＫＥＷ・ＵＤＣ６３２のサイズは、様々な実施形態で固定または構成可能であり、実行フラグメントの静止境界のユニットにおいて最大スキューを設定する。ユニット間のスキューは、このタイプのロジックを使用して、幾つかの構成では静止境界以外のスキュー・ユニット上で制御することができる。

ゲート６３１の出力は、記憶された値をクリアまたはデクリメントするために、トークン・ストアＵＤＣ６２０～６２２及び、６１１へのフィードバックとしても提供される。また、ゲート６３１の出力は、関連する構成可能ユニットのセットに割り当てられた実行フラグメントのために、制御バリア・ネットワークのライン６５１上のＰ＿ＢＡＲＲＩＥＲとして信号を出力するように構成することができる制御出力クロスバー６５０に提供される。

動作において、プロデューサとして作用する構成可能ユニットが実行フラグメント内の静止境界に到達すると、Ｐ＿ＱＢ＿ｘ信号がトークン・ストアに印加される。すべてのプロデューサがＰ＿ＱＢ＿ｘを印加したとき、フリップフロップ６０２の出力がローである限り、プロデューサ・バリア信号Ｐ＿ＢＡＲＲＩＥＲがライン６５１に印加され、ＳＫＥＷ・ＵＤＣ６３２は、フルでない限りインクリメントされる。Ｃ＿ＢＡＲＲＩＥＲがライン６４１上で受信されると、ＳＫＥＷ・ＵＤＣ６３２がデクリメントされる。したがって、ＳＫＥＷ・ＵＤＣ６３２を使用して、非同期に作動する構成可能ユニットのセットの間の静止境界を越える実行フラグメントの進行を追跡することができる。

ＳＫＥＷ・ＵＤＣ６３２がフルでなく、フリップフロップ６０２の出力がローである限り、ゲート６３１の出力はＥＦ＿ＱＢ信号に等しく、Ｐ＿ＢＡＲＲＩＥＲ信号が生成される。この信号は、プロデューサがＥＦ＿ＱＢ信号によって通知されたＱＢを超えて次のセグメントのルートに進むことを可能にする。フリップフロップ６０２の出力がハイである場合、ゲート６３１の出力は論理０にセットされ、Ｐ＿ＢＡＲＲＩＥＲはアサートされない。これにより、プロデューサがＥＦ＿ＱＢによって通知されたＱＢを超えて進むのが阻止され、静止の発生が可能となる。

フリップフロップ６０２の出力がハイであるとき、ロジックはライン６５１上のＰ＿ＢＡＲＲＩＥＲのアサートを停止し、ＳＫＥＷ・ＵＤＣ６３２のインクリメントを停止する。ゲート６０３がフリップフロップ６０２の出力によって有効になり、Ｑ＿ＰＣＰＴビットがセットされている間にＳＫＥＷ・ＵＤＣがゼロにデクリメントされる（６３３）とすぐに、静止準備Ｑ＿ＲＤＹ信号がライン６５２上で論理０から論理１にフリップする。実行フラグメントのＱ＿ＲＤＹ信号は、この実施形態では、デイジー・チェーン内のアレイ内の前のユニットからの静止準備Ｑ＿ＲＤＹ信号の論理的組合せに基づいて、完了／静止デイジー・チェーン上のアレイ静止コントローラに配信することができる。Ｑ＿ＰＣＰＴビットがセットされていない場合、Ｑ＿ＲＤＹ信号は論理１のままであり、デイジー・チェーンを参加及び、非参加構成可能ユニットにわたって接続されたままにする。

図７は、ライン６５１からＰ＿ＢＡＲＲＩＥＲトークンを消費し、関連する構成可能ユニット上で実行される実行フラグメントの部分のためにライン７４１上にプロデューサ静止境界信号Ｐ＿ＱＢ＿ｘを生成するプロデューサとして構成された構成可能ユニットに関連するロジックを示す。Ｐ＿ＱＢ＿ｘ信号は、ＯＲツリー及び、マスク７５０、並びに図７のカウンタ７６０～７６２の構成によって表される各実行フラグメント・リソース・グループ内のプロデューサとして使用される構成可能ユニットの構成状態のセットを検出すると生成される。ロジックは、実行フラグメントの静止境界を越えてＥＦの次のセグメントのルートに進むか、またはＥＦ内の最後のＱＢである場合にはＥＦの開始ルートにラップするために、ライン７１２上にイネーブル信号を生成する。したがって、ＱＢ後のＥＦのセグメントのルートは、ＥＦの静止点となる。

Ｐ＿ＢＡＲＲＩＥＲは、この例では実行フラグメントに対するＥＦＲＧのプロデューサ構成要素間の同期バリアである。特定のプロデューサにおけるＥＦのどのループも、少なくとも１つのＰ＿ＱＢ＿ｘを含むことができる。プロデューサ信号Ｐ＿ＱＢ＿ｘは、図６に示すように、互いに接続されて制御フロー・バリアを形成する。Ｐ＿ＱＢ＿ｘ信号を使用してＰ＿ＢＡＲＲＩＥＲＳの生成に参加するクライアント構成要素は、コンパイル時に静止処理に参加するように構成される。

図示の実施形態では、構成可能ユニットは、構成要素の状態を示すことができるカウンタＣＮＴＲ＿０～ＣＮＴＲ＿Ｎ（７６０～７６２）を備えるカウンタ・チェーンを含むか、またはそれに接続するように構成することができる。カウンタ・チェーン内のカウンタは、デバイス上のどこにでも配置することができ、そこから出力を図７のロジックに配信することができる。幾つかの実施形態では、カウンタ・チェーンは、構成可能ユニットの一部として実装される。カウンタ・チェーン出力は、カウンタ・チェーン内のカウンタの状態の任意の組合せ上で実行フラグメント静止境界信号Ｐ＿ＱＢを生成するように、構成ファイルによって設定され得るＯＲツリー及び、マスク７５０に印加される。ＯＲツリー及び、マスク７５０は、静止境界に対応する状態を信号で送信するために、互いにＯＲ演算されるか、または、別の方法で論理的に結合されるカウンタ及び、カウンタ状態の組合せを選択するように構成可能である。静止境界信号Ｐ＿ＱＢは、例えば、ループの完了時、または、ループの分割可能な部分で、設定することができる。例えば、多数のＮ回の反復を有するループは、それぞれＭ回までの反復のＮ／Ｍの静止境界に分割されてもよい。該技術は、ＭがＮの約数であることを要しない。最後の静止境界は、Ｍ未満の反復の剰余数を有することができる。この分割及び、剰余ループ反復の操作は、構成可能なＯＲツリーまたは他のタイプのロジックを使用して実施することができる。

境界信号Ｐ＿ＱＢは、ＱＢ・ＵＤＣトークン・ストア７１１に結合されたデクリメント・クロスバー７３０への入力として使用される。ＱＢ・ＵＤＣトークン・ストア７１１のインクリメント入力は、インクリメント・クロスバー７２０によって印加され、該クロスバーは、構成可能ユニットがメンバであるＥＦＲＧのためのＰ＿ＢＡＲＲＩＥＲを受信する。ＱＢ・ＵＤＣトークン・ストア７１１は、制御バリア・ネットワーク内の制御信号及び、バリア信号によってイネーブル・マスク及び、ＡＮＤツリー７１０へ供給される多くのトークン・ストアの１つであり、イネーブル・マスク及び、ＡＮＤツリー７１０は、図５の素子５００及び、５０３を使用して実施され得る。イネーブル・マスク及び、ＡＮＤツリー７１０の出力は、関連する構成可能ユニットが次の静止境界の前にセグメントのルートでの実行の再開を可能にするためのイネーブル信号である。ＥＦＲＧ内のすべてのプロデューサは、メンバ構成可能ユニットにわたるＥＦＲＧの同期を管理するために、同じＰ＿ＢＡＲＲＩＥＲ信号によって有効にすることができる。

境界信号Ｐ＿ＱＢはまた、制御出力クロスバー７４０への入力として印加され、Ｐ＿ＱＢ＿ｘ信号の１つとしてＰ＿ＱＢ＿ｘ信号を図６に記載されたロジックに提供する。

図８は、ＥＦＲＧでコンシューマとして作用する構成可能ユニットに関連する静止ロジックにおいてＣ＿ＢＡＲＲＩＥＲトークンを生成するバリア・ロジックの実施態様を示している。Ｃ＿ＢＡＲＲＩＥＲトークンは、実行フラグメント内のコンシューマ構成要素間の同期バリアである。コンシューマとして作用する各構成可能ユニットは、ユニット内で実行されるＥＦのループまたはループの区分等の各セグメントが、セグメントの出口点に対応する静止境界上に単一のＣ＿ＱＢ＿ｘを含むことができるように構成することができる。Ｃ＿ＱＢ＿ｘ信号は、図７に示されるＰ＿ＱＢ＿ｘ信号を参照して説明された方法で、またはコンシューマ機能に適合された同等の方法で、各実行フラグメント・リソース・グループにおいてコンシューマとして使用される構成可能ユニットのための構成ステータスのセットの検出時に生成され得る。

この例では、トークン・ストア８１０～９のセットが、実行フラグメント内のコンシューマとして作用する構成可能ユニットに関連する静止ロジックからＣ＿ＱＢ＿ｘ静止境界信号を受信する。

マスク及び、ＡＮＤツリー８００（図５の素子５２０及び、５２１を使用して実施することができる）はＣ＿ＱＢ＿ｘ信号の構成された組合せの検出時に、ライン８０１上のＥＦＲＧに対してＣ＿ＢＡＲＲＩＥＲトークンを生成するように構成される。ライン８０１上のＣ＿ＢＡＲＲＩＥＲトークンは、図６に示す静止ロジックの部分に提供される。

トークン・ストア８１０～８１２は、ライン８０１からのＣ＿ＢＡＲＲＩＥＲ信号等のライン８２０上の信号、または他の構成可能な信号に応答して、デクリメントまたはリセットされる。

図６～図８に示す回路は、ロジック・ユニット間の制御バリア・ネットワーク内に信号ルートを形成するように構成可能な制御バスに結合された静止ロジックのロジック・ユニットである。制御バリア・ネットワークは、制御バス及び処理ユニットのアレイに接続された入力及び出力を有する複数のバリア・ロジック・ユニットを備える。バリア・ロジック・ユニットは、ＥＦＲＧに結合され、ＥＦＲＧにおいて静止境界を通知する入力のプロデューサからの信号を消費し、プロデューサからの信号に基づいてプロデューサ・バリア・トークンを生成するように構成可能な第１のロジック・ユニット（例えば、図６～図７）と、ＥＦＲＧに結合され、ＥＦＲＧにおいて静止境界に対するＥＦＲＧへの入力の利用を通知する入力のコンシューマからの信号を消費し、コンシューマからの信号に基づいてコンシューマ・バリア・トークンを生成するように構成可能な第２のロジック・ユニット（例えば、図８）とを含む。静止ロジックは、制御バスに接続するように構成可能な回路を含み、プロデューサとコンシューマとの間の実行フラグメントの進行の差異を追跡するために、プロデューサ・バリア・トークンとコンシューマ・バリア・トークンを受信するように構成可能なスキュー・カウンタを含む。

図９は、ＣＧＲＡプロセッサが２つのタイル（Ｔｉｌｅ１、Ｔｉｌｅ２）を有するＣＧＲＡ（粗粒度再構成可能アーキテクチャ）プロセッサの構成要素の簡略化されたブロック図である。タイルは、バス・システムに接続された構成可能ユニットのアレイを含み、図２及び図３に示されるような本例では、アレイ・レベル・ネットワークを含む。バス・システムはまた、タイルを外部Ｉ／Ｏインタフェース９０５（または任意の数のインタフェース）に接続するトップ・レベル・ネットワークを含む。他の実施形態では、異なるバス・システム構成を利用することができる。各タイル内の構成可能ユニットは、この実施形態におけるアレイ・レベル・ネットワーク上のノードである。

２つのタイルの各々は、４つのＡＧＣＵ（アドレス生成及び合体ユニット）（例えば、ＭＡＧＣＵ１、ＡＧＣＵ１２、ＡＧＣＵ１３、ＡＧＣＵ１４）を有する。ＡＧＣＵは、トップ・レベル・ネットワーク上のノードとアレイ・レベル・ネットワーク上のノードであり、トップ・レベル・ネットワーク上のノードと各タイル内のアレイ・レベル・ネットワーク上のノード間でデータをルーティングするためのリソースを含む。

この例でのトップ・レベル・ネットワーク上のノードには、インタフェース９０５を含む１または複数の外部Ｉ／Ｏインタフェースが含まれる。外部デバイスへのインタフェースは、トップ・レベル・ネットワーク上のノードと、インタフェースに接続された大容量メモリ、ホストプロセッサ、他のＣＧＲＡプロセッサ、ＦＰＧＡデバイス等の外部デバイスとの間でデータをルーティングするためのリソースを含む。

タイル内のＡＧＣＵのうちの１つは、本例では、マスタＡＧＣＵであるように構成され、該マスタＡＧＣＵは、アレイ静止コントローラ３５１と、タイルのための構成ロード／アンロード・コントローラとを含む。他の実施形態では、１つのタイル当たり２以上のアレイ静止コントローラ３５１を実施することができ、１つのアレイ静止コントローラ３５１は２以上のＡＧＣＵに分散されたロジックによって実施することができる。

ＭＡＧＣＵ１は、Ｔｉｌｅ１のためのアレイ静止コントローラ３５１を含み、ＭＡＧＣＵ２は、Ｔｉｌｅ２のためのアレイ静止コントローラ３５１を含む。他の実施形態では、アレイ静止コントローラ３５１は、２以上のタイルの静止制御用に設計し得る。他の実施形態では、単一のタイルの構成のために、２以上のアレイ静止コントローラを設計し得る。また、アレイ静止コントローラ３５１は、トップ・レベル・ネットワーク及び、アレイ・レベル・ネットワーク上のスタンドアロン・ノードとしてのものを含めて、システムの他の部分に実装することができる。

トップ・レベル・ネットワークは、ＡＧＣＵ及び、Ｉ／Ｏインタフェース９０５を含むトップ・レベル・ネットワーク上の他のノードと同様に、互いに接続するトップ・レベル・スイッチ（９１１～９１６）を使用して構築される。トップ・レベル・ネットワークは、トップ・レベル・スイッチを接続するリンク（例えば、Ｌ１１、Ｌ１２、Ｌ２１、Ｌ２２）を含む。データは、リンク上のトップ・レベル・スイッチ間、及び、該スイッチから該スイッチに接続されているネットワーク上のノードへ、パケット単位で移動する。例えば、トップ・レベル・スイッチ９１１及び、９１２はリンクＬ１１によって接続され、トップ・レベル・スイッチ９１４及び、９１５はリンクＬ１２によって接続され、トップ・レベル・スイッチ９１１及び、９１４はリンクＬ１３によって接続され、トップ・レベル・スイッチ９１２及び、９１３はリンクＬ２１によって接続される。リンクは、１または複数のバスと、例えばチャンク・ワイド・バス（ベクトル・バス）を含むサポート制御ラインとを含むことができる。例えば、トップ・レベル・ネットワークは、ＡＸＩ互換プロトコルに類似した方法で、データの転送のために協調して動作可能なデータ、リクエスト、及び、応答チャネルを含むことができる。AMBA（登録商標) AXI and ACE Protocol Specification, ARM，2017を参照されたい。

トップ・レベル・スイッチは、ＡＧＣＵに接続することができる。例えば、トップ・レベル・スイッチ９１１、９１２、９１４及び９１５は、タイルＴｉｌｅ１内のＭＡＧＣＵ１、ＡＧＣＵ１２、ＡＧＣＵ１３及びＡＧＣＵ１４に、それぞれ接続される。トップ・レベル・スイッチ９１２、９１３、９１５、及び、９１６は、タイルＴｉｌｅ２内のＭＡＧＣＵ２、ＡＧＣＵ２２、ＡＧＣＵ２３、及び、ＡＧＣＵ２４に、それぞれ接続される。

トップ・レベル・スイッチは１または複数の外部Ｉ／Ｏインタフェース（例えば、インタフェース９０５）に接続され得る。ランタイム・プログラムを実行するホストは、トップ・レベル・ネットワークを介してアレイ静止コントローラ及び、構成ロード／アンロード・コントローラと通信できる。

図１０は、構成可能ユニットにおけるユニット構成ロード処理を制御するために使用され得るステート・マシンの一例を示す。構成ロード処理は、例えば、マスタＡＧＣＵ内の構成ロードロジックによって制御することができ、アレイ静止コントローラと結合することができる。一般に、ユニット構成ロード処理は、１つのバス・サイクルにおいてバス・システムから構成可能ユニットに特有のユニットファイルの第１のチャンク（またはサブファイル）を受信し、次に、ユニットファイルの第２のチャンクが受信される前に、バス・サイクルと同じレートで発生する後続のシフト・サイクル中に、受信された第１のチャンクをシリアル・チェーンにプッシュし始める。後のバス・サイクルにおいて、構成可能ユニットに特有のユニットファイルの第２のチャンクをバス・システムから受信すると、処理は先に受信したチャンクをシリアル・チェーンにプッシュした後のサイクル中に、受信した第２のチャンクをシリアル・チェーンにプッシュし始める。構成ロード処理の幾つかのまたは全てのラウンドでは、複数の順序付けられたチャンク内の第２のチャンク（ユニットファイルのチャンクの順序で次に）が構成可能ユニットによって受信される前に、構成可能ユニット内でユニット構成ロード処理によって第１のチャンクを消費することができる。

図１０のステート・マシンは、６つの状態Ｓ０～Ｓ５を含む。状態Ｓ０（アイドル）では、ユニット構成ロード処理がマスタＡＧＣＵ内の構成ロード／アンロード・コントローラからの構成ロード／アンロード・コマンドを待つ。構成ロード／アンロード・コントローラは、オフチップメモリ（図１の１４０）からの／への、及び、構成可能ユニットのアレイ（図１の１９０）への／からの、構成データのロード／アンロードを行う。構成ロード／アンロード・コントローラでロード・コマンドが受信されると、ユニット構成ロード処理は状態Ｓ１に入る。

状態Ｓ１（静止待ち）では、ステート・マシンは、ロードまたはアンロード・コマンドの後、静止状態を待つ。状態Ｓ１では、ステート・マシンは、静止コマンドを分配することを含み、本明細書で説明するように、静止処理を実行できる。静止状態が達成すると、複数のデータパス内の機能的フロップは無効化され、機能的フロップは循環せず、スカラ出力、ベクトル出力、及び制御出力はオフにされ、出力は如何なる負荷も駆動しない。アレイの静止状態は、上述のアレイ静止コントローラ及び静止ロジックを用いて引き起こすことができる。ロード・コマンドが受信された場合、次に、静止状態に到達した後、ユニット構成ロード処理は状態Ｓ２に入る。アンロード・コマンドが受信されると、次に、静止状態に到達した後、ユニット構成ロード処理は状態Ｓ４に入る。

状態Ｓ２（入力有効待ち）では、ユニット構成ロード処理は入力ＦＩＦＯ（図１１の１１１０）が有効になるまで待機する。入力ＦＩＦＯが有効になると、入力ＦＩＦＯはバス・システム経由で構成ファイルの構成データのチャンクを受信した。例えば、構成データのチャンクは、１２８ビットのロードデータを含むことができ、これはバス・システムのベクトル・ネットワークで受信され、ベクトル・ネットワークのベクトル・バス幅は１２８ビットである。入力ＦＩＦＯが有効になると、ユニット構成ロード処理は状態Ｓ３に入る。

状態Ｓ３（ロードシフト）では、１２８ビットの構成データのチャンクが最初に入力ＦＩＦＯから１クロックサイクルでデキューされ、１２８ビットの構成データのチャンクが１２８クロックサイクルで入力シフト・レジスタ（図１１の１１２０）にシフトされる。入力シフト・レジスタは構成データのチャンクと同じ長さ（例えば、１２８ビット）を有することができ、構成データのチャンクを入力シフト・レジスタ内にシフトするのに、構成データのチャンクの長さと同じ数のシフト・クロックサイクル（例えば、１２８）を要する。上述のように、幾つかの実施形態では、シフト・クロック及びバスクロック（またはバス・サイクル）は同じレートで動作することができる。

図１１は、構成可能ユニット内の構成ストアの論理的表示である。構成可能ユニット内の構成データ・ストア（図４の４２０）は、本実施形態では第１のシフト・レジスタ・チェーン１１３０及び第２のシフト・レジスタ・チェーン１１４０を含む構成シリアル・チェーンを備える。第１のシフト・レジスタ・チェーン１１３０は、１組のレジスタまたはラッチを含む。第２のシフト・レジスタ・チェーン１１４０は、別の１組のレジスタまたはラッチ（フリップフロップ）を含む。第１のシフト・レジスタ・チェーン及び第２のシフト・レジスタ・チェーンは、本実施形態では直列に接続されて単一のチェーンを形成する。

構成ファイルは、構成可能ユニットのアレイ内の複数の構成可能ユニット内の構成可能ユニットごとに、構成データの複数のチャンクを含む。構成データのチャンクは、それぞれの構成可能ユニットの初期構成または開始状態を表す。本システムにおける構成ロード操作は、構成可能ユニットのアレイに構成データのユニットファイルを設定して、全ての構成可能ユニットがプログラムを実行できるようにする処理である。

第１のシフト・レジスタ・チェーン１１３０内のレジスタのセットは、レジスタを含む構成可能ユニットの動作の定義を含む、プログラムを実行するためのセットアップまたはシーケンスの何れかを表すことができる。これらのレジスタは、ネスト化されたループの数、各ループ・イテレータの限界、静止境界、各ステージに対して実行される命令、オペランドのソース、及び入力及び出力インタフェースのネットワーク・パラメータを登録できる。第２のシフト・レジスタ・チェーンのレジスタのセットには、アレイに割り当てられた実行フラグメントの静止境界上の構成可能ユニットにロードされたプログラムの実行状態に関するデータを含めることができる。

図１１の例に示されるように、第１のシフト・レジスタ・チェーン１１３０及び第２のシフト・レジスタ・チェーン１１４０は直列に接続され、その結果、第１のシフト・レジスタ・チェーンのＭＳＢ(最上位ビット）は第２のシフト・レジスタ・チェーンのＬＳＢ(最下位ビット）に接続される。ロード信号またはアンロード信号は第１のシフト・レジスタ・チェーンのＬＳＢ及び第２のシフト・レジスタ・チェーンのＬＳＢに結合されたシフトイネーブル信号として作用し、第１のシフト・レジスタ・チェーン及び第２のシフト・レジスタ・チェーン上のロード／アンロード動作を制御することができる。入力ＦＩＦＯ１１１０は、セレクタ１１７０を介して入力シフト・レジスタ１１２０に結合される。セレクタ１１７０はロード信号がアクティブであるとき、入力シフト・レジスタ１１２０を構成データ・ストア（第１のシフト・レジスタ・チェーン１１３０のＬＳＢ）の入力に接続する。

ロード信号がアクティブであるとき、入力シフト・レジスタ１１２０内の構成データは、構成シリアル・チェーン内の第１のシフト・レジスタ・チェーン１１３０及び第２のシフト・レジスタ・チェーン１１４０にシフトされ得る。ここで、ロード信号は、入力シフト・レジスタ、第１シフト・レジスタ・チェーン、及び第２シフト・レジスタ・チェーンのイネーブル信号として作用し得る。構成可能ユニットの構成データの全てのチャンクが構成可能ユニットの構成データ・ストアにロードされるまで、ロード操作を繰り返すことができる。シリアル・チェーンの長さが整数個のチャンク（またはサブファイル）の長さと異なる場合、直列状の最初のチャンクに差分を埋め込むことができ、最後のチャンクがシフトインされると、パッドビットがチェーンの最後にシフトアウトされる。例えば、構成可能ユニット内の構成データ・ストアは、１４００ビットのサイズを有するユニットファイルを記憶することができる。ユニット構成ロード処理は、整数Ｎ個のチャンクをロードすることができる。この例では、Ｎ＝１１であり、Ｎ個のチャンクは、チャンク５、チャンク４、チャンク３、チャンク２、チャンク１及びチャンク０を含む。ベクトル・バスのベクトル幅は１２８ビット、構成データのチャンクは１２８ビットで、チャンクは１つのバスクロックサイクルで構成可能ユニットに送信できる。Ｎ個のチャンクのサイズは、Ｎ×１２８＝１１×１２８＝１４０８ビットで、これには１４０８ビットのユニットファイルサイズに一致させるための８パッドビットが含まれる。

エラーから回復するために、アンロード操作は、各構成可能ユニットの状態をチェックポイントすることができる。アンロード操作では、再起動に必要な静止境界上の各構成可能ユニットの実行状態を保存し、エラーが発生した場合にアプリケーションを再起動できるようにすることができる。また、構成可能ユニットの状態を保存したり、デバッグ目的で転送したりすることもできる。保存する必要がある状態は、少なくとも第１または第２のシフト・レジスタの一部の内容と、オプションでＰＭＵメモリの内容が含まれる。プログラム・アンロードは、第１及び第２のシフト・レジスタの全ての状態をアンロードすることも必要とすることがある。

出力ＦＩＦＯ１１６０は、出力シフト・レジスタ１１５０に結合され、このシフト・レジスタは次に、構成データ・ストアの出力（第２のシフト・レジスタ・チェーン１１４０のＭＳＢ）に結合される。アンロード操作の場合、アンロード信号がアクティブであるとき、第２のシフト・レジスタ・チェーン１１４０及び第１のシフト・レジスタ・チェーン１１３０内の構成データを出力シフト・レジスタ１１５０にシフトすることができる。出力ＦＩＦＯ１１６０が有効であるとき、出力シフト・レジスタ１１５０内の構成データ（例えば１２８ビット）を、１クロックサイクルで出力ＦＩＦＯ１１６０に挿入することができる。アンロード操作は、構成可能ユニットの構成データ・ストア内の構成データの全てのチャンクが出力ＦＩＦＯにアンロードされるまで繰り返すことができる。静止を伴うプログラム・アンロードは、マルチプログラミング環境を実現するために、また、高優先順位のプログラムが低優先順位のプログラムの静止境界上で低優先順位のプログラムを中断し、低優先順位のプログラムが静止してアンロードされ、高優先順位のプログラムがロードされて実行されるマルチタスキング環境を実現するために使用することもできる。

ＭＡＧＣＵ内の構成ロード・コントローラによって発行された構成ロード・コマンドの完了と同期して、通信するために、一例では、チェーンの各構成要素内のデイジー・チェーン・ロジック（例えば、図４のデイジー・チェーン・ロジック４９３）に含まれるロジックによってサポートされる単一ワイヤ・デイジー・チェーン方式が実装される。このスキームでは、全ての構成要素が次の２つのポートを持つ必要がある：
１. ＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮという入力ポート
２. ＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴという出力ポート

構成要素は、ＭＡＧＣＵによって発行されたコマンドの実行を完了し、そのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮ入力がｈｉｇｈに駆動されると、そのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴ信号を駆動する。ＭＡＧＣＵは、コマンドの実行に必要な全てのステップが完了すると、ＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴを駆動してデイジー・チェーンを開始する。チェーンの最後の構成要素は、ＭＡＧＣＵのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮに接続されるＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴを駆動する。ＭＡＧＣＵのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮがｈｉｇｈになると、コマンドの完了を示す。全ての構成要素の全てのチャンクに対応するデータを配信した後、ＭＡＧＣＵはそのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴポートをｈｉｇｈに駆動する。全ての構成要素は、全ての構成ビットのロードを完了すると、それぞれのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴポートをｈｉｇｈに駆動する。この動作は、静止準備シグナリングと同じデイジー・チェーン上で実行することができる。

ＭＡＧＣＵの入力ポートＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮがアサートされると、構成ファイルのロードが完了する。上述したように、Ｑ＿ＲＤＹ信号に対して同じまたは類似のロジックを使用することができる。

図１２は、図３及び図１０のようなシステムに対して、アレイ構成ロード処理を実行するロジックの一例を示すステート・マシン図である。アレイ構成ロード処理は、複数の構成可能ユニット用のユニットファイルであって、それぞれが複数の順序付けられたチャンク（または、サブファイル）を有するユニットファイルを備える構成ファイルをアレイに分配することを含み、その構成ファイルの分配は、順序（ｉ）の１ユニットチャンクを、バス・システムを介してＮ個のサブファイルまでを含む全ての構成可能ユニットに、構成ファイル内のユニットファイルが複数の構成可能ユニットに分配されるまで、Ｎラウンド（Ｒ（ｉ）、ｉ＝０～Ｎ－１）のシーケンスで送信することにより実行される。

この例では、ステート・マシンは６つの状態Ｓ１～Ｓ６を含む。状態Ｓ１（アイドル）では、構成ロード・コントローラはホストからの構成ロード・コマンドを待機する。構成ロード・コマンドが受信されると、ロード処理は状態Ｓ２に入り、分配シーケンスの第１ラウンドＲ（０）の実行を開始する。各ラウンドは、状態Ｓ２～Ｓ６を横切る。本明細書で説明する例では、アレイ内の構成可能ユニットに分配されるチャンクの最大数が６であるため、６ラウンドが存在する。

状態Ｓ２（スイッチ・リクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、各スイッチ・ユニットの構成ユニットファイルのラウンドＲ（ｉ）の状態Ｓ２のチャンクを取得し、取得したチャンクを各スイッチ・ユニットに分配する。ｉ＝０の場合、ラウンドＲ（０）では、構成ロード・コントローラは、各スイッチ・ユニットの複数のチャンク内のチャンク（０）に対するメモリ・アクセス・リクエストを生成し、チャンク（０）を各スイッチ・ユニットに送信する。ｉ＝１の場合、ラウンドＲ（１）では、構成ロード・コントローラは、各スイッチ・ユニットの複数のチャンク内のチャンク（１）に対するメモリ・アクセス・リクエストを生成し、該チャンクを各スイッチ・ユニットに送信する。ラウンドＲ（ｉ）において、構成ロード・コントローラは、各スイッチ・ユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、全てのスイッチ・ユニットに対してチャンクを分配したとき、ロード処理は状態Ｓ３に入る。

状態Ｓ３（ＰＣＵリクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、各ＰＣＵユニット（パターン計算ユニット）の構成ユニットファイルのラウンドＲ（ｉ）のチャンクを取得し、取得したチャンクを各ＰＣＵユニットに分配する。ラウンドＲ（ｉ）の状態Ｓ３では、構成ロード・コントローラは、各ＰＣＵユニットの複数チャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンク（ｉ）を各ＰＣＵユニットに送信する。ラウンドＲ（ｉ）では、構成ロード・コントローラは、各ＰＣＵユニットの複数チャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンクを分配したとき、ロード処理は状態Ｓ４に入る。

状態Ｓ４（ＰＭＵリクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、構成可能ユニットのアレイ内の各ＰＭＵユニット（パターンメモリユニット）の構成ユニットファイルのチャンクと、幾つかの実施形態におけるメモリ・ファイルを取得し、取得したチャンクを各ＰＭＵユニットに送信する。ラウンドＲ（ｉ）の状態Ｓ４では、構成ロード・コントローラは、各ＰＭＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンク（ｉ）を各ＰＭＵユニットに送信する。例えば、ｉ＝０の場合、ラウンドＲ（０）では、構成ロード・コントローラは、各ＰＭＵユニットの複数のチャンク内のチャンク（０）に対するメモリ・アクセス・リクエストを生成し、チャンク（０）を各ＰＭＵユニットに送信する。ｉ＝１の場合、ラウンドＲ（１）では、構成ロード・コントローラは、各ＰＭＵユニットの複数のチャンク内のチャンク（１）に対するメモリ・アクセス・リクエストを生成し、チャンク（１）を各ＰＭＵユニットに送信する。ラウンドＲ（ｉ）において、構成ロード・コントローラが、各ＰＭＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンクを分配したとき、ロード処理は状態Ｓ５に入る。

状態Ｓ５（ＡＧＣＵリクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、構成可能ユニットのアレイ内の各ＡＧＣＵ（アドレス生成及び結合ユニット）の構成ユニットファイルのチャンクを取得し、取得したチャンクを各ＡＧＣＵユニットに送信する。ラウンドＲ（ｉ）の状態Ｓ５において、構成ロード・コントローラは、各ＡＧＣＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンク（ｉ）を各ＡＧＣＵユニットに送信する。ラウンドＲ（ｉ）の状態Ｓ５において、構成ロード・コントローラが、各ＡＧＣＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンクを分配したとき、ロード処理はラウンドＲ（ｉ）の状態Ｓ６に入る。

状態Ｓ６（応答待ち）では、構成ロード・コントローラは、アレイ内の構成可能ユニット（スイッチ、ＰＣＵ、ＰＭＵ、ＡＧＣＵユニット）が次のラウンドで構成データのより多くのチャンクを受信する準備状態であることを保証するために待機する。スイッチ・ユニットに対する全てのチャンクが送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ２に進み、次のラウンドＲ（ｉ＋１）を開始する。スイッチ・ユニットの全てのチャンクは送信されるが、ＰＣＵチャンクの全てのチャンクは送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ３に進み、次のラウンドＲ（ｉ＋１）を開始する。スイッチ・ユニット及びＰＣＵユニットに対する全てのチャンクは送信されるが、ＰＭＵチャンクの全てのチャンクは送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ４に進み、次のラウンドＲ（ｉ＋１）を開始する。スイッチ・ユニット、ＰＣＵユニット、及びＰＭＵユニットの全てのチャンクは送信されるが、ＡＧＣＵチャンクの全てのチャンクは送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ５に進み、次のラウンドＲ（ｉ＋１）を開始する。全ての構成可能ユニット（スイッチ、ＰＣＵ、ＰＭＵ、ＡＧＣＵユニット）の全てのチャンクが送信される（即ち、全てのラウンドが完了する）と、ロード処理は状態Ｓ１に進む。

図１３は、アレイ構成アンロード処理を実行するためのロジックの一例のためのステート・マシン図である。

この例では、ステート・マシンは３つの状態Ｓ１～Ｓ３を含む。状態Ｓ１（アイドル）では、構成アンロード・コントローラはホストからの構成アンロード・コマンドを待機する。構成アンロード・コントローラは、アレイ構成アンロード処理に対して、“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”と“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”の２つのカウントを実施し、カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”は次のアンロード・リクエスト・カウントを追跡する。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”は次のアンロード応答カウントを追跡する。状態Ｓ１において、両方のカウントは、０のような初期値にリセットされる。構成アンロード・コマンドを受信すると、アンロード処理は状態S２に入る。

状態Ｓ２（Ｇｅｎリクエスト）で、構成アンロード・コントローラは、構成可能ユニットのアレイ内のスイッチ・ユニット、ＰＣＵ、ＰＭＵ、及びＡＧＣＵを含むアレイ内の構成可能ユニットそれぞれについてのアンロード・リクエストを生成する。各アンロード・リクエストが生成されるたびに、カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”がインクリメントされる。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”は、所定の数ＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴと比較される。これは構成可能ユニットのアレイ内の構成可能ユニットの総数を表す。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴ未満である限り、アンロード処理は状態Ｓ２のままである。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴと等しい場合、アレイ内の構成可能ユニットそれぞれに対しアンロード・リクエストが生成され、アンロード処理は状態Ｓ３に入る。

状態Ｓ３（応答待ち）では、構成アンロード・コントローラがアレイ内の構成可能ユニットから受信した各応答に対するカウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”をインクリメントする。応答は、構成可能ユニットの構成データのユニットファイル内のチャンク（サブファイル）を含む。応答はまた、幾つかの例では、ＰＭＵスクラッチパッドデータを含むことができる。アンロード処理中に、応答が構成可能ユニットのベクトル出力に提供され、ベクトル・バス上で構成ロード・コントローラに送信される。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴ未満である限り、アンロード処理は状態Ｓ３のままである。

状態Ｓ３では、アンロード処理は受信した各応答に対しメモリ・アドレスを生成し、受信した各応答をトップ・レベル・ネットワークで生成されたメモリ・アドレスとともに挿入する。各応答は、アンロード・チャンクとシーケンスＩＤを含む。メモリ・アドレスは、シーケンスＩＤ内のチャンク番号、列識別子、行識別子、及び構成要素識別子を含む、アレイ・レベル・ネットワーク内のチャンクを搬送するパケットに付随するヘッダから生成される。構成要素識別子は、構成可能ユニットが、スイッチ・ユニット、ＰＣＵユニット、ＰＭＵユニット、またはＡＧＣＵユニットであるかを示すことができる。シーケンス識別子は、図３を参照して更に説明される。

カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴに等しい場合、応答はアレイ内の構成可能ユニットそれぞれから受信され、トップ・レベル・ネットワーク上に挿入され、アンロード処理は状態Ｓ１に戻る。

一実施形態では、スイッチ・ユニット内の構成データに対する線形メモリ・アドレスの順序は、スイッチ・ユニットの１列目の各行の第１のチャンクと、それに続くスイッチ・ユニットの２列目の各行の第１のチャンクと、それに続くスイッチ・ユニットの３列目の各行の第１のチャンクと、以下同様、最終列の各行の第１のチャンクまで続く。これにより、線形アドレス空間内の全てのスイッチ・ユニットの第１のチャンクがグループ化される。他のタイプの構成可能ユニットの第１のチャンクは、隣接するアドレス空間のグループ内にロードされる。次に、順番の後には、スイッチ・ユニットの１列目の各行の第２のチャンクと、それに続くスイッチ・ユニットの２列目の各行の第２のチャンクと、それに続くスイッチ・ユニットの３列目の各行の第２のチャンクと、以下同様、スイッチ・ユニットの最終列の最終行の最後のチャンクまでが続き、そして、全てのタイプの構成可能ユニットの第２のチャンクについて、同様に続く。

幾つかの実施形態では、ＥＦＲＧから構成、状態、及び、メモリ・データをアンロードまたはコピーする、または、状態情報及び、メモリ・コンテンツのみをアンロードまたはコピーする、または、状態情報のみをアンロードまたはコピーするめに、デバッグ等の目的で使用可能な構成データは使用せずに、アンロード処理を静止境界で使用することができる。

図１４は、マスタＡＧＣＵにおけるアレイ静止コントローラによる静止動作の実行を示す簡略化されたフローチャートである。この例では、静止動作は、例えば、アレイ静止コントローラ内の静止制御レジスタ内のビットをセットするホスト内のランタイム・プログラムからの外部リクエストに応じて開始される（１４００）。幾つかの実施形態では、静止動作は、デバッグを補助するために、構成されたブレークポイントに到達する実行によって検出された例外条件または実行イベント等、ＣＧＲＡ内で検出されたイベントに応答して開始することができる。これに応じて、ＭＡＧＣＵはアレイ内の構成可能ユニットに静止ＡＧＣＵ＿ＣＭＤコマンドを送信する（１４０１）。アレイ内のそれぞれのＥＦＲＧに関連付けられたアレイ内の静止ロジックは、コマンドに応答してＱ＿ＲＣＶ＿ＦＦフラグをセットする。ユニットのＱ＿ＰＣＰＴフラグがローである場合、静止ロジックは、その関連する構成可能ユニットのデイジー・チェーン上のＱ＿ＲＤＹ信号を立ち上げる（１４０２）。構成可能ユニットに対してＱ＿ＰＣＰＴフラグがハイである場合、静止ロジックはＥＦＲＧ内のユニットがＱＢを超えて進むのを停止し、関連する構成可能ユニットに対するＱ＿ＲＣＶ＿ＦＦフラグのセッティングの直後に、そのスキューＵＤＣがゼロに等しくなることによって示されるローカル実行フラグメントの静止境界上のデイジー・チェーン上のＱ＿ＲＤＹ信号を立ち上げる（１４０３）。ＭＡＧＣＵは、デイジー・チェーン上のＱ＿ＲＤＹ信号を受信するのを待つか、さもなければ、参加している構成可能ユニットのすべてから受信するのを待つ（１４０４）。参加する構成可能ユニットに対してＱ＿ＲＤＹ信号が受信されると、アレイは静止され、ＭＡＧＣＵはブレークポイントまたはチェックポイントに対するアンロード動作のような次の動作に移行することができ、ここで、構成可能ユニットのアレイのプログラム・リソース及び、データ・リソースは、静止状態の間にアンロードされる（１４０５）。或いは、例えば、再開コマンドを待つ、後続のブレークポイントを設定する、続行する前に他の外部情報やイベントを設定するために、タイルをアンロードせずに静止したままにしておくことができる。

チェックポイントでアンロードした後、複数の実行フラグメントを含む別のマシンを、新しい構成ファイルをロードすることによってアレイを使用して実装することができ、または、他の動作を実行することができる。チェックポイントでアンロードされた静止マシンは、チェックポイントの構成、状態、及び、データ・リソースを再ロードすることで、後で復元できる。したがって、静止は、ＣＧＲＡにプリエンプティブ・マルチタスキング能力及び、マルチプログラミング能力を提供する。

分散型ＣＧＲＡを静止させる能力はまた、デバッグ能力を強化する。例えば、内部ループの各反復のような微細な静止境界、または、エラー若しくは例外のようなイベントの発生時にトリガされ得る静止境界、または他のブレークポイント条件を規定することによって、ＣＧＲＡ実行は停止され、結果はユーザによって検査され、次いで、場合によっては状態を変更した後に再開され、または必要に応じて終了され得る。

本明細書で説明される静止ロジックと制御バリア・ネットワーク技術は、ＣＧＲＡデバイスを用いた実施態様に適している。また、本発明は、アレイ間に分配された実行フラグメント間の調整から利益を得ることができる処理ユニットのアレイを備える他のタイプの処理システムと共に利用することができる。

データ処理動作を安全かつ再現可能な方法で静止境界上で停止することを可能にする、データ処理動作または「マシン」を実施するように構成可能な構成可能処理ユニットのアレイを含む、処理システムを動作させるための方法が記載される。該方法は、アレイ間に分散され、静止境界を設定するように構成された静止ロジック回路によってサポートされ得る。

該方法は、データ処理動作のために構成データをアレイにロードすることを含むことができ、該ロードにより、アレイを、静止境界を有する対応する実行フラグメントのための複数の実行フラグメント・リソース・グループに構成する。データ処理動作の実行中に、該方法は、例えば、静止ロジック回路を使用して、静止コマンドをアレイ内の複数の実行フラグメント・リソース・グループに分配することを含むことができる。実行フラグメント・リソース・グループでは、静止ロジックが静止コマンドに応答して、対応する実行フラグメント内の静止コマンドに続く静止境界を検出し、静止境界を越える対応する実行フラグメントの実行を無効にし、対応する実行フラグメントに対する静止準備信号を立ち上げる。

静止境界は、構成データ内において、実行フラグメント・リソース・グループの構成可能ユニットにおける実行の構成された状態のセットによって、規定され得る。該方法は、各実行フラグメント・リソース・グループ内の構成可能ユニットに対して構成された状態のセットを検出することによって、静止境界を検出するための静止コマンドに応答することを含み得る。

この静止機能は、マルチコア・アレイ、ＣＧＲＡ、またはＦＰＧＡ等の構成可能な処理ユニットのアレイを含む、処理システムのための固有の動作シナリオを有効にする。例えば、動作方法は、ホストからのリクエストに応答して、またはＣＧＲＡ内で検出されたイベントに応答して、静止コマンドを分配して、データ処理動作を停止することを含み得る。複数の実行フラグメント・リソース・グループから静止準備信号を受信した後、該方法は、デバッグまたは他の目的で使用するために、アレイから構成及び状態をアンロードすることを含み得る。

図１５は、マルチタスキング及び、マルチプログラミング環境において実行され得る動作方法を示しており、ここで、ホストまたはランタイム・プログラムは、異なるレベルの優先順位を有する複数のデータ処理動作を管理することができる。例えば、１つのデータ処理動作は、より高い優先順位の動作が必要でない場合にのみ実行されるバックグラウンド動作と考えることができる。

図１５を参照すると、方法は、バックグラウンド動作であり得る動作１（１５００）を開始することを含むことができる。ホストが優先順位の高い動作を検出した場合（１５０１）、該方法は、好ましくは、上述したような技術を使用して、静止境界上のアレイ内の実行フラグメントを静止することによって（１５０２）、アレイを静止することができる。静止後、ホストは、静止点で動作１のための構成、状態、及び／またはメモリ・データをアンロードすることができる（１５０３）。この情報は、後の再開動作のために保存することができる。アンロード動作１の後、動作２のための構成ファイルがロードされる（１５０４）。動作２のロードに成功した後、動作を開始することができる（１５０５）。動作２は、完了するまで実行されるか、または別のイベントが動作を停止できることを示す（１５０６）。幾つかの例では、動作２は、本明細書で説明されるような静止動作を使用して停止することができる。動作２を停止した後、動作２の構成ファイルをアンロードすることができる（１５０７）。その後、静止時に動作１のためにアンロードされた構成、状態、及び／またはメモリ・データをアレイに再ロードすることができる（１５０８）。場合によっては、再ロードされたデータに、アンロードされたデータに対する状態の変化等の変更が含まれることがある。次に、再ロードされたデータによって表される静止境界で動作１を再開することができる（１５０９）。

他の動作では、本明細書で説明する静止機能を、例えばデバッグ中に有用なブレークポイント処理に使用することができる。図１６は、このタイプの動作のための簡略化されたフローチャートである。図１６において、動作１は、構成可能なアレイにおいて開始される（１６００）。ブレークポイント・リクエストが（１６０１）で受信されると、静止動作が実行され、静止コマンドに従って静止境界ＱＢ（ｉ）上でＥＦＲＧが静止する（１６０２）。静止後、ＱＢ（ｉ）での動作１に対する構成、状態及び／またはメモリ・データを保持メモリにコピーすることができる（１６０３）。次に、動作１を再開することができる（１６０４）。次に、ホストは、ＱＢ（ｉ）がコピーされる最後のブレークポイント（（ｉ）＝Ｎ？）であるかどうかを判定することによって、そのブレークポイント動作を完了したかどうかを判定することができる（１６０５）。ホストがステップ１６０５で終了していない場合、ホストは、インデックス（ｉ）をインクリメントし、次の静止境界に対して新しい静止コマンドを発行して、処理をステップ（１６０２）に戻すことができる。ホストがステップ（１６０５）で終了すると、ブレークポイント処理が終了し（１６０７）、ホストは静止境界のシーケンスでダウンロードされたブレークポイント・データを分析することができる。

処理ユニットの構成可能なアレイのチェックポイント、ブレークポイント、マルチタスキング、マルチプログラミング、及び、他の利用を可能にする静止技術が提供される。静止技術は、対応するマシンの静止境界を規定するように構成可能な静止回路によってサポートされるものとして説明される。

静止技術は、データ処理動作の命令シーケンスに挿入された命令の使用を必要とせず、静止機能のためのデータ・バス・リソースを必要としない。

本明細書で説明される実施形態では、処理ユニットのアレイは、命令のストリーム上で動作するＣＰＵ及び、ＧＰＵで利用されるような命令プロセッサを備えることができ、命令はステートフル動作を実行する。このタイプの命令プロセッサは、ビットにエンコードされた命令を使用してプログラムされる。タスクは、ソフトウェアによって順序付きリストとして指定される。これらのユニットには、「プログラム状態」を追跡するメカニズムを備えたハードウェア・アーキテクチャがある。プログラム状態は、数ある中で、メモリからフェッチされる次の命令を追跡するために、グローバル「プログラム・カウンタ」レジスタの形式を含む。更に、ハードウェア・アーキテクチャには、フェッチされたこれらの命令をデコードして実行するためのパイプラインもある。換言すると、これらのアーキテクチャは、実行中に命令のストリームが流れるパイプラインを含み、そこでは、各命令が動作を実行し、ハードウェア状態を更新する。このようなアーキテクチャのチェックポインティングには、プログラム・カウンタやレジスタ・ファイル等、アーキテクチャのステートフル素子の保存が含まれる。ＧＰＵは、例えば、一般にメモリの共有プールに依存するコア内の分散型演算ユニットのアレイから構成することができる。分散型演算ユニットは、通常のプロセッサのように、フェッチされ、デコードされ、実行される命令を書き込むことによってプログラム可能なプログラム内蔵式プロセッサである。同期と通信は、共有メモリ上で動作する命令のシーケンスを実行することによって実現される。

本明細書で説明される技術の他の実施形態では、処理ユニットのアレイは、構成可能ユニットの海を通って流れるデータ及び、制御メッセージのストリーム（命令とは対照的に）に対して動作するＣＧＲＡの意味で、構成可能ユニットを含み、該構成可能ユニットは、ビットファイル等の構成データを使用してプログラムされる。構成可能ユニットに基づく実施形態は、様々な方法で実行を管理しなければならないので、記憶されたプログラム命令ベースのプロセッサとは異なって見え且つ動作するアーキテクチャを有する。

ＣＧＲＡ及びＦＰＧＡの場合のように、構成可能ユニットのアレイは、構成ビットという異なるプログラミング規約を有する。これらのアーキテクチャは、命令をフェッチして処理するハードウェアを有しない。これらは、命令プロセッサの意味で、グローバルな「プログラム・カウンタ」レジスタを持たず、命令ストリームをフェッチ、デコード、及び、実行するために構築されたパイプラインを持たない。その代わりに、構成可能な実行ユニット及び、ステートフル素子は、チップ上に物理的に分散され、プログラム可能相互接続を使用して共に接続される。プログラムは命令のストリームではない。構成ビットは、アプリケーション対してカスタム制御及び、データパスを構築するために、構成可能な実行ユニットをプログラムする。命令のストリームの代わりに、構成可能ユニットは、他のデータ及び、制御メッセージを生成するために、データ及び、制御メッセージのストリーム上で動作するようにプログラムされる。これにより、斯かるアーキテクチャは、本質的に分散され、単一のグローバル・プログラム状態を必要としない。

構成可能ユニットのアレイ内の構成可能ユニットは、構成データまたはビットファイルをロード及び、アンロードする能力のため、再構成可能である。本明細書で説明される構成可能ユニットのすべての実施形態は、好ましい代替形態では再構成可能ユニットを使用して実施される。

ＣＧＲＡ及び同等のアーキテクチャでの実行の分散性により、ハードウェアの構築とスケーリングが容易になるが、チェックポインティング等のグローバル同期動作を実行するのは困難になる。

これらのアーキテクチャのチェックポインティング・スキームは、分散型プロトコルを使用し、単一のグローバル・プログラム状態に依存しない構成可能なロジックをサポートして、本明細書で説明したように、実施することができる。

ＣＧＲＡは、再構成可能な構成要素のアレイを含む。構成要素は、いくらか専門化された演算ユニット及び、メモリ・ユニットを備えることができる。これらのユニットは、ユニット間通信及び、同期を可能にするために、ファブリックによって接続される。構成要素は、幾つかの方法で再構成することができるが、多くの場合、ＦＰＧＡと同様に、ビットファイルからロードされた構成ビットの制御下で、それらの行動を変更することによって、直接ハードウェア再構成に依存する。命令はフェッチ、デコード、または実行されない。代わりに、ステート・マシンは、動作のシーケンスを開始するためにビットファイル・コンテンツによって構成される。

その結果、ＣＧＲＡのユニットは、命令を実行することによって同期（静止を含む）することができない。ＣＧＲＡのユニットは、別の手段を使用しなければならない。この好ましい実施形態では、ＣＧＲＡは変わりとなるメカニズムを使用することができるが、ＣＧＲＡのユニットは、制御ネットワーク内の制御ワイヤ上のパルスとして表されるトークンを交換する。

本発明は、上記で詳述された好ましい実施形態及び実施例を参照することによって開示されるが、これらの実施例は限定的な意味ではなく、例示的な意味で意図されたものと理解されるべきである。当業者であれば、本発明の精神及び以下の特許請求の範囲の技術的範囲内における修正及び組合せを容易に想到すると予期される。

Claims

データ処理動作の実行フラグメントを実施するために、アレイ内に複数のメンバを有する処理ユニットのセットを割り当てるように構成可能な処理ユニットのアレイと、
前記アレイ内の処理ユニットに結合され、制御信号に応答して、前記アレイ内の前記データ処理ユニットのセットを、前記実行フラグメントの静止境界上で静止させるように構成可能な静止ロジックと、
を備える処理システム。
前記処理ユニットのアレイが、前記データ処理動作のそれぞれの実行フラグメントを実施するために、前記アレイ内の前記処理ユニットのセットを含む複数の処理ユニットのセットを割り当てるように構成可能であり、
前記静止ロジックが、前記アレイ内の処理ユニットに静止制御信号を分配し、それぞれの前記処理ユニットのセットから静止準備信号を受け取る静止コントローラを含む請求項１に記載の処理システム。
前記静止ロジックが、前記実行フラグメント内に複数の静止境界を規定し、前記複数の静止境界内の共通の静止境界上で、前記処理ユニットのセット内の前記処理ユニットを静止させるように構成可能である請求項１に記載の処理システム。
前記静止ロジックが、前記処理ユニットのセットにおける前記処理ユニット間の前記実行フラグメントの進行の差異を追跡するためのスキュー・カウンタを含む請求項１に記載の処理システム。
前記セット内の少なくとも１つの処理ユニットが、入力のプロデューサとして構成され、前記セット内の少なくとも１つの処理ユニットが、入力のコンシューマとして構成され、前記静止ロジックが、前記静止境界上で前記プロデューサを停止させるように構成可能である請求項１に記載の処理システム。
前記実行フラグメントが複数の処理ループを含み、
ループ・カウンタを含み、
静止ロジックが前記ループ・カウンタに応答して前記静止境界を検出する請求項１に記載の処理システム。
前記セット内の少なくとも１つの処理ユニットが、入力のプロデューサとして構成され、前記セット内の少なくとも１つの処理ユニットが、入力のコンシューマとして構成され、前記処理システムが、前記アレイ内の処理ユニットに結合された制御バリア・ネットワークを含み、
前記制御バリア・ネットワークが、
前記制御バリア・ネットワーク内に信号ルートを形成するように構成可能な制御バス、及び、
前記制御バス及び前記処理ユニットのアレイに接続された入力及び出力を有する複数のバリア・ロジック・ユニットとを備え、
前記複数のバリア・ロジック・ユニットは、
前記処理ユニットのセットに結合され、前記処理ユニットのセットにおいて静止境界を通知する入力のプロデューサからの信号を消費し、前記プロデューサからの信号に基づいてプロデューサ・バリア・トークンを生成するように構成可能なロジック回路と、
前記処理ユニットのセットに結合され、前記静止境界に対する前記処理ユニットのセットへの前記入力の利用を通知する入力のコンシューマからの信号を消費し、前記コンシューマからの信号に基づいてコンシューマ・バリア・トークンを生成するように構成可能なロジック回路と、
前記制御バスに接続するように構成可能であり、前記プロデューサと前記コンシューマとの間の前記実行フラグメントの進行の差異を追跡するために、前記プロデューサ・バリア・トークンと前記コンシューマ・バリア・トークンを受信するように構成可能なスキュー・カウンタを含む前記静止ロジックと、を含む請求項１に記載の処理システム。
前記複数のバリア・ロジック・ユニット内のロジック・ユニットが、前記プロデューサ・バリア・トークンに応じて構成可能なイネーブル回路を含む請求項７に記載の処理システム。
静止ロジックが、前記アレイ内の対応する処理ユニットに関連付けられた静止準備回路を含み、前記アレイ内の処理ユニット間でデイジー・チェーンで接続される請求項１に記載の処理システム。
前記制御信号を前記静止ロジックに転送するロジックを含むアレイ静止コントローラを含み、
前記静止準備ロジックが、前記デイジー・チェーンの前のメンバからの前記静止準備信号が受信されると、前記静止準備信号を前記デイジー・チェーン上に転送する請求項９に記載の処理システム。
前記静止準備回路が、構成可能な静止参加フラグと、前記静止参加フラグの状態に応じて前記静止準備ロジックをオーバーライドするロジックを含む請求項１０に記載の処理システム。
構成ファイルを使用して構成可能な構成可能ユニットのアレイであって、データ処理動作のそれぞれの実行フラグメントを実施するために、前記アレイ内に複数の構成可能ユニットのセットを割り当てるように構成可能な前記構成可能ユニットのアレイと、
前記アレイ内の構成可能ユニットに結合され、静止制御信号に応答して、前記アレイ内の前記構成可能ユニットのセットを、前記それぞれの実行フラグメントの静止境界上で静止させるように、且つ、対応する構成可能ユニットのセットの静止が準備状態であるときは、前記それぞれの実行フラグメントに対する静止準備信号を転送するように構成可能な静止ロジックと、
前記静止制御信号を前記アレイ内の構成可能ユニットに分配し、前記静止ロジックから前記それぞれの実行フラグメントに対する静止準備信号を受信するアレイ静止コントローラと、
を備える処理システム。
前記静止ロジックが、前記アレイ内に前記構成可能ユニットのセット内の構成可能ユニットに関連付けられた構成可能静止参加フラグと、前記静止参加フラグの特定の状態に応じて前記関連付けられた構成可能ユニットに対して前記静止ロジックをオーバーライドするロジックを含む請求項１２に記載の処理システム。
前記静止ロジックが、前記それぞれの実行フラグメントに対して複数の静止境界を規定するように、前記それぞれの実行フラグメントに対する前記複数の静止境界内の共通の静止境界上で、前記複数の構成可能ユニットのセット内の所与の構成可能ユニットのセット内の前記構成可能ユニットを静止させるように構成可能である請求項１２に記載の処理システム。
前記複数のセット内の所与の構成可能ユニットのセットに対して、前記所与のセット内の少なくとも１つの構成可能ユニットが入力のプロデューサとして構成され、前記所与のセット内の少なくとも１つの構成可能ユニットが入力のコンシューマとして構成され、前記処理システムが、前記アレイ内の構成可能ユニットに結合された制御バリア・ネットワークを含み、
前記制御バリア・ネットワークが、
前記制御バリア・ネットワーク内に信号ルートを形成するように構成可能な制御バス、及び、
前記制御バス及び前記構成可能ユニットのアレイに接続された入力及び出力を有する複数のバリア・ロジック・ユニットとを備え、
前記複数のバリア・ロジック・ユニットが、
前記所与の構成可能ユニットのセットに結合され、前記所与の構成可能ユニットのセットにおいて静止境界を通知する入力のプロデューサからの信号を消費し、前記プロデューサからの信号に基づいてプロデューサ・バリア・トークンを生成するように構成可能なロジック回路と、
前記所与の構成可能ユニットのセットに結合され、前記静止境界に対する前記所与の構成可能ユニットのセットにおける前記入力の使用を通知する入力のコンシューマからの信号を消費し、前記コンシューマからの信号に基づいてコンシューマ・バリア・トークンを生成するように構成可能なロジック回路と、
前記制御バスに接続するように構成可能であり、前記プロデューサと前記コンシューマとの間の前記実行フラグメントの静止境界を越える進行の差異を追跡するために、前記プロデューサ・バリア・トークン、及び、コンシューマ・バリア・トークンを受信するように構成可能な前記所与のセットに対するスキュー・カウンタを含む前記静止ロジックと、
を含む請求項１２に記載の処理システム。
前記複数のバリア・ロジック・ユニット内のロジック・ユニットが、前記プロデューサ・バリア・トークンに応じて構成可能なイネーブル回路を含む請求項１５に記載の処理システム。
構成可能な処理ユニットのアレイを含む処理システムを動作させる方法であって、
前記アレイ内の処理ユニットのセットにおけるデータ処理動作の実行フラグメントの進行を監視すること、及び、
制御信号に応答して、前記実行フラグメントの静止境界上で前記アレイ内の前記データ処理ユニットのセットを静止させることを含む方法。
前記データ処理動作のそれぞれの実行フラグメントの前記アレイ内の処理ユニットのセットを含む前記アレイ内の処理ユニットの複数セットにおける進行を監視すること、及び、
前記アレイ内の処理ユニットへ静止制御信号を分配すること、及び、前記処理ユニットの各セットから静止準備信号を受信することを含む請求項１７に記載の方法。
前記処理システムが、前記実行フラグメント内に複数の静止境界を規定するロジックを含み、
前記複数の静止境界の内、制御信号の後の共通の静止境界上で前記処理ユニットのセット内の前記処理ユニットを静止させることを含む請求項１８に記載の方法。
前記処理ユニットのセット内の前記処理ユニット間の静止境界を越える前記実行フラグメントの進行の差異を追跡する請求項１７に記載の方法。
前記実行フラグメントが複数の処理ループを含み、
前記複数の処理ループにおける処理ループのカウントに応答して、前記静止境界を検出することを含む請求項１７に記載の方法。
前記セット内の少なくとも１つの処理ユニットが、入力のプロデューサとして構成され、前記セット内の少なくとも１つの処理ユニットが、入力のコンシューマとして構成され、
前記プロデューサを前記静止境界で停止させること、前記コンシューマが前記静止境界の前に生成された前記入力を消費した後に、前記処理ユニットのセットに対して静止準備信号を生成することを含む請求項１７に記載の方法。
前記セット内の少なくとも１つの処理ユニットが、入力のプロデューサとして構成され、前記セット内の少なくとも１つの処理ユニットが、入力のコンシューマとして構成され、前記処理システムが、前記アレイ内の処理ユニットに結合された制御バリア・ネットワークを含み、
前記制御バリア・ネットワークが、
前記制御バリア・ネットワーク内に信号ルートを形成するように構成可能な制御バス、及び、
前記制御バス及び前記処理ユニットのアレイに接続された入力及び出力を有する複数のバリア・ロジック・ユニットとを備え、
前記複数のバリア・ロジック・ユニットが、
前記処理ユニットのセットに結合され、前記処理ユニットのセットにおいて静止境界を通知する入力のプロデューサからの信号を消費し、前記プロデューサからの信号に基づいてプロデューサ・バリア・トークンを生成するように構成可能なロジック回路を構成すること、
前記処理ユニットのセットに結合され、前記静止境界に対する前記処理ユニットのセットへの前記入力の利用を通知する入力のコンシューマからの信号を消費し、前記コンシューマからの信号に基づいてコンシューマ・バリア・トークンを生成するように構成可能なロジック回路を構成すること、及び、
前記プロデューサ・バリア・トークンと前記コンシューマ・バリア・トークンを使用して前記プロデューサと前記コンシューマとの間の前記実行フラグメントの進行の差異を追跡することを含む請求項１７に記載の方法。
前記プロデューサ・バリア・トークンに応答していることを含む請求項２３に記載の方法。
前記アレイ内の前記処理ユニットのセットに対して静止準備を生成すること、及び、前記アレイ内の前記処理ユニット間のデイジー・チェーン制御バスを使用して前記静止準備信号をコントローラに配信することを含む請求項１７に記載の方法。
前記セット内の少なくとも１つの処理ユニットにおいて静止参加フラグを設定することにより前記アレイ内に前記処理ユニットを構成すること、前記静止参加フラグの状態に応じて前記静止準備信号の生成を可能または不可能にすることを含む請求項２５に記載の方法。
構成可能な処理ユニットのアレイを含む処理システムを動作させる方法であって、
データ処理動作のために構成データをアレイにロードし、これにより、前記アレイを、静止境界を有する対応する実行フラグメントのための複数の実行フラグメント・リソース・グループに構成すること、
静止コマンドを前記アレイ内の前記複数の実行フラグメント・リソース・グループに分配すること、及び、
前記実行フラグメント・リソース・グループにおいて、前記静止コマンドに応答して、前記対応する実行フラグメント内の前記静止コマンドに続く静止境界を検出し、前記静止境界を越える対応する前記実行フラグメントの実行を無効にし、前記対応する実行フラグメントに対する静止準備信号を立ち上げることを備える方法。
前記静止境界が、前記構成データ内において、前記対応する実行フラグメントの前記実行フラグメント・リソース・グループの前記構成可能ユニットにおける実行の構成された状態のセットによって規定され、静止境界を検出するために前記静止コマンドに応答することが、前記構成された状態のセットを検出することを含む請求項２７に記載の方法。
前記データ処理動作を停止するために、
前記静止コマンドを分配すること、及び、
前記複数の実行フラグメント・リソース・グループから前記静止準備信号を受信した後、前記アレイから構成及び状態データをアンロードすることを含む請求項２７に記載の方法。
チェックポイント・データをアンロードし、前記データ処理動作を再開するために、
前記静止コマンドを分配すること、及び、
前記複数の実行フラグメント・リソース・グループから前記静止準備信号を受信した後、前記アレイから構成及び状態データをコピーし、前記データ処理動作を再開することを含む請求項２７に記載の方法。
異なるデータ処理動作を実施するために、
前記静止コマンドを分配すること、
前記複数の実行フラグメント・リソース・グループから前記静止準備信号を受信した後、前記アレイから構成及び状態データをアンロード及び保存し、前記異なるデータ処理動作のための構成ファイルをロードし、前記異なるデータ処理動作を実行すること、及び、
前記異なるデータ処理動作の前記構成ファイルをアンロードし、前記保存した構成及び状態データをロードし、当初の前記データ処理動作を前記静止境界で再開することを含む請求項２７に記載の方法。
前記アレイ内で発生する内部イベントに応答して、前記静止コマンドを分配することを含む請求項２７に記載の方法。
前記アレイの外部で発生する外部イベントに応答して、前記静止コマンドを分配することを含む請求項２７に記載の方法。
データ処理動作を実行するように構成可能な、再構成可能ユニットと相互接続とのアレイと、
制御信号に応答して前記アレイを静止させるように構成可能な、前記アレイ内の前記再構成可能ユニットに結合された静止ロジックと、
を含む処理システム。
前記制御信号が、前記アレイ内で発生する内部イベントに応答して生成される請求項３４に記載の処理システム。
前記制御信号が、前記アレイの外部で発生する外部イベントに応答して生成される請求項３４に記載の処理システム。
マルチタスキングを用いてランタイム・プログラムを実行するホストプロセッサを含み、
前記制御信号がマルチタスキングをサポートして生成される請求項３４に記載の処理システム。
チェックポインティングを用いてランタイム・プログラムを実行するホストプロセッサを含み、
前記制御信号がチェックポインティングをサポートして生成される請求項３４に記載の処理システム。
マルチプログラミングを用いてランタイム・プログラムを実行するホストプロセッサを含み、
前記制御信号が前記アレイ内で発生する内部イベントに応答して生成され、前記ランタイム・プログラムが前記マルチプログラミングをサポートして静止後に前記アレイを再構成する請求項３４に記載の処理システム。