JP2022510852A

JP2022510852A - 再構成可能データ・プロセッサの構成ロード

Info

Publication number: JP2022510852A
Application number: JP2021529097A
Authority: JP
Inventors: マニッシュケイ．シャア，; ラムシヴァラマクリシュナン，; マークルットレル，; デイヴィッドブライアンジャクソン，; ラグープラバカール，; サムティジャイラス，; グレゴリーフレデリックグロースキー，; プラモッドナタラジャ，
Original assignee: SambaNova Systems Inc
Current assignee: SambaNova Systems Inc
Priority date: 2018-11-21
Filing date: 2019-11-19
Publication date: 2022-01-28
Also published as: CN113383327B; CN113383327A; US20200159544A1; US10831507B2; EP3884394A1; US20210055940A1; KR20210116444A; CA3120683C; CA3120683A1; US11609769B2; WO2020106768A1

Abstract

再構成可能データ・プロセッサは、バス・システムと、前記バス・システムに接続された構成可能ユニットのアレイと、前記バス・システムに接続された構成ロード・コントローラを備える。前記アレイ内の構成可能ユニットは、対応する構成可能ユニットに特有の構成データの複数のサブファイルを含むユニットファイルを格納する構成データストアを含む。複数の構成可能ユニット内の構成可能ユニットのそれぞれは、バス・システムを介して構成可能ユニットに特有のユニットファイルのサブファイルを受信すること、及び受信したサブファイルを構成可能ユニットの構成ストアにロードすることを含む、ユニット構成ロード処理を実行するロジックを含む。構成ロード・コントローラは、アレイ内の複数の構成可能ユニット用のユニットファイルを備える構成ファイルを分配することを含む、アレイ構成ロード処理を実行するロジックを含む。【選択図】図１

Description

優先出願

本出願は、２０１８年１１月２１日に出願された米国出願第１６／１９７，８２６号（代理人整理番号ＳＢＮＶ１００１－１Ａ）の利益を主張し、この米国出願は、参照により本明細書に組み込まれる。

本技術は、再構成可能アーキテクチャの構成に関し、特に粗粒度再構成可能アーキテクチャの構成に適用することができる。

フィールド・プログラマブル・ゲートアレイＦＰＧＡを含む再構成可能プロセッサは、コンピュータ・プログラムを実行する汎用プロセッサを使用して達成され得るものよりも効率的または高速に様々な機能を実装するように構成され得る。いわゆる粗粒度再構成可能アーキテクチャ（例えば、ＣＧＲＡ）が開発されており、このアーキテクチャでは、アレイ内の構成可能ユニットが、典型的なより細粒度のＦＰＧＡで使用されるよりも複雑であり、様々なクラスの機能のより高速またはより効率的な実行を可能にすることができる。例えば、機械学習及び人工知能作業負荷のためのエネルギー効率のよいアクセラレータの実施態様を可能にすることができるＣＧＲＡが提案されている。Prabhakar, et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns"、ISCA '17, June 24-28, 2017, Toronto, ON, Canadaを参照されたい。

再構成可能プロセッサの構成には、構成記述をコンパイルして構成ファイル（ビットストリームまたはビットファイルと呼ばれることもある）を生成し、構成ファイルをプロセッサ上の構成可能ユニットに分配することが含まれる。処理を開始するには、構成ファイルをその処理用にロードする必要がある。処理を変更するには、構成ファイルを新しい構成ファイルに置き換える必要がある。

構成ファイルを分配及びロードするための手続き及びサポート構造は複雑になる可能性があり、手続きの実行には時間がかかる場合がある。

動作効率を最大にし、再構成可能プロセッサ上でプログラムをスワップできるようにするために、構成状態を効率的にロードし、構成及びプログラム状態を格納する手段が必要である。

グリッドまたはタイル状に配置されたプログラマブル素子、及び他のタイプの再構成可能プロセッサを含む粗粒度再構成可能アレイ・プロセッサのための構成及び制御状態の効率的なロード及びアンロードを可能にする技術について説明する。

本明細書で説明される技術は、メモリに記憶されたフォーマットされた構成ファイルから構成データをロードし、パラレル及びシリアル手法の組み合わせを介して再構成可能プロセッサに転送する能力を提供する。また、本明細書で説明する技術は、プログラム制御及びデータ状態を同様にフォーマットされたアンロード構成ファイルにアンロードする効率的な手段を提供する。ロード及びアンロード技術は、組み合わせて、プログラムを再構成可能プロセッサとの間で迅速にスワップし、時分割及び他の仮想化手法を可能にするプロトコルをサポートすることができる。

本明細書では、バス・システムと、バス・システムに接続された構成可能ユニットの１または複数のアレイとを備える再構成可能プロセッサに使用可能な構成及び再構成手続き及び構造について説明する。１または複数のアレイ内の構成可能ユニットは、本明細書でユニットファイルと呼ばれる構成データを記憶するために、例えばラッチのシリアル・チェーンを使用して実装される構成データストアを含む。構成可能ユニットに特有のユニットファイルは、構成データの複数のサブファイルを含むことができる。本明細書で説明する例では、サブファイルがバス・システムを使用して効率的に分配するのに適したサイズを有するデータの「チャンク」からなる。

複数の構成可能ユニット内の構成可能ユニットは、バス・システムを介して、構成可能ユニットに特有のユニットファイルのサブファイルを受信し、受信したサブファイルを構成可能ユニットの構成ストアにロードすることを含む、ユニット構成ロード処理を実行するロジックをそれぞれ含むことができる。幾つかの実施形態では、複数の構成可能ユニット内の構成可能ユニットが、構成ロード処理でも使用されるバス・システム内のルートを構成後の実行中に使用する。

アレイ構成ロード処理を実行するためのロジックを含む構成ロード・コントローラを説明する。アレイ構成ロード処理は、マシンを実装するために、アレイ内の複数の構成可能ユニットのためのユニットファイルを含む構成ファイルを分配することを含む。

本技術の一態様では、ユニットファイルが複数の順序付けられたサブファイルを含むように編成することができる。異なる構成可能ユニットに特有のユニットファイルは、幾つかの実施形態において、異なる数の順序付けられたサブファイルを有することができる。構成可能ユニットのアレイ用の構成ファイルは、ユニットファイルのサブファイルが他のユニットファイルに対して同じ順序の他のサブファイルとインターリーブされるように配置され、構成ファイル内のサブファイルの位置がサブファイルのアレイ内の構成可能ユニットと、構成可能ユニットに特有のユニットファイル内のその順序とを示すように配置される。

本明細書で説明するアレイ構成ロード処理の一例は、Ｎラウンドの分配シーケンス（ｉ＝０～Ｎ－１におけるラウンドＲ（ｉ））で、アレイ内の複数の構成可能ユニットにサブファイルを送信することによって実行される。各ラウンドＲ（ｉ）において、処理はバス・システムを介して、最大（ｉ＋１）のサブファイルを含むユニットファイルを有する構成可能ユニットに、順序（ｉ）の１つのサブファイルを転送する。

複数の構成可能ユニット内の構成可能ユニットの構成データストアはシリアル・チェーンを含むことができ、ユニット構成ロード処理は、１つのバス・サイクルにおいて、分配シーケンスの１つのラウンドにおいてバス・システムから構成可能ユニットに特有のユニットファイルの第１のサブファイルの全部または一部を受信し、分配シーケンスの次のラウンドにおいて第２のサブファイルを受信する前に、次のバス・サイクルにおいて受信した第１のサブファイルをシリアル・チェーン内にプッシュすることを開始し、分配シーケンスの次のラウンドにおいて後のバス・サイクルのバス・システムから第２のサブファイルを受信し、先に受信されたサブファイルをシリアル・チェーン内にプッシュした後のバス・サイクル中に受信した第２のサブファイルをシリアル・チェーン内にプッシュすることを開始することによって実行できる。

分配シーケンスの幾つかのラウンドでは、第１のサブファイルは、複数の順序付けられたサブファイル内の第２のサブファイルが構成可能ユニットによって受信される前に、構成可能ユニット内でユニット構成ロード処理によって使用される。

アレイは複数のタイプの構成可能ユニットを含むことができ、異なるタイプの構成可能ユニットのためのユニットファイルは、構成データの異なる数のサブファイルを含むことができる。例えば、第１タイプの構成可能ユニットのユニットファイルにはＺ１個のチャンクが含まれ、第２タイプの構成可能ユニットのユニットファイルにはＺ２個のチャンクが含まれ、Ｚ１はＺ２未満である。アレイ構成ロード処理は、（ｉ）が０からＺ１－１までにおいて、ラウンドＲ（ｉ）で分配される第１のタイプ及び第２のタイプの全ての構成可能ユニットに対するユニットファイルのサブファイル（ｉ）を含む構成ファイルのセグメントを検索し、次に、（ｉ）がＺ１からＺ２－１までにおいて、ラウンドＲ（ｉ）で分配される第２のタイプの全ての構成可能ユニットに対するユニットファイルのサブファイル（ｉ）を含む構成ファイルのセグメントを検索することができる。このプロトコルは、ユニットファイル内に異なる数のサブファイルを有する、任意の数のタイプの構成可能ユニットに拡張することができる。

アレイ構成ロード処理を開始する１つの手法では、構成ファイルのメモリ内の位置を識別する構成ロード・コマンドをホスト処理から受信でき、そのコマンドに応答して、処理が１以上のメモリ・アクセス・リクエストを生成する。構成ファイルのリクエストされた部分が戻されると、分配シーケンスを実行できる。

複数のユニットファイルのサブファイルは、分配シーケンスに一致するインターリーブ方式で構成ファイルに配置することができる。この構成ファイルの配置により、構成ロード処理は、構成可能ユニットと、構成ファイル内のサブファイルの位置による各サブファイルの複数の順序付けられたサブファイル内の位置とを示すことができる。アレイ構成ロード処理は、構成ファイル内のサブファイルの位置に基づいて、サブファイルを構成可能ユニットにルーティングすることを含むことができる。

アレイ構成ロード処理によって構成データを受信する複数の構成可能ユニットは、構成可能ユニットのアレイ内の全ての構成可能ユニットを含むことができる。構成ファイルによって実装されているマシンが構成可能ユニットの全てを利用しない場合、１以上の使用されていない構成可能ユニットのユニットファイルは、ノーオペレーション構成を実施できる。また、アレイ構成ロード処理は、アレイ構成ロード処理によって構成データを受信する複数の構成可能ユニットが構成可能ユニットのアレイ内の全て構成可能ユニットよりも少ないユニットを含むように構成することができる。

本明細書で説明される実施例における構成可能ユニットのアレイ内の構成可能ユニットは、アレイ構成ロードロジックで開始及び終了するデイジー・チェーンで接続されたそれぞれのロード完了状態ロジックを含む。デイジー・チェーンを使用して構成ファイルのロードが成功したことを確認する手続きにおいて、アレイ構成ロードロジックは構成ファイルが分配された後にデイジー・チェーン上において構成ロード完了信号を転送し、アレイ内の各構成可能ユニットにおいて、構成ロード完了状態ロジックは、チェーンの前のメンバからの構成ロード完了信号が受信され、それ自体のユニットファイルのロードが完了したときに、デイジー・チェーン上において構成ロード完了信号を転送する。

本明細書では、構成可能ユニットの複数のアレイをサポートするバス・システムについて説明し、そこで、各アレイはタイルと呼ぶことができる。説明されるバス・システムは、外部データ・インタフェース（１以上のＰＣＩＥまたはＤＤＲタイプのインタフェース等）及び各タイルのためのアレイ・インタフェースに接続されるトップ・レベル・ネットワークと、対応するタイルのためのアレイ・インタフェースと、構成可能ユニットのアレイ内の構成可能ユニットとに接続されるアレイ・レベル・ネットワークを含む。アレイ構成ロード処理には、ホスト処理から、構成ファイルのメモリ内の位置を識別する構成ロード・コマンドを受信し、外部データ・インタフェースを介して構成ファイルを取得するコマンドに応答して、トップ・レベル・ネットワークを介して１以上のメモリ・アクセス・リクエストを生成することができる。アレイ構成ロード処理は、構成ファイル内のサブファイルの位置によって示されるアドレスを使用して、サブファイルをアレイ・レベル・ネットワーク経由で構成可能ユニットにルーティングできる。

アレイ構成アンロード処理を実行するロジックを含む構成アンロード・コントローラについて説明する。アレイ構成アンロード処理は、アレイ内の複数の構成可能ユニットにアンロード・コマンドを分配して、対応する構成可能ユニットに特有のユニットファイルをアンロードすること、但し、該ユニットファイルのそれぞれが複数の順序付けられたサブファイルを備える、構成アンロード・コントローラで構成可能ユニットのアレイからサブファイルを受信することを含む。構成アンロードファイルは、サブファイルがその一部であるユニットファイルの構成可能ユニットと、ユニットファイル内のサブファイルの順序に従って、受信したサブファイルをメモリ内に配置することでアセンブルされる。構成アンロードファイルの構造は、上述の構成ファイルの構造と同じでも構わない。複数の構成可能ユニット内の構成可能ユニットは、構成可能ユニットの構成ストアからサブファイルをアンロードし、バス・システムを介して（例えば、アレイ・レベル・ネットワークを介して）、構成可能ユニットに特有のユニットファイルのサブファイルを構成アンロード・コントローラに送信することを含む、ユニット構成アンロード処理を実行するロジックを含むことができる。アンロードされたサブファイルは、構成アンロード・コントローラが特定の順序で受信する必要はない。次いで、構成アンロード・コントローラは、バス・システムを介して（例えば、トップ・レベル・ネットワークを介して）、ユニット・サブファイルをメモリに送信する。

再構成可能データ・プロセッサの構成方法も提供されている。

本明細書で説明される技術の他の態様及び利点は、以下の図面、詳細な説明、及び特許請求の範囲を検討することによって理解することができる。

ホスト、メモリ、及び再構成可能データ・プロセッサを含むシステムを示すシステム図である。

トップ・レベル・ネットワーク及びＣＧＲＡ(粗粒度再構成可能アーキテクチャ）の構成要素の簡略化されたブロック図である。

図２の構成で使用可能なタイル及びアレイ・レベル・ネットワークの簡略図であり、アレイ内の構成可能ユニットは、アレイ・レベル・ネットワーク上のノードである。

アレイ・レベル・ネットワーク内の素子を接続する例示的なスイッチ・ユニットを示す。

例示的な構成可能ユニットを示すブロック図である。

構成可能ユニットにおけるユニット構成ロード処理を制御するために使用することができるステート・マシン図の一例を示す。

構成可能ユニット内の構成ストアのロードをサポートする構造の論理的表示である。

再構成可能データ・プロセッサに接続されたホストの動作を示すフローチャートである。

マスタＡＧＣＵの一部とすることができ、そうでなければタイル内の構成可能ユニットのアレイと通信することができる構成ロード・コントローラの動作を示すフローチャートである。

構成ファイルの編成例を示す図である。

図２及び図３のようなシステムのアレイ構成ロード処理を実行するロジックの一例を示すステート・マシン図である。

図１０のような分配シーケンスの早期ラウンドのタイミングを示すタイミング図である。

構成可能ユニットにおけるユニット構成ロード処理を示すフローチャートである。

図２及び図３のようなシステムのアレイ構成アンロード処理を実行するロジックの一例を示すステート・マシン図である。

構成可能ユニットにおけるユニット構成アンロード処理を示すフローチャートである。

以下の説明は、典型的には特定の構造的な実施形態及び方法を参照する。本技術を、具体的に開示された実施形態及び方法に限定する意図はないが、本技術は他の特徴、素子、方法、及び実施形態を使用して実施されてもよいことを理解されたい。好ましい実施形態は、本技術を例示するために記載されており、請求項によって定義される本技術の範囲を限定するものではない。当業者であれば、以下の説明に対して様々な均等な変形を認識するのであろう。

図１には、ホスト１２０、メモリ１４０、再構成可能データ・プロセッサ１１０を含むシステムを説明するシステム図が示されている。図１の例に示すように、再構成可能データ・プロセッサ１１０は、構成可能ユニットのアレイ１９０と、構成ロード／アンロード・コントローラ１９５とを含む。本明細書で使用される「構成ロード／アンロード・コントローラ」という語句は、構成ロード・コントローラと構成アンロード・コントローラとの組合せを指す。構成ロード・コントローラ及び構成アンロード・コントローラは別個のロジック及びデータ・パス・リソースを使用して実装されてもよく、または特定の実施形態に適合するように、共用のロジック及びデータ・パス・リソースを使用して実装されてもよい。幾つかの実施形態では、システムは本明細書で説明するタイプの構成ロード・コントローラのみを含むことができる。幾つかの実施形態では、システムは本明細書で説明するタイプの構成アンロード・コントローラのみを含むことができる。

プロセッサ１１０は、ホスト１２０に接続された外部Ｉ／Ｏインタフェース１３０と、メモリ１４０に接続された外部Ｉ／Ｏインタフェース１５０とを含む。Ｉ／Ｏインタフェース１３０、１５０は、バス・システム１１５を介して、構成可能ユニットのアレイ１９０と、構成ロード／アンロード・コントローラ１９５とに接続する。バス・システム１１５は、データの１つのチャンクを搬送するバス幅を有してもよく、本例ではバス幅は１２８ビットとすることができる（全体を通した１２８ビットへの言及は、より一般的にはチャンク・サイズの一例と見なすことができる）。一般に、構成ファイルのチャンクはビット数Ｎのデータを有することができ、バス・システムはＮビットのデータを１つのバス・サイクルで転送するように構成することができ、ここで、Ｎは、任意の実用的なバス幅である。分配シーケンスで分配されるサブファイルは、１つのチャンク、または特定の実施形態に適した他のデータ量で構成することができる。本明細書では、それぞれがデータの１チャンクから成るサブファイルを使用する手続きについて、説明される。もちろん、この技術は、例えば２つのバス・サイクルで分配された２つのチャンクで構成されるサブファイルを含む、異なるサイズのサブファイルを分配するように構成することができる。

構成ファイルを用いて構成可能ユニットのアレイ１９０内の構成可能ユニットを構成するために、ホスト１２０は、再構成可能データ・プロセッサ１１０内のインタフェース１３０、バス・システム１１５、及びインタフェース１５０を介して、構成ファイルをメモリ１４０に送信することができる。構成ファイルは、構成可能プロセッサ１１０外のデータパス内を含む特定のアーキテクチャに適するように、多くの方法でロードされ得る。構成ファイルは、メモリ・インタフェース１５０を介してメモリ１４０から検索することができる。次いで、構成ファイルのチャンクは、本明細書に説明するように、再構成可能データ・プロセッサ１１０内の構成可能ユニットのアレイ１９０内の構成可能ユニットに、分配シーケンスで送信することができる。

外部クロック発生器１７０または他のクロック信号源は、構成可能ユニットのアレイ１９０、バス・システム１１５、及び外部データＩ／Ｏインタフェースを含む、再構成可能データ・プロセッサ１１０内の素子にクロック信号１７５またはクロック信号を供給することができる。

図２は、ＣＧＲＡ（粗粒度再構成可能アーキテクチャ）プロセッサの構成要素の簡略化されたブロック図である。この例では、ＣＧＲＡプロセッサは２つのタイル（タイル１、タイル２）を有する。タイルは、この例ではアレイ・レベル・ネットワークを含む、バス・システムに接続された構成可能ユニットのアレイを含む。バス・システムは、タイルを外部Ｉ／Ｏインタフェース２０５（または任意の数のインタフェース）に接続するトップ・レベル・ネットワークを含む。他の実施形態では、異なるバス・システム構成を利用することができる。各タイルにおける構成可能ユニットは、本実施形態におけるアレイ・レベル・ネットワーク上のノードである。

４つのタイルのそれぞれは、４つのＡＧＣＵ（アドレス生成及び結合ユニット）（例えば、ＭＡＧＣＵ１、ＡＧＣＵ１２、ＡＧＣＵ１３、ＡＧＣＵ１４）を有する。ＡＧＣＵは、トップ・レベル・ネットワーク上のノードとアレイ・レベル・ネットワーク上のノードであり、各タイル内のトップ・レベル・ネットワーク上のノードとアレイ・レベル・ネットワーク上のノード間でデータをルーティングするためのリソースを含む。

この例のトップ・レベル・ネットワーク上のノードには、インタフェース２０５を含む１以上の外部Ｉ／Ｏが含まれる。外部デバイスへのインタフェースは、トップ・レベル・ネットワーク上のノードと、インタフェースに接続された大容量メモリ、ホストプロセッサ、他のＣＧＲＡプロセッサ、ＦＰＧＡデバイスなどの外部デバイスとの間でデータをルーティングするためのリソースを含む。

タイル内のＡＧＣＵの内の１つは、この例ではマスタＡＧＣＵであるように構成され、このマスタＡＧＣＵはタイルのためのアレイ構成ロード／アンロード・コントローラを含む。他の実施形態では、２つ以上のアレイ構成ロード／アンロード・コントローラを実装することができ、１つのアレイ構成ロード／アンロード・コントローラを、２以上のＡＧＣＵに分配されたロジックによって実装することができる。

ＭＡＧＣＵ１はタイル１のための構成ロード／アンロード・コントローラを含み、ＭＡＧＣＵ２は、タイル２のための構成ロード／アンロード・コントローラを含む。他の実施形態では、複数のタイルのロード及びアンロード構成のために、構成ロード／アンロード・コントローラを設計することができる。他の実施形態では、単一のタイルの構成のために、２以上の構成コントローラを設計することができる。また、構成ロード／アンロード・コントローラは、トップ・レベル・ネットワーク及びアレイ・レベル・ネットワーク上のスタンドアロン・ノードとしてのものを含む、システムの他の部分に実装することができる。

トップ・レベル・ネットワークは、ＡＧＣＵ及びＩ／Ｏインタフェース２０５を含むトップ・レベル・ネットワーク上の他のノードと同様に、互いに接続するトップ・レベル・スイッチ（２１１～２１６）を使用して構築される。トップ・レベル・ネットワークはトップ・レベル・スイッチを接続するリンク（例えば、Ｌ１１、Ｌ１２、Ｌ２１、Ｌ２２）を含む。データは、リンク上のトップ・レベル・スイッチ間、及び、スイッチからスイッチに接続されているネットワーク上のノードへ、パケットで移動する。例えば、トップ・レベル・スイッチ２１１及び２１２はリンクＬ１１によって接続され、トップ・レベル・スイッチ２１４及び２１５はリンクＬ１２によって接続され、トップ・レベル・スイッチ２１１及び２１４はリンクＬ１３によって接続され、トップ・レベル・スイッチ２１２及び２１３はリンクＬ２１によって接続される。リンクは、１以上のバスと、例えばチャンク・ワイド・バス（ベクトル・バス）を含むサポート制御ラインとを含むことができる。例えば、トップ・レベル・ネットワークは、ＡＸＩ互換プロトコルに類似した方法で、データの転送のために協調して動作可能なデータ、リクエスト及び応答チャネルを含むことができる。ＡＭＢＡ（登録商標）ＡＸＩ及びＡＣＥプロトコル仕様書、ＡＲＭ，２０１７を参照されたい。

トップ・レベル・スイッチは、ＡＧＣＵに接続することができる。例えば、トップ・レベル・スイッチ２１１、２１２、２１４及び２１５は、タイル１内のＭＡＧＣＵ１、ＡＧＣＵ１２、ＡＧＣＵ１３、及びＡＧＣＵ１４にそれぞれ接続される。トップ・レベル・スイッチ２１２、２１３、２１５及び２１６は、タイル２内のＭＡＧＣＵ２、ＡＧＣＵ２２、ＡＧＣＵ２３、及びＡＧＣＵ２４にそれぞれ接続される。

トップ・レベル・スイッチは１以上の外部Ｉ／Ｏインタフェース（例えば、インタフェース２０５）に接続され得る。

図３は、図２の構成で使用可能なタイル及びアレイ・レベル・ネットワークの簡略図であり、アレイ内の構成可能ユニットは、アレイ・レベル・ネットワーク上のノードである。

この例では、構成可能ユニット３００のアレイが複数のタイプの構成可能ユニットを含む。この例における構成可能ユニットのタイプは、パターン計算ユニット（ＰＣＵ）、パターン・メモリ・ユニット（ＰＭＵ）、スイッチ・ユニット（Ｓ）、及びアドレス生成及び結合ユニット（それぞれ２つのアドレス生成器ＡＧ及び共用ＣＵを含む）を含む。これらのタイプの構成可能ユニットの機能の例については、「Prabhakar et al., "Plasticine: A Reconfigurable Architecture For Parallel Patterns", ISCA '17, June 24-28, 2017, Toronto, ON, Canada」を参照されたく、また、上記文献は本明細書に完全に記載されているかのように参照により組み込まれる。これらの構成可能ユニットのそれぞれは、プログラムを実行するためのセットアップまたはシーケンスの何れかを表すレジスタまたはフリップフロップのセットを含む構成ストアを含み、ネスト化されたループの数、各ループ・イテレータの限界、各ステージに対して実行される命令、オペランドのソース、及び、入力及び出力インタフェースのネットワーク・パラメータを含むことができる。

さらに、これらの構成可能ユニットのそれぞれは、ネスト化されたループまたは他のものにおける進行を追跡するために使用可能な状態を記憶するレジスタまたはフリップフロップのセットを備える構成ストアを含む。構成ファイルは、プログラムを実行する各構成要素の初期構成または開始状態を表すビットストリームを含む。このビットストリームは、ビットファイルと呼ばれる。プログラム・ロードは、ビットファイルの内容に基づいて構成可能ユニットのアレイに構成ストアをセットアップし、全ての構成要素がプログラム（つまり、マシン）を実行できるようにする処理である。また、プログラム・ロードは、全てのＰＭＵメモリのロードを必要とすることもある。

アレイ・レベル・ネットワークは、アレイ内の構成可能ユニットを相互接続するリンクを含む。アレイ・レベル・ネットワーク内のリンクは、１以上の物理バスを含み、この場合では、チャンクレベル・ベクトル・バス（例えば、１２８ビットのデータ）、ワードレベル・スカラバス（例えば、３２ビットのデータ）、及び複数ビットレベル制御バスの３種類の物理バスを含む。例えば、スイッチ・ユニット３１１と３１２との間の相互接続３２１は、１２８ビットのベクトル・バス幅を有するベクトル・バス相互接続と、３２ビットのスカラバス幅を有するスカラバス相互接続と、制御バス相互接続とを含む。

３種類の物理バスは、転送されるデータの粒度が異なる。一実施形態では、ベクトル・バスがそのペイロードとして１６バイト（＝１２８ビット）のデータを含むチャンクを搬送することができる。スカラ・バスは３２ビットのペイロードを持つことができ、スカラ・オペランドまたは制御情報を搬送することができる。制御バスは、トークン及び他の信号などの制御ハンドシェイクを搬送することができる。ベクトル・バスとスカラバスはパケット交換が可能であり、各パケットの宛先を示すヘッダと、パケットが順不同で受信されたときにファイルを再構成するために使用できるシーケンス番号などのその他の情報を含む。各パケットヘッダには、宛先スイッチ・ユニットの地理的座標（例：アレイ内の行と列）を識別する宛先識別子と、宛先ユニットに到達するために使用される宛先スイッチ上のインタフェースを識別するインタフェース識別子（例：北、南、東、西など）を含めることができる。制御ネットワークは、例えば、デバイス内のタイミング回路に基づいて回路を切り替えることができる。構成ロード／アンロード・コントローラは、１２８ビットの構成データのチャンクごとにヘッダを生成できる。ヘッダは、ヘッダバス上で、構成可能ユニットのアレイ内の各構成可能ユニットに送信される。

一例では、１２８ビットのデータのチャンクが構成可能ユニットへのベクトル入力としてチャンクを提供するベクトル・バス上で送信される。ベクトル・バスには、１２８本のペイロードラインと、一組のヘッダラインを含めることができる。ヘッダには、チャンクごとに、シーケンスＩＤを含めることができ、それは、以下を含み得る：
・チャンクがスクラッチパッド・メモリか構成ストアデータかを示すビット。
・チャンク番号を形成するビット。
・列識別子を示すビット。
・行識別子を示すビット。
・構成要素識別子を示すビット。

ロード動作の場合、構成ロード・コントローラは、Ｎ－１から０までの順序で、Ｎ個のチャンクを構成可能ユニットに送信することができる。この例では、６つのチャンクが、チャンク５－＞チャンク４－＞チャンク３－＞チャンク２－＞チャンク１ー＞チャンク０の最上位ビット・ファーストの順序で送信される（この最上位ビット・ファーストの順序は、チャンク５がアレイ構成ロード・コントローラからの分配シーケンスのラウンド０に分配されることに注意する）。アンロード動作の場合、構成アンロード・コントローラは、順序のアンロード・データをメモリに書き出すことができる。ロード動作及びアンロード動作の両方について、構成可能ユニット内の構成データストア内の構成シリアル・チェーン内のシフトは、ＬＳＢ(最下位ビット）からＭＳＢ(最上位ビット）へ、またはＭＳＢアウト・ファーストである。

図３Ａは、アレイ・レベル・ネットワーク内の素子を接続する例示的なスイッチ・ユニットを示す。図３Ａの例に示すように、スイッチ・ユニットは、８つのインタフェースを有することができる。スイッチ・ユニットの北、南、東、及び西インタフェースは、スイッチ・ユニット間の接続に使用される。スイッチ・ユニットの北東、南東、北西、及び南西インタフェースはそれぞれ、ＰＣＵまたはＰＭＵインスタンスへの接続を行うために使用される。各タイル象限内の２つのスイッチ・ユニットのセットは、複数のアドレス生成（ＡＧ）ユニットと、複数のアドレス生成ユニットに接続された結合ユニット（ＣＵ）とを含むアドレス生成及び結合ユニット（ＡＧＣＵ）への接続を有する。結合ユニット（ＣＵ）はＡＧ間を調停し、メモリ・リクエストを処理する。スイッチ・ユニットの８つのインタフェースのそれぞれは、ベクトル・インタフェース、スカラ・インタフェース、及び、ベクトルネットワーク、スカラ・ネットワーク、及び制御ネットワークと通信するための制御インタフェースを含むことができる。

構成後のマシンの実行中に、データは、アレイ・レベル・ネットワーク上の１以上のスイッチ・ユニットのベクトル・バス及びベクトル・インタフェースを使用して、１以上のユニットスイッチ及びユニットスイッチ間の１以上のリンクを介して構成可能ユニットに送信することができる。

本明細書で説明する実施形態では、タイルの構成前に、構成ファイルまたはビットファイルを、同じベクトル・バスを使用して構成ロード・コントローラから、アレイ・レベル・ネットワーク上の１以上のスイッチ・ユニットのベクトル・バス及びベクトル・インタフェースを使用して、１以上のユニットスイッチと、ユニットスイッチ間の１以上のリンクとを介して、構成可能ユニットに送信することができる。例えば、構成可能ユニットＰＭＵ３４１に特有のユニットファイル内の構成データのチャンクは、構成ロード／アンロード・コントローラ３０１からＰＭＵ３４１に、構成ロード／アンロード・コントローラ３０１とスイッチ・ユニット３１１の西（Ｗ）ベクトル・インタフェースとの間のリンク３２０、スイッチ・ユニット３１１、及びスイッチ・ユニット３１１の南東（ＳＥ）ベクトル・インタフェースとＰＭＵ３４１との間のリンク３３１を介して、送信することができる。

この例では、ＡＧＣＵの内の１つは構成ロード／アンロード・コントローラ（例えば、３０１）を含むマスタＡＧＣＵであるように構成される。マスタＡＧＣＵは、ホスト（図１の１２０）がバス・システムを介してマスタＡＧＣＵにコマンドを送信できるレジスタを実装している。マスタＡＧＣＵはタイル内の構成可能ユニットのアレイ上での操作を制御し、レジスタへの書き込みを通じてホストから受信したコマンドに基づいてタイルの状態を追跡するプログラム制御ステート・マシンを実装する。状態遷移ごとに、マスタＡＧＣＵはデイジー・チェーン接続されたコマンド・バスを介してタイル上の全ての構成要素にコマンドを発行する（図４）。コマンドには、タイル内の構成可能ユニットのアレイで構成可能ユニットをリセットするプログラム・リセット・コマンドと、構成可能ユニットに構成ファイルをロードするプログラム・ロード・コマンドが含まれる。

マスタＡＧＣＵの構成ロード・コントローラは、メモリから構成ファイルを読み取ることと、タイルの全ての構成可能ユニットに構成データを送信することを担っている。マスタＡＧＣＵは、好ましくはトップ・レベル・ネットワークの最大スループットで、メモリから構成ファイルを読み取ることができる。メモリから読み出されたデータは、マスタＡＧＣＵによって、アレイ・レベル・ネットワーク上のベクトル・インタフェースを介して、本明細書で説明する分配シーケンスに従って、対応する構成可能ユニットに送信される。

一実施形態では、構成可能ユニット内の配線要件を低減可能な方法で、構成要素内における構成ロード処理でロードされるか、または構成アンロード処理でアンロードされるユニットファイルを保持する構成レジスタ及び状態レジスタは、シリアル・チェーンで接続され、シリアル・チェーンを介してビットをシフトする処理によってロードすることができる。幾つかの実施形態では、並列または直列に配置された２以上のシリアル・チェーンがあってもよい。構成可能ユニットが例えば１２８ビットの構成データをマスタＡＧＣＵから１バス・サイクルで受信すると、構成可能ユニットはこのデータをそのシリアル・チェーンを介して１サイクル当たり１ビットのレートでシフトさせる。ここで、シフト・サイクルは、バス・サイクルと同じレートで作動できる。構成可能ユニットが１２８ビットの構成ビットを、ベクトル・インタフェースを介して受信された１２８ビットのデータでロードするには、１２８シフト・サイクルを要する。１２８ビットの構成データは、チャンクと呼ばれる。構成可能ユニットは、その全ての構成ビットをロードするために複数チャンクのデータを必要とすることがある。シフト・レジスタ構造の一例を図６に示す。

構成可能ユニットは、複数のメモリ・インタフェースを介してメモリとインタフェースする（図１の１５０）。メモリ・インタフェースのそれぞれには、幾つかのＡＧＣＵを使用してアクセスできる。各ＡＧＣＵは、オフチップ・メモリのリクエストを生成するための再構成可能スカラ・データパスを含む。各ＡＧＣＵは、送信するコマンド、データ、及び、オフチップ・メモリからの受信応答をバッファするためのＦＩＦＯ（データを編成するための先入れ先出しバッファ）が含まれている。

ＡＧＣＵ内のアドレス生成器ＡＧは、密または疎の何れかであるメモリコマンドを生成することができる。密リクエストは連続するオフチップ・メモリ領域をバルク転送するために使用することができ、構成可能ユニットのアレイ内の構成可能ユニットから／構成可能ユニットへのデータのチャンクを読み書きするために使用することができる。密リクエストは、ＡＧＣＵ内の連結ユニット（ＣＵ）によって複数のオフチップ・メモリ・バースト・リクエストに変換することができる。疎リクエストは、アドレスのストリームを結合ユニットにエンキューできる。結合ユニットは結合キャッシュを使用して、発行されたオフチップ・メモリ・リクエストのメタデータを維持し、同じオフチップ・メモリ・リクエストに属する疎アドレスを組み合わせて、発行されたオフチップ・メモリ・リクエストの数を最小限に抑える。

図４は、パターン計算ユニット（ＰＣＵ）などの例示的な構成可能ユニット４００を示すブロック図である。構成可能ユニットのアレイ内の構成可能ユニットは、対応する構成可能ユニットに特有の構成データの複数のチャンク（または他のサイズのサブファイル）を含むユニットファイルを格納するための構成データストア４２０（例えば、シリアル・チェーン）を含む。構成可能ユニットのアレイ内の構成可能ユニットはそれぞれ、ユニット構成ロード処理を実行するために、ライン４２２を介して構成データストア４２０に接続されたユニット構成ロードロジック４４０を含む。ユニット構成ロード処理は、バス・システム（例えば、ベクトル入力）を介して、構成可能ユニットに特有のユニットファイルのチャンクを受信することと、受信したチャンクを構成可能ユニットの構成データストア４２０にロードすることとを含む。ユニット構成ロード処理は、図５を参照してさらに説明される。

構成データは、この例では複数の構成可能ユニット内の構成可能ユニットに格納され、ラッチのシリアル・チェーンを備え、ラッチは構成可能ユニット内のリソースの構成を制御するビットを格納する。構成データストアのシリアル・チェーンには、構成データ用のシフト・レジスタ・チェーンと、直列に接続された状態情報及びカウンタ値用の第２のシフト・レジスタ・チェーンを含めることができる。構成ストアについては、図６を参照してさらに説明する。

構成可能ユニットは、スカラ入力／出力、ベクトル入力／出力、及び制御入力／出力の３つの対応する入力及び出力（ＩＯ）のセットを使用して、スカラバス、ベクトル・バス、及び制御バスとインタフェースすることができる。スカラＩＯは、データの単一ワード（３２ビットなど）の通信に使用できる。ベクトルＩＯは、ユニット構成ロード処理において構成データを受信し、構成後の動作中に複数のＰＣＵ間の長いパイプラインを介してデータを送受信するような場合に、データのチャンク（例えば、１２８ビット）を通信するために使用することができる。制御ＩＯを使用して、構成可能ユニットの実行の開始または終了などの制御信号を通信することができる。制御入力は制御ブロック４７０によって受信され、制御出力は制御ブロック４７０によって供給される。

各ベクトル入力は、１以上のベクトルＦＩＦＯを含むことのできるベクトルＦＩＦＯブロック４６０内のベクトルＦＩＦＯを使用してバッファリングされる。各スカラ入力は、スカラＦＩＦＯ４５０を使用してバッファリングされる。入力ＦＩＦＯを使用することで、データのプロデューサとコンシューマ間のタイミングを切り離し、入力遅延不整合に対してロバストにすることによって、構成可能ユニット間の制御ロジックを単純化する。

入力構成データ４１０は、ベクトル入力としてベクトルＦＩＦＯに供給され、次いで構成データストア４２０に転送される。出力構成データ４３０は、ベクトル出力を使用して構成データストア４２０からアンロードすることができる。

ＣＧＲＡは、ロード／アンロード・コマンドが完了した時を示すためにデイジー・チェーン接続された完了バスを使用する。マスタＡＧＣＵは、デイジー・チェーン接続されたコマンド・バスを介して、構成可能ユニットのアレイ内の構成可能ユニットにプログラム・ロード及びアンロード・コマンドを送信する（図５のＳ０からＳ１への遷移）。図４の例に示すように、デイジー・チェーン接続された完了バス４９１及びデイジー・チェーン接続されたコマンド・バス４９２がデイジー・チェーン・ロジック４９３に接続されており、これはユニット構成ロードロジック４４０と通信する。デイジー・チェーン・ロジック４９３は以下に説明するように、ロード完了状態ロジックを含むことができる。デイジー・チェーン接続された完了バスについては、以下でさらに説明する。コマンド・バス及び完了バスの他のトポロジも明らかに可能であるが、ここでは説明しない。

構成可能ユニットは、ブロック４８０内に複数の再構成可能データパスを含む。構成可能ユニット内のデータパスは、マルチステージ（ステージ１．．．ステージＮ）、再構成可能ＳＩＭＤ（単一命令、マルチデータ）パイプラインとして編成することができる。構成可能ユニットの構成シリアル・チェーンにプッシュされるデータのチャンクには、構成可能ユニットの各データパスの各ステージの構成データが含まれる。構成データストア４２０内の構成シリアル・チェーンは、ライン４２１を介してブロック４８０内の複数のデータパスに接続される。

パターン・メモリ・ユニット（例えば、ＰＭＵ）はＰＣＵで使用されるバス・インタフェースと共に、アドレス計算用の再構成可能スカラ・データパスに結合されたスクラッチパッド・メモリを含むことができる。ＰＭＵは、再構成可能ユニットのアレイ全体にオンチップメモリを分配するために使用することができる。一実施形態では、ＰＭＵ内のメモリ内のアドレス計算がＰＭＵデータパス上で実行され、コア計算がＰＣＵ内で実行される。

図５は、構成可能ユニットにおけるユニット構成ロード処理を制御するために使用され得るステート・マシンの一例を示す。一般に、ユニット構成ロード処理は、１つのバス・サイクルにおいてバス・システムから構成可能ユニットに特有のユニットファイルの第１のチャンク（またはサブファイル）を受信し、ユニットファイルの第２のチャンクが受信される前に、バス・サイクルと同じレートで発生する後続のシフト・サイクル中に、受信された第１のチャンクをシリアル・チェーンにプッシュし始める。後のバス・サイクルにおいて、構成可能ユニットに特有のユニットファイルの第２のチャンクをバス・システムから受信すると、処理は先に受信したチャンクをシリアル・チェーンにプッシュした後のサイクル中に、受信した第２のチャンクをシリアル・チェーンにプッシュし始める。構成ロード処理の幾つかのまたは全てのラウンドでは、複数の順序付けられたチャンク内の第２のチャンク（ユニットファイルのチャンクの順序で次に）が構成可能ユニットによって受信される前に、構成可能ユニット内でユニット構成ロード処理によって第１のチャンクを消費することができる。

図５のステート・マシンは、６つの状態Ｓ０～Ｓ５を含む。状態Ｓ０（アイドル）では、ユニット構成ロード処理がマスタＡＧＣＵ内の構成ロード／アンロード・コントローラからの構成ロード／アンロード・コマンドを待つ。構成ロード／アンロード・コントローラは、オフチップメモリ（図１の１４０）からの／への、及び、構成可能ユニットのアレイ（図１の１９０）への／からの、構成データのロード／アンロードを行う。構成ロード／アンロード・コントローラでロード・コマンドが受信されると、ユニット構成ロード処理は状態Ｓ１に入る。

状態Ｓ１（静止待ち）では、複数のデータパス内の機能的フロップはディスエーブルされ、機能的フロップは循環せず、スカラ出力、ベクトル出力、及び制御出力はオフにされ、出力は如何なる負荷も駆動しない。ロード・コマンドが受信された場合、ユニット構成ロード処理は状態Ｓ２に入る。アンロード・コマンドが受信されると、ユニット構成ロード処理は状態Ｓ４に入る。

状態Ｓ２（入力有効待ち）では、ユニット構成ロード処理は入力ＦＩＦＯ（図６の６１０）が有効になるまで待機する。入力ＦＩＦＯが有効になると、入力ＦＩＦＯはバス・システム経由で構成ファイルの構成データのチャンクを受信した。例えば、構成データのチャンクは、１２８ビットのロードデータを含むことができ、これはバス・システムのベクトル・ネットワークで受信され、ベクトル・ネットワークのベクトル・バス幅は１２８ビットである。入力ＦＩＦＯが有効になると、ユニット構成ロード処理は状態Ｓ３に入る。

状態Ｓ３（ロードシフト）では、１２８ビットの構成データのチャンクが最初に入力ＦＩＦＯから１クロックサイクルでデキューされ、１２８ビットの構成データのチャンクが１２８クロックサイクルで入力シフト・レジスタ（図６の６２０）にシフトされる。入力シフト・レジスタは構成データのチャンクと同じ長さ（例えば、１２８ビット）を有することができ、構成データのチャンクを入力シフト・レジスタ内にシフトするのに、構成データのチャンクの長さと同じ数のシフト・クロックサイクル（例えば、１２８）を要する。上述のように、幾つかの実施形態では、シフト・クロック及びバスクロック（またはバス・サイクル）は同じレートで動作することができる。

構成可能ユニット内の構成データストアは、構成可能ユニットに特有の構成データの複数のチャンクを備えるユニットファイルを格納するために、ＦＩＦＯチェーンとして構成され得る構成シリアル・チェーン（図６の６３０、６４０）を備える。構成データの複数のチャンクは、構成データの最初のチャンクと、構成データの最後のチャンクとを含む。入力シフト・レジスタ内の構成データのチャンクは、後続のクロックサイクルで構成データストア内にさらにシリアルにシフトされる。構成データストアについては、図６を参照してさらに説明する。

構成可能ユニットに特有のユニットファイルの最初のチャンクが状態Ｓ３で入力シフト・レジスタにシフトされた後、ユニット構成ロード処理は、構成データの最初のチャンクが構成可能ユニットに特有の構成データの最後のチャンクであるかどうかを判断する。最後のチャンクである場合、構成可能ユニットのユニットファイルのロードは完了し、ユニット構成ロード処理は状態Ｓ０に入る。最後のチャンクでない場合、ユニット構成ロード処理は状態Ｓ２に入り、入力ＦＩＦＯが構成可能ユニットに特有の構成データの２番目のチャンクに対して有効になるのを待つ。

状態Ｓ１においてアンロード・コマンドが受信されると、ユニット構成ロード処理は状態Ｓ４に入る。

状態Ｓ４（アンロードシフト）で、構成データストアからの構成データのチャンクが出力シフト・レジスタ内にシフトされる（図６の６５０）。構成データのチャンクには、１２８ビットのアンロード・データを含めることができる。出力シフト・レジスタは、構成データのチャンクと同じ長さ（例えば、１２８）を有することができ、構成データのチャンクを構成データストアから出力ＦＩＦＯ内にシフトするのに、構成データのチャンクの長さと同じ数のシフト・クロック・サイクル（例えば、１２８）を要する。構成データのチャンクが出力シフト・レジスタ内にシフトされると、ユニット構成ロード処理は状態Ｓ５（出力有効待ち）に入る。

状態Ｓ５（出力有効待ち）において、ユニット構成ロード処理は、出力ＦＩＦＯ（図６の６６０）が有効になるのを待つ。出力ＦＩＦＯが有効になると、出力シフト・レジスタから１２８ビットの構成データのチャンクが１クロックサイクルで出力ＦＩＦＯに挿入される。出力ＦＩＦＯ内の構成データのチャンクは、バス・システムに送信できる（図３）。

状態Ｓ５で、構成データの最初のチャンクが出力ＦＩＦＯにシフトされた後、ユニット構成ロード処理は、構成データの最初のチャンクが構成データストア内の構成データの最後のチャンクであるかどうかを判断する。最後のチャンクである場合、構成可能ユニットの構成データのアンロードが完了し、ユニット構成ロード処理は状態Ｓ０に入る。最後のチャンクでない場合、ユニット構成ロード処理は状態Ｓ４に入り、構成データストアからの構成データの第２のチャンクが出力シフト・レジスタにシリアルにシフトされる。

図６は、構成可能ユニット内の構成ストアの論理的表示である。構成可能ユニット内の構成データストア（図４の４２０）は、本実施形態では第１のシフト・レジスタ・チェーン６３０及び第２のシフト・レジスタ・チェーン６４０を含む構成シリアル・チェーンを備える。第１のシフト・レジスタ・チェーン６３０は、１組のレジスタまたはラッチを含む。第２のシフト・レジスタ・チェーン６４０は、別の１組のレジスタまたはラッチ（フリップフロップ）を含む。第１のシフト・レジスタ・チェーン及び第２のシフト・レジスタ・チェーンは、本実施形態では直列に接続されて単一のチェーンを形成する。

構成ファイルは、構成可能ユニットのアレイ内の複数の構成可能ユニット内の構成可能ユニットごとに、構成データの複数のチャンクを含む。構成データのチャンクは、それぞれの構成可能ユニットの初期構成または開始状態を表す。本システムにおける構成ロード操作は、構成可能ユニットのアレイに構成データのユニットファイルを設定して、全ての構成可能ユニットがプログラムを実行できるようにする処理である。

第１のシフト・レジスタ・チェーン６３０内のレジスタのセットは、レジスタを含む構成可能ユニットの動作の定義を含む、プログラムを実行するためのセットアップまたはシーケンスの何れかを表すことができる。これらのレジスタは、ネスト化されたループの数、各ループ・イテレータの限界、各ステージに対して実行される命令、オペランドのソース、及び入力及び出力インタフェースのネットワーク・パラメータを登録できる。第２のシフト・レジスタ・チェーンのレジスタのセットには、構成可能ユニットにロードされたプログラムのサイクルごとの実行状態に関するデータを含めることができる。

図６の例に示されるように、第１のシフト・レジスタ・チェーン６３０及び第２のシフト・レジスタ・チェーン６４０は直列に接続され、その結果、第１のシフト・レジスタ・チェーンのＭＳＢ(最上位ビット）は第２のシフト・レジスタ・チェーンのＬＳＢ(最下位ビット）に接続される。ロード信号またはアンロード信号は第１のシフト・レジスタ・チェーンのＬＳＢ及び第２のシフト・レジスタ・チェーンのＬＳＢに結合されたシフトイネーブル信号として作用し、第１のシフト・レジスタ・チェーン及び第２のシフト・レジスタ・チェーン上のロード／アンロード動作を制御することができる。入力ＦＩＦＯ６１０は、セレクタ６７０を介して入力シフト・レジスタ６２０に結合される。セレクタ６７０はロード信号がアクティブであるとき、入力シフト・レジスタ６２０を構成データストア（第１のシフト・レジスタ・チェーン６３０のＬＳＢ）の入力に接続する。

ロード信号がアクティブであるとき、入力シフト・レジスタ６２０内の構成データは、構成シリアル・チェーン内の第１のシフト・レジスタ・チェーン６３０及び第２のシフト・レジスタ・チェーン６４０にシフトされ得る。ここで、ロード信号は、入力シフト・レジスタ、第１シフト・レジスタ・チェーン、及び第２シフト・レジスタ・チェーンのイネーブル信号として作用し得る。構成可能ユニットの構成データの全てのチャンクが構成可能ユニットの構成データストアにロードされるまで、ロード操作を繰り返すことができる。シリアル・チェーンの長さが整数個のチャンク（またはサブファイル）の長さと異なる場合、直列状の最初のチャンクに差分を埋め込むことができ、最後のチャンクがシフトインされると、パッドビットがチェーンの最後にシフトアウトされる。例えば、構成可能ユニット内の構成データストアは、７６０ビットのサイズを有するユニットファイルを記憶することができる。ユニット構成ロード処理は、整数Ｎ個のチャンクをロードすることができる。この例では、Ｎ＝６であり、N個のチャンクは、チャンク５、チャンク４、チャンク３、チャンク２、チャンク１及びチャンク０を含む。ベクトル・バスのベクトル幅は１２８ビット、構成データのチャンクは１２８ビットで、チャンクは１つのバスクロックサイクルで構成可能ユニットに送信できる。Ｎ個のチャンクのサイズは、N×１２８＝６×１２８＝７６８ビットで、これには７６０ビットのユニットファイルサイズに一致させるための８パッドビットが含まれる。

エラーから回復するために、アンロード操作は、各構成可能ユニットの状態をチェックポイントすることができる。アンロード操作では、再起動に必要な各構成可能ユニットの実行状態を保存し、エラーが発生した場合にアプリケーションを再起動できるようにすることができる。また、構成可能ユニットの状態を保存したり、デバッグ目的で転送したりすることもできる。保存する必要がある状態は、少なくとも第１または第２のシフト・レジスタの一部の内容と、オプションでＰＭＵメモリの内容が含まれる。プログラム・アンロードは、第１及び第２のシフト・レジスタの全ての状態をアンロードすることも必要とすることがある。

出力ＦＩＦＯ６６０は、出力シフト・レジスタ６５０に結合され、このシフト・レジスタは次に、構成データストアの出力（第２のシフト・レジスタ・チェーン６４０のＭＳＢ）に結合される。アンロード操作の場合、アンロード信号がアクティブであるとき、第２のシフト・レジスタ・チェーン６４０及び第１のシフト・レジスタ・チェーン６３０内の構成データを出力シフト・レジスタ６５０にシフトすることができる。出力ＦＩＦＯ６６０が有効であるとき、出力シフト・レジスタ６５０内の構成データ（例えば１２８ビット）を、１クロックサイクルで出力ＦＩＦＯ６６０に挿入することができる。アンロード操作は、構成可能ユニットの構成データストア内の構成データの全てのチャンクが出力ＦＩＦＯにアンロードされるまで繰り返すことができる。

ＭＡＧＣＵ内の構成ロード・コントローラによって発行された構成ロード・コマンドの完了と同期して、通信するために、一例では、チェーンの各構成要素内のデイジー・チェーン・ロジック（例えば、図４のデイジー・チェーン・ロジック４９３）に含まれるロジックによってサポートされる単一ワイヤ・デイジー・チェーン方式が実装される。このスキームでは、全ての構成要素が次の２つのポートを持つ必要がある：

１. ＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮという入力ポート

２. ＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴという出力ポート

構成要素は、ＭＡＧＣＵによって発行されたコマンドの実行を完了し、そのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮ入力がｈｉｇｈに駆動されると、そのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴ信号を駆動する。ＭＡＧＣＵは、コマンドの実行に必要な全てのステップが完了すると、ＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴを駆動してデイジー・チェーンを開始する。チェーンの最後の構成要素は、ＭＡＧＣＵのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮに接続されるＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴを駆動する。ＭＡＧＣＵのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮがｈｉｇｈになると、コマンドの完了を示す。全ての構成要素の全てのチャンクに対応するデータを配信した後、ＭＡＧＣＵはそのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴポートをｈｉｇｈに駆動する。全ての構成要素は、全ての構成ビットのロードを完了すると、それぞれのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴポートをｈｉｇｈに駆動する。

ＭＡＧＣＵの入力ポートＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮがアサートされると、構成ファイルのロードが完了する。

図７は、再構成可能データ・プロセッサに接続されたホストの動作を示すフローチャートである。ステップ７１１で、ホスト（図１の１２０）はＰＣＩＥインタフェース（図１の１３０）及びトップ・レベル・ネットワーク（図１の１１５）を介して、構成可能ユニットのアレイのための構成ファイルをオフチップメモリ（図１の１４０）に送信するか、そうでなければ、構成可能プロセッサにアクセス可能なメモリに構成ファイルを格納する。

ステップ７１２で、構成ファイルのメモリへのロードが完了すると、ホスト１２０は、プロセッサ内の構成ロード・コントローラ（この例ではマスタＡＧＣＵの一部）に構成ロード・コマンドを送信する。マスタＡＧＣＵは、ホストが構成ロード・コントローラに構成ロード・コマンドを送信できるレジスタを実装できる。構成ロード・コマンドは、構成可能プロセッサのメモリ・インタフェースを介してアクセス可能なメモリ内の位置を識別できる。その後、構成ロード・コントローラは、構成ファイルを取得するコマンドに応答して、トップ・レベル・ネットワークを介して１以上のメモリ・アクセス・リクエストを生成できる。その後、ホストは、構成ファイルが完全にロードされたことを示す信号（７１４）について、構成可能プロセッサを監視できる。ファイルのロードが完了すると、ホストはマシン（７１６）によって実行される機能を開始できる。

図８は、ＭＡＧＣＵの一部となり得る、さもなければタイル内の構成可能ユニットのアレイと通信できる構成ロード・コントローラの動作を示すフローチャートである。構成ロード・コントローラは、オフチップメモリ（図１の１４０）から構成ファイルを読み出すことと、構成可能ユニットのアレイ内の全ての構成可能ユニットに構成データを送信することを行う。このフローチャートは、構成ロード・コントローラが構成ロード・コマンドを待つこと（８１０）から始まる。上述のように、構成ロード・コマンドは、構成ファイルと、プロセッサがアクセス可能なメモリ内のその位置を識別する。

ロード・コマンドを受信すると、ステップ８１１で、構成ロード・コントローラは、再構成可能データ・プロセッサ（図１の１１０）に接続されたメモリ（図１の１４０）にロード・リクエストを発行する。ステップ８１２で、構成ロード・コントローラは、メモリ・インタフェースを介してトップ・レベル・ネットワーク上の構成ファイルのチャンクを取得する。ステップ８１３で、構成ロード・コントローラは、構成ファイルのチャンクを、順序付けされたラウンドでアレイ・レベル・ネットワーク上のアレイ内の構成可能ユニットに分配する。構成ファイルの全てのチャンクが受信され、分配されると、構成ロード・コントローラは、ステップ８１４で、分配完了信号（例えば、そのＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＯＵＴ）を生成する。次に、構成ロード・コントローラは、ステップ８１５で、例えばＰＲＯＧＲＡＭ＿ＬＯＡＤ＿ＤＯＮＥ＿ＩＮのアサーションによって示される、それぞれのユニットファイルがロードされたことの構成可能ユニットからの確認を待つ。構成ロードの成功が確認されると、構成ロード・コントローラはホストに通知することができる（８１６）。

図９は、構成ファイルの一構成例を示している。構成ファイルをロード及びアンロードするための特定のプロトコルに適合するように用意された他の構成も、同様に使用することができる。図９を参照して説明した例では、構成可能ユニットのアレイ内の構成可能ユニットがスイッチ、ＰＣＵ、ＰＭＵ、及びＡＧＣＵを含む。これらの構成可能ユニットのそれぞれは、プログラムを実行するセットアップまたはシーケンスを表すレジスタのセットを含む。これらのレジスタには、ネスト化されたループの数、各ループ・イテレータの限界、各ステージに対して実行される命令、オペランドのソース、入力及び出力インタフェースのネットワーク・パラメータなど、それを含む構成可能ユニットの動作を定義するデータが含まれている。さらに、各構成ファイルには、ネスト化された各ループでの進捗を追跡するカウンタのセットにコンテキストを設定するデータが含まれる。

実行可能なプログラムは、プログラムを実行する構成可能ユニットそれぞれの初期構成または開始状態を表すビットストリームを含む。このビットストリームは、ビットファイル、またはここでは構成ファイルと称される。プログラム・ロードは、構成ファイルの内容に基づいて構成可能ユニット内に構成ストアを設定し、全ての構成可能ユニットがプログラムを実行できるようにする処理である。プログラム・アンロードは構成可能ユニットから構成ストアをアンロードし、本明細書でアンロード構成ファイルと呼ばれるビットストリームをアセンブルする処理である。アンロード構成ファイルは、ここで説明する例では、プログラム・ロードに使用されるのと同じ配置のチャンクまたはサブファイルと構成ファイルを有する。

構成ファイルは、構成可能ユニットのアレイ内の構成可能ユニットごとに、構成データの複数のチャンクを含み、チャンクはそれらが分配されるシーケンスと一致するように、構成ファイル内に配置される。この構成ファイルの編成により、構成ファイル内のチャンクの位置に基づいて、構成可能ユニットにチャンクをルーティングするためのアレイ構成ロード処理が可能になる。

図９に示すように、構成ファイル（及び同様に配置されたアンロード構成ファイル）は、複数の構成可能ユニット内の構成可能ユニットごとにユニットファイルの複数のチャンクを含み、ユニットファイルは、ユニットファイル内の順序（ｉ）を有する最大Ｍ個（本例ではＺ４＝６個）のサブファイルを有する。図９では、Ｍは６であり、チャンクは第１から第６まで順序付けられる（すなわち、第１から第６のチャンクは、このインデキシングにおけるチャンク（０）から（５）に対応する）。チャンクは、ロードまたはアンロード構成ファイル内の全てのユニットファイルについて、（ｉ）が０からＭ－１までの順序（ｉ）の全てのサブファイルが、（ｉ）が０からＭ－１までのメモリ内のアドレス空間の対応するブロック（ｉ）に格納されるように配置される。アドレスＡ０～Ａ１－１を含むブロック（０）には、順序（０）のチャンクが格納される。この例におけるスイッチ・ユニットの順序（０）のチャンクは、ブロック（０）内の連続したアドレスのグループ内にある。ＰＣＵの順序（０）のチャンクは、ブロック（０）内の連続したアドレスのグループ内にある。ＰＭＵの順序（０）のチャンクは、ブロック（０）内の連続したアドレスのグループ内にある。ＡＧＣＵの順序（０）のチャンクは、連続したアドレスのグループ内にある。順序（１）のチャンクは、アドレスＡ１～Ａ２－１を含むブロック（１）に格納される。この例におけるスイッチ・ユニットの順序（１）のチャンクは、ブロック（１）内の連続したアドレスのグループ内に格納される。ＰＣＵの順序（１）のチャンクは、ブロック（１）内の連続したアドレスのグループ内にある。ＰＭＵの順序（１）のチャンクは、ブロック（１）内の連続したアドレスのグループ内にある。ＡＧＣＵの順序（１）のチャンクは、ブロック（１）内の連続したアドレスのグループ内にある。順序３～５のチャンクは、図９に示すように、ブロック（２）～（５）のパターンに従って配置される。

図から分かるように、この例では、線形アドレス空間が、線境界上の構成ファイルに対して、ブロック内に割り振られる。他の実施形態では、線形アドレス空間が、ワード境界またはチャンク境界上に割り振ることができる。境界は、使用されるメモリの効率特性に適合するように選択することができる。従って、この例の構成ファイルは、シーケンシャル・ライン・アドレスを持つメモリのラインで構成される。

また、アレイは、複数タイプの構成可能ユニットを含み、異なるタイプの構成可能ユニットのユニットファイルは、異なる数の構成データのサブファイルを含み、アドレス空間のブロック（ｉ）内で、各タイプの構成可能ユニットのサブファイルは、アドレス空間のブロック（ｉ）内の対応する連続したアドレスのグループ内に格納される。

アレイには、複数タイプの構成可能ユニットを含めることができ、異なるタイプの構成可能ユニットのユニットファイルには、異なる数の構成データのチャンクを含めることができる。例えば、図３に示すように、アレイ内の構成可能ユニットのタイプは、スイッチ・ユニット、ＰＣＵ（パターン計算ユニット）、ＰＭＵ（パターン・メモリ・ユニット）、及びＡＧＣＵ（アドレス生成及び結合ユニット）を含むことができる。

構成ファイルの編成例には以下が含まれる：
Ｗ（例えば、図３の２８）個のスイッチ・ユニット、各ユニットはＺ１個のチャンクの構成ビットを必要とする；
Ｘ（例えば、９）個のＰＣＵユニット、各ユニットはＺ２個のチャンクの構成ビットを必要とする；
Ｙ（例えば、９）個のＰＭＵユニット、各ユニットはＺ３個のチャンクの構成ビットを必要とする；
Ｚ（例えば、４）個のＡＧＣＵユニット、各ユニットはＺ４個のチャンクの構成ビットを必要とする。

従って、第１タイプの構成可能ユニットのユニットファイルは、Ｚ１個のチャンクを含むことができ、第２タイプの構成可能ユニットのユニットファイルは、Ｚ２個のチャンクを含む。Ｚ１はＺ２未満である。アレイ構成ロード処理は、第１タイプ及び第２タイプの全ての構成可能ユニットのためのユニットファイルのチャンク（ｉ）を含む構成ファイルのセグメントを、（ｉ）が０からＺ１－１までのＺ１回のラウンドで検索し、次に、第２タイプの全ての構成可能ユニットのためのユニットファイルのチャンク（ｉ）を含む構成ファイルのセグメントを、（ｉ）がＺ１からＺ２－１までのＺ２回のラウンドで検索することを含むことができる。第３タイプの構成可能ユニットのユニットファイルは、Ｚ３個のチャンクを含むことができ、第４タイプの構成可能ユニットのユニットファイルはＺ４個のチャンクを含む。Ｚ１はＺ２未満、Ｚ２はＺ３未満、Ｚ３はＺ４未満である。分配シーケンスは、このモードでは、（ｉ＋１）個より多い数のチャンクを必要とする様々なタイプの構成可能ユニットの全てに対して、チャンク（ｉ）ごとにラウンドで続行できる。

構成ファイルの編成例に示すように、構成ファイル内の構成データのチャンクはインターリーブ方式で配置される：
・ラウンドＲ（ｉ＝０）におけるスイッチ・ユニットのそれぞれに対する２つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝０）におけるＰＣＵユニットのそれぞれに対する３つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝０）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝０）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝１）におけるスイッチ・ユニットのそれぞれに対する２つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝１）におけるＰＣＵユニットのそれぞれに対する３つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝１）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝１）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝２）におけるＰＣＵユニットのそれぞれに対する３つのチャンクの構成ビットの３番目；
・ラウンドＲ（ｉ＝２）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの３番目；
・ラウンドＲ（ｉ＝２）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの３番目；
・ラウンドＲ（ｉ＝３）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの４番目；
・ラウンドＲ（ｉ＝３）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの４番目；
・ラウンドＲ（ｉ＝３）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの５番目；
・ラウンドＲ（ｉ＝４）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの５番目；
・ラウンドＲ（ｉ＝４）における４ＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの６番目。

ユニットファイルは、複数の順序付けられたチャンク（または他のサイズのサブファイル）を含むように編成することができる。異なる構成可能ユニットに特有のユニットファイルは、幾つかの実施形態において、異なる数の順序付きチャンクを有することができる。構成可能ユニットのアレイの構成ファイルは、ユニットファイルのチャンクが他のユニットファイルに対して同じ順序のチャンクでグループ化されるように配置される。また、構成ファイル内のチャンクの位置が、チャンクのアレイ内の構成可能ユニットと、構成可能ユニットに特有のユニットファイル内のその順序を示すように配置される。

アレイ構成ロード処理では、（ｉ）が０からＺ１－１（＝１）までに対して、第１タイプ（スイッチタイプ）、第２タイプ（ＰＣＵタイプ）、第３タイプ（ＰＭＵタイプ）、第４タイプ（ＡＧＣＵタイプ）の全ての構成可能ユニットのユニットファイルのチャンク（ｉ）を含む構成ファイルのセグメントを取得できる。４つのタイプの構成可能ユニットの全てのユニットファイルのチャンク（０）は１回目のラウンドで取得され、４つのタイプの構成可能ユニットの全てのユニットファイルのチャンク（１）は２回目のラウンドで取得される。１回目と２回目のラウンド後に、第１タイプ（スイッチタイプ）の構成可能ユニットのユニットファイルの全て（２つ）のチャンクが取得された。第１、第２、第３、及び第４タイプの全ての構成可能ユニットのユニットファイルには、取得されるべきチャンクがそれぞれ０、１、３、及び４個残っている。

次に、アレイ構成ロード処理は、第３ラウンドにおける第２、第３、及び第４タイプの全ての構成可能ユニットについて、ユニットファイルのチャンク（ｉ）を含む構成ファイルのセグメントを取得することができる。第３ラウンド以降、第２タイプ（ＰＣＵタイプ）の全ての構成可能ユニットのユニットファイルの全て（３つ）のチャンクが取得された。第１、第２、第３、及び第４タイプの全ての構成可能ユニットのユニットファイルには、取得されるべきチャンクがそれぞれ０、０、２、及び３個残っている。

次に、アレイ構成ロード処理は、第４ラウンドにおける第３及び第４タイプの全ての構成可能ユニットについて、ユニットファイルのチャンク（ｉ）を含む構成ファイルのセグメントを取得することができる。第４ラウンドの後、第３タイプ（ＰＭＵタイプ）の全ての構成可能ユニットのユニットファイルの全て（４つ）のチャンクが取得された。第１、第２、第３、及び第４タイプの全ての構成可能ユニットのユニットファイルには、取得されるべきチャンクがそれぞれ０、０、１、及び２個残っている。

次に、アレイ構成ロード処理は、第５及び第６ラウンドで、（ｉ）がＺ３（＝４）からＺ４－１（５）に対して、第３及び第４タイプの全ての構成可能ユニットについて、ユニットファイルのチャンク（ｉ）を含む構成ファイルのセグメントを取得することができる。第６ラウンドの後、第４タイプ（ＡＧＣＵタイプ）の全ての構成可能ユニットのユニットファイルの全て（６つ）のチャンクが取得された。第１、第２、第３、及び第４タイプの全ての構成可能ユニットのユニットファイルには、取得されるべき残りのチャンクがそれぞれ０、０、０、及び０個ある。

上記の方法では、第１、第２、第３、及び第４タイプの全ての構成可能ユニットのユニットファイルが取得されるべきチャンクを有さなくなるまで、アレイ構成ロード処理を継続することができる。

アレイ構成ロード処理は、構成ファイル内のチャンクの位置によって示されるアドレスを使用して、構成データのチャンクをアレイ・レベル・ネットワーク経由で構成可能ユニットにルーティングする。例えば、１９８個のスイッチ・ユニットのそれぞれに対する構成データの２つのチャンクの内の１番目のチャンクは線形メモリ・アドレス０～１２２８８を有し、１９８個のスイッチ・ユニットのそれぞれに対する構成データの２つのチャンクの内の２番目のチャンクは、線形メモリ・アドレス３３７９２～４６０８０を有する。

幾つかの実施形態では、構成ファイルのチャンクがメモリから構成ロード・コントローラに順序どおりに戻されない場合がある。構成ファイル内のチャンクの位置を使用して、チャンクを正しい構成可能ユニットにルーティングできる。分配シーケンス内のラウンドの編成のお陰で、構成可能ユニットは、そのユニットファイルのチャンクを順番に受信することが保証される。

図１０は、図２及び図３のようなシステムに対して、アレイ構成ロード処理を実行するロジックの一例を示すステート・マシン図である。アレイ構成ロード処理は、複数の構成可能ユニット用のユニットファイルであって、それぞれが複数の順序付けられたチャンク（または、サブファイル）を有するユニットファイルを備える構成ファイルをアレイに分配することを含み、その構成ファイルの分配は、順序（ｉ）の１ユニットチャンクを、バス・システムを介してＮ個のサブファイルまでを含む全ての構成可能ユニットに、構成ファイル内のユニットファイルが複数の構成可能ユニットに分配されるまで、Ｎラウンド（Ｒ（ｉ）、ｉ＝０～Ｎ－１）のシーケンスで送信することにより実行される。

この例では、ステート・マシンは６つの状態Ｓ１～Ｓ６を含む。状態Ｓ１（アイドル）では、構成ロード・コントローラはホストからの構成ロード・コマンドを待機する。構成ロード・コマンドが受信されると、ロード処理は状態Ｓ２に入り、分配シーケンスの第１ラウンドＲ（０）の実行を開始する。各ラウンドは、状態Ｓ２～Ｓ６を横切る。本明細書で説明する例では、アレイ内の構成可能ユニットに分配されるチャンクの最大数が６であるため、６ラウンドが存在する。

状態Ｓ２（スイッチ・リクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、各スイッチ・ユニットの構成ユニットファイルのラウンドＲ（ｉ）の状態Ｓ２のチャンクを取得し、取得したチャンクを各スイッチ・ユニットに分配する。ｉ＝０の場合、ラウンドＲ（０）では、構成ロード・コントローラは、各スイッチ・ユニットの複数のチャンク内のチャンク（０）に対するメモリ・アクセス・リクエストを生成し、チャンク（０）を各スイッチ・ユニットに送信する。ｉ＝１の場合、ラウンドＲ（１）では、構成ロード・コントローラは、各スイッチ・ユニットの複数のチャンク内のチャンク（１）に対するメモリ・アクセス・リクエストを生成し、該チャンクを各スイッチ・ユニットに送信する。ラウンドＲ（ｉ）において、構成ロード・コントローラは、各スイッチ・ユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、全てのスイッチ・ユニットに対してチャンクを分配したとき、ロード処理は状態Ｓ３に入る。

状態Ｓ３（ＰＣＵリクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、各ＰＣＵユニット（パターン計算ユニット）の構成ユニットファイルのラウンドＲ（ｉ）のチャンクを取得し、取得したチャンクを各ＰＣＵユニットに分配する。ラウンドＲ（ｉ）の状態Ｓ３では、構成ロード・コントローラは、各ＰＣＵユニットの複数チャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンク（ｉ）を各ＰＣＵユニットに送信する。ラウンドＲ（ｉ）では、構成ロード・コントローラは、各ＰＣＵユニットの複数チャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンクを分配したとき、ロード処理は状態Ｓ４に入る。

状態Ｓ４（ＰＭＵリクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、構成可能ユニットのアレイ内の各ＰＭＵユニット（パターンメモリユニット）の構成ユニットファイルのチャンクを取得し、取得したチャンクを各ＰＭＵユニットに送信する。ラウンドＲ（ｉ）の状態Ｓ４では、構成ロード・コントローラは、各ＰＭＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンク（ｉ）を各ＰＭＵユニットに送信する。例えば、ｉ＝０の場合、ラウンドＲ（０）では、構成ロード・コントローラは、各ＰＭＵユニットの複数のチャンク内のチャンク（０）に対するメモリ・アクセス・リクエストを生成し、チャンク（０）を各ＰＭＵユニットに送信する。ｉ＝１の場合、ラウンドＲ（１）では、構成ロード・コントローラは、各ＰＭＵユニットの複数のチャンク内のチャンク（１）に対するメモリ・アクセス・リクエストを生成し、チャンク（１）を各ＰＭＵユニットに送信する。ラウンドＲ（ｉ）において、構成ロード・コントローラが、各ＰＭＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンクを分配したとき、ロード処理は状態Ｓ５に入る。

状態Ｓ５（ＡＧＣＵリクエスト）では、構成ロード・コントローラは、トップ・レベル・ネットワークを介してメモリ・アクセス・リクエストを生成し、構成可能ユニットのアレイ内の各ＡＧＣＵ（アドレス生成及び結合ユニット）の構成ユニットファイルのチャンクを取得し、取得したチャンクを各ＡＧＣＵユニットに送信する。ラウンドＲ（ｉ）の状態Ｓ５において、構成ロード・コントローラは、各ＡＧＣＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンク（ｉ）を各ＡＧＣＵユニットに送信する。ラウンドＲ（ｉ）の状態Ｓ５において、構成ロード・コントローラが、各ＡＧＣＵユニットの複数のチャンク内のチャンク（ｉ）に対するメモリ・アクセス・リクエストを生成し、チャンクを分配したとき、ロード処理はラウンドＲ（ｉ）の状態Ｓ６に入る。

状態Ｓ６（応答待ち）では、構成ロード・コントローラは、アレイ内の構成可能ユニット（スイッチ、ＰＣＵ、ＰＭＵ、ＡＧＣＵユニット）が次のラウンドで構成データのより多くのチャンクを受信する準備ができていることを保証するために待機する。スイッチ・ユニットに対する全てのチャンクが送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ２に進み、次のラウンドＲ（ｉ＋１）を開始する。スイッチ・ユニットの全てのチャンクは送信されるが、ＰＣＵチャンクの全てのチャンクは送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ３に進み、次のラウンドＲ（ｉ＋１）を開始する。スイッチ・ユニット及びＰＣＵユニットに対する全てのチャンクは送信されるが、ＰＭＵチャンクの全てのチャンクは送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ４に進み、次のラウンドＲ（ｉ＋１）を開始する。スイッチ・ユニット、ＰＣＵユニット、及びＰＭＵユニットの全てのチャンクは送信されるが、ＡＧＣＵチャンクの全てのチャンクは送信されない場合、ロード処理は（ｉ）をインクリメントし、状態Ｓ５に進み、次のラウンドＲ（ｉ＋１）を開始する。全ての構成可能ユニット（スイッチ、ＰＣＵ、ＰＭＵ、ＡＧＣＵユニット）の全てのチャンクが送信される（すなわち、全てのラウンドが完了する）と、ロード処理は状態Ｓ１に進む。

図１１は、図１０のような分配シーケンスの初期のラウンドのタイミングを示すタイミング図である。この例では、構成ユニットファイルのチャンクがビット数Ｂ（例えば、Ｂ＝１２８）のデータを有し、分配シーケンスのラウンドは構成可能ユニットの数Ｘを含むことができ、構成可能ユニットのアレイは構成可能ユニットの数Ｙ（例えば、Ｙ＝１４８）を含むことができる。ラウンドＲ（０）において、ＸはＹに等しくなり得る。後続のラウンドでは、ＸはＹ以下になり得る。

この例では、ラウンドＲ（０）がＹ＝１４８個の構成可能ユニットを含む。ラウンドＲ（０）及びＲ（１）については、Ｘ＝Ｙである。最初の２つのラウンドＲ（０）及びＲ（１）の後、スイッチ・ユニットは全ての（２）のそれらのチャンクを受信したので、第３のラウンドＲ（２）は１２８未満の構成可能ユニットを含む。

図１１の例に示されるように、ラウンドＲ（０）、構成ユニットファイルの最初のチャンクＰ１１は、１番目のバス・サイクルＣ０においてバス・システムを介して構成可能ユニットで受信される。次に、該ラウンドの他のチャンクが、構成ロード・コントローラによって他の構成可能ユニットに分配される間に、Ｂクロックサイクル（バスクロックと同じレートで実行することができる）で第１のチャンクＰ１１内のＢビットのデータを構成可能ユニットにおいて並列タスクでシリアルにシフトすることによって、最初のチャンクが、第１の構成可能ユニット「ユニット１」の構成ストアにロードされる。構成ファイルの２番目のチャンクＰ２１は、２番目のバス・サイクルＣ１においてバス・システムを介して受信される。次に、２番目のチャンクは、２番目のチャンクＰ２１内のＢビットのデータをＢクロックサイクルでシリアルにシフトすることによって、第２の構成可能ユニット「ユニット２」の構成ストアに並列タスクでロードされる。構成ファイルの３番目のチャンクＰ３１は、３番目のバス・サイクルＣ２でバス・システムを介して受信される。次に、３番目のチャンクＰ３１内のＢビットのデータをＢクロックサイクルでシリアルにシフトすることによって、第３の構成可能ユニット「ユニット３」の構成ストアに第３のチャンクＰ３１がロードされる。このラウンドは、構成可能ユニットがそれらに特有のユニットファイルの最初のチャンクを受信するまで進行する。

ラウンドＲ（０）は、構成ファイルのＹ個のチャンクの第１セット（Ｐ１１、Ｐ２１、Ｐ３１、・・・、ＰＹ１）を、アレイ内のＹ個の各構成可能ユニット（ユニット１、・・・、ユニットＹ）に分配することを含む。構成ファイルのチャンクは、ビット数Ｂのデータを有し、構成可能ユニットのアレイは、Ｙ個の構成可能ユニットを有する。ラウンドＲ（０）が完了すると、第１セット内の構成ファイルのＹ個のチャンク（Ｐ１１、Ｐ２１、Ｐ３１、・・・、ＰＹ１）が、Ｙバス・サイクル（Ｃ０～ＣＹ－１）でアレイ内のＹ個の構成可能ユニット内で受信され、最初のチャンクＰ１１は、Ｂクロックサイクル内で第１の構成可能ユニット「ユニット１」の構成ストア内にロードされ、またはシリアルにシフトされている。Ｂクロックサイクルは、最初のチャンクＰ１１が受信される最初のクロックサイクルＣ０に続く。

次のラウンドＲ（１）は、アレイ内のＹ個の各構成可能ユニット（ユニット１、・・・、ユニットＹ）内の構成ファイルのＹ個のチャンクの第２セット（Ｐ１２、Ｐ２２、Ｐ３２、・・・、Ｐｙ２）を受信することを含む。ラウンドＲ（１）が完了すると、第２セット内の構成ファイルのＹ個のチャンク（Ｐ１２、Ｐ２２、Ｐ３２、・・・、Ｐｙ２）が、Ｙクロックサイクル（Ｃｙ～Ｃ２ｙ－１）でアレイ内のＹ個の各構成可能ユニット内で受信されている。ラウンドＲ（１）が完了すると、第１の構成可能ユニット「ユニット１」の２番目のチャンクＰ１２が、ラウンドＲ（１）における最初のクロックサイクル（Ｃｙ）に続くＢクロックサイクルにおいて、第１の構成可能ユニット「ユニット１」の構成ストアにロードされるか、またはシリアルにシフトされている。また、２番目のラウンドが完了すると、ラウンドＲ（０）で受信された構成ファイルのＹ個のチャンクの第１セットの最後のチャンクＰＹ１が、最後の構成可能ユニット「ユニットＹ」の構成ストアにロードまたはシリアルにシフトされている。

或るラウンドで、チャンク内のビット数Ｂ(１２８）が構成可能ユニットの個数Ｘ未満である限り、構成可能ユニットは、シーケンスが行き詰まることなく構成可能ユニットが準備できるように、前のチャンクがロードされた後に、ユニット構成ファイルの次のチャンクを受信する。この例では、チャンク内のビット数Ｂは１２８で、ラウンドＲ（０）における構成可能ユニットの個数Ｘは、Ｘ＝Ｙ＝１４８である。チャンク内の１２８ビットを構成可能ユニットの構成データストアにシリアルにシフトするのに１２８クロックサイクルを要するため、シフトが行われてから実質的に２０（Ｙ－Ｂ＝１４８－１２８）のバッファサイクルがあり、最初の構成可能ユニット「ユニット１」が次のラウンドＲ（１）で次のチャンク（Ｐ１２）を受け入れる準備ができていることを保証している。或るラウンドで、チャンク内のビット数Ｂが構成可能ユニットの個数Ｘより大きいとき、前のチャンクが消費されている間に次のチャンクを受信できる。ここで、消費されているとは、チャンク内のビットを構成可能ユニットの構成データストアにシリアルにシフトすることを意味する。

一般に、ユニット構成ロード処理は、１つのバス・サイクルでバス・システムから構成可能ユニットに特有のユニットファイルの最初のチャンク（またはサブファイル）を受信し、次のラウンドのためのユニットファイルの２番目のチャンクが受信される前に、受信された最初のチャンクをシリアル・チェーンにプッシュし始め、後のバス・サイクルでシーケンスの次のラウンドのためにバス・システムから構成可能ユニットに特有のユニットファイルの２番目のチャンクを受信し、先に受信したチャンクをシリアル・チェーンにプッシュした後のシーケンスのサイクルの間に、受信した２番目のチャンクをシリアル・チェーンにプッシュし始める。幾つかのラウンドでは、次のチャンクが受信される前に、受信したチャンクの全てを消費することができる。

異なるタイプの構成可能ユニットは異なる数の構成ビットを有することがあるので、構成可能ユニットはチャンク数の変更を必要とすることがある。より少ない数のチャンクを必要とする構成可能ユニットが全ての構成ビットをロードすると、構成ロード・コントローラはそれらへのデータの送信を停止する。これは、インターリーブされる構成可能ユニット（個数Ｘ）をより少なくすることができ、構成可能ユニットが前のチャンクの処理を完了する前に新しいチャンクを受信することを誘導し得る。これは、アレイ・レベル・ネットワークにバック・プレッシャをもたらす可能性がある。

バック・プレッシャは、アレイ・レベル・ネットワーク上のクレジット機構を介して処理することができる。例えば、各入力ＦＩＦＯにホップ・ツー・ホップ・クレジットを設定できるため、ＰＣＵの入力ＦＩＦＯがいっぱいになると、そのＰＣＵの入力ＦＩＦＯに構成データを送信しようとするアレイ・レベル・ネットワーク内のスイッチは、入力ＦＩＦＯが１つのエントリを空にして送信スイッチにクレジットを返すまで、データを送信できない。最終的に、バック・プレッシャは、リンクがビジーになっているときにＡＧＣＵがデータを送信するのを停止することがある。しかし、構成可能ユニットがチャンクの１２８ビット全てを消費すると、１つの入力ＦＩＦＯエントリを空にし、クレジットが解放され、その後、送信者は利用可能であれば、新しいチャンクを送信することができる。

図１２は、構成可能ユニットにおけるユニット構成ロード処理を示すフローチャートである。ステップ１２２１で、ユニット構成ロード処理は、入力ＦＩＦＯ（図６の６１０）が有効になるのを待つ。有効になると、入力ＦＩＦＯは構成可能ユニットを構成するために、バス・システムを介して構成ファイルの構成データのチャンクを受信した。入力ＦＩＦＯが有効な場合、フローはステップ１２２２に進む。

ステップ１２２２で、入力ＦＩＦＯはデキューされる。ステップ１２２３で、入力ＦＩＦＯからの構成データのチャンクが、入力シフト・レジスタに並列にロードされる（図６の６２０）。ステップ１２２４で、入力シフト・レジスタ内の構成データのチャンクが、構成可能ユニットの構成データストア内の構成シリアル・チェーンにシフトされる。

ステップ１２２５で、ユニット構成ロード処理は、ロードされた構成データのチャンクが構成可能ユニットの構成データの最後のチャンクであるかどうかを判定する。最後のチャンクである場合、構成可能ユニットのための構成データのロードは完了する。最後のチャンクでない場合、フローはステップ１２２１に進み、ユニット構成ロード処理は、入力ＦＩＦＯが次の構成データのチャンクに対して有効になるのを待つ。構成可能ユニットにおけるユニット構成ロード処理は、図５及び図６を参照してさらに説明される。

図１３は、図２及び図３のようなシステムのためのアレイ構成アンロード処理を実行するためのロジックの一例のためのステート・マシン図である。

この例では、ステート・マシンは３つの状態Ｓ１～Ｓ３を含む。状態Ｓ１（アイドル）では、構成アンロード・コントローラはホストからの構成アンロード・コマンドを待機する。構成アンロード・コントローラは、アレイ構成アンロード処理に対して、“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”と“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”の２つのカウントを実施し、カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”は次のアンロード・リクエスト・カウントを追跡する。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”は次のアンロード応答カウントを追跡する。状態Ｓ１において、両方のカウントは、０のような初期値にリセットされる。構成アンロード・コマンドを受信すると、アンロード処理は状態S２に入る。

状態Ｓ２（Ｇｅｎリクエスト）で、構成アンロード・コントローラは、構成可能ユニットのアレイ内のスイッチ・ユニット、ＰＣＵ、ＰＭＵ、及びＡＧＣＵを含むアレイ内の構成可能ユニットそれぞれについてのアンロード・リクエストを生成する。各アンロード・リクエストが生成されるたびに、カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”がインクリメントされる。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”は、所定の数ＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴと比較される。これは構成可能ユニットのアレイ内の構成可能ユニットの総数を表す。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴ未満である限り、アンロード処理は状態Ｓ２のままである。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｑ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴと等しい場合、アレイ内の構成可能ユニットそれぞれに対しアンロード・リクエストが生成され、アンロード処理は状態Ｓ３に入る。

状態Ｓ３（応答待ち）では、構成アンロード・コントローラがアレイ内の構成可能ユニットから受信した各応答に対するカウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”をインクリメントする。応答は、構成可能ユニットの構成データのユニットファイル内のチャンク（サブファイル）を含む。応答はまた、幾つかの例では、ＰＭＵスクラッチパッドデータを含むことができる。アンロード処理中に、応答が構成可能ユニットのベクトル出力に提供され、ベクトル・バス上で構成ロード・コントローラに送信される。カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴ未満である限り、アンロード処理は状態S３のままである。

状態Ｓ３では、アンロード処理は受信した各応答に対しメモリ・アドレスを生成し、受信した各応答をトップ・レベル・ネットワークで生成されたメモリ・アドレスとともに挿入する。各応答は、アンロード・チャンクとシーケンスＩＤを含む。メモリ・アドレスは、シーケンスＩＤ内のチャンク番号、列識別子、行識別子、及び構成要素識別子を含む、アレイ・レベル・ネットワーク内のチャンクを搬送するパケットに付随するヘッダから生成される。構成要素識別子は、構成可能ユニットが、スイッチ・ユニット、ＰＣＵユニット、ＰＭＵユニット、またはＡＧＣＵユニットであるかを示すことができる。シーケンスＩＤは、図３を参照してさらに説明される。

カウント“ｎｅｘｔ＿ｕｎｌｄ＿ｒｅｓｐ＿ｃｏｕｎｔ”がＰＲＯＧＲＡＭ＿ＵＮＬＯＡＤ＿ＲＥＱ＿ＣＯＵＮＴに等しい場合、応答はアレイ内の構成可能ユニットそれぞれから受信され、トップ・レベル・ネットワーク上に挿入され、アンロード処理は状態Ｓ１に戻る。

一実施形態では、スイッチ・ユニット内の構成データに対する線形メモリ・アドレスの順序は、スイッチ・ユニットの１列目の各行の第１のチャンクと、それに続くスイッチ・ユニットの２列目の各行の第１のチャンクと、それに続くスイッチ・ユニットの３列目の各行の第１のチャンクと、・・・、最終列の各行の第１のチャンクまで続く。これにより、線形アドレス空間内の全てのスイッチ・ユニットの第１のチャンクがグループ化される。他のタイプの構成可能ユニットの第１のチャンクは、隣接するアドレス空間のグループ内にロードされる。次に、順番の後には、スイッチ・ユニットの１列目の各行の第２のチャンクと、それに続くスイッチ・ユニットの２列目の各行の第２のチャンクと、それに続くスイッチ・ユニットの３列目の各行の第２のチャンクと、・・・、スイッチ・ユニットの最終列の最終行の最後のチャンクまでが続き、そして、全てのタイプの構成可能ユニットの第２のチャンクについて、同様に続く。

上述のようにスイッチ・ユニット内の構成データに対するメモリ・アドレスの順序を使用して、以下の擬似コードは、スイッチユニット（ｃｏｍｐ＿ｓｗｉｔｃｈ）の線形メモリ・アドレスをどのように生成するかを示す。疑似コードは以下の４つの入力を使用し：
ｃｏｍｐ＿ｉｄ：構成要素識別子；
ｃｏｍｐ＿ｃｏｌ：列識別子；
ｃｏｍｐ＿ｒｏｗ：行識別子；
ｃｏｍｐ＿ｃｈｕｎｋ：チャンク番号；
以下の出力を生成する：
ｌｉｎｅａｒ＿ａｄｄｒｅｓｓ：アンロード・チャンクの線形メモリ・アドレス；

スイッチ・ユニットの特定のアンロード・チャンクに対する線形メモリ・アドレスを生成するための擬似コードは、以下の通りである：
If (comp_id==comp_switch)begin
comp_num = comp_col*NUM_ROW_SW + comp_row;
linear_comp_num = comp_num +(comp_chunk * COMP_COUNT_ALL);
linear_address = linear_comp_num * 16；
end
但し、
・ｃｏｍｐ＿ｓｗｉｔｃｈは、スイッチ・ユニットを示し；
・ＮＵＭ＿ＲＯＷ＿ＳＷは、全てのスイッチ・ユニットの行数であり；
・ＣＯＭＰ＿ＣＯＵＮＴ＿ＡＬＬは、全ての構成可能ユニットの合計である。

ＰＣＵ、ＰＭＵ、またはＡＧＣＵユニットの特定のアンロード・チャンクに対する線形メモリ・アドレスを生成するために、同様のコードを使用することができる。１つの違いは、全てのスイッチ・ユニットの行数が全てのＰＣＵの行数、全てのＰＭＵの行数、及び全てのＡＧＣＵの行数と異なる点である。別の違いは、スイッチ・ユニットの線形メモリ・アドレスが、ベースアドレス（例えば、０）で始まることができ、ＰＣＵ、ＰＭＵ、及びＡＧＣＵに対する線形メモリ・アドレスがそれぞれスイッチ・ユニット、ＰＣＵ、及びＰＭＵの最後のチャンクの後のアドレスで始まることである。

図１４は、構成可能ユニットにおけるユニット構成アンロード処理を示すフローチャートである。ステップ１４３１において、構成データストア内の構成シリアル・チェーンからの構成データのチャンクが、出力シフト・レジスタ（図６の６５０）にシリアルにシフトされる。フローはステップ１４３２に入る。

ステップ１４３２で、ユニット構成アンロード処理は、出力ＦＩＦＯ（図６の６６０）または他のタイプの出力バッファ回路が有効になるのを待つ。ステップ１４３３で、出力ＦＩＦＯが有効になると、出力シフト・レジスタからの構成データのチャンクが出力ＦＩＦＯに挿入される。ステップ１４３４で、出力ＦＩＦＯ内の構成データのチャンクがバス・システムに書き込まれる（図３）。

ステップ１４３５で、ユニット構成アンロード処理は、構成データの最初のチャンクが構成データストア内の構成データの最後のチャンクであるかどうかを判断する。そうである場合、構成可能ユニットの構成データのアンロードは完了する。そうでない場合、フローはステップ１４３１に戻り、構成データストアからの構成データの第２のチャンクが、出力シフト・レジスタにシリアルにシフトされる。

本発明は、上記で詳述された好ましい実施形態及び実施例を参照することによって開示されるが、これらの実施例は限定的な意味ではなく、例示的な意味で意図されたものと理解されるべきである。当業者であれば、本発明の精神及び以下の特許請求の範囲の技術的範囲内における修正及び組み合わせを容易に想到すると予期される。

フィールド・プログラマブル・ゲートアレイＦＰＧＡを含む再構成可能プロセッサは、コンピュータ・プログラムを実行する汎用プロセッサを使用して達成され得るものよりも効率的または高速に様々な機能を実装するように構成され得る。いわゆる粗粒度再構成可能アーキテクチャ（例えば、ＣＧＲＡ）が開発されており、このアーキテクチャでは、アレイ内の構成可能ユニットが、典型的なより細粒度のＦＰＧＡで使用されるよりも複雑であり、様々なクラスの機能のより高速またはより効率的な実行を可能にすることができる。例えば、機械学習及び人工知能作業負荷のためのエネルギー効率のよいアクセラレータの実施態様を可能にすることができるＣＧＲＡが提案されている。Prabhakar, et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns"、ISCA '17, June 24-28, 2017, Toronto, ON, Canadaを参照されたい。米国出願公開ＵＳ２０１８／０１８９２３１Ａ１は、可変長パケットの構成をＰＥにロードする１つの方法を含む、構成可能な空間アクセラレータを備えたプロセッサ、方法、およびシステムについて説明している。

２つのタイルのそれぞれは、４つのＡＧＣＵ（アドレス生成及び結合ユニット）（例えば、ＭＡＧＣＵ１、ＡＧＣＵ１２、ＡＧＣＵ１３、ＡＧＣＵ１４）を有する。ＡＧＣＵは、トップ・レベル・ネットワーク上のノードとアレイ・レベル・ネットワーク上のノードであり、各タイル内のトップ・レベル・ネットワーク上のノードとアレイ・レベル・ネットワーク上のノード間でデータをルーティングするためのリソースを含む。

構成ファイルの編成例に示すように、構成ファイル内の構成データのチャンクはインターリーブ方式で配置される：
・ラウンドＲ（ｉ＝０）におけるスイッチ・ユニットのそれぞれに対する２つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝０）におけるＰＣＵユニットのそれぞれに対する３つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝０）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝０）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの１番目；
・ラウンドＲ（ｉ＝１）におけるスイッチ・ユニットのそれぞれに対する２つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝１）におけるＰＣＵユニットのそれぞれに対する３つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝１）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝１）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの２番目；
・ラウンドＲ（ｉ＝２）におけるＰＣＵユニットのそれぞれに対する３つのチャンクの構成ビットの３番目；
・ラウンドＲ（ｉ＝２）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの３番目；
・ラウンドＲ（ｉ＝２）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの３番目；
・ラウンドＲ（ｉ＝３）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの４番目；
・ラウンドＲ（ｉ＝３）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの４番目；
・ラウンドＲ（ｉ＝３）におけるＰＭＵユニットのそれぞれに対する５つのチャンクの構成ビットの５番目；
・ラウンドＲ（ｉ＝４）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの５番目；
・ラウンドＲ（ｉ＝４）におけるＡＧＣＵユニットのそれぞれに対する６つのチャンクの構成ビットの６番目。

Claims

バス・システムと、
前記バス・システムに接続された構成可能ユニットのアレイと、
前記バス・システムに接続された構成ロード・コントローラを含む、再構成可能データ・プロセッサであって、
前記アレイ中の構成可能ユニットが、対応する構成可能ユニットに特有の構成データの複数のサブファイルを含むユニットファイルを格納する構成データストアを含み、
複数の構成可能ユニット内の構成可能ユニットのそれぞれが、前記バス・システムを介して前記構成可能ユニットに特有のユニットファイルのサブファイルを受信すること、及び、受信した前記サブファイルを前記構成可能ユニットの前記構成ストアにロードすることを含むユニット構成ロード処理を実行するロジックを含み、
前記構成ロード・コントローラが、前記アレイ内の複数の前記構成可能ユニット用のそれぞれが複数の順序付けられたサブファイルを含むユニットファイルを備える構成ファイルを分配することを含むアレイ構成ロード処理を実行するロジックを含み、
前記アレイ構成ロード処理は、Ｎラウンドのシーケンス（ｉ＝０～Ｎ－１におけるラウンドＲ（ｉ））で、前記複数の構成可能ユニット内に最大（ｉ＋１）のサブファイルを含む前記構成可能ユニットの全てに、前記バス・システムを介して、順序（ｉ）の１つのユニット・サブファイルを送信することによって実行される、
ことを特徴とする再構成可能データ・プロセッサ。
前記複数の構成可能ユニットが、前記構成可能ユニットのアレイ内の全ての前記構成可能ユニットを含み、前記構成可能ユニットの１以上対する前記ユニットファイルが、ノーオペレーション構成を実施する請求項１に記載のプロセッサ。
前記複数の構成可能ユニット内の構成可能ユニットの前記構成データストアが、シリアル・チェーンを備え、
前記ユニット構成ロード処理が、前記構成可能ユニットに特有の前記ユニットファイルの第１のサブファイルを、１つのバス・サイクルにおいて前記バス・システムから受信し、前記ユニットファイルの第２のサブファイルを受信する前に、後続のバス・サイクル中に、受信した前記第１のサブファイルを前記シリアル・チェーン内にプッシュすることを開始し、後のバス・サイクルにおいて、前記シーケンスの次のラウンドに対する前記構成可能ユニットに特有の前記ユニットファイルの前記第２のサブファイルを前記バス・システムから受信し、先に受信したサブファイルを前記シリアル・チェーン内にプッシュした後の前記シーケンスのサイクル中に、受信した前記第２のサブファイルを前記シリアル・チェーン内にプッシュすることを開始する請求項１に記載のプロセッサ。
前記複数の順序付けられたサブファイル内の前記第２のサブファイルが前記構成可能ユニットによって受信される前に、前記第１のサブファイルが、前記ユニット構成ロード処理によって前記構成可能ユニット内で使用される請求項３に記載のプロセッサ。
前記アレイ構成ロード処理が、前記構成ファイルのメモリ内の位置を識別する構成ロード・コマンドをホスト処理から受信すること、及び、前記構成ファイルを取得する前記コマンドに応答して、１以上のメモリ・アクセス・リクエストを生成する請求項１に記載のプロセッサ。
前記構成ファイルが、複数の構成可能ユニット内の各構成可能ユニットに対するユニットファイルの複数のサブファイルを含み、前記サブファイルが、前記シーケンスに一致するインターリーブ方式で前記構成ファイル内に配置されており、
前記アレイ構成ロード処理が、前記構成ファイル内の前記サブファイルの位置に基づいて、前記サブファイルを構成可能ユニットにルーティングすることを含む請求項１に記載のプロセッサ。
サブファイルがビット数Ｎのデータを有し、
前記バス・システムが、Ｎビットのデータを１つのバス・サイクルで転送するように構成されている請求項１に記載のプロセッサ。
前記複数の構成可能ユニット内の構成可能ユニットの前記構成データストアが、シリアル・チェーンを備え、
前記ユニット構成ロード処理が、前記構成可能ユニットに特有の前記ユニットファイルの第１のサブファイルを、１つのバス・サイクルにおいて前記バス・システムから受信し、受信した前記第１のサブファイルをＮ回の後続のバス・サイクル中に前記シリアル・チェーン内にプッシュし、後のバス・サイクルにおいて、前記構成可能ユニットに特有の前記ユニットファイルの第２のサブファイルを前記バス・システムから受信し、先に受信したサブファイルを前記シリアル・チェーン内にプッシュした後のＮ回の後続のバス・サイクル中に、受信した前記第２のサブファイルを前記シリアル・チェーン内にプッシュする請求項７に記載のプロセッサ。
前記アレイが、Ｎ個より多い構成可能ユニットを含む請求項８に記載のプロセッサ。
前記アレイが、複数のタイプの構成可能ユニットを含み、構成可能ユニットの異なるタイプに対する前記ユニットファイルは、構成データの異なる数のサブファイルを含む請求項１に記載のプロセッサ。
第１タイプの構成可能ユニットの前記ユニットファイルが、Ｚ１個のサブファイルを含み、第２タイプの構成可能ユニットの前記ユニットファイルが、Ｚ２個のサブファイルを含み、Ｚ１はＺ２未満であり、
前記アレイ構成ロード処理が、
（ｉ）が０からＺ１－１までにおいて、前記第１及び第２のタイプの全ての前記構成可能ユニットに対する前記ユニットファイルのサブファイル（ｉ）を含む前記構成ファイルのセグメントを検索し、次に、（ｉ）がＺ１からＺ２－１までにおいて、前記第２のタイプの全ての前記構成可能ユニットに対する前記ユニットファイルのサブファイル（ｉ）を含む前記構成ファイルのセグメントを検索する請求項１に記載のプロセッサ。
前記構成可能ユニットのアレイ内の構成可能ユニットが、前記アレイ構成ロードロジックで開始及び終了するデイジー・チェーンで接続されたそれぞれのロード完了状態ロジックを含む請求項１に記載のプロセッサ。
前記アレイ構成ロードロジックが、前記構成ファイルが分配された後に前記デイジー・チェーン上においてロード完了信号を転送し、
前記アレイ内の各構成可能ユニットにおいて、前記構成ロード完了状態ロジックが、前記デイジー・チェーンの前のメンバからの前記ロード完了信号が受信され、そのユニットファイルのロードが完了したときに、前記デイジー・チェーン上において前記ロード完了信号を転送する請求項１２に記載のプロセッサ。
前記バス・システムが、外部データ・インタフェースとアレイ・インタフェースを含むトップ・レベル・ネットワークと、前記アレイ・インタフェース及び前記構成可能ユニットのアレイ内の前記構成可能ユニットに接続されたアレイ・レベル・ネットワークを含む請求項１に記載のプロセッサ。
前記アレイ構成ロード処理が、ホスト処理から、前記構成ファイルのメモリ内の位置を識別する構成ロード・コマンドを受信し、前記外部データ・インタフェースを介して前記構成ファイルを取得する前記コマンドに応答して、前記トップ・レベル・ネットワークを介して１以上のメモリ・アクセス・リクエストを生成する請求項１４に記載のプロセッサ。
前記アレイ構成ロード処理が、前記構成ファイル内の前記サブファイルの位置によって示されるアドレスを使用して、前記構成データのサブファイルを前記アレイ・レベル・ネットワーク経由で構成可能ユニットにルーティングする請求項１５に記載のプロセッサ。
前記複数の構成可能ユニット内の構成可能ユニットが、前記構成ロード処理においても使用される前記バス・システム内のルートを構成後の実行中に使用する請求項１に記載のプロセッサ。
バス・システムと、前記バス・システムに接続された構成可能ユニットのアレイを含む、再構成可能データ・プロセッサを操作する方法であって、
前記アレイ中の構成可能ユニットが、前記対応する構成可能ユニットに特有の構成データの複数のサブファイルを含むユニットファイルを格納する構成データストアを含み、
前記方法が、
前記アレイ内の複数の前記構成可能ユニット用のそれぞれが複数の順序付けられたサブファイルを含むユニットファイルを備える構成ファイルを、Ｎラウンドのシーケンス（ｉ＝０～Ｎ－１におけるラウンドＲ（ｉ））で、前記複数の構成可能ユニット内に最大（ｉ＋１）のサブファイルを含む前記構成可能ユニットの全てに、前記バス・システムを介して、順序（ｉ）の１つのユニット・サブファイルを送信することによって、分配すること、及び、
前記構成可能ユニットに特有のユニットファイルの前記サブファイルを前記構成可能ユニット内に受信すること、及び、受信した前記サブファイルを前記構成可能ユニットの前記構成ストアにロードすることを備える
ことを特徴とする再構成可能データ・プロセッサを操作する方法。
前記複数の構成可能ユニットが、前記構成可能ユニットのアレイ内の全ての前記構成可能ユニットを含み、前記構成可能ユニットの１以上対する前記ユニットファイルが、ノーオペレーション構成を実施する請求項１８に記載の方法。
前記複数の構成可能ユニット内の構成可能ユニットの前記構成データストアが、シリアル・チェーンを備え、
特定の構成可能ユニット内の前記ユニットファイルの第１のサブファイルを、１つのバス・サイクルにおいて受信すること、
前記ユニットファイルの第２のサブファイルを受信する前に、後続のバス・サイクル中に、受信した前記第１のサブファイルを前記シリアル・チェーン内にプッシュすることを開始すること、
後のバス・サイクルにおいて、前記シーケンスの次のラウンドに対する前記特定の構成可能ユニット内の前記ユニットファイルの前記第２のサブファイルを受信すること、及び、
先に受信したサブファイルの前記シリアル・チェーン内へのプッシュが完了した後の前記シーケンスのサイクル中に、受信した前記第２のサブファイルを前記シリアル・チェーン内にプッシュすることを開始すること、を含む
請求項１８に記載の方法。
前記複数の順序付けられたサブファイル内の前記第２のサブファイルが前記構成可能ユニットによって受信される前に、前記第１のサブファイルが、ユニット構成ロード処理によって前記構成可能ユニット内で使用される請求項２０に記載の方法。
前記分配することの前に、前記構成ファイルのメモリ内の位置を識別する構成ロード・コマンドをホスト処理から受信すること、及び、前記構成ファイルを取得する前記コマンドに応答して、１以上のメモリ・アクセス・リクエストを生成することを含む請求項１８に記載の方法。
前記構成ファイルが、複数の構成可能ユニット内の各構成可能ユニットに対するユニットファイルの複数のサブファイルを含み、前記サブファイルが、前記シーケンスに一致するインターリーブ方式で前記構成ファイル内に配置されており、
前記構成ファイル内の前記サブファイルの位置に基づいて、前記サブファイルを構成可能ユニットにルーティングすることを含む請求項１８に記載の方法。
サブファイルがビット数Ｎのデータを有し、
前記バス・システムが、Ｎビットのデータを１つのバス・サイクルで転送するように構成されている請求項２３に記載の方法。
前記複数の構成可能ユニット内の構成可能ユニットの前記構成データストアが、シリアル・チェーンを備え、
前記構成可能ユニットに特有の前記ユニットファイルの第１のサブファイルを、１つのバス・サイクルにおいて前記構成可能ユニットにおいて受信すること、
受信した前記第１のサブファイルをＮ回の後続のバス・サイクル中に前記シリアル・チェーン内にプッシュすること、
後のバス・サイクルにおいて、前記構成可能ユニットに特有の前記ユニットファイルの第２のサブファイルを受信すること、及び、
先に受信したサブファイルを前記シリアル・チェーン内にプッシュした後のＮ回の後続のバス・サイクル中に、受信した前記第２のサブファイルを前記シリアル・チェーン内にプッシュすること、を含む請求項２４に記載の方法。
前記アレイが、Ｎ個より多い構成可能ユニットを含む請求項２５に記載の方法。
前記アレイが、複数のタイプの構成可能ユニットを含み、構成可能ユニットの異なるタイプに対する前記ユニットファイルは、構成データの異なる数のサブファイルを含む請求項１８に記載の方法。
第１タイプの構成可能ユニットの前記ユニットファイルが、Ｚ１個のサブファイルを含み、第２タイプの構成可能ユニットの前記ユニットファイルが、Ｚ２個のサブファイルを含み、Ｚ１はＺ２未満であり、
（ｉ）が０からＺ１－１までにおいて、前記第１及び第２のタイプの全ての前記構成可能ユニットに対する前記ユニットファイルのサブファイル（ｉ）を含む前記構成ファイルのセグメントを検索すること、及び、
次に、（ｉ）がＺ１からＺ２－１までにおいて、前記第２のタイプの全ての前記構成可能ユニットに対する前記ユニットファイルのサブファイル（ｉ）を含む前記構成ファイルのセグメントを検索すること、を含む請求項１８に記載の方法。
構成可能ユニットのデイジー・チェーン内でロード完了状態を転送することを含む請求項１８に記載の方法。
前記構成ファイルが分配された後に前記デイジー・チェーン上の第１ノードからロード完了信号を転送すること、
前記アレイ内の各構成可能ユニットにおいて、前記デイジー・チェーンの前のノードからの前記ロード完了信号が受信され、そのユニットファイルのロードが完了したときに、前記デイジー・チェーン上において前記ロード完了信号を転送する請求項２９に記載の方法。
ホスト処理から、前記構成ファイルのメモリ内の位置を識別する構成ロード・コマンドを受信すること、及び、
前記構成ファイルを取得する前記コマンドに応答して、前記トップ・レベル・ネットワークを介して１以上のメモリ・アクセス・リクエストを生成すること、を含む請求項１８に記載の方法。
前記アレイ構成ロード処理が、前記構成データのサブファイルを、前記構成ファイル内の前記サブファイルの位置によって示されるアドレスを使用して、前記アレイ・レベル・ネットワーク経由で構成可能ユニットにルーティングする請求項３１に記載の方法。
前記分配に対しても使用される前記バス・システム内のルートを構成後の実行中に使用する請求項１８に記載の方法。
バス・システムと、
前記バス・システムに接続された構成可能ユニットのアレイと、
前記バス・システムに接続された構成ロード・コントローラを含む、再構成可能データ・プロセッサであって、
前記アレイ中の構成可能ユニットが、シリアル・チェーン内に配置された、対応する構成可能ユニットに特有の構成データの複数のサブファイルを含むユニットファイルを格納する構成データストアを含み、
前記構成ロード・コントローラが、前記アレイ内の複数の前記構成可能ユニット用のユニットファイルを備える構成ファイルを並列サブファイル内に分配するロジックを含む、
ことを特徴とする再構成可能データ・プロセッサ。
バス・システムと、前記バス・システムに接続された構成可能ユニットのアレイを含む、再構成可能データ・プロセッサを操作する方法であって、
前記アレイ中の構成可能ユニットが、シリアル・チェーン内に配置された、対応する構成可能ユニットに特有の構成データの複数のサブファイルを含むユニットファイルを格納する構成データストアを含み、
前記方法が、前記アレイ内の複数の前記構成可能ユニット用のユニットファイルを備える構成ファイルを、並列サブファイル内に分配することを含む、
ことを特徴とする再構成可能データ・プロセッサを操作する方法。