JP2023523587A

JP2023523587A - 計算データフローアーキテクチャ

Info

Publication number: JP2023523587A
Application number: JP2022564306A
Authority: JP
Inventors: ヤング，スティーブン・ピィ; ガイド，ブライアン・シィ
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2020-04-23
Filing date: 2021-04-22
Publication date: 2023-06-06
Also published as: US20210336622A1; US20220368330A1; EP4140038A2; US11451230B2; US11750195B2; WO2021216882A2; KR20230002937A; CN115428341A; WO2021216882A3

Abstract

例示的な集積回路は、回路タイルのアレイと、アレイ内の回路タイルを結合する相互接続とを備え、相互接続は、複数の接続を各々が有する相互接続タイルを含み、複数の接続は、少なくとも回路タイルのそれぞれの１つへの接続と、少なくとも１つの他の相互接続タイルへの複数の接続とを含み、集積回路は、相互接続タイルの各々における複数のローカルクロスバーを備え、複数のローカルクロスバーは非ブロッキングクロスバーを形成するように結合され、複数のローカルクロスバーの各々は、非同期通信のためのハンドシェイク回路を備える。

Description

本開示の例は、概して電子回路に関し、特に、プログラマブルデバイスのための計算データフローアーキテクチャに関する。

プログラマブルデバイス（たとえば、プログラマブルロジックを含む集積回路）は、異なる構成可能論理要素（ＣＬＥ：Configurable Logic Element）間でデータを転送するためのネットワークを含む。同期ネットワークは、クロックサイクルごとに２つのエンドポイント間でデータを転送することができる。しかしながら、これらの転送の周波数は、クロック速度およびＣＬＥの配置に限定される。さらに、ネットワークは、パイプライン化を実行するために使用され得る複数の相互接続（相互接続タイルまたはスイッチング要素とも呼ばれる）を含み得る。集積回路におけるクロック速度は、前の世代では急速に増大していないが、高度にパイプライン化された設計は、低速回路にもかかわらずスループットを増大させることができる。しかしながら、同期ネットワークでは、並列パス内のパイプラインステージは、機能的正確性を維持するために相互に整合しなければならないが、クロックジッタ、クロックスキュー、フリップフロップセットアップ／クロックトゥーアウトオーバーヘッド、不完全なフリップフロップタイミングロケーションのため、パイプライン化は、同期ネットワーク内で達成することが困難である。

１つの解決策は、プログラマブルロジック内のＣＬＥ間でデータを転送するために非同期ネットワークを使用することであり、これは、同期ネットワーク内のパイプライン化の限界を克服する。すなわち、非同期ネットワークは、異なる長さを有する異なる並列パスを有し、依然としてパイプライン化を行うことができる。さらに、非同期ネットワークは、クロックジッタまたは異なるクロックドメインに依存しない。しかしながら、非同期ネットワークは、ハンドシェイクおよびファンアウトの有効化を必要とするなどの同期ネットワークに対する欠点を有する。

プログラマブルデバイスのための計算データフローアーキテクチャを提供するための技術が説明される。一例では、集積回路は、データ演算を実行するように構成された回路を備える回路タイルのアレイと、アレイ内の回路タイルを結合する相互接続とを含み、相互接続は、複数の接続を各々が有する相互接続タイルを含み、複数の接続は、少なくとも回路タイルのそれぞれの１つへの第１の接続と、複数の他の相互接続タイルへの複数の接続とを有し、集積回路は、相互接続タイルの各々における複数のローカルクロスバーを含み、複数のローカルクロスバーは、非ブロッキングクロスバーを形成するように結合される。

別の例では、集積回路は、データ演算を実行するように構成された回路を備える回路タイルのアレイと、アレイ内の回路タイルを結合する相互接続とを含み、相互接続は、複数の接続を各々が有する相互接続タイルを含み、複数の接続は、少なくとも回路タイルのそれぞれの１つへの第１の接続と、複数の他の相互接続タイルへの複数の接続とを有する。さらに、相互接続タイルは、複数のバスを使用して互いに接続され、相互接続タイルの各々は、非同期通信のためのハンドシェイク回路を含む。

別の例では、方法であって、プログラマブル相互接続および複数の相互接続タイルを使用して通信可能に結合された複数の回路タイルのアレイを備える集積回路において実装されるソースコードを受信することと、ソースコードをフロー制御グラフに変換することと、フロー制御グラフを、複数の事前定義されたプリミティブを備えるプリミティブグラフに変換することとを含み、事前定義されたプリミティブの各々は、フロー制御グラフにおいて定義された演算の少なくとも一部を実行するための回路を含み、方法は、プリミティブグラフにおける事前定義されたプリミティブを複数の回路タイルにマッピングすることをさらに含み、複数の回路タイルは少なくとも乗算器と、プログラム的に選択され得る１つの追加の論理機能を実行するための回路とをそれぞれ備え、方法は、複数の相互接続タイルを用いて複数の回路タイルを接続することにより、集積回路におけるソースコードに実装することを含む。
これらおよび他の態様は、以下の詳細な説明を参照することによって理解され得る。

上記で列挙した特徴を詳細に理解することができるように、上記で簡潔に要約した、より具体的な説明は、例示的な実装形態を参照することによって行うことができ、そのいくつかを添付の図面に示す。しかしながら、添付の図面は、典型的であって例示的な実装形態のみを示し、したがって、その範囲を限定するものと見なされるべきではないことに留意されたい。

一例に従うプログラマブルＩＣを示すブロック図である。一例に従うプログラマブルデバイスを示すブロック図である。一例に従うプログラマブルＩＣのＦＰＧＡ（Field Programmable Gate Array）実装を示す図である。一例に従うプログラマブルロジックの一部を示すブロック図である。一例に従う相互接続タイルを示すブロック図である。一例に従う相互接続タイルを実装するための完全な非ブロッキングクロスバーを示すブロック図である。一例に従うローカルクロスバーを示すブロック図である。一例に従う中間プリミティブを使用してプログラマブルロジックを構成するためのフローチャートである。一例に従うＣＬＥから形成され得る異なるプリミティブを示すブロック図である。一例に従うＣＬＥから形成され得る異なるプリミティブを示すブロック図である。一例に従うＣＬＥから形成され得る異なるプリミティブを示すブロック図である。一例に従うＣＬＥから形成され得る異なるプリミティブを示すブロック図である。

理解を容易にするために、可能な場合、図面に共通する同一の要素を示すために同一の参照番号が使用されている。ある例の要素は、他の例に有益に組み込まれ得ることが企図される。

［詳細な説明］
以下、図面を参照して様々な特徴を説明する。図面は、縮尺通りに描かれていてもいなくてもよく、同様の構造または機能の要素は、図面全体にわたって同様の参照番号によって表されることに留意されたい。図面は、特徴の説明を容易にすることのみを意図していることに留意されたい。これらは、請求項に係る発明の網羅的な説明として、または特許請求される発明の範囲に対する限定として意図されない。さらに、図示される例は、示される全ての態様または利点を有する必要はない。特定の例に関連して説明される態様または利点は、必ずしもその例に限定されず、そのように示されていないか、またはそのように明示的に説明されていない場合であっても、任意の他の例において実施され得る。

図１Ａは、一例に従うプログラマブルＩＣ１を示すブロック図である。プログラマブルＩＣ１は、プログラマブルロジック３（プログラマブルファブリックとも呼ばれる）と、コンフィギュレーション論理２５と、コンフィギュレーションメモリ２６とを含む。プログラマブルＩＣ１は、不揮発性メモリ２７、ＤＲＡＭ２８、および他の回路２９などの外部回路に接続することができる。プログラマブルロジック３は、論理セル３０と、サポート回路３１と、プログラマブル相互接続３２とを含む。論理セル３０は、複数の入力の一般的な論理機能を実装するように構成することができる回路を含む。サポート回路３１は、トランシーバ、入出力ブロック、デジタル信号プロセッサ、メモリなどの専用回路を含む。論理セルとサポート回路３１とは、プログラマブル相互接続３２を用いて相互接続されることができる。論理セル３０をプログラムするための情報、サポート回路３１のパラメータを設定するための情報、プログラマブル相互接続３２をプログラムするための情報は、コンフィギュレーション論理２５によって、コンフィギュレーションメモリ２６に格納される。構成論理２５は、不揮発性メモリ２７または任意の他のソース（たとえば、ＤＲＡＭ２８または他の回路２９からである）から構成データを取得することができる。いくつかの例では、プログラマブルＩＣ１は処理システム２を含む。処理システム２は、マイクロプロセッサ、メモリ、サポート回路、ＩＯ回路などを含むことができる。いくつかの例では、プログラマブルＩＣ１は、ネットワークオンチップ（ＮＯＣ：Network-On-Chip）５５およびデータ処理エンジン（ＤＰＥ: Data Processing Engine）アレイ５６を含む。ＮＯＣ５５は、ＰＳ２とＰＬ３とＤＰＥアレイ５６との間など、プログラマブルＩＣ１のサブシステム間の通信を提供するように構成される。ＤＰＥアレイ５６は、ベクトルプロセッサのアレイなど、データ処理を実行するように構成されたＤＰＥのアレイを含むことができる。

図１Ｂは、一例に従うプログラマブルデバイス５４を示すブロック図である。プログラマブルデバイス５４は、複数のプログラマブルＩＣ（Integrated Circuit）１、たとえばプログラマブルＩＣ１Ａ，１Ｂ，１Ｃ，１Ｄを含む。一例では、各プログラマブルＩＣ１は、インターポーザ６０上に配置されたＩＣダイである。各プログラマブルＩＣ１は、プログラマブルデバイス５４のスーパー論理領域（ＳＬＲ:Super Logic Region）５３、たとえばＳＬＲ５３Ａ、５３Ｂ、５３Ｃ、５３Ｄを備える。プログラマブルＩＣ１は、インターポーザ６０上の導体（スーパーロングライン（ＳＬＬ:Super Long Lines）５２と呼ばれる）を介して相互接続されている。

図１Ｃは、ＰＬ３を含むプログラマブルＩＣ１のＦＰＧＡ（Field Programmable Gate Array）の実装を示す。図１Ｃに示すＰＬ３は、本明細書で説明するプログラマブルデバイスの任意の例で使用することができる。ＰＬ３は、トランシーバ３７、構成論理ブロック（ＣＬＢｓ:Configurable Logic Blocks）３３、ランダムアクセスメモリブロック（ＢＲＡＭｓ）３４、入力／出力ブロック（ＩＯＢｓ:Input/Output Blocks）３６、構成およびクロック論理（ＣＯＮＦＩＧ／ＣＬＯＣＫＳ）４２、デジタル信号処理ブロック（ＤＳＰｓ:Digital Signal Processing Blocks）３５、専用入力／出力ブロック（Ｉ／Ｏ）４１（たとえば、構成ポートおよびクロックポート）、ならびにデジタルクロックマネージャ、アナログデジタル変換器、システム監視論理などの他のプログラマブルロジック３９を含む多数の異なるプログラマブタイルを有する。ＰＬ３はまた、ＰＣＩｅインターフェース４０、アナログデジタル変換器（ＡＤＣ: Analog-to-Digital Converters）３８などを含むことができる。

いくつかのＰＬでは、各プログラマブルタイルは、図１Ｃの上部に含まれる実施例によって示されるように、同じタイル内のプログラマブルロジック要素の入力および出力端子４８への接続を有する、少なくとも１つのプログラマブル相互接続要素（ＩＮＴ:Interconnect Element）４３を含むことができる。各プログラマブル相互接続要素４３は、また、同じタイルまたは他のタイル内の隣接するプログラマブル相互接続要素の相互接続セグメント４９に対する接続を含むことができる。各プログラマブル相互接続要素４３は、また、論理ブロック（図示せず）間の汎用ルーティングリソースの相互接続セグメント５０に対する接続を含むことができる。汎用ルーティングリソースは、相互接続セグメント（たとえば、相互接続セグメント５０）のトラックを備える論理ブロック（図示せず）と、相互接続セグメントを接続するためのスイッチブロック（図示せず）との間のルーティングチャネルを含むことができる。汎用ルーティングリソースの相互接続セグメント（たとえば、相互接続セグメント５０）は、１つ以上の論理ブロックに及ぶことができる。プログラマブル相互接続要素４３は、汎用ルーティングリソースと共に、図示されたＰＬのためのプログラマブル相互接続構造（プログラマブル相互接続）を実装する。

例示的な実装形態では、ＣＬＢ３３は、ユーザ論理に加えて単一のプログラマブル相互接続要素（ＩＮＴ）４３を実装するようにプログラムされ得る構成可能論理要素（ＣＬＥ）４４を含むことができる。ＢＲＡＭ３４は、１つまたは複数のプログラマブル相互接続要素に加えて、ＢＲＡＭ論理要素（ＢＲＬ:BRAM Logic Element）４５を含むことができる。典型的には、タイルに含まれる相互接続要素の数は、タイルの高さに依存する。図示の例では、ＢＲＡＭタイルは、５つのＣＬＢと同じ高さを有するが、他の数（たとえば、４つ）を使用することもできる。ＤＳＰタイル３５は、適切な数のプログラマブル相互接続要素に加えてＤＳＰ論理要素（ＤＳＰＬ:DSP Logic Element）４６を含むことができる。ＩＯＢ３６は、たとえば、プログラマブル相互接続要素４３の１つのインスタンスに加えて、Ｉ／Ｏ論理要素（ＩＯＬ:Input/Output Logic Element）４７の２つのインスタンスを含むことができる。当業者には明らかなように、たとえば、Ｉ／Ｏ論理素子４７に接続される実際のＩ／Ｏパッドは、典型的には、Ｉ／Ｏ論理素子４７の領域に限定されない。

図示の例では、ダイの中心付近の水平領域（図３Ｄに示す）は、構成、クロック、および他の制御論理に使用される。この水平領域または列から延在する垂直列５１は、ＰＬの幅にわたってクロックおよび構成信号を分配するために使用される。

図１Ｃに示されるアーキテクチャを利用するいくつかのＰＬは、ＰＬの大部分を構成する規則的な柱状構造を破壊する追加の論理ブロックを含む。追加の論理ブロックは、プログラム可能ブロックおよび／または専用論理であり得る。

図１Ｃは、例示的なＰＬアーキテクチャのみを示すことを意図していることに留意されたい。たとえば、行内の論理ブロックの数、行の相対的な幅、行の数および順序、行に含まれる論理ブロックの種類、論理ブロックの相対的なサイズ、および図１Ｃの上部に含まれる相互接続／論理実装は、純粋に例示である。たとえば、実際のＰＬでは、ユーザ論理の効率的な実装を容易にするために、ＣＬＢの複数の隣接する行が、典型的にはＣＬＢが現れるどこにでも含まれるが、隣接するＣＬＢ行の数は、ＰＬの全体的なサイズによって変化する。

上述のプログラマブル相互接続３２は、プログラマブルロジック３内の様々な回路タイルに結合される。プログラマブル相互接続３２（相互接続とも呼ばれる）は、異なる回路タイルを互いに接続してプログラマブルロジック３内の回路を形成するために、コンフィギュレーションメモリ２６を使用してプログラムされることができる。１つのタイプの相互接続３２はパイプライン同期相互接続である。しかしながら、大型デバイスの場合、高度にパイプライン化された同期相互接続は、多数のレジスタを有し、過度に多くの面積およびパワーを消費するであろう。さらに、多くのシーケンシャルレジスタを通って流れる信号には、大きな待ち時間がある。加えて、クロックイネーブル（ＣＥ）タイミングは、高周波数において問題となる。最後に、相互接続をプログラムするためのデータを生成するソフトウェアツールは、並列パス上でマッチしたサイクルカウントを保証し、オプションのレジスタ、余分な先入れ先出し（ＦＩＦＯ）、およびそれらのコンポーネントのためのツールサポートを必要とする。

ある例では、相互接続３２は非同期である。高度にパイプライン化された非同期相互接続は、同期相互接続に関連する上述の問題のほとんどを回避する。回路は、データが回路の切り替えを示すときにのみ切り替わる。クロックまたはクロックイネーブルは存在しない。非同期ハンドシェイクは、細粒度クロックおよびクロックイネーブルとして機能する。並列パスは、段数に整合する必要はない。プッシュバックがない場合、データはオープンゲートを素早く流れ、待ち時間を最小限に抑える。非同期相互接続３２は、同期の最悪のケースを保証するというよりも、シリコン、電圧、および温度が許容する限り速く、演算することができる。これは、計算用途にとって有利であり、デバイス内の温度依存電圧スケーリングと互換性がある。

図２は、一例に従うプログラマブルロジック３の一部分２００を示すブロック図である。プログラマブルロジック３は、回路タイルのアレイ、たとえばＣＬＥｓ２０２Ａ～Ｆ（総称してＣＬＥｓ２０２と呼ばれる）を含む。上述のように、プログラマブルロジック３は、ＣＬＥ以外の異なるタイプの回路タイルを含むことができるが、例によって明確にすることを目的として、ＣＬＥｓ２０２が示されている。相互接続３２は、相互接続タイル２０４Ａ～Ｆ（総称して相互接続タイル２０４と呼ぶ）を含む。各ＣＬＥｓ２０２は、相互接続タイル２０４のインターフェースに結合される。各相互接続タイル２０４は、他の相互接続タイル２０４への追加のインターフェースを含む。図示の例では、相互接続タイル２０４間の接続は、単一接続２０６および二重接続２０８を含む。接続は、ＣＬＥｓ２０２への接続２１０をさらに含む。単一接続２０６は、隣接する相互接続タイル２０４を接続する。二重接続２０８は、１つの相互接続タイル２０４を、その間に１つの相互接続タイルを有する別の隣接しない相互接続タイル２０４に接続する。

各接続２０６、２０８、２１０は、複数のＮビットバスを含む。たとえば、単一接続２０６は、相互接続タイル２０４間の各方向に２つの４ビットバスを含むことができる。同様に、二重接続２０８は、それぞれの相互接続タイル２０４間の各方向に２つの４ビットバスを含むことができる。そのような場合、２×２×４＝１６のワイヤが２つの隣接する相互接続タイル２０４の間に存在し、単一接続２０６を実装する。同様に、相互接続タイル２０４の間に配置される２つの二重接続２０８を実装するための、２つの隣接する相互接続タイル２０４の間でデータ信号を伝送する２×２×２×４＝３２のワイヤがある（非エッジの場合を仮定する）。各バスはまた、ＲｅａｄｙおよびＡｃｋｎｏｗｌｅｄｇｅハンドシェイク信号を有してもよく、これは、各４ビットバスのための２つ以上のワイヤを追加し、その結果、合計４８本のワイヤが２つの隣接する相互接続タイル２０５の間に延在する。一例では、相互接続タイル２０４とＣＬＥｓ２０２との間の接続２１０は、ＣＬＥｓ２０２への３つの４ビットバスと、ＣＬＥｓ２０２からの２つの４ビットバスとを含む。そのような場合、相互接続タイル２０４とＣＬＥｓ２０２との間に３×２×４＝２４のワイヤがある。当業者は、単一接続２０６、二重接続２０８、およびＣＬＥｓ２０２への接続２１０を実装するバスの数およびバスの幅Ｎが、本明細書で説明される例から変化し得ることを理解するであろう。

一実施形態では、一部分２００内の相互接続タイル２０４は、ＣＬＥｓ２０２間でデータを転送するための非同期ネットワークを形成する。一実施形態では、相互接続タイル２０４は、ＣＬＥｓ２０２間にパイプラインを形成する。たとえば、各相互接続タイル２０４は、パイプライン内のステージとしての役割を果たすことができる。代替的にまたは追加的に、各相互接続タイル２０４は、パイプライン内に複数の（内部）ステージを有することができる。クロック信号を使用するよりも、パイプライン内のステージは、ハンドシェイクプロトコルを使用してデータを転送することができる。たとえば、図２の左上のＣＬＥｓ２０２Ａが、右下のＣＬＥｓ２０２Ｆに転送されるべきデータを有する場合、相互接続タイル２０４Ａ、Ｂ、Ｃ、およびＦは、データを転送するためのパイプラインを形成することができる。すなわち、第１のデータチャンクがＣＬＥｓ２０２Ａから相互接続タイル２０４Ａに転送される。ハンドシェイクプロトコルを使用して、相互接続タイル２０４Ａは、第１のデータチャンクを相互接続タイル２０４Ｂに転送する。並行して、ＣＬＥｓ２０２Ａは、第２のデータチャンクを相互接続タイル２０４Ａに転送することができる。再度、ハンドシェイクプロトコルを使用して、相互接続タイル２０４Ｂは、第１のデータチャンクを相互接続タイル２０４Ｃに転送することができる一方で、相互接続タイル２０４Ａは、第２のデータチャンクを相互接続タイル２０４Ｂに転送し、ＣＬＥｓ２０２Ａは、第３のデータチャンクを相互接続タイル２０４Ａに転送する。次いで、第１のデータチャンクを相互接続タイル２０４Ｃから相互接続タイル２０４Ｆに転送することができる一方で、第２および第３のデータチャンクもパイプライン内で前進し、ＣＬＥｓ２０２Ａは第４のデータチャンクを相互接続タイル２０４Ａに転送する。次いで、第１のデータチャンクはＣＬＥｓ２０２Ｆに転送される。このようにして、複数のチャンクは、相互接続タイル２０４を使用して形成されたパイプラインのステージを通って伝搬することができる。さらに、データの転送は非同期であり、共有クロックに依拠せず、むしろステージがデータを転送する準備ができているときを示すハンドシェイク信号に依拠する。さらに、この例は、以下で説明するように、相互接続タイル２０４をステージとして使用することを説明しているが、相互接続タイル２０４自体は、パイプラインの複数の内部ステージを形成することができる。

図３は、一例に従う相互接続タイル２０４を示すブロック図である。この例では、相互接続タイル２０４は、北、東、南、および西に隣接する相互接続タイル２０４のそれぞれに対する単一接続３０２Ｎ、３０２Ｅ、３０２Ｓ、および３０２Ｗを含む。相互接続タイル２０４は、北、東、南、および西に隣接しない相互接続タイル２０４のそれぞれに対する二重接続３０４Ｎ、３０４Ｅ、３０４Ｓ、および３０４Ｗを含む。相互接続タイル２０４は、それぞれのＣＬＥへのＣＬＥ接続３０６を含む。図３に示す相互接続タイル２０４は、非エッジの場合のものである。当業者は、エッジにおいていくつかの方向にさらなるタイルがなくてもよいため、エッジ上の相互接続タイルは、Ｎ、Ｅ、Ｓ、およびＷ接続の全てより少ない接続を持つことを理解するであろう。

図４は、一例に従う相互接続タイル２０４を実装するための非ブロッキングクロスバー４００を示すブロック図である。すなわち、非ブロッキングクロスバー４００は、図２および図３の相互接続タイル２０４を実装するために使用され得る回路の一実装形態である。一実施形態では、クロスバー４００は「非ブロッキング」であり、その理由は、左側のバス上で同時に受信される信号の任意のセットを、（衝突することなく）右側のバスに首尾よくルーティングすることができるからである。すなわち、クロスバー４００は、クロスバー４００を通して首尾よくルーティングすることができる信号の任意のセットを同時に受信することができるが、クロスバー４００は、非ブロッキングソリューションに到達するために信号をルーティングする方法を再配置しなければならない場合がある。

非ブロッキングクロスバー４００は、ローカルクロスバー４０２～４３０（スイッチボックスとも称され得る）から形成される。この例では、単一接続２０６に対しては両方向の２つのバスを想定し、二重接続２０８に対しては両方向の２つのバスを想定する。そのような場合、各方向に対してＮ、Ｓ、Ｅ、およびＷ方向の各々から来る４つのバスがある。特に、南から２つのバスＳ１および２つのバスＳ２があり、北から２つのバスＮ１および２つのバスＮ２があり、東から２つのバスＥ１および２つのバスＥ２があり、西から２つのバスＷ１および２つのバスＷ２がある。また、この例では、ＣＬＥへの３つの入力バス（Ｉｎ）と、ＣＬＥからの２つの出力バス（Ｏｕｔ）がある。さらに、本例では、積層されたダイ層間の通信をサポートするために、Ｚ方向における上下に１つの４ビットバスが存在する。ローカルクロスバー４０２～４３０は、非ブロッキングクロスバーとして機能するように接続される。非ブロッキングクロスバーは、ソフトウェアツールが、デバイスのモデルを単純化することによってランタイムを大幅に低減すること可能にする。ソフトウェアツールがランタイムを減らすことができる１つの理由は、さらなるグローバルスケールで演算するソフトウェアアルゴリズムが、ローカルルーティング問題が解決可能であり、ローカルレベルでの詳細な接続について心配する必要がないと仮定できることである。言い換えれば、詳細を抽象化することができ、ローカルルーティング問題の全てを後の段階で並行して迅速に解決することができる。ビルディングブロックとしてより小さいローカルクロスバーを使用することは、アクノレッジハンドシェイク回路をローカルに効率的に実装することを可能とし、（後述する）プログラマブル相互接続におけるファンアウトを可能とする。

ある例では、ローカルクロスバー４０２～４３０間の接続の数は、完全な非ブロッキングクロスバー実装において通常存在する数に対して低減される。すなわち、完全な非ブロッキングクロスバーは、信号が逆転し、そこから来た方向に進行することを可能にする接続を含むであろう。たとえば、信号が南方向から到着した場合、完全な非ブロッキングクロスバーは、その信号を南方向に戻してルーティングすることができる。しかしながら、フルクロスバーに基づくルーティングネットワークの場合、信号が方向を逆転させるべき理由はなく、したがって、図４に示される非ブロッキングクロスバー４００は、信号の方向を逆転させるための回路を有さない。すなわち、不必要に進行方向を反転させる接続は省略している。

これは、クロスバーの非ブロッキング性を維持しながら、非ブロッキングクロスバー４００の実装コストを約２０％削減する。方向を反転させるための回路を除去することの効果は、ローカルクロスバー４０２が４つの入力（南方向に２つのバス）を受け取り、中央の列への４つの出力のみを有する左の列において見ることができる。とりわけ、クロスバー４０２は（クロスバーが、南方向に延在するバスに結合されるローカルクロスバー４０２および４３０に対して接続しないことを示す、～ＳすなわちＳＯＵＴＨではない、とラベル付けされている）ローカルクロスバー４２０に接続しない。（すなわち、ローカルクロスバー４１２，４１４，４１６，および４１８である）中央の列内の他の４つのクロスバーを使用して、ローカルクロスバー４０２は、Ｎ、Ｅ、およびＷ方向にデータを転送することができる。同様に、東方向に延在するバスに結合されるローカルクロスバー４０４および４２４は、（～Ｅとラベル付けされている）ローカルクロスバー４１８に接続されず、西方向に延在するバスに結合されるローカルクロスバー４０８および４２８は、（～Ｗとラベル付けされている）ローカルクロスバー４１４に接続されない。そして、北方向に延びるローカルバスに接続されたローカルクロスバー４１０および４２２は、（～Ｎとラベル付けされている）ローカルクロスバー４１２に接続されていない。これは、関連する方向におけるクロスバー４００の非ブロッキング態様を依然として維持しながら回路の複雑さを低減し、たとえば、南バウンド信号をＮ、Ｅ、およびＷにルーティングされることができ、北バウンド信号をＥ、Ｗ、およびＳにルーティングされることができ、東バウンド信号をＮ、Ｗ、およびＳにルーティングされることができる。そして、西バウンド信号は、Ｎ、Ｓ、およびＥにルーティングされることができる。

この例では、ローカルクロスバー４０２は、一方の側でＳ１およびＳ２に結合され、他方の側でローカルクロスバー４１２，４１４，４１６，および４１８の各々に結合される。ローカルクロスバー４０４は、一方の側でＥ１およびＥ２に結合され、他方の側でローカルクロスバー４１２，４１４，４１６，および４２０の各々に結合される。ローカルクロスバー４０８は、一方の側でＷ１およびＷ２を受け取るために結合され、他方の側でローカルクロスバー４１２，４１６，４１８，および４２０の各々に結合される。ローカルクロスバー４０２は、一方の側でＮ１およびＮ２を受け取るために結合され、他方の側でローカルクロスバー４１４，４１６，４１８，および４２０の各々に結合される。ローカルクロスバー４０２，４０４，４０８，および４１０の各々は、４×５クロスバーではなく４×４クロスバーであり、その理由は、上述のように方向を反転可能である必要がないからである。

この例では、ローカルクロスバー４３０は、一方の側でＳ１およびＳ２に結合され、他方の側でローカルクロスバー４１２，４１４，４１６，および４１８の各々に結合される。ローカルクロスバー４２４は、一方の側でＥ１およびＥ２に結合され、他方の側でローカルクロスバー４１２，４１４，４１６，および４２０の各々に結合される。ローカルクロスバー４２８は、一方の側でＷ１およびＷ２を受け取るために結合され、他方の側でローカルクロスバー４１２，４１６，４１８，および４２０の各々に結合される。ローカルクロスバー４２２は、一方の側でＮ１およびＮ２を受け取るために結合され、他方の側でローカルクロスバー４１４，４１６，４１８，および４２０の各々に結合される。ローカルクロスバー４２２，４２４，４２８，および４３０の各々は、４×４クロスバーである。

ローカルクロスバー４０６は、一方の側でＯｕｔおよびＺに結合され、他方の側でローカルクロスバー４１２～４２０の各々に結合される。この例では、ローカルクロスバー４０６は、４×４クロスバーではなく４×５クロスバーであり、（ＣＬＥに接続される）Ｏｕｔ信号が逆方向になり、（同様にＣＬＥに接続される）Ｉｎ信号を使用してＣＬＥにフィードバック可能であるようにする。しかしながら、ＣＬＥからのデータが方向を逆転させる必要がない場合、ローカルクロスバー４０６は、４×４クロスバーであり得る。ローカルクロスバー４２６は、一方の側でＩｎおよびＺに結合され、他方の側でローカルクロスバー４１２～４２０の各々に結合される。Ｚバスは、プログラマブルデバイス（たとえば、集積回路）が他の集積回路上の他のプログラマブルデバイスと積層される場合に使用される。すなわち、Ｚバスは、第１のプログラマブルデバイス内の相互接続タイルが第２のプログラマブルデバイス内の相互接続タイルと通信することを可能にする（Ｘ方向およびＹ方向に延びる北方向、東方向、南方向および西方向ではないＺ方向において）。しかしながら、プログラマブルデバイスが他のプログラマブルデバイスと積み重ねられていない（たとえば、繋がれていない）場合、Ｚバスは省略されてもよい。この例では、ローカルクロスバー４２６は５×５クロスバーである。ローカルクロスバー４１２，４１４，４１８，および４２０の各々は、４×４クロスバーである。ローカルクロスバー４１６は、５×５クロスバーである。

加えて、ローカルクロスバーの回路は、同一のワイヤ間を選択するため柔軟性を排除することによって、さらに低減することができる。図４では、バスの各方向をサービスする４×４のスイッチボックスが、第１の列および最後の列に存在する。たとえば、長さ１の東バスが２つあるので、ルーティングは、これらの２つの同一のバスのうちのどれが所与のルーティングされた信号によって使用されるかについて構わない。その結果、ローカルクロスバーは、ローカルクロスバーを通して信号の全ての組み合わせをルーティングするように構成され得るが、これらの信号は、全ての出力ピン置換ではなく、任意の出力ピンにのみルーティングされる。一実施形態では、４×４スイッチボックスは、このビットの柔軟性を除去するために、第１の列または最後の列（両方ではない）のいずれかで２つの２×２スイッチボックスに縮小することができる。

図５は、一例に従うローカルクロスバー５００を示すブロック図である。ローカルクロスバー５００は、２×２のクロスバーであるが、図４に示す４×５、５×４、および５×５のローカルクロスバーは、同様の構造を有することができる。ローカルクロスバー５００は、ローカルクロスバー５００の入力と出力との間の非同期通信を提供するハンドシェイク回路５０２を含む。非同期通信は、一般に、確認応答のためのデータ信号および制御信号を含む。図示のように、ハンドシェイク回路５０２は、データパス５０５内のデータ信号Ａ、Ｂ、Ｘ、およびＹに対する確認応答信号（すなわち、Ａａｃｋ、Ｂａｃｋ、ＸａｃｋおよびＹａｃｋである）を含む。一実施形態では、Ａ信号およびＢ信号はローカルクロスバー５００への入力であり得るが、Ｘ信号およびＹ信号は出力である。たとえば、Ａ信号は、ローカルクロスバー５００において受信される第１のバスにおける第１のビットであり得る一方で、Ｂ信号は、ローカルクロスバー５００において受信される第２のバスにおける第１のビットであり得る。図示されていないが、ローカルクロスバー５００は、２つのバスの幅に応じてデータパス５０５の複数のコピーを有することができる。たとえば、２つのバスが４ビットバスである場合、ローカルクロスバーは、データパス５０５の４つのコピーを有し、１つのコピーは、バス内の各ビットである。

ハンドシェイク回路５０２は、１つの信号が複数の入力に「ファンアウト」することができるファンアウトを可能にする。たとえば、Ａ信号は、Ｘ出力、Ｙ出力、またはＸおよびＹ出力の両方で出力することができる。Ａ信号がＸ出力とＹ出力の両方で同時に出力され得るように、Ａ信号がファンアウトすることを可能にすることは、Ａで入力されたデータがＸ出力とＹ出力の両方で受信されたことをハンドシェイク回路５０２が判定することを必要とする。そうするために、ハンドシェイク回路５０２は、入力信号が複数の出力信号にファンアウトするときに非同期ハンドシェイクを可能にするためのＣ要素および多重化を含み得る。図４のローカルクロスバーを参照すると、これらのクロスバー内のハンドシェイク回路は、入力のうちの１つが出力のうちのいくつかまたは全てに同時にファンアウトすることを可能にする（たとえば、ローカルクロスバーにおける出力の数に応じて、出力のうちの２つ、３つ、４つ、または５つである）。一実施形態では、これらの小さなローカルクロスバーにおけるファンアウトは非常に局所化され、ローカル回路が図５の例に示すように確認応答信号を容易に実装することを可能にする。ファンアウトが局在化されていない（たとえば、互いに遠く離れた回路に延在する）場合、確認応答を生成することは、多くのワイヤがファンアウト位置の各々から戻る必要があるため、非常に高価であり、非実用的であり得る。したがって、ローカルクロスバーにおけるファンアウトの局所化は、装置の性能およびコストを改善する。

一実施形態では、図５に示すローカルクロスバーにおいて、Ｘ＿ｓｅｌｅｃｔ＿Ａ、Ｙ＿ｓｅｌｅｃｔ＿Ａ、Ｘ＿ｓｅｌｅｃｔ＿Ｂ、Ｙ＿ｓｅｌｅｃｔ＿Ｂは全て、一般的なＦＰＧＡルーティングアーキテクチャと整合する構成メモリセルからの信号である。言い換えれば、どの信号をマルチプレクサを通してルーティングするかの選択は、連続的に動的ではなく、むしろメモリセル値に依存する。

ある例では、ＣＬＥは、ＣまたはＣ＋＋などの高水準プログラミング言語の中間プリミティブをサポートするように設計されたビルディングブロックのセットを実装する。これは、ハードウェア記述言語（ＨＤＬ:Hardware Description Language）を使用して記述されるランダムロジックをサポートするためのルックアップテーブル（ＬＵＴ:Lookup Tables）およびフリップフロップを有する従来のＦＰＧＡと対照的である。すなわち、現在のソリューションは、プログラミング言語のコンパイルされたソースコードを相互接続されたＬＵＴおよびフリップフロップに変換するが、これは、これらの回路を使用して、ソースコードで表現することもできる本質的に任意の論理構成を表現することができるからである。しかしながら、ＬＵＴおよびフリップフロップを含むプログラマブルロジックのための設計にソースコードを合成することは、大量の時間を必要とする。さらに、合成プロセスは、ルーティング制約およびタイミング問題を考慮することを必要とする。さらに、ローカルクロスバー内の記憶素子は、たとえば、２相または４相ハンドシェイクのいずれが使用されるかに応じて、エッジ感知ラッチまたはレベル感知ラッチのいずれかであり得る。両方とも可能であり、内部ハンドシェイク論理に対する対応する変更を用いて実装することができる。

以下の実施形態は、中間プリミティブを使用して、ソースコードを、非同期ネットワーク（たとえば、上記で説明した相互接続タイル）を使用して相互接続されるＣＬＥにマッピングすることについて論じる。そうすることは、ソースコードをレジスタ転送レベル（ＲＴＬ：Register Transfer Level）コードに変換する従来の方法と比較して、時間を節約し、リソースを計算することができ、これは、それからプログラマブルロジック内のＬＵＴおよびフリップフロップを構成するために使用される。

図６は、本明細書で説明する一実施形態による、中間プリミティブを使用してプログラマブルロジックを構成するための方法６００のフローチャートである。ブロック６０５において、コンパイラは、ソースコードをフロー制御グラフに変換する。すなわち、コンパイラは、高水準プログラミング言語（たとえば、Ｃ、Ｃ＋＋などである）を使用して開発されたソースコードをフロー制御グラフにマッピングする。本明細書の実施形態は、ソースコードをフロー制御グラフに変換するためのいかなる特定の技法にも限定されない。

一実施形態では、フロー制御グラフは、ソースコード内の演算によって定義されるようなデータがどのように流れるかを表す。たとえば、フロー制御グラフは、演算間にデータ依存性があるかどうか、または演算が互いに独立しているかどうかを示すことができる。独立した演算は、フロー制御グラフにおいて並列に実行することができる。対照的に、ある演算の出力が別の演算の入力に影響を与え得るので、従属する演算は、チェーンで接続され得る。

典型的には、プログラマブルロジックを使用してソースコードを実装するとき、シンセサイザは、フロー制御グラフをＲＴＬに変換し、ＲＴＬは、プログラマブルロジック内のＬＵＴおよびフリップフロップにマッピングされる。しかしながら、上述のように、これは、タイミング制約、ルーティングおよび配置などの合成プロセスに多くの複雑さをもたらす。

フロー制御グラフをＲＴＬに変換する代わりに、ブロック６１０において、シンセサイザは、フロー制御グラフを、中間プリミティブの事前定義されたグループを使用して形成されたプリミティブグラフに変換する。すなわち、シンセサイザは、ソースコード（およびフロー制御グラフ）における演算を事前定義された中間プリミティブに直接マッピングすることができる。たとえば、ソースコードにおいて表現され得る演算のタイプごとに中間プリミティブがあり得る。

図７Ａ～図７Ｄは、一例に従う異なる中間プリミティブを示すブロック図である。図７Ａは、３つの入力、２つの出力のＬＵＴによって形成される中間プリミティブを示す。ＬＵＴの柔軟性により、それらは多くの異なるソースコード演算を実行することができる。言い換えれば、ソースコードを使用して定義され得る多くの異なる演算は、任意のバイナリ演算（たとえば、ビットごとのＯＲ、ＡＮＤ、ＮＯＴなど、またはビットシフト演算）など、ＬＵＴを使用してハードウェアで実装され得る。さらに、図７Ａのプリミティブは２つの入力／２つの出力のＬＵＴであり得るが、３つの入力／２つの出力のＬＵＴは、２つの入力／２つの出力のＬＵＴに関連する少量の回路のみを追加することと並行して２つのバイナリ演算を実行することができる。

図７Ｂは、加算演算、乗算演算、または比較演算（すなわち、加算演算、減算演算、および乗算演算である）を実行するための中間プリミティブを示す。すなわち、この中間プリミティブは、ソースコードおよびフロー制御グラフにおいて定義される追加、乗算、または比較演算にマッピングすることができる。

図７Ｃは、ソースコードにおける「ｉｆ」、「ｗｈｉｌｅ」、および「ｆｏｒ」演算（またはステートメント）に対応することができるフロー制御を実行するためのフロー制御プリミティブを示す。たとえば、「ｉｆ」演算の場合、図７Ｃのプリミティブは、入力のＡとＢとを比較し、ＡとＢとが等しいか否かを示すビット（０または１）を出力することができる。この出力は、その入力のうちのどれが出力されるかを選択するためのＣＮＴＲＬ信号として別のフロー制御プリミティブに供給され得る。さらに、図７Ｃのフロー制御プリミティブは、トークン管理およびハンドシェイクを使用して、ソースコード演算を実行することができる。このようにして、ｉｆ演算は、フロー制御プリミティブのうちの２つ（またはそれ以上）にマッピングされ得る。「ｗｈｉｌｅ」または「ｆｏｒ」演算などのループ演算は、同様の方法でマッピングすることができる（しかし、ソースコード演算にマッピングされるフロー制御プリミティブの数は変化し得る）。

図７Ｄは、マルチシフト演算を実行するための中間プリミティブを示す。一実施形態では、ＣＬＥｓ２０２は、シフトが２のべき乗で乗算されるので、乗算ブロックを含むことができ、シフターとしても使用することができる。シフトを目的としてこのブロックを再使用することは、シフトが共通の演算ではないと仮定すると、より効率的であり得る。シフトが非常に共通のプリミティブであることが判明した場合、ＣＬＥｓ２０２は、乗算器を使用するよりも効率的にシフトを行う別個のシフトブロックを有し得る。たとえば、複数のブロックを使用するとき、シフト値をその２のべき乗に変換するための論理の余分なビットがある。

図７Ａ～図７Ｄに示す中間プリミティブは、ソースコード演算に定義およびマッピングされ得るプリミティブの例のいくつかにすぎない。一実施形態では、各ソースコード演算は、１つ（または複数のプリミティブ）にマッピングされ得る。たとえば、ソースコードにおいて定義されたｉｆ演算またはループ演算を実行するために、いくつかのフロー制御プリミティブを必要とし得る。しかしながら、別の実施形態では、いくつかのソースコード演算は、事前定義されたプリミティブを有さなくてもよく、またはいくつかの演算は、同じタイプのプリミティブにマッピングされてもよい（たとえば、ソースコードにおける乗算およびシフト演算は、両方とも乗算プリミティブにマッピングすることができる）。さらに、プリミティブにマッピングすることができないソースコード演算があり得る。その場合、フロー制御グラフの対応する部分は、以前の技法（たとえば、中間プリミティブにマッピングされるのではなく、ＲＴＬに変換される）を使用してプログラマブルロジックに合成され得る。

一実施形態では、シンセサイザは、事前定義されたプリミティブにマッピングすることができるフロー制御グラフ内のソースコード演算を識別する。上述のように、（ソースコードにおいて、「ｉｆ」および「ｗｈｉｌｅ」ステートメントの場合、）１つの演算が複数のプリミティブにマッピングされるようにしてもよい。これらのプリミティブは、フロー制御グラフの各種信号が接続されているように、プリミティブグラフを形成するため、相互接続されることができる。これにより、プリミティブグラフは、フロー制御およびソースコードと同じ論理を表現できる。

方法６００に戻ると、ブロック６１５においてシンセサイザは、プログラマブルロジックにおけるＣＬＥに、プリミティブグラフにおける中間プリミティブをマッピングする。たとえば、図７Ａ～図７Ｄの各中間プリミティブは、図２に示すＣＬＥｓ２０２の１つに直接的にマッピングされ得る。すなわち、ＣＬＥｓ２０２は、１つのプリミティブによって定義された機能を実行するために構成される。一実施形態では、ＣＬＥｓ２０２（たとえば、回路タイル）は、異なる機能を実行する回路を含む。一実施形態では、ＣＬＥｓ２０２は、少なくとも１つの乗算器および、ＬＵＴ、制御フロー、加算／減算／比較などの少なくとも１つの他の論理関数を実行するための回路を含む。プリミティブは、論理機能のうちのどれがＣＬＥｓ２０２において選択されるかをプログラム的に決定する。したがって、ＣＬＥｓ２０２は、固定論理機能を有する（すなわち、ブロックによって実行される論理機能が選択可能でない）固定ブロックとは異なる。

中間プリミティブを使用してＣＬＥを直接構成することは、ＲＴＬを生成し、次いでプログラマブルロジック内の様々な位置にＲＴＬを配置する必要性を回避する。代わりに、中間プリミティブは、ＣＬＥのうちの１つにマッピングするように設計される。上述のように、１つの演算は複数のプリミティブにマッピングすることができ、その場合、その演算は複数のＣＬＥを使用して実行することができる。

一実施形態では、ＩＣは、図２に示すようにＣＬＥのアレイを含む。これらのＣＬＥは、相互接続タイル２０４およびプログラマブル接続２１０（たとえば、プログラマブル相互接続）によって通信可能に接続される。すなわち、ラインは、相互接続タイル２０４間、および、タイル２０４とＣＬＥｓ２０２との間に延在する。

ブロック６２０において、シンセサイザは、プリミティブグラフ内のデータの流れに従ってＣＬＥを接続する。すなわち、選択されたＣＬＥは、上の図に示された非同期相互接続タイルを使用して接続され得る。たとえば、フロー制御グラフが３２ビット加算演算を含む場合、この演算は、これらのプリミティブが８ビットバスを有すると仮定して、（たとえば、図７Ｂに示されるように）４つの加算プリミティブに分割され得る。これらの４つのプリミティブは、プログラマブルロジック内の４つのＣＬＥにマッピングされ得、相互接続タイルは、３２ビット加算演算を実行するためにＣＬＥ（たとえば、キャリーラインおよび中間和）間でデータを転送するように構成され得る。相互接続タイルは非同期であるため、シンセサイザは、ＣＬＥを選択し、ＣＬＥ間でデータを転送するように相互接続タイルを構成するときに、タイミング制約および異なるクロックドメインを考慮する必要がない。

開示される技術は、いくつかの非限定的な例において表現され得る。
［例１］
集積回路であって、
データ演算を実行するように構成された回路を備える回路タイルのアレイと、
アレイ内の回路タイルを結合する相互接続とを備え、相互接続は、複数の接続を各々が有する相互接続タイルを含み、複数の接続は、少なくとも回路タイルのそれぞれの１つへの第１の接続と、複数の他の相互接続タイルへの複数の接続とを含み、
集積回路は、
前記相互接続タイルの各々における複数のローカルクロスバーを備え、複数のローカルクロスバーは、非ブロッキングクロスバーを形成するように結合された、集積回路。

［例２］
各々の相互接続タイルの複数の接続は、北、東、南、および西の相互接続タイルへの北、東、南、および西のそれぞれの接続を含む、例１に記載の集積回路。

［例３］
各々の相互接続タイルの複数の接続は、隣接する相互接続タイルへの接続と、隣接しない相互接続タイルへの接続とを含む、例１に記載の集積回路。

［例４］
複数のローカルクロスバーは、非ブロッキングクロスバーを通る方向を逆転させる接続を除去するように構成される、例１に記載の集積回路。

［例５］
前記複数のローカルクロスバーは、前記ローカルクロスバーを通して信号の全ての組み合わせを、全ての出力ピン置換ではなく任意の出力ピンにのみルーティングするように構成される、例１に記載の集積回路。

［例６］
複数のローカルクロスバーの各々は、ローカルクロスバーの入力とローカルクロスバーの出力との間の非同期通信のためのハンドシェイク回路を備える、例１に記載の集積回路。

［例７］
ハンドシェイク回路は、１つの入力信号がローカルクロスバーの複数の出力に同時に出力され得る複数のローカルクロスバーの各々におけるファンアウトを可能にする、例６に記載の集積回路。

［例８］
回路タイルのアレイは、集積回路のプログラマブルロジックを含む、例１に記載の集積回路。

［例９］
回路タイルのアレイおよび相互接続をプログラムするように構成されている構成メモリをさらに備える、例１に記載の集積回路。

［例１０］
集積回路であって、
データ演算を実行するように構成された回路を備える回路タイルのアレイと、
アレイ内の回路タイルを結合する相互接続とを備え、相互接続は、複数の接続を各々が有する相互接続タイルを含み、複数の接続は、少なくとも回路タイルのそれぞれの１つへの第１の接続と、複数の他の相互接続タイルへの複数の接続とを含み、相互接続タイルは、複数のバスを使用して互いに接続され、相互接続タイルの各々は、非同期通信のためのハンドシェイク回路を備える、集積回路。

［例１１］
方法であって、
プログラマブル相互接続および複数の相互接続タイルを使用して通信可能に結合された複数の回路タイルのアレイを備える集積回路において実装されるソースコードを受信することと、
ソースコードをフロー制御グラフに変換することと、
フロー制御グラフを、複数の事前定義されたプリミティブを備えるプリミティブグラフに変換することとを含み、事前定義されたプリミティブの各々は、フロー制御グラフにおいて定義された演算の少なくとも一部を実行するための回路を含み、
方法は、
プリミティブグラフにおける事前定義されたプリミティブを複数の回路タイルにマッピングすることをさらに含み、複数の回路タイルは各々、少なくとも乗算器と、プログラム的に選択され得る１つの追加の論理機能を実行するための回路とを備え、
方法は、
複数の相互接続タイルを用いて複数の回路タイルを接続することにより、集積回路におけるソースコードに実装することを含む、方法。

［例１２］
フロー制御グラフをプリミティブグラフに変換することは、フロー制御グラフにおいて定義された演算を事前定義されたプリミティブにそれぞれマッピングすること、および
事前定義されたプリミティブを接続することを含む、例１１に記載の方法。

［例１３］
プリミティブグラフにおける事前定義されたプリミティブは、１対１の方法で複数の回路タイルにマッピングされる、例１１に記載の方法。

［例１４］
複数の回路タイルの各々は、複数の事前定義されたプリミティブのいずれか１つを実装するように構成可能なプログラマブルロジックを含む、例１１に記載の方法。

［例１５］
複数の相互接続タイルは各々、複数の回路タイルのそれぞれ１つへの少なくとも第１の接続と、複数の他の相互接続タイルへの複数の接続とを含む複数の接続を有する、例１１に記載の方法。

［例１６］
複数の相互接続タイルは、非同期通信を使用してデータを転送する、例１５に記載の方法。

［例１７］
事前定義されたプリミティブは、ソースコード内の演算にマッピングする、例１１に記載の方法。

［例１８］
ソースコードにおける演算は、加算演算、減算演算、および乗算演算のうちの少なくとも１つを備える、例１７に記載の方法。

［例１９］
ソースコードにおける演算は、ｉｆステートメントおよびｗｈｅｎステートメントのうちの少なくとも１つを含む、例１７に記載の方法。

［例２０］
ソースコードにおけるｉｆステートメントまたはｗｈｉｌｅステートメントの単一のインスタンスは、複数の回路タイルのうちの複数の回路タイルにマッピングされる複数の事前定義されたプリミティブに変換される、例１９に記載の方法。

前述は、具体的実施例を対象とするが、その基本的範囲から逸脱することなく、他のおよびさらなる実施例が考案されてもよく、その範囲は、以下の請求項によって決定される。

Claims

集積回路であって、
データ演算を実行するように構成された回路を備える回路タイルのアレイと、
前記アレイ内の前記回路タイルを結合する相互接続とを備え、
前記相互接続は、複数の接続を各々が有する相互接続タイルを含み、前記複数の接続は、少なくとも前記回路タイルのそれぞれの１つへの第１の接続と、複数の他の相互接続タイルへの複数の接続とを含み、
前記集積回路は、
前記相互接続タイルの各々における複数のローカルクロスバーをさらに備え、前記複数のローカルクロスバーは、非ブロッキングクロスバーを形成するように結合された、集積回路。
各々の相互接続タイルの前記複数の接続は、北、東、南、および西の相互接続タイルへの北、東、南、および西のそれぞれの接続を含む、請求項１に記載の集積回路。
各々の相互接続タイルの前記複数の接続は、隣接する相互接続タイルへの接続と、隣接しない相互接続タイルへの接続とを含む、請求項１に記載の集積回路。
前記複数のローカルクロスバーは、前記非ブロッキングクロスバーを通る方向を逆転させる接続を除去するように構成される、請求項１に記載の集積回路。
前記複数のローカルクロスバーは、前記ローカルクロスバーを通して信号の全ての組み合わせを、全ての出力ピン置換ではなく任意の出力ピンにのみルーティングするように構成される、請求項１に記載の集積回路。
前記複数のローカルクロスバーの各々は、前記ローカルクロスバーの入力と前記ローカルクロスバーの出力との間の非同期通信のためのハンドシェイク回路を備える、請求項１に記載の集積回路。
前記ハンドシェイク回路は、１つの入力信号がローカルクロスバーの複数の出力に同時に出力され得る前記複数のローカルクロスバーの各々におけるファンアウトを可能にする、請求項６に記載の集積回路。
回路タイルの前記アレイは、前記集積回路のプログラマブルロジックを含む、請求項１に記載の集積回路。
回路タイルの前記アレイおよび前記相互接続をプログラムするように構成されている構成メモリをさらに備える、請求項１に記載の集積回路。
集積回路であって、
データ演算を実行するように構成された回路を備える回路タイルのアレイと、
前記アレイ内の前記回路タイルを結合する相互接続とを備え、
前記相互接続は、複数の接続を各々が有する相互接続タイルを含み、前記複数の接続は、少なくとも前記回路タイルのそれぞれの１つへの第１の接続と、複数の他の相互接続タイルへの複数の接続とを含み、
前記相互接続タイルは、複数のバスを使用して互いに接続され、
前記相互接続タイルの各々は、非同期通信のためのハンドシェイク回路を備える、集積回路。
方法であって、
プログラマブル相互接続および複数の相互接続タイルを使用して通信可能に結合された複数の回路タイルのアレイを備える集積回路において実装されるソースコードを受信することと、
前記ソースコードをフロー制御グラフに変換することと、
前記フロー制御グラフを、複数の事前定義されたプリミティブを備えるプリミティブグラフに変換することとを含み、
前記事前定義されたプリミティブの各々は、前記フロー制御グラフにおいて定義された演算の少なくとも一部を実行するための回路を含み、
前記方法は、
前記プリミティブグラフにおける前記事前定義されたプリミティブを前記複数の回路タイルにマッピングすることをさらに含み、
前記複数の回路タイルは各々、少なくとも乗算器と、プログラム的に選択され得る１つの追加の論理機能を実行するための回路とを備え、
前記方法は、
前記複数の相互接続タイルを用いて前記複数の回路タイルを接続することにより、前記集積回路における前記ソースコードに実装することを含む、方法。
前記フロー制御グラフを前記プリミティブグラフに変換することは、
前記フロー制御グラフにおいて定義された演算を事前定義されたプリミティブにそれぞれマッピングすること、および
前記事前定義されたプリミティブを接続することを含む、請求項１１に記載の方法。
前記プリミティブグラフにおける前記事前定義されたプリミティブは、１対１の方法で前記複数の回路タイルにマッピングされる、請求項１１に記載の方法。
前記複数の回路タイルの各々は、前記複数の事前定義されたプリミティブのいずれか１つを実装するように構成可能なプログラマブルロジックを含む、請求項１１に記載の方法。