JP7843771B2

JP7843771B2 - メモリタイルを有するデータ処理エンジンアレイアーキテクチャ

Info

Publication number: JP7843771B2
Application number: JP2023555423A
Authority: JP
Inventors: カベサス・ロドリゲス，ハビエル; ノゲラ・セラ，フアン・ホタ; クラーク，デイビッド; デイト，スネーハー・バルチャンドラ; トゥアン，ティム; マッコルガン，ピーター; ランゲル，ヤン; オズグル，バリス
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2021-03-09
Filing date: 2021-11-14
Publication date: 2026-04-10
Anticipated expiration: 2041-11-14
Also published as: WO2022191903A1; US11336287B1; JP2024509470A; CN117063169A; EP4305529A1; KR20230150804A

Description

本開示は、集積回路（integrated circuit、ＩＣ）に関し、より具体的には、ＩＣ内に実装されたデータ処理エンジンアレイであって、１つ以上のメモリタイルを有するデータ処理エンジンアレイのためのアーキテクチャに関する。

プログラマブル集積回路（ＩＣ）は、プログラマブル回路機構を含むタイプのＩＣを指す。プログラマブルＩＣの一例は、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）である。ＦＰＧＡは、プログラマブル回路ブロックを含むことを特徴とする。プログラマブルＩＣ上に見出され得るプログラマブル回路ブロックの例としては、入力／出力ブロック、構成可能論理ブロック、専用ランダムアクセスメモリブロック、デジタル信号処理ブロック、プロセッサ、クロックマネージャ、及び遅延ロックループが挙げられるが、これらに限定されない。場合によっては、プログラマブルＩＣは、アレイ状に配列された１つ以上のプログラマブル処理要素を含み得る。

回路設計は、構成データをデバイスの内部構成メモリにロードすることによって、プログラマブルＩＣのプログラマブル回路機構内に物理的に実装され得る。構成メモリは、複数の個々の構成メモリセル及び／又はレジスタを含み得る。構成メモリの集合的な状態は、プログラマブルＩＣの機能性を決定する。例えば、種々のプログラマブル回路ブロックによって実行される特定の動作、及びプログラマブルＩＣのプログラマブル回路ブロック間の接続性は、構成データがロードされた後の構成メモリの集合状態によって定義される。

一態様では、集積回路（ＩＣ）は、複数のタイルを有するデータ処理エンジン（data processing engine、ＤＰＥ）アレイを含むことができる。複数のタイルは、複数のＤＰＥタイルを含むことができ、各ＤＰＥタイルは、ストリームスイッチと、動作を実行するように構成されたコアと、メモリモジュールと、を含む。複数のタイルは、複数のメモリタイルを含むことができ、各メモリタイルは、ストリームスイッチと、ダイレクトメモリアクセス（direct memory access、ＤＭＡ）エンジンと、ランダムアクセスメモリ（random-access memory、ＲＡＭ）と、を含む。各メモリタイルのＤＭＡエンジンは、同じメモリタイル内のＲＡＭ及び少なくとも１つの他のメモリタイルのＲＡＭにアクセスするように構成され得る。複数のＤＰＥタイルのうちの選択されたＤＰＥタイルは、ストリームスイッチを介して、複数のメモリタイルのうちの選択されたメモリタイルにアクセスするように構成され得る。

別の態様では、ＤＰＥアレイを有するＩＣは、複数のメモリタイルを含むことができる。第１のメモリタイルは、第１のダイレクトメモリアクセス（ＤＭＡ）エンジンと、第１のＤＭＡエンジンに接続された第１のＲＡＭと、第１のＤＭＡエンジンに結合された第１のストリームスイッチと、を含むことができる。第１のＤＭＡエンジンは、第２のメモリタイル内に配設された第２のＲＡＭに結合され得る。第１のストリームスイッチは、第２のメモリタイル内に配設された第２のストリームスイッチに結合され得る。

この概要のセクションは、単に特定の概念を導入するために提供され、特許請求される主題の任意の重要な又は本質的な特徴を特定するためには提供されない。本発明の構成の他の特徴は、添付図面及び以下の詳細な説明から明らかになるであろう。

本発明の構成は、例として添付図面に例解されている。しかしながら、図面は、本発明の構成を、示される特定の実装形態のみに限定するものと解釈されるべきではない。以下の詳細な説明を検討し、図面を参照すると、種々の態様及び利点が明らかになるであろう。

集積回路（ＩＣ）の例示的なアーキテクチャを例解する。データ処理エンジン（ＤＰＥ）アレイの異なる例示的な実装形態を例解する。データ処理エンジン（ＤＰＥ）アレイの異なる例示的な実装形態を例解する。データ処理エンジン（ＤＰＥ）アレイの異なる例示的な実装形態を例解する。データ処理エンジン（ＤＰＥ）アレイの異なる例示的な実装形態を例解する。ＤＰＥアレイの別の例示的な実装形態を例解する。ネットワークオンチップ（Network-on-Chip、ＮｏＣ）の例示的な実装形態を例解する。ＮｏＣを通した図１のＩＣ内のエンドポイント回路間の例示的な接続を例解する。ＤＰＥアレイのＤＰＥタイルの例示的なアーキテクチャを例解する。ＤＰＥアレイのＤＰＥタイルの例示的なアーキテクチャを例解する。ＤＰＥアレイのＳｏＣインターフェースのインターフェースタイルを実装するための例示的なアーキテクチャを例解する。ＤＰＥアレイのＳｏＣインターフェースのインターフェースタイルを実装するための例示的なアーキテクチャを例解する。ＤＰＥアレイのＳｏＣインターフェースのインターフェースタイルを実装するための例示的なアーキテクチャを例解する。ＳｏＣインターフェースのインターフェースタイルのプログラマブル論理（programmable logic、ＰＬ）インターフェースの例示的な実装形態を例解する。ＳｏＣインターフェースのインターフェースタイルのストリームインターフェースの例示的な実装形態を例解する。ＳｏＣインターフェースのインターフェースタイルのダイレクトメモリアクセス（ＤＭＡ）エンジンの例示的な実装形態を例解する。メモリタイルの例示的な実装形態を例解する。メモリタイルの例示的な実装形態を例解する。メモリタイルの例示的な実装形態を例解する。複数のアプリケーションのために物理メモリを分離するための例示的な回路アーキテクチャを例解する。複数のアプリケーションのために物理メモリを分離するための例示的な回路アーキテクチャを例解する。仮想アドレス変換を実行するための例示的な回路アーキテクチャを例解する。仮想アドレス変換を実行するための例示的な回路アーキテクチャを例解する。仮想化されたアクセラレータにセキュアなレジスタアクセスを提供するための例示的な回路アーキテクチャを例解する。仮想化されたアクセラレータにセキュアなレジスタアクセスを提供するための例示的な回路アーキテクチャを例解する。仮想化されたアクセラレータにセキュアなレジスタアクセスを提供するための例示的な回路アーキテクチャを例解する。図１のＩＣの１つ以上のＤＭＡエンジンによって実装される例示的なパケット処理モードを例解する。

本開示は、新規の特徴を定義する特許請求の範囲で終わるが、本開示内で説明される種々の特徴は、図面と併せて説明を考慮することからより良く理解されると考えられる。本明細書に記載されるプロセス、機械、製造、及びそれらの任意の変形例は、例解の目的で提供される。本開示内で説明される特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、単に、特許請求の範囲のための基礎として、及び事実上任意の適切に詳述された構造において説明される特徴を種々に採用するように当業者に教示するための代表的な基礎として解釈されるべきである。更に、本開示内で使用される用語及び語句は、限定することを意図するものではなく、説明される特徴の理解可能な説明を提供することを意図するものである。

本開示は、集積回路（ＩＣ）に関し、より具体的には、ＩＣ内の、１つ以上のメモリタイルを含むデータ処理エンジン（ＤＰＥ）アレイのためのアーキテクチャに関する。ＤＰＥアレイは、システムオンチップ（System-on-Chip、ＳｏＣ）インターフェースに結合された複数のＤＰＥタイルを含むことができる。各ＤＰＥタイルはかなりの量のデータを処理することが可能である。ＤＰＥタイルによって操作されるデータは、ＳｏＣインターフェースを通して、ＩＣの１つ以上の他のシステム及び／又は回路からＤＰＥアレイへの入力として提供されてもよい。同様に、ＤＰＥアレイから出力されるデータは、ＳｏＣインターフェースを通して、ＩＣ上の１つ以上の他のシステム及び／又は回路に提供されてもよい。

ＤＰＥタイルがより強力になり、単位時間当たりにより多くのデータを処理することが可能になると、ＤＰＥアレイへの入力であるかＤＰＥアレイからの出力であるかにかかわらず、ＳｏＣインターフェースを通して流れなければならないデータの量も増加する。ＳｏＣインターフェースの増加した帯域幅要件は、ＤＰＥアレイデータインフロー及びＤＰＥアレイデータアウトフローに起因し得る。これらのＤＰＥアレイデータインフロー及びアウトフローは、他のオンチップ回路ブロック及びメモリなどのオフチップ回路との通信を伝達することができる。本開示内で説明される本発明の構成によれば、「メモリタイル」と呼ばれる追加のタイプの回路ブロック又はタイルを組み込むＤＰＥアレイアーキテクチャが提供される。メモリタイルは、ＤＰＥアレイ自体の中に含まれるハードワイヤードかつプログラマブルな回路ブロックとして実装されてもよい。メモリタイルをＤＰＥアレイ内に組み込むことによって、メモリのより大きなプールがＤＰＥタイルに利用可能になり、それによってＤＰＥアレイの外部のメモリにアクセスする必要性が低減される。これはまた、ＳｏＣインターフェースに課される帯域幅要件を低減する。

本開示はまた、メモリタイルを実装するための例示的なアーキテクチャを提供する。本明細書で提供される例によれば、メモリタイルは、メモリタイルのうちの２つ以上が、複合メモリと呼ばれるＤＰＥアレイ内の単一のより大きなメモリとして動作するように構成され得るように、構成可能である。したがって、ＤＰＥアレイに２つ以上のメモリタイルを含めることにより、ＤＰＥアレイにおける作業負荷及び／又は特定のアプリケーションが実行されることに基づいて、ＤＰＥタイルの異なるクラスタに利用可能にされ得る複合メモリの柔軟な形成が可能になる。

本発明の構成の更なる態様は、図面を参照して以下により詳細に説明される。例解を簡単かつ明確にするために、図に示される要素は必ずしも縮尺どおりに描かれているわけではない。例えば、要素のうちのいくつかの寸法は、明確にするために、他の要素に対して誇張されている場合がある。更に、適切であると考えられる場合、参照番号は、対応する、類似する、又は同様の特徴を示すために、図の間で繰り返される。

図１は、ＩＣ１００の例示的なアーキテクチャを例解する。ＩＣ１００は、デバイスがその中に含まれる複数の異なるタイプのシステムを含むという点で、異種デバイスの一例である。ＩＣ１００はまた、プログラマブルＩＣ、適応システム、及びシステムオンチップ（ＳｏＣ）の一例である。この例では、ＩＣ１００は、ＤＰＥアレイ１０２と、プログラマブル論理（ＰＬ）１０４と、プロセッサシステム（processor system、ＰＳ）１０６と、ネットワークオンチップ（ＮｏＣ）１０８と、プラットフォーム管理コントローラ（platform management controller、ＰＭＣ）１１０と、１つ以上のハードワイヤード回路ブロック１１２とを含む複数の異なるシステムを含む。

図１の例では、ＩＣ１００は、単一のパッケージ内に提供された単一のダイ上に実装される。他の例では、ＩＣ１００は、単一のパッケージ内の複数の相互接続されたダイを使用して実装され得、図１に示されるＩＣ１００の種々のシステムは、異なる相互接続されたダイにわたって実装される。ＩＣ１００を形成又は実装するために使用されるダイの特定の数は、限定として意図されていない。

ＤＰＥアレイ１０２は、タイルと呼ばれる複数の異なるタイプの回路ブロックから形成される。ＤＰＥアレイ１０２は、２つ以上のＤＰＥタイルと、１つ以上のメモリタイルと、複数のインターフェースタイルを含むＳｏＣインターフェースとを含む。ＤＰＥアレイ１０２の各タイプのタイルはハードワイヤードかつプログラマブルである。ＤＰＥタイルは、データ処理動作を実行し、大量のデータを操作することが可能である。各ＤＰＥタイルは、メモリモジュールに接続されたコアを含む。コアは、メモリモジュールにアクセスし、データ処理動作を実行することが可能である。一態様では、コアは、プログラムコードを実行することが可能である。別の態様では、コアは、プログラムコードを実行しないカスタム回路として実装され得る。ＤＰＥタイルのメモリモジュールは、アプリケーションデータを記憶するように構成される。ＤＰＥタイルは、図６Ａ及び図６Ｂに関連して本明細書でより詳細に説明される。

各メモリタイルは、ランダムアクセスメモリ（ＲＡＭ）と、同じメモリタイル内のＲＡＭに結合されたダイレクトメモリアクセス（ＤＭＡ）エンジンとを含み得る。メモリタイルの各ＤＭＡエンジンは、ＤＰＥアレイ１０２に含まれる他のメモリタイルの１つ以上のＲＡＭに結合されてもよい。メモリタイルについては、図１１Ａ～図１１Ｃに関連して本明細書でより詳細に説明する。ＳｏＣインターフェースは、ＤＰＥタイル及び／又はメモリタイルと、ＩＣ１００の他のシステム及び／又は回路との間のインターフェースを提供する。ＳｏＣインターフェース及びインターフェースタイルは、図２Ａ～図２Ｄ及び図７Ａ～図７Ｃに関連して本明細書でより詳細に説明される。

ＰＬ１０４は、指定された機能を実行するようにプログラムされ得る回路機構である。一例として、ＰＬ１０４は、フィールドプログラマブルゲートアレイタイプの回路機構として実装されてもよい。ＰＬ１０４は、プログラマブル回路ブロックのアレイを含むことができる。本明細書で定義されるように、「プログラマブル論理」という用語は、再構成可能なデジタル回路を構築するために使用される回路機構を意味する。プログラマブル論理は、基本的な機能を提供する多くのプログラマブル回路ブロックから形成される。ＰＬ１０４のトポロジは、ハードワイヤード回路機構とは異なり、高度に構成可能である。ＰＬ１０４の各プログラマブル回路ブロックは、典型的には、プログラマブル素子１２６（例えば、機能素子）及びプログラマブル相互接続１４２を含む。プログラマブル相互接続１４２は、ＰＬ１０４の高度に構成可能なトポロジを提供する。プログラマブル相互接続１４２は、ＰＬ１０４のプログラマブル回路ブロックのプログラマブル素子１２６間の接続性を提供するようにワイヤごとに構成されてもよく、例えば、ＤＰＥアレイ１０２のタイル間の接続性とは異なり、ビットごとに構成可能である（例えば、各ワイヤが単一ビットの情報を伝達する場合）。

ＰＬ１０４のプログラマブル回路ブロックの例は、ルックアップテーブルとレジスタとを有する構成可能論理ブロックを含む。以下に説明され、ハードワイヤード回路ブロックと呼ばれることもあるハードワイヤード回路機構とは異なり、これらのプログラマブル回路ブロックは、製造時に未定義の機能を有する。ＰＬ１０４は、より限定されたプログラマブル性を有する基本的な定義された機能も提供する他のタイプのプログラマブル回路ブロックを含むことができる。これらの回路ブロックの例は、デジタル信号処理ブロック（digital signal processing block、ＤＳＰ）、位相ロックループ（phase lock loop、ＰＬＬ）、及びブロックランダムアクセスメモリ（block random access memory、ＢＲＡＭ）を含み得る。これらのタイプのプログラマブル回路ブロックは、ＰＬ１０４における他のものと同様に、多数あり、ＰＬ１０４の他のプログラマブル回路ブロックと混ざり合っている。これらの回路ブロックはまた、プログラマブル相互接続１４２とプログラマブル素子１２６とを全般的に含むアーキテクチャを有し得、したがって、ＰＬ１０４の高度に構成可能なトポロジの一部である。

使用前に、ＰＬ１０４、例えばプログラマブル相互接続及びプログラマブル素子は、その中の内部構成メモリセルに構成データをロードすることによって、プログラム又は「構成」されなければならない。ＰＬ１０４を構成するために使用される構成データは、構成ビットストリームと呼ばれることがある。構成メモリセルは、構成データがロードされると、ＰＬ１０４がどのように構成されているか、例えば、トポロジを定義し、かつどのように動作する（例えば、特定の機能が実行される）かを定義する。

ＰＳ１０６は、ＩＣ１００の一部として製作されているハードワイヤード回路機構として実装されている。ＰＳ１０６は、各々がプログラムコードを実行することが可能である種々の異なるプロセッサタイプのいずれかとして実装されてもよく、又はそれらを含んでもよい。例えば、ＰＳ１０６は、１つ以上のコアを含む個々のプロセッサとして、又は各々が１つ以上のコアを含む複数のプロセッサとして実装され得る。別の例では、ＰＳ１０６として、１つ以上のプロセッサ、モジュール、コプロセッサ、Ｉ／Ｏインターフェース、及び／又は他のリソースを挙げることができる。ＰＳ１０６は、種々の異なるタイプのアーキテクチャのいずれかを使用して実装されてもよい。ＰＳ１０６を実装するのに使用され得るアーキテクチャ例としては、ＡＲＭプロセッサアーキテクチャ、ｘ８６プロセッサアーキテクチャ、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）アーキテクチャ、モバイルプロセッサアーキテクチャ、ＤＳＰアーキテクチャ、前述のアーキテクチャの組み合わせ、又はコンピュータ可読命令若しくはプログラムコードを実行することが可能である他の好適な回路アーキテクチャを挙げることができるが、これらに限定されない。

ＮｏＣ１０８は、ＩＣ１００におけるエンドポイント回路間でデータを共有するためのプログラマブル相互接続ネットワークである。エンドポイント回路は、ＤＰＥアレイ１０２、ＰＬ１０４、ＰＳ１０６、及び／又は選択されたハードワイヤード回路ブロック１１２内に配設され得る。ＮｏＣ１０８は、専用スイッチングを有する高速データパスを含み得る。一例では、ＮｏＣ１０８は、１つ以上の水平パス、１つ以上の垂直パス、又は水平パスと垂直パスの両方を含む。図１に示した領域の構成及び数は、単に一例である。ＮｏＣ１０８は、選択された構成要素及び／又はシステムを接続するのにＩＣ１００内で利用可能である共通インフラストラクチャの一例である。

ＮｏＣ１０８を通してルーティングされるべきネットは、ＩＣ１００内の実装のために設計が作成されるまで未知である。ＮｏＣ１０８は、スイッチ及びインターフェースなどの、ＮｏＣ１０８内の要素が、スイッチからスイッチへ、及びエンドポイント回路を接続するＮｏＣインターフェース間でデータを渡すように、どのように構成されているか、及びどのように動作するかを定義する構成データを内部構成レジスタにロードすることによってプログラムされ得る。ＮｏＣ１０８は、ＩＣ１００の一部として製作されており（例えば、ハードワイヤードであり）、物理的に改造可能ではないが、ユーザ回路設計の様々なマスタ回路と様々なスレーブ回路との間に接続性を確立するようにプログラムされ得る。ＮｏＣ１０８は、電源オン時に、その中にいかなるデータパス又はルートも実装し得ない。ＮｏＣ１０８は、ＰＭＣ１１０などのマスタ回路によって、ＩＣ１００のエンドポイント回路間のデータパス又はルートを実装するように構成され得る。別の態様では、ＮｏＣ１０８は、電源オン時に、その中に実装された１つ以上のデフォルトデータパスを含み得、マスタ回路は、エンドポイント回路間に追加のデータパスを追加するために、そのようなデータパスを再構成し、かつ／又はＮｏＣ１０８をプログラムすることができる。

ＰＭＣ１１０は、ＩＣ１００の管理を担当する。ＰＭＣ１１０は、ＩＣ１００の全体にわたって他のプログラマブル回路リソースを管理することが可能である、ＩＣ１００内のシステムである。ＰＭＣ１１０は、安全でセキュアな環境を維持し、ＩＣ１００をブートし、かつ通常動作中にＩＣ１００を管理することが可能である。例えば、ＰＭＣ１１０は、ＤＰＥアレイ１０２、ＰＬ１０４、ＰＳ１０６、及びＮｏＣ１０８などの、ＩＣ１００の異なるシステムに対して、電源投入、ブート／構成、セキュリティ、電力管理、安全監視、デバッグ、及び／又はエラー処理に対する統一されたプログラマブルな制御を提供することが可能である。ＰＭＣ１１０は、ＰＳ１０６をＰＬ１０４から切り離す専用プラットフォームマネージャとして動作する。したがって、ＰＳ１０６及びＰＬ１０４は、互いに独立して管理され、構成され、かつ／又は電源オン及び／若しくは電源オフされ得る。

一態様では、ＰＭＣ１１０は、専用リソースを有するプロセッサとして実装され得る。ＰＭＣ１１０は、ＩＣ１００全体の信頼の基点（ルートオブトラスト）として動作することが可能である。一例として、ＰＭＣ１１０は、ＩＣ１００にロードされ得る、ＩＣ１００のプログラマブルリソースのいずれかについての構成データを含むデバイスイメージを認証及び／又は検証することが可能である。ＰＭＣ１１０は更に、動作中の改ざんからＩＣ１００を保護することが可能である。ＩＣ１００のルートオブトラストとして動作することによって、ＰＭＣ１１０は、ＰＬ１０４、ＰＳ１０６、及び／又はＩＣ１００に含まれ得る任意の他のプログラマブル回路リソースの動作を監視することが可能である。ＰＭＣ１１０によって実行されるルートオブトラスト能力は、ＰＳ１０６及びＰＬ１０４、並びに／又はＰＳ１０６及び／若しくはＰＬ１０４によって実行される任意の動作とは異なり、かつ別個である。

ハードワイヤード回路ブロック１１２は、ＩＣ１００の一部として製作された特殊用途回路ブロックである。ハードワイヤードであるが、ハードワイヤード回路ブロック１１２は、１つ以上の異なる動作モードを実装するように、構成データを制御レジスタにロードすることによって構成され得る。ハードワイヤード回路ブロック１１２の例としては、入力／出力（Ｉ／Ｏ）ブロック、ＩＣ１００の外部の回路及び／又はシステムへの信号を送受信するためのトランシーバ、メモリコントローラなどを挙げることができる。様々なｌ／Ｏブロックの例としては、シングルエンド及び擬似差動Ｉ／Ｏを挙げることができる。トランシーバの例としては、高速差動クロックトランシーバを挙げることができる。ハードワイヤード回路ブロック１１２の他の例としては、暗号エンジン、デジタル－アナログ変換器（digital-to-analog converter、ＤＡＣ）、アナログ－デジタル変換器（analog-to-digital converter、ＡＤＣ）などが挙げられるが、これらに限定されない。概して、ハードワイヤード回路ブロック１１２は、特定用途向け回路ブロックである。

図１に示される種々のプログラマブル回路リソースは、ＩＣ１００のブートプロセスの一部として最初にプログラムされ得る。ランタイム中に、プログラマブル回路リソースを再構成することができる。一態様では、ＰＭＣ１１０は、最初にＤＰＥアレイ１０２、ＰＬ１０４、ＰＳ１０６、及びＮｏＣ１０８を構成することが可能である。ランタイム中の任意の時点で、ＰＭＣ１１０は、ＩＣ１００の全部又は一部を再構成することができる。場合によっては、ＰＳ１０６は、ＰＭＣ１１０によって最初に構成されると、ＰＬ１０４及び／又はＮｏＣ１０８を構成及び／又は再構成することができる。

図１に示される例示的なアーキテクチャは、例解の目的で提供され、限定のためではないことを理解されたい。この点に関して、ＩＣ１００は、図１に示されるより少ないシステム又はより多くのシステムを含み得る。１つ以上の例示的な実装形態では、ＩＣ１００は、ＰＭＣ１１０を省略し、ＰＳ１０６に依存して、さもなければＰＭＣ１１０によって実行される特定の動作を実行することができる。他の例示的な実装形態では、ＩＣ１００は、本明細書で説明する他のシステムのうちの任意の１つ以上と組み合わせてＤＰＥアレイ１０２を含んでもよい。更に別の例示的な実装形態では、ＩＣ１００は、いかなる他のシステムも伴わずにＤＰＥアレイ１０２を含むように実装されてもよい。

図２Ａ～図２Ｄは、ＤＰＥアレイ１０２の異なる例示的な実装形態を例解する。図２Ａの例では、ＤＰＥアレイ１０２は、行及び列を有するグリッドに配列された複数のＤＰＥタイル２０２を含む。ＤＰＥアレイ１０２はまた、複数のメモリタイル２０４を含む。例解の目的で、メモリタイル２０２は、２行にグループ化され、各行の個々のメモリタイル２０２は、グリッド構成の列に合わせて整列される。ＤＰＥアレイ１０２は、ＳｏＣインターフェース２０６を更に含む。ＳｏＣインターフェース２０６は、１行に配列されたインターフェースタイル２０８を含み、個々のタイル２０８は、ＤＰＥアレイ１０２のグリッド構成の列に合わせて整列される。

本開示内で、ＤＰＥアレイ１０２に関して使用される「タイル」という用語は、ＤＰＥタイル２０２、メモリタイル２０４、及び／又はインターフェースタイル２０８を指す。図２Ａの例では、グリッドのタイルの各行は、各行がＤＰＥタイル２０２のみ、メモリタイル２０４のみ、又はインターフェースタイル２０８のみを含むという点で均質である。同様のタイルの行は、一緒にグループ化されるか、又は互いに隣接する。例えば、ＤＰＥタイル２０２の全ての行は、他のタイルタイプのいかなる行も介在することなく一緒にグループ化される。同様に、メモリタイル２０４の全ての行は、他のタイルタイプのいかなる行も介在することなく一緒にグループ化される。

グリッドの列は、各列が異なるタイプのタイルを含むという点で異種である。各列は、複数のＤＰＥタイル２０２、複数のメモリタイル２０４、及び（例えば、１つの）インターフェースタイル２０８を含む。図２Ａの例では、グリッド構成に含まれる行及び／又は列の特定の数は、限定として意図されていない。ＤＰＥアレイ１０２は、より少ない又はより多い行のＤＰＥタイル２０２、より少ない又はより多い行のメモリタイル２０４、及び／又はより少ない又はより多い列のタイルを含んでもよい。

図２Ｂの例は、図２Ａの例と同様である。図２Ｂの例では、１行のみのメモリタイル２０４が含まれる。図２Ｂにおいても、図２Ａの例と同じように、グリッドのタイルの各行は、各行がＤＰＥタイル２０２のみ、メモリタイル２０４のみ、又はインターフェースタイル２０８のみを含むという点で均質である。グリッドの列は、各列が異なるタイプのタイルを含むという点で異種である。各列は、複数のＤＰＥタイル２０２、１つのメモリタイル２０４、及び（例えば、１つの）インターフェースタイル２０８を含む。図２Ｂの例では、グリッド構成に含まれる行及び／又は列の特定の数は、限定として意図されていない。ＤＰＥアレイ１０２は、より少ない又はより多い行のＤＰＥタイル２０２、より少ない又はより多い行のメモリタイル２０４、及び／又はより少ない又はより多い列のタイルを含んでもよい。

図２Ａ及び図２Ｂの例では、メモリタイル２０４の行は、グリッド構成内の図示されたものとは異なる場所又は位置に配設され得る。例えば、１行又は２行以上のグループのメモリタイル２０４は、グリッド構成の上部、グリッド構成の下部（例えば、ＳｏＣインターフェース２０６とＤＰＥタイル２０２の任意の行との間）、ＤＰＥタイル２０２の選択された行の間、又はそれらの任意の組み合わせに配設されてもよい。更に、ＤＰＥアレイ１０２は、複数の行又は行のグループのメモリタイル２０４を含んでもよく、そのような行又は行のグループのメモリタイル２０４の各々は、別のタイプの１つ以上の介在タイルによって別の行又は行のグループのメモリタイル２０４から切り離される。

図２Ｃの例は、図２Ａの例と同様である。図２Ｃの例では、メモリタイル２０４の行は一緒にグループ化されない。図示されるように、メモリタイルの１行は、グリッド構成の上部に位置付けられ、メモリタイル２０４の第２の行は、ＤＰＥタイル２０２とインターフェースタイル２０８の行との間のグリッド構成の下部に向かって位置付けられる。２行以上のメモリタイル２０４が、ＤＰＥタイル２０２とＳｏＣインターフェース２０６との間、及び／又はグリッド構成の上部に位置決めされてもよいことを理解されたい。例えば、２行以上のメモリタイル２０４は、グリッドの上部に位置決めされてもよく、２行以上のメモリタイル２０４は、下部に向かって位置決めされてもよい。更に、ＤＰＥアレイ１０２のサイズに応じて、追加の行又は２行以上のグループのメモリタイル２０４が、ＤＰＥタイル２０２の他の行の間に含まれてもよい。一例では、ＤＰＥタイル２０２の行とメモリタイル２０４の行が交互になってもよい。別の構成では、２行以上のグループＤＰＥタイル２０２が、２行以上のグループのメモリタイルと交互になってもよい。例えば、ＤＰＥアレイ１０２は、２行、３行、４行等のＤＰＥタイル２０２、続いて、下に２行、３行、又は４行のメモリタイル２０４などから、繰り返しパターンで形成されてもよい。

図２Ｄの例では、メモリタイル２０４は、行ではなく列に配列される。したがって、図２Ｄの例では、１つ以上のＤＰＥタイル２０２を含む各行は、１つ以上のメモリタイル２０４も含む。各列がＤＰＥタイル２０２及びインターフェースタイル２０８、又はメモリタイル２０４及びインターフェースタイル２０８のいずれかを含むという点で、列は依然として異種である。したがって、各インターフェースタイル２０８の上で、列は、両方の組み合わせではなく、ＤＰＥタイル２０２のみ、又はメモリタイル２０４のみを含む。

この例では、２列のメモリタイル２０４が示されている。他の例示的な実装形態では、より少ない又はより多い列のメモリタイル２０４が含まれ得る。更に、メモリタイル２０４の列は、グリッド構成の図示されたものとは異なる位置に配設され得る。例えば、１列又は２列以上のグループのメモリタイル２０４は、グリッド構成の左端、グリッド構成の右端、ＤＰＥタイル２０２の選択された列の間、又はそれらの任意の組み合わせに配設されてもよい。一例では、列は、ＤＰＥタイル２０２及びインターフェースタイル２０８を含む１列以上の列と、メモリタイル２０４及びインターフェースタイル２０８を含む１列以上の列との間で交互になってもよい。

図２Ａ～図２Ｄの例では、メモリタイル２０４は、メモリタイル２０４が列又は行に配置されるように編成される。１つ以上の他の例示的な実装形態では、個々のメモリタイル２０４又はメモリタイル２０４のグループは、ＤＰＥタイル２０２の間に散在させてもよい。例えば、複数のメモリタイル２０４のクラスタがＤＰＥアレイ１０２の中央に配置され、ＤＰＥタイル２０２がメモリタイル２０４のクラスタを取り囲んでもよい。別の例では、１列以上の列及び／又は１行以上の行が、交互になったＤＰＥタイル２０２及びメモリタイル２０４から形成されるように、メモリタイル２０４にＤＰＥタイル２０２を散在させてもよい。特定の例では、グリッド構成は、各行及び列が、交互になったＤＰＥタイル２０２及びメモリタイル２０４から形成される市松模様編成で編成されてもよい。

図３は、ＤＰＥアレイ１０２の別の例示的な実装形態を例解する。ＤＰＥアレイ１０２は、ＤＰＥタイル２０２、メモリタイル２０４、及びインターフェースタイル２０８を含む。インターフェースタイル２０８は、集合的に、ＳｏＣインターフェース２０６を形成する。図３の例では、説明を容易にするために、より少ないタイルが示されている。更に、構成要素及び／又はタイル間のいくつかの接続は、説明を容易にするために省略されている。

図３の例では、各タイル、例えば、各ＤＰＥタイル２０２、メモリタイル２０４、及びインターフェースタイル２０８は、ストリームスイッチ３０６及びメモリマップド（memory mapped、ＭＭ）スイッチ３０８を含む。各ストリームスイッチ３０６は、隣接するタイルのストリームスイッチに接続される。例えば、各ストリームスイッチ３０６は、そのような隣接するタイルがＤＰＥアレイ１０２内に存在する限り、上に隣接するタイルのストリームスイッチ３０６、下に隣接するタイルのストリームスイッチ、左に隣接するタイルのストリームスイッチ、及び右に隣接するタイルのストリームスイッチに接続される。ストリームスイッチ３０６は、アプリケーションデータが伝達されるＤＰＥアレイ１０２内のパケット交換ネットワークを実装する。概して、ストリームスイッチ３０６は、動作中にアプリケーションデータを通信するタイルのクラスタを形成するために、他のストリームスイッチとの論理接続を確立するようにプログラマブルである。アプリケーションデータは、ランタイム中にＤＰＥアレイ１０２のタイルによって操作されるか、又生成されるデータを含む。

ＭＭスイッチ３０８は、列で垂直に結合される。すなわち、各ＭＭスイッチ３０８は、そのような隣接するタイルがＤＰＥアレイ１０２内に存在する限り、上に隣接するタイルのＭＭスイッチ３０８及び下に隣接するタイルのＭＭスイッチ３０８に接続される。ＭＭスイッチ３０８は、ＤＰＥアレイ１０２のタイルに含まれる任意の制御レジスタ及び／又はメモリに対して読取り及び／又は書込みを行うために使用されてもよい。この点に関して、ＭＭスイッチ３０８は、ＤＰＥアレイ１０２のタイルに構成データを伝達するために使用されるメモリマップドネットワークを形成する。構成データは、他のタイルとの特定の接続性を実装し、かつ／又はタイルの特定の機能をイネーブル／ディスエイブルにするようにタイルを構成する目的で、ＤＰＥアレイ１０２のタイルの制御レジスタにロードされるデータである。構成データはまた、初期化のためにタイルのメモリに書込まれたデータを含み得る。構成データは、アプリケーションデータと区別されるべきである。

ＩＣ１００内のマスタ回路は、例えば、ＭＭスイッチ３０８に結合されたＤＰＥアレイ１０２の任意のメモリ及び／又はレジスタに対して読取り及び／又は書込みを行うことが可能である。図示されていないが、タイル２０２、２０４、及び２０８の各々は、ＭＭスイッチ３０８によって読取り及び書込み得る制御レジスタを含み、それによって、そのようなタイルの各々が構成データを用いてプログラムされることを可能にする。

各ＤＰＥタイル２０２は、コア３０２及びメモリモジュール３０４を更に含む。各メモリタイル２０４は、ＤＭＡエンジン３１０及びＲＡＭ３１２を更に含む。図３の例では、各ＤＭＡエンジン３１０は、同じメモリタイル２０４内に含まれるＲＡＭ３１２にアクセスする（例えば、読取る及び／又は書込む）ことが可能である。ＭＭスイッチ３０８を使用して実行されるように、各メモリタイル２０４にロードされた構成データに応じて、所与のメモリタイル２０４のＤＭＡエンジン３１０は、図示されるように、隣接するメモリタイル２０４のＲＡＭ３１２に対して読取り及び／又は書込みを行うことも可能である。

各インターフェースタイル２０８はまた、１つ以上のインターフェース３１４を含む。図３の例では、インターフェース３１４は、ＩＣ１００の他のシステム及び／又は回路に接続することが可能である。例解の目的で、インターフェース３１４は、ＮｏＣ１０８、ＰＬ１０４、ＰＳ１０６、ＰＭＣ１１０、及び／又はハードワイヤード回路ブロック１１２に結合することが可能である。インターフェースタイル２０８は、ストリームスイッチ３０６を介したアプリケーションデータであろうと、ＭＭスイッチ３０８を介した構成データであろうと、データを各それぞれのインターフェースタイル２０８の上に配設されたタイルに伝達することが可能である。更に、インターフェースタイル２０８は、ＭＭスイッチ３０８を介して各それぞれのインターフェースタイル２０８の制御レジスタに構成データをロードすることによって構成可能である。

図４は、ＮｏＣ１０８の例示的な実装形態を例解する。ＮｏＣ１０８は、ＮｏＣマスタユニット（NoC master unit、ＮＭＵ）４０２と、ＮｏＣスレーブユニット（NoC slave unit、ＮＳＵ）４０４と、ネットワーク４１４と、レジスタ４１２とを含む。ＮＭＵ４０２及びＮＳＵ４０４は、エンドポイント回路に接続することが可能である。ＮＭＵ４０２及びＮＳＵ４０４に結合されたエンドポイント回路は、ハードワイヤード回路ブロック１１２、ＰＬ１０４内に実装された回路、ＰＳ１０６内の構成要素、及び／又はＤＰＥアレイ１０２内のＤＰＥタイル２０２若しくはメモリタイル２０４とすることができる。所与のエンドポイント回路は、２つ以上のＮＭＵ４０２又は２つ以上のＮＳＵ４０４に結合することができる。

ＮＭＵ４０２は、ＮｏＣ１０８上でトランザクション、例えば読取り及び書込みを発出することが可能であり、一方、ＮＳＵ４０４は、ＮＭＵ４０２によって発出されたトランザクションに応答する。ＮＭＵ４０２は、ネットワーク４１４を通してＮＳＵ４０４に接続される。一例では、ネットワーク４１４は、ＮｏＣパケットスイッチ（NoC packet switches、ＮＰＳ）４０６と、ＮＰＳ４０６間のルーティング４０８とを含む。各ＮＰＳ４０６は、ＮｏＣパケットのスイッチングを実行する。ＮＰＳ４０６は、複数の物理チャネルを実装するために、ルーティング４０８を通して、互いに接続され、ＮＭＵ４０２及びＮＳＵ４０４に接続される。ＮＰＳ４０６はまた、物理チャネルごとに複数の仮想チャネルをサポートする。

ＮＭＵ４０２、ＮＳＵ４０４、及びＮＰＳ４０６は、その機能を決定するレジスタ４１２を含むことができる。ＮｏＣ１０８内のレジスタ４１２は、割込み、サービス品質（Quality of Service、ＱｏＳ）、エラー処理及び報告、トランザクション制御、電力管理、並びにアドレスマッピング制御をサポートする。レジスタ４１２は、再プログラムされる前に使用可能な状態に初期化することができる。初期化に続いて、レジスタ４１２は、書込み要求を使用してレジスタ４１２に書込むことによって再プログラムされ得る。ＮｏＣ１０８及び／又は他のエンドポイント回路をプログラムするために、ＮｏＣ１０８の構成データをＩＣ１００にロードすることができる。

図５は、一例による、ＮｏＣを通したＩＣ１００～ＮｏＣ１０８内のエンドポイント回路間の接続を示すブロック図である。この例では、エンドポイント回路５０２は、ＮｏＣ１０８を通してエンドポイント回路５０４に接続される。エンドポイント回路５０２は、ＮｏＣ１０８のＮＭＵ４０２に結合されたマスタ回路である。エンドポイント回路５０４は、ＮｏＣ１０８のＮＳＵ４０４に結合されたスレーブ回路である。各エンドポイント回路５０２及び５０４は、ＰＳ１０６内の回路、ＤＰＥアレイ１０２内のＤＰＥタイル２０２、ＤＰＥアレイ１０２内のメモリタイル２０４、ＰＬ１０４の領域内の回路、又はハードワイヤード回路ブロック１１２とすることができる。

ネットワーク４１４は、複数の物理チャネル５０６を含む。物理チャネル５０６は、ＮｏＣ１０８をプログラミングすることによって実装される。各物理チャネル５０６は、１つ以上のＮＰＳ４０６及び関連するルーティング４０８を含む。ＮＭＵ４０２は、少なくとも１つの物理チャネル５０６を通してＮＳＵ４０４と接続する。物理チャネル５０６はまた、１つ以上の仮想チャネル５０８を有することができる。ネットワーク４１４を通した接続は、マスタ－スレーブ構成を使用する。一例では、ネットワーク４１４上の最も基本的な接続は、単一のスレーブに接続された単一のマスタを含む。しかしながら、他の例では、より複雑な構造を実装することができる。

図６Ａ及び図６Ｂは、ＤＰＥアレイ１０２のＤＰＥタイル２０２の例示的なアーキテクチャを例解する。説明のために、図６Ａ及び図６Ｂをまとめて「図６」と呼ぶことがある。図６Ａを参照すると、ＤＰＥタイル２０２は、コア３０２及びメモリモジュール３０４を含む。ＤＰＥタイル２０２は、ストリームスイッチ３０６及びＭＭスイッチ３０８を更に含む。

コア３０２は、ＤＰＥタイル２０２のデータ処理能力を提供する。コア３０２は、種々の異なる処理回路のいずれかとして実装され得る。図６Ａの例では、コア３０２は、任意選択のプログラムメモリ６０６を含む。１つ以上の例示的な実装形態では、コア３０２は、プログラムコード、例えばコンピュータ可読命令を実行することが可能であるプロセッサとして実装される。プログラムメモリ６０６は、コア３０２によって実行される命令を記憶することが可能である。コア３０２は、例えば、ＣＰＵ、ＧＰＵ、ＤＳＰ、ベクトルプロセッサ、又は命令を実行することが可能な他のタイプのプロセッサとして実装され得る。コアは、本明細書で説明される種々のＣＰＵ及び／又はプロセッサアーキテクチャのいずれかを使用して実装され得る。別の例では、コア３０２は、超長命令語（very long instruction word、ＶＬＩＷ）ベクトルプロセッサ又はＤＳＰとして実装される。

プログラムメモリ６０６は、コア３０２に対してプライベートである専用プログラムメモリとして実装されてもよい。プログラムメモリ６０６は、同じＤＰＥタイル２０２のコアによってのみ使用されてもよい。したがって、プログラムメモリ６０６は、コア３０２によってのみアクセスされ得、ＤＰＥアレイ１０２内の任意の他のＤＰＥタイル２０２又は任意の他のＤＰＥタイル２０２の構成要素と共有されない。プログラムメモリ６０６は、読出し及び書込み動作のための単一ポートを含むことができ、ＭＭスイッチ３０８を介してＤＰＥアレイ１０２のメモリマップネットワークを使用してアドレス指定可能である。ＭＭスイッチ３０８を介して、例えば、プログラムメモリ６０６は、ＤＰＥアレイ１０２の外部のマスタ回路によってプログラムコードをロードされてもよい。プログラムメモリ６０６にロードされたプログラムコードは、コア３０２によって実行され得る。

１つ以上の例示的な実装形態では、コア３０２は、特定用途向け命令セットをサポートするためにカスタマイズされたアーキテクチャを有し得る。例えば、コア３０２は、無線アプリケーションのためにカスタマイズされてもよく、無線特有の命令を実行するように構成されてもよい。別の例では、コア３０２は、機械学習のためにカスタマイズされてもよく、機械学習特有の命令を実行するように構成されてもよい。

１つ以上の他の例示的な実装形態では、コア３０２は、特定の１つ以上の動作を実行するために専用化された、強化された知的財産（Intellectual Property、ＩＰ）コアなどのハードワイヤード回路機構として実装される。その場合、コア３０２はプログラムコードを実行しなくてもよい。コア３０２がプログラムコードを実行しない実装形態では、プログラムメモリ６０６は省略され得る。例示的かつ非限定的な例として、コア３０２は、強化された順方向誤り訂正（forward error correction、ＦＥＣ）エンジン又は他の回路ブロックとして実装され得る。

いくつかの例示的な実装形態では、異なるＤＰＥタイル２０２は、異なるタイプのコア３０２を含んでもよい。例えば、１つ以上のコア３０２は、プログラムコードを実行するように実装され得るが、他のＤＰＥタイル２０２のコア３０２は、プログラムコードを実行することができない。いずれの場合も、各コア３０２は、プログラムコード／命令の実行を通してであるか否かにかかわらず計算を実行するように構成され、本開示内で説明されるカスケード接続性とともに使用され得る１つ以上の内部レジスタ６２６を含み得る。

コア３０２は、制御レジスタ６０８を含み得る。制御レジスタ６０８には、ＤＰＥタイル２０２の動作を制御するための構成データがロードされてもよい。例えば、制御レジスタ６０８にロードされた構成データは、本明細書でより詳細に説明されるＤＰＥタイル２０２のコア３０２、メモリモジュール３０４、ストリームスイッチ３０６、及びカスケードインターフェース６２２、６２４の動作を構成及び／又は制御することが可能である。１つ以上の例示的な実装形態では、ＤＰＥタイル２０２は、制御レジスタ６０８にロードされた構成データに基づいて、例えば全体として、アクティブ化及び／又は非アクティブ化され得る。同様に、コア３０２は、制御レジスタ６０８にロードされた構成データに基づいて、アクティブ化及び／又は非アクティブ化され得る。コア３０２は、メモリモジュール３０４が１つ以上の他のコアによってアクセスされ得るように、メモリモジュール３０４とは独立してアクティブ化及び／又は非アクティブ化され得る。図６Ａの例では、制御レジスタ６０８は、ＭＭスイッチ３０８を通してメモリマップドネットワークを介してアドレス指定可能である（例えば、読取り及び／又は書込みされ得る）。非アクティブ化は、回路ブロックを低電力モードにすること、又は回路ブロックから電力（例えば、供給電圧）を切断することを指す。特定の構成要素又はＤＰＥタイル２０２を非アクティブ化すると、その構成要素又はタイルは、アクティブ化されるまで動作不能になる。

１つ以上の例示的な実装形態では、メモリモジュール３０４は、本明細書ではアプリケーションデータと呼ばれる、コア３０２によって使用及び／又は生成されるデータを記憶することが可能である。メモリモジュール３０４は、ＲＡＭなどの読取り／書込みメモリを含み得る。したがって、メモリモジュール３０４は、コア３０２によって読取られ消費され得るデータを記憶することが可能である。メモリモジュール３０４はまた、コア３０２によって書込まれるデータ（例えば、結果）を記憶することが可能である。

１つ以上の他の例示的な実装形態では、メモリモジュール３０４は、ＤＰＥアレイ１０２内の他のＤＰＥタイル２０２の１つ以上の他のコア３０２によって使用及び／又は生成され得るデータ、例えばアプリケーションデータを記憶することが可能である。ＤＰＥタイル２０２の１つ以上の他のコア３０２もまた、メモリモジュール３０４から読取ること、及び／又はそれに書込むことができる。特定の例示的な実装形態では、メモリモジュール３０４から読取ること、及び／又はそれに書込むことができる他のコア３０２は、１つ以上に隣接するＤＰＥタイル２０２のコア３０２であってもよい。タイルが互いに境界を共有する場合、２つのタイルは隣接している。図６Ａのコア３０２及び隣接するＤＰＥタイル（例えば、対象ＤＰＥタイル２０２の上に隣接する、下に隣接する、及び右及び／又は左に隣接するＤＰＥタイル）からの１つ以上の他のコア３０２がメモリモジュール３０４に対して読取り及び／又は書込みを行うことを可能にすることによって、メモリモジュール３０４は、メモリモジュール３０４にアクセスすることが可能である異なるＤＰＥタイル２０２及び／又はコア３０２間の通信をサポートする共有メモリを実装する。

上述したように、ＤＰＥアレイ１０２は、「ＤＰＥ相互接続回路機構」と呼ばれることもある複数の異なる独立したネットワークを含んでもよい。ストリームネットワークは、アプリケーションデータを交換するストリームスイッチ３０６から形成される。図示されるように、図６ＡのＤＰＥタイル２０２のストリームスイッチ３０６は、左、右、上、及び下に隣接するタイルのストリームスイッチに結合される。タイルは、ＤＰＥアレイ１０２のグリッド構成に応じて、１つ以上の他のＤＰＥタイル２０２、インターフェースタイル２０８、１つ以上のメモリタイル２０４、又はそれらの任意の組み合わせを含んでもよい。

ストリームスイッチ３０６は、コア３０２に結合され、コア３０２と通信することが可能である。コア３０２は、例えば、ストリームスイッチ３０６に接続するストリームインターフェースを含み、それによってコア３０２がＤＰＥ相互接続回路機構を介してＤＰＥアレイ１０２の他のタイルと直接通信することを可能にする。例えば、コア３０２は、コア３０２がストリームスイッチ３０６を介してアプリケーションデータをそのような他のタイルに直接送信及び／又は受信することをイネーブルにする命令又はハードワイヤード回路機構を含み得る。

ストリームスイッチ３０６は、メモリモジュール３０４に結合され、メモリモジュール３０４と通信することが可能である。メモリモジュール３０４は、例えば、ストリームスイッチ３０６に接続するストリームインターフェースを含み、それによって、ＤＰＥアレイ１０２の他のタイルがＤＰＥ相互接続回路機構を介して図６Ａのメモリモジュール３０４と通信することを可能にする。概して、ストリームスイッチ３０６は、ＤＰＥアレイ１０２の隣接していないタイル間の通信を容易にする。例えば、ストリームスイッチ３０６を介して、図６Ａのメモリモジュール３０４のメモリインターフェース又は図６Ａのコア３０２のコアインターフェースに直接接続されていない他のＤＰＥタイル２０２のコア及び／又はメモリモジュールは、ＤＰＥ相互接続回路機構を介して図６Ａのコア３０２及び／又はメモリモジュール３０４と通信することができる。したがって、図６Ａのコア３０２及び／又は図６Ａのメモリモジュール３０４は、ＤＰＥ相互接続回路機構のストリームスイッチを介してＤＰＥアレイ１０２内のタイルのいずれかと、そのような他のタイルが隣接しているか否かにかかわらず、通信することもできる。

ストリームスイッチ３０６はまた、ＰＬ１０４、ＮｏＣ１０８、ハードワイヤードブロック１１２、又は本明細書で説明される他の回路ブロックなどの他のシステムと通信するために使用され得る。概して、ストリームスイッチ３０６は、回線交換ストリーム相互接続又はパケット交換ストリーム相互接続として動作するようにプログラムすることができる。回線交換ストリーム相互接続は、ＤＰＥアレイ１０２のタイル間の高帯域幅通信に好適なポイントツーポイントの専用ストリームを実装することが可能である。パケット交換ストリーム相互接続により、ストリームを共有して、複数の論理ストリームを１つの物理ストリーム上に時間多重化して、中帯域幅通信を行うことができる。

ストリームスイッチ３０６は、制御レジスタ６０８を介して構成され得る。制御レジスタ６０８にロードされた構成データは、例えば、図６ＡのＤＰＥタイル２０２がＩＣ１００のどの他のＤＰＥタイル２０２及び／又はシステムと通信するか、及びそのような通信が回線交換ポイントツーポイント接続として確立されるかパケット交換接続として確立されるかを命令する。

メモリマップドネットワークは、ＤＰＥタイル２０２の構成データ、制御データ、及び／又はデバッグデータなどのデータを交換することが可能である。メモリマップネットワークは、ＭＭスイッチ３０８から形成される。読取り及び／又は書込みされ得る図６のＤＰＥタイル２０２の各構成要素、例えば、制御レジスタ６０８、プログラムメモリ６０６、メモリモジュール３０４、及びイベントブロードキャスト回路機構（例えば、図６Ｂ）は、ＭＭスイッチ３０８を用いて読取り及び／又は書込みされ得る。ＭＭスイッチ３０８はまた、ＤＰＥアレイ１０２の他のタイプのタイルのための構成データ、制御データ、及びデバッグデータを交換するために使用されてもよい。図６Ａの例では、ＭＭスイッチ３０８は、ＤＰＥタイル２０２を構成するために使用される構成データを受信することが可能である。ＭＭスイッチ３０８は、図６ＡのＤＰＥタイル２０２の下に配設されたＤＰＥアレイ１０２のタイルのＭＭスイッチから構成データを受信してもよい。ＭＭスイッチ３０８は、受信した構成データを、図６ＡのＤＰＥタイル２０２の上のＤＰＥアレイ１０２のタイル内の１つ以上の他のＭＭスイッチ、図６Ａのコア３０２（例えば、プログラムメモリ６０６及び／又は制御レジスタ６０８）、及び／又は図６Ａのメモリモジュール３０４（例えば、初期化のためのメモリモジュール３０４内のメモリ）に転送することが可能である。したがって、図６ＡのＭＭスイッチ３０８は、下のＤＰＥアレイ１０２の隣接するタイルのＭＭスイッチ及び／又は上のＤＰＥアレイ１０２の隣接するタイルのＭＭスイッチと通信する。

それぞれのＤＰＥタイル２０２の制御レジスタ６０８は、それぞれのＭＭスイッチ３０８を通して構成データをロードすることによってプログラムされてもよい。構成を通して、ストリームスイッチ３０６は、パケット交換であるか回線交換であるかにかかわらず、他のエンドポイントとの接続を、１つ以上の他のＤＰＥタイル２０２、メモリタイル２０４、及び／又はインターフェースタイル２０８内であるかにかかわらず確立するようにプログラムされる。

図６ＡのＭＭスイッチ３０８は、ＤＰＥアレイ１０２の他のタイルのメモリマップドスイッチと組み合わせて、トランザクションがＭＭスイッチからＭＭスイッチに伝搬する共有トランザクション交換ネットワークを実装する。ＭＭスイッチ３０８の各々は、例えば、アドレスに基づいてトランザクションを動的にルーティングすることが可能である。ＭＭスイッチ３０８は、ＩＣ１００の他のシステムがＤＰＥアレイ１０２のタイルのリソース（例えば、構成要素）にアクセスすることを可能にする。例えば、ＤＰＥアレイ１０２は、プロセッサ（例えば、ＰＳ１０６又はＰＭＣ１１０のプロセッサ）のアドレス空間にマッピングされてもよい。したがって、ＤＰＥアレイ１０２のタイル内の任意の制御レジスタ及び／又はメモリは、ＭＭインターフェースを介してアクセスされてもよい。例えば、メモリモジュール３０４内のメモリ、プログラムメモリ６０６、及び／又は制御レジスタ６０８は、それぞれのＤＰＥタイル２０２内のＭＭスイッチ３０８を介して読取り及び／又は書込みされ得る。

図６Ａの例では、メモリモジュール３０４は、複数のメモリインターフェース６１０－１、６１０－２、６１０－３、及び６１０－４を含む。図６Ａ内では、メモリインターフェース６１０－１及び６１０－２は、「ＭＩ」と略される。メモリモジュール３０４は、複数のメモリバンク６１２－１～６１２－Ｎを更に含む。特定の例示的な実装形態では、メモリモジュール３０４は、８個のメモリバンク６１２を含む。他の例示的な実装形態では、メモリモジュール３０４は、より少ない又はより多いメモリバンク６１２を含み得る。図６Ａの例では、メモリバンク６１２－１～６１２－Ｎの各々は、それぞれの調停回路６１４－１～６１４－Ｎを有する。各調停回路６１４は、調停論理を含み得る。更に、各調停回路６１４は、クロスバーを含み得る。したがって、任意のマスタは、メモリバンク６１２の任意の特定の１つ以上に書込むことが可能である。

メモリモジュール３０４は、ＭＭスイッチ３０８と通信するメモリマップドインターフェース（図示せず）を含んでもよい。メモリモジュール３０４内のメモリマップドインターフェースは、メモリバンク６１２から読取り及び／又はメモリバンク６１２への書込むために、ＤＭＡエンジン６１６、メモリインターフェース６１０、及び調停回路６１４に結合するメモリモジュール３０４内の通信線に接続されてもよい。

ＤＭＡエンジン６１６は、２つ以上のインターフェースを含んでもよい。例えば、１つ以上のインターフェースは、ストリームスイッチ３０６を介してＤＰＥアレイ１０２の他のタイルから入力データストリームを受け取り、受け取ったデータをメモリバンク６１２に書込むことが可能である。１つ以上の他のインターフェースは、メモリバンク６１２からデータを読取り、データをＤＭＡエンジン６１６のストリームインターフェースを介して外側に出し、ストリームスイッチ３０６を介してＤＰＥアレイ１０２の他のタイルに送信することが可能である。

メモリモジュール３０４は、複数の異なるＤＰＥタイル２０２によってアクセスされ得る共有メモリとして動作することが可能である。図６Ａの例では、メモリインターフェース６１０－１は、コア３０２に含まれるコアインターフェース６１８－１を介してコア３０２に結合される。メモリインターフェース６１０－１は、コア３０２に、調停回路６１４を通してメモリバンク６１２へのアクセス（例えば、読取り及び書込み能力）を提供する。メモリインターフェース６１０－２は、図６ＡのＤＰＥタイル２０２の上に隣接するＤＰＥアレイ１０２のＤＰＥタイルのコアインターフェースに結合される。メモリインターフェース６１０－２は、図６ＡのＤＰＥタイル２０２の上に隣接するＤＰＥタイルのコアにメモリバンク６１２へのアクセスを提供する。メモリインターフェース６１０－３は、図６ＡのＤＰＥタイル２０２の右に隣接するＤＰＥアレイ１０２のＤＰＥタイルのコアインターフェースに結合される。メモリインターフェース６１０－３は、図６ＡのＤＰＥタイル２０２の右に隣接するＤＰＥタイルのコアにメモリバンク６１２へのアクセスを提供する。メモリインターフェース６１０－４は、図６ＡのＤＰＥタイル２０２の下に隣接するＤＰＥアレイ１０２のＤＰＥタイルのコアインターフェースに結合される。メモリインターフェース６１０－４は、図６ＡのＤＰＥタイル２０２の下に隣接するＤＰＥタイル２０２のコア３０２にメモリバンク６１２へのアクセスを提供する。

コア３０２は、コアインターフェース６１８－２、６１８－３、及び６１８－４を介して他の近隣のＤＰＥタイルのメモリモジュールにアクセスすることが可能である。図６Ａの例では、コアインターフェース６１８－２は、図６ＡのＤＰＥタイル２０２の下に隣接するＤＰＥタイルのメモリインターフェースに結合される。したがって、コア３０２は、図６ＡのＤＰＥタイル２０２の下に隣接するＤＰＥタイルのメモリモジュールにアクセスすることが可能である。コアインターフェース６１８－３は、図６ＡのＤＰＥタイル２０２の左に隣接するＤＰＥタイルのメモリインターフェースに結合される。したがって、コア３０２は、図６ＡのＤＰＥタイル２０２の左に隣接するＤＰＥタイルのメモリモジュールにアクセスすることが可能である。コアインターフェース６１８－４は、図６ＡのＤＰＥタイル２０２の上に隣接するＤＰＥタイルのメモリインターフェースに結合される。したがって、コア３０２は、図６ＡのＤＰＥタイル２０２の上に隣接するＤＰＥタイルのメモリモジュールにアクセスすることが可能である。

上述したように、コア３０２は、読取り及び／又は書込み動作を、そのような動作のアドレスに基づいて、コアインターフェース６１８－１、６１８－２、６１８－３、及び／又は６１８－４を通して正しい方向にマッピングすることが可能である。コア３０２がメモリアクセスのためのアドレスを生成するとき、コア３０２は、アドレスを復号して方向（例えば、アクセスされるべき特定のＤＰＥタイル２０２）を決定し、メモリ操作を決定された方向の正しいコアインターフェースに転送することが可能である。

メモリモジュール３０４は、ハードウェア同期回路機構（hardware synchronization circuitry、ＨＳＣ）６２０を含み得る。概して、ＨＳＣ６２０は、異なるコア３０２（例えば、近隣のＤＰＥタイル２０２のコア３０２）、図６Ａのコア３０２、ＤＭＡエンジン６１６、及びＤＰＥ相互接続回機構路を介して図６ＡのＤＰＥタイル２０２などのＤＰＥタイルと通信することができる他の外部マスタ（例えば、プロセッサ）の動作を同期させることが可能である。例示的かつ非限定的な例として、ＨＳＣ６２０は、図６Ａのメモリモジュール３０４内の同じバッファ、例えば、共有バッファにアクセスする異なるＤＰＥタイル２０２内の２つの異なるコア３０２を同期させることが可能である。ＨＳＣ６２０は、コア３０２及び／若しくは近隣のＤＰＥタイルのコア（例えば、メモリインターフェース６１０に接続された他のＤＰＥタイル２０２のコア３０２）によって、並びに／又は他のＤＰＥタイル２０２のストリームスイッチ３０６によってアクセスされてもよい。

共有メモリモジュール３０４を通じて近隣のＤＰＥタイル２０２と通信すること、及びＤＰＥ相互接続回路機構を介して近隣の及び／又は非近隣のＤＰＥタイル２０２と通信することに加えて、コア３０２は、カスケード入力（「ＣＩ」６２２として示される）及びカスケード出力（「ＣＩ」６２４として示される）などの１つ以上のカスケードインターフェース６２２、６２４を含んでもよい。カスケードインターフェース６２２及び６２４は、隣接するＤＰＥタイル２０２の他のコア３０２との直接通信を提供することが可能である。図示されるように、コア３０２のカスケードインターフェース６２２は、入力データストリームを隣接するＤＰＥタイル２０２（例えば、左、上、又は下のＤＰＥタイル２０２）のコア３０２から直接受信することが可能である。カスケードインターフェース６２２を介して受信されたデータストリームは、コア３０２内のデータ処理回路機構に提供され得る。コア３０２のカスケードインターフェース６２４は、出力データストリームを隣接するＤＰＥタイル２０２（例えば、右、上、又は下のＤＰＥタイル２０２）のコア３０２に直接送信することが可能である。

図６Ａの例では、カスケードインターフェース６２２及びカスケードインターフェース６２４の各々は、バッファリングのための先入れ先出し（first-in-first-out、ＦＩＦＯ）インターフェース（図示せず）を含み得る。例示的な実装形態では、カスケードインターフェース６２２及び６２４は、幅が数百ビットであり得るデータストリームを伝達することが可能である。カスケードインターフェース６２２及び６２４の特定のビット幅は、限定として意図されていない。図６Ａの例では、カスケードインターフェース６２２は、コア３０２内の内部レジスタ（又は複数のレジスタ）６２６に結合される。内部レジスタ６２６は、コア３０２内のデータ処理回路機構によって生成された、及び／又は操作されているデータを記憶し得る。

一態様では、内部レジスタ６２６は、累算レジスタであり得る。コア３０２の累算レジスタは、コア３０２によって実行される操作の中間結果が記憶され得る内部レジスタである。累算レジスタは、コア３０２が、そのようなコンテンツ／データをコア３０２の外部に配設された別のメモリに書込む必要なしに、そのような計算の中間結果を記憶することを可能にする。別の態様では、内部レジスタ６２６は、累算レジスタに接続され得る別のレジスタである。例えば、内部レジスタ６２６は、累算レジスタに結合され、カスケードインターフェース６２２を介してデータを受信し、カスケードインターフェース６２４を介して累算レジスタにそのデータを書込み、かつ／又は累算レジスタからデータを出力するために特にアクセス可能なレジスタであってよい。カスケードインターフェース６２４は、内部レジスタ６２６の内容を出力することが可能であり、クロックサイクルごとにそうすることができる。

図６Ａの例では、カスケードインターフェース６２２及び６２４は、制御レジスタ６０８にロードされた構成データに基づいてプログラムされ得る。例えば、制御レジスタ６０８に基づいて、カスケードインターフェース６２２は、アクティブ化又は非アクティブ化され得る。同様に、制御レジスタ６０８に基づいて、カスケードインターフェース６２４は、アクティブ化又は非アクティブ化され得る。カスケードインターフェース６２２は、カスケードインターフェース６２４とは独立してアクティブ化及び／又は非アクティブ化され得る。

例示的な実装形態では、カスケードインターフェース６２２及び６２４は、コア３０２によって制御される。例えば、コア３０２は、カスケードインターフェース６２２及び／又は６２４に対して読取り／書込みを行う命令を含んでもよい。別の例では、コア３０２は、カスケードインターフェース６２２及び／又は６２４に対して読取り及び／又は書込みを行うことが可能なハードワイヤード回路機構を含み得る。特定の例示的な実装形態では、カスケードインターフェース６２２及び６２４は、コア３０２の外部のエンティティによって制御され得る。

１つ以上の例示的な実装形態では、ＤＰＥアレイ１０２は、均質なＤＰＥタイル２０２から形成されてもよい。１つ以上の他の例示的な実装形態では、ＤＰＥアレイ１０２は、異なるタイプのＤＰＥタイル２０２から形成されてもよい。例えば、ＤＰＥタイル２０２は、プログラムコードを実行するコア３０２、プログラムコードを実行しないハードワイヤードコア、特殊用途コア、又はそれらの任意の組み合わせなど、異なるタイプのコア３０２を含んでもよい。更に別の例示的な実装形態では、ＤＰＥアレイ１０２は、例えば機能的ＤＰＥタイルではないダミーＤＰＥタイルである１つ以上のＤＰＥタイルを含むことができる。それぞれの異なるＤＰＥアレイは、同じダイに実装されても異なるダイに実装されても、異なる数のＤＰＥ及び／又は異なる種類のＤＰＥを含んでもよい。

図６Ｂは、ＤＰＥタイル２０２内のイベント処理回路機構の一例を例解する。ＤＰＥタイルは、他のＤＰＥタイル、メモリタイル、及び／又はインターフェースタイルのイベント処理回路機構に相互接続されたイベント処理回路機構を含んでもよい。図６Ｂの例では、イベント処理回路機構は、コア３０２及びメモリモジュール３０４内に実装される。コア３０２は、イベントブロードキャスト回路機構６５２を含んでもよい。メモリモジュール３０４は、イベントブロードキャスト回路機構６６２を含む別個のイベント処理回路機構を含んでもよい。

イベントブロードキャスト回路機構６５２は、図６のＤＰＥタイル２０２の上及び下の近隣のＤＰＥタイルの各々のコア内のイベントブロードキャスト回路機構に接続されてもよい。イベントブロードキャスト回路機構６５２はまた、図６ＢのＤＰＥタイル２０２の左の近隣のＤＰＥタイルのメモリモジュール内のイベントブロードキャスト回路機構に接続されてもよい。イベントブロードキャスト回路機構６５２は、イベントブロードキャスト回路機構６６２に接続される。イベントブロードキャスト回路機構６６２は、図６Ｂに示されるＤＰＥタイル２０２の上及び下の近隣のＤＰＥタイルの各々のメモリモジュール内のイベントブロードキャスト回路機構に接続されてもよい。イベントブロードキャスト回路機構６６２はまた、図６ＢのＤＰＥタイル２０２の右の近隣のＤＰＥのコア内のイベントブロードキャスト回路機構に接続されてもよい。

このようにして、ＤＰＥタイルのイベント処理回路機構は、ＤＰＥアレイ１０２内に独立したイベントブロードキャストネットワークを形成してもよい。ＤＰＥアレイ１０２内のイベントブロードキャストネットワークは、本明細書で説明される他のネットワークから独立して存在してもよい。更に、イベントブロードキャストネットワークは、好適な構成データを制御レジスタ６０８にロードすることによって個々に構成可能であり得る。

図６の例では、制御レジスタ６０８は、イベントブロードキャスト回路機構６５２及び６６２をプログラムして、それぞれコア３０２及びメモリモジュール３０４内で発生する特定のタイプのイベントを検出する。制御レジスタ６０８にロードされたデータは、例えば、複数の異なるタイプの所定のイベントのうちのどれがイベントブロードキャスト回路機構６５２及び６６２によって検出されるかを決定する。イベントブロードキャスト回路機構６５２によって検出され得るイベントの例は、コア３０２内で発生するイベントである。これらのイベントは、限定はしないが、コア３０２による読取り動作の開始及び／又は終了、コア３０２による書込み動作の開始及び／又は終了、ストール、並びにコア３０２によって実行される他の動作の発生を含むことができる。イベントブロードキャスト回路機構６６２によって検出され得るイベントの例は、メモリモジュール３０４内で発生するイベントである。これらのイベントは、限定はしないが、ＤＭＡエンジン６１６による読取り動作の開始及び／又は終了、ＤＭＡエンジン６１６による書込み動作の開始及び／又は終了、ストール、並びにメモリモジュール３０４によって実行される他の動作の発生を含み得る。制御レジスタ６０８にロードされたデータは、例えば、複数の異なるタイプの所定のイベントのうちのどれがイベントブロードキャスト回路機構６５２及び／又は６６２によって検出されるかを決定する。イベントブロードキャスト回路機構６５２及び／又は６６２は、ＤＭＡエンジン６１６、ＭＭスイッチ３０８、ストリームスイッチ３０６、メモリインターフェース６１０、コアインターフェース６１８、カスケードインターフェース６２２、６２４、及び／又はＤＰＥタイル内に配設された他の構成要素から発生する及び／又はこれらに関連するイベントを検出することが可能であることを理解されたい。

例えば、制御レジスタ６０８にロードされた構成データは、他のイベントブロードキャスト回路機構からイベントブロードキャスト回路機構６５２及び／又は６６２によって受信されたイベントのうちのどれが、更に他のイベントブロードキャスト回路機構又は他の回路機構に伝搬されるかを決定し得る。構成データはまた、イベントブロードキャスト回路機構６５２及び／又は６６２によって内部で生成されたどのイベントが他のイベントブロードキャスト回路機構及び／又は他の回路機構に伝搬されるかを指定し得る。

したがって、イベントブロードキャスト回路機構６５２及び／又は６６２によって生成されたイベントは、ＤＰＥアレイ１０２の他のタイルにブロードキャストされてもよい。図６Ｂの例では、イベントブロードキャスト回路機構６５２及び／又は６６２は、イベントを、内部的に生成されたのかＤＰＥアレイ１０２の他のタイルから受信されたのかにかかわらず、上のタイル、左のタイル（例えば、イベントブロードキャスト回路機構６５２を介して）、右のタイル（例えば、イベントブロードキャスト回路機構６６２を介して）、及び下のタイルにブロードキャストすることが可能である。イベントブロードキャスト回路機構６５２はまた、メモリモジュール３０４内のイベントブロードキャスト回路機構６６２にイベントをブロードキャストすることが可能である。

図６Ｂの例では、コア内に配設されたイベントブロードキャスト回路機構は、上及び／又は下の近隣のＤＰＥタイルのコア内に配設されたイベントブロードキャスト回路機構と垂直に通信する。同様に、メモリモジュール内に配設されたイベントブロードキャスト回路機構は、上及び／又は下の近隣のＤＰＥのメモリモジュール内に配設されたイベントブロードキャスト回路機構と垂直に通信する。イベントブロードキャスト回路機構は更に、他のイベントブロードキャスト回路機構が配設されるようなＤＰＥアレイ１０２のタイルのタイプにかかわらず、すぐ左及び／又は右のイベントブロードキャスト回路機構と通信することが可能である。

制御レジスタ６０８が書込まれると、イベントブロードキャスト回路機構６５２及び６６２は、バックグラウンドで動作することが可能である。１つ以上の例示的な実装形態では、イベントブロードキャスト回路機構６５２は、コア３０２内の特定の条件を検出したことだけに応答してイベントを生成し、イベントブロードキャスト回路機構６６２は、メモリモジュール３０４内の特定の条件を検出したことだけに応答してイベントを生成する。

概して、本開示内では、ストリームスイッチは、他のストリームスイッチに接続するものとして説明される。ＭＭスイッチは、他のＭＭスイッチに接続するものとして説明され、イベントブロードキャスト回路機構は、同様のタイルの他のイベントブロードキャスト回路機構に接続するものとして説明される。すなわち、そのような構成要素は、ＤＰＥタイル間、ＭＭタイル間などに接続されるものとして説明される。ストリームスイッチ、ＭＭスイッチ、及びイベントブロードキャスト回路機構は、ＤＰＥアレイ１０２の他の近隣のタイルのそれぞれのストリームスイッチ、ＭＭスイッチ、及びイベントブロードキャスト回路機構に結合されてもよく、そのような他のタイルがＤＰＥタイル２０２、メモリタイル２０４、又はインターフェースタイル２０８であるかどうかにかかわらない、ことを理解されたい。したがって、図６は、そのような構成要素が他のＤＰＥタイル内の同様の構成要素に接続されるという文脈で主に説明されているが、そのような構成要素は、ＤＰＥアレイ１０２の実装及びそこに含まれる種々のタイプのタイルの場所に応じて、ＤＰＥアレイ１０２の他のタイプのタイル内の同様の構成要素に接続することができる。

図６の例では、ＤＰＥタイルは、コア及びメモリモジュールが整列される列にＤＰＥタイルが配列されるように配列されてもよい。別の例では、同じ行内で互いに隣接するＤＰＥタイルが反転されて交互になっていてもよい。すなわち、同じ列において左から右に、奇数番号のＤＰＥタイルは、左側にコアを有し、右側にメモリモジュールを有してもよく（例えば、非反転）、一方、偶数番号のＤＰＥタイルは、右側にコアを有し、左側にメモリモジュールを有するように反転されてもよく、又はその逆でもよい。更に、行は、市松模様パターンを形成するように間隔を置いて配置されてもよく、その結果、ＤＰＥタイルの列は、反転されているという点で交互になり、説明されているようにはならない。

図７Ａ、図７Ｂ、及び図７Ｃは、ＳｏＣインターフェース２０６のインターフェースタイルを実装するための例示的なアーキテクチャを例解する。ＳｏＣインターフェース２０６は、一行に編成された複数の相互接続されたインターフェースタイル２０８を含む。一例では、インターフェースタイル２０８の各々は同じアーキテクチャを有してもよい。別の例では、インターフェース２０８は、異なるアーキテクチャで実装されてもよく、それぞれの異なるインターフェースタイルアーキテクチャは、ＩＣ１００の異なるタイプのリソースとの通信をサポートする。インターフェースタイル２０８は、データが１つのタイルから別のタイルへ双方向に伝搬され得るように接続される。各インターフェースタイル２０８は、直上のＤＰＥアレイ１０２のタイルの列のためのインターフェースとして動作することが可能である。

図７Ａは、インターフェースタイル２０８の例示的な実装形態を例解する。図７Ａに示されるアーキテクチャはまた、ＳｏＣインターフェース２０６に含まれる他のインターフェースタイル２０８のいずれかを実装するために使用され得る。

インターフェースタイル２０８は、ＭＭスイッチ３０８を含む。ＭＭスイッチ３０８は、複数の異なる方向の各々で通信するための複数のメモリマップドインターフェースを含むことができる。例示的かつ非限定的な例として、ＭＭスイッチ３０８は、１つ以上のメモリマップドインターフェースを含むことができ、メモリマップドインターフェースは、上に隣接するＤＰＥアレイ１０２のタイルのＭＭスイッチに垂直に接続するマスタを有する。したがって、ＭＭスイッチ３０８は、ＤＰＥアレイ１０２の１つ以上のタイルのメモリマップドインターフェースに対するマスタとして動作することが可能である。特定の例では、ＭＭスイッチ３０８は、１つ以上のＤＰＥタイル２０２及び／又は１つ以上のメモリタイル２０４のためのマスタとして動作してもよい。例えば、ＭＭスイッチ３０８は、インターフェースタイル２０８の上のＤＰＥタイル２０２及び／又はメモリタイル２０４の列のためのマスタとして動作してもよい。ＭＭスイッチ３０８は、ＤＰＥアレイ１０２の複数の異なるタイルに接続するための追加のメモリマップドインターフェースを含むことができることを理解されたい。ＭＭスイッチ３０８のメモリマップドインターフェースは、インターフェースタイル２０８の上に配設されたＤＰＥアレイ１０２の異なるタイルと通信することが可能である１つ以上のスレーブを含んでもよい。

図７Ａの例では、ＭＭスイッチ３０８は、ＳｏＣインターフェース２０６の近隣のインターフェースタイル内のＭＭスイッチへの水平方向の通信を容易にする１つ以上のメモリマップドインターフェースを含み得る。例解の目的で、ＭＭスイッチ３０８は、メモリマップドインターフェースを介して水平方向に隣接するタイルに接続されてもよく、そのようなメモリマップドインターフェースの各々は、１つ以上のマスタ及び／又は１つ以上のスレーブを含む。したがって、ＭＭスイッチ３０８は、ＤＰＥアレイ１０２の正しいタイル及び／又はＤＰＥアレイ１０２のタイルのサブセットに到達するために、１つのインターフェースタイルから別のインターフェースタイルにデータ（例えば、構成データ、制御データ、及び／又はデバッグデータ）を移動させ、そのようなタイルがインターフェースタイル２０８の上の列にあるか、又は異なるインターフェースタイル２０８の上にあるかにかかわらず、データをターゲットタイルに向けることが可能である。例えば、メモリマップドトランザクションがＩＣ１００の他のシステムから受信される場合、ＭＭスイッチ３０８は、トランザクションを水平方向に、例えば、ＳｏＣインターフェース２０６内の他のインターフェースタイルに分散させることが可能である。

ＭＭスイッチ３０８はまた、インターフェースタイル２０８内の制御レジスタ７３６に結合された１つ以上のマスタ及び／又はスレーブを有するメモリマップドインターフェースを含んでもよい。ＭＭスイッチ３０８を通して、構成データを制御レジスタ７３６にロードして、インターフェースタイル２０８内の構成要素によって実行される種々の機能及び動作を制御することができる。図７Ａ、図７Ｂ、及び図７Ｃは、制御レジスタ７３６とインターフェースタイル２０８の１つ以上の要素との間の接続を例解する。しかしながら、制御レジスタ７３６は、インターフェースタイル２０８の他の要素を制御してもよく、そのようなものとして、そのような他の要素への接続を有してもよいが、そのような接続は、図７Ａ、図７Ｂ、及び／又は図７Ｃに図示されないことを理解されたい。

ＭＭスイッチ３０８は、ブリッジ７１８を介してＮｏＣインターフェース７２６に結合されたメモリマップドインターフェースを含むことができる。メモリマップドインターフェースは、１つ以上のマスタ及び／又はスレーブを含み得る。ブリッジ７１８は、ＮｏＣインターフェース７２６からのデータ転送（例えば、構成データ、制御データ、及び／又はデバッグデータ）を、ＭＭスイッチ３０８によって受信され得るメモリマップドデータに変換することが可能である。

インターフェースタイル２０８はまた、イベントブロードキャスト回路機構７０４を含み得る。イベントブロードキャスト回路機構７０４は、制御レジスタ７３６によって構成され得る。図７Ａの例では、イベントブロードキャスト回路機構７０４は、制御、デバッグ・トレース（control，debug，and trace、ＣＤＴ）回路７２０に結合される。制御レジスタ７３６にロードされた構成データは、インターフェースタイル２０８内でローカルに検出され得る特定のイベントを定義する。イベントブロードキャスト回路機構７０４は、制御レジスタ７３６ごとに、ＤＭＡエンジン７１２、ＭＭスイッチ３０８、ストリームスイッチ３０６、ＰＬインターフェース７１０内に配設された先入れ先出し（ＦＩＦＯ）メモリ、及び／又はストリームインターフェース７１４から発出する、及び／又はそれらに関連する種々の異なるイベントを検出することが可能である。イベントの例は、ＤＭＡ完了転送、ロックが解除されたこと、ロックが取得されたこと、ＰＬ転送の終了、又はインターフェースタイル２０８を通したデータフローの開始又は終了に関する他のイベントを含むことができるが、これらに限定されない。

インターフェースタイル２０８は、イベントブロードキャスト回路機構７３０を更に含んでもよい。一態様では、イベントブロードキャスト回路機構７３０は、ブロードキャスト回路機構としてのみ含まれてもよく、イベント生成及び／又は検出を提供しなくてもよい。その場合、イベントブロードキャスト回路機構７３０は、インターフェースタイル２０８の上のタイル内の他のイベントブロードキャスト回路機構からブロードキャストされたイベントを受信するために含まれ得る。イベントブロードキャスト回路機構７３０は、そのようなイベントをイベントブロードキャスト回路機構７０４及び／又はＣＤＴ回路７２０に提供してもよい。図７Ａの例では、イベントブロードキャスト回路機構７３０は、ＣＤＴ回路７２０への直接接続を有さなくてもよく、むしろイベントブロードキャスト回路機構７０４を介してＣＤＴ回路７２０に接続してもよい。

イベントブロードキャスト回路機構７０４及びイベントブロードキャスト回路機構７３０の各々は、ＤＰＥアレイ１０２のイベントブロードキャストネットワークとＳｏＣインターフェース２０６の他のインターフェースタイルとの間のインターフェースを提供する。イベントブロードキャスト回路機構７０４は、ＳｏＣインターフェース２０６の隣接する左のインターフェースタイル２０８内のイベントブロードキャスト回路機構と、イベントブロードキャスト回路機構７３０とに結合される。イベントブロードキャスト回路機構７３０は、ＳｏＣインターフェース２０６の隣接する右のインターフェースタイル２０８内のイベントブロードキャスト回路機構に結合される。イベントブロードキャスト回路機構７０４及び／又はイベントブロードキャスト回路機構７３０は、インターフェースタイル２０８の上の他のタイル内に配設されたイベントブロードキャスト回路機構に接続されてもよい。

イベントブロードキャスト回路機構７０４はまた、ＰＬインターフェース７１０に結合される。図示されていないが、別の例示的な実装形態では、イベントブロードキャスト回路機構７３０はまた、ＰＬインターフェース７１０に結合され得る。イベントブロードキャスト回路機構７０４及びイベントブロードキャスト回路機構７３０は、イベントブロードキャスト回路機構７０４によって内部で生成されたイベント、ＳｏＣインターフェース２０６の他のインターフェースタイル２０８から受信されたイベント、ＤＰＥタイル２０２から受信されたイベント、及び／又はメモリタイル２０４から受信されたイベントを、ＤＰＥアレイ１０２の他のタイルに送信することが可能である。イベントブロードキャスト回路機構７０４は更に、そのようなイベントを、ＰＬインターフェース７１０を介してＩＣ１００の他のシステム及び／又は回路に送信することが可能である。更に、ＰＬインターフェース７１０は、ＩＣ１００の他のシステム及び／又は回路ブロックからイベントを受信し、そのようなイベントをイベントブロードキャスト回路機構７０４及び／又は７３０に提供して、そのようなイベントを特定のＤＰＥタイル２０２及び／又は特定のメモリタイル２０４に伝搬させて、それぞれの受信側タイルによる更なる動作をトリガしてもよい。

一例では、イベントブロードキャスト回路機構７０４は、ＰＬインターフェース７１０を介してＩＣ１００のシステム及び／又は回路ブロックから受信した任意のイベントを、ＳｏＣインターフェース２０６の他のインターフェースタイル２０８、並びに／又はＤＰＥアレイ１０２のＤＰＥタイル２０２及び／若しくはメモリタイル２０４に送信することが可能である。イベントは、ＳｏＣインターフェース２０６内のインターフェースタイル２０８の間でブロードキャストされ得るので、イベントは、ＳｏＣインターフェース２０６内のインターフェースタイル２０８及びその中のイベントブロードキャスト回路機構を通ってＤＰＥアレイ１０２のターゲット（例えば、意図された）タイルまで横断することによって、ＤＰＥアレイ１０２の任意のタイルに到達し得る。例えば、１つ以上のターゲットタイルを含むインターフェースタイル２０８によって管理されるタイルの列（又はサブセット）の下のＳｏＣインターフェース２０６のインターフェースタイル２０８内のイベントブロードキャスト回路機構は、イベントをＤＰＥアレイ１０２のターゲットタイルに伝搬してもよい。

図７Ａの例では、イベントブロードキャスト回路機構７０４は、ＣＤＴ回路７２０に結合される。イベントブロードキャスト回路機構７０４は、イベントをＣＤＴ回路７２０に送信することが可能である。ＣＤＴ回路７２０は、受信したイベントをパケット化し、イベントブロードキャスト回路機構７０４からストリームスイッチ３０６にイベントを送信することが可能である。特定の例示的な実装形態では、イベントブロードキャスト回路機構７３０は、ストリームスイッチ３０６及び／又はＣＤＴ回路７２０にも接続され得る。

１つ以上の例示的実装形態では、イベントブロードキャスト回路機構７０４及びイベントブロードキャスト回路機構７３０は、図７Ａに図示されるように、１つ以上又は全ての方向から（例えば、図７Ａに示される接続のいずれかを介して）ブロードキャストイベントを収集することが可能である。場合によっては、イベントブロードキャスト回路機構７０４及び／又はイベントブロードキャスト回路機構７３０は、信号の論理「ＯＲ」を実行し、結果を１つ以上又は全ての方向（例えば、ＣＤＴ回路７２０を含む）に転送することが可能である。イベントブロードキャスト回路機構７０４及びイベントブロードキャスト回路機構７３０からの各出力は、制御レジスタ７３６にロードされた構成データによって構成可能なビットマスクを含み得る。ビットマスクは、どのイベントが個々に各方向にブロードキャストされるかを決定する。そのようなビットマスクは、例えば、イベントの望ましくない伝搬又は重複伝搬を排除することができる。

１つ以上の例示的な実装形態では、イベントブロードキャスト回路機構７０４及びイベントブロードキャスト回路機構７３０は、単一のより大きなイベントブロードキャスト回路機構モジュールとして統合及び実装されてもよい。その場合、統合されたイベントブロードキャスト回路機構モジュールは、イベントブロードキャスト回路機構７０４及びイベントブロードキャスト回路機構７３０に関連して説明されるそれぞれの接続及び／又は機能を実装し得る。

割込みハンドラ７３４は、イベントブロードキャスト回路機構７０４に結合され、イベントブロードキャスト回路機構７０４からブロードキャストされるイベントを受信することが可能である。１つ以上の例示的な実装形態では、割込みハンドラ７３４は、イベントブロードキャスト回路機構７０４からの選択されたイベント及び／又はイベントの組み合わせに応答して、ＮｏＣインターフェース７２６への割込みを生成するように、制御レジスタ７３６にロードされた構成データによって構成され得る。割込みハンドラ７３４は、構成データに基づいて、ＩＣ１００のシステム及び／又は他の回路ブロックへの割込みを生成することが可能である。例えば、割込みハンドラ７３４は、プロセッサ又はＰＳ１０６などの他のデバイスレベル管理ブロックに、割込みハンドラ７３４によって生成される割込みに基づいて、ＤＰＥアレイ１０２のタイルのいずれかで発生するイベントを通知することが可能である。

ＰＬインターフェース７１０は、ＰＬ相互接続ブロック７２２に結合する。１つ以上の例示的な実装形態では、ＰＬインターフェース７１０は、ＤＰＥアレイ１０２と別のクロックドメインとの間の非同期クロックドメインクロッシングを提供する。ＰＬインターフェース７１０はまた、電力レールと統合するためのレベルシフタ及び／又は分離セルを提供し得る。特定の例示的な実装形態では、ＰＬインターフェース７１０は、バックプレッシャーを処理するためのＦＩＦＯサポートを有する３２ビット、６４ビット、及び／又は１２８ビットインターフェースを提供するように構成され得る。ビット単位インターフェース７１０の特定の幅は、制御レジスタ７３６にロードされた構成データによって制御され得る。

１つ以上の他の例示的な実装形態では、ＰＬインターフェース７１０は、ＰＬ相互接続ブロック７２２を介して他のダイ内の他のタイプの回路ブロック及び／又はシステムに結合される。したがって、ＰＬインターフェース７１０は、インターフェースタイル２０８と、ＩＣ１００のそのような他のシステム及び／又は回路ブロックとの間でデータを転送することが可能である。

図７Ａの例では、インターフェースタイル２０８は、ストリームスイッチ３０６を含む。ストリームスイッチ３０６は、１つ以上のストリームインターフェースを通して、隣接する又は近隣のインターフェースタイル内のストリームスイッチに結合される。各ストリームインターフェースは、１つ以上のマスタ及び／又は１つ以上のスレーブを含んでもよい。特定の例示的な実装形態では、各々の対の近隣のストリームスイッチは、各方向において１つ以上のストリームを介してデータを交換することが可能である。ストリームスイッチ３０６はまた、１つ以上のストリームインターフェースによって、インターフェースタイル２０８の上に隣接するＤＰＥアレイ１０２のタイル内のストリームスイッチに結合される。ストリームスイッチ３０６はまた、ストリームマルチプレクサ／デマルチプレクサ７０８（図７Ａではストリームｍｕｘ／ｄｅｍｕｘと略される）を介して、ＰＬインターフェース７１０、ＤＭＡエンジン７１２、及び／又はストリームインターフェース７１４に結合される。ストリームスイッチ３０６は、例えば、ストリームマルチプレクサ／デマルチプレクサ７０８を通して、ＰＬインターフェース７１０、ＤＭＡエンジン７１２、及び／又はストリームインターフェース７１４の各々と通信するために使用される、１つ以上のストリームインターフェースを含んでもよい。

ストリームスイッチ３０６は、制御レジスタ７３６にロードされた構成データによって構成され得る。ストリームスイッチ３０６は、例えば、構成データに基づいてパケット交換動作及び／又は回線交換動作をサポートするように構成され得る。更に、構成データは、ストリームスイッチ３０６が通信するＤＰＥアレイ１０２の特定のタイルを定義する。１つ以上の例示的な実装形態では、構成データは、ストリームスイッチ３０６が通信するインターフェースタイル２０８の直上のタイルの列内のＤＰＥアレイ１０２の特定のタイル又はタイルのサブセットを定義する。

ストリームマルチプレクサ／デマルチプレクサ７０８は、ＰＬインターフェース７１０、ＤＭＡエンジン７１２、及び／又はストリームインターフェース７１４から受信したデータをストリームスイッチ３０６に向けることが可能である。同様に、ストリームマルチプレクサ／デマルチプレクサ７０８は、ストリームスイッチ３０６から受信したデータを、ＰＬインターフェース７１０、ＤＭＡエンジン７１２、及び／又はストリームインターフェース７１４に向けることが可能である。例えば、ストリームマルチプレクサ／デマルチプレクサ７０８は、選択されたデータをＰＬインターフェース７１０にルーティングするように、選択されたデータをＤＭＡエンジン７１２にルーティングして、そのようなデータがメモリマップドトランザクションとしてＮｏＣインターフェース７２６に送信されるように、及び／又は選択されたデータをストリームインターフェース７１４にルーティングして、データが１つ以上のデータストリームとして物理ＮｏＣインターフェース７２６を介して送信されるように、制御レジスタ７３６に記憶された構成データによってプログラムされてもよい。

ＤＭＡエンジン７１２は、セレクタブロック７１６を通してデータをＮｏＣインターフェース７２６に向けるマスタとして動作することが可能である。ＤＭＡエンジン７１２は、ＤＰＥアレイ１０２のタイルからデータを受信し、そのようなデータをメモリマップドデータトランザクションとして物理ＮｏＣインターフェース７２６に提供することが可能である。１つ以上の例示的な実装形態では、ＤＭＡエンジン７１２は、ＤＭＡエンジン７１２に含まれる複数のチャネル及び／又はＤＭＡエンジン７１２内のチャネルを、ロック要求をポーリングして駆動するマスタと同期させるために使用され得るハードウェア同期回路機構を含む。例えば、マスタは、ＩＣ１００の別のシステム内のプロセッサ及び／又はプロセッサシステムであり得る。マスタはまた、ＤＭＡエンジン７１２内のハードウェア同期回路機構によって生成された割込みを受信してもよい。

１つ以上の例示的な実装形態では、ＤＭＡエンジン７１２は、外部メモリ（例えば、ＩＣ１００の外部のメモリ）及び／又はＩＣ１００内に実装されたメモリにアクセスすることが可能である。例えば、ＤＭＡエンジン７１２は、ＤＰＥアレイ１０２のタイルからデータストリームを受信し、ＮｏＣ１０８を通してメモリにそのデータストリームを送信することが可能である。同様に、ＤＭＡエンジン７１２は、外部メモリからデータを受信することができ、データは、ＳｏＣインターフェース２０６の他のインターフェースタイル２０８及びＤＰＥアレイ１０２の他のタイルに分散されてもよい。

１つ以上の例示的な実装形態では、ＤＭＡエンジン７１２は、ＤＰＥグローバル制御設定レジスタ（ＤＰＥＧＣＳレジスタ）７３８を使用して設定され得るセキュリティビットを含む。メモリは、異なる領域又はパーティションに分割されてもよく、ＤＰＥアレイ１０２はメモリの特定の領域にアクセスすることのみを許可される。ＤＭＡエンジン７１２内のセキュリティビットは、ＤＰＥアレイ１０２が、ＤＭＡエンジン７１２によって、セキュリティビットごとに許可されたメモリの特定の領域のみにアクセスできるように設定されてもよい。例えば、ＤＰＥアレイ１０２によって実装されるアプリケーションは、この機構を完全に使用して、メモリの特定の領域のみにアクセスするように限定されてもよく、メモリの特定の領域から読取るように限定されてもよく、及び／又はメモリに書込むように限定されてもよい。

メモリへのアクセスを制御するＤＭＡエンジン７１２内のセキュリティビットは、ＤＰＥアレイ１０２を全体として制御するように実装されてもよいし、メモリへのアクセスがＤＰＥアレイ１０２のタイル及び／又はタイルグループごとに指定及び／又は制御され、そのようなタイル又はタイルグループが協調して動作するように、例えばカーネル及び／又は他のアプリケーションを実装するように構成される、より粒度の細かい方法で実装されてもよい。

ストリームインターフェース７１４は、ＮｏＣインターフェース７２６からデータを受信し、そのデータをストリームマルチプレクサ／デマルチプレクサ７０８に転送することが可能である。ストリームインターフェース７１４は更に、ストリームマルチプレクサ／デマルチプレクサ７０８からデータを受信し、そのデータをＮｏＣインターフェース７２６に転送することが可能である。セレクタブロック７１６は、ＤＭＡエンジン７１２又はストリームインターフェース７１４からのデータをＮｏＣインターフェース７２６に渡すように構成可能である。

ＣＤＴ回路７２０は、インターフェースタイル２０８内で制御動作、デバッグ動作、及びトレース動作を実行することが可能である。デバッグに関して、インターフェースタイル２０８内に配設されたレジスタの各々は、ＭＭスイッチ３０８を介してアクセス可能なメモリマップ上にマッピングされる。ＣＤＴ回路７２０は、例えば、トレースハードウェア、トレースバッファ、パフォーマンスカウンタ、及び／又はストール論理などの回路を含んでもよい。ＣＤＴ回路７２０のトレースハードウェアは、トレースデータを収集することが可能である。ＣＤＴ回路７２０のトレースバッファは、トレースデータをバッファリングすることが可能である。ＣＤＴ回路７２０は、更に、トレースデータをストリームスイッチ３０６に出力することが可能である。

１つ以上の例示的な実装形態では、ＣＤＴ回路７２０は、データ、例えばトレースデータ及び／又はデバッグデータを収集し、そのようなデータをパケット化し、次いで、パケット化されたデータを、ストリームスイッチ３０６を通して出力することが可能である。例えば、ＣＤＴ回路７２０は、パケット化されたデータを出力し、そのようなデータをストリームスイッチ３０６に提供することが可能である。加えて、制御レジスタ７３６又は他のものは、それぞれのタイルのＭＭスイッチ３０８を通して、メモリマップドトランザクションを介して、デバッギング中に読取り又は書込みされ得る。同様に、ＣＤＴ回路７２０内のパフォーマンスカウンタは、それぞれのタイルのＭＭスイッチ３０８を通してメモリマップドトランザクションを介してプロファイリング中に読取り又は書込みされ得る。

１つ以上の例示的な実装形態では、ＣＤＴ回路７２０は、イベントブロードキャスト回路機構７０４（又はイベントブロードキャスト回路機構７３０）によって伝搬された任意のイベント、又はＣＤＴ回路７２０に結合されたイベントブロードキャスト回路機構７０４のインターフェースによって利用されるビットマスクごとに選択されたイベントを受信することが可能である。例えば、ＣＤＴ回路７２０は、ＤＰＥアレイ１０２の任意のタイル内に配設されたイベントブロードキャスト回路機構からブロードキャストされたイベントを受信することが可能である。ＣＤＴ回路７２０は、複数のそのようなイベントをパケットにまとめてパックし、例えばパケット化し、パケット化されたイベントをタイムスタンプに関連付けることが可能である。ＣＤＴ回路７２０は更に、パケット化されたイベントを、ストリームスイッチ３０６を介してインターフェースタイル２０８の外部の宛先に送信することが可能である。イベントは、ストリームスイッチ３０６及びストリームマルチプレクサ／デマルチプレクサ７０８によって、ＰＬインターフェース７１０、ＤＭＡエンジン７１２、及び／又はストリームインターフェース７１４を介して、ＩＣ１００の他のシステム及び／又は回路ブロックに送信され得る。

ＤＰＥＧＣＳレジスタ７３８は、ＤＰＥアレイ１０２への及び／又はＤＰＥアレイ１０２からのセキュアなアクセスをイネーブル又はディスエイブルにするために使用されるＤＰＥグローバル制御設定／ビット（本明細書では「セキュリティビット」とも呼ばれる）を記憶してもよい。ＤＰＥＧＣＳレジスタ７３８は、図７Ｃに関連して以下でより詳細に説明されるＳｏＣセキュア／初期化インターフェースを介してプログラムされ得る。ＳｏＣセキュア／初期化インターフェースから受信されたセキュリティビットは、図７Ａに示されるように、バスを介してＳｏＣインターフェース２０６の１つのインターフェースタイルから次のインターフェースタイルに伝搬し得る。

１つ以上の例示的な実装形態では、ＤＰＥアレイ１０２への外部メモリマップドデータ転送は、セキュアでなくてもよく、信頼されなくてもよい。ＤＰＥＧＣＳレジスタ７３８内にセキュリティビットを設定することなく、メモリマップドデータ転送によって通信することが可能であるＩＣ１００内の任意のエンティティは、ＤＰＥアレイ１０２と通信することが可能である。ＤＰＥＧＣＳレジスタ７３８内にセキュリティビットを設定することによって、ＤＰＥアレイ１０２と通信することが許可される特定のエンティティは、セキュアなトラフィックを生成することが可能である指定されたエンティティのみがＤＰＥアレイ１０２と通信することが可能であるように定義されてもよい。

１つ以上の例示的な実装形態では、メモリマップドデータ転送は、トランザクションがセキュアであるかセキュアでないかを指定する追加のサイドバンド信号、例えばビットを含み得る。ＤＰＥＧＣＳレジスタ７３８内のセキュリティビットが設定されると、ＳｏＣインターフェース２０６、例えばインターフェースタイル２０８に入るメモリマップドトランザクションは、ＳｏＣインターフェース２０６に到着するメモリマップドトランザクションがセキュアであることを示すように設定されたサイドバンド信号を有しなければならない。ＳｏＣインターフェース２０６に到着するメモリマップドトランザクションが、サイドバンドビットを設定されておらず、セキュリティビットがＤＰＥＧＣＳレジスタ７３８内に設定されている場合、ＳｏＣインターフェース２０６は、トランザクションがＤＰＥアレイ１０２の他のタイルに入る又は渡されることを許可しない。

１つ以上の例示的な実装形態では、ＩＣ１００は、ルートオブトラストとして動作するセキュアなエージェント（例えば、回路）を含む。例えば、ＰＭＣ１１０は、セキュアなエージェントであってもよい。セキュアなエージェントは、ＤＰＥＧＣＳレジスタ７３８のセキュリティビットが設定されるときにＤＰＥアレイ１０２にアクセスするために、メモリマップドトランザクション内のサイドバンドビットを設定するのに必要な許可を用いて、ＩＣ１００内の異なるエンティティ（例えば、回路）を構成することが可能である。セキュアなエージェントは、ＩＣ１００が構成されるときに、その中に実装され得る異なるマスタに許可を与え、それによって、そのようなマスタに、セキュアなトランザクションをＤＰＥアレイ１０２に発行する能力を与える。

図７Ｂは、インターフェースタイル２０８の例示的な実装形態を例解する。図７Ｂに示される例示的なアーキテクチャはまた、ＳｏＣインターフェース２０６に含まれる他のインターフェースタイルのいずれかを実装するために使用され得る。図７Ｂの例は、図７Ａに示されたアーキテクチャの簡略バージョンを例解する。図７Ｂのアーキテクチャは、ＤＰＥタイル２０２及び／又はメモリタイル２０４と、ＩＣ１００内の他のシステム及び／又は回路ブロックとの間の接続性を提供する。図７Ｂの例では、ＤＭＡエンジン７１２、ストリームインターフェース７１４、セレクタブロック７１６、ブリッジ７１８、及びストリームマルチプレクサ／デマルチプレクサ７０８が省略されている。したがって、図７Ｂのインターフェースタイル２０８は、ＩＣ１００のより少ない面積を使用して実装され得る。更に、図示されるように、ストリームスイッチ３０６は、ＰＬインターフェース７１０に直接結合される。

図７Ｂの例示的なアーキテクチャは、ＤＰＥアレイ１０２のタイルを構成する目的で、ＤＰＥアレイ１０２の外部の回路からメモリマップドデータ、例えば構成データを直接受信することができない。そのような構成データは、ＭＭスイッチ３０８を介して近隣のインターフェースタイルから受信され、インターフェースタイル２０８が管理するＤＰＥタイル２０２及び／又はメモリタイル２０４のサブセットに（例えば、図７Ｂのインターフェースタイル２０８の上のタイルの列に）向けられてもよい。

図７Ｃは、インターフェースタイル２０８の別の例示的な実装形態を例解する。特定の例示的な実装形態では、図７Ｃに示すアーキテクチャは、ＳｏＣインターフェース２０６内に１つのタイルのみを実装するために使用され得る。図７Ｃに示すアーキテクチャは、図７Ｂに示すアーキテクチャと同様である。図７Ｃでは、セキュア／初期化インターフェース７４０、クロック信号発生器７４２、及びグローバルタイマ７４４などの追加の構成要素が含まれる。

図７Ｃの例では、セキュア／初期化インターフェース７４０は、ＤＰＥアレイ１０２のグローバルリセットレジスタ（図示せず）及びＤＰＥＧＣＳレジスタ７３８へのアクセスを提供することが可能である。ＤＰＥＧＣＳレジスタ７３８は、クロック信号発生器７４２のための制御レジスタを含むことができる。図示されるように、セキュア／初期化インターフェース７４０は、ＤＰＥＧＣＳレジスタ７３８にセキュリティビットを提供し、ＳｏＣインターフェース２０６の他のインターフェースタイル内の他のＤＰＥＧＣＳレジスタ７３８にセキュリティビットを伝搬することが可能である。セキュア／初期化インターフェース７４０は、ＳｏＣインターフェース２０６のための単一のスレーブエンドポイントを実装することが可能である。

図７Ｃの例では、クロック信号発生器７４２は、１つ以上のクロック信号７４６及び／又は１つ以上のリセット信号７５０を生成することが可能である。クロック信号７４６及び／又はリセット信号７５０は、ＤＰＥタイル２０２、メモリタイル２０４の各々、及びＳｏＣインターフェース２０６の他のインターフェースタイル２０８に分散されてもよい。例えば、クロック信号発生器７４２は、１つ以上の位相ロックループ回路（phase lock loop、ＰＬＬ）を含み得る。図示されるように、クロック信号発生器７４２は、ＤＰＥアレイ１０２の外部の別の回路によって生成された基準クロック信号を受信することが可能である。別の例では、基準クロックは、ＩＣ１００の外部のソースから受信され得る。クロック信号発生器７４２は、受信した基準クロック信号に基づいてクロック信号７４６を生成することが可能である。

図７Ｃの例では、クロック信号発生器７４２は、セキュア／初期化インターフェース７４０を介して構成される。例えば、クロック信号発生器７４２は、データをＤＰＥＧＣＳレジスタ７３８にロードすることによって構成されてもよい。したがって、ＤＰＥアレイ１０２の１つ以上のクロック周波数及びリセット信号７５０の生成は、セキュア／初期化インターフェース７４０を通して適切な構成データをＤＰＥＧＣＳレジスタ７３８に書込むことによって設定することができる。テスト目的のために、クロック信号７４６及び／又はリセット信号７５０はまた、ＰＬ１０４に直接ルーティングされ得る。

セキュア／初期化インターフェース７４０は、制御／デバッグ（回路）ブロック（例えば、図示されていないＩＣ１００の制御及び／又はデバッグシステム）に結合され得る。１つ以上の例示的な実装形態では、セキュア／初期化インターフェース７４０は、制御／デバッグブロックにステータス信号を提供することが可能である。例示的かつ非限定的な例として、セキュア／初期化インターフェース７４０は、クロック信号発生器７４２の内部から生成された「ＰＬＬロック」信号を制御／デバッグブロックに提供することが可能である。ＰＬＬロック信号は、ＰＬＬが基準クロック信号上でロックを獲得したときを示し得る。

セキュア／初期化インターフェース７４０は、インターフェース７４８を介して命令及び／又はデータを受信することが可能である。データは、本明細書で説明されるセキュリティビット、クロック信号発生器構成データ、及び／又はＤＰＥＧＣＳレジスタ７３８に書込まれ得る他のデータを含み得る。一態様では、ＰＭＣ１１０又は別のマスタ回路は、インターフェース７４８に結合され得る。

グローバルタイマ７４４は、ＣＤＴ回路７２０にインターフェースすることが可能である。例えば、グローバルタイマ７４４は、ＣＤＴ回路７２０に結合され得る。グローバルタイマ７４４は、トレースに使用されるイベントにタイムスタンプを付けるためにＣＤＴ回路７２０によって使用される信号を提供することが可能である。１つ以上の例示的な実装形態では、グローバルタイマ７４４は、ＳｏＣインターフェース２０６のインターフェースタイルのうちの他のインターフェースタイル内のＣＤＴ回路７２０に結合され得る。例えば、グローバルタイマ７４４は、図７Ａ、図７Ｂ、及び／又は図７Ｃの例示的なインターフェースタイル内のＣＤＴ回路７２０に結合されてもよい。グローバルタイマ７４４はまた、制御／デバッグブロックに結合され得る。

図８は、ＰＬインターフェース７１０の例示的な実装形態を例解する。図８の例では、ＰＬインターフェース７１０は、使用される特定のタイルアーキテクチャに応じて、ＰＬ相互接続ブロック７２２をストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８に結合する複数のチャネルを含む。ＰＬインターフェース７１０内の図８に示されたチャネルの特定の数は、例解の目的であり、限定のためではない。他の例では、ＰＬインターフェース７１０は、図８に示されるよりも少ない又は多いチャネルを含み得る。

１つ以上の例示的な実装形態では、ＰＬインターフェース７１０に結合されたＩＣ１００の他のシステム及び／又は回路ブロックは、ＤＰＥアレイ１０２とは異なる基準電圧及び／又は異なるクロック速度で動作する。したがって、図８の例では、ＰＬインターフェース７１０は、複数のシフト分離回路８０２と、複数の非同期ＦＩＦＯメモリ８０４とを含む。各チャネルは、シフト分離回路８０２及び非同期ＦＩＦＯメモリ８０４を含む。チャネルの第１のサブセットは、ＰＬ１０４又は他の回路からストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８にデータを伝達する。チャネルの第２のサブセットは、ストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８からＰＬ１０４又は他の回路にデータを伝達する。

シフト分離回路８０２は、異なる電圧のドメイン間をインターフェースすることが可能である。この場合、シフト分離回路８０２は、ＰＬ１０４及び／又は他の回路機構の動作電圧とＤＰＥアレイ１０２のタイルの動作電圧との間で遷移するインターフェースを提供することが可能である。非同期ＦＩＦＯメモリ８０４は、２つの異なるクロックドメイン間をインターフェースすることが可能である。この場合、非同期ＦＩＦＯメモリ８０４は、ＰＬ１０４又は他の回路機構のクロックレートとＤＰＥアレイ１０２のクロックレートとの間で遷移するインターフェースを提供することが可能である。

１つ以上の例示的な実装形態では、非同期ＦＩＦＯメモリ８０４は、ＤＰＥアレイ１０２への３２ビットインターフェースを有する。非同期ＦＩＦＯメモリ８０４とシフト分離回路８０２との間の接続、並びにシフト分離回路８０２とＰＬ１０４との間の接続は、幅がプログラマブル（例えば、構成可能）であり得る。例えば、非同期ＦＩＦＯメモリ８０４とシフト分離回路８０２との間の接続、並びにシフト分離回路８０２とＰＬ１０４との間の接続は、幅が３２ビット、６４ビット、又は１２８ビットであるように構成され得る。説明したように、ＰＬインターフェース７１０は、説明したビット幅を達成するために、構成データを制御レジスタ７３６に書込むＭＭスイッチ３０８によって構成可能である。ＭＭスイッチ３０８を使用して、ＰＬ１０４の側の非同期ＦＩＦＯメモリ８０４の側は、３２ビット、６４ビット、又は１２８ビットのいずれかを使用するように構成可能であり得る。本明細書で提供されるビット幅は、例解の目的のためのものである。他の例示的な実装形態では、他のビット幅が使用され得る。いずれの場合も、種々の構成要素について説明した幅は、制御レジスタ７３６にロードされた構成データに基づいて変更することができる。

図９は、ストリームインターフェース７１４の例示的な実装形態を例解する。ＤＰＥアレイ１０２は、タイル内のストリームインターフェースを使用してＮｏＣ１０８を介して通信する２つの一般的な方法を有する。一態様では、ＤＰＥタイル２０２及び／又はメモリタイル２０４は、ストリームスイッチ３０６を使用してＤＭＡエンジン７１２にアクセスすることが可能である。ＤＭＡエンジン７１２は、ＮｏＣ１０８からのメモリマップドトランザクションを、ＤＰＥアレイ１０２内のタイルに送信するためのデータストリームに変換すること、及びＤＰＥアレイ１０２内のタイルからのデータストリームを、ＮｏＣ１０８を介して送信するためのメモリマップドトランザクションに変換することが可能である。別の態様では、データストリームは、ストリームインターフェース７１４に向けられ得る。

図９の例では、ストリームインターフェース７１４は、ＮｏＣ１０８をストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８に結合する複数のチャネルを含む。各チャネルは、ＦＩＦＯメモリと、アップサイズ回路又はダウンサイズ回路のいずれかとを含み得る。チャネルの第１のサブセットは、ＮｏＣ１０８からストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８にデータを伝達する。チャネルの第２のサブセットは、ストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８からＮｏＣ１０８にデータを伝達する。ストリームインターフェース７１４内の図９に示されたチャネルの特定の数は、例解の目的であり、限定のためではない。他の例では、ストリームインターフェース７１４は、図９に示されるよりも少ない又は多いチャネルを含み得る。

１つ以上の例示的な実装形態では、アップサイズ回路９０８（図９では「ＵＳ回路」と略される）の各々は、データストリームを受信し、受信したデータストリームの幅を増加させることが可能である。例えば、各アップサイズ回路９０８は、３２ビットデータストリームを受信し、対応するＦＩＦＯメモリ９１０に１２８ビットデータストリームを出力することができる。ＦＩＦＯメモリ９１０の各々は、調停・マルチプレクサ回路９１２に結合される。調停・マルチプレクサ回路９１２は、結果として生じる出力データストリームをＮｏＣインターフェース７２６に提供するために、特定の調停方式又は優先順位（例えば、ラウンドロビン又は他のスタイル）を使用して、受信したデータストリーム間で調停を行うことが可能である。調停・マルチプレクサ回路９１２は、クロックサイクルごとに新しい要求を処理し、受け入れることが可能である。ＤＰＥアレイ１０２とＮｏＣ１０８との間のクロックドメインクロッシングは、ＮｏＣ１０８自体の中で処理されてもよい。１つ以上の他の実施形態では、ＤＰＥアレイ１０２とＮｏＣ１０８との間のクロックドメインクロッシングは、ＳｏＣインターフェース２０６内で処理されてもよい。例えば、クロックドメインクロッシングは、ストリームインターフェース７１４内で処理され得る。

デマルチプレクサ９０２は、ＮｏＣ１０８からデータストリームを受信することが可能である。例えば、デマルチプレクサ９０２は、ＮｏＣインターフェース７２６に結合され得る。例解の目的で、ＮｏＣインターフェース７２６からのデータストリームは、幅が１２８ビットであり得る。デマルチプレクサ９０２は、受信したデータストリームをＦＩＦＯメモリ９０４のうちの１つに転送することが可能である。デマルチプレクサ９０２がデータストリームを提供する特定のＦＩＦＯメモリ９０４は、データストリーム自体の中で符号化されてもよい。ＦＩＦＯメモリ９０４は、ダウンサイズ回路９０６（図９では「ＤＳ回路」と略記される）に接続されている。ダウンサイズ回路９０６は、時分割多重化を使用してバッファリングした後に、受信したストリームをより狭い幅にダウンサイズすることが可能である。例えば、ダウンサイズ回路９０６は、ストリームを１２８ビット幅から３２ビット幅にダウンサイズすることができる。

図示されるように、ダウンサイズ回路９０６及びアップサイズ回路９０８は、使用されるインターフェースタイル２０８の特定のアーキテクチャに応じて、ストリームスイッチ３０６又はストリームマルチプレクサ／デマルチプレクサ７０８に結合される。図９は、例解の目的で、として提供されており、限定を意図するものではない。チャネル内の構成要素の順序及び／又は接続性（例えば、アップサイズ／ダウンサイズ回路とＦＩＦＯメモリは、変動し得る）。１つ以上の例示的な実装形態では、ＤＰＥアレイ１０２は、ＩＣ１００内の１つ以上又は全ての他のシステムよりも速い又は高いクロックレートで動作してよい。

１つ以上の他の例では、図８に関連して説明されるようなＰＬインターフェース７１０は、図９に関連して説明されるようなアップサイズ回路及び／又はダウンサイズ回路を含み得る。例えば、ダウンサイズ回路は、ＰＬ１０４（又は他の回路機構）からストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８にデータを伝達する各チャネルに含まれてもよい。アップサイズ回路は、ストリームスイッチ３０６及び／又はストリームマルチプレクサ／デマルチプレクサ７０８からＰＬ１０４（又は他の回路機構）にデータを伝達する各チャネルに含まれ得る。

１つ以上の他の例示的な実装形態では、独立した要素として図示されているが、各ダウンサイズ回路９０６は、例えば、単一のブロック又は回路として、対応するＦＩＦＯメモリ９０４と組み合わされ得る。同様に、各アップサイズ回路９０８は、例えば、単一のブロック又は回路として、対応するＦＩＦＯメモリ９１０と組み合わされ得る。

図１０は、ＤＭＡエンジン７１２の例示的な実装を例解する。図１０の例では、ＤＭＡエンジン７１２は、データパス回路機構１００２を含む。データパス回路機構１００２は、複数のモジュール又はインターフェースに分割されてもよい。各インターフェースは、互いに独立して動作することが可能である。データパス回路機構１００２は、メモリマップド－ストリームインターフェース（インターフェース）１００４及びストリーム－メモリマップドインターフェース（インターフェース）１００６を含んでもよい。インターフェース１００４及びインターフェース１００６の各々は、１つ以上の別個のチャネルを含み得る。例えば、インターフェース１００４は、複数のメモリマップドーストリームチャネルを含むことができ、インターフェース１００６は、複数のストリームーメモリマップドチャネルを含むことができる。各チャネルは、独立して構成可能であり得る。したがって、ＤＭＡエンジン７１２は、インターフェース１００６を介してストリームスイッチ３０６から２つ以上の着信ストリーム（例えば、チャネル当たり１つのストリーム）を受信し、インターフェース１００４を介してストリームスイッチ３０６に２つ以上の発信ストリーム（例えば、チャネル当たり１つのストリーム）を送信することが可能である。データパス回路機構１００２は更に、マスタメモリマップドインターフェース１０１４を含んでもよい。マスタメモリマップドインターフェース１０１４は、ＮｏＣ１０８をインターフェース１００４及びインターフェース１００６に結合する。

ＤＭＡエンジン７１２はまた、バッファ記述子レジスタファイル１００８及びハードウェア同期回路機構１０１０を含むことができる。バッファ記述子レジスタファイル１００８及びハードウェア同期回路機構１０１０は、マルチプレクサ１０１２を介してアクセスされ得、それによって、マルチプレクサ１０１２に結合された制御インターフェースを有する他の回路機構によるバッファ記述子レジスタファイル１００８及びハードウェア同期回路機構１０１０へのアクセスを容易にする。そのような制御インターフェースの例は、メモリマップドインターフェース又は制御ストリームインターフェースを含むが、これらに限定されない。制御インターフェースは、ＤＰＥアレイ１０２のＤＰＥタイル２０２、ＤＰＥアレイ１０２のメモリタイル２０４、ＰＳ１０６、又はＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ（ＰＣＩｅ）バスなどの通信バスを介してＩＣ１００に接続された外部ホストコンピューティングシステムのプロセッサを含む別のマスタに結合することができる。制御ストリームインターフェースの例は、ＤＰＥタイル２０２及び／又はメモリタイル２０４に関連して説明されるようなストリーミングインターフェースである。

ハードウェア同期回路機構１０１０は、ＤＭＡエンジン７１２に含まれる複数のチャネル及び／又はＤＭＡエンジン７１２内のチャネルを、ロック要求をポーリングして駆動するマスタと同期させるために使用され得る。例えば、マスタは、ＰＳ１０６、又はＰＬ１０４内に実装されたデバイスであり得る。別の例では、マスタはまた、ロックが利用可能であるとき、ＤＭＡエンジン７１２内のハードウェア同期回路機構１０１０によって生成された割込みを受信してもよい。

ＤＭＡ転送は、バッファ記述子レジスタファイル１００８内に記憶されたバッファ記述子によって定義することができる。インターフェース１００６は、バッファ記述子内の情報に基づいてＮｏＣ１０８への読取り転送を要求することが可能である。インターフェース１００４からストリームスイッチ３０６への発信ストリームは、ストリームスイッチのための構成レジスタ及び／又はインターフェース１００４の個々のチャネルの構成に基づいて、パケット交換又は回線交換として構成され得る。

ＤＭＡエンジン７１２は、図１２Ａ及び図１２Ｂ並びに図１３Ａ及び図１３Ｂに関連して本明細書で説明する１つ以上の追加の回路を含み得る。例えば、ＤＭＡエンジン７１２は、図１２に関連して説明されるような物理メモリ保護回路及び／又は図１３に関連して説明されるようなメモリ管理ユニットを含み得る。

図１１Ａ、図１１Ｂ、及び図１１Ｃは、メモリタイル２０４の例示的な実装形態を例解する。図１１Ａの例では、メモリタイル２０４は、ストリームスイッチ３０６、ＭＭスイッチ３０８、ＤＭＡエンジン３１０、及びＲＡＭ３１２を含む。メモリタイル２０４はまた、ブロードキャスト回路機構１１０２、任意選択でイベントブロードキャスト回路機構１１１２、ＣＤＴ回路１１０４、制御レジスタ１１０６、及びロック回路ブロック（図１１Ａでは「ロック」として示される）１１０８を含む。

図１１Ａの例では、ストリームスイッチ３０６は、ＤＭＡエンジン３１０、ＣＤＴ回路１１０４、及び図１１Ａのメモリタイル２０４に隣接するＤＰＡアレイ１０２の各タイル内に配設されたストリームスイッチに結合される。この例では、ストリームスイッチ３０６は、メモリタイル２０４の上、下、右、及び左に隣接するタイル内の他のストリームスイッチに接続する。隣接するタイルは、タイルの構成及びその中のメモリタイル２０４の場所に応じて、１つ以上の他のメモリタイル２０４、１つ以上のＤＰＥタイル２０２、１つ以上のインターフェースタイル２０８、又はそれらの組み合わせであってよい。メモリタイル２０４に隣接するＤＰＥアレイ１０２の特定のタイルは、ＤＰＥアレイ１０２のために実装された特定のグリッド構成に基づいて変化する。

１つ以上の他の例示的な実装形態では、ストリームスイッチ３０６は、ＤＭＡエンジン３１０、及びＤＰＥアレイ１０２のより少ない隣接するタイル内のストリームスイッチに接続されてもよい。一態様では、ストリームスイッチ３０６は、メモリタイル２０４の上及び下にあるＤＰＥアレイ１０２の隣接するタイルのみのストリームスイッチに接続されてもよい。そのような例では、ストリームスイッチ３０６は、隣接する左及び隣接する右のタイルのストリームスイッチに接続されない。

ＭＭスイッチ３０８は、ＣＤＴ回路１１０４及び制御レジスタ１１０６に接続される。ＭＭスイッチ３０８はまた、メモリタイル２０４の上に隣接するＤＰＥアレイ１０２のタイル内のＭＭスイッチ、及び下に隣接するＤＰＥアレイ１０２のタイル内のＭＭスイッチに接続される。メモリタイル２０４の上及び下に隣接するタイルは、１つ以上の他のメモリタイル２０４、１つ以上のＤＰＥタイル２０２、１つ以上のインターフェースタイル２０８、又は任意の２つのタイルタイプの組み合わせであり得る。上述したように、メモリタイル２０４に隣接するＤＰＥアレイ１０２の特定のタイルは、ＤＰＥアレイ１０２のグリッド構成に基づいて変化する。

ＤＭＡエンジン３１０は、ＲＡＭ３１２と、図１１Ａのメモリタイル２０４の左及び右に隣接する任意のメモリタイル内に配設されたＲＡＭとにアクセス、例えば、読取り及び／又は書込み、することが可能である。ＤＭＡエンジン３１０は更にロック回路ブロック１１０８に接続され、他の回路が同時にメモリの同じ部分にアクセスすることを防止するために、ＲＡＭ３１２の特定の部分がロックされることを要求する。同様に、ＤＭＡエンジン３１０は、左及び右に隣接するメモリタイルのロックにアクセスして、それぞれの隣接するメモリタイル内に配設されたＲＡＭの特定の部分に対するロックを要求することが可能である。

例示的な実装形態では、ロック回路ブロック１１０８は、６４個のセマフォロック及びロックごとに６ビット状態を提供することが可能である。各ロック回路ブロック１１０８は、同じメモリタイル内のＤＭＡエンジンと、右及び／又は左に隣接する各メモリタイル内のＤＭＡエンジンとによってアクセス可能である。

イベントブロードキャスト回路機構１１０２及び１１１２は、図１１Ａのメモリタイル２０４に隣接するＤＰＥアレイ１０２のタイル内に配設されたイベントブロードキャスト回路機構に接続される。この例では、ブロードキャスト回路機構１１０２は、メモリタイル２０４の上、下、及び左に隣接するタイル内の他のイベントブロードキャスト回路機構に接続する。イベントブロードキャスト回路機構１１１２は、メモリタイル２０４の上、下、及び右に隣接するタイル内の他のイベントブロードキャスト回路機構に接続する。イベントブロードキャスト回路機構１１０２は、イベントブロードキャスト回路機構１１１２に結合される。隣接するタイルは、１つ以上の他のメモリタイル２０４、１つ以上のＤＰＥタイル２０２、１つ以上のインターフェースタイル２０８、又はそれらの何らかの組み合わせであり得る。メモリタイル２０４に隣接するＤＰＥアレイ１０２の特定のタイルは、ＤＰＥアレイ１０２のグリッド構成に基づいて変化する。

イベントブロードキャスト回路機構１１０２、１１１２は、ＤＰＥアレイ１０２の他のタイル内のイベントブロードキャスト回路機構と同様に動作することが可能である。例えば、イベントブロードキャスト回路機構１１０２及び１１１２は、ＩＣ１００の他のタイル及び／又は回路から受信したイベントを特定の宛先に伝達することが可能である。イベントブロードキャスト回路機構１１０２、１１１２はまた、イベントを生成することが可能である。イベントブロードキャスト回路機構１１０２、１１１２によって生成されるイベントは、メモリタイル２０４によって実行される動作に関連する。イベントブロードキャスト回路機構１１０２及び／又はイベントブロードキャスト回路機構１１１２によって生成され得るイベントの例は、ＤＭＡエンジン３１０による読取り動作の開始及び／又は完了、ＤＭＡエンジン３１０による書込み動作の開始及び／又は完了、並びにストリームスイッチ３０６によって行われるトランザクションの開始及び／又は終了を含み得るが、これらに限定されない。イベントブロードキャスト回路機構１１０２、１１１２は、例示的なイベントのうちの選択されたイベントを検出し、そのようなイベントのうちの選択されたイベントを、他のイベントブロードキャスト回路機構及び／又はＣＤＴ回路１１０４などの特定の宛先に転送するように、制御レジスタ１１０６によってプログラムされ得る。

別の例示的な実装形態では、メモリタイル２０４は、イベントブロードキャスト回路機構１１０２のみを含み得る（イベントブロードキャスト回路機構１１１２を省略する）。イベントブロードキャスト回路機構１１１２が省略され、イベントブロードキャスト回路機構１１０２が、イベントブロードキャスト回路機構の２つのインスタンスを含む上及び／又は下の別のタイル（例えば、インターフェースタイル２０８及び／又はＤＰＥタイル２０２）に接続する場合、イベントブロードキャスト回路機構１１０２は、上及び／又は下のそのようなタイル内のイベントブロードキャスト回路機構の両方のインスタンスに接続するように、追加のポートを含んでもよい。更に、イベントブロードキャスト回路機構１１０２は、メモリタイル２０４の右及び左に隣接するタイル内のイベントブロードキャスト回路機構に接続する。

ＣＤＴ回路１１０４は、本明細書で説明する他のＣＤＴ回路と同様の動作を実行することが可能である。例えば、ＣＤＴ回路１１０４は、メモリタイル２０４内で制御動作、デバッグ動作、及びトレース動作を実行することが可能である。デバッグに関して、メモリタイル２０４内に配設されたレジスタの各々は、ＭＭスイッチ３０８を介してアクセス可能なメモリマップ上にマッピングされる。ＣＤＴ回路１１０４は、例えば、トレースハードウェア、トレースバッファ、パフォーマンスカウンタ、及び／又はストール論理などの回路を含んでもよい。ＣＤＴ回路１１０４のトレースハードウェアは、トレースデータを収集することが可能である。ＣＤＴ回路１１０４のトレースバッファは、トレースデータをバッファリングすることが可能である。ＣＤＴ回路１１０４は、更に、トレースデータをストリームスイッチ３０６に出力することが可能である。

例示的な実装形態では、ＣＤＴ回路１１０４は、イベントブロードキャスト回路機構１１０２から受信したイベントデータをパケット化し、パケット化されたイベントデータをストリームスイッチ３０６に転送することが可能である。ＣＤＴ１１０４によって生成された任意のトレースデータはまた、そのようなデータをストリームスイッチ３０６に転送する前にパケット化され得る。ストリームスイッチ３０６は、パケット化されたイベントデータを、他の接続されたストリームスイッチを介して他の宛先に転送することが可能である。

構成データは、ＭＭスイッチ３０８を通して制御レジスタ１１０６にロードされ得る。制御レジスタ１１０６にロードされた構成データは、メモリタイル２０４の動作を命令する。例えば、制御レジスタ１１０６にロードされた構成データは、どのイベントがイベントブロードキャスト回路機構１１０２、１１１２によって生成されるか、及び／又は他の宛先、ストリームスイッチ３０６によって他のストリームスイッチと確立された論理接続、ＤＭＡエンジン３１０がアクセスできるメモリタイルのＲＡＭ、及び／又はＣＤＴ回路１１０４によって実装されたデバッグ及びトレースモード、に渡されるかを構成するために使用され得る。

適切な構成データを制御レジスタ１１０６にロードすることによって、メモリタイル２０４のうちの異なるものは、ストリームスイッチ３０６を使用して（例えば、論理的に）相互接続され得、及び／又はＤＰＥアレイ１０２の他のタイル、例えば、ＤＰＥタイル２０２に相互接続され得る。したがって、構成データに基づいて、ＤＭＡエンジン３１０は、ＤＰＥアレイ１０２内の他のタイルによって要求されたＤＭＡ転送を実行するために、その中のＲＡＭ３１２及び／又は隣接する左及び／又は右のメモリ内のＲＡＭへのアクセスを開始することが可能である。

ＤＰＥタイル２０２のいずれか１つ以上は、複合メモリを形成するメモリタイル２０４又はメモリタイル２０４のグループ（例えば、ＤＭＡエンジン３１０を使用して互いのＲＡＭ３１２にアクセスするように構成されたメモリタイル２０４）の読取り及び／又は書込みを開始することが可能である。複合メモリは、２つ以上のメモリタイル２０４から形成され、そのようなメモリタイル２０４内のＤＭＡエンジン３１０は、少なくとも１つの他のメモリタイル２０４内のＲＡＭ３１２に対して読取り及び／又は書込みを行うことが可能である。例示的な実装形態では、ＤＰＥアレイ１０２は、複数のクラスタを形成するように構成されてもよく、各クラスタは、１つ以上のＤＰＥタイル２０２と、任意選択で１つ以上のメモリタイル２０４とを含む。ＤＰＥアレイ１０２の同じクラスタ内のタイルは、特定のアプリケーションを実装するために互いに通信してもよい。クラスタは、それぞれの異なるクラスタがクラスタ固有のアプリケーション（又は別のクラスタ内で実行されるアプリケーションの異なるインスタンス）を実行することが可能である場合、互いに分離して動作することが可能である。特定のクラスタのＤＰＥタイル２０２及びメモリタイル２０４は、互いに論理的に分離されてもよい。

単一のより大きなメモリとして一緒に動作するように構成されたメモリタイル２０４又は複数のメモリタイル２０４の形態でメモリのプールを提供することによって、ＤＰＥタイル２０２は、動作をより効率的に実行することが可能である。ＤＰＥタイル２０２は、ＤＰＥタイル２０２に含まれるメモリモジュール３０４がアプリケーションの効率的な実行のために十分に大きくない場合、ＤＰＥアレイ１０２の外部に配設されたメモリにアクセスする必要なく、１つ以上のメモリタイル２０４からのＤＰＥアレイ１０２内のメモリのより大きなプールにアクセスしてもよい。例えば、外部メモリへのアクセスを回避することができ、それによってＤＰＥアレイ１０２の速度及び帯域幅を増大させることができる。

図１１Ｂは、メモリタイル２０４の例示的な実装形態を例解する。図１１Ｂの例は、メモリタイル２０４のための例示的な読取りチャネルを示す。図１１Ｂの例では、メモリタイル２０４の特定の構成要素は、読取りチャネルの動作をより良く例解するために省略されている。図１１Ｂの例では、ＲＡＭ３１２は複数のメモリバンクを含む。例解の目的で、ＲＡＭ３１２は１６個のメモリバンク０～１５を含む。各メモリバンクは、複数の読取りインターフェース及び書込みインターフェースを有する関連する調停回路を有する。

例示的な実装形態では、ＲＡＭ３１２は、５１２ＫＢのＳＲＡＭであり得る。１６個の物理メモリバンクの各々は、１２８ビット幅及び２ｋワードの深さであり得る。ＲＡＭ３１２は、ＥＣＣメモリ保護を提供するように構成され得る。メモリバンク０～１５の各々は、シングルポートであってもよく、クロックサイクルごとに１つの読取り動作又は１つの書込み動作をサポートしてもよい。メモリバンク０～１５の調停回路０～１５の各々は、９個の読取りインターフェースと９個の書込みインターフェースとを含み得る。各読取りインターフェース及び書込みインターフェースは、幅が１２８ビットであり得る。調停回路の読取りインターフェースを図１１Ｂに例解する。

ＤＭＡエンジン３１０は、複数の異なるチャネル及びスイッチング回路機構１１１４を含む。この例では、ＤＭＡエンジン３１０は、複数のメモリマップドーストリーム（memory mapped-to-stream、ＭＭ２Ｓ）チャネル０～５、複数のストリームーメモリマップド（stream-to-memory mapped、Ｓ２ＭＭ）チャネル０～５、及びＭＭインターフェース１１１０を含む。ＭＭ２Ｓチャネル及びＳ２ＭＭチャネルは、ストリームスイッチ３０６に接続される。各ＭＭ２Ｓチャネルは、読取り動作を実行することが可能である。各Ｓ２ＭＭチャネルは、書込み動作を実行することが可能である。

例示的な実装形態では、ＭＭ２Ｓチャネル、Ｓ２ＭＭチャネル、及びＭＭインターフェース１１１０は、ＡｄｖａｎｃｅｄＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＢｕｓＡｒｃｈｉｔｅｃｔｕｒｅ（ＡＭＢＡ）ｅＸｔｅｎｓｉｂｌｅＩｎｔｅｒｆａｃｅ（ＡＸＩ）バスプロトコルに準拠し得る。ＡＭＢＡＡＸＩバスは、回路ブロック及び／又はシステム間のオンチップ接続を確立する際に使用するための埋め込みマイクロコントローラバスインターフェースである。ＡＭＢＡＡＸＩ又は「ＡＸＩ」は、インターフェースの例示的な例として提供されており、本明細書で説明する本発明の構成を限定するものではない。他の好適な相互接続アーキテクチャ及び／又はバスアーキテクチャが、ＡＸＩの代わりに使用されてもよい。

ＭＭ２Ｓチャネル０～３は、スイッチング回路機構１１１４を介して調停回路０～１５に接続され、したがって、メモリバンク０～１５のうちの任意の１つ以上からデータを読取ることが可能である。同様に、スイッチング回路機構１１１４を介して、ＭＭ２Ｓチャネル０～３は、図１１Ｂの例の左及び右に隣接するメモリタイル内に配設されたメモリバンクのための調停回路０～１５に接続される。したがって、ＭＭ２Ｓチャネル０～３は、図１１Ｂの例の左及び右に隣接するメモリタイルのメモリバンク０～１５のうちの任意の１つ以上からデータを読取ることが可能である。ＭＭＳ２チャネル４～５は、同じメモリタイル内のスイッチング回路機構１１１４を介して調停バンク０～１５に接続されており、同じメモリタイル内のメモリバンク０～１５からデータを読取ることしかできない。図１１Ｂに示されるアーキテクチャを使用して、ＤＭＡエンジン３１０は、同じメモリタイル内のメモリバンク０～１５からの読取りを開始し、左及び／又は右に隣接するメモリタイルのメモリバンク０～１５に読取りを向けることが可能である。

ＭＭ２Ｓチャネル０～５は、ＭＭ２Ｓチャネル０～５のそれぞれ１つに結合されたメモリバンクの読取りを開始することが可能である。ＭＭ２Ｓチャネルを使用してメモリバンクから読取されたデータは、メモリマップドデータとして読取られ、それぞれのＭＭ２Ｓチャネルによってメモリマップドデータからストリームデータに変換され、ストリームデータとして送出される。一態様では、ＭＭ２Ｓチャネル０～５の動作は、バッファ記述子を生成し、ＭＭ２Ｓチャネル０～５によってアクセス可能なバッファ記述子レジスタファイル（図示せず）に記憶することによって制御することができる。例えば、ＤＭＡエンジン３１０は、ＭＭ２Ｓチャネル０～５及びＳ２ＭＭチャネル０～５を含むＤＭＡチャネルの全てにわたって共有され得る４８個のバッファ記述子をサポートすることが可能である。

一態様では、各ＭＭ２Ｓチャネルは、メモリバンクにアクセスするための３２ビットストリームインターフェースと１２８ビットメモリマップドインターフェースとを含む。ＭＭ２Ｓチャネル０～５の各々は、アドレス生成、４０テンソルアドレス生成のサポート、データストリームへの０パディングの挿入、及び増分アドレスオフセットバッファ記述子コールを記憶する能力などの機能をサポートする。隣接するメモリタイルのメモリバンクへのアクセスをサポートするために、ＭＭ２Ｓチャネル０～３は、隣接する左及び／又は右のメモリタイル内のロックにアクセスすることが可能である。ＭＭ２Ｓチャネル０～５の各々は、タスクキュー及びタスク完了トークン、タスク反復カウント、並びにデータ圧縮を更にサポートすることができる。

ＭＭインターフェース１１１０は、調停回路０～１５に結合された読取りポートを含み、したがって、メモリバンク０～１５のうちの任意の１つ以上から読取りを行うことが可能である。ＭＭインターフェース１１１０は、ＭＭスイッチ３０８に更に接続され、それによって、ＭＭスイッチ３０８に接続された任意のマスタ回路が、ＭＭインターフェース１１１０と同じメモリタイル２０４内に配設されたメモリバンク０～１５から読取りを行うことを可能にする。ＭＭインターフェース１１１０を介して、マスタは、メモリバンク０～１５を初期化し得る。

図１１Ｃは、メモリタイル２０４の別の例示的な実装形態を例解する。図１１Ｃの例は、メモリタイル２０４のための例示的な書込みチャネル（例えば、Ｓ２ＭＭチャネル）を例解する。図１１Ｂの例では、メモリタイル２０４の特定の構成要素は、読取りチャネルの動作をより良く示すために省略されている。

Ｓ２ＭＭチャネル０～３は、スイッチング回路機構１１１６を介して調停回路０～１５に接続され、したがって、メモリバンク０～１５のうちの任意の１つ以上にデータを書込むことが可能である。同様に、スイッチング回路機構１１１６を介して、Ｓ２ＭＭチャネル０～３は、図１１Ｃの例の左及び右に隣接するメモリタイル内に配設されたメモリバンクのための調停回路０～１５に接続される。したがって、Ｓ２ＭＭチャネル０～３は、図１１Ｃの例の左及び右に隣接するメモリタイルのメモリバンク０～１５のいずれか１つ以上にデータを書込むことが可能である。Ｓ２ＭＭチャネル４～５は、同じメモリタイル内のスイッチング回路機構１１１６を介してメモリバンク０～１５のための調停回路に接続されており、同じメモリタイル内のメモリバンク０～１５にデータを書込むことしかできない。図１１Ｃに示されるアーキテクチャを使用して、ＤＭＡエンジン３１０は、同じメモリタイル内のメモリバンク０～１５にデータを書込み、左及び／又は右に隣接するメモリタイルのメモリバンク０～１５にデータを書込むことが可能である。

Ｓ２ＭＭチャネル０～５は、Ｓ２ＭＭチャネル０～５のそれぞれ１つに結合されたメモリバンクへの書込みを開始することが可能である。書込まれるべきデータは、ストリームスイッチ３０６を介してデータストリームとして受信され得る。書込まれるべきデータは、それぞれのＳ２ＭＭチャネルによってストリームデータからメモリマップドデータに変換され、適切なメモリバンクに書込まれる。任意の肯定応答がストリームデータとして送出されてもよい。一態様では、Ｓ２ＭＭチャネル０～５の動作は、図１１Ｂに関連して説明されるように、Ｓ２ＭＭチャネルによってアクセス可能であるバッファ記述子レジスタファイル（図示せず）中にバッファ記述子を生成し、記憶することによって制御され得る。

一態様では、各Ｓ２ＭＭチャネルは、メモリバンク０～１５にアクセスするための３２ビットストリームインターフェースと１２８ビットメモリマップドインターフェースとを含む。Ｓ２ＭＭチャネル０～５の各々は、アドレス生成、４０テンソルアドレス生成のサポート、及び増分アドレスオフセットバッファ記述子コールを記憶する能力などの機能をサポートする。隣接するメモリタイルのメモリバンクへのアクセスをサポートするために、Ｓ２ＭＭチャネル０～３は、左及び／又は右に隣接するメモリタイル内のロックにアクセスすることが可能である。ＭＭ２Ｓチャネル０～５の各々は、タスクキュー及びタスク完了トークン、タスク反復カウント、並びにデータ解凍を更にサポートすることができる。一態様では、Ｓ２ＭＭチャネル０～５はまた、アウトオブオーダパケット転送をサポートし得る。

図２Ｂの例と組み合わせて図１１Ａ～図１１Ｃの例示的な回路アーキテクチャを参照すると、複合メモリは、１つ以上のメモリタイル２０４－１、２０４－２、２０４－３、２０４－４、及び／又は２０４－５から形成され得る。すなわち、図２Ｂの行内の各メモリタイル２０４のＤＭＡエンジンは、そのメモリタイル内のＲＡＭと、隣接する左及び／又は隣接する右のメモリタイルのＲＡＭとにアクセスし得るので、例えば、２つ又は３つのメモリタイルから形成されるより大きいメモリが形成され得る。複合メモリは、ＤＰＥアレイ１０２のストリームスイッチを介して特定のＤＰＥ２０２によってアクセスされてもよい。

メモリタイルが同じ行に整列されず、同じ列に整列される例示的な実装形態では、左及び右に隣接するメモリタイルのＲＡＭにアクセスすることに関連して本明細書で説明するＤＭＡエンジン機能は、上及び下に隣接するメモリタイルのために実装され得ることを理解されたい。すなわち、ＤＭＡエンジンは、行ではなく列に複合メモリを形成することができる。

図１２Ａ及び図１２Ｂは、複数のアクセラレータのために物理メモリを分離するための例示的な回路アーキテクチャを例解する。ＩＣ１００は、２つ以上の異なるアクセラレータを同時に含むことが可能である。各アクセラレータは、本明細書で説明される種々のシステムのうちの１つ以上において実装され得る。例えば、アクセラレータは、ＤＰＥアレイ１０２の１つ以上のタイルとして、ＰＬ１０４内に実装された回路として、ハードワイヤード回路ブロック１１２などとして、実装されてもよい。アクセラレータは、例えば、ビデオ復号、誤り訂正、暗号化／復号などの機能を実行することができる。ＩＣ１００に実装されるようなアーキテクチャ１２００は、ＩＣ１００内で同時に動作するアクセラレータのための分離を提供することが可能である。アーキテクチャ１２００は、第１のアクセラレータが、ＩＣ１００内で第１のアクセラレータと同時に実行される第２の異なるアクセラレータに割り振られたメモリにアクセスすることを防止することが可能である。

図１２Ａの例では、アーキテクチャ１２００は、アクセラレータ１２０４及びアクセラレータ１２０６を含む。アクセラレータ１２０４は、ＩＣ１００内の、１つ以上のＤＰＥタイル２０２及び／又は０、１つ以上のメモリタイル２０４を用いて、ＤＰＥアレイ１０２内に、ＰＬ１０４内に、又は強化された回路ブロック１１２（例えば、ＡＳＩＣ）として、実装されてもよい。同様に、アクセラレータ１２０６は、ＩＣ１００内の、１つ以上のＤＰＥタイル２０２及び／又は０、１つ以上のメモリタイル２０４を用いて、ＤＰＥアレイ１０２内に、ＰＬ１０４内に、又は強化された回路ブロック１１２（例えば、ＡＳＩＣ）として、実装されてもよい。

アクセラレータ１２０４は、ＩＣ１００内のアクセラレータ１２０６内で同時に動作している。２つのアクセラレータが同時に動作するものとして示されているが、他の例示的な実装形態では、３つ以上のアクセラレータがＩＣ１００内で同時に動作してもよいことを理解されたい。アクセラレータ１２０４は、物理メモリ保護（physical memory protection、ＰＭＰ）回路１２０８に結合される。アクセラレータ１２０６は、ＰＭＰ１２１０に結合される。図１２Ａの例では、ＰＭＰ回路１２０８及び１２１０の各々は、ＮｏＣ１０８に接続される。ＮｏＣ１０８は、任意選択のメモリ保護回路（memory protection circuit、ＭＰＣ）１２１２に接続される。

一態様では、メモリ１２１４は、外部メモリ、例えば、ＤＤＲ又はＩＣ１００の外部の他のＲＡＭであり得る。別の例では、メモリ１２１４は、ＩＣ１００の外部にあるか又はＩＣ１００の一部として実装される高帯域幅メモリ（High Bandwidth Memory、ＨＢＭ）であってもよい。ＩＣ１００に含まれるとき、メモリ１２１４は、アクセラレータ１２０４、１２０６と同じダイ又は異なるＩＣ１００のダイ上に実装され得る。ＩＣ１００は、メモリコントローラ（図示せず）を用いてメモリ１２１４にアクセスしてもよい。別の態様では、メモリ１２１４は、ＩＣ１００の内部メモリであり得る。いずれにしても、メモリ１２１４は、アクセラレータ１２０４に割り振られたメモリ領域１２１６と、アクセラレータ１２０６に割り振られたメモリ領域１２１８とを含む。

アクセラレータ１２０４及び１２０６は、２つのアクセラレータが互いに独立して動作し、データを共有しないという点で、ＩＣ１００内で分離され得るが、アクセラレータ１２０４及び１２０６がメモリ１２１４にアクセスする場合、分離を維持することはより困難になる。アクセラレータ１２０４がメモリ領域１２１８にアクセスすることを許可されるか、又はアクセラレータ１２０６がメモリ領域１２１６にアクセスすることを許可される場合、アクセラレータ１２０４、１２０６の一方又は両方に障害が発生する可能性がある。障害はまた、ＩＣ１００のセキュリティ及び動作性を全体として危うくする可能性がある。

いくつかの実装形態では、メモリ保護は、集中型手法を使用して実装される。集中型手法では、ＭＰＣはトランザクションの宛先において実装される。例えば、ＭＰＣは、外部メモリにアクセスするメモリコントローラにおいて若しくはその中で、又は内部のときにアクセスされているメモリにおいて実装され得る。ＭＰＣは、許可されないメモリに向けられた読取りトランザクション及び／又は書込みトランザクションを破棄する。集中型の例では、ＰＭＰ回路１２０８、１２１０は含まれず、メモリ保護は、トランザクションの宛先（例えば、メモリ）に配設されたＭＰＣを介してのみ実装される。

例解の目的で、アクセラレータ１２０４からのトランザクションは、アクセラレータ１２０４に割り振られたメモリの領域、例えばメモリ領域１２１６にアクセスすることのみが許可される。同様に、アクセラレータ１２０６からのトランザクションは、アクセラレータ１２０６に割り振られたメモリの領域、例えばメモリ領域１２１６にアクセスすることのみが許可される。ＭＰＣ１２１２は、ターゲットメモリ領域に対する適切な識別子を有するトランザクションを通過させることのみによって、これらの限定を実施することが可能である。

例えば、各マスタは、メモリ１２１４へのトランザクションを開始するとき、トランザクション内にセキュアマスタ識別子（secure master identifier、ＳＭＩＤ）を含めることが可能である。ＳＭＩＤは、トランザクションを発出するマスタを一意に識別する。図１２Ａの例では、アクセラレータ１２０４及び１２０６の各々がマスタである。アクセラレータ１２０４は、第１の一意のＳＭＩＤを割り当てられてもよく、アクセラレータ１２０６は、第２の一意のＳＭＩＤ（例えば、第１の一意のＳＭＩＤとは異なる）を割り当てられてもよい。アクセラレータ１２０４又は１２０６からの各トランザクションは、マスタのＳＭＩＤ、実行される動作（読取り又は書込み）、及びアクセスされるメモリアドレスを含む。いくつかの態様では、各アクセラレータは、複数のＳＭＩＤを割り当てられ得る。更に、所与のアクセラレータに割り当てられたＳＭＩＤは、任意の他のアクセラレータと共有されず又は共通ではない。

ＭＰＣ１２１２は、それに含まれるメモリにデータ構造を記憶することが可能である。データ構造は、各マスタ（ＳＭＩＤ）がアクセスすることを許可されるメモリ１２１４のＳＭＩＤ及びメモリ範囲のリストを指定するテーブルであり得る。ＭＰＣ１２１２は、トランザクションを受信し、そこからＳＭＩＤを抽出し、そこに記憶されたテーブル内で一致するＳＭＩＤを見つけることが可能である。ＭＰＣ１２１２は更に、トランザクションのアドレスをテーブル内の許容アドレスの範囲と比較して、トランザクションを発出したマスタがトランザクション内で指定されたアドレスにアクセスすることを許可されることを確実にする。

マスタがトランザクション内で指定されたアドレスにアクセスすることを許可されていると決定したことに応答して、ＭＰＣ１２１２はトランザクションを許可する。マスタがトランザクション内で指定されたアドレスにアクセスすることを許可されていないと決定したことに応答して、ＭＰＣ１２１２はトランザクションを破棄する。上述したように、集中物理メモリ保護の場合、ＭＰＣ１２１２が使用され、ＰＭＰ回路１２０８及び１２１０は省略される。

ＰＭＰ回路なしでＭＰＣ１２１２などの回路を単独で使用して実装される集中メモリ保護は、いくつかの異なる問題を抱えている。１つの問題は、ＭＰＣ１２１２内のテーブルに記憶され得るエントリの数である。テーブルはサイズが限定されているが、メモリ１２１４へのアクセスが許可されたＩＣ１００内の各マスタ（及び／又はマスタのＳＭＩＤ）を収容しなければならない。しばしば、ＭＰＣ１２１２内でそのようなテーブルを実装するために利用可能なメモリの量は限定され、それによって、テーブルに含まれ得るエントリの数も限定される。

別の問題は、トランザクションがＭＰＣ１２１２によって拒否されたときに、トランザクションが既にＩＣ１００を通る種々の経路を横断しており、帯域幅を消費していることである。図１２Ａの例では、トランザクションは既にＮｏＣ１０８を横断している。アクセラレータが「悪いアクタ」である場合、アクセラレータは、ＭＰＣ１２１２によって拒否されるトランザクションを意図的に発行し、それによって、ＮｏＣ１０８を無効なトランザクションでフラッディングすることができる。これは、１つのアクセラレータが、さもなければ異なるアクセラレータに利用可能であるＮｏＣ１０８などのリソース上の帯域幅を消費することによって、別のアクセラレータ及び／又はＩＣ１００の性能を低下させ得ることを意味する。

本開示内で説明される本発明の構成によれば、ＰＭＰ回路１２０８、１２１０などの１つ以上のＰＭＰ回路が含まれ得る。ＰＭＰ回路１２０８、１２１０は、トランザクションの宛先ではなくトランザクションのソースの近くに分散され実装されてもよい。例えば、ＰＭＰ回路１２０８、１２１０が、それらのそれぞれのトランザクションソースの所定の配線距離内でＩＣ１００内に実装され得るという点で、ＰＭＰ回路１２０８、１２１０は、トランザクションのソース（例えば、それぞれアクセラレータ１２０４、１２０６）に対してローカルである。ＰＭＰ回路１２０８、１２１０は、トランザクションがＩＣ１００の信号パス上で帯域幅を消費する前に、特定の状況下でトランザクションを破棄することが可能である。図１２Ａの例を参照すると、ＰＭＰ回路１２０８は、アクセラレータ１２０４からの無効なトランザクションを、そのようなトランザクションがＮｏＣ１０８に入る又は横断する前に破棄することが可能である。同様に、ＰＭＰ１２１０は、アクセラレータ１２０６からの無効なトランザクションを、そのようなトランザクションがＮｏＣ１０８に入る前に破棄することが可能である。

例示的な実装形態では、ＰＭＰ回路は、ＳｏＣインターフェース２０６のインターフェースタイル２０８内に実装され得る。より具体的には、インターフェースタイル２０８の各ＤＭＡエンジン７１２は、ＰＭＰ回路を含むことができる。インターフェースタイル２０８にＰＭＰ回路を含めることによって、ＤＰＥアレイ１０２から発出される無効なトランザクションをソースで停止することができる。更に、分散型ＰＭＰ回路は、並列に同時に動作することが可能である。

アクセラレータ１２０４及び１２０６がＤＰＥアレイ１０２に実装される例示的な実装形態では、ＳＭＩＤは複数のビットから形成されてもよい。一態様では、ＳＭＩＤの最上位ビット（most significant bit、ＭＳＢ）は、ＤＰＥＧＣＳレジスタ７３８から取得され得る（例えば、本明細書で説明するセキュリティビット）。各ＳＭＩＤは８ビットであってもよく、ＤＰＥＧＣＳレジスタ７３８はＳＭＩＤの４個のＭＳＢを提供してもよい。ＤＰＥアレイ１０２内に実装された任意のアクセラレータは、ＤＰＥアレイ１０２内に実装された任意の他のアクセラレータとのＳＭＩＤのＭＳＢとして共通のビットを有する。最下位ビット、例えば、４個のＬＳＢは、トランザクションのためにＤＭＡエンジン７１２によって受信されたバッファ記述子から取得され得る。したがって、ＤＰＥアレイ１０２から発出される各トランザクションのために、ＤＭＡエンジン７１２は、ＤＰＥＧＣＳレジスタ７３８からの４個のＭＳＢと、トランザクションのためにバッファ記述子から得られた４個のＬＳＢとを連結することによってＳＭＩＤを生成することが可能である。

各ＰＭＰ回路は、許可されるＳＭＩＤを指定するデータ構造と、指定されたＳＭＩＤを有するトランザクションがアクセスすることを許可されるメモリ１２１４のアドレスの対応する範囲と、を記憶するように構成されたメモリを含むことができる。例示的な一実装形態では、各ＰＭＰ回路は、関連するＳＭＩＤを有するトランザクションによってアクセスされ得るメモリ１２１４内に、許容可能なＳＭＩＤ及び関連するアドレス又はアドレスの範囲のテーブルを記憶する。

例えば、ＰＭＰ回路１２０８は、アクセラレータ１２０４によって使用されるＳＭＩＤと、アクセラレータ１２０４に割り振られるメモリ１２１４内のアドレス又はアドレスの範囲とを含むテーブルを含み得る。同様に、ＰＭＰ回路１２１０は、アクセラレータ１２０６によって使用されるＳＭＩＤと、アクセラレータ１２０６に割り振られるメモリ１２１４内のアドレス又はアドレスの範囲とを含むテーブルを含み得る。トランザクション発出ポイント又はその近くの複数の異なる回路の間で保護及びテーブルを分散させることによって、各それぞれのＰＭＰ回路１２０８、１２１０に含まれるテーブルは、集中保護手法を使用して宛先において（例えば、ＭＰＣ１２１２において）実装されるときよりも小さくなり得る。例えば、アクセラレータがＤＰＥアレイ１０２の特定のタイルに割り振られ、特定のインターフェースタイル２０８に割り当てられると、ＰＭＰ回路１２０８に記憶されたテーブルは、アクセラレータ１２０４のデータを含むだけでよく、アクセラレータ１２０６に対応するデータは含む必要はない。同様に、ＰＭＰ回路１２１０に記憶されたテーブルは、アクセラレータ１２０６のデータを含むだけでよく、アクセラレータ１２０４に対応するデータを含む必要はない。

一例として、各ＰＭＰ回路に記憶されるテーブルは、複数のエントリを含むことができる。各エントリは、ＳＭＩＤと、範囲の開始物理アドレス（ｒａｎｇｅ＿ｓｔａｒｔ）と、範囲内のバイト数（ｒａｎｇｅ＿ｌｅｎｇｔｈ）と、範囲が読取り及び／又は書込みされ得るかどうか（ａｃｃｅｓｓ＿ｔｙｐｅｓ）とを含み得る。

別の例示的な実装形態では、各ＰＭＰ回路によって記憶されるデータ構造は、メモリ１２１４をカバーするビットマップであり得る。例えば、ビットマップ中の各ビットは、メモリ１２１４の特定のページを表し、そのページがＰＭＰ回路によって処理されるアクセラレータによってアクセス可能であるかどうかを示すことができる。メモリ１２１４のアドレス範囲を示すのではなく、ビットマップを使用して、所与のＤＰＥタイル２０２又はアクセラレータ（ＳＭＩＤに基づく）がメモリ１２１４のどのページにアクセス可能であるかをチェックすることが可能である。

ＰＭＰ回路のデータ構造（例えば、テーブル又はビットマップ）は、仮想化がホストコンピュータで使用される場合、ホストコンピュータのオペレーティングシステム又はゲストオペレーティングシステムによって管理され得る。有効な物理アドレス範囲は、ＭＭスイッチを介してオペレーティングシステム又はゲストオペレーティングシステムによって効率的にプログラムすることができる。例えば、ＭＭスイッチを使用して、ＰＭＰ回路のデータ構造は、異なるアクセラレータが経時的にＩＣ１００のシステムにおいて実装されるにつれて更新され得る。

各ＤＭＡエンジン７１２はＰＭＰ回路を含み得るので、ＰＭＰ回路は、仮想アドレスではなくメモリ１２１４の物理アドレスを利用する。メモリ１２１４の物理アドレスは、例えば、各それぞれのアクセラレータ１２０４、１２０６によって知られ得る。トランザクションの有効性をチェックする目的で仮想アドレスの代わりに物理アドレスを使用することによって、アドレス変換を実行する必要がない。説明されたアーキテクチャの分散型の性質は、データ構造サイズ限定に起因してＩＣ１００上で同時に実行され得るアクセラレータの数に関する限定を効果的に除去する。分散型アーキテクチャはまた、アクセラレータごとに増加した数の物理アドレス範囲を提供することによって、アクセラレータにより大きな柔軟性を提供する。

アクセラレータが、説明したＳＭＩＤ生成技法を使用してＤＰＥアレイ１０２内に実装される場合、ＰＭＰ回路は、ＤＰＥタイル２０２及び／又はメモリタイル２０４がアクセスすることが可能であるメモリ１２１４の特定のアドレスを調節することが可能である。各ＰＭＰ回路は、所与のトランザクションについてのＳＭＩＤ及びターゲットメモリアドレスを、そこに記憶された許容可能なＳＭＩＤ及び許容可能なメモリアドレスのリストと比較することができる。トランザクションのＳＭＩＤが許容可能なＳＭＩＤのリスト上にあり、トランザクションによってアクセスされるメモリアドレスがトランザクションのＳＭＩＤに対して許可されていると決定したことに応答して、ＰＭＰ回路はトランザクションが通過することを許可する。トランザクションは有効であると決定される。トランザクションのＳＭＩＤが許容可能なＳＭＩＤと一致しないか、又はトランザクションによってアクセスされるアドレスが許可されているアドレスと一致しない場合、ＰＭＰ回路はトランザクションを無効として破棄する。

２つのアクセラレータが同時に動作するものとして示されているが、他の例では、３つ以上のアクセラレータがＩＣ１００内で同時に動作してもよいことを理解されたい。各アクセラレータにＰＭＰ回路を割り振ることができる。一方、各ＰＭＰ回路は、１つ以上のアクセラレータからのトランザクションを処理することができる。

図１２Ｂは、ＰＭＰ回路１２０８及び／又は１２１０などのＰＭＰ回路の例示的な実装形態を例解する。図１２Ｂの例では、ＰＭＰ回路１２０８、１２１０はチェック回路１２２０を含む。図１２Ｂの例では、チェック回路１２２０は、ＤＭＡエンジンによって受信されたバッファ記述子からデータを受信する。図示されるように、チェック回路１２２０は、ＳＭＩＤ、チェックされるトランザクションの開始物理アドレス、ＤＭＡ転送の長さ（例えば、トランザクションによって転送されるデータの量）、及びトランザクションが読取りであるか書込みであるかを受信する。

チェック回路は、データ構造１２２２を記憶するメモリに結合され得る。一態様では、データ構造１２２２は、図１２Ａに関連して説明されるようなテーブルである。チェック回路１２２０は、ＳＭＩＤを使用して配設されたエントリ、要求されているアクセスのタイプ（例えば、読取り又は書込み）、アクセスのための開始物理アドレス、及びトランザクションの長さに基づいて、データ構造１２２２にインデックスを付け、メモリ１２１４を含むＤＭＡ転送の各バイトが許可されるかどうかを計算することが可能である。メモリ１２１４との間で転送される各バイトは、ＳＭＩＤを使用して配設され、実行されるトランザクションのタイプ（読取り又は書込み）に対して許可されたエントリ内の許可範囲内になければならない。所与のトランザクションが有効である、例えば、各バイトが有効であるという決定に応答して、チェック回路１２２０は、有効なトランザクションを示す有効アドレス信号（例えば、論理ハイ）をアサートすることが可能である。トランザクションは、有効アドレスを示す有効アドレス信号に応答して有効として通過することが許可される。所与のトランザクションが無効であるという決定に応答して、チェック回路１２２０は、トランザクションが無効であることを示す有効アドレス信号をデアサートすることが可能である。トランザクションは破棄されてもよい。

データ構造１２２２が図１２Ａに関連して説明されるようなビットマップである場合、データ構造１２２２は、読取りトランザクション及び書込みトランザクションに対応する別個のビットマップを含むことができる。第１のビットマップは書込みトランザクションに使用されてもよく、第２のビットマップは読取りトランザクションに使用されてもよい。一態様では、各ビットマップは、チェック回路１２２０に結合された異なる内部メモリ、例えば、ＳＲＡＭに記憶され得る。

チェック回路１２２０は、各トランザクションが、ＤＭＡ転送に必要なメモリ１２１４からの各ページにアクセスすることを許可されるかどうかを決定することが可能である。更に、チェック回路１２２０は、ＤＭＡ転送のために必要とされる各ページが、指定されたトランザクションタイプのためにアクセスされ得ることを決定する。チェック回路１２２０は、ＤＭＡ転送に含まれるメモリ１２１４の各ページを決定し、アプリケーション（発出元マスタ）が所与のトランザクションタイプでそのようなページにアクセスすることを許可されていることを確認することが可能である。所与のトランザクションが有効であるという決定に応答して、チェック回路１２２０は、有効なトランザクションを示す有効アドレス信号をアサートすることが可能である。トランザクションは、有効アドレスを示す有効アドレス信号に応答して有効として通過することが許可される。所与のトランザクションが無効であるという決定に応答して、チェック回路１２２０は、トランザクションが無効であることを示す有効アドレス信号をデアサートすることが可能である。トランザクションは破棄されてもよい。

アクセラレータ１２０４、１２０６の例示的な実装形態は、ＤＰＥアレイ１０２に関連して説明されるが、他の例示的な実装形態では、アクセラレータは、ＩＣ１００の異なるシステム及び／又はシステムの組み合わせで実装されてもよい。したがって、ＰＭＰ回路は、トランザクションソースに対してローカルなＩＣ１００の種々の場所において分散された様式で実装され得る。例えば、ＰＭＰ回路は、ＮｏＣ１０８のＮＭＵ４０２において実装され得る。ＮＭＵ４０２は、図４に関連して説明される。各ＮＭＵ４０２は、１つのＰＭＰ回路を含んでもよい。ＮＭＵ４０２にＰＭＰ回路を含めることによって、宛先ポイントではなく発出ポイントにローカルなトランザクションの有効性をチェックすることも可能になり、それによって、アクセラレータがＩＣ１００（例えば、ＮｏＣ１０８）の経路を無効なトランザクションでフラッディングする状況が回避される。そのようなトランザクションは、トランザクションがＮｏＣ１０８を横断する前に破棄され得る。そのようなＰＭＰ回路実装形態は、ＤＰＥアレイ１０２、ＰＬ１０４において、及び／又はハードワイヤード回路ブロック１１２として実装されたアクセラレータと組み合わせて使用され得る。

図１２の例では、ＭＰＣ１２１２が任意選択で含まれ得る。例えば、ＰＭＰ回路がＩＣ１００内の各マスタのために実装され得ない場合、ＭＰＣ１２１２は、メモリ１２１４を保護するために含まれ得る。各アクセラレータがＰＭＰ回路に割り振られるように十分なＰＭＰ回路がＩＣ１００内に実装される他の例示的な実装形態では、ＭＰＣ１２１２は省略され得る。

図１２に関連して説明されるようなＰＭＰ回路は、本明細書で説明する種々の回路のいずれかの中に、トランザクションの発出ポイント又はその近くに組み込まれて、そこを通過するそのようなトランザクションの有効性をチェックすることができる。このような回路は、例えば、インターフェース回路であろうとＤＭＡエンジンであろうと、ＰＭＰ回路から出力される有効アドレスインジケータ信号の状態に基づいて、受信されたトランザクションを渡す又はドロップするように構成されてもよい。

ＰＭＰ回路を含むことは、メモリ１２１４又はＲＡＭなどのメモリがアクセラレータによって不適切にアクセスされることから保護するだけでなく、ＩＣ１００内の他のタイプのメモリを不適切なアクセスから保護する。例えば、ＩＣ１００の利用可能なメモリは、内部メモリ（ＲＡＭ）、構成レジスタ及び／又は制御レジスタ、ＰＳ１０６のオンチップメモリ、ＰＭＣ１１０のオンチップメモリ、及び／又は外部メモリを含み得る。上述のメモリの各々は、ＩＣ１００のための統一アドレス空間に準拠する。ＰＭＰ回路はまた、説明されるようにトランザクションの有効性をチェックすることによって、アクセラレータが、ＲＡＭ又はアプリケーションメモリ以外の説明した異なるタイプのメモリのいずれかに不適切にアクセスすることを防止し、それによってＩＣ１００を更に保護する。

図１３Ａ及び図１３Ｂは、仮想アドレス変換を実行するための例示的な回路アーキテクチャを例解する。図１３Ａの例では、アーキテクチャ１３００は、アクセラレータ１３０４及びアクセラレータ１３０６を含む。アクセラレータ１３０４及び１３０６は、ＩＣ１００において同時に動作してもよい。アクセラレータ１３０４、１３０６は、アクセラレータ１３０４、１３０６が本明細書で説明されるＩＣ１００の種々のシステムのいずれかにおいて実装され得るという点で、主に図１２に関連して説明されるように実装され得る。図１３の例では、アクセラレータ１３０４、１３０６は、各々が物理アドレスではなく仮想アドレスを利用するという点で仮想アクセラレータである。

アクセラレータ１３０４は、メモリ管理ユニット（memory management unit、ＭＭＵ）１３０８に結合される。アクセラレータ１３０６は、ＭＭＵ１３１０に結合される。図１３Ａの例では、ＭＭＵ１３０８、１３１０の各々は、ＮｏＣ１０８に接続される。ＮｏＣ１０８は、任意選択のＭＰＣ１２１２に接続される。メモリ１２１４は、アクセラレータ１３０４に割り振られたメモリ領域１３１６と、アクセラレータ１３０６に割り振られたメモリ領域１３１８とを含む。

図１３Ａは、集中型ＭＭＵを使用するのではなく、ＭＭＵ機能が複数の異なるＭＭＵ回路に分散又は非集中化される例示的な実装形態を例解する。従来のシステムでは、単一の集中型ＭＭＵがプロセッサシステムの一部として実装されて、ＩＣ全体に役立つ。ＭＭＵは、仮想メモリアドレスを物理メモリアドレスに変換する要求（アドレス変換要求）に補助を提供する。図１３Ａの例では、アクセラレータ１３０４及び１３０６の各々がメモリ１２１４のそれぞれの割り振られた領域１３１６、１３１８にアクセスするために、各アプリケーションは、まず、仮想アドレスの物理アドレスへの変換を要求しなければならない。ＩＣ内のアクセラレータの数が増加するにつれて、集中型ＭＭＵへのアドレス変換要求の数も増加する。したがって、多くの異なる回路がアドレス変換機能を必要とする場合、集中型ＭＭＵにアクセスすることは、各トランザクションにレイテンシを追加し、ＩＣ内のデータスループットを限定するボトルネックを引き起こす可能性がある。

図１３Ａの例では、ＭＭＵは、ＳｏＣインターフェース２０６のインターフェースタイル２０８に追加され得る。インターフェースタイル２０８内の分散されたＭＭＵは、同時にかつ並列に動作することが可能である。ＩＣ１００内に複数の分散されたＭＭＵを含むことによって、いくつかの異なる利点が達成され得る。一態様では、集中型ＭＭＵにアクセスするレイテンシ及びデータスループットを限定するボトルネックが回避され得る。ＭＭＵが実装される各インターフェースタイル２０８は、仮想アドレスを物理アドレスに変換することが可能である。

別の態様では、集中型ＭＭＵは、ＩＣ１００内に実装された全てのアクセラレータによってアクセスされるデータセット全体をカバーしなければならない。その結果、集中型ＭＭＵは、全てのアクセラレータについてアドレス変換を実行するのに十分な大きさのデータ構造を記憶するためにサイズがより大きくなる。非集中型ＭＭＵは、各ＭＭＵが仮想アドレスの限られたセットを変換するだけでよいので、集中型ＭＭＵ実装に比べてサイズが小さくてよい。例えば、各ＭＭＵは、限られた数のアクセラレータ（例えば、ＩＣ１００中のアクセラレータのサブセット又は単一のアクセラレータ）について仮想アドレスを変換し得る。別の例では、各ＭＭＵは、特定のＭＭＵを使用するアクセラレータ又はアクセラレータのサブセットに補助を提供するアドレス変換に必要なデータセットのみを含み得る。例えば、インターフェースタイル２０８内に配設されたＭＭＵは、中にＭＭＵが配設された特定のインターフェースタイル２０８を使用するＤＰＥアレイ１０２のアクセラレータ又はアクセラレータのサブセットに補助を提供するアドレス変換に必要なデータセットを含むだけでよい。

別の態様では、特定のアクセラレータに割り振られた非集中型ＭＭＵを使用することは、各ＭＭＵが単一のページサイズ（例えば、それぞれのＭＭＵに割り振られたアクセラレータによってサポートされるページサイズ）を使用することを可能にし、それによって、ＭＭＵの複雑さ及びサイズを低減する。集中型ＭＭＵは、ＣＰＵによって要求される４ＫＢ、１６ＫＢなどの異なるページサイズをサポートしなければならない。非集中型ＭＭＵがより大きなページサイズをサポートする場合、ＭＭＵに記憶されるアドレス変換データ構造内のより少ないエントリが必要とされる。より小さいページサイズもサポートしなければならないＭＭＵと比較して、同じ量のメモリをカバーするのに必要なエントリはより少ない。この特徴は、分散されたＭＭＵのサイズを更に低減する。

図１３の例では、ＭＭＵ１３０８、１３１０は、ＭＭＵ１３０８、１３１０がそれらのそれぞれのトランザクションソースの所定のワイヤ距離内でＩＣ１００内に実装され得るという点で、それぞれアクセラレータ１３０４、１３０６に対してローカルであり得る。加えて、アドレス変換はトランザクション発出ポイント又はその付近で実行され得るので、ＮｏＣ１０８で使用されるアドレスは検証された物理アドレスである。更に、アドレス変換を必要とするアクセラレータと、ＰＳ１０６内に実装され得る集中型ＭＭＵとの間のデータパスを作成するために必要とされる追加の回路を、ＩＣ１００から省略することができる。

図１３Ｂは、ＭＭＵ１３０８などの非集中型ＭＭＵの例示的な実装形態を例解する。図１３Ｂの例示的なアーキテクチャはまた、ＩＣ１００内のＭＭＵ１３１０又は別の非集中型ＭＭＵを実装するために使用され得る。図１３Ｂの例では、ＭＭＵ１３０８は、変換回路１３２０とフィル回路１３２２とを含む。図１３Ｂの例では、変換回路１３２０は、ＤＭＡエンジン７１２などのＤＭＡエンジンによって受信されたバッファ記述子からデータを受信する。図示されるように、変換回路１３２０は、トランザクションの開始仮想アドレス、ＤＭＡ転送の長さ（例えば、トランザクションによって転送されるデータの量）、及びトランザクションが読取りであるか書込みであるかを受信する。データの受信に応答して、変換回路１３２０は、受信した仮想アドレスの物理アドレス変換を求める要求をフィル回路１３２２にサブミットする。

フィル回路１３２２は、変換を実行するために使用され得るルックアップテーブルなどの連想データ構造を含み得る。フィル回路１３２２は、変換回路１３２０から受信した要求に一致するエントリを求めて、フィル回路１３２２に含まれるデータ構造を検索する。例えば、フィル回路１３２２は、開始仮想アドレスに対応する仮想アドレスを求めて、フィル回路１３２２内のデータ構造を検索することができる。受信した仮想アドレスについて一致するエントリ（例えば、ヒット）を決定することに応答して、フィル回路１３２２は、受信した仮想アドレスにマッピングされた物理アドレスを変換回路１３２０に戻す。受信した仮想アドレスに一致するエントリをデータ構造が含まない（例えば、ミス）と決定したことに応答して、フィル回路１３２２は、フィル回路１３２２に含まれるデータ構造を更新するために、メモリ１２１４内のページテーブルから更なるデータを要求することが可能である。例えば、フィル回路１３２２は、メモリ１２１４からデータをフェッチしてフィル回路１３２２に含まれるデータ構造をリフレッシュするために物理アドレスを送信することができる。フィル回路１３２２は、受信した開始仮想アドレスに一致するエントリを求めて更新されたデータを検索し続け、更に、受信した仮想アドレスとの一致を見つけるためにメモリ１２１４からデータをフェッチし続けることが可能である。

変換回路１３２０は、仮想アドレスから変換された物理アドレスをフィル回路１３２２から受信することに応答して、物理アドレスを出力することが可能である。変換回路１３２０は、出力されている物理アドレスが有効（例えば、論理ハイ）であることを示す有効アドレス信号をアサートすることが更に可能である。

１つ以上の例示的な実装形態では、フィル回路１３２２は、データがページテーブルから取得される回数を限定し得る。ページテーブルからの列挙された数のデータ取り出しの後のミスに応答して、フィル回路１３２２は無効な物理アドレスを返すことができる。それに応答して、変換回路１３２０は、そこから出力されているアドレスが有効でないことを示す信号を出力することができる（例えば、有効アドレスインジケータをデアサートする、又は論理ローを出力する）。

図１３の例では、メモリ１２１４にアクセスするために受信された各トランザクションが、メモリの意図された領域にアクセスすることを許可されることをチェックするために、ＭＰＣ１２１２が依然として含まれ得る。別の例示的な実装形態では、非集中型ＭＭＵは、ＮｏＣ１０８に含まれ得る。例えば、図４に関連して説明されるようなＭＭＵ４０２は、ＭＭＵを含むように実装され得る。各ＮＭＵ４０２は、１つのＭＭＵを含むことができる。ＭＭＵ４０２にＭＭＵを含めることはまた、ＩＣ１００内のＭＭＵの非集中型実装をサポートする。更に、ＭＭＵがＮｏＣ１０８の境界に含まれる実装形態では、ＭＭＵは、ハードワイヤード回路ブロックとして実装される、及び／又はＰＬ１０４内に実装されるアクセラレータのために使用され得る。図１３に関連して説明されるような分散されたＭＭＵは、アドレス変換を必要とし得る、本明細書で説明される種々の回路のいずれかの中に組み込まれ得る。そのような回路は、例えば、インターフェース回路であろうとＤＭＡエンジンであろうと、本明細書で説明されるような分散されたＭＭＵを使用するように適合され得る。

図１４Ａ～図１４Ｃは、仮想化されたアクセラレータにセキュアなレジスタアクセスを提供するための例示的な回路アーキテクチャを例解する。図１４Ａの例は、インターフェースタイル２０８を含むＳｏＣインターフェース２０６を有するＤＰＥアレイ１０２の実装形態を例解する。ＤＰＥアレイ１０２はまた、ＤＰＥタイル２０２及び／又はメモリタイル２０４の任意の組み合わせを含み得るタイル１４０４を含む。ＳｏＣインターフェース２０６は、ＮＰＩ４１０を含むＮｏＣ１０８のＮｏＣインターフェース７２６に結合される。

図１４Ａの例では、各インターフェースタイル２０８は、セキュアアクセス回路１４０２を含む。一態様では、セキュアアクセス回路１４０２は、ＤＰＥＧＣＳレジスタ７３８内に配設され得るセキュアアクセスレジスタに書込まれる値に基づいてイネーブルにされ得る。値は、セキュリティビットのうちの１つ以上によって全体的に又は部分的に指定され得る。セキュアアクセスレジスタに記憶された値は、セキュアアクセス回路１４０２がＤＰＥアレイ１０２のセキュアなトランザクションを実装することをイネーブルにされているか否かを決定する。例えば、イネーブルにされると、各セキュアアクセス回路１４０２は、着信メモリマップド書込みトランザクションが特定のセキュリティ基準を満たすかどうかを決定することが可能である。イネーブルされていない場合、セキュアアクセス回路１４０２は、インターフェースタイル２０８に入るメモリマップド書込みトランザクションを基準についてチェックしない。セキュアアクセスレジスタに書込まれた値はまた、ＮＰＩ４１０内に配設された書込みイネーブルレジスタ１４０６への書込みを可能にし得る。

例示的な実装形態では、タイル１４０４の各列は、ＩＣ１００にハードワイヤードされた一意の列ＩＤを有する。例えば、一意の列ＩＤは、ｅヒューズを使用して、又は回路ノードをＶＣＣ若しくは接地に結合することによって指定され得る。タイル１４０４の各列の列ＩＤは、ＩＣ１００内のシリコンに実装されているので、列ＩＤを偽装又は変更することはできない。セキュアアクセスレジスタに書込まれた値に基づいてセキュアなトランザクションがイネーブルにされる場合、書込みイネーブルレジスタ１４０６は、ＰＣＩｅバス、ＰＳ１０６、又はＰＭＣ１１０などの通信バスを介して、ホストコンピュータ内で実行される特権ソフトウェアによって、タイル１４０４の１列以上の列へのセキュアアクセスを容易にするデータが書込まれ得る。

セキュアアクセス回路１４０２は、書込みイネーブルレジスタ１４０６に書込まれたデータとハードワイヤード列ＩＤとの比較を実行することが可能である。データがタイル１４０４の列の列ＩＤと一致すると決定したことに応答して、列のセキュアアクセス回路１４０２は、メモリマップドトランザクションがその列内のタイル１４０４に渡されることを許可する。データが列ＩＤと一致しないと決定したことに応答して、セキュアアクセス回路１４０２は、メモリマップドトランザクションが列内のタイル１４０４に渡されることを許可しない。

一態様では、セキュアアクセス回路１４０２は、インターフェースタイル２０８のブリッジ回路７１８内に実装され得る。別の態様では、セキュアアクセス回路１４０２は、それぞれのインターフェースタイル２０８内のＮｏＣ１０８とブリッジ回路７１８との間のデータパス内の別個の又は独立した回路ブロックとして実装され得る。

例解の目的で、第１のアクセラレータが列１、２、及び３内のＤＰＥアレイ１０２のタイル１４０４を使用して実装され、第２のアクセラレータが列４及び５内のタイル１４０４を使用して実装される例を考える。各アクセラレータは、ホストコンピュータ又はＰＳ１０６において実行される対応するプログラムコードによって制御され得る。例えば、第１のアクセラレータは、第１のプログラムコード（例えば、第１のアプリケーション）によって制御されてもよく、第２のアクセラレータは、第２のプログラムコード（例えば、第２のアプリケーション）によって制御されてもよい。セキュアなトランザクションがグローバルベースでＤＰＥアレイ１０２全体に対してイネーブルにされる場合、第１のアプリケーションと第２のアプリケーションの両方が、ＤＰＥアレイ１０２内のＭＭスイッチに取り付けられた制御レジスタ又はメモリに書込みを行ってもよい。これは、第１のアプリケーションが第２のアクセラレータに干渉する可能性があり、第２のアプリケーションが第１のアクセラレータに干渉する可能性があることを意味する。そのような実装形態は、例えば、セキュアアクセス回路１４０２を省略する。更に、書込みイネーブルレジスタ１４０６は、列に対応するデータの複数のビットを記憶するように構成されるのではなく、単一の書込みイネーブルビットのみを記憶し得る。そのような実装形態では、悪意のあるアプリケーションが、ＤＰＥアレイ１０２内の別のアクセラレータのレジスタ及び／又はメモリに書込む場合があり、それによってセキュリティ上の懸念が生じる。

図１４Ａの例では、セキュアなトランザクションは、ＤＰＥアレイ１０２について列ごとにイネーブルにされ、チェックされてもよい。これは、ＰＳ１０６などのプロセッサ及び／又はホストコンピュータ内で実行されるアプリケーションが、アプリケーションによって管理又は制御されないアクセラレータを実装するタイル１４０４にデータを書込むことを防止されることを意味する。プロセッサ内で実行されるアプリケーションは、ＤＰＥアレイ１０２のＭＭスイッチを介して、そのアプリケーションに属するタイル１４０４（例えば、アクセラレータ）のレジスタ及び／又はメモリに書込みを行うだけでよい。アプリケーションは、アクセラレータが列に従ってＤＰＥアレイ１０２内のタイル１４０４に分割され、割り当てられている限り、ＤＰＥアレイ１０２のＭＭスイッチを介して、異なるアプリケーションに属するタイル１４０４のレジスタ及び／又はメモリにアクセスすることができない。すなわち、タイル１４０４の列は、一度に１つのアクセラレータのみを実装するために使用され得る。

図１４Ｂは、図１４Ａのセキュアアクセス回路１４０２の例示的な実装形態を例解する。図１４Ｂの例では、セキュアアクセス回路１４０２は比較回路１４０８を含む。説明されるように、ホストコンピュータ、ＰＳ１０６、及び／又はＰＭＣ１１０で実行される特権ソフトウェアは、ＮＰＩ４１０内の書込みイネーブルレジスタ１４０６に書込みイネーブル列ＩＤを書込む。ＤＰＥアレイ１０２に向けられた書込みトランザクションの場合、ＮＰＩ４１０は、書込みイネーブルレジスタ１４０６からの書込みイネーブル列ＩＤをセキュアアクセス回路１４０２に提供する。書込みイネーブル列ＩＤは、トランザクションとともに、又はトランザクションの一部として提供され得る。比較回路１４０８は、ＮＰＩ４１０からの書込みイネーブル列ＩＤを、その列についてＩＣ１００にハードワイヤードされた列ＩＤと比較する。書込みイネーブル列ＩＤが列ＩＤと一致すると決定したことに応答して、比較回路１４０８は、書込みイネーブル信号（例えば、論理ハイ）をアサートする。書込みイネーブル信号は、メモリマップド書込みトランザクションからのデータがタイル１４０４の列の適切なメモリ及び／又は制御レジスタに書込まれ得るように、上記の列内のタイル１４０４の種々のメモリ及び／又は制御レジスタに提供される。書込みイネーブル列ＩＤが列ＩＤと一致しないと決定したことに応答して、比較回路１４０８は、書込みイネーブル信号をアサートしない（例えば、論理ローを生成する）。したがって、タイルの列へのメモリマップド書込みトランザクションは破棄される。

書込みイネーブルレジスタ１４０６に記憶された値は、インターフェースタイル２０８の各々のセキュアアクセス回路１４０２に提供され得るので、列１～５のうちの１つのタイル１４０４のみが一度に書込まれ得る。タイル１４０４の異なる列に書込むために、異なる列に対する異なる書込みイネーブル列ＩＤが書込みイネーブルレジスタ１４０６に書込まれなければならない。したがって、図１４Ｂの例では、タイル１４０４の１つの列のみが一度に構成され得る。別の態様では、トランザクションは、２つ以上又は全ての列に書込むことを試みるのではなく、適切な列にルーティングされてもよい。依然として、その列内のセキュアアクセス回路１４０２は、説明されるチェックを実行して、書込み動作を試みるエンティティがそのようにすることを認可又は許可されることを確実にすることが可能である。

図１４Ｃは、図１４Ａのセキュアアクセス回路１４０２の別の例示的な実装形態を例解する。図１４Ｃの例では、セキュアアクセス回路１４０２は、比較回路１４０８及びマスク適用回路１４１０を含む。図１４Ｃの例では、ホストコンピュータ、ＰＳ１０６、及び／又はＰＭＣ１１０内で実行される特権ソフトウェアが、書込みイネーブル列ＩＤマスク及び書込みイネーブル列ＩＤ値をＮＰＩ４１０内の書込みイネーブルレジスタ１４０６に書込む。ＤＰＥアレイ１０２に向けられた書込みトランザクションの場合、ＮＰＩ４１０は、書込みイネーブル列ＩＤマスクをマスク適用回路１４１０及び書込みイネーブル列ＩＤ値比較回路１４０８に提供する。一態様では、図１４Ｃの例では、書込みイネーブルレジスタ１４０６は、一方が書込みイネーブル列ＩＤマスクを記憶し、他方が書込みイネーブル列ＩＤ値を記憶する２つの別個のレジスタとして実装され得る。

マスク適用回路１４１０は、書込みイネーブル列ＩＤマスクをハードワイヤード列ＩＤに適用して、出力値を生成する。例示的な一実装形態では、書込みイネーブル列ＩＤマスクは、列の範囲を指定し得る。範囲は、範囲内のタイル１４０４の最初の列の列ＩＤと、範囲内のタイル１４０４の最後の列の列ＩＤとを指定することができる。比較回路１４０８は、マスク適用回路１４１０からの出力値と書込みイネーブル列ＩＤ値とを比較する。

書込みイネーブル列ＩＤ値がマスク適用回路１４１０からの出力値と一致すると決定したことに応答して、比較回路１４０８は、書込みイネーブル信号（例えば、論理ハイ）をアサートする。書込みイネーブル信号は、メモリマップド書込みトランザクションからのデータがタイル１４０４の列の適切なメモリ及び／又は制御レジスタに書込まれ得るように、上記の列内のタイル１４０４の種々のメモリ及び／又は制御レジスタに提供される。書込みイネーブル列ＩＤ値がマスク適用１４１０からの出力値と一致する場合、タイル１４０４の列は、書込みイネーブル列ＩＤマスクによって指定された列の範囲内にあると決定される。書込みイネーブル列ＩＤ値がマスク適用回路１４１０からの出力値と一致しないと決定したことに応答して、比較回路１４０８は、書込みイネーブル信号を生成しない（例えば、論理ローを生成する）。したがって、タイルの列へのメモリマップド書込みトランザクションは破棄される。

図１４Ｃの例は、タイル１４０４の１列以上の列、例えば、列の範囲が同時に書込まれることを可能にする。このアーキテクチャは、書込みイネーブルレジスタ１４０６に記憶された書込みイネーブル列ＩＤマスク及び書込みイネーブル列ＩＤ値に基づいて、タイル１４０４の１列以上の列、例えば、列の範囲が書込まれることを可能にする。タイル１４０４の１列以上の列の異なる範囲に書込むために、異なる書込みイネーブル列ＩＤマスク及び／又は書込みイネーブル列ＩＤ値が書込みイネーブルレジスタ１４０６に書込まれなければならない。

図１４の例は、ＤＰＥアレイ１０２に関連して説明される。１つ以上の他の例示的な実装形態では、図１４に関連して説明した回路アーキテクチャは、アクセラレータの特定の列又は特定の範囲の列のみへの限定又は制限されたアクセスが望まれるグリッド内にアクセラレータが配列される様々な他のアクセラレータアレイのいずれかとともに実装及び／又は使用され得る。

図１５は、ＩＣ１００の１つ以上のＤＭＡエンジンによって実装され得る例示的なパケット処理モードを例解する。図１５の例では、ＤＭＡエンジン３１０の例示的な実装形態が例解されている。図１５に示される例示的な回路アーキテクチャは、「アウトオブオーダ」パケット処理モード（out-of-order mode、ＯＯＯモード）を容易にするために、ＩＣ１００において実装される他のＤＭＡエンジンに組み込まれ得る。例解の目的で、図１５の例示的な回路アーキテクチャはまた、図１０のＤＭＡエンジン及び／又はＤＰＥタイル２０２のＤＭＡエンジン６１６内で使用されてもよく、又は組み込まれてもよい。

本明細書で説明する１つ以上の例示的な実装形態では、ＤＭＡエンジン３１０は、複数の異なるパケット処理モードのうちの１つを使用して動作するようにプログラムされ得る。パケット処理モードは、「インオーダ」パケット処理モード（in-order mode、ＩＯモード）及びＯＯＯモードを含み得る。図１５の例では、ＤＭＡエンジン３１０はデータパス回路機構１５０２を含む。この例では、データパス回路機構１５０２は、ストリームーメモリマップド（Ｓ２ＭＭ）チャネル１５０４を含む。Ｓ２ＭＭチャネル１５０４は、図１１に関連して説明されたＳ２ＭＭチャネルのうちの１つとして実装され得る。他の例示的な実装形態では、データパス回路機構１５０２は、ＤＭＡエンジンの特定の実装形態に応じて、他のＳ２ＭＭチャネル、ＭＭ２Ｓチャネル、及び／又はマスタメモリマップドインターフェースを含んでもよい。データパス回路機構１５０２は、メモリ１５１０に結合される。メモリ１５１０は、同じメモリタイル内のＲＡＭ３１２として、又はＤＭＡエンジン３１０とは異なるメモリタイル内に配設されたＲＡＭとして実装され得る。

この例では、ＤＭＡエンジン３１０はまた、バッファ記述子レジスタファイル１５０６及びバッファ記述子タスクキュー１５０８を含む。バッファ記述子レジスタファイル１５０６は、１つ以上のバッファ記述子を記憶するように構成されたメモリ、例えばバッファとして実装され得る。バッファ記述子タスクキュー１５０８は、バッファ記述子のリストを記憶するように構成されたメモリ、例えば、バッファとして実装され得る。バッファ記述子レジスタファイル１５０６内の各バッファ記述子は、読取られるか又は書込まれるデータの長さ、及びデータが書込まれるか又はデータが読取られるアドレスなどの１つ以上のパラメータを含む。したがって、図１５及びＳ２ＭＭチャネル１５０４のために、各バッファ記述子は、受信されたデータ、例えばパケットがどこに書込まれるべきかを指定する。バッファ記述子タスクキュー１５０８に記憶されたリストは、バッファ記述子レジスタファイル１５０６からのバッファ記述子が処理又は実行される順序を指定する。一態様では、ＩＯモードの一部として、バッファ記述子が実行される順序は、バッファ記述子タスクキュー１５０８に記憶されたリストに基づいて予め決定される。

この例では、タイル１５１２－１及び１５１２－２の各々がバス１５１４に接続されている。バス１５１４は、図示されたそれぞれのタイル１５１２のストリーミング相互接続によって実装又は形成され得る。例解の目的で、タイル１５１２はＤＰＥタイルであってもよい。各タイル１５１２内のＤＭＡエンジン（例えば、ＤＭＡエンジン６１６）は、ＤＭＡエンジン３１０にデータを送信しているメモリＭＭ２Ｓチャネルを含むことができる。すなわち、ＤＭＡエンジン３１０は、タイル１５１２－１及び１５１２－２の各々からデータを受信している。一例として、タイル１５１２－１及び１５１２－２の各々は、メモリ１５１０に書込まれるべきデータを送信していてもよい。

図１５の例では、タイル１５１２は、データをバス１５１４に書込む。ＩＯモードでは、データは、タイル１５１２－１及び１５１２－２から所定の既知の順序でＳ２ＭＭチャネル１５０４に到着する。すなわち、タイル１５１２－１及び１５１２－２の各々が所定のスケジュールに従ってデータをバス１５１４に書込む際に、データは決定論的な様式で到着する。したがって、データは、ＤＭＡエンジン３１０によって予想された既知の所定の順序でＳ２ＭＭチャネル１５０４に到着する。例示的な実装形態では、各受信されたパケットは、特定のバッファ記述子に基づいて処理され得る。バッファ記述子が実行される順序は、バッファ記述子タスクキュー１５０８に記憶された順序付きリストによって決定される。

例示的かつ非限定的な例として、バッファ記述子レジスタファイル１５０６は、バッファ記述子「ＢＤ１」及びバッファ記述子「ＢＤ２」を含み得る。ＢＤ１は、タイル１５１２－１から受信したデータを記憶するための命令（例えば、データの長さ又は量及び宛先アドレス）を指定する。ＢＤ２は、タイル１５１２－２からのデータを記憶するための命令を指定する。バッファ記述子タスクキュー１５０８は、バッファ記述子の順序を指定する。例えば、データがタイル１５１２から受信される所定の順序が、タイル１５１２－１からのパケット、続いてタイル１５１２－２からのパケットである場合、バッファ記述子タスクキュー１５０８に記憶されるリストは、「ＢＤ１、ＢＤ２」となる。パケットがタイル１５１２から受信される所定の順序が、タイル１５１２－２からのパケット、続いてタイル１５１２－１からのパケットである場合、バッファ記述子タスクキュー１５０８に記憶されるリストは、「ＢＤ２、ＢＤ１」となる。

ＯＯＯモードでは、タイル１５１２からのデータは、任意の又は未知の順序で到着する。ＯＯＯモードでは、タイル１５１２が所定の既知のスケジュールに従ってデータをバス１５１４上に配置するのではなく、各タイル１５１２がデータをバス１５１４上に配置しようと試みることができる。各タイル１５１２は、例えば、どのタイルが任意の所与の時間にデータをバス１５１４上に配置することを許可されるかを制御する調停回路を含む。したがって、タイル１５１２がデータをバス１５１４上に配置し、そのようなデータがＳ２ＭＭチャネル１５０４に到着する特定の順序は、非決定論的である。

本明細書で説明する本発明の構成によれば、ＯＯＯモードの一部として、バス１５１４を介してＤＭＡエンジン３１０に送信されるタイル１５１２からのパケットは、ヘッダを含むように生成される。ヘッダは、指定されたフィールドにバッファ記述子識別子を含む。バッファ記述子タスクキュー１５０８内で指定されたバッファ記述子実行の順序に依存するのではなく、Ｓ２ＭＭチャネル１５０４は、受信パケットのヘッダの指定フィールドからバッファ記述子識別子を抽出することが可能である。Ｓ２ＭＭチャネル１５０４は、バッファ記述子識別子を使用して、バッファ記述子レジスタファイル１５０６から実行されるバッファ記述子を決定する。例えば、バッファ記述子識別子は、「ＢＤ０」又は「ＢＤ１」などの特定のバッファ記述子を指定するか、又はバッファ記述子レジスタファイル１５０６から正しいバッファ記述子を検索するために使用され得るインデックスを指定することができる。次に、Ｓ２ＭＭチャネル１５０４は、パケット自体のヘッダからのバッファ記述子識別子によって指定されたバッファ記述子を実行することによって、受信パケットのペイロードを処理する。パケットを処理するために使用されるバッファ記述子識別子を各パケットのヘッダ内に含めることによって、ＤＭＡエンジン３１０は、非決定論的順序で受信されたパケットを処理することが可能である。

したがって、一態様では、ＯＯＯモードで動作しているとき、送信側ＤＭＡエンジン内（例えば、タイル１５１２内）に配設されたデータパス回路機構のメモリマップドーストリームチャネルは、ＤＭＡエンジン３１０に送信されるデータをパケットとしてフォーマットすることが可能である。パケット生成の一部として、メモリマップドーストリームチャネルは、パケットのペイロードとして送信されるデータを含み、パケットを処理する際に使用される特定のバッファ記述子を指定するバッファ記述子識別子を含むようにパケットのヘッダを作成する。参照されたバッファ記述子は、バッファ記述子レジスタファイル１５０６に記憶されている。

例示的な実装形態では、各異なるＳ２ＭＭチャネルは、ＩＯモード又はＯＯＯモードで動作するように独立して構成され得る。したがって、ＤＭＡエンジン３１０が複数のＳ２ＭＭチャネル１５０４を含む場合、各々は、ＩＯモード又はＯＯＯモードで動作するように独立して構成され得る。一態様では、各Ｓ２ＭＭチャネルは、それぞれのＳ２ＭＭチャネルのためのメモリタイルの制御レジスタに好適な構成データを書込むことによって、特定のパケット処理モードを使用するように構成され得る。構成データは、Ｓ２ＭＭチャネルごとに使用する特定のパケット処理モードを指定することができる。別の態様では、パケット処理モード間で切り替える能力は、Ｓ２ＭＭチャネルが動作中にＩＯモードを使用することとＯＯＯモードを使用することとの間で切り替え得るという点で動的であり得る。

例示的な実装形態では、Ｓ２ＭＭインターフェース１５０４は、バッファ記述子タスクキュー１５０８に記憶されたデータ、又はその欠如に基づいて、ＩＯモードとＯＯＯモードとの間で切り替えることができる。例えば、バッファ記述子タスクキュー１５０８に記憶されたタスクが開始バッファ記述子である場合、Ｓ２ＭＭインターフェース１５０４はＩＯモードを実装する。例えば、バッファ記述子タスクキュー１５０８に記憶されたタスクが開始バッファ記述子ではなく（例えば、バッファ記述子レジスタファイル１５０６に記憶されたバッファ記述子を指さず）、代わりにＯＯＯモードを示す場合、Ｓ２ＭＭインターフェース１５０４はＯＯＯモードを実装する。

１つ以上の他の例示的な実装形態では、ＯＯＯモードは、リピート機能の使用をサポートする。リピート機能は、所与のタイルからの複数のパケットの一部として受信された第１のパケットのバッファ記述子識別子によって指定される同じバッファ記述子を使用して処理され得るパケットのパケットカウント（例えば、整数値）を指定し得る。例えば、タイル１５１２－１は、Ｍ個のパケットを送信することができ、ここで、「Ｍ」は整数値である。第１のパケットの受信に応答して、ＤＭＡエンジン３１０は、受信したデータを処理するために実行される特定のバッファ記述子を決定する。更に、ＤＭＡエンジン３１０は、バッファ記述子識別子によって示されるバッファ記述子がＭ個のパケットを処理するために使用されるべきであることを決定する。すなわち、ＤＭＡエンジン３１０は、同じバッファ記述子を使用して、最初に受信されたパケット及び次のＭ－１個のパケットを処理する。ＤＭＡエンジン３１０は、同じバッファ記述子を使用してＭ個のパケットを処理することを単一のタスクとみなす。一態様では、Ｍの値は、第１のパケットのヘッダのフィールド内に指定され得る。別の態様では、Ｍの値は、バッファ記述子タスクキュー１５０８に記憶されたタスクによって指定され得る。

例解の目的で、Ｓ２ＭＭインターフェース１５０４がＮ個の異なるソース（例えば、タイル１５１２－１及び１５１２－２、ここでＮ＝２）からパケットを受信する例を考える。一態様では、Ｓ２ＭＭインターフェース１５０４は、バッファ記述子タスクキュー１５０８が未処理の（例えば、未完了の）タスクを含まない（例えば、空である）と決定したことに応答して、ＯＯＯモードを実装する。したがって、バッファ記述子レジスタファイル１５０６は、Ｎ個のバッファ記述子を記憶するように構成される（例えば、プログラムされる）。バッファ記述子レジスタファイル１５０６は、ソースごとに１つのバッファ記述子を記憶することができる。各バッファ記述子は、使用されるベースアドレス及びバッファ長を指定することができる。

一態様では、タスクは、バッファ記述子タスクキュー１５０８に記憶され得る。タスクは、Ｎ個のソースの各々から処理されるべきパケットの数を指定する。例えば、Ｎ個のソースの各々が「Ｍ」個のデータパケット（Ｍは１以上の整数値）を送信する場合、バッファ記述子タスクキュー１５０８に記憶されたタスクは、処理されるべきＮ×Ｍ個のパケットを指定する。これは、同じソースから送信された複数のパケットが同じバッファ記述子を使用して処理されることを可能にする。新しいバッファ記述子は、処理されるべきパケットごとにバッファ記述子レジスタファイル１５０６に記憶される必要がなく、これはＩＣ１００内のデータ転送効率を改善する。

上記とは非同期に、バッファ記述子が構成され、タイル１５１２－１及び１５１２－２の各それぞれのＭＭ２Ｓチャネルのバッファ記述子レジスタファイルに記憶される。更に、タイル１５１２－１及び１５１２－２の各それぞれのＭＭ２Ｓインターフェースのバッファ記述子タスクキューに、インオーダタスクが挿入される。タイル１５１２－１及び１５１２－２の各々は、データをバス１５１４に同時にプッシュすることができる。各ストリームスイッチ内に実装された調停ハードウェアは、調停が別のソースに許可される前に、１つのソースからの（例えば、ソースからの全ての「Ｍ」個のパケットの）マージポイントを過ぎた完全なデータ転送を可能にする。

パケットに応答して、Ｓ２ＭＭインターフェース１５０４は、パケットヘッダを読取り、バッファ記述子識別子を抽出する。Ｓ２ＭＭインターフェース１５０４は、バッファ記述子レジスタファイル１５０６から、バッファ記述子識別子によって指定されたバッファ記述子を取り出す。Ｓ２ＭＭインターフェース１５０４は、取り出されたバッファ記述子を実行して、受信されたパケットを処理する。パケットを処理する際に、Ｓ２ＭＭインターフェース１５０４は、パケットのヘッダをドロップ又は破棄し、パケットの残りの部分（例えば、ペイロード）を、バッファ記述子から決定された正しいアドレスに記憶する。パケットの長さは、ヘッダがドロップされると、バッファ記述子内のバッファ長に一致する。ワード中間バッファ上でＴＬＡＳＴを検出したこと、又はＴＬＡＳＴが最後のワードから欠落していることを検出したことに応答して、Ｓ２ＭＭインターフェース１５０４は、（例えば、イベントブロードキャスト回路機構を介して）エラーイベントを生成し得る。Ｓ２ＭＭインターフェース１５０４は、同じソースからのパケットごとにこのプロセスを繰り返すことができる。

リピート機能が使用される例示的な実装形態では、プロセスがＮ×Ｍ個のパケット（例えば、Ｎ個のソースの各々からＭ個のパケット）に対して繰り返されると、Ｓ２ＭＭチャネル１５０４は、バッファ記述子タスクキュー１５０８からのタスクが完了したとみなす。Ｓ２ＭＭチャネル１５０４は、タスクが完了したと決定したことに応答して、タスク完了トークンを発行することができ、更に、バッファ記述子タスクキュー１５０８内の次のタスクを実行しようと試みることが可能である。

一態様では、各バッファ記述子は、所与のソースからの２つ以上のパケットを処理するために使用され得るので、Ｓ２ＭＭチャネル１５０４は、データの意図されない又は不正確な上書きを防止するために、同じバッファ記述子を使用して各反復についてデータが書込まれるアドレスを調整する反復状態アドレスオフセット回路機構を含み得る。タスクが完了すると、メモリ１５１０は、集合的に、将来のデータ移動動作のための単一のより大きいバッファとみなされ得るＮ×Ｍ個のサブバッファを記憶する。

他の例示的な実装形態では、そのように構成された場合、各異なるソースが異なる数「Ｍ」のパケットを転送することができるように、ソースごとにタスクを指定することができる。そのような場合、タスクは、所与のソースからの「Ｍ」個のパケットが書込まれたときに完了する。上述したように、リピート機能は使用されなくてもよい。そのような場合、ＯＯＯモードでは、各パケットは、パケットのヘッダの指定されたフィールド内のバッファ記述子識別子によって、パケットを処理するために使用されるべき特定のバッファ記述子を指定することができる。

上述したように、Ｓ２ＭＭチャネル１５０４は、種々の異なるメカニズムを使用してモードを切り替えることが可能である。例えば、Ｓ２ＭＭチャネル１５０４は、パケット処理モードを決定するタイルの制御レジスタに好適な構成データをロードすることによって、選択されたパケット処理モードで動作するように構成され得る。別の例では、Ｓ２ＭＭチャネル１５０４は、バッファ記述子タスクキュー１５０８にタスクが記憶されていないことを検出したことに応答して、ＯＯＯモードを開始することができる。更に別の例では、Ｓ２ＭＭチャネル１５０４は、バッファ記述子タスクキュー１５０８に記憶された特定のタイプのタスクを検出したことに応答して、ＯＯＯモードを開始することができる。その場合、タスクは、リピート機能処理に使用される値を指定することもできる。いずれの場合も、バッファ記述子を使用して、所与のソースからの２つ以上のパケットを処理することができる。したがって、バッファ記述子は、処理されるべきパケットごとにバッファ記述子レジスタファイル１５０６に書込まれる必要がなく、これは、ＤＭＡデータ転送を開始するオーバーヘッドを大幅に低減する。

説明の目的で、本明細書に開示される様々な発明概念の完全な理解を提供するために、特定の名称が記載される。しかしながら、本明細書で使用される専門用語は、本発明の構成の特定の態様を説明することのみを目的としており、限定することを意図していない。

本明細書で定義される場合、単数形の「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈上別途明白に記載しない限り、複数形も同様に含むことが意図される。本明細書で定義される場合、「少なくとも１つ」、「１つ以上」、及び「及び／又は」という用語は、明示的に別段に言明しない限り、動作において連言的及び選言的の両方であるオープンエンド表現である。例えば、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」、「Ａ、Ｂ、又はＣのうちの少なくとも１つ」、「Ａ、Ｂ、及びＣのうちの１つ以上」、「Ａ、Ｂ、又はＣのうちの１つ以上」、並びに「Ａ、Ｂ、及び／又はＣ」という表現の各々は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢの組み合わせ、Ａ及びＣの組み合わせ、Ｂ及びＣの組み合わせ、又はＡ、Ｂ及びＣの組み合わせを意味する。

本明細書で定義される場合、「自動的に」という用語は、人間の介入がないことを意味する。本明細書で定義される場合、「ユーザ」という用語は人間を意味する。

本明細書で定義される場合、「場合」という用語は、文脈に応じて、「ときに」又は「際に」又は「に応答して」又は「に応じて」を意味する。したがって、「～と決定された場合」又は「［記載の条件又はイベント］が検出された場合」という語句は、文脈に応じて、「～と決定した際」若しくは「～と決定したことに応答して」、又は「［記載の条件又はイベント］を検出した際」若しくは「［記載の条件又はイベント］を検出したことに応答して」又は「［記載の条件又はイベント］を検出したことに応じて」を意味すると解釈される。

本明細書で定義される場合、「に応じて」という用語及び上述のような類似の言語、例えば、「場合」、「ときに」、又は「際に」は、アクション又はイベントに容易に応答又は反応することを意味する。応答又は反応は自動的に実行される。したがって、第２のアクションが第１のアクションに「応じて」実行される場合、第１のアクションの発生と第２のアクションの発生との間に因果関係がある。「に応じて」という用語は、因果関係を示す。

第１、第２などの用語は、様々な要素を説明するために本明細書で使用され得る。これらの要素は、これらの用語によって限定されるべきではない。なぜなら、これらの用語は、別段に言明しない限り、又は文脈が明らかにそうでないことを示さない限り、１つの要素を別の要素から区別するために使用されるにすぎないからである。

以下の特許請求の範囲に見出され得る全てのミーンズ又はステッププラスファンクション要素の対応する構造、材料、動作、及び均等物は、具体的に特許請求されるように、他の特許請求される要素と組み合わせて機能を実行するための任意の構造、材料、又は動作を含むことが意図される。

ＩＣは、複数のタイルを有するＤＰＥアレイを含むことができる。複数のタイルは、複数のＤＰＥタイル及び複数のメモリタイルを含むことができる。各ＤＰＥタイルは、ストリームスイッチ、動作を実行するように構成されたコア、及びメモリモジュールを含むことができる。各メモリタイルは、ストリームスイッチ、ＤＭＡエンジン、及びＲＡＭを含むことができる。各メモリタイルのＤＭＡエンジンは、同じメモリタイル内のＲＡＭ及び少なくとも１つの他のメモリタイルのＲＡＭにアクセスするように構成されてもよい。複数のＤＰＥタイルのうちの選択されたＤＰＥタイルは、ストリームスイッチを介して複数のメモリタイルのうちの選択されたメモリタイルにアクセスするように構成されてもよい。

前述及び他の実装形態はそれぞれ、以下の特徴のうちの１つ以上を単独で又は組み合わせて任意選択で含むことができる。いくつかの例示的な実装形態は、以下の特徴の全てを組み合わせて含む。

一態様では、ＤＰＥアレイは、複数のＤＰＥタイルのストリームスイッチ及び複数のメモリタイルのストリームスイッチに結合された複数のストリームスイッチを有するＳｏＣインターフェースを含む。ＳｏＣインターフェースは、ＤＰＥアレイをＩＣの１つ以上の他の回路ブロックと通信可能にリンクする。

別の実施形態では、メモリタイルは、複数の行のＤＰＥタイルとＳｏＣインターフェースとの間の１行以上の行に配列される。

別の態様では、選択されたメモリタイルのＤＭＡエンジンは、少なくとも２つの他のメモリタイルのＲＡＭにアクセスするように構成される。

別の態様では、選択されたメモリタイルのストリームスイッチは、選択されたＤＰＥタイルのストリームスイッチとの論理接続を確立するように構成され、論理接続は、選択されたメモリタイルとＤＰＥタイルとの間でデータを渡すために、選択されたＤＰＥタイルを選択されたメモリタイルのＤＭＡエンジンと結合する。

別の態様では、複数のタイルは、行及び列を有するグリッドに配列される。各メモリタイルのストリームスイッチは、同じ列内の上に隣接するタイルのストリームスイッチ及び下に隣接するタイルのストリームスイッチに接続する。同じ行内の隣接するメモリタイルのストリームスイッチが接続されてもよい。

別の態様では、各ＤＰＥタイルのストリームスイッチは、各隣接するタイルのストリームスイッチに接続する。

別の態様では、タイルの各列は、１つ以上のＤＰＥタイルと１つ以上のメモリタイルとを含む。

別の態様では、タイルの１つ以上の列は、ＤＰＥタイルを含み、メモリタイルを含まず、タイルの１つ以上の他の列は、メモリタイルを含み、ＤＰＥタイルを含まない。

別の態様では、複数のＤＰＥタイルは、複数の行及び複数の列を有するグリッドに配列される。複数のメモリタイルは、１行以上の行が１つ以上のＤＰＥタイル及び１つ以上のメモリタイルを含むように、１行以上の行内に散在させる。

別の態様では、各メモリタイルは、イベントブロードキャスト回路機構を含む。メモリタイルのイベントブロードキャスト回路機構は、相互接続されて、ストリームスイッチによって形成されるネットワークから独立したイベントブロードキャストネットワークを形成してもよい。イベントブロードキャストネットワークは、メモリタイル内で検出されたイベントを伝達してもよい。

別の態様では、複数のメモリタイルのイベントブロードキャストネットワークは、複数のメモリタイルについてのデバッグ及びトレース情報を伝達するように構成される。

別の態様では、メモリタイルの各々は、メモリマップドスイッチを含む。メモリタイルのメモリマップドスイッチは、相互接続されて、ストリームスイッチによって形成されるネットワークから独立したメモリマップドネットワークを形成する。メモリマップドネットワークは、メモリタイルに構成データを伝達する。

別の態様では、ＩＣは、アクセラレータ回路に結合されたＰＭＰ回路を備え、ＰＭＰ回路は、アクセラレータ回路に対してローカルであり、各トランザクションに割り当てられたセキュアマスタ識別子と、各トランザクションによってアクセスされるべきメモリの領域と、に基づいて、メモリに、アクセラレータ回路から発出するトランザクションを選択的に渡すように構成されている。

別の態様では、ＰＭＰ回路は、ＤＰＥアレイのＳｏＣインターフェース内、又はＩＣのＮｏＣ内に実装される。

別の態様では、ＩＣは、アクセラレータ回路に結合されたＭＭＵを備え、ＭＭＵは、アクセラレータ回路に対してローカルであり、アクセラレータ回路によって使用される仮想メモリアドレスを物理メモリアドレスに変換するように構成される。

別の態様では、ＭＭＵは、ＤＰＥアレイのＳｏＣインターフェース内、又はＩＣのＮｏＣ内に実装される。

別の態様では、ＩＣは、メモリマップドトランザクションに対応する列識別子を、ＤＰＥアレイ内のタイルの複数の列の各々に割り当てられたハードワイヤード及び一意の列識別子と一致させることに基づいて、ＤＰＥアレイのタイルの複数の列のうちの選択された列に、メモリマップドトランザクションを選択的に渡すように構成された複数の保護回路を備える。

別の態様では、ＩＣは、列識別子マスクをＤＰＥアレイ内のタイルの複数の列の各々に割り当てられたハードワイヤード及び一意の列識別子に適用することから生成された期待値に一致することに基づいて、ＤＰＥアレイのタイルの複数の列の範囲に、メモリマップドトランザクションを選択的に渡すように構成された複数の保護回路を備える。

ＩＣは、ＤＰＥアレイを含むことができる。ＤＰＥアレイは、複数のメモリタイルを含む。メモリタイルのうちの第１のものは、第１のＤＭＡエンジンと、第１のＤＭＡエンジンに接続された第１のＲＡＭと、第１のＤＭＡエンジンに結合された第１のストリームスイッチとを含み得る。第１のＤＭＡエンジンは、第２のメモリタイル内に配設された第２のＲＡＭに結合される。第１のストリームスイッチは、第２のメモリタイル内に配設された第２のストリームスイッチに結合される。

別の態様では、第１のＤＭＡエンジンは、第１のメモリタイル及び第２のメモリタイルから形成される複合メモリを形成するために、第１のＲＡＭ及び第２のＲＡＭにアクセスするようにプログラマブルである。

別の態様では、第１のメモリタイル及び第２のメモリタイルは隣接している。
別の態様では、第１のＤＭＡエンジンは、第３のメモリタイル内に配設された第３のＲＡＭにアクセスするようにプログラマブルである。

別の態様では、第３のメモリタイルは、第１のメモリタイルに隣接する。
別の態様では、第１のメモリタイルは、第１のＤＭＡエンジンの読取り動作及び書込み動作に対応するイベントを生成するように構成された第１のイベントブロードキャスト回路機構を含む。第１のイベントブロードキャスト回路機構は、イベントのうちの選択されたイベントを１つ以上の選択された宛先回路に提供するようにプログラマブルである。

別の態様では、第１のイベントブロードキャスト回路機構は、第２のメモリタイルの第２のイベントブロードキャスト電気回路に接続される。

別の態様では、第１のメモリタイルは、選択されたイベントをパケット化し、パケット化された選択されたイベントを第１のストリームスイッチに提供するように構成された制御・デバッグ・トレース回路を含む。第１のストリームスイッチは、パケット化された選択されたイベントを更なる宛先回路に送信することが可能である。

別の態様では、第１のメモリタイルは、第１のＤＭＡエンジンと第２のメモリタイルの第２のＤＭＡエンジンとに結合された第１のロック回路を含む。第１のロック回路は、第１のＤＭＡエンジン及び第２のＤＭＡエンジンから受信された第１のＲＡＭの部分に対するロックの要求を許可するように構成される。

別の態様では、第１のメモリタイルは、構成データを受信して第１のストリームスイッチ及び第１のＤＭＡエンジンをプログラムするように構成された第１のメモリマップドスイッチを含む。

別の態様では、ＤＰＥアレイは、列及び行を有するグリッドに配列された複数のタイルを含む。第１のメモリマップドスイッチは、上に隣接するタイル内のメモリマップドスイッチ及び下に隣接するタイル内のメモリマップドスイッチに接続される。メモリマップドスイッチは、同じ列内のＤＰＥアレイのタイル間で構成データを伝達することが可能である。

別の態様では、第１のＲＡＭは、複数の第１の調停回路と、複数の第１の調停回路のそれぞれに結合された複数の第１のメモリバンクとを含む。各第１の調停回路は、第１のＤＭＡエンジンの複数のストリーム－メモリマップドチャネル、第１のＤＭＡエンジンの複数のメモリマップド－ストリームチャネル、及び第２のＲＡＭのそれぞれの第２のメモリバンクに結合された複数の第２の調停回路に結合される。

別の態様では、第１のメモリタイルは、構成データを受信して第１のストリームスイッチ及び第１のＤＭＡエンジンをプログラムするように構成された第１のメモリマップドスイッチを含む。第１のメモリマップドスイッチは、複数の第１の調停回路の各々に結合される。

別の態様では、第１のＤＭＡエンジンは、複数のストリーム－メモリマップドチャネルを含み、各ストリーム－メモリマップドチャネルは、複数の異なるパケット処理モードのうちの１つを使用して動作するように独立に構成可能である。

別の態様では、複数のパケット処理モードは、ＤＰＥアレイの他のタイルから受信されたパケットが所定の順序で到着するインオーダモードと、ＤＰＥアレイの他のタイルから受信されたパケットが非決定論的順序で到着するアウトオブオーダモードとを含む。

別の態様では、第１のＤＭＡエンジンは、複数のストリーム－メモリマップドチャネルを含み、複数のストリーム－メモリマップドチャネルのうちの少なくとも１つは、ＤＰＥアレイの他のタイルから受信されたパケットが非決定論的順序で到着するアウトオブオーダモードを使用して動作するように構成される。

別の態様では、ＤＰＥアレイは、行及び列を有するグリッドに配列された複数のタイルを含み、複数のタイルは、複数のＤＰＥタイル、複数のメモリタイル、及び複数のインターフェースタイルを含む。複数のインターフェースタイルは、ＤＰＥアレイをＩＣの１つ以上の他の回路ブロックと通信可能にリンクするＳｏＣインターフェースを形成する。

別の態様では、各ＤＰＥタイルは、複数のストリーム－メモリマップドチャネルを含むＤＭＡエンジンを含み、各ストリーム－メモリマップドチャネルは、複数の異なるパケット処理モードのうちの１つを使用して動作するように独立して構成可能である。

別の態様では、各ＤＰＥタイルは、複数のストリーム－メモリマップドチャネルを含むＤＭＡエンジンを含み、複数のストリーム－メモリマップドチャネルのうちの少なくとも１つは、ＤＰＥアレイの他のタイルから受信されたパケットが非決定論的順序で到着するアウトオブオーダモードを使用して動作するように構成される。

本明細書で提供される本発明の構成の説明は、例示を目的とするものであり、網羅的であること、又は開示される形態及び例に限定されることを意図するものではない。本明細書で使用される用語は、本発明の構成の原理、実際の適用、又は市場で見られる技術に対する技術的改善を説明するために、及び／又は他の当業者が本明細書で開示される本発明の構成を理解することを可能にするために選択された。説明した本発明の構成の範囲及び精神から逸脱することなく、修正及び変形が当業者には明らかであり得る。したがって、そのような特徴及び実装形態の範囲を示すものとして、前述の開示ではなく、以下の特許請求の範囲が参照されるべきである。

Claims

集積回路であって、
複数のタイルを有するデータ処理エンジン（ＤＰＥ）アレイを備え、前記複数のタイルは、
複数のＤＰＥタイルであって、各ＤＰＥタイルは、ストリームスイッチと、動作を実行するように構成されたコアと、メモリモジュールと、を含む、複数のＤＰＥタイルと、
複数のメモリタイルであって、各メモリタイルは、ストリームスイッチと、ダイレクトメモリアクセス（ＤＭＡ）エンジンと、ランダムアクセスメモリと、を含む、複数のメモリタイルと、を含み、
各メモリタイルの前記ＤＭＡエンジンは、同じ前記メモリタイル内の前記ランダムアクセスメモリ及び少なくとも１つの他のメモリタイルの前記ランダムアクセスメモリにアクセスするように構成されており、
前記複数のＤＰＥタイルのうちの選択されたＤＰＥタイルは、前記ストリームスイッチを介して、前記複数のメモリタイルのうちの選択されたメモリタイルにアクセスするように構成されている、集積回路。
前記ＤＰＥアレイは、
前記複数のＤＰＥタイルの前記ストリームスイッチ及び前記複数のメモリタイルの前記ストリームスイッチに結合された複数のストリームスイッチを有するシステムオンチップ（ＳｏＣ）インターフェースを備え、
前記ＳｏＣインターフェースは、前記ＤＰＥアレイを、前記集積回路の１つ以上の他の回路ブロックと通信可能にリンクする、請求項１に記載の集積回路。
前記メモリタイルは、複数の行のＤＰＥタイルと前記ＳｏＣインターフェースとの間の１行以上の行に配列されている、
請求項２に記載の集積回路。
選択されたメモリタイルの前記ＤＭＡエンジンは、少なくとも２つの他のメモリタイルの前記ランダムアクセスメモリにアクセスするように構成されている、
請求項１に記載の集積回路。
選択されたメモリタイルの前記ストリームスイッチは、選択されたＤＰＥタイルのストリームスイッチとの論理接続を確立するように構成されており、前記論理接続は、前記選択されたメモリタイルと前記ＤＰＥタイルとの間でデータを渡すために、前記選択されたＤＰＥタイルを、前記選択されたメモリタイルの前記ＤＭＡエンジンと結合する、
請求項１に記載の集積回路。
前記複数のタイルは、行及び列を有するグリッドに配列されており、
各メモリタイルの前記ストリームスイッチは、同じ列内の上に隣接するタイルの前記ストリームスイッチ及び下に隣接するタイルの前記ストリームスイッチに接続する、
請求項１に記載の集積回路。
同じ行内の隣接するメモリタイルの前記ストリームスイッチが、接続されている、
請求項６に記載の集積回路。
各メモリタイルは、イベントブロードキャスト回路機構を含み、
前記メモリタイルの前記イベントブロードキャスト回路機構は、相互接続されて、前記ストリームスイッチによって形成されるネットワークから独立したイベントブロードキャストネットワークを形成し、
前記イベントブロードキャストネットワークは、前記メモリタイル内で検出されたイベントを伝達し、
前記イベントブロードキャストネットワークは、前記複数のメモリタイルについてのデバッグ及びトレース情報を伝達するように構成されている、
請求項１に記載の集積回路。
前記メモリタイルの各々は、メモリマップドスイッチを含み、
前記メモリタイルの前記メモリマップドスイッチは、相互接続されて、前記ストリームスイッチによって形成されるネットワークから独立したメモリマップドネットワークを形成し、
前記メモリマップドネットワークは、前記メモリタイルに構成データを伝達する、
請求項１に記載の集積回路。
アクセラレータ回路に結合された物理メモリ保護回路を備え、前記物理メモリ保護回路は、前記アクセラレータ回路に対してローカルであり、各トランザクションに割り当てられたセキュアマスタ識別子と、各トランザクションによってアクセスされるべき前記メモリの領域と、に基づいて、メモリに、前記アクセラレータ回路から発出するトランザクションを選択的に渡すように構成されている、
請求項１に記載の集積回路。
前記物理メモリ保護回路は、前記ＤＰＥアレイのシステムオンチップインターフェース内、又は前記集積回路のネットワークオンチップ内に実装される、請求項１０に記載の集積回路。
アクセラレータ回路に結合されたメモリ管理ユニットを備え、前記メモリ管理ユニットは、前記アクセラレータ回路に対してローカルであり、前記アクセラレータ回路によって使用される仮想メモリアドレスを物理メモリアドレスに変換するように構成されている、
請求項１に記載の集積回路。
前記メモリ管理ユニットは、前記ＤＰＥアレイのシステムオンチップインターフェース内、又は前記集積回路のネットワークオンチップ内に実装される、請求項１２に記載の集積回路。
メモリマップドトランザクションに対応する列識別子を、前記ＤＰＥアレイ内のタイルの複数の列の各々に割り当てられたハードワイヤード及び一意の列識別子と一致させることに基づいて、前記ＤＰＥアレイのタイルの前記複数の列のうちの選択された列に、前記メモリマップドトランザクションを選択的に渡すように構成された複数の保護回路を備える、
請求項１に記載の集積回路。
列識別子マスクを前記ＤＰＥアレイ内のタイルの複数の列の各々に割り当てられたハードワイヤード及び一意の列識別子に適用することから生成された期待値に一致することに基づいて、前記ＤＰＥアレイのタイルの前記複数の列の範囲に、メモリマップドトランザクションを選択的に渡すように構成された複数の保護回路を備える、
請求項１に記載の集積回路。