JP7478229B2

JP7478229B2 - 統合キャッシュを有するアクティブブリッジチップレット

Info

Publication number: JP7478229B2
Application number: JP2022516307A
Authority: JP
Inventors: ジェイ．サレハスカイラー; ウールイジン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-09-27
Filing date: 2020-09-24
Publication date: 2024-05-02
Anticipated expiration: 2040-09-24
Also published as: EP4035020A1; CN114514514B; CN114514514A; KR20220066122A; EP4035020A4; JP2022550686A; US11507527B2; US20210097013A1; CN117827737A; US20230305981A1; WO2021061941A1

Description

携帯電話、携帯情報端末（ＰＤＡ）、デジタルカメラ、ポータブルプレイヤ、ゲーミング及び他のデバイス等のコンピューティングデバイスでは、より多くの性能及び特徴を、より小さなスペースに集積することが要求されている。その結果、単一の集積回路（ＩＣ）パッケージ内に集積されるプロセッサダイの密度及びダイの数が増加している。一部の従来のマルチチップモジュールは、２つ以上の半導体チップをキャリア基板上に並べて搭載したものや、場合によってはキャリア基板上に搭載されたインタポーザ（いわゆる「２．５Ｄ」）上に搭載したものがある。

添付図面を参照することによって、本開示をより良好に理解することができ、その多数の特徴及び利点が当業者に明らかになる。異なる図面で同じ符号が使用されている場合、類似又は同一のアイテムを示している。

いくつかの実施形態による、ＧＰＵチップレットを結合するためのアクティブブリッジチップレットを採用したプロセシングシステムを示すブロック図である。いくつかの実施形態による、アクティブブリッジチップレットによって結合されたＧＰＵチップレットのキャッシュ階層を示すブロック図である。いくつかの実施形態による、ＧＰＵチップレット及びアクティブブリッジチップレットの断面図を示すブロック図である。いくつかの実施形態による、ＧＰＵチップレット及びアクティブブリッジチップレットの別の断面図を示すブロック図である。いくつかの実施形態による、３つのチップレット構成を利用したプロセシングシステムを示すブロック図である。いくつかの実施形態による、チップレット間通信を実行する方法を示すフローチャートである。

従来のモノシリックダイ設計は、製造コストがますます高くなってきている。ＣＰＵアーキテクチャでは、相互通信をあまり必要としない別のユニットにＣＰＵコアを分ける方がＣＰＵの異種的な計算的性質に適しているので、製造コストの低減及び歩留まりの向上のためにチップレットがうまく利用されている。対照的に、ＧＰＵの作業は、その性質上、並列作業を含む。しかしながら、ＧＰＵが処理するジオメトリは、完全な並列作業の部分だけでなく、異なる部分間で同期的な順序付けが必要な作業も含む。したがって、複数のＧＰＵに作業の一部を分散させるＧＰＵプログラミングモデルは、システム全体で共有リソースのメモリコンテンツを同期させて、アプリケーションにメモリのコヒーレントなビューを提供することが困難であり、計算的コストがかかるので、非効率になりがちである。さらに、論理的な観点から、アプリケーションは、システムが単一のＧＰＵしか有していないことを想定して記述される。すなわち、従来のＧＰＵが多くのＧＰＵコアを含む場合でさえ、アプリケーションは、単一のデバイスをアドレス指定するようにプログラムされる。少なくともこれらの理由から、チップレット設計手法をＧＰＵアーキテクチャに持ち込むことは、歴史的に困難とされてきた。

比較的単純なプログラミングモデルを変更することなく、ＧＰＵチップレットを使用してシステム性能を向上させるために、図１～図６は、ＧＰＵチップレットを結合するためにアクティブブリッジチップレットを利用するシステム及び方法を示す。様々な実施形態では、アクティブブリッジチップレットは、チップレット間通信のためのアクティブシリコンダイである。様々な実施形態では、システムは、グラフィックプロセシングユニット（ＧＰＵ）チップレットアレイの第１のＧＰＵチップレットに通信可能に結合された中央処理ユニット（ＣＰＵ）を含む。ＧＰＵチップレットアレイは、バスＣＰＵを介してＣＰＵに通信可能に結合された第１のＧＰＵチップレットと、アクティブブリッジチップレットを介して第１のＧＰＵチップレットに通信可能に結合された第２のＧＰＵチップレットと、を含み、それによって、システムオンチップ（ＳｏＣ）を、「チップレット」又は「ＧＰＵチップレット」と呼ばれる小さな機能グループに分解し、「チップレット」又は「ＧＰＵチップレット」は、ＳｏＣ（例えば、ＧＰＵ）の様々なコアの機能を実行する。

現在では、様々なアーキテクチャは、従来のＧＰＵダイの全体にわたってコヒーレントである少なくとも１つのレベルのキャッシュ（例えば、Ｌ３又は他の最終レベルキャッシュ（ＬＬＣ））を既に有している。ここで、チップレットベースのＧＰＵアーキテクチャは、それらの物理リソース（例えば、ＬＬＣ）を異なるダイ上に配置し、それらの物理リソースを通信可能に結合して、その結果、ＬＬＣレベルが、全てのＧＰＵチップレットにわたって統一され、キャッシュコヒーレントを維持する。よって、大規模並列環境（massively parallel environment）内で動作しているにもかかわらず、Ｌ３キャッシュレベルはコヒーレントである。動作中、ＣＰＵからＧＰＵへのメモリアドレス要求は、単一のＧＰＵチップレットのみに送信され、ＧＰＵチップレットは、アクティブブリッジチップレットと通信して、要求されたデータを探す。ＣＰＵから見ると、単一のダイのモノシリックＧＰＵをアドレス指定しているように見える。これにより、アプリケーションからは、大容量のマルチチップレットＧＰＵが単一のデバイスに見えるように使用することができる。

図１は、いくつかの実施形態による、ＧＰＵチップレットを結合するためのアクティブブリッジチップレットを採用したプロセシングシステム１００を示すブロック図である。図示した例では、システム１００は、命令を実行するためのセントラルプロセシングユニット（ＣＰＵ）１０２と、３つの例示されるＧＰＵチップレット１０６－１，１０６－２，１０６－Ｎ（まとめて、ＧＰＵチップレット１０６）等の１つ以上のＧＰＵチップレットのアレイ１０４と、を含む。様々な実施形態では、本明細書で使用される「チップレット」という用語は、限定されないが、以下の特性、１）チップレットが全ての問題を解決するために使用される計算ロジックの少なくとも一部を包含したアクティブシリコンダイを含むこと（すなわち、計算作業負荷が複数のアクティブシリコンダイにわたって分散される）、２）チップレットが同一の基板上のモノシリックユニットとして共にパッケージ化されること、及び、３）それらの個別の計算ダイ（すなわち、ＧＰＵチップレット）の組み合わせが単一のモノシリックユニットであるという概念をプログラミングモデルが保存すること（すなわち、各チップレットが計算作業負荷を処理するためにチップレットを使用するアプリケーションに対して個別のデバイスとして公開しない）、を含む任意のデバイスを指す。

様々な実施形態では、ＣＰＵ１０２は、バス１０８を介して、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）等のシステムメモリ１１０に接続されている。様々な実施形態では、システムメモリ１１０は、スタティックランダムアクセスメモリ（ＳＲＡＭ）及び不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装される。例示する実施形態では、ＣＰＵ１０２は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、ＰＣＩ－Ｅバス、又は、他のタイプのバスとして実装されたバス１０８を介して、システムメモリ１１０と、ＧＰＵチップレット１０６－１と通信する。しかしながら、システム１００のいくつかの実施形態では、直接接続を通じて、又は、他のバス、ブリッジ、スイッチ及びルータ等を介して、ＣＰＵ１０２と通信しているＧＰＵチップレット１０６－１を含む。

図示するように、ＣＰＵ１０２は、グラフィックコマンドを生成するための１つ以上のアプリケーション（複数可）１１２と、ユーザモードドライバ１１６（又は、カーネルモードドライバ等の他のドライバ）とを実行すること等のいくつかの処理を含む。様々な実施形態では、１つ以上のアプリケーション１１２は、システム１００又はオペレーティングシステム（ＯＳ）において作業を生成するアプリケーション等のように、ＧＰＵチップレット１０６の機能を利用するアプリケーションを含む。いくつかの実施形態では、アプリケーション１１２は、グラフィカルユーザインタフェース（ＧＵＩ）及び／又はグラフィックシーンをレンダリングするようにＧＰＵチップレット１０６に命令する１つ以上のグラフィック命令を含む。例えば、いくつかの実施形態では、グラフィック命令は、ＧＰＵチップレット１０６によってレンダリングされる１つ以上のグラフィックプリミティブのセットを定義する命令を含む。

いくつかの実施形態では、アプリケーション１１２は、ユーザモードドライバ１１６（又は、同様のＧＰＵドライバ）を呼び出すために、グラフィックアプリケーションプログラミングインタフェース（ＡＰＩ）１１４を利用する。ユーザモードドライバ１１６は、表示可能なグラフィック画像に１つ以上のグラフィックプリミティブをレンダリングするための１つ以上のコマンドを、１つ以上のＧＰＵチップレットのアレイ１０４に発行する。アプリケーション１１２がユーザモードドライバ１１６に発行したグラフィック命令に基づいて、ユーザモードドライバ１１６は、グラフィックをレンダリングするためにＧＰＵチップレットが実行する１つ以上の動作を指定する１つ以上のグラフィックコマンドを策定する。いくつかの実施形態では、ユーザモードドライバ１１６は、ＣＰＵ１０２上で実行されるアプリケーション１１２の一部である。例えば、いくつかの実施形態では、ユーザモードドライバ１１６は、ＣＰＵ１０２上で実行されるゲーミングアプリケーションの一部である。同様に、いくつかの実施形態では、カーネルモードドライバ（図示省略）は、ＣＰＵ１０２上で実行されるオペレーティングシステムの一部である。

図１に示す実施形態では、アクティブブリッジチップレット１１８は、ＧＰＵチップレット１０６（すなわち、ＧＰＵチップレット１０６－１～１０６－Ｎ）を相互通信可能に結合する。３つのＧＰＵチップレット１０６が図１に示されているが、チップレットアレイ１０４内のＧＰＵチップレットの数は、設計上の選択の問題であり、以下により詳細に説明するような他の実施形態において変化する。図２に関してより詳細に後述するような様々な実施形態では、アクティブブリッジチップレット１１８は、ＧＰＵチップレットダイ間の高帯域幅ダイ間相互接続として機能するアクティブシリコンブリッジを含む。さらに、アクティブブリッジチップレット１１８は、チップレット間通信を提供し、クロスチップレット同期信号をルーティング（経路指定）するために、共有された、統合された最終レベルキャッシュ（ＬＬＣ）を有するメモリクロスバーとして動作する。キャッシュは、本質的にアクティブなコンポーネント（すなわち、動作のために電力を必要とする）であるため、メモリクロスバー（例えば、アクティブブリッジチップレット１１８）は、それらのキャッシュメモリを保持するためにアクティブである。したがって、キャッシュサイジングは、アクティブブリッジチップレット１１８の物理サイズに応じて、異なるチップレット構成に従う異なるアプリケーションに対して構成可能であり、アクティブブリッジチップレット１１８（例えば、ＧＰＵチップレット１０６）が通信可能に結合されたベースチップレット（複数可）（例えば、ＧＰＵチップレット１０６）は、アクティブブリッジチップレット１１８上のこの外部キャッシュにコスト（例えば、物理スペース及び電力制約等に関連するコスト）を払わない。

全体的な動作の概要として、ＣＰＵ１０２は、バス１０８を介して単一のＧＰＵチップレット（すなわち、ＧＰＵチップレット１０６－１）に通信可能に結合される。ＣＰＵからチップレット１０６のアレイ１０４へのトランザクション又は通信は、ＧＰＵチップレット１０６－１において受信される。その後、任意のチップレット間通信は、他のＧＰＵチップレット１０６上のメモリチャネルにアクセスするために、必要に応じてアクティブブリッジチップレット１１８を介してルーティングされる。このようにして、ＧＰＵチップレットベースのシステム１００は、ソフトウェア開発者の観点から、単一のモノシリックＧＰＵとしてアドレス指定可能な（例えば、ＣＰＵ１０２及び任意の関連するアプリケーション／ドライバがチップレットベースのアーキテクチャを意識しない）ＧＰＵチップレット１０６を含み、したがって、プログラマ又は開発者の側で任意のチップレット特有の考慮事項を必要としないようにすることが可能である。

図２は、いくつかの実施形態による、アクティブブリッジチップレットによって結合されたＧＰＵチップレットのキャッシュ階層を示すブロック図である。ビュー２００は、図１のＧＰＵチップレット１０６－１，１０６－２と、アクティブブリッジチップレット１１８の階層ビューと、を提供する。ＧＰＵチップレット１０６－１，１０６－２の各々は、複数のワークグループプロセッサ２０２（ＷＧＰ）と、所定のチャネルのＬ１キャッシュメモリ２０６と通信する複数の固定機能ブロック２０４（ＧＦＸ）と、を含む。各ＧＰＵチップレット１０６は、個々にアクセス可能な複数のＬ２キャッシュメモリ２０８バンクと、Ｌ３チャネルにマッピングされた複数のメモリＰＨＹ２１２（グラフィックダブルデータレート（ＧＤＤＲ）メモリへの接続を示すための、図２におけるＧＤＤＲとして表される）チャネルと、を含む。Ｌ２レベルのキャッシュは、単一のチップレット内でコヒーレントであり、Ｌ３レベル（Ｌ３キャッシュメモリ２１０又は他の最終レベル）のキャッシュは、統合され、ＧＰＵチップレット１０６の全てにわたってコヒーレントである。言い換えると、アクティブブリッジチップレット１１８は、ＧＰＵチップレット１０６とは別のダイ上にある統合されたキャッシュ（例えば、図２のＬ３／ＬＬＣ）を含み、２つ以上のＧＰＵチップレット１０６を共に通信可能にリンク付けする外部の統合されたメモリインタフェースを提供する。したがって、ＧＰＵチップレット１０６は、レジスタ転送レベル（ＲＴＬ）の観点から始まって、モノシリックシリコンダイとして作用し、完全なコヒーレントメモリアクセスをもたらす。

様々な実施形態では、Ｌ３レベル２１０のキャッシュは、メモリアタッチ型（memory-attached）最終レベルである。従来のキャッシュ階層では、ルーティングは、Ｌ１レベルのキャッシュとＬ２レベルのキャッシュとの間で行われ、また、Ｌ２レベルとメモリチャネルとの間で行われる。このルーティングは、単一のＧＰＵコア内でＬ２キャッシュがコヒーレントであることを可能にする。しかしながら、ＧＤＤＲメモリへのアクセスを有する異なるＧＰＵコア（ディスプレイエンジン、マルチメディアコア又はＣＰＵ等）が、ＧＰＵコアによって操作されるデータにアクセスしたい場合に、他のＧＰＵコアが最新データにアクセスできるようにＬ２レベルのキャッシュをＧＤＤＲメモリにフラッシュする必要があるため、ルーティングは、同期ポイントを導入する。そのような動作は、計算コストがかかり、非効率である。対照的に、メモリコントローラとＧＰＵチップレット１０６との間にあるメモリアタッチ型最終レベルＬ３２１０は、全てのアタッチコアにキャッシュ及びメモリの一貫した「ビュー」を提供することによって、これらの問題を回避する。

メモリアタッチ型最終レベルＬ３２１０は、キャッシュ階層のＬ３レベルを、ＧＰＵチップレット１０６ではなく、アクティブブリッジチップレット１１８に配置する。したがって、別のクライアントがデータ（例えば、ＣＰＵがアクセスするＤＲＡＭ内のデータ）にアクセスする場合、ＣＰＵ１０２は、ＳＤＦファブリック２１６を通過及び接続して、Ｌ３レベル２１０から読み出す。さらに、要求されたデータがＬ３レベル２１０にキャッシュされていない場合、Ｌ３レベル２１０は、ＧＤＤＲメモリから読み込む（図示しないが、メモリＰＨＹ２１２を介して）。したがって、Ｌ２レベル２０８は、データを含み、フラッシュされない。他の実施形態では、Ｌ３レベル２１０がメモリアタッチ型最終レベルである代わりに、Ｌ３レベルのキャッシュは、キャッシュ階層内でＳＤＦファブリック２１６の上に配置される。しかしながら、このような構成では、Ｌ３レベル（及び、メモリＰＨＹＳ２１２）は、各ＧＰＵチップレット１０６に対してローカル（局所的）であり、したがって、アクティブブリッジチップレット１１８において統合されたキャッシュの一部ではない。

各ＧＰＵチップレット１０６のグラフィックデータファブリック２１４（ＧＤＦ）は、Ｌ１キャッシュメモリ２０６の全てをＬ２キャッシュメモリ２０８のチャネルの各々に接続し、それによって、ワークグループプロセッサ２０２及び固定機能ブロック２０４の各々がＬ２キャッシュメモリ２０８の何れかのバンクに記憶されたデータにアクセスすることを可能にする。各ＧＰＵチップレット１０６も、グラフィックコア（ＧＣ）及びシステムオンチップ（ＳＯＣ）ＩＰコアにわたってアクティブブリッジチップレット１１８にルーティングするスケーラブルデータファブリック２１６（ＳＤＦ）（ＳＯＣメモリファブリックとしても知られる）を含む。ＧＣは、ＣＵ／ＷＧＰ、固定機能グラフィックブロック、及び、Ｌ３の上のキャッシュ等を含む。従来のグラフィック及び計算に対して使用されるＧＰＵの一部（すなわち、ＧＣ）は、ビデオ復号、ディスプレイ出力、及び、同一のダイ上に包含される様々なシステムサポート構造等の補助的ＧＰＵ機能を処理するために使用されるＧＰＵの他の部分と区別可能である。

アクティブブリッジチップレット１１８は、ＧＰＵチップレットの全て（例えば、図２におけるＧＰＵチップレット１０６－１及び１０６－２）にルーティングする複数のＬ３キャッシュメモリ２１０チャネルを含む。このようにして、メモリアドレス要求は、統合されたＬ３キャッシュメモリ２１０にアクセスするように、アクティブブリッジチップレット１１８上の適切なレーンにルーティングされる。さらに、複数のＧＰＵチップレット１０６に及ぶ等のように、アクティブブリッジチップレット１１８の物理的サイズが大きいので、当業者は、スケーラブルな量の（異なる実施形態では、メモリ及びロジックの量を増大又は減少させるようにスケーラブルされる）Ｌ３／ＬＬＣキャッシュメモリ及びロジックが、いくつかの実施形態では、アクティブブリッジチップレット１１８上に配置されることを認識するであろう。アクティブブリッジチップレット１１８は、複数のＧＰＵチップレット１０６をブリッジし、したがって、ブリッジチップレット、アクティブブリッジダイ、又は、アクティブシリコンブリッジと交換可能に呼ばれる。

図３を参照して、チップレットベースのアーキテクチャの追加の詳細を理解することができ、図３は、いくつかの実施形態による、アクティブブリッジ結合ＧＰＵチップレットの断面図を示すブロック図である。ビュー３００は、セクションＡ－Ａにおいて取られた図１のＧＰＵチップレット１０６－１，１０６－２及びアクティブブリッジチップレット１１８の断面図を提供する。様々な実施形態では、各ＧＰＵチップレット１０６は、シリコン貫通ビア（ＴＳＶ）無しに構成される。上述したように、ＧＰＵチップレット１０６は、アクティブブリッジチップレット１１８によって通信可能に結合される。様々な実施形態では、アクティブブリッジチップレット１１８は、シリコン、ゲルマニウム又は他の半導体材料から構成され、異なる実施形態では、バルク半導体、絶縁体上の半導体又は他の設計から構成された相互接続チップである。

アクティブブリッジチップレット１１８は、異なる実施形態では、単一のレベル又は複数のレベル上にある複数の内部導体トレース（図示省略）を含む。トレースは、導電路を介して、例えば、ＧＰＵチップレット１０６のＰＨＹ領域の導体構造（例えば、図２のメモリＰＨＹ２１２）と電気的に連結する。このようにして、アクティブブリッジチップレット１１８は、ＧＰＵチップレット１０６間の通信を通信可能に結合し、ルーティングし、それによって、アクティブルーティングネットワークを形成するアクティブブリッジダイである。

図３に示すように、キャリアウェーハ３０２は、ＧＰＵチップレット１０６－１，１０６－２に結合されている。この実施形態の構成では、ＴＳＶ３０４は、アクティブブリッジチップレットを通過してＧＰＵチップレット１０６に至るが、グラフィックコアダイ（複数可）自体は、何れのＴＳＶでも構成されない。代わりに、信号データを通すために、誘電体貫通ビア（ＴＤＶ）３０６は、ギャップフィル誘電体層３０８を通じてトンネルする。ギャップフィル誘電体層３０８（又は、他のギャップフィル材料）は、ブリッジチップレットダイ及びグラフィックコアダイ（複数可）が存在しないエリア（例えば、ＧＰＵチップレット１０６とアクティブブリッジチップレット１１８との間の垂直方向の不一致を有するエリア）を占有する。図示するように、ＴＤＶ３０６は、ＧＰＵチップレット１０６の入力／出力（Ｉ／Ｏ）パワーを、異なる実施形態では半田バンプ及びマイクロバンプ等を含む半田相互接続３１０に下向きに接続する。このようにして、ギャップフィル誘電体層３０８は、ＧＰＵチップレット１０６及びアクティブブリッジチップレット１１８の両方のバンプ（例えば、バンプ３１２）の両方の平面を同じ平面にする。

様々な実施形態では、図３に示すようなコンポーネントは、相互接続構造３１０，３１２（例えば、半田ボール等）を介して、回路基板又は他の構造等の他の電気構造と電気的に連結する。しかしながら、当業者は、他の実施形態において、本開示の範囲から逸脱することなく、ピン、ランドリッドアレイ構造及び他の相互接続等の様々なタイプの相互接続構造が使用されることを認識するであろう。

図４は、いくつかの実施形態による、ＧＰＵチップレット及びアクティブブリッジチップレットの別の断面図を示すブロック図である。ビュー４００は、セクションＡ－Ａにおいて取られた図１のＧＰＵチップレット１０６－１，１０６－２及びアクティブブリッジチップレット１１８の断面図を提供する。上述したように、ＧＰＵチップレット１０６は、アクティブブリッジチップレット１１８によって通信可能に結合される。様々な実施形態では、アクティブブリッジチップレット１１８は、異なる実施形態では、シリコン、ゲルマニウム又は他の半導体材料から構成され、異なる実施形態では、バルク半導体、絶縁体上の半導体又は他の設計から構成された相互接続チップである。

アクティブブリッジチップレット１１８は、異なる実施形態では単一のレベル又は複数のレベル上にある複数の内部導体（図示省略）を含む。トレースは、導電路を介して、例えば、ＧＰＵチップレット１０６のＰＨＹ領域の導体構造（例えば、図２のメモリＰＨＹ２１２）と電気的に連結する。このようにして、アクティブブリッジチップレット１１８は、ＧＰＵチップレット１０６間の通信を通信可能に結合し、ルーティングし、それによって、アクティブルーティングネットワークを形成するアクティブブリッジダイである。

図４に示すように、及び、図３のコンポーネントと同様の方法で、キャリアウェーハ４０２は、ＧＰＵチップレット１０６－１，１０６－２に結合されている。しかしながら、図３の実施形態とは対照的に、各ＧＰＵチップレット１０６は、シリコン貫通ビア（ＴＳＶ）４０４を含む。この実施形態の構成では、ＴＳＶ４０４は、ＧＰＵチップレット１０６を貫通するが、アクティブブリッジチップレット１１８自体は、如何なるＴＳＶも用いて構成されない。さらに、ＴＳＶ４０４は、異なる実施形態では半田バンプ及びマイクロバンプ等を含む半田相互接続４０６にアクティブブリッジチップレット入力／出力（Ｉ／Ｏ）パワーを下方に接続するので、アクティブブリッジ結合ＧＰＵチップレットは、如何なるＴＤＶも含まない。相互接続構造４０８は、ＧＰＵチップレット１０６に電気的に結合する。様々な実施形態では、ダミーシリコンの層４１０（又は、他のギャップフィル材料）は、ブリッジチップレットダイ及びグラフィックコアダイ（複数可）が存在しないエリア（例えば、ＧＰＵチップレット１０６とアクティブブリッジチップレット１１８との間で垂直方向の不一致を有するエリア）を占有する。このようにして、ダミーシリコンの層４１０は、ＧＰＵチップレット１０６及びアクティブブリッジチップレット１１８を通信可能及び電気的に結合することに関連する相互接続バンプの両方を同じ平面にし、モノシリックチップを形成する。

様々な実施形態では、図４に示すようなコンポーネントは、相互接続構造４０６，４０８（例えば、半田ボール等）を介して、回路板、基板又は他の構造等の他の電気構造と電気的に連結する。しかしながら、当業者は、他の実施形態では、ピン、ランドリッドアレイ構造及び他の相互接続等の様々なタイプの相互接続構造が使用されることを認識するであろう。

図１～図４に関して上述したようなアクティブブリッジチップレット１１８は、２つ以上のダイのルーティングファブリック間の通信を提供し、コヒーレントなＬ３メモリアクセスに均一なメモリアクセス動作（又は、ほとんど均一なメモリアクセス動作）を提供する。当業者は、物理的複製の性質によって利用されるＧＰＵチップレットの数に基づいて、プロセシングシステムの性能が線形的にスケールする（例えば、ＧＰＵチップレットの数が増加すると、メモリＰＨＹ２１２及びＷＧＰ２０２等の数も増加する）ことを認識するであろう。

図５を参照すると、いくつかの実施形態による、３つのチップレット構成を利用するプロセシングシステムのブロック図が示されている。プロセシングシステム５００は、図１のプロセシングシステム１００と同様であるが、説明を容易にするために特定の要素を省略する。図示するように、システム５００は、ＣＰＵ１０２と、例示されるＧＰＵチップレット１０６－１，１０６－２，１０６－３等の３つのＧＰＵチップレットと、を含む。ＣＰＵ１０２は、バス１０８を介してＧＰＵチップレット１０６－１と通信する。全体的な動作の概要として、プロセシングシステム５００は、マスタ－スレーブトポロジを利用し、マスタ－スレーブトポロジでは、ＣＰＵ１０２（すなわち、ＧＰＵチップレット１０６－１）と直接通信する単一のＧＰＵチップレットは、マスタチップレット（以下では、プライマリチップレット又はホストＧＰＵチップレット）として指定される。他のＧＰＵチップレットは、アクティブブリッジチップレット１１８を介してＣＰＵ１０２と間接的に通信し、スレーブチップレット（以下では、セカンダリＧＰＵチップレット（複数可））として指定される。したがって、プライマリＧＰＵチップレット１０６－１は、ＣＰＵ１０２からＧＰＵチップレットアレイ１０４の全体への単数エントリポイントとして機能する。

図５に示すように、一例では、ＣＰＵ１０２は、プライマリＧＰＵチップレット１０６－１にアクセス要求（例えば、読み込み要求、書き込み要求、及び、ＧＰＵチップレットにおいて作業を実行する命令等）を送信する。図２に関してより詳細に上述したように、ＧＰＵチップレット１０６－１は、複数のワークグループプロセッサ（図示省略）及び複数の固定機能ブロック（図示省略）を含む。プライマリＧＰＵチップレットコントローラ５０２は、ＧＰＵチップレットアレイ１０４の最終レベルキャッシュ（ＬＬＣ）（例えば、本明細書で説明するようなＬ３キャッシュメモリ）に接続し、ＬＬＣとデータファブリッククロスバーのロジックの電気的にアクティブな部分（例えば、図２のＳＤＦ２１６）との間のルーティングを処理する。

プライマリＧＰＵチップレットコントローラ５０２は、アクセス要求に関連するデータが、単一のプライマリＧＰＵチップレット１０６－１内でのみコヒーレントなメモリにローカルにキャッシュされるかどうか、又は、データが、アクティブブリッジチップレット１１８において統合されたＬ３キャッシュメモリ２１０にキャッシュされるかどうかを判別する。アクセス要求に関連するデータが、単一のプライマリＧＰＵチップレット１０６－１内でコヒーレントなメモリにローカルにキャッシュされると判別したことに基づいて、プライマリＧＰＵチップレットコントローラ５０２は、プライマリＧＰＵチップレット１０６－１においてアクセス要求をサービスする。しかしながら、アクセス要求に関連するデータが、共通して共有されるＬ３キャッシュメモリ２１０にキャッシュされると判別したことに基づいて、プライマリＧＰＵチップレットコントローラ５０２は、サービスするためにアクティブブリッジチップレット１１８にアクセス要求をルーティングする。アクティブブリッジチップレット１１８は、プライマリＧＰＵチップレット１０６－１に結果を返し、プライマリＧＰＵチップレット１０６－１は、発信リクエスタ（すなわち、ＣＰＵ１０２）に、要求されたデータを返す。このようにして、ＣＰＵ１０２は、単一の外部ビューのみを有し、バス１０８を介した２つ以上のＧＰＵチップレットへの直接通信を必要としない。

当業者は、図５では、３つのＧＰＵチップレットの中央を横切る矩形のアクティブブリッジチップレットダイ１１８の特定のコンテキストが説明されているが、他の実施形態では、様々な他の構成、ダイ形状及びジオメトリが様々な実施形態において利用されることを認識するであろう。例えば、いくつかの実施形態では、チップレットは、正方形のＧＰＵチップレットの１つ以上のコーナーにおいてアクティブブリッジチップレットを含み、その結果、複数のＧＰＵチップレットがチップレットアレイ内で共にタイル状に配置される。同様に、他の実施形態では、ＧＰＵチップレットは、ＧＰＵチップレットの側面全体に及ぶアクティブブリッジチップレットを含み、その結果、複数のＧＰＵチップレットは、長い行／列構成で、介在するアクティブブリッジチップレットと共に並べられる。

図６は、いくつかの実施形態による、チップレット間通信を実行する方法６００を示すフローチャートである。ブロック６０２において、ＧＰＵチップレットアレイのプライマリＧＰＵチップレットは、要求ＣＰＵからメモリアクセス要求を受信する。例えば、図５を参照すると、プライマリＧＰＵチップレット１０６－１は、ＣＰＵ１０２からアクセス要求を受信する。いくつかの実施形態では、プライマリＧＰＵチップレット１０６－１は、バス１０８を介してそのスケーラブルデータファブリック２１６においてアクセス要求を受信する。

ブロック６０４において、プライマリＧＰＵチップレット１０６－１は、要求されたデータがキャッシュされた位置を識別する。すなわち、プライマリＧＰＵチップレット１０６－１は、データが、アクティブブリッジチップレット１１８における統合されたＬ３キャッシュメモリ２１０にキャッシュされるかどうかを判別する。例えば、図５を参照すると、プライマリＧＰＵチップレット１０６－１のプライマリＧＰＵチップレットコントローラ５０２は、アクセス要求に関連するデータが、単一のプライマリＧＰＵチップレット１０６－１内でのみコヒーレントなメモリにローカルにキャッシュされるかどうかを判別する。アクセス要求に関連するデータが、単一のプライマリＧＰＵチップレット１０６－１内でコヒーレントなメモリにローカルにキャッシュされるとプライマリＧＰＵチップレットコントローラ５０２が判別した場合、ブロック６０６において、プライマリＧＰＵチップレットコントローラ５０２は、プライマリＧＰＵチップレット１０６－１においてアクセス要求をサービスする。その後、ブロック６１２において、プライマリＧＰＵチップレットは、バス１０８を介して発信リクエスタ（すなわち、ＣＰＵ１０２）に、要求されたデータを返す。いくつかの実施形態では、要求されたデータをＣＰＵ１０２に返すことは、プライマリＧＰＵチップレット（すなわち、ＧＰＵチップレット１０６－１）のスケーラブルデータファブリック２１６において要求されたデータを受信することと、要求されたデータを、バス１０８を介してＣＰＵ１０２に送信することと、を含む。

ブロック６０４に再度戻すると、アクセス要求に関連するデータが、共通して共有されるＬ３キャッシュメモリ２１０にキャッシュされるとプライマリＧＰＵチップレットコントローラ５０２が判別した場合、ブロック６０８において、プライマリＧＰＵチップレットコントローラ５０２は、サービスするためにアクティブブリッジチップレット１１８にアクセス要求をルーティングする。いくつかの実施形態では、メモリアクセス要求をルーティングすることは、スケーラブルデータファブリック２１６が、アクティブブリッジチップレット１１８と通信することと、スケーラブルデータファブリック２１６が、メモリアクセス要求に関連するデータをアクティブブリッジチップレット１１８に要求することと、を含む。さらに、要求するデータが、アクティブブリッジチップレット１１８のＬ３にキャッシュされていない場合、メモリアクセス要求は、Ｌ３ミスとして扱われ、アクティブブリッジチップレット１１８は、ＧＤＤＲメモリにアタッチされ、要求をサービスすることを担当するＧＰＵチップレットに要求をルーティングする。要求がルーティングされたＧＰＵチップレットは、要求されたデータをＧＤＤＲメモリからフェッチし、要求されたデータをアクティブブリッジチップレットに返す。

ブロック６１０において、アクティブブリッジチップレット１１８は、プライマリＧＰＵチップレット１０６－１に結果を返す。特に、戻り通信は、ブロック６０８においてメモリアクセス要求がルーティングされたアクティブブリッジチップレット１１８の同じ信号経路を介してルーティングされる。他の実施形態では、要求データポート及び戻りデータポートは、同じ物理経路を共有しない。

ブロック６１２において、プライマリＧＰＵチップレットは、要求されたデータを、バス１０８を介して発信リクエスタ（すなわち、ＣＰＵ１０２）に返す。いくつかの実施形態では、要求されたデータをＣＰＵ１０２に返すことは、要求されたデータを、プライマリＧＰＵチップレット（すなわち、ＧＰＵチップレット１０６－１）のスケーラブルデータファブリック２１６においてアクティブブリッジチップレット１１８から受信することと、要求されたデータを、バス１０８を介してＣＰＵ１０２に送信することと、を含む。このようにして、ＣＰＵ１０２は、単一の外部ビューのみを有し、バス１０８を介した２つ以上のＧＰＵチップレット１０６への直接通信を必要としない。

したがって、本明細書で説明するように、アクティブブリッジチップレットは、プログラマモデル／開発者の観点から、ＧＰＵチップレットの実装が従来のモノシリックＧＰＵとして見えるように、相互接続されたＧＰＵチップレットのセットを使用してモノシリックＧＰＵ機能を展開する。１つのＧＰＵチップレットのスケーラブルデータファブリックは、アクティブブリッジチップレット上の下位レベルキャッシュ（複数可）にアクセスするのとほぼ同時に、同じチップレット上の下位レベルキャッシュにアクセスすることが可能であるため、追加のチップレット間コヒーレンシプロトコルを必要とすることなく、ＧＰＵチップレットがキャッシュコヒーレンシを維持することを可能にする。この低レイテンシのチップレット間キャッシュコヒーレンシは、ソフトウェア開発者の観点から、チップレットベースのシステムがモノシリックＧＰＵとして動作することを可能にし、よって、プログラマ又は開発者の側でチップレット特有の考慮事項を回避することができる。

本明細書で開示されるように、いくつかの実施形態では、システムは、グラフィックプロセシングユニット（ＧＰＵ）チップレットアレイの第１のＧＰＵチップレットに通信可能に結合された中央処理ユニット（ＣＰＵ）を含み、ＧＰＵチップレットアレイは、バスを介してＣＰＵに通信可能に結合された第１のＧＰＵチップレットと、アクティブブリッジチップレットを介して第１のＧＰＵチップレットに通信可能に結合された第２のＧＰＵチップレットと、を含み、アクティブブリッジチップレットは、ＧＰＵチップレットアレイの第１のチップレット及び第２のＧＰＵチップレットによって共有されるレベルのキャッシュメモリを含む。一態様では、前記レベルのキャッシュメモリは、ＧＰＵチップレットアレイの第１のＧＰＵチップレット及び第２のＧＰＵチップレットにわたってコヒーレントである統合されたキャッシュメモリを含む。別の態様では、前記レベルのキャッシュメモリは、第１のＧＰＵチップレットのメモリコントローラとオフダイメモリとの間に配置されたメモリアタッチ型最終レベルのキャッシュを含む。さらに別の態様では、アクティブブリッジチップレットは、ＧＰＵチップレットアレイ内のＧＰＵチップレットを通信可能に結合する。

一態様では、第１のＧＰＵチップレットは、ＣＰＵからメモリアクセス要求を受信するように構成されたスケーラブルデータファブリックをさらに含む。別の態様では、スケーラブルデータファブリックは、メモリアクセス要求に関連するデータをアクティブブリッジチップレットに要求するようにさらに構成される。さらに別の態様では、アクティブブリッジチップレットは、ＧＰＵチップレットアレイのＧＰＵチップレット間のチップレットツーチップレット通信のためのメモリクロスバーを含む。さらに別の態様では、システムは、第１のＧＰＵチップレットにおける第１のキャッシュメモリ階層であって、第１のキャッシュメモリ階層の第１のレベルは、第１のＧＰＵチップレット内でコヒーレントである、第１のキャッシュメモリ階層と、第２のＧＰＵチップレットにおける第２のキャッシュメモリ階層であって、第２のキャッシュメモリ階層の第１のレベルは、第２のＧＰＵチップレット内でコヒーレントである、第２のキャッシュメモリ階層と、を含む。別の態様では、アクティブブリッジチップレットにおけるレベルのキャッシュメモリは、第１のキャッシュメモリ階層の最終レベル及び第２のキャッシュメモリ階層の最終レベルの両方を含む統合されたキャッシュメモリを含み、統合されたキャッシュメモリは、ＧＰＵチップレットアレイの第１のＧＰＵチップレット及び第２のＧＰＵチップレットにわたってコヒーレントである。

いくつかの実施形態では、方法は、ＧＰＵチップレットアレイ第１のＧＰＵチップレットにおいて、中央処理ユニット（ＣＰＵ）からメモリアクセス要求を受信することと、第１のＧＰＵチップレットのアクティブブリッジチップレットコントローラにおいて、メモリアクセス要求に関連するデータが、第１のＧＰＵチップレット及びＧＰＵチップレットアレイの第２のＧＰＵチップレットによって共有されるアクティブブリッジチップレットにキャッシュされると判別することと、アクティブブリッジチップレットにおける統合された最終レベルキャッシュにメモリアクセス要求をルーティングすることと、ＣＰＵに、メモリアクセス要求に関連するデータを返すことと、を含む。一態様では、メモリアクセス要求をルーティングすることは、スケーラブルデータファブリックが、メモリアクセス要求に関連するデータをアクティブブリッジチップレットに要求することをさらに含む。別の態様では、方法は、スケーラブルデータファブリックを介して、第１のＧＰＵチップレットに、メモリアクセス要求に関連するデータを返すことを含む。

一態様では、メモリアクセス要求を受信することは、スケーラブルデータファブリックが、ＣＰＵからメモリアクセス要求を受信することを含む。別の態様では、方法は、スケーラブルデータファブリックを介して、アクティブブリッジチップレットから、メモリアクセス要求に関連するデータを受信することを含む。さらに別の態様では、方法は、アクティブブリッジチップレットの統合されたキャッシュメモリにデータをキャッシュすることを含み、統合されたキャッシュメモリは、第１のＧＰＵチップレットにおける第１のキャッシュメモリ階層の最終レベルであって、第１のキャッシュメモリ階層の第１のレベルは、第１のＧＰＵチップレット内でコヒーレントである、第１のキャッシュメモリ階層の最終レベルと、ＧＰＵチップレットアレイの第２のＧＰＵチップレットにおける第２のキャッシュメモリ階層の最終レベルであって、第２のキャッシュメモリ階層の第１のレベルは、第２のＧＰＵチップレット内でコヒーレントである、第２のキャッシュメモリ階層の最終レベルと、を含む。

いくつかの実施形態では、プロセッサは、中央処理ユニット（ＣＰＵ）と、第１のＧＰＵチップレットを含むＧＰＵチップレットアレイであって、第１のＧＰＵチップレットは、アクティブブリッジチップレットコントローラを含む、ＧＰＵチップレットアレイと、統合された最終レベルキャッシュと、を含み、プロセッサは、第１のＧＰＵチップレットにおいて、ＣＰＵからメモリアクセス要求を受信し、第１のＧＰＵチップレットのアクティブブリッジチップレットコントローラにおいて、メモリアクセス要求に関連するデータが、第１のＧＰＵチップレット及びＧＰＵチップレットアレイの第２のＧＰＵチップレットによって共有されるアクティブブリッジチップレットにキャッシュされることを判別し、アクティブブリッジチップレットにおける統合された最終レベルキャッシュにメモリアクセス要求をルーティングし、ＣＰＵに、メモリアクセス要求に関連するデータをルーティングする、ように構成されている。一態様では、プロセッサは、スケーラブルデータファブリックを介して、メモリアクセス要求に関連するデータをアクティブブリッジチップレットに要求するように構成されている。別の態様では、プロセッサは、スケーラブルデータファブリックを介して、第１のＧＰＵチップレットに、メモリアクセス要求に関連するデータを返すように構成されている。さらに別の態様では、プロセッサは、スケーラブルデータファブリックを介して、ＣＰＵからメモリアクセス要求を受信するように構成されている。さらに別の態様では、第１のＧＰＵチップレットは、スケーラブルデータファブリックを介して、アクティブブリッジチップレットから、メモリアクセス要求に関連するデータを受信するように構成されている。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

グラフィックプロセシングユニット（ＧＰＵ）チップレットアレイの第１のＧＰＵチップレットに通信可能に結合された中央処理ユニット（ＣＰＵ）を備え、
前記ＧＰＵチップレットアレイは、
バスを介して前記ＣＰＵに通信可能に結合された第１のＧＰＵチップレットと、
アクティブブリッジチップレットを介して前記第１のＧＰＵチップレットに通信可能に結合された第２のＧＰＵチップレットと、を含み、
前記アクティブブリッジチップレットは、前記第１のＧＰＵチップレットと前記第２のＧＰＵチップレットとの間のチップレット間通信を提供し、前記第１のＧＰＵチップレット及び前記第２のＧＰＵチップレットによって共有されるレベルのキャッシュメモリを含み、
前記ＣＰＵからのメモリアクセス要求を前記第１のＧＰＵチップレットが受信したことに応じて、前記第１のＧＰＵチップレットは、前記メモリアクセス要求に関連するデータを前記アクティブブリッジチップレットに要求するように構成されている、
システム。
前記レベルのキャッシュメモリは、前記ＧＰＵチップレットアレイの前記第１のＧＰＵチップレット及び前記第２のＧＰＵチップレットにわたってコヒーレントである統合されたキャッシュメモリを含む、
請求項１のシステム。
前記レベルのキャッシュメモリは、前記第１のＧＰＵチップレットのメモリコントローラとオフダイメモリとの間に配置されたメモリアタッチ型最終レベルのキャッシュを含む、
請求項１のシステム。
前記アクティブブリッジチップレットは、前記ＧＰＵチップレットアレイ内のＧＰＵチップレットを通信可能に結合する、
請求項１のシステム。
前記第１のＧＰＵチップレットは、前記ＣＰＵから前記メモリアクセス要求を受信するように構成されたスケーラブルデータファブリックをさらに含む、
請求項１のシステム。
前記アクティブブリッジチップレットは、前記ＧＰＵチップレットアレイのＧＰＵチップレット間のチップレットツーチップレット通信のためのメモリクロスバーを含む、
請求項１のシステム。
第１のＧＰＵチップレットにおける第１のキャッシュメモリ階層であって、前記第１のキャッシュメモリ階層の第１のレベルは、前記第１のＧＰＵチップレット内でコヒーレントである、第１のキャッシュメモリ階層と、
第２のＧＰＵチップレットにおける第２のキャッシュメモリ階層であって、前記第２のキャッシュメモリ階層の第１のレベルは、前記第２のＧＰＵチップレット内でコヒーレントである、第２のキャッシュメモリ階層と、をさらに備える、
請求項１のシステム。
前記アクティブブリッジチップレットにおける前記レベルのキャッシュメモリは、前記第１のキャッシュメモリ階層の最終レベル及び前記第２のキャッシュメモリ階層の最終レベルの両方を含む統合されたキャッシュメモリを含み、前記統合されたキャッシュメモリは、前記ＧＰＵチップレットアレイの前記第１のＧＰＵチップレット及び前記第２のＧＰＵチップレットにわたってコヒーレントである、
請求項７のシステム。
ＧＰＵチップレットアレイの第１のＧＰＵチップレットにおいて、メモリアクセス要求を中央処理ユニット（ＣＰＵ）から受信することと、
前記第１のＧＰＵチップレットのアクティブブリッジチップレットコントローラにおいて、前記メモリアクセス要求に関連するデータが、前記ＧＰＵチップレットアレイの前記第１のＧＰＵチップレット及び第２のＧＰＵチップレットによって共有されるアクティブブリッジチップレットにキャッシュされると判別することと、
前記メモリアクセス要求を、前記アクティブブリッジチップレットにおける統合された最終レベルキャッシュにルーティングすることと、
前記メモリアクセス要求に関連するデータを前記ＣＰＵに返すことと、を含む、
方法。
前記メモリアクセス要求をルーティングすることは、スケーラブルデータファブリックが、前記メモリアクセス要求に関連するデータを前記アクティブブリッジチップレットに要求することを含む、
請求項９の方法。
前記スケーラブルデータファブリックを介して、前記メモリアクセス要求に関連するデータを前記第１のＧＰＵチップレットに返すことをさらに含む、
請求項１０の方法。
前記メモリアクセス要求を受信することは、スケーラブルデータファブリックが、前記メモリアクセス要求を前記ＣＰＵから受信することを含む、
請求項９の方法。
前記スケーラブルデータファブリックを介して、前記メモリアクセス要求に関連するデータを前記アクティブブリッジチップレットから受信することをさらに含む、
請求項１２の方法。
前記アクティブブリッジチップレットの統合されたキャッシュメモリにデータをキャッシュすることをさらに含み、
前記統合されたキャッシュメモリは、
前記第１のＧＰＵチップレットにおける第１のキャッシュメモリ階層の最終レベルであって、前記第１のキャッシュメモリ階層の第１のレベルは、前記第１のＧＰＵチップレット内でコヒーレントである、前記第１のキャッシュメモリ階層の最終レベルと、
前記ＧＰＵチップレットアレイの第２のＧＰＵチップレットにおける第２のキャッシュメモリ階層の最終レベルであって、前記第２のキャッシュメモリ階層の第１のレベルは、前記第２のＧＰＵチップレット内でコヒーレントである、前記第２のキャッシュメモリ階層の最終レベルと、を含む、
請求項９の方法。
プロセッサであって、
中央処理ユニット（ＣＰＵ）と、
第１のＧＰＵチップレットを含むＧＰＵチップレットアレイであって、前記第１のＧＰＵチップレットは、アクティブブリッジチップレットコントローラを含む、ＧＰＵチップレットアレイと、
統合された最終レベルキャッシュと、を備え、
前記プロセッサは、
前記第１のＧＰＵチップレットにおいて、メモリアクセス要求を前記ＣＰＵから受信することと、
前記第１のＧＰＵチップレットの前記アクティブブリッジチップレットコントローラにおいて、前記メモリアクセス要求に関連するデータが、前記ＧＰＵチップレットアレイの前記第１のＧＰＵチップレット及び第２のＧＰＵチップレットによって共有されるアクティブブリッジチップレットにキャッシュされることを判別することと、
前記メモリアクセス要求を、前記アクティブブリッジチップレットにおける前記統合された最終レベルキャッシュにルーティングすることと、
前記メモリアクセス要求に関連するデータを前記ＣＰＵに返すことと、
を行うように構成されている、
プロセッサ。
前記プロセッサは、スケーラブルデータファブリックを介して、前記メモリアクセス要求に関連するデータを前記アクティブブリッジチップレットに要求するように構成されている、
請求項１５のプロセッサ。
前記プロセッサは、前記スケーラブルデータファブリックを介して、前記メモリアクセス要求に関連するデータを前記第１のＧＰＵチップレットに返すように構成されている、
請求項１６のプロセッサ。
前記プロセッサは、スケーラブルデータファブリックを介して、前記メモリアクセス要求を前記ＣＰＵから受信するように構成されている、
請求項１５のプロセッサ。
前記第１のＧＰＵチップレットは、前記スケーラブルデータファブリックを介して、前記メモリアクセス要求に関連するデータを前記アクティブブリッジチップレットから受信するように構成されている、
請求項１８のプロセッサ。