JP2024511776A

JP2024511776A - モジュール式並列プロセッサのためのダイ積層

Info

Publication number: JP2024511776A
Application number: JP2023558135A
Authority: JP
Inventors: マントルマイケル
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2021-03-30
Filing date: 2022-03-29
Publication date: 2024-03-15
Also published as: KR20240004301A; US20220320042A1; EP4315423A1; WO2022212323A1; CN117397388A; EP4315423A4

Abstract

マルチダイ並列プロセッサ半導体パッケージは、第１のベースＩＣダイ［２０４］を含み、第１のベースＩＣダイは、第１のベースＩＣダイの上に３Ｄ積層された第１の複数の仮想コンピュートダイ［２１２］を含む。並列処理パイプラインロジックの第１のサブセットは、第１の複数の仮想コンピュートダイに配置されている。並列処理パイプラインロジックの第２のサブセットは、第１のベースＩＣダイに配置されている。マルチダイ並列プロセッサ半導体パッケージは、第２のベースＩＣダイ［２０６］を含み、第２のベースＩＣダイは、第２のベースＩＣダイの上に３Ｄ積層された第２の複数の仮想コンピュートダイを含む。能動ブリッジチップ［２１０］は、第１のベースＩＣダイの第１の相互接続構造体を第２のベースＩＣダイの第１の相互接続構造体に通信可能に結合する。【選択図】図２

Description

２つ以上の集積回路（integrated circuit、ＩＣ又は「チップ」）が互いに相互動作するように構成されるマルチチップ集積は、マルチチップモジュール、パッケージ内のシステム及び三次元チップ積層を使用する等のように、様々な技術を含む。いくつかの従来のマルチチップモジュールは、キャリア基板上に、又は、場合によっては、次にキャリア基板上に実装されるインターポーザ（いわゆる「２．５Ｄ」）上に並んで実装された２つ以上の半導体チップを含む。同様に、積層半導体チップアーキテクチャは、チップ間、チップとパッケージとの間、及び、パッケージとプリント回路基板との間に１つ以上の相互接続構造体を有する集積回路設計を含む。

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、マルチダイ並列プロセッサを実装するコンピューティングシステムのブロック図である。いくつかの実施形態による、マルチダイ並列プロセッサの平面図を示すブロック図である。いくつかの実施形態による、マルチダイ並列プロセッサの断面図を示すブロック図である。いくつかの実施形態による、グラフィックス処理積層ダイチップレットの一例のブロック図である。いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用する例示的なグラフィックスプロセッサマルチチップモジュールを示すブロック図である。いくつかの実施形態による、グラフィックス処理積層ダイチップレットの別の例を示すブロック図である。いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用するグラフィックスプロセッサマルチチップモジュールの別の例を示すブロック図である。

グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）又は他の並列処理ユニット等の処理ユニットは、従来、製造するのにますます高価になりつつあるダイ上に展開されるモノリシックデバイスとして製造されている。処理技術の進歩は、集積回路（ＩＣ）上に製造される構成要素の数が増え続けることを可能にしているので、業界は、パッケージ化された集積回路ごとにより多くの回路デバイスを集積するように絶えず努力している。しかしながら、半導体チップの製造は、多くのプロセスステップを含み、各ステップで、製造されたＩＣ内に１つ以上の欠陥（又は設計仕様に対する他の変動）をもたらす不完全性、変動性及び位置合わせ問題が存在し得る。そのような製造欠陥は、最終製品の廃棄を必要とする動作不能なチップをもたらす欠陥を有するチップを生成する可能性がある。

パッケージ化されたＩＣからより多くの回路デバイス及びより多くの性能を可能にする１つの技術は、マルチチップモジュール（multi-chip module、ＭＣＭ）技術の使用によるものである。ＭＣＭは、単一のＩＣダイ上に形成された回路デバイスの複数の個々のモジュールを集積する。様々なＭＣＭ構成要素は、ＭＣＭが単一の構成要素として動作するように、統一基板上に集積されることが多い。マルチチップモジュールは、複雑さに応じて様々な形態となり、既存のチップパッケージのパッケージフットプリントを模倣するように配置されたプリント回路基板（printed circuit board、ＰＣＢ）上に予めパッケージ化されたＩＣを使用することから様々であり得る。ＭＣＭは、複合ＩＣをより小さなＩＣ構成要素で継ぎ合わせることによって、高度の複合ＩＣの歩留まりを向上させるという利点を有する。このようにして、発生する欠陥は、単一の大きな複合ダイではなく、ＭＣＭの個々の構成要素に影響を与える。より大きなダイに影響を及ぼす欠陥は、はるかにコストがかかる。

これらの問題に対処し、改善されたシステム性能を可能にするために、図１～図７は、より大きいモノリシックプロセッサに対して同様の性能を有するデバイスを形成するために通信可能に縫い合わされた複数の３Ｄダイ積層ビルディングブロックを利用するシステム及びデバイスを説明する。様々な実施形態において、マルチダイ並列プロセッサ半導体パッケージは、第１のベースＩＣダイを含み、第１のベースＩＣダイは、第１のベースＩＣダイの上に３Ｄ積層された第１の複数の仮想コンピュートダイを含む。並列処理パイプラインロジックの第１のサブセットは、第１の複数の仮想コンピュートダイに配置されている。加えて、並列処理パイプラインロジックの第２のサブセットは、第１のベースＩＣダイに配置されている。また、マルチダイ並列プロセッサは、第２のベースＩＣダイを含み、第２のベースＩＣダイは、第２のベースＩＣダイの上に３Ｄ積層された第２の複数の仮想コンピュートダイを含む。能動ブリッジチップは、第１のベースＩＣダイの第１の相互接続構造体を第２のベースＩＣダイの第１の相互接続構造体に通信可能に結合する。このようにして、より多数のより小さいフットプリントのベースダイが、シリコンウェハから製造され得る。欠陥を含むより小さいダイのサブセットは、残りの良好なダイ（すなわち、非欠陥ダイ）の上に処理ユニット（例えば、仮想コンピュートダイ）を形成する前に廃棄され、それによって、欠陥のある大きな複合ダイに起因して積層デバイスをスクラップ処分することに関連付けられたコストを低減する。

図１は、いくつかの実施形態による、マルチダイ並列プロセッサを実装するコンピューティングシステム１００の一実施形態のブロック図である。様々な実施形態において、コンピューティングシステム１００は、少なくとも１つ以上のプロセッサ１０２Ａ～１０２Ｎと、ファブリック１０４と、入力／出力（input/output、Ｉ／Ｏ）インターフェース１０６と、メモリコントローラ１０８と、ディスプレイコントローラ１１０と、他のデバイス１１２と、を含む。様々な実施形態では、グラフィックス及び他のタイプのワークロードのための命令の実行をサポートするために、コンピューティングシステム１００は、中央処理ユニット（central processing unit、ＣＰＵ）等のホストプロセッサ１１４を含む。様々な実施形態では、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、サーバ、又は、様々な他のタイプのコンピューティングシステム若しくはデバイスのうち何れかを含む。コンピューティングシステム１００の構成要素の数は、いくつかの実施形態において変化することに留意されたい。また、いくつかの実施形態では、コンピューティングシステム１００は、図１に示されていない他の構成要素を含むことにも留意されたい。加えて、他の実施形態では、コンピューティングシステム１００は、図１に示す以外の方法で構築される。

ファブリック１０４は、コンピューティングシステム１００の構成要素の間で通信するために利用される様々なタイプのプロトコルの何れかに準拠する任意の通信相互接続を表す。ファブリック１０４は、処理ユニット１０２、Ｉ／Ｏインターフェース１０６、メモリコントローラ１０８、ディスプレイコントローラ１１０及び他のデバイス１１２を互いに接続するデータパス、スイッチ、ルータ及び他のロジックを提供する。ファブリック１０４は、コヒーレンシを容易にするために、要求、応答及びデータトラフィック、並びに、プローブトラフィックを処理する。また、ファブリック１０４は、コンピューティングシステム１００の様々な構成要素への割込み要求ルーティング及び構成アクセスパスを処理する。加えて、ファブリック１０４は、構成要求、応答及び構成データトラフィックを処理する。いくつかの実施形態では、ファブリック１０４は、共有バス構成、クロスバー構成及びブリッジを有する階層バスを含むバスベースである。他の実施形態では、ファブリック１０４は、パケットベースであり、ブリッジ、クロスバー、ポイントツーポイント又は他の相互接続を有する階層である。ファブリック１０４の観点から、コンピューティングシステム１００の他の構成要素は、「クライアント」と呼ばれる。ファブリック１０４は、様々なクライアントによって生成された要求を処理し、その要求を他のクライアントに渡すように構成されている。

メモリコントローラ１０８は、任意の数及びタイプのメモリデバイスに結合された任意の数及びタイプのメモリコントローラを表す。例えば、メモリコントローラ１０８に結合されたメモリデバイスのタイプは、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体ランダムアクセスメモリ（Ferroelectric Random Access Memory、ＦｅＲＡＭ）等を含む。メモリコントローラ１０８は、プロセッサ１０２、Ｉ／Ｏインターフェース１０６、ディスプレイコントローラ１１０及び他のデバイス１１２によって、ファブリック１０４を介してアクセス可能である。Ｉ／Ｏインターフェース１０６は、任意の数及びタイプのＩ／Ｏインターフェース（例えば、周辺構成要素相互接続（peripheral component interconnect、ＰＣＩ）バス、ＰＣＩ拡張（PCI-Extended、ＰＣＩ－Ｘ）、ＰＣＩＥ（ＰＣＩＥｘｐｒｅｓｓ）バス、ギガビットイーサネット（登録商標）（gigabit Ethernet、ＧＢＥ）バス、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ））を表す。様々なタイプの周辺デバイスがＩ／Ｏインターフェース１０６に結合される。そのような周辺デバイスは、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶デバイス、ネットワークインターフェースカード等を含む（が、これらに限定されない）。他のデバイス１１２は、任意の数及びタイプのデバイス（例えば、マルチメディアデバイス、ビデオコーデック）を表す。

様々な実施形態において、プロセッサ１０２の各々は、並列プロセッサ（例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（general-purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（Artificial Intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等）である。各並列プロセッサ１０２は、並列プロセッサが単一の半導体集積回路のように使用可能（例えば、アドレス指定可能）であるように、ブリッジチップと共に通信可能に結合された２つ以上のベース集積回路ダイ（図２に関して以下でより詳細に説明される）を含むマルチチップモジュール（例えば、半導体ダイパッケージ）として構築される。本開示で使用される場合、「ダイ」及び「チップ」という用語は、互換的に使用される。当業者は、従来の（例えば、マルチチップではない）半導体集積回路が、ウェハとして又はウェハ内に形成され、後に（例えば、ウェハがダイシングされる場合に）ウェハから分離されるダイ（例えば、シングルチップＩＣ）として製造され、多くの場合、複数のＩＣがウェハ内に同時に製造されることを認識するであろう。ＩＣ及び場合によってはディスクリート回路並びに場合によっては他の構成要素（プリント回路基板、インターポーザ、及び、場合によっては他のものを含む非半導体パッケージング基板等）は、マルチダイ並列プロセッサ内に組み立てられる。

したがって、以下で図２～図７に関してより詳細に説明するように、様々な実施形態では、個々の並列プロセッサ１０２の各々は、より大きいモノリシックプロセッサに対して同様の性能を有するデバイスを形成するために、能動ブリッジチップと共に通信可能に結合された２つ以上の並列処理積層ダイチップレットを含む。様々な実施形態が、例示及び説明を容易にするためにＧＰＵの特定のコンテキストにおいて以下で説明されるが、様々な実施形態では、ＧＰＵ処理パイプライン構成要素の複数の個別のダイへの編成は、本開示の範囲から逸脱することなく、任意の並列プロセッサに適用可能であることを認識されたい。例えば、様々な実施形態では、本明細書で説明する概念は、加速処理ユニット（accelerated processing unit、ＡＰＵ）、離散ＧＰＵ（discrete GPU、ｄＧＰＵ）、人工知能（artificial intelligence、ＡＩ）アクセラレータ、他の並列プロセッサ、中央処理ユニット（ＣＰＵ）等を含む他のプロセッサにも同様に適用可能である。

図２を参照すると、いくつかの実施形態による、並列プロセッサＭＣＭ２０２の平面図２００を示すブロック図が示されている。並列プロセッサＭＣＭ２０２（例えば、図１のプロセッサ１０２）は、Ｎ個のベースダイを含む単一の半導体チップパッケージとして形成される。平面図２００に示されるように、並列プロセッサＭＣＭ２０２は、第１のベースＩＣダイ２０４と、第２のベースＩＣダイ２０６と、を含む。第１のベースＩＣダイ２０４は、第１のベースＩＣダイ２０４の少なくとも第１のエッジ（一般に「ビーチフロント（beachfront）」と呼ばれる）に沿ってダイ間相互接続構造体２０８を含む。同様に、第２のベースＩＣダイ２０６も、第２のベースＩＣダイ２０６の少なくとも第１のエッジに沿ってダイ間相互接続構造体２０８を含む。

様々な実施形態では、並列プロセッサＭＣＭ２０２は、それぞれのダイ間相互接続構造体２０８を介して第１のベースＩＣダイ２０４を第２のベースＩＣダイ２０６に通信可能に結合するブリッジチップ２１０を含む。様々な実施形態では、ブリッジチップ２１０は、受動的（passive）又は能動的（active）であり、ブリッジチップ２１０は、データ／電気接続のみを含むか、又は、所定のブリッジチップ２１０は、それ自体のロジックを含む。例えば、いくつかの実施形態では、ブリッジチップ２１０は、第１のベースＩＣダイ２０４と第２のベースＩＣダイ２０６との間の高帯域幅ダイ間相互接続として動作する能動シリコンを有する能動ブリッジチップである。他の実施形態では、ブリッジチップ２１０は、受動チップである。

いくつかの実施形態では、能動ブリッジチップ２１０は、１つ以上のキャッシュバッファを含み、したがって、メモリ物理的インターフェース（physical interface、ＰＨＹ）を必要とせずに、依然としてベースダイ間通信を提供しながら、ダイ間の同期信号をルーティングするために、ビーチフロントエッジ接続性（beachfront edge connectivity）を拡張する。キャッシュは、当然、能動構成要素であり（すなわち、動作のために電力を必要とし）、そのため、ブリッジチップ２１０は、それらのキャッシュバッファを保持するために能動的である。キャッシュサイジングは、例えば、異なるベースダイ構成と共に異なるアプリケーションのために、能動ブリッジチップ２１０の物理的サイズの関数（function）として構成可能であり、能動ブリッジチップ２１０が通信可能に結合されるベースダイは、ブリッジチップ２１０上のこの外部キャッシュのコスト（例えば、物理的空間、電力制約等に関連するコスト）を支払わない。

様々な実施形態では、ブリッジチップ２１０は、（例えば、ベースＩＣダイ２０４、２０６を共通のインターポーザ基板に実装し、インターポーザがアセンブリ全体の範囲に及ぶことが多い従来の２．５Ｄトポロジによって提供されるような、ダイ間通信のためにインターポーザによって提供される電気的接続に完全に依存するのとは対照的に）２つのロジックチップを共に通信可能に結合し、２つのダイの隣接するエッジ間に限られた物理的範囲でダイ間接続性を提供する、自由並進（free translation）で小さなシリコンボンドを提供するローカルシリコン相互接続（local silicon interconnect、ＬＳＩ）を含む。このようにして、中間ブリッジチップ２１０は、複数のベースＩＣダイ（例えば、第１のベースＩＣダイ２０４及び第２のベースＩＣダイ２０６）を共に通信可能に結合する。

図２に示すように、並列プロセッサＭＣＭ２０２は、第１のベースＩＣダイ２０４の上に積層された２つの仮想並列処理ユニット（virtual parallel processing unit、ｖＰＰＵ）ダイ２１２（以下、用語を簡単にするために「仮想コンピュートダイ」と呼ぶ）を含む。同様に、並列プロセッサＭＣＭ２０２は、第２のベースＩＣダイ２０６の上に積層された２つの仮想コンピュートダイ２１２を含む。ｖＰＰＵ／仮想コンピュートダイ２１２は、物理的並列処理ユニットが複数のｖＰＰＵに分割されるという意味で「仮想」である。様々な実施形態において、各ｖＰＰＵダイ１２は、リソース（例えば、フレームバッファ）のシェア（多くの場合、等しいシェア）と、物理的並列処理ユニットの並列処理能力と、を含む。様々な実施形態において、コンピュートパイプラインは、ベースダイ（例えば、第１のベースＩＣダイ２０４及び第２のベースＩＣダイ２０６）と積層コンピュートダイ（例えば、仮想コンピュートダイ２１２）との間で分割される。

例えば、ＧＰＵのコンテキストにおいて図４に関して以下でより詳細に説明されるように、様々な実施形態において、各ｖＰＰＵダイ２１２は、並列処理パイプラインマイクロアーキテクチャの少なくとも一部を含むシェーダエンジンダイ（shader engine die、ＳＥＤ）である。様々な実施形態では、ＳＥＤは、シェーダシステム（又はフルシェーダエンジン）、ピクセルパイプ、ジオメトリパイプ等を含む。しかしながら、コマンドプロセッサ等のグラフィックス処理パイプラインの少なくとも一部は、ベースＩＣダイ内に保持される。共通インターポーザの上にコンピュートコアを単に積層するのではなく、ベースダイは、２つ以上の個別のチップ（例えば、第１のベースＩＣダイ２０４及び第２のベースＩＣダイ２０６）に分割される。並列プロセッサＭＣＭアーキテクチャの加えての詳細は、いくつかの実施形態による、マルチダイ並列プロセッサの断面図を示すブロック図である図３を参照して理解され得る。図３００は、断面Ａ－Ａで取られた図２の第１のベースＩＣダイ２０４及びその積層仮想コンピュートダイ２１２、第２のベースＩＣダイ２０４及びその積層仮想コンピュートダイ２１２、並びに、ブリッジチップ２１０の断面図を提供する。

図２に示されるような様々な実施形態において、ベースＩＣダイ２０４は、ベースＩＣダイ２０６と同一である。他の実施形態では、ベースＩＣダイ２０４は、ベースＩＣダイ２０６の構造体とは異なる構造体を有する。加えて、様々な実施形態において、ベースＩＣダイは、ベースＩＣダイの並進（又は回転）が、ベースＩＣダイのエッジ（例えば、ビーチフロント）における相互接続構造体を変化させないように対称であり、これは、互いに、メモリダイ、他のシステムオンチップ（system on a chip、ＳｏＣ）ダイ等と組み合わせるためのモジュール式ビルディングブロックとしてベースＩＣダイ（及び対応する積層コンピュートダイ）を提供する際の柔軟性を増加させる。様々な実施形態において、ベースＩＣダイは、他のダイに通信可能に結合するための第２のチップ間相互接続構造体２０８、物理層（physical layer、ＰＨＹ）インターフェース等のような１つ以上の追加の相互接続構造体を含むことを理解されたい。このようにして、高スループット相互接続（例えば、ブリッジチップ２１０等のシリコンブリッジ）は、複数のベースダイ（例えば、ベースＩＣダイ２０４、２０６）をモジュール式構成要素として互いにリンクし、より大きいモノリシックＧＰＵに匹敵する性能を有するデバイスを形成するために、複数のダイ間の動作を調整するための協調コマンドプロセッサを使用する。

図４は、いくつかの実施形態による、例示的なグラフィックス処理積層ダイチップレットのブロック図である。平面図４００に示すように、グラフィックス処理積層ダイチップレット４０２は、ベース能動インターポーザダイ４０４を含む。グラフィックス処理積層ダイチップレット４０２は、例示及び説明を容易にするためにＧＰＵ用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ（図２及び図３を参照してより広範に上述されたような）の何れにも適用可能であることを認識されたい。加えて、様々な実施形態では、本明細書で使用される場合、「チップレット」という用語は、限定するものではないが、以下の特性を含む任意のデバイスを指す。１）チップレットは、完全な問題を解くために使用される計算ロジックの少なくとも一部を含む能動シリコンダイを含む（すなわち、計算作業負荷は、これらの能動シリコンダイの複数にわたって分散される）、２）チップレットは、同じ基板上にモノリシックユニットとして一緒にパッケージ化される、３）プログラミングモデルは、これらの個別の計算ダイ（すなわち、グラフィックス処理積層ダイチップレット４０２）を単一のモノリシックユニットとして組み合わせるという概念を維持する（すなわち、各チップレットは、計算作業負荷を処理するためにチップレットを使用するアプリケーションに個別のデバイスとして露出されない）。

グラフィックス処理積層ダイチップレット４０２のベース能動インターポーザダイ（active interposer die、ＡＩＤ）４０４（図２の第１のベースＩＣダイ２０４と同様）は、ベース能動インターポーザダイ４０４の少なくとも第１のエッジ（一般に「ビーチフロント」と呼ばれる）に沿ってダイ間相互接続構造体４０８を含む。加えて、グラフィックス処理積層ダイチップレット４０２は、能動インターポーザダイ４０４の上に形成された複数のシェーダエンジンダイ（shader engine die、ＳＥＤ）４１２（図２の仮想コンピュートダイ２１２と同様であるが、様々な実施形態では、任意の適切な並列処理ユニットを含む）を含む。２つのＳＥＤ４１２を含むように示されているが、当業者であれば、任意の数の処理ユニットが、能動インターポーザダイ４０４の上に積層された処理ユニット層内に配置されてもよいことを認識するであろう。この構成では、複数のシェーダエンジンダイ４１２を能動インターポーザダイ４０４の上の層に配置することによって、従来のグラフィックス複合ダイ（graphics complex die、ＧＣＤ）の一部が、３Ｄダイ積層方法論に基づいて２階に押し上げられる。

様々な実施形態では、各シェーダエンジンダイ４１２は、ＧＰＵのリソース及びグラフィックス処理能力の共有（しばしば、等しい共有）を含むが、グラフィックスパイプライン全体を含まない。特に、シェーダエンジンダイ４１２は、グラフィックス処理パイプラインマイクロアーキテクチャの少なくとも一部を含む。例えば、いくつかの実施形態では、シェーダエンジンダイ４１２は、シェーダシステム（図示せず）、ピクセルパイプ（図示せず）、ジオメトリロジック（図示せず）等を含む。しかしながら、コマンドプロセッサ４０６等のグラフィックス処理パイプラインの少なくとも一部は、下にあるベース能動インターポーザダイ４０４内に配置されている。加えて、様々な実施形態において、ベース能動インターポーザダイ４０４は、１つ以上のレベルのキャッシュメモリ４１０と、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）モジュール等の外部システムメモリ（図示せず）と通信するための１つ以上のメモリコントローラＰＨＹ４１４と、を含む。メモリコントローラ（図示せず）及びメモリコントローラＰＨＹ４１４は、他の実施形態では、ベース能動インターポーザダイ４０４とは別のダイ上に設けられる。

すなわち、様々なキャッシュ及び相互接続性構成要素が、ベース能動インターポーザダイ４０４に配置されている（一方、高電力能動処理構成要素は、積層ＳＥＤ４１２内に配置されている）。加えて、複数のＳＥＤ４１２を一緒に制御するロジック（例えば、コマンドプロセッサ４０６）等のグラフィックスパイプラインロジックの少なくとも一部も、ベース能動インターポーザダイ４０４に配置されている。このようにして、能動インターポーザダイ４０４は、複数のＳＥＤ４１２を一緒に制御してジオメトリ状態及びコマンド処理のためのデータを制御するキャッシュ及びロジックを含む。この、能動インターポーザダイ４０４及び複数のＳＥＤ４１２を一緒に機能的にグループ化することは、グラフィックス処理積層ダイチップレット４０２（又は略して「ＧＰＵチップレット」と称されてもよい）を形成する。

図５を参照すると、いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用するグラフィックスプロセッサＭＣＭ５０２の平面図５００のブロック図が示されている。グラフィックスプロセッサＭＣＭ５０２（図２の並列プロセッサＭＣＭ２０２と同様）は、図４のＮ＝２個の通信可能に結合されたグラフィックス処理積層ダイチップレット４０２を含む単一の半導体チップパッケージとして形成されている。平面図５００に示されるように、グラフィックスプロセッサＭＣＭ５０２は、第１のグラフィックス処理積層ダイチップレット４０２ａ及び第２のグラフィックス処理積層ダイチップレット４０２ｂを含む。

様々な実施形態において、グラフィックスプロセッサＭＣＭ５０２は、それぞれのダイ間相互接続構造体４０８を介して、第１のグラフィックス処理積層ダイチップレット４０２ａを第２のグラフィックス処理積層ダイチップレット４０２ｂに通信可能に結合するブリッジチップ５０４を含む。様々な実施形態では、ブリッジチップ５０４は、受動的又は能動的であり、ブリッジチップ５０４は、データ／電気接続のみを含むか、又は、所定のブリッジチップ５０４は、それ自体のロジックを含む。例えば、いくつかの実施形態では、ブリッジチップ５０４は、第１のグラフィックス処理積層ダイチップレット４０２ａと第２のグラフィックス処理積層ダイチップレット４０２ｂとの間の高帯域幅ダイ間相互接続として動作する能動シリコンを有する能動ブリッジチップである。他の実施形態では、ブリッジチップ５０４は、受動チップである。

いくつかの実施形態では、能動ブリッジチップ５０４は、１つ以上のキャッシュバッファを含み、したがって、依然としてベースダイ間通信を提供しながら、ダイ間の同期信号をルーティングするために、ビーチフロントエッジ接続性を拡張する。キャッシュは、当然、能動構成要素であり（すなわち、動作のために電力を必要とする）、そのため、ブリッジチップ５０４は、それらのキャッシュバッファを保持するために能動的である。キャッシュサイジングは、例えば、異なる積層ダイチップレット構成と共に異なるアプリケーションのために、能動ブリッジチップ５０４の物理的サイズの関数として構成可能であり、能動ブリッジチップ５０４が通信可能に結合される積層ダイチップレットは、ブリッジチップ５０４上のこの外部キャッシュのコスト（例えば、物理的空間、電力制約等に関連するコスト）を支払わない。

様々な実施形態において、ブリッジチップ５０４は、（例えば、積層ダイチップレット４０２を共通のインターポーザ基板に実装し、インターポーザがアセンブリ全体の範囲に及ぶことが多い従来の２．５Ｄトポロジによって提供されるような、ダイ間通信のためにインターポーザによって提供される電気接続に完全に依存するのとは対照的に）２つのロジックチップを共に通信可能に結合し、２つのダイの隣接するエッジ間に限られた物理的範囲でダイ間接続性を提供する、自由並進で小さなシリコンボンドを提供するローカルシリコン相互接続（ＬＳＩ）を含む。このようにして、中間ブリッジチップ５０４は、複数の積層ダイチップレット（例えば、第１のグラフィックス処理積層ダイチップレット４０２ａ及び第２のグラフィックス処理積層ダイチップレット４０２ｂ）を共に通信可能に結合する。加えて、様々な実施形態において、ブリッジチップ５０４は、メモリの共通ビューを提供するために、２つの積層ダイチップレットの間にデータファブリック（図示せず）を担持する。

複数のグラフィックス処理積層ダイチップレットを単一パッケージ内で一緒に（例えば、第１のグラフィックス処理積層ダイチップレット４０２ａを第２のグラフィックス処理積層ダイチップレット４０２ｂに）結合することは、単一の大きなグラフィックス複合ダイ（ＧＣＤ）として効果的に動作するが、より小さいモジュール式ダイ構成要素から構築されるデバイスをもたらす。様々な実施形態において、グラフィックスプロセッサＭＣＭ５０２は、グラフィックス処理積層ダイチップレットのメモリコントローラＰＨＹ４１４を介して１つ以上の外部システムメモリモジュール５０６に通信可能に結合される。加えて、いくつかの実施形態では、グラフィックスプロセッサＭＣＭ５０２は、グラフィックス処理積層ダイチップレット４０２とは別のマルチメディア及びＩ／Ｏダイ（multimedia and I/O die、ＭＩＤ）５０８内の入力／出力（Ｉ／Ｏ）ロジックを含む。

グラフィックス処理積層ダイチップレットの結合から生じる後続のＭＣＭのモジュール性及びスケーラビリティは、他の要因の中でも、グラフィックス処理積層ダイチップレットのエッジに沿った相互接続構造体の数及び各グラフィックス処理積層ダイチップレットの上に３Ｄ積層されたシェーダエンジンダイ（又は他の仮想コンピュートダイ）の数に少なくとも基づく関数であることを当業者は認識するであろう。図６を参照すると、いくつかの実施形態による、グラフィックス処理積層ダイチップレットの別の例が示されている。平面図６００に示すように、グラフィックス処理積層ダイチップレット６０２は、ベース能動インターポーザダイ６０４を含む。グラフィックス処理積層ダイチップレット６０２は、例示及び説明を容易にするためにＧＰＵ用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ（図２及び図３を参照してより広範に前述されたような）の何れにも適用可能であることを認識されたい。加えて、様々な実施形態では、本明細書で使用される場合、「チップレット」という用語は、限定するものではないが、以下の特性を含む任意のデバイスを指す。１）チップレットは、完全な問題を解くために使用される計算ロジックの少なくとも一部を含む能動シリコンダイを含む（すなわち、計算作業負荷は、これらの能動シリコンダイの複数にわたって分散される）、２）チップレットは、同じ基板上にモノリシックユニットとして一緒にパッケージ化される、３）プログラミングモデルは、これらの個別の計算ダイ（すなわち、グラフィックス処理積層ダイチップレット４０２）を単一のモノリシックユニットとして組み合わせるという概念を維持する（すなわち、各チップレットは、計算作業負荷を処理するためにチップレットを使用するアプリケーションに個別のデバイスとして露出されない）。

グラフィックス処理積層ダイチップレット６０２のベース能動インターポーザダイ（ＡＩＤ）６０４（図２の第１のベースＩＣダイ２０４と同様）は、ベース能動インターポーザダイ６０４の第１のエッジ（一般に「ビーチフロント」と呼ばれる）に沿って第１のダイ間相互接続構造体６０８ａを含む。加えて、グラフィックス処理積層ダイチップレット６０２は、ベース能動インターポーザダイ６０４の第２のエッジに沿って第２のダイ間相互接続構造体６０８ｂを含む。第１のエッジに沿った第１のダイ間相互接続構造体６０８ａは、ベース能動インターポーザダイ６０４の第２のエッジに沿った第２のダイ間相互接続構造体６０８ｂに対して平行に配置されているものとして図６に示されているが、当業者であれば、様々な実施形態において、第１のダイ間相互接続構造体６０８ａは、空間において相対的に垂直に配置されたベース能動インターポーザダイ６０４のエッジに沿って（例えば、ダイ６０４の左エッジ及び上部／下部エッジに沿って）配置されてもよいことを認識するであろう。加えて、いくつかの実施形態では、ベース能動インターポーザダイ６０４は、ベース能動インターポーザダイ６０４の他のビーチフロントエッジに沿って３つ以上の相互接続構造体を含む。

グラフィックス処理積層ダイチップレット６０２は、能動インターポーザダイ６０４の上に形成された複数のシェーダエンジンダイ（ＳＥＤ）６１２（図２の仮想コンピュートダイ２１２と同様であるが、様々な実施形態では、任意の適切な並列処理ユニットを含む）を含む。３つのＳＥＤ６１２を含むように示されているが、当業者であれば、任意の数の処理ユニットが、能動インターポーザダイ６０４の上に積層された処理ユニット層内に配置されてもよいことを認識するであろう。この構成では、複数のシェーダエンジンダイ６１２を能動インターポーザダイ６０４の上の層に配置することによって、従来のグラフィックス複合ダイ（ＧＣＤ）の一部が、３Ｄダイ積層方法論に基づいて２階に押し上げられる。

様々な実施形態では、各シェーダエンジンダイ６１２は、ＧＰＵのリソース及びグラフィックス処理能力の共有（しばしば等しい共有）を含むが、グラフィックスパイプライン全体を含まない。特に、シェーダエンジンダイ６１２は、グラフィックス処理パイプラインマイクロアーキテクチャの少なくとも一部を含む。例えば、いくつかの実施形態では、シェーダエンジンダイ６１２は、シェーダシステム（図示せず）、ピクセルパイプ（図示せず）、ジオメトリロジック（図示せず）等を含む。しかしながら、コマンドプロセッサ６０６等のグラフィックス処理パイプラインの少なくとも一部は、下にあるベース能動インターポーザダイ６０４内に配置されている。加えて、様々な実施形態において、ベース能動インターポーザダイ６０４は、１つ以上のレベルのキャッシュメモリ６１０と、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）モジュール等の外部システムメモリ（図示せず）と通信するための１つ以上のメモリコントローラＰＨＹ６１４と、を含む。メモリコントローラ（図示せず）及びメモリコントローラＰＨＹ６１４は、他の実施形態では、ベース能動インターポーザダイ６０４とは別のダイ上に設けられる。

すなわち、様々なキャッシュ及び相互接続性構成要素がベース能動インターポーザダイ６０４に配置されている（一方、高電力能動処理構成要素は、積層ＳＥＤ６１２内に配置されている）。加えて、複数のＳＥＤ６１２を一緒に制御するロジック（例えば、コマンドプロセッサ６０６）等のグラフィックスパイプラインロジックの少なくとも一部も、ベース能動インターポーザダイ６０４に配置されている。このようにして、能動インターポーザダイ６０４は、複数のＳＥＤ６１２を一緒に制御してジオメトリ状態及びコマンド処理のためのデータを制御するキャッシュ及びロジックを含む。この、能動インターポーザダイ６０４及び複数のＳＥＤ６１２一緒に機能的にグループ化することは、グラフィックス処理積層ダイチップレット６０２（又は略して「ＧＰＵチップレット」と称されてもよい）を形成する。

図７を参照すると、いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用するグラフィックスプロセッサＭＣＭ７０２の平面図７００のブロック図が示されている。グラフィックスプロセッサＭＣＭ７０２（図２の並列プロセッサＭＣＭ２０２と同様）は、図６のＮ＝３個の通信可能に結合されたグラフィックス処理積層ダイチップレット６０２を含む単一の半導体チップパッケージとして形成されている。平面図７００に示されるように、グラフィックスプロセッサＭＣＭ７０２は、第１のグラフィックス処理積層ダイチップレット７０２ａ、第２のグラフィックス処理積層ダイチップレット７０２ｂ、及び、第３のグラフィックス処理積層ダイチップレット７０２ｃを含む。

理解されるように、グラフィックス処理積層ダイチップレット６０２に関連付けられたダイ間相互接続構造体６０８ａ、６０８ｂの数の増加は、（例えば、各積層ダイチップレット４０２上の単一の相互接続構造体４０８に起因して、図５に示されるようなペアにしかなり得ない積層ダイチップレット４０２と比較して）より多数の積層ダイチップレットが単一パッケージ内で共に通信可能に結合されることを可能にする。例えば、様々な実施形態において、グラフィックスプロセッサＭＣＭ７０２は、第１のグラフィックス処理積層ダイチップレット７０２ａを第２のグラフィックス処理積層ダイチップレット７０２ｂに通信可能に結合する第１のブリッジチップ７０４ａを含む。特に、第１のブリッジチップ７０４ａは、第１のグラフィックス処理積層ダイチップレット７０２ａの第２のダイ間相互接続構造体６０８ｂを、第２のグラフィックス処理積層ダイチップレット７０２ｂの第１のダイ間相互接続構造体６０８ａに通信可能に結合する。加えて、グラフィックスプロセッサＭＣＭ７０２は、第２のグラフィックス処理積層ダイチップレット７０２ｂを第３のグラフィックス処理積層ダイチップレット７０２ｃに通信可能に結合する第２のブリッジチップ７０４ｂを含む。特に、第２のブリッジチップ７０４ｂは、第２のグラフィックス処理積層ダイチップレット７０２ｂの第２のダイ間相互接続構造体６０８ｂを、第３のグラフィックス処理積層ダイチップレット７０２ｃの第１のダイ間相互接続構造体６０８ａに通信可能に結合する。

様々な実施形態では、ブリッジチップ７０４は、受動的又は能動的であり、各ブリッジチップ７０４は、データ／電気接続のみを含むか、又は、所定のブリッジチップ７０４は、それ自体のロジックを含む。例えば、いくつかの実施形態では、各ブリッジチップ７０４は、グラフィックス処理積層ダイチップレット６０２間の高帯域幅ダイ間相互接続として動作する能動シリコンを有する能動ブリッジチップである。他の実施形態では、ブリッジチップ７０４は、受動チップである。

いくつかの実施形態では、能動ブリッジチップ７０４は、１つ以上のキャッシュバッファを含み、したがって、依然としてベースダイ間通信を提供しながら、ダイ間の同期信号をルーティングするために、ビーチフロントエッジ接続性を拡張する。キャッシュは、当然、能動構成要素であり（すなわち、動作のために電力を必要とする）、そのため、ブリッジチップ７０４は、それらのキャッシュバッファを保持するために能動的である。キャッシュサイジングは、例えば、異なる積層ダイチップレット構成と共に異なるアプリケーションのために、能動ブリッジチップ７０４の物理的サイズの関数として構成可能であり、能動ブリッジチップ７０４が通信可能に結合される積層ダイチップレットは、ブリッジチップ７０４上のこの外部キャッシュのコスト（例えば、物理的空間、電力制約等に関連するコスト）を支払わない。

様々な実施形態において、ブリッジチップ７０４は、（例えば、積層ダイチップレット６０２を共通のインターポーザ基板に実装し、インターポーザがアセンブリ全体の範囲に及ぶことが多い従来の２．５Ｄトポロジによって提供されるような、ダイ間通信のためにインターポーザによって提供される電気接続に完全に依存するのとは対照的に）２つのロジックチップを共に通信可能に結合し、２つのダイの隣接するエッジ間に限られた物理的範囲でダイ間接続性を提供する、自由並進で小さなシリコンボンドを提供するローカルシリコン相互接続（ＬＳＩ）を含む。このようにして、中間ブリッジチップ７０４は、複数の積層ダイチップレット（例えば、第１のグラフィックス処理積層ダイチップレット６０２ａ及び第２のグラフィックス処理積層ダイチップレット６０２ｂ）を共に通信可能に結合する。加えて、様々な実施形態において、ブリッジチップ７０４は、メモリの共通ビューを提供するために、２つの積層ダイチップレットの間にデータファブリック（図示せず）を担持する。

複数のグラフィックス処理積層ダイチップレットを単一パッケージ内で一緒に結合すること（例えば、第１のグラフィックス処理積層ダイチップレット６０２ａを第２のグラフィックス処理積層ダイチップレット６０２ｂに結合し、これは次いで、第３のグラフィックス処理積層ダイチップレット６０２ｃに結合される）は、単一の大きなグラフィックス複合ダイ（ＧＣＤ）として効果的に動作するが、より小さなモジュール式ダイ構成要素から構築されるデバイスをもたらす。様々な実施形態において、グラフィックスプロセッサＭＣＭ７０２は、グラフィックス処理積層ダイチップレットのメモリコントローラＰＨＹ６１４を介して１つ以上の外部システムメモリモジュール７０６に通信可能に結合される。加えて、いくつかの実施形態では、グラフィックスプロセッサＭＣＭ７０２はまた、グラフィックス処理積層ダイチップレット６０２とは別のマルチメディア及びＩ／Ｏダイ（ＭＩＤ）７０８内の入力／出力（Ｉ／Ｏ）ロジックを含む。

ベースＩＣダイ／グラフィックス処理積層ダイチップレットの様々な実施形態が、行方向の線形結合のコンテキストにおいて本明細書で説明されてきたが、当業者は、異なる相互接続構造体の位置決め及び／又はベースダイ当たりの相互接続構造体の数の増加が、様々な他の積層ダイチップレット構成を可能にすることを認識するであろう。例えば、いくつかの実施形態では、図６を参照すると、第１のダイ間相互接続構造体６０８ａは、空間において相対的に垂直に配置されたベース能動インターポーザダイ６０４のエッジに沿って（例えば、ダイ６０４の左エッジ及び上部／下部エッジに沿って）配置され得る。加えて、いくつかの実施形態では、ベース能動インターポーザダイ６０４は、ベース能動インターポーザダイ６０４の他のビーチフロントエッジに沿って３つ以上の相互接続構造体を含む。そのような相互接続構造体配置は、例えば、並列プロセッサＭＣＭ当たりＮ×Ｍ個の積層ダイチップレットを有する様々なメッシュ状タイリング構成を可能にする。

したがって、本明細書で説明されるように、複数の個別のダイの間でＧＰＵ処理パイプライン構成要素を割り当てて、その後に能動ブリッジチップで通信可能に縫い合わされ得るより小さいフットプリントビルディングブロック（例えば、本明細書で説明される様々な並列処理積層ダイチップレット）を形成することは、より大きいモノリシックプロセッサに対して同様の性能を有するデバイスを依然として形成することができる一方で、チップレットの態様でスケーラブルなグラフィックスパイプ／チップの製造を可能にする。このモジュール式３Ｄグラフィックス概念は、スケーラブルであり、個別に更新可能であり、高歩留まり態様を有する小さいダイを使用することによってアセンブリのコストを軽減し、半導体ウェハ当たりの生産のダイ歩留まりの増加を可能にするだけでなく、また半導体ウェハ当たりの良好なダイの量を増加させる点で価値を提供する。

本明細書に開示されるように、いくつかの実施形態では、並列プロセッサは、第１のベース集積回路（ＩＣ）ダイであって、第１のベースＩＣダイの上に３Ｄ積層された第１の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第１のサブセットが、第１の複数の仮想コンピュートダイに配置されており、更に、並列処理パイプラインロジックの第２のサブセットが、第１のベースＩＣダイに配置されている、第１のベースＩＣダイと、第２のベースＩＣダイであって、第２のベースＩＣダイの上に３Ｄ積層された第２の複数の仮想コンピュートダイを含む、第２のベースＩＣダイと、第１のベースＩＣダイの第１の相互接続構造体を第２のベースＩＣダイの第１の相互接続構造体に通信可能に結合する能動ブリッジチップと、を含む。一態様では、並列プロセッサは、第２のベースＩＣダイの相互接続構造体を第３のベースＩＣダイの第１の相互接続構造体に通信可能に結合する第２の能動ブリッジチップを含み、第３のベースＩＣダイは、第２のベースＩＣダイの上に３Ｄ積層された第３の複数の仮想コンピュートダイを含む。別の態様では、第１の複数の仮想コンピュートダイ及び第２の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む。更に別の態様では、第１のベースＩＣダイにおける並列処理パイプラインロジックの第２のサブセットは、第１の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む。

一態様では、第１のベースＩＣダイは、並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む。別の態様では、第２のベースＩＣダイは、第２の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの第１のサブセットを含み、更に、並列処理パイプラインロジックの第２のサブセットは、第２のベースＩＣダイに配置されている。

いくつかの実施形態では、システムは、１つ以上の並列プロセッサによる実行のためのコマンドストリームを生成するように構成されたホストプロセッサと、ホストプロセッサに通信可能に結合された並列プロセッサマルチチップモジュールと、を含み、並列プロセッサマルチチップモジュールは、第１のベース集積回路（ＩＣ）ダイであって、第１のベースＩＣダイの上に３Ｄ積層された第１の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第１のサブセットが、第１の複数の仮想コンピュートダイに配置されており、更に、並列処理パイプラインロジックの第２のサブセットが、第１のベースＩＣダイに配置されている、第１のベースＩＣダイと、第２のベースＩＣダイであって、第２のベースＩＣダイの上に３Ｄ積層された第２の複数の仮想コンピュートダイを含む、第２のベースＩＣダイと、第１のベースＩＣダイの第１の相互接続構造体を第２のベースＩＣダイの第１の相互接続構造体に通信可能に結合する能動ブリッジチップと、を含む。一態様では、システムは、第２のベースＩＣダイの相互接続構造体を第３のベースＩＣダイの第１の相互接続構造体に通信可能に結合する第２の能動ブリッジチップを含み、第３のベースＩＣダイは、第２のベースＩＣダイの上に３Ｄ積層された第３の複数の仮想コンピュートダイを含む。

一態様では、第１の複数の仮想コンピュートダイ及び第２の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む。別の態様では、第１のベースＩＣダイにおける並列処理パイプラインロジックの第２のサブセットは、第１の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む。更に別の態様では、第１のベースＩＣダイは、並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む。更に別の態様では、第２のベースＩＣダイは、第２の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの第１のサブセットを含み、更に、並列処理パイプラインロジックの第２のサブセットは、第２のベースＩＣダイに配置されている。別の態様では、第１のベースＩＣダイ及び第２のベースＩＣダイの各々は、能動インターポーザダイである。

いくつかの実施形態では、集積回路デバイスは、ベースＩＣダイを含み、ベースＩＣダイは、ベースＩＣダイの上に３Ｄ積層された複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第１のサブセットは、第１の複数の仮想コンピュートダイに配置されており、更に、並列処理パイプラインロジックの第２のサブセットは、ベースＩＣダイに配置されている。一態様では、複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む。別の態様では、ベースＩＣダイにおける並列処理パイプラインロジックの第２のサブセットは、複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む。更に別の態様では、ベースＩＣダイは、能動インターポーザダイである。

一態様では、ベースＩＣダイは、並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む。別の態様では、ベースＩＣダイは、ベースＩＣダイの第１のビーチフロントエッジに沿って配置された第１の相互接続構造体を含む。更に別の態様では、ベースＩＣダイは、ベースＩＣダイの第１のビーチフロントエッジと向きが平行であるベースＩＣダイの第２のビーチフロントエッジに沿って配置された第２の相互接続構造体を含む。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

並列プロセッサであって、
第１のベース集積回路（ＩＣ）ダイであって、前記第１のベースＩＣダイの上に３Ｄ積層された第１の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第１のサブセットが前記第１の複数の仮想コンピュートダイに配置されており、前記並列処理パイプラインロジックの第２のサブセットが前記第１のベースＩＣダイに配置されている、第１のベースＩＣダイと、
第２のベースＩＣダイであって、前記第２のベースＩＣダイの上に３Ｄ積層された第２の複数の仮想コンピュートダイを含む、第２のベースＩＣダイと、
前記第１のベースＩＣダイの第１の相互接続構造体を前記第２のベースＩＣダイの第１の相互接続構造体に通信可能に結合する能動ブリッジチップと、を備える、
並列プロセッサ。
前記第２のベースＩＣダイの相互接続構造体を第３のベースＩＣダイの第１の相互接続構造体に通信可能に結合する第２の能動ブリッジチップを更に備え、
前記第３のベースＩＣダイは、前記第２のベースＩＣダイの上に３Ｄ積層された第３の複数の仮想コンピュートダイを含む、
請求項１の並列プロセッサ。
前記第１の複数の仮想コンピュートダイ及び前記第２の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む、
請求項１又は２の並列プロセッサ。
前記第１のベースＩＣダイにおける前記並列処理パイプラインロジックの前記第２のサブセットは、前記第１の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む、
請求項３の並列プロセッサ。
前記第１のベースＩＣダイは、前記並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む、
請求項１～４の何れかの並列プロセッサ。
前記第２のベースＩＣダイは、前記第２の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの前記第１のサブセットを含み、
前記並列処理パイプラインロジックの前記第２のサブセットは、前記第２のベースＩＣダイに配置されている、
請求項１～５の何れかの並列プロセッサ。
システムであって、
１つ以上の並列プロセッサによって実行されるコマンドストリームを生成するように構成されたホストプロセッサと、
前記ホストプロセッサに通信可能に結合された並列プロセッサマルチチップモジュールと、を備え、
前記並列プロセッサマルチチップモジュールは、
第１のベース集積回路（ＩＣ）ダイであって、前記第１のベースＩＣダイの上に３Ｄ積層された第１の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第１のサブセットが前記第１の複数の仮想コンピュートダイに配置されており、前記並列処理パイプラインロジックの第２のサブセットが前記第１のベースＩＣダイに配置されている、第１のベースＩＣダイと、
第２のベースＩＣダイであって、前記第２のベースＩＣダイの上に３Ｄ積層された第２の複数の仮想コンピュートダイを含む、第２のベースＩＣダイと、
前記第１のベースＩＣダイの第１の相互接続構造体を前記第２のベースＩＣダイの第１の相互接続構造体に通信可能に結合する能動ブリッジチップと、を含む、
システム。
前記第２のベースＩＣダイの相互接続構造体を第３のベースＩＣダイの第１の相互接続構造体に通信可能に結合する第２の能動ブリッジチップを更に備え、
前記第３のベースＩＣダイは、前記第２のベースＩＣダイの上に３Ｄ積層された第３の複数の仮想コンピュートダイを含む、
請求項７のシステム。
前記第１の複数の仮想コンピュートダイ及び前記第２の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む、
請求項７又は８のシステム。
前記第１のベースＩＣダイにおける前記並列処理パイプラインロジックの前記第２のサブセットは、前記第１の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む、
請求項９のシステム。
前記第１のベースＩＣダイは、前記並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む、
請求項７～１０の何れかのシステム。
前記第２のベースＩＣダイは、前記第２の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの前記第１のサブセットを含み、
前記並列処理パイプラインロジックの前記第２のサブセットは、前記第２のベースＩＣダイに配置されている、
請求項７～１１の何れかのシステム。
前記第１のベースＩＣダイ及び前記第２のベースＩＣダイの各々は、能動インターポーザダイである、
請求項７～１２の何れかのシステム。
集積回路デバイスであって、
ベースＩＣダイを備え、
前記ベースＩＣダイは、前記ベースＩＣダイの上に３Ｄ積層された複数の仮想コンピュートダイを含み、
並列処理パイプラインロジックの第１のサブセットが第１の複数の仮想コンピュートダイに配置されており、前記並列処理パイプラインロジックの第２のサブセットが前記ベースＩＣダイに配置されている、
集積回路デバイス。
前記複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む、
請求項１４の集積回路デバイス。
前記ベースＩＣダイにおける前記並列処理パイプラインロジックの前記第２のサブセットは、前記複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む、
請求項１５の集積回路デバイス。
前記ベースＩＣダイは、能動インターポーザダイである、
請求項１４～１６の何れかの集積回路デバイス。
前記ベースＩＣダイは、前記並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む、
請求項１４～１７の何れかの集積回路デバイス。
前記ベースＩＣダイは、前記ベースＩＣダイの第１のビーチフロントエッジに沿って配置された第１の相互接続構造体を含む、
請求項１４～１８の何れかの集積回路デバイス。
前記ベースＩＣダイは、前記ベースＩＣダイの前記第１のビーチフロントエッジと向きが平行である前記ベースＩＣダイの第２のビーチフロントエッジに沿って配置された第２の相互接続構造体を含む、
請求項１９の集積回路デバイス。