JP2024511776A - モジュール式並列プロセッサのためのダイ積層 - Google Patents

モジュール式並列プロセッサのためのダイ積層 Download PDF

Info

Publication number
JP2024511776A
JP2024511776A JP2023558135A JP2023558135A JP2024511776A JP 2024511776 A JP2024511776 A JP 2024511776A JP 2023558135 A JP2023558135 A JP 2023558135A JP 2023558135 A JP2023558135 A JP 2023558135A JP 2024511776 A JP2024511776 A JP 2024511776A
Authority
JP
Japan
Prior art keywords
die
base
virtual compute
dies
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023558135A
Other languages
English (en)
Inventor
マントル マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Micro Devices Inc
Original Assignee
Advanced Micro Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Micro Devices Inc filed Critical Advanced Micro Devices Inc
Publication of JP2024511776A publication Critical patent/JP2024511776A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/03Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes
    • H01L25/04Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers
    • H01L25/065Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00
    • H01L25/0652Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00 the devices being arranged next and on each other, i.e. mixed assemblies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4027Coupling between buses using bus bridges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2225/00Details relating to assemblies covered by the group H01L25/00 but not provided for in its subgroups
    • H01L2225/03All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00
    • H01L2225/04All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers
    • H01L2225/065All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers the devices being of a type provided for in group H01L27/00
    • H01L2225/06503Stacked arrangements of devices
    • H01L2225/06513Bump or bump-like direct electrical connections between devices, e.g. flip-chip connection, solder bumps
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/18Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof the devices being of types provided for in two or more different subgroups of the same main group of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Power Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Semiconductor Integrated Circuits (AREA)
  • Microcomputers (AREA)

Abstract

マルチダイ並列プロセッサ半導体パッケージは、第1のベースICダイ[204]を含み、第1のベースICダイは、第1のベースICダイの上に3D積層された第1の複数の仮想コンピュートダイ[212]を含む。並列処理パイプラインロジックの第1のサブセットは、第1の複数の仮想コンピュートダイに配置されている。並列処理パイプラインロジックの第2のサブセットは、第1のベースICダイに配置されている。マルチダイ並列プロセッサ半導体パッケージは、第2のベースICダイ[206]を含み、第2のベースICダイは、第2のベースICダイの上に3D積層された第2の複数の仮想コンピュートダイを含む。能動ブリッジチップ[210]は、第1のベースICダイの第1の相互接続構造体を第2のベースICダイの第1の相互接続構造体に通信可能に結合する。【選択図】図2

Description

2つ以上の集積回路(integrated circuit、IC又は「チップ」)が互いに相互動作するように構成されるマルチチップ集積は、マルチチップモジュール、パッケージ内のシステム及び三次元チップ積層を使用する等のように、様々な技術を含む。いくつかの従来のマルチチップモジュールは、キャリア基板上に、又は、場合によっては、次にキャリア基板上に実装されるインターポーザ(いわゆる「2.5D」)上に並んで実装された2つ以上の半導体チップを含む。同様に、積層半導体チップアーキテクチャは、チップ間、チップとパッケージとの間、及び、パッケージとプリント回路基板との間に1つ以上の相互接続構造体を有する集積回路設計を含む。
本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。
いくつかの実施形態による、マルチダイ並列プロセッサを実装するコンピューティングシステムのブロック図である。 いくつかの実施形態による、マルチダイ並列プロセッサの平面図を示すブロック図である。 いくつかの実施形態による、マルチダイ並列プロセッサの断面図を示すブロック図である。 いくつかの実施形態による、グラフィックス処理積層ダイチップレットの一例のブロック図である。 いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用する例示的なグラフィックスプロセッサマルチチップモジュールを示すブロック図である。 いくつかの実施形態による、グラフィックス処理積層ダイチップレットの別の例を示すブロック図である。 いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用するグラフィックスプロセッサマルチチップモジュールの別の例を示すブロック図である。
グラフィックス処理ユニット(graphics processing unit、GPU)又は他の並列処理ユニット等の処理ユニットは、従来、製造するのにますます高価になりつつあるダイ上に展開されるモノリシックデバイスとして製造されている。処理技術の進歩は、集積回路(IC)上に製造される構成要素の数が増え続けることを可能にしているので、業界は、パッケージ化された集積回路ごとにより多くの回路デバイスを集積するように絶えず努力している。しかしながら、半導体チップの製造は、多くのプロセスステップを含み、各ステップで、製造されたIC内に1つ以上の欠陥(又は設計仕様に対する他の変動)をもたらす不完全性、変動性及び位置合わせ問題が存在し得る。そのような製造欠陥は、最終製品の廃棄を必要とする動作不能なチップをもたらす欠陥を有するチップを生成する可能性がある。
パッケージ化されたICからより多くの回路デバイス及びより多くの性能を可能にする1つの技術は、マルチチップモジュール(multi-chip module、MCM)技術の使用によるものである。MCMは、単一のICダイ上に形成された回路デバイスの複数の個々のモジュールを集積する。様々なMCM構成要素は、MCMが単一の構成要素として動作するように、統一基板上に集積されることが多い。マルチチップモジュールは、複雑さに応じて様々な形態となり、既存のチップパッケージのパッケージフットプリントを模倣するように配置されたプリント回路基板(printed circuit board、PCB)上に予めパッケージ化されたICを使用することから様々であり得る。MCMは、複合ICをより小さなIC構成要素で継ぎ合わせることによって、高度の複合ICの歩留まりを向上させるという利点を有する。このようにして、発生する欠陥は、単一の大きな複合ダイではなく、MCMの個々の構成要素に影響を与える。より大きなダイに影響を及ぼす欠陥は、はるかにコストがかかる。
これらの問題に対処し、改善されたシステム性能を可能にするために、図1~図7は、より大きいモノリシックプロセッサに対して同様の性能を有するデバイスを形成するために通信可能に縫い合わされた複数の3Dダイ積層ビルディングブロックを利用するシステム及びデバイスを説明する。様々な実施形態において、マルチダイ並列プロセッサ半導体パッケージは、第1のベースICダイを含み、第1のベースICダイは、第1のベースICダイの上に3D積層された第1の複数の仮想コンピュートダイを含む。並列処理パイプラインロジックの第1のサブセットは、第1の複数の仮想コンピュートダイに配置されている。加えて、並列処理パイプラインロジックの第2のサブセットは、第1のベースICダイに配置されている。また、マルチダイ並列プロセッサは、第2のベースICダイを含み、第2のベースICダイは、第2のベースICダイの上に3D積層された第2の複数の仮想コンピュートダイを含む。能動ブリッジチップは、第1のベースICダイの第1の相互接続構造体を第2のベースICダイの第1の相互接続構造体に通信可能に結合する。このようにして、より多数のより小さいフットプリントのベースダイが、シリコンウェハから製造され得る。欠陥を含むより小さいダイのサブセットは、残りの良好なダイ(すなわち、非欠陥ダイ)の上に処理ユニット(例えば、仮想コンピュートダイ)を形成する前に廃棄され、それによって、欠陥のある大きな複合ダイに起因して積層デバイスをスクラップ処分することに関連付けられたコストを低減する。
図1は、いくつかの実施形態による、マルチダイ並列プロセッサを実装するコンピューティングシステム100の一実施形態のブロック図である。様々な実施形態において、コンピューティングシステム100は、少なくとも1つ以上のプロセッサ102A~102Nと、ファブリック104と、入力/出力(input/output、I/O)インターフェース106と、メモリコントローラ108と、ディスプレイコントローラ110と、他のデバイス112と、を含む。様々な実施形態では、グラフィックス及び他のタイプのワークロードのための命令の実行をサポートするために、コンピューティングシステム100は、中央処理ユニット(central processing unit、CPU)等のホストプロセッサ114を含む。様々な実施形態では、コンピューティングシステム100は、コンピュータ、ラップトップ、モバイルデバイス、サーバ、又は、様々な他のタイプのコンピューティングシステム若しくはデバイスのうち何れかを含む。コンピューティングシステム100の構成要素の数は、いくつかの実施形態において変化することに留意されたい。また、いくつかの実施形態では、コンピューティングシステム100は、図1に示されていない他の構成要素を含むことにも留意されたい。加えて、他の実施形態では、コンピューティングシステム100は、図1に示す以外の方法で構築される。
ファブリック104は、コンピューティングシステム100の構成要素の間で通信するために利用される様々なタイプのプロトコルの何れかに準拠する任意の通信相互接続を表す。ファブリック104は、処理ユニット102、I/Oインターフェース106、メモリコントローラ108、ディスプレイコントローラ110及び他のデバイス112を互いに接続するデータパス、スイッチ、ルータ及び他のロジックを提供する。ファブリック104は、コヒーレンシを容易にするために、要求、応答及びデータトラフィック、並びに、プローブトラフィックを処理する。また、ファブリック104は、コンピューティングシステム100の様々な構成要素への割込み要求ルーティング及び構成アクセスパスを処理する。加えて、ファブリック104は、構成要求、応答及び構成データトラフィックを処理する。いくつかの実施形態では、ファブリック104は、共有バス構成、クロスバー構成及びブリッジを有する階層バスを含むバスベースである。他の実施形態では、ファブリック104は、パケットベースであり、ブリッジ、クロスバー、ポイントツーポイント又は他の相互接続を有する階層である。ファブリック104の観点から、コンピューティングシステム100の他の構成要素は、「クライアント」と呼ばれる。ファブリック104は、様々なクライアントによって生成された要求を処理し、その要求を他のクライアントに渡すように構成されている。
メモリコントローラ108は、任意の数及びタイプのメモリデバイスに結合された任意の数及びタイプのメモリコントローラを表す。例えば、メモリコントローラ108に結合されたメモリデバイスのタイプは、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、NANDフラッシュメモリ、NORフラッシュメモリ、強誘電体ランダムアクセスメモリ(Ferroelectric Random Access Memory、FeRAM)等を含む。メモリコントローラ108は、プロセッサ102、I/Oインターフェース106、ディスプレイコントローラ110及び他のデバイス112によって、ファブリック104を介してアクセス可能である。I/Oインターフェース106は、任意の数及びタイプのI/Oインターフェース(例えば、周辺構成要素相互接続(peripheral component interconnect、PCI)バス、PCI拡張(PCI-Extended、PCI-X)、PCIE(PCI Express)バス、ギガビットイーサネット(登録商標)(gigabit Ethernet、GBE)バス、ユニバーサルシリアルバス(universal serial bus、USB))を表す。様々なタイプの周辺デバイスがI/Oインターフェース106に結合される。そのような周辺デバイスは、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶デバイス、ネットワークインターフェースカード等を含む(が、これらに限定されない)。他のデバイス112は、任意の数及びタイプのデバイス(例えば、マルチメディアデバイス、ビデオコーデック)を表す。
様々な実施形態において、プロセッサ102の各々は、並列プロセッサ(例えば、ベクトルプロセッサ、グラフィックス処理ユニット(GPU)、汎用GPU(general-purpose GPU、GPGPU)、非スカラプロセッサ、高並列プロセッサ、人工知能(Artificial Intelligence、AI)プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等)である。各並列プロセッサ102は、並列プロセッサが単一の半導体集積回路のように使用可能(例えば、アドレス指定可能)であるように、ブリッジチップと共に通信可能に結合された2つ以上のベース集積回路ダイ(図2に関して以下でより詳細に説明される)を含むマルチチップモジュール(例えば、半導体ダイパッケージ)として構築される。本開示で使用される場合、「ダイ」及び「チップ」という用語は、互換的に使用される。当業者は、従来の(例えば、マルチチップではない)半導体集積回路が、ウェハとして又はウェハ内に形成され、後に(例えば、ウェハがダイシングされる場合に)ウェハから分離されるダイ(例えば、シングルチップIC)として製造され、多くの場合、複数のICがウェハ内に同時に製造されることを認識するであろう。IC及び場合によってはディスクリート回路並びに場合によっては他の構成要素(プリント回路基板、インターポーザ、及び、場合によっては他のものを含む非半導体パッケージング基板等)は、マルチダイ並列プロセッサ内に組み立てられる。
したがって、以下で図2~図7に関してより詳細に説明するように、様々な実施形態では、個々の並列プロセッサ102の各々は、より大きいモノリシックプロセッサに対して同様の性能を有するデバイスを形成するために、能動ブリッジチップと共に通信可能に結合された2つ以上の並列処理積層ダイチップレットを含む。様々な実施形態が、例示及び説明を容易にするためにGPUの特定のコンテキストにおいて以下で説明されるが、様々な実施形態では、GPU処理パイプライン構成要素の複数の個別のダイへの編成は、本開示の範囲から逸脱することなく、任意の並列プロセッサに適用可能であることを認識されたい。例えば、様々な実施形態では、本明細書で説明する概念は、加速処理ユニット(accelerated processing unit、APU)、離散GPU(discrete GPU、dGPU)、人工知能(artificial intelligence、AI)アクセラレータ、他の並列プロセッサ、中央処理ユニット(CPU)等を含む他のプロセッサにも同様に適用可能である。
図2を参照すると、いくつかの実施形態による、並列プロセッサMCM202の平面図200を示すブロック図が示されている。並列プロセッサMCM202(例えば、図1のプロセッサ102)は、N個のベースダイを含む単一の半導体チップパッケージとして形成される。平面図200に示されるように、並列プロセッサMCM202は、第1のベースICダイ204と、第2のベースICダイ206と、を含む。第1のベースICダイ204は、第1のベースICダイ204の少なくとも第1のエッジ(一般に「ビーチフロント(beachfront)」と呼ばれる)に沿ってダイ間相互接続構造体208を含む。同様に、第2のベースICダイ206も、第2のベースICダイ206の少なくとも第1のエッジに沿ってダイ間相互接続構造体208を含む。
様々な実施形態では、並列プロセッサMCM202は、それぞれのダイ間相互接続構造体208を介して第1のベースICダイ204を第2のベースICダイ206に通信可能に結合するブリッジチップ210を含む。様々な実施形態では、ブリッジチップ210は、受動的(passive)又は能動的(active)であり、ブリッジチップ210は、データ/電気接続のみを含むか、又は、所定のブリッジチップ210は、それ自体のロジックを含む。例えば、いくつかの実施形態では、ブリッジチップ210は、第1のベースICダイ204と第2のベースICダイ206との間の高帯域幅ダイ間相互接続として動作する能動シリコンを有する能動ブリッジチップである。他の実施形態では、ブリッジチップ210は、受動チップである。
いくつかの実施形態では、能動ブリッジチップ210は、1つ以上のキャッシュバッファを含み、したがって、メモリ物理的インターフェース(physical interface、PHY)を必要とせずに、依然としてベースダイ間通信を提供しながら、ダイ間の同期信号をルーティングするために、ビーチフロントエッジ接続性(beachfront edge connectivity)を拡張する。キャッシュは、当然、能動構成要素であり(すなわち、動作のために電力を必要とし)、そのため、ブリッジチップ210は、それらのキャッシュバッファを保持するために能動的である。キャッシュサイジングは、例えば、異なるベースダイ構成と共に異なるアプリケーションのために、能動ブリッジチップ210の物理的サイズの関数(function)として構成可能であり、能動ブリッジチップ210が通信可能に結合されるベースダイは、ブリッジチップ210上のこの外部キャッシュのコスト(例えば、物理的空間、電力制約等に関連するコスト)を支払わない。
様々な実施形態では、ブリッジチップ210は、(例えば、ベースICダイ204、206を共通のインターポーザ基板に実装し、インターポーザがアセンブリ全体の範囲に及ぶことが多い従来の2.5Dトポロジによって提供されるような、ダイ間通信のためにインターポーザによって提供される電気的接続に完全に依存するのとは対照的に)2つのロジックチップを共に通信可能に結合し、2つのダイの隣接するエッジ間に限られた物理的範囲でダイ間接続性を提供する、自由並進(free translation)で小さなシリコンボンドを提供するローカルシリコン相互接続(local silicon interconnect、LSI)を含む。このようにして、中間ブリッジチップ210は、複数のベースICダイ(例えば、第1のベースICダイ204及び第2のベースICダイ206)を共に通信可能に結合する。
図2に示すように、並列プロセッサMCM202は、第1のベースICダイ204の上に積層された2つの仮想並列処理ユニット(virtual parallel processing unit、vPPU)ダイ212(以下、用語を簡単にするために「仮想コンピュートダイ」と呼ぶ)を含む。同様に、並列プロセッサMCM202は、第2のベースICダイ206の上に積層された2つの仮想コンピュートダイ212を含む。vPPU/仮想コンピュートダイ212は、物理的並列処理ユニットが複数のvPPUに分割されるという意味で「仮想」である。様々な実施形態において、各vPPUダイ12は、リソース(例えば、フレームバッファ)のシェア(多くの場合、等しいシェア)と、物理的並列処理ユニットの並列処理能力と、を含む。様々な実施形態において、コンピュートパイプラインは、ベースダイ(例えば、第1のベースICダイ204及び第2のベースICダイ206)と積層コンピュートダイ(例えば、仮想コンピュートダイ212)との間で分割される。
例えば、GPUのコンテキストにおいて図4に関して以下でより詳細に説明されるように、様々な実施形態において、各vPPUダイ212は、並列処理パイプラインマイクロアーキテクチャの少なくとも一部を含むシェーダエンジンダイ(shader engine die、SED)である。様々な実施形態では、SEDは、シェーダシステム(又はフルシェーダエンジン)、ピクセルパイプ、ジオメトリパイプ等を含む。しかしながら、コマンドプロセッサ等のグラフィックス処理パイプラインの少なくとも一部は、ベースICダイ内に保持される。共通インターポーザの上にコンピュートコアを単に積層するのではなく、ベースダイは、2つ以上の個別のチップ(例えば、第1のベースICダイ204及び第2のベースICダイ206)に分割される。並列プロセッサMCMアーキテクチャの加えての詳細は、いくつかの実施形態による、マルチダイ並列プロセッサの断面図を示すブロック図である図3を参照して理解され得る。図300は、断面A-Aで取られた図2の第1のベースICダイ204及びその積層仮想コンピュートダイ212、第2のベースICダイ204及びその積層仮想コンピュートダイ212、並びに、ブリッジチップ210の断面図を提供する。
図2に示されるような様々な実施形態において、ベースICダイ204は、ベースICダイ206と同一である。他の実施形態では、ベースICダイ204は、ベースICダイ206の構造体とは異なる構造体を有する。加えて、様々な実施形態において、ベースICダイは、ベースICダイの並進(又は回転)が、ベースICダイのエッジ(例えば、ビーチフロント)における相互接続構造体を変化させないように対称であり、これは、互いに、メモリダイ、他のシステムオンチップ(system on a chip、SoC)ダイ等と組み合わせるためのモジュール式ビルディングブロックとしてベースICダイ(及び対応する積層コンピュートダイ)を提供する際の柔軟性を増加させる。様々な実施形態において、ベースICダイは、他のダイに通信可能に結合するための第2のチップ間相互接続構造体208、物理層(physical layer、PHY)インターフェース等のような1つ以上の追加の相互接続構造体を含むことを理解されたい。このようにして、高スループット相互接続(例えば、ブリッジチップ210等のシリコンブリッジ)は、複数のベースダイ(例えば、ベースICダイ204、206)をモジュール式構成要素として互いにリンクし、より大きいモノリシックGPUに匹敵する性能を有するデバイスを形成するために、複数のダイ間の動作を調整するための協調コマンドプロセッサを使用する。
図4は、いくつかの実施形態による、例示的なグラフィックス処理積層ダイチップレットのブロック図である。平面図400に示すように、グラフィックス処理積層ダイチップレット402は、ベース能動インターポーザダイ404を含む。グラフィックス処理積層ダイチップレット402は、例示及び説明を容易にするためにGPU用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ(図2及び図3を参照してより広範に上述されたような)の何れにも適用可能であることを認識されたい。加えて、様々な実施形態では、本明細書で使用される場合、「チップレット」という用語は、限定するものではないが、以下の特性を含む任意のデバイスを指す。1)チップレットは、完全な問題を解くために使用される計算ロジックの少なくとも一部を含む能動シリコンダイを含む(すなわち、計算作業負荷は、これらの能動シリコンダイの複数にわたって分散される)、2)チップレットは、同じ基板上にモノリシックユニットとして一緒にパッケージ化される、3)プログラミングモデルは、これらの個別の計算ダイ(すなわち、グラフィックス処理積層ダイチップレット402)を単一のモノリシックユニットとして組み合わせるという概念を維持する(すなわち、各チップレットは、計算作業負荷を処理するためにチップレットを使用するアプリケーションに個別のデバイスとして露出されない)。
グラフィックス処理積層ダイチップレット402のベース能動インターポーザダイ(active interposer die、AID)404(図2の第1のベースICダイ204と同様)は、ベース能動インターポーザダイ404の少なくとも第1のエッジ(一般に「ビーチフロント」と呼ばれる)に沿ってダイ間相互接続構造体408を含む。加えて、グラフィックス処理積層ダイチップレット402は、能動インターポーザダイ404の上に形成された複数のシェーダエンジンダイ(shader engine die、SED)412(図2の仮想コンピュートダイ212と同様であるが、様々な実施形態では、任意の適切な並列処理ユニットを含む)を含む。2つのSED412を含むように示されているが、当業者であれば、任意の数の処理ユニットが、能動インターポーザダイ404の上に積層された処理ユニット層内に配置されてもよいことを認識するであろう。この構成では、複数のシェーダエンジンダイ412を能動インターポーザダイ404の上の層に配置することによって、従来のグラフィックス複合ダイ(graphics complex die、GCD)の一部が、3Dダイ積層方法論に基づいて2階に押し上げられる。
様々な実施形態では、各シェーダエンジンダイ412は、GPUのリソース及びグラフィックス処理能力の共有(しばしば、等しい共有)を含むが、グラフィックスパイプライン全体を含まない。特に、シェーダエンジンダイ412は、グラフィックス処理パイプラインマイクロアーキテクチャの少なくとも一部を含む。例えば、いくつかの実施形態では、シェーダエンジンダイ412は、シェーダシステム(図示せず)、ピクセルパイプ(図示せず)、ジオメトリロジック(図示せず)等を含む。しかしながら、コマンドプロセッサ406等のグラフィックス処理パイプラインの少なくとも一部は、下にあるベース能動インターポーザダイ404内に配置されている。加えて、様々な実施形態において、ベース能動インターポーザダイ404は、1つ以上のレベルのキャッシュメモリ410と、ダイナミックランダムアクセスメモリ(DRAM)モジュール等の外部システムメモリ(図示せず)と通信するための1つ以上のメモリコントローラPHY414と、を含む。メモリコントローラ(図示せず)及びメモリコントローラPHY414は、他の実施形態では、ベース能動インターポーザダイ404とは別のダイ上に設けられる。
すなわち、様々なキャッシュ及び相互接続性構成要素が、ベース能動インターポーザダイ404に配置されている(一方、高電力能動処理構成要素は、積層SED412内に配置されている)。加えて、複数のSED412を一緒に制御するロジック(例えば、コマンドプロセッサ406)等のグラフィックスパイプラインロジックの少なくとも一部も、ベース能動インターポーザダイ404に配置されている。このようにして、能動インターポーザダイ404は、複数のSED412を一緒に制御してジオメトリ状態及びコマンド処理のためのデータを制御するキャッシュ及びロジックを含む。この、能動インターポーザダイ404及び複数のSED412を一緒に機能的にグループ化することは、グラフィックス処理積層ダイチップレット402(又は略して「GPUチップレット」と称されてもよい)を形成する。
図5を参照すると、いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用するグラフィックスプロセッサMCM502の平面図500のブロック図が示されている。グラフィックスプロセッサMCM502(図2の並列プロセッサMCM202と同様)は、図4のN=2個の通信可能に結合されたグラフィックス処理積層ダイチップレット402を含む単一の半導体チップパッケージとして形成されている。平面図500に示されるように、グラフィックスプロセッサMCM502は、第1のグラフィックス処理積層ダイチップレット402a及び第2のグラフィックス処理積層ダイチップレット402bを含む。
様々な実施形態において、グラフィックスプロセッサMCM502は、それぞれのダイ間相互接続構造体408を介して、第1のグラフィックス処理積層ダイチップレット402aを第2のグラフィックス処理積層ダイチップレット402bに通信可能に結合するブリッジチップ504を含む。様々な実施形態では、ブリッジチップ504は、受動的又は能動的であり、ブリッジチップ504は、データ/電気接続のみを含むか、又は、所定のブリッジチップ504は、それ自体のロジックを含む。例えば、いくつかの実施形態では、ブリッジチップ504は、第1のグラフィックス処理積層ダイチップレット402aと第2のグラフィックス処理積層ダイチップレット402bとの間の高帯域幅ダイ間相互接続として動作する能動シリコンを有する能動ブリッジチップである。他の実施形態では、ブリッジチップ504は、受動チップである。
いくつかの実施形態では、能動ブリッジチップ504は、1つ以上のキャッシュバッファを含み、したがって、依然としてベースダイ間通信を提供しながら、ダイ間の同期信号をルーティングするために、ビーチフロントエッジ接続性を拡張する。キャッシュは、当然、能動構成要素であり(すなわち、動作のために電力を必要とする)、そのため、ブリッジチップ504は、それらのキャッシュバッファを保持するために能動的である。キャッシュサイジングは、例えば、異なる積層ダイチップレット構成と共に異なるアプリケーションのために、能動ブリッジチップ504の物理的サイズの関数として構成可能であり、能動ブリッジチップ504が通信可能に結合される積層ダイチップレットは、ブリッジチップ504上のこの外部キャッシュのコスト(例えば、物理的空間、電力制約等に関連するコスト)を支払わない。
様々な実施形態において、ブリッジチップ504は、(例えば、積層ダイチップレット402を共通のインターポーザ基板に実装し、インターポーザがアセンブリ全体の範囲に及ぶことが多い従来の2.5Dトポロジによって提供されるような、ダイ間通信のためにインターポーザによって提供される電気接続に完全に依存するのとは対照的に)2つのロジックチップを共に通信可能に結合し、2つのダイの隣接するエッジ間に限られた物理的範囲でダイ間接続性を提供する、自由並進で小さなシリコンボンドを提供するローカルシリコン相互接続(LSI)を含む。このようにして、中間ブリッジチップ504は、複数の積層ダイチップレット(例えば、第1のグラフィックス処理積層ダイチップレット402a及び第2のグラフィックス処理積層ダイチップレット402b)を共に通信可能に結合する。加えて、様々な実施形態において、ブリッジチップ504は、メモリの共通ビューを提供するために、2つの積層ダイチップレットの間にデータファブリック(図示せず)を担持する。
複数のグラフィックス処理積層ダイチップレットを単一パッケージ内で一緒に(例えば、第1のグラフィックス処理積層ダイチップレット402aを第2のグラフィックス処理積層ダイチップレット402bに)結合することは、単一の大きなグラフィックス複合ダイ(GCD)として効果的に動作するが、より小さいモジュール式ダイ構成要素から構築されるデバイスをもたらす。様々な実施形態において、グラフィックスプロセッサMCM502は、グラフィックス処理積層ダイチップレットのメモリコントローラPHY414を介して1つ以上の外部システムメモリモジュール506に通信可能に結合される。加えて、いくつかの実施形態では、グラフィックスプロセッサMCM502は、グラフィックス処理積層ダイチップレット402とは別のマルチメディア及びI/Oダイ(multimedia and I/O die、MID)508内の入力/出力(I/O)ロジックを含む。
グラフィックス処理積層ダイチップレットの結合から生じる後続のMCMのモジュール性及びスケーラビリティは、他の要因の中でも、グラフィックス処理積層ダイチップレットのエッジに沿った相互接続構造体の数及び各グラフィックス処理積層ダイチップレットの上に3D積層されたシェーダエンジンダイ(又は他の仮想コンピュートダイ)の数に少なくとも基づく関数であることを当業者は認識するであろう。図6を参照すると、いくつかの実施形態による、グラフィックス処理積層ダイチップレットの別の例が示されている。平面図600に示すように、グラフィックス処理積層ダイチップレット602は、ベース能動インターポーザダイ604を含む。グラフィックス処理積層ダイチップレット602は、例示及び説明を容易にするためにGPU用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ(図2及び図3を参照してより広範に前述されたような)の何れにも適用可能であることを認識されたい。加えて、様々な実施形態では、本明細書で使用される場合、「チップレット」という用語は、限定するものではないが、以下の特性を含む任意のデバイスを指す。1)チップレットは、完全な問題を解くために使用される計算ロジックの少なくとも一部を含む能動シリコンダイを含む(すなわち、計算作業負荷は、これらの能動シリコンダイの複数にわたって分散される)、2)チップレットは、同じ基板上にモノリシックユニットとして一緒にパッケージ化される、3)プログラミングモデルは、これらの個別の計算ダイ(すなわち、グラフィックス処理積層ダイチップレット402)を単一のモノリシックユニットとして組み合わせるという概念を維持する(すなわち、各チップレットは、計算作業負荷を処理するためにチップレットを使用するアプリケーションに個別のデバイスとして露出されない)。
グラフィックス処理積層ダイチップレット602のベース能動インターポーザダイ(AID)604(図2の第1のベースICダイ204と同様)は、ベース能動インターポーザダイ604の第1のエッジ(一般に「ビーチフロント」と呼ばれる)に沿って第1のダイ間相互接続構造体608aを含む。加えて、グラフィックス処理積層ダイチップレット602は、ベース能動インターポーザダイ604の第2のエッジに沿って第2のダイ間相互接続構造体608bを含む。第1のエッジに沿った第1のダイ間相互接続構造体608aは、ベース能動インターポーザダイ604の第2のエッジに沿った第2のダイ間相互接続構造体608bに対して平行に配置されているものとして図6に示されているが、当業者であれば、様々な実施形態において、第1のダイ間相互接続構造体608aは、空間において相対的に垂直に配置されたベース能動インターポーザダイ604のエッジに沿って(例えば、ダイ604の左エッジ及び上部/下部エッジに沿って)配置されてもよいことを認識するであろう。加えて、いくつかの実施形態では、ベース能動インターポーザダイ604は、ベース能動インターポーザダイ604の他のビーチフロントエッジに沿って3つ以上の相互接続構造体を含む。
グラフィックス処理積層ダイチップレット602は、能動インターポーザダイ604の上に形成された複数のシェーダエンジンダイ(SED)612(図2の仮想コンピュートダイ212と同様であるが、様々な実施形態では、任意の適切な並列処理ユニットを含む)を含む。3つのSED612を含むように示されているが、当業者であれば、任意の数の処理ユニットが、能動インターポーザダイ604の上に積層された処理ユニット層内に配置されてもよいことを認識するであろう。この構成では、複数のシェーダエンジンダイ612を能動インターポーザダイ604の上の層に配置することによって、従来のグラフィックス複合ダイ(GCD)の一部が、3Dダイ積層方法論に基づいて2階に押し上げられる。
様々な実施形態では、各シェーダエンジンダイ612は、GPUのリソース及びグラフィックス処理能力の共有(しばしば等しい共有)を含むが、グラフィックスパイプライン全体を含まない。特に、シェーダエンジンダイ612は、グラフィックス処理パイプラインマイクロアーキテクチャの少なくとも一部を含む。例えば、いくつかの実施形態では、シェーダエンジンダイ612は、シェーダシステム(図示せず)、ピクセルパイプ(図示せず)、ジオメトリロジック(図示せず)等を含む。しかしながら、コマンドプロセッサ606等のグラフィックス処理パイプラインの少なくとも一部は、下にあるベース能動インターポーザダイ604内に配置されている。加えて、様々な実施形態において、ベース能動インターポーザダイ604は、1つ以上のレベルのキャッシュメモリ610と、ダイナミックランダムアクセスメモリ(DRAM)モジュール等の外部システムメモリ(図示せず)と通信するための1つ以上のメモリコントローラPHY614と、を含む。メモリコントローラ(図示せず)及びメモリコントローラPHY614は、他の実施形態では、ベース能動インターポーザダイ604とは別のダイ上に設けられる。
すなわち、様々なキャッシュ及び相互接続性構成要素がベース能動インターポーザダイ604に配置されている(一方、高電力能動処理構成要素は、積層SED612内に配置されている)。加えて、複数のSED612を一緒に制御するロジック(例えば、コマンドプロセッサ606)等のグラフィックスパイプラインロジックの少なくとも一部も、ベース能動インターポーザダイ604に配置されている。このようにして、能動インターポーザダイ604は、複数のSED612を一緒に制御してジオメトリ状態及びコマンド処理のためのデータを制御するキャッシュ及びロジックを含む。この、能動インターポーザダイ604及び複数のSED612一緒に機能的にグループ化することは、グラフィックス処理積層ダイチップレット602(又は略して「GPUチップレット」と称されてもよい)を形成する。
図7を参照すると、いくつかの実施形態による、グラフィックス処理積層ダイチップレットを採用するグラフィックスプロセッサMCM702の平面図700のブロック図が示されている。グラフィックスプロセッサMCM702(図2の並列プロセッサMCM202と同様)は、図6のN=3個の通信可能に結合されたグラフィックス処理積層ダイチップレット602を含む単一の半導体チップパッケージとして形成されている。平面図700に示されるように、グラフィックスプロセッサMCM702は、第1のグラフィックス処理積層ダイチップレット702a、第2のグラフィックス処理積層ダイチップレット702b、及び、第3のグラフィックス処理積層ダイチップレット702cを含む。
理解されるように、グラフィックス処理積層ダイチップレット602に関連付けられたダイ間相互接続構造体608a、608bの数の増加は、(例えば、各積層ダイチップレット402上の単一の相互接続構造体408に起因して、図5に示されるようなペアにしかなり得ない積層ダイチップレット402と比較して)より多数の積層ダイチップレットが単一パッケージ内で共に通信可能に結合されることを可能にする。例えば、様々な実施形態において、グラフィックスプロセッサMCM702は、第1のグラフィックス処理積層ダイチップレット702aを第2のグラフィックス処理積層ダイチップレット702bに通信可能に結合する第1のブリッジチップ704aを含む。特に、第1のブリッジチップ704aは、第1のグラフィックス処理積層ダイチップレット702aの第2のダイ間相互接続構造体608bを、第2のグラフィックス処理積層ダイチップレット702bの第1のダイ間相互接続構造体608aに通信可能に結合する。加えて、グラフィックスプロセッサMCM702は、第2のグラフィックス処理積層ダイチップレット702bを第3のグラフィックス処理積層ダイチップレット702cに通信可能に結合する第2のブリッジチップ704bを含む。特に、第2のブリッジチップ704bは、第2のグラフィックス処理積層ダイチップレット702bの第2のダイ間相互接続構造体608bを、第3のグラフィックス処理積層ダイチップレット702cの第1のダイ間相互接続構造体608aに通信可能に結合する。
様々な実施形態では、ブリッジチップ704は、受動的又は能動的であり、各ブリッジチップ704は、データ/電気接続のみを含むか、又は、所定のブリッジチップ704は、それ自体のロジックを含む。例えば、いくつかの実施形態では、各ブリッジチップ704は、グラフィックス処理積層ダイチップレット602間の高帯域幅ダイ間相互接続として動作する能動シリコンを有する能動ブリッジチップである。他の実施形態では、ブリッジチップ704は、受動チップである。
いくつかの実施形態では、能動ブリッジチップ704は、1つ以上のキャッシュバッファを含み、したがって、依然としてベースダイ間通信を提供しながら、ダイ間の同期信号をルーティングするために、ビーチフロントエッジ接続性を拡張する。キャッシュは、当然、能動構成要素であり(すなわち、動作のために電力を必要とする)、そのため、ブリッジチップ704は、それらのキャッシュバッファを保持するために能動的である。キャッシュサイジングは、例えば、異なる積層ダイチップレット構成と共に異なるアプリケーションのために、能動ブリッジチップ704の物理的サイズの関数として構成可能であり、能動ブリッジチップ704が通信可能に結合される積層ダイチップレットは、ブリッジチップ704上のこの外部キャッシュのコスト(例えば、物理的空間、電力制約等に関連するコスト)を支払わない。
様々な実施形態において、ブリッジチップ704は、(例えば、積層ダイチップレット602を共通のインターポーザ基板に実装し、インターポーザがアセンブリ全体の範囲に及ぶことが多い従来の2.5Dトポロジによって提供されるような、ダイ間通信のためにインターポーザによって提供される電気接続に完全に依存するのとは対照的に)2つのロジックチップを共に通信可能に結合し、2つのダイの隣接するエッジ間に限られた物理的範囲でダイ間接続性を提供する、自由並進で小さなシリコンボンドを提供するローカルシリコン相互接続(LSI)を含む。このようにして、中間ブリッジチップ704は、複数の積層ダイチップレット(例えば、第1のグラフィックス処理積層ダイチップレット602a及び第2のグラフィックス処理積層ダイチップレット602b)を共に通信可能に結合する。加えて、様々な実施形態において、ブリッジチップ704は、メモリの共通ビューを提供するために、2つの積層ダイチップレットの間にデータファブリック(図示せず)を担持する。
複数のグラフィックス処理積層ダイチップレットを単一パッケージ内で一緒に結合すること(例えば、第1のグラフィックス処理積層ダイチップレット602aを第2のグラフィックス処理積層ダイチップレット602bに結合し、これは次いで、第3のグラフィックス処理積層ダイチップレット602cに結合される)は、単一の大きなグラフィックス複合ダイ(GCD)として効果的に動作するが、より小さなモジュール式ダイ構成要素から構築されるデバイスをもたらす。様々な実施形態において、グラフィックスプロセッサMCM702は、グラフィックス処理積層ダイチップレットのメモリコントローラPHY614を介して1つ以上の外部システムメモリモジュール706に通信可能に結合される。加えて、いくつかの実施形態では、グラフィックスプロセッサMCM702はまた、グラフィックス処理積層ダイチップレット602とは別のマルチメディア及びI/Oダイ(MID)708内の入力/出力(I/O)ロジックを含む。
ベースICダイ/グラフィックス処理積層ダイチップレットの様々な実施形態が、行方向の線形結合のコンテキストにおいて本明細書で説明されてきたが、当業者は、異なる相互接続構造体の位置決め及び/又はベースダイ当たりの相互接続構造体の数の増加が、様々な他の積層ダイチップレット構成を可能にすることを認識するであろう。例えば、いくつかの実施形態では、図6を参照すると、第1のダイ間相互接続構造体608aは、空間において相対的に垂直に配置されたベース能動インターポーザダイ604のエッジに沿って(例えば、ダイ604の左エッジ及び上部/下部エッジに沿って)配置され得る。加えて、いくつかの実施形態では、ベース能動インターポーザダイ604は、ベース能動インターポーザダイ604の他のビーチフロントエッジに沿って3つ以上の相互接続構造体を含む。そのような相互接続構造体配置は、例えば、並列プロセッサMCM当たりN×M個の積層ダイチップレットを有する様々なメッシュ状タイリング構成を可能にする。
したがって、本明細書で説明されるように、複数の個別のダイの間でGPU処理パイプライン構成要素を割り当てて、その後に能動ブリッジチップで通信可能に縫い合わされ得るより小さいフットプリントビルディングブロック(例えば、本明細書で説明される様々な並列処理積層ダイチップレット)を形成することは、より大きいモノリシックプロセッサに対して同様の性能を有するデバイスを依然として形成することができる一方で、チップレットの態様でスケーラブルなグラフィックスパイプ/チップの製造を可能にする。このモジュール式3Dグラフィックス概念は、スケーラブルであり、個別に更新可能であり、高歩留まり態様を有する小さいダイを使用することによってアセンブリのコストを軽減し、半導体ウェハ当たりの生産のダイ歩留まりの増加を可能にするだけでなく、また半導体ウェハ当たりの良好なダイの量を増加させる点で価値を提供する。
本明細書に開示されるように、いくつかの実施形態では、並列プロセッサは、第1のベース集積回路(IC)ダイであって、第1のベースICダイの上に3D積層された第1の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第1のサブセットが、第1の複数の仮想コンピュートダイに配置されており、更に、並列処理パイプラインロジックの第2のサブセットが、第1のベースICダイに配置されている、第1のベースICダイと、第2のベースICダイであって、第2のベースICダイの上に3D積層された第2の複数の仮想コンピュートダイを含む、第2のベースICダイと、第1のベースICダイの第1の相互接続構造体を第2のベースICダイの第1の相互接続構造体に通信可能に結合する能動ブリッジチップと、を含む。一態様では、並列プロセッサは、第2のベースICダイの相互接続構造体を第3のベースICダイの第1の相互接続構造体に通信可能に結合する第2の能動ブリッジチップを含み、第3のベースICダイは、第2のベースICダイの上に3D積層された第3の複数の仮想コンピュートダイを含む。別の態様では、第1の複数の仮想コンピュートダイ及び第2の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む。更に別の態様では、第1のベースICダイにおける並列処理パイプラインロジックの第2のサブセットは、第1の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む。
一態様では、第1のベースICダイは、並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む。別の態様では、第2のベースICダイは、第2の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの第1のサブセットを含み、更に、並列処理パイプラインロジックの第2のサブセットは、第2のベースICダイに配置されている。
いくつかの実施形態では、システムは、1つ以上の並列プロセッサによる実行のためのコマンドストリームを生成するように構成されたホストプロセッサと、ホストプロセッサに通信可能に結合された並列プロセッサマルチチップモジュールと、を含み、並列プロセッサマルチチップモジュールは、第1のベース集積回路(IC)ダイであって、第1のベースICダイの上に3D積層された第1の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第1のサブセットが、第1の複数の仮想コンピュートダイに配置されており、更に、並列処理パイプラインロジックの第2のサブセットが、第1のベースICダイに配置されている、第1のベースICダイと、第2のベースICダイであって、第2のベースICダイの上に3D積層された第2の複数の仮想コンピュートダイを含む、第2のベースICダイと、第1のベースICダイの第1の相互接続構造体を第2のベースICダイの第1の相互接続構造体に通信可能に結合する能動ブリッジチップと、を含む。一態様では、システムは、第2のベースICダイの相互接続構造体を第3のベースICダイの第1の相互接続構造体に通信可能に結合する第2の能動ブリッジチップを含み、第3のベースICダイは、第2のベースICダイの上に3D積層された第3の複数の仮想コンピュートダイを含む。
一態様では、第1の複数の仮想コンピュートダイ及び第2の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む。別の態様では、第1のベースICダイにおける並列処理パイプラインロジックの第2のサブセットは、第1の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む。更に別の態様では、第1のベースICダイは、並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む。更に別の態様では、第2のベースICダイは、第2の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの第1のサブセットを含み、更に、並列処理パイプラインロジックの第2のサブセットは、第2のベースICダイに配置されている。別の態様では、第1のベースICダイ及び第2のベースICダイの各々は、能動インターポーザダイである。
いくつかの実施形態では、集積回路デバイスは、ベースICダイを含み、ベースICダイは、ベースICダイの上に3D積層された複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第1のサブセットは、第1の複数の仮想コンピュートダイに配置されており、更に、並列処理パイプラインロジックの第2のサブセットは、ベースICダイに配置されている。一態様では、複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む。別の態様では、ベースICダイにおける並列処理パイプラインロジックの第2のサブセットは、複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む。更に別の態様では、ベースICダイは、能動インターポーザダイである。
一態様では、ベースICダイは、並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む。別の態様では、ベースICダイは、ベースICダイの第1のビーチフロントエッジに沿って配置された第1の相互接続構造体を含む。更に別の態様では、ベースICダイは、ベースICダイの第1のビーチフロントエッジと向きが平行であるベースICダイの第2のビーチフロントエッジに沿って配置された第2の相互接続構造体を含む。
コンピュータ可読記憶媒体は、命令及び/又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク)、磁気媒体(例えば、フロッピー(登録商標)ディスク、磁気テープ、磁気ハードドライブ)、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM)若しくはキャッシュ)、不揮発性メモリ(例えば、読取専用メモリ(ROM)若しくはフラッシュメモリ)、又は、微小電気機械システム(MEMS)ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体(例えば、システムRAM又はROM)はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体(例えば、磁気ハードドライブ)はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体(例えば、光学ディスク又はユニバーサルシリアルバス(USB)ベースのフラッシュメモリ)はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体(例えば、ネットワークアクセス可能ストレージ(NAS))は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。
いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの1つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の1つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、1つ以上のプロセッサによって実行されると、上述した技術の1つ以上の態様を実行するように1つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ(RAM)、又は、他の不揮発性メモリデバイス(単数又は複数)等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、1つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。
上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、1つ以上のさらなるアクティビティが実行される場合があり、1つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。
利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims (20)

  1. 並列プロセッサであって、
    第1のベース集積回路(IC)ダイであって、前記第1のベースICダイの上に3D積層された第1の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第1のサブセットが前記第1の複数の仮想コンピュートダイに配置されており、前記並列処理パイプラインロジックの第2のサブセットが前記第1のベースICダイに配置されている、第1のベースICダイと、
    第2のベースICダイであって、前記第2のベースICダイの上に3D積層された第2の複数の仮想コンピュートダイを含む、第2のベースICダイと、
    前記第1のベースICダイの第1の相互接続構造体を前記第2のベースICダイの第1の相互接続構造体に通信可能に結合する能動ブリッジチップと、を備える、
    並列プロセッサ。
  2. 前記第2のベースICダイの相互接続構造体を第3のベースICダイの第1の相互接続構造体に通信可能に結合する第2の能動ブリッジチップを更に備え、
    前記第3のベースICダイは、前記第2のベースICダイの上に3D積層された第3の複数の仮想コンピュートダイを含む、
    請求項1の並列プロセッサ。
  3. 前記第1の複数の仮想コンピュートダイ及び前記第2の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む、
    請求項1又は2の並列プロセッサ。
  4. 前記第1のベースICダイにおける前記並列処理パイプラインロジックの前記第2のサブセットは、前記第1の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む、
    請求項3の並列プロセッサ。
  5. 前記第1のベースICダイは、前記並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む、
    請求項1~4の何れかの並列プロセッサ。
  6. 前記第2のベースICダイは、前記第2の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの前記第1のサブセットを含み、
    前記並列処理パイプラインロジックの前記第2のサブセットは、前記第2のベースICダイに配置されている、
    請求項1~5の何れかの並列プロセッサ。
  7. システムであって、
    1つ以上の並列プロセッサによって実行されるコマンドストリームを生成するように構成されたホストプロセッサと、
    前記ホストプロセッサに通信可能に結合された並列プロセッサマルチチップモジュールと、を備え、
    前記並列プロセッサマルチチップモジュールは、
    第1のベース集積回路(IC)ダイであって、前記第1のベースICダイの上に3D積層された第1の複数の仮想コンピュートダイを含み、並列処理パイプラインロジックの第1のサブセットが前記第1の複数の仮想コンピュートダイに配置されており、前記並列処理パイプラインロジックの第2のサブセットが前記第1のベースICダイに配置されている、第1のベースICダイと、
    第2のベースICダイであって、前記第2のベースICダイの上に3D積層された第2の複数の仮想コンピュートダイを含む、第2のベースICダイと、
    前記第1のベースICダイの第1の相互接続構造体を前記第2のベースICダイの第1の相互接続構造体に通信可能に結合する能動ブリッジチップと、を含む、
    システム。
  8. 前記第2のベースICダイの相互接続構造体を第3のベースICダイの第1の相互接続構造体に通信可能に結合する第2の能動ブリッジチップを更に備え、
    前記第3のベースICダイは、前記第2のベースICダイの上に3D積層された第3の複数の仮想コンピュートダイを含む、
    請求項7のシステム。
  9. 前記第1の複数の仮想コンピュートダイ及び前記第2の複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む、
    請求項7又は8のシステム。
  10. 前記第1のベースICダイにおける前記並列処理パイプラインロジックの前記第2のサブセットは、前記第1の複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む、
    請求項9のシステム。
  11. 前記第1のベースICダイは、前記並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む、
    請求項7~10の何れかのシステム。
  12. 前記第2のベースICダイは、前記第2の複数の仮想コンピュートダイに配置された並列処理パイプラインロジックの前記第1のサブセットを含み、
    前記並列処理パイプラインロジックの前記第2のサブセットは、前記第2のベースICダイに配置されている、
    請求項7~11の何れかのシステム。
  13. 前記第1のベースICダイ及び前記第2のベースICダイの各々は、能動インターポーザダイである、
    請求項7~12の何れかのシステム。
  14. 集積回路デバイスであって、
    ベースICダイを備え、
    前記ベースICダイは、前記ベースICダイの上に3D積層された複数の仮想コンピュートダイを含み、
    並列処理パイプラインロジックの第1のサブセットが第1の複数の仮想コンピュートダイに配置されており、前記並列処理パイプラインロジックの第2のサブセットが前記ベースICダイに配置されている、
    集積回路デバイス。
  15. 前記複数の仮想コンピュートダイの各々は、グラフィックスパイプラインロジックの一部を含むシェーダエンジンダイを含む、
    請求項14の集積回路デバイス。
  16. 前記ベースICダイにおける前記並列処理パイプラインロジックの前記第2のサブセットは、前記複数の仮想コンピュートダイの動作を制御するように構成されたコマンドプロセッサを含む、
    請求項15の集積回路デバイス。
  17. 前記ベースICダイは、能動インターポーザダイである、
    請求項14~16の何れかの集積回路デバイス。
  18. 前記ベースICダイは、前記並列プロセッサの外部のシステムメモリモジュールと通信するように構成されたメモリコントローラを含む、
    請求項14~17の何れかの集積回路デバイス。
  19. 前記ベースICダイは、前記ベースICダイの第1のビーチフロントエッジに沿って配置された第1の相互接続構造体を含む、
    請求項14~18の何れかの集積回路デバイス。
  20. 前記ベースICダイは、前記ベースICダイの前記第1のビーチフロントエッジと向きが平行である前記ベースICダイの第2のビーチフロントエッジに沿って配置された第2の相互接続構造体を含む、
    請求項19の集積回路デバイス。
JP2023558135A 2021-03-30 2022-03-29 モジュール式並列プロセッサのためのダイ積層 Pending JP2024511776A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/217,165 US20220320042A1 (en) 2021-03-30 2021-03-30 Die stacking for modular parallel processors
US17/217,165 2021-03-30
PCT/US2022/022279 WO2022212323A1 (en) 2021-03-30 2022-03-29 Die stacking for modular parallel processors

Publications (1)

Publication Number Publication Date
JP2024511776A true JP2024511776A (ja) 2024-03-15

Family

ID=83450111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023558135A Pending JP2024511776A (ja) 2021-03-30 2022-03-29 モジュール式並列プロセッサのためのダイ積層

Country Status (6)

Country Link
US (1) US20220320042A1 (ja)
EP (1) EP4315423A1 (ja)
JP (1) JP2024511776A (ja)
KR (1) KR20240004301A (ja)
CN (1) CN117397388A (ja)
WO (1) WO2022212323A1 (ja)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865084B2 (en) * 2007-09-11 2011-01-04 Oracle America, Inc. Multi-chip systems with optical bypass
US9530716B2 (en) * 2012-04-20 2016-12-27 Sandisk Technologies Inc. Apparatus, system, and method for transferring heat from memory components
US9244629B2 (en) * 2013-06-25 2016-01-26 Advanced Micro Devices, Inc. Method and system for asymmetrical processing with managed data affinity
US10158833B2 (en) * 2017-04-24 2018-12-18 Intel Corporation High dynamic range imager enhancement technology
JP7208356B2 (ja) * 2018-09-26 2023-01-18 コーヒレント・ロジックス・インコーポレーテッド 任意の世界ビューの生成
US10937762B2 (en) * 2018-10-04 2021-03-02 iCometrue Company Ltd. Logic drive based on multichip package using interconnection bridge
US10803548B2 (en) * 2019-03-15 2020-10-13 Intel Corporation Disaggregation of SOC architecture
US11011466B2 (en) * 2019-03-28 2021-05-18 Advanced Micro Devices, Inc. Integrated circuit package with integrated voltage regulator
US20210067952A1 (en) * 2019-09-03 2021-03-04 Nvidia Corporation Performing scrambling and/or descrambling on parallel computing architectures
US11791938B2 (en) * 2019-09-26 2023-10-17 Nvidia Corporation Parity check decoding
US11507527B2 (en) * 2019-09-27 2022-11-22 Advanced Micro Devices, Inc. Active bridge chiplet with integrated cache
US20210133583A1 (en) * 2019-11-05 2021-05-06 Nvidia Corporation Distributed weight update for backpropagation of a neural network
US11609879B2 (en) * 2021-02-26 2023-03-21 Nvidia Corporation Techniques for configuring parallel processors for different application domains
US20230305853A1 (en) * 2022-03-25 2023-09-28 Nvidia Corporation Application programming interface to perform operation with reusable thread
WO2023193190A1 (en) * 2022-04-07 2023-10-12 Nvidia Corporation Adjusting precision of neural network weight parameters

Also Published As

Publication number Publication date
WO2022212323A1 (en) 2022-10-06
CN117397388A (zh) 2024-01-12
KR20240004301A (ko) 2024-01-11
EP4315423A1 (en) 2024-02-07
US20220320042A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
US8445918B2 (en) Thermal enhancement for multi-layer semiconductor stacks
US9495498B2 (en) Universal inter-layer interconnect for multi-layer semiconductor stacks
US8736068B2 (en) Hybrid bonding techniques for multi-layer semiconductor stacks
JP7084377B2 (ja) スタックド・シリコン・インターコネクト(ssi)技術集積化のためのスタンドアロンインターフェイス
JP7478229B2 (ja) 統合キャッシュを有するアクティブブリッジチップレット
US10916516B2 (en) High bandwidth memory (HBM) bandwidth aggregation switch
US11663769B2 (en) Game engine on a chip
CN115525592A (zh) 用于集成电路装置的模块化外围片块
JP7516428B2 (ja) 高帯域クロスリンクを使用したgpuチップレット
JP2007265019A (ja) 演算処理装置
CN114467166A (zh) 制造有源电桥耦合的gpu小芯片
JP2024511776A (ja) モジュール式並列プロセッサのためのダイ積層
US11960339B2 (en) Multi-die stacked power delivery
CN112805820A (zh) 芯片制造方法及芯片结构

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231122