CN117397388A

CN117397388A - 模块化并行处理器的管芯堆叠

Info

Publication number: CN117397388A
Application number: CN202280025095.5A
Authority: CN
Inventors: 迈克尔·曼特
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2021-03-30
Filing date: 2022-03-29
Publication date: 2024-01-12
Also published as: WO2022212323A1; KR20240004301A; JP2024511776A; EP4315423A1; US20220320042A1

Abstract

一种多管芯并行处理器半导体封装包括第一基础IC管芯[204]，该第一基础IC管芯包括3D堆叠在该第一基础IC管芯的顶部上的第一多个虚拟计算管芯[212]。并行处理流水线逻辑的第一子集定位在该第一多个虚拟计算管芯处。另外，该并行处理流水线逻辑的第二子集定位在该第一基础IC管芯处。该多管芯并行处理器半导体封装还包括第二基础IC管芯[206]，该第二基础IC管芯包括3D堆叠在该第二基础IC管芯的顶部上的第二多个虚拟计算管芯。有源桥接芯片[210]将该第一基础IC管芯的第一互连结构可通信地耦合到该第二基础IC管芯的第一互连结构。

Description

模块化并行处理器的管芯堆叠

背景技术

两个或更多个集成电路(IC或“芯片”)被配置为彼此互操作的多芯片集成包括各种技术，诸如使用多芯片模块、系统级封装和三维芯片堆叠。一些常规多芯片模块包括并排安装在载体衬底上或者在一些情况下安装在中介层(所谓的“2.5D”)上的两个或更多个半导体芯片，该中介层又安装在载体衬底上。类似地，堆叠半导体芯片架构包括在芯片之间、在芯片与封装之间以及在封装与印刷电路板之间具有一个或多个互连结构的集成电路设计。

附图说明

通过参考附图，本公开可以被更好地理解，并且其许多特征和优点对于本领域技术人员是显而易见的。在不同附图中使用相同的附图标记表示类似或相同的项目。

图1是根据一些实施方案的实现多管芯并行处理器的计算系统的框图。

图2是示出根据一些实施方案的多管芯并行处理器的平面图的框图。

图3是示出根据一些实施方案的多管芯并行处理器的截面图的框图。

图4是根据一些实施方案的图形处理堆叠管芯小芯片的示例的框图。

图5是示出根据一些实施方案的采用图形处理堆叠管芯小芯片的示例图形处理器多芯片模块的框图。

图6是示出根据一些实施方案的图形处理堆叠管芯小芯片的另一示例的框图。

图7是示出根据一些实施方案的采用图形处理堆叠管芯小芯片的图形处理器多芯片模块的另一示例的框图。

具体实施方式

诸如图形处理单元(GPU)或其他并行处理单元的处理单元在常规上被制造为部署在管芯上的单片装置，该管芯的制造变得越来越昂贵。随着处理技术的进步允许在集成电路(IC)上制造越来越多的部件，业界一直在努力针对每个封装集成电路集成更多的电路装置。然而，半导体芯片的制造涉及许多工艺步骤，并且此处的每个步骤可能存在瑕疵、变异性和对准问题，从而在所制造的IC中引起一个或多个缺陷(或相对于设计规范的其他偏差)。这类制造缺陷可能产生具有缺陷的芯片，从而产生需要舍弃最终产品的不可操作芯片。

允许来自封装IC的更多电路装置和更多性能的一种技术是通过使用多芯片模块(MCM)技术。MCM对在单个IC管芯上形成的电路装置的多个单独模块进行集成。各种MCM部件通常被集成到统一的衬底上，使得MCM作为单个部件操作。多芯片模块取决于复杂性而具有多种形式，这些形式可以在被布置成模仿现有芯片封装的封装占据面积的印刷电路板(PCB)上使用预封装IC的范围内。MCM具有通过将复杂IC与较小IC部件拼接在一起来提高高度复杂IC的产量的优点。以此方式，确实出现的缺陷影响MCM的各个部件，而不是单个较大的复杂管芯。影响较大管芯的缺陷成本显著更高。

为了解决这些问题并且实现改进的系统性能，图1至图7描述了利用多个3D管芯堆叠构建块的系统和装置，这些构建块可通信地拼合在一起以形成相对于较大单片处理器具有类似性能的装置。在各种实施方案中，多管芯并行处理器半导体封装包括第一基础IC管芯，该第一基础IC管芯包括3D堆叠在第一基础IC管芯的顶部上的第一多个虚拟计算管芯。并行处理流水线逻辑的第一子集定位在该第一多个虚拟计算管芯处。另外，该并行处理流水线逻辑的第二子集定位在该第一基础IC管芯处。多管芯并行处理器还包括第二基础IC管芯，该第二基础IC管芯包括3D堆叠在第二基础IC管芯的顶部上的第二多个虚拟计算管芯。有源桥接芯片将第一基础IC管芯的第一互连结构可通信地耦合到第二基础IC管芯的第一互连结构。以此方式，可以由硅晶片制造较大数量的较小占据面积基础管芯。包括缺陷的较小管芯的子集在剩余良好管芯(即，无缺陷管芯)上方形成处理单元(例如虚拟计算管芯)之前被舍弃，从而减少与由于有缺陷的较大复杂管芯而抛弃堆叠装置相关联的成本。

图1示出了根据一些实施方案的实现多管芯并行处理器的计算系统100的一个实施方案的框图。在各种实施方案中，计算系统100包括至少一个或多个处理器102A-N、结构104、输入/输出(I/O)接口106、存储器控制器108、显示器控制器110和其他装置112。在各种实施方案中，为了支持用于图形和其他类型的工作负荷的指令的执行，计算系统100还包括主机处理器114，诸如中央处理单元(CPU)。在各种实施方案中，计算系统100包括计算机、膝上型计算机、移动装置、服务器或者各种其他类型的计算系统或装置中的任一者。应注意，计算系统100的部件的数量在一些实施方案中变化。还应注意，在一些实施方案中，计算系统100包括图1中未示出的其他部件。另外，在其他实施方案中，计算系统100以不同于图1中所示出的方式进行构造。

结构104表示符合用于在计算系统100的部件之间进行通信的各种类型的协议中的任何协议的任何通信互连件。结构104提供将处理单元102、I/O接口106、存储器控制器108、显示器控制器110和其他装置112彼此连接的数据路径、交换机、路由器和其他逻辑。结构104处理请求、响应和数据业务以及探测业务以促进一致性。结构104还处理到计算系统100的各种部件的中断请求路由和配置存取路径。另外，结构104处理配置请求、响应和配置数据业务。在一些实施方案中，结构104是基于总线的，包括共享总线配置、交叉开关配置以及具有桥的分层总线。在其他实施方案中，结构104是基于包的，并且是具有桥、交叉开关、点对点或其他互连件的分层结构。从结构104的角度来看，计算系统100的其他部件被称为“用户端”。结构104被配置为处理由各种用户端生成的请求，并且将这些请求传递给其他用户端。

存储器控制器108表示耦合到任何数量和类型的存储器装置的任何数量和类型的存储器控制器。例如，耦合到存储器控制器108的存储器装置的类型包括动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、NAND闪存存储器、NOR闪存存储器、铁电随机存取存储器(FeRAM)等。存储器控制器108可由处理器102、I/O接口106、显示器控制器110和其他装置112经由结构104来访问。I/O接口106表示任何数量和类型的I/O接口(例如外围部件互连(PCI)总线、PCI-扩展(PCI-X)、PCIE(PCI高速)总线、吉比特以太网(GBE)总线、通用串行总线(USB))。各种类型的外围装置耦合到I/O接口106。此类外围装置包括(但不限于)显示器、键盘、鼠标、打印机、扫描仪、操纵杆或其他类型的游戏控制器、媒体记录装置、外部存储装置、网络接口卡等。其他装置112表示任何数量和类型的装置(例如多媒体装置、视频编解码器)。

在各种实施方案中，处理器102中的每个处理器是并行处理器(例如向量处理器、图形处理单元(GPU)、通用GPU(GPGPU)、非标量处理器、高度并行处理器、人工智能(AI)处理器、推理引擎、机器学习处理器、其他多线程处理单元等)。每个并行处理器102被构造为包括(下文针对图2更详细地描述的)两个或更多个基础集成电路管芯的多芯片模块(例如半导体管芯封装)，该两个或更多个基础集成电路管芯与桥接芯片可通信地耦合在一起，使得并行处理器像单个半导体集成电路那样是可用的(例如可寻址的)。如本公开中所使用，术语“管芯”和“芯片”可互换地使用。本领域的技术人员将认识到，常规(例如非多芯片)半导体集成电路被制造为晶片，或者被制造为形成于晶片中并且稍后(例如当切割晶片时)与晶片分离的管芯(例如单芯片IC)；通常在晶片中同时制造多个IC。IC和可能的离散电路以及可能的其他部件(诸如非半导体封装衬底，包括印刷电路板、中介层以及可能的其他部件)被组装在多管芯并行处理器中。

因此，如下文针对图2至图7更详细地描述，在各种实施方案中，各个并行处理器102中的每个并行处理器包括与有源桥接芯片可通信地耦合在一起的两个或更多个并行处理堆叠管芯小芯片，以形成相对于较大单片处理器具有类似性能的装置。应认识到，尽管下文为了易于说明和描述而在GPU的特定上下文中描述了各种实施方案，但在各种实施方案中，将GPU处理流水线部件组织成多个离散管芯可适用于任何并行处理器而不脱离本公开的范围。例如，在各种实施方案中，本文描述的概念也类似地可适用于其他处理器，包括加速处理单元(APU)、离散GPU(dGPU)、人工智能(AI)加速器、其他并行处理器、中央处理单元(CPU)等。

现在参考图2，示出的是示出根据一些实施方案的并行处理器MCM 202的平面图200的框图。并行处理器MCM 202(例如图1的处理器102)形成为包括N数量个基础管芯的单个半导体芯片封装。如平面图200中所示出，并行处理器MCM 202包括第一基础IC管芯204和第二基础IC管芯206。第一基础IC管芯204包括沿第一基础IC管芯204的至少第一边缘(通常称为“岸端(beachfront)”)的管芯间互连结构208。类似地，第二基础IC管芯206还包括沿第二基础IC管芯206的至少第一边缘的管芯间互连结构208。

在各种实施方案中，并行处理器MCM 202包括桥接芯片210，该桥接芯片经由第一基础IC管芯204和第二基础IC管芯206的相应管芯间互连结构208将该第一基础IC管芯可通信地耦合到该第二基础IC管芯。在各种实施方案中，桥接芯片210是无源或有源的，其中桥接芯片210仅包括数据/电连接，或者给定桥接芯片210包括其自身的逻辑。例如，在一些实施方案中，桥接芯片210是具有有源硅的有源桥接芯片，以作为第一基础IC管芯204与第二基础IC管芯206之间的高带宽管芯到管芯互连件来操作。在其他实施方案中，桥接芯片210是无源芯片。

在一些实施方案中，有源桥接芯片210包括一个或多个高速缓存缓冲器，并且因此扩展了岸端边缘连接性，同时仍提供基础管芯间通信，并且跨管芯同步信号进行路由而不需要存储器物理接口(PHY)。高速缓存自然是有源部件(即，需要电力来进行操作)，因此桥接芯片210是有源的，以用于保持那些高速缓存缓冲器。对于不同应用以及不同基础管芯配置，高速缓存大小可配置为例如随有源桥接芯片210的物理大小而变化，并且有源桥接芯片210可通信地耦合到的基础管芯不占用桥接芯片210上的此外部高速缓存的成本(例如与物理空间、功率约束等相关的成本)。

在各种实施方案中，桥接芯片210包括局部硅互连(LSI)，该LSI提供将两个逻辑芯片可通信地耦合在一起的自由平移的小硅键合，并且提供具有有限物理范围的两个管芯的相邻边缘之间的管芯间连接性(例如，与将基础IC管芯204、206安装到公共中介层衬底并且完全依赖于由中介层提供的用于管芯间通信的电连接(该电连接诸如由中介层通常跨越整个组件的范围的常规2.5D拓扑提供)相反)。以此方式，中间桥接芯片210将多个基础IC管芯(例如第一基础IC管芯204和第二基础IC管芯206)可通信地耦合在一起。

如图2中所示出，并行处理器MCM 202包括堆叠在第一基础IC管芯204的顶部上的两个虚拟并行处理单元(vPPU)管芯212(为了便于使用术语，下文中称为“虚拟计算管芯”)。类似地，并行处理器MCM 202还包括堆叠在第二基础IC管芯206的顶部上的两个虚拟计算管芯212。vPPU/虚拟计算管芯212在物理并行处理单元被拆分成多个vPPU的意义上是‘虚拟的’。在各种实施方案中，每个vPPU管芯12包括物理并行处理单元的资源(例如帧缓冲器)和并行处理能力的份额(通常为相等份额)。在各种实施方案中，计算流水线在基础管芯(例如第一基础IC管芯204和第二基础IC管芯206)与堆叠计算管芯(例如虚拟计算管芯212)之间被拆分。

举例来说，诸如下文在GPU的上下文中针对图4更详细地描述，在各种实施方案中，每个vPPU管芯212是包括并行处理流水线微架构的至少一部分的着色器引擎管芯(SED)。在各种实施方案中，SED包括着色器系统(或全着色器引擎)、像素管道、几何管道等。然而，图形处理流水线的至少一部分(诸如命令处理器)保留在基础IC管芯中。基础管芯还被拆分成两个或更多个单独的芯片(例如第一基础IC管芯204和第二基础IC管芯206)，而不是仅将计算核堆叠在公共中介层的顶部上。可以参考图3来理解并行处理器MCM架构的额外细节，该图是示出根据一些实施方案的多管芯并行处理器的截面图的框图。视图300提供在截面A-A处截取的图2的第一基础IC管芯204和其堆叠虚拟计算管芯212、第二基础IC管芯204和其堆叠虚拟计算管芯212以及桥接芯片210的截面图。

在各种实施方案中，诸如图2中所示出，基础IC管芯204与基础IC管芯206相同。在其他实施方案中，基础IC管芯204具有与基础IC管芯206的结构不同的结构。另外，在各种实施方案中，基础IC管芯是对称的，使得基础IC管芯的平移(或旋转)不改变基础IC管芯的边缘(例如岸端)处的互连结构，这提高了提供基础IC管芯(以及对应的堆叠计算管芯)作为用于与彼此、存储器管芯、其他片上系统(SoC)管芯等进行组合的模块化构建块的灵活性。应了解，在各种实施方案中，基础IC管芯包括用于可通信地耦合到其他管芯的一个或多个额外互连结构，诸如第二芯片间互连结构208、物理层(PHY)接口等。以此方式，高处理量互连(例如硅桥，诸如桥接芯片210)将多个基础管芯(例如基础IC管芯204、206)彼此链接作为模块化部件，并且使用协作命令处理器来协调多个管芯之间的操作以形成性能可与较大单片GPU相当的装置。

图4是根据一些实施方案的示例图形处理堆叠管芯小芯片的框图。如平面图400中所示出，图形处理堆叠管芯小芯片402包括基础有源中介层管芯404。应认识到，尽管下文为了易于说明和描述而在GPU术语的特定上下文中描述了图形处理堆叠管芯小芯片402，但在各种实施方案中，所描述的架构可适用于多种类型的并行处理器中的任一者(诸如先前参考图2和图3更广泛地描述)而不脱离本公开的范围。另外，在各种实施方案中，并且如本文中所使用，术语“小芯片”是指包括但不限于以下特性的任何装置：1)小芯片包括有源硅管芯，该有源硅管芯包括用于解决完整问题的计算逻辑的至少一部分(即，计算工作负荷跨这些有源硅管芯中的多个有源硅管芯进行分配)；2)将小芯片一起封装为同一衬底上的单片单元；以及3)编程模型保留将这些单独的计算管芯(即，图形处理堆叠管芯小芯片402)组合为单个单片单元的概念(即，每个小芯片不作为单独的装置暴露给使用小芯片来处理计算工作负荷的应用程序)。

图形处理堆叠管芯小芯片402的基础有源中介层管芯(AID)404(类似于图2的第一基础IC管芯204)包括沿基础有源中介层管芯404的至少第一边缘(通常称为“岸端”)的管芯间互连结构408。另外，图形处理堆叠管芯小芯片402包括形成在有源中介层管芯404上方的多个着色器引擎管芯(SED)412(类似于图2的虚拟计算管芯212，但在各种实施方案中包括任何适当的并行处理单元)。尽管被示出为包括两个SED 412，但本领域技术人员将认识到，任何数量的处理单元可以定位在有源中介层管芯404上方所堆叠的处理单元层中。在此构型中，基于3D管芯堆叠方法，通过将多个着色器引擎管芯412定位在有源中介层管芯404的顶部上的层中而将常规图形复杂管芯(GCD)的一部分向上推动到第二层。

在各种实施方案中，每个着色器引擎管芯412包括GPU的资源和图形处理能力的份额(通常为相等份额)，但不包含整个图形流水线。特别地，着色器引擎管芯412包括图形处理流水线微架构的至少一部分。例如，在一些实施方案中，着色器引擎管芯412包括着色器系统(未示出)、像素管道(未示出)、几何逻辑(未示出)等。然而，图形处理流水线的至少一部分(诸如命令处理器406)定位在下面的基础有源中介层管芯404中。另外，在各种实施方案中，基础有源中介层管芯404包括一级或多级高速缓存存储器410以及用于与外部系统存储器(未示出)(诸如动态随机存取存储器(DRAM)模块)通信的一个或多个存储器控制器PHY414。在其他实施方案中，存储器控制器(未示出)和存储器控制器PHY 414在与基础有源中介层管芯404分离的管芯上提供。

即，各种高速缓存和可互连性部件定位在基础有源中介层管芯404处(而高功率有源处理部件定位在堆叠式SED 412中)。另外，图形流水线逻辑的至少一部分(诸如一起控制多个SED 412的逻辑(例如命令处理器406))也定位在基础有源中介层管芯404处。以此方式，有源中介层管芯404包括高速缓存和逻辑，该逻辑一起控制多个SED 412以控制用于几何状态和命令处理的数据。有源中介层管芯404和多个SED 412的此功能分组一起形成图形处理堆叠管芯小芯片402(或者可以简称为“GPU小芯片”)。

现在参考图5，示出了根据一些实施方案的采用图形处理堆叠管芯小芯片的图形处理器MCM 502的平面图500的框图。图形处理器MCM 502(类似于图2的并行处理器MCM202)形成为单个半导体芯片封装，该单个半导体芯片封装包括图4的N＝2数量个可通信地耦合的图形处理堆叠管芯小芯片402。如平面图500中所示出，图形处理器MCM 502包括第一图形处理堆叠管芯小芯片402a和第二图形处理堆叠管芯小芯片402b。

在各种实施方案中，图形处理器MCM 502包括桥接芯片504，该桥接芯片经由第一图形处理堆叠管芯小芯片402a和第二图形处理堆叠管芯小芯片402b的相应管芯间互连结构408将该第一图形处理堆叠管芯小芯片可通信地耦合到该第二图形处理堆叠管芯小芯片。在各种实施方案中，桥接芯片504是无源或有源的，其中桥接芯片504仅包括数据/电连接，或者给定桥接芯片504包括其自身的逻辑。例如，在一些实施方案中，桥接芯片504是具有有源硅的有源桥接芯片，以作为第一图形处理堆叠管芯小芯片402a与第二图形处理堆叠管芯小芯片402b之间的高带宽管芯到管芯互连件来操作。在其他实施方案中，桥接芯片504是无源芯片。

在一些实施方案中，有源桥接芯片504包括一个或多个高速缓存缓冲器，并且因此扩展了岸端边缘连接性，同时仍提供基础管芯间通信，并且跨管芯同步信号进行路由。高速缓存自然是有源部件(即，需要电力来进行操作)，因此桥接芯片504是有源的，以用于保持那些高速缓存缓冲器。对于不同应用以及不同堆叠管芯小芯片配置，高速缓存大小可配置为例如随有源桥接芯片504的物理大小而变化，并且有源桥接芯片504可通信地耦合到的堆叠管芯小芯片不占用桥接芯片504上的此外部高速缓存的成本(例如与物理空间、功率约束等相关的成本)。

在各种实施方案中，桥接芯片504包括局部硅互连(LSI)，该LSI提供将两个逻辑芯片可通信地耦合在一起的自由平移的小硅键合，并且提供具有有限物理范围的两个管芯的相邻边缘之间的管芯间连接性(例如，与将堆叠管芯小芯片402安装到公共中介层衬底并且完全依赖于由中介层提供的用于管芯间通信的电连接(该电连接诸如由中介层通常跨越整个组件的范围的常规2.5D拓扑提供)相反)。以此方式，中间桥接芯片504将多个堆叠管芯小芯片(例如第一图形处理堆叠管芯小芯片402a与第二图形处理堆叠管芯小芯片402b)可通信地耦合在一起。另外，在各种实施方案中，桥接芯片504在两个堆叠管芯小芯片之间承载数据结构(未示出)以提供存储器的公共视图。

在单个封装中将多个图形处理堆叠管芯小芯片耦合在一起(例如将第一图形处理堆叠管芯小芯片402a耦合到第二图形处理堆叠管芯小芯片402b)产生了有效地作为单个较大图形复杂管芯(GCD)操作但由较小模块化管芯部件构成的装置。在各种实施方案中，图形处理器MCM 502经由图形处理堆叠管芯小芯片的存储器控制器PHY 414可通信地耦合到一个或多个外部系统存储器模块506。另外，在一些实施方案中，图形处理器MCM 502还包括与图形处理堆叠管芯小芯片402分离的多媒体和I/O管芯(MID)508中的输入/输出(I/O)逻辑。

本领域技术人员将认识到，由图形处理堆叠管芯小芯片的耦合产生的后续MCM的模块性和可缩放性随以下各项而变化(至少基于以下各项)：沿图形处理堆叠管芯小芯片的边缘的互连结构的数量，以及3D堆叠在每个图形处理堆叠管芯小芯片的顶部上的着色器引擎管芯(或其他虚拟计算管芯)的数量，以及其他因素。现在参考图6，示出了根据一些实施方案的图形处理堆叠管芯小芯片的另一示例。如平面图600中所示出，图形处理堆叠管芯小芯片602包括基础有源中介层管芯604。应认识到，尽管下文为了易于说明和描述而在GPU术语的特定上下文中描述了图形处理堆叠管芯小芯片602，但在各种实施方案中，所描述的架构可适用于多种类型的并行处理器中的任一者(诸如先前参考图2和图3更广泛地描述)而不脱离本公开的范围。另外，在各种实施方案中，并且如本文中所使用，术语“小芯片”是指包括但不限于以下特性的任何装置：1)小芯片包括有源硅管芯，该有源硅管芯包括用于解决完整问题的计算逻辑的至少一部分(即，计算工作负荷跨这些有源硅管芯中的多个有源硅管芯进行分配)；2)将小芯片一起封装为同一衬底上的单片单元；以及3)编程模型保留将这些单独的计算管芯(即，图形处理堆叠管芯小芯片402)组合为单个单片单元的概念(即，每个小芯片不作为单独的装置暴露给使用小芯片来处理计算工作负荷的应用程序)。

图形处理堆叠管芯小芯片602的基础有源中介层管芯(AID)604(类似于图2的第一基础IC管芯204)包括沿基础有源中介层管芯604的第一边缘(通常称为“岸端”)的第一管芯间互连结构608a。另外，图形处理堆叠管芯小芯片602包括沿基础有源中介层管芯604的第二边缘的第二管芯间互连结构608b。尽管在图6中将沿第一边缘的第一管芯间互连结构608a示出为相对于沿基础有源中介层管芯604的第二边缘的第二管芯间互连结构608b平行定位，但本领域技术人员将认识到，在各种实施方案中，第一管芯间互连结构608a还可以沿在空间中相对垂直定位的基础有源中介层管芯604的边缘(例如沿管芯604的左边缘和顶部/底部边缘)定位。另外，在一些实施方案中，基础有源中介层管芯604包括沿基础有源中介层管芯604的其他岸端边缘的三个或更多个互连结构。

图形处理堆叠管芯小芯片602包括形成在有源中介层管芯604上方的多个着色器引擎管芯(SED)612(类似于图2的虚拟计算管芯212，但在各种实施方案中包括任何适当的并行处理单元)。尽管被示出为包括三个SED 612，但本领域技术人员将认识到，任何数量的处理单元可以定位在有源中介层管芯604上方所堆叠的处理单元层中。在此配置中，基于3D管芯堆叠方法，通过将多个着色器引擎管芯612定位在有源中介层管芯604的顶部上的层中而将常规图形复杂管芯(GCD)的一部分向上推动到第二层。

在各种实施方案中，每个着色器引擎管芯612包括GPU的资源和图形处理能力的份额(通常为相等份额)，但不包含整个图形流水线。特别地，着色器引擎管芯612包括图形处理流水线微架构的至少一部分。例如，在一些实施方案中，着色器引擎管芯612包括着色器系统(未示出)、像素管道(未示出)、几何逻辑(未示出)等。然而，图形处理流水线的至少一部分(诸如命令处理器606)定位在下面的基础有源中介层管芯604中。另外，在各种实施方案中，基础有源中介层管芯604包括一级或多级高速缓存存储器610以及用于与外部系统存储器(未示出)(诸如动态随机存取存储器(DRAM)模块)通信的一个或多个存储器控制器PHY614。在其他实施方案中，存储器控制器(未示出)和存储器控制器PHY 614在与基础有源中介层管芯604分离的管芯上提供。

即，各种高速缓存和可互连性部件定位在基础有源中介层管芯604处(而高功率有源处理部件定位在堆叠式SED 612中)。另外，图形流水线逻辑的至少一部分(诸如一起控制多个SED 612的逻辑(例如命令处理器606))也定位在基础有源中介层管芯604处。以此方式，有源中介层管芯604包括高速缓存和逻辑，该逻辑一起控制多个SED 612以控制用于几何状态和命令处理的数据。有源中介层管芯604和多个SED 612的此功能分组一起形成图形处理堆叠管芯小芯片602(或者可以简称为“GPU小芯片”)。

现在参考图7，示出了根据一些实施方案的采用图形处理堆叠管芯小芯片的图形处理器MCM 702的平面图700的框图。图形处理器MCM 702(类似于图2的并行处理器MCM202)形成为单个半导体芯片封装，该单个半导体芯片封装包括图6的N＝3数量个可通信地耦合的图形处理堆叠管芯小芯片602。如平面图700中所示出，图形处理器MCM 702包括第一图形处理堆叠管芯小芯片702a、第二图形处理堆叠管芯小芯片702b和第三图形处理堆叠管芯小芯片702c。

如将了解，与图形处理堆叠管芯小芯片602相关联的增加数量的管芯间互连结构608a、608b允许较大量的堆叠管芯小芯片在单个封装中可通信地耦合在一起(例如相对于仅可能由于每个堆叠管芯小芯片402上的单个互连结构408而被配对的堆叠管芯小芯片402，诸如图5中所示出)。例如，在各种实施方案中，图形处理器MCM 702包括第一桥接芯片704a，该第一桥接芯片将第一图形处理堆叠管芯小芯片702a可通信地耦合到第二图形处理堆叠管芯小芯片702b。特别地，第一桥接芯片704a将第一图形处理堆叠管芯小芯片702a的第二管芯间互连结构608b可通信地耦合到第二图形处理堆叠管芯小芯片702b的第一管芯间互连结构608a。另外，图形处理器MCM 702包括第二桥接芯片704b，该第二桥接芯片将第二图形处理堆叠管芯小芯片702b可通信地耦合到第三图形处理堆叠管芯小芯片702c。特别地，第二桥接芯片704b将第二图形处理堆叠管芯小芯片702b的第二管芯间互连结构608b可通信地耦合到第三图形处理堆叠管芯小芯片702c的第一管芯间互连结构608a。

在各种实施方案中，桥接芯片704是无源或有源的，其中每个桥接芯片704仅包括数据/电连接，或者给定桥接芯片704包括其自身的逻辑。例如，在一些实施方案中，每个桥接芯片704是具有有源硅的有源桥接芯片，以作为图形处理堆叠管芯小芯片602之间的高带宽管芯到管芯互连件来操作。在其他实施方案中，桥接芯片704是无源芯片。

在一些实施方案中，有源桥接芯片704包括一个或多个高速缓存缓冲器，并且因此扩展了岸端边缘连接性，同时仍提供基础管芯间通信，并且跨管芯同步信号进行路由。高速缓存自然是有源部件(即，需要电力来进行操作)，因此桥接芯片704是有源的，以用于保持那些高速缓存缓冲器。对于不同应用以及不同堆叠管芯小芯片配置，高速缓存大小可配置为例如随有源桥接芯片704的物理大小而变化，并且有源桥接芯片704可通信地耦合到的堆叠管芯小芯片不占用桥接芯片704上的此外部高速缓存的成本(例如与物理空间、功率约束等相关的成本)。

在各种实施方案中，桥接芯片704包括局部硅互连(LSI)，该LSI提供将两个逻辑芯片可通信地耦合在一起的自由平移的小硅键合，并且提供具有有限物理范围的两个管芯的相邻边缘之间的管芯间连接性(例如，与将堆叠管芯小芯片602安装到公共中介层衬底并且完全依赖于由中介层提供的用于管芯间通信的电连接(该电连接诸如由中介层通常跨越整个组件的范围的常规2.5D拓扑提供)相反)。以此方式，中间桥接芯片704将多个堆叠管芯小芯片(例如第一图形处理堆叠管芯小芯片602a与第二图形处理堆叠管芯小芯片602b)可通信地耦合在一起。另外，在各种实施方案中，桥接芯片704在两个堆叠管芯小芯片之间承载数据结构(未示出)以提供存储器的公共视图。

在单个封装中将多个图形处理堆叠管芯小芯片耦合在一起(例如将第一图形处理堆叠管芯小芯片602a耦合到第二图形处理堆叠管芯小芯片602b，该第二图形处理堆叠管芯小芯片又耦合到第三图形处理堆叠管芯小芯片602c)产生了有效地作为单个较大图形复杂管芯(GCD)操作但由较小模块化管芯部件构成的装置。在各种实施方案中，图形处理器MCM702经由图形处理堆叠管芯小芯片的存储器控制器PHY 614可通信地耦合到一个或多个外部系统存储器模块706。另外，在一些实施方案中，图形处理器MCM 702还包括与图形处理堆叠管芯小芯片602分离的多媒体和I/O管芯(MID)708中的输入/输出(I/O)逻辑。

应认识到，尽管本文已在以逐行方式的线性耦合的上下文中描述了基础IC管芯/图形处理堆叠管芯小芯片的各种实施方案，但本领域技术人员将认识到，每基础管芯的不同互连结构定位和/或增加数量的互连结构允许各种其他堆叠管芯小芯片配置。例如，在一些实施方案中，并且参考图6，第一管芯间互连结构608a还可以沿在空间中相对垂直定位的基础有源中介层管芯604的边缘定位(例如沿管芯604的左边缘和顶部/底部边缘)。另外，在一些实施方案中，基础有源中介层管芯604包括沿基础有源中介层管芯604的其他岸端边缘的三个或更多个互连结构。这类互连结构布置使得能够实现例如每并行处理器MCM具有N×M个堆叠管芯小芯片的各种网格状平铺配置。

因此，如本文中所描述，在多个离散管芯之间指派GPU处理流水线部件以创建可随后与有源桥接芯片可通信地拼合在一起的较小占据面积构建块(例如本文中描述的各种并行处理堆叠管芯小芯片)使得能够制造以小芯片方式可缩放的图形管道/芯片，同时仍能够形成相对于较大单片处理器具有类似性能的装置。此模块化3D图形概念是可缩放的、可单独更新的，并且通过使用具有高产量方面的小管芯来降低组装成本，并且在不仅允许每半导体晶片的生产的增加的管芯产量而且还增加每半导体晶片的良好管芯的量方面提供价值。

如本文中所公开，在一些实施方案中，一种并行处理器包括：第一基础集成电路(IC)管芯，所述第一基础IC管芯包括3D堆叠在所述第一基础IC管芯的顶部上的第一多个虚拟计算管芯，其中并行处理流水线逻辑的第一子集定位在所述第一多个虚拟计算管芯处，并且进一步地，其中所述并行处理流水线逻辑的第二子集定位在所述第一基础IC管芯处；第二基础IC管芯，所述第二基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第二多个虚拟计算管芯；以及有源桥接芯片，所述有源桥接芯片将所述第一基础IC管芯的第一互连结构可通信地耦合到所述第二基础IC管芯的第一互连结构。在一个方面，所述并行处理器包括：第二有源桥接芯片，所述第二有源桥接芯片将所述第二基础IC管芯的互连结构可通信地耦合到第三基础IC管芯的第一互连结构，其中所述第三基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第三多个虚拟计算管芯。在另一方面，所述第一多个虚拟计算管芯和所述第二多个虚拟计算管芯中的每一者包括包含图形流水线逻辑的一部分的着色器引擎管芯。在再一方面，所述第一基础IC管芯处的所述并行处理流水线逻辑的所述第二子集包括命令处理器，所述命令处理器被配置为控制所述第一多个虚拟计算管芯的操作。

在一个方面，所述第一基础IC管芯包括存储器控制器，所述存储器控制器被配置为与所述并行处理器外部的系统存储器模块通信。在另一方面，所述第二基础IC管芯包括定位在所述第二多个虚拟计算管芯处的并行处理流水线逻辑的所述第一子集，并且进一步地，其中所述并行处理流水线逻辑的所述第二子集定位在所述第二基础IC管芯处。

在一些实施方案中，一种系统包括：主机处理器，所述主机处理器被配置为生成供一个或多个并行处理器执行的命令流；以及并行处理器多芯片模块，所述并行处理器多芯片模块可通信地耦合到所述主机处理器，其中所述并行处理器多芯片模块包括：第一基础集成电路(IC)管芯，所述第一基础IC管芯包括3D堆叠在所述第一基础IC管芯的顶部上的第一多个虚拟计算管芯，其中并行处理流水线逻辑的第一子集定位在所述第一多个虚拟计算管芯处，并且进一步地，其中所述并行处理流水线逻辑的第二子集定位在所述第一基础IC管芯处；第二基础IC管芯，所述第二基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第二多个虚拟计算管芯；以及有源桥接芯片，所述有源桥接芯片将所述第一基础IC管芯的第一互连结构可通信地耦合到所述第二基础IC管芯的第一互连结构。在一个方面，所述系统包括：第二有源桥接芯片，所述第二有源桥接芯片将所述第二基础IC管芯的互连结构可通信地耦合到第三基础IC管芯的第一互连结构，其中所述第三基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第三多个虚拟计算管芯。

在一个方面，所述第一多个虚拟计算管芯和所述第二多个虚拟计算管芯中的每一者包括包含图形流水线逻辑的一部分的着色器引擎管芯。在另一方面，所述第一基础IC管芯处的所述并行处理流水线逻辑的所述第二子集包括命令处理器，所述命令处理器被配置为控制所述第一多个虚拟计算管芯的操作。在又一方面，所述第一基础IC管芯包括存储器控制器，所述存储器控制器被配置为与所述并行处理器外部的系统存储器模块通信。在再一方面，所述第二基础IC管芯包括定位在所述第二多个虚拟计算管芯处的并行处理流水线逻辑的所述第一子集，并且进一步地，其中所述并行处理流水线逻辑的所述第二子集定位在所述第二基础IC管芯处。在另一方面，所述第一基础IC管芯和所述第二基础IC管芯中的每一者是有源中介层管芯。

在一些实施方案中，一种集成电路装置包括：基础IC管芯，所述基础IC管芯包括3D堆叠在所述基础IC管芯的顶部上的多个虚拟计算管芯，其中并行处理流水线逻辑的第一子集定位在所述第一多个虚拟计算管芯处，并且进一步地，其中所述并行处理流水线逻辑的第二子集定位在所述基础IC管芯处。在一个方面，所述多个虚拟计算管芯中的每个虚拟计算管芯包括包含图形流水线逻辑的一部分的着色器引擎管芯。在另一方面，所述基础IC管芯处的所述并行处理流水线逻辑的所述第二子集包括命令处理器，所述命令处理器被配置为控制所述多个虚拟计算管芯的操作。在又一方面，所述基础IC管芯是有源中介层管芯。

在一个方面，所述基础IC管芯包括存储器控制器，所述存储器控制器被配置为与所述并行处理器外部的系统存储器模块通信。在另一方面，所述基础IC管芯包括沿所述基础IC管芯的第一岸端边缘定位的第一互连结构。在再一方面，所述基础IC管芯包括沿所述基础IC管芯的第二岸端边缘定位的第二互连结构，所述第二岸端边缘在定向上平行于所述基础IC管芯的所述第一岸端边缘。

计算机可读存储介质包括在使用期间可由计算机系统访问以向计算机系统提供指令和/或数据的任何非暂态存储介质或非暂态存储介质的组合。这种存储介质包括但不限于光学介质(例如光盘(CD)、数字通用光盘(DVD)、蓝光光盘)、磁性介质(例如软盘、磁带或磁性硬盘驱动器)、易失性存储器(例如随机存取存储器(RAM)或高速缓存)、非易失性存储器(例如只读存储器(ROM)或闪存存储器)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质嵌入计算系统(例如，系统RAM或ROM)中，固定地附接到计算系统(例如，磁性硬盘驱动器)，可移除地附接到计算系统(例如，光盘或基于通用串行总线(USB)的闪存存储器)，或者经由有线或无线网络(例如，网络可访问存储装置(NAS))耦接到计算机系统。

在一些实施方案中，上述技术的某些方面由执行软件的处理系统的一个或多个处理器实现。软件包括可执行指令的一个或多个集合，该可执行指令存储在或以其他方式有形地体现在非暂态计算机可读存储介质上。软件包括指令和某些数据，这些指令和数据在由一个或多个处理器执行时操纵一个或多个处理器以执行上文描述的技术的一个或多个方面。非暂态计算机可读存储介质包括例如磁盘或光盘存储装置、固态存储装置，诸如闪存存储器、高速缓存、随机存取存储器(RAM)或其他一个或多个非易失性存储器装置等。存储在非暂态计算机可读存储介质上的可执行指令包括源代码、汇编语言代码、目标代码，或者由一个或多个处理器解释或以其他方式执行的其他指令格式。

应当注意，并非以上在一般描述中描述的所有活动或元件都是必需的，特定活动或装置的一部分可能不是必需的，并且可以执行一个或多个另外的活动，或者除了所描述的那些之外还包括元件。更进一步地，列出活动的顺序不一定是执行它们的顺序。另外，已经参考具体实施方案描述了这些概念。然而，本领域普通技术人员理解，在不脱离如以下权利要求中阐述的本公开的范围的情况下，可以进行各种修改和改变。因此，说明书和附图被认为是说明性的而非限制性的，并且所有此类修改旨在被包括在本公开的范围内。

上文已经关于具体实施方案描述了益处、其他优点和问题的解决方案。然而，益处、优点、问题的解决方案以及可以导致任何益处、优点或解决方案出现或变得更显著的任何特征不应被解释为任何或所有权利要求的关键的、必需的或基本的特征。此外，上文公开的特定实施方案仅是说明性的，因为所公开的主题可以以受益于本文中的教导内容的本领域的技术人员显而易见的不同但等效的方式来修改和实践。除了以下权利要求书中所描述的之外，不旨在对本文所示的构造或设计的细节进行限制。因此，显而易见的是，可以改变或修改上文公开的特定实施方案，并且所有此类变化被认为是在所公开的主题的范围内。因此，本文寻求的保护如以下权利要求中所阐述。

Claims

1.一种并行处理器，所述并行处理器包括：

第一基础集成电路(IC)管芯，所述第一基础IC管芯包括3D堆叠在所述第一基础IC管芯的顶部上的第一多个虚拟计算管芯，其中并行处理流水线逻辑的第一子集定位在所述第一多个虚拟计算管芯处，并且进一步地，其中所述并行处理流水线逻辑的第二子集定位在所述第一基础IC管芯处；

第二基础IC管芯，所述第二基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第二多个虚拟计算管芯；和

有源桥接芯片，所述有源桥接芯片将所述第一基础IC管芯的第一互连结构可通信地耦合到所述第二基础IC管芯的第一互连结构。

2.根据权利要求1所述的并行处理器，所述并行处理器还包括：

第二有源桥接芯片，所述第二有源桥接芯片将所述第二基础IC管芯的互连结构可通信地耦合到第三基础IC管芯的第一互连结构，其中所述第三基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第三多个虚拟计算管芯。

3.根据权利要求1或权利要求2所述的并行处理器，其中所述第一多个虚拟计算管芯和所述第二多个虚拟计算管芯中的每一者包括包含图形流水线逻辑的一部分的着色器引擎管芯。

4.根据权利要求3所述的并行处理器，其中所述第一基础IC管芯处的所述并行处理流水线逻辑的所述第二子集包括命令处理器，所述命令处理器被配置为控制所述第一多个虚拟计算管芯的操作。

5.根据任一前述权利要求所述的并行处理器，其中所述第一基础IC管芯包括存储器控制器，所述存储器控制器被配置为与所述并行处理器外部的系统存储器模块通信。

6.根据任一前述权利要求所述的并行处理器，其中所述第二基础IC管芯包括定位在所述第二多个虚拟计算管芯处的并行处理流水线逻辑的所述第一子集，并且进一步地，其中所述并行处理流水线逻辑的所述第二子集定位在所述第二基础IC管芯处。

7.一种系统，所述系统包括：

主机处理器，所述主机处理器被配置为生成供一个或多个并行处理器执行的命令流；以及

并行处理器多芯片模块，所述并行处理器多芯片模块可通信地耦合到所述主机处理器，其中所述并行处理器多芯片模块包括：

第二基础IC管芯，所述第二基础IC管芯包括3D堆叠在所述第二基础IC管芯的顶部上的第二多个虚拟计算管芯；以及

8.根据权利要求7所述的系统，所述系统还包括：

9.根据权利要求7或权利要求8所述的系统，其中所述第一多个虚拟计算管芯和所述第二多个虚拟计算管芯中的每一者包括包含图形流水线逻辑的一部分的着色器引擎管芯。

10.根据权利要求9所述的系统，其中所述第一基础IC管芯处的所述并行处理流水线逻辑的所述第二子集包括命令处理器，所述命令处理器被配置为控制所述第一多个虚拟计算管芯的操作。

11.根据任一前述权利要求所述的系统，其中所述第一基础IC管芯包括存储器控制器，所述存储器控制器被配置为与所述并行处理器外部的系统存储器模块通信。

12.根据任一前述权利要求所述的系统，其中所述第二基础IC管芯包括定位在所述第二多个虚拟计算管芯处的并行处理流水线逻辑的所述第一子集，并且进一步地，其中所述并行处理流水线逻辑的所述第二子集定位在所述第二基础IC管芯处。

13.根据任一前述权利要求所述的系统，其中所述第一基础IC管芯和所述第二基础IC管芯中的每一者是有源中介层管芯。

14.一种集成电路装置，所述集成电路装置包括：

基础IC管芯，所述基础IC管芯包括3D堆叠在所述基础IC管芯的顶部上的多个虚拟计算管芯，其中并行处理流水线逻辑的第一子集定位在所述第一多个虚拟计算管芯处，并且进一步地，其中所述并行处理流水线逻辑的第二子集定位在所述基础IC管芯处。

15.根据权利要求14所述的集成电路装置，其中所述多个虚拟计算管芯中的每个虚拟计算管芯包括包含图形流水线逻辑的一部分的着色器引擎管芯。

16.根据权利要求15所述的集成电路装置，其中所述基础IC管芯处的所述并行处理流水线逻辑的所述第二子集包括命令处理器，所述命令处理器被配置为控制所述多个虚拟计算管芯的操作。

17.根据任一前述权利要求所述的集成电路装置，其中所述基础IC管芯是有源中介层管芯。

18.根据任一前述权利要求所述的集成电路装置，其中所述基础IC管芯包括存储器控制器，所述存储器控制器被配置为与所述并行处理器外部的系统存储器模块通信。

19.根据任一前述权利要求所述的集成电路装置，其中所述基础IC管芯包括沿所述基础IC管芯的第一岸端边缘定位的第一互连结构。

20.根据权利要求19所述的集成电路装置，其中所述基础IC管芯包括沿所述基础IC管芯的第二岸端边缘定位的第二互连结构，所述第二岸端边缘在定向上平行于所述基础IC管芯的所述第一岸端边缘。