CN116246963A

CN116246963A - 一种可重构3d芯片及其集成方法

Info

Publication number: CN116246963A
Application number: CN202310104167.1A
Authority: CN
Inventors: 于义; 欧阳鹏
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Beijing Qingwei Intelligent Technology Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-09

Abstract

本发明公开了一种可重构3D芯片及其集成方法。其中，方法包括：设计可重构3D芯片的架构；对可重构3D芯片的可重构计算逻辑芯片进行半导体制造，得到未经切割的可重构逻辑晶圆；根据可重构3D芯片的架构，将可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将可重构逻辑晶圆的信号IO和存储器晶圆的信号IO连接在一起；将键合堆叠后的芯片进行切割，得到独立的堆叠晶片；将堆叠晶片进行封装，得到可重构3D芯片。

Description

一种可重构3D芯片及其集成方法

技术领域

本发明涉及计算机技术领域，并且更具体地，涉及一种可重构3D芯片及其集成方法。

背景技术

随着人工智能技术的不断发展，对芯片算力的需求越来越高，芯片设计者必须持续提高算力以满足不断增长的算力需求。芯片的算力，即芯片的计算性能受多种因素影响。芯片的主要功能部件主要包括存储器、运算器、控制器、输入设备和输出设备。其基本工作流程为，原始数据预先存储于存储器或通过输入设备进入存储器，在程序的控制下，控制器将存储器里的数据送入到运算器完成计算，然后将计算后的数据写入到存储器或送到输出设备。整个数据计算过程中，数据要在存储器和运算器之间来回搬运，因此，单位时间内数据在运算器和存储器之间的多少和数据在传输路径上消耗的时间会直接影响芯片的性能。芯片运算器和存储器之间传输数据的能力可以通过带宽和延时两个参数表示。现代半导体技术不断发展，芯片内运算器的处理速度不断提高，已经远超存储器能够提供的读写带宽和延时，造成“存储墙”问题。存储器的类型有很多，目前芯片外大容量高速存储器主要是DRAM。传统架构中，DRAM和计算芯片的互联形式主要有两种，PCB板级2D互联和硅基底2.5D互联。DRAM存储器和计算芯片的PCB板级2D互联形式，存储器和计算单元之间的物理距离是厘米级，数据信号链路上的负载也很大，数据传输带宽很低。同时由于芯片IO端口数量的限制，互联带宽进一步受限制，难以满足计算单元的需求，造成性能下降。基于硅基底的2.5D集成将存储芯粒和计算芯粒在一块硅基板上互联，虽然相比于PCB板级互联极大的减少了互联距离，将存储器和计算器之间的互联距离缩小到了毫米级，但是其本质仍为二维平面互联结构，存储器带宽提升有限，仍不能满足计算需求。以HBM DRAM与计算芯片2.5D互联为例，单个HBM DRAM颗粒仅能提供1024bit的接口位宽，数据传输位宽受限。

发明内容

针对现有技术的不足，本发明提供一种可重构3D芯片及其集成方法。

根据本发明的一个方面，提供了一种可重构3D芯片的集成方法，包括：

设计可重构3D芯片的架构；

对可重构3D芯片的可重构计算逻辑芯片进行半导体制造，得到未经切割的可重构逻辑晶圆；

根据可重构3D芯片的架构，将可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将可重构逻辑晶圆的信号IO和存储器晶圆的信号IO连接在一起；

将键合堆叠后的芯片进行切割，得到独立的堆叠晶片；

将堆叠晶片进行封装，得到可重构3D芯片。

可选地，还包括：

根据可重构3D芯片的架构，进行可重构3D芯片的RTL代码的开发和验证，确定芯片RTL代码。

可选地，对可重构3D芯片的可重构计算逻辑芯片进行半导体制造，得到未经切割的可重构逻辑晶圆，包括：

根据可重构3D芯片的架构，进行可重构3D芯片的逻辑综合，得到可重构3D芯片的门级网表；

根据门级网表对可重构3D芯片的可重构计算逻辑芯片进行布局布线，确定可重构计算逻辑芯片的GDS文件；

根据GDS文件，对可重构计算逻辑芯片的GDS经半导体制造得到未经切割的可重构逻辑晶圆。

可选地，根据可重构3D芯片的架构，将可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将可重构逻辑晶圆的信号IO和存储器晶圆的信号IO连接在一起，包括：

根据可重构3D芯片架构的混合键合规则确定可重构计算逻辑芯片的混合键合方案；

根据混合键合方案，将可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将可重构逻辑晶圆的信号IO和存储器晶圆的信号IO连接在一起。

根据本发明的另一个方面，提供了一种可重构3D芯片，包括：

可重构计算芯粒以及设置在可重构计算芯粒顶层的存储器芯粒，其中

存储器芯粒包括多个存储器单元，可重构计算芯粒的每一个可重构计算单元配置有独立的存储器单元，可重构计算单元与其对应的存储器单元之间采用紧耦合方式连接。

可选地，多个可重构计算单元之间采用数据流计算模式，实现数据传递。

可选地，存储器芯粒为一层或者多层堆叠的存储器。

可选地，存储器单元为一个或者多个逻辑存储块。

可选地，可重构计算芯粒内部的可重构计算单元构成二维阵列。

可选地，顶层的存储器芯粒与底层的可重构计算芯粒直接堆叠，并且通过硅通孔或者混合键合技术实现信号连接。

从而，本发明提供一种将DRAM颗粒和可重构计算芯粒3维集成可重构3D芯片的方法。可重构计算芯粒是一种可配置的数据流计算架构，天然很好的匹配具有数据流计算特征的应用程序，其具备分布式的片上计算资源，结合3维集成DRAM颗粒，能够将计算单元与存储单元之间的物理距离缩小到微米级，极大的提高访存带宽，从而大幅提高芯片计算性能。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1是本发明一示例性实施例提供的可重构3D芯片的集成方法的流程示意图；

图2是本发明一示例性实施例提供的可重构计算芯粒与存储器芯粒堆叠形成3D芯片设计流程图；

图3是本发明一示例性实施例提供的可重构3D芯片的结构示意图；

图4是本发明一示例性实施例提供的存储器芯粒与可重构计算芯粒三维集成示意图。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1是本发明第一方面所述的可重构处理芯片的集成方法的流程示意图。本实施例可应用在电子设备上，如图1所示，可重构3D芯片的集成方法100包括以下步骤：

步骤101，设计可重构3D芯片的架构；

步骤102，对可重构3D芯片的可重构计算逻辑芯片进行半导体制造，得到未经切割的可重构逻辑晶圆；

步骤103，根据可重构3D芯片的架构，将可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将可重构逻辑晶圆的信号IO和存储器晶圆的信号IO连接在一起；

步骤104，将键合堆叠后的芯片进行切割，得到独立的堆叠晶片；

步骤105，将堆叠晶片进行封装，得到可重构3D芯片。

可选地，还包括：

具体地，参考图2所示，示出了可重构芯粒与DRAM芯粒键合形成3D芯片的设计流程，具体步骤如下：

首先进行可重构3D芯片的架构设计，经过设计空间探索确定芯片架构后，进行RTL代码的开发和验证，保证芯片RTL代码的正确性。

RTL代码验证完成之后，进行逻辑综合，得到芯片的门级网表。

然后进入IC物理实现阶段，对可重构计算逻辑芯片进行布局布线，得到可重构计算逻辑芯片的GDS文件和根据混合键规则确定的混合键合设计方案，保证逻辑晶圆与DRAM晶圆之间的键合位置关系的正确性。可重构计算逻辑芯片的GDS经半导体制造得到未经切割的可重构逻辑晶圆。

根据混合键合方案设计，将可重构逻辑晶圆与DRAM晶圆采用混合键合技术面对面的键合在一起，可重构逻辑晶圆的信号IO与DRAM晶圆的信号IO可靠的连接在一起；然后，对键合堆叠后的芯片进行切割划片，得到独立的堆叠晶片，将晶片进行封装，得到最终的可重构3D芯片。

本发明提出一种将DRAM颗粒和可重构计算芯粒3维集成的方法。可重构计算芯粒是一种可配置的数据流计算架构，天然很好的匹配具有数据流计算特征的应用程序，其具备分布式的片上计算资源，结合3维集成DRAM颗粒，能够将计算单元与存储单元之间的物理距离缩小到微米级，极大的提高访存带宽，从而大幅提高芯片计算性能。

从而，本发明的可重构3D芯片采用的是可重构计算架构，可重构计算架构是一种数据流式计算架构，没有指令调度，能够实现完全数据驱动计算，计算能效高，同时保持了很好的灵活性。一方面，相比于NV GPGPU的共享存储式计算架构，可重构计算架构的数据流计算模式能够大幅减少外部存储器的访问，从而减少访存带宽依赖，更不容易出现访存瓶颈。例如，对于人工智能算法中常用的通用矩阵乘运算，可重构计算架构无需将中间结果在外部存储器中来回读写，能够节省50％的访存带宽。计算die，片上可部署多个可重构计算核心，结合3D堆叠DRAM芯粒，计算核与DRAM存储器之间可以一对一垂直互联，互联距离缩小到微米级，实现512GB/s的大访存带宽，并为每个计算核提供高达128MB的近距离存储容量，可以直接节省大量的片上SRAM布置。单颗可重构计算芯粒片上包含32个可重构计算核心，因此单芯粒能够实现16TB/s的极高访存带宽。通过垂直堆叠DRAM芯粒，能够实现近存计算，有效突破“存储墙”问题，显著提高封装芯片的整体性能。另一方面，常规的GPGPU计算架构是基于指令驱动的，计算芯片上的宝贵面积大量地消耗在指令相关的处理和调度上，造成计算资源紧张，同时其单指令多线程(SIMT)的计算模式在处理稀疏化数据集、通用计算和典型人工智能算法方面，计算资源利用率低下，典型情况下不足50％。可重构计算架构凭借其高密度计算单元阵列和灵活的可编程片上互联网络，能够实现比GPGPU更高的计算资源利用率，实现更高的实际算力。计算能效方面，本项目以可重构计算架构设计核心算力die。可重构计算架构完全消除了指令开销，其通过动态配置信息驱动任务执行。被加速的程序代码可以通过可重构编译器转化为可重构计算任务配置，配置信息驱动整个阵列以类似“专用集成电路(ASIC)”的工作方式运行，计算能效非常高。可重构计算架构能够充分的挖掘释放程序本身包含的多种并行能力，如指令级并行(通过元流水线实现)、数据级并行(通过SIMD实现)和任务级并行(粗粒度流水、虚拟化)，可以实现非常高的计算并行度。相同工艺面积下，可重构计算架构的计算性能是英伟达GPU的两倍以上，计算能效能达到十倍以上。

此外，图3为根据本申请实施例第二个方面所述的可重构3D芯片的示意图，参考图3所示，可重构3D芯片，包括：

可选地，存储器芯粒为一层或者多层堆叠的存储器。

可选地，存储器单元为一个或者多个逻辑存储块。

具体地，本发明提出一种将DRAM颗粒和可重构计算芯粒3维集成得到的可重构3D芯片。可重构计算芯粒与DRAM集成的逻辑示意图如图3所示。图中PE可重构计算单元，是提供算力的主要计算模块。图中的memory是存储器，对应于3D集成中的DRAM存储器。图1展示的可重构芯片架构与传统的CPU/GPU存在以下不同点，①传统的CPU/GPU是共享存储式计算架构，所有的计算单元操作一块统一的内存空间，访存带宽需求大；可重构计算芯粒是分布式存储器计算架构，每个PE配有独立的存储空间，而且每个计算单元PE与其对应的存储器采用紧耦合方式，访存延时也会更低。②传统的CPU/GPU是指令驱动的计算模式，计算单元之间的数据交互都是通过全局存储器进行，计算性能容易受到存储器带宽和延时的限制；本发明采用的可重构计算架构是数据流计算模式，支持计算单元之间直接进行数据传递，每个PE在自己独立的存储空间上完成自己的计算任务，处理完的数据直接由本地PE传递到其他PE，从而实现数据流式计算。

本发明提出将DRAM芯粒与可重构通过三维堆叠的方式集成为一个完整芯片的方法。其基本结构如图4所示，顶层为DRAM芯粒，可以是一整颗芯粒，也可以是多个芯粒。DRAM芯粒本身可以是一层，也可以是多层堆叠的DRAM。底层为可重构计算芯粒，内部为基本计算单元PE构成的二维阵列。顶层的DRAM芯粒与底层的可重构计算芯粒直接堆叠，两者之间通过硅通孔(TSV)实现信号相互连接。可重构计算芯粒的一个PE可以直接对应顶层DRAM的部分或完整物理/逻辑存储块，也可以对应多个DRAM逻辑存储块。

从而，本申请具有如下有益效果：

(1)DRAM芯粒与可重构芯粒三维集成，使存储器与计算单元的物理距离缩小到微米级，大幅提升访存带宽和降低访存延时，使集成后芯片整体性能显著提升。

(2)显著提升单核存储容量。由于DRAM本身具有高存储密度的特点，同时DRAM芯粒又可以多层堆叠，因此通过垂直堆叠三维集成的方法，可以使单个PE具有更大的存储容量。

(3)可重构计算芯粒算力更强。由于DRAM存储器和可重构计算芯粒三维堆叠集成，能够为可重构计算芯粒提供更强的访存性能，因此可重构片上的存储器空间可以大幅减少，腾出更多的硅面积用于计算资源，因而能够使可重构计算芯粒实现更强的算力。

(4)整体芯片功耗降低。DRAM芯粒与可重构芯粒三维集成，计算单元与存储单元之间的连线距离大幅减少，连线上的负载电阻电容也相应大幅减低，因而访存的功耗显著降低，使整芯片功耗有效降低。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是，在本发明的系统、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种可重构3D芯片的集成方法，其特征在于，包括：

设计可重构3D芯片的架构；

对所述可重构3D芯片的可重构计算逻辑芯片进行半导体制造，得到未经切割的可重构逻辑晶圆；

根据所述可重构3D芯片的架构，将所述可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将所述可重构逻辑晶圆的信号IO和所述存储器晶圆的信号IO连接在一起；

将键合堆叠后的芯片进行切割，得到独立的堆叠晶片；

将堆叠晶片进行封装，得到所述可重构3D芯片。

2.根据权利要求1所述的方法，其特征在于，还包括：

根据所述可重构3D芯片的架构，进行所述可重构3D芯片的RTL代码的开发和验证，确定芯片RTL代码。

3.根据权利要求1所述的方法，其特征在于，对所述可重构3D芯片的可重构计算逻辑芯片进行半导体制造，得到未经切割的可重构逻辑晶圆，包括：

根据所述可重构3D芯片的架构，进行所述可重构3D芯片的逻辑综合，得到所述可重构3D芯片的门级网表；

根据所述门级网表对所述可重构3D芯片的可重构计算逻辑芯片进行布局布线，确定所述可重构计算逻辑芯片的GDS文件；

根据所述GDS文件，对所述可重构计算逻辑芯片的GDS经半导体制造得到未经切割的可重构逻辑晶圆。

4.根据权利要求3所述的方法，其特征在于，根据所述可重构3D芯片的架构，将所述可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将所述可重构逻辑晶圆的信号IO和所述存储器晶圆的信号IO连接在一起，包括：

根据所述可重构3D芯片架构的混合键合规则确定所述可重构计算逻辑芯片的混合键合方案；

根据所述混合键合方案，将所述可重构逻辑晶圆与存储器晶圆采用混合技术面对面键合在一起，并将所述可重构逻辑晶圆的信号IO和所述存储器晶圆的信号IO连接在一起。

5.一种通过权利要求1-4任意一项所述的可重构3D芯片的集成方法得到的可重构3D芯片，其特征在于，包括：可重构计算芯粒以及设置在所述可重构计算芯粒顶层的存储器芯粒，其中

所述存储器芯粒包括多个存储器单元，所述可重构计算芯粒的每一个可重构计算单元配置有独立的所述存储器单元，所述可重构计算单元与其对应的所述存储器单元之间采用紧耦合方式连接。

6.根据权利要求5所述的可重构3D芯片，其特征在于，多个所述可重构计算单元之间采用数据流计算模式，实现数据传递。

7.根据权利要求5所述的可重构3D芯片，其特征在于，所述存储器芯粒为一层或者多层堆叠的存储器。

8.根据权利要求7所述的可重构3D芯片，其特征在于，所述存储器单元为一个或者多个逻辑存储块。

9.根据权利要求5所述的可重构3D芯片，其特征在于，所述可重构计算芯粒内部的所述可重构计算单元构成二维阵列。

10.根据权利要求5所述的可重构3D芯片，其特征在于，顶层的所述存储器芯粒与底层的所述可重构计算芯粒直接堆叠，并且通过硅通孔或者混合键合技术实现信号连接。