CN117690893A - 一种芯片和包括该芯片的产品 - Google Patents

一种芯片和包括该芯片的产品 Download PDF

Info

Publication number
CN117690893A
CN117690893A CN202211076034.XA CN202211076034A CN117690893A CN 117690893 A CN117690893 A CN 117690893A CN 202211076034 A CN202211076034 A CN 202211076034A CN 117690893 A CN117690893 A CN 117690893A
Authority
CN
China
Prior art keywords
cache
soc
chip
die
active side
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211076034.XA
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cambricon Information Technology Co Ltd
Original Assignee
Shanghai Cambricon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cambricon Information Technology Co Ltd filed Critical Shanghai Cambricon Information Technology Co Ltd
Priority to CN202211076034.XA priority Critical patent/CN117690893A/zh
Publication of CN117690893A publication Critical patent/CN117690893A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本公开提供一种芯片和包括该芯片的产品。芯片可以实现在组合处理装置中。组合处理装置可以通过对外接口装置与外部设备相连接。待处理的数据可以由外部设备通过对外接口装置传递至组合处理装置。组合处理装置的计算结果可以经由对外接口装置传送回外部设备。根据不同的应用场景,对外接口装置可以具有不同的接口形式。

Description

一种芯片和包括该芯片的产品
技术领域
本公开涉及芯片领域,更具体地,涉及芯片中缓存设备的设置。
背景技术
当前,人工智能(Artificial Intelligence,AI)芯片面临两大困境。首先是摩尔定律正在失效,传统的单芯片集成制造成本越来越高。由于光刻设备掩模版尺寸的限制,芯片面积不能无限增大,因为芯片面积越大意味着良率越低。此外,半导体工艺节点越来越接近物理极限,每一代半导体工艺节点提升对于芯片性能带来的收益也越来越小,摩尔定律已经很难延续。
AI芯片性能的另一制约因素是数据的存取。具体而言,运算单元的运算速度通常是存储器存取速度的几十倍乃至几百倍,很多AI芯片所描述的实际算力会因为存储器的瓶颈而大大降低。
发明内容
本公开的目的至少在于克服现有技术中数据存储速度较慢所带来的瓶颈问题,提供一种性能提升的芯片。
根据本公开的第一方面,提供一种芯片,该芯片包括片上系统(System on Chip,SOC)晶粒,所述SOC晶粒包括SOC有源侧和SOC背侧,所述SOC有源侧包括SOC有源层和设置在所述SOC有源层上的SOC-重新分配(Redistribution Layer,RDL)层;以及多个同级高速缓存晶粒,每个高速缓存晶粒包括缓存有源侧和缓存背侧,所述缓存有源侧包括缓存有源层和设置在所述缓存有源层上的第一缓存-RDL层;其中,所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上,以实现所述同级高速缓存晶粒的同级扩展。
根据本公开第二方面,提供一种板卡,包括如上所述的芯片。
根据本公开第三方面,提供一种电子设备,包括如上所述的板卡或者如上所述的芯片。
本公开的技术方案通过高速缓存晶粒的垂直互连,能够实现高速缓存容量的同级扩展,从而降低AI芯片数据频繁交换导致的延迟和功耗。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出本披露实施例的板卡的结构图;
图2是示出本披露实施例的集成电路装置的结构图;
图3是示出本披露实施例的计算装置的内部结构示意图;
图4是示出本披露实施例的处理器核的内部结构示意图;
图5示出了高速缓存晶粒垂直互连的一种层次示意图;
图6示出了根据本公开一个实施方式的高速缓存晶粒垂直互连的另一层次示意图;
图7a至图7c示出了根据本公开一个实施方式的芯片的示意性侧视图;
图8示出了根据本公开一个实施方式的SOC晶粒和高速缓存晶粒之间的位置关系图;
图9示出了根据本公开一个实施方式的将高速缓存晶粒的缓存有源侧面向SOC有源侧来设置的示意图;
图10示出了根据本公开一个实施方式的芯片的示意图
图11示出了根据本公开一个实施方式的芯片的示意图;
图12示出了根据本公开一个实施方式的芯片的示意图;
图13示出了根据本公开一个实施方式的高速缓存晶粒设置在SOC背侧的一个实施方式;
图14示出了根据本公开一个实施方式的芯片的示意图;
图15示出了将高速缓存晶粒的缓存背侧与SOC晶粒的SOC有源侧接合的实施方式;以及
图16示出了将高速缓存晶粒的缓存背侧与SOC晶粒的SOC背侧接合的实施方式。
具体实施方式
下面将结合本披露实施例中的附图,对本披露实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本披露一部分实施例,而不是全部的实施例。基于本披露中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本披露保护的范围。
应当理解,本披露的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。“第一”、“第二”、“第三”和“第四”等也不仅仅表示一个,而是也可以表示多个。第一本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合附图来详细描述本披露的具体实施方式。
现今的半导体制程是从一块完整的晶圆(wafer)开始的,晶圆由纯硅构成的圆形薄片,一般分为6英寸、8英寸、12英寸等多种规格,晶圆会被切割成一个个的小块,这小块称为晶粒(die)。每个晶粒上会贴装有芯片(chip),并布置好接线,以实现特定的电气功能。接着以晶粒为单位封装成为一个颗粒,封装的目的是安放、固定、密封、保护芯片和增强电热性能的作用,同时在芯片的触点上用导线连接到封装外壳的引脚上,一个芯片封装结构便完成了。
内存用于暂时存放片上系统所需的运算数据,以及与外部存储器交换的数据。在此实施例中,内存可以是高宽带内存(high bandwidth memory,HBM),这是一种基于3D堆栈工艺制作的高性能DRAM,适用于高存储器带宽需求的应用场合,像是图形处理器、网上交换及转发设备(如路由器、交换器)等。
片上系统(SOC)指的是在单个芯片上集成一个完整的系统,对所有或部分必要的电子电路进行包分组的技术。在此实施例中,片上系统装配在板卡上。图1示出本披露实施例的一种板卡10的结构示意图。如图1所示,板卡10包括组合处理装置101,其是一种人工智能运算单元,用以支持各类深度学习和机器学习算法,满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域,云端智能应用的一个显著特点是输入数据量大,对平台的存储能力和计算能力有很高的要求,此实施例的板卡10适用在云端智能应用,具有庞大的片外存储、片上存储和大量的计算能力。
组合处理装置101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至组合处理装置101。组合处理装置101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景,对外接口装置102可以具有不同的接口形式,例如PCIe接口等。
板卡10还包括用于存储数据的外部存储器104,其包括一个或多个存储单元105。外部存储器104通过总线与控制器件106和组合处理装置101进行连接和数据传输。板卡10中的控制器件106配置用于对组合处理装置101的状态进行调控。为此,在一个应用场景中,控制器件106可以包括单片机(Micro Controller Unit,MCU)。
图2是示出此实施例的组合处理装置101中的示意图。如图2中所示,组合处理装置101包括计算装置201、接口装置202、处理装置203和DRAM 204。在一种应用场景中,计算装置201、接口装置202、处理装置203整合成前述的片上系统。在另一种应用场景中,计算装置201本身即为前述的片上系统。
计算装置201配置成执行用户指定的操作,主要实现为单核智能处理器或者多核智能处理器,用以执行深度学习或机器学习的计算,其可以通过接口装置202与处理装置203进行交互,以共同完成用户指定的操作。
接口装置202用于在计算装置201与处理装置203间传输数据和控制指令。例如,计算装置201可以经由接口装置202从处理装置203中获取输入数据,写入计算装置201片上的存储装置。进一步,计算装置201可以经由接口装置202从处理装置203中获取控制指令,写入计算装置201片上的控制缓存中。替代地或可选地,接口装置202也可以读取计算装置201的存储装置中的数据并传输给处理装置203。
处理装置203作为通用的处理装置,执行包括但不限于数据搬运、对计算装置201的开启和/或停止等基本控制。根据实现方式的不同,处理装置203可以是中央处理器、图形处理器或其他通用和/或专用处理器中的一种或多种类型的处理器,这些处理器包括但不限于数字信号处理器(digital signal processor,DSP)、专用集成电路(applicationspecific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,并且其数目可以根据实际需要来确定。如前所述,仅就本披露的计算装置201而言,其可以视为具有单核结构或者同构多核结构。然而,当将计算装置201和处理装置203整合共同考虑时,二者视为形成异构多核结构。
DRAM 204即为前述的高宽带内存,用以存储待处理的数据,大小通常为16G或更大,用于保存计算装置201和/或处理装置203的数据。
图3示出了计算装置201的内部结构示意图。计算装置201用以处理计算机视觉、语音、自然语言、数据挖掘等输入数据,图中的计算装置201采用多核分层结构设计,其包括外部存储控制器301、外设通信模块302、片上互联模块303、同步模块304以及多个集群305。
外部存储控制器301可以有多个,在图中示例性地展示2个,其用以响应处理器核发出的访问请求,访问外部存储设备,例如图2中的DRAM204,从而自片外读取数据或是将数据写入。外设通信模块302用以通过接口装置202接收来自处理装置203的控制信号,启动计算装置201执行任务。片上互联模块303将外部存储控制器301、外设通信模块302及多个集群305连接起来,用以在各个模块间传输数据和控制信号。同步模块304是一种全局同步屏障控制器(global barrier controller,GBC),用以协调各集群的工作进度,确保信息的同步。多个集群305是计算装置201的计算核心,在图中示例性地展示4个,随着硬件的发展,本披露的计算装置201还可以包括8个、16个、64个、甚至更多的集群305。集群305用以高效地执行深度学习算法。
每个集群305包括多个处理器核(IPU core)306及一个存储核(MEM core)307。
处理器核306在图中示例性地展示4个,本披露不限制处理器核306的数量。其内部架构如图4所示。每个处理器核306包括三大模块:控制模块41、运算模块42及存储模块43。
控制模块41用以协调并控制运算模块42和存储模块43的工作,以完成深度学习的任务,其包括取指单元(instruction fetch unit,IFU)411及指令译码单元(instructiondecode unit,IDU)412。取指单元411用以获取来自处理装置203的指令,指令译码单元412则将获取的指令进行译码,并将译码结果作为控制信息发送给运算模块42和存储模块43。
运算模块42包括向量运算单元421及矩阵运算单元422。向量运算单元421用以执行向量运算,可支持向量乘、加、非线性变换等复杂运算;矩阵运算单元422负责深度学习算法的核心计算,即矩阵乘及卷积。
存储模块43用来存储或搬运相关数据,包括神经元存储单元(neuron RAM,NRAM)431、权值存储单元(weight RAM,WRAM)432、输入/输出直接内存访问模块(input/outputdirect memory access,IODMA)433、搬运直接内存访问模块(move direct memoryaccess,MVDMA)434。NRAM 431用以存储供处理器核306计算的输入、输出数据及中间结果;WRAM 432则用以存储深度学习网络的权值;IODMA 433通过广播总线309控制NRAM 431/WRAM 432与DRAM 204的访存;MVDMA 434则用以控制NRAM 431/WRAM 432与SRAM 308的访存。
回到图3,存储核307主要用以存储和通信,即存储处理器核306间的共享数据或中间结果、以及执行集群305与DRAM 204之间的通信、集群305间彼此的通信、处理器核306间彼此的通信等。在其他实施例中,存储核307具有标量运算的能力,用以执行标量运算。
存储核307包括共享存储单元(SRAM)308、广播总线309、集群直接内存访问模块(cluster direct memory access,CDMA)310及全局直接内存访问模块(global directmemory access,GDMA)311。SRAM 308承担高性能数据中转站的角色,在同一个集群305内不同处理器核306之间所复用的数据不需要通过处理器核306各自向DRAM 204获得,而是经SRAM 308在处理器核306间中转,存储核307只需要将复用的数据从SRAM 308迅速分发给多个处理器核306即可,以提高核间通讯效率,亦大大减少片上片外的输入/输出访问。
广播总线309、CDMA 310及GDMA 311则分别用来执行处理器核306间的通信、集群305间的通信和集群305与DRAM 204的数据传输。以下将分别说明。
广播总线309用以完成集群305内各处理器核306间的高速通信,此实施例的广播总线309支持核间通信方式包括单播、多播与广播。单播是指点对点(即单一处理器核至单一处理器核)的数据传输,多播是将一份数据从SRAM 308传输到特定几个处理器核306的通信方式,而广播则是将一份数据从SRAM 308传输到所有处理器核306的通信方式,属于多播的一种特例。
CDMA 310用以控制在同一个计算装置201内不同集群305间的SRAM 308的访存。GDMA 311与外部存储控制器301协同,用以控制集群305的SRAM 308到DRAM 204的访存,或是将数据自DRAM 204读取至SRAM 308中。
为了更方便地理解本公开的技术,图5示出了高速缓存晶粒垂直互连的一种层次示意图。
如图5所示,多个高速缓存晶粒垂直地互连在一起,并且晶粒之间通过总线来访问。在图5中,芯片中包括了多个智能处理单元IPU-1至IPU-n,每个IPU本身可以具有多级缓存,例如IPU-1具有缓存L10,L11等等,其中最后一级缓存(Last Level Cache,LLC)为LLC1,在IPU-1中,L10通过总线来访问L11,L11继续对其下一级缓存进行访问,直至访问到最后一级缓存LLC1;IPU-2具有缓存L20,L21等等,其中最后一级缓存为LLC2,在IPU-2中,L20通过总线来访问L21,L21继续对其下一级缓存进行访问,直至访问到最后一级缓存LLC2;IPU-n具有缓存Ln0,Ln1等等,其中最后一级缓存为(Last Level Cache)LLCn,在IPU-n中,Ln0通过总线来访问Ln1,Ln1继续对其下一级缓存进行访问,直至访问到最后一级缓存LLCn。需要理解的是,在本申请中,术语“总线”是个统一的称呼,不同的IPU可以采用相同或不同的总线。本文中并不区分相同或不同的总线。
在上一级缓存对下一级缓存进行访问时,如果数据存在于下一级缓存中,那么就是缓存命中(Cache Hit),否则就是未命中(Cache Miss)。如果数据未被命中,则需要继续查询更下一级缓存。缓存不命中的比例对IPU的性能影响很大,尤其是最后一级缓存未被命中时,对性能的损害尤其严重。当最后一级缓存即LLC中没有缓存所需的数据时,需要漫长的等待以从主存储器中读取数据,例如,每个LLC需要通过总线从主存储器1~n中读取数据,这显然是个相当耗时的过程。
图6示出了根据本公开一个实施方式的高速缓存晶粒垂直互连的另一层次示意图。
如图6所示,与图5不同之处在于,LLC被进行了同级扩展,例如,图5中的LLC1扩展为LLC10和LLC11,LLC2扩展为LLC20和LLC21,以及LLCn扩展为LLCn0和LLCn1等等。需要理解的是,图6所示的同级扩展仅仅是出于示例的目的,同级扩展的数量并不局限于图6所示的两个,而是可以进行更多数量的同级扩展。
通过这样的同级扩展,在本申请的方案中,也就是最后一级缓存LLC由原来的例如LLC1扩展成为LLC10与LLC11之和。扩展之后的LLC存储空间更大,能够存储更丰富的数据,这在很大程度降低IPU直接访问存储器的机率,有效提升IPU性能。
更进一步地,尽管图6示出了对LLC进行同级扩展,但根据本公开的精神,还可以对其他层级的缓存进行同级扩展,例如可以对L1层级的缓存进行扩展。本公开仅仅以最后一级缓存LLC为例来进行示意性说明。
图7a至图7c示出了根据本公开一个实施方式的芯片的示意性侧视图。
如图7a至图7c所示,提供一种芯片,包括:片上系统SOC晶粒1,所述SOC晶粒1包括SOC有源侧11和SOC背侧12,所述SOC有源侧11包括SOC有源层111和设置在所述SOC有源层111上的SOC-重新分配RDL层112;以及多个同级高速缓存晶粒2,每个高速缓存晶粒包括缓存有源侧21和缓存背侧22,所述缓存有源侧21包括缓存有源层211和设置在所述缓存有源层211上的第一缓存-RDL层212;其中,所述多个同级高速缓存晶粒2并行地设置在所述SOC晶粒1上,以实现所述同级高速缓存晶粒的同级扩展。
如图7a所示,多个高速缓存晶粒2并行地设置在SOC晶粒1上,并且这些高速缓存晶粒2能够与SOC晶粒1进行通信,从而进行数据的传输和存取。
每个SOC晶粒1可以分为两侧,如图7b所示,一侧为有源侧,这里称为SOC有源侧11。SOC有源侧11可以形成有集成电路,其可以与高速缓存晶粒2或者芯片的连接凸点(Bump)进行连接和通信。SOC晶粒1的另外一侧为背侧,这里称为SOC背侧12。SOC背侧并不具有集成电路,因此其不能与外部器件进行通信。SOC有源侧11可以通过SOC有源层111和SOC-重新分配层112来形成。
每个高速缓存晶粒2也可以分为两侧,如图7c所示,一侧为有源侧,这里称为缓存有源侧21。缓存有源侧21可以形成有集成电路,其可以与SOC晶粒1或者芯片的连接凸点(Bump)进行连接和通信。高速缓存晶粒2的另外一侧为背侧,这里称为缓存背侧22。缓存背侧22并不具有集成电路,因此其不能与外部器件进行通信。类似地,缓存有源侧21可以通过缓存有源层211和缓存-重新分配层(RDL)212(为了与后文的其他RDL层进行区别,这里称为第一缓存-RDL层,RDL层包含铜连接线或走线,用于实现封装各个部分之间的电气连接)来形成,形成缓存有源侧21和缓存背侧22的过程将在后文中进行更详细的描述。
通过这样的设置,可以在SOC晶粒上并行地形成多个LLC同级晶粒,增加数据的存储量,从而提升上级高速缓存晶粒对LLC晶粒中数据的命中率。
如上文所述,SOC晶粒1具有SOC有源侧11和SOC背侧12,并且高速缓存晶粒2具有缓存有源侧21和缓存背侧22,这将使得SOC晶粒1和高速缓存晶粒2之间存在多种设置方式。
图8示出了根据本公开一个实施方式的SOC晶粒1和高速缓存晶粒2之间的位置关系图。
如图8所示,根据本公开的一个实施方式,所述多个同级高速缓存晶粒2设置在所述SOC有源侧11。
可以理解的是,将高速缓存晶粒2设置在SOC有源侧11也可以存在多种实施方式,例如可以将高速缓存晶粒2的缓存有源侧21面向SOC有源侧11来设置,也可以将高速缓存晶粒2的缓存有源侧21背向SOC有源侧11来设置。
图9示出了根据本公开一个实施方式的将高速缓存晶粒2的缓存有源侧21面向SOC有源侧11来设置的示意图。
如图9所示,所述多个同级高速缓存晶粒2的缓存有源侧与所述SOC晶粒1的SOC有源侧接合,从而所述多个同级高速缓存晶粒2并行地设置在所述SOC晶粒1上。
需要理解的是,本文所述的术语“接合”是指两个层或者表面以任何形式的接触,连接,以使得二者之间能够进行通信。这样的接合可以是使得两个分离的表面接触在一起,也可以是通过沉淀等芯片制备工艺直接形成两个接合的表面。本公开对于接合的方式不做任何限定。
更具体地,在该实施方式中,所述SOC-RDL层112与所述第一缓存-RDL层212接合,从而所述多个同级高速缓存晶粒的缓存有源侧与所述SOC晶粒的有源侧接合。由于所述SOC-RDL层112与所述第一缓存-RDL层212接合,SOC晶粒1和高速缓存晶粒2之间能够进行通信以及数据的存取。
高速缓存晶粒2的缓存有源侧21与SOC晶粒1的SOC有源侧11接合,还需要额外的连接方式使得SOC有源侧能够与缓存之外的外界进行通信。
图10示出了根据本公开一个实施方式的芯片的示意图。
如图10所示,根据本公开的一个实施方式,芯片还包括位于所述缓存背侧22上的第二缓存-RDL层222,所述第二缓存-RDL层222包括分立的第一缓存结构,至少一个缓存结构上设置有第一连接凸点3-1,所述第一连接凸点3-1与所述SOC有源侧11连接。
在图10中,SOC晶粒1的SOC有源侧11与高速缓存晶粒2的缓存有源侧相对设置,因此SOC晶粒1和高速缓存晶粒2之间可以通过接合的SOC-RDL层112以及第一缓存RDL层212进行通信。此外,在高速缓存晶粒2的缓存背侧可以设置有第二缓存-RDL层222,第二缓存-RDL层222包括多个分立的第一缓存结构。在该第一缓存结构上设置连接凸点(Bump),并将这些连接凸点与SOC晶粒1连接,从而外部设备通过该连接凸点能够与SOC晶粒1进行通信。
第一连接凸点3-1可以通过多种方式与SOC晶粒1进行连接,例如引线键合技术。但本公开并不局限于任何现有或未来的连接方式。
根据本公开的一个实施方式,所述第一连接凸点3-1可以通过穿过所述同级高速缓存晶粒的硅通孔(Through Silicon Via,TSV)与所述SOC有源侧连接。
图11示出了根据本公开一个实施方式的芯片的示意图。
如图11所示,可以通过TSV技术将第一连接凸点3-1与SOC晶粒1进行连接,这种连接不仅可以提供SOC晶粒1与高速缓存晶粒2之间的互连,还能起到供电作用。TSV技术是一项高密度封装技术,正在逐渐取代目前工艺比较成熟的引线键合技术,被认为是第四代封装技术。TSV技术通过铜、钨、多晶硅等导电物质的填充,实现硅通孔的垂直电气互连。硅通孔技术可以通过垂直互连减小互联长度,减小信号延迟,降低电容/电感,实现芯片间的低功耗,高速通讯,增加宽带和实现器件集成的小型化。
如图11所示,根据本公开的一个实施方式,所述第一连接凸点3-1通过穿过所述同级高速缓存晶粒的TSV与所述第一缓存-RDL层连接,从而与所述SOC有源侧连接。
在图11中,与第一连接凸点3-1连接的TSV穿过高速缓存晶粒2,并穿过缓存有源层211到达缓存-RDL层。缓存-RDL层中包含铜连接线或走线,因此,第一连接凸点3-1能够通过与SOC晶粒1的有源侧接合的缓存-RDL层与SOC晶粒1进行通信。
图12示出了根据本公开一个实施方式的芯片的示意图。
如图12所示,根据本公开的一个实施方式,芯片进一步包括间隙填充介质(GapFilling,GF)层4,所述GF层4包括GF第一面4-1和与所述GF第一面4-1相对的GF第二面4-2,所述GF层4包围所述多个同级高速缓存晶粒2,并且其中,所述GF第一面4-1设置为与所述SOC有源侧接合。
如图12所示,当高速缓存晶粒2设置在SOC晶粒1上之后,可以在高速缓存晶粒2之间形成GF层4,换言之,在SOC晶粒上,除了高速缓存晶粒2安装的区域之外,其他空间都使用间隙填充材料进行填充,以起到支撑作用。
在本申请中,为了方便描述,将GF层4中朝向SOC晶粒1的一面称为GF第一面4-1,而将背向SOC晶粒1的一面称为GF第二面4-2。这样的目的仅在于方便描述,而不是对本公开的技术方案形成任何限制。
进一步如图12所示,根据本公开的另一个实施方式,所述第二缓存-RDL层222还包括位于所述GF第二面4-2上的分立的第二缓存结构,至少一个第二缓存结构上设置有第二连接凸点3-2,所述第二连接凸点3-2与所述SOC有源侧11连接。
需要理解的是,第二缓存结构和上文中的第一缓存结构仅仅是为了方便描述而采用的不同的术语,第一缓存结构位于高速缓存晶粒2的缓存背侧22上,而第二缓存结构位于高速缓存晶粒2之间的GF层4的GF第二面4-2上。二者均可以通过RDL层来形成。
第二连接凸点3-2与上文中的第一连接凸点3-1也是用于与外部设备进行连接,二者并无本质区别。
进一步如图12所示,根据本公开的一个实施方式,所述第二连接凸点3-2可以通过穿过所述GF层4的介质通孔(Through Dielectric Via,TDV),将第二连接凸点3-2和SOC有源侧连接。
如图12所示,可以在GF层4中形成TDV,以便于第二连接凸点3-2与SOC晶粒1的通信。具体而言,可以通过TDV将第二连接凸点3-2与所述SOC有源侧的SOC-RDL层连接。
图7a至图12描述了将高速缓存晶粒2设置在SOC晶粒1的有源侧的多个实施方式,下面将详细描述同级高速缓存晶粒2设置在所述SOC背侧12的实施方式。
图13示出了根据本公开一个实施方式的高速缓存晶粒设置在SOC背侧的一个实施方式。
如图13所示,所述多个同级高速缓存晶粒2的缓存有源侧21与所述SOC背侧12接合,并与所述SOC有源侧11连接,从而所述多个同级高速缓存晶粒2并行地设置在所述SOC晶粒1上。
在图13所示的实施方式中,高速缓存晶粒2的缓存有源侧21与SOC晶粒1的SOC背侧12接合,而不是如上文所述的那样与SOC晶粒1的SOC有源侧接合,由此,需要通过额外的路径将缓存有源侧21与SOC有源侧11进行连接,以便于高速缓存晶粒2与SOC晶粒1进行通信。
图14示出了根据本公开一个实施方式的芯片的示意图。
如图14所示,所述多个同级高速缓存晶粒2的第一缓存-RDL层与所述SOC背侧接合,并通过穿过所述SOC晶粒的TSV与所述SOC-RDL层连接。
如图14所示,如上文所述,高速缓存晶粒2的有源侧21包括缓存有源层211和缓存RDL层212,当将高速缓存晶粒2的有源侧与SOC晶粒1的背侧接合时,处于外层的缓存RDL层212与SOC晶粒1的背侧接合。此外,可以在SOC晶粒1中设置TSV,从而可以通过该TSV将高速缓存晶粒2的第一缓存-RDL层与SOC-RDL层进行连接,以便于高速缓存晶粒2与SOC晶粒2之间进行通信。如图14所示,该TSV可以从SOC晶粒1的SOC-RDL层一直延伸到该SOC晶粒1的背侧,从而与高速缓存晶粒2的第一缓存-RDL层连接起来。需要指出的是,在本实施方式中,每个高速缓存晶粒2可以通过多个TSV与SOC晶粒1的第一缓存RDL层相连接。在图14中针对每个高速缓存晶粒2示出了4个TSV,但本公开的技术方案不对TSV的数量形成任何限制。
进一步如图14所示,根据本公开的一个实施方式,所述SOC-RDL层上设置有多个第三连接凸点3-3,从而所述多个同级高速缓存晶粒2的第一缓存-RDL层通过穿过所述SOC晶粒的TSV和所述SOC-RDL层,与所述多个第三连接凸点3-3连接。这些第三连接凸点3-3可以与外部设备连接,并进而将外部设备与SOC晶粒1和/或高速缓存晶粒2进行连接。
进一步如图14所示,本公开的芯片进一步可以包括间隙填充介质GF层,所述GF层4包括GF第一面4-1和与所述GF第一面4-1相对的GF第二面4-2,所述GF层4包围所述多个同级高速缓存晶粒2,并且其中,所述GF第一面4-1设置为与所述SOC背侧接合。
与图12所示的芯片不同的是,在图14所示的实施方式中,GF第一面4-1与SOC背侧接合,而在图12中则是GF第一面4-1与SOC有源侧接合。在图14所示的实施方式中,需要在SOC晶粒1中形成TSV,而无需在高速缓存晶粒中形成TSV;而在图12所示的实施方式中,无需在SOC晶粒1中形成TSV,而只需要在高速缓存晶粒中形成TSV。更进一步地,在图14所示的实施方式中,无需在GF层4中形成TDV,而在图12所示的实施方式中,需要在GF层4中形成TDV以将连接凸点3-2与SOC晶粒1连接起来。
上文中介绍了将高速缓存晶粒2设置在SOC晶粒1上的多个实施方式。根据本公开的其他实施方式,还可以采用其他方式将高速缓存晶粒2设置在SOC晶粒1上。
图15示出了将高速缓存晶粒2的缓存背侧与SOC晶粒1的SOC有源侧接合的实施方式。
如图15所示,SOC晶粒1包括SOC有源侧11和SOC背侧12,其中,SOC有源侧11包括SOC有源层111和SOC-RDL层112;高速缓存晶粒2包括缓存有源侧21和缓存背侧22,缓存有源侧21包括缓存有源层211和缓存-RDL层212(如图7c所示,在图15中未示出)。高速缓存晶粒2的缓存背侧22设置在SOC晶粒1的SOC有源侧11上,更具体地,设置在SOC有源侧11的SOC-RDL层112上。可以通过在高速缓存晶粒2中形成TSV(未示出)来将高速缓存晶粒2的缓存-RDL层212与SOC晶粒1的SOC-RDL层112进行连接。
图16示出了将高速缓存晶粒2的缓存背侧与SOC晶粒1的SOC背侧接合的实施方式。
如图16所示,SOC晶粒1包括SOC有源侧11和SOC背侧12,其中,SOC有源侧11包括SOC有源层111和SOC-RDL层112;高速缓存晶粒2包括缓存有源侧21和缓存背侧22,缓存有源侧21包括缓存有源层211和缓存-RDL层212(如图7c所示,在图15中未示出)。高速缓存晶粒2的缓存背侧22设置在SOC晶粒1的SOC背侧12上,从而SOC晶粒1和高速缓存晶粒2形成背靠背的设置。可以通过在高速缓存晶粒2和SOC晶粒1中形成TSV(未示出)来将高速缓存晶粒2的缓存-RDL层212与SOC晶粒1的SOC-RDL层112进行连接。
虽然在图15和图16中未示出GF层,但需要理解的是,可以在图15和图16中所示的高速缓存晶粒2之间形成GF层4,这里将不再赘述。还需要理解的是,对于图15所示的方案,连接凸点可以设置在缓存晶粒2的缓存有源侧,当形成GF层之后,连接凸点的分布位置可以类似于图12。而对于图16所示的方案,连接凸点可以设置在缓存晶粒2的缓存有源侧,也可以设置在SOC晶粒1的SOC有源侧,但从工艺实现简便性来看,连接凸点优选地设置在SOC有源侧上,其分布位置类似于图14所示。
根据本公开的上述实施方式,本公开在集成SOC晶粒的基础上,通过3D Chiplet封装技术与缓存晶粒(LLC Die)垂直互连技术,能够达到扩展同级LLC容量,从而达到降低AI芯片数据频繁交换导致的延迟和功耗的目的。
本公开还提供一种板卡,包括如上所述的芯片。
本公开还提供一种电子设备,包括如上所述的板卡或者芯片。
根据不同的应用场景,本披露的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本披露的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步,本披露的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中,根据本披露方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器),而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中,云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容,从而可以根据终端设备和/或边缘端设备的硬件信息,从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源,以便完成端云一体或云边端一体的统一管理、调度和协同工作。
以上对本公开实施例进行了详细介绍,本文中应用了具体个例对本披露的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本披露的方法及其核心思想。同时,本领域技术人员依据本披露的思想,基于本披露的具体实施方式及应用范围上做出的改变或变形之处,都属于本披露保护的范围。综上所述,本说明书内容不应理解为对本披露的限制。
依据以下条款可更好地理解前述内容:
条款A1.一种芯片,包括:
片上系统SOC晶粒,所述SOC晶粒包括SOC有源侧和SOC背侧,所述SOC有源侧包括SOC有源层和设置在所述SOC有源层上的SOC-重新分配RDL层;以及
多个同级高速缓存晶粒,每个高速缓存晶粒包括缓存有源侧和缓存背侧,所述缓存有源侧包括缓存有源层和设置在所述缓存有源层上的第一缓存-RDL层;
其中,所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上,以实现所述同级高速缓存晶粒的同级扩展。
条款A2.根据条款A1所述的芯片,其中,所述多个同级高速缓存晶粒为最后一级缓存LLC晶粒。
条款A3.根据条款A1或A2所述的芯片,其中,所述多个同级高速缓存晶粒设置在所述SOC有源侧。
条款A4.根据条款A3所述的芯片,其中,
所述多个同级高速缓存晶粒的缓存有源侧与所述SOC晶粒的有源侧接合,从而所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上。
条款A5.根据条款A4所述的芯片,其中,所述SOC-RDL层与所述第一缓存-RDL层接合,从而所述多个同级高速缓存晶粒的缓存有源侧与所述SOC晶粒的有源侧接合。
条款A6.根据条款A1-A5中任意一项所述的芯片,其中,还包括位于所述缓存背侧上的第二缓存-RDL层,所述第二缓存-RDL层包括分立的第一缓存结构,至少一个第一缓存结构上设置有第一连接凸点,所述第一连接凸点与所述SOC有源侧连接。
条款A7.根据条款A6所述的芯片,其中,所述第一连接凸点通过穿过所述同级高速缓存晶粒的硅通孔TSV与所述SOC有源侧连接。
条款A8.根据条款A7所述的芯片,其中,所述第一连接凸点通过穿过所述同级高速缓存晶粒的TSV与所述第一缓存-RDL层连接,从而与所述SOC有源侧连接。
条款A9.根据条款A3-A8中任意一项所述的芯片,进一步包括间隙填充介质GF层,所述GF层包括GF第一面和与所述GF第一面相对的GF第二面,所述GF层包围所述多个同级高速缓存晶粒,并且其中,所述GF第一面设置为与所述SOC有源侧接合。
条款A10.根据条款A9所述的芯片,其中,所述第二缓存-RDL层还包括位于所述GF第二面上的分立的第二缓存结构,至少一个第二缓存结构上设置有第二连接凸点,所述第二连接凸点与所述SOC有源侧连接。
条款A11.根据条款A10所述的芯片,其中,所述第二连接凸点通过穿过所述GF层的介质通孔TDV与所述SOC有源侧连接,具体地,与所述SOC有源侧的SOC-RDL层连接。
条款A12.根据条款A1或A2所述的芯片,其中,所述同级高速缓存晶粒设置在所述SOC背侧。
条款A13.根据条款A12所述的芯片,其中,所述多个同级高速缓存晶粒的缓存有源侧与所述SOC背侧接合,并与所述SOC有源侧连接,从而所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上。
条款A14.根据条款A13所述的芯片,其中,所述多个同级高速缓存晶粒的第一缓存-RDL层与所述SOC背侧接合,并通过穿过所述SOC晶粒的TSV与所述SOC-RDL层连接。
条款A15.根据条款A14所述的芯片,其中,所述SOC-RDL层上设置有多个第三连接凸点,从而所述多个同级高速缓存晶粒的第一缓存-RDL层通过穿过所述SOC晶粒的TSV和所述SOC-RDL层,与所述多个第三连接凸点连接。
条款A16.根据条款A12-A15中任意一项所述的芯片,进一步包括间隙填充介质GF层,所述GF层包括GF第一面和与所述GF第一面相对的GF第二面,所述GF层包围所述多个同级高速缓存晶粒,并且其中,所述GF第一面设置为与所述SOC背侧接合。
条款A17.一种板卡,包括如条款A1-A16中任意一项所述的芯片。
条款A18.一种电子设备,包括如条款A17所述的板卡或者如条款A1-A16中任意一项所述的芯片。
还需要说明的是,本领域技术人员可以理解本披露所描述的实施例可以视为可选实施例,即其中所涉及的动作或模块对于本披露某个或某些方案的实现并不一定是必需的。另外,根据方案的不同,本披露对一些实施例的描述也各有侧重。鉴于此,本领域技术人员可以理解本披露某个实施例中没有详述的部分,也可以参见其他实施例的相关描述。

Claims (18)

1.一种芯片,包括:
片上系统SOC晶粒,所述SOC晶粒包括SOC有源侧和SOC背侧,所述SOC有源侧包括SOC有源层和设置在所述SOC有源层上的SOC-重新分配RDL层;以及
多个同级高速缓存晶粒,每个高速缓存晶粒包括缓存有源侧和缓存背侧,所述缓存有源侧包括缓存有源层和设置在所述缓存有源层上的第一缓存-RDL层;
其中,所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上,以实现所述同级高速缓存晶粒的同级扩展。
2.根据权利要求1所述的芯片,其中,所述多个同级高速缓存晶粒为最后一级缓存LLC晶粒。
3.根据权利要求1或2所述的芯片,其中,所述多个同级高速缓存晶粒设置在所述SOC有源侧。
4.根据权利要求3所述的芯片,其中,
所述多个同级高速缓存晶粒的缓存有源侧与所述SOC晶粒的有源侧接合,从而所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上。
5.根据权利要求4所述的芯片,其中,所述SOC-RDL层与所述第一缓存-RDL层接合,从而所述多个同级高速缓存晶粒的缓存有源侧与所述SOC晶粒的有源侧接合。
6.根据权利要求1-5中任意一项所述的芯片,其中,还包括位于所述缓存背侧上的第二缓存-RDL层,所述第二缓存-RDL层包括分立的第一缓存结构,至少一个第一缓存结构上设置有第一连接凸点,所述第一连接凸点与所述SOC有源侧连接。
7.根据权利要求6所述的芯片,其中,所述第一连接凸点通过穿过所述同级高速缓存晶粒的硅通孔TSV与所述SOC有源侧连接。
8.根据权利要求7所述的芯片,其中,所述第一连接凸点通过穿过所述同级高速缓存晶粒的TSV与所述第一缓存-RDL层连接,从而与所述SOC有源侧连接。
9.根据权利要求3-8中任意一项所述的芯片,进一步包括间隙填充介质GF层,所述GF层包括GF第一面和与所述GF第一面相对的GF第二面,所述GF层包围所述多个同级高速缓存晶粒,并且其中,所述GF第一面设置为与所述SOC有源侧接合。
10.根据权利要求9所述的芯片,其中,所述第二缓存-RDL层还包括位于所述GF第二面上的分立的第二缓存结构,至少一个第二缓存结构上设置有第二连接凸点,所述第二连接凸点与所述SOC有源侧连接。
11.根据权利要求10所述的芯片,其中,所述第二连接凸点通过穿过所述GF层的介质通孔TDV与所述SOC有源侧连接,具体地,与所述SOC有源侧的SOC-RDL层连接。
12.根据权利要求1或2所述的芯片,其中,所述同级高速缓存晶粒设置在所述SOC背侧。
13.根据权利要求12所述的芯片,其中,所述多个同级高速缓存晶粒的缓存有源侧与所述SOC背侧接合,并与所述SOC有源侧连接,从而所述多个同级高速缓存晶粒并行地设置在所述SOC晶粒上。
14.根据权利要求13所述的芯片,其中,所述多个同级高速缓存晶粒的第一缓存-RDL层与所述SOC背侧接合,并通过穿过所述SOC晶粒的TSV与所述SOC-RDL层连接。
15.根据权利要求14所述的芯片,其中,所述SOC-RDL层上设置有多个第三连接凸点,从而所述多个同级高速缓存晶粒的第一缓存-RDL层通过穿过所述SOC晶粒的TSV和所述SOC-RDL层,与所述多个第三连接凸点连接。
16.根据权利要求12-15中任意一项所述的芯片,进一步包括间隙填充介质GF层,所述GF层包括GF第一面和与所述GF第一面相对的GF第二面,所述GF层包围所述多个同级高速缓存晶粒,并且其中,所述GF第一面设置为与所述SOC背侧接合。
17.一种板卡,包括如权利要求1-16中任意一项所述的芯片。
18.一种电子设备,包括如权利要求17所述的板卡或者如权利要求1-16中任意一项所述的芯片。
CN202211076034.XA 2022-09-02 2022-09-02 一种芯片和包括该芯片的产品 Pending CN117690893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211076034.XA CN117690893A (zh) 2022-09-02 2022-09-02 一种芯片和包括该芯片的产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211076034.XA CN117690893A (zh) 2022-09-02 2022-09-02 一种芯片和包括该芯片的产品

Publications (1)

Publication Number Publication Date
CN117690893A true CN117690893A (zh) 2024-03-12

Family

ID=90128839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211076034.XA Pending CN117690893A (zh) 2022-09-02 2022-09-02 一种芯片和包括该芯片的产品

Country Status (1)

Country Link
CN (1) CN117690893A (zh)

Similar Documents

Publication Publication Date Title
US8710676B2 (en) Stacked structure and stacked method for three-dimensional chip
WO2018121118A1 (zh) 计算装置和方法
CN105573959B (zh) 一种计算存储一体的分布式计算机
CN108241484B (zh) 基于高带宽存储器的神经网络计算装置和方法
KR20210037531A (ko) 메모리 자원들을 포함하는 칩렛을 갖는 패키징된 디바이스
WO2023078006A1 (zh) 加速器结构、生成加速器结构的方法及其设备
CN116246963A (zh) 一种可重构3d芯片及其集成方法
WO2023056876A1 (zh) 纵向堆叠芯片、集成电路装置、板卡及其制程方法
CN116610630B (zh) 一种基于片上网络的多核系统和数据传输方法
CN117690893A (zh) 一种芯片和包括该芯片的产品
US20230281136A1 (en) Memory and Routing Module for Use in a Computer System
WO2022068467A1 (zh) 封装结构、装置、板卡及布局集成电路的方法
CN115036303A (zh) 一种基于tsv一次集成和ltcc二次集成的计算微系统
CN117690808A (zh) 生产芯片的方法
TW201928793A (zh) 神經網絡正向運算方法及相關產品
WO2023056875A1 (zh) 多核芯片、集成电路装置、板卡及其制程方法
CN116266463A (zh) 三维存储单元、存储方法、三维存储芯片组件和电子设备
TWI767097B (zh) 集成電路芯片裝置及相關產品
WO2022242333A1 (zh) 具有CoWoS封装结构的晶片、晶圆、设备及其生成方法
Clermidy et al. 3D stacking for multi-core architectures: From WIDEIO to distributed caches
CN118095193B (zh) 一种基于多dsp的信号处理sip设计电路
Daneshtalab et al. Memory-efficient logic layer communication platform for 3D-stacked memory-on-processor architectures
CN112232498B (zh) 一种数据处理装置、集成电路芯片、电子设备、板卡和方法
US20230343718A1 (en) Homogeneous chiplets configurable as a two-dimensional system or a three-dimensional system
US20230317561A1 (en) Scalable architecture for multi-die semiconductor packages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination