CN109558370A - 三维计算封装 - Google Patents
三维计算封装 Download PDFInfo
- Publication number
- CN109558370A CN109558370A CN201710869309.8A CN201710869309A CN109558370A CN 109558370 A CN109558370 A CN 109558370A CN 201710869309 A CN201710869309 A CN 201710869309A CN 109558370 A CN109558370 A CN 109558370A
- Authority
- CN
- China
- Prior art keywords
- chip
- encapsulation
- storage
- calculating
- integrated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
Abstract
本发明提出一种三维计算(3D‑COM)封装,它含有至少一计算芯片和至少一存储芯片,它们相互垂直堆叠并通过芯片间连接电耦合。3D‑COM封装将海量的计算参数存储在封装内部的存储芯片中。3D‑COM封装为微尺度下的三维集成,可实现超大规模平行计算,有望大幅提高计算效能。
Description
技术领域
本发明涉及集成电路领域,更确切地说,涉及处理器封装。
背景技术
“计算”就是对输入施加一种对应法则得到输出。图1A是计算的一种表达式。f是计算的对应法则,也称为函数;P是定义计算的参数;X是输入数据;Y是输出数据。X、Y合称为计算数据D。计算参数P可以有多种形式,如在人工智能中,计算参数是神经元的突触权重;在网络安全中,计算参数是病毒库(包括检索的关键词库、网络规范库等);在超算中,函数的查找表也可以认为是计算参数。由于参数P用于定义计算,处理器在计算时需要能高速地获取参数。因此,在读取速度上,参数P的存储器的要求要高于数据D的存储器。
在传统计算中,数据量远远大于参数量。计算数据的存储一直是业界的重点,以前的存储器主要用于存储计算数据(图1B)。不幸的是,计算参数的存储则长久地被忽视了。随着计算的进步,参数量越来越大,甚至有超过数据量的趋势。这在人工智能、网络安全、超算等高性能计算领域尤其明显:在人工智能领域中,神经元的参数量(如突触权重)可达到GB级,远大于输入数据量;在网络安全领域,病毒库的量也极为庞大,病毒库可以含有百万条级的病毒;在超算领域,为了增加超算芯片支持的函数种类,查找表库可以变得非常巨大。在冯·诺依曼架构中,这些海量的计算参数也和计算数据一样存储在外部存储器(如DRAM或固态硬盘)中。但这些外部存储器的速度较慢,不适合海量计算参数的读取,这对处理器实现高性能计算非常不利。海量计算参数的存储正日益成为困惑业界的问题。
发明内容
本发明的主要目的是促使含有海量参数的高性能计算的进步。
本发明的另一目的是提供一种能高速实现含有海量参数计算的处理器封装。
本发明的另一目的是提供一种能高效查杀毒(包括关键词检索和网络规范实施)的网络安全处理器封装。
本发明的另一目的是提供一种能高效实现卷积计算的人工智能处理器封装。
本发明的另一目的是提供一种能高效地对复杂函数求值或对复杂方程求解的超算处理器封装。
为了实现这些以及别的目的,本发明提出一种三维计算(three-dimensionalcomputation,简称为3D-COM)封装,它含有至少一计算芯片和至少一存储芯片,它们相互垂直堆叠并通过芯片间连接电耦合。3D-COM封装将海量的计算参数存储在封装内部的存储芯片中。从3D-COM封装正面看,它含有数量众多的储算单元,储算单元是3D-COM封装的最小重复单元。每个储算单元含有一微计算核(为计算芯片的一部分)和至少一存储阵列(为存储芯片的一部分)。微计算核含有计算逻辑电路;存储阵列存储计算参数。存储阵列通过多个微焊点(micro-bump)或穿透硅片通道(TSV)与微计算核电耦合,使微计算核利用存储阵列存储的计算参数进行计算。由于存储芯片中的存储单元形成在单晶硅(或其它单晶半导体)衬底上,存储芯片的速度很快。此外,由于微焊点(或穿透硅片通道)数量众多且长度较短,存储阵列和微计算核之间的带宽很高。另外,数量众多的储算单元保证大规模平行计算。总的说来,3D-COM封装在微尺度下实现存储阵列和微计算核之间的三维集成,可实现超大规模平行计算,有望大幅提高计算效能。
相应地,本发明提出一种三维计算(3D-COM)封装(300),其特征在于含有:一计算芯片(100)和一存储芯片(200),该计算芯片(100)和该存储芯片(100)在该封装(300)中相互垂直堆叠;多个储算单元(100aa-100mn),每个储算单元(100ij)含有一微计算核(180)和至少一存储阵列(170),该存储阵列(170)是该存储芯片(200)的一部分并存储多个计算参数,该微计算核(180)是该计算芯片(100)的一部分并利用所述计算参数进行计算;所述存储阵列(170)和所述微计算核(180)通过芯片间连接(160)电耦合。
附图说明
图1A是计算的一种表达式;图1B比较现有技术和三维计算(3D-COM)封装中存储芯片存储的信息。
图2是一种3D-COM封装的布局图。
图3A是一种储算单元的透视图;图3B是另一种储算单元的透视图。
图4A-图4C是三种3D-COM封装的截面图。
图5列出在各种高性能计算的3D-COM封装中存储芯片存储的信息以及微计算核的功能。
图6A表示一种二维人工智能(AI)芯片及其结构;图6B是一种三维AI封装。
图7A表示传统冯·诺依曼架构中查杀毒的实现;图7B是一种三维网络安全封装。
图8A表示一种传统超算芯片及其结构;图8B是一种三维超算封装。
注意到,这些附图仅是概要图,它们不按比例绘图。为了显眼和方便起见,图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中,数字后面的字母后缀表示同一类结构的不同实例;相同的数字前缀表示相同或类似的结构。
在本说明书中,符号“/”表示“与”和“或”的关系。
具体实施方式
三维计算(3D-COM)封装300含有至少一计算芯片100和至少一存储芯片200(图4A-图4C),它们相互垂直堆叠并通过芯片间连接电耦合。3D-COM封装300将海量的计算参数存储在封装300内部的存储芯片200中。从封装300正面看,3D-COM封装300含有m x n个储算单元300aa-300mn(图2)。储算单元是3D-COM封装200的最小重复单元。储算单元与输入310和输出320电耦合。注意到,一个3D-COM封装300可以含有大量储算单元300aa-300mn,它们保证大规模平行计算。
图3A是一种储算单元300ij的透视图。每个储算单元含有一微计算核180和至少一存储阵列170。微计算核180形成在计算芯片100的衬底100S中,它含有计算逻辑电路。存储阵列170形成在存储芯片200的衬底200S中,它是所有共享了至少一条地址线的存储单元之集合,这些存储单元存储计算参数。存储阵列170通过多个芯片间连接160与微计算核180电耦合,使微计算核180能利用存储阵列170存储的计算参数进行计算。芯片间连接160可以是微焊点(micro-bump)或穿透硅片通道(TSV)。
在图3A的储算单元100ij中,一个微计算核180与一个存储阵列170对应。换句话说,微计算核180在存储芯片200上的投影只与一个存储阵列170相交。在图3B的储算单元100ij中,一个微计算核180与四个存储阵列170a-170d对应。换句话说,微计算核180在存储芯片200上的投影与四个存储阵列170c-170d相交。很明显,微计算核180可以与两个、四个、八个或更多的存储阵列对应。
图4A-图4C是三种3D-COM封装300的截面图。它们均为一种多芯片封装(multi-chip package,简称为MCP)。其中,图4A中的3D-COM封装300含有两个分离芯片:计算芯片100和存储芯片200。芯片100、200堆叠在封装衬底110上并位于同一封装壳130中。微焊点(micro-bump)116为芯片100、200提供电耦合,它起芯片间连接160的作用。在本实施例中,存储芯片200堆叠在计算芯片100上;同时,存储芯片200被翻转,它与计算芯片100面对面地堆叠在一起。在其它实施例中,计算芯片100也可堆叠在存储芯片200上,也可不被翻转。
图4B中的3D-COM封装300含有计算芯片100、存储芯片200和硅插板(interposer)120。硅插板120含有多个穿透硅片通道(TSV)118,它使计算芯片100和存储芯片200之间的电耦合更为容易,设计时有更多自由度,同时散热更为良好。此实施例还含有多个微焊点116,它与TSV 118构成芯片间连接160。
图4C中的3D-COM封装300含有一计算芯片100和至少两个存储芯片200A、200B。这些芯片100、200A和200B是分离的,并位于同一封装壳130中。其中,存储芯片200B堆叠在存储芯片200A之上,存储芯片200A又堆叠在计算芯片100之上。芯片100、200A、200B之间通过TSV 118和微焊点116耦合。很明显,图4C比图4A具有更大的存储容量。类似地,在此实施例中,TSV 118和微焊点116构成芯片间连接160。
3D-COM封装300对制造工艺角度有益。由于计算芯片100和存储芯片200为不同芯片,构成计算芯片100的逻辑晶体管和构成存储芯片200的存储晶体管分别形成在不同衬底(100S、200S)上,它们的制造工艺可分别优化。存储芯片200可以采用任何形式的存储器,如SRAM、DRAM、MRAM、FRAM、mask ROM、OTP、NOR闪存、NAND闪存、三维存储器等等;计算芯片100可以含有任何形式的计算逻辑电路,包括加法器、乘法器、比较器、等等。而且,由于存储芯片200中的存储单元形成在单晶半导体衬底200S上,存储芯片200的速度很快。此外,由于微焊点(或穿透硅片通道)160数量众多且长度较短,存储阵列170和微计算核180之间的带宽很高。另外,数量众多的储算单元300ij保证大规模平行计算。总的说来,3D-COM封装300在微尺度下实现存储阵列170和微计算核180之间的三维集成,可实现超大规模平行计算,有望大幅提高计算效能。
图5(表2)列出在各种高性能计算的3D-COM封装300中存储芯片存储的信息以及微计算核的实现。对于人工智能,存储芯片用于存储神经元参数库(包括突触权重库等),微计算核含有一乘加电路,它主要用于将输入数据与神经元参数进行卷积计算。对于网路安全,存储芯片用于存储病毒库(包括关键词库、网络规范库等),微计算核含有一比较电路,它主要用于将需要查杀的数据(如输入的网络包)与病毒特征进行模式匹配。对于超算,存储芯片用于存储复杂函数的值和/或复杂方程的解,微计算核含有一乘加电路,它主要用于将查找表中读出的数值进行插值计算。
图6A-图6B是3D-COM封装300的第一实施例,该实施例用于人工智能(AI)计算。图6A表示一种二维AI芯片(现有技术)及其结构。该二维AI芯片600含有多个神经处理器610和神经参数存储器620a-620d。神经参数存储器620a-620d采用eDRAM,用于在芯片600内存储神经元参数(如突触权重等),神经处理器610利用神经元参数对输入数据进行卷积计算。二维AI芯片600比基于GPU的AI实现在能效上提高了两个数量级。由于采用二维集成,神经参数存储器620a-620d与神经处理器610肩并肩排列,加上神经参数存储器620a-620d占据了大量(~85%)芯片600面积,因此二维AI芯片600中只有~10%的面积用于计算(即神经处理器610)。
图6B是一种三维AI封装300的储算单元300ij:其存储阵列170存储神经元参数;微计算核180含有一乘加电路,主要用于将输入数据与神经元参数进行卷积计算(图5)。由于神经元参数存储在乘加电路180上方,而非与神经处理器610肩并肩排列,三维AI封装300中高达~90%的面积可以用于计算(即乘加电路180),这远远高于二维AI芯片600。因此,3D-COM封装300能大幅提升AI的计算密度(单位面积的乘加计算能力)。此外,3D-COM封装300还能极大提高存储密度。由于存储芯片200是独立形成的,其存储容量可达到100Gb级或更高。相应地,单个三维AI封装300就能存储整个神经网络的突触权重,它适合移动应用。
图7A-图7B是3D-COM封装300的第二实施例,该实施例用于网络安全,尤其是查杀毒(包括病毒特征的检索、关键词检索、网络规范的实施等)。图7A表示传统查杀毒的实现。在冯·诺依曼架构中,病毒库530存储在存储器芯片520中,病毒查杀由处理器芯片510实现。在查杀过程中,处理器芯片510需要从存储器芯片520中读出大量(可高达百万条级)病毒特征并进行模式匹配。由于处理器芯片510中内核510a-510d数量有限,仅能同时实现少量(十级)的查杀;而且处理器芯片510和存储器芯片520之间带宽有限,因此传统架构的查杀效率很低。
图7B是一种三维网络安全封装300的储算单元300ij:其存储阵列170存储病毒特征;微计算核180含有一比较电路,主要用于将需要查杀的数据(如输入的网络包)110与病毒特征进行模式匹配(图5)。在查杀过程中,输入数据(如网络包)110被送到所有储算单元100aa-100mn中,然后同时进行查杀(图2)。由于采用超大规模平行查杀(同时查杀上千条病毒特征),加上从存储阵列170与比较电路180距离近(同一储算单元300ij中),从存储阵列170中读取病毒特征所花时间很少(相对于图7A中的冯·诺依曼架构),三维网络安全封装300可望极大地提高查杀效率。
图8A-图8B是3D-COM的第三实施例,该实施例应用于超算,即复杂函数的求值和复杂方程的求解。图8A表示一种传统超算芯片及其结构。传统超算芯片700采用基于逻辑的计算(logic-based computation,简称为LBC),其芯片700的绝大部分面积都是逻辑电路710,只有很小面积用于查找表存储器720。因此,传统超算芯片700只能用硬件实现少量种)函数。对于复杂函数和复杂方程,传统超算芯片700需要将其分解为数量庞大的乘加计算,计算过程耗时耗能。
图8B是一种三维超算封装300:其存储阵列170存储查找表;微计算核180包含一乘加电路,主要用于将查找表中读出的数值进行插值计算(图5)。由于查找表存储在乘加电路180上方,而非与逻辑电路710肩并肩排列,三维超算芯片200可以存储巨大的查找表(100GB级或更高),这远远高于传统超算芯片600(查找表容量100kb级)。因此,三维超算封装能大幅提升超算芯片硬件支持的函数种类,加速对复杂函数的求值和对复杂方程的求解。
应该了解,在不远离本发明的精神和范围的前提下,可以对本发明的形式和细节进行改动,这并不妨碍它们应用本发明的精神。因此,除了根据附加的权利要求书的精神,本发明不应受到任何限制。
Claims (10)
1.一种三维计算(3D-COM)封装(300),其特征在于含有:
一计算芯片(100)和一存储芯片(200),该计算芯片(100)和该存储芯片(100)在该封装(300)中相互垂直堆叠;
多个储算单元(100aa-100mn),每个储算单元(100ij)含有一微计算核(180)和至少一存储阵列(170),该存储阵列(170)是该存储芯片(200)的一部分并存储多个计算参数,该微计算核(180)是该计算芯片(100)的一部分并利用所述计算参数进行计算:
所述存储阵列(170)和所述微计算核(180)通过芯片间连接(160)电耦合。
2.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该存储芯片(200)包括SRAM、DRAM、MRAM、FRAM、mask ROM、OTP、NOR闪存、NAND闪存、三维存储器中的一种。
3.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该计算芯片(100)包括加法器、乘法器、比较器中的一种。
4.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该计算参数为网路规范。
5.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该计算参数为病毒特征。
6.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该计算参数为关键词。
7.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该计算参数为神经元参数。
8.根据权利要求1所述的集成三维计算封装(300),其特征还在于:该计算参数为查找表。
9.根据权利要求1所述的集成三维计算封装(300),其特征还在于含有:至少两个存储芯片(200A、200B)。
10.根据权利要求1所述的集成三维计算封装(300),其特征还在于:所述储算单元(100ij)含有至少两个存储阵列(170a-170d)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710869309.8A CN109558370A (zh) | 2017-09-23 | 2017-09-23 | 三维计算封装 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710869309.8A CN109558370A (zh) | 2017-09-23 | 2017-09-23 | 三维计算封装 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558370A true CN109558370A (zh) | 2019-04-02 |
Family
ID=65861775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710869309.8A Pending CN109558370A (zh) | 2017-09-23 | 2017-09-23 | 三维计算封装 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558370A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364393A (zh) * | 2020-11-16 | 2021-02-12 | 深圳市安信智控科技有限公司 | 一种flash存储器集成安全计算功能的方法及器件 |
US11335657B2 (en) | 2020-09-16 | 2022-05-17 | International Business Machines Corporation | Wafer scale supercomputer |
CN115617739A (zh) * | 2022-09-27 | 2023-01-17 | 南京信息工程大学 | 一种基于Chiplet架构的芯片及控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105393353A (zh) * | 2014-06-30 | 2016-03-09 | 华为技术有限公司 | 一种3d堆叠器件、芯片及通信方法 |
CN105573959A (zh) * | 2016-02-03 | 2016-05-11 | 清华大学 | 一种计算存储一体的分布式计算机架构 |
CN107169404A (zh) * | 2016-03-07 | 2017-09-15 | 杭州海存信息技术有限公司 | 含有三维存储阵列的分布式模式处理器 |
US20170270403A1 (en) * | 2016-03-21 | 2017-09-21 | HangZhou HaiCun Information Technology Co., Ltd. | Integrated Neuro-Processor Comprising Three-Dimensional Memory Array |
-
2017
- 2017-09-23 CN CN201710869309.8A patent/CN109558370A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105393353A (zh) * | 2014-06-30 | 2016-03-09 | 华为技术有限公司 | 一种3d堆叠器件、芯片及通信方法 |
CN105573959A (zh) * | 2016-02-03 | 2016-05-11 | 清华大学 | 一种计算存储一体的分布式计算机架构 |
CN107169404A (zh) * | 2016-03-07 | 2017-09-15 | 杭州海存信息技术有限公司 | 含有三维存储阵列的分布式模式处理器 |
US20170270403A1 (en) * | 2016-03-21 | 2017-09-21 | HangZhou HaiCun Information Technology Co., Ltd. | Integrated Neuro-Processor Comprising Three-Dimensional Memory Array |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11335657B2 (en) | 2020-09-16 | 2022-05-17 | International Business Machines Corporation | Wafer scale supercomputer |
CN112364393A (zh) * | 2020-11-16 | 2021-02-12 | 深圳市安信智控科技有限公司 | 一种flash存储器集成安全计算功能的方法及器件 |
CN112364393B (zh) * | 2020-11-16 | 2024-02-02 | 深圳市安信智控科技有限公司 | 一种flash存储器集成安全计算功能的方法及器件 |
CN115617739A (zh) * | 2022-09-27 | 2023-01-17 | 南京信息工程大学 | 一种基于Chiplet架构的芯片及控制方法 |
CN115617739B (zh) * | 2022-09-27 | 2024-02-23 | 南京信息工程大学 | 一种基于Chiplet架构的芯片及控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11152336B2 (en) | 3D processor having stacked integrated circuit die | |
US10672743B2 (en) | 3D Compute circuit with high density z-axis interconnects | |
US10672744B2 (en) | 3D compute circuit with high density Z-axis interconnects | |
US10651114B2 (en) | Apparatus and method of three dimensional conductive lines | |
US10387303B2 (en) | Non-volatile storage system with compute engine to accelerate big data applications | |
CN111492477A (zh) | 具有高密度z轴互连的3d计算电路 | |
CN109558370A (zh) | 三维计算封装 | |
US9378793B2 (en) | Integrated MRAM module | |
US11756951B2 (en) | Layout design methodology for stacked devices | |
US9269440B2 (en) | High density search engine | |
CN109103167A (zh) | 用于存储器装置的异构性扇出结构 | |
CN107482015B (zh) | 一种三维存储器的制备方法及其结构 | |
TWI797314B (zh) | 記憶體系統 | |
CN107346231A (zh) | 基于封装内查找表的可编程处理器 | |
TW202306051A (zh) | 記憶體電路、神經網路電路以及製造積體電路裝置的方法 | |
CN104485130B (zh) | 一种固态硬盘结构 | |
CN113421879B (zh) | 高速缓存内容寻址存储器和存储芯片封装结构 | |
CN109545783A (zh) | 含有三维存储阵列的三维计算芯片 | |
CN105930300A (zh) | 基于三维片内缓存的处理器结构及其制备方法 | |
Chang et al. | Area and reliability efficient ECC scheme for 3D RAMs | |
CN105742277B (zh) | 一种大容量立体集成sram存储器三维扩展方法 | |
US20200364547A1 (en) | Chip including neural network processors and methods for manufacturing the same | |
Chujo et al. | Bumpless Build Cube (BBCube) 3D: Heterogeneous 3D Integration Using WoW and CoW to Provide TB/s Bandwidth with Lowest Bit Access Energy | |
Emma et al. | 3D system design: A case for building customized modular systems in 3D | |
Thorolfsson et al. | Comparative analysis of two 3D integration implementations of a SAR processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No.16, 34th floor, building 2, No.88, Jitai fifth road, high tech Zone, Chengdu, Sichuan, 640041 Applicant after: ChengDu HaiCun IP Technology LLC Address before: B-36, 6 Yongfeng Road, Chengdu, Sichuan 610041 Applicant before: ChengDu HaiCun IP Technology LLC |
|
CB02 | Change of applicant information | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190402 |
|
WD01 | Invention patent application deemed withdrawn after publication |