CN111435460A

CN111435460A - 神经网络处理器封装

Info

Publication number: CN111435460A
Application number: CN201910029527.XA
Authority: CN
Inventors: 张国飙
Original assignee: Hangzhou Haicun Information Technology Co Ltd
Current assignee: Hangzhou Haicun Information Technology Co Ltd
Priority date: 2019-01-13
Filing date: 2019-01-13
Publication date: 2020-07-21

Abstract

神经网络处理器(100)封装含有多个储算单元(100aa‑100mn)，每个储算单元(100ij)含有至少一三维纵向存储（3D‑M_V）阵列(170)和一神经计算电路(180)。神经网络处理器封装(100)还含有第一芯片(100a)和第二芯片(100b)。第一芯片(100a)含有存储阵列(170),第二芯片(100b)含有神经计算电路(180)。存储阵列(170)和神经计算电路(180)通过多个芯片间连接(160)电耦合。

Description

神经网络处理器封装

技术领域

本发明涉及集成电路领域，更确切地说，涉及人工智能（AI）使用的神经网络处理器（neuro-processor）。

背景技术

处理器的第五种应用是神经网络。神经网络提供了一种强大的人工智能工具。图1A是一个神经网络的例子。它含有输入层32、隐层34和输出层36。输入层32含有i个神经元33，其输入数据x₁、…x_i构成输入矢量30x。输出层36含有k个神经元37，其输出数据y₁、y₂、…y_k构成输出矢量30y。隐层34介于输入层32和输出层36之间。它含有j个神经元35，每个神经元35与输入层32中的第一神经元以及输出层36中的第二神经元电耦合。神经元之间的耦合强度由突触权重w_ij和w_jk表示。

现有技术提出一种神经网络加速器芯片60（参见陈云霁等著《DaDianNao: AMachine-Learning Supercomputer》，IEEE/ACM International Symposium on Micro-architecture，5(1)，第609-622页，2014年）。神经网络加速器60含有16个内核50，它们通过一个树状连接相互耦合（图1B）。每个内核50含有一个神经计算单元（NPU） 30和四个eDRAM块40（图1C）。NPU 30进行神经计算，它含有256+32个16位乘法器和256+32个16位加法器。eDRAM 40存储突触权重，其存储容量为2MB。

神经网络加速器60仍有改进的空间。首先， eDRAM 40是一个易失存储器，运行前突触权重需要从外存加载到eDRAM 40中，这需要花费时间。其次，每个神经网络加速器芯片60中仅有32MB eDRAM可用于存储突触权重。这个容量仍远低于实际需要。再次，神经网络加速器60的设计重点向存储倾斜——在每个内核中，eDRAM 40占用了80%的面积，而NPU 30只占用了不到10%，故计算密度受到很大限制。

发明内容

本发明的主要目的是促使人工智能的进步。

本发明的另一目的是提高神经网络处理器的计算能力。

本发明的另一目的是提供一种能用于移动设备的神经网络处理器。

为了实现这些以及别的目的，本发明提出一种神经网络处理器封装：其基本功能是神经计算；更重要的是，神经计算所需的突触权重存储在同一封装内。神经网络处理器含有成千上万个存储计算单元（简称为储算单元），每个储算单元含有至少一神经存储电路和一神经计算电路。神经存储电路含有存储突触权重的存储阵列；神经计算电路利用所述突触权重进行神经计算。神经网络处理器封装含有第一芯片和第二芯片：第一芯片含有多个存储阵列，第二芯片中含有多个神经计算电路，它们相互堆叠并通过多个芯片间连接电耦合。

从制造工艺角度的角度来看，神经网络处理器封装很有优势。由于第一芯片和第二芯片为不同芯片，第一芯片中的存储晶体管和第二芯片中的逻辑晶体管分别形成在不同衬底上，它们的制造工艺可分别优化。第一芯片可以采用任何形式的存储器作为模式的载体，如RAM（SRAM、DRAM、MRAM、FRAM等）、或ROM（mask-ROM、OTP、NOR闪存、NAND闪存等）；第二芯片可以含有任何形式的神经计算电路。

由于第一芯片中的存储阵列形成在单晶半导体衬底0a上，其速度很快。此外，存储阵列和神经计算电路之间距离较近（相对于传统的冯·诺依曼架构），读取突触权重所需时间很短。另外，对于图4B-图4D的实施例——尤其是图4C-图4D的实施例，芯片间连接数量巨大，它可在存储阵列和神经计算电路之间实现超宽带宽。在神经计算时，输入数据被送到所有储算单元中，并同时进行神经计算，从而保证大规模平行计算。由于神经网络处理器封装含有成千上万个储算单元，故能实现高速高效神经计算。

相应地，本发明提出一种神经网络处理器(100)，其特征在于含有：多个储算单元(100aa-100mn)，每个储算单元(100ij)含有至少一存储阵列(170)和一神经计算电路(180)，所述存储阵列(170)存储至少一突触权重，所述神经计算电路(180)利用所述突触权重进行神经计算；相互堆叠的第一芯片(100a)和第二芯片(100b)，所述第一芯片(100a)含有所述存储阵列(170)，所述第二芯片(100b)含有所述神经计算电路(180)，所述第一芯片(100a)与所述第二芯片(100b)通过多个芯片间连接(160)电耦合。

附图说明

图1A是一种神经网络的示意图；图1B是一种神经网络加速器（现有技术）的芯片布局图；图1C是该神经网络加速器的内核架构。

图2A-图2C是对一种神经网络处理器封装100的整体介绍：图2A是其电路框图；图2B是其储算单元的电路框图；图2C是其中两个芯片的电路布局图。

图3是一种神经网络处理器封装的透视图。

图4A-图4D是四种神经网络处理器封装的截面图。

图5A-图5B是一种神经网络处理器封装100的第一和第二芯片的电路布局图。

图6A-图6C是三种储算单元的电路框图。

图7A-图7C是三种储算单元在第一和第二芯片中的电路布局图。

图8是在一种神经计算电路的电路框图。

图9A-图9B是两种计算电路的电路框图。

注意到，这些附图仅是概要图，它们不按比例绘图。为了显眼和方便起见，图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中，数字后面的字母后缀表示同一类结构的不同实例；相同的数字前缀表示相同或类似的结构。符号“/”表示“与”和“或”的关系。

在本说明书中，“存储器”泛指任何基于半导体的信息存储设备，它可以长久或临时存储信息。“存储阵列”是所有共享至少一条地址线的存储元之集合。“电耦合”表示电信号可以从一元件传输到另一元件的、任何形式的耦合。在其他公开文本中，“神经处理单元（NPU）”又被称为“神经功能单元（NFU）”等，它们都有同样意义；“神经网络处理器”又被称为“神经处理器”、“神经网络加速器”、“机器学习加速器”等，它们都有同样意义。

具体实施方式

图2A-图2C是对一种神经网络处理器封装100的整体介绍。图2A是其电路框图。神经网络处理器封装100不仅能进行神经计算，而且神经计算所需的突触权重存储在本地且距离很近。神经网络处理器封装100含有一个含有m x n个储算单元100aa-100mn的储算阵列。以储算单元100ij为例，它有输入110和输出120。一般说来，一个神经网络处理器100可以含有成千上万个储算单元100aa-100mn，它支持大规模平行计算。

图2B是其储算单元100ij的电路框图。储算单元100ij含有至少一神经存储电路170和一神经计算电路180，它们之间通过多个芯片间连接160（参见图4A-图4D）电耦合。每个神经存储电路170含有至少一存储突触权重的存储阵列，神经计算电路180利用该突触权重进行神经计算。由于存储阵列170与神经计算电路180位于不同芯片，存储阵列170用虚线表示。

图2C表示一种神经网络处理器封装100的具体实现方式，它含有至少一第一芯片（也被称为存储芯片）100a和至少一第二芯片（也被称为逻辑芯片）100b。第一芯片100a含有存储阵列170。第二芯片100b含有神经计算电路180。芯片间连接160为第一芯片100a和第二芯片100b之间实现电耦合。注意到，部分神经计算电路可以位于第一芯片100a中。

图3是一种神经网络处理器封装100的透视图，它含有第一芯片100a和第二芯片100b。第一芯片100a形成在第一半导体衬底0a中，它含有多个存储阵列170aa-170bb。第二芯片100b形成在第二半导体衬底0b中，它含有多个神经计算电路180aa-180bb，第二芯片100b通过多个芯片间连接160与第一芯片100a电耦合。芯片间连接160的具体实施见图4A-图4D。

图4A-图4D是四种神经网络处理器封装100的截面图，它侧重于显示芯片间连接160的各种实现方式。在图4A的实施例中，第一芯片100a和第二芯片100b堆叠在封装衬底132上并位于同一封装壳130中。它们也相互堆叠，即沿垂直于芯片表面的方向堆叠。其中，第一芯片100a和第二芯片100b的正面（即含有电路的表面）均朝上（+z方向），它们之间通过键合线160w实现芯片间连接160。

在图4B的实施例中，第一芯片100a和第二芯片100b面对面堆叠。具体说来，第一芯片100a正面朝上（+z方向）；而翻转第二芯片100b使其正面朝下（-z方向）。它们之间通过微焊点（micro-bump）160x实现芯片间连接160。为简便计，在图4B-图4D中，封装衬底132和封装壳130不再画出。

图4C的实施例含有两个存储芯片100a1、100a2和一个逻辑芯片100b。为了避免混淆，在该图中第一芯片被称为存储芯片100a1、100a2，第二芯片被称为逻辑芯片100b。存储芯片100a1、100a2各自含有多个存储阵列；它们相互堆叠，并通过穿透衬底通道孔（TSV）160y电耦合。堆叠的存储芯片100a1、100a2与逻辑芯片100b之间通过微焊点160x电耦合。TSV 160y和微焊点160x为芯片间连接160。在本实施例中，逻辑芯片100b中的神经计算电路180ij利用两个存储芯片100a1、100a2中存储的突触权重进行神经计算。

在图4D的实施例中，在第一芯片100a的正表面形成第一绝缘介质168a，然后在第一绝缘介质168a中形成多个第一通道孔160za。此外，在第二芯片100b的正表面也形成第二绝缘介质168b，然后在第二绝缘介质168b中形成多个第二通道孔160zb。翻转第二芯片100b后，将第一通道孔160za和第二通道孔160zb对准，并粘连第一和第二芯片100a、100b。相应地，第一和第二芯片100a、100b通过电接触的第一和第二通道孔160za、160zb实现芯片间连接160。由于通道孔160za、160zb通过标准芯片制造工艺形成，它可以具有很小尺寸和很多数量。因此，在第一芯片100a和第二芯片100b之间可以形成大带宽的芯片间连接160。在本实施例中，通道孔160za、160zb统称为竖直接触连接（vertical interconnect access，简称为VIA）。

从制造工艺角度的角度来看，神经网络处理器封装100很有优势。由于第一芯片100a和第二芯片100b为不同芯片，第一芯片100a中的存储晶体管和第二芯片100b中的逻辑晶体管分别形成在不同衬底（0a、0b）上，它们的制造工艺可分别优化。第一芯片100a可以采用任何形式的存储器作为突触权重的载体，如RAM（SRAM、DRAM、MRAM、FRAM等）、或ROM（mask-ROM、OTP、NOR闪存、NAND闪存等）；第二芯片100b可以含有任何形式的神经计算电路。

由于第一芯片100a中的存储阵列170形成在单晶半导体衬底0a上，其速度很快。此外，存储阵列170和神经计算电路180之间距离较近（相对于传统的冯·诺依曼架构），读取突触权重所需时间很短。另外，对于图4B-图4D的实施例——尤其是图4C-图4D的实施例，芯片间连接（TSV’s或VIA’s）160数量巨大，它可在存储阵列170和神经计算电路180之间实现超宽带宽。在神经计算时，输入数据被送到所有储算单元中，并同时进行神经计算，从而保证大规模平行计算。由于神经网络处理器封装含有成千上万个储算单元（图2A），故能实现高速高效神经计算。

图5A-图5B是一种神经网络处理器封装100中第一和第二芯片100a、100b的电路布局图。该实施例对应于图6A和图7A的实施例。熟悉本领域的专业人士可以很容易地将它推广到图6B和图7B、以及图6C和图7C的实施例中。图5A表示第一芯片100a，它含有多个存储阵列170aa-170mn。图5B表示第二芯片100b，它含有多个神经计算电路180aa-180mn。图5A和图5B的神经网络处理器100采用“全对齐”技术，即通过两个芯片100a、100b的电路布局设计实现如下目的：当两个芯片100a、100b对齐后，每个存储阵列（如170ij）都有一个神经计算电路（如180ij）与之对齐（参见图7A-图7C）。由于一个神经计算电路（如180ij）可以有多个存储阵列（如170ijA-170ijD、170ijW-170ijZ）与之对齐（参见图7B-图7C），第二芯片100b上神经计算电路（如180ij）的周期是第一芯片100a上存储阵列（如170ij）周期的整数倍。

图6A-图7C表示三种储算单元100ij。图6A-图6C是其电路框图；图7A-图7C是其电路布局图。在这些实施例中，一个神经计算电路180ij为不同数量的存储阵列170ij服务。

图6A中的神经计算电路180ij为一个存储阵列170ij服务：它利用存储在存储阵列170ij中的突触权重进行神经计算。图6B中的神经计算电路180ij为四个存储阵列170ijA-170ijD服务：它利用存储在存储阵列170ijA-170jiD中的突触权重进行神经计算。图6C中的神经计算电路180ij为八个存储阵列170ijA-170ijD和170ijW-170ijZ服务：它利用存储在存储阵列170ijA-170ijD和170ijW-170ijZ中的突触权重进行神经计算。从后面的图7A-图7C可以看出，为更多存储阵列170ij服务的神经计算电路180ij一般占有更大的芯片面积和具有更强的功能。在图6A-图7C中，由于存储阵列170ij与神经计算电路180ij位于不同芯片（参见图3、图4A-图4C以及图5A-图5B），存储阵列170ij用虚线表示。

图7A-图7C表示第二芯片100b的电路布局、以及存储阵列170ij-170ijZ（位于第一芯片100a中）在第二芯片100b上的投影（用虚线表示）。图7A的实施例对应于图6A的实施例。在该实施例中，储算单元100ij中的神经计算电路180ij位于第二芯片100b的第二半导体衬底0b中。神经计算电路180ij被存储阵列170ij至少部分覆盖。

在本实施例中，神经计算电路180ij的周期等于存储阵列170ij的周期、面积不能超过存储阵列170ij在第二芯片100b上的投影面积，故功能有限。该实施例较适于实现较简单的神经计算。图7B-图7C披露了两种复杂神经计算电路180ij。

图7B的实施例对应于图6B的实施例。在该实施例中，储算单元100ij的神经计算电路180ij位于第二芯片100b中，它们被四个存储阵列170ijA-170ijD至少部分覆盖。在四个存储阵列170ijA-170ijD下方，神经计算电路180ji可以自由布局。图7B中的神经计算电路180ij的周期是图7A中存储阵列170ij周期的两倍、面积是其四倍，故能实现较复杂的神经计算。

图7C的实施例对应于图6C中的实施例。在该实施例中，储算单元100ij中的神经计算电路180ij位于第二芯片100b中。这八个存储阵列170ijA-170ijD、170ijW-170ijZ分为两组170ijSA、170jiSB。每组（如170ijSA）包括四个存储阵列（如170ijA-170ijD）。在第一组170SA的四个存储阵列170ijA-170ijD下方，第一神经计算电路组件180ijA可以自由布局。类似地，在第二组170ijSB的四个存储阵列170ijW-170ijZ下方，第二神经计算电路组件180ijB可以自由布局。第一神经计算电路组件180ijA和第二神经计算电路组件180ijB构成神经计算电路180ij。在本实施例中，在相邻神经计算电路组件之间留有间隙（如G），以形成布线通道182、184、186，供不同神经计算电路组件180ijA、180ijB之间、或不同神经计算电路之间实现通讯。图7C中的神经计算电路180ij的周期是图7A中存储阵列170ij周期的四倍（x方向）、面积是其八倍，故能实现更复杂的神经计算。

图8-图9B披露了一种神经计算电路180及其计算电路730的细节。在图8的实施例中，神经计算电路180含有一突触权重（W_s）RAM 740A、一输入神经元（N_in）RAM 740B和一计算电路730。W_s RAM 740A是一个缓存，它临时存储来自3D-M阵列170的突触权重742；N_in RAM740B也是一个缓存，它临时存储来自输入110的输入数据746。计算电路730进行神经计算，并产生输出数据748。

在图9A的实施例中，计算电路730含有一乘法器732、一加法器734、一寄存器736和一激活函数电路738。乘法器732将突触权重w_ij与输入数据x_i相乘，加法器734和寄存器736对乘积（w_ij×x_i）进行累加，累加值被送到激活函数电路738，所得结果为输出数据y_j。

在图9B的实施例中，图9A中的乘法器732被一乘加器（MAC）732`替代。当然，乘加器732`也含有乘法器。W_s RAM 740A不仅输出突触权重w_ij（通过端口742w），还输出偏置b_j（通过端口742b）。乘加器732`对输入数据x_i、突触权重w_ij和偏置b_j实施偏置乘操作（w_ij×x_i+b_j）。

激活函数是指输出被控制在一定范围内（如0到1、或-1到+1）的函数，包括sigmod函数、signum函数、阈值函数、分段线性函数、阶跃函数、tanh函数等。激活函数的电路实现较难。计算电路730还可以含有非易失存储器，用于长期存储激活函数的LUT。非易失存储器一般为只读存储器（ROM）。在本发明的一个实施例中，ROM为一三维只读存储器（3D-ROM）阵列，该3D-ROM阵列堆叠在神经计算电路(180)上方且与之重合。这时，计算电路730变得极其简单——它仅需实现加法和乘法，但不需要实现激活函数。利用3D-ROM 阵列实现激活函数的计算电路730面积较小，能保证计算密度。

应该了解，在不远离本发明的精神和范围的前提下，可以对本发明的形式和细节进行改动，这并不妨碍它们应用本发明的精神。因此，除了根据附加的权利要求书的精神，本发明不应受到任何限制。

Claims

1.一种神经网络处理器封装(100)，其特征在于含有：

多个储算单元(100aa-100mn)，每个储算单元(100ij)含有至少一存储阵列(170)和一神经计算电路(180)，所述存储阵列(170)存储至少一突触权重，所述神经计算电路(180)利用所述突触权重进行神经计算；

相互堆叠的第一芯片(100a)和第二芯片(100b)，所述第一芯片(100a)含有所述存储阵列(170)，所述第二芯片(100b)含有所述神经计算电路(180)，所述第一芯片(100a)与所述第二芯片(100b)通过多个芯片间连接(160)电耦合。

2.根据权利要求1所述的神经网络处理器(100)，其特征还在于：所述第一芯片(100a)和所述第二芯片(100b)相互堆叠。

3.根据权利要求1所述的神经网络处理器(100)，其特征还在于：所述存储阵列(170)在所述第二芯片(100b)上的投影与所述神经计算电路(180)至少部分重合。

4.根据权利要求1所述的神经网络处理器(100)，其特征还在于：在所述第一芯片(100a)中的每个存储阵列(170ij)在所述第二芯片(100b)上有一神经计算电路(180ij)与之对齐。

5.根据权利要求1所述的神经网络处理器(100)，其特征还在于：在所述第二芯片(100b)中的每个神经计算电路(180ij)在所述第一芯片(100a)上有至少一存储阵列(170ij)与之对齐。

6.根据权利要求1所述的神经网络处理器(100)，其特征还在于：在所述第二芯片(100b)中神经计算电路(180ij)的周期是所述第一芯片(100b)中存储阵列(170ij)周期的整数倍。

7.根据权利要求1所述的神经网络处理器(100)，其特征还在于：所述神经计算电路(180)含有至少一乘法器或乘加器(732)。

8.根据权利要求1所述的神经网络处理器(100)，其特征还在于含有：一存储一激活函数查找表（LUT）的只读存储器（ROM）。

9.根据权利要求8所述的神经网络处理器(100)，其特征还在于：所述ROM是一三维只读存储器（3D-ROM）阵列，所述3D-ROM阵列堆叠在所述神经计算电路(180)之上。

10.根据权利要求1所述的神经网络处理器(100)，其特征还在于：所述芯片间连接(160)包括键合线、微焊点、穿透衬底通道孔（TSV）、和/或竖直接触连接（VIA）。