CN107220704B

CN107220704B - 含有三维存储阵列的集成神经网络处理器

Info

Publication number: CN107220704B
Application number: CN201710171413.XA
Authority: CN
Inventors: 张国飙
Original assignee: Hangzhou Haicun Information Technology Co Ltd
Current assignee: Hangzhou Haicun Information Technology Co Ltd
Priority date: 2016-03-21
Filing date: 2017-03-21
Publication date: 2021-08-17
Anticipated expiration: 2037-03-21
Also published as: US20170270403A1; US11068771B2; CN107220704A; CN114037068A; WO2017162129A1

Abstract

本发明提出一种含有三维存储（3D‑M）阵列的集成神经网络处理器，它含有多个储算单元。每个储算单元含有一神经计算电路和至少一3D‑M阵列：神经计算电路进行神经计算，3D‑M阵列存储突触权重。3D‑M阵列和神经计算电路之间的三维集成不仅能提升单位面积的计算能力，还能大幅增加单位面积的存储容量。

Description

含有三维存储阵列的集成神经网络处理器

技术领域

本发明涉及集成电路领域，更确切地说，涉及人工智能（AI）使用的神经网络处理器（neuro-processor）。

背景技术

人工智能将引领下一波计算浪潮。人工神经网络（简称为神经网络）提供了一种强大的人工智能工具。图1是一个神经网络的例子。它含有输入层32、隐层34和输出层36。输入层32含有i个神经元22，其输入数据x₁、…x_i构成输入矢量20。输出层36含有k个神经元26，其输出数据y₁、y₂、…y_k构成输出矢量30。隐层34介于输入层32和输出层36之间。它含有j个神经元24，每个神经元24与输入层32中的第一神经元耦合，同时也与输出层36中的第二神经元耦合。神经元之间的耦合强度由突触权重w_ij和w_jk表示。

美国专利6,199,057（发明人：Tawel；授权日：2001年3月6日）披露了一种神经网络处理器。如图2A所示，它含有一突触权重（W_s）RAM 40X、一输入神经元（N_in）RAM 40Y和一神经处理单元（NPU）50。在操作过程中，突触权重42从W_s RAM 40X中读出，输入数据46从N_in RAM40Y中读出；NPU 50将它们相乘，所得乘积累加后通过激活函数（activation function）获得输出数据N_out 48。注意到，在Tawel中，W_s RAM 40X的容量很小，只有2kx16。

目前，神经网络的规模日益增加。大多数神经网络含有十亿到百亿级的W_s参数。显然，这些GB级的W_s参数无法存储在W_s RAM 40X中。为了解决这个问题，采用传统冯诺依曼架构的神经网络计算机将W_s参数存储在外部RAM（主存）中。但是，神经网络的计算量太大了，需要频繁地从主存中读取或写入W_s参数。这些频繁的主存访问成为性能瓶颈。由于频繁的主存访问，神经网络处理器的性能下降至少一个数量级。

为了解决上述主存频繁访问的问题，陈云霁等提出一种含有多个神经网络加速器芯片的机器学习超级计算机（参见陈云霁等著《DaDianNao: A Machine-LearningSupercomputer》，IEEE/ACM International Symposium on Micro-architecture，5(1)，第609-622页，2014年）。如果每个神经网络加速器芯片含足够多的RAM，那么超级计算机中的所有RAM就能装下整个神经网络，故超级计算机不需要主存。图2B是神经网络加速器60的芯片布局图。每个芯片60含有16个内核70。这些内核70通过一个树状连接相互耦合。在芯片60中央是为输入神经元和输出神经元设计的eDRAM块66。由于输入神经元数据比W_s参数少几个数量级，输入神经元数据——而非W_s参数——在芯片间传输。

神经网络加速器60中的内核70具有相同的架构。图2C披露了一个内核架构。每个内核70含有一个NPU 50和四个eDRAM块40。NPU 50进行神经计算，它含有256+32个16位乘法器和256+32个16位加法器。eDRAM 40存储W_s参数，其存储容量为2MB。由于eDRAM 40与NPU50位置接近，数据传输距离短，这样能节省传输时间和传输能耗。由于具有较大的内部带宽和较少的外部通讯，该神经网络加速器比GPU快450.65倍。此外，基于该神经网络加速器的超级计算机（64个节点）的能耗下降150.31倍。

虽然有诸多优点，陈云霁的神经网络加速器仍有进步的空间。首先，从系统角度来看，由于eDRAM 40是一个易失存储器，它只能临时存储W_s参数。因此，该神经网络加速器仍然需要外部存储来长久存储突触权重。在运行前，W_s参数需要被上载到eDRAM 40中，这需要花费时间。其次，每个神经网络加速器芯片60中有32MB eDRAM可用于存储W_s参数。虽然这个容量远大于Tawel，仍远远低于实际需要。一个典型神经网络含有数十亿个W_s参数。要把它们存储在eDRAM 40中，需要上百个神经网络加速器芯片60。比如说，存储10亿个32位W_s参数需要125个神经网络加速器芯片60。这对于移动设备来说是太多了。因此，神经网络加速器60并不适合运动应用。再次，神经网络加速器60的架构设计重点向存储倾斜——在每个内核中，eDRAM 40占用了80%的面积，而NPU 50只占用了不到10%。因此，单位面积（指单位芯片面积，后同）的计算能力受到很大限制。

上述问题的根本原因是eDRAM 40和NPU 50之间的集成是二维集成，它们均形成在衬底中。二维集成带来一个两难问题：在芯片中可通过牺牲存储容量来提高计算能力，但这带来的、额外的外部存储访问又会抵消掉计算能力的提高。只要采用二维集成，这个两难问题都会存在。为了弥补上述缺陷，我们希望能找到一种完全不同的集成方式。

发明内容

本发明的主要目的是促使神经网络的进步。

本发明的另一目的是提高神经网络处理器的单位面积计算能力。

本发明的另一目的是提高神经网络处理器的单位面积存储容量。

本发明的另一目的是提供一种能用于移动设备的神经网络处理器。

为了实现这些以及别的目的，本发明提出一种含有三维存储（three-dimensionalmemory，简称为3D-M）阵列的集成神经网络处理器：它不仅能进行神经计算，还能在内部存储神经计算所需的突触权重。一个集成神经网络处理器芯片含有多个储算单元，每个储算单元含有一神经计算电路和至少一3D-M阵列。神经计算电路进行神经计算，3D-M阵列存储突触权重。3D-M阵列垂直堆叠在神经计算电路上方。这种垂直堆叠被称为三维集成。3D-M阵列通过多个接触通道孔与神经计算电路电耦合。这些接触通道孔被统称为储算连接。

三维集成能大幅提升单位面积的计算能力。由于3D-M阵列垂直堆叠在神经计算电路上方，储算单元的面积约等于神经计算电路的面积。这比现有技术（如神经网络加速器）要小很多。由于现有技术采用二维集成，内核70（等效于储算单元）的面积约等于eDRAM 40（等效于3D-M阵列）和NPU 50（等效于神经计算电路）面积之和。由于NPU 50只占不到10%的内核70面积、而eDRAM 40占了80%的内核面积，当存储突触权重的存储器从旁边移到顶上后，储算单元的面积比现有技术的内核70减少~10倍。因此，集成神经网络处理器中储算单元的数目比现有技术中内核的数目多~10倍。集成神经网络处理器的单位面积计算能力是现有技术的~10倍，它支持超大规模的平行计算。

三维集成还能极大地增加单位面积的存储容量。由于3D-M存储元的面积是~4F²、而eDRAM存储元的面积>100F²（F为该技术节点的特征尺寸，如14nm），加上3D-M含有多个存储层（如4个存储层）、而eDRAM只含一个存储层，集成神经网络处理器的单位面积存储容量是现有技术的~100倍以上。以3D-XPoint为例，其芯片的存储容量为128Gb。相应地，基于3D-XPoint的集成神经网络处理器可以存储多达16GB的突触权重，这对于大多数人工智能应用来说是足够了。由于仅需一个或少数几个芯片就能存储整个神经网络的突触权重，集成神经网络处理器适合移动应用。

相应地，本发明提出一种集成神经网络处理器(200)，其特征在于含有：一含有多个晶体管的半导体衬底(0)；多个形成在在该半导体衬底(0)上的储算单元(100aa-100mn)，每个储算单元(100ij)含有至少一三维存储 (3D-M)阵列(170)和一神经计算电路(180)，其中：所述3D-M阵列(170)堆叠在该神经计算电路(180)上方，该3D-M阵列(170)存储至少一突触权重；所述神经计算电路(180)位于该衬底(0)中，该神经计算电路(180)利用该突触权重进行神经计算；所述3D-M阵列(170)和所述神经计算电路(180)通过多个接触通道孔(1av,3av)电耦合。

本发明还提出一种集成神经网络处理器(200)，其特征在于含有：一含有多个晶体管的半导体衬底(0)；多个形成在在该半导体衬底(0)上的储算单元(100aa-100mn)，每个储算单元(100ij)含有至少一三维存储 (3D-M)阵列(170)和一神经计算电路(180)，其中：所述3D-M阵列(170)堆叠在该神经计算电路(180)上方，该3D-M阵列(170)存储至少一突触权重；所述神经计算电路(180)位于该衬底(0)中，该神经计算电路(180)含有一乘法器(152)，该突触权重是该乘法器(152)的一个输入(142)；所述3D-M阵列(170)和所述神经计算电路(180)通过多个接触通道孔(1av, 3av)电耦合。

本发明进一步提出一种多类三维存储器（3D-M）模块(300)，其特征在于含有：一含有多个晶体管的半导体衬底(0)；一堆叠在该半导体衬底上的第一3D-M阵列(196)，该第一3D-M阵列(196)与该衬底(0)电耦合；一堆叠在该第一3D-M阵列(196)上的第二3D-M阵列(170)，该第一3D-M阵列(196)与该衬底(0)电耦合；所述第一和第二3D-M阵列(196, 170)为不同类型的3D-M。

附图说明

图1是一种神经网络的示意图。

图2A是一种神经网络处理器（现有技术）的电路框图；图2B是一种神经网络加速器（现有技术）的芯片布局图；图2C是该神经网络加速器的内核架构。

图3是一种集成神经网络处理器的示意图。

图4A-图4C是三种储算单元的电路框图；

图5A是一种含有三维可写存储器（three-dimensional writable memory，简称为3D-W）阵列的储算单元之截面图；图5B是一种含有三维印录存储器（three-dimensionalprinted memory，简称为3D-P）阵列的储算单元之截面图。

图6是一种储算单元的透视图。

图7A-图7C是三种储算单元的衬底电路布局图。

图8是在一种神经计算电路的电路框图。

图9A-图9B是两种计算部件的电路框图。

图10A是一种采用3D-ROM LUT激活函数电路的电路框图；图10B是含有该激活函数电路的储算单元之简要截面图。

图11A是第一种多类3D-M模块的简要截面图；图11B是该实施例的详细截面图；图11C是第二种多类3D-M模块的简要截面图。

图12A是第三种多类3D-M模块的简要截面图；图12B显示该实施例中所有3D-M阵列在衬底上的投影。

注意到，这些附图仅是概要图，它们不按比例绘图。为了显眼和方便起见，图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中，数字后面的字母后缀表示同一类结构的不同实例；相同的数字前缀表示相同或类似的结构。

在本说明书中，“存储器”泛指任何基于半导体的信息存储设备，它可以长久或临时存储信息。“存储体”泛指任何长久存储信息的存储设备。“衬底中”是指一电路的核心功能部件（如晶体管）形成在衬底中（如衬底表面上）；这些晶体管的互连线可以形成在衬底上方，不与衬底接触。“衬底上”是指一电路的核心功能部件（如存储元）形成在衬底上方，不在衬底中，不与衬底接触。在其他公开文本中，“神经处理单元（NPU）”又被称为“神经功能单元（NFU）”等，它们都有同样意义；“神经网络处理器”又被称为“神经处理器”、“神经网络加速器”、“机器学习加速器”等，它们都有同样意义。符号“/”表示“与”和“或”的关系。

具体实施方式

图3表示一种集成神经网络处理器芯片200，它不仅能进行神经计算，还能在存储神经计算所需的突触权重。集成神经网络处理器芯片200形成在一个半导体衬底0中，它含有m x n个储算单元100aa-100mn。每个储算单元都与一输入110和一输出120电耦合。注意到，一个集成神经网络处理器芯片200可以含有成千上万个储算单元100aa-100mn。例如说，一个含有128Gb存储容量的集成神经网络处理器芯片200含有64,000个储算单元。数量众多的储算单元保证超大规模平行神经计算。

图4A-图4C是三种储算单元100ij的电路框图。每个储算单元100ij都含有一神经计算电路180和至少一3D-M阵列170（或170A-170D、170W-170Z），它们之间通过储算连接160（或160A-160D、160W-160Z）进行电耦合。神经计算电路180进行神经计算，3D-M阵列170存储神经计算所需的突触权重。在这些实施例中，一个神经计算电路180与数量不等的3D-M阵列170耦合。图4A中的神经计算电路180与一个3D-M阵列170耦合；图4B中的神经计算电路180与四个3D-M阵列170A-170D耦合；图4C中的神经计算电路180与八个存储阵列170A-170D和170W-170Z耦合。从图7A-图7C可以看出，与较多3D-M阵列耦合的神经计算电路180具有较强的计算功能。

图5A-图6显示不同种类的3D-M。这些3D-M已在以往专利中披露，如美国专利5,835,396（发明人：张国飙；授权日：1998年11月10日）。3D-M芯片含有多个垂直堆叠的存储层，每个存储层含有多个3D-M阵列。3D-M阵列是在一个存储层中所有共享了至少一条地址线的存储元之集合。此外，一3D-M芯片含有多个3D-M模块。每个3D-M模块的顶存储层只含有一顶3D-M阵列、该顶3D-M阵列的边界就是该3D-M模块的边界。

3D-M分为3D-RAM（三维随机访问存储器）和3D-ROM（三维只读存储器）。在本说明书中，RAM泛指任何临时存储信息的半导体存储器，包括但不局限于寄存器、SRAM和DRAM；ROM泛指任何长久存储信息的半导体存储器，它可以电编程、也可以非电编程。大多数3D-M是3D-ROM。3D-ROM进一步分为3D-W和3D-P。

3D-W存储的信息通过电编程的方式录入。根据其可编程的次数，3D-W又分为三维一次编程存储器（three-dimensional one-time-programmable memory，简称为3D-OTP）和三维多次编程存储器（three-dimensional multiple-time-programmable memory，简称为3D-MTP）。顾名思义，3D-OTP只能写一次，3D-MTP能写多次（包括重复编程）。一种常见的3D-MTP是3D-XPoint。其它3D-MTP包括memristor、阻变存储器（RRAM）、相变存储器（PCM）、programmable metallization cell（PMC）、conductive bridging random-access memory（CBRAM）等。

3D-P存储的信息是在工厂生产过程中采用印刷方式录入的（印录法）。这些信息是永久固定的，出厂后不能改变。印录法可以是光刻（photo-lithography）、纳米压印法（nano-imprint）、电子束扫描曝光（e-beam lithography）、DUV扫描曝光、激光扫描曝光(laser programming)等。常见的3D-P有三维掩膜编程只读存储器（3D-MPROM），它通过光刻法经过掩膜编程录入数据。由于它没有电编程的要求，3D-P存储元在读的时候可以偏置在更高的电压。因此，3D-P的读速度比3D-W快。

图5A是一种基于3D-W的储算单元100ij的截面图。该储算单元100ij含有一形成在衬底0中的衬底电路层0K。存储层16A堆叠在衬底电路0K之上，存储层16B堆叠在存储层16A之上。衬底电路层0K含有存储层16A、16B的周边电路，它包括晶体管0t及互连线0M。每个存储层（如16A）含有多条第一地址线（如2a，沿y方向）、多条第二地址线（如1a，沿x方向）和多个3D-W存储元（如1aa）。存储层16A、16B分别通过接触通道孔1av、3av与衬底0耦合。由于接触通道孔1av、3av将3D-M阵列170和神经计算电路180电耦合，它们被统称为储算连接160。

3D-W存储元5aa含有一层编程膜12和一层二极管膜14。编程膜12可以是反熔丝膜（能写一次，可用于3D-OTP），也可以是其它多次编程膜（用于3D-MTP）。二极管膜14具有如下的广义特征：在读电压下，其电阻较小；当外加电压小于读电压或者与读电压方向相反时，其电阻较大。二极管膜可以是P-i-N二极管，也可以是金属氧化物（如TiO₂）二极管等。

图5B是一种基于3D-P的储算单元100ij的截面图。除了存储元不同，它与图5A类似。3D-P含有至少两种存储元6aa、7aa——高阻存储元6aa和低阻存储元7aa。低阻存储元7aa含有一层二极管膜14，高阻存储元6aa则含一层高阻膜13。高阻膜13是一层绝缘膜，如一层二氧化硅膜。在工艺流程中，位于低阻存储元7aa处的高阻膜13被物理移除。

图6从另一个角度显示储算单元100ij的结构。3D-M阵列170堆叠在神经计算电路180上方，神经计算电路180位于衬底0中，并被3D-M阵列170至少部分覆盖。它们之间通过大量接触通道孔1av、3av电耦合。三维集成将3D-M阵列170和神经计算电路180移得更近。由于接触通道孔1av、3av数量众多（最少数千个）且长度很短（微米级），储算连接160具有超大带宽。这个带宽远高于现有技术的带宽。由于现有技术采用二维集成，eDRAM 40和 NPU 50在衬底0中肩并肩排列，它们之间的连接数量有限（最多数百个）且较长（百微米级）。

图7A-图7C披露了三种储算单元100ij。图7A的实施例对应于图4A中储算单元100ij。神经计算电路180与一个3D-M阵列170耦合，它被3D-M阵列170完全覆盖。在该实施例中，3D-M阵列170含有四个周边电路，包括X解码器15、15`和Y解码器（包括读出电路）17、17`，神经计算电路180位于这四个周边电路之间。由于3D-M阵列170位于衬底电路0K上方，不在衬底电路0K中，图7A（及之后的图）仅用虚线表示3D-M阵列170在衬底0上的投影。

在本实施例中，神经计算电路180被局限在四个周边电路之间，其面积不能超过3D-M阵列170的面积。由于其面积较小，神经计算电路180功能有限。该实施例是一种简单神经网络处理器。很明显，复杂神经网络处理器需要在3D-M阵列170下腾出更大的衬底面积。图7B-图7C披露了两种复杂神经计算电路180。

图7B的实施例对应于图4B中储算单元100ij。在该实施例中，一个神经计算电路180与四个3D-M阵列170A-170D耦合。每个3D-M阵列（如170A）只有两个周边电路（如X解码器15A和Y解码器17A）。在这四个3D-M阵列170A-170D下方，衬底电路0K可以自由布局，形成一复杂神经计算电路180。很明显，图7B中复杂神经计算电路180可以是图7A中简单神经计算电路的四倍大，它能实现较复杂的神经计算功能。

图7C的实施例对应于图4C中储算单元100ij。在该实施例中，一个神经计算电路180与八个3D-M阵列170A-170D和170W-170Z耦合。这八个3D-M阵列分为两组150A、150B。每组（如150A）包括四个3D-M阵列（如170A-170D）。在第一组150A的四个3D-M阵列170A-170D下方，衬底电路可以自由布局，形成第一神经计算电路组件A 180A。类似地，在第二组150B的四个3D-M阵列170W-170Z下方，衬底电路也可以自由布局，形成第二神经计算电路组件B180B。第一神经计算电路组件180A和第二神经计算电路组件180B构成神经计算电路180。在本实施例中，在相邻周边电路之间（如相邻X解码器15A, 15C之间；在相邻的Y解码器17A,17B之间；在相邻的Y解码器17C, 17D之间）留有间隙（如G），以形成布线通道182, 184,186，供不同神经计算电路组件150A, 150B之间、或不同神经计算电路之间实现通讯。很明显，图7C中的神经计算电路180可以是图7A的八倍大，它能实现更复杂的神经处理功能。

三维集成能大幅提升单位面积计算能力。由于3D-M阵列170垂直堆叠在神经计算电路180上方，储算单元100ij的面积约等于神经计算电路180的面积。这比现有技术（如神经网络加速器）要小很多。由于现有技术采用二维集成，内核70（等效于储算单元）的面积约等于eDRAM 40（等效于3D-M阵列）和NPU 50（等效于神经计算电路）面积之和。由于NPU 50只占不到10%的内核70面积、而eDRAM 40占了80%的内核面积，当存储突触权重的存储器从旁边移到顶上后，储算单元的面积比现有技术的内核70减少~10倍。因此，集成神经网络处理器中储算单元的数目比现有技术中内核的数目多~10倍。集成神经网络处理器的单位面积计算能力是现有技术的~10倍，它支持超大规模的平行计算。

图8-图9B披露了一种神经计算电路180及其计算部件150的细节。在图8的实施例中，神经计算电路180含有一突触权重（W_s）RAM 140A、一输入神经元（N_in）RAM 140B和一计算部件150。W_s RAM 140A是一个缓存，它临时存储来自3D-M阵列170的突触权重142；N_in RAM140B也是一个缓存，它临时存储来自输入110的输入数据146。计算部件150进行神经计算，并产生输出数据148。

在图9A的实施例中，计算部件150含有一乘法器152、一加法器154、一寄存器156和一激活函数电路190。乘法器152将突触权重w_ij与输入数据x_i相乘，加法器154和寄存器156对乘积（w_ij×x_i）进行累加，累加值被送到激活函数电路190，所得结果为输出数据y_j。

在图9B的实施例中，图9A中的乘法器152被一乘加器（MAC）152`替代。当然，乘加器152`也含有乘法器。W_s RAM 140A不仅输出突触权重w_ij（通过端口142w），还输出偏置b_j（通过端口142b）。乘加器152`对输入数据x_i、突触权重w_ij和偏置b_j实施偏置乘操作（w_ij×x_i+b_j）。

激活函数是指输出被控制在一定范围内（如0到1、或-1到+1）的函数，包括sigmod函数、signum函数、阈值函数、分段线性函数、阶跃函数、tanh函数等。激活函数的电路实现较难。Tawel提出了一个基于查找表（LUT）的激活函数电路。它含有一个存储激活函数LUT值的ROM。类似其它现有技术，存储LUT的ROM形成在衬底中。也就是说，ROM与其他部件（如RAM40X、40Y和NPU 50）之间是二维集成。这种二维集成面临与其它现有技术同样的难题：额外的ROM（用于存储LUT）将增加NPU 50的面积，这会降低单位面积计算能力，同时还会减少单位面积存储容量（用于存储突触权重）。

将本发明的精神继续发扬光大，3D-M阵列不仅可以用于存储突触权重，还可以用于存储激活函数的LUT。由于希望能长久存储激活函数，3D-M阵列最好采用3D-ROM。图10A-图10B披露一种基于3D-ROM LUT的激活函数电路190。从图10A的电路框图可以看出，该激活函数电路190含有一预处理电路192、一X解码器194、一3D-ROM阵列196和一Y解码器198。3D-ROM阵列196存储激活函数的LUT。解码器192首先将累加值158转化成3D-ROM阵列196的地址，然后X解码器194在3D-ROM阵列中选择相应的存储元，这些存储元中的数据通过Y解码器198读出。

图10B是含有激活函数电路190的储算单元100ij的简要截面图。储算单元100ij含有一形成在衬底0中的神经计算电路180、一堆叠在神经计算电路180上方的第一3D-ROM阵列196、以及一堆叠在第一3D-ROM阵列196上方的第二3D-ROM阵列170。第一3D-ROM阵列196存储激活函数的LUT，第二3D-ROM阵列170存储突触权重。为了图像清晰，该简要截面图（包括以后的简要截面图）仅用虚线画出了这些电路部件（包括神经计算电路、第一和第二3D-ROM阵列）的大致边界，这些电路部件的细节并未画出。

在通过3D-ROM阵列196实现激活函数后，计算部件150变得极其简单——它仅需实现加法和乘法，但不需要实现激活函数。因此，基于3D-ROM LUT的计算部件150比采用其它方法实现激活函数的计算部件面积要小很多。相应地，神经计算电路180可以采用图7A中的简单神经计算电路。很明显，较小的计算部件150能带来更强大的单位面积计算能力。这是采用3D-ROM LUT的另一个优势。

在图10B中，3D-ROM阵列170、196存储两种数据：突触权重和激活函数的LUT。这两种数据对3D-ROM阵列有不同要求。LUT一般需要较高的读速度，它较适合存储在3D-P阵列中；而突触权重一般需要改写，它较适合存储在3D-W阵列中。相应地，本发明还提出一种多类3D-M模块。在多类3D-M模块的不同存储层中，存储有不同类型的数据。如前所述，每个3D-M模块的顶存储层只含有一顶3D-M阵列、该顶3D-M阵列的边界就是该3D-M模块的边界。

图11A是第一种多类3D-M模块300的简要截面图。其第一3D-ROM阵列196是一3D-P阵列，第二3D-ROM阵列170是一3D-W阵列，第二3D-ROM阵列170堆叠在第一3D-ROM阵列196上方。图11B是该实施例的详细截面图。在第一存储层16A中的3D-P阵列196含有两种存储元：高阻3D-P存储元6aa和低阻3D-P存储元7aa（参见图5B）。在第二存储层16B中的3D-W阵列170只含有一种存储元：3D-W存储元5aa（参见图5A）。图11C是第二种多类3D-M模块300的简要截面图。它含有三个存储层16A-16C。在存储层16A中的3D-ROM阵列196是一3D-P阵列，在存储层16B、16C中的3D-ROM阵列170a、170b是3D-W阵列。存储层16A、16B、16C从下到上依次堆叠。对于熟悉本专业的人士来说，更多的存储层、或其它类型的3D-P、3D-W组合也是可行的。

图12A-图12B披露第三种多类3D-M模块300。该3D-M模块300含有两个存储层16A、16B。存储层16B是顶存储层，它含有一个3D-W阵列170。存储层16A是一个中间存储层，它含有至少两个肩并肩排列的3D-P阵列196A、196B（图12A）。从图12B的投影图可以看出，3D-W阵列170完全覆盖3D-P阵列196A-196F。该实施例使用小3D-P阵列196A-196F，这是因为较小的阵列具有较快的速度。

应该了解，在不远离本发明的精神和范围的前提下，可以对本发明的形式和细节进行改动，这并不妨碍它们应用本发明的精神。因此，除了根据附加的权利要求书的精神，本发明不应受到任何限制。

Claims

1.一种基于三维存储3D-M的集成神经网络处理器(200)，其特征在于含有：多个储算单元(100aa-100mn)，每个储算单元(100ij)含有一神经计算电路(180)、第一3D-M阵列(196)和第二3D-M阵列(170)，其中：

所述第一3D-M阵列(196)位于所述神经计算电路(180)之上，所述第一3D-M阵列(196)存储至少一激活函数的查找表；

所述第二3D-M阵列(170)位于所述第一3D-M阵列(196)之上，所述第二3D-M阵列(170)存储至少一突触权重；

所述神经计算电路(180)位于一半导体衬底(0)上，所述神经计算电路(180)利用所述突触权重和所述激活函数的查找表进行神经计算；

所述第一3D-M阵列(196)、所述第二3D-M阵列(170)与所述神经计算电路(180)相互重叠，并通过多个接触通道孔(1av, 3av)耦合。

2.根据权利要求1所述的集成神经网络处理器(200)，其特征还在于：

所述神经计算电路(180)的所有晶体管(0t)均位于所述半导体衬底(0)之中；

所述第一3D-M阵列(196)和所述第二3D-M阵列(170)的所有存储元(5aa, 6aa)均不位于任何半导体衬底之中。

3.根据权利要求1所述的集成神经网络处理器(200)，其特征还在于：

所述第一3D-M阵列(196)、所述第二3D-M阵列(170)与所述神经计算电路(180)之间无任何半导体衬底；

所述接触通道孔(1av, 3av)完全位于所述第一3D-M阵列(196)、所述第二3D-M阵列(170)和所述半导体衬底(0)之间，且不穿透任何半导体衬底。

4.根据权利要求1所述的集成神经网络处理器(200)，其特征还在于：所述第一3D-M阵列(196)为三维印录存储3D-P阵列；所述第二3D-M阵列(170)为三维可写存储3D-W阵列。