CN108446764B

CN108446764B - 一种新型神经形态芯片架构

Info

Publication number: CN108446764B
Application number: CN201810200690.3A
Authority: CN
Inventors: 施路平; 吴双; 何伟; 裴京
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2021-03-23
Anticipated expiration: 2038-03-12
Also published as: CN108446764A

Abstract

本发明提供一种新型神经形态芯片架构，包括多个嵌入式分布的分布式非易失性存储器，所述分布式非易失性存储器与所述芯片架构的多个神经元计算核心呈分布式对应连接。本发明通过将外置、大容量、单一或少量的串行非易失存储器转换成为内置、小容量、多个嵌入式分布的分布式非易失存储器，使每个(或者有限多个)神经元计算核心内部既含有独立的易失性存储器，也含有独立的非易失性存储器，能够有效缓解数据通信带宽的限制问题，提高系统的稳定性、可靠性和处理效率。

Description

一种新型神经形态芯片架构

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种新型神经形态芯片架构。

背景技术

大数据信息网络和智能移动设备的蓬勃发展，产生了海量非结构化信息，伴生了对这些信息高效能处理需求的急剧增长。传统计算机由于处理器和存储器分离，在处理大型复杂问题时不仅能耗高、效率低，而且面向数值计算的特性使其在处理非形式化问题时软件编程复杂度高，甚至无法实现。

借鉴人脑发展的类脑计算技术，神经网络，由大量神经元构成。神经网络中通过信息的分布式存储和并行协同处理，通过定义基本的学习规则即可模拟出大脑的自适应学习过程，无需明确的编程，在处理一些非形式化问题时具有优势。类脑计算技术使用大规模集成模拟、数字或数模混合的电路及软件系统，即神经形态器件来实现。

传统神经形态器件的设计中，在芯片上电后即将所有网络连接方式、连接权重等参数由外部数据源(上位机或者外部ROM)输入，并写入芯片内部的随机存取记忆体(RandomAccess Memory,RAM)实现初始化功能。但是这种处理形式在掉电后会丢失全部数据，即使上电后可以外部重新写入，但往往需要较长时间的初始化过程，因此可靠性较差，效率较低，不适用于需要不断进行权重更新等操作的神经网络训练学习过程。

现有的解决方法是在相应神经元芯片的外部再连接一个非易失存储器(Non-volatile memory,NVM)，如图1所示，为根据现有技术的一种外挂NVM芯片架构示意图，图中所有神经网络计算核心共用一个外部NVM。在外挂NVM的方案中，每一次的网络权重更新都需要将新的权重重新写入外部NVM，在分布式并行计算中，神经网络数据处理效率将受到数据通信带宽的严重限制。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种新型神经形态芯片架构，用以有效缓解数据通信带宽的限制问题，提高系统的稳定性、可靠性和处理效率。

本发明提供一种新型神经形态芯片架构，包括：多个嵌入式分布的分布式非易失性存储器，所述分布式非易失性存储器与所述芯片架构的多个神经元计算核心呈分布式对应连接。

其中，一个所述分布式非易失性存储器嵌入式地分布在一个或者指定的多个所述神经元计算核心区域。

其中，每个所述分布式非易失性存储器与与之连接的所述神经元计算核心间具有独立的数据通道。

进一步的，所述芯片构架还包括分别与每个所述神经元计算核心对应的易失性存储器，所述易失性存储器和所述非易失性存储器用于存储所述神经元计算核心不同运算阶段的数据。

其中，所述非易失性存储器用于存储所述神经元计算核心的相对稳定数据，所述易失性存储器用于存储所述神经元计算核心的相对动态数据。

其中，所述非易失性存储器用于存储所述神经元计算核心的连接权重、网络连接方式、神经元激活函数和初始化信息中的一种或多种。

其中，所述易失性存储器用于存储所述神经元计算核心的计算缓存和当前神经元状态中的一种或多种。

其中，所述分布式非易失性存储器进一步具体为FLASH闪存、相变存储器PCM、铁电存储器FRAM、阻变存储器RRAM、磁存储MRAM、自旋存储STT-RAM或光存储。

其中，一个所述神经元计算核心对应一个所述分布式非易失性存储器。

其中，所述神经元计算核心进一步包括计算单元，所述计算单元用于，若检测到所述相对稳定数据和所述相对动态数据间发生相互转化，则将转化后的结果转存入对应的非易失性存储器或者易失性存储器。

本发明提供的一种新型神经形态芯片架构，通过将外置、大容量、单一或少量的串行非易失存储器转换成为内置、小容量、多个嵌入式分布的分布式非易失存储器，使每个(或者有限多个)神经元计算核心内部既含有独立的易失性存储器，也含有独立的非易失性存储器，能够有效缓解数据通信带宽的限制问题，提高系统的稳定性、可靠性和处理效率。

附图说明

图1为根据现有技术的一种外挂NVM芯片架构示意图；

图2为本发明实施例一种新型神经形态芯片架构的结构示意图；

图3为根据本发明实施例一种新型神经形态芯片架构的神经元计算核心架构示意图；

图4为根据本发明实施例一种新型神经形态芯片架构的非易失性存储器嵌入分布示意图；

图5为根据本发明实施例一种新型神经形态芯片架构的数据存储示意图；

图6为根据现有技术的一种三层全连接网络的前向推理和反向训练的流程示意图；

图7为根据现有技术的一种神经形态芯片中网络运算过程示意图；

图8为根据本发明实施例一种新型神经形态芯片架构中网络运算过程的示意图；

图9为根据本发明实施例一种新型神经形态芯片架构进行全网络学习的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明实施例的一个实施例，本实施例提供一种新型神经形态芯片架构，参考图2，为本发明实施例一种新型神经形态芯片架构的结构示意图，包括：多个嵌入式分布的分布式非易失性存储器，所述分布式非易失性存储器与所述芯片架构的多个神经元计算核心呈分布式对应连接。

可以理解为，参考图3，为根据本发明实施例一种新型神经形态芯片架构的神经元计算核心架构示意图。考虑到在神经形态芯片中往往含有多个可以并行处理的神经元计算核心，在多个神经元计算核心同时运算时，如在线学习训练过程，需要不断地进行权重更新操作，在外挂NVM的方案中每一次的更新权重，都需要将新的权重重新写入外部NVM，这使得数据通信产生瓶颈。

因此，在本发明实施例中，芯片内部包含有分布式的非易失性存储器(NVM)与神经元计算核心连接。通过将非易失性存储器进行分割、内置，将其分布式引入到芯片中，作为内部神经元计算核心的功能单元，实现非易失性存储器的分布式嵌入分布。

其中可选的，所述分布式非易失性存储器进一步具体包括但不限于FLASH闪存、相变存储器PCM、铁电存储器FRAM、阻变存储器RRAM、磁存储MRAM、自旋存储STT-RAM及光存储中的一种或多种。

其中，由于基于PCM的NVM相对于片外FLASH具有更低的功耗、更快的读写速度、更小的尺寸，使其更加适合于未来低功耗、小型化的移动智能场景中。

在本发明实施例的新型神经形态芯片架构中，嵌入的分布式非易失性存储器与芯片架构的多个神经元计算核心分布式对应连接，形成独立的对应关系。即，保证每个分布式非易失性存储器仅对应连接一个或者有限的多个神经元计算核心。

对应的，对于计算量较大的神经元计算核心，也可以将数据对应存储在一个或者多个分布式非易失性存储器中。相应的，使每个神经元计算核心对应连接一个或者有限的多个分布式非易失性存储器。

本发明提供的一种新型神经形态芯片架构，通过将外置、大容量、单一或少量的串行非易失存储器转换成为内置、小容量、多个嵌入式分布的分布式非易失存储器，使每个(或者有限多个)神经元计算核心内部既含有独立的易失性存储器，也含有独立的非易失性存储器，能够有效缓解数据通信带宽的限制问题，提高系统的稳定性、可靠性和处理效率。并且，该架构能够为支持片上学习、连续在线学习的神经形态芯片硬件提供较好的解决方案。

其中可选的，参考图4，为根据本发明实施例一种新型神经形态芯片架构的非易失性存储器嵌入分布示意图，其中一个所述分布式非易失性存储器嵌入式地分布在一个或指定的多个所述神经元计算核心区域。图中N表示一个分布式非易失性存储器对应的神经元计算核心的个数。

可以理解为，根据上述实施例的新型神经形态芯片架构，分布式非易失性存储器在芯片架构中进行嵌入式分布的形式为，以芯片架构中的多个神经元计算核心为基础，按照每个非易失性存储器分别对应一个，或者同时对应附近指定多个神经元计算核心进行嵌入分布。即，在具有大规模并行计算或功能核的系统中，每个嵌入分布式的非易失性存储器供单个或者若干个神经元计算核心共用。

可以理解为，本实施例将非易失性存储器分布式引入到芯片中，作为内部神经元计算核心的功能单元，使每个神经元计算核心与对应的非易失性存储器具有独立的数据通道。如此即可解决在线学习时频繁更新权重带来的数据通信瓶颈问题。

其中的一个实施例中，一个所述神经元计算核心对应一个所述分布式非易失性存储器。

可以理解为，在根据上述实施例的非易失性存储器的分布式嵌入结构中，每个神经元计算核心独立拥有一个非易失性存储器，或者，指定的有限多个神经元技术核心共享一个非易失性存储器。以保证数据存储和调用的快速有序进行。

可以理解为，在多个并行神经元计算核心下，运算过程既会产生数据量大、数据频繁变化但不需要长时间保存的中间数据，也会产生数据变化不频繁、需要长时间保存、掉电保存的关键数据。

每个神经元计算核心既需要易失性存储器作为内存缓冲计算中间变量，也需要非易失性存储器作为硬盘存储神经元连接模式、连接权重等需要长久保存的数据，以保证芯片在掉电后能保存重要的网络模型数据，以及在上电后能够迅速加载数据工作。

根据上述实施例，每个神经元计算核心(或若干个神经元计算核心)使用单个NVM存储不同的数据，用于该单个神经元计算核心(或该若干个神经元计算核心)的运行。同时，对于每个神经元计算核心，内部还需包含有易失性存储器(包括但不限于静态随机存取存储器、寄存器等)与NVM配合。

其中可选的，所述非易失性存储器用于存储所述神经元计算核心的相对稳定数据，所述易失性存储器用于存储所述神经元计算核心的相对动态数据。

可以理解为，如图5所示，为根据本发明实施例一种新型神经形态芯片架构的数据存储示意图。由于神经形态芯片的特殊计算模式，神经元计算核心会分别在其内部RAM和其共享的NVM中存储不同的数据。其中，运算过程的相对稳定数据存储于NVM中，相对动态数据非关键的数据存储于易失性存储器中。

其中的相对稳定数据通常对网络运算影响较大，为关键数据，定义为失去该数据，系统将无法在无外界设备帮助下自行运行的数据。在掉电后重新上电时，无需外界设备，按照相应的快速启动步骤即可对大规模系统进行快速的配置和再启动。相应的，相对动态数据作为网络计算的中间值，对网络运算影响相对较小，定义为非关键数据。

其中，在一个实施例中，所述非易失性存储器用于存储所述神经元计算核心的连接权重、网络连接方式、神经元激活函数和初始化信息中的一种或多种。

可以理解为，根据上述实施例，每个单独的NVM分布式地与分布式神经元计算核心一一对应，或单个NVM对应若干个神经元计算核心，每个神经元计算核心或若干个神经元计算核心使用单个NVM，存储不同的数据用于该单个神经元计算核心或者该若干个神经元计算核心的运行。所存储的数据包括但不限于网络的配置参数、计算参数、操作数据、路由数据等。

或者，对于共享NVM，神经元计算核心会存储其网络连接权重、网络连接方式(路由表)、神经元激活函数(查找表)、初始化信息等，其特点是数据变化不频繁、需要长时间保存、掉电保存。这样芯片就能够在掉电之后保存关键数据，在重新上电之后能够迅速进入工作状态，使其具有良好的稳定性。

多个神经元计算核心的工作是并行的，其关键的配置参数和关键的计算参数存储于NVM中。在掉电后，因NVM的特性，在NVM中的数据不会丢失。重新上电后，无需外界设备对系统进行数据传输，同时每个神经元计算核心或者若干个神经元计算核心从单个NVM中读取关键数据用于神经元计算核心的配置。在配置完成后，每个神经元计算核心能继续进行计算及其他功能的运行。

其中，在另一个实施例中，所述易失性存储器用于存储所述神经元计算核心的计算缓存和当前神经元状态中的一种或多种。

可以理解为，由于合理的数据分配，对于内部RAM，神经元计算核心会存储其计算缓存、当前神经元状态(膜电位)等运行时产生的中间变量，其特点是数据量大、数据频繁变化但不需要长时间保存。

其中，在一个实施例中，所述神经元计算核心进一步包括计算单元，所述计算单元用于，若检测到所述相对稳定数据和所述相对动态数据间发生相互转化，则将转化后的结果转存入对应的非易失性存储器或者易失性存储器。

可以理解为，对于每个神经元计算核心，其内部均包含用于数据处理的计算单元，且包含易失性存储器来配合NVM进行计算过程的数据存储。其中的易失性存储器包括但不限于静态随机存取存储器、寄存器等。

当存储在易失性存储器中的缓存数据变为关键数据时，例如通过学习算法得到的学习结果，在学习过程中相对容易发生变动，可作为非关键数据，该数据即便丢失也不影响系统的运行。但是在学习结束时，这些数据将变为相对稳定的数据，相应则变为关键数据，计算单元便将学习结果数据从易失性存储器转存到非易失性存储器中。

同理，当非易失性存储器中的关键数据不再关键时，例如，旧的计算参数被通过学习得到的更智能的计算参数替代时，计算单元即会将这些数据转存入易失性存储器，并用新的数据进行覆盖。

在神经元计算核心进行数据运算时，数据运算通过基于计算单元与易失性存储器的访存完成。在计算操作完成时，判断得到的数据是否关键，非关键则继续运算，关键则存到NVM中。

本发明提供的一种新型神经形态芯片架构，无需外界设备对系统进行数据传输，每个神经元计算核心或者若干个神经元计算核心便可以从单个NVM中读取关键数据用于核的配置，并且在配置完成后，每个神经元计算核心能继续进行计算及其他功能的运行。

为了进一步说明本发明实施例的技术方案，提供如下举例说明，但不限制本发明的保护范围。

进行本实例说明之前，先对相关现有技术做简要介绍。参考图6，为根据现有技术的一种三层全连接网络的前向推理(inference)和反向训练(training)流程示意图。其中每个W代表一层网络权重(weight)，h代表该层网络的输入与权重的乘累加(MAC)结果，经过非线性激活函数f(activation)之后，得到网络的输出，也是下一层网络的输入。在反向训练时，会依次根据链式求导法则计算出权重的修正量Δ。网络整体运算过程如下：

前向inference过程：

h1＝f1(W₁h₀)；

h₂＝f₂(W₂h₁)；

h₃＝f₃(W₃h₂)；

式中，W_i表示第i层网络的权重矩阵，其中，i＝1,2,3，h_i表示第i层网络的输出，其作为第i+1层网络的输入，其中，i＝1,2,3，h₀表示整个多层神经网络的数据输入，f_i(·)表示第i层网络使用的激活函数。

反向training过程：

L＝L(h₃,z)；

式中，L表示训练网络所使用的目标损失函数(costfunction，lossfunction)，z表示有监督学习时的监督信号，e_i表示第i层网络的输出的导数(误差信号)，f_i′表示第i层网络使用的激活函数的导数，

表示第i层网络的权重矩阵的转置，

表示第i层网络的输出向量的转置，其中，i＝1,2,3，·表示点乘，对应元素相乘。

在分布式的NVM计算芯片中，每一层权重可以用一个或多个神经元计算核进行存储，在神经元计算核中完成MAC和非线性激活函数激活，得到最终输出。其中每个神经元计算核有多个神经元，神经元的基本模型公式为：

式中，Y_i表示当前神经元输出、X_i表示前端神经元输入、W_ji表示突触连接权重、b_i表示当前神经元偏置，函数f()表示神经元激活函数。

其中，常用的神经元激活函数主要包括但不限于以下几种：

ReLU函数：

Sigmoid函数：

tanh函数：

多个神经元共同组成一个计算核心，计算核心的本质就是完成矩阵向量乘操作，并进行一定的非线性激活。如图7所示，为根据现有技术的一种神经形态芯片中网络运算过程示意图。对于每个芯片又具有多个计算核心，计算核心之间以2Dmesh网络相互连接，通信则依靠一定的路由结构和算法来实现。

在一个实例中，利用本发明实施例的新型神经形态芯片架构进行全连接网络的在线学习。网络运算过程如图8所示，为根据本发明实施例一种新型神经形态芯片架构中网络运算过程的示意图。一方面将存储权重和一些配置信息的SRAM换成PCM，另一方面根据上述实施例进行一些适应性修改，使其能够支持在线学习。

则，根据本发明实施例的新型神经形态芯片架构进行全连接网络学习的模式如图9所示，为根据本发明实施例一种新型神经形态芯片架构进行全网络学习的示意图。每层全连接网络包括3个计算核心：

前向计算：图中1号曲线包围区域包括前向乘累加Wx，反向乘累加W^Te和激活函数f，其中，y＝Wx，存储W的转置形式W^T，便于反向计算；

导数计算：图中2号曲线包围区域包括Δ累计权重修改量，用于计算反向传播过程中链式求导产生的中间结果；

权重累计：图中3号曲线包围区域包括e·f′及激活函数导数f′，由于反向训练往往需要更高精度的权重累计过程，故单独使用一个计算核心进行权重Δ的累计过程，例如，Δ中的数值超过255，W对应点数值加1，这样在训练时W的位宽相当于扩展了8比特。

在训练过程中，网络会占用较多的神经元计算核心，但训练结束后，上述导数计算和权重累计的数据存储都可以直接重置，只保留前向inference计算，从而节省资源。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种新型神经形态芯片架构，其特征在于，包括多个嵌入式分布的分布式非易失性存储器，所述分布式非易失性存储器与所述芯片架构的多个神经元计算核心呈分布式对应连接；

其中，所述芯片架构还包括分别与每个所述神经元计算核心对应的易失性存储器，所述易失性存储器和所述非易失性存储器用于存储所述神经元计算核心不同运算阶段的数据。

2.根据权利要求1所述的新型神经形态芯片架构，其特征在于，一个所述分布式非易失性存储器嵌入式地分布在一个或者指定的多个所述神经元计算核心区域。

3.根据权利要求2所述的新型神经形态芯片架构，其特征在于，每个所述分布式非易失性存储器与之连接的所述神经元计算核心间具有独立的数据通道。

4.根据权利要求1所述的新型神经形态芯片架构，其特征在于，所述非易失性存储器用于存储所述神经元计算核心的相对稳定数据，所述易失性存储器用于存储所述神经元计算核心的相对动态数据。

5.根据权利要求4所述的新型神经形态芯片架构，其特征在于，所述非易失性存储器用于存储所述神经元计算核心的连接权重、网络连接方式、神经元激活函数和初始化信息中的一种或多种。

6.根据权利要求4所述的新型神经形态芯片架构，其特征在于，所述易失性存储器用于存储所述神经元计算核心的计算缓存和当前神经元状态中的一种或多种。

7.根据权利要求1或2所述的新型神经形态芯片架构，其特征在于，所述分布式非易失性存储器进一步具体为FLASH闪存、相变存储器PCM、铁电存储器FRAM、阻变存储器RRAM、磁存储MRAM、自旋存储STT-RAM或光存储。

8.根据权利要求3所述的新型神经形态芯片架构，其特征在于，一个所述神经元计算核心对应一个所述分布式非易失性存储器。

9.根据权利要求4所述的新型神经形态芯片架构，其特征在于，所述神经元计算核心进一步包括计算单元，所述计算单元用于，若检测到所述相对稳定数据和所述相对动态数据间发生相互转化，则将转化后的结果转存入对应的易失性存储器或者非易失性存储器。