CN110334799A

CN110334799A - 基于存算一体的神经网络推理与训练加速器及其运行方法

Info

Publication number: CN110334799A
Application number: CN201910627611.1A
Authority: CN
Inventors: 胡绍刚; 刘夏恺; 黄知达; 刘洋; 于奇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-15
Anticipated expiration: 2039-07-12
Also published as: CN110334799B

Abstract

基于存算一体的神经网络推理与训练加速器及其运行方法，利用接口模块接收控制指令和运算数据；通过全局控制模块根据控制指令将接口模块的运算数据分类并存入缓存模块，同时控制其余模块工作；使用存算一体存储器进行神经网络的推理和训练并存储神经网络的运算结果，使用推理控制器执行神经网络推理阶段的前向传播并产生对应指令，训练控制器执行神经网络训练阶段的权值更新并产生对应指令；存储器控制模块将缓存模块的运算数据、推理控制器的指令和训练控制器的指令送入存算一体存储器中并读取存算一体存储器的运算结果。本发明利用存算一体存储器实现神经网络的运算和存储，大大减少了神经网络系统中运算单元的数量，从而减少资源占用和能耗。

Description

基于存算一体的神经网络推理与训练加速器及其运行方法

技术领域

本发明属于神经形态硬件技术领域，涉及一种基于存算一体的神经网络推理与训练加速器及其运行方法。

背景技术

目前，包括神经形态处理器在内的计算平台的主流架构是冯诺依曼架构，冯诺依曼架构的计算和存储单元相互独立，计算单元根据指令从存储器中读取数据，在计算单元中完成计算后再存回内存。存储和计算单元之间的独立使得在进行频繁的数据传输时产生了大量功耗，在进行频繁的数据传输时数据传输速度会受到总线带宽的限制，制约了计算吞吐量，也增大了片上资源占用。在处理大数据过程中，由于数据量极大，处理数据时频繁访问硬盘这些外存会降低运算速度。随着微电子技术的发展，处理器性能的进步速度逐渐快于内存性能，内存性能的制约已成为计算机性能的一大瓶颈。

因此希望能突破冯诺依曼架构的瓶颈，把计算合并到存储器中去，使存储器不仅是一个存储器，同时也具备计算能力，使计算不需要在独立的计算单元中执行，而是在存储器中直接进行。这样一来在存储和读取数据的同时就完成了运算，实现了存算一体，大大减少了计算过程中的数据传递的时间和功耗，增大了计算吞吐量，同时节省去了大量原本用于计算单元的片上资源。

目前的研究主要集中于存算一体存储器自身的结构设计，缺乏对相应外围系统的研究，如何将存算一体存储器应用在SOC(片上系统)中是当下亟待解决的问题。另外存算一体存储器结构和操作方式，包括并行读写、基本运算等，均有别于传统存储器，传统的系统结构无法充分发挥存算一体存储器的优势，因此需要针对存算一体存储器的特性设计相应的能够将其充分运用的外围系统。

目前的神经形态处理器系统使用的存储器均为传统存储器，制约了计算吞吐量，也增大了片上资源占用。通过引入存算一体存储器并设计围绕存算一体存储器的新神经形态处理器系统架构，可以有效提高神经网络的计算吞吐量、减少处理器的资源占用、缩小处理器面积、提高处理器计算效率、降低运行功耗。然而目前还没有基于存算一体结构的神经形态处理器，如何围绕存算一体存储器进行神经网络推理与训练加速器的设计是突破冯诺依曼架构瓶颈的重要因素。

发明内容

针对目前没有基于存算一体结构进行神经网络处理的不足之处，本发明提出了一种基于存算一体的神经网络推理与训练加速器，及其对应的运行方法，该架构在神经形态处理器架构中引入存算一体存储器，并针对存算一体存储器的特性设计了对应的神经网络推理与训练加速器，充分利用存算一体存储器，将计算功能和存储功能结合在一起，使神经网络运算可以在存算一体存储器中完成，从而有效提高了计算吞吐量、减少了系统的资源消耗、减小了系统面积、提高了系统计算效率、降低了运行功耗。

本发明的技术方案为：

基于存算一体的神经网络推理与训练加速器，包括：

接口模块，用于接收外部输入的控制指令和运算数据，所述运算数据包括神经网络的输入、神经网络的参数和神经网络的目标值；

缓存模块，用于缓存所述接口模块接收的所述运算数据；

全局控制模块，用于根据所述接口模块接收的所述控制指令将所述接口模块的运算数据分类并存入所述缓存模块；

存算一体存储器，用于进行神经网络的推理和训练并存储神经网络的运算结果；

推理控制器，用于执行神经网络推理阶段的前向传播并产生推理阶段的指令；

训练控制器，用于执行神经网络训练阶段的权值更新并产生训练阶段的指令；

存储器控制模块，用于将缓存模块的运算数据、推理控制器产生的推理阶段的指令和训练控制器产生的训练阶段的指令送入所述存算一体存储器中，以及读取所述存算一体存储器的运算结果；

所述全局控制模块还用于根据所述接口模块接收的所述控制指令控制所述推理控制器、训练控制器和存储器控制模块工作。

具体的，缓存模块包括至少一组网络寄存器组，每组所述网络寄存器组用于存储一层神经网络的运算数据；所述网络寄存器组包括至少一组神经元寄存器组，每组所述神经元寄存器组用于存储一个神经元的运算数据；所述神经元寄存器组包括至少两行寄存器，所述神经元寄存器存储的神经元运算数据包括神经元的输入和权值。

具体的，所述存算一体存储器包括存储单元阵列和外围电路，所述存储单元阵列为多个存储单元构成的阵列，所述存储单元阵列的类型包括SRAM阵列和忆阻器交叉阵列。

具体的，所述存储单元阵列包括至少一行，一行对应一个地址；所述存储单元阵列的一行中包括至少一个所述存储单元，所述存储单元包括存储模块和读取模块，所述存储模块用于存储神经元的对应输入，所述读取模块用于存储神经元的对应权值。

针对本发明提出的基于存算一体的神经网络推理与训练加速器，本发明还提出了对应的运行方法，包括如下步骤：

步骤1、输入时钟信号作为所述基于存算一体的神经网络推理与训练加速器的主时钟；

步骤2、全局复位，将所述基于存算一体的神经网络推理与训练加速器中所有模块的状态初始化；

步骤3、启动所述接口模块从外部接收所述控制指令和运算数据并传输到所述全局控制模块；

步骤4、所述全局控制模块把来自所述接口模块的运算数据分类并存入缓存模块，开始进行神经网络的推理阶段；

步骤5、所述全局控制模块控制所述推理控制器执行神经网络的前向传播过程，所述推理控制器根据所使用的神经网络模型产生推理阶段的指令，指令包括推理阶段每个神经元的对应存储地址和运算模式；

步骤6、所述存储器控制模块控制所述推理控制器把推理阶段每个神经元的对应存储地址和运算模式写入所述存算一体存储器的每个对应存储单元中，并根据每个神经元的对应存储地址控制所述缓存模块把神经网络一层中每个神经元所用的推理数据写入所述存算一体存储器的对应存储单元中，其中推理数据包括神经元的输入和参数；

步骤7、所述存算一体存储器根据推理阶段每个神经元的运算模式对存入每个存储单元的推理数据进行运算并将运算结果存在当前存储单元中；

步骤8、运算完毕后，所述推理控制器控制所述存储器控制模块从所述存算一体存储器中读出神经网络当前层每一个地址的数据，读出时每个地址中每个单元存储的数据累加后得到每一个神经元的运算结果，作为相邻的下一层神经网络中对应神经元的输入；

步骤9、判断神经网络的每一层是否已全部完成推理运算，是则跳转步骤10，否则跳转步骤5；

步骤10、进入神经网络的训练阶段；

步骤11、所述训练控制器控制权值更新过程，根据所使用的训练方式产生训练阶段的指令，指令包括训练阶段每个神经元对应的存储地址和运算模式；

步骤12、所述存储器控制模块控制所述训练控制器把训练阶段每个神经元对应的存储地址和运算模式写入所述存算一体存储器的每个存储单元中，并根据每个神经元对应的存储地址控制所述缓存模块把神经网络一层中每个神经元所用的训练数据写入所述存算一体存储器的对应存储单元中，所述训练数据包括神经网络的对应目标值；

步骤13、所述存算一体存储器根据训练阶段每个神经元的运算模式对存入每个存储单元的训练数据进行运算并将运算结果存在当前存储单元中；

步骤14、运算完毕后，所述训练控制器控制所述存储器控制模块从所述存算一体存储器中读出神经网络当前层每一个存储单元的数据，得到当前层每一个神经元参数的更新结果，作为前一层神经网络训练的输入；

步骤15、判断神经网络的每一层是否已全部完成训练，是则跳转步骤16，否则跳转步骤 11；

步骤16、所述推理控制器和训练控制器交替反复运行，直到外部输入的控制指令表现为停止信号，保存训练结果，结束所述基于存算一体的神经网络推理与训练加速器的运行。

具体的，所述步骤5中所使用的神经网络包括多层感知器、卷积神经网络、和循环神经网络。

具体的，所述步骤11中所使用的训练方式包括误差反向传播算法、快速传播算法和列文伯格-马夸尔特算法。

本发明的有益效果为：本发明通过采用存算一体结构，把数据的存储和运算合并，令本发明中的存算一体存储器同时具备数据存储和运算功能，能够在存算一体存储器中同时实现神经网络运算和存储运算结果；并提出了一种围绕存算一体存储器进行神经网络推理与训练加速器的运行方法。本发明提出的架构相比于传统的冯诺依曼架构，能够有效增大数据吞吐量、减少系统的资源消耗、缩小系统面积、提高系统计算效率、降低运行功耗。

附图说明

为了更清楚地说明本发明中的技术方案，下面将以MLP网络为例，激活函数采用RELU 函数，对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(a)是本发明提出的基于存算一体的神经网络推理与训练加速器在实施例中采用的存算一体存储器的一种结构示意图，图1(b)是图1(a)中忆阻器交叉阵列的结构示意图。

图2是本发明提出的基于存算一体的神经网络推理与训练加速器在实施例中采用的存算一体存储器的存储单元示意图。

图3是本发明提出的基于存算一体的神经网络推理与训练加速器在实施例中采用的存算一体存储器的存储单元阵列和运算过程示意图。

图4是本发明提出的基于存算一体的神经网络推理与训练加速器的顶层结构示意图。

图5是本发明提出的基于存算一体的神经网络推理与训练加速器在实施例中的缓存模块结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图，以MLP(多层感知器) 网络和BP算法(误差反向传播算法)为例，采用RELU函数作为激活函数，通过具体实施例对本发明进一步地详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提出了一种基于存算一体的神经网络推理与训练加速器及其运行方法，该架构在现有的神经形态处理器架构中引入存算一体存储器，从而有效减少处理器的资源消耗、缩小处理器面积、提高处理器计算效率、降低运行功耗。

如图4所示是本发明提出的一种基于存算一体的神经网络推理与训练加速器的顶层结构示意图，是基于分段复用和参数量化共享提出的一种大规模神经形态处理器，包括：

至少一个推理控制器401，用于执行神经网络的前向传播并产生推理阶段的相应指令，推理所用神经网络包括MLP(多层感知器)，CNN(卷积神经网络)，RNN(循环神经网络)等。

至少一个训练控制器402，用于执行神经网络的权值更新并产生训练阶段的相应指令，训练所用算法包括BP算法(误差反向传播算法)，快速传播算法，LM算法(列文伯格-马夸尔特算法)等。

推理控制器401和训练控制器402中不包含乘法模块、加法模块等用于神经网络基本运算的算数逻辑单元，与传统的包含算数逻辑单元的推理控制器和训练控制器不同，本发明将运算转移到存算一体存储器408中，实现存储与运算都在存算一体存储器408中进行。

至少一个接口模块403，用于接收外部输入的控制指令和运算数据，如本实施例中与上位机407通信，接受来自上位机407的控制指令和运算数据，运算数据包括神经网络输入、参数、神经网络目标值等，根据需要实现的功能还可以包括其他的运算数据。推理数据和训练数据属于运算数据，推理数据包括神经网络的输入数据和参数，训练数据包括神经网络的目标值，其他数据可根据要实现的功能而添加。

至少一个缓存模块404，用于缓存接口模块403接收的运算数据，能够缓存至少一层网络的神经元运算所需的数据。如图5是所示本实施例中使用的缓存模块的结构示意图，如图 5，500是一个缓存模块的结构示意图，其中包含N个网络寄存器组501，分别为Group 1至 Group N，其中N大于等于1，一个网络寄存器组501能够缓存一层网络的神经元的运算数据，因此缓存模块500能够缓存至少一层网络的神经元的运算数据。每个网络寄存器组501包含M个神经元对应的神经元寄存器组502，分别为神经元1至神经元M，其中M大于等于1，每个神经元寄存器组502用于缓存一个神经元的数据，因此一个神经元寄存器组501能缓存一层网络的M个神经元的数据。每次运行时，来自上位机的运算数据先存到缓存模块里，计算时处理当前缓存的运算数据，下一次计算时把原来缓存的运算数据舍弃掉再存入新的运算数据。每个神经元寄存器组502包含P行寄存器，分别为Line 1至Line P，从第一行开始依次用于缓存该神经元的输入、权值、各种参数等，其中P大于等于2，即每个神经元寄存器组502至少能够用于缓存该神经元运算所用的输入数据和权值，根据系统所用的算法类型，可适当增加行数以存储更多用于运算的参数。

至少一个全局控制模块405，用于控制系统整体运行，并把通过接口模块输入的数据送入系统内其他模块。如全局控制模块405根据接口模块接收的控制指令将接口模块的运算数据分类并存入缓存模块中对应的寄存器中，或根据接口模块接收的控制指令控制推理控制器、训练控制器和存储器控制模块的工作。

至少一个存储器控制模块406，用于控制存算一体存储器408，将来自其他模块的数据存入所述存算一体存储器，包括将缓存模块的运算数据、推理控制器产生的推理阶段的指令和训练控制器产生的训练阶段的指令送入存算一体存储器中，并读取存算一体存储器的运算结果，从而将系统中的神经网络相关的基本运算转移至存算一体存储器408中。

上位机407，通过接口模块403对系统传输控制指令和运算数据。

至少一个存算一体存储器408，系统通过存储器控制模块406与存算一体存储器408通信，系统中的神经网络相关的数据存储和基本运算可在存算一体存储器中实现，存算一体存储器408进行神经网络的推理和训练并存储神经网络的运算结果，能够同时用于存储和运算，实现存算一体。

针对本发明提出的基于存算一体的神经网络推理与训练加速器，还提出了对应的运行方法，包括如下步骤：

步骤1，时钟输入，为神经网络推理与训练加速器提供一个主时钟；

步骤2，全局复位，将基于存算一体的神经网络推理与训练加速器中所有模块的状态初始化；

步骤3，启动接口模块，从上位机接收控制指令和运算数据传输到全局控制模块，运算数据包括推理数据和训练数据；

步骤4，全局控制模块把来自接口模块的运算数据分类并存入缓存模块的对应寄存器组中，开始进行神经网络的推理阶段；

步骤5，全局控制模块控制推理控制器执行神经网络的前向传播过程，推理控制器根据所使用的神经网络模型产生推理阶段的指令，推理阶段的指令包括推理阶段每个神经元的对应存储地址和运算模式；

步骤6、存储器控制模块控制推理控制器把推理阶段的指令包括推理阶段每个神经元的对应存储地址和运算模式写入存算一体存储器的每个对应存储单元中，并根据每个神经元的对应存储地址控制缓存模块把神经网络一层中每个神经元所用的推理数据写入存算一体存储器的对应存储单元中，其中推理数据包括神经元的输入和参数，运算模式包括加、减、乘三种基本运算；

步骤7、存算一体存储器根据推理阶段每个神经元的运算模式在内部对存入每个存储单元的推理数据进行运算，每个存储单元的运算结果将自动存在当前存储单元中；

步骤8、运算完毕后，推理控制器控制存储器控制模块从存算一体存储器中读出神经网络当前层每一个地址的数据，读出时每个地址中每个单元存储的数据累加后得到每一个神经元的运算结果，作为相邻的下一层神经网络中对应神经元的输入；

步骤10、进入神经网络的训练阶段；

步骤11、训练控制器控制权值更新过程，根据所使用的训练方式产生训练阶段的指令，训练阶段的指令包括训练阶段每个神经元对应的存储地址和运算模式；

步骤12、存储器控制模块控制训练控制器把训练阶段每个神经元对应的存储地址和运算模式写入存算一体存储器的每个存储单元中，并根据每个神经元对应的存储地址控制缓存模块把神经网络一层中每个神经元所用的训练数据写入存算一体存储器的对应存储单元中，训练数据包括神经网络的对应目标值；

步骤13、存算一体存储器根据训练阶段每个神经元的运算模式在内部对存入每个存储单元的训练数据进行运算，每个存储单元的运算结果将自动存在该存储单元中；

步骤14、运算完毕后，训练控制器控制存储器控制模块从存算一体存储器中读出神经网络当前层每一个存储单元的数据，得到当前层每一个神经元参数的更新结果，作为前一层神经网络训练的输入；

步骤16、推理控制器和训练控制器交替反复运行，直到上位机发出停止信号，保存训练结果，结束基于存算一体的神经网络推理与训练加速器的运行。

下面结合附图进行说明，图1(a)为本实施例中采用的存算一体存储器的结构示意图，存算一体存储器包括存储单元阵列100和外围电路102，存储单元阵列100包括若干个存储单元101构成阵列分布；外围电路102包括行译码器、预充电单元、读出放大器、多路复用器、输出缓冲器等模块。存储单元阵列100的类型包括SRAM、忆阻器交叉阵列(包括阻变存储器RRAM、相变存储器PCRAM、自旋存储器STT-RAM)等。

图1(b)为图1(a)中忆阻器交叉阵列的结构示意图，忆阻器交叉阵列可以为RRAM、PCRAM、STT-RAM等多种类型的存储器阵列。通过垂直交叉阵列可以将大量的忆阻器平行的放置在一起，形成忆阻器矩阵，将忆阻器用于数据存储和并行计算；如图1(b)中103为忆阻器模型，104为由忆阻器构成的忆阻器交叉阵列；交叉阵列交叉处单元除忆阻器之外，还可以设置其他器件，如电容、晶体管、可变电阻等，也可像忆阻器一样形成阵列，用于数据存储或者用于交叉阵列神经形态硬件中，105为由忆阻器和晶体管构成的忆阻器交叉阵列。

图2为本实施例中采用的存算一体存储器中单个存储单元的结构示意图，即图1中的存储单元101。以存算一体SRAM为例，存算一体SRAM的单个存储单元200和传统6T存储器存储单元(由6个MOS管构成)不同，存算一体SRAM的每个存储单元200中包含8个 MOS管。其中，存储模块201可以采用传统的6T SRAM单元，Q为存储数据，可存储数据“0”或“1”；读取模块202的运算单元采用单管乘法单元结构，其中MOS管203的衬底电压Vi可调；当读使能RWL为高时，MOS管203导通，存储单元从输出端RBL输出电流I，再通过外围电路102把输出电流I转化为数字信号输出。

存储单元200的具体工作过程为：在存储模块201存储的值为‘1’时，MOS管203导通，可以输出电流；根据MOS管的衬底偏置效应，根据MOS管203的衬底电压Vi的不同， RBL可输出大小不同的电流；根据这一特性，若设定1pA的电流代表值为‘单位1’，则可根据神经网络中权值的大小调整每个存储单元中MOS管203的衬底电压Vi，从而输出大小为单位1、单位2、单位3、单位4等的电流。实际应用中，存储器外围电路根据从本发明提出的神经网络推理与训练加速器输入的权值，把读取模块202中的衬底电压Vi调节为不同电流对应的电压值，即可把权值存入每个存储单元的读取模块202中，例如系统输入权值2，存储器外围电路把读取模块202中的衬底电压Vi调节为单位2大小的电流对应的电压值，即为把权值2存入了读取模块202。存储单元中的存储模块201所存数值即为神经网络输入，存储模块201所存的神经网络输入和读取模块202所存的权值可以随时通过本发明提出的神经网络推理与训练加速器进行控制和改写。

图3是实施例中采用的存算一体存储器中存储单元阵列和推理阶段的运算过程示意图，如图以存算一体SRAM和MLP网络为例说明存算一体存储器在系统中的基本运算过程。该存算一体SRAM的存储单元组成了阵列，共Q行，Q大于等于1，每一行为一个地址，即地址1到地址Q，不同地址间的运算可以并行执行。执行运算时，以一个使用RELU激活函数的4输入神经元300为例，实现运算Iout＝In0×W0+In1×W1+In2×W2+In3×W3。如图 3中301(地址1)即为该神经元在存算一体SRAM中对应的存储地址，本实施例中该存储地址包括4个存储单元302，也可以设置其他个数的存储单元，每一行包括至少一个存储单元，每个存储单元包含一个存储模块和一个读取模块，存储模块用于存储神经元的对应输入，结构如图2中的201；读取模块用于存储神经元的对应权值，结构如图2中的202；同一地址中的每个存储单元的输出互连成输出总线303。以实现输入数据(1,0,1,0)与权值(1,2,4,8)的点向量积为例，先通过如图2方法从外部分别向地址1的读取模块0、读取模块1、读取模块 2、读取模块3写入权值W0＝1、W1＝2、W2＝4、W3＝8，然后从外部分别向地址1的存储模块0、存储模块1、存储模块2、存储模块3写入输入数据In0＝1、In1＝0、In2＝1、In3＝0；4 个存储单元接收推理控制器或训练控制器产生的运算模式控制信号“乘”，则每个存储单元中的存储模块所存输入数据和读取模块中所存权值相乘，得到输出I0＝1，I1＝0，I2＝4，I3＝0，即(1、0、4、0)；4个存储单元接收推理控制器或训练控制器产生的运算模式控制信号“加”，则每个存储单元的输出通过输出总线303一并输出，得到累加结果Iout＝I0+I1+I2+I3＝5， Iout通过存储器外围电路转化为数字信号Out＝5输出。如图3所示，同理可在地址2中实现输入数据(1,1,1,1)与权值(1,4,3,0)的点向量积，得到Iout＝I0+I1+I2+I3＝8；在地址Q 中实现输入数据(0,0,1,1)与权值(8,4,2,1)的点向量积，得到Iout＝I0+I1+I2+I3＝3。

以MLP网络的训练为例，先执行前向传播过程；启动接口模块403，从上位机407接收包括推理数据和训练数据的运算数据传输到全局控制模块405；全局控制模块405把来自接口模块403的运算数据分类并存入缓存模块404的对应寄存器组中，开始推理阶段；推理控制器401控制前向传播过程，根据前向传播算法(Forward Propagation)，产生推理阶段每个神经元的对应存储地址和运算模式；存储器控制模块406控制推理控制器401把推理阶段每个神经元的对应存储地址和运算模式写入存算一体存储器408，存储器控制模块406还根据推理控制器401产生的每个神经元的对应存储地址控制缓存模块404把神经网络一层中每个神经元所用的推理数据写入存算一体存储器408；存算一体存储器408根据运算模式信号在内部对存入每个存储单元的推理数据进行运算，每个存储单元的运算结果将自动存在当前存储单元中；运算完毕后，推理控制器401控制存储器控制模块406从存算一体存储器408中读出该层每一个神经元对应地址的数据，读出时每个地址的每个单元存储的数据可一并累加，得到每一个神经元的运算结果，作为相邻的下一层神经元的输入；判断神经网络的每一层是否已全部完成运算，是则结束前向传播，开始进行权值更新，否则继续进行前向传播过程。神经网络的前向传播过程完成后开始进行权值更新，推理控制器挂起退出工作，训练控制器402控制权值更新过程，根据反向传播算法(Back Propagation)，产生训练阶段每个神经元对应的存储地址和运算模式；存储器控制模块406控制训练控制器402把训练阶段每个神经元对应的存储地址和运算模式写入存算一体存储器408，存储器控制模块406还根据训练控制器402产生的每个神经元对应的存储地址控制缓存模块404把输出目标值(即训练阶段的训练数据)写入存算一体存储器408的输出层结果对应的存储单元(即图3中地址Q地址中的存储单元)；存算一体存储器408根据运算模式信号在内部对求得输出目标值和输出层结果的差值，作为输出层误差，每个存储单元的运算结果将自动存在该存储单元中；把相邻的前一层神经网络的每一个神经元的权值写入存算一体存储器408中输出层误差所存地址，同时输入运算模式信号，在存储单元内部得到权值和输出层误差乘积，作为输出层相邻的前一层网络的误差并储存在存储器408中；该层误差运算并存储完成后，以该层误差和上一层相邻网络的神经元的权值运算上一层网络的误差，以此类推，依次计算每一层网络的误差，直到输入层为止，每一层网络的误差均存储在存储器408相应地址；依次读出每一层网络的输出，再存入存储器408中对应的每一层的输出所存地址，同时输入运算模式信号，得到每一层网络的误差和结果的乘积并存入存储单元中，这就是每一层网络的神经元的更新后的权值；得到更新后的权值后，训练控制器402挂起，推理控制器401开始进行新一轮的前向传播，如此反复，不断交替进行前向传播和反向传播，直到上位机407传来停止信号；系统接收到停止信号后，保存神经元权值的更新结果，结束运行，等待来自上位机407发出新的指令。

本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其他各种具体变形和组合，这些变形和组合仍然在本发明的保护范围之内。

Claims

1.基于存算一体的神经网络推理与训练加速器，其特征在于，包括：

缓存模块，用于缓存所述接口模块接收的所述运算数据；

2.根据权利要求1所述的基于存算一体的神经网络推理与训练加速器，其特征在于，缓存模块包括至少一组网络寄存器组，每组所述网络寄存器组用于存储一层神经网络的运算数据；所述网络寄存器组包括至少一组神经元寄存器组，每组所述神经元寄存器组用于存储一个神经元的运算数据；所述神经元寄存器组包括至少两行寄存器，所述神经元寄存器存储的神经元运算数据包括神经元的输入和权值。

3.根据权利要求1或2所述的基于存算一体的神经网络推理与训练加速器，其特征在于，所述存算一体存储器包括存储单元阵列和外围电路，所述存储单元阵列为多个存储单元构成的阵列，所述存储单元阵列的类型包括SRAM阵列和忆阻器交叉阵列。

4.根据权利要求3所述的基于存算一体的神经网络推理与训练加速器，其特征在于，所述存储单元阵列包括至少一行，一行对应一个地址；所述存储单元阵列的一行中包括至少一个所述存储单元，所述存储单元包括存储模块和读取模块，所述存储模块用于存储神经元的对应输入，所述读取模块用于存储神经元的对应权值。

5.一种如权利要求1、2或4所述的基于存算一体的神经网络推理与训练加速器的运行方法，其特征在于，包括如下步骤：

步骤10、进入神经网络的训练阶段；

步骤15、判断神经网络的每一层是否已全部完成训练，是则跳转步骤16，否则跳转步骤11；

6.根据权利要求5所述的基于存算一体的神经网络推理与训练加速器的运行方法，其特征在于，所述步骤5中所使用的神经网络包括多层感知器、卷积神经网络、和循环神经网络。

7.根据权利要求5所述的基于存算一体的神经网络推理与训练加速器的运行方法，其特征在于，所述步骤11中所使用的训练方式包括误差反向传播算法、快速传播算法和列文伯格-马夸尔特算法。