CN107480782B

CN107480782B - 一种片上学习神经网络处理器

Info

Publication number: CN107480782B
Application number: CN201710691146.9A
Authority: CN
Inventors: 刘洋; 伍元聪; 王俊杰; 詹稀童; 钱堃; 于奇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2020-11-10
Anticipated expiration: 2037-08-14
Also published as: CN107480782A

Abstract

本发明公开了一种片上学习神经网络处理器包括数据接口模块、数据预处理模块、数据缓存区模块、神经元权值缓存区模块、随机初始化模块、神经运算单元模块、神经网络前向运算控制模块、激活函数模块、神经状态控制器模块、神经网络学习算法控制模块；神经状态控制器模块控制各单元模块协同工作进行神经网络学习与推理。本发明中的神经运算单元模块采用通用硬件加速运算设计，可编程控制神经网络运算类型及运算规模。设计中加入流水线技术，极大提高数据吞吐率与运算速度，并且重点优化神经运算单元的乘加单元，极大减小硬件面积。本发明对神经网络学习算法进行硬件映射，使得该神经网络处理器即能进行片上学习又能进行离线推理。

Description

一种片上学习神经网络处理器

技术领域

本发明涉及集成电路领域及人工智能领域，具体地说，特别涉及一种片上学习神经网络处理器。

背景技术

在机器学习和认知科学领域，人工神经网络(ANN)，简称神经网络或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。人工神经网络与生物神经网络的相似之处在于，它可以集体地、并行地计算函数的各个部分，而不需要描述每一个单元的特定任务。

在目前互联网大数据背景下，基于人工神经网络(ANN)的类脑计算在大数据处理、分析得到应用，人工智能取得了重大突破。Google的自动驾驶，百度的“DeepSpeech2”语音识别系统，阿里巴巴的阿里云“ET”以及最近打败柯洁的“Alpha Go”在人工智能领域上取得了令人瞩目的成果。

深度神经网络通过建立模型模拟人类大脑的神经连接结构，在处理图像、声音和文本等信号时，通过多个变换阶段分层对数据特征进行描述。伴随神经网络复杂度的不断提高，神经网络技术在实际应用过程中存在占用资源多、运算速度慢、能量消耗大等问题，因此该技术在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈。采用硬件加速替代传统软件计算的方法成为了提高神经网络计算效率的一种行之有效方式。

现有的神经网络硬件加速主要通过图形处理单元(GPU)或者现场可编程门阵列(FPGA)来实现。GPU作为底层平台，起到运算加速的作用，但是功耗、成本与面积是制约它的主要因素。相比之下，FPGA可编程芯片或者是人工神经网络专属芯片对于植入服务器以及编程环境、编程能力要求更高，还缺乏通用的潜力，不适合普及。

为了解决上述功耗、成本与面积等问题，本发明提出一种片上学习神经网络处理器专用集成电路(ASIC)，该芯片在同等的芯片面积下，相较于GPU或 FPGA降低了功耗和成本，并且提高了芯片的计算性能。该ASIC的实现使得低功耗低成本高性能的在线学习人工智能芯片成为可能。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种片上学习神经网络处理器。所述技术方案如下：

一方面，提供了一种片上学习神经网络处理器，包括：神经状态控制器模块、数据接口模块、神经网络前向运算控制模块、神经网络学习算法控制模块、神经运算单元模块、神经元权值缓存区模块、激活函数模块以及数据缓存区模块连接；

所述神经状态控制器模块分别与所述数据接口模块、神经元权值缓存区模块、神经网络前向运算控制模块、神经网络学习算法控制模块、激活函数模块、数据缓存区模块连接，所述神经状态控制器模块控制数据接口模块进行数据交互，并监控所述神经网络前向运算控制模块、神经网络学习算法控制模块的工作状态，同时产生当前的神经工作状态，并控制所述神经运算单元模块、神经网络前向运算控制模块、神经网络学习算法控制模块根据当前神经工作状态进行同步工作。

可选地，还包括数据预处理模块；

所述数据预处理模块将神经网络输入、输出数据进行预处理；

其中对神经网络输入数据可采用零均值化、归一化、中心化、白化的方法进行预处理；对神经网络输出数据可采用线性回归、逻辑回归、多项式回归的方法进行预处理。

可选地，所述神经运算单元模块根据系统配置的运算类型及运算规模对输入数据进行神经运算，可采用基于Booth算法设计的一种高速低功耗流水线乘法器构成一种二维运算阵列结构，可进行高速低功耗的神经网络卷积运算及矩阵乘累加运算，可通过编程配置神经运算类型及运算规模。

可选地，所述神经网络学习算法控制模块分别与所述神经运算单元模块、神经网络前向运算控制模块、神经状态控制器模块连接；

所述片上学习神经网络处理器通过将神经网络学习算法进行硬件映射，所述神经网络学习算法控制模块根据系统配置的算法进行控制神经网络进行学习；

所述神经网络学习算法控制模块采用误差反向传播算法；

所述误差反向传播算法采用可变步长学习，加入动态最优学习因子、动量因子及自适应学习率，并且对算法进行硬件映射，可编程选择训练算法。

可选地，所述神经网络前向运算控制模块分别与所述神经运算单元模块、神经网络学习算法控制模块、神经状态控制器模块连接；

所述神经网络前向运算控制模块通过数据总线将神经元权值缓存区、数据缓存区内的数据载入到神经运算单元模块进行神经元运算，并将神经运算单元的运算结果载入到激活函数模块进行神经元激活运算，神经元激活运算完成后将运算结果缓存入数据缓存区模块中；

所述神经网络前向运算与神经网络反向传播运算复用同一神经运算单元模块，且所述神经运算单元模块的运算类型及运算规模可以通过编程配置。

可选地，还包括：随机初始化模块；

所述随机初始化模块与所述神经元权值缓存区模块相连，所述随机初始化模块产生随机数据对神经元权值缓存区进行随机初始化；

所述随机初始化模块采用线性同余法LCG、梅森旋转法、线性反馈移位寄存器的方法实现。

可选地，所述神经元权值缓存区模块与所述数据接口模块、随机初始化模块、数据预处理模块连接，离线推理模式下所述神经元权值缓存区模块从数据接口模块载入神经元权值与偏置数据，片上学习模式下，所述神经元权值缓存区读取所述随机初始化模块输出的随机数据作为输入数据。

可选地，所述激活函数模块对神经运算结果进行非线性映射，采用数字电路方法来拟合神经网络运算中所需的激活函数；

所述数字电路方法由高效的组合逻辑电路实现，可由多输入与门、或门实现。

可选地，所述数据接口模块与所述神经状态控制器模块、数据缓存区模块、神经元权值缓存区模块连接，离线推理模式下所述数据接口模块负责将预测数据及神经网络配置参数载入数据缓存区中，将神经元权值与偏置数据载入至神经元权值缓存区中，片上学习模式下，所述数据接口模块负责将训练样本数据及神经网络配置参数载入到数据缓存区中。

可选地，所述数据缓存区模块与所述数据接口模块、数据预处理模块、激活函数模块连接，所述数据缓存区模块负责缓存从数据接口模块输入的数据及神经运算结果数据；

所述数据缓存区模块采用乒乓缓存设计，加入缓存数据预取技术。

本发明实施例提供的技术方案带来的有益效果是：

本发明提供的一种片上学习神经网络处理器，通过神经状态控制器模块控制各单元模块协同工作进行神经网络学习与推理。本发明中的神经运算单元模块采用通用硬件加速运算设计，可编程控制神经网络运算类型及运算规模。设计中加入流水线技术，极大提高数据吞吐率与运算速度，并且重点优化神经运算单元的乘加单元，极大减小硬件面积。本发明对神经网络学习算法进行硬件映射，使得该神经网络处理器即能进行片上学习(On-line learning)又能进行离线推理(Off-line inference)。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一的一种基于片上学习神经网络处理器模块示意图；

图2是本发明实施例二的神经网络训练流程图；

图3是本发明实施例二的三层Back-Propagation(BP)神经网络拓扑结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明提供了提供了一种片上学习神经网络处理器，参见图1，包括：神经状态控制器模块、数据接口模块、神经网络前向运算控制模块、神经网络学习算法控制模块、神经运算单元模块、神经元权值缓存区模块、激活函数模块以及数据缓存区模块连接；

可选地，还包括数据预处理模块；

具体地，所述数据预处理模块将神经网络输入、输出数据进行预处理，其中对神经网络输入数据可采用零均值化(Zero-Center)、归一化 (Normalization)、中心化(Centralization)、白化(PCA&Whitening)等方法进行预处理，对神经网络输出数据可采用线性回归(Linear Regression)、逻辑回归(Logistic Regression)、多项式回归(Polynomial Regression)等方法进行预处理。

所述神经网络学习算法控制模块采用误差反向传播算法；

具体地，通过将神经网络学习算法进行硬件映射，所述神经网络学习算法控制模块根据系统配置的算法进行控制神经网络进行学习，可采用典型的误差反向传播算法(Error Back-Propagation Algorithm，BP算法)，本发明对典型的 BP算法进行优化改进以提高网络训练收敛速度，如可采用可变步长学习，加入动态最优学习因子、动量因子，自适应学习率等来提高学习效率，也可采用随机梯度下降(Stochastic gradient descent，SGD)算法，基于动量(Momentum) 的SGD算法，Adagrad算法，Adadelta算法，RMSprop算法，小批量梯度下降 (Mini Batch Gradient Descent)算法，自适应时刻估计(Adaptive MomentEstimation，Adam)算法等来进行神经网络学习。

对所述神经网络学习算法控制模块加入创新型算法，如减少重复学习机制，神经元释放机制，局部稀疏连接机制，神经元跨层直连机制等。

可选地，还包括：随机初始化模块；

具体地，所述随机初始化模块产生随机数据对神经元权值缓存区进行随机初始化，可采用线性同余法LCG(Linear Congruential Generator)、梅森旋转法 (Mersennetwister)、线性反馈移位寄存器(LFSR)等方法实现。

具体地，所述激活函数模块对神经运算结果进行非线性映射，采用一种全新的数字电路方法(高效的组合逻辑电路实现，可由多输入与门、或门实现) 来拟合神经网络运算中所需的激活函数，也可采用查表法(look-up table)、分段线性逼近法、多项式近似法、有理近似法以及协调旋转数字计算机 (Coordinated Rotation Digital Computer，CORDIC)算法等来实现神经网络运算中所需的激活函数，例如Sigmoid函数、Tanh函数、Relu函数、Softmax函数等均可由所述方法来实现。

本实施例中，下面结合图1-3，以BP神经网络为模型，以神经网络逼近任意非线性函数为例给出本发明的一种片上学习神经网络处理器的具体实施例。

本实施例包括数据接口模块、数据预处理模块、数据缓存区模块、神经元权值缓存区模块、随机初始化模块、神经运算单元模块、神经网络前向运算控制模块、激活函数模块、神经状态控制器模块、神经网络学习算法控制模块；

数据接口模块，本实例中的数据接口模块采用串行外设接口(Serial PeripheralInterface，SPI)；

数据预处理模块，本实例中的数据预处理模块采用正则化算法；

数据缓存区模块，本实例中的数据缓存区模块采用的HHGrace.13u Single PortSRAM宏模块；

神经元权值缓存区模块，本实例中的神经元权值缓存区模块采用的是HHGrace.13u Dual Port SRAM宏模块；

随机初始化模块，本实例中的随机初始化模块采用线性反馈移位寄存器 (LFSR)来产生伪随机数；

神经运算单元模块，本实例中采用16位定点数(1位符号位、3位整数位、 12位小数位)来表示小数，神经运算单元模块由16个处理单元(PE)模块构成，每个PE模块由一个流水线BOOTH乘法器、一个32位加法器及控制逻辑构成，本实例中的神经运算单元模块可处理(n*m)维矩阵与(m*n)维矩阵的乘法运算(1≤n，m≤256)、(1*m)维向量与(1*m)维向量的点乘运算(1≤m≤256)、 (j*1)维向量与(1*k)维向量的乘法运算(1≤j，k≤256)，本实例中的神经运算单元由于加入流水线技术，可实现每个时钟周期得到一个运算结果；

神经网络前向运算控制模块，本实例中的神经网络前向运算控制模块由数据流控制模块与逻辑控制模块构成，数据流控制模块主要负责前向运算数据进入神经运算单元的调度，逻辑控制模块主要负责对于不同网络参数进行神经运算单元的配置；

激活函数模块，本实例中的激活函数模块由Sigmoid函数、Tanh函数、Relu函数、线性函数构成，可通过编程选择所需激活函数；

神经状态控制器模块，本实例中的神经状态控制器模块通过监控神经网络前向运算控制模块、神经网络学习算法控制模块的状态来控制产生新的神经状态，并且控制神经网络前向运算控制模块、神经网络学习算法控制模块根据当前的神经状态进行同步工作；

神经网络学习算法控制模块，本实例中的神经网络学习算法控制模块由数据流控制模块与逻辑控制模块构成，数据流控制模块主要负责反向传播数据进入神经运算单元的调度，逻辑控制模块主要负责对于不同网络参数进行神经运算单元的配置；

本实例采用三层BP神经网络模型的人工神经网络拓扑结构，包括由1个神经元组成的输入层I、由5个神经元组成的隐藏层H_i(i＝1，2，3，4，5)以及由1个神经元组成的输出层O，本实例中隐藏层神经元激活函数选择Sigmoid函数，输出层神经元激活函数选择线性函数，本实例中反向传播算法采用梯度下降算法并结合自适应学习率调整算法来提高网络的学习效率。

实施例二

本发明提供了一种基于片上学习神经网络处理器的工作分为两个阶段，参见图2，具体为：

第一阶段：神经网络的训练(学习)

1)数据准备及预处理

通过数据接口模块将训练样本数据载入到数据缓存区，通过随机初始化模块随机初始化神经元权值缓存区，数据准备完成后将数据缓存区、神经元权值缓存区内的数据载入到数据预处理模块进行预处理。

2)神经网络参数配置

将输入层神经元数量、隐藏层神经元数量、输出层神经元数量、隐藏层激活函数、输出层激活函数、学习率、误差期望值、学习算法等神经网络参数通过数据接口模块从芯片外部载入到数据缓存区，在神经网络参数配置状态时，将数据缓存区内的神经网络参数数据配置到神经网络相应位置。

3)神经网络前向运算

神经运算单元载入数据预处理模块的预处理后的训练样本数据及神经元权值与偏置数据，并选择对应的神经网络参数开始神经元运算，将神经运算单元的运算结果载入到激活函数模块并选择对应的激活函数进行神经元激活运算，最后将激活函数模块的运算结果缓存入数据缓存区内。

4)神经网络反向传播运算

计算输出层神经元的实际输出值与样本目标值的误差，通过反向传播算法计算出每个神经元所需调整的权值与偏差值，然后更新神经元权值缓存区内对应的神经元权值与偏置数据。

5)判断误差精度是否满足预设值

如果神经元运算的目标输出与实际目标值的误差小于预设的期望值时，停止训练并通过数据接口模块将神经元权值缓存区内的权值与偏置数据输出至芯片外部，否则继续进入神经网络前向运算状态。

第二阶段：神经网络的预测

1)数据准备及预处理

通过数据接口模块将预测数据及神经元权值与偏置数据分别载入到数据缓存区、神经元权值缓存区，数据准备完成后将数据缓存区、神经元权值缓存区内的数据载入到数据预处理模块进行预处理。

2)神经网络参数配置

将输入层神经元数量、隐藏层神经元数量、输出层神经元数量、隐藏层激活函数、输出层激活函数等神经网络参数通过数据接口模块从芯片外部载入到数据缓存区，在神经网络参数配置状态时，将数据缓存区内的神经网络参数数据配置到神经网络相应位置。

3)神经网络前向运算

4)神经网络运算结果输出

将数据缓存区内的推理结果数据通过数据接口模块输出至芯片外部。

具体地，本实施例提供了一种基于BP神经网络逼近任意非线性函数的工作分为两个阶段，参见图3，具体为：

第一阶段：神经网络的训练(学习)

1)生成训练样本

MATLAB产生-1到1的随机数作为输入样本值并将其定点化为16位定点数，将输入样本值通过需要逼近的目标函数得到输入目标值并将其定点化为16 位定点数。

2)数据准备及预处理

通过SPI数据接口模块将训练样本数据载入到数据缓存区，通过LFSR模块随机初始化神经元权值缓存区，数据准备完成后将数据缓存区、神经元权值缓存区内的数据载入到数据预处理模块进行预处理。

3)神经网络参数配置

通过SPI数据接口将神经网络参数载入到数据缓存区，然后在神经网络参数配置状态将数据缓存区内的输入层神经元数量、隐藏层神经元数量、输出层神经元数量、隐藏层激活函数、输出层激活函数、学习率、误差期望值、学习算法配置到网络对应位置。

4)神经网络前向运算

将数据缓存区域内的样本数据及神经元权值缓存区内的权值、偏置数据载入到神经运算单元，对于隐藏层某一个神经元h_l(l＝1，2，3，4，5)，输出可表示为 h_l＝W_1lI_l+b_1l，对于输出层神经元o，输出可表示为

(W_1l为输入层与隐藏层之间神经元权值，b_1l为输入层与隐藏层之间神经元偏置，V_i1为隐藏层与输出层之间神经元权值，b₂₁为隐藏层与输出层之间神经元偏置；将神经运算单元的结果h_l(l＝1，2，3，4，5)载入到激活函数模块，激活函数选择Sigmoid函数.

h_l＝f(W_1lI_l+b_1l)；将神经运算单元的结果o载入到激活函数模块，激活函数选择线性函数，

最后将激活函数模块的运算结果缓存入数据缓存区内。

5)神经网络反向传播运算

根据梯度下降算法，对于隐藏层与输出层之间的权值(V_i1)与偏置(b₂₁)：

误差(error)，改变量(δ，θ)

V_i1＝V_i1-δh_i；b₂₁＝b₂₁-δ；

对于隐藏层与输入层之间的权值(W_1l)与偏置(b_1l)调整如下：

θ＝V_i1·δ·f′(x)；W_1l＝W_1l-θ·I_l；b_1l＝b_1l-θ

本发明中改进传统的梯度下降算法，加入自适应调节学习率(η₁η₂)算法；

对于隐藏层与输出层之间的权值(V_i1)与偏置(b₂₁)调整如下：

error＝(target-o)

V_i1＝V_i1-η₁δh_i

b₂₁＝b₂₁-η₂δ

对于隐藏层与输入层之间的权值(W_1l)与偏置(b₁l)调整如下：

θ＝V_i1·δ·f′(x)

W_1l＝W_1l-η₁θ·I_l

b_1l＝b_1l-η₂θ

6)判断误差精度是否满足预设值

如果神经元运算的目标输出与实际目标值的误差(error)小于预设的期望值时，停止训练并通过数据接口模块将神经元权值缓存区内的权值与偏置数据输出至芯片外部，否则继续进入神经网络前向运算状态。

第二阶段：神经网络的预测

1)生成预测数据

MATLAB产生-1到1的随机数作为预测数据并将其定点化为16位定点数。

2)数据准备及预处理

通过SPI数据接口模块将预测数据及神经元权值与偏置数据分别载入到数据缓存区、神经元权值缓存区，数据准备完成后将数据缓存区、神经元权值缓存区内的数据载入到数据预处理模块进行预处理。

3)神经网络参数配置

通过SPI数据接口将神经网络参数载入到数据缓存区，然后在神经网络参数配置状态将数据缓存区内的输入层神经元数量、隐藏层神经元数量、输出层神经元数量、隐藏层激活函数、输出层激活函数配置到网络对应位置。

4)神经网络前向运算

将数据缓存区域内的预测数据及神经元权值缓存区内的权值、偏置数据载入到神经运算单元，对于隐藏层某一个神经元h_l(l＝1，2，3，4，5)，输出可表示为 h_l＝W_1lI_l+b_1l，对于输出层神经元o，输出可表示为

最后将激活函数模块的运算结果缓存入数据缓存区内。

5)神经网络运算结果输出

本实施例可以用于逼近任意非线性函数，数据预处理算法不局限于去均值、归一化、方差归一化的算法，可由其他数据处理算法实现，数据预处理算法不局限于去均值、归一化、方差归一化的算法，可由其他数据处理算法实现，神经网络反向传播算法可以由不同的神经网络学习算法实现，神经网络前馈运算可以由不同的神经网络拓扑结构实现；

本发明实施例提供的技术方案带来的有益效果是：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种片上学习神经网络处理器，其特征在于，包括：神经状态控制器模块、数据接口模块、神经网络前向运算控制模块、神经网络学习算法控制模块、神经运算单元模块、神经元权值缓存区模块、激活函数模块、数据缓存区模块连接、随机初始化模块以及数据预处理模块；

所述神经状态控制器模块分别与所述数据接口模块、神经元权值缓存区模块、神经网络前向运算控制模块、神经网络学习算法控制模块、激活函数模块、数据缓存区模块连接，所述神经状态控制器模块控制数据接口模块进行数据交互，并监控所述神经网络前向运算控制模块、神经网络学习算法控制模块的工作状态，同时产生当前的神经工作状态，并控制所述神经运算单元模块、神经网络前向运算控制模块、神经网络学习算法控制模块根据当前神经工作状态进行同步工作；

所述神经运算单元模块根据系统配置的运算类型及运算规模对输入数据进行神经运算，可采用基于Booth算法设计的一种高速低功耗流水线乘法器构成一种二维运算阵列结构，可进行高速低功耗的神经网络卷积运算及矩阵乘累加运算，可通过编程配置神经运算类型及运算规模；

所述神经网络学习算法控制模块采用误差反向传播算法；

所述误差反向传播算法采用可变步长学习，加入动态最优学习因子、动量因子及自适应学习率，并且对算法进行硬件映射，可编程选择训练算法；

其中对神经网络输入数据可采用零均值化、归一化、中心化、白化的方法进行预处理；对神经网络输出数据可采用线性回归、逻辑回归、多项式回归的方法进行预处理；

2.如权利要求1所述的片上学习神经网络处理器，其特征在于，所述神经网络前向运算控制模块分别与所述神经运算单元模块、神经网络学习算法控制模块、神经状态控制器模块连接；

3.如权利要求2所述的片上学习神经网络处理器，其特征在于，所述神经元权值缓存区模块与所述数据接口模块、随机初始化模块、数据预处理模块连接，离线推理模式下所述神经元权值缓存区模块从数据接口模块载入神经元权值与偏置数据，片上学习模式下，所述神经元权值缓存区读取所述随机初始化模块输出的随机数据作为输入数据。

4.如权利要求3所述的片上学习神经网络处理器，其特征在于，所述激活函数模块对神经运算结果进行非线性映射，采用数字电路方法来拟合神经网络运算中所需的激活函数；

5.如权利要求4所述的片上学习神经网络处理器，其特征在于，所述数据接口模块与所述神经状态控制器模块、数据缓存区模块、神经元权值缓存区模块连接，离线推理模式下所述数据接口模块负责将预测数据及神经网络配置参数载入数据缓存区中，将神经元权值与偏置数据载入至神经元权值缓存区中，片上学习模式下，所述数据接口模块负责将训练样本数据及神经网络配置参数载入到数据缓存区中。

6.如权利要求5所述的片上学习神经网络处理器，其特征在于，所述数据缓存区模块与所述数据接口模块、数据预处理模块、激活函数模块连接，所述数据缓存区模块负责缓存从数据接口模块输入的数据及神经运算结果数据；