CN108205704B

CN108205704B - 一种神经网络芯片

Info

Publication number: CN108205704B
Application number: CN201710890838.6A
Authority: CN
Inventors: 李清正; 毛宁元; 刘文志
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2021-10-29
Anticipated expiration: 2037-09-27
Also published as: CN108205704A

Abstract

本发明提供一种神经网络芯片，用于高新的实现卷积神经网络运算。包括：深度学习运算模块，数据采集模块，数据输出模块，数据存储模块，处理器；所述深度学习运算模块用于对输入数据进行深度学习运算，所述深度学习运算包括并行的乘法运算以及加法树的累积运行；所述数据采集模块用于对输入数据进行数据采集；所述数据输出模块用于输出所述神经网络芯片运算的运算结果。所述处理器用于调度所述深度学习运算模块，所述数据采集模块和数据输出模块间的数据交互，并处理非深度学习的运算。

Description

一种神经网络芯片

技术领域

本发明涉及硬件芯片技术领域，具体涉及一种神经网络芯片。

背景技术

深度学习是近年来人工智能领域的一个热点分支，经过模拟人脑的神经元处理机制，来分析和解释数据信息，例如：图像，声音，文本。

深度学习的提出使得人工神经网络重新成为机器学习领域的重要研究方向，卷积神经网络(CNN，Convolutional Neural Network)算法近年来广泛应用于图像处理，模式识别等领域，它具有结构简单，适应性强，鲁棒性高等特点。

卷积神经网络由大量的节点(或称“神经元”，或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重(weight)，这相当于卷积神经网络的记忆。由于卷积神经网络的复杂性，因此卷积神经网络的数据运算是业界的一个难题。

现有的卷积神经网络有以下两种芯片架构实现方式：

1、基于图像处理器(GPU，Graphics Processing Unit)架构的设计，芯片架构如图1所示。

2、基于现场可编程阵列(FPGA，Field－Programmable Gate Array)架构的设计，芯片架构如图2所示。

无论GPU架构，还是FPGA架构，在运行深度学习计算时，由于需要用通用的计算模块去处理深度学习的不同运算逻辑，由于通用性导致很多运算逻辑不能高效的完成。

发明内容

本发明提供一种神经网络芯片，用于高新的实现深度神经网络运算。

本发明提供的神经网络芯片包括：

深度学习运算模块101，数据采集模块102，数据输出模块103，数据存储模块104，处理器105；

所述深度学习运算模块101用于对输入数据进行深度学习运算；所述深度学习运算包括并行的乘法运算以及加法树的累积运行。

所述数据采集模块102用于对输入数据进行数据采集；所述数据输出模块103用于输出所述神经网络芯片运算的运算结果；

所述处理器105用于调度调度所述深度学习运算模块，所述数据采集模块和数据输出模块间的数据交互，并处理非深度学习的运算；；

所述数据存储模块104分别与所述深度学习运算模块101，所述数据采集模块102和数据输出模块103相连接。

可选的，所述数据存储模块104包括：片外存储器1041，存储器控制器1042；

所述存储器控制器1042分别与所述深度学习运算模块101，所述数据采集模块102和数据输出模块103相连接；

所述存储器控制器1042与片外存储器1041相连接，所述存储器控制器1042用于控制所述片外存储器1041的数据读写。

可选的，所述深度学习运算模块101包括：卷积运算单元1011，池化运算单元1012，全连接运算单元1013和计算调度单元1014；

所述计算调度单元1014分别与所述卷积运算单元1011，所述池化运算单元1012和所述全连接运算单元1013相连接；

所述计算调度单元1014用于根据输入数据的运算需求调度所述卷积运算单元1011，所述池化运算单元1012和所述全连接运算单元1013进行运算。

可选的，所述深度学习运算模块101还包括：总线仲裁器1014；

所述总线仲裁器1014分别与所述卷积运算单元1011，所述池化运算单元1012和所述全连接运算单元1013相连接；

所述总线仲裁器1014与所述存储器控制器1042相连接，用于数据总线到所述存储器控制器1042的总线仲裁。

可选的，所述深度学习运算模块101还包括：配置单元1015；

所述配置单元1015分别与所述所述计算调度单元1014以及所述处理器105相连接；

所述配置单元1015用于存取所述深度学习运算模块101的配置信息。

可选的，所示神经网络芯片还包括：外设控制器106；

所述外设控制器106与所述处理器105相连接，用于对外部接入的设备进行控制。

可选的，所示神经网络芯片还包括：锁相环107和片外晶振108；

所述锁相环107分别与所述片外晶振108和所述所述处理器105相连接；

所述锁相环107用于为所述神经网络芯片中的各个模块提供时钟信号。

由上可见，本发明方案中的目标跟踪系统包含独立的深度学习运算模块，通过独立的深度学习运算模块来根据运算需求灵活的调度处理器的计算资源，使得在处理器的计算资源有限的前提下，优化配置了计算资源，大大提升传统架构的芯片的计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为GPU芯片架构的示意图；

图2为FPGA芯片架构的示意图；

图3为本发明实施例提供的神经网络芯片的结构示意图；

图4为本发明实施例提供的深度学习运算模块的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实例提供一种神经网络芯片。如图3所示，本发明实施例中的目标跟踪系统包括：

所述深度学习运算模块101用于对输入数据进行深度学习运算，具体的，深度学习运算包括卷积神经网络运算；所述深度学习运算包括并行的乘法运算以及加法树的累积运行。

所述处理器105分别与所述深度学习运算模块101，所述数据采集模块102和数据输出模块103相连接；所述处理器105用于调度所述深度学习运算模块，所述数据采集模块和数据输出模块间的数据交互，并处理非深度学习的运算；；

进一步的，所述数据存储模块104包括：片外存储器1041，存储器控制器1042；

所述存储器控制器1042分别与所述深度学习运算模块101，所述数据采集模块102和数据输出模块103相连接；存储控制器(memory controller)提供了访问外部设备所需的信号，是一种通过总线形式来访问扩展的设备。

进一步的，神经网络芯片还包括：外设控制器106、锁相环107和片外晶振108；

所述锁相环107分别与所述片外晶振108和所述所述处理器105相连接；所述锁相环107用于为所述神经网络芯片中的各个模块提供时钟信号。

锁相环(phase locked loop)可以锁定相位的环路，是一种典型的反馈控制电路，利用外部输入的参考信号控制环路内部振荡信号的频率和相位，实现输出信号频率对输入信号频率的自动跟踪，一般用于闭环跟踪电路。

在现有技术中，通用性的GPU需要实现所有运算逻辑的实现，如指数运算，浮点数运算；通用的FPGA需要实现一个通用的乘法模块，在深度神经网络的运算中效率不高。而本发明实施例中，在硬件结构上，专门为卷积运算设计,并根据卷积运算的结构，设计了并行的乘法操作，加法树累加，以及内部的缓存单元，使得深度神经网络的运算效率大大的提高。由上可见，本发明实施例的目标跟踪系统包含独立的深度学习运算模块，通过独立的深度学习运算模块来根据运算需求灵活的调度处理器的计算资源，使得在处理器的计算资源有限的前提下，优化配置了计算资源，大大提升传统架构的芯片的计算效率。

实施例二

在实施例一的硬件基础上，本发明实施例对神经网络芯片中深度学习运算模块进行介绍，请参阅图4，具体为：

所述深度学习运算模块101包括：卷积运算单元1011，池化运算单元1012，全连接运算单元1013和计算调度单元1014；

所述卷积运算单元1011用于对输入数据进行卷积层的运算；

所述池化运算单元1012用于对输入数据进行池化层的运算；

所述全连接运算单元1013用于对输入数据进行全连接层的运算；

所述计算调度单元1014用于根据输入数据的运算需求调度所述卷积运算单元1011，所述池化运算单元1012和所述全连接运算单元1013进行运算。具体的，所述输入数据的运算需求包括：卷积运算、池化运算和全连接运算等。示例性的，计算调度单元1014的调度逻辑根据运行的神经网络结构，决定用哪一个运算。如网络结构是卷积1->池化1->卷积2->池化2->全连接1，调度模块就会先启动卷积运算和池化运算，完成2层的卷积和池化运算后，启动全连接运算1。

进一步的，所述深度学习运算模块101还包括：总线仲裁器1015和配置单元1016。

所述总线仲裁器1015分别与所述卷积运算单元1011，所述池化运算单元1012和所述全连接运算单元1013相连接；

所述总线仲裁器1015与所述存储器控制器1042相连接，用于数据总线到所述存储器控制器1042的总线仲裁。

所述配置单元1016分别与所述所述计算调度单元1014以及所述处理器105相连接；

所述配置单元1016用于存取所述深度学习运算模块101的配置信息。

本发明实施例中深度学习运算模块架构，可以灵活的调度不同的计算单元进行计算处理，对于模块化的计算单元可以容易的添加到当前的深度学习运算模块架构内部，并通过总线仲裁共享外部的数据，进一步提高了运算的效率。

下面以一个实例对神经网络芯片的运算调度进行介绍：

首先，将待运算的输入数据和权值存储在片外存储器1041中，输入数据包括卷积运算和全连接运算的数据。

其次，处理器105对配置单元1016进行配置，配置信息包括卷积运算输入数据的存储地址，偏移地址，卷积输入数据的大小，卷积核的大小，全连接运算的存储地址，偏移地址，输入数据大小，权值数据大小等。

再次，通过配置单元1016启动计算调度单元1014，从片外存储器1041中读取卷积运算的输入数据和权值，并将输出结果写片外存储器1041。

最后，计算调度单元1014调度全连接运算单元1013，并将卷积运算的结果从片外存储器1041中读取出来，经过全连接运算单元1013之后，将输出结果写回片外存储器1041中。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种的描述，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种神经网络芯片，其特征在于，包括：

深度学习运算模块，数据采集模块，数据输出模块，数据存储模块，处理器；

所述深度学习运算模块用于对输入数据深度学习运算，所述深度学习运算包括并行的乘法运算以及加法树的累积运行；

所述数据采集模块用于对输入数据进行数据采集；所述数据输出模块用于输出所述神经网络芯片运算的运算结果；

所述处理器用于调度所述深度学习运算模块，所述数据采集模块和数据输出模块间的数据交互，并处理非深度学习的运算；

所述数据存储模块分别与所述深度学习运算模块，所述数据采集模块和数据输出模块相连接；

所述深度学习运算模块包括：卷积运算单元、池化运算单元、全连接运算单元和计算调度单元；所述卷积运算单元用于对输入数据进行卷积层的运算；所述池化运算单元用于对输入数据进行池化层的运算；所述全连接运算单元用于对输入数据进行全连接层的运算；

所述计算调度单元分别与所述卷积运算单元、所述池化运算单元和所述全连接运算单元相连接；

所述计算调度单元用于根据输入数据的运算需求调度所述卷积运算单元、所述池化运算单元和所述全连接运算单元进行运算；所述卷积运算单元、所述池化运算单元和所述全连接运算单元的调度顺序由所述计算调度单元根据神经网络结构确定。

2.根据权利要求1所述的神经网络芯片，其特征在于，所述数据存储模块包括：片外存储器，存储器控制器；

所述存储器控制器分别与所述深度学习运算模块，所述数据采集模块和数据输出模块相连接；

所述存储器控制器与片外存储器相连接，所述存储器控制器用于控制所述片外存储器的数据读写。

3.根据权利要求2所述的神经网络芯片，其特征在于，所述深度学习运算模块还包括：总线仲裁器；

所述总线仲裁器分别与所述卷积运算单元，所述池化运算单元和所述全连接运算单元相连接；

所述总线仲裁器与所述存储器控制器相连接，用于数据总线到所述存储器控制器的总线仲裁。

4.根据权利要求1所述的神经网络芯片，其特征在于，所述深度学习运算模块还包括：配置单元；

所述配置单元分别与所述计算调度单元以及所述处理器相连接；

所述配置单元用于存取所述深度学习运算模块的配置信息。

5.根据权利要求1所述的神经网络芯片，其特征在于，所示神经网络芯片还包括：外设控制器；

所述外设控制器与所述处理器相连接，用于对外部接入的设备进行控制。

6.根据权利要求1所述的神经网络芯片，其特征在于，所示神经网络芯片还包括：锁相环和片外晶振；

所述锁相环分别与所述片外晶振和所述处理器相连接；

所述锁相环用于为所述神经网络芯片中的各个模块提供时钟信号。