CN111091183A

CN111091183A - 一种神经网络加速系统和方法

Info

Publication number: CN111091183A
Application number: CN201911304163.8A
Authority: CN
Inventors: 李远超; 蔡权雄; 牛昕宇
Original assignee: Shenzhen Corerain Technologies Co Ltd
Current assignee: Shenzhen Corerain Technologies Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-01
Anticipated expiration: 2039-12-17
Also published as: CN111091183B

Abstract

本发明实施例公开了一种神经网络加速系统和方法，所述系统包括：数据处理模块，用于将卷积神经网络计算的输入数据从浮点数转为定点数；特征图拆分模块，用于根据第一预设规则将输入数据拆分为多个计算特征图qd_j；第一计算模块，用于根据第二预设规则对每个计算特征图qd_j进行计算得到多个第一输出特征图qo_i；累加模块，用于依次对所有第一输出特征图qo_i进行累加得到第二输出特征图；第二计算模块，用于根据第三预设规则对所述第二输出特征图进行处理得到输出数据。通过将浮点数转化为定点数，使得卷积神经网络的计算在需要更少的逻辑资源的同时不影响计算的准确性，占用的存储资源也大幅减少，数据传输速度加快。

Description

一种神经网络加速系统和方法

技术领域

本发明实施例涉及神经网络技术，尤其涉及一种神经网络加速系统和方法。

背景技术

卷积神经网络在过去几年中取得显著发展，它目前是许多智能系统的基本工具。但是为了提高图像分类、图像识别等准确率，卷积神经网络的计算复杂度和对存储资源的消耗也在不断增加。因此，卷积神经网络加速已成为一个热门课题。

对于卷积神经网络的硬件实现，近年来已经提出了一批基于FPGA或ASIC的加速器。这些加速器的设计从不同的方面来对卷积神经网络进行优化，例如优化卷积神经网络的计算资源，优化数据的输出，优化计算资源和片下存储器的访问等待。

然而这些加速器的设计通常将卷积神经网络算法当成一个小黑盒，只优化了硬件结构，容易造成硬件加速后的卷积神经网络计算的准确率下降。

发明内容

有鉴于此，本发明实施例提供一种神经网络加速系统和方法，以减少神经网络计算需要使用的逻辑资源，提高数据传输速度。

第一方面，本发明实施例提供一种神经网络加速系统，包括：

数据处理模块，用于将卷积神经网络计算的输入数据从浮点数转为定点数；

特征图拆分模块，用于根据第一预设规则将输入数据拆分为多个计算特征图qd_j；

第一计算模块，用于根据第二预设规则对每个计算特征图qd_j进行计算得到多个第一输出特征图qo_i；

累加模块，用于依次对所有第一输出特征图qo_i进行累加得到第二输出特征图；

第二计算模块，用于根据第三预设规则对所述第二输出特征图进行处理得到输出数据。

进一步的，所述第一计算模块包括：

权值存储器，用于存储权值qw；

卷积计算单元，用于根据所述计算特征图qd_j和所述权值qw进行卷积计算得到第一输出特征图的第一部分

支路加法树单元，用于根据第四预设规则对将所述计算特征图qd_j进行计算得到第一输出特征图的第二部分

第一输出特征图计算单元，用于将所述第一输出特征图的第一部分

和所述第一输出特征图的第二部分

相减得到所述第一输出特征图qo_i。

进一步的，所述数据处理模块还用于将所述权值存储器内存储的权值qw转化为定点数。

进一步的，所述特征图拆分模块具体用于：

根据预设步长将输入数据拆分为多个包括3*3矩阵数据结构的计算特征图qd_j。

进一步的，所述第二计算模块包括：

偏置模块，用于将所述第二输出特征图加上预设偏置参数，得到输出偏置特征图；

量化模块，用于将所述输出偏置特征图与预设量化参数进行计算，得到输出数据。

进一步的，所述数据处理模块包括：

第一数据处理单元，用于将卷积神经网络计算的输入数据从浮点数转为带符号定点数；

第二数据处理单元，用于将带符号定点数转化为无符号定点数。

第二方面，本发明实施例提供一种神经网络加速方法，包括：

将卷积神经网络计算的输入数据从浮点数转为定点数；

根据第一预设规则将输入数据拆分为多个计算特征图qd_j；

根据第二预设规则对每个所述计算特征图qd_j进行计算得到多个第一输出特征图qo_i；

依次对所有第一输出特征图qo_i进行叠加得到第二输出特征图；根据第三预设规则对所述第二输出特征图进行处理得到输出数据。

进一步的，所述根据第二预设规则对每个所述计算特征图qd_j进行计算得到多个第一输出特征图qo_i包括：

获取所述计算特征图qd_j对应的权值qw；

根据所述计算特征图qd_j和所述权值qw进行卷积计算得到第一输出特征图的第一部分

根据第四预设规则对所述计算特征图qd_j进行计算得到第一输出特征图的第二部分

将所述第一输出特征图的第一部分

和所述第一输出特征图的第二部分

相减得到所述第一输出特征图qo_i。

进一步的，所述根据第三预设规则对所述第二输出特征图进行处理得到输出数据包括：

将所述第二输出特征图加上偏置参数，得到输出偏置特征图；

将所述输出偏置特征图与量化参数进行计算，得到输出数据。

进一步的，所述将卷积神经网络计算的输入数据从浮点数转为定点数包括：

将卷积神经网络计算的输入数据从浮点数转为带符号定点数；

将带符号定点数转化为无符号定点数。

本发明实施例通过数据处理模块，用于将卷积神经网络计算的输入数据从浮点数转为定点数；特征图拆分模块，用于根据第一预设规则将输入数据拆分为多个计算特征图qd_j；第一计算模块，用于根据第二预设规则对每个计算特征图qd_j进行计算得到多个第一输出特征图qo_i；累加模块，用于依次对所有第一输出特征图qo_i进行累加得到第二输出特征图；第二计算模块，用于根据第三预设规则对所述第二输出特征图进行处理得到输出数据。通过将浮点数转化为定点数，使得卷积神经网络的计算在需要更少的逻辑资源的同时不影响计算的准确性，占用的存储资源也大幅减少，数据传输速度加快。

附图说明

图1为本发明实施例一提供的一种神经网络加速系统的结构示意图；

图2为本发明实施例一中一个输入特征图的示意图；

图3为本发明实施例一中输入特征图拆分为计算特征图的示意图；

图4为本发明实施例二提供的一种神经网络加速系统的结构示意图；

图5为本发明实施例三提供的一种神经网络加速系统的结构示意图；

图6为本发明实施例四提供的一种神经网络加速系统的结构示意图；

图7为本发明实施例五提供的一种神经网络加速方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一计算模块为第二计算模块，且类似地，可将第二计算模块称为第一计算模块。第一计算模块和第二计算模块两者都是计算模块，但其不是同一计算模块。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

图1为本发明实施例一提供的一种神经网络加速系统的结构示意图，可适用于卷积神经网络的计算。如图1所示，本发明实施例一提供的一种神经网络加速系统包括：数据处理模块100、特征图拆分模块200、第一计算模块300、累加模块400和第二计算模块500。

数据处理模块100用于将卷积神经网络计算的输入数据从浮点数转为定点数；

特征图拆分模块200用于根据第一预设规则将输入数据拆分为多个计算特征图qd_j；

第一计算模块300用于根据第二预设规则对每个计算特征图qd_j进行计算得到多个第一输出特征图qo_i；

累加模块400用于依次对所有第一输出特征图qo_i进行累加得到第二输出特征图；

第二计算模块500用于根据第三预设规则对所述第二输出特征图进行处理得到输出数据。

具体的，在机器语言中的数据(实数)表示方法通常有两种：浮点数和定点数。定点数表达实数时，小数点位置是固定的，并且小数点在机器中是不表示出来的，而是事先约定在固定的位置，一旦确定小数点的位置，就不能改变，所以定点数表示的数据范围有限，相应的占用的内存空间(比特，bit)小。浮点数利用科学计数法来表达实数，即用一个尾数，一个基数，一个指数以及一个表示正负的符号来表达实数，例如，表示实数123.45的浮点数为1.2345x10²，其中1.2345为尾数，10为基数，2为指数。浮点数通过指数达到了浮动小数点的效果，从而可以灵活地表达大范围的数据，相应的占用的内存空间大。卷积神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术，其数据通常情况下都采用浮点数的表达形式。

数据处理模块100将卷积神经网络计算的输入数据从浮点数转为定点数，且转化后的定点数为无符号8bit整数，从而减少了卷积神经网络在进行计算时对硬件逻辑资源的消耗。

卷积神经网络的输入数据是由多个数据组成的多层三维矩阵数据结构，包括a行b列c层，在卷积神经网络的计算中，通常将这种多层三维矩阵数据结构称为输入特征图。如图2所示，表示一个包括6行6列3层的输入特征图，其大小记为6*6*3，总共有108个数据(为了便于描述，图2中的数据都以简单整数的形式表示)。

卷积神经网络在进行计算时，并不是直接对输入特征图的全部数据同时进行计算，而是每次取d行e列的数据进行卷积计算，从输入特征图取出的包括d行e列构成的二维矩阵数据结构则称为计算特征图。

特征图拆分模块200的具体工作过程为：用一个包括d行e列的取数框从输入特征图中每一层的左上角开始取数据，取一次则形成一个计算特征图，下一个计算特征图是在上一个计算特征图的基础上将取数框右移一定的列数形成的，当取数框右移到输入特征图的右边界时，则重新返回输入特征图的左边界并下移一行继续取数形成计算特征图，直到取完输入特征图每一层的最后一个数据。取数框右移的列数则称为步长，步长越小，则表示取数框右移的列数越少，卷积神经网络的计算精度越高，相应的计算量也越大。

特征图拆分模块200根据根据第一预设规则将输入数据拆分为多个计算特征图qd_j，也可以是，特征图拆分模块200根据预设步长将输入特征图拆分为多个包括3*3矩阵数据结构的计算特征图qd_j。示例性的，输入特征图大小为6*6*3，计算特征图大小为3*3，预设步长为1，则特征图拆分模块200可以将输入特征图的每一层都拆分为16个大小为3*3的计算特征图，则输入特征图总共可以拆分为48个计算特征图qd₁～qd₄₈，也可以记为

其中，c表示计算特征图所在的输入特征图的层数，显然，c的取值为1、2和3。如图3，示意了特征图拆分模块200将输入特征图的第一层拆分为16个大小为3*3的计算特征图

第一计算模块300进行计算时，首先对输入特征图第一层包括的所有计算特征图

进行计算，得到第一个第一输出特征图qo₁，然后对输入特征图第二层包括的所有计算特征图

进行计算，得到第二个第一输出特征图qo₂，再对输入特征图第三层包括的所有计算特征图

进行计算，得到第三个第一输出特征图qo₃，由此可以看出，输入特征图的一层经过第一计算模块300计算后可以得到一个第一输出特征图，第一输出特征图的个数与输入特征图的层数相等。

累加模块400依次对第一计算模块300输出的所有第一输出特征图qo_i进行累加得到第二输出特征图。累加模块400采用FIFO(First Input First Output，先进先出)缓存结构，先使用FIFO缓存第一个第一输出特征图qo₁的数据，当第一计算模块300输出第二个第一输出特征图qo₂的数据时，累加模块400先将第一个第一输出特征图qo₂与第二个第一输出特征图qo₁相加，再将qo₁+qo₂的结果缓存到FIFO中；当第一计算模块300输出第三个第一输出特征图qo₃的数据时，累加模块400先计算qo₁+qo₂+qo₃的结果，再将qo₁+qo₂+qo₃的结果缓存到FIFO中。

第二计算模块500对第二输出特征图中的数据进行偏置和量化处理，从而得到神经网络加速系统最终的输出数据，输出数据仍然是无符号8bit定点数。

本发明实施例一提供的一种神经网络加速系统通过数据处理模块，用于将卷积神经网络计算的输入数据从浮点数转为定点数；特征图拆分模块，用于根据第一预设规则将输入数据拆分为多个计算特征图qd_j；第一计算模块，用于根据第二预设规则对每个计算特征图qd_j进行计算得到多个第一输出特征图qo_i；累加模块，用于依次对所有第一输出特征图qo_i进行累加得到第二输出特征图；第二计算模块，用于根据第三预设规则对所述第二输出特征图进行处理得到输出数据。通过将浮点数转化为定点数，使得卷积神经网络的计算在需要更少的逻辑资源的同时不影响计算的准确性，占用的存储资源也大幅减少，数据传输速度加快。

实施例二

图4为本发明实施例二提供的一种神经网络加速系统的结构示意图，本实施例是对上述实施例中第一计算模块的进一步细化。如图4所示，本发明实施例二提供的一种神经网络加速系统包括：数据处理模块100、特征图拆分模块200、第一计算模块300、累加模块400和第二计算模块500，其中，第一计算模块300包括：权值存储器310、卷积计算单元320、支路加法树单元330和第一输出特征图计算单元340。

权值存储器310用于存储权值qw；

卷积计算单元320用于根据所述计算特征图qd_j和所述权值qw进行卷积计算得到第一输出特征图的第一部分

支路加法树单元330用于根据第四预设规则对将所述计算特征图qd_j进行计算得到第一输出特征图的第二部分

第一输出特征图计算单元340用于将所述第一输出特征图的第一部分

和所述第一输出特征图的第二部分

相减得到所述第一输出特征图qo_i。

具体的，卷积神经网络的卷积计算实际上是输入数据与权值数据之间的乘加运算，输入数据由输入特征图拆分成的多个计算特征图表示，相应的，权值数据在进行计算时也通过权值表示，权值是一个包括d行e列c层构成的三维矩阵数据结构，将权值记为qw，那么权值的一层(包括d行e列的二维矩阵数据结构)记为qw_c(其中，c表示包括d行e列的二维矩阵数据结构所在的层数)在进行计算时，输入计算图的一层数据与权值对应层的数据进行计算得到一层输出数据(即一个第一输出特征图的第一部分)。

在进行计算之前，权值存储器310内存储的权值qw仍然要经过数据处理模块100的处理，通过数据处理模块100将权值qw由浮点数转化为无符号8bit整数。

权值qw的大小决定计算特征图qd_j的大小，即，特征图拆分模块200是根据权值qw的大小和预设步长将输入数据拆分成了多个计算特征图qd_j。

卷积计算单元320对多个计算特征图qd_j和权值qw进行乘加计算，得到第一输出特征图的第一部分

如图3所示，以6*6*3的输入特征图中的第一层为例，权值qw的大小为3*3*3，预设步长为1，特征图拆分模块200将输入特征图的第一层拆分为16个3*3大小的计算特征图

每个计算特征图与权值qw的第一层qw₁进行乘加运算得到一个卷积输出数据，则卷积计算单元320对计算特征图

和权值qw的第一层qw₁进行乘加计算后得到一个4*4大小的卷积输出特征图，将这个卷积输出特征图称为第一个第一输出特征图的第一部分

支路加法树单元330对一个计算特征图中的所有数据累加然后乘以量化参数Z_w，得到一个支路输出数据，则对计算特征图

都进行计算得到一个4*4大小的支路输出特征图，将这个支路输出特征图称为第一个第一输出特征图的第二部分

第一输出特征图计算单元340将第一个第一输出特征图的第一部分

和第一个第一输出特征图的第二部分

相减得到第一个第一输出特征图qo₁。

同样的，卷积计算单元320对输入特征图的第二层拆分的计算特征图

和权值qw的第二层qw₂进行乘加计算得到第二个第一输出特征图的第一部分

支路加法树单元330对计算特征图

都进行计算得到第二个第一输出特征图的第二部分

第一输出特征图计算单元340将第二个第一输出特征图的第一部分

和第二个第一输出特征图的第二部分

相减得到第二个第一输出特征图qo₂。卷积计算单元320对输入特征图的第三层拆分的计算特征图

和权值qw的第三层qw₃进行乘加计算得到第三个第一输出特征图的第一部分

支路加法树单元330对计算特征图

都进行计算得到第三个第一输出特征图的第二部分

第一输出特征图计算单元340将第三个第一输出特征图的第一部分

和第三个第一输出特征图的第二部分

相减得到第三个第一输出特征图qo₃。

第一输出特征图计算单元340的输出数据(即第一输出特征图qo_i中的数据)可由式(2-1)表示。

其中，

表示第c个第一输出特征图中的第j个数据。Z_w为预设参数，N为第j个计算特征图qd_j的数据总数，

表示输入特征图第c层拆分的第j个计算特征图qd_j的第k个数据，

表示权值中第c层的第k个数据。在本申请中，计算特征图或权值大小为3*3，故N＝9。由于一层输入特征图中的一个计算特征图经过卷积计算单元320和支路加法树单元330的计算后得到第一输出特征图中的一个数据，所以第一输出特征图计算单元340的输出数据qo_j的数量与计算特征图qd_j的数量相同。

累加模块400依次对第一计算模块300输出的第一输出特征图qo₁～qo₃进行累加得到第二输出特征图。

累加模块400的输出数据(即第二输出特征图中的数据)可由式(2-2)表示。

其中，qe_j表示第二输出特征图中的第j个数据，

表示第c个第一输出特征图中的第j个数据，C表示第一输出特征图的总个数，本实施例中C＝3。

第二计算模块500对第二输出特征图中的数据进行偏置和量化处理，从而得到神经网络加速系统最终的输出数据。

本发明实施例二提供的神经网络加速系统通过卷积计算单元和支路加法树单元使第一计算模块的计算分为两个部分，最后通过第一输出特征图计算单元将卷积计算单元的输出结果和支路加法树单元的输出结果相加得到第一计算单元的最终输出结果，将第一计算模块分成了两个简单乘加计算模块的结合，简化计算过程，加快计算速度。

实施例三

图5为本发明实施例三提供的一种神经网络加速系统的结构示意图，本实施例是对上述实施例中第二计算模块的进一步细化。如图5所示，本发明实施例二提供的一种神经网络加速系统包括：数据处理模块100、特征图拆分模块200、第一计算模块300、累加模块400和第二计算模块500，其中，第一计算模块300包括：权值存储器310、卷积计算单元320、支路加法树单元330和第一输出特征图计算单元340；第二计算模块500包括：偏置模块510和量化模块520。

偏置模块510用于将所述第二输出特征图加上预设偏置参数，得到输出偏置特征图。

具体的，偏置模块510的输出数据(即输出偏置特征图中的数据)可由式(3-1)表示。

其中，qb_j表示输出偏置特征图中的第j个数据，qe_j表示第二输出特征图中的第j个数据，q_bias为预设偏置参数。

量化模块520用于将所述输出偏置特征图与预设量化参数进行计算，得到输出数据。最终输出数据仍然为无符号8bit整数。

具体的，量化模块520的输出数据(即最终输出数据)可由式(3-2)表示。

其中，Q_j表示第j个输出数据，也可以看成是对输出偏置特征图中的第j个数据进行量化后的输出数据，Z_o为第一预设量化参数，M为第二预设量化参数。

可选的，卷积神经网络通常包括多个卷积计算单元，即第一计算模块300通常包含多个卷积计算单元320，每个卷积计算单元320对应的权值不一定相同，故当卷积神经网络包含多个卷积计算单元320时，累加模块400输出多个第二输出特征图，每个第二输出特征图对应的预设偏置参数都不同，故偏置模块510的预设偏置参数应该根据第二输出特征图进行设置。

本发明实施例三通过偏置模块和量化模块完成第二输出特征图的后续计算，将仿射量化应用到神经网络加速系统中，降低了神经网络加速系统硬件结构优化后对计算准确性的影响。

实施例四

图6为本发明实施例四提供的一种神经网络加速系统的结构示意图，本实施例是对上述实施例中数据处理模块的进一步细化。如图6所示，本发明实施例四提供的一种神经网络加速系统包括：数据处理模块100、特征图拆分模块200、第一计算模块300、累加模块400和第二计算模块500，其中，第一计算模块300包括：权值存储器310、卷积计算单元320、支路加法树单元330和第一输出特征图计算单元340；第二计算模块500包括：偏置模块510和量化模块520；数据处理模块100包括：第一数据处理单元110和第二数据处理单元120。

第一数据处理单元110用于将卷积神经网络计算的输入数据从浮点数转为带符号定点数。

具体的，第一数据处理单元110根据式(4-1)将浮点数转为带符号定点数，

其中，round(x)表示对数据x的取值进行四舍五入，r为卷积神经网络的输入数据为浮点数时的数据，q_int为浮点数转化后的带符号定点数，Z为q_int的零点数据，即q_int＝0时，

S为转化参数，且S由式(4-2)计算

其中，n为转化精度，表示转化后的q_int的位数，本申请中n＝8。

第二数据处理单元120用于将带符号定点数转化为无符号定点数。

具体的，第二数据处理单元120根据式(4-3)将带符号定点数转化为无符号定点数。

q＝clamp(0,2ⁿ-1,q_int) (4-3)

其中，clamp函数的用法如式(4-4)所示。

本发明实施例四提供的一种神经网络加速系统通过第一数据处理单元将卷积神经网络的输入数据从浮点数转为带符号定点数，第二数据处理单元将带符号定点数转化为无符号定点数，使得神经网络加速系统进行计算的数据所占存储空间答复减小，同时降低了神经网络加速系统硬件逻辑资源的消耗。

实施例五

图7为本发明实施例五提供的一种神经网络加速方法的流程示意图，可适用于卷积神经网络的计算，该方法可由本发明任意实施例提供的一种神经网络加速系统实现，本发明实施例五中未详尽描述的内容可以参考本发明任意系统实施例中的描述。

如图7所示，本发明实施例五提供的一种神经网络加速方法包括：

S710、将卷积神经网络计算的输入数据从浮点数转为定点数。

具体的，在机器语言中的数据(实数)表示方法通常有两种：浮点数和定点数。定点数表达实数时，小数点位置是固定的，并且小数点在机器中是不表示出来的，而是事先约定在固定的位置，一旦确定小数点的位置，就不能改变，所以定点数表示的数据范围有限，相应的占用的内存空间(比特，bit)小。浮点数利用科学计数法来表达实数，即用一个尾数，一个基数，一个指数以及一个表示正负的符号来表达实数，例如，表示实数123.45的浮点数为1.2345x10²，其中1.2345为尾数，10为基数，2为指数。浮点数通过指数达到了浮动小数点的效果，从而可以灵活地表达大范围的数据，相应的占用的内存空间大。卷积神经网络是一种模拟人脑的卷积神经网络以期能够实现类人工智能的机器学习技术，其数据通常情况下都采用浮点数的表达形式。

将卷积神经网络计算的输入数据从浮点数转为定点数，且转化后的定点数为无符号8bit整数，从而减少了卷积神经网络在进行计算时对硬件逻辑资源的消耗。

进一步的，步骤S710包括S711～S711，具体地：

S711、将卷积神经网络计算的输入数据从浮点数转为带符号定点数；

S712、将带符号定点数转化为无符号定点数。

S720、根据第一预设规则将输入数据拆分为多个计算特征图qd_j。

具体的，输入数据表示成输入特征图的形式，根据第一预设规则将输入数据拆分为多个计算特征图qd_j包括：根据预设步长将输入特征图拆分为多个包括3*3矩阵数据结构的计算特征图qd_j。输入特征图是一个包括a行b列c层的三维矩阵数据结构，如图2所示，为一个6*6*3大小的输入特征图。计算特征图是包括d行e列二维矩阵数据结构，输入特征图的每一层都可以拆分为多个3*3大小的计算特征图。用一个包括d行e列的取数框从输入特征图中每一层的左上角开始取数据，取一次则形成一个计算特征图，下一个计算特征图是在上一个计算特征图的基础上将取数框右移一定的列数形成的，当取数框右移到输入特征图的右边界时，则重新返回输入特征图的坐边界并下移一行继续取数形成计算特征图，直到取完输入特征图每一层的最后一个数据。取数框右移的列数则称为步长，步长越小，则表示取数框右移的列数越少，卷积神经网络的计算精度越高，相应的计算量也越大。

示例性的，输入特征图大小为6*6*3，计算特征图大小为3*3，预设步长为1，则特征图拆分模块200可以将输入特征图的每一层都拆分为16个大小为3*3的计算特征图，则输入特征图总共可以拆分为48个计算特征图qd₁～qd₄₈，也可以记为

其中，c表示计算特征图所在的输入特征图的层数，显然，c的取值为1、2和3。如图3，示意了输入特征图的第一层拆分为16个大小为3*3的计算特征图

S730、根据第二预设规则对每个所述计算特征图qd_j进行计算得到多个第一输出特征图qo_i。

具体的，首先对输入特征图第一层包括的所有计算特征图

进行计算，得到第一层(或第一个)第一输出特征图qo₁，然后对输入特征图第二层包括的所有计算特征图

进行计算，得到第二层(或第二个)第一输出特征图qo₂，再对输入特征图第三层包括的所有计算特征图

进行计算，得到第三层(或第三个)第一输出特征图qo₃，由此可以看出，输入特征图的一层经过计算后可以得到一个第一输出特征图，第一输出特征图的个数与输入特征图的层数相等。

进一步的，该步骤S730包括S731～S734，具体地：

S731、获取所述计算特征图qd_j对应的权值qw；

S732、根据所述计算特征图qd_j和所述权值qw进行卷积计算得到第一输出特征图的第一部分

S733、根据第四预设规则对所述计算特征图qd_j进行计算得到第一输出特征图的第二部分

S734、将所述第一输出特征图的第一部分

和所述第一输出特征图的第二部分

相减得到所述第一输出特征图qo_i。

S740、依次对所有第一输出特征图qo_i进行叠加得到第二输出特征图。

具体的，先使用FIFO缓存第一个第一输出特征图qo₁的数据，当得到第二个第一输出特征图qo₂的数据时，先将第一个第一输出特征图qo₂与第二个第一输出特征图qo₁相加，再将qo₁+qo₂的结果缓存到FIFO中；当得到第三个第一输出特征图qo₃的数据时，计算qo₁+qo₂+qo₃的结果，再将qo₁+qo₂+qo₃的结果缓存到FIFO中。

S750、根据第三预设规则对所述第二输出特征图进行处理得到输出数据。

具体的，对第二输出特征图中的数据进行偏置和量化处理，从而得到神经网络加速系统最终的输出数据，输出数据仍然是无符号8bit定点数。

进一步的，该步骤S750包括S751～S752，具体地：

S751、将所述第二输出特征图加上偏置参数，得到输出偏置特征图；

S752、将所述输出偏置特征图与量化参数进行计算，得到输出数据。

本发明实施例五提供的一种神经网络加速方法通过将卷积神经网络计算的输入数据从浮点数转为定点数；根据第一预设规则将输入数据拆分为多个计算特征图qd_j；根据第二预设规则对每个所述计算特征图qd_j进行计算得到多个第一输出特征图qo_i；依次对所有第一输出特征图qo_i进行叠加得到第二输出特征图；根据第三预设规则对所述第二输出特征图进行处理得到输出数据。通过将浮点数转化为定点数，使得卷积神经网络的计算在需要更少的逻辑资源的同时不影响计算的准确性，占用的存储资源也大幅减少，数据传输速度加快。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。