CN106066783A

CN106066783A - 基于幂次权重量化的神经网络前向运算硬件结构

Info

Publication number: CN106066783A
Application number: CN201610388694.XA
Authority: CN
Inventors: 汪玉; 唐天琪; 费旭东; 杨华中
Original assignee: Tsinghua University; Huawei Technologies Co Ltd
Current assignee: Tsinghua University; Huawei Technologies Co Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2016-11-02

Abstract

本发明提出一种基于幂次权重量化的神经网络前向运算硬件结构，包括：输入缓存模块，输入缓存模块用于缓存从全局存储器中搬运到片上的输入数据和神经网络幂次权重，其中，神经网络幂次权重包括卷积核和全连接矩阵；计算模块，计算模块用于进行基于幂次权重量化的卷积和全连接矩阵向量乘运算；输出缓存模块，输出缓存模块用于缓存计算模块得到的卷积或全连接矩阵向量乘的运算结果；以及控制模块，控制模块用于对输入缓存模块、运算模块和输出缓存模块进行数据搬运和运算资源调度。本发明在有效降低神经网络的存储量的同时，可以有效地降低神经网络运算开销，能够显著提升了神经网络计算系统在终端设备上的应用空间。

Description

基于幂次权重量化的神经网络前向运算硬件结构

技术领域

本发明涉及计算机及电子信息技术领域，特别涉及一种基于幂次权重量化的神经网络前向运算硬件结构。

背景技术

随着深度神经网络规模(存储量达到百MB量级)和计算量(单次前向运行达10GFPLOS量级)的不断增大，现有的智能终端设备(如手机)已无法支持大规模神经网络的复杂应用，因而如何有效降低深度神经网络应用的存储量和计算量变得十分重要。通过权重量化的方式，或将权重转化为定点数，或建立量化权重码本，可以有效压缩模型，降低神经网络的存储量。因而，如何设计有效的量化方法，进而针对该量化方法设计高效的硬件结构，是一个非常关键的问题。

定点数量化的方法，是一种线性的权重量化方法。该方法通过将浮点数转换为定点数的方式，在保证神经网络识别准确率的前提下，可以一定程度减低神经网络权重的比特数，进而降低神经网络的所需存储量。然而，这种方法压缩比较为有限，一般仅能将32bit浮点数压缩到4bit-8bit定点数；另外，配合定点数权重的量化方法，需要设计定点数乘法器，其运算开销依然很高。

目前的非线性权重量化方法，大多通过建立码本的方法，在保证神经网络准确率的情况下，可将32bit浮点数权重编码为2bit-4bit的码本。尽管这种方法可通过降低编码长度的方法大幅降低存储量，然而计算时需要将低比特数的编码重新解码为高比特数的浮点数，因此仍然需要采用浮点数乘法器，其运算开销依然很高；另外，配合低比特编码解码为高比特浮点数的操作，需要额外设计解码器。

尽管目前的神经网络权重的量化方法，可以有效降低网络权重的存储量，然而在降低神经网络的运算开销方面并没有展现出较为可观的优势，甚至解码器的额外引入增加了神经网络的运算复杂度。

发明内容

本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于幂次权重量化的神经网络前向运算硬件结构，在有效降低神经网络的存储量的同时，可以有效地降低神经网络运算开销，能够显著提升了神经网络计算系统在终端设备上的应用空间。

为了实现上述目的，本发明的实施例提出了一种基于幂次权重量化的神经网络前向运算硬件结构，包括：输入缓存模块，所述输入缓存模块用于缓存从全局存储器中搬运到片上的输入数据和神经网络幂次权重，其中，神经网络幂次权重包括卷积核和全连接矩阵；计算模块，所述计算模块用于进行基于幂次权重量化的卷积和全连接矩阵向量乘运算；输出缓存模块，所述输出缓存模块用于缓存所述计算模块得到的卷积或全连接矩阵向量乘的运算结果；以及控制模块，所述控制模块用于对所述输入缓存模块、运算模块和输出缓存模块进行数据搬运和运算资源调度。

根据本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构，在有效降低神经网络的存储量的同时，可以有效地降低神经网络运算开销。该硬件机构采用基于位移器的乘法运算单元，可有效地减少计算资源开销，简化运算过程，显著提升了神经网络计算系统在终端设备上的应用空间。以8bit定点数乘法器为例，本发明可节省62％左右的存储单元，45％左右的运算单元，显著提升了神经网络计算系统在终端设备上的应用空间。

另外，根据本发明上述实施例的基于幂次权重量化的神经网络前向运算硬件结构还可以具有如下附加的技术特征：

在一些示例中，所述输入缓存模块包括：输入数据缓存单元，所述输入数据缓存单元用于存储所述输入数据；幂次权重缓存单元，所述幂次权重缓存单元用于存储所述幂次权重。

在一些示例中，所述输入数据缓存单元用于按照一般浮点数、定点数或动态范围定点数的方式对所述输入数据进行存储。

在一些示例中，所述幂次权重缓存单元用于按照预设的幂次编码方式对所述神经网络幂次权重进行存储。

在一些示例中，所述计算模块包括：乘法单元，所述乘法单元用于进行单个输入数据和单个神经网络幂次权重的乘法运算，以得到卷积或全连接矩阵向量乘的中间结果；加法单元，所述加法单元用于将所述中间结果进行累加运算，以得到卷积或全连接矩阵向量乘的运算结果；控制接口，所述控制接口用于接收所述控制模块发送的指令；数据接口，所述数据接口用于存取所述输入数据和神经网络幂次权重；寄存器堆，所述寄存器堆用于存储所述中间结果。

在一些示例中，其中，所述乘法单元用于将所述输入数据的符号位与神经网络幂次权重的符号位进行比较，并在所述输入数据的符号位与神经网络幂次权重的符号位不同时将所述输入数据按位取反再加1或在所述输入数据的符号位与神经网络幂次权重的符号位相同时将所述输入数据保持，以得到完成符号运算的中间结果，并将所述完成符号运算的中间结果送入位移器，以根据神经网络幂次权重的幂次权重位进行左移或右移，以得到所述卷积或全连接矩阵向量乘的中间结果，并将所述中间结果发送至所述加法单元，以使所述加法单元根据所述中间结果得到卷积或全连接矩阵向量乘的运算结果。

在一些示例中，所述乘法单元以位移器为基本单元构成。

在一些示例中，所述控制模块用于：在计算开始时，将所述输入数据和神经网络幂次权重从所述全局存储器中搬移至所述输入缓存模块中，以供所述计算模块使用，并在计算结束时，将所述卷积或全连接矩阵向量乘的运算结果从所述输出缓存模块中搬移至所述全局存储器中，以作为输出结果。

在一些示例中，所述输入数据的位宽为固定位宽。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于幂次权重量预设的幂次编码方式化的神经网络前向运算硬件结构的结构框图；

图2是本发明一个实施例的基于幂次权重量化的神经网络前向运算硬件结构的电路结构图；以及

图3是本发明一个实施例的预设的幂次编码方式示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

以下结合附图描述根据本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构。

图1是根据本发明一个实施例的基于幂次权重量化的神经网络前向运算硬件结构的结构框图。图2是根据本发明一个实施例的基于幂次权重量化的神经网络前向运算硬件结构的电路结构图。如图1所示，并结合图2，该基于幂次权重量化的神经网络前向运算硬件结构100，包括：输入缓存模块110、计算模块120、输出缓存模块130和控制模块140。

其中，输入缓存模块110用于缓存从全局存储器中搬运到片上(硬件计算单元)的待参与运算的输入数据和神经网络幂次权重，其中，神经网络幂次权重包括卷积核和全连接矩阵。

在本发明的一个实施例中，如图2所示，所述输入缓存模块包括：输入数据缓存单元111和幂次权重缓存单元112。

其中，输入数据缓存单元111用于存储输入数据。具体地，输入数据缓存单元111用于按照一般浮点数、定点数或动态范围定点数的方式对输入数据进行存储。幂次权重缓存单元112用于存储幂次权重。具体地，幂次权重缓存单元112用于按照预设的幂次编码方式存储幂次权重。其中，输入数据的位宽为固定位宽。

作为具体地示例，结合图3所示，例如，输入缓存模块110将2路位宽分别为M和N的数字信号由全局存储器分别送入输入数据缓存单元111和幂次权重缓存单元112。输入数据被送入输入数据缓存单元111中，可以直接按照一般浮点数、定点数或动态范围定点数等方式进行存储(M为位宽，在本示例中，位宽M为32位)。神经网络权重输入神经网络幂次权重缓存单元112中，需要按照一种预设的幂次编码方式进行存储，例如图2所示。其中，最高位为符号位(Sign_bit)，0表示正数，1表示负数；第(N-1)位为幂次权重位(Power_bits)，用2进制补码表示该权重的幂次。因此，当前幂次编码对应表示的数为((-1)^(Sign_bit))*(2^(Power_bits))。

计算模块120用于进行基于幂次权重量化的卷积和全连接矩阵向量乘运算。

在本发明的一个实施例中，如图2所示，计算模块120包括：乘法单元121、加法单元122、控制接口123(图中未示出)、数据接口124(图中未示出)和寄存器堆125(图中未示出)。

其中，乘法单元121用于进行单个输入数据和单个神经网络幂次权重的乘法运算，以得到卷积或全连接矩阵向量乘的中间结果。在本发明的一个实施例中，乘法单元121以位移器为基本单元构成，也即乘法单元121为基于位移器的乘法单元。也就是说，本发明的实施例通过采用基于位移器的乘法运算单元作为计算模块120的基本单元，替代了传统神经网络计算单元中的定点数或浮点数乘法器，运算开销大幅下降，从而在量化编码有效降低神经网络的存储量的同时，可以有效地降低神经网络运算开销，显著提升了神经网络计算系统在终端设备上的应用空间。

加法单元122用于将中间结果进行累加运算，以得到卷积或全连接矩阵向量乘的运算结果。

控制接口123用于接收控制模块发送的指令。

数据接口124用于存取输入数据和神经网络幂次权重。

寄存器堆125用于存储中间结果。

具体地说，计算模块120首先将输入缓冲模块110送来的位宽为M的输入数据和位宽为N的幂次权重送入乘法单元121进行乘法运算。由于神经网络权重是以幂次编码的形式送入的，因此，可以将输入数据作为被操作数，将神经网络权重作为位移位数，从而将乘法运算转化为位移运算。首先，乘法单元121用于将输入数据的符号位与神经网络幂次权重的符号位进行比较，并在输入数据的符号位与神经网络幂次权重的符号位不同时将输入数据按位取反再加1或在输入数据的符号位与神经网络幂次权重的符号位相同时将输入数据保持，以得到完成符号运算的中间结果，并将完成符号运算的中间结果送入位移器，以根据神经网络幂次权重的幂次权重位进行左移或右移，以得到卷积或全连接矩阵向量乘的中间结果，并将中间结果发送至加法单元122，以使加法单元122根据中间结果得到卷积或全连接矩阵向量乘的运算结果。进一步地，所得到的卷积或全连接矩阵向量乘的运算结果被暂存在输出缓存模块130中，然后根据控制模块140的指令送至全局存储单元。

输出缓存模块130用于缓存计算模块得到的卷积或全连接矩阵向量乘的运算结果。

控制模块140分别与输入缓存模块110、计算模块120和输出模块130相连，用于对输入缓存模块110、运算模块120和输出缓存模块130进行数据搬运和运算资源调度。

具体地，控制模块140用于：在计算开始时，将输入数据和神经网络幂次权重从全局存储器中搬移至输入缓存模块110中，以供计算模块120使用，并在计算结束时，将卷积或全连接矩阵向量乘的运算结果从输出缓存模块130中搬移至全局存储器中，以作为输出结果或供后续其他运算单元使用。

作为具体的示例，如下表1所示，展示了在FPGA平台上利用本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构的运算效果，以及使用本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构相比于传统的以定点数乘法器为基本运算单元的神经网络前向计算系统所节约的运算资源。可以看出通过使用本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构，可以显著减小计算资源的以适当增大模拟运算电路规模为代价，显著减少运算资源的开销。相对16bit乘法器运算单元，本发明仅需4bit位移器，若以FPGA为实现方式，所需硬件资源从107LUTs和80FFs，减少到56LUTs和16FFs，分别减少47.7％和80％.对于多种不同的实际应用，在整个系统层面，本发明节约了平均60％以上的运算资源。

表1

也即，本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构，可以克服传统编码方案中仅能减小神经网络权重的存储代价，无法减小计算资源开销的问题。通过采用位移器为基本乘法运算单元，替代传统的浮点数或定点数乘法器，可有效地减少计算资源开销，简化运算过程，显著提升了神经网络计算系统在终端设备上的应用空间，推动针对神经网络结构的新型计算架构的进一步发展。

综上，根据本发明实施例的基于幂次权重量化的神经网络前向运算硬件结构，在有效降低神经网络的存储量的同时，可以有效地降低神经网络运算开销。该硬件机构采用基于位移器的乘法运算单元，可有效地减少计算资源开销，简化运算过程，显著提升了神经网络计算系统在终端设备上的应用空间。以8bit定点数乘法器为例，本发明可节省62％左右的存储单元，45％左右的运算单元，显著提升了神经网络计算系统在终端设备上的应用空间。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，包括：

输入缓存模块，所述输入缓存模块用于缓存从全局存储器中搬运到片上的输入数据和神经网络幂次权重，其中，神经网络幂次权重包括卷积核和全连接矩阵；

计算模块，所述计算模块用于进行基于幂次权重量化的卷积和全连接矩阵向量乘运算；

输出缓存模块，所述输出缓存模块用于缓存所述计算模块得到的卷积或全连接矩阵向量乘的运算结果；以及

控制模块，所述控制模块用于对所述输入缓存模块、运算模块和输出缓存模块进行数据搬运和运算资源调度。

2.根据权利要求1所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述输入缓存模块包括：

输入数据缓存单元，所述输入数据缓存单元用于存储所述输入数据；

幂次权重缓存单元，所述幂次权重缓存单元用于存储所述幂次权重。

3.根据权利要求2所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述输入数据缓存单元用于按照一般浮点数、定点数或动态范围定点数的方式对所述输入数据进行存储。

4.根据权利要求2所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述幂次权重缓存单元用于按照预设的幂次编码方式对所述神经网络幂次权重进行存储。

5.根据权利要求1所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述计算模块包括：

乘法单元，所述乘法单元用于进行单个输入数据和单个神经网络幂次权重的乘法运算，以得到卷积或全连接矩阵向量乘的中间结果；

加法单元，所述加法单元用于将所述中间结果进行累加运算，以得到卷积或全连接矩阵向量乘的运算结果；

控制接口，所述控制接口用于接收所述控制模块发送的指令；

数据接口，所述数据接口用于存取所述输入数据和神经网络幂次权重；

寄存器堆，所述寄存器堆用于存储所述中间结果。

6.根据权利要求5所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，其中，

所述乘法单元用于将所述输入数据的符号位与神经网络幂次权重的符号位进行比较，并在所述输入数据的符号位与神经网络幂次权重的符号位不同时将所述输入数据按位取反再加1或在所述输入数据的符号位与神经网络幂次权重的符号位相同时将所述输入数据保持，以得到完成符号运算的中间结果，并将所述完成符号运算的中间结果送入位移器，以根据神经网络幂次权重的幂次权重位进行左移或右移，以得到所述卷积或全连接矩阵向量乘的中间结果，并将所述中间结果发送至所述加法单元，以使所述加法单元根据所述中间结果得到卷积或全连接矩阵向量乘的运算结果。

7.根据权利要求5所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述乘法单元以位移器为基本单元构成。

8.根据权利要求1所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述控制模块用于：

在计算开始时，将所述输入数据和神经网络幂次权重从所述全局存储器中搬移至所述输入缓存模块中，以供所述计算模块使用，并在计算结束时，将所述卷积或全连接矩阵向量乘的运算结果从所述输出缓存模块中搬移至所述全局存储器中，以作为输出结果。

9.根据权利要求1-8任一项所述的基于幂次权重量化的神经网络前向运算硬件结构，其特征在于，所述输入数据的位宽为固定位宽。