CN110059814A

CN110059814A - 一种基于fpga的查找表式卷积运算硬件结构

Info

Publication number: CN110059814A
Application number: CN201910182124.9A
Authority: CN
Inventors: 黄以华; 黄文津; 吴黄涛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-26

Abstract

本发明涉及一种基于FPGA(Field Programmable Gate Array)的查找表式卷积运算硬件结构，通过对卷积运算中N个乘法操作进行拆解，将具有相同偏移量的N个M bit数据进行相加，相加之和存储在查找表中，形成M个查找表。在取得查找表的计算结果后，将结果送入带有移位操作的加法器树中，算出卷积结果。此结构的硬件消耗相比传统方法大约节省50％以上的LUT资源(FPGA实现)，并且具有易于部署及方便重用等优点。

Description

一种基于FPGA的查找表式卷积运算硬件结构

技术领域

本发明涉及深度学习技术领域，更具体的，涉及一种基于FPGA(FieldProgrammable Gate Array)的查找表式卷积运算硬件结构。

背景技术

深度卷积神经网络广泛用于计算机视觉、图像分类、物体识别等领域，但是训练网络所需庞大的数据集和复杂的计算过程，限制了网络部署的平台，特别是在低功耗，计算资源有限等平台，尤其是移动设备和嵌入式设备等。将深度卷积神经网络从服务器集群迁移到移动平台中执行，是目前的研究热点和大趋势。

在卷积神经网络中，卷积层的计算量占据总体计算量90％以上，因此，卷积层运算的加速是卷积神经网络加速的重要组成部分。通用处理器CPU和GPU等在执行通用的处理任务时具有很高的性能表现，但是卷积神经网络的计算包含大量并行的非线性函数运算，向量运算和卷积运算，而通用处理器的硬件结构并不是一种高并行度的结构，缺乏对这类运算的加速能力，因此，通用处理器执行卷积神经网络的性能不尽如人意。所以，卷积神经网络的加速器必须要能够实现以下两个功能:(1)充分利用卷积神经网络中层与层之间，层内各个卷积核的并行度；(2)定制化的计算模块——卷积运算模块。

FPGA是一种可编程逻辑器件，随着半导体技术的不断升级和发展，现在主流的FPGA包含了丰富的逻辑计算，存储和布线资源，可以让研究人员有足够的设计空间来定制专用卷积神经网络加速硬件结构，并且充分利用卷积神经网络计算的并行特性。

然而，目前大多数研究的主要内容都是设计一个合适计算框架来对卷积神经网络进行加速，常见的框架有Dataflow、SIMD和SIMT等等。研究的重点在于数据和计算单元——卷积运算核的配合，而非对卷积运算核的优化，大部分的研究都是通过调用FPGA内部的DSP单元来实现卷积运算，或者进一步搭建树状的卷积运算核来减少计算延时，这类卷积运算核包含了通用的乘法器，然而，卷积核的权重值在整个卷积过程都是固定的，因此，在卷积运算核中使用通用乘法器会导致不必要的资源开销。

发明内容

本发明为解决现有技术提供的卷积运算核中存在的资源开销过高的技术缺陷，本发明提供了一种基于FPGA的查找表式卷积运算硬件结构。

为实现以上发明目的，采用的技术方案是：

一种基于FPGA的查找表式卷积运算硬件结构，包括有M个查找表和一个带移位操作的加法器树；

每个查找表的大小为查找表中每一行的数据为对应的地址索引为x_j，其中_xj＝j(0≤j≤2^N-1)，代表x_j二进制表达式中的第i位比特的数值；a_i表示权重数据，每个查找表存储相同的数据，一共M个，在FPGA上建立M个查找表，按顺序查询数据；查找表根据输入数据x_i来索引内部存储的数据，其地址输入是其中表示x_N的第m位比特的数值，对应的输出记为s_m；

一个带移位操作的加法树包含M个输入节点和M-1个加法器节点，每个节点的输入是查找表的输出，大小为比特数据，M个查找表的输出{s₀，s₁，s₂，...，s_M-1}同时输入到加法器树中，偏移量分别为0，1，2，...，M-1。

优选的，相邻节点数据在输入加法器节点之前，需要进行移位，对偏移量大的数据进行左移操作，移位的位数是两者偏移量之差，节点数据通过加法器节点求得之和的偏移量为输入节点中最小偏移量节点的偏移量；

优选的，每两个相同层级的、相邻的节点的数据在完成移位操作后，通过加法器节点相加之和输入到下一层的加法器节点中，直到所有节点的数据都相加完毕，加法器节点输入的位长等于最大输入数据的位长。

与现有技术相比，本发明的有益效果是：

1)本发明的卷积运算核操作简单，利用查找表操作代替了乘法操作，从而避免复杂的乘法操作。

2)本发明的卷积运算核延时低，基于查找表的操作只需一个时钟周期，远少于乘法器所需的时钟周期。

3)本发明的卷积运算核比传统的卷积运算核更节省FPGA的片上资源。

FPGA的基本逻辑单元为LUT6，当N≤6时，实现本发明的查找表需要的LUT6数量为每个LUT6存储的数值对应s_m的一位比特，比传统的卷积运算核节省了87％的资源。

附图说明

图1为卷积运算核的结构图。

图2为查找表存储的数据。

图3为查找表的硬件结构图。

图4为带移位操作的加法器树的加法器节点位数。

图5为传统卷积运算核所需的LUT资源。

图6为本发明的卷积运算核所需的LUT资源。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，一种基于FPGA的查找表式卷积运算硬件结构，包括有M个查找表和一个带移位操作的加法器树；

每个查找表的大小为查找表中每一行的数据为对应的地址索引为x_j，其中x_j＝j(0≤j≤2^N-1)，代表x_j二进制表达式中的第i位比特的数值；a_i表示权重数据，每个查找表存储相同的数据，一共M个，在FPGA上建立M个查找表，按顺序查询数据；查找表根据输入数据x_i来索引内部存储的数据，其地址输入是其中表示x_N的第m位比特的数值，对应的输出记为s_m；

实施例2

如图1、图2、图3、图4、图5以及图6所示，一种基于FPGA的查找表式卷积运算硬件结构包括8个查找表{s₁，s₂，s₃，...，s₈}和一个带移位操作的加法器树，结构如图1，每个查找表的大小为2⁵×11，即存储2⁵个11比特的数据。

查找表中每一行的数据为对应的地址索引为x_j。其中x_j＝j(0≤j≤31)代表x_j二进制表达式中的第i位比特的数值。第m个查找表的地址输入是查找表存储的数据内容如图2所示。

查找表的硬件结构如图3所示。

一个带移位操作的加法树包含8个输入节点和7个加法器节点，每个节点的输入是查找表的输出，8个查找表的输出{s₀，s₁，s₂，...，s₇}同时输入到加法器树中，偏移量分别为0，1，2，...，7。

每两个相同层级的、相邻的节点的数据在完成移位操作后，通过加法器节点相加之和输入到下一层的加法器节点中，直到所有节点的数据都相加完毕，加法器节点输入的位长等于最大输入数据的位长，如图4所示。

对于5×1维度的卷积运算，使用乘法器和加法器搭建的卷积运算核，在FPGA中，需要381个LUT，如图5所示。而使用本发明的卷积运算核，则只需要107个LUT，如图6所示。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于FPGA的查找表式卷积运算硬件结构，其特征在于，包括有M个查找表和一个带移位操作的加法器树；

每个查找表的大小为查找表中每一行的数据为对应的地址索引为x_j，其中x_j＝j(0≤j≤2^N-1)，代表x_j二进制表达式中的第i位比特的数值；a_i表示权重数据，每个查找表存储相同的数据，一共M个，在FPGA上建立M个查找表，按顺序查询数据；查找表根据输入数据χ_i来索引内部存储的数据，其地址输入是其中表示第x_N的第m位比特的数值，对应的输出记为s_m；

2.根据权利要求1所述的一种基于FPGA的查找表式卷积运算硬件结构，其特征在于，相邻节点数据在输入加法器节点之前，需要进行移位，对偏移量大的数据进行左移操作，移位的位数是两者偏移量之差，节点数据通过加法器节点求得之和的偏移量为输入节点中最小偏移量节点的偏移量。

3.根据权利要求2所述的一种基于FPGA的查找表式卷积运算硬件结构，其特征在于，每两个相同层级的、相邻的节点的数据在完成移位操作后，通过加法器节点相加之和输入到下一层的加法器节点中，直到所有节点的数据都相加完毕，加法器节点输入的位长等于最大输入数据的位长。