CN112632878B

CN112632878B - 一种基于fpga的高速低资源的二值卷积单元

Info

Publication number: CN112632878B
Application number: CN202011440077.2A
Authority: CN
Inventors: 黄以华; 曾世豪; 罗聪慧; 黄文津
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-11-24
Anticipated expiration: 2040-12-10
Also published as: CN112632878A

Abstract

本发明提供一种基于FPGA的高速低资源的二值卷积单元，所述的二值卷积单元包括若干个乘加单元MA，若干个加法树，所述的乘加单元MA所实现的运算为所述的加法树完成所有乘加单元MA输出结果的求和操作；所述的二值卷积单元所实现的运算如下：并输出：M+「log₂ N]bit；其中，N表示卷积运算的长度，I_n表示输入特征图的激活值，W_n表示二值化权重，取值为‑1或1，分别用单比特0和1代表，w_n表示单比特，i表示大于0的整数。本发明能节省查找表资源，降低时延，具有高速、低资源的特点。

Description

一种基于FPGA的高速低资源的二值卷积单元

技术领域

本发明涉及数字电路设计技术领域，更具体地，涉及一种基于FPGA的高速低资源的二值卷积单元。

背景技术

近年来，卷积神经网络(CNN)被广泛应用于图像识别和物体检测等领域。随着网络的深度和结构复杂性不断增加带来的计算效率较低和功耗较大等问题，人们开始关注使用FPGA对CNN的运算进行加速。另一方面，研究人员发现，通过二值化手段将权重数据量化成1或-1，在基本保持网络原有精度的同时，显著降低了网络的参数规模和运算复杂度。这不仅极大提高了网络的推断速度，也为在资源有限的FPGA平台上部署大规模的CNN模型提供了支持。

传统的二值卷积单元通常包含两个部分，分别为“二值乘法器”以及“多操作数加法树”，前者用以实现单比特权重与激活值的乘积，后者用以实现所有乘积结果的累加。“二值乘法器”根据单比特权重而产生激活值的原值或负值，负值计算包括“取反加一”。为了减少“加一”操作带来的资源开销，提出一种“近似二值乘法器”，它移除了二值乘法器中的加一操作，将卷积核参数的“-1”个数作为一个补偿值最后与卷积结果相加。此外，多操作数加法树作为实现累加操作的硬件模块，通常分成“二叉累加树”以及“压缩树”两种类型。在ASIC设计中，压缩树相比于二叉累加树有着更好的面积和时序性能；然而在FPGA平台中，由于快速进位链的使用，流水式二叉累加树在面积以及时序性能上与流水式压缩树相差无几，同时具有更加简单和规整的结构。

在二值化网络的加速器设计中，二值乘法器和多操作数累加树占据了FPGA查找表资源的主要消耗，部分研究工作的卷积核所消耗的查找表占总消耗量的54％以上。所以，资源友好的二值化卷积单元有助于在相同的FPGA平台上部署更加密集的卷积运算核。

另一方面，尽管利用FPGA内部专用的进位链可以有效地改善流水式二叉累加树的时延特性，但是随着累加树深度的增加，单个加法器的操作数位宽越来越大，因此需要更多级联的进位链。从而增加了加法器的延迟，进而影响了累加树的整体时延性能。

发明内容

本发明为克服上述现有技术二值化卷积单元所消耗的查找表占总消耗量高，高时延性能的问题，提供了一种基于FPGA的高速低资源的二值卷积单元，其能节省查找表资源，降低时延，具有高速、低资源的特点。

为解决上述技术问题，本发明的技术方案如下：一种基于FPGA的高速低资源的二值卷积单元，所述的二值卷积单元包括若干个乘加单元MA，若干个加法树，

所述的乘加单元MA所实现的运算为w_2i-1⊙I_2i-1+w_2i⊙I_2i，所述的加法树完成所有乘加单元MA输出结果的求和操作；

所述的二值卷积单元所实现的运算如下：并输出：/>

其中，N表示卷积运算的长度，I_n表示输入特征图的激活值，W_n表示二值化权重，取值为-1或1，分别用单比特0和1代表，w_n表示单比特，i表示大于0的整数。

优选地，当N为偶数，所述的二值卷积单元包括N/2个的乘加单元MA，以及N/2个输入多操作数加法树，每两组W_n和每两组I_n作为一个乘加单元MA的输入数据；

当N为奇数，所述的二值卷积单元包括个乘加单元MA单元，/>个输入多操作数加法树，以及一个近似二值乘法器用于处理余下的W_n数据和I_n数据。

进一步地，所述的乘加单元MA采用Xilinx FPGA中进位链Carry4实现Mbit的有符号加法操作，Mbit表示位宽。

再进一步地，对于Mbit的有符号加法操作，采用M个LUT6和个进位链Carry4实现有符号加法操作；每4个LUT6处理的结果输入一个进位链Carry4中进行处理，相邻的两个进位链Carry4级联，实现进位比特在/>个Carry4中传输。

再进一步地，在级联的两个进位链Carry4之间插入一级进位寄存器，将M bit乘加单元MA分为处理高M-L bits输入数据的高比特乘加单元和处理低L bits输入数据的低比特乘加单元，即高比特乘加单元和低比特乘加单元通过一个进位寄存器级联。

再进一步地，在t时刻，低比特乘加单元的进位比特Cin_t-1通过进位寄存器传输到高比特乘加单元，实现低比特乘加单元计算来自t-1时刻的w_1,t-1×I_1,t-1[M-1:L]与w_2,t-1×I_2,t-1[M-1:L]之和。

再进一步地，所述的输入多操作数加法树包括若干个加法器，所述的加法器采用HRCL加法器，所述的HRCL加法器由一个L bit的低比特加法器、一个进位比特寄存器与一个(M-L)bit的高比特加法器串联组成；

再进一步地，在t时刻，低比特加法器的进位比特c_1,t-1通过进位比特寄存器传输到高比特加法器，实现低比特加法器计算来自t-1时刻的a_1,t-1[M-1:L]与b_1,t-1[M-1:L]之和。

再进一步地，L为

再进一步地，所述的近似二值乘法器实现的运算如下：

其中，O代表输出特征图的激活值，f是激活函数，bias是偏置项，⊙代表XNOR操作，

与现有技术相比，本发明技术方案的有益效果是：

本发明所述的二值卷积单元，由乘加单元以及输入多操作数加法树。其中，该乘加单元可以实现两个近似二值乘法器运算结果的求和操作；该多操作数加法树包含更少的加法器数量，在关键路径上相比传统的二叉累加树减少一半的进位链长度。因此，本发明提出的二值卷积单元能节省查找表资源，降低时延，具有高速、低资源的特点。

附图说明

图1是传统的二值化卷积单元。

图2是传统W_i×I_i的二值乘法器。

图3是本实施例所述的二值卷积单元的结构示意图。

图4是本实施例Xilinx FPGA的进位链单元结构示意图。

图5是本实施例MA₁单元的内部结构。

图6是本实施例MA₁单元的最终实现方案的内部结构图。

图7是本实施例HRCL加法器的结构示意图。

图8是本实施例所述的多操作数加法树的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，仅用于示例性说明，不能理解为对本专利的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

传统的二值化权重的卷积运算可表示为

其中，N表示卷积运算的长度，I_n表示输入特征图的激活值，位宽为M bits；W_n表示二值化权重，取值为-1或1，分别用单比特(w_n)0和1代表。则

通常而言，I_n数据以补码的形式存储，所以，因此

基于公式(1)的传统二值化卷积单元，结构如图1所示，包含了N个二值乘法器，用以计算W_n×I_n，其输出为M+1bits，以及一个M+1bit N输入的流水式二叉累加树。其中，二值乘法器包含一个数据选通器以及一个“数值反转”单元，其结构如图2所示。

根据公式(3)，一次完整卷积计算所需要的“加一”数量应该等于权重W_n＝-1的数量。由于权重数据和偏置项都是预训练好的，可以认为加1操作的总数量是一个常量，因此可以将这个常量和卷积运算的偏置项合并，以避免每次计算-I_n都需要单独引入加1操作，称之为“近似二值乘法器”，其运算公式如下：

其中，O代表输出特征图的激活值，f是激活函数，bias是偏置项，⊙代表XNOR操作。

从公式(4)可以看出，近似二值乘法器移除“加一”操作，简化为单独的XNOR操作。此举有效降低了“加一”带来的资源消耗。

为了更进一步减少查找表的使用，在上述基础上，本实施例提供了一种基于FPGA的高速低资源的二值卷积单元，如图3所示，所述的二值卷积单元包括若干个乘加单元MA，若干个加法树，

所述的二值卷积单元所实现的运算如下：并输出：/>

当N为偶数，所述的二值卷积单元包括N/2个的乘加单元MA，以及N/2个输入多操作数加法树，每两组W_n和每两组I_n作为一个乘加单元MA的输入数据；

其中，相比使用两个独立的近似二值乘法器以及一个加法器实现w_2i-1⊙I_2i-1+w_2i⊙I_2i的做法，本实施例所述的乘加单元MA可以消耗更少的查找表资源。此外，在输入多操作数加法树中，通过优化加法器树的流水线结构，以获得相比传统流水线二叉累加树更少的延迟。

在一个具体的实施例中，所述的乘加单元MA采用Xilinx FPGA中进位链Carry4实现Mbit的有符号加法操作，Mbit表示位宽。对于Mbit的有符号加法操作，采用M个LUT6和个进位链Carry4实现有符号加法操作；每4个LUT6处理的结果输入一个进位链Carry4中进行处理，相邻的两个进位链Carry4级联，实现进位比特在/>个Carry4中传输。

本实施例以乘加单元MA₁为例子，讨论乘加单元MA的设计原理，MA₁所实现的功能为w₁⊙I₁+w₂⊙I₂。其中，w₁⊙I₁和w₂⊙I₂的计算结果均为Mbit的数据，因此，MA₁所实现的是一个Mbit的有符号加法操作。考虑到MA₁的延迟，因此采用Xilinx FPGA中进位链Carry4来实现快速进位的加法器。结合Xilinx FPGA中进位链Carry4的结构，如图4所示，只要O6from LUT输出O5from LUT输出w₂⊙I₂，就可以利用进位链Carry4实现Mbit的有符号数加法操作。

在此基础上，MA₁内部结构可由图5表示。Xilinx LUT6是一种可配置为任意逻辑功能的6输入-2输出的逻辑资源，因此对于Mbit的有符号加法操作，只需要M个LUT6和个Carry4即可实现。

从图5中可知，MA₁单元的硬件实现包含了一系列级联在一起的进位链Carry4资源，进位比特在Carry4资源中传输，因此随着M的增加，MA₁单元的延迟也会不断增加。为了减少MA₁单元的进位链的长度，在相邻级联的两个Carry4之间需要插入一级进位寄存器，其结构如图6所示。将M bit MA₁单元分为处理高M-L bits输入数据的高比特乘加单元和处理低L bits输入数据的低比特乘加单元，即高比特乘加单元和低比特乘加单元通过一个进位寄存器级联。

在t时刻，低比特乘加单元的进位比特Cin_t-1通过进位寄存器传输到高比特乘加单元，实现低比特乘加单元计算来自t-1时刻的w_1,t-1×I_1,t-1[M-1:L]与w_2,t-1×I_2,t-1[M-1:L]之和。

本实施例所述的二值卷积单元最终的输出结果为为了最小化图6所示硬件结构的关键路径，L应为/>

在一个具体的实施例中，尽管流水式二叉累加树的使用有效地改善了传统的多操作数加法树的时延特性，然而随着输入数据位宽以及加法树深度的增加，不断增加的进位链长度会严重影响其时延。因此，最后一级的根加法器拥有最长的进位链，是组合逻辑的关键路径所在。

为了减少加法器的进位链长度以优化加法树的时延特性，本文提出一种改进后的多操作数加法树，以M bits N输入的多操作数加法树为例子，所述的输入多操作数加法树包括若干个加法器，每个所述的加法器基于混合行波/超前进位设计，简称为HRCL加法器，其结构如图7所示。所述的HRCL加法器由一个L bit的低比特加法器、一个进位比特寄存器与一个(M-L)bit的高比特加法器串联组成，其中所述的低比特加法器负责计算低比特的数据，所述的高比特加法器负责计算高比特的数据。在t时刻，低比特加法器的进位比特c_1,t-1通过进位比特寄存器传输到高比特加法器，实现低比特加法器计算来自t-1时刻的a_1,t-1[M-1:L]与b_1,t-1[M-1:L]之和。

为了最小化改进后的多操作数加法树的关键路径，每个HRCL加法器中的低比特加法器的操作数位长L应为根节点加法器的操作数位长的一半，即

如图8所示，是一个8输入8bits的改进后的多操作数加法树。其中，所有低比特加法器均为一个5bit的加法器，每层的高比特加法器分别为3bit加法器，4bit加法器和5bit的加法器。此外，a_i,t，b_i,t为Adder i的输入数据，S_i,t为Adder i的输出数据，C_i,t为Adder i中进位寄存器的进位比特，下标t表示来自t时刻的数据。

从图8中不难发现，加法器树中的关键路径为5bit加法器的进位链，而对于一个8输入8bits的传统二叉加法树而言，其关键路径为10bits加法器的进位链(出现在根加法器)，因此，在改进后的多操作数加法树中，进位链的长度减少了50％。因此，本实施例所提出的多操作数加法树，既能充分利用进位链资源，又能避免由于多个carry4级联所导致的传输延迟的增加。

实验结果

为了比较本实施例的二值卷积单元和传统的二值卷积单元之间的资源使用量以及时延性能，不失一般性地，本实施例设计了两类不同类型的卷积运算，分别为对称结构(8输入)，以及非对称结构(9输入)。对于输入数据，则选择8bits、12bits和16bits三种常见的位宽，在Xilinx VC709FPGA平台上进行试验，获得资源消耗数据如表1所示。

从表1可以看出，在查找表、寄存器以及进位链等资源的使用量上，本实施例的二值卷积单元都远远优于传统型二值卷积单元。具体来看，本实施例约节省了50％～60％的查找表资源，15％的寄存器资源，以及20％～45％的进位链资源，并且具有更小的时延。

表1两种二值卷积单元的资源消耗与时延

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于FPGA的高速低资源的二值卷积单元，其特征在于：所述的二值卷积单元包括若干个乘加单元MA，若干个加法树，

所述的乘加单元MA所实现的运算为w_2i-1⊙I_2i-1+w_2i⊙I_2i，所述的加法树完成所有乘加单元MA输出结果的求和操作；⊙代表XNOR操作；

所述的二值卷积单元所实现的运算如下：并输出：/>

其中，N表示卷积运算的长度，I_n表示输入特征图的激活值，W_n表示二值化权重，取值为-1或1，分别用单比特0和1代表，w_n表示单比特，i表示大于0的整数；当N为偶数，所述的二值卷积单元包括N/2个的乘加单元MA，以及N/2个输入多操作数加法器，每两组W_n和每两组I_n作为一个乘加单元MA的输入数据；

当N为奇数，所述的二值卷积单元包括个的乘加单元MA单元，/>个输入多操作数加法器，以及一个近似二值乘法器用于处理余下的W_n数据和I_n数据；

所述的输入多操作数加法树包括若干个加法器，所述的加法器采用HRCL加法器，所述的HRCL加法器由一个L bit的低比特加法器、一个进位比特寄存器与一个(M-L)bit的高比特加法器串联组成；

在t时刻，低比特加法器的进位比特c_1,t-1通过进位比特寄存器传输到高比特加法器，实现低比特加法器计算来自t-1时刻的a_1,t-1[M-1:L]与b_1,t-1[M-1:L]之和；L为

所述的近似二值乘法器实现的运算如下：

2.根据权利要求1所述的基于FPGA的高速低资源的二值卷积单元，其特征在于：所述的乘加单元MA采用Xilinx FPGA中进位链Carry4实现M bit的有符号加法操作，M bit表示位宽。

3.根据权利要求2所述的基于FPGA的高速低资源的二值卷积单元，其特征在于：对于Mbit的有符号加法操作，采用M个LUT6和个进位链Carry4实现有符号加法操作；每4个LUT6处理的结果输入一个进位链Carry4中进行处理，相邻的两个进位链Carry4级联，实现进位比特在/>个Carry4中传输。

4.根据权利要求3所述的基于FPGA的高速低资源的二值卷积单元，其特征在于：在级联的两个进位链Carry4之间插入一级进位寄存器，将M bit乘加单元MA分为处理高M-L bits输入数据的高比特乘加单元和处理低L bits输入数据的低比特乘加单元，即高比特乘加单元和低比特乘加单元通过一个进位寄存器级联。

5.根据权利要求4所述的基于FPGA的高速低资源的二值卷积单元，其特征在于：在t时刻，低比特乘加单元的进位比特Cin_t-1通过进位寄存器传输到高比特乘加单元，实现低比特乘加单元计算来自t-1时刻的w_1,t-1×I_1,t-1[M-1:L]与w_2,t-1×I_2,t-1[M-1:L]之和。