CN112632878A - 一种基于fpga的高速低资源的二值卷积单元 - Google Patents

一种基于fpga的高速低资源的二值卷积单元 Download PDF

Info

Publication number
CN112632878A
CN112632878A CN202011440077.2A CN202011440077A CN112632878A CN 112632878 A CN112632878 A CN 112632878A CN 202011440077 A CN202011440077 A CN 202011440077A CN 112632878 A CN112632878 A CN 112632878A
Authority
CN
China
Prior art keywords
bit
unit
carry
fpga
addition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011440077.2A
Other languages
English (en)
Other versions
CN112632878B (zh
Inventor
黄以华
曾世豪
罗聪慧
黄文津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011440077.2A priority Critical patent/CN112632878B/zh
Publication of CN112632878A publication Critical patent/CN112632878A/zh
Application granted granted Critical
Publication of CN112632878B publication Critical patent/CN112632878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于FPGA的高速低资源的二值卷积单元,所述的二值卷积单元包括若干个乘加单元MA,若干个加法树,所述的乘加单元MA所实现的运算为
Figure DDA0002830140800000011
所述的加法树完成所有乘加单元MA输出结果的求和操作;所述的二值卷积单元所实现的运算如下:
Figure DDA0002830140800000012
并输出:M+「log2 N]bit;其中,N表示卷积运算的长度,In表示输入特征图的激活值,Wn表示二值化权重,取值为‑1或1,分别用单比特0和1代表,wn表示单比特,i表示大于0的整数。本发明能节省查找表资源,降低时延,具有高速、低资源的特点。

Description

一种基于FPGA的高速低资源的二值卷积单元
技术领域
本发明涉及数字电路设计技术领域,更具体地,涉及一种基于FPGA的高速低资源的二值卷积单元。
背景技术
近年来,卷积神经网络(CNN)被广泛应用于图像识别和物体检测等领域。随着网络的深度和结构复杂性不断增加带来的计算效率较低和功耗较大等问题,人们开始关注使用FPGA对CNN的运算进行加速。另一方面,研究人员发现,通过二值化手段将权重数据量化成1或-1,在基本保持网络原有精度的同时,显著降低了网络的参数规模和运算复杂度。这不仅极大提高了网络的推断速度,也为在资源有限的FPGA平台上部署大规模的CNN模型提供了支持。
传统的二值卷积单元通常包含两个部分,分别为“二值乘法器”以及“多操作数加法树”,前者用以实现单比特权重与激活值的乘积,后者用以实现所有乘积结果的累加。“二值乘法器”根据单比特权重而产生激活值的原值或负值,负值计算包括“取反加一”。为了减少“加一”操作带来的资源开销,提出一种“近似二值乘法器”,它移除了二值乘法器中的加一操作,将卷积核参数的“-1”个数作为一个补偿值最后与卷积结果相加。此外,多操作数加法树作为实现累加操作的硬件模块,通常分成“二叉累加树”以及“压缩树”两种类型。在ASIC设计中,压缩树相比于二叉累加树有着更好的面积和时序性能;然而在FPGA平台中,由于快速进位链的使用,流水式二叉累加树在面积以及时序性能上与流水式压缩树相差无几,同时具有更加简单和规整的结构。
在二值化网络的加速器设计中,二值乘法器和多操作数累加树占据了FPGA查找表资源的主要消耗,部分研究工作的卷积核所消耗的查找表占总消耗量的54%以上。所以,资源友好的二值化卷积单元有助于在相同的FPGA平台上部署更加密集的卷积运算核。
另一方面,尽管利用FPGA内部专用的进位链可以有效地改善流水式二叉累加树的时延特性,但是随着累加树深度的增加,单个加法器的操作数位宽越来越大,因此需要更多级联的进位链。从而增加了加法器的延迟,进而影响了累加树的整体时延性能。
发明内容
本发明为克服上述现有技术二值化卷积单元所消耗的查找表占总消耗量高,高时延性能的问题,提供了一种基于FPGA的高速低资源的二值卷积单元,其能节省查找表资源,降低时延,具有高速、低资源的特点。
为解决上述技术问题,本发明的技术方案如下:一种基于FPGA的高速低资源的二值卷积单元,所述的二值卷积单元包括若干个乘加单元MA,若干个加法树,
所述的乘加单元MA所实现的运算为w2i-1⊙I2i-1+w2i⊙I2i,所述的加法树完成所有乘加单元MA输出结果的求和操作;
所述的二值卷积单元所实现的运算如下:
Figure BDA0002830140780000021
并输出:
Figure BDA0002830140780000022
其中,N表示卷积运算的长度,In表示输入特征图的激活值,Wn表示二值化权重,取值为-1或1,分别用单比特0和1代表,wn表示单比特,i表示大于0的整数。
优选地,当N为偶数,所述的二值卷积单元包括N/2个的乘加单元MA,以及N/2个输入多操作数加法树,每两组Wn和每两组In作为一个乘加单元MA的输入数据;
当N为奇数,所述的二值卷积单元包括
Figure BDA0002830140780000023
个乘加单元MA单元,
Figure BDA0002830140780000024
个输入多操作数加法树,以及一个近似二值乘法器用于处理余下的Wn数据和In数据。
进一步地,所述的乘加单元MA采用Xilinx FPGA中进位链Carry4实现Mbit的有符号加法操作,Mbit表示位宽。
再进一步地,对于Mbit的有符号加法操作,采用M个LUT6和
Figure BDA0002830140780000025
个进位链Carry4实现有符号加法操作;每4个LUT6处理的结果输入一个进位链Carry4中进行处理,相邻的两个进位链Carry4级联,实现进位比特在
Figure BDA0002830140780000026
个Carry4中传输。
再进一步地,在级联的两个进位链Carry4之间插入一级进位寄存器,将M bit乘加单元MA分为处理高M-L bits输入数据的高比特乘加单元和处理低L bits输入数据的低比特乘加单元,即高比特乘加单元和低比特乘加单元通过一个进位寄存器级联。
再进一步地,在t时刻,低比特乘加单元的进位比特Cint-1通过进位寄存器传输到高比特乘加单元,实现低比特乘加单元计算来自t-1时刻的w1,t-1×I1,t-1[M-1:L]与w2,t-1×I2,t-1[M-1:L]之和。
再进一步地,所述的输入多操作数加法树包括若干个加法器,所述的加法器采用HRCL加法器,所述的HRCL加法器由一个L bit的低比特加法器、一个进位比特寄存器与一个(M-L)bit的高比特加法器串联组成;
再进一步地,在t时刻,低比特加法器的进位比特c1,t-1通过进位比特寄存器传输到高比特加法器,实现低比特加法器计算来自t-1时刻的a1,t-1[M-1:L]与b1,t-1[M-1:L]之和。
再进一步地,L为
Figure BDA0002830140780000031
再进一步地,所述的近似二值乘法器实现的运算如下:
Figure BDA0002830140780000032
其中,O代表输出特征图的激活值,f是激活函数,bias是偏置项,⊙代表XNOR操作,
Figure BDA0002830140780000033
与现有技术相比,本发明技术方案的有益效果是:
本发明所述的二值卷积单元,由乘加单元以及输入多操作数加法树。其中,该乘加单元可以实现两个近似二值乘法器运算结果的求和操作;该多操作数加法树包含更少的加法器数量,在关键路径上相比传统的二叉累加树减少一半的进位链长度。因此,本发明提出的二值卷积单元能节省查找表资源,降低时延,具有高速、低资源的特点。
附图说明
图1是传统的二值化卷积单元。
图2是传统Wi×Ii的二值乘法器。
图3是本实施例所述的二值卷积单元的结构示意图。
图4是本实施例Xilinx FPGA的进位链单元结构示意图。
图5是本实施例MA1单元的内部结构。
图6是本实施例MA1单元的最终实现方案的内部结构图。
图7是本实施例HRCL加法器的结构示意图。
图8是本实施例所述的多操作数加法树的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
传统的二值化权重的卷积运算可表示为
Figure BDA0002830140780000041
其中,N表示卷积运算的长度,In表示输入特征图的激活值,位宽为M bits;Wn表示二值化权重,取值为-1或1,分别用单比特(wn)0和1代表。则
Figure BDA0002830140780000042
通常而言,In数据以补码的形式存储,所以,
Figure BDA0002830140780000043
因此
Figure BDA0002830140780000044
基于公式(1)的传统二值化卷积单元,结构如图1所示,包含了N个二值乘法器,用以计算Wn×In,其输出为M+1bits,以及一个M+1bit N输入的流水式二叉累加树。其中,二值乘法器包含一个数据选通器以及一个“数值反转”单元,其结构如图2所示。
根据公式(3),一次完整卷积计算所需要的“加一”数量应该等于权重Wn=-1的数量。由于权重数据和偏置项都是预训练好的,可以认为加1操作的总数量是一个常量,因此可以将这个常量和卷积运算的偏置项合并,以避免每次计算-In都需要单独引入加1操作,称之为“近似二值乘法器”,其运算公式如下:
Figure BDA0002830140780000045
其中,O代表输出特征图的激活值,f是激活函数,bias是偏置项,⊙代表XNOR操作。
从公式(4)可以看出,近似二值乘法器移除“加一”操作,简化为单独的XNOR操作。此举有效降低了“加一”带来的资源消耗。
为了更进一步减少查找表的使用,在上述基础上,本实施例提供了一种基于FPGA的高速低资源的二值卷积单元,如图3所示,所述的二值卷积单元包括若干个乘加单元MA,若干个加法树,
所述的乘加单元MA所实现的运算为w2i-1⊙I2i-1+w2i⊙I2i,所述的加法树完成所有乘加单元MA输出结果的求和操作;
所述的二值卷积单元所实现的运算如下:
Figure BDA0002830140780000051
并输出:
Figure BDA0002830140780000052
其中,N表示卷积运算的长度,In表示输入特征图的激活值,Wn表示二值化权重,取值为-1或1,分别用单比特0和1代表,wn表示单比特,i表示大于0的整数。
当N为偶数,所述的二值卷积单元包括N/2个的乘加单元MA,以及N/2个输入多操作数加法树,每两组Wn和每两组In作为一个乘加单元MA的输入数据;
当N为奇数,所述的二值卷积单元包括
Figure BDA0002830140780000053
个乘加单元MA单元,
Figure BDA0002830140780000054
个输入多操作数加法树,以及一个近似二值乘法器用于处理余下的Wn数据和In数据。
其中,相比使用两个独立的近似二值乘法器以及一个加法器实现w2i-1⊙I2i-1+w2i⊙I2i的做法,本实施例所述的乘加单元MA可以消耗更少的查找表资源。此外,在输入多操作数加法树中,通过优化加法器树的流水线结构,以获得相比传统流水线二叉累加树更少的延迟。
在一个具体的实施例中,所述的乘加单元MA采用Xilinx FPGA中进位链Carry4实现Mbit的有符号加法操作,Mbit表示位宽。对于Mbit的有符号加法操作,采用M个LUT6和
Figure BDA0002830140780000055
个进位链Carry4实现有符号加法操作;每4个LUT6处理的结果输入一个进位链Carry4中进行处理,相邻的两个进位链Carry4级联,实现进位比特在
Figure BDA0002830140780000056
个Carry4中传输。
本实施例以乘加单元MA1为例子,讨论乘加单元MA的设计原理,MA1所实现的功能为w1⊙I1+w2⊙I2。其中,w1⊙I1和w2⊙I2的计算结果均为Mbit的数据,因此,MA1所实现的是一个Mbit的有符号加法操作。考虑到MA1的延迟,因此采用Xilinx FPGA中进位链Carry4来实现快速进位的加法器。结合Xilinx FPGA中进位链Carry4的结构,如图4所示,只要O6from LUT输出
Figure BDA0002830140780000061
O5from LUT输出w2⊙I2,就可以利用进位链Carry4实现Mbit的有符号数加法操作。
在此基础上,MA1内部结构可由图5表示。Xilinx LUT6是一种可配置为任意逻辑功能的6输入-2输出的逻辑资源,因此对于Mbit的有符号加法操作,只需要M个LUT6和
Figure BDA0002830140780000062
个Carry4即可实现。
从图5中可知,MA1单元的硬件实现包含了一系列级联在一起的进位链Carry4资源,进位比特在Carry4资源中传输,因此随着M的增加,MA1单元的延迟也会不断增加。为了减少MA1单元的进位链的长度,在相邻级联的两个Carry4之间需要插入一级进位寄存器,其结构如图6所示。将M bit MA1单元分为处理高M-L bits输入数据的高比特乘加单元和处理低L bits输入数据的低比特乘加单元,即高比特乘加单元和低比特乘加单元通过一个进位寄存器级联。
在t时刻,低比特乘加单元的进位比特Cint-1通过进位寄存器传输到高比特乘加单元,实现低比特乘加单元计算来自t-1时刻的w1,t-1×I1,t-1[M-1:L]与w2,t-1×I2,t-1[M-1:L]之和。
本实施例所述的二值卷积单元最终的输出结果为
Figure BDA0002830140780000064
为了最小化图6所示硬件结构的关键路径,L应为
Figure BDA0002830140780000063
在一个具体的实施例中,尽管流水式二叉累加树的使用有效地改善了传统的多操作数加法树的时延特性,然而随着输入数据位宽以及加法树深度的增加,不断增加的进位链长度会严重影响其时延。因此,最后一级的根加法器拥有最长的进位链,是组合逻辑的关键路径所在。
为了减少加法器的进位链长度以优化加法树的时延特性,本文提出一种改进后的多操作数加法树,以M bits N输入的多操作数加法树为例子,所述的输入多操作数加法树包括若干个加法器,每个所述的加法器基于混合行波/超前进位设计,简称为HRCL加法器,其结构如图7所示。所述的HRCL加法器由一个L bit的低比特加法器、一个进位比特寄存器与一个(M-L)bit的高比特加法器串联组成,其中所述的低比特加法器负责计算低比特的数据,所述的高比特加法器负责计算高比特的数据。在t时刻,低比特加法器的进位比特c1,t-1通过进位比特寄存器传输到高比特加法器,实现低比特加法器计算来自t-1时刻的a1,t-1[M-1:L]与b1,t-1[M-1:L]之和。
为了最小化改进后的多操作数加法树的关键路径,每个HRCL加法器中的低比特加法器的操作数位长L应为根节点加法器的操作数位长的一半,即
Figure BDA0002830140780000071
如图8所示,是一个8输入8bits的改进后的多操作数加法树。其中,所有低比特加法器均为一个5bit的加法器,每层的高比特加法器分别为3bit加法器,4bit加法器和5bit的加法器。此外,ai,t,bi,t为Adder i的输入数据,Si,t为Adder i的输出数据,Ci,t为Adder i中进位寄存器的进位比特,下标t表示来自t时刻的数据。
从图8中不难发现,加法器树中的关键路径为5bit加法器的进位链,而对于一个8输入8bits的传统二叉加法树而言,其关键路径为10bits加法器的进位链(出现在根加法器),因此,在改进后的多操作数加法树中,进位链的长度减少了50%。因此,本实施例所提出的多操作数加法树,既能充分利用进位链资源,又能避免由于多个carry4级联所导致的传输延迟的增加。
实验结果
为了比较本实施例的二值卷积单元和传统的二值卷积单元之间的资源使用量以及时延性能,不失一般性地,本实施例设计了两类不同类型的卷积运算,分别为对称结构(8输入),以及非对称结构(9输入)。对于输入数据,则选择8bits、12bits和16bits三种常见的位宽,在Xilinx VC709FPGA平台上进行试验,获得资源消耗数据如表1所示。
从表1可以看出,在查找表、寄存器以及进位链等资源的使用量上,本实施例的二值卷积单元都远远优于传统型二值卷积单元。具体来看,本实施例约节省了50%~60%的查找表资源,15%的寄存器资源,以及20%~45%的进位链资源,并且具有更小的时延。
表1两种二值卷积单元的资源消耗与时延
Figure BDA0002830140780000072
Figure BDA0002830140780000081
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于FPGA的高速低资源的二值卷积单元,其特征在于:所述的二值卷积单元包括若干个乘加单元MA,若干个加法树,
所述的乘加单元MA所实现的运算为w2i-1⊙I2i-1+w2i⊙I2i,所述的加法树完成所有乘加单元MA输出结果的求和操作;
所述的二值卷积单元所实现的运算如下:
Figure FDA0002830140770000011
并输出:
Figure FDA0002830140770000012
其中,N表示卷积运算的长度,In表示输入特征图的激活值,Wn表示二值化权重,取值为-1或1,分别用单比特0和1代表,wn表示单比特,i表示大于0的整数。
2.根据权利要求1所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:当N为偶数,所述的二值卷积单元包括N/2个的乘加单元MA,以及N/2个输入多操作数加法器,每两组Wn和每两组In作为一个乘加单元MA的输入数据;
当N为奇数,所述的二值卷积单元包括
Figure FDA0002830140770000013
个的乘加单元MA单元,
Figure FDA0002830140770000014
个输入多操作数加法器,以及一个近似二值乘法器用于处理余下的Wn数据和In数据。
3.根据权利要求2所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:所述的乘加单元MA采用Xilinx FPGA中进位链Carry4实现Mbit的有符号加法操作,Mbit表示位宽。
4.根据权利要求3所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:对于Mbit的有符号加法操作,采用M个LUT6和
Figure FDA0002830140770000015
个进位链Carry4实现有符号加法操作;每4个LUT6处理的结果输入一个进位链Carry4中进行处理,相邻的两个进位链Carry4级联,实现进位比特在
Figure FDA0002830140770000016
个Carry4中传输。
5.根据权利要求4所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:在级联的两个进位链Carry4之间插入一级进位寄存器,将M bit乘加单元MA分为处理高M-L bits输入数据的高比特乘加单元和处理低L bits输入数据的低比特乘加单元,即高比特乘加单元和低比特乘加单元通过一个进位寄存器级联。
6.根据权利要求5所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:在t时刻,低比特乘加单元的进位比特Cint-1通过进位寄存器传输到高比特乘加单元,实现低比特乘加单元计算来自t-1时刻的w1,t-1×I1,t-1[M-1:L]与w2,t-1×I2,t-1[M-1:L]之和。
7.根据权利要求2所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:所述的输入多操作数加法树包括若干个加法器,所述的加法器采用HRCL加法器,所述的HRCL加法器由一个L bit的低比特加法器、一个进位比特寄存器与一个(M-L)bit的高比特加法器串联组成。
8.根据权利要求7所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:在t时刻,低比特加法器的进位比特c1,t-1通过进位比特寄存器传输到高比特加法器,实现低比特加法器计算来自t-1时刻的a1,t-1[M-1:L]与b1,t-1[M-1:L]之和。
9.根据权利要求6或8任一项所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:L为
Figure FDA0002830140770000021
10.根据权利要求2所述的基于FPGA的高速低资源的二值卷积单元,其特征在于:所述的近似二值乘法器实现的运算如下:
Figure FDA0002830140770000022
其中,O代表输出特征图的激活值,f是激活函数,bias是偏置项,⊙代表XNOR操作,
Figure FDA0002830140770000023
CN202011440077.2A 2020-12-10 2020-12-10 一种基于fpga的高速低资源的二值卷积单元 Active CN112632878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011440077.2A CN112632878B (zh) 2020-12-10 2020-12-10 一种基于fpga的高速低资源的二值卷积单元

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011440077.2A CN112632878B (zh) 2020-12-10 2020-12-10 一种基于fpga的高速低资源的二值卷积单元

Publications (2)

Publication Number Publication Date
CN112632878A true CN112632878A (zh) 2021-04-09
CN112632878B CN112632878B (zh) 2023-11-24

Family

ID=75309221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011440077.2A Active CN112632878B (zh) 2020-12-10 2020-12-10 一种基于fpga的高速低资源的二值卷积单元

Country Status (1)

Country Link
CN (1) CN112632878B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160246571A1 (en) * 2013-10-02 2016-08-25 The Penn State Research Foundation Techniques and devices for performing arithmetic
CN110059814A (zh) * 2019-03-11 2019-07-26 中山大学 一种基于fpga的查找表式卷积运算硬件结构
CN110852416A (zh) * 2019-09-30 2020-02-28 成都恒创新星科技有限公司 基于低精度浮点数数据表现形式的cnn加速计算方法及系统
CN111258538A (zh) * 2020-01-13 2020-06-09 电子科技大学 一种基于fpga的大位宽的高性能加法器结构

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160246571A1 (en) * 2013-10-02 2016-08-25 The Penn State Research Foundation Techniques and devices for performing arithmetic
CN110059814A (zh) * 2019-03-11 2019-07-26 中山大学 一种基于fpga的查找表式卷积运算硬件结构
CN110852416A (zh) * 2019-09-30 2020-02-28 成都恒创新星科技有限公司 基于低精度浮点数数据表现形式的cnn加速计算方法及系统
CN111258538A (zh) * 2020-01-13 2020-06-09 电子科技大学 一种基于fpga的大位宽的高性能加法器结构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆宇鹏 等: "基于FPGA的数字滤波器的设计与实现", 电声技术, pages 23 - 28 *

Also Published As

Publication number Publication date
CN112632878B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111832719A (zh) 一种定点量化的卷积神经网络加速器计算电路
Jaiswal et al. Low power wallace tree multiplier using modified full adder
CN112540743B (zh) 面向可重构处理器的有无符号乘累加器及方法
CN110110852B (zh) 一种深度学习网络移植到fpag平台的方法
CN117149130B (zh) 一种应用于fpga嵌入式dsp的多精度浮点乘法器结构
CN113283587A (zh) 一种Winograd卷积运算加速方法及加速模块
CN115018062A (zh) 一种基于fpga的卷积神经网络加速器
CN117170623B (zh) 面向神经网络计算的多位宽重构近似张量乘加方法与系统
Neelima et al. FIR Filter design using Urdhva Triyagbhyam based on Truncated Wallace and Dadda Multiplier as Basic Multiplication Unit
CN114548387A (zh) 神经网络处理器执行乘法运算的方法和神经网络处理器
Kandula et al. Area efficient vlsi architecture for square root carry select adder using zero finding logic
CN112632878B (zh) 一种基于fpga的高速低资源的二值卷积单元
CN110837624B (zh) 一种针对sigmoid函数的近似计算装置
CN110555519A (zh) 一种基于符号随机计算的低复杂度卷积神经网络
CN115526131A (zh) 多级编码近似计算Tanh函数的方法及装置
Nezhad et al. High-speed multiplier design using multi-operand multipliers
CN109117114B (zh) 一种基于查找表的低复杂度近似乘法器
CN113554163A (zh) 卷积神经网络加速器
US20200125329A1 (en) Rank-based dot product circuitry
Kalaiselvi et al. Area efficient high speed and low power MAC unit
Kulkarni et al. Energy-efficient architecture for high-performance FIR adaptive filter using hybridizing CSDTCSE-CRABRA based distributed arithmetic design: Noise removal application in IoT-based WSN
CN113592067B (zh) 一种用于卷积神经网络的可配置型卷积计算电路
Wang et al. A FPGA Embedded DSP Supporting Parallel Multiple Low Bit-Width Multiply-Accumulate Operations
Chandrika et al. Design and Comparison of Wallace Multiplier Based on Symmetric Stacking and High speed counters
Sahoo et al. Multichannel Filters for Wireless Networks: Lookup-Table-Based Efficient Implementation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant