CN113657587B - 基于fpga的可变形卷积加速方法及装置 - Google Patents

基于fpga的可变形卷积加速方法及装置 Download PDF

Info

Publication number
CN113657587B
CN113657587B CN202110945782.6A CN202110945782A CN113657587B CN 113657587 B CN113657587 B CN 113657587B CN 202110945782 A CN202110945782 A CN 202110945782A CN 113657587 B CN113657587 B CN 113657587B
Authority
CN
China
Prior art keywords
module
offset
data
pixel
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110945782.6A
Other languages
English (en)
Other versions
CN113657587A (zh
Inventor
李杉
曹姗
惠兰清
徐树公
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110945782.6A priority Critical patent/CN113657587B/zh
Publication of CN113657587A publication Critical patent/CN113657587A/zh
Application granted granted Critical
Publication of CN113657587B publication Critical patent/CN113657587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Processing (AREA)

Abstract

一种基于FPGA的可变形卷积加速方法及装置,包括:数据选择模块、双线性插值模块和数据匹配模块,数据选择模块使用多个多路选择器,按照偏移量选择出待计算的像素并输出至双线性插值模块,双线性插值模块使用六个乘法器计算每一个像素点,再将其与权重配置好数据流,数据选择模块进行可变形卷积中对于像素添加偏移的操作并输出对应的数据。本发明在人脸检测,摄像头识别物体等方面有着出色的应用,并且让可变形卷积更适应于FPGA上的实现,可以替代所有的普通卷积,达到精度的提升。

Description

基于FPGA的可变形卷积加速方法及装置
技术领域
本发明涉及的是一种神经网络应用领域的技术,具体是一种基于FPGA的可变形卷积加速方法及装置。
背景技术
现有的卷积神经网络中所用到的模块,大都是有着固定的几何结构,这就导致了现有的卷积神经网络在本质上来说有着极为有限的几何建模能力。这在处理类似目标检测或语义分割等对几何形变建模的要求较高的任务中,其性能通常不是很好。可变形卷积的提出对此类问题的解决有着很好的效果。可变形卷积中使用了两个模块来提高卷积神经网络对几何变换的建模能力,这两个模块即可变形卷积模块和可变形兴趣区域池化模块。他们都是在原有结构的基础上,将模块中对空间采样的位置信息进行进一步的位移而调整得到的新模块。这个位移是可以通过类似通常神经网络的反向传播算法学习得到,所以这个学习的过程可以通过标准的端到端的方法训练得到,而不需要额外的监督学习。训练好之后,就可以直接替代原有的模块,进行可变形卷积的运算。通过大量的实验表明,可变形卷积在语义分割和目标检测等这类复杂的视觉任务上有很高的效率。目前,可变形卷积的集成电路的实现少有研究,所以本专利对于可变形卷积的硬件上的实现进行了讨论和研究。随着人工智能领域的不断发展,更大的数据量,更复杂的计算复杂度以及更高的能耗要求势必会成为其性能提升的重大阻碍。已有的神经网络运算平台(CPU,GPU,现有神经网络加速器)已无法满足用户要求。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于FPGA的可变形卷积加速方法及装置,由于其在目标检测和语义分割上的优良效果,可以在实际应用中例如人脸检测,摄像头识别物体等方面有着出色的应用,并且让可变形卷积更适应于FPGA上的实现。可以替代所有的普通卷积,达到精度的提升,并且在例如语义分割,目标检测等任务上取得了较好的效果。
本发明是通过以下技术方案实现的:
本发明涉及一种针对硬件友好修改的可变形卷积方法,具体为: 其中:Δpn为在普通卷积的基础上,对于3×3的感受野中的每一个像素点都添加的偏移量;Δm为在感受野中加入的掩模,y为卷积输出图像,x为卷积输入图像,w为卷积核,p0为卷积时对应输出点的坐标,pn为感受野相较于输出点的偏移。
所述的感受野,即3×3的方形区域R={(-1,-1),(-1,0),...,(0,1),(1,1)},其中(0,0)为这个区域的中心。
所述的掩模Δm与偏移量Δpn一样通过卷积得到以外,进一步将其归一化到0到1之间,具体为:其中:a为该分段函数中间线段的取值上界,x为函数的输入,y为函数的输出。
所述的归一化,利用sigmoid靠近0点附近的线性区,采用一个线段来替代,然后使用一个斜率为1/4的分段函数来代替sigmoid函数,只需要通过移位来实现,不需要乘法器。
技术效果
本发明整体解决了现有技术可变形卷积偏移量过大不适应于硬件实现,DCNV2算法中sigmoid函数不适应于硬件实现的不足。本发明通过对DCNV2中的sigmoid函数进行了简化,将偏移量限制到一定的范围内,用一个分段函数替代,避免了硬件上实现的较大的开销;将偏移量限制到一定的范围内,避免了硬件上存储资源的过多消耗。与现有技术相比,本发明使用了可变形卷积替代了原始的普通卷积,这样使得卷积的精度达到了提升,并且在例如语义分割,目标检测等任务上取得了较好的效果。
附图说明
图1为现有卷积核的模型示意图;
图2为可变形卷积加速系统示意图;
图3为数据选择模块示意图;
图4为双线性插值示意图;
图5为优化双线性插值电路示意图;
图6为双线性插值模块示意图;
图7为数据匹配模块示意图。
具体实施方式
如图1所示,为在应用中不同规则形状的卷积核的模型示意图。图中(a)展示为正方形3×3一般规则形状的网格的卷积核;在图中(a)所示的一般规则网格的卷积核基础上增加偏移量,就可以形成如(b)、(c)、(d)所示的非规则网格或其他规则网格的卷积核。如(b)展示为随机变形的卷积核;(c)展示为中心向外扩散规则的卷积核,类似于空洞卷积;(d)展示为顺时针向外旋转规则的卷积核。
本实施例涉及一种针对硬件友好修改的可变形卷积方法,具体为:y(p0)=∑pn∈Rw(pn)·x(p0+pn+Δpn)*Δm,其中:Δpn为在普通卷积的基础上,对于3×3的感受野中的每一个像素点都添加的偏移量;Δm为在感受野中加入的掩模。
所述的感受野,即3×3的方形区域R={(-1,-1),(-1,0),...,(0,1),(1,1)},其中(0,0)为这个区域的中心。
所述的掩模Δm与偏移量Δpn一样通过卷积得到以外,进一步使用sigmoid函数将其归一化到0到1之间,具体为:其中:a为该分段函数中间线段的取值上界,x为函数的输入,y为函数的输出。本实施例中取a=1。
表1为sigmoid函数每隔0.2取一个点的函数值及相邻两个点之间斜率的对应关系:
如图2所示,为实现上述方法的可变形卷积模块,包括:数据选择模块、双线性插值模块和数据匹配模块,其中:数据选择模块使用多个多路选择器,按照偏移量选择出待计算的像素并输出至双线性插值模块,双线性插值模块使用六个乘法器计算每一个像素点,再将其与权重配置好数据流,数据选择模块进行可变形卷积中对于像素添加偏移的操作并输出对应的数据。
如图3所示,所述的数据选择模块包括:像素存储单元、多路选择器单元、偏移量掩模存储单元和偏移量掩模处理单元,其中:像素存储单元与偏移量掩模存储单元分别读入像素、偏移量和掩模,多路选择器单元根据预设偏移量的取值范围,将像素分割为若干像素块,偏移量掩模处理单元根据偏移量和掩模进行限制范围和对掩模的处理操作,并将偏移量的整数部分输出至多路选择器单元用于选出待计算的四个像素块、将偏移量的小数部分和掩模输出至双线性插值模块。
所述的偏移量掩模处理单元的速度由多路选择器单元的并行度确定。
本实施例将偏移量限制在[-3,3]之间,即每个像素块的大小为7×7。
本实施例中像素一行有224个点,多路选择器单元一次处理14个点;为了提升该模块的速度,优选进一步在资源量允许的条件下提高多路选择器单元一次处理的点的个数来提升速度。例如可以同时并行两个多路选择器单元,使得其一次处理28个点,该模块的速度也就提升了2倍。
如图4所示,所述的双线性插值将双线性插值分解为两个辅助点的线性插值,即先计算出辅助点位置,再获得插值点的像素值,具体为:
其中:/>其中:Q11~Q22分别为用于双线性插值的四个点,P为需要计算出双线性插值后的像素的点,R1,R2为辅助点,f()为获得该点对应的像素值的函数。
由于相邻点的坐标差为1,因此y2-y1及x2-x1均为1,故上式简化为f(P)=f(Q11)·(x2-x)·(y2-y)+f(Q12)·(x2-x)·(y-y1)+f(Q21)·(x-x1)·(y2-y)+f(Q22)·(x-x1)·(y-y1),即需要8个乘法器以及两个时钟周期来实现。
优选地,如图5所示,通过提取公因式:f(P)=(x2-x)·(f(Q11)·(y2-y)+f(Q12)·(y-y1))+(x-x1)·(f(Q21)·(y2-y)+f(Q22)·(y-y1)),可将8次乘法简化为6次乘法,同时也是两个时钟周期来实现,经过双线性插值后乘上一个Δm,即给每个感受野乘的掩模。
如图6所示,所述的双线性插值模块由若干个双线性插值子模块组成,每一个双线性插值子模块根据数据选择模块生成的像素块以及偏移量的小数部分和掩模完成一个点的双线性插值运算并输出变换后的像素值。
本实施例可变形卷积模块并行度为一次处理14个点,因此相应的双线性插值子模块有14个。
如图7所示,所述的数据匹配模块包括:变化后的像素存储单元和权重存储单元,其分别接收双线性插值模块输出的变换后的像素值以及来自片外的权重后,分别按照特定的数据流匹配后输出至密集计算模块进行卷积操作。
所述的密集计算模块由计算单元子模块(PE)构成,每个子模块处理来自数据匹配模块输出的像素值和权重值,该子模块的个数为输入特征图通道并行计算数。
由于二维卷积包含特征图左右两边的填充,所以密集计算模块的输入长度比输出的长度多二,输入特征图通道并行计算数即为输出计算结果的长度。
所述的可变形卷积模块进一步输出权重与像素数至密集计算模块、数据整理模块组成可变形卷积加速系统,其中:密集计算模块对权重与像素进行乘加处理,得到卷积结果,数据整理模块将密集计算模块的运算结果存储到输出特征图缓存器中,并且根据需要进行激活、池化等操作。
所述的数据整理模块具体包括:池化子模块和激活子模块,当前卷积层中需要池化和激活操作时则数据通过相应子模块处理。
所述的可变形卷积加速系统中进一步设有全连接模块,当网络中有全连接层,当网络中的卷积层全部做完之后,全连接模块开始工作,即读入卷积层最后一层输出的数据和权重数据进行矩阵乘法操作。
所述的可变形卷积加速系统中进一步设有用来控制片内与片外DDR之间数据的交互的DDR控制模块,数据整理模块按网络下一层所需进行顺序排列并输出数据,通过DDR控制模块输出至片外的DDR中。
本实施例在多个网络上实施上述方法,可以方便的应用于各种神经网络中,并且带来了较少的硬件资源消耗与可观的精度。
表2为不加可变形卷积的算法、加了原始可变形卷积的算法,以及加了适用于硬件实现的可变形卷积算法,在COCO数据集上精度对比的表,使用的网络为resnet50_retinanet.
表2
表3为加可变形卷积的算法、加了原始可变形卷积的算法,以及加了适用于硬件实现的可变形卷积算法,在COCO数据集上精度对比的表,使用的网络为resnet50_fcos
表3
本实施例使用的算法在两个应用于检测任务上的网络,retinanet,fcos上进行了算法有效性的验证。
主干网络使用的时resnet50.可变形卷积应用于骨干网络中。表格中baseline表示不加可变形卷积的原始网络,DCN表示使用原始可变形卷积算法的网络,myDCN表示本实施例使用的针对硬件友好的可变形卷积算法的网络。结果显示相较于基线而言有精度的提升,而对于原始的可变形卷积算法精度也没有太大的差别。实验证明了本实施例提出的算法的有效性。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种针对硬件友好修改的可变形卷积方法的可变形卷积模块,其特征在于,包括:数据选择模块、双线性插值模块和数据匹配模块,其中:数据选择模块使用多个多路选择器,按照偏移量选择出待计算的像素并输出至双线性插值模块,双线性插值模块使用六个乘法器计算每一个像素点,再将其与权重配置好数据流,数据选择模块进行可变形卷积中对于像素添加偏移的操作并输出对应的数据;
所述的可变形卷积是指:卷积输出图像 其中:Δpn为在普通卷积的基础上,对于3×3的感受野中的每一个像素点都添加的偏移量;Δm为在感受野中加入的掩模,y为卷积输出图像,x为卷积输入图像,w为卷积核,p0为卷积时对应输出点的坐标,pn为感受野相较于输出点的偏移;
所述的掩模Δm与偏移量Δpn一样通过卷积得到以外,进一步将其归一化到0到1之间,具体为:其中:a为该分段函数中间线段的取值上界,x为函数的输入,y为函数的输出;
所述的数据选择模块包括:像素存储单元、多路选择器单元、偏移量掩模存储单元和偏移量掩模处理单元,其中:像素存储单元与偏移量掩模存储单元分别读入像素、偏移量和掩模,多路选择器单元根据预设偏移量的取值范围,将像素分割为若干像素块,偏移量掩模处理单元根据偏移量和掩模进行限制范围和对掩模的处理操作,并将偏移量的整数部分输出至多路选择器单元用于选出待计算的四个像素块、将偏移量的小数部分和掩模输出至双线性插值模块。
2.根据权利要求1所述的可变形卷积模块,其特征是,所述的感受野,即3×3的方形区域R={(-1,-1),(-1,0),…,(0,1),(1,1)},其中(0,0)为这个区域的中心。
3.根据权利要求1所述的可变形卷积模块,其特征是,所述的双线性插值模块由若干个双线性插值子模块组成,每一个双线性插值子模块根据数据选择模块生成的像素块以及偏移量的小数部分和掩模完成一个点的双线性插值运算并输出变换后的像素值。
4.根据权利要求1或3所述的可变形卷积模块,其特征是,所述的双线性插值将双线性插值分解为两个辅助点的线性插值,即先计算出辅助点位置,再获得插值点的像素值,具体为:其中:/> 其中:Q11~Q22分别为用于双线性插值的四个点,P为需要计算出双线性插值后的像素的点,R1,R2为辅助点,f()为获得该点对应的像素值的函数。
5.根据权利要求1所述的可变形卷积模块,其特征是,所述的数据匹配模块包括:变化后的像素存储单元和权重存储单元,其分别接收双线性插值模块输出的变换后的像素值以及来自片外的权重后,分别按照特定的数据流匹配后输出至密集计算模块进行卷积操作;
所述的密集计算模块由计算单元子模块(PE)构成,每个子模块处理来自数据匹配模块输出的像素值和权重值,该子模块的个数为输入特征图通道并行计算数。
6.根据权利要求1或2或3或5所述的可变形卷积模块,其特征在于,进一步包括:输出权重与像素数至密集计算模块和数据整理模块,其中:密集计算模块对权重与像素进行乘加处理,得到卷积结果,数据整理模块将密集计算模块的运算结果存储到输出特征图缓存器中,并且根据需要进行激活、池化操作。
7.根据权利要求6所述的可变形卷积模块,其特征是,进一步包括:全连接模块,当网络中有全连接层,当网络中的卷积层全部做完之后,全连接模块开始工作,即读入卷积层最后一层输出的数据和权重数据进行矩阵乘法操作。
8.根据权利要求6所述的可变形卷积模块,其特征是,进一步包括:用来控制片内与片外DDR之间数据的交互的DDR控制模块,数据整理模块按网络下一层所需进行顺序排列并输出数据,通过DDR控制模块输出至片外的DDR中。
CN202110945782.6A 2021-08-17 2021-08-17 基于fpga的可变形卷积加速方法及装置 Active CN113657587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110945782.6A CN113657587B (zh) 2021-08-17 2021-08-17 基于fpga的可变形卷积加速方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110945782.6A CN113657587B (zh) 2021-08-17 2021-08-17 基于fpga的可变形卷积加速方法及装置

Publications (2)

Publication Number Publication Date
CN113657587A CN113657587A (zh) 2021-11-16
CN113657587B true CN113657587B (zh) 2023-09-26

Family

ID=78492135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110945782.6A Active CN113657587B (zh) 2021-08-17 2021-08-17 基于fpga的可变形卷积加速方法及装置

Country Status (1)

Country Link
CN (1) CN113657587B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227507B (zh) * 2023-05-10 2023-07-14 摩尔线程智能科技(北京)有限责任公司 一种用于进行双线性插值处理的运算装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
WO2019108252A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN110009092A (zh) * 2017-11-03 2019-07-12 畅想科技有限公司 用于深度神经网络的激活函数
CN111340198A (zh) * 2020-03-26 2020-06-26 上海大学 基于fpga的数据高度复用的神经网络加速器
CN112257727A (zh) * 2020-11-03 2021-01-22 西南石油大学 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN112580675A (zh) * 2019-09-29 2021-03-30 北京地平线机器人技术研发有限公司 图像处理方法及装置、计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8496585B2 (en) * 2006-01-26 2013-07-30 The University Of Toledo High frame rate imaging system
CN108830205B (zh) * 2018-06-04 2019-06-14 江南大学 基于改进全卷积网络的多尺度感知行人检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009092A (zh) * 2017-11-03 2019-07-12 畅想科技有限公司 用于深度神经网络的激活函数
WO2019108252A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
CN112580675A (zh) * 2019-09-29 2021-03-30 北京地平线机器人技术研发有限公司 图像处理方法及装置、计算机可读存储介质
CN111340198A (zh) * 2020-03-26 2020-06-26 上海大学 基于fpga的数据高度复用的神经网络加速器
CN112257727A (zh) * 2020-11-03 2021-01-22 西南石油大学 一种基于深度学习自适应可变形卷积的特征图像提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deformable ConvNets v2: More Deformable, Better Results;Xizhou Zhu等;《arXiv》;全文 *
Differentiable Soft Quantization:Bridging Full-Precision and Low-Bit Neural Networks;Ruihao Gong等;《arXiv》;全文 *
基于FPGA的sigmoid函数实现;张玉玺,刘寒颖,张耀天;《第十届全国信号和智能信息处理与应用学术会议专刊》;全文 *
基于忆阻器交叉阵列的卷积神经网络电路设计;胡飞;尤志强;刘鹏;邝继顺;;计算机研究与发展(第05期);全文 *
面向卷积神经网络加速器吞吐量优化的FPGA自动化设计方法;陆维娜;胡瑜;叶靖;李晓维;;计算机辅助设计与图形学学报(第11期);全文 *

Also Published As

Publication number Publication date
CN113657587A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN111684473B (zh) 提高神经网络阵列的性能
CN110458279B (zh) 一种基于fpga的二值神经网络加速方法及系统
Yepez et al. Stride 2 1-D, 2-D, and 3-D Winograd for convolutional neural networks
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
Mahmoud et al. Diffy: A Déjà vu-free differential deep neural network accelerator
Chang et al. An efficient implementation of 2D convolution in CNN
CN113874883A (zh) 手部姿势估计
US20180276532A1 (en) Electronic apparatus for operating machine learning and method for operating machine learning
JP2018073102A (ja) 演算回路、その制御方法及びプログラム
CN111758107A (zh) 用于基于硬件的池化的系统和方法
Li et al. A multistage dataflow implementation of a deep convolutional neural network based on FPGA for high-speed object recognition
Parmar et al. A resource-efficient multiplierless systolic array architecture for convolutions in deep networks
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN111126385A (zh) 一种可变形活体小目标的深度学习智能识别方法
US11275966B2 (en) Calculation method using pixel-channel shuffle convolutional neural network and operating system using the same
Kala et al. UniWiG: Unified winograd-GEMM architecture for accelerating CNN on FPGAs
CN114092336B (zh) 基于双线性插值算法的图像缩放方法、装置、设备及介质
CN111652330A (zh) 图像处理方法、装置、系统、电子设备及可读存储介质
CN113657587B (zh) 基于fpga的可变形卷积加速方法及装置
CN108629405B (zh) 提高卷积神经网络计算效率的方法和装置
Hareth et al. Low power CNN hardware FPGA implementation
Chang et al. VSCNN: Convolution neural network accelerator with vector sparsity
Dhamodharan Design and analysis of cnn based residue number system for performance enhancement
CN110765413B (zh) 矩阵求和结构及神经网络计算平台
CN111009004B (zh) 一种加速图像匹配的硬件优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant