CN113657587B

CN113657587B - 基于fpga的可变形卷积加速方法及装置

Info

Publication number: CN113657587B
Application number: CN202110945782.6A
Authority: CN
Inventors: 李杉; 曹姗; 惠兰清; 徐树公
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-09-26
Anticipated expiration: 2041-08-17
Also published as: CN113657587A

Abstract

一种基于FPGA的可变形卷积加速方法及装置，包括：数据选择模块、双线性插值模块和数据匹配模块，数据选择模块使用多个多路选择器，按照偏移量选择出待计算的像素并输出至双线性插值模块，双线性插值模块使用六个乘法器计算每一个像素点，再将其与权重配置好数据流，数据选择模块进行可变形卷积中对于像素添加偏移的操作并输出对应的数据。本发明在人脸检测，摄像头识别物体等方面有着出色的应用，并且让可变形卷积更适应于FPGA上的实现，可以替代所有的普通卷积，达到精度的提升。

Description

基于FPGA的可变形卷积加速方法及装置

技术领域

本发明涉及的是一种神经网络应用领域的技术，具体是一种基于FPGA的可变形卷积加速方法及装置。

背景技术

现有的卷积神经网络中所用到的模块，大都是有着固定的几何结构，这就导致了现有的卷积神经网络在本质上来说有着极为有限的几何建模能力。这在处理类似目标检测或语义分割等对几何形变建模的要求较高的任务中，其性能通常不是很好。可变形卷积的提出对此类问题的解决有着很好的效果。可变形卷积中使用了两个模块来提高卷积神经网络对几何变换的建模能力，这两个模块即可变形卷积模块和可变形兴趣区域池化模块。他们都是在原有结构的基础上，将模块中对空间采样的位置信息进行进一步的位移而调整得到的新模块。这个位移是可以通过类似通常神经网络的反向传播算法学习得到，所以这个学习的过程可以通过标准的端到端的方法训练得到，而不需要额外的监督学习。训练好之后，就可以直接替代原有的模块，进行可变形卷积的运算。通过大量的实验表明，可变形卷积在语义分割和目标检测等这类复杂的视觉任务上有很高的效率。目前，可变形卷积的集成电路的实现少有研究，所以本专利对于可变形卷积的硬件上的实现进行了讨论和研究。随着人工智能领域的不断发展，更大的数据量，更复杂的计算复杂度以及更高的能耗要求势必会成为其性能提升的重大阻碍。已有的神经网络运算平台(CPU，GPU，现有神经网络加速器)已无法满足用户要求。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于FPGA的可变形卷积加速方法及装置，由于其在目标检测和语义分割上的优良效果，可以在实际应用中例如人脸检测，摄像头识别物体等方面有着出色的应用，并且让可变形卷积更适应于FPGA上的实现。可以替代所有的普通卷积，达到精度的提升，并且在例如语义分割，目标检测等任务上取得了较好的效果。

本发明是通过以下技术方案实现的：

本发明涉及一种针对硬件友好修改的可变形卷积方法，具体为：其中：Δp_n为在普通卷积的基础上，对于3×3的感受野中的每一个像素点都添加的偏移量；Δm为在感受野中加入的掩模，y为卷积输出图像，x为卷积输入图像，w为卷积核，p₀为卷积时对应输出点的坐标，p_n为感受野相较于输出点的偏移。

所述的感受野，即3×3的方形区域R＝{(-1，-1)，(-1，0)，...，(0，1)，(1，1)}，其中(0,0)为这个区域的中心。

所述的掩模Δm与偏移量Δp_n一样通过卷积得到以外，进一步将其归一化到0到1之间，具体为：其中：a为该分段函数中间线段的取值上界，x为函数的输入，y为函数的输出。

所述的归一化，利用sigmoid靠近0点附近的线性区，采用一个线段来替代，然后使用一个斜率为1/4的分段函数来代替sigmoid函数，只需要通过移位来实现，不需要乘法器。

技术效果

本发明整体解决了现有技术可变形卷积偏移量过大不适应于硬件实现，DCNV2算法中sigmoid函数不适应于硬件实现的不足。本发明通过对DCNV2中的sigmoid函数进行了简化，将偏移量限制到一定的范围内，用一个分段函数替代，避免了硬件上实现的较大的开销；将偏移量限制到一定的范围内，避免了硬件上存储资源的过多消耗。与现有技术相比，本发明使用了可变形卷积替代了原始的普通卷积，这样使得卷积的精度达到了提升，并且在例如语义分割，目标检测等任务上取得了较好的效果。

附图说明

图1为现有卷积核的模型示意图；

图2为可变形卷积加速系统示意图；

图3为数据选择模块示意图；

图4为双线性插值示意图；

图5为优化双线性插值电路示意图；

图6为双线性插值模块示意图；

图7为数据匹配模块示意图。

具体实施方式

如图1所示，为在应用中不同规则形状的卷积核的模型示意图。图中(a)展示为正方形3×3一般规则形状的网格的卷积核；在图中(a)所示的一般规则网格的卷积核基础上增加偏移量，就可以形成如(b)、(c)、(d)所示的非规则网格或其他规则网格的卷积核。如(b)展示为随机变形的卷积核；(c)展示为中心向外扩散规则的卷积核，类似于空洞卷积；(d)展示为顺时针向外旋转规则的卷积核。

本实施例涉及一种针对硬件友好修改的可变形卷积方法，具体为：y(p₀)＝∑_pn∈Rw(p_n)·x(p₀+p_n+Δp_n)*Δm，其中：Δp_n为在普通卷积的基础上，对于3×3的感受野中的每一个像素点都添加的偏移量；Δm为在感受野中加入的掩模。

所述的掩模Δm与偏移量Δp_n一样通过卷积得到以外，进一步使用sigmoid函数将其归一化到0到1之间，具体为：其中：a为该分段函数中间线段的取值上界，x为函数的输入，y为函数的输出。本实施例中取a＝1。

表1为sigmoid函数每隔0.2取一个点的函数值及相邻两个点之间斜率的对应关系：

如图2所示，为实现上述方法的可变形卷积模块，包括：数据选择模块、双线性插值模块和数据匹配模块，其中：数据选择模块使用多个多路选择器，按照偏移量选择出待计算的像素并输出至双线性插值模块，双线性插值模块使用六个乘法器计算每一个像素点，再将其与权重配置好数据流，数据选择模块进行可变形卷积中对于像素添加偏移的操作并输出对应的数据。

如图3所示，所述的数据选择模块包括：像素存储单元、多路选择器单元、偏移量掩模存储单元和偏移量掩模处理单元，其中：像素存储单元与偏移量掩模存储单元分别读入像素、偏移量和掩模，多路选择器单元根据预设偏移量的取值范围，将像素分割为若干像素块，偏移量掩模处理单元根据偏移量和掩模进行限制范围和对掩模的处理操作，并将偏移量的整数部分输出至多路选择器单元用于选出待计算的四个像素块、将偏移量的小数部分和掩模输出至双线性插值模块。

所述的偏移量掩模处理单元的速度由多路选择器单元的并行度确定。

本实施例将偏移量限制在[-3,3]之间，即每个像素块的大小为7×7。

本实施例中像素一行有224个点，多路选择器单元一次处理14个点；为了提升该模块的速度，优选进一步在资源量允许的条件下提高多路选择器单元一次处理的点的个数来提升速度。例如可以同时并行两个多路选择器单元，使得其一次处理28个点，该模块的速度也就提升了2倍。

如图4所示，所述的双线性插值将双线性插值分解为两个辅助点的线性插值，即先计算出辅助点位置，再获得插值点的像素值，具体为：

其中：/>其中：Q₁₁～Q₂₂分别为用于双线性插值的四个点，P为需要计算出双线性插值后的像素的点，R₁，R₂为辅助点，f()为获得该点对应的像素值的函数。

由于相邻点的坐标差为1，因此y₂-y₁及x₂-x₁均为1，故上式简化为f(P)＝f(Q₁₁)·(x₂-x)·(y₂-y)+f(Q₁₂)·(x₂-x)·(y-y₁)+f(Q₂₁)·(x-x₁)·(y₂-y)+f(Q₂₂)·(x-x₁)·(y-y₁)，即需要8个乘法器以及两个时钟周期来实现。

优选地，如图5所示，通过提取公因式：f(P)＝(x₂-x)·(f(Q₁₁)·(y₂-y)+f(Q₁₂)·(y-y₁))+(x-x₁)·(f(Q₂₁)·(y₂-y)+f(Q₂₂)·(y-y₁))，可将8次乘法简化为6次乘法，同时也是两个时钟周期来实现，经过双线性插值后乘上一个Δm，即给每个感受野乘的掩模。

如图6所示，所述的双线性插值模块由若干个双线性插值子模块组成，每一个双线性插值子模块根据数据选择模块生成的像素块以及偏移量的小数部分和掩模完成一个点的双线性插值运算并输出变换后的像素值。

本实施例可变形卷积模块并行度为一次处理14个点，因此相应的双线性插值子模块有14个。

如图7所示，所述的数据匹配模块包括：变化后的像素存储单元和权重存储单元，其分别接收双线性插值模块输出的变换后的像素值以及来自片外的权重后，分别按照特定的数据流匹配后输出至密集计算模块进行卷积操作。

所述的密集计算模块由计算单元子模块(PE)构成，每个子模块处理来自数据匹配模块输出的像素值和权重值，该子模块的个数为输入特征图通道并行计算数。

由于二维卷积包含特征图左右两边的填充，所以密集计算模块的输入长度比输出的长度多二，输入特征图通道并行计算数即为输出计算结果的长度。

所述的可变形卷积模块进一步输出权重与像素数至密集计算模块、数据整理模块组成可变形卷积加速系统，其中：密集计算模块对权重与像素进行乘加处理，得到卷积结果，数据整理模块将密集计算模块的运算结果存储到输出特征图缓存器中，并且根据需要进行激活、池化等操作。

所述的数据整理模块具体包括：池化子模块和激活子模块，当前卷积层中需要池化和激活操作时则数据通过相应子模块处理。

所述的可变形卷积加速系统中进一步设有全连接模块，当网络中有全连接层，当网络中的卷积层全部做完之后，全连接模块开始工作，即读入卷积层最后一层输出的数据和权重数据进行矩阵乘法操作。

所述的可变形卷积加速系统中进一步设有用来控制片内与片外DDR之间数据的交互的DDR控制模块，数据整理模块按网络下一层所需进行顺序排列并输出数据，通过DDR控制模块输出至片外的DDR中。

本实施例在多个网络上实施上述方法，可以方便的应用于各种神经网络中，并且带来了较少的硬件资源消耗与可观的精度。

表2为不加可变形卷积的算法、加了原始可变形卷积的算法，以及加了适用于硬件实现的可变形卷积算法，在COCO数据集上精度对比的表，使用的网络为resnet50_retinanet.

表2

表3为加可变形卷积的算法、加了原始可变形卷积的算法，以及加了适用于硬件实现的可变形卷积算法，在COCO数据集上精度对比的表，使用的网络为resnet50_fcos

表3

本实施例使用的算法在两个应用于检测任务上的网络，retinanet，fcos上进行了算法有效性的验证。

主干网络使用的时resnet50.可变形卷积应用于骨干网络中。表格中baseline表示不加可变形卷积的原始网络，DCN表示使用原始可变形卷积算法的网络，myDCN表示本实施例使用的针对硬件友好的可变形卷积算法的网络。结果显示相较于基线而言有精度的提升，而对于原始的可变形卷积算法精度也没有太大的差别。实验证明了本实施例提出的算法的有效性。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种针对硬件友好修改的可变形卷积方法的可变形卷积模块，其特征在于，包括：数据选择模块、双线性插值模块和数据匹配模块，其中：数据选择模块使用多个多路选择器，按照偏移量选择出待计算的像素并输出至双线性插值模块，双线性插值模块使用六个乘法器计算每一个像素点，再将其与权重配置好数据流，数据选择模块进行可变形卷积中对于像素添加偏移的操作并输出对应的数据；

所述的可变形卷积是指：卷积输出图像其中：Δp_n为在普通卷积的基础上，对于3×3的感受野中的每一个像素点都添加的偏移量；Δm为在感受野中加入的掩模，y为卷积输出图像，x为卷积输入图像，w为卷积核，p₀为卷积时对应输出点的坐标，p_n为感受野相较于输出点的偏移；

所述的掩模Δm与偏移量Δp_n一样通过卷积得到以外，进一步将其归一化到0到1之间，具体为：其中：a为该分段函数中间线段的取值上界，x为函数的输入，y为函数的输出；

所述的数据选择模块包括：像素存储单元、多路选择器单元、偏移量掩模存储单元和偏移量掩模处理单元，其中：像素存储单元与偏移量掩模存储单元分别读入像素、偏移量和掩模，多路选择器单元根据预设偏移量的取值范围，将像素分割为若干像素块，偏移量掩模处理单元根据偏移量和掩模进行限制范围和对掩模的处理操作，并将偏移量的整数部分输出至多路选择器单元用于选出待计算的四个像素块、将偏移量的小数部分和掩模输出至双线性插值模块。

2.根据权利要求1所述的可变形卷积模块，其特征是，所述的感受野，即3×3的方形区域R＝{(-1,-1)，(-1,0)，…，(0,1)，(1,1)}，其中(0,0)为这个区域的中心。

3.根据权利要求1所述的可变形卷积模块，其特征是，所述的双线性插值模块由若干个双线性插值子模块组成，每一个双线性插值子模块根据数据选择模块生成的像素块以及偏移量的小数部分和掩模完成一个点的双线性插值运算并输出变换后的像素值。

4.根据权利要求1或3所述的可变形卷积模块，其特征是，所述的双线性插值将双线性插值分解为两个辅助点的线性插值，即先计算出辅助点位置，再获得插值点的像素值，具体为：其中：/> 其中：Q₁₁～Q₂₂分别为用于双线性插值的四个点，P为需要计算出双线性插值后的像素的点，R₁，R₂为辅助点，f()为获得该点对应的像素值的函数。

5.根据权利要求1所述的可变形卷积模块，其特征是，所述的数据匹配模块包括：变化后的像素存储单元和权重存储单元，其分别接收双线性插值模块输出的变换后的像素值以及来自片外的权重后，分别按照特定的数据流匹配后输出至密集计算模块进行卷积操作；

6.根据权利要求1或2或3或5所述的可变形卷积模块，其特征在于，进一步包括：输出权重与像素数至密集计算模块和数据整理模块，其中：密集计算模块对权重与像素进行乘加处理，得到卷积结果，数据整理模块将密集计算模块的运算结果存储到输出特征图缓存器中，并且根据需要进行激活、池化操作。

7.根据权利要求6所述的可变形卷积模块，其特征是，进一步包括：全连接模块，当网络中有全连接层，当网络中的卷积层全部做完之后，全连接模块开始工作，即读入卷积层最后一层输出的数据和权重数据进行矩阵乘法操作。

8.根据权利要求6所述的可变形卷积模块，其特征是，进一步包括：用来控制片内与片外DDR之间数据的交互的DDR控制模块，数据整理模块按网络下一层所需进行顺序排列并输出数据，通过DDR控制模块输出至片外的DDR中。