CN114399036A

CN114399036A - 一种基于一维Winograd算法的高效卷积计算单元

Info

Publication number: CN114399036A
Application number: CN202210046359.7A
Authority: CN
Inventors: 李辉; 叶亚洲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-26
Anticipated expiration: 2042-01-12
Also published as: CN114399036B

Abstract

本发明公开了一种基于一维Winograd算法的高效卷积计算单元，目的是提供一种针对多维度卷积的高效卷积计算方式。本发明由输入变换模块、点乘模块、输出变换模块以及计算模式控制模块组成。计算模式控制模块和点乘模块，通过对一维卷积的中间结果进行累加和清零操作得到二维卷积和三维卷积的中间结果，从而实现了对多个维度的卷积计算的支持。输入变换模块和输出变换模块利用变换矩阵全为整数的特点，使用加法和移位操作实现矩阵乘法，减少了乘法器的使用。在输入数据位宽不小于12bit时，本发明比常规的一维卷积计算单元具有更高的计算效率；相较于二维卷积计算单元，当输入数据位宽分别为16bit、24bit和32bit时，本发明的LUT使用量仅为其84％、75％和70％。

Description

一种基于一维Winograd算法的高效卷积计算单元

技术领域

本发明涉及深度学习算法的硬件加速领域，具体涉及一种基于一维Winograd算法的高效卷积计算单元的实现。

背景技术

近年来，卷积神经网络(CNN)得到了飞速发展，在图像分类、人脸识别、图像超分辨率重建等领域取得了巨大的成功。CNN对算力需求巨大，基于通用处理器(CPU)的实现效率不高，难以保证实时性。基于图形处理器(GPU)的实现能达到实时性要求，但存在功耗高、成本高等问题。基于专用集成电路(ASIC)的实现拥有良好的性能、功耗很低，但设计复杂且灵活性较差。FPGA可以提供丰富的计算资源和高度的设计灵活性，具有计算能力强、功耗较低等优点，是用于加速CNN的最佳平台之一。

卷积神经网络中运算量最大的是卷积层，通常卷积层的运算量占整个网络运算量90％以上，多数情况下CNN使用的是3*3的二维卷积或三维卷积，在自然语言处理等领域则使用一维卷积。对卷积计算的优化，是值得研究的关键问题。目前，一些研究者提出了基于Winograd算法的卷积计算方法，通过对输入特征图和权值数据进行特定的矩阵变换，加速了卷积计算的过程。然而，这些方法要么仅在软件上使用，很难移植到FPGA上；要么仅支持单一维度的卷积计算，通用性不够。

有鉴于此，如何在FPGA上设计基于Winograd算法的支持多个维度卷积的高效卷积计算单元，是目前需要解决的问题。

发明内容

本发明的目的在于提供一种多个维度通用的高效卷积计算单元，有效提升基于FPGA的卷积计算的效率和实时性。

在CVPR 2016会议上Andrew Lavin等人发表的“Fast Algorithms forConvolutional Neural Networks”中提出了使用二维Winograd算法对3*3的二维卷积计算进行了加速，然而该方法基于GPU进行实现且不支持一维的卷积限制了这种方法的使用，受此启发，本发明基于一维Winograd算法进行卷积计算单元的硬件实现，使其支持卷积尺寸分别为3*1、3*3以及3*3*C的一维、二维和三维卷积计算，其中C为输入特征图的通道数。

所述一维Winograd算法可以实现一维卷积计算，其公式如下：

Y＝A^T[(Gg)*(B^Td)]

其中，“*”代表向量的点乘，Y为一维卷积结果，G为卷积核变换矩阵，B^T为输入变换矩阵，A^T为输出变换矩阵，g是一维卷积核，尺寸大小为3*1，d是一维输入数据，尺寸大小为5*1。

本发明的技术方案是：高效的卷积计算单元由输入变换模块、点乘模块、输出变换模块以及计算模式控制模块；

输入变换模块根据一维Winograd算法对输入特征图数据进行变换，执行转换操作V＝(B^Td)，权值转换U＝(Gg)为离线转换，以查找表的方式进行存储；

点乘模块，实现一维Winograd算法中的点乘W＝U*V，得到一维、二维或三维卷积的中间结果；

输出变换模块根据一维Winograd算法，对W进行输出变换Y＝(A^TW)，得到卷积计算结果；

计算模式控制模块根据卷积的维度，选择相应维度的中间结果送入输出变换模块。

附图说明

图1为本发明用于说明一维Winograd算法计算一维卷积与直接计算一维卷积的等价关系；

图2为本发明用于说明一维卷积实现二维卷积的过程的示意图；

图3为本发明实施例中高效卷积计算单元的结构示意图；

图4为本发明中一维Winograd算法的输入变换矩阵B^T、输出变换矩阵A^T和卷积核变换矩阵G的具体内容；

图5为本发明实施例中基于加法器和移位操作实现的输入变换模块示意图；

图6为本发明实施例中基于加法器和移位操作实现的输出变换模块示意图；

图7用于说明常规的一维卷积计算单元和常规的二维卷积计算单元；

图8用于说明本发明提出的高效卷积计算单元与常规的一维卷积计算单元在不同位宽下资源使用情况的表格；

图9用于说明本发明提出的高效卷积计算单元与常规的二维卷积计算单元在不同位宽下资源使用情况的表格。

具体实施方式

为进一步阐明本发明的技术方案及优点，以下结合附图和具体实施例对本发明作进一步详细的说明。

直接一维卷积的计算方式如图1(b)所示，一维卷积结果等于输入input与卷积核filter的对应元素相乘再相加，图1(b)所示的3个input正好对应了图1(a)所示input中连续的3个卷积窗口；采用前述一维Winograd算法计算时，则可以一次算出3个一维卷积的结果，如图1(a)所示。

本发明提出的高效卷积计算单元基于多维卷积可以分解为一维卷积的思想，从基于一维Winograd算法的一维卷积出发，实现了对多个维度卷积计算的支持。图2展示了二维卷积分解为一维卷积的过程。图2(a)为一维卷积，图2(b)和图2(c)说明了二维卷积的计算结果与按行拆分后的三个一维卷积累加得到的结果一致。类似地，三维卷积也可以分解成多个通道二维卷积的累加。

本发明提出的高效卷积计算单元如图3所示，该结构包括输入变换模块、点乘模块、输出变换模块以及计算模式控制模块。

输入变换模块完成对输入特征图数据d的变换V＝B^Td,权值转换U＝Gg为离线转换，以查找表的方式进行存储。一维Winograd算法的输入变换矩阵B^T、卷积核变换矩阵G和输出变换矩阵A^T的具体内容如图4所示。

进一步地，上述输入变换矩阵B^T的系数均为整数，因此所进行的矩阵乘法通过加法和移位即可实现(减法电路与加法电路实质相同)，不需要使用乘法器资源。图5展示了本发明实施例中基于加法器和移位操作实现的输入变换模块示意图。

乘法计算单元由5个乘法器组成，用于完成一维Winograd算法中的点乘运算W＝U*V。乘法计算单元输出的结果即为一维卷积的中间结果TMP_1D；二维卷积计算累加器和三维卷积计算累加器均由5个累加器组成。二维卷积计算累加器对一维卷积的中间结果进行累加，每3次累加得到一个二维卷积的中间结果TMP_2D；三维卷积计算累加器对二维卷积的中间结果进行累加，每C次累加得到一个三维卷积的中间结果TMP_3D，C为输入特征图的通道数。

根据要进行的卷积计算的维度，计算模式控制模块通过设置输出选择信号SEL，控制多路复用器MUX输出相应维度卷积的中间结果W到输出变换模块；执行一维卷积时，输出一维卷积的中间结果TMP_1D；执行二维卷积时，输出二维卷积的中间结果TMP_2D；执行三维卷积时，输出三维卷积的中间结果TMP_3D。二维卷积累加器每完成3次累加，将被计算模式控制模块发出的累加器清零信号CLR_1D清零以确保该模块的正常计算；类似地，三维卷积累加器每完成C次累加，将被CLR_2D信号清零。二维卷积累加器和三维卷积累加器可以进行合并以减少资源的使用，只需要计算模式控制模块在正确的时机选择输出结果和清零累加器。

输出变换模块实现Winograd算法中Y＝A^TW，不同维度卷积的中间结果经过输出变换后，将得到3个相应维度的卷积结果。此外，累加器部分和输出变换模块可以交换位置而不影响输出结果的正确性，因为输出变化是线性变换。

进一步地，上述输出变换矩阵A^T的系数均为整数，因此所进行的矩阵乘法通过加法和移位即可实现，不需要使用乘法器资源。图6展示了本发明实施例中基于加法器和移位操作实现的输出变换模块示意图。

图8所示表格用于说明常规的一维卷积计算单元(图7(a)所示)和本发明提出的高效卷积计算单元在不同的权值和输入数据的位宽下的资源使用情况。为了在同一标准下进行对比，乘法器由Vivado 2019.2工具使用LUT搭建而不是调用DSP完成。高效卷积计算单元执行一维卷积时在一个时钟周期能算出3个一维卷积结果，而常规的一维卷积一个时钟周期只能算出一个一维卷积结果；如图8所示，以计算能力/资源使用量来衡量，当位宽为12bit时，本发明提出的结构LUT使用量为常规结构的2.89倍、计算能力是常规一维卷积结构的3倍，有一些优势。当数据位宽进一步增加，本发明使用的LUT资源量与常规一维卷积结构使用的LUT资源量的比值进一步下降，优势更加明显。在位宽分别为16bit、24bit和32bit时，本发明提出的结构的LUT使用量分别为常规一维卷积结构的2.55倍、2.27倍和2.12倍，而计算能力是常规一维卷积结构的3倍。

图9所示表格用于说明常规的二维卷积计算单元(图7(b)所示)和本发明提出的高效卷积计算单元在不同的权值和输入数据的位宽下的资源使用情况。同样地，乘法器由Vivado2019.2工具使用LUT搭建。高效卷积计算单元在执行二维卷积时，3个时钟周期能算出3个二维卷积结果，常规的二维卷积一个时钟周期只能算出一个二维卷积结果，两者的计算效率在时间上相同；如图9所示，当权值和输入数据的位宽为12bit时，提出的结构LUT使用量已经低于常规二维卷积结构；当数据位宽进一步增加时，两种结构之间资源使用量的差距进一步增大，在位宽为16bit、24bit和32bit时，本发明提出的结构LUT使用量分别为常规二维卷积结构的84％、75％和70％。

如前所述，三维卷积可以由二维卷积在通道方向上累加得到，相较于常规的三维卷积计算单元，在位宽超过12bit时本发明提出的高效卷积计算单元执行三维卷积时同样具有资源使用量上的优势。

综上所述，本发明提出的高效卷积计算单元具有以下优点：

1)相较于常规的一维、二维和三维卷积计算单元，相同的FPGA资源具有更强的计算能力。

2)具有良好的通用性，能够完成多个维度的卷积。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于一维Winograd算法的高效卷积计算单元，其特征在于：针对高效卷积计算需求，结合一维Winograd算法，提出了一种基于FPGA实现的兼容多维度卷积计算的高效卷积计算单元；所述高效卷积计算单元包括输入变换模块、点乘模块、输出变换模块以及计算模式控制模块；与常规结构的卷积计算单元相比，该计算单元不仅具有更好的通用性，能支持一维、二维和三维卷积计算，而且在输入数据和权值位宽在12bit及以上时使用的计算资源更少、性能更佳。

2.根据权利要求1所述的点乘模块，其特征在于：由乘法计算单元、二维卷积计算累加器和三维卷积计算累加器组成；乘法计算单元由5个乘法器组成，用于完成一维Winograd算法中的点乘运算W＝U*V；二维卷积计算累加器和三维卷积计算累加器均由5个累加器组成，通过对一维卷积的中间结果进行累加，配合计算模式控制模块实现对二维卷积和三维卷积的支持。

3.根据权利要求1所述的计算模式控制模块，其特征在于：根据卷积计算的维度，计算模式控制模块通过设置输出选择信号SEL，控制多路复用器MUX输出相应维度的卷积中间结果W送入输出变换模块；该模块还控制点乘模块中的累加器的清零，确保整个卷积计算单元正确工作。

4.根据权利要求1所述的输入变换模块，其特征在于：该模块通过加法和移位电路实现矩阵乘法，从而完成对输入特征图数据的变换。

5.根据权利要求1所述的输出变换模块，其特征在于：该模块通过加法和移位电路实现矩阵乘法，对点乘模块输出的中间结果进行变换，输出正确的卷积结果。