CN112950656A

CN112950656A - 一种基于fpga平台的按通道进行预读取数据的分块卷积方法

Info

Publication number: CN112950656A
Application number: CN202110253729.XA
Authority: CN
Inventors: 包振山; 郭鹏; 张文博
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-11

Abstract

一种基于FPGA平台的按通道进行预读取数据的分块卷积方法属于基于硬件的神经网络的定制化优化加速领域。本发明利用FPGA的高灵活性，对整个计算过程进行定制化设计，以提高整个推断过程的计算速度。在数据预读取方面，将特征图进行分块，从而消除传统卷积过程中的各层之间的依赖性，并且以按通道读取的方式进行数据读取，减少缓存的占用；在卷积过程中，利用循环流水和循环展开来充分利用FPGA的大量计算资源，增加计算的并行力度。同时为了使得流水线的流水间隔为1，本发明把并行循环展开层调整到最内层循环中。此种方法充分利用了数据局部性，并降低了硬件所需数据带宽，提高了计算吞吐率。

Description

一种基于FPGA平台的按通道进行预读取数据的分块卷积方法

技术领域

本发明涉及一种基于FPGA平台的按通道进行预读取数据的分块卷积方法，属于基于硬件的神经网络的定制化优化加速领域。

背景技术

近年来，卷积神经网络(CNN)在图像分类、目标检测和语音识别等方面取得了很大的进展。CNN在准确率上远远超过其他机器学习算法，但在精度提高的同时，CNN的模型网络参数不断加深增加，而且在CNN中的卷积运算是计算的主要方式，卷积会产生大量的计算资源消耗。因此在使用神经网络完成某一特定任务时，不仅所需的计算量和内存会越来越大，时间成本和功耗也会越来越高。所以，对CNN进行优化设计，对于网络加速和终端节点的部署方面具有重要意义。

GPU是目前CNN加速问题最流行的解决方案，主要是对卷积过程进行优化和加速，但由于GPU功耗大的缺点，很难在很多嵌入式设备中应用。为了将CNN推广到更多的应用领域，尤其是嵌入式设备，人们提出了许多基于FPGA和ASIC的硬件加速方案。基于FPGA的设计由于能达到比GPU更好的节能性能而受到越来越多的关注；它还比ASICs提供了更多的灵活性；更重要的是，高级合成(HLS)工具Vivado HLS和OpenCL的出现大大减少了开发时间和编程复杂性。

与GPU相比，FPGA具有更低的能耗，但在性能上仍远远落后于GPU。这主要是因为现有的CNN模型依赖于对浮点数据的密集计算。然而，FPGA有限的计算单元和片上缓冲器极大地限制了它的加速能力。为了减少计算内存和通信带宽的需求，可以利用模型压缩的方法减小CNN模型的大小，如利用低精度的权重、激活甚至梯度来训练CNN网络模型。但是，在上述方法中内存仍然有很高的占用，无法充分发挥FPGA可定制的优势。因此，本发明以减少FPGA内存占用为切入点，提出了按通道进行数据预读取的分块卷积方法，从而减少FPGA的内存占用，优化整个神经网络。

发明内容

本发明的目的在于提出一种基于FPGA平台的按通道进行预读取数据的分块卷积方法，创新点在于利用FPGA的高灵活性，对整个计算过程进行定制化设计，以提高整个推断过程的计算速度。在数据预读取方面，将特征图进行分块，从而消除传统卷积过程中的各层之间的依赖性，并且以按通道读取的方式进行数据读取，减少缓存的占用。本方法选用Xilinx公司的PYNQ-Z2芯片作为实验平台，首先通过PYNQ-Z2的处理系统(PS，ProcessingSystem，一个基于双ARM Cortex A9内核的处理系统，其中集成了内存存储器、外部存储器接口和大量的外设接口)部分将特征图进行加载，使用AXI4协议以直接地址访问(DMA，Direct Memory Access)的方式将数据传输到可编程逻辑(PL，Programmable Logic，基于Xilinx 7系列架构的可编程逻辑单元)部分。PS部分主要负责数据的输入和结果的输出，以及完成PS端的配置；而PL部分则负责将整个网络进行定制化的设计，将PS部分传输过来的特征图进行分块，同时在数据读取时，更改数据的读取方向，以减少内存的占用。面对多层循环计算时，将以循环展开的方式进行流水线设计。然后通过Vivado HLS和Vivado工具生成定制化的IP核，部署到FPGA开发板上。最后，网络的数据结果可以通过PS端基于Web访问的Jupyter Notebook(在线编辑工具)进行查看。

本发明采用的技术方案为一种基于FPGA平台的按通道进行预读取数据的分块卷积方法，属于软硬件协同设计的一种方法，该方法的实现步骤如下：

步骤1.对数据进行分块处理。

将输入特征图分割成4个大小相同的小块，为了保证每个小块进行卷积重新排列后的输出特征图与输入特征图经过卷积操作后得到的输出特征图大小相同，需要对每个小块四边进行填充操作，在本发明中选用0值进行填充。若输入特征图大小为8*8，卷积核大小为3*3，步长为1，现将输入特征图分割成4个等大小的小块，为保证分割前后得到的输出特征图大小相同，在此需将4个小块大小填充为6*6。

步骤2.按通道进行数据读取。

一般来说，输入特征图的维度按照batch size，input channels，height，weight的顺序排列，卷积核的维度按照output channels，input channels，height，weight的顺序排列。改变数据的读取方向需要通过转置这些维度使input channel成为最后一个维度。通过这种方式，数据将按通道进行读取，所占用的缓存大小最多为K*W*C(K为卷积核大小，W为输入特征图宽度，C为输入特征图通道数)，这将显著减少缓冲区内存的使用。

步骤3.卷积操作优化。

卷积可以看做是输入特征图与权重的矩阵乘法操作，公式如下：

y＝g(W^Tx) (1)

其中，g表示激活函数，x表示输入特征图，W^T表示卷积核的转置，y表示卷积核W在输入特征图x上学习到的特征，即输出特征图。

在卷积优化过程中，利用了并行计算和流水线的方法对矩阵运算进行加速。在FPGA中，输入特征图和卷积核都被存储在较小的内存单元中，以便能够并行获取数据；在计算过程中，由许多寄存器阶段组成，并非等待当前的计算完成，而是在下一个时钟周期继续获取内存，从而创建一个数据处理的流水线。因此，输出数据将在高吞吐量下生成，从而提高整体数据处理速度。

步骤4.根据步骤3，预测运算的关键代码，生成IP核。

在卷积IP核中，包括如下结构：

a.Input Buffer：输入数据缓冲区；

b.Weight Buffer：权值数据缓冲区；

c.Output Buffer：输出数据缓冲区；

d.AXI-Stream：允许无限制的数据突发传输，为高性能数据传输协议；

e.AXI-Lite：一种轻量级的地址映射单次传输协议，适用于硬件运算单元的控制信号传输；

f.Memory Interconnect：数据通路互联；

g.DMA：直接内存存取，负责加速器和内存间的数据传输；

h.Control Interconnect：控制信号线路互联；

i.PE：乘法计算单元；

本发明设计了大量的并行处理单元(PE)来提高计算性能，每个PE负责输入特征图的像素和相应权值的乘法计算，后面跟着一个加法树结构来累加卷积的中间结果。

步骤5.在操作系统下，将硬件比特流式的文件烧写到开发版中，并编写IP核和硬件设备的驱动。

在驱动的编写中，采用访问Linux字符设备的方式访问各个硬件设备；在DMA的驱动编写中采用映射机制进行数据填充；所述映射机制为在内存中预留出一段连续的物理内存，将其映射到内核空间中的一段地址中，然后将该段内核空间地址映射到用户空间。

本发明有益效果：

在本发明中，通过对特征图进行分块，并将分割后的特征图进行填充，消除了特征图间的依赖性；通过按通道进行数据的预读取，有效减少了缓冲区内存的使用；在卷积过程中，利用循环流水和循环展开来充分利用FPGA的大量计算资源，增加计算的并行力度。同时为了使得流水线的流水间隔为1，本发明把并行循环展开层调整到最内层循环中。此种方法充分利用了数据局部性，并降低了硬件所需数据带宽，提高了计算吞吐率。

附图说明

图1为整体架构。

图2为传统卷积与分块卷积

图3为特征图的分块填充。其中a、b分别为传统卷积与分块卷积。

图4为数据预读取。

图5为矩阵乘法。其中a、b分别为默认读取方式与按通道读取方式。

图6为矩阵乘法的优化设计。

其中a、b分别为矩阵乘法与流水线设计。

具体实施方式

为使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述。

本发明采用的技术方案为一种基于FPGA平台的按通道进行预读取数据的分块卷积方法，属于软硬件协同设计的一种方法，整体架构如图1所示，该方法的实现步骤如下：

步骤1.对数据进行分块处理。

在图2(a)中，我们可以看到，在传统的卷积过程中，并没有消除连续层间的数据依赖性，当B1计算完成后，并没有立即计算C1，因为参与C1计算需要B2、B3和B4。因此，在本发明中，采取分块的设计方案减少FPGA内存的占用，如图2(b)所示。

将输入特征图分割成4个大小相同的小块，为了保证每个小块进行卷积重新排列后的输出特征图与输入特征图经过卷积操作后得到的输出特征图大小相同，需要对每个小块四边进行填充操作，在本发明中选用0值进行填充。若输入特征图大小为8*8，卷积核大小为3*3，步长为1，现将输入特征图分割成4个等大小的小块，为保证分割前后得到的输出特征图大小相同，在此需将4个小块大小填充为6*6。如图3所示。

步骤2.按通道进行数据读取。

在图4中，对数据的读取方向做了相应的变化。一般来说，输入特征图的维度按照batch size，input channels，height，weight的顺序排列，卷积核的维度按照outputchannels，input channels，height，weight的顺序排列。在这两种排列中，输入通道被安排在高度和宽度之前，若将这些矩阵分解成数据流，几乎整个特征图都需要存储在缓冲区中，这对FPGA有限的内存来说显然是非常不推荐的操作。因此，需要改变数据的读取方向，通过转置这些维度使input channel成为最后一个维度。通过这种方式，数据将在通道之间流动，这意味着buffer的大小最多为K*W*C，这将显著减少缓冲区内存的使用。

步骤3.卷积操作优化。

卷积层的主要运算是矩阵乘法，如公式(1)所示。在图5中，矩阵C＝A*B，C中的每一个值都是通过相应的A行B列相乘得到。

y＝g(W^Tx) (1)

图6说明了FPGA如何通过并行计算和流水线来加速矩阵加法。假设矩阵乘法的维数为(M*3)*(3*N)。图6(a)为在FPGA上生成的数字硬件。内存块(1,3,5)存储输入特征图，内存块(2,4,6)存储权重。输入特征图和权重都被划分到较小的内存块中，从而可以并行获取多个输入数据。在每个时钟周期，三个新的操作数对被取到寄存器A1-3和B1-3，进行并行计算。在计算过程由许多寄存器阶段组成，并非等待当前的计算完成，而是在下一个时钟周期继续获取内存，创建一个数据处理的流水线(如图6(b)所示)。因此，输出数据将在高吞吐量下生成，从而提高整体数据处理速度。

步骤4.根据步骤3，预测运算的关键代码，生成IP核。

在卷积IP核中，包括如下结构：

a.Input Buffer：输入数据缓冲区；

b.Weight Buffer：权值数据缓冲区；

c.Output Buffer：输出数据缓冲区；

f.Memory Interconnect：数据通路互联；

g.DMA：直接内存存取，负责加速器和内存间的数据传输；

h.Control Interconnect：控制信号线路互联；

i.PE：乘法计算单元；

Claims

1.一种基于FPGA平台的按通道进行预读取数据的分块卷积方法，其特征在于：通过块卷积和按通道进行数据预读取的方法；同时在卷积过程中利用并行流水的方法优化卷积过程；

步骤1.对数据进行分块处理；

将输入特征图分割成4个大小相同的小块，为了保证每个小块进行卷积重新排列后的输出特征图与输入特征图经过卷积操作后得到的输出特征图大小相同，需要对每个小块四边进行填充操作，在本发明中选用0值进行填充；

步骤2.按通道进行数据读取；

输入特征图的维度按照batch size，input channels，height，weight的顺序排列，卷积核的维度按照output channels，input channels，height，weight的顺序排列；改变数据的读取方向即通过转置这些维度使input channel成为最后一个维度；

数据将按通道进行读取，所占用的缓存大小最多为K*W*C，其中K为卷积核大小，W为输入特征图宽度，C为输入特征图通道数；

步骤3.卷积操作优化；

卷积输入特征图与权重的矩阵乘法操作，公式如下：

y＝g(W^Tx) (1)

其中，g表示激活函数，x表示输入特征图，W^T表示卷积核的转置，y表示卷积核W在输入特征图x上学习到的特征，即输出特征图；

在卷积优化过程中，利用了并行计算和流水线的方法对矩阵运算进行加速；在FPGA中，输入特征图和卷积核都被存储在内存单元中，以便能够并行获取数据；在计算过程中，由许多寄存器阶段组成，并非等待当前的计算完成，而是在下一个时钟周期继续获取内存，从而创建一个数据处理的流水线；

步骤4.根据步骤3，预测运算的关键代码，生成IP核；

在卷积IP核中，包括如下结构：

a.Input Buffer：输入数据缓冲区；

b.Weight Buffer：权值数据缓冲区；

c.Output Buffer：输出数据缓冲区；

f.Memory Interconnect：数据通路互联；

g.DMA：直接内存存取，负责加速器和内存间的数据传输；

h.Control Interconnect：控制信号线路互联；

i.PE：乘法计算单元；

每个PE负责输入特征图的像素和相应权值的乘法计算，后面跟着一个加法树结构来累加卷积的中间结果；

步骤5.在操作系统下，将硬件比特流式的文件烧写到开发版中，并编写IP核和硬件设备的驱动；