CN110084363B

CN110084363B - 一种基于fpga平台的深度学习模型加速方法

Info

Publication number: CN110084363B
Application number: CN201910400924.3A
Authority: CN
Inventors: 闵锐; 王洁磊
Original assignee: Electric Coreda Chengdu Technology Co ltd
Current assignee: Aegis Defense Technology Chengdu Co ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2023-04-25
Anticipated expiration: 2039-05-15
Also published as: CN110084363A

Abstract

本发明公开了一种基于FPGA平台的深度学习模型加速方法。本发明在硬件平台设计上采用流式架构，通过将训练好的模型参数加载到FPGA片上内存，利用其可编程的硬件特性实现模型推理加速。在模型移植过程中，本发明从数据传输、数据存储访问、数据处理流程和卷积计算四个方面分别进行优化，使得系统可以充分利用FPGA的并发优势，并可以针对不同FPGA平台的资源特点选择优化参数，充分利用其丰富的片上资源，实现模型推理的加速。本发明在仅损失原模型很小的精度的情况下，实现了同等功耗下系统吞吐量的成倍提升，具备将深度学习模型大规模部署到资源受限场景中的能力。

Description

一种基于FPGA平台的深度学习模型加速方法

技术领域

本发明涉及一种基于FPGA平台的深度学习模型加速方法。

背景技术

近年来，深度学习算法持续火热，在图像处理、自然语言处理等传统领域深度学习都取得了巨大的成功，一大批优秀可靠的算法不断涌现。虽然目前大量应用卷积神经网络的算法在图像识别大赛上大放异彩，但是其庞大的参数量需要强大的算力来支撑，而在实际应用场景下计算平台通常不具备足够的计算资源。因此针对这一问题，学界和工程应用领域都提出了不同的解决方案。其中，对模型进行压缩和使用硬件平台进行加速是主流研究方向。

当下的硬件计算平台主要有有CPU,GPU,FPGA以及ASIC芯片，由于FPGA相对CPU和GPU有更好的功耗比，相比ASIC研发周期短且更新迭代更灵活，实验OPENCL能够很快实现深度学习算法迭代。此外，使用RTL语言编写的代码，能够用于芯片前端设计，以及其具备的大量的DSP计算资源和用于深度学习算法的并行计算能力。FPGA受到了众多研究人员和工程师的青睐。随着基于FPGA的深度学习算法加速研究的不断深入，基于FPGA平台的深度学习算法加速遇到了一些挑战，其中一个主要问题是：计算吞吐量不能很好的匹配内存带宽。

由于深度学习算法通常是在GPU/CPU端训练而成，所以为了使得基于FPGA的加速器能够获得较高的性能，需要在设计前对算法模型进行适当的优化，使得算法本身能够适用于FPGA硬件本身。但是基于FPGA的算法移植也存在一定的缺陷和挑战性。研究人员发现即使基于相同的FPGA器件在移植相同算法模型时，由于采用不同的优化方案，性能相差多达90％。因此，寻求一种性能稳定、加速效果优秀的移植和优化方法是所有研究人员共同追求的目标。

发明内容

针对上述存在的问题或不足，为了解决FPGA平台计算资源或内存带宽没有有效利用造成的移植后算法加速效果不佳的问题，本发明通过对原模型参数进行量化，并从数据传输、数据存储访问、数据处理流程和卷积计算四个方面针对目标硬件进行优化，将其移植到FPGA平台上实现硬件加速。大幅提高了原模型的推理速度，实现了系统吞吐量的成本增加，并且精确度不会有太大的损失。

本发明的技术方案是：

一种基于FPGA平台的深度学习模型加速方法，包括以下步骤：

步骤1：采用流式架构设计深度学习模型加速的硬件架构，将FPGA硬件划分为不同的硬件块，每个硬件块对应执行一个卷积层，将所有硬件块连接起来形成流水处理。

步骤2：对要移植的目标模型参数选择合适的量化位数进行量化。由于FPGA片上存储、计算资源的限制，需要对模型进行适当的优化，降低庞大的参数量对系统带宽和计算能力的要求。

步骤3：通过HLS高级综合工具进行配置，实现深度学习模型的加速，包括：

步骤31、对数据的传输进行配置。通过将量化后的模型参数尽可能存储于片上内存，并且在数据传输量不变的情况下，利用片上闲置的计算资源，尽可能地提高对数据的复用。并且在缓存部分使用双缓存，通过“乒乓”操作来提高片上内存的使用效率。这部分的优化可以提高内存数据的访问速度，进而达到模型加速的效果。

步骤32：对数据的存储访问进行配置。一是对于必须写入全局内存的数据采用“聚合访问模式”来进行访问。二是在HLS指令同时访问多个片上内存系统时，控制编译系统聚合的内存系统小于5个。从而使得FPGA片上本地内存性能最优。

步骤33：对数据处理流程进行配置。在使用综合工具时指定#pragma pipe指令来进行流水线复制，形成多流水处理。通常情况下，可以在多个工作组中共同执行同一个内核程序。

步骤34：对卷积计算进行配置。主要操作有三步分：一是对原有循环进行循环平铺，使其更适合流式架构。二是对完全独立的循环层进行循环展开，充分利用片上的计算资源。三是将循环流水切割成几个小块，将切割后的小块并行执行。

步骤4：进行移植和应用。将综合后的二进制模型文件部署到FPGA平台上进行推断应用。

本发明的有益效果为：为克服当前深度学习模型性能优异但难以在资源受限场景下大规模部署的技术难题提供了一种可行的技术方案。本发明采用FPGA平台实现深度学习模型，不仅在计算资源上可以匹敌高性能GPU，而且由于可编程硬件的高度并发性可以大大提高系统吞吐量，实际数据处理速度和功耗表现都远优于GPU和CPU平台的表现。

附图说明

图1为深度学习网络的FPGA移植和优化流程图；

图2为本发明实施例深度学习网络加速系统软硬件协同架构框图；

图3为本发明实施例中采用穷举法得到的roofline模型图；

图4为VGG-16原模型的部分推理测试结果图；

图5为本发明实施例中VGG-16模型移植优化后的部分推理测试结果图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细的说明。

实施例

本例中的FPGA平台是指集成了查找表(LTU)、触发器(FF)、数字处理单元(DSP)、存储单元RAM及锁相环PLL，并采用AXI总线进行片上片下的数据传输的系统。本实施例对VGG-16模型进行移植加速优化。

附图1为本实施例的深度学习算法的FPGA移植和优化方法流程图，依照附图1的处理流程对VGG-16模型进行移植和优化。步骤如下：

A、按照如图2所示硬件架构完成硬件设计，按照目标深度学习模型卷积层的结构完成FPGA硬件资源的划分。

B、对原VGG-16模型进行定点量化，本实施例将原VGG-16模型的32bit浮点型参数量化为8bit定点型参数。

C、在使用HLS综合工具进行综合时对数据传输过程进行优化。

D、在使用HLS综合工具进行综合时对存储访问过程进行优化。

E、依据roofline模型和穷举法，寻找出本实施例所采用平台2.4GB/S带宽对应的的最佳展开因子，如图2所示，最佳展开因子在C点。

F、在使用HLS综合工具进行综合时对数据处理过程进行优化。

G、在使用HLS综合工具进行综合时对卷积计算过程进行优化。

H、将量化后的VGG-16模型移植至目标平台上运行，对测试图片进行推理验证。

在ImageNet数据集上进行测试，测试结果显示，FPGA片上资源得到了有效地利用，具体利用情况如表1。并且本发明实施例在Top-5精确度上达到了90.53％，甚至略高于原模型。

表1 FPGA片上资源利用情况

Resourse	DSP	BRAM	LUT	FF
					Used	2240	1024	186251	205704
Available	2520	1824	274080	548160
					Utilization	88.9％	56.1％	68％	37.5％

本发明实施例也对网络上随机选取的210张图片进行了测试，测试结果显示精确度达到了68％，也高于原模型的65％，部分测试结果展示如附图4附图5。

Claims

1.一种基于FPGA平台的深度学习模型加速方法，所述FPGA平台配置有DDR4片下数据存储器和BRAM片上存储器；其中，BRAM用于存储深度学习模型参数及推理过程中产生的待处理输入数据，DDR4用于存储输入数据和输出结果；其特征在于，包括：

S1、对FPGA平台的硬件进行配置：根据目标深度学习模型的结构，将FPGA硬件划分为对应的多个硬件块，使得每个硬件块对应执行一个卷积层，所有的硬件块连接起来形成流水线处理，使各卷积层的运算并行运行；

S2、对目标深度学习模型进行量化：根据选定的FPGA平台的性能以及设定的性能指标要求，设定比特位数，将目标深度学习模型的参数进行比特数的量化；

S3、通过HLS高级综合工具对深度学习模型的训练过程进行配置，实现对深度学习模型的加速，具体包括：

S31、将量化后的目标深度学习模型的参数存储在BRAM中，并通过乒乓操作提高BRAM的使用效率；

S32、对写入全局内存的数据采用内存访问模式进行访问，在HLS指令同时访问多个片上内存系统时，控制编译系统聚合的内存系统小于5个；

S33、指定#pragma pipe指令来进行流水线复制；

S34、采用循环卷积，并进行循环平铺，对完全独立的循环层进行循环展开和对循环流水进行切割，将循环切割后的小块进行并行执行；

S4、根据上述配置，将深度学习模型移植到FPGA平台中。