CN114757347A

CN114757347A - 低比特量化神经网络加速器实现方法和系统

Info

Publication number: CN114757347A
Application number: CN202210427782.1A
Authority: CN
Inventors: 魏浩; 高子扬; 陈海宝
Original assignee: Qinjiaoke Shanghai Enterprise Management Co ltd; Shanghai Jiaotong University
Current assignee: Qinjiaoke Shanghai Enterprise Management Co ltd; Shanghai Jiaotong University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-15

Abstract

本发明提供了一种低比特量化神经网络加速器实现方法和系统，包括：对目标检测网络进行训练，通过反向传播对权重进行更新，得到全精度权重模型；初始化量化区间，采用低比特进行训练；将神经网络的BN层与CNN层进行融合，得到低比特的权重参数以及量化因子；采用双缓冲、窗口缓存的方式提高系统带宽，采用循环展开的方式对计算单元进行并行；将加速器结构综合成IP核，并在Vivado中与其他相关模块互联，生成能够部署的比特流文件；将测试图像输入到神经网络加速器中，得到测试输出并与真值进行比对，得到包括检测准确率和加速器峰值吞吐的指标。本发明可以高效的将神经网络算法部署到FPGA上，获得更高的吞吐。

Description

低比特量化神经网络加速器实现方法和系统

技术领域

本发明涉及计算机视觉和FPGA神经网络加速器技术领域，具体地，涉及一种低比特量化神经网络加速器实现方法和系统。

背景技术

红外目标识别系统在军事和民用领域有着非常广泛的应用，如遥感探测、航空航天、目标监视等。在军事上，智能化红外目标识别跟踪系统已成为现阶段和未来武器系统的重要组成部分，是制导武器变得更加具有精确性和智能化的一个重要指标，也是成像制导和高分辨率武器设备中的一种关键技术。在民用领域，得益于信息时代下日益兴起的，基于大数据的机器学习的技术支持，红外目标识别跟踪也有着广泛的应用前景，已经是自主机器人、防碰撞车辆等智能化系统中起着重要作用的一项功能。因此，对智能化红外目标识别进行理论和应用研究，具有重大的理论和实际意义。

专利文献CN112561049A(申请号：CN202011539621.9)公开了一种基于忆阻器的DNN加速器的资源分配方法及装置，资源分配方法包括以下步骤：初始化待映射深度神经网络DNN中各层的量化位宽；增加DNN中各层的量化位宽，使各层均不满足局部资源空闲条件；计算当且仅当向第i层增加1bit的量化位宽时，量化后的DNN模型对测试数据进行推理的准确度；通过准确度进行量化位宽的分配；通过全局资源限制条件终止迭代，输出DNN中各层的量化位宽，并映射到DNN加速器，完成DNN加速器的资源分配。

当前国内外传统的红外目标识别算法采用了时效性较强的，基于特征融合匹配的统计模式识别方法。但该类算法在红外目标运动特性变化较快和红外目标过小等情形下，无法有效实现目标的检测与识别。图像目标检测和识别的深度学习算法及其架构设计是近年来计算机视觉领域研究的热点。使用深度学习的图像目标识别技术来研究红外视频中的移动目标检测越来越受到重视。得益于GPU强大的算力支持，学者们提出了数种基于卷积神经网络的目标检测算法，例如SSD、Faster R-CNN和YOLO算法。YOLO算法使用单个网络，一次前向运算后即可同时预测出物体的位置和种类，所以YOLO在准确率和执行速度之间达到了更好的平衡。

在实际生产和应用中大规模部署卷积神经网络的一大挑战是，神经网络具有庞大的计算需求和存储要求。以VGG-19模型为例，该神经网络需要1.4亿个浮点参数和超过150亿个浮点乘加运算来对一张图片进行分类，在硬件资源和计算能力有限的应用场景下，需要对网络进行压缩和修剪，才能落地部署。并且，现代卷积神经网络的训练和推理几乎只能在CPU和GPU集群上进行，神经网络框架如Caffe、TensorFlow、Pytorch等均基于CPU和GPU平台进行搭建，允许使用者充分使用最新的模型进行特定数据集的训练与测试，并进行性能调优。现有的CPU和GPU集群虽然是现在流行的深度学习和其他机器学习的应用平台，但仍面临着能效低、耗能高的问题。这些因素对在低功耗应用场景如无人机或者嵌入式平台上部署神经网络是至关重要的，而基于FPGA的硬件解决方案可以有效解决上述的两个问题。在FPGA上部署神经网络受到了学术界的关注，研究者提出了基于FPGA的卷积神经网络加速器，同时还提出了从神经网络框架模型提取到FPGA加速器硬件部署的全流程自动化设计工具。然而，与GPU相比，FPGA在计算性能和开发难度两方面依然存在着巨大的差距。尤其是深度学习飞速发展的今天，网络模型越来越来深、组成模块越来越复杂，一些基于FPGA的神经网络加速器难以支持当前最新最优的模型，这为此类加速器设计带来了巨大的挑战。本发明在红外目标检测算法的基础上，研究神经网络的量化方法以及FPGA加速器设计，力求在保证算法精度的情况下以更小的模型，更高的吞吐部署到FPGA上。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种低比特量化神经网络加速器实现方法和系统。

根据本发明提供的低比特量化神经网络加速器实现方法，包括：

步骤1：获取红外数据集并对目标检测网络进行训练，通过反向传播对权重进行更新，最终得到全精度权重模型；

步骤2：初始化量化区间，采用低比特进行训练，直到达到最大迭代次数或者网络收敛为止；

步骤3：将神经网络的BN层与CNN层进行融合，得到低比特的权重参数以及量化因子；

步骤4：进行加速器架构，采用双缓冲、窗口缓存的方式提高系统带宽，采用循环展开的方式对计算单元进行并行；

步骤5：将加速器结构综合成IP核，并在Vivado中与其他相关模块互联，生成能够部署的比特流文件；

步骤6：将测试图像输入到神经网络加速器中，得到测试输出并与真值进行比对，得到包括检测准确率和加速器峰值吞吐的指标。

优选的，所述步骤1包括：

步骤1.1：对红外图像进行采集，并按照7:3的比例分为训练集和测试集；

步骤1.2：将训练图片输入神经网络中，所述神经网络包括13层卷积、3×3的卷积核和1×1的卷积核；

所述步骤2包括：

步骤2.1：对权重W和偏置β进行通道级量化，得到W^q和β^q，表达式为：

x^q＝α·2^1-k·q

其中，q为在整数运算单元中参与计算的整数；α为缩放因子；k是量化位宽；

步骤2.2：对输入特征图X_in进行层级量化，得到

步骤2.3：根据梯度的反向传播更新缩放因子α，表达式为：

步骤2.4：根据梯度下降方向更新权值，直到模型收敛。

优选的，所述步骤3包括：

将固定的批归一化层看作卷积核尺寸为1×1的卷积层，得到融合后的权重W和融合后的偏置b，表达式为：

W＝W_BN×W_conv

b＝W_BN×b_conv+b_BN

其中，W_BN为批归一化层的权重，W_conv为卷积层的权重，b_BN为批归一化层的偏置，b_conv为卷积层的偏置。

优选的，所述步骤4包括：

步骤4.1：设计多维度并行卷积单元，对卷积运算的输出层维度进行展开，并进行流水线处理；

步骤4.2：优化设计低比特乘加运算单元，将每个PE的结构设计为包含九个乘法器和一个由九个加法器组成的加法树，每个乘法器分别接受一个8比特输入和2比特的权重；

步骤4.3：设计多维度并行卷积单元和行缓冲，并通过行缓冲存储输入特征值中的一个滑动窗口所处的行内数据；

步骤4.4：将所有计算单元进行组合，采用双缓冲架构并行执行，同时进行读入DDR和写入DDR。

优选的，所述步骤5包括：

步骤5.1：通过Vivado_hls将加速器综合成IP，并定义输入输出接口；

步骤5.2：通过Vivado将加速器IP与处理器模块、时钟模块、复位模块互联，定义信号地址，最终综合生成比特流文件；

所述步骤6包括：

步骤6.1：通过写驱动将输入图片从CPU端加载到FPGA上，并调用FPGA神经网络加速器，统计检测结果和检测时间；

步骤6.2：将检测结果与全精度检测结果对比，统计误差损失，同时计算加速器的吞吐量和功耗，评估加速器的性能。

根据本发明提供的低比特量化神经网络加速器实现系统，包括：

模块M1：获取红外数据集并对目标检测网络进行训练，通过反向传播对权重进行更新，最终得到全精度权重模型；

模块M2：初始化量化区间，采用低比特进行训练，直到达到最大迭代次数或者网络收敛为止；

模块M3：将神经网络的BN层与CNN层进行融合，得到低比特的权重参数以及量化因子；

模块M4：进行加速器架构，采用双缓冲、窗口缓存的方式提高系统带宽，采用循环展开的方式对计算单元进行并行；

模块M5：将加速器结构综合成IP核，并在Vivado中与其他相关模块互联，生成能够部署的比特流文件；

模块M6：将测试图像输入到神经网络加速器中，得到测试输出并与真值进行比对，得到包括检测准确率和加速器峰值吞吐的指标。

优选的，所述模块M1包括：

模块M1.1：对红外图像进行采集，并按照7:3的比例分为训练集和测试集；

模块M1.2：将训练图片输入神经网络中，所述神经网络包括13层卷积、3×3的卷积核和1×1的卷积核；

所述模块M2包括：

模块M2.1：对权重W和偏置β进行通道级量化，得到W^q和β^q，表达式为：

x^q＝α·2^1-k·q

模块M2.2：对输入特征图X_in进行层级量化，得到

模块M2.3：根据梯度的反向传播更新缩放因子α，表达式为：

模块M2.4：根据梯度下降方向更新权值，直到模型收敛。

优选的，所述模块M3包括：

W＝W_BN×W_conv

b＝W_BN×b_conv+b_BN

优选的，所述模块M4包括：

模块M4.1：设计多维度并行卷积单元，对卷积运算的输出层维度进行展开，并进行流水线处理；

模块M4.2：优化设计低比特乘加运算单元，将每个PE的结构设计为包含九个乘法器和一个由九个加法器组成的加法树，每个乘法器分别接受一个8比特输入和2比特的权重；

模块M4.3：设计多维度并行卷积单元和行缓冲，并通过行缓冲存储输入特征值中的一个滑动窗口所处的行内数据；

模块M4.4：将所有计算单元进行组合，采用双缓冲架构并行执行，同时进行读入DDR和写入DDR。

优选的，所述模块M5包括：

模块M5.1：通过Vivado_hls将加速器综合成IP，并定义输入输出接口；

模块M5.2：通过Vivado将加速器IP与处理器模块、时钟模块、复位模块互联，定义信号地址，最终综合生成比特流文件；

所述模块M6包括：

模块M6.1：通过写驱动将输入图片从CPU端加载到FPGA上，并调用FPGA神经网络加速器，统计检测结果和检测时间；

模块M6.2：将检测结果与全精度检测结果对比，统计误差损失，同时计算加速器的吞吐量和功耗，评估加速器的性能。

与现有技术相比，本发明具有如下的有益效果：

1)本发明采用低比特量化方法，在基本不损失精度的情况下可以对权重压缩到2比特，对输入特征图压缩到8比特，大大缩小了模型的大小；

2)本发明根据目标检测算法YOLOv3-Tiny的结构设计了定制化的FPGA神经网络加速器，可以高效的将神经网络算法部署到FPGA上，获得更高的吞吐；

3)本发明可有效降低网络权重的存储空间；

4)本发明所提出的神经网络加速器可对红外目标进行检测；

5)本发明所基于的卷积神经网络加速器有较强的可迁移性，无论是将其部署到其他型号的FPGA上还是部署其他算法，都有较好的适配性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为低比特量化神经网络训练流程图

图2为加速器整体架构图；

图3为加速器具体模块架构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明提出了一种基于硬件友好型低比特量化的FPGA神经网络加速器，并对目标检测算法进行加速，该量化方法能够将权重量化到2比特，将特征图和激活函数量化到8比特，设计的FPGA神经网络加速器能够对Yolov3-Tiny进行加速，在150MHz的时钟频率下达到了90.6GOP/s的峰值吞吐率，起到了很好的加速效果，具体包括以下步骤：

步骤1，利用红外数据集对目标检测网络YOLOv3-Tiny进行训练，通过反向传播对权重进行更新，最终得到全精度权重模型；

步骤2，初始化量化区间，采用低比特进行训练，直到达到最大迭代次数或者网络收敛为止；

步骤3，将BN层与CNN层进行融合，减少整个模型的计算量与参数量，此时能够得到低比特的权重参数以及量化因子；

步骤4，针对该网络结构，合理设计加速器的架构，并采用双缓冲，窗口缓存等方式提高系统的带宽，采用循环展开等方式对计算单元进行并行，优化算力；

步骤5，将该加速器结构综合成IP，并在Vivado中与其他相关模块互联，最终生成能够部署的比特流文件；

步骤6，将测试图像输入到设计好的FPGA神经网络加速器中，得到测试输出并与真值比对，得到检测准确率、加速器峰值吞吐等指标。

所述的步骤1中，卷积神经网络的模型设置如下：

步骤1-1：需要对红外图像进行采集，并按照7:3的比例分为训练集和测试集；

步骤1-2：将训练图片输入网络中，整体网络主要由13层卷积组成，由3×3的卷积核和1×1的卷积核组成，具体的参数如表1。

表1 YOLOv3-Tiny网络结构

所述的步骤2中，低比特量化的训练流程图如图1所示，整体量化过程如下：

步骤2-1：根据式1-1对权重W和偏置β进行通道级量化，得到W^q，β^q。

x^q＝α·2^1-k·q (1-1)

q为在整数运算单元中参与计算的整数，α为缩放因子，k是量化位宽。

步骤2-2：根据式1-1对输入特征图X_in进行层级量化，得到

步骤2-3：根据梯度的反向传播更新缩放因子α，反向传播的更新公式如1-2所示：

其中：

步骤2-4：根据梯度下降方向更新权值，直到模型收敛。

所述的步骤3中，可将固定的批归一化层看作卷积核尺寸为1×1的卷积层，根据式1-4，1-5得到融合后的权重W和融合后的偏置b。

W＝W_BN×W_conv (1-4)

b＝W_BN×b_conv+b_BN (1-5)

所述的步骤4中，FPGA神经网络加速器的整体架构如图2所示，整体的设计流程如下：

步骤4-1，设计多维度并行卷积单元，对卷积运算的输出层维度进行展开，并进行流水线处理；

步骤4-2，优化设计低比特乘加运算单元，为了满足卷积运算单元的每个时钟周期的计算任务，将每个PE的结构设计为包含九个乘法器和一个由九个加法器组成的加法树，每个乘法器分别接受一个8比特输入和2比特的权重；

步骤4-3，设计多维度并行卷积单元，设计行缓冲解决单周期BRAM的读写冲突，通过行缓冲存储输入特征值中的一个滑动窗口所处的行内数据；

步骤4-4，将所有计算单元进行组合，整体加速器设计为双缓冲架构并行执行，保证读入DDR和写入DDR能够同时进行。

上述架构组合而成的加速器如图3所示。

所述的步骤5中，加速器的系统部署流程如下：

步骤5-1，通过Vivado_hls将加速器综合成IP，定义好输入输出接口；

步骤5-2，通过Vivado将加速器IP与处理器模块，时钟模块，复位模块等互联，定义信号地址，最终综合生成比特流文件。

所述的步骤6中，测试流程如下：

步骤6-1，通过写驱动将输入图片从CPU端加载到FPGA上，并调用FPGA神经网络加速器，统计检测结果和检测时间；

步骤6-2，将检测结果与全精度检测结果对比，统计误差损失。同时计算加速器的吞吐量和功耗，评估加速器的性能。

根据本发明提供的低比特量化神经网络加速器实现系统，包括：模块M1：获取红外数据集并对目标检测网络进行训练，通过反向传播对权重进行更新，最终得到全精度权重模型；模块M2：初始化量化区间，采用低比特进行训练，直到达到最大迭代次数或者网络收敛为止；模块M3：将神经网络的BN层与CNN层进行融合，得到低比特的权重参数以及量化因子；模块M4：进行加速器架构，采用双缓冲、窗口缓存的方式提高系统带宽，采用循环展开的方式对计算单元进行并行；模块M5：将加速器结构综合成IP核，并在Vivado中与其他相关模块互联，生成能够部署的比特流文件；模块M6：将测试图像输入到神经网络加速器中，得到测试输出并与真值进行比对，得到包括检测准确率和加速器峰值吞吐的指标。

所述模块M1包括：模块M1.1：对红外图像进行采集，并按照7:3的比例分为训练集和测试集；模块M1.2：将训练图片输入神经网络中，所述神经网络包括13层卷积、3×3的卷积核和1×1的卷积核；所述模块M2包括：模块M2.1：对权重W和偏置β进行通道级量化，得到W^q和β^q，表达式为：

x^q＝α·2^1-k·q，

其中，q为在整数运算单元中参与计算的整数；α为缩放因子；k是量化位宽；模块M2.2：对输入特征图X_in进行层级量化，得到

模块M2.3：根据梯度的反向传播更新缩放因子α，表达式为：

模块M2.4：根据梯度下降方向更新权值，直到模型收敛。

所述模块M3包括：将固定的批归一化层看作卷积核尺寸为1×1的卷积层，得到融合后的权重W和融合后的偏置b，表达式为：

W＝W_BN×W_conv ，

b＝W_BN×b_conv+b_BN ，

所述模块M4包括：模块M4.1：设计多维度并行卷积单元，对卷积运算的输出层维度进行展开，并进行流水线处理；模块M4.2：优化设计低比特乘加运算单元，将每个PE的结构设计为包含九个乘法器和一个由九个加法器组成的加法树，每个乘法器分别接受一个8比特输入和2比特的权重；模块M4.3：设计多维度并行卷积单元和行缓冲，并通过行缓冲存储输入特征值中的一个滑动窗口所处的行内数据；模块M4.4：将所有计算单元进行组合，采用双缓冲架构并行执行，同时进行读入DDR和写入DDR。

所述模块M5包括：模块M5.1：通过Vivado_hls将加速器综合成IP，并定义输入输出接口；模块M5.2：通过Vivado将加速器IP与处理器模块、时钟模块、复位模块互联，定义信号地址，最终综合生成比特流文件；所述模块M6包括：模块M6.1：通过写驱动将输入图片从CPU端加载到FPGA上，并调用FPGA神经网络加速器，统计检测结果和检测时间；模块M6.2：将检测结果与全精度检测结果对比，统计误差损失，同时计算加速器的吞吐量和功耗，评估加速器的性能。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。