CN113344115A

CN113344115A - 一种基于轻量级模型的目标检测方法

Info

Publication number: CN113344115A
Application number: CN202110716583.8A
Authority: CN
Inventors: 过铭涛; 徐鹤; 王汝传; 李鹏; 程海涛; 朱枫
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-03

Abstract

本发明公开了一种基于轻量级模型的目标检测方法，首先，采用Depth‑Wise卷积组合而成的G‑Module构建整个模型的主干网络，并在主干网络中加入注意力机制对每个通道进行加权操作，增强关键特征，去除冗余特征，从而加强特征网络对目标物体和背景的辨别能力；其次，利用Batch Normalization层中缩放因子gamma的大小将不重要的通道进行删减，达到压缩模型大小，提升运算速度的效果；最后，基于NVIDIA的TensorRT框架进行了模型转化和半精度加速，将加速后的模型成功部署到嵌入式平台Jeston Nano上，实现高精度下实时检测的要求。

Description

一种基于轻量级模型的目标检测方法

技术领域

本发明涉及计算机视觉技术和物联网技术领域，具体的说是一种基于轻量级模型的目标检测方法。

背景技术

如今车联网的发展在国内是愈发火热，车联网集物联网、智能交通、云计算等一体。而目前我们了解最多并且大力发展的车联网应用就是自动驾驶，自动驾驶中有一个驾驶辅助系统，该系统利用摄像头、激光和雷达等，实时采集车外信息并加以判断，提醒驾驶者周围的异常情况，使驾驶者能够尽早地发现一些隐性危险，提高驾驶者的驾车安全性。对车辆和行人等目标的快速检测是驾驶辅助系统的一项重要任务。

众所周知，深度学习神经网络的一大缺点就是计算量、参数量过大，YOLOv3就是一个例子。这也是近几年深度学习项目无法产品化的原因，尤其是一些边缘化的设备。由于这些设备本就不是以计算密集任务而设计的，因此直接将深度学习模型部署到其上，一定会产生延迟、功耗大等问题。此外，对于目前汽车系统来说，实现实时的检测就必须要有强大的远程服务器做支撑，一旦检测模型参数过大，推测时间过长，那么这种实时性就会大打折扣，直接导致功耗成本的增加。因此，行业人士也在从各方面克服这个问题，例如近几年各种神经网络芯片和高显存显卡的兴起，其思路就是从提升硬件的计算能力来加快整个网络的运行速度。而另一种思路就是从软件出发，由于整个模型中很多参数只是在训练阶段起到作用，在预测阶段是用不着的，因此会产生很多参数冗余，从而使得网络计算所耗的时间很长。所以本发明通过模型重构并加以模型剪枝，来得到一个可以部署到终端设备上的轻量级模型，同时实现高精度的目标检测。

现有技术中申请公布号为CN108256634A公开了一种基于轻量级深度神经网络的船舶目标检测方法，具体公开了通道剪枝方法，是对摄像头实际采集的有船舶目标的海洋图像，通过轻量级的深度神经网络进行目标检测，并没有对模型的主干网络进行重构，无法加强特征网络对目标物体和背景的辨别能力。

发明内容

为了解决上述问题，本发明提供了提供一种方便、成本低、快速的车辆行人实时监测的方法，利用模型重构、模型剪枝和半精度加速对模型参数量进行压缩，然后再部署到嵌入式设备Jetson Nano上，实现移动端的车辆行人实时检测。

为了达到上述目的，本发明是通过以下技术方案来实现的：

本发明是一种基于轻量级模型的目标检测方法，包括如下步骤：

步骤1，利用G-Module和注意力机制组合成的G-Bottleneck对模型的主干网络进行重构，并将其中的损失函数调整为GIoU损失函数；

步骤2：利用K-means算法对KITTI数据集重新聚类获得新的锚点；

步骤3：对得到的新模型YOLOv3-promote进行稀疏训练，使得BN层中γ因子尽可能地靠近0；

步骤4：稀疏训练结束后，对模型进行剪枝操作，除去权重低的通道；

步骤5：对剪枝完毕的模型进行微调，得到最终的轻量级模型；

步骤6：搭建TensorRT平台，将模型转化为ONNX形式，将模型读入TensorRT的加速引擎中，部署到嵌入式设备Jeston Nano中。

本发明的进一步改进在于：步骤1中的G-Module的设计分为两步操作，具体步骤为：

步骤1.1卷积操作，减少了卷积核的个数，其中输入特征矩阵X为c*h*w，卷积操作F由m个k*k大小的卷积核构成，经过卷积操作F之后得到m个特征图，参数量为H*W*m*c*k*k，化简后等于

步骤1.2线性变换

操作，即，一系列的Depth-Wise可分卷积，对m个特征图进行s次线性变换(n＝m*s)，线性核大小为d*d，得到输出特征矩阵Y为n*H*W，参数量为H*W*m*d*d*(s-1)，化简后等于

本发明的进一步改进在于：步骤1中的G-Bottleneck是采用残差结构构造的，根据stride的大小分为G1-Bottleneck和G2-Bottleneck，G1-Bottleneck首先包含input输入特征矩阵，然后经过两个G-Module的运算，其中，第一个G-Module在BatchNormalization操作之后有Relu激活函数，第二个G-Module在BatchNormalization操作之后得到的输出特征矩阵将与起始位置输入特征矩阵通过shortcut进行拼接得到最终的结果；G2-Bottleneck首先包含input输入特征矩阵，然后经过两个G-Module的运算，在两个G-Module的运算之间加入了一层DW卷积。

本发明的进一步改进在于：步骤1中注意力机制采用通道注意力机制，其注意力模块通过使用K个一维的卷积快速生成通道权重，其中K表示局部跨通道交互的覆盖率，即有K个邻居参与某个通道的注意力预测。

本发明的进一步改进在于：所述通道维度C与K之间存在一个映射

：

其中K与C成非线性比例，且通道C是2的指数次方幂大小，将线性函数C＝y*K+b转化为非线性函数的指数形式：

给定通道维度C的大小，即可由下式求解出内核大小K：

odd表示解相邻最近的奇数，y和b分别取2和1。

本发明的进一步改进在于：步骤3中的稀疏训练具体为：L1正则式去稀疏每个BN层的γ值，L1正则化公式如下：

其中第一项是用来计算模型预测所产的损失，第二项就是用来约束γ的，λ是用来权衡两项所设置的超参数，λ的值一般设置为1e-4或者1e-5，g(*)就是g(s)＝|s|，就是L1范式，起到稀疏化的作用。

本发明的有益效果是：本发明提出了一种基于轻量级模型的目标检测方法。首先，采用Depth-Wise卷积组合而成的G-Module构建整个模型的主干网络，并在主干网络中加入注意力机制对每个通道进行加权操作，增强关键特征，去除冗余特征，从而加强特征网络对目标物体和背景的辨别能力；其次，利用Batch Normalization层中缩放因子gamma的大小将不重要的通道进行删减，达到压缩模型大小，提升运算速度的效果；最后，基于NVIDIA的TensorRT框架进行了模型转化和半精度加速，将加速后的模型成功部署到嵌入式平台Jeston Nano上，实现高精度下实时检测的要求。本发明提出的全新轻量级模型，相对于传统的YOLOv3，本发明的模型的计算量和参数量都能大大减少，为后续模型的部署提供可能。

附图说明

图1是YOLOv3-promote的整体结构图。

图2是YOLOv3特征图的可视化。

图3是传统卷积的计算过程。

图4是Depth-Wise卷积的计算过程。

图5是TensorRT的模型简化流程。

图6是G-Module的构造图。

图7是G-Bottleneck的构造图。

图8是本发明设计的注意力机制图。

图9是剪枝流程图。

图10是YOLOv3对视频和图片的漏检检测效果。

图11是YOLOv3对视频和图片的误检检测效果。

图12是YOLOv3对视频和图片的重复检测效果。

图13是注意力机制对比图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1-11所示，本发明是一种基于轻量级模型的目标检测方法，包括如下步骤：

步骤2：利用K-means算法对KITTI数据集重新聚类获得新的锚点；

本发明的体系结构可以分为三大部分，包括模型重构、模型剪枝和模型部署。模型重构部分分为G-Module、G-Bottleneck和注意力机制三部分，整体结构如图1所示。一个优秀的神经网络模型，在它训练完毕之后，特征图中一定存在着丰富甚至冗余的信息。在YOLOv3模型中，如果将特征图可视化显示，如图2所示，可以看到标记处的特征图有着相似的特征，这些冗余的特征会加大整个网络的计算量，然而这些冗余特征，对目标检测和识别尤为重要，正是由于它们的存在，才保证了整个网络对输入数据的全面理解。因此，在不剔除这些冗余特征的情况下，本发明提出了一种仅通过少量计算就能生成大量特征图的结构——G-Module，而该结构中起到至关重要作用的就属Depth-Wise卷积。Depth-Wise卷积能够有效地减少模型中卷积的运算量和参数量，从而使得网络在大大减少模型参数与运算量的前提下，依然能够很好地对图像特征进行表达。通过以下传统卷积和Depth-Wise可分卷积的对比，就可以清晰地了解它们计算量和参数量的差异。

一般传统卷积的卷积核通道数就等于输入特征矩阵的通道数，而输出特征矩阵的通道数就等于卷积核的个数。如图3所示，这是一个传统卷积进行运算的过程，图中输入的特征矩阵的大小为D_F*D_F*M，通过N个大小为D_K深度的卷积核运算之后，因为输出特征矩阵深度等于卷积核的个数，因此得到一个N通道的输出特征矩阵。图中传统卷积的整个计算量FLOPs就等于D_K*D_K*M*N*D_F*D_F。

Depth-Wise卷积是由DW卷积和PW卷积组合而成。一般Depth-Wise卷积，卷积核通道大小一般为1，输入特征矩阵的通道数等于卷积核的个数，也等于输出特征矩阵的通道数。Point-Wise卷积则是由1*1大小的卷积核组成。为了与传统卷积的计算量进行对比，将输入和输出特征矩阵的大小固定，如图4所示，输入的特征矩阵的大小仍为D_F*D_F*M，通过DW卷积之后，得到通道为x的输出特征矩阵，然后再通过PW卷积，最终得到一个N通道的输出特征矩阵，图中Depth-Wise卷积的整个计算量FLOPs就等于D_K*D_K*M*D_F*D_F+M*N*D_F*D_F。

将Depth-Wise卷积的整个计算量除以传统卷积的整个计算量，得到如下结果：

本发明设置卷积核的大小为3，因此结果简化为如下：

即理论上传统卷积的计算量是Depth-Wise可分卷积计算的8至9倍。

因为YOLOv3会产生特征图冗余的现象，既然没有必要生成多余的特征图，即多余的特征图可以通过某种操作由一类特征图产生。那么就可以假设先生成m个母特征图，然后通过这m个母特征图进行简单的线性转换得到最后需要的n个特征图，这样理论上既简化了计算量又保留了特征图的丰富性。本发明通过设计G-Module来解决这个问题。

G-Module的设计分为两步操作，具体步骤为：

步骤1.2线性变换

当同样输入c*h*w的特征矩阵，传统卷积输出n*H*W的特征矩阵时，模型的参数量为H*W*c*k*k*n。

将传统卷积运算的参数量与本发明提出的G-Module运算的参数量进行相除，可以得到比例R的值为

由上述参数量的比值可以看出，传统卷积运算的参数量是本发明提出的G-module运算参数量的s倍。因此，对于获得同样一个特征图，G-Module能够在保留冗余特征的同时，大量减少模型的参数量和计算量，对于后续的模型部署有着非常大的作用。

步骤1中的G-Bottleneck是采用残差结构构造的，根据stride的大小分为G1-Bottleneck和G2-Bottleneck，如图7所示，它们分别是stride＝1和stride＝2情况下G-Bottleneck的构造，G1-Bottleneck首先包含input输入特征矩阵，然后经过两个G-Module的运算，其中，第一个G-Module在BatchNormalization操作之后有Relu激活函数，第二个G-Module在BatchNormalization操作之后得到的输出特征矩阵将与起始位置输入特征矩阵通过shortcut进行拼接得到最终的结果；G2-Bottleneck首先包含input输入特征矩阵，然后经过两个G-Module的运算，在两个G-Module的运算之间加入了一层DW卷积，G2-Bottleneck的主要目的就是为了缩小特征图的大小，为下一轮的处理做准备。

本发明所用的注意力机制摒弃了降维的操作，以一种有效的方式进行捕捉跨通道交互，如图8所示。本发明所用的通道注意力机制，使用全局池化来聚合特征图的空间特性，注意力模块通过使用K个一维的卷积快速生成通道权重，其中K表示局部跨通道交互的覆盖率，即有K个邻居参与某个通道的注意力预测。为了避免交叉验证对K进行人工调优，K值通过通道维度映射自适应地确定大小。为了捕捉局部的跨通道交互，确定交互的覆盖率(即1D卷积的内核大小K)是至关重要的，虽然不同通道数的卷积块，交互作用的覆盖率可以人工调优，但是交叉验证进行人工调优需要花费大量的计算资源。

交互的覆盖率(即1D卷积的内核大小K)与通道维度C成正比，即K与C之间存在一个映射

给定通道维度C的大小，即可由下式求解出内核大小K：

odd表示解相邻最近的奇数，y和b分别取2和1。显然，通过映射

高维通道具有较长的相互作用范围。分别在ResNet50、ResNet101和ResNet152主干网络上添加SE Net注意力机制、CBAM注意力机制和本文提出的注意力机制，从网络的参数量和精确度两方面来比较它们的优劣，经过多次实验，得出本发明提出的注意力机制具有参数更少，精度更高的优点，如图13所示。

本发明采用对Batch Normalization层(即批标准化层，下文称为BN层)，加入L1惩罚函数进行后续的剪枝策略。BN层在网络中所起的作用为：1、将网络中神经元的激活值规整为均值为0，方差为1的正态分布。2、将规整后的参数在之后的训练过程中学习两个调节因子γ和β，利用这两个调节因子对标准化后的参数进行微调，使之在后续的梯度下降中效果更好。整个规范化函数如下：

其中a_i为某个神经元的原始激活值，即每个通道的特征图B*H*W，

为经过规范化操作后呈正态分布的激活值，μ是通过神经元集合S中包含的n个神经元的激活值求出的平均数，σ_i则是每个神经元各自的激活值与均值μ求出的标准差,γ_i和β_i是每个通道特征图对应的两个调节因子。简而言之，γ可以视为是BN层每个通道的权重，假如当前的通道C₁对应的权重为γ₁且γ₁＝0或者γ₁≈0，那么就会有γ₁·τ＝0，即该通道在接下来的运算中不会产生任何影响。因此，调节因子γ可以成为衡量通道重要性的指标，当γ＝0或者γ近似为0时，就对此γ所在的通道进行剪裁，通过这个方法，对网络实现瘦身效果，减少不必要的参数和计算量，使得整个网络的前推速度加快，更方便地部署到终端设备中。整个通道剪枝的流程如图9所示。

虽然通过上述方法，γ值通常呈正态分布，可以使γ＝0或者γ近似为0的通道剪裁除去，但是很多情况下，并不会有很多γ值等于0或者近似于0。因此，采用L1正则式去稀疏每个BN层的γ值，L1正则化公式如下：

在搭建TensorRT平台之前，需要先将本发明的模型进行转化为TensorRT可以读取的形式，本发明模型是基于Pytorch的深度学习框架实现的，因此需要先将模型转化为ONNX形式，因为Pytorch自带的接口torch.onnx包含了本发明模型用到的卷积层、池化层、激活层、上采样层和检测层，因此只需要一键转化即可。将得到的ONNX模型载入TensorRT中进行模型简化和FP16加速，其中模型简化主要是将网络中的Conv层、BN层和Relu层融合为一个层，简称CBR层。如图5所示，以常见的Inception结构为例，按照TensorRT中的模型简化原则，将①中的Inception结构转为②中的网络结构；对于网络中的水平组合是指将输入为相同张量和相同操作的层融合到一起，如图中②向③的转化；对于最后的拼接层，不用再单独进行concatenation然后再输入计算，而是直接将concatenation的输入送入下面的操作，等同于减少了一次系统的吞吐量。FP16加速通过TensorRT平台的加持下，将数据精度从32为浮点数降低为16位浮点数，极大地提升了运行和计算效率。

本发明的YOLOv3-promote模型与传统的YOLOv3算法相比：传统的YOLOv3虽然对小目标具有检测能力，但是对于复杂情况下远距离的小目标检测效果不明显，容易出现漏检、误检和重复检测的现象，如图10所示。并且YOLOv3原生模型的参数量和计算量都很庞大，对于运行环境中硬件的要求很高。因此，使用原有的YOLOv3模型来部署到现有移动设备上是行不通的，无法实现实时和随车检测，只能起到类似于行车记录仪的作用。本发明的轻量级模型利用Depth-Wise卷积组成G-Module，然后利用G-Module组成G-Bottleneck，最终搭建模型，其优点相对于传统的YOLOv3，模型的计算量和参数量都能大大减少，为后续模型的部署提供可能。且发明采用模型剪枝对经过模型重构的YOLOv3-promote进行压缩，使得模型在保持精度几乎不变的情况下参数量和时延都大大降低。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于轻量级模型的目标检测方法，其特征在于：包括如下步骤：

步骤2：利用K-means算法对KITTI数据集重新聚类获得新的锚点；

步骤3：对得到的新模型YOLOv3-promote进行稀疏训练，使得BN层中γ因子靠近0；

步骤5：对剪枝完毕的模型进行微调，得到轻量级模型；

2.根据权利要求1所述一种基于轻量级模型的目标检测方法，其特征在于：步骤1中的G-Module的设计分为两步操作，具体步骤为：

步骤1.2线性变换

3.根据权利要求2所述一种基于轻量级模型的目标检测方法，其特征在于：步骤1中的G-Bottleneck是采用残差结构构造的，根据stride的大小分为G1-Bottleneck和G2-Bottleneck，G1-Bottleneck首先包含input输入特征矩阵，然后经过两个G-Module的运算，其中，第一个G-Module在BatchNormalization操作之后有Relu激活函数，第二个G-Module在BatchNormalization操作之后得到的输出特征矩阵将与起始位置输入特征矩阵通过shortcut进行拼接得到最终的结果；G2-Bottleneck首先包含input输入特征矩阵，然后经过两个G-Module的运算，在两个G-Module的运算之间加入一层DW卷积。

4.根据权利要求3所述一种基于轻量级模型的目标检测方法，其特征在于：步骤1中注意力机制采用通道注意力机制，其注意力模块通过使用K个一维的卷积快速生成通道权重，其中K表示局部跨通道交互的覆盖率，即有K个邻居参与某个通道的注意力预测。

5.根据权利要求4所述一种基于轻量级模型的目标检测方法，其特征在于：所述通道维度C与K之间存在一个映射

给定通道维度C的大小，即可由下式求解出内核大小K：

odd表示解相邻最近的奇数，y和b分别取2和1。

6.根据权利要求1所述一种基于轻量级模型的目标检测方法，其特征在于：步骤3中的稀疏训练具体为：L1正则式去稀疏每个BN层的γ值，L1正则化公式如下：