CN116452900A

CN116452900A - 一种基于轻量级神经网络的目标检测方法

Info

Publication number: CN116452900A
Application number: CN202310448848.XA
Authority: CN
Inventors: 刘虎成; 张文博; 姜超颖; 龙璐岚; 李林; 臧博
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-18

Abstract

本发明公开了一种基于轻量级神经网络的目标检测方法，包括以下步骤；步骤1：获取目标检测数据集，得到输入图像；步骤2：搭建基于轻量级神经网络的目标检测网络，所述目标检测网络结构顺序，依次为输入层、特征提取层、特征增强层和输出层；步骤3：训练目标检测网络，得到训练好的网络；步骤4：将待检测的图像样本，输入到步骤3训练好的网络中进行目标检测，输出检测结果。本发明通过大幅减少参数量和运算量的方式，提高模型的检测速度。

Description

一种基于轻量级神经网络的目标检测方法

技术领域

本发明属于计算机视觉中的目标检测技术领域，具体涉及一种基于轻量级神经网络的目标检测方法。

背景技术

目标检测是计算机视觉领域的重要任务之一，其研究现状可以从传统方法和深度学习方法两个方面来概述。传统方法主要基于手工设计的特征和滑动窗口或候选区域的策略。其中Viola Jones检测器、HOG检测器和DPM模型等是比较典型的代表。这些方法对于简单场景具有较好的检测效果，但是对于复杂多变的场景缺乏鲁棒性和泛化能力。深度学习方法主要基于深度卷积神经网络和端到端的训练框架。其中R-CNN系列、YOLO系列和SSD系列等是比较典型的代表。这些方法可以自动学习图像特征，并实现快速准确的目标检测。

目前，深度学习方法已经成为目标检测领域的主流方法，YOLOv7在目标检测任务中取得了很好的效果。而当部署于移动设备或嵌入式设备时，YOLOv7的算力要求难以得到满足，进而无法保证目标检测任务的准确性和实时性。因此需要对YOLOv7进行轻量化改进。

发明内容

为了克服以上现有技术存在的问题，本发明的目的在于提供一种基于轻量级神经网络的目标检测方法，使用深度可分离卷积改进MobileOne网络，并替换YOLOv7中原有的骨干网络，通过大幅减少参数量和运算量的方式，提高模型的检测速度。

为了实现上述目的，本发明采用的技术方案是：

一种基于轻量级神经网络的目标检测方法，包括以下步骤；

步骤1：获取目标检测数据集，数据集中的数据为输入图像；

步骤2：搭建基于轻量级神经网络的目标检测网络，所述目标检测网络结构顺序，依次为输入层、特征提取层、特征增强层和输出层；

2.1)输入层，负责对目标检测数据集的输入图像进行预处理，将图片预处理并对齐成640*640的RGB图像；

2.2)特征提取层，使用改进后的轻量级神经网络D-MobileOne作为特征提取网络，其作用为对作为输入图像的RGB图像进行特征提取，特征提取层负责将抽取到的各类信息进行局部特征提取与融合，输出三个不同层级的特征图；

2.3)特征增强层，对特征提取层输出的三个不同层级的特征图进行增强，包括CBAAM模块、SPPCSPC模块、HDCBS模块、UPSample模块、ELAN-Q模块和MPConv模块；

2.4)输出网络部分，对特征增强层中特征增强后的三个尺寸的特征图经过REP模块和卷积层，最终输出结果；

步骤3：训练目标检测网络，得到训练好的网络；

步骤4：将待检测的图像样本，输入到步骤3训练好的网络中进行目标检测，输出检测结果。

所述步骤1中目标检测数据集根据标志类别、大小和天气条件进行了划分；按照标志类别分，交通标志类型分为警告类、禁止类和强制类；按照天气条件划分，分为晴天、夜晚、多云、雨天、雪天和雾天。

所述2.2)中，改进后的轻量级神经网络D-MobileOne由D-CB-M模块和CB-N模块构成，对输入的图像进行特征提取，并输出三个不同层级的特征图；

将D-CB-M模块与CB-N模块的组合看做D-MobileOne的一个单元，则D-MobileOne网络中含有五个该单元，连接方式为级联；按照每个D-MobileOne单元进行划分，将特征提取层划分为五部分；特征提取层经过CBAAM模块向特征增强层输出三层不同尺寸的特征图；

其中第三个单元输出尺寸为80×80×512的特征图，第四个单元输出尺寸为40×40×1024的特征图，第五个单元输出尺寸为20×20×1024的特征图。

具体为：

2.2.1)D-CB-M模块包含三条支路，第一条支路包含k个由3×3深度卷积和1×1点卷积构成的深度可分离卷积模块(k为超参数)，第二条分支为一个包含1×1卷积的CB模块，第三条分支为BN层；D-CB-M的重参数化分支包含3×3卷积、1×1卷积、BN层以及激活函数；

2.2.2)CB-N模块包含两个分支，CB-N模块第一条支路为k个由1×1卷积和BN层构成的CB模块，第二条分支为BN层；CB-N的重参数化分支包含1×1卷积、BN层以及激活函数。

所述2.3)具体为；

2.3.1)CBAAM模块由两部分构成：通道注意力模块和空间注意力模块；通道注意力模块是通过对输入特征图进行自适应平均池化和自适应最大池化，然后相加并通过一个全连接层得到通道注意力权重，再与输入特征图进行逐通道相乘；空间注意力模块是通过对施加通道注意力的特征图进行自适应平均池化和自适应最大池化，然后拼接并通过一个卷积层得到空间注意力权重，再与施加通道注意力的特征图进行逐元素相乘，最终得到输出特征图；

2.3.2)SPPSCPC模块，包含空间金字塔池化(Spatial Pyramid Pooling，SPP)模块和CSP模块；其中SPP通过最大池化的方法，获得不同感受野并使算法适应不同分辨率的图像，SPP模块的四条分支中，包含三条最大池化和一条跳跃连接分支，输出特征图与输入特征图尺寸一致，CSP模块将特征分成两部分，一部分按照常规方法处理，另一部分进行SSP结构处理；

2.3.3)HDCBS模块包含混合空洞卷积层、BN层和激活函数层；使用混合空洞卷积HDC层，替换原有特征增强层中的卷积层；

2.3.4)UPSample模块采用最邻近插值法进行上采样；该模块由上采样层和卷积层组成，上采样层将特征图的大小增加，卷积层从上采样后的特征图中提取高级特征信息；

2.3.5)ELAN-Q模块的结构与ELAN相似，第一个分支通过1×1卷积改变通道数，第二个分支在通道数改变后继续通过四个3×3卷积进行处理；所述ELAN-Q在Concat层选择了五个输出相加；

2.3.6)MPConv模块包含两个分支，实现下采样功能；第一个分支为先经过最大池化层(MaxPool)以实现下采样，然后经过1×1卷积改变通道数，从而提取学习输入数据的低级特征；第二个分支先经过1×1卷积通道数发生变化后，接着再经过步长为2的3×3卷积核进行下采样，以提取输入数据的高级特征；两个分支所得到的下采样信息在Concat层融合得到超级下采样结果。

所述2.4)具体为：

2.4.1)REP模块有两种模式：训练(train)模式和推理(deploy)模式；

在训练模式下该模块包含三个分支：一个3×3卷积分支用于特征提取，一个1×1卷积分支用于平滑特征，以及一个Identity分支，不进行卷积操作；

三个分支的输出通过Concat模块相加得到最终结果，在推理模式下该模块仅包含一个步长为1的3×3卷积层，该层是通过重参数化训练模块的1×1卷积核和Identity分支来形成的，将其转换成3×3卷积层，并将其权重相加，形成仅包含3×3卷积层和BN层的一个分支。

所述步骤3具体为：

3.1)设置目标检测网络所需环境；

3.2)下载YOLOv7.pt预训练模型；

3.3)加载步骤3.2)的预训练模型，并将步骤1所得数据经过处理后输入到步骤2搭建的一种基于轻量级神经网络的目标检测网络中，并进行训练。

一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述所述的一种基于轻量级神经网络的目标检测方法。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的一种基于轻量级神经网络的目标检测方法。

本发明的有益效果：

第一：本发明在YOLOv7网络中加入混合空洞卷积模块以获取更多上下文语义信息，从而增强模型对不同尺寸目标的感知能力，提高模型的小目标检测能力。

第二：本发明使用改进的卷积注意力模块CBAAM通过从多个通道维度增强特征提取能力，增强模型在夜晚、雨天、雾天等极端场景下的检测能力，提高目标检测精确度同时增加模型的鲁棒性。

第三：本发明改进了轻量化网络模型MobileOne，并设计出基于D-MobileOne的轻量化目标检测网络，训练时使用重参数化之前的分支结构，推理时使用重参数化结构。基于D-MobileOne的轻量化目标检测网络在低算力的移动设备上大幅提高目标检测速度。

附图说明

图1为本发明实现的流程图。

图2为本发明模型搭建的流程图。

图3为本发明训练网络的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

目标检测：一种计算机视觉技术，用于在图像或视频中找出并定位感兴趣的物体。目标检测有很多应用场景，例如人脸检测、行人检测、文本检测等。目标检测的算法可以分为传统方法，和基于机器学习和深度学习的方法。

特征图：计算机视觉的特征图是指图像经过某种变换后得到的一组表示图像内容的数据。特征图可以反映图像的点、边缘、直线、曲线等结构信息，也可以反映图像的颜色、纹理、形状等语义信息。特征图可以用于目标检测、分类、分割等任务，也可以用于可视化分析模型的学习效果。

如图1-图3所示：包括以下步骤；

S1：获取目标检测数据集；以中国交通标志数据集CCTSDB 2021为例，CCTSDB 2021数据集包含了17856张图像，其中训练集16356张，测试集正样本1500张，负样本图像500张。测数据集根据标志类别、大小和天气条件进行了划分；按照类别分，交通标志类型分为警告类、禁止类和强制类；按照天气条件划分，分为晴天、夜晚、多云、雨天、雪天和雾天。

S2：搭建一种基于轻量级神经网络的目标检测网络，参照图2，本发明模型搭建的流程图，该网络由四部分组成，按照各部分的连接顺序，分别是：

S201：输入部分，将图片尺寸重新调整为640×640，并将重新调整尺寸后的图像送入特征提取网络中；

S202：特征提取网络部分，本方法使用改进后的轻量级神经网络D-MobileOne作为特征提取网络，其作用为对输入图像进行特征提取，主要由D-CB-M模块和CB-N模块构成；

S202a：D-CB-M模块包含三条支路，第一条支路包含k个由3×3深度卷积和1×1点卷积构成的深度可分离卷积模块(k为超参数)，第二条分支为一个包含1×1卷积的CB模块，第三条分支为BN层。D-CB-M的重参数化分支包含3×3卷积、1×1卷积、BN层以及激活函数。

S202b：CB-N模块第一条支路为k个由1×1卷积和BN层构成的CB模块，第二条分支为BN层。CB-N的重参数化分支包含1×1卷积、BN层以及激活函数。

S203：特征增强网络，作用为对特征提取网络输出的三个尺寸特征图进行增强，包括CBAAM模块、SPPCSPC模块、HDCBS模块、UPSample模块、ELAN-Q模块和MPConv模块；

S203a：CBAAM模块为本方法改进的卷积注意力模块，由自适应通道注意力模块和自适应空间注意力模块组成。其中自适应通道注意力模块首先对输入特征图做自适应平均池化或自适应最大池化，得到每个通道在空间维度上的平均值或最大值；然后通过小型全连接神经网络(FCN)来学习一组权重，这些权重能够根据每个通道的重要性进行调节，并用它们来生成每个通道的注意力图；接着将注意力图和输入特征图按元素相乘，从而突出信息量大的通道，抑制信息量小的通道，提升模型的精度和鲁棒性。自适应空间注意力模块的输入特征图先经过自适应最大池化和自适应平均池化，得到两个1×1×C的特征图。然后，将两个特征图分别送入两个不同的小型卷积神经网络中进行处理。自适应最大池化特征图通过1×1卷积层和Sigmoid激活函数得到一个注意力分支，自适应平均池化特征图则通过1×1卷积层、Sigmoid激活函数和3×3卷积层得到另一个注意力分支。两个注意力分支相乘，并通过1×1卷积层生成最终的注意力图。

S203b：SPPSCPC模块，包含空间金字塔池化(Spatial Pyramid Pooling，SPP)模块和CSP模块。其中SPP通过最大池化的方法，获得不同感受野并使算法适应不同分辨率的图像。SPP模块的四条分支中，包含三条最大池化和一条跳跃连接分支，输出特征图与输入特征图尺寸一致。CSP模块将特征分成两部分，一部分按照常规方法处理，另一部分进行SSP结构处理。通过将两部分合并的方法，在将计算量减半的同时，提升了速度和精度。

S203c：HDCBS模块为本方法改进的混合空洞卷积模块，HDCBS包含混合空洞卷积层、归一化层和激活函数层。使用混合空洞卷积HDC层，替换原有特征增强网络中的卷积层，实现通过扩大感受野的方式增强模型在小目标检测方面的准确率。

S203d：UPSample模块采用最邻近插值法进行上采样。该模块由上采样层和卷积层组成，上采样层将特征图的大小增加，卷积层从上采样后的特征图中提取高级特征信息。

S203e：ELAN-Q模块的结构与ELAN相似，第一个分支通过1×1卷积改变通道数，第二个分支在通道数改变后继续通过四个3×3卷积进行处理。与ELAN不同的是，ELAN-Q在Concat层选择了五个输出相加，因此比ELAN具有更强的对不同尺度物体的感知能力。

S203f：MPConv模块包含两个分支，实现下采样功能。第一个分支为先经过最大池化层(MaxPool)以实现下采样，然后经过1×1卷积改变通道数，从而提取学习输入数据的低级特征。第二个分支先经过1×1卷积通道数发生变化后，接着再经过步长为2的3×3卷积核进行下采样，以提取输入数据的高级特征。两个分支所得到的下采样信息在Concat层融合得到超级下采样结果，增强了网络特征提取能力和鲁棒性。

S204：输出网络部分，特征增强后的三个尺寸的特征图经过REP模块和卷积层，最终输出结果；

S204a：REP模块有两种模式：训练(train)模式和推理(deploy)模式。在训练模式下该模块包含三个分支：一个3×3卷积分支用于特征提取，一个1×1卷积分支用于平滑特征，以及一个Identity分支，不进行卷积操作。三个分支的输出通过Concat模块相加得到最终结果。在推理模式下该模块仅包含一个步长为1的3×3卷积层。该层是通过重参数化训练模块的1×1卷积核和Identity分支来形成的，将其转换成一个3×3卷积层，并将其权重相加，形成仅包含3×3卷积层和归一化层的一个分支。

S3：训练目标检测网络；

S301：设置目标检测网络所需环境；

S302：下载YOLOv7.pt预训练模型；

S303：加载步骤S302的预训练模型，并将步骤S1所得数据经过处理后输入到步骤S2搭建的一种基于轻量级神经网络的目标检测网络中，并进行训练；

S4：将待检测的图像样本，输入到训练好的网络中进行目标检测，输出检测结果。

进一步的，步骤S202a中D-CB-M模块与步骤S202b中CB-N模块的组合看做D-MobileOne的一个单元，则D-MobileOne网络中含有五个该单元，连接方式为级联。按照每个D-MobileOne单元进行划分，将特征提取网络划分为五部分。特征提取网络经过CBAAM模块向特征增强网络输出三层不同尺寸的特征图。其中第三个单元输出尺寸为80×80×512的特征图，第四个单元输出尺寸为40×40×1024的特征图，第五个单元输出尺寸为20×20×1024的特征图。

进一步的，步骤S203a中使用的CBAAM模块与步骤与S203c的HDCBS模块，结合方式为：特征提取网络是对输入的图像进行特征提取，输出三个不同层级的特征图。包含HDCBS模块的特征增强网络根据输入继续输出三层不同尺寸的特征图，这些特征图经过REP模块和卷积层，用于检测图像中的三个不同的任务：分类、前后背景分类、边框。最终的结果将作为输出返回，表示图像中每个物体的类别、前后背景、边框位置和大小等信息。

步骤S202a中D-CB-M模块与步骤S202b中CB-N模块的组成D-MobileOne的一个单元，D-MobileOne网络中含有五个该单元，连接方式为级联。按照每个D-MobileOne单元进行划分，将特征提取网络划分为五部分。特征提取网络经过CBAAM模块向特征增强网络输出三层不同尺寸的特征图。其中第三个单元输出尺寸为80×80×512的特征图，第四个单元输出尺寸为40×40×1024的特征图，第五个单元输出尺寸为20×20×1024的特征图。

步骤S203a中使用的CBAAM模块，其结构为：

CBAAM的由两部分构成：通道注意力模块和空间注意力模块。通道注意力是通过对输入特征图进行自适应平均池化和自适应最大池化，然后相加并通过一个全连接层得到通道注意力权重，再与输入特征图进行逐通道相乘。空间注意力是通过对施加通道注意力的特征图进行自适应平均池化和自适应最大池化，然后拼接并通过一个卷积层得到空间注意力权重，再与施加通道注意力的特征图进行逐元素相乘。最终得到输出特征图。

步骤S203c中使用的HDCBS模块，其结构为：

混合空洞卷积层后接归一化层，最后经过SiLU激活函数。SiLU激活函数表达式为：

对输入特征图进行混合空洞卷积操作，使用不同大小和扩张率的空洞卷积核对混合空洞卷积后的特征图进行批归一化操作，可以加速收敛和提高稳定性。对批归一化后的特征图进行激活函数操作，可以增加非线性和表达能力。

Claims

1.一种基于轻量级神经网络的目标检测方法，其特征在于，包括以下步骤；

步骤1：获取目标检测数据集，数据集中的数据为输入图像；

步骤3：训练目标检测网络，得到训练好的网络；

2.根据权利要求1所述的一种基于轻量级神经网络的目标检测方法，其特征在于，所述步骤1中目标检测数据集根据标志类别、大小和天气条件进行了划分；按照标志类别分，交通标志类型分为警告类、禁止类和强制类；按照天气条件划分，分为晴天、夜晚、多云、雨天、雪天和雾天。

3.根据权利要求1所述的一种基于轻量级神经网络的目标检测方法，其特征在于，所述步骤2具体为：

2.1)输入层，负责对目标检测数据集的输入图像进行预处理，将图片预处理并对齐成RGB图像；

2.4)输出网络部分，对特征增强层中特征增强后的三个尺寸的特征图经过REP模块和卷积层，最终输出结果。

4.根据权利要求3所述的一种基于轻量级神经网络的目标检测方法，其特征在于，所述2.2)中，改进后的轻量级神经网络D-MobileOne由D-CB-M模块和CB-N模块构成，对输入的RGB图像进行特征提取，并输出三个不同层级的特征图；

将D-CB-M模块与CB-N模块的组合看做D-MobileOne的一个单元，则D-MobileOne网络中含有五个该单元，连接方式为级联；按照每个D-MobileOne单元进行划分，将特征提取层划分为五部分；特征提取层经过CBAAM模块向特征增强层输出三层不同尺寸的特征图。

5.根据权利要求4所述的一种基于轻量级神经网络的目标检测方法，其特征在于，具体为：

6.根据权利要求3所述的一种基于轻量级神经网络的目标检测方法，其特征在于，所述2.3)具体为；

2.3.2)SPPSCPC模块，包含空间金字塔池化(SpatialPyramid Pooling，SPP)模块和CSP模块；其中SPP通过最大池化的方法，获得不同感受野并使算法适应不同分辨率的图像，SPP模块的四条分支中，包含三条最大池化和一条跳跃连接分支，输出特征图与输入特征图尺寸一致，CSP模块将特征分成两部分，一部分按照常规方法处理，另一部分进行SSP结构处理；

7.根据权利要求3所述的一种基于轻量级神经网络的目标检测方法，其特征在于，所述2.4)具体为：

2.4.1)REP模块有两种模式：训练(train)模式和推理(deploy)模式；

8.根据权利要求1所述的一种基于轻量级神经网络的目标检测方法，其特征在于，所述步骤3具体为：

3.1)设置目标检测网络所需环境；

3.2)下载YOLOv7.pt预训练模型；

9.一种电子设备，其特征在于，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述权利要求1-8任一项所述的一种基于轻量级神经网络的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-8任一项所述的一种基于轻量级神经网络的目标检测方法。