CN115424091A

CN115424091A - 一种基于SMCA-YOLOv5的轻量化军事目标检测方法

Info

Publication number: CN115424091A
Application number: CN202211055549.1A
Authority: CN
Inventors: 杜秀丽; 宋林凯; 吕亚娜; 邱少明
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-02

Abstract

一种基于SMCA‑YOLOv5的轻量化军事目标检测方法，属于目标检测技术领域。首先，获取多种类别的军事目标图像，利用labelimg软件按照yolo格式对图像数据进行标注，建立含有七类的军事图像目标数据集，并对军事图像数据集按照目标类别以7:2:1分别划分到训练集、验证集和测试集中；其次，利用Stemblock结构和嵌入坐标注意力机制的MobileNetV3结构对YOLOv5s的主干网络进行重新设计，得到改进后的SMCA‑YOLOv5算法；最后，将军事目标数据集的训练集和验证集输入到SMCA‑YOLOv5的网络中进行100次迭代训练，反复调整参数，得到训练后的权重文件，检测输出结果。本发明实现模型在移动端设备上的嵌入，不仅降低了系统软硬件要求和设备成本，还可以自动检测七类军事目标，降低了人为识别的错误，提高了检测效率。

Description

一种基于SMCA-YOLOv5的轻量化军事目标检测方法

技术领域

本发明属于目标检测技术领域，具体涉及一种基于SMCA-YOLOv5的轻量化军事目标检测方法。

背景技术

基于手工提取特征的军事目标检测算法和基于深度学习的军事目标检测算法基本未考虑计算机资源的限制。特别是基于深度学习的战场目标检测算法对计算机软硬件的需求远超目前武器装备上计算机的资源配置，要实现此类技术在武器装备系统中的工程应用，需要继续对模型进行适当的简化和优化。

近年来，随着深度学习的快速发展，计算机视觉技术已广泛应用到视频监控、无人机驾驶、军事情报分析等各个行业。在军事应用领域，目标检测技术是提高战场态势生成、侦查、监视与指挥决策的基础和关键，是现代化战争赢得胜利的重要因素。实时精准地检测战场目标有助于我方更快地掌握战场环境并对敌方单元进行搜索与跟踪，了解敌方动态，以求在战争中抢占先机，处于主导地位。

传统的视觉目标检测技术大多是基于手工设计特征进行目标的检测，难以从复杂的战场环境中全面、快速、准确地获取目标的信息。基于深度学习的军事目标检测，许多学者提出了改进的方案。例如：对卷积神经网络进行结构改进；引入其它网络结构进行网络拼接；利用智能算法对网络结构进行寻优等。这些神经网络的改进方案为提取更高层次的特征信息而使用更深的网络结构，在一定程度上提高了模型的平均精度，但随着网络模型性能的不断提高，模型参数和计算量的增加制约了其在资源受限的武器装备上的嵌入。因此，设计轻量化网络模型降低系统软硬件要求和设备成本是值得深入研究的问题。

相近方法的技术方案

文献[1]提出一种基于M3-YOLOv5的指定移动目标检测方法，将YOLOv5的骨干网络替换为原始MobileNetV3算法网络的去除最后的平均池化层和两个逐点卷积层的部分，并添加了上采样模块。将YOLOv5的瓶颈网络中的与输出端最近的3个CBL模块替换为1个PDP_1模块和2个PDP_2模块。本发明将Y O L O v 5目标检测算法与MobileNetV3检测算法相结合，改进简便，构建出检测速度快、检测精度高的网络模型。本发明在保留检测精度的同时提高了检测速度，更适用于指定移动目标的检测。文献[2]提出一种基于YOLOv5和MobileNetV2的车辆型号识别方法，解决现有模型识别速率低，不足以满足交通系统的实时性、高效性以及在条件受限的情况下识别的准确率偏低的问题。文献[3]提出一种基于改进EfficientDet网络的海面军事目标检测与分类方法，属于海洋遥感技术领域，包括获得数据增强后的数据集；主干特征网络提取前，进行一次卷积和标准化的预处理；激活函数预处理；使用主干特征网络提取3、5、7层特征，输入到下一阶段的特征融合网络；在第7层基础上进行一次膨胀卷积、标准化、最大池化得到一层新特征P8；在新特征上继续使用膨胀卷积、标准化、最大池化，同时引入残差连接，与第5层特征进行特征融合得到最后一层特征P9；构建特征融合网络，将每次特征融合后的激活函数改为“Relu”；特征融合后将原来的4层特征融合单元增加到5层；将融合后的特征输入到类别预测网络与定位框预测网络；进行精度评定。文献[4]一种基于优化RPN网络的战场目标检测方法，包括以下步骤1、构建坦克装甲目标数据集，并分别标注训练数据集和测试数据集上的坦克装甲目标；2、在ImageNet数据集上进行模型的初始化来训练VGG-16网络；3、生成共享特征图；4、得到不同大小和比例的目标候选区域；5、通过RPN网络得到候选区域，分别计算两卷积层特征图上得到的候选区域与真实框的误差，选出误差最小的候选框，最后在误差最小的候选区域中选择精确度高的候选区域作为优化后的目标候选区域；6、完成目标类别判断以及目标边界框的回归修正。本发明有效的提高了小型目标和存在遮挡影响的目标提取候选区域的有效性，进而提高了战场目标检测的精度。

[1]李欣欣,刘作军,张杰,杨鹏,李安吉.一种基于M3-YOLOv5的指定移动目标检测方法[P].天津市：CN114005020A,2022-02-01.

[2]戚自华,钟建强,李志颖,赖浩天,刘启霄,黄斐然,吴永东.基于YOLOv5和MobileNetV2的车辆型号识别方法[P].广东省：CN113743233A,2021-12-03.

[3]蔡玉林,秦鹏,徐慧宇,李龙坤,柳佳,范璞然.一种基于改进EfficientDet网络的海面军事目标检测与分类方法[P].山东省：CN113392917A,2021-09-14.

[4]肖秦琨,邓雪亚.一种基于优化RPN网络的战场目标检测方法[P].陕西省：CN110766058A,2020-02-07.

发明内容

为了解决上述存在的问题，本发明提出：一种基于SMCA-YOLOv5的轻量化军事目标检测方法，

本发明的有益效果为：

本发明的目的在于提供一种基于SMCA-YOLOv5的轻量化军事目标检测方法，实现模型在移动端设备上的嵌入，该方法不仅降低了系统软硬件要求和设备成本，还可以自动检测七类军事目标，避免了人为识别的错误，提高了检测效率。

本发明公开了一种基于SMCA-YOLOv5的轻量化军事目标检测方法，通过引入Stemblock模块和MobileNetV3模块来重新设计YOLOv5的骨干网络，以减少模型的参数和计算量。为了进一步提高网络的特征表达能力，在MobileNetV3块结构中嵌入了坐标注意模块，提高了模型对军事目标的检测性能。本发明保证检测精度和检测速度的前提下有效的降低了模型的参数量和计算量。在自建军事数据集上的mAP值为97.8％，与YOLOv5算法相比，mAP值提升了1.3％，模型参数量下降了85.52％，运算量下降了95.8％。

(1)本发明采用Stem block模块替换Focus模块，将多通道信息融合提高特征表达能力，可以减少网络模型的参数量和运算量；

(2)本发明提出一种在MobileNetV3中嵌入坐标注意力模块的单元结构，并验证了该结构嵌入坐标注意力机制提高了小目标和遮挡目标的精度，避免了大量计算开销，提高模型的检测性能；

本发明实现模型在移动端设备上的嵌入，不仅降低了系统软硬件要求和设备成本，还可以自动检测七类军事目标，避免了人为识别的错误，提高了检测效率。

附图说明

图1为本发明的YOLOv5s算法结构图；

图2为本发明的SMCA-YOLOv5算法结构；

图3为本发明的Stem模块结构图；

图4为本发明的坐标注意力模块；

图5为本发明的MNtV3-CA模块结构图。

具体实施方式

一种基于SMCA-YOLOv5的轻量化军事目标检测方法，具体步骤如下：

步骤1、获取多种类别的军事目标图像，并利用labelimg软件按照yolo格式对图像数据进行标注，建立军事图像目标数据集；

步骤2、对军事图像数据集按照目标类别以7:2:1分别划分到训练集、验证集和测试集中；

步骤3、利用Stem block结构和嵌入坐标注意力机制的MobileNetV3结构(MNtV3-CA)对YOLOv5s的主干网络进行重新设计，得到改进后的YOLOv5算法(SMCA-YOLOv5)；

步骤4、使用步骤2中得到的训练集和验证集输入到步骤3中的模型中进行100次迭代训练，反复调整参数，得到训练后的权重文件；

步骤5、将步骤2中得到的测试集输入到步骤3中的模型中(用步骤4得到的权值)进行检测。得到检测结果。

YOLOv5的原理：

YOLOv5算法是一个开源的目标检测项目，具有良好的工程效果。目前，在已发布的YOLOv5工程项目中包含YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版本。其中YOLOv5s结构是深度和宽度最小的网络，且具有速度快，体积小的优点。因此，本文采用YOLOv5s结构，该结构包含四个部分，分别是输入端、主干网络、特征融合层、输出端，如图1所示。输入端对原始图片数据进行预处理，主要包含Mosaic数据增强，随机裁剪及自适应图像填充，为了适应不同的目标数据集，在输入端集成了自适应瞄框计算。主干网络通过深度残差结构提取图像不同层次的特征信息，主要结构有CSP和空间金字塔池化SPP，前者的目的是为了减少计算量、提高推理速度，后者的目的是对相同的特征图进行不同尺度的特征提取，有助于提高检测性能。特征融合层包含特征金字塔和路径聚合网络，特征金字塔在网络中自上而下传递语义信息，路径聚合网络是自上而下传递定位信息，对主干网络中的不同网络层的信息进行融合，进一步提升检测性能。输出端将特征融合层提取到的特征信息通过非极大值抑制来筛选最佳的检测框，并生成检测框对目标进行类别预测。

SMCA-YOLOv5的原理：

YOLOv5的主干网络使用的是传统的残差网络结构，该结构很好地解决了随着网络结构深度增加而导致的网络退化问题，且在相同的网络层数下具有更快的收敛速度，其主要是通过增加网络深度来提高网络性能，但这样会导致网络参数量大幅度增加，且模型难以训练等问题，不易于网络在计算能力和内存资源有限的武器装备上进行部署。因而，本文采用Stem block结构和MNtV3-CA模块共同搭建YOLOv5的主干网络。

具体改进策略，如图2所示：

1、将YOLOv5算法的主干网络的第一层Focus模块替换成Stem(图3)模块；

2、将YOLOv5算法主干网络其余部分MNtV3-CA(图5)进行重新设计。

Stem block结构：

在军事目标检测领域，不仅受到武器装备平台内存资源限制的影响，还对目标的检测精度和检测速度提出了较高的要求。因此，设计小内存，计算量少的军事目标检测算法是十分重要的。针对上述要求，本专利引入Stem block结构，如图3所示。该结构已经在PELEE、PP-LCNet、YOLO5Face等移动设备上的实时检测算法中取得了良好的效果，相比如传统的卷积结构，Stem block首先对输入的特征图先进行一个步长为2，卷积核大小为3的卷积操作扩充通道数；其次进行分支路操作，其中一条支路对扩充后的特征图先进行通道数减半的操作，再以步长为2，卷积核大小为3的卷积操作进行下采样，另一条支路对扩充后的特征图进行步长为1，卷积核大小为2的最大池化操作，进一步提取特征；最后将两分支得到的特征图获得的语义信息进行融合，既保证在不丢失特征信息的情况下，又大大降低网络的参数量和运算量。

坐标注意力模块(Coordinate Attention)

坐标注意力机制将位置信息嵌入到通道注意力中，再将通道注意力分解成沿两个空间方向聚合特征的一维的编码过程。既可以在一个空间方向上捕获长期依赖，又可以在另一个空间方向上保留精确的位置信息。然后，产生方向感知和位置敏感的一对特征图，二者可以补充的应用到输入特征图中以增强感兴趣目标的表示。

坐标注意力模块主要用于增强移动网络学习特征的表达能力，如图4所示，该模块分为协同信息的嵌入和协同注意的生成。

首先，它任取两个中间特征张量X＝[X₁,X₂,…X_C]∈R^C×H×W和γ＝[γ₁,γ₂,…,γ_C]∈R^C×H×W，其中X作为输入，γ作为输出；协同信息的嵌入通过给定输入X，使用池化核为(H,1)和(1,W)分别沿水平方向和垂直方向对每个信道进行编码；高度为h和第c个通道的输出可以表示为：

同理，宽度为h和第c个通道的输出可以表示为：

公式(1)和公式(2)两种变换分别沿着两个空间方向聚合特征；协同注意的生成是对两种变换的拼接，然后送给一个共享1×1卷积的变换F₁，可表示为：

公式(3)中[z^h,z^w]为沿空间维数的拼接运算，δ为非线性激活函数，f∈R^C/r×(H+W)为在水平方向和垂直方向上对空间信息进行编码的中间特征映射，r是缩减比；然后我们沿着空间维度将f分成两个单独的张量f^h∈R^C/r×W和f^w∈R^C/r×W；另外，利用两个1×1卷积变换F_h和F_w分别将f_h和f_w变换为对输入X具有相同通道数的张量，得到

g^h＝δ(F_h(f^h))(4)

g^w＝δ(F_w(f^w))(5)

δ是一个sigmoid型函数，对输出g^h和g^w进行扩展；最后，γ的输出可以写成：

MNtV3-CA融合模块

YOLOv5算法的主干网络采用传统的残差结构，该结构很好地解决了随着网络结构深度增加而导致的网络退化问题，且在相同的网络层数下具有更快的收敛速度。目前，残差网络在深度神经网络中得到了广泛应用，其主要是通过增加网络深度来提高网络性能，但这样会导致网络参数量大幅度增加，且模型难以训练等问题，不易于网络在计算能力和内存资源有限的武器装备上进行部署。因而，本文设计一种轻量化的MNtV3-CA网络结构对YOLOv5算法的主干网络进行重新设计，如图5所示，该结构是在MobliNetV3 block的基础上融合轻量化CA模块，在保证网络结构轻量化的基础上，进一步提高模型的检测性能。

实验平台为google colab开发平台，实验环境为Python3.6、Pytorch1.11.0、CUDA11.2及Tesla V100-SXM2-16G。数据训练、测试和验证均在超参数相同情况下进行。其中，迭代次数设置为100，学习率设置为0.01，初始学习率动量为0.937，权值衰减系数为0.0005，批量大小为64。

相比YOLOv5算法，本文提出的改进算法，拥有更高的精度和更低的参数量和运算量。

评价指标

为了验证本文模型的有效性，从平均精度均值(mAP)、模型参数量(Parameters)、模型运算量(GFLOPs)及检测速度(FPS)四个指标进行综合评估。平均查准率(AP)是单个目标的检测准确率，由召回率R和准确率P所围成的面积构成，其中mAP的具体计算公式如下：

式中T_P表示检测模型正确识别的数量，F_P表示识别错误或未识别的数量，F_N表示误检的数量，P(r)是以r为参数的函数。平均精度均值通过所以类别AP值的平均值，用来评价模型的综合检测性能；模型参数量指的是模型训练过程中得到的参数，直接决定模型文件的大小，衡量模型需要消耗的内存资源。模型运算量指的是模型训练过程中所需要计算次数，直接反映模型对硬件平台计算性能的需求。检测速度指的是模型每秒可以检测多少张图像数据，用来衡量模型的实时性。

实验结果

为了验证本文提出的Stem-MNtV3-CA特征提取网络的有效性，在MITD数据集上共进行了六组消融实验，实验结果如表1所示，评估不同模块在相同超参数的条件下对目标检测方法性能的影响。表格1中加粗字体为实验的最优值。本次实验以Ultralytics 5.0版本中的yolov5s作为基准算法。设置输入图片像素大小为640×640，训练迭代次数为100。

表1消融实验

为了验证专利算法性能的优越性，将本专利算法与目前最先进的目标检测算法进行实验对比，如表2所示，字体加粗为模型最优值。通过与Ultralytics 9.5.0版本的YOLOv3算法、WongKinYiu的Pytorch_YOLOv4及Ultralytics 5.0版本的YOLOv5进行对比，其中YOLOv5的平均检测速度最快，而其余最优指标均为本专利提出。

表2不同目标检测算法性能对比

军事目标检测技术是侦查和指挥决策的基础和关键，也是目标跟踪的前提。当前军事目标检测算法模型参数量多，计算量大难以在硬件资源受限的武器装备平台上进行部署。实验结果表明，SMCA-YOLOv5算法在自建军事目标数据集上的平均精度均值可达97.8％，与基准算法YOLOv5相比，平均精度均值提升了1.3％，模型参数量下降了85.52％，运算量下降了95.8％。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，包括如下步骤：

步骤3、利用Stem block结构和嵌入坐标注意力机制的MobileNetV3结构对YOLOv5s的主干网络进行重新设计，得到SMCA-YOLOv5算法；

步骤5、将步骤2中得到的测试集输入到步骤3中的模型中，用步骤4得到的权重文件检测结果。

2.根据权利要求1所述的基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，所述步骤3中，YOLOv5s结构包含四个部分，分别是输入端、主干网络、特征融合层、输出端；

输入端对原始图片数据进行预处理，包含Mosaic数据增强，随机裁剪及自适应图像填充，在输入端集成自适应瞄框计算以适应不同的目标数据集；

主干网络通过深度残差结构提取图像不同层次的特征信息，主干网络结构含有CSP结构和空间金字塔池化SPP，CSP结构减少计算量、提高推理速度，空间金字塔池化SPP对相同的特征图进行不同尺度的特征提取，提高检测性能；

特征融合层包含特征金字塔和路径聚合网络，特征金字塔在网络中自上而下传递语义信息，路径聚合网络是自上而下传递定位信息，对主干网络中的不同网络层的信息进行融合，提升检测性能；

输出端将特征融合层提取到的特征信息通过非极大值抑制来筛选最佳的检测框，并生成检测框对目标进行类别预测。

3.根据权利要求2所述的基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，所述步骤3中，采用Stem block结构和嵌入坐标注意力机制的MobileNetV3结构共同搭建YOLOv5的主干网络SMCA-YOLOv5，将YOLOv5算法的主干网络的第一层Focus模块替换成Stem模块；将YOLOv5算法主干网络其余部分用嵌入坐标注意力机制的MobileNetV3结构进行重新设计。

4.根据权利要求3所述的基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，所述Stem block结构的搭建如下：

Stemblock结构首先对输入的特征图先进行一个步长为2，卷积核大小为3的卷积操作扩充通道数；

其次，进行分支路操作，其中一条支路对扩充后的特征图先进行通道数减半的操作，再以步长为2，卷积核大小为3的卷积操作进行下采样，另一条支路对扩充后的特征图进行步长为1，卷积核大小为2的最大池化操作，进一步提取特征；

最后，将两分支得到的特征图获得的语义信息进行融合。

5.根据权利要求1所述的基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，所述坐标注意力机制将位置信息嵌入到通道注意力中，再将通道注意力分解成沿两个空间方向聚合特征的一维的编码过程；然后，产生方向感知和位置敏感的一对特征图，共同应用到输入特征图中以增强感兴趣目标的表示；

坐标注意力模块分为协同信息的嵌入和协同注意的生成；

首先，任取两个中间特征张量X＝[X₁,X₂,…X_C]∈R^C×H×W和Υ＝[Υ₁,Υ₂,…,Υ_C]∈R^C ^×H×W，其中X作为输入，Υ作为输出；协同信息的嵌入通过给定输入X，使用池化核为(H,1)和(1,W)分别沿水平方向和垂直方向对每个信道进行编码；高度为h和第c个通道的输出可以表示为：

同理，宽度为h和第c个通道的输出可以表示为：

公式(3)中[z^h,z^w]为沿空间维数的拼接运算，δ为非线性激活函数，f∈R^C/r×(H+W)为在水平方向和垂直方向上对空间信息进行编码的中间特征映射，r是缩减比；然后沿着空间维度将f分成两个单独的张量f^h∈R^C/r×W和f^w∈R^C/r×W；另外，利用两个1×1卷积变换F_h和F_w分别将f_h和f_w变换为对输入X具有相同通道数的张量，得到

g^h＝δ(F_h(f^h)) (4)

g^w＝δ(F_w(f^w)) (5)

δ是一个sigmoid型函数，对输出g^h和g^w进行扩展；最后，Υ的输出可以写成：

6.根据权利要求4所述的基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，轻量化的MNtV3-CA网络结构对YOLOv5算法的主干网络进行重新设计，该结构是在MobliNetV3 block的基础上嵌入了轻量化CA模块，保证网络结构轻量化的基础上提高模型的检测性能。

7.根据权利要求6所述的基于SMCA-YOLOv5的轻量化军事目标检测方法，其特征在于，评价指标包括平均精度均值mAP、模型参数量、模型运算量及检测速度FPS，平均查准率AP是单个目标的检测准确率，由召回率R和准确率P所围成的面积构成，其中mAP的具体计算公式如下：

式中T_P表示检测模型正确识别的数量，F_P表示识别错误或未识别的数量，F_N表示误检的数量，P(r)是以r为参数的函数；平均精度均值mAP通过所以类别平均查准率AP值的平均值，用来评价模型的综合检测性能；模型参数量是模型训练过程中得到的参数，直接决定模型文件的大小，衡量模型需要消耗的内存资源，模型运算量指的是模型训练过程中所需要计算次数，直接反映模型对硬件平台计算性能的需求，检测速度FPS指的是模型每秒可以检测多少张图像数据，用来衡量模型的实时性。