CN114005020A

CN114005020A - 一种基于M3-YOLOv5的指定移动目标检测方法

Info

Publication number: CN114005020A
Application number: CN202111303025.5A
Authority: CN
Inventors: 李欣欣; 刘作军; 张�杰; 杨鹏; 李安吉
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-01
Anticipated expiration: 2041-11-05
Also published as: CN114005020B

Abstract

本发明公开了一种基于M3‑YOLOv5的指定移动目标检测方法，将YOLOv5的骨干网络替换为原始MobileNetV3算法网络的去除最后的平均池化层和两个逐点卷积层的部分，并添加了上采样模块。将YOLOv5的瓶颈网络中的与输出端最近的3个CBL模块替换为1个PDP_1模块和2个PDP_2模块。本发明将YOLOv5目标检测算法与MobileNetV3检测算法相结合，改进简便，构建出检测速度快、检测精度高的网络模型。本发明在保留检测精度的同时提高了检测速度，更适用于指定移动目标的检测。

Description

一种基于M3-YOLOv5的指定移动目标检测方法

技术领域

本发明属于目标检测领域，具体是一种基于MobileNetV3-YOLOv5的指定移动目标检测方法。

背景技术

目标检测是在图像或者视频中判断是否存在感兴趣的目标，若存在则确定目标在图像中的位置，同时对目标所属类别进行判断。基于深度学习的目标检测比传统方法的速度和精度更高，并广泛应用在各个领域，如道路上的行人车辆识别，生产制造过程中的产品瑕疵识别等等。目标检测是计算机视觉领域中重要的研究方向之一，随着人工智能、互联网等的快速发展，人们身边存在大量的图像与视频数据，使得计算机视觉技术对人类生活的影响越来越大。

YOLO(You Only Look Once)是一种单阶段的目标检测算法，其基本原理是把目标检测转变成一个回归问题，利用整张图片作为网络的输入，仅仅经过一个神经网络便得到边界框位置及其所属类别。YOLOv5是YOLO系列最新的网络模型，其检测效果优于YOLOv1-YOLOv4。

现有技术中，应用于不同场景的改进的YOLO算法有很多，并取得了良好的应用成果。申请号为202110274273.5的文献公开了一种基于MYOLOv3网络的杆塔图像检测方法，利用MobileNetV3-Large网络构建3个检测子网路，减少检测子网络中各个卷积层的通道数，提高了对杆塔图像的检测速度。但此改进方法中，杆塔是静止目标。针对指定移动目标的检测，受到同类目标干扰以及目标移动速度的影响，现有方法的应用效果并不理想，需要更高的检测速度及准确度。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于MobileNetV3-YOLOv5的指定移动目标检测方法。

本发明解决所述技术问题的技术方案是，提供一种基于M3-YOLOv5的指定移动目标检测方法，其特征在于，该方法包括以下步骤：

步骤1、获取目标检测所需的图像数据；

步骤2、对图像数据进行划分，建立训练集和测试集；

步骤3、结合MobileNetV3算法对YOLOv5算法进行改进，得到MobileNetV3-YOLOv5算法的网络模型；

步骤4、使用步骤2得到的训练集对步骤3得到的MobileNetV3-YOLOv5网络模型进行训练，得到训练后的MobileNetV3-YOLOv5网络模型；

步骤5、将步骤2得到的测试集输入步骤4得到的训练后的MobileNetV3-YOLOv5网络模型中进行检测，得到检测结果。

与现有技术相比，本发明有益效果在于：

1、本发明将YOLOv5目标检测算法与MobileNetV3检测算法相结合，改进简便，构建出检测速度快、检测精度高的网络模型。本发明在保留检测精度的同时提高了检测速度，保证检测的实时性，更适用于指定移动目标的检测，使移动终端、嵌入式设备运行神经网络模型成为可能。

2、本发明将YOLOv5的骨干网络替换为原始MobileNetV3算法网络的去除最后的平均池化层和两个逐点卷积层的部分，并添加了上采样模块，便于瓶颈网络中的与最大尺度输出最近的拼接模块(Concat)的操作。

与改进前的初始YOLOv5相比，MobileNetV3网络中使用深度可分离卷积代替普通卷积，参数量变为原来的

(N为输出通道数，D_K为卷积核的边长)，提高了检测速度；上采样操作可以使目标在图像中占比较小时得到更好的检测。

3、本发明将YOLOv5的瓶颈网络中的与输出端最近的3个CBL模块替换为1个PDP_1模块和2个PDP_2模块。PDP模块中的深度卷积使瓶颈网络中的参数量减少，优选提高整个网络模型的检测速度；逐点卷积使通道间的特征信息融合，能够保留更高的检测精度。

附图说明

图1为原始YOLOv5s算法的网络结构图；

图2为本发明的MobileNetV3-YOLOv5算法的网络结构图；

图3为本发明的MobileNetV3-YOLOv5算法的PDP_1模块的结构图；

图4为本发明的MobileNetV3-YOLOv5算法的PDP_2模块的结构图。

具体实施方式

下面给出本发明的具体实施例。具体实施例仅用于优选详细说明本发明，不限制本申请权利要求的保护范围。

本发明提供了一种基于M3-YOLOv5的指定移动目标检测方法(简称方法)，其特征在于，该方法包括以下步骤：

步骤1、获取目标检测所需的图像数据；

优选地，步骤1具体是：利用摄像设备采集不同时刻的视频数据，对视频数据中带有指定目标的视频帧进行截取，得到所需的图像数据；

步骤2、对图像数据进行划分，建立训练集和测试集；

优选地，步骤2具体是：对步骤1得到的图像数据进行翻转、缩放、裁剪操作来扩充图像数量，直至达到所需数量，得到扩充后的图像数据；再对扩充后的图像数据中感兴趣目标进行标注，并将图像转换成适合大小；将每一个图像生成对应的xml文件，所述xml文件包含目标标签名称；将每个xml文件在Python中进行图像格式转化，转换成YOLO支持的txt文件，得到感兴趣目标的检测数据集；将检测数据集划分为训练集和测试集。

优选地，步骤3中，YOLOv5包括YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版本，其中YOLOv5s的检测速度最快，更适用于移动目标的检测。MobileNetV3包括MobileNetV3-Small和MobileNetV3-Large两个版本，其中MobileNetV3-Small的参数量更少，检测速度更快。

优选地，步骤3中，结合MobileNetV3算法对YOLOv5算法进行改进，得到MobileNetV3-YOLOv5算法的网络模型的具体步骤如下：

步骤3.1、将YOLOv5算法的骨干网络(即Focus模块至SPP模块)替换为去除最后的平均池化层和两个逐点卷积层的MobileNetV3网络；在此MobileNetV3网络中的第九个模块(即BHSE_1模块)与第十个模块(即BHSE_1模块)之间添加一个上采样(Upsample)模块(即图2中编号为10的模块)；将此MobileNetV3网络中的第十三个模块(即BHSE_1模块)中的卷积层的卷积步长设置为2；

步骤3.2、将YOLOv5算法的瓶颈网络中的与最大尺度输出最近的CBL模块替换为PDP_1模块(即图2中编号为20的模块)，与中间尺度输出最近的CBL模块替换为PDP_2模块(即图2中编号为25的模块)，与最小尺度输出最近的CBL模块替换为PDP_2模块(即图2中编号为29的模块)；

优选地，步骤3.2中，如图3所示，PDP_1模块包括顺序连接的一个逐点卷积层(pw，pointwise Convolution)、一个激活函数层(relu)、一个深度卷积层(dw，depthwiseConvolution)、一个激活函数层、一个逐点卷积层和一个带泄露修正线性单元函数层(Leaky_relu)；所述深度卷积层中卷积核大小为3*3，卷积步长为s＝1。

优选地，步骤3.2中，如图4所示，PDP_2模块包括顺序连接的一个逐点卷积层、一个激活函数层、一个深度卷积层、一个激活函数层、一个逐点卷积层和一个带泄露修正线性单元函数层；所述深度卷积层中卷积核大小为3*3，卷积步长为s＝2。

步骤3.3、将YOLOv5算法的瓶颈网络中的第一个CSP2_1模块(即图2中编号为15的模块)中卷积层的通道数设置为576；将瓶颈网络中的第一个CBL模块(即图2中编号为16的模块)、第二个CSP2_1模块(即图2中编号为19的模块)、与中间尺度输出最近的CSP2_1模块(即图2中编号为27的模块)以及最小尺度输出路径上的PDP_2模块(即图2中编号为29的模块)中卷积层的通道数设置为96；将最大尺度输出路径上的PDP_1模块(即图2中编号为20的模块)、与最大尺度输出最近的CSP2_1模块(即图2中编号为23的模块)以及中间尺度输出路径上的PDP_2模块(即图2中编号为25的模块)中卷积层的通道数设置为48；将与最小尺度输出最近的CSP2_1模块(即图2中编号为31的模块)中卷积层的通道数设置为192；进而得到MobileNetV3-YOLOv5网络模型。

优选地，步骤3中，MobileNetV3-YOLOv5网络模型包括输入端、骨干网络、瓶颈网络和输出端；数据从输入端经一定的处理到达骨干网络，再到达瓶颈网络，最终到达输出端；

输入端中，首先对输入图像进行尺寸变换使其适用于模型训练，再通过Mosaic数据增强方式将任意四张图片随机缩放、裁剪、排布；通过自对抗训练，利用神经网络更改原始图像，对图像做改变扰动，然后在此图像上训练；丰富了检测数据集，有利于检测小目标，减少GPU资源占用，提高模型鲁棒性。

骨干网络中，包括CH模块、BHSE_1模块、BR模块、BRSE模块和BHSE_2模块；其中CH模块为卷积层加h-swish激活函数层，h-swish激活函数使检测精度更高；BHSE_1模块、BR模块和BRSE模块包含的线性瓶颈结构(Bottle Neck)，减少参数量并提高网络深度，进一步提升检测效果；BHSE_1模块和BRSE模块包含的压缩激励(SE)模块，使得网络模型对特征图中有效部分的权重增大，无效或效果小的部分的权重减小，使检测效果更准确、快速；BHSE_2模块引入大小为5×5的深度卷积代替3×3的深度卷积，使输出特征图保留目标的效果更好。

MobileNet使用深度可分离卷积来构建深度神经网络，并引入两个超参数，从而减少计算量。假设输入的特征映射F的尺寸为(D_F,D_F,M)，采用的标准卷积核K为(D_K,D_K,M,N)，则输出的映射G的尺寸为(D_F,D_F,N)。则原始计算量表示如式(1)，引入深度可分离卷积后的计算量表示如式(2)：

D_F×D_F×M×D_K×D_K×N (1)

D_F×D_F×M×D_K×D_K+D_F×D_F×M×N (2)

式(1)-(2)中，D_F为输入特征图的边长；D_K为卷积核的边长；M为输入通道数；N为输出通道。

相比于标准卷积，深度可分离卷积的计算量减少如式(3)所示：

引入超参数后的计算量如式(4)所示：

βD_F×βD_F×αM×D_K×D_K+βD_F×βD_F×αM×αN (4)

式(4)中，α∈(0,1]为宽度因子，用来调整通道数的大小；β∈(0,1]为分辨率因子，用来调整特征图的分辨率。

瓶颈网络中，采用FPN和PAN相组合的结构，主要通过上采样操作进行信息传递和融合，获取不同尺度的检测层。

输出端中，通过边界框损失函数GIoU_Loss进行计算和非极大值抑制DIoU_NMS进行筛选，最终输出检测结果。

优选地，步骤4具体是：将训练集输入到MobileNetV3-YOLOv5网络模型中，利用随机梯度下降法，对MobileNetV3-YOLOv5网络模型进行迭代训练，得到训练后的MobileNetV3-YOLOv5网络模型。

实施例1

本实施例针对背景简单、实时性要求较高的场景，具体场景是：使用跑步机代替传送带，将贴有带“你好”字样的白色纸条的黑色中性笔作为指定目标。

步骤1、将指定目标与其他同种型号的不贴字样或贴有不同字样的黑色中性笔排列放在跑步机上，调整黑色中性笔的不同排列次序及放置方向后进行拍摄，获得图像数据；

步骤2、将步骤1获得的图像数据进行扩充，扩充至15000张；调整图像大小为608×608；将所有的黑色中性笔图像数据按照8:2的比例划分为训练集和测试集；

步骤3、结合MobileNetV3算法对YOLOv5算法进行改进，得到MobileNetV3-YOLOv5算法的网络模型；MobileNetV3选用MobileNetV3-Small，YOLOv5选用YOLOv5s。

步骤4、使用步骤2得到的训练集对步骤3构建的MobileNetV3-YOLOv5网络模型进行训练，得到最优网络模型；

步骤5、使用最优网络模型对测试集进行检测，并计算识别准确率。

对比例1

本对比例针对背景简单、实时性要求较高的场景，具体场景是：使用跑步机代替传送带，将贴有带“你好”字样的白色纸条的黑色中性笔作为指定目标。

步骤3、使用步骤2得到的训练集对YOLOv5s网络模型进行训练，得到最优网络模型；

步骤4、使用最优网络模型对测试集进行检测，并计算识别准确率。

测试结果

实施例1和对比例1的识别准确率与视频检测速率的结果见表1：

表1

识别准确率的计算公式为：

TP为正确检测的数量；AP为检测总数。

视频检测速率的计算公式为：

F为视频的帧数，T为检测视频所用的时间。

由表1可以看出，本发明方法在笔这类目标上的检测速率高于原有YOLOv5方法，并保留了足够高的识别准确率，是一种非常实用的检测方法。

本发明未述及之处适用于现有技术。

Claims

1.一种基于M3-YOLOv5的指定移动目标检测方法，其特征在于，该方法包括以下步骤：

步骤1、获取目标检测所需的图像数据；

步骤2、对图像数据进行划分，建立训练集和测试集；

2.根据权利要求1所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤1具体是：利用摄像设备采集不同时刻的视频数据，对视频数据中带有指定目标的视频帧进行截取，得到所需的图像数据。

3.根据权利要求1所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤2具体是：对步骤1得到的图像数据进行翻转、缩放、裁剪操作来扩充图像数量，直至达到所需数量，再将扩充后的图像数据划分为训练集和测试集。

4.根据权利要求1所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤3中，结合MobileNetV3算法对YOLOv5算法进行改进，得到MobileNetV3-YOLOv5算法的网络模型的具体步骤如下：

步骤3.1、将YOLOv5算法的骨干网络替换为去除最后的平均池化层和两个逐点卷积层的MobileNetV3网络；在此MobileNetV3网络中的第九个模块与第十个模块之间添加一个上采样模块；将此MobileNetV3网络中的第十三个模块中的卷积层的卷积步长设置为2；

步骤3.2、将YOLOv5算法的瓶颈网络中的与最大尺度输出最近的CBL模块替换为PDP_1模块，与中间尺度输出最近的CBL模块替换为PDP_2模块，与最小尺度输出最近的CBL模块替换为PDP_2模块；

步骤3.3、将YOLOv5算法的瓶颈网络中的第一个CSP2_1模块中卷积层的通道数设置为576；将瓶颈网络中的第一个CBL模块、第二个CSP2_1模块、与中间尺度输出最近的CSP2_1模块以及最小尺度输出路径上的PDP_2模块中卷积层的通道数设置为96；将最大尺度输出路径上的PDP_1模块、与最大尺度输出最近的CSP2_1模块以及中间尺度输出路径上的PDP_2模块中卷积层的通道数设置为48；将与最小尺度输出最近的CSP2_1模块中卷积层的通道数设置为192；进而得到MobileNetV3-YOLOv5网络模型。

5.根据权利要求4所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤3.2中，PDP_1模块包括顺序连接的一个逐点卷积层、一个激活函数层、一个深度卷积层、一个激活函数层、一个逐点卷积层和一个带泄露修正线性单元函数层；所述深度卷积层中卷积核大小为3*3，卷积步长为1。

6.根据权利要求4所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤3.2中，PDP_2模块包括顺序连接的一个逐点卷积层、一个激活函数层、一个深度卷积层、一个激活函数层、一个逐点卷积层和一个带泄露修正线性单元函数层；所述深度卷积层中卷积核大小为3*3，卷积步长为2。

7.根据权利要求1所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤3中，MobileNetV3-YOLOv5网络模型包括输入端、骨干网络、瓶颈网络和输出端；数据从输入端经一定的处理到达骨干网络，再到达瓶颈网络，最终到达输出端。

8.根据权利要求7所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，输入端中，首先对输入图像进行尺寸变换使其适用于模型训练，再通过Mosaic数据增强方式将任意四张图片随机缩放、裁剪、排布；通过自对抗训练，利用神经网络更改原始图像，对图像做改变扰动，然后在此图像上训练；

骨干网络中，包括CH模块、BHSE_1模块、BR模块、BRSE模块和BHSE_2模块；其中CH模块为卷积层加h-swish激活函数层，h-swish激活函数使检测精度更高；BHSE_1模块、BR模块和BRSE模块包含线性瓶颈结构；BHSE_1模块和BRSE模块包含压缩激励模块；BHSE_2模块引入大小为5×5的深度卷积。

9.根据权利要求7所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，瓶颈网络中，采用FPN和PAN相组合的结构，通过上采样操作进行信息传递和融合，获取不同尺度的检测层；

输出端中，通过边界框损失函数进行计算和非极大值抑制进行筛选，最终输出检测结果。

10.根据权利要求1所述的基于M3-YOLOv5的指定移动目标检测方法，其特征在于，步骤4具体是：将训练集输入到MobileNetV3-YOLOv5网络模型中，利用随机梯度下降法，对MobileNetV3-YOLOv5网络模型进行迭代训练，得到训练后的MobileNetV3-YOLOv5网络模型。