CN115331126A

CN115331126A - 一种基于Yolov5的小目标检测模型的构建及检测方法

Info

Publication number: CN115331126A
Application number: CN202211047649.XA
Authority: CN
Inventors: 张涛; 胡婷婷; 朱嘉琪
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-11

Abstract

本发明公开了一种基于Yolov5的小目标模型构建及检测方法，本方法首先是对基于Yolov5网络模型进行改进，在模型中引入了注意力机制，部分卷积采用新的卷积算子，同时调整特征融合方式，增加了anchor框的检测尺寸。将经过以上改进得到的模型应用于目标检测中能够有效提升其对小目标检测的准确率，提高检测性能，实验证实，基于本发明模型的检测方法的检测性能明显优于基于其他模型的检测方法。

Description

一种基于Yolov5的小目标检测模型的构建及检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于Yolov5的小目标检测模型的构建及检测方法。

背景技术

小目标检测一直是目标检测中的重点与难点，为了克服目标检测领域中的小目标检测问题，研究者们改进了各种适应于小目标检测的网络模型，但仍然有不足。在现实场景中，由于小目标是的大量存在，因此小目标检测具有广泛的应用前景，在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要作用。近年来，深度学习技术的快速发展为小目标检测注入了新鲜血液，使其成为研究热点。

目前小目标检测面临的挑战主要有以下几点:1)可利用特征少；2)定位要求精度高；3)样本不均衡；针对这些问题，一些学者提出了一些改进思路，例如通过不同的数据增强策略可以扩充训练数据集的规模，丰富数据集的多样性；通过多尺度学习来提升小目标性能，如图像特征金字塔就是多尺度学习的一种典型方法。

然而，由于空间和细节特征信息的丢失，难以在深层特征图中检测小目标。在深度神经网络中，浅层的感受野更小，语义信息弱，上下文信息缺乏，但是可以获得更多空间和细节特征信息。从这一思路出发，Liu等提出一种多尺度目标检测算法SSD，利用较浅层的特征图来检测较小的目标，而利用较深层的特征图来检测较大的目标；Cai等针对小目标信息少，难以匹配常规网络的问题，提出统一多尺度深度卷积神经网络，通过使用反卷积层来提高特征图的分辨率，在减少内存和计算成本的同时显著提升了小目标的检测性能。

总体来说，多尺度特征融合同时考虑了浅层的表征信息和深层的语义信息，有利于小目标的特征提取，能够有效地提升小目标检测性能。然而，现有多尺度学习方法在提高检测性能的同时也增加了额外的计算量，并且在特征融合过程中难以避免干扰噪声的影响，这些问题导致了基于多尺度学习的小目标检测性能难以得到进一步提升。

在真实世界中，“目标与场景”和“目标与目标”之间通常存在一种共存关系，通过利用这种关系将有助于提升小目标的检测性能。在深度学习之前，已有研究证明通过对上下文进行适当的建模可以提升目标检测性能，尤其是对于小目标这种外观特征不明显的目标。随着深度神经网络的广泛应用，一些研究也试图将目标周围的上下文集成到深度神经网络中，并取得了一定的成效，但是没有考虑到场景中的上下文信息可能匮乏的问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明的一个目的是提供一种基于Yolov5的小目标检测模型的构建方法。

为解决上述技术问题，本发明提供如下技术方案：包括，

构建包括训练样本和测试样本的数据集；

根据数据集对基于Yolov5的网络模型进行训练；

其中，所述基于Yolov5的网络模型以Yolov5网络为主干模型，包括特征提取模块、颈部增强模块、头部预测模块；

在所述颈部增强模块引入GAM注意力机制，部分卷积采用新的卷积算子；

调整所述头部预测模块的特征融合方式，扩充初始anchor框的检测尺寸；

输出训练完成后的目标检测模型。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述基于Yolov5的网络模型，包括，

特征提取模块：负责目标的特征提取；

颈部增强模块：对特征提取模块提取的特征进行增强；

头部预测模块：进行目标预测并得到检测结果。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述GAM注意力机制包括通道注意力子模块和空间注意力子模块。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述通道注意力子模块使用三维排列来在三个维度上保留信息，通过一个两层的多层感知器MLP放大跨维度通道-空间依赖性；

所述空间注意力子模块中使用两个卷积层进行空间信息融合并删除最大池化操作。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述GAM注意力机制能够放大全局交互特征并给定特征映射，表示为F₁∈R^C×H×W，其中，中间状态F₂和输出F₃定义如下：

其中，F₁代表输入状态，F₂代表中间状态，F₃代表输出状态，M_c,M_s分别为通道注意力图和空间注意力图，C、H、W分别表示通道数，图像高度，图像宽度，

表示按元素进行乘法操作。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述新的卷积算子为自卷积算子Involution，包括，将输入的图像从单像素x_ij生成对应的核H_ij，表示如下：

其中，

用来索引像素，Η_i,j为生成的核函数。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述调整头部预测模块的特征融合方式包括采用QFF作为特征融合方式，通过设置权重系数α，β，γ来达到特征融合的目的。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述权重系数是通过1*1卷积、softmax函数处理后再通过反向传播系数自动生成，表示如下：

其中，x是各个尺度是输入，y是在空间上尺度融合后输出的特征图。α,β,γ,δ是相应的权重参数，参数和为1。

作为本发明所述的基于Yolov5的小目标检测模型的构建方法的一种优选方案，其中：所述扩充初始anchor框的检测尺寸，包括，分别将小目标、中目标、大目标的检测尺寸由三个扩充到七个，扩充后表示如下：

-[7,9,9,17,17,15,13,27,19,27,44,40,38,94]#P3/8

-[21,28,36,18,23,47,35,33,96,68,86,152,180,137]#P4/16

-[58,29,43,60,82,46,66,88,140,301,303,264,238,542]#P5/32

-[133,77,111,135,206,137,197,290,436,615,739,380,925,792]#P6/64

本发明的再一个目的是提供一种小目标检测检测方法。

为解决上述技术问题，本发明提供如下技术方案：包括，基于权利要求1所述的小目标检测模型的构建方法得到的小目标检测模型，对小目标进行检测，得到检测结果。

本发明的有益效果：

1)本发明提供了一种基于Yolov5的小目标检测方法，本方法能够有效地提升其对小目标检测的准确率，提高检测性能。

2)本发明在目标检测模型的颈部增强模块引入了注意力机制，该机制删除了池化操作能够进一步保留特征映射，同时该模块的部分卷积采用新的卷积算子Involution，Involution享有通道不变性和空间特异性的特点，在参数量方面由于网络后续特征图较小，采用该算子可以大大节省参数，在计算量方面由于Involution在输出单像素结果时不需要综合多通道输入，计算量减少了一个量级；

3)本发明调整了目标检测模型中头部预测模块的特征融合方式，增加了anchor框的检测尺寸，使其更好的适用于小目标检测问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例1提供的基于Yolov5的小目标检测模型构建方法流程图；

图2为本发明实施例1提供的基于Yolov5的小目标检测模型图；

图3本发明实施例3不同模型在visdrone数据集上的检测效果图；

图4本发明实施例3不同模型在visdrone数据集上的损失函数；

图5本发明实施例3不同模型在visdrone数据集上的混淆矩阵；

图6本发明实施例3不同模型与原有模型在visdrone数据集上的对比图；

图7本发明实施例3不同模型在visdrone数据集上的准确率与召回率结果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～2，本实施例提供了一种基于Yolov5的小目标检测模型的构建方法，可见图1，展示了一种一种基于Yolov5的小目标检测模型的构建方法，包括：

S1：构建包括训练样本和测试样本的数据集；

进一步的，选取包含有待测目标的图片，对各待检测目标在图片中的位置进行标注，将标注的数据转化成yolo格式，将各待检测目标的坐标信息构成目标检测定位数据集。

S2：根据数据集对基于Yolov5的网络模型进行训练；

进一步的，基于Yolov5的网络模型，可见图2，展示了本发明基于Yolov5的网络模型结构图，包括，

特征提取模块：负责目标的特征提取；

颈部增强模块：对特征提取模块提取的特征进行增强；

头部预测模块：进行目标预测并得到检测结果。

更进一步的，所述基于Yolov5的网络模型以Yolov5网络为主干模型；

应说明的是，yolo系列网络模型是目标检测研究领域最为经典的one-stage算法；

A1：在颈部增强模块引入GAM注意力机制；

进一步的，GAM注意力机制包括通道注意力子模块和空间注意力子模块：

通道注意力子模块使用三维排列来在三个维度上保留信息，通过一个两层的多层感知器MLP放大跨维度通道-空间依赖性；

应说明的是，多层感知器MLP是一种编码-解码器结构，与BAM相同，其压缩比为r；

空间注意力子模块中使用两个卷积层进行空间信息融合；

应说明的是，空间注意力子模块使用了与通道注意力模块相同的缩减比r，同时删除了池化操作以进一步保留特征映射，因此，空间注意力模块有时会显著增加参数的数量。

更进一步的，GAM注意力机制能够放大全局交互特征并给定特征映射，表示为F₁∈R^C×H×W，其中，中间状态F₂和输出F₃定义如下：

表示按元素进行乘法操作；

应说明的是，GAM注意力机制能够在减少信息弥散的情况下放大全局交互特征并在给定特征映射。

A2：颈部增强模块中部分卷积采用新的卷积算子；

进一步的，新的卷积算子为自卷积算子Involution，将输入的图像从单像素x_ij生成对应的核H_ij，表示如下：

其中，

用来索引像素，Η_i,j为生成的核函数。

应说明的是，普通卷积的卷积核享有空间不变性和通道特异性两大基本特性，而Involution恰恰相反，具有通道不变性和空间特异性，从普通卷积的通道特异，空间共享转化成通道共享，空间特异。

更进一步的，在参数量方面，普通卷积和Involution分别为C*K*K*C和H*W*K*K*C,由于网络后续的特征图较小特点，Involution可以大大节省参数；在计算量方面，不考虑核生成部分，普通卷积和Involution分别为H*W*C*K*K*C和H*W*K*K*C,由于Involution在输出单像素结果时不需要像卷积那样综合多通道输入，计算量减少了一个量级。

A3：调整头部预测模块的特征融合方式；

进一步的，采用QFF作为特征融合方式，通过设置权重系数α，β，γ来达到特征融合的目的。

应说明的是，QFF是一种目标检测自适应特征融合方式，能够提高特征的尺度不变性。

更进一步的，权重系数α，β，γ是通过1*1卷积、softmax函数处理后再通过反向传播系数自动生成，表示如下：

其中，x是各个尺度是输入，y是在空间上尺度融合后输出的特征图。α,β,γ是相应的权重参数，参数和为1；

A4：扩充头部预测模块初始anchor框的检测尺寸；

进一步的，将小目标、中目标、大目标的检测尺寸由三个扩充到七个，扩充后表示如下：

-[7,9,9,17,17,15,13,27,19,27,44,40,38,94]#P3/8

-[21,28,36,18,23,47,35,33,96,68,86,152,180,137]#P4/16

-[58,29,43,60,82,46,66,88,140,301,303,264,238,542]#P5/32

-[133,77,111,135,206,137,197,290,436,615,739,380,925,792]#P6/64应说明的是，anchor框是目标检测模型中用于预测的像素框。

S3：输出训练完成后的目标检测模型。

实施例2

为了验证本发明的有益效果，本实施例通过实际应用进行科学论证。

本实施例采用的数据集为visdrone数据集，是一种公开可得的无人机图像特征集，包括6471个训练样本和1610个测试样本，并将visdrone数据集中标注的数据集格式转化成yolo格式。

表1分别为本发明方法中以Yolov5为主干模型基于不同方法构建的模型的目标检测方法在visdrone数据集上的性能对比：

表1基于不同方法构建模型的检测性能

本发明为了提高传统Yolov5目标检测的性能，在基于Yolov5的目标检测模型的颈部增强模块引入了注意力机制，该机制删除了池化操作能够进一步保留特征映射，同时该模块的部分卷积采用新的卷积算子Involution，Involution享有通道不变性和空间特异性的特点，在参数量方面由于网络后续特征图较小，采用该算子可以大大节省参数，在计算量方面由于Involution在输出单像素结果时不需要综合多通道输入，计算量减少了一个量级别；

同时调整了目标检测模型中头部预测模块的特征融合方式，增加了anchor框的检测尺寸，使其更好的适用于小目标检测问题，而由上表结果可以看出，本发明做出的以上改进均能够显著提升传统Yolov5的目标检测性能。

实施例3

参照图3～7为本发明另一个实施例，该实施例不同于前两个实施例的是，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本实施例同样采用visdrone数据集进行对比测试。

本实施例将本发明方法Yolo-h与现有几种先进的方法进行对比，其它方法包括，Yolov3，Yolov5s，Yolov5m，Yolov5l，对比结果如表2：

表2对比实验

由表2可以看出，相较于现有的小目标检测模型以及原有模型相比，本发明提供的基于Yolov5网络结构的小目标检测模型在检测中有着更好的表现。

图3为本实施例在visdrone数据集上对比实验结果图，通过分析可以发现，Yolo-h具有更高的检测精度。本实施例的混淆矩阵图如图4所示，损失函数图如图5所示，本实施例与原有模型的对比图如图6所示，准确率与召回率的图如图7所示。

从以上结果可以明显看出，本发明方法通过对Yolov5网络模型进行改进并应用与目标检测中能够有效提升对小目标检测的准确率，提高检测性能，与其它现有方法相比均有更高的检索精度。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Yolov5的小目标检测模型的构建方法，其特征在于：包括，

构建包括训练样本和测试样本的数据集；

根据数据集对基于Yolov5的网络模型进行训练；

输出训练完成后的目标检测模型。

2.如权利要求1所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述基于Yolov5的网络模型，包括，

特征提取模块：负责目标的特征提取；

颈部增强模块：对特征提取模块提取的特征进行增强；

头部预测模块：进行目标预测并得到检测结果。

3.如权利要求所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述GAM注意力机制包括通道注意力子模块和空间注意力子模块。

4.如权利要求3所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述通道注意力子模块使用三维排列来在三个维度上保留信息，通过一个两层的多层感知器MLP放大跨维度通道-空间依赖性；

5.如权利要求3或4所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述GAM注意力机制放大全局交互特征并给定特征映射，表示为F₁∈R^C×H×W，其中，中间状态F₂和输出F₃定义如下：

表示按元素进行乘法操作。

6.如权利要求1所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述新的卷积算子为自卷积算子Involution，包括，将输入的图像从单像素x_ij生成对应的核H_ij，表示如下：

其中，

用来索引像素，Η_i,j为生成的核函数。

7.如权利要求3所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述调整头部预测模块的特征融合方式包括采用QFF作为特征融合方式，通过设置权重系数α，β，γ来实现。

8.如权利要求7所述的基于Yolov5的小目标检测模型的构建方法，其特征在于：所述权重系数是通过1*1卷积、softmax函数处理后再通过反向传播系数自动生成，表示如下：

9.如权利要求1所述的基于Yolov5的小目标检测方法，其特征在于：所述扩充初始anchor框的检测尺寸，包括，分别将小目标、中目标、大目标的检测尺寸由三个扩充到七个，扩充后表示如下：

-[7,9,9,17,17,15,13,27,19,27,44,40,38,94]#P3/8

-[21,28,36,18,23,47,35,33,96,68,86,152,180,137]#P4/16

-[58,29,43,60,82,46,66,88,140,301,303,264,238,542]#P5/32

-[133,77,111,135,206,137,197,290,436,615,739,380,925,792]#P6/64

10.一种小目标检测方法，其特征在于：包括，基于权利要求1所述的小目标检测模型的构建方法得到的小目标检测模型，对小目标进行检测，得到检测结果。