CN114663654B

CN114663654B - 一种改进YOLOv4网络模型及小目标检测方法

Info

Publication number: CN114663654B
Application number: CN202210582016.2A
Authority: CN
Inventors: 燕并男; 李嘉欣; 张峰川; 杨兆昭; 张鑫鹏
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-09
Anticipated expiration: 2042-05-26
Also published as: CN114663654A

Abstract

本发明一种改进YOLOv4网络模型及小目标检测方法，在保证检测速度的前提下，能够有效提高小目标的检测精度。骨干结构网络模块用于对目标图像进行特征提取输出由浅至深多层不同尺度的特征图，特征融合模块用于由深至浅逐层对特征图进行特征增强并分别与由浅至深下采样后同一尺度的特征图对应拼接获得融合特征图，特征融合模块包含特征增强模块和高效双重注意力模块，特征增强模块用于扩大特征图的感受野，增强自底向上路径中上采样特征图的语义信息，高效双重注意力模块用于增强目标响应，抑制背景干扰。参与特征融合的特征图包括四倍下采样后含有底层特征的浅层特征图，多分类器模块用于对融合特征图进行分类检测后输出检测结果。

Description

一种改进YOLOv4网络模型及小目标检测方法

技术领域

本发明涉及目标检测技术领域，具体为一种改进YOLOv4网络模型及小目标检测方法。

背景技术

目前，基于深度学习的目标检测算法总体可分为两阶段检测算法与一阶段检测算法两类。两阶段检测算法如Faster R-CNN，首先使用区域提议网络生成候选区域，然后通过对候选区域进行分类和回归，得到最终检测结果。一阶段检测算法如YOLO，将输入图像划分为S*S个网格，每个网格负责中心在该网格的目标的检测，预测所有网格包含的边框、定位置信度及目标属于每个类别的概率，最后通过非极大值抑制得到最终检测结果。两类目标检测算法对大中目标的检测都取得了较好的效果。

然而，因小目标存在像素少、边缘信息不显著等特点难以提取到有效特征，并且经过卷积神经网络多次下采样、池化操作后，目标的特征信息与位置信息逐渐丢失，难以被网络检测，造成现有模型对小目标的检测效果不佳。YOLOv4通过引入PAFPN进行特征融合在一定程度上缓解了信息扩散问题，在精度与效率上均有不错的提升。但其忽略了直接融合不同密度的信息带来的语义冲突，导致微小信息可能被冲突信息淹没。除此之外，没有充分利用上下文信息，特征增强能力不足限制了模型对小目标检测精度的进一步提高。

发明内容

为了解决现有技术中存在的问题，本发明提供一种改进YOLOv4网络模型及小目标检测方法，在保证检测速度的前提下，通过增强多尺度特征的学习能力、增加小目标周围的上下文信息以及加权强化目标的重要信息，弱化抑制无关的不重要信息有效提高小目标的检测精度。

为实现上述目的，本发明提供如下技术方案：

一种改进YOLOv4网络模型，包括骨干结构网络模块、特征融合模块和多分类器模块，所述骨干结构网络模块用于对目标图像进行特征提取后输出由浅至深多层不同尺度的特征图至所述特征融合模块，所述特征融合模块包括特征增强模块和高效双重注意力模块，所述特征融合模块用于由深至浅逐层对特征图进行特征增强，并分别与由浅至深下采样后同一尺度的特征图对应拼接进行特征融合，将获得的融合特征图输出至所述多分类器模块，其中，进行特征融合的特征图包括四倍下采样后含有底层特征的浅层特征图，所述多分类器模块用于对融合特征图进行分类检测后输出目标图像的检测结果；

所述特征增强模块用于采用亚像素卷积对本层特征图上采样后进行空洞卷积，将卷积后的该层特征图与同一尺度的较浅层特征图拼接获得拼接特征图；

所述高效双重注意力模块用于基于注意力机制对拼接特征图中的二维空间特征和一维通道特征进行特征增强后获得增强特征图，所述高效双重注意力模块包括并行的空间注意力模块和通道注意力模块。

优选地，所述特征增强模块采用并联的空洞率为1、3、5的空洞卷积和1x1卷积对上采样后的特征图进行卷积。

优选地，所述空间注意力模块采用两个3×3卷积对拼接特征图的二维空间特征进行特征增强。

优选地，所述空间注意力模块对拼接特征图的二维空间特征进行特征增强前，采用1×1卷积降低拼接特征图的通道数。

优选地，所述空间注意力模块采用RELU函数进行特征激活。

优选地，所述通道注意力模块采用批归一化对拼接特征图的一维通道特征进行特征增强。

优选地，所述骨干结构网络模块采用CSPDarknet53网络结构。

一种基于本发明所述改进YOLOv4网络模型的小目标检测方法，包括如下步骤：

将目标图像送入改进YOLOv4网络模型，经所述骨干结构网络模块进行特征提取后输出由浅至深多层不同尺度的特征图；

所述特征增强模块由深至浅对每一层特征图上采样和卷积后与同一尺度的较浅层特征图拼接；

拼接后的拼接特征图送入所述高效双重注意力模块对拼接特征图中的二维空间特征和一维通道特征进行特征增强获得增强特征图；

将获得的增强特征图与由浅至深下采样后同一尺度的特征图进行拼接获得融合特征图；

对融合特征图进行分类检测后，输出小目标检测结果，检测完成。

优选地，所述高效双重注意力模块对拼接特征图中的二维空间特征进行特征增强包括如下步骤：

所述空间注意力模块采用1×1卷积降低拼接特征图的通道数；

所述空间注意力模块采用两个3x3卷积提取拼接特征图的空间信息；

卷积完成后所述空间注意力模块采用RELU函数对拼接特征图的空间信息进行激活；

激活后所述空间注意力模块通过Sigmoid操作进行特征映射，实现拼接特征图中的二维空间特征的特征增强。

优选地，所述高效双重注意力模块对拼接特征图中的一维通道特征进行特征增强包括如下步骤：

所述通道注意力模块对拼接特征图进行批归一化操作；

所述通道注意力模块求取拼接特征图中每个通道的比例因子；

所述通道注意力模块计算每个比例因子占所有比例因子总和的比例，获得每个通道的通道权值；

所述通道注意力模块将每个通道的通道权值与批归一化后的拼接特征图相乘后通过Sigmoid操作进行特征映射，实现拼接特征图中的一维通道特征的特征增强。

与现有技术相比，本发明具有以下有益效果：

本发明提供一种改进YOLOv4网络模型，在现有的YOLOv4网络模型的基础上，在PAFPN添加含有大量底层特征（如纹理、棱角等）的四倍下采样的浅层特征图参与多尺度特征融合，提高特征表达能力。同时在特征融合模块中自底向上的分支上加入特征增强模块和高效双重注意力模块，通过采用多尺度空洞卷积级联能够在几乎不增加网络参数量的情况下充分扩大特征图的感受野，增强上采样后特征图的语义信息。此外利用高效双重注意力模块，能够加权强化目标的重要信息，弱化抑制无关的不重要信息，缓解融合特征图产生的混叠效应和位置偏移。本发明通过设计增加特征融合分支，并添加特征增强模块与高效双重注意力模块，缓解信息扩散问题，增强模型对小目标的关注度，实现对小目标检测精度的有效提升。

进一步地，本发明代替传统YOLOv4网络模型中的SPP模块，加入特征增强模块进行特征增强，同时对特征增强模块进行重新设计，包括采用亚像素卷积取代传统的最近邻值法和反卷积法对小尺寸特征图进行上采样操作，通过多通道间重组的方式，将多通道的单个像素组合成新的特征图上的一个单位，因此填充的数字均为自己本身的信息，不会引入无效信息，在保存更多有效信息的同时实现从低分辨图到高分辨图的重构。

进一步地，本发明为避免模型参数过多增加模型复杂度，重新设计加入了一种高效双重注意力模块，其中，空间注意力模块采用两个3x3卷积替代5x5卷积，能够在感受野相同的情况下，减少参数量和计算量，并且网络层数得以加深，在一定程度上提升了网络效果。

进一步地，本发明为避免模型参数过多增加模型复杂度，重新设计加入了一种高效双重注意力模块，其中，通道注意力模块使用批归一化(BN)中的比例因子来表示各通道权重的重要性，避免添加SE、BAM和CBAM中使用的全连接层和卷积层，进一步减少参数量和计算量，同时达到提升模型精度的效果。

附图说明

图1为本发明CEM模块结构框图；

图2为本发明EDAM模块结构框图；

图3为本发明小目标检测方法步骤流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明一种改进YOLOv4网络模型，采用PAFPN进行特征融合，所述改进YOLOv4网络模型包括骨干结构网络模块、特征融合模块和多分类器模块，所述骨干结构网络模块用于对目标图像进行特征提取后输出由浅至深多层不同尺度的特征图至所述特征融合模块，所述特征融合模块包括特征增强模块和高效双重注意力模块，所述特征融合模块用于由深至浅逐层对特征图进行特征增强后，与由浅至深下采样后同一尺度的特征图对应拼接进行特征融合，将获得的融合特征图输出至所述多分类器模块，其中，进行特征融合的特征图包括四倍下采样后含有深层特征的浅层特征图，所述多分类器模块用于对融合特征图进行分类检测后输出目标图像的检测结果。

本发明中所述特征融合模块相较于传统的特征融合模块引入了四倍下采样后含有大量底层特征的浅层特征图参与多尺度特征融合，能够提高特征表达能力，增加更多的位置信息。

本发明提供一种改进YOLOv4网络模型，在现有的YOLOv4网络模型的基础上，解决原有YOLOv4网络模型未充分利用上下文信息导致的特征增强能力不足以及融合不同尺度特征层的信息带来的语义冲突的问题。具体为在PAFPN添加含有大量底层特征（如纹理、棱角等）的四倍下采样的浅层特征图参与多尺度特征融合，提高特征表达能力。同时在特征融合模块中自底向上的分支上加入特征增强模块(即CEM模块，下文采用特征增强模块或CEM模块表示)和高效双重注意力模块（即EDAM模块，下文采用高效双重注意力模块或EDAM模块表示），通过采用多尺度空洞卷积级联能够在几乎不增加网络参数量的情况下充分扩大特征图的感受野，增强上采样后特征图的语义信息。此外利用高效双重注意力模块（EDAM模块），能够加权强化目标的重要信息，弱化抑制无关的不重要信息，缓解融合特征图产生的混叠效应和位置偏移。本发明通过设计增加特征融合分支，并添加特征增强模块与高效双重注意力模块，缓解信息扩散问题，增强模型对小目标的关注度，实现对小目标检测精度的有效提升。

具体地，本发明所述的改进YOLOv4网络模型包括特征提取骨干网络、特征融合模块和多分类器模块。其中特征融合模块包含特征增强模块（CEM模块）和高效双重注意力模块（EDAM模块）两个子模块各3个。

其中，如图1所示，CEM模块采用亚像素卷积对小尺寸特征图进行上采样操作，传统的上采样方法以最近邻值法和反卷积为代表，其中最近邻值法采用与填充位置最近的数字进行填充，会产生明显可见的锯齿。而反卷积则是在需要填充的位置均使用数字0进行填充，这种方式会引入不属于特征图的信息，从而产生无效信息影响目标的检测。而本发明采用的亚像素卷积通过多通道间重组的方式，将多通道的单个像素组合成新的特征图上的一个单位，因此填充的数字均为自己本身的信息，不会引入无效信息，在保存更多有效信息的同时实现从低分辨图到高分辨图的重构。上采样后，对上采样操作得到的特征图使用并联的空洞率为1、3、5的空洞卷积以及1x1卷积扩大特征感受野，利用目标的上下文信息，增强网络对小目标的敏感度。

考虑多次引入注意力机制会导致模型参数的剧增，本发明中重新设计了一个注意力模块（EDAM模块），如图2所示，该模块包含空间注意力机制和通道注意力机制两部分，由一个空间注意力模块（SAM模块）和一个通道注意力模块（CAM模块）并行组成。其中，空间注意力模块（SAM模块）使用一个两层感知机进行非线性的特征变换，且利用Sigmoid函数实现特征重标定，为每个位置生成新的二维空间权重，采用两个3x3卷积替代5x5卷积，能够在感受野相同的情况下，减少参数量和计算量，并且网络层数得以加深，在一定程度上提升了网络效果。通道注意力模块（CAM模块）使用批归一化(BN)中的比例因子来表示各通道权重的重要性，避免添加SE、BAM和CBAM中使用的全连接层和卷积层，进一步减少参数量和计算量，同时达到提升模型精度的效果。

其中，通道注意力模块（CAM模块）的具体实现过程如下：

首先对输入的feature map进行批归一化(BN)操作，求得每个通道的比例因子γ，然后求得每个比例因子占所有比例因子总和的比例，即通道权值w_γ。将所得通道权值w_γ与归一化后的feature map相乘，最后进行sigmoid操作，sigmoid函数的表达式为：

式中，M_c为通道注意力的sigmoid函数表达式，w_γ为通道权值，F为输入的featuremap，BN(F)表示为对输入的feature map做批归一化处理，γ_i为通道i的比例因子。

其中，空间注意力模块（SAM模块）的具体实现过程如下：

首先通过1×1的卷积核降低特征图的通道数，减少计算量。然后通过两个3×3的卷积核提取空间信息，两个3×3的卷积和1个5x5的卷积感受野相同，但参数量和计算量更少，并且增加了网络层数，在一定程度上提升了网络效果。卷积后使用RELU函数进行激活，增加模型的非线性。最后，通过Sigmoid操作获得最终的二维空间特征映射，sigmoid函数的表达式为：

式中，M_s为空间注意力的sigmoid函数表达式，F为输入的feature map，C₁ ^3x3、C₂ ^3x3、C₃ ^3x3依次分别表示feature map的1×1卷积和两个3×3卷积。

优选地，所述改进YOLOv4网络模型采用PASCAL VOC数据集对整个模型进行训练。PASCAL VOC数据集包含PASCAL VOC2007和PASCAL VOC2012，总共20类目标，训练的图片总共16551张，测试图片4952张。本发明所述的模型可以检测出目标所属类别、检测得分以及目标所在位置。

优选地，所述骨干结构网络模块采用CSPDarknet53网络结构对目标图像进行特征提取。

本发明还提供一种基于本发明所述的改进YOLOv4网络模型的小目标检测方法，如图3所示，包括如下步骤：

所述特征增强模块由深至浅对每一层特征图上采样和卷积后与同一尺度的较浅特征图中的浅层特征图拼接；

拼接后的拼接特征图送入所述高效双重注意力模块进行特征增强后获得自底向上的分支中的增强特征图；

将获得的增强特征图与由浅至深下采样后同一尺度的特征图进行拼接后获得多个不同尺度的融合特征图；

本发明提供的一种基于本发明所述的改进YOLOv4网络模型的小目标检测方法，首先在原有PAFPN中引入四倍下采样后具有丰富底层特征的浅层特征图参与多尺度融合，提高多尺度特征的学习能力。其次在特征融合模块增加特征增强模块以扩大特征图的感受野并提取目标周围的上下文信息，增强自底向上路径中上采样特征图的语义信息。此外，在特征融合模块构建高效双重注意力模块，利用通道注意力机制对不同特征通道进行加权，利用空间注意力机制对空间特征进行加权，增强目标的响应并抑制背景干扰，从而实现小目标检测精度的有效提升。

其中，所述高效双重注意力模块对拼接特征图中的二维空间特征进行特征增强包括如下步骤：

所述空间注意力模块采用1×1卷积降低拼接特征图的通道数；

所述空间注意力模块卷积完成后采用RELU函数进行激活；

所述空间注意力模块激活后通过Sigmoid操作进行特征映射，实现拼接特征图中的二维空间特征的特征增强。

其中，所述高效双重注意力模块对拼接特征图中的一维通道特征进行特征增强包括如下步骤：

所述通道注意力模块对拼接特征图进行批归一化操作；

所述通道注意力模块每个通道的通道权值与批归一化后的特征图相乘后通过Sigmoid操作进行特征映射，实现拼接特征图中的一维通道特征的特征增强。

实施例

本发明所述的基于改进YOLOv4网络模型的小目标检测方法的具体实施步骤如下：

待检测目标图像送入改进YOLOv4网络模型后首先经过骨干结构网络模块CSPDarknet53中进行特征提取并输出多个不同尺度的特征图，其中，输出的四个大小为128*128、64*64、32*32、16*16的特征图输入到特征融合模块中用于参与特征融合，其中，大小为16*16的特征图作为本实施中的最深层特征图，由深至浅即为由大小为16*16的该层特征图开始逐层向上一较浅层特征图（如16*16的特征图的上一较浅层为32*32的特征图，128*128的特征图的下一较深层为64*64的特征图，以此类推）进行特征增强。

本发明中在所述特征融合模块的自底向上分支中由深至浅使用3次CEM+Concat+EDAM组合，即每一层特征图经过CEM模块上采样和扩大感受野后与上一较浅层的特征图进行拼接，拼接后的拼接特征图送入EDAM模块获得目标响应增强而背景抑制的增强特征图，然后在自顶向下的分支中由浅至深下采样后将该层特征图与自底向上分支中同一尺度的增强特征图进行拼接，分别得到尺度为64*64、32*32、16*16的融合特征图，实现特征融合。

所述多分类器模块的YOLO Head检测头基于特征融合模块输出的64*64、32*32、16*16三个尺度的融合特征图对其进行分类检测，输出最终的目标检测结果。

本发明所述的改进YOLOv4网络模型及小目标检测方法可以应用到石油开采、自动驾驶、智慧医疗、缺陷检测和航拍图像分析等高精尖领域中对于小目标的检测与定位，例如：对于钻井现场，本发明所述的改进YOLOv4网络模型能够及时检测工人进入到无人区的异常行为和设备漏油情况，从而有效提高钻井作业安全性。对于机场跑道，采用本发明所述的改进YOLOv4网络模型能够精准地检测出跑道的微小异物（如螺钉、螺帽、钉子和保险丝等）将避免重大的航空事故和经济损失。对于自动驾驶，将汽车的高分辨率场景照片输入至本发明所述的改进YOLOv4网络模型中能够准确地检测出可能引起交通事故的小物体，进而提升车辆的道路目标综合检测能力。对于工业自动化领域，采用基于本发明所述的改进YOLOv4网络模型的小目标检测方法能够定位物料表面小的视觉瑕疵以确保产品质量。对于医学图像，也可采用本发明所述的改进YOLOv4网络模型对大小只有几个像素的肿块或者肿瘤进行小目标检测，尽早防止病情恶化。对于卫星遥感图像，采用本发明所述的改进YOLOv4网络模型可以实时准确地检测出飞机、舰船等与军事行动密切相关的微小目标，保障军事国防安全。由此可见，本发明所述的改进YOLOv4网络模型及小目标检测方法应用范围广泛，将待检测小目标输入至本发明所述模型中，通过对模型的改进，能够缓解了小目标检测过程中的信息扩散问题，增加本发明所述模型对待测目标的关注度，在节省参数的同时提高了模型对小目标的检测精度。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种改进YOLOv4网络模型，其特征在于，包括骨干结构网络模块、特征融合模块和多分类器模块，所述骨干结构网络模块用于对目标图像进行特征提取后输出由浅至深多层不同尺度的特征图至所述特征融合模块，所述特征融合模块包括特征增强模块和高效双重注意力模块，所述特征融合模块用于由深至浅逐层对特征图进行特征增强，并分别与由浅至深下采样后同一尺度的特征图对应拼接进行特征融合，将获得的融合特征图输出至所述多分类器模块，其中，进行特征融合的特征图包括四倍下采样后含有底层特征的浅层特征图，所述多分类器模块用于对融合特征图进行分类检测后输出目标图像的检测结果；

所述高效双重注意力模块用于基于注意力机制对拼接特征图中的二维空间特征和一维通道特征进行特征增强后获得增强特征图，所述高效双重注意力模块包括并行的空间注意力模块和通道注意力模块；

其中，所述空间注意力模块采用1×1卷积降低拼接特征图的通道数，所述空间注意力模块采用两个3×3卷积对拼接特征图的二维空间特征进行特征增强；

所述通道注意力模块对拼接特征图进行批归一化操作；

2.根据权利要求1所述的一种改进YOLOv4网络模型，其特征在于，所述特征增强模块采用并联的空洞率为1、3、5的空洞卷积和1×1卷积对上采样后的特征图进行卷积。

3.根据权利要求1所述的一种改进YOLOv4网络模型，其特征在于，所述空间注意力模块采用RELU函数进行特征激活。

4.根据权利要求1所述的一种改进YOLOv4网络模型，其特征在于，所述通道注意力模块采用批归一化对拼接特征图的一维通道特征进行特征增强。

5.根据权利要求1所述的一种改进YOLOv4网络模型，其特征在于，所述骨干结构网络模块采用CSPDarknet53网络结构。

6.一种基于改进YOLOv4网络模型的小目标检测方法，其特征在于，基于权利要求1-5任一项所述的改进YOLOv4网络模型，包括如下步骤：

7.根据权利要求6所述的一种基于改进YOLOv4模型的小目标检测方法，其特征在于，所述高效双重注意力模块对拼接特征图中的二维空间特征进行特征增强包括如下步骤：

所述空间注意力模块采用1×1卷积降低拼接特征图的通道数；

所述空间注意力模块采用两个3×3卷积提取拼接特征图的空间信息；