CN115661611A - 一种基于改进Yolov5网络的红外小目标检测方法 - Google Patents

一种基于改进Yolov5网络的红外小目标检测方法 Download PDF

Info

Publication number
CN115661611A
CN115661611A CN202211419841.7A CN202211419841A CN115661611A CN 115661611 A CN115661611 A CN 115661611A CN 202211419841 A CN202211419841 A CN 202211419841A CN 115661611 A CN115661611 A CN 115661611A
Authority
CN
China
Prior art keywords
feature map
small target
feature
network
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211419841.7A
Other languages
English (en)
Inventor
赵毅
刘赛
任获荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Radium Photoelectric Technology Co ltd
Original Assignee
Xi'an Radium Photoelectric Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Radium Photoelectric Technology Co ltd filed Critical Xi'an Radium Photoelectric Technology Co ltd
Priority to CN202211419841.7A priority Critical patent/CN115661611A/zh
Publication of CN115661611A publication Critical patent/CN115661611A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进Yolov5网络的红外小目标检测方法,针对现有技术中检测模型对红外小目标的检测精度仍需提高的问题。该发明含有以下步骤:学习小目标的鉴别特征;提取小目标的基本特征,获得全局特征图;利用小的目标扩散图来训练监督注意模块;从局部角度出发,采用全局关注的局部面片网络提取与小目标相关的局部特征,获取局部特征图;采用Yolov5网络中的颈部结构Neck进行特征融合得到进行预测的特征图;通过Yolov5网络Prediction预测部分进行预测,再交由头部结构Head进行检测输出,获取小目标的检测结果。该技术能解决小目标和背景之间的类不平衡问题,以此简化红外小目标检测的任务。

Description

一种基于改进Yolov5网络的红外小目标检测方法
技术领域
本发明涉及图像处理与目标识别领域,特别是涉及一种基于改进Yolov5网络的红外小目标检测方法。
背景技术
红外小目标检测是红外搜索跟踪系统中的关键技术之一。由于与红外小目标相似的局部区域分布在整个背景中,探索大范围相关性图像特征之间的交互信息,以此挖掘小目标与背景之间的差异对于鲁棒检测至关重要。然而,现有的基于深度学习的方法受到卷积神经网络局部性的限制,极大的削弱了捕获大范围依赖关系的能力,这很容易导致虚假警报。另外,红外小目标的微弱外观使得检测模型很可能发生漏检。
近年来,在红外小目标检测这项任务中引入了深度学习技术,并取得了显著的效果。继一般的对象分割方法之后,现有的深度学习方法通常从全局角度出发对图像进行处理。然而,这些深度学习方法没有很好地考虑小目标的成像局部性以及小目标像素和背景像素之间的类别不平衡问题,导致训练效率低,对大量数据的依赖性高。
发明内容
本发明改善了现有技术中检测模型对红外小目标的检测精度仍需提高的问题,提供一种简化红外小目标检测任务的基于改进Yolov5网络的红外小目标检测方法。
本发明的技术解决方案是,提供一种具有以下步骤的基于改进Yolov5网络的红外小目标检测方法:含有以下步骤,
步骤1、给定输入图像,将Transformer架构的自我注意机制与卷积神经网络CNN相结合,来学习小目标的鉴别特征;
步骤2、从全局角度出发,通过全局特征提取器查看整个图像,提取小目标的基本特征,获得全局特征图;
步骤3、利用一个小的目标扩散图来训练监督注意模块;
步骤4、从局部角度出发,采用全局关注的局部面片网络提取与小目标相关的局部特征,获取局部特征图;
步骤5、采用Yolov5网络中的颈部结构Neck进行特征融合得到进行预测的特征图;
步骤6、通过Yolov5网络Prediction预测部分进行预测,再交由头部结构Head进行检测输出,获取小目标的检测结果。
优选地,所述步骤1中学习小目标的鉴别特征具体是对于给定的输入图像,通过特征嵌入模块Resnet-50将图像嵌入到一系列令牌中,得到嵌入令牌,如式T=Tem+Tpos,其中Tem表示二维令牌,Tpos表示特定位置嵌入;然后采用Transformer架构的自我注意机制对不同嵌入令牌之间的复杂依赖关系进行建模,从而挖掘出小目标和背景像素之间的差异。
优选地,所述步骤2中从全局角度出发,通过一个包括四个残差块(Res Block)的全局特征提取器,提取小目标的基本特征并获得全局特征图,其中每个残差块的卷积核数分别为64、128、64和8。
优选地,所述步骤3中利用一个小的目标扩散图来训练监督注意模块,该模块中使用的残差块数量为6,每个残差块的卷积核数量分别为32、64、128、64、32和1,并且使用二维高斯低通滤波器,
Figure BDA0003942589050000021
其中,频率滤波范围由参数σ和μ定义,ν表示频域中的二维分量,该滤波器应用于频域的地面真值,并通过离散傅立叶逆变换(IDFT)将滤波结果f^转换回空域,通过以
Figure BDA0003942589050000022
计算目标扩散图,其中mapt表示目标扩散图,该目标扩散图指示模型应注意的一些区域,mapt的像素值表示检测器应注意的程度;经过1×1卷积层为每个元素分配一个概率并获得注意概率图;在注意概率图上应用Element-wise Soft-max层得到元素分布注意概率图,通过将元素分布注意概率图与每个全局特征图按元素相乘得到全局元素分布特征图。
优选地,所述步骤4中从局部角度出发,设计全局关注的局部面片网络,通过滑动步长为10的滑动窗口将每个全局元素分布特征图分割为一系列大小为30×30的面片;使用初始模块从每个面片中提取多尺度小目标特征,该初始模块由三个卷积核大小分别为1×1,3×3,5×5,通道数均为64的卷积块并行组成;将每个面片的多尺度特征通过拼接操作反馈到子网中,在子网中,每个输入首先通过一个由1×1反卷积核、一个批处理范数层Batch-Norm和一个激活函数ReLU组成的反卷积层缩放两倍;然后分别利用两个卷积块组成的通道数不同的残差块得到三种不同尺度大小的特征图,具体实现步骤如下:
步骤4.1:使用初始模块从每个面片中提取多尺度小目标特征,该初始模块由三个卷积核大小分别为1×1,3×3,5×5,通道数均为64的卷积块并行组成,不同的核大小有利于提取不同尺寸小目标的多尺度特征;
步骤4.2:将每个面片的多尺度特征通过拼接操作反馈到子网中,从而提取局部特征;在子网中,每个输入首先通过一个由1×1反卷积核、一个批处理范数层Batch-Norm和一个激活函数ReLU组成的反卷积层缩放两倍;该反卷积层的目的是强化每个面片中小目标的特征,扩大面片网对小目标的感知范围;
步骤4.3:然后利用两个卷积核大小为3×3,通道数为256,步长为1的卷积块组成的残差块(Res Block)得到一个尺度较大的特征图;
步骤4.4:进一步利用两个卷积核大小为3×3,通道数为512,步长为2的卷积块组成的Res Block得到一个尺度适中的特征图;
步骤4.5:再进一步利用两个卷积核大小为3×3,通道数为1024,步长为2的卷积块组成的Res Block得到一个尺度较小的特征图。
优选地,所述步骤5中采用Yolov5网络中的颈部结构Neck进行特征融合,通过FPN结构自顶向下传达强语义特征,即上采样操作,特征金字塔中的PAN结构则自底向上传达强定位特征,即下采样操作,两者联手,从不同的主干层对不同的检测层进行特征融合,得到进行预测的特征图,
具体实现步骤如下:
步骤5.1:将通道数为1024的残差块输出的尺度较小的特征图经过Yolov5网络颈部Neck中通道数为512的卷积块进行上采样操作,得到通道数为512的特征图;
步骤5.2:将上述步骤5.1得到的特征图与通道数为512的残差块输出的尺度适中的特征图经过Concat拼接操作之后馈送到C31模块,经过C31模块特征图的尺度大小不发生改变;
步骤5.3:将上述步骤5.2得到的特征图经过通道数为256的卷积块进行上采样操作之后与通道数为256的残差块输出的尺度较大的特征图进行Concat拼接操作之后馈送到C32模块,经过C32模块特征图的尺度大小不发生改变;
步骤5.4:将上述步骤5.3得到的特征图经过下采样操作之后与上述步骤5.2得到的特征图进行Concat拼接,然后馈送到C33模块,经过C33模块之后特征图的尺度大小发生改变;
步骤5.5:将上述步骤5.4得到的特征图经过下采样操作之后与上述步骤5.1得到特征图进行Concat拼接,然后馈送到C34模块,经过C34模块之后特征图的尺度大小发生改变。
优选地,所述步骤6中采用Yolov5网络中的Prediction预测部分进行预测,包括计算损失函数,如式
Figure BDA0003942589050000031
其中ν是衡量长宽比一致性的参数,
Figure BDA0003942589050000032
α为ν的影响因子,
Figure BDA0003942589050000033
ρ为两框中心点之间的距离,ρ2=(xp-xl)2+(yp-yl)2
c为两框的最小包围矩形的对角线长度,
c2=(max(xp2,xl2)-min(xp1,xl1))2+(max(yp2,yl2)-min(yp1,yl1))2
从而得到CIOU_Loss的计算公式lossCIOU=1-CIOU,然后交由头部Head进行小目标检测输出,具体通过核为1的卷积对特征图进行网格划分,网格的尺寸与输入的尺寸相同,通过划分网格可以对应到原图的像素,即检测偏移的主体部分,对宽和高进行检测,计算出宽高比,并与设定阈值进行比较,获得最终的检测结果。
与现有技术相比,本发明基于改进Yolov5网络的红外小目标检测方法具有以下优点:
1、由于与红外小目标相似的局部区域分布在整个背景中,探索大范围相关性图像特征之间的交互信息以挖掘目标与背景之间的差异对于鲁棒检测至关重要,因此提出了采用Transformer自注意机制对不同嵌入令牌之间的复杂依赖关系进行建模,从而有效抑制背景像素,降低背景的复杂度。
2、小目标通常只占用几个像素,太小而无法与背景区分开来,当仅考虑小目标图像的全局特性时这将导致类不平衡问题,因此提出了基于全局关注的局部面片网络,用于提取与小目标相关的局部特征,有效地解决了小目标和背景之间的类不平衡问题,以此简化红外小目标检测的任务。
3、一方面能够很好地挖掘出小目标和背景像素之间的差异,从而抑制背景像素,降低背景的复杂度;另一方面能够有效地解决小目标和背景之间的类不平衡问题,以此简化红外小目标检测的任务。
4、由于模型驱动的方法严重依赖于先验知识,使得模型的泛化能力受到限制,深度学习方法很好地提高了数据驱动红外弱小目标检测的泛化能力。因此,将Transformer架构的自我注意机制与卷积神经网络CNN相结合,通过特征增强模块来学习更多的弱小目标的鉴别特征。由于不同场景下红外图像的复杂性,需要使网络能够捕获红外图像的基本特征,为了避免遗漏通常只占用几个像素的小目标特征,因此设计一种全局特征提取器,从而提取输入图像的基本特征。对于复杂的背景,大多数方法严重依赖于具有复杂场景的大量数据,因此应用注意模块来抑制背景和增强小目标,这有助于在具有大量复杂场景的小数据集上训练网络。虽然注意模块可以通过非监督的方式进行训练,但其迭代过程需要花费大量时间成本,因此采用有监督的方式,通过转换地面真实值来训练注意模块。由于小目标的稀疏性以及小目标与背景之间的类不平衡,很难通过背景真实度直接训练注意模块,因此通过低通滤波器将地面真值转换为目标扩展图。该扩展图聚焦于小目标的局部区域,通过这种方式,大部分背景抑制和粗糙目标增强可以在监督注意模块中实现。
5、在监督注意模块的元素分布注意概率图中误差率较高,有很多粗糙的目标可能区域不足以获得最终的分割,因此设计一种面片网络通过有效提取与小目标相关的局部特征来降低误差率,获得精确的分割结果。
附图说明
图1为本发明提供的改进Yolov5网络的红外小目标检测方法实现流程图;
图2为本发明提供的基于Transformer自注意机制网络结构原理图;
图3为本发明提供的基于全局关注的局部面片网络结构原理图;
图4为本发明提供的改进Yolov5网络整体框架结构原理图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面结合附图和具体实施方式对本发明基于改进Yolov5网络的红外小目标检测方法作进一步说明:本实施例中实现流程如图1所示,具体包括以下步骤:
1.学习小目标的鉴别特征
在早期阶段,模型驱动的红外弱小目标检测方法设计滤波器来增强目标或抑制背景;然而,模型驱动的方法严重依赖于先验知识,这使得这些模型的泛化能力受到限制;最近,深度学习方法很好地提高了数据驱动红外弱小目标检测的泛化能力。因此,将Transformer架构的自我注意机制与卷积神经网络CNN相结合,通过特征增强模块来学习更多的弱小目标的鉴别特征,如图2所示,其具体实现步骤如下所述:
给定图像的尺寸大小为L×H×W,输入图像
Figure BDA0003942589050000041
经过特征嵌入模块Resnet-50后,得到具有局部信息的紧凑特征
Figure BDA0003942589050000042
然后将三维特征F重塑为一系列二维令牌
Figure BDA0003942589050000043
其中H^W^是令牌数量,为了维护这些特征的空间信息,采用了特定位置嵌入Tpos,从而获得嵌入令牌,如式(1):
T=Tem+Tpos (1)
其中
Figure BDA0003942589050000051
和T=(T1,T2,…,Tn),n是令牌数,n=H^W^
嵌入的令牌T被划分为m个头部T={T1,T2,…,Tm},
Figure BDA0003942589050000052
然后馈入多头自我注意机制模块(MSA),以此获得交互令牌,如式(2):
Ta=MSA(LN(T))+T (2)
其中LN是层归一化。
在每个头部中,多头自我注意机制模块定义了三个可学习的权重矩阵来转换:
Figure BDA0003942589050000053
Figure BDA0003942589050000054
将头部的嵌入令牌Tj投影到这些权重矩阵上,得到Qj=TjWQ,Kj=TjWK和Vj=TjWV
自我注意层的输出
Figure BDA0003942589050000055
由下式(3)给出:
Figure BDA0003942589050000056
其中,j是多头自我注意的第j个头;m头的结果由下式(4)给出:
E={E1,E2,…,Em} (4)
其中
Figure BDA0003942589050000057
进一步将交互令牌Ta输入特征增强模块(FEM),以此获得复合令牌Ta_l,其过程主要包括:首先,将这些交互令牌Ta馈入第一个全连接层,以获得二维令牌Fa=(Fa_1,Fa_2,…,Fa_n),
Figure BDA0003942589050000058
其次,将二维令牌重塑为大小为n×D×D的三维特征F3D,并采用卷积运算来学习F3D的局部信息,这有助于强化小目标的特征;然后,将增强特征Fconv进一步重塑回n×L1的大小,并且馈入下一个全连接层以学习下一个二维令牌Fa_l,之后通过Fa_l和Ta的求和,获得复合令牌
Figure BDA0003942589050000059
2.全局特征提取器
由于不同场景下红外图像的复杂性,为了简化小目标检测任务,需要使网络能够捕获红外图像的基本特征,为了避免遗漏通常只占用几个像素的小目标特征,因此设计一种全局特征提取器,如图3所示,其具体实现步骤如下所述:
将上述步骤1处理过的红外图像作为输入I馈送到全局特征提取器,该模块中使用的残差块Res Block数量设置为4,每个残差块的卷积核数分别为64、128、64和8;将输入图像I的大小调整为120×120,通过全局特征提取器查看整个图像,以此提取输入图像I的基本特征,输出数据是几个与输入I大小相同的全局特征图。
3.监督注意模块
对于复杂的背景,大多数传统的方法不能很好地执行,而最先进的方法严重依赖于具有复杂场景的大量数据,因此应用注意模块来抑制背景和增强小目标,这有助于在具有大量复杂场景的小数据集上训练网络。虽然注意模块可以通过非监督的方式进行训练,但其迭代过程需要花费大量时间成本,因此采用有监督的方式,通过转换地面真实值来训练注意模块。由于小目标的稀疏性以及小目标与背景之间的类不平衡,很难通过背景真实度直接训练注意模块,因此通过低通滤波器将地面真值转换为目标扩展图。该扩展图聚焦于小目标的局部区域,通过这种方式,大部分背景抑制和粗糙目标增强可以在监督注意模块中实现,如图3所示,其具体实现步骤如下所述:
将该模块中使用的残差块的数量设置为6,每个残差块的卷积核的数量分别为32、64、128、64、32和1,并且使用二维高斯低通滤波器,如下式(5)所述:
Figure BDA0003942589050000061
其中,频率滤波范围由参数σ和μ定义,ν表示频域中的二维分量。
该滤波器应用于频域的地面真值,并通过离散傅立叶逆变换(IDFT)将滤波结果f^转换回空域,通过以下式(6)计算目标扩散图:
Figure BDA0003942589050000062
其中mapt表示目标扩散图,该目标扩散图指示模型应注意的一些区域,mapt的像素值表示检测器应注意的程度。
1×1卷积层的目的是为每个元素分配一个概率,以获得注意概率图,在注意概率图上应用Element-wise Soft-max层得到元素分布注意概率图,使用Element-wise Soft-max层有助于增强兴趣区域,加快训练的收敛速度;通过将元素分布注意概率图与每个全局特征图按元素相乘,可以抑制大部分背景,从而增强小目标,元素分布注意概率图和全局特征图之间的元素相乘的结果是全局元素分布特征图。
4.面片网络
在监督注意模块的元素分布注意概率图中误差率较高,有很多粗糙的目标可能区域不足以获得最终的分割。设计一种面片网络通过有效提取与小目标相关的局部特征来降低误差率,获得精确的分割结果。如图3所示,在面片网中,通过滑动步长为10的滑动窗口将每个元素分布注意概率特征图分割为一系列大小为30×30的面片。
由于滑动窗口限制了面片网络在该面片上的接受域,所以面片网络会将注意力集中在小目标的局部显著性上,从而获得精确的结果;此外通过对所有面片共享相同的卷积权重,还可以大大减少面片网的参数量,特征提取的具体实现步骤如下所述:
步骤4.1:使用初始模块从每个面片中提取多尺度小目标特征,该初始模块由三个卷积核大小分别为1×1,3×3,5×5,通道数均为64的卷积块并行组成,不同的核大小有利于提取不同尺寸小目标的多尺度特征。
步骤4.2:将每个面片的多尺度特征通过Concat拼接操作反馈到子网中,从而提取局部特征;在子网中,每个输入首先通过一个由1×1反卷积核、一个批处理范数层Batch-Norm和一个激活函数ReLU组成的反卷积层缩放两倍;该反卷积层的目的是强化每个面片中小目标的特征,扩大面片网对小目标的感知范围。
步骤4.3:然后利用两个卷积核大小为3×3,通道数为256,步长为1的卷积块组成的残差块(Res Block)得到一个尺度较大的特征图;
步骤4.4:进一步利用两个卷积核大小为3×3,通道数为512,步长为2的卷积块组成的Res Block得到一个尺度适中的特征图。
步骤4.5:再进一步利用两个卷积核大小为3×3,通道数为1024,步长为2的卷积块组成的Res Block得到一个尺度较小的特征图。
5.特征融合
将上述步骤4输出的三种不同尺度大小的特征图作为输入馈送到Yolov5网络中的颈部Neck结构进行特征融合,如图4所示,具体实现步骤如下所述:
FPN结构是自顶向下的,将高层的特征信息通过上采样的方式进行传递融合,Yolov5网络中颈部Neck除了使用FPN外,还在此基础上使用了PAN,在FPN层的后面添加了一个自底向上的特征金字塔,其中包含两个PAN结构。这样结合操作,FPN结构自顶向下传达强语义特征,即上采样操作,特征金字塔中的PAN结构则自底向上传达强定位特征,即下采样操作,两者联手,从不同的主干层对不同的检测层进行特征融合。
在Yolov5网络的PAN结构中,两个特征图的结合是采用拼接Concat操作,特征图融合后的尺寸发生了变化,其具体实现步骤如下所述:
步骤5.1:将上述步骤4.5得到的通道数为1024的尺度较小的特征图经过Yolov5颈部(Neck)通道数为512的卷积块进行上采样操作,得到通道数为512的特征图。
步骤5.2:将上述步骤5.1得到的特征图与上述步骤4.4得到的通道数为512的尺度适中的特征图经过Concat拼接操作之后馈送到C31模块,经过C31模块特征图的尺度大小不发生改变。
步骤5.3:将上述步骤5.2得到的特征图经过通道数为256的卷积块进行上采样操作之后与上述步骤4.3得到的通道数为256的尺度较大的特征图进行Concat拼接操作之后馈送到C32模块,经过C32模块特征图的尺度大小不发生改变。
步骤5.4:将上述步骤5.3得到的特征图经过下采样操作之后与上述步骤5.2得到的特征图进行Concat拼接,然后馈送到C33模块,经过C33模块之后特征图的尺度大小发生改变。
步骤5.5:将上述步骤5.4得到的特征图经过下采样操作之后与上述步骤5.1得到特征图进行Concat拼接,然后馈送到C34模块,经过C34模块之后特征图的尺度大小发生改变。
其中各C3模块的结构作用基本相同,均为CSP架构,只是在修正单元的选择上有所不同,其中包含了3个标准卷积层以及3个BottleNeck模块,C3相对于BottleNeckCSP模块不同的是,经历过残差输出后的Conv卷积模块被去掉,Concat拼接后的标准卷积模块中的激活函数也由LeakyRelu变为了SiLU。该模块是对残差特征进行学习的主要模块,其结构分为两支,一支使用了上述指定的3个含有残差块的卷积操作模块堆叠和3个标准卷积层,另一支仅经过一个基本卷积模块,最后将两支进行Concat拼接操作。
经过以上步骤5,采用Yolov5网络中颈部Neck的FPN结构与PAN结构相结合的方式,实现了对完成上述步骤4操作之后输入的三种不同尺度大小的特征图进行特征融合的操作,并且得到进行预测的特征图。
6.检测输出
将上述步骤5进行特征融合之后得到的预测特征图馈送到Yolov5网络中的Prediction预测部分进行预测,再交由头部Head进行小目标检测输出,如图4所示,具体实现步骤如下所述:
为了解决最小化预测框和目标框之间的归一化距离问题,同时在预测框和目标框重叠时能够回归得更准确,Yolov5网络中采用了CIOU_Loss损失函数,CIOU可按下式(7)计算:
Figure BDA0003942589050000081
其中ν是衡量长宽比一致性的参数,如式(8):
Figure BDA0003942589050000082
α为ν的影响因子,可以定义为式(9):
Figure BDA0003942589050000083
上式中,ρ为两框中心点之间的距离,如式(10):
ρ2=(xp-xl)2+(yp-yl)2 (10)
c为两框的最小包围矩形的对角线长度,如下式(11)所述:
c2=(max(xp2,xl2)-min(xp1,xl1))2+(max(yp2,yl2)-min(yp1,yl1))2 (11)
从而得到CIOU_Loss的计算公式,如下式(12)所述:
lossCIOU=1-CIOU (12)
这样CIOU_Loss就将目标框回归函数应该考虑的三个重要几何因素:重叠面积、中心点距离、长宽比全都考虑进去。
随后就是将经过核为1的卷积操作之后的特征图进行网格划分,网格的尺寸与输入的尺寸相同,通过划分网格可以对应到原图的像素,这里就是预测偏移的主体部分;利用卷积操作得到通道数目不同的特征输出,从而对宽和高进行预测,计算出宽高比。
在小目标检测的后处理过程中,Yolov5网络中采用了增加正样本anchor数目的做法来加速收敛,其核心匹配规则为:
在任何预测层,将每个检测框bbox复制成跟目标框anchor个数相同的数目,然后将bbox和anchor一一对应计算,去除不匹配的bbox,然后对原始中心点网格坐标扩展两个邻域像素,增加正样本anchor数目;
对于任何一个输出层,直接采用shape规则匹配,也就是该bbox和当前层的anchor计算宽高比,如果宽高比大于设定阈值,则说明该bbox和anchor匹配度不够,将该bbox过滤丢掉,在该层预测中认为是背景。
经过以上所有步骤,从而获得最终的小目标检测结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于改进Yolov5网络的红外小目标检测方法,其特征在于:含有以下步骤,
步骤1、给定输入图像,将Transformer架构的自我注意机制与卷积神经网络CNN相结合,来学习小目标的鉴别特征;
步骤2、从全局角度出发,通过全局特征提取器查看整个图像,提取小目标的基本特征,获得全局特征图;
步骤3、利用一个小的目标扩散图来训练监督注意模块;
步骤4、从局部角度出发,采用全局关注的局部面片网络提取与小目标相关的局部特征,获取局部特征图;
步骤5、采用Yolov5网络中的颈部结构Neck进行特征融合得到进行预测的特征图;
步骤6、通过Yolov5网络Prediction预测部分进行预测,再交由头部结构Head进行检测输出,获取小目标的检测结果。
2.根据权利要求1所述的基于改进Yolov5网络的红外小目标检测方法,其特征在于:所述所述步骤1中学习小目标的鉴别特征具体是对于给定的输入图像,通过特征嵌入模块Resnet-50将图像嵌入到一系列令牌中,得到嵌入令牌,如式T=Tem+Tpos,其中Tem表示二维令牌,Tpos表示特定位置嵌入;然后采用Transformer架构的自我注意机制对不同嵌入令牌之间的复杂依赖关系进行建模,从而挖掘出小目标和背景像素之间的差异。
3.根据权利要求1所述的基于改进Yolov5网络的红外小目标检测方法,其特征在于:所述步骤2中从全局角度出发,通过一个包括四个残差块(Res Block)的全局特征提取器,提取小目标的基本特征并获得全局特征图,其中每个残差块的卷积核数分别为64、128、64和8。
4.根据权利要求1所述的基于改进Yolov5网络的红外小目标检测方法,其特征在于:所述步骤3中利用一个小的目标扩散图来训练监督注意模块,该模块中使用的残差块数量为6,每个残差块的卷积核数量分别为32、64、128、64、32和1,并且使用二维高斯低通滤波器,
Figure FDA0003942589040000011
其中,频率滤波范围由参数σ和μ定义,ν表示频域中的二维分量,该滤波器应用于频域的地面真值,并通过离散傅立叶逆变换(IDFT)将滤波结果f^转换回空域,通过以
Figure FDA0003942589040000012
Figure FDA0003942589040000013
计算目标扩散图,其中mapt表示目标扩散图,该目标扩散图指示模型应注意的一些区域,mapt的像素值表示检测器应注意的程度;经过1×1卷积层为每个元素分配一个概率并获得注意概率图;在注意概率图上应用Element-wise Soft-max层得到元素分布注意概率图,通过将元素分布注意概率图与每个全局特征图按元素相乘得到全局元素分布特征图。
5.根据权利要求1所述的基于改进Yolov5网络的红外小目标检测方法,其特征在于:所述步骤4中从局部角度出发,设计全局关注的局部面片网络,通过滑动步长为10的滑动窗口将每个全局元素分布特征图分割为一系列大小为30×30的面片;使用初始模块从每个面片中提取多尺度小目标特征,该初始模块由三个卷积核大小分别为1×1,3×3,5×5,通道数均为64的卷积块并行组成;将每个面片的多尺度特征通过拼接操作反馈到子网中,在子网中,每个输入首先通过一个由1×1反卷积核、一个批处理范数层Batch-Norm和一个激活函数ReLU组成的反卷积层缩放两倍;然后分别利用两个卷积块组成的通道数不同的残差块得到三种不同尺度大小的特征图,具体实现步骤如下:
步骤4.1:使用初始模块从每个面片中提取多尺度小目标特征,该初始模块由三个卷积核大小分别为1×1,3×3,5×5,通道数均为64的卷积块并行组成,不同的核大小有利于提取不同尺寸小目标的多尺度特征;
步骤4.2:将每个面片的多尺度特征通过拼接操作反馈到子网中,从而提取局部特征;在子网中,每个输入首先通过一个由1×1反卷积核、一个批处理范数层Batch-Norm和一个激活函数ReLU组成的反卷积层缩放两倍;该反卷积层的目的是强化每个面片中小目标的特征,扩大面片网对小目标的感知范围;
步骤4.3:然后利用两个卷积核大小为3×3,通道数为256,步长为1的卷积块组成的残差块(Res Block)得到一个尺度较大的特征图.
步骤4.4:进一步利用两个卷积核大小为3×3,通道数为512,步长为2的卷积块组成的Res Block得到一个尺度适中的特征图;
步骤4.5:再进一步利用两个卷积核大小为3×3,通道数为1024,步长为2的卷积块组成的Res Block得到一个尺度较小的特征图。
6.根据权利要求1所述的基于改进Yolov5网络的红外小目标检测方法,其特征在于:所述步骤5中采用Yolov5网络中的颈部结构Neck进行特征融合,通过FPN结构自顶向下传达强语义特征,即上采样操作,特征金字塔中的PAN结构则自底向上传达强定位特征,即下采样操作,两者联手,从不同的主干层对不同的检测层进行特征融合,得到进行预测的特征图,
具体实现步骤如下:
步骤5.1:将通道数为1024的残差块输出的尺度较小的特征图经过Yolov5网络颈部Neck中通道数为512的卷积块进行上采样操作,得到通道数为512的特征图;
步骤5.2:将上述步骤5.1得到的特征图与通道数为512的残差块输出的尺度适中的特征图经过Concat拼接操作之后馈送到C31模块,经过C31模块特征图的尺度大小不发生改变;
步骤5.3:将上述步骤5.2得到的特征图经过通道数为256的卷积块进行上采样操作之后与通道数为256的残差块输出的尺度较大的特征图进行Concat拼接操作之后馈送到C32模块,经过C32模块特征图的尺度大小不发生改变;
步骤5.4:将上述步骤5.3得到的特征图经过下采样操作之后与上述步骤5.2得到的特征图进行Concat拼接,然后馈送到C33模块,经过C33模块之后特征图的尺度大小发生改变;
步骤5.5:将上述步骤5.4得到的特征图经过下采样操作之后与上述步骤5.1得到特征图进行Concat拼接,然后馈送到C34模块,经过C34模块之后特征图的尺度大小发生改变。
7.根据权利要求1所述的基于改进Yolov5网络的红外小目标检测方法,其特征在于:所述步骤6中采用Yolov5网络中的Prediction预测部分进行预测,包括计算损失函数,如式
Figure FDA0003942589040000031
其中ν是衡量长宽比一致性的参数,
Figure FDA0003942589040000032
α为ν的影响因子,
Figure FDA0003942589040000033
ρ为两框中心点之间的距离,ρ2=(xp-xl)2+(yp-yl)2
c为两框的最小包围矩形的对角线长度,
c2=(max(xp2,xl2)-min(xp1,xl1))2+(max(yp2,yl2)-min(yp1,yl1))2
从而得到CIOU_Loss的计算公式lossCIOU=1-CIOU,然后交由头部Head进行小目标检测输出,具体通过核为1的卷积对特征图进行网格划分,网格的尺寸与输入的尺寸相同,通过划分网格可以对应到原图的像素,即检测偏移的主体部分,对宽和高进行检测,计算出宽高比,并与设定阈值进行比较,获得最终的检测结果。
CN202211419841.7A 2022-11-14 2022-11-14 一种基于改进Yolov5网络的红外小目标检测方法 Pending CN115661611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211419841.7A CN115661611A (zh) 2022-11-14 2022-11-14 一种基于改进Yolov5网络的红外小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211419841.7A CN115661611A (zh) 2022-11-14 2022-11-14 一种基于改进Yolov5网络的红外小目标检测方法

Publications (1)

Publication Number Publication Date
CN115661611A true CN115661611A (zh) 2023-01-31

Family

ID=85021791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211419841.7A Pending CN115661611A (zh) 2022-11-14 2022-11-14 一种基于改进Yolov5网络的红外小目标检测方法

Country Status (1)

Country Link
CN (1) CN115661611A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503715A (zh) * 2023-06-12 2023-07-28 南京信息工程大学 一种基于级联网络的林火检测方法
CN117975040A (zh) * 2024-03-28 2024-05-03 南昌工程学院 基于改进YOLOv5的GIS红外图像识别系统与方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503715A (zh) * 2023-06-12 2023-07-28 南京信息工程大学 一种基于级联网络的林火检测方法
CN116503715B (zh) * 2023-06-12 2024-01-23 南京信息工程大学 一种基于级联网络的林火检测方法
CN117975040A (zh) * 2024-03-28 2024-05-03 南昌工程学院 基于改进YOLOv5的GIS红外图像识别系统与方法

Similar Documents

Publication Publication Date Title
CN111080629B (zh) 一种图像拼接篡改的检测方法
CN106874894B (zh) 一种基于区域全卷积神经网络的人体目标检测方法
Liu et al. Multiscale U-shaped CNN building instance extraction framework with edge constraint for high-spatial-resolution remote sensing imagery
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN109815843B (zh) 图像处理方法及相关产品
CN112541904B (zh) 一种无监督遥感图像变化检测方法、存储介质及计算设备
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN115661611A (zh) 一种基于改进Yolov5网络的红外小目标检测方法
CN111914838B (zh) 一种基于文本行识别的车牌识别方法
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
CN110781964A (zh) 一种基于视频图像的人体目标检测方法及系统
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN110827320B (zh) 基于时序预测的目标跟踪方法和装置
CN115063786A (zh) 一种高位远景模糊车牌检测方法
Onim et al. Blpnet: A new dnn model and bengali ocr engine for automatic licence plate recognition
CN113297959A (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN110414430B (zh) 一种基于多比例融合的行人重识别方法及装置
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Xu et al. COCO-Net: A dual-supervised network with unified ROI-loss for low-resolution ship detection from optical satellite image sequences
Babu et al. An efficient image dahazing using Googlenet based convolution neural networks
CN113112479A (zh) 基于关键区块提取的渐进式目标检测方法和装置
CN110852255B (zh) 一种基于u型特征金字塔的交通目标检测方法
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination