CN112348042B - 一种基于改进YOLOv3的红外目标检测方法 - Google Patents

一种基于改进YOLOv3的红外目标检测方法 Download PDF

Info

Publication number
CN112348042B
CN112348042B CN201910728022.2A CN201910728022A CN112348042B CN 112348042 B CN112348042 B CN 112348042B CN 201910728022 A CN201910728022 A CN 201910728022A CN 112348042 B CN112348042 B CN 112348042B
Authority
CN
China
Prior art keywords
block
network
residual
layer
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910728022.2A
Other languages
English (en)
Other versions
CN112348042A (zh
Inventor
付光远
陈铁明
魏振华
汪洪桥
张少磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rocket Force University of Engineering of PLA
Original Assignee
Rocket Force University of Engineering of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rocket Force University of Engineering of PLA filed Critical Rocket Force University of Engineering of PLA
Priority to CN201910728022.2A priority Critical patent/CN112348042B/zh
Publication of CN112348042A publication Critical patent/CN112348042A/zh
Application granted granted Critical
Publication of CN112348042B publication Critical patent/CN112348042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Image Processing (AREA)
  • Photometry And Measurement Of Optical Pulse Characteristics (AREA)

Abstract

一种基于改进YOLOv3的红外目标检测方法,使用Darknet‑53作为网络检测框架,移除网络检测框架与预测模块之间的卷积层,加入多尺度融合预测,利用残差层融合低级特征的重复块。在重复块的底部加入注意力模块,在重复块之间加入残差金字塔过渡网络,重复块的通道数随重复次数递增。本发明具有针对红外图像的目标检测时提取特征能力和信息过渡水平都较好的特点。

Description

一种基于改进YOLOv3的红外目标检测方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种基于改进YOLOv3的红外目标检测方法。
背景技术
红外末制导能否快速并准确地发现并识别目标对于导弹武器来说具有极其重要的意义。通常情况下,采集的红外图像弱化甚至舍弃物体的纹理和颜色等特征,突出强调其形状、轮廓和热量分布等特征。传统方法主要通过图像增强、特征提取手段来对实现对红外目标进行检测。随着科学技术的发展,红外目标检测技术已经慢慢从传统方法向深度学习方法迁移,使检测的精度和速度较以往都有大幅的提升。基于深度学习的红外目标检测具有较强的特征提取和学习泛化能力,目前是红外目标检测研究的热点。
由于红外图像的特殊属性,使得在相同条件下提取红外图像特征的难度更大。同样的网络模型,同样的训练参数,对红外图像的检测效果会远不如可见光。利用深度学习对图像进行目标检测,归根结底与网络对图像特征挖掘、提取和处理的能力相关。现有技术的红外目标检测在深度学习网络中引入注意力机制,起到加强目标、抑制背景的作用,从而提高对红外目标的检测能力。注意力机制基于空间搜索来选择显著性的位置,网络越深能就够提取到更深层的特征。但相关现有技术在目标较少的场景中效率较低,而且对于重叠目标的检测效果并不理想。产生这一问题的原因在于,一味地增加网络层数会使得特征信息的缺失、训练难度加大、效果变差。另一普遍用于目标检测的深度学习网络中是残差网络,其在处理图像分类任务时具有较好表现,但是随着网络特征图通道数的快速变化会导致特征信息的缺失。
发明内容
鉴于以上所述现有技术的不足,本发明的目的在于提供提取特征能力和信息过渡水平都较好的一种基于改进YOLOv3的红外目标检测方法。
一种基于改进YOLOv3的红外目标检测方法使用Darknet-53作为网络检测框架。
首先移除网络检测框架与预测模块之间的卷积层。然后加入多尺度融合预测,预测模块接收并综合最后三个重复块的结果做出预测。网络检测框架包括利用残差层融合低级特征的重复块,在重复块的卷积层之后加入残差模块。
在重复块的底部加入注意力模块,由主干分支和掩码分支构成。主干分支对特征进行卷积等处理得到T(x),掩码分支对特征图进行两次下采样和两次上采样得到同样大小的M(x),以掩码分支和主干分支的点乘结果作为输出结果,可表示为
H(x)=M(x)·T(x)
在重复块之间加入残差金字塔过渡网络,由多层包含卷积层、批归一化层和激活层的过渡残差块组成。激活层以ReLU函数作为激活函数。过渡残差块的通道数逐层递增,残差金字塔过渡网络的层数可表示为
Figure BDA0002159577490000021
第n层过渡残差块的通道数可表示为
Figure BDA0002159577490000022
其中Dstart是输入下一重复块的特征图通道数,Dend是上一重复块输出的特征图通道数。
进一步,将注意力机制和残差金字塔过渡网路进行结合,重复块的通道数随重复次数递增,第n次重复的重复块通道数可表示为
Figure BDA0002159577490000023
其中是D′start输入当前重复块的特征图通道数,D′end是当前重复块输出的特征图通道数,λ是当前重复块的重复系数。
进一步,注意力模块加入残差结构,避免网络特征被弱化,注意力模块的输出结果可表示为
H(x)=(M(x)+1)·T(x)
YOLOv3网络中具有大量批归一化处理,特征值很多处在0到1之间。加入注意力模块后,随着网络的加深特征值趋近于0,这会导致网络特征被弱化。加入残差结构后不仅可以避免特征值不断减小,而且没有改变输入输出的维度和网络结构,避免了增加额外的计算量。
进一步,注意力模块的输入尺寸为4的倍数。由于经过在掩码分支中的两次下采样,特征图的尺寸变为原先的1/4。将注意力模块的输入尺寸限制为4的倍数可以避免采样过程中数据的缺失。
进一步,仅在第二个和第三个重复模块的底部加入注意力模块。网络的前几层提取的主要是直观的初级特征信息,而红外图像的初级特征不明显,故利用注意力机制意义不大。在网络的前端增加注意力模块对检测精度会使检测精度降低而且大幅增长网络训练时间。
本发明的技术方案具有以下有益效果:(1)在YOLOv3中,去掉了Darknet-53最后一层卷积层,利用残差层融合低级特征,并加入多尺度融合预测,从而提高对特征的提取能力,实现对小目标检测的突破。(2)在重复层之间设置通道数逐层递增的过渡残差块,使得网络深度得到有效增加,能够提取更加丰富的信息。同时又增加了层与层之间的联系,有效避免了提取特征过程中的信息丢失现象。残差金字塔过渡网络使得提取特征能力和信息过渡水平都较原模型有所提高。(3)残差结构的设计只是简单增加原始主干输入,不仅可以避免因注意力模块的加入使得特征值不断减小,而且对于网络本身而言,没有改变输入输出的维度,也没有使网络结构发生较大的变化,更没有增加额外的计算量。(4)将注意力机制和残差金字塔过渡结构进行融合,通过引入金字塔过渡结构来削弱通道数骤变造成的图像特征丢失影响。
附图说明
图1是YOLOv3网络结构中网络检测框架的结构示意图;
图2是本发明的改进YOLOv3网络结构中网络检测框架的结构示意图;
图3是本发明的具体实施方式中注意力模块的结构示意图;
图4是本发明的方法中残差金字塔过渡网络的位置示意图;
图5是本发明的方法中残差金字塔过渡网络的结构示意图;
图6是本发明的方法中残差金字塔过渡网络的残差模块结的构示意图
图7是本发明的算例分析中A组实验数据的平均交并比和候选框数量关系示意图;
图8是本发明的算例分析中B组实验数据的平均交并比和候选框数量关系示意图。
附图标记说明:
本发明附图中Conv、ConvSet或Convolutional表示卷积层;Attention表示注意力模块;Residual或Residual Block表示残差模块;Subsampling为下采样,Upsampling为上采样,BN为批归一化。
具体实施方式
以下将结合说明书附图和具体实施例对本发明的一种基于改进YOLOv3的红外目标检测方法做进一步详细说明。
实施例1
基于改进YOLOv3进行红外目标检测,使用Darknet-53作为网络检测框架,Darknet-53共由53个卷积层构成。参照图1,虚线框内为Darknet-53的基本结构,首先去掉了Darknet-53最后一层卷积层。在重复块的卷积层之后加入残差模块,利用残差层融合低级特征。
参照图2和图3,在重复块的底部加入注意力模块,由主干分支和掩码分支构成。主干分支对特征进行卷积等处理得到T(x),掩码分支对特征图进行两次下采样和两次上采样得到同样大小的M(x),以掩码分支和主干分支的点乘结果作为输出结果,可表示为
H(x)=M(x)·T(x)
在此基础上,再加入残差结构,避免网络特征被弱化,注意力模块的输出结果最终可表示为
H(x)=(M(x)+1)·T(x)
注意力模块的输入尺寸为4的倍数。由于经过在掩码分支中的两次下采样,特征图的尺寸变为原先的1/4。将注意力模块的输入尺寸限制为4的倍数可以避免采样过程中数据的缺失。
仅在第二个和第三个重复模块的底部加入注意力模块。网络的前几层提取的主要是直观的初级特征信息,而红外图像的初级特征不明显,故利用注意力机制意义不大。在网络的前端增加注意力模块对检测精度会使检测精度降低而且大幅增长网络训练时间。
参照图4和图5,在重复块之间加入残差金字塔过渡网络,由多层包含卷积层、批归一化层和激活层的过渡残差块组成。金字塔残差网络结构的设计形如金字塔,并使用残差相互连接,保证网络一定的深度要求。
参照图6,过渡残差块的结构为卷积层、批归一化层和激活层依次相连,激活层以ReLU函数作为激活函数。过渡残差块的通道数逐层递增,残差金字塔过渡网络的层数可表示为
Figure BDA0002159577490000041
第n层过渡残差块的通道数可表示为
Figure BDA0002159577490000042
其中Dstart是输入下一重复块的特征图通道数,Dend是上一重复块输出的特征图通道数。
最后为加入多尺度融合预测。预测模块接收并综合网络检测框架的最后三个重复块的结果做出预测。
实施例2
本实施例与实施例1的区别在于,网络检测框架中重复块的通道数随重复次数递增,第n次重复的重复块通道数可表示为
Figure BDA0002159577490000051
其中是D′start输入当前重复块的特征图通道数,D′end是当前重复块输出的特征图通道数,λ是当前重复块的重复系数。
本实施例的其他方法与步骤与实施例1相同。
算例分析
收集两组实验数据。
A组实验数据采取自制红外数据集的方式,通过实验室弹上红外系统进行数据采集,拍摄N比例模型作为数据来源,并将特种车辆、舰船、飞行器作为研究目标。同时,在拍摄过程中,不断更换目标所在场景,调整目标方向及拍摄角度,以增强数据集的多样性和可靠性。获得数据集后,对数据集进一步筛选,剔除模糊、重影等低质量图像,最后使用开源工具LabelImg进行人工标注,最终获得7525张红外图片,分辨率为581×426,随机选取6773张图片作为训练集,676张图片作为测试集,其余作为交叉验证集。参照图7,通过聚类得到平均交并比和选取锚点框数目之间的关系。
B组实验数据是使用武汉大学团队标注的公开遥测数据集RSOD,包含飞机、运动场、立交桥和油桶四类目标,一共976张图像。参照图8,通过聚类得到平均交并比和选取锚点框数目之间的关系。
在相同的硬件和软件设置下,使用依照实施例1和实施例2和一种也使用YOLOv3的相关现有技术所述的方法编写的程序对两组实验数据分别进行检测分析。表1为三种方法对A组实验数据的检测结果,表2为三种方法对B组实验数据的检测结果。
Figure BDA0002159577490000061
表1
Figure BDA0002159577490000062
表2
对于A组实验数据,实施例1的方法几乎没有增加训练时间,却使平均精度得到大幅提高,增加了约12%,并且有效降低虚警率。对于B组实验数据,实施例1的方法训练时间比现有技术的方法增加了近一小时,但平均精度提高了约10%,漏检率降低了约8%,而虚警率仅增加2%。对于A组实验数据,实施例2的方法平均精度整体提高了约13%,虚警率降低8%,误检率小幅提高。对于B组实验数据,实施例1的方法平均精度提高了约15%,漏检率降低8%,而虚警率仅增加4%。
通过对比,发现本发明的一种基于改进YOLOv3的红外目标检测方法对检测效果有较大提升。残差金字塔过渡网络的设计带来了信息过渡优势,并保持原有网络框架不变,充分发挥Darknet-53模型优势,对检测效果具有较大促进作用,能使红外目标和可见光目标的检测效果得到大幅提升。
显然,本领域的技术人员还可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (5)

1.一种基于改进YOLOv3的红外目标检测方法,使用Darknet-53作为网络检测框架,其特征在于:
移除网络检测框架与预测模块之间的卷积层;加入多尺度融合预测,预测模块接收并综合最后三个重复块的结果做出预测;网络检测框架包括利用残差层融合低级特征的重复块,在重复块的卷积层之后加入残差模块;
在重复块的底部加入注意力模块,由主干分支和掩码分支构成;主干分支对特征进行卷积等处理得到T(x),掩码分支对特征图进行两次下采样和两次上采样得到同样大小的M(x),点乘掩码分支和主干分支的结果作为输出结果;
在重复块之间加入残差金字塔过渡网络,由多层包含卷积层、批归一化层和激活层的过渡残差块组成,激活层以ReLU函数作为激活函数;过渡残差块的通道数逐层递增,残差金字塔过渡网络的层数可表示为
Figure FDA0002159577480000011
第n层过渡残差块的通道数可表示为
Figure FDA0002159577480000012
其中Dstart是输入下一重复块的特征图通道数,Dend是上一重复块输出的特征图通道数。
2.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:重复块的通道数随重复次数递增,第n次重复的重复块通道数可表示为
Figure FDA0002159577480000013
其中是D′start输入当前重复块的特征图通道数,D′end是当前重复块输出的特征图通道数,λ是当前重复块的重复系数。
3.根据权利要求1或2所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:注意力模块加入残差结构,避免网络特征被弱化,注意力模块的输出结果可表示为
H(x)=(M(x)+1)·T(x)。
4.根据权利要求3所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:注意力模块的输入尺寸为4的倍数。
5.根据权利要求4所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:仅在第二个和第三个重复模块的底部加入注意力模块。
CN201910728022.2A 2019-08-08 2019-08-08 一种基于改进YOLOv3的红外目标检测方法 Active CN112348042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728022.2A CN112348042B (zh) 2019-08-08 2019-08-08 一种基于改进YOLOv3的红外目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728022.2A CN112348042B (zh) 2019-08-08 2019-08-08 一种基于改进YOLOv3的红外目标检测方法

Publications (2)

Publication Number Publication Date
CN112348042A CN112348042A (zh) 2021-02-09
CN112348042B true CN112348042B (zh) 2022-09-30

Family

ID=74367386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728022.2A Active CN112348042B (zh) 2019-08-08 2019-08-08 一种基于改进YOLOv3的红外目标检测方法

Country Status (1)

Country Link
CN (1) CN112348042B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139945A (zh) * 2021-02-26 2021-07-20 山东大学 一种基于Attention+YOLOv3的空调外机图像智能检测方法、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647585B (zh) * 2018-04-20 2020-08-14 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109584248B (zh) * 2018-11-20 2023-09-08 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110084292B (zh) * 2019-04-18 2023-06-06 江南大学 基于DenseNet和多尺度特征融合的目标检测方法

Also Published As

Publication number Publication date
CN112348042A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112861729B (zh) 一种基于伪深度图引导的实时深度补全方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN111914924B (zh) 一种快速舰船目标检测方法、存储介质及计算设备
CN111582316A (zh) 一种rgb-d显著性目标检测方法
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN111046917B (zh) 基于深度神经网络的对象性增强目标检测方法
CN114943963A (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN111968123A (zh) 一种半监督视频目标分割方法
CN109919232B (zh) 基于卷积神经网络和非局部连接网络的图像分类方法
CN111914726B (zh) 基于多通道自适应注意力机制的行人检测方法
CN114612832A (zh) 一种实时手势检测方法及装置
CN111582102B (zh) 基于多模态端到端网络的遥感数据精细化分类方法及装置
CN111104855B (zh) 一种基于时序行为检测的工作流识别方法
CN115841629A (zh) 一种基于卷积神经网络的sar图像舰船检测方法
CN115330703A (zh) 基于上下文信息融合的遥感影像云与云阴影检测方法
CN112348042B (zh) 一种基于改进YOLOv3的红外目标检测方法
CN115082806A (zh) 一种面向中高分辨率卫星遥感影像的地面物体提取方法
CN114943894A (zh) 一种基于ConvCRF的高分遥感影像建筑物提取优化方法
CN112101113A (zh) 一种轻量化的无人机图像小目标检测方法
CN116778346A (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN111160354A (zh) 一种基于联合图像信息的海天背景下船舶图像分割方法
CN116363518A (zh) 一种基于分焦平面偏振成像的伪装目标检测方法
CN113962332B (zh) 基于自优化融合反馈的显著目标识别方法
CN114529794A (zh) 一种红外与可见光图像融合方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant