CN112949633B - 一种基于改进YOLOv3的红外目标检测方法 - Google Patents

一种基于改进YOLOv3的红外目标检测方法 Download PDF

Info

Publication number
CN112949633B
CN112949633B CN202110245968.0A CN202110245968A CN112949633B CN 112949633 B CN112949633 B CN 112949633B CN 202110245968 A CN202110245968 A CN 202110245968A CN 112949633 B CN112949633 B CN 112949633B
Authority
CN
China
Prior art keywords
convolution
model
image
infrared
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110245968.0A
Other languages
English (en)
Other versions
CN112949633A (zh
Inventor
秦鹏
唐川明
刘云峰
张建林
徐智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Optics and Electronics of CAS
Original Assignee
Institute of Optics and Electronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Optics and Electronics of CAS filed Critical Institute of Optics and Electronics of CAS
Priority to CN202110245968.0A priority Critical patent/CN112949633B/zh
Publication of CN112949633A publication Critical patent/CN112949633A/zh
Application granted granted Critical
Publication of CN112949633B publication Critical patent/CN112949633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进YOLOv3的红外目标检测方法,主要用于增强对红外目标的检测能力。该方法包括:制作红外数据集;改进的数据增强方式;引入EfficientNet‑B2骨干网络代替原来YOLOv3的DarkNet53,减小模型参数;引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力;引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量;使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度;本发明提高了红外目标的检测精确度,可以在复杂背景环境下对红外目标进行快速、准确的检测识别。

Description

一种基于改进YOLOv3的红外目标检测方法
技术领域
本发明属于红外目标检测技术领域,具体涉及一种基于改进YOLOv3的红外目标检测方法。
背景技术
目标检测(Object Detection)作为图像理解中的重要一环,其任务是找出图像中所感兴趣的目标,确定其所处的位置和类别,由于各类物体有不同的外观、形状、姿态,加上成像时光照、遮挡等因素干扰,目标检测一直是计算机视觉领域的研究热点。近年来,深度学习发展迅猛,尤其是深度卷积网络在计算机视觉领域不断实现新的突破,相关技术已经在诸多领域广泛应用。
基于深度学习的目标检测算法目前大致分为两阶段和单阶段两大类。其中两阶段:从R-CNN到Faster R-CNN一直采用的思路是proposal+分类(proposal提供位置信息,分类提供类别信息),精度较高,但由于两阶段算法在proposal耗费时间过多,运行速度达不到实时效果。单阶段算法YOLO提供了另一种更为直接的思路:直接在输出层回归预测框的位置和目标所属的类别,加快了网络运行的速度,通过多层特征融合提升了对目标检测能力。
由于可见光成像在光源不足,或者遭遇恶劣天气环境时会严重影响目标检测的性能。而红外成像是通过被动接受目标自身的红外辐射进行成像,在夜晚、雨天、大雾等气候条件下均可正常工作,具有全天候工作的能力,在军事、探测、火灾求援、行车辅助、安防监控等领域有着广泛的应用。传统的红外目标检测算法鲁棒性不佳,容易产生错检漏捡。目前基于深度学习的红外目标检测算法较少,直接使用可见光的深度学习目标检测算法对红外目标进行检测,效果不佳。因此需要一种专门针对红外目标的深度学习检测算法。
发明内容
本发明的目的是针对现有的红外目标检测技术存在精度低,速度慢的问题,发明一种基于改进YOLOv3的红外目标检测方法,该方法模型参数小,具有较强的特征提取和边界框预测能力,有效解决了红外目标识别中由于目标轮廓模糊、纹理细节特征少带来的错检漏检,提高了红外目标检测的准确度。
本发明采用的技术方案如下:一种基于改进YOLOv3的红外目标检测方法,包括如下步骤:
步骤1:使用红外摄像头获取包含目标的红外图像,并使用标注工具对图片中的目标进行数据标注得到红外数据集,目标包括车辆、行人;
步骤2:对红外数据集进行数据增强;
步骤3:构建网络模型,使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络,减小模型参数,通过将分辨率低但具有更强语义信息的高层特征图进行上采样,与具有更多位置信息的高分辩低层特征进行融合,生成用于检测不同尺度目标的三个不同尺度的特征层。引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力。引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量。使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度。
步骤4:使用改进后的网络对已标注的红外数据集进行训练直至网络收敛,保存模型与权重文件。使用最佳训练模型对数据集进行测试,并获取测试集的测试结果。
进一步地,所述步骤1中红外数据集制作的具体包括以下2个步骤:
步骤1.1:将获取的红外图像统一裁剪缩放成416×416尺寸的图片;
步骤1.2:使用标注工具将目标的左上角和右下角横纵坐标位置,目标所属的类别进行标注,删除难以辨认的图像。按照8:2的比例把红外数据集划分训练集和测试集,将标注结果保存为json格式。
进一步地,所述步骤2中数据增强的具体包括以下2个步骤:
步骤2.1:采用Mosaic数据增强,每次在416×416空白图像中随机初始化一个点,使用初始化的横纵坐标将空白图像分为四个区域,随机读取四张图片,并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像,形成一张新的图片,并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移等。
步骤2.2:为了模拟红外图像的复杂背景,将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合。最终得到的训练图像P的计算公式如下,其中λ为0.1至0.3之间的一个随机数。
P=(1-λ)×P1+λ×P2,λ∈[0.1,0.3]
进一步地,所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体包括以下2个步骤:
步骤3.1:使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络,EfficientNet-B2会对输入的416×416图像进行五次下采样。取EfficientNet-B2的13×13,26×26,52×52三种不同尺度的特征层作为后续的特征融合层。
步骤3.2:其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合,26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合,形成对大中小三种不同尺度目标的特征预测层。
进一步地,所述步骤3中使用RFB模块作为增大模型感受野的具体过程如下:
步骤3.3:使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维,形成五路分支,其中一路分支作为shortcut连接保存。为了模拟人类视觉的感受野机制,其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积,另一分支使用MaxPool后进行1×1的通道降维,将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征,再与保留的shortcut分支进行像素相加得到输出特征图。实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积,降低模型的参数量。
进一步地,所述步骤3中使用可变形卷积的具体过程如下:
步骤3.4:对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26,52×52大小的特征图进行可变形卷积操作。可变形卷积对传统的矩形卷积区域施加x,y方向上的偏移,即将输入特征的像数值索引与每一个像数偏移量相加,并将其位置限制在特征图尺寸范围内,达到对不规则区域进行卷积的目的。
步骤3.5:不同区域的像数对于神经元的敏感度不同,在步骤3.4的基础上增加一组权重通道,其经过sigmoid层映射到[0,1]内得到对应的偏移值权重。
进一步地,所述步骤3中使用动态ReLU激活函数的具体过程如下:
步骤3.6:使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数,其公式如下:
Figure BDA0002964087680000031
其中K表示函数的个数,xc为输入x的第c个通道值,yc为输出值。该公式的含义为通过不同输入的x,综合其各个维度的上下文信息来自适应调整线性系数
Figure BDA0002964087680000032
的值,改变正负激活率,能在带来少量额外计算的情况下,显著地提高网络的表达能力。
进一步地,所述步骤3中构建CBD,DBD,D3BD结构的具体过程如下:
步骤3.7:根据可变形卷积和动态ReLU函数构建三种不同模型结构,其中CBD由普通卷积(Conv),BN层,动态ReLU函数(DY-ReLU)组成;DBD由可变形卷积,BN层,动态ReLU函数组成;D3BD由3个可变形卷积,BN层,动态ReLU函数组成。
进一步地,所述步骤3中CIoU计算过程如下:
步骤3.8:
Figure BDA0002964087680000041
Figure BDA0002964087680000042
Figure BDA0002964087680000043
其中υ表示预测框A与目标框B之间的长宽比相似性,α为υ的权重系数。ωgt,hgt,ω,h分别表示目标框的宽、高和预测框的宽、高。b表示预测框A的中心点,bgt表示目标框B的中心点,p2(b,bgt)表示预测框A与目标框B之间的中心距离的平方,r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度。IoU的计算公式如下:
Figure BDA0002964087680000044
进一步的,所述步骤4中具体包括以下3个步骤:
步骤4.1:在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.001进行训练。
步骤4.2:在训练20轮之后,解冻EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.0001训练直至网络收敛。
步骤4.3:使用步骤4.2中得到的最佳模型权重对测试集进行结果测试。
本发明与现有技术相比的优点在于:
(1)本发明引入了轻量的EfficientNet作为骨干网络,降低了网络模型参数量,提升训练速度;
(2)本发明引入了改进的RFB模块,提升了网络模型的感受野;
(3)本发明通过结合可变形卷积和动态ReLU激活函数,构建了DBD和CBD结构,提升模型特征编码的灵活性,增加网络模型容量。
附图说明
图1为本发明一种基于改进YOLOv3的红外目标检测方法的整体结构流程图;
图2为本发明一种基于改进YOLOv3的红外目标检测方法所述的数据增强方法示意图;
图3为本发明一种基于改进YOLOv3的红外目标检测方法所采用的EfficientNet中MBConv模块示意图;
图4为本发明一种基于改进YOLOv3的红外目标检测方法所采用的改进后RFB模块示意图;
图5为本发明一种基于改进YOLOv3的红外目标检测方法所采用的可变形卷积模块示意图;
图6为本发明一种基于改进YOLOv3的红外目标检测方法所采用的动态ReLU模块示意图;
图7为本发明一种基于改进YOLOv3的红外目标检测方法所采用的CBD,DBD,D3BD结构示意图;
图8为本发明一种基于改进YOLOv3的红外目标检测方法整体网络模型的示意图;
图9为本发明一种基于改进YOLOv3的红外目标检测方法检测效果图。
具体实施方式
为了更清楚的说明本发明的目的、技术方案和优点,下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1所示,本发明提供了一种基于改进YOLOv3的红外目标检测方法,包括:
步骤1:使用红外摄像头获取包含车辆、行人等目标的红外图像,并使用标注工具对图片中的车辆、行人等目标进行数据标注得到红外数据集;
步骤2:对红外数据集进行数据增强;
步骤3:构建网络模型,使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络,减小模型参数,通过将分辨率低但具有更强语义信息的高层特征图进行上采样,与具有更多位置信息的高分辩低层特征进行融合,生成用于检测不同尺度目标的三个不同尺度的特征层。引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力。引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量。使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度。
步骤4:使用改进后的网络对已标注的红外数据集进行训练直至网络收敛,保存模型与权重文件。使用最佳训练模型对数据集进行测试,并获取测试集的测试结果。
进一步地,所述步骤1中红外数据集制作的具体包括以下2个步骤:
步骤1.1:将获取的红外图像统一裁剪缩放成416×416尺寸的图片;
步骤1.2:使用标注工具将目标的左上角和右下角横纵坐标位置,目标所属的类别进行标注,删除难以辨认的图像。按照8:2的比例把红外数据集划分训练集和测试集,将标注结果保存为json格式。
进一步地,所述步骤2中数据增强如图2所示,具体包括以下2个步骤:
步骤2.1:采用Mosaic数据增强,每次在416×416空白图像中随机初始化一个点,使用初始化的横纵坐标将空白图像分为四个区域,随机读取四张图片,并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像,形成一张新的图片,并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移等。
步骤2.2:为了模拟红外图像的复杂背景,将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合。最终得到的训练图像P的计算公式如下,其中λ为0.1至0.3之间的一个随机数。
P=(1-λ)×P1+λ×P2,λ∈[0.1,0.3]
进一步地,所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体包括以下2个步骤:
步骤3.1:使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络,EfficientNet-B2会对输入的416×416图像进行五次下采样。EfficientNet-B2的组成模块MBConv的结构示意图如图3所示。取EfficientNet-B2的13×13,26×26,52×52三种不同尺度的特征层作为后续的特征融合层。
步骤3.2:其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合,26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合,形成对大中小三种不同尺度目标的特征预测层。
进一步地,所述步骤3中,改进后的RFB结构示意图如图4所示,使用RFB模块作为增大模型感受野的具体过程如下:
步骤3.3:使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维,形成五路分支,其中一路分支作为shortcut连接保存。为了模拟人类视觉的感受野机制,其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积,另一分支使用MaxPool后进行1×1的通道降维,将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征,再与保留的shortcut分支进行像素相加得到输出特征图。实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积,降低模型的参数量。
进一步地,所述步骤3中可变形卷积模块示意图如图5所示,使用可变形卷积的具体过程如下:
步骤3.4:对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26,52×52大小的特征图进行可变形卷积操作。可变形卷积对传统的矩形卷积区域施加x,y方向上的偏移,即将输入特征的像数值索引与每一个像数偏移量相加,并将其位置限制在特征图尺寸范围内,达到对不规则区域进行卷积的目的。
步骤3.5:不同区域的像数对于神经元的敏感度不同,在步骤3.4的基础上增加一组权重通道,其经过sigmoid层映射到[0,1]内得到对应的偏移值权重。
进一步地,所述步骤3中动态ReLU激活函数模块示意图如图6所示,使用动态ReLU激活函数的具体过程如下:
步骤3.6:使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数,其公式如下:
Figure BDA0002964087680000071
其中K表示函数的个数,xc为输入x的第c个通道值,yc为输出值。该公式的含义为通过不同输入的x,综合其各个维度的上下文信息来自适应调整线性系数
Figure BDA0002964087680000072
的值,改变正负激活率,能在带来少量额外计算的情况下,显著地提高网络的表达能力。
进一步地,所述步骤3中构建CBD,DBD,D3BD结构示意图如图7所示,构建的具体过程如下:
步骤3.7:根据可变形卷积和动态ReLU函数构建三种不同模型结构,其中CBD由普通卷积(Conv),BN层,动态ReLU函数(DY-ReLU)组成;DBD由可变形卷积,BN层,动态ReLU函数组成;D3BD由3个可变形卷积,BN层,动态ReLU函数组成。
进一步地,所述步骤3中CIoU计算过程如下:
步骤3.8:
Figure BDA0002964087680000081
Figure BDA0002964087680000082
Figure BDA0002964087680000083
其中υ表示预测框A与目标框B之间的长宽比相似性,α为υ的权重系数。ωgt,hgt,ω,h分别表示目标框的宽、高和预测框的宽、高。b表示预测框A的中心点,bgt表示目标框B的中心点,p2(b,bgt)表示预测框A与目标框B之间的中心距离的平方,r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度。IoU的计算公式如下:
Figure BDA0002964087680000084
在实际测试的过程中,由于可变形卷积的叠加导致计算量偏大,使得网络运行速度较慢,为了平衡模型检测的速度和精度,所以只是用了CBD和DBD两种架构。最后构建好的一种基于改进YOLOv3的红外目标检测方法网络结构如图8所示。
进一步地,所述步骤4中具体包括以下3个步骤:
步骤4.1:在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.001进行训练。
步骤4.2:在训练20轮之后,解冻EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.0001训练直至网络收敛。
步骤4.3:使用步骤4.2中得到的最佳模型权重对测试集进行结果测试,验证的结果示意图如图9所示。在相同硬件条件下对本方法和其他目标检测算法在红外数据集上进行对比测试,测试结果如表1所示:
表1本发明方法与其他目标检测算法对红外目标检测性能对比
Figure BDA0002964087680000085
从表1可以看出,本发明模型的mAP结果在原始YOLOv3的基础上提升了9.9个百分点,运行的速度只下降一帧。比当前最先进的目标检测算法EfficientDet中的D0算法和D1算法的检测精确度都高,充分说明了该改进算法的有效性。本发明模型具备自主学习能力且检测率高,是解决复杂环境下红外成像目标检测的有效途径。
以上显示和描述了本发明的主要特征、基本原理以及本发明的优点。本行业技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会根据实际情况有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于改进YOLOv3的红外目标检测方法,其特征在于,包括如下步骤:
步骤1:使用红外摄像头获取包含目标的红外图像,并使用标注工具对图片中的目标进行数据标注,目标包括车辆、行人;
步骤2:对红外数据集进行数据增强;
步骤3:构建网络模型,使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络,减小模型参数,通过将分辨率低但具有更强语义信息的高层特征图进行上采样,与具有更多位置信息的高分辩低层特征进行融合,生成用于检测不同尺度目标的三个不同尺度的特征层;引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力;引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量,使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度;
所述步骤3中使用改进后的RFB模块作为增大模型感受野的具体过程如下:
步骤3.3:使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维,形成五路分支,其中一路分支作为shortcut连接保存,为了模拟人类视觉的感受野机制,其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积,另一分支使用MaxPool后进行1×1的通道降维,将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征,再与保留的shortcut分支进行像素相加得到输出特征图,实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积,降低模型的参数量;
所述步骤3中构建CBD,DBD,D3BD结构的具体过程如下:
步骤3.7:根据可变形卷积和动态ReLU函数构建三种不同模型结构,其中CBD由普通卷积(Conv),BN层,动态ReLU函数(DY-ReLU)组成;DBD由可变形卷积,BN层,动态ReLU函数组成;D3BD由3个可变形卷积,BN层,动态ReLU函数组成;
步骤4:使用改进后的网络对已标注的红外数据集进行训练直至网络收敛,保存模型与权重文件,使用最佳训练模型对数据集进行测试,并获取测试集的测试结果。
2.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤1中数据集制作的具体过程如下:
步骤1.1:将获取的红外图像统一裁剪缩放成416×416尺寸的图片;
步骤1.2:使用标注工具将目标的左上角和右下角横纵坐标位置,目标所属的类别进行标注,删除难以辨认的图像,按照8:2的比例把数据集划分训练集和测试集,将标注结果保存为json格式。
3.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤2中数据增强的具体过程如下:
步骤2.1:采用Mosaic数据增强,每次在416×416空白图像中随机初始化一个点,使用初始化的横纵坐标将空白图像分为四个区域,随机读取四张图片,并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像,形成一张新的图片,并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移;
步骤2.2:为了模拟红外图像的复杂背景,将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合,最终得到的训练图像P的计算公式如下:
P=(1-λ)×P1+λ×P2,λ∈[0.1,0.3]
其中λ为0.1至0.3之间的一个随机数。
4.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体过程如下:
步骤3.1:使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络,EfficientNet-B2会对输入的416×416图像进行五次下采样,取EfficientNet-B2的13×13,26×26,52×52三种不同尺度的特征层作为后续的特征融合层;
步骤3.2:其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合,26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合,形成对大中小三种不同尺度目标的特征预测层。
5.根据权利要求4所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤3中使用可变形卷积和动态ReLU函数具体过程如下:
步骤3.4:对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26,52×52大小的特征图进行可变形卷积操作,可变形卷积对传统的矩形卷积区域施加x,y方向上的偏移,即将输入特征的像数值索引与每一个像数偏移量相加,并将其位置限制在特征图尺寸范围内,达到对不规则区域进行卷积的目的;
步骤3.5:不同区域的像数对于神经元的敏感度不同,在步骤3.4的基础上增加一组权重通道,其经过sigmoid层映射到[0,1]内得到对应的偏移值权重;
步骤3.6:使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数,其公式如下:
Figure FDA0003695775440000031
其中K表示函数的个数,xc为输入x的第c个通道值,yc为输出值,该公式的含义为通过不同输入的x,综合其各个维度的上下文信息来自适应调整线性系数
Figure FDA0003695775440000032
的值,改变正负激活率,能在带来少量额外计算的情况下,显著地提高网络的表达能力。
6.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤3中CIoU计算过程如下:
步骤3.8:
Figure FDA0003695775440000033
Figure FDA0003695775440000034
Figure FDA0003695775440000035
其中υ表示预测框A与目标框B之间的长宽比相似性,α为υ的权重系数,ωgt,hgt,ω,h分别表示目标框的宽、高和预测框的宽、高,b表示预测框A的中心点,bgt表示目标框B的中心点,p2(b,bgt)表示预测框A与目标框B之间的中心距离的平方,r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度,IoU的计算公式如下:
Figure FDA0003695775440000036
7.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤4中具体过程如下:
步骤4.1:在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.001进行训练;
步骤4.2:在训练20轮之后,解冻EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.0001训练直至网络收敛;
步骤4.3:使用步骤4.2中得到的最佳模型权重对测试集进行结果测试。
CN202110245968.0A 2021-03-05 2021-03-05 一种基于改进YOLOv3的红外目标检测方法 Active CN112949633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110245968.0A CN112949633B (zh) 2021-03-05 2021-03-05 一种基于改进YOLOv3的红外目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110245968.0A CN112949633B (zh) 2021-03-05 2021-03-05 一种基于改进YOLOv3的红外目标检测方法

Publications (2)

Publication Number Publication Date
CN112949633A CN112949633A (zh) 2021-06-11
CN112949633B true CN112949633B (zh) 2022-10-21

Family

ID=76247915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110245968.0A Active CN112949633B (zh) 2021-03-05 2021-03-05 一种基于改进YOLOv3的红外目标检测方法

Country Status (1)

Country Link
CN (1) CN112949633B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255634A (zh) * 2021-07-18 2021-08-13 杭州电子科技大学 基于改进Yolov5的车载移动端目标检测方法
CN113553979B (zh) * 2021-07-30 2023-08-08 国电汉川发电有限公司 一种基于改进yolo v5的安全服检测方法和系统
CN114170418B (zh) * 2021-11-30 2024-05-24 吉林大学 一种以图搜图的汽车线束连接器多特征融合图像检索方法
CN114898105B (zh) * 2022-03-04 2024-04-19 武汉理工大学 一种复杂场景下的红外目标检测方法
CN115908272A (zh) * 2022-10-27 2023-04-04 华能伊敏煤电有限责任公司 一种基于视觉技术的皮带撕裂状态自动检测的方法和系统
CN115937703B (zh) * 2022-11-30 2024-05-03 南京林业大学 一种用于遥感图像目标检测的增强特征提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测系统
CN111368712A (zh) * 2020-03-02 2020-07-03 四川九洲电器集团有限责任公司 一种基于深度学习的高光谱图像伪装目标检测方法
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法
CN112070111A (zh) * 2020-07-28 2020-12-11 浙江大学 一种适配多波段图像的多目标检测方法和系统
CN112199993A (zh) * 2020-09-01 2021-01-08 广西大学 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10705525B2 (en) * 2017-04-07 2020-07-07 Nvidia Corporation Performing autonomous path navigation using deep neural networks
CN108009469B (zh) * 2017-10-24 2020-11-24 中国科学院电子学研究所苏州研究院 一种基于结构递归神经网络的海上油气平台检测方法
CN108182455A (zh) * 2018-01-18 2018-06-19 齐鲁工业大学 一种垃圾图像智能分类的方法、装置及智能垃圾桶
CN108537208A (zh) * 2018-04-24 2018-09-14 厦门美图之家科技有限公司 一种多尺度的人脸检测方法及计算设备
CN108986091A (zh) * 2018-07-12 2018-12-11 太原科技大学 基于深度哈希网络的铸件缺陷图像检测方法
CN109035188B (zh) * 2018-07-16 2022-03-15 西北工业大学 一种基于目标特征驱动的智能图像融合方法
CN109325960B (zh) * 2018-11-20 2021-07-09 南京信息工程大学 一种红外云图气旋分析方法及分析系统
CN110309836B (zh) * 2019-07-01 2021-05-18 北京地平线机器人技术研发有限公司 图像特征提取方法、装置、存储介质和设备
CN110348524B (zh) * 2019-07-15 2022-03-04 深圳市商汤科技有限公司 一种人体关键点检测方法及装置、电子设备和存储介质
CN112364974B (zh) * 2020-08-28 2024-02-09 西安电子科技大学 一种基于激活函数改进的YOLOv3算法
CN112101434B (zh) * 2020-09-04 2022-09-09 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法
CN112233073A (zh) * 2020-09-30 2021-01-15 国网山西省电力公司大同供电公司 一种变电设备红外热成像异常实时检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测系统
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法
CN111368712A (zh) * 2020-03-02 2020-07-03 四川九洲电器集团有限责任公司 一种基于深度学习的高光谱图像伪装目标检测方法
CN112070111A (zh) * 2020-07-28 2020-12-11 浙江大学 一种适配多波段图像的多目标检测方法和系统
CN112199993A (zh) * 2020-09-01 2021-01-08 广西大学 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法

Also Published As

Publication number Publication date
CN112949633A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112949633B (zh) 一种基于改进YOLOv3的红外目标检测方法
Hassaballah et al. Vehicle detection and tracking in adverse weather using a deep learning framework
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN110909666B (zh) 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法
CN110097044B (zh) 基于深度学习的一阶段车牌检测识别方法
CN107633220A (zh) 一种基于卷积神经网络的车辆前方目标识别方法
CN107545263B (zh) 一种物体检测方法及装置
CN112183203A (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN114495029B (zh) 一种基于改进YOLOv4的交通目标检测方法及系统
CN109886086B (zh) 基于hog特征和线性svm级联分类器的行人检测方法
CN113269040A (zh) 结合图象识别与激光雷达点云分割的驾驶环境感知方法
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN113723377A (zh) 一种基于ld-ssd网络的交通标志检测方法
CN111339830A (zh) 一种基于多模态数据特征的目标分类方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN113095152A (zh) 一种基于回归的车道线检测方法及系统
CN112766136A (zh) 一种基于深度学习的空间车位检测方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN114708566A (zh) 一种基于改进YOLOv4的自动驾驶目标检测方法
CN116935361A (zh) 一种基于深度学习的驾驶员分心行为检测方法
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
CN113052071B (zh) 危化品运输车驾驶员分心行为快速检测方法及系统
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant