CN112949633B - 一种基于改进YOLOv3的红外目标检测方法 - Google Patents
一种基于改进YOLOv3的红外目标检测方法 Download PDFInfo
- Publication number
- CN112949633B CN112949633B CN202110245968.0A CN202110245968A CN112949633B CN 112949633 B CN112949633 B CN 112949633B CN 202110245968 A CN202110245968 A CN 202110245968A CN 112949633 B CN112949633 B CN 112949633B
- Authority
- CN
- China
- Prior art keywords
- convolution
- model
- image
- infrared
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000004913 activation Effects 0.000 claims abstract description 17
- 230000001965 increasing effect Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000001788 irregular Effects 0.000 claims abstract description 7
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv3的红外目标检测方法,主要用于增强对红外目标的检测能力。该方法包括:制作红外数据集;改进的数据增强方式;引入EfficientNet‑B2骨干网络代替原来YOLOv3的DarkNet53,减小模型参数;引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力;引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量;使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度;本发明提高了红外目标的检测精确度,可以在复杂背景环境下对红外目标进行快速、准确的检测识别。
Description
技术领域
本发明属于红外目标检测技术领域,具体涉及一种基于改进YOLOv3的红外目标检测方法。
背景技术
目标检测(Object Detection)作为图像理解中的重要一环,其任务是找出图像中所感兴趣的目标,确定其所处的位置和类别,由于各类物体有不同的外观、形状、姿态,加上成像时光照、遮挡等因素干扰,目标检测一直是计算机视觉领域的研究热点。近年来,深度学习发展迅猛,尤其是深度卷积网络在计算机视觉领域不断实现新的突破,相关技术已经在诸多领域广泛应用。
基于深度学习的目标检测算法目前大致分为两阶段和单阶段两大类。其中两阶段:从R-CNN到Faster R-CNN一直采用的思路是proposal+分类(proposal提供位置信息,分类提供类别信息),精度较高,但由于两阶段算法在proposal耗费时间过多,运行速度达不到实时效果。单阶段算法YOLO提供了另一种更为直接的思路:直接在输出层回归预测框的位置和目标所属的类别,加快了网络运行的速度,通过多层特征融合提升了对目标检测能力。
由于可见光成像在光源不足,或者遭遇恶劣天气环境时会严重影响目标检测的性能。而红外成像是通过被动接受目标自身的红外辐射进行成像,在夜晚、雨天、大雾等气候条件下均可正常工作,具有全天候工作的能力,在军事、探测、火灾求援、行车辅助、安防监控等领域有着广泛的应用。传统的红外目标检测算法鲁棒性不佳,容易产生错检漏捡。目前基于深度学习的红外目标检测算法较少,直接使用可见光的深度学习目标检测算法对红外目标进行检测,效果不佳。因此需要一种专门针对红外目标的深度学习检测算法。
发明内容
本发明的目的是针对现有的红外目标检测技术存在精度低,速度慢的问题,发明一种基于改进YOLOv3的红外目标检测方法,该方法模型参数小,具有较强的特征提取和边界框预测能力,有效解决了红外目标识别中由于目标轮廓模糊、纹理细节特征少带来的错检漏检,提高了红外目标检测的准确度。
本发明采用的技术方案如下:一种基于改进YOLOv3的红外目标检测方法,包括如下步骤:
步骤1:使用红外摄像头获取包含目标的红外图像,并使用标注工具对图片中的目标进行数据标注得到红外数据集,目标包括车辆、行人;
步骤2:对红外数据集进行数据增强;
步骤3:构建网络模型,使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络,减小模型参数,通过将分辨率低但具有更强语义信息的高层特征图进行上采样,与具有更多位置信息的高分辩低层特征进行融合,生成用于检测不同尺度目标的三个不同尺度的特征层。引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力。引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量。使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度。
步骤4:使用改进后的网络对已标注的红外数据集进行训练直至网络收敛,保存模型与权重文件。使用最佳训练模型对数据集进行测试,并获取测试集的测试结果。
进一步地,所述步骤1中红外数据集制作的具体包括以下2个步骤:
步骤1.1:将获取的红外图像统一裁剪缩放成416×416尺寸的图片;
步骤1.2:使用标注工具将目标的左上角和右下角横纵坐标位置,目标所属的类别进行标注,删除难以辨认的图像。按照8:2的比例把红外数据集划分训练集和测试集,将标注结果保存为json格式。
进一步地,所述步骤2中数据增强的具体包括以下2个步骤:
步骤2.1:采用Mosaic数据增强,每次在416×416空白图像中随机初始化一个点,使用初始化的横纵坐标将空白图像分为四个区域,随机读取四张图片,并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像,形成一张新的图片,并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移等。
步骤2.2:为了模拟红外图像的复杂背景,将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合。最终得到的训练图像P的计算公式如下,其中λ为0.1至0.3之间的一个随机数。
P=(1-λ)×P1+λ×P2,λ∈[0.1,0.3]
进一步地,所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体包括以下2个步骤:
步骤3.1:使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络,EfficientNet-B2会对输入的416×416图像进行五次下采样。取EfficientNet-B2的13×13,26×26,52×52三种不同尺度的特征层作为后续的特征融合层。
步骤3.2:其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合,26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合,形成对大中小三种不同尺度目标的特征预测层。
进一步地,所述步骤3中使用RFB模块作为增大模型感受野的具体过程如下:
步骤3.3:使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维,形成五路分支,其中一路分支作为shortcut连接保存。为了模拟人类视觉的感受野机制,其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积,另一分支使用MaxPool后进行1×1的通道降维,将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征,再与保留的shortcut分支进行像素相加得到输出特征图。实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积,降低模型的参数量。
进一步地,所述步骤3中使用可变形卷积的具体过程如下:
步骤3.4:对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26,52×52大小的特征图进行可变形卷积操作。可变形卷积对传统的矩形卷积区域施加x,y方向上的偏移,即将输入特征的像数值索引与每一个像数偏移量相加,并将其位置限制在特征图尺寸范围内,达到对不规则区域进行卷积的目的。
步骤3.5:不同区域的像数对于神经元的敏感度不同,在步骤3.4的基础上增加一组权重通道,其经过sigmoid层映射到[0,1]内得到对应的偏移值权重。
进一步地,所述步骤3中使用动态ReLU激活函数的具体过程如下:
步骤3.6:使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数,其公式如下:
其中K表示函数的个数,xc为输入x的第c个通道值,yc为输出值。该公式的含义为通过不同输入的x,综合其各个维度的上下文信息来自适应调整线性系数的值,改变正负激活率,能在带来少量额外计算的情况下,显著地提高网络的表达能力。
进一步地,所述步骤3中构建CBD,DBD,D3BD结构的具体过程如下:
步骤3.7:根据可变形卷积和动态ReLU函数构建三种不同模型结构,其中CBD由普通卷积(Conv),BN层,动态ReLU函数(DY-ReLU)组成;DBD由可变形卷积,BN层,动态ReLU函数组成;D3BD由3个可变形卷积,BN层,动态ReLU函数组成。
进一步地,所述步骤3中CIoU计算过程如下:
步骤3.8:
其中υ表示预测框A与目标框B之间的长宽比相似性,α为υ的权重系数。ωgt,hgt,ω,h分别表示目标框的宽、高和预测框的宽、高。b表示预测框A的中心点,bgt表示目标框B的中心点,p2(b,bgt)表示预测框A与目标框B之间的中心距离的平方,r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度。IoU的计算公式如下:
进一步的,所述步骤4中具体包括以下3个步骤:
步骤4.1:在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.001进行训练。
步骤4.2:在训练20轮之后,解冻EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.0001训练直至网络收敛。
步骤4.3:使用步骤4.2中得到的最佳模型权重对测试集进行结果测试。
本发明与现有技术相比的优点在于:
(1)本发明引入了轻量的EfficientNet作为骨干网络,降低了网络模型参数量,提升训练速度;
(2)本发明引入了改进的RFB模块,提升了网络模型的感受野;
(3)本发明通过结合可变形卷积和动态ReLU激活函数,构建了DBD和CBD结构,提升模型特征编码的灵活性,增加网络模型容量。
附图说明
图1为本发明一种基于改进YOLOv3的红外目标检测方法的整体结构流程图;
图2为本发明一种基于改进YOLOv3的红外目标检测方法所述的数据增强方法示意图;
图3为本发明一种基于改进YOLOv3的红外目标检测方法所采用的EfficientNet中MBConv模块示意图;
图4为本发明一种基于改进YOLOv3的红外目标检测方法所采用的改进后RFB模块示意图;
图5为本发明一种基于改进YOLOv3的红外目标检测方法所采用的可变形卷积模块示意图;
图6为本发明一种基于改进YOLOv3的红外目标检测方法所采用的动态ReLU模块示意图;
图7为本发明一种基于改进YOLOv3的红外目标检测方法所采用的CBD,DBD,D3BD结构示意图;
图8为本发明一种基于改进YOLOv3的红外目标检测方法整体网络模型的示意图;
图9为本发明一种基于改进YOLOv3的红外目标检测方法检测效果图。
具体实施方式
为了更清楚的说明本发明的目的、技术方案和优点,下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1所示,本发明提供了一种基于改进YOLOv3的红外目标检测方法,包括:
步骤1:使用红外摄像头获取包含车辆、行人等目标的红外图像,并使用标注工具对图片中的车辆、行人等目标进行数据标注得到红外数据集;
步骤2:对红外数据集进行数据增强;
步骤3:构建网络模型,使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络,减小模型参数,通过将分辨率低但具有更强语义信息的高层特征图进行上采样,与具有更多位置信息的高分辩低层特征进行融合,生成用于检测不同尺度目标的三个不同尺度的特征层。引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力。引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量。使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度。
步骤4:使用改进后的网络对已标注的红外数据集进行训练直至网络收敛,保存模型与权重文件。使用最佳训练模型对数据集进行测试,并获取测试集的测试结果。
进一步地,所述步骤1中红外数据集制作的具体包括以下2个步骤:
步骤1.1:将获取的红外图像统一裁剪缩放成416×416尺寸的图片;
步骤1.2:使用标注工具将目标的左上角和右下角横纵坐标位置,目标所属的类别进行标注,删除难以辨认的图像。按照8:2的比例把红外数据集划分训练集和测试集,将标注结果保存为json格式。
进一步地,所述步骤2中数据增强如图2所示,具体包括以下2个步骤:
步骤2.1:采用Mosaic数据增强,每次在416×416空白图像中随机初始化一个点,使用初始化的横纵坐标将空白图像分为四个区域,随机读取四张图片,并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像,形成一张新的图片,并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移等。
步骤2.2:为了模拟红外图像的复杂背景,将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合。最终得到的训练图像P的计算公式如下,其中λ为0.1至0.3之间的一个随机数。
P=(1-λ)×P1+λ×P2,λ∈[0.1,0.3]
进一步地,所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体包括以下2个步骤:
步骤3.1:使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络,EfficientNet-B2会对输入的416×416图像进行五次下采样。EfficientNet-B2的组成模块MBConv的结构示意图如图3所示。取EfficientNet-B2的13×13,26×26,52×52三种不同尺度的特征层作为后续的特征融合层。
步骤3.2:其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合,26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合,形成对大中小三种不同尺度目标的特征预测层。
进一步地,所述步骤3中,改进后的RFB结构示意图如图4所示,使用RFB模块作为增大模型感受野的具体过程如下:
步骤3.3:使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维,形成五路分支,其中一路分支作为shortcut连接保存。为了模拟人类视觉的感受野机制,其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积,另一分支使用MaxPool后进行1×1的通道降维,将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征,再与保留的shortcut分支进行像素相加得到输出特征图。实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积,降低模型的参数量。
进一步地,所述步骤3中可变形卷积模块示意图如图5所示,使用可变形卷积的具体过程如下:
步骤3.4:对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26,52×52大小的特征图进行可变形卷积操作。可变形卷积对传统的矩形卷积区域施加x,y方向上的偏移,即将输入特征的像数值索引与每一个像数偏移量相加,并将其位置限制在特征图尺寸范围内,达到对不规则区域进行卷积的目的。
步骤3.5:不同区域的像数对于神经元的敏感度不同,在步骤3.4的基础上增加一组权重通道,其经过sigmoid层映射到[0,1]内得到对应的偏移值权重。
进一步地,所述步骤3中动态ReLU激活函数模块示意图如图6所示,使用动态ReLU激活函数的具体过程如下:
步骤3.6:使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数,其公式如下:
其中K表示函数的个数,xc为输入x的第c个通道值,yc为输出值。该公式的含义为通过不同输入的x,综合其各个维度的上下文信息来自适应调整线性系数的值,改变正负激活率,能在带来少量额外计算的情况下,显著地提高网络的表达能力。
进一步地,所述步骤3中构建CBD,DBD,D3BD结构示意图如图7所示,构建的具体过程如下:
步骤3.7:根据可变形卷积和动态ReLU函数构建三种不同模型结构,其中CBD由普通卷积(Conv),BN层,动态ReLU函数(DY-ReLU)组成;DBD由可变形卷积,BN层,动态ReLU函数组成;D3BD由3个可变形卷积,BN层,动态ReLU函数组成。
进一步地,所述步骤3中CIoU计算过程如下:
步骤3.8:
其中υ表示预测框A与目标框B之间的长宽比相似性,α为υ的权重系数。ωgt,hgt,ω,h分别表示目标框的宽、高和预测框的宽、高。b表示预测框A的中心点,bgt表示目标框B的中心点,p2(b,bgt)表示预测框A与目标框B之间的中心距离的平方,r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度。IoU的计算公式如下:
在实际测试的过程中,由于可变形卷积的叠加导致计算量偏大,使得网络运行速度较慢,为了平衡模型检测的速度和精度,所以只是用了CBD和DBD两种架构。最后构建好的一种基于改进YOLOv3的红外目标检测方法网络结构如图8所示。
进一步地,所述步骤4中具体包括以下3个步骤:
步骤4.1:在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.001进行训练。
步骤4.2:在训练20轮之后,解冻EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.0001训练直至网络收敛。
步骤4.3:使用步骤4.2中得到的最佳模型权重对测试集进行结果测试,验证的结果示意图如图9所示。在相同硬件条件下对本方法和其他目标检测算法在红外数据集上进行对比测试,测试结果如表1所示:
表1本发明方法与其他目标检测算法对红外目标检测性能对比
从表1可以看出,本发明模型的mAP结果在原始YOLOv3的基础上提升了9.9个百分点,运行的速度只下降一帧。比当前最先进的目标检测算法EfficientDet中的D0算法和D1算法的检测精确度都高,充分说明了该改进算法的有效性。本发明模型具备自主学习能力且检测率高,是解决复杂环境下红外成像目标检测的有效途径。
以上显示和描述了本发明的主要特征、基本原理以及本发明的优点。本行业技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会根据实际情况有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于改进YOLOv3的红外目标检测方法,其特征在于,包括如下步骤:
步骤1:使用红外摄像头获取包含目标的红外图像,并使用标注工具对图片中的目标进行数据标注,目标包括车辆、行人;
步骤2:对红外数据集进行数据增强;
步骤3:构建网络模型,使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络,减小模型参数,通过将分辨率低但具有更强语义信息的高层特征图进行上采样,与具有更多位置信息的高分辩低层特征进行融合,生成用于检测不同尺度目标的三个不同尺度的特征层;引入改进后的RFB模块,增大模型感受野,提升对大中尺寸目标的检测能力;引入可变形卷积与动态ReLU激活函数,构建CBD,DBD,D3BD三种结构,增强模型的对不规则几何形状目标的特征提取和特征表达能力,增加模型容量,使用CIoU损失函数作为边界框损失函数,加快模型的收敛速度,提升预测框的准确度;
所述步骤3中使用改进后的RFB模块作为增大模型感受野的具体过程如下:
步骤3.3:使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维,形成五路分支,其中一路分支作为shortcut连接保存,为了模拟人类视觉的感受野机制,其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积,另一分支使用MaxPool后进行1×1的通道降维,将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征,再与保留的shortcut分支进行像素相加得到输出特征图,实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积,降低模型的参数量;
所述步骤3中构建CBD,DBD,D3BD结构的具体过程如下:
步骤3.7:根据可变形卷积和动态ReLU函数构建三种不同模型结构,其中CBD由普通卷积(Conv),BN层,动态ReLU函数(DY-ReLU)组成;DBD由可变形卷积,BN层,动态ReLU函数组成;D3BD由3个可变形卷积,BN层,动态ReLU函数组成;
步骤4:使用改进后的网络对已标注的红外数据集进行训练直至网络收敛,保存模型与权重文件,使用最佳训练模型对数据集进行测试,并获取测试集的测试结果。
2.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤1中数据集制作的具体过程如下:
步骤1.1:将获取的红外图像统一裁剪缩放成416×416尺寸的图片;
步骤1.2:使用标注工具将目标的左上角和右下角横纵坐标位置,目标所属的类别进行标注,删除难以辨认的图像,按照8:2的比例把数据集划分训练集和测试集,将标注结果保存为json格式。
3.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤2中数据增强的具体过程如下:
步骤2.1:采用Mosaic数据增强,每次在416×416空白图像中随机初始化一个点,使用初始化的横纵坐标将空白图像分为四个区域,随机读取四张图片,并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像,形成一张新的图片,并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移;
步骤2.2:为了模拟红外图像的复杂背景,将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合,最终得到的训练图像P的计算公式如下:
P=(1-λ)×P1+λ×P2,λ∈[0.1,0.3]
其中λ为0.1至0.3之间的一个随机数。
4.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体过程如下:
步骤3.1:使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络,EfficientNet-B2会对输入的416×416图像进行五次下采样,取EfficientNet-B2的13×13,26×26,52×52三种不同尺度的特征层作为后续的特征融合层;
步骤3.2:其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合,26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合,形成对大中小三种不同尺度目标的特征预测层。
5.根据权利要求4所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤3中使用可变形卷积和动态ReLU函数具体过程如下:
步骤3.4:对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26,52×52大小的特征图进行可变形卷积操作,可变形卷积对传统的矩形卷积区域施加x,y方向上的偏移,即将输入特征的像数值索引与每一个像数偏移量相加,并将其位置限制在特征图尺寸范围内,达到对不规则区域进行卷积的目的;
步骤3.5:不同区域的像数对于神经元的敏感度不同,在步骤3.4的基础上增加一组权重通道,其经过sigmoid层映射到[0,1]内得到对应的偏移值权重;
步骤3.6:使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数,其公式如下:
7.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法,其特征在于:所述步骤4中具体过程如下:
步骤4.1:在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.001进行训练;
步骤4.2:在训练20轮之后,解冻EfficientNet-B2骨干网络的模型参数,使用SGD优化器,学习率为0.0001训练直至网络收敛;
步骤4.3:使用步骤4.2中得到的最佳模型权重对测试集进行结果测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245968.0A CN112949633B (zh) | 2021-03-05 | 2021-03-05 | 一种基于改进YOLOv3的红外目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245968.0A CN112949633B (zh) | 2021-03-05 | 2021-03-05 | 一种基于改进YOLOv3的红外目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949633A CN112949633A (zh) | 2021-06-11 |
CN112949633B true CN112949633B (zh) | 2022-10-21 |
Family
ID=76247915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110245968.0A Active CN112949633B (zh) | 2021-03-05 | 2021-03-05 | 一种基于改进YOLOv3的红外目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949633B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255634A (zh) * | 2021-07-18 | 2021-08-13 | 杭州电子科技大学 | 基于改进Yolov5的车载移动端目标检测方法 |
CN113553979B (zh) * | 2021-07-30 | 2023-08-08 | 国电汉川发电有限公司 | 一种基于改进yolo v5的安全服检测方法和系统 |
CN113989631A (zh) * | 2021-08-31 | 2022-01-28 | 上海航天控制技术研究所 | 一种基于卷积神经网络的红外图像目标检测网络压缩方法 |
CN113902896A (zh) * | 2021-09-24 | 2022-01-07 | 西安电子科技大学 | 基于扩大感受野的红外目标检测方法 |
CN114170418B (zh) * | 2021-11-30 | 2024-05-24 | 吉林大学 | 一种以图搜图的汽车线束连接器多特征融合图像检索方法 |
CN114359258B (zh) * | 2022-01-17 | 2024-08-27 | 华中科技大学 | 红外移动对象目标部位的检测方法、装置及系统 |
CN114898105B (zh) * | 2022-03-04 | 2024-04-19 | 武汉理工大学 | 一种复杂场景下的红外目标检测方法 |
CN115082672A (zh) * | 2022-06-06 | 2022-09-20 | 西安电子科技大学 | 一种基于边界框回归的红外图像目标检测方法 |
CN115908272A (zh) * | 2022-10-27 | 2023-04-04 | 华能伊敏煤电有限责任公司 | 一种基于视觉技术的皮带撕裂状态自动检测的方法和系统 |
CN115937703B (zh) * | 2022-11-30 | 2024-05-03 | 南京林业大学 | 一种用于遥感图像目标检测的增强特征提取方法 |
CN118537544A (zh) * | 2024-07-24 | 2024-08-23 | 国网山东省电力公司嘉祥县供电公司 | 一种基于红外图像的电力设备目标辨别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472542A (zh) * | 2019-08-05 | 2019-11-19 | 深圳北斗通信科技有限公司 | 一种基于深度学习的红外图像行人检测方法及检测系统 |
CN111368712A (zh) * | 2020-03-02 | 2020-07-03 | 四川九洲电器集团有限责任公司 | 一种基于深度学习的高光谱图像伪装目标检测方法 |
CN111401148A (zh) * | 2020-02-27 | 2020-07-10 | 江苏大学 | 一种基于改进的多级YOLOv3的道路多目标检测方法 |
CN112070111A (zh) * | 2020-07-28 | 2020-12-11 | 浙江大学 | 一种适配多波段图像的多目标检测方法和系统 |
CN112199993A (zh) * | 2020-09-01 | 2021-01-08 | 广西大学 | 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10705525B2 (en) * | 2017-04-07 | 2020-07-07 | Nvidia Corporation | Performing autonomous path navigation using deep neural networks |
CN108009469B (zh) * | 2017-10-24 | 2020-11-24 | 中国科学院电子学研究所苏州研究院 | 一种基于结构递归神经网络的海上油气平台检测方法 |
CN108182455A (zh) * | 2018-01-18 | 2018-06-19 | 齐鲁工业大学 | 一种垃圾图像智能分类的方法、装置及智能垃圾桶 |
CN108537208A (zh) * | 2018-04-24 | 2018-09-14 | 厦门美图之家科技有限公司 | 一种多尺度的人脸检测方法及计算设备 |
CN108986091A (zh) * | 2018-07-12 | 2018-12-11 | 太原科技大学 | 基于深度哈希网络的铸件缺陷图像检测方法 |
CN109035188B (zh) * | 2018-07-16 | 2022-03-15 | 西北工业大学 | 一种基于目标特征驱动的智能图像融合方法 |
CN109325960B (zh) * | 2018-11-20 | 2021-07-09 | 南京信息工程大学 | 一种红外云图气旋分析方法及分析系统 |
CN110309836B (zh) * | 2019-07-01 | 2021-05-18 | 北京地平线机器人技术研发有限公司 | 图像特征提取方法、装置、存储介质和设备 |
CN110348524B (zh) * | 2019-07-15 | 2022-03-04 | 深圳市商汤科技有限公司 | 一种人体关键点检测方法及装置、电子设备和存储介质 |
CN112364974B (zh) * | 2020-08-28 | 2024-02-09 | 西安电子科技大学 | 一种基于激活函数改进的YOLOv3算法 |
CN112101434B (zh) * | 2020-09-04 | 2022-09-09 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112233073A (zh) * | 2020-09-30 | 2021-01-15 | 国网山西省电力公司大同供电公司 | 一种变电设备红外热成像异常实时检测方法 |
-
2021
- 2021-03-05 CN CN202110245968.0A patent/CN112949633B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472542A (zh) * | 2019-08-05 | 2019-11-19 | 深圳北斗通信科技有限公司 | 一种基于深度学习的红外图像行人检测方法及检测系统 |
CN111401148A (zh) * | 2020-02-27 | 2020-07-10 | 江苏大学 | 一种基于改进的多级YOLOv3的道路多目标检测方法 |
CN111368712A (zh) * | 2020-03-02 | 2020-07-03 | 四川九洲电器集团有限责任公司 | 一种基于深度学习的高光谱图像伪装目标检测方法 |
CN112070111A (zh) * | 2020-07-28 | 2020-12-11 | 浙江大学 | 一种适配多波段图像的多目标检测方法和系统 |
CN112199993A (zh) * | 2020-09-01 | 2021-01-08 | 广西大学 | 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112949633A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949633B (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
Hassaballah et al. | Vehicle detection and tracking in adverse weather using a deep learning framework | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
CN110909666B (zh) | 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法 | |
CN110097044B (zh) | 基于深度学习的一阶段车牌检测识别方法 | |
CN107633220A (zh) | 一种基于卷积神经网络的车辆前方目标识别方法 | |
CN107545263B (zh) | 一种物体检测方法及装置 | |
CN112183203A (zh) | 一种基于多尺度像素特征融合的实时交通标志检测方法 | |
CN114495029B (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN113269040A (zh) | 结合图象识别与激光雷达点云分割的驾驶环境感知方法 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN109886086B (zh) | 基于hog特征和线性svm级联分类器的行人检测方法 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN113095152A (zh) | 一种基于回归的车道线检测方法及系统 | |
CN112766136A (zh) | 一种基于深度学习的空间车位检测方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN111339830A (zh) | 一种基于多模态数据特征的目标分类方法 | |
CN113159158A (zh) | 一种基于生成对抗网络的车牌矫正与重构方法及系统 | |
CN116935361A (zh) | 一种基于深度学习的驾驶员分心行为检测方法 | |
CN113052071B (zh) | 危化品运输车驾驶员分心行为快速检测方法及系统 | |
CN117611911A (zh) | 一种基于改进YOLOv7的单帧红外弱小目标检测方法 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
CN116740572A (zh) | 一种基于改进yolox的海上船舰目标检测方法和系统 | |
CN115082897A (zh) | 一种改进smoke的单目视觉3d车辆目标实时检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |