CN116129292A - 一种基于少样本增广的红外车辆目标检测方法及系统 - Google Patents
一种基于少样本增广的红外车辆目标检测方法及系统 Download PDFInfo
- Publication number
- CN116129292A CN116129292A CN202310081193.7A CN202310081193A CN116129292A CN 116129292 A CN116129292 A CN 116129292A CN 202310081193 A CN202310081193 A CN 202310081193A CN 116129292 A CN116129292 A CN 116129292A
- Authority
- CN
- China
- Prior art keywords
- infrared
- target
- image
- infrared vehicle
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 87
- 230000003416 augmentation Effects 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000004088 simulation Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000013526 transfer learning Methods 0.000 claims abstract description 18
- 238000001308 synthesis method Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于少样本增广的红外车辆目标检测方法及系统。该方法包括:采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像;将多视角红外车辆图像与实际的红外车辆图像结合,构建基于迁移学习的红外生成对抗网络模型,生成红外车辆目标样本图像的初始增广数据集;采用场景合成的方法,引入复杂场景特征,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集;以目标增广数据集作为训练样本对目标检测模型进行迭代训练;获取实拍红外图像输入训练好的目标检测模型进行检测,得到目标检测位置和置信度信息。实现了对红外车辆图像的高精度目标检测,适用性较好。
Description
技术领域
本发明属于红外图像目标检测技术领域,更具体地,涉及一种基于少样本增广的红外车辆目标检测方法及系统。
背景技术
由于红外成像技术不受光源影响,抗干扰性强,因此许多任务都使用红外图像进行目标检测。同时为了更好地对目标区域进行车辆的检测,活动中常使用体量小,造价低廉的无人机进行任务。在飞行器上使用红外探测器对目标车辆进行拍摄时,车辆目标会随着拍摄角度、距离的变化在图像上呈现明显的特征变化。而大幅度的特征变化会使检测模型对目标特征不敏感,造成背景干扰的误检测。并且飞行试验耗费较大,导致该类目标的图像数据集较为稀缺。
在传统检测方法中,使用最为广泛的是模板匹配算法,即使用图像相似性度量算法对比统计方法获取的目标模板图与实验现场获取的实时图像。该算法不需要对图像进行任何处理,直接通过滑动窗口区域的方法计算实时图像与模板图像的区域相似度,找到相似度最高的区域,从而实现红外图像中目标的检测和定位。但模板匹配算法本身的限制(比如滑动计算导致的大量时间消耗以及对模板图像的高要求)使得算法实时性较差,对目标和背景的适应性较差,难以适应目前的检测要求。
已有的基于深度学习的红外车辆目标检测网络,由于是对无人机拍摄的车辆目标进行检测,目标在不同视角下的特征变化较大,导致模型对小目标检测能力不足,且易将背景中的噪声干扰误检为小目标。存在红外车辆目标图像数据稀缺以及多视角目标检测的精确度不足、误检测率高的技术问题。
发明内容
针对相关技术的缺陷,本发明的目的在于提供一种基于少样本增广的红外车辆目标检测方法及系统,旨在解决红外车辆目标图像数据稀缺以及多视角目标检测的精确度不足、误检测率高的问题。
为实现上述目的,第一方面,本发明提供了一种基于少样本增广的红外车辆目标检测方法,包括:
采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像;
将所述多视角红外车辆图像与实际的红外车辆图像结合,构建基于迁移学习的红外生成对抗网络模型,生成红外车辆目标样本图像的初始增广数据集;
采用场景合成的方法,在所述初始增广数据集中引入复杂场景特征,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集;
以所述目标增广数据集作为训练样本对目标检测模型进行迭代训练;
获取实拍红外图像输入训练好的所述目标检测模型进行检测,得到目标检测位置和置信度信息。
可选的,所述采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像,包括:
选择与现实场景靶标相似的三维目标模型,并将其放置于不同背景中,生成不同拍摄高度和方向的多视角下的红外车辆序列图;
通过对序列图进行单帧处理,得到大量的仿真红外车辆图像样本;
对所述仿真红外车辆图像样本进行红外特性模拟处理,得到多视角红外车辆图像。
可选的,所述对所述仿真红外车辆图像样本进行红外特性模拟处理,得到多视角红外车辆图像,包括:
获取真实红外图像,根据真实红外图像数据的平均亮度和直方图分布,对所述仿真红外车辆图像样本进行直方图规范化和亮度调整;
通过高斯滤波将所述仿真红外车辆图像样本进行模糊处理,得到多视角红外车辆图像。
可选的,所述将所述多视角红外车辆图像与实际的红外车辆图像结合,构建基于迁移学习的红外生成对抗网络模型,生成红外车辆目标样本图像的初始增广数据集,包括:
采用渐进式增长的训练方式,将所述多视角仿真图像在红外生成对抗网络StyleGAN-IR模型上进行预训练;
在红外生成对抗网络StyleGAN-IR模型的基础上使用真实红外图像进行训练,采用迁移学习的方法将模型迁移,生成红外车辆目标样本图像的初始增广数据集。
可选的,所述采用场景合成的方法,在所述初始增广数据集中引入复杂场景特征,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集,包括:
对分割后的整张掩码图像进行目标区域选择,所属目标区域的形状为车辆目标的最小外接矩形,同时修改对应.xml文件中的目标坐标;
根据背景呈现的角度和距离来选择契合的红外车辆目标样本图像,通过掩码去掉目标图像中的背景,只留下车辆目标;
对无目标红外场景图的区域灰度均值进行统计,选择灰度呈现与红外车辆目标样本图像较为相似的区域,并对不同红外车辆目标样本图像进行缩放,将其与无目标红外场景图进行合成,生成场景合成图像,并对应的生成.xml标签文件;
对所述场景合成图像进行筛查,选取与真实场景相似度符合设定阈值的场景合成图像作为红外车辆目标样本图像的目标增广数据集。
可选的,在以所述目标增广数据集作为训练样本对目标检测模型进行迭代训练之前,还包括:
使用YOLOv5s目标检测网络构建检测模型;
设计所述检测模型的损失函数,所述损失函数如下:
其中,IOU是真实框和预测框的交并集比,b代表预测框,bgt代表真实框,ρ(b,bgt)代表真实框和预测框的中心点的欧式距离,c代表能够包含真实框和预测框的最小闭包区域的对角线距离;α是用于平衡比例的参数,v用来衡量真实框和预测框的宽、高比例一致性。wgt、hgt代表真实框的宽和高,w和h代表预测框的宽和高。
可选的,所述以所述目标增广数据集作为训练样本对目标检测模型进行迭代训练,包括:
获取真实红外图像数据集,从中随机选择训练集和测试集;
从所述目标增广数据集选取预设数量的图像作为训练样本增广集;
对不同的数据集使用YOLOv5s网络模型进行训练;
分别将不同的数据集训练完成的YOLOv5s网络模型使用同一测试集进行测试,得到网络模型的参数,确定目标检测模型。
第二方面,本发明还提供了一种基于少样本增广的红外车辆目标检测系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面任一项所述的方法。。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明提供的一种基于少样本增广的红外车辆目标检测方法,针对红外车辆数据不足的问题,输入三维目标模型,进行多视角仿真,并对图像进行红外特性模拟处理。在不需要真实数据的情况下,生成真实性较高的多视角红外车辆图像,且数量不受限制。
(2)本发明提供的一种基于少样本增广的红外车辆目标检测方法,在多视角仿真生成图像的基础上,结合少量实拍红外车辆目标图像,训练迁移学习红外生成对抗网络,生成与真实图像相似度高的红外车辆目标样本数据。
(3)本发明提供的一种基于少样本增广的红外车辆目标检测方法,针对仿真数据背景单一问题,采用场景合成方法,利用输入得到的红外实拍场景图像,通过分割红外车辆目标样本数据中的车辆目标,生成多样化背景的红外车辆目标样本图像的目标增广数据集。
(4)本发明提供的一种基于少样本增广的红外车辆目标检测方法,通过采用红外车辆目标样本图像的目标增广数据集作为训练样本对检测模型进行迭代训练,得到的目标检测模型具有检测精度高,泛化能力强,适应性好的优点。
附图说明
图1是本发明实施例提供的一种基于少样本增广的红外车辆目标检测方法的流程示意图;
图2是本发明实施例提供的一种基于少样本增广的红外车辆目标检测方法的算法流程图;
图3是本发明的三维目标模型进行近距离和远距离仿真的图像;其中(a)为近距离可见光图像,(b)为中距离可见光图像,(c)为远距离可见光图像,(d)为近距离红外图像,(e)为中距离红外图像,(f)为远距离红外图像;
图4是本发明的三维目标模型进行仿真后的图像与进行特性模拟处理后的对比图;其中(a)为真实红外车辆图像,(b)为仿真红外车辆图像,(c)为特性模拟后的红外车辆图像;
图5是本发明实施例提供的渐进式增长训练的示意图;
图6是本发明实施例提供的StyleGAN-IR生成的近距离和远距离结果图;其中(a)为远距离图像,(b)为近距离图像。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面结合一个优选实施例,对上述实施例中涉及的内容进行说明。
如图1所示,一种基于少样本增广的红外车辆目标检测方法,包括:
S1、采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像。
S2、将多视角红外车辆图像与实际的红外车辆图像结合,构建基于迁移学习的红外生成对抗网络模型,生成红外车辆目标样本图像的初始增广数据集。
S3、采用场景合成的方法,在初始增广数据集中引入复杂场景特征,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集。
S4、以目标增广数据集作为训练样本对目标检测模型进行迭代训练。
S5、获取实拍红外图像输入训练好的目标检测模型进行检测,得到目标检测位置和置信度信息。
在训练之前,针对真实红外车辆图像较少的问题,选择合适的目标三维模型,采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像。在训练阶段,采用三维模型仿真与少量红外车辆图像结合,构建迁移学习红外生成对抗网络模型,生成目标样本增广数据集;即采用仿真得到的多视角红外车辆图像结合少量实拍红外车辆目标图像,训练迁移学习红外生成对抗网络,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集,作为训练样本对车辆目标检测网络模型进行训练与验证。将训练集输入检测模型进行迭代训练,在作为验证集的真实红外目标图像上进行检测,统计目标检测精度,得到网络模型的参数,确定目标检测模型。在推理阶段,将实拍红外目标图像输入目标检测模型进行测试,得到检测结果。基于少样本增广的红外车辆目标检测方法,采用三维模型仿真与少量红外车辆图像结合,构建迁移学习红外生成对抗网络模型,生成目标样本增广数据集,提高了目标检测网络的检测性能。
本发明实施例的技术方案通过采用三维模型仿真与少量红外车辆图像结合,构建迁移学习红外生成对抗网络模型,生成目标样本增广数据集,对车辆目标检测网络模型进行训练与验证,从而得到检测精度高,泛化能力强的目标检测模型。解决了红外车辆目标图像数据稀缺以及多视角目标检测的精确度不足、误检测率高的技术问题,实现了在不需要真实数据的情况下,生成真实性较高的多视角红外车辆图像,通过场景结合生成多样化背景的红外车辆目标样本图像的目标增广数据集,利用作为训练样本对检测模型进行迭代训练,得到的目标检测模型具有检测精度高,泛化能力强,适应性好的优点。
在上述实施例的基础上,可选的,步骤S1具体包括:
S11、选择与现实场景靶标相似的三维目标模型,并将其放置于不同背景中,生成不同拍摄高度和方向的多视角下的红外车辆序列图。
S12、通过对序列图进行单帧处理,得到大量的仿真红外车辆图像样本。
S13、对仿真红外车辆图像样本进行红外特性模拟处理,得到多视角红外车辆图像。
针对样本稀少且视角受限问题,通过选择与现实场景靶标相似的三维目标模型,采用场景及目标三维模型进行多视角仿真,将目标三维模型放置于不同背景中,调节拍摄高度、方向,在不需要真实图像的情况下,进行多视角仿真,生成多视角下的红外车辆序列图,通过对序列图进行单帧处理,得到大量仿真红外数据。将车辆模型位置、背景施加移动及替换,使数据集拥有更多视场角下的车辆目标红外图像。
由图3仿真结果可见,图像中目标呈现自然,角度和尺度符合现实场景。即可以采用场景及目标三维模型生成真实性较高的多视角仿真图像对少样本的真是红外车辆图像集进行增广,并且数据量不受限制。
由图4中的(a)和(b)可知,红外仿真图像在色调上偏暗,分辨率较高,车辆与背景的边缘清晰。因此需要对数字仿真样本进行特性模拟处理,得到处理后的多视角红外车辆图像如图4中(c)所示,图像可信度高。
其中,步骤S13具体包括:
S131、获取真实红外图像,根据真实红外图像数据的平均亮度和直方图分布,对仿真红外车辆图像样本进行直方图规范化和亮度调整。
S132、通过高斯滤波将仿真红外车辆图像样本进行模糊处理,得到多视角红外车辆图像。
通过直方图规范化和亮度调整,使仿真图像在灰度分布和明亮情况更符合真实图像;通过高斯滤波模糊处理,使仿真车辆目标在边缘呈现上与真实数据相似。修正后的图像在目标边缘及整体明暗呈现上与真实红外图像更加相似,图像可信度高。
可选的,步骤S2具体包括:
S21、采用渐进式增长的训练方式,将多视角仿真图像在红外生成对抗网络StyleGAN-IR模型上进行预训练。
S22、在红外生成对抗网络StyleGAN-IR模型的基础上使用真实红外图像进行训练,采用迁移学习的方法将模型迁移,生成红外车辆目标样本图像的初始增广数据集。
针对图像相似性不足问题,将多视角仿真图像在红外生成对抗网络StyleGAN-IR上进行预训练,然后使用少量实拍红外车辆目标图像进行迁移学习,生成与真实图像相似度高的红外车辆目标样本图像的初始增广数据集。
在StyleGAN-IR的训练中,其生成器采用了渐进式增长的训练方式,而不是CGAN、DCGAN这类直接生成最大分辨率图像的方式。示例性的,最终需要生成512×512的图像,GAN网络不可能一下子学习到大量的特征进行高分辨率图像的生成,一开始只能学习低分辨率(4×4)的特征,一些比较粗糙的特征,比如地面背景,车辆目标的明暗特征,在完成对低分辨率的学习后,就会逐渐加深GAN网络,进行更高分辨率的图像学习,学习轮廓以及微观特征,比如车辆的纹理细节,地面的纹理细节。
如图5所示,随着训练过程从左向右,GAN的网络层数不断增加,从网络一开始只能学习4×4图像生成,到最后学习到512×512图像生成。采用渐进式增长的优点在于,虽然最后生成高分辨率图像,但是网络前期不断地进行低分辨率图像的学习,训练速度会大大加快,达到传统对抗生成网络的6倍。
通常情况下,源域中的数据充足,采用迁移学习可使模型取得很好的效果,而目标域数据样本稀少,容易对样本数据过拟合。基于模型的参数迁移可以在源域和目标域之间找到参数间的联系,解决目标域样本少导致的过拟合问题,使模型实现更好的效果。由于红外车辆原始数据较少,因此采用迁移学习的方法,通过模型迁移,防止过拟合现象,实现更高质量的车辆图像生成。
具体迁移过程如下:
(1)采用了渐进式增长的训练方式,利用生成的2000张多视角仿真数据训练红外生成对抗网络StyleGAN-IR模型,将其作为预训练模型。
(2)在预训练模型的基础上使用少量真实图像训练,采用迁移学习的方法,通过模型迁移,防止过拟合现象,得到能够生成与真实图像相似度高的模型,并生成红外车辆目标样本图像,得到红外车辆目标样本图像的初始增广数据集。
使用训练好的模型,进行远距离和近距离仿真图像生成,远近距离的车辆目标的典型生成如图6所示。由图6可以看出,生成的图像灰度值大致正确,目标与背景能够准确分辨。
可视化程度较好,目标轮廓清楚,目标外形相似度高;生成的图像中,红外细节纹理真实,目标灰度值高,地面灰度值低,而且背景中存在灰度值相对较高的斑块和条纹,符合真实现象;背景特征随机呈现,使得呈现出的背景数据随机多样化。因此可以得出,StyleGAN-IR的仿真结果达到预期,生成的红外车辆样本不仅外形相似度高,并且在细节呈现上具有多样性;使用迁移学习方法进行StyleGAN-IR网络的数据扩充是可行的。
可选的,步骤S3具体包括:
S31、对分割后的整张掩码图像进行目标区域选择,所属目标区域的形状为车辆目标的最小外接矩形,同时修改对应.xml文件中的目标坐标。
S32、根据背景呈现的角度和距离来选择契合的红外车辆目标样本图像,通过掩码去掉目标图像中的背景,只留下车辆目标。
S33、对无目标红外场景图的区域灰度均值进行统计,选择灰度呈现与红外车辆目标样本图像较为相似的区域,并对不同红外车辆目标样本图像进行缩放,将其与无目标红外场景图进行合成,生成场景合成图像,并对应的生成.xml标签文件。
S34、对场景合成图像进行筛查,选取与真实场景相似度符合设定阈值的场景合成图像作为红外车辆目标样本图像的目标增广数据集。
在场景合成过程中,选择复杂场景下的无目标红外实拍场景图像作为场景数据集,该数据集图像中的场景较为复杂,与靶场的单一场景差别很大。该数据集图像中包含桥、河流、楼房、树木等复杂特征,并且拍摄角度,高度与靶场图像存在不同。
具体目标与场景合成流程如下:
(1)通过Labelme软件标注掩码图像,对红外车辆目标样本图像和掩码图像进行目标区域选择,为车辆目标最小外接矩形大小。因为车辆目标为集群式出现,因此将它们分割为同一个类别更符合现实情况。将分割后的整张掩码图像以及对应的红外车辆目标样本图像进行裁剪,裁剪的形状为车辆目标的最小外接矩形,同时修改对应.xml文件中的目标坐标。
(2)根据背景呈现的角度和距离来选择契合的车辆目标图像进行合成,通过掩码去掉目标图像中的背景,只留下车辆目标。在无目标红外场景图中的不同位置上合成图像样本。对无目标红外场景图像的区域灰度均值进行统计,选择灰度呈现与红外车辆目标样本图像较为相似的区域,并对不同目标图像进行合理的缩放操作,将其与场景进行合成,并对应的生成.xml标签文件,这样生成的数据不需要再另行标注。
(3)对场景合成的图像进行筛查,选取与真实场景相度符合设定阈值的红外图像作为红外车辆目标样本图像的目标增广数据集。此处的阈值,可以自定义设置。
可选的,在步骤S4之前,还包括:设计损失函数。
具体包括:使用YOLOv5s目标检测网络构建检测模型;设计检测模型的损失函数,损失函数如下:
其中,IOU是真实框和预测框的交并集比,b代表预测框,bgt代表真实框,ρ(b,bgt)代表真实框和预测框的中心点的欧式距离,c代表能够包含真实框和预测框的最小闭包区域的对角线距离。α是用于平衡比例的参数,v用来衡量真实框和预测框的宽、高比例一致性。wgt、hgt代表真实框的宽和高,w和h代表预测框的宽和高。
从CIOU边界框损失函数可以看出,它包含了预测框和真实框重叠区域面积的IOU损失、预测框和真实框的宽和高的纵横比损失、预测框和真实框中心点之间归一化后的距离损失三个部分。CIOU损失函数通过不断迭代将预测框向真实框靠近,并且尽可能地保证预测框的宽高比接近真实框的宽高比,大大加快了预测框的收敛速度。
可选的,步骤S4具体包括:
S41、获取真实红外图像数据集,从中随机选择训练集和测试集。
S42、从目标增广数据集选取预设数量的图像作为训练样本增广集。
S43、对不同的数据集使用YOLOv5s网络模型进行训练。
S44、分别将不同的数据集训练完成的YOLOv5s网络模型使用同一测试集进行测试,得到网络模型的参数,确定目标检测模型。
从真实红外图像数据集中随机选择训练集和测试集,并将生成的目标增广数据集选取预设数量的图像作为训练样本增广集;将训练集输入YOLOv5s目标检测模型进行迭代训练,在作为验证集的真实红外目标图像上进行检测。同时,以另外的真实红外图像的训练验证作为对照组结果,通过目标检测评价指标来评估样本增广方法的有效性以及对网络性能改进的差异。
示例性的,具体的数据分组过程如下:
(1)将真实红外图像数据集进行训练集和测试集的随机选择,得到500张训练集图像,512张测试集图像。将500张真实数据作为真实数据组,512张测试集作为测试组。
(2)使用本发明提供的基于少样本增广的红外车辆目标检测方法中的少样本增广的数据扩充方法,生成2000多张仿真图像,经过基于迁移学习的红外生成对抗网络模型处理,以及场景合成处理,从中选取1000张符合现实场景,可信度高的图像,将其作为少样本的目标增广数据集。如表1所示:
表1数据集各组图片数
对于不同的数据组,分别使用YOLOv5s网络模型进行训练,为了控制变量,训练轮次都设置为1000。分别将数据组训练完成的模型使用同一测试集进行测试,通过检测网络的评价指标比较不同数据扩充方式对网络性能改进的差异,验证数据扩充方法的有效性。
根据测试得到的网络模型的参数确定目标检测模型。将得到的目标检测模型用于对实拍红外图像进行目标检测,得到目标检测位置和置信度信息。
示例性的,选择置信度阈值为0.5,将真实数据组和少样本增广组进行对比,结果如表2所示:
表2结果对比
从上表中的结果对比可以看出,本发明提出的数据扩充方式对检测网络性能有显著提升。扩充组别的AP(Average Precision,平均精准率)、Recall(召回率)和TP(真实为正样本,预测也为正样本,又称真阳性)都得到了提升,FP(真实为负样本,预测为正样本,又称假阳性)与错检率得到下降。这说明真实数据组场景和视角的局限性,少样本增广的方式可以提升网络模型的检测精度。少样本增广的方式通过输入三维目标模型,生成多视角红外仿真图;结合少量实拍红外车辆目标图像,训练迁移学习红外生成对抗网络,生成与真实图像相似度高的红外车辆目标样本数据;采用场景合成的方法,引入复杂场景特征,生成具有多样化背景的车辆目标训练样本。目标检测精度验证了少样本图像增广方法的有效性。
在上述实施例的基础上,本发明的实施例还提供一种基于少样本增广的红外车辆目标检测系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述实施例中任一项所述的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于少样本增广的红外车辆目标检测方法,其特征在于,包括:
采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像;
将所述多视角红外车辆图像与实际的红外车辆图像结合,构建基于迁移学习的红外生成对抗网络模型,生成红外车辆目标样本图像的初始增广数据集;
采用场景合成的方法,在所述初始增广数据集中引入复杂场景特征,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集;
以所述目标增广数据集作为训练样本对目标检测模型进行迭代训练;
获取实拍红外图像输入训练好的目标检测模型进行检测,得到目标检测位置和置信度信息。
2.如权利要求1所述的红外车辆目标检测方法,其特征在于,所述采用场景及目标三维模型进行多视角仿真,得到多视角红外车辆图像,包括:
选择与现实场景靶标相似的三维目标模型,并将其放置于不同背景中,生成不同拍摄高度和方向的多视角下的红外车辆序列图;
通过对序列图进行单帧处理,得到大量的仿真红外车辆图像样本;
对所述仿真红外车辆图像样本进行红外特性模拟处理,得到多视角红外车辆图像。
3.如权利要求2所述的红外车辆目标检测方法,其特征在于,所述对所述仿真红外车辆图像样本进行红外特性模拟处理,得到多视角红外车辆图像,包括:
获取真实红外图像,根据真实红外图像数据的平均亮度和直方图分布,对所述仿真红外车辆图像样本进行直方图规范化和亮度调整;
通过高斯滤波将所述仿真红外车辆图像样本进行模糊处理,得到多视角红外车辆图像。
4.如权利要求1所述的红外车辆目标检测方法,其特征在于,所述将所述多视角红外车辆图像与实际的红外车辆图像结合,构建基于迁移学习的红外生成对抗网络模型,生成红外车辆目标样本图像的初始增广数据集,包括:
采用渐进式增长的训练方式,将所述多视角仿真图像在红外生成对抗网络StyleGAN-IR模型上进行预训练;
在红外生成对抗网络StyleGAN-IR模型的基础上使用真实红外图像进行训练,采用迁移学习的方法将模型迁移,生成红外车辆目标样本图像的初始增广数据集。
5.如权利要求1所述的红外车辆目标检测方法,其特征在于,所述采用场景合成的方法,在所述初始增广数据集中引入复杂场景特征,生成具有多样化背景的红外车辆目标样本图像的目标增广数据集,包括:
对分割后的整张掩码图像进行目标区域选择,所属目标区域的形状为车辆目标的最小外接矩形,同时修改对应.xml文件中的目标坐标;
根据背景呈现的角度和距离来选择契合的红外车辆目标样本图像,通过掩码去掉目标图像中的背景,只留下车辆目标;
对无目标红外场景图的区域灰度均值进行统计,选择灰度呈现与红外车辆目标样本图像较为相似的区域,并对不同红外车辆目标样本图像进行缩放,将其与无目标红外场景图进行合成,生成场景合成图像,并对应的生成.xml标签文件;
对所述场景合成图像进行筛查,选取与真实场景相似度符合设定阈值的场景合成图像作为红外车辆目标样本图像的目标增广数据集。
7.如权利要求1所述的红外车辆目标检测方法,其特征在于,以所述目标增广数据集作为训练样本对目标检测模型进行迭代训练,包括:
获取真实红外图像数据集,从中随机选择训练集和测试集;
从所述目标增广数据集选取预设数量的图像作为训练样本增广集;
对不同的数据集使用YOLOv5s网络模型进行训练;
分别将不同的数据集训练完成的YOLOv5s网络模型使用同一测试集进行测试,得到网络模型的参数,确定目标检测模型。
8.一种基于少样本增广的红外车辆目标检测系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081193.7A CN116129292A (zh) | 2023-01-13 | 2023-01-13 | 一种基于少样本增广的红外车辆目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081193.7A CN116129292A (zh) | 2023-01-13 | 2023-01-13 | 一种基于少样本增广的红外车辆目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129292A true CN116129292A (zh) | 2023-05-16 |
Family
ID=86304377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310081193.7A Pending CN116129292A (zh) | 2023-01-13 | 2023-01-13 | 一种基于少样本增广的红外车辆目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129292A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351240A (zh) * | 2023-10-12 | 2024-01-05 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110772227A (zh) * | 2019-11-01 | 2020-02-11 | 山东工商学院 | 基于全卷积编解码架构的介观荧光探针重建方法及系统 |
CN111325748A (zh) * | 2020-03-20 | 2020-06-23 | 哈尔滨工业大学 | 一种基于卷积神经网络的红外热像无损检测方法 |
CN112308758A (zh) * | 2020-10-30 | 2021-02-02 | 上海禾儿盟智能科技有限公司 | 近红外图像数据在线增广装置、系统及方法 |
CN112767297A (zh) * | 2021-02-05 | 2021-05-07 | 中国人民解放军国防科技大学 | 基于图像衍生的复杂背景下红外无人机群目标仿真方法 |
CN113537085A (zh) * | 2021-07-20 | 2021-10-22 | 南京工程学院 | 基于两次迁移学习和数据增广的船舶目标检测方法 |
CN114155501A (zh) * | 2021-12-03 | 2022-03-08 | 北京理工大学 | 一种无人车在烟雾遮挡环境下的目标检测方法 |
CN114170531A (zh) * | 2021-11-23 | 2022-03-11 | 北京航天自动控制研究所 | 基于困难样本迁移学习的红外图像目标检测方法和装置 |
CN114419146A (zh) * | 2022-03-30 | 2022-04-29 | 北京航天晨信科技有限责任公司 | 一种多源光学样本生成方法和系统 |
CN114882410A (zh) * | 2022-05-11 | 2022-08-09 | 华东交通大学 | 基于改进定位损失函数的隧道顶灯故障检测方法及系统 |
-
2023
- 2023-01-13 CN CN202310081193.7A patent/CN116129292A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110772227A (zh) * | 2019-11-01 | 2020-02-11 | 山东工商学院 | 基于全卷积编解码架构的介观荧光探针重建方法及系统 |
CN111325748A (zh) * | 2020-03-20 | 2020-06-23 | 哈尔滨工业大学 | 一种基于卷积神经网络的红外热像无损检测方法 |
CN112308758A (zh) * | 2020-10-30 | 2021-02-02 | 上海禾儿盟智能科技有限公司 | 近红外图像数据在线增广装置、系统及方法 |
CN112767297A (zh) * | 2021-02-05 | 2021-05-07 | 中国人民解放军国防科技大学 | 基于图像衍生的复杂背景下红外无人机群目标仿真方法 |
CN113537085A (zh) * | 2021-07-20 | 2021-10-22 | 南京工程学院 | 基于两次迁移学习和数据增广的船舶目标检测方法 |
CN114170531A (zh) * | 2021-11-23 | 2022-03-11 | 北京航天自动控制研究所 | 基于困难样本迁移学习的红外图像目标检测方法和装置 |
CN114155501A (zh) * | 2021-12-03 | 2022-03-08 | 北京理工大学 | 一种无人车在烟雾遮挡环境下的目标检测方法 |
CN114419146A (zh) * | 2022-03-30 | 2022-04-29 | 北京航天晨信科技有限责任公司 | 一种多源光学样本生成方法和系统 |
CN114882410A (zh) * | 2022-05-11 | 2022-08-09 | 华东交通大学 | 基于改进定位损失函数的隧道顶灯故障检测方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351240A (zh) * | 2023-10-12 | 2024-01-05 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
CN117351240B (zh) * | 2023-10-12 | 2024-04-09 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675418B (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110119728A (zh) | 基于多尺度融合语义分割网络的遥感图像云检测方法 | |
CN106780485B (zh) | 基于超像素分割和特征学习的sar图像变化检测方法 | |
CN110689562A (zh) | 一种基于生成对抗网络的轨迹回环检测优化方法 | |
CN111797716A (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN109102547A (zh) | 基于物体识别深度学习模型的机器人抓取位姿估计方法 | |
WO2020165557A1 (en) | 3d face reconstruction system and method | |
CN110032949A (zh) | 一种基于轻量化卷积神经网络的目标检测与定位方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN106338733B (zh) | 基于蛙眼视觉特性的前视声呐目标跟踪方法 | |
CN108446634B (zh) | 基于视频分析和定位信息结合的航空器持续跟踪方法 | |
CN106991686B (zh) | 一种基于超像素光流场的水平集轮廓跟踪方法 | |
CN111126412B (zh) | 基于特征金字塔网络的图像关键点检测方法 | |
CN105761238B (zh) | 一种通过灰度统计数据深度信息提取显著目标的方法 | |
CN110766058B (zh) | 一种基于优化rpn网络的战场目标检测方法 | |
CN111833322B (zh) | 一种基于改进YOLOv3的垃圾多目标检测方法 | |
US20230281913A1 (en) | Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments | |
CN106780546A (zh) | 基于卷积神经网络的运动模糊编码点的身份识别方法 | |
CN112308883A (zh) | 一种基于可见光和红外图像的多船舶融合跟踪方法 | |
CN110796691A (zh) | 一种基于形状上下文和hog特征的异源图像配准方法 | |
CN112966740A (zh) | 基于核心样本自适应扩充的小样本高光谱图像分类方法 | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN108256567A (zh) | 一种基于深度学习的目标识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |