CN116206182A - 一种面向单通道图像的高性能深度学习模型及训练方法 - Google Patents
一种面向单通道图像的高性能深度学习模型及训练方法 Download PDFInfo
- Publication number
- CN116206182A CN116206182A CN202310003660.4A CN202310003660A CN116206182A CN 116206182 A CN116206182 A CN 116206182A CN 202310003660 A CN202310003660 A CN 202310003660A CN 116206182 A CN116206182 A CN 116206182A
- Authority
- CN
- China
- Prior art keywords
- detection model
- channel image
- channel
- model
- tag set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013136 deep learning model Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 162
- 238000012937 correction Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 18
- 230000003321 amplification Effects 0.000 claims description 17
- 238000013140 knowledge distillation Methods 0.000 claims description 17
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012952 Resampling Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种面向单通道图像的高性能深度学习模型及训练方法,该模型包括低维多尺度感受野模块和多个高维多尺度感受野模块;该训练方法包括:根据所述深度学习模型结构,构建基础检测模型和优化检测模型;获取单通道图像数据集,并通过单通道图像数据集对基础检测模型进行训练;将单通道图像分别输入至训练好的基础检测模型和优化检测模型,根据预测结果确定有效标签集合;根据真值标签对有效标签集合进行校正,筛选校正标签集;根据校正标签集、真值标签和单通道图像对优化检测模型进行训练,得到最终目标检测模型;本发明通过剔除无效标签、虚警标签与弱标签加速深度学习网络训练速度,并且能够解决各类目标以及目标与背景相似时造成的错检和虚警问题。
Description
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种面向单通道图像的高性能深度学习模型及训练方法。
背景技术
图像处理是指利用计算机对图像进行处理、分析和理解,以识别或定位图像中不同目标的技术。随着人工智能软硬件技术发展,深度学习算法在自动驾驶、海事监测等领域发挥着重要作用。
针对可见光图像设计的通用深度学习目标检测网络在数据质量可靠、运算资源充足的环境下取得了极高的处理性能。然而,将通用深度学习目标检测网络迁移至嵌入式环境下的红外目标检测任务时,面临检测网络参数冗余和红外目标检测困难两个问题。网络参数冗余是由通用目标检测网络过参数化导致的。一方面,红外单通道图像仅包含热辐射强度信息。因此,在进行红外目标检测任务时无需使用过量参数拟合应用场景中并不存在的色彩信息;另一方面,嵌入式环境可用运算资源有限。为保证红外目标检测软件系统的实时性需求,在红外目标检测算法设计时应平衡运算精度与速度。红外目标检测困难是由弱目标导致的。当环境温度与目标温度接近时,红外目标成像轮廓模糊。因此,此时准确区分各类目标以及目标与背景的难度较大,从而造成错检和虚警的出现。
因此,如何提供一种面向单通道图像的高性能深度学习模型及训练方法来解决上述问题,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种面向单通道图像的高性能深度学习模型及训练方法,应用低维多尺度感受野模块与高维多尺度感受野模块实现了无色彩信息的单波段图像的深度特征提取,无需将输入单通道图像复制三次适配针对RBG三通道图像设计的通用深度学习网络,通过降低模型输入数据量提升模型运算效率;能够通过剔除无效标签、虚警标签与弱标签加快深度学习网络训练速度,并且能够解决各类目标以及目标与背景时造成的错检和虚警问题。
为了实现上述目的,本发明采用如下技术方案:
一种面向单通道图像的高性能深度学习模型,包括低维多尺度感受野模块和多个高维多尺度感受野模块;
所述低维多尺度感受野模块用于采集单通道图像,并提取多个感受野尺寸下的目标及其邻域特征,对应得到低维特征图;
所述低维特征图依次通过多个所述高维多尺度感受野模块进行多个尺寸的深度特征提取,得到深度特征图。
进一步的,还包括特征融合模块,所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。
进一步的,根据以下公式构建所述低维多尺度感受野模块:
其中,I表示输入单通道图像,为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>为输出通道数与输入通道数相等且滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,Gq(I)为应用组卷积或标准卷积对输入单通道图像进行第q次特征感受野扩增的轻量化特征提取运算模块,低维特征感受野扩增次数q={0,1,2,3},/>为沿特征通道对应维度进行的拼接操作。
进一步的,根据以下公式构建高维多尺度感受野模块:
其中,+为逐元素加操作,Op(x)为应用组卷积对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块,高维特征感受野扩增次数p={0,1,2}。
一种面向单通道图像的高性能深度学习模型训练方法,包括以下步骤:
构建基础检测模型和优化检测模型;
获取单通道图像数据集,并通过所述单通道图像数据集对所述基础检测模型进行训练;其中,所述单通道图像数据集包括单通道图像和对应的真值标签;
将所述单通道图像分别输入至所述优化检测模型和训练好的所述基础检测模型,根据预测结果确定有效标签集A合;
根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集D;
根据所述校正标签集D、所述真值标签和所述单通道图像对所述优化检测模型进行训练,得到最终目标检测模型。
进一步的,根据预测结果确定有效标签集A合,步骤包括:
将所述单通道图像输入至训练好的基础检测模型,计算所述基础检测模型的预测目标置信度;
将所述单通道图像输入至优化检测模型,计算所述优化检测模型的预测目标置信度;
根据所述基础检测模型的预测目标置信度和所述优化检测模型的预测目标置信度计算图像响应差异,并根据所述图像响应差异获取有效标签位置;
根据有效标签位置索引获取有效标签集A。
进一步的,根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集D,步骤包括:
根据真值标签和所述基础检测模型的预测结果,获取真值临近位置;
根据基础检测模型预测目标置信度,获取预测强响应目标位置;
根据所述真值临近位置和所述预测强响应目标位置,获取候选临近强响应标签集B;
根据所述有效标签集A与所述候选临近强响应标签集B,筛选单通道图像的校正标签集。
进一步的,根据有效标签集A与所述候选临近强响应标签集B筛选单通道图像的校正标签集,步骤包括:
根据有效标签集A与所述侯选临近强响应标签集B,筛选校正标签集:
若校正标签集D中元素个数U小于预设标签数量k,则将所述侯选临近强响应标签集B中元素循环添加至校正标签集D中,直至U=k。
进一步的,对所述优化检测模型进行训练之前,采用知识蒸馏法,定义所述优化检测模型的损失函数;
具体为:根据知识蒸馏损失函数与基础检测模型训练损失函数定义优化检测模型损失函数:
进一步的,所述知识蒸馏损失函数为:
其中,U为筛选矫正标签集中元素个数,Lcls(·)为目标检测类别损失函数,Lreg(·)为目标检测回归损失函数,δ为目标检测回归损失函数的权重超参数。本发明的有益效果:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种面向单通道图像的目标检测模型训练方法,本发明可应用于单通道红外图像中的舰船目标检测;本发明应用低维多尺度感受野模块与高维多尺度感受野模块处理无色彩信息的单波段输入图像和深度特征,以较通用深度神经网络更低的参数量与运算量实现单通道输入图像的特征提取。多尺度感受野模块采用了轻量卷积结构、特征复用和特征筛选设计思想,从深度学习网络设计层面保证了单通道图像特征提取过程的轻量且有效;本发明通过剔除无效标签、虚警标签与弱标签加速深度学习网络训练速度,在进一步降低深度学习算法运算量的基础上保证其预测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种面向单通道图像的目标检测模型的训练方法示意图;
图2附图为本发明中基础检测模型结构示意图;
图3附图为本发明实施例提供的红外图像检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,本发明实施例公开了一种面向单通道图像的高性能深度学习模型,包括低维多尺度感受野模块和多个高维多尺度感受野模块;
所述低维多尺度感受野模块用于采集单通道图像,并提取多个感受野尺寸下的目标及其邻域特征,对应得到低维特征图;通过低维多尺度感受野模块扩大待提取特征的感受野进而增加目标及目标周围特征。由于该模块针对单通道图像设计,所以不需要将输入单通道图像复制三次适配针对RBG三通道图像设计的通用深度学习网络,通过降低模型输入数据量提升模型运算效率;
低维特征图依次通过多个高维多尺度感受野模块进行多个尺寸的深度特征提取,得到深度特征图。
在一种实施例中,还包括特征融合模块,所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。多个高维多尺度感受野模块对应不同尺寸深度特征的提取,因此,将某一尺寸的深度特征图像通过重采样层后,与其他尺寸的深度特征图进行拼接,可引入该某一尺寸的特征增强中或大目标理想尺度下的特征。
在一种实施例中,低维多尺度感受野模块包括:
其中,I表示输入单通道图像,为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>为输出通道数与输入通道数相等且滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,Gq(I)为应用组卷积或标准卷积对输入单通道图像进行第q次特征感受野扩增的轻量化特征提取运算模块,低维特征感受野扩增次数q={0,1,2,3},/>为沿特征通道对应维度进行的拼接操作。
在一种实施例中,根据以下公式构建高维多尺度感受野模块:
其中,+为逐元素加操作,Op(x)为应用组卷积对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块,高维特征感受野扩增次数p={0,1,2}。
如图2,本发明实施例提供了一种面向单通道图像的高性能深度学习模型训练方法,该方法适用于上述任一种面向单通道图像的高性能深度学习模型,包括以下步骤:
S1:构建面向单通道图像处理的基础检测模型和优化检测模型;
在一种实施例中,具体步骤包括:
S11:参考预先构建的深度学习模型,设置模型结构参数,生成优化检测模型:
S12:调节优化检测模型的模型结构参数,得到基础检测模型;
其中,优化检测模型和基础检测模型的模型结构均与的深度学习模型,结构相同,参数不同。多尺度感受野模块包含分组数g、输入通道数Cin与输出通道数Cout三个模块参数,基础检测模型中多尺度感受野模块的Cin与Cout小于等于优化检测模型中多尺度感受野模块的Cin与Cout,基础检测模型多尺度感受野模块的g小于等于优化检测模型多尺度感受野模块的g。多尺度感受野包括低维多尺度感受野模块和高维多尺度感受野模块。
基础检测模型与优化检测模型是在模型训练和推理时均以单通道图像作为输入数据,由多尺度感受野模块构成的深度卷积神经网络;多尺度感受野模块用于提取单通道图像多尺度特征,由轻量化卷积结构构成。
在本实施例中,具体地,S1中,步骤还包括定义基础检测模型结构与优化检测模型结构参数:
基础检测模型与优化检测模型均包含L个多尺度感受野模块,任一第l个多尺度感受野模块均包含所述模块参数;基础检测模型结构参数Nunop=<unop_Cin,unop_Cout,unop_G>;多尺度感受野模块输入通道数unop_Cin={unop_Cin l|l=1,...L},多尺度感受野模块输出通道数unop_Cout={unop_Cout l|l=1,...L},多尺度感受野模块分组数G={unop_gl|l=1,...L},则优化检测模型参数Nop=<op_Cin,op_Cout,op_G>,根据以下公式计算各模块分组数op_gl、输入通道数op_Cin l与输出通道数op_Cout l:
S2:获取单通道图像数据集,并通过单通道图像数据集对基础检测模型进行训练;其中,单通道数据集包括单通道图像和对应的真值标签;真值标签gt由目各类目标置信度conf、目标最小外接矩形框中心点cen及其长h与宽w组成,即gt=<confC×H×W,cenH×W,hH×W,wH ×W>,C为目标类别数,H和W为输出特征图的宽与高。
S3:将单通道图像分别输入至训练好的基础检测模型和优化检测模型,根据预测结果确定有效标签集合;
S4:根据真值标签对有效标签集合进行校正,筛选校正标签集;
S5:根据校正标签集、真值标签和单通道图像对优化检测模型进行训练,得到最终目标检测模型。
在另一实施例中,根据以下公式构建低维多尺度感受野模块:
其中,I表示输入单通道红外图像,为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>输入通道与输入通道数相等且为滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,全局池化操作将输入特征的宽与高降为1但不改变输入特征的通道数。
F(·)的特征处理顺序为先应用特征增强模块对输入特征x进行通道级增强,再利用特征降维操作/>剔除弱特征。F(.)包含特征筛选模块可以高效提取单通道图像特征:由于特征筛选模块包含全局池化操作,该模块的运算量较通用通道注意力机制略微增加但拟合能力更强;对增强后特征进行降维操作不但未对模型拟合能力造成影响,而且可以降低后续特征提取操作的运算量。Relu(.)为线性整流函数,/>为拼接操作,Gq(I)为将输入图像进行第q次特征感受野扩增的轻量化特征提取运算模块:
特征感受野扩增次数q={0,1,2,3}且当q>1时,Gq通过复用前一层运算结果Gq-1,在提升感受野尺寸的同时不增加额外运算开销。进行特征感受野扩增时使用不同运算参数Cin为卷积层输入通道数,Cout为卷积层输出通道数,f为滤波核尺寸,其中
G1、G2与G3分别应用相同的运算量提取感受野尺寸为3、5、7的特征,其运算量与计算量约为相应标准卷积运算的三分之一,BN(·)为批归一化运算,GConv(·)为分组数为g的组卷积运算,其运算量为标准卷积运算的通过特征复用与应用轻量化卷积操作,低维多尺度感受野模块的运算量为应用标准卷积提取相同尺寸感受野特征运算量的八分之一。由于非线性操作Relu会导致负特征值输出为0,从而影响低维特征提取过程中对输入图像的处理效果,因此低维多尺度感受野模块在提取各尺寸感受野特征时不使用Relu操作。
在另一实施例中,根据以下公式构建高维多尺度感受野模块:
其中,+为逐元素加操作,Op(x)为应用组卷积GConv(·)对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块:
高维特征感受野扩增次数p={0,1,2}。与低维多尺度感受野特征提取模块类似,Op(x)同样复用前一层运算结果并应用特征筛选模块进行单通道图像高效特征提取。为增加模型非线性关系拟合能力,Op(x)降低了线性卷积层的使用而增加了非线性层。为加速模型收敛速度,高维多尺度感受野模块应用残差操作+避免训练时模型参数梯度消失现象。因此,已有模型参数量较仅采用标准卷积运算的模型参数量更低、运算速度更快,较仅采用深度可分离卷积构建的模型拟合速度更快。基础检测模型结构与优化模型结构详细参数,如表1和表2所示:
表1:基础检测模型结构详细参数
表2:优化检测模型结构详细参数
本发明中的多尺度感受野模块通过3x3卷积提升感受野增加特征复杂度。此外,多尺度感受野模块增加特征筛选模块降低输出特征维度,并使用残差操作提升模型收敛速度。下表为通用轻量化模型、基础检测模型与优化检测模型在相同红外目标检测任务中的表现。在模型预测框与真实标签框交并比大于等于0.5的前提条件下,基于多尺度感受野模块构建的基础检测模型与优化检测模型精度均高于通用轻量化模型。在输入图像尺寸为(256,256,1)时统计其乘加次数,通过对比乘加次数可以发现,基础检测模型与优化检测模型的运算量远低于通用轻量化模型,这意味着这两种模型推理速度与训练速度均快于现有通用轻量化模型。模型大小、参数量和乘加次数可以表明,模型参数量与运算量呈正比关系,降低模型参数量可以有效降低模型运算量。
在另一实施例中,S2中,通过单通道图像数据集对基础检测模型进行训练,步骤包括:
S21:应用图像随机区域裁剪、图像白化与图像对比度增强等图像处理技术对输入单通道图像I256×256进行数据增广;
S22:根据目标检测损失函数,使用增广后数据集对基础检测模型Nunop进行训练;其中,目标检测损失函数为:
其中,N为增广后数据集样本数量,Lcls为Focal loss损失函数,Lreg为smooth L1损失函数,predunop i为基础检测模型对增广后数据集中第i个样本的预测结果,而gti为增广后数据集中第i个样本的真实标签。
在本实施例中,在单通道图像数据集上采用RMSprop算法训练基础检测模型Nunop,单通道数据集为包含单通道图像及对应真值标签gt的数据集;通过应用RMSprop算法可有效训练多尺度感受野模块中的组卷积结构,通过防止网络参数过拟合提升基础检测模型的泛化性。
将单通道图像输入至训练好的基础检测模型,输出基础检测模型预测结果predunop,
其中,pred_conf为预测目标置信度,pred_cen为检测框中心点,pred_h与pred_w为各检测框长与宽。
在另一实施例中,S3中,根据预测结果确定有效标签集合,步骤包括:
S31:根据预测结果计算预测目标置信度;将单通道图像分别输入至基础检测和优化检测模型,并分别输出基础检测模型预测结果predunop和优化检测模型预测结果predop,预测结果中包括预测目标置信度,即可以得到基础检测模型的预测目标置信度和优化检测模型的预测目标置信度/>
S32:根据基础检测模型的预测目标置信度和优化检测模型的预测目标置信度计算图像响应差异,并根据图像响应差异获取校正标签位置;其中,图像响应差异计算公式如下:
其中,topk(v,k)为返回输入数组v中前k元素的函数,此时k为每幅单通道图像包含的校正标签数量且k=min(20,5C),C为目标类别数,当diff≈0时,基础检测模型与优化检测模型对图像中某些区域的认知近似,若将该类区域对应的基础检测模型输出作为训练标签则会导致优化检测模型重复学习已有知识并降低待优化模型的训练效果。由于该类标签无法有效增加模型泛化性,因此将基础检测模型预测置信度与优化检测模型预测置信度/>近似的标签称作无效标签。
S33:根据校正标签位置索引获取有效标签集A;
在另一实施例中,S4中,根据真值标签对有效标签集进行校正,筛选校正标签集,步骤包括:
S41:根据真值标签和基础检测模型的预测结果,获取真值临近位置;
S42:根据基础检测模型预测目标置信度,获取预测强响应目标位置;其中,响应强度下限/>当基础检测模型预测目标置信度过低时,其对应区域为背景区域或目标区域。若对应区域为背景区域,则指导优化检测模型学习背景区域会导致其精度降低;若对应区域为目标区域,则因其置信度过低在训练过程中无法有效指导优化检测模型学习。因此,将预测目标置信度过低位置对应的基础检测模型输出称作弱标签。
S43:根据真值临近位置nearloc和预测强响应目标位置resloc,获取候选临近强响应标签集B;
若基础检测模型预测预测目标位置为非真值临近位置,则其为目标边缘区域或虚警区域。对于缺乏色彩信息的单通道图像而言,目标边缘区域常存在模糊或成像噪声,引导优化检测模型对该类区域的学习会导致含有相似噪声或模糊的背景区域响应增强,从而导致虚警的出现。因此将强响应目标位置resloc不在真值标签附近位nearloc的待优化模型输出称作虚警标签。
S44:根据有效标签集合与临近强响应标签集合,筛选单通道图像的校正标签。
在另一实施例中,S44中,根据有效标签集合与临近强响应标签集合,筛选单通道图像的校正标签,步骤包括:
S441:根据候选校正标签集A与侯选临近校正标签集B,筛选校正标签集:
其中,n=|A∩B|。
S442:若校正标签集D中元素个数U小于k,则将临近强响应标签集B中元素循环添加至校正标签集D中,直至U=k。
在另一实施例中,对优化检测模型进行训练之前,采用知识蒸馏法,定义优化检测模型的损失函数;
具体为:采用知识蒸馏损失函数与目标检测损失函数定义优化检测模型的损失函数:
在另一实施例中,知识蒸馏损失函数为:
其中,U为筛选矫正标签集中元素个数,Lcls(·)为目标检测类别损失函数,Lreg(·)为目标检测回归损失函数,δ为目标检测回归损失函数的权重超参数。
在另一实施例中,S5中步骤包括:将筛选后的校正标签D、单通道图像与真值标签gt输入至优化检测模型,通过Adam算法对优化后模型进行e′轮训练,获得最终的优化检测模型参数,具体为:
S51:应用图像随机区域裁剪、图像白化与图像对比度增强等图像处理技术进行数据增广。
S53、根据知识蒸馏后重新定义的损失函数,使用Adam算法对待优化模型进行e′轮训。其中,本实施例中e′=150。由此通过使用知识蒸馏方法获得最终的优化检测模型的权重参数,提高训练速度与检测准确率。
如图3,在另一实施例中,步骤还包括,通过最终的优化检测模型对待检测单通道图像数据进行检测,获得图像检测结果;其中,待检测单通道图像数据为红外图像,输入红外图像进行特征提取,分别对目标类别和目标位置进行预测,根据目标类别和目标位置采用非极大值抑制进行局部搜索,输出目标图像。
本发明可以处理单通道全色图像、单通道SAR图像、单通道长波红外图像、单通道中波红外图像和单通道仿真红外图像。其中,仿真红外图像可以是由可见光波段模拟生成,也可以由红外图像与可见光图像模拟生成。本发明具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为红外摄像机、车载相机、星载相机、监控摄像头、手机、平板电脑、笔记本电脑、或者个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。可以理解的是,本实施例可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种面向单通道图像的高性能深度学习模型,其特征在于,包括低维多尺度感受野模块和多个高维多尺度感受野模块;
所述低维多尺度感受野模块用于采集单通道图像,并提取多个感受野尺寸下的目标及其邻域特征,对应得到低维特征图;
所述低维特征图依次通过多个所述高维多尺度感受野模块进行多个尺寸的深度特征提取,得到深度特征图。
2.根据权利要求1所述的一种面向单通道图像的高性能深度学习模型,其特征在于,还包括特征融合模块,所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。
5.一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,包括以下步骤:
构建基础检测模型和优化检测模型;
获取单通道图像数据集,并通过所述单通道图像数据集对所述基础检测模型进行训练;其中,所述单通道图像数据集包括单通道图像和对应的真值标签;
将所述单通道图像分别输入至所述优化检测模型和训练好的所述基础检测模型,根据预测结果确定有效标签集A合;
根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集D;
根据所述校正标签集D、所述真值标签和所述单通道图像对所述优化检测模型进行训练,得到最终目标检测模型。
6.根据权利要求1所述的一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,根据预测结果确定有效标签集A合,步骤包括:
将所述单通道图像输入至训练好的基础检测模型,计算所述基础检测模型的预测目标置信度;
将所述单通道图像输入至优化检测模型,计算所述优化检测模型的预测目标置信度;
根据所述基础检测模型的预测目标置信度和所述优化检测模型的预测目标置信度计算图像响应差异,并根据所述图像响应差异获取有效标签位置;
根据有效标签位置索引获取有效标签集A。
7.根据权利要求6所述的一种面向单通道图像的高性能深度学习模型训练方法,其特性在于,根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集,步骤包括:
根据真值标签和所述基础检测模型的预测结果,获取真值临近位置;
根据基础检测模型预测目标置信度,获取预测强响应目标位置;
根据所述真值临近位置和所述预测强响应目标位置,获取候选临近强响应标签集B;
根据所述有效标签集A与所述候选临近强响应标签集B,筛选单通道图像的校正标签集D。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310003660.4A CN116206182A (zh) | 2023-01-03 | 2023-01-03 | 一种面向单通道图像的高性能深度学习模型及训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310003660.4A CN116206182A (zh) | 2023-01-03 | 2023-01-03 | 一种面向单通道图像的高性能深度学习模型及训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116206182A true CN116206182A (zh) | 2023-06-02 |
Family
ID=86518278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310003660.4A Pending CN116206182A (zh) | 2023-01-03 | 2023-01-03 | 一种面向单通道图像的高性能深度学习模型及训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206182A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351450A (zh) * | 2023-12-06 | 2024-01-05 | 吉咖智能机器人有限公司 | 一种单目3d检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN113688723A (zh) * | 2021-08-21 | 2021-11-23 | 河南大学 | 一种基于改进YOLOv5的红外图像行人目标检测方法 |
CN114330510A (zh) * | 2021-12-06 | 2022-04-12 | 北京大学 | 模型训练方法、装置、电子设备和存储介质 |
CN114565860A (zh) * | 2022-03-01 | 2022-05-31 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
CN115082672A (zh) * | 2022-06-06 | 2022-09-20 | 西安电子科技大学 | 一种基于边界框回归的红外图像目标检测方法 |
-
2023
- 2023-01-03 CN CN202310003660.4A patent/CN116206182A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN113688723A (zh) * | 2021-08-21 | 2021-11-23 | 河南大学 | 一种基于改进YOLOv5的红外图像行人目标检测方法 |
CN114330510A (zh) * | 2021-12-06 | 2022-04-12 | 北京大学 | 模型训练方法、装置、电子设备和存储介质 |
CN114565860A (zh) * | 2022-03-01 | 2022-05-31 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
CN115082672A (zh) * | 2022-06-06 | 2022-09-20 | 西安电子科技大学 | 一种基于边界框回归的红外图像目标检测方法 |
Non-Patent Citations (3)
Title |
---|
BO LI ET AL.: "Ship detection and classification from optical remote sensing images: A survey", 《CHINESE JOURNAL OF AERONAUTICS》, vol. 34, no. 3, 9 January 2021 (2021-01-09) * |
ZHIPENG DENG ET AL.: "Multi-scale object detection in remote sensing imagery with convolutional neural networks", 《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》, vol. 145, 5 October 2018 (2018-10-05) * |
黄震华 等: "知识蒸馏研究综述", 《计算机学报》, vol. 45, no. 3, 31 March 2022 (2022-03-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351450A (zh) * | 2023-12-06 | 2024-01-05 | 吉咖智能机器人有限公司 | 一种单目3d检测方法、装置、电子设备及存储介质 |
CN117351450B (zh) * | 2023-12-06 | 2024-02-27 | 吉咖智能机器人有限公司 | 一种单目3d检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Zoom out-and-in network with map attention decision for region proposal and object detection | |
CN106845487B (zh) | 一种端到端的车牌识别方法 | |
CN111178183B (zh) | 人脸检测方法及相关装置 | |
CN113205507B (zh) | 一种视觉问答方法、系统及服务器 | |
CN110222572A (zh) | 跟踪方法、装置、电子设备及存储介质 | |
Moghimi et al. | Real-time underwater image resolution enhancement using super-resolution with deep convolutional neural networks | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
US20230401838A1 (en) | Image processing method and related apparatus | |
Chodey et al. | Hybrid deep learning model for in-field pest detection on real-time field monitoring | |
CN110852317A (zh) | 一种基于弱边缘的小尺度目标检测方法 | |
CN116206182A (zh) | 一种面向单通道图像的高性能深度学习模型及训练方法 | |
Wang et al. | Low-light image enhancement based on deep learning: a survey | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
Panda et al. | Kernel density estimation and correntropy based background modeling and camera model parameter estimation for underwater video object detection | |
Lin et al. | An antagonistic training algorithm for TFT-LCD module mura defect detection | |
Chaitra et al. | Deep-CNNTL: text localization from natural scene images using deep convolution neural network with transfer learning | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
CN111242870A (zh) | 一种基于深度学习知识蒸馏技术的低光图像增强方法 | |
Li et al. | A self-attention feature fusion model for rice pest detection | |
Gökstorp et al. | Temporal and non-temporal contextual saliency analysis for generalized wide-area search within unmanned aerial vehicle (uav) video | |
CN115601551A (zh) | 对象识别方法、装置、存储介质及电子设备 | |
Li et al. | UStark: underwater image domain-adaptive tracker based on Stark | |
Qu et al. | MCCA-Net: Multi-color convolution and attention stacked network for Underwater image classification | |
Zhang et al. | A scene text detector based on deep feature merging | |
CN116958615A (zh) | 图片识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |