CN116206182A - 一种面向单通道图像的高性能深度学习模型及训练方法 - Google Patents

一种面向单通道图像的高性能深度学习模型及训练方法 Download PDF

Info

Publication number
CN116206182A
CN116206182A CN202310003660.4A CN202310003660A CN116206182A CN 116206182 A CN116206182 A CN 116206182A CN 202310003660 A CN202310003660 A CN 202310003660A CN 116206182 A CN116206182 A CN 116206182A
Authority
CN
China
Prior art keywords
detection model
channel image
channel
model
tag set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310003660.4A
Other languages
English (en)
Inventor
李波
唐文婷
韦星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310003660.4A priority Critical patent/CN116206182A/zh
Publication of CN116206182A publication Critical patent/CN116206182A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种面向单通道图像的高性能深度学习模型及训练方法,该模型包括低维多尺度感受野模块和多个高维多尺度感受野模块;该训练方法包括:根据所述深度学习模型结构,构建基础检测模型和优化检测模型;获取单通道图像数据集,并通过单通道图像数据集对基础检测模型进行训练;将单通道图像分别输入至训练好的基础检测模型和优化检测模型,根据预测结果确定有效标签集合;根据真值标签对有效标签集合进行校正,筛选校正标签集;根据校正标签集、真值标签和单通道图像对优化检测模型进行训练,得到最终目标检测模型;本发明通过剔除无效标签、虚警标签与弱标签加速深度学习网络训练速度,并且能够解决各类目标以及目标与背景相似时造成的错检和虚警问题。

Description

一种面向单通道图像的高性能深度学习模型及训练方法
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种面向单通道图像的高性能深度学习模型及训练方法。
背景技术
图像处理是指利用计算机对图像进行处理、分析和理解,以识别或定位图像中不同目标的技术。随着人工智能软硬件技术发展,深度学习算法在自动驾驶、海事监测等领域发挥着重要作用。
针对可见光图像设计的通用深度学习目标检测网络在数据质量可靠、运算资源充足的环境下取得了极高的处理性能。然而,将通用深度学习目标检测网络迁移至嵌入式环境下的红外目标检测任务时,面临检测网络参数冗余和红外目标检测困难两个问题。网络参数冗余是由通用目标检测网络过参数化导致的。一方面,红外单通道图像仅包含热辐射强度信息。因此,在进行红外目标检测任务时无需使用过量参数拟合应用场景中并不存在的色彩信息;另一方面,嵌入式环境可用运算资源有限。为保证红外目标检测软件系统的实时性需求,在红外目标检测算法设计时应平衡运算精度与速度。红外目标检测困难是由弱目标导致的。当环境温度与目标温度接近时,红外目标成像轮廓模糊。因此,此时准确区分各类目标以及目标与背景的难度较大,从而造成错检和虚警的出现。
因此,如何提供一种面向单通道图像的高性能深度学习模型及训练方法来解决上述问题,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种面向单通道图像的高性能深度学习模型及训练方法,应用低维多尺度感受野模块与高维多尺度感受野模块实现了无色彩信息的单波段图像的深度特征提取,无需将输入单通道图像复制三次适配针对RBG三通道图像设计的通用深度学习网络,通过降低模型输入数据量提升模型运算效率;能够通过剔除无效标签、虚警标签与弱标签加快深度学习网络训练速度,并且能够解决各类目标以及目标与背景时造成的错检和虚警问题。
为了实现上述目的,本发明采用如下技术方案:
一种面向单通道图像的高性能深度学习模型,包括低维多尺度感受野模块和多个高维多尺度感受野模块;
所述低维多尺度感受野模块用于采集单通道图像,并提取多个感受野尺寸下的目标及其邻域特征,对应得到低维特征图;
所述低维特征图依次通过多个所述高维多尺度感受野模块进行多个尺寸的深度特征提取,得到深度特征图。
进一步的,还包括特征融合模块,所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。
进一步的,根据以下公式构建所述低维多尺度感受野模块:
Figure BDA0004035200250000021
Figure BDA0004035200250000022
其中,I表示输入单通道图像,
Figure BDA0004035200250000023
为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>
Figure BDA0004035200250000024
为输出通道数与输入通道数相等且滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,Gq(I)为应用组卷积或标准卷积对输入单通道图像进行第q次特征感受野扩增的轻量化特征提取运算模块,低维特征感受野扩增次数q={0,1,2,3},/>
Figure BDA0004035200250000025
为沿特征通道对应维度进行的拼接操作。
进一步的,根据以下公式构建高维多尺度感受野模块:
Figure BDA0004035200250000031
Figure BDA0004035200250000032
其中,+为逐元素加操作,Op(x)为应用组卷积对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块,高维特征感受野扩增次数p={0,1,2}。
一种面向单通道图像的高性能深度学习模型训练方法,包括以下步骤:
构建基础检测模型和优化检测模型;
获取单通道图像数据集,并通过所述单通道图像数据集对所述基础检测模型进行训练;其中,所述单通道图像数据集包括单通道图像和对应的真值标签;
将所述单通道图像分别输入至所述优化检测模型和训练好的所述基础检测模型,根据预测结果确定有效标签集A合;
根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集D;
根据所述校正标签集D、所述真值标签和所述单通道图像对所述优化检测模型进行训练,得到最终目标检测模型。
进一步的,根据预测结果确定有效标签集A合,步骤包括:
将所述单通道图像输入至训练好的基础检测模型,计算所述基础检测模型的预测目标置信度;
将所述单通道图像输入至优化检测模型,计算所述优化检测模型的预测目标置信度;
根据所述基础检测模型的预测目标置信度和所述优化检测模型的预测目标置信度计算图像响应差异,并根据所述图像响应差异获取有效标签位置;
根据有效标签位置索引获取有效标签集A。
进一步的,根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集D,步骤包括:
根据真值标签和所述基础检测模型的预测结果,获取真值临近位置;
根据基础检测模型预测目标置信度,获取预测强响应目标位置;
根据所述真值临近位置和所述预测强响应目标位置,获取候选临近强响应标签集B;
根据所述有效标签集A与所述候选临近强响应标签集B,筛选单通道图像的校正标签集。
进一步的,根据有效标签集A与所述候选临近强响应标签集B筛选单通道图像的校正标签集,步骤包括:
根据有效标签集A与所述侯选临近强响应标签集B,筛选校正标签集:
Figure BDA0004035200250000041
其中,像素点(i,j)为满足有效、预测强响应且与真值中心临近这三个条件的点,其个数为n=|A∩B|,四元组
Figure BDA0004035200250000042
为所述基础检测模型预测的目标类别置信度、目标中心点位置、目标外接矩形的高与宽;
若校正标签集D中元素个数U小于预设标签数量k,则将所述侯选临近强响应标签集B中元素循环添加至校正标签集D中,直至U=k。
进一步的,对所述优化检测模型进行训练之前,采用知识蒸馏法,定义所述优化检测模型的损失函数;
具体为:根据知识蒸馏损失函数与基础检测模型训练损失函数定义优化检测模型损失函数:
Figure BDA0004035200250000043
其中,
Figure BDA0004035200250000044
为所述优化检测模型的输出,Ltask为基础检测模型训练损失函数,Ldistill为知识蒸馏损失函数,ε与γ为检测任务与知识蒸馏的权重超参数。
进一步的,所述知识蒸馏损失函数为:
Figure BDA0004035200250000045
其中,U为筛选矫正标签集中元素个数,Lcls(·)为目标检测类别损失函数,Lreg(·)为目标检测回归损失函数,δ为目标检测回归损失函数的权重超参数。本发明的有益效果:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种面向单通道图像的目标检测模型训练方法,本发明可应用于单通道红外图像中的舰船目标检测;本发明应用低维多尺度感受野模块与高维多尺度感受野模块处理无色彩信息的单波段输入图像和深度特征,以较通用深度神经网络更低的参数量与运算量实现单通道输入图像的特征提取。多尺度感受野模块采用了轻量卷积结构、特征复用和特征筛选设计思想,从深度学习网络设计层面保证了单通道图像特征提取过程的轻量且有效;本发明通过剔除无效标签、虚警标签与弱标签加速深度学习网络训练速度,在进一步降低深度学习算法运算量的基础上保证其预测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种面向单通道图像的目标检测模型的训练方法示意图;
图2附图为本发明中基础检测模型结构示意图;
图3附图为本发明实施例提供的红外图像检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,本发明实施例公开了一种面向单通道图像的高性能深度学习模型,包括低维多尺度感受野模块和多个高维多尺度感受野模块;
所述低维多尺度感受野模块用于采集单通道图像,并提取多个感受野尺寸下的目标及其邻域特征,对应得到低维特征图;通过低维多尺度感受野模块扩大待提取特征的感受野进而增加目标及目标周围特征。由于该模块针对单通道图像设计,所以不需要将输入单通道图像复制三次适配针对RBG三通道图像设计的通用深度学习网络,通过降低模型输入数据量提升模型运算效率;
低维特征图依次通过多个高维多尺度感受野模块进行多个尺寸的深度特征提取,得到深度特征图。
在一种实施例中,还包括特征融合模块,所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。多个高维多尺度感受野模块对应不同尺寸深度特征的提取,因此,将某一尺寸的深度特征图像通过重采样层后,与其他尺寸的深度特征图进行拼接,可引入该某一尺寸的特征增强中或大目标理想尺度下的特征。
在一种实施例中,低维多尺度感受野模块包括:
Figure BDA0004035200250000061
Figure BDA0004035200250000062
其中,I表示输入单通道图像,
Figure BDA0004035200250000063
为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>
Figure BDA0004035200250000064
为输出通道数与输入通道数相等且滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,Gq(I)为应用组卷积或标准卷积对输入单通道图像进行第q次特征感受野扩增的轻量化特征提取运算模块,低维特征感受野扩增次数q={0,1,2,3},/>
Figure BDA0004035200250000071
为沿特征通道对应维度进行的拼接操作。
在一种实施例中,根据以下公式构建高维多尺度感受野模块:
Figure BDA0004035200250000072
Figure BDA0004035200250000073
其中,+为逐元素加操作,Op(x)为应用组卷积对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块,高维特征感受野扩增次数p={0,1,2}。
如图2,本发明实施例提供了一种面向单通道图像的高性能深度学习模型训练方法,该方法适用于上述任一种面向单通道图像的高性能深度学习模型,包括以下步骤:
S1:构建面向单通道图像处理的基础检测模型和优化检测模型;
在一种实施例中,具体步骤包括:
S11:参考预先构建的深度学习模型,设置模型结构参数,生成优化检测模型:
S12:调节优化检测模型的模型结构参数,得到基础检测模型;
其中,优化检测模型和基础检测模型的模型结构均与的深度学习模型,结构相同,参数不同。多尺度感受野模块包含分组数g、输入通道数Cin与输出通道数Cout三个模块参数,基础检测模型中多尺度感受野模块的Cin与Cout小于等于优化检测模型中多尺度感受野模块的Cin与Cout,基础检测模型多尺度感受野模块的g小于等于优化检测模型多尺度感受野模块的g。多尺度感受野包括低维多尺度感受野模块和高维多尺度感受野模块。
基础检测模型与优化检测模型是在模型训练和推理时均以单通道图像作为输入数据,由多尺度感受野模块构成的深度卷积神经网络;多尺度感受野模块用于提取单通道图像多尺度特征,由轻量化卷积结构构成。
在本实施例中,具体地,S1中,步骤还包括定义基础检测模型结构与优化检测模型结构参数:
基础检测模型与优化检测模型均包含L个多尺度感受野模块,任一第l个多尺度感受野模块均包含所述模块参数;基础检测模型结构参数Nunop=<unop_Cin,unop_Cout,unop_G>;多尺度感受野模块输入通道数unop_Cin={unop_Cin l|l=1,...L},多尺度感受野模块输出通道数unop_Cout={unop_Cout l|l=1,...L},多尺度感受野模块分组数G={unop_gl|l=1,...L},则优化检测模型参数Nop=<op_Cin,op_Cout,op_G>,根据以下公式计算各模块分组数op_gl、输入通道数op_Cin l与输出通道数op_Cout l
Figure BDA0004035200250000081
Figure BDA0004035200250000082
Figure BDA0004035200250000083
其中,分组调整参数权重
Figure BDA0004035200250000084
通道调整参数权重ω∈(0,1)。
S2:获取单通道图像数据集,并通过单通道图像数据集对基础检测模型进行训练;其中,单通道数据集包括单通道图像和对应的真值标签;真值标签gt由目各类目标置信度conf、目标最小外接矩形框中心点cen及其长h与宽w组成,即gt=<confC×H×W,cenH×W,hH×W,wH ×W>,C为目标类别数,H和W为输出特征图的宽与高。
S3:将单通道图像分别输入至训练好的基础检测模型和优化检测模型,根据预测结果确定有效标签集合;
S4:根据真值标签对有效标签集合进行校正,筛选校正标签集;
S5:根据校正标签集、真值标签和单通道图像对优化检测模型进行训练,得到最终目标检测模型。
在另一实施例中,根据以下公式构建低维多尺度感受野模块:
Figure BDA0004035200250000091
Figure BDA0004035200250000092
其中,I表示输入单通道红外图像,
Figure BDA0004035200250000093
为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>
Figure BDA0004035200250000094
输入通道与输入通道数相等且为滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,全局池化操作将输入特征的宽与高降为1但不改变输入特征的通道数。
F(·)的特征处理顺序为先应用特征增强模块
Figure BDA0004035200250000095
对输入特征x进行通道级增强,再利用特征降维操作/>
Figure BDA0004035200250000096
剔除弱特征。F(.)包含特征筛选模块
Figure BDA0004035200250000097
可以高效提取单通道图像特征:由于特征筛选模块包含全局池化操作,该模块的运算量较通用通道注意力机制略微增加但拟合能力更强;对增强后特征进行降维操作不但未对模型拟合能力造成影响,而且可以降低后续特征提取操作的运算量。Relu(.)为线性整流函数,/>
Figure BDA0004035200250000098
为拼接操作,Gq(I)为将输入图像进行第q次特征感受野扩增的轻量化特征提取运算模块:
Figure BDA0004035200250000099
特征感受野扩增次数q={0,1,2,3}且当q>1时,Gq通过复用前一层运算结果Gq-1,在提升感受野尺寸的同时不增加额外运算开销。进行特征感受野扩增时使用不同运算参数
Figure BDA0004035200250000101
Cin为卷积层输入通道数,Cout为卷积层输出通道数,f为滤波核尺寸,其中
Figure BDA0004035200250000102
G1、G2与G3分别应用相同的运算量提取感受野尺寸为3、5、7的特征,其运算量与计算量约为相应标准卷积运算的三分之一,BN(·)为批归一化运算,GConv(·)为分组数为g的组卷积运算,其运算量为标准卷积运算的
Figure BDA0004035200250000103
通过特征复用与应用轻量化卷积操作,低维多尺度感受野模块的运算量为应用标准卷积提取相同尺寸感受野特征运算量的八分之一。由于非线性操作Relu会导致负特征值输出为0,从而影响低维特征提取过程中对输入图像的处理效果,因此低维多尺度感受野模块在提取各尺寸感受野特征时不使用Relu操作。
在另一实施例中,根据以下公式构建高维多尺度感受野模块:
Figure BDA0004035200250000104
Figure BDA0004035200250000105
其中,+为逐元素加操作,Op(x)为应用组卷积GConv(·)对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块:
Figure BDA0004035200250000106
高维特征感受野扩增次数p={0,1,2}。与低维多尺度感受野特征提取模块类似,Op(x)同样复用前一层运算结果并应用特征筛选模块进行单通道图像高效特征提取。为增加模型非线性关系拟合能力,Op(x)降低了线性卷积层的使用而增加了非线性层。为加速模型收敛速度,高维多尺度感受野模块
Figure BDA0004035200250000107
应用残差操作+避免训练时模型参数梯度消失现象。因此,已有模型参数量较仅采用标准卷积运算的模型参数量更低、运算速度更快,较仅采用深度可分离卷积构建的模型拟合速度更快。基础检测模型结构与优化模型结构详细参数,如表1和表2所示:
表1:基础检测模型结构详细参数
Figure BDA0004035200250000111
表2:优化检测模型结构详细参数
Figure BDA0004035200250000121
本发明中的多尺度感受野模块通过3x3卷积提升感受野增加特征复杂度。此外,多尺度感受野模块增加特征筛选模块降低输出特征维度,并使用残差操作提升模型收敛速度。下表为通用轻量化模型、基础检测模型与优化检测模型在相同红外目标检测任务中的表现。在模型预测框与真实标签框交并比大于等于0.5的前提条件下,基于多尺度感受野模块构建的基础检测模型与优化检测模型精度均高于通用轻量化模型。在输入图像尺寸为(256,256,1)时统计其乘加次数,通过对比乘加次数可以发现,基础检测模型与优化检测模型的运算量远低于通用轻量化模型,这意味着这两种模型推理速度与训练速度均快于现有通用轻量化模型。模型大小、参数量和乘加次数可以表明,模型参数量与运算量呈正比关系,降低模型参数量可以有效降低模型运算量。
Figure BDA0004035200250000131
在另一实施例中,S2中,通过单通道图像数据集对基础检测模型进行训练,步骤包括:
S21:应用图像随机区域裁剪、图像白化与图像对比度增强等图像处理技术对输入单通道图像I256×256进行数据增广;
S22:根据目标检测损失函数,使用增广后数据集对基础检测模型Nunop进行训练;其中,目标检测损失函数为:
Figure BDA0004035200250000132
其中,N为增广后数据集样本数量,Lcls为Focal loss损失函数,Lreg为smooth L1损失函数,predunop i为基础检测模型对增广后数据集中第i个样本的预测结果,而gti为增广后数据集中第i个样本的真实标签。
在本实施例中,在单通道图像数据集上采用RMSprop算法训练基础检测模型Nunop,单通道数据集为包含单通道图像及对应真值标签gt的数据集;通过应用RMSprop算法可有效训练多尺度感受野模块中的组卷积结构,通过防止网络参数过拟合提升基础检测模型的泛化性。
将单通道图像输入至训练好的基础检测模型,输出基础检测模型预测结果predunop
Figure BDA0004035200250000141
其中,pred_conf为预测目标置信度,pred_cen为检测框中心点,pred_h与pred_w为各检测框长与宽。
在另一实施例中,S3中,根据预测结果确定有效标签集合,步骤包括:
S31:根据预测结果计算预测目标置信度;将单通道图像分别输入至基础检测和优化检测模型,并分别输出基础检测模型预测结果predunop和优化检测模型预测结果predop,预测结果中包括预测目标置信度,即可以得到基础检测模型的预测目标置信度
Figure BDA0004035200250000142
和优化检测模型的预测目标置信度/>
Figure BDA0004035200250000143
S32:根据基础检测模型的预测目标置信度和优化检测模型的预测目标置信度计算图像响应差异,并根据图像响应差异获取校正标签位置;其中,图像响应差异计算公式如下:
Figure BDA0004035200250000144
校正标签位置
Figure BDA0004035200250000145
其中,topk(v,k)为返回输入数组v中前k元素的函数,此时k为每幅单通道图像包含的校正标签数量且k=min(20,5C),C为目标类别数,当diff≈0时,基础检测模型与优化检测模型对图像中某些区域的认知近似,若将该类区域对应的基础检测模型输出作为训练标签则会导致优化检测模型重复学习已有知识并降低待优化模型的训练效果。由于该类标签无法有效增加模型泛化性,因此将基础检测模型预测置信度
Figure BDA0004035200250000151
与优化检测模型预测置信度/>
Figure BDA0004035200250000152
近似的标签称作无效标签。
S33:根据校正标签位置索引获取有效标签集A;
Figure BDA0004035200250000153
在另一实施例中,S4中,根据真值标签对有效标签集进行校正,筛选校正标签集,步骤包括:
S41:根据真值标签和基础检测模型的预测结果,获取真值临近位置;
具体为:根据真值标签各类目标中心点置信度
Figure BDA0004035200250000154
获取真值临近位置;
Figure BDA0004035200250000155
其中,图像中任一像素点(i,j)距各类目标中心点(u,v)的最大距离β=2,中心点坐标需满足
Figure BDA0004035200250000156
目标类别数c={1,...C}。
S42:根据基础检测模型预测目标置信度,获取预测强响应目标位置;
Figure BDA0004035200250000157
其中,响应强度下限/>
Figure BDA0004035200250000158
当基础检测模型预测目标置信度过低时,其对应区域为背景区域或目标区域。若对应区域为背景区域,则指导优化检测模型学习背景区域会导致其精度降低;若对应区域为目标区域,则因其置信度过低在训练过程中无法有效指导优化检测模型学习。因此,将预测目标置信度过低位置对应的基础检测模型输出称作弱标签。
S43:根据真值临近位置nearloc和预测强响应目标位置resloc,获取候选临近强响应标签集B;
Figure BDA0004035200250000159
若基础检测模型预测预测目标位置为非真值临近位置,则其为目标边缘区域或虚警区域。对于缺乏色彩信息的单通道图像而言,目标边缘区域常存在模糊或成像噪声,引导优化检测模型对该类区域的学习会导致含有相似噪声或模糊的背景区域响应增强,从而导致虚警的出现。因此将强响应目标位置resloc不在真值标签附近位nearloc的待优化模型输出称作虚警标签。
S44:根据有效标签集合与临近强响应标签集合,筛选单通道图像的校正标签。
在另一实施例中,S44中,根据有效标签集合与临近强响应标签集合,筛选单通道图像的校正标签,步骤包括:
S441:根据候选校正标签集A与侯选临近校正标签集B,筛选校正标签集:
Figure BDA0004035200250000161
其中,n=|A∩B|。
S442:若校正标签集D中元素个数U小于k,则将临近强响应标签集B中元素循环添加至校正标签集D中,直至U=k。
在另一实施例中,对优化检测模型进行训练之前,采用知识蒸馏法,定义优化检测模型的损失函数;
具体为:采用知识蒸馏损失函数与目标检测损失函数定义优化检测模型的损失函数:
Figure BDA0004035200250000162
其中,
Figure BDA0004035200250000163
为所述优化检测模型输出,Ltask为基础检测模型训练时的目标检测损失函数,Ldistill为知识蒸馏损失函数,ε与γ为检测任务与知识蒸馏的权重超参数。
在另一实施例中,知识蒸馏损失函数为:
Figure BDA0004035200250000171
其中,U为筛选矫正标签集中元素个数,Lcls(·)为目标检测类别损失函数,Lreg(·)为目标检测回归损失函数,δ为目标检测回归损失函数的权重超参数。
在另一实施例中,S5中步骤包括:将筛选后的校正标签D、单通道图像与真值标签gt输入至优化检测模型,通过Adam算法对优化后模型进行e′轮训练,获得最终的优化检测模型参数,具体为:
S51:应用图像随机区域裁剪、图像白化与图像对比度增强等图像处理技术进行数据增广。
S52、将单通道图像I256×256分别输入至待优化模型Nunop与优化检测模型Nop,得到基础检测模型输出predunop与优化检测模型输出
Figure BDA0004035200250000172
S53、根据知识蒸馏后重新定义的损失函数,使用Adam算法对待优化模型进行e′轮训。其中,本实施例中e′=150。由此通过使用知识蒸馏方法获得最终的优化检测模型的权重参数,提高训练速度与检测准确率。
如图3,在另一实施例中,步骤还包括,通过最终的优化检测模型对待检测单通道图像数据进行检测,获得图像检测结果;其中,待检测单通道图像数据为红外图像,输入红外图像进行特征提取,分别对目标类别和目标位置进行预测,根据目标类别和目标位置采用非极大值抑制进行局部搜索,输出目标图像。
本发明可以处理单通道全色图像、单通道SAR图像、单通道长波红外图像、单通道中波红外图像和单通道仿真红外图像。其中,仿真红外图像可以是由可见光波段模拟生成,也可以由红外图像与可见光图像模拟生成。本发明具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为红外摄像机、车载相机、星载相机、监控摄像头、手机、平板电脑、笔记本电脑、或者个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。可以理解的是,本实施例可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种面向单通道图像的高性能深度学习模型,其特征在于,包括低维多尺度感受野模块和多个高维多尺度感受野模块;
所述低维多尺度感受野模块用于采集单通道图像,并提取多个感受野尺寸下的目标及其邻域特征,对应得到低维特征图;
所述低维特征图依次通过多个所述高维多尺度感受野模块进行多个尺寸的深度特征提取,得到深度特征图。
2.根据权利要求1所述的一种面向单通道图像的高性能深度学习模型,其特征在于,还包括特征融合模块,所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。
3.根据权利要求1所述的一种面向单通道图像的高性能深度学习模型,其特征在于,根据以下公式构建所述低维多尺度感受野模块:
Figure FDA0004035200240000011
Figure FDA0004035200240000012
其中,I表示输入单通道图像,
Figure FDA0004035200240000013
为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算,σ(·)为sigmoid函数,/>
Figure FDA0004035200240000014
为输出通道数与输入通道数相等且滤波核尺寸为1的卷积运算,GAVPool()为全局池化操作,Gq(I)为应用组卷积或标准卷积对输入单通道图像进行第q次特征感受野扩增的轻量化特征提取运算模块,低维特征感受野扩增次数q={0,1,2,3},/>
Figure FDA0004035200240000015
为沿特征通道对应维度进行的拼接操作。
4.根据权利要求1或3所述的一种面向单通道图像的高性能深度学习模型,其特征在于,根据以下公式构建高维多尺度感受野模块:
Figure FDA0004035200240000016
Figure FDA0004035200240000017
其中,+为逐元素加操作,Op(x)为应用组卷积对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块,高维特征感受野扩增次数p={0,1,2}。
5.一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,包括以下步骤:
构建基础检测模型和优化检测模型;
获取单通道图像数据集,并通过所述单通道图像数据集对所述基础检测模型进行训练;其中,所述单通道图像数据集包括单通道图像和对应的真值标签;
将所述单通道图像分别输入至所述优化检测模型和训练好的所述基础检测模型,根据预测结果确定有效标签集A合;
根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集D;
根据所述校正标签集D、所述真值标签和所述单通道图像对所述优化检测模型进行训练,得到最终目标检测模型。
6.根据权利要求1所述的一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,根据预测结果确定有效标签集A合,步骤包括:
将所述单通道图像输入至训练好的基础检测模型,计算所述基础检测模型的预测目标置信度;
将所述单通道图像输入至优化检测模型,计算所述优化检测模型的预测目标置信度;
根据所述基础检测模型的预测目标置信度和所述优化检测模型的预测目标置信度计算图像响应差异,并根据所述图像响应差异获取有效标签位置;
根据有效标签位置索引获取有效标签集A。
7.根据权利要求6所述的一种面向单通道图像的高性能深度学习模型训练方法,其特性在于,根据所述真值标签对所述有效标签集A合进行校正,筛选校正标签集,步骤包括:
根据真值标签和所述基础检测模型的预测结果,获取真值临近位置;
根据基础检测模型预测目标置信度,获取预测强响应目标位置;
根据所述真值临近位置和所述预测强响应目标位置,获取候选临近强响应标签集B;
根据所述有效标签集A与所述候选临近强响应标签集B,筛选单通道图像的校正标签集D。
8.根据权利要求7所述的一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,根据所述有效标签集A与所述候选临近强响应标签集B筛选单通道图像的校正标签集,步骤包括:
根据所述有效标签集A与所述侯选临近强响应标签集B,筛选校正标签集D:
Figure FDA0004035200240000031
其中,像素点(i,j)为满足有效、预测强响应且与真值中心临近这三个条件的点,其个数为n=|A∩B|,四元组
Figure FDA0004035200240000032
为所述基础检测模型预测的目标类别置信度、目标中心点位置、目标外接矩形的高与宽;
若所述校正标签集D中元素个数U小于预设标签数量k,则将所述侯选临近强响应标签集B中元素循环添加至校正标签集D中,直至U=k。
9.根据权利要求8所述的一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,对所述优化检测模型进行训练之前,采用知识蒸馏法,定义所述优化检测模型的损失函数;
具体为:根据知识蒸馏损失函数与基础检测模型训练损失函数定义优化检测模型损失函数:
Figure FDA0004035200240000033
其中,
Figure FDA0004035200240000034
为所述优化检测模型的输出,Ltask为基础检测模型训练损失函数,Ldistill为知识蒸馏损失函数,ε与γ为检测任务与知识蒸馏的权重超参数。
10.根据权利要求9所述的一种面向单通道图像的高性能深度学习模型训练方法,其特征在于,所述知识蒸馏损失函数为:
Figure FDA0004035200240000041
其中,U为筛选矫正标签集中元素个数,Lcls(·)为目标检测类别损失函数,Lreg(·)为目标检测回归损失函数,δ为目标检测回归损失函数的权重超参数。
CN202310003660.4A 2023-01-03 2023-01-03 一种面向单通道图像的高性能深度学习模型及训练方法 Pending CN116206182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310003660.4A CN116206182A (zh) 2023-01-03 2023-01-03 一种面向单通道图像的高性能深度学习模型及训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310003660.4A CN116206182A (zh) 2023-01-03 2023-01-03 一种面向单通道图像的高性能深度学习模型及训练方法

Publications (1)

Publication Number Publication Date
CN116206182A true CN116206182A (zh) 2023-06-02

Family

ID=86518278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310003660.4A Pending CN116206182A (zh) 2023-01-03 2023-01-03 一种面向单通道图像的高性能深度学习模型及训练方法

Country Status (1)

Country Link
CN (1) CN116206182A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351450A (zh) * 2023-12-06 2024-01-05 吉咖智能机器人有限公司 一种单目3d检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN113688723A (zh) * 2021-08-21 2021-11-23 河南大学 一种基于改进YOLOv5的红外图像行人目标检测方法
CN114330510A (zh) * 2021-12-06 2022-04-12 北京大学 模型训练方法、装置、电子设备和存储介质
CN114565860A (zh) * 2022-03-01 2022-05-31 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN115082672A (zh) * 2022-06-06 2022-09-20 西安电子科技大学 一种基于边界框回归的红外图像目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN113688723A (zh) * 2021-08-21 2021-11-23 河南大学 一种基于改进YOLOv5的红外图像行人目标检测方法
CN114330510A (zh) * 2021-12-06 2022-04-12 北京大学 模型训练方法、装置、电子设备和存储介质
CN114565860A (zh) * 2022-03-01 2022-05-31 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN115082672A (zh) * 2022-06-06 2022-09-20 西安电子科技大学 一种基于边界框回归的红外图像目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO LI ET AL.: "Ship detection and classification from optical remote sensing images: A survey", 《CHINESE JOURNAL OF AERONAUTICS》, vol. 34, no. 3, 9 January 2021 (2021-01-09) *
ZHIPENG DENG ET AL.: "Multi-scale object detection in remote sensing imagery with convolutional neural networks", 《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》, vol. 145, 5 October 2018 (2018-10-05) *
黄震华 等: "知识蒸馏研究综述", 《计算机学报》, vol. 45, no. 3, 31 March 2022 (2022-03-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351450A (zh) * 2023-12-06 2024-01-05 吉咖智能机器人有限公司 一种单目3d检测方法、装置、电子设备及存储介质
CN117351450B (zh) * 2023-12-06 2024-02-27 吉咖智能机器人有限公司 一种单目3d检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Li et al. Zoom out-and-in network with map attention decision for region proposal and object detection
CN106845487B (zh) 一种端到端的车牌识别方法
CN111178183B (zh) 人脸检测方法及相关装置
CN113205507B (zh) 一种视觉问答方法、系统及服务器
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
Moghimi et al. Real-time underwater image resolution enhancement using super-resolution with deep convolutional neural networks
CN111445496B (zh) 一种水下图像识别跟踪系统及方法
US20230401838A1 (en) Image processing method and related apparatus
Chodey et al. Hybrid deep learning model for in-field pest detection on real-time field monitoring
CN110852317A (zh) 一种基于弱边缘的小尺度目标检测方法
CN116206182A (zh) 一种面向单通道图像的高性能深度学习模型及训练方法
Wang et al. Low-light image enhancement based on deep learning: a survey
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
Panda et al. Kernel density estimation and correntropy based background modeling and camera model parameter estimation for underwater video object detection
Lin et al. An antagonistic training algorithm for TFT-LCD module mura defect detection
Chaitra et al. Deep-CNNTL: text localization from natural scene images using deep convolution neural network with transfer learning
CN111104911A (zh) 一种基于大数据训练的行人重识别方法及装置
CN111242870A (zh) 一种基于深度学习知识蒸馏技术的低光图像增强方法
Li et al. A self-attention feature fusion model for rice pest detection
Gökstorp et al. Temporal and non-temporal contextual saliency analysis for generalized wide-area search within unmanned aerial vehicle (uav) video
CN115601551A (zh) 对象识别方法、装置、存储介质及电子设备
Li et al. UStark: underwater image domain-adaptive tracker based on Stark
Qu et al. MCCA-Net: Multi-color convolution and attention stacked network for Underwater image classification
Zhang et al. A scene text detector based on deep feature merging
CN116958615A (zh) 图片识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination