CN116206182A

CN116206182A - 一种面向单通道图像的高性能深度学习模型及训练方法

Info

Publication number: CN116206182A
Application number: CN202310003660.4A
Authority: CN
Inventors: 李波; 唐文婷; 韦星星
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-06-02

Abstract

一种面向单通道图像的高性能深度学习模型及训练方法，该模型包括低维多尺度感受野模块和多个高维多尺度感受野模块；该训练方法包括：根据所述深度学习模型结构，构建基础检测模型和优化检测模型；获取单通道图像数据集，并通过单通道图像数据集对基础检测模型进行训练；将单通道图像分别输入至训练好的基础检测模型和优化检测模型，根据预测结果确定有效标签集合；根据真值标签对有效标签集合进行校正，筛选校正标签集；根据校正标签集、真值标签和单通道图像对优化检测模型进行训练，得到最终目标检测模型；本发明通过剔除无效标签、虚警标签与弱标签加速深度学习网络训练速度，并且能够解决各类目标以及目标与背景相似时造成的错检和虚警问题。

Description

一种面向单通道图像的高性能深度学习模型及训练方法

技术领域

本发明涉及图像处理技术领域，更具体的说是涉及一种面向单通道图像的高性能深度学习模型及训练方法。

背景技术

图像处理是指利用计算机对图像进行处理、分析和理解，以识别或定位图像中不同目标的技术。随着人工智能软硬件技术发展，深度学习算法在自动驾驶、海事监测等领域发挥着重要作用。

针对可见光图像设计的通用深度学习目标检测网络在数据质量可靠、运算资源充足的环境下取得了极高的处理性能。然而，将通用深度学习目标检测网络迁移至嵌入式环境下的红外目标检测任务时，面临检测网络参数冗余和红外目标检测困难两个问题。网络参数冗余是由通用目标检测网络过参数化导致的。一方面，红外单通道图像仅包含热辐射强度信息。因此，在进行红外目标检测任务时无需使用过量参数拟合应用场景中并不存在的色彩信息；另一方面，嵌入式环境可用运算资源有限。为保证红外目标检测软件系统的实时性需求，在红外目标检测算法设计时应平衡运算精度与速度。红外目标检测困难是由弱目标导致的。当环境温度与目标温度接近时，红外目标成像轮廓模糊。因此，此时准确区分各类目标以及目标与背景的难度较大，从而造成错检和虚警的出现。

因此，如何提供一种面向单通道图像的高性能深度学习模型及训练方法来解决上述问题，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种面向单通道图像的高性能深度学习模型及训练方法，应用低维多尺度感受野模块与高维多尺度感受野模块实现了无色彩信息的单波段图像的深度特征提取，无需将输入单通道图像复制三次适配针对RBG三通道图像设计的通用深度学习网络，通过降低模型输入数据量提升模型运算效率；能够通过剔除无效标签、虚警标签与弱标签加快深度学习网络训练速度，并且能够解决各类目标以及目标与背景时造成的错检和虚警问题。

为了实现上述目的，本发明采用如下技术方案：

一种面向单通道图像的高性能深度学习模型，包括低维多尺度感受野模块和多个高维多尺度感受野模块；

所述低维多尺度感受野模块用于采集单通道图像，并提取多个感受野尺寸下的目标及其邻域特征，对应得到低维特征图；

所述低维特征图依次通过多个所述高维多尺度感受野模块进行多个尺寸的深度特征提取，得到深度特征图。

进一步的，还包括特征融合模块，所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。

进一步的，根据以下公式构建所述低维多尺度感受野模块：

其中，I表示输入单通道图像，

为输出通道数低于输入通道数且滤波核尺寸为1的卷积运算，σ(·)为sigmoid函数，/>

为输出通道数与输入通道数相等且滤波核尺寸为1的卷积运算，GAVPool()为全局池化操作，G^q(I)为应用组卷积或标准卷积对输入单通道图像进行第q次特征感受野扩增的轻量化特征提取运算模块，低维特征感受野扩增次数q＝{0，1，2，3}，/>

为沿特征通道对应维度进行的拼接操作。

进一步的，根据以下公式构建高维多尺度感受野模块：

其中，+为逐元素加操作，O^p(x)为应用组卷积对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块，高维特征感受野扩增次数p＝{0，1，2}。

一种面向单通道图像的高性能深度学习模型训练方法，包括以下步骤：

构建基础检测模型和优化检测模型；

获取单通道图像数据集，并通过所述单通道图像数据集对所述基础检测模型进行训练；其中，所述单通道图像数据集包括单通道图像和对应的真值标签；

将所述单通道图像分别输入至所述优化检测模型和训练好的所述基础检测模型，根据预测结果确定有效标签集A合；

根据所述真值标签对所述有效标签集A合进行校正，筛选校正标签集D；

根据所述校正标签集D、所述真值标签和所述单通道图像对所述优化检测模型进行训练，得到最终目标检测模型。

进一步的，根据预测结果确定有效标签集A合，步骤包括：

将所述单通道图像输入至训练好的基础检测模型，计算所述基础检测模型的预测目标置信度；

将所述单通道图像输入至优化检测模型，计算所述优化检测模型的预测目标置信度；

根据所述基础检测模型的预测目标置信度和所述优化检测模型的预测目标置信度计算图像响应差异，并根据所述图像响应差异获取有效标签位置；

根据有效标签位置索引获取有效标签集A。

进一步的，根据所述真值标签对所述有效标签集A合进行校正，筛选校正标签集D，步骤包括：

根据真值标签和所述基础检测模型的预测结果，获取真值临近位置；

根据基础检测模型预测目标置信度，获取预测强响应目标位置；

根据所述真值临近位置和所述预测强响应目标位置，获取候选临近强响应标签集B；

根据所述有效标签集A与所述候选临近强响应标签集B，筛选单通道图像的校正标签集。

进一步的，根据有效标签集A与所述候选临近强响应标签集B筛选单通道图像的校正标签集，步骤包括：

根据有效标签集A与所述侯选临近强响应标签集B，筛选校正标签集：

其中，像素点(i，j)为满足有效、预测强响应且与真值中心临近这三个条件的点，其个数为n＝|A∩B|，四元组

为所述基础检测模型预测的目标类别置信度、目标中心点位置、目标外接矩形的高与宽；

若校正标签集D中元素个数U小于预设标签数量k，则将所述侯选临近强响应标签集B中元素循环添加至校正标签集D中，直至U＝k。

进一步的，对所述优化检测模型进行训练之前，采用知识蒸馏法，定义所述优化检测模型的损失函数；

具体为：根据知识蒸馏损失函数与基础检测模型训练损失函数定义优化检测模型损失函数：

其中，

为所述优化检测模型的输出，L_task为基础检测模型训练损失函数，L_distill为知识蒸馏损失函数，ε与γ为检测任务与知识蒸馏的权重超参数。

进一步的，所述知识蒸馏损失函数为：

其中，U为筛选矫正标签集中元素个数，L_cls(·)为目标检测类别损失函数，L_reg(·)为目标检测回归损失函数，δ为目标检测回归损失函数的权重超参数。本发明的有益效果：

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种面向单通道图像的目标检测模型训练方法，本发明可应用于单通道红外图像中的舰船目标检测；本发明应用低维多尺度感受野模块与高维多尺度感受野模块处理无色彩信息的单波段输入图像和深度特征，以较通用深度神经网络更低的参数量与运算量实现单通道输入图像的特征提取。多尺度感受野模块采用了轻量卷积结构、特征复用和特征筛选设计思想，从深度学习网络设计层面保证了单通道图像特征提取过程的轻量且有效；本发明通过剔除无效标签、虚警标签与弱标签加速深度学习网络训练速度，在进一步降低深度学习算法运算量的基础上保证其预测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种面向单通道图像的目标检测模型的训练方法示意图；

图2附图为本发明中基础检测模型结构示意图；

图3附图为本发明实施例提供的红外图像检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，本发明实施例公开了一种面向单通道图像的高性能深度学习模型，包括低维多尺度感受野模块和多个高维多尺度感受野模块；

所述低维多尺度感受野模块用于采集单通道图像，并提取多个感受野尺寸下的目标及其邻域特征，对应得到低维特征图；通过低维多尺度感受野模块扩大待提取特征的感受野进而增加目标及目标周围特征。由于该模块针对单通道图像设计，所以不需要将输入单通道图像复制三次适配针对RBG三通道图像设计的通用深度学习网络，通过降低模型输入数据量提升模型运算效率；

低维特征图依次通过多个高维多尺度感受野模块进行多个尺寸的深度特征提取，得到深度特征图。

在一种实施例中，还包括特征融合模块，所述特征融合模块用于对预设尺寸的深度特征图进行重采样后与最小尺寸的深度特征图拼接。多个高维多尺度感受野模块对应不同尺寸深度特征的提取，因此，将某一尺寸的深度特征图像通过重采样层后，与其他尺寸的深度特征图进行拼接，可引入该某一尺寸的特征增强中或大目标理想尺度下的特征。

在一种实施例中，低维多尺度感受野模块包括：

其中，I表示输入单通道图像，

为沿特征通道对应维度进行的拼接操作。

在一种实施例中，根据以下公式构建高维多尺度感受野模块：

如图2，本发明实施例提供了一种面向单通道图像的高性能深度学习模型训练方法，该方法适用于上述任一种面向单通道图像的高性能深度学习模型，包括以下步骤：

S1：构建面向单通道图像处理的基础检测模型和优化检测模型；

在一种实施例中，具体步骤包括：

S11：参考预先构建的深度学习模型，设置模型结构参数，生成优化检测模型：

S12：调节优化检测模型的模型结构参数，得到基础检测模型；

其中，优化检测模型和基础检测模型的模型结构均与的深度学习模型，结构相同，参数不同。多尺度感受野模块包含分组数g、输入通道数C_in与输出通道数C_out三个模块参数，基础检测模型中多尺度感受野模块的C_in与C_out小于等于优化检测模型中多尺度感受野模块的C_in与C_out，基础检测模型多尺度感受野模块的g小于等于优化检测模型多尺度感受野模块的g。多尺度感受野包括低维多尺度感受野模块和高维多尺度感受野模块。

基础检测模型与优化检测模型是在模型训练和推理时均以单通道图像作为输入数据，由多尺度感受野模块构成的深度卷积神经网络；多尺度感受野模块用于提取单通道图像多尺度特征，由轻量化卷积结构构成。

在本实施例中，具体地，S1中，步骤还包括定义基础检测模型结构与优化检测模型结构参数：

基础检测模型与优化检测模型均包含L个多尺度感受野模块，任一第l个多尺度感受野模块均包含所述模块参数；基础检测模型结构参数N^unop＝<unop_C_in，unop_C_out，unop_G>；多尺度感受野模块输入通道数unop_C_in＝{unop_C_in ^l|l＝1，...L}，多尺度感受野模块输出通道数unop_C_out＝{unop_C_out ^l|l＝1，...L}，多尺度感受野模块分组数G＝{unop_g^l|l＝1，...L}，则优化检测模型参数N^op＝<op_C_in，op_C_out，op_G>，根据以下公式计算各模块分组数op_g^l、输入通道数op_C_in ^l与输出通道数op_C_out ^l：

其中，分组调整参数权重

通道调整参数权重ω∈(0，1)。

S2：获取单通道图像数据集，并通过单通道图像数据集对基础检测模型进行训练；其中，单通道数据集包括单通道图像和对应的真值标签；真值标签gt由目各类目标置信度conf、目标最小外接矩形框中心点cen及其长h与宽w组成，即gt＝<conf^C×H×W，cen^H×W，h^H×W，w^H ^×W>，C为目标类别数，H和W为输出特征图的宽与高。

S3：将单通道图像分别输入至训练好的基础检测模型和优化检测模型，根据预测结果确定有效标签集合；

S4：根据真值标签对有效标签集合进行校正，筛选校正标签集；

S5：根据校正标签集、真值标签和单通道图像对优化检测模型进行训练，得到最终目标检测模型。

在另一实施例中，根据以下公式构建低维多尺度感受野模块：

其中，I表示输入单通道红外图像，

输入通道与输入通道数相等且为滤波核尺寸为1的卷积运算，GAVPool()为全局池化操作，全局池化操作将输入特征的宽与高降为1但不改变输入特征的通道数。

F(·)的特征处理顺序为先应用特征增强模块

对输入特征x进行通道级增强，再利用特征降维操作/>

剔除弱特征。F(.)包含特征筛选模块

可以高效提取单通道图像特征：由于特征筛选模块包含全局池化操作，该模块的运算量较通用通道注意力机制略微增加但拟合能力更强；对增强后特征进行降维操作不但未对模型拟合能力造成影响，而且可以降低后续特征提取操作的运算量。Relu(.)为线性整流函数，/>

为拼接操作，G^q(I)为将输入图像进行第q次特征感受野扩增的轻量化特征提取运算模块：

特征感受野扩增次数q＝{0，1，2，3}且当q＞1时，G^q通过复用前一层运算结果G^q-1，在提升感受野尺寸的同时不增加额外运算开销。进行特征感受野扩增时使用不同运算参数

C_in为卷积层输入通道数，C_out为卷积层输出通道数，f为滤波核尺寸，其中

G¹、G²与G³分别应用相同的运算量提取感受野尺寸为3、5、7的特征，其运算量与计算量约为相应标准卷积运算的三分之一，BN(·)为批归一化运算，GConv(·)为分组数为g的组卷积运算，其运算量为标准卷积运算的

通过特征复用与应用轻量化卷积操作，低维多尺度感受野模块的运算量为应用标准卷积提取相同尺寸感受野特征运算量的八分之一。由于非线性操作Relu会导致负特征值输出为0，从而影响低维特征提取过程中对输入图像的处理效果，因此低维多尺度感受野模块在提取各尺寸感受野特征时不使用Relu操作。

在另一实施例中，根据以下公式构建高维多尺度感受野模块：

其中，+为逐元素加操作，O^p(x)为应用组卷积GConv(·)对输入特征x进行第p次特征感受野扩增的轻量化特征提取运算模块：

高维特征感受野扩增次数p＝{0，1，2}。与低维多尺度感受野特征提取模块类似，O^p(x)同样复用前一层运算结果并应用特征筛选模块进行单通道图像高效特征提取。为增加模型非线性关系拟合能力，O^p(x)降低了线性卷积层的使用而增加了非线性层。为加速模型收敛速度，高维多尺度感受野模块

应用残差操作+避免训练时模型参数梯度消失现象。因此，已有模型参数量较仅采用标准卷积运算的模型参数量更低、运算速度更快，较仅采用深度可分离卷积构建的模型拟合速度更快。基础检测模型结构与优化模型结构详细参数，如表1和表2所示：

表1：基础检测模型结构详细参数

表2：优化检测模型结构详细参数

本发明中的多尺度感受野模块通过3x3卷积提升感受野增加特征复杂度。此外，多尺度感受野模块增加特征筛选模块降低输出特征维度，并使用残差操作提升模型收敛速度。下表为通用轻量化模型、基础检测模型与优化检测模型在相同红外目标检测任务中的表现。在模型预测框与真实标签框交并比大于等于0.5的前提条件下，基于多尺度感受野模块构建的基础检测模型与优化检测模型精度均高于通用轻量化模型。在输入图像尺寸为(256，256，1)时统计其乘加次数，通过对比乘加次数可以发现，基础检测模型与优化检测模型的运算量远低于通用轻量化模型，这意味着这两种模型推理速度与训练速度均快于现有通用轻量化模型。模型大小、参数量和乘加次数可以表明，模型参数量与运算量呈正比关系，降低模型参数量可以有效降低模型运算量。

在另一实施例中，S2中，通过单通道图像数据集对基础检测模型进行训练，步骤包括：

S21：应用图像随机区域裁剪、图像白化与图像对比度增强等图像处理技术对输入单通道图像I^256×256进行数据增广；

S22：根据目标检测损失函数，使用增广后数据集对基础检测模型N^unop进行训练；其中，目标检测损失函数为：

其中，N为增广后数据集样本数量，L_cls为Focal loss损失函数，L_reg为smooth L1损失函数，pred_unop ⁱ为基础检测模型对增广后数据集中第i个样本的预测结果，而gtⁱ为增广后数据集中第i个样本的真实标签。

在本实施例中，在单通道图像数据集上采用RMSprop算法训练基础检测模型N^unop，单通道数据集为包含单通道图像及对应真值标签gt的数据集；通过应用RMSprop算法可有效训练多尺度感受野模块中的组卷积结构，通过防止网络参数过拟合提升基础检测模型的泛化性。

将单通道图像输入至训练好的基础检测模型，输出基础检测模型预测结果pred_unop，

其中，pred_conf为预测目标置信度，pred_cen为检测框中心点，pred_h与pred_w为各检测框长与宽。

在另一实施例中，S3中，根据预测结果确定有效标签集合，步骤包括：

S31：根据预测结果计算预测目标置信度；将单通道图像分别输入至基础检测和优化检测模型，并分别输出基础检测模型预测结果pred_unop和优化检测模型预测结果pred_op，预测结果中包括预测目标置信度，即可以得到基础检测模型的预测目标置信度

和优化检测模型的预测目标置信度/>

S32：根据基础检测模型的预测目标置信度和优化检测模型的预测目标置信度计算图像响应差异，并根据图像响应差异获取校正标签位置；其中，图像响应差异计算公式如下：

校正标签位置

其中，topk(v，k)为返回输入数组v中前k元素的函数，此时k为每幅单通道图像包含的校正标签数量且k＝min(20，5C)，C为目标类别数，当diff≈0时，基础检测模型与优化检测模型对图像中某些区域的认知近似，若将该类区域对应的基础检测模型输出作为训练标签则会导致优化检测模型重复学习已有知识并降低待优化模型的训练效果。由于该类标签无法有效增加模型泛化性，因此将基础检测模型预测置信度

与优化检测模型预测置信度/>

近似的标签称作无效标签。

S33：根据校正标签位置索引获取有效标签集A；

在另一实施例中，S4中，根据真值标签对有效标签集进行校正，筛选校正标签集，步骤包括：

S41：根据真值标签和基础检测模型的预测结果，获取真值临近位置；

具体为：根据真值标签各类目标中心点置信度

获取真值临近位置；

其中，图像中任一像素点(i，j)距各类目标中心点(u，v)的最大距离β＝2，中心点坐标需满足

目标类别数c＝{1，...C}。

S42：根据基础检测模型预测目标置信度，获取预测强响应目标位置；

其中，响应强度下限/>

当基础检测模型预测目标置信度过低时，其对应区域为背景区域或目标区域。若对应区域为背景区域，则指导优化检测模型学习背景区域会导致其精度降低；若对应区域为目标区域，则因其置信度过低在训练过程中无法有效指导优化检测模型学习。因此，将预测目标置信度过低位置对应的基础检测模型输出称作弱标签。

S43：根据真值临近位置near_loc和预测强响应目标位置res_loc，获取候选临近强响应标签集B；

若基础检测模型预测预测目标位置为非真值临近位置，则其为目标边缘区域或虚警区域。对于缺乏色彩信息的单通道图像而言，目标边缘区域常存在模糊或成像噪声，引导优化检测模型对该类区域的学习会导致含有相似噪声或模糊的背景区域响应增强，从而导致虚警的出现。因此将强响应目标位置res_loc不在真值标签附近位near_loc的待优化模型输出称作虚警标签。

S44：根据有效标签集合与临近强响应标签集合，筛选单通道图像的校正标签。

在另一实施例中，S44中，根据有效标签集合与临近强响应标签集合，筛选单通道图像的校正标签，步骤包括：

S441：根据候选校正标签集A与侯选临近校正标签集B，筛选校正标签集：

其中，n＝|A∩B|。

S442：若校正标签集D中元素个数U小于k，则将临近强响应标签集B中元素循环添加至校正标签集D中，直至U＝k。

在另一实施例中，对优化检测模型进行训练之前，采用知识蒸馏法，定义优化检测模型的损失函数；

具体为：采用知识蒸馏损失函数与目标检测损失函数定义优化检测模型的损失函数：

其中，

为所述优化检测模型输出，L_task为基础检测模型训练时的目标检测损失函数，L_distill为知识蒸馏损失函数，ε与γ为检测任务与知识蒸馏的权重超参数。

在另一实施例中，知识蒸馏损失函数为：

其中，U为筛选矫正标签集中元素个数，L_cls(·)为目标检测类别损失函数，L_reg(·)为目标检测回归损失函数，δ为目标检测回归损失函数的权重超参数。

在另一实施例中，S5中步骤包括：将筛选后的校正标签D、单通道图像与真值标签gt输入至优化检测模型，通过Adam算法对优化后模型进行e′轮训练，获得最终的优化检测模型参数，具体为：

S51：应用图像随机区域裁剪、图像白化与图像对比度增强等图像处理技术进行数据增广。

S52、将单通道图像I^256×256分别输入至待优化模型N^unop与优化检测模型Nop，得到基础检测模型输出pred_unop与优化检测模型输出

S53、根据知识蒸馏后重新定义的损失函数，使用Adam算法对待优化模型进行e′轮训。其中，本实施例中e′＝150。由此通过使用知识蒸馏方法获得最终的优化检测模型的权重参数，提高训练速度与检测准确率。

如图3，在另一实施例中，步骤还包括，通过最终的优化检测模型对待检测单通道图像数据进行检测，获得图像检测结果；其中，待检测单通道图像数据为红外图像，输入红外图像进行特征提取，分别对目标类别和目标位置进行预测，根据目标类别和目标位置采用非极大值抑制进行局部搜索，输出目标图像。

本发明可以处理单通道全色图像、单通道SAR图像、单通道长波红外图像、单通道中波红外图像和单通道仿真红外图像。其中，仿真红外图像可以是由可见光波段模拟生成，也可以由红外图像与可见光图像模拟生成。本发明具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为红外摄像机、车载相机、星载相机、监控摄像头、手机、平板电脑、笔记本电脑、或者个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。可以理解的是，本实施例可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。