CN117036918A

CN117036918A - 一种基于域适应的红外目标检测方法

Info

Publication number: CN117036918A
Application number: CN202310999333.9A
Authority: CN
Inventors: 张弘; 刘源; 杨一帆; 李旭亮
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-11-10
Anticipated expiration: 2043-08-09
Also published as: CN117036918B

Abstract

本发明公开了一种基于域适应的红外目标检测方法，以提高目标检测网络在无标注红外图片上的检测性能，使用域适应技术，减少网络对于标注信息的依赖，在缺少目标域标注信息的情况下，也能够实现相应目标的检测。使用双阶段检测网络，相比于单阶段检测网络，先进行感兴趣区域的提取，再把相应区域的特征统一到固定的大小，再通过检测分类。最后采用了基于观测的动态权重调整的学习策略，代替了传统的手工设定权重的方法，能够根据稳定程度调整该损失项在总损失项中的占比，进而达到更好的训练效果。

Description

一种基于域适应的红外目标检测方法

技术领域

本发明属于计算机图像信息处理领域，主要涉及一种基于域适应的红外目标检测方法。

背景技术

目标检测是计算机视觉领域研究的重要方向之一。随着深度神经网络和大规模标注数据集的兴起，目标检测技术的精度和成熟度不断完善，随着硬件算力的提升，人们已经将目标检测技术广泛应用于日常的生活中，比如视频监控、交通管制等方面。

红外图像是通过“感知”物体向外辐射出的能量来进行成像，与一般的可见光相比拥有着全天候工作、探测距离远等突出特性，能够在复杂的环境下提供较好的成像效果。由于其能够在可见光成像条件不足的情况下工作，所以红外图像在社会稳定、军事等领域中的应用日趋增多。

传统的红外目标检测大多是采用手工特征的方式，根据比较相似度来确定目标的位置，虽然有许多学者对传统算法进行了改进，但是由于手工特征设计的复杂和应用场景单一，导致传统目标检测的泛化性较差。近年来随着深度学习的发展，使用卷积神经网络对红外图像进行特征提取，例如YOLO系列、Faster RCNN系列目标检测网络，检测性能相比于传统算法大大得到了提升。

现有的目标检测方法几乎都是监督学习算法，也就是需要大量的带有标注信息的被检测目标的训练数据。由于红外目标检测的数据集较少，且难以获得，在训练数据较少的情况下往往还会出现过拟合的现象，所以直接使用红外数据集训练出的数据集检测效果往往较差。

为克服红外成像下标注信息缺失带来的目标检测难题，常用的目标检测模型都需要大量的图片和对应的标注信息进行训练，而红外成像往往不具有大规模的标注数据集，且存在分辨率低、通道单一等问题，导致无法使用一般的监督目标检测算法进行模型训练。

发明内容

为解决上述技术问题，本发明提供一种基于域适应的红外目标检测方法，由于可见光的训练数据容易获得，且数据集较大，所以使用域适应的技术将可见光下的训练数据迁移到红外数据上。以标签丰富的可见光数据集为源域，以无标注的红外数据集为目标域，通过对抗学习的方式对两者特征分布进行约束，将网络提取出的两个领域的特征尽量相似，以此来达到提升检测精度的目的。同时引入对抗学习模块，利用大量的可见光下的目标检测数据集，利用特征对齐的原理，进行迁移学习到无标注信息的红外成像场景下，从而实现红外图像下的目标检测。

本发明使用了无监督学习的方式，一般的目标检测算法均为监督学习的方法，需要大量的图片和对应的标注信息，本发明采用跨域目标检测算法，目标域图片无需对应的标注信息，仅使用目标域图片即可进行训练。

为达到上述目的，本发明采用如下技术方案：

一种基于域适应的红外目标检测方法，包括如下步骤：

步骤1，准备包含标注信息的源域可见光检测数据集，准备不包含标注信息的目标域红外图片数据集：

源域与目标域分别由可见光图片和红外图片构成，且两者包含相同的被检测目标类别，将源域数据集S表示为其中X代表图片信息，Y代表图片对应的标注信息，N为数据集图片个数，N_s为源域数据集的图片个数；将目标域数据集T表示为/> 目标域只包含图片，不含有标注信息，/>代表目标域数据集中的第i张图片，其中t代表该图片属于目标域，N_t为目标域图片的数量；

步骤2，将判别器和梯度反转模块加入Faster RCNN检测网络：

选择Faster RCNN检测网络为主体网络，分别将源域图片和目标域图片输入到主体网络中进行特征提取得到特征F_s和F_t，将Faster RCNN的骨干网络提取得到的全局特征信息F_G和经过感兴趣区域池化模块处理后的局部特征F_L分别送入二分类判别器D_G和D_L，判别器用于判断输入特征属于源域还是目标域；判别器在梯度反传阶段先通过梯度反转模块GRL，将梯度方向反转，再将梯度进行反传，特征提取和判别器进行对抗学习，使得特征提取网络提取得到的源域和目标域特征尽量相似，达到“欺骗”判别器的作用；对抗学习减小域间的差异，以提高无标注信息下的目标域检测的效果；判别器的结构为多层卷积网络，其损失函数L_DA为：

L_DA＝E[log(D(F_s))]+E[log(1-D(F_t))]

步骤3，使用源域数据训练Faster RCNN检测网络：

将含有标注信息的源域数据送到Faster RCNN检测网络中进行监督训练，检测网络的损失函数包括两个部分，第一部分为区域提取网络RPN的分类损失和目标框回归损失，表示为L_RPN，第二部分为RCNN检测头的分类损失和目标框回归损失，表示为L_RCNN，结合步骤2得到完整的损失值L_total；根据设置的最大迭代次数、学习率和反向传播算法，经过反复训练，模型的参数朝向L_total减小的方向进行更新，训练结束后即得到用于目标域检测的模型；

步骤4，在目标域进行目标检测：

加载步骤3训练好的用于目标域检测的模型，仅使用Faster RCNN检测网络，不加载判别器和梯度反转模块，将待检测红外图片送入用于目标域检测的模型，通过前向传播进行特征提取，经过RPN网络提取出目标可能存在的区域，再经过RCNN的检测头，得到目标的类别的精确的位置信息，最终实现在目标域的检测任务。

进一步地，所述步骤1中的包含标注信息的源域可见光检测数据集中的图片数量，是不包含标注信息的目标域红外图片数据集中的图片数量的5倍以上。

进一步地，所述步骤2中，判别器的网络包含三层卷积模块，两层线性层；第一层卷积层的卷积核大小为1x1，步长为1，输出通道数是输入通道数的一半；第二层卷积层的卷积核大小为3x3，步长为1，边缘扩充为1，输出通道数与输入通道数相同；第三层卷积层的卷积核大小为1x1，步长为1，输出通道数为2；然后将输出的特征经过自适应平均池化层，将特征自适应到32x32大小，然后将特征展平成维度为1x2048的一维特征；第一层线性层的输入维度为2048，输出维度为64，经过ReLU激活函数输出；第二层线性层的输入维度为64，输出维度为2，经过softmax激活函数输出，得到输入特征分别属于源域和目标域的概率大小。

进一步地，所述步骤2中，梯度反转模块GRL将传入的梯度乘上一个负数，使得在梯度反传时经过梯度反转模块GRL前后的网络的训练目的是相反的，即：其中λ是梯度反传系数，随着训练变化，L_DA是域判别器模块，θ_d是网络系数；加入梯度反转层后的特征提取模块与判别器进行对抗学习，特征提取模块目的是使源域和目标域图片提取出的特征相似，判别器的目的是判断出特征提取模块提取出的特征是属于源域还是目标域。

进一步地，所述步骤3中，将包含标注信息的的源域可见光检测数据集中的图片送入到网络中，先经过特征提取网络ResNet50进行特征提取，然后再经过特征金字塔结构FPN进行特征的融合，以得到信息更加丰富的特征图，然后再将特征图输入到RPN区域候选网络中生成候选框区域；将候选框区域与特征图结合，提取出候选框区域在特征图中的对应特征，再将对应特征输入到RoI Align结构中，通过插值的方式来实现不同大小的候选框区域得到相同大小的特征；最后送入到检测头进行目标类别的分类以及目标区域的回归，即可得到最终的预测结果；所述ResNet50网络在训练的过程中加载预训练的模型，RPN和检测头使用随机初始化参数。

进一步地，所述步骤3中，总的损失函数loss_total为：

loss_total＝α₁·loss_RPN+α₂·loss_RCNN+α₃·loss_DA

其中，α₁、α₂、α₃为权重因子，并且满足α₁+α₂+α₃＝1，标准偏差/>其中c_i为loss_total中每一项损失的大小，/>为loss_total中每一项损失值的方差，/>为loss_total中每一项损失值的均值，L_i是具体的损失项。

与现有技术相比，本发明的有益效果在于：本发明的域适应的红外目标检测网络的结构设计科学、合理，引入了前沿的对抗学习、特征对齐、多任务学习等。针对红外图片数据集标注少、成像风格与可见光差异大、包含信息较少的问题，使用对抗学习的方式能够将可见光下的数据集迁移到红外图片下，实现不使用红外图片标注即可进行红外场景下的目标检测，其具有以下优点：

(1)本发明使用了域适应技术，能够减少网络对于标注信息的依赖，在缺少目标域标注信息的情况下，也能够实现相应目标的检测，在一定程度上扩展了检测网络算法的适用性。

(2)本发明使用了双阶段检测网络，相比于单阶段检测网络，先进行感兴趣区域的提取，再把相应区域的特征统一到固定的大小，再通过检测分类头，得到最终的检测结果，进行检测的精度有较大的提升。

(3)本发明在将多项损失值进行组合、加权得到最终的总损失值的时候，采用了基于观测的动态权重调整的多任务学习策略，代替了传统的手工设定权重的方法。根据每一项损失的历史损失值的方差和均值，能够得出每一个损失项的训练稳定程度，根据稳定程度调整该损失项在总损失项中的占比，进而达到更好的训练效果。

附图说明

图1为本发明中训练过程中检测网络的结构图；

图2为本发明中λ随训练轮次变化的曲线图；

图3为本发明中DA loss随训练轮次比变化的曲线图；

图4为本发明中测试过程中检测网络的结构图。

图5为本发明的CityPersons为源域和FLIR为目标域行人检测精度比较图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

目前的大部分目标检测网络都能够得到目标所在的位置和类别，但是需要大量的带标注的图片进行训练。当训练图片个数较少的时候，训练出来的网络往往会过拟合，无法取得较好的预测效果，所以本发明引进对抗学习的训练策略，使得在不依赖目标域图片标注的情况下，进行网络的训练。

本发明使用Faster RCNN检测网络作为骨干网络，Faster RCNN检测网络由特征提取模块(feature extraction)、区域推荐网络(Region Proposal Network)、感兴趣区域池化模块(RoI pooling)、检测头四部分组成，使得检测精度有较大的提升。

骨干网络的特征提取采用经典的ResNet网络，ResNet网络由卷积模块、ReLU激活函数和池化层堆叠而成，最终得到输入图像的特征图。区域推荐网络用于帮助网络推荐感兴趣的区域，由两层卷积层组成。感兴趣区域池化模块将区域推荐网络推荐的区域特征图处理成固定大小，方面后续的检测头进行回归和分类。分别将源域和目标域图片经过骨干网络提取出的特征和池化后的特征送入判别器网络，进行二分类操作，使其能够辨别出特征的来源，在梯度反传阶段将梯度乘以负数，即进行梯度反转，将反转后的梯度再进行反传。经过特征对齐后的网络提取得到的源域(可见光)和目标域(红外)图片经过特征提取网络后得到的特征会比较相似，从而能够识别出红外图片中包含的物体。

具体地，如图1所示，本发明的一种基于域适应的红外目标检测方法包括如下步骤：

源域与目标域分别由可见光图片和红外图片构成，且两者包含相同的被检测目标类别。将源域数据集表示为其中X代表图片信息，Y代表图片对应的标注信息，N为数据集图片个数，N_s为源域数据集的图片个数，s代表属于源域；将目标域数据集表示为/>与源域相比目标域只包含图片，不含有标注信息，/>代表目标域数据集中的第i张图片，其中t代表该图片属于目标域，N_t为目标域图片的数量。

步骤2，将判别器和梯度反转模块加入检测网络：

选择Faster RCNN检测网络为主体网络，分别将源域图片和目标域图片输入到网络中进行特征提取得到F_s和F_t，将Faster RCNN的骨干网络(backbone)提取得到的全局特征信息F_G和经过ROIPooling后的局部特征F_L分别送入二分类判别器D_G和D_L，判别器的作用就是判断输入特征属于源域还是目标域。设域标签为label_domain，其定义如下：

其中，x为送入网络的图片，当送入网络的图片来自于源域，就将域标签设置为0，如果来自于目标域，就将域标签设置为1。

判别器D_G和D_L均采用MSE均方差损失函数，判别器的损失表示如下所示：

LDA＝E[log(D(F_s))]+E[log(1-D(F_t))]

具体到源域和目标域的判别器损失如下：则判别器D_G的损失loss_{d_g}和判别器D_L的损失loss_{d_l}为：

loss_{d_g}＝-(label_domain(1-D_G(F_s))+(1-label_domain)(D_G(F_t)))

loss_{d_l}＝-(label_domain(1-D_L(F_s))+(1-label_domain)(D_L(F_t)))

总的判别器的域分类的损失函数loss_DA为：

loss_DA＝loss_{d_g}+loss_{d_l}

判别器在梯度反传阶段需要先通过梯度反转模块GRL，将梯度乘以-λ，即将梯度进行反转，再将梯度继续反传。其中的λ并不是一成不变的，随着网络的特征提取能力的增强，λ的绝对值也逐渐增加，其中λ的计算公式为：

其中，epoch是指当前的训练轮数，epoch_total是指训练的总轮数，其中γ为超参数，设置为10。如图2所示，λ随着训练次数的增加也逐渐变大，其中exp是指指数函数。

特征提取和判别器进行对抗学习，使得提取得到的源域和目标域特征尽量相似，来达到“欺骗”判别器的作用。模型初始化后的特征判别器未经训练，所以判别不出特征来源，所以loss_DA初始化为1，随着梯度反转层的介入，源域和目标域图片经过特征提取网络得到的特征使得判别器无法分辨出特征来源，所以如图3所示，loss_DA后期稳定在0.5。对抗学习可以减小域间的差异，以提高无标注信息下的目标域检测的效果。

步骤3，使用源域数据训练Faster RCNN检测网络：

Faster RCNN检测网络由预训练好的ResNet50网络和FPN网络生成特征图，之后将特征输入到区域建议网络中，之后将特征图和区域建议输入到RoI Align结构中，通过双线性插值使得每个RoI特征能够更好的对齐原图上的RoI区域。

由于源域数据含有标注信息，所以将含有标注信息的源域数据送到Faster RCNN网络中进行监督训练，不含有标注信息的目标域图片仅进行特征提取，不进行检测头的训练。网络的检测部分损失包括两个部分，第一部分为区域提取网络的RPN分类损失和目标框回归损失，将其表示为L_RPN，第二部分为RCNN检测头的分类损失和目标框回归损失，将其表示为L_RCNN，结合步骤2即可得到完整的损失值L_total。总的损失函数toss_total为：

toss_total＝α₁·loss_RPN+α₂·loss_RCNN+α₃·loss_DA

本发明实施例在将源域图片送入网络之前，使用了数据增强操作：对图片进行颜色变化、随机翻转、旋转和Mosaic数据增强等操作。Mosaic数据增强即：从数据集中随机挑选4张图片，将这四张图片进行随机大小变化，生成一张新图片，将这四张图片分别放置在新生成的图片的四角，并将原来的标注信息也相应的进行变换附加到新的图片上。

设置送入网络的图片大小统一为416×416像素大小，批次大小(batch_size)大小为32，同时使用两张2080Ti的GPU进行训练，共训练250轮，学习策略使用随机梯度下降法(SGD)，权值衰减系数为0.0005，动量系数设置为0.9，学习率更新策略为带有warm_up的余弦退火算法，在前5轮学习率逐渐从0升到最大学习率0.001，然后按照余弦函数进行衰减，经过反复训练，模型的参数朝向L_total减小的方向进行更新，训练结束后即可得到用于目标域检测的模型。

步骤4，在目标域进行目标检测：

加载步骤3训练好的检测模型，仅使用Faster RCNN部分，判别器和梯度反转模块无需加载，如图4所示。将待检测红外图片送入检测模型，通过前向传播进行特征提取，经过RPN网络提取出目标可能存在的区域，再经过RCNN的检测头，得到目标的类别的精确的位置信息，最终实现在目标域的检测任务。

经过测试，以可见光数据集为源域，以红外图片为目标域进行域适应得到的目标检测模型，能够在红外图片上检测到相应目标。本发明在未获取到标注的红外图片的情况下，经过迁移学习能够将可见光数据集的内容迁移到红外场景下，极大的拓宽了检测网络模型的应用范围，使得在无标注的场景下获得较好的检测效果。

本方法在公开数据集上也取得的了较好的检测效果。CityPersons数据集是基于语义分割Cityscapes数据集的一个行人检测数据集，在多个城市、多个季节、多个天气下采集得到的数据集，包括2975张训练图片，500张验证图片，总共约有35000个行人标注。FLIR数据集是在汽车平台采集得到的14000张红外图像，总共约有50000个红外行人标注。使用本方法检测得到的准确率如下图5所示，其中第一行数据为直接使用CityPersons数据集训练得到的模型在FLIR数据集上的检测精度，第二行数据为采用本方法以CityPersons数据集为源域迁移到FLIR目标域数据集上的检测精度。可以看出本方法可以大幅度地提高源域训练的得到的模型在目标域上的检测精度。

需要强调的是：以上仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于域适应的红外目标检测方法，其特征在于，包括如下步骤：

源域与目标域分别由可见光图片和红外图片构成，且两者包含相同的被检测目标类别，将源域数据集S表示为其中X代表图片信息，Y代表图片对应的标注信息，N为数据集图片个数，N_s为源域数据集的图片个数，s代表属于源域；将目标域数据集T表示为/>目标域只包含图片，不含有标注信息，/>代表目标域数据集中的第i张图片，其中t代表图片属于目标域，N_t为目标域图片的数量；

步骤2，将判别器和梯度反转模块加入Faster RCNN检测网络：

L_DA＝E[log(D(F_s))]+E[log(1-D(F_t))]

步骤3，使用源域数据训练Faster RCNN检测网络：

步骤4，在目标域进行目标检测：

2.根据权利要求1所述的一种基于域适应的红外目标检测方法，其特征在于：所述步骤1中的包含标注信息的源域可见光检测数据集中的图片数量，是不包含标注信息的目标域红外图片数据集中的图片数量的5倍以上。

3.根据权利要求1所述的一种基于域适应的红外目标检测方法，其特征在于：所述步骤2中，判别器的网络包含三层卷积模块，两层线性层；第一层卷积层的卷积核大小为1x1，步长为1，输出通道数是输入通道数的一半；第二层卷积层的卷积核大小为3x3，步长为1，边缘扩充为1，输出通道数与输入通道数相同；第三层卷积层的卷积核大小为1x1，步长为1，输出通道数为2；然后将输出的特征经过自适应平均池化层，将特征自适应到32x32大小，然后将特征展平成维度为1x2048的一维特征；第一层线性层的输入维度为2048，输出维度为64，经过ReLU激活函数输出；第二层线性层的输入维度为64，输出维度为2，经过softmax激活函数输出，得到输入特征分别属于源域和目标域的概率大小。

4.根据权利要求1所述的一种基于域适应的红外目标检测方法，其特征在于：所述步骤2中，梯度反转模块GRL将传入的梯度乘上一个负数，使得在梯度反传时经过梯度反转模块GRL前后的网络的训练目的是相反的，即：其中λ是梯度反传系数，随着训练变化，L_DA是域判别器模块，θ_d是网络系数；加入梯度反转层后的特征提取模块与判别器进行对抗学习，特征提取模块目的是使源域和目标域图片提取出的特征相似，判别器的目的是判断出特征提取模块提取出的特征是属于源域还是目标域。

5.根据权利要求1所述的一种基于域适应的红外目标检测方法，其特征在于：所述步骤3中，将包含标注信息的的源域可见光检测数据集中的图片送入到网络中，先经过特征提取网络ResNet50进行特征提取，然后再经过特征金字塔结构FPN进行特征的融合，以得到信息更加丰富的特征图，然后再将特征图输入到RPN区域候选网络中生成候选框区域；将候选框区域与特征图结合，提取出候选框区域在特征图中的对应特征，再将对应特征输入到RoIAlign结构中，通过插值的方式来实现不同大小的候选框区域得到相同大小的特征；最后送入到检测头进行目标类别的分类以及目标区域的回归，即可得到最终的预测结果；所述ResNet50网络在训练的过程中加载预训练的模型，RPN和检测头使用随机初始化参数。

6.根据权利要求1所述的一种基于域适应的红外目标检测方法，其特征在于：所述步骤3中，总的损失函数loss_total为：

loss_total＝α₁·loss_RPN+α₂·loss_RCNN+α₃·loss_DA

其中，α₁、α₂、α₃为权重因子，并且满足α₁+α₂+α₃＝1，标准偏差其中c_i为loss_total中每一项损失的大小，/>为loss_total中每一项损失值的方差，/>为loss_total中每一项损失值的均值，L_i是具体的损失项。