CN114359626A

CN114359626A - 基于条件生成对抗网络的可见光-热红外显著目标检测方法

Info

Publication number: CN114359626A
Application number: CN202111533990.1A
Authority: CN
Inventors: 涂铮铮; 杨文芳; 李成龙; 罗斌; 汤进; 吕皖丽
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-15

Abstract

本发明公开一种基于条件生成对抗网络的可见光‑热红外显著目标检测方法，本发明基于条件生成对抗网络模型设计两个生成器，基于对抗学习分别提升查全率和查准率并使之达到平衡，从而得到更精细化的显著目标预测结果；通过全局上下文信息模块整合高层语义特征，整合后的特征作为解码器每层的引导特征包含有更丰富的全局上下文信息；本发明的协同注意力模型融合可见光模态和热红外模态特征的同时，进一步突出前景目标区域，抑制冗余的背景噪声影响，本发明的显著图比其他先进的方法具有更高的置信度。

Description

基于条件生成对抗网络的可见光-热红外显著目标检测方法

技术领域

本发明属于计算机视觉处理技术领域，具体涉及一种基于条件生成对抗网络的RGB-T显著目标检测方法。

背景技术

显著目标检测是计算机视觉领域中的一个重要课题，该任务已经被广泛应用于计算机视觉各个领域，如目标分割、图像检索、视频目标跟踪等。目前可见光图像显著目标检测在实验环境下已经提升到很高的水平，但是在真实场景中，可见光成像往往受到恶劣天气、背景复杂、光照不佳等因素的影响，所以仅仅使用可见光图像难以准确检测出显著目标，极大限制了其应用。

近年来，随着成像及其信息描述手段的多元化，尝试协同利用多模态图像信息如深度图像、热红外图像、近红外图像等提升计算机视觉任务效果吸引了越来越多的关注。热红外图像反映了物体表面的温度场，其成像对光照不敏感，并有很强的穿透雾霾、烟雾的能力。所以，红外热图像相对于可见光图像具有抗干扰能力强、不易受恶劣天气和可见光影响、目标识别能力强等特点。如果目标在可见光下成像不佳，可以借助热红外图像进一步协助检测，可以一定程度克服光照不佳、背景杂乱以及天气恶劣的影响。然而，在某些复杂成像条件下，容易产生对比度不够高、边缘模糊、目标不完整甚至丢失的情况，而此时可见光成像提供了详细外观和纹理信息，为显著目标检测提供了有用信息。可见光-热红外显著目标检测任务就此产生，它专注于分割成对的可见光图像和热红外图像的共同显著区域。

现有的可见光-热红外显著目标检测方法可以分为两大类：一类是基于传统的多模态显著目标检测方法，另一类是基于深度学习的显著目标检测方法。传统的可见光-热红外显著目标检测方法通过手工提取的颜色、方向、纹理等特征完成显著检测，过度依赖于人工选取的特征，对场景的泛化能力不强，同时无法建模高级上下文特征。近年来，随着深度学习的发展，尤其是卷积神经网络的出现，大幅提高了显著目标检测的性能。最新的可见光-热红外显著目标检测基于卷积神经网络探索两个模态数据跨模态互补的融合网络，设计了不同的方法融合多模态、多层次、多尺度的特征，这些方法在可见光-热红外模态特征互补方面得到了更好的结果。

在多模态显著目标检测的实验结果中不难看出存在两种错误的检测结果，即错检和漏检，而减少错检和漏检在评价指标上则体现为提高查准率和查全率。高质量的显著目标检测结果需要尽量提高显著目标区域的查全率和查准率最后达到两者之间的平衡。以往的多模态显著目标检测方法大多设计复杂的跨模态的网络进行特征提取、融合和目标检测，却都忽略了错检和漏检这两种检测错误各自的特点，所以无人关注如何同时提高查准率和查全率并使之达到平衡。存在以下问题：

一方面，由于注重于设计多模态融合方法，现有的可见光-热红外显著目标检测方法的模型过于复杂，因此导致了更高的研究成本；

另一方面，在传统方法中，提高查全率需要降低检测阈值，而提高查准率需要提高检测阈值。在深度方法中，提高查全率往往需要模型更关注局部特征，而提高查准率又需要模型更关注全局特征。现有的方法往往是使用一个单一网络模型最小化整体检测误差，故模型往往只侧重于提升查全率或者查准率，忽略了它们各自的特点，并没有实现二者之间的平衡。因此，关注多模态显著目标检测中错检和漏检这两种检测错误，通过同时提升查全率和查准率这两个指标并使之达到平衡，协同引导显著目标检测，使得最后获得的检测结果达到最佳。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于条件生成对抗网络的可见光-热红外显著目标检测方法，本发明无需复杂的多模态融合方法即可很好的利用两个模态的互补特征并更好的检测出显著目标区域，获得更好精度和更高置信度的显著图像。

技术方案：本发明的一种基于协同生成对抗网络的可见光-热红外显著目标检测方法，包括以下步骤：

步骤S1、输入同一图像的可见光图像和对应热红外图像，使用两个生成器，每个生成器均含有编码器、解码器和协同注意力模块CAM；且每个生成器均采用共享参数的编码器解码器来处理可见光模态和热红外模态的特征，编码器编码获得输入图像(即可见光模态和热红外模态)的多级特征，并将这些特征标记为f₁～f₅；

步骤S2、对于两个生成器，分别将各自所得最深层特征f₅经过全局上下文信息模块GCIM处理得到全局特征f_global，然后将步骤S1所得到的f₁～f₅和步骤S2得到的全局特征f_global通过解码器处理；然后使用协同注意力模块CAM来融合两个模态的特征；

步骤S3、两个生成器分别得到预测的显著图S₁和S₂，最后整合两个生成器的输出特征并经过卷积得到最终显著图S_final；

步骤S4、使用一个判别器，将S₁、S₂和真值GT分别送入到判别器内进行分类，辅助生成器生成更精细的显著图；

步骤S5、通过标注的真值用二元交叉熵BCE损失函数、损失函数(用以降低错检率和漏检率)以及条件生成对抗网络损失函数监督训练网络模型。

进一步地，所述步骤S1中各生成器的特征编码器均采用共享参数的VGG19网络，且VGG19网络去除最后的全连接层，这两个生成器的VGG19网络分别从可见光模态和热红外模态提取分层特征，各层特征表示为f₁～f₅，通道数分别是32、64、128、512和512。

进一步地，为更好地获得全局上下文信息，所述步骤S2中全局上下文信息模块GCIM，能够扩大感受野。

f_global＝GCIM(f₅)；

全局上下文信息模块GCIM包括三个并行分支，每个分支m(m∈1,2,3)由串行的一层卷积层(卷积核∈3,5,7)和一层膨胀卷积层(膨胀率∈3,5,7)组成，每个分支的输出通道数为256；然后，利用残差连接将原始特征f₅和三个分支的特征连接在一起，通过1*1卷积运算将通道数减少到256，进而得到全局特征f_global。

进一步地，所述步骤S2解码器处理特征f₁～f₅和全局特征f_global的具体过程为：

F_output＝Conv(F_i+f_global)，i＝1

F_i＝Conv(F_i+1+f_global+f_i)，1<i<＝4

F_i＝Conv(f_global)，i＝5

其中，f_i是编码器不同层的提取特征，i表示1～5层特征，F_i是对应层的解码器特征，Conv表示一层3*3卷积和ReLU激活函数实现非线性激活；i+1层特征通过上采样操作保持和i层特征大小一致。

上述处理过程主要是由于在显著目标检测任务中，高层次特征提供抽象的全局上下文信息，有助于前景目标的定位，而低层次特征包含大量的细节信息，有利于边界的细化，二者都对显著目标的分割起着重要的作用，因此需要整合多层次的特征。

在上述编码解码完成后，需要通过协同注意力模块来融合可见光模态和热红外模态的F₁特征，并突出不同模态下的共同的显著目标。具体而言，协同注意力模块挖掘模态自身的通道特征和跨模态之间的相互依赖性，然后通过空间注意力进一步探讨跨模态特征之间的关系。

进一步地，所述步骤S2中使用协同注意力模块CAM融合两个模态特征的过程中，使用通道注意力挖掘模态自身的特征，分别得到两个模态的通道注意力，具体为：

CA_k＝σ(M(F_k(p,q)))；

k表示可见光模态RGB或者热红外模态T，M表示最大池化操作，p和q是指像素；

利用通道注意力融合两个模态特征：

表示对应像素乘；得到融合特征f_fuse，再使用空间注意力进一突出显著目标区域，空间注意力表示为：

SA_k＝σ(Conv(F_fuse(p,q)))

最后的输出特征表示为：

*表示3*3卷积操作，W是对应的卷积参数。

上述跨模态的协同注意模块能够对可见光模态和热红外模态之间通道特征和空间特征的相关性进行建模，自适应地选择前景区域特征。

进一步地，所述步骤S3中，两个生成器分别对其各自融合后的特征F_out使用卷积操作和sigmoid激活函数得到两个生成器的预测显著图S₁和S₂；然后整合两个生成器的输出特征，经过一层卷积层和sigmoid激活函数激活得到最终的显著预测图S_final：

S_final＝σ(W*[F_out1,F_out2])；

[*]表示为对应通道的连接操作，*表示3*3卷积操作，W是对应的卷积参数。

进一步地，所述步骤S4中的判别器包含四层卷积、三层max-pooling层和三层全连接层，判别器的输入是三个具有原始输入的显著图，[S₁，input]，[S₂，input]和[S,input]，其中S₁和S₂是两个生成器的预测结果，S是真值图，input为原始可见光图像和热红外图像的平均值；

最后，判别器的输出是三个值，这三个值是每个输入的判别得分。

进一步地，所述步骤S5中损失函数G^*为：

其中，L_α(G,D)为条件生成对抗网络损失函数，L_sg(S_t,Y)为生成器损失函数，L_S(S_final,Y)为显著损失函数，L_sc(S₁,S₂)为一致性损失函数；S_t表示不同生成器生成的显著图S₁和S₂；α，β，γ，ω是控制不同损失的权重参数；

显著性损失是最终的预测结果S_final和真值之间的交叉熵损失；

对抗损失L_α(G,D)用于在训练阶段平衡生成网络和判别网络，帮助两个生成器生成更好的分割结果；

X_input表示输入的RGB图片和热红外图片的平均值，S_t包括S₁和S₂，表示两个生成器预测的显著图，Y表示真值，D()表示的是判别器函数。

进一步地，在上述两个生成器中使用不一样的生成器损失来分别提高查准率和查全率。例如在生成器1中，通过降低预测图的假阴性(FN)来提高查全率，

在生成器2中，通过降低假阳性(FP)来提高查准率，

两个生成器损失分别如下：

λ1，λ2用来平衡FN和FP，控制两个生成器偏向各自的任务，S_t包括S₁和S₂，j表示数据集中第j张图片，N是数据集总的图片数；

给定最终显著图

和真实数据Y＝{Y_n|n＝1,...，T}，其中n表第n个像素，T是总像素数；

二元交叉熵BCE损失函数为：

一致性损失使两个生成器产生更精细的分割图。虽然两个子网络的任务不同，但它们最终的分割结果应该尽量和真值相似。此外，两个生成器的预测图S1和S2在理论上也应该是相似的。然而，对抗损失和生成器损失使得显著图S₁和显著图S₂以各自的方式向真值靠近，并在训练后存在差距。

因此，此处使用一致性损失L_sc来缩小显著图S₁和显著图S₂之前的生成差距；

其中，w，h，c分别代表输出图的宽、高和通道数。

有益效果：

本发明基于显著检测中的错检和漏检出发，将复杂的RGBT显著目标检测分解为两个子任务，设计两个对应的生成器分别降低错检率和漏检率，从而提高查准率和查全率。通过条件生成对抗网络的辅助，使得查准率和查全率达到平衡，得到更好的精细化显著图。此外，跨模态特征融合的协同注意力模块有助于挖掘可见光模态与热红外模态的互补性，同时抑制不同模态特征噪声的影响。最后，本发明的框架是非常灵活和通用的，它的主干甚至是整个生成器的框架都可以被其他相应的框架所取。

附图说明

图1为本发明的整体流程示意图；

图2为本发明的网络模型示意图；

图3为本发明的全局上下文信息模块结构示意图；

图4为实施例中视觉对比示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明的基于协同生成对抗网络的可见光-热红外显著目标检测方法，包括以下步骤：

步骤(1)、给定一张可见光图像和一张该图像对应的红外图像，使用两个去除全连接层的VGG19网络作为编码器，两个VGG19网络都提取RGB模态和T模态的多层特征，将这些图像特征标记为f₁～f₅。

步骤(2)、将步骤(1)中得到的f₅经过GCIM得到f_global。f_global作为高层引导信息并与编码器得到的f₁～f₅特征通过解码器进行整合，之后，使用协同注意力模块CAM融合两个模态的特征。两个编码器都有各自的解码器和CAM。编码器、解码器和CAM组成了一个生成器，共有两个生成器分别完成降低错检率和漏检率的任务。

步骤(3)、两个生成器分别得到预测的显著图S₁和显著图S₂，最后整合两个生成器的输出特征并经过卷积得到最终显著图S_final。

步骤(5)、使用一个判别器，将S₁、S₂和真值GT分别送入到判别器内进行分类，辅助生成器生成更精细的显著图。

步骤(6)、通过标注的真值用二元交叉熵BCE损失函数和降低错检率和漏检率的损失函数以及条件生成对抗网络损失函数等监督训练网络模型。

本发明基于提升显著图的查全率和查准率两个不同的任务，基于条件生成对抗网络设计两个生成器网络，使这两个网络在相互竞争、相互辅助的过程中从各自的角度分割出更接近真值的显著图，从而在整合者两个生成器特征之后得到更精细化的最终显著图。此外，通过跨模态特征融合的协同注意力模块挖掘可见光模态与热红外模态的互补性，同时抑制不同模态特征噪声的影响，因此最终的显著图能够更精确、置信度更高。

如图2所示为，本实施例的网络模型包括两部分：生成器和判别器。与经典的条件生成对抗网络(cGAN)不同，本实施例使用两个生成器来完成不同的任务，并结合它们的结果来预测最终的显著性图。

每个生成器将成对的RGBT图像转换成一个二值显著分割图，分别以提高查全率和查准率为目标。形式上，这表示为G₁(I_rgb,t)-＞S₁和G₂(I_rgb,t)-＞S₂，其中S₁和S₂表示两个生成器预测的分割结果。G₁和G₂表示两个不同的生成器。

在孪生网络的生成器中，本实施例使用协同注意力模块来融合不同的模态特征，并对信道和空间中的冗余特征噪声进行约束；最后结合两个生成器的输出特征来预测最终的最终分割图。在cGAN的基础上，利用鉴别器对S₁、S₂和真值三种输入进行了分类。

如图3所示，本实施例的全局上下文信息模块具体如下：全局上下文模块输入的编码器提取的最高层特征f₅，首先，为降低计算量，利用1*1卷积降低输入特征通道数至256；其次，本实施例设计3个分支，每个分支使用串行的卷积操作和膨胀卷积操作，三个分支的卷积核(膨胀卷积核)分别是3、5、7，三个分支的输出特征通道数都是256；最后通过残差连接的方式，与原特征在通道维度上进行连接，通过此模块充分提取特征的全局上下文信息。

实施例：

本实施例使用公开的可见光-热红外显著目标检测数据集，VT821、VT1000、VT5000。

其中，VT821包含821对可见光和热红外图像对，VT1000包含1000对可见光和热红外图像对，VT5000分为训练集和测试集，分别包含2500对可见光和热红外图像对。

本实施采用VT5000训练集训练网络，本实施采用随机空间仿射变换来处理输入图像对，并使用随机水平翻转的数据增强方式获得多样性数据。本实施例的网络在一个TitanXp GPU上以批大小为4训练了100轮。采用随机梯度下降优化方法训练，生成器学习率为10^-4，判别器学习率为10^-5，输入图像尺寸为256×256。

为便于定量评估，本实施例采用了4种广泛使用的指标。

(1)、平均绝对误差(MAE)。MAE定义为：

其中T为总像素数量和S为预测显著图，Y是真值图。

(2)、F-measure(Fm)。它被定义为精确率和召回率的加权调和平均值。

F-measure公式为：

其中β²＝0.3，表示更关注精确率。

(3)、S-measure(S_m)。S_m计算预测图和真值标签之间的目标感知结构相似度(S₀)和区域感知结构相似度(S_r)。

S_m如下所示：

S_m＝α·S₀+(1-α)·S_r

其中α设置为0.5。

(4)、E-measure(Em)。该度量是一种增强的对齐度量，联合捕获图像级统计信息和像素级匹配信息。

实施例：

将本发明技术方案与其他现有技术比较。

本实施例将本发明技术方案的网络与其他11种方法进行比较。

比较方法包括4个现有的可见光-深度显著目标检测方法移植在可见光-热红外显著目标检测问题上：DMRA、S2MA、A2dele、BBSNet。此外，还包括8个现有的可见光-热红外显著目标检测方法：MTMR、M3S-NIR、SGDL、ADF、SiamDecoder、APNet、ECFFNet、CSRNet。

所有结果均由作者提供的代码生成。

定量比较：

本实施例的具体对比试验结果如表1所示，本实施例在三个数据集上使用Em、Sm、Fm、MAE和wFm来评估对应的显著图。在所有的评估指标中，本发明的方法达到了最优的性能。与次优的CSRNet方法进行比较，在三个数据集的Em、Fm、MAE和wFm指标上，分别平均有1.4％、2.3％、0.7％和1.6％的性能提升，在Sm指标上基本持平。

表1测指标对比示意图

定性评价：

如图4所示，本实施进行与其他技术方案最终显著图的比较。本实施选择了10对具有挑战性的样本，从图中可以发现，本发明的方法对显著区域的分割更加准确。本发明在可见光模态质量较差的情况下，可以更好地利用热红外模态的信息，获得的显著预测图质量更好(第4、7列)。在大目标的挑战中，大多数的方法会丢失掉物体的一部分，本发明则不会存在这种问题(第1、10列)。在场景杂乱的挑战中，大多数的方法更容易受到背景噪声的影响，从而将一部分背景区域分割到前景目标中，本发明技术方案能很好的避免这一类问题(第3、6、10列)。

通过上述实施例可以判断，通过本发明能够得到更精细化的显著预测结果；同时经过本发明的全局上下文信息模块整合后的特征包含更丰富的全局上下文信息；本发明的协同注意力模型融合可见光模态和热红外模态特征的同时，进一步突出前景目标区域，抑制冗余的背景噪声影响。

Claims

1.一种基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：包括以下步骤：

步骤S1、输入同一目标的可见光图像和对应热红外图像，使用两个生成器，每个生成器均含有编码器、解码器和协同注意力模块CAM；且每个生成器均采用共享参数的编码器解码器来处理可见光模态和热红外模态的特征，编码器编码获得输入图像两种模态的多级特征，并将这些特征标记为f₁～f₅；

步骤S3、两个生成器分别得到预测的显著图S₁和显著图S₂，最后整合两个生成器的输出特征并经过卷积得到最终显著图S_final；

步骤S5、通过标注的真值用二元交叉熵BCE损失函数、设计的降低错检率和漏检率的损失函数以及条件生成对抗网络损失函数监督训练网络模型。

2.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S1中各生成器的特征编码器均采用共享参数的VGG19网络，且VGG19网络去除最后的全连接层，这两个生成器的VGG19网络分别从可见光模态和热红外模态提取分层特征，各层特征表示为f₁～f₅，通道数分别是32、64、128、512和512。

3.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S2中全局上下文信息模块GCIM，为了更好地获得全局上下文信息，上述步骤S2中使用了GCIM模块整合最高层特征f₅，扩大感受野，表示如下：

f_global＝GCIM(f₅)；

全局上下文信息模块GCIM包括三个并行分支，每个分支m均包括串行的一层卷积层和一层膨胀卷积层，每个分支的输出通道数为256；然后，利用残差连接将原始特征f₅和三个分支的特征连接在一起，通过1*1卷积运算将通道数减少到256，进而得到全局特征f_global。

4.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S2解码器处理特征f₁～f₅和全局特征f_global的具体过程为：

如果i＝1，则F_output＝Conv(F_i+f_global)；

如果1<i≤4，则F_i＝Conv(F_i+1+f_global+f_i)；

如果i＝5，则F_i＝Conv(f_global)；

5.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S2中使用协同注意力模块CAM融合两个模态特征的过程中，使用通道注意力挖掘模态自身的特征，分别得到两个模态的通道注意力，具体为：

CA_k＝σ(M(F_k(p,q)))；

利用通道注意力融合两个模态特征：

SA_k＝σ(Conv(F_fuse(p,q)))

最后的输出特征表示为：

*表示3*3卷积操作，W是对应的卷积参数。

6.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S3中，两个生成器分别对其各自融合后的特征F_out使用卷积操作和sigmoid激活函数得到两个生成器的预测显著图S₁和显著图S₂；然后整合两个生成器的输出特征，经过一层卷积层和sigmoid激活函数激活得到最终的显著预测图S_final：

7.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S4中的判别器包含四层卷积、三层max-pooling层和三层全连接层，判别器的输入是三个具有原始输入的显著图，[S₁，input]，[S₂，input]和[S,input]，其中S₁和S₂是两个生成器的预测结果即显著图，S是真值图，input为原始可见光图像和热红外图像的平均值；

8.根据权利要求1所述的基于条件生成对抗网络的可见光-热红外显著目标检测方法，其特征在于：所述步骤S5中损失函数G^*为：