CN113298094A

CN113298094A - 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法

Info

Publication number: CN113298094A
Application number: CN202110645432.8A
Authority: CN
Inventors: 涂铮铮; 李准; 王沛洲; 臧兴华; 樊康; 潘正悦; 田英健; 李成龙; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-24
Anticipated expiration: 2041-06-10
Also published as: CN113298094B

Abstract

本发明公开一种基于模态关联与双感知解码器的RGB‑T的显著性目标检测方法，本发明通过模态对齐模块(MAM)来建模两种模态的强关联性，其空间仿射变换，特征仿射变换和一个动态卷积层来实现特征对齐和建立更灵活的模态关联性；本发明的双重解码器结合自底向上和自顶向下的方式，学习由精到粗和由粗到精的两种感知过程，从而获得更强大的信息选择与融合的能力；进一步通过将MAM中的前两个组件和全局上下文增强部分添加到ConvLSTM中，本发明的显著图比其他先进的方法具有更高的置信度。

Description

一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法

技术领域

本发明属于图像处理技术，具体涉及一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法。

背景技术

显著性目标检测旨在利用算法检测和分割出图像中的显著性目标区域。作为一些视觉任务预处理步骤，显著性目标检测在视觉跟踪、图像识别、图像压缩、图像融合等视觉任务中起着至关重要的作用。

现有的显著目标检测方法可以分为两大类：一类是基于传统的显著性目标检测方法，另一类是基于深度学习的显著性目标检测方法。基于传统的显著性目标检测算法通过手工提取的颜色、纹理、方向等特征完成显著性预测，过度依赖于人工选取的特征，对场景适应性不强，在复杂数据集上表现不佳。随着深度学习的广泛应用，基于深度学习的显著性目标检测研究取得了突破性进展，相较于传统的显著性算法，检测性能显著提高。

RGB-T显著物体检测专注于分割成对的可见图像和热红外图像的共同显著区域。它是对显著目标检测任务的一种新的扩展，已经进行了很多探索。得益于热传感器，互补的温度信息有助于对可见光图像的研究。与可见光SOD任务的主观性不同，RGB-T SOD更为客观，因为显著区域是由两种模态确定的。因此，在RGB-T SOD中，最主要的问题是探索两种模态的关联性。

现有的一些研究主要集中在信息互补和融合的方式上。在早期的工作中，使用传统的基于图的方法来推断显著性，通过添加先验约束和手工特征融合来融合两种模态。由于手工特征的局限性，后来又有研究提出通过协同图学习算法来集成多层深度特征，从而进一步提高RGB-T SOD的性能。然而，这些传统方法依赖于鲁棒的超像素分割结果，并且不能有效地体现模态的关联性。随着深度学习的发展，它卓越的特征表示能力和端到端网络可以避免对超像素的依赖。如今已经提出了几种不同的基于深度学习的方法来融合多尺度，多模态和多层次的特征。这些方法在RGB-T模态互补方面取得了很大的进步，从而带来了更好的性能。最近，有研究提出解决模态偏置问题的在RGB-T显著目标检测中的有效性，设计一个多交互的双重解码器，以通过真值监督来隐式约束偏置区域。

但是，所有上述方法都融合了用于信息补充的模态，并依赖于配准的RGB-T图像对，存在以下问题：

一方面，由于视角偏差，传感器总是捕获未对准的图像对，这些图像对存在透视偏差，手动标注是一项耗费劳力的工作，因此导致更高的研究成本；

另一方面，探索信息互补只是一个目标，使用两种模态的关键点是建立关联性，这不仅用于信息补充，而且还用于空间、特征、语义的对齐，一旦建立了良好的关联性，就可以解决非配准的图像对和模态偏置的问题。

发明内容

发明目的：本发明提供一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，本发明无需配准的RGB-T显著目标检测模型即可解决现有技术中处理非配准的图像和模态偏置的问题，获得更高精度和更高置信度的显著图像。

技术方案：本发明的一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，包括以下内容：

S1、使用一个特征编码器编码获得可见光图像和红外图像的多级特征，并将可见光特征标记为R₁～R₄，红外特征标记为T₁～T₄；

S2、将所得最深层特征R₄和T₄经过金字塔池化PPM处理得到具有全局感受野的两个模态的全局特征G_r和G_t；G_r和G_t包含各自模态中目标的位置信息，这两个特征作为信息来源在S3中计算两个模态空间对齐的信息互补的全局特征G；

S3、使用模态对齐模块MAM对G_r和G_t进行模态关联处理，进而得到实现空间对齐和信息互补的全局特征G；该模态对齐模块MAM包括空间仿射变换，特征仿射变换和一个动态卷积层；

S4、步骤S1中所得到的R₁～R₄与T₁～T₄和步骤S3所得全局特征G通过双重感知解码器处理得到四个预测显著图S₁～S₄；S₄为最终显著图；

S5、通过标注的真值用一个二元交叉熵BCE损失函数监督训练网络模型，由二元交叉熵损失函数计算梯度，通过梯度反向传播更新网络模型的参数。

进一步地，所述步骤S1中的特征编码器采用去除全连接层的共享参数的VGG16网络分别从可见光和红外模态提取各自的分层特征并去除最浅层(浅层的特征信息对特征图贡献很小，直接去除)，并且在VGG16的每个块中添加一个过渡层，以降低分辨率并统一通道数；该过渡层是一个3*3的卷积层，步长为2，填充为1，输出通道为128；

然后使用批归一化对特征进行归一化并使用Relu激活函数实现非线性激活；

最后将可见图像的多级特征标记为R₁～R₄，将红外图像的多级特征标记为T₁～T₄。

进一步地，所述步骤S2中金字塔池化PPM处理过程如下：

G_r＝PPM(R₄)；

G_t＝PPM(T₄)。

为能够解决空间偏差、模态偏差和信息互补的问题，步骤S3中空间仿射变换的具体方法为：采用空间转换网络STN接收两种模态的相应特征，标记为F_r和F_t，并预测空间仿射矩阵标，记为M_p；M_p是一个2×3矩阵，定义平移、旋转、错切和缩放操作；

M_p＝STN([F_r，F_t])；

然后，根据坐标映射计算F_t并获得空间变换热红外特征

其中，Φ(*,*)为Pytorch深度学习框架集成的函数；

最后，将F_r和

进行通道合并，并通过具有64个输出通道的卷积块将它们融合；最终输出是标记为F_s的空间相关特征；

其中，ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块；

最后空间仿射变换组件的操作流程记为：F_s＝STC(F_r,F_t)。

由于两个模态传感器的位置偏差，所捕获的图像对具有透视偏差，这不易通过空间仿射变换进行校正，而且没有有效的监督来限制STN的学习，这进一步增加了空间对齐的难度，因此，单一的空间仿射变换部分无法解决上述问题。

为解决上述问题，所述步骤S3执行特征仿射变换，生成动态调制参数建立两个模态特征之间的关联。该特征仿射变换即是指使用F_r来调制F_t，具体为方法，

在F_r上应用两个卷积块分别生成一个通道的调制参数α和β；

α＝ConvBlock(F_r)

β＝ConvBlock(F_r)

然后用α和β对F_t进行变换，得到特征仿变换的红外特征标记为

直接将F_r和

与另一个卷积块相加，以生成最终输出特征，标记为F_f，该特征表示各特征之间的相关性；

最后，特征仿射变换组件的操作流程记为：F_f＝FTC(F_r，F_t)。

经过空间仿射变换和特征仿射变换后的，高级语义特征的表示能力未得到全部体现，为解决该问题，本发明通过动态卷积层的组件，以建立两种模态之间的高级语义相关性。步骤S3中动态卷积层的具体操作为：

在F_r上应用卷积块以生成动态滤波器

C是特征F_t的通道数，k是生成的卷积核的长(宽)像素数，H是特征F_t的长的像素数，W是特征F_t的宽的像素数；

在每个像素位置，κ具有C*k²个通道，将其重组为R^C×k×k用作卷积核；对于红外特征F_t所有像素均具有自己的卷积核；然后将F_t与生成的卷积核进行卷积，进而建立通道关联性；

κ＝ConvBlock(F_r)

DynamicConv包含卷积核重组和通道分离卷积；

是输出特征；

最后，直接将

和

相加，使用一个卷积块(ConvBlock)来重组，以生成最终输出特征F_d，特征F_d表示高级的模态语义关联；

ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块；动态卷积组件的操作流程记为：F_d＝DCC(F_r,F_t)。

上述步骤S3模态对齐模块MAM的整体处理方法为：

MAM(F_r,F_t)＝ConvBlock([STC(F_r,F_t),FTC(F_r,F_t),DCC(F_r,F_t)])；

获得所述步骤S3中全局特征G的具体操作为：

G＝MAM(G_r,G_t)。这样能够更好地获得全局上下文信息。

为实现从粗到精和从精到粗的感知策略，该双重感知解码器有更多的潜力来学习选择和抑制目标任务的编码特征。所述步骤S4中使用双重感知解码器处理的具体方法为：使用两个共享MC-ConvLSTM分别以自顶向下和自底向上的方式进行解码；

其中BottomUp(*,*,*,*)和TopDown(*,*,*,*)分别代表两个MC-ConvLSTM；h_Bi和h_Ti是MC-ConvLSTM的隐藏状态，即为解码特征；

将所有初始隐藏状态和单元状态设置为零，然后使用普通的ConvLSTM接收两个MC-ConvLSTM的隐藏状态h_Bi和h_Ti，并优化如下：

h_i＝ConvLSTM(h_Bi,h_Ti)

然后得到四个解码特征为

在解码特征

上采用一个具有单输出通道的1*1卷积层作为得分层，再利用sigmoid函数将得分值约束到0～1，得到四个预测的显著图标，记为S1～S4，S4为最终显著图。

进一步地，所述步骤S5的详细内容为：

给定最终显著图S＝{S_i|i＝{1，...，T}和真实数据Y＝{Y_i|i＝{1，...，T}，其中T是总像素数；

二元交叉熵BCE损失函数为：

在训练过程中，仅使用BCE损失函数进行监督，将其应用于四个预测的显著图；

为获得更准确的全局信息，此处还添加了对全局上下文G的监督；使用得分层计算G，然后将其上采样到与Y相同的分辨率；这样就得到了一个粗显著图S_g；

L_g＝L(S_g,Y)

因此，最终的损失函数为：

L＝L_s+L_g。

有益效果：与本发明相比，现有技术具有以下优点：

(1)本发明基于模态相关的双重感知网络，解决了现有技术中有关非配准RGB-TSOD的问题。

(2)本发明的模态对齐模块MAM包括空间仿射变换，特征仿射变换和动态卷积运算，能够提供更强大的建立模态关联的能力。

(3)本发明优化解码器感知模式，能实现从粗到精和从精到粗的感知，且本发明的深度模型具有更强大的信息选择和抑制能力。

附图说明

图1为本发明的整体流程示意图；

图2为实施例的网络模型示意图；

图3为本发明的生成动态卷积核并执行动态卷积的过程示意图；

图4为本发明的双重感知解码器的处理流程示意图；

图5为本发明的与现有技术方案的显著图比较；

图6为本发明的在非配准案例上的特征可视化视图；

图7为本发明的两种感知模式解码器与本技术方案解码器的解码特征可视化示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本实施例的一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，具体步骤如下：

步骤(1)、给定一张可见光图像和一张该图像对应的红外图像，使用去除全连接层的VGG16网络，并分别从RGB和T模态提取各自的分层特征后去除最浅层，分别将可见图像特征标记为R₁～R₄,热红外图像的特征标记为T₁～T₄。

步骤(2)、将步骤(1)中得到的R₄和T₄经过金字塔池化得到G_r和G_t。

步骤(3)、将步骤(2)中的G_r和G_t使用特征对齐模块(MAM)进行处理得到G，其中MAM应用了空间仿射变换，特征仿射变换和一个动态卷积层来用于特征对齐和更灵活的模态关联。

成动态卷积核并执行动态卷积的过程如图3所示，在F_r上应用卷积块以生成动态滤波器

在每个像素位置，κ具有C*k²个通道，可以将其重组为R^C×k×k用作卷积核。因此，对于红外特征F_t，所有像素都有自己的卷积核。然后将F_t与生成的核进行卷积，从而可以建立通道关联性。

由于MAM模块的空间仿射变换组件、特征仿射变换组件也会用在C-ConvLSTM中，而MC-ConvLSTM接受其他层的编码特征，因此，此处使用F_r和F_t来表示输入的两个模态的特征。

κ＝ConvBlock(F_r)

DynamicConv包含卷积核重组操作和通道分离卷积操作。

是输出特征。最后，直接将

和

相加，使用另一个卷积块生成最终输出特征，标记为F_d，该特征表示模态高级语义关联性。

步骤(4)、将步骤(1)中所得到的R₁-R₄与T₁-T₄和步骤(3)中得到的G通过双重感知解码器处理得到S₁～S₄。S₄作为最终的显著图。本实施例中双重感知解码器的特征流如图4所示。

该实施例中的具体网络框架和流程如图1和图2所示，上述络模型中，MAM中的三个组件作为最核心的部分，为两个模态的特征建立了强关联性，从而网络能够以监督学习的方式学会去应对非配准图像对。此外，该网络模型中的双感知解码器利用了两种感知模式，最大程度的利用了编码特征的信息，具有强大的信息选择和抑制能力，因此最终的显著图能够更精确、置信度更高。

另外，由于ConvLSTM被广泛用于学习图像序列模式，因此通过在MAM中添加前两个组件和全局上下文增强部分来设计模态相关的ConvLSTM(MC-ConvLSTM)。本发明使用两个MC-ConvLSTM作为感知单元来学习两种感知模式，该模块如图2的左下角所示。

本发明的MC-ConvLSTM是对现有ConvLSTM的改进优化，其中结合了空间仿射变换组件和特征仿射变换组件，并且利用全特征G来增强解码过程中的位置信息。

实施例1：

步骤1、本实施例使用公开的RGBT SOD数据集，VT821、VT1000、VT5000。

其中，VT821包含821对可见光和热红外图像对，VT1000包含1000对可见光和热红外图像对，VT5000分为训练集和测试集，分别包含2500对可见光和热红外图像对。

步骤2、本实施采用VT5000训练集训练网络，由于目前的数据集都是已配准图像对，为了模拟非配准的实验环境，本实施采用随机空间仿射变换来处理输入图像对，并使用随机水平翻转的数据增强方式获得多样性数据。本实施例的网络在一个Titan Xp GPU上以批大小为4训练了100轮。采用随机梯度下降优化方法训练，学习率为10^-3，输入图像尺寸为352×352。

步骤3、为便于定量评估，本实施例采用了4种广泛使用的指标。

(1)、平均绝对误差(MAE)。MAE定义为：

其中T为总像素数量和S为预测显著图，Y是真值图。

(2)、F-measure(Fm)。它被定义为精确率和召回率的加权调和平均值。

F-measure公式为：

其中β²＝0.3，表示更关注精确率。

(3)、S-measure(S_m)。S_m计算预测图和真值标签之间的目标感知结构相似

度(S₀)和区域感知结构相似度(S_r)。S_m如下所示：

S_m＝α·S₀+(1-α)·S_r

其中α设置为0.5。

(4)、E-measure(Em)。该度量是一种增强的对齐度量，联合捕获图像级统计信息和像素级匹配信息。

步骤4、将本发明技术方案与其他现有技术比较。

本实施例将本发明技术方案的网络与其他11种方法进行比较。

比较方法包括6个基于可见光的SOD方法：PFA、R3Net、BASNet、PoolNet、CPD、EGNet。此外，还包括5个现有的RGBT SOD方法：MTMR、M3S-NIR、SGDL、ADF、SiamDecoder。

所有结果均由作者提供的代码生成。

定量比较：

本实施例的具体对比试验结果如表1所示，本实施例在三个数据集上使用Em、Sm、Fm、maxF和MAE来评估对应的显著图。在所有的评估指标中，本发明的方法得到了最高的分数。并与次优结果(SiamDecoder)进行比较，分别有平均2.1％、0.6％、4.4％、2.2％和6.5％的性能提升。

表1

表1最后一行。本实施例进一步测试的非对齐数据，虽然本发明的方法接收非配准的图像对，与在配准的数据上测试的对比方法相比较，仍然是最优的。

定性评价：

如图5所示，本实施进行与其他技术方案最终显著图的比较。本实施选择了10对具有挑战性的样本，从图中可以发现，本发明的方法对显著区域的分割更加准确。对比的技术方案在考虑模态融合时，可以在一定程度上应对模态质量差(第6，第7和第10行)的影响，但它们不能建立模式之间更强的相关性。因此，他们可能会在有模态偏置的样本上犯一些错误(第1～4行)。在这些具有挑战性的样本上，本发明的方法得益于MAM和双感知解码器，可以准确地聚焦于共同显著区域。

步骤5、评估发明技术方案对非配准图像的有效性以及双感知解码器的有效性。

如图6所示的两对非配准图像，第一行是采用空间转换组件的特征可视化结果，第二行是不采用空间转换组件的特征可视化结果。可以发现，使用空间转换组件获得的特征图质量更好，本发明技术方案对非配准图像也能很准确的检测出显著目标。

如图7所示，第一行是由精到粗的感知过程。可以看到，通过融合低分辨率的信息，主体区域逐渐被填充。但是由于原始的最精细的编码特征包含了太多的噪声细节，导致错误像素难以被修正，从而导致预测一些错误区域。第二行是粗到精的感知过程，可以发现主体区域周围的细节区域是逐渐细化的，但也存在一个严重的问题，即如果原始粗糙，显着区域的缺失部分很难被预测到。本技术方案结合两种感知模式，结果显示出更少的噪声区域和缺失部分。这些现象证明了本技术方案的观点，即粗到精的感知是在一般主体区域的基础上推断细节的过程，而精到粗的感知是根据现有的细节填充主体区域的过程。将这两种感知模式结合起来，解码器在选择信息和抑制噪声方面具有更大的潜力。

Claims

1.一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，其特征在于：包括以下内容：

S2、将所得最深层特征R₄和T₄经过金字塔池化PPM处理得到具有全局感受野的两个模态的全局特征G_r和G_t；

S5、通过二元交叉熵BCE损失函数监督训练网络模型。

2.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，其特征在于：所述步骤S1中的特征编码器采用去除全连接层的共享参数的VGG16网络分别从可见光和红外模态提取各自的分层特征并去除最浅层，并且在VGG16的每个块中添加一个过渡层；该过渡层是一个3*3的卷积层，步长为2，填充为1，输出通道为128；

3.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，其特征在于：所述步骤S2中金字塔池化PPM处理过程如下：

G_r＝PPM(R₄)；

G_t＝PPM(T₄)。

4.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法，其特征在于：所述步骤S3中空间仿射变换的具体方法为：采用空间转换网络STN接收两种模态的相应特征，标记为F_r和F_t，并预测空间仿射矩阵标，记为M_p；M_p是一个2×3矩阵；

M_p＝STN([F_r，F_t])；

然后，根据坐标映射计算F_t并获得空间变换热红外特征