CN114898106A

CN114898106A - 基于rgb-t多源图像数据的显著性目标检测方法

Info

Publication number: CN114898106A
Application number: CN202210581903.8A
Authority: CN
Inventors: 吴慧欣; 安丽鑫; 姜维; 王喆; 陈继坤; 刘孟轩; 李琳; 张慢丽; 李文静
Original assignee: North China University of Water Resources and Electric Power
Current assignee: North China University of Water Resources and Electric Power
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-12

Abstract

本发明公开一种基于RGB‑T多源图像数据的显著性目标检测方法，采取基于注意力信息的特征融合，将VGG‑DCNet提取到的初级特征用注意力机制进行重要特征的加权，得到可见光图像和红外图像的注意力特征图，进而将各阶段的多层特征进行结合，并向后传递，采用多尺度池化的方法获取全局先验信息，并用于上采样过程，前向传递过程中，为了提取局部特征，将各阶段不同尺度空间的信息进行不同采样率的池化操作，得到丰富的局部信息，在全局先验信息的指导下，向前传递，得到最终的显著性预测图。本发明具有良好的显著性目标检测能力，特别是在光照不足、交叉图像边界、中心偏移等复杂场景下检测效果优势明显。

Description

基于RGB-T多源图像数据的显著性目标检测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于RGB-T多源图像数据的显著性目标检测方法。

背景技术

显著性目标检测旨在找出图像中最让人感兴趣的区域，要求能够准确给出物体位置并能与背景分割开来，包含物体定位和物体分割的任务，两个任务融合在一个过程中进行端到端检测。早期的显著性目标检测基于启发式的局部或者全局线索检测显著对象，手工特征限制了各种方法在复杂场景中的检测能力；随着深度学习的发展，基于卷积神经网络的模型能够快速高效地获得局部全局信息，逐步细化特征，从而增加显著目标检测的精度。

现实情况中，由于物体具有类内差异大、类间差异小的特点，一种物体在不同的情境下可能产生不同的语义，导致可见光图像和红外图像无法单独准确辨认物体。一般的可见光图像可以保存图像丰富的细节和纹理信息，但常常由于光线、伪装与烟雾等原因导致无法有效的区分目标和背景，而红外图像因其特殊的成像机制可以免受这些因素的影响，只要目标与周围环境存在温差，目标就能够显现出来。目前基于RGB-T多源图像的显著性目标检测的模型被陆续提出，如Li等人提出的ADFNet[Tu Z,Ma Y,Li Z,et al.RGBT salientobject detection:Alarge-scale dataset and benchmark[J].arXiv preprint arXiv:2007.03262,2020.]网络，Wang等人提出的基于多任务流行排序算法[Wang G,Li C,Ma Y,et al.RGB-Tsaliency detection benchmark:Dataset,baselines,analysis and anovel approach[C]//Chinese Conference on Image and GraphicsTechnologies.Springer,Singapore,2018:359-369.]的RGB-T显著性检测模型，Tu等人利用超像素的RGB-T显著性检测方法[Tu Z,Xia T,Li C,et al.RGB-T image saliencydetection via collaborative graph learning[J].IEEE Transactions onMultimedia,2019,22(1):160-173.]，Tang等人提出的基于合作排序算法[Tang J,Fan D,Wang X,et al.RGBT salient object detection:Benchmark and a novel cooperativeranking approach[J].IEEE Transactions on Circuits and Systems for VideoTechnology,2019,30(12):4421-4433.]的显著性目标检测算法，Zhang等人提出的多层次多分支组的融合模型[Zhang Q,Huang N,Yao L,et al.RGB-T salient object detectionvia fusing multi-level CNN features[J].IEEE Transactions on Image Processing,2019,29:3321-3335.]进行显著性目标检测。

上述方法取得了较好的效果，但是在提取特征时往往都是利用传统卷积固定的核大小提取特征，而实际物体是有变化曲线的，并不都是固定的矩形，且存在网络中深层实际感受野小造成的部分全局信息丢失，以及局部信息随着网络的加深而被忽略的问题。

发明内容

本发明针对现有显著性目标检测方法存在的在提取特征时往往都是利用传统卷积固定的核大小提取特征，而实际物体是有变化曲线的，并不都是固定的矩形，且存在网络中深层实际感受野小造成的部分全局信息丢失，以及局部信息随着网络的加深而被忽略的问题，提出一种基于RGB-T多源图像数据的显著性目标检测方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于RGB-T多源图像数据的显著性目标检测方法，包括：

步骤1：在传统的双通道VGG-16网络架构的基础上，采用可变形卷积替换VGG-16中部分卷积层，并去掉最后的全连接层，构成基于可变形卷积的VGG-DCNet网络，将可见光图像和热红外图像作为VGG-DCNet网络双通道的输入，利用VGG-DCNet网络提取可见光图像和热红外图像的初级特征；

步骤2：将提取的可见光图像和热红外图像的初级特征输入注意力特征融合模块，经过标准化注意力机制后分别得到可见光图像和热红外图像对应的注意力特征图，再将可见光图像和红外图像每层的注意力特征图进行两两融合，得到融合后的注意力特征图；

步骤3：将最深层注意力特征经过多层金字塔池化操作后获取的全局语义信息融入到可见光图像和红外图像局部特征提取的过程中，从而在融合全局-局部特征模块中将可见光图像和红外图像的全局多尺度的特征和局部多层次的特征进行融合，并输出最终的显著性预测图。

进一步地，所述步骤1包括：

采用可变形卷积替换VGG-16中最后一个阶段的三层卷积。

进一步地，所述注意力特征融合模块用于在标准化注意力机制NAM的作用下，得到经过加强的有益特征而抑制无关特征，获取注意力特征图，并将网络中间级获取的包含注意力信息的特征图进行特征级融合。

进一步地，所述注意力特征融合模块中，按照如下方式进行可见光图像和红外图像每层的注意力特征图的融合：

其中N^R _i表示第i阶段可见光图像的注意力特征，N^T _i表示第i阶段红外图像的注意力特征，A_i表示第i阶段融合后的注意力特征。

进一步地，按照如下方式获取全局语义信息：

利用金字塔池化的方法，采用四个子分支的池化操作得到不同尺度的特征图，包括：

1)将输入特征图在四个尺度下进行池化，得到四个尺度的输出P_i，i＝1,2,3,4，其中第一层为全局平均池化，其他三层均为平均池化操作，每个输出的尺寸不同，但通道维度相同；

2)对池化后的特征进行通道维度的缩减，利用1*1的卷积操作，将通道数减少为原始特征的1/N，其中N为池化操作的层数；

3)应用双线性插值的方法进行上采样，使四层特征的大小变换为与原始特征图大小一致，最后将四层特征图在通道维度进行拼接。

进一步地，按照如下方式提取可见光图像和红外图像局部特征：

VGG-DCNet网络自顶向下每个阶段融合后的注意力特征先以不同的下采样率进行平均池化得到不同尺度空间的特征，经卷积操作后再上采样恢复至原来的尺度并进行融合，最后经过一个3*3的卷积得到包含不同尺度信息的局部特征图。

与现有技术相比，本发明具有的有益效果：

(1)为了达到自适应提取不规则目标特征的效果，本发明以VGG-16为基础，引入可变形卷积调整网络结构，替换网络中的部分卷积层，得到增加了可变形卷积的VGG-16网络、即VGG-DCNet，通过给传统卷积增加偏移量得到不规则的卷积操作，获取完整的目标特征。

(2)为了充分发挥多源图像特征的互补作用，本发明构建了注意力模块，分析并应用标准化注意力机制提取两模态特征，并将注意力特征进行特征级融合。

(3)为了充分利用全局语义信息，本发明构建了融合全局-局部特征模块，不仅将纹理、结构等全局特征和特征间相关度小的局部特征进行融合，还充分利用浅层位置信息和高层语义信息，从而抑制冗余信息而获取有益特征。

(4)实验结果表明本发明具有良好的显著性目标检测能力，特别是在光照不足、交叉图像边界、中心偏移等复杂场景下检测效果优势明显。

附图说明

图1为本发明实施例一种基于RGB-T多源图像数据的显著性目标检测方法的基本流程图；

图2为本发明实施例中构建的网络架构示意图；

图3为本发明实施例基于标准化注意力机制的特征级融合示意图；

图4为本发明实施例注意力特征融合模块架构示意图；

图5为本发明实施例金字塔池化获取全局信息示意图；

图6为本发明实施例多尺度特征聚合模块获得局部特征示意图；

图7为本发明实施例全局-局部信息流动方向；

图8为本发明实施例各类算法在VT821、VT1000、VT5000数据集上的表现；

图9为本发明实施例消融实验定性分析。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

为了克服光照、天气等环境因素对单一可见光图像的限制，加强显著性目标检测的效果，本发明引入热红外图像作为辅助，利用热红外图像全天候成像，不易受环境影响，根据物体自身热辐射成像的特点，提取可见光图像无法获取的特征。本实施例在传统的双通道网络架构的基础上，引入可变形卷积(Deformable Conv)适量替代传统卷积层优化骨干网络，利用偏移量自适应提取形变物体的特征。为了更进一步提升检测性能，本实施例利用注意力机制，获取不同模态的注意力特征，并对注意力特征进行特征级融合。感受野越大则更能抽象出高层次的全局特征，随着网络的加深，实际感受野小于理论感受野，为了得到更全面的特征，本发明利用全局语义信息，指导提取并融合全局和局部的多尺度特征。最后在公开数据集上进行对比试验验证所提算法的有效性。如图1所示，一种基于RGB-T多源图像数据的显著性目标检测方法(简称为DAGLNet)，包括：

步骤1：在传统的双通道VGG-16网络架构的基础上，采用可变形卷积替换VGG-16中部分卷积层，并去掉最后的全连接层，构成基于可变形卷积的VGG-DCNet(VGG-16+Deformable Conv)网络，将可见光图像和热红外图像作为VGG-DCNet网络双通道的输入，利用VGG-DCNet网络提取可见光图像和热红外图像的初级特征；

步骤2：将提取的可见光图像和热红外图像的初级特征输入注意力特征融合模块(Attention Block，AB)，经过标准化注意力机制(Normalization-based AttentionMechanism，NAM)后分别得到可见光图像和热红外图像对应的注意力特征图，再将可见光图像和红外图像每层的注意力特征图进行两两融合，得到融合后的注意力特征图；

步骤3：将最深层注意力特征经过多层金字塔池化操作后获取的全局语义信息融入到可见光图像和红外图像局部特征提取的过程中，从而在融合全局-局部特征模块(Fusion Global-Local Block，FGLB)中将可见光图像和红外图像的全局多尺度的特征和局部多层次的特征进行融合，并输出最终的显著性预测图。

进一步地，所述步骤1包括：

采用可变形卷积替换VGG-16中最后一个阶段的三层卷积。

进一步地，按照如下方式获取全局语义信息：

在上述实施例的基础上，本发明还公开另一种基于RGB-T多源图像数据的显著性目标检测方法，具体包括：

引用可变形卷积来应对形变物体特征的提取，在骨干网络VGG-16的基础上替换部分卷积层，得到VGG-DCNet。为了将两个模态的特征有效的融合，本发明构建基于多源图像的注意力特征融合模块(AB)，基于注意力机制提取注意力特征图，再将注意力特征图进行特征级的融合。为了克服网络中深层实际感受野小造成的部分全局信息丢失，以及局部信息随着网络的加深而被忽略的问题，本发明构建融合全局-局部特征模块(FGLB)，从全局考虑利用全局引导信息，从局部考虑利用局部特征，将RGB-T多源图像的多层次多尺度的特征进行融合。通过本发明方法最终构建的网络模型，可以端到端地输出显著性目标检测效果图。本发明采用的网络架构如图2所示。

具体工作流程为：

(1)可见光和热红外图像分别作为双通道的输入，在增加了可变形卷积的VGG-DCNet网络中提取初级特征，VGG-DCNet网络的五个阶段分别得到五个特征可见光源F^R{1,2,3,4,5}和红外光源F^T{1,2,3,4,5}。

(2)可见光和红外图像的初级特征的相关信息流入注意力特征融合模块(AB)，经过注意力机制后分别得到注意力特征图N^R{1,2,3,4,5}和N^T{1,2,3,4,5}，再将可见光和红外图像每层的注意力图进行两两融合，得到融合后的注意力特征图A{1,2,3,4,5}。

(3)随着网络的加深，高层携带的语义信息概括全局，因此最深层次的特征携带全局语义指导信息。将深层特征A5经过多层池化操作后获取的语义信息融入到局部特征提取的过程中，从而在融合全局-局部特征模块(FGLB)中将全局多尺度的特征和局部多层次的特征进行融合，并输出最终的特征图Feature。

1、基于可变形卷积的VGG-DCNet

本小节将介绍基于可变形卷积VGG-DCNet的具体实现，基于可变形卷积在处理未知几何形变图像上的优越性，本发明在骨干网络VGG-16中引入可变形卷积(DeformableConv，DConv)，构成基于可变形卷积的VGG-DCNet网络，利用该网络提取两模态的初级特征。可变形卷积层和可变形感兴趣区域池化在骨干网络中应用的位置越深越多时效果越好，但与之相随的是产生更多的参数，模型占存越大。

本发明选择将最后三个卷积层替换为可变形卷积，为了验证此项替换的合理性，进行了实验进行证明，如表1所示为修改后的骨干网络的性能对比。在VGG骨干网上加入可变形卷积会增加大量的网络参数，对机器的要求更高，6层DConv占用显存大于11GB，最高精度为0.770，而3层DConv既可达到0.770的精度，占存又小于11GB，因此最终选择替换最后3层卷积。

表1可变形卷积层数效果对比

增加了可变形卷积后的VGG-DCNet网络将原始VGG-16网络最后一个阶段的三层卷积均替换为可变形卷积，并去掉最后的全连接层，得到可以端到端输出的全卷积网络，表2为VGG-DCNet网络结构参数表。

将输入大小为480*640的图像输入到VGG-DCNet网络中，经过每一个阶段，上一阶段输出的特征图是下一阶段的输入，在可变形卷积学习的偏移量的帮助下，可变形卷积核可以学习到下一位置的偏移量，从而对未知形变的图像有更为精准的预测。可变形卷积中的p_conv表示用于计算偏移量Δp的卷积过程，m_conv表示计算权重Δm的卷积过程。

表2VGG-DCNet网络结构参数表

2、基于多源图像的注意力特征融合模块(AB)

本小节将具体介绍注意力特征融合模块(AB)，在本模块中，从VGG-DCNet中提取到的各阶段的初级特征，将在标准化注意力机制(NAM)的作用下，得到经过加强的有益特征而抑制无关特征，获取注意力特征图，并将网络中间级获取的包含注意力信息的特征图进行特征级融合。

多源图像的融合可以通过简单的像素相加得到，然而简单的相加容易引入过多的噪声，而严重影响重要特征的表达。如同一弱光照场景下的可见光和红外图像，可见光图像可能无法区分目标与背景，这无疑对显著性目标检测有影响，而红外图像能清晰分离目标与背景，若此时将两图像简单进行像素级相加，会将可见光图像中的噪声信息全盘引入，抑制目标的检测。通过卷积神经网络提取不同模态的特征，再将特征进行融合，能够利用卷积神经网络提取的特征突出重点区域，有效分离目标与背景。注意力机制能够将重要区域赋予更大的权重，从而辅助网络在传播过程中注意重要特征的表达，经过注意力机制提取到的注意力特征图，将保留更多的目标信息。

将可见光图像和红外图像在骨干网络VGG-16中每个阶段提取到的特征进行融合并向后传递，得到逐步细化的融合特征，如图3所示为使用了NAM注意力机制的特征级融合过程。

基于标准化的注意力机制(Normalization-based Attention Module，NAM)利用权重的贡献因子来改善注意力机制，抑制了较小显著性的权值。NAM使用批量归一化的比例因子来表示通道和空间的变化强度，使用标准差表示权重的重要性，突出显著特征，抑制不显著的通道或者像素。NAM包含通道注意和空间注意两个模块，通道注意将空间方向压缩为1*1的单个像素，把注意力放在通道上，关注占比较重的通道。而空间注意将通道压缩为一维，将重点放在突出像素上，关注占比较重的空间像素。两者结合将全面关注通道和空间信息，捕捉纹理、颜色等结构信息和通道的抽象信息。如图4所示为基于多源图像的注意力特征融合模块(AB)具体示意图，AB模块将两个模态的注意力图和上一层的模态注意力融合图作为输入，对应生成一个基于多源图像注意力特征的融合特征图。由于各通道和空间的权重是在注意力机制中衡量过的，因此添加了注意力信息的特征图能够自适应地进行融合并得到两模态各自有益的特征。

当融合第i个阶段的两模态的注意力特征时，第i阶段的卷积和池化操作分别得到可见光图像第i个输出F^R _i(第i阶段可见光图像的卷积特征)和红外图像第i个输出F^T _i(第i阶段热红外图像的卷积特征)，作为注意力机制NAM的输入，分别得到融合了注意力信息的特征图N^R _i(第i阶段可见光图像的注意力特征)和N^T _i(第i阶段热红外图像的注意力特征)，第一阶段的融合注意力特征图为两模态相加，后面四个阶段的融合注意力特征图都融合了前面一个阶段的融合注意力特征，具体实现过程如公式(1)所示。

其中，

表示元素级相加。

3、融合全局-局部特征模块(FGLB)

为了充分利用图像中全部的上下文信息，在本小节中使用全局语义指导信息和局部特征信息，将全局和局部的特征进行融合，使局部特征在全局特征的辅助下更正确的提取，从而辅助得到更精确的显著图。

多任务训练框架通过利用局部和全局语义信息来实现对特征的全面提取，网络浅层对应的感受野比较小，物体的几何信息相对丰富，可以提取更多局部特征，有助于分割比较小的目标，细化并提高分割的精度。网络深层对应感受野比较大，物体的空间信息比较丰富，在网络深层能够提取到更为丰富的语义信息和更全面的全局特征，有助于分割比较大的目标。因此将网络深层的特征经过多尺度池化操作，获得全局特征，而在网络反向传播的过程中将浅层特征融入进来进行局部特征的提取。

3.1全局特征的提取

全局特征是指图像的整体属性，具有良好的不变性、计算简单、表示直观等特点，能够反映图像包含的内容，目标可准确定位，但包含的语义信息较少，这些视觉特征无法反映图像表达的语义信息。比如给出一张人脸图像，根据轮廓、形状等外观信息，可以分辨出鼻子、眼睛等部位，但无法理解为一张人脸，而高层语义特征表达丰富的语义信息，可以将图像理解为人脸。越深层的特征包含的高层语义信息越丰富，对图像的理解力和分辨力更强，称为语义空间。

为了获取多尺度的全局信息，本发明利用金字塔池化的方法，采用四个子分支的池化操作得到不同尺度的特征图。本发明中金字塔池化操作采用不同尺寸的池化核对输入特征进行池化，尺寸的大小具有间隔递增的关系。其中池化核尺寸以及层数是可以根据实际场景调整的。

本发明网络架构中获取全局信息的G模块通过金字塔池化的方法构建，如图5所示，通过金字塔池化获取到的全局场景先验信息可用于指导局部特征的提取。基于多源图像的最深层的融合注意力特征A₅作为网络前向传播提取的最终特征图，其携带更多的高层语义信息，对其进行不同尺度的池化操作，如图5所示。池化操作共有四层，第一层采用全局平均池化GAP得到单个像素的输出，第二层和第三层池化后大小分别为2*2和6*6，最后一层为原始输入的恒等映射。

多尺度池化操作获取全局信息的具体步骤为：

(1)将输入特征图在四个尺度下进行池化，得到四个尺度的输出P_i，i＝1,2,3,4，其中第一层为全局平均池化，其他三层均为平均池化操作，每个输出的尺寸不同，但通道维度相同，如公式(2)所示。

(2)这四个尺度的特征图需要经过级联从而保证每个尺度全局特征的权重，所以，需要对池化后的特征进行通道维度的缩减，利用1*1的卷积操作，将通道Channel减少为原始特征的1/N，如公式(3)所示，其中N为池化操作的层数，本发明中N为4。

P_i＝conv(P_i) (3)

其中，conv()表示卷积操作。

(3)此时四层输出的尺寸不相同，所以应用双线性插值的方法进行上采样，使四层特征的大小变换为与原始特征图大小一致，最后将四层特征图在通道维度进行拼接，如公式(4)所示，由于第四层就是原特征的恒等映射，所以无需再经过残差连接与原始特征图结合。

P_i＝contact(P₁，P₂，P₃，P₄) (4)

其中，contact(,)表示通道数相加。

从不同子区域的上下文信息融合得到全局上下文先验可以很好地帮助网络进行检测。通过四层不同尺度的池化操作产生的特征图携带不同尺度的全局信息，融合后得到的全局先验信息在初始显著特征图上采样至原图像分辨率大小的过程中，用于指导局部特征提取。

3.2局部特征的提取

全局特征具有良好的不变性和直观性，全局先验信息能够有效帮助网络进行检测，但全局特征描述不适用于图像混叠和有遮挡的情况，因此只获取全局特征的信息不足以保证特征提取的全面和有效。为了解决此问题，本小节在上采样过程中引入特征聚合模块L，首先将融合的特征图转换为多个尺度的特征空间，以捕获不同尺度的局部上下文信息，然后组合信息以更好地权衡融合后的输入特征图的组成。

本发明网络在自顶向下的输出中以全局特征为指导，提取局部特征，并依次以2倍的上采样率逐步与上一阶段进行融合。网络模型中的L模块提取局部特征，如图6所示，自顶向下每个阶段的特征先以不同的下采样率进行平均池化得到不同尺度空间的特征，经卷积操作后再上采样恢复至原来的尺度并进行融合，最后经过一个3*3的卷积得到包含不同尺度信息的局部特征图，与全局特征进行元素级融合，并向前传递。

提取局部特征的具体的步骤为：

(1)注意力融合特征A{1,2,3,4,5}对应VGG-DCNet的五个阶段，具有不同的尺度空间，其中A1＝480×640×64，A2＝240×320×128，A3＝120×160×256，A4＝60×80×512，A5＝30×40×512，不同的尺度空间包含不同的局部特征，这五个尺度空间的特征分别作为输入，提取各阶段包含丰富的局部信息的特征。前向传递过程中，每个尺度空间的特征在3个不同的采样率下做平均池化，如公式(5)所示：

Scale_k＝up(conv(down(A_i))) (5)

其中k为{2，4，8}三个采样率，up()表示上采样，down()表示下采样，conv()表示卷积操作。

(2)三个支路不同尺度的特征上采样至原来的尺度大小之后，与原始输入特征进行融合，通过这一过程聚合多尺度的局部特征，允许每个空间位置在不同的尺度空间上查看局部上下文，从而进一步扩大网络的感受野，具体过程如公式(6)所示，

Local_i＝conv(sum(Scale_k,A_i))，k＝{2,4,8},i＝{1,2,3,4,5} (6)

特征聚合的次数越多，特征提取的越好，因此在前向传递过程中，以逐步上采样代替一步上采样，并在每个阶段，都进行特征聚合的操作获取局部上下文信息，得到丰富的局部特征。

图7所示为全局信息在局部特征的提取过程中的信息流动，由于全局信息中的图像尺寸为30×40，因此，需要以不同的上采样率变换尺寸，才能与局部特征融合。

3.3多源图像多层多尺度特征的融合

本发明特征的融合是基于多源图像多层次多尺度的融合，首先多源图像融合指的是将来自可见光图像的特征和热红外图像的特征进行融合，其次多层次的融合指的是将来自两个模态的特征在VGG-DCNet的各阶段进行融合，并向后传递。具体来说是将F^R和F^T进行融合，Fusion_i＝F_i ^R+F_i ^T，i＝1,2,3,4,5。需要注意的是，本发明中多层次的特征融合，先经过注意力机制，获取通道和空间维度都相对重要的注意力信息，再将两模态各阶段的注意力特征进行融合。最后为了得到丰富的全局和局部特征，本发明采用多尺度特征融合的方法提取全局和局部特征，经过多次的尺度变换，将不同尺度的特征进行融合，达到从多尺度空间获取全局信息和局部上下文信息的效果。

综上，本发明方法的输入为可见光图像和热红外图像，提取多源图像特征。采用网络的主体框架为改进的VGG-DCNet，该网络将VGG-16的最后一个阶段的三层传统标准卷积替换为能够自适应物体目标形变的可变形卷积。从骨干网络中提取到的特征是粗略的初级特征，得到多层特征。为了进行有效的特征融合，本发明采取基于注意力信息的特征融合，将VGG-DCNet提取到的初级特征用注意力机制进行重要特征的加权，得到可见光图像和红外图像的注意力特征图，进而将各阶段的多层特征进行结合，并向后传递。由于深层特征携带丰富的语义信息，所以采用多尺度池化的方法获取全局先验信息，并用于上采样过程，前向传递过程中，为了提取局部特征，将各阶段不同尺度空间的信息进行不同采样率的池化操作，得到丰富的局部信息，在全局先验信息的指导下，向前传递，得到最终的显著性预测图。

为验证本发明效果，进行如下实验设置：

本部分就方法具体实施细节、方法对比、方法各模块性能分析进行论述。首先介绍了本发明使用的数据集、评价标准。然后将本发明方法与同类模型进行对比，并做了定性和定量分析，证明本发明模型的可行性和优越性。最后进行消融实验，对每个模块的必要性和有效性进行实验验证。

本发明使用深度学习框架Pytorch和编程语言Python搭建，模型的训练和测试基于Ubuntu 18.04.6操作系统，内存为128G，使用一块高性能显卡NVIDIA RTX A6000 GPU(48G)，硬盘存储容量为4.4TB。在实验过程中，训练和测试的输入图像大小均为480×640，初始学习率为le-4，batch_size设置为1。整个网络每训练一个迭代(epoch)大约需要15分钟，每迭代一次，保存为一个模型，在第25个epoch时性能达到最优。网络的测试过程(2500张图片)大约需要6分钟，每张图片输出显著预测图需0.14秒。

(a)数据集

本发明在VT5000数据集上进行实验训练，该数据集规模大、更全面，包含5000对图像用于进行实验，其中2500对为训练集，另外2500对为测试集，每对可见光图像和热红外图像自动对齐，无需在实验中进行图像的预处理步骤。为了验证本发明所提DAGLNet的有效性，在VT821、VT1000和VT5000(test)三个数据集上进行测试，这三个数据集都具有成对的可见光图像和热红外图像，能够作为双通道网络两个分支的输入。

(b)算法评价指标

本实验的评估标准精度F_β和平均绝对误差MAE。通过准确率precision和召回率recall计算F_β，如公式(7)所示，

其中，本发明将平衡参数β²的值设为0.3，F_β的值越大越好。

平均绝对误差MAE用来测量预测值Y与真值G之间的平均差，W和H分别代表输入图像的宽和高，MAE的值越小则算法的性能越好，MAE的计算方法如公式(8)所示，

(c)模型训练过程

本发明算法在VGG-16网络的基础上做改进，将最后一个阶段的传统标准卷积替换为可变形卷积得到VGG-DCNet，将更改后的网络作为模型的骨干网络，初始化参数是从ImageNet数据集上训练得到的。完整的网络包括两个阶段，首先由骨干网络中自下而上的卷积操作到模型各阶段的初级特征，再经过反向传播自上而下经过逐步上采样得到最终的显著性预测输出图。

模型两通道的输入均为480×640，在骨干网中，前四个阶段的传统卷积得到的初级特征自下而上传递，第四阶段的输出作为第五个阶段的输入，在可变形卷积的指导下获取能够自适应特征形变的特征图。

初级特征获取之后，每个阶段都进行注意力的指导，各阶段特征图输入到注意力机制模块中，得到注意力特征图。为了将两模态的特征有效的融合，本发明算法将两模态各阶段的注意力特征图进行元素级相加，达到两模态图像的特征级融合，融合特征同样自下而上向后传递。

网络深层得到下采样率为16的特征图，图像大小为30×40，在逐步上采样至原图像大小过程中，将网络深层获取的全局先验信息作为全局指导信息进行网络的反向传播。获取全局特征和局部特征的过程中采用多尺度特征融合的方式，全局特征是将深层注意力融合特征图A₅池化至1×1，2×2，6×6三个尺度空间，最后与A₅进行连接(cat)。局部特征的获取是将各阶段的注意力特征图以不同的采样率{2，4，8}先下采样再上采样至原来的尺度，最后各层特征进行融合。

整个训练过程中，随着迭代次数的增加，训练精度逐渐趋于平缓，DAGLNet完成数据集的训练过程后保存最优模型供后续测试使用。在网络中端到端输出预测显著图，在评价标准下与真值图进行定性分析和定量比较，计算精度。

(d)算法对比

为验证本发明所提DAGLNet的有效性，将本发明方法与其他九种主流的显著性目标检测算法进行比较，九种算法均基于深度学习，包括：PoolNet、R3Net、BASNet、EGNet、S2MANet、BBSNet、PGARNet、MIED、ADFNet。其中PoolNet、R3Net、BASNet、EGNet是基于单模态的显著性目标检测算法，S2MANet、BBSNet、PGARNet是基于RGB-D的显著性目标检测算法，MIED、ADFNet是基于RGB-T的显著性目标检测算法。

由于目前存在的基于RGB-T显著性目标检测方法较少，因此本发明的对比实验中引入了几种RGB显著性目标检测方法和几种基于RGB-D的显著性目标检测方法，为了体现对比实验的公平性，对比试验中应用原论文提供的最优模型进行测试。对于单模态的显著性目标检测方法，本发明保留原始模型，输入仍保留为单模态RGB图像的输入，与其他多模态模型的RGB输入保持一致。对于基于RGB-D的显著性目标检测算法，不改变原算法的网络框架，仅将深度图像替换为热红外图像来进行对比实验。特别的是对于基于RGB-T的显著性目标检测方法ADFNet，由于与本发明使用的是相同的训练集，因此不改变其任何参数和网络结构，在本发明实验环境中，以VT5000中的训练集进行模型的重新训练，保留最优模型用于进行后续的测试。

为保证对比试验的完整性，三种类型的对比实验基于VT821、VT1000、VT5000(test)三个数据集，各种模型的对比实验基于相同实验环境，从而保证对比实验的公平性。

(1)算法定量比较与分析

表3展示本实验模型与其他九个显著性目标检测模型在三个RGB-T数据集上的对比结果。由于MIED算法在训练过程中采用的是VT1000数据集，因此本发明在对比实验中，不将MIED算法在VT1000数据集上的训练结果作为参考。各种算法在不同数据集中的表现如表3定量结果所示。

表3基于不同数据集各算法的显著性检测的定量结果

从表3可知，相比于九种经典显著性目标检测网络，本发明DAGLNet在VT1000数据集中检测效果较好，与ADFNet并列第一，但是DAGLNet的平均绝对误差MAE值低于ADFNet。在VT5000(test)数据集上，DAGLNet表现最好，与当前优秀的基于RGB-T的ADFNet模型相比，提升了0.5个百分点；与基于编码-解码网络的RGB-T显著性目标检测模型MIED相比，检测效率提升了5.4个百分点，说明本发明算法提出应用的各模块具有实际意义和可行性。在VT5000(test)中与检测效率排名第三的单模态算法BASNet相比，效率提升了2.0个百分点，这说明本发明算法基于RGB-T多源图像，具有实际研究价值，热红外模态的图像对基于可见光的图像具有良好的互补作用。与基于多模态的RGB-D显著性目标检测算法相比，在VT5000(test)中比表现较好的PGARNet检测效率提升了4.5个百分点，在VT1000中比表现较好的BBSNet检测效率提升了2.0个百分点，说明深度信息与热红外信息有差异，基于RGB-D的模型中的特征提取及融合机制不能泛化用于检测RGB-T多源图像。

(2)算法定性比较与分析

在VT5000数据集的测试集上，得到和DAGLNet进行对比的九种算法的测试结果，在保证相同输入的前提下进行比较。图8展示了十种算法在三种数据集中的表现能力。整体表现可知，基于多模态的检测算法优于单模态的检测算法，基于RGB-T的显著性目标检测算法的显著图能够较好地接近于真值图，本发明提出的算法在应对各种挑战时都具有良好的检测能力。

图8中，前两行展示各类算法在VT821数据集中的表现，尽管本发明算法在VT821中表现一般，但是针对噪声过大和背景杂乱的情况，本发明算法能够较好的定位目标位置。中间两行为VT1000数据集测试结果，本发明算法能够很好地展示目标细节，如第四行中广告牌的上缘柱子突出部分，本发明算法能够较为完整的检测出来。最后两行为VT5000数据集测试结果，本发明算法能够较好地利用热红外图像的互补信息，将处于黑暗环境中的目标检测出来，如第五行所示；第六行展示本算法相比其他算法，能够更为完整地突出目标，且未引入噪声。

通过直观的对比，我们可以得出结论，本发明算法的检测能力良好，能够应对大规模数据集的显著性检测。

(3)算法各模块性能分析

本发明在基于可见光的显著性目标检测的基础上引入了一个新的模态T，本发明提出的方法主要包括三个重要的模块，分别是基于可变形卷积的改进VGG-16网络VGG-DCNet，用于提取两模态各阶段注意力信息并进行融合的注意力特征融合模块(AB)，用于融合全局和局部特征的融合全局-局部特征模块(FGLB)。为了验证每个模块的有效性，本部分基于VT5000数据集的测试集通过单独的加入各模块进行了一系列的消融实验，并进行定量和定性分析。

表4所示为本发明各模块定量测试结果，图9所示为方法各模块表现的定性分析结果。

表4方法各模块定量测试结果

从表4中可以看出，随着各模块的加入，F_β逐步增大，MAE逐步减小，说明各模块对网络的检测能力均有提升作用。

对比表4中(1)(2)，可知多源图像的显著目标检测性能更优，相比单源检测效率提升10.5个百分点，从图9中定性分析可以看出多源图像检测更容易定位显著目标，因此多源图像的显著性目标检测是有意义的。

对于VGG-DCNet模块，参考表4中(2)(3)，与单纯的VGG-16网络相比，效率提升了2.9百分点。从预测图9来看，基于可变形卷积的重构网络在适应形变的能力上优于VGG-16网络。

对于注意力特征的融合模块(AB)，参考表4中(2)(4)，定量分析可以得到增加AB模块之后，检测效率提升3.6个百分点，图9定性分析可得，增加AB模块的特征图能够有效抑制可见光和热红外图像不显著的部分。

对于全局-局部特征融合模块(FGLB)，参考表4中(2)(5)，增加全局-局部特征融合模块(FGLB)后，定量分析可以得到在多尺度采集的全局和局部特征的指导下，检测效率提升了7.1个百分点，图9定性分析可得最终的显著预测图信息更为丰富和全面，不会大幅度缺失显著目标。

对比表4中(2)(6)，将注意力机制和全局-局部特征融合模块结合后作用于VGG-16网络，检测效能大幅提升，相比VGG-16网络，检测效率提升了9.6个百分点。图9定性分析发现上述做法能更进一步的增强显著特征，而抑制不显著特征。

最后将VGG-DCNet、注意力模块AB和融合全局-局部特征模块FGLB共同使用，参考表4中(6)(7)，检测效率提升2.2个百分点，图9定性分析发现DAGLNet模型得到的结果更接近真值GT，有效抑制噪声，突出显著目标。

图9中Single表示以RGB图像为输入的单源测试；Multi表示双通道网络的输入分别为RGB和T图像的多源测试，单源和多源测试都以VGG-16为骨干网络；Dconv表示在VGG-16的基础上加入可变形卷积进行训练和测试；AB、FGLB、A+GL分别表示在以VGG-16为骨干网络的多源框架中，加入标准化的注意力机制、加入融合全局-局部特征模块、同时使用注意力机制和融合全局-局部特征模块；OURS表示本文模型的测试结果，将优化后的骨干网络VGG-DCNet、注意力特征融合模块AB、融合全局-局部特征模块FGLB三者结合使用。

从图9中可以看出，随着各模块的引入，网络对显著目标的检测能力稳定上升，噪声逐渐减少，目标定位更为准确，目标与背景的界限更为清晰，目标轮廓能够更为完整地展现。

通过一系列的消融实验，对方法各模块的性能进行定量比较和定性分析，证明了本发明算法提出的各模块对网络性能的提高具有必要的支撑作用。

综上，为了达到自适应提取不规则目标特征的效果，本发明以VGG-16为基础，引入可变形卷积调整网络结构，替换网络中的部分卷积层，得到增加了可变形卷积的VGG-16网络，即VGG-DCNet，通过给传统卷积增加偏移量得到不规则的卷积操作，获取完整的目标特征。为了充分发挥多源图像特征的互补作用，本发明构建了注意力特征融合模块，分析并应用标准化注意力机制提取两模态特征，并将注意力特征进行特征级融合。为了充分利用全局语义信息，本发明构建了融合全局-局部特征模块，不仅将纹理、结构等全局特征和特征间相关度小的局部特征进行融合，还充分利用浅层位置信息和高层语义信息，从而抑制冗余信息而获取有益特征。最后通过本发明方法得到的网络架构，可以端到端地输出显著性目标检测效果图。实验结果表明本发明具有良好的显著性目标检测能力，特别是在光照不足、交叉图像边界、中心偏移等复杂场景下检测效果优势明显。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于RGB-T多源图像数据的显著性目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于RGB-T多源图像数据的显著性目标检测方法，其特征在于，所述步骤1包括：

采用可变形卷积替换VGG-16中最后一个阶段的三层卷积。

3.根据权利要求1所述的基于RGB-T多源图像数据的显著性目标检测方法，其特征在于，所述注意力特征融合模块用于在标准化注意力机制NAM的作用下，得到经过加强的有益特征而抑制无关特征，获取注意力特征图，并将网络中间级获取的包含注意力信息的特征图进行特征级融合。

4.根据权利要求1所述的基于RGB-T多源图像数据的显著性目标检测方法，其特征在于，所述注意力特征融合模块中，按照如下方式进行可见光图像和红外图像每层的注意力特征图的融合：

5.根据权利要求1所述的基于RGB-T多源图像数据的显著性目标检测方法，其特征在于，按照如下方式获取全局语义信息：

6.根据权利要求1所述的基于RGB-T多源图像数据的显著性目标检测方法，其特征在于，按照如下方式提取可见光图像和红外图像局部特征：