CN115661482B

CN115661482B - 一种基于联合注意力的rgb-t显著目标检测方法

Info

Publication number: CN115661482B
Application number: CN202211414420.5A
Authority: CN
Inventors: 毕洪波; 王秀芳; 张丛; 张佳圆; 吴然万; 仝玉宇
Original assignee: Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Current assignee: Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-07-14
Anticipated expiration: 2042-11-11
Also published as: CN115661482A

Abstract

本发明公开一种基于联合注意力的RGB‑T显著目标检测方法，包括以下步骤：分别获取RGB图像和热图像的若干层初始特征；基于若干层所述初始特征，提取若干层通道显著特征和像素位置显著特征；基于同层的所述通道显著特征和像素位置显著特征，获取联合特征；对所述联合特征进行增强表达，获得若干级多尺度增强显著特征；根据每一级所述多尺度增强显著特征的特点，将若干级所述多尺度增强显著特征进行聚合，获得RGB‑T显著目标。本发明采用编码‑解码结构，将跨模态特征交互及多尺度特征融合充分合作，构成一个统一网络，可以高效并精准地完成显著目标检测任务。

Description

一种基于联合注意力的RGB-T显著目标检测方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于联合注意力的RGB-T显著目标检测方法。

背景技术

显著目标检测(SOD)旨在分割和检测图片或场景中最吸引人的物体。作为图像预处理的重要组成部分，SOD具有广泛的应用，包括图像压缩、视频对象分割与识别、图像编辑及视觉跟踪等。

传统的基于RGB的SOD模型通常只能利用RGB数据中的一些外观线索，这在许多具有挑战性的场景中造成了严重的限制。随着深度传感技术的成熟，获取深度信息变得越来越简单和容易，许多研究人员将深度信息与RGB数据相结合进行显著性检测，即RGB-D SOD。然而，现有的便携式商业设备在杂乱或低照度的场景中仍然很难获得高质量的深度数据。此外，当显著的物体和背景距离相近时，深度图只能发挥有限的作用。这些故障导致检测性能下降。相比之下，热传感器可以捕获生物或物体的热辐射信息，对光照和外观变化具有很强的适应性。此外，在自然环境中，热图像可以很容易地将显著目标与背景区分开来，这为解决显著目标检测任务带来了新的机遇。

早期的RGB-T显著目标检测方法经常使用图学习和支持向量机(SVM)来完成多模态融合。然而，这些方法过于依赖底层手工特征，当面对低对比度或远距离的小物体场景时，无法深入挖掘高层语义信息进行显著性检测。现有的一些基于深度学习的RGB-T SOD模型通常采用元素相加、级联、分组卷积和一些浅层神经网络来实现跨模态融合，尽管取得了出色的成就，但RGB-T SOD仍然是一个巨大的挑战，因为上述方法中的聚合策略往往只考虑全局上下文信息，而忽略了通道和位置之间的特征变化，导致模型预测结果的模糊性和不确定性。此外，研究人员通常使用剩余连接、级联、扩张卷积来增强显著性特征。这些方法在一定程度上达到了目的，但它们容易引入背景噪声而污染显著特征或丢失关键的线索。

发明内容

本发明的目的是提供一种基于联合注意力的RGB-T显著目标检测方法，以解决上述现有技术存在的问题，采用编码-解码结构，将跨模态特征交互及多尺度特征融合充分合作，构成一个统一网络，可以高效并精准地完成显著目标检测任务。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于联合注意力的RGB-T显著目标检测方法，包括以下步骤：

分别获取RGB图像和热图像的若干层初始特征；

基于若干层所述初始特征，提取若干层通道显著特征和像素位置显著特征；基于同层的所述通道显著特征和像素位置显著特征，获取联合特征；

对所述联合特征进行增强表达，获得若干级多尺度增强显著特征；根据每一级所述多尺度增强显著特征的特点，将若干级所述多尺度增强显著特征进行聚合，获得RGB-T显著目标。

可选地，分别获取RGB图像和热图像的若干层所述初始特征包括：

构建初始特征提取网络，并设置所述初始特征提取网络的层数；

将所述RGB图像和所述热图像输入所述初始特征提取网络，逐层提取所述RGB图像和所述热图像的初始特征，其中所述初始特征的层数与初始特征提取网络的层数相同。

可选地，所述初始特征提取网络采用双流网络，其中，所述双流网络由两个相同的Res2Net网络组成。

可选地，获得所述联合特征包括：

构建联合注意网络，所述联合注意网络用于探索显著性因素并进行有效的跨模态特征交互；

将所述若干层所述初始特征输入所述联合注意网络，从每一层所述初始特征中分别提取通道显著特征和所述像素位置显著特征；

将同层所述通道显著特征和所述像素位置显著特征相加，生成所述联合特征。

可选地，所述联合注意网络包括若干联合注意力模块，所述联合注意力模块的个数与所述初始特征的层数相同；所述联合注意力模块包括通道注意子模块和位置注意子模块，所述通道注意子模块用于从通道维度探索第一显著特征，所述位置注意子模块从像素位置维度角度探索第二显著特征。

可选地，对所述联合特征进行增强表达，获得若干级所述多尺度增强显著特征包括：

构建特征增强网络，设置所述特征增强网络的通道分隔策略，形成独立的特征增强网络分支；

将若干层所述联合特征输入对应的所述特征增强网络分支，利用最大化操作，获得若干级所述多尺度增强显著特征。

可选地，根据每一级所述多尺度增强显著特征的特点，将若干级所述多尺度增强显著特征进行聚合包括：

判断所述多尺度增强显著特征的特点和级别；

根据判断结果，将所述多尺度增强显著特征以既定的解码规则和解码方式，进行多尺度特征融合，实现若干级所述多尺度增强显著特征的聚合。

可选地，进行多尺度特征融合包括：

S1、将最高级的所述多尺度增强显著特征进行预置倍数的上采样操作，进行级联卷积操作后，与相邻层级的所述多尺度增强显著特征进行融合，获得第一次融合结果；

S2、所述第一次融合结果进行预置倍数的上采样操作，与相邻下一层级所述多尺度增强显著特征进行融合，获得新的融合结果，重复S2，直至融合完成，获得最终融合特征，完成多尺度特征融合。

可选地，所述特征增强网络包括不同尺度卷积的特征挖掘单元，所述不同尺度卷积的特征挖掘单元用于进一步增强所述联合特征。

本发明公开了以下技术效果：

本发明提出的一种基于联合注意力的RGB-T显著目标检测方法，提出了一种重要的RGB-T显著目标检测网络(E²Net)。所提出的网络通过挖掘显著线索和加强显著特征的表示来提高模型的检测性能。该发明网络主要由一个双流主干架构、一个联合注意模块(JAM)和一个特征增强模块(FEM)组成，其中JAM主要由两部分组成：通道注意模块(CA)和像素位置注意模块(PA)。具体来说，双流主干架构用于学习RGB和热图像的5层初始特征。为了有效聚合差异化和互补的RGB和热数据并精确地捕获跨模态信息，本发明提出了JAM，从通道及像素位置的角度联合探索显著因素，有利于更深层及更全面的提取处有用信息。对于CA，本发明采用自适应最大池操作及由四个CBR组成的子网络以从通道维度挖掘显著信息。对于PA，本发明利用卷积及重塑块以从像素坐标中充分提取显著线索。JAM通过联合两个注意机制既充分检测出了有用区域又消除了非显著因素的干扰，实现了RGB及热模态的有效融合。此外，本发明提出的FEM采用通道分割策略，独立增强输入特征的四个并行分支以进一步强化不同层的跨模态交互特征。最后，本发明进一步利用逐级解码策略，并将级联卷积层嵌入到其中，以消除背景噪声的干扰并保证检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的RGB-T显著目标检测方法流程图；

图2为本发明实施例的RGB-T显著目标检测模型框架示意图；

图3为本发明实施例的联合注意模块(JAM)示意图；

图4为本发明实施例的通道注意(CA)示意图；

图5为本发明实施例的位置注意(PA)示意图；

图6为本发明实施例的特征增强模块(FEM)示意图；

图7为本发明实施例的E²Net模型和其他十一个高级RGB-T模型的可视化对比示意图；

图8为本发明实施例的E²Net模型不同组件的视觉比较示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供一种基于联合注意力的RGB-T显著目标检测方法，如图1所示，包括以下步骤：

S10：本发明实施例对RGB和热图像进行对应的特征提取，通过采用双流主干架构学习RGB和热图像的初始特征，可以学习五层特征表示对。

搭建RGB-T显著目标检测网络，RGB-T显著目标检测模型结构如图2所示；

所述的RGB-T显著目标检测网络使用由两个相同的Res2Net网络组成的双流主干架构来学习RGB和热图像的基本特征；所采用的两个相同的Res2Net网络只保留前5层卷积结构，不包含最后的池化层和全连接层；从RGB和热流的五层中学习到的特征表示分别标记为

和/>

输入的RGB及热图像的大小分别为224×224×3和224×224×1，经第一层卷积操作后的特征表示对/>

的大小为88×88×64，经第二层卷积操作后的特征表示对/>

的大小为88×88×256，经第三层卷积操作后的特征表示对/>

的大小为44×44×512，经第四层卷积操作后的特征表示对/>

的大小为22×22×1024，经第五层卷积操作后的特征表示对/>

的大小为11×11×2048，获得RGB和热流的五层中学习到的特征表示对/>

S20：用联合注意模块(JAM)以从通道和像素位置两个不同的角度挖掘显著特征从而进行有效的跨模态交互；JAM包含通道注意(CA)和位置注意(PA)，其优势分别在于：(1)CA通过探索不同通道之间的依赖关系来增强显著特征的表达能力，能够从多个侧面的跨模态特征中挖掘信息线索，有利于促进RGB及热模态特征的兼容性。(2)PA通过将更广泛的全局上下文信息编码为局部特征，有助于挖掘跨模态特征中最关键的区域，即PA采用一种新的将局部特征进行重塑和变换的方式，可以有效挖掘显著目标的位置信息。

利用联合注意模块(JAM)及特征增强模块(FEM)来生成显著性预测图像；其中，联合注意模块(JAM)采用通道注意(CA)和位置注意(PA)两种注意力机制，从不同角度(通道和位置)充分探索显著性因素并进行有效的跨模态特征交互。将从RGB和热流的五层中学习到的特征表示对

分别送入5个联合注意模块(JAM)，可以从通道和位置两个角度挖掘显著特征，获得输出的显著特征能够表示为如式(1)所示，

其中，F_JA表示联合注意模块(JAM)。

表示从RGB和热流的五层中学习到的特征表示对，/>

表示从5个联合注意模块(JAM)中获得的显著特征表示。

通过联合注意模块(JAM)探索显著特征以进行有效的跨模态交互；每个高层次特征的通道图都可以看作是一种特定的响应，不同的响应是相互关联的。通过探索不同渠道之间的依赖关系，可以增强显著特征的表达能力。此外，在局部特征中建立丰富的上下文模型，可以将更广泛的全局上下文信息编码为局部特征，从而提高特征的挖掘和表示能力。因此，联合通道及像素位置注意可以充分挖掘显著对象的有效线索。如图3所示，JAM由两个重要模块组成，即通道注意(CA)和位置注意(PA)，旨在从通道和位置维度探索显著特征，特征提取过程能够表示为如式(2)所示，

其中，

和/>

分别代表从RGB和热流的五层中学习到的特征表示对，这里将其作为JAM模块的输入，/>

表示JAM模块的输出特征，F_CA(·)和F_PA(·)分别表示通道注意和位置注意组件。

具体来说，在CA中，如图4所示，本发明实施例中首先采用自适应最大池化操作，在保持特征数量的前提下，将输入特征映射的大小转换为1×1(探索通道中特征的变化)。然后，本发明实施例中设计了一个子网络，它由3×3卷积、批量归一化和ReLU激活函数(称为CBR)组成。本发明实施例中使用堆栈方法来减少通道数，随后逐渐增加通道数，使其达到原始输入特征。从CA中获得的输出特征能够表示为如式(3)所示，

其中，

表示堆叠四个CBR。P_M(·)指自适应最大池化操作，/>

是逐元素乘法，f表示单层输入特征映射/>

和/>

之和。

在PA中，如图5所示，本发明实施例中保持通道数量不变，并通过维度变化探索显著对象的特征。具体来说，给定f中的一个局部特征A∈R^C×N，其中C表示通道数，N＝H×W表示像素数。首先将A送入1×1卷积层，以生成两个特征图，分别为B和C，其中B、C∈R^C×N。然后将B重塑并变换为

接下来，在B和/>

之间使用矩阵乘法，并应用softmax层来计算特征图S∈R^N ^×N，上述过程能够表示为如式(4)所示，

其中，Conv1表示1×1卷积层，Resh(·)表示重塑操作，Trans(·)表示变换操作，⊙表示矩阵乘法。

同时，本发明实施例中将C重塑为

然后，在/>

和所生成特征图S∈R^N×N之间执行矩阵乘法，并将结果重塑为/>

最后，本发明实施例中使用求和运算将其添加到原始特征A中，以提高检测性能，上述过程能够表示为如式(5)所示，

其中，Resh(·)表示重塑操作，Trans(·)表示变换操作，⊙表示矩阵乘法，f_PA表示从PA中获得的输出特征。

S30：采用特征增强模块(FEM)来进一步强化跨模态交互特征，FEM基于通道分割策略，将输入特征在通道上分为四个平行独立的分支，实现了不同分支特征的并行独立学习，大大增强了提取的显著线索并提高了检测性能。

为了进一步增强融合特征，减少不同层背景噪声的干扰，本发明实施例中提出了一种特征增强模块(FEM)。FEM执行通道分割以进行特征学习，并采用最大池操作来提取每个特征组中最突出的特征以实现特征增强。从FEM获得的输出特征

能够表示为如式(6)所示，

其中，F_EM(·)表示增强模块(FEM)，

表示从5个联合注意模块(JAM)中获得的显著特征表示，/>

表示从增强模块中获得的最突出的特征(输出特征)。

为了增强提取的显著线索，本发明实施例中提出的新的特征增强模块(FEM)，如图6所示。具体来说，本发明首先利用块函数将输入特征在通道上平均分为四部分，形成四个平行独立的分支。然后，本发明设计了特征挖掘单元CRC，它由一个1×1卷积、一个ReLU激活函数和一个3×3卷积组成，在每个分支中，特征挖掘单元CRC进一步挖掘显著特征，能够表示为如式(7)所示，

其中，F_C(·)表示块函数，

表示夹自于JAM的显著特征表示。c1，c2，c3，c4表示由块函数分成的四分支特征，σ表示ReLU激活函数，F_Conv1和F_Conv3分别表示1×1卷积和3×3卷积，F_CRC(·)表示特征挖掘单元。然后，应用最大化操作来聚合四个分支中的显著特征，此过程能够表示为如式(8)所示，

其中，F_M表示最大化操作，

表示经过特征增强模块(FEM)获得的输出特征。

S40：在多尺度特征融合部分采用从高到低逐级解码的策略，根据不同层次特征的特点，将多尺度特征进行聚合，由高到低逐层添加，以检测出完整、精细的突出物体。

由于高级特征包含丰富的语义信息，有助于定位显著对象。而底层特征包含丰富的详细信息，有助于提高检测性能。因此，为了提高模型的性能，本发明实施例中采用了从高到低逐级解码的策略。根据不同层次特征的特点，将多尺度特征进行聚合，由高到低逐层添加，以检测出完整、精细的突出物体。同时，本发明提出了一个包含两个尺度卷积的级联卷积层，以细化不同层的特征。

具体来说，顶部特征

进行2倍上采样操作，以匹配融合分辨率；经过级联卷积层后，将其与邻层特征/>

相加，以实现第一次融合；同样，本发明实施例中对得到的第一融合特征f₁进行2倍上采样操作并通过级联卷积运算，然后将其加到/>

中，以获得第二融合融特征f₂；接着以同样的方式对得到的第二融合特征进行2倍上采样操作并通过级联卷积运算，然后将其加到/>

中获得第三融合特征，然后对得到的第三融合特征f₃进行2倍上采样操作并通过级联卷积运算，然后将其加到/>

中获得第四融合特征f₄最后通过两个级联卷积层以产生显著预测结果。这种逐层操作后的输出能够表示为如式(9)所示，

其中，Conv定义为级联卷积层，包括一个3×3卷积来增强显著信息并获得更精细的特征表示及批归一化BN和ReLU操作来避免过拟合并增强模型的非线性。up表示2倍上采样操作。

最后，将最低层获取的特征f₄进行另一次2倍上采样，并通过两个级联卷积层来完成特征的最终提取。过程能够表示为如式(10)所示，

S＝Conv(Conv(up(f₄))) (10)

其中，S表示最终显著预测图，Conv定义为级联卷积层，up表示2倍上采样操作。

本发明实施例中采用二进制交叉熵损失函数进行训练，它可以表示为如式(11)所示，

L(S，G)＝GlogS+(1-G)log(1-S) (11)

其中，S表示最终显著预测图，G表示地面真显著图。另外，本发明实施例的RGB-T显著目标检测方法利用3个通用RGB-T SOD数据集来测试E²Net的性能，包括VT821、VT1000和VT5000。其中，VT821数据集中的图像是在具有挑战性的场景中获得的，总共包含了821对手动注册的RGB-T图像。VT1000数据集中有1000个注册的RGB-T图像对，它们是从简单场景中捕获的。VT5000是一个海量数据集，包含来自各种挑战场景的5000对注册RGB-T样本。本发明从VT5000数据集中提取2500个RGB-T样本用于训练，而另外2500个样本以及VT821和VT1000数据集中包含的所有图像用于对E²Net进行测试。

另外，本发明实施例中采用四种广泛使用的评估指标来验证拟议E²Net的有效性，包括S-measure(S_m)、E-measure(E_m)、F-measure(F_m)和平均绝对误差(MAE，M)。RGB-T SOD模型的性能与指标(S_m、E_m和F_m)的结果成正比，与指标M的结果成反比。表1示出本发明实施例所提出的RGB-T显著目标检测方法与现有的十一种高级RGB-T方法的定量对比结果，可以看出本发明实施例所用RGB-T显著目标检测方法在四个数据集VT821、VT1000和VT5000中的四个指标(S_m、E_m、F_m和M)上均排在首位。

表1是本发明实施例的E²Net模型与现有十一种高级RGB-T方法在三个数据集上对应四个指标的评估结果。

表1

另外，图7是本发明实施例的E²Net模型和其他最先进的RGB-T模型在不同场景下的可视化对比示意图。如图7所示，第一行和第二行的RGB和Thermal分别表示彩色图像和热图像，最后两行为本发明提出的模型及GT真值图，其余为其他十一种高级RGB-T模型。本发明选择了九个具有挑战性的场景来充分证明所提出方法的有效性，包括复杂边界、大突出对象、跨对象边界、低质量热图像、低对比度外观、热交叉、中心倾斜、混沌背景以及小突出物体。

相对而言，本发明实施例的E²Net模型能够准确地检测出具有复杂边界的显著目标，而其他方法(例如，SGDL和CSRNet)执行模糊检测或只能大致定位重要区域。在对大突出对象的检测中，本发明模型比其他方法提供了更清晰的边界，并且排除了非重要部分的影响。对于具有跨对象边界、低对比度外观和中心倾斜的场景，通过视觉比较可以看出，本发明模型可以有效地减少背景中噪声的影响，并进行令人满意的预测，而其他方法容易受到具有挑战性的背景的干扰，并提供低像素的结果。此外，本发明模型在质量较差的热图像和热交叉的场景中仍然具有可靠性，本发明所提出的方法能够准确捕获突出目标，而其他方法(如TSFNet、ADF和MGFL)通常检测到冗余信息或无法区分背景和突出目标。本发明模型在背景混乱的场景和具有小突出物体的场景同样产生了令人满意的结果，而其他方法很难分辨出细微的部分。总之，与其他方法相比，本发明实施例的E²Net模型可以应对具有不同挑战性因素的场景，并做出准确的预测。

另外，本发明实施例对提出的E²Net模型中的关键组件进行了全面研究，并分析了它们在整个网络中的主要作用。将不同的组件分别添加到主干中，以便充分验证提出模块的有效性。表2和图7、图8分别显示了定量评估结果和视觉比较，以及本发明提出的E²Net模型不同组件的视觉比较。结果表明，本发明模型中的JAM和FEM有助于提高整个模型的性能。表2是本发明实施例的E²Net模型进行消融实验的定量评估结果。

表2

表2中主干框架B不包括网络中的两个主要模块JAM和FEM，本发明模型将JAM替换为跨模式融合特征，将FEM替换为1×1卷积，通过减少通道数实现多层信息融合。从表2可以看出，B+JAM在三个数据集的所有评价指标上都优于或与B持平，尤其在VT1000数据集上具有明显提升，说明在主干中只嵌入JAM有助于提高模型的性能。如图8所示，使用单个主干B可能会导致检测信息丢失或对重要物体的错误判断(如第3列)，而JAM模块的优点是可以减少噪声干扰并定位整个显著目标(如第4列)。

与主干框架B相比，B+FEM的结果在三个数据集的大多数指标中有所增加。说明B+FEM在改善模型性能方面发挥着至关重要的作用。如图8所示，EFM的优势是能够有效地增强多层特征表示，以分割边界清晰且相对完整的对象(如第5列)。

此外，主干框架B、JAM和FEM合作而成的E2Net模型极大地提高了预测显著图的质量。与主干框架B相比，模型性能在三个数据集上都有所提升，尤其在VT821及VT5000数据集上效果达到最佳。根据视觉比较结果，本发明模型能够挖掘出显著区域的细节，并有效地消除背景噪声，从而准确地分割出显著对象(例如，第6列)。上述说明本发明E2Net模型能够进行准确而有效的显著性检测。

本发明实施例采用编码-解码结构，将跨模态特征交互及多尺度特征融合充分合作，构成一个统一网络，可以高效并精准地完成显著目标检测任务。对于跨模态特征交互，JAM能够捕获RGB及热图像的互补信息以使两者充分交互，同时联合CA及PA可以增强显著特征的表达能力。FEM有助于进一步强化跨模态交互特征。对于多尺度特征融合，根据不同层次特征的特点，即高层特征包含丰富的语义信息，有利于定位显著目标，而低层特征具有更多的局部线索，有利于确定物体的边缘，从高到低逐级解码方式可以将多尺度特征进行充分聚合，从而检测出完整又清晰的物体。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于联合注意力的RGB-T显著目标检测方法，其特征在于：包括以下步骤：

分别获取RGB图像和热图像的若干层初始特征；

将同层所述通道显著特征和所述像素位置显著特征相加，生成所述联合特征；对所述联合特征进行增强表达，获得若干级多尺度增强显著特征；根据每一级所述多尺度增强显著特征的特点，将若干级所述多尺度增强显著特征进行聚合，获得RGB-T显著目标。

2.根据权利要求1所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：分别获取RGB图像和热图像的若干层所述初始特征包括：

3.根据权利要求2所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：所述初始特征提取网络采用双流网络，其中，所述双流网络由两个相同的Res2Net网络组成。

4.根据权利要求1所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：所述联合注意网络包括若干联合注意力模块，所述联合注意力模块的个数与所述初始特征的层数相同；所述联合注意力模块包括通道注意子模块和位置注意子模块，所述通道注意子模块用于从通道维度探索第一显著特征，所述位置注意子模块从像素位置维度角度探索第二显著特征。

5.根据权利要求1所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：对所述联合特征进行增强表达，获得若干级所述多尺度增强显著特征包括：

6.根据权利要求1所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：根据每一级所述多尺度增强显著特征的特点，将若干级所述多尺度增强显著特征进行聚合包括：

判断所述多尺度增强显著特征的特点和级别；

7.根据权利要求6所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：进行多尺度特征融合包括：

8.根据权利要求5所述的基于联合注意力的RGB-T显著目标检测方法，其特征在于：所述特征增强网络包括不同尺度卷积的特征挖掘单元，所述不同尺度卷积的特征挖掘单元用于进一步增强所述联合特征。