CN113902783A

CN113902783A - 一种融合三模态图像的显著性目标检测系统及方法

Info

Publication number: CN113902783A
Application number: CN202111373805.7A
Authority: CN
Inventors: 宋克臣; 王涵; 王杰; 颜云辉
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-01-07
Anticipated expiration: 2041-11-19
Also published as: CN113902783B

Abstract

本发明提供一种融合三模态图像的显著性目标检测系统及方法，属于图像显著性检测技术领域，所述系统通过全局注意力加权融合实现了对三个模态的高级特征更细致的融合，并通过空洞卷积操作得到大尺度特征，对大尺度特征使用特征矩阵相乘的方式，保存了特征图整体间信息的关联性；通过双模态注意融合实现了跨模态信息的更充分融合，以深度图像为主要引导，另外两模态特图像分别作为辅助补充，两模态相辅相成，再结合使用空洞卷积、矩阵相乘、矩阵相加等方式处理特征，从而实现了更好的跨模态融合；通过三模态交互加权实现了对三模态信息的互补融合，同时在继承上一层解码特征的基础上，补充了当前层的详细特征，使整个解码过程不断丰富信息。

Description

一种融合三模态图像的显著性目标检测系统及方法

技术领域

本发明属于图像显著性检测技术领域，具体涉及一种融合三模态图像的显著性目标检测系统及方法。

背景技术

显著性目标检测主要用于检测图像中最重要和最有用的目标或区域。显著性目标检测作为预处理步骤，用检测到的目标区域代替原始图像，进入下一阶段的处理和分析，如图像分割、目标跟踪、目标检索和识别等。

近十年来，大多数研究主要集中在可见光RGB(RGB即红、绿、蓝三个通道的颜色)的显著性目标检测(简称SOD)上，即RGB-SOD。RGB显著性目标检测利用可见光图像中丰富的颜色和纹理信息，取得了良好的检测效果。然而，在一些弱光照、背景杂乱等复杂的场景中，RGB显著性目标检测的性能并不令人满意。

随着体感摄像机的普及，将深度信息集成到RGB显著性检测中(即RGB-D SOD)，以提高检测性能。深度信息可以有效区分目标与背景之间的距离差异，因此对单模态RGB信息可以作为一个补充信息来提高检测效果。但同时也引入了一些分散信息，主要有以下三个：首先，当场景复杂时，显著物体会与杂乱的深度图像背景混在一起，分散了显著性目标检测的焦点；其次，当显著物体与背景相距很近时，显著物体的深度信息是不完整的；最后，深度图像仍然难以区分一些小显著物体。

最近，在RGB显著性检测中加入热红外图像(即RGB-T SOD)，主要是为了解决光照变化带来的挑战。与可见光和深度图像不同的是，即使在低照度和完全黑暗的环境中，温度图像也能区别显著目标与背景之间的轻微温度差。因此，温度图像可以帮助可见光图像在复杂光环境下完成显著性目标检测任务。然而它也有一些挑战性场景，有以下三个：首先当显著目标的温度与部分背景的温度相同时，即热交叉；其次，显著目标的部分比整个目标更显著；最后，环境中存在类似镜面的表面。

从以上分析可以看出，任何单一模态图像都有其优点和缺点。因此，双模态(即RGB-D和RGB-T)SOD方法可以获得更好的性能。然而，现有的这些双模态方法在实际应用中仍有一定的局限性，特别是在现实生活中复杂的干扰环境中。

目前，显著性目标检测方法主要是RGB SOD、RGB-D SOD、RGB-T SOD三大类，而这三大类中，基于深度学习的显著性目标检测方法性能要高于无监督的显著性目标检测方法。基于深度学习的显著性目标检测方法主要使用编解码的形式。编码即为利用广泛使用的分类网络VGG和ResNet作为特征提取网络；解码即为对编码过程中提取的各级特征做进一步处理，从高级特征开始逐渐的补充低级细节特征，最后得到预测的显著性图。然而现有基于深度学习的显著性目标检测方法存在以下弊端：①面对更加复杂的场景，RGB单模态的显著性目标检测方法已经不能取得令人满意的结果了。②现有基于RGB-D的显著性目标检测方法，只能作为辅助信息，并没有解决在雨天、大雾、黑暗等复杂条件下预测结果差的问题。③现有基于的RGB-T显著性目标检测方法，在RGB图像清晰的条件下，预测结果容易受到T图像的影响，导致预测结果不准确。

发明内容

基于上述问题，本发明提出一种融合三模态图像的显著性目标检测系统，包括：图像采集模块、图像配准与注释模块、特征提取模块、解码模块；

所述图像采集模块用于采集三模态图像，所述三模态图像包括RGB图像、深度图像、红外热图像；

所述图像配准与注释模块用于根据标定参数对采集到的三模态图像进行配准对齐，并对对齐后的图像注释显著对象，得到注释后的三模态图像；

所述特征提取模块用于对对齐后的三模态图像分别提取各自的粗糙的5级特征；

所述解码模块用于获取三模态图像的5级特征，并进行逐级融合后输出显著性图。

所述图像配准与注释模块包括：图像配准模块、图像注释模块；

所述图像配准模块用于根据相机的固有参数和外部参数计算得到标定参数，利用标定参数对获取的三模态图像进行配准，对齐三模态的图像；

所述图像注释模块用于注释对齐后的三模态图像的显著对象。

所述解码模块包括：GAWFM模块、5级的DMAFM模块、5级的TMIWM模块、每级DMAFM模块中包含2个DMAFM模块；

所述GAWFM模块用于对三模态图像的最高级特征V4、D4、T4进行全局注意力加权融合得到全局语义特征；其中从RGB图像提取的5级特征分别记为V0～V4，从深度图像提取的5级特征分别记为D0～D4，从热红外图像提取的5级特征分别记为T0～T4；

所述DMAFM模块用于对RGB图像和深度图像的特征逐级进行双模态注意力融合，得到融合后的特征，对热红外图像和深度图像的特征逐级进行双模态注意力融合，得到融合后的特征；

所述TMIWM模块用于对DMAFM模块输出的两个融合后的特征以及GAWFM模块或上一级TMIWM模块输出的语义特征进行三模态交互加权融合，输出最终融合后的显著性图。

所述5级的TMIWM模块分别记为TMIWM模块I、TMIWM模块II、TMIWM模块III、TMIWM模块IV、TMIWM模块V；

第5级的两个DMAFM模块用于从特征提取模块获取三模态图像的最高级特征V4、D4以及T4、D4；以D4为中间模态作为连接V4与T4的桥梁，两个DMAFM模块分别对D4、V4以及D4、T4进行双模态注意力融合，得到两个输出并发送给TMIWM模块V；

TMIWM模块V用于对GAWFM模块输出的一个特征以及第5级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块IV；

第4级的两个DMAFM模块用于从特征提取模块获取三模态图像的第4级特征V3、D3以及T3、D3；以D3为中间模态作为连接V3与T3的桥梁，两个DMAFM模块分别对D3、V3以及D3、T3进行双模态注意力融合，得到两个输出并发送给TMIWM模块IV；

TMIWM模块IV用于对TMIWM模块V输出的一个特征以及第4级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块III；

第3级的两个DMAFM模块用于从特征提取模块获取三模态图像的第3级特征V2、D2以及T2、D2；以D2为中间模态作为连接V2与T2的桥梁，两个DMAFM模块分别对D2、V2以及D2、T2进行双模态注意力融合，得到两个输出并发送给TMIWM模块III；

TMIWM模块III用于对TMIWM模块IV输出的一个特征以及第3级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块II；

第2级的两个DMAFM模块用于从特征提取模块获取三模态图像的第2级特征V1、D1以及T1、D1；以D1为中间模态作为连接V1与T1的桥梁，两个DMAFM模块分别对D1、V1以及D1、T1进行双模态注意力融合，得到两个输出并发送给TMIWM模块II；

TMIWM模块II用于对TMIWM模块III输出的一个特征以及第2级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块I；

第1级的两个DMAFM模块用于从特征提取模块获取三模态图像的第1级特征V0、D0以及T0、D0；以D0为中间模态作为连接V0与T0的桥梁，两个DMAFM模块分别对D0、V0以及D0、T0进行双模态注意力融合，得到两个输出并发送给TMIWM模块I；

TMIWM模块I用于对TMIWM模块II输出的一个特征以及第1级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征进行卷积处理、二值化处理得到最后的显著性图。

一种融合三模态图像的显著性目标检测方法，所述检测方法用于实现所述的检测系统，包括：

步骤1：同时采集RGB图像、深度图像和热红外图像作为预处理的三模态图像；

步骤2：根据相机的固有参数和外部参数计算得到标定参数，利用标定参数对三模态图像进行配准，得到对齐后的三模态图像；

步骤3：注释对齐后的三模态图像的显著对象，得到注释后的三模态图像；

步骤4：分别提取对齐后的三模态图像各自的5级分辨率不同的特征；

步骤5：对提取到的三模态图像的最高级特征进行全局注意力加权融合得到全局语义特征；

步骤6：对RGB图像和深度图像的5级特征逐级进行双模态注意力融合，得到每一级融合后的特征，对热红外图像和深度图像的5级特征逐级进行双模态注意力融合，得到每一级融合后的特征；对融合后的特征再逐级进行三模态交互加权融合，最终生成融合后的显著性图。

进一步地，采用深度卷积神经网络分别对RGB图像、深度图像和热红外图像提取各自的粗糙的5级特征，其中从RGB图像提取的5级特征分别记为V0～V4，从深度图像提取的5级特征分别记为D0～D4，从热红外图像提取的5级特征分别记为T0～T4。

所述步骤5包括：

步骤5.1：将最高级特征V4与注意力加权后的最高级特征D4和最高级特征T4分别相乘再相加得到处理后的RGB图像的高级特征；

步骤5.2：将最高级特征D4与注意力加权后的最高级特征V4和最高级特征T4分别相乘再相加得到处理后的深度图像的高级特征；

步骤5.3：将最高级T4与注意力加权后的最高级特征D4和最高级特征V4分别相乘再相加得到处理后的热红外图像的高级特征；

步骤5.4：将RGB图像、深度图像、热红外图像的高级特征进行连接融合，得到融合后的特征A0；

步骤5.5：利用卷积操作将融合后的特征A0的尺度和通道数转为3*3*256；

步骤5.6：将特征A0通过一个空洞率为1的3*3*128的空洞卷积操作得到特征A1；特征A1经过注意力加权操作后与特征A0再相乘，得到特征A01；

步骤5.7：将特征A01通过一个空洞率为2的3.3*128的空洞卷积操作，得到特征A2；特征A2经过注意力加权操作后与特征A01再相乘，得到特征A02；

步骤5.8：将特征A02通过一个空洞率为4的3.3*128的空洞卷积操作，得到特征A3；特征A3经过注意力加权操作后与特征A02再相乘，得到特征A03；

步骤5.9：将特征A03通过一个空洞率为7的3.3*128的空洞卷积操作，得到特征A4；特征A4经过注意力加权操作后与特征A03再相乘，得到特征A04；

步骤5.10：将特征A04进行自适应池化操作后，再进行1*1*128的卷积操作，最后进行上采样操作得到3*3*128的特征A5；

步骤5.11：将特征A1、特征A2、特征A3、特征A4、特征A5进行连接，连接后经过一个1*1*512的卷积操作得到三模态信息的全局语义特征。

所述步骤6包括：

步骤6.1：对最高级特征V4与D4进行双模态注意力融合得到特征V4+D4；对高级特征T4与D4进行双模态注意力融合得到特征T4+D4；

步骤6.2：对特征V4+D4、特征T4+D4与全局语义特征进行三模态交互加权融合得到高级语义特征；

步骤6.3：对第4级特征V3与D3进行双模态注意力融合得到特征V3+D3；对第4级特征T3与D3进行双模态注意力融合得到特征T3+D3；

步骤6.4：对特征V3+D3、特征T3+D3与第4级语义特征进行三模态交互加权融合得到第4级语义特征；

步骤6.5：对第3级特征V2与D2进行双模态注意力融合得到特征V2+D2；对第3级特征T2与D2进行双模态注意力融合得到特征T2+D2；

步骤6.6：对特征V2+D2、特征T2+D2与第4级语义特征进行三模态交互加权融合得到第3级语义特征；

步骤6.7：对第2级特征V1与D1进行双模态注意力融合得到特征V1+D1；对第2级特征T1与D1进行双模态注意力融合得到特征T1+D1；

步骤6.8：对特征V1+D1、特征T1+D1与第2级语义特征进行三模态交互加权融合得到第1级语义特征；

步骤6.9：对第1级特征V0与D0进行双模态注意力融合得到特征V0+D0；对第1级特征T0与D0进行双模态注意力融合得到特征T0+D0；

步骤6.10：对特征V0+D0、特征T0+D0与第1级语义特征进行三模态交互加权融合和卷积处理后输出的图像即为最终得到的显著性图。

所述双模态注意力融合具体表述为：

S1.1：对RGB图像和深度图像组成的双模态图像的同一级特征先进行四个平行空洞卷积操作，再通过四个平行注意力加权、相乘、相加、连接操作，输出四个特征，记为VD_1、VD_2、VD_3、VD_4；对热红外图像和深度图像组成的双模态图像的同一级特征先进行四个平行空洞卷积操作，再通过四个平行注意力加权、相乘、相加、连接操作，输出四个特征，记为TD_1、TD_2、TD_3、TD_4；

S1.2：对步骤S1.1输出的特征VD_1、VD_2、VD_3、VD_4进行连接操作后，再经过卷积、相乘、相加操作，输出特征VX+DX，该输出与当前所提取到的特征的尺寸和通道一致，其中X∈{0，1，2，3，4}；

S1.3：对步骤S1.1输出的特征TD_1、TD_2、TD_3、TD_4进行连接操作后，再经过卷积、相乘、相加操作，输出特征TX+DX，该输出与当前所提取到的特征的尺寸和通道一致，其中X∈{0，1，2，3，4}。

所述三模态交互加权融合具体表述为：

S2.1：将当前获取到的特征与双模态注意力融合后的特征再进行融合时，先将双模态注意力融合后的特征经过插值调整到将当前获取到的特征相同的尺寸，再经过一个3*3*128的卷积操作，得到一个与当前阶段尺寸一致通道数为128的特征；

S2.2：将特征VX+DX先依次经过维度最大操作、维度平均操作，再进行连接操作；

S2.3：将步骤S2.2连接操作得到的特征依次经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到VX+DX对应的特征；

S2.4：将步骤2.3得到的特征与双模态注意力融合后的特征TX+DX先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个与当前阶段尺寸一致通道数为128的特征；

S2.5：将特征TX+DX先依次经过维度最大操作、维度平均操作，再进行连接操作；

S2.6：将步骤S2.5连接操作得到的特征依次经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到VX+DX对应的特征；

S2.7：将步骤2.6得到的特征与双模态注意力融合后的特征VX+DX先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个与当前阶段尺寸一致通道数为128的特征；

S2.8：将步骤S2.1、S2.4、S2.7得到的三个特征依次经过相加操作、3*3卷积操作，输出融合后的特征。

与现有技术相比，本发明具有如下有益效果：

(1)本发明采用了三模态图像即彩色图像、深度图像和热红外图像进行显著性检测，充分利用三种模态图像的优势增益互补，进而实现在特殊环境例如光线较差、黑暗、阴雨、背景混乱以及显著物体较多等不利场景下拍摄的图像依旧取得良好检测效果的目的；

(2)本发明通过全局特征空洞金字塔融合(GAWFM)模块实现了对三个模态的高级特征更细致的融合；并通过空洞卷积操作得到大尺度特征，对大尺度特征使用特征矩阵相乘的方式，保存了特征图整体间信息的关联性，实现了更深入的三个模态高级特征融合，为解码块提供了高级语义支撑；

(3)本发明通过双模态注意融合(DMAFM)模块实现了跨模态信息的更充分融合，以深度图像为主要引导，另外两模态特图像分别作为辅助补充，两模态相辅相成，再结合使用空洞卷积、矩阵相乘、矩阵相加等方式处理特征，从而实现了更好的跨模态融合；

(4)本发明通过三模态交互加权(TMIWM)模块实现了对DMAFM模块的两个输出进行加权，对三模态信息的互补融合，同时在继承上一层解码特征的基础上，补充了当前层的详细特征，使整个解码过程不断丰富信息。

附图说明

图1为本发明中融合三模态图像的显著性目标检测系统结构示意图；

图2为本发明中融合三模态图像的显著性目标检测系统原理图；

图3为本发明中融合三模态图像的显著性目标检测方法流程图；

图4为本发明中三模态图像的采集示意图，其中(a)为采集过程图，(b)为采集原理图；

图5为本发明中主要模块的运行原理图，其中(a)为DMAFM模块的运行原理图，(b)为AW操作的流程示意图，(c)为GAWFM模块的运行原理图，(d)为TMIWM模块的运行原理图；

图6为本发明中所述融合三模态图像的显著性目标检测方法与现有显著性检测方法的检测结果对比图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。如图1～2所示，一种融合三模态图像的显著性目标检测系统，包括：图像采集模块、图像配准与注释模块、特征提取模块、解码模块；

所述图像采集模块用于采集三模态图像，所述三模态图像包括RGB图像、深度图像、红外热图像；可以用于家庭场景的三模态图像采集，对拍摄的三模态图像进行配准和标注，经过配准和标注后的图像可以用作特征提取模块的输入。

采集图像时，如图4所示，使用现有的机器人身体作为图像采集模块的主干(也可以使用支架代替)，用视觉、深度和温度摄像机组件构成机器人的头部，头部距离地面1.75米，俯角20°。该摄像机组件由两个摄像头组成：一个是动作感应摄像头(Microsoft Kinectv2，包括视觉和深度传感器)和一个热成像摄像头(FLIR-A655sc，焦距:25mm，FOV:25°×19°，光谱:7.5μm-14μm)。这些相机的图像分辨率是不同的，各传感器采集的图像分辨率如下：视觉传感器(V):1920×1080，深度传感器(D):512×424，热成像摄像头(T):640×480。还包括一个辅助采集平台，主要由工作台和墙纸架组成，工作台距离机器人1.8米，距离地面1.05米。

所述图像配准与注释模块用于根据标定参数对采集到的三模态图像进行配准对齐，并对对齐后的图像注释显著对象，得到预处理后的三模态图像；

采集到的图像需要进行配准和注释，因为不同相机的参数不同，所以需要通过校准参数来对齐三个模态的图像。使用两种材料组成的校准面板，校准面板的图案是由12×9的方格组成(每个方格的长宽为30mm)。这个图案印在氧化铝板上，然后安装在玻璃基板上。此外，还使用一个加热板来加热校准板。根据多模态相机的模式图像，利用相机标定工具箱计算出相机的固有参数(KV、KD、KT)和外部参数([RV、D、TV、D]，[RD、T、TD、T])。然后用计算得到的标定参数对获取的多模态图像进行配准，构建最终的对齐图像。对于对齐的多模态图像，使用Adobe Photoshop注释工具手动注释显著对象。

所述特征提取模块用于对预处理后的三模态图像分别提取各自的5级分辨率不同的特征；

特征提取模块用于对输入的RGB图像、深度图像和热红外图像分别提取其各自的粗糙的多级特征，并将所提取的多级特征信息发送给解码模块。具体实施时，在特征提取模块中可使用现有的分类网络VGG和ResNet输入的RGB图像、深度图像和热红外图像分别提取其各自的粗糙的多级特征，本实施例中使用VGG16作为网络的骨架，将RGB图像、深度图像和热红外图像同时输入到三流VGG16中，提取VGG16网络中位于不同深度的5级特征作为粗糙的单模态特征，得到RGB图像、深度图像和热红外图像由低到高的5级分辨率不同的特征，且将从RGB图像所提取5级特征记为V0～V4，从深度图像所提取5级特征记为D0～D4，从热红外图像所提取的5级特征记为T0～T4，具体为：V0/D0/T0，包含64个尺寸为352×352的特征图；V1/D1/T1，包含128个尺寸为176×176的特征图；V2/D2/T2，包含256个尺寸为88×88的特征图；V3/D3/T3，包含512个尺寸为44×44的特征图；V4/D4/T4，包含512个尺寸为22×22的特征图；

解码模块进一步包括GAWFM(Global Attention Weighted Fusion Module，全局注意力融合模块)、五级DMAFM(Dual-Modal Attention Fusion Module，双模态注意力融合模块)、五个TMIWM(Triple-Modal Interactive Weighting Module，三模态交互加权模块)。所述五级DMAFM模块为第一级DMAFM模块、第二级DMAFM模块、第三级DMAFM模块、第四级DMAFM模块、第五级DMAFM模块，五级DMAFM模块中每级包含两个DMAFM模块，共计10个DMAFM模块，他们的区别仅在于其各自的输入和输出不同，他们的结构和执行过程相同。所述五个TMIWM模块为TMIWM模块I、TMIWM模块II、TMIWM模块III、TMIWM模块IV、TMIWM模块V，同样，他们的结构和执行过程相同，只是各自的输入和输出不同。

GAWFM模块用于从特征提取模块获取三个模态的最高级特征V4、D4、T4，先对三个模态使用注意力加权，矩阵相乘相加等操作，整合成一个全局特征，然后对这个全局特征进行空洞卷积、注意力加权与矩阵相乘等操作整合得到全局语义特征，并将所得到的全局语义特征发送给TMIWM模块V；该模块挖掘得到全局语义信息，可以指导后续多模态融合，获取多模态的有用信息，抑制多模态的干扰信息。

TMIWM模块V，用于对GAWFM模块输出的一个特征以及第5级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块IV；

第4级的两个DMAFM模块，用于从特征提取模块获取三个模态的第4级特征V3和D3以及T3和D3；以D3为中间模态，作为连接V3与T3的桥梁，两个DMAFM模块分别对D3和V3、D3和T3进行双模态注意力融合，得到两个输出并发送给TMIWM模块IV；

TMIWM模块IV，用于对TMIWM模块V输出的一个特征以及第4级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块III；

第3级的两个DMAFM模块，用于从特征提取模块获取三个模态的第3级特征V2和D2以及T2和D2；以D2为中间模态，作为连接V2与T2的桥梁，两个DMAFM模块分别对D2和V2、D2和T2进行双模态注意力融合，得到两个输出并发送给TMIWM模块III；

TMIWM模块III，用于对TMIWM模块IV输出的一个特征以及第3级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块II；

第2级的两个DMAFM模块，用于从特征提取模块获取三个模态的第2级特征V1和D1以及T1和D1；以D1为中间模态，作为连接V1与T1的桥梁，两个DMAFM模块分别对D1和V1、D1和T1进行双模态注意力融合，得到两个输出并发送给TMIWM模块II；

TMIWM模块II，用于对TMIWM模块III输出的一个特征以及第2级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征发送给TMIWM模块I；

第1级的两个DMAFM模块，用于从特征提取模块获取三个模态的第1级特征V0和D0以及T0和D0；以D0为中间模态，作为连接V0与T0的桥梁，两个DMAFM模块分别对D0和V0、D0和T0进行双模态注意力融合，得到两个输出并发送给TMIWM模块I；

TMIWM模块I，用于对TMIWM模块II输出的一个特征以及第1级DMAFM模块输出的两个特征进行三模态交互加权融合，融合后的特征进行上采样处理，处理后的特征图进行二值化处理得到最后的显著性图。

特征和输入到GAWFM模块后，如图5(c)所示，在GAWFM模块中对最高级特征进行全局注意力加权融合具体表述为：首先以V4为主要引导，与注意力加权后的D4和T4分别相乘再加得到处理后的RGB图像的高级特征，其次以D4为主要引导，与注意力加权后的V4和T4分别相乘再加得到处理后的深度图像的高级特征，最后T4为主要引导，与注意力加权后的D4和V4分别相乘再加得到处理后的热红外图像的高级特征；紧接着，将RGB图像、深度图像、热红外图像的高级特征进行连接融合，然后，融合后的特征经过一个卷积操作将特征的尺度和通道数转为3*3*256，该特征记为特征A0；接着，该特征A0先通过一个空洞率为1的3*3*128的空洞卷积操作得到特征A1；特征A1经过注意力加权操作后与特征A0再相乘，得到特征A01，然后继续将特征A01通过一个空洞率为2的3.3*128的空洞卷积操作，得到特征A2；特征A2经过注意力加权操作后与特征A01再相乘，得到特征A02，然后继续将特征A02通过一个空洞率为4的3.3*128的空洞卷积操作，得到特征A3；特征A3经过注意力加权操作后与特征A02再相乘，得到特征A03，然后继续将特征A03通过一个空洞率为7的3.3*128的空洞卷积操作，得到特征A4；特征A4经过注意力加权操作后与特征A03再相乘，然后进行自适应池化操作，再进行1*1*128的卷积操作，最后进行上采样操作得到3*3*128的特征A5；将上述特征A1、特征A2、特征A3、特征A4、特征A5进行连接，再经过一个1*1*512的卷积操作，得到深入挖掘三模态信息的高级语义特征，并作为GAWFM模块的输出G^vdt发送给TMIWM模块V。

通过第5级DMAFM模块对三个模态的最高级特征V4、D4、T4进行初步融合，将融合后的两个输出发送给TMIWM模块V与GAWFM模块的输出作进一步的融合；

将三模态中两个模态的高级特征D4和V4输入到其中一个DMAFM模块中进行跨模态融合；同样，另外两个模态的高级特征D4和T4输入到另一个DMAFM模块中进行跨模态融合，这样以来，第五级DMAFM模块得到了两个输出，并发送给TMIWM模块V；

以D4为桥梁模态，V4为一般模态，通过将D4和V4输入到如图5(a)所示的DMAFM模块中，D4和V4在此模块中同等重要，采用对称结构，使用空洞卷积、矩阵相乘、加权和相加等方式融合特征D4和V4，使得跨模态特征得到更加充分的融合，进一步地提取两模态的有用信息和抑制两模态的干扰信息。第5级的另一个DMAFM模块的输入是D4和T4，两个DMAFM模块的结构和运行程序是相同的，区别仅在于两者输入和输出不同。

第5级的两个DMAFM模块中运行程序相同，以其中一个DMAFM模块为例对它们内部的运行程序进行说明，如图5(a)所示，首先对于输入V₄＝F_v∈R^b×c×h×w和D₄＝F_d∈R^b×c×h×w其中V₄和D₄分别表示RGB图像和深度图像的特征图，它们分别使用四个平行的3*3卷积CB(*)将通道数降为原来的四分之一，得到：

F′_vj＝CB(F_v)，F′_dk＝CB(F_d)，(j＝1，2，3，4；k＝1，2，3，4).

其中，CB(*)＝Conv2d+BN+Re lu，F′_vj∈R^b×c/4×h×w，F′_dk∈R^b×c/4×h×w，j和k对应四个平行的操作。

将经过通道处理的F′_vi和F′_dj利用四种不同膨胀率的卷积来挖掘多尺度信息，实现互补信息的深度挖掘。针对四个不同尺度的两个模态特征，采用互注意加权(AW)模块抑制干扰，实现跨模态融合，如图5(b)为AW模块。首先利用四种不同扩张速率的空洞卷积来探索不同尺度的特征(对得到的四种尺度信息的操作相似)。这里以经过卷积处理后的F′_v1、F′_d1，以空洞率D＝1的空洞卷积处理后的特征h₁(F′_v1)为例。利用AW模块生成

的注意力加权特征图。将注意力加权特征图乘以

得到跨模态特征注意力。然后将跨模态特征注意后的结果加到

上，实现RGB图像特征对深度图像特征的权重：

其中，

表示3*3空洞卷积运算，i表示四个平行操作其中之一，膨胀率为n，

表示注意力加权模块。首先利用通道注意机制对特征通道进行加权，然后利用空间注意生成特征加权注意图。同样的原理也适用于深度图像特征对RGB图像特征的权重：

最后，将两个相互注意加权的特征连接起来，得到各分支的输出：

其中CAT表示连接操作。通过串联和卷积操作，将得到的四个支路的输出完全融合。融合后的特征分别以V、D和自身为权重。最后，通过相加得到最终输出

双模态特征V+D的输出表示为：

其中，Conv_3*3代表卷积核为3*3的卷积，β代表BN处理层，σ代表Relu激活函数，第5级另一个DMAFM模块的输出为

将第5级DMAFM模块的两个输出和GAWFM模块的输出输入到TMIWM模块V中，对三模态进行互补整合；

如图5(d)，TMIWM模块V中的运行程序：通过插值、上采样和卷积处理全局(前一阶段GAWFM或TMWIM的输出)，分辨率与当前阶段一致，通道数量减少到128个。这种简单的继承保证了当前处理模块中前一级特征信息的比例。处理后的结果用作该模块的三个分支之一。这个分支可以表示为：

其中upsample表示上采样操作。

DMAFM模块使用D信息作为桥梁，获得V+D和D+T模式之间的注意加权融合输出。因此，设计W模块在空间层面上生成加权特征图，并使用交互乘法实现三模态之间的加权融合。将融合结果添加到未加权输出中。最后，使用卷积将信道数量统一到128个：

其中，w是探索每个特征图在通道维度上的最大值和平均值，得到两个加权特征图。我们使用连接、卷积和激活函数来获得输入特征的加权输出。TMIWM模块y的输出表示为：

TMIWM模块V实现了三模态信息的交互融合，突出了显著区域，有效地抑制了干扰。它有助于在解码过程中补充有价值的详细信息。

通过第4级DMAFM模块对三个模态的特征V3、D3、T3进行初步融合，将融合后的两个输出发送给TMIWM模块IV与TMIWM模块v的输出作进一步的融合，进一步补充细节信息；对于第4级DMAFM模块所运行的程序与第5级DMAFM模块一致，仅仅是输入和输出不同，第4级DMAFM模块的输入为V3+D3和T3+D3，TMIWM模块IV的输入为TMIWM模块V的输出F₅。通过第3级DMAFM模块对三个模态的特征V2、D2、T2进行初步融合，将融合后的两个输出发送给TMIWM模块III与TMIWM模块IV的输出作进一步的融合，进一步补充细节信息；对于第3级DMAFM模块所运行的程序与第5级DMAFM模块一致，仅仅是输入和输出不同。通过第2级DMAFM模块对三个模态的特征V1、D1、T1进行初步融合，将融合后的两个输出发送给TMIWM模块II与TMIWM模块III的输出作进一步的融合，进一步补充细节信息；对于第2级DMAFM模块所运行的程序与第5级DMAFM模块一致，仅仅是输入和输出不同。通过第1级DMAFM模块对三个模态的特征V0、D0、T0进行初步融合，将融合后的两个输出发送给TMIWM模块I与TMIWM模块II的输出作进一步的融合，得到最后的显著性预测图。

第5级两个DMAFM模块的其中一个模块对特征V4与D4进行双模态注意力融合具体表述为：特征V4与D4分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为V4_1和D4_1，V4_1先进行注意力加权，再与D4_1相乘，最后D4_1相加得到特征VD4_1，D4_1先进行注意力加权，再与V4_1相乘，最后V4_1相加得到特征DV4_1，接着将VD4_1与DV4_1进行连接操作得到输出Y5_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Y5_2、Y5_3、Y5_4。最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为22*22的特征，将上述输出Y5_1、Y5_2、Y5_3、Y5_4进行连接、卷积操作得到输出Y5_00；输出Y5_00经过注意力加权分别与V4、D4和Y5_00相乘得到三个输出，这三个输出相加得到RGB图像与深度图像经过DMAFM模块融合后的输出，其通道数为512，尺寸为22*22，并作为TMIWM模块V三个输入的其中之一，记为V4+D4；

第5级两个DMAFM模块中的另一个模块对特征T4与D4进行双模态注意力融合具体表述为：特征T4与D4分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为T4_1和D4_1，T4_1先进行注意力加权，再与D4_1相乘，最后D4_1相加得到特征TD4_1，D4_1先进行注意力加权，再与T4_1相乘，最后T4_1相加得到特征DT4_1，接着将TD4_1与DT4_1进行连接操作得到输出Z5_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Z5_2、Z5_3、Z5_4。最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为22*22的特征，将上述输出Z5_1、Z5_2、Z5_3、Z5_4进行连接、卷积操作得到输出Z5_00；输出Z5_00经过注意力加权分别与T4、D4和Z5_00相乘得到三个输出，这三个输出相加得到温度图像与深度图像经过DMAFM模块融合后的输出，其通道数为512，尺寸为22*22，并作为TMIWM模块V三个输入的其中之一，记为T4+D4；

TMIWM模块V对第5级的2个DMAFM模块的输入和GAWFM模块的输出进行三模态交互加权融合具体表述为：TMIWM模块V有三个输入，首先输入X5_1为GAWFM模块的输出，该输出的通道数为512，尺寸为22*22，先经过上采样和卷积操作，得到一个22*22*128的特征A1；其次输入X5_2为DMAFM模块的输出V4+D4，输入X5_2先分别经过维度最大、维度平均操作，再进行连接操作，然后逐一经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到处理后的V4+D4的特征，接着，处理后的V4+D4的特征与TMIWM模块V的输出T4+D4先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个22*22*128的特征A2；最后输入X5_3为DMAFM模块的输出T4+D4，经过上述维度最大、维度平均、连接、相乘和相加等操作得到一个22*22*128的特征A3；将上述特征A1、A2、A3进行连接并经过3*3*512的卷积操作得到了深入挖掘三模态信息的高级语义特征，并发送给TMIWM模块IV。

第4级两个DMAFM模块的其中一个模块对特征V3与D3进行双模态注意力融合具体表述为：特征V3与D3分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为V3_1和D3_1，V3_1先进行注意力加权，再与D3_1相乘，最后D3_1相加得到特征VD3_1，D3_1先进行注意力加权，再与V3_1相乘，最后V3_1相加得到特征DV3_1，接着将VD3_1与DV3_1进行连接操作得到输出Y4_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Y4_2、Y4_3、Y4_4。最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为44*44的特征，将上述输出Y4_1、Y4_2、Y4_3、Y4_4进行连接操作、卷积操作得到输出Y4_00；输出Y4_00经过注意力加权分别与V3、D3和Y4_00相乘得到三个输出，这三个输出进行相加操作得到RGB图像与深度图像经过DMAFM模块融合后的输出，其通道数为512，尺寸为44*44，并作为TMIWM模块IV三个输入的其中之一，记为V3+D3；

第4级两个DMAFM模块中的另一个模块对特征T3与D3进行双模态注意力融合具体表述为：特征T3与D3分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为T3_1和D3_1，T3_1先进行注意力加权，再与D3_1相乘，最后D3_1相加得到特征TD3_1，D3_1先进行注意力加权，再与T3_1相乘，最后T3_1相加得到特征DT3_1，接着将TD3_1与DT3_1进行连接操作得到输出Z4_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Z4_2、Z4_3、Z4_4。最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为44*44的特征，将上述输出Z4_1、Z4_2、Z4_3、Z4_4进行连接、卷积操作得到输出Z4_00；输出Z4_00经过注意力加权分别与T3、D3和Z4_00相乘得到三个输出，这三个输出进行相加操作得到温度图像与深度图像经过DMAFM模块融合后的输出，其通道数为512，尺寸为44*44，并作为TMIWM模块IV三个输入的其中之一，记为T3+D3；

TMIWM模块IV对第4级的2个DMAFM模块的输入和TMIWM模块V的输出进行三模态交互加权融合具体表述为：TMIWM模块IV有三个输入，首先输入X4_1为TMIWM模块V的输出，该输出的通道数为512，尺寸为22*22，经过上采样和卷积操作，得到一个44*44*128的特征A1；其次输入X4_2为DMAFM模块的输出V3+D3，输入X4_2先分别经过维度最大操作和维度平均操作，再进行连接操作，然后逐一经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到处理后的V3+D3的特征，接着，处理后的V3+D3的特征与DMAFM模块的输出T3+D3先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个44*44*128的特征A2；最后输入X4_3为DMAFM模块的输出T3+D3，经过过上述维度最大、维度平均、连接、相乘和相加等操作得到一个44*44*128的特征A3；将上述特征A1、A2、A3进行连接并经过3*3*512的卷积操作得到了深入挖掘三模态信息的高级语义特征，并发送给TMIWM模块III；

第3级两个DMAFM模块的其中一个模块对特征V2与D2进行双模态注意力融合具体表述为：特征V2与D2分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为V2_1和D2_1，V2_1先进行注意力加权，再与D2_1相乘，最后D2_1相加得到特征VD2_1，D2_1先进行注意力加权，再与V2_1相乘，最后V2_1相加得到特征DV2_1，接着将VD2_1与DV2_1进行连接操作得到输出Y3_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Y3_2、Y3_3、Y3_4最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为88*88的特征，将上述输出Y3_1、Y3_2、Y3_3、Y3_4进行连接、卷积操作得到输出Y3_00；输出Y3_00经过注意力加权分别与V2、D2和Y3_00相乘得到三个输出，这三个输出进行相加操作得到RGB图像与深度图像经过DMAFM模块融合后的输出，其通道数为256，尺寸为88*88，并作为TMIWM模块III三个输入的其中之一，记为V2+D2；

第3级两个DMAFM模块中的另一个模块对特征T2与D2进行双模态注意力融合具体表述为：特征T2与D2分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为T2_1和D2_1，T2_1先进行注意力加权，再与D2_1相乘，最后D2_1相加得到特征TD2_1，D2_1先进行注意力加权，再与T2_1相乘，最后T2_1相加得到特征DT2_1，接着将TD2_1与DT2_1进行连接操作得到输出Z3_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Z3_2、Z3_3、Z3_4最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为88*88的特征，将上述输出Z3_1、Z3_2、Z3_3、Z3_4进行连接操作再经过一个卷积操作得到输出Z3_00；输出Z3_00经过注意力加权分别与T2、D2和Z3_00相乘得到三个输出，这三个输出进行相加操作得到温度图像与深度图像经过DMAFM模块融合后的输出，其通道数为256，尺寸为88*88，并作为TMIWM模块III三个输入的其中之一，记为T2+D2；

TMIWM模块III对第3级的2个DMAFM模块的输入和TMIWM模块IV的输出进行三模态交互加权融合具体表述为：TMIWM模块III有三个输入，首先输入X3_1为TMIWM模块IV的输出，该输出的通道数为512，尺寸为44*44，先经过和卷积操作，得到一个88*88*128的特征A1；其次输入X3_2为DMAFM模块的输出V2+D2，输入X3_2先分别经过维度最大操作和维度平均操作，再进行连接操作，然后逐一经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到处理后的V2+D2的特征，接着，处理后的V2+D2的特征与DMAFM模块的输出T2+D2先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个88*88*128的特征A2；最后输入X3_3为DMAFM模块的输出T2+D2，经过过上述维度最大、维度平均、连接、相乘和相加等操作得到一个88*88*128的特征A3；将上述特征A1、A2、A3进行连接并经过3*3*256的卷积操作得到了深入挖掘三模态信息的高级语义特征，并发送给TMIWM模块II；

第2级两个DMAFM模块的其中一个模块对特征V1与D1进行双模态注意力融合具体表述为：特征V1与D1分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为V1_1和D1_1，V1_1先进行注意力加权，再与D1_1相乘，最后D1_1相加得到特征VD1_1，D1_1先进行注意力加权，再与V1_1相乘，最后V1_1相加得到特征DV1_1，接着将VD1_1与DV1_1进行连接操作得到输出Y2_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Y2_2、Y2_3、Y2_4最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为176*176的特征，将上述输出Y2_1、Y2_2、Y2_3、Y2_4进行连接、卷积操作得到输出Y2_00；输出Y2_00经过注意力加权分别与V1、D1和Y2_00相乘得到三个输出，这三个输出进行相加操作得到RGB图像与深度图像经过DMAFM模块融合后的输出，其通道数为128，尺寸为176*176，并作为TMIWM模块II三个输入的其中之一，记为V1+D1；

第2级两个DMAFM模块中的另一个模块对特征T1与D1进行双模态注意力融合具体表述为：特征T1与D1分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为T1_1和D1_1，T1_1先进行注意力加权，再与D1_1相乘，最后D1_1相加得到特征TD1_1，D1_1先进行注意力加权，再与T1_1相乘，最后T1_1相加得到特征DT1_1，接着将TD1_1与DT1_1进行连接操作得到输出Z2_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Z2_2、Z2_3、Z2_4最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为176*176的特征，将上述输出Z2_1、输出Z2_2、输出Z2_3、输出Z2_4进行连接、卷积操作得到输出Z2_00；输出Z2_00经过注意力加权分别与T1、D1和Z2_00相乘得到三个输出，这三个输出进行相加操作得到温度图像与深度图像经过DMAFM模块融合后的输出，其通道数为128，尺寸为176*176，并作为TMIWM模块II三个输入的其中之一，记为T1+D1；

TMIWM模块II对第2级的2个DMAFM模块的输入和TMIWM模块III的输出进行三模态交互加权融合具体表述为：TMIWM模块II有三个输入，首先输入X2_1为TMIWM模块III的输出，该输出的通道数为256，尺寸为88*88，经过上采样和卷积操作，得到一个176*176*128的特征A1；其次输入X2_2为DMAFM模块的输出V1+D1，输入X2_2先分别经过维度最大操作和维度平均操作，再进行连接操作，然后逐一经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到处理后的V1+D1的特征，接着，处理后的V1+D1的特征与DMAFM模块的输出T1+D1先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个176*176*128的特征A2；最后输入X2_3为DMAFM模块的输出T1+D1，经过过上述维度最大、维度平均、连接、相乘和相加等操作得到一个176*176*128的特征A3；将上述特征A1、A2、A3进行连接并经过3*3*128的卷积操作得到了深入挖掘三模态信息的高级语义特征，并发送给TMIWM模块I；

第1级两个DMAFM模块的其中一个模块对特征V0与D0进行双模态注意力融合具体表述为：特征V0与D0分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为V0_1和D0_1，V0_1先进行注意力加权，再与D0_1相乘，最后D0_1相加得到特征VD0_1，D0_1先进行注意力加权，再与V0_1相乘，最后V0_1相加得到特征DV0_1，接着将VD0_1与DV0_1进行连接操作得到输出Y1_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出用于Y1_2、Y1_3、Y1_4最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为352*352的特征，将上述输出Y1_1、Y1_2、Y1_3、Y1_4进行连接、卷积操作得到输出Y1_00；输出Y1_00经过注意力加权分别与V0、D0和Y1_00相乘得到三个输出，这三个输出进行相加操作得到RGB图像与深度图像经过DMAFM模块融合后的输出，其通道数为64，尺寸为352*352，并作为TMIWM模块I三个输入的其中之一，记为V0+D0；

第1级两个DMAFM模块中的另一个模块对特征T0与D0进行双模态注意力融合具体表述为：特征T0与D0分别通过四个平行的空洞率分别为1、2、4、6的3*3*512空洞卷积操作，经过空洞率为1后的两个特征记为T0_1和D0_1，T0_1先进行注意力加权，再与D0_1相乘，最后D0_1相加得到特征TD0_1，D0_1先进行注意力加权，再与T0_1相乘，最后T0_1相加得到特征DT0_1，接着将TD0_1与DT0_1进行连接操作得到输出Z1_1；同样的其他空洞率的特征经过上述注意力加权、相加、相乘、连接等操作得到输出Z1_2、Z1_3、Z1_4，最后得到深入挖掘特征的四个不同感受野且通道数均为128、尺寸为352*352的特征，将上述输出Z1_1、Z1_2、Z1_3、Z1_4进行连接、卷积操作得到输出Z1_00；输出Z1_00经过注意力加权分别与T0、D0和Z1_00相乘得到三个输出，这三个输出进行相加操作得到温度图像与深度图像经过DMAFM模块融合后的输出，其通道数为64，尺寸为352*352，并作为TMIWM模块I三个输入的其中之一，记为T0+D0；

TMIWM模块I对第1级的2个DMAFM模块的输入和TMIWM模块II的输出进行三模态交互加权融合具体表述为：TMIWM模块I有三个输入，首先输入X1_1为TMIWM模块II的输出，该输出的通道数为128，尺寸为176*176，经过上采样和卷积操作，得到一个352*352*128的特征A1；其次输入X1_2为DMAFM模块的输出V0+D0，输入X1_2先分别经过维度最大操作和维度平均操作，再进行连接操作，然后逐一经过一个3*3*1的卷积、Relu激活函数、3*3*1的卷积，最后经过Sigmoid激活函数，得到处理后的V0+D0的特征，接着，处理后的V0+D0的特征与DMAFM模块的输出T0+D0先相乘再相加，然后经过一个3*3*128的卷积操作，得到一个352*352*128的特征A2；最后输入X1_3为DMAFM模块的输出T0+D0，经过过上述维度最大、维度平均、连接、相乘和相加等操作得到一个352*352*128的特征A3；将上述特征A1、A2、A3进行连接并经过3*3*64的卷积操作，得到了该模块的输出。接着，经过一个3*3*1的卷积操作后，得到一个尺寸为352*352，通道数为1的特征图，最后经过插值和二值化处理得到最终结果图。

如图3所示，一种融合三模态图像的显著性目标检测方法，用于实现上述所述的检测系统，包括：

步骤1：同时采集RGB图像、深度图像和热红外图像作为预处理的三模态图像；采用深度卷积神经网络分别对RGB图像、深度图像和热红外图像提取各自的粗糙的5级特征，其中从RGB图像提取的5级特征分别记为V0～V4，从深度图像提取的5级特征分别记为D0～D4，从热红外图像提取的5级特征分别记为T0～T4。

步骤4：分别提取对齐后的三模态图像各自的粗糙的5级特征(即5级分辨率不同的特征)；

步骤5：对提取到的三模态图像的最高级特征进行全局注意力加权融合得到全局语义特征；包括：

所述双模态注意力融合具体表述为：

步骤6：对RGB图像和深度图像的5级特征逐级进行双模态注意力融合，得到每一级融合后的特征，对热红外图像和深度图像的5级特征逐级进行双模态注意力融合，得到每一级融合后的特征；对融合后的特征再逐级进行三模态交互加权融合，最终生成融合后的显著性图；包括：

所述三模态交互加权融合具体表述为：

目前，还没有公开可用的三模态显著性目标检测方法，为了验证本发明系统及方法的显著性检测性能，将本发明提出的系统及方法与现有显著性检测方法对比，所有的方法都在同一设备上进行统一的训练和测试，数据集则采用公开的VDT-2048。测试结果分别如表1所示。直观地展示了本发明的方法与现有显著性检测方法的量化性能指标对比结果。使用了5个广泛使用的评价指标来验证本发明系统及方法的性能。在表中，评价指标处的向上箭头代表数值大为优，向下箭头代表数值小为优。所述5个评价指标分别为：E_m(E-measure分数)、S_m(S-measure分数)和W_F(加权F-measure)、MAE(平均绝对误差)、F_m(F-measure分数)。MAE的值越低、其他指标的值越高代表显著性检测性能越好。具体地：MAE是逐像素测量预测结果与真值之间的平均绝对差；E_m是增强对齐方法同时考虑了局部像素值和图像级均值；F_m是一个综合考虑精度和召回的指标；W_F是将基本量扩展到非二进制值，并根据它们的位置和邻域来确定权重误差。S_m是结合区域感知的结构相似度Sr和对象感知的结构相似度来评价空间结构相似度。从表1示出的量化指标对比结果可以看出本发明的系统及方法相比于其他现有方法在提取精度上有很大的优势，可以获得较好的显著性检测性能。

表1本发明方法与其他显著性检测方法的量化指标结果

其中，对比的现有技术包括：基于联合学习和密集协作融合框架的RGB-D显著目标检测(简称JL-DCF)、基于学习选择自互注意的RGB-D显著性检测(简称S2MA)、基于深度潜能感知门控注意网络的RGB-D显著目标检测(简称DPANet)、基于分支主干策略网络的RGB-D显著目标检测(简称BBSNet)、基于协作学习的精确RGB-D显著目标检测(简称CONet)、基于条件变分自动编码器的不确定性RGB-D显著性检测(简称UCNet)、基于分层交互网络的RGB-D显著目标检测(简称HAINet)、基于多交互双解码器的RGB-T显著性目标检测(简称MIDD)、基于多交互编解码器的RGB-T显著性目标检测(简称MIED)、RGB-T显著性目标检测(简称ADFNet)。

其中图6第一组是本发明与其他现有的先进的RGB-D显著性检测方法对比图，图6第二组是本发明与其他现有的先进的RGB-T显著性检测方法对比图。直观地对比结果图可以看出，本发明提出的系统及方法在应对光照较弱、黑暗、显著物尺度变化较大以及多显著物等具有挑战性的场景时，可以过滤掉非显著性物的干扰，表现出稳定的显著性检测结果以及清晰地边界，作为首个三模态显著性目标检测方法与双模态相比也具有很大优势。

Claims

1.一种融合三模态图像的显著性目标检测系统，其特征在于，包括：图像采集模块、图像配准与注释模块、特征提取模块、解码模块；

所述特征提取模块用于对对齐后的三模态图像分别提取各自的5级分辨率不同的特征；

2.根据权利要求1所述的一种融合三模态图像的显著性目标检测系统，其特征在于，所述图像配准与注释模块包括：图像配准模块、图像注释模块；

3.根据权利要求1所述的一种融合三模态图像的显著性目标检测系统，其特征在于，所述解码模块包括：GAWFM模块、5级的DMAFM模块、5级的TMIWM模块、每级DMAFM模块中包含2个DMAFM模块；

4.根据权利要求3所述的一种融合三模态图像的显著性目标检测系统，其特征在于，所述5级的TMIWM模块分别记为TMIWM模块I、TMIWM模块II、TMIWM模块III、TMIWM模块IV、TMIWM模块V；

5.一种融合三模态图像的显著性目标检测方法，所述检测方法用于实现权利要求1～4任意一项所述的检测系统，其特征在于，包括：

6.根据权利要求5所述的一种融合三模态图像的显著性目标检测方法，其特征在于，采用深度卷积神经网络分别对RGB图像、深度图像和热红外图像提取各自的粗糙的5级特征，其中从RGB图像提取的5级特征分别记为V0～V4，从深度图像提取的5级特征分别记为D0～D4，从热红外图像提取的5级特征分别记为T0～T4。

7.根据权利要求5所述的一种融合三模态图像的显著性目标检测方法，其特征在于，所述步骤5包括：

8.根据权利要求5所述的一种融合三模态图像的显著性目标检测方法，其特征在于，所述步骤6包括：

9.根据权利要求8所述的一种融合三模态图像的显著性目标检测方法，其特征在于，所述双模态注意力融合具体表述为：

S1.2：对步骤S1.1输出的特征VD_1、VD_2、VD_3、VD_4进行连接操作后，再经过卷积、相乘、相加操作，输出特征VX+DX，该输出与当前所提取到的特征的尺寸和通道一致，其中X∈{0,1,2,3,4}；

S1.3：对步骤S1.1输出的特征TD_1、TD_2、TD_3、TD_4进行连接操作后，再经过卷积、相乘、相加操作，输出特征TX+DX，该输出与当前所提取到的特征的尺寸和通道一致，其中X∈{0,1,2,3,4}。

10.根据权利要求9所述的一种融合三模态图像的显著性目标检测方法，其特征在于，所述三模态交互加权融合具体表述为：