CN113076947A

CN113076947A - 一种交叉引导融合的rgb-t图像显著性检测系统

Info

Publication number: CN113076947A
Application number: CN202110324087.8A
Authority: CN
Inventors: 宋克臣; 王杰; 鲍彦奇; 颜云辉; 李骏; 黄黎明
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-06
Anticipated expiration: 2041-03-26
Also published as: CN113076947B

Abstract

一种交叉引导融合的RGB‑T图像显著性检测系统，属于计算机视觉图像检测技术领域。特征提取模块提取彩色和热红外图像的特征，三级解码块中的每个模块由以两个模态信息各自为主要引导的两部分所组成，每一部分独有一个引导融合(GFM)模块，同时交叉共有跨级增强(CLE)模块和全局辅助增强(GAE)模块。GFM通过使用单一模态信息为主要引导，另一模态信息辅助增强，实现对单一模态信息的深入挖掘和跨模态信息的充分融合。CLE使用前一级引导融合后的特征来增强当前级的信息，GAE是对逐级引导好的信息进一步整合，同时，在最后一级解码块产生最后的显著性图。该系统可深入挖掘两模态信息，更好地融合两模态特征，提高显著性检测效果。

Description

一种交叉引导融合的RGB-T图像显著性检测系统

技术领域

本发明涉及图像显著性检测技术领域，具体涉及一种交叉引导融合的RGB-T图像显著性检测系统。

背景技术

显著性目标检测的目的是检测和分割图像或者视频中在视觉上最吸引人注意的目标或区域。显著性目标检测是机器视觉领域的一个基础性的课题，作为图像理解、动作识别、视频检测和分割、语义分割、目标跟踪、图像检索、行人再识别等的预处理步骤，在近些年受到了广泛的关注。

尽管基于RGB图像即彩色图像的显著性检测已经取得了重大的进步，但是当场景混乱，光线较弱或者黑暗、以及多显著物和显著物尺寸变化较大时，RGB图像含有的颜色、纹理、空间细节等信息就会受到干扰，甚至信息缺失，此时基于单模态的显著性检测方法性能就会明显的下降。因此，一些研究者利用不同模态图像之间的优势互补进一步提高显著性检测的效果。当前被广泛使用的就是基于RGB图像和深度图像的双模态图像的显著性检测方法。深度图像的使用，为显著性检测提供了物体的三维信息，弥补了RGB图像只包含颜色纹理等底层特征的缺点。但是，深度图像本身分辨率较差，图像中噪声信息较多，有用信息较少且可利用率低。因此，结合RGB图像和深度图像的显著性检测方法通常只是将深度图像作为增补信息，对RGB图像进行信息的补充，而且深度图像的使用并没有解决RGB图像在光照条件不好时成像素质差的问题。为了解决上述问题，研究者开始探索一种信息更加丰富的图像即热红外图像(Thermal)，用以结合RGB图像进行双模态图像的显著性检测。由于，热红外摄像机对突出物的成像始终是均匀的。从热红外图像上获取的热红外信息可以帮助检测显著目标，即使在RGB图像背景杂乱、光线较弱或者黑暗等复杂工况下，热红外图像中目标也会是突出的，同时，热红外摄像机的成像不会受到恶劣天气的影响，但是热红外图像相较于RGB图像来说，通常分辨率较低、图像中物体轮廓不是特别清晰。因此，热红外图像与RGB图像具有优势互补的特点，基于RGB-T图像的显著性检测方法能更为准确地检测显著性目标。

目前基于RGB-T图像的显著性检测方法主要有基于无监督的RGB-T图像显著性检测方法和基于深度学习的RGB-T图像显著性检测方法两大类。基于无监督的RGB-T图像显著性检测方法更依赖于手工提取的特征，性能会比基于深度学习的RGB-T图像显著性检测方法差。基于深度学习的RGB-T图像显著性检测方法主要使用编解码的形式。编码即为利用广泛使用的分类网络VGG和ResNet作为特征提取网络，通过不断地卷积池化操作提取输入图像的各级特征，其中低级特征的特征图较大、通道数量较少、含有较多的细节特征，高级特征的特征图较小、通道数量较多、含有较多的语义和位置信息；解码即为对编码过程中提取的各级特征做进一步处理，从高级特征开始逐渐的补充低级细节特征，最后得到预测的显著性图。然而现有基于深度学习的RGB-T图像显著性检测方法存在以下弊端：①处理所提取的两个模态的高级特征时，方法简单，未能深入挖掘两个模态的高级语义和位置信息，无法为之后的特征处理操作提供全局语义支撑；②对提取的两模态特征的融合较浅，仅仅局限在特征的相加、相乘、和通道连接以及三者的结合；与此同时，大部分的方法主要关注于卷积核卷积后的局部特征，忽略了特征整体的之间的联系性，使得融合效果下降；③在解码过程中没有关注两个模态的自有信息，只做简单地融合，由于非显著区域干扰，导致现有的双模态RGB-T显著性检测方法应对具有挑战性的场景时，无法实现优越的性能。

发明内容

针对现有技术存在的问题，本发明提供了一种交叉引导融合的RGB-T图像显著性检测系统，旨在实现更深入的两个模态的高级特征融合和更充分的跨模态融合，以进一步提高显著性检测效果。

本发明的技术方案是：

一种交叉引导融合的RGB-T图像显著性检测系统，包括：

特征提取模块，用于对输入的RGB图像和热红外图像分别提取其各自的粗糙的5级特征，其中从彩色图像所提取5级特征记为R₀～R₄，从热红外图像所提取的5级特征记为T₀～T₄；

解码模块，用于从特征提取模块获取特征信息，并对所获取的RGB图像特征和热红外图像特征逐级进行融合后得到显著性图；

所述解码模块进一步包括：

GFAPF模块，用于从特征提取模块获取两个模态的最高级特征R₄和T₄，对特征R₄和T₄进行整合得到全局语义特征；

三级解码块，为第一级交叉引导融合模块即CGFM1模块、第二级交叉引导融合模块即CGFM2模块和第三级交叉引导融合模块即CGFM3模块；

三个特征聚合模块，为FA1模块、FA2模块和FA3模块；

所述CGFM1模块，用于1)从特征提取模块获取两个模态的最高级特征R₄和T₄以及高级特征R₃和T₃；2)一方面以R₃为主要引导模态，以T₃为辅助模态，将两个模态的特征R₃和T₃进行跨模态融合一次；3)另一方面以T₃为主要引导模态，以R₃为辅助模态，将两个模态的特征R₃和T₃再进行跨模态融合一次；4)对两个模态的最高级特征R₄和T₄进行融合后再进行特征增强；5)从GFAPF模块获取全局语义特征，并对该全局语义特征进行处理使其分辨率与R₃和T₃一致；6)将上述2)、4)、5)得到的结果进行整合作为CGFM1模块的一个输出，将上述3)、4)、5)得到的结果进行整合作为CGFM1模块的另一个输出；

所述FA1模块，用于对CGFM1模块输出的特征进行聚合并将聚合后的特征发送给CGFM2模块；

所述CGFM2模块，用于10)从特征提取模块获取两个模态的特征R₂和T₂，并获取CGFM1模块的两个输出；20)一方面以R₂为主要引导模态，以T₂为辅助模态，将两个模态的特征R₂和T₂进行跨模态融合一次；30)另一方面以T₂为主要引导模态，以R₂为辅助模态，将两个模态的特征R₂和T₂再进行跨模态融合一次；40)对CGFM1模块的两个输出的特征进行融合后再进行特征增强；50)对从FA1模块接收的特征进行处理使其分辨率与R₂和T₂一致；60)将上述20)、40)、50)得到的结果进行整合作为CGFM2模块的一个输出，将上述30)、40)、50)得到的结果进行整合作为CGFM2模块的另一个输出；

所述FA2模块，用于对CGFM2模块输出的特征进行聚合并将聚合后的特征发送给CGFM3模块；

所述CGFM3模块，用于100)从特征提取模块获取两个模态的特征R₁和T₁，并获取CGFM2模块的两个输出；200)一方面以R₁为主要引导模态，以T₁为辅助模态，将两个模态的特征R₁和T₁进行跨模态融合一次；300)另一方面以T₁为主要引导模态，以R₁为辅助模态，将两个模态的特征R₁和T₁再进行跨模态融合一次；400)对CGFM2模块的两个输出的特征进行融合后再进行特征增强；500)对从FA2模块接收的特征进行处理使其分辨率与R₁和T₁一致；600)将上述200)、400)、500)得到的结果进行整合作为CGFM3模块的一个输出，将上述300)、400)、500)得到的结果进行整合作为CGFM3模块的另一个输出；

所述FA3模块，用于对CGFM3模块输出的特征进行聚合并将聚合后的特征进行卷积上采样处理，处理后的特征图进行二值化处理得到最后的显著性图。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，使用分类网络对输入的RGB图像和热红外图像分别提取其各自的粗糙的5级特征。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述GFAPF模块中运行如下程序：首先将R₄和T₄两个高级特征块通过通道连接进行融合，将融合后的特征块经过一个卷积块操作将通道数降低到512；接着，针对融合后的特征块一方面通过四个平行的空洞率分别为1、2、4、6的3*3*128空洞卷积操作，其中在空洞率为2、4、6的3个空洞卷积操作后继续进行全局特征空洞融合操作去深入挖掘特征的显著性信息，最后得到四个不同感受野且通道数均为128、分辨率皆为22*22的特征块，同时另一方面融合后的特征块还经过平均池化、卷积块和插值上采样操作也得到分辨率为22*22，通道数为128的一个特征块；最后通过通道连接操作将上述得到的五个特征块进行整合，使用1*1*512的卷积块将特征通道数降为512，得到深入挖掘两模态信息的高级语义特征。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述全局特征空洞融合操作，包括：a.对输入特征使用一个卷积块降低通道数量并进行降维处理；b.对输入特征使用另一个卷积块降低通道数量；c.对输入特征使用第三个卷积块降低通道数量并进行降维处理；d.将上述a的操作结果和b的操作结果进行矩阵相乘和softmax操作，操作后的结果与步骤c的结果再进行矩阵相乘，矩阵相乘后的结果与输入特征相加得到该操作的输出特征。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，每级解码块又进一步由以上述RGB图像的粗糙的多级特征为引导的交叉引导融合模块即CGFM_r模块和以上述热红外图像的粗糙的多级特征为引导的交叉引导融合模块即CGFM_t模块组成，也即CGFM1模块由CGFM1_r模块和CGFM1_t模块组成，CGFM2模块由CGFM2_r模块和CGFM2_t模块组成，以及CGFM3模块由CGFM3_r模块和CGFM3_t模块组成；而每一CGFM_r模块又由R_GFM模块、GAE模块和CLE模块组成，同样地，CGFM_t模块由T_GFM模块、GAE模块和CLE模块组成，即CGFM1_r模块由R_GFM1模块、GAE1模块和CLE1模块组成；CGFM1_t模块由T_GFM1模块、GAE1模块和CLE1模块组成，其中GAE1模块和CLE1模块为CGFM1_r模块和CGFM1_t模块所共有，同理，CGFM2_r模块由R_GFM2模块、GAE2模块和CLE2模块组成；CGFM12_t模块由T_GFM2模块、GAE2模块和CLE2组成，其中GAE2模块和CLE2模块为CGFM2_r模块和CGFM2_t模块所共有；CGFM3_r模块由R_GFM3模块、GAE3模块和CLE3模块组成；CGFM3_t模块由T_GFM3模块、GAE3模块和CLE3模块组成，其中GAE3模块和CLE3模块为CGFM3_r模块和CGFM3_t模块所共有；

所述CGFM1_r模块，用于接收三个子模块R_GFM1、CLE1和GAE1分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA1模块和CLE2模块；

所述R_GFM1模块，用于从特征提取模块获取两个模态的特征R₃和T₃，且以R₃为主要引导模态，以T₃为辅助模态，将两个模态的特征R₃和T₃进行跨模态融合，且将融合后的特征发送给CGFM1_r模块；

所述GAE1模块，用于接收GFAPF模块发送的全局语义特征，并对全局语义特征进行上采样和卷积操作处理，使其分辨率与R₃和T₃一致，并将处理后的全局语义特征同时发送给CGFM1_r模块和CGFM1_t模块；

所述CLE1模块，用于从特征提取模块获取两个模态的高级特征R₄和T₄；对特征R₄和T₄均进行注意力机制和上采样处理，并将处理后的特征同时发送给CGFM1_r模块和CGFM1_t模块；

所述CGFM1_t模块，用于接收三个子模块T_GFM1、CLE1和GAE1分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA1模块和CLE2模块；

所述T_GFM1模块，用于从特征提取模块获取两个模态的特征R₃和T₃，且以T₃为主要引导模态，以R₃为辅助模态，将两个模态的特征R₃和T₃进行跨模态融合，且将融合后的特征发送给CGFM1_t模块；

所述CGFM2_r模块，用于接收三个子模块R_GFM2、CLE2和GAE2分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA2模块和CLE3模块；

所述R_GFM2模块，用于从特征提取模块获取两个模态的特征R₂和T₂，且以R₂为主要引导模态，以T₂为辅助模态，将两个模态的特征R₂和T₂进行跨模态融合，且将融合后的特征发送给CGFM2_r模块；

所述GAE2模块，用于接收FA1模块发送的特征，并对该特征进行上采样和卷积操作处理，使其分辨率与R₂和T₂一致，并将处理后的全局语义特征同时发送给CGFM2_r模块和CGFM2_t模块；

所述CLE2模块，用于接收CGFM1_r模块发送的特征和CGFM1_t模块发送的特征，并对这两个特征进行注意力机制和上采样处理，并将处理后的特征同时发送给CGFM2_r模块和CGFM2_t模块；

所述CGFM2_t模块，用于接收三个子模块T_GFM2、CLE2和GAE2分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA2模块和CLE3模块；

所述T_GFM2模块，用于从特征提取模块获取两个模态的特征R₂和T₂，且以T₂为主要引导模态，以R₂为辅助模态，将两个模态的特征R₂和T₂进行跨模态融合，且将融合后的特征发送给CGFM2_t模块；

所述CGFM3_r模块，用于接收三个子模块R_GFM3、CLE3和GAE3分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA3模块；

所述R_GFM3模块，用于从特征提取模块获取两个模态的特征R₁和T₁，且以R₁为主要引导模态，以T₁为辅助模态，将两个模态的特征R₁和T₁进行跨模态融合，且将融合后的特征发送给CGFM3_r模块；

所述GAE3模块，用于接收FA2模块发送的特征，并对该特征进行上采样和卷积操作处理，使其分辨率与R₁和T₁一致，并将处理后的全局语义特征同时发送给CGFM3_r模块和CGFM3_t模块；

所述CLE3模块，用于接收CGFM2_r模块发送的特征和CGFM2_t模块发送的特征，并对这两个特征进行注意力机制和上采样处理，并将处理后的特征同时发送给CGFM3_r模块和CGFM3_t模块；

所述CGFM3_t模块，用于接收三个子模块T_GFM3、CLE3和GAE3分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA3模块；

所述T_GFM3模块，用于从特征提取模块获取两个模态的特征R₁和T₁，且以T₁为主要引导模态，以R₁为辅助模态，将两个模态的特征R₁和T₁进行跨模态融合，且将融合后的特征发送给CGFM3_t模块。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述R_GFM1模块和R_GFM2模块2运行如下程序：

首先对于输入F_r∈R^b×c×h×w用一个3*3卷积块CB(*)，对于输入F_t∈R^b×c×h×w使用两个3*3卷积块CB(*)将通道数降低为原来的一半，对处理后的F_r以及处理后的其中一个F_t通过v(*)对其各自的维度进行处理：

F_r'＝v(CB(F_r))，

F_t'＝v(CB(F_t))，

其中，CB(*)＝Conv2d+BN+Relu，v(*)代表着降维处理，F_r'∈R^b×c/2×N，F_t'∈R^b ^×c/2×N,其中N＝w×h；

将经过降维处理的F_r'和F_t'通过矩阵相乘，使得特征间整体进行融合，接着经过一个softmax函数归一化，结果再与未经过处理的F_t进行矩阵相乘，最后通过一个1*1*c卷积块将通道数变为c，处理后得到的特征是在热红外图像特征辅助下的RGB图像特征，作为一个权重最后再加上F_r得到融合后的特征；

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述CLE模块中运行如下程序：对输入特征首先使用通道连接，接着依次通过通道注意力机制和插值上采样操作将特征图上采样到44*44，最后使用3*3*128的卷积块将特征通道数降低为128；

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述GAE模块中运行如下程序：使用插值上采样操作将输入特征中的特征图分辨率调整为44*44，最后通过一个3*3*128的卷积块将通道数统一为128，得到GAE模块的输出。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述FA1模块和FA2模块中均运行如下程序：首先将输入通过通道连接，接着通过注意力机制突出显著性区域，再使用一个3*3*512的卷积块将通道数统一为512，将处理后的特征使用四个平行的操作保持分辨率不变，将通道数统一为128，所述四个平行的操作中三个操作是使用三个卷积核不同的卷积加上Relu激活函数操作，另一个操作是使用最大池加卷积以及Relu激活，最后将四个平行操作的的输出通过通道连接，完成对输入特征的聚合；所述FA3模块中运行如下程序：运行与FA1模块和FA2模块中相同的运行程序对输入特征进行聚合，然后通过一个1*1卷积将通道数减少为1，接着通过双线性插值将分辨率上采样到原图分辨率大小，得到最后的显著性预测图。

进一步地，根据所述的交叉引导融合的RGB-T图像显著性检测系统，所述R_GFM3模块中运行如下程序：将输入特征R₁和T₁分别通过简单的通道注意力机制处理去关注特征图中显著性区域，接着将通道注意力机制处理后的R1特征使用3*3的卷积加上Sigmoid激活函数处理，将处理后的结果与注意力机制处理后的T1特征相乘得到的结果再相加，最后与注意力机制处理后的R1通道连接，得到该模块的输出。

与现有技术相比，本发明具有如下有益效果：

(1)本发明采用了双模态图像即彩色图像和热红外图像进行显著性检测，充分利用两种模态图像的优势增益互补，进而实现在特殊环境例如光线较差、黑暗、阴雨、背景混乱以及显著物体较多等不利场景下拍摄的图像依旧取得良好检测效果的目的。

(2)本发明通过全局特征空洞金字塔融合(GFAPF)模块实现了对两个模态的高级特征更细致的融合；并通过空洞卷积操作得到大尺度特征，对大尺度特征使用特征矩阵相乘的方式，保存了特征图整体间信息的关联性，实现了更深入的两个模态高级特征融合，为解码块提供了高级语义支撑；

(3)本发明通过引导融合(GFM)模块实现了跨模态信息的更充分融合，以单模态特征图为主要引导，另一模态特征图作为辅助补充，两模态相辅相成，再结合使用矩阵相乘的方式处理特征，从而实现了更好的跨模态融合；

(4)本发明通过交叉引导融合(CGFM)模块，实现了在解码过程中，各自模态特征独有以及高级辅助特征交叉共有的特点，使得特征逐步丰富，提高了显著性检测效果。

附图说明

图1为本发明交叉引导融合的RGB-T图像显著性检测系统结构示意图；

图2中a)为GFAPF模块运行程序流程图；b)为GFAF操作的流程示意图；c)为R_GFM1/R_GFM2模块运行程序流程图d)为GCFM模块运行程序流程图；e)为FA1模块运行程序流程图；f)为R_GFM3/T_GFM3/模块运行程序流程图；

图3为本发明交叉引导融合的RGB-T图像显著性检测系统与现有显著性检测方法的检测结果对比图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

图1是本发明实施例的交叉引导融合的RGB-T图像显著性检测系统的结构示意图，所述交叉引导融合的RGB-T图像显著性检测系统，包括特征提取模块和解码模块。

所述特征提取模块，用于对输入的RGB图像和热红外图像分别提取其各自的粗糙的多级特征，并将所提取的多级特征信息发送给解码模块。

具体实施时，在特征提取模块中可使用现有的分类网络VGG和ResNet对输入的RGB图像和热红外图像分别提取其各自的粗糙的多级特征，本实施例中使用VGG16作为网络的骨架，将彩色图像和热红外图像同时输入到双流VGG16中，提取VGG16网络中位于不同深度的5级特征作为粗糙的单模态特征，得到彩色图像和热红外图像由低到高的5级分辨率不同的特征，且将从彩色图像所提取的由低到高的5级特征记为R₀～R₄，将从热红外图像所提取的由低到高的5级特征记为T₀～T₄，具体为：

R₀/T₀，包含64个尺寸为352×352的特征图；

R₁/T₁，包含128个尺寸为176×176的特征图；

R₂/T₂，包含256个尺寸为88×88的特征图；

R₃/T₃，包含512个尺寸为44×44的特征图；

R₄/T₄，包含512个尺寸为22×22的特征图；

继续参考图1，所述解码模块用于从特征提取模块获取所需的特征信息，并对RGB图像的粗糙的多级特征和热红外图像的粗糙的多级特征进行逐级融合得到所需的显著性图。需要说明的是，考虑到第一级特征R0和T0具有较高的分辨率和计算复杂度以及较低的信息贡献，所以本实施例抛弃这两个最低级特征块。

参考图1，本发明实施例提供的解码模块进一步包括GFAPF(Global FeatureAtrous Pyramid Fusion，全局特征空洞金字塔融合)模块、三个FA(Feature Aggregation，特征聚合)模块和三级解码块。所述三个FA模块为第一FA模块(以下简称FA1模块)、第二FA模块(以下简称FA2模块)、第三FA模块(以下简称FA3模块)，这三个FA模块的区别仅在于其各自的输入和输出不同，他们的结构和执行过程相同。所述三级解码块为第一级交叉引导融合(Cross-Guided Fusion Module，CGFM)模块(以下简称CGFM1模块)、第二级交叉引导融合模块(以下简称CGFM2模块)和第三级交叉引导融合模块(以下简称CGFM3模块)，该三级解码块同样是基于CGFM模块的结构和执行过程，只是各自的输入和输出不同。

本发明实施例提供的每级解码块又进一步由以上述RGB图像的粗糙的多级特征为引导的交叉引导融合模块(以下简称CGFM_r模块)和以上述热红外图像的粗糙的多级特征为引导的交叉引导融合模块(以下简称CGFM_t模块)组成，即CGFM1模块由CGFM1_r模块和CGFM1_t模块组成，CGFM2模块由CGFM2_r模块和CGFM2_t模块组成，以及CGFM3模块由CGFM3_r模块和CGFM3_t模块组成。而每一CGFM_r模块又由R_GFM(RGB Guided Fusion Module，彩色图像特征引导的融合模块)模块、GAE(the Global Auxiliary Enhancement，全局辅助增强)模块和CLE(Cross-Level Enhancement，跨级增强)模块组成，同样地，CGFM_t模块由T_GFM模块、GAE模块和CLE模块组成，即CGFM1_r模块由R_GFM1模块、GAE1模块和CLE1模块组成；CGFM1_t模块由T_GFM1模块、GAE1模块和CLE1模块组成，其中GAE1模块和CLE1模块为CGFM1_r模块和CGFM1_t模块所共有，同理，CGFM2_r模块由R_GFM2模块、GAE2模块和CLE2模块组成；CGFM12_t模块由T_GFM2模块、GAE2模块和CLE2组成，其中GAE2模块和CLE2模块为CGFM2_r模块和CGFM2_t模块所共有；CGFM3_r模块由R_GFM3模块、GAE3模块和CLE3模块组成；CGFM3_t模块由T_GFM3模块、GAE3模块和CLE3模块组成，其中GAE3模块和CLE3模块为CGFM3_r模块和CGFM3_t模块所共有。

继续参考图1，所述GFAPF模块，用于从特征提取模块获取两个模态的最高级特征R₄和T₄，使用空洞卷积与矩阵相乘的操作对特征R₄和T₄进行整合得到全局语义特征，并将所得到的全局语义特征发送给GAE1模块；通过该模块可有效解决背景技术部分所述的基于深度学习的显著性检测的第一个弊端；

所述FA1模块，用于对CGFM1_r模块输出的特征和CGFM1_t模块输出的特征进行聚合，并将聚合后的特征发送给第二级解码块中的GAE2模块；

所述FA2模块，用于对CGFM2_r模块输出的特征和CGFM2_t模块输出的特征进行聚合，并将聚合后的特征发送给第三级解码块中的GAE3模块；

所述FA3模块，用于对CGFM3_r模块输出的特征和CGFM3_t模块输出的特征进行聚合，并对聚合后的结果进行卷积上采样处理，处理后的特征图进行二值化处理得到最后的显著性图。

所述CGFM1模块，用于对两个模态的高级特征R₃和T₃以及R₄和T₄进行探索融合，挖掘其语义以及位置信息，引导第二级解码块CGFM2解码；

所述CGFM1_r模块，用于接收三个子模块R_GFM1、CLE1和GAE1分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA1模块和CLE2模块。

所述GAE1模块，用于接收GFAPF模块发送的全局语义特征，并对全局语义特征进行上采样和卷积操作处理，使其分辨率与R₃和T₃一致，并将处理后的全局语义特征同时发送给CGFM1_r模块和CGFM1_t模块。

所述CLE1模块，用于从特征提取模块获取两个模态的高级特征R₄和T₄；对特征R₄和T₄均进行注意力机制和上采样处理，并将处理后的特征同时发送给CGFM1_r模块和CGFM1_t模块。

所述CGFM2模块，用于对两个模态的特征R₂和T₂进行融合，在第一级解码块的基础上补充细节信息，引导第三级解码块CGFM3解码；

所述GAE2模块，用于接收FA1模块发送的特征，并对该特征进行上采样和卷积操作处理，使其分辨率与R₂和T₂一致，并将处理后的全局语义特征同时发送给CGFM2_r模块和CGFM2_t模块。

所述CLE2模块，用于接收CGFM1_r模块发送的特征和CGFM1_t模块发送的特征，并对这两个特征进行注意力机制和上采样处理，并将处理后的特征同时发送给CGFM2_r模块和CGFM2_t模块。

所述CGFM3模块，用于对两个模态的特征R₁和T₁进行融合，在第二级解码块的基础上补充细节信息，引导第三级解码块CGFM3解码；

所述CGFM3_r模块，用于接收三个子模块R_GFM3、CLE3和GAE3分别发送的特征，对所接收的特征进行整合，并将整合后的特征发送给FA3模块。

所述GAE3模块，用于接收FA2模块发送的特征，并对该特征进行上采样和卷积操作处理，使其分辨率与R₁和T₁一致，并将处理后的全局语义特征同时发送给CGFM3_r模块和CGFM3_t模块。

所述CLE3模块，用于接收CGFM2_r模块发送的特征和CGFM2_t模块发送的特征，并对这两个特征进行注意力机制和上采样处理，并将处理后的特征同时发送给CGFM3_r模块和CGFM3_t模块。

基于上述交叉引导融合的RGB-T图像显著性检测系统的图像显著性检测方法，包括：

步骤1：对输入的RGB图像和热红外图像分别提取其各自的粗糙的多级特征；

如上所述，本实施例使用VGG16作为网络的骨架，分别提取彩色图像和热红外图像由低到高的5级分辨率不同的特征，且将从彩色图像所提取的由低到高的5级特征记为R₀～R₄，将从热红外图像所提取的由低到高的5级特征记为T₀～T₄。

步骤2：将两个模态的最高级特征R₄和T₄输入到GFAPF模块中，得到深入挖掘以及融合处理后的全局语义特征；

特征R₄和T₄输入到GFAPF模块后，如图2(a)所示，在GFAPF模块中运行如下程序：首先将R₄和T₄两个高级特征块通过通道连接进行融合，将融合后的特征块经过一个卷积块操作将通道数降低到512；接着，针对融合后的特征块一方面通过四个平行的空洞率分别为1、2、4、6的3*3*128空洞卷积操作，其中空洞率为2、4、6的3个空洞卷积操作后继续进行全局特征空洞融合(Global Feature Atrous Fusion，GFAF)操作去深入挖掘特征的显著性信息，最后得到四个不同感受野且通道数均为128、分辨率皆为22*22的特征块，同时另一方面融合后的特征块还依次经过平均池化、卷积块和插值上采样操作也得到分辨率为22*22，通道数为128的一个特征块；最后通过通道连接操作将上述得到的五个特征块进行整合，使用1*1*512的卷积块将特征通道数降为512，得到深入挖掘两模态信息的高级语义特征。

所述全局特征空洞融合操作GFAF，如图2(b)所示，包括：a.对输入特征使用一个卷积块降低通道数量并进行降维处理；b.对输入特征使用另一个卷积块降低通道数量；c.对输入特征使用第三个卷积块降低通道数量并进行降维处理；d.将步骤a.和步骤b.的操作结果进行矩阵相乘和softmax操作，操作后的结果与步骤c的结果再进行矩阵相乘，矩阵相乘后的结果与输入特征相加得到该操作的输出特征。

步骤3：通过第一级解码块CGFM1对两个模态的高级特征R₃和T₃以及R₄和T₄进行融合，挖掘语义以及位置信息；

步骤3.1：将两个模态的高级特征R₃和T₃输入到R_GFM1模块，以R₃为主要引导模态，T₃为辅助模态，通过R_GFM1模块对特征R₃和T₃进行跨模态融合；

以R₃为主要引导模态，T₃为辅助模态，通过将R₃和T₃输入到如图2(c)所示的R_GFM模块中，以R₃为主和T₃为辅，使用矩阵相乘的方式融合特征R₃和T₃，使得跨模态特征得到更加充分的融合。R_GFM1模块和R_GFM2模块中运行的程序都是相同的，二者的区别仅在于输入不同。

R_GFM1模块和R_GFM2模块中运行的程序相同(T_GFM1模块和T_GFM2模块中运行的程序与R_GFM1模块和R_GFM2模块中运行的程序相同，仅在于输入不同)，在本步骤中，以R_GFM1模块为例对它们内部的运行程序进行说明，如图2(c)所示，首先对于输入R₃＝F_r∈R^b ^×c×h×w(对于T_GFM1模块和T_GFM2模块此处的输入为T_3或2＝F_t∈R^b×c×h×w)用一个3*3卷积块CB(*)，对于输入T₃＝F_t∈R^b×c×h×w(对于T_GFM1模块和T_GFM2模块此处的输入为R_3或2＝F_r∈R^b×c×h×w)使用两个3*3卷积块CB(*)将通道数降低为原来的一半，对处理后的F_r以及处理后的其中一个F_t通过v(*)对其各自的维度进行处理：

F_r'＝v(CB(F_r))，

F_t'＝v(CB(F_t))，

其中，CB(*)＝Conv2d+BN+Relu，v(*)代表着降维处理，F_r'∈R^b×c/2×N，F_t'∈R^b ^×c/2×N,其中N＝w×h。

将经过降维处理的F_r'和F_t'通过矩阵相乘，使得特征间整体进行融合，接着经过一个softmax函数归一化，结果再与未经过处理的F_t进行矩阵相乘，最后通过一个1*1*c卷积块将通道数变为c，处理后得到的特征是在热红外图像特征辅助下的RGB图像特征，作为一个权重最后再加上F_r得到融合后的特征，整个融合模块R_GFM表示为：

其中，

代表矩阵相乘，p(*)表示维度变换。即R^b×c/2×N→R^b×N×c/2，S(*)表示softmax操作，CB'(*)和v'(*)表示CB(*)以及v(*)的逆运算，即恢复输入时的通道数以及维度。在R_GFM中，以F_r为主要的引导流，F_t为辅助引导流，深度探索F_t中的相关性互补信息去增强同级特征F_r。

步骤3.2：将两个模态的高级特征R₄和T₄输入到CLE1模块，对于特征R₄和T₄进行跨级增强；

如图2(d)所示，在CLE1模块中运行的程序：首先使用通道连接，将高级特征R₄和T₄进行融合，接着依次通过一个简单的通道注意力机制和插值上采样操作将特征图上采样到44*44，最后使用3*3*128的卷积块将特征通道数降低为128，使得R₄和T₄高级特征得到的跨级辅助增强后输出，实现该过程的CLE模块可以表示为：

其中，

代表前一级的两个输出，即CLE模块的输入，up(*)表示插值上采样，其余同前所述，该模块的输出记为f_l。

CLE2模块和CLE3模块中运行的程序与CLE1模块中运行的程序均相同，不同之处仅在于针对的输入特征不同。

步骤3.3：在GAE1模块中对从GFAPF模块接收的全局语义特征进行上采样和卷积操作处理，使其分辨率与R₃和T₃一致；

如图2(d)所示，在GAE1模块中运行的程序为：使用插值上采样操作将输入的全局语义特征中的特征图分辨率调整为44*44，最后通过一个3*3*128的卷积块将通道数统一为128，得到GAE1模块的输出。

根据上述交叉引导融合的RGB-T图像显著性检测系统，GAE2模块和GAE3模块内部运行的程序与GAE1模块内部运行的程序均相同，不同之处仅在于针对的输入特征不同。

步骤3.4：对经分别经过步骤3.1、3.2和3.3处理的特征进行整合；

如图2(d)所示，对分别经过步骤3.1、3.2和3.3处理而得到的特征进行相加后，再经过3*3*512的卷积块将通道数恢复为512，得到CGFM1_r模块的输出。

步骤3.5：将两个模态的高级特征R₃和T₃输入到T_GFM1模块，以T₃为主要引导模态，R₃为辅助模态，通过T_GFM1模块对特征R₃和T₃进行跨模态融合；

以F_t为主要的引导流，F_r为辅助流，首先对于输入T₃＝F_t∈R^b×c×h×w用一个3*3卷积块CB(*)，对于输入R₃＝F_r∈R^b×c×h×w使用两个3*3卷积块CB(*)将通道数降低为原来的一半，然后继续按照与R_GFM1模块中其他相同的运行程序运行，同理得到以热红外图像特征为引导的融合模块T_GFM可以表示为：

根据上述，T_GFM1模块和T_GFM2模块内部运行的程序与R_GFM1模块和R_GFM2模块内部运行的程序相同，仅在于输入不同。

步骤3.6：对经分别经过步骤3.5、3.2和3.3处理的特征进行整合；

对分别经过步骤3.5、3.2和3.3处理而得到的特征进行相加后，再经过经过3*3*512的卷积块将通道数恢复为512，得到CGFM1_t模块的输出。

步骤4：在FA1模块中对第一级解码块CGFM1中CGFM1_r模块输出的特征和CGFM1_t模块输出的特征进行聚合，并将聚合后的特征发送给第二级解码块中的GAE2模块；

将第一级解码块CGFM1中CGFM1_r模块输出的特征和CGFM1_t模块输出的特征均输入FA1模块，对二者进行聚合，如图2(e)所示，在FA1模块中运行的程序为：首先将CGFM1_t模块输出的特征和CGFM1_r模块输出的特征通过通道连接进行简单的整合，接着通过简单的注意力机制突出显著性区域，再使用一个3*3*512的卷积块将通道数统一为512，将处理后的特征使用四个平行的操作保持分辨率不变，将通道数统一为128，所述四个平行的操作中三个操作是使用三个卷积核不同的卷积加上Relu激活函数操作，另一个操作是使用最大池加卷积以及Relu激活，最后将四个平行操作的的输出通过通道连接，完成对第一级解码块输出特征的聚合。

根据上述交叉引导融合的RGB-T图像显著性检测系统，FA2模块模块和FA1模块内部运行的程序相同，不同之处仅在于针对的输入特征不同。

步骤5：通过第二级解码块CGFM2对两个模态的的特征R₂和T₂进行融合，在第一级解码块的基础上进一步补充细节信息；

进入第二个解码块，与第一个解码块操作类似，不同点在于跨级增强CLE2模块使用第一级解码块的两个不同模态引导的输出即CGFM1_t模块的输出和CGFM1_r模块的输出作为输入，和全局辅助增强GAE2模块的输入使用经过FA1聚合后的CGFM1_t模块的输出和CGFM1_r模块的输出，第二级解码块CGFM2的本级特征为R₂和T₂，其余操作与CGFM1一致，不再详述。其中的GAE模块表示为：

CB(up(f_g))＝f_g'，

其中，f_g为FA聚合后的输出，f_g'为当前模块的输出。

步骤6：通过第三级解码块CGFM3对两个模态的的特征R₁和T₁进行融合，在第二级解码块的基础上进一步补充细节信息；

对于第三级解码块CGFM3，由于本级解码块对应的特征R₁和T₁中的特征图较大，分辨率较高(176*176)，采用解码块CGFM1和CGFM2中的引导融合模块GFM的操作计算复杂度较大，内存占用较高，所以对于CGFM3中的跨模态融合使用了一个更加简单的引导融合模块GFM。根据上述，R_GFM3模块和T_GFM3模块的内部运行程序相同，仅仅是针对的输入特征不同。这里以R_GFM3模块为例说明第三级解码块中的引导融合模块内部的运行程序，如图2(f)所示，首先将输入特征R₁和T₁分别通过简单的通道注意力机制处理去关注特征图中显著性区域，接着将通道注意力机制处理后的R1特征(对于T_GFM3模块此处为T1特征)使用3*3的卷积加上Sigmoid激活函数处理，将处理后的结果与注意力机制处理后的T1特征(对于T_GFM3模块此处为R1特征)相乘得到的结果再相加，最后与注意力机制处理后的R1通道连接，得到最后RGB图像特征引导融合后的结果。以F_r表示R1特征，R_GFM的处理过程可以表示为：

[CA(F_r)+CA(F_r)×sig(Conv2d(CA(F_t))),CA(F_t)]＝f_r

其中，CA(*)为简单的进行自适应平均池和自适应最大池处理的通道注意力机制，Conv2d(*)为3*3的卷积，sig(*)为Sigmod激活处理函数，[*]为通道连接操作。同理可得第三级解码块中的CGFM3中以T引导的融合模块T_GFM表示为:

[CA(F_t)+CA(F_t)×sig(Conv2d(CA(F_r))),CA(F_r)]＝f_t。

通过GFM，深入挖掘辅助模态特征去弥补和增强引导模态特征，实现更加充分的跨模态融合。

步骤7：将第三解码块CGFM3模块中CGFM3_r模块的输出特征和CGFM3_t模块的输出特征首先通过与FA1模块和FA2模块中相同的运行程序进行聚合，然后通过一个1*1卷积将通道数减少为1，接着通过双线性插值将分辨率上采样到原图分辨率大小，得到最后的显著性预测图。

另外，考虑到第一级特征R0和T0具有较高的分辨率和计算复杂度以及较低的信息贡献，所以本发明抛弃了这两块的低级特征。

为了验证本发明系统及方法的显著性检测性能，将本发明提出的系统及方法以及现有显著性检测方法在三个公开的RGBT显著性检测数据集VT5000、VT1000、VT821上进行测试，测试结果分别如表1、表2和表3所示，直观地展示了本发明的方法与现有显著性检测方法的量化性能指标对比结果。使用了5个广泛使用的评价指标来验证本发明系统及方法的性能。在表中，评价指标处的向上箭头代表数值大为优，向下箭头代表数值小为优。所述5个评价指标分别为：最新提出的E_m(E-measure)、S_m(S-measure分数)和W_F(加权F-measure)、MAE(平均绝对误差)、F_m(F-measure)分数。MAE的值越低、其他指标的值越高代表显著性检测性能越好。具体地：MAE是逐像素测量预测结果与真值之间的平均绝对差；E_m增强对齐方法同时考虑了局部像素值和图像级均值；F_m是一个综合考虑精度和召回的指标；W_F将基本量扩展到非二进制值，并根据它们的位置和邻域来确定权重误差。S_m结合区域感知的结构相似度Sr和对象感知的结构相似度来评价空间结构相似度。从表1、表2和表3示出的量化指标对比结果可以看出本发明的系统及方法相比于其他现有方法在提取精度上有很大的优势，可以获得较好的显著性检测性能。

表1 VT5000数据集上与其他显著性检测方法的量化指标结果

表2 VT1000数据集上与其他现有显著性检测方法的量化指标对比结果

表3 VT821数据集上与其他现有显著性检测方法的量化指标对比结果

图3是本发明的系统及方法与其他现有的先进的显著性检测方法的检测结果对比图。其中，图3(a)为输入的彩色图像；图3(b)为输入的热红外图像；图3(c)为显著性真值标记图；图3(d)为本发明系统及方法的检测结果图；图3(e)、(f)、(g)、(h)、(i)、(j)、(k)、(l)、(m)、(n)分别为ADFNet方法、MIED方法、LTCR方法、MTMR方法、SGDL方法、M3S-NIR方法、PoolNet方法、GCPANet方法、JL-DCF方法、RD3D方法各自对应的检测结果图。其中RD3D和JL-DCF为RGBD双模态彩色-深度显著性检测方法；PoolNet和GCPANet为单模态的RGB显著性检测方法；其余的方法都为RGBT的双模态显著性检测模型，其中LTCR、SGDL、MTMR、M3S-NIR为传统无监督方法，MIED以及ADFNet为有监督的深度学习方法。直观地对比结果图可以看出，本发明提出的系统及方法在应对光照较弱、黑暗、显著物尺度变化较大以及多显著物等具有挑战性的场景时，可以过滤掉非显著性物的干扰，表现出稳定的显著性检测结果以及清晰地边界，实现超越其他显著性检测模型的优越的性能。

应当理解的是，本领域技术人员在本发明技术构思的启发下，在不脱离本发明内容的基础上，可以根据上述说明做出各种改进或变换，这仍落在本发明的保护范围之内。

Claims

1.一种交叉引导融合的RGB-T图像显著性检测系统，其特征在于，包括：

所述解码模块进一步包括：

三个特征聚合模块，为FA1模块、FA2模块和FA3模块；

2.根据权利要求1所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，使用分类网络对输入的RGB图像和热红外图像分别提取其各自的粗糙的5级特征。

3.根据权利要求1所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述GFAPF模块中运行如下程序：首先将R₄和T₄两个高级特征块通过通道连接进行融合，将融合后的特征块经过一个卷积块操作将通道数降低到512；接着，针对融合后的特征块一方面通过四个平行的空洞率分别为1、2、4、6的3*3*128空洞卷积操作，其中在空洞率为2、4、6的3个空洞卷积操作后继续进行全局特征空洞融合操作去深入挖掘特征的显著性信息，最后得到四个不同感受野且通道数均为128、分辨率皆为22*22的特征块，同时另一方面融合后的特征块还经过平均池化、卷积块和插值上采样操作也得到分辨率为22*22，通道数为128的一个特征块；最后通过通道连接操作将上述得到的五个特征块进行整合，使用1*1*512的卷积块将特征通道数降为512，得到深入挖掘两模态信息的高级语义特征。

4.根据权利要求3所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述全局特征空洞融合操作，包括：a.对输入特征使用一个卷积块降低通道数量并进行降维处理；b.对输入特征使用另一个卷积块降低通道数量；c.对输入特征使用第三个卷积块降低通道数量并进行降维处理；d.将上述a的操作结果和b的操作结果进行矩阵相乘和softmax操作，操作后的结果与步骤c的结果再进行矩阵相乘，矩阵相乘后的结果与输入特征相加得到该操作的输出特征。

5.根据权利要求1所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，每级解码块又进一步由以上述RGB图像的粗糙的多级特征为引导的交叉引导融合模块即CGFM_r模块和以上述热红外图像的粗糙的多级特征为引导的交叉引导融合模块即CGFM_t模块组成，也即CGFM1模块由CGFM1_r模块和CGFM1_t模块组成，CGFM2模块由CGFM2_r模块和CGFM2_t模块组成，以及CGFM3模块由CGFM3_r模块和CGFM3_t模块组成；而每一CGFM_r模块又由R_GFM模块、GAE模块和CLE模块组成，同样地，CGFM_t模块由T_GFM模块、GAE模块和CLE模块组成，即CGFM1_r模块由R_GFM1模块、GAE1模块和CLE1模块组成；CGFM1_t模块由T_GFM1模块、GAE1模块和CLE1模块组成，其中GAE1模块和CLE1模块为CGFM1_r模块和CGFM1_t模块所共有，同理，CGFM2_r模块由R_GFM2模块、GAE2模块和CLE2模块组成；CGFM12_t模块由T_GFM2模块、GAE2模块和CLE2组成，其中GAE2模块和CLE2模块为CGFM2_r模块和CGFM2_t模块所共有；CGFM3_r模块由R_GFM3模块、GAE3模块和CLE3模块组成；CGFM3_t模块由T_GFM3模块、GAE3模块和CLE3模块组成，其中GAE3模块和CLE3模块为CGFM3_r模块和CGFM3_t模块所共有；

6.根据权利要求5所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述R_GFM1模块和R_GFM2模块2运行如下程序：

F_r'＝v(CB(F_r))，

F_t'＝v(CB(F_t))，

其中，CB(*)＝Conv2d+BN+Relu，v(*)代表着降维处理，F_r'∈R^b×c/2×N，F_t'∈R^b×c/2×N,其中N＝w×h；

将经过降维处理的F_r'和F_t'通过矩阵相乘，使得特征间整体进行融合，接着经过一个softmax函数归一化，结果再与未经过处理的F_t进行矩阵相乘，最后通过一个1*1*c卷积块将通道数变为c，处理后得到的特征是在热红外图像特征辅助下的RGB图像特征，作为一个权重最后再加上F_r得到融合后的特征。

7.根据权利要求5所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述CLE模块中运行如下程序：对输入特征首先使用通道连接，接着依次通过通道注意力机制和插值上采样操作将特征图上采样到44*44，最后使用3*3*128的卷积块将特征通道数降低为128。

8.根据权利要求5所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述GAE模块中运行如下程序：使用插值上采样操作将输入特征中的特征图分辨率调整为44*44，最后通过一个3*3*128的卷积块将通道数统一为128，得到GAE模块的输出。

9.根据权利要求5所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述FA1模块和FA2模块中均运行如下程序：首先将输入通过通道连接，接着通过注意力机制突出显著性区域，再使用一个3*3*512的卷积块将通道数统一为512，将处理后的特征使用四个平行的操作保持分辨率不变，将通道数统一为128，所述四个平行的操作中三个操作是使用三个卷积核不同的卷积加上Relu激活函数操作，另一个操作是使用最大池加卷积以及Relu激活，最后将四个平行操作的的输出通过通道连接，完成对输入特征的聚合；

所述FA3模块中运行如下程序：运行与FA1模块和FA2模块中相同的运行程序对输入特征进行聚合，然后通过一个1*1卷积将通道数减少为1，接着通过双线性插值将分辨率上采样到原图分辨率大小，得到最后的显著性预测图。

10.根据权利要求5所述的交叉引导融合的RGB-T图像显著性检测系统，其特征在于，所述R_GFM3模块中运行如下程序：将输入特征R₁和T₁分别通过简单的通道注意力机制处理去关注特征图中显著性区域，接着将通道注意力机制处理后的R1特征使用3*3的卷积加上Sigmoid激活函数处理，将处理后的结果与注意力机制处理后的T1特征相乘得到的结果再相加，最后与注意力机制处理后的R1通道连接，得到该模块的输出。