CN114091583A

CN114091583A - 基于注意机制和跨模态融合的显著目标检测系统与方法

Info

Publication number: CN114091583A
Application number: CN202111310653.6A
Authority: CN
Inventors: 冯正勇; 崔志强; 王峰; 杨新秀; 刘强; 张昱林
Original assignee: China West Normal University
Current assignee: China West Normal University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-25

Abstract

本发明公开了一种基于注意机制和跨模态融合的显著目标检测系统与方法，属于计算机视觉领域，其包括：首先，提出了一个多尺度残差注意模块分别从RGB分支中提取丰富且重要的全局外观和细节信息，从深度分支中捕获重要的空间结构信息。其次，从相同尺度和不同尺度的跨模态的视角提出了一个密集融合模块对提取高层的RGB特征和深度特征进行融合，产生一个初始显著图。最后，通过提出的边界细化模块使用两分支的低层特征来细化初始显著图中目标的边界，使得出的最终显著图包含敏锐的边界和完整的突出目标。

Description

基于注意机制和跨模态融合的显著目标检测系统与方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于注意机制和多尺度跨模态融合的显著目标检测系统与方法。

背景技术

显著目标检测旨在模拟人类的视觉感知系统自主的检测出给定图像上最重要、最吸引人的突出目标。它已经应用在各种计算机视觉任务中，例如：图像分割，视觉追踪，目标识别，图像检索等。在最近几年，随着深度学习的快速发展，RGB-D显著目标检测取得较大的进步。但是，当处理具有挑战的场景图像时，如：背景杂乱，前景背景相似，低对比度等，一些现有的方法不能够完整的检测出图像中的突出目标。

在RGB-D显著目标检测领域，RGB图像包含丰富的外观线索和位置信息，而深度图像提供有用的空间结构，3D布局信息，对于RGB图像中的外观线索是重要的互补信息。为了检测得出完整的显著图，我们需要考虑两个重要的问题：1)如何分别从RGB图像和深度图像中提取丰富且重要的特征信息，2)如何在RGB特征和深度特征之间进行有效的多尺度跨模态融合。

目前，显著目标检测方法主要面临以下困难：

1.对于特征提取方面，当前大多检测方法没有考虑到骨干网络提取的每层特征信息量大且存在冗余问题，以及没有考虑提取的特征信息在空间和通道上的差异性，而直接使用。

2.对于特征融合方面，现有的融合策略大多划分为三种：早期融合，中期融合，晚期融合。早期融合方法没有考虑两种图像间的差异，而进行直接的拼接会破坏两种图像固有的内部特性，最终会带来不满意的预测结果；后期融合方法没有重点关注RGB图像包含的外观信息和深度图像包含的空间结构信息之间的分层信息互补，直接对最终的结果融合并不能充分的探索模态间的信息相关性；而中期融合可以有效的解决两种模态间存在的差异问题，能够充分的探索两种模态间的互补性。

目前，对于显著目标检测进行了大量研究，提出了许多方法。文献Y.Piao,W.Ji,J.Li,M.Zhang,and H.Lu,“Depth-Induced Multi-Scale Recurrent Attention Networkfor Saliency Detection,”in 2019IEEE/CVF International Conference on ComputerVision(ICCV)提出了一个深度细化模块融合多层次的互补RGB和深度特征，然后把融合的特征送进深度诱导的多尺度加权模块和循环注意模块进行显著性检测；文献Z.Liu,S.Shi,Q.Duan,W.Zhang,and P.Zhao.Salient object detection for RGB-D image by singlestream recurrent convolution neural network.Neurocomputing,363:46–57,2019把RGB和深度图像拼接作为四通道输入骨干网络中产生多层特征，然后利用深度循环卷积神经网络由深至前处理每层特征，最后融合每层的显著图产生最终的结果；文献N.Wang andX.Gong.Adaptive fusion for RGB-Dsalient object detection.IEEE Access,7:55277–55284,2019分别把RGB和深度图像送进RGB显著预测流和深度显著预测流得出两个显著图，然后通过一个显著性融合模块产生最终的结果；文献Hao Chen,Youfu Li,and DanSu.Multi-modal fusion network with multi-scale multi-path and cross-modalinteractions for rgb-d salient object detection.Pattern Recognition,86:376–385,2019提出了一个多尺度多路径融合的跨模态交互网络进行显著目标检测。

以上方法，要不没有考虑到提取的特征信息存在冗余问题且没有重点之分，要不没有考虑到RGB图像和深度图像之间的内部差异，要不没有充分的探索两个模态间的互补性，因此检测出的显著图不具备较为完整的突出目标。

发明内容

本发明提供一种基于注意机制和多尺度跨模态融合的显著目标检测系统与方法，旨在解决的技术问题是：现有方法在提取特征信息上存在冗余且没有重点之分以及模态间不充分交互的技术问题。

考虑到现有技术的上述问题，根据本发明公开的一个方面，本发明采用以下技术方案：

一种基于注意机制和多尺度跨模态融合的显著目标检测方法，其包括：

S1.彩色图像和深度图像分别送入骨干网络中提取两个模态的不同尺度的分层特征；

S2.将由所述骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块中，分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息；

S3.将所述高三层特征送到密集融合模块中以探索模态间的互补信息，并加以利用产生一个初始显著图；

S4.通过一个边界细化模块利用从两个分支提取的低层特征来细化初始显著图中的突出目标，产生最终显著图。

为了更好地实现本发明，进一步的技术方案是：

进一步地，所述骨干网络采用ResNet。

进一步地，所述ResNet采用ResNet50。

进一步地，所述S1步骤中，分别从彩色图像和深度图像提取不同尺度分层特征的方法包括：

输入骨干网络中的彩色图像和深度图像分辨率采用256x256；

经过骨干网络的5个卷积块{Conv1，Conv2，Conv3，Conv4，Conv5}得出两个分支的侧输出特征{R₁/D₁，R₂/D₂，R₃/D₃，R₄/D₄，R₅/D₅}，对应的分辨率分别为输入图像分辨率的{1/2，1/4，1/8，1/16，1/32}；

对两个分支得出的侧输出特征应用一个1x1的卷积层将通道维度降低为{64，64，64，64，64}。

进一步地，所述S2步骤中，将骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块以提取特征信息的方式包括：

R_i＝MSRA(r_i)i＝1，2，3，4，5

D_i＝MSRA(d_i)i＝1，2，3，4，5

其中，MSRA代表多尺度残差注意模块，R_i和D_i分别代表经过多尺度残差注意模块输出的RGB特征和深度特征。

进一步地，所述S3步骤中，将高三层特征送到密集融合模块中产生初始显著图的方式包括：

首先，对高三层RGB特征{R₃，R₄，R₅}和深度特征{D₃，D₄，D₅}执行相同尺度的跨模态融合，把尺度相同的特征送入密集块，得到3个混合特征图，经过整合得出一个融合的特征图F_fuse1，具体操作如下：

F_ij＝Dense(R_i，D_j)，i＝j∈{3，4，5}

F_fuse1＝DFM1(F₃₃，F₄₄，F₅₅)

上式中，Dense代表一个密集块，DFM1代表相同尺度融合的密集融合模块；

其次，对高三层RGB特征{R₃，R₄，R₅}和深度特征{D₃，D₄，D₅}执行不同尺度的跨模态融合，不同尺度的特征两两结合通过密集块会得到6个混合特征图，之后经过两个密集融合模块产生两个特征图F_fuse2和F_fuse3，具体操作如下：

F_ij＝Dense(R_i，D_j)，i＝j∈({3，4，5}且i≠j

F_fuse2＝DFM2(F₃₄，F₃₅，F₄₅)

F_fuse3＝DMF2(F₄₃，F₅₃，F₅₄)

上式中，DMF2代表不同尺度融合的密集融合模块；

最后，把得到的3个融合特征相加产生一个初始显著图，即：

上式中，

代表元素相加操作。

进一步地，所述S4步骤中，产生最终显著图的方式包括：

首先，对经过多尺度残差注意模块提取的低层RGB特征{R₁，R₂}和深度特征{D₁，D₂}执行如下操作，产生两个特征图F₁和F₂：

上式中，

代表元素相加操作；

然后，用上式产生的两个特征图来细化初始显著图，产生两个细化后的特征图

和

其操作如下：

上式中，

和

分别代表元素相加和元素相乘操作，UP代表上采样操作；

最后，对两个细化后的特征图

和

进行拼接操作，产生最终的显著图S_fin，其操作如下：

上式中，UP、Cat和Conv分别代表上采样操作，连接操作和一个3×3卷积层。

本发明还可以是：

一种基于注意机制和多尺度跨模态融合的显著目标检测系统，其包括：

特征提取模块，使用骨干网络提取彩色图像和深度图像的不同尺度的分层特征；

多尺度残差注意模块，用于分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息；

密集融合模块，用于根据所述高三层特征，探索模态间的互补信息，并加以利用产生一个初始显著图；

边界细化模块，用于从两个分支提取的低层特征来细化初始显著图中的突出目标，产生最终显著图。

进一步地，所述密集融合模块包括：

对高三层RGB特征{R₃，R₄，R₅}和深度特征({D₃，D₄，D₅}执行相同尺度的跨模态融合，把尺度相同的特征送入密集块，得到3个混合特征图，经过整合得出一个融合的特征图F_fuse1，具体操作如下：

F_ij＝Dense(R_i，D_j)，i＝j∈{3，4，5}

F_fuse1＝DFM1(F₃₃，F₄₄，F₅₅)

对高三层RGB特征({R₃，R₄，R₅}和深度特征({D₃，D₄，D₅}执行不同尺度的跨模态融合，不同尺度的特征两两结合通过密集块会得到6个混合特征图，之后经过两个密集融合模块产生两个特征图F_fuse2和F_fuse3，具体操作如下：

F_ij＝D_ense(R_i，D_j)，i＝j∈{3，4，5}且i≠j

F_fuse2＝DFM2(F₃₄，F₃₅，F₄₅)

F_fuse3＝DMF2(F₄₃，F₅₃，F₅₄)

上式中，DMF2代表不同尺度融合的密集融合模块；

把得到的3个融合特征相加产生一个初始显著图，即：

上式中，

代表元素相加操作。

进一步地，所述边界细化模块包括：

对经过多尺度残差注意模块提取的低层RGB特征{R₁，R₂}和深度特征{D₁，D₂}执行如下操作，产生两个特征图F₁和F₂，其为：

上式中，

代表元素相加操作；

用上式产生的两个特征图来细化初始显著图，产生两个细化后的特征图

和

其操作如下：

上式中，

和

分别代表元素相加和元素相乘操作，UP代表上采样操作；

对两个细化后的特征图

和

进行拼接操作，产生最终的显著图S_fin，其操作如下：

与现有技术相比，本发明的有益效果之一是：

本发明的一种基于注意机制和多尺度跨模态融合的显著目标检测方法与系统，通过加入提出的多尺度残差注意模块从骨干网络中提取丰富且重要的特征信息，很好的解决了以往方法在提取特征信息上存在冗余且没有重点之分的问题；另外提出的由密集融合模块和边界细化模块构成的中间融合策略，充分的挖掘了模态间的互补信息，也避免了早期融合和晚期融合策略中存在的问题。在检测如前景背景相似、多目标、背景杂乱等挑战的场景图像时，相比以前的方法，本发明能检测出更完整的突出目标和敏锐的边界细节。

附图说明

为了更清楚的说明本申请文件实施例或现有技术中的技术方案，下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅是对本申请文件中一些实施例的参考，对于本领域技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图得到其它的附图。

图1为根据本发明一个实施例的网络总体结构示意图。

图2为根据本发明一个实施例的多尺度残差注意模块示意图。

图3a为根据本发明一个实施例的相同尺度的密集融合模块示意图。

图3b为根据本发明一个实施例的不同尺度的密集融合模块示意图。

图4为根据本发明一个实施例的边界细化模块示意图。

图5为根据本发明一个实施例的显著目标检测方法与现有方法的对比结果示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

如图1至图4所示，一种基于注意机制和多尺度跨模态融合的显著目标检测方法，其包括如下步骤：

S1.彩色图像和深度图像分别送入骨干网络中提取两个模态的不同尺度的分层特征；该骨干网络优选ResNet网络，更优选的是采用ResNet50；

S2.将由所述骨干网络从两种图像提取的不同尺度的分层特征送入多尺度残差注意模块中，分别从彩色分支和深度分支中提取丰富且重要的特征，该丰富且重要的特征包含高三层特征和低层特征的特征信息；

S3.将上述提取的丰富且重要的高三层特征送到密集融合模块中以探索模态间的互补信息，并加以利用产生一个初始显著图；

上述实施例的步骤S1中，利用骨干网络分别从RGB图像和深度图像中提取不同尺度的分层特征，具体为：

输入骨干网络中的彩色图像和深度图像分辨率采用256x256，一般利用ResNet50作为骨干网络来提取多层RGB特征和深度特征；

为了便于后续模块功能的实现，分别对RGB分支和深度分支应用1×1的卷积层来降低它们的通道维度为{64，64，64，64，64}。

上述实施例的S2步骤中，将骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块以提取特征信息的方式包括：

R_i＝MSRA(r_i)i＝1，2，3，4，5

D_i＝MSRA(d_i)i＝1，2，3，4，5

再如图2所示，对输入多尺度残差注意模块的RGB特征r_i和深度特征d_i，首先都通过5个分支，从上至下，经过第一个分支输出一个特征图r_i ¹/d_i ¹，具体如下：

其中，conv1和conV3分别代表1x1和3x3的卷积层。

经过第二，三，四分支后，每个分支得出一个特征图，具体如下：

α_i＝CA(r_i/d_i)β_i＝SA(r_i/d_i)

其中，CA和SA分别代表通道注意和空间注意，a_i和β_i分别表示输入特征经过通道注意和空间注意后的权重特征图，conv1、conv3、conv5和conv7分别代表1x1、3x3、5x5和7x7的卷积层，d＝3，5，7分别代表卷积膨胀率为3，5，7。

第五个分支仅由一个1x1的卷积层构成，用于降低通道数目，即：

最后，将前4个分支进行拼接，再与最后一个分支相加形成残差结构，得出输出特征，即：

上式中，Cat代表拼接操作，

代表元素相加操作。

上述S3步骤中，将高三层特征送到密集融合模块中产生初始显著图，具体为：

首先，相同尺度的密集融合模块如图3a所示，对提取的高三层RGB特征{R₃，R₄，R₅}和深度特征{D₃，D₄，D₅}，通过3个经典的密集块来执行相同尺度的跨模态融合产生3个混合特征图，然后进行整合为一个融合特征图F_fuse1，具体操作如下：

F_ij＝Dense(R_i，D_j)，i＝j∈{3，4，5}

F_fuse1＝DFM1(F₃₃，F₄₄，F₅₅)

上式中，Dense代表一个密集块，DFM1代表相同尺度融合的密集融合模块；通过上式，可以得到3个的特征图{F₃₃，F₄₄，F₅₅)，然后进行下述操作：

其中，上式中UP₂和UP₄代表2倍和4倍上采样操作，Conv代表一个3×3的卷积操作，

代表元素加操作，Cat代表连接操作。

其次，不同尺度的密集融合模块如图3b所示，对提取的高三层RGB特征{R₃，R₄，R₅)和深度特征{D₃，D₄，D₅}，通过6个经典的密集块来执行不同尺度的跨模态融合产生6个混合特征图，然后进行整合为2个融合特征图F_fuse2和F_fuse3，具体操作如下：

F_ij＝Dense(R_i，D_j)，i＝j∈{3，4，5}且i≠j

其中，上式中Dense代表一个密集块，通过上式，我们会得到6个特征图(F₃₄，F₃₅，F₄₅，F₄₃，F₅₃，F₅₄)，然后我们分别对前三个以及后三个特征图整合，得到2个融合特征图，其具体操作为：

其中，上式中UP₂代表2倍上采样操作，Conv代表一个3×3的卷积操作，

代表元素加操作，Cat代表连接操作。类似的，把后三个特征图通过上述操作也可以得到一个融合的特征图F_fuse3。

最后，初始显著图S_ini如下所示：

上式中

代表元素加操作。

上述步骤S4，利用提取丰富且重要的低两层特征细化初始显著图，得出最终的显著图，具体为：

边界细化模块如图4所示，首先，对经过多尺度残差注意模块提取的低层RGB特征{R₁，R₂}和深度特征{D₁，D₂}执行如下操作，产生两个特征图F₁和F₂：

上式中，

代表元素相加操作。

和

其操作如下：

上式中，

和

分别代表元素相加和元素相乘操作，UP代表上采样操作。

最后，对两个细化后的特征图

和

进行拼接操作，产生最终的显著图S_fin，其操作如下：

上式中，UP，Cat和Conv分别代表上采样操作，连接操作和一个3×3卷积层。

对于上述显著目标检测方法的实现，本发明还公开了一种基于注意机制和多尺度跨模态融合的显著目标检测系统，其包括：

特征提取模块，使用骨干网提取彩色图像和深度图像的不同尺度的分层特征；

以及上述各模块中对应设置实现上述实施例中各方法的功能单元。

在本发明中，通过与现有的显著目标检测模型对比证明了其有效性以及在效果上的优势。对比的模型包括：

(1)H.Chen and Y.Li.Three-stream attention-aware network for rgb-dsalient object detection.IEEE Trans.Image Process.，28：2825-2835，2019.

(2)Jia-Xing Zhao，Yang Cao，Deng-Ping Fan，Ming-Ming Cheng，Xuan-Yi Li，and Le Zhang.Contrast prior and fluid pyramid integration for rgbd salientobject detection.In IEEE Conf.Comput.Vis.Pattern Recog.，2019.

(3)Yongri Piao，Wei Ji，Jingjing Li，Miao Zhang，and Huchuan Lu.Depth-induced multi-scale recurrent attention network for saliency detection.InInt.Conf.Comput.Vis.，pages7254-7263，2019.

(4)Li G，Liu Z and Ling H.ICNet：Information Conversion Network forRGB-D Based Salient Object Detection.IEEE Transactions on Image Processing,pages 4873-4884,2020.

(5)Yongri Piao,Zhengkun Rong,Miao Zhang,W.Ren,and Huchuan Lu.A2dele:Adaptive and attentive depth distiller for efficient rgb-d salient objectdetection.IEEE Conf.Comput.Vis.Pattern Recog.,pages 9057–9066,2020.

(6)Nian Liu,N.Zhang,and J.Han.Learning selective self-mutualattention for rgb-d saliency detection.IEEE Conf.Comput.Vis.Pattern Recog.,pages 13753–13762,2020.

选择NJUD中的1485个样本，NLPR中的700个样本和DUT中的800个样本对所有模型训练，NJUD，NLPR和DUT中的剩余样本以及整个LFSD和SIP整个数据集用于测试。对于所有指标，本发明中的显著目标检测方法表现出良好的性能，在四个评价指标以及五个具有挑战的数据集下，大量的实验证实了我们提出的模型架构优于当前先进的显著目标检测方法，具体参数对比结果如图5所示。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、等，指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说，结合任一实施例描述一个具体特征、结构或者特点时，所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说，在本申请公开和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外，对于本领域技术人员来说，其他的用途也将是明显的。