CN116051950A

CN116051950A - 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测

Info

Publication number: CN116051950A
Application number: CN202211075069.1A
Authority: CN
Inventors: 袁梦雅; 孟令兵; 时雪涵
Original assignee: Anhui Institute of Information Engineering
Current assignee: Anhui Institute of Information Engineering
Priority date: 2022-09-03
Filing date: 2022-09-03
Publication date: 2023-05-02

Abstract

本发明涉及计算机视觉技术领域，具体为跨层次跨模态双注意力融合的三流RGB‑D显著性目标检测，包括如下步骤：S1：编码阶段，首先，在特征提取阶段，采用相同的模块提取RGB特征和深度图特征，在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互，跨模态双注意力融合模块包括全局注意力和局部注意力，双注意力模块能够关注不同维度空间的显著性目标的特征。本发明通过在编码阶段，采用跨模态双注意力融合模块逐层融合RGB特征和Depth特征，进行跨模态渐进式信息的双向交互，融合的交互特征能够提取显著性目标更丰富的特征，实现融合特征的共性和互补性，完成跨模态的有效融合。

Description

跨层次跨模态双注意力融合的三流RGB-D显著性目标检测

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及跨层次跨模态双注意力融合的三流RGB-D显著性目标检测。

背景技术

在面对复杂的自然场景时，人类视觉系统具有快速搜索并定位感兴趣区域和目标的能力。通过将视觉注意力机制引入到计算机视觉中，可以优化计算资源，使视觉信息的处理更符合人眼视觉特征。显著性目标检测旨在自动识别不同场景中的显著性区域，已广泛地应用于分割、重定向、检索、编码、分类等任务。近年来，图像显著性目标检测取得了令人瞩目的进展。实际上，人类视觉系统还具有感知场景中深度信息的能力，深度信息可以作为彩色图的互补信息，应用到显著性目标检测任务中。随着相机设备的快速发展，深度图的获取变得越来越便捷，促进了RGB-D显著性目标检测的研究；

立体图像(RGB-D图像)数据为场景描述提供了彩色和深度两种模态信息，更接近于人类真实的视觉感知系统，两种模态信息相辅相成、互为补充，可以提供更加全面的数据表达方法，有利于进一步增强显著性检测等任务的性能。近年来，深度学习技术的蓬勃发展极大地促进了显著性检测任务的性能提升。Qu等人提出了一种结合顶底层显著性线索与卷积神经网络(CNN)的RGB-D图像显著性目标检测方法。Han等人提出了双流RGB-D显著检测网络，并将RGB网络结构迁移到深度视角。Chen等人提出了一种多尺度-多路径融合网络实现RGB-D显著性目标检测，升级了传统的双流融合架构。Chen等人提出了一种三流注意力感知的RGB-D显著性目标检测网络，并通道注意力机制实现了自适应选择跨模态互补特征。Zhao等人首先利用对比度先验来增强深度信息，然后通过流体金字塔集成网络实现了RGB-D显著性目标检测。Li等人提出了一种基于交织融合的RGB-D显著性检测网络，通过交织融合方式步进式融合跨模态的互补信息。Piao等人提出了一种多尺度递归的RGB-D显著性网络，在复杂场景中获得了较好的检测性能；

显著性目标检测(SOD)旨在从输入图像中识别出最引人注意的目标，其作为预处理步骤，已经被广泛应用许多计算机视觉领域，例如图像检索、图像分割、视频分割、图像内容编辑、目标跟踪等.之前的很多研究工作将RGB图像输入模型进行端到端的训练，在简单场景下模型能够准确的检测出显著性目标，但是对于复杂场景下难以精准的检测出显著性目标。

为此，提出一种跨层次跨模态双注意力融合的三流RGB-D显著性目标检测方法。

发明内容

本发明的目的在于提供跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，包括如下步骤：

S1：编码阶段，首先，在特征提取阶段，采用相同的模块提取RGB特征和深度图特征，在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互，跨模态双注意力融合模块包括全局注意力和局部注意力，双注意力模块能够关注不同维度空间的显著性目标的特征；

S2：解码阶段，通过跨层次特征融合模块，从全局和局部的角度考虑特征图空间的关系，利用加强后的特征图产生两种注意力模块，即全局注意力和局部注意力，分别提取了显著性目标不同空间维度的重要性，为了更加充分完成跨模态信息的融合，提取模态特征之间的共性和差异性，获取后的全局注意力和局部注意力同时与RGB特征图和深度特征图相乘，进而产生浅层的特征图与深层的特征图，通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域；

S3：最后，将最有效的显著性特征送入到1×1的卷积核中，通过上采样的方法生成与真值图大小相同、通道数为1的二值预测显著图，通过与真值图做损失来反馈整个模型。

优选的，在S1中，在编码阶段采用两个平行的主干网络分别提取RGB图像特征和深度图特征，主干网络采用的是Resnet50，模型初始化参数在ImageNet训练上得到。

优选的，在S1中，RGB特征图和深度特征图经过一次3×3的卷积运算后进行相加，相加后的特征图(记为Rrdc)同时具有显著性目标的RGB特征和深度图特征。

优选的，在S2中，所述浅层的特征图分辨率高，包含丰富的空间结构信息，可以有效地提取显著性目标的边缘信息。

优选的，在S2中，所述层的特征图分辨率低，包含丰富的语义信息，可以有效地对显著性目标进行精准的定位。

优选的，在每层的上采样融合浅层特征和深层特征时都引入全局上下文特征，可以弥补深层语义信息的淡化，在每层都能增强模型对显著性目标精准的定位。

优选的，通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域，所以将全局上下文特征融入解码过程中可以减少背景信息的干扰。

与现有技术相比，本发明的有益效果是：

1、本发明通过在编码阶段，采用跨模态双注意力融合模块逐层融合RGB特征和Depth特征，进行跨模态渐进式信息的双向交互，融合的交互特征能够提取显著性目标更丰富的特征，实现融合特征的共性和互补性，完成跨模态的有效融合；

2、本发明通过在解码阶段，采用跨层次特征融合模块，能够减小显著性物体被背景吞噬的影响，有助于准确检测出显著区域，逐步引导网络生成更精准、更清晰、更完整的目标对象，提高模型在复杂场景中的检测效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的跨模态双注意力融合模块方法流程图；

图2为本发明的跨层次特征融合模块方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图2，本发明提供一种技术方案：

本发明在编码阶段采用两个平行的主干网络分别提取RGB图像特征和深度图特征，主干网络采用的是Resnet50，模型初始化参数在ImageNet训练上得到；

首先，在特征提取阶段，采用相同的模块提取RGB特征和深度图特征，在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互；

对于显著性目标来说，RGB图像和深度图是对其不同维度的描述形式，受到SE和CBAM的启发，本发明提出一种跨模态双注意力融合模块-全局注意力和局部注意力，双注意力模块能够关注不同维度空间的显著性目标的特征，能够更充分的挖掘出模态间的差异性和互补性，融合的交叉特征具有显著性目标更丰富的特征，可以提取到更具有辨别力的显著性目标特征。首先，RGB特征图和深度特征图经过一次3×3的卷积运算后进行相加，相加后的特征图(记为Rrdc)同时具有显著性目标的RGB特征和深度图特征，突出了显著性目标的共性特征。对于显著性检测来说，特征图的空间包含显著性目标不同的语义信息通过衡量不同空间位置的重要程度，加强显著性目标区域的特征信息，首先，在编码阶段，采用跨模态双注意力融合模块逐层融合RGB特征和深度特征，进行跨模态渐进式信息的双向交互，融合的交互特征能够提取显著性目标更丰富的特征，实现融合特征的共性和互补性，完成跨模态的有效融合；

本发明在解码阶段采用跨层次特征融合模块：本发明分别从全局和局部的角度考虑特征图空间的关系，利用加强后的特征图产生两种注意力模块，即全局注意力和局部注意力，分别提取了显著性目标不同空间维度的重要性，为了更加充分完成跨模态信息的融合，提取模态特征之间的共性和差异性，获取后的全局注意力和局部注意力同时与RGB特征图和深度特征图相乘。

浅层的特征图分辨率高，包含丰富的空间结构信息，可以有效地提取显著性目标的边缘信息；

深层的特征图分辨率低，包含丰富的语义信息，可以有效地对显著性目标进行精准的定位。通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域，所以将全局上下文特征融入解码过程中可以减少背景信息的干扰；

所以本发明在每层的上采样融合浅层特征和深层特征时都引入全局上下文特征，可以弥补深层语义信息的淡化，在每层都能增强模型对显著性目标精准的定位。

通过不同的卷积核提取特征，形成非线性聚合特征，在层层解码时可以有效感知显著性目标丰富的特征，更近一步消除背景对显著性目标的影响，最后，将最有效的显著性特征送入到1×1的卷积核中，通过上采样的方法生成与真值图大小相同、通道数为1的二值预测显著图，通过与真值图做损失来反馈整个模型；在解码阶段，本发明提出一个跨层次特征融合模块，能够减小显著性物体被背景吞噬的影响，有助于准确检测出显著区域，逐步引导网络生成更精准、更清晰、更完整的目标对象，提高模型在复杂场景中的检测效果。本发明涉及显著性目标检测与分割。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于，包括如下步骤：

2.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于：在S1中，在编码阶段采用两个平行的主干网络分别提取RGB图像特征和深度图特征，主干网络采用的是Resnet50，模型初始化参数在ImageNet训练上得到。

3.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于：在S1中，RGB特征图和深度特征图经过一次3×3的卷积运算后进行相加，相加后的特征图(记为Rrdc)同时具有显著性目标的RGB特征和深度图特征。

4.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于：在S2中，所述浅层的特征图分辨率高，包含丰富的空间结构信息，可以有效地提取显著性目标的边缘信息。

5.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于：在S2中，所述层的特征图分辨率低，包含丰富的语义信息，可以有效地对显著性目标进行精准的定位。

6.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于：在每层的上采样融合浅层特征和深层特征时都引入全局上下文特征，可以弥补深层语义信息的淡化，在每层都能增强模型对显著性目标精准的定位。

7.根据权利要求6所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测，其特征在于：通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域，所以将全局上下文特征融入解码过程中可以减少背景信息的干扰。