CN114332559A

CN114332559A - 一种基于自适应跨模态融合机制和深度注意力网络的rgb-d显著性目标检测方法

Info

Publication number: CN114332559A
Application number: CN202111565872.9A
Authority: CN
Inventors: 夏晨星; 段松松; 黄荣梅; 孙延光
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-12
Anticipated expiration: 2041-12-17
Also published as: CN114332559B

Abstract

本发明属于计算机视觉领域，提供了一种自适应跨模态融合机制和深度注意力网络的RGB‑D显著性目标检测方法，包括以下步骤：1)准备RGB‑D显著性目标检测数据集，该数据集包括三个部分，分别是RGB图像I、对应的深度(Depth)图D像以及显著性分割图S，进一步可划分为训练集和测试集；2)设计深度图质量感知模块，并计算输入该模块的深度图的质量值，高于该值的深度图作为训练样本，否则过滤掉该深度图；3)分别建立用于提取RGB特征和Depth特征的神经网络模型，并使用VGG16网络用于提取特征；4)建立计算深度显著性先验和背景先验的计算方式；5)建立RGB特征和Depth特征的高效互补的自适应跨模态特征融合方案，并整合多尺度融合特征，得到预测结果。

Description

一种基于自适应跨模态融合机制和深度注意力网络的RGB-D 显著性目标检测方法

技术领域

本发明涉及计算机视觉领域，特别地涉及一种基于自适应跨模态融合机制和深度注意力网络的RGB-D显著性目标检测方法。

背景技术

本部分的陈述仅仅是涉及到了与本发明相关的背景技术，并不必然构成现有技术。

显著性目标检测是计算机视觉领域最基本的任务之一，在各大计算机视觉任务中充当一个非常重要的角色。显著性目标检测可以模拟人类视觉感知系统找出最引人注意的物体和区域，并被广泛应用于各类计算机视觉任务，比如图像分割，图像检索，语义分割，目标检测等。显著性是基于人类视觉对于图片场景内容理解的基础上进行主观的区域选择，因此研究视觉显著性对于探索计算机模拟人类视觉机制有着非常重要的意义。

深度(Depth)图像也能够为计算机视觉任务提供显著信息，并且Depth信息能够为RGB图像提供缺失的空间结构信息以及其他一些补充信息，比如边缘细节和局部信息。并且随着深度传感器的广泛应用，可以较容易获取Depth图像，并作为RGB-D显著性目标检测算法的输入数据。现有的RGB-D显著性目标检测算法利用Depth图像的方式可以分为三类：(1)一类是将Depth图像和RGB 图像一起作为原始的输入数据，将Depth图像作为RGB图像的第四个通道；(2)一类是将Depth图像经过相应的操作提取出显著性特征，去增强RGB特征从而预测出显著图；(3)一类是将Depth图像作为一个单独的子网去提取出显著性信息，然后与RGB图像的显著性信息相融合，最后提取出显著图。

然而第一类方式通常将Depth图像与RGB图像同等对待，没有考虑RGB图像和Depth图像之间存在的差异；第二类方式忽略了Depth图像天然带有噪声的问题，也就是Depth图的质量问题。如何将Depth图中带有的噪声去除却没有受到关注；第三类方式主要将特征进行连接或者元素级操作，并没有考虑到不同通道特征所携带的信息之间的差异。

本发明采用后期融合和多尺度融合的策略，设计深度注意力网络增强RGB特征并且使用自适应的跨模态特征融合方式选择携带更多显著性的通道特征。

发明内容

基于现有RGB-D显著性目标检测存在的跨模态特征融合方面和 Depth图像质量对于RGB-D模型性能影响的问题，本发明从这两方面考虑，提供一种自适应跨模态特征融合机制和深度注意网络的 RGB-D显著性目标检测方法。

本发明采用的具体技术方案如下：

1.准备RGB-D显著性目标检测数据集，数据集中包括三个部分，分别是RGB图像I、对应的Depth图D以及显著性分割图S，进一步可划分为训练集和测试集。

具体步骤如下：

1.1)收集数据集RGB-D显著性目标检测常用的公开数据集， STERE数据集、GIT数据集、DES数据集、NLPR数据集、LFSD 数据集、NJUD数据集、SSD数据集、DUT-RGBD数据集、SIP数据集。

1.2)将上述STERE数据集、GIT数据集、DES数据集、NLPR数据集、LFSD数据集、NJUD数据集、SSD数据集进行深度图质量评估，筛选出深度质量较好的RGB-D图像对作为训练样本，通过该方式得到一个高质量的RGB-D SOD数据集并将其作为训练数据集，将 DUT-RGBD数据集、SIP数据集作为测试数据集。

1.3)对训练数据集和测试数据集进行相应的操作，比如裁剪，填充，反转等，使得数据集中的图像能够满足模型的需求。

2.设计Depth图质量感知模块，并计算输入该模块的Depth图的质量值，高于该值的Depth图作为训练样本，否则过滤掉该Depth 图。最后该模块输出一个高质量的Depth图像，并作为整个RGB-D 模型的Depth图输入数据。其中，深度图过滤模块作为整个RGB-D 模型的预处理阶段。具体步骤如下所示：

2.1)设计出高质量Depth图的评价指标，并根据该指标去判别输入Depth图的质量。该Depth图的质量评价标准，该评价指标的计算方式如下所示：

DH(i)＝HisG(i) 公式(1)

其中，HisG(i)表示Depth图i对应的深度分布直方图，HQ用于判断该Depth图像质量的高低。

2.2)利用该计算方法，对训练集中的STERE数据集、GIT数据集、 DES数据集、NLPR数据集、LFSD数据集、NJUD数据集、SSD 数据集进行筛选，过滤掉低质量的Depth图，得到高质量Depth图像的RGB-D显著性目标检测模型。

3.分别建立用于提取RGB特征和Depth特征的神经网络模型，使用VGG16网络用于提取特征。并将原始RGB图像和经过Depth 图像过滤之后的Depth图作为输出，输出包括RGB显著性特征和 Depth显著性特征。

3.1)搭建RGB特征提取网络，设置5个卷积模块，每一个卷积模块中包含3个卷积操作和若干池化操作和ReLu()激活函数。每一个模块都输出一个特征向量，整个RGB特征提取提取网络将输出5个层次的特征，分别S_conv1，S_conv2，S_conv3，S_conv4，S_conv5。

3.2)搭建Depth特征提取网络，设置5个卷积模块，每一个卷积模块中包含3个卷积操作和若干池化操作和ReLu()激活函数。并且每一个模块最后对应一个1x1的卷积操作。每一个模块都输出一个特征向量,整个Depth特征提取网络将输出5个层次的特征，分别是D_conv1,，D_conv2,，D_conv3，D_conv4，D_conv5。

4.建立Depth显著性先验和背景先验的计算方式。通过对Depth 图像的调制，计算出带有显著信息的深度显著性先验和非显著信息的背景先验增强RGB特征携带显著信息的能力并弱化背景。

具体步骤如下：

4.1)基于所述的高质量Depth图像的深度分布直方图，依据其双峰效应可以分为3个区间，两个深度峰对应两个深度区间，余下的深度值对应一个区间；

4.2)基于所述的Depth图像中深度值的三个区间，将深度值较小的区间定义为深度显著性先验，余下的而深度值定义为背景先验。

5.建立RGB特征和深度特征的高效互补的自适应跨模态特征融合方案。通过该自适应融合方案自动选择带有更多显著信息通道特征，从而更准确地预测出图像中的显著目标。

具体步骤如下：

5.1)利用RGB数据集中的Depth图的真值标签，计算每一个特征通道所对应的自适应因子：

其中，F表示通道特征，G表示显著性真值标签，F_i表示第i通道的特征，

表示第i通道对应的自适应因子，γ表示加权系数。

5.2)基于所述的自适应因子，将每一个通道对应的自适应因子与其通道特征相乘，可得到过滤之后的特征：

其中，

表示经过自适应因子过滤之后的通道特征，F_s表示融合之后的特征。

6.整合Depth图过滤单元、RGB特征编码器、深度特征编码器、自适应跨模态融合机制、多尺度特征融合方案和先验知识增强RGB 特征方法成完整的RGB-D显著性目标检测模型，输出最终的显著图，计算如下：

7.通过模型输出的显著图和数据集中的显著目标分割图计算损失函数，并进行反向传播，调整参数，最后训练出模型。将测试集数据输入训练好的RGB-D SOD模型测试模型的性能，并输出预测的显著图(SalientMap)，损失函数计算如下：

其中，H，W分别代表输出图像的高度和宽度，G_i，j表示显著性分割图，S_i，j表示预测的显著图。

8.将测试阶段的实验数据输入，使用模型的评价指标，比如MAE、 F-measure(F_β)、S-measure(S_m)等，进行计算模型的性能,评价指标计算如下所示：

S_m＝α*S_o+(1-α)*S_r 公式(12)

其中，W，H分别表示输入图像的宽度和高度，S表示预测的显著图，G表示真值标签，Precision表示精确度，Recall表示召回率，α通常设置为0.5，便于平衡目标感知结构的相似性(S_o)和区域感知结构的相似性(S_r)。

附图说明

图1为本发明的模型结构示意图

图2为本发明中的自适应跨模态融合机制示意图

图3为本发明中的多尺度特征融合机制示意图

图4为本发明的显著性先验和背景先验的计算示意图

图5为本发明中的模型训练流程图

图6为本发明的结果视觉展示图

具体实施方案

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚完整地描述，此外，所叙述的实施例仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

如图1所展示，一种包含自适应跨模态特征融合机制和深度注意力网络的RGB-D显著性目标检测方法包含以下步骤：

1.准备RGB-D显著性目标检测数据集，该数据集包括三个部分，分别是RGB图像I、对应的Depth图D像以及显著目标分割图S，进一步可划分为训练集和测试集。

具体步骤如下：

2.设计关注Depth图质量的模块，并计算输入该模块的Depth图的质量值，高于该值的Depth图作为训练样本，否则过滤掉该Depth 图。最后该模块输出一个高质量的Depth图像，作为整个RGB-D模型的Depth图输入。其中，Depth图过滤模块作为整个RGB-D模型的预处理阶段。具体步骤如下所示：

DH(i)＝HisG(i) 公式(1)

其中，HisG(i)表示Depth图i对应的深度分布直方图，HQ表示该Depth图像质量的高低。

2.2)利用该计算方法，对训练集中的STERE数据集、GIT数据集、DES数据集、NLPR数据集、LFSD数据集、NJUD数据集、SSD 数据集进行筛选，过滤掉低质量的Depth图，得到高质量Depth图像的RGB-D显著性目标检测模型。

3.分别建立用于提取RGB特征和Depth特征的神经网络模型，模型的主干网络选择VGG16网络用于提取特征。并将原始RGB图像和经过Depth图像过滤之后的Depth图作为输出，输出包括RGB 显著性特征和深度显著性特征。

3.2)搭建深度特征提取网络，设置5个卷积模块，每一个卷积模块中包含3个卷积操作和若干池化操作和ReLu()激活函数。并且每一个模块最后对应一个1x1的卷积操作。每一个模块都输出一个特征向量,整个Depth特征提取网络将输出5个层次的特征，分别是D_conv1，D_conv2，D_conv3，D_conv4，D_conv5。

4.建立计算深度显著性先验和背景先验的计算方式。通过对 Depth图像的调制，计算出带有显著信息的深度显著性先验和背景先验去增强RGB特征携带限制信息的能力并弱化背景。

具体步骤如下：

4.1)基于所述的高质量Depth图像的深度分布直方图，依据其双峰效应可以分为3个区间，两个深度峰对应两个区间，余下的深度值对应一个区间；

5.建立RGB特征和Depth特征的高效互补的自适应跨模态特征融合方案。通过该自适应融合方案自动选择带有更多显著信息通道特征，从而更准确地预测出图像中的显著目标。

具体步骤如下：

5.1)利用RGB-D数据集中的显著目标分割图，计算每一个特征通道所对应的自适应因子：

表示第i通道对应的自适应因子，γ表示加权系数。

其中，

7.通过模型的输出的显著图和数据集中的显著性标签计算损失函数，并进行反向传播，调整参数，最后训练出模型。将测试集数据输入训练好的RGB-D SOD模型测试模型的性能，并输出预测的显著图(SalientMap)，损失函数计算如下：

其中，H，W分别代表输出图像的高度和宽度，G_i，j表示真值标签， S_i，j表示预测的显著图。

S_m＝α*S_o+(1-α)*S_r 公式(11)

其中，W，H分别表示输入图像的宽度和高度，S表示预测的显著图， G表示显著目标分割图，Precision表示精确度，Recall表示召回率，α通常设置为0.5，便于平衡目标感知结构的相似性(S_o)和区域感知结构的相似性(S_r)。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

1.一种基于自适应跨模态融合机制和深度注意力网络的RGB-D显著性目标检测方法，其特征在于，该方法包括以下步骤：

1)获取训练该RGB-D显著性目标检测模型的数据集；

2)构建高质量Depth图像的评价方法，并利用该评价方法从现有公开的RGB-D显著性目标检测数据集中构建含有高质量Depth图的RGB-D显著性目标检测数据集，用于提高该RGB-D显著性目标检测模型的性能；

3)分别建立用于提取RGB特征和Depth特征的深度神经网络；

4)基于RGB深度神经子网和Depth深度神经子网的RGB特征和Depth特征，构建自适应跨模态特征融合的超网络结构；

5)构建基于深度注意力网络的先验知识的超网络结构，并且利用深度显著性先验用于增强RGB特征的显著信息，并且利用背景先验弱化RGB特征中的复杂背景，帮助RGB-D显著性目标检测模型更好从给出的图片中定位显著目标；

6)基于所述的深度神经网络结构和超网络结构确定整个RGB-D显著性目标检测模型结构；

7)将获取到的数据集进行RGB-D模型训练，并将训练好的模型对RGB图像进行显著目标的预测。

2.根据权利要求1所述的基于自适应跨模态融合机制和深度注意力网络的RGB-D显著性目标检测方法，其特征在于，所述步骤1)中，获取RGB-D显著目标检测的数据集包括现有的公开数据集，例如GIT 数据集、DES数据集、NLPR数据集、LFSD数据集、NJUD数据集、SSD数据集、DUT-RGBD数据集、SIP数据集等。

3.根据权利要求1所述的基于自适应跨模态融合机制和深度注意力网络的RGB-D显著性目标检测方法，其特征在于，所述步骤2)的具体方法是：

3.1)对获取到的Deopth图像转换为深度分布直方图，并对该深度直方图进行预处理，将深度值较小的值删除；

DH(i)＝HisG(i) 公式(1)

其中，HisG(i)表示Depth图像i对应的深度分布直方图，i表示Depth图像。

2)基于预处理之后的Depth图像进行判断，如果该Depth图的深度分布直方图满足双峰效应，则判定该Depth图为高质量Depth图；否则，则不为高质量Depth图像：