CN112651406A

CN112651406A - 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Info

Publication number: CN112651406A
Application number: CN202011504271.2A
Authority: CN
Inventors: 李玺; 张文虎; 孙鹏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-13
Anticipated expiration: 2040-12-18
Also published as: CN112651406B

Abstract

本发明公开了一种深度感知和多模态自动融合的RGB‑D显著性目标检测方法，用于在给定彩色图像和对应的深度图像的情况下，对彩色图像中的显著物体做像素级的细粒度分割。具体包括如下步骤：获取训练该任务的图像数据集，并定义算法目标；分别建立用于提取彩色图像与深度图像的深度神经网络；建立用于多模态自动融合的超网络；基于前述的超网络进行神经网络结构搜索以确定模型结构；基于前述模型结构进行预测模型训练，并得到最终的训练好的神经网络模型。本发明适用于RGB‑D场景下的显著性目标检测，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种深度感知和多模态自动融合的RGB-D显著性目标检测方法

技术领域

本发明涉及计算机视觉领域，特别地涉及一种深度感知和多模态自动融合的RGB-D显著性目标检测方法。

背景技术

RGB-D显著性目标检测问题旨在利用成对的彩色图像与深度图像，检测场景中最显着的物体，并给出该物体的分割图，可以为图像检索，视频分割，行人重识别等众多领域提供帮助，近年来因为深度学习模型的出现得到了较大的发展。

深度图像作为场景中的重要显著性依据，蕴含了丰富的空间结构信息和物体边界信息，如何利用深度图像辅助显著性区域的判断是至关重要的。此前基于深度学习的RGB-D显著性目标检测方法，通常将深度图像单独提取特征，或作为彩色图像的第四个维度，将彩色图像与深度图像平等得对待，并没有显式建模深度分布与显著性物体的空间位置关系，且两种特征的融合方式是通过启发式手工设计的。

考虑到彩色图像与深度图像的数据来源存在差异，本发明尝试探索更多的深度图像利用方式。其一，是将深度拆解为三个部分来辅助排除彩色图像中的背景干扰，并指导彩色图像特征的提取，其二，是利用神经网络搜索技术将深度图像特征与彩色图像特征做自动融合。以此适应不同复杂场景下的显著性目标检测任务。

发明内容

针对以上问题，本发明提供了一种深度感知和多模态自动融合的RGB-D显著性目标检测方法。

本发明具体采用的技术方案如下：

一种深度感知和多模态自动融合的RGB-D显著性目标检测方法，其包括以下步骤：

S1、获取训练该任务的图像数据集；

S2、分别建立用于提取彩色图像与深度图像的深度神经网络；

S3、建立用于多模态自动融合的超网络结构；

S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构；

S5、基于所述搜索结果进行预测模型训练，并得到最终的训练好的神经网络模型；

S6：将待检测的彩色图像与深度图像输入训练好的神经网络模型中，预测图中的显著性目标。

作为优选，所述S1中的图像数据集包括单帧彩色图像I_train和对应的深度图像D_train，以及人工标注的显著目标分割图P_train。

作为优选，定义算法目标为预测单帧图像中的显著性目标的分割图

进一步的，所述S2包括以下子步骤：

S21、对于每个单帧彩色图像I_train，其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成；其中第i个DSAM模块以VGG19的第i个卷积模块的输出r′_i作为输入，其输出作为VGG19的第i+1个卷积模块的输入，i∈{1，2，3，4}；在i个DSAM模块中，首先根据对应的深度图像D_train的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与r_i维度相同的三个子图像

然后通过如下操作获得深度感知的彩色图像特征R_i：

式中Conv表示1×1的卷积模型；

四个DSAM模块的输出r₁、r₂、r₃、r₄以及VGG19的第五个卷积模块的输出r₅共同构成彩色图像的多尺度特征，用于后续多模态多尺度的特征自动融合；

S22、每个对应的深度图像D_train，使用一个轻量级的深度神经网络对深度图像进行特征提取，该深度神经网络共由五个级联的卷积模块组成，其输出的多尺度深度图特征d₁、d₂、d₃、d₄、d₅将用于后续多模态多尺度的特征自动融合。

进一步的，所述S3中用于多模态自动融合的超网络结构具体构成如下：

S31、使用三个多模态单元来得到同尺度的多模态融合特征，每个单元将两对S2中获得的相邻的两种模态特征作为输入，并输出相应的多模态特征C_n：

C_n＝MM_n(r_n+1，r_n+2，d_n+1，d_n+2)，n∈{1，2，3}

其中MM_n()表示第n个多模态单元；

S32、使用四个多尺度单元来得到多尺度的多模态融合特征，每个单元以S31中的多模态特征或S2中的两种模态特征作为输入，并输出相应的多尺度特征D_m：

其中MS_m()表示第m个多尺度单元；

S33、使用一个特征聚集单元来进行全局特征的高度聚集，以得到全局的多模态多尺度特征G：

G＝GA(D₁，D₂，D₃，D₄)

其中GA()表示特征聚集单元；

S34、使用两个级联的结构加强单元来得到最终的显著性图，每个单元以前一单元的输出和S2中的两种模态特征为输入，来加强最终显著性特征的结构信息，并进行尺度对齐：

L₁＝SR₁(θ(G)，d₂，r₂)

L₂＝SR₂(θ(L₁)，d₁，r₁)

其中θ()代表上采样操作，SR_n代表第n个结构加强单元，L₂为最终的显著性图预测结果

进一步的，所述S4中基于所述的超网络进行神经网络结构搜索操作如下：

S41、针对S3中共同构成超网络的四种单元，将每一种单元内部都看做由X个节点构成的有向无环图，分别设置四种单元内的节点数；然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接；节点xⁱ、x^j之间的连接关系表示为：

其中o^(i，j)()代表候选操作集合Q中候选操作的一种；

用Softmax函数将所有候选操作集加和在一起，构成单元内连续的搜索空间：

其中

代表选择xⁱ和x^j之间的候选操作o的可学习权重参数；

整个搜索空间由四种单元的所有结构参数构成。

S42、在神经网络结构搜索阶段，用所述的超网络对数据集图像对进行预测，表示为：

其中F’()表示超网络函数，

表示超网络的预测结果，ω’为超网络中模型的卷积网络参数，α′为超网络的结构参数；

以最小化超网络模型预测结果与人工标注的显著目标分割图误差

为目标，对α′，ω′两种参数进行交替优化，得到固定的网络权重参数α^*，其对应的网络分支即超网络结构最终的搜索结果。

进一步的，所述S41中，多模态单元、多尺度单元、特征聚集单元、结构加强单元四种单元内的节点数分别为8、8、8、4。

进一步的，所述S41中，所述候选操作集合Q包括极大池化、跳接相加、3×3卷积、1×1卷积、3×3可分离卷积、3×3空洞卷积、3×3空间注意力层、1×1通道注意力层；

进一步的，所述S5的具体步骤如下：

基于所述搜索结果确定的神经网络结构，建立深度卷积神经网络，深度卷积神经网络的输入为彩色图与深度图的图片对(I_train，D_train)，输出为相对于图片I_train的显著性目标的分割图

深度卷积神经网络的结构表示为映射

用公式表示为：

其中ω为预测模型预测显著性目标的分割图时所用的卷积参数，F()为深度卷积神经网络的预测函数，以最小化深度卷积神经网络模型预测结果与人工标注的显著目标分割图的误差

为目标，在损失函数L下训练整个深度卷积神经网络，直到神经网络收敛。

进一步的，所述深度卷积神经网络使用SGD优化方法和反向传播算法进行训练。

本方法基于深度神经网络，利用深度图像中蕴含的丰富的空间结构信息，建立其与显著性物体在空间分布的关系，并采用神经网络搜索技术自动得对彩色图像和深度图像进行多模态信息融合，能够更好地适应不同场景下对显著性目标检测模型的要求。相比于之前的方法，本发明具有如下收益：

首先，本发明采用采用端到端的深度学习模型来建模RGB-D图像对与显著物体的关系，将网络设计分解为两个重要部分，即特征提取与特征融合。通过分别改进这两个部分，可以大幅提高显著性目标检测方法的准确度。

其次，本发明显式建模了深度分布与显著性物体的空间位置关系，用深度图像的分布来指导彩色图像的特征提取，辅助排除彩色图像中的背景干扰，来得到对于本任务更友好的彩色图像的特征，为后续预测打下了良好的基础。

最后，本发明利用神经网络搜索技术，为显著性目标检测任务设计了独特的搜索空间，来进行彩色图像与深度图像的多模态特征融合，网络可以通过不断优化的过程自动寻找更优的网络结构，最终确定模型中各节点的连接方式，并通过训练得到更好的显著性目标检测模型。

本方法在显著性目标检测任务中，能够有效提高对场景中显著物体的分割精度与区域相似度，具有良好的应用价值。例如，可以快速地辨别出一幅自然图像中包含有用信息的显著性部分为后续图像检索、视觉追踪、行人重识别等任务提供更精细的物体分割图样，做了良好的铺垫。

附图说明

图1为本发明的网络结构示意图；

图2为本发明实施例中的检测效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，一种深度感知和多模态自动融合的RGB-D显著性目标检测方法包括以下步骤：

S1、获取训练该任务的图像数据集，并定义算法目标。

本步骤中，图像数据集包括单帧彩色图像I_train和对应的深度图像D_train，以及人工标注的显著目标分割图P_train。定义本发明的算法目标为预测单帧图像中的显著性目标的分割图

S2、分别建立用于提取彩色图像与深度图像的深度神经网络。本步骤包含以下子步骤：

S21、对于每个单帧彩色图像I_train，其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成。VGG19网络中本身封装有5个卷积模块(Block)，因此本发明的深度神经网络即在五个卷积模块之间插入4个DSAM模块。其中对于第i个DSAM模块而言，其以VGG19的第i个卷积模块的输出r′_i作为输入，其输出作为VGG19的第i+1个卷积模块的输入，i∈{1，2，3，4}。在i个DSAM模块中，其数据处理流程如下：首先根据对应的深度图像D_train的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与r_i维度相同的三个子图像

三个子图像

组合即为对齐后深度图像。本实施例中对深度图像进行拆解的做法为：根据对应的深度图像D_train的频数直方图选定深度阈值μ₁，μ₂，然后根据阈值将深度图像拆解为互斥的三个部分([0，μ₁]，(μ₁，μ₂)，[μ₂，255])。然后通过如下操作获得深度感知的彩色图像特征R_i：

式中Conv表示1×1的卷积模型。

四个DSAM模块的输出r₁、r₂、r₃、r₄以及VGG19的第五个卷积模块的输出r₅共同构成彩色图像的多尺度特征，用于后续多模态多尺度的特征自动融合。

S3、建立用于多模态自动融合的超网络结构。本步骤包含以下子步骤：

S31、使用三个多模态单元(MM Cell₁、MM Cell₂、MM Cell₃)来得到同尺度的多模态融合特征，每个单元将两对S2中获得的相邻的两种模态特征作为输入，并输出相应的多模态特征C_n：

C_n＝MM_n(r_n+1，r_n+2，d_n+1，d_n+2)，n∈{1，2，3}

其中MM_n()表示第n个多模态单元；

S32、使用四个多尺度单元(MSCell₁、MS Cell₂、MS Cell₃、MS Cell₄)来得到多尺度的多模态融合特征，每个单元以S31中的多模态特征或S2中的两种模态特征作为输入，并输出相应的多尺度特征D_m：

其中MS_m()表示第m个多尺度单元；

S33、使用一个特征聚集单元(GACell)来进行全局特征的高度聚集，以得到全局的多模态多尺度特征G：

G＝GA(D₁，D₂，D₃，D₄)

其中GA()表示特征聚集单元；

S34、使用两个级联的结构加强单元(GACell₁和GACell₂，两者级联，而GACell₁连接于GACell后)来得到最终的显著性图，每个单元以前一单元的输出和S2中的两种模态特征为输入，来加强最终显著性特征的结构信息，并进行尺度对齐：

L₁＝SR₁(θ(G)，d₂，r₂)

L₂＝SR₂(θ(L₁)，d₁，r₁)

需要注意的是，在本步骤S3中，多模态单元、多尺度单元、特征聚集单元、结构加强单元这四种单元内内的结构是尚未确定的，需要通过下一步的神经网络结构搜索最终确定。

本步骤包含以下子步骤：

S41、为了优化超网络以得到确定的小型网络结构，针对S3中共同构成超网络的四种单元，将每一种单元内部都看做由X个节点构成的有向无环图，分别设置四种单元内的节点数，在本实施例中多模态单元、多尺度单元、特征聚集单元、结构加强单元四种单元内的节点数分别设置为8、8、8、4。然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接(即节点之间的边)，本实施例中候选操作集合Q包括极大池化、跳接相加、3×3卷积、1×1卷积、3×3可分离卷积、3×3空洞卷积、3×3空间注意力层、1×1通道注意力层。任意节点xⁱ、x^j之间的连接关系表示为：

x^j＝∑_i＜jo^(i，j)(xⁱ)

其中o^(i，j)()代表候选操作集合Q中候选操作的一种；

进一步为了让搜索空间连续，用Softmax函数将所有候选操作集加和在一起，构成单元内连续的搜索空间：

其中

代表选择xⁱ和x^j之间的候选操作o的可学习权重参数；

整个搜索空间由四种单元的所有结构参数构成，即α＝{α_MM，α_MS，α_GA，α_SR}，α_MM，α_MS，α_GA，α_SR分别为多模态单元、多尺度单元、特征聚集单元、结构加强单元内的结构参数。

其中F’()表示超网络函数，

本步骤包含以下子步骤：

深度卷积神经网络的结构表示为映射

用公式表示为：

为目标，使用SGD优化方法和反向传播算法在损失函数L下训练整个深度卷积神经网络，直到神经网络收敛。

S6：在实际应用阶段，将待检测的彩色图像与深度图像输入训练好的神经网络模型中，即可输出预测图中显著性目标的分割图

获得图中的显著性目标。

由此可见，本发明可用于在给定彩色图像和对应的深度图像的情况下，对彩色图像中的显著物体做像素级的细粒度分割，适用于RGB-D场景下的显著性目标检测，面对各类复杂情况具有较佳的效果和鲁棒性。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在七个具有真值标注的数据集上实施，分别为：

DUT-RGBD数据集：该数据集包含1200个图像对，以及其显著性标签。

NJUD数据集：该数据集包含1985个图像对，以及其显著性标签。

NLPR数据集：该数据集包含1000个图像对，以及其显著性标签。

SSD数据集：该数据集包含80个图像对，以及其显著性标签。

STEREO数据集：该数据集包含1000个图像对，以及其显著性标签。

LFSD数据集：该数据集包含100个图像对，以及其显著性标签。

RGBD135数据集：该数据集包含135个图像对，以及其显著性标签。

本实例分别从DUT-RGBD数据集中选择800个图像对，从NLPR数据集中选择700个图像对，从NJUD中选择1485个图像对，共同作为训练集，其他作为测试集，通过前述方法建立深度学习模型并进行训练。

如图2所示。图中，GT表示真实标注的显著物体分割图标签，我们的方法得到的显著物体分割图与真实的显著物体分割图基本一致。

本实施例检测结果的检测精度如下表所示，主要采用平均F-measure以及M两个指标对各种方法的预测精度进行比较，其中平均F-measure指标用于衡量预测的显著分割图与真实的显著分割图的区域相似性，值越大代表预测结果与真实结果越相似；M是预测的显著分割图中每个像素点的结果差距，值越小代表预测结果越接近真实分割图。如下表中所示，本方法与其它方法相比，平均F-measure和M指标均存在明显优势。

上述与本发明方法(Our network)对比的其他方法，具体实现过程参见以下现有技术文献：

DMRA：Yongri Piao，Wei Ji，Jingjing Li，Miao Zhang，and Huchuan Lu.Depth-induced multi-scale recurrent attention network for saliency detection.InInt.Conf.Comput.Vis.，pages 7254-7263，2019.3，5，6

CPFP：Jia-Xing Zhao，Yang Cao，Deng-Ping Fan，Ming-Ming Cheng，Xuan-Yi Li，and Le Zhang.Contrast prior and fluid pyramid integration for rgbd salientobject detection.In IEEE Conf.Comput.Vis.Pattern Recog.，2019.2，6

PGAR：Shuhan Chen and Yun Fu.Progressively guided alternate refinementnetwork for rgb-d salient object detection.In Eur.Conf.Comput.Vis.，2020.6

CMWNet：Gongyang Li，Zhi Liu，Linwei Ye，Yang Wang，and Haibin Ling.Cross-modal weighting network for rgb-d salient object detection.InEur.Conf.Comput.Vis.，2020.3，6

CoNet：Wei Ji，Jingjing Li，Miao Zhang，Yongri Piao，and HuchuanLu.Accurate rgb-d salient object detection via collaborative learning.InEur.Conf.Comput.Vis.，2020.6

上述实施例中，本发明的RGB-D显著性目标检测方法首先利用深度图信息指导增强彩色图像分支的特征提取，已达到在特征提取阶段抑制背景噪音、增强结构关系的效果，提取更适合本任务的彩色图像特征。在此基础上，利用神经网络搜索技术，对分别提取的彩色与深度图像特征做多模态多尺度的自动融合，综合两种数据的特点来得到更优的显著性特征。最后，端到端的训练整体的深度学习模型以得到网络权重，从而预测新的RGB-D数据中的显著性部分。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种深度感知和多模态自动融合的RGB-D显著性目标检测方法。本发明可以利用深度图像的结构信息来指导特征抽取，并采用神经网络搜索来将多模态的信息自动融合，能够更好适应不同复杂场景下的显著性目标检测任务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。