CN111723822B

CN111723822B - 一种基于多层次融合的rgbd图像显著性检测方法及系统

Info

Publication number: CN111723822B
Application number: CN202010570806.XA
Authority: CN
Inventors: 牛玉贞; 张宇杰; 龙观潮; 刘文犀
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-06-20
Filing date: 2020-06-20
Publication date: 2022-06-14
Anticipated expiration: 2040-06-20
Also published as: CN111723822A

Abstract

本发明涉及一种基于多层次融合的RGBD图像显著性检测方法及系统，包括：步骤S1：进行数据增强，同时对彩色图像以及对应的深度图和人工标注图进行处理；步骤S2：设计多层次卷积神经网络结构，提取并融合深度图与彩色图像特征，融合多层次的特征，得到各个层次预测的显著性图S_k；步骤S3：设计一个融合优化模块,然后融合各个层次的显著性图S_k，得到最终的显著性图S_final；步骤S4：通过求解最小化损失函数，学习到RGBD图像显著性检测模型的最优参数，得到训练好的RGBD图像显著性检测模型；步骤S5：最后，将RGBD图像输入训练好的模型，计算得到输入图像的显著性检测结果，即显著性图。本发明解决了RGBD图像显著性检测边缘粗糙问题，能显著提升RGBD图像显著性检测的性能。

Description

一种基于多层次融合的RGBD图像显著性检测方法及系统

技术领域

本发明涉及图像处理以及计算机视觉领域，特别是一种基于多层次融合的RGBD图像显著性检测方法及系统。

背景技术

显著性目标检测在计算机视觉领域已经被广泛研究了几十年。它的目的是通过对输入图像中最重要或最突出的目标像素的精确分割来建模人类视觉系统的注意机制。它可以应用于很多领域，如目标识别，目标检测，分割，图像质量评估，视觉跟踪。随着最近深度学习技术的成功，显著性检测也得到了显著的提高。虽然对单个彩色图像的显著目标检测性能有所提高，但对背景杂乱的图像如何鲁棒地产生令人满意的结果仍然是一个挑战。因此，与标准RGB相机相比，利用额外的深度信息从RGBD相机中寻求补偿是合理的。因此，它们能够为确定突出目标的任务提供重要的补充。

在深度卷积神经网络(CNN)的背景下，提出了将彩色图像与深度图直接融合的方法。由于深度CNNs的能力，与基于RGB的基准相比，它们在几个公共基准上获得了明显的改进。

这些方法大致分成三类：一些方法直接将深度图当作额外的通道的输入单支流网络，另外是分别将彩色图和深度图输入双流网络再在后端融合，除此之外就是多层次融合彩色图特征和深度图特征。

但是，利用已有的方法从RGBD图像中检测突出目标时，还存在一些不足之处。特别指出，现有方法中颜色和深度融合的方式不是最优的，因此交叉模态融合过程中的冲突可能会降低性能。此外，从最先进的RGBD摄像机捕获的深度图仍然是有噪声的，特别是在物体的边界附近。

发明内容

有鉴于此，本发明的目的是提供一种基于多层次融合的RGBD图像显著性检测方法及系统，可以在一定程度上缓解上述问题，提高RGBD图像显著性检测的性能。

本发明采用以下方案实现：一种基于多层次融合的RGBD图像显著性检测方法及系统，包括以下步骤：

步骤S1：进行RGBD图像数据增强，同时对彩色图像以及对应的深度图和人工标注图进行处理，增加训练数据的多样性；

步骤S2：设计多层次卷积神经网络结构，提取并融合深度图与彩色图像特征，融合多层次的特征，得到各个层次预测的显著性图S_k；

步骤S3：设计一个融合优化模块，然后融合各个层次的显著性图S_k，得到最终的显著性图S_final；

步骤S4：通过求解最小化损失函数，学习到RGBD图像显著性检测模型的最优参数，得到训练好的RGBD图像显著性检测模型；

步骤S5：最后，将RGBD图像输入训练好的RGBD图像显著性检测模型，通过模型计算得到输入图像的显著性检测结果，即显著性图。

进一步地，所述步骤S1的具体内容为：

步骤S11：提供一数据集，并对数据集中的每一张RGBD图像中的彩色图像、深度图和其对应的显著性图的人工标注图一同进行缩放，用以使计算设备能够承担神经网络的计算量；

步骤S12：对数据集中的每一张彩色图像、深度图和其对应的显著性图的人工标注图一同进行随机裁剪操作，用以增加数据的多样性；

步骤S13：对数据集中的彩色图像随机地加入一些噪声，防止模型过拟合；

步骤S14：对数据集中的彩色图像、深度图以及显著性图的人工标注图同时随机地水平翻转，增加数据样本；

步骤S15：对数据集中的彩色图像和深度图进行归一化，突显图像前景特征。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：设计一种多层次卷积神经网络结构，网络由两个VGG16网络构成：分别输入彩色图像和深度图；

步骤S22：该多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1，Conv2，Conv3，Conv4，Conv5，Pool5提取各个层次的特征，分别为第1，2，...，6层特征；其中一个VGG16网络的输入是彩色图像，得到的是彩色图像特征，另一个VGG16网络的输入是深度图，得到的是深度图特征；然后，在每个层次将颜色特征和深度特征拼接起来，公式如下：

其中X_k ^fusion表示第k层将彩色图特征和深度图特征拼接的特征，X_k ^rgb表示第k层的彩色图特征，X_k ^depth表示第k层的深度图特征，

表示拼接操作；然后经过跨模态特征采样模块(Cross-modal Feature Sampling，CFS)将两种特征融合起来；

所述CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重，公式如下：

其中，W_k表示第k层融合特征各个通道上的权重，w_avg，w_var分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数，w_k ^avg表示拼接特征

经过全局平均池化层和全连接层学习到的各个通道上的权重，w_k ^var表示拼接特征

经过全局方差池化层和全连接层学习到的各个通道上的权重；

最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量；公式如下：

表示逐像素点乘，Conv_1×1代表卷积核大小为1的卷积，X_k′表示降维后的特征；

步骤S23：为了各个层次能够得到更加良好的显著性图，降维后的X_i′特征会经过3层卷积层进行空间上的转化将这一系列的卷积操作定义为F_st，则有：

H_k＝F_st(X_k′)

H_k表示第k层经过空间转化后的特征；

为了获得更加精细的显著性图，将深层的特征通过密集连接的方式整合到浅层，与浅层特征结合来获得更加精确的语义；整合后的特征经过降维再被用来预测各个层次的显著性图S_k(k＝1...6)。具体公式如下：

其中，

表示从第t层到第6层连续拼接，H_t代表第t层经过空间转化后的特征，F_up表示上采样，H_k′表示第k层特征经过深层特征密集聚合后的特征，H_k ^out表示第k层特征H_k′经过降维并放缩到与输入图像块相同尺寸后的特征，该特征是输出显著性图前的特征，σ表示Sigmoid激活函数，S_k代表第k层输出的显著性图。

进一步地，所述步骤S3的具体内容为：

将这个融合优化模块定义为F_frm，此模块是一个编码器和解码器结构，由前面各层的显著性图融合计算得到最终的显著性图，具体的公式如下：

S_final＝F_frm(S_k；k＝1…6)

k表示第k层，S_final表示最终的显著性图，S_k表示第k层输出的显著性图，F_frm表示一个编码器和解码器结构的融合模块。

进一步地，所述步骤S4具体包括以下步骤：

步骤541：使用各种损失函数作为约束，优化RGBD图像显著性检测模型，具体的公式如下：

其中，

表示最终训练的损失函数，其中∑表示求和，k∈{1，…，6}，

是作用在第k层上的边缘损失，

是作用在最终的显著性图上的约束形状相似性的损失函数，

是分别作用在第k层和最终的显著性图的交叉熵损失函数；上面的

具体计算公式如下：

其中，ΔY，ΔS_k分别表示输入的显著性图真值图求导后的图和计算的第k层的显著性图S_k求导后的图，S_final表示最终融合得到的显著性图，log表示log函数，Y表示输入的显著性图的人工标注图，[i，j]表示图像的第i行和第j列像素，Y[i，j]，S_k[i，j]，ΔY[i，j]，ΔS_k[i，j]，S_final[i，j]分别表示图像Y，S_k，ΔY，ΔS_k和S_final的第i行和第j列像素处的值；

步骤S42：以批次为单位重复进行上述的步骤S2到S4步骤，直至收敛到阈值或者达到迭代次数到阈值，保存网络参数，完成网络训练。

进一步地，本发明还提供一种基于多层次融合的RGBD图像显著性检测系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法。

与现有技术相比，本发明具有以下有益效果：

本发明设计了一种多层次融合RGBD图像显著目标检测的交叉模态融合网络，该网络由具有交叉模态特征采样模块的两流网络和多尺度显著性地图聚合模块组成。同时考虑到深度特征与颜色特征的差异，设计一种可以估计深度特征与颜色特征融合时的权重模块CFS，再者考虑到多个尺度上的显著性图语义丰富程度不一，他们的融合不应该是简单的线性关系，本发明还设计了一个融合优化模块。因此本发明能更好的检测RGBD图像中显著性物体的边缘部分，并且在进行复杂背景RGBD图像的显著性检测时具有更大的优势。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的中基于多层次融合的RGBD图像显著性检测模型的结构图。

图3为本发明实施例的中跨模态特征采样模块流程图。

图4为本发明实施例的中空间转化模块结构图。

图5为本发明实施例的中特征聚合流程图。

图6为本发明实施例的中融合优化模块结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于多层次融合的RGBD图像显著性检测方法，包括以下步骤：

步骤S1：进行RGBD图像数据增强，用以通过数据增强强化模型的鲁棒性，同时对彩色图像以及对应的深度图和人工标注图进行处理，增加训练数据的多样性；

步骤S2：：设计多层次卷积神经网络结构，提取并融合深度图与彩色图像特征，融合多层次的特征，得到各个层次预测的显著性图S_k；

在本实施例中，所述步骤S1的具体内容为：

在本实施例中，所述步骤S2具体包括以下步骤：

步骤S21：如图2所示，设计一种多层次卷积神经网络结构，网络由两个VGG16网络构成：分别输入彩色图像和深度图；

表示拼接操作；然后经过跨模态特征采样模块(Cross-modal Feature Sampling，CFS)如图3所示，将两种特征融合起来；

步骤S23：为了各个层次能够得到更加良好的显著性图，降维后的X_i′特征会经过3层卷积层进行空间上的转化如图4所示将这一系列的卷积操作定义为F_st，则有：

H_k＝F_st(X_k′)

H_k表示第k层经过空间转化后的特征；

为了获得更加精细的显著性图，如图5所示，将深层的特征通过密集连接的方式整合到浅层，与浅层特征结合来获得更加精确的语义；整合后的特征经过降维再被用来预测各个层次的显著性图S_k(k＝1...6)。具体公式如下：

其中，

在本实施例中，所述步骤S3的具体内容为：

将这个融合优化模块如图6所示定义为F_frm，此模块是一个编码器和解码器结构，由前面各层的显著性图融合计算得到最终的显著性图，具体的公式如下：

S_final＝F_frm(S_k；k＝1…6)

在本实施例中，所述步骤S4具体包括以下步骤：

步骤S41：使用各种损失函数作为约束，优化RGBD图像显著性检测模型，具体的公式如下：

其中，

是作用在第k层上的边缘损失，

是作用在最终的显著性图上的约束形状相似性的损失函数，

具体计算公式如下：

较佳的，本实施例还提供一种基于多层次融合的RGBD图像显著性检测系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于多层次融合的RGBD图像显著性检测方法，其特征在于：包括以下步骤：

步骤S3：设计一个融合优化模块,然后融合各个层次的显著性图S_k，得到最终的显著性图S_final；

步骤S5：最后，将RGBD图像输入训练好的RGBD图像显著性检测模型，通过模型计算得到输入图像的显著性检测结果，即显著性图；

所述步骤S2具体包括以下步骤：

步骤S22：多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1，Conv2，Conv3，Conv4，Conv5，Pool5提取各个层次的特征，分别为第1,2,...,6层特征；其中一个VGG16网络的输入是彩色图像，得到的是彩色图像特征，另一个VGG16网络的输入是深度图，得到的是深度图特征；然后，在每个层次将颜色特征和深度特征拼接起来，公式如下：

表示拼接操作；然后经过跨模态特征采样模块将两种特征融合起来；

CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重，公式如下：

步骤S23：降维后的X_i′特征会经过3层卷积层进行空间上的转化将这一系列的卷积操作定义为F_st，则有：

H_k＝F_st(X_k′)

H_k表示第k层经过空间转化后的特征；

将深层的特征通过密集连接的方式整合到浅层，与浅层特征结合来获得更加精确的语义；整合后的特征经过降维再被用来预测各个层次的显著性图S_k(k＝1...6)；具体公式如下：

其中，

表示从第t层到第6层连续拼接，H_t代表第t层经过空间转化后的特征，F_up表示上采样，H_k′表示第k层特征经过深层特征密集聚合后的特征，H_k ^out表示第k层特征H_k′经过降维并缩放到与输入图像块相同尺寸后的特征，该特征是输出显著性图前的特征，σ表示Sigmoid激活函数，S_k代表第k层输出的显著性图；

所述步骤S3的具体内容为：

S_final＝F_frm(S_k；k＝1…6)

k表示第k层，S_final表示最终的显著性图，S_k表示第k层输出的显著性图，F_frm表示一个编码器和解码器结构的融合模块；

所述步骤S4具体包括以下步骤：