CN111583173A

CN111583173A - 一种rgb-d图像显著性目标检测方法

Info

Publication number: CN111583173A
Application number: CN202010199264.XA
Authority: CN
Inventors: 丛润民; 李重仪; 赵耀; 张淳杰; 白慧慧; 刘美琴
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-08-25
Anticipated expiration: 2040-03-20
Also published as: CN111583173B

Abstract

本发明涉及一种RGB‑D图像显著性目标检测方法，包括如下步骤：1、从VGG主干网络中提取自顶向下的RGB‑D特征，然后将RGB‑D特征送入跟每个层级相对应的跨模态调制与选择单元；2、通过跨模态特征调制模块对多级RGB‑D特征进行调制；3、通过自适应特征选择模块得到与显著性相关的特征；通过显著显著性边缘预测部分生成显著性边缘图；4、求得修正特征；5、利用修正特征通过显著性图预测部分进行显著性图预测，并以第1层级输出的显著性图作为网络的最终输出显著性结果。本发明能够充分挖掘跨模态数据之间的互补信息，获得更具判别力的特征表达，生成更加完整、准确、边缘清晰的显著性图，且具有较强的背景抑制能力。

Description

一种RGB-D图像显著性目标检测方法

技术领域

本发明属于计算机视觉、深度学习领域，涉及一种RGB-D图像显著性目标检测方法。

背景技术

人类的视觉系统可在大范围、复杂的场景中快速定位出最吸引注意的内容或目标。而视觉显著检测任务就是受此机制启发，目的在于检测出输入数据(如图像、视频等)最受关注的目标或区域，已经被广泛应用于目标检测、图像编辑、视频浓缩等研究领域，以及智能拍照、推荐系统、自动驾驶等工程领域，具有重要的研究价值和广阔的市场前景。随着各类成像设备与硬件技术的发展，深度信息的获取方式变得更加简单、方便，目前许多手机生产厂商(如苹果、华为、三星等)都为其旗舰手机配备了深度传感装置。借助深度信息，可以进一步优化智能拍照效果，同时也可以进一步为AR/VR等新应用提供数据支持，发展前景和态势良好。

立体图像(RGB-D图像)数据为场景描述提供了彩色和深度两种模态信息，更接近于人类真实的视觉感知系统，两种模态信息相辅相成、互为补充，可以提供更加全面的数据表达方法，有利于进一步增强显著性检测等任务的性能。近年来，深度学习技术的蓬勃发展极大地促进了显著性检测任务的性能提升。Qu等人提出了一种结合顶底层显著性线索与卷积神经网络(CNN)的RGB-D图像显著性目标检测方法。Han等人提出了双流RGB-D显著检测网络，并将RGB网络结构迁移到深度视角。Chen等人提出了一种多尺度-多路径融合网络实现RGB-D显著性目标检测，升级了传统的双流融合架构。Chen等人提出了一种三流注意力感知的RGB-D显著性目标检测网络，并通道注意力机制实现了自适应选择跨模态互补特征。Zhao等人首先利用对比度先验来增强深度信息，然后通过流体金字塔集成网络实现了RGB-D显著性目标检测。Li等人提出了一种基于交织融合的RGB-D显著性检测网络，通过交织融合方式步进式融合跨模态的互补信息。Piao等人提出了一种多尺度递归的RGB-D显著性网络，在复杂场景中获得了较好的检测性能。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：(1)RGB-D图像设计RGB和深度两种模态，而跨模态数据的不一致问题会降低学习得到的特征的判别力；(2)RGB-D图像中的深度图质量较差时容易引入噪声干扰，如毛糙的深度图边界会导致检测结果边缘不够锐利等。

发明内容

本发明旨在充分挖掘彩色和深度的跨模态互补信息，降低低质深度图对检测结果的影响，设计一种基于跨模态调制与选择的RGB-D图像显著性目标检测方法，获得更佳的检测性能。

为达到以上目的，本发明采取的技术方案是：

一种RGB-D图像显著性目标检测方法，包括如下步骤：

步骤1、将RGB图像和深度图像分别输入VGG主干网络提取多个层级自顶向下的RGB特征和深度特征；

步骤2、将每个层级得到的RGB特征和深度特征分别送入跟每个层级相对应的跨模态调制与选择单元得到每个层级的显著性图，并以第1层级输出的显著性图作为网络的最终输出显著性结果。

在上述方案的基础上，每个层级通过跨模态调制与选择单元得到对应显著性图的具体步骤如下：

1)通过跨模态特征调制模块学习一个深度特征上的映射函数

进而得到第L层级上的一组仿射变换参数(γ^L,β^L)；根据得到的仿射变换参数，利用深度特征对RGB特征进行调制，得到调制后的特征

2)将RGB特征、深度特征、调制特征和上采样的高层级修正特征送入自适应特征选择模块，以选择性地强调不同的通道特征并融合重要的空间特征，得到与显著性相关的特征

3)通过与显著性相关的特征

和上采样的高层级显著性图

计算第L层级的位置注意力特征

4)将RGB特征、深度特征、调制特征和上采样的高层级修正特征级联，然后将它们送入显著性边缘预测部分生成每个层级的显著性边缘图；对于第L个层级，通过第L层级的位置注意力特征

和第L层级的显著性边缘图

计算出边缘注意力的输出特征

将

作为最终用于显著性预测的第L层级的修正特征；

5)利用第L层级的修正特征通过显著性图预测部分进行显著性图预测，得到第L层级的显著性图。

在每个层级上都通过标准交叉熵损失来联合优化网络模型进行显著性图预测、显著性边缘预测，损失函数表示为：

其中，

表示第k个层级的显著性图预测的标准交叉熵损失，

表示第k个层级的显著性边缘预测的标准交叉熵损失,λ、η用于控制不同损失项比例；

步骤1)中，所述仿射变换参数(γ^L,β^L)的计算公式如下：

其中，

表示第L级的深度特征，上标L表示特征层级，

表示映射函数，通过并行的堆叠卷积层实现，(γ^L,β^L)表示学习得到的参数；

调制后的特征

的计算公式如下：

其中，

表示第L级上得到的调制特征，

表示第L级的RGB特征，

表示像素级相乘操作，

表示像素级相加操作。

步骤2)中，所述与显著性相关的特征

的计算公式如下：

其中，

表示第L级上得到的与显著性相关的特征，

表示第L级上得到的通道选择特征，

表示第L级上得到的空间融合特征，cat表示特征级联操作。

所述第L级上通道选择特征

的计算公式如下：

其中，

表示第L级上的通道选择特征，SE表示Squeeze-and-Excitation映射操作，conv表示卷积操作，cat表示特征级联操作，

表示不同模态的特征

分别经过SE映射后得到的增强特征，

表示第L层级提取的RGB特征，

表示第L层级提取的深度特征，

表示第L层级提取的调制特征，

表示第L+1层级得到的上采样修正特征。

所述第L级上得到的空间融合特征

的计算公式如下：

其中，

表示第L级上得到的空间融合特征，

表示不同模态的特征得到的像素级置信图。

所述像素级置信图的计算公式如下：

其中，

表示不同模态的特征，

表示不同模态的特征得到的像素级置信图，

表示卷积网络，包含6个堆叠的卷积层。

步骤3)中，第L层级的位置注意力特征

的计算公式如下：

其中，

表示第L级上得到的与显著性相关的特征，

表示上采样的第L+1级上得到的显著性图。

步骤4)中，第L层级的边缘注意力的输出特征的计算公式为：

其中，

表示第L层级的显著性边缘图。

所述高层级为第L+1级，且所述高层级修正特征和显著性图作为不同模块输入时，仅适用于第1～4层级，第5层级不包含相关高层级输入。

本发明的有益效果：本发明设计了一种基于跨模态调制与选择的RGB-D图像显著性目标检测方法，能够充分挖掘跨模态数据之间的互补信息，进而获得更具判别力的特征表达，生成更加完整、准确、边缘清晰的显著性图，且具有较强的背景抑制能力。

附图说明

本发明有如下附图：

图1给出了本发明提出方法的检测结果示例。

图2给出本发明提出方法的整体流程图。

图3给出本发明跨模态调制与选择单元的流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

如图2所示，本发明所述的基于跨模态调制与选择的RGB-D图像显著性目标检测方法，通过跨模态调制与选择单元实现了特征的调制、选择和优化，能够生成更加准确、完整、锐利的显著性检测结果。具体实现步骤如下：

1.技术路线

本发明设计的网络首先从VGG主干网络中提取自顶向下的RGB-D特征，然后将RGB-D特征送入跟每个层级相对应的跨模态调制与选择单元进行显著性预测。在每个跨模态调制与选择单元(如图2-3所示)中，RGB-D特征分别通过跨模态特征调制模块、自适应特征选择模块和显著性引导的位置-边缘注意力模块进行特征调制、选择和优化。具体来说，本发明通过使用跨模态特征调制(cmFM)模块来对提取的多级RGB-D特征进行调制，以更灵活、更易于训练的方式有效地集成跨模式互补信息。随后，将RGB特征、深度特征、调制特征和上采样的高层级修正特征(如果有)送入自适应特征选择(AFS)模块，以选择性地强调不同的通道特征并融合重要的空间特征，最终得到与显著性相关的特征。同时，将RGB特征、深度特征、调制特征和上采样的高层级(第L+1级)修正特征(如果有)级联，送入显著性引导的位置-边缘注意力(sg-PEA)模块中的显著性边缘预测(E-Pre)部分生成显著性边缘图。然后，利用显著性边缘图和上采样的高层级显著性图(如果有)来突出强调AFS模块之后的显著性位置和边缘区域，得到修正特征。之后，利用修正特征通过sg-PEA模块中的显著性图预测(S-Pre)部分进行显著性图预测，并以第1层级输出的显著性图作为网络的最终输出显著性结果。

2.跨模态特征调制模块

在RGB-D图像中，涉及RGB和深度两种模态，为了有效捕捉RGB-D图像中的跨模态互补信息，已经提出了许多融合策略，如输入融合、早期融合和后期融合等，其中输入融合方式直接将RGB图像和对应的深度图作为网络的输入，而早期或晚期融合方式的区别则在于是在网络浅层还是网络深层中融合提取到的RGB特征和深度特征，这些方法往往仅是粗略地串联或相加了多模态信息，融合并不全面、彻底。与此不同，本发明提出了一种跨模态特征调制(cmFM)模块，通过利用对应层级的深度特征来增强RGB特征表示。本发明所提出的特征调制设计能够通过特征变换更加有效地集成多模态信息，更加清晰地建模不可分割的互补跨模态关系，并减少由多模态数据固有的不一致性引起的干扰。

跨模态特征调制模块以深度图为先验信息来丰富显著性线索，从深度特征中学习逐像素的仿射变换参数，然后在网络的每个层级中调制相应的RGB特征表示，获得更加完备的RGB-D特征表达。给定第L层级提取的RGB特征

和深度特征

通过cmFM模块学习一个深度特征上的映射函数

进而得到一组仿射变换参数

其中，上标L表示特征层级，

表示映射函数，通过并行的堆叠卷积层实现，(γ^L,β^L)表示学习得到的参数。根据得到的仿射变换参数，利用深度特征对RGB特征进行调制，得到调制后的特征如下：

其中，

表示第L级上得到的调制特征，

表示第L级的RGB特征，

表示像素级相乘操作，

表示像素级相加操作。

3.自适应特征选择模块

特征表达对于显著性目标检测任务来说至关重要，通过卷积操作学习的特征往往具有一定的冗余，这些冗余可能对最终的显著性预测造成干扰，因此需要进一步对特征进行自适应选择，获得更具判别力、更紧致的特征表达。现有的显著性检测方法往往不加区分且独立地处理来自不同模态的通道特征，为了使网络更多地关注信息特征，本发明提出了一种自适应特征选择(AFS)模块来逐步重新调整通道特征。同时，AFS模块还融合了多模态的重要空间特征。因此，AFS模块能够自适应地选择与显著性相关的特征，并从空间和通道上抑制劣等特征，也减轻了低质深度图带来的负面影响，进而使得网络在处理不同信息方面具有更大的灵活性。

1)自适应通道特征选择

在自适应通道选择时，首先挖掘各自模态通道特征的相互依赖性，再进一步确定不同模态之间的相关性，然后在通过减少冗余特征的卷积层进行压缩之后，就可以得到通道注意力上的通道注意力(channel attention-on-channel attention)特征。这种独自模态和跨模态的通道注意力机制可以更好地模拟不同模态之间的通道特征关系，并自适应地选择信息更加丰富的通道特征。

给定不同模态的特征

其中，

表示第L层级提取的RGB特征，

表示第L层级提取的深度特征，

表示第L层级提取的调制特征，

表示第L+1层级得到的上采样修正特征。首先分别对每个模态的特征执行全局平均池化操作，从而为每个特征生成通道描述符，它嵌入了通道特征响应的全局分布，使来自网络全局感受野的信息能够被其较低层利用,然后，通过一个自选机制捕获通道依赖性。该处理过程可以通过已有的Squeeze-and-Excitation网络来实现，记为SE映射操作。但是，这种单一模态的通道注意力虽然能够突出显示的通道特征，但多模态的所有通道注意力结果并非都是有用的。因此，为了进一步强调信息更加丰富的通道特征，本发明在不同特征之间进一步执行通道注意力操作，进而形成通道注意力上的通道注意力(channel attention-on-channelattention)的处理架构。将不同模态的特征经过SE映射后得到的增强特征级联，然后再经过SE映射和卷积降维得到第L级上的通道选择特征：

其中，

表示不同模态的特征

分别经过SE映射后得到的增强特征。

2)自适应空间特征融合

为了在进行通道特征选择的同时保持空间特征，本发明提出了基于门控的空间融合机制，用于融合多模态特征。自适应空间特征融合部分计算了每个输入特征的逐像素置信度图，使得重要的多模态空间特征得以保留。

首先，将输入的不同模态的特征

送入一个CNN网络来得到像素级置信图：

其中，

表示不同模态的特征，

表示不同模态的特征得到的像素级置信图，

表示卷积网络，包含6个堆叠的卷积层。然后，在置信图的引导下将不同模态的特征进行融合：

其中，

表示第L级上得到的空间融合特征。

最后，将通道选择特征与空间融合特征结合得到AFS模块的输出特征，称为与显著性相关的特征，即：

其中，

表示第L级上得到的与显著性相关的特征，包含更加有利于显著性检测的信息化特征，

表示第L级上得到的通道选择特征，

表示第L级上得到的空间融合特征，cat表示特征级联操作。

4.显著性引导的位置-边缘注意力模块

在选择与显著性相关的特征之后，还应鼓励设计的网络将注意力集中在对显著性目标检测最重要的那些位置和边缘上。这样的好处在于：1)显著性位置注意力可以更好地定位显著性对象，并加速网络收敛；2)显著性边缘注意力可以缓解重复池化操作引起的边缘模糊问题，这对于精确的显著性检测任务来说至关重要。为此，本发明提出了一个显著性引导的位置-边缘注意力(sg-PEA)模块，以更好地定位和锐化显著性目标。sg-PEA模块包括显著性图预测(S-Pre)部分和显著性边缘预测(E-Pre)部分，两者共享相同的网络结构，但权重不同，具体包括三个卷积层，前两个卷积层后接ReLU激活函数，最后一个卷积层后接一个Sigmoid将结果映射到[0,1]之间。

1)位置注意力

本发明利用高层级上采样的显著性图作为注意力权重，对AFS模块输出的与显著性相关的特征进行增强。显著性图是由显著性图预测(S-Pre)部分通过有监督的学习方式在每个层级进行计算的。这种侧监督方式的好处体现在四个方面：1)每个层级的卷积层对显著性检测有明确的更新目标；2)侧监督可以加速梯度反向传播；3)预测的显著性图可以引导低层级的卷积层以较低的计算代价更多的关注于显著性位置；4)多个侧输出是网络在精度和速度之间进行多种选择。具体而言，通过与显著性相关的特征

和上采样的第L+1级上得到的显著性图

计算第L层级的位置注意力特征

其中，

表示第L级上得到的与显著性相关的特征，

表示上采样的第L+1级上得到的显著性图。与同等对待所有显著性特征的位置相反，位置注意力可以快速有效地利用较高层级的显著性结果，并增强当前层级的显著性线索。

2)边缘注意力

为了获得边缘注意力权重，首先将RGB-D特征、调制特征和上采样的高层级修正特征级联，然后将它们送入显著性边缘预测(E-Pre)部分生成每个层级的显著性边缘图。通过监督学习生成的显著性边缘图仍然可以通过简单的像素级乘法操作来突出特征的显著性边缘。对于第L个层级，边缘注意力的输出特征可以表示为：

其中，

表示第L层级的显著性边缘图，

为最终用于显著性预测的第L层级的修正特征，利用该修正特征通过显著性图预测(S-Pre)部分进行显著性图预测，并以第1层级输出的显著性图作为网络的最终输出显著性结果。

5.损失函数

本发明在每个层级上都通过标准交叉熵损失来联合优化网络模型进行显著性图预测、显著性边缘预测，损失函数表示为：

其中，

表示第k个层级的显著性图预测的标准交叉熵损失项，

表示第k个层级的显著性边缘预测的标准交叉熵损失项,λ、η用于控制不同损失项比例。标准交叉熵损失函数的定义如下：

其中，φ表示网络需要学习的参数，Y₊和Y_-表示真图Y(显著性真图或显著性边缘真图)中的正样本和负样本像素，y_i表示像素的显著性预测结果，X表示给定的输入数据，P表示求像素的显著性置信值，*表示sal或edge，sal或edge分别对应显著性图预测或显著性边缘预测。

附图1给出了本发明的两个可视化实例。第一列为RGB图像，第二列为深度图像，第三列为显著性检测结果的真图，第四列为本发明生成的显著性结果。从结果可以看出，本发明方法能够完整、准确的提取RGB-D图像中的显著性目标，而且能够很好的抑制复杂的背景干扰(如第一幅图像中的人群干扰)，能够很好的检测显著性目标的细节(如第二幅图像中的植物叶子部分)。附图2给出了本发明的整体技术流程图，主要包括VGG主干网络和跨模态调制与选择单元。图3给出了跨模态调制与选择单元的组成部分，主要包括跨模态特征调制模块、自适应特征选择模块、显著性边缘预测部分和显著性图预测部分，其中显著性边缘预测部分和显著性图预测部分共同组成了显著性引导的位置-边缘注意力模块。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的实质和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的保护范围。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。