CN111583173A - 一种rgb-d图像显著性目标检测方法 - Google Patents

一种rgb-d图像显著性目标检测方法 Download PDF

Info

Publication number
CN111583173A
CN111583173A CN202010199264.XA CN202010199264A CN111583173A CN 111583173 A CN111583173 A CN 111583173A CN 202010199264 A CN202010199264 A CN 202010199264A CN 111583173 A CN111583173 A CN 111583173A
Authority
CN
China
Prior art keywords
level
features
rgb
significance
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010199264.XA
Other languages
English (en)
Other versions
CN111583173B (zh
Inventor
丛润民
李重仪
赵耀
张淳杰
白慧慧
刘美琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010199264.XA priority Critical patent/CN111583173B/zh
Publication of CN111583173A publication Critical patent/CN111583173A/zh
Application granted granted Critical
Publication of CN111583173B publication Critical patent/CN111583173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种RGB‑D图像显著性目标检测方法,包括如下步骤:1、从VGG主干网络中提取自顶向下的RGB‑D特征,然后将RGB‑D特征送入跟每个层级相对应的跨模态调制与选择单元;2、通过跨模态特征调制模块对多级RGB‑D特征进行调制;3、通过自适应特征选择模块得到与显著性相关的特征;通过显著显著性边缘预测部分生成显著性边缘图;4、求得修正特征;5、利用修正特征通过显著性图预测部分进行显著性图预测,并以第1层级输出的显著性图作为网络的最终输出显著性结果。本发明能够充分挖掘跨模态数据之间的互补信息,获得更具判别力的特征表达,生成更加完整、准确、边缘清晰的显著性图,且具有较强的背景抑制能力。

Description

一种RGB-D图像显著性目标检测方法
技术领域
本发明属于计算机视觉、深度学习领域,涉及一种RGB-D图像显著性目标检测方法。
背景技术
人类的视觉系统可在大范围、复杂的场景中快速定位出最吸引注意的内容或目标。而视觉显著检测任务就是受此机制启发,目的在于检测出输入数据(如图像、视频等)最受关注的目标或区域,已经被广泛应用于目标检测、图像编辑、视频浓缩等研究领域,以及智能拍照、推荐系统、自动驾驶等工程领域,具有重要的研究价值和广阔的市场前景。随着各类成像设备与硬件技术的发展,深度信息的获取方式变得更加简单、方便,目前许多手机生产厂商(如苹果、华为、三星等)都为其旗舰手机配备了深度传感装置。借助深度信息,可以进一步优化智能拍照效果,同时也可以进一步为AR/VR等新应用提供数据支持,发展前景和态势良好。
立体图像(RGB-D图像)数据为场景描述提供了彩色和深度两种模态信息,更接近于人类真实的视觉感知系统,两种模态信息相辅相成、互为补充,可以提供更加全面的数据表达方法,有利于进一步增强显著性检测等任务的性能。近年来,深度学习技术的蓬勃发展极大地促进了显著性检测任务的性能提升。Qu等人提出了一种结合顶底层显著性线索与卷积神经网络(CNN)的RGB-D图像显著性目标检测方法。Han等人提出了双流RGB-D显著检测网络,并将RGB网络结构迁移到深度视角。Chen等人提出了一种多尺度-多路径融合网络实现RGB-D显著性目标检测,升级了传统的双流融合架构。Chen等人提出了一种三流注意力感知的RGB-D显著性目标检测网络,并通道注意力机制实现了自适应选择跨模态互补特征。Zhao等人首先利用对比度先验来增强深度信息,然后通过流体金字塔集成网络实现了RGB-D显著性目标检测。Li等人提出了一种基于交织融合的RGB-D显著性检测网络,通过交织融合方式步进式融合跨模态的互补信息。Piao等人提出了一种多尺度递归的RGB-D显著性网络,在复杂场景中获得了较好的检测性能。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:(1)RGB-D图像设计RGB和深度两种模态,而跨模态数据的不一致问题会降低学习得到的特征的判别力;(2)RGB-D图像中的深度图质量较差时容易引入噪声干扰,如毛糙的深度图边界会导致检测结果边缘不够锐利等。
发明内容
本发明旨在充分挖掘彩色和深度的跨模态互补信息,降低低质深度图对检测结果的影响,设计一种基于跨模态调制与选择的RGB-D图像显著性目标检测方法,获得更佳的检测性能。
为达到以上目的,本发明采取的技术方案是:
一种RGB-D图像显著性目标检测方法,包括如下步骤:
步骤1、将RGB图像和深度图像分别输入VGG主干网络提取多个层级自顶向下的RGB特征和深度特征;
步骤2、将每个层级得到的RGB特征和深度特征分别送入跟每个层级相对应的跨模态调制与选择单元得到每个层级的显著性图,并以第1层级输出的显著性图作为网络的最终输出显著性结果。
在上述方案的基础上,每个层级通过跨模态调制与选择单元得到对应显著性图的具体步骤如下:
1)通过跨模态特征调制模块学习一个深度特征上的映射函数
Figure BDA0002418771370000026
进而得到第L层级上的一组仿射变换参数(γLL);根据得到的仿射变换参数,利用深度特征对RGB特征进行调制,得到调制后的特征
Figure BDA0002418771370000021
2)将RGB特征、深度特征、调制特征和上采样的高层级修正特征送入自适应特征选择模块,以选择性地强调不同的通道特征并融合重要的空间特征,得到与显著性相关的特征
Figure BDA0002418771370000022
3)通过与显著性相关的特征
Figure BDA0002418771370000023
和上采样的高层级显著性图
Figure BDA0002418771370000024
计算第L层级的位置注意力特征
Figure BDA0002418771370000025
4)将RGB特征、深度特征、调制特征和上采样的高层级修正特征级联,然后将它们送入显著性边缘预测部分生成每个层级的显著性边缘图;对于第L个层级,通过第L层级的位置注意力特征
Figure BDA0002418771370000031
和第L层级的显著性边缘图
Figure BDA0002418771370000032
计算出边缘注意力的输出特征
Figure BDA0002418771370000033
Figure BDA0002418771370000034
作为最终用于显著性预测的第L层级的修正特征;
5)利用第L层级的修正特征通过显著性图预测部分进行显著性图预测,得到第L层级的显著性图。
在每个层级上都通过标准交叉熵损失来联合优化网络模型进行显著性图预测、显著性边缘预测,损失函数表示为:
Figure BDA0002418771370000035
其中,
Figure BDA0002418771370000036
表示第k个层级的显著性图预测的标准交叉熵损失,
Figure BDA0002418771370000037
表示第k个层级的显著性边缘预测的标准交叉熵损失,λ、η用于控制不同损失项比例;
步骤1)中,所述仿射变换参数(γLL)的计算公式如下:
Figure BDA0002418771370000038
其中,
Figure BDA00024187713700000324
表示第L级的深度特征,上标L表示特征层级,
Figure BDA00024187713700000310
表示映射函数,通过并行的堆叠卷积层实现,(γLL)表示学习得到的参数;
调制后的特征
Figure BDA00024187713700000311
的计算公式如下:
Figure BDA00024187713700000312
其中,
Figure BDA00024187713700000313
表示第L级上得到的调制特征,
Figure BDA00024187713700000314
表示第L级的RGB特征,
Figure BDA00024187713700000315
表示像素级相乘操作,
Figure BDA00024187713700000316
表示像素级相加操作。
步骤2)中,所述与显著性相关的特征
Figure BDA00024187713700000317
的计算公式如下:
Figure BDA00024187713700000318
其中,
Figure BDA00024187713700000319
表示第L级上得到的与显著性相关的特征,
Figure BDA00024187713700000320
表示第L级上得到的通道选择特征,
Figure BDA00024187713700000321
表示第L级上得到的空间融合特征,cat表示特征级联操作。
所述第L级上通道选择特征
Figure BDA00024187713700000322
的计算公式如下:
Figure BDA00024187713700000323
其中,
Figure BDA0002418771370000041
表示第L级上的通道选择特征,SE表示Squeeze-and-Excitation映射操作,conv表示卷积操作,cat表示特征级联操作,
Figure BDA0002418771370000042
表示不同模态的特征
Figure BDA0002418771370000043
分别经过SE映射后得到的增强特征,
Figure BDA0002418771370000044
表示第L层级提取的RGB特征,
Figure BDA0002418771370000045
表示第L层级提取的深度特征,
Figure BDA0002418771370000046
表示第L层级提取的调制特征,
Figure BDA0002418771370000047
表示第L+1层级得到的上采样修正特征。
所述第L级上得到的空间融合特征
Figure BDA0002418771370000048
的计算公式如下:
Figure BDA0002418771370000049
其中,
Figure BDA00024187713700000410
表示第L级上得到的空间融合特征,
Figure BDA00024187713700000411
表示不同模态的特征得到的像素级置信图。
所述像素级置信图的计算公式如下:
Figure BDA00024187713700000412
其中,
Figure BDA00024187713700000413
表示不同模态的特征,
Figure BDA00024187713700000414
表示不同模态的特征得到的像素级置信图,
Figure BDA00024187713700000415
表示卷积网络,包含6个堆叠的卷积层。
步骤3)中,第L层级的位置注意力特征
Figure BDA00024187713700000416
的计算公式如下:
Figure BDA00024187713700000417
其中,
Figure BDA00024187713700000418
表示第L级上得到的与显著性相关的特征,
Figure BDA00024187713700000419
表示上采样的第L+1级上得到的显著性图。
步骤4)中,第L层级的边缘注意力的输出特征的计算公式为:
Figure BDA00024187713700000420
其中,
Figure BDA00024187713700000421
表示第L层级的显著性边缘图。
所述高层级为第L+1级,且所述高层级修正特征和显著性图作为不同模块输入时,仅适用于第1~4层级,第5层级不包含相关高层级输入。
本发明的有益效果:本发明设计了一种基于跨模态调制与选择的RGB-D图像显著性目标检测方法,能够充分挖掘跨模态数据之间的互补信息,进而获得更具判别力的特征表达,生成更加完整、准确、边缘清晰的显著性图,且具有较强的背景抑制能力。
附图说明
本发明有如下附图:
图1给出了本发明提出方法的检测结果示例。
图2给出本发明提出方法的整体流程图。
图3给出本发明跨模态调制与选择单元的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图2所示,本发明所述的基于跨模态调制与选择的RGB-D图像显著性目标检测方法,通过跨模态调制与选择单元实现了特征的调制、选择和优化,能够生成更加准确、完整、锐利的显著性检测结果。具体实现步骤如下:
1.技术路线
本发明设计的网络首先从VGG主干网络中提取自顶向下的RGB-D特征,然后将RGB-D特征送入跟每个层级相对应的跨模态调制与选择单元进行显著性预测。在每个跨模态调制与选择单元(如图2-3所示)中,RGB-D特征分别通过跨模态特征调制模块、自适应特征选择模块和显著性引导的位置-边缘注意力模块进行特征调制、选择和优化。具体来说,本发明通过使用跨模态特征调制(cmFM)模块来对提取的多级RGB-D特征进行调制,以更灵活、更易于训练的方式有效地集成跨模式互补信息。随后,将RGB特征、深度特征、调制特征和上采样的高层级修正特征(如果有)送入自适应特征选择(AFS)模块,以选择性地强调不同的通道特征并融合重要的空间特征,最终得到与显著性相关的特征。同时,将RGB特征、深度特征、调制特征和上采样的高层级(第L+1级)修正特征(如果有)级联,送入显著性引导的位置-边缘注意力(sg-PEA)模块中的显著性边缘预测(E-Pre)部分生成显著性边缘图。然后,利用显著性边缘图和上采样的高层级显著性图(如果有)来突出强调AFS模块之后的显著性位置和边缘区域,得到修正特征。之后,利用修正特征通过sg-PEA模块中的显著性图预测(S-Pre)部分进行显著性图预测,并以第1层级输出的显著性图作为网络的最终输出显著性结果。
2.跨模态特征调制模块
在RGB-D图像中,涉及RGB和深度两种模态,为了有效捕捉RGB-D图像中的跨模态互补信息,已经提出了许多融合策略,如输入融合、早期融合和后期融合等,其中输入融合方式直接将RGB图像和对应的深度图作为网络的输入,而早期或晚期融合方式的区别则在于是在网络浅层还是网络深层中融合提取到的RGB特征和深度特征,这些方法往往仅是粗略地串联或相加了多模态信息,融合并不全面、彻底。与此不同,本发明提出了一种跨模态特征调制(cmFM)模块,通过利用对应层级的深度特征来增强RGB特征表示。本发明所提出的特征调制设计能够通过特征变换更加有效地集成多模态信息,更加清晰地建模不可分割的互补跨模态关系,并减少由多模态数据固有的不一致性引起的干扰。
跨模态特征调制模块以深度图为先验信息来丰富显著性线索,从深度特征中学习逐像素的仿射变换参数,然后在网络的每个层级中调制相应的RGB特征表示,获得更加完备的RGB-D特征表达。给定第L层级提取的RGB特征
Figure BDA00024187713700000612
和深度特征
Figure BDA0002418771370000062
通过cmFM模块学习一个深度特征上的映射函数
Figure BDA0002418771370000063
进而得到一组仿射变换参数
Figure BDA0002418771370000064
Figure BDA0002418771370000065
其中,上标L表示特征层级,
Figure BDA0002418771370000066
表示映射函数,通过并行的堆叠卷积层实现,(γLL)表示学习得到的参数。根据得到的仿射变换参数,利用深度特征对RGB特征进行调制,得到调制后的特征如下:
Figure BDA0002418771370000067
其中,
Figure BDA0002418771370000068
表示第L级上得到的调制特征,
Figure BDA0002418771370000069
表示第L级的RGB特征,
Figure BDA00024187713700000610
表示像素级相乘操作,
Figure BDA00024187713700000611
表示像素级相加操作。
3.自适应特征选择模块
特征表达对于显著性目标检测任务来说至关重要,通过卷积操作学习的特征往往具有一定的冗余,这些冗余可能对最终的显著性预测造成干扰,因此需要进一步对特征进行自适应选择,获得更具判别力、更紧致的特征表达。现有的显著性检测方法往往不加区分且独立地处理来自不同模态的通道特征,为了使网络更多地关注信息特征,本发明提出了一种自适应特征选择(AFS)模块来逐步重新调整通道特征。同时,AFS模块还融合了多模态的重要空间特征。因此,AFS模块能够自适应地选择与显著性相关的特征,并从空间和通道上抑制劣等特征,也减轻了低质深度图带来的负面影响,进而使得网络在处理不同信息方面具有更大的灵活性。
1)自适应通道特征选择
在自适应通道选择时,首先挖掘各自模态通道特征的相互依赖性,再进一步确定不同模态之间的相关性,然后在通过减少冗余特征的卷积层进行压缩之后,就可以得到通道注意力上的通道注意力(channel attention-on-channel attention)特征。这种独自模态和跨模态的通道注意力机制可以更好地模拟不同模态之间的通道特征关系,并自适应地选择信息更加丰富的通道特征。
给定不同模态的特征
Figure BDA0002418771370000075
其中,
Figure BDA00024187713700000710
表示第L层级提取的RGB特征,
Figure BDA0002418771370000077
表示第L层级提取的深度特征,
Figure BDA0002418771370000078
表示第L层级提取的调制特征,
Figure BDA0002418771370000079
表示第L+1层级得到的上采样修正特征。首先分别对每个模态的特征执行全局平均池化操作,从而为每个特征生成通道描述符,它嵌入了通道特征响应的全局分布,使来自网络全局感受野的信息能够被其较低层利用,然后,通过一个自选机制捕获通道依赖性。该处理过程可以通过已有的Squeeze-and-Excitation网络来实现,记为SE映射操作。但是,这种单一模态的通道注意力虽然能够突出显示的通道特征,但多模态的所有通道注意力结果并非都是有用的。因此,为了进一步强调信息更加丰富的通道特征,本发明在不同特征之间进一步执行通道注意力操作,进而形成通道注意力上的通道注意力(channel attention-on-channelattention)的处理架构。将不同模态的特征经过SE映射后得到的增强特征级联,然后再经过SE映射和卷积降维得到第L级上的通道选择特征:
Figure BDA0002418771370000071
其中,
Figure BDA0002418771370000072
表示第L级上的通道选择特征,SE表示Squeeze-and-Excitation映射操作,conv表示卷积操作,cat表示特征级联操作,
Figure BDA0002418771370000073
表示不同模态的特征
Figure BDA0002418771370000074
分别经过SE映射后得到的增强特征。
2)自适应空间特征融合
为了在进行通道特征选择的同时保持空间特征,本发明提出了基于门控的空间融合机制,用于融合多模态特征。自适应空间特征融合部分计算了每个输入特征的逐像素置信度图,使得重要的多模态空间特征得以保留。
首先,将输入的不同模态的特征
Figure BDA0002418771370000081
送入一个CNN网络来得到像素级置信图:
Figure BDA0002418771370000082
其中,
Figure BDA0002418771370000083
表示不同模态的特征,
Figure BDA0002418771370000084
表示不同模态的特征得到的像素级置信图,
Figure BDA0002418771370000085
表示卷积网络,包含6个堆叠的卷积层。然后,在置信图的引导下将不同模态的特征进行融合:
Figure BDA0002418771370000086
其中,
Figure BDA0002418771370000087
表示第L级上得到的空间融合特征。
最后,将通道选择特征与空间融合特征结合得到AFS模块的输出特征,称为与显著性相关的特征,即:
Figure BDA0002418771370000088
其中,
Figure BDA0002418771370000089
表示第L级上得到的与显著性相关的特征,包含更加有利于显著性检测的信息化特征,
Figure BDA00024187713700000810
表示第L级上得到的通道选择特征,
Figure BDA00024187713700000811
表示第L级上得到的空间融合特征,cat表示特征级联操作。
4.显著性引导的位置-边缘注意力模块
在选择与显著性相关的特征之后,还应鼓励设计的网络将注意力集中在对显著性目标检测最重要的那些位置和边缘上。这样的好处在于:1)显著性位置注意力可以更好地定位显著性对象,并加速网络收敛;2)显著性边缘注意力可以缓解重复池化操作引起的边缘模糊问题,这对于精确的显著性检测任务来说至关重要。为此,本发明提出了一个显著性引导的位置-边缘注意力(sg-PEA)模块,以更好地定位和锐化显著性目标。sg-PEA模块包括显著性图预测(S-Pre)部分和显著性边缘预测(E-Pre)部分,两者共享相同的网络结构,但权重不同,具体包括三个卷积层,前两个卷积层后接ReLU激活函数,最后一个卷积层后接一个Sigmoid将结果映射到[0,1]之间。
1)位置注意力
本发明利用高层级上采样的显著性图作为注意力权重,对AFS模块输出的与显著性相关的特征进行增强。显著性图是由显著性图预测(S-Pre)部分通过有监督的学习方式在每个层级进行计算的。这种侧监督方式的好处体现在四个方面:1)每个层级的卷积层对显著性检测有明确的更新目标;2)侧监督可以加速梯度反向传播;3)预测的显著性图可以引导低层级的卷积层以较低的计算代价更多的关注于显著性位置;4)多个侧输出是网络在精度和速度之间进行多种选择。具体而言,通过与显著性相关的特征
Figure BDA0002418771370000091
和上采样的第L+1级上得到的显著性图
Figure BDA0002418771370000092
计算第L层级的位置注意力特征
Figure BDA0002418771370000093
Figure BDA0002418771370000094
其中,
Figure BDA0002418771370000095
表示第L级上得到的与显著性相关的特征,
Figure BDA0002418771370000096
表示上采样的第L+1级上得到的显著性图。与同等对待所有显著性特征的位置相反,位置注意力可以快速有效地利用较高层级的显著性结果,并增强当前层级的显著性线索。
2)边缘注意力
为了获得边缘注意力权重,首先将RGB-D特征、调制特征和上采样的高层级修正特征级联,然后将它们送入显著性边缘预测(E-Pre)部分生成每个层级的显著性边缘图。通过监督学习生成的显著性边缘图仍然可以通过简单的像素级乘法操作来突出特征的显著性边缘。对于第L个层级,边缘注意力的输出特征可以表示为:
Figure BDA0002418771370000097
其中,
Figure BDA0002418771370000098
表示第L层级的显著性边缘图,
Figure BDA0002418771370000099
为最终用于显著性预测的第L层级的修正特征,利用该修正特征通过显著性图预测(S-Pre)部分进行显著性图预测,并以第1层级输出的显著性图作为网络的最终输出显著性结果。
5.损失函数
本发明在每个层级上都通过标准交叉熵损失来联合优化网络模型进行显著性图预测、显著性边缘预测,损失函数表示为:
Figure BDA00024187713700000910
其中,
Figure BDA00024187713700000911
表示第k个层级的显著性图预测的标准交叉熵损失项,
Figure BDA00024187713700000912
表示第k个层级的显著性边缘预测的标准交叉熵损失项,λ、η用于控制不同损失项比例。标准交叉熵损失函数的定义如下:
Figure BDA0002418771370000101
其中,φ表示网络需要学习的参数,Y+和Y-表示真图Y(显著性真图或显著性边缘真图)中的正样本和负样本像素,yi表示像素的显著性预测结果,X表示给定的输入数据,P表示求像素的显著性置信值,*表示sal或edge,sal或edge分别对应显著性图预测或显著性边缘预测。
附图1给出了本发明的两个可视化实例。第一列为RGB图像,第二列为深度图像,第三列为显著性检测结果的真图,第四列为本发明生成的显著性结果。从结果可以看出,本发明方法能够完整、准确的提取RGB-D图像中的显著性目标,而且能够很好的抑制复杂的背景干扰(如第一幅图像中的人群干扰),能够很好的检测显著性目标的细节(如第二幅图像中的植物叶子部分)。附图2给出了本发明的整体技术流程图,主要包括VGG主干网络和跨模态调制与选择单元。图3给出了跨模态调制与选择单元的组成部分,主要包括跨模态特征调制模块、自适应特征选择模块、显著性边缘预测部分和显著性图预测部分,其中显著性边缘预测部分和显著性图预测部分共同组成了显著性引导的位置-边缘注意力模块。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的实质和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的保护范围。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种RGB-D图像显著性目标检测方法,其特征在于,包括如下步骤:
步骤1、将RGB图像和深度图像分别输入VGG主干网络提取多个层级自顶向下的RGB特征和深度特征;
步骤2、将每个层级得到的RGB特征和深度特征分别送入跟每个层级相对应的跨模态调制与选择单元得到每个层级的显著性图,并以第1层级输出的显著性图作为网络的最终输出显著性结果。
2.如权利要求1所述的RGB-D图像显著性目标检测方法,其特征在于,每个层级通过跨模态调制与选择单元得到对应显著性图的具体步骤如下:
1)通过跨模态特征调制模块学习一个深度特征上的映射函数
Figure FDA0002418771360000011
进而得到第L层级上的一组仿射变换参数(γLL);根据得到的仿射变换参数,利用深度特征对RGB特征进行调制,得到调制后的特征
Figure FDA0002418771360000012
2)将RGB特征、深度特征、调制特征和上采样的高层级修正特征送入自适应特征选择模块,以选择性地强调不同的通道特征并融合重要的空间特征,得到与显著性相关的特征
Figure FDA0002418771360000013
3)通过与显著性相关的特征
Figure FDA0002418771360000014
和上采样的高层级显著性图
Figure FDA0002418771360000015
计算第L层级的位置注意力特征
Figure FDA0002418771360000016
4)将RGB特征、深度特征、调制特征和上采样的高层级修正特征级联,然后将它们送入显著性边缘预测部分生成每个层级的显著性边缘图;对于第L个层级,通过第L层级的位置注意力特征
Figure FDA0002418771360000017
和第L层级的显著性边缘图
Figure FDA0002418771360000018
计算出边缘注意力的输出特征
Figure FDA0002418771360000019
Figure FDA00024187713600000110
作为最终用于显著性预测的第L层级的修正特征;
5)利用第L层级的修正特征通过显著性图预测部分进行显著性图预测,得到第L层级的显著性图。
3.如权利要求1所述的RGB-D图像显著性目标检测方法,其特征在于:在每个层级上都通过标准交叉熵损失来联合优化网络模型进行显著性图预测、显著性边缘预测,损失函数表示为:
Figure FDA00024187713600000111
其中,
Figure FDA0002418771360000021
表示第k个层级的显著性图预测的标准交叉熵损失,
Figure FDA0002418771360000022
表示第k个层级的显著性边缘预测的标准交叉熵损失,λ、η用于控制不同损失项比例。
4.如权利要求2所述的RGB-D图像显著性目标检测方法,其特征在于:步骤1)中,所述仿射变换参数(γLL)的计算公式如下:
Figure FDA0002418771360000023
其中,
Figure FDA0002418771360000024
表示第L级的深度特征,上标L表示特征层级,
Figure FDA0002418771360000025
表示映射函数,通过并行的堆叠卷积层实现,(γLL)表示学习得到的参数;
调制后的特征
Figure FDA0002418771360000026
的计算公式如下:
Figure FDA0002418771360000027
其中,
Figure FDA0002418771360000028
表示第L级上得到的调制特征,
Figure FDA0002418771360000029
表示第L级的RGB特征,
Figure FDA00024187713600000210
表示像素级相乘操作,
Figure FDA00024187713600000211
表示像素级相加操作。
5.如权利要求2所述的RGB-D图像显著性目标检测方法,其特征在于:步骤2)中,所述与显著性相关的特征
Figure FDA00024187713600000212
的计算公式如下:
Figure FDA00024187713600000213
其中,
Figure FDA00024187713600000214
表示第L级上得到的与显著性相关的特征,
Figure FDA00024187713600000215
表示第L级上得到的通道选择特征,
Figure FDA00024187713600000216
表示第L级上得到的空间融合特征,cat表示特征级联操作。
6.如权利要求5所述的RGB-D图像显著性目标检测方法,其特征在于:所述第L级上通道选择特征
Figure FDA00024187713600000217
的计算公式如下:
Figure FDA00024187713600000218
其中,
Figure FDA00024187713600000219
表示第L级上的通道选择特征,SE表示Squeeze-and-Excitation映射操作,conv表示卷积操作,cat表示特征级联操作,
Figure FDA00024187713600000220
表示不同模态的特征
Figure FDA00024187713600000221
分别经过SE映射后得到的增强特征,
Figure FDA00024187713600000222
表示第L层级提取的RGB特征,
Figure FDA00024187713600000223
表示第L层级提取的深度特征,
Figure FDA00024187713600000224
表示第L层级提取的调制特征,
Figure FDA00024187713600000225
表示第L+1层级得到的上采样修正特征。
7.如权利要求5所述的RGB-D图像显著性目标检测方法,其特征在于:所述第L级上得到的空间融合特征
Figure FDA00024187713600000226
的计算公式如下:
Figure FDA0002418771360000031
其中,
Figure FDA0002418771360000032
表示第L级上得到的空间融合特征,
Figure FDA0002418771360000033
表示不同模态的特征得到的像素级置信图。
8.如权利要求7所述的RGB-D图像显著性目标检测方法,其特征在于:所述像素级置信图的计算公式如下:
Figure FDA0002418771360000034
其中,
Figure FDA0002418771360000035
表示不同模态的特征,
Figure FDA0002418771360000036
表示不同模态的特征得到的像素级置信图,
Figure FDA0002418771360000037
表示卷积网络,包含6个堆叠的卷积层。
9.如权利要求2所述的RGB-D图像显著性目标检测方法,其特征在于:步骤3)中,第L层级的位置注意力特征
Figure FDA0002418771360000038
的计算公式如下:
Figure FDA0002418771360000039
其中,
Figure FDA00024187713600000310
表示第L级上得到的与显著性相关的特征,
Figure FDA00024187713600000311
表示上采样的第L+1级上得到的显著性图。
10.如权利要求2所述的RGB-D图像显著性目标检测方法,其特征在于:步骤4)中,第L层级的边缘注意力的输出特征的计算公式为:
Figure FDA00024187713600000312
其中,
Figure FDA00024187713600000313
表示第L层级的显著性边缘图。
CN202010199264.XA 2020-03-20 2020-03-20 一种rgb-d图像显著性目标检测方法 Active CN111583173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199264.XA CN111583173B (zh) 2020-03-20 2020-03-20 一种rgb-d图像显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199264.XA CN111583173B (zh) 2020-03-20 2020-03-20 一种rgb-d图像显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN111583173A true CN111583173A (zh) 2020-08-25
CN111583173B CN111583173B (zh) 2023-12-01

Family

ID=72126081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199264.XA Active CN111583173B (zh) 2020-03-20 2020-03-20 一种rgb-d图像显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN111583173B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651406A (zh) * 2020-12-18 2021-04-13 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
CN112785632A (zh) * 2021-02-13 2021-05-11 常州市第二人民医院 基于epid的图像引导放疗中dr和drr影像跨模态自动配准方法
CN112784745A (zh) * 2021-01-22 2021-05-11 中山大学 基于置信度自适应和差分增强的视频显著物体检测方法
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113159068A (zh) * 2021-04-13 2021-07-23 天津大学 一种基于深度学习的rgb-d显著性目标检测方法
CN113298094A (zh) * 2021-06-10 2021-08-24 安徽大学 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113658134A (zh) * 2021-08-13 2021-11-16 安徽大学 一种多模态对齐校准的rgb-d图像显著目标检测方法
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN108898136A (zh) * 2018-07-04 2018-11-27 安徽大学 一种跨模态图像显著性检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
WO2019169884A1 (zh) * 2018-03-09 2019-09-12 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN110458797A (zh) * 2019-06-18 2019-11-15 南开大学 一种基于深度图过滤器的显著性物体检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
WO2019169884A1 (zh) * 2018-03-09 2019-09-12 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN108898136A (zh) * 2018-07-04 2018-11-27 安徽大学 一种跨模态图像显著性检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110458797A (zh) * 2019-06-18 2019-11-15 南开大学 一种基于深度图过滤器的显著性物体检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHONGYI LI等: "ASIF-Net: Attention Steered Interweave Fusion Network for RGB-D Salient Object Detection" *
刘涵: "传统扩散与卷积网络融合的显著性检测算法" *
姚琳: "基于多级深度特征融合的RGB-T图像显著性目标检测" *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651406B (zh) * 2020-12-18 2022-08-09 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
CN112651406A (zh) * 2020-12-18 2021-04-13 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
CN112784745A (zh) * 2021-01-22 2021-05-11 中山大学 基于置信度自适应和差分增强的视频显著物体检测方法
CN112784745B (zh) * 2021-01-22 2023-10-10 中山大学 基于置信度自适应和差分增强的视频显著物体检测方法
CN112785632A (zh) * 2021-02-13 2021-05-11 常州市第二人民医院 基于epid的图像引导放疗中dr和drr影像跨模态自动配准方法
CN112785632B (zh) * 2021-02-13 2024-05-24 常州市第二人民医院 基于epid的图像引导放疗中dr和drr影像跨模态自动配准方法
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN113159068A (zh) * 2021-04-13 2021-07-23 天津大学 一种基于深度学习的rgb-d显著性目标检测方法
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113362307B (zh) * 2021-06-07 2023-03-28 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113298094B (zh) * 2021-06-10 2022-11-04 安徽大学 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法
CN113298094A (zh) * 2021-06-10 2021-08-24 安徽大学 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113763422B (zh) * 2021-07-30 2023-10-03 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113658134A (zh) * 2021-08-13 2021-11-16 安徽大学 一种多模态对齐校准的rgb-d图像显著目标检测方法

Also Published As

Publication number Publication date
CN111583173B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN111583173B (zh) 一种rgb-d图像显著性目标检测方法
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
CN114049584A (zh) 一种模型训练和场景识别方法、装置、设备及介质
CN112950477B (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN111523410A (zh) 一种基于注意力机制的视频显著性目标检测方法
CN111242238A (zh) 一种rgb-d图像显著性目标获取的方法
CN112651423A (zh) 一种智能视觉系统
CN114764868A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110111351B (zh) 融合rgbd多模态信息的行人轮廓跟踪方法
CN112395951A (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN113822951A (zh) 图像处理方法、装置、电子设备及存储介质
CN114220126A (zh) 一种目标检测系统及获取方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN117152443A (zh) 一种基于语义前导指引的图像实例分割方法及系统
CN113392727B (zh) 一种基于动态特征选择的rgb-d显著目标检测方法
CN113240023A (zh) 基于变化图像分类和特征差值先验的变化检测方法及装置
CN112348033A (zh) 一种协同显著性目标检测方法
CN111738964A (zh) 一种基于建模的图像数据增强的方法
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN115063352A (zh) 一种基于多图神经网络协同学习架构的显著性物体检测装置及方法
CN116051950A (zh) 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN114445618A (zh) 一种跨模态交互rgb-d图像显著区域检测方法
CN115731604A (zh) 模型训练方法、手势识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant