CN113159068B - 一种基于深度学习的rgb-d显著性目标检测方法 - Google Patents

一种基于深度学习的rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN113159068B
CN113159068B CN202110396328.XA CN202110396328A CN113159068B CN 113159068 B CN113159068 B CN 113159068B CN 202110396328 A CN202110396328 A CN 202110396328A CN 113159068 B CN113159068 B CN 113159068B
Authority
CN
China
Prior art keywords
features
depth map
confidence
map
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110396328.XA
Other languages
English (en)
Other versions
CN113159068A (zh
Inventor
雷建军
张明亮
彭勃
祝新鑫
潘兆庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110396328.XA priority Critical patent/CN113159068B/zh
Publication of CN113159068A publication Critical patent/CN113159068A/zh
Application granted granted Critical
Publication of CN113159068B publication Critical patent/CN113159068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的RGB‑D显著性目标检测方法,包括:引入单目深度估计网络生成增强深度图作为原始深度图的补充,将两种深度图送入深度图特征提取流进行特征提取,对深度图特征进行自适应地择优选择,获取优化后的各级深度图特征;将RGB特征和深度图特征在两个置信度图的指导下进行融合,将RGB特征、深度图特征和融合特征进行级联和进一步融合,获得更新的RGBD融合特征;设计置信度图的迭代更新策略,考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图;使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督,训练交叉熵损失函数,基于训练后的网络实现。

Description

一种基于深度学习的RGB-D显著性目标检测方法
技术领域
本发明涉及深度学习、图像显著性目标检测领域,尤其涉及一种基于深度学习的RGB-D(彩色图像和深度图像)显著性目标检测方法。
背景技术
显著性目标检测旨在自动识别不同场景中的显著性区域,已广泛地应用于图像分割、重定向等任务。近年来,使用彩色图进行显著性目标检测成为较普遍的方式。实际上,人类视觉系统具有感知场景中深度信息的能力,深度信息可以应用于显著性目标检测任务中。随着采集设备的快速发展,深度图的获取变得越来越便捷,促进了RGB-D显著性目标检测的研究。
深度图中包含目标的形状和几何空间结构等隐含属性,这些线索能够提高显著性目标的辨别力,提升显著性检测的性能,但采集的深度图常存在分辨率低、质量差异大的问题;另一方面当前RGB-D显著性检测方法大多没有建模跨模态特征之间的互补性。因此,研究RGB-D显著性检测方法,探索如何从深度图中提取有效特征以及如何有效融合RGB图像和深度信息具有重要意义。
得益于深度学习在监督学习任务中的成功,近年来基于深度学习的RGB-D显著性目标检测方法开始受到关注。Liu等人提出了基于融合细化的显著性检测方法,通过级联RGB图像和深度图像来提取融合特征,并用于显著性检测;Ding等人提出了一个端到端深度感知的显著性检测模型,对于RGB特征和深度特征采用“相乘相加”的融合方式。Chen等人提出了多级特征融合检测的方法,通过一种跨模态交互的多尺度多路径融合网络来检测显著性物体。现有方法大多直接使用原始的低质深度图提取特征,并通过级联或相加的方式和RGB特征进行融合来预测显著性目标,这会引入深度图的噪声,而且不能充分挖掘跨模态特征之间的互补性。
发明内容
本发明提供了一种基于深度学习的RGB-D显著性目标检测方法,本发明利用单目深度估计网络得到具有较好空间特性的深度图,然后通过设计置信度图来指导每一级跨模态特征的融合,详见下文描述:
一种基于深度学习的RGB-D显著性目标检测方法,所述方法包括:
引入单目深度估计网络生成增强深度图作为原始深度图的补充,将两种深度图送入深度图特征提取流进行特征提取,对深度图特征进行自适应地择优选择,获取优化后的各级深度图特征;
将RGB特征和深度图特征在两个置信度图的指导下进行融合,得到互补区域的融合特征;并将RGB特征、深度图特征和融合特征进行级联和进一步融合,获得更新的RGBD融合特征;
设计置信度图的迭代更新策略,考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图;
使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督,训练交叉熵损失函数,基于训练后的网络实现。
其中,所述优化后的各级深度图特征为:
Figure BDA0003018723200000021
其中,i=1,2,…,5,
Figure BDA0003018723200000022
表示从D+中提取到的特征,
Figure BDA0003018723200000023
表示从D中提取到的特征,两个空间系数矩阵
Figure BDA0003018723200000024
Figure BDA0003018723200000025
表示各自深度图特征中每个位置上值的权重大小。
进一步地,所述互补区域的融合特征为:
Figure BDA0003018723200000026
其中,
Figure BDA0003018723200000027
Figure BDA0003018723200000028
分别表示RGB特征和深度图特征对应的置信度图,不同模态的特征
Figure BDA0003018723200000029
Figure BDA00030187232000000210
为不同模态的特征。
其中,所述置信度图的迭代更新策略为:
Figure BDA00030187232000000211
Figure BDA00030187232000000212
其中,i=1,2,…,5,
Figure BDA00030187232000000213
Figure BDA00030187232000000214
分别表示第i-1级RGB特征和深度图特征对应的置信度图。
本发明提供的技术方案的有益效果是:
1、本发明在单目深度估计网络生成的深度图和通过传感器拍摄的低质深度图之间,可以自适应的选择深度特征进行融合,从而获得到更有效的深度特征。
2、本发明利用卷积神经网络的特征学习能力,以提取有效的深度图特征为基础,将深度图特征和RGB特征进行多级互补融合,可以自适应的生成信息更完备的显著性特征,从而实现图像显著性目标的准确检测。
附图说明
图1为一种基于深度学习的RGB-D显著性目标检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种基于深度学习的RGB-D显著性目标检测方法,参见图1,该方法包括以下步骤:
一、构建自适应深度图特征选择模块
利用单目深度估计网络,可以获得较为准确的深度图。受此启发,本发明实施例引入单目深度估计网络生成增强深度图(D+)作为原始深度图(D)的补充。相比于D,D+具有较好的空间特性,更适用于显著性目标检测任务。但在一些情况下,D中同样具有明显的显著性空间特征,可以为显著性检测提供有效信息。D+和D可以相互补充,提供更多的信息,将两种深度图送入深度图特征提取流进行特征提取,并在此过程中对深度图特征进行自适应地择优选择,优化后的各级深度图特征
Figure BDA0003018723200000031
计算公式如下:
Figure BDA0003018723200000032
其中,i=1,2,…,5,
Figure BDA0003018723200000033
表示从D+中提取到的特征,
Figure BDA0003018723200000034
表示从D中提取到的特征,两个空间系数矩阵
Figure BDA0003018723200000035
Figure BDA0003018723200000036
表示各自深度图特征中每个位置上值的权重大小。
二、构建互补区域特征融合模块
(1)构建基于置信度图的跨模态特征融合机制
在特征融合模块中,RGB特征
Figure BDA0003018723200000037
和增强后的深度图特征
Figure BDA0003018723200000038
首先经过特征提取单元,以捕获显著性目标的边界信息和上下文信息。经过特征提取单元的RGB特征和深度图特征分别记为
Figure BDA0003018723200000039
Figure BDA00030187232000000310
特别地,i=1,2时,特征提取单元为边界提取单元;i=3,4,5时,特征提取单元为感受野单元。然后,不同模态的特征
Figure BDA00030187232000000311
Figure BDA00030187232000000312
在两个置信度图的指导下进行融合,得到互补区域的融合特征
Figure BDA00030187232000000313
其表示为:
Figure BDA00030187232000000314
其中,
Figure BDA0003018723200000041
Figure BDA0003018723200000042
分别表示RGB特征和深度图特征对应的置信度图,该置信度图是可学习的,由公式(6)和(7)更新生成。特别地,
Figure BDA0003018723200000043
Figure BDA0003018723200000044
分别由RGB和深度图特征提取流中第五级卷积块输出的特征,经过1×1卷积和Sigmoid激活函数获得。
(2)构建融合特征的补充机制
为了避免显著性特征的丢失,充分地发挥各模态特征之间的互补优势,RGB特征
Figure BDA0003018723200000045
深度图特征
Figure BDA0003018723200000046
和互补区域的融合特征
Figure BDA0003018723200000047
进行级联,并通过两层卷积进一步融合,获得更新的RGBD融合特征
Figure BDA0003018723200000048
其表示为:
Figure BDA0003018723200000049
其中,Conv×2(·)表示依次进行的3×3和1×1的卷积操作,其输出通道数为64。
在逐级显著性特征推理过程中,上一级的RGBD显著性特征向下一级进行传递,与当前级的特征再次融合,并通过通道注意力模块对不同通道的显著性特征进行重新加权,得到加权后的RGBD特征
Figure BDA00030187232000000410
其表示为:
Figure BDA00030187232000000411
其中,CA(·)表示通道注意力。最后,加权后的RGBD特征
Figure BDA00030187232000000412
经过上采样操作,获取当前级最终的RGBD显著性特征
Figure BDA00030187232000000413
定义为:
Figure BDA00030187232000000414
其中,Up(·)为双线性插值的上采样操作。具体实现时,当i=1,2,3,4时,对应的
Figure BDA00030187232000000415
参与到下一级的特征融合过程,当i=5时,表示得到的是最后一级融合特征,它被用来预测最终的显著性结果图。
(3)构建迭代更新的置信度图
由于初始的
Figure BDA00030187232000000416
Figure BDA00030187232000000417
只是初步地反映两个模态特征不同区域的贡献度,对不同级别的融合缺乏针对性,无法适用于每一级跨模态特征融合。
因此,在CRF i中,设计了一种置信度图的迭代更新策略,同时考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图,指导下一级的跨模态特征融合。上述迭代过程表示为:
Figure BDA00030187232000000418
Figure BDA00030187232000000419
其中,i=1,2,…,5,
Figure BDA00030187232000000420
Figure BDA00030187232000000421
分别表示第i-1级RGB特征和深度图特征对应的置信度图。该公式(6)和(7)的结果被应用在上述公式(2)中进行置信度图的更新。
三、构建损失函数机制
为了增强显著性目标检测的准确性,本发明使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督。
网络的整体损失Lall表示为:
Figure BDA0003018723200000051
其中,
Figure BDA0003018723200000052
Figure BDA0003018723200000053
分别表示第i级RGB特征对应置信度图的交叉熵损失和深度图特征对应置信度图的交叉熵损失,Lrd表示网络输出显著性结果图的交叉熵损失,
Figure BDA0003018723200000054
Figure BDA0003018723200000055
表示其对应的各级置信度图真值,s和l表示显著性预测图和真值,α为重要性平衡系数,本发明设置为10。
四、训练基于跨模态特征融合的RGB-D显著性目标检测网络
基于跨模态特征融合的RGB-D显著性目标检测网络包括:自适应深度图特征选择模块、互补区域特征融合模块和损失函数机制。
在该训练阶段,D+可以使用任意一个优秀的单目深度估计网络获得。整个RGB-D显著性目标检测网络采用端到端的训练方式,各卷积层参数采用随机初始化的方式,使用交叉熵损失函数Lall训练神经网络。批量大小设置为4,初始学习率设置为1e-4,每经过5个时期,学习率衰减1/2,总计训练40个时期。
五、发明的实际应用
本发明提供的显著性目标检测方法可以广泛地应用于图像分割、检测、重定向以及编码等任务中,并能有效的提高任务的效率。具体到工业界中,可以被用于智能手机“大光圈拍照功能”、视频会议背景替换等。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于深度学习的RGB-D显著性目标检测方法,其特征在于,所述方法包括:
引入单目深度估计网络生成增强深度图作为原始深度图的补充,将两种深度图送入深度图特征提取流进行特征提取,对深度图特征进行自适应地择优选择,获取优化后的各级深度图特征;
将RGB特征和深度图特征在两个置信度图的指导下进行融合,得到互补区域的融合特征;并将RGB特征、深度图特征和融合特征进行级联和进一步融合,获得更新的RGBD融合特征;
设计置信度图的迭代更新策略,考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图;
使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督,训练交叉熵损失函数,基于训练后的网络实现;
其中,将RGB特征
Figure FDA0003752926250000011
和深度图特征
Figure FDA0003752926250000012
在两个置信度图的指导下进行融合,得到互补区域的融合特征为:
Figure FDA0003752926250000013
其中,
Figure FDA0003752926250000014
Figure FDA0003752926250000015
分别表示RGB特征和深度图特征对应的置信度图,置信度图是可学习的,由置信度图的迭代更新策略更新生成;所述置信度图的迭代更新策略为:
Figure FDA0003752926250000016
Figure FDA0003752926250000017
其中,i=1,2,…,5,
Figure FDA0003752926250000018
Figure FDA0003752926250000019
分别表示第i-1级RGB特征和深度图特征对应的置信度图;
Figure FDA00037529262500000110
表示加权后的RGBD特征;Up(·)为双线性插值的上采样操作;Conv×2(·)表示依次进行的3×3和1×1的卷积操作。
2.根据权利要求1所述的一种基于深度学习的RGB-D显著性目标检测方法,其特征在于,所述优化后的各级深度图特征为:
Figure FDA00037529262500000111
其中,i=1,2,…,5,
Figure FDA00037529262500000112
表示从增强深度图D+中提取到的特征,
Figure FDA00037529262500000113
表示从原始深度图D中提取到的特征,两个空间系数矩阵
Figure FDA00037529262500000114
Figure FDA00037529262500000115
表示各自深度图特征中每个位置上值的权重大小。
CN202110396328.XA 2021-04-13 2021-04-13 一种基于深度学习的rgb-d显著性目标检测方法 Active CN113159068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110396328.XA CN113159068B (zh) 2021-04-13 2021-04-13 一种基于深度学习的rgb-d显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110396328.XA CN113159068B (zh) 2021-04-13 2021-04-13 一种基于深度学习的rgb-d显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN113159068A CN113159068A (zh) 2021-07-23
CN113159068B true CN113159068B (zh) 2022-08-30

Family

ID=76890260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110396328.XA Active CN113159068B (zh) 2021-04-13 2021-04-13 一种基于深度学习的rgb-d显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113159068B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898145A (zh) * 2018-06-15 2018-11-27 西南交通大学 一种结合深度学习的图像显著目标检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255357B (zh) * 2018-08-03 2021-09-17 天津大学 一种rgbd图像协同显著性检测方法
CN111583173B (zh) * 2020-03-20 2023-12-01 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111582316B (zh) * 2020-04-10 2022-06-28 天津大学 一种rgb-d显著性目标检测方法
CN112434655B (zh) * 2020-12-07 2022-11-08 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898145A (zh) * 2018-06-15 2018-11-27 西南交通大学 一种结合深度学习的图像显著目标检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法

Also Published As

Publication number Publication date
CN113159068A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN112348870B (zh) 一种基于残差融合的显著性目标检测方法
CN113205520B (zh) 一种对图像进行语义分割的方法及系统
CN114638836B (zh) 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN115393410A (zh) 一种基于神经辐射场和语义分割的单目视图深度估计方法
EP3958207A2 (en) Method and apparatus for video frame interpolation, and electronic device
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113610146A (zh) 基于中间层特征提取增强的知识蒸馏实现图像分类的方法
CN112329793B (zh) 基于结构自适应和规模自适应感受野的显著性检测方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN111860116A (zh) 一种基于深度学习和特权信息的场景识别方法
CN114781499B (zh) 一种构建基于ViT模型的密集预测任务适配器的方法
CN114416260A (zh) 图像处理方法、装置、电子设备及存储介质
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
CN114283315A (zh) 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN113159068B (zh) 一种基于深度学习的rgb-d显著性目标检测方法
CN115527159B (zh) 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN113962332B (zh) 基于自优化融合反馈的显著目标识别方法
CN115995002A (zh) 一种网络构建方法及城市场景实时语义分割方法
CN113920317A (zh) 基于可见光图像和低分辨率深度图像的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant