CN113159068B - 一种基于深度学习的rgb-d显著性目标检测方法 - Google Patents
一种基于深度学习的rgb-d显著性目标检测方法 Download PDFInfo
- Publication number
- CN113159068B CN113159068B CN202110396328.XA CN202110396328A CN113159068B CN 113159068 B CN113159068 B CN 113159068B CN 202110396328 A CN202110396328 A CN 202110396328A CN 113159068 B CN113159068 B CN 113159068B
- Authority
- CN
- China
- Prior art keywords
- features
- depth map
- confidence
- map
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的RGB‑D显著性目标检测方法,包括:引入单目深度估计网络生成增强深度图作为原始深度图的补充,将两种深度图送入深度图特征提取流进行特征提取,对深度图特征进行自适应地择优选择,获取优化后的各级深度图特征;将RGB特征和深度图特征在两个置信度图的指导下进行融合,将RGB特征、深度图特征和融合特征进行级联和进一步融合,获得更新的RGBD融合特征;设计置信度图的迭代更新策略,考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图;使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督,训练交叉熵损失函数,基于训练后的网络实现。
Description
技术领域
本发明涉及深度学习、图像显著性目标检测领域,尤其涉及一种基于深度学习的RGB-D(彩色图像和深度图像)显著性目标检测方法。
背景技术
显著性目标检测旨在自动识别不同场景中的显著性区域,已广泛地应用于图像分割、重定向等任务。近年来,使用彩色图进行显著性目标检测成为较普遍的方式。实际上,人类视觉系统具有感知场景中深度信息的能力,深度信息可以应用于显著性目标检测任务中。随着采集设备的快速发展,深度图的获取变得越来越便捷,促进了RGB-D显著性目标检测的研究。
深度图中包含目标的形状和几何空间结构等隐含属性,这些线索能够提高显著性目标的辨别力,提升显著性检测的性能,但采集的深度图常存在分辨率低、质量差异大的问题;另一方面当前RGB-D显著性检测方法大多没有建模跨模态特征之间的互补性。因此,研究RGB-D显著性检测方法,探索如何从深度图中提取有效特征以及如何有效融合RGB图像和深度信息具有重要意义。
得益于深度学习在监督学习任务中的成功,近年来基于深度学习的RGB-D显著性目标检测方法开始受到关注。Liu等人提出了基于融合细化的显著性检测方法,通过级联RGB图像和深度图像来提取融合特征,并用于显著性检测;Ding等人提出了一个端到端深度感知的显著性检测模型,对于RGB特征和深度特征采用“相乘相加”的融合方式。Chen等人提出了多级特征融合检测的方法,通过一种跨模态交互的多尺度多路径融合网络来检测显著性物体。现有方法大多直接使用原始的低质深度图提取特征,并通过级联或相加的方式和RGB特征进行融合来预测显著性目标,这会引入深度图的噪声,而且不能充分挖掘跨模态特征之间的互补性。
发明内容
本发明提供了一种基于深度学习的RGB-D显著性目标检测方法,本发明利用单目深度估计网络得到具有较好空间特性的深度图,然后通过设计置信度图来指导每一级跨模态特征的融合,详见下文描述:
一种基于深度学习的RGB-D显著性目标检测方法,所述方法包括:
引入单目深度估计网络生成增强深度图作为原始深度图的补充,将两种深度图送入深度图特征提取流进行特征提取,对深度图特征进行自适应地择优选择,获取优化后的各级深度图特征;
将RGB特征和深度图特征在两个置信度图的指导下进行融合,得到互补区域的融合特征;并将RGB特征、深度图特征和融合特征进行级联和进一步融合,获得更新的RGBD融合特征;
设计置信度图的迭代更新策略,考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图;
使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督,训练交叉熵损失函数,基于训练后的网络实现。
其中,所述优化后的各级深度图特征为:
进一步地,所述互补区域的融合特征为:
其中,所述置信度图的迭代更新策略为:
本发明提供的技术方案的有益效果是:
1、本发明在单目深度估计网络生成的深度图和通过传感器拍摄的低质深度图之间,可以自适应的选择深度特征进行融合,从而获得到更有效的深度特征。
2、本发明利用卷积神经网络的特征学习能力,以提取有效的深度图特征为基础,将深度图特征和RGB特征进行多级互补融合,可以自适应的生成信息更完备的显著性特征,从而实现图像显著性目标的准确检测。
附图说明
图1为一种基于深度学习的RGB-D显著性目标检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种基于深度学习的RGB-D显著性目标检测方法,参见图1,该方法包括以下步骤:
一、构建自适应深度图特征选择模块
利用单目深度估计网络,可以获得较为准确的深度图。受此启发,本发明实施例引入单目深度估计网络生成增强深度图(D+)作为原始深度图(D)的补充。相比于D,D+具有较好的空间特性,更适用于显著性目标检测任务。但在一些情况下,D中同样具有明显的显著性空间特征,可以为显著性检测提供有效信息。D+和D可以相互补充,提供更多的信息,将两种深度图送入深度图特征提取流进行特征提取,并在此过程中对深度图特征进行自适应地择优选择,优化后的各级深度图特征计算公式如下:
二、构建互补区域特征融合模块
(1)构建基于置信度图的跨模态特征融合机制
在特征融合模块中,RGB特征和增强后的深度图特征首先经过特征提取单元,以捕获显著性目标的边界信息和上下文信息。经过特征提取单元的RGB特征和深度图特征分别记为和特别地,i=1,2时,特征提取单元为边界提取单元;i=3,4,5时,特征提取单元为感受野单元。然后,不同模态的特征和在两个置信度图的指导下进行融合,得到互补区域的融合特征其表示为:
其中,和分别表示RGB特征和深度图特征对应的置信度图,该置信度图是可学习的,由公式(6)和(7)更新生成。特别地,和分别由RGB和深度图特征提取流中第五级卷积块输出的特征,经过1×1卷积和Sigmoid激活函数获得。
(2)构建融合特征的补充机制
其中,Conv×2(·)表示依次进行的3×3和1×1的卷积操作,其输出通道数为64。
(3)构建迭代更新的置信度图
因此,在CRF i中,设计了一种置信度图的迭代更新策略,同时考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图,指导下一级的跨模态特征融合。上述迭代过程表示为:
三、构建损失函数机制
为了增强显著性目标检测的准确性,本发明使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督。
网络的整体损失Lall表示为:
其中,和分别表示第i级RGB特征对应置信度图的交叉熵损失和深度图特征对应置信度图的交叉熵损失,Lrd表示网络输出显著性结果图的交叉熵损失,和表示其对应的各级置信度图真值,s和l表示显著性预测图和真值,α为重要性平衡系数,本发明设置为10。
四、训练基于跨模态特征融合的RGB-D显著性目标检测网络
基于跨模态特征融合的RGB-D显著性目标检测网络包括:自适应深度图特征选择模块、互补区域特征融合模块和损失函数机制。
在该训练阶段,D+可以使用任意一个优秀的单目深度估计网络获得。整个RGB-D显著性目标检测网络采用端到端的训练方式,各卷积层参数采用随机初始化的方式,使用交叉熵损失函数Lall训练神经网络。批量大小设置为4,初始学习率设置为1e-4,每经过5个时期,学习率衰减1/2,总计训练40个时期。
五、发明的实际应用
本发明提供的显著性目标检测方法可以广泛地应用于图像分割、检测、重定向以及编码等任务中,并能有效的提高任务的效率。具体到工业界中,可以被用于智能手机“大光圈拍照功能”、视频会议背景替换等。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于深度学习的RGB-D显著性目标检测方法,其特征在于,所述方法包括:
引入单目深度估计网络生成增强深度图作为原始深度图的补充,将两种深度图送入深度图特征提取流进行特征提取,对深度图特征进行自适应地择优选择,获取优化后的各级深度图特征;
将RGB特征和深度图特征在两个置信度图的指导下进行融合,得到互补区域的融合特征;并将RGB特征、深度图特征和融合特征进行级联和进一步融合,获得更新的RGBD融合特征;
设计置信度图的迭代更新策略,考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征,生成更新的置信度图;
使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督,训练交叉熵损失函数,基于训练后的网络实现;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396328.XA CN113159068B (zh) | 2021-04-13 | 2021-04-13 | 一种基于深度学习的rgb-d显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396328.XA CN113159068B (zh) | 2021-04-13 | 2021-04-13 | 一种基于深度学习的rgb-d显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159068A CN113159068A (zh) | 2021-07-23 |
CN113159068B true CN113159068B (zh) | 2022-08-30 |
Family
ID=76890260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110396328.XA Active CN113159068B (zh) | 2021-04-13 | 2021-04-13 | 一种基于深度学习的rgb-d显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159068B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898145A (zh) * | 2018-06-15 | 2018-11-27 | 西南交通大学 | 一种结合深度学习的图像显著目标检测方法 |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255357B (zh) * | 2018-08-03 | 2021-09-17 | 天津大学 | 一种rgbd图像协同显著性检测方法 |
CN111583173B (zh) * | 2020-03-20 | 2023-12-01 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111582316B (zh) * | 2020-04-10 | 2022-06-28 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN112434655B (zh) * | 2020-12-07 | 2022-11-08 | 安徽大学 | 一种基于自适应置信度图卷积网络的步态识别方法 |
-
2021
- 2021-04-13 CN CN202110396328.XA patent/CN113159068B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898145A (zh) * | 2018-06-15 | 2018-11-27 | 西南交通大学 | 一种结合深度学习的图像显著目标检测方法 |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113159068A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN111582316B (zh) | 一种rgb-d显著性目标检测方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN112348870B (zh) | 一种基于残差融合的显著性目标检测方法 | |
CN113205520B (zh) | 一种对图像进行语义分割的方法及系统 | |
CN114638836B (zh) | 基于高度有效驱动与多层级特征融合的城市街景分割方法 | |
CN115393410A (zh) | 一种基于神经辐射场和语义分割的单目视图深度估计方法 | |
EP3958207A2 (en) | Method and apparatus for video frame interpolation, and electronic device | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN113610146A (zh) | 基于中间层特征提取增强的知识蒸馏实现图像分类的方法 | |
CN112329793B (zh) | 基于结构自适应和规模自适应感受野的显著性检测方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN111860116A (zh) | 一种基于深度学习和特权信息的场景识别方法 | |
CN114781499B (zh) | 一种构建基于ViT模型的密集预测任务适配器的方法 | |
CN114416260A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN113538402B (zh) | 一种基于密度估计的人群计数方法及系统 | |
CN114283315A (zh) | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 | |
CN113159068B (zh) | 一种基于深度学习的rgb-d显著性目标检测方法 | |
CN115527159B (zh) | 一种基于跨模态间尺度注意聚合特征的计数系统及方法 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN115995002A (zh) | 一种网络构建方法及城市场景实时语义分割方法 | |
CN113920317A (zh) | 基于可见光图像和低分辨率深度图像的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |