CN111524090A - 一种基于深度预测图的rgb-d显著性检测方法 - Google Patents

一种基于深度预测图的rgb-d显著性检测方法 Download PDF

Info

Publication number
CN111524090A
CN111524090A CN202010031394.2A CN202010031394A CN111524090A CN 111524090 A CN111524090 A CN 111524090A CN 202010031394 A CN202010031394 A CN 202010031394A CN 111524090 A CN111524090 A CN 111524090A
Authority
CN
China
Prior art keywords
depth
map
rgb
scale
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010031394.2A
Other languages
English (en)
Inventor
程明明
金闻达
韩琦
徐君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhenjiang Youtong Intelligent Technology Co ltd
Original Assignee
Zhenjiang Youtong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhenjiang Youtong Intelligent Technology Co ltd filed Critical Zhenjiang Youtong Intelligent Technology Co ltd
Priority to CN202010031394.2A priority Critical patent/CN111524090A/zh
Publication of CN111524090A publication Critical patent/CN111524090A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度预测图的RGB‑D显著性检测方法,步骤如下;S10、制作多尺度预测图;S20、导入神经网络;S30、融合;S40、恢复;本发明利用深度监督技术和卷积神经网络,以深度图作为输入制作多尺度预测图,将由RGB图像产生的高级语义特征与低尺度深度预测图结合,产生低尺度显著图,基于内部互补注意力机制,通过解码器单元,结合不同尺度的深度预测图和底层RGB特征,逐步恢复低尺度显著图的分辨率,相对于现有的RGB‑D显著性物体检测方法,模型仅为RGB网络流提供低维度的深度信息,在主流的公开数据集的评测上取得了最优的性能,解决了由于数据集中RGB图像与深度图像的质量并不匹配,中期阶段融合方法仍然不能达到令人满意的效果的问题。

Description

一种基于深度预测图的RGB-D显著性检测方法
技术领域
本发明涉及图像处理方法相关领域,尤其涉及一种基于深度预测图的 RGB-D显著性检测方法。
背景技术
显著性物体检测旨在从图片中提取出引人注目的物体。作为一项底层任务,显著性物体检测经常被用于语义分割、视觉跟踪等任务中。尽管该领域已经由许多性能优异的方法,当一幅图片中前景与背景物体具有相似的纹理,现有显著性物体检测模型仍然难以准确定位显著性物体的位置。一个解决方法是,使用额外的深度图像作为RGB图像的补充信息。近年来,由于硬件设备的发展,RGB图像与对应的深度图像可以比较轻松地获取到。因此,RGB-D 显著性物体检测任务逐渐获得了人们的关注,成为了一个具有发展前景的领域。
早期的RGB-D显著性物体检测方法通常采用手工制作来预测显著物体。为了能更好的利用深度信息,研究者们也尝试使用各种各样的回归技术,来对RGB信息与深度信息进行融合。近年来,基于深度神经网络的方法成为了 RGB-D显著性物体检测领域的主流方法,通过设计不同的融合方式,研究者们希望能让模型自适应融合不同来源的信息:早期阶段融合,LiangqiongQu等人在2017年提出了“RGB-DSalientobjectdetectionviadeepfusion”,该方法直接使用深度图像作为神经网络的额外输入来学习预测显著图;中期阶段融合,通常部署两个卷积神经网络分别对RGB图像和深度图像进行特征提取,对中间特征进行融合,产生最终预测,如HaoChen等人在2018年提出的“ProgressivelyComplementarity-AwareFusionNetworkforRGB-DSalientOb jectDetection”;后期阶段融合,使用两个神经网络分别利用RGB图像和深度图像产生预测,然后对两类显著图进一步融合,生成最终结果。
目前,主流的RGB-D显著性物体检测方法主要采用中期阶段融合的策略。然而,由于数据集中RGB图像与深度图像的质量并不匹配,尽管使用了高维度的深度特征表示,中期阶段融合方法仍然不能达到令人满意的效果。
发明内容
本发明的目的在于提供一种基于深度预测图的RGB-D显著性检测方法,以解决上述背景技术中提出主流的RGB-D显著性物体检测方法主要采用中期阶段融合的策略,然而,由于数据集中RGB图像与深度图像的质量并不匹配,尽管使用了高维度的深度特征表示,中期阶段融合方法仍然不能达到令人满意的效果的问题。
为了实现以上目的,本发明采用的技术方案为:一种基于深度预测图的 RGB-D显著性检测方法,步骤如下;
S10、制作多尺度预测图;S20、导入神经网络;S30、融合;S40、恢复。
进一步的,所述步骤S10、制作多尺度预测图:利用深度监督技术和卷积神经网络,以深度图作为输入制作多尺度预测图。
进一步的,所述步骤S20、导入神经网络:使用深度注意力单元,将由 RGB图像产生的高级语义特征与低尺度深度预测图结合,产生低尺度显著图。
进一步的,所述步骤S20、导入神经网络中的低尺度显著图的制作过程为,利用深度注意力单元,将高层RGB特征与低尺度深度预测图融合,产生低尺度显著图。
进一步的,所述步骤S30、融合;使用深度感知的解码器单元,基于内部互补注意力机制,结合不同尺度的深度预测图和底层RGB特征,逐渐修复低尺度显著图的分辨率。
进一步的,所述步骤S30、融合;使用深度感知的解码器单元,基于内部互补注意力机制,结合不同尺度的深度预测图和底层RGB特征,逐渐修复低尺度显著图的分辨率。
进一步的,所述步骤S40、恢复:基于内部互补注意力机制,构建三个深度感知的解码器,逐渐恢复显著图的分辨率。
进一步的,所述使用的深度感知的解码器单元采用了内部注意力互补机制,具体计算如下:
Figure RE-GSB0000188337970000031
其中,
Figure RE-GSB0000188337970000034
表示输入解码器单元的低尺度显著图通过双线性插值上采样产生的结果;M表示一个二值化掩膜;Mi,j
Figure RE-GSB0000188337970000032
表示M和
Figure RE-GSB0000188337970000033
中第i行、第j列的元素值; Ap和An被称为内部互补注意力。
本发明的有益效果为:
利用深度监督技术和卷积神经网络,以深度图作为输入制作多尺度预测图,设计了深度注意力单元,将由RGB图像产生的高级语义特征与低尺度深度预测图结合,产生低尺度显著图,基于内部互补注意力机制,设计了深度感知的解码器单元,结合不同尺度的深度预测图和底层RGB特征,逐步恢复低尺度显著图的分辨率,相对于现有的RGB-D显著性物体检测方法,模型仅为RGB网络流提供低维度的深度信息,但已经在主流的公开数据集的评测上取得了最优的性能。
附图说明
图1为本发明方法流程图;
图2为本发明中整体网络结构的示意图;
图3为本发明中解码器单元的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种基于深度预测图的RGB-D 显著性检测方法,步骤如下;
S10、制作多尺度预测图;S20、导入神经网络;S30、融合;S40、恢复。
优选的,所述步骤S10、制作多尺度预测图:利用深度监督技术和卷积神经网络,以深度图作为输入制作多尺度预测图。
优选的,所述步骤S20、导入神经网络:使用深度注意力单元,将由RGB 图像产生的高级语义特征与低尺度深度预测图结合,产生低尺度显著图。
优选的,所述步骤S20、导入神经网络中的低尺度显著图的制作过程为,利用深度注意力单元,将高层RGB特征与低尺度深度预测图融合,产生低尺度显著图。
优选的,所述步骤S30、融合;使用深度感知的解码器单元,基于内部互补注意力机制,结合不同尺度的深度预测图和底层RGB特征,逐渐修复低尺度显著图的分辨率。
优选的,所述步骤S30、融合;使用深度感知的解码器单元,基于内部互补注意力机制,结合不同尺度的深度预测图和底层RGB特征,逐渐修复低尺度显著图的分辨率。
优选的,所述步骤S40、恢复:基于内部互补注意力机制,构建三个深度感知的解码器,逐渐恢复显著图的分辨率。
优选的,所述使用的深度感知的解码器单元采用了内部注意力互补机制,具体计算如下:
Figure RE-GSB0000188337970000041
其中,
Figure RE-GSB0000188337970000042
表示输入解码器单元的低尺度显著图通过双线性插值上采样产生的结果;M表示一个二值化掩膜;Mi,j
Figure RE-GSB0000188337970000043
表示M和
Figure RE-GSB0000188337970000044
中第i行、第j列的元素值;Ap和An被称为内部互补注意力。
实施例1
参考图1,本发明的具体实施步骤如下:
1.将VGG16网络的全连接层替换为3个卷积层,将深度图像作为训练数据,以RGB-D显著性物体检测标签作为拟合目标,使用交叉熵损失函数,利用深度监督技术对该深度网络流进行训练,产生四个不同尺度的预测
Figure RE-GSB0000188337970000051
分别对应尺度{28,56,112,224}。具体的,
Figure RE-GSB0000188337970000052
由网络的高三层特征利用并行的三个空洞卷积层产生,空洞卷积的扩张比例为{1,2,4};
Figure RE-GSB0000188337970000053
通过 U-shape结构由
Figure RE-GSB0000188337970000054
以自顶向下的方式产生。
2.使用另一个VGG16网络,同样用3个卷积层替换掉全连接层,以RGB 图像作为输入,提取第三阶段最大池化后的特征。
3.深度注意力单元:参考图2,将步骤a中产生的深度预测图
Figure RE-GSB0000188337970000055
和步骤b 中提取的特征分别作为该单元的输入深度预测图和输入特征。首先,将输入特征送入后三个卷积层,提取对应阶段的特征作为朴素RGB特征。然后,将输入特征与
Figure RE-GSB0000188337970000056
进行元素相乘,也送入接下来的后三个卷积层中,提取出深度加强后的RGB特征。对这两类特征,通过元素相加的形式进行简单融合。与步骤a相似,融合后的高层特征通过并行的三个空洞卷积层输出一个低尺度显著图。
4.深度感知的解码器单元:参考图3,该解码器单元基于内部互补注意力,具体的,对于一个中间尺度的显著图,首先将其上采样为
Figure RE-GSB0000188337970000057
然后可以通过下式产生内部互补注意力;
Figure RE-GSB0000188337970000061
Figure RE-GSB0000188337970000062
Figure RE-GSB0000188337970000069
其中,M表示一个二值化掩膜,以0.05作为阈值对
Figure RE-GSB0000188337970000063
进行二值化;Mi,j
Figure RE-GSB0000188337970000064
表示M和
Figure RE-GSB0000188337970000065
中第i行、第j列的元素值;由于Ap和An通过M过滤掉了背景,且以一种互补的方式关注待预测物体本身,可以更好地从RGB信息中挖掘潜在的显著性区域。对于一个深度感知的解码器单元,给定低尺度显著图Sk+1,底层RGB特征
Figure RE-GSB0000188337970000066
以及深度预测图
Figure RE-GSB0000188337970000067
该单元将分别利用Sk +1
Figure RE-GSB0000188337970000068
制作两对内部互补注意力,利用卷积操作对特征进行融合,输出高尺度显著图Sk。通过连续三个解码器单元,逐渐将步骤c产生的低尺度显著图恢复到{56, 112,224}尺度,整体网络的最终输出为224×224分辨率的显著图。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。

Claims (8)

1.一种基于深度预测图的RGB-D显著性检测方法,其特征在于:步骤如下;
S10、制作多尺度预测图;S20、导入神经网络;S30、融合;S40、恢复。
2.根据权利要求1所述的一种基于深度预测图的RGB-D显著性检测方法方法,其特征在于:所述S10、制作多尺度预测图:利用深度监督技术和卷积神经网络,以深度图作为输入制作多尺度预测图。
3.根据权利要求1所述的一种基于深度预测图的RGB-D显著性检测方法,其特征在于:所述步骤S20、导入神经网络:使用深度注意力单元,将由RGB图像产生的高级语义特征与低尺度深度预测图结合,产生低尺度显著图。
4.根据权利要求1所述的一种基于深度预测图的RGB-D显著性检测方法,其特征在于:所述步骤S20、导入神经网络中的低尺度显著图的制作过程为,利用深度注意力单元,将高层RGB特征与低尺度深度预测图融合,产生低尺度显著图。
5.根据权利要求1所述的一种基于深度预测图的RGB-D显著性检测方法,其特征在于:所述步骤S30、融合;使用深度感知的解码器单元,基于内部互补注意力机制,结合不同尺度的深度预测图和底层RGB特征,逐渐修复低尺度显著图的分辨率。
6.根据权利要求1所述的一种基于深度预测图的RGB-D显著性检测方法,其特征在于:所述步骤S30、融合中的高尺度显著图的制作过程为,利用三个深度感知的解码器单元,结合不同尺度的深度预测图和底层RGB特征,逐渐产生更高分辨率下的显著图。
7.根据权利要求1所述的一种基于深度预测图的RGB-D显著性检测方法,其特征在于:所述步骤S40、恢复:基于内部互补注意力机制,构建三个深度感知的解码器,逐渐恢复显著图的分辨率。
8.根据权利要求6所述的一种基于深度预测图的RGB-D显著性检测方法,其特征在于:所述使用的深度感知的解码器单元采用了内部注意力互补机制,具体计算如下:
Figure RE-FDA0002484976900000021
Figure RE-FDA0002484976900000022
Figure RE-FDA0002484976900000023
其中,
Figure RE-FDA0002484976900000024
表示输入解码器单元的低尺度显著图通过双线性插值上采样产生的结果;M表示一个二值化掩膜;Mi,j
Figure RE-FDA0002484976900000025
表示M和
Figure RE-FDA0002484976900000026
中第i行、第j列的元素值;Ap和An被称为内部互补注意力。
CN202010031394.2A 2020-01-13 2020-01-13 一种基于深度预测图的rgb-d显著性检测方法 Pending CN111524090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010031394.2A CN111524090A (zh) 2020-01-13 2020-01-13 一种基于深度预测图的rgb-d显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010031394.2A CN111524090A (zh) 2020-01-13 2020-01-13 一种基于深度预测图的rgb-d显著性检测方法

Publications (1)

Publication Number Publication Date
CN111524090A true CN111524090A (zh) 2020-08-11

Family

ID=71900856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010031394.2A Pending CN111524090A (zh) 2020-01-13 2020-01-13 一种基于深度预测图的rgb-d显著性检测方法

Country Status (1)

Country Link
CN (1) CN111524090A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344844A (zh) * 2021-04-14 2021-09-03 山东师范大学 基于rgb-d多模图像信息的目标果实检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462771A (zh) * 2016-08-05 2017-02-22 深圳大学 一种3d图像的显著性检测方法
CN108345892A (zh) * 2018-01-03 2018-07-31 深圳大学 一种立体图像显著性的检测方法、装置、设备及存储介质
WO2019015344A1 (zh) * 2017-07-21 2019-01-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN109903276A (zh) * 2019-02-23 2019-06-18 中国民航大学 基于多层融合的卷积神经网络rgb-d显著性检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462771A (zh) * 2016-08-05 2017-02-22 深圳大学 一种3d图像的显著性检测方法
WO2019015344A1 (zh) * 2017-07-21 2019-01-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN108345892A (zh) * 2018-01-03 2018-07-31 深圳大学 一种立体图像显著性的检测方法、装置、设备及存储介质
CN109903276A (zh) * 2019-02-23 2019-06-18 中国民航大学 基于多层融合的卷积神经网络rgb-d显著性检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344844A (zh) * 2021-04-14 2021-09-03 山东师范大学 基于rgb-d多模图像信息的目标果实检测方法及系统

Similar Documents

Publication Publication Date Title
CN108062754B (zh) 基于密集网络图像的分割、识别方法和装置
CN109087258B (zh) 一种基于深度学习的图像去雨方法及装置
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN113487618B (zh) 人像分割方法、装置、电子设备及存储介质
CN110751111B (zh) 基于高阶空间信息全局自动感知的道路提取方法和系统
CN112348870B (zh) 一种基于残差融合的显著性目标检测方法
CN111539887A (zh) 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN112381716B (zh) 一种基于生成式对抗网络的图像增强方法
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN114936605A (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN117576264B (zh) 图像生成方法、装置、设备及介质
CN110929735B (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
CN109766918B (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN114495916B (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN113705575B (zh) 一种图像分割方法、装置、设备及存储介质
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN115170388A (zh) 人物线稿生成方法、装置、设备及介质
CN111524090A (zh) 一种基于深度预测图的rgb-d显著性检测方法
CN112784831A (zh) 融合多层特征增强注意力机制的文字识别方法
Liu et al. Single‐image super‐resolution using lightweight transformer‐convolutional neural network hybrid model
CN116597154A (zh) 一种图像去噪模型的训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200811