CN113763422A - 一种rgb-d图像显著性目标检测方法 - Google Patents

一种rgb-d图像显著性目标检测方法 Download PDF

Info

Publication number
CN113763422A
CN113763422A CN202110872457.1A CN202110872457A CN113763422A CN 113763422 A CN113763422 A CN 113763422A CN 202110872457 A CN202110872457 A CN 202110872457A CN 113763422 A CN113763422 A CN 113763422A
Authority
CN
China
Prior art keywords
rgb
depth
image
feature
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110872457.1A
Other languages
English (en)
Other versions
CN113763422B (zh
Inventor
丛润民
杨宁
张晨
张禹墨
赵耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202110872457.1A priority Critical patent/CN113763422B/zh
Publication of CN113763422A publication Critical patent/CN113763422A/zh
Application granted granted Critical
Publication of CN113763422B publication Critical patent/CN113763422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像目标检测技术领域,涉及一种RGB‑D图像显著性目标检测方法,包括:将深度图和RGB图像分别输入深度模态编码器和RGB图像编码器;深度模态编码器提供深度模态,RGB图像编码器提供RGB模态;在低层级特征编码阶段,RGB诱导细节增强模块通过将RGB模态的细节补充信息从RGB模态传输到深度模态,实现深度特征增强;在高层级特征编码阶段,深度诱导语义增强模块进行跨模态特征融合;通过密集解码重建结构生成预测的显著性图像。本发明提出一种新跨模态交互模式和跨模态差异交互网络,模拟两种模态的依赖性,并设计组件实现差异化跨模态引导,提出DDR结构,利用多个高层级特征更新跳连接生成语义块。

Description

一种RGB-D图像显著性目标检测方法
技术领域
本发明属于图像目标检测技术领域,涉及一种RGB-D图像显著性目标检测方法。
背景技术
受人类视觉注意机制的启发,显著对象检测任务旨在检测给定场景中最有吸引力的对象或区域,该方法已成功广泛应用于目标检测、图像编辑和视频浓缩等研究领域,以及智能拍照、推荐系统和自动驾驶等工程领域,具有重要的研究价值和广阔的市场前景。事实上,除了颜色外观、纹理细节和物理尺寸,人们还可以感知景深,从而通过双目视觉系统产生立体感知。近年来,得益于微软Kinect等消费级深度相机的快速发展,可以方便地获取深度图来描绘场景。与提供丰富颜色和纹理信息的RGB图像相比,深度图可以表现出几何结构、内部一致性和光照不变性。借助深度图,显著对象检测模型可以更好地应对一些具有挑战性的场景,例如低对比度和复杂背景。因此,近几年来,RGB-D图像显著目标检测的研究受到了广泛关注。众所周知,RGB图像和深度图属于不同的模态,因此需要一些复杂的设计,以便更好地利用两者的优点实现RGB-D图像显著性目标检测。Fu等[1]引入了用于联合学习的siamese网络,并设计了一种密集合作融合策略以发现互补特征。Pang等[2]通过密集连接结构整合跨模态特征,并利用融合特征建立分层动态过滤网络。Huang等[3]提出了一个跨模态细化模块以集成跨模态特征,主要设计了一个多级融合模块来按照自下而上的路径融合每个级别的特征。Piao等[4]提出了一种深度蒸馏器以将深度知识从深度流传输到RGB分支。Liu等[5]设计了一个残差融合模块,在解码阶段将深度解码特征整合到RGB分支中。Chen等[6]考虑到深度图包含的信息比RGB图像少得多,并提出了一个轻量级网络以提取深度流特征。
在目前的现有技术中,至少存在以下缺点和不足:
(1)对于特征编码中的跨模态交互,现有方法要么不加区别地对待RGB和深度模态,要么只是习惯性地利用深度线索作为RGB分支的辅助信息,而跨模态数据的不一致问题会降低学习得到的特征的判别力;(2)为了突出和恢复特征解码中的空间域信息,现有的方法通过跳连接引入编码特征。然而,它们只是通过直接相加或串联操作来引入相应编码层的信息,并没有充分利用不同层的编码特征。
本发明重新考虑了两种模态的状态,并为RGB-D显著性目标检测提出了一种新的跨模态差异交互网络(CDINet),它根据不同层的特征表示对两种模态的依赖性进行了差异建模。为此,本发明设计了两个组件来实现有效的跨模态交互:1)RGB诱导细节增强(RDE)模块利用RGB模态来增强低层级特征编码阶段的深度特征的细节。2)深度诱导语义增强(DSE)模块将深度特征的对象定位和内部一致性传输到高层级特征编码阶段的RGB分支。此外,还设计了密集解码重建(DDR)结构,通过结合多层级编码特征来构造语义块,以更新特征解码中的跳连接。
关键术语定义列表
1、RGB-D图像:是包含彩色和深度两种模态信息的图像。
2、RGB-D图像显著性检测:是在RGB-D图像数据中检测出最受关注的目标或区域。
发明内容
本发明旨在充分挖掘彩色和深度的跨模态互补信息,降低低质深度图对检测结果的影响,设计一种新的RGB-D图像显著性目标检测的跨模态差异交互网络,该网络根据不同层的特征,对两种模态的依赖性进行了不同的建模,获得更佳的检测性能,具体技术方案如下:
一种RGB-D图像显著性目标检测方法,
所述RGB-D图像显著性目标检测方法基于跨模态差异交互网络;
所述跨模态差异交互网络遵循编码器-解码器架构,实现跨模态信息的差异交互和引导;
所述跨模态差异交互网络包括:RGB图像编码器、深度模态编码器、RGB诱导细节增强模块(RDE)、深度诱导语义增强模块(DSE)和密集解码重建(DDR)结构;
所述RGB图像编码器和深度模态编码器均采用VGG主干网络;
所述VGG主干网络的前两层为:低层级特征编码阶段;
所述VGG主干网络的后三层为:高层级特征编码阶段;
所述RGB-D图像显著性目标检测方法包括以下步骤:
S1、将深度图输入深度模态编码器,将RGB图像输入RGB图像编码器;
S2、所述深度模态编码器提供深度模态,所述RGB图像编码器提供RGB模态;
S3、在低层级特征编码阶段,所述RGB诱导细节增强模块通过将RGB模态的细节补充信息从RGB模态传输到深度模态,以增强和补充深度模态,实现深度特征增强;
S4、在高层级特征编码阶段,所述深度诱导语义增强模块采用注意力级别和特征级别两种交互模式全面进行跨模态特征融合,实现RGB特征增强;
S5、在解码阶段,密集解码重建结构通过结合多层级的编码特征构造语义块,以更新特征解码中的跳连接信息,进行密集解码,进而生成预测的显著性图像。
在上述技术方案的基础上,所述VGG主干网络为卷积神经网络VGG16。
在上述技术方案的基础上,步骤S3的具体步骤如下:
S3.1、采用两个级联卷积层融合RGB模态和深度模态的低层级编码特征,生成融合特征池fpool,如式(1)所示,
Figure BDA0003189273670000041
其中,i为:低层级编码特征的层级,且i∈{1,2};
Figure BDA0003189273670000042
表示:深度模态的低层级编码特征,
Figure BDA0003189273670000043
表示:RGB模态的低层级RGB特征;
Figure BDA0003189273670000044
表示:对
Figure BDA0003189273670000045
Figure BDA0003189273670000046
进行通道连接操作;
Figure BDA0003189273670000047
表示:采用卷积核为1×1的卷积层,对
Figure BDA0003189273670000048
进行卷积操作;
Figure BDA0003189273670000049
表示:采用卷积核为3×3的卷积层,对
Figure BDA00031892736700000410
进行卷积操作;深度图经过卷积神经网络VGG16的第一层操作得到
Figure BDA00031892736700000411
RGB图像通过卷积神经网络VGG16的第一层操作得到
Figure BDA00031892736700000412
S3.2、由
Figure BDA00031892736700000413
获得特征
Figure BDA00031892736700000414
如式(2)所示,
Figure BDA00031892736700000415
其中,
Figure BDA00031892736700000416
表示:对
Figure BDA00031892736700000417
沿通道维度进行最大池化操作,
Figure BDA00031892736700000418
表示:采用卷积核为7×7的卷积层,对
Figure BDA00031892736700000419
进行卷积操作;
Figure BDA00031892736700000420
表示:采用卷积核为7×7的卷积层,对
Figure BDA00031892736700000421
进行卷积操作;
Figure BDA00031892736700000422
表示:对
Figure BDA00031892736700000423
进行sigmoid函数操作;
Figure BDA00031892736700000424
表示:将
Figure BDA00031892736700000425
Figure BDA00031892736700000426
进行逐元素相乘;
Figure BDA00031892736700000427
经过卷积神经网络VGG16的第二层操作得到
Figure BDA00031892736700000428
同时,fr 1通过卷积神经网络VGG16的第二层操作得到fr 2;进而利用公式(1)和(2)得到特征
Figure BDA00031892736700000429
在上述技术方案的基础上,步骤S4的具体步骤如下:
S4.1、由
Figure BDA00031892736700000430
获得空间注意力增强的RGB编码特征
Figure BDA00031892736700000431
如式(3)和式(4)所示,
Figure BDA00031892736700000432
Figure BDA00031892736700000433
其中,j为:高层级编码特征的层级,且j∈{3,4,5};
Figure BDA00031892736700000434
表示:深度模态的高层级编码特征;
Figure BDA0003189273670000051
表示:RGB模态的高层级RGB特征;
Figure BDA0003189273670000052
表示:对
Figure BDA0003189273670000053
沿通道维度进行最大池化操作;
Figure BDA0003189273670000054
表示:采用卷积核为3×3的卷积层,对
Figure BDA0003189273670000055
进行卷积操作;
Figure BDA0003189273670000056
表示:对
Figure BDA0003189273670000057
进行sigmoid函数操作;
Figure BDA0003189273670000058
表示:将Sweight
Figure BDA0003189273670000059
进行逐元素相乘;
Figure BDA00031892736700000510
经过卷积神经网络VGG16的第三层操作得到
Figure BDA00031892736700000511
Figure BDA00031892736700000512
通过卷积神经网络VGG16的第三层操作得到
Figure BDA00031892736700000513
S4.2、由
Figure BDA00031892736700000514
获得注意力级的RGB增强特征
Figure BDA00031892736700000515
如式(5)和式(6)所示,
Figure BDA00031892736700000516
Figure BDA00031892736700000517
其中,
Figure BDA00031892736700000518
表示:通过全局平均池化层对
Figure BDA00031892736700000519
进行操作;
Figure BDA00031892736700000520
表示:通过两个全连接层对
Figure BDA00031892736700000521
进行操作;
Figure BDA00031892736700000522
表示:对
Figure BDA00031892736700000523
进行sigmoid函数操作;Cweight为:权重向量;
Figure BDA00031892736700000524
表示:将Cweight
Figure BDA00031892736700000525
进行逐元素相乘;
S4.3、使用级联的通道注意力和空间注意力机制来增强深度特征,并产生特征级的RGB增强特征
Figure BDA00031892736700000526
具体由公式(7)得到,
Figure BDA00031892736700000527
其中,CA为通道注意力,SA为空间注意力;所述通道注意力用于:学习每个特征通道的重要性;所述空间注意力用于:突出显示特征图中的重要位置;
S4.4、利用公式(8)计算特征
Figure BDA00031892736700000528
Figure BDA00031892736700000529
其中,
Figure BDA00031892736700000530
经过卷积神经网络VGG16的第四层操作得到
Figure BDA00031892736700000531
同时,
Figure BDA00031892736700000532
通过卷积神经网络VGG16的第四层操作得到
Figure BDA00031892736700000533
进而利用公式(3)-(8)得到特征
Figure BDA00031892736700000534
Figure BDA00031892736700000535
经过卷积神经网络VGG16的第五层操作得到
Figure BDA00031892736700000536
Figure BDA00031892736700000537
通过卷积神经网络VGG16的第五层操作得到
Figure BDA00031892736700000538
进而利用公式(3)-(8)得到特征
Figure BDA00031892736700000539
在上述技术方案的基础上,步骤S5的具体步骤如下:
S5.1、将
Figure BDA0003189273670000061
Figure BDA0003189273670000062
构成跳连接特征列表;
并引入初始跳跃连接特征
Figure BDA0003189273670000063
其中k∈{1,2,3,4,5};
Figure BDA0003189273670000064
S5.2、由
Figure BDA0003189273670000065
生成语义块Bm,如式(9)所示,
Figure BDA0003189273670000066
其中,m∈{1,2,3,4};
Figure BDA0003189273670000067
表示:通过双线性插值对
Figure BDA0003189273670000068
进行上采样操作;
Figure BDA0003189273670000069
表示:采用卷积核为1×1的卷积层,对
Figure BDA00031892736700000610
进行卷积操作;
Figure BDA00031892736700000611
表示:采用卷积核为3×3的卷积层,对
Figure BDA00031892736700000612
进行卷积操作;
S5.3、由Bm生成最终的跳连接特征
Figure BDA00031892736700000613
如式(10)所示,
Figure BDA00031892736700000614
其中,
Figure BDA00031892736700000615
表示:将Bm
Figure BDA00031892736700000616
进行逐元素相乘;
S5.4、得到的
Figure BDA00031892736700000617
结合解码特征,通过上采样和连续卷积操作逐步恢复图像细节,最后一层的解码特征通过sigmoid函数激活,生成预测的显著性图像。
在上述技术方案的基础上,步骤S5.4的具体步骤如下:
S5.4.1、按照式(11)和式(12)计算解码特征,
Figure BDA00031892736700000618
Figure BDA00031892736700000619
其中,t∈{2,3,4,5},
Figure BDA00031892736700000620
Figure BDA00031892736700000621
均为解码特征,
Figure BDA00031892736700000622
表示:通过双线性插值对
Figure BDA00031892736700000623
进行上采样操作;
Figure BDA00031892736700000624
表示:采用卷积核为3×3的卷积层,对
Figure BDA00031892736700000625
进行反卷积操作;
Figure BDA00031892736700000626
表示:采用卷积核为1×1的卷积层,对
Figure BDA00031892736700000627
进行卷积操作;
Figure BDA00031892736700000628
表示:通过双线性插值对
Figure BDA00031892736700000629
进行上采样操作;
Figure BDA00031892736700000630
表示:采用卷积核为3×3的卷积层,对
Figure BDA00031892736700000631
进行卷积操作;
S5.4.2、由式(11)和式(12)获得解码特征
Figure BDA00031892736700000632
将解码特征
Figure BDA0003189273670000071
通过sigmoid函数激活,生成预测的显著性图像。
在上述技术方案的基础上,式(9)的具体表示形式如式(13)所示,
Figure BDA0003189273670000072
在上述技术方案的基础上,所述RGB-D图像显著性目标检测方法的图像处理速度达到42FPS。
本发明的有益技术效果如下:
本发明探索了一种新的跨模态交互模式,并提出了一种跨模态差异交互网络,该网络显式地模拟了不同卷积层中两种模态(即RGB模态和深度模态)的依赖性。为此,设计了两个组件(即RDE模块和DSE模块)来实现差异化的跨模态引导。此外,本发明还提出了DDR结构,通过利用多个高层级特征来更新跳连接,以生成语义块Bm
附图说明
本发明有如下附图:
图1是本发明所述跨模态差异交互网络的整体架构示意图;
图2是本发明所述RGB-D图像显著性目标检测方法的可视化实例示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行更详细的说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
如图1所示为:本发明所述跨模态差异交互网络的整体架构示意图。该网络遵循编码器-解码器架构,在编码阶段实现了跨模态信息的差异交互和引导。该框架主要由三部分组成:1)RGB诱导细节增强模块。它通过将RGB模态的详细补充信息传输到深度模态来实现深度特征增强。2)深度诱导语义增强模块。利用深度特征提供更好的定位和内部一致性来丰富RGB特征的语义信息。3)密集解码重构结构(又称为:密集解码重建结构,即图1中的密集解码重建的解码器)。它对不同层的编码特征进行密集解码,以生成更有价值的跳连接信息。
本发明具体通过以下技术方案实现
本发明探索了一种跨模态交互模式的RGB-D图像显著性目标检测方法,并提出了一种跨模态差异交互网络,该网络明确地模拟了不同卷积层中两种模态的依赖性。具体实现简述如下:
简述技术路线如下:
本发明设计的网络由RGB诱导细节增强(RDE)模块、深度诱导语义增强(DSE)模块和密集解码重建(DDR)结构组成。网络遵循编码器-解码器架构,包括两个关于RGB模态和深度模态的编码器和一个解码器(即密集解码重建结构)。具体来说,两个编码器均采用VGG主干网络,在低层级特征编码阶段(即VGG主干网络的前两层),本发明设计了一个RDE模块,将细节补充信息从RGB模态传输到深度模态,从而增强深度特征的可区分性表示。对于高层级特征编码阶段,DSE模块利用深度特征的定位精度和内部一致性优势,辅助RGB分支捕捉更清晰和细粒度的语义属性,从而促进对象结构和背景抑制。此外,对于卷积上采样解码基础设施,本发明通过构建DDR结构来更新传统的跳连接方式,即利用更高层级别的跳连接特征作为引导信息,实现更有效的编码器信息传输。解码器最后一个卷积层生成的预测结果将作为最终的显著性输出。
简述RGB诱导细节增强模块如下:
与RGB图像相比,深度图抛开了复杂的纹理信息,可以直观地描述显著物体的形状和位置。这样,对于包含更详细信息(例如边界和形状)的低层级编码特征,深度特征可以提供比RGB特征更直接和有指导意义的表示,有利于初始特征学习。然而,深度信息并不是万能的。例如,彼此相邻的不同对象实例具有相同的深度值。但是在相应的RGB图像中,这些物体在大多数情况下是可以通过色差来区分的。因此,这些不明确的区域给网络训练带来了负担,之前的模型已经证实了预测此类样本的难度。为了解决这个难题,本发明设计了一个RGB诱导细节增强模块,通过低层级中的RGB特征来增强和补充深度模态。通过在早期引入RGB分支的详细指导,可以在特征前馈过程中使用更多信息来处理这些困难情况。
具体来说,首先采用两个级联卷积层来融合两种模态的底层视觉特征。第一个卷积层使用1×1的卷积核用于减少特征通道的数量,第二个卷积层使用3×3的卷积核实现更全面的特征融合,从而生成融合特征池fpool,如式(1)所示,
Figure BDA0003189273670000091
其中,索引i∈{1,2}为低层级编码特征层,[·,·]表示通道连接操作,convn是卷积核为n×n的卷积层。
Figure BDA0003189273670000092
表示深度分支(即深度模态)的低层级编码特征,
Figure BDA0003189273670000093
是来自主干的低层级RGB特征(即RGB模态的低层级RGB特征);生成fpool而不是将RGB特征直接转移到深度分支的优点是,在这个过程中可以增强两种模态的共同细节特征,削弱不相关的特征。其中,深度图经过卷积神经网络VGG16的第一层操作得到
Figure BDA0003189273670000094
RGB图像通过卷积神经网络VGG16的第一层操作得到fr 1
然后,为了有说服力地提供深度特征所需的有用信息,需要从深度的角度进一步过滤RGB特征。具体来说,对深度特征(即
Figure BDA0003189273670000095
)使用一系列操作,包括一个最大池化层、两个卷积层和一个sigmoid函数,以生成空间注意力掩码mask。请注意,对于两个串行卷积层,使用更大的卷积核大小(即7×7)来增大感受野以便感知重要细节区域。最后,将空间注意力掩码mask和特征池fpool相乘,以减少不相关RGB特征的引入,从而从深度模态的角度获得所需的补充信息。整个过程可以描述为式(2),
Figure BDA0003189273670000101
其中maxpool(·)和σ(·)分别表示沿通道维度最大池化操作和sigmoid函数,而⊙⊙表示逐元素乘法(即对应特征位置相乘)。特征
Figure BDA0003189273670000102
将用作深度分支中下一层的输入,即
Figure BDA0003189273670000103
经过卷积神经网络VGG16的第二层操作得到
Figure BDA0003189273670000104
同时,fr 1通过卷积神经网络VGG16的第二层操作得到
Figure BDA0003189273670000105
进而利用公式(1)和(2)得到特征
Figure BDA0003189273670000106
需要注意的是,由于深度分支中的细节特征更加直观和清晰,选择它们作为前两层的跳连接特征进行解码。
简述深度诱导语义增强模块如下:
在编码的高层阶段(即高层级特征编码阶段),网络学习到的特征包含更多的语义信息,例如类别和关系。对于RGB图像,由于包含丰富的颜色外观和纹理内容,其语义信息也比深度模态更全面。但是,由于深度图的结构和数据特性比较简单,学习到的高层语义特征具有更好的显著目标定位,尤其是在背景区域的抑制方面,这正是RGB高层语义所需要的。因此,在高层编码阶段设计了深度诱导语义增强模块,以借助深度模态来丰富RGB语义特征。然而,考虑到简单的融合策略(例如直接添加或连接)不能有效地集成跨模态特征。因此,采用两种交互模式来全面进行跨模态特征融合,即注意力级别和特征级别。
Figure BDA0003189273670000107
Figure BDA0003189273670000108
其中
Figure BDA0003189273670000109
表示深度分支(即深度模态)的高层级编码特征,
Figure BDA00031892736700001010
是来自主干的高层级RGB特征(即RGB模态的高层级RGB特征);
Figure BDA00031892736700001011
表示通过深度特征
Figure BDA00031892736700001012
的空间注意力增强的RGB编码特征,索引j∈{3,4,5}表示高层级编码特征层。
Figure BDA00031892736700001013
经过卷积神经网络VGG16的第三层操作得到
Figure BDA00031892736700001014
Figure BDA00031892736700001015
通过卷积神经网络VGG16的第三层操作得到
Figure BDA00031892736700001016
此外,高层级特征通常具有丰富的通道,因此使用通道注意力来建模不同通道的重要性关系,并学习更多判别特征。具体来说,通过一个全局平均池化(GAP)层、两个全连接层(FC)和一个sigmoid函数来学习权重向量Cweight
Figure BDA0003189273670000111
即:Cweight的维度为:c×1×1,c为通道数)。最终的注意力级指导公式如式(5)和(6)所示,
Figure BDA0003189273670000112
Figure BDA0003189273670000113
其中,
Figure BDA0003189273670000114
表示注意力级的RGB增强特征。
对于特征层面的引导,使用逐像素相加操作直接融合两种模态的特征,可以加强显著对象的内部响应,获得更好的内部一致性。需要注意的是,使用级联的通道注意力和空间注意力机制来增强深度特征,并产生特征级的RGB增强特征
Figure BDA0003189273670000115
具体由公式(7)得到,
Figure BDA0003189273670000116
其中,CA为通道注意力,SA为空间注意力;所述通道注意力用于:学习每个特征通道的重要性;所述空间注意力用于:突出显示特征图中的重要位置;
因此,最终流入RGB分支下一层的特征可以表示为式(8),
Figure BDA0003189273670000117
Figure BDA0003189273670000118
经过卷积神经网络VGG16的第四层操作得到
Figure BDA0003189273670000119
同时,
Figure BDA00031892736700001110
通过卷积神经网络VGG16的第四层操作得到
Figure BDA00031892736700001111
进而利用公式(3)-(8)得到特征
Figure BDA00031892736700001112
Figure BDA00031892736700001113
经过卷积神经网络VGG16的第五层操作得到
Figure BDA00031892736700001114
Figure BDA00031892736700001115
通过卷积神经网络VGG16的第五层操作得到fr 5;进而利用公式(3)-(8)得到特征
Figure BDA00031892736700001116
同样,RGB分支的增强特征
Figure BDA00031892736700001117
将被引入解码阶段,以实现显著性解码重建。
简述密集解码重建结构如下:
在特征编码阶段,通过不一致的引导和交互来学习多层级判别特征。解码器致力于学习与显著性相关的特征,并预测全分辨率显著性图像。在特征解码过程中,将编码特征引入解码的跳连接在现有的SOD模型中得到了广泛的应用。然而,这些方法只是建立了相应的编码层和解码层之间的关系,而忽略了不同编码层特征的不同积极影响。例如,顶层编码特征(即高层级编码特征)可以为每个解码层提供语义指导。因此,设计了一种密集解码重建结构,以更全面地引入跳连接指导。
具体来说,编码阶段每一层的
Figure BDA0003189273670000121
Figure BDA0003189273670000122
构成了一个跳连接特征列表。为了便于区分,将它们记为初始跳跃连接特征
Figure BDA0003189273670000123
Figure BDA0003189273670000124
然后,在结合每一层的解码特征和跳连接特征之前,密集连接更高层的编码特征,生成一个语义块Bm,用于约束当前对应编码层的跳连接信息的引入。语义块Bm如式(9)所示,
Figure BDA0003189273670000125
其中,up(·)表示通过双线性插值进行的上采样操作,它将
Figure BDA0003189273670000126
重塑为与
Figure BDA0003189273670000127
相同的分辨率,k∈{1,2,3,4,5}。
然后,结合语义块采用逐元素乘法来消除冗余信息,并采用残差连接来保留原始信息,从而生成最终的跳连接特征
Figure BDA0003189273670000128
如式(10)所示,:
Figure BDA0003189273670000129
其中
Figure BDA00031892736700001210
表示当前对应的跳连接特征。通过这种密集的方式,更高层级的编码特征作为语义过滤器来实现更有效的跳连接特征的信息选择,从而有效地抑制可能导致最终显著性预测异常的冗余信息。得到的
Figure BDA00031892736700001211
结合解码特征,通过上采样和连续卷积操作逐步恢复图像细节;最后,最后一层的解码特征通过sigmoid函数激活,生成预测的显著性图像,具体操作如式(11)和式(12)所示,
Figure BDA00031892736700001212
Figure BDA00031892736700001213
其中,t∈{2,3,4,5},
Figure BDA00031892736700001214
Figure BDA00031892736700001215
均为解码特征,
Figure BDA00031892736700001216
表示:通过双线性插值对
Figure BDA00031892736700001217
进行上采样操作;
Figure BDA00031892736700001218
表示:采用卷积核为3×3的卷积层,对
Figure BDA00031892736700001219
进行反卷积操作;
Figure BDA00031892736700001220
表示:采用卷积核为1×1的卷积层,对
Figure BDA0003189273670000131
进行卷积操作;
Figure BDA0003189273670000132
表示:通过双线性插值对
Figure BDA0003189273670000133
进行上采样操作;
Figure BDA0003189273670000134
表示:采用卷积核为3×3的卷积层,对
Figure BDA0003189273670000135
进行卷积操作;
由式(11)和式(12)获得解码特征
Figure BDA0003189273670000136
将解码特征
Figure BDA0003189273670000137
通过sigmoid函数激活,生成预测的显著性图像。
本发明的方法在多个公开基准数据集上均达到了具有竞争力的性能。图2给出了本发明技术的可视化实例。第一列为彩色图像(即RGB图像),第二列为深度图像,第三列为RGB-D显著性目标检测的真值图(即显著性检测真图),第四列为本发明预测的显著性图(即显著性检测结果)。从结果可以看出,本发明方法在许多具有挑战性的场景中实现了更好的视觉效果,对于质量不好的深度图(例如,第二张图像)本发明可以有效地抑制这些模糊区域。
本发明的关键点和欲保护点如下:
(1)本发明提出了一个端到端的跨模态差异交互网络(CDINet),根据不同层的特征表示对两种模态的依赖性进行差异建模,以提升RGB-D显著性检测的性能。此外,本发明的图像处理速度达到42FPS。
(2)本发明设计了一个RGB诱导细节增强(RDE)模块,将细节补充信息从RGB模态传输到低层级编码阶段的深度模态,以及一个深度诱导语义增强(DSE)模块,通过利用高层深度特征的定位精度和内部一致性优势,帮助RGB分支捕获更清晰和细粒度的语义属性。本发明在特征解码阶段设计了一个密集解码重建(DDR)结构,该结构利用多个高层级编码特征功能来更新特征解码中的跳连接来生成语义块。
参考文献(如专利/论文/标准)如下所列:
[1]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.2020.Jl-dcf:Jointlearning and densely-cooperative fusion framework for RGB-D salient objectdetection.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.3052–3062.
[2]Youwei Pang,Lihe Zhang,Xiaoqi Zhao,and HuchuanLu.2020.Hierarchical dynamic filtering network for RGB-D salient objectdetection.In Proceedings of the European Conference on Computer Vision.
[3]Zhou Huang,Huai-Xin Chen,Tao Zhou,Yun-Zhi Yang,and Chang-YinWang.2020.Multi-level cross-modal interaction network for RGB-D salientobject detection.In Proceedings of the European Conference on ComputerVision.
[4]Yongri Piao,Zhengkun Rong,Miao Zhang,Weisong Ren,and HuchuanLu.2020.A2dele:Adaptive and attentive depth distiller for efficient RGB-Dsalient object detection.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.9060–9069.
[5]Nian Liu,Ni Zhang,and Junwei Han.2020.Learning selective self-mutual attention for RGB-D saliency detection.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.13756–13765.
[6]Shuhan Chen and Yun Fu.2020.Progressively guided alternaterefinement network for RGB-D salient object detection.In Proceedings of theEuropean Conference on Computer Vision.520–538.
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种RGB-D图像显著性目标检测方法,其特征在于,
所述RGB-D图像显著性目标检测方法基于跨模态差异交互网络;
所述跨模态差异交互网络遵循编码器-解码器架构,实现跨模态信息的差异交互和引导;
所述跨模态差异交互网络包括:RGB图像编码器、深度模态编码器、RGB诱导细节增强模块、深度诱导语义增强模块和密集解码重建结构;
所述RGB图像编码器和深度模态编码器均采用VGG主干网络;
所述VGG主干网络的前两层为:低层级特征编码阶段;
所述VGG主干网络的后三层为:高层级特征编码阶段;
所述RGB-D图像显著性目标检测方法包括以下步骤:
S1、将深度图输入深度模态编码器,将RGB图像输入RGB图像编码器;
S2、所述深度模态编码器提供深度模态,所述RGB图像编码器提供RGB模态;
S3、在低层级特征编码阶段,所述RGB诱导细节增强模块通过将RGB模态的细节补充信息从RGB模态传输到深度模态,以增强和补充深度模态,实现深度特征增强;
S4、在高层级特征编码阶段,所述深度诱导语义增强模块采用注意力级别和特征级别两种交互模式全面进行跨模态特征融合,实现RGB特征增强;
S5、在解码阶段,密集解码重建结构通过结合多层级的编码特征构造语义块,以更新特征解码中的跳连接信息,进行密集解码,进而生成预测的显著性图像。
2.如权利要求1所述的RGB-D图像显著性目标检测方法,其特征在于:所述VGG主干网络为卷积神经网络VGG16。
3.如权利要求2所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S3的具体步骤如下:
S3.1、采用两个级联卷积层融合RGB模态和深度模态的低层级编码特征,生成融合特征池fpool,如式(1)所示,
Figure FDA0003189273660000021
其中,i为:低层级编码特征的层级,且i∈{1,2};
Figure FDA0003189273660000022
表示:深度模态的低层级编码特征,
Figure FDA0003189273660000023
表示:RGB模态的低层级RGB特征;
Figure FDA0003189273660000024
表示:对
Figure FDA0003189273660000025
Figure FDA0003189273660000026
进行通道连接操作;
Figure FDA0003189273660000027
表示:采用卷积核为1×1的卷积层,对
Figure FDA0003189273660000028
进行卷积操作;
Figure FDA0003189273660000029
表示:采用卷积核为3×3的卷积层,对
Figure FDA00031892736600000210
进行卷积操作;深度图经过卷积神经网络VGG16的第一层操作得到
Figure FDA00031892736600000211
RGB图像通过卷积神经网络VGG16的第一层操作得到
Figure FDA00031892736600000212
S3.2、由
Figure FDA00031892736600000213
获得特征
Figure FDA00031892736600000214
如式(2)所示,
Figure FDA00031892736600000215
其中,
Figure FDA00031892736600000216
表示:对
Figure FDA00031892736600000217
沿通道维度进行最大池化操作,
Figure FDA00031892736600000218
表示:采用卷积核为7×7的卷积层,对
Figure FDA00031892736600000219
进行卷积操作;
Figure FDA00031892736600000220
表示:采用卷积核为7×7的卷积层,对
Figure FDA00031892736600000221
进行卷积操作;
Figure FDA00031892736600000222
表示:对
Figure FDA00031892736600000223
进行sigmoid函数操作;
Figure FDA00031892736600000224
表示:将
Figure FDA00031892736600000225
Figure FDA00031892736600000226
进行逐元素相乘;
Figure FDA00031892736600000227
经过卷积神经网络VGG16的第二层操作得到
Figure FDA00031892736600000228
同时,
Figure FDA00031892736600000229
通过卷积神经网络VGG16的第二层操作得到
Figure FDA00031892736600000230
进而利用公式(1)和(2)得到特征
Figure FDA00031892736600000231
4.如权利要求3所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S4的具体步骤如下:
S4.1、由
Figure FDA00031892736600000232
获得空间注意力增强的RGB编码特征
Figure FDA00031892736600000233
如式(3)和式(4)所示,
Figure FDA0003189273660000031
Figure FDA0003189273660000032
其中,j为:高层级编码特征的层级,且j∈{3,4,5};
Figure FDA0003189273660000033
表示:深度模态的高层级编码特征;
Figure FDA0003189273660000034
表示:RGB模态的高层级RGB特征;
Figure FDA0003189273660000035
表示:对
Figure FDA0003189273660000036
沿通道维度进行最大池化操作;
Figure FDA0003189273660000037
表示:采用卷积核为3×3的卷积层,对
Figure FDA0003189273660000038
进行卷积操作;
Figure FDA0003189273660000039
表示:对
Figure FDA00031892736600000310
进行sigmoid函数操作;
Figure FDA00031892736600000311
表示:将Sweight
Figure FDA00031892736600000312
进行逐元素相乘;
Figure FDA00031892736600000313
经过卷积神经网络VGG16的第三层操作得到
Figure FDA00031892736600000314
Figure FDA00031892736600000315
通过卷积神经网络VGG16的第三层操作得到
Figure FDA00031892736600000316
S4.2、由
Figure FDA00031892736600000317
获得注意力级的RGB增强特征
Figure FDA00031892736600000318
如式(5)和式(6)所示,
Figure FDA00031892736600000319
Figure FDA00031892736600000320
其中,
Figure FDA00031892736600000321
表示:通过全局平均池化层对
Figure FDA00031892736600000322
进行操作;
Figure FDA00031892736600000323
表示:通过两个全连接层对
Figure FDA00031892736600000324
进行操作;
Figure FDA00031892736600000325
表示:对
Figure FDA00031892736600000326
进行sigmoid函数操作;Cweight为:权重向量;
Figure FDA00031892736600000327
表示:将Cweight
Figure FDA00031892736600000328
进行逐元素相乘;
S4.3、使用级联的通道注意力和空间注意力机制来增强深度特征,并产生特征级的RGB增强特征
Figure FDA00031892736600000329
具体由公式(7)得到,
Figure FDA00031892736600000330
其中,CA为通道注意力,SA为空间注意力;所述通道注意力用于:学习每个特征通道的重要性;所述空间注意力用于:突出显示特征图中的重要位置;
S4.4、利用公式(8)计算特征
Figure FDA00031892736600000331
Figure FDA00031892736600000332
其中,
Figure FDA00031892736600000333
经过卷积神经网络VGG16的第四层操作得到
Figure FDA00031892736600000334
同时,
Figure FDA00031892736600000335
通过卷积神经网络VGG16的第四层操作得到
Figure FDA00031892736600000336
进而利用公式(3)-(8)得到特征
Figure FDA0003189273660000041
Figure FDA0003189273660000042
经过卷积神经网络VGG16的第五层操作得到
Figure FDA0003189273660000043
Figure FDA0003189273660000044
通过卷积神经网络VGG16的第五层操作得到
Figure FDA0003189273660000045
进而利用公式(3)-(8)得到特征
Figure FDA0003189273660000046
5.如权利要求4所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S5的具体步骤如下:
S5.1、将
Figure FDA0003189273660000047
Figure FDA0003189273660000048
构成跳连接特征列表;
并引入初始跳跃连接特征
Figure FDA0003189273660000049
其中k∈{1,2,3,4,5};
Figure FDA00031892736600000410
S5.2、由
Figure FDA00031892736600000411
生成语义块Bm,如式(9)所示,
Figure FDA00031892736600000412
其中,m∈{1,2,3,4};
Figure FDA00031892736600000413
表示:通过双线性插值对
Figure FDA00031892736600000414
进行上采样操作;
Figure FDA00031892736600000415
表示:采用卷积核为1×1的卷积层,对
Figure FDA00031892736600000416
进行卷积操作;
Figure FDA00031892736600000417
表示:采用卷积核为3×3的卷积层,对
Figure FDA00031892736600000418
进行卷积操作;
S5.3、由Bm生成最终的跳连接特征
Figure FDA00031892736600000419
如式(10)所示,
Figure FDA00031892736600000420
其中,
Figure FDA00031892736600000421
表示:将Bm
Figure FDA00031892736600000422
进行逐元素相乘;
S5.4、得到的
Figure FDA00031892736600000423
结合解码特征,通过上采样和连续卷积操作逐步恢复图像细节,最后一层的解码特征通过sigmoid函数激活,生成预测的显著性图像。
6.如权利要求5所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S5.4的具体步骤如下:
S5.4.1、按照式(11)和式(12)计算解码特征,
Figure FDA00031892736600000424
Figure FDA00031892736600000425
其中,t∈{2,3,4,5},
Figure FDA00031892736600000426
Figure FDA00031892736600000427
均为解码特征,
Figure FDA00031892736600000428
表示:通过双线性插值对
Figure FDA00031892736600000429
进行上采样操作;
Figure FDA00031892736600000430
表示:采用卷积核为3×3的卷积层,对
Figure FDA00031892736600000431
进行反卷积操作;
Figure FDA0003189273660000051
表示:采用卷积核为1×1的卷积层,对
Figure FDA0003189273660000052
进行卷积操作;
Figure FDA0003189273660000053
表示:通过双线性插值对
Figure FDA0003189273660000054
进行上采样操作;
Figure FDA0003189273660000055
表示:采用卷积核为3×3的卷积层,对
Figure FDA0003189273660000056
进行卷积操作;
S5.4.2、由式(11)和式(12)获得解码特征
Figure FDA0003189273660000057
将解码特征
Figure FDA0003189273660000058
通过sigmoid函数激活,生成预测的显著性图像。
7.如权利要求6所述的RGB-D图像显著性目标检测方法,其特征在于:式(9)的具体表示形式如式(13)所示,
Figure FDA0003189273660000059
8.如权利要求7所述的RGB-D图像显著性目标检测方法,其特征在于:所述RGB-D图像显著性目标检测方法的图像处理速度达到42FPS。
CN202110872457.1A 2021-07-30 2021-07-30 一种rgb-d图像显著性目标检测方法 Active CN113763422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110872457.1A CN113763422B (zh) 2021-07-30 2021-07-30 一种rgb-d图像显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110872457.1A CN113763422B (zh) 2021-07-30 2021-07-30 一种rgb-d图像显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN113763422A true CN113763422A (zh) 2021-12-07
CN113763422B CN113763422B (zh) 2023-10-03

Family

ID=78788283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110872457.1A Active CN113763422B (zh) 2021-07-30 2021-07-30 一种rgb-d图像显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113763422B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283315A (zh) * 2021-12-17 2022-04-05 安徽理工大学 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN114444596A (zh) * 2022-01-26 2022-05-06 安徽大学 基于深度模态隐式学习的可见光图像显著目标检测方法
CN116206133A (zh) * 2023-04-25 2023-06-02 山东科技大学 一种rgb-d显著性目标检测方法
CN117237343A (zh) * 2023-11-13 2023-12-15 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117274779A (zh) * 2023-11-21 2023-12-22 南开大学 一种基于模态自适应门控重编码网络的目标检测方法
CN114693953B (zh) * 2022-03-24 2024-08-09 安徽理工大学 一种基于跨模态双向互补网络的rgb-d显著性目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN111242238A (zh) * 2020-01-21 2020-06-05 北京交通大学 一种rgb-d图像显著性目标获取的方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
DE102019123756A1 (de) * 2019-09-05 2021-03-11 Connaught Electronics Ltd. Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
DE102019123756A1 (de) * 2019-09-05 2021-03-11 Connaught Electronics Ltd. Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes
CN111242238A (zh) * 2020-01-21 2020-06-05 北京交通大学 一种rgb-d图像显著性目标获取的方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李婧婧: "基于深度学习的RGB-D显著性物体检测研究", 中国优秀硕士学位论文全文数据库 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283315A (zh) * 2021-12-17 2022-04-05 安徽理工大学 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN114444596A (zh) * 2022-01-26 2022-05-06 安徽大学 基于深度模态隐式学习的可见光图像显著目标检测方法
CN114693953B (zh) * 2022-03-24 2024-08-09 安徽理工大学 一种基于跨模态双向互补网络的rgb-d显著性目标检测方法
CN116206133A (zh) * 2023-04-25 2023-06-02 山东科技大学 一种rgb-d显著性目标检测方法
CN116206133B (zh) * 2023-04-25 2023-09-05 山东科技大学 一种rgb-d显著性目标检测方法
CN117237343A (zh) * 2023-11-13 2023-12-15 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117237343B (zh) * 2023-11-13 2024-01-30 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117274779A (zh) * 2023-11-21 2023-12-22 南开大学 一种基于模态自适应门控重编码网络的目标检测方法

Also Published As

Publication number Publication date
CN113763422B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN113763422A (zh) 一种rgb-d图像显著性目标检测方法
Zhang et al. Cross-modality discrepant interaction network for RGB-D salient object detection
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
Sun et al. Learning scene structure guidance via cross-task knowledge transfer for single depth super-resolution
Cong et al. PSNet: Parallel symmetric network for video salient object detection
Liu et al. Self-supervised monocular depth estimation with self-reference distillation and disparity offset refinement
Feng et al. Encoder deep interleaved network with multi-scale aggregation for RGB-D salient object detection
Yan et al. Learning complementary correlations for depth super-resolution with incomplete data in real world
Wang et al. Thermal images-aware guided early fusion network for cross-illumination RGB-T salient object detection
Wu et al. Cross-view panorama image synthesis with progressive attention GANs
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
Xu et al. CCFNet: Cross-complementary fusion network for RGB-D scene parsing of clothing images
Yuan et al. Recurrent structure attention guidance for depth super-resolution
CN115471658A (zh) 一种动作迁移方法、装置、终端设备及存储介质
CN115170388A (zh) 人物线稿生成方法、装置、设备及介质
Zhang et al. Self-supervised monocular depth estimation with self-perceptual anomaly handling
Wei et al. Bidirectional attentional interaction networks for rgb-d salient object detection
Mu et al. Neural 3D reconstruction from sparse views using geometric priors
Jain et al. Enhanced stable view synthesis
Xiao et al. Progressive motion boosting for video frame interpolation
CN117036171A (zh) 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法
CN116823908A (zh) 一种基于多尺度特征相关性增强的单目图像深度估计方法
CN115661482A (zh) 一种基于联合注意力的rgb-t显著目标检测方法
CN112995433B (zh) 一种时序视频生成方法、装置、计算设备及存储介质
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant