CN113763422A - 一种rgb-d图像显著性目标检测方法 - Google Patents
一种rgb-d图像显著性目标检测方法 Download PDFInfo
- Publication number
- CN113763422A CN113763422A CN202110872457.1A CN202110872457A CN113763422A CN 113763422 A CN113763422 A CN 113763422A CN 202110872457 A CN202110872457 A CN 202110872457A CN 113763422 A CN113763422 A CN 113763422A
- Authority
- CN
- China
- Prior art keywords
- rgb
- depth
- image
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 230000006698 induction Effects 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像目标检测技术领域,涉及一种RGB‑D图像显著性目标检测方法,包括:将深度图和RGB图像分别输入深度模态编码器和RGB图像编码器;深度模态编码器提供深度模态,RGB图像编码器提供RGB模态;在低层级特征编码阶段,RGB诱导细节增强模块通过将RGB模态的细节补充信息从RGB模态传输到深度模态,实现深度特征增强;在高层级特征编码阶段,深度诱导语义增强模块进行跨模态特征融合;通过密集解码重建结构生成预测的显著性图像。本发明提出一种新跨模态交互模式和跨模态差异交互网络,模拟两种模态的依赖性,并设计组件实现差异化跨模态引导,提出DDR结构,利用多个高层级特征更新跳连接生成语义块。
Description
技术领域
本发明属于图像目标检测技术领域,涉及一种RGB-D图像显著性目标检测方法。
背景技术
受人类视觉注意机制的启发,显著对象检测任务旨在检测给定场景中最有吸引力的对象或区域,该方法已成功广泛应用于目标检测、图像编辑和视频浓缩等研究领域,以及智能拍照、推荐系统和自动驾驶等工程领域,具有重要的研究价值和广阔的市场前景。事实上,除了颜色外观、纹理细节和物理尺寸,人们还可以感知景深,从而通过双目视觉系统产生立体感知。近年来,得益于微软Kinect等消费级深度相机的快速发展,可以方便地获取深度图来描绘场景。与提供丰富颜色和纹理信息的RGB图像相比,深度图可以表现出几何结构、内部一致性和光照不变性。借助深度图,显著对象检测模型可以更好地应对一些具有挑战性的场景,例如低对比度和复杂背景。因此,近几年来,RGB-D图像显著目标检测的研究受到了广泛关注。众所周知,RGB图像和深度图属于不同的模态,因此需要一些复杂的设计,以便更好地利用两者的优点实现RGB-D图像显著性目标检测。Fu等[1]引入了用于联合学习的siamese网络,并设计了一种密集合作融合策略以发现互补特征。Pang等[2]通过密集连接结构整合跨模态特征,并利用融合特征建立分层动态过滤网络。Huang等[3]提出了一个跨模态细化模块以集成跨模态特征,主要设计了一个多级融合模块来按照自下而上的路径融合每个级别的特征。Piao等[4]提出了一种深度蒸馏器以将深度知识从深度流传输到RGB分支。Liu等[5]设计了一个残差融合模块,在解码阶段将深度解码特征整合到RGB分支中。Chen等[6]考虑到深度图包含的信息比RGB图像少得多,并提出了一个轻量级网络以提取深度流特征。
在目前的现有技术中,至少存在以下缺点和不足:
(1)对于特征编码中的跨模态交互,现有方法要么不加区别地对待RGB和深度模态,要么只是习惯性地利用深度线索作为RGB分支的辅助信息,而跨模态数据的不一致问题会降低学习得到的特征的判别力;(2)为了突出和恢复特征解码中的空间域信息,现有的方法通过跳连接引入编码特征。然而,它们只是通过直接相加或串联操作来引入相应编码层的信息,并没有充分利用不同层的编码特征。
本发明重新考虑了两种模态的状态,并为RGB-D显著性目标检测提出了一种新的跨模态差异交互网络(CDINet),它根据不同层的特征表示对两种模态的依赖性进行了差异建模。为此,本发明设计了两个组件来实现有效的跨模态交互:1)RGB诱导细节增强(RDE)模块利用RGB模态来增强低层级特征编码阶段的深度特征的细节。2)深度诱导语义增强(DSE)模块将深度特征的对象定位和内部一致性传输到高层级特征编码阶段的RGB分支。此外,还设计了密集解码重建(DDR)结构,通过结合多层级编码特征来构造语义块,以更新特征解码中的跳连接。
关键术语定义列表
1、RGB-D图像:是包含彩色和深度两种模态信息的图像。
2、RGB-D图像显著性检测:是在RGB-D图像数据中检测出最受关注的目标或区域。
发明内容
本发明旨在充分挖掘彩色和深度的跨模态互补信息,降低低质深度图对检测结果的影响,设计一种新的RGB-D图像显著性目标检测的跨模态差异交互网络,该网络根据不同层的特征,对两种模态的依赖性进行了不同的建模,获得更佳的检测性能,具体技术方案如下:
一种RGB-D图像显著性目标检测方法,
所述RGB-D图像显著性目标检测方法基于跨模态差异交互网络;
所述跨模态差异交互网络遵循编码器-解码器架构,实现跨模态信息的差异交互和引导;
所述跨模态差异交互网络包括:RGB图像编码器、深度模态编码器、RGB诱导细节增强模块(RDE)、深度诱导语义增强模块(DSE)和密集解码重建(DDR)结构;
所述RGB图像编码器和深度模态编码器均采用VGG主干网络;
所述VGG主干网络的前两层为:低层级特征编码阶段;
所述VGG主干网络的后三层为:高层级特征编码阶段;
所述RGB-D图像显著性目标检测方法包括以下步骤:
S1、将深度图输入深度模态编码器,将RGB图像输入RGB图像编码器;
S2、所述深度模态编码器提供深度模态,所述RGB图像编码器提供RGB模态;
S3、在低层级特征编码阶段,所述RGB诱导细节增强模块通过将RGB模态的细节补充信息从RGB模态传输到深度模态,以增强和补充深度模态,实现深度特征增强;
S4、在高层级特征编码阶段,所述深度诱导语义增强模块采用注意力级别和特征级别两种交互模式全面进行跨模态特征融合,实现RGB特征增强;
S5、在解码阶段,密集解码重建结构通过结合多层级的编码特征构造语义块,以更新特征解码中的跳连接信息,进行密集解码,进而生成预测的显著性图像。
在上述技术方案的基础上,所述VGG主干网络为卷积神经网络VGG16。
在上述技术方案的基础上,步骤S3的具体步骤如下:
S3.1、采用两个级联卷积层融合RGB模态和深度模态的低层级编码特征,生成融合特征池fpool,如式(1)所示,
其中,i为:低层级编码特征的层级,且i∈{1,2};表示:深度模态的低层级编码特征,表示:RGB模态的低层级RGB特征;表示:对和进行通道连接操作;表示:采用卷积核为1×1的卷积层,对进行卷积操作;表示:采用卷积核为3×3的卷积层,对进行卷积操作;深度图经过卷积神经网络VGG16的第一层操作得到RGB图像通过卷积神经网络VGG16的第一层操作得到
其中,表示:对沿通道维度进行最大池化操作,表示:采用卷积核为7×7的卷积层,对进行卷积操作;表示:采用卷积核为7×7的卷积层,对进行卷积操作;表示:对进行sigmoid函数操作;表示:将和进行逐元素相乘;
在上述技术方案的基础上,步骤S4的具体步骤如下:
其中,j为:高层级编码特征的层级,且j∈{3,4,5};表示:深度模态的高层级编码特征;表示:RGB模态的高层级RGB特征;表示:对沿通道维度进行最大池化操作;表示:采用卷积核为3×3的卷积层,对进行卷积操作;表示:对进行sigmoid函数操作;表示:将Sweight和进行逐元素相乘;经过卷积神经网络VGG16的第三层操作得到 通过卷积神经网络VGG16的第三层操作得到
其中,CA为通道注意力,SA为空间注意力;所述通道注意力用于:学习每个特征通道的重要性;所述空间注意力用于:突出显示特征图中的重要位置;
其中,经过卷积神经网络VGG16的第四层操作得到同时,通过卷积神经网络VGG16的第四层操作得到进而利用公式(3)-(8)得到特征 经过卷积神经网络VGG16的第五层操作得到 通过卷积神经网络VGG16的第五层操作得到进而利用公式(3)-(8)得到特征
在上述技术方案的基础上,步骤S5的具体步骤如下:
在上述技术方案的基础上,步骤S5.4的具体步骤如下:
S5.4.1、按照式(11)和式(12)计算解码特征,
其中,t∈{2,3,4,5},和均为解码特征,表示:通过双线性插值对进行上采样操作;表示:采用卷积核为3×3的卷积层,对进行反卷积操作;表示:采用卷积核为1×1的卷积层,对进行卷积操作;表示:通过双线性插值对进行上采样操作;表示:采用卷积核为3×3的卷积层,对进行卷积操作;
在上述技术方案的基础上,式(9)的具体表示形式如式(13)所示,
在上述技术方案的基础上,所述RGB-D图像显著性目标检测方法的图像处理速度达到42FPS。
本发明的有益技术效果如下:
本发明探索了一种新的跨模态交互模式,并提出了一种跨模态差异交互网络,该网络显式地模拟了不同卷积层中两种模态(即RGB模态和深度模态)的依赖性。为此,设计了两个组件(即RDE模块和DSE模块)来实现差异化的跨模态引导。此外,本发明还提出了DDR结构,通过利用多个高层级特征来更新跳连接,以生成语义块Bm。
附图说明
本发明有如下附图:
图1是本发明所述跨模态差异交互网络的整体架构示意图;
图2是本发明所述RGB-D图像显著性目标检测方法的可视化实例示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行更详细的说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
如图1所示为:本发明所述跨模态差异交互网络的整体架构示意图。该网络遵循编码器-解码器架构,在编码阶段实现了跨模态信息的差异交互和引导。该框架主要由三部分组成:1)RGB诱导细节增强模块。它通过将RGB模态的详细补充信息传输到深度模态来实现深度特征增强。2)深度诱导语义增强模块。利用深度特征提供更好的定位和内部一致性来丰富RGB特征的语义信息。3)密集解码重构结构(又称为:密集解码重建结构,即图1中的密集解码重建的解码器)。它对不同层的编码特征进行密集解码,以生成更有价值的跳连接信息。
本发明具体通过以下技术方案实现
本发明探索了一种跨模态交互模式的RGB-D图像显著性目标检测方法,并提出了一种跨模态差异交互网络,该网络明确地模拟了不同卷积层中两种模态的依赖性。具体实现简述如下:
简述技术路线如下:
本发明设计的网络由RGB诱导细节增强(RDE)模块、深度诱导语义增强(DSE)模块和密集解码重建(DDR)结构组成。网络遵循编码器-解码器架构,包括两个关于RGB模态和深度模态的编码器和一个解码器(即密集解码重建结构)。具体来说,两个编码器均采用VGG主干网络,在低层级特征编码阶段(即VGG主干网络的前两层),本发明设计了一个RDE模块,将细节补充信息从RGB模态传输到深度模态,从而增强深度特征的可区分性表示。对于高层级特征编码阶段,DSE模块利用深度特征的定位精度和内部一致性优势,辅助RGB分支捕捉更清晰和细粒度的语义属性,从而促进对象结构和背景抑制。此外,对于卷积上采样解码基础设施,本发明通过构建DDR结构来更新传统的跳连接方式,即利用更高层级别的跳连接特征作为引导信息,实现更有效的编码器信息传输。解码器最后一个卷积层生成的预测结果将作为最终的显著性输出。
简述RGB诱导细节增强模块如下:
与RGB图像相比,深度图抛开了复杂的纹理信息,可以直观地描述显著物体的形状和位置。这样,对于包含更详细信息(例如边界和形状)的低层级编码特征,深度特征可以提供比RGB特征更直接和有指导意义的表示,有利于初始特征学习。然而,深度信息并不是万能的。例如,彼此相邻的不同对象实例具有相同的深度值。但是在相应的RGB图像中,这些物体在大多数情况下是可以通过色差来区分的。因此,这些不明确的区域给网络训练带来了负担,之前的模型已经证实了预测此类样本的难度。为了解决这个难题,本发明设计了一个RGB诱导细节增强模块,通过低层级中的RGB特征来增强和补充深度模态。通过在早期引入RGB分支的详细指导,可以在特征前馈过程中使用更多信息来处理这些困难情况。
具体来说,首先采用两个级联卷积层来融合两种模态的底层视觉特征。第一个卷积层使用1×1的卷积核用于减少特征通道的数量,第二个卷积层使用3×3的卷积核实现更全面的特征融合,从而生成融合特征池fpool,如式(1)所示,
其中,索引i∈{1,2}为低层级编码特征层,[·,·]表示通道连接操作,convn是卷积核为n×n的卷积层。表示深度分支(即深度模态)的低层级编码特征,是来自主干的低层级RGB特征(即RGB模态的低层级RGB特征);生成fpool而不是将RGB特征直接转移到深度分支的优点是,在这个过程中可以增强两种模态的共同细节特征,削弱不相关的特征。其中,深度图经过卷积神经网络VGG16的第一层操作得到RGB图像通过卷积神经网络VGG16的第一层操作得到fr 1;
然后,为了有说服力地提供深度特征所需的有用信息,需要从深度的角度进一步过滤RGB特征。具体来说,对深度特征(即)使用一系列操作,包括一个最大池化层、两个卷积层和一个sigmoid函数,以生成空间注意力掩码mask。请注意,对于两个串行卷积层,使用更大的卷积核大小(即7×7)来增大感受野以便感知重要细节区域。最后,将空间注意力掩码mask和特征池fpool相乘,以减少不相关RGB特征的引入,从而从深度模态的角度获得所需的补充信息。整个过程可以描述为式(2),
其中maxpool(·)和σ(·)分别表示沿通道维度最大池化操作和sigmoid函数,而⊙⊙表示逐元素乘法(即对应特征位置相乘)。特征将用作深度分支中下一层的输入,即经过卷积神经网络VGG16的第二层操作得到同时,fr 1通过卷积神经网络VGG16的第二层操作得到进而利用公式(1)和(2)得到特征需要注意的是,由于深度分支中的细节特征更加直观和清晰,选择它们作为前两层的跳连接特征进行解码。
简述深度诱导语义增强模块如下:
在编码的高层阶段(即高层级特征编码阶段),网络学习到的特征包含更多的语义信息,例如类别和关系。对于RGB图像,由于包含丰富的颜色外观和纹理内容,其语义信息也比深度模态更全面。但是,由于深度图的结构和数据特性比较简单,学习到的高层语义特征具有更好的显著目标定位,尤其是在背景区域的抑制方面,这正是RGB高层语义所需要的。因此,在高层编码阶段设计了深度诱导语义增强模块,以借助深度模态来丰富RGB语义特征。然而,考虑到简单的融合策略(例如直接添加或连接)不能有效地集成跨模态特征。因此,采用两种交互模式来全面进行跨模态特征融合,即注意力级别和特征级别。
表示通过深度特征的空间注意力增强的RGB编码特征,索引j∈{3,4,5}表示高层级编码特征层。经过卷积神经网络VGG16的第三层操作得到 通过卷积神经网络VGG16的第三层操作得到此外,高层级特征通常具有丰富的通道,因此使用通道注意力来建模不同通道的重要性关系,并学习更多判别特征。具体来说,通过一个全局平均池化(GAP)层、两个全连接层(FC)和一个sigmoid函数来学习权重向量Cweight,即:Cweight的维度为:c×1×1,c为通道数)。最终的注意力级指导公式如式(5)和(6)所示,
对于特征层面的引导,使用逐像素相加操作直接融合两种模态的特征,可以加强显著对象的内部响应,获得更好的内部一致性。需要注意的是,使用级联的通道注意力和空间注意力机制来增强深度特征,并产生特征级的RGB增强特征具体由公式(7)得到,
其中,CA为通道注意力,SA为空间注意力;所述通道注意力用于:学习每个特征通道的重要性;所述空间注意力用于:突出显示特征图中的重要位置;
因此,最终流入RGB分支下一层的特征可以表示为式(8),
经过卷积神经网络VGG16的第四层操作得到同时,通过卷积神经网络VGG16的第四层操作得到进而利用公式(3)-(8)得到特征 经过卷积神经网络VGG16的第五层操作得到 通过卷积神经网络VGG16的第五层操作得到fr 5;进而利用公式(3)-(8)得到特征
简述密集解码重建结构如下:
在特征编码阶段,通过不一致的引导和交互来学习多层级判别特征。解码器致力于学习与显著性相关的特征,并预测全分辨率显著性图像。在特征解码过程中,将编码特征引入解码的跳连接在现有的SOD模型中得到了广泛的应用。然而,这些方法只是建立了相应的编码层和解码层之间的关系,而忽略了不同编码层特征的不同积极影响。例如,顶层编码特征(即高层级编码特征)可以为每个解码层提供语义指导。因此,设计了一种密集解码重建结构,以更全面地引入跳连接指导。
具体来说,编码阶段每一层的和构成了一个跳连接特征列表。为了便于区分,将它们记为初始跳跃连接特征 然后,在结合每一层的解码特征和跳连接特征之前,密集连接更高层的编码特征,生成一个语义块Bm,用于约束当前对应编码层的跳连接信息的引入。语义块Bm如式(9)所示,
其中表示当前对应的跳连接特征。通过这种密集的方式,更高层级的编码特征作为语义过滤器来实现更有效的跳连接特征的信息选择,从而有效地抑制可能导致最终显著性预测异常的冗余信息。得到的结合解码特征,通过上采样和连续卷积操作逐步恢复图像细节;最后,最后一层的解码特征通过sigmoid函数激活,生成预测的显著性图像,具体操作如式(11)和式(12)所示,
其中,t∈{2,3,4,5},和均为解码特征,表示:通过双线性插值对进行上采样操作;表示:采用卷积核为3×3的卷积层,对进行反卷积操作;表示:采用卷积核为1×1的卷积层,对进行卷积操作;表示:通过双线性插值对进行上采样操作;表示:采用卷积核为3×3的卷积层,对进行卷积操作;
本发明的方法在多个公开基准数据集上均达到了具有竞争力的性能。图2给出了本发明技术的可视化实例。第一列为彩色图像(即RGB图像),第二列为深度图像,第三列为RGB-D显著性目标检测的真值图(即显著性检测真图),第四列为本发明预测的显著性图(即显著性检测结果)。从结果可以看出,本发明方法在许多具有挑战性的场景中实现了更好的视觉效果,对于质量不好的深度图(例如,第二张图像)本发明可以有效地抑制这些模糊区域。
本发明的关键点和欲保护点如下:
(1)本发明提出了一个端到端的跨模态差异交互网络(CDINet),根据不同层的特征表示对两种模态的依赖性进行差异建模,以提升RGB-D显著性检测的性能。此外,本发明的图像处理速度达到42FPS。
(2)本发明设计了一个RGB诱导细节增强(RDE)模块,将细节补充信息从RGB模态传输到低层级编码阶段的深度模态,以及一个深度诱导语义增强(DSE)模块,通过利用高层深度特征的定位精度和内部一致性优势,帮助RGB分支捕获更清晰和细粒度的语义属性。本发明在特征解码阶段设计了一个密集解码重建(DDR)结构,该结构利用多个高层级编码特征功能来更新特征解码中的跳连接来生成语义块。
参考文献(如专利/论文/标准)如下所列:
[1]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.2020.Jl-dcf:Jointlearning and densely-cooperative fusion framework for RGB-D salient objectdetection.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.3052–3062.
[2]Youwei Pang,Lihe Zhang,Xiaoqi Zhao,and HuchuanLu.2020.Hierarchical dynamic filtering network for RGB-D salient objectdetection.In Proceedings of the European Conference on Computer Vision.
[3]Zhou Huang,Huai-Xin Chen,Tao Zhou,Yun-Zhi Yang,and Chang-YinWang.2020.Multi-level cross-modal interaction network for RGB-D salientobject detection.In Proceedings of the European Conference on ComputerVision.
[4]Yongri Piao,Zhengkun Rong,Miao Zhang,Weisong Ren,and HuchuanLu.2020.A2dele:Adaptive and attentive depth distiller for efficient RGB-Dsalient object detection.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.9060–9069.
[5]Nian Liu,Ni Zhang,and Junwei Han.2020.Learning selective self-mutual attention for RGB-D saliency detection.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.13756–13765.
[6]Shuhan Chen and Yun Fu.2020.Progressively guided alternaterefinement network for RGB-D salient object detection.In Proceedings of theEuropean Conference on Computer Vision.520–538.
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (8)
1.一种RGB-D图像显著性目标检测方法,其特征在于,
所述RGB-D图像显著性目标检测方法基于跨模态差异交互网络;
所述跨模态差异交互网络遵循编码器-解码器架构,实现跨模态信息的差异交互和引导;
所述跨模态差异交互网络包括:RGB图像编码器、深度模态编码器、RGB诱导细节增强模块、深度诱导语义增强模块和密集解码重建结构;
所述RGB图像编码器和深度模态编码器均采用VGG主干网络;
所述VGG主干网络的前两层为:低层级特征编码阶段;
所述VGG主干网络的后三层为:高层级特征编码阶段;
所述RGB-D图像显著性目标检测方法包括以下步骤:
S1、将深度图输入深度模态编码器,将RGB图像输入RGB图像编码器;
S2、所述深度模态编码器提供深度模态,所述RGB图像编码器提供RGB模态;
S3、在低层级特征编码阶段,所述RGB诱导细节增强模块通过将RGB模态的细节补充信息从RGB模态传输到深度模态,以增强和补充深度模态,实现深度特征增强;
S4、在高层级特征编码阶段,所述深度诱导语义增强模块采用注意力级别和特征级别两种交互模式全面进行跨模态特征融合,实现RGB特征增强;
S5、在解码阶段,密集解码重建结构通过结合多层级的编码特征构造语义块,以更新特征解码中的跳连接信息,进行密集解码,进而生成预测的显著性图像。
2.如权利要求1所述的RGB-D图像显著性目标检测方法,其特征在于:所述VGG主干网络为卷积神经网络VGG16。
3.如权利要求2所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S3的具体步骤如下:
S3.1、采用两个级联卷积层融合RGB模态和深度模态的低层级编码特征,生成融合特征池fpool,如式(1)所示,
其中,i为:低层级编码特征的层级,且i∈{1,2};表示:深度模态的低层级编码特征,表示:RGB模态的低层级RGB特征;表示:对和进行通道连接操作;表示:采用卷积核为1×1的卷积层,对进行卷积操作;表示:采用卷积核为3×3的卷积层,对进行卷积操作;深度图经过卷积神经网络VGG16的第一层操作得到RGB图像通过卷积神经网络VGG16的第一层操作得到
其中,表示:对沿通道维度进行最大池化操作,表示:采用卷积核为7×7的卷积层,对进行卷积操作;表示:采用卷积核为7×7的卷积层,对进行卷积操作;表示:对进行sigmoid函数操作;表示:将和进行逐元素相乘;
4.如权利要求3所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S4的具体步骤如下:
其中,j为:高层级编码特征的层级,且j∈{3,4,5};表示:深度模态的高层级编码特征;表示:RGB模态的高层级RGB特征;表示:对沿通道维度进行最大池化操作;表示:采用卷积核为3×3的卷积层,对进行卷积操作;表示:对进行sigmoid函数操作;表示:将Sweight和进行逐元素相乘;经过卷积神经网络VGG16的第三层操作得到 通过卷积神经网络VGG16的第三层操作得到
其中,CA为通道注意力,SA为空间注意力;所述通道注意力用于:学习每个特征通道的重要性;所述空间注意力用于:突出显示特征图中的重要位置;
5.如权利要求4所述的RGB-D图像显著性目标检测方法,其特征在于:步骤S5的具体步骤如下:
8.如权利要求7所述的RGB-D图像显著性目标检测方法,其特征在于:所述RGB-D图像显著性目标检测方法的图像处理速度达到42FPS。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110872457.1A CN113763422B (zh) | 2021-07-30 | 2021-07-30 | 一种rgb-d图像显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110872457.1A CN113763422B (zh) | 2021-07-30 | 2021-07-30 | 一种rgb-d图像显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113763422A true CN113763422A (zh) | 2021-12-07 |
CN113763422B CN113763422B (zh) | 2023-10-03 |
Family
ID=78788283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110872457.1A Active CN113763422B (zh) | 2021-07-30 | 2021-07-30 | 一种rgb-d图像显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763422B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283315A (zh) * | 2021-12-17 | 2022-04-05 | 安徽理工大学 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
CN114444596A (zh) * | 2022-01-26 | 2022-05-06 | 安徽大学 | 基于深度模态隐式学习的可见光图像显著目标检测方法 |
CN116206133A (zh) * | 2023-04-25 | 2023-06-02 | 山东科技大学 | 一种rgb-d显著性目标检测方法 |
CN117237343A (zh) * | 2023-11-13 | 2023-12-15 | 安徽大学 | 半监督rgb-d图像镜面检测方法、存储介质及计算机设备 |
CN117274779A (zh) * | 2023-11-21 | 2023-12-22 | 南开大学 | 一种基于模态自适应门控重编码网络的目标检测方法 |
CN114693953B (zh) * | 2022-03-24 | 2024-08-09 | 安徽理工大学 | 一种基于跨模态双向互补网络的rgb-d显著性目标检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709568A (zh) * | 2016-12-16 | 2017-05-24 | 北京工业大学 | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 |
CN111242238A (zh) * | 2020-01-21 | 2020-06-05 | 北京交通大学 | 一种rgb-d图像显著性目标获取的方法 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
DE102019123756A1 (de) * | 2019-09-05 | 2021-03-11 | Connaught Electronics Ltd. | Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes |
CN113076957A (zh) * | 2021-04-21 | 2021-07-06 | 河南大学 | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 |
-
2021
- 2021-07-30 CN CN202110872457.1A patent/CN113763422B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709568A (zh) * | 2016-12-16 | 2017-05-24 | 北京工业大学 | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 |
DE102019123756A1 (de) * | 2019-09-05 | 2021-03-11 | Connaught Electronics Ltd. | Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes |
CN111242238A (zh) * | 2020-01-21 | 2020-06-05 | 北京交通大学 | 一种rgb-d图像显著性目标获取的方法 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN113076957A (zh) * | 2021-04-21 | 2021-07-06 | 河南大学 | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 |
Non-Patent Citations (1)
Title |
---|
李婧婧: "基于深度学习的RGB-D显著性物体检测研究", 中国优秀硕士学位论文全文数据库 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283315A (zh) * | 2021-12-17 | 2022-04-05 | 安徽理工大学 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
CN114444596A (zh) * | 2022-01-26 | 2022-05-06 | 安徽大学 | 基于深度模态隐式学习的可见光图像显著目标检测方法 |
CN114693953B (zh) * | 2022-03-24 | 2024-08-09 | 安徽理工大学 | 一种基于跨模态双向互补网络的rgb-d显著性目标检测方法 |
CN116206133A (zh) * | 2023-04-25 | 2023-06-02 | 山东科技大学 | 一种rgb-d显著性目标检测方法 |
CN116206133B (zh) * | 2023-04-25 | 2023-09-05 | 山东科技大学 | 一种rgb-d显著性目标检测方法 |
CN117237343A (zh) * | 2023-11-13 | 2023-12-15 | 安徽大学 | 半监督rgb-d图像镜面检测方法、存储介质及计算机设备 |
CN117237343B (zh) * | 2023-11-13 | 2024-01-30 | 安徽大学 | 半监督rgb-d图像镜面检测方法、存储介质及计算机设备 |
CN117274779A (zh) * | 2023-11-21 | 2023-12-22 | 南开大学 | 一种基于模态自适应门控重编码网络的目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113763422B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113763422A (zh) | 一种rgb-d图像显著性目标检测方法 | |
Zhang et al. | Cross-modality discrepant interaction network for RGB-D salient object detection | |
CN111242238B (zh) | 一种rgb-d图像显著性目标获取的方法 | |
Sun et al. | Learning scene structure guidance via cross-task knowledge transfer for single depth super-resolution | |
Cong et al. | PSNet: Parallel symmetric network for video salient object detection | |
Liu et al. | Self-supervised monocular depth estimation with self-reference distillation and disparity offset refinement | |
Feng et al. | Encoder deep interleaved network with multi-scale aggregation for RGB-D salient object detection | |
Yan et al. | Learning complementary correlations for depth super-resolution with incomplete data in real world | |
Wang et al. | Thermal images-aware guided early fusion network for cross-illumination RGB-T salient object detection | |
Wu et al. | Cross-view panorama image synthesis with progressive attention GANs | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
Xu et al. | CCFNet: Cross-complementary fusion network for RGB-D scene parsing of clothing images | |
Yuan et al. | Recurrent structure attention guidance for depth super-resolution | |
CN115471658A (zh) | 一种动作迁移方法、装置、终端设备及存储介质 | |
CN115170388A (zh) | 人物线稿生成方法、装置、设备及介质 | |
Zhang et al. | Self-supervised monocular depth estimation with self-perceptual anomaly handling | |
Wei et al. | Bidirectional attentional interaction networks for rgb-d salient object detection | |
Mu et al. | Neural 3D reconstruction from sparse views using geometric priors | |
Jain et al. | Enhanced stable view synthesis | |
Xiao et al. | Progressive motion boosting for video frame interpolation | |
CN117036171A (zh) | 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法 | |
CN116823908A (zh) | 一种基于多尺度特征相关性增强的单目图像深度估计方法 | |
CN115661482A (zh) | 一种基于联合注意力的rgb-t显著目标检测方法 | |
CN112995433B (zh) | 一种时序视频生成方法、装置、计算设备及存储介质 | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |