CN113362307A - 一种rgb-d图像显著性检测方法 - Google Patents
一种rgb-d图像显著性检测方法 Download PDFInfo
- Publication number
- CN113362307A CN113362307A CN202110633595.4A CN202110633595A CN113362307A CN 113362307 A CN113362307 A CN 113362307A CN 202110633595 A CN202110633595 A CN 202110633595A CN 113362307 A CN113362307 A CN 113362307A
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- layer
- depth
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 230000006872 improvement Effects 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 3
- 238000000746 purification Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- LFRXCNXVZHVRSE-JEZACWOJSA-N [(2r,3s,4s,5r,6r)-3,4,5-trihydroxy-6-[(2r,3r,4s,5s,6r)-3,4,5-trihydroxy-6-[[(2r,3r)-3-hydroxy-2-tetradecyloctadecanoyl]oxymethyl]oxan-2-yl]oxyoxan-2-yl]methyl (2r,3r)-3-hydroxy-2-tetradecyloctadecanoate Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](COC(=O)[C@H](CCCCCCCCCCCCCC)[C@H](O)CCCCCCCCCCCCCCC)O[C@@H]1O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](COC(=O)[C@H](CCCCCCCCCCCCCC)[C@H](O)CCCCCCCCCCCCCCC)O1 LFRXCNXVZHVRSE-JEZACWOJSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种RGB‑D图像显著性检测方法,包括如下步骤:1.RGB图像和深度图像分别输入到舍去全连接层和池化层的Resnet50主干网络中,提取每层的RGB特征和深度特征;2.各层深度特征输入到相应的深度改进模块中,得到的深度改进特征与RGB特征经过卷积、激活等融合操作后形成各层的混合特征;3.混合特征从高层到底层两两组合,分别通过特征分组监督融合模块,得到各层显著图,其中,在每个特征分组监督融合模块中都加入上一层输出的显著图和真值图进行监督,最终经过迭代优化以第4层级输出的显著图作为最终结果显著图。本发明有效抑制了低质量深度特征的噪声干扰,对特征进行了高质量的充分融合,能够生成完整准确的显著图,具有较好的检测性能。
Description
技术领域:
本发明涉及计算机视觉领域,尤其涉及一种RGB-D图像显著性检测方法。
背景技术:
显著性目标检测技术的关键是提取目标场景中最吸引人的重要区域,近年来,许多人在计算机视觉领域探索了显著性目标检测技术,将该项技术应用于语义分割,目标识别,图像压缩和图像分割等领域。在过去几年里,已经提出了各种基于RGB-D图像的显著性目标检测模型,这些模型都取得了良好的性能。
RGB-D图像中RGB图像与深度图像是成对出现的,RGB图像提供详细的颜色纹理信息,深度图像则提供目标区域的形状,位置等众多空间信息。过去的方法中,深度图像常作为第四通道输入,与处理RGB图像的一样的方式对深度图像进行特征提取操作,忽视了深度图在复杂场景中有效区分目标与背景的作用。在最近的几个先进算法中,已经开始逐渐重视深度图所携带的空间信息。Fan等人将深度图像视为彩色图像的特殊情况,并使用共享的CNN进行RGB和深度特征提取;Chen等人使用面向显著性的深度感知模块来评估深度图的潜力并减少污染的影响。
当从RGB图像和深度图像中捕获到高质量的多尺度特征时,如何将其有效融合以获得高水平的显著图也是当前探索显著性检测技术的热点问题。Zhao等人提出了一种流体金字塔积分模块来以分层的方式有效地融合跨模态信息;Chen等人引入了通道式注意机制实现选择性的跨模态跨层次特征融合。
发明人在实现本发明的过程中,发现现有技术至少存在以下缺点和不足:(1)由于采集设备的限制,数据集中会出现边缘模糊或遭受噪声干扰的低质量深度图像,低质量深度图像的引入降低了检测性能;(2) 将含有噪声的特征向下传递,无法充分获取并融合有用特征,有用特征被丢失浪费,从而影响了结果质量。
发明内容:
针对以上问题,本发明提供了一种RGB-D图像显著性检测方法,旨在减少低质量深度图的影响,有效获取深度图像的特征,并尽可能全面充分融合各级有用特征,获得更好的检测性能。
本发明具体采用的技术方案如下:
一种RGB-D图像显著性检测方法,包括如下步骤:
步骤1、将RGB图像和深度图像分别输入到舍去全连接层和池化层的Resnet50主干网络中,提取每层的RGB特征和深度特征;
步骤2、将各层的深度特征输入到每个层级相应的深度改进模块中,得到的深度改进特征与相应的RGB 特征进行融合,经过卷积、激活等操作后得到各层的混合特征;
步骤3、将混合特征从高层到底层两两组合,分别通过特征分组监督融合模块,得到各层显著图,其中,在每个特征分组监督融合模块中都加入上一层输出的显著图和真值图进行监督,最终经过迭代优化以第4层级输出的显著图作为最终结果显著图。
在上述方案的步骤2中深度特征送入到每个层级相应的深度改进模块中得到深度改进特征的具体步骤如下:
1)深度改进模块包括通道注意力模块和空间注意力模块,首先将深度特征输入通道注意力模块中进行改进操作,过程定义如下:
2)将上述操作输出的特征送入空间注意力模块再次进行改进操作,过程定义如下:
其中,Sp(·)表示空间注意力的操作,Conv(·)表示卷积操作;pool′max(·)表示为对卷积特征通道的每一点的最大池化操作。
在上述方案的步骤2中深度改进特征与对应的RGB特征进行融合得到混合特征的具体步骤如下:
深度改进特征和RGB特征先串联,然后进行卷积操作将特征通道数缩小,从而形成混合特征,过程定义公式形式为:
Fm=Re(Conv(f′Dm⊙fRm)) (3)
其中,f′Dm表示深度改进特征;fRm表示RGB特征;Fm表示混合特征;Re(·)表示激活函数Relu,对数值作归一化处理;Conv(·)表示卷积操作;⊙表示串联操作。
在上述方案的步骤3中混合特征通过特征分组监督融合模块得到显著图的具体步骤如下:
1)在特征分组监督融合模块中,从高层级到低层级相邻的每两个混合特征组合在一起,共分成了四组,每组特征中高层的特征进行上采样操作后与同组低层特征串联起来,随后进行卷积操作,得到多尺度特征FQi,过程定义如下:
FQi=Re(Conv(Up(Fm)⊙Fm-1)) (4)
其中,Up(·)表示上采样操作;Re(·)表示激活函数Relu;Conv(·)表示卷积操作;
2)用高层输出的显著图和真值图迭代优化上层结果,得到多模态融合特征F′Qi(特别地,最高层级组的特征融合过程中没有上一层显著图的监督),过程定义如下:
F′Qi=FQi+Re(Conv(S))+Re(Conv(Si-1)) (5)
其中,Si-1表示高层输出的显著图;S表示真值图,Re(·)表示激活函数Relu;Conv(·)表示卷积操作;⊙表示串联操作;
3)在特征分组监督融合模块中引入特征增强模块对多模态融合特征F′Qi进行提纯,特征增强模块包含四个平行分支和一个残差连接分支。特征提纯过程为:首先,将特征的四个分支进行卷积核1×1的卷积操作,将通道数缩小,然后对后三个分支分别进行卷积核为3×3,5×5和7×7,膨胀率为1的卷积处理,接着进行卷积核为3,膨胀率为3、5、7的处理,接下来,四个分支串联起来进行1×1的卷积操作,在输入特征与卷积后的输出操作之间进行一个残差连接,最终形成特征F″Qi;
4)用卷积和激活函数对多模态多尺度特征F″Qi进行处理,输出对应的显著图Si,并以第4层级的显著图作为最终预测结果图,过程定义如下:
Si=Re(Conv(F″Qi)) (6)
其中,Re(·)表示激活函数Relu;Conv(·)表示卷积操作。
在上述方案的步骤3中的特征融合过程中,使用二元交叉熵损失函数优化网络参数,公式表示为:
Loss=-[Slog(Si)+(1-S)log(1-Si)] (7)
其中,Si为每组输出的显著图;S为真值图;Loss为损失函数。
本发明的有益效果:本发明设计了一种RGB-D图像显著性检测方法,其中,基于注意力机制引入深度改进模块对深度图像特征进行优化,有效抑制了噪声的干扰;基于卷积神经网络引入特征分组监督融合模块对RGB特征和深度特征进行了高质量的充分融合,生成了完整、边缘清晰、准确的显著图。本发明设计的方法检测性能好,具有良好的鲁棒性;并且不依赖主干网络,具有良好的扩展性。
附图说明:
图1为本发明的网络结构示意图;
图2为本发明的深度改进模块的结构图;
图3为本发明的特征分组监督融合模块的结构图;
图4为本发明实施例中的检测效果图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例作进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
参考附图1,一种RGB-D图像显著性检测方法的具体实现步骤如下:
1.技术路线
本发明采用Resnet50作为主干网络,在舍去全连接层和池化层的基础上,对结果进行多分支监督融合操作。首先将RGB图像和深度图像分别输入网络中,在特征提取阶段,获得各层来自深度图像的多尺度特,随后这些特征经过深度改进模块,减少了冗余的特征和噪声,与来自RGB图像的多尺度特征分别进行融合,融合后的混合特征,两两进行组合从高层到低层逐步通过特征分层监督融合模块,生成显著图Si,并第4层级输出的显著图S4作为最终结果显著图。
融合过程中,本发明使用二元交叉熵损失函数优化网络参数,具体公式为:
Loss=-[Slog(Si)+(1-S)log(1-Si)] (1)
其中,Si为每组输出的显著图;S为真值图;Loss为损失函数。
2.深度改进模块
携带丰富空间信息的深度图像能够对检测复杂场景下的目标对象提供有力的线索,如何从深度图中提取到有用的信息间接的影响显著性检测的性能。如附图2所示,本发明提出深度改进模块旨在克服低质量深度图存在的噪声与冗余问题,从中捕获有效信息。
视觉注意力机制应用于计算机视觉的任务中,核心思想是基于原有的数据找到其之间的关联性,然后突出其某些重要特征。本发明在深度改进模块引入了视觉注意力机制中的通道注意力以及空间注意力以从深度特征中获取高质量的信息。
深度改进模块位于每层卷积操作的后面,来自深度图的多尺度特征经过深度改进模块处理变为深度改进特征,此操作定义公式形式为:
f′Dm=TDCM(fDm) (2)
其中:fDm,f′Dm分别为深度图改进前和改进后的各层的特征;TDCM(·)为改进操作。具体深度改进操作过程定义公式形式为:
TDCM(fDm)=Sp(Ch(fDm)) (3)
其中,式(4)的Ch(·)和式(5)的Sp(·)分别为通道注意力和空间注意力的操作;fi表示输入的多尺度特征;为元素依次相乘操作;式(4)中Per(·)为两层感知机,poolave(·)表示为对每层多尺度特征进行平均池化操作;式(5)中Conv(·)为卷积操作,pool′max(·)表示为对卷积特征通道的每一点的最大池化操作。
本发明与其他方法不同,其他方法在特征处理上更多使用最大池化操作,而本发明引入的深度改进模块在通道注意力和空间注意力机制中分别用了平均池化和最大池化操作,平均池化操作更好地保留了背景信息,最大池化操作提取了特征纹理,减少了无用信息,本发明将两者相结合,使最终预测显著图的效果达到了最优。
3.特征分组监督融合模块
具有判别力的高层特征,如果简单用一个卷积操作生成本层结果,可能会将含有噪声的特征向下传递,影响结果质量,本发明引入了多模态多尺度特征分组监督融合模块解决了此问题。多模态多尺度特征分组监督融合模块如附图3所示。
在特征进入特征分组监督融合模块之前本发明先对来自RGB图像的不同等级的特征fRm和经过深度改进模块更新处理的深度图像的特征f′Dm,进行串联和卷积操作将特征通道数缩小,形成混合特征Fm,此过程定义公式形式为:
Fm=Re(Conv(f′Dm⊙fRm)) (6)
其中,Re(·)为激活函数Relu,对数值作归一化处理,使提取出来特征更具有代表性;Conv(·)为卷积操作;⊙为串联操作。
接着将混合特征Fm,输入特征分组监督融合模块中融合,其中,不同层次的多模态多尺度特征两两进行组合被分为了四组:Q1={F4,F5},Q2={F3,F4},Q3={F2,F3},Q4={F2,F1}。为使得特征充分被捕获,防止杂乱信息持续传递,本发明选择将每组混合特征两两组合先串联后卷积,从而依次得到了不同等级的多尺度特征FQ1~FQ4,此过程定义公式形式为:
FQi=Re(Conv(Up(Fm)⊙Fm-1)) (7)
其中,Up(·)为上采样操作,即对每组高层特征进行上采样操作使之变得和下层特征大小相同。
为了使得结果最优化,本发明用高层输出的显著图Si-1和真值图S去迭代优化上层结果,更新目标位置,清晰目标边缘,得到多模态融合特征F′Qi,公式定义为:
F′Qi=Re(Conv(Up(Fm)⊙Fm-1))+Re(Conv(S))+Re(Conv(Si-1)) (8)
其中,Si-1表示高层输出的显著图;S表示真值图,Re(·)表示激活函数Relu;Conv(·)表示卷积操作;⊙表示串联操作;Up(·)表示上采样操作。
为进一步增强多模态特征的表示能力,在特征分组监督融合模块里引入特征增强模块对多模态融合特征F′Qi进行提纯。它包含四个平行分支和一个残差连接分支,具体而言,首先,本发明将特征F′Qi的所有分支进行卷积核1×1的卷积操作,将通道数缩小,然后对后三个分支分别进行卷积核为3×3,5×5和7×7,膨胀率为1的卷积处理;接着又进行了卷积核为3,膨胀率为3、5、7的操作,目的是高效提取有用的信息。为使得每层特征尽可能分布稳定,本发明在卷积后引入BN-Relu层(Batch normalization+ReLU),通过BN层的归一化操作,让Relu更好地产生特征选择作用,加快网络收敛速度。接下来,四个分支串联起来进行1×1的卷积操作,在输入特征与卷积后的输出操作之间进行一个残差连接(Residual)目的是避免经多层训练效果不如前面的层,提升网络的表征能力,最终形成特征F″Qi。
最后,对应多模态多尺度特征F″Qi的显著图输出Si的过程表示为:
Si=Re(Conv(F″Qi)) (9)
特别地,最高层Q1组的融合没有上一层显著图的监督。经过上述监督迭代优化等操作,最终,得到结果预测显著图S4。
下面将上述方法应用到具体实施例中,以便本领域技术人员更好地理解本发明的效果。
本实施例的实现方法如前所述,不再详细阐述具体步骤,下面仅针对案例数据展示其效果。本发明选用NJU2000数据集前1400张,NLPR数据集前600张,SSD数据集前60张,LFSD数据集前60张图像进行训练,各数据集剩下的数据图像用于测试。
本实施例检测结果参考下表所示,其中,平均绝对误差(MAE)越小,F-measure,E-measure,S-measure 值越大表明检测性能越好,从表中结果可以看出本发明方法的检测整体结果优于其他方法,具有一定竞争力。
上述与本发明方法对比的其他方法,具体实现过程参见以下现有技术文献:
CPFP:Zhao J,Cao Y,Fan D,et al.Contrast Prior and Fluid PyramidIntegration for RGBD Salient Object Detection.2019IEEE/CVF Conference onComputer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA,2019.
CTMF:HAN J,CHEN H,LIU N,et al.CNNs-Based RGB-D Saliency Detection viaCross-View Transfer and Multiview Fusion.IEEE Transactions on Cybernetics,2018.
TAN:Chen H,Li Y.Three-Stream Attention-Aware Network for RGB-DSalient Object Detection. IEEE Transactions on Image Processing,2019.
BBSNet:Fan D P,Zhai Y J,Borji A,et al.Shao,L.BBS-Net:RGB-D salientobject detection with a bifurcated backbone strategy network.Computer Vision–ECCV,2020.
附图4给出了实施例的可视化结果。第一列为RGB图像,第二列为深度图像,第三列为真值图,第四列到第七列为与本方明方法对比的其他方法的检测图,第八列为本发明方法生成的显著性图。附图4(a) 是普通背景下单目标的显著性检测图,从图片看出,本发明方法识别出的物体,边缘更清晰;附图4(b) 是对受光线干扰的图像的检测,光线反射易造成图像原本颜色或形状的改变,由结果可以看出,本发明方法能够有效克服光线带来的影响,更好地识别出目标物体;附图4(c)是在复杂场景下对多物体的检测,本发明方法能够清晰地检测出所有物体;附图4(d)是在低对比度的场景中识别出目标物体,本发明方法充分利用深度图像的有用特征,有效抑制了背景与目标对比不明显的干扰,取得了良好的可靠结果。
以上所述仅为本发明的较佳实施例而已,并非用以限制本发明,有关技术领域的人员在不脱离本发明的实质和范围的情况下,可以做出修改、等同替换和改进等,均包含在本发明的保护范围之内。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (5)
1.一种RGB-D图像显著性检测方法,其特征在于,包括如下步骤:
步骤1、将RGB图像和深度图像分别输入到舍去全连接层和池化层的Resnet50主干网络中,提取每层的RGB特征和深度特征;
步骤2、将各层的深度特征输入到每个层级相应的深度改进模块中,得到的深度改进特征与相应的RGB特征进行融合,经过卷积、激活等操作后得到各层的混合特征;
步骤3、将混合特征从高层到底层两两组合,分别通过特征分组监督融合模块,得到各层显著图,其中,在每个特征分组监督融合模块中都加入上一层输出的显著图和真值图进行监督,最终经过迭代优化以第4层级输出的显著图作为最终结果显著图。
2.根据权利要求1所述的RGB-D图像显著性检测方法,其特征在于,所述步骤2中深度特征送入到每个层级相应的深度改进模块中得到深度改进特征的具体步骤如下:
1)深度改进模块包括通道注意力模块和空间注意力模块,首先将深度特征输入通道注意力模块中进行改进操作,过程定义如下:
2)将上述操作输出的特征送入空间注意力模块再次进行改进操作,过程定义如下:
其中,Sp(·)表示空间注意力的操作,Conv(·)表示卷积操作;pool′max(·)表示为对卷积特征通道的每一点的最大池化操作。
3.根据权利要求1所述的RGB-D图像显著性检测方法,其特征在于,所述步骤2中深度改进特征与对应的RGB特征进行融合得到混合特征的具体步骤如下:
深度改进特征和RGB特征先串联,然后进行卷积操作将特征通道数缩小,从而形成混合特征,过程定义公式形式为:
Fm=Re(Conv(f′Dm⊙fRm)) (3)
其中,f′Dm表示深度改进特征;fRm表示RGB特征;Fm表示混合特征;Re(·)表示激活函数Relu,对数值作归一化处理;Conv(·)表示卷积操作;⊙表示串联操作。
4.根据权利要求1所述的RGB-D图像显著性检测方法,其特征在于,所述步骤3中混合特征通过特征分组监督融合模块得到显著图的具体步骤如下:
1)在特征分组监督融合模块中,从高层级到低层级相邻的每两个混合特征组合在一起,共分成了四组,每组特征中高层的特征进行上采样操作后与同组低层特征串联起来,随后进行卷积操作,得到多尺度特征FQi,过程定义如下:
FQi=Re(Conv(Up(Fm)⊙Fm-1)) (4)
2)用高层输出的显著图和真值图迭代优化上层结果,得到多模态融合特征F′Qi(特别地,最高层级组的特征融合过程中没有上一层显著图的监督),过程定义如下:
F′Qi=FQi+Re(Conv(S))+Re(Conv(Si-1)) (5)
其中,Si-1表示高层输出的显著图;S表示真值图,Re(·)表示激活函数Relu;Conv(·)表示卷积操作;⊙表示串联操作;Up(·)表示上采样操作;
3)在特征分组监督融合模块中引入特征增强模块对多模态融合特征F′Qi进行提纯,特征增强模块包含四个平行分支和一个残差连接分支。特征提纯过程为:首先,将特征的四个分支进行卷积核1×1的卷积操作,将通道数缩小,然后对后三个分支分别进行卷积核为3×3,5×5和7×7,膨胀率为1的卷积处理,接着进行卷积核为3,膨胀率为3、5、7的处理,接下来,四个分支串联起来进行1×1的卷积操作,在输入特征与卷积后的输出操作之间进行一个残差连接,最终形成特征F″Qi;
4)用卷积和激活函数对多模态多尺度特征F″Qi进行处理,输出对应的显著图Si,并以第4层级的显著图作为最终预测结果图,过程定义如下:
Si=Re(Conv(F″Qi)) (6)
其中,Re(·)表示激活函数Relu;Conv(·)表示卷积操作。
5.根据权利要求1所述的RGB-D图像显著性检测方法,其特征在于,所述步骤3中的特征融合过程中,使用二元交叉熵损失函数优化网络参数,公式表示为:
Loss=-[Slog(Si)+(1-S)log(1-Si)] (7)
其中,Si为每组输出的显著图;S为真值图;Loss为损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110633595.4A CN113362307B (zh) | 2021-06-07 | 2021-06-07 | 一种rgb-d图像显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110633595.4A CN113362307B (zh) | 2021-06-07 | 2021-06-07 | 一种rgb-d图像显著性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362307A true CN113362307A (zh) | 2021-09-07 |
CN113362307B CN113362307B (zh) | 2023-03-28 |
Family
ID=77532896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110633595.4A Expired - Fee Related CN113362307B (zh) | 2021-06-07 | 2021-06-07 | 一种rgb-d图像显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362307B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170174A (zh) * | 2021-12-02 | 2022-03-11 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN115439726A (zh) * | 2022-11-07 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170259060A1 (en) * | 2014-09-10 | 2017-09-14 | National Ict Australia Limited | Enhancing vision for a vision impaired user |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111259982A (zh) * | 2020-02-13 | 2020-06-09 | 苏州大学 | 一种基于注意力机制的早产儿视网膜图像分类方法和装置 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN111931787A (zh) * | 2020-07-22 | 2020-11-13 | 杭州电子科技大学 | 一种基于特征聚合的rgbd显著性检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
-
2021
- 2021-06-07 CN CN202110633595.4A patent/CN113362307B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170259060A1 (en) * | 2014-09-10 | 2017-09-14 | National Ict Australia Limited | Enhancing vision for a vision impaired user |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111259982A (zh) * | 2020-02-13 | 2020-06-09 | 苏州大学 | 一种基于注意力机制的早产儿视网膜图像分类方法和装置 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN111931787A (zh) * | 2020-07-22 | 2020-11-13 | 杭州电子科技大学 | 一种基于特征聚合的rgbd显著性检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
Non-Patent Citations (2)
Title |
---|
刘政怡: "基于多模态特征融合监督的RGB-D图像显著性检测", 《电子与信息学报》 * |
魏计鹏: "基于深度图像增益的RGB-D显著性物体检测", 《计算机与现代化》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170174A (zh) * | 2021-12-02 | 2022-03-11 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114170174B (zh) * | 2021-12-02 | 2024-01-23 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN115439726A (zh) * | 2022-11-07 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113362307B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582316B (zh) | 一种rgb-d显著性目标检测方法 | |
CN112734915A (zh) | 一种基于深度学习的多视角立体视觉三维场景重建方法 | |
Zhang et al. | Feature reintegration over differential treatment: A top-down and adaptive fusion network for RGB-D salient object detection | |
Bi et al. | Cross-modal hierarchical interaction network for RGB-D salient object detection | |
CN113362307B (zh) | 一种rgb-d图像显著性检测方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN111242181B (zh) | 基于图像语义和细节的rgb-d显著性物体检测器 | |
CN114092774B (zh) | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 | |
CN113076947A (zh) | 一种交叉引导融合的rgb-t图像显著性检测系统 | |
CN110929735A (zh) | 一种基于多尺度特征注意机制的快速显著性检测方法 | |
CN113554036A (zh) | 一种改进orb算法的特征点提取与匹配方法 | |
Tang et al. | Deep saliency quality assessment network with joint metric | |
Li et al. | Stereo superpixel: An iterative framework based on parallax consistency and collaborative optimization | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
Yuan et al. | Recurrent structure attention guidance for depth super-resolution | |
Ge et al. | WGI-Net: A weighted group integration network for RGB-D salient object detection | |
CN114743162A (zh) | 一种基于生成对抗网络的跨模态行人重识别方法 | |
Zhou et al. | CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation | |
Ma et al. | MSFNET: multi-stage fusion network for semantic segmentation of fine-resolution remote sensing data | |
CN110992320B (zh) | 一种基于双重交错的医学图像分割网络 | |
CN110942062B (zh) | 图像验证码生成方法、介质、装置和计算设备 | |
CN117115605A (zh) | 一种彩色可见光与深度图像显著性目标检测方法 | |
Zhao et al. | DSNet: Dual-stream multi-scale fusion network for low-quality 3D face recognition | |
CN116485849A (zh) | 一种点云配准方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230328 |