CN113658134A - 一种多模态对齐校准的rgb-d图像显著目标检测方法 - Google Patents

一种多模态对齐校准的rgb-d图像显著目标检测方法 Download PDF

Info

Publication number
CN113658134A
CN113658134A CN202110939965.7A CN202110939965A CN113658134A CN 113658134 A CN113658134 A CN 113658134A CN 202110939965 A CN202110939965 A CN 202110939965A CN 113658134 A CN113658134 A CN 113658134A
Authority
CN
China
Prior art keywords
rgb
features
depth
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110939965.7A
Other languages
English (en)
Other versions
CN113658134B (zh
Inventor
刘政怡
檀亚诚
朱斌
张子森
姚晟
李炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110939965.7A priority Critical patent/CN113658134B/zh
Publication of CN113658134A publication Critical patent/CN113658134A/zh
Application granted granted Critical
Publication of CN113658134B publication Critical patent/CN113658134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多模态对齐校准的RGB‑D图像显著目标检测方法,包括以下步骤:从RGB‑D图像中提取RGB特征和Depth特征;对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;从Depth特征中提取边特征,产生边图;联合解码RGB修正特征、Depth修正特征、边特征产生显著图;利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB‑D图像显著目标检测模型;利用所述RGB‑D图像显著目标检测模型检测任意一张RGB‑D图像,输出显著图为检测结果。所述方法通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。

Description

一种多模态对齐校准的RGB-D图像显著目标检测方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种多模态对齐校准的RGB-D图像显著目标检测方法。
背景技术
RGB-D图像是由RGB颜色图像和Depth深度图像组成,这两种图像对应于同一场景的不同模态,颜色模态更强调外观信息,深度模态更强调几何信息。RGB-D图像显著目标检测的核心就是要有效融合这两种模态信息,减少二者之间的差异,最大化它们的共同点,为显著目标的解码阶段提供更好的特征。
发明内容
本发明所需要解决的技术问题是提供一种多模态对齐校准的RGB-D图像显著目标检测方法,对提取的RGB颜色特征和Depth深度特征,通过通道注意力和空间注意力进行对齐校准,促进不同模态之间的融合,以提高检测性能。
本发明具体采用的技术方案如下:
一种多模态对齐校准的RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征
Figure BDA0003210003320000011
及Depth特征
Figure BDA0003210003320000012
其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
Figure BDA0003210003320000021
Figure BDA0003210003320000022
所述
Figure BDA0003210003320000023
表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
Figure BDA0003210003320000024
Figure BDA0003210003320000025
所述
Figure BDA0003210003320000026
表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文
《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
S3.1:对Depth特征
Figure BDA0003210003320000027
进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
Figure BDA0003210003320000028
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征
Figure BDA0003210003320000031
和Depth修正特征
Figure BDA0003210003320000032
进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征
Figure BDA0003210003320000033
和Depth修正特征
Figure BDA0003210003320000034
分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
Figure BDA0003210003320000035
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
Figure BDA0003210003320000036
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
与已有技术相比,本发明有益效果体现在:
本发明提出一种多模态对齐校准的RGB-D图像显著目标检测方法,通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。
附图说明
图1为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法的流程图;
图2为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法中边特征提取方法。
图3为本发明一种多模态对齐校准的RGB-D图像显著目标检测模型图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例一种多模态对齐校准的RGB-D图像显著目标检测方法,如图1所示,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征
Figure BDA0003210003320000041
及Depth特征
Figure BDA0003210003320000042
其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
Figure BDA0003210003320000051
Figure BDA0003210003320000052
所述
Figure BDA0003210003320000053
表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
Figure BDA0003210003320000054
Figure BDA0003210003320000055
所述
Figure BDA0003210003320000056
表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,如图2所示,具体操作如下:
S3.1:对Depth特征
Figure BDA0003210003320000057
进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
Figure BDA0003210003320000058
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征
Figure BDA0003210003320000061
和Depth修正特征
Figure BDA0003210003320000062
进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征
Figure BDA0003210003320000063
和Depth修正特征
Figure BDA0003210003320000064
分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
Figure BDA0003210003320000065
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
Figure BDA0003210003320000066
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型,如图3所示;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,训练集进行了随机翻转、旋转、边界裁剪等数据增强操作,所述监督采用交叉熵损失;模型训练选取Adam优化器,初始学习率为5e-5,批处理大小为3,模型训练200代后收敛,耗时约26小时。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
所述方法与17种RGB-D显著物体检测方法D3Net[1],ICNet[2],DCMF[3],DRLF[4],SSF[5],SSMA[6],A2dele[7],UCNet[8],CoNet[9],DANet[10],JLDCF[11],EBFSP[12],CDNet[13],HAINet[14],RD3D[15],DSA2F[16],VST[17]进行对比,结果见表1。
表1实验结果
Figure BDA0003210003320000071
[1]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.
[2]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.
[3]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.
[4]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.
[5]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.
[6]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.
[7]Piao,Yongri,et al."A2dele:Adaptive and attentive depth distillerfor efficient RGB-D salient object detection."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020.
[8]Zhang,Jing,et al."UC-Net:Uncertainty inspired RGB-D saliencydetection via conditional variational autoencoders."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020.
[9]Ji,Wei,et al."Accurate rgb-d salient object detection viacollaborative learning."arXiv preprint arXiv:2007.11782(2020).
[10]Zhao,Xiaoqi,et al."A single stream network for robust and real-time rgb-d salient object detection."European Conference on ComputerVision.Springer,Cham,2020.
[11]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.JL-DCF:Jointlearning and densely-cooperative fusion framework for rgb-d salient objectdetection.In Proceedings of the IEEE/CVF conference on computer vision andpattern recognition,pages 3052-3062,2020.
[12]Nianchang Huang,Yang Yang,Dingwen Zhang,Qiang Zhang,and JungongHan.Employing Bilinear Fusion and Saliency Prior Information for RGB-DSalient Object Detection.IEEE Transactions on Multimedia,2021.
[13]Wen-Da Jin,Jun Xu,Qi Han,Yi Zhang,and Ming-Ming Cheng.CDNet:Complementary Depth Network for RGB-D Salient Object Detection.IEEETransactions on Image Processing,30:3376-3390,2021.
[14]Gongyang Li,Zhi Liu,Minyu Chen,Zhen Bai,Weisi Lin,and HaibinLing.Hierarchical alternate interaction network for rgb-d salient objectdetection.IEEE Transactions on Image Processing,30:3528-3542,2021.
[15]Qian Chen,Ze Liu,Yi Zhang,Keren Fu,Qijun Zhao,and Hongwei Du.Rgb-d salient object detection via 3d convolutional neural.AAAI,2021.
[16]Peng Sun,Wenhu Zhang,Huanyu Wang,Songyuan Li,and Xi Li.Deep rgb-dsaliency detection with depth-sensitive attention and automatic multi-modalfusion.arXiv preprint arXiv:2103.11832,2021.
[17]N.Liu,N.Zhang,K.Wan,J.Han,and L.Shao,“Visual SaliencyTransformer,”arXiv preprint arXiv:2104.12099,2021.
如表1所示可知,本发明方法在S-measure、自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.本发明一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,所述方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
2.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征
Figure FDA0003210003310000015
及Depth特征
Figure FDA0003210003310000016
其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
3.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
Figure FDA0003210003310000011
Figure FDA0003210003310000012
所述
Figure FDA0003210003310000013
表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
Figure FDA0003210003310000014
Figure FDA0003210003310000021
所述
Figure FDA0003210003310000022
表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
4.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
S3.1:对Depth特征
Figure FDA0003210003310000023
进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
Figure FDA0003210003310000024
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
5.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征
Figure FDA0003210003310000025
和Depth修正特征
Figure FDA0003210003310000026
进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征
Figure FDA0003210003310000027
和Depth修正特征
Figure FDA0003210003310000028
分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
Figure FDA0003210003310000031
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
Figure FDA0003210003310000032
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
6.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
7.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
CN202110939965.7A 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法 Active CN113658134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110939965.7A CN113658134B (zh) 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110939965.7A CN113658134B (zh) 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法

Publications (2)

Publication Number Publication Date
CN113658134A true CN113658134A (zh) 2021-11-16
CN113658134B CN113658134B (zh) 2024-08-23

Family

ID=78479348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110939965.7A Active CN113658134B (zh) 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法

Country Status (1)

Country Link
CN (1) CN113658134B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160132209A (ko) * 2015-05-07 2016-11-17 (주)이더블유비엠 다중 컬러 센서를 기반하여, 고속 컨벌루션을 이용한 영상의 깊이 정보 추출 방법 및 장치
CN109615596A (zh) * 2018-12-05 2019-04-12 青岛小鸟看看科技有限公司 一种深度图像的去噪方法、装置和电子设备
CN110599550A (zh) * 2019-09-09 2019-12-20 香港光云科技有限公司 Rgb-d模组的校准系统及其设备和方法
CN110956094A (zh) * 2019-11-09 2020-04-03 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111209810A (zh) * 2018-12-26 2020-05-29 浙江大学 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN111325710A (zh) * 2020-01-13 2020-06-23 镇江优瞳智能科技有限公司 一种基于双边注意力机制的rgb-d显著性物体检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111882485A (zh) * 2020-06-19 2020-11-03 北京交通大学 分级特征反馈融合的深度图像超分辨率重建方法
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160132209A (ko) * 2015-05-07 2016-11-17 (주)이더블유비엠 다중 컬러 센서를 기반하여, 고속 컨벌루션을 이용한 영상의 깊이 정보 추출 방법 및 장치
CN109615596A (zh) * 2018-12-05 2019-04-12 青岛小鸟看看科技有限公司 一种深度图像的去噪方法、装置和电子设备
CN111209810A (zh) * 2018-12-26 2020-05-29 浙江大学 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN110599550A (zh) * 2019-09-09 2019-12-20 香港光云科技有限公司 Rgb-d模组的校准系统及其设备和方法
CN110956094A (zh) * 2019-11-09 2020-04-03 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111325710A (zh) * 2020-01-13 2020-06-23 镇江优瞳智能科技有限公司 一种基于双边注意力机制的rgb-d显著性物体检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111882485A (zh) * 2020-06-19 2020-11-03 北京交通大学 分级特征反馈融合的深度图像超分辨率重建方法
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘剑;徐萌;赵悦;张锐;高恩阳;: "一种深度图像特征的建筑物内行人检测方法", 小型微型计算机系统, no. 04, 15 April 2018 (2018-04-15) *
刘政怡等: "基于多模态特征融合监督的RGB-D图像显著性检测", 电子与信息学报, vol. 42, no. 4, 30 April 2020 (2020-04-30) *
吴建国等: "融合显著深度特征的RGB-D图像显著目标检测", 电子与信息学报, vol. 39, no. 9, 30 September 2017 (2017-09-30) *
周燕;: "基于边缘效应和注意力机制的显著性检测", 软件, no. 04, 15 April 2020 (2020-04-15) *
田寨兴;彭宗举;陈芬;: "基于图像边缘特征的深度上采样算法", 光电子・激光, no. 12, 15 December 2014 (2014-12-15) *

Also Published As

Publication number Publication date
CN113658134B (zh) 2024-08-23

Similar Documents

Publication Publication Date Title
Song et al. Monocular depth estimation using laplacian pyramid-based depth residuals
Tian et al. Designing and training of a dual CNN for image denoising
Hu et al. Learning supervised scoring ensemble for emotion recognition in the wild
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN110060286B (zh) 一种单目深度估计方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN110853039B (zh) 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN116912608A (zh) 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法
Zhou et al. CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation
Bao et al. Quality-aware Selective Fusion Network for VDT Salient Object Detection
Wang et al. Cross-Modal Contrastive Learning Network for Few-Shot Action Recognition
CN113362307A (zh) 一种rgb-d图像显著性检测方法
CN113658134A (zh) 一种多模态对齐校准的rgb-d图像显著目标检测方法
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN116862080A (zh) 一种基于双视角对比学习的碳排放预测方法及系统
Huang et al. Frozen CLIP Transformer Is an Efficient Point Cloud Encoder
CN117036699A (zh) 一种基于Transformer神经网络的点云分割方法
CN115546512A (zh) 基于可学习的权重描述子的光场图像显著目标检测方法
CN113537326B (zh) 一种rgb-d图像显著目标检测方法
Liang et al. Real-time stereo image depth estimation network with group-wise L1 distance for edge devices towards autonomous driving
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
Qin et al. Joint deep learning for RGB-D action recognition
Yao et al. Cooperative light-field image super-resolution based on multi-modality embedding and fusion with frequency attention
Xia et al. Enhancing Semantically Masked Transformer With Local Attention for Semantic Segmentation
Dai et al. DSAP: Dynamic Sparse Attention Perception Matcher for Accurate Local Feature Matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant