CN113658134B - 一种多模态对齐校准的rgb-d图像显著目标检测方法 - Google Patents

一种多模态对齐校准的rgb-d图像显著目标检测方法 Download PDF

Info

Publication number
CN113658134B
CN113658134B CN202110939965.7A CN202110939965A CN113658134B CN 113658134 B CN113658134 B CN 113658134B CN 202110939965 A CN202110939965 A CN 202110939965A CN 113658134 B CN113658134 B CN 113658134B
Authority
CN
China
Prior art keywords
features
rgb
depth
feature
salient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110939965.7A
Other languages
English (en)
Other versions
CN113658134A (zh
Inventor
刘政怡
檀亚诚
朱斌
张子森
姚晟
李炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110939965.7A priority Critical patent/CN113658134B/zh
Publication of CN113658134A publication Critical patent/CN113658134A/zh
Application granted granted Critical
Publication of CN113658134B publication Critical patent/CN113658134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多模态对齐校准的RGB‑D图像显著目标检测方法,包括以下步骤:从RGB‑D图像中提取RGB特征和Depth特征;对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;从Depth特征中提取边特征,产生边图;联合解码RGB修正特征、Depth修正特征、边特征产生显著图;利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB‑D图像显著目标检测模型;利用所述RGB‑D图像显著目标检测模型检测任意一张RGB‑D图像,输出显著图为检测结果。所述方法通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。

Description

一种多模态对齐校准的RGB-D图像显著目标检测方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种多模态对齐校准的RGB-D图像显著目标检测方法。
背景技术
RGB-D图像是由RGB颜色图像和Depth深度图像组成,这两种图像对应于同一场景的不同模态,颜色模态更强调外观信息,深度模态更强调几何信息。RGB-D图像显著目标检测的核心就是要有效融合这两种模态信息,减少二者之间的差异,最大化它们的共同点,为显著目标的解码阶段提供更好的特征。
发明内容
本发明所需要解决的技术问题是提供一种多模态对齐校准的RGB-D图像显著目标检测方法,对提取的RGB颜色特征和Depth深度特征,通过通道注意力和空间注意力进行对齐校准,促进不同模态之间的融合,以提高检测性能。
本发明具体采用的技术方案如下:
一种多模态对齐校准的RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
所述表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文
《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
S3.1:对Depth特征进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
与已有技术相比,本发明有益效果体现在:
本发明提出一种多模态对齐校准的RGB-D图像显著目标检测方法,通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。
附图说明
图1为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法的流程图;
图2为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法中边特征提取方法。
图3为本发明一种多模态对齐校准的RGB-D图像显著目标检测模型图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例一种多模态对齐校准的RGB-D图像显著目标检测方法,如图1所示,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
所述表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,如图2所示,具体操作如下:
S3.1:对Depth特征进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型,如图3所示;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,训练集进行了随机翻转、旋转、边界裁剪等数据增强操作,所述监督采用交叉熵损失;模型训练选取Adam优化器,初始学习率为5e-5,批处理大小为3,模型训练200代后收敛,耗时约26小时。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
所述方法与17种RGB-D显著物体检测方法D3Net[1],ICNet[2],DCMF[3],DRLF[4],SSF[5],SSMA[6],A2dele[7],UCNet[8],CoNet[9],DANet[10],JLDCF[11],EBFSP[12],CDNet[13],HAINet[14],RD3D[15],DSA2F[16],VST[17]进行对比,结果见表1。
表1实验结果
[1]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.
[2]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.
[3]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.
[4]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.
[5]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.
[6]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.
[7]Piao,Yongri,et al."A2dele:Adaptive and attentive depth distillerfor efficient RGB-D salient object detection."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020.
[8]Zhang,Jing,et al."UC-Net:Uncertainty inspired RGB-D saliencydetection via conditional variational autoencoders."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020.
[9]Ji,Wei,et al."Accurate rgb-d salient object detection viacollaborative learning."arXiv preprint arXiv:2007.11782(2020).
[10]Zhao,Xiaoqi,et al."A single stream network for robust and real-time rgb-d salient object detection."European Conference on ComputerVision.Springer,Cham,2020.
[11]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.JL-DCF:Jointlearning and densely-cooperative fusion framework for rgb-d salient objectdetection.In Proceedings of the IEEE/CVF conference on computer vision andpattern recognition,pages 3052-3062,2020.
[12]Nianchang Huang,Yang Yang,Dingwen Zhang,Qiang Zhang,and JungongHan.Employing Bilinear Fusion and Saliency Prior Information for RGB-DSalient Object Detection.IEEE Transactions on Multimedia,2021.
[13]Wen-Da Jin,Jun Xu,Qi Han,Yi Zhang,and Ming-Ming Cheng.CDNet:Complementary Depth Network for RGB-D Salient Object Detection.IEEETransactions on Image Processing,30:3376-3390,2021.
[14]Gongyang Li,Zhi Liu,Minyu Chen,Zhen Bai,Weisi Lin,and HaibinLing.Hierarchical alternate interaction network for rgb-d salient objectdetection.IEEE Transactions on Image Processing,30:3528-3542,2021.
[15]Qian Chen,Ze Liu,Yi Zhang,Keren Fu,Qijun Zhao,and Hongwei Du.Rgb-d salient object detection via 3d convolutional neural.AAAI,2021.
[16]Peng Sun,Wenhu Zhang,Huanyu Wang,Songyuan Li,and Xi Li.Deep rgb-dsaliency detection with depth-sensitive attention and automatic multi-modalfusion.arXiv preprint arXiv:2103.11832,2021.
[17]N.Liu,N.Zhang,K.Wan,J.Han,and L.Shao,“Visual SaliencyTransformer,”arXiv preprint arXiv:2104.12099,2021.
如表1所示可知,本发明方法在S-measure、自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,所述方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;
在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
表示第i层的RGB对齐特征和Depth对齐特征;
“×”是指逐元素相乘操作;
SA(·)操作是指空间注意力操作,定义为:
Satt(f)=Conv(Rmax(f))⊙f,
其中,Rmax(·)表示对于特征图上沿着通道轴上的每个点的全局最大池化操作,f表示输入的特征图;⊙表示元素级别上的相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
表示第i层的RGB修正特征和Depth修正特征;
“×”是指逐元素相乘操作;
CA(·)操作是指通道注意力操作,定义为:
Pmax(·)表示对于每个特征图的全局最大池化操作,f表示输入的特征图,M(·)是一个两层感知机,表示有维度扩展的相乘操作;
在所述步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
S3.1:对Depth特征进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F'e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F'e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指是指通道注意力操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F'e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
2.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
3.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F'e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(FUp4(Conv3(Concat(F′e,F1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
4.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
5.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
CN202110939965.7A 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法 Active CN113658134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110939965.7A CN113658134B (zh) 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110939965.7A CN113658134B (zh) 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法

Publications (2)

Publication Number Publication Date
CN113658134A CN113658134A (zh) 2021-11-16
CN113658134B true CN113658134B (zh) 2024-08-23

Family

ID=78479348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110939965.7A Active CN113658134B (zh) 2021-08-13 2021-08-13 一种多模态对齐校准的rgb-d图像显著目标检测方法

Country Status (1)

Country Link
CN (1) CN113658134B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956094A (zh) * 2019-11-09 2020-04-03 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101681197B1 (ko) * 2015-05-07 2016-12-02 (주)이더블유비엠 다중 컬러 센서를 기반하여, 고속 컨벌루션을 이용한 영상의 깊이 정보 추출 방법 및 장치
CN109615596B (zh) * 2018-12-05 2020-10-30 青岛小鸟看看科技有限公司 一种深度图像的去噪方法、装置和电子设备
CN111209810B (zh) * 2018-12-26 2023-05-26 浙江大学 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN110599550A (zh) * 2019-09-09 2019-12-20 香港光云科技有限公司 Rgb-d模组的校准系统及其设备和方法
CN111325710A (zh) * 2020-01-13 2020-06-23 镇江优瞳智能科技有限公司 一种基于双边注意力机制的rgb-d显著性物体检测方法
CN111882485B (zh) * 2020-06-19 2023-08-18 北京交通大学 分级特征反馈融合的深度图像超分辨率重建方法
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956094A (zh) * 2019-11-09 2020-04-03 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法

Also Published As

Publication number Publication date
CN113658134A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN112330681B (zh) 一种基于注意力机制的轻量级网络实时语义分割方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN116912608A (zh) 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法
CN113076947A (zh) 一种交叉引导融合的rgb-t图像显著性检测系统
CN111414988B (zh) 基于多尺度特征自适应融合网络的遥感影像超分辨率方法
CN115641285A (zh) 一种基于密集多尺度信息融合的双目视觉立体匹配方法
CN113610732A (zh) 基于交互对抗学习的全聚焦图像生成方法
CN113627487B (zh) 一种基于深层注意力机制的超分辨率重建方法
Zhou et al. CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation
CN113658134B (zh) 一种多模态对齐校准的rgb-d图像显著目标检测方法
CN113538402A (zh) 一种基于密度估计的人群计数方法及系统
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN117036699A (zh) 一种基于Transformer神经网络的点云分割方法
Bao et al. Quality-aware Selective Fusion Network for VDT Salient Object Detection
CN113537326B (zh) 一种rgb-d图像显著目标检测方法
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN115546512A (zh) 基于可学习的权重描述子的光场图像显著目标检测方法
Liang et al. Real-time stereo image depth estimation network with group-wise L1 distance for edge devices towards autonomous driving
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN112308772A (zh) 基于深度学习局部与非局部信息的超分辨率重建方法
He et al. Research on attention-based multiscale information fusion with the real-time instance segmentation method
Tang et al. Learning enriched features for video denoising with convolutional neural network
CN117275069B (zh) 基于可学习向量与注意力机制的端到端头部姿态估计方法
CN113793627B (zh) 一种基于注意力的多尺度卷积语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant