CN113658134B - 一种多模态对齐校准的rgb-d图像显著目标检测方法 - Google Patents
一种多模态对齐校准的rgb-d图像显著目标检测方法 Download PDFInfo
- Publication number
- CN113658134B CN113658134B CN202110939965.7A CN202110939965A CN113658134B CN 113658134 B CN113658134 B CN 113658134B CN 202110939965 A CN202110939965 A CN 202110939965A CN 113658134 B CN113658134 B CN 113658134B
- Authority
- CN
- China
- Prior art keywords
- features
- rgb
- depth
- feature
- salient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000012937 correction Methods 0.000 claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000004913 activation Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多模态对齐校准的RGB‑D图像显著目标检测方法,包括以下步骤:从RGB‑D图像中提取RGB特征和Depth特征;对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;从Depth特征中提取边特征,产生边图;联合解码RGB修正特征、Depth修正特征、边特征产生显著图;利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB‑D图像显著目标检测模型;利用所述RGB‑D图像显著目标检测模型检测任意一张RGB‑D图像,输出显著图为检测结果。所述方法通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及一种多模态对齐校准的RGB-D图像显著目标检测方法。
背景技术
RGB-D图像是由RGB颜色图像和Depth深度图像组成,这两种图像对应于同一场景的不同模态,颜色模态更强调外观信息,深度模态更强调几何信息。RGB-D图像显著目标检测的核心就是要有效融合这两种模态信息,减少二者之间的差异,最大化它们的共同点,为显著目标的解码阶段提供更好的特征。
发明内容
本发明所需要解决的技术问题是提供一种多模态对齐校准的RGB-D图像显著目标检测方法,对提取的RGB颜色特征和Depth深度特征,通过通道注意力和空间注意力进行对齐校准,促进不同模态之间的融合,以提高检测性能。
本发明具体采用的技术方案如下:
一种多模态对齐校准的RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
所述表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文
《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
S3.1:对Depth特征进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
与已有技术相比,本发明有益效果体现在:
本发明提出一种多模态对齐校准的RGB-D图像显著目标检测方法,通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。
附图说明
图1为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法的流程图;
图2为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法中边特征提取方法。
图3为本发明一种多模态对齐校准的RGB-D图像显著目标检测模型图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例一种多模态对齐校准的RGB-D图像显著目标检测方法,如图1所示,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
所述表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,如图2所示,具体操作如下:
S3.1:对Depth特征进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型,如图3所示;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,训练集进行了随机翻转、旋转、边界裁剪等数据增强操作,所述监督采用交叉熵损失;模型训练选取Adam优化器,初始学习率为5e-5,批处理大小为3,模型训练200代后收敛,耗时约26小时。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
所述方法与17种RGB-D显著物体检测方法D3Net[1],ICNet[2],DCMF[3],DRLF[4],SSF[5],SSMA[6],A2dele[7],UCNet[8],CoNet[9],DANet[10],JLDCF[11],EBFSP[12],CDNet[13],HAINet[14],RD3D[15],DSA2F[16],VST[17]进行对比,结果见表1。
表1实验结果
[1]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.
[2]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.
[3]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.
[4]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.
[5]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.
[6]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.
[7]Piao,Yongri,et al."A2dele:Adaptive and attentive depth distillerfor efficient RGB-D salient object detection."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020.
[8]Zhang,Jing,et al."UC-Net:Uncertainty inspired RGB-D saliencydetection via conditional variational autoencoders."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020.
[9]Ji,Wei,et al."Accurate rgb-d salient object detection viacollaborative learning."arXiv preprint arXiv:2007.11782(2020).
[10]Zhao,Xiaoqi,et al."A single stream network for robust and real-time rgb-d salient object detection."European Conference on ComputerVision.Springer,Cham,2020.
[11]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.JL-DCF:Jointlearning and densely-cooperative fusion framework for rgb-d salient objectdetection.In Proceedings of the IEEE/CVF conference on computer vision andpattern recognition,pages 3052-3062,2020.
[12]Nianchang Huang,Yang Yang,Dingwen Zhang,Qiang Zhang,and JungongHan.Employing Bilinear Fusion and Saliency Prior Information for RGB-DSalient Object Detection.IEEE Transactions on Multimedia,2021.
[13]Wen-Da Jin,Jun Xu,Qi Han,Yi Zhang,and Ming-Ming Cheng.CDNet:Complementary Depth Network for RGB-D Salient Object Detection.IEEETransactions on Image Processing,30:3376-3390,2021.
[14]Gongyang Li,Zhi Liu,Minyu Chen,Zhen Bai,Weisi Lin,and HaibinLing.Hierarchical alternate interaction network for rgb-d salient objectdetection.IEEE Transactions on Image Processing,30:3528-3542,2021.
[15]Qian Chen,Ze Liu,Yi Zhang,Keren Fu,Qijun Zhao,and Hongwei Du.Rgb-d salient object detection via 3d convolutional neural.AAAI,2021.
[16]Peng Sun,Wenhu Zhang,Huanyu Wang,Songyuan Li,and Xi Li.Deep rgb-dsaliency detection with depth-sensitive attention and automatic multi-modalfusion.arXiv preprint arXiv:2103.11832,2021.
[17]N.Liu,N.Zhang,K.Wan,J.Han,and L.Shao,“Visual SaliencyTransformer,”arXiv preprint arXiv:2104.12099,2021.
如表1所示可知,本发明方法在S-measure、自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,所述方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;
在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
表示第i层的RGB对齐特征和Depth对齐特征;
“×”是指逐元素相乘操作;
SA(·)操作是指空间注意力操作,定义为:
Satt(f)=Conv(Rmax(f))⊙f,
其中,Rmax(·)表示对于特征图上沿着通道轴上的每个点的全局最大池化操作,f表示输入的特征图;⊙表示元素级别上的相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
表示第i层的RGB修正特征和Depth修正特征;
“×”是指逐元素相乘操作;
CA(·)操作是指通道注意力操作,定义为:
Pmax(·)表示对于每个特征图的全局最大池化操作,f表示输入的特征图,M(·)是一个两层感知机,表示有维度扩展的相乘操作;
在所述步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
S3.1:对Depth特征进行1×1卷积操作,使用上采样操作调整空间分辨率大小后,进行级联,形成Depth级联特征Fe,具体描述为:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F'e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F'e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指是指通道注意力操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F'e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
2.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
3.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F'e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(FUp4(Conv3(Concat(F′e,F1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
4.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
5.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939965.7A CN113658134B (zh) | 2021-08-13 | 2021-08-13 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939965.7A CN113658134B (zh) | 2021-08-13 | 2021-08-13 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658134A CN113658134A (zh) | 2021-11-16 |
CN113658134B true CN113658134B (zh) | 2024-08-23 |
Family
ID=78479348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110939965.7A Active CN113658134B (zh) | 2021-08-13 | 2021-08-13 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658134B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101681197B1 (ko) * | 2015-05-07 | 2016-12-02 | (주)이더블유비엠 | 다중 컬러 센서를 기반하여, 고속 컨벌루션을 이용한 영상의 깊이 정보 추출 방법 및 장치 |
CN109615596B (zh) * | 2018-12-05 | 2020-10-30 | 青岛小鸟看看科技有限公司 | 一种深度图像的去噪方法、装置和电子设备 |
CN111209810B (zh) * | 2018-12-26 | 2023-05-26 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN110599550A (zh) * | 2019-09-09 | 2019-12-20 | 香港光云科技有限公司 | Rgb-d模组的校准系统及其设备和方法 |
CN111325710A (zh) * | 2020-01-13 | 2020-06-23 | 镇江优瞳智能科技有限公司 | 一种基于双边注意力机制的rgb-d显著性物体检测方法 |
CN111882485B (zh) * | 2020-06-19 | 2023-08-18 | 北京交通大学 | 分级特征反馈融合的深度图像超分辨率重建方法 |
CN113076957A (zh) * | 2021-04-21 | 2021-07-06 | 河南大学 | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 |
-
2021
- 2021-08-13 CN CN202110939965.7A patent/CN113658134B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113658134A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330681B (zh) | 一种基于注意力机制的轻量级网络实时语义分割方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN116912608A (zh) | 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法 | |
CN113076947A (zh) | 一种交叉引导融合的rgb-t图像显著性检测系统 | |
CN111414988B (zh) | 基于多尺度特征自适应融合网络的遥感影像超分辨率方法 | |
CN115641285A (zh) | 一种基于密集多尺度信息融合的双目视觉立体匹配方法 | |
CN113610732A (zh) | 基于交互对抗学习的全聚焦图像生成方法 | |
CN113627487B (zh) | 一种基于深层注意力机制的超分辨率重建方法 | |
Zhou et al. | CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation | |
CN113658134B (zh) | 一种多模态对齐校准的rgb-d图像显著目标检测方法 | |
CN113538402A (zh) | 一种基于密度估计的人群计数方法及系统 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN117036699A (zh) | 一种基于Transformer神经网络的点云分割方法 | |
Bao et al. | Quality-aware Selective Fusion Network for VDT Salient Object Detection | |
CN113537326B (zh) | 一种rgb-d图像显著目标检测方法 | |
CN113298154B (zh) | 一种rgb-d图像显著目标检测方法 | |
CN115546512A (zh) | 基于可学习的权重描述子的光场图像显著目标检测方法 | |
Liang et al. | Real-time stereo image depth estimation network with group-wise L1 distance for edge devices towards autonomous driving | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
CN112308772A (zh) | 基于深度学习局部与非局部信息的超分辨率重建方法 | |
He et al. | Research on attention-based multiscale information fusion with the real-time instance segmentation method | |
Tang et al. | Learning enriched features for video denoising with convolutional neural network | |
CN117275069B (zh) | 基于可学习向量与注意力机制的端到端头部姿态估计方法 | |
CN113793627B (zh) | 一种基于注意力的多尺度卷积语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |