CN113658134A - 一种多模态对齐校准的rgb-d图像显著目标检测方法 - Google Patents
一种多模态对齐校准的rgb-d图像显著目标检测方法 Download PDFInfo
- Publication number
- CN113658134A CN113658134A CN202110939965.7A CN202110939965A CN113658134A CN 113658134 A CN113658134 A CN 113658134A CN 202110939965 A CN202110939965 A CN 202110939965A CN 113658134 A CN113658134 A CN 113658134A
- Authority
- CN
- China
- Prior art keywords
- rgb
- features
- depth
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012937 correction Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims abstract description 4
- 230000004913 activation Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多模态对齐校准的RGB‑D图像显著目标检测方法,包括以下步骤:从RGB‑D图像中提取RGB特征和Depth特征;对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;从Depth特征中提取边特征,产生边图;联合解码RGB修正特征、Depth修正特征、边特征产生显著图;利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB‑D图像显著目标检测模型;利用所述RGB‑D图像显著目标检测模型检测任意一张RGB‑D图像,输出显著图为检测结果。所述方法通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及一种多模态对齐校准的RGB-D图像显著目标检测方法。
背景技术
RGB-D图像是由RGB颜色图像和Depth深度图像组成,这两种图像对应于同一场景的不同模态,颜色模态更强调外观信息,深度模态更强调几何信息。RGB-D图像显著目标检测的核心就是要有效融合这两种模态信息,减少二者之间的差异,最大化它们的共同点,为显著目标的解码阶段提供更好的特征。
发明内容
本发明所需要解决的技术问题是提供一种多模态对齐校准的RGB-D图像显著目标检测方法,对提取的RGB颜色特征和Depth深度特征,通过通道注意力和空间注意力进行对齐校准,促进不同模态之间的融合,以提高检测性能。
本发明具体采用的技术方案如下:
一种多模态对齐校准的RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
与已有技术相比,本发明有益效果体现在:
本发明提出一种多模态对齐校准的RGB-D图像显著目标检测方法,通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异,实现有效融合,提高检测精度。
附图说明
图1为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法的流程图;
图2为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法中边特征提取方法。
图3为本发明一种多模态对齐校准的RGB-D图像显著目标检测模型图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例一种多模态对齐校准的RGB-D图像显著目标检测方法,如图1所示,该方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数,对应于Swin Transformer的层数,i取值为1至4的自然数。
进一步地,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
所述表示第i层的RGB修正特征和Depth修正特征,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的通道注意力模块,“×”是指逐元素相乘操作。
进一步地,在步骤S3中,从Depth特征中提取边特征,产生边图,如图2所示,具体操作如下:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
进一步地,在步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型,如图3所示;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,训练集进行了随机翻转、旋转、边界裁剪等数据增强操作,所述监督采用交叉熵损失;模型训练选取Adam优化器,初始学习率为5e-5,批处理大小为3,模型训练200代后收敛,耗时约26小时。
进一步地,在步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
所述方法与17种RGB-D显著物体检测方法D3Net[1],ICNet[2],DCMF[3],DRLF[4],SSF[5],SSMA[6],A2dele[7],UCNet[8],CoNet[9],DANet[10],JLDCF[11],EBFSP[12],CDNet[13],HAINet[14],RD3D[15],DSA2F[16],VST[17]进行对比,结果见表1。
表1实验结果
[1]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.
[2]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.
[3]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.
[4]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.
[5]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.
[6]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.
[7]Piao,Yongri,et al."A2dele:Adaptive and attentive depth distillerfor efficient RGB-D salient object detection."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020.
[8]Zhang,Jing,et al."UC-Net:Uncertainty inspired RGB-D saliencydetection via conditional variational autoencoders."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020.
[9]Ji,Wei,et al."Accurate rgb-d salient object detection viacollaborative learning."arXiv preprint arXiv:2007.11782(2020).
[10]Zhao,Xiaoqi,et al."A single stream network for robust and real-time rgb-d salient object detection."European Conference on ComputerVision.Springer,Cham,2020.
[11]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.JL-DCF:Jointlearning and densely-cooperative fusion framework for rgb-d salient objectdetection.In Proceedings of the IEEE/CVF conference on computer vision andpattern recognition,pages 3052-3062,2020.
[12]Nianchang Huang,Yang Yang,Dingwen Zhang,Qiang Zhang,and JungongHan.Employing Bilinear Fusion and Saliency Prior Information for RGB-DSalient Object Detection.IEEE Transactions on Multimedia,2021.
[13]Wen-Da Jin,Jun Xu,Qi Han,Yi Zhang,and Ming-Ming Cheng.CDNet:Complementary Depth Network for RGB-D Salient Object Detection.IEEETransactions on Image Processing,30:3376-3390,2021.
[14]Gongyang Li,Zhi Liu,Minyu Chen,Zhen Bai,Weisi Lin,and HaibinLing.Hierarchical alternate interaction network for rgb-d salient objectdetection.IEEE Transactions on Image Processing,30:3528-3542,2021.
[15]Qian Chen,Ze Liu,Yi Zhang,Keren Fu,Qijun Zhao,and Hongwei Du.Rgb-d salient object detection via 3d convolutional neural.AAAI,2021.
[16]Peng Sun,Wenhu Zhang,Huanyu Wang,Songyuan Li,and Xi Li.Deep rgb-dsaliency detection with depth-sensitive attention and automatic multi-modalfusion.arXiv preprint arXiv:2103.11832,2021.
[17]N.Liu,N.Zhang,K.Wan,J.Han,and L.Shao,“Visual SaliencyTransformer,”arXiv preprint arXiv:2104.12099,2021.
如表1所示可知,本发明方法在S-measure、自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.本发明一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,所述方法包括以下步骤:
S1、从RGB-D图像中提取RGB特征和Depth特征;
S2、对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征;
S3、从Depth特征中提取边特征,产生边图;
S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图;
S5、利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;
S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果。
3.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S2中,对RGB特征和Depth特征进行对齐校准,产生RGB修正特征和Depth修正特征,具体操作如下:
S2.1:将RGB特征和Depth特征进行逐元素相乘,再经过一个空间注意力操作,形成空间注意力权重,分别与RGB特征和Depth特征逐元素相乘,实现RGB特征和Depth特征的对齐,产生RGB对齐特征和Depth对齐特征,具体描述为:
所述表示第i层的RGB对齐特征和Depth对齐特征,SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的空间注意力模块,“×”是指逐元素相乘操作;
S2.2:将所述RGB对齐特征和Depth对齐特征进行通道注意力操作,形成通道注意力权重,分别与RGB特征和Depth特征逐元素相乘,形成RGB修正特征和Depth修正特征,具体描述为:
4.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S3中,从Depth特征中提取边特征,产生边图,具体操作如下:
所述Fe表示Depth级联特征,Concat(·)表示级联操作,Conv1(·)表示1×1卷积,Up2表示两倍上采样操作,Up4表示四倍上采样操作;
S3.2:对Depth级联特征Fe进行3×3卷积、批归一化、ReLU激活操作后,经过一个通道注意力产生通道注意力权重,通过与Depth级联特征Fe逐像素相乘实现加权处理,再通过与Depth级联特征Fe逐元素相加,形成边特征F′e,具体描述为:
F′e=Fe×CA(BConv(Fe))+Fe
所述F′e表示边特征,BConv(·)表示3×3卷积、批归一化和ReLU激活,CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
S3.3:将边特征F′e进行3×3的卷积、四倍上采样、Sigmoid激活,形成边图Se,具体描述如下:
Se=Sig(Up4(Conv3(F′e)))
所述Se表示边图,Conv3(·)表示3×3卷积,Up4表示四倍上采样操作,Sig(·)表示Sigmoid激活函数。
5.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S4中,联合解码RGB修正特征、Depth修正特征、边特征产生显著图,具体操作如下:
S4.1:将所述RGB修正特征和Depth修正特征进行同层融合,形成融合特征Fi,具体操作如下:将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘,然后使用级联的方式产生融合特征Fi,具体描述为:
所述Fi表示融合特征,Concat(·)表示特征级联操作,“+”表示逐元素相加操作,“×”表示逐元素相乘操作;
S4.2:将融合特征Fi进行跨层融合,形成显著特征FFi,具体操作如下:第四层显著特征FF4即为第四层融合特征F4,其余各层显著特征Fi(i=1,2,3)与高一层融合特征FFi+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FFi,形成具体描述为:
所述FFi表示显著特征,Conv3(·)表示3×3卷积,Up2(·)表示两倍上采样,“+”表示逐元素相加操作;
S4.3:将显著特征FFi与边特征F′e进行级联、3×3的卷积、四倍上采样、Sigmoid激活,形成显著图,具体描述如下:
S=Sig(Up4(Conv3(Concat(F′e,FF1))))
所述S表示显著图,Concat(·)表示特征级联操作,Conv3(·)表示3×3卷积,Up4(·)表示四倍上采样,Sig(·)表示Sigmoid激活函数。
6.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S5中,利用显著图真值、边图真值监督所述边图、显著图,通过训练集的训练,形成RGB-D图像显著目标检测模型;所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片,所述监督采用交叉熵损失。
7.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法,其特征在于,在所述步骤S6中,利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像,经过步骤S1-S4,输出显著图为检测结果;所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939965.7A CN113658134B (zh) | 2021-08-13 | 2021-08-13 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939965.7A CN113658134B (zh) | 2021-08-13 | 2021-08-13 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658134A true CN113658134A (zh) | 2021-11-16 |
CN113658134B CN113658134B (zh) | 2024-08-23 |
Family
ID=78479348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110939965.7A Active CN113658134B (zh) | 2021-08-13 | 2021-08-13 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658134B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160132209A (ko) * | 2015-05-07 | 2016-11-17 | (주)이더블유비엠 | 다중 컬러 센서를 기반하여, 고속 컨벌루션을 이용한 영상의 깊이 정보 추출 방법 및 장치 |
CN109615596A (zh) * | 2018-12-05 | 2019-04-12 | 青岛小鸟看看科技有限公司 | 一种深度图像的去噪方法、装置和电子设备 |
CN110599550A (zh) * | 2019-09-09 | 2019-12-20 | 香港光云科技有限公司 | Rgb-d模组的校准系统及其设备和方法 |
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111209810A (zh) * | 2018-12-26 | 2020-05-29 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN111325710A (zh) * | 2020-01-13 | 2020-06-23 | 镇江优瞳智能科技有限公司 | 一种基于双边注意力机制的rgb-d显著性物体检测方法 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111882485A (zh) * | 2020-06-19 | 2020-11-03 | 北京交通大学 | 分级特征反馈融合的深度图像超分辨率重建方法 |
CN113076957A (zh) * | 2021-04-21 | 2021-07-06 | 河南大学 | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 |
-
2021
- 2021-08-13 CN CN202110939965.7A patent/CN113658134B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160132209A (ko) * | 2015-05-07 | 2016-11-17 | (주)이더블유비엠 | 다중 컬러 센서를 기반하여, 고속 컨벌루션을 이용한 영상의 깊이 정보 추출 방법 및 장치 |
CN109615596A (zh) * | 2018-12-05 | 2019-04-12 | 青岛小鸟看看科技有限公司 | 一种深度图像的去噪方法、装置和电子设备 |
CN111209810A (zh) * | 2018-12-26 | 2020-05-29 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN110599550A (zh) * | 2019-09-09 | 2019-12-20 | 香港光云科技有限公司 | Rgb-d模组的校准系统及其设备和方法 |
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111325710A (zh) * | 2020-01-13 | 2020-06-23 | 镇江优瞳智能科技有限公司 | 一种基于双边注意力机制的rgb-d显著性物体检测方法 |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111882485A (zh) * | 2020-06-19 | 2020-11-03 | 北京交通大学 | 分级特征反馈融合的深度图像超分辨率重建方法 |
CN113076957A (zh) * | 2021-04-21 | 2021-07-06 | 河南大学 | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 |
Non-Patent Citations (5)
Title |
---|
刘剑;徐萌;赵悦;张锐;高恩阳;: "一种深度图像特征的建筑物内行人检测方法", 小型微型计算机系统, no. 04, 15 April 2018 (2018-04-15) * |
刘政怡等: "基于多模态特征融合监督的RGB-D图像显著性检测", 电子与信息学报, vol. 42, no. 4, 30 April 2020 (2020-04-30) * |
吴建国等: "融合显著深度特征的RGB-D图像显著目标检测", 电子与信息学报, vol. 39, no. 9, 30 September 2017 (2017-09-30) * |
周燕;: "基于边缘效应和注意力机制的显著性检测", 软件, no. 04, 15 April 2020 (2020-04-15) * |
田寨兴;彭宗举;陈芬;: "基于图像边缘特征的深度上采样算法", 光电子・激光, no. 12, 15 December 2014 (2014-12-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113658134B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Monocular depth estimation using laplacian pyramid-based depth residuals | |
Tian et al. | Designing and training of a dual CNN for image denoising | |
Hu et al. | Learning supervised scoring ensemble for emotion recognition in the wild | |
CN111582316B (zh) | 一种rgb-d显著性目标检测方法 | |
CN110060286B (zh) | 一种单目深度估计方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN110853039B (zh) | 一种多数据融合的草图图像分割方法、系统、装置及存储介质 | |
CN116912608A (zh) | 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法 | |
Zhou et al. | CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation | |
Bao et al. | Quality-aware Selective Fusion Network for VDT Salient Object Detection | |
Wang et al. | Cross-Modal Contrastive Learning Network for Few-Shot Action Recognition | |
CN113362307A (zh) | 一种rgb-d图像显著性检测方法 | |
CN113658134A (zh) | 一种多模态对齐校准的rgb-d图像显著目标检测方法 | |
CN113298154B (zh) | 一种rgb-d图像显著目标检测方法 | |
CN116862080A (zh) | 一种基于双视角对比学习的碳排放预测方法及系统 | |
Huang et al. | Frozen CLIP Transformer Is an Efficient Point Cloud Encoder | |
CN117036699A (zh) | 一种基于Transformer神经网络的点云分割方法 | |
CN115546512A (zh) | 基于可学习的权重描述子的光场图像显著目标检测方法 | |
CN113537326B (zh) | 一种rgb-d图像显著目标检测方法 | |
Liang et al. | Real-time stereo image depth estimation network with group-wise L1 distance for edge devices towards autonomous driving | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
Qin et al. | Joint deep learning for RGB-D action recognition | |
Yao et al. | Cooperative light-field image super-resolution based on multi-modality embedding and fusion with frequency attention | |
Xia et al. | Enhancing Semantically Masked Transformer With Local Attention for Semantic Segmentation | |
Dai et al. | DSAP: Dynamic Sparse Attention Perception Matcher for Accurate Local Feature Matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |