CN113658134B

CN113658134B - 一种多模态对齐校准的rgb-d图像显著目标检测方法

Info

Publication number: CN113658134B
Application number: CN202110939965.7A
Authority: CN
Inventors: 刘政怡; 檀亚诚; 朱斌; 张子森; 姚晟; 李炜
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2024-08-23
Anticipated expiration: 2041-08-13
Also published as: CN113658134A

Abstract

本发明公开了一种多模态对齐校准的RGB‑D图像显著目标检测方法，包括以下步骤：从RGB‑D图像中提取RGB特征和Depth特征；对RGB特征和Depth特征进行对齐校准，产生RGB修正特征和Depth修正特征；从Depth特征中提取边特征，产生边图；联合解码RGB修正特征、Depth修正特征、边特征产生显著图；利用显著图真值、边图真值监督所述边图、显著图，通过训练集的训练，形成RGB‑D图像显著目标检测模型；利用所述RGB‑D图像显著目标检测模型检测任意一张RGB‑D图像，输出显著图为检测结果。所述方法通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异，实现有效融合，提高检测精度。

Description

一种多模态对齐校准的RGB-D图像显著目标检测方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种多模态对齐校准的RGB-D图像显著目标检测方法。

背景技术

RGB-D图像是由RGB颜色图像和Depth深度图像组成，这两种图像对应于同一场景的不同模态，颜色模态更强调外观信息，深度模态更强调几何信息。RGB-D图像显著目标检测的核心就是要有效融合这两种模态信息，减少二者之间的差异，最大化它们的共同点，为显著目标的解码阶段提供更好的特征。

发明内容

本发明所需要解决的技术问题是提供一种多模态对齐校准的RGB-D图像显著目标检测方法，对提取的RGB颜色特征和Depth深度特征，通过通道注意力和空间注意力进行对齐校准，促进不同模态之间的融合，以提高检测性能。

本发明具体采用的技术方案如下：

一种多模态对齐校准的RGB-D图像显著目标检测方法，该方法包括以下步骤：

S1、从RGB-D图像中提取RGB特征和Depth特征；

S2、对RGB特征和Depth特征进行对齐校准，产生RGB修正特征和Depth修正特征；

S3、从Depth特征中提取边特征，产生边图；

S4、联合解码RGB修正特征、Depth修正特征、边特征产生显著图；

S5、利用显著图真值、边图真值监督所述边图、显著图，通过训练集的训练，形成RGB-D图像显著目标检测模型；

S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像，经过步骤S1-S4，输出显著图为检测结果。

进一步地，在所述步骤S1中，提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数，对应于Swin Transformer的层数，i取值为1至4的自然数。

进一步地，在所述步骤S2中，对RGB特征和Depth特征进行对齐校准，产生RGB修正特征和Depth修正特征，具体操作如下：

S2.1：将RGB特征和Depth特征进行逐元素相乘，再经过一个空间注意力操作，形成空间注意力权重，分别与RGB特征和Depth特征逐元素相乘，实现RGB特征和Depth特征的对齐，产生RGB对齐特征和Depth对齐特征，具体描述为：

所述表示第i层的RGB对齐特征和Depth对齐特征，SA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的空间注意力模块，“×”是指逐元素相乘操作；

S2.2：将所述RGB对齐特征和Depth对齐特征进行通道注意力操作，形成通道注意力权重，分别与RGB特征和Depth特征逐元素相乘，形成RGB修正特征和Depth修正特征，具体描述为：

所述表示第i层的RGB修正特征和Depth修正特征，CA(·)操作是指论文

《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块，“×”是指逐元素相乘操作。

进一步地，在步骤S3中，从Depth特征中提取边特征，产生边图，具体操作如下：

S3.1：对Depth特征进行1×1卷积操作，使用上采样操作调整空间分辨率大小后，进行级联，形成Depth级联特征F_e，具体描述为：

所述F_e表示Depth级联特征，Concat(·)表示级联操作，Conv₁(·)表示1×1卷积，Up₂表示两倍上采样操作，Up₄表示四倍上采样操作；

S3.2：对Depth级联特征F_e进行3×3卷积、批归一化、ReLU激活操作后，经过一个通道注意力产生通道注意力权重，通过与Depth级联特征F_e逐像素相乘实现加权处理，再通过与Depth级联特征F_e逐元素相加，形成边特征F′_e，具体描述为：

F′_e＝F_e×CA(BConv(F_e))+F_e

所述F′_e表示边特征，BConv(·)表示3×3卷积、批归一化和ReLU激活，CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbonestrategy network》中所提出的通道注意力模块，“×”是指逐元素相乘操作，“+”是指逐元素相加操作；

S3.3：将边特征F′_e进行3×3的卷积、四倍上采样、Sigmoid激活，形成边图S_e，具体描述如下：

S_e＝Sig(Up₄(Conv₃(F′_e)))

所述S_e表示边图，Conv₃(·)表示3×3卷积，Up₄表示四倍上采样操作，Sig(·)表示Sigmoid激活函数。

进一步地，在步骤S4中，联合解码RGB修正特征、Depth修正特征、边特征产生显著图，具体操作如下：

S4.1：将所述RGB修正特征和Depth修正特征进行同层融合，形成融合特征F_i，具体操作如下：将所述RGB修正特征和Depth修正特征分别进行逐元素相加、逐元素相乘，然后使用级联的方式产生融合特征F_i，具体描述为：

所述F_i表示融合特征，Concat(·)表示特征级联操作，“+”表示逐元素相加操作，“×”表示逐元素相乘操作；

S4.2：将融合特征F_i进行跨层融合，形成显著特征FF_i，具体操作如下：第四层显著特征FF₄即为第四层融合特征F₄，其余各层显著特征F_i(i＝1,2,3)与高一层融合特征FF_i+1经过两倍上采样、卷积后的特征逐元素相加后形成显著特征FF_i，形成具体描述为：

所述FF_i表示显著特征，Conv₃(·)表示3×3卷积，Up₂(·)表示两倍上采样，“+”表示逐元素相加操作；

S4.3：将显著特征FF_i与边特征F′_e进行级联、3×3的卷积、四倍上采样、Sigmoid激活，形成显著图，具体描述如下：

S＝Sig(Up₄(Conv₃(Concat(F′_e,FF₁))))

所述S表示显著图，Concat(·)表示特征级联操作，Conv₃(·)表示3×3卷积，Up₄(·)表示四倍上采样，Sig(·)表示Sigmoid激活函数。

进一步地，在步骤S5中，利用显著图真值、边图真值监督所述边图、显著图，通过训练集的训练，形成RGB-D图像显著目标检测模型；所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片，所述监督采用交叉熵损失。

进一步地，在步骤S6中，利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像，经过步骤S1-S4，输出显著图为检测结果；所述测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。

与已有技术相比，本发明有益效果体现在：

本发明提出一种多模态对齐校准的RGB-D图像显著目标检测方法，通过对颜色特征和深度特征进行对齐校准减少两种模态之间的差异，实现有效融合，提高检测精度。

附图说明

图1为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法的流程图；

图2为本发明一种多模态对齐校准的RGB-D图像显著目标检测方法中边特征提取方法。

图3为本发明一种多模态对齐校准的RGB-D图像显著目标检测模型图。

以下通过具体实施方式，并结合附图对本发明做进一步说明，但本发明的实施方式不限于此。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例一种多模态对齐校准的RGB-D图像显著目标检测方法，如图1所示，该方法包括以下步骤：

S1、从RGB-D图像中提取RGB特征和Depth特征；

S3、从Depth特征中提取边特征，产生边图；

所述表示第i层的RGB修正特征和Depth修正特征，CA(·)操作是指论文《BBS-Net:RGB-D salient object detection with a bifurcated backbone strategynetwork》中所提出的通道注意力模块，“×”是指逐元素相乘操作。

进一步地，在步骤S3中，从Depth特征中提取边特征，产生边图，如图2所示，具体操作如下：

F′_e＝F_e×CA(BConv(F_e))+F_e

S_e＝Sig(Up₄(Conv₃(F′_e)))

S＝Sig(Up₄(Conv₃(Concat(F′_e,FF₁))))

进一步地，在步骤S5中，利用显著图真值、边图真值监督所述边图、显著图，通过训练集的训练，形成RGB-D图像显著目标检测模型，如图3所示；所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片，训练集进行了随机翻转、旋转、边界裁剪等数据增强操作，所述监督采用交叉熵损失；模型训练选取Adam优化器，初始学习率为5e-5，批处理大小为3，模型训练200代后收敛，耗时约26小时。

所述方法与17种RGB-D显著物体检测方法D3Net[1],ICNet[2],DCMF[3],DRLF[4],SSF[5],SSMA[6],A2dele[7],UCNet[8],CoNet[9],DANet[10],JLDCF[11],EBFSP[12],CDNet[13],HAINet[14],RD3D[15],DSA2F[16],VST[17]进行对比，结果见表1。

表1实验结果

[1]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.

[2]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.

[3]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.

[4]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.

[5]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.

[6]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.

[7]Piao,Yongri,et al."A2dele:Adaptive and attentive depth distillerfor efficient RGB-D salient object detection."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020.

[8]Zhang,Jing,et al."UC-Net:Uncertainty inspired RGB-D saliencydetection via conditional variational autoencoders."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020.

[9]Ji,Wei,et al."Accurate rgb-d salient object detection viacollaborative learning."arXiv preprint arXiv:2007.11782(2020).

[10]Zhao,Xiaoqi,et al."A single stream network for robust and real-time rgb-d salient object detection."European Conference on ComputerVision.Springer,Cham,2020.

[11]Keren Fu,Deng-Ping Fan,Ge-Peng Ji,and Qijun Zhao.JL-DCF:Jointlearning and densely-cooperative fusion framework for rgb-d salient objectdetection.In Proceedings of the IEEE/CVF conference on computer vision andpattern recognition,pages 3052-3062,2020.

[12]Nianchang Huang,Yang Yang,Dingwen Zhang,Qiang Zhang,and JungongHan.Employing Bilinear Fusion and Saliency Prior Information for RGB-DSalient Object Detection.IEEE Transactions on Multimedia,2021.

[13]Wen-Da Jin,Jun Xu,Qi Han,Yi Zhang,and Ming-Ming Cheng.CDNet:Complementary Depth Network for RGB-D Salient Object Detection.IEEETransactions on Image Processing,30:3376-3390,2021.

[14]Gongyang Li,Zhi Liu,Minyu Chen,Zhen Bai,Weisi Lin,and HaibinLing.Hierarchical alternate interaction network for rgb-d salient objectdetection.IEEE Transactions on Image Processing,30:3528-3542,2021.

[15]Qian Chen,Ze Liu,Yi Zhang,Keren Fu,Qijun Zhao,and Hongwei Du.Rgb-d salient object detection via 3d convolutional neural.AAAI,2021.

[16]Peng Sun,Wenhu Zhang,Huanyu Wang,Songyuan Li,and Xi Li.Deep rgb-dsaliency detection with depth-sensitive attention and automatic multi-modalfusion.arXiv preprint arXiv:2103.11832,2021.

[17]N.Liu,N.Zhang,K.Wan,J.Han,and L.Shao,“Visual SaliencyTransformer,”arXiv preprint arXiv:2104.12099,2021.

如表1所示可知，本发明方法在S-measure、自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态对齐校准的RGB-D图像显著目标检测方法，其特征在于，所述方法包括以下步骤：

S1、从RGB-D图像中提取RGB特征和Depth特征；

S3、从Depth特征中提取边特征，产生边图；

S6、利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像，经过步骤S1-S4，输出显著图为检测结果；

在所述步骤S2中，对RGB特征和Depth特征进行对齐校准，产生RGB修正特征和Depth修正特征，具体操作如下：

表示第i层的RGB对齐特征和Depth对齐特征；

“×”是指逐元素相乘操作；

SA(·)操作是指空间注意力操作，定义为：

S_att(f)＝Conv(R_max(f))⊙f，

其中，R_max(·)表示对于特征图上沿着通道轴上的每个点的全局最大池化操作，f表示输入的特征图；⊙表示元素级别上的相乘操作；

表示第i层的RGB修正特征和Depth修正特征；

“×”是指逐元素相乘操作；

CA(·)操作是指通道注意力操作，定义为：

P_max(·)表示对于每个特征图的全局最大池化操作，f表示输入的特征图，M(·)是一个两层感知机，表示有维度扩展的相乘操作；

在所述步骤S3中，从Depth特征中提取边特征，产生边图，具体操作如下：

S3.2：对Depth级联特征F_e进行3×3卷积、批归一化、ReLU激活操作后，经过一个通道注意力产生通道注意力权重，通过与Depth级联特征F_e逐像素相乘实现加权处理，再通过与Depth级联特征F_e逐元素相加，形成边特征F'_e，具体描述为：

F′_e＝F_e×CA(BConv(F_e))+F_e

所述F'_e表示边特征，BConv(·)表示3×3卷积、批归一化和ReLU激活，CA(·)操作是指是指通道注意力操作，“×”是指逐元素相乘操作，“+”是指逐元素相加操作；

S3.3：将边特征F'_e进行3×3的卷积、四倍上采样、Sigmoid激活，形成边图S_e，具体描述如下：

S_e＝Sig(Up₄(Conv₃(F′_e)))

2.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法，其特征在于，在所述步骤S1中，提取RGB特征和Depth特征的方法是分别使用两个在ImageNet上预训练的Swin Transformer神经网络模型提取RGB特征及Depth特征其中i表示层数，对应于Swin Transformer的层数，i取值为1至4的自然数。

3.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法，其特征在于，在所述步骤S4中，联合解码RGB修正特征、Depth修正特征、边特征产生显著图，具体操作如下：

S4.3：将显著特征FF_i与边特征F'_e进行级联、3×3的卷积、四倍上采样、Sigmoid激活，形成显著图，具体描述如下：

S＝Sig(FUp₄(Conv₃(Concat(F′_e,F₁))))

4.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法，其特征在于，在所述步骤S5中，利用显著图真值、边图真值监督所述边图、显著图，通过训练集的训练，形成RGB-D图像显著目标检测模型；所述训练集采用NJU2K数据集上的1485张图片和NLPR数据集上的700张图片，所述监督采用交叉熵损失。

5.根据权利要求1所述的一种多模态对齐校准的RGB-D图像显著目标检测方法，其特征在于，在所述步骤S6中，利用所述RGB-D图像显著目标检测模型检测任意一张RGB-D图像，经过步骤S1-S4，输出显著图为检测结果；测试集采用NJU2K数据集和NLPR数据集上除训练集之外的其他图片、STERE、DES和SIP数据集。