CN110246148A

CN110246148A - 多模态的深度信息融合和注意力学习的显著性检测方法

Info

Publication number: CN110246148A
Application number: CN201910444621.1A
Authority: CN
Inventors: 周武杰; 吴君委; 雷景生; 何成; 钱亚冠; 王海江; 张伟
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-17
Anticipated expiration: 2039-05-27
Also published as: CN110246148B

Abstract

本发明公开了一种多模态的深度信息融合和注意力学习的显著性检测方法，其在训练阶段构建卷积神经网络，隐层包括RGB图神经网络块、RGB图最大池化层、RGB图上采样神经网络块、RGB图融合层、深度图神经网络块、深度图最大池化层、深度图上采样神经网络块、深度图融合层、RGB图深度图融合层、注意力机制模型；将训练集中的彩色真实物体图像和深度图像输入到卷积神经网络中进行训练，得到两幅显著性检测预测图和一幅显著性边界预测图；通过计算得到的三幅预测图各自对应的损失函数值，得到卷积神经网络训练模型；在测试阶段利用卷积神经网络训练模型对待显著性检测的图像进行预测，得到预测显著性检测图像；优点是显著性检测准确率高。

Description

多模态的深度信息融合和注意力学习的显著性检测方法

技术领域

本发明涉及一种视觉显著性检测技术，尤其是涉及一种多模态的深度信息融合和注意力学习的显著性检测方法。

背景技术

随着信息技术的不断发展，海量图像和视频的时代已经到来，其信息量之大给计算机视觉处理带来了新的挑战。对于纷繁复杂的环境，人类可以迅速在其中搜索到感兴趣的区域，基于人类视觉注意机制的显著性物体检测研究一直是计算机视觉处理领域的热点。显著性物体检测算法的核心是合理构建视觉注意模型，以更好地模拟视觉注意机制。在传统的做法中，研究人员通过使用自底向上的计算模型，基于人工设计的低级特征来预测显著性，大多数方法还利用一些先验信息，如颜色对比度、边界背景和中心先验等。但是传统的显著性检测算法，并没有将视觉注意机制完全纳入显著性检测方法中，使用图像特征信息不充分，导致显著性检测算法的适用性有时会受到限制，在图像背景复杂时，检测效果并不理想。

近年来，卷积神经网络已广泛运用于计算机视觉的各个领域，许多困难的视觉问题都获得了重大的进展。不同于传统做法，深度卷积神经网络能够从大量的训练样本中建模并自动的端到端(end-to-end)地学习到更为本质的特性，从而有效地避免了传统人工建模和设计特征的弊端。最近，3D传感器的有效应用更加丰富了数据库，人们不但可以获得彩色图片，而且可以获取彩色图片的深度信息。深度信息在现实3D场景中是人眼视觉系统中很重要的一环，这是在之前的传统做法中所完全忽略掉的一条重要的信息，因此现在最重要的任务就是如何建立模型从而有效地利用好深度信息。

在RGB-D数据库中采用深度学习的显著性检测方法，直接进行像素级别端到端的显著性检测，只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。目前，基于RGB-D数据库的深度学习显著性检测主要用的结构为编码-译码架构，在如何利用深度信息的方法上有三种：第一种方法就是直接将深度信息与彩色图信息叠加为一个四维的输入信息或在编码过程中将彩色图信息和深度信息进行相加或者叠加，这类方法称为前融合；第二种方法则是将在编码过程中对应的彩色图信息和深度信息利用跳层(skip connection)的方式相加或者叠加到对应的译码过程中，这类称为后融合；第三种方法则是分类利用彩色图信息和深度信息进行显著性预测，将最后的结果融合。上述第一种方法，由于彩色图信息和深度信息的分布有较大差异，因此直接在编码过程中加入深度信息会在一定程度上添加了噪声。上述第三种方法，分别利用深度信息和彩色图信息进行显著性预测，但是如果深度信息和彩色图信息的预测结果都不准确时，那么最终的融合结果也是相对不够精确的。上述第二种方法不仅避免了在编码阶段直接利用深度信息带来的噪声，而且在网络模型的不断优化中能够充分学习到彩色图信息和深度信息的互补关系。相比于之前的后融合的方案，如Multi-modal fusion network with multi-scalemulti-path and cross-modal interactions for RGB-D salient object detecion(基于多尺度多路径多模态交互融合的RGB-D显著物体检测)，以下简称为MMCI，MMCI分别对彩色图信息和深度信息进行特征提取和下采样操作，并在不同的尺度进行融合，在此融合的基础上输出一个尺寸很小的显著性预测图。MMCI由于只有下采样操作，因此使得物体的空间细节信息在不断的下采样的操作中变得模糊，而且将不同模态的信息通过直接相加的方法进行融合，由于数据信息分布的不同，因此会对最后的结果造成一定的影响。

发明内容

本发明所要解决的技术问题是提供一种多模态的深度信息融合和注意力学习的显著性检测方法，其检测效率高，且检测准确度高。

本发明解决上述技术问题所采用的技术方案为：一种多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像，并构成训练集，将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{I^q(i,j)}、{D^q(i,j)}、然后利用3×3的卷积对训练集中的每幅真实显著性检测标签图像进行边界提取，得到训练集中的每幅真实显著性检测标签图像的显著性边界图，将的显著性边界图记为其中，Q为正整数，Q≥200，q为正整数，q的初始值为1，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}、{D^q(i,j)}、的宽度，H表示{I^q(i,j)}、{D^q(i,j)}、的高度，W和H均能够被2整除，{I^q(i,j)}为RGB彩色图像，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，{D^q(i,j)}为单通道的深度图像，D^q(i,j)表示{D^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：该卷积神经网络包含输入层、隐层、输出层，输入层包括RGB图输入层和深度图输入层，隐层包括5个RGB图神经网络块、4个RGB图最大池化层、5个RGB图上采样神经网络块、4个RGB图融合层、5个深度图神经网络块、4个深度图最大池化层、5个深度图上采样神经网络块、4个深度图融合层、1个RGB图深度图融合层、1个注意力机制模型，输出层包括RGB图输出层、深度图输出层、融合输出层；

对于RGB图输入层，其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量，其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求训练用RGB彩色图像的宽度为W且高度为H；

对于深度图输入层，其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像，其输出端输出训练用深度图像给隐层；其中，训练用深度图像的宽度为W且高度为H；

对于第1个RGB图神经网络块，其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CP₁；

对于第1个RGB图最大池化层，其输入端接收CP₁中的所有特征图，其输出端输出64幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₁；

对于第2个RGB图神经网络块，其输入端接收CZ₁中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₂；

对于第2个RGB图最大池化层，其输入端接收CP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₂；

对于第3个RGB图神经网络块，其输入端接收CZ₂中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₃；

对于第3个RGB图最大池化层，其输入端接收CP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₃；

对于第4个RGB图神经网络块，其输入端接收CZ₃中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₄；

对于第4个RGB图最大池化层，其输入端接收CP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₄；

对于第5个RGB图神经网络块，其输入端接收CZ₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₅；

对于第1个RGB图上采样神经网络块，其输入端接收CP₅中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CYP₁；

对于第1个RGB图融合层，其输入端接收CYP₁中的所有特征图和CP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CR₁；

对于第2个RGB图上采样神经网络块，其输入端接收CR₁中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CYP₂；

对于第2个RGB图融合层，其输入端接收CYP₂中的所有特征图和CP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CR₂；

对于第3个RGB图上采样神经网络块，其输入端接收CR₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CYP₃；

对于第3个RGB图融合层，其输入端接收CYP₃中的所有特征图和CP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CR₃；

对于第4个RGB图上采样神经网络块，其输入端接收CR₃中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CYP₄；

对于第4个RGB图融合层，其输入端接收CYP₄中的所有特征图和CP₁中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CR₄；

对于第5个RGB图上采样神经网络块，其输入端接收CR₄中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CYP₅；

对于第1个深度图神经网络块，其输入端接收深度图输入层的输出端输出的训练用深度图像，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DP₁；

对于第1个深度图最大池化层，其输入端接收DP₁中的所有特征图，其输出端输出64幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₁；

对于第2个深度图神经网络块，其输入端接收DZ₁中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₂；

对于第2个深度图最大池化层，其输入端接收DP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₂；

对于第3个深度图神经网络块，其输入端接收DZ₂中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₃；

对于第3个深度图最大池化层，其输入端接收DP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₃；

对于第4个深度图神经网络块，其输入端接收DZ₃中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₄；

对于第4个深度图最大池化层，其输入端接收DP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₄；

对于第5个深度图神经网络块，其输入端接收DZ₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₅；

对于第1个深度图上采样神经网络块，其输入端接收DP₅中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DYP₁；

对于第1个深度图融合层，其输入端接收DYP₁中的所有特征图和DP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DR₁；

对于第2个深度图上采样神经网络块，其输入端接收DR₁中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DYP₂；

对于第2个深度图融合层，其输入端接收DYP₂中的所有特征图和DP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DR₂；

对于第3个深度图上采样神经网络块，其输入端接收DR₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DYP₃；

对于第3个深度图融合层，其输入端接收DYP₃中的所有特征图和DP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DR₃；

对于第4个深度图上采样神经网络块，其输入端接收DR₃中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DYP₄；

对于第4个深度图融合层，其输入端接收DYP₄中的所有特征图和DP₁中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DR₄；

对于第5个深度图上采样神经网络块，其输入端接收DR₄中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DYP₅；

对于RGB图深度图融合层，其输入端接收CYP₅中的所有特征图和DYP₅中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CDR；

对于注意力机制模型，其输入端接收CDR中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为ZM；

对于RGB图输出层，其输入端接收CYP₅中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，该特征图作为第一显著性检测预测图；

对于深度图输出层，其输入端接收DYP₅中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，该特征图作为显著性边界预测图；

对于融合输出层，其输入端接收ZM中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，该特征图作为第二显著性检测预测图；

步骤1_3：将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像，将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的彩色真实物体图像对应的第一显著性检测预测图、第二显著性检测预测图、显著性边界预测图，将{I^q(i,j)}对应的第一显著性检测预测图记为将{I^q(i,j)}对应的第二显著性检测预测图记为将{I^q(i,j)}对应的显著性边界预测图记为其中，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像与对应的第一显著性检测预测图之间的损失函数值，将与之间的损失函数值记为并计算训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像与对应的第二显著性检测预测图之间的损失函数值，将与之间的损失函数值记为计算训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像的显著性边界图与对应的显著性边界预测图之间的损失函数值，将与之间的损失函数值记为然后将训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像所对应的三个损失函数值相加，得到训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像的最终损失函数值；其中，和均采用分类交叉熵获得，采用Dice loss获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到Q×V个最终损失函数值；然后从Q×V个最终损失函数值中找出值最小的最终损失函数值；接着将值最小的最终损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待显著性检测的彩色真实物体图像，将对应的深度图像记为其中，1≤i'≤W'，1≤j'≤H'，W'表示和的宽度，H'表示和的高度，表示中坐标位置为(i',j')的像素点的像素值，表示中坐标位置为(i',j')的像素点的像素值；

步骤2_2：将的R通道分量、G通道分量和B通道分量以及输入到卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到对应的第一显著性检测预测图、第二显著性检测预测图、显著性边界预测图，将对应的第二显著性检测预测图作为预测显著性检测图像，记为其中，表示中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_1中，的获取过程为：

步骤1_1a：将中当前待处理的像素点定义为当前像素点；

步骤1_1b：利用权重均为1的3×3的卷积对当前像素点进行卷积操作，得到卷积结果；

步骤1_1c：若卷积结果为0或9，则将当前像素点确定为非边界像素点；若卷积结果为1至8中的任一个数值，则将当前像素点确定为边界像素点；

步骤1_1d：将中下一个待处理的像素点作为当前像素点，然后返回步骤1_1b继续执行，直至中的所有像素点处理完毕；

步骤1_1e：令表示的显著性边界图，将中坐标位置为(i,j)的像素点的像素值记为若中坐标位置为(i,j)的像素点为非边界像素点，则令若中坐标位置为(i,j)的像素点为边界像素点，则令其中，和中的“＝”为赋值符号。

所述的步骤1_2中，第1个RGB图神经网络块和第1个深度图神经网络块的结构相同，其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第二激活层的输出端为其所在的神经网络块的输出端；其中，第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1，第一激活层和第二激活层的激活方式均为“Relu”，第一批标准化层、第二批标准化层、第一激活层、第二激活层各自的输出端输出64幅特征图；

第2个RGB图神经网络块和第2个深度图神经网络块的结构相同，其由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层组成，第三卷积层的输入端为其所在的神经网络块的输入端，第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图，第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图，第四卷积层的输入端接收第三激活层的输出端输出的所有特征图，第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图，第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图，第四激活层的输出端为其所在的神经网络块的输出端；其中，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1，第三激活层和第四激活层的激活方式均为“Relu”，第三批标准化层、第四批标准化层、第三激活层、第四激活层各自的输出端输出128幅特征图；

第3个RGB图神经网络块和第3个深度图神经网络块的结构相同，其由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层组成，第五卷积层的输入端为其所在的神经网络块的输入端，第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图，第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图，第六卷积层的输入端接收第五激活层的输出端输出的所有特征图，第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图，第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图，第七卷积层的输入端接收第六激活层的输出端输出的所有特征图，第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图，第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图，第七激活层的输出端为其所在的神经网络块的输出端；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1，第五激活层、第六激活层和第七激活层的激活方式均为“Relu”，第五批标准化层、第六批标准化层、第七批标准化层、第五激活层、第六激活层、第七激活层各自的输出端输出256幅特征图；

第4个RGB图神经网络块和第4个深度图神经网络块的结构相同，其由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层组成，第八卷积层的输入端为其所在的神经网络块的输入端，第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图，第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图，第九卷积层的输入端接收第八激活层的输出端输出的所有特征图，第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图，第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图，第十卷积层的输入端接收第九激活层的输出端输出的所有特征图，第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图，第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图，第十激活层的输出端为其所在的神经网络块的输出端；其中，第八卷积层、第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1，第八激活层、第九激活层和第十激活层的激活方式均为“Relu”，第八批标准化层、第九批标准化层、第十批标准化层、第八激活层、第九激活层、第十激活层各自的输出端输出512幅特征图；

第5个RGB图神经网络块和第5个深度图神经网络块的结构相同，其由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层组成，第十一卷积层的输入端为其所在的神经网络块的输入端，第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图，第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图，第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图，第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图，第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图，第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图，第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图，第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图，第十三激活层的输出端为其所在的神经网络块的输出端；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1，第十一激活层、第十二激活层和第十三激活层的激活方式均为“Relu”，第十一批标准化层、第十二批标准化层、第十三批标准化层、第十一激活层、第十二激活层、第十三激活层各自的输出端输出512幅特征图。

所述的步骤1_2中，4个RGB图最大池化层和4个深度图最大池化层均为最大池化层，第1个至第3个RGB图最大池化层、第1个至第3个深度图最大池化层的池化尺寸均为2、步长均为2，第4个RGB图最大池化层和第4个深度图最大池化层的池化尺寸均为1、步长均为1。

所述的步骤1_2中，第1个RGB图上采样神经网络块和第1个深度图上采样神经网络块的结构相同，其由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层组成，第十四卷积层的输入端为其所在的神经网络块的输入端，第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图，第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图，第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图，第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图，第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图，第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图，第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图，第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图，第十六激活层的输出端为其所在的神经网络块的输出端；其中，第十四卷积层、第十五卷积层和第十六卷积层均为带孔卷积层，第十四卷积层、第十五卷积层和第十六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2、扩张参数均为2，第十四激活层、第十五激活层和第十六激活层的激活方式均为“Relu”，第十四批标准化层、第十五批标准化层、第十六批标准化层、第十四激活层、第十五激活层、第十六激活层各自的输出端输出512幅特征图；

第2个RGB图上采样神经网络块和第2个深度图上采样神经网络块的结构相同，其由依次设置的第十七卷积层、第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九批标准化层、第十九激活层、第一上采样层组成，第十七卷积层的输入端为其所在的神经网络块的输入端，第十七批标准化层的输入端接收第十七卷积层的输出端输出的所有特征图，第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图，第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图，第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图，第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图，第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图，第十九批标准化层的输入端接收第十九卷积层的输出端输出的所有特征图，第十九激活层的输入端接收第十九批标准化层的输出端输出的所有特征图，第一上采样层的输入端接收第十九激活层的输出端输出的所有特征图，第一上采样层的输出端为其所在的神经网络块的输出端；其中，第十七卷积层、第十八卷积层和第十九卷积层均为带孔卷积层，第十七卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为4、扩张参数为4，第十八卷积层和第十九卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为4、扩张参数均为4，第十七激活层、第十八激活层和第十九激活层的激活方式均为“Relu”，第十七批标准化层和第十七激活层各自的输出端输出512幅特征图，第十八批标准化层、第十九批标准化层、第十八激活层、第十九激活层各自的输出端输出256幅特征图，第一上采样层的放大系数为2，第一上采样层采用的方法为双线性差值；

第3个RGB图上采样神经网络块和第3个深度图上采样神经网络块的结构相同，其由依次设置的第二十卷积层、第二十批标准化层、第二十激活层、第二十一卷积层、第二十一批标准化层、第二十一激活层、第二十二卷积层、第二十二批标准化层、第二十二激活层、第二上采样层组成，第二十卷积层的输入端为其所在的神经网络块的输入端，第二十批标准化层的输入端接收第二十卷积层的输出端输出的所有特征图，第二十激活层的输入端接收第二十批标准化层的输出端输出的所有特征图，第二十一卷积层的输入端接收第二十激活层的输出端输出的所有特征图，第二十一批标准化层的输入端接收第二十一卷积层的输出端输出的所有特征图，第二十一激活层的输入端接收第二十一批标准化层的输出端输出的所有特征图，第二十二卷积层的输入端接收第二十一激活层的输出端输出的所有特征图，第二十二批标准化层的输入端接收第二十二卷积层的输出端输出的所有特征图，第二十二激活层的输入端接收第二十二批标准化层的输出端输出的所有特征图，第二上采样层的输入端接收第二十二激活层的输出端输出的所有特征图，第二上采样层的输出端为其所在的神经网络块的输出端；其中，第二十卷积层、第二十一卷积层和第二十二卷积层均为带孔卷积层，第二十卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为6、扩张参数为6，第二十一卷积层和第二十二卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6、扩张参数均为6，第二十激活层、第二十一激活层和第二十二激活层的激活方式均为“Relu”，第二十批标准化层和第二十激活层各自的输出端输出256幅特征图，第二十一批标准化层、第二十二批标准化层、第二十一激活层、第二十二激活层各自的输出端输出128幅特征图，第二上采样层的放大系数为2，第二上采样层采用的方法为双线性差值；

第4个RGB图上采样神经网络块和第4个深度图上采样神经网络块的结构相同，其由依次设置的第二十三卷积层、第二十三批标准化层、第二十三激活层、第二十四卷积层、第二十四批标准化层、第二十四激活层、第三上采样层组成，第二十三卷积层的输入端为其所在的神经网络块的输入端，第二十三批标准化层的输入端接收第二十三卷积层的输出端输出的所有特征图，第二十三激活层的输入端接收第二十三批标准化层的输出端输出的所有特征图，第二十四卷积层的输入端接收第二十三激活层的输出端输出的所有特征图，第二十四批标准化层的输入端接收第二十四卷积层的输出端输出的所有特征图，第二十四激活层的输入端接收第二十四批标准化层的输出端输出的所有特征图，第三上采样层的输入端接收第二十四激活层的输出端输出的所有特征图，第三上采样层的输出端为其所在的神经网络块的输出端；其中，第二十三卷积层、第二十四卷积层均为带孔卷积层，第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为8、扩张参数为8，第二十四卷积层的卷积核大小为3×3、卷积核个数为64、补零参数均为8、扩张参数均为8，第二十三激活层、第二十四激活层的激活方式均为“Relu”，第二十三批标准化层和第二十三激活层各自的输出端输出128幅特征图，第二十四批标准化层和第二十四激活层各自的输出端输出64幅特征图，第三上采样层的放大系数为2，第三上采样层采用的方法为双线性差值；

第5个RGB图上采样神经网络块和第5个深度图上采样神经网络块的结构相同，其由依次设置的第二十五卷积层、第二十五批标准化层、第二十五激活层、第二十六卷积层、第二十六批标准化层、第二十六激活层组成，第二十五卷积层的输入端为其所在的神经网络块的输入端，第二十五批标准化层的输入端接收第二十五卷积层的输出端输出的所有特征图，第二十五激活层的输入端接收第二十五批标准化层的输出端输出的所有特征图，第二十六卷积层的输入端接收第二十五激活层的输出端输出的所有特征图，第二十六批标准化层的输入端接收第二十六卷积层的输出端输出的所有特征图，第二十六激活层的输入端接收第二十六批标准化层的输出端输出的所有特征图，第二十六激活层的输出端为其所在的神经网络块的输出端；其中，第二十五卷积层和第二十六卷积层均为带孔卷积层，第二十五卷积层和第二十六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10、扩张参数均为10，第二十五激活层和第二十六激活层的激活方式均为“Relu”，第二十五批标准化层、第二十六批标准化层、第二十五激活层、第二十六激活层各自的输出端输出64幅特征图。

所述的步骤1_2中，4个RGB图融合层、4个深度图融合层、RGB图深度图融合层均为SUM融合层。

所述的步骤1_2中，注意力机制模型由6个残差块、卷积网络块、1个SUM融合层、1个MUL融合层构成，第1个残差块的输入端为注意力机制模型的输入端，第2个残差块的输入端接收第1个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第3个残差块的输入端接收第2个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第4个残差块的输入端接收第1个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第5个残差块的输入端接收第4个残差块的输出端输出的64幅宽度为W且高度为H的特征图，卷积网络块的输入端接收第5个残差块的输出端输出的64幅宽度为W且高度为H的特征图，MUL融合层的输入端接收第3个残差块的输出端输出的64幅宽度为W且高度为H的特征图和卷积网络块的输出端输出的64幅宽度为W且高度为H的特征图，SUM融合层的输入端接收第3个残差块的输出端输出的64幅宽度为W且高度为H的特征图和MUL融合层的输出端输出的64幅宽度为W且高度为H的特征图，第6个残差块的输入端接收SUM融合层的输出端输出的64幅宽度为W且高度为H的特征图，第6个残差块的输出端为注意力机制模型的输出端。

所述的残差块由第二十七卷积层、第二十八卷积层、第二十九卷积层、第三十卷积层、第一SUM融合层、第二SUM融合层、第三SUM融合层构成，第二十七卷积层的输入端为残差块的输入端，第二十八卷积层的输入端接收第二十七卷积层的输出端输出的所有特征图，第一SUM融合层的输入端接收第二十八卷积层的输出端输出的所有特征图和第二十七卷积层的输出端输出的所有特征图，第二十九卷积层的输入端接收第一SUM融合层的输出端输出的所有特征图，第二SUM融合层的输入端接收第二十九卷积层的输出端输出的所有特征图和第一SUM融合层的输出端输出的所有特征图，第三十卷积层的输入端接收第二SUM融合层的输出端输出的所有特征图，第三SUM融合层的输入端接收第三十卷积层的输出端输出的所有特征图和输入到第二十七卷积层的输入端的所有特征图，第三SUM融合层的输出端为残差块的输出端；其中，第二十七卷积层的卷积核大小为1×1、卷积核个数为64、补零参数为0，第二十八卷积层的卷积核大小为1×3、卷积核个数为64、补零参数对应为0和1，第二十九卷积层的卷积核大小为3×1、卷积核个数为64、补零参数对应为1和0，第三十卷积层的卷积核大小为1×1、卷积核个数为64、补零参数为0，第二十七卷积层、第二十八卷积层、第一SUM融合层、第二十九卷积层、第二SUM融合层各自的输出端输出的所有特征图的宽度均为W且高度为H，第三十卷积层和第三SUM融合层各自的输出端输出的所有特征图的宽度均为W且高度为H。

所述的卷积网络块由依次设置的第三十一批标准化层、第三十一激活层、第三十一卷积层、第三十二批标准化层、第三十二激活层、第三十二卷积层、第三十三激活层组成，第三十一批标准化层的输入端为卷积网络块的输入端，第三十一激活层的输入端接收第三十一批标准化层的输出端输出的宽度为W且高度为H的所有特征图，第三十一卷积层的输入端接收第三十一激活层的输出端输出的宽度为W且高度为H的所有特征图，第三十二批标准化层的输入端接收第三十一卷积层的输出端输出的宽度为W且高度为H的所有特征图，第三十二激活层的输入端接收第三十二批标准化层的输出端输出的宽度为W且高度为H的所有特征图，第三十二卷积层的输入端接收第三十二激活层的输出端输出的宽度为W且高度为H的所有特征图，第三十三激活层的输入端接收第三十二卷积层的输出端输出的宽度为W且高度为H的所有特征图，第三十三激活层的输出端为卷积网络块的输出端；其中，第三十一卷积层和第三十二卷积层的卷积核大小均为1×1、卷积核个数均为64，第三十一激活层和第三十二激活层的激活方式均为“Relu”，第三十三激活层的激活方式为“Sigmoid”。

所述的步骤1_2中，RGB图输出层由第三十四卷积层组成，深度图输出层由第三十五卷积层组成，融合输出层由第三十六卷积层组成；其中，第三十四卷积层、第三十五卷积层和第三十六卷积层的卷积核大小均为1×1、卷积核个数均为1、补零参数均为0。

与现有技术相比，本发明的优点在于：

1)本发明方法构建的卷积神经网络，实现了端到端的显著性物体检测，易于训练，方便检测；使用训练集中的彩色图像和深度图像输入到卷积神经网络中进行训练，得到卷积神经网络训练模型；再将待显著性检测的彩色真实物体图像和对应的深度图像输入到卷积神经网络训练模型中，预测得到彩色真实物体图像的预测显著性检测图像，由于本发明方法在构建卷积神经网络时结合了带孔卷积层和双线性差值层(即上采样层)来构建第2个至第4个RGB图上采样神经网络块和第2个至第4个深度图上采样神经网络块，使得物体空间信息在上采样的操作过程中一步一步地得到优化，使用带孔卷积层能够获得更大的感受野，同时能够提升最后的检测效果。

2)本发明方法在利用深度信息的时候创新性地将深度信息用来检测显著物体的边界，并在不同模态即彩色图像和深度图像的融合过程中增加了注意力学习机制即注意力机制模型，通过学习不同输入的权重参数进而优化融合的结果，这种融合方式避免了直接对不同模态的信息相加而造成的信息互相干扰，同时采用注意力机制模型能够进行更加有效地融合，进而在训练集与测试集上都能得到较好的检测效果。

3)本发明方法采用了多种监督方式，对彩色图像进行显著物体监督，对深度图像进行显著物体边界监督，从而使得卷积神经网络能够从显著性物体和显著性物体边界这两个方面不断优化卷积神经网络模型的参数，从而使得物体的边界更加清晰，提高了检测准确性，并提高了检测效率。

附图说明

图1为本发明方法构建的卷积神经网络的组成结构示意图；

图2a为本发明方法构建的卷积神经网络中的注意力机制模型的组成结构示意图；

图2b为本发明方法构建的卷积神经网络中的注意力机制模型中的残差块的组成结构示意图；

图3a为利用本发明方法对真实物体图像数据库NJU2000测试集中的每幅彩色真实物体图像进行预测，反映本发明方法的显著性检测效果的类准确率召回率曲线；

图3b为利用本发明方法对真实物体图像数据库NJU2000测试集中的每幅彩色真实物体图像进行预测，反映本发明方法的显著性检测效果的平均绝对误差；

图3c为利用本发明方法对真实物体图像数据库NJU2000测试集中的每幅彩色真实物体图像进行预测，反映本发明方法的显著性检测效果的F度量值；

图4a为同一场景的第1幅原始的彩色真实物体图像；

图4b为图4a对应的深度图像；

图4c为利用本发明方法对图4a进行预测得到的预测显著性检测图像；

图5a为同一场景的第2幅原始的彩色真实物体图像；

图5b为图5a对应的深度图像；

图5c为利用本发明方法对图5a进行预测得到的预测显著性检测图像；

图6a为同一场景的第3幅原始的彩色真实物体图像；

图6b为图6a对应的深度图像；

图6c为利用本发明方法对图6a进行预测得到的预测显著性检测图像；

图7a为同一场景的第4幅原始的彩色真实物体图像；

图7b为图7a对应的深度图像；

图7c为利用本发明方法对图7a进行预测得到的预测显著性检测图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种多模态的深度信息融合和注意力学习的显著性检测方法，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像，并构成训练集，将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{I^q(i,j)}、{D^q(i,j)}、然后利用3×3的卷积对训练集中的每幅真实显著性检测标签图像进行边界提取，得到训练集中的每幅真实显著性检测标签图像的显著性边界图，将的显著性边界图记为其中，Q为正整数，Q≥200，如取Q＝367，q为正整数，q的初始值为1，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}、{D^q(i,j)}、的宽度，H表示{I^q(i,j)}、{D^q(i,j)}、的高度，W和H均能够被2整除，如取W＝224、H＝224，{I^q(i,j)}为RGB彩色图像，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，{D^q(i,j)}为单通道的深度图像，D^q(i,j)表示{D^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；在此，原始的彩色真实物体图像直接选用数据库NJU2000训练集中的1500幅图像。

步骤1_2：构建卷积神经网络：如图1所示，该卷积神经网络包含输入层、隐层、输出层，输入层包括RGB图输入层和深度图输入层，隐层包括5个RGB图神经网络块、4个RGB图最大池化层(Maxpooling，Pool)、5个RGB图上采样神经网络块、4个RGB图融合层、5个深度图神经网络块、4个深度图最大池化层、5个深度图上采样神经网络块、4个深度图融合层、1个RGB图深度图融合层、1个注意力机制模型，输出层包括RGB图输出层、深度图输出层、融合输出层。

对于RGB图输入层，其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量，其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求训练用RGB彩色图像的宽度为W且高度为H；在实际设计时RGB图输入层可设计为由1个卷积层构成。

对于深度图输入层，其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像，其输出端输出训练用深度图像给隐层；其中，训练用深度图像的宽度为W且高度为H；在实际设计时深度图输入层可设计为由1个卷积层构成。

对于第1个RGB图神经网络块，其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CP₁。

对于第1个RGB图最大池化层，其输入端接收CP₁中的所有特征图，其输出端输出64幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₁。

对于第2个RGB图神经网络块，其输入端接收CZ₁中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₂。

对于第2个RGB图最大池化层，其输入端接收CP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₂。

对于第3个RGB图神经网络块，其输入端接收CZ₂中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₃。

对于第3个RGB图最大池化层，其输入端接收CP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₃。

对于第4个RGB图神经网络块，其输入端接收CZ₃中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₄。

对于第4个RGB图最大池化层，其输入端接收CP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CZ₄。

对于第5个RGB图神经网络块，其输入端接收CZ₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CP₅。

对于第1个RGB图上采样神经网络块，其输入端接收CP₅中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CYP₁。

对于第1个RGB图融合层，其输入端接收CYP₁中的所有特征图和CP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CR₁。

对于第2个RGB图上采样神经网络块，其输入端接收CR₁中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CYP₂。

对于第2个RGB图融合层，其输入端接收CYP₂中的所有特征图和CP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CR₂。

对于第3个RGB图上采样神经网络块，其输入端接收CR₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CYP₃。

对于第3个RGB图融合层，其输入端接收CYP₃中的所有特征图和CP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为CR₃。

对于第4个RGB图上采样神经网络块，其输入端接收CR₃中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CYP₄。

对于第4个RGB图融合层，其输入端接收CYP₄中的所有特征图和CP₁中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CR₄。

对于第5个RGB图上采样神经网络块，其输入端接收CR₄中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CYP₅。

对于第1个深度图神经网络块，其输入端接收深度图输入层的输出端输出的训练用深度图像，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DP₁。

对于第1个深度图最大池化层，其输入端接收DP₁中的所有特征图，其输出端输出64幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₁。

对于第2个深度图神经网络块，其输入端接收DZ₁中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₂。

对于第2个深度图最大池化层，其输入端接收DP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₂。

对于第3个深度图神经网络块，其输入端接收DZ₂中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₃。

对于第3个深度图最大池化层，其输入端接收DP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₃。

对于第4个深度图神经网络块，其输入端接收DZ₃中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₄。

对于第4个深度图最大池化层，其输入端接收DP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DZ₄。

对于第5个深度图神经网络块，其输入端接收DZ₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DP₅。

对于第1个深度图上采样神经网络块，其输入端接收DP₅中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DYP₁。

对于第1个深度图融合层，其输入端接收DYP₁中的所有特征图和DP₄中的所有特征图，其输出端输出512幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DR₁。

对于第2个深度图上采样神经网络块，其输入端接收DR₁中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DYP₂。

对于第2个深度图融合层，其输入端接收DYP₂中的所有特征图和DP₃中的所有特征图，其输出端输出256幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DR₂。

对于第3个深度图上采样神经网络块，其输入端接收DR₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DYP₃。

对于第3个深度图融合层，其输入端接收DYP₃中的所有特征图和DP₂中的所有特征图，其输出端输出128幅宽度为且高度为的特征图，将输出的所有特征图构成的集合记为DR₃。

对于第4个深度图上采样神经网络块，其输入端接收DR₃中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DYP₄。

对于第4个深度图融合层，其输入端接收DYP₄中的所有特征图和DP₁中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DR₄。

对于第5个深度图上采样神经网络块，其输入端接收DR₄中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为DYP₅。

对于RGB图深度图融合层，其输入端接收CYP₅中的所有特征图和DYP₅中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为CDR。

对于注意力机制模型，其输入端接收CDR中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为ZM。

对于RGB图输出层，其输入端接收CYP₅中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，该特征图作为第一显著性检测预测图。

对于深度图输出层，其输入端接收DYP₅中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，该特征图作为显著性边界预测图。

对于融合输出层，其输入端接收ZM中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，该特征图作为第二显著性检测预测图。

步骤1_3：将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像，将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的彩色真实物体图像对应的第一显著性检测预测图、第二显著性检测预测图、显著性边界预测图，将{I^q(i,j)}对应的第一显著性检测预测图记为将{I^q(i,j)}对应的第二显著性检测预测图记为将{I^q(i,j)}对应的显著性边界预测图记为其中，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值。

步骤1_4：计算训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像与对应的第一显著性检测预测图之间的损失函数值，将与之间的损失函数值记为并计算训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像与对应的第二显著性检测预测图之间的损失函数值，将与之间的损失函数值记为计算训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像的显著性边界图与对应的显著性边界预测图之间的损失函数值，将与之间的损失函数值记为然后将训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像所对应的三个损失函数值相加，得到训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像的最终损失函数值；其中，和均采用分类交叉熵(categorical crossentropy)获得，采用Dice loss获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到Q×V个最终损失函数值；然后从Q×V个最终损失函数值中找出值最小的最终损失函数值；接着将值最小的最终损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝300。

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待显著性检测的彩色真实物体图像，将对应的深度图像记为其中，1≤i'≤W'，1≤j'≤H'，W'表示和的宽度，H'表示和的高度，表示中坐标位置为(i',j')的像素点的像素值，表示中坐标位置为(i',j')的像素点的像素值。

在此具体实施例中，步骤1_1中，的获取过程为：

步骤1_1a：将中当前待处理的像素点定义为当前像素点。

步骤1_1b：利用权重均为1的3×3的卷积对当前像素点进行卷积操作，得到卷积结果。

步骤1_1c：若卷积结果为0或9，则将当前像素点确定为非边界像素点；若卷积结果为1至8中的任一个数值，则将当前像素点确定为边界像素点。

步骤1_1d：将中下一个待处理的像素点作为当前像素点，然后返回步骤1_1b继续执行，直至中的所有像素点处理完毕。

在此具体实施例中，步骤1_2中，第1个RGB图神经网络块和第1个深度图神经网络块的结构相同，其由依次设置的第一卷积层(Convolution，Conv)、第一批标准化层(BatchNormalize，BN)、第一激活层(Activation，Act)、第二卷积层、第二批标准化层、第二激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第二激活层的输出端为其所在的神经网络块的输出端；其中，第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、补零参数(padding)均为1，第一激活层和第二激活层的激活方式均为“Relu”，第一批标准化层、第二批标准化层、第一激活层、第二激活层各自的输出端输出64幅特征图。

在此具体实施例中，第2个RGB图神经网络块和第2个深度图神经网络块的结构相同，其由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层组成，第三卷积层的输入端为其所在的神经网络块的输入端，第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图，第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图，第四卷积层的输入端接收第三激活层的输出端输出的所有特征图，第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图，第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图，第四激活层的输出端为其所在的神经网络块的输出端；其中，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1，第三激活层和第四激活层的激活方式均为“Relu”，第三批标准化层、第四批标准化层、第三激活层、第四激活层各自的输出端输出128幅特征图。

在此具体实施例中，第3个RGB图神经网络块和第3个深度图神经网络块的结构相同，其由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层组成，第五卷积层的输入端为其所在的神经网络块的输入端，第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图，第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图，第六卷积层的输入端接收第五激活层的输出端输出的所有特征图，第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图，第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图，第七卷积层的输入端接收第六激活层的输出端输出的所有特征图，第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图，第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图，第七激活层的输出端为其所在的神经网络块的输出端；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1，第五激活层、第六激活层和第七激活层的激活方式均为“Relu”，第五批标准化层、第六批标准化层、第七批标准化层、第五激活层、第六激活层、第七激活层各自的输出端输出256幅特征图。

在此具体实施例中，第4个RGB图神经网络块和第4个深度图神经网络块的结构相同，其由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层组成，第八卷积层的输入端为其所在的神经网络块的输入端，第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图，第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图，第九卷积层的输入端接收第八激活层的输出端输出的所有特征图，第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图，第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图，第十卷积层的输入端接收第九激活层的输出端输出的所有特征图，第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图，第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图，第十激活层的输出端为其所在的神经网络块的输出端；其中，第八卷积层、第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1，第八激活层、第九激活层和第十激活层的激活方式均为“Relu”，第八批标准化层、第九批标准化层、第十批标准化层、第八激活层、第九激活层、第十激活层各自的输出端输出512幅特征图。

在此具体实施例中，第5个RGB图神经网络块和第5个深度图神经网络块的结构相同，其由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层组成，第十一卷积层的输入端为其所在的神经网络块的输入端，第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图，第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图，第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图，第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图，第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图，第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图，第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图，第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图，第十三激活层的输出端为其所在的神经网络块的输出端；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1，第十一激活层、第十二激活层和第十三激活层的激活方式均为“Relu”，第十一批标准化层、第十二批标准化层、第十三批标准化层、第十一激活层、第十二激活层、第十三激活层各自的输出端输出512幅特征图。

在此具体实施例中，步骤1_2中，4个RGB图最大池化层和4个深度图最大池化层均为最大池化层，第1个至第3个RGB图最大池化层、第1个至第3个深度图最大池化层的池化尺寸(pool_size)均为2、步长(stride)均为2，第4个RGB图最大池化层和第4个深度图最大池化层的池化尺寸均为1、步长均为1。

在此具体实施例中，步骤1_2中，第1个RGB图上采样神经网络块和第1个深度图上采样神经网络块的结构相同，其由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层组成，第十四卷积层的输入端为其所在的神经网络块的输入端，第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图，第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图，第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图，第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图，第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图，第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图，第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图，第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图，第十六激活层的输出端为其所在的神经网络块的输出端；其中，第十四卷积层、第十五卷积层和第十六卷积层均为带孔卷积层，第十四卷积层、第十五卷积层和第十六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2、扩张参数均为2，第十四激活层、第十五激活层和第十六激活层的激活方式均为“Relu”，第十四批标准化层、第十五批标准化层、第十六批标准化层、第十四激活层、第十五激活层、第十六激活层各自的输出端输出512幅特征图。

在此具体实施例中，第2个RGB图上采样神经网络块和第2个深度图上采样神经网络块的结构相同，其由依次设置的第十七卷积层、第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九批标准化层、第十九激活层、第一上采样层组成，第十七卷积层的输入端为其所在的神经网络块的输入端，第十七批标准化层的输入端接收第十七卷积层的输出端输出的所有特征图，第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图，第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图，第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图，第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图，第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图，第十九批标准化层的输入端接收第十九卷积层的输出端输出的所有特征图，第十九激活层的输入端接收第十九批标准化层的输出端输出的所有特征图，第一上采样层的输入端接收第十九激活层的输出端输出的所有特征图，第一上采样层的输出端为其所在的神经网络块的输出端；其中，第十七卷积层、第十八卷积层和第十九卷积层均为带孔卷积层，第十七卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为4、扩张参数为4，第十八卷积层和第十九卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为4、扩张参数均为4，第十七激活层、第十八激活层和第十九激活层的激活方式均为“Relu”，第十七批标准化层和第十七激活层各自的输出端输出512幅特征图，第十八批标准化层、第十九批标准化层、第十八激活层、第十九激活层各自的输出端输出256幅特征图，第一上采样层的放大系数为2，第一上采样层采用的方法为双线性差值。

在此具体实施例中，第3个RGB图上采样神经网络块和第3个深度图上采样神经网络块的结构相同，其由依次设置的第二十卷积层、第二十批标准化层、第二十激活层、第二十一卷积层、第二十一批标准化层、第二十一激活层、第二十二卷积层、第二十二批标准化层、第二十二激活层、第二上采样层组成，第二十卷积层的输入端为其所在的神经网络块的输入端，第二十批标准化层的输入端接收第二十卷积层的输出端输出的所有特征图，第二十激活层的输入端接收第二十批标准化层的输出端输出的所有特征图，第二十一卷积层的输入端接收第二十激活层的输出端输出的所有特征图，第二十一批标准化层的输入端接收第二十一卷积层的输出端输出的所有特征图，第二十一激活层的输入端接收第二十一批标准化层的输出端输出的所有特征图，第二十二卷积层的输入端接收第二十一激活层的输出端输出的所有特征图，第二十二批标准化层的输入端接收第二十二卷积层的输出端输出的所有特征图，第二十二激活层的输入端接收第二十二批标准化层的输出端输出的所有特征图，第二上采样层的输入端接收第二十二激活层的输出端输出的所有特征图，第二上采样层的输出端为其所在的神经网络块的输出端；其中，第二十卷积层、第二十一卷积层和第二十二卷积层均为带孔卷积层，第二十卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为6、扩张参数为6，第二十一卷积层和第二十二卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6、扩张参数均为6，第二十激活层、第二十一激活层和第二十二激活层的激活方式均为“Relu”，第二十批标准化层和第二十激活层各自的输出端输出256幅特征图，第二十一批标准化层、第二十二批标准化层、第二十一激活层、第二十二激活层各自的输出端输出128幅特征图，第二上采样层的放大系数为2，第二上采样层采用的方法为双线性差值。

在此具体实施例中，第4个RGB图上采样神经网络块和第4个深度图上采样神经网络块的结构相同，其由依次设置的第二十三卷积层、第二十三批标准化层、第二十三激活层、第二十四卷积层、第二十四批标准化层、第二十四激活层、第三上采样层组成，第二十三卷积层的输入端为其所在的神经网络块的输入端，第二十三批标准化层的输入端接收第二十三卷积层的输出端输出的所有特征图，第二十三激活层的输入端接收第二十三批标准化层的输出端输出的所有特征图，第二十四卷积层的输入端接收第二十三激活层的输出端输出的所有特征图，第二十四批标准化层的输入端接收第二十四卷积层的输出端输出的所有特征图，第二十四激活层的输入端接收第二十四批标准化层的输出端输出的所有特征图，第三上采样层的输入端接收第二十四激活层的输出端输出的所有特征图，第三上采样层的输出端为其所在的神经网络块的输出端；其中，第二十三卷积层、第二十四卷积层均为带孔卷积层，第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为8、扩张参数为8，第二十四卷积层的卷积核大小为3×3、卷积核个数为64、补零参数均为8、扩张参数均为8，第二十三激活层、第二十四激活层的激活方式均为“Relu”，第二十三批标准化层和第二十三激活层各自的输出端输出128幅特征图，第二十四批标准化层和第二十四激活层各自的输出端输出64幅特征图，第三上采样层的放大系数为2，第三上采样层采用的方法为双线性差值。

在此具体实施例中，第5个RGB图上采样神经网络块和第5个深度图上采样神经网络块的结构相同，其由依次设置的第二十五卷积层、第二十五批标准化层、第二十五激活层、第二十六卷积层、第二十六批标准化层、第二十六激活层组成，第二十五卷积层的输入端为其所在的神经网络块的输入端，第二十五批标准化层的输入端接收第二十五卷积层的输出端输出的所有特征图，第二十五激活层的输入端接收第二十五批标准化层的输出端输出的所有特征图，第二十六卷积层的输入端接收第二十五激活层的输出端输出的所有特征图，第二十六批标准化层的输入端接收第二十六卷积层的输出端输出的所有特征图，第二十六激活层的输入端接收第二十六批标准化层的输出端输出的所有特征图，第二十六激活层的输出端为其所在的神经网络块的输出端；其中，第二十五卷积层和第二十六卷积层均为带孔卷积层，第二十五卷积层和第二十六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10、扩张参数均为10，第二十五激活层和第二十六激活层的激活方式均为“Relu”，第二十五批标准化层、第二十六批标准化层、第二十五激活层、第二十六激活层各自的输出端输出64幅特征图。

在此具体实施例中，步骤1_2中，4个RGB图融合层、4个深度图融合层、RGB图深度图融合层均为SUM融合层。

在此具体实施例中，步骤1_2中，如图2a所示，注意力机制模型由6个残差块、卷积网络块、1个SUM融合层、1个MUL融合层构成，第1个残差块的输入端为注意力机制模型的输入端，第2个残差块的输入端接收第1个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第3个残差块的输入端接收第2个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第4个残差块的输入端接收第1个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第5个残差块的输入端接收第4个残差块的输出端输出的64幅宽度为W且高度为H的特征图，卷积网络块的输入端接收第5个残差块的输出端输出的64幅宽度为W且高度为H的特征图，MUL融合层的输入端接收第3个残差块的输出端输出的64幅宽度为W且高度为H的特征图和卷积网络块的输出端输出的64幅宽度为W且高度为H的特征图，MUL融合层对第3个残差块的输出端输出的特征图和卷积网络块的输出端输出的特征图中对应位置的元素相乘，SUM融合层的输入端接收第3个残差块的输出端输出的64幅宽度为W且高度为H的特征图和MUL融合层的输出端输出的64幅宽度为W且高度为H的特征图，SUM融合层对第3个残差块的输出端输出的特征图和MUL融合层的输出端输出的特征图中对应位置的元素相加，第6个残差块的输入端接收SUM融合层的输出端输出的64幅宽度为W且高度为H的特征图，第6个残差块的输出端为注意力机制模型的输出端。

在此具体实施例中，残差块由第二十七卷积层、第二十八卷积层、第二十九卷积层、第三十卷积层、第一SUM融合层、第二SUM融合层、第三SUM融合层构成，第二十七卷积层的输入端为残差块的输入端，第二十八卷积层的输入端接收第二十七卷积层的输出端输出的所有特征图，第一SUM融合层的输入端接收第二十八卷积层的输出端输出的所有特征图和第二十七卷积层的输出端输出的所有特征图，第二十九卷积层的输入端接收第一SUM融合层的输出端输出的所有特征图，第二SUM融合层的输入端接收第二十九卷积层的输出端输出的所有特征图和第一SUM融合层的输出端输出的所有特征图，第三十卷积层的输入端接收第二SUM融合层的输出端输出的所有特征图，第三SUM融合层的输入端接收第三十卷积层的输出端输出的所有特征图和输入到第二十七卷积层的输入端的所有特征图，第三SUM融合层的输出端为残差块的输出端；其中，第二十七卷积层的卷积核大小为1×1、卷积核个数为64、补零参数为0，第二十八卷积层的卷积核大小为1×3、卷积核个数为64、补零参数对应为0和1，第二十九卷积层的卷积核大小为3×1、卷积核个数为64、补零参数对应为1和0，第三十卷积层的卷积核大小为1×1、卷积核个数为64、补零参数为0，第二十七卷积层、第二十八卷积层、第一SUM融合层、第二十九卷积层、第二SUM融合层各自的输出端输出的所有特征图的宽度均为W且高度为H，第三十卷积层和第三SUM融合层各自的输出端输出的所有特征图的宽度均为W且高度为H。

在此具体实施例中，卷积网络块由依次设置的第三十一批标准化层、第三十一激活层、第三十一卷积层、第三十二批标准化层、第三十二激活层、第三十二卷积层、第三十三激活层组成，第三十一批标准化层的输入端为卷积网络块的输入端，第三十一激活层的输入端接收第三十一批标准化层的输出端输出的宽度为W且高度为H的所有特征图，第三十一卷积层的输入端接收第三十一激活层的输出端输出的宽度为W且高度为H的所有特征图，第三十二批标准化层的输入端接收第三十一卷积层的输出端输出的宽度为W且高度为H的所有特征图，第三十二激活层的输入端接收第三十二批标准化层的输出端输出的宽度为W且高度为H的所有特征图，第三十二卷积层的输入端接收第三十二激活层的输出端输出的宽度为W且高度为H的所有特征图，第三十三激活层的输入端接收第三十二卷积层的输出端输出的宽度为W且高度为H的所有特征图，第三十三激活层的输出端为卷积网络块的输出端；其中，第三十一卷积层和第三十二卷积层的卷积核大小均为1×1、卷积核个数均为64，第三十一激活层和第三十二激活层的激活方式均为“Relu”，第三十三激活层的激活方式为“Sigmoid”。

在此具体实施例中，步骤1_2中，RGB图输出层由第三十四卷积层组成，深度图输出层由第三十五卷积层组成，融合输出层由第三十六卷积层组成；其中，第三十四卷积层、第三十五卷积层和第三十六卷积层的卷积核大小均为1×1、卷积核个数均为1、补零参数均为0。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch0.4.1搭建本发明方法中的卷积神经网络的架构。采用真实物体图像数据库NJU2000测试集来分析利用本发明方法预测得到的彩色真实物体图像(取NJU2000测试集中的400幅真实物体图像)的显著性检测效果如何。这里，利用评估显著性检测方法的3个常用客观参量作为评价指标，即类准确率召回率曲线(Precision Recall Curve)、平均绝对误差(Mean Absolute Error，MAE)、F度量值(F-Measure)来评价得到的预测显著性检测图像的检测性能。

利用本发明方法对真实物体图像数据库NJU2000测试集中的每幅真实物体图像进行预测，得到每幅真实物体图像的预测显著性检测图像，反映本发明方法的显著性检测效果的类准确率召回率曲线(PR Curve)如图3a所示，反映本发明方法的显著性检测效果的平均绝对误差(MAE)如图3b所示，值为0.051，反映本发明方法的显著性检测效果的F度量值(F-Measure)如图3c所示，值为0.876。从图3a至图3c中可知，按本发明方法得到的真实物体图像的显著性检测结果是最好的，表明利用本发明方法来获取真实物体图像的预测显著性检测图像是可行性且有效的。

图4a给出了同一场景的第1幅原始的彩色真实物体图像，图4b给出了图4a对应的深度图像，图4c给出了利用本发明方法对图4a进行预测得到的预测显著性检测图像；图5a给出了同一场景的第2幅原始的彩色真实物体图像，图5b给出了图5a对应的深度图像，图5c给出了利用本发明方法对图5a进行预测得到的预测显著性检测图像；图6a给出了同一场景的第3幅原始的彩色真实物体图像，图6b给出了图5a对应的深度图像，图6c给出了利用本发明方法对图6a进行预测得到的预测显著性检测图像；图7a给出了同一场景的第4幅原始的彩色真实物体图像，图7b给出了图7a对应的深度图像，图6c给出了利用本发明方法对图7a进行预测得到的预测显著性检测图像。对比图4a和图4c，对比图5a和5c，对比图6a和图6c，对比图7a和图7c，可以看出利用本发明方法得到的预测显著性检测图像的检测精度较高。

Claims

1.一种多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_1中，的获取过程为：

步骤1_1a：将中当前待处理的像素点定义为当前像素点；

3.根据权利要求1或2所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_2中，第1个RGB图神经网络块和第1个深度图神经网络块的结构相同，其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第二激活层的输出端为其所在的神经网络块的输出端；其中，第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1，第一激活层和第二激活层的激活方式均为“Relu”，第一批标准化层、第二批标准化层、第一激活层、第二激活层各自的输出端输出64幅特征图；

4.根据权利要求3所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_2中，4个RGB图最大池化层和4个深度图最大池化层均为最大池化层，第1个至第3个RGB图最大池化层、第1个至第3个深度图最大池化层的池化尺寸均为2、步长均为2，第4个RGB图最大池化层和第4个深度图最大池化层的池化尺寸均为1、步长均为1。

5.根据权利要求4所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_2中，第1个RGB图上采样神经网络块和第1个深度图上采样神经网络块的结构相同，其由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层组成，第十四卷积层的输入端为其所在的神经网络块的输入端，第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图，第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图，第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图，第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图，第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图，第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图，第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图，第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图，第十六激活层的输出端为其所在的神经网络块的输出端；其中，第十四卷积层、第十五卷积层和第十六卷积层均为带孔卷积层，第十四卷积层、第十五卷积层和第十六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2、扩张参数均为2，第十四激活层、第十五激活层和第十六激活层的激活方式均为“Relu”，第十四批标准化层、第十五批标准化层、第十六批标准化层、第十四激活层、第十五激活层、第十六激活层各自的输出端输出512幅特征图；

6.根据权利要求5所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_2中，4个RGB图融合层、4个深度图融合层、RGB图深度图融合层均为SUM融合层。

7.根据权利要求6所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_2中，注意力机制模型由6个残差块、卷积网络块、1个SUM融合层、1个MUL融合层构成，第1个残差块的输入端为注意力机制模型的输入端，第2个残差块的输入端接收第1个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第3个残差块的输入端接收第2个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第4个残差块的输入端接收第1个残差块的输出端输出的64幅宽度为W且高度为H的特征图，第5个残差块的输入端接收第4个残差块的输出端输出的64幅宽度为W且高度为H的特征图，卷积网络块的输入端接收第5个残差块的输出端输出的64幅宽度为W且高度为H的特征图，MUL融合层的输入端接收第3个残差块的输出端输出的64幅宽度为W且高度为H的特征图和卷积网络块的输出端输出的64幅宽度为W且高度为H的特征图，SUM融合层的输入端接收第3个残差块的输出端输出的64幅宽度为W且高度为H的特征图和MUL融合层的输出端输出的64幅宽度为W且高度为H的特征图，第6个残差块的输入端接收SUM融合层的输出端输出的64幅宽度为W且高度为H的特征图，第6个残差块的输出端为注意力机制模型的输出端。

8.根据权利要求7所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的残差块由第二十七卷积层、第二十八卷积层、第二十九卷积层、第三十卷积层、第一SUM融合层、第二SUM融合层、第三SUM融合层构成，第二十七卷积层的输入端为残差块的输入端，第二十八卷积层的输入端接收第二十七卷积层的输出端输出的所有特征图，第一SUM融合层的输入端接收第二十八卷积层的输出端输出的所有特征图和第二十七卷积层的输出端输出的所有特征图，第二十九卷积层的输入端接收第一SUM融合层的输出端输出的所有特征图，第二SUM融合层的输入端接收第二十九卷积层的输出端输出的所有特征图和第一SUM融合层的输出端输出的所有特征图，第三十卷积层的输入端接收第二SUM融合层的输出端输出的所有特征图，第三SUM融合层的输入端接收第三十卷积层的输出端输出的所有特征图和输入到第二十七卷积层的输入端的所有特征图，第三SUM融合层的输出端为残差块的输出端；其中，第二十七卷积层的卷积核大小为1×1、卷积核个数为64、补零参数为0，第二十八卷积层的卷积核大小为1×3、卷积核个数为64、补零参数对应为0和1，第二十九卷积层的卷积核大小为3×1、卷积核个数为64、补零参数对应为1和0，第三十卷积层的卷积核大小为1×1、卷积核个数为64、补零参数为0，第二十七卷积层、第二十八卷积层、第一SUM融合层、第二十九卷积层、第二SUM融合层各自的输出端输出的所有特征图的宽度均为W且高度为H，第三十卷积层和第三SUM融合层各自的输出端输出的所有特征图的宽度均为W且高度为H。

9.根据权利要求7所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的卷积网络块由依次设置的第三十一批标准化层、第三十一激活层、第三十一卷积层、第三十二批标准化层、第三十二激活层、第三十二卷积层、第三十三激活层组成，第三十一批标准化层的输入端为卷积网络块的输入端，第三十一激活层的输入端接收第三十一批标准化层的输出端输出的宽度为W且高度为H的所有特征图，第三十一卷积层的输入端接收第三十一激活层的输出端输出的宽度为W且高度为H的所有特征图，第三十二批标准化层的输入端接收第三十一卷积层的输出端输出的宽度为W且高度为H的所有特征图，第三十二激活层的输入端接收第三十二批标准化层的输出端输出的宽度为W且高度为H的所有特征图，第三十二卷积层的输入端接收第三十二激活层的输出端输出的宽度为W且高度为H的所有特征图，第三十三激活层的输入端接收第三十二卷积层的输出端输出的宽度为W且高度为H的所有特征图，第三十三激活层的输出端为卷积网络块的输出端；其中，第三十一卷积层和第三十二卷积层的卷积核大小均为1×1、卷积核个数均为64，第三十一激活层和第三十二激活层的激活方式均为“Relu”，第三十三激活层的激活方式为“Sigmoid”。

10.根据权利要求1所述的多模态的深度信息融合和注意力学习的显著性检测方法，其特征在于所述的步骤1_2中，RGB图输出层由第三十四卷积层组成，深度图输出层由第三十五卷积层组成，融合输出层由第三十六卷积层组成；其中，第三十四卷积层、第三十五卷积层和第三十六卷积层的卷积核大小均为1×1、卷积核个数均为1、补零参数均为0。