CN110458178A

CN110458178A - 多模态多拼接的rgb-d显著性目标检测方法

Info

Publication number: CN110458178A
Application number: CN201910740104.9A
Authority: CN
Inventors: 周武杰; 潘思佳; 雷景生; 钱亚冠; 何成; 李颜娥; 王海江
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang University of Science and Technology ZUST
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-15
Anticipated expiration: 2039-08-12
Also published as: CN110458178B

Abstract

本发明公开了一种多模态多拼接的RGB‑D显著性目标检测方法。本发明采用ResNet50对RGB图像和经过处理的三通道深度图像进行预训练，并且从预训练中提取特征信息相互交叉结合，这是在现有方法中基本没有运用过的；在后期设计的模型中又运用到ResNet模块训练，使得训练信息前后相匹配；模型中还设计了一个采用卷积与Denseblock结合的新型模块即细节关联模块，充分结合了卷积和DenseNet的优点，使得预测结果十分优秀。本发明方法得到的真实场景图像的显著性检测结果非常好，表明利用本发明方法来获取真实场景图像对应的预测显著性检测图像是可行性且有效。

Description

多模态多拼接的RGB-D显著性目标检测方法

技术领域

本发明属于人眼显著性目标检测方法，尤其涉及一种多模态多拼接的RGB-D显著性目标检测方法。

背景技术

计算机视觉最主要的目的就是利用机器去仿人进行事务操作，使机器去模仿人眼，代替人眼去检测和跟踪，实现智能化发展，这是一个非常重要和热门的研究领域。而显著性目标检测是计算机视觉的一个重要组成部分，随着计算机视觉领域的不断发展，社会迫切的需要效率更高，准确度更好的模型。

现在主要的显著性检测分为两类：注视预测和显著性目标检测。前者是预测人类在观看自然场景时的若干注视点，后者是准确提取感兴趣的对象。而显著性目标检测就是识别出图像中的突出目标，识别的结果越是接近人眼测试结果，准确率就越高。它其实就是一个二值分割的问题，要提取的是整个显著目标区域。视觉显著性可以帮助人类快速的过滤掉不重要的信息，更好的理解视觉场景。

在显著性检测发展的期间，各种方法层出不穷，例如利用了图像的颜色特征、位置信息、纹理特征等。一些传统方法更是采用中心先验、边缘先验、语义先验等。但是由于图像中的颜色场景非常复杂，对象和背景之间没有明显的对比时，这些模型经常会失败，光是靠这些特征很难分辨相近似的物体。经研究发现加入深度信息可以很好的解决这个问题，深度信息对于区分背景颜色相近的物体是很有用的，在三维环境中深度信息对人类视觉系统至关重要。因此RGB与深度相结合的方法能够很好的弥补双方的优缺点。目前，深度学习方法在计算机视觉领域十分受欢迎，发展也非常迅速。这主要是由于深度信息加入在图像处理与计算机视觉领域中效果显著，并且深度信息很容易被深度相机获取，因此被广泛应用在模型中。可见利用深度视图和RGB视图定位图像中的突出目标的方法已经十分受关注了。

发明内容

为了解决背景技术中的问题，本发明提供了一种多模态多拼接的RGB-D显著性目标检测方法，经过模型处理之后得到的显著图与目标图相似率高，模型结构新颖。

本发明采用的技术方案如下：

本发明包括以下步骤：

步骤1-1：选取Q幅彩色真实目标图像、每幅彩色真实目标图像对应的深度图像和每幅彩色真实目标图像对应的真实显著性图像构成训练集；

步骤1-2：构建卷积神经网络；

步骤1-3：将训练集输入卷积神经网络进行训练，训练过程中，每次迭代训练处理得到每幅彩色真实目标图像的显著性检测预测图，计算每幅显著性检测预测图与对应的真实显著性图像构成的损失函数值，损失函数采用二分类交叉熵获得；

步骤1-4：不断迭代训练重复共V次，共得到Q×V个损失函数值，然后从Q×V个损失函数值中找出值最小的损失函数值，接着将值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项，从而完成卷积神经网络的训练；

步骤1-5：利用训练后获得的卷积神经网络对待显著性检测的彩色真实目标图像进行预测处理，将待显著性检测的彩色真实目标图像及其对应的深度图像输入训练后获得的卷积神经网络，输出获得对应的预测显著性检测图像，实现图像的显著性目标检测。

所述步骤1-2中，卷积神经网络包括输入层、隐层和输出层，输入层包括RGB图像输入层和深度图像输入层，隐层包括前处理模块、中间处理模块和后处理模块，前处理模块包括RGB图前处理模块和深度图前处理模块，中间处理模块包括RGB图中间处理模块和深度图中间处理模块；RGB图输入层和深度图输入层分别输入RGB图前处理模块和深度图前处理模块；

RGB图前处理模块包括四个彩色图神经网络块、一个彩色卷积层、三个彩色反卷积层和两个级联层；第一个彩色图神经网络块依次经第二个彩色图神经网络块、第三个彩色图神经网络块输出至第四个彩色图神经网络块，第一个彩色图神经网络块经第一个彩色卷积层的输出和第二个彩色图神经网络经第一个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第一个级联层，第三个彩色图神经网络块经第二个彩色反卷积层的输出和第四个彩色图神经网络块经第三个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第二个级联层；

深度图前处理模块包括四个深度图神经网络块、一个深度卷积层、三个深度反卷积层和两个级联层；第一个深度图神经网络块依次经第二个深度图神经网络块、第三个深度图神经网络块输出至第四个深度图神经网络块，第一个深度图神经网络块经第一个深度卷积层的输出和第二个深度图神经网络块经第一个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第三个级联层，第三个深度图神经网络块经第二个深度反卷积层的输出和第四个深度图神经网络块经第三个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第四个级联层；

RGB图中间处理模块包括两个混合神经网络块、RGB图细节关联模块和两个过渡用卷积层，两个混合神经网络块分别为第一个和第二个混合神经网络块，两个过渡用卷积层分别为第一个和第二个过渡用卷积层，RGB图细节关联模块主要由五个混合卷积层和一个第一网络模块组成，五个混合卷积层分别为第一个、第二个、第三个、第四个和第五个混合卷积层；第一个级联层和第三个级联层共同输入第一个混合神经网络块，第一个混合神经网络块依次经第二个混合神经网络块、第一个混合卷积层、第一网络模块输入第二个混合卷积层，第一个混合卷积层依次经第三个混合卷积层、第四个混合卷积层输入第五个混合卷积层；第五个混合卷积层的输出和第二个混合卷积层的输出融合后作为RGB图细节关联模块的输出；

深度图中间处理模块包括两个混合神经网络块、深度图细节关联模块和两个过渡用卷积层，两个混合神经网络块分别为第三个和第四个混合神经网络块，两个过渡用卷积层分别为第三个和第四个过渡用卷积层，深度图细节关联模块主要由五个混合卷积层和一个第二网络模块组成，五个混合卷积层分别为第六个、第七个、第八个、第九个和第十个混合卷积层；第二个级联层和第四个级联层共同输入第三个混合神经网络块，第三个混合神经网络块依次经第四个混合神经网络块、第六个混合卷积层、第二网络模块输入第七个混合卷积层，第六个混合卷积层依次经第八个混合卷积层、第九个混合卷积层输入第十个混合卷积层；第七个混合卷积层的输出和第十个混合卷积层的输出融合后作为深度图细节关联模块的输出；

隐层中的后处理模块包括依次相连的第一个反卷积层、第二个反卷积层和第三个反卷积层，RGB图细节关联模块的输出和深度图细节关联模块的输出融合后输入第一个反卷积层，第二个混合神经网络块经第一个过渡用卷积层的输出和第四个混合神经网络块经第三个过渡用卷积层的输出共同输入第一个反卷积层，第一个混合神经网络块经第二个过渡用卷积层的输出和第三个混合神经网络块经第四个过渡用卷积层的输出共同输入第二个反卷积层，第三个反卷积层经输出层输出。

所述RGB图前处理模块中的第一个、第二个、第三个、第四个彩色图神经网络块按顺序对应ResNet50中的4个模块，深度图前处理模块中的第一个、第二个、第三个、第四个深度图神经网络块按顺序对应ResNet50中的4个模块。

所述第一网络模块和第二网络模块均采用DenseNet网络的Denseblock。

RGB图像输入层的输入为经过图像大小处理的RGB图像，训练时彩色真实目标图像作为RGB图像输入；深度图像输入层的输入为经过图像大小处理的深度图像，训练时输入彩色真实目标图像对应的深度图像，深度图像经自身级联转变为三通道图像输入隐层即输入深度图前处理模块。

RGB图像输入层和深度图像输入层输入的图像都是由原始图像经过大小处理的，目的是为了匹配ResNet网络。

本发明的有益效果：

1)本发明使用ResNet50对RGB图和深度图分别进行预训练(将深度图变成三通道输入)，然后分别提取RGB图和深度图经ResNet50中4个模块的不同结果，并将RGB图和深度图的结果进行Concatence方式相互拼接，再传入后期的模型中，这是在现有方法中基本没有运用过的。在后期设计的模型中(4个混合神经网络块)又运用到ResNet模块训练，使得训练信息前后相匹配。

2)本发明的网络模块采用DenseNet里的DenseBlock块，并基于此设计了一个新的模块即细节关联模块，这样提取了DenseNet的优点与卷积进行结合，使得本发明方法的检测结果更为细致。

3)本发明方法采用新颖的模型架构，在与当今最先进的方法对比中，都取得了很优秀的结果。

附图说明

图1为本发明方法的总体实现框图。

图2a为一幅RGB图像。

图2b为图2a的深度图像。

图3a为图2a的真实显著性检测图像。

图3b为图2a与图2b经过本发明所得到的显著性检测预测图。

图4a为本发明在Recall评价上的结果。

图4b为本发明在ROC上的结果。

图4c为本发明在MAE上的结果。

具体实施方式

以下结合附图和实施例对本发明作进一步详细描述。

本发明提出的一种多模态多拼接的RGB-D显著性目标检测方法，其总体实现框图如图1所示，其包括训练阶段、验证阶段和测试阶段两个过程，所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅的彩色真实目标图像和相对应的深度图像，以及每幅彩色真实目标图像对应的真实显著性图像，并构成训练集；将训练集中的第q幅原始的物体图像记为{I^q(i,j)}，深度图像记为{D^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实显著性图像记为其中，彩色真实目标图像为RGB彩色图像，深度图为二值的灰度图，Q为正整数，Q≥200，如取Q＝367，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝512、H＝512，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；在此，彩色真实目标图像直接选用数据库NJU2000训练集中的1588幅图像。

步骤1_2：构建如图1所示的卷积神经网络：卷积神经网络包括输入层、隐层和输出层；卷积神经网络包括输入层、隐层和输出层，输入层包括RGB图像输入层和深度图像输入层，隐层包括前处理模块、中间处理模块和后处理模块，前处理模块包括RGB图前处理模块和深度图前处理模块，中间处理模块包括RGB图中间处理模块和深度图中间处理模块；RGB图输入层和深度图输入层分别输入RGB图前处理模块和深度图前处理模块。

对于RGB图像输入层，输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于深度图像输入层，输入端接收一幅原始输入深度图像，输入端的输出端输出原始深度图像经过自身叠加两个通道变成三通道的深度图像，将三通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于第1个彩色图像神经网络块、第2个彩色图像神经网络、第3个彩色图像神经网络、第4个彩色图像神经网络，按顺序对应ResNet50中的4个模块，采用了预训练的方法，利用pytorch自带的ResNet50的网络和其权重，对输入图像做预训练，并且在预训练过程中固定了权重。

经过第1个彩色图像神经网络块后输出为256幅特征图，将256幅的特征图构成的集合记为P₁，输出记为P_1p，P_1p中每幅特征图的宽度为高度为经过第2个彩色图像神经网络块后输出为512幅特征图，将512幅的特征图构成的集合记为P₂，输出记为P_2p，P_2p中每幅特征图的宽度为高度为经过第3个彩色图像神经网络块后输出为1024幅特征图，将1024幅的特征图构成的集合记为P₃，输出记为P_3p，P_3p中每幅特征图的宽度为高度为经过第4个彩色图像神经网络块后输出为2048幅特征图，将2048幅的特征图构成的集合记为P₄，输出记为P_4p，P_4p每幅特征图的宽度为高度为

对于第1个彩色卷积层，由一个卷积组成，卷积核大小为3×3，卷积核个数为32，补零参数为1，步长为1，输出为32幅特征图，将32幅特征图构成的集合记为PC₁。

对于第1个彩色反卷积层，由一个反卷积组成，卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2，输出为32幅特征图，将32幅特征图构成的集合记为PC₂。对于第2个彩色反卷积层，依次设置为：第一反卷积层、第一归一化，第一激活层、第二反卷积层、第二归一化。第一反卷积层的卷积核大小为2×2，卷积核个数为512，补零参数为0，步长为2。第一归一化的参数为512。第二反卷积层的卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2。第二归一化参数为32。总输出为32幅特征图，将32幅特征图构成的集合记为PC₃。对于第3个彩色反卷积层，依次设置为：第一反卷积层、第一归一化，第一激活层、第二反卷积层、第二归一化、第二激活层、第三反卷积层、第三归一化。第一反卷积层的卷积核大小为2×2，卷积核个数为1024，补零参数为0，步长为2。第一归一化的参数为1024。第二反卷积层的卷积核大小为2×2，卷积核个数为512，补零参数为0，步长为2。第二归一化参数为512。第三反卷积层的卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2。第三归一化参数为32。总输出为32幅特征图，将32幅特征图构成的集合记为PC₄。

对于第1个深度图像神经网络、第2个深度图像神经网络、第3个深度图像神经网络、第4个深度图像神经网络，对应的是ResNet50中的4个模块，采用了预训练的方法，利用pytorch自带的ResNet50的网络和其权重，对输入图像做预训练，并且在预训练过程中固定了权重。

经过第1个深度图像神经网络块后输出为256幅特征图，将256幅的特征图构成的集合记为DP₁，输出记为DP_1p，DP_1p中每幅特征图的宽度为高度为经过第2个深度图像神经网络块后输出为512幅特征图，将512幅的特征图构成的集合记为DP₂，输出记为DP_2p，DP_2p中每幅特征图的宽度为高度为经过第3个深度图像神经网络块后输出为1024幅特征图，将1024幅的特征图构成的集合记为DP₃，输出记为DP₃，DP₃中每幅特征图的宽度为高度为经过第4个深度图像神经网络块后输出为2048幅特征图，将2048幅的特征图构成的集合记为DP₄，输出记为DP₄，DP₄中每幅特征图的宽度为高度为

对于第1个深度卷积层，由一个卷积组成，卷积核大小为3×3，卷积核个数为32，补零参数为1，步长为1，输出为32幅特征图，将32幅特征图构成的集合记为DC₁。

对于第1个深度反卷积层，由一个反卷积组成，卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2，输出为32幅特征图，将32幅特征图构成的集合记为DC₂。对于第2个深度反卷积层，依次设置为：第一反卷积层、第一归一化，第一激活层、第二反卷积层、第二归一化。第一反卷积层的卷积核大小为2×2，卷积核个数为512，补零参数为0，步长为2。第一归一化的参数为512。第二反卷积层的卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2。第二归一化参数为32。总输出为32幅特征图，将32幅特征图构成的集合记为DC₃。对于第3个深度反卷积层，依次设置为：第一反卷积层、第一归一化，第一激活层、第二反卷积层、第二归一化、第二激活层、第三反卷积层、第三归一化。第一反卷积层的卷积核大小为2×2，卷积核个数为1024，补零参数为0，步长为2。第一归一化的参数为1024。第二反卷积层的卷积核大小为2×2，卷积核个数为512，补零参数为0，步长为2。第二归一化参数为512。第三反卷积层的卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2。第三归一化参数为32。总输出为32幅特征图，将32幅特征图构成的集合记为DC₄。

对于第1个级联层，第1个级联层的输入端接收PC₁中的所有特征图和PC₂中的所有特征图，第1个级联层通过现有的Concatence方式连接PC₁和PC₂得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为64(32+32＝64)，U₁中的每幅特征图的宽度为高度为对于第2个级联层，第2个级联层的输入端接收PC₃中的所有特征图和PC₄中的所有特征图，第1个级联层通过现有的Concatence方式连接PC₃和PC₄得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为64(32+32＝64)，U₂中的每幅特征图的宽度为高度为对于第3个级联层，第3个级联层的输入端接收DC₁中的所有特征图和DC₂中的所有特征图，第1个级联层通过现有的Concatence方式连接DC₁和DC₂得到集合U₃，第3个级联层的输出端输出U₃；其中，U₂中包含的特征图的总幅数为64(32+32＝64)，U₃中的每幅特征图的宽度为高度为对于第4个级联层，第4个级联层的输入端接收DC₃中的所有特征图和DC₄中的所有特征图，第1个级联层通过现有的Concatence方式连接DC₃和DC₄得到集合U₄，第4个级联层的输出端输出U₄；其中，U₂中包含的特征图的总幅数为64(32+32＝64)，U₄中的每幅特征图的宽度为高度为

对于第1个混合神经网络块，第1个混合神经网络块与第1个彩色图神经网络块是完全相同的，输入为U₁和U₃之和，输出为256幅特征图，得到集合C₁，每幅特征图的宽度为高度为对于第2个混合神经网络块，第2个混合神经网络块与第2个彩色图神经网络块是完全相同的，输出为512幅特征图，得到集合C₂，每幅特征图的宽度为高度为

对于第1个混合卷积层，由一个卷积组成，卷积核大小为5×5，卷积核个数为512，补零参数为2，步长为1，输出为512幅特征图。对于第2个混合卷积层，由一个卷积组成，卷积核大小为5×5，卷积核个数为512，补零参数为2，步长为1，输出为256幅特征图，将256幅特征图构成的集合记为QC₁。对于第3个混合卷积层，由一个卷积层、一个归一化、一个激活层组成，卷积核大小为3×3，卷积核个数为512，补零参数为1，步长为1。归一化参数为512。激活层采用激活函数PReLU。输出为512幅特征图。对于第4个混合卷积层，由一个卷积层、一个归一化、一个激活层组成，卷积核大小为3×3，卷积核个数为256，补零参数为1，步长为1。归一化参数为256。激活层采用激活函数PReLU。输出为256幅特征图。对于第5个混合卷积层，由一个卷积层、一个归一化组成，卷积核大小为3×3，卷积核个数为256，补零参数为1，步长为1。归一化参数为256。输出为256幅特征图，集合记为Q₁。

对于第3个混合神经网络块，第3个混合神经网络块与第1个深度图神经网络块是完全相同的，输入为U₂和U₄之和，输出为256幅特征图，得到集合C₃，每幅特征图的宽度为高度为对于第4个混合神经网络块，第4个混合神经网络块与第2个深度图神经网络块是完全相同的，输出为256幅特征图，得到集合C₄，每幅特征图的宽度为高度为

对于第1个网络模块，采用的是DenseNet网络的Denseblock。其中参数设置为：层数为6，大小为4，增加级数为4，输出为536幅特征图。

对于第6个混合卷积层，由一个卷积组成，卷积核大小为5×5，卷积核个数为512，补零参数为2，步长为1，输出为512幅特征图。对于第7个混合卷积层，由一个卷积组成，卷积核大小为5×5，卷积核个数为512，补零参数为2，步长为1，输出为256幅特征图，将256幅特征图构成的集合记为QC₂。对于第8个混合卷积层，由一个卷积层、一个归一化、一个激活层组成，卷积核大小为3×3，卷积核个数为512，补零参数为1，步长为1。归一化参数为512。激活层采用激活函数PReLU。输出为512幅特征图。对于第9个混合卷积层，由一个卷积层、一个归一化、一个激活层组成，卷积核大小为3×3，卷积核个数为256，补零参数为1，步长为1。归一化参数为256。激活层采用激活函数PReLU。输出为256幅特征图。对于第10个混合卷积层，由一个卷积层、一个归一化组成，卷积核大小为3×3，卷积核个数为256，补零参数为1，步长为1。归一化参数为256。输出为256幅特征图，集合记为Q₂。

对于第1个过渡用的卷积层，输入为C₂，由一个卷积组成，卷积核大小为3×3，卷积核个数为256，补零参数为1，步长为1。输出为256幅特征图，集合记为W₁。对于第2个过渡用的卷积层，输入为C₁，由一个卷积组成，卷积核大小为3×3，卷积核个数为64，补零参数为1，步长为1。输出为64幅特征图，集合记为W₂。

对于第2个网络模块，采用的是DenseNet网络的Denseblock。其中参数设置为：层数为6，大小为4，增加级数为4，输出为536幅特征图。

对于第3个过渡用的卷积层，输入为C₁，由一个卷积组成，卷积核大小为3×3，卷积核个数为256，补零参数为1，步长为1。输出为256幅特征图，集合记为W₃。对于第4个过渡用的卷积层，输入为C₁，由一个卷积组成，卷积核大小为3×3，卷积核个数为64，补零参数为1，步长为1。输出为64幅特征图，集合记为W₄。

对于第1个反卷积层，输入为Q₁、Q₂、QC₁、QC₂、W₁和W₂。由一个反卷积组成，卷积核大小为2×2，卷积核个数为64，补零参数为0，步长为2。输出为64幅特征图，集合记为O，每幅特征图的宽度为高度为对于第2个反卷积层，输入为O、W₂和W₄。由一个反卷积和Dropout正则化组成，卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2。Dropout正则化采用默认参数。输出为32幅特征图，每幅特征图的宽度为高度为对于第3个反卷积层，由一个反卷积和Dropout正则化组成，卷积核大小为2×2，卷积核个数为32，补零参数为0，步长为2。Dropout正则化采用默认参数。

输出为32幅特征图，每幅特征图的宽度为W、高度为H。

步骤1_3：将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像(如图2a)，将训练集中的每幅原始的彩色真实目标图像对应的深度图像转换尺寸变为224×224并且转变为三通道图像作为深度输入图像(如图2b)，输入到ResNet50中进行预训练，预训练后再把相应特征图输入到模型中训练。得到训练集中的每幅彩色真实目标图像对应的显著性检测预测图，将{I^q(i,j)}对应的显著性检测预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图(如图3b)构成的集合与对应的真实显著性检测图像(如图3a)处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为采用二分类交叉熵获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V>1，在本实施例中取V＝100。

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待显著性检测的彩色真实目标图像，表示待显著性检测的真实物体对应的深度图像；其中，1≤i′≤W′，1≤j′≤H′，W′表示的宽度，H′表示的高度，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值。

步骤2_2：将的R通道分量、G通道分量和B通道分量以及经过转变的的三通道分量输入到ResNet50中进行预训练，再把结果提出输入到训练模型中，并利用W^best和b^best进行预测，得到和对应的预测显著性检测图像，记为其中，表示中坐标位置为(i′,j′)的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch4.0.1搭建多尺度残差卷积神经网络的架构。采用真实物体图像数据库NJU2000测试集来分析利用本发明方法预测得到的真实场景图像(取397幅真实物体图像)的显著性检测效果如何。这里，利用评估显著性检测方法的3个常用客观参量作为评价指标，即类准确率召回率曲线(Precision Recall Curve)、工作特征曲线(ROC)、平均绝对误差(Mean Absolute Error，MAE)来评价预测显著性检测图像的检测性能。

利用本发明方法对真实场景图像数据库NJU2000测试集中的每幅真实场景图像进行预测，得到每幅真实场景图像对应的预测显著性检测图像，反映本发明方法的显著性检测效果的准确率召回率曲线(PRCurve)(如图4a)、工作特征曲线(ROC)(如图4b)、平均绝对误差(MAE)(如图4c)。由图可知，按本发明方法得到的真实场景图像的显著性检测结果非常好，表明利用本发明方法来获取真实场景图像对应的预测显著性检测图像是可行性且有效。

Claims

1.一种基于多模态多拼接的RGB-D显著性目标检测方法，其特征在于，包括以下步骤：

步骤1-2：构建卷积神经网络；

2.根据权利要求1所述的一种基于多模态多拼接的RGB-D显著性目标检测方法，其特征在于：所述步骤1-2中，卷积神经网络包括输入层、隐层和输出层，输入层包括RGB图像输入层和深度图像输入层，隐层包括前处理模块、中间处理模块和后处理模块，前处理模块包括RGB图前处理模块和深度图前处理模块，中间处理模块包括RGB图中间处理模块和深度图中间处理模块；RGB图输入层和深度图输入层分别输入RGB图前处理模块和深度图前处理模块；

3.根据权利要求2所述的一种基于多模态多拼接的RGB-D显著性目标检测方法，其特征在于：所述RGB图前处理模块中的第一个、第二个、第三个、第四个彩色图神经网络块按顺序对应ResNet50中的4个模块，深度图前处理模块中的第一个、第二个、第三个、第四个深度图神经网络块按顺序对应ResNet50中的4个模块。

4.根据权利要求2所述的一种基于多模态多拼接的RGB-D显著性目标检测方法，其特征在于：所述第一网络模块和第二网络模块均采用DenseNet网络的Dense块。

5.根据权利要求2所述的一种基于多模态多拼接的RGB-D显著性目标检测方法，其特征在于：RGB图像输入层的输入为经过图像大小处理的RGB图像，训练时彩色真实目标图像作为RGB图像输入；深度图像输入层的输入为经过图像大小处理的深度图像，训练时输入彩色真实目标图像对应的深度图像，深度图像经自身级联转变为三通道图像输入隐层即输入深度图前处理模块。