CN111310767A

CN111310767A - 一种基于边界增强的显著性检测方法

Info

Publication number: CN111310767A
Application number: CN202010047944.XA
Authority: CN
Inventors: 周武杰; 吴君委; 黄思远; 雷景生; 王海江
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-19

Abstract

本发明公开了一种基于边界增强的显著性检测方法。其在训练阶段构建卷积神经网络，输入层包括RGB图输入层和深度图输入层，隐层包括5个RGB图神经网络块、3个深度图神经网络块、5个上采样块、1个均值最大最小滤波模块、1个最大最小滤波模块，输出层包括显著性输出层和显著性边界输出层；将训练集中的RGB图和深度图输入到卷积神经网络进行训练，得到显著性检测预测图；通过计算显著性检测预测图与真实显著性检测图像之间的损失函数值以及显著性边缘预测图与真实显著性边缘图之间的损失函数值，得到卷积神经网络训练模型；将待显著性检测的RGB图输入卷积神经网络训练得到预测显著性检测图像。本发明的显著性检测效率和准确率都很高。

Description

一种基于边界增强的显著性检测方法

技术领域

本发明涉及一种视觉显著性检测技术，尤其是涉及一种基于边界增强的显著性检测方法。

背景技术

视觉显著性可以帮助人类快速地过滤掉不重要的信息，让人们的注意力更加集中在有意义的区域，从而能更好地理解眼前的场景。随着计算机视觉领域的快速发展，人们希望电脑也能拥有和人类相同的能力，即在理解和分析复杂的场景时，电脑可以更加针对性地处理有用的信息，从而能更大的降低算法的复杂度，并且排除杂波的干扰。在传统做法中，研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模，生成显著性图。这些先验知识包括对比度、中心先验、边缘先验、语义先验等。然而，在复杂的场景中，传统做法往往不够准确，这是因为这些观察往往局限于低级别的特征(例如：颜色和对比度等)，所以不能准确反映出显著性对象本质的共同点。

近年来，卷积神经网络已广泛运用于计算机视觉的各个领域，许多困难的视觉问题都获得了重大的进展。不同于传统做法，深度卷积神经网络能够从大量的训练样本中建模并自动的端到端(end-to-end)地学习到更为本质的特性，从而有效地避免了传统人工建模和设计特征的弊端。最近， 3D传感器的有效应用更加丰富了数据库，人们不但可以获得彩色图片，而且可以获取彩色图片的深度信息。深度信息在现实3D场景中是人眼视觉系统中很重要的一环，这是在之前的传统做法中所完全忽略掉的一条重要的信息，因此现在最重要的任务就是如何建立模型从而有效地利用好深度信息。

在RGB-D数据库中采用深度学习的显著性检测方法，直接进行像素级别端到端的显著性检测，只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。目前，基于RGB-D数据库的深度学习显著性检测模型主要用的结构为编码-译码架构，在如何利用深度信息的方法上有三种：第一种方法就是直接将深度信息与彩色图信息叠加为一个四维的输入信息或在编码过程中将彩色图信息和深度信息进行相加或者叠加，这类方法称为前融合；第二种方法则是将在编码过程中对应的彩色图信息和深度信息利用跳层(skip connection)的方式相加或者叠加到对应的译码过程中，这类称为后融合；第三种方法则是分别利用彩色图信息和深度信息进行显著性预测，将最后的结果融合。上述第一种方法，由于彩色图信息和深度信息的分布有较大差异，因此直接在编码过程中加入深度信息会在一定程度上添加了噪声。上述第三种方法，分别利用深度信息和彩色图信息进行显著性预测，但是如果深度信息和彩色图信息的预测结果都不准确时，那么最终的融合结果也是相对不够精确的。上述第二种方法不仅避免了在编码阶段直接利用深度信息带来的噪声，而且在网络模型的不断优化中能够充分学习到彩色图信息和深度信息的互补关系，但是大量的后融合操作大大增加了计算量和网络模型的复杂程度。参考最近发表的显著性检测方案，Rethinking RGB-D Salient Object Detection:Models,Datasets,and Large-Scale Benchmarks(重新思考RGB-D显著目标检测：模型、数据集和大规模基准)，以下简称为RRSD，RRSD对深度图进行一种删选的操作，挑选较优的深度图将其与彩色图进行叠加为一个四维的输入，从而进行显著性检测，该方法实现了去除不良的深度信息从而提升最终的显著性监测结果。由于RRSD并没有学习到深度信息和彩色图形之间的互补关系，而且直接将深度信息和彩色图信息叠加这种操作必然不是最优的。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于边界增强的显著性检测方法，其通过高效地利用深度信息和彩色图信息，从而提升了显著性检测准确率和效率。

本发明方法构建的卷积神经网络，实现了端到端的显著性物体检测，易于训练，方便快捷；使用训练集中的彩色真实物体图像和对应的深度图像输入到卷积神经网络中进行训练，得到卷积神经网络训练模型；再将待显著性检测的彩色真实物体图像和对应的深度图像输入到卷积神经网络训练模型中，预测得到彩色真实物体图像对应的预测显著性检测图像。

本发明采用的技术方案包括以下步骤：

步骤1)选取Q幅含有真实物体的原始RGB图以及每幅原始RGB图对应的深度图、真实显著性检测图和真实显著性边界图，并构成训练集；

步骤2)构建卷积神经网络，卷积神经网络包含输入层、隐层、输出层；

步骤3)将训练集中的每幅原始RGB图以及对应的深度图输入到卷积神经网络中进行训练，从输出层输出得到显著性检测预测图以及显著性边界预测图，计算真实显著性检测图和对应的显著性检测预测图之间的损失函数值并记为第一损失函数值，计算真实显著性边界图和对应的显著性边界预测图之间的损失函数值并记为第二损失函数值，将第一损失函数值和第二损失函数值相加得到总损失函数值；

步骤4)重复执行步骤3)共V次，共得到Q×V个总损失函数值，然后从Q×V个总损失函数值中找出值最小的总损失函数值，接着将值最小的总损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项，从而完成卷积神经网络的训练；

步骤5)：将待显著性检测的RGB图像以及对应的深度图像输入到训练好的信息融合卷积神经网络中，输出得到对应的预测显著性检测图像和显著性边界预测图像。

所述卷积神经网络的输入层包括RGB图输入层和深度图输入层，隐层包括深度图处理模块、RGB图处理模块和后处理模块，输出层包括依次连接的显著性输出层、第一最大最小滤波模块和显著性边界输出层。

RGB图输入层包括依次连接的五个RGB图神经网络块；深度图处理模块包括一个第一均值最大最小滤波模块和三个深度图神经网络块，第一均值最大最小滤波模块的输出分别输入第一个深度图神经网络块、第二个深度图神经网络块、第三个深度图神经网络块；第一个深度图神经网络块的输出和第二个RGB图神经网络块的输出相乘后再与第二个RGB图神经网络块的输出相加作为第三个RGB图神经网络块的输入，第二个深度图神经网络块的输出和第三个RGB图神经网络块的输出相乘后再与第三个RGB 图神经网络块的输出相加作为第四个RGB图神经网络块的输入，第三个深度图神经网络块的输出和第四个RGB图神经网络块的输出相乘后再与第四个RGB图神经网络块的输出相加作为第五个RGB图神经网络块的输入。

后处理模块包括五个依次连接的上采样块，第一个上采样块的输入为第五个RGB图神经网络块的输出，第一个上采样块的输出与第五个RGB 图神经网络块的输入相加后作为第二个上采样块的输入，第二个上采样块的输出与第四个RGB图神经网络块的输入相加后作为第三个上采样块的输入，第三个上采样块的输出与第三个RGB图神经网络块的输入相加后作为第四个上采样块的输入，第四个上采样块的输出与第二个RGB图神经网络块的输入相加后作为第五个上采样块的输入，第五个上采样块的输出作为显著性输出层的输入。

深度图输入层的输出作为第一均值最大最小滤波模块的输入，RGB图输入层的输出作为第一个RGB图神经网络块的输入。

第一个RGB图神经网络块包括依次连接的两个卷积块，第二个RGB 图神经网络块包括依次连接的最大池化层和两个卷积块，第三个RGB图神经网络块、第四个RGB图神经网络块和第五个RGB图神经网络块均包括依次连接的最大池化层和三个卷积块。

每个深度图神经网络块均包括依次连接的下采样层和边界权重模块；每个边界权重模块包括一个最大池化层、一个均值池化层和两个卷积层，每个边界权重模块的输入分别输入最大池化层、均值池化层和第一个卷积层，最大池化层和均值池化层的输出进行通道叠加后输入第二个卷积层，第一个卷积层和第二个卷积层的输出相加后作为每个边界权重模块的输出。

每个上采样块包括依次连接的三个卷积块和一个上采样层。

第一均值最大最小滤波模块包括两个最大池化层，第一均值最大最小滤波模块的输入直接输入第一均值最大最小滤波模块中第一个最大池化层，第一均值最大最小滤波模块的输入乘以-1后输入第一均值最大最小滤波模块中第二个最大池化层，将两个最大池化层的输出相加后得到的特征图除以该特征图中的最大值得到第一均值最大最小滤波模块的输出。

第一最大最小滤波模块包括两个最大池化层，第一最大最小滤波模块的输入直接输入第一最大最小滤波模块中第一个最大池化层，第一最大最小滤波模块的输入乘以-1输入第一最大最小滤波模块中第二个最大池化层，将两个最大池化层的输出相加后得到第一最大最小滤波模块的输出。

每个卷积块包括依次连接的卷积层、批标准化层和激活层；第一个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2，扩张参数为2；第二个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为4，扩张参数为4；第三个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6，扩张参数为 6；第四个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为8，扩张参数为8；第五个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10，扩张参数为10。

第一均值最大最小滤波模块和第一最大最小滤波模块中的两个最大池化层的尺寸均为3，步长均为1，补零参数均为1；每个边界权重模块中的两个卷积层大小均为1×1，第一个边界权重模块、第二个边界权重模块、第三个边界权重模块中卷积层的卷积核个数分别为128、256、512；每个边界权重模块中的最大池化层和均值池化层的尺寸均为3，步长均为1，补零参数均为1。

所述RGB图输入层的输入端接收RGB图像，深度图输入层的输入端接收RGB图像对应的深度图像；输出层的输出为显著性输出层输出的显著性检测图像和显著性边界输出层输出的显著性边界图像。

本发明的有益效果：

1)本发明方法在构造卷积神经网络的时候利用了扩张卷积，因此能够在不增加参数量的同时获得更大的感受野，同时能够提升最终的显著性检测效果。

2)本发明方法在利用深度信息的时候，创新性地利用最大最小滤波模块提取了边界信息，继而将边界信息作为一种边界的权重信息添加到高维的彩色图信息中，这样能够让卷积神经网络训练模型训练的时候能够更加关注到边界信息的提取，从而提升最终的检测效果。

3)本发明额外增加了对显著物体边界的监督，通过对显著性物体的监督，能够指导卷积神经网络训练模型逐步地构建显著性检测预测图，通过对显著性物体边界的监督，从而使得模型能够逐步优化显著性边界的预测图，继而提升最终的显著性检测结果。

附图说明

图1-a为本发明方法的显著性检测效果的类准确率召回率曲线；

图1-b为本发明方法的显著性检测效果的平均绝对误差；

图1-c为本发明方法的显著性检测效果的F度量值；

图2为发明方法的总体实现框图；

图3-a为最大最小滤波模块的方案图；

图3-b为边界权重模块模型图；

图4a为第1幅原始的真实物体图像；

图4b为第1幅原始的真实物体图像的深度图；

图4c为利用本发明方法对图4a所示的原始的真实物体图像进行预测，得到的预测显著性检测图像；

图5a为第2幅原始的真实物体图像；

图5b为第2幅原始的真实物体图像的深度图；

图5c为利用本发明方法对图5a所示的原始的物体图像进行预测，得到的预测显著性检测图像；

图6a为第3幅原始的真实物体图像；

图6b为第3幅原始的真实物体图像的深度图；

图6c为利用本发明方法对图6a所示的原始的真实物体图像进行预测，得到的预测显著性检测图像；

图7a为第4幅原始的真实物体图像；

图7b为第4幅原始的真实物体图像的深度图；

图7c为利用本发明方法对图7a所示的原始的真实物体图像进行预测，得到的预测显著性检测图像。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的显著性检测方法，其总体实现框图如图2所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像，并构成训练集，将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{I^q(i,j)}、 {D^q(i,j)}、{G^q(i,j)}；然后利用最大最小滤波模块对训练集中的每幅真实显著性检测标签图像进行边界提取，得到训练集中每幅真是显著性检测标签图像的显著性边界图，将{G^q(i,j)}的显著性边界图记为{B^q(i,j)}；其中，Q为正整数，q为正整数，q的初始值为1，1≤q≤Q,1≤i≤W,1≤j≤H，W表示{I^q(i,j)}、{D^q(i,j)}、{G^q(i,j)}的宽度，H表示 {I^q(i,j)}、{D^q(i,j)}、{G^q(i,j)}的高度，{I^q(i,j)}为RGB彩色图像，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，{D^q(i,j)}为单通道的深度图像，D^q(i,j)表示{D^q(i,j)}中坐标位置为(i,j)的像素点的像素值，G^q(i,j)表示{G^q(i,j)}中坐标位置为(i,j)的像素点的像素值，B^q(i,j)表示{B^q(i,j)}中坐标为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：如图2所示，该卷积神经网络包含输入层、隐层、输出层，输入层包括RGB图输入层和深度图输入层，隐层包括5个RGB图神经网络块、 3个深度图神经网络块、3个边界融合层、4个融合层、5个上采样块、1个第一均值最大最小滤波模块、1个第一最大最小滤波模块、输出层包括1个显著性输出层和1个显著性边界输出层；

对于RGB图输入层，其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量，其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求训练用RGB彩色图像的宽度为W且高度为H；

对于深度图输入层，其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像，其输出端输出训练用深度图像给隐层；其中，训练用深度图像的宽度为W且高度为H；

对于第一均值最大最小滤波模块，其输入端接收深度图输入层的输出端输出的训练用深度图像，其输出端输出1幅宽度为W且高度为H的特征图，将输出特征图记为DE₁；

对于第1个深度图神经网络块，其输入端接收DE₁中的所有特征图，其输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为DE₂；

对于第2个深度图神经网络块，其输入端接收DE₁中的所有特征图，其输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为DE₃；

对于第3个深度图神经网络块，其输入端接收DE₁中的所有特征图，其输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为DE₄；

对于第1个RGB图神经网络块，其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为E₁；

对于第2个RGB图神经网络块，其输入端接收E₁中的所有特征图，其输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₂；

对于第一个边界融合层，其输入端接收E₂和DE₂中的所有特征图，将E₂和DE₂进行对应位置相乘操作，再和E₂进行对应位置相加操作，其输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为EB₂；

对于第3个RGB图神经网络块，其输入端接收EB₂中的所有特征图，其输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₃；

对于第二个边界融合层，其输入端接收E₃和DE₃中的所有特征图，将E₃和DE₃进行对应位置相乘操作，再和E₃进行对应位置相加操作，其输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为EB₃；

对于第4个RGB图神经网络块，其输入端接收EB₃中的所有特征图，其输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₄；

对于第三个边界融合层，其输入端接收E₄和DE₄中的所有特征图，将E₄和DE₄进行对应位置相乘操作，再和E₄进行对应位置相加操作，其输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为EB₄；

对于第5个RGB图神经网络块，其输入端接收EB₄中的所有特征图，其输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₅；

对于第1个上采样块，其输入端接收E₅中的所有特征图，其输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为U₁；

对于第一个融合层，其输入端接收U₁和EB₄中的所有特征图，进行对应位置相加操作，其输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为UP₁；

对于第2个上采样块，其输入端接收UP₁中的所有特征图，其输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为U₂；

对于第二个融合层，其输入端接收U₂和EB₃中的所有特征图，进行对应位置相加操作，其输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为UP₂；

对于第3个上采样块，其输入端接收UP₂中的所有特征图，其输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为U₃；

对于第三个融合层，其输入端接收U₃和EB₂中的所有特征图，进行对应位置相加操作，其输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为UP₃；

对于第4个上采样块，其输入端接收UP₃中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为U₄；

对于第四个融合层，其输入端接收U₄和E₁中的所有特征图，进行对应位置相加操作，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为UP₄；

对于第5个上采样块，其输入端接收UP₄中的所有特征图，其输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为U₅；

对于第一个显著性输出层，其输入端接收U₅中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，将该特征图记为Out₁，Out₁则为显著性检测预测图；

对于第一个最大最小滤波模块，其输入端接收Out₁中的所有特征图，其输出端输出 1幅宽度为W且高度为H的特征图，将该特征图记为Bout₁，Bout1则为显著性边界预测图。

步骤1_3：将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像，将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像，输入到步骤1_3构建的卷积神经网络中进行训练，得到训练集中的每幅原始的彩色真实物体图像对应的1幅显著性检测预测图和1幅显著性边界预测图，将{I^q(i,j)}对应的1幅显著性检测预测图记为

将{I^q(i,j)}对应的1幅显著性边界预测图记为

步骤1_4：将训练集中的每幅原始的真实彩色物体图像对应的显著性检测预测图记做

将与之对应的真实显著性边界图记做

分别计算

和

以及

和

之间的损失函数值，将

与

之间的损失函数值记为

采用分类交叉熵(categorical crossentropy)获得，将

和

之间的损失函数值记为

采用Dice loss获得，将

和

相加得到最终的损失函数值；

步骤1_5：重复执行步骤1_3至步骤1_4共V次，得到卷积神经网络训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V>1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待显著性检测的彩色真实物体图像，将

对应的深度图像记为

其中，1≤i'≤W'，1≤j'≤H'，W'表示

和

的宽度，H'表示

和

的高度，

表示

中坐标位置为 (i',j')的像素点的像素值，

表示

中坐标位置为(i',j')的像素点的像素值；

步骤2_2：将

的R通道分量、G通道分量和B通道分量以及

输入到卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到

对应的显著性检测预测图像和显著性边界预测图像，将尺寸大小与

的尺寸大小一致的显著性检测预测图像作为

对应的最终显著性检测预测图像，并记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_1中，{G^q(i,j)}的显著性边界图{B^q(i,j)}的获取过程为：

步骤1_1a:将{G^q(i,j)}中当前待处理的像素点定义为当前像素点；

步骤1_1b:利用3×3的滑动窗口对当前像素点进行操作，用当前滑动窗口中最大的值减去最小值得到当前像素点的最终结果值；

步骤1_1c:将{G^q(i,j)}中下一个待处理像素点作为当前像素点，然后返回步骤1_1b 继续执行，直至{G^q(i,j)}中的所有像素点处理完毕；

所述的步骤1_2中，第1个RGB图神经网络块，其由依次设置的VGG-16bn中的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第二激活层的输出端为其所在的神经网络块的输出端；其中，第一卷积层和第二卷积层的卷积核大小均为 3×3、卷积核个数均为64、补零参数均为1，第一激活层和第二激活层的激活方式均为“Relu”，第一批标准化层、第二批标准化层、第一激活层、第二激活层各自的输出端输出64幅特征图；

第2个RGB图神经网络块，其由依次设置的VGG-16bn中的第一最大池化层、第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层组成，第一最大池化层的输入端为其所在的神经网络块的输入端，第三卷积层的输入端接收第一最大池化层的输出端输出的所有特征图，第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图，第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图，第四卷积层的输入端接收第三激活层的输出端输出的所有特征图，第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图，第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图，第四激活层的输出端为其所在的神经网络块的输出端；其中，第一最大池化层的池化尺寸pool_size为2、步长stride为2，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为 1，第三激活层和第四激活层的激活方式均为“Relu”，第三批标准化层、第四批标准化层、第三激活层、第四激活层各自的输出端输出128幅特征图；

第3个RGB图神经网络块，其由依次设置的VGG-16bn中的第二最大池化层、第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层组成，第二最大池化层的输入端为其所在的神经网络块的输入端，第五卷积层的输入端接收第二最大池化层的输出端输出的所有特征图，第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图，第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图，第六卷积层的输入端接收第五激活层的输出端输出的所有特征图，第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图，第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图，第七卷积层的输入端接收第六激活层的输出端输出的所有特征图，第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图，第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图，第七激活层的输出端为其所在的神经网络块的输出端；其中，第二最大池化层的池化尺寸为2、步长为2，第五卷积层和第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1，第五激活层和第六激活层和第七激活层的激活方式均为“Relu”，第五批标准化层、第六批标准化层、第七批标准化层、第五激活层、第六激活层和第七激活层各自的输出端输出256 幅特征图；

第4个RGB图神经网络块，其由依次设置的VGG-16bn中的第三最大池化层、第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层组成，第三最大池化层的输入端为其所在的神经网络块的输入端，第八卷积层的输入端接收第三最大池化层的输出端输出的所有特征图，第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图，第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图，第九卷积层的输入端接收第八激活层的输出端输出的所有特征图，第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图，第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图，第十卷积层的输入端接收第九激活层的输出端输出的所有特征图，第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图，第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图，第十激活层的输出端为其所在的神经网络块的输出端；其中，第三最大池化层的池化尺寸为2，步长为2，第八卷积层和第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1，第八激活层和第九激活层和第十激活层的激活方式均为“Relu”，第八批标准化层、第九批标准化层、第十批标准化层、第八激活层、第九激活层和第十激活层各自的输出端输出512幅特征图；

第5个RGB图神经网络块其由依次设置的VGG-16bn中的第四最大池化层、第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层组成，第四最大池化层的输入端为其所在的神经网络块的输入端，第十一卷积层的输入端接收第四最大池化层的输出端输出的所有特征图，第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图，第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图，第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图，第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图，第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图，第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图，第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图，第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图，第十三激活层的输出端为其所在的神经网络块的输出端；其中，第四最大池化层的池化尺寸为2，步长为2，第十一卷积层和第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1，第十一激活层和第十二激活层和第十三激活层的激活方式均为“Relu”，第十一批标准化层、第十二批标准化层、第十三批标准化层、第十一激活层、第十二激活层和第十三激活层各自的输出端输出512 幅特征图。

第一个深度图神经网络块其由依次设置的第1下采样层和第一边界权重模块组成，第1下采样层的输入端为其所在的神经网络块的输入端，第一边界权重模块的输入端接收第1下采样层的输出端输出的所有特征图，第一边界权重模块的输出端为其所在的神经网络块的输出端。其中，第1下采样层的缩小系数为2，采用的方法为最近邻差值；如图3-b所示，第一边界权重模块其由第七最大池化层和第八均值池化层以及第十三和第十四卷积层组成，第十三卷积层和第七最大池化层和第八均值层为其所在神经网络块的输入端，将第十三和第十四卷积层的输出端的特征图进行相加操作的结果作为该神经网络块的输出，其中第十三和十四卷积核大小均为1×1、卷积核个数为128，第七最大池化层和第八均值池化层的尺寸为3，步长为1，补零参数为1，其中的C表示将特征图进行通道叠加的操作，+表示将特征图对应位置相加的操作。

第二个深度图神经网络块其由依次设置的第2下采样层和第二边界权重模块组成，第2下采样层的输入端为其所在的神经网络块的输入端，第二边界权重模块的输入端接收第2下采样层的输出端输出的所有特征图，第二边界权重模块的输出端为其所在的神经网络块的输出端。其中，第2下采样层的缩小系数为4，采用的方法为最近邻差值。对于第二边界权重模块其由第九最大池化层和第十均值池化层以及第十五和第十六卷积层组成，第十五卷积层和第九最大池化层和第十均值层为其所在神经网络块的输入端，将第十五和第十六卷积层的输出端的特征图进行相加操作的结果作为该神经网络块的输出，其中第十五和十六卷积核大小均为1×1、卷积核个数为256，第九最大池化层和第十均值池化层的尺寸为3，步长为1，补零参数为1，其中的C表示将特征图进行通道叠加的操作，+表示将特征图对应位置相加的操作。

第三个深度图神经网络块其由依次设置的第3下采样层和第三边界权重模块组成，第3下采样层的输入端为其所在的神经网络块的输入端，第三边界权重模块的输入端接收第3下采样层的输出端输出的所有特征图，第三边界权重模块的输出端为其所在的神经网络块的输出端。其中，第3下采样层的缩小系数为8，采用的方法为最近邻差值。第三边界权重模块其由第十一最大池化层和第十二均值池化层以及第十七和第十八卷积层组成，第十七卷积层和第十一最大池化层和第十二均值层为其所在神经网络块的输入端，将第十七和第十八卷积层的输出端的特征图进行相加操作的结果作为该神经网络块的输出，其中第十七和十八卷积核大小均为1×1、卷积核个数为512，第十一最大池化层和第十二均值池化层的尺寸为3，步长为1，补零参数为1，其中的C表示将特征图进行通道叠加的操作，+表示将特征图对应位置相加的操作。

对于第1个上采样块，其由依次设置的第十七卷积层，第十七批标准化层、第十七激活层、第十八卷积层，第十八批标准化层、第十八激活层、第十九卷积层，第十九批标准化层、第十九激活层和第一个上采样层组成；第十七卷积层的输入端为其所在的融合神经网络块的输入端，第十七批标准化层的输入端接收第十七卷积层的输出端输出的所有特征图，第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图，第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图，第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图，第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图，第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图，第十九批标准化层的输入端接收第十九卷积层的输出端输出的所有特征图，第十九激活层的输入端接收第十九批标准化层的输出端输出的所有特征图，第一个上采样层的输入端接收第十九激活层的输出端输出的所有特征图，第一个上采样层的输出端为其所在的神经网络块的输出端；其中，第十七卷积层和第十八卷积层和第十九卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为 2，扩张参数为2，第十七激活层和第十八激活层和第十九激活层的激活方式均为“Relu”，第十七批标准化层、第十八批标准化层、第十九批标准化层、第十七激活层、第十八激活层、第十九激活层和第一采样层各自的输出端输出512幅特征图，第一采样层的放大系数为2，采用的方法为双线性差值。

对于第2个上采样块，其由依次设置的第二十卷积层，第二十批标准化层、第二十激活层、第二十一卷积层，第二十一批标准化层、第二十一激活层、第二十二卷积层，第二十二批标准化层、第二十二激活层和第二上采样层组成；第二十卷积层的输入端为其所在的融合神经网络块的输入端，第二十批标准化层的输入端接收第二十卷积层的输出端输出的所有特征图，第二十激活层的输入端接收第二十批标准化层的输出端输出的所有特征图，第二十一卷积层的输入端接收第二十激活层的输出端输出的所有特征图，第二十一批标准化层的输入端接收第二十一卷积层的输出端输出的所有特征图，第二十一激活层的输入端接收第二十一批标准化层的输出端输出的所有特征图，第二十二卷积层的输入端接收第二十一激活层的输出端输出的所有特征图，第二十二批标准化层的输入端接收第二十二卷积层的输出端输出的所有特征图，第二十二激活层的输入端接收第二十二批标准化层的输出端输出的所有特征图，第二个上采样层的输入端接收第二十二激活层的输出端输出的所有特征图，第二个上采样层的输出端为其所在的神经网络块的输出端；其中，第二十卷积层和第二十一卷积层和第二十二卷积层的卷积核大小均为 3×3、卷积核个数均为256、补零参数均为4，扩张参数为4，第二十激活层和第二十一激活层和第二十二激活层的激活方式均为“Relu”，第二十批标准化层、第二十一批标准化层、第二十二批标准化层、第二十激活层、第二十一激活层、第二十二激活层和第二上采样层各自的输出端输出256幅特征图，第二采样层的放大系数为2，采用的方法为双线性差值。

对于第3个上采样块，其由依次设置的第二十三卷积层，第二十三批标准化层、第二十三激活层、第二十四卷积层，第二十四批标准化层、第二十四激活层、第二十五卷积层，第二十五批标准化层、第二十五激活层组成；第二十三卷积层的输入端为其所在的融合神经网络块的输入端，第二十三批标准化层的输入端接收第二十三卷积层的输出端输出的所有特征图，第二十三激活层的输入端接收第二十三批标准化层的输出端输出的所有特征图，第二十四卷积层的输入端接收第二十三激活层的输出端输出的所有特征图，第二十四批标准化层的输入端接收第二十四卷积层的输出端输出的所有特征图，第二十四激活层的输入端接收第二十四批标准化层的输出端输出的所有特征图，第二十五卷积层的输入端接收第二十四激活层的输出端输出的所有特征图，第二十五批标准化层的输入端接收第二十五卷积层的输出端输出的所有特征图，第二十五激活层的输入端接收第二十五批标准化层的输出端输出的所有特征图，第三个上采样层的输入端接收第二十五激活层的输出端输出的所有特征图，第三个上采样层的输出端为其所在的神经网络块的输出端；其中，第二十三卷积层和第二十四卷积层和第二十五卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6，扩张参数为6，第二十三激活层和第二十四激活层和第二十五激活层的激活方式均为“Relu”，第二十三批标准化层、第二十四批标准化层、第二十五批标准化层、第二十三激活层、第二十四激活层、第二十五激活层和第三上采样层各自的输出端输出128幅特征图，第三采样层的放大系数为2，采用的方法为双线性差值。

对于第4个上采样块，其由依次设置的第二十六卷积层，第二十六批标准化层、第二十六激活层、第二十七卷积层，第二十七批标准化层、第二十七激活层、第二十八卷积层，第二十八批标准化层、第二十八激活层和第四上采样层组成；第二十六卷积层的输入端为其所在的融合神经网络块的输入端，第二十六批标准化层的输入端接收第二十六卷积层的输出端输出的所有特征图，第二十六激活层的输入端接收第二十六批标准化层的输出端输出的所有特征图，第二十七卷积层的输入端接收第二十六激活层的输出端输出的所有特征图，第二十七批标准化层的输入端接收第二十七卷积层的输出端输出的所有特征图，第二十七激活层的输入端接收第二十七批标准化层的输出端输出的所有特征图，第二十八卷积层的输入端接收第二十七激活层的输出端输出的所有特征图，第二十八批标准化层的输入端接收第二十八卷积层的输出端输出的所有特征图，第二十八激活层的输入端接收第二十八批标准化层的输出端输出的所有特征图，第四个上采样层的输入端接收第二十八激活层的输出端输出的所有特征图，第四个上采样层的输出端为其所在的神经网络块的输出端；其中，第二十六卷积层和第二十七卷积层和第二十八卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为8，扩张参数为8，第二十六激活层和第二十七激活层和第二十八激活层的激活方式均为“Relu”，第二十六批标准化层、第二十七批标准化层、第二十八批标准化层、第二十六激活层、第二十七激活层、第二十八激活层和第四上采样层各自的输出端输出64幅特征图，第三采样层的放大系数为2，采用的方法为双线性差值。

对于第5个上采样块，其由依次设置的第二十九卷积层，第二十九批标准化层、第二十九激活层、第三十卷积层，第三十批标准化层、第三十激活层、第三十一卷积层，第三十一批标准化层、第三十一激活层组成；第二十九卷积层的输入端为其所在的融合神经网络块的输入端，第二十九批标准化层的输入端接收第二十九卷积层的输出端输出的所有特征图，第二十九激活层的输入端接收第二十九批标准化层的输出端输出的所有特征图，第三十卷积层的输入端接收第二十九激活层的输出端输出的所有特征图，第三十批标准化层的输入端接收第三十卷积层的输出端输出的所有特征图，第三十激活层的输入端接收第三十批标准化层的输出端输出的所有特征图，第三十一卷积层的输入端接收第三十激活层的输出端输出的所有特征图，第三十一批标准化层的输入端接收第三十一卷积层的输出端输出的所有特征图，第三十一激活层的输入端接收第三十一批标准化层的输出端输出的所有特征图，第三十一激活层的输出端为其所在的神经网络块的输出端；其中，第二十九卷积层和第三十卷积层和第三十一卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10，扩张参数为10，第二十九激活层和第三十激活层和第三十一激活层的激活方式均为“Relu”，第二十九批标准化层、第三十批标准化层、第三十一批标准化层、第二十九激活层、第三十激活层和第三十一激活层各自的输出端输出64幅特征图。

所述的步骤1_2中，如图3-a所示，第一个均值最大最小滤波模块，其由第五最大池化层和第六最大池化层组成，第五最大池化层的输入端和第六最大池化层的输入端为均值最大最小滤波模块的输入端，第一个均值最大最小滤波模块的输出端为其所在神经网络块的输出端；其中第一均值最大最小滤波模块的输出端输出1幅特征图，两个最大池化层的尺寸均为3，步长均为1，补零参数均为1。对于第一均值最大最小滤波，其计算过程是将输入的特征图直接输入其中一个最大池化层，再将输入的特征图乘以-1输入到另一个最大池化层，再将两个最大池化层的结果相加，最后除以相加获得的特征图中的最大值，将此特征图作为最终的输出。

对于第一个最大最小滤波，其由平行放置的两个最大池化层组成，其中两个最大池化尺寸均为3，步长均为1，补零参数均为1。其计算过程是将输入的特征图直接输入其中一个最大池化层，再将输入的特征图乘以-1输入到另一个最大池化层，再将两个最大池化层的结果相加作为输出。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch1.0.1构建本发明方法提出的卷积神经网络的架构。采用真实物体图像数据库NJU2K测试集，来分析利用本发明方法预测得到的彩色真实物体图像(取397幅真实物体图像)的显著性检测效果如何。这里，利用评估显著性检测方法的3个常用客观参量作为评价指标，即类准确率召回率曲线(Precision RecallCurve)、平均绝对误差(Mean Absolute Error，MAE)、F度量值(F-Measure)来评价预测显著性检测图像的检测性能。

利用本发明方法对真实物体图像数据库NJU2K测试集中的每幅彩色真实物体图像进行预测，得到每幅彩色真实物体图像对应的预测显著性检测图像。反映本发明方法的显著性检测效果的类准确率召回率曲线(PR Curve)如图1-a所示，反映本发明方法的显著性检测效果的平均绝对误差(MAE)如图1-b所示，值为0.066，反映本发明方法的显著性检测效果的F度量值(F-Measure)如图1-c所示，值为0.846。

图4a给出了同一场景的第1幅原始的彩色真实物体图像，图4b给出了图4a对应的深度图像，图4c给出了利用本发明方法对图4a进行预测得到的预测显著性检测图像；图5a给出了同一场景的第2幅原始的彩色真实物体图像，图5b给出了图5a对应的深度图像，图5c给出了利用本发明方法对图5a进行预测得到的预测显著性检测图像；图 6a给出了同一场景的第3幅原始的彩色真实物体图像，图6b给出了图6a对应的深度图像，图6c给出了利用本发明方法对图6a进行预测得到的预测显著性检测图像；图7a 给出了同一场景的第4幅原始的彩色真实物体图像，图7b给出了图7a对应的深度图像，图7c给出了利用本发明方法对图7a进行预测得到的预测显著性检测图像。对比图4a 和4c，对比图5a和图5c，对比图6a和图6c，对比图7a和图7c，可以看出利用本发明方法得到的预测显著性检测图像的检测精度较高。

Claims

1.一种基于边界增强的显著性检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于边界增强的显著性检测方法，其特征在于，所述卷积神经网络的输入层包括RGB图输入层和深度图输入层，隐层包括深度图处理模块、RGB图处理模块和后处理模块，输出层包括依次连接的显著性输出层、第一最大最小滤波模块和显著性边界输出层；

RGB图输入层包括依次连接的五个RGB图神经网络块；深度图处理模块包括一个第一均值最大最小滤波模块和三个深度图神经网络块，第一均值最大最小滤波模块的输出分别输入第一个深度图神经网络块、第二个深度图神经网络块、第三个深度图神经网络块；第一个深度图神经网络块的输出和第二个RGB图神经网络块的输出相乘后再与第二个RGB图神经网络块的输出相加作为第三个RGB图神经网络块的输入，第二个深度图神经网络块的输出和第三个RGB图神经网络块的输出相乘后再与第三个RGB图神经网络块的输出相加作为第四个RGB图神经网络块的输入，第三个深度图神经网络块的输出和第四个RGB图神经网络块的输出相乘后再与第四个RGB图神经网络块的输出相加作为第五个RGB图神经网络块的输入；

后处理模块包括五个依次连接的上采样块，第一个上采样块的输入为第五个RGB图神经网络块的输出，第一个上采样块的输出与第五个RGB图神经网络块的输入相加后作为第二个上采样块的输入，第二个上采样块的输出与第四个RGB图神经网络块的输入相加后作为第三个上采样块的输入，第三个上采样块的输出与第三个RGB图神经网络块的输入相加后作为第四个上采样块的输入，第四个上采样块的输出与第二个RGB图神经网络块的输入相加后作为第五个上采样块的输入，第五个上采样块的输出作为显著性输出层的输入；

3.根据权利要求1所述的一种基于边界增强的显著性检测方法，其特征在于，第一个RGB图神经网络块包括依次连接的两个卷积块，第二个RGB图神经网络块包括依次连接的最大池化层和两个卷积块，第三个RGB图神经网络块、第四个RGB图神经网络块和第五个RGB图神经网络块均包括依次连接的最大池化层和三个卷积块；

每个深度图神经网络块均包括依次连接的下采样层和边界权重模块；每个边界权重模块包括一个最大池化层、一个均值池化层和两个卷积层，每个边界权重模块的输入分别输入最大池化层、均值池化层和第一个卷积层，最大池化层和均值池化层的输出进行通道叠加后输入第二个卷积层，第一个卷积层和第二个卷积层的输出相加后作为每个边界权重模块的输出；

每个上采样块包括依次连接的三个卷积块和一个上采样层；

第一均值最大最小滤波模块包括两个最大池化层，第一均值最大最小滤波模块的输入直接输入第一均值最大最小滤波模块中第一个最大池化层，第一均值最大最小滤波模块的输入乘以-1后输入第一均值最大最小滤波模块中第二个最大池化层，将两个最大池化层的输出相加后得到的特征图除以该特征图中的最大值得到第一均值最大最小滤波模块的输出；

4.根据权利要求3所述的一种基于边界增强的显著性检测方法，其特征在于，每个卷积块包括依次连接的卷积层、批标准化层和激活层；第一个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2，扩张参数为2；第二个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为4，扩张参数为4；第三个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6，扩张参数为6；第四个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为8，扩张参数为8；第五个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10，扩张参数为10。

5.根据权利要求3所述的一种基于边界增强的显著性检测方法，其特征在于，第一均值最大最小滤波模块和第一最大最小滤波模块中的两个最大池化层的尺寸均为3，步长均为1，补零参数均为1；每个边界权重模块中的两个卷积层大小均为1×1，第一个边界权重模块、第二个边界权重模块、第三个边界权重模块中卷积层的卷积核个数分别为128、256、512；每个边界权重模块中的最大池化层和均值池化层的尺寸均为3，步长均为1，补零参数均为1。

6.根据权利要求2所述的一种基于边界增强的显著性检测方法，其特征在于，所述RGB图输入层的输入端接收RGB图像，深度图输入层的输入端接收RGB图像对应的深度图像；输出层的输出为显著性输出层输出的显著性检测图像和显著性边界输出层输出的显著性边界图像。