CN109766918B

CN109766918B - 基于多层次上下文信息融合的显著性物体检测方法

Info

Publication number: CN109766918B
Application number: CN201811547592.3A
Authority: CN
Inventors: 程明明; 刘云
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2021-04-30
Anticipated expiration: 2038-12-18
Also published as: CN109766918A

Abstract

一种基于多层次上下文信息融合的显著性物体检测的方法。该方法的目的是构造并利用多层级的上下文特征进行图像显著性检测。该方法设计了一种新的卷积神经网络架构，这种新的卷积神经网络架构以由高层卷积至底层卷积的方式进行优化，从而为图像提取不同尺度上的上下文信息，将这些上下文信息进行融合可以获得高质量的图像显著性图。使用该方法检测出的显著性区域，可以用来辅助其他视觉任务。

Description

基于多层次上下文信息融合的显著性物体检测方法

技术领域

本发明属于图像处理技术领域，特别涉及到一种基于多层次上下文特征融合的显著性物体检测的方法。

背景技术

显著性物体检测，也被称为显著性检测，致力于模拟人类视觉系统来检测一张图像中显著的物体或者区域。显著性物体检测技术在计算机视觉中有着广泛的用途，比如图像检索、视觉跟踪、场景分类、基于内容的视频压缩和弱监督学习。虽然很多重要的显著性模型已经被提出了，但是显著性检测的精度仍然差强人意，尤其是在很多复杂的场景下。

传统的显著性检测方法通常手工设计很多底层的特征和先验知识，但是这些特征和先验知识是很难描述语义的物体和场景的。显著性物体最近的进步主要来自于卷积神经网络。卷积神经网络的主干网络通常由几个堆叠在一起的卷积/池化模块组成，其中靠近输入的模块被称作底层，而离输入较远的模块被称作高层。在深度学习社区中，人们普遍认为神经网络的高层包含语义相关的信息，而神经网络的底层包含辅助的细节信息。因此，如今领先的显著性物体检测方法都设计了各种复杂的网络架构来融合神经网络底层和高层的特征以进行精确的显著性检测。比如，在2017年CVPR上发表的论文“Deeply supervisedsalient object detection with short connections”中，作者通过实验小心地选择了几组由不同的高层和底层卷积模块组成的集合，每个集合将选定的若干个卷积模块的预测结果相融合得到一个预测，最后再将所有集合上的结果相融合得到最终的显著性检测结果。在2018年CVPR上发表的论文“Detect globally,refine locally:A novel approach tosaliency detection”中，作者提出了一种递归的模型来过滤掉不同卷积模块中的噪声然后再将它们融合。最近两年提出的网络高层和底层相融合的方法已经变得越来越复杂。由于文献太多，在此就不再一一赘述。那么，为了提高显著性物体检测的精度，我们是不是必须要设计越来越复杂的高底层特征融合的模型呢？

为了回答上述的问题，我们注意到，最近有一些深度学习的论文针对其他的图像任务提出了一些学习图像的全局上下文信息的神经网络模型。在2017年的CVPR上发表的论文“Pyramid scene parsing network”中，作者在神经网络的末尾添加了一些不同尺度的池化层来提取图像的上下文信息。在2018年的CVPR上发表的“Context encoding forsemantic segmentation”一文中，作者用另一篇论文“Deep TEN:Texture encodingnetwork”(2017年CVPR论文)中的编码方法构造了一个上下文信息提取模块。这两篇论文在语义分割这项任务上取得了较好的结果。由于显著性物体检测更加注重细节信息，上述的技术并不能直接用于显著性检测。

发明内容

本发明目的是解决现有技术中存在的不能充分利用图像中蕴含的上下文信息的技术问题，提供一种基于多层次上下文信息融合的显著性物体检测方法。该方法通过输入一张任意大小的图像，系统就可以高效的检测出图像中显著性物体。

为了实现本发明的目的，我们提出了一种新的卷积神经网络模型，所述模型以一种从顶层到底层的方式学习，顶层可以指导底层的训练，自动生成多层次的上下文信息，既包括粗糙的全局信息，也包括精细的局部信息，从而能够进行准确的显著性物体检测。

因此，和以往的方法相比，本发明主要的创造性在于两点：首先，我们设计了一种新的带有镜像连接的“编码-解码”型网络，它不同于传统的“编码-解码”型网络(没有镜像连接)，也不同于广泛使用的全卷积网络模型(无“编码-解码”机制)；其次，我们将多层次的上下文信息融合起来进行显著性物体检测，即特征的融合，而之前的方法都是用不同阶段的特征得到对应的显著性概率图，最后把各阶段的显著性概率图进行融合，这种融合方式不能充分利用神经网络高层和底层特征之间的互补性。

本发明的技术方案：

基于多层次上下文信息融合的显著性物体检测方法，该方法包含如下步骤：

a.用户输入一张任意大小的图片到一个带有镜像连接的“编码-解码”型卷积神经网络模型中，所述模型的镜像连接是指将“编码”部分产生的特征对称地加入到“解码”部分中去，它可以看作是“编码-解码”网络的一个变种；所述“解码”部分逐步将卷积网络产生的特征图放大，在每个镜像连接中，我们用固定双线性卷积核的反卷积层将“解码”部分的特征图放大二倍，从而与“编码”部分的特征图进行逐元素的相加以融合。

b.所述卷积神经网络模型的“解码”部分带有侧连接，这些侧连接后都带有深度监督(deep supervision)的损失函数，可以将主干网络学习到的特征进一步转化为上下文信息；不同的卷积模块则构成了多层次的上下文信息，“解码”部分网络将这些多层次的上下文信息提取出来，从而得到多层次的上下文信息；在每个侧连接中，先是将“解码”部分产生的特征图经过几个卷积层，再用固定双线性卷积核的反卷积层将特征图放大到原图片大小，得到包含上下文信息的特征图，之后有两个分支，一个分支产生显著性概率图并加损失函数监督，另一个分支将得到的包含上下文信息的特征图输出。

c.将获得的多层次的上下文信息进行融合，经过几个卷积层就能够得到与输入图像同样大小的显著性概率图，就可以进行精确的显著性物体检测。

本发明的优点和有益效果：

本发明通过一个带有镜像连接的“编码-解码”型卷积神经网络模型将卷积神经网络产生的特征从高到低地融合，从而产生了多层次的上下文信息。通过将多层次上下文信息进行融合，可以进行更精确的显著性物体检测。此外，由于主干网络“解码”部分的每个卷积模块都有监督(深度监督)，主干网络会自发的从高层到低层进行优化，网络高层的全局上下文信息会辅助网络底层学习到局部上下文信息。

附图说明

图1为本发明设计的带有镜像连接的“编码-解码”型卷积神经网络。

图2为连接在“编码-解码”型网络的“解码”部分上的侧连接模块。

图3为基于新的卷积神经网络架构进行显著性检测的效果图和其他方法的对比。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

基于多层次上下文信息融合的显著性物体检测方法，该方法的具体操作如下：

a.本网络模型是一个带有镜像连接的“编码-解码”型卷积神经网络模型，其中的编码部分可以是Karen Simonyan发表的“Very Deep Convolutional Networks forLarge-Scale Image Recognition”文章中提到的VGG16架构，也可以是Kaiming He发表的“Deep residual learning for image recognition”文章中提到的ResNet架构，或者其他的基础网络架构。针对VGG16网络来说，如图1所示，在基础的网络架构上，我们首先去掉了所有的全连接层，然后添加两层卷积，卷积核大小分别是3×3和1×1，通道数都是1024。因此，在网络的“编码”部分，VGG16中包含的五个池化层可以将网络分成六部分(图1中的前六个模块)，顺序地将它们记为

由于每个池化层将特征图的大小缩小一半，所以

的大小是

的一半。我们将编码的最后一层

经过1×1的卷积、上采样、剪切后变为和“编码”的倒数第二层

大小相等的特征图，再和

逐元素相加、经过两个卷积层得到上采样后的特征图

随后，特征图

和“编码”网络的倒数第三层

重复上述1×1的卷积、上采样、剪切、逐元素相加、经过两个卷积层的步骤，得到

重复这些操作依次可以得到

其中

和输入图像大小相等。对于

得到他们的所有卷积的通道数分别都是512，256，256，128和128；逐元素相加之后添加的两个卷积层，

所对应的卷积核大小分别5×5、5×5、5×5、3×3和3×3。

b.从解码网络的每个卷积模块上引出一个侧连接，构造出一个上下文信息融合模块，如图2所示。解码网络的每个卷积模块上都先连接两个卷积层，

上所用的卷积核大小分别是5×5、5×5、5×5、3×3和3×3，输出通道数分别是512，256，256，128和128。这两个卷积层之后，再连接一个3×3的不带ReLU的卷积层，输出通道数是25，经过上采样，即可得到图像在该模块上的上下文特征图，该特征图和输入图像大小相等。一方面，我们在得到的每个特征图后加一个1×1的卷积将其变为显著性预测图，在训练中添加类别平均的Sigmoid交叉熵损失函数进行监督，这可以保证网络的优化是从高层到底层进行的；另一方面，我们将所有的上下文特征图堆叠在一起得到多层的上下文信息(如图2所示)，进行最终的显著性检测，并在训练中添加损失函数进行监督。

图3展示了几个采用本发明的方法和其他方法进行显著性物体检测的对比的例子。最左边的图是原始图像，中间的是各种其他方法的结果，右边倒数第二列是本发明方法的结果，最右边是正确的标注结果。可以清晰的看到，本发明方法能够取得更好的显著性检测效果。具体来说，前两个例子说明本发明提出的方法可以检测出显著性物体的细节，而其他方法不能；第三、第四和第五个例子说明本发明可以从很复杂的场景下检测出显著性物体，而传统的方法在这些场景下往往会失败；第六和第七个例子说明本发明对于包含多个显著性物体的图片表现较好，而传统的方法在多个物体的情况下往往会漏检或崩溃；第八个例子说明本发明可以完整地检测出图片中较大的物体，而传统的方法对于较大的物体往往只能检测出物体的一部分。

Claims

1.一种基于多层次上下文信息融合的显著性物体检测的方法，其特征在于，该方法包含如下步骤：

a.用户输入一张任意大小的图片到一个带有镜像连接的“编码-解码”型卷积神经网络模型中，所述模型的镜像连接是指将“编码”部分产生的特征对称地加入到“解码”部分中去；所述“解码”部分逐步将卷积网络产生的特征图放大，在每个镜像连接中，用固定双线性卷积核的反卷积层将“解码”部分的特征图放大二倍，从而与“编码”部分的特征图进行逐元素的相加以融合；

b.所述卷积神经网络模型的“解码”部分带有侧连接，所述的侧连接后都带有深度监督(deep supervision)的损失函数，能够将主干网络学习到的特征进一步转化为上下文信息，不同的卷积模块则构成了多层次的上下文信息，通过这些侧连接，“解码”部分网络将这些在各个阶段产生的多层次上下文信息都提取出来，从而得到多层次的上下文信息；在每个侧连接中，先是将“解码”部分产生的特征图经过几个卷积层，再用固定双线性卷积核的反卷积层将特征图放大到原图片大小，得到包含上下文信息的特征图，之后有两个分支，一个分支产生显著性概率图并加损失函数监督，另一个分支将得到的包含上下文信息的特征图输出；

c.将获得的多层次的上下文信息进行融合，经过几个卷积层就能够得到与输入图像同样大小的显著性概率图，从而进行精确的显著性物体检测。