CN105701508B

CN105701508B - 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法

Info

Publication number: CN105701508B
Application number: CN201610019206.8A
Authority: CN
Inventors: 王飞; 汪子钦; 姜沛林
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-01-12
Filing date: 2016-01-12
Publication date: 2017-12-15
Anticipated expiration: 2036-01-12
Also published as: CN105701508A

Abstract

本发明提出了一种基于多级卷积神经网络的显著性检测算法，包括使用大感受野的全局估计模型做全局显著性估计；训练全局估计模型时，使用全连接层作为输出层训练并初始化部分卷积层参数；使用多个交替的卷积层和升采样层替换全连接层，训练并得到更优的全局显著性估计图；使用感受野小、输出图片尺寸大的局部卷积神经网络融合全局和局部信息，得到高质量的显著性图。经过局部卷积神经网络的处理，可以将原始图像作为模型的输入，最终的输出的结果不仅与原始输入图像具有相同大小，并且更加清晰。提供的基于多级卷积神经网络的显著性检测算法，相比传统方法，拥有更高的准确性，能更准确找到显著目标的同时，目标轮廓也更加清晰。

Description

基于多级卷积神经网络的全局-局部优化模型及显著性检测算法

【技术领域】

本发明涉及一种基于深度卷积神经网络的自然图像中视觉显著性检测的方法，应用于复杂背景下显著目标区域的检测。

【背景技术】

人类的视觉可以很快地找到周围环境中的显著目标，忽略掉一些人类不感兴趣的信息，并关注视觉图像中重要的部分，这样可以避免大脑处理繁杂而用处不大的信息。视觉显著性检测就是为了模拟人的快速感知环境行为。

随着各种数码设备的普及以及互联网的高速发展，各种图片、视频数据越来越多。与人的视觉类似，计算机可以通过图像或视频的显著性检测来提取图片中显著性信息，快速定位图像中需要处理的区域。通过视觉显著性检测，可以将计算资源优先分配给图像中的主要区域，减少计算开销，在计算机视觉领域意义重大。视觉显著性是很多视觉检测任务的重要步骤，在很多计算机视觉领域都起到了很大的作用，如目标检测与识别、自适应压缩、图像分割、图像检索、基于内容感知的图像编辑等。

神经网络提出时与生物学系统紧密相连，模拟了生物神经元的结构和功能。在BP算法提出后，神经网络能解决许多基本的学习问题。在之后的几十年中，发展出了许多新的方法和技术，例如非监督的权重预训练技术、模型的设计和训练方法，也由此引出了深度学习技术。LeCun在1998年提出了LeNet-5，成功应用于手写体识别并被认为是手写体识别领域评判算法识别性能的标准。随后，卷积神经网络在许多模式识别任务上都取得了很好的效果。使用深度学习技术有助于显著性检测算法取得更鲁棒、更优秀的效果。

现有准确率较高的算法大多使用了过分割技术作为预处理手段，再通过判断每一个分割区域是否显著生成显著性图。这种方法的效果以及运算速度很大地依赖于分割算法，一方面显著目标的边界划分完全依赖于分割算法的分割精度，另一方面运行速度完全受限于分割算法的速度。

【发明内容】

本发明提供了一种基于多级卷积神经网络的显著性检测算法，其目的在于检测、查找自然图像中的显著目标，提高算法的准确度和运行速度。

本发明采用以下技术方案：

一种基于多级卷积神经网络的全局-局部优化模型，包括：全局估计模型和局部优化模型；所述全局估计模型包括初始化分支通路和主通路，所述初始化分支通路由A部分和B部分级联组成，所述主通路由A部分和C部分级联组成；其中，A部分由卷积层和池化层组成；B部分由两个级联的全连接层组成；C部分由多个卷积层和升采样层级联组成；A部分的输入连接原始图像，A部分的输出分别与B部分和C部分的输入连接，C部分的输出作为全局估计模型的输出；局部优化模型主要由卷积层、池化层、升采样层组成，分为D、E两部分；其中，D部分的输入端与原始图像相连，D部分的输出端与全局估计模型的输出端一起输入到E部分的输入端，E部分的输出端即为局部优化模型的输出。

优选地，A部分由七个卷积层和三个池化层组成，其连接关系为：

conv1-pool1-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7，

其中，conv1为输入端，与原始图像连接，conv7为输出端。

优选地，所述C部分的连接为：

upscale1-conv8-conv9-conv10-upscale2-conv11-conv12-upscale3-conv13-conv14-conv15。

一种基于多级卷积神经网络的显著性检测算法，包括以下步骤：

S1：以原始图像作为训练样本，以标准图像为样本标注，通过初始化分支通路对全局估计模型中A部分的参数进行初始化，生成粗略的全局显著性估计图；

S2：以原始图像作为训练样本，以标准图像为样本标注，通过主通路对全局估计模型中C部分的参数进行训练，得到高质量的全局显著性估计图；

S3：以原始图像作为训练样本，以标准图像为样本标准，以得到的粗略的全局显著性图作为参考，对局部优化模型进行训练，即可得到最终的显著性图。

优选地，作为训练样本的原始图像和作为样本标注的标准图像的缩放大小以由所应用的模块决定。

优选地，步骤S2的训练过程中，A部分中的参数固定不变，训练采用以下公式作为损失函数：

θ₂＝{P_convC}

其中，x为输入，y为ground truth，θ₂为C部分的所有参数。

优选地，步骤S3中的训练采用以下公式作为损失函数：

其中，x为输入的原始图像，x_GE为全局显著性估计图输入，y为ground truth，θ₃为局部优化模块的所有参数。

优选地，步骤S1中的初始化采用以下公式作为损失函数：

θ₁＝{P_convA,P_FCs}

h_GI表示该网络的预测结果，x为输入，y为ground truth，θ₁为A部分和B部分的所有参数。

与现有技术相比，本发明至少具有以下有益效果：本发明首先搭建了一种基于多级卷积神经网络的全局-局部优化模型，包括全局估计模型(GEM)和局部优化模型(RfM)；所述全局估计模型包括初始化分支通路和主通路，所述初始化分支通路由A部分和B部分级联组成，所述主通路由A部分和C部分级联组成；其中，A部分由卷积层和池化层组成；B部分由两个级联的全连接层(FC)组成；C部分由多个卷积层和升采样层级联组成；A部分的输入连接原始图像，A部分的输出分别与B部分和C部分的输入连接，C部分的输出为全局估计模型的输出；局部优化模型(RfM)主要由卷积层、池化层、升采样层组成，分为D、E两部分；其中，D部分的输入端与原始图像相连，D部分的输出端与全局估计模型的输出端一起输入到E部分的输入端，E部分的输出端即为局部优化模型的输出。首先对全局估计模型中A部分的参数进行初始化，得到粗略的全局显著性图；然后对全局估计模型中C部分的参数进行训练，得到高质量的全局显著性图；最后以得到的高质量的全局显著性图作为参考，对局部优化模型进行训练，即可得到最终的显著性图。本发明可以将原始图像作为模型的输入，最终的输出的结果不仅与原始输入图像具有相同大小，并且更加清晰。

【附图说明】

图1是本发明具体实施的一种卷积神经网络结构示意图，其中conv表示卷积层，pool表示池化层，upscale表示升采样层，FC表示全连接层；

图2是本发明的实验结果，由左至右：原图、全局显著性图、最终显著性图、标准显著性图；

图3是本发明与其他方法的查准率-查全率曲线(Pricition-Recall curve,简称PR curve)对比。

【具体实施方式】

本发明提供了一种基于多级卷积神经网络的显著性检测算法，所述的基于卷积神经网络的全局-局部优化模型(GE-RM)由全局估计模型(GEM)和局部优化模型(RfM)组成；

全局估计模型有两个输出通路，初始化分支通路和主通路。

全局估计模型的初始化分支通路由A部分和B部分级联组成，A部分由七个卷积层和三个池化层组成，优选的连接顺序为：

conv1-pool1-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7，

其中，conv1为输入端；

B部分由两个级联的全连接层(FC)组成，其中末端的全连接层作为输出层；优选地，输出层有4096个输出单元，可组成一张64x64的显著性图。

全局估计模型的主通路由A部分和C部分级联组成，其中A部分与上述相同。

主通路的输出通路为C部分，由多个卷积层和升采样层级联组成，优选的连接顺序为：upscale1-conv8-conv9-conv10-upscale2-conv11-conv12-upscale3-conv13-conv14-conv15，其中，upscale1连接在A部分的末端(conv7)之后，conv15为输出端；

局部优化模型(RfM)由卷积层、池化层、升采样层组成，分为D和E两部分。

局部优化模型(RfM)有两个输入，及原始图像和由全局估计模型产生的全局显著性图；原始图像输入到D部分的输入端，全局显著性图与D部分的输出一起输入到E部分的输入端，E部分的输出端即为局部优化模型的输出端。

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

具体实施步骤如下：

1、首先使用全连接层作为输出层初始化全局估计模型的A部分参数。

将原始输入图片和标准显著性图缩放到固定大小作为训练的样本和样本标注。

优选地，该部分的卷积神经网络由七个卷积层、三个pooling层、两个全连接层组成(即A部分和B部分)，输入图像数据尺寸固定为[W,W,3]，其中，W为图像的边长，优选为200至300大小，3代表图像的三个色彩通道，即RGB色彩通道。网络的输出层为全连接层，输出层拥有N乘N个神经元，网络输出一幅大小为[N,N]的显著性图，N一般远小于W。

使用随机梯度下降算法训练该A部分的参数，并生成粗略的全局显著性估计图；

A部分和B部分构成的网络的目的在于求解像素点j属于显著目标的概率S_j，可记为：

S_j＝P(y_j＝1|x；θ₁)

θ₁是该网络的参数,y_j是网络对像素点j的显著性估计值，S则代表整幅显著性图，x代表输入数据。

在网络的输出层是一个逻辑回归分类器，使用sigmoid函数作为激活函数：

网络的输出值被归一化到(0,1)，其中，“1”代表显著目标的像素，“0”代表背景目标的像素。

网络的损失函数可记为：

θ₁＝{P_convA,P_FCs}

式中h_GI表示该网络的预测结果，x为输入，y为ground truth，θ₁包含卷积层集合A＝{conv1～7}的参数。式中m为样本数量，P_convA表示A部分的参数，P_FCs表示B部分全连接层(FC)的参数。

2、训练全局估计模型中C的参数。保留上一步中卷积神经网络的卷积层参数(即保留A部分的参数)，将其中的所有全连接层替换为多个卷积层和多个升采样层，即得到C部分，训练并得到高质量的全局显著性估计图；

保留上一步中卷积神经网络的卷积层(conv1～conv7)，将全局估计模型中的所有全连接层移除，替换为多个交替的卷积层和升采样层(upscale layers)；

具体地，所述的升采样层作用在于通过双线性插值，将上一层输出的特征图以倍数S放大，并输出到下一层网络，一般S值设为2倍。升采样层仅执行图像放大操作，不包含任何可学习的参数。

训练替换后的全局估计模型，确保全局估计模型中经训练过的卷积层(conv1～conv7)的参数固定不变，仅训练新加入的卷积层(conv8～conv15)的参数，并生成全局显著性估计图；

网络的损失函数可表示为：

θ₂＝{P_convC}

式中x为输入，y为ground truth，θ₂包含替换后的全局估计模型的所有卷积层(conv8～conv15)的参数，记为P_convC。

3、训练局部优化模块，得到最终的显著性图。

具体地，将原始图片作为局部优化网络模块的输入，标准显著性图作为局部优化网络模块的训练标注，同时将由步骤2生成的全局显著性估计图缩放后输入到局部优化网络模块中；

局部优化网络模块的主体输入为大小为[w,h,3]的原始图像数据，其中w为图像宽度，h为图像高度，3代表图像的RGB颜色通道。局部优化网络模块同时将步骤S22中生成的全局显著性估计图调整到合适大小后输入到网络中，作为一个特征图像。局部优化网络模块中包含多个卷积层，少量pooling层和少量升采样层。并且pooling层的下采样倍数S0和升采样层的升采样倍数S相等，因此该网络的输出尺寸与输出尺寸大小相等，即输出的全局显著性估计图大小与输入的原始图像大小相等。

优选地，局部优化网络模块包含多个卷积层，一个pooling层和一个升采样层，并且pooling层的下采样倍数S0和升采样层的升采样倍数S均设为2。全局显著性估计图缩放后输入到局部优化网络模块的中间部分为优。

使用随机梯度下降算法训练该局部优化网络模块，并生成最终的全局显著性图。在网络的输出层是一个逻辑回归分类器，网络的损失函数可记为：

式中x为输入的原始图像，x_GE为全局显著性估计图输入，y为ground truth，θ₃为局部优化网络模块的网络参数。

4、通过全局、局部两个模型得到最终实验结果。首先将原始自然图像缩放到WxW大小，输入全局估计模型并得到全局显著性图；之后将原始图像和全局显著性图输入到局部优化网络模块中，得到最终的显著性图。

本发明采用查准率-查全率曲线(Pricition-Recall curve,简称PR curve)进行评估，并与多种算法在MSRA10K数据集的测试集上进行测试。

Claims

1.一种基于多级卷积神经网络的全局-局部优化模型的显著性检测算法，其特征在于，

基于多级卷积神经网络的全局-局部优化模型包括：全局估计模型(GEM)和局部优化模型(RfM)；

所述全局估计模型包括初始化分支通路和主通路，所述初始化分支通路由A部分和B部分级联组成，所述主通路由A部分和C部分级联组成；其中，A部分由卷积层conv和池化层pool组成；B部分由两个级联的全连接层(FC)组成；C部分由多个卷积层conv和升采样层upscale级联组成；A部分的输入连接原始图像，A部分的输出分别与B部分和C部分的输入连接，C部分的输出作为全局估计模型主通路的输出；

局部优化模型(RfM)由卷积层、池化层、升采样层组成，分为D、E两部分；其中，D部分的输入端与原始图像相连，D部分的输出端与全局估计模型的输出端一起输入到E部分的输入端，E部分的输出端即为局部优化模型的输出；

A部分由七个卷积层和三个池化层组成，其连接关系为：

conv1-pool1-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7，

其中，conv1为输入端，与原始图像连接，conv7为输出端；

C部分的连接为：

upscale1-conv8-conv9-conv10-upscale2-conv11-conv12-upscale3-conv13-conv14-con v15；

具体方法包括以下步骤：

初始化采用以下公式作为损失函数：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <mo>;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mrow> <mi>G</mi> <mi>I</mi> </mrow> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mrow> <mi>G</mi> <mi>I</mi> </mrow> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

θ₁＝{P_convA,P_FCs}

h_GI表示该网络的预测结果，x为输入，y为ground truth，θ₁为A部分和B部分的所有参数，m为输出结果总的像素点个数，P_convA表示A部分的参数，P_FCs表示B部分全连接层(FC)的参数；

训练过程中，A部分中的参数固定不变，训练采用以下公式作为损失函数：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> <mo>;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

θ₂＝{P_convC}

其中，x为输入，y为ground truth，θ₂为C部分的所有参数；

S3：以原始图像作为训练样本，以标准图像为样本标注，以得到的高质量的全局显著性估计图作为参考，对局部优化模型进行训练，即可得到最终的显著性图；

训练采用以下公式作为损失函数：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mn>3</mn> </msub> <mo>;</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>G</mi> <mi>E</mi> </mrow> </msub> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <msub> <mi>&theta;</mi> <mn>3</mn> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

其中，x为输入的原始图像，x_GE为全局显著性估计图输入，y为ground truth，θ₃为局部优化模型的所有参数。