CN109360191A

CN109360191A - 一种基于变分自编码器的图像显著性检测方法

Info

Publication number: CN109360191A
Application number: CN201811113241.1A
Authority: CN
Inventors: 孙正兴; 徐峻峰; 李博; 胡佳高
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-02-19
Anticipated expiration: 2038-09-25
Also published as: CN109360191B

Abstract

本发明公开了一种基于变分自编码器的图像显著性检测方法，包括如下步骤：首先将输入图像分割成超像素，并计算每个超像素的边界连通性，根据连通性值筛选出背景样本集；然后构建变分子编码器深度网络模型，使用得到的背景样本数据通过随机梯度下降方式对网络进行训练；最后，使用训练完成的变分自编码器网络对整幅图像的所有超像素进行重建，并计算重建错误，得到显著性值。

Description

一种基于变分自编码器的图像显著性检测方法

技术领域

本发明属于图像处理技术领域，涉及一种基于变分自编码器的图像显著性检测方法。

背景技术

最近，致力于寻找图像中重要部分的显著性检测已经成为计算机视觉领域研究中的热点问题。显著性检测作为视觉媒体处理的重要一环，为诸如对象分割，图像检索，图像内容编辑等诸多视觉应用提供了有效的帮助。

通常，在显著性检测领域，已有的方法可以被分为自上而下或者自下而上两种。自上而下的方法是任务驱动型，需要人工标注的真值图像进行监督训练。为了更好地从背景中辨别显著物体，我们需要应用高级信息和监督方法来提高显著性图的准确率。相反，自下而上的方法通常利用低级线索，比如特征，颜色和空间距离来构建显著性图。一种应用最多的原则是对比度优先原则。这种原则主要是通过计算一个区域和周围环境的颜色对比度和空间对比度来得到该区域的显著性值。然而，已有方法都是通过计算图像区域在低层特征上的差异对比度来计算显著性结果，如专利《一种显著性区域的检测方法》(201510297326.X)，通过计算图像区域的RGB与LAB颜色空间上的特征对比度来得到区域的显著性值。当遇到较为复杂的图像时，低层特征对比度无法反应出显著差异，导致检测结果较差。另外，还有一些方法是基于边缘优先性。它们假设图像边缘的区域更加有可能成为背景，如专利《一种图像目标显著性度量方法》(201711124512.9)，通过计算边界图像块与最临近目标图像块的匹配差异来计算任意目标的显著性值。诚然，图像的边缘有很大可能成为背景，这在文献1：A.Borji,D.N.Sihite,and L.Itti.Salient object detection:Abenchmark.In Computer Vision--ECCV 2012,pages 414--429.Springer,2012.1，中有所证明。但是，像之前大多数方法那样，将图像边缘上的所有点都归为背景点并不合理。如果目标物体出现在图像的边缘，被选做背景的种子就会不准确，并直接导致错误的显著检测结果。同时，已有的方法在发掘背景种子点的模式时，受模型本身的限制，对于背景的泛化表达能力差，也会导致部分背景区域被检测出较高的显著性。

纵观现有的图像显著性领域的研究和应用可知，目前的单幅图像显著性检测方法，存在着如下的不足：

(1)仅使用低层图像特征进行显著性计算，导致显著检测结果存在图像语意层面的误差。

(2)在利用边缘优先性时，错误选取目标物体为背景种子点，导致错误的显著检测结果。使用的模式识别模型在泛化表达能力上有所欠缺，导致背景区域被误检为显著对象。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于变分自编码器的图像显著性检测算法，用于支持对图像中显著目标的有效检测。

为了解决上述技术问题，本发明公开了一种基于变分自编码器的图像显著性检测算法，包括如下步骤：

包括如下步骤：

步骤1，输入图像，筛选背景样本；

步骤2，通过背景样本训练变分自编码器深度网络模型；

步骤3，通过变分自编码器深度网络模型计算超像素重建错误，得到图像的显著性值。

步骤1包括如下步骤：

步骤1-1，使用SLIC(Simple Linear Iterative Cluster)简单线性迭代聚类方法将输入的整幅图像划分为N₁(一般取值为300)个超像素，并计算每个超像素的平均CIELab颜色统计特征值；

步骤1-2，使用K-means聚类算法通过对超像素CIELab颜色统计特征值进行聚类得到图像区域，并计算每个图像区域的边界连通性；

步骤1-3，计算区域中超像素的边界连通性；

步骤1-4，根据超像素的边界连通性计算得到超像素属于背景的概率。

步骤1-2中，使用如下公式计算每个图像区域的边界连通性：

其中RG_m代表图像中第m个区域，bdconn(RG_m)代表第m个区域的边界连通性，SP_i代表图像中第i个超像素，BD代表边界区域，即图像最外围超像素组成的区域。

步骤1-3中，使用如下公式计算图像区域中超像素的边界连通性：

bdconn(SPO＝bdconn(RG_m)，(SP_i∈RG_m)

其中，bdconn(SP_i)表示第i个超像素的边界连通性，第i个超像素的边界连通性与其所在图像区域的边界连通性相同，

步骤1-4中，通过如下公式计算得到超像素属于背景的概率：

其中bgPro(SP_i)代表第i个超像素属于背景的概率，表示平衡权重，选取属于背景的概率大于或等于N₂(一般取值为0.8)的超像素组成背景样本集合B。

步骤2包含如下步骤，

步骤2-1，构建一个深度为5的变分自编码器深度网络模型，包括输入层，隐藏层一，变分层，隐藏层三，输出层，相邻两层之间采用全连接方式连接，其中输入层单元数量为N₃(一般取值为400)，对应于超像素中包含的像素RGB值，隐藏层单元数量为N₄(一般取值为300)，网络为对称设计形式，即变分自编码器中编码器部分和解码器部分网络结构对称一致；

步骤2-2，使用方向传播和随机梯度下降法训练变分自编码器深度网络模型：每一个隐藏层需要训练的参数为W_j和b_j，输入为向量x，表示背景样本集合B中超像素SP_i中像素RGB值，输出为向量当进行反向传播时，输入为向量y，输出为向量是网络中使用的非线性激活函数；训练过程中，损失函数L定义为编码解码交叉熵和KL散度之和，公式如下：

其中q(z|x)为输入向量x在变分空间z中的高斯分布，p(x|z)是输出向量在变分空间z中的高斯分布通，损失函数前项表示交叉熵损失，后项

D_KL(q(z|x)||p(z))是KL(Kullback-Leibler Divergence)散度，对每个隐藏层，分别使用随机梯度下降法，最小化L，得到参数W_j和b_j。

步骤3包含如下步骤，

步骤3-1，对于图像中第i个超像素SP_i，x_i表示其RGB像素值，通过训练得到的变分自编码器深度网络模型，得到x_i对应的编码解码结果从而计算得到该超像素SP_i的变分重建错误

步骤3-2，通过第i个超像素SP_i的变分重建错误计算得到第i个超像素SP_i的显著性值

步骤3-3，采用步骤3-1～步骤3-2的方法得到N₁个超像素的显著性值，从而得到图像的显著性值。

步骤3-1中，通过如下公式计算得到第i个超像素SP_i的变分重建错误

步骤3-2中，通过如下公式计算得到第i个超像素SP_i的显著性值

本发明通过引入变分自编码器深度网络尝试从深度空间计算图像显著性，克服了以往背景模式建模时模型泛化能力不足的情况；同时利用有超像素的边界连通性优化了边缘背景种子点的选取过程，大大降低了目标对象被错选为背景样本的可能，提高了显著性检测的的精度。从而使得本发明有着较高的应用价值。

有益效果：本发明具有如下优点：首先，本发明基于边界连通性检测进行背景样本的筛选，获得了包含错误较少的纯净背景样本集合，提高了对图像非显著背景区域的建模精度；其次，本发明通过构建新的变分自编码器深度网络，并通过随机梯度下降方式对其进行了高效训练，实现了在深度空间上对图像显著信息的探查，并提高了对背景建模的泛化能力；最后，本发明提出基于变分重建错误计算得到的图线显著性方法，能得到输入图像较为准确的显著性检测结果，提高了检测精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明的处理流程示意图。

图2是变分自编码器结构示意图。

图3a是对部分牲畜类图像进行显著检测的结果与已有其他显著性方法检测结果对比示意图。

图3b是对部分人脸图像进行显著检测的结果与已有其他显著性方法检测结果对比示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本发明公开了一种基于变分自编码器的图像显著性检测算法，包括如下步骤：

步骤1，背景样本筛选。

步骤1.1，使用文献2：R.Achanta,A.Shaji,K.Smith,A.Lucchi,P.Fua,and S.S¨usstrunk.Slic superpixels compared to state-of-the-art superpixel methods.T-PAMI,34(11):2274–2282,2012，中SLIC(简单线性迭代聚类)方法将输入的整幅图像划分为300个超像素，并计算每个超像素的平均CIELab颜色统计特征值。

步骤1.2，利用文献3：W.Zhu,S.Liang,Y.Wei,and J.Sun,“Saliencyoptimization from robust background detection,”in Proceedings of the IEEEComputer Society Conference on Computer Vision and Pattern Recognition,2014,pp.2814–2821，中边界连通性计算超像素属于背景的概率，实现使用如下公式计算每个区域的边界连通性：

其中RG_m代表图像中第m个区域，bdconn(RG_m)代表第m个区域的边界连通性，SP_i代表图像中第i个超像素，BD代表边界区域。然后区域中超像素的边界连通性可以用如下公式计算：

bdconn(SP_i)＝bdconn(RG_m),(SP_i∈RG_m)

其中超像素i的边界连通性与其所在区域的边界连通性相同。

然后根据超像素的边界连通性可以计算得到超像素属于背景的概率，计算公式如下：

其中bgPro(SP_i)代表第i个超像素的背景概率，属于平衡权重。选取背景概率大于或等于0.8的超像素组成背景样本集合B。

如图2所示，为本发明步骤2，变分自编码器训练，具体包括：

步骤2.1，构建变分自编码器模型：构建一个深度为5的变分自编码器深度网络模型，包括输入层，隐藏层一，变分层，隐藏层三，输出层，相邻两层之间采用全连接方式连接。其中输入层单元数量为400，对应于超像素中包含的像素RGB值。隐藏层单元数量为300，网络为对称设计形式。

步骤2.2，使用方向传播和随机梯度下降法训练神经网络模型：使用文献4：HintonG E,Salakhutdinov R R.Reducing the dimensionality of data with neuralnetworks[J].science,2006,313(5786):504-507，中的方法训练网络。每一个隐藏层需要训练的参数为W_j和b_j，输入为向量x，表示背景样本集合B中超像素SP_i中像素RGB值，输出为向量当进行反向传播时，输入为向量y，输出为向量是网络中使用的非线性激活函数；训练过程中，损失函数定义为编码—解码交叉熵和KL散度之和，公式如下：

其中q(z|x)为输入向量x在变分空间z中的高斯分布，p(x|z)是输出向量在变分空间z中的高斯分布通，损失函数前项是交叉熵，后项是KL散度。对每个隐藏层，分别使用随机梯度下降法，最小化L，得到参数W_j和b_j；

步骤3，计算超像素重建错误，得到显著性值。

对于图像中所有的超像素SP_i，x_i表示其RGB像素值。通过训练得到的变分自编码器深度网络，对于每个x_i，都能得到其对应的编码—解码结果则可以计算该超像素的变分重建错误：

然后可以得到该超像素的显著性值，通过如下公式：

使用文献5：Dingwen Zhang,Deyu Meng,and Junwei Han.2017.Co-saliencydetection via a self-paced multiple-instance learning framework.IEEEtransactions on pattern analysis and machine intelligence 39,5(2017),865–878.

使用文献6：Dingwen Zhang,Junwei Han,Chao Li,Jingdong Wang,and XuelongLi.2016.Detection of Co-salient Objects by Looking Deep andWide.International Journal of Computer Vision 120,2(2016),215–232.https://doi.org/10.1007/s11263-016-0907-4

使用文献7：Xiaochun Cao,Zhiqiang Tao,Bao Zhang,Huazhu Fu,and WeiFeng.2014.Selfadaptively weighted co-saliency detection via rankconstraint.IEEE Transaction on Image Processing 23,9(2014),4175–4186.https://doi.org/10.1109/TIP.2014.等文献结果作为对比结果，进一步说明本发明效果的优点。

图3a是对部分牲畜类图像进行显著检测的结果与已有其他显著性方法检测结果对比示意图；图3a中，第一行是原图，第二行是真值图，第三行是本发明结果，第四行是文献5结果，第五行是文献6结果，第六行是文献7结果，由效果可见，对比已有的显著检测方法，本发明的显著检测结果能够更好地标记出显著对象(牲畜)的完整轮廓，显著对象内的显著性值分布更加均衡，同时能够更好地抑制背景区域(草地、灌木、树林等)的显著性值。

图3b是对部分人脸图像进行显著检测的结果与已有其他显著性方法检测结果对比示意图；图3b中，第一行是原图，第二行是真值图，第三行是本发明结果，第四行是文献5结果，第五行是文献6结果，第六行是文献7结果，由效果可见，对比已有的显著检测方法，本发明的显著检测结果能够更好地标记出显著对象(人脸)的完整轮廓，显著对象内的显著性值分布更加均衡，同时能够更好地抑制背景区域的显著性值，同时减少非显著区域(人脸下方的衣物和脖颈)的干扰。

本发明提供了一种基于变分自编码器的图像显著性检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于变分自编码器的图像显著性检测方法，其特征在于，包括如下步骤：

步骤1，输入图像，筛选背景样本；

步骤2，通过背景样本训练变分自编码器深度网络模型；

2.根据权利要求1所述的方法，其特征在于，步骤1包括如下步骤：

步骤1-1，使用SLIC简单线性迭代聚类方法将输入的整幅图像划分为N₁个超像素，并计算每个超像素的平均CIELab颜色统计特征值；

步骤1-3，计算图像区域中超像素的边界连通性；

3.根据权利要求2所述的方法，其特征在于，步骤1-2中，使用如下公式计算每个图像区域的边界连通性：

4.根据权利要求3所述的方法，其特征在于，步骤1-3中，使用如下公式计算图像区域中超像素的边界连通性：

bdconn(SP_i)＝bdconn(RG_m),(SP_i∈RG_m)，

其中，bdconn(SP_i)表示第i个超像素的边界连通性，第i个超像素的边界连通性与其所在图像区域的边界连通性相同。

5.根据权利要求4所述的方法，其特征在于，步骤1-4中，通过如下公式计算得到超像素属于背景的概率：

其中bgPro(SP_i)代表第i个超像素属于背景的概率，表示平衡权重，选取属于背景的概率大于或等于N₂的超像素组成背景样本集合B。

6.根据权利要求5所述的方法，其特征在于，步骤2包含如下步骤，

步骤2-1，构建一个深度为5的变分自编码器深度网络模型，包括输入层，隐藏层一，变分层，隐藏层三，输出层，相邻两层之间采用全连接方式连接，其中输入层单元数量为N₃，对应于超像素中包含的像素RGB值，隐藏层单元数量为N₄，网络为对称设计形式，即变分自编码器中编码器部分和解码器部分网络结构对称一致；

其中q(z|x)为输入向量x在变分空间z中的高斯分布，p(x|z)是输出向量在变分空间z中的高斯分布通，损失函数前项表示交叉熵损失，后项D_KL(q(z|x)||p(z))是KL散度，对每个隐藏层，分别使用随机梯度下降法，最小化L，得到参数W_j和b_j。

7.根据权利要求6所述的方法，其特征在于，步骤3包含如下步骤，

8.根据权利要求7所述的方法，其特征在于，步骤3-1中，通过如下公式计算得到第i个超像素SP_i的变分重建错误

9.根据权利要求8所述的方法，其特征在于，步骤3-2中，通过如下公式计算得到第i个超像素SP_i的显著性值