CN105825502B

CN105825502B - 一种基于显著性指导的词典学习的弱监督图像解析方法

Info

Publication number: CN105825502B
Application number: CN201610140715.6A
Authority: CN
Inventors: 赖百胜; 龚小谨; 江文婷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-12
Filing date: 2016-03-12
Publication date: 2018-06-15
Anticipated expiration: 2036-03-12
Also published as: CN105825502A

Abstract

本发明公开了一种基于显著性指导的词典学习的弱监督图像解析方法。获得图像集及其图像级标签，对每幅图像进行超像素分割，对每个超像素提取多维特征，组合形成特征矩阵；对每幅图像进行显著性检测，得到每个超像素的平均显著值；同时定义包含有不同标签的词典，计算得到每个超像素中的指导向量；构建优化问题模型并进行求解，获得每个超像素的表示系数与其在每个词典原子中的权重以及词典：根据各个超像素的表示系数、权重和词典，求解获得每个超像素对应的标签：由此完成图像解析，获得图像的分割结果。本发明改造了传统词典学习方法，并利用显著性先验，与以往的弱监督图像解析方法相比，得到了更好的效果。

Description

一种基于显著性指导的词典学习的弱监督图像解析方法

技术领域

本发明涉及图像语义分割方法，具体涉及了一种基于显著性指导的词典学习的弱监督图像解析方法。

背景技术

图像解析，即对图像中的每个像素，识别出它的类别，是图像处理中的一个核心问题。传统的图像解析方法，一般利用监督学习的方法，即需要训练数据中的每个像素都带有标签，而对训练数据进行像素级的标注是十分昂贵的。因此，传统监督学习的方法的瓶颈在于训练数据的数量。

为了解决训练数据标注昂贵的问题，近年来，发展出了弱监督的学习方法，即仅利用弱的标签进行学习，并且达到与监督学习近似的性能。具体到图像解析问题中，弱监督的图像解析方法仅利用图像级的标签来学习，即利用图像中包含的类别信息，在不知道这些类别的物体在图像中的具体位置的情况下，对输入图像进行语义的分割，即将每个类别的物体在图像中的具体位置标记出来，从而达到对图像的理解。

在大数据的背景下，虽然数据的总量呈现爆炸式的增长，但是大量的数据只有弱的标记，而传统的监督学习方法并不能利用这些数据。同时，随着图片社交网络，如Flickr的兴起，用户会上传大量的带有图像级标签的图像，使得即使海量的带有图像级标签的数据都可以免费获得。因此，弱监督的图像解析方法比传统的监督学习图像解析方法在大数据时代有更大的用武之地。

然而弱监督的图像解析是一个非常困难的问题，因为用来学习模型的训练数据是有歧义的。比如一幅带有“牛”，“草”，“天空”的图像，算法只知道图像中具有这些标签的物体，但是不知道这些物体的具体位置，因此对于这幅图像的每个像素，都有可能是“牛”，“草”或者“天空”，这些带有歧义的数据会误导分类器的学习。同时传统的弱监督的图像解析方法没有利用其它信息进行指导，仅利用带歧义的训练数据，往往不能得到好的解析结果。

发明内容

本发明的目的在于提供一种基于显著性指导的词典学习的弱监督图像解析方法，本发明利用显著性检测，显著性检测目的在于检测出一幅图像中显著的区域，即人有可能会关注的区域，采用无监督的方法，即并不需要事先训练。由于人更有可能关注前景，因此显著的区域为前景的概率更大。因此，本发明用显著性检测的结果作为前景目标分割的指导，可以大幅提高分割的准确性。

本发明采用的技术方案是包括以下步骤：

1)将有N幅图像的图像集记为I＝{I₁,...I_k,...,I_N}，N表示图像的个数，Y＝{Y₁,...Y_k,...,Y_N}是图像集I的图像级标签，Y_k表示第k幅图像I_k的图像级标签，所有图像级标签共有N_l种；

2)对每幅图像用SLIC算法进行超像素分割，共得到N_s个超像素，对每个超像素p利用卷积神经网络算法(CNN)提取d维特征，将所有超像素的d维特征组合形成d×N_s的特征矩阵A；

3)对每幅图像进行显著性检测，得到每个超像素p的平均显著值S(p)；同时定义一个词典词典D为包含有N_l种不同标签的词典，D_l是属于第l种标签的子词典，D_l＝[D_l1,...,D_lM]，子词典D_l包含M列，每一列称为一个原子(atom)，M表示子词典D_l中的原子个数；

4)再采用以下公式计算得到每个超像素p中指导向量G_p的第i个值：

其中，L(D_i)是词典D第i列所属的标签，I(p)为超像素p所在的图像，T_s为显著性阈值，fbs()表示图像中标签的前-背景值，c为指导向量常量；

5)构建以下公式所表示的优化问题模型并进行求解，获得每个超像素p的表示系数X_p与其在每个词典原子中的权重W_p以及词典D：

其中，tr()表示计算矩阵迹的函数，diag(W_p)将向量W_p转换成对角矩阵，|| ||₁指L1范数，A_p是第p个超像素的CNN特征，X_p为超像素p的表示系数，X为所有超像素的表示系数，W为所有超像素在每个词典原子中的权重，W_p表示超像素p用来学习每个词典原子的权重,L_X表示超像素的邻接矩阵U_X的拉普拉斯矩阵，L_D表示词典D的邻接矩阵U_D的拉普拉斯矩阵，λ₁，λ₂，λ₃，λ₄是第一、第二、第三、第四可调参数；

6)根据各个超像素的表示系数X_p、权重W_p和词典D，采用以下公式求解获得每个超像素p对应的标签

其中，δ_l()表示抽取函数，δ_l(X_p)表示表示系数X_p中关于标签l相关的部分；

抽取函数δ_l()采用以下公式进行计算：

其中，X_p[i]表示表示系数X_p的第i个分量，δ_l(X_p)[i]表示系数X_p中关于标签l相关的部分δ_l(X_p)的第i个分量。

由此完成图像解析，获得图像的分割结果。

所述步骤3)中的显著性检测采用文献(W.Zhu,S.Liang,Y.Wei,andJ.Sun.Saliency optimization from robust background detection.In CVPR,2014)方法。

所述步骤4)中图像标签的前-背景值fbs()具体采用以下公式计算

其中，L_m表示图像k中的第m个标签，fbs(L_m,I_k)表示图像I_k中标签L_m的前-背景值，P(L_n|L_m)为在图像集中标签L_m出现时标签L_n出现的概率，标签L_n表示图像I_k下除标签L_m以外的标签；

所述的超像素邻接矩阵U_X的拉普拉斯矩阵L_x采用以下公式计算：

其中，B_X表示超像素的度矩阵，度矩阵B_X是一个对角矩阵且对角线上的元素U_X表示超像素的邻接矩阵，并采用以下公式计算：

其中，N(q)是与第q个超像素相邻的超像素，p、q分别表示超像素的下标，U_X(p,q)表示矩阵U_X的第p行，第q列的元素。

所述的词典D的邻接矩阵U_D的拉普拉斯矩阵L_D采用以下公式计算：

L_D＝I-B_D ^-1/2U_DB_D ^-1./2

其中，B_D表示词典的度矩阵，度矩阵B_D是一个对角矩阵且对角线上的元素U_D表示词典的邻接矩阵，并采用以下公式计算：

其中，U_D(i,j)表示U_D的第i行、第j列的元素，L(D_j)是词典D第j个原子所属的标签。

所述步骤5)的优化问题模型采用块梯度下降法(Block Coordinate Descent)进行求解，具体采用以下方式：

5.1)记X^t,D^t,W^t分别为在第t次迭代中变量X,D,W的值，根据第t次迭代的词典D^t和第t次迭代的权重W^t求解以下公式计算得到第t+1次迭代的表示系数X^t+1：

其中，指向量W_p在第t次迭代的值；

5.2)接着根据第t+1次迭代的表示系数X^t+1和第t次迭代的权重W^t求解以下公式计算得到第t+1次迭代的词典D^t+1：

其中，表示第p个超像素在第t+1迭代的值；

5.3)最后根据第t+1次迭代的词典D^t+1和第t+1次迭代的表示系数X^t+1求解以下公式计算得到第t+1次迭代的权重W^t+1中的每一列

其中，

所述步骤5.1)的公式利用FISTA算法进行求解，所述步骤5.2)的公式是一个最小二乘问题，利用L-BFGS算法进行求解，所述步骤5.3)的公式是一个二次规划问题，利用interior-point-convex算法进行求解。

本发明方法在传统的词典学习方法中引入权重变量，该权重表示每个训练数据对于不同类别的词典的重要性，同时使用显著性先验来指导权重的更新，使得显著的区域对前景具有大的权重。引入的权重能够减少弱监督中训练数据的歧义性，因此能训练出具有高分辨能力的词典。得到词典之后再利用稀疏表示分类器，对图像的每个超像素进行分类，从而对图像中的每个像素分配语义标签。

与背景技术相比，本发明具有的有益效果是：

本发明利用显著性检测的结果对弱监督图像解析进行指导，同时通过加权的词典学习方法学习每个类别的词典用来分类，大幅度提高了解析结果的准确性。

本发明改进了传统词典学习方法，并利用显著性先验，与以往的弱监督图像解析方法相比，得到了更好的效果。

附图说明

图1是本发明的方法的步骤示意图。

图2是两幅图像的分割结果。

其中图2第1列为原始输入图像和它们的图像级标签，图2第2列为显著图，越亮的区域表示越显著，图2第3列为与图像边缘相接的超像素，未被涂白的区域即为与边缘相接的超像素，图2第4列为本方法的分割结果，图2第5列为分割结果的真值。

具体实施方式

下面结合附图与实施例对本发明进行进一步说明。

本发明的实施例如下：

图1给出了基于显著性指导的词典学习的弱监督图像解析方法的流程图。

(1)对数据集中的每幅图像，利用SLIC进行超像素分割，每幅图的超像素个数为100。对每个超像素利用CNN提取特征，具体为，将超像素所在的最小矩形框，利用插值方法调整为固定大小，输入预先训练好的CNN模型(ImageNet Classification with DeepConvolutional Neural Networks)，取出特征层的输出。

(2)对每幅图像利用文献1(Wangjiang Zhu,Shuang Liang,Yichen Wei,and JianSun.Saliency Optimization from Robust Background Detection.In CVPR,2014)的方法进行非监督的显著性检测，得到每个超像素的平均显著值。按照上述(1)式的定义计算每张图像中，每个标签前-背景值，前-背景值大于零，说明此标签在此图中为前景，反之，则为背景。(1)式基于的假设为，在数据集中，前景会伴随着某一特定背景出现，而背景不会伴随某一前景出现。比如在有“牛”的图像中，“草”也出现的概率很大，但是在有“草”出现的图像中，“牛”也出现的概率并不高。

(3)根据上一步计算的前-背景值，按照(3)计算每个超像素的指导向量。指导向量会引导算法将显著的超像素用来学习前景的词典，将边缘的超像素用来学习背景的词典。

(4)按照式(4)至(6)计算词典和超像素的拉普拉斯矩阵，式(7)中两个tr()项的作用是使类别相同的词典原子更为接近，使特征相似的超像素的标签接近，即起到平滑的作用。

(5)求解式(7)所示的优化问题。由于此优化问题具有三个变量，因此使用块梯度下降法(Block Coordinate Descent)的方法，即每个变量单独优化，并在优化单个变量时固定其他变量，即迭代地求解式(10)至(12)三个标准的优化问题。式(10)所示优化问题是一个稀疏编码的问题，我们使用FISTA算法进行求解。式(11)所示优化问题是最小二乘问题，使用基于梯度的L-BFGS方法进行解。式(12)所示优化问题是二次规划问题，使用interior-point-convex方法进行求解。经试验，外循环的迭代次数为5时，收敛效果好。

(6)在得到表示系数X和词典D后，可以通过重构误差对每个超像素进行分类，即式(8)所示。具体为，对超像素的每一个可能的类别，计算仅用此类别对应的词典和表示系数进行重构的误差，取误差最小的类别为识别的类别。

具体实施中，使用标准数据集MSRC21(J.Shotton,J.Winn,C.Rother,andA.Criminisi.Textonboost for image understanding:Multi-class objectrecognition and segmentation by jointly modeling texture,layout,andcontext.International Journal of Computer Vision,81(1):2–23,2009)和VOC07(M.Everingham,S.A.Eslami,L.Van Gool,C.K.Williams,J.Winn,and A.Zisserman.Thepascal visual object classes challenge:A retrospective.International Journalof Computer Vision,111(1):98–136,2014.)进行测试。MSRC21数据集共有591张带图像级标签的图像，并且每一幅图像均有较为精细的语义分割的真值，其中共有标签21种，包括“天空”，“草”，“水”等背景标签和“牛”，“建筑”，“汽车”等前景标签。VOC07共有632幅带图像级标签的图像，也包含21种标签，其中有20类前景标签和1类杂乱的背景标签。相比较于MSRC21，VOC07的弱监督语义解析的难度更大。

运行算法时，设置可调参数λ₁＝10^-3，λ₂＝5×10^-1，λ₃＝10^-1，λ₄＝10^-2，设置显著性阈值T_s＝30，常量c＝10^-1，外循环次数为5，每个子问题的内循环次数为100，每类词典共学习30个原子。测试时输入图像及对应的图像级标签，输出像素级的语义解析结果。评判时，按照语义解析的通用评判标准，先对每个类别计算召回率，然后计算所有类别召回率的均值，并比对均值的大小，均值越大，说明算法效果越好。其中某一类别召回率的计算方法为：

表1和表2给出了本方法与最新的弱监督语义解析方法的数值结果的比较。可看到，由于加入了显著性的指导，本方法大大优于现有方法。

表1本方法与最新方法在MSRC21数据集上的比较

表2本方法与最新方法在VOC07数据集上的比较

本方法	Zhang	WSG	BiLayer	KNN SG+HG
					54	45	38	32	47

图2给出了数据集中两幅图像的输入，中间结果和最终结果。图2第1列是输入图像和它的图像级标签，第2列是对输入图像进行显著性检测的结果，越亮的区域代表越显著，第3列显示了处于图像边缘的超像素，通过前3列我们可以发现显著的物体一般都是前景物体，如“牛”，“建筑”和“树”，而处于图像边缘的物体，一般都是背景物体，如“草”，“天空”，这也是本方法引入的先验知识，且此先验能够帮助得到更精准的图像解析结果。第4列和第5列分别为本方法的解析结果和真值。

由此可见，本发明能大幅度提高了解析结果的准确性，较传统方法具有突出显著的技术效果，得到了更好的效果。

Claims

1.一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：包括如下步骤：

2)对每幅图像用SLIC算法进行超像素分割，共得到N_s个超像素，对每个超像素p利用卷积神经网络算法提取d维特征，将所有超像素的d维特征组合形成d×N_s的特征矩阵A；

3)对每幅图像进行显著性检测，得到每个超像素p的平均显著值S(p)；同时定义一个词典D＝[D₁,...,D_l,...,D_Nl]，词典D为包含有N_l种不同标签的词典，D_l是属于第l种标签的子词典，D_l＝[D_l1,...,D_lM]，子词典D_l包含M个原子；

其中，tr()表示计算矩阵迹的函数，diag(W_p)将权重W_p转换成对角矩阵，|| ||₁指L1范数，A_p是第p个超像素的卷积神经网络特征，X_p为超像素p的表示系数，X为所有超像素的表示系数，W为所有超像素在每个词典原子中的权重，W_p表示超像素p用来学习每个词典原子的权重,L_X表示超像素的邻接矩阵U_X的拉普拉斯矩阵，L_D表示词典D的邻接矩阵U_D的拉普拉斯矩阵，λ₁，λ₂，λ₃，λ₄分别是第一、第二、第三、第四可调参数，s.t.表示约束条件；

其中，δ_l()表示抽取函数，δ_l(X_p)代表表示系数X_p中关于标签l相关的部分；

抽取函数δ_l()采用以下公式进行计算：

其中，X_p[i]代表表示系数X_p的第i个分量，δ_l(X_p)[i]表示系数X_p中关于标签l相关的部分δ_l(X_p)的第i个分量。

2.根据权利要求1所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述步骤4)中图像标签的前-背景值fbs()具体采用以下公式计算：

其中，L_m表示图像I_k中的第m个标签，fbs(L_m,I_k)表示图像I_k中标签L_m的前-背景值，P(L_n|L_m)为在图像集中标签L_m出现时标签L_n出现的概率，标签L_n表示图像I_k下除标签L_m以外的标签。

3.根据权利要求1所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述的超像素邻接矩阵U_X的拉普拉斯矩阵L_x采用以下公式计算：

其中，是与第q个超像素相邻的超像素，p、q分别表示超像素的下标，U_X(p,q)表示矩阵U_X的第p行、第q列的元素。

4.根据权利要求1所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述的词典D的邻接矩阵U_D的拉普拉斯矩阵L_D采用以下公式计算：

L_D＝I-B_D ^-1/2U_DB_D ^-1/2

5.根据权利要求1所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述步骤5)的优化问题模型采用块梯度下降法进行求解，具体采用以下方式：

其中，指向量W_p在第t次迭代的值；

其中，表示第p个超像素在第t+1次迭代的值；

其中，运算符d表示为：

6.根据权利要求5所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述步骤5.1)的公式利用FISTA算法进行求解。

7.根据权利要求5所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述步骤5.2)的公式利用L-BFGS算法进行求解。

8.根据权利要求5所述的一种基于显著性指导的词典学习的弱监督图像解析方法，其特征是：所述步骤5.3)的公式利用interior-point-convex算法进行求解。