CN105740881A

CN105740881A - 一种基于矩阵分解的部分标注图像聚类方法及装置

Info

Publication number: CN105740881A
Application number: CN201610041234.XA
Authority: CN
Inventors: 王亮; 吴书; 尹奇跃
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2016-07-06
Anticipated expiration: 2036-01-22
Also published as: CN105740881B

Abstract

本发明公开一种基于矩阵分解的部分标注图像聚类方法及装置，该方法包括：提取图像及图像标注词的特征；基于字典学习得到图像稀疏表达；对观测的图像标注词特征矩阵分解获得图像标注词的隐变量表达，以保持图像稀疏表达和图像标注词的隐变量表达与图像和图像标注词的共生关系的一致性；结合图像字典学习与部分观测的标注词矩阵分解构建目标函数；优化目标函数学习图像稀疏表达；基于学习到的稀疏表达进行图像聚类。本发明可学习图像完整的稀疏表达及所有图像标注词的隐变量表达,通过图像与图像标注词间共生关系建立上述表达间联系,从而利用标注词所携带的高层语义信息辅助图像特征学习,通过携带有高层语义信息的图像特征以提升图像聚类性能。

Description

一种基于矩阵分解的部分标注图像聚类方法及装置

技术领域

本发明涉及模式识别技术领域，尤其是一种基于矩阵分解的部分标注图像聚类方法及装置。

背景技术

随着图片分享网站如Flickr的迅速发展，互联网上存在着数以亿计的图片信息，如何对这些图片信息进行组织受到越来越多的关注。聚类技术作为一种有效数据组织方式，在图像组织中起着重要的作用。

传统的图像聚类技术一般提取图像本身局部特征(如SIFT特征)或者全局特征(如GIST特征)以实现图像聚类。然而，近些年来，随着图像标注信息的快速增长，如越来越多的用户在Flickr网站上对自己分享的图片进行标注，如何利用标注这一高层语义信息来辅助图像聚类受到越来越多的关注。

为利用标注信息辅助图像聚类，研究者提出了一系列的技术手段，如层次聚类(hierarchicalclustering)、联合聚类(co-clustering)以及多视角聚类(Multi-viewclustering)。然而上述方法一般假设图像具有完整的标注词特征，即每一副图像都有完整的标注词进行描述，这在现实中是难以满足的，比如用户一般仅对部分图像进行标注，或者在图像标注时仅仅给出一部分的标注词。在上述场景中，标注信息是不完整的，使得传统的利用标注信息辅助图像聚类的方法面临着较大的性能下降。因此，需要提出有效的算法实现部分标注图像聚类任务。

发明内容

本发明的目的在于解决上述技术问题而提供一种基于矩阵分解的部分标注图像聚类方法及装置，以解决现有方法不能有效地满足部分标注图像聚类的需求的技术问题。

本发明是这样实现的，一种基于矩阵分解的部分标注图像聚类方法，包括步骤：

提取聚类数据集中图像的特征以及反映图像标注词是否存在于图像中的图像标注词的特征；

基于图像字典学习获得所述聚类数据集中所有图像的稀疏表达；

对观测到的图像标注词的特征进行矩阵分解，学习得到图像标注词的隐变量表达，并保持所述图像的稀疏表达和所述图像标注词的隐变量表达与图像和图像标注词的共生关系的一致性；

结合图像字典学习与所述矩阵分解构建优化目标函数；

采用交替优化方式求解所述优化目标函数，得到所有图像最终的稀疏表达；

基于所述稀疏表达利用聚类算法得到预设类别的图像聚类。

本发明的目的还在于提供一种基于矩阵分解的部分标注图像聚类装置，包括：

特征提取模块，用于提取聚类数据集中图像的特征以及反映图像标注词是否存在于图像中的图像标注词的特征；

图像稀疏表达获得模块，用于基于图像字典学习获得所述聚类数据集中所有图像的稀疏表达；

标注词隐变量表达获得模块，用于对观测到的图像标注词的特征进行矩阵分解，学习得到图像标注词的隐变量表达，并保持所述图像的稀疏表达和所述图像标注词的隐变量表达与图像和图像标注词的共生关系的一致性；

优化目标函数构建模块，用于结合图像字典学习与所述矩阵分解构建优化目标函数；

最终稀疏表达形成模块，用于采用交替优化方式求解所述优化目标函数，得到所有图像最终的稀疏表达；

图像聚类模块，用于基于所述稀疏表达利用聚类算法得到预设类别的图像聚类。

本发明图像聚类的方法以及装置，基于字典学习的方法，学习得到图像数据集中每一幅图像的稀疏表达，同时通过对图像的部分观测的图像标注词特征进行矩阵分解，学习得到每一个图像标注词的隐变量表达，最终使图像的稀疏表达与图像标注词的隐变量表达通过图像与图像标注词的共生关系建立连接，保持共生关系的一致性，从而可以利用图像标注词的高层语义信息辅助图像特征的学习进行图像的聚类，获得图像聚类的结果，大大地提升了图像聚类性能。

附图说明

图1所示为本发明提供的基于矩阵分解的部分标注图像聚类方法的流程图；

图2是本发明提供的基于矩阵分解的部分标注图像聚类方法原理示意图；

图3所示为本发明提供的基于矩阵分解的部分标注图像聚类装置的结构原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明通过利用不完整观测的具有高层语义的图像标注词辅助图像稀疏表达的学习，进而使得图像稀疏表达能够融合图像和标注词两方面的信息，从而以利用图像标注词的高层语义信息辅助图像特征的学习，进行图像聚类，获得图像聚类的结果，大大提高了图像聚类的性能。

参见图1所示，一种基于矩阵分解的部分标注图像聚类方法，包括步骤：

S101:提取聚类数据集中图像的特征以及反映图像标注词是否存在于图像中的图像标注词的特征；

S102:基于图像字典学习获得所述聚类数据集中所有图像的稀疏表达；

S103:对观测到的图像标注词的特征进行矩阵分解，学习得到图像标注词的隐变量表达，并保持所述图像的稀疏表达和所述图像标注词的隐变量表达与图像和图像标注词的共生关系的一致性；

S104:结合图像字典学习与所述矩阵分解构建优化目标函数；

S105:采用交替优化方式求解所述优化目标函数，得到所有图像最终的稀疏表达；

S106:基于所述稀疏表达利用kmeans聚类算法得到预设类别的图像聚类。

具体实现上，在步骤S106中，基于上述图像的最终的稀疏表达可以是利用kmeans聚类算法得到预设类别的图像聚类，如通过给定聚类数目，将kmeans聚类算法作用于图像的稀疏表达就可以得到最终的图像聚类，获得图像聚类的结果。

本发明基于字典学习的方法，学习得到图像数据集中每一幅图像的稀疏表达，同时通过对图像的部分观测的图像标注词特征进行矩阵分解，学习得到每一个图像标注词的隐变量表达，最终使图像的稀疏表达与图像标注词的隐变量表达通过图像与图像标注词的共生关系建立连接，从而以利用图像标注词的高层语义信息辅助图像特征的学习，进而能有效地提升图像聚类性能。

需要说明的是，本发明中，所述聚类数据集中的图像的部分图像包含完整的标注词,部分图像没有标注词或者仅有不完整的标注词；在提取图像的标注词特征时，不但对含完整的标注词的特征进行提取，也对不完整的标注词的特征进行提取。

本发明中，所述图像的特征一般是视觉描述算子，具体实现上可以是图像的局部特征如SIFT特征，或者图像的全部特征，如GIST特征，所述图像标注词的特征则有0和1组成，以反应标注词是否存在于图像中。

具体的，本发明中，在步骤S102中，所述所有的图像的稀疏表达建模方式可以为：

其中，X为图像的视觉特征，每一列表示一个图像，D为学习得到的图像字典，所设计约束条件作用于矩阵的每一列防止图像字典过拟合。S为所有图像的稀疏表达所构成的矩阵，s_i为S的第i列，对应图像i的稀疏表达，||s_i||₁定义为s_i所有元素绝对值之和，该正则项使得所求得的表达具有稀疏特性。

本发明中，步骤S103中，对图像标注词的特征进行矩阵分解的建模方式可以采用以下：

其中，s_j为图像j的稀疏表达，O为观测到的图像与标注词关系，即图像j包含标注词i。T为标注词特征，每一列对应一副图像，由0和1组成，反应图像标注词是否存在于该图像中。参见图2所示，如第一列对应第一幅图像，观测到图像标注词t1和t3(T₁₁＝T₃₁＝1)，利用提取的观测到的图像标注词通过部分矩阵分解得到图像稀疏表达与标注词的隐变量表达的关系。利用提取的图像特征通过图像字典学习得到图像的稀疏表达与图像字典。图像标注词的特征和图像的特征通过图像的稀疏表达建立联系。R是学习得到的图像标注词的隐变量表达，rⁱ为R的第i行，对应图像标注词i的隐变量表达。所设计约束条件作用于矩阵的每一列防止学习得到的隐变量表达过拟合。上述基于矩阵分解建立了图像稀疏表达与图像标注词的隐变量表达的联系，即满足两者与图像和图像标注词共生关系的一致性。

考虑到图像标注词不存在于图像中可能是由于未观测到该图像标注词，即图像是部分标注的，在矩阵分解的建模(2)的基础上增加权重矩阵，形成优化的矩阵分解的建模，即：

其中I为权重矩阵，以对图像是否存在标注词进行权重设定，当图像j包含标注词i时，I_ij给定一个较大的值，反之，I_ij给定一个较小的值；

该步骤S104:中，所述的优化目标函数可以为：

其中γ₁和γ₂为预设的比例系数，以控制优化目标函数中不同项的权重；

需要说明的是，本发明中在，在步骤S106，采用交替优化的方式求解上述优化目标函数，以得到图像最终的稀疏表达、字典以及标注词的隐变量表达，所述采用交替优化方式求解D,S和R，直至算法收敛，具体如下：

固定D和R，则优化目标函数改写为：

针对s_j，上述优化目标函数可以改写为：

其中l_j为L的第j列，且L定义为矩阵I的平方根，t_j为矩阵T的第j列。上述优化目标函数为基本稀疏建模问题，可通过SLEP工具包进行求解。

固定S和R，则目标函数改写为：

上述优化目标可通过拉格朗日乘子法进行求解，即：

D＝XS^T(SS^T+τ)^-1

其中τ为对角矩阵，其第i个对角元素τ_i可以通过优化目标函数得到。

固定S和D，则优化目标函数改写为：

其可以进一步改写为：

因此，R和D具有相似的求解过程。

为了验证本发明的实施效果，接下来以PASCALVOC2007数据库为例进行说明，并以归一化互信息和准确率为评价指标展示本发明的实施效果。该数据库包含20类图片，其中训练和测试图像数目分别为5,011和4,952。具体步骤如下：

步骤S1，将训练和测试两个集合合并得到聚类数据集，并收集图像的标注信息，在此数据库中30副图像不包含任何标注信息。在后续实验中，随机去除具有完整标注的图像的部分标注词以模拟部分图像包含不完整的标注词这一情况。

步骤S2，提取图像的颜色特征X，并构造图像的标注词特征T，若图像j包含标注词i，则T_ij＝1，否则为0。

步骤S3，基于图像字典学习获得图像的稀疏表达S。

步骤S4，对部分观测的标注词特征T进行矩阵分解，以保持图像稀疏表达S和所求得的图像标注词的隐变量表达R与图像和图像标注词的共生关系的一致性。

步骤S5，结合图像字典学习与部分观测图像标注词的矩阵分解构建最终目标函数。

步骤S6，令γ₁和γ₂取值为1，并采用交替优化方式求解上述优化目标得到图像稀疏表达S，图像字典D以及图像标注词的隐变量表达R。

步骤S7，将kmeans聚类算法作用于图像的稀疏表达S得到最终的图像聚类。

选用PASCALVOC2007数据库并以归一化互信息和准确率为评价指标，将本发明的聚类方法与其它聚类方法在部分图像没有标注词以及部分图像包含一定比例不完整标注词的情况下的聚类性能进行比较，获得如下表1与表1的比较数据：

NMI	0％	10％	30％	50％	70％	90％
							SC	6.26	6.26	6.26	6.26	6.26	6.26
PairwiseSC	52.23	46.65	37.21	28.49	22.50	11.59
							CentroidSC	49.86	45.49	36.65	30.64	21.68	10.36
PVC	51.51	39.06	27.02	24.78	13.58	5.51
							My	53.37	48.64	41.37	31.81	23.39	11.28

表1

ACC	0％	10％	30％	50％	70％	90％
							SC	15.22	15.22	15.22	15.22	15.22	15.22
PairwiseSC	53.20	50.58	43.05	33.58	26.77	19.72
							CentroidSC	50.76	48.90	41.88	33.80	26.36	18.02
PVC	52.97	39.96	27.20	22.69	16.74	11.11
							My	56.56	51.77	48.05	39.32	28.29	18.84

表2

表中，NMI和ACC分别为归一化互信息和准确率两个指标。SC，PairwiseSC，CentroidSC，PVC和My为不同的图像聚类方法，分别表示基于图像特征构造稀疏表达的聚类方法，基于谱分解正则化的两种聚类方法，基于非负矩阵分解的不完整多视角聚类方法和本发明的方法。0％-90％为不完整标注词的比例。

可以看出，本发明方法在对具有不完整图像标注词的图像的聚类性能上大大优于其它的图像聚类方法的图像聚类性能。

参见图3所示，本发明的目的还在于提供一种矩阵分解的部分标注图像聚类装置，包括：

特征提取模块10，用于提取聚类数据集中图像的特征以及反映图像标注词是否存在于图像中的图像标注词的特征；

图像稀疏表达获得模块20，用于基于图像字典学习获得所述聚类数据集中所有图像的稀疏表达；

标注词隐变量表达获得模块30，用于对观测到的图像标注词的特征进行矩阵分解，学习得到图像标注词的隐变量表达，并保持所述图像的稀疏表达和所述图像标注词的隐变量表达与图像和图像标注词的共生关系的一致性；

优化目标函数构建模块40，用于结合图像字典学习与所述矩阵分解构建优化目标函数；

最终稀疏表达形成模块50，用于采用交替优化方式求解所述优化目标函数，得到所有图像最终的稀疏表达；

图像聚类模块60，用于基于所述稀疏表达利用聚类算法得到预设类别的图像聚类的结果。

本发明中，所述图像的特征一般是视觉描述算子，具体实现上可以是图像的局部特征如SIFT特征，或者图像的全部特征，如GIST特征，所述图像标注词的特征则有0和1组成，以图像反应标注词是否存在于图像中。

具体在，本发明中，所述所有的图像的稀疏表达建模方式可以为：

其中，X为图像的视觉特征，每一列表示一个图像，D为学习得到的图像字典，所设计约束条件作用于矩阵的每一列防止字典过拟合。S为所有图像的稀疏表达所构成的矩阵，s_i为S的第i列，对应图像i的稀疏表达，||s_i||₁定义为s_i所有元素绝对值之和，该正则项使得所求得的表达具有稀疏特性。

本发明中，对图像标注词的特征进行矩阵分解的建模方式可以为：

其中，s_j为图像j的稀疏表达，O为观测到的图像与标注词关系，即图像j包含标注词i。T为标注词特征，每一列对应一副图像，由0和1组成，反应标注词是否存在于该图像中。参见图2所示，如第一列对应第一幅图像，观测到标注词t1和t3(T₁₁＝T₃₁＝1)，利用观测到标注词通过部分矩阵分解得到图像稀疏表达与图像标注词的隐变量表达间的关系。利用提取的图像特征则通过图像字典学习得到图像的稀疏表达与图像字典。图像标注词特征和图像特征通过图像的稀疏表达建立联系。R是学习得到的标注词的隐变量表达，rⁱ为R的第i行，对应标注词i的隐变量表达。所设计约束条件作用于矩阵的每一列防止学习得到的隐变量表达过拟合。上述基于矩阵分解建立了图像稀疏表达与图像标注词的隐变量表达的联系，即满足两者与图像和标注词共生关系的一致性。

考虑到标注词不存在于图像中可能是由于未观测到该标注词，即图像是部分标注的，在矩阵分解的建模(2)的基础上增加权重矩阵，形成优化的矩阵分解的建模，即：

该步骤S104:中，所述的优化目标函数可以为：

需要说明的是，本发明中在，采用交替优化的方式求解上述优化目标函数，以得到图像最终的稀疏表达、图像字典以及图像标注词的隐变量表达，所述采用交替优化方式求解D,S和R，直至算法收敛，具体如下：

固定D和R，则优化目标函数改写为：

针对s_j，上述优化目标函数可以改写为：

固定S和R，则目标函数改写为：

上述优化目标可通过拉格朗日乘子法进行求解，即：

D＝XS^T(SS^T+τ)^-1

固定S和D，则优化目标函数改写为：

其可以进一步改写为：

因此，R和D具有相似的求解过程。

可以看出，本发明图像聚类的方法以及装置，基于字典学习的方法，学习得到图像数据集中每一幅图像的稀疏表达，同时通过对图像的部分观测的图像标注词特征进行矩阵分解，学习得到每一个图像标注词的隐变量表达，最终使图像的稀疏表达与图像标注词的隐变量表达通过图像与图像标注词的共生关系建立连接，保持一致性，从而以利用图像标注词的高层语义信息辅助图像特征的学习进行图像的聚类，获得聚类结果，大大地提升了图像聚类性能。

以上所述的具体实施例，对本发明的目的、技术方案和效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于矩阵分解的部分标注图像聚类方法，其特征在于，包括：

结合图像字典学习与所述矩阵分解构建优化目标函数；

基于所述稀疏表达利用kmeans聚类算法得到预设类别的图像聚类。

2.根据权利要求1所述基于矩阵分解的部分标注图像聚类方法，其特征在于，所述聚类数据集中的所述图像中，部分图像具有完整的图像标注词，部分图像没有图像标注词或者仅有不完整的图像标注词。

3.根据权利要求1或2所述基于矩阵分解的部分标注图像聚类方法，其特征在于，所述图像的特征是指视觉描述算子，所述图像标注词的特征由0和1组成。

4.根据权利要求3所述基于矩阵分解的部分标注图像聚类方法，其特征在于，所述视觉描述算子包括图像的局部特征和\或者全局特征。

5.根据权利要求1所述基于矩阵分解的部分标注图像聚类方法，其特征在于，所述优化目标函数表示为：

\underset{D, S, R}{m i n} | | X - D S | |^{2} + γ_{1} Σ_{i} | | s_{i} | |_{1} + γ_{2} Σ_{i j} I_{i j} {(T_{i j} - r^{i} s_{j})}^{2}

s . t . | | d_{k} | |^{2} \leq 1, | | r_{k} | |^{2} \leq 1 &ForAll; k

其中，X为图像的特征；D为学习得到的图像字典；S为所有图像的稀疏表达构成的矩阵，s_i为S的第i列、对应图像i的稀疏表达；I为权重矩阵，以对图像是否存在图像标注词进行权重设定；T为图像标注词特征，R是学习得到的图像标注词的隐变量表达，rⁱ为R的第i行、对应图像标注词i的隐变量表达，γ₁和γ₂为预设比例系数。

6.一种基于矩阵分解的部分标注图像聚类装置，其特征在于，包括：

图像聚类模块，用于基于所述稀疏表达利用kmeans聚类算法得到预设类别的图像聚类。

7.根据权利要求6所述基于矩阵分解的部分标注图像聚类装置，其特征在于，所述聚类数据集中的所述图像中，部分图像具有完整的图像标注词，部分图像没有图像标注词或者仅有不完整的图像标注词。

8.根据权利要求6或7所述基于矩阵分解的部分标注图像聚类装置，其特征在于，所述图像的特征是指视觉描述算子，所述图像标注词的特征由0和1组成。

9.根据权利要求8所述基于矩阵分解的部分标注图像聚类装置，其特征在于，所述视觉描述算子包括图像的局部特征和\或者全局特征。

10.根据权利要求6所述基于矩阵分解的部分标注图像聚类装置，其特征在于，所述优化目标函数表示为：

\underset{D, S, R}{m i n} | | X - D S | |^{2} + γ_{1} Σ_{i} | | s_{i} | |_{1} + γ_{2} Σ_{i j} I_{i j} {(T_{i j} - r^{i} s_{j})}^{2}

s . t . | | d_{k} | |^{2} \leq 1, | | r_{k} | |^{2} \leq 1 &ForAll; k

其中，X为图像的特征；D为学习得到的图像字典；S为所有图像的稀疏表达矩阵，s_i为S的第i列、对应图像i的稀疏表达；I为权重矩阵，以对图像是否存在图像标注词进行权重设定；T为图像标注词特征，R是学习得到的图像标注词的隐变量表达，rⁱ为R的第i行、对应图像标注词i的隐变量表达，γ₁和γ₂为预设比例系数。