CN110414560A

CN110414560A - 一种用于高维图像数据的自主子空间聚类方法

Info

Publication number: CN110414560A
Application number: CN201910560704.7A
Authority: CN
Inventors: 杜博; 刘友发; 张乐飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-05
Anticipated expiration: 2039-06-26
Also published as: CN110414560B

Abstract

本发明提供一种用于高维图像数据的自主子空间聚类方法，包括获取高维图像数据，基于自主学习正则化项，通过求解样本权重的优化问题来学习样本的权重；通过带权重的自表示模型求自表示系数；利用自表示系数建立样本的相似度图；基于样本的相似度图进行谱聚类；检验收敛条件，若不满足则返回，若满足则流程终止，得到最终的自主子空间聚类结果。该方法将自主学习与子空间聚类进行融合，通过一种新的自主正则化项来对样本进行权重调整，有效的改善了子空间聚类模型的局部最优解，从而提升子空间聚类的性能。

Description

一种用于高维图像数据的自主子空间聚类方法

技术领域

本发明属于计算机视觉领域，具体涉及用于高维图像数据的一种自主子空间聚类方法。

背景技术

高维数据遍及于很多计算机视觉应用，如人脸聚类、运动分割等，这些数据通常位于多个低维子空间中，如何找出这些数据相应的子空间？这是一个具有挑战性的问题。从高维数据集中恢复出潜在的低维子空间结构有助于减少计算代价，算法的内存需求和噪声或异常物。因此，解决这个问题具有重要意义。子空间聚类是一个流行的方法，近些年有大量的工作涌现，但大多数是基于自表示模型来建模的。基于自表示模型的方法具有一定的可解释性，例如，Elhamifar,Ehsan和Rene Vidal于2013年在著名的模式识别与机器智能期刊IEEE Transactions on Pattern Analysis and Machine Intelligence上发表名为“Sparse subspace clustering:Algorithm,theory,and applications”的论文，解释了自表示模型挖掘潜在子空间的可行性，为子空间聚类提供了一个比较好的建模方法，但这种方法依赖于下面两个假设之一：

1)子空间独立性。

2)子空间的不相交性。

然而，在实际应用中，这二者往往很难满足。最近，基于相似度和子空间聚类的联合框架收到关注，例如Chun-Guang Li,Chong You和Rene Vidal于2017年发表在图像处理顶级期刊IEEE Transactions on Image Processing上的名“Structured SparseSubspace Clustering:A Joint Affinity Learning and Subspace ClusteringFramework”的文章。然而这些方法都利用了自表示模型，但是都忽略了它所依赖的假设在实际中很难成立的事实，因此需要一种适用范围更广的子空间聚类方法。

发明内容

为了解决上述技术问题，本发明提供了一种用于高维图像数据的自主子空间聚类方法，通过自主学习与子空间聚类融合，使得子空间聚类能适应更松的假设：

1)部分子空间独立。

或者

2)部分子空间不相交性。

本发明所采用的技术方案为一种用于高维图像数据的自主子空间聚类方法，包括以下步骤：

步骤1，获取高维图像数据，基于自主学习正则化项，通过求解样本权重的优化问题来学习样本的权重；

步骤2，通过带权重的自表示模型求自表示系数；

步骤3，利用自表示系数建立样本的相似度图；

步骤4，基于步骤3所得样本的相似度图进行谱聚类；

步骤5，检验收敛条件，若不满足则返回步骤1，若满足则流程终止，得到最终的自主子空间聚类结果。

而且，步骤1中，求解样本权重的优化问题如下，

其中，w_i表示第i个样本x_i的权重，||·||₁表示l₁范数，设有N个样本构成的矩阵X＝[x₁,...,x_N]，N为样本总数，z_i为x_i的自表示系数，E_i为样本x_i的噪声，E_i＝x_i-Xz_i；自主学习正则化项衰减因子γ和控制学习复杂度的参数为自主学习参数，其中γ＞0。

而且，样本权重的优化问题的解为，

其中，为权重w_i的最优解。

而且，步骤2中通过带权重的自表示模型求自表示系数，实现方式为求解如下优化问题：

s.t.X＝XZ+E,diag(Z)＝0，

其中，||·||₁为l₁范数，X＝[x₁,...,x_N]为N个样本构成的矩阵，相应噪声矩阵E＝[E₁,...,E_N]，diag(Z)表示变量自表示系数矩阵Z＝[Z_ij]_{1≤i≤N,1≤j≤N}的所有对角元组成的向量，Z_ij为系数矩阵Z第i行第j列的元素；表示矩阵的逐点乘积；λ＞0和α＞0均为折衷参数；流形正则化项使得被分割进不同子空间的样本的相似度变小，Θ为示性矩阵。

而且，步骤3中所述利用自表示系数建立样本的相似度图，实现过程为建立相似度矩阵其中，|Z|表示对矩阵Z中的每一个元素取绝对值后得到的矩阵，Z^T表示矩阵Z的转置。

本发明将自主学习和子空间聚类融合，引入了新的自主正则化项，使得新的子空间聚类模型适用范围更广，不必局限于子空间独立性假设或子空间不相交性假设，有效改善子空间聚类模型的局部最优解，成功提升了高维图像数据的子空间聚类的性能。

附图说明

图1为本发明的实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

参见图1，本发明实施例提供的一种用于高维图像数据的自主子空间聚类方法，包括以下步骤：

步骤S1：获取计算机视觉和图像处理应用中的高维图像数据，得到样本数据，通过新的自主学习方法来学习样本的权重；

实施例中，步骤1具体实现方式为求解样本权重的优化问题：

其中，w_i表示第i个样本x_i的权重，||·||₁表示l₁范数，设有N个样本构成的矩阵X＝[x₁,...,x_N]，N为样本总数，z_i为x_i的自表示系数，E_i为样本x_i的噪声，E_i＝x_i-Xz_i；

自主学习正则化项衰减因子γ和控制学习复杂度的参数为自主学习参数，其中γ＞0。

上述优化问题的解为：

其中，为权重w_i的最优解。

步骤S2：通过带权重的自表示模型求自表示系数；

实施例中，步骤S2具体实现方式为求解如下带权重的自表示模型问题：

s.t.X＝XZ+E,diag(Z)＝0，

设为标记样本对应的子空间，建立数据分割矩阵如下：

Q∈{Q∈{0,1}^N×K:Q1_K×1＝1_K×1,rank(Q)＝K}，

其中，Q＝[Q_ik]_{1≤i≤N,1≤k≤K}为，rank(Q)表示矩阵Q的秩，若矩阵Q第i行第k列的元素Q_ik＝1，则表明将第i个样本归入进第k个子空间，K为子空间的总数目，1_K×1表示所有元素为1的K维列向量；

流形正则化项计算如下，

其中，Q(i,:)和Q(j,:)分别表示矩阵Q的第i行和第j行向量，Θ_ij为示性矩阵Θ第i行第j列的元素。

例如数据来源于多个子空间S₁，S₂和S₃的并集中，但是他们的真实子空间标签是不可用的。将每个样本上的噪声项加权，表明不同样本的重要性程度。

步骤S3：利用自表示系数建立样本的相似度图；

实施例中，步骤3具体实现方式为：建立相似度矩阵其中，|Z|表示对矩阵Z中的每一个元素取绝对值后得到的矩阵，Z^T表示矩阵Z的转置，矩阵S的(i,j)位置的元素s_ij为第i个样本和第j个样本之间的相似度。

步骤S4，基于步骤S3所得样本的相似度图进行谱聚类：

通过对样本上的相似度图进行谱聚类，谱聚类可采用现有技术，为便于实施参考起见，介绍如下：

(1)根据相似度图求拉普拉斯矩阵；

(2)对拉普拉斯矩阵进行特征分解；

(3)取前K个最大的特征值对应的特征向量组成矩阵U，这里，K为用户指定的蔟的个数；

(4)对矩阵U的行进行K均值聚类。

基于谱聚类，可以实现对样本的分割，理想情况下，来源于用一个子空间的样本会聚到同一个子空间中，来源于不同子空间的样本则位于不同的子空间中。

通过自表示系数可以求出任意两个样本之间的相似度，以所有样本为顶点，相似度为边可以建立一个图G，理想情况下，只有属于同一个子空间的样本之间才会有边链接，根据谱聚类的原理，实施例将G分割成三个子图，如G₁，G₂和G₃，分别对应到三个子空间S₁,S₂和S₃。

步骤S5：检验收敛条件(如：是否达到预设的最大的迭代次数)，若不满足，则返回步骤1继续执行；若满足，则流程终止，得到最终的自主子空间聚类结果。

具体实施时，为了验证聚类效果，可将最终学得的自表示系数矩阵Z进行可视化，Z的每个元素都是代表样本对之间的相似关系，相似的样本对会被聚进同一个蔟中，然后将可视化结果与样本的原始蔟进行对比。

以上是本发明涉及的自主子空间聚类的实现步骤，具体实施时可采用计算机软件技术实现自动运行流程，运行本发明流程的装置也应当在保护范围内。本发明通过将自主学习和子空间聚类进行融合，引入新的自主正则化项，有效的提升的聚类模型的适用范围，不必局限于子空间独立性假设或子空间不相交性假设。

在具体实现的时候还有以下注意事项：

首先，将自主学习和子空间聚类融合，优化过程中需等到结果稳定下来(即步骤S5判定收敛条件满足。)。

其次，由于数据采集设备的差异，采集到的数据的噪声差别很大，噪声会影响步骤S1中权重的求解，这样自主正则化项里的参数将对最终结果产生大的影响，因此需要有关于噪音的一些先验信息。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种用于高维图像数据的自主子空间聚类方法，其特征在于，包括以下步骤：

步骤2，通过带权重的自表示模型求自表示系数；

步骤3，利用自表示系数建立样本的相似度图；

步骤4，基于步骤3所得样本的相似度图进行谱聚类；

2.根据权利要求1所述的用于高维图像数据的自主子空间聚类方法，其特征在于：步骤1中，求解样本权重的优化问题如下，

3.根据权利要求2所述的用于高维图像数据的自主子空间聚类方法，其特征在于：样本权重的优化问题的解为，

其中，为权重w_i的最优解。

4.根据权利要求2或3所述的用于高维图像数据的自主子空间聚类方法，其特征在于：步骤2中通过带权重的自表示模型求自表示系数，实现方式为求解如下优化问题：

s.t.X＝XZ+E,diag(Z)＝0，

5.根据权利要求4所述的用于高维图像数据的自主子空间聚类方法，其特征在于：步骤3中所述利用自表示系数建立样本的相似度图，实现过程为建立相似度矩阵其中，|Z|表示对矩阵Z中的每一个元素取绝对值后得到的矩阵，Z^T表示矩阵Z的转置。