CN111813982B

CN111813982B - 基于谱聚类的子空间聚类算法的数据处理方法及装置

Info

Publication number: CN111813982B
Application number: CN202010716572.5A
Authority: CN
Inventors: 高冉; 陈花竹; 丁箭飞; 孙旭明; 张洪涛; 司马大伟
Original assignee: Zhongyuan University of Technology
Current assignee: Zhongyuan University of Technology
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2021-09-03
Anticipated expiration: 2040-07-23
Also published as: CN111813982A

Abstract

本发明公开了一种基于谱聚类的子空间聚类算法的数据处理方法及装置。其中，该方法包括：确定谱聚类算法，确定待处理的数据集合的相似度矩阵的稀疏性正则项，将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

Description

基于谱聚类的子空间聚类算法的数据处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种基于谱聚类的子空间聚类算法的数据处理方法及装置。

背景技术

近年来，子空间聚类得到了广泛的关注和大量的研究方法，其中，基于谱聚类的方法正变得越来越流行。这些方法通常将问题划分为两个独立的阶段。首先，通过使用自表示从数据中学习一个相似度矩阵。如稀疏子空间聚类(SSC)、低秩表示(LRR)和一些基于SSC或LRR的混合表示，重点描述了如何学习一个良好的相似度矩阵来提高聚类性能。然后应用Ncut或稀疏谱聚类(SSpeC)等谱聚类方法，利用相似度矩阵推断数据的标签。稀疏谱聚类(SSpeC)模型对传统的谱聚类方法进行了改进，通过引入稀疏正则化来增强的聚类判别能力。SSpeC方法虽然优于传统的谱聚类方法，但稀疏性正则化是模糊的，因为它没有考虑潜在相似度矩阵中哪些元素为0，SSpeC中稀疏性惩罚的盲目性较大。

所有的两阶段方法都没有充分利用相似度矩阵与数据标签之间的关系，其聚类性能都是次优的。结构稀疏子空间聚类(SSSC)将相似度矩阵学习和标签学习集成到一个统一的框架中，并使用其中一个来引导另一个，使两者都具有一些优点。具体来说，一方面，它使用标签将来自不同类的数据点对应的相似度强制为零。另一方面，它使用相似度矩阵来引导标签推断，以便同一类中的数据点可以具有相同的标签。但是，来自不同子空间的数据点应该有不同的标签，这一点在SSSC中没有明确表达，因此，SSSC存在只强制来自相同子空间的数据具有相同的聚类指标的缺陷。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于谱聚类的子空间聚类算法的数据处理方法及装置，以至少解决相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

根据本发明实施例的一个方面，提供了一种基于谱聚类的子空间聚类算法的数据处理方法，包括：确定谱聚类算法，其中，谱聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F∈Γ，式中，X为待处理的数据集合，Z为自表示矩阵，i,j分别为Z的行数和列数，Z_ij表示矩阵Z的第i行第j列的元素；E表示误差值、损坏值或异常值，Φ(E)是E的约束函数，约束Γ是聚类指标矩阵的集合，Γ＝{F∈{0,1}^N×K:F1＝1,rank(F)＝K}，其中，F＝(F_ij)∈{0,1}^N×K为聚类指标矩阵，F_ij定义为

S_j为第j类数据的集合，第i行的非零元所在的列表示数据x_i的所在的类，F的第j列表示哪些数据属于第j类，F1＝1表示每个数据点只在一个子空间中，约束rank(F)＝K是为了确保F只有K行不同，子空间的类的个数是K，||Z||₁＝∑_i,j|Z_ij|为Z的l₁范数，

F(i,:)是矩阵F的第i行，F(j,:)为矩阵F的第j列，α>0，为第一权衡参数，λ>0，为第二权衡参数；确定待处理的数据集合的相似度矩阵的稀疏性正则项

式中，

(FF^T)_ij是一个二值矩阵，为相似度矩阵的可判别性，(FF^T)_ij的值越大则W_ij越小，(FF^T)_ij越小则W_ij越大；将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，其中，子空间聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F^TF＝I式中，β>0，为第三权衡参数；根据子空间聚类算法对待处理的数据集合进行处理。

可选的，根据子空间聚类算法对待处理的数据集合进行处理包括：将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及迭代总次数k，输入子空间聚类算法确定数据集合的聚类指标矩阵F；根据聚类指标矩阵F，对数据集合进行交替方向乘子法ADMM的求解。

可选的，将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及迭代总次数k，输入子空间聚类算法确定数据集合的聚类指标矩阵F包括：将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及第一迭代次数k，输入子空间聚类算法，确定：||Θ⊙Z||₁＝tr(F^TLF)＝<L,FF^T>，其中，

L＝D-A是图拉普拉斯矩阵，D是一个对角元素为

的对角矩阵，A为相似度矩阵，对F有，α<L,FF^T>+β||WFF^T||₁,s.t.F^TF＝I，令J＝FF^T，得到计算式：α<L,FF^T>+β||W⊙J||₁,s.t.J＝FF^T,F^TF＝I，计算式的欧拉-拉格朗日方程为：

s.t.F^TF＝I，式中，I为单位矩阵；Y为乘数，μ为惩罚系数，对欧拉-拉格朗日方程进行求解，得到：

则F为

最大的N个特征值对应的特征向量组成的矩阵；初始化F＝F⁰,J＝FFT,Y⁰＝0,μ₀＝0.1,μ_max＝1010,k＝1,ρ＝1.1,ε＝10^-5；迭代F,J，更新乘数Y，更新参数μ_k+1＝min(μ_max,ρμ_k)，在达到收敛条件的情况下，输出聚类指标矩阵F^k+1，其中，收敛条件如下：‖F^k+1(F^k ⁺¹)^T-F^k(F^k)^T‖_∞<ε和‖J^k+1-F^k+1(F^k+1)^T‖_∞<ε；其中，对J有，

确定最优解为

式中，S为软阈值算子，|W|是对矩阵W的每个元素取绝对值，对Y有，Y^k+1＝Y^k+μ^k(J^k+1-F^k+1(F^k+1)^T)。

可选的，根据子空间聚类算法对待处理的数据集合进行处理包括：将接收的待处理的数据集合X，第一权衡参数α，第二权衡参数λ，第三权衡参数β，以及定义的类的个数K，输入子空间聚类算法，确定数据集合的聚类标签。

可选的，将接收的待处理的数据集合X，第一权衡参数α，第二权衡参数λ，第三权衡参数β，以及定义的类的个数K，输入子空间聚类算法，确定数据集合的聚类标签包括：将接收的待处理的数据集合X，第一权衡参数α，第二权衡参数λ，第三权衡参数β，以及定义的类的个数K，输入子空间聚类算法，通过子空间聚类算法得到(X,E)；固定Z,E，通过求解欧拉-拉格朗日方程，得到F；用

来计算矩阵Θ＝(Θ_ij)；固定Θ或F，通过求解

s.t.X＝XZ+E,diag(Z)＝0，得到Z,E；将k-means算法作用于矩阵F的每一行，得到聚类标签，其中，F∈R^N×K，N表示数据的个数，K表示类的个数。

可选的，得到聚类标签之后，还包括：确定是否满足停止准则，其中，停止准则如下：||F^t+1(F^t+1)^T-F^t(F^t)^T||∞＜ε，t是第二的迭代次数，ε＞0，F^t是第t次迭代的聚类指标矩阵；在满足停止准则的情况下，输出聚类标签。

可选的，确定谱聚类算法之前，还包括：确定优化问题，其中，优化问题的数据表达式如下：

式中，Ω(Z)和

是对矩阵Z的约束,E表示误差值、损坏值或异常值，Φ(E)是E的约束函数，

用于高斯噪声，||E||₁用于异常值；对优化问题进行求解，确定自表示矩阵Z；根据自表示矩阵Z构建相似度矩阵A。

根据本发明实施例的另一方面，还提供了一种基于谱聚类的子空间聚类算法的数据处理装置，包括：第一确定模块，用于确定谱聚类算法，其中，谱聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F∈Γ，式中，式中，X为待处理的数据集合，Z为自表示矩阵，i,j分别为Z的行数和列数，Z_ij表示矩阵z的第i行第j列的元素；E表示误差值、损坏值或异常值，Φ(E)是E的约束函数，约束Γ是聚类指标矩阵的集合，Γ＝{F∈{0,1}^N×K:F1＝1,rank(F)＝K}，其中，F＝(F_ij)∈{0,1}^N×K为聚类指标矩阵，F_ij定义为

F(i,:)是矩阵F的第i行，F(j,:)为矩阵F的第j列，α>0，为第一权衡参数，λ>0，为第二权衡参数；第二确定模块，用于确定待处理的数据集合的相似度矩阵的稀疏性正则项

式中，

(FF^T)_ij是一个二值矩阵，为相似度矩阵的可判别性，(FF^T)_ij的值越大则W_ij越小，(FF^T)_ij越小则W_ij越大；代入模块，用于将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，其中，子空间聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,FF^T＝I，式中，β>0，为第三权衡参数；处理模块，用于根据子空间聚类算法对待处理的数据集合进行处理。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质包括存储的程序，其中，在程序运行时控制计算机存储介质所在设备执行上述中任意一项的基于谱聚类的子空间聚类算法的数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的基于谱聚类的子空间聚类算法的数据处理方法。

在本发明实施例中，采用确定谱聚类算法，确定待处理的数据集合的相似度矩阵的稀疏性正则项，将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理方法的流程图；

图2是根据本发明实施方式的人脸数据库的图片集合的示意图；

图3是根据本发明实施方式的人脸数据集上的聚类性能的示意图；

图4-1是根据本发明实施方式的SSC+SSpeC的相似度矩阵的示意图；

图4-2是根据本发明实施方式的SSSC的相似度矩阵的示意图；

图4-3是根据本发明实施方式的相似度矩阵的示意图；

图5-1是根据本发明实施方式的SSC+SSpeC的潜在相似度矩阵的示意图；

图5-2是根据本发明实施方式的SSSC的潜在相似度矩阵的示意图；

图5-3是根据本发明实施方式的潜在相似度矩阵的示意图；

图6-1是根据本发明实施方式的SSC+SSpeC的聚类指标矩阵的示意图；

图6-2是根据本发明实施方式的SSSC的聚类指标矩阵的示意图；

图6-3是根据本发明实施方式的聚类指标矩阵的示意图；

图7是根据本发明实施方式的来自霍普金斯155数据集的样本图像集合的示意图；

图8是根据本发明实施方式的霍普金斯155数据集上的聚类性能的示意图；

图9是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种基于谱聚类的子空间聚类算法的数据处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理方法的流程图，如图1所示，根据本发明实施例的另一方面，还提供了一种基于谱聚类的子空间聚类算法的数据处理方法，该方法包括以下步骤：

步骤S102，确定谱聚类算法，其中，谱聚类算法的表达式如下：

F(i,:)是矩阵F的第i行，F(j,:)为矩阵F的第j列，α>0，为第一权衡参数，λ>0，为第二权衡参数；

步骤S104，确定待处理的数据集合的相似度矩阵的稀疏性正则项

式中，

(FF^T)_ij是一个二值矩阵，为相似度矩阵的可判别性，(FF^T)_ij的值越大则W_ij越小，(FF^T)_ij越小则W_ij越大。

若x_i和x_j来自不同的子空间，则W_ij的值可能越大；若x_i和x_j来自相同的子空间，则W_ij的值可能越小。

步骤S106，将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，其中，子空间聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F^TF＝I，式中，β>0，为第三权衡参数；

步骤S108，根据子空间聚类算法对待处理的数据集合进行处理。

通过上述步骤，采用确定谱聚类算法，确定待处理的数据集合的相似度矩阵的稀疏性正则项，将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

上述谱聚类算法是建立在谱图理论及上个，与传统的聚类算法相比，具有能在任意形状的样本空间上聚类且收敛于全局最优解，其主要步骤包括，构建相似度矩阵，计算相似度矩阵或拉普拉斯矩阵的预设数量的特征值和特征向量，构建向量空间，上述向量空间包括多个子空间，利用聚类算法对特征向量空间中的特征向量进行聚类。上述聚类算法可以是K-means等子空间聚类算法。

在步骤S104中，FF^T隐含了相似度矩阵A的可判别性或|FF^T|可以为相似度矩阵的潜在相似度矩阵，上述潜在相似度矩阵FF^T中的元素只有0和1，如下式所示

即矩阵FF^T是稀疏的。稀疏谱聚类(SSpeC)模型用||FF^T||₁来表示FF^T的稀疏性，建立如下模型

通过上述步骤S104，将数据归一化，定义函数

若x_i和x_j来自不同的子空间，则W_ij的值可能越大；若x_i和x_j来自相同的子空间，则W_ij的值可能越小。构造如下正则项

上式中，(FF^T)_ij的值越大则权重越小，(FF^T)_ij越小则权重越大，因此上式有利于来自不同空间的数据点对应的FF^T的元素为0，这样使得FF^T的稀疏不是盲目的。所以可使用上式的加权稀疏性来增强潜在相似度矩阵FF^T的判别性能。

上述稀疏谱聚类是没有充分利用相似度矩阵和数据标签之间关系的两阶段法，而结构稀疏子空间聚类(SSSC)将相似度矩阵和聚类指标矩阵结合成一个统一的框架，从而优于两阶段聚类方法，但是它没有考虑潜在相似度矩阵的稀疏性。

本实施例通过将步骤S104中的稀疏性加权值代入谱聚类算法，利用数据的距离给出了一个新的自适应稀疏正则项来增强潜在相似度矩阵的聚类判别特性，从而克服了稀疏谱聚类中稀疏性惩罚的盲目性。将新正则项与结构稀疏子空间聚类相结合，提出了新的统一优化模型。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

上述交替方向乘子法，ADMM，(Alternating Direction Method of Multipliers)用于对数据进行处理，具体是一种解决可分解凸优化问题的简单方法们尤其在解决大规模问题上卓有成效，利用ADMM算法可以将原问题的目标函数等价的分解成若干个可求解的子问题，然后并行求解每一个子问题，最后写条子问题的解，得到原问题的全局解，从而可以加快数据集合的问题求解的速度，进而提高数据处理的速度。

可选的，将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及迭代总次数k，输入子空间聚类算法确定数据集合的聚类指标矩阵F包括：将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及第一迭代次数k，输入子空间聚类算法，确定：‖Θ⊙Z‖₁＝tr(F^TLF)＝<L,FF^T>，

其中，

L＝D-A是图拉普拉斯矩阵，D是一个对角元素为

的对角矩阵，A为相似度矩阵，

对F有，α<L,FF^T>+β||WFF^T||₁,s.t.F^TF＝I

令J＝FF^T，得到计算式：α<L,FF^T>+β||W⊙J||₁,s.t.J＝FF^T,F^TF＝I

计算式的欧拉-拉格朗日方程为：

s.t.F^TF＝I

式中，I为单位矩阵；Y为乘数，μ为惩罚系数，

对欧拉-拉格朗日方程进行求解，得到：

则F为

最大的N个特征值对应的特征向量组成的矩阵；

初始化F＝F⁰,J＝FFT,Y⁰＝0,μ₀＝0.1,μ_max＝1010,k＝1,ρ＝1.1,ε＝10^-5；

迭代F,J，更新乘数Y，更新参数μ_k+1＝min(μ_max,ρμ_k)，在达到收敛条件的情况下，输出聚类指标矩阵F^k+1，其中，收敛条件如下：

‖F^k+1(F^k+1)^T-F^k(F^k)^T‖_∞<ε和‖J^k+1-F^k+1(F^k+1)^T‖_∞<ε；

其中，对J有，

确定最优解为

式中，S为软阈值算子，|W|是对矩阵W的每个元素取绝对值，

对Y有，Y^k+1＝Y^k+μ^k(J^k+1-F^k+1(F^k+1)^T)。

上述确定数据集合的聚类标签实质上也是对数据进行处理，相比于相关技术中的聚类标签的确定方式，本实施例利用了数据的距离给出了一个新的自适应稀疏正则项来增强潜在相似度矩阵的聚类判别特性，从而克服了稀疏谱聚类中稀疏性惩罚的盲目性。将新正则项与结构稀疏子空间聚类相结合，提出了新的统一优化模型。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

来计算矩阵Θ＝(Θ_ij)；固定Θ或F，通过求解，

可选的，得到聚类标签之后，还包括：确定是否满足停止准则，其中，停止准则如下：||F^t+1(F^t+1)^T-F^t(F^t)^T||∞＜ε，其中，t是第二的迭代次数，ε＞0，F^t是第t次迭代的聚类指标矩阵；在满足停止准则的情况下，输出聚类标签。

式中，Ω(Z)和

上述步骤可以为步骤S102中确定谱聚类算法的一部分，也可以是相对于谱聚类算法的确定步骤之前的步骤，主要是确定自表示矩阵Z和相似度矩阵A，以便确定上述谱聚类算法，进而根据谱聚类算法和相似度矩阵的稀疏性加权值，确定子空间聚类算法，通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

需要说明的是，本实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

本实施方式采用了SSSC的统一框架，以保持相似度学习和聚类指标推断的相互引导。主要的区别在于，本实施方式加入了一个新的识别增强正则化项。一方面，利用数据对的相关性来指导相似度矩阵的稀疏性，克服了SSpeC中稀疏性惩罚的盲目性；另一方面，它倾向于强制来自不同子空间的数据具有不同的聚类指标，从而补充了SSSC只强制来自相同子空间的数据具有相同的聚类指标的缺陷。

为了方便起见，表1是符号说明，定义了一些本实施例中使用的符号。

表1符号说明

令X＝(x₁,x₂,…,x_N)∈R^n×N是N个数据的集合，每一列x_i都是一个n维特征向量。假设数据分别来自维数未知的

的K个子空间

的并集。子空间聚类的任务是将数据根据其本质上所属的子空间进行聚类。近年来，许多研究都是在假设子空间中的任何数据都可以表示为其他数据的线性组合的前提下，利用自表示矩阵Z构造相似度矩阵。这些方法通过求解以下优化问题计算自表示矩阵Z：

这里Ω(Z)和

是对Z的约束,E表示误差值、损坏值或异常值，Φ(E)是E的约束函数。一般来说，

用于高斯噪声，||E||₁用于异常值。λ是一个权衡参数.不同方法之间的主要区别在于Ω(Z)的选择。例如，稀疏子空间聚类(SSC)使用||Z||₁来增强Z的稀疏性，而低秩表示(LRR)使用核范数||Z||_*来寻求对所有数据的联合低秩表示。

得到问题(1)的最优解Z^*后，就构造出相似度矩阵A＝(|Z^*|+|Z^*T|)/2。然后，通过谱聚类算法得到聚类结果。具体地，通过优化以下问题得到最终聚类结果：

这里L＝D-A是图拉普拉斯矩阵，D是一个对角元素为

的对角矩阵。约束Γ是聚类指标矩阵的集合，定义为

Γ＝{F∈{0,1}^N×K:F1＝1,rank(F)＝K}。

特殊地，F＝(F_ij)∈{0,1}^N×K是一个二元聚类指标矩阵，F_ij定义为

第i行的非零元表示数据x_i的所在的类，F的第j列表示哪些数据属于第j类。F1＝1表示每个数据点只在一个子空间中。约束rank(F)＝K是为了确保F只有K行不同，因为子空间的类的个数是K。为了简单起见，问题(2)(也即是上式(2))通常由F∈Γ松弛为F^TF＝I，其中I是单位矩阵。此外，

tr(F^TLF)＝<FF^T,L> (4)

从而谱聚类问题简化为以下优化问题

若F∈Γ，则称F为聚类指标矩阵；如果它只满足F^TF＝I，称之为软聚类指标矩阵。问题(5)(也即是上式(5))的最优解F的列是L的K个最小特征值的对应的特征向量。将k-means算法作用于F的每一行，得到最终聚类结果。

稀疏谱聚类(SSpeC)表明FF^T矩阵隐含了相似度矩阵A的可判别性或|FF^T|可视为一个新的相似度矩阵，称为潜在相似度矩阵。SSpeC模型表示为

另一方面，虽然两阶段方法在许多应用中都取得了成功，但它们的一个主要缺点是没有显式地捕获数据的自表示矩阵和指标矩阵之间的自然关系。SSSC通过以下模型将子空间聚类问题表述为一个统一的框架

s.t.X＝XZ+E,diag(Z)＝0,F∈Γ (7)

式中，

α＞0和λ＞0为权衡参数，和Z_ij是矩阵Z的元素，SSSC中，自表示矩阵Z和聚类指标矩阵F彼此交互，以便他们有一些有利于聚类的一些特性。

本实施方式提出的谱聚类。FF^T在某种程度上是稀疏的，SSpeC模型通过||FF^T||₁来考虑稀疏性，但它是盲目的因为它没有考虑两个数据点是否来自不同的子空间。只有数据点x_i,x_j来自不同的子空间，才有(FF^T)_ij＝0。此外，SSpeC是一个两阶段的方法，没有充分利用相似度矩阵和聚类指标矩阵之间的关系。

在这项工作中，本实施方式建议用数据自适应稀疏性代替SSpeC的稀疏性惩罚，它利用数据的相关性来增强潜在相似度矩阵的稀疏性。

本实施方式进一步将其纳入SSSC的统一框架中，给出了一个新的统一模型。本实施方式的这种模式的主要优点是双重的。一方面，它利用数据对的相关性来克服SSpeC中稀疏性惩罚的模糊性；另一方面，它倾向于强制执行来自不同子空间的数据具有不同的聚类指标，从而补充了SSSC只强制来自相同子空间的数据具有相同的集群指标。总之，本实施方式的模型比SSpeC和SSSC具有更好的聚类判别性能。

本实施方式的模型如下：

首先将数据归一化，定义函数

若x_i和x_j来自不同的子空间，则W_ij的值可能越大；若x_i和x_j来自相同的子空间，则W_ij的值可能越小。构造如下稀疏性正则项

上式中，(FF^T)_ij的值越大则权重越小，(FF^T)_ij越小则权重越大，因此上式有利于来自不同空间的数据点对应的FF^T的元素为0，这样使得FF^T的稀疏不是盲目的。

将(8)代入SSSC模型，且将F∈Γ松弛为F^TF＝I，可得

s.t.X＝XZ+E,diag(Z)＝0,F^TF＝I (9)

其中，

然后本实施方式还采用了极小化算法，本实施方式通过交替求解以下两个子问题，设计了模型(9)(也即是上式(9))的高效算法：

a.固定X,Z，使用加权稀疏谱聚类找F；

b.固定F，通过解决一个表示问题找到X,Z。

具体的，a.固定X,Z，使用加权稀疏谱聚类找F，求F的具体步骤如下：

‖Θ⊙Z‖₁＝tr(F^TLF)＝<L,FF^T>

其中，

对F有，α<L,FF^T>+β||W⊙FF^T||₁,s.t.F^TF＝I (10)

令J＝FF^T，则上式(10)可化为

α<L,FF^T>+β||W⊙J||₁,s.t.J＝FF^T,F^TF＝I (11)

上式(11)的欧拉-拉格朗日Euler-Lagrange方程为

s.t.F^TF＝I (12)

1)对F，

则F为

最大的N个特征值对应的特征向量组成的矩阵。

2)对J，

上式(14)的最优解为

其中，S为软阈值算子。

3)对Y：更新乘数是标准的梯度上升程序：

Y^k+1＝Y^k+μ^k(J^k+1-F^k+1(F^k+1)^T) (16)

求解问题(11)的整体ADMM如算法1，其中k是迭代次数：

在通过上述方式解决ADMM求解问题时，采用如下方式，表2是用ADMM求解问题(12)的算法1主要步骤表格，问题(12)也即是上式(12)。

表2用ADMM求解问题(12)的算法1主要步骤表格

具体的b.固定F，通过解决一个表示问题找到X,Z，求Z和E具体如下：

s.t.X＝XZ+E,diag(Z)＝0 (17)

这是SSSC模型，其求解方法为现有技术。

根据上述a和b，对算法进行总结：问题(10)也即是上式(10)的解决办法在算法2。表2为算法2的主要步骤表格，如表2所示，该算法在用上述算法1固定Z和E，求解F和用SSSC模型算法固定F，求解自表示系数矩阵Z和矩阵E之间交替。

终止准则:算法2的停止准则为：||F^t+1(F^t+1)^T-F^t(F^t)^T||_∞＜ε (18)

其中，t是算法2的迭代次数，ε＞0，F^t是第t次迭代的聚类指标矩阵。

表2算法2的主要步骤表格

本实施方式还提供了进行试验后的实验结果，以说明本实施方式的效果，具体如下：

本实施方式的实验结果，分别在Extended Yale B人脸数据库和Hopkinsl 155运动分割数据库进行实验来评估本文算法的聚类性能，并与当前较好的聚类方法进行聚类误差率比较，如SSC，SSC+SSpeC，SSSC，LRR，LatLRR，LRSC，LSR，BDSSC，BDLRR，TSC，NSN，OMP和CASS。

采用子空间聚类误差率作为性能度量，定义如下，

其中，N_error表示错误聚类的数据点的个数，N_total表示数据点总数.聚类精度定义为1-error。

首先是对于公共数据库—Extended Yale B人脸数据库。考虑The Extended YaleB人脸数据库，其包含了38个人的2414张人脸前额图像，对每一个人大约有64张在不同的实验室可控光照条件下的人脸图像，图2是根据本发明实施方式的人脸数据库的图片集合的示意图，如图2所示的例子。为了减小算法的计算时间和存储空间，首先将所有图像的分辨率重新调整为48×42，然后向量化到2016维数据点.基本上，、将38名受试者分为4组，而不是对整个数据集进行聚类，以评估本实施方式的方法在平均意义上的数量适中的总体。具体而言，四组分别对应1–10类、11–20类、21–30类、31–38类。对于前三组中的每一组，考虑K＝{2,3,5,8,10}。对于最后一组，考虑K＝{2,3,5,8}类的所有选择。该范数用于度量腐败矩阵Φ(E)＝||E||₁。

实验表明，本实施方式的算法在参数α＝0.1,β＝0.001,λ＝0.5时通常会得到“最佳”平均聚类精度，所以在该数据集上所有实验的参数都选择这个设置。

为了展示本实施方式的方法的性能，从每个组中任选所有K类进行试验，例如，当K＝2时，共有

种情况。然后每类的所有情况的聚类错误率的均值、标准差和中值如表2所示，表2为Extended Yale B人脸数据集的集群错误率(％)的统计表，其中“–”表示未报告数据。为了更加直观，还绘制了不同方法的平均聚类错误率与类的个数的关系图，如图3所示，图3是根据本发明实施方式的人脸数据集上的聚类性能的示意图，其中，benwen为本文的汉语拼音，也即是本实施方式的平均聚类错误率与类的个数的关系曲线。

表2 Extended Yale B人脸数据集的集群错误率(％)

通过表2和图3中的数据，可以得出结论，在所有方法中，本实施方式的算法的平均聚类误差率在所有类的个数中比较是最好的。小偏差表明，本实施方式算法是最稳定的所有选择类的个数。当K＝2，3，5，8，10时，本实施方式的方法的平均聚类误差率分别为0.18、0.25、0.309、0.302、0.26.由此可见，本实施方式算法的平均聚类误差率对类的个数的增加具有较强的鲁棒性。

与SSC+SSpeC(最优的两阶段法)相比，本实施方式算法将聚类误差率1.92％，3.33％，4.49％，3.67％和2.71％降到0.18％，0.25％，0.309％，0.302％和0.26％分别对应K＝{2,3,5,8,10}。与次优的SSSC相比，本实施方式算法的聚类效果随着类的个数的增加越来越好，将聚类误差率提升0.58％，0.57％，1.01％，1.83％和2.14％。本实施方式算法优于另两种方法的两个原因，一方面使用数据间的距离来指导相似度矩阵的稀疏性，克服了SSpeC稀疏惩罚的盲目性；另一方面，它建立了相似度矩阵和聚类指标矩阵之间的关系，是统一的优化模型。

此外，为了更好地比较SSC+SSpeC、SSSC以及本实施方式算法，选择K＝5时所得到的相似度矩阵A、潜在相似度矩阵FF^T和聚类指标矩阵F，图4-1是根据本发明实施方式的SSC+SSpeC的相似度矩阵的示意图；图4-2是根据本发明实施方式的SSSC的相似度矩阵的示意图；图4-3是根据本发明实施方式的相似度矩阵的示意图；图5-1是根据本发明实施方式的SSC+SSpeC的潜在相似度矩阵的示意图；图5-2是根据本发明实施方式的SSSC的潜在相似度矩阵的示意图；图5-3是根据本发明实施方式的潜在相似度矩阵的示意图；图6-1是根据本发明实施方式的SSC+SSpeC的聚类指标矩阵的示意图；图6-2是根据本发明实施方式的SSSC的聚类指标矩阵的示意图；图6-3是根据本发明实施方式的聚类指标矩阵的示意图，如图4-1至图4-3，图5-1至图5-3，以及图6-1至图6-3，所示。为了便于可视化，将矩阵的每个每个元素增大了8000倍。由此可见，本实施方式的效果，优于SSC+SSpeC、SSSC。

然后是对于Hopkinsl 155运动分割数据库。

在这个实验中，考虑霍普金斯Hopkinsl 155数据集。霍普金斯155数据集是一个运动分割数据集，包括155个视频序列，每个视频中有2个或3个动作，对应于2个或3个低维子空间。图7是根据本发明实施方式的来自霍普金斯155数据集的样本图像集合的示意图，如图7所示，是一些样本。使用

来约束E。表3是霍普金斯155数据集的集群错误率(ERR)(％)的统计表，如表3所示，最好的结果是粗体标识，本实验中将本实施方式算法与LSA，LRR，BDLRR，BDSSC，SSC，SSC+SSpeC，SSSC，DCSC，LSR1，和LSR2作比较。

表3霍普金斯155数据集的集群错误率(ERR)(％)

在实验中，参数

跟SSC算法一致，α,β分别取0.1和0.0001.实验结果如表3和图7所示。从实验结果可以看出，SSSC、DCSC和本实施方式的方法是统一的。在子空间聚类中，该方法总体上优于两阶段聚类方法，将潜在相似度矩阵与数据相结合的自适应稀疏规则可以提高聚类精度。还表明，利用contributes数据之间的内在关联关系的子空间聚类问题最重要的是，本实施方式的方法比SSSC和DCSC有更好的性能。这表明，潜在相似度矩阵的自适应稀疏性增强了潜在相似度矩阵的聚类分辨性，有利于子空间聚类。

在本实施方式中，提出了一种新的子空间聚类模型，在SSSC模型中加入了一个识别增强正则项。一方面，新的正则化项利用数据对之间的距离来强化潜在相似度矩阵的聚类判别性质，从而克服了SSpeC中稀疏性惩罚的盲目性；另一方面，它建立了相似度矩阵和聚类指标矩阵之间的关系，是统一的优化模型。在两个常用数据集上的扩展实验表明，本实施方式的方法优于现有的两阶段方法和统一的SSSC方法。

图9是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理装置的示意图，如图9所示，根据本发明实施例的另一方面，还提供了一种基于谱聚类的子空间聚类算法的数据处理装置，包括：第一确定模块92，第二确定模块94，代入模块96和处理模块98，下面对该装置进行详细说明。

第一确定模块92，用于确定谱聚类算法，其中，谱聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F∈Γ

式中；X为待处理的数据集合，Z为自表示矩阵，i,j分别为z的行数和列数，Z_ij表示矩阵Z的第i行第j列的元素；E表示误差值、损坏值或异常值，Φ(E)是E的约束函数，约束Γ是聚类指标矩阵的集合，Γ＝{F∈{0,1}^N×K:F1＝1,rank(F)＝K}，其中，F＝(F_ij)∈{0,1}^N×K为聚类指标矩阵，F_ij定义为

第二确定模块94，与上述确定模块92相连，用于确定待处理的数据集合的相似度矩阵的稀疏性正则项，

式中，

(FF^T)_ij是一个二值矩阵，为相似度矩阵的可判别性，(FF^T)_ij的值越大则权重越小，(FF^T)_ij越小则权重越大。

代入模块96，与上述第二确定模块94相连，用于将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，其中，子空间聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,FF^T＝I

式中，β>0，为第三权衡参数；

处理模块98，用于根据子空间聚类算法对待处理的数据集合进行处理。

通过上述装置，采用第一确定模块92确定谱聚类算法，第二确定模块94确定待处理的数据集合的相似度矩阵的稀疏性正则项，代入模块96将稀疏性正则项代入谱聚类算法，得到子空间聚类算法，处理模块98根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系，使数据具有有利于聚类的一些特性，进而通过稀疏性加权值，纳入谱聚类算法，进一步提高聚类的有效性，从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系，聚类性能较差，导致数据处理的效果差的技术问题。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于谱聚类的子空间聚类算法的数据处理方法，所述方法由计算机系统实现，其特征在于，包括：

确定谱聚类算法，其中，所述谱聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F∈Γ

式中，X为待处理的数据集合，X表征Extended Yale B人脸数据库和Hopkinsl155运动分割数据库的图像信息，Z为自表示矩阵，i,j分别为Z的行数和列数，Z_ij表示矩阵Z的第i行第j列的元素；E表示误差值、损坏值或异常值，Φ(E)是E的约束函数，约束Γ是聚类指标矩阵的集合，Γ＝{F∈{0,1}^N×K:F1＝1,rank(F)＝K}，其中，F＝(F_ij)∈{0,1}^N×K为聚类指标矩阵，F_ij定义为

确定待处理的数据集合的相似度矩阵的稀疏性正则项

式中，

(FF^T)_ij是一个二值矩阵，为相似度矩阵的可判别性，(FF^T)_ij的值越大则W_ij越小，(FF^T)_ij越小则W_ij越大；

将所述稀疏性正则项代入所述谱聚类算法，得到子空间聚类算法，其中，所述子空间聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,FF^T＝I

式中，β>0，为第三权衡参数；

根据所述子空间聚类算法对所述待处理的数据集合进行处理，得到聚类好的图像数据；

其中，根据所述子空间聚类算法对所述待处理的数据集合进行处理包括：

将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及迭代总次数k，输入所述子空间聚类算法确定所述数据集合的聚类指标矩阵F；

根据所述聚类指标矩阵F，对所述数据集合进行交替方向乘子法ADMM的求解；

其中，将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及迭代总次数k，输入所述子空间聚类算法确定所述数据集合的聚类指标矩阵F包括：

将接收的待处理的数据集合X，自表示矩阵Z，误差值、损坏值或异常值E，第一权衡参数α和第三权衡参数β，以及第一迭代次数k，输入所述子空间聚类算法，确定：‖Θ⊙Z‖₁＝tr(F^TLF)＝<L,FF^T>，

其中，

L＝D-A是图拉普拉斯矩阵，D是一个对角元素为

的对角矩阵，A为相似度矩阵，

对F有，α<L,FF^T>+β||W⊙FF^T||₁,s.t.F^TF＝I

令J＝FF^T，得到计算式：α<L,FF^T>+β||W⊙J||₁,s.t.J＝FF^T,F^TF＝I

所述计算式的欧拉-拉格朗日方程为：

s.t.F^TF＝I

式中，I为单位矩阵；Y为乘数，μ为惩罚系数，

对所述欧拉-拉格朗日方程进行求解，得到：

则F为

最大的N个特征值对应的特征向量组成的矩阵；

迭代F,J，更新乘数Y，更新参数μ_k+1＝min(μ_max,ρμ_k)，在达到收敛条件的情况下，输出聚类指标矩阵F^k+1，其中，所述收敛条件如下：

||F^k+1(F^k+1)^T-F^k(F^k)^T||_∞＜ε和||J^k+1-F^k+1(F^k+1)^T||_∞＜ε；

其中，对J有，

确定最优解为

式中，S为软阈值算子，|W|是对矩阵W的每个元素取绝对值，

对Y有，Y^k+1＝Y^k+μ^k(J^k+1-F^k+1(F^k+1)^T)；

将接收的待处理的数据集合X，第一权衡参数α，第二权衡参数λ，第三权衡参数β，以及定义的类的个数K，输入所述子空间聚类算法，确定所述数据集合的聚类标签；

其中，将接收的待处理的数据集合X，第一权衡参数α，第二权衡参数λ，第三权衡参数β，以及定义的类的个数K，输入所述子空间聚类算法，确定所述数据集合的聚类标签包括：

将接收的待处理的数据集合X，第一权衡参数α，第二权衡参数λ，第三权衡参数β，以及定义的类的个数K，输入所述子空间聚类算法，通过所述子空间聚类算法得到(X,E)；

固定Z,E，通过求解所述欧拉-拉格朗日方程，得到F；

用

来计算矩阵Θ＝(Θ_ij)；

固定Θ或F，通过求解，

s.t.X＝XZ+E,diag(Z)＝0，得到Z,E；

将k-means算法作用于矩阵F的每一行，得到聚类标签，其中，F∈R^N×K，N表示数据的个数，K表示类的个数。

2.根据权利要求1所述的方法，其特征在于，得到聚类标签之后，还包括：

确定是否满足停止准则，其中，所述停止准则如下：

||F^t+1(F^t+1)^T-F^t(F^t)^T||_∞＜ε

其中，t是第二迭代次数，ε＞0，F^t是第t次迭代的聚类指标矩阵；

在满足所述停止准则的情况下，输出所述聚类标签。

3.根据权利要求2所述的方法，其特征在于，确定谱聚类算法之前，还包括：

确定优化问题，其中，所述优化问题的数据表达式如下：

式中，Ω(Z)和

是对矩阵Z的约束,E表示误差值、损坏值或异常值，Φ(E) 是E的约束函数，

用于高斯噪声，||E||₁用于异常值；

对所述优化问题进行求解，确定自表示矩阵Z；

根据所述自表示矩阵Z构建相似度矩阵A。

4.一种基于谱聚类的子空间聚类算法的数据处理装置，所述装置设置在计算机系统中，其特征在于，包括：

第一确定模块，用于确定谱聚类算法，其中，所述谱聚类算法的表达式如下：

s.t.X＝XZ+E,diag(Z)＝0,F∈Γ

式中，X为待处理的数据集合，X表征Extended Yale B人脸数据库和Hopkinsl 155运动分割数据库的图像信息，Z为自表示矩阵，i,j分别为Z的行数和列数，Z_ij表示矩阵Z的第i行第j列的元素；E表示误差值、损坏值或异常值，Φ(E)是E的约束函数，约束Γ是聚类指标矩阵的集合，Γ＝{F∈{0,1}^N×K:F1＝1,rank(F)＝K}，其中，F＝(F_ij)∈{0,1}^N×K为聚类指标矩阵，F_ij定义为