CN111813982B - 基于谱聚类的子空间聚类算法的数据处理方法及装置 - Google Patents

基于谱聚类的子空间聚类算法的数据处理方法及装置 Download PDF

Info

Publication number
CN111813982B
CN111813982B CN202010716572.5A CN202010716572A CN111813982B CN 111813982 B CN111813982 B CN 111813982B CN 202010716572 A CN202010716572 A CN 202010716572A CN 111813982 B CN111813982 B CN 111813982B
Authority
CN
China
Prior art keywords
matrix
clustering
clustering algorithm
data set
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010716572.5A
Other languages
English (en)
Other versions
CN111813982A (zh
Inventor
高冉
陈花竹
丁箭飞
孙旭明
张洪涛
司马大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyuan University of Technology
Original Assignee
Zhongyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyuan University of Technology filed Critical Zhongyuan University of Technology
Priority to CN202010716572.5A priority Critical patent/CN111813982B/zh
Publication of CN111813982A publication Critical patent/CN111813982A/zh
Application granted granted Critical
Publication of CN111813982B publication Critical patent/CN111813982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于谱聚类的子空间聚类算法的数据处理方法及装置。其中,该方法包括:确定谱聚类算法,确定待处理的数据集合的相似度矩阵的稀疏性正则项,将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。

Description

基于谱聚类的子空间聚类算法的数据处理方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种基于谱聚类的子空间聚类算法的数据处理方法及装置。
背景技术
近年来,子空间聚类得到了广泛的关注和大量的研究方法,其中,基于谱聚类的方法正变得越来越流行。这些方法通常将问题划分为两个独立的阶段。首先,通过使用自表示从数据中学习一个相似度矩阵。如稀疏子空间聚类(SSC)、低秩表示(LRR)和一些基于SSC或LRR的混合表示,重点描述了如何学习一个良好的相似度矩阵来提高聚类性能。然后应用Ncut或稀疏谱聚类(SSpeC)等谱聚类方法,利用相似度矩阵推断数据的标签。稀疏谱聚类(SSpeC)模型对传统的谱聚类方法进行了改进,通过引入稀疏正则化来增强的聚类判别能力。SSpeC方法虽然优于传统的谱聚类方法,但稀疏性正则化是模糊的,因为它没有考虑潜在相似度矩阵中哪些元素为0,SSpeC中稀疏性惩罚的盲目性较大。
所有的两阶段方法都没有充分利用相似度矩阵与数据标签之间的关系,其聚类性能都是次优的。结构稀疏子空间聚类(SSSC)将相似度矩阵学习和标签学习集成到一个统一的框架中,并使用其中一个来引导另一个,使两者都具有一些优点。具体来说,一方面,它使用标签将来自不同类的数据点对应的相似度强制为零。另一方面,它使用相似度矩阵来引导标签推断,以便同一类中的数据点可以具有相同的标签。但是,来自不同子空间的数据点应该有不同的标签,这一点在SSSC中没有明确表达,因此,SSSC存在只强制来自相同子空间的数据具有相同的聚类指标的缺陷。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于谱聚类的子空间聚类算法的数据处理方法及装置,以至少解决相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
根据本发明实施例的一个方面,提供了一种基于谱聚类的子空间聚类算法的数据处理方法,包括:确定谱聚类算法,其中,谱聚类算法的表达式如下:
Figure GDA0003165186520000021
s.t.X=XZ+E,diag(Z)=0,F∈Γ,式中,X为待处理的数据集合,Z为自表示矩阵,i,j分别为Z的行数和列数,Zij表示矩阵Z的第i行第j列的元素;E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,约束Γ是聚类指标矩阵的集合,Γ={F∈{0,1}N×K:F1=1,rank(F)=K},其中,F=(Fij)∈{0,1}N×K为聚类指标矩阵,Fij定义为
Figure GDA0003165186520000022
Sj为第j类数据的集合,第i行的非零元所在的列表示数据xi的所在的类,F的第j列表示哪些数据属于第j类,F1=1表示每个数据点只在一个子空间中,约束rank(F)=K是为了确保F只有K行不同,子空间的类的个数是K,||Z||1=∑i,j|Zij|为Z的l1范数,
Figure GDA0003165186520000023
F(i,:)是矩阵F的第i行,F(j,:)为矩阵F的第j列,α>0,为第一权衡参数,λ>0,为第二权衡参数;确定待处理的数据集合的相似度矩阵的稀疏性正则项
Figure GDA0003165186520000024
式中,
Figure GDA0003165186520000025
(FFT)ij是一个二值矩阵,为相似度矩阵的可判别性,(FFT)ij的值越大则Wij越小,(FFT)ij越小则Wij越大;将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,其中,子空间聚类算法的表达式如下:
Figure GDA0003165186520000026
s.t.X=XZ+E,diag(Z)=0,FTF=I式中,β>0,为第三权衡参数;根据子空间聚类算法对待处理的数据集合进行处理。
可选的,根据子空间聚类算法对待处理的数据集合进行处理包括:将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入子空间聚类算法确定数据集合的聚类指标矩阵F;根据聚类指标矩阵F,对数据集合进行交替方向乘子法ADMM的求解。
可选的,将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入子空间聚类算法确定数据集合的聚类指标矩阵F包括:将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及第一迭代次数k,输入子空间聚类算法,确定:||Θ⊙Z||1=tr(FTLF)=<L,FFT>,其中,
Figure GDA0003165186520000031
L=D-A是图拉普拉斯矩阵,D是一个对角元素为
Figure GDA0003165186520000032
的对角矩阵,A为相似度矩阵,对F有,α<L,FFT>+β||WFFT||1,s.t.FTF=I,令J=FFT,得到计算式:α<L,FFT>+β||W⊙J||1,s.t.J=FFT,FTF=I,计算式的欧拉-拉格朗日方程为:
Figure GDA0003165186520000033
s.t.FTF=I,式中,I为单位矩阵;Y为乘数,μ为惩罚系数,对欧拉-拉格朗日方程进行求解,得到:
Figure GDA0003165186520000034
Figure GDA0003165186520000035
则F为
Figure GDA0003165186520000036
最大的N个特征值对应的特征向量组成的矩阵;初始化F=F0,J=FFT,Y0=0,μ0=0.1,μmax=1010,k=1,ρ=1.1,ε=10-5;迭代F,J,更新乘数Y,更新参数μk+1=min(μmax,ρμk),在达到收敛条件的情况下,输出聚类指标矩阵Fk+1,其中,收敛条件如下:‖Fk+1(Fk +1)T-Fk(Fk)T<ε和‖Jk+1-Fk+1(Fk+1)T<ε;其中,对J有,
Figure GDA0003165186520000037
Figure GDA0003165186520000038
确定最优解为
Figure GDA0003165186520000039
式中,S为软阈值算子,|W|是对矩阵W的每个元素取绝对值,对Y有,Yk+1=Ykk(Jk+1-Fk+1(Fk+1)T)。
可选的,根据子空间聚类算法对待处理的数据集合进行处理包括:将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入子空间聚类算法,确定数据集合的聚类标签。
可选的,将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入子空间聚类算法,确定数据集合的聚类标签包括:将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入子空间聚类算法,通过子空间聚类算法得到(X,E);固定Z,E,通过求解欧拉-拉格朗日方程,得到F;用
Figure GDA0003165186520000041
来计算矩阵Θ=(Θij);固定Θ或F,通过求解
Figure GDA0003165186520000042
s.t.X=XZ+E,diag(Z)=0,得到Z,E;将k-means算法作用于矩阵F的每一行,得到聚类标签,其中,F∈RN×K,N表示数据的个数,K表示类的个数。
可选的,得到聚类标签之后,还包括:确定是否满足停止准则,其中,停止准则如下:||Ft+1(Ft+1)T-Ft(Ft)T||∞<ε,t是第二的迭代次数,ε>0,Ft是第t次迭代的聚类指标矩阵;在满足停止准则的情况下,输出聚类标签。
可选的,确定谱聚类算法之前,还包括:确定优化问题,其中,优化问题的数据表达式如下:
Figure GDA0003165186520000043
式中,Ω(Z)和
Figure GDA0003165186520000044
是对矩阵Z的约束,E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,
Figure GDA0003165186520000045
用于高斯噪声,||E||1用于异常值;对优化问题进行求解,确定自表示矩阵Z;根据自表示矩阵Z构建相似度矩阵A。
根据本发明实施例的另一方面,还提供了一种基于谱聚类的子空间聚类算法的数据处理装置,包括:第一确定模块,用于确定谱聚类算法,其中,谱聚类算法的表达式如下:
Figure GDA0003165186520000046
s.t.X=XZ+E,diag(Z)=0,F∈Γ,式中,式中,X为待处理的数据集合,Z为自表示矩阵,i,j分别为Z的行数和列数,Zij表示矩阵z的第i行第j列的元素;E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,约束Γ是聚类指标矩阵的集合,Γ={F∈{0,1}N×K:F1=1,rank(F)=K},其中,F=(Fij)∈{0,1}N×K为聚类指标矩阵,Fij定义为
Figure GDA0003165186520000047
Sj为第j类数据的集合,第i行的非零元所在的列表示数据xi的所在的类,F的第j列表示哪些数据属于第j类,F1=1表示每个数据点只在一个子空间中,约束rank(F)=K是为了确保F只有K行不同,子空间的类的个数是K,||Z||1=∑i,j|Zij|为Z的l1范数,
Figure GDA0003165186520000051
Figure GDA0003165186520000052
F(i,:)是矩阵F的第i行,F(j,:)为矩阵F的第j列,α>0,为第一权衡参数,λ>0,为第二权衡参数;第二确定模块,用于确定待处理的数据集合的相似度矩阵的稀疏性正则项
Figure GDA0003165186520000053
式中,
Figure GDA0003165186520000054
Figure GDA0003165186520000055
(FFT)ij是一个二值矩阵,为相似度矩阵的可判别性,(FFT)ij的值越大则Wij越小,(FFT)ij越小则Wij越大;代入模块,用于将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,其中,子空间聚类算法的表达式如下:
Figure GDA0003165186520000056
s.t.X=XZ+E,diag(Z)=0,FFT=I,式中,β>0,为第三权衡参数;处理模块,用于根据子空间聚类算法对待处理的数据集合进行处理。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质包括存储的程序,其中,在程序运行时控制计算机存储介质所在设备执行上述中任意一项的基于谱聚类的子空间聚类算法的数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的基于谱聚类的子空间聚类算法的数据处理方法。
在本发明实施例中,采用确定谱聚类算法,确定待处理的数据集合的相似度矩阵的稀疏性正则项,将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理方法的流程图;
图2是根据本发明实施方式的人脸数据库的图片集合的示意图;
图3是根据本发明实施方式的人脸数据集上的聚类性能的示意图;
图4-1是根据本发明实施方式的SSC+SSpeC的相似度矩阵的示意图;
图4-2是根据本发明实施方式的SSSC的相似度矩阵的示意图;
图4-3是根据本发明实施方式的相似度矩阵的示意图;
图5-1是根据本发明实施方式的SSC+SSpeC的潜在相似度矩阵的示意图;
图5-2是根据本发明实施方式的SSSC的潜在相似度矩阵的示意图;
图5-3是根据本发明实施方式的潜在相似度矩阵的示意图;
图6-1是根据本发明实施方式的SSC+SSpeC的聚类指标矩阵的示意图;
图6-2是根据本发明实施方式的SSSC的聚类指标矩阵的示意图;
图6-3是根据本发明实施方式的聚类指标矩阵的示意图;
图7是根据本发明实施方式的来自霍普金斯155数据集的样本图像集合的示意图;
图8是根据本发明实施方式的霍普金斯155数据集上的聚类性能的示意图;
图9是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种基于谱聚类的子空间聚类算法的数据处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理方法的流程图,如图1所示,根据本发明实施例的另一方面,还提供了一种基于谱聚类的子空间聚类算法的数据处理方法,该方法包括以下步骤:
步骤S102,确定谱聚类算法,其中,谱聚类算法的表达式如下:
Figure GDA0003165186520000071
Figure GDA0003165186520000072
s.t.X=XZ+E,diag(Z)=0,F∈Γ,式中,X为待处理的数据集合,Z为自表示矩阵,i,j分别为Z的行数和列数,Zij表示矩阵Z的第i行第j列的元素;E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,约束Γ是聚类指标矩阵的集合,Γ={F∈{0,1}N×K:F1=1,rank(F)=K},其中,F=(Fij)∈{0,1}N×K为聚类指标矩阵,Fij定义为
Figure GDA0003165186520000073
Sj为第j类数据的集合,第i行的非零元所在的列表示数据xi的所在的类,F的第j列表示哪些数据属于第j类,F1=1表示每个数据点只在一个子空间中,约束rank(F)=K是为了确保F只有K行不同,子空间的类的个数是K,||Z||1=∑i,j|Zij|为Z的l1范数,
Figure GDA0003165186520000074
F(i,:)是矩阵F的第i行,F(j,:)为矩阵F的第j列,α>0,为第一权衡参数,λ>0,为第二权衡参数;
步骤S104,确定待处理的数据集合的相似度矩阵的稀疏性正则项
Figure GDA0003165186520000075
式中,
Figure GDA0003165186520000081
(FFT)ij是一个二值矩阵,为相似度矩阵的可判别性,(FFT)ij的值越大则Wij越小,(FFT)ij越小则Wij越大。
若xi和xj来自不同的子空间,则Wij的值可能越大;若xi和xj来自相同的子空间,则Wij的值可能越小。
步骤S106,将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,其中,子空间聚类算法的表达式如下:
Figure GDA0003165186520000082
s.t.X=XZ+E,diag(Z)=0,FTF=I,式中,β>0,为第三权衡参数;
步骤S108,根据子空间聚类算法对待处理的数据集合进行处理。
通过上述步骤,采用确定谱聚类算法,确定待处理的数据集合的相似度矩阵的稀疏性正则项,将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
上述谱聚类算法是建立在谱图理论及上个,与传统的聚类算法相比,具有能在任意形状的样本空间上聚类且收敛于全局最优解,其主要步骤包括,构建相似度矩阵,计算相似度矩阵或拉普拉斯矩阵的预设数量的特征值和特征向量,构建向量空间,上述向量空间包括多个子空间,利用聚类算法对特征向量空间中的特征向量进行聚类。上述聚类算法可以是K-means等子空间聚类算法。
在步骤S104中,FFT隐含了相似度矩阵A的可判别性或|FFT|可以为相似度矩阵的潜在相似度矩阵,上述潜在相似度矩阵FFT中的元素只有0和1,如下式所示
Figure GDA0003165186520000083
即矩阵FFT是稀疏的。稀疏谱聚类(SSpeC)模型用||FFT||1来表示FFT的稀疏性,建立如下模型
Figure GDA0003165186520000091
通过上述步骤S104,将数据归一化,定义函数
Figure GDA0003165186520000092
若xi和xj来自不同的子空间,则Wij的值可能越大;若xi和xj来自相同的子空间,则Wij的值可能越小。构造如下正则项
Figure GDA0003165186520000093
上式中,(FFT)ij的值越大则权重越小,(FFT)ij越小则权重越大,因此上式有利于来自不同空间的数据点对应的FFT的元素为0,这样使得FFT的稀疏不是盲目的。所以可使用上式的加权稀疏性来增强潜在相似度矩阵FFT的判别性能。
上述稀疏谱聚类是没有充分利用相似度矩阵和数据标签之间关系的两阶段法,而结构稀疏子空间聚类(SSSC)将相似度矩阵和聚类指标矩阵结合成一个统一的框架,从而优于两阶段聚类方法,但是它没有考虑潜在相似度矩阵的稀疏性。
本实施例通过将步骤S104中的稀疏性加权值代入谱聚类算法,利用数据的距离给出了一个新的自适应稀疏正则项来增强潜在相似度矩阵的聚类判别特性,从而克服了稀疏谱聚类中稀疏性惩罚的盲目性。将新正则项与结构稀疏子空间聚类相结合,提出了新的统一优化模型。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
可选的,根据子空间聚类算法对待处理的数据集合进行处理包括:将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入子空间聚类算法确定数据集合的聚类指标矩阵F;根据聚类指标矩阵F,对数据集合进行交替方向乘子法ADMM的求解。
上述交替方向乘子法,ADMM,(Alternating Direction Method of Multipliers)用于对数据进行处理,具体是一种解决可分解凸优化问题的简单方法们尤其在解决大规模问题上卓有成效,利用ADMM算法可以将原问题的目标函数等价的分解成若干个可求解的子问题,然后并行求解每一个子问题,最后写条子问题的解,得到原问题的全局解,从而可以加快数据集合的问题求解的速度,进而提高数据处理的速度。
可选的,将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入子空间聚类算法确定数据集合的聚类指标矩阵F包括:将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及第一迭代次数k,输入子空间聚类算法,确定:‖Θ⊙Z‖1=tr(FTLF)=<L,FFT>,
其中,
Figure GDA0003165186520000101
L=D-A是图拉普拉斯矩阵,D是一个对角元素为
Figure GDA0003165186520000102
的对角矩阵,A为相似度矩阵,
对F有,α<L,FFT>+β||WFFT||1,s.t.FTF=I
令J=FFT,得到计算式:α<L,FFT>+β||W⊙J||1,s.t.J=FFT,FTF=I
计算式的欧拉-拉格朗日方程为:
Figure GDA0003165186520000103
s.t.FTF=I
式中,I为单位矩阵;Y为乘数,μ为惩罚系数,
对欧拉-拉格朗日方程进行求解,得到:
Figure GDA0003165186520000104
则F为
Figure GDA0003165186520000105
最大的N个特征值对应的特征向量组成的矩阵;
初始化F=F0,J=FFT,Y0=0,μ0=0.1,μmax=1010,k=1,ρ=1.1,ε=10-5
迭代F,J,更新乘数Y,更新参数μk+1=min(μmax,ρμk),在达到收敛条件的情况下,输出聚类指标矩阵Fk+1,其中,收敛条件如下:
‖Fk+1(Fk+1)T-Fk(Fk)T<ε和‖Jk+1-Fk+1(Fk+1)T<ε;
其中,对J有,
Figure GDA0003165186520000111
确定最优解为
Figure GDA0003165186520000112
式中,S为软阈值算子,|W|是对矩阵W的每个元素取绝对值,
对Y有,Yk+1=Ykk(Jk+1-Fk+1(Fk+1)T)。
可选的,根据子空间聚类算法对待处理的数据集合进行处理包括:将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入子空间聚类算法,确定数据集合的聚类标签。
上述确定数据集合的聚类标签实质上也是对数据进行处理,相比于相关技术中的聚类标签的确定方式,本实施例利用了数据的距离给出了一个新的自适应稀疏正则项来增强潜在相似度矩阵的聚类判别特性,从而克服了稀疏谱聚类中稀疏性惩罚的盲目性。将新正则项与结构稀疏子空间聚类相结合,提出了新的统一优化模型。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
可选的,将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入子空间聚类算法,确定数据集合的聚类标签包括:将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入子空间聚类算法,通过子空间聚类算法得到(X,E);固定Z,E,通过求解欧拉-拉格朗日方程,得到F;用
Figure GDA0003165186520000113
来计算矩阵Θ=(Θij);固定Θ或F,通过求解,
Figure GDA0003165186520000114
s.t.X=XZ+E,diag(Z)=0,得到Z,E;将k-means算法作用于矩阵F的每一行,得到聚类标签,其中,F∈RN×K,N表示数据的个数,K表示类的个数。
可选的,得到聚类标签之后,还包括:确定是否满足停止准则,其中,停止准则如下:||Ft+1(Ft+1)T-Ft(Ft)T||∞<ε,其中,t是第二的迭代次数,ε>0,Ft是第t次迭代的聚类指标矩阵;在满足停止准则的情况下,输出聚类标签。
可选的,确定谱聚类算法之前,还包括:确定优化问题,其中,优化问题的数据表达式如下:
Figure GDA0003165186520000121
式中,Ω(Z)和
Figure GDA0003165186520000122
是对矩阵Z的约束,E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,
Figure GDA0003165186520000123
用于高斯噪声,||E||1用于异常值;对优化问题进行求解,确定自表示矩阵Z;根据自表示矩阵Z构建相似度矩阵A。
上述步骤可以为步骤S102中确定谱聚类算法的一部分,也可以是相对于谱聚类算法的确定步骤之前的步骤,主要是确定自表示矩阵Z和相似度矩阵A,以便确定上述谱聚类算法,进而根据谱聚类算法和相似度矩阵的稀疏性加权值,确定子空间聚类算法,通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
需要说明的是,本实施例还提供了一种可选的实施方式,下面对该实施方式进行详细说明。
本实施方式采用了SSSC的统一框架,以保持相似度学习和聚类指标推断的相互引导。主要的区别在于,本实施方式加入了一个新的识别增强正则化项。一方面,利用数据对的相关性来指导相似度矩阵的稀疏性,克服了SSpeC中稀疏性惩罚的盲目性;另一方面,它倾向于强制来自不同子空间的数据具有不同的聚类指标,从而补充了SSSC只强制来自相同子空间的数据具有相同的聚类指标的缺陷。
为了方便起见,表1是符号说明,定义了一些本实施例中使用的符号。
表1符号说明
Figure GDA0003165186520000124
Figure GDA0003165186520000131
令X=(x1,x2,…,xN)∈Rn×N是N个数据的集合,每一列xi都是一个n维特征向量。假设数据分别来自维数未知的
Figure GDA0003165186520000132
的K个子空间
Figure GDA0003165186520000133
的并集。子空间聚类的任务是将数据根据其本质上所属的子空间进行聚类。近年来,许多研究都是在假设子空间中的任何数据都可以表示为其他数据的线性组合的前提下,利用自表示矩阵Z构造相似度矩阵。这些方法通过求解以下优化问题计算自表示矩阵Z:
Figure GDA0003165186520000134
这里Ω(Z)和
Figure GDA0003165186520000135
是对Z的约束,E表示误差值、损坏值或异常值,Φ(E)是E的约束函数。一般来说,
Figure GDA0003165186520000136
用于高斯噪声,||E||1用于异常值。λ是一个权衡参数.不同方法之间的主要区别在于Ω(Z)的选择。例如,稀疏子空间聚类(SSC)使用||Z||1来增强Z的稀疏性,而低秩表示(LRR)使用核范数||Z||*来寻求对所有数据的联合低秩表示。
得到问题(1)的最优解Z*后,就构造出相似度矩阵A=(|Z*|+|Z*T|)/2。然后,通过谱聚类算法得到聚类结果。具体地,通过优化以下问题得到最终聚类结果:
Figure GDA0003165186520000141
这里L=D-A是图拉普拉斯矩阵,D是一个对角元素为
Figure GDA0003165186520000142
的对角矩阵。约束Γ是聚类指标矩阵的集合,定义为
Γ={F∈{0,1}N×K:F1=1,rank(F)=K}。
特殊地,F=(Fij)∈{0,1}N×K是一个二元聚类指标矩阵,Fij定义为
Figure GDA0003165186520000143
第i行的非零元表示数据xi的所在的类,F的第j列表示哪些数据属于第j类。F1=1表示每个数据点只在一个子空间中。约束rank(F)=K是为了确保F只有K行不同,因为子空间的类的个数是K。为了简单起见,问题(2)(也即是上式(2))通常由F∈Γ松弛为FTF=I,其中I是单位矩阵。此外,
tr(FTLF)=<FFT,L> (4)
从而谱聚类问题简化为以下优化问题
Figure GDA0003165186520000144
若F∈Γ,则称F为聚类指标矩阵;如果它只满足FTF=I,称之为软聚类指标矩阵。问题(5)(也即是上式(5))的最优解F的列是L的K个最小特征值的对应的特征向量。将k-means算法作用于F的每一行,得到最终聚类结果。
稀疏谱聚类(SSpeC)表明FFT矩阵隐含了相似度矩阵A的可判别性或|FFT|可视为一个新的相似度矩阵,称为潜在相似度矩阵。SSpeC模型表示为
Figure GDA0003165186520000145
另一方面,虽然两阶段方法在许多应用中都取得了成功,但它们的一个主要缺点是没有显式地捕获数据的自表示矩阵和指标矩阵之间的自然关系。SSSC通过以下模型将子空间聚类问题表述为一个统一的框架
Figure GDA0003165186520000151
s.t.X=XZ+E,diag(Z)=0,F∈Γ (7)
式中,
Figure GDA0003165186520000152
α>0和λ>0为权衡参数,和Zij是矩阵Z的元素,SSSC中,自表示矩阵Z和聚类指标矩阵F彼此交互,以便他们有一些有利于聚类的一些特性。
本实施方式提出的谱聚类。FFT在某种程度上是稀疏的,SSpeC模型通过||FFT||1来考虑稀疏性,但它是盲目的因为它没有考虑两个数据点是否来自不同的子空间。只有数据点xi,xj来自不同的子空间,才有(FFT)ij=0。此外,SSpeC是一个两阶段的方法,没有充分利用相似度矩阵和聚类指标矩阵之间的关系。
在这项工作中,本实施方式建议用数据自适应稀疏性代替SSpeC的稀疏性惩罚,它利用数据的相关性来增强潜在相似度矩阵的稀疏性。
本实施方式进一步将其纳入SSSC的统一框架中,给出了一个新的统一模型。本实施方式的这种模式的主要优点是双重的。一方面,它利用数据对的相关性来克服SSpeC中稀疏性惩罚的模糊性;另一方面,它倾向于强制执行来自不同子空间的数据具有不同的聚类指标,从而补充了SSSC只强制来自相同子空间的数据具有相同的集群指标。总之,本实施方式的模型比SSpeC和SSSC具有更好的聚类判别性能。
本实施方式的模型如下:
首先将数据归一化,定义函数
Figure GDA0003165186520000153
若xi和xj来自不同的子空间,则Wij的值可能越大;若xi和xj来自相同的子空间,则Wij的值可能越小。构造如下稀疏性正则项
Figure GDA0003165186520000154
上式中,(FFT)ij的值越大则权重越小,(FFT)ij越小则权重越大,因此上式有利于来自不同空间的数据点对应的FFT的元素为0,这样使得FFT的稀疏不是盲目的。
将(8)代入SSSC模型,且将F∈Γ松弛为FTF=I,可得
Figure GDA0003165186520000161
s.t.X=XZ+E,diag(Z)=0,FTF=I (9)
其中,
Figure GDA0003165186520000162
然后本实施方式还采用了极小化算法,本实施方式通过交替求解以下两个子问题,设计了模型(9)(也即是上式(9))的高效算法:
a.固定X,Z,使用加权稀疏谱聚类找F;
b.固定F,通过解决一个表示问题找到X,Z。
具体的,a.固定X,Z,使用加权稀疏谱聚类找F,求F的具体步骤如下:
‖Θ⊙Z‖1=tr(FTLF)=<L,FFT>
其中,
Figure GDA0003165186520000163
对F有,α<L,FFT>+β||W⊙FFT||1,s.t.FTF=I (10)
令J=FFT,则上式(10)可化为
α<L,FFT>+β||W⊙J||1,s.t.J=FFT,FTF=I (11)
上式(11)的欧拉-拉格朗日Euler-Lagrange方程为
Figure GDA0003165186520000164
s.t.FTF=I (12)
1)对F,
Figure GDA0003165186520000171
则F为
Figure GDA0003165186520000172
最大的N个特征值对应的特征向量组成的矩阵。
2)对J,
Figure GDA0003165186520000173
上式(14)的最优解为
Figure GDA0003165186520000174
其中,S为软阈值算子。
3)对Y:更新乘数是标准的梯度上升程序:
Yk+1=Ykk(Jk+1-Fk+1(Fk+1)T) (16)
求解问题(11)的整体ADMM如算法1,其中k是迭代次数:
在通过上述方式解决ADMM求解问题时,采用如下方式,表2是用ADMM求解问题(12)的算法1主要步骤表格,问题(12)也即是上式(12)。
表2用ADMM求解问题(12)的算法1主要步骤表格
Figure GDA0003165186520000175
Figure GDA0003165186520000181
具体的b.固定F,通过解决一个表示问题找到X,Z,求Z和E具体如下:
Figure GDA0003165186520000182
s.t.X=XZ+E,diag(Z)=0 (17)
这是SSSC模型,其求解方法为现有技术。
根据上述a和b,对算法进行总结:问题(10)也即是上式(10)的解决办法在算法2。表2为算法2的主要步骤表格,如表2所示,该算法在用上述算法1固定Z和E,求解F和用SSSC模型算法固定F,求解自表示系数矩阵Z和矩阵E之间交替。
终止准则:算法2的停止准则为:||Ft+1(Ft+1)T-Ft(Ft)T||<ε (18)
其中,t是算法2的迭代次数,ε>0,Ft是第t次迭代的聚类指标矩阵。
表2算法2的主要步骤表格
Figure GDA0003165186520000183
Figure GDA0003165186520000191
本实施方式还提供了进行试验后的实验结果,以说明本实施方式的效果,具体如下:
本实施方式的实验结果,分别在Extended Yale B人脸数据库和Hopkinsl 155运动分割数据库进行实验来评估本文算法的聚类性能,并与当前较好的聚类方法进行聚类误差率比较,如SSC,SSC+SSpeC,SSSC,LRR,LatLRR,LRSC,LSR,BDSSC,BDLRR,TSC,NSN,OMP和CASS。
采用子空间聚类误差率作为性能度量,定义如下,
Figure GDA0003165186520000192
其中,Nerror表示错误聚类的数据点的个数,Ntotal表示数据点总数.聚类精度定义为1-error。
首先是对于公共数据库—Extended Yale B人脸数据库。考虑The Extended YaleB人脸数据库,其包含了38个人的2414张人脸前额图像,对每一个人大约有64张在不同的实验室可控光照条件下的人脸图像,图2是根据本发明实施方式的人脸数据库的图片集合的示意图,如图2所示的例子。为了减小算法的计算时间和存储空间,首先将所有图像的分辨率重新调整为48×42,然后向量化到2016维数据点.基本上,、将38名受试者分为4组,而不是对整个数据集进行聚类,以评估本实施方式的方法在平均意义上的数量适中的总体。具体而言,四组分别对应1–10类、11–20类、21–30类、31–38类。对于前三组中的每一组,考虑K={2,3,5,8,10}。对于最后一组,考虑K={2,3,5,8}类的所有选择。该范数用于度量腐败矩阵Φ(E)=||E||1
实验表明,本实施方式的算法在参数α=0.1,β=0.001,λ=0.5时通常会得到“最佳”平均聚类精度,所以在该数据集上所有实验的参数都选择这个设置。
为了展示本实施方式的方法的性能,从每个组中任选所有K类进行试验,例如,当K=2时,共有
Figure GDA0003165186520000201
种情况。然后每类的所有情况的聚类错误率的均值、标准差和中值如表2所示,表2为Extended Yale B人脸数据集的集群错误率(%)的统计表,其中“–”表示未报告数据。为了更加直观,还绘制了不同方法的平均聚类错误率与类的个数的关系图,如图3所示,图3是根据本发明实施方式的人脸数据集上的聚类性能的示意图,其中,benwen为本文的汉语拼音,也即是本实施方式的平均聚类错误率与类的个数的关系曲线。
表2 Extended Yale B人脸数据集的集群错误率(%)
Figure GDA0003165186520000202
通过表2和图3中的数据,可以得出结论,在所有方法中,本实施方式的算法的平均聚类误差率在所有类的个数中比较是最好的。小偏差表明,本实施方式算法是最稳定的所有选择类的个数。当K=2,3,5,8,10时,本实施方式的方法的平均聚类误差率分别为0.18、0.25、0.309、0.302、0.26.由此可见,本实施方式算法的平均聚类误差率对类的个数的增加具有较强的鲁棒性。
与SSC+SSpeC(最优的两阶段法)相比,本实施方式算法将聚类误差率1.92%,3.33%,4.49%,3.67%和2.71%降到0.18%,0.25%,0.309%,0.302%和0.26%分别对应K={2,3,5,8,10}。与次优的SSSC相比,本实施方式算法的聚类效果随着类的个数的增加越来越好,将聚类误差率提升0.58%,0.57%,1.01%,1.83%和2.14%。本实施方式算法优于另两种方法的两个原因,一方面使用数据间的距离来指导相似度矩阵的稀疏性,克服了SSpeC稀疏惩罚的盲目性;另一方面,它建立了相似度矩阵和聚类指标矩阵之间的关系,是统一的优化模型。
此外,为了更好地比较SSC+SSpeC、SSSC以及本实施方式算法,选择K=5时所得到的相似度矩阵A、潜在相似度矩阵FFT和聚类指标矩阵F,图4-1是根据本发明实施方式的SSC+SSpeC的相似度矩阵的示意图;图4-2是根据本发明实施方式的SSSC的相似度矩阵的示意图;图4-3是根据本发明实施方式的相似度矩阵的示意图;图5-1是根据本发明实施方式的SSC+SSpeC的潜在相似度矩阵的示意图;图5-2是根据本发明实施方式的SSSC的潜在相似度矩阵的示意图;图5-3是根据本发明实施方式的潜在相似度矩阵的示意图;图6-1是根据本发明实施方式的SSC+SSpeC的聚类指标矩阵的示意图;图6-2是根据本发明实施方式的SSSC的聚类指标矩阵的示意图;图6-3是根据本发明实施方式的聚类指标矩阵的示意图,如图4-1至图4-3,图5-1至图5-3,以及图6-1至图6-3,所示。为了便于可视化,将矩阵的每个每个元素增大了8000倍。由此可见,本实施方式的效果,优于SSC+SSpeC、SSSC。
然后是对于Hopkinsl 155运动分割数据库。
在这个实验中,考虑霍普金斯Hopkinsl 155数据集。霍普金斯155数据集是一个运动分割数据集,包括155个视频序列,每个视频中有2个或3个动作,对应于2个或3个低维子空间。图7是根据本发明实施方式的来自霍普金斯155数据集的样本图像集合的示意图,如图7所示,是一些样本。使用
Figure GDA0003165186520000211
来约束E。表3是霍普金斯155数据集的集群错误率(ERR)(%)的统计表,如表3所示,最好的结果是粗体标识,本实验中将本实施方式算法与LSA,LRR,BDLRR,BDSSC,SSC,SSC+SSpeC,SSSC,DCSC,LSR1,和LSR2作比较。
表3霍普金斯155数据集的集群错误率(ERR)(%)
Figure GDA0003165186520000212
Figure GDA0003165186520000221
在实验中,参数
Figure GDA0003165186520000222
跟SSC算法一致,α,β分别取0.1和0.0001.实验结果如表3和图7所示。从实验结果可以看出,SSSC、DCSC和本实施方式的方法是统一的。在子空间聚类中,该方法总体上优于两阶段聚类方法,将潜在相似度矩阵与数据相结合的自适应稀疏规则可以提高聚类精度。还表明,利用contributes数据之间的内在关联关系的子空间聚类问题最重要的是,本实施方式的方法比SSSC和DCSC有更好的性能。这表明,潜在相似度矩阵的自适应稀疏性增强了潜在相似度矩阵的聚类分辨性,有利于子空间聚类。
在本实施方式中,提出了一种新的子空间聚类模型,在SSSC模型中加入了一个识别增强正则项。一方面,新的正则化项利用数据对之间的距离来强化潜在相似度矩阵的聚类判别性质,从而克服了SSpeC中稀疏性惩罚的盲目性;另一方面,它建立了相似度矩阵和聚类指标矩阵之间的关系,是统一的优化模型。在两个常用数据集上的扩展实验表明,本实施方式的方法优于现有的两阶段方法和统一的SSSC方法。
图9是根据本发明实施例的一种基于谱聚类的子空间聚类算法的数据处理装置的示意图,如图9所示,根据本发明实施例的另一方面,还提供了一种基于谱聚类的子空间聚类算法的数据处理装置,包括:第一确定模块92,第二确定模块94,代入模块96和处理模块98,下面对该装置进行详细说明。
第一确定模块92,用于确定谱聚类算法,其中,谱聚类算法的表达式如下:
Figure GDA0003165186520000223
s.t.X=XZ+E,diag(Z)=0,F∈Γ
式中;X为待处理的数据集合,Z为自表示矩阵,i,j分别为z的行数和列数,Zij表示矩阵Z的第i行第j列的元素;E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,约束Γ是聚类指标矩阵的集合,Γ={F∈{0,1}N×K:F1=1,rank(F)=K},其中,F=(Fij)∈{0,1}N×K为聚类指标矩阵,Fij定义为
Figure GDA0003165186520000231
Sj为第j类数据的集合,第i行的非零元所在的列表示数据xi的所在的类,F的第j列表示哪些数据属于第j类,F1=1表示每个数据点只在一个子空间中,约束rank(F)=K是为了确保F只有K行不同,子空间的类的个数是K,||Z||1=∑i,j|Zij|为Z的l1范数,
Figure GDA0003165186520000232
Figure GDA0003165186520000233
F(i,:)是矩阵F的第i行,F(j,:)为矩阵F的第j列,α>0,为第一权衡参数,λ>0,为第二权衡参数;
第二确定模块94,与上述确定模块92相连,用于确定待处理的数据集合的相似度矩阵的稀疏性正则项,
Figure GDA0003165186520000234
式中,
Figure GDA0003165186520000235
(FFT)ij是一个二值矩阵,为相似度矩阵的可判别性,(FFT)ij的值越大则权重越小,(FFT)ij越小则权重越大。
代入模块96,与上述第二确定模块94相连,用于将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,其中,子空间聚类算法的表达式如下:
Figure GDA0003165186520000236
s.t.X=XZ+E,diag(Z)=0,FFT=I
式中,β>0,为第三权衡参数;
处理模块98,用于根据子空间聚类算法对待处理的数据集合进行处理。
通过上述装置,采用第一确定模块92确定谱聚类算法,第二确定模块94确定待处理的数据集合的相似度矩阵的稀疏性正则项,代入模块96将稀疏性正则项代入谱聚类算法,得到子空间聚类算法,处理模块98根据子空间聚类算法对待处理的数据集合进行处理。通过谱聚类算法捕获数据的自表示矩阵和指标矩阵之间的自然关系,使数据具有有利于聚类的一些特性,进而通过稀疏性加权值,纳入谱聚类算法,进一步提高聚类的有效性,从而解决了相关技术中没有充分利用相似度矩阵与数据标签之间的关系,聚类性能较差,导致数据处理的效果差的技术问题。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质包括存储的程序,其中,在程序运行时控制计算机存储介质所在设备执行上述中任意一项的基于谱聚类的子空间聚类算法的数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的基于谱聚类的子空间聚类算法的数据处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于谱聚类的子空间聚类算法的数据处理方法,所述方法由计算机系统实现,其特征在于,包括:
确定谱聚类算法,其中,所述谱聚类算法的表达式如下:
Figure FDA0003165186510000011
s.t.X=XZ+E,diag(Z)=0,F∈Γ
式中,X为待处理的数据集合,X表征Extended Yale B人脸数据库和Hopkinsl155运动分割数据库的图像信息,Z为自表示矩阵,i,j分别为Z的行数和列数,Zij表示矩阵Z的第i行第j列的元素;E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,约束Γ是聚类指标矩阵的集合,Γ={F∈{0,1}N×K:F1=1,rank(F)=K},其中,F=(Fij)∈{0,1}N×K为聚类指标矩阵,Fij定义为
Figure FDA0003165186510000012
Sj为第j类数据的集合,第i行的非零元所在的列表示数据xi的所在的类,F的第j列表示哪些数据属于第j类,F1=1表示每个数据点只在一个子空间中,约束rank(F)=K是为了确保F只有K行不同,子空间的类的个数是K,||Z||1=∑i,j|Zij|为Z的l1范数,
Figure FDA0003165186510000013
F(i,:)是矩阵F的第i行,F(j,:)为矩阵F的第j列,α>0,为第一权衡参数,λ>0,为第二权衡参数;
确定待处理的数据集合的相似度矩阵的稀疏性正则项
Figure FDA0003165186510000014
式中,
Figure FDA0003165186510000015
(FFT)ij是一个二值矩阵,为相似度矩阵的可判别性,(FFT)ij的值越大则Wij越小,(FFT)ij越小则Wij越大;
将所述稀疏性正则项代入所述谱聚类算法,得到子空间聚类算法,其中,所述子空间聚类算法的表达式如下:
Figure FDA0003165186510000021
s.t.X=XZ+E,diag(Z)=0,FFT=I
式中,β>0,为第三权衡参数;
根据所述子空间聚类算法对所述待处理的数据集合进行处理,得到聚类好的图像数据;
其中,根据所述子空间聚类算法对所述待处理的数据集合进行处理包括:
将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入所述子空间聚类算法确定所述数据集合的聚类指标矩阵F;
根据所述聚类指标矩阵F,对所述数据集合进行交替方向乘子法ADMM的求解;
其中,将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入所述子空间聚类算法确定所述数据集合的聚类指标矩阵F包括:
将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及第一迭代次数k,输入所述子空间聚类算法,确定:‖Θ⊙Z‖1=tr(FTLF)=<L,FFT>,
其中,
Figure FDA0003165186510000022
L=D-A是图拉普拉斯矩阵,D是一个对角元素为
Figure FDA0003165186510000023
的对角矩阵,A为相似度矩阵,
对F有,α<L,FFT>+β||W⊙FFT||1,s.t.FTF=I
令J=FFT,得到计算式:α<L,FFT>+β||W⊙J||1,s.t.J=FFT,FTF=I
所述计算式的欧拉-拉格朗日方程为:
Figure FDA0003165186510000031
s.t.FTF=I
式中,I为单位矩阵;Y为乘数,μ为惩罚系数,
对所述欧拉-拉格朗日方程进行求解,得到:
Figure FDA0003165186510000032
则F为
Figure FDA0003165186510000033
最大的N个特征值对应的特征向量组成的矩阵;
初始化F=F0,J=FFT,Y0=0,μ0=0.1,μmax=1010,k=1,ρ=1.1,ε=10-5
迭代F,J,更新乘数Y,更新参数μk+1=min(μmax,ρμk),在达到收敛条件的情况下,输出聚类指标矩阵Fk+1,其中,所述收敛条件如下:
||Fk+1(Fk+1)T-Fk(Fk)T||<ε和||Jk+1-Fk+1(Fk+1)T||<ε;
其中,对J有,
Figure FDA0003165186510000034
确定最优解为
Figure FDA0003165186510000035
式中,S为软阈值算子,|W|是对矩阵W的每个元素取绝对值,
对Y有,Yk+1=Ykk(Jk+1-Fk+1(Fk+1)T);
其中,根据所述子空间聚类算法对所述待处理的数据集合进行处理包括:
将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入所述子空间聚类算法,确定所述数据集合的聚类标签;
其中,将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入所述子空间聚类算法,确定所述数据集合的聚类标签包括:
将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入所述子空间聚类算法,通过所述子空间聚类算法得到(X,E);
固定Z,E,通过求解所述欧拉-拉格朗日方程,得到F;
Figure FDA0003165186510000041
来计算矩阵Θ=(Θij);
固定Θ或F,通过求解,
Figure FDA0003165186510000042
s.t.X=XZ+E,diag(Z)=0,得到Z,E;
将k-means算法作用于矩阵F的每一行,得到聚类标签,其中,F∈RN×K,N表示数据的个数,K表示类的个数。
2.根据权利要求1所述的方法,其特征在于,得到聚类标签之后,还包括:
确定是否满足停止准则,其中,所述停止准则如下:
||Ft+1(Ft+1)T-Ft(Ft)T||<ε
其中,t是第二迭代次数,ε>0,Ft是第t次迭代的聚类指标矩阵;
在满足所述停止准则的情况下,输出所述聚类标签。
3.根据权利要求2所述的方法,其特征在于,确定谱聚类算法之前,还包括:
确定优化问题,其中,所述优化问题的数据表达式如下:
Figure FDA0003165186510000043
式中,Ω(Z)和
Figure FDA0003165186510000044
是对矩阵Z的约束,E表示误差值、损坏值或异常值,Φ(E) 是E的约束函数,
Figure FDA0003165186510000051
用于高斯噪声,||E||1用于异常值;
对所述优化问题进行求解,确定自表示矩阵Z;
根据所述自表示矩阵Z构建相似度矩阵A。
4.一种基于谱聚类的子空间聚类算法的数据处理装置,所述装置设置在计算机系统中,其特征在于,包括:
第一确定模块,用于确定谱聚类算法,其中,所述谱聚类算法的表达式如下:
Figure FDA0003165186510000052
s.t.X=XZ+E,diag(Z)=0,F∈Γ
式中,X为待处理的数据集合,X表征Extended Yale B人脸数据库和Hopkinsl 155运动分割数据库的图像信息,Z为自表示矩阵,i,j分别为Z的行数和列数,Zij表示矩阵Z的第i行第j列的元素;E表示误差值、损坏值或异常值,Φ(E)是E的约束函数,约束Γ是聚类指标矩阵的集合,Γ={F∈{0,1}N×K:F1=1,rank(F)=K},其中,F=(Fij)∈{0,1}N×K为聚类指标矩阵,Fij定义为
Figure FDA0003165186510000053
Sj为第j类数据的集合,第i行的非零元所在的列表示数据xi的所在的类,F的第j列表示哪些数据属于第j类,F1=1表示每个数据点只在一个子空间中,约束rank(F)=K是为了确保F只有K行不同,子空间的类的个数是K,||Z||1=∑i,j|Zij|为Z的l1范数,
Figure FDA0003165186510000055
F(i,:)是矩阵F的第i行,F(j,:)为矩阵F的第j列,α>0,为第一权衡参数,λ>0,为第二权衡参数;
第二确定模块,用于确定待处理的数据集合的相似度矩阵的稀疏性正则项
Figure FDA0003165186510000054
式中,
Figure FDA0003165186510000061
(FFT)ij是一个二值矩阵,为相似度矩阵的可判别性,(FFT)ij的值越大则Wij越小,(FFT)ij越小则Wij越大;
代入模块,用于将所述稀疏性正则项代入所述谱聚类算法,得到子空间聚类算法,其中,所述子空间聚类算法的表达式如下:
Figure FDA0003165186510000062
s.t.X=XZ+E,diag(Z)=0,FTF=I
式中,β>0,为第三权衡参数;
处理模块,用于根据所述子空间聚类算法对所述待处理的数据集合进行处理,得到聚类好的图像数据;
其中,所述处理模块包括:
将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入所述子空间聚类算法确定所述数据集合的聚类指标矩阵F;
根据所述聚类指标矩阵F,对所述数据集合进行交替方向乘子法ADMM的求解;
其中,将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及迭代总次数k,输入所述子空间聚类算法确定所述数据集合的聚类指标矩阵F包括:
将接收的待处理的数据集合X,自表示矩阵Z,误差值、损坏值或异常值E,第一权衡参数α和第三权衡参数β,以及第一迭代次数k,输入所述子空间聚类算法,确定:‖Θ⊙Z‖1=tr(FTLF)=<L,FFT>,
其中,
Figure FDA0003165186510000063
L=D-A是图拉普拉斯矩阵,D是一个对角元素为
Figure FDA0003165186510000064
的对角矩阵,A为相似度矩阵,
对F有,α<L,FFT>+β||W⊙FFT||1,s.t.FTF=I
令J=FFT,得到计算式:α<L,FFT>+β||W⊙J||1,s.t.J=FFT,FTF=I
所述计算式的欧拉-拉格朗日方程为:
Figure FDA0003165186510000071
s.t.FTF=I
式中,I为单位矩阵;Y为乘数,μ为惩罚系数,
对所述欧拉-拉格朗日方程进行求解,得到:
Figure FDA0003165186510000072
则F为
Figure FDA0003165186510000073
最大的N个特征值对应的特征向量组成的矩阵;
初始化F=F0,J=FFT,Y0=0,μ0=0.1,μmax=1010,k=1,ρ=1.1,ε=10-5
迭代F,J,更新乘数Y,更新参数μk+1=min(μmax,ρμk),在达到收敛条件的情况下,输出聚类指标矩阵Fk+1,其中,所述收敛条件如下:
||Fk+1(Fk+1)T-Fk(Fk)T||<ε和||Jk+1-Fk+1(Fk+1)T||<ε;
其中,对J有,
Figure FDA0003165186510000074
确定最优解为
Figure FDA0003165186510000075
式中,S为软阈值算子,|W|是对矩阵W的每个元素取绝对值,
对Y有,Yk+1=Ykk(Jk+1-Fk+1(Fk+1)T);
其中,所述处理模块还包括:
将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入所述子空间聚类算法,确定所述数据集合的聚类标签;
其中,将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入所述子空间聚类算法,确定所述数据集合的聚类标签包括:
将接收的待处理的数据集合X,第一权衡参数α,第二权衡参数λ,第三权衡参数β,以及定义的类的个数K,输入所述子空间聚类算法,通过所述子空间聚类算法得到(X,E);
固定Z,E,通过求解所述欧拉-拉格朗日方程,得到F;
Figure FDA0003165186510000081
来计算矩阵Θ=(Θij);
固定Θ或F,通过求解,
Figure FDA0003165186510000082
s.t.X=XZ+E,diag(Z)=0,得到Z,E;
将k-means算法作用于矩阵F的每一行,得到聚类标签,其中,F∈RN×K,N表示数据的个数,K表示类的个数。
5.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至3中任意一项所述的基于谱聚类的子空间聚类算法的数据处理方法。
6.一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的基于谱聚类的子空间聚类算法的数据处理方法。
CN202010716572.5A 2020-07-23 2020-07-23 基于谱聚类的子空间聚类算法的数据处理方法及装置 Active CN111813982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010716572.5A CN111813982B (zh) 2020-07-23 2020-07-23 基于谱聚类的子空间聚类算法的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010716572.5A CN111813982B (zh) 2020-07-23 2020-07-23 基于谱聚类的子空间聚类算法的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111813982A CN111813982A (zh) 2020-10-23
CN111813982B true CN111813982B (zh) 2021-09-03

Family

ID=72862405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010716572.5A Active CN111813982B (zh) 2020-07-23 2020-07-23 基于谱聚类的子空间聚类算法的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111813982B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298145A (zh) * 2021-05-24 2021-08-24 中国邮政储蓄银行股份有限公司 标签填充方法及装置
CN117271099B (zh) * 2023-11-21 2024-01-26 山东师范大学 一种基于规则库的空间数据分析自动调度系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359525A (zh) * 2018-09-07 2019-02-19 西安电子科技大学 基于稀疏低秩的判别谱聚类的极化sar图像分类方法
CN110348287A (zh) * 2019-05-24 2019-10-18 中国地质大学(武汉) 一种基于字典和样本相似图的无监督特征选择方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
CN110020599A (zh) * 2019-02-28 2019-07-16 浙江工业大学 一种稀疏强化型低秩约束的人脸图像聚类方法
CN111310813A (zh) * 2020-02-07 2020-06-19 广东工业大学 一种潜在低秩表示的子空间聚类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359525A (zh) * 2018-09-07 2019-02-19 西安电子科技大学 基于稀疏低秩的判别谱聚类的极化sar图像分类方法
CN110348287A (zh) * 2019-05-24 2019-10-18 中国地质大学(武汉) 一种基于字典和样本相似图的无监督特征选择方法和装置

Also Published As

Publication number Publication date
CN111813982A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
Wang et al. Deep multi-view subspace clustering with unified and discriminative learning
Leng et al. Graph regularized Lp smooth non-negative matrix factorization for data representation
Shao et al. Multiple incomplete views clustering via weighted nonnegative matrix factorization with regularization
Fukumizu et al. Gradient-based kernel dimension reduction for regression
Wang et al. Nonnegative matrix factorization: A comprehensive review
Jiang et al. Tensorial multi-view clustering via low-rank constrained high-order graph learning
Zass et al. A unifying approach to hard and probabilistic clustering
Wu et al. Multi-label boosting for image annotation by structural grouping sparsity
Shen et al. Non-negative matrix factorization clustering on multiple manifolds
CN107203787B (zh) 一种无监督正则化矩阵分解特征选择方法
Zhang et al. Unsupervised feature selection via adaptive multimeasure fusion
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN111813982B (zh) 基于谱聚类的子空间聚类算法的数据处理方法及装置
CN111062428A (zh) 一种高光谱图像的聚类方法、系统及设备
Pan et al. Orthogonal nonnegative matrix factorization by sparsity and nuclear norm optimization
Lange et al. Fusion of similarity data in clustering
Tang et al. Efficient dictionary learning for visual categorization
Pan et al. Large margin based nonnegative matrix factorization and partial least squares regression for face recognition
Jenssen Mean vector component analysis for visualization and clustering of nonnegative data
CN113469209A (zh) 一种基于噪声抑制的无监督数据降维方法
Wei et al. Spectral clustering steered low-rank representation for subspace segmentation
CN110717547A (zh) 一种基于回归超图的学习算法
CN109614581A (zh) 基于对偶局部学习的非负矩阵分解聚类方法
Yang et al. Robust landmark graph-based clustering for high-dimensional data
Traganitis et al. PARAFAC-based multilinear subspace clustering for tensor data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant