CN112465062A

CN112465062A - 一种基于流形学习和秩约束的聚类方法

Info

Publication number: CN112465062A
Application number: CN202011435852.5A
Authority: CN
Inventors: 曹江中; 陆菁
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-09

Abstract

本发明为克服采用最小二乘回归方法进行聚类分割存在聚类精度低、鲁棒性弱的缺陷，提出一种基于流形学习和秩约束的聚类方法，包括以下步骤：获取原始数据并对其预处理，并构建原始数据的特征矩阵X；基于k近邻法，采用相似性度量函数计算特征矩阵X中元素间的相似度，得到与特征矩阵X对应的权重矩阵W；将权重矩阵W作为低秩表示矩阵Z的初始矩阵，通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束，得到最终目标函数；采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题，并对最终目标函数中的变量交替迭代优化直至收敛，得到最优的低秩表示矩阵Z′，再对其采用谱聚类切图方法得到聚类结果。

Description

一种基于流形学习和秩约束的聚类方法

技术领域

本发明涉及模式识别技术领域，更具体地，涉及一种基于流形学习和秩约束的聚类方法。

背景技术

聚类的目的是将没有任何标签信息的数据分割到其对应的自然组中。目前的聚类算法有很多，比如，层次聚类、密度聚类、K-means聚类等等，其中谱聚类算法是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行分析来完成聚类。与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类并且收敛于全局最优的特点，因此应用广泛。基于聚类的谱聚类方法通常分为两个步骤：首先对输入的特征点计算一个亲和力矩阵W，用于度量特征点之间的相关性；然后对此亲和力矩阵应用谱聚类算法得到聚类分割结果。

而最小二乘回归(LSR)方法作为常用的聚类分割方法，其分组效应使其能够将高度相关的数据聚在一起，并且对噪声具有较强的鲁棒性，如公开号为CN103793438A(公开日2014-05-14)提出的一种基于MapReduce的并行聚类方法。但它存在以下两个问题，极大地限制了它的应用：(1)亲和力矩阵的构建过程中，往往容易因为学习不充分或者数据维度过高，导致数据识别效果不佳，局部相关性信息缺失、系数矩阵稀疏性不足；(2)谱聚类过程中常常依赖于初始图(graph)的质量，如果这个初始构建的质量不高，那么生成的集群的质量也可能不高，得到的图不是聚类的最佳图。基于最小二乘回归的鲁棒谱子空间聚类虽然弥补了数据局部相关性信息缺失、系数矩阵稀疏性不足的缺点，但其最后还是需要用谱聚类算法来进行聚类分割，容易受初始构建图的影响，从而使聚类精度低，鲁棒性弱。

发明内容

本发明为克服上述现有技术所述的采用最小二乘回归方法进行聚类分割存在聚类精度低、鲁棒性弱的缺陷，提供一种基于流形学习和秩约束的聚类方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于流形学习和秩约束的聚类方法，包括以下步骤：

S1：获取原始数据并对其预处理，并构建原始数据的特征矩阵X；

S2：基于k近邻法，采用相似性度量函数计算特征矩阵X中元素间的相似度，得到与特征矩阵X对应的权重矩阵W；

S3：将权重矩阵W作为低秩表示矩阵Z的初始矩阵，通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束，得到最终目标函数；

S4：采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题，并对最终目标函数中的变量交替迭代优化直至收敛，得到最优的低秩表示矩阵Z′；

S5：对最优的低秩表示矩阵Z′采用谱聚类切图方法得到聚类结果。

优选地，S1步骤中，对原始数据进行预处理的步骤包括对原始数据进行噪声消除和数据清洗。

优选地，S1步骤中，构建原始数据的特征矩阵X的步骤如下：

S1.1：对原始数据进行预处理，提取特征得到n个特征点并组成初始特征矩阵S＝[s₁,s₂,...,s_n]∈R^m×n，m表示维数；

S1.2：对初始特征矩阵中各特征点进行归一化处理，将特征点进行线性变换，把特征点映射到[0,1]之间；其线性变换函数表达公式如下：

式中，x_i表示第i个特征点归一化后的值，即为第i个特征点；s_i表示第i个特征点归一化前的值；i＝1,2,...,n；

S1.3：将完成归一化处理后的特征点构建为原始数据的特征矩阵X＝[x₁,x₂,...,x_n]∈R^m×n；m表示特征矩阵X的维数，n表示特征矩阵X中的特征点数量。

优选地，S2步骤中，以欧氏距离作为度量采用相似性度量函数计算特征矩阵X中元素间的相似度。

优选地，S2步骤中，其具体步骤包括：

S2.1：确定所述特征矩阵X中特征点x_i的k近邻点；

S2.2：使用特征点x_i的每个k近邻点线性重构元素x_i，求解其权值W_ij，其中，权值W_ij表示使用第j个特征点x_i重构第i个特征点x_i的贡献；当特征点x_j不属于特征点x_i的k近邻时，其权值W_ij为0，且每个特征点的重构权值系数之和为1；

S2.3：使重构误差最小，得到权值最优解W_ij，组成特征矩阵X对应的权重矩阵W，并根据权重矩阵W得到其对应的拉普拉斯矩阵L；其中，重构误差的表达公式如下：

式中，n表示特征点的个数，Q_i表示每个特征点x_i的k近邻点的下标集合。

优选地，S3步骤中，通过最小二乘回归方法求解低秩表示矩阵Z后其表达公式如下：

其中，diag(Z)表示低秩表示矩阵Z的对角元素的向量；

为L2范数，定义为

λ表示正则项的参数。

优选地，施加的流形约束的表达公式如下：

其中，z_ij表示矩阵Z中第i行第j列的元素；

施加的秩约束的表达公式如下：

rank(L_Z)＝n-c

其中，c表示聚类类别数；L_Z表示矩阵Z对应的拉普拉斯矩阵，且将权重矩阵W对应的拉普拉斯矩阵L作为L_Z的初始矩阵。

优选地，S3步骤中的最终目标函数的表达公式为：

其中，λ₁、λ₂为对应正则项的参数。

优选地，S4步骤中，其具体步骤如下：

S4.1：对秩约束引入中间变量F，其表达公式如下：

rank(L_Z)＝minTr(F^TL_ZF)

其中，F^TF＝I，F的大小为n×c，I是大小为c的单位矩阵；Tr(·)表示矩阵的迹；

S4.2：将引入中间变量F后的秩约束施加在最终目标函数中，其表达公式如下：

S4.3：对最终目标函数使用拉格朗日乘子法，并对最终目标函数引入辅助变量S、U，将最终目标函数转化为增广拉格朗日方程，其表达公式如下：

其中，λ₁、λ₂、λ₃为对应正则项的参数；C₁、C₂、C₃为拉格朗日乘子；L_S为辅助变量S对应的拉普拉斯矩阵；μ为拉格朗日方程参数；

S4.4：采用交替迭代方法对增广拉格朗日方程中各项变量进行迭代优化，直到收敛，得到最优的低秩表示矩阵Z′。

优选地，S4.4步骤中，采用交替迭代方法对增广拉格朗日方程中各项变量进行迭代优化的具体步骤如下：

(1)固定其他变量，求解Z：

令Z的导数为0，得到：

Z＝(X^TX+2I)^-1(X^TL₁+L₂+L₃)

其中，

(2)固定其他变量，求解S：

令

可得到等价求解式：

其中，s_i、h_i、g_i分别代表S、H和G的第i行元素；

(3)固定其他变量，求解F：

其中，L_S为矩阵S的拉普拉斯矩阵；

(4)固定其他变量，求解U：

令U的导数为0，得到：

U＝(2λ₁+μ)^-1(μZ+C₃)；

(5)固定其他变量，求解E：

令E的导数为0，得到：

E＝(2λ₂+μ)^-1(μX-μXZ+C₁)；

(6)固定其他变量，求解拉格朗日乘子C₁、C₂、C₃和参数μ：

C₁＝C₁+μ(X-XZ-E)

C₂＝C₂+μ(Z-S)

C₃＝C₃+μ(Z-U)

μ＝min(ρμ，μ_max)

其中，ρ、μ、μ_max是常数。

与现有技术相比，本发明技术方案的有益效果是：本发明基于k近邻法构建特征矩阵X对应的权重矩阵W，并将权重矩阵W作为低秩表示矩阵Z的初始矩阵，再通过最小二乘回归方法求解低秩表示矩阵Z，并在求解过程中同时加入流形约束与秩约束，使其能同时利用数据的全局和局部信息，并让矩阵Z具有更加清晰的聚类结构，有效提高聚类精度；采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题，并对最终目标函数中的变量交替迭代优化直至收敛，得到最优的低秩表示矩阵Z′再进一步采用谱聚类切图方法进行聚类，能够有效提高聚类的鲁棒性。

附图说明

图1为本发明的基于流形学习和秩约束的聚类方法的流程图。

图2为HW数据库示例图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于流形学习和秩约束的聚类方法，如图1所示，为本实施例的基于流形学习和秩约束的聚类方法的流程图。

本实施例提出的基于流形学习和秩约束的聚类方法中，其具体包括以下步骤：

S1：获取原始数据并对其预处理，并构建原始数据的特征矩阵X。

本步骤中，对原始数据进行预处理的步骤包括对原始数据进行噪声消除和数据清洗。

进一步的，构建原始数据的特征矩阵X的步骤如下：

S2：基于k近邻法，采用相似性度量函数计算特征矩阵X中元素间的相似度，得到与特征矩阵X对应的权重矩阵W。

本步骤中，以欧氏距离作为度量采用相似性度量函数计算特征矩阵X中元素间的相似度。

进一步的，具体步骤如下：

S2.1：确定所述特征矩阵X中特征点x_i的k近邻点；

S2.2：使用特征点x_i的每个k近邻点线性重构元素x_i，求解其权值W_ij，其中，权值W_ij表示使用第j个特征点x_i重构第i个特征点x_i的贡献，当2个特征点的欧氏距离越近时，两者之间的权值越大；

此外，当特征点x_j不属于特征点x_i的k近邻时，其权值W_ij为0，且每个特征点的重构权值系数之和为1；

S3：将权重矩阵W作为低秩表示矩阵Z的初始矩阵，通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束，得到最终目标函数。

本步骤中，通过最小二乘回归方法求解低秩表示矩阵Z后其表达公式如下：

其中，diag(Z)表示低秩表示矩阵Z的对角元素的向量；

为L2范数，定义为

λ表示正则项的参数；

施加的流形约束的表达公式如下：

其中，z_ij表示矩阵Z中第i行第j列的元素；

施加的秩约束的表达公式如下：

rank(L_Z)＝n-c

将上述流形约束和秩约束施加在通过最小二乘回归方法求解低秩表示矩阵Z中，得到最终目标函数，其表达公式为：

其中，λ₁、λ₂为对应正则项的参数。

S4：采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题，并对最终目标函数中的变量交替迭代优化直至收敛，得到最优的低秩表示矩阵Z′。

本步骤中，通过将上述最终目标函数(优化目标函数)转换为凸优化问题，然后应用拉格朗日乘子法将其从有约束问题转换为无约束问题，并对最终目标函数中的变量交替迭代优化直至收敛，得到最优的低秩表示矩阵Z′。其具体步骤如下：

S4.1：对秩约束引入中间变量F，其表达公式如下：

rank(L_Z)＝minTr(F^TL_ZF)

在S4.4步骤中，对增广拉格朗日方程中各项变量进行迭代优化的具体步骤如下：

(1)固定其他变量，求解Z：

令Z的导数为0，得到：

Z＝(X^TX+2I)^-1(X^TL₁+L₂+L₃)

其中，

(2)固定其他变量，求解S：

令

可得到等价求解式：

其中，s_i、h_i、g_i分别代表S、H和G的第i行元素；

(3)固定其他变量，求解F：

其中，L_S为矩阵S的拉普拉斯矩阵；

(4)固定其他变量，求解U：

令U的导数为0，得到：

U＝(2λ₁+μ)^-1(μZ+C₃)；

(5)固定其他变量，求解E：

令E的导数为0，得到：

E＝(2λ₂+μ)^-1(μX-μXZ+C₁)；

C₁＝C₁+μ(X-XZ-E)

C₂＝C₂+μ(Z-S)

C₃＝C₃+μ(Z-U)

μ＝min(ρμ，μ_max)

其中，ρ、μ、μ_max是常数。

在每次迭代后，对增广拉格朗日乘子法包含的参数进行更新，这样经过有限次迭代优化直到参数收敛时，即得到最优的低秩表示矩阵Z′。

本实施例中，基于k近邻法构建特征矩阵X对应的权重矩阵W，并将权重矩阵W作为低秩表示矩阵Z的初始矩阵，再通过最小二乘回归方法求解低秩表示矩阵Z，并在求解过程中同时加入流形约束与秩约束，使其能同时利用数据的全局和局部信息，并让矩阵Z具有非常清晰的聚类结构，即对于具有c个聚类的数据，恰好有c个连接组件。本实施例还考虑到了数据的全局和局部特性，使得发现的数据内在结构更加完整，并对秩进行了约束，能得到确切数量的聚类簇，提高了聚类的准确性。此外，本实施例采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题，并对最终目标函数中的变量交替迭代优化直至收敛，得到最优的低秩表示矩阵Z′再进一步采用谱聚类切图方法进行聚类，能够有效提高聚类的鲁棒性。

实施例2

在本实施例中，应用实施例1提出的基于流形学习和秩约束的聚类方法进行仿真实验。

本实施例中使用的HW数据集作为原始数据，其中HW数据集是大样本数据集，该数据集包含从荷兰实用工具图的集合中提取的‘0’到‘9’10个手写数字的特征，每个数字有200个样本。如图2所示，为HW数据库示例图。本实施例从HW数据集中选择提取240维2×3窗口中的240个像素平均值(mfeat-PIX)作为数据样本，获得原始图像的采样样本。

对上述始图像的采样样本采用SPC(spectral clustering，谱聚类算法)，LSR(Least Squares Regression，线性回归之最小二乘法)，LRR(Low-Rank Representation，低秩表示)，CLR(Constrained Laplacian Rank，约束拉普拉斯矩阵秩)，LRR_AGR(Low-RankRepresentation with Adaptive Graph Regularization，具有自适应图正则化的低秩表示)等5种现有的聚类算法，以及实施例1提出的基于流形学习和秩约束的聚类方法进行聚类。采用计算精确度(ACC)、归一化互信息(NMI)与纯净度(Purity)等3种调节参数进行个对比。对比结果如表1所示。

表1对比结果

Method	SPC	LSR	LRR	CLR	LRR_AGR	本方法
							ACC	0.6610	0.6825	0.8585	0.8670	0.9156	0.9744
NMI	0.7608	0.7288	0.7502	0.8897	0.8356	0.9375
							Purity	0.7495	0.7250	0.8585	0.8670	0.9156	0.9744

从表1可以见，本发明的聚类性能优于其他对比方法。通过以上仿真实验可以验证本发明的有效性。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。