CN112132224A

CN112132224A - 一种基于图学习的快速谱嵌入聚类方法

Info

Publication number: CN112132224A
Application number: CN202011041375.4A
Authority: CN
Inventors: 林郭权; 杨晓君; 郭春炳; 阳琴; 蔡湧达; 许裕雄
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-25

Abstract

本发明公开了一种基于图学习的快速谱嵌入聚类方法，本发明的有益效果是，通过近邻方法构造二部图，二部图包含了原始数据点与锚点、锚点与锚点之间的联系，并通过对二部图快速谱嵌入得到数据的低维表示，然后更新自适应近邻图结构，并用其来修正原来的二部图结构，学习到更好的数据点与锚点的二部图结构；通过迭代更新，最终得到具有c个连通域的自适应近邻图结构。得到最优的图结构的同时，也得到了聚类的结果。本发明提出的算法在多个基准数据集上获得了较好的聚类精度。

Description

一种基于图学习的快速谱嵌入聚类方法

技术领域

本发明涉及数据挖掘和模式识别技术领域，尤其涉及一种基于图学习的快速谱嵌入聚类方法。

背景技术

目前，有学者提出自适应近邻谱嵌入聚类方法，该方法主要有两步，第一步为对数据进行谱嵌入，第二步为自适应近邻聚类，该方法的详细过程如下：

1)对数据进行谱嵌入

聚类结果可以看做是原始数据的映射，映射函数为：

Y＝X^TW+1b^T (1)

谱聚类的目标函数为：

s.t.F^TF＝I. (2)

其中，

或者L＝I-D^-1W加上线性嵌入正则项，可得

s.t.F^TF＝I. (3)

将公式(1)带入公式(3)，使其中W和b的导数为0，将得到的结果代回公式(3)，则有

s.t.F^TF＝I (4)

2)自适应近邻聚类

本发明目标是从数据点和锚点中得到相似度矩阵，根据现有资料，有以下目标方程：

为了方便对公式(5)求解，对公式(5)施加先验信息和秩约束为：

由于秩约束较为难解，所以通过特征值分解的方法来近似求解秩约束

将公式(7)写成向量表示形式，

则相似度矩阵的元素为

其中，α_i和η_i是拉格朗日乘数。

现有技术中采用自适应近邻谱嵌入聚类方法，通过原始数据点与锚点之间的关系构建二部图对标签矩阵进行嵌入，没有考虑锚点之间的联系，图结构反映的信息不够完整。在追求高准确度的同时没有很好地考虑计算复杂度，因此在维度高或者数据量大的数据上的运用没有良好的表现。

发明内容

本发明的目的在于提供一种基于图学习的快速谱嵌入聚类方法，针对现有的自适应近邻谱嵌入聚类方法存在的问题，本发明提出一种基于图学习的快速谱嵌入聚类方法，能在高维数据上有较好的应用，在提高了算法性能同时，也降低了计算复杂度。

为达此目的，本发明采用以下技术方案：

一种基于图学习的快速谱嵌入聚类方法，所述方法包括如下步骤：

S10、输入数据：

输入待聚类的数据集X＝[x₁,…,x_n]^T∈R^n×d、设定类簇数c；利用K-means方法选取m个锚点U＝[u₁,…,u_m]^T∈R^m×d；

S20、构建组合二部图矩阵，通过组合二部图得到数据点的低维表示F和G：

计算数据点X和锚点U之间的二部图矩阵：Z₁∈R^n×m；

计算数据点X和锚点U之间的分配矩阵：Z₂∈R^m×m；

得到组合的二部图矩阵：

求出矩阵Z的相似矩阵A，对相似矩阵A进行谱分析，其目标函数为：

其中，Λ∈R^m×m为对角矩阵；其中，

F∈R^n×c和G∈R^m×c分别对应于数据点和锚点的低维表示；

此处对

进行奇异值分解，得到H的松弛连续解，从而得到低维的谱嵌入数据；

S30、构建数据点和锚点的低维表示的目标函数：

其中，P为数据点和锚点的相似度矩阵，Q为最大的c个奇异值对应的左右奇异向量的相似度矩阵，f_i为对应F∈R^n×c的向量表示形式，g_j为对应G∈R^m×c的向量表示形式；λ为约束系数；

S40、判定步骤S30中目标函数是否收敛；若目标函数收敛，则转至步骤S60；若目标函数不收敛，则转至步骤S50；

S50、通过交替迭代优化方式更新目标函数，并返回步骤S20；

S60、输出图结构信息完整的相似度矩阵P，结束。

可选地，所述步骤S50中：通过交替迭代优化方式更新目标函数，包含步骤如下：S501、固定Q，求解相似度矩阵P得到：

s.t.P1＝1,P≥0

令

l_i∈R^m×1，则

转化为：

通过KKT条件，此时

将γ代入公式得

求得相似度矩阵P；

S502、根据步骤S401所求相似度矩阵P值求解Q，可使目标公式可以改写为：

令

则目标公式进一步优化为：

此时可通过求

的奇异值和奇异向量获得；U、V分别为矩阵

的最大的c个奇异值对应的左右奇异向量；

S403、令Z₁＝Z₁+βP，其中β为设定的更新系数。

可选地，所述步骤S20中，在构建组合二部图矩阵前，需计算数据点和锚点之间的分配矩阵：

令

d_i∈R^m×1是第j个元素为d_ij的向量，求得：

其中，k为近邻点的个数，z_1ij为第i个数据点与第j个锚点之间的相似度的权重，参数γ被设置为

可选地，所述步骤S30中的：构建原始数据点和锚点的目标函数，其具体构建步骤如下：

S301、为从数据点和锚点中得到相似度矩阵，有以下方程：

S302、对步骤301中的目标公式加上秩约束，并通过特征分解逼近得到：

此时，令

和

得到目标函数。

可选地，所述m、所述n、所述i、所述j、所述k的取值范围均为正整数。

与现有技术相比，本发明具有以下有益效果：

本发明首先通过近邻方法构造二部图，二部图包含了原始数据点与锚点、锚点与锚点之间的联系。本发明通过对二部图快速谱嵌入得到数据的低维表示，然后更新自适应近邻图结构，并用其来修正原来的二部图结构，学习到更好的数据点与锚点的二部图结构，通过交替迭代更新，最终得到具有c个连通域的自适应近邻图结构，在得到最优的图结构的同时，也得到了聚类的结果。本发明提出的算法在多个基准数据集上获得了较好的聚类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明算法的流程图；

图2为基准数据集的详细信息表；

图3为各类算法的聚类精度对比表。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。需要说明的是，当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

请参阅图1-3，本发明实施例提供了一种基于图学习的快速谱嵌入聚类方法。

该方案的步骤及原理说明如下：

S10、输入待聚类的数据集；数据集X＝[x₁,…,x_n]^T∈R^n×d中，数据集包括n个原始数据点。利用K-means方法选取m个锚点U＝[u₁,…,u_m]^T∈R^m×d，生成锚点后，计算数据点和锚点之间的分配矩阵：

令

d_i∈R^m×1是第j个元素为d_ij的向量，

根据相关文献求得：

矩阵Z₁∈R^n×m为原始数据点与锚点之间的二部图矩阵。

S20，构建组合二部图矩阵，通过组合二部图得到数据点的低维表示F和G：

通过计算锚点和锚点之间的分配矩阵Z₂∈R^m×m，则可得到一个组合的二部图矩阵

当得到矩阵Z时，就可以得到相似矩阵A

A＝ZΛ^-1Z^T (11)

其中，Λ∈R^m×m是一个对角矩阵，其元素为

得到了相似度矩阵之后，对其进行谱分析，其目标函数为：

此时

F∈R^n×m和G∈R^m×m分别对应于数据点和锚点的低维表示，为了降低计算复杂度，不直接对A进行特征值分解，而是对

S30、构建数据点和锚点的目标函数：

本发明的目标是从数据点和锚点中得到相似度矩阵，根据现有资料有目标方程：

s.t.表示subject to，“受限于”的意思。为得到非平凡解，添加先验信息作为正则项，通过正则项系数对目标函数进行平衡，因此公式(13)重新表示为：

对公式(14)加上秩约束，但是秩问题很难求解，所以通过特征分解来逼近问题：

此时，令

和

则问题可以重新描述为：

得到目标函数。

S501、固定Q，求解P，对于加上的项，有

令

那么问题可以重写为：

注意到，对于不同的i，问题是相互独立的，因此需把每个子问题进行优化，令

l_i∈R^m×1，则问题转化为：

通过KKT条件，求得

将γ代入公式(19)得：

求得相似度矩阵P。此外，公式(20)可用于更新相似度矩阵P。

S502、固定P，求解Q。

公式(16)可以重写为：

令

则式子可以等同于优化

上式可以通过求

的奇异值和奇异向量获得。U、V分别为矩阵

的最大的c个奇异值对应的左右奇异向量。此处，可他通过对U、V进行更新Q。

此时，可计算目标函数(16)的收敛性，若目标函数(16)收敛，P即为能满足要求的数据处理结果。目标函数(16)不收敛，执行以下步骤：

①通过步骤S501重新更新P；

②通过步骤S502重新更新Q；

③求ZΛ^-1/2的奇异值分解更新低维表示F和G；

④将F和G代入至目标公式中，用上面学习的数据点与锚点的相似度矩阵P作为反馈更新初始化步骤中的Z₁：

Z₁＝Z₁+βP (23)

对更新后的矩阵进行归一化

得到一个新的Z

通过新的二部图Z重复快速谱聚类，重新判定目标公式的收敛性；若目标公式收敛，则输出P；若目标公式不收敛，转至步骤①。此步骤目的在于生成更好的图嵌入数据，在学习到最优的自适应近邻图结构停止更新。

实验结果：

为了验证本发明算法的有效性，本发明采用六个基准数据集和其他六种流行的聚类算法进行实验，通过聚类精度对实验结果进行评估。聚类算法分别为：K-meas、FCM、R-cut、N-cut、NMF和CAN。基准数据集分别为MSRA25、CONTROL、COMPOUND、MNIST10和USPS，详细信息如图2所示。

为了不失一般性，本发明设参数β＝1，对每种算法进行20次实验，获得的聚类精度如表2所示。在每个数据集实验中，对于获得最好的聚类精度进行了加粗处理。如图3所示，本发明的FSECSGL的聚类精度在5个基准数据集中都比K-means、FCM、R-cut、N-cut、NMF和CAN算法高，说明FCAG算法的有效性。

本发明通过近邻方法构造二部图，二部图包含了原始数据点与锚点、锚点与锚点之间的联系，并通过对二部图快速谱嵌入得到数据的低维表示，然后更新自适应近邻图结构，并用其来修正原来的二部图结构，学习到更好的数据点与锚点的二部图结构。通过迭代更新，最终得到具有c个连通域的自适应近邻图结构。在得到最优的图结构的同时，也得到了聚类的结果。本发明提出的算法在多个基准数据集上获得了较好的聚类精度。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。