CN112132224A - 一种基于图学习的快速谱嵌入聚类方法 - Google Patents
一种基于图学习的快速谱嵌入聚类方法 Download PDFInfo
- Publication number
- CN112132224A CN112132224A CN202011041375.4A CN202011041375A CN112132224A CN 112132224 A CN112132224 A CN 112132224A CN 202011041375 A CN202011041375 A CN 202011041375A CN 112132224 A CN112132224 A CN 112132224A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- points
- graph
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图学习的快速谱嵌入聚类方法,本发明的有益效果是,通过近邻方法构造二部图,二部图包含了原始数据点与锚点、锚点与锚点之间的联系,并通过对二部图快速谱嵌入得到数据的低维表示,然后更新自适应近邻图结构,并用其来修正原来的二部图结构,学习到更好的数据点与锚点的二部图结构;通过迭代更新,最终得到具有c个连通域的自适应近邻图结构。得到最优的图结构的同时,也得到了聚类的结果。本发明提出的算法在多个基准数据集上获得了较好的聚类精度。
Description
技术领域
本发明涉及数据挖掘和模式识别技术领域,尤其涉及一种基于图学习的快速谱嵌入聚类方法。
背景技术
目前,有学者提出自适应近邻谱嵌入聚类方法,该方法主要有两步,第一步为对数据进行谱嵌入,第二步为自适应近邻聚类,该方法的详细过程如下:
1)对数据进行谱嵌入
聚类结果可以看做是原始数据的映射,映射函数为:
Y=XTW+1bT (1)
谱聚类的目标函数为:
s.t.FTF=I. (2)
s.t.FTF=I. (3)
将公式(1)带入公式(3),使其中W和b的导数为0,将得到的结果代回公式(3),则有
s.t.FTF=I (4)
2)自适应近邻聚类
本发明目标是从数据点和锚点中得到相似度矩阵,根据现有资料,有以下目标方程:
为了方便对公式(5)求解,对公式(5)施加先验信息和秩约束为:
由于秩约束较为难解,所以通过特征值分解的方法来近似求解秩约束
其中,αi和ηi是拉格朗日乘数。
现有技术中采用自适应近邻谱嵌入聚类方法,通过原始数据点与锚点之间的关系构建二部图对标签矩阵进行嵌入,没有考虑锚点之间的联系,图结构反映的信息不够完整。在追求高准确度的同时没有很好地考虑计算复杂度,因此在维度高或者数据量大的数据上的运用没有良好的表现。
发明内容
本发明的目的在于提供一种基于图学习的快速谱嵌入聚类方法,针对现有的自适应近邻谱嵌入聚类方法存在的问题,本发明提出一种基于图学习的快速谱嵌入聚类方法,能在高维数据上有较好的应用,在提高了算法性能同时,也降低了计算复杂度。
为达此目的,本发明采用以下技术方案:
一种基于图学习的快速谱嵌入聚类方法,所述方法包括如下步骤:
S10、输入数据:
输入待聚类的数据集X=[x1,…,xn]T∈Rn×d、设定类簇数c;利用K-means方法选取m个锚点U=[u1,…,um]T∈Rm×d;
S20、构建组合二部图矩阵,通过组合二部图得到数据点的低维表示F和G:
计算数据点X和锚点U之间的二部图矩阵:Z1∈Rn×m;
计算数据点X和锚点U之间的分配矩阵:Z2∈Rm×m;
求出矩阵Z的相似矩阵A,对相似矩阵A进行谱分析,其目标函数为:
S30、构建数据点和锚点的低维表示的目标函数:
其中,P为数据点和锚点的相似度矩阵,Q为最大的c个奇异值对应的左右奇异向量的相似度矩阵,fi为对应F∈Rn×c的向量表示形式,gj为对应G∈Rm×c的向量表示形式;λ为约束系数;
S40、判定步骤S30中目标函数是否收敛;若目标函数收敛,则转至步骤S60;若目标函数不收敛,则转至步骤S50;
S50、通过交替迭代优化方式更新目标函数,并返回步骤S20;
S60、输出图结构信息完整的相似度矩阵P,结束。
可选地,所述步骤S50中:通过交替迭代优化方式更新目标函数,包含步骤如下:S501、固定Q,求解相似度矩阵P得到:
s.t.P1=1,P≥0
S502、根据步骤S401所求相似度矩阵P值求解Q,可使目标公式可以改写为:
S403、令Z1=Z1+βP,其中β为设定的更新系数。
可选地,所述步骤S20中,在构建组合二部图矩阵前,需计算数据点和锚点之间的分配矩阵:
可选地,所述步骤S30中的:构建原始数据点和锚点的目标函数,其具体构建步骤如下:
S301、为从数据点和锚点中得到相似度矩阵,有以下方程:
S302、对步骤301中的目标公式加上秩约束,并通过特征分解逼近得到:
可选地,所述m、所述n、所述i、所述j、所述k的取值范围均为正整数。
与现有技术相比,本发明具有以下有益效果:
本发明首先通过近邻方法构造二部图,二部图包含了原始数据点与锚点、锚点与锚点之间的联系。本发明通过对二部图快速谱嵌入得到数据的低维表示,然后更新自适应近邻图结构,并用其来修正原来的二部图结构,学习到更好的数据点与锚点的二部图结构,通过交替迭代更新,最终得到具有c个连通域的自适应近邻图结构,在得到最优的图结构的同时,也得到了聚类的结果。本发明提出的算法在多个基准数据集上获得了较好的聚类精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明算法的流程图;
图2为基准数据集的详细信息表;
图3为各类算法的聚类精度对比表。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。需要说明的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
请参阅图1-3,本发明实施例提供了一种基于图学习的快速谱嵌入聚类方法。
该方案的步骤及原理说明如下:
S10、输入待聚类的数据集;数据集X=[x1,…,xn]T∈Rn×d中,数据集包括n个原始数据点。利用K-means方法选取m个锚点U=[u1,…,um]T∈Rm×d,生成锚点后,计算数据点和锚点之间的分配矩阵:
根据相关文献求得:
S20,构建组合二部图矩阵,通过组合二部图得到数据点的低维表示F和G:
当得到矩阵Z时,就可以得到相似矩阵A
A=ZΛ-1ZT (11)
S30、构建数据点和锚点的目标函数:
本发明的目标是从数据点和锚点中得到相似度矩阵,根据现有资料有目标方程:
s.t.表示subject to,“受限于”的意思。为得到非平凡解,添加先验信息作为正则项,通过正则项系数对目标函数进行平衡,因此公式(13)重新表示为:
对公式(14)加上秩约束,但是秩问题很难求解,所以通过特征分解来逼近问题:
得到目标函数。
S501、固定Q,求解P,对于加上的项,有
求得相似度矩阵P。此外,公式(20)可用于更新相似度矩阵P。
S502、固定P,求解Q。
公式(16)可以重写为:
此时,可计算目标函数(16)的收敛性,若目标函数(16)收敛,P即为能满足要求的数据处理结果。目标函数(16)不收敛,执行以下步骤:
①通过步骤S501重新更新P;
②通过步骤S502重新更新Q;
③求ZΛ-1/2的奇异值分解更新低维表示F和G;
④将F和G代入至目标公式中,用上面学习的数据点与锚点的相似度矩阵P作为反馈更新初始化步骤中的Z1:
Z1=Z1+βP (23)
通过新的二部图Z重复快速谱聚类,重新判定目标公式的收敛性;若目标公式收敛,则输出P;若目标公式不收敛,转至步骤①。此步骤目的在于生成更好的图嵌入数据,在学习到最优的自适应近邻图结构停止更新。
实验结果:
为了验证本发明算法的有效性,本发明采用六个基准数据集和其他六种流行的聚类算法进行实验,通过聚类精度对实验结果进行评估。聚类算法分别为:K-meas、FCM、R-cut、N-cut、NMF和CAN。基准数据集分别为MSRA25、CONTROL、COMPOUND、MNIST10和USPS,详细信息如图2所示。
为了不失一般性,本发明设参数β=1,对每种算法进行20次实验,获得的聚类精度如表2所示。在每个数据集实验中,对于获得最好的聚类精度进行了加粗处理。如图3所示,本发明的FSECSGL的聚类精度在5个基准数据集中都比K-means、FCM、R-cut、N-cut、NMF和CAN算法高,说明FCAG算法的有效性。
本发明通过近邻方法构造二部图,二部图包含了原始数据点与锚点、锚点与锚点之间的联系,并通过对二部图快速谱嵌入得到数据的低维表示,然后更新自适应近邻图结构,并用其来修正原来的二部图结构,学习到更好的数据点与锚点的二部图结构。通过迭代更新,最终得到具有c个连通域的自适应近邻图结构。在得到最优的图结构的同时,也得到了聚类的结果。本发明提出的算法在多个基准数据集上获得了较好的聚类精度。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于图学习的快速谱嵌入聚类方法,其特征在于,所述方法包括如下步骤:
S10、输入数据:
输入待聚类的数据集X=[x1,…,xn]T∈Rn×d、设定类簇数c;利用K-means方法选取m个锚点U=[u1,…,um]T∈Rm×d;
S20、构建组合二部图矩阵,通过组合二部图得到数据点的低维表示F和G:
计算数据点X和锚点U之间的二部图矩阵:Z1∈Rn×m;
计算数据点X和锚点U之间的分配矩阵:Z2∈Rm×m;
求出矩阵Z的相似矩阵A,对相似矩阵A进行谱分析,其目标函数为:
S30、构建数据点和锚点的低维表示的目标函数:
其中,P为数据点和锚点的相似度矩阵,Q为最大的c个奇异值对应的左右奇异向量的相似度矩阵,fi为对应F∈Rn×c的向量表示形式,gj为对应G∈Rm×c的向量表示形式;λ为约束系数;
S40、判定步骤S30中目标函数是否收敛;若目标函数收敛,则转至步骤S60;若目标函数不收敛,则转至步骤S50;
S50、通过交替迭代优化方式更新目标函数,并返回步骤S20;
S60、输出图结构信息完整的相似度矩阵P,结束。
5.根据权利要求1-4任一项所述的基于图学习的快速谱嵌入聚类方法,其特征在于,所述所述m、所述n、所述i、所述j、所述k的取值范围均为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011041375.4A CN112132224A (zh) | 2020-09-28 | 2020-09-28 | 一种基于图学习的快速谱嵌入聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011041375.4A CN112132224A (zh) | 2020-09-28 | 2020-09-28 | 一种基于图学习的快速谱嵌入聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132224A true CN112132224A (zh) | 2020-12-25 |
Family
ID=73844032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011041375.4A Pending CN112132224A (zh) | 2020-09-28 | 2020-09-28 | 一种基于图学习的快速谱嵌入聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132224A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022170840A1 (zh) * | 2021-02-09 | 2022-08-18 | 浙江师范大学 | 基于二部图的后期融合多视图聚类机器学习方法及系统 |
-
2020
- 2020-09-28 CN CN202011041375.4A patent/CN112132224A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022170840A1 (zh) * | 2021-02-09 | 2022-08-18 | 浙江师范大学 | 基于二部图的后期融合多视图聚类机器学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Feed-forward neural network training using sparse representation | |
WO2021036905A1 (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
WO2021036904A1 (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
WO2021036908A1 (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
WO2021036890A1 (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
Shao et al. | Improvements on twin support vector machines | |
Wang et al. | Distance metric learning for soft subspace clustering in composite kernel space | |
CN108171279A (zh) | 一种多视角视频自适应乘积Grassmann流形子空间聚类方法 | |
US10853738B1 (en) | Inference circuit for improving online learning | |
US8682086B2 (en) | Systems and methods for determining image representations at a pixel level | |
CN108415883A (zh) | 基于子空间聚类的凸非负矩阵分解方法 | |
Huang et al. | Self-paced and soft-weighted nonnegative matrix factorization for data representation | |
Rusu et al. | Fast orthonormal sparsifying transforms based on householder reflectors | |
CN112132224A (zh) | 一种基于图学习的快速谱嵌入聚类方法 | |
Cheung et al. | Hybrid evolution of convolutional networks | |
Ma et al. | Adaptive safe semi-supervised extreme machine learning | |
Tsolakis et al. | On the systematic development of fast fuzzy vector quantization for grayscale image compression | |
JP3461525B2 (ja) | データを正規化する手段を含むニューラル・プロセッサ | |
Lin et al. | A competitive continuous Hopfield neural network for vector quantization in image compression | |
CN112488187B (zh) | 一种基于核二维岭回归子空间聚类的图像处理方法 | |
CN112926658B (zh) | 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备 | |
Suganthan et al. | Self-organizing Hopfield network for attributed relational graph matching | |
CN111967499B (zh) | 基于自步学习的数据降维方法 | |
Leitenstorfer et al. | Estimation of single-index models based on boosting techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201225 |