CN112465062A - 一种基于流形学习和秩约束的聚类方法 - Google Patents

一种基于流形学习和秩约束的聚类方法 Download PDF

Info

Publication number
CN112465062A
CN112465062A CN202011435852.5A CN202011435852A CN112465062A CN 112465062 A CN112465062 A CN 112465062A CN 202011435852 A CN202011435852 A CN 202011435852A CN 112465062 A CN112465062 A CN 112465062A
Authority
CN
China
Prior art keywords
matrix
rank
constraint
feature
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011435852.5A
Other languages
English (en)
Inventor
曹江中
陆菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202011435852.5A priority Critical patent/CN112465062A/zh
Publication of CN112465062A publication Critical patent/CN112465062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为克服采用最小二乘回归方法进行聚类分割存在聚类精度低、鲁棒性弱的缺陷,提出一种基于流形学习和秩约束的聚类方法,包括以下步骤:获取原始数据并对其预处理,并构建原始数据的特征矩阵X;基于k近邻法,采用相似性度量函数计算特征矩阵X中元素间的相似度,得到与特征矩阵X对应的权重矩阵W;将权重矩阵W作为低秩表示矩阵Z的初始矩阵,通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束,得到最终目标函数;采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题,并对最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′,再对其采用谱聚类切图方法得到聚类结果。

Description

一种基于流形学习和秩约束的聚类方法
技术领域
本发明涉及模式识别技术领域,更具体地,涉及一种基于流形学习和秩约束的聚类方法。
背景技术
聚类的目的是将没有任何标签信息的数据分割到其对应的自然组中。目前的聚类算法有很多,比如,层次聚类、密度聚类、K-means聚类等等,其中谱聚类算法是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行分析来完成聚类。与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类并且收敛于全局最优的特点,因此应用广泛。基于聚类的谱聚类方法通常分为两个步骤:首先对输入的特征点计算一个亲和力矩阵W,用于度量特征点之间的相关性;然后对此亲和力矩阵应用谱聚类算法得到聚类分割结果。
而最小二乘回归(LSR)方法作为常用的聚类分割方法,其分组效应使其能够将高度相关的数据聚在一起,并且对噪声具有较强的鲁棒性,如公开号为CN103793438A(公开日2014-05-14)提出的一种基于MapReduce的并行聚类方法。但它存在以下两个问题,极大地限制了它的应用:(1)亲和力矩阵的构建过程中,往往容易因为学习不充分或者数据维度过高,导致数据识别效果不佳,局部相关性信息缺失、系数矩阵稀疏性不足;(2)谱聚类过程中常常依赖于初始图(graph)的质量,如果这个初始构建的质量不高,那么生成的集群的质量也可能不高,得到的图不是聚类的最佳图。基于最小二乘回归的鲁棒谱子空间聚类虽然弥补了数据局部相关性信息缺失、系数矩阵稀疏性不足的缺点,但其最后还是需要用谱聚类算法来进行聚类分割,容易受初始构建图的影响,从而使聚类精度低,鲁棒性弱。
发明内容
本发明为克服上述现有技术所述的采用最小二乘回归方法进行聚类分割存在聚类精度低、鲁棒性弱的缺陷,提供一种基于流形学习和秩约束的聚类方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于流形学习和秩约束的聚类方法,包括以下步骤:
S1:获取原始数据并对其预处理,并构建原始数据的特征矩阵X;
S2:基于k近邻法,采用相似性度量函数计算特征矩阵X中元素间的相似度,得到与特征矩阵X对应的权重矩阵W;
S3:将权重矩阵W作为低秩表示矩阵Z的初始矩阵,通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束,得到最终目标函数;
S4:采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题,并对最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′;
S5:对最优的低秩表示矩阵Z′采用谱聚类切图方法得到聚类结果。
优选地,S1步骤中,对原始数据进行预处理的步骤包括对原始数据进行噪声消除和数据清洗。
优选地,S1步骤中,构建原始数据的特征矩阵X的步骤如下:
S1.1:对原始数据进行预处理,提取特征得到n个特征点并组成初始特征矩阵S=[s1,s2,...,sn]∈Rm×n,m表示维数;
S1.2:对初始特征矩阵中各特征点进行归一化处理,将特征点进行线性变换,把特征点映射到[0,1]之间;其线性变换函数表达公式如下:
Figure BDA0002828627050000021
式中,xi表示第i个特征点归一化后的值,即为第i个特征点;si表示第i个特征点归一化前的值;i=1,2,...,n;
S1.3:将完成归一化处理后的特征点构建为原始数据的特征矩阵X=[x1,x2,...,xn]∈Rm×n;m表示特征矩阵X的维数,n表示特征矩阵X中的特征点数量。
优选地,S2步骤中,以欧氏距离作为度量采用相似性度量函数计算特征矩阵X中元素间的相似度。
优选地,S2步骤中,其具体步骤包括:
S2.1:确定所述特征矩阵X中特征点xi的k近邻点;
S2.2:使用特征点xi的每个k近邻点线性重构元素xi,求解其权值Wij,其中,权值Wij表示使用第j个特征点xi重构第i个特征点xi的贡献;当特征点xj不属于特征点xi的k近邻时,其权值Wij为0,且每个特征点的重构权值系数之和为1;
S2.3:使重构误差最小,得到权值最优解Wij,组成特征矩阵X对应的权重矩阵W,并根据权重矩阵W得到其对应的拉普拉斯矩阵L;其中,重构误差的表达公式如下:
Figure BDA0002828627050000031
式中,n表示特征点的个数,Qi表示每个特征点xi的k近邻点的下标集合。
优选地,S3步骤中,通过最小二乘回归方法求解低秩表示矩阵Z后其表达公式如下:
Figure BDA0002828627050000032
其中,diag(Z)表示低秩表示矩阵Z的对角元素的向量;
Figure BDA0002828627050000033
为L2范数,定义为
Figure BDA0002828627050000034
λ表示正则项的参数。
优选地,施加的流形约束的表达公式如下:
Figure BDA0002828627050000035
其中,zij表示矩阵Z中第i行第j列的元素;
施加的秩约束的表达公式如下:
rank(LZ)=n-c
其中,c表示聚类类别数;LZ表示矩阵Z对应的拉普拉斯矩阵,且将权重矩阵W对应的拉普拉斯矩阵L作为LZ的初始矩阵。
优选地,S3步骤中的最终目标函数的表达公式为:
Figure BDA0002828627050000036
Figure BDA0002828627050000037
其中,λ1、λ2为对应正则项的参数。
优选地,S4步骤中,其具体步骤如下:
S4.1:对秩约束引入中间变量F,其表达公式如下:
rank(LZ)=minTr(FTLZF)
其中,FTF=I,F的大小为n×c,I是大小为c的单位矩阵;Tr(·)表示矩阵的迹;
S4.2:将引入中间变量F后的秩约束施加在最终目标函数中,其表达公式如下:
Figure BDA0002828627050000041
S4.3:对最终目标函数使用拉格朗日乘子法,并对最终目标函数引入辅助变量S、U,将最终目标函数转化为增广拉格朗日方程,其表达公式如下:
Figure BDA0002828627050000042
其中,λ1、λ2、λ3为对应正则项的参数;C1、C2、C3为拉格朗日乘子;LS为辅助变量S对应的拉普拉斯矩阵;μ为拉格朗日方程参数;
S4.4:采用交替迭代方法对增广拉格朗日方程中各项变量进行迭代优化,直到收敛,得到最优的低秩表示矩阵Z′。
优选地,S4.4步骤中,采用交替迭代方法对增广拉格朗日方程中各项变量进行迭代优化的具体步骤如下:
(1)固定其他变量,求解Z:
Figure BDA0002828627050000043
令Z的导数为0,得到:
Z=(XTX+2I)-1(XTL1+L2+L3)
其中,
Figure BDA0002828627050000044
(2)固定其他变量,求解S:
Figure BDA0002828627050000045
Figure BDA0002828627050000046
Figure BDA0002828627050000051
可得到等价求解式:
Figure BDA0002828627050000052
其中,si、hi、gi分别代表S、H和G的第i行元素;
(3)固定其他变量,求解F:
Figure BDA0002828627050000053
其中,LS为矩阵S的拉普拉斯矩阵;
(4)固定其他变量,求解U:
Figure BDA0002828627050000054
令U的导数为0,得到:
U=(2λ1+μ)-1(μZ+C3);
(5)固定其他变量,求解E:
Figure BDA0002828627050000055
令E的导数为0,得到:
E=(2λ2+μ)-1(μX-μXZ+C1);
(6)固定其他变量,求解拉格朗日乘子C1、C2、C3和参数μ:
C1=C1+μ(X-XZ-E)
C2=C2+μ(Z-S)
C3=C3+μ(Z-U)
μ=min(ρμ,μmax)
其中,ρ、μ、μmax是常数。
与现有技术相比,本发明技术方案的有益效果是:本发明基于k近邻法构建特征矩阵X对应的权重矩阵W,并将权重矩阵W作为低秩表示矩阵Z的初始矩阵,再通过最小二乘回归方法求解低秩表示矩阵Z,并在求解过程中同时加入流形约束与秩约束,使其能同时利用数据的全局和局部信息,并让矩阵Z具有更加清晰的聚类结构,有效提高聚类精度;采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题,并对最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′再进一步采用谱聚类切图方法进行聚类,能够有效提高聚类的鲁棒性。
附图说明
图1为本发明的基于流形学习和秩约束的聚类方法的流程图。
图2为HW数据库示例图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于流形学习和秩约束的聚类方法,如图1所示,为本实施例的基于流形学习和秩约束的聚类方法的流程图。
本实施例提出的基于流形学习和秩约束的聚类方法中,其具体包括以下步骤:
S1:获取原始数据并对其预处理,并构建原始数据的特征矩阵X。
本步骤中,对原始数据进行预处理的步骤包括对原始数据进行噪声消除和数据清洗。
进一步的,构建原始数据的特征矩阵X的步骤如下:
S1.1:对原始数据进行预处理,提取特征得到n个特征点并组成初始特征矩阵S=[s1,s2,...,sn]∈Rm×n,m表示维数;
S1.2:对初始特征矩阵中各特征点进行归一化处理,将特征点进行线性变换,把特征点映射到[0,1]之间;其线性变换函数表达公式如下:
Figure BDA0002828627050000061
式中,xi表示第i个特征点归一化后的值,即为第i个特征点;si表示第i个特征点归一化前的值;i=1,2,...,n;
S1.3:将完成归一化处理后的特征点构建为原始数据的特征矩阵X=[x1,x2,...,xn]∈Rm×n;m表示特征矩阵X的维数,n表示特征矩阵X中的特征点数量。
S2:基于k近邻法,采用相似性度量函数计算特征矩阵X中元素间的相似度,得到与特征矩阵X对应的权重矩阵W。
本步骤中,以欧氏距离作为度量采用相似性度量函数计算特征矩阵X中元素间的相似度。
进一步的,具体步骤如下:
S2.1:确定所述特征矩阵X中特征点xi的k近邻点;
S2.2:使用特征点xi的每个k近邻点线性重构元素xi,求解其权值Wij,其中,权值Wij表示使用第j个特征点xi重构第i个特征点xi的贡献,当2个特征点的欧氏距离越近时,两者之间的权值越大;
此外,当特征点xj不属于特征点xi的k近邻时,其权值Wij为0,且每个特征点的重构权值系数之和为1;
S2.3:使重构误差最小,得到权值最优解Wij,组成特征矩阵X对应的权重矩阵W,并根据权重矩阵W得到其对应的拉普拉斯矩阵L;其中,重构误差的表达公式如下:
Figure BDA0002828627050000071
式中,n表示特征点的个数,Qi表示每个特征点xi的k近邻点的下标集合。
S3:将权重矩阵W作为低秩表示矩阵Z的初始矩阵,通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束,得到最终目标函数。
本步骤中,通过最小二乘回归方法求解低秩表示矩阵Z后其表达公式如下:
Figure BDA0002828627050000072
其中,diag(Z)表示低秩表示矩阵Z的对角元素的向量;
Figure BDA0002828627050000073
为L2范数,定义为
Figure BDA0002828627050000074
λ表示正则项的参数;
施加的流形约束的表达公式如下:
Figure BDA0002828627050000081
其中,zij表示矩阵Z中第i行第j列的元素;
施加的秩约束的表达公式如下:
rank(LZ)=n-c
其中,c表示聚类类别数;LZ表示矩阵Z对应的拉普拉斯矩阵,且将权重矩阵W对应的拉普拉斯矩阵L作为LZ的初始矩阵。
将上述流形约束和秩约束施加在通过最小二乘回归方法求解低秩表示矩阵Z中,得到最终目标函数,其表达公式为:
Figure BDA0002828627050000082
Figure BDA0002828627050000083
其中,λ1、λ2为对应正则项的参数。
S4:采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题,并对最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′。
本步骤中,通过将上述最终目标函数(优化目标函数)转换为凸优化问题,然后应用拉格朗日乘子法将其从有约束问题转换为无约束问题,并对最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′。其具体步骤如下:
S4.1:对秩约束引入中间变量F,其表达公式如下:
rank(LZ)=minTr(FTLZF)
其中,FTF=I,F的大小为n×c,I是大小为c的单位矩阵;Tr(·)表示矩阵的迹;
S4.2:将引入中间变量F后的秩约束施加在最终目标函数中,其表达公式如下:
Figure BDA0002828627050000084
S4.3:对最终目标函数使用拉格朗日乘子法,并对最终目标函数引入辅助变量S、U,将最终目标函数转化为增广拉格朗日方程,其表达公式如下:
Figure BDA0002828627050000091
其中,λ1、λ2、λ3为对应正则项的参数;C1、C2、C3为拉格朗日乘子;LS为辅助变量S对应的拉普拉斯矩阵;μ为拉格朗日方程参数;
S4.4:采用交替迭代方法对增广拉格朗日方程中各项变量进行迭代优化,直到收敛,得到最优的低秩表示矩阵Z′。
在S4.4步骤中,对增广拉格朗日方程中各项变量进行迭代优化的具体步骤如下:
(1)固定其他变量,求解Z:
Figure BDA0002828627050000092
令Z的导数为0,得到:
Z=(XTX+2I)-1(XTL1+L2+L3)
其中,
Figure BDA0002828627050000093
(2)固定其他变量,求解S:
Figure BDA0002828627050000094
Figure BDA0002828627050000095
Figure BDA0002828627050000096
可得到等价求解式:
Figure BDA0002828627050000097
其中,si、hi、gi分别代表S、H和G的第i行元素;
(3)固定其他变量,求解F:
Figure BDA0002828627050000098
其中,LS为矩阵S的拉普拉斯矩阵;
(4)固定其他变量,求解U:
Figure BDA0002828627050000101
令U的导数为0,得到:
U=(2λ1+μ)-1(μZ+C3);
(5)固定其他变量,求解E:
Figure BDA0002828627050000102
令E的导数为0,得到:
E=(2λ2+μ)-1(μX-μXZ+C1);
(6)固定其他变量,求解拉格朗日乘子C1、C2、C3和参数μ:
C1=C1+μ(X-XZ-E)
C2=C2+μ(Z-S)
C3=C3+μ(Z-U)
μ=min(ρμ,μmax)
其中,ρ、μ、μmax是常数。
在每次迭代后,对增广拉格朗日乘子法包含的参数进行更新,这样经过有限次迭代优化直到参数收敛时,即得到最优的低秩表示矩阵Z′。
S5:对最优的低秩表示矩阵Z′采用谱聚类切图方法得到聚类结果。
本实施例中,基于k近邻法构建特征矩阵X对应的权重矩阵W,并将权重矩阵W作为低秩表示矩阵Z的初始矩阵,再通过最小二乘回归方法求解低秩表示矩阵Z,并在求解过程中同时加入流形约束与秩约束,使其能同时利用数据的全局和局部信息,并让矩阵Z具有非常清晰的聚类结构,即对于具有c个聚类的数据,恰好有c个连接组件。本实施例还考虑到了数据的全局和局部特性,使得发现的数据内在结构更加完整,并对秩进行了约束,能得到确切数量的聚类簇,提高了聚类的准确性。此外,本实施例采用拉格朗日乘子法将最终目标函数从有约束问题转换为无约束问题,并对最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′再进一步采用谱聚类切图方法进行聚类,能够有效提高聚类的鲁棒性。
实施例2
在本实施例中,应用实施例1提出的基于流形学习和秩约束的聚类方法进行仿真实验。
本实施例中使用的HW数据集作为原始数据,其中HW数据集是大样本数据集,该数据集包含从荷兰实用工具图的集合中提取的‘0’到‘9’10个手写数字的特征,每个数字有200个样本。如图2所示,为HW数据库示例图。本实施例从HW数据集中选择提取240维2×3窗口中的240个像素平均值(mfeat-PIX)作为数据样本,获得原始图像的采样样本。
对上述始图像的采样样本采用SPC(spectral clustering,谱聚类算法),LSR(Least Squares Regression,线性回归之最小二乘法),LRR(Low-Rank Representation,低秩表示),CLR(Constrained Laplacian Rank,约束拉普拉斯矩阵秩),LRR_AGR(Low-RankRepresentation with Adaptive Graph Regularization,具有自适应图正则化的低秩表示)等5种现有的聚类算法,以及实施例1提出的基于流形学习和秩约束的聚类方法进行聚类。采用计算精确度(ACC)、归一化互信息(NMI)与纯净度(Purity)等3种调节参数进行个对比。对比结果如表1所示。
表1对比结果
Method SPC LSR LRR CLR LRR_AGR 本方法
ACC 0.6610 0.6825 0.8585 0.8670 0.9156 0.9744
NMI 0.7608 0.7288 0.7502 0.8897 0.8356 0.9375
Purity 0.7495 0.7250 0.8585 0.8670 0.9156 0.9744
从表1可以见,本发明的聚类性能优于其他对比方法。通过以上仿真实验可以验证本发明的有效性。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于流形学习和秩约束的聚类方法,其特征在于,包括以下步骤:
S1:获取原始数据并对其预处理,并构建原始数据的特征矩阵X;
S2:基于k近邻法,采用相似性度量函数计算所述特征矩阵X中元素间的相似度,得到与所述特征矩阵X对应的权重矩阵W;
S3:将所述权重矩阵W作为低秩表示矩阵Z的初始矩阵,通过最小二乘回归方法求解低秩表示矩阵Z并对其施加流形约束和秩约束,得到最终目标函数;
S4:采用拉格朗日乘子法将所述最终目标函数从有约束问题转换为无约束问题,并对所述最终目标函数中的变量交替迭代优化直至收敛,得到最优的低秩表示矩阵Z′;
S5:对所述最优的低秩表示矩阵Z′采用谱聚类切图方法得到聚类结果。
2.根据权利要求1所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S1步骤中,对原始数据进行预处理的步骤包括对所述原始数据进行噪声消除和数据清洗。
3.根据权利要求1所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S1步骤中,构建原始数据的特征矩阵X的步骤如下:
S1.1:对原始数据进行预处理,提取特征得到n个特征点并组成初始特征矩阵S=[s1,s2,...,sn]∈Rm×n,m表示维数;
S1.2:对初始特征矩阵中各特征点进行归一化处理,将特征点进行线性变换,把特征点映射到[0,1]之间;其线性变换函数表达公式如下:
Figure FDA0002828627040000011
式中,xi表示第i个特征点归一化后的值,即为第i个特征点;si表示第i个特征点归一化前的值;i=1,2,...,n;
S1.3:将完成归一化处理后的特征点构建为原始数据的特征矩阵X=[x1,x2,...,xn]∈Rm×n;m表示特征矩阵X的维数,n表示特征矩阵X中的特征点数量。
4.根据权利要求3所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S2步骤中,以欧氏距离作为度量采用相似性度量函数计算所述特征矩阵X中元素间的相似度。
5.根据权利要求4所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S2步骤中,其具体步骤包括:
S2.1:确定所述特征矩阵X中特征点xi的k近邻点;
S2.2:使用特征点xi的每个k近邻点线性重构元素xi,求解其权值Wij,其中,权值Wij表示使用第j个特征点xi重构第i个特征点xi的贡献;当特征点xj不属于特征点xi的k近邻时,其权值Wij为0,且每个特征点的重构权值系数之和为1;
S2.3:使重构误差最小,得到权值最优解Wij,组成特征矩阵X对应的权重矩阵W,并根据所述权重矩阵W得到其对应的拉普拉斯矩阵L;其中,重构误差的表达公式如下:
Figure FDA0002828627040000021
式中,n表示特征点的个数,Qi表示每个特征点xi的k近邻点的下标集合。
6.根据权利要求5所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S3步骤中,通过最小二乘回归方法求解低秩表示矩阵Z后其表达公式如下:
Figure FDA0002828627040000022
其中,diag(Z)表示低秩表示矩阵Z的对角元素的向量;
Figure FDA0002828627040000023
为L2范数,定义为
Figure FDA0002828627040000024
λ表示正则项的参数。
7.根据权利要求6所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S3步骤中,施加的流形约束的表达公式如下:
Figure FDA0002828627040000025
其中,zij表示矩阵Z中第i行第j列的元素;
施加的秩约束的表达公式如下:
rank(LZ)=n-c
其中,c表示聚类类别数;LZ表示矩阵Z对应的拉普拉斯矩阵,且将权重矩阵W对应的拉普拉斯矩阵L作为LZ的初始矩阵。
8.根据权利要求7所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S3步骤中的最终目标函数的表达公式为:
Figure FDA0002828627040000031
s.t.X=XZ+E,diag(Z)=0,Z≥0,rank(LZ)=n-c,
Figure FDA0002828627040000032
其中,λ1、λ2为对应正则项的参数。
9.根据权利要求8所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S4步骤中,其具体步骤如下:
S4.1:对秩约束引入中间变量F,其表达公式如下:
rank(LZ)=minTr(FTLZF)
其中,FTF=I,F的大小为n×c,I是大小为c的单位矩阵;Tr(·)表示矩阵的迹;
S4.2:将所述引入中间变量F后的秩约束施加在所述最终目标函数中,其表达公式如下:
Figure FDA0002828627040000033
S4.3:对所述最终目标函数使用拉格朗日乘子法,并对所述最终目标函数引入辅助变量S、U,将所述最终目标函数转化为增广拉格朗日方程,其表达公式如下:
Figure FDA0002828627040000034
其中,λ1、λ2、λ3为对应正则项的参数;C1、C2、C3为拉格朗日乘子;LS为辅助变量S对应的拉普拉斯矩阵;μ为拉格朗日方程参数;
S4.4:采用交替迭代方法对所述增广拉格朗日方程中各项变量进行迭代优化,直到收敛,得到最优的低秩表示矩阵Z′。
10.根据权利要求9所述的基于流形学习和秩约束的聚类方法,其特征在于,所述S4.4步骤中,采用交替迭代方法对所述增广拉格朗日方程中各项变量进行迭代优化的具体步骤如下:
(1)固定其他变量,求解Z:
Figure FDA0002828627040000041
令Z的导数为0,得到:
Z=(XTX+2I)-1(XTL1+L2+L3)
其中,
Figure FDA0002828627040000042
(2)固定其他变量,求解S:
Figure FDA0002828627040000043
Figure FDA0002828627040000044
Figure FDA0002828627040000045
可得到等价求解式:
Figure FDA0002828627040000046
其中,si、hi、gi分别代表S、H和G的第i行元素;
(3)固定其他变量,求解F:
Figure FDA0002828627040000047
其中,LS为矩阵S的拉普拉斯矩阵;
(4)固定其他变量,求解U:
Figure FDA0002828627040000048
令U的导数为0,得到:
U=(2λ1+μ)-1(μZ+C3);
(5)固定其他变量,求解E:
Figure FDA0002828627040000049
令E的导数为0,得到:
E=(2λ2+μ)-1(μX-μXZ+C1);
(6)固定其他变量,求解拉格朗日乘子C1、C2、C3和参数μ:
C1=C1+μ(X-XZ-E)
C2=C2+μ(Z-S)
C3=C3+μ(Z-U)
μ=min(ρμ,μmax)
其中,ρ、μ、μmax是常数。
CN202011435852.5A 2020-12-10 2020-12-10 一种基于流形学习和秩约束的聚类方法 Pending CN112465062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435852.5A CN112465062A (zh) 2020-12-10 2020-12-10 一种基于流形学习和秩约束的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435852.5A CN112465062A (zh) 2020-12-10 2020-12-10 一种基于流形学习和秩约束的聚类方法

Publications (1)

Publication Number Publication Date
CN112465062A true CN112465062A (zh) 2021-03-09

Family

ID=74801224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435852.5A Pending CN112465062A (zh) 2020-12-10 2020-12-10 一种基于流形学习和秩约束的聚类方法

Country Status (1)

Country Link
CN (1) CN112465062A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113392929A (zh) * 2021-07-01 2021-09-14 中国科学院深圳先进技术研究院 一种基于词嵌入与自编码器融合的生物序列特征提取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113393898B (zh) * 2021-06-29 2024-01-05 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113392929A (zh) * 2021-07-01 2021-09-14 中国科学院深圳先进技术研究院 一种基于词嵌入与自编码器融合的生物序列特征提取方法
CN113392929B (zh) * 2021-07-01 2024-05-14 中国科学院深圳先进技术研究院 一种基于词嵌入与自编码器融合的生物序列特征提取方法

Similar Documents

Publication Publication Date Title
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
Jin et al. TANet: An unsupervised two-stream autoencoder network for hyperspectral unmixing
CN109815357B (zh) 一种基于非线性降维及稀疏表示的遥感图像检索方法
CN109543723B (zh) 一种鲁棒的图像聚类方法
CN112765352A (zh) 基于具有自注意力机制的图卷积神经网络文本分类方法
CN109190511B (zh) 基于局部与结构约束低秩表示的高光谱分类方法
CN106991049B (zh) 一种软件缺陷预测方法及预测系统
CN113139512B (zh) 基于残差和注意力的深度网络高光谱影像分类方法
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
CN113723255A (zh) 一种高光谱影像分类方法和存储介质
CN115410088B (zh) 一种基于虚拟分类器的高光谱图像领域自适应方法
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
Araújo et al. Self-organizing subspace clustering for high-dimensional and multi-view data
CN112465062A (zh) 一种基于流形学习和秩约束的聚类方法
CN108647726B (zh) 一种图像聚类方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN111091129A (zh) 一种基于多重颜色特征流形排序的图像显著区域提取方法
CN114254703A (zh) 一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法
CN108664941B (zh) 基于测地映射分析的核稀疏描述人脸识别方法
CN115393719A (zh) 结合空谱域自适应与集成学习的高光谱图像分类方法
CN107273919B (zh) 一种基于置信度构造类属字典的高光谱无监督分类方法
CN110399814B (zh) 一种基于局部线性表示领域适应度量的人脸识别方法
Suzuki et al. Adversarial transformations for semi-supervised learning
CN109947960B (zh) 基于深度卷积的人脸多属性联合估计模型构建方法
CN112966735B (zh) 一种基于谱重建的监督多集相关特征融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210309