CN111563535A - 一种基于秩为r的离散非负矩阵分解聚类方法 - Google Patents

一种基于秩为r的离散非负矩阵分解聚类方法 Download PDF

Info

Publication number
CN111563535A
CN111563535A CN202010287673.5A CN202010287673A CN111563535A CN 111563535 A CN111563535 A CN 111563535A CN 202010287673 A CN202010287673 A CN 202010287673A CN 111563535 A CN111563535 A CN 111563535A
Authority
CN
China
Prior art keywords
matrix
data
diagonal
row
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010287673.5A
Other languages
English (en)
Inventor
王榕
薛菁菁
聂飞平
李学龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010287673.5A priority Critical patent/CN111563535A/zh
Publication of CN111563535A publication Critical patent/CN111563535A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于秩为r的离散非负矩阵分解聚类方法。首先,利用k‑means算法进行数据集划分并得到样本锚点;然后,利用锚点计算得到初始相似度矩阵;最后,构建基于秩为r的离散非负矩阵分解聚类问题模型,并采用迭代更新方法对模型进行求解,得到指示矩阵,从而得到数据聚类结果。本发明所构建聚类问题模型采用对角块结构逼近输入矩阵,能够充分挖掘输入矩阵的行和列之间的联合信息,获得更好的聚类结果。

Description

一种基于秩为r的离散非负矩阵分解聚类方法
技术领域
本发明属机器学习和数据挖掘技术领域,具体涉及一种基于秩为r的离散非负矩阵分解聚类方法。
背景技术
聚类是近年来机器学习和数据挖掘领域中的研究热点之一,通过把数据分成许多不同的组来挖掘数据的潜在结构,其中,同一组中数据点之间具有更高的相似性,不同分组中点的相似性较低。聚类已成功应用于图像分割、数据挖掘及模式识别等多个领域。
非负矩阵分解(NMF)、谱聚类、子空间聚类、多视角聚类等为聚类算法的分支,其中NMF因其数学优势和优越的结果引起了越来越多的关注。但是目前有许多基于NMF的聚类方法需要两个阶段来获得最终的聚类结果,其与直接优化目标函数得到聚类结果所获得的数据结构相比,聚类结构更差。此外,通过两个阶段得到的聚类结果不唯一,即需要通过像k-means这样的后处理技术来获得最终的离散结果。为了解决上述问题,许多非负矩阵分解方法通过把元素约束限制为指示矩阵来得到离散解,由此得到更好的聚类结果。此外,因为数据有多种类型,很多单边聚类方法,即仅通过特征分布聚类样本,或者仅通过样本的分布情况对特征进行分布,无法更好地处理文本数据和基因数据等,因此,基于联合聚类的方法被提出来,即利用样本和特征的联合信息来同时聚类样本和特征,研究结果证明此类方法比单边方法的聚类结果更好。
不同于单边聚类方法,联合聚类方法同时对数据的行和列进行聚类,即同时找到相似的行和列,对于一个矩形矩阵,存在许多联合聚类结构,最常见的包括:棋盘结构和对角块结构,后者为把输入矩阵通过行列变换转换为对角块形式。如正交非负矩阵三因子分解方法(ONMTF)和快速非负矩阵分解方法(FNMTF)都是基于棋盘结构。棋盘结构假定每个元素都应属于一个联合类,而现实中的许多数据为稀疏结构,因此,对角块结构更适合来处理稀疏数据。联合k-means快速聚类算法(BKM)即利用指示矩阵的性质并采用对角块结构来建模,实验显示其表现出很好的性能。但BKM算法中,每个块矩阵的秩为1,这样,此模型无法很好地逼近输入矩阵,也无法获得输入矩阵更多的信息。
发明内容
为了克服现有技术的不足,本发明提供一种基于秩为r的离散非负矩阵分解聚类方法。首先,利用k-means算法进行数据集划分并得到样本锚点;然后,利用锚点计算得到初始相似度矩阵;最后,构建基于秩为r的离散非负矩阵分解聚类问题模型,并采用迭代更新方法对模型进行求解,得到指示矩阵,从而得到数据聚类结果。
一种基于秩为r的离散非负矩阵分解聚类方法,其特征在于步骤如下:
步骤1:对输入数据集合X,利用k-means算法将所有数据点划分到两个大小相等的子集中,然后,再分别对每个子集按相同的方法进行划分,直至得到m个数据子集,以每个子集的中心数据点为锚点,所有m个锚点共同构成锚点集合W,m为设定的锚点个数,m的可设定取值范围为(1,n),其中,n为输入数据集合包含的数据点个数;
步骤2:按照
Figure BDA0002449146460000021
计算原输入数据集合中的第i个数据点xi和锚点集合中的第j个锚点wj之间的距离,i=1,…,n,j=1,…,m;对每一个数据点xi,i=1,…,n,将所有锚点与其的距离按照从小到大进行排序,并将与其距离最小的k个锚点作为其k近邻点,k为(0,m)之间的整数,然后,按照下式计算每个锚点wj与数据点xi的相似度:
Figure BDA0002449146460000022
其中,j=1,…,m,
Figure BDA0002449146460000023
表示与数据点xi距离最小的第k+1个锚点与该数据点之间的距离,
Figure BDA0002449146460000024
表示数据点xi的第h个近邻点与该数据点之间的距离,h=1,…,k;
以数据点和锚点之间的相似度bij为第i行j列元素,得到初始相似矩阵
Figure BDA0002449146460000025
i=1,…,n,j=1,…,m;
步骤3:构建待优化的聚类问题模型如下:
Figure BDA0002449146460000026
其中,Ind表示指示矩阵集合,Diag表示对角矩阵集合,F表示大小为n×c的指示矩阵,G表示大小为m×c的指示矩阵,F和G的每一行只有一个值为1的非零元素,其余元素均为0,F和G均为对角块矩阵,B为初始相似矩阵
Figure BDA0002449146460000027
通过行列变换得到的相似矩阵,c为给定的聚类类别个数,取值为小于输入数据集合所包含数据点个数的正整数;Pr表示第r个大小为n×n的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值及其所对应的左奇异向量的乘积,Qr表示第r个大小为m×m的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值对应的右奇异向量,r为逼近参数,
Figure BDA0002449146460000031
B1,B2,…,Bc为相似矩阵B中的分块矩阵,满足
Figure BDA0002449146460000032
Figure BDA0002449146460000033
步骤4:迭代求解公式2的问题模型,得到最终的指示矩阵F,具体为:
步骤4.1:对于给定的输入数据集合X,随机初始化指示矩阵F和G;
步骤4.2:通过行交换使F和G均为对角块矩阵,模型中其他元素也相应进行行列变换以保持求解问题的不变性;
步骤4.3:固定F和G,分别按以下公式更新Pr和Qr
Figure BDA0002449146460000034
Figure BDA0002449146460000035
其中,
Figure BDA0002449146460000036
为矩阵
Figure BDA0002449146460000037
的第r列,
Figure BDA0002449146460000038
为矩阵
Figure BDA0002449146460000039
的第r列,i=1,…,c;对矩阵Bi进行SVD分解,得到Bi=UrΣrVr
Figure BDA00024491464600000310
Σr为Bi前r个最大奇异值组成的对角矩阵,Ur为由与Σr相对应的左奇异向量组成的矩阵,Vr为由与Σr相对应的右奇异向量组成的矩阵;
步骤4.4:固定Pr、Qr、F,更新G:
Figure BDA00024491464600000311
其中,gij为矩阵G的第i行j列元素,b·i为矩阵B的第i列向量,(·)·l表示矩阵的第l列向量,(Qr)ii为对角矩阵Qr的第i个对角元素,i=1,…,m,j=1,…,c;
步骤4.5:固定Pr、Qr、G,更新F:
Figure BDA0002449146460000041
其中,fij为矩阵F的第i行j列元素,b为矩阵B的第i行向量,(·)表示矩阵的第l行向量,(Pr)ii为对角矩阵Pr的第i个对角元素,i=1,…,n,j=1,…,c;
步骤4.6:将更新后的F、G、Pr、Qr带入下式计算得到函数值J:
Figure BDA0002449146460000042
如果此时得到的函数值和上一次迭代得到的函数值的差的绝对值小于阈值A,则停止迭代,此时得到的F即为最终的指示矩阵,矩阵F的第i行中元素1所在的列序号即为原始输入集合中第i个数据点所属的类别,i=1,…,n;否则,返回步骤4.2,进行下一次迭代更新;所述的阈值A的取值范围为0<A<10e-6
本发明的有益效果是:由于模型中
Figure BDA0002449146460000043
采用对角块结构,使得该算法能够充分挖掘输入矩阵的行和列之间的联合信息,从而提高聚类效果;由于直接通过求解目标函数得到离散的聚类结构,而不需要采用k-means等进行后处理,得到的聚类结果稳定且唯一;由于构建的问题模型以秩为r的块逼近输入矩阵,能够获得更好的聚类结果。
附图说明
图1是本发明的一种基于秩为r的离散非负矩阵分解聚类方法流程图;
图2是本发明的DNMF-RR模型中参数r对目标函数的影响;
图3是本发明的DNMF-RR模型中参数r对不同数据集的聚类结果的影响。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于秩为r的离散非负矩阵分解聚类方法,其基本实现过程如下:
1、生成代表性锚点
为了降低聚类计算所需的时间复杂度,需要在保持原有数据结构的情况下尽量减小数据规模,因此,本发明先对输入数据集进行子集划分,从n个原始数据点中生成m个代表性锚点。即对输入数据集合X,利用k-means算法将所有数据点划分到两个大小相等的子集中,然后,再利用k-means算法分别对每个子集进行划分,直至得到m个大小相等的数据子集,以每个子集的中心数据点为锚点,所有m个锚点共同构成锚点集合W,m为设定的锚点个数,m的可设定取值范围为(1,n),其中,n为输入数据集合包含的数据点个数。
2、利用锚点计算初始相似度矩阵
用相似矩阵表示所要构造的二部图。在欧式空间中,两个点之间的距离越小,相似度应该越高。基于此,待求解的目标函数可以写为:
Figure BDA0002449146460000051
上式中,函数的第二项为正则项,α为正则化参数,取值范围为(0,+∞),如果没有正则项,求解问题(8)时很容易出现数据点和距离最近的锚点相似度为1,和其余锚点的相似度为0的情况。在实际构图时,为了保持二部图的稀疏性,采用K近邻方法进行构图,即:按照
Figure BDA0002449146460000052
计算原输入数据集合中的第i个数据点xi和锚点集合中的第j个锚点wj之间的距离,i=1,…,n,j=1,…,m;然后,将
Figure BDA0002449146460000053
从小到大排序,当锚点w·j是该数据点的k近邻点,即是第i个数据点最近的前k个锚点时,其初始相似度为
Figure BDA0002449146460000054
否则,该锚点不是该数据点的近邻点,其初始相似度为0,即bij=0,其中,k为(0,m)之间的整数,可由使用者进行设置。
以数据点和锚点之间的相似度bij为第i行j列元素,得到初始相似矩阵
Figure BDA0002449146460000055
i=1,…,n,j=1,…,m。
正则化参数α的闭式解可以通过对公式(8)拉格朗日函数求导并根据KKT条件得到,即
Figure BDA0002449146460000056
3、确定待优化的聚类问题DNMF-RR
Chris Ding证明了放缩的k-means算法与放缩的非负矩阵分解NMF之间的等价关系,两者均以二部图作为输入,基于二部图的NMF模型总结如下:
Figure BDA0002449146460000057
其中,
Figure BDA0002449146460000061
表示初始的相似性矩阵,
Figure BDA0002449146460000062
Figure BDA0002449146460000063
表示将
Figure BDA0002449146460000064
分解为两个更小的非负矩阵,此时不是指示矩阵。
正交限制保证了解的唯一性,式(9)的优点是可以对
Figure BDA0002449146460000065
的行列同时聚类,然而,在实际中,为了得到最终的离散聚类结果,还需进行k-means等后处理,导致解的不唯一性,而且,求解式(9)很耗时,因此,把矩阵
Figure BDA0002449146460000066
Figure BDA0002449146460000067
限制为指示矩阵,得到如下模型:
Figure BDA0002449146460000068
其中,Ind表示指示矩阵集合。通过在矩阵
Figure BDA0002449146460000069
Figure BDA00024491464600000610
上加入新的约束,此模型可以直接得到离散聚类结果,不需要额外的后处理,而且,虽然去掉了矩阵
Figure BDA00024491464600000611
Figure BDA00024491464600000612
的正交约束,但更严格的新约束条件仍可以保证解的唯一性。对矩阵进行行列变换,即把矩阵
Figure BDA00024491464600000613
Figure BDA00024491464600000614
分别变换为对角块矩阵,同时,对
Figure BDA00024491464600000615
也做相应的行列变换,使得公式(10)等同于下式:
Figure BDA00024491464600000616
其中,F表示大小为n×c的指示矩阵,G表示大小为m×c的指示矩阵,F和G的每一行只有一个值为1的非零元素,其余元素均为0,c为给定的聚类类别个数,取值为小于输入数据集合所包含数据点个数的正整数。此时,FGT为元素为1的对角块矩阵。然而,F和G都为指示矩阵,条件太严格,FGT不能很好地逼近输入矩阵,因此,加入额外的因子S来更好地逼近输入矩阵B,进而获得原始数据更多的信息,得到模型如下:
Figure BDA00024491464600000617
其中,Diag表示对角矩阵集合。FSGT为对角块矩阵,为了进一步逼近输入矩阵B,加入对角矩阵P和Q来代替S,即:
Figure BDA00024491464600000618
此时,PFGTQ仍为对角块矩阵。从上述模型(11)-(13)可以看出,虽然得到的新模型能够以对角块的形式更好地逼近B,但是每个分块矩阵的秩为1,不能得到更好的效果,因此,本发明提出的基于秩为r的离散非负矩阵分解聚类方法(DNMF-RR)求解数据的离散聚类结果,构建如下的以每个分块矩阵的秩为r的新的聚类问题模型:
Figure BDA0002449146460000071
此时,模型中的
Figure BDA0002449146460000072
是以对角块矩阵的形式逼近矩阵B,Pr表示第r个大小为n×n的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值及其所对应的左奇异向量的乘积,Qr表示第r个大小为m×m的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值对应的右奇异向量,参数r控制着模型的逼近程度,
Figure BDA0002449146460000073
B1,B2,…,Bc为相似矩阵B中的分块矩阵,满足
Figure BDA0002449146460000074
Figure BDA0002449146460000075
图2给出了本发明的的DNMF-RR模型中参数r对目标函数的影响,图中,Usps、Chess、Tmp、Minist、Wave分别为数据集名称。
图3给出了本发明的DNMF-RR模型中参数r对不同数据集的聚类结果的影响。
为了更好地展示模型(11)-(14),下式以c=2为例,解释了各模型的结构:
Figure BDA0002449146460000076
Figure BDA0002449146460000077
Figure BDA0002449146460000078
其中,1ab为元素全为1的列向量,ab为其下标。
4、迭代求解聚类问题模型
(a)固定F和G,更新Pr和Qr
因为
Figure BDA0002449146460000079
是对角块矩阵,所以公式(14)式可以写为:
Figure BDA00024491464600000710
又因为每一个Bi(i=1,2,...,c)相互独立,所以求解式(15)等同于分别求解以下c个函:
Figure BDA0002449146460000081
对于第i个函数,通过对Bi(i=1,2,...,c)进行SVD分解得到
Figure BDA0002449146460000082
即令Bi=UrrVr
Figure BDA0002449146460000083
r为Bi前r个最大奇异值组成的对角矩阵,Ur为由与∑r相对应的左奇异向量组成的矩阵,Vr为由与∑r相对应的右奇异向量组成的矩阵。因此得到
Figure BDA0002449146460000084
其中
Figure BDA0002449146460000085
分别为
Figure BDA0002449146460000086
的第r列。
(b)固定Pr、Qr、F,更新G:
由于矩阵B的每一列是独立的,因此可按照下式对矩阵G的每个行向量g(i=1,2,...,m)进行更新,从而得到更新后的矩阵G。
Figure BDA0002449146460000087
其中,gij为矩阵G的第i行j列元素,b·i为矩阵B的第i列向量,(·)·l表示矩阵的第l列向量,(Qr)ii为对角矩阵Qr的第i个对角元素,i=1,…,m,j=1,…,c。
(c)固定Pr、Qr、G,更新F:
由于矩阵B的每一行是独立的,因此可按照下式对矩阵F的每个行向量f(i=1,2,...,n)进行更新,从而得到更新后的矩阵F。
Figure BDA0002449146460000088
其中,fij为矩阵F的第i行j列元素,b为矩阵B的第i行向量,(·)表示矩阵的第l行向量,(Pr)ii为对角矩阵Pr的第i个对角元素,i=1,…,n,j=1,…,c。
(d)将更新后的F、G、Pr、Qr带入下式计算得到函数值J:
Figure BDA0002449146460000091
如果此时得到的函数值和上一次迭代得到的函数值的差的绝对值小于阈值A,则停止迭代,此时得到的F即为最终的指示矩阵,矩阵F的第i行中元素1所在的列序号即为原始输入集合中第i个数据点所属的类别,i=1,…,n;否则,返回步骤4.2,进行下一次迭代更新;所述的阈值A的取值范围为0<A<10e-6
本实施例在中央处理器为Intel Core i7-8700、主频3.19GHz、内存32G的Windows10操作系统上使用MATLAB软件进行实验,分别对Chess数据集、Tmp数据集、Wave数据集、Usps数据集、Minist这5个数据集进行聚类处理,这些数据公开于网址http://www.escience.cn/people/fpnie/papers.html,各数据集的信息如表1所示。为了验证本发明方法的有效性,分别选取k均值(k-means)方法、大规模谱聚类(LSC)方法、无监督的大图嵌入(ULGE)方法、快速标准切图(FNC)方法、可缩放的标准切图(SNC)方法、对称非负矩阵分解(SymNMF)方法和本发明的DNMF-RR方法对不同数据集进行聚类处理,并计算ACC和NMI两个指标,其中,ACC为准确率,表示聚类的准确率,取值范围为[0,1],值越大,代表聚类结果越好,NMI为归一化互信息,表示两个随机变量之间的关联程度,取值范围为[0,1],值越大,代表聚类结果越好,计算结果如表2所示。可以看出,相对于其他方法,采用本发明方法均获得了较好的ACC和NMI值,聚类效果更好。
表1
数据集 样本数 特征数 类别数
Chess 3196 36 2
Tmp 1560 617 2
Wave 2746 21 3
Usps 1854 256 10
Minist 3495 784 10
表2
Figure BDA0002449146460000092
Figure BDA0002449146460000101

Claims (1)

1.一种基于秩为r的离散非负矩阵分解聚类方法,其特征在于步骤如下:
步骤1:对输入数据集合X,利用k-means算法将所有数据点划分到两个大小相等的子集中,然后,再分别对每个子集按相同的方法进行划分,直至得到m个数据子集,以每个子集的中心数据点为锚点,所有m个锚点共同构成锚点集合W,m为设定的锚点个数,m的可设定取值范围为(1,n),其中,n为输入数据集合包含的数据点个数;
步骤2:按照
Figure FDA0002449146450000011
计算原输入数据集合中的第i个数据点xi和锚点集合中的第j个锚点wj之间的距离,i=1,…,n,j=1,…,m;对每一个数据点xi,i=1,…,n,将所有锚点与其的距离按照从小到大进行排序,并将与其距离最小的k个锚点作为其k近邻点,k为(0,m)之间的整数,然后,按照下式计算每个锚点wj与数据点xi的相似度:
Figure FDA0002449146450000012
其中,j=1,…,m,
Figure FDA0002449146450000013
表示与数据点xi距离最小的第k+1个锚点与该数据点之间的距离,
Figure FDA0002449146450000014
表示数据点xi的第h个近邻点与该数据点之间的距离,h=1,…,k;
以数据点和锚点之间的相似度bij为第i行j列元素,得到初始相似矩阵
Figure FDA0002449146450000015
i=1,…,n,j=1,…,m;
步骤3:构建待优化的聚类问题模型如下:
Figure FDA0002449146450000016
其中,Ind表示指示矩阵集合,Diag表示对角矩阵集合,F表示大小为n×c的指示矩阵,G表示大小为m×c的指示矩阵,F和G的每一行只有一个值为1的非零元素,其余元素均为0,F和G均为对角块矩阵,B为初始相似矩阵
Figure FDA0002449146450000017
通过行列变换得到的相似矩阵,c为给定的聚类类别个数,取值为小于输入数据集合所包含数据点个数的正整数;Pr表示第r个大小为n×n的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值及其所对应的左奇异向量的乘积,Qr表示第r个大小为m×m的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值对应的右奇异向量,r为逼近参数,
Figure FDA0002449146450000021
B1,B2,…,Bc为相似矩阵B中的分块矩阵,满足
Figure FDA0002449146450000022
Figure FDA0002449146450000023
步骤4:迭代求解公式2的问题模型,得到最终的指示矩阵F,具体为:
步骤4.1:对于给定的输入数据集合X,随机初始化指示矩阵F和G;
步骤4.2:通过行交换使F和G均为对角块矩阵,模型中其他元素也相应进行行列变换以保持求解问题的不变性;
步骤4.3:固定F和G,分别按以下公式更新Pr和Qr
Figure FDA0002449146450000024
Figure FDA0002449146450000025
其中,
Figure FDA0002449146450000026
为矩阵
Figure FDA0002449146450000027
的第r列,
Figure FDA0002449146450000028
为矩阵
Figure FDA0002449146450000029
的第r列,i=1,…,c;对矩阵Bi进行SVD分解,得到Bi=UrΣrVr
Figure FDA00024491464500000210
Σr为Bi前r个最大奇异值组成的对角矩阵,Ur为由与Σr相对应的左奇异向量组成的矩阵,Vr为由与Σr相对应的右奇异向量组成的矩阵;
步骤4.4:固定Pr、Qr、F,更新G:
Figure FDA00024491464500000211
其中,gij为矩阵G的第i行j列元素,b·i为矩阵B的第i列向量,(·)·l表示矩阵的第l列向量,(Qr)ii为对角矩阵Qr的第i个对角元素,i=1,…,m,j=1,…,c;
步骤4.5:固定Pr、Qr、G,更新F:
Figure FDA00024491464500000212
其中,fij为矩阵F的第i行j列元素,bi·为矩阵B的第i行向量,(·)表示矩阵的第l行向量,(Pr)ii为对角矩阵Pr的第i个对角元素,i=1,…,n,j=1,…,c;
步骤4.6:将更新后的F、G、Pr、Qr带入下式计算得到函数值J:
Figure FDA0002449146450000031
如果此时得到的函数值和上一次迭代得到的函数值的差的绝对值小于阈值A,则停止迭代,此时得到的F即为最终的指示矩阵,矩阵F的第i行中元素1所在的列序号即为原始输入集合中第i个数据点所属的类别,i=1,…,n;否则,返回步骤4.2,进行下一次迭代更新;所述的阈值A的取值范围为0<A<10e-6
CN202010287673.5A 2020-04-13 2020-04-13 一种基于秩为r的离散非负矩阵分解聚类方法 Pending CN111563535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010287673.5A CN111563535A (zh) 2020-04-13 2020-04-13 一种基于秩为r的离散非负矩阵分解聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010287673.5A CN111563535A (zh) 2020-04-13 2020-04-13 一种基于秩为r的离散非负矩阵分解聚类方法

Publications (1)

Publication Number Publication Date
CN111563535A true CN111563535A (zh) 2020-08-21

Family

ID=72073017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010287673.5A Pending CN111563535A (zh) 2020-04-13 2020-04-13 一种基于秩为r的离散非负矩阵分解聚类方法

Country Status (1)

Country Link
CN (1) CN111563535A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920346A (zh) * 2021-07-05 2022-01-11 西北工业大学 基于锚点孪生图自动编码器的大规模图像聚类方法
CN115098931A (zh) * 2022-07-20 2022-09-23 江苏艾佳家居用品有限公司 一种用于挖掘用户室内设计个性化需求的小样本分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920346A (zh) * 2021-07-05 2022-01-11 西北工业大学 基于锚点孪生图自动编码器的大规模图像聚类方法
CN113920346B (zh) * 2021-07-05 2024-03-01 西北工业大学 基于锚点孪生图自动编码器的大规模图像聚类方法
CN115098931A (zh) * 2022-07-20 2022-09-23 江苏艾佳家居用品有限公司 一种用于挖掘用户室内设计个性化需求的小样本分析方法

Similar Documents

Publication Publication Date Title
Thai et al. Image classification using support vector machine and artificial neural network
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN111259917B (zh) 一种基于局部近邻成分分析的图像特征提取方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN111563535A (zh) 一种基于秩为r的离散非负矩阵分解聚类方法
Cao et al. Local information-based fast approximate spectral clustering
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
Fukunaga et al. Wasserstein k-means with sparse simplex projection
CN114974421B (zh) 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN111860834A (zh) 一种神经网络调优方法、系统、终端以及存储介质
CN113705674B (zh) 一种非负矩阵分解聚类方法、装置及可读存储介质
CN111371611A (zh) 一种基于深度学习的加权网络社区发现方法及装置
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN113221992A (zh) 一种基于l2,1范数的大规模数据快速聚类方法
CN112331257A (zh) 一种基于图卷积神经网络的病毒-宿主相互作用预测方法
CN110060735B (zh) 一种基于k-mer组群分割的生物序列聚类方法
Chin et al. A Novel Spectral Clustering Method Based on Pairwise Distance Matrix.
CN110378262B (zh) 基于加性高斯核的核非负矩阵分解人脸识别方法、装置、系统及存储介质
CN113807370A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN113869398A (zh) 一种不平衡文本分类方法、装置、设备及存储介质
Schleif et al. Fast approximated relational and kernel clustering
CN112651424A (zh) 基于lle降维和混沌算法优化的gis绝缘缺陷识别方法及系统
CN112215272A (zh) 一种基于贝塞尔曲线的图像分类神经网络攻击方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200821