CN105023026A - 一种基于非负矩阵分解的半监督聚类方法及系统 - Google Patents

一种基于非负矩阵分解的半监督聚类方法及系统 Download PDF

Info

Publication number
CN105023026A
CN105023026A CN201510508103.3A CN201510508103A CN105023026A CN 105023026 A CN105023026 A CN 105023026A CN 201510508103 A CN201510508103 A CN 201510508103A CN 105023026 A CN105023026 A CN 105023026A
Authority
CN
China
Prior art keywords
data
matrix factorization
projection
definition
raw data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510508103.3A
Other languages
English (en)
Other versions
CN105023026B (zh
Inventor
路梅
赵向军
李凡长
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510508103.3A priority Critical patent/CN105023026B/zh
Publication of CN105023026A publication Critical patent/CN105023026A/zh
Application granted granted Critical
Publication of CN105023026B publication Critical patent/CN105023026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非负矩阵分解的半监督聚类方法,包括:对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;利用算法接收参数K对原始数据的低维近似矩阵进行聚类,得到聚类结果;利用精确度和互信息两种评价标准对所述聚类结果进行评价。本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。本发明还公开了一种基于非负矩阵分解的半监督聚类系统。

Description

一种基于非负矩阵分解的半监督聚类方法及系统
技术领域
本发明涉及聚类分析技术领域,尤其涉及一种基于非负矩阵分解的半监督聚类方法及系统。
背景技术
近年来非负矩阵分解技术在模式识别和人工智能中起着非常重要的作用。已有研究表明,在心里和生理上都有人脑的基于部分表示的证据。非负矩阵表示在学习类似于人脸,图像和文档等部分表示上有先天的优势。同时,在许多诸如信息检索,计算机视觉和模式识别问题中,数据的特点是维数高,使得直接从样例中学习不可行。研究者们期望对高维数据矩阵分解,得到高维矩阵分解后的低维表示。
非负矩阵分解(nonnegative matrix factorization,NMF)是对非负矩阵分解,找到两个因子矩阵使得UV的乘积尽可能的和原来的矩阵近似。其中,U可以看作是包含新基的矩阵,V可以看作是原来数据在新基下的表示,由于k<<m,并且k<<n,所以V可以看作是原来矩阵X的低维表示。流形学习自从2000年在《Science》被首次提出以来,已成为信息科学领域的研究热点。基于图正则化的非负矩阵分解(Graph RegularizedNonnegative Matrix Factorization,GNMF)方法,把拉普拉斯图作为一个正则项加入到NMF框架中,有效的利用了原始数据的几何结构,取得了较好的聚类性能。
在数据的聚类应用中,有些数据是有标记的。上述算法都是无监督学习方法,不能有效的利用已有的带标记数据指导聚类,所以在聚类性能上会大打折扣。基于NMF的半监督聚类方法如约束非负矩阵分解(ConstrainedNonnegative Matrix Factorization,CNMF),其主要思想是同类的数据映射到投影空间应该有相同的表示。这个方法强制投影空间的表示和原空间的数据有相同类别标记,该方法存在的不足是当已知的标记数据很少时,方法退化为NMF,不能有效的利用原始数据的内部结构,故而聚类性能得不到提升。除此之外,CNMF方法使用不是约束对,而是硬性的标记,这种信息一般很难获得。
发明内容
本发明提供了一种基于非负矩阵分解的半监督聚类方法,该方法基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
本发明提供了一种基于非负矩阵分解的半监督聚类方法,包括:
对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;
利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
利用精确度和互信息两种评价标准对所述聚类结果进行评价。
优选地,所述对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,并使用cannot-link约束对进行修正,如果两个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形成的边,其中,边上的权重定义为:
W i j = x i T x j | | x i | | | | x j | | , i f ( x i ∈ N p ( x j ) o r x j ∈ N p ( x i ) ) a n d ( x i , x j ) ∉ C C L 0 , o t h e r w i s e ;
构造由must-link约束对构成的相似图,其中,边上的权重定义为:
S i j = x i T x j | | x i | | | | x j | | , i f ( x i , x j ) ∈ C M L 0 , o t h e r w i s e ;
利用公式 min = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j s . t . U ≥ 0 , V ≥ 0 对非负矩阵分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,λW和λS均为参数;
定义 F = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j , 简化后得到:
F=||X-UVT||2WTr(VTLWV)+λSTr(VTLSV);
利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
优选地,所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
M I ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C p ( c i , c j ′ ) · log 2 p ( c i , c j ′ ) p ( c i ) p ( c j ′ ) , 其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
一种基于非负矩阵分解的半监督聚类系统,包括:
投影模块,用于对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;
聚类模块,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
评价模块,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
优选地,所述投影模块对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,并使用cannot-link约束对进行修正,如果两个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形成的边,其中,边上的权重定义为:
W i j = x i T x j | | x i | | | | x j | | , i f ( x i ∈ N p ( x j ) o r x j ∈ N p ( x i ) ) a n d ( x i , x j ) ∉ C C L 0 , o t h e r w i s e ;
构造由must-link约束对构成的相似图,其中,边上的权重定义为:
S i j = x i T x j | | x i | | | | x j | | , i f ( x i , x j ) ∈ C M L 0 , o t h e r w i s e ;
利用公式 min = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j s . t . U ≥ 0 , V ≥ 0 对非负矩阵分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,λW和λS均为参数;
定义 F = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j , 简化后得到:
F=||X-UVT||2WTr(VTLWV)+λSTr(VTLSV);
利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
优选地,所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
M I ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C p ( c i , c j ′ ) · log 2 p ( c i , c j ′ ) p ( c i ) p ( c j ′ ) , 其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
由上述方案可知,本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先通过对原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于非负矩阵分解的半监督聚类方法的流程图;
图2为本发明公开的一种基于非负矩阵分解的半监督聚类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开的一种基于非负矩阵分解的半监督聚类方法,包括:
S101、对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;
首先,对原始数据矩阵作非负矩阵分解投影,保持原始数据和投影后数据的邻域结构一致性和约束对的一致性,同时要根据不同类的约束对修正邻域图,由此确保数据聚类对于先验知识的鲁棒性,即不管先验知识是多还是少,都有好的聚类结果。
S102、利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
其次,用得到的原始数据在低维空间的近似矩阵V,利用kmeans进行聚类。
S103、利用精确度和互信息两种评价标准对所述聚类结果进行评价。
最后,利用两种评价标准精确度(accuracy,AC)和互信息(mutualinformation,MI)对所得的聚类结果进行评价。
综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先通过对原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
具体的,上述实施例中,步骤101对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,并使用cannot-link约束对进行修正,如果两个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形成的边,其中,边上的权重定义为:
W i j = x i T x j | | x i | | | | x j | | , i f ( x i ∈ N p ( x j ) o r x j ∈ N p ( x i ) ) a n d ( x i , x j ) ∉ C C L 0 , o t h e r w i s e ;
构造由must-link约束对构成的相似图,其中,边上的权重定义为:
S i j = x i T x j | | x i | | | | x j | | , i f ( x i , x j ) ∈ C M L 0 , o t h e r w i s e ;
利用公式 min = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j s . t . U ≥ 0 , V ≥ 0 对非负矩阵分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,λW和λS均为参数;
定义 F = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j , 简化后得到:
F=||X-UVT||2WTr(VTLWV)+λSTr(VTLSV);
利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
具体的,上述实施例中,步骤103利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
M I ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C p ( c i , c j ′ ) · log 2 p ( c i , c j ′ ) p ( c i ) p ( c j ′ ) , 其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
为了更好的说明本发明的有益效果,对本发明在耶鲁数据集中进行了测试,目的是对耶鲁数据集的数据聚类。耶鲁的人脸数据库,由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165张图片,包含光照,表情和姿态。图像的大小为32x 32像素,每个像素为256灰度级,因此每幅图像可以用1024维的向量表示。从数据集中随机选择NM个must-link约束对,和NC个cannot-link约束对。
从图像中随机t×n×(n-1)个约束对。在这里,n=165,第一个实验选择t=0.05,其中134个must-link约束对和30个cannot-link约束对。第二个实验选择t=0.25,其中574个must-link约束对和54个cannot-link约束对。
表1为本发明第一个实验与NMF,GNMF以及semiNMF算法在相同的数据集上做比较的结果。
表1 NMF,GNMF,semiNMF和本发明方法的聚类性能对比(t=0.05)
0.05 NMF GNMF semiNMF 本发明
AC 0.36364 0.37576 0.32727 0.66667
NMI 0.4499 0.44438 0.39781 0.72309
表2为本发明第二个实验与NMF,GNMF以及semiNMF算法在相同的数据集上做比较的结果。
表2 NMF,GNMF,semiNMF和本发明方法的聚类性能对比(t=0.25)
0.25 NMF GNMF semiNMF 本发明
AC 0.36364 0.37576 0.8303 0.92727
NMI 0.4499 0.44438 0.93174 0.96587
通过实验结果可以看出本发明对于先验知识有较强的鲁棒性,不管约束对是多还是少,本发明的效果明显优于其他方法。
如图2所示,为本发明公开的一种基于非负矩阵分解的半监督聚类系统,包括:
投影模块201,用于对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;
首先,通过投影模块201对原始数据矩阵作非负矩阵分解投影,保持原始数据和投影后数据的邻域结构一致性和约束对的一致性,同时要根据不同类的约束对修正邻域图,由此确保数据聚类对于先验知识的鲁棒性,即不管先验知识是多还是少,都有好的聚类结果。
聚类模块202,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
其次,通过聚类模块202用投影模块201得到的原始数据在低维空间的近似矩阵V,利用kmeans进行聚类。
评价模块203,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
最后,通过评价模块203利用两种评价标准精确度(accuracy,AC)和互信息(mutual information,MI)对所得的聚类结果进行评价。
综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类系统,首先通过投影模块对原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后通过聚类模块利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后通过评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
具体的,上述实施例中,投影模块201对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,并使用cannot-link约束对进行修正,如果两个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形成的边,其中,边上的权重定义为:
W i j = x i T x j | | x i | | | | x j | | , i f ( x i ∈ N p ( x j ) o r x j ∈ N p ( x i ) ) a n d ( x i , x j ) ∉ C C L 0 , o t h e r w i s e ;
构造由must-link约束对构成的相似图,其中,边上的权重定义为:
S i j = x i T x j | | x i | | | | x j | | , i f ( x i , x j ) ∈ C M L 0 , o t h e r w i s e ;
利用公式 min = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j s . t . U ≥ 0 , V ≥ 0 对非负矩阵分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,λW和λS均为参数;
定义 F = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j , 简化后得到:
F=||X-UVT||2WTr(VTLWV)+λSTr(VTLSV);
利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
具体的,上述实施例中,评价模块203利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
M I ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C p ( c i , c j ′ ) · log 2 p ( c i , c j ′ ) p ( c i ) p ( c j ′ ) , 其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于非负矩阵分解的半监督聚类方法,其特征在于,包括:
对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;
利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
利用精确度和互信息两种评价标准对所述聚类结果进行评价。
2.根据权利要求1所述的方法,其特征在于,所述对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,并使用cannot-link约束对进行修正,如果两个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形成的边,其中,边上的权重定义为:
W i j = x i T x j | | x i | | | | x j | | , i f ( x i ∈ N p ( x j ) o r x j ∈ N p ( x i ) ) a n d ( x i , x j ) ∉ C C L 0 , o t h e r w i s e ;
构造由must-link约束对构成的相似图,其中,边上的权重定义为:
S i j = x i T x j | | x i | | | | x j | | , i f ( x i , x j ) ∈ C M L 0 , o t h e r w i s e ;
利用公式 min = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j s . t . U ≥ 0 , V ≥ 0 对非负矩阵分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,λW和λS均为参数;
定义 F = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j , 简化后得到:
F=||X-UVT||2WTr(VTLWV)+λSTr(VTLSV);
利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
3.根据权利要求2所述的方法,其特征在于,所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
M I ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C p ( c i , c j ′ ) · log 2 p ( c i , c j ′ ) p ( c i ) p ( c j ′ ) , 其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
4.一种基于非负矩阵分解的半监督聚类系统,其特征在于,包括:
投影模块,用于对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;
聚类模块,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
评价模块,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
5.根据权利要求4所述的系统,其特征在于,所述投影模块对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,并使用cannot-link约束对进行修正,如果两个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形成的边,其中,边上的权重定义为:
W i j = x i T x j | | x i | | | | x j | | , i f ( x i ∈ N p ( x j ) o r x j ∈ N p ( x i ) ) a n d ( x i , x j ) ∉ C C L 0 , o t h e r w i s e ;
构造由must-link约束对构成的相似图,其中,边上的权重定义为:
S i j = x i T x j | | x i | | | | x j | | , i f ( x i , x j ) ∈ C M L 0 , o t h e r w i s e ;
利用公式 min = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j s . t . U ≥ 0 , V ≥ 0 对非负矩阵分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,λW和λS均为参数;
定义 F = | | X - UV T | | 2 + λ W 2 Σ i , j = 1 n | | v i - v j | | 2 W i j + λ S 2 Σ i , j = 1 n | | v i - v j | | 2 S i j , 简化后得到:
F=||X-UVT||2WTr(VTLWV)+λSTr(VTLSV);
利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
6.根据权利要求5所述的系统,其特征在于,所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
M I ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C p ( c i , c j ′ ) · log 2 p ( c i , c j ′ ) p ( c i ) p ( c j ′ ) , 其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
CN201510508103.3A 2015-08-18 2015-08-18 一种基于非负矩阵分解的半监督聚类方法及系统 Active CN105023026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510508103.3A CN105023026B (zh) 2015-08-18 2015-08-18 一种基于非负矩阵分解的半监督聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510508103.3A CN105023026B (zh) 2015-08-18 2015-08-18 一种基于非负矩阵分解的半监督聚类方法及系统

Publications (2)

Publication Number Publication Date
CN105023026A true CN105023026A (zh) 2015-11-04
CN105023026B CN105023026B (zh) 2018-08-17

Family

ID=54412980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510508103.3A Active CN105023026B (zh) 2015-08-18 2015-08-18 一种基于非负矩阵分解的半监督聚类方法及系统

Country Status (1)

Country Link
CN (1) CN105023026B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229419A (zh) * 2018-01-22 2018-06-29 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108256569A (zh) * 2018-01-12 2018-07-06 电子科技大学 一种复杂背景下的对象识别方法及使用的计算机技术
CN109416936A (zh) * 2016-03-02 2019-03-01 豪夫迈·罗氏有限公司 具有无监督的日常cgm图谱(或胰岛素图谱)的聚类的患者糖尿病监测系统以及其方法
CN109885028A (zh) * 2019-03-13 2019-06-14 东北大学 基于相关熵诱导度量的电熔氧化镁熔炼过程故障检测方法
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN111755079A (zh) * 2020-07-06 2020-10-09 太原理工大学 一种多晶硅最优原料配比方案确定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020122A (zh) * 2012-11-16 2013-04-03 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN103324707A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种基于半监督聚类的查询扩展方法
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN103020122A (zh) * 2012-11-16 2013-04-03 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN103324707A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种基于半监督聚类的查询扩展方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416936A (zh) * 2016-03-02 2019-03-01 豪夫迈·罗氏有限公司 具有无监督的日常cgm图谱(或胰岛素图谱)的聚类的患者糖尿病监测系统以及其方法
CN108256569A (zh) * 2018-01-12 2018-07-06 电子科技大学 一种复杂背景下的对象识别方法及使用的计算机技术
CN108256569B (zh) * 2018-01-12 2022-03-18 电子科技大学 一种复杂背景下的对象识别方法及使用的计算机技术
CN108229419A (zh) * 2018-01-22 2018-06-29 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108229419B (zh) * 2018-01-22 2022-03-04 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN109994200B (zh) * 2019-03-08 2021-01-19 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN109885028A (zh) * 2019-03-13 2019-06-14 东北大学 基于相关熵诱导度量的电熔氧化镁熔炼过程故障检测方法
CN109885028B (zh) * 2019-03-13 2021-06-22 东北大学 基于相关熵诱导度量的电熔氧化镁熔炼过程故障检测方法
CN111755079A (zh) * 2020-07-06 2020-10-09 太原理工大学 一种多晶硅最优原料配比方案确定方法及系统
CN111755079B (zh) * 2020-07-06 2024-03-19 太原理工大学 一种多晶硅最优原料配比方案确定方法及系统

Also Published As

Publication number Publication date
CN105023026B (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN105023026A (zh) 一种基于非负矩阵分解的半监督聚类方法及系统
Wu et al. Nonnegative matrix factorization with mixed hypergraph regularization for community detection
Law et al. Deep spectral clustering learning
Dizaji et al. Unsupervised deep generative adversarial hashing network
Huang et al. Remote sensing image scene classification using multi-scale completed local binary patterns and fisher vectors
Risojević et al. Fusion of global and local descriptors for remote sensing image classification
Shang et al. Subspace learning-based graph regularized feature selection
Zhang et al. Detecting densely distributed graph patterns for fine-grained image categorization
US20120269436A1 (en) Learning structured prediction models for interactive image labeling
CN105184303A (zh) 一种基于多模态深度学习的图像标注方法
Cai et al. Classification complexity assessment for hyper-parameter optimization
CN103605985B (zh) 一种基于张量全局‑局部保持投影的数据降维的人脸识别方法
CN104166982A (zh) 基于典型相关性分析的图像优化聚类方法
Lim et al. Context by region ancestry
CN101853239A (zh) 一种用于聚类的基于非负矩阵分解的降维方法
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
Hofmann et al. Learning interpretable kernelized prototype-based models
CN109657611A (zh) 一种用于人脸识别的自适应图正则化非负矩阵分解方法
CN105631469A (zh) 一种多层稀疏编码特征的鸟类图像识别方法
CN104318271A (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
CN104036021A (zh) 混合生成式和判别式学习模型的图像语义标注方法
Andreetto et al. Unsupervised learning of categorical segments in image collections
CN113298234B (zh) 一种生成多关系图中节点的表示向量的方法
Rentzmann et al. Unsupervised learning: What is a sports car?
López-Rubio Probabilistic self-organizing maps for qualitative data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180704

Address after: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant after: Zhangjiagang Institute of Industrial Technologies Soochow University

Applicant after: Soochow University

Address before: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant before: Zhangjiagang Institute of Industrial Technologies Soochow University

GR01 Patent grant
GR01 Patent grant