CN111191699B - 基于非负矩阵分解和划分自适应融合的多视角聚类方法 - Google Patents
基于非负矩阵分解和划分自适应融合的多视角聚类方法 Download PDFInfo
- Publication number
- CN111191699B CN111191699B CN201911332635.0A CN201911332635A CN111191699B CN 111191699 B CN111191699 B CN 111191699B CN 201911332635 A CN201911332635 A CN 201911332635A CN 111191699 B CN111191699 B CN 111191699B
- Authority
- CN
- China
- Prior art keywords
- clustering
- view
- matrix
- sample
- membership
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于非负矩阵分解和划分自适应融合的多视角聚类方法。针对多视角聚类任务如何更好地实现视图间的学习,提出一种新的视角融合策略,该策略首先为每个视角设置一个划分,然后通过自适应学习获取一个融合权重矩阵对每个视角的划分进行自适应融合,最终利用视角集成方法得到全局划分结果。将上述策略应用于经典的FCM模糊聚类框架中,采用交替方向乘法器优化模型(Alternating Direction Method of Multipliers,ADMM)求解。与几种相关聚类算法相比,本发明的方法在处理多视角聚类任务时具有更好的适应性和聚类。
Description
技术领域
本发明涉及数据挖掘和模式识别技术领域和数据分析与人工智能领域,具体是一种基于非负矩阵分解和划分自适应融合的多视角聚类方法。
背景技术
近年来,互联网信息技术在现实生活中得到了迅速发展和广泛应用,使信息和数据呈现爆炸式增长。在描述一些实际问题的过程中,同样的事情可以用不同的方式,从不同的角度或不同的形式来描述。各种描述称为事物的多个视图,数据称为多视图数据[1]。每个单独的视图都足以挖掘知识,从多个视图中组合有价值的信息可以提高性能和质量。然而,主要的挑战是如何集成这些多个表示或视图提供的独立兼容和互补的信息,并为诸如集群和分类等任务提供所有视图之间的参考解决方案。
多视图聚类的目标是根据对象的多个表示形式将对象划分为多个集群。聚类算法的基本思想是将一组数据对象按照一定的准则进行分组,将相似的对象分组到同一个集群中,将不同的对象分组到不同的集群中。多视角聚类算法己被证实优于单视图聚类算法,且具有更好的稳定性,更低的时间复杂度。在1998年,由Bulum和Mitchell提出的Co-training开启了多视角学习的先河。随后,多视角聚类算法如雨后春笋般大量出现,根据其内容的不同,可大致地分成四类:Co-training,多核学习,子空间学习和多视角图学习。Co-training这类方法使用协同训练策略来处理多视角数据,着力于最大化两个不同的视图间的一致性。它通过使用已有的或相互学习的知识来引导不同视图的聚类。通过迭代执行该策略,所有视图的聚类结果趋于彼此,这将导致所有视图之间达成最广泛的共识。多核学习方法使用是将不同视图对应的预定义内核,然后线性或非线性地组合这些内核,以提高聚类性能。子空间学习通过假设所有视图共享一个表示,从所有视图的所有特性子空间中学习统一的特性表示,输入到用于聚类的模型中。多视角图学习即寻找一个跨所有视图的融合图(或网络),然后在融合图上使用图割算法或其他技术(如谱聚类)来产生聚类结果。2012年,Tzortzis等人针对不同的视角,通过核函数进行相应加权聚类,发现不同视角在更加合适的权重下可以得到更高的精度。2009年,Chaudhur等人通过典型相关分析提取两个视角的共享信息将其作为本质特征进行聚类,从而提出了一种基于典型相关分析的多视角聚类算法。2016年,Zhang等人通过利用各视角中样本与样本的关联程度去学习的几何图结构,提出了一种基于超图正则化非负矩阵分解的多视角聚类算法。
人们获得的数据普遍具有如下两个特点:(1)数据量庞大,检索困难;(2)数据维数巨大,处理困难。虽然高维数据也许含有更多的信息,但将其直接用于分类、聚类或概率密度估计等任务,必将付出巨大的时间和空间代价。因此降维特征提取过程已经成为许多数据挖掘问题的一种预处理手段。数据降维的本质是寻找一个低维表示来反映原始数据的内在特征,并使后续任务在这个低维表示上的工作量更低,同时泛化性能和识别率更高。通过利用非负矩阵分解独特的优势,不仅可以进行降维,而且物理意义明确。
因此,需要对这些庞大的原始矩阵进行分解,达到数据压缩、降维、降噪的目的。但也有可能破坏数据样本之间的本质结构,影响聚类效果。此外,传统的聚类算法认为,只需要将这些不同属性下的样本组合成一个整体进行处理,因为多角度的样本是同一对象不同属性的组合形式。但是,这种方法可能会破坏原始对象在不同属性下的独立性,导致得到的全局聚类结果并不理想。
发明内容
本发明的目的在于提出一种基于非负矩阵因子分解和分割自适应融合的多视图模糊聚类算法,该算法具有较好的自适应性和聚类效果。
为了实现上述目的,本发明采用以下技术方案:一种基于非负矩阵分解和划分自适应融合的多视角聚类方法,包括以下步骤:
S1:对样本数据集进行预处理,提取出原始非负特征数据样本集X={X1;X2;...;XK},K个视图之间相互条件独立,每个视图提取的原始信息为需要注意的是,对于不同的视图,数据点的数量为N,是相同的,但是允许不同数量的特性。通过聚类得到的簇数为C,dk是第k个视角数据样本维数。模糊系数ft因不同数据集而不同,表示第t个视角的数据的程度,是一个大于1而小于2.5的参量,平衡系数λk∈{1e-4,1e-3,1e-2,1e-1,1,1e1,1e2,1e3,1e4},是第k个视角在整个多视角聚类任务的平衡因子,正则化系数γ∈{2-12,2-11,…,212};
S2:随机初始化基矩阵和系数表示矩阵使得基矩阵W是降维后的低秩空间的表现形式。系数矩阵H是原始数据X经降维后的低维表达方式。再根据以下约束设置隶属度矩阵Ut∈RC×N,它的元素μij,t表示第t个视角第j个样本xj,t分属于第i个聚类中心vi,t的程度。然后确定该隶属度伪划分对应的聚类中心矩阵Vt∈RC×C,它是由所有聚类簇团中心组成的矩阵形式,xj,t表示N个样本中第j个样本,vi,t表示C个簇中第i个聚类中心,Ci代表第i个簇样本集合,Ni代表第i个簇中样本个数。Q∈RK×K作为构造的融合权重矩阵,其元素Qk,t反映第k个视角与第t个视角之间的关联程度,表示第t个视角上的聚类划分对第k个视角上的聚类任务的影响程度。各变量初始化约束如下公式所示:
S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新。
①固定W,H,V和Q,对U进行更新。Ut的更新准则为:
其中dij,t表示系数矩阵Ht第j个样本分量hj,t与聚类中心vi,t的距离||hj,t-vi,t||
②固定W,H,U和Q,对V进行更新。Vk的更新准则为:
③固定V,H,U和Q,对W进行更新。Wk的更新规则为:
其中⊙是Hadamard积运算符,代表矩阵对应元素相乘。
④固定W,V,U和Q,对H进行更新。Hk的更新规则为:
⑤固定W,V,U和H,对Q进行更新。Q的更新规则为:
S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止。在交替迭代过程中,设阈值为1×10-6,所构造的目标函数如下所示:
S5:将各视角的隶属度划分取几何平均的方式集成所有观点,获得数据样本的统一归属信息根据上述迭代求解方法,解出了代价函数的局部最优解,也获得了各视角协同学习的隶属度划分Ut。采用各视角的隶属度划分取几何平均的方式集成所有观点,获得数据样本的统一归属信息。
S6:根据全局隶属度划分矩阵对样本的归属进行确定,得到样本的类标签信息,聚类结束。全局隶属度矩阵是对所有样本进行软聚类的模糊隶属度的呈现方式,越大,则反映样本j属于簇i的概率越大,可根据其获取样本的标签向量Y∈R1×n。
与现有传输方法相比,本发明具有如下优点及显著效果:
本发明的适用范围是用于实现对拥有大量的高维特征的多视图数据样本的聚类,包含非负矩阵分解的技术手段以实现对大量高维数据的降维处理,和自适应融合算法融合各视图独立的聚类任务以及以模糊C均值为框架的多视角聚类算法实现对数据的软聚类。非负矩阵分解(NMF)作为一种新的矩阵分解和特征提取方法,是高维大数据处理和模式识别中对数据进行线性分离聚类的有效方法。针对多视角聚类任务如何更好地实现视图间的学习,提出一种新的视角融合策略。该策略首先为每个视角设置一个划分,然后通过自适应学习获取一个融合权重矩阵对每个视角的划分进行自适应融合,最终利用视角集成方法得到全局划分结果。将上述策略应用于经典的FCM模糊聚类框架中,采用交替方向乘法器优化模型(Alternating Direction Method of Multipliers,ADMM)求解。与几种相关聚类算法相比,该算法在处理多视角聚类任务时具有更好的适应性和聚类。
附图说明
图1是本发明的基于非负矩阵分解和划分自适应融合的多视角聚类方法流程示意图。
图2是本发明方法实施例应用中所使用的标准数据集。
图3是本发明方法实施例应用中采用本发明所提方法和传统聚类算法性能对比示意图。
图4是本发明方法实施例应用中采用本发明所提方法随样本容量大小改变聚类效果示意图。
具体实施方式
本发明属于大数据环境下无监督聚类方法,是一种高效的乘法更新方法。
本发明引入了香农熵正则化项。作为一种不确定性度量,香农熵被有效地用于聚类。在划分不确定度时,一般认为当熵达到最大且没有先验信息时,划分是最优的。另一方面,当其他信息可用时,期望从可用信息得到的不确定划分与最大熵情况下得到的划分之间存在权衡。
下面结合说明书附图对本发明作进一步说明。
为了验证本发明的有效性,在本发明中,试图证明提出的多视图聚类算法的有效性。为此目的,四个相关的、成熟的竞争对手,即,Multi-NMF,Co-FKM,MVSC,VC-AW-MEC。Multi-NMF和Co-FKM是协同多视图聚类的代表,其目标是将各种聚类视图推向解决方案的方向,使聚类效果良好。在众多的多视图聚类方法中,谱聚类不仅可以对任意形状进行聚类,而且具有良好的数学框架。因此,多视点光谱聚类算法的研究是当前的一个热点问题。VC-AW-MEC作为充分利用信息熵的代表,考虑视图之间的协作学习和视图中每个样本的权值属性。这些算法都是在MATLAB R2014a中实现的,所有实验都在Windows 10下运行在8gb内存的2.81GHz Inter Core处理器上。在接下来的实验中,将这些算法的最大迭代次数设置为10000次,并保持不变。对于每个数据集,选择准确率(ACC)、归一化互信息(NMI)和F-测度作为聚类效果的评价指标。本发明方法实施例应用中采用本发明所提方法所使用的标准数据集为新闻故事数据集20NGs和文本数据集3Sources,每一次实验进行20次,选取其结果的平均值予以记录。
假设对具有多视图的数据集X={X1;X2;...;XK}进行聚类,K个视图之间相互独立,每个视图提取的原始信息为需要注意的是,对于不同的视图,数据点的数量为N,是相同的,但是允许不同数量的特性。通过聚类得到的簇数为C。所构造的目标函数如下:
||hj,k-vi,k||表示第k个视角第j个样本hj,k与该视角下第i个聚类中心vi,k的欧式距离dij,k。U∈RC×N表示隶属度矩阵,第t个视角的其元素值μij,t表示hj,t分属于聚类中心vi,t的程度。V∈RC×C是所有聚类中心组成得聚类中心矩阵。Q∈RK×K作为构造的融合权重矩阵,其元素Qk,t反映第k个视角与第t个视角之间的关联程度,表示第t个视角上的聚类划分对第k个视角上的聚类任务的影响程度。模糊系数ft是一个大于1小于2.5的实数,因视角不同而异。λk指第k个视角下的平衡系数,γ则是正则化参数。目标函数中的第二项是通过非负矩阵分解处理每个视角的样本数据,它考虑了每个视角的独立性和互补性。目标函数中的第三项是参考信息熵,当不确定性的数据被划分时,一般认为当熵达到最大且没有先验信息时,划分是最优的。公式中(1)熵越大的时候,整体目标函数的值则越小,体现了各视角内部隐藏的一致性。
很明显,以上公式的目标函数是非凸的,解出它的全局最优是不实际的。因此,利用交替迭代法则去探索非凸函数的局部最优解是一个不错的选择。通过梯度下降法和拉格朗日法的步骤来解决优化问题,求解出各变量的更新迭代公式。
①固定W,H,V,Q通过U最优化J。U的更新准则为:
②固定W,H,U,Q通过V最优化J。V的更新准则为:
③固定V,H,U,Q通过W最优化J。W的更新规则为:
④固定W,V,U,Q通过H最优化J。H的更新规则为:
⑤固定W,V,U,H通过Q最优化J。Q的更新规则为:
最终将各视角的隶属度划分取几何平均的方式集成所有观点,获得数据样本的统一归属信息根据上述迭代求解方法,解出了代价函数的局部最优解,也获得了各视角协同学习的隶属度划分Ut。采用各视角的隶属度划分取几何平均的方式集成所有观点,获得数据样本的统一归属信息。
Claims (7)
1.一种基于非负矩阵分解和划分自适应融合的多视角聚类方法,其特征在于,所述方法包括以下步骤:
S1:对多视图样本数据集进行预处理,提取出各视角原始非负特征数据样本集Xk,并设置聚类簇团个数C,模糊系数ft,平衡系数λk,视角个数K,正则化系数γ;
S2:初始化基矩阵Wk和系数表示矩阵Hk,根据条件约束设置模糊伪划分Ut和权重融合矩阵Q,并确定对应的聚类中心矩阵Vt;
S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;
S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止;
3.根据权利要求1所述的基于非负矩阵分解和划分自适应融合的多视角聚类方法,其特征在于:所述S2中,随机初始化基矩阵和系数表示矩阵使得基矩阵W是降维后的低秩空间的表现形式;系数矩阵H是原始数据X经降维后的低维表达方式;再根据以下约束设置隶属度矩阵Ut∈RC×N,它的元素μij,t表示第t个视角第j个样本xj,t分属于第i个聚类中心vi,t的程度;然后确定该隶属度伪划分对应的聚类中心矩阵Vt∈RC×C,它是由所有聚类簇团中心组成的矩阵形式,xj,t表示N个样本中第j个样本,vi,t表示C个簇中第i个聚类中心,Ci代表第i个簇样本集合,Ni代表第i个簇中样本个数;Q∈RK×K作为构造的融合权重矩阵,其元素Qk,t反映第k个视角与第t个视角之间的关联程度,表示第t个视角上的聚类划分对第k个视角上的聚类任务的影响程度;各变量初始化约束如下公式所示:
4.根据权利要求1所述的基于非负矩阵分解和划分自适应融合的多视角聚类方法,其特征在于:所述S3中,利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;
①固定W,H,V和Q,对U进行更新,Ut的更新准则为:
其中dij,t表示系数矩阵Ht第j个样本分量hj,t与聚类中心vi,t的距离||hj,t-vi,t||;
②固定W,H,U和Q,对V进行更新,Vk的更新准则为:
③固定V,H,U和Q,对W进行更新,Wk的更新规则为:
其中⊙是Hadamard积运算符,代表矩阵对应元素相乘;
④固定W,V,U和Q,对H进行更新,Hk的更新规则为:
⑤固定W,V,U和H,对Q进行更新,Q的更新规则为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332635.0A CN111191699B (zh) | 2019-12-22 | 2019-12-22 | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332635.0A CN111191699B (zh) | 2019-12-22 | 2019-12-22 | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191699A CN111191699A (zh) | 2020-05-22 |
CN111191699B true CN111191699B (zh) | 2022-10-21 |
Family
ID=70707431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911332635.0A Active CN111191699B (zh) | 2019-12-22 | 2019-12-22 | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191699B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221101B (zh) * | 2021-04-16 | 2023-12-19 | 中科寒武纪科技股份有限公司 | 用于优化片上系统的矩阵乘操作的方法和相关产品 |
CN113723540B (zh) * | 2021-09-02 | 2024-04-19 | 济南大学 | 一种基于多视图的无人驾驶场景聚类方法及系统 |
CN113887591A (zh) * | 2021-09-22 | 2022-01-04 | 大连理工大学 | 基于双层加权联合分解的多视角聚类方法 |
CN113901921A (zh) * | 2021-10-11 | 2022-01-07 | 郑州大学 | 一种综合双重联系的多视角信息瓶颈聚类算法 |
CN117274726B (zh) * | 2023-11-23 | 2024-02-23 | 南京信息工程大学 | 一种基于多视角补标签的图片分类方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292341A (zh) * | 2017-06-20 | 2017-10-24 | 西安电子科技大学 | 基于成对协同正则化和nmf的自适应多视图聚类方法 |
CN108776812A (zh) * | 2018-05-31 | 2018-11-09 | 西安电子科技大学 | 基于非负矩阵分解和多样-一致性的多视图聚类方法 |
-
2019
- 2019-12-22 CN CN201911332635.0A patent/CN111191699B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292341A (zh) * | 2017-06-20 | 2017-10-24 | 西安电子科技大学 | 基于成对协同正则化和nmf的自适应多视图聚类方法 |
CN108776812A (zh) * | 2018-05-31 | 2018-11-09 | 西安电子科技大学 | 基于非负矩阵分解和多样-一致性的多视图聚类方法 |
Non-Patent Citations (1)
Title |
---|
基于划分自适应融合的多视角模糊聚类算法;邓赵红等;《控制与决策》(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111191699A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191699B (zh) | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 | |
Zhai et al. | Hyperspectral image clustering: Current achievements and future lines | |
CN111191698B (zh) | 基于非负矩阵分解和模糊c均值的聚类方法 | |
Kpotufe et al. | A tree-based regressor that adapts to intrinsic dimension | |
CN109886334B (zh) | 一种隐私保护的共享近邻密度峰聚类方法 | |
CN112801059B (zh) | 图卷积网络系统和基于图卷积网络系统的3d物体检测方法 | |
Irsoy et al. | Autoencoder trees | |
CN109993208B (zh) | 一种有噪声图像的聚类处理方法 | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
Steinberg et al. | A Bayesian nonparametric approach to clustering data from underwater robotic surveys | |
CN112990264A (zh) | 一种基于一致图学习的多视图聚类方法 | |
Friedman et al. | Active learning using a variational dirichlet process model for pre-clustering and classification of underwater stereo imagery | |
CN114067395A (zh) | 基于局部最大对齐的后期融合多视图聚类方法及系统 | |
Jaffel et al. | A symbiotic organisms search algorithm for feature selection in satellite image classification | |
Rashno et al. | Mars image segmentation with most relevant features among wavelet and color features | |
Kanzawa | Fuzzy clustering based on α-divergence for spherical data and for categorical multivariate data | |
Bhad et al. | Content based image retrieval a comparative based analysis for feature extraction approach | |
Mariño et al. | A new batch SOM algorithm for relational data with weighted medoids | |
Meng et al. | Adaptive resonance theory (ART) for social media analytics | |
Girdhar et al. | Gibbs sampling strategies for semantic perception of streaming video data | |
Azzawi et al. | Face recognition based on mixed between selected feature by multiwavelet and particle swarm optimization | |
Honda et al. | FCM‐Type Fuzzy Coclustering for Three‐Mode Cooccurrence Data: 3FCCM and 3Fuzzy CoDoK | |
Ring | Learning Approaches in Signal Processing | |
Siraj-Ud-Doula et al. | Ecological Data Analysis Based on Machine Learning Algorithms | |
Cornell | Using topological autoencoders as a filtering function for global and local topology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |