CN111191699B

CN111191699B - 基于非负矩阵分解和划分自适应融合的多视角聚类方法

Info

Publication number: CN111191699B
Application number: CN201911332635.0A
Authority: CN
Inventors: 陶性留; 俞璐; 王晓莹; 姚艳艳
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2019-12-22
Filing date: 2019-12-22
Publication date: 2022-10-21
Anticipated expiration: 2039-12-22
Also published as: CN111191699A

Abstract

本发明公开了一种基于非负矩阵分解和划分自适应融合的多视角聚类方法。针对多视角聚类任务如何更好地实现视图间的学习,提出一种新的视角融合策略，该策略首先为每个视角设置一个划分，然后通过自适应学习获取一个融合权重矩阵对每个视角的划分进行自适应融合，最终利用视角集成方法得到全局划分结果。将上述策略应用于经典的FCM模糊聚类框架中，采用交替方向乘法器优化模型(Alternating Direction Method of Multipliers，ADMM)求解。与几种相关聚类算法相比，本发明的方法在处理多视角聚类任务时具有更好的适应性和聚类。

Description

基于非负矩阵分解和划分自适应融合的多视角聚类方法

技术领域

本发明涉及数据挖掘和模式识别技术领域和数据分析与人工智能领域，具体是一种基于非负矩阵分解和划分自适应融合的多视角聚类方法。

背景技术

近年来，互联网信息技术在现实生活中得到了迅速发展和广泛应用，使信息和数据呈现爆炸式增长。在描述一些实际问题的过程中，同样的事情可以用不同的方式，从不同的角度或不同的形式来描述。各种描述称为事物的多个视图，数据称为多视图数据[1]。每个单独的视图都足以挖掘知识，从多个视图中组合有价值的信息可以提高性能和质量。然而，主要的挑战是如何集成这些多个表示或视图提供的独立兼容和互补的信息，并为诸如集群和分类等任务提供所有视图之间的参考解决方案。

多视图聚类的目标是根据对象的多个表示形式将对象划分为多个集群。聚类算法的基本思想是将一组数据对象按照一定的准则进行分组，将相似的对象分组到同一个集群中，将不同的对象分组到不同的集群中。多视角聚类算法己被证实优于单视图聚类算法，且具有更好的稳定性，更低的时间复杂度。在1998年，由Bulum和Mitchell提出的Co-training开启了多视角学习的先河。随后，多视角聚类算法如雨后春笋般大量出现，根据其内容的不同，可大致地分成四类：Co-training，多核学习，子空间学习和多视角图学习。Co-training这类方法使用协同训练策略来处理多视角数据，着力于最大化两个不同的视图间的一致性。它通过使用已有的或相互学习的知识来引导不同视图的聚类。通过迭代执行该策略，所有视图的聚类结果趋于彼此，这将导致所有视图之间达成最广泛的共识。多核学习方法使用是将不同视图对应的预定义内核，然后线性或非线性地组合这些内核，以提高聚类性能。子空间学习通过假设所有视图共享一个表示，从所有视图的所有特性子空间中学习统一的特性表示，输入到用于聚类的模型中。多视角图学习即寻找一个跨所有视图的融合图(或网络)，然后在融合图上使用图割算法或其他技术(如谱聚类)来产生聚类结果。2012年，Tzortzis等人针对不同的视角，通过核函数进行相应加权聚类，发现不同视角在更加合适的权重下可以得到更高的精度。2009年，Chaudhur等人通过典型相关分析提取两个视角的共享信息将其作为本质特征进行聚类，从而提出了一种基于典型相关分析的多视角聚类算法。2016年，Zhang等人通过利用各视角中样本与样本的关联程度去学习的几何图结构，提出了一种基于超图正则化非负矩阵分解的多视角聚类算法。

人们获得的数据普遍具有如下两个特点：(1)数据量庞大，检索困难；(2)数据维数巨大，处理困难。虽然高维数据也许含有更多的信息，但将其直接用于分类、聚类或概率密度估计等任务，必将付出巨大的时间和空间代价。因此降维特征提取过程已经成为许多数据挖掘问题的一种预处理手段。数据降维的本质是寻找一个低维表示来反映原始数据的内在特征，并使后续任务在这个低维表示上的工作量更低，同时泛化性能和识别率更高。通过利用非负矩阵分解独特的优势，不仅可以进行降维，而且物理意义明确。

因此，需要对这些庞大的原始矩阵进行分解，达到数据压缩、降维、降噪的目的。但也有可能破坏数据样本之间的本质结构，影响聚类效果。此外，传统的聚类算法认为，只需要将这些不同属性下的样本组合成一个整体进行处理，因为多角度的样本是同一对象不同属性的组合形式。但是，这种方法可能会破坏原始对象在不同属性下的独立性，导致得到的全局聚类结果并不理想。

发明内容

本发明的目的在于提出一种基于非负矩阵因子分解和分割自适应融合的多视图模糊聚类算法，该算法具有较好的自适应性和聚类效果。

为了实现上述目的，本发明采用以下技术方案：一种基于非负矩阵分解和划分自适应融合的多视角聚类方法，包括以下步骤：

S1：对样本数据集进行预处理，提取出原始非负特征数据样本集X＝{X₁；X₂；...；X_K}，K个视图之间相互条件独立，每个视图提取的原始信息为

需要注意的是，对于不同的视图，数据点的数量为N,是相同的，但是允许不同数量的特性。通过聚类得到的簇数为C，d_k是第k个视角数据样本维数。模糊系数f_t因不同数据集而不同，表示第t个视角的数据的程度，是一个大于1而小于2.5的参量，平衡系数λ_k∈{1e^-4,1e^-3,1e^-2,1e^-1,1,1e¹,1e²,1e³,1e⁴}，是第k个视角在整个多视角聚类任务的平衡因子，正则化系数γ∈{2^-12,2^-11,…,2¹²}；

S2：随机初始化基矩阵

和系数表示矩阵

使得

基矩阵W是降维后的低秩空间的表现形式。系数矩阵H是原始数据X经降维后的低维表达方式。再根据以下约束设置隶属度矩阵U_t∈R^C×N，它的元素μ_ij,t表示第t个视角第j个样本x_j,t分属于第i个聚类中心v_i,t的程度。然后确定该隶属度伪划分对应的聚类中心矩阵V_t∈R^C×C，它是由所有聚类簇团中心组成的矩阵形式，x_j,t表示N个样本中第j个样本，v_i,t表示C个簇中第i个聚类中心，C_i代表第i个簇样本集合，N_i代表第i个簇中样本个数。Q∈R^K×K作为构造的融合权重矩阵，其元素Q_k,t反映第k个视角与第t个视角之间的关联程度，表示第t个视角上的聚类划分对第k个视角上的聚类任务的影响程度。各变量初始化约束如下公式所示：

S3：利用梯度下降法和交替迭代法则，通过固定其余变量，对某一变量进行更新。

①固定W，H，V和Q，对U进行更新。U_t的更新准则为:

其中d_ij,t表示系数矩阵H_t第j个样本分量h_j,t与聚类中心v_i,t的距离||h_j,t-v_i,t||

②固定W,H，U和Q，对V进行更新。V_k的更新准则为:

③固定V，H，U和Q，对W进行更新。W_k的更新规则为:

其中⊙是Hadamard积运算符，代表矩阵对应元素相乘。

④固定W，V，U和Q，对H进行更新。H_k的更新规则为：

其中

1代表具有C行的全1向量。

⑤固定W，V，U和H，对Q进行更新。Q的更新规则为：

S4：对所提方法的目标函数的阈值进行限定，当目标函数的值变化小于阈值，上述交替迭代停止。在交替迭代过程中，设阈值为1×10^-6，所构造的目标函数如下所示：

S5：将各视角的隶属度划分取几何平均的方式集成所有观点，获得数据样本的统一归属信息

根据上述迭代求解方法，解出了代价函数的局部最优解，也获得了各视角协同学习的隶属度划分U_t。采用各视角的隶属度划分取几何平均的方式集成所有观点，获得数据样本的统一归属信息。

S6：根据全局隶属度划分矩阵

对样本的归属进行确定，得到样本的类标签信息，聚类结束。全局隶属度矩阵

是对所有样本进行软聚类的模糊隶属度的呈现方式，

越大，则反映样本j属于簇i的概率越大，可根据其获取样本的标签向量Y∈R^1×n。

与现有传输方法相比，本发明具有如下优点及显著效果：

本发明的适用范围是用于实现对拥有大量的高维特征的多视图数据样本的聚类，包含非负矩阵分解的技术手段以实现对大量高维数据的降维处理，和自适应融合算法融合各视图独立的聚类任务以及以模糊C均值为框架的多视角聚类算法实现对数据的软聚类。非负矩阵分解(NMF)作为一种新的矩阵分解和特征提取方法，是高维大数据处理和模式识别中对数据进行线性分离聚类的有效方法。针对多视角聚类任务如何更好地实现视图间的学习,提出一种新的视角融合策略。该策略首先为每个视角设置一个划分,然后通过自适应学习获取一个融合权重矩阵对每个视角的划分进行自适应融合,最终利用视角集成方法得到全局划分结果。将上述策略应用于经典的FCM模糊聚类框架中，采用交替方向乘法器优化模型(Alternating Direction Method of Multipliers，ADMM)求解。与几种相关聚类算法相比，该算法在处理多视角聚类任务时具有更好的适应性和聚类。

附图说明

图1是本发明的基于非负矩阵分解和划分自适应融合的多视角聚类方法流程示意图。

图2是本发明方法实施例应用中所使用的标准数据集。

图3是本发明方法实施例应用中采用本发明所提方法和传统聚类算法性能对比示意图。

图4是本发明方法实施例应用中采用本发明所提方法随样本容量大小改变聚类效果示意图。

具体实施方式

本发明属于大数据环境下无监督聚类方法，是一种高效的乘法更新方法。

本发明引入了香农熵正则化项。作为一种不确定性度量，香农熵被有效地用于聚类。在划分不确定度时，一般认为当熵达到最大且没有先验信息时，划分是最优的。另一方面，当其他信息可用时，期望从可用信息得到的不确定划分与最大熵情况下得到的划分之间存在权衡。

下面结合说明书附图对本发明作进一步说明。

为了验证本发明的有效性，在本发明中，试图证明提出的多视图聚类算法的有效性。为此目的，四个相关的、成熟的竞争对手，即，Multi-NMF，Co-FKM，MVSC，VC-AW-MEC。Multi-NMF和Co-FKM是协同多视图聚类的代表，其目标是将各种聚类视图推向解决方案的方向，使聚类效果良好。在众多的多视图聚类方法中，谱聚类不仅可以对任意形状进行聚类，而且具有良好的数学框架。因此，多视点光谱聚类算法的研究是当前的一个热点问题。VC-AW-MEC作为充分利用信息熵的代表，考虑视图之间的协作学习和视图中每个样本的权值属性。这些算法都是在MATLAB R2014a中实现的，所有实验都在Windows 10下运行在8gb内存的2.81GHz Inter Core处理器上。在接下来的实验中，将这些算法的最大迭代次数设置为10000次，并保持不变。对于每个数据集，选择准确率(ACC)、归一化互信息(NMI)和F-测度作为聚类效果的评价指标。本发明方法实施例应用中采用本发明所提方法所使用的标准数据集为新闻故事数据集20NGs和文本数据集3Sources,每一次实验进行20次，选取其结果的平均值予以记录。

假设对具有多视图的数据集X＝{X₁；X₂；...；X_K}进行聚类，K个视图之间相互独立，每个视图提取的原始信息为

需要注意的是，对于不同的视图，数据点的数量为N,是相同的，但是允许不同数量的特性。通过聚类得到的簇数为C。所构造的目标函数如下：

||h_j,k-v_i,k||表示第k个视角第j个样本h_j,k与该视角下第i个聚类中心v_i,k的欧式距离d_ij,k。U∈R^C×N表示隶属度矩阵，第t个视角的其元素值μ_ij,t表示h_j,t分属于聚类中心v_i,t的程度。V∈R^C×C是所有聚类中心组成得聚类中心矩阵。Q∈R^K×K作为构造的融合权重矩阵，其元素Q_k,t反映第k个视角与第t个视角之间的关联程度，表示第t个视角上的聚类划分对第k个视角上的聚类任务的影响程度。模糊系数f_t是一个大于1小于2.5的实数，因视角不同而异。λ_k指第k个视角下的平衡系数，γ则是正则化参数。目标函数中的第二项是通过非负矩阵分解处理每个视角的样本数据，它考虑了每个视角的独立性和互补性。目标函数中的第三项是参考信息熵，当不确定性的数据被划分时，一般认为当熵达到最大且没有先验信息时，划分是最优的。公式中(1)熵越大的时候，整体目标函数的值则越小，体现了各视角内部隐藏的一致性。

很明显，以上公式的目标函数是非凸的，解出它的全局最优是不实际的。因此，利用交替迭代法则去探索非凸函数的局部最优解是一个不错的选择。通过梯度下降法和拉格朗日法的步骤来解决优化问题，求解出各变量的更新迭代公式。

①固定W，H，V，Q通过U最优化J。U的更新准则为:

②固定W,H，U，Q通过V最优化J。V的更新准则为:

③固定V，H，U，Q通过W最优化J。W的更新规则为:

④固定W，V，U，Q通过H最优化J。H的更新规则为:

⑤固定W，V，U，H通过Q最优化J。Q的更新规则为:

最终将各视角的隶属度划分取几何平均的方式集成所有观点，获得数据样本的统一归属信息

根据全局隶属度划分矩阵

是对所有样本进行软聚类的模糊隶属度的呈现方式，

Claims

1.一种基于非负矩阵分解和划分自适应融合的多视角聚类方法，其特征在于，所述方法包括以下步骤：

S1：对多视图样本数据集进行预处理，提取出各视角原始非负特征数据样本集X_k，并设置聚类簇团个数C，模糊系数f_t，平衡系数λ_k，视角个数K,正则化系数γ；

S2：初始化基矩阵W_k和系数表示矩阵H_k，根据条件约束设置模糊伪划分U_t和权重融合矩阵Q，并确定对应的聚类中心矩阵V_t；

S3：利用梯度下降法和交替迭代法则，通过固定其余变量，对某一变量进行更新；

S4：对所提方法的目标函数的阈值进行限定，当目标函数的值变化小于阈值，上述交替迭代停止；

S6：根据统一隶属度划分矩阵

对样本的归属进行确定，得到样本的类标签信息，聚类结束。

2.根据权利要求1所述的基于非负矩阵分解和划分自适应融合的多视角聚类方法，其特征在于：所述S1中，对多视图样本数据集进行预处理，提取出原始非负特征数据样本集X＝{X₁；X₂；...；X_K}，K个视图之间相互条件独立，每个视图提取的原始信息为

对于不同的视图，通过聚类得到的簇数为C，d_k是第k个视角数据样本维数；模糊系数f_t表示第t个视角的数据的程度，是一个大于1而小于2.5的参量，平衡系数λ_k∈{1e^-4,1e^-3,1e^-2,1e^-1,1,1e¹,1e²,1e³,1e⁴}是第k个视角在整个多视角聚类任务的平衡因子，正则化系数γ∈{2^-12,2^-11,…,2¹²}。

3.根据权利要求1所述的基于非负矩阵分解和划分自适应融合的多视角聚类方法，其特征在于：所述S2中，随机初始化基矩阵

和系数表示矩阵

使得

基矩阵W是降维后的低秩空间的表现形式；系数矩阵H是原始数据X经降维后的低维表达方式；再根据以下约束设置隶属度矩阵U_t∈R^C×N，它的元素μ_ij,t表示第t个视角第j个样本x_j,t分属于第i个聚类中心v_i,t的程度；然后确定该隶属度伪划分对应的聚类中心矩阵V_t∈R^C×C，它是由所有聚类簇团中心组成的矩阵形式，x_j,t表示N个样本中第j个样本，v_i,t表示C个簇中第i个聚类中心，C_i代表第i个簇样本集合，N_i代表第i个簇中样本个数；Q∈R^K×K作为构造的融合权重矩阵，其元素Q_k,t反映第k个视角与第t个视角之间的关联程度，表示第t个视角上的聚类划分对第k个视角上的聚类任务的影响程度；各变量初始化约束如下公式所示：