CN107292341B

CN107292341B - 基于成对协同正则化和nmf的自适应多视图聚类方法

Info

Publication number: CN107292341B
Application number: CN201710466702.2A
Authority: CN
Inventors: 王秀美; 张天真; 高新波; 王鑫鑫; 李洁; 邓成; 田春娜
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2019-12-10
Anticipated expiration: 2037-06-20
Also published as: CN107292341A

Abstract

本发明提出了一种基于成对协同正则化和NMF的自适应多视图聚类方法，用于解决现有多视图聚类方法中存在的精度低和归一化交互信息低的技术问题，实现步骤为：获取原始图像集的归一化非负多视图数据；计算多视图数据的拉普拉斯矩阵；构建成对协同正则化和NMF的自适应多视图聚类的目标函数；分别获取基矩阵、系数矩阵和权重参数的迭代更新表达式；获取更新后的基矩阵、系数矩阵和权重参数；对更新后的系数矩阵进行K‑均值聚类，得到聚类结果。本发明利用成对协同正则化方法保持视图间的相似性，并利用自适应方法自动学习视图内的相似性约束项的权重参数，有效提高了多视图聚类的性能，可应用于客户信息分析、金融分析和医学等领域。

Description

基于成对协同正则化和NMF的自适应多视图聚类方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种自适应多视图聚类方法，具体涉及一种基于成对协同正则化和NMF的自适应多视图聚类方法，可应用于客户信息分析、金融分析和医学等领域。

背景技术

随着互联网、信息采集和信息检索等技术的高速发展，数据量急剧增多，信息社会已进入大数据时代。因此，如何从海量的数据中提取能够为我们所用的信息成为现代科学的当务之急。由此，数据挖掘应运而生，成为一种数据信息处理技术。聚类是数据挖掘领域中进行数据处理的重要分析工具和方法，同时也是机器学习领域中重要的研究方向。如今，单视图的数据聚类已取得较好的效果，然而，现阶段实际应用中的数据一般通过多特征或多视图进行描述，并且每个特征往往包含互补和交互信息。因此，如何利用多特征或多视图所包含的信息提高聚类性能，成为现阶段聚类的关键问题。针对多视图数据，如何设计快速有效的聚类算法，成为大数据时代亟待解决的问题。

聚类是将物理或抽象对象的集合分成由类似的对象组成的多个簇的过程。聚类算法以相似性为基础，由聚类所生成的簇是一组数据对象的集合，同一簇中的对象彼此相似，不同簇间的对象相异。聚类算法是为单视图数据设计的方法，经典的单视图聚类算法可分为基于划分、基于层次、基于密度、基于网格和基于统计学等聚类算法。多视图聚类的关键是如何融合多视图数据。多视图聚类一种朴素的做法是将不同视图的数据拼接成一个新的向量，然后基于拼接的向量，采用经典的单视图学习算法进行聚类。但这种方法只是原则上连接了不同视图的数据，而忽略了不同视图中的共享信息和特定的统计性质。另一种广泛使用的多视图聚类方法是对不同视图的数据进行融合，然后再进行聚类，得到聚类结果。这种方法可以充分挖掘不同视图的数据中包含的兼容和互补信息，因此可以得到较好的聚类结果。

NMF(Nonnegative Matrix Factorization，非负矩阵分解)将数据矩阵分解成两个低秩因子矩阵，实现了数据的低秩表示，并且分解后得到的基矩阵和系数矩阵具有较好的可解释性、明确的物理意义、占用存储空间少等优点，因此，NMF成为数据聚类的基本工具，广泛应用于单视图数据聚类和多视图数据聚类中。

例如Deng Cai，Xiaofei He和Jiawei Han等人，在2011年的IEEE TransactionsPattern Analysis and Machine Intelligence期刊的第8期，发表了名为“GraphRegularized Nonnegative Matrix Factorization for Data Representation”的文章，提出了基于图正则化NMF的数据表示方法，将图正则化合并到NMF的算法框架中，利用NMF对数据进行分解，得到对应的基矩阵和系数矩阵，并对分解得到的系数矩阵进行图正则化约束，保持数据的局部几何结构信息，取得了较好的聚类效果。该方法是为单视图数据设计的，将该方法应用到多视图聚类时，对每个视图的数据进行NMF，并对每个视图得到的系数矩阵分别进行图正则化，保持每个视图的相似性，但这种推广只考虑了视图内的相似性，忽略了视图间的相似性，并且为图正则化约束项设置了相同的权重参数，因此，使得多视图聚类的精度低和归一化交互信息低，影响了聚类性能。

又如Jialu Liu，Chi Wang，Jing Gao和Jiawei Han等人，在2013年的SIAMInternational Conference on Data Mining会议中，发表了名为“Multi-ViewClustering via Joint Nonnegative Matrix Factorization”的文章，提出了一种基于联合NMF的多视图聚类算法。该方法利用NMF对多视图数据进行分解，通过衡量每个视图的系数矩阵和所有视图共享的一致系数矩阵的差异性进行相似性保持。最后，在得到的一致系数矩阵上进行标准的K-均值聚类，得到数据的聚类结果。但该方法忽略了特征空间中的局部几何结构信息。另外，在进行相似性约束时，只考虑了每个视图系数矩阵和一致系数矩阵之间的差异性，忽略了视图间的差异性，使得多视图聚类的精度低和归一化交互信息低，影响了数据聚类的性能。

发明内容

本发明的目的在于针对上述已有技术存在的不足，提出了一种基于成对协同正则化和NMF的自适应多视图聚类方法，用于解决现有多视图聚类方法中存在的精度低和归一化交互信息低的技术问题。

本发明的技术思路是：对多视图数据进行NMF，得到基矩阵和系数矩阵；分别利用成对协同正则化和图正则化方法，构造多视图数据视图间和视图内的相似性约束项，并采用自适应的方法自动学习视图内的相似性约束项的权重参数，最后对更新得到的系数矩阵进行K-均值聚类，得到聚类结果。实现步骤如下：

(1)获取原始图像集的非负多视图数据从原始图像集中提取每幅图像的多种图像特征，得到原始图像集的非负多视图数据其中m表示第m个视图，且m＝1,2,…,n_v，n_v表示视图的数目；

(2)对非负多视图数据进行归一化：对非负多视图数据中的各视图数据分别进行归一化，得到归一化后的多视图数据

(3)计算多视图数据的拉普拉斯矩阵

(4)构建成对协同正则化和NMF的自适应多视图聚类的目标函数，实现步骤为：

(4a)对多视图数据进行NMF，得到基矩阵和系数矩阵

(4b)利用多视图数据基矩阵和系数矩阵构造NMF的重构误差项；

(4c)利用成对协同正则化方法，通过系数矩阵构造视图间的相似性约束项；

(4d)通过系数矩阵和拉普拉斯矩阵构造视图内的相似性约束项；

(4e)设置调节参数γ，采用自适应的方法，利用参数γ自动学习视图内的相似性约束项的自适应权重参数

(4f)获取成对协同正则化和NMF的自适应多视图聚类的目标函数：设置权衡参数λ，并将权衡参数λ作为视图间的相似性约束项的权重，将自适应权重参数作为视图内的相似性约束项的权重，对NMF的重构误差项、视图间的相似性约束项和视图内的相似性约束项进行权重相加，得到成对协同正则化和NMF的自适应多视图聚类的目标函数；

(5)初始化基矩阵系数矩阵和权重参数将基矩阵系数矩阵和权重参数中所有元素的值初始化为(0，1)之间的随机数；

(6)分别获取基矩阵系数矩阵和权重参数的迭代更新表达式：对基矩阵系数矩阵和权重参数进行交替迭代，得到基矩阵的迭代更新表达式、系数矩阵的迭代更新表达式和权重参数的迭代更新表达式；

(7)获取更新后的基矩阵系数矩阵和权重参数实现步骤为：

(7a)设定目标函数差值的阈值和最大迭代次数；

(7b)利用基矩阵系数矩阵和权重参数的迭代更新表达式，分别对对应的基矩阵系数矩阵和权重参数进行迭代更新，并在每次迭代完成时，计算目标函数的值，迭代直到两次迭代的目标函数的差值小于设定的阈值或者迭代次数达到最大迭代次数；

(7c)获得更新后的基矩阵系数矩阵和权重参数

(8)对更新后的系数矩阵进行K-均值聚类，得到聚类结果，其中K为聚类的类数，实现步骤为：

(8a)对更新后的系数矩阵取平均值，得到一致系数矩阵V^*；

(8b)对一致系数矩阵V^*进行K-均值聚类，得到聚类结果。

本发明与现有技术相比，具有以下优点：

本发明利用成对协同正则化方法，构造多视图数据视图间的相似性约束项，将每两个视图的系数矩阵之间的差异进行视图间的相似性保持，并采用自适应的方法，利用一个参数衡量每个视图的数据对多视图数据分布的贡献程度，自动学习视图内的相似性约束项的权重参数，有效提高了多视图聚类的精度和归一化交互信息，提升了多视图聚类的聚类性能。

附图说明

图1为本发明的实现流程图；

图2为本发明与现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法，在3sources数据库下的聚类性能实验结果曲线对比图，其中，图2(a)为取不同近邻数目时的聚类精度曲线图，图2(b)为取不同近邻数目时的聚类归一化交互信息的曲线图；

图3为本发明与现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法，在UCI 3views数据库下的聚类性能实验结果曲线对比图，其中，图3(a)为取不同近邻数目时的聚类精度曲线图，图3(b)为取不同近邻数目时的聚类归一化交互信息的曲线图；

图4为本发明与现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法，在UCI 2views数据库下的聚类性能实验结果曲线对比图，其中，图4(a)为取不同近邻数目时的聚类精度曲线图，图4(b)为取不同近邻数目时的聚类归一化交互信息的曲线图；

图5为本发明与现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法，在Wiki数据库下的聚类性能实验结果曲线对比图，其中，图5(a)为取不同近邻数目时的聚类精度曲线图，图5(b)为取不同近邻数目时的聚类归一化交互信息的曲线图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，基于成对协同正则化和NMF的自适应多视图聚类方法，包括如下步骤：

步骤1)获取原始图像集的非负多视图数据从原始图像集中提取每幅图像的多种图像特征，得到原始图像集的非负多视图数据其中m表示第m个视图，且m＝1,2,…,n_v，n_v表示视图的数目；

步骤2)对非负多视图数据进行归一化：对非负多视图数据中的各视图数据分别进行归一化，得到归一化后的多视图数据

步骤3)计算多视图数据的拉普拉斯矩阵实现步骤为：

(3a)将多视图数据的每行作为一个样本数据点，分别计算多视图数据中各视图数据的每两个样本数据点间的欧氏距离；

(3b)对多视图数据中各视图数据的每个样本数据点，取出其前k个最小的欧氏距离值对应的数据点作为该样本数据点的k近邻点，得到多视图数据的k近邻图，其中k为近邻点的数目，k的取值范围为[10,50]，取此范围的值时，聚类性能相对稳定；

(3c)根据k近邻图构建多视图数据的关联矩阵若第p个数据点是第q个数据点的k近邻点，则令关联矩阵中对应的矩阵元素为1，否则令其对应矩阵元素为0，其中p和q分别表示第p和q个数据点，且p＝1,2,…,N，q＝1,2,…,N，N表示原始图像的数目；

(3d)对关联矩阵的行求和，得到多视图数据的度矩阵并通过关联矩阵和度矩阵计算多视图数据的拉普拉斯矩阵其计算表达式为：

步骤4)构建成对协同正则化和NMF的自适应多视图聚类的目标函数，实现步骤为：

(4a)对多视图数据进行NMF，得到基矩阵和系数矩阵

(4b)对多视图数据进行NMF后，希望多视图数据尽可能接近分解之后的基矩阵和系数矩阵的乘积，采用F范数作为重构误差项的度量，构造NMF的重构误差项，其表达式为：其中||·||_F代表矩阵的F范数，表示F范数的平方；

(4c)利用成对协同正则化方法，对多视图数据每两个视图的系数矩阵进行相似性约束，也就是将每个视图的系数矩阵与余下视图的系数矩阵进行相似性约束，使得不同视图的系数矩阵尽可能相似，得到视图间的相似性约束项，其表达式为：

(4d)通过系数矩阵和拉普拉斯矩阵构造视图内的相似性约束项，其表达式为：用于保持多视图数据的局部几何结构信息，使得原始特征空间中相似的数据点的表示系数仍具有相似性，其中tr(·)代表矩阵的迹；

(4e)设置调节参数γ，采用自适应的方法，通过一个参数γ衡量每个视图的数据对多视图数据分布的贡献程度，自动学习视图内的相似性约束项的自适应权重参数使得不同视图具有不同的权重参数；

(4f)获取成对协同正则化和NMF的自适应多视图聚类的目标函数，实现步骤为：

(4f1)设置权衡参数λ；

(4f2)将权衡参数λ作为视图间的相似性约束项的权重，得到加权的视图间的相似性约束项，其表达式为：

(4f2)将采用自适应方法自动学习的自适应权重参数作为视图内的相似性约束项的权重，得到加权的视图内的相似性约束项，其表达式为：

参数γ用于自动学习视图内的相似性约束项的权重参数

(4f3)对NMF的重构误差项、视图间的相似性约束项和视图内的相似性约束项进行权重相加，得到成对协同正则化和NMF的自适应多视图聚类的目标函数，其表达式为：

步骤5)初始化基矩阵系数矩阵和权重参数将基矩阵系数矩阵和权重参数中所有元素的值初始化为(0，1)之间的随机数，初始化是为了保证能够进行基矩阵系数矩阵和权重参数的交替迭代；

步骤6)分别获取基矩阵系数矩阵和权重参数的迭代更新表达式：对基矩阵系数矩阵和权重参数进行交替迭代，得到基矩阵的迭代更新表达式、系数矩阵的迭代更新表达式和权重参数的迭代更新表达式；

步骤7)获取更新后的基矩阵系数矩阵和权重参数实现步骤为：

(7a)设定目标函数差值的阈值和最大迭代次数；

(7b)利用基矩阵系数矩阵和权重参数的迭代更新表达式，分别对对应的基矩阵系数矩阵和权重参数进行迭代更新，并在每次迭代完成时，计算目标函数的值，迭代直到两次迭代的目标函数的差值小于设定的阈值或者迭代次数达到最大迭代次数，实现步骤为：

(7b1)利用迭代更新基矩阵U^(m)中的元素其中i＝1,2,…,M，t＝1,2,…,r，其中M表示原始图像的像素个数，r表示NMF的低秩表示维度；

(7b2)利用迭代更新系数矩阵V^(m)中的元素其中j＝1,2,…,N，D^(m)为一个对角矩阵，其对角元素为：

(7b3)利用更新权重参数α_m；

(7c)获得更新后的基矩阵系数矩阵和权重参数

步骤8)对更新后的系数矩阵进行K-均值聚类，K为聚类的类数，实现步骤为：

(8a)对更新后的系数矩阵取平均值，得到一致系数矩阵V^*；

(8b)对一致系数矩阵V^*进行K-均值聚类，得到聚类结果，实现步骤为：

(8b1)将一致系数矩阵V^*的每行作为一个样本数据点；

(8b2)随机选取一致系数矩阵V^*中的K个数据点作为K个类的初始聚类中心；

(8b3)计算每个数据点到K个聚类中心的距离，按照最小距离原则将每个数据点分配到最邻近的聚类中心所属的类别；

(8b4)更新聚类中心；

(8b5)重复执行步骤(8b3)和(8b4)，直到聚类中心不再发生变化时停止，得到一致系数矩阵V^*的聚类结果。

以下结合仿真实验，对本发明的技术效果作进一步说明。

1.仿真条件和内容：

仿真条件：

本发明的仿真实验中计算机配置环境为Intel(R)Core(i7-3770)3.40GHZ中央处理器、内存16G、WINDOWS 7操作系统，计算机仿真软件采用MATLAB R2015b软件。

本发明在常用的多视图数据集3sources、UCI 2views、UCI 3views和Wiki数据集上进行仿真。

实验中的参数设置为3sources数据集：λ＝1.4，γ＝2；UCI 2views数据集：λ＝0.5，γ＝2；UCI 3views数据集：λ＝0.6，γ＝9；Wiki数据集：λ＝0.1，γ＝2。

仿真内容：

本发明的方法与两种现有的多视图聚类方法进行了对比，作为对比的方法有基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法。

仿真实验中，分别画出聚类精度和归一化交互信息曲线来评估多视图聚类的性能。聚类精度为聚类后得到的类标和样本本身类标相同的个数和总样本数的比值。归一化交互信息是对交互信息进行归一化，而交互信息是对随机选取的两个样本同时属于两个类的概率和每个样本只属于某一类的概率的比值取对数，再与同时属于两个类的概率相乘得到的结果。本发明重复10次实验，取聚类精度和归一化交互信息的平均值作为聚类结果。

在仿真图中的三条曲线中，用正方形标注的曲线代表本发明的方法，用三角形标注的曲线代表基于联合NMF的多视图聚类方法，用五角形标注的曲线代表基于图正则化NMF的多视图聚类方法，每条曲线上有9个标注点，标注点的横坐标表示近邻图的近邻数，从左到右的取值分别为10、15、20、25、30、35、40、45、50，标注点的纵坐标表示对应的聚类性能指标值。

仿真1：本发明的仿真实验1是在3sources数据集实现的，分别采用本发明和现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法进行实验，实验结果如图2所示。图2(a)为取不同近邻数目时的聚类精度曲线图，图2(a)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类精度。图2(b)为取不同近邻数目时的聚类归一化交互信息的曲线图，图2(b)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类归一化交互信息。

仿真2：本发明的仿真实验2是在UCI 3views数据集实现的，分别采用本发明和现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法进行实验，实验结果如图3所示。图3(a)为取不同近邻数目时的聚类精度曲线图，图3(a)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类精度。图3(b)为取不同近邻数目时的聚类归一化交互信息的曲线图，图3(b)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类归一化交互信息。

仿真3：本发明的仿真实验3是在UCI 2views数据集实现的，分别采用本发明和现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法进行实验，实验结果如图4所示。图4(a)为取不同近邻数目时的聚类精度曲线图，图4(a)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类精度。图4(b)为取不同近邻数目时的聚类归一化交互信息的曲线图，图4(b)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类归一化交互信息。

仿真4：本发明的仿真实验4是在Wiki数据集实现的，分别采用本发明和现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法进行实验，实验结果如图5所示。图5(a)为取不同近邻数目时的聚类精度曲线图，图5(a)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类精度。图5(b)为取不同近邻数目时的聚类归一化交互信息的曲线图，图5(b)中的横坐标轴表示近邻图的近邻数，纵坐标轴表示聚类归一化交互信息。

2.仿真结果分析：

由图2-5的仿真结果可见，采用本发明对多视图数据进行聚类时，聚类精度和归一化交互信息的值明显高于现有的基于联合NMF的多视图聚类方法和基于图正则化NMF的多视图聚类方法，因此，与现有的多视图聚类技术相比，本发明利用成对协同正则化方法，构造多视图数据视图间的相似性约束项，并采用自适应方法，利用一个参数衡量每个视图的数据对多视图数据分布的贡献程度，自动学习视图内的相似性约束项的权重参数，有效提高了多视图聚类的精度和归一化交互信息，提升了多视图聚类的聚类性能。

Claims

1.一种基于成对协同正则化和NMF的自适应多视图聚类方法，包括如下步骤：

(3)计算多视图数据的拉普拉斯矩阵

(4a)对多视图数据进行NMF，得到基矩阵和系数矩阵

(4b)利用多视图数据基矩阵和系数矩阵构造NMF的重构误差项；

(5)初始化基矩阵系数矩阵和权重参数将基矩阵系数矩阵和权重参数中所有元素的值初始化为(0,1)之间的随机数；

(7)获取更新后的基矩阵系数矩阵和权重参数实现步骤为：

(7a)设定目标函数差值的阈值和最大迭代次数；

(7c)获得更新后的基矩阵系数矩阵和权重参数

(8a)对更新后的系数矩阵取平均值，得到一致系数矩阵V^*；

(8b)对一致系数矩阵V^*进行K-均值聚类，得到聚类结果。

2.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(3)中所述的计算多视图数据的拉普拉斯矩阵实现步骤为：

(3b)对多视图数据中各视图数据的每个样本数据点，取出其前k个最小的欧氏距离值对应的数据点作为该样本数据点的k近邻点，得到多视图数据的k近邻图，其中k为近邻点的数目；

(3d)对关联矩阵的行求和，得到多视图数据的度矩阵并通过关联矩阵和度矩阵计算多视图数据的拉普拉斯矩阵

3.根据权利要求2所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(3d)中所述的计算多视图数据的拉普拉斯矩阵计算公式为：

4.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(4b)中所述的NMF重构误差项，其表达式为：

其中||·||_F代表矩阵的F范数，表示F范数的平方。

5.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(4c)中所述的视图间的相似性约束项，其表达式为：

6.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(4d)中所述的视图内的相似性约束项，其表达式为：

其中tr(·)代表矩阵的迹。

7.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(4f)中所述的成对协同正则化和NMF的自适应多视图聚类的目标函数，其表达式为：

其中，tr(·)表示矩阵的迹。

8.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(7b)中所述的利用基矩阵系数矩阵和权重参数的迭代更新表达式，分别对对应的基矩阵系数矩阵和权重参数进行迭代更新，实现步骤为：

(7b2)利用迭代更新系数矩阵V^(m)中的元素其中j＝1,2,…,N，N表示原始图像的数目，D^(m)为一个对角矩阵，其对角元素为

(7b3)利用更新权重参数α_m，其中，tr(·)表示矩阵的迹。

9.根据权利要求1所述的基于成对协同正则化和NMF的自适应多视图聚类方法，其特征在于，步骤(8b)中所述的对一致系数矩阵V^*进行K-均值聚类，得到聚类结果，实现步骤为：

(8b1)将一致系数矩阵V^*的每行作为一个样本数据点；

(8b4)更新聚类中心；