CN116050119A

CN116050119A - 一种基于二元表示的正负图分割多视图聚类方法

Info

Publication number: CN116050119A
Application number: CN202310017753.2A
Authority: CN
Inventors: 杨戈平; 陈翔
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-02

Abstract

本发明公开了一种基于二元表示的正负图分割多视图聚类方法，该方法包括：获取待聚类的多视图数据；通过核函数对待聚类的多视图数据进行生成处理，得到多视图数据的非线性表示；基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数；对目标函数进行迭代更新处理，直至所述目标函数满足预设条件，输出聚类结果，所述聚类结果为目标函数中的指示矩阵。通过使用本发明，能够解决现存二元表示多视图聚类方法不能划分非线性二元表示和多视图图切割聚类方法中图包含的信息不充分的问题。本发明作为一种基于二元表示的正负图分割多视图聚类方法，可广泛应用于数据挖掘技术领域。

Description

一种基于二元表示的正负图分割多视图聚类方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于二元表示的正负图分割多视图聚类方法。

背景技术

随着互联网的发展，产生了越来越多的数据，数据来源也越来越广泛，因此，如何从广泛的数据中挖掘出有用的信息是当今数据挖掘的重要课题。聚类分析方法作为数据挖掘领域重要分析工具和预处理工具，广泛应用各种挖掘任务中，是数据挖掘的重要研究方向，在过去几十年间，出现了大量的单视图数据聚类分析方法，能够处理各种单视图数据聚类任务，然而，现今出现了许多多视图数据，多视图数据是指数据拥有多个特征，不同特征之间一般是信息互补，因此，如何通过聚类分析方法挖掘多视图数据里面的有用信息，仍旧是一个重大问题；现有的也有通过二元表示学习方法进行解决，二元表示学习方法，作为一个数据编码的方法，能够快速将数据投影到一个二元表示空间中，在获取数据的简便二元表示为进一步计算提供一个良好的基础的同时，很好地保留数据间相互关系，被广泛应用于各种数据挖掘任务中，特别是大规模数据挖掘任务中，现有提出了用各个数据的非线性表示投影到一个共同的二元表示中，然后对这个二元表示运行二元k均值算法，获得最终的聚类结果。虽然这个方法通过快速获得二元表示，高效地解决了大规模多视图聚类问题，但k均值算法是一种线性划分算法，二元k均值也是如此，而很多数据的二元表示并不是线性可分的，因此在划分非线性可分的二元表示时聚类质量较差，不能很好完成聚类任务，也有提出了用各个视图数据的锚点图来构建一个合成图，然后直接对合成图进行划分，获取聚类结果，然而所构成的合成图中数据间的相似度只有正值和0，不包含负值信息，不能很好表达数据间的信息，导致聚类结果不够优秀。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于二元表示的正负图分割多视图聚类方法，能够解决现存二元表示多视图聚类方法不能划分非线性二元表示和多视图图切割聚类方法中图包含的信息不充分的问题。

本发明所采用的第一技术方案是：一种基于二元表示的正负图分割多视图聚类方法，包括以下步骤：

获取待聚类的多视图数据；

通过核函数对待聚类的多视图数据进行生成处理，得到多视图数据的非线性表示；

基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数，所述目标函数包括二元表示学习，投影矩阵正则化和正负图分割；

对目标函数进行迭代更新处理，直至所述目标函数满足预设条件，输出聚类结果，所述聚类结果为目标函数中的指示矩阵。

进一步，所述通过核函数对待聚类的多视图数据进行生成处理，得到多视图数据的非线性表示这一步骤，其具体包括：

通过k均值算法获取待聚类的多视图数据的锚点数据；

根据锚点数据与待聚类的多视图数据，构建距离矩阵；

用高斯核方法对距离矩阵进行处理，得多视图数据的非线性表示。

进一步，所述基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数，所述目标函数包括二元表示学习，投影矩阵正则化和正负图分割这一步骤，其具体包括：

引入投影约束项系数，通过投影矩阵对多视图数据的非线性表示进行投影处理，得到二元表示；

基于二元表示构建正负图；

对正负图进行切割为多个子图，并最大化每个子图内部的边的权重和和子图中数据个数的比值，其中，子图中的数据的归属关系通过指示矩阵表示；

引入正负图切割的约束系数，将二元表示学习、投影矩阵正则项和正负图切割子图进行相加处理，构建二元表示的正负图分割多视图聚类的目标函数。

进一步，所述二元表示的表达式具体如下所示：

上式中，n_v表示待聚类的多视图的个数，a_m表示权重系数，U_m表示投影矩阵，Z_m表示第m个视图数据的非线性表示，B表示二元表示，β表示投影约束项系数，‖·‖_F表示矩阵的F范数。

进一步，所述二元表示的正负图分割多视图聚类的目标函数的表达式具体如下所示：

上式中，λ表示重要性系数，Tr(·)表示矩阵的迹，F表示指示矩阵，F^T表示指示矩阵的转置矩阵，A表示二元表示与二元表示转置的乘积。

进一步，还包括对二元表示的正负图分割多视图聚类的目标函数进行初始化，其具体包括：

初始化二元表示、指示矩阵、投影矩阵和权重系数；

将二元表示的任一元素随机初始化为{+1,-1}中的一个；

将指示矩阵每行中的随机一个元素设置为1，其他的元素置为0；

将投影矩阵中的元素初始化为(-1，1)之间的随机数。

进一步，所述投影矩阵的迭代更新公式具体如下所示：

上式中，U_m表示第m个视图数据对应的投影矩阵，B表示二元表示，

表示第m个多视图数据的非线性表示的转置矩阵，(·)^-1表示矩阵的逆矩阵，I表示单位矩阵。

进一步，所述二元表示的迭代更新具体如下所示：

上式中，sgn(·)表示符号函数，当sgn(·)的输入大于0时，输出1，否则为-1，

表示梯度下降系数。

进一步，逐行更新指示矩阵，对指示矩阵的第i行元素更新方式如下，所述指示矩阵的第i行更新具体如下所示：

上式中，F_ij表示假设将指示矩阵F第i行的第j个元素为1，其他为0，F_io表示指示矩阵第i行的所有元素为0，O_i＝{O₁,O₂,…,O_k}代表将指示矩阵F中的k个元素都分别设置为1，其他设置为0得出的将数据移到对应子图增加或减少的目标函数值，然后找出O_i中最大值所对应的索引q，将指示矩阵F的第i行的第q个元素设为1，其他第i行的元素设为0，完成对指示矩阵F第i行的更新，然后用更新之后的数据更新其他指示矩阵F其他行的数据，直到收敛。

进一步，所述权重系数的迭代更新具体如下所示：

上式中，a_m表示第m个视图的权重系数。

本发明方法的有益效果是：本发明通过利用投影的方法，通过核函数对待聚类的多视图数据进行生成处理，学习一个共同的二元表示，并用一个平衡参数来衡量每个视图的权重，自动学习每个视图的权重，学习更加合理的二元表示，并用二元表示构建正负图，用正负图表示数据间的关系，然后对正负图进行切割，获得非线性划分的结果，有效提高了多视图聚类的聚类质量。

附图说明

图1是本发明一种基于二元表示的正负图分割多视图聚类方法的步骤流程图；

图2是本发明本发明与一些现有方法在BBCSport数据集上的对比实验结果示意图；

图3是本发明与一些现有方法在Mfeat数据集上的对比实验结果示意图；

图4是本发明与一些现有方法在Citeseer数据集上的对比实验结果示意图；

图5是本发明与一些现有方法在MNIST-10K数据集上的对比实验结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种基于二元表示的正负图分割多视图聚类方法，该方法包括以下步骤：

S1、获取待聚类的多视图数据

其中X_m代表第m个视图的数据，d_m代表第m个视图数据的特征数，N代表数据的数量；

S2、通过核函数生成每个视图数据X_m的非线性表示Z_m∈R^p×N，其中Z_m代表第m个视图的非线性表示，p代表非线性表示的特征数，所有视图拥有一样的p，N代表数据的数目；

具体地，从每个视图中用k均值算法获取p个数据作为锚点

其中P_m代表第m个视图的锚点；对于每个视图，计算锚点P_m到X_m的距离矩阵D_m∈R^p×N，其中距离矩阵D_m第i行第j列元素代表第m个视图中锚点矩阵P_m的第i列和数据X_m第j列的距离；第m个视图的高斯核函数表示为

其中σ代表带宽参数，取值为距离矩阵D_m的均值；第m个视图的非线性表示为Z_m＝Φ(X_m)-mean(Φ(X_m))，其中mean(Φ(X_m))代表Φ(X_m)的均值。

S3、构建二元表示的正负图分割多视图聚类的目标函数；

具体地，设定投影约束项系数β，通过投影矩阵U_m∈R^p×L将每个视图的非线性Z_m表示投影到L维度空间，学习共同的二元表示B∈R^L×N，并且并采用自适应的方法，利用学习误差自动学习每个视图对应的权重a_m，此外，每个投影矩阵都一个约束项，作为投影误差的正则约束项，其中U_m代表第m个视图的投影矩阵，

n_v代表视图的个数；用共同的二元表示B构建一个正负图A∈R^N×N，其中A＝B^TB，B^T代表二元表示B的转置，所述二元表示的学习表达式为：

上式中，n_v表示待聚类的多视图的个数，a_m表示权重系数，U_m表示投影矩阵，Z_m表示第m个多视图数据的非线性表示，B表示二元表示，β表示投影约束项系数，‖·‖_F表示矩阵的F范数；

将正负图A切割为k个子图，最大化每个子图内部的边的权重和和子图中数据个数的比值，数据的归属关系通过指示矩阵F∈R^N×k来表示，其中边的权重为正负矩阵A中对应的数值，指示矩阵F的每行只有1个元素为1，其他为0，代表该数据属于为1那一维所对应的子图，k代表最终聚类的目标簇数，所述将正负图A切割为k个子图，最大化每个子图内部的边的权重和和子图个数的比值的表达式为：

maxTr(F^TAF)

上式中，Tr(·)表示矩阵的迹，k表示聚类目标簇的个数；

获取二元表示的正负图分割多视图聚类的目标函数：设置重要性参数λ，将λ作为正负图切割的约束系数，a_m为每个视图非线性表示的投影于共同二元表示误差的权重系数，对二元表示误差项，投影矩阵正则项和正负图切割项相加，获得基于二元表示的正负图分割多视图聚类的目标函数，所述二元表示的正负图分割多视图聚类的目标函数的表达式具体如下所示：

上式中，λ表示重要性系数，Tr(·)表示矩阵的迹，F表示指示矩阵，F^T表示指示矩阵的转置矩阵，A表示二元表示与二元表示转置的乘积，

β和λ是重要性系数，用来平衡各个式子间的关系。

S4、初始化二元表示B∈R^L×N、指示矩阵F、投影矩阵U_m和权重系数a_m；

具体地，将二元表示B的任一元素随机初始化为{+1,-1}中的一个，将指示矩阵F每行中的随机一个元素设置为1，其他的元素置为0，将投影矩阵U_m中的元素初始化为(-1，1)之间的随机数，将a_m初始化为

其中n_v表示视图的个数；

S5、不断依次更新投影矩阵U_m、二元表示B、指示矩阵F和权重系数a_m，直到满足更新停止条件；

具体地，不断依次更新投影矩阵U_m、二元表示B、指示矩阵F和权重系数a_m，直到满足更新停止条件的步骤为，设定更新停止条件为更新次数达到一个数值；利用投影矩阵U_m、二元表示B、指示矩阵F和权重系数a_m的更新方法分别依次迭代更新，并在每次更新之后判断是否满足更新停止条件；

投影矩阵U_m的更新方式如下：

上式中，(·)^-1表示矩阵的逆矩阵，I表示单位矩阵；

二元表示B的更新方式如下：

的方向移动步伐的系数，sgn(·)代表符号函数，当输入值小于等于0时，输入-1，当输入值大于0时，输出1；

指示矩阵F的更新的相关目标函数为max Tr(F^TAF)，方法是逐行更新指示矩阵，对指示矩阵的第i行元素更新方式如下，所述指示矩阵的第i行更新具体如下所示：

上式中，F_ij表示假设将指示矩阵F第i行的第j个元素为1，其他为0，F_io表示指示矩阵第i行的所有元素为0，O_i＝{O₁,O₂,…,O_k}代表将指示矩阵F中的k个元素都分别设置为1，其他设置为0得出的将数据移到对应子图增加或减少的目标函数值，然后找出O_i中最大值所对应的索引q，将指示矩阵F的第i行的第q个元素设为1，其他第i行的元素设为0，完成对指示矩阵F第i行的更新，然后用更新之后的数据更新其他指示矩阵F其他行的数据，直到收敛；

权重系数a_m的更新方式如下：

上式中，a_m表示第m个视图的权重系数；

判断更新次数是否满足更新停止条件。

上式中，

表示梯度下降系数，代表二元表示B往梯度

下降最快S6、将指示矩阵F作为最终的聚类结果。

本发明的仿真实验内容为：

本发明的仿真实验中计算机配置为Intel(R)Core(i9-10900)3.70GHZ中央处理器、内存16G、WINDOWS 10操作系统，计算机仿真软件采用MATLAB R2022a软件，本发明在常见的多视图数据集BBCSport、Mfeat、MNIST-10K和Citeseer上进行仿真；

本发明的方法与四种多视图聚类算法进行比较，其中包括：BMVC(Binary Multi-view clustering)、AIMC(Adaptively-weighted Integral Space for FastMultiviewClustering)、SMVSC(Scalable Multi-view Subspace Clustering with UnifiedAnchors)和DPMKKM(Discrete Multiple Kernel k-means)，实验中，上述4种方法和本发明方法的各个超参数都是从0.00001以步长为0.1变化到1，取最好的结果展示在图2至图5中，特别地，为减少误差，实验的结果都是重复10次取平均值，图2至图5中所用的精确度、归一化互信息和纯度都是聚类的常用的聚类评价标准，每个数值的取值范围都在0到100之间，数值越高代表聚类质量越好，如图2至图5所示，本申请方法仅仅在图4中有2个指标获得第二名，其他情况都是获得最高指标，这表明了本申请的有效性。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于二元表示的正负图分割多视图聚类方法，其特征在于，包括以下步骤：

获取待聚类的多视图数据；

2.根据权利要求1所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述通过核函数对待聚类的多视图数据进行生成处理，得到多视图数据的非线性表示这一步骤，其具体包括：

通过k均值算法获取待聚类的多视图数据的锚点数据；

根据锚点数据与待聚类的多视图数据，构建距离矩阵；

3.根据权利要求2所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数，所述目标函数包括二元表示学习，投影矩阵正则化和正负图分割这一步骤，其具体包括：

基于二元表示构建正负图；

4.根据权利要求3所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述二元表示的表达式具体如下所示：

5.根据权利要求4所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述二元表示的正负图分割多视图聚类的目标函数的表达式具体如下所示：

6.根据权利要求5所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，还包括对二元表示的正负图分割多视图聚类的目标函数进行初始化，其具体包括：

初始化二元表示、指示矩阵、投影矩阵和权重系数；

将二元表示的任一元素随机初始化为{+1，-1}中的一个；

将投影矩阵中的元素初始化为(-1，1)之间的随机数。

7.根据权利要求6所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述投影矩阵的迭代更新公式具体如下所示：

8.根据权利要求7所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述二元表示的迭代更新具体如下所示：

表示梯度下降系数。

9.根据权利要求8所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，逐行更新指示矩阵，对指示矩阵的第i行元素更新方式如下，所述指示矩阵的第i行更新具体如下所示：

上式中，F_ij表示假设将指示矩阵F第i行的第j个元素为1，其他为0，F_io表示指示矩阵第i行的所有元素为0，O_i＝{O₁，O₂，...，O_k}代表将指示矩阵F中的k个元素都分别设置为1，其他设置为0得出的将数据移到对应子图增加或减少的目标函数值，然后找出O_i中最大值所对应的索引q，将指示矩阵F的第i行的第q个元素设为1，其他第i行的元素设为0，完成对指示矩阵F第i行的更新，然后用更新之后的数据更新其他指示矩阵F其他行的数据，直到收敛。

10.根据权利要求9所述一种基于二元表示的正负图分割多视图聚类方法，其特征在于，所述权重系数的迭代更新具体如下所示：

上式中，a_m表示第m个视图的权重系数。