CN116628537A

CN116628537A - 多视图聚类方法、装置、存储介质及电子设备

Info

Publication number: CN116628537A
Application number: CN202310580205.0A
Authority: CN
Inventors: 顾苏杭; 方颖佳; 朱培逸; 鲁明丽; 从金亮; 丁卫
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-22

Abstract

本发明公开了一种多视图聚类方法、装置、存储介质及电子设备，所述方法包括：获取目标数据集，所述目标数据集是对所述多视图数据集进行预处理得到的；利用AP聚类算法的二元模型对所述目标数据集学习每个视图，在视图间增加视图外部参数，用于连接不同的视图以及更新视图内部参数，得到多视图聚类结果。这样，一方面，AP聚类算法中涉及到的模型参数较少，降低了聚类的计算量，另一方面，AP聚类算法相比其他算法，聚类结果的平方差小，提高了聚类的准确性。同时，AP聚类算法可以关联不同视图间的信息，提高了聚类的稳定性和聚类性能。

Description

多视图聚类方法、装置、存储介质及电子设备

技术领域

本发明属于计算机视觉和模式识别技术领域，本发明涉及一种多视图聚类方法、装置、存储介质及电子设备。

背景技术

随着社会的发展，对数据处理的要求越来越高，聚类作为数据处理中最常用的基本分析方法之一。

聚类是将全体数据实例组织成一些相似组，而这些相似组被称作簇。现有技术中，多视图聚类通常采用协同训练、多核学习、子空间学习以及多视角图学习等方法，使用公共矩阵/变量或统一矩阵/图的方式来挖掘不同视角的信息及视角间的关联信息。

在上述方案中，一方面会涉及到处理较多的模型参数而不利于获得稳定的模型性能，另一方面不能够自适应的处理具有不同数据分布的样本。

发明内容

本发明的目的在于提供一种多视图聚类方法、装置、存储介质及电子设备，降低了聚类的计算量，提高了聚类的稳定性和聚类性能，提高了聚类的准确性。

实现本发明目的的技术解决方案为：

第一方面，本申请实施例提供一种多视图聚类方法，包括：

获取目标数据集，所述目标数据集是对所述多视图数据集进行预处理得到的；

利用AP聚类算法的二元模型对所述目标数据集学习每个视图，在视图间增加视图外部参数，用于连接不同的视图以及更新视图内部参数，得到多视图聚类结果。

可选地，所述利用AP聚类算法对所述目标数据集进行聚类，得到多视图聚类结果包括：

确定所述目标数据集的参数，所述目标数据集的参数包括所述视图内部参数和所述视图外部参数；

更新所述目标数据集的参数；

若所述目标数据集的参数满足预设条件，则得到多视图聚类结果。

可选地，所述方法还包括：

根据所述多视图聚类结果，确定每个簇的聚类代表点。

可选地，所述方法还包括：

若所述目标数据集的参数不满足预设条件，则更新所述目标数据集的参数。

可选地，所述视图内部参数包括吸引度矩阵；

所述确定所述目标数据集的参数，包括：

确定目标数据集的视图外部参数；

根据所述视图外部参数，确定所述目标数据集的吸引度矩阵。

可选地，所述视图内部参数还包括：归属度矩阵；

所述确定所述目标数据集的参数，包括：

根据所述吸引度矩阵，确定所述目标数据集的归属度矩阵。

可选地，所述目标数据集的参数还包括：聚类次数；

所述预设条件包括：

若所述聚类次数大于第一次数阈值；或

所述聚类代表点保持不变的次数大于或等于第二次数阈值。

第二方面，本申请实施例提供一种多视图聚类装置，包括：

获取模块，用于获取目标数据集，所述目标数据集是对所述多视图数据集进行预处理得到的；

聚类模块，利用AP聚类算法的二元模型对所述目标数据集学习每个视图，在视图间增加视图外部参数，用于连接不同的视图以及更新视图内部参数，得到多视图聚类结果。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时使得所述电子设备实现如上第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令在被处理器执行时用于实现如上第一方面所述的方法。

本发明与现有技术相比，其显著优点为：

在上述技术方案中，在对多视图进行聚类时，先获取目标数据集，从而可以对多视图数据集中的密度小的数据剔除，可以自适应的处理具有不同密度分布的数据，降低数据处理量的同时提高数据处理速度。其次，通过AP聚类算法对目标数据集进行聚类，AP聚类算法中增加了视图外部参数，从而得到多视图聚类结果。这样，一方面，AP聚类算法中涉及到的模型参数较少，降低了聚类的计算量，另一方面，AP聚类算法相比其他算法，聚类结果的平方差小，提高了聚类的准确性。同时，AP聚类算法可以关联不同视图间的信息，提高了聚类的稳定性和聚类性能。

附图说明

图1为本申请实施例提供的一种多视图聚类方法的流程图；

图2为本申请实施例提供的一种目标数据的示意图；

图3为本申请实施例提供的一种视图外部参数的示意图；

图4为本申请实施例提供的一种多视图聚类装置的框图；

图5为本申请实施例提供的一种电子设备的示意图。

具体实施方式

本发明的原理是：先获取目标数据集，然后，通过AP聚类算法对目标数据集进行聚类，AP聚类算法中增加了视图外部参数，从而得到多视图聚类结果。这样，一方面，AP聚类算法中涉及到的模型参数较少，降低了聚类的计算量，提高了聚类的稳定性和聚类性能；另一方面，AP聚类算法相比其他算法，聚类结果的平方差小，提高了聚类的准确性。同时，AP聚类算法可以关联不同视图间的信息，提高了聚类的稳定性和聚类性能。

在本实施例中提供了一种多视图聚类方法，图1是本申请实施例提供的一种多视图聚类方法的流程图，如图1所示，该方法可以包括以下步骤：

S101，获取目标数据集。

其中，目标数据集是对多视图数据集进行预处理得到的。

示例地，多视图数据集可以是预先获取的。多视图数据集可以有M个视图。目标数据集可以是多视图数据集中密度大的数据，即处于密度较大分布的数据，也就是说，目标数据周围的数据较多。

目标数据集的确定方法如下：如图2所示，假设选择箭头指示的数据为起始数据。首先，计算该数据与其他数据的距离；其次，计算平均距离；之后，确定圆的直径为平均距离的二分之一，分别计算每个数据的密度。每个数据的密度等于圆中的数据数除以每个视图的数据总数，圆中的数据数是起始数据与其他数据的距离小于圆半径的数据数。最后，将密度大于目标阈值的数据确定为目标数据，目标数据组成的集合为目标数据集。

由于多视图数据集中的每个数据密度分布不同，处于密度较大分布的数据对多视图聚类性能影响较大，处于密度分布较小处的数据对多视图聚类性能影响较小。并且，在对视角迭代更新的过程中只更新目标数据。基于此，确定多视图数据集的维度，然后对多视图数据集中密度低于目标阈值的数据进行预处理如剔除，从而得到目标数据集，以降低数据处理量。

S102，利用AP聚类算法的二元模型对所述目标数据集学习每个视图，在视图间增加视图外部参数，用于连接不同的视图以及更新视图内部参数，得到多视图聚类结果。

AP聚类算法(Affinitypropagation，近邻传播聚类)是通过在不同点之间不断的传递信息，从而最终选出聚类中心，完成聚类。通过AP聚类算法可以对目标数据集进行聚类，得到多视图聚类结果。这样，一方面，AP聚类算法中涉及到的模型参数较少，降低了聚类的处理量；另一方面，AP聚类算法可以关联不同视图间的信息，从而提高了聚类的稳定性和聚类性能。

在一种可能的实施例中，所述确定所述目标数据集的参数，包括：

确定目标数据集的视图外部参数。

如图3所示为视图外部参数的示意图。由图可知，视图外部参数包括第一连接矩阵集和第二连接矩阵集/>第一连接矩阵/>将从第1个视图传向第M个视图，第二连接矩阵/>将从第M个视图传向第1个视图。示例地，可以通过式1和式2分别确定第一连接矩阵/>和第二连接矩阵/>

其中，值为0或1，在第M个视角内，如果第i个数据选择第j个数据作为其代表点，那么/>否则/>同样地，/>也为0或1。当/>时，第一连接矩阵为-θ，当/>时，第一连接矩阵为0。

这样，通过使用不同视图间的第一连接矩阵和第二连接矩阵，从而可以挖掘不同视图间的关联信息以平滑不同视图的聚类结构。

在一种可能的实施例中，所述视图内部参数包括吸引度矩阵；

所述确定所述目标数据集的参数，包括：

确定目标数据集的视图外部参数；

吸引度矩阵可以用来表示，吸引度矩阵可以用来表示第M个视图内第i个数据适合作为第j个数据的聚类中心的程度。示例地，可以通过式3来确定吸引度矩阵。

如式3所示，是指相似度矩阵，可以通过第M个视角内第i个数据与第j个数据之间的欧氏距离来得出。/>是指第一归属度矩阵，用来表示第M个视图内数据点i选择数据点j作为其聚类中心的适合程度。示例地，可以先确定目标数据集的视图外部参数的第一连接矩阵和第二连接矩阵，然后确定目标数据集视图内部的相似度矩阵和第一归属度矩阵，之后根据相似度矩阵、第二归属度矩阵、第一连接矩阵和第二连接矩阵，确定目标数据集的吸引度矩阵。由式3可知，吸引度矩阵为相似度矩阵、第一归属度矩阵、第一连接矩阵、第二连接矩阵之和。这样，目标数据集的内部数据(吸引度矩阵)中涉及到视图外部参数，从而提高了聚类代表点的准确性。

在一种可能的实施例中，所述视图内部参数还包括：归属度矩阵；

所述确定所述目标数据集的参数，包括：

根据所述吸引度矩阵，确定所述目标数据集的归属度矩阵。

其中，归属度矩阵包括第一归属度矩阵、第二归属度矩阵和第三归属度矩阵。第二归属度矩阵可以用来表示，第二归属度矩阵可以通过式4得到，由式4可知，在得到吸引度矩阵后，可以通过判断第i个数据与第j个数据是否相同，来确定第二归属度矩阵。

第三归属度矩阵可以用来表示，如式5所示，在获取到第二归属度矩阵后，可以根据第二归属度矩阵、相似度矩阵、第一连接矩阵和第二连接矩阵，来确定第三归属度矩阵。

第一归属度矩阵可以用来表示，如式6所示，在获取到第三归属度矩阵后，可以通过式6来确定第一归属度矩阵。

在确定出吸引度矩阵后，可以确定出第二归属度矩阵，然后根据第二归属度矩阵，确定出第三归属度矩阵，之后根据第三归属度矩阵，确定出第一归属度矩阵，这样，由于归属度矩阵中与视图外部信息有关，从而可以根据每个视图独有的聚类结构和不同视角的聚类结构，生成全局一致的聚类结果，提高了聚类结果的准确性。

在一种可能的实施例中，所述利用AP聚类算法对所述目标数据集进行聚类，得到多视图聚类结果包括：

确定所述目标数据集的参数；

更新所述目标数据集的参数；

其中，目标数据集的参数可以包括视图内部参数和视图外部参数。视图内部参数包括吸引度矩阵和归属度矩阵。视图外部参数包括第一连接矩阵和第二连接矩阵。

示例地，在确定出目标数据集的参数后，可以分别通过式7、式8、式9、式10对第一连接矩阵、第二连接矩阵、吸引度矩阵和归属度矩阵进行更新。

其中，当否则/>当否则/>θ为阈值参数，可以在给定范围内选择。

这样，在获取目标数据集的参数后，可以确定目标数据集中的吸引度矩阵、归属度矩阵、第一特征矩阵和第二特征矩阵，然后沿着顺时针方向(从第一个视图到第M个视图)或逆时针方向(从第M个视图到第1个视图)分别对上述数据进行更新，之后进一步判断上述数据是否满足预设条件，如果满足，则确定多视图聚类结束，得到多视图聚类结果。从而增加了聚类的准确性。

在一种可能的实施例中，所述方法还包括：

根据所述聚类结果，确定每个簇的聚类代表点。

其中，聚类代表点可以用E来表示，示例地，可以通过式11确定聚类代表点。

由式11可知，可以先确定每一视图中第K个数据的归属度矩阵、吸引度矩阵、第一特征矩阵以及第二特征矩阵，之后可以确定归属度矩阵、吸引度矩阵、第一特征矩阵以及第二特征矩阵之和，然后可以将和大于0的点确定为聚类代表点。

示例地，也可以通过式12确定每个视图内的代表点k′。由式12可知，可以先确定每一视图内第i个数据相对于第k个数据的归属度矩阵、吸引度矩阵、第一特征矩阵以及第二特征矩阵，之后，确定归属度矩阵、吸引度矩阵、第一特征矩阵以及第二特征矩阵之和，接着，可以将和为最大值的点确定为每个视图内的代表点。

这样，当聚类结束后，将会分为多个簇，由此可以确定多个视图之间的聚类代表点。

在一种可能的实施例中，所述方法还包括：

如果目标数据集的参数不满足预设条件，那么将进一步更新目标数据集的参数，以使得目标数据集的参数满足条件，提高了聚类的准确性。

在一种可能的实施例中，所述目标数据集的参数还包括：聚类次数；

所述预设条件包括：

若所述聚类次数大于第一次数阈值；或

所述聚类代表点的数据保持不变的次数大于或等于第二次数阈值。

示例地，第一次数阈值可以用H来表示，第二次数阈值可以用P来表示。H与P设置过小将会导致得到不稳定的视图内部信息和视图外部信息，导致不一致的多视角聚类结果，降低聚类的准确性。基于此，H与P设置的合理尤为重要。第一次数阈值、第二次数阈值可以依据实际应用场景而定，本申请在此未做限定。

聚类次数可以用h来表示，每更新一次目标数据集的参数，聚类次数增加一次。当h>H时，可以表明聚类结束，从而可以得到多视图聚类结果。若聚类代表点保持不变的次数达到第二次数阈值，则也可以表明聚类结束。这样，根据预设条件可以确定聚类是否结束，提高了聚类的准确性。

基于相同的发明构思，在本实施例中提供了一种多视图聚类装置，图4是本申请实施例提供的一种多视图聚类装置的框图，如图4所述，该装置可以包括：

获取模块500，用于获取目标数据集，所述目标数据集是对所述多视图数据集进行预处理得到的；

聚类模块510，用于利用AP聚类算法的二元模型对所述目标数据集学习每个视图，在视图间增加视图外部参数，用于连接不同的视图以及更新视图内部参数，得到多视图聚类结果。

在一种可能的实施例中，步骤1、针对给定的包含M个视角(即视图)的多视角数据集(即多视图数据集)D＝{D₁,D₂,...,D_M}，初始化阈值参数θ，视角内和视角间信息迭代更新最大次数(即聚类次数)H，全局聚类代表点集E保持不变的阈值次数P，每个视角D_m的吸引信息(即吸引度矩阵)与归属信息(即归属度矩阵)/>视角间平滑监督信息(即视图外部参数)/>与/>其中，1≤m≤M，1≤i,j≤N，N为每个视角包含的样本数，并设置m＝1与h＝1；

步骤2、沿着顺时针方向和逆时针方向分别对信息U^m、R^m、V^m与A^m进行迭代更新，直至所有视角内外部信息更新完毕；

步骤3、为每个视角中的每个样本选择全局代表点k′；

步骤4、生成全局一致的聚类代表点集E；

步骤5、h＝h+1，重复上述步骤2、步骤3、步骤4及步骤5直至h＞H或E保持不变的次数达到P，迭代停止，多视角聚类结束。

如表1所示，是本申请的多视角聚类算法(即AP算法)与多视角算法CoTS分别使用多视角数据集(人造数据集：DS1、DS2、DS3、DS4及DS5分别包含2个、3个、4个、5个及6个多视角)在多视角聚类性能上的比较(聚类性能评价指标：Precision)。

表1

在一种可能的实施例中，所述步骤1中，针对给定的包含M个视角的多视角数据集D＝{D₁,D₂,...,D_M}，视角d_m为视角D_m中的样本维度，阈值参数θ∈{0.1,0.2,...,2.4,2.5}，用以平衡视角间平滑监督信息U^m与V^m对全局一致的聚类结果影响。视角内部信息即为利用AP二元模型学习每个视角时需要更新的信息，即吸引信息/>归属信息/> 与/>其计算过程分别如下：

其中，为第m个视角内第i个重要性样本与第j个重要性样本间的欧氏距离。由于数据集中的每个样本密度分布不同，处于密度较大分布处的样本对多视角聚类性能影响较大，处于密度分布较小处的样本对多视角聚类性能影响较小。因此，在每个视角内部信息迭代更新的过程中只更新重要性样本的信息，即只更新与处于密度较大分布处的样本相关的信息而保持与其他样本相关的信息不变。视角外部信息即为视角间平滑监督信息U^m与V^m，其包含的每个元素定义分别如下：

其中，值为0或1，当使用AP二元模型学习第m个视角时如果第i个样本选择第j个样本作为其代表点，那么/>否则/>

在一种可能的实施例中，所述步骤2中，针对给定的多视角数据集D，在前后两个视角(假设第m个和第m+1个视角)对应的AP二元模型间增加一对虚拟节点即第一连接矩阵U^m与第二连接矩阵V^m+1，第m个和第m+1个视角对应的AP二元模型间的平滑监督信息相应的为与/> 来自第m个视角并传向第m+1个视角，/>来自第m+1个视角并传向第m个视角，沿着顺时针方向，即从第1个视角到第M个视角，沿着逆时针方向，即从第M个视角到第1个视角，分别对信息U^m、R^m、V^m与A^m进行迭代更新，其计算过程分别如下：

其中，当否则/>当否则/>第1个视角与第M个视角间通过增加一对虚拟节点建立连接，平滑监督信息/>来自第M个视角并传向第1个视角，平滑监督信息/>来自第1个视角并传向第M个视角。第m个视角的内部信息更新与其外部的平滑监督信息有关，受到其外部的平滑监督信息监督，可同时实现每个视角独有的聚类结构特点与平滑不同视角的聚类结构以生成全局一致的聚类结果。

在一种可能的实施例中，所述步骤3中，所有视角内外部信息更新完毕后为每个视角中的每个样本选择全局代表点k′，其计算过程如下：

其中，每个视角中每个样本的全局代表点由视角内部信息与外部的平滑监督信息共同确定。

在一种可能的实施例中，所述步骤4中，生成全局一致的聚类代表点集E，其具体计算过程如下：

其中，处理多视角聚类任务时生成的全局一致的聚类代表点由视角内部信息与外部的平滑监督信息共同确定。

在一种可能的实施例中，所述步骤5中，h＝h+1，重复上述步骤2、步骤3、步骤4及步骤5直至h＞H或E保持不变的次数达到P，迭代停止，多视角聚类结束。其中，视角内外部信息迭代更新的最大次数H＞P，H与P的设置可视具体的多视角数据集而定，H与P值设置过小将得到不稳定的视角内外部信息，易导致全局不一致的多视角聚类结果。

图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，该电子设备600包括：

处理器601和存储器602；

所述存储器602存储计算机指令；

所述处理器601执行所述存储器602存储的计算机指令，使得所述处理器601执行上述的多视图聚类方法。

处理器601的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该电子设备600还包括通信部件603。其中，处理器601、存储器602以及通信部件603可以通过总线604连接。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现上述的多视图聚类方法。

上述实施例为本发明优选地实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多视图聚类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用AP聚类算法对所述目标数据集进行聚类，得到多视图聚类结果包括：

更新所述目标数据集的参数；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述多视图聚类结果，确定每个簇的聚类代表点。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述视图内部参数包括吸引度矩阵；

所述确定所述目标数据集的参数，包括：

确定目标数据集的视图外部参数；

6.根据权利要求5所述的方法，其特征在于，所述视图内部参数还包括：归属度矩阵；

所述确定所述目标数据集的参数，包括：

根据所述吸引度矩阵，确定所述目标数据集的归属度矩阵。

7.根据权利要求3所述的方法，其特征在于，所述目标数据集的参数还包括：聚类次数；

所述预设条件包括：

若所述聚类次数大于第一次数阈值；或

所述聚类代表点保持不变的次数大于或等于第二次数阈值。

8.一种多视图聚类装置，其特征在于，包括：

9.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时使得所述电子设备实现如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。