CN115527052A

CN115527052A - 一种基于对比预测的多视图聚类方法

Info

Publication number: CN115527052A
Application number: CN202211174947.5A
Authority: CN
Inventors: 刘春雷; 王嘉泰; 许志伟; 刘广文; 王永生
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-27

Abstract

一种基于对比预测的多视图聚类方法，收集若干样本的初始多视图数据，每个样本的视图数据数量为2，将各样本划分为完整数据和不完整数据；构建网络1和网络2；网络1中，编码器将某个样本的两种视图分别投影成潜在表示，两组预测模块基于对比学习，实现潜在表示之间的相互预测；网络2以网络1的解码器生成生成器构建生成对抗网络；利用完整数据训练网络1；利用不完整数据训练网络2，将不完整数据转化为假完整数据；利用假完整数据再次训练网络1，将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示，在公共表示上使用Kmeans聚类算法得到最后的聚类结果。本发明能够有效利用不完整数据中的隐藏信息，显著提升聚类表现。

Description

一种基于对比预测的多视图聚类方法

技术领域

本发明属于人工智能以及图像聚类技术领域，特别涉及一种基于对比预测的多视图聚类方法。

背景技术

现实生活中的大多数数据都是以多模态或多视图的形式出现的，例如使用不同类型的相机或同一相机从不同角度拍摄的RGB图像或深度图。多模态数据中的信息不能通过单模态或单视图方法得到有效利用。如果能综合观察物体的不同视角或使用图像物体的多种模态，就能更好地建模物体的视觉模型。因此，一种有效的多模态学习方法，特别是一种无监督的学习方法，在现实世界的视觉应用中非常重要。现有的方法都明确要求多视图数据需要满足跨视图一致性的假设，也就是数据完整性，并要求每个样本点的所有视图都存在。然而，由于实际应用中在数据采集或传输过程中往往会丢失，因此完整视图数据非常稀缺，从而产生了不完整多视图问题。不完整多视图问题的关键在于能否从现有的数据中推断出缺失的信息，或者能否利用现有的数据信息做出正确的判断。

为了解决聚类中的不完整多视图问题，不完全多视图聚类算法越来越引起广泛关注，但由于以下缺点，其性能受到限制：1)大部分的不完全多视图聚类方法很难获得高级语义特征，并且在复杂的真实数据上聚类性能欠佳。2)只能利用对齐的完整数据进行基于数据一致性假设的表示学习，但是来自完整视图的数据非常稀少，不足以学习一致的信息。隐藏在不完整数据中的隐藏信息对于多视图聚类来说显得更为重要。

发明内容

为了克服上述现有技术的缺点，解决不完全多视图聚类算法浪费了不完整数据中的隐藏信息以及表示学习效果差的缺点，本发明的目的在于提供一种基于对比预测的多视图聚类方法。

为了实现上述目的，本发明采用的技术方案是：

一种基于对比预测的多视图聚类方法，包括如下步骤：

步骤1，收集若干样本的初始多视图数据，每个样本的视图数据数量为2，将各样本划分为完整数据和不完整数据；所述完整数据是指样本的两种视图均未缺失，不完整数据是指样本的两种视图有一种缺失；

步骤2，构建网络1和网络2；

所述网络1由两组自编码器和两组预测模块组成，每组自编码器包含一个编码器和一个解码器，编码器将某个样本的两种视图X¹和X²分别投影成潜在表示Z¹和Z²；两组预测模块基于对比学习，实现Z¹和Z²之间的相互预测，从而能够根据不完整数据中某一样本的未缺失视图预测对应的缺失视图；

所述网络2由两组自编码器和两组生成对抗网络组成，自编码器即所述网络1中的自编码器，且自编码器中的解码器作为生成对抗网络中的生成器；

步骤3，利用完整数据训练网络1；

步骤4，利用不完整数据训练网络2，网络2中的生成对抗网络基于未缺失视图填充对应的缺失视图，将不完整数据转化为假完整数据；

步骤5，将网络2生成的假完整数据再次喂给网络1训练，直至训练完毕；

步骤6，将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示，在公共表示上使用Kmeans聚类算法得到最后的聚类结果。

与现有技术相比，本发明的有益效果是：

现有的不完全多视图聚类方法只能基于完整数据中不同视图成对的样本探索一致性和公共语义，而浪费了不完整数据中的隐藏信息。事实上不完整数据中的隐藏信息同样不容忽视，合理地利用不完整数据对提高聚类表现不容忽视。而且公共语义的学习方法大多基于传统的机器学习方法，有着算法复杂度高且不易扩展到大规模数据集上的缺点。

本发明使用生成对抗网络(GAN)填充不完整数据，并使用对比学习和潜在表示的相互预测学习与挖掘完整和不完整数据的一致性。即使在高缺失率的情况下也能获得最佳的聚类性能，甚至在没有配对视图数据的情况下也能很好地工作。所有网络模型都基于深度学习的方法引入了深度神经网络，使模型具备更强的泛化能力，在面对现实世界中更复杂规模更大的数据集时，有着良好的可扩展性和鲁棒性。

附图说明

图1是本发明流程示意图。

图2是本发明数据流示意图。

图3是本发明模型结构示意图。

图4是本发明网络1中的预测模块结构图。

图5是本发明聚类流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方案作进一步详细描述。

本发明可能涉及到的概念与参数介绍如下：

一个样本通常有多种视图，这些视图可能完整，也可能不完整。给定一个数据集，它包含多个样本的多种视图数据，其中多种视图数据，指同一样本的不同角度视图，或同一样本同一角度的不同模态视图(例如RGB图像或深度图)。在多种视图数据中，很可能会有某一视图缺失，针对这一现象，本发明不完全多视图聚类方法期望在实例中存在视图缺失情况时，仍能保持良好的聚类性能。

参考图1，本发明的完整流程如下：

步骤1，收集若干样本的初始多视图数据，为便于描述和计算，在本发明中，每个样本的视图数据数量为2。本发明将各样本划分为完整数据和不完整数据；其中，完整数据是指样本的两种视图均未缺失，不完整数据是指样本的两种视图有一种缺失。显然，基于同样的原理，本发明视图数据数量扩展为更多种，其计算方法和流程是一致的。

如图2所示，本发明的一个数据集有两种视图数据，即A＝2，且总共有

个样本，其中N个样本中，每个样本具有完整的两种视图数据，而另外

个样本中，每个样本则只有一种视图数据。由此，该数据集分为了两部分：完整数据和不完整数据，N个样本的视图数据构成了完整数据集合，

个样本的视图数据构成了不完整数据集合。在完整数据集合中，使用

表示第n个样本第v种视图的特征向量；在不完整数据的集合中，使用

表示第

个样本第v种视图的特征向量，显然v＝1,...,A，也即在本实施例中v＝1,2，n＝1,...,N，

其中d_v表示第v种视图的维度。

本发明的目标是将所有

个样本聚类到K个簇中。定义

个样本的集合{X¹,X²,I¹,I²}，其中X¹和X²表示N个样本中的两种视图，X¹和X²是严格对齐的。I¹和I²分别表示

个样本中的第一种视图和第二种视图。

步骤2，构建网络1和网络2。

如图3所示，网络1由A组编码器、A组解码器和A组预测模块组成，如上，A＝2。也即，网络1由2组自编码器和2组预测模块组成，第一组编码器f₁将X¹投影成潜在表示Z¹，第二组编码器f₂将X²投影成潜在表示Z²，显然，当A取其它值时，原理类似。两组预测模块基于对比学习，实现Z¹和Z²之间的相互预测，使预测模块能根据不完整数据中某一样本的未缺失视图预测对应的缺失视图。

如图3所示，网络2由两组自编码器和两组生成对抗网络组成，为了不浪费不完整数据中的隐藏信息，自编码器即所述网络1中的自编码器，生成对抗网络中，生成器为网络1中的解码器，将该将解码器当作生成器构成生成对抗网络(GAN)。本发明的自动编码器采用全连接神经网络，其中每一层后面是批处理归一化层和ReLU层，维度设置为d-1024-1024-1024-128，其中d是输入数据的维度，不同视图的自动编码器的结构是相同的。MLP用于实现对比预测模块，所有MLP在每个线性层之后都使用批量归一化，每个MLP有两个线性层，中间添加了ReLU激活函数。

本实施例中，为网络2引入了GAN，GAN能够从随机的“噪声”中生成“真实”的样本，受GAN在图像填充方面的成功启发，利用GAN对原始的不完整数据进行生成作为假完整数据。本发明在四种公开数据集上评估本发明的优越性。1)Caltech101-20由20个物体的2386张图像组成，使用HOG和GIST两种特征视图，特征维数分别为1984和512。2)Scene-15由4485张图像组成，分布在15个场景类别上，分别使用PHOG和GIST特征、20D和59D特征向量两种视图。3)LandUse-21由21个类别的2100张卫星影像组成，分别采用PHOG和LBP特征、59D和40D特征向量两种视图。4)Noisy MNIST，一个大型数据集，包含10个类别的70000个样本。随机选择15000个原始样本作为第一种视图，15000个添加了高斯噪声实例作为第二种视图。在表3-1中总结了数据集的详细统计信息。

表3-1数据集总结表

数据集	样本数量	类别数	维度
				Caltech101-20	2386	20	1984/512
Scene-15	4485	15	20/59
				LandUse-21	2100	21	59/40
Noisy MNIST	70000	10	784/784

步骤3，利用完整数据训练网络1。

完整数据表示为{X¹,X²}，将对齐的完整视图数据X¹喂给网络1的编码器f₁中得到潜在表示Z¹，X²喂给网络1的编码器f₂中得到潜在表示Z²，Z¹和Z²分别是第一种视图和第二种视图的潜在表示。示例地，训练300个epoch，即可为步骤4训练网络2中的自编码器提供更优质的初始化参数。

基于Z¹和Z²，构造三个需要进一步优化的目标函数：

i)通过自编码器重构不同视图得到的损失用

表示：

其中g_v表示第v种视图的解码器，

表示第n个样本第v种视图的潜在表示，由下式给出：

其中f_v表示第v种视图的编码器，v∈{1,2}。

ii)通过对比学习，最大化Z¹和Z²之间的互信息，相应的损失用

表示。

其中H为信息熵，MI为互信息，并引入一个正则化项，参数γ＝9，以提高模块的泛化性。为了计算

和

的互信息

利用softmax函数的输出作为

的超聚类概率分布，得到

和

的联合概率分布。MI按以下公式计算：

iii)通过无负样本的对比学习，利用两个对称的预测模块对Z¹和Z²进行预测，以缓解不同观点之间的不一致性，损失函数用

表示。两个预测模块构成了Z¹和Z²的对比学习模块。

如图4所示，每个预测模块由在线分支和目标分支组成，在线分支由解码器d^o、投影器p^o和另一个预测器h^o组成，目标分支由解码器d^t和投影器p^t组成。利用均方误差损失函数，使在线分支与目标分支方法的输出一致。这个过程可以用以下损失函数表示：

通过在线分支得到的潜在表示Z¹的输出定义为

之后，将Z¹喂给目标分支，将Z²喂给在线分支。这个过程被定义为

预测模块的损失函数为：

最后，得到训练网络1的总体目标函数如下：

基于此目标函数反向传播，通过梯度下降的方式更新网络1，网络1中的各个组件经过完整数据的训练都得到了较好的初始化，为后续步骤2中网络2的训练提供了良好的基础。

步骤4，利用不完整数据训练网络2。

不完整数据表示为{I¹,I²}，将不完整的视图数据I¹和I²分别输入到网络2的自编码器f₁，f₂。注意，自编码器f₁，f₂和解码器g₁，g₂在步骤1中已经收敛。解码器g₁和g₂作为GAN结构的生成器，进行良好的初始化。每个解码器g_v对应设置一个判别器D_v，形成一个典型的GAN网络。其中，首先利用解码器g_v，根据I^v生成

然后，判别器D_v将判断

是否为真。直到判别器不能正确提供判断，生成器(也即解码器g_v)才会收敛。传统GAN训练生成器G和鉴别器D两种模型，目标函数为定义为：

这一步的目的是训练一个强大的生成器来生成不完整视图的缺失数据，并对训练数据集进行扩展。如图2所示，根据不完整的视图数据I^v，相应的缺失数据

通过网络2生成并以相应的模态对其进行填充，得到假完整数据

通过该步骤，生成对抗网络基于未缺失视图填充对应的缺失视图，将不完整数据转化为假完整数据，为网络1提供更多的数据使训练更加充分。示例地，不完整数据喂给网络2训练200个epoch即可满足要求。

虽然网络2和网络1中的预测模块都是对缺失视图的填充，但是本质不同：网络2是从不完整的视图数据中生成新的潜在分布，而网络1中的预测模块是从完整试图数据中预测缺失视图，只能学习完整视图之间的相互表示。

步骤5，将网络2生成的假完整数据再次喂给网络1训练，直至训练完毕，实现多视图语义的公共表示。

网络2生成的假完整数据表示为

将不同视图的假完整数据

输入网络1，优化目标与步骤3相同，平衡因子没有改变，这一步的作用是获得足够的训练数据，使网络1模型更加泛化和鲁棒性。

示例地，假完整数据再次喂给网络1后训练100个epoch即可训练完毕。

步骤6，参考图5，推理聚类阶段，将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示，在公共表示上使用K-means聚类算法以得到最后的结果。

示例地，将原始多视图数据喂给训练好的网络1，缺失的视图数据会被预测模块预测并填充，并得到一个多视图高维公共表示；基于该公共表示，使用Kmeams聚类算法得到最后的聚类结果。

关于本发明的评估指标选择，采用准确率(ACC)、归一化互信息(NMI)和调整的兰德指数(ARI)三个指标评价聚类性能。这些评价指标的值越高，说明聚类性能越好。为了统一评估本在不完整多视图数据上的性能，随机选择

实例作为不完整数据，并从每个实例中随机删除一些视图。缺失率定义为

缺失率越大，说明数据越不完整。

表3-2在Caltech101-20数据集上缺失率为0.5的消融实验

表3-2显示了四种变量对应的损失分量和实验结果。在(2)中，可以看到，由于

没有得到优化，因此低维潜在表示会丢失更多的互补信息，因此，单独使用对比预测损失

可能会导致平凡解或模型崩溃。通过(4)(5)(6)与(1)(2)(3)做对比，说明双重损失比单一一致性学习模块更有效果。通过对(7)和(1)进行比较，可以断言对比学习和相互预测两大模块在聚类性能上有极大的提高，对比第(7)行和第(8)行，在编码过程中引入GAN使得不完全数据的隐藏信息得到了更充分的利用。值得注意的是，本发明的每个模块都提高了聚类性能，这进一步证明了有效性。

表3-3在不同数据集上缺失率为0.5的聚类表现

数据集	ACC	NMI	ARI
				Caltech101-20	69.48	68.25	75.12
Scene-15	39.09	46.12	23.55
				LandUse-21	23.76	28.03	11.10
Noisy MNIST	81.97	77.22	72.56

表3-3描述了本发明在不同规模数据集下聚类表现，可以看出，本发明能够有效利用不完整数据中的隐藏信息，显著提升聚类表现。

Claims

1.一种基于对比预测的多视图聚类方法，其特征在于，包括如下步骤：

步骤2，构建网络1和网络2；

步骤3，利用完整数据训练网络1；

2.根据权利要求1所述基于对比预测的多视图聚类方法，其特征在于，所述步骤1中，样本的两种视图为同一样本的不同角度视图，或同一样本的同一角度不同模态的视图。

3.根据权利要求1所述基于对比预测的多视图聚类方法，其特征在于，所述网络1中，基于Z¹和Z²计算预测损失和对比学习损失并反向传播更新梯度；通过对比学习的方法最大化Z¹和Z²之间的互信息以挖掘不同视图数据的公共语义；每组所述预测模块均带有动量的网络，以实现Z¹和Z²之间的相互预测，使预测模块能根据不完整数据中某一样本的未缺失视图预测对应的缺失视图。

4.根据权利要求3所述基于对比预测的多视图聚类方法，其特征在于，所述网络1中，基于Z¹和Z²，构造三个目标函数：

i)通过自编码器重构不同视图得到的损失

其中g_v表示第v种视图的解码器，

表示第n个样本第v种视图的潜在表示，由下式给出：

其中f_v表示第v种视图的编码器，v∈{1,2}；

表示。

其中H为信息熵，MI为互信息，并引入一个正则化项，参数γ＝9，MI按以下公式计算：

表示，两个预测模块构成了Z¹和Z²的对比学习模块，每个预测模块由在线分支和目标分支组成，在线分支由解码器d^o、投影器p^o和另一个预测器h^o组成，目标分支由解码器d^t和投影器p^t组成；利用均方误差损失函数，使在线分支与目标分支方法的输出一致，该过程用以下损失函数表示：

通过在线分支得到的潜在表示Z¹的输出定义为

之后，将Z¹喂给目标分支，将Z²喂给在线分支，该过程被定义为

预测模块的损失函数为：

最后，得到训练网络1的总体目标函数如下：

5.根据权利要求4所述基于对比预测的多视图聚类方法，其特征在于，所述步骤4中不完整数据表示为{I¹,I²}，将不完整的视图数据I¹和I²分别输入到网络2的自编码器f₁，f₂，解码器g₁和g₂作为GAN结构的生成器，每个解码器g_v对应设置一个判别器D_v，形成一个GAN网络；其中，首先利用解码器g_v，根据I^v生成

然后，判别器D_v判断

是否为真，训练生成器G和鉴别器D两种模型，目标函数为定义为：

根据不完整的视图数据I^v，相应的缺失数据

6.根据权利要求5所述基于对比预测的多视图聚类方法，其特征在于，所述步骤6中，将原始多视图数据喂给训练好的网络1，缺失的视图数据会被预测模块填充，并得到一个多视图高维公共表示；基于该公共表示，使用Kmeams聚类算法得到最后的聚类结果。