CN115527052A - 一种基于对比预测的多视图聚类方法 - Google Patents
一种基于对比预测的多视图聚类方法 Download PDFInfo
- Publication number
- CN115527052A CN115527052A CN202211174947.5A CN202211174947A CN115527052A CN 115527052 A CN115527052 A CN 115527052A CN 202211174947 A CN202211174947 A CN 202211174947A CN 115527052 A CN115527052 A CN 115527052A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- view
- prediction
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于对比预测的多视图聚类方法,收集若干样本的初始多视图数据,每个样本的视图数据数量为2,将各样本划分为完整数据和不完整数据;构建网络1和网络2;网络1中,编码器将某个样本的两种视图分别投影成潜在表示,两组预测模块基于对比学习,实现潜在表示之间的相互预测;网络2以网络1的解码器生成生成器构建生成对抗网络;利用完整数据训练网络1;利用不完整数据训练网络2,将不完整数据转化为假完整数据;利用假完整数据再次训练网络1,将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示,在公共表示上使用Kmeans聚类算法得到最后的聚类结果。本发明能够有效利用不完整数据中的隐藏信息,显著提升聚类表现。
Description
技术领域
本发明属于人工智能以及图像聚类技术领域,特别涉及一种基于对比预测的多视图聚类方法。
背景技术
现实生活中的大多数数据都是以多模态或多视图的形式出现的,例如使用不同类型的相机或同一相机从不同角度拍摄的RGB图像或深度图。多模态数据中的信息不能通过单模态或单视图方法得到有效利用。如果能综合观察物体的不同视角或使用图像物体的多种模态,就能更好地建模物体的视觉模型。因此,一种有效的多模态学习方法,特别是一种无监督的学习方法,在现实世界的视觉应用中非常重要。现有的方法都明确要求多视图数据需要满足跨视图一致性的假设,也就是数据完整性,并要求每个样本点的所有视图都存在。然而,由于实际应用中在数据采集或传输过程中往往会丢失,因此完整视图数据非常稀缺,从而产生了不完整多视图问题。不完整多视图问题的关键在于能否从现有的数据中推断出缺失的信息,或者能否利用现有的数据信息做出正确的判断。
为了解决聚类中的不完整多视图问题,不完全多视图聚类算法越来越引起广泛关注,但由于以下缺点,其性能受到限制:1)大部分的不完全多视图聚类方法很难获得高级语义特征,并且在复杂的真实数据上聚类性能欠佳。2)只能利用对齐的完整数据进行基于数据一致性假设的表示学习,但是来自完整视图的数据非常稀少,不足以学习一致的信息。隐藏在不完整数据中的隐藏信息对于多视图聚类来说显得更为重要。
发明内容
为了克服上述现有技术的缺点,解决不完全多视图聚类算法浪费了不完整数据中的隐藏信息以及表示学习效果差的缺点,本发明的目的在于提供一种基于对比预测的多视图聚类方法。
为了实现上述目的,本发明采用的技术方案是:
一种基于对比预测的多视图聚类方法,包括如下步骤:
步骤1,收集若干样本的初始多视图数据,每个样本的视图数据数量为2,将各样本划分为完整数据和不完整数据;所述完整数据是指样本的两种视图均未缺失,不完整数据是指样本的两种视图有一种缺失;
步骤2,构建网络1和网络2;
所述网络1由两组自编码器和两组预测模块组成,每组自编码器包含一个编码器和一个解码器,编码器将某个样本的两种视图X1和X2分别投影成潜在表示Z1和Z2;两组预测模块基于对比学习,实现Z1和Z2之间的相互预测,从而能够根据不完整数据中某一样本的未缺失视图预测对应的缺失视图;
所述网络2由两组自编码器和两组生成对抗网络组成,自编码器即所述网络1中的自编码器,且自编码器中的解码器作为生成对抗网络中的生成器;
步骤3,利用完整数据训练网络1;
步骤4,利用不完整数据训练网络2,网络2中的生成对抗网络基于未缺失视图填充对应的缺失视图,将不完整数据转化为假完整数据;
步骤5,将网络2生成的假完整数据再次喂给网络1训练,直至训练完毕;
步骤6,将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示,在公共表示上使用Kmeans聚类算法得到最后的聚类结果。
与现有技术相比,本发明的有益效果是:
现有的不完全多视图聚类方法只能基于完整数据中不同视图成对的样本探索一致性和公共语义,而浪费了不完整数据中的隐藏信息。事实上不完整数据中的隐藏信息同样不容忽视,合理地利用不完整数据对提高聚类表现不容忽视。而且公共语义的学习方法大多基于传统的机器学习方法,有着算法复杂度高且不易扩展到大规模数据集上的缺点。
本发明使用生成对抗网络(GAN)填充不完整数据,并使用对比学习和潜在表示的相互预测学习与挖掘完整和不完整数据的一致性。即使在高缺失率的情况下也能获得最佳的聚类性能,甚至在没有配对视图数据的情况下也能很好地工作。所有网络模型都基于深度学习的方法引入了深度神经网络,使模型具备更强的泛化能力,在面对现实世界中更复杂规模更大的数据集时,有着良好的可扩展性和鲁棒性。
附图说明
图1是本发明流程示意图。
图2是本发明数据流示意图。
图3是本发明模型结构示意图。
图4是本发明网络1中的预测模块结构图。
图5是本发明聚类流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明实施方案作进一步详细描述。
本发明可能涉及到的概念与参数介绍如下:
一个样本通常有多种视图,这些视图可能完整,也可能不完整。给定一个数据集,它包含多个样本的多种视图数据,其中多种视图数据,指同一样本的不同角度视图,或同一样本同一角度的不同模态视图(例如RGB图像或深度图)。在多种视图数据中,很可能会有某一视图缺失,针对这一现象,本发明不完全多视图聚类方法期望在实例中存在视图缺失情况时,仍能保持良好的聚类性能。
参考图1,本发明的完整流程如下:
步骤1,收集若干样本的初始多视图数据,为便于描述和计算,在本发明中,每个样本的视图数据数量为2。本发明将各样本划分为完整数据和不完整数据;其中,完整数据是指样本的两种视图均未缺失,不完整数据是指样本的两种视图有一种缺失。显然,基于同样的原理,本发明视图数据数量扩展为更多种,其计算方法和流程是一致的。
如图2所示,本发明的一个数据集有两种视图数据,即A=2,且总共有个样本,其中N个样本中,每个样本具有完整的两种视图数据,而另外个样本中,每个样本则只有一种视图数据。由此,该数据集分为了两部分:完整数据和不完整数据,N个样本的视图数据构成了完整数据集合,个样本的视图数据构成了不完整数据集合。在完整数据集合中,使用表示第n个样本第v种视图的特征向量;在不完整数据的集合中,使用表示第个样本第v种视图的特征向量,显然v=1,...,A,也即在本实施例中v=1,2,n=1,...,N,其中dv表示第v种视图的维度。
本发明的目标是将所有个样本聚类到K个簇中。定义个样本的集合{X1,X2,I1,I2},其中X1和X2表示N个样本中的两种视图,X1和X2是严格对齐的。I1和I2分别表示个样本中的第一种视图和第二种视图。
步骤2,构建网络1和网络2。
如图3所示,网络1由A组编码器、A组解码器和A组预测模块组成,如上,A=2。也即,网络1由2组自编码器和2组预测模块组成,第一组编码器f1将X1投影成潜在表示Z1,第二组编码器f2将X2投影成潜在表示Z2,显然,当A取其它值时,原理类似。两组预测模块基于对比学习,实现Z1和Z2之间的相互预测,使预测模块能根据不完整数据中某一样本的未缺失视图预测对应的缺失视图。
如图3所示,网络2由两组自编码器和两组生成对抗网络组成,为了不浪费不完整数据中的隐藏信息,自编码器即所述网络1中的自编码器,生成对抗网络中,生成器为网络1中的解码器,将该将解码器当作生成器构成生成对抗网络(GAN)。本发明的自动编码器采用全连接神经网络,其中每一层后面是批处理归一化层和ReLU层,维度设置为d-1024-1024-1024-128,其中d是输入数据的维度,不同视图的自动编码器的结构是相同的。MLP用于实现对比预测模块,所有MLP在每个线性层之后都使用批量归一化,每个MLP有两个线性层,中间添加了ReLU激活函数。
本实施例中,为网络2引入了GAN,GAN能够从随机的“噪声”中生成“真实”的样本,受GAN在图像填充方面的成功启发,利用GAN对原始的不完整数据进行生成作为假完整数据。本发明在四种公开数据集上评估本发明的优越性。1)Caltech101-20由20个物体的2386张图像组成,使用HOG和GIST两种特征视图,特征维数分别为1984和512。2)Scene-15由4485张图像组成,分布在15个场景类别上,分别使用PHOG和GIST特征、20D和59D特征向量两种视图。3)LandUse-21由21个类别的2100张卫星影像组成,分别采用PHOG和LBP特征、59D和40D特征向量两种视图。4)Noisy MNIST,一个大型数据集,包含10个类别的70000个样本。随机选择15000个原始样本作为第一种视图,15000个添加了高斯噪声实例作为第二种视图。在表3-1中总结了数据集的详细统计信息。
表3-1数据集总结表
数据集 | 样本数量 | 类别数 | 维度 |
Caltech101-20 | 2386 | 20 | 1984/512 |
Scene-15 | 4485 | 15 | 20/59 |
LandUse-21 | 2100 | 21 | 59/40 |
Noisy MNIST | 70000 | 10 | 784/784 |
步骤3,利用完整数据训练网络1。
完整数据表示为{X1,X2},将对齐的完整视图数据X1喂给网络1的编码器f1中得到潜在表示Z1,X2喂给网络1的编码器f2中得到潜在表示Z2,Z1和Z2分别是第一种视图和第二种视图的潜在表示。示例地,训练300个epoch,即可为步骤4训练网络2中的自编码器提供更优质的初始化参数。
基于Z1和Z2,构造三个需要进一步优化的目标函数:
其中fv表示第v种视图的编码器,v∈{1,2}。
如图4所示,每个预测模块由在线分支和目标分支组成,在线分支由解码器do、投影器po和另一个预测器ho组成,目标分支由解码器dt和投影器pt组成。利用均方误差损失函数,使在线分支与目标分支方法的输出一致。这个过程可以用以下损失函数表示:
通过在线分支得到的潜在表示Z1的输出定义为
之后,将Z1喂给目标分支,将Z2喂给在线分支。这个过程被定义为
预测模块的损失函数为:
最后,得到训练网络1的总体目标函数如下:
基于此目标函数反向传播,通过梯度下降的方式更新网络1,网络1中的各个组件经过完整数据的训练都得到了较好的初始化,为后续步骤2中网络2的训练提供了良好的基础。
步骤4,利用不完整数据训练网络2。
不完整数据表示为{I1,I2},将不完整的视图数据I1和I2分别输入到网络2的自编码器f1,f2。注意,自编码器f1,f2和解码器g1,g2在步骤1中已经收敛。解码器g1和g2作为GAN结构的生成器,进行良好的初始化。每个解码器gv对应设置一个判别器Dv,形成一个典型的GAN网络。其中,首先利用解码器gv,根据Iv生成然后,判别器Dv将判断是否为真。直到判别器不能正确提供判断,生成器(也即解码器gv)才会收敛。传统GAN训练生成器G和鉴别器D两种模型,目标函数为定义为:
通过该步骤,生成对抗网络基于未缺失视图填充对应的缺失视图,将不完整数据转化为假完整数据,为网络1提供更多的数据使训练更加充分。示例地,不完整数据喂给网络2训练200个epoch即可满足要求。
虽然网络2和网络1中的预测模块都是对缺失视图的填充,但是本质不同:网络2是从不完整的视图数据中生成新的潜在分布,而网络1中的预测模块是从完整试图数据中预测缺失视图,只能学习完整视图之间的相互表示。
步骤5,将网络2生成的假完整数据再次喂给网络1训练,直至训练完毕,实现多视图语义的公共表示。
示例地,假完整数据再次喂给网络1后训练100个epoch即可训练完毕。
步骤6,参考图5,推理聚类阶段,将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示,在公共表示上使用K-means聚类算法以得到最后的结果。
示例地,将原始多视图数据喂给训练好的网络1,缺失的视图数据会被预测模块预测并填充,并得到一个多视图高维公共表示;基于该公共表示,使用Kmeams聚类算法得到最后的聚类结果。
关于本发明的评估指标选择,采用准确率(ACC)、归一化互信息(NMI)和调整的兰德指数(ARI)三个指标评价聚类性能。这些评价指标的值越高,说明聚类性能越好。为了统一评估本在不完整多视图数据上的性能,随机选择实例作为不完整数据,并从每个实例中随机删除一些视图。缺失率定义为缺失率越大,说明数据越不完整。
表3-2在Caltech101-20数据集上缺失率为0.5的消融实验
表3-2显示了四种变量对应的损失分量和实验结果。在(2)中,可以看到,由于没有得到优化,因此低维潜在表示会丢失更多的互补信息,因此,单独使用对比预测损失可能会导致平凡解或模型崩溃。通过(4)(5)(6)与(1)(2)(3)做对比,说明双重损失比单一一致性学习模块更有效果。通过对(7)和(1)进行比较,可以断言对比学习和相互预测两大模块在聚类性能上有极大的提高,对比第(7)行和第(8)行,在编码过程中引入GAN使得不完全数据的隐藏信息得到了更充分的利用。值得注意的是,本发明的每个模块都提高了聚类性能,这进一步证明了有效性。
表3-3在不同数据集上缺失率为0.5的聚类表现
数据集 | ACC | NMI | ARI |
Caltech101-20 | 69.48 | 68.25 | 75.12 |
Scene-15 | 39.09 | 46.12 | 23.55 |
LandUse-21 | 23.76 | 28.03 | 11.10 |
Noisy MNIST | 81.97 | 77.22 | 72.56 |
表3-3描述了本发明在不同规模数据集下聚类表现,可以看出,本发明能够有效利用不完整数据中的隐藏信息,显著提升聚类表现。
Claims (6)
1.一种基于对比预测的多视图聚类方法,其特征在于,包括如下步骤:
步骤1,收集若干样本的初始多视图数据,每个样本的视图数据数量为2,将各样本划分为完整数据和不完整数据;所述完整数据是指样本的两种视图均未缺失,不完整数据是指样本的两种视图有一种缺失;
步骤2,构建网络1和网络2;
所述网络1由两组自编码器和两组预测模块组成,每组自编码器包含一个编码器和一个解码器,编码器将某个样本的两种视图X1和X2分别投影成潜在表示Z1和Z2;两组预测模块基于对比学习,实现Z1和Z2之间的相互预测,从而能够根据不完整数据中某一样本的未缺失视图预测对应的缺失视图;
所述网络2由两组自编码器和两组生成对抗网络组成,自编码器即所述网络1中的自编码器,且自编码器中的解码器作为生成对抗网络中的生成器;
步骤3,利用完整数据训练网络1;
步骤4,利用不完整数据训练网络2,网络2中的生成对抗网络基于未缺失视图填充对应的缺失视图,将不完整数据转化为假完整数据;
步骤5,将网络2生成的假完整数据再次喂给网络1训练,直至训练完毕;
步骤6,将原始的多视图数据传给网络1学习并获取潜在表示拼接而成的公共表示,在公共表示上使用Kmeans聚类算法得到最后的聚类结果。
2.根据权利要求1所述基于对比预测的多视图聚类方法,其特征在于,所述步骤1中,样本的两种视图为同一样本的不同角度视图,或同一样本的同一角度不同模态的视图。
3.根据权利要求1所述基于对比预测的多视图聚类方法,其特征在于,所述网络1中,基于Z1和Z2计算预测损失和对比学习损失并反向传播更新梯度;通过对比学习的方法最大化Z1和Z2之间的互信息以挖掘不同视图数据的公共语义;每组所述预测模块均带有动量的网络,以实现Z1和Z2之间的相互预测,使预测模块能根据不完整数据中某一样本的未缺失视图预测对应的缺失视图。
4.根据权利要求3所述基于对比预测的多视图聚类方法,其特征在于,所述网络1中,基于Z1和Z2,构造三个目标函数:
其中fv表示第v种视图的编码器,v∈{1,2};
其中H为信息熵,MI为互信息,并引入一个正则化项,参数γ=9,MI按以下公式计算:
iii)通过无负样本的对比学习,利用两个对称的预测模块对Z1和Z2进行预测,以缓解不同观点之间的不一致性,损失函数用表示,两个预测模块构成了Z1和Z2的对比学习模块,每个预测模块由在线分支和目标分支组成,在线分支由解码器do、投影器po和另一个预测器ho组成,目标分支由解码器dt和投影器pt组成;利用均方误差损失函数,使在线分支与目标分支方法的输出一致,该过程用以下损失函数表示:
通过在线分支得到的潜在表示Z1的输出定义为
之后,将Z1喂给目标分支,将Z2喂给在线分支,该过程被定义为
预测模块的损失函数为:
最后,得到训练网络1的总体目标函数如下:
6.根据权利要求5所述基于对比预测的多视图聚类方法,其特征在于,所述步骤6中,将原始多视图数据喂给训练好的网络1,缺失的视图数据会被预测模块填充,并得到一个多视图高维公共表示;基于该公共表示,使用Kmeams聚类算法得到最后的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211174947.5A CN115527052A (zh) | 2022-09-26 | 2022-09-26 | 一种基于对比预测的多视图聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211174947.5A CN115527052A (zh) | 2022-09-26 | 2022-09-26 | 一种基于对比预测的多视图聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527052A true CN115527052A (zh) | 2022-12-27 |
Family
ID=84700026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211174947.5A Pending CN115527052A (zh) | 2022-09-26 | 2022-09-26 | 一种基于对比预测的多视图聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527052A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523244A (zh) * | 2023-10-31 | 2024-02-06 | 哈尔滨工业大学(威海) | 一种多视图聚类方法、系统、电子设备及存储介质 |
-
2022
- 2022-09-26 CN CN202211174947.5A patent/CN115527052A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523244A (zh) * | 2023-10-31 | 2024-02-06 | 哈尔滨工业大学(威海) | 一种多视图聚类方法、系统、电子设备及存储介质 |
CN117523244B (zh) * | 2023-10-31 | 2024-05-24 | 哈尔滨工业大学(威海) | 一种多视图聚类方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Deep leaf‐bootstrapping generative adversarial network for structural image data augmentation | |
CN108710906B (zh) | 基于轻量级网络LightPointNet的实时点云模型分类方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
Shao et al. | Branchy-GNN: A device-edge co-inference framework for efficient point cloud processing | |
Huh et al. | Feedback adversarial learning: Spatial feedback for improving generative adversarial networks | |
CN113096239B (zh) | 一种基于深度学习的三维点云重建方法 | |
CN110516724A (zh) | 可视化作战场景的高性能多层字典学习特征图像处理方法 | |
Liu et al. | APSNet: Toward adaptive point sampling for efficient 3D action recognition | |
CN115527052A (zh) | 一种基于对比预测的多视图聚类方法 | |
Cao et al. | Exploring vision transformers as diffusion learners | |
Tan et al. | Deep adaptive fuzzy clustering for evolutionary unsupervised representation learning | |
Sharma et al. | Prifit: Learning to fit primitives improves few shot point cloud segmentation | |
Yuniarti et al. | A 3D template-based point generation network for 3D reconstruction from single images | |
Chen et al. | Coupled multimodal emotional feature analysis based on broad-deep fusion networks in human–robot interaction | |
Chen et al. | From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos | |
Shu et al. | Wasserstein distributional harvesting for highly dense 3D point clouds | |
CN116912804A (zh) | 一种高效的无锚框3-d目标检测及跟踪方法及模型 | |
Wan et al. | 3D-Mask-GAN: Unsupervised Single-View 3D Object Reconstruction | |
CN115131605A (zh) | 一种基于自适应子图的结构感知图对比学习方法 | |
Rivera et al. | Trilateral convolutional neural network for 3D shape reconstruction of objects from a single depth view | |
Tang et al. | Prototype-aware heterogeneous task for point cloud completion | |
Zhang et al. | Flipped-adversarial autoencoders | |
Wang et al. | Real-time and accurate face detection networks based on deep learning | |
Chiem et al. | A hybrid two-stage 3D object recognition from orthogonal projections | |
CN114077895A (zh) | 对抗性策略的变分自编码模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |