CN116958613A - 深度多视图聚类方法、装置、电子设备及可读存储介质 - Google Patents
深度多视图聚类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116958613A CN116958613A CN202310929969.6A CN202310929969A CN116958613A CN 116958613 A CN116958613 A CN 116958613A CN 202310929969 A CN202310929969 A CN 202310929969A CN 116958613 A CN116958613 A CN 116958613A
- Authority
- CN
- China
- Prior art keywords
- view
- network
- representation
- clustering
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012512 characterization method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000000295 complement effect Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明属于数据处理技术领域,尤其涉及一种深度多视图聚类方法、装置、电子设备及可读存储介质,具体方案包括:使用深度自编码器提取各视图的特定表示;引入注意力机制学习每个视图的权重系数,对来自不同视图的互补信息进行融合得到跨视图统一表示;将各视图的特定表示和跨视图统一表示输入对比学习网络,通过双重对比约束和k‑近邻机制实现一致性信息学习;将前序跨视图统一表示输入聚类网络执行聚类;迭代训练基于一致性表征学习的深度多视图聚类网络,直至模型收敛得到最终聚类结果。本发明将多视图表示学习和聚类任务整合到一个统一的框架中,使多视图表示学习和聚类任务相互受益,以实现提高多视图数据聚类的鲁棒性。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种深度多视图聚类方法、装置、电子设备及可读存储介质。
背景技术
随着信息技术的进步,我们可以在许多领域轻松获取对象的多个视图。例如,同样的新闻可以被不同的新闻媒体报道,因此产生了不同视图的文本特征;在视觉数据中,图像可以用不同的特征描述,如GIST、SIFT和HOG等;同样的情绪可以通过文字表达,也可以用图片表达。当视图之间具有不同表达形式时,通常被称为多模态数据。但不可否认的是,无论视图特征的形式如何变化,他们都只是同一样本对象的不同表示。因此,不同视图之间必然存在着某种程度的联系。多视图的信息输入包含了一致性和互补性信息,使得人们可以更全面、客观、多样化地看待问题,从而做出更准确客观的决策。多视图聚类旨在从多个视图中探索并利用互补信息和一致性信息,在没有任何标签的情况下,自适应地将数据划分到各自的类别中,从而生成一个相比单视图聚类更准确、更鲁棒的数据划分结果。
现有的基于深度表示学习的多视图聚类工作通常是将多个视图映射到一个统一的嵌入,将嵌入作为聚类友好表示,发送给聚类算法,利用聚类判别信息作为监督信号去学习深度神经网络下的表示。其中,基于自监督对比学习的深度多视图聚类是利用对比学习以自监督的方式在视图之间进行相互监督,挖掘不同视图之间的一致性表征。现有的大多数基于自监督对比学习的深度多视图聚类工作直接使用每个视图的低维嵌入通过对比学习的方法最大化视图间的一致性来构建公共表示,然而,这种方法可能会引入无意义的信息并影响下游的聚类任务;此外,基于自监督对比学习的多视图聚类通常从样本层面区分正对和负对,他们将来自同一样本的视图间表示作为正对,并将来自不同样本的视图表示作为负对。负对中可能包括来自同一聚类中不同样本的表示,这可能与聚类目标相冲突,我们希望同一聚类中的不同样本的表示应该彼此相似。
发明内容
本发明为了解决上述问题,提出了一种深度多视图聚类方法、装置、电子设备及可读存储介质,将多视图表示学习和聚类任务整合到一个统一的框架中,对模型进行迭代训练和优化,使多视图表示学习和聚类任务相互受益,以实现提高多视图数据聚类的鲁棒性。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明提供了一种深度多视图聚类方法,包括:
步骤1,构建基于一致性表征学习的深度多视图聚类网络,其中,所述基于一致性表征学习的深度多视图聚类网络包括多视图特定信息提取网络、注意力融合网络、对比学习网络、聚类网络;
步骤2,获取多视图数据,并将每个视图的原始数据输入所述多视图特定信息提取网络,得到各视图的特定表示;
步骤3,将所述各视图的特定表示输入所述注意力融合网络,得到跨视图统一表示;
步骤4,将所述跨视图统一表示和各视图的特定表示输入对比学习网络,通过双重对比约束和k-近邻机制实现一致性信息学习;
步骤5,将所述跨视图统一表示输入聚类网络来执行聚类;
步骤6,训练所述基于一致性表征学习的深度多视图聚类网络,同时最小化不同组件的损失,直至网络模型收敛,从而产生更适合聚类的统一表示,得到最终聚类结果。
根据本发明实施例提供的一种具体实现方式,所述多视图特定信息提取网络包括视图特定的编码网络和视图特定的解码网络两部分,所述步骤2具体包括:
步骤2.1,对于多视图数据X={X(1),X(2),...,X(m)},其中,m表示视图数,第v个视图中的数据样本其中n为数据的样本数,dv为第v个视图的原始特征维度,利用视图特定的编码网络提取每个视图特定的表示/>
zi (v)=Ev(xi (v);θv) (1)
其中,Ev(·)表示第v个视图的编码网络,θv表示相应的参数,xi (v)是X(v)的第i个样本,表示Dz维特征空间中的嵌入特征;
步骤2.2,将步骤2.1得到的视图特定表示输入到视图特定的解码网络进行重建:
其中,Dv(·)表示第v个视图的解码网络,表示相应的参数,/>是重构的表示;
重构损失Lrec如下:
通过最小化重构损失Lrec,可以将输入X(v)转换为表示Z(v)。
根据本发明实施例提供的一种具体实现方式,所述注意力融合网络引入注意力机制学习每个视图的权重系数,通过对来自不同视图的信息进行融合得到跨视图统一表示S:
其中,ai (v)表示由softmax函数获得的每个视图的权重系数,
其中,f(·)由两层非线性MLP组成。
根据本发明实施例的一种具体实现方式,所述步骤4中的对比学习网络包括实例对比网络和簇级对比网络两部分,将所述跨视图统一表示S和各视图特定表示分别输入实例对比网络和簇级对比网络中,通过最小化两个对比网络的总损失,学习特征空间和聚类空间中的一致性信息,两个对比学习网络只用于训练基于一致性表征学习的深度多视图聚类网络,训练结束后由跨视图统一表示S得到统一表征。
进一步的,所述实例对比网络的具体过程为:将所述跨视图统一表示S和各视图特定表示输入实例对比网络G(·,φ),φ为网络参数,获得跨视图统一表示S和各视图特定表示/>在d维特征空间中的特征表示矩阵,根据各视图特定表示和跨视图统一表示的特征表示矩阵相应行描述同一样本的事实,我们约束S和/>应该具有相似的行特征表示,
其中,hi (v)和hi (S)分别表示视图特定表示zi (v)和si在d维特征空间中的表示,
为了描述方便记hi (m+1)=hi (S),对于每个特征hi (v)总共有(n(m+1)-1)个特征对其中/>为m个正特征对,其余(n-1)(m+1)个负特征对,在对比学习中,正对的相似度要最大化,负对的相似度要最小化,余弦距离用于度量两个特征表示之间的相似度:
两个特征hi (v)和hi (t)之间的对比损失如下:
其中γ1表示温度超参数,n表示数据样本数量,
此外,考虑到邻居样本应该具有相似的表示,将所有样本的邻居定义为正样本,而将其他非邻居样本定义为负样本,这样可以使学习到的表示更适合聚类任务。所以我们采用K近邻方法获得给定样本的top-K个相似节点,构建出每个样本的knn关系图,然后根据邻居划分正负样本。具体来说,如果一个样本在另一个样本的关系图中,则它们形成正对,对于给定的表示hi (v),为其邻居集,我们将其作为正样本,其余为负样本。每个视图单个样本的邻域对比损失为:
其中,表示在hi (v)的关系图中,hj (v)表示与hi (v)在同一批量中的表示,/>在hj (v)的关系图中,这样,相似的样本在潜在空间中聚集得更多,而不相似的样本则保持较大的差距。
考虑到所有视图中的所有样本,总邻域对比损失为:
对于所有视图,实例级对比损失公式如下:
进一步的,所述簇级对比网络的具体步骤为:将所述跨视图统一表示S和各视图特定表示输入簇级对比网络F(·,ξ),ξ为网络参数,获得跨视图统一表示S和各视图特定表示/>在k维聚类空间中的簇分配矩阵,k是多视图数据集的类别数,根据各视图特定表示和跨视图统一表示的簇分配矩阵相应列描述同一类簇的事实,我们约束S和应该具有相似的伪标签,
其中,qi (v)和qi (S)分别表示视图特定表示zi (v)和si的伪标签,
为了描述方便记qi (m+1)=qi (S),具体地,
其中,qik (v)表示第v个视图中的第i个样本属于第k类的概率,
对于每个列向量q.ω (v)总共有(k(m+1)-1)个特征对其中 为m个正特征对,其余(k-1)(m+1)个负特征对,两个列向量q.c (v)和q.c(t)之间的对比损失如下:
其中γ2表示温度超参数,k表示数据样本类别数,
对于所有视图,簇级对比损失公式如下:
其中,第二项是一个正则化项,避免将所有样本分到同一个簇中。
对比学习网络的总损失如下:
通过最小化对比损失Lcon,可以学习特征空间和聚类空间中的一致性信息。
根据本发明实施例的一种具体实现方式,所述步骤5利用基于深度发散的聚类方法DDC来约束跨视图统一表示,聚类损失由三项组成,分别是要求簇是可分离的并且在隐藏表示的空间中紧凑、鼓励不同对象的聚类分配向量是正交的以及将聚类分配向量推向中的标准单纯形,聚类损失如下:
其中,k表示多视图数据样本类别数,A∈Rn×k是一个簇分配矩阵,由跨视图统一表示S在聚类网络g(·)的输出得到g(S)=A∈Rn×k,向量是矩阵A的列,K是由kij=exp(-||hi-hj||2/(2σ2))计算的核相似性矩阵,σ为高斯核带宽,hi和hj是输出层之前的最后一个完全连接层计算的隐藏表示,mij=exp(||αi-ej||2),其中ej是Rk中的单纯形角j。
本发明提供的一种基于一致性表征学习的深度多视图聚类方案,使用深度自编码器提取每个视图的低维潜在特征表示,通过对来自不同视图的信息进行融合得到跨视图统一表示。为了同时利用所有视图的信息来学习更好的一致性表示,采用双重对比学习的策略分别在实例空间和聚类空间对齐跨视图统一表示和各视图特定表示,进行一致性信息学习。然后将跨视图统一表示传入到后续的聚类网络,通过迭代训练多视图特定信息提取网络、对比学习网络和聚类网络,达到对多视图数据聚类的目的。
第二方面,本发明提供了一种深度多视图聚类装置,所述装置包括:
建立模块,用于建立基于一致性表征学习的深度多视图聚类网络,其中,所述基于一致性表征学习的深度多视图聚类网络包括多视图特定信息提取网络、注意力融合网络、对比学习网络、聚类网络;
获取模块,用于获取多视图数据,并将所述多视图数据的每个视图连接所述多视图特定信息提取网络;
第一学习模块,用于获取每个视图特定的表示以及视图特定表示重构的视图原始数据,通过重构约束避免模型崩溃;
融合模块,引入注意力机制学习每个视图的权重系数,通过对来自不同视图的互补信息进行融合得到跨视图统一表示;
第二学习模块,用于将所述跨视图统一表示和各视图的特定表示输入对比学习网络,通过双重对比约束和k-近邻机制实现一致性信息学习;
聚类模块,用于将所述跨视图统一表示输入基于深度发散的聚类网络进行聚类。
第三方面,本发明还提供了一种电子设备,该电子设备包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序,以实现前述的深度多视图聚类方法。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行,实现前述的深度多视图聚类方法。
与现有技术相比,本发明的有益效果为:
本发明将多视图表示学习和聚类任务整合到一个统一的框架中,对模型进行迭代训练和优化,使多视图表示学习和聚类任务相互受益;本发明在不同的特征空间进行多视图数据的一致性和互补性信息的学习,能够降低模型崩溃的风险;另外,与现有基于自监督对比学习的深度多视图聚类技术对视图间表示进行对齐不同,本发明引入一种基于双重对比学习和k-最近邻的机制,将跨视图统和各视图的特定表示分别在特征空间和语义空间对齐,同时移除假负样本,缓解假负样本对整个对比学习过程的影响,使得具有高结构关系的正对的表示更加相似,充分挖掘多视图数据的一致性信息,从而提高了多视图聚类的精度和鲁棒性。
附图说明
图1为本发明实施例提供的一种深度多视图聚类方法的流程示意图;
图2为本发明实施例提供的一种深度多视图聚类网络的示意图;
图3为本发明实施例提供的一种深度多视图聚类装置的结构示意图;
图4为本发明实施例提供的一种深度多视图聚类电子设备的结构示意图;
具体实施方式
下面结合附图对本发明实施例进行详细描述。
本发明实施例提供一种深度多视图聚类方法,所述方法可以应用于数据处理场景中的多视图数据聚类分析过程。
参见图1和图2,分别为本发明实施例提供的一种深度多视图聚类方法的流程示意图和深度多视图聚类网络的示意图,所述方法主要包括以下步骤:
步骤1,构建基于一致性表征学习的深度多视图聚类网络,其中,所述基于一致性表征学习的深度多视图聚类网络包括多视图特定信息提取网络、注意力融合网络、对比学习网络、聚类网络;
具体实施时,可以先构建多视图特定信息提取网络,所述多视图特定信息提取网络包括视图特定的编码网络和视图特定的解码网络两部分,通过最小化重构损失来预训练多视图特定信息提取网络,获得初始化的网络参数。
步骤2,获取多视图数据,并将每个视图的原始数据输入所述多视图特定信息提取网络,得到各视图的特定表示。由于深度神经网络可以更高效地挖掘数据的潜在特征,因此本发明使用深度自编码器学习每个视图的低维潜在表示。具体实施时,对于所有类型的多视图数据,首先将它们转换为矢量表示,然后将它们输入到所述多视图特定信息提取网络中,得到各视图的特定表示;所述多视图特定信息提取网络包括视图特定的编码网络和视图特定的解码网络两部分;所述步骤2具体包括:
步骤2.1,对于多视图数据X={X(1),x(2),...,X(m)},其中,m表示视图数,第v个视图中的数据样本其中n为数据的样本数,dv为第v个视图的原始特征维度,利用视图特定的编码网络提取每个视图特定的表示/>
zi (v)=Ev(xi (v);θv) (1)
其中,Ev(·)表示第v个视图的编码网络,θv表示相应的参数,xi (v)是X(v)的第i个样本,表示Dz维特征空间中的嵌入特征;
步骤2.2,将步骤2.1得到的视图特定表示输入到视图特定的解码网络进行重建:
其中,Dv(·)表示第v个视图的解码网络,表示相应的参数,/>是重构的表示;
重构损失Lrec如下:
通过最小化重构损失Lrec来约束每个视图特定的表示每个视图特定的表示以避免模型崩溃。
具体实施时,所述多视图特定信息提取网络结构详细信息如下表:
encoder | decoder |
Linear | Linear |
ReLU | ReLU |
Linear | Linear |
ReLU | ReLU |
Linear | Linear |
ReLU | ReLU |
Linear | Linear |
步骤3,将所述各视图的特定表示输入所述注意力融合网络,得到跨视图统一表示S。本发明通过注意力机制学习每个视图的权重系数,对所有视图的特征进行融合以挖掘多视图数据之间的一致性和互补性信息。具体实施时,f(·)采用中间层用ReLU激活的两层的全连接层:
其中,ai (v)表示由softmax函数获得的每个视图的权重系数,
其中,f(·)由两层非线性MLP组成。
步骤4,将所述跨视图统一表示和各视图的特定表示输入对比学习网络,通过双重对比学习实现一致性信息学习。对比学习是深度学习中的一种技术,属于表示学习范畴。对比学习通过数据之间的对比进行表示学习,让像的样本(正对)所得表示差异小,让不像的样本(负对)所得表示差异大,在多个视图上采用对比学习的方法可以获得深度表示之间的一致性信息。因此,在获取到跨视图统一表示S和各视图特定表示后,本发明采用双重对比学习的方法来约束统一特征表示的学习过程。所述对比学习网络包括包括实例对比网络和簇级对比网络两部分,对比学习网络只用于训练基于一致性表征学习的深度多视图聚类网络,训练结束后由跨视图统一表示S得到统一表征。所述步骤4具体包括:
步骤4.1,将所述跨视图统一表示S和各视图特定表示输入实例对比网络G(·,φ),φ为网络参数,获得跨视图统一表示S和各视图特定表示/>在d维特征空间中的特征表示矩阵,根据各视图特定表示和跨视图统一表示的特征表示矩阵相应行描述同一样本的事实,我们约束S和/>应该具有相似的行特征表示,
其中,hi (v)和hi (S)分别表示视图特定表示zi (v)和si在d维特征空间中的表示,具体实施时,实例对比网络G(·,φ)由一个两层非线性MLP组成;
为了描述方便记hi (m+1)=hi (S),对于每个特征hi (v)总共有(n(m+1)-1)个特征对其中/>为m个正特征对,其余(n-1)(m+1)个负特征对,在对比学习中,正对的相似度要最大化,负对的相似度要最小化,余弦距离用于度量两个特征表示之间的相似度:
两个特征hi (v)和hi (t)之间的对比损失如下:
其中γ1表示温度超参数,n表示数据样本数量,
此外,考虑到邻居样本应该具有相似的表示,将所有样本的邻居定义为正样本,而将其他非邻居样本定义为负样本,这样可以使学习到的表示更适合聚类任务。所以我们采用K近邻方法获得给定样本的top-K个相似节点,构建出每个样本的knn关系图,然后根据邻居划分正负样本。具体来说,如果一个样本在另一个样本的关系图中,则它们形成正对,对于给定的表示hi (v),为其邻居集,我们将其作为正样本,其余为负样本。每个视图单个样本的邻域对比损失为:
其中,表示在hi(v)的关系图中,hj (v)表示与hi (v)在同一批量中的表示,/>在hj (v)的关系图中,这样,相似的样本在潜在空间中聚集得更多,而不相似的样本则保持较大的差距。
考虑到所有视图中的所有样本,总邻域对比损失为:
对于所有视图,实例级对比损失公式如下:
步骤4.2,将所述跨视图统一表示S和各视图特定表示输入簇级对比网络F(·,ξ),ξ为网络参数,获得跨视图统一表示S和各视图特定表示/>在k维聚类空间中的簇分配矩阵,k是多视图数据集的类别数,根据各视图特定表示和跨视图统一表示的簇分配矩阵相应列描述同一类簇的事实,我们约束S和/>应该具有相似的伪标签,
其中,qi (v)和qi (S)分别表示视图特定表示zi (v)和si的伪标签,具体实施时,簇级对比网络F(·;ξ)由一个两层非线性MLP组成,F(·;ξ)的最后一层采用softmax操作;
为了描述方便记qi (m+1)=qi (S),具体地,
其中,qik (v)表示第v个视图中的第i个样本属于第k类的概率,
对于每个列向量q.ω (v)总共有(k(m+1)-1)个特征对其中 为m个正特征对,其余(k-1)(m+1)个负特征对,两个列向量q·c (v)和q.c(t)之间的对比损失如下:
其中γ2表示温度超参数,k表示数据样本类别数,
对于所有视图,簇级对比损失公式如下:
其中,第二项是一个正则化项,避免将所有样本分到同一个簇中。
对比学习网络的总损失如下:
通过最小化对比损失Lcon,可以学习特征空间和聚类空间中的一致性信息。
步骤5,将所述跨视图统一表示输入聚类网络来执行聚类。本发明将前序得到的跨视图统一表示S输入聚类网络,利用基于深度发散的聚类方法DDC来约束跨视图统一表示。具体实施时,聚类网络g(·)由一个两层非线性MLP组成,输出层采用softmax获得软集群分配。聚类损失由三项组成,分别是要求簇是可分离的并且在隐藏表示的空间中紧凑、鼓励不同对象的聚类分配向量是正交的以及将聚类分配向量推向中的标准单纯形,聚类损失如下:
其中,k表示多视图数据样本类别数,A∈Rn×k是一个簇分配矩阵,由跨视图统一表示S在聚类网络g(·)的输出得到g(S)=A∈Rn×k,向量是矩阵A的列,K是由kij=exp(-||hi-hj||2/(2σ2))计算的核相似性矩阵,σ为高斯核带宽,hi和hj是输出层之前的最后一个完全连接层计算的隐藏表示,mij=exp(||αi-ej||2),其中ej是Rk中的单纯形角j。
步骤6,训练所述基于一致性表征学习的深度多视图聚类网络,同时最小化不同组件的损失,直至网络模型收敛,从而产生更适合聚类的统一表示,得到最终聚类结果。
总目标损失函数如下:
L=λ1Lrec+Lcon+Lclu (18)
其中,Lrec表示视图重构损失,Lcon表示对比学习损失,Lclu表示聚类损失,λ1表示视图重构损失所占比例权重。
具体实施时,对于所有类型的数据,首先将它们转换为矢量表示,然后将它们输入到网络模型中,模型采用Adam优化器进行优化。
在本发明实施例中,将多视图表示学习和聚类任务整合到一个统一的框架中,对模型进行迭代训练和优化,使多视图表示学习和聚类任务相互受益;本发明在不同的特征空间进行多视图数据的一致性和互补性信息的学习,能够降低模型崩溃的风险;另外,与现有基于自监督对比学习的深度多视图聚类技术对视图间表示进行对齐不同,本发明引入一种基于双重对比学习和k-最近邻的机制,将跨视图统一表示和各视图的特定表示分别在特征空间和语义空间进行对齐,同时移除假负样本,缓解假负样本对整个对比学习过程的影响,使得具有高结构关系的正对的表示更加相似,能够充分挖掘多视图数据的一致性信息,从而提高了多视图聚类的精度和鲁棒性。
与上面的方法实施例相对应,参见图3,本发明实施例还提供了一种深度多视图聚类装置,包括:
建立模块,用于建立基于一致性表征学习的深度多视图聚类网络,其中,所述基于一致性表征学习的深度多视图聚类网络包括多视图特定信息提取网络、注意力融合网络、对比学习网络、聚类网络;
获取模块,用于获取多视图数据,并将所述多视图数据的每个视图连接所述多视图特定信息提取网络;
第一学习模块,用于获取每个视图特定的表示以及视图特定表示重构的视图原始数据,通过重构约束避免模型崩溃;
融合模块,引入注意力机制学习每个视图的权重系数,通过对来自不同视图的互补信息进行融合得到跨视图统一表示;
第二学习模块,用于将所述跨视图统一表示和各视图的特定表示输入对比学习网络,通过双重对比约束和k-近邻机制实现一致性信息学习;
聚类模块,用于将所述跨视图统一表示输入基于深度发散的聚类网络进行聚类。
参见图4,本发明实施例还提供了一种电子设备,该电子设备包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行前述的深度多视图聚类方法。
具体地,处理器可能是CPU中央处理器,或者是ASIC特定集成电路,或者是被配置成实施本发明实施例的一个或多个集成电路;存储器,用于存放可在处理器上运行的程序,存储器可能包含高速RAM存储器,还可能包括非易失性存储器,例如至少一个磁盘存储器;程序可以包括程序代码,该程序代码包括计算机可执行指令;通信接口,用于存储和处理器之间的通信。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中的深度多视图聚类方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种深度多视图聚类方法,其特征在于:包括以下步骤:
步骤1,构建基于一致性表征学习的深度多视图聚类网络,基于一致性表征学习的深度多视图聚类网络包括多视图特定信息提取网络、注意力融合网络、对比学习网络以及聚类网络;
步骤2,获取多视图数据,并将每个视图的原始数据输入所述多视图特定信息提取网络,得到各视图的特定表示;
步骤3,将所述各视图的特定表示输入所述注意力融合网络,得到跨视图统一表示;
步骤4,将所述跨视图统一表示和各视图的特定表示输入对比学习网络,通过双重对比约束和k-近邻机制实现一致性信息学习;
步骤5,将所述跨视图统一表示输入聚类网络来执行聚类;
步骤6,训练所述基于一致性表征学习的深度多视图聚类网络,同时最小化不同组件的损失,直至网络模型收敛,从而产生更适合聚类的统一表示,得到最终聚类结果。
2.根据权利要求1所述的深度多视图聚类方法,其特征在于:所述多视图特定信息提取网络包括视图特定的编码网络和视图特定的解码网络两部分,所述步骤2具体包括:
步骤2.1,对于多视图数据X={X(1),X(2),...,X(m)},其中,m表示视图数,第v个视图中的数据样本其中n为数据的样本数,dv为第v个视图的原始特征维度,利用视图特定的编码网络提取每个视图特定的表示/>
zi (v)=Ev(xi (v);θv)(1)
其中,Ev(·)表示第v个视图的编码网络,θv表示相应的参数,xi (v)是X(v)的第i个样本,表示Dz维特征空间中的嵌入特征;
步骤2.2,将步骤2.1得到的视图特定表示输入到视图特定的解码网络进行重建:
其中,Dv(·)表示第v个视图的解码网络,φv表示相应的参数,是重构的表示;
重构损失Lrec如下:
通过最小化重构损失Lrec,可以将输入X(v)转换为表示Z(v)。
3.根据权利要求1所述的深度多视图聚类方法,其特征在于:所述注意力融合网络引入注意力机制学习每个视图的权重系数,通过对来自不同视图的信息进行融合得到跨视图统一表示S:
其中,ai (v)表示由softmax函数获得的每个视图的权重系数,
其中,f(·)由两层非线性MLP组成。
4.根据权利要求1所述的深度多视图聚类方法,其特征在于:所述步骤4中的对比学习网络包括实例对比网络和簇级对比网络两部分,将所述跨视图统一表示S和各视图特定表示分别输入实例对比网络和簇级对比网络中,通过最小化两个对比网络的总损失,学习特征空间和聚类空间中的一致性信息,两个对比学习网络只用于训练基于一致性表征学习的深度多视图聚类网络,训练结束后由跨视图统一表示S得到统一表征。
5.根据权利要求4所述的深度多视图聚类方法,其特征在于:所述实例对比网络的具体过程为:将所述跨视图统一表示S和各视图特定表示输入实例对比网络G(·;φ),φ为网络参数,获得跨视图统一表示S和各视图特定表示/>在d维特征空间中的特征表示矩阵,约束S和/>具有相似的行特征表示,
其中,hi (v)和hi (S)分别表示视图特定表示zi (v)和si在d维特征空间中的表示;
记hi (m+1)=hi (S),对于每个特征hi (v)总共有(n(m+1)-1)个特征对其中/>为m个正特征对,其余(n-1)(m+1)个负特征对,在对比学习中,正对的相似度要最大化,负对的相似度要最小化,余弦距离用于度量两个特征表示之间的相似度:
两个特征hi (v)和hi (t)之间的对比损失如下:
其中γ1表示温度超参数,n表示数据样本数量,
考虑到邻居样本应该具有相似的表示,将所有样本的邻居定义为正样本,而将其他非邻居样本定义为负样本,采用K近邻方法获得给定样本的top-K个相似节点,构建出每个样本的knn关系图,然后根据邻居划分正负样本,具体来说,如果一个样本在另一个样本的关系图中,则它们形成正对,对于给定的表示hi (v),为其邻居集,将其作为正样本,其余为负样本,每个视图单个样本的邻域对比损失为:
其中,表示在hi (v)的关系图中,hj (v)表示与hi (v)在同一批量中的表示,/>表示在hj (v)的关系图中,总邻域对比损失为:
对于所有视图,实例级对比损失公式如下:
6.根据权利要求4所述的深度多视图聚类方法,其特征在于:所述簇级对比网络的具体过程为:将所述跨视图统一表示S和各视图特定表示输入簇级对比网络F(·;ξ),ξ为网络参数,获得跨视图统一表示S和各视图特定表示/>在k维聚类空间中的簇分配矩阵,k是多视图数据集的类别数,约束S和/>具有相似的伪标签,
其中,qi (v)和qi (S)分别表示视图特定表示zi (v)和si的伪标签,
记qi (m+1)=qi (S),具体地,
其中,qik (v)表示第v个视图中的第i个样本属于第k类的概率;
对于每个列向量q·ω (v)总共有(k(m+1)-1)个特征对其中{q·ω (v),/>为m个正特征对,其余(k-1)(m+1)个负特征对,两个列向量q·c (v)和q·c (t)之间的对比损失如下:
其中γ2表示温度超参数,k表示数据样本类别数,
对于所有视图,簇级对比损失公式如下:
其中,第二项是一个正则化项,避免将所有样本分到同一个簇中。
最后,两个对比学习网络的总损失如下:
通过最小化对比损失Lcon,学习特征空间和聚类空间中的一致性信息。
7.根据权利要求1所述的深度多视图聚类方法,其特征在于:所述步骤5利用基于深度发散的聚类方法DDC来约束跨视图统一表示,聚类损失由三项组成,分别是要求簇是可分离的并且在隐藏表示的空间中紧凑、鼓励不同对象的聚类分配向量是正交的以及将聚类分配向量推向中的标准单纯形,聚类损失如下:
其中,k表示多视图数据样本类别数,A∈Rn×k是一个簇分配矩阵,由跨视图统一表示S在聚类网络g(·)的输出得到g(S)=AvRn×k,向量是矩阵A的列,K是由kij=exp(-||hi-hj||2/(2σ2))计算的核相似性矩阵,σ为高斯核带宽,hi和hj是输出层之前的最后一个完全连接层计算的隐藏表示,mij=exp(||αi-ej||2),其中ej是Rk中的单纯形角j。
8.一种深度多视图聚类装置,其特征在于,所述装置包括:
建立模块,用于建立基于一致性表征学习的深度多视图聚类网络,其中,所述基于一致性表征学习的深度多视图聚类网络包括多视图特定信息提取网络、注意力融合网络、对比学习网络、聚类网络;
获取模块,用于获取多视图数据,并将所述多视图数据的每个视图连接所述多视图特定信息提取网络;
第一学习模块,用于获取每个视图特定的表示以及视图特定表示重构的视图原始数据,通过重构约束避免模型崩溃;
融合模块,引入注意力机制学习每个视图的权重系数,通过对来自不同视图的互补信息进行融合得到跨视图统一表示;
第二学习模块,用于将所述跨视图统一表示和各视图的特定表示输入对比学习网络,通过双重对比约束和k-近邻机制实现一致性信息学习;
聚类模块,用于将所述跨视图统一表示输入基于深度发散的聚类网络进行聚类。
9.一种电子设备,其特征在于,该电子设备包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序,以实现权利要求1-5任一项所述的深度多视图聚类方法。
10.一种计算机可读存储介质,其特征在于:可读存储介质上存储有程序,该程序被处理器执行,实现权利要求1-5任一项所述的深度多视图聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310929969.6A CN116958613A (zh) | 2023-07-27 | 2023-07-27 | 深度多视图聚类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310929969.6A CN116958613A (zh) | 2023-07-27 | 2023-07-27 | 深度多视图聚类方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958613A true CN116958613A (zh) | 2023-10-27 |
Family
ID=88460050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310929969.6A Pending CN116958613A (zh) | 2023-07-27 | 2023-07-27 | 深度多视图聚类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958613A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292162A (zh) * | 2023-11-27 | 2023-12-26 | 烟台大学 | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 |
-
2023
- 2023-07-27 CN CN202310929969.6A patent/CN116958613A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292162A (zh) * | 2023-11-27 | 2023-12-26 | 烟台大学 | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 |
CN117292162B (zh) * | 2023-11-27 | 2024-03-08 | 烟台大学 | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7317050B2 (ja) | 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN109284414B (zh) | 基于语义保持的跨模态内容检索方法和系统 | |
Zamiri et al. | MVDF-RSC: Multi-view data fusion via robust spectral clustering for geo-tagged image tagging | |
CN111091010A (zh) | 相似度确定、网络训练、查找方法及装置和存储介质 | |
CN113128600A (zh) | 一种结构化深度非完整多视角聚类方法 | |
CN116958613A (zh) | 深度多视图聚类方法、装置、电子设备及可读存储介质 | |
CN114065850A (zh) | 基于统一锚点与子空间学习的谱聚类方法及系统 | |
CN116129141A (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN117377952A (zh) | 一种物品推荐方法、物品知识图谱、模型训练方法及装置 | |
CN114048851A (zh) | 基于不均衡间隔的语义特征自学习方法、设备及存储介质 | |
CN113536015A (zh) | 一种基于深度辨识度迁移的跨模态检索方法 | |
CN109614581B (zh) | 基于对偶局部学习的非负矩阵分解聚类方法 | |
CN109325515B (zh) | 基于局部学习正则化的深度矩阵分解方法及图像聚类方法 | |
CN116561272A (zh) | 开放域视觉语言问答方法、装置、电子设备及存储介质 | |
CN114882288B (zh) | 基于分层图增强堆叠自编码器的多视图图像分类方法 | |
CN116543192A (zh) | 一种基于多视角特征融合的遥感图像小样本分类方法 | |
Rad et al. | A multi-view-group non-negative matrix factorization approach for automatic image annotation | |
CN114282058A (zh) | 模型训练与视频主题预测的方法、装置及设备 | |
CN115293220A (zh) | 基于矩阵分解和多划分对齐的多视图聚类方法及系统 | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
KR20210038027A (ko) | 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |