CN117292162B - 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 - Google Patents
一种多视图图像聚类的目标跟踪方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117292162B CN117292162B CN202311585727.6A CN202311585727A CN117292162B CN 117292162 B CN117292162 B CN 117292162B CN 202311585727 A CN202311585727 A CN 202311585727A CN 117292162 B CN117292162 B CN 117292162B
- Authority
- CN
- China
- Prior art keywords
- view
- feature representation
- representation
- clustering
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000007704 transition Effects 0.000 claims abstract description 46
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 230000002776 aggregation Effects 0.000 claims abstract description 9
- 238000004220 aggregation Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 6
- 238000012800 visualization Methods 0.000 description 6
- 238000010206 sensitivity analysis Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- VCULZBXVVZYUSW-QVUOKDEMSA-N [(2r)-3-[2-[5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]pentanoylamino]ethoxy-hydroxyphosphoryl]oxy-2-hexadecanoyloxypropyl] hexadecanoate Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)NCCOP(O)(=O)OC[C@@H](COC(=O)CCCCCCCCCCCCCCC)OC(=O)CCCCCCCCCCCCCCC)SC[C@@H]21 VCULZBXVVZYUSW-QVUOKDEMSA-N 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010923 batch production Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 101100049727 Arabidopsis thaliana WOX9 gene Proteins 0.000 description 1
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 101150059016 TFIP11 gene Proteins 0.000 description 1
- 102100032856 Tuftelin-interacting protein 11 Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种多视图图像聚类的目标跟踪方法、系统、设备及介质,涉及图像处理技术领域,包括:将视图特定学习和视图通用学习分开到不同分支中,解决重建和一致性间的冲突;设计锚点共享特征聚合模块,学习共享锚点,建立锚点与样本间的二部图关系,并进一步改进样本表示,增强不同样本的通用表示的区分力;设计簇内对比学习模块,将转移概率纳入对比学习中,专注于最小化具有低转移概率的负样本对之间的相似性,减轻样本级对比对齐中的冲突,提高多视图聚类效率和准确度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种多视图图像聚类的目标跟踪方法、系统、设备及介质。
背景技术
多视图数据是指从多个视图或来源收集或生成的数据,对同一基础对象或现象的多种表示。例如,一个物种通过文本数据和不同的基因组数据来描述;图像以RGB图像、热像信息等多种方式表示;视频从不同的音频/视觉特征表示。多视图学习旨在通过分析跨视图相关性来建立共享表示,其目标是对齐不同类型的特征或模态,特别是在多视图聚类(Multi-View Clustering,MVC)任务中,数据样本通过利用从多个角度获得的共识表示或结构信息,通过无监督方法进行分类,在聚类任务中存在可以利用的潜在先验知识,即样本之间存在相关性。
传统的多视图聚类方法充分学习了样本之间的相关性,如基于图的方法、基于子空间的方法以及矩阵因子分解方法。通常,这些方法首先通过学习每个视图中的图结构信息或子空间自表示结构关系来建立样本之间的相关性,然后估计自适应权重以巩固从多个视图获得的结构关系。然而,这些方法中的大多数是直接在初始输入特征或预定的核特征上执行操作,这些特征可能受到在数据收集或核空间选择过程中引入的噪声和冗余的影响。
深度聚类任务是一种无监督学习方法(没有标签),输入样本之间具有强烈的相关性。一些深度聚类方法将传统聚类方法扩展到深度网络学习,例如深度子空间聚类和深度图学习聚类。这些方法充分探索图结构信息或子空间自表示关系,以增强每个样本的表示。通常,为了获取样本之间的结构关系,这些方法需要一次性输入所有样本或所有样本的图。这可能导致较大的计算复杂性,使其不适合处理大规模数据集。
深度嵌入聚类(Deep Embedded Cluster,DEC)方法采用分批处理方式来处理大型数据集,基于批处理的方法通过不同的对齐损失从多个视图中学习每个样本的表示;例如,使用柯西-施瓦茨(CS)散度、Kullback-Leibler(KL)散度来保持聚类分配和数据表示的一致性,使用对比学习(CL)来保持不同视图的表示的一致性。
尽管现有模型在多视图聚类任务中取得显著的改进,但仍然存在一些问题:
1)一些方法从原始数据中学习特征表示,并使用这些特征表示来重建原始数据以避免琐碎的解决方案,同时,使用这些相同的特征表示来从多个视图中学习一致的特征,以保持一致性。然而,这会导致一致性与重建之间的冲突,一致性寻求获得所有视图之间共享的特征,而重建旨在保留每个视图的特定特征。
2)一些DEC方法采用视图级融合,即对每个视图进行加权求和融合或对所有视图进行连接融合,来从多个视图中获取一致的特征。然而,这些方法忽视了样本之间的相关性,难以推导具有辨别力的一致表示。
3)基于对比学习方法的对齐损失通常在样本级别区分正样本对和负样本对。因此,相同样本的不同视图数据被标记为正样本对,即使它们属于同一聚类,也被视为负样本对。这种方法可能与聚类目标产生冲突,因为同一聚类中的样本表示理想情况下应该具有相似性。
发明内容
为了解决上述问题,本发明提出了一种多视图图像聚类的目标跟踪方法、系统、设备及介质,基于共享锚点增强来自不同视图中公共表示的判别能力,设计聚类对比学习模块,在全局共识特征表示和视图特定特征表示之间进行对齐,将转移概率纳入对比学习中,减小具有低转移概率的负样本之间的表示相似性,提高多视图聚类效率和准确度。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种多视图图像聚类的目标跟踪方法,包括:
获取多视图图像训练集,对每个样本下每个视图的图像提取潜在特征表示,并以此对每个视图进行重建,提取视图特定特征表示,将所有视图的潜在表示级联后得到全局潜在特征表示;
引入共享锚点,通过全局潜在特征表示与锚点执行元素乘法操作得到锚点与每个视图的图像间的二部图关系,并以此增强全局潜在特征表示,得到全局共识特征表示;
对全局共识特征表示计算不同视图的图像间的转移概率,对每个视图的视图特定特征表示计算其与全局共识特征表示之间的相似度,根据相似度和转移概率,以最小化不同样本的视图特定特征表示与全局共识特征表示间的相似度为目标,构建聚类对比损失函数,并结合重建损失训练得到多视图聚类网络;
对待分类的多视图图像集,采用多视图聚类网络,得到同一目标的多视图聚类结果,从而进行目标跟踪。
作为可选择的实施方式,引入共享的用于学习二部图关系的锚点和用于增强全局潜在特征表示的锚点/>,通过全局潜在特征表示与锚点/>执行元素乘法操作得到二部图关系,且二部图每一行之和为1,通过二部图关系和锚点/>执行元素乘法操作得到全局共识特征表示。
作为可选择的实施方式,所述转移概率为:;其中,/>和/>表示第i个和第j个样本的特征表示;/>表示/>和/>之间的距离,/>表示距离期望值;/>表示拉格朗日参数;n为样本总数。
作为可选择的实施方式,所述转移概率为:;其中,/>是k个非零转移概率值中从小到大排序得到的距离,/>表示第k+1个样本的特征表示;/>表示最大值函数。
作为可选择的实施方式,所述聚类对比损失函数为:
;
其中,是转移概率,T表示温度参数;N为样本数,V为视图数,C为相似度;/>为全局共识特征表示F的第i行向量;/>为视图特定表示/>第i行向量和第j行向量。
作为可选择的实施方式,所述重建损失为:/>;其中,/>为输入第v个视图的原图像,/>为重构样本,V为视图数。
作为可选择的实施方式,多视图聚类网络的总损失为:
;
其中,为聚类对比损失函数的权重;/>为解码器参数,/>和/>均编码器参数;和/>均表示模型权重参数;/>为全局潜在特征表示;/>为全局共识特征表示,/>为视图特定特征表示。
第二方面,本发明提供一种多视图图像聚类的目标跟踪系统,包括:
特征提取模块,被配置为获取多视图图像训练集,对每个样本下每个视图的图像提取潜在特征表示,并以此对每个视图进行重建,提取视图特定特征表示,将所有视图的潜在表示级联后得到全局潜在特征表示;
锚点共享特征聚合模块,被配置为引入共享锚点,通过全局潜在特征表示与锚点执行元素乘法操作得到锚点与每个视图的图像间的二部图关系,并以此增强全局潜在特征表示,得到全局共识特征表示;
聚类对比学习模块,被配置为对全局共识特征表示计算不同视图的图像间的转移概率,对每个视图的视图特定特征表示计算其与全局共识特征表示之间的相似度,根据相似度和转移概率,以最小化不同样本的视图特定特征表示与全局共识特征表示间的相似度为目标,构建聚类对比损失函数,并结合重建损失训练得到多视图聚类网络;
聚类模块,被配置为对待分类的多视图图像集,采用多视图聚类网络,得到同一目标的多视图聚类结果,从而进行目标跟踪。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
在重建分支中,为了减少重建损失,学习到的潜在特征表示包含大量与视图相关的私有信息,如果直接将它们融合来生成一致特征,可能会导致较差的聚类质量,这种冲突的原因在于一致性,重建旨在保留每个视图的私有特征,而一致性旨在获取所有视图的共同特征,这与重建目标相冲突。因此,本发明从不同视图中学习一致特征表示,并将其作为一个独立分支,将视图特定特征的学习和视图公共特征的学习分开到不同的网络分支中,解决重建和一致性之间的冲突。
目前通常采用随机批处理来处理大型数据集,由于样本的随机性,批次中可能没有强烈的结构关系,不能通过其他样本的表示来增强自我表示。由此,本发明设计锚点共享特征聚合模块,从不同批次数据样本中学习共享锚点,建立锚点与样本之间的二部图关系,并进一步利用它来改进样本表示,增强来自不同视图中公共表示的判别能力,促进同一聚类中样本数据表示之间的相似性。
本发明设计聚类对比学习模块,在全局共识特征表示和视图特定特征表示之间进行对齐,将来自同一样本不同视图的表示分配为正样本,对于负样本,将转移概率纳入对比学习中,能够减小具有低转移概率的负样本之间的表示相似性,解决样本级对比学习方法中观察到的冲突。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的多视图图像聚类的目标跟踪方法流程图;
图2为本发明实施例1提供的多视图图像聚类的目标跟踪方法的总体网络框架;
图3为本发明实施例1提供的在不同数据集上的参数敏感性分析图;
图4为本发明实施例1提供的在不同数据集上的收敛性分析图;
图5为本发明实施例1提供的可视化结果。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“包含”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种多视图图像聚类的目标跟踪方法,如图1所示,包括:
获取多视图图像训练集,对每个样本下每个视图的图像提取潜在特征表示,并以此对每个视图进行重建,提取视图特定特征表示,将所有视图的潜在表示级联后得到全局潜在特征表示;
引入共享锚点,通过全局潜在特征表示与共享锚点执行元素乘法操作得到锚点与每个视图的图像间的二部图关系,并以此增强全局潜在特征表示,得到全局共识特征表示;
对全局共识特征表示计算不同视图的图像间的转移概率,对每个视图的视图特定特征表示计算其与全局共识特征表示之间的相似度,根据相似度和转移概率,以最小化不同样本的视图特定特征表示与全局共识特征表示间的相似度为目标,构建聚类对比损失函数,并结合重建损失训练得到多视图聚类网络;
对待分类的多视图图像集,采用多视图聚类网络,得到同一目标的多视图聚类结果,从而进行目标跟踪。
图2为本实施例要训练的多视图聚类网络的总体网络框架,多视图聚类网络是基于多视图表示学习的锚共享和聚类对比学习网络(Anchor-sharing and Cluster-wiseContrastive Learning Network for Multi-View Representation Learning,ACCMVC),由锚点共享特征聚合(Anchor Shared Feature Aggregation Module,ASFA)模块、转移概率学习(Transfer probability learning,TPL)模块和聚类对比学习(Cluster ContrastLearning,CwCL)模块组成。
具体方法包括:
(1)多视图图像重建;
多视图图像训练集由N个样本和V个具有/>特征维度的视图组成。多视图数据会受到冗余和随机噪声等问题的困扰,这凸显了从原始数据中提取代表性特征表示的重要性,一种常用方法是利用无监督模型,例如自动编码器,将原始数据特征投影到一个可以捕获基本信息的低维特征空间中。
具体地,自动编码器包括4个编码器和4个解码器,为每个视图的图像使用特定的编码器,第i个样本第v个视图的图像的低维的潜在特征表示/>由第v个编码器学习,即:/>,其中/>表示第v个编码器的参数。
在解码器部分,通过解码器对/>进行解码获得重构样本/>,即:;其中/>表示第v个解码器的参数;此时,重建损失/>为:,其中n表示一个批次中的样本数量,整个训练集重构后的样本为。
(2)锚点共享特征聚合模块;
在重建分支中,为了减少重建损失,通常学习到的潜在特征表示包含大量与视图相关的私有信息,如果将它们融合以生成重建分支中的一致特征,可能会导致较差的聚类质量,这种冲突的原因在于一致性,重建旨在保留每个视图的私有特征,而一致性旨在获取所有视图的共同特征,这与重建目标相冲突。因此,本实施例将从不同视图中学习一致特征表示,并将其作为一个独立分支。
具体地,通过参数为的第v个编码器/>提取/>的潜在特征表示/>,即:/>,/>表示在一个批次中的所有特征;为了利用多个视图提供的互补信息,将所有视图的嵌入表示矩阵/>连接成全局潜在特征表示,/>,有助于减轻在某些视图中聚类结构不明确可能对整体性能产生负面影响。
鉴于同一聚类中的样本通常具有相似的潜在表示,增强跨不同视图的样本的一致表示不应仅仅依赖于来自不同视图中相同样本的表示的加权和,还应该利用样本之间的相似关系来增强表示。在深度学习中通常采用随机批处理来处理大型数据集,由于样本的随机性,批次中可能没有强烈的结构关系,不能通过其他样本的表示来增强自我表示。由此,本实施例学习共享锚点,这些锚点不是来自批次中的样本,而是在整个数据集中共享的,通过计算样本和锚点间的二部图,增强样本自我表示。
具体地,学习两个统一的锚点和/>,/>用于学习二部图关系,用于增强全局潜在特征表示;其中,全局潜在特征表示与锚点/>执行元素乘法操作得到二部图关系B为:
;
其中,,/>表示Z的第i行向量;/>表示/>的第j行向量。
二部图呈现样本和锚点之间的相关性,需要确保二部图的每一行之和为1,因此,二部图的结构约束为:,其中/>表示B的第 i 行向量。
通过利用二部图关系B和锚点,增强样本的特征表示,这允许通过具有高相关性的锚点来增强样本的数据表示,最终降低计算复杂度并促进同一聚类中样本数据表示之间的相似性;描述为:
;
;
其中,表示/>的第j行向量,表示第j个锚点的表示;/>表示第i个样本和第j个锚点之间的关系;/>,由于/>是通过连接所有视图中的信息形成的,通常包含冗余信息,为了克服这个问题,经过一个全连接层的处理,以消除冗余信息。
(3)转移概率学习模块(TPL);
采用对比学习来对齐不同视图获得的特征表示,不同于以前的逐样本对比学习对齐,本实施例进行以簇为基础的对比学习对齐,旨在学习从已学的共识表示中得出样本之间的亲和关系。理想情况下,如果两个样本的表示相似,它们之间的亲和关系应该很大,两个样本之间的亲和关系用转移概率表示为,这个过程描述为:,其中,/>表示/>和/>之间的距离,/>且。然而,这个问题存在一个平凡解,如果/>是/>的最近邻居,转移概率值可以等于1,而其他值都为0。
为了解决这个问题,本实施例采用范数正则化,即:/>,该方程的解是一个概率均匀分布,可以避免平凡解。因此,将两个方程结合起来获得转移概率:/>,其中,/>和/>表示第i个和第j个样本的特征表示;/>表示样本之间距离的期望值。
继而通过引入拉格朗日乘子建立拉格朗日函数得到方程解:
;其中,/>表示拉格朗日参数。
上述方程的KKT条件如下:
,
优化解是,其中/>表示最大值函数。
在实际应用中,一个样本通常只能与少数几个点相连,而不是与所有点相连。因此,设k个转移概率值是非零的,如果/>,那么就会有k个非零值,其中,/>是按照/>从小到大排序得到的,/>表示第k+1个样本的特征表示;由此,方程解转换为:/>。
(4)聚类对比学习模块(CwCL);
在ASFA模块获得的全局共识特征表示F和自动编码器在高级特征空间中获得的视图特定特征表示之间进行对齐;将来自同一样本不同视图的表示分配为正样本,对于负样本,结合转移概率进行对比学习,能够减小具有低转移概率的负样本之间的表示相似性,解决样本级对比学习方法中观察到的冲突。
具体地,引入余弦距离计算全局共识特征表示F和视图特定表示间的相似度:;其中,/>为全局共识特征表示F的第i行向量;/>为视图特定表示第i行向量和第j行向量。
聚类对比损失函数为:
;
其中,是转移概率,T表示温度参数;/>值较小会导致/>和/>之间的角度差异较大,这意味着,当转移概率/>较小(表示它们可能不在同一聚类中)时,它们对应的表示是不一致的,当转移概率较高时,它们的表示是一致的。
与现有对比学习方法不同,现有对比学习方法对齐不同视图的表示,即样本级对齐,而本实施例将转移概率添加到负样本中,在具有低转移概率的不同样本的视图特定特征表示和全局共识特征表示之间最小化相似性,打破了以前在样本级别的对比学习中存在的限制。
在本实施例中,多视图聚类网络的总损失包括聚类对比损失函数和重建损失函数,即:
;
其中,为聚类对比损失函数的权重;/>是重建损失,表示从原始的多视图图像到通过嵌入表示矩阵/>生成的重构样本/>之间的重建损失,用于避免模型塌陷;/>为解码器参数,/>和/>均编码器参数;/>是聚类对比损失函数,表示通过对比学习在结构增强的全局共识特征表示/>和视图特定特征表示/>之间获得的一致性数据表示损失,和/>分别表示获得/>和/>时的模型权重参数,/>为全局潜在特征表示。
本实施例的方法对不同人在不同角度拍摄的图像集进行图像聚类处理后,将同一个人脸所有图像检测出来,以此进行目标人的跟踪。
本实施例使用原始的多视图图像训练集输入到自动编码器中进行训练,得到每个视图的潜在特征表示,将每个视图的潜在特征表示级联起来获得全局公共的潜在特征表示;在锚点共享特征聚合模块中,通过全连接层获得低维高语义的全局共识特征表示,将低维高语义的全局共识特征表示通过转移概率学习模块获得转移概率,将每个视图的潜在特征表示也通过全连接层获得每个视图的低维高语义的视图特定特征表示;最后将转移概率、低维高语义的全局共识特征表示、每个视图的低维高语义的全局共识特征表示,输入到聚类对比学习模块中进行对比学习,通过随机梯度下降的方法不断优化损失函数和网络参数,最终获得聚类结果。在测试阶段,将待分类的多视图图像集输入到多视图聚类网络中,得到同一目标的多视图聚类结果,从而进行目标跟踪,提高多视图聚类效率和准确度。
为了进一步验证本实施例方法的可行性和有效性,进行相关验证实验。对所有数据集,使用多层感知器和具有相同结构的ReLU激活函数,将它们转换为向量并为所有视图实现自动编码。在8个不同尺度的公共多视图数据集上进行实验,分别是Prokaryotic、Synthetic3d、BDGP、Fashion、CCV、Hdigit、ALOIdeep 和 YouTubeFace,具体为:
(1)Prokaryotic数据集:包含有关551个原核物种的信息,这些物种通过文本数据和不同的基因组表示呈现,文本数据表示为描述每种物种的词袋格式,而基因组表示包括蛋白质组和基因库的组合,蛋白质组的组成被编码为氨基酸的频率,而基因库被编码为基因组中基因家族的存在/缺失指标;
(2)Synthetic3d数据集:是一个合成数据集,由三个视图组成,其中特征是相关的,每个视图包含三个聚类,由三分量高斯混合模型生成;
(3)BDGP数据集:包括果蝇胚胎的图像,由2500个样本组成,代表5个对象,每个样本都由视觉特征(1750)和文本特征(79)表征;
(4)Fashion数据集:该数据集包括 10 个不同产品(例如T恤、Trouser、Sneeaker、Bag等)的图像,每个产品由三种图像表示,每张图像的大小为28×28像素;
(5)CCV数据集:CCV(哥伦比亚消费者视频)是来自 YouTube的视频数据集,包含9317个跨越20个语义类别的视频,该数据集使用三个广泛使用的音频/视觉特征表示:SIFT(5000)、STIP (5000) 和 MFCC (4000);
(6)Hdigit数据集:包括两个视图(MNIST 手写数字和 USPS 手写数字)的10000个样本,维度分别为784和256;
(7)ALOIdeep数据集:由来自三视图特征的100多个对象的10800张图像组成,这些图像是用ResNet50、Vgg16和Inception-v3网络的预训练权重提取的;
(8)YouTubeFace数据集:是从YouTube获得的不同人脸视频的数据库。
使用三种评估指标,聚类准确率ACC、标准化互信息NMI、纯度Purity,聚类结果见表1-表4,证明本实施例方法是可行性且有效的。
表1 在公共多视图数据集上的聚类结果
。
表2 在公共多视图数据集上的聚类结果
。
表3 在公共多视图数据集上的聚类结果
。
表4 在公共多视图数据集上的聚类结果
。
如图3所示,评估参数对ACCMVC的影响,参数包括权衡系数λ和温度参数T,其中,图3中的(a)为在Synthetic3d数据集下的参数敏感性分析图,图3中的(b)为在Hdigit数据集下的参数敏感性分析图,图3中的(c)为在BDGP数据集下的参数敏感性分析图,图3中的(d)为在Fashion数据集下的参数敏感性分析图。根据λ从到/>和τ从0.2到0.8的变化,观察到在λ在0.1到1的范围和T在0.3到0.5的范围内,ACCMVC的聚类结果没有显著受到影响,基于经验分析,设置λ =1.0和T =0.5。
如图4所示,其中,图4中的(a)为在Synthetic3d数据集下的收敛性分析图,图4中的(b)为在Fashion数据集下的收敛性分析图,图4中的(c)为在ALOIdeepP数据集下的收敛性分析图,图4中的(d)为在YouTubeFace数据集下的收敛性分析图。随着迭代次数的变化,损失值(Loss)持续下降直至一个较小的值,表明ACCMVC方法已经收敛。此外,ACC、NMI和Purity指标显示,随着迭代次数的增加,它们一开始会逐渐增加,然后在一个狭窄范围内波动。
如图5为随着训练轮数(Epoch)的增加,Hdigit数据集和Fashion数据集上学习公共特征表示F的可视化结果;其中,图5中的(a)为训练轮数Epoch为0时,Hdigit数据集的可视化结果,图5中的(b)为训练轮数Epoch为10时,Hdigit数据集的可视化结果,图5中的(c)为训练轮数Epoch为20时,Hdigit数据集的可视化结果,图5中的(d)为训练轮数Epoch为0时,Fashion数据集的可视化结果,图5中的(e)为训练轮数Epoch为10时,Fashion数据集的可视化结果,图5中的(f)为训练轮数Epoch为20时,Fashion数据集的可视化结果,由此可得,经过ASFA模块后,由于聚类结构的改进,簇变得更为分离。
实施例2
本实施例提供一种多视图图像聚类的目标跟踪系统,包括:
特征提取模块,被配置为获取多视图图像训练集,对每个样本下每个视图的图像提取潜在特征表示,并以此对每个视图进行重建,提取视图特定特征表示,将所有视图的潜在表示级联后得到全局潜在特征表示;
锚点共享特征聚合模块,被配置为引入共享锚点,通过全局潜在特征表示与锚点执行元素乘法操作得到锚点与每个视图的图像间的二部图关系,并以此增强全局潜在特征表示,得到全局共识特征表示;
聚类对比学习模块,被配置为对全局共识特征表示计算不同视图的图像间的转移概率,对每个视图的视图特定特征表示计算其与全局共识特征表示之间的相似度,根据相似度和转移概率,以最小化不同样本的视图特定特征表示与全局共识特征表示间的相似度为目标,构建聚类对比损失函数,并结合重建损失训练得到多视图聚类网络;
聚类模块,被配置为对待分类的多视图图像集,采用多视图聚类网络,得到同一目标的多视图聚类结果,从而进行目标跟踪。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种多视图图像聚类的目标跟踪方法,其特征在于,包括:
获取多视图图像训练集,对每个样本下每个视图的图像提取潜在特征表示,并以此对每个视图进行重建,提取视图特定特征表示,将所有视图的潜在特征表示级联后得到全局潜在特征表示;
引入共享锚点,通过全局潜在特征表示与锚点执行元素乘法操作得到锚点与每个视图的图像间的二部图关系,并以此增强全局潜在特征表示,得到全局共识特征表示;
对全局共识特征表示计算不同视图的图像间的转移概率,对每个视图的视图特定特征表示计算其与全局共识特征表示之间的相似度,根据相似度和转移概率,以最小化不同样本的视图特定特征表示与全局共识特征表示间的相似度为目标,构建聚类对比损失函数,并结合重建损失训练得到多视图聚类网络;所述转移概率的优化函数为:
;
其中,和/>表示第i个多视图图像样本和第j个多视图图像样本的特征表示;表示/>和/>之间的距离,/>表示距离期望值;/>表示拉格朗日参数;N为样本总数;
通过引入拉格朗日乘子建立拉格朗日函数得到方程解:
;
上述方程的KKT条件如下:
;
优化解为;
设k个转移概率值是非零的,如果/>,那么就会有k个非零值;所述转移概率/>为:
;
其中,表示拉格朗日参数;/>是k个非零转移概率值中从小到大排序得到的距离,/>表示第k+1个多视图图像样本的特征表示;/>表示最大值函数;
对待分类的多视图图像集,采用多视图聚类网络,得到同一目标的多视图聚类结果,从而进行目标跟踪。
2.如权利要求1所述的一种多视图图像聚类的目标跟踪方法,其特征在于,引入共享的用于学习二部图关系的锚点和用于增强全局潜在特征表示的锚点/>,通过全局潜在特征表示与锚点/>执行元素乘法操作得到二部图关系,且二部图每一行之和为1,通过二部图关系和锚点/>执行元素乘法操作得到全局共识特征表示。
3.如权利要求1所述的一种多视图图像聚类的目标跟踪方法,其特征在于,所述聚类对比损失函数为:
;
其中,是转移概率,T表示温度参数;N为多视图图像样本数,V为视图数,C为相似度;为全局共识特征表示F的第i行向量;/>为视图特定表示/>第i行向量和第j行向量。
4.如权利要求3所述的一种多视图图像聚类的目标跟踪方法,其特征在于,所述重建损失为:/>;其中,/>为输入第v个视图的原图像,/>为重构多视图图像样本,V为视图数。
5.如权利要求4所述的一种多视图图像聚类的目标跟踪方法,其特征在于,多视图聚类网络的总损失为:
;
其中,为聚类对比损失函数的权重;/>为解码器参数,/>和/>均编码器参数;/>和/>均表示模型权重参数;/>为全局潜在特征表示;/>为全局共识特征表示,/>为视图特定特征表示。
6.一种多视图图像聚类的目标跟踪系统,其特征在于,包括:
特征提取模块,被配置为获取多视图图像训练集,对每个样本下每个视图的图像提取潜在特征表示,并以此对每个视图进行重建,提取视图特定特征表示,将所有视图的潜在特征表示级联后得到全局潜在特征表示;
锚点共享特征聚合模块,被配置为引入共享锚点,通过全局潜在特征表示与锚点执行元素乘法操作得到锚点与每个视图的图像间的二部图关系,并以此增强全局潜在特征表示,得到全局共识特征表示;
聚类对比学习模块,被配置为对全局共识特征表示计算不同视图的图像间的转移概率,对每个视图的视图特定特征表示计算其与全局共识特征表示之间的相似度,根据相似度和转移概率,以最小化不同样本的视图特定特征表示与全局共识特征表示间的相似度为目标,构建聚类对比损失函数,并结合重建损失训练得到多视图聚类网络;所述转移概率的优化函数为:
;
其中,和/>表示第i个多视图图像样本和第j个多视图图像样本的特征表示;表示/>和/>之间的距离,/>表示距离期望值;/>表示拉格朗日参数;N为样本总数;
通过引入拉格朗日乘子建立拉格朗日函数得到方程解:
;
上述方程的KKT条件如下:
;
优化解为;
设k个转移概率值是非零的,如果/>,那么就会有k个非零值;所述转移概率/>为:
;
其中,表示拉格朗日参数;/>是k个非零转移概率值中从小到大排序得到的距离,/>表示第k+1个多视图图像样本的特征表示;/>表示最大值函数;
聚类模块,被配置为对待分类的多视图图像集,采用多视图聚类网络,得到同一目标的多视图聚类结果,从而进行目标跟踪。
7.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311585727.6A CN117292162B (zh) | 2023-11-27 | 2023-11-27 | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311585727.6A CN117292162B (zh) | 2023-11-27 | 2023-11-27 | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117292162A CN117292162A (zh) | 2023-12-26 |
CN117292162B true CN117292162B (zh) | 2024-03-08 |
Family
ID=89244777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311585727.6A Active CN117292162B (zh) | 2023-11-27 | 2023-11-27 | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117292162B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106279A (zh) * | 2013-02-21 | 2013-05-15 | 浙江大学 | 一种同时基于节点属性以及结构关系相似度的聚类方法 |
CN113313188A (zh) * | 2021-06-10 | 2021-08-27 | 四川大学 | 一种跨模态融合目标跟踪方法 |
CN113610103A (zh) * | 2021-06-24 | 2021-11-05 | 浙江师范大学 | 基于统一锚点与子空间学习的医疗数据的聚类方法及系统 |
WO2022170840A1 (zh) * | 2021-02-09 | 2022-08-18 | 浙江师范大学 | 基于二部图的后期融合多视图聚类机器学习方法及系统 |
WO2022227956A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于局部核的最优邻居多核聚类方法及系统 |
CN115471688A (zh) * | 2022-08-22 | 2022-12-13 | 中国科学院深圳先进技术研究院 | 多视图聚类方法、终端设备以及计算机可读存储介质 |
CN116863177A (zh) * | 2023-06-14 | 2023-10-10 | 内蒙古工业大学 | 一种面向通用多视图对象聚类的对象视图蒸馏方法 |
CN116958613A (zh) * | 2023-07-27 | 2023-10-27 | 山西大学 | 深度多视图聚类方法、装置、电子设备及可读存储介质 |
CN117036760A (zh) * | 2023-07-31 | 2023-11-10 | 南京邮电大学 | 一种基于图对比学习的多视图聚类模型实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578100A (zh) * | 2021-06-21 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 支付验证方式的识别方法、装置、电子设备和存储介质 |
-
2023
- 2023-11-27 CN CN202311585727.6A patent/CN117292162B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106279A (zh) * | 2013-02-21 | 2013-05-15 | 浙江大学 | 一种同时基于节点属性以及结构关系相似度的聚类方法 |
WO2022170840A1 (zh) * | 2021-02-09 | 2022-08-18 | 浙江师范大学 | 基于二部图的后期融合多视图聚类机器学习方法及系统 |
WO2022227956A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于局部核的最优邻居多核聚类方法及系统 |
CN113313188A (zh) * | 2021-06-10 | 2021-08-27 | 四川大学 | 一种跨模态融合目标跟踪方法 |
CN113610103A (zh) * | 2021-06-24 | 2021-11-05 | 浙江师范大学 | 基于统一锚点与子空间学习的医疗数据的聚类方法及系统 |
WO2022267954A1 (zh) * | 2021-06-24 | 2022-12-29 | 浙江师范大学 | 基于统一锚点与子空间学习的谱聚类方法及系统 |
CN115471688A (zh) * | 2022-08-22 | 2022-12-13 | 中国科学院深圳先进技术研究院 | 多视图聚类方法、终端设备以及计算机可读存储介质 |
CN116863177A (zh) * | 2023-06-14 | 2023-10-10 | 内蒙古工业大学 | 一种面向通用多视图对象聚类的对象视图蒸馏方法 |
CN116958613A (zh) * | 2023-07-27 | 2023-10-27 | 山西大学 | 深度多视图聚类方法、装置、电子设备及可读存储介质 |
CN117036760A (zh) * | 2023-07-31 | 2023-11-10 | 南京邮电大学 | 一种基于图对比学习的多视图聚类模型实现方法 |
Non-Patent Citations (2)
Title |
---|
GCFAgg: Global and Cross-view Feature Aggregation for Multi-View Clustering;Weiqing Yan 等;《arXiv:2305.06799v1》;参见第1-9页 * |
基于矩阵分解多样性和一致性学习的多视图聚类;顾美琪 等;《中国科技论文》;第16卷(第7期);第754-761页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117292162A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Learning two-view correspondences and geometry using order-aware network | |
Wei et al. | Aa-rmvsnet: Adaptive aggregation recurrent multi-view stereo network | |
Zhang et al. | Neural collaborative subspace clustering | |
CN111126488B (zh) | 一种基于双重注意力的图像识别方法 | |
Liu et al. | Weakly supervised 3d scene segmentation with region-level boundary awareness and instance discrimination | |
US12026930B2 (en) | Complementary learning for multi-modal saliency detection | |
Yan et al. | A hybrid convolutional and recurrent deep neural network for breast cancer pathological image classification | |
CN111368254A (zh) | 多流形正则化非负矩阵分解的多视角数据缺失补全方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN105046323B (zh) | 一种正则化rbf网络多标签分类方法 | |
CN115880556B (zh) | 一种多模态数据融合处理方法、装置、设备及存储介质 | |
CN111160378A (zh) | 基于单张图像的多任务增强的深度估计系统 | |
CN113221923A (zh) | 一种用于多模态图像块匹配的特征分解方法及系统 | |
CN116543192A (zh) | 一种基于多视角特征融合的遥感图像小样本分类方法 | |
Zhu et al. | DFTR: Depth-supervised fusion transformer for salient object detection | |
Bi et al. | HGR-Net: Hierarchical graph reasoning network for arbitrary shape scene text detection | |
Shu et al. | Structure-guided feature and cluster contrastive learning for multi-view clustering | |
CN117576497A (zh) | 记忆狄利克雷过程高斯混合模型的训练方法及装置 | |
CN117292162B (zh) | 一种多视图图像聚类的目标跟踪方法、系统、设备及介质 | |
CN116958613A (zh) | 深度多视图聚类方法、装置、电子设备及可读存储介质 | |
CN111582449A (zh) | 一种目标域检测网络的训练方法、装置、设备及存储介质 | |
CN116662833A (zh) | 基于高斯混合模型的多视图动态迁移聚类方法及系统 | |
Zhou et al. | Few-shot multi-view object classification via dual augmentation network | |
CN115587297A (zh) | 构建图像识别模型和图像识别的方法、装置、设备及介质 | |
Tan et al. | “Feature fusion multi-view hashing based on random kernel canonical correlation analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |