CN115546525A - 多视图聚类方法、装置、电子设备及存储介质 - Google Patents

多视图聚类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115546525A
CN115546525A CN202211289814.2A CN202211289814A CN115546525A CN 115546525 A CN115546525 A CN 115546525A CN 202211289814 A CN202211289814 A CN 202211289814A CN 115546525 A CN115546525 A CN 115546525A
Authority
CN
China
Prior art keywords
clustering
view
training
preset
hidden space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211289814.2A
Other languages
English (en)
Inventor
罗咏刚
胡小琼
张琪
廖刚
单玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Changan Automobile Co Ltd
Original Assignee
Chongqing Changan Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Changan Automobile Co Ltd filed Critical Chongqing Changan Automobile Co Ltd
Priority to CN202211289814.2A priority Critical patent/CN115546525A/zh
Publication of CN115546525A publication Critical patent/CN115546525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Abstract

本申请涉及多视图聚类技术领域,特别涉及一种多视图聚类方法、装置、电子设备及存储介质,其中,方法包括:获取待聚类的多个视图;提取每个视图的至少一个图像特征,得到多个图像特征;将多个图像特征输入预先训练得到的聚类模型,利用聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用互补信息和结构信息匹配每个视图的实际类别,基于实际类别对多个视图进行聚类,输出多个视图的聚类结果。由此,解决了相关技术基于原始数据矩阵或者浅层特征构建图,并利用不同的融合策略将多个图融合起来的方式,不仅计算量大,且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果等问题。

Description

多视图聚类方法、装置、电子设备及存储介质
技术领域
本申请涉及多视图聚类技术领域,特别涉及一种多视图聚类方法、装置、电子设备及存储介质。
背景技术
聚类是一种无监督学习任务,聚类算法的基本思想是按照一定的标准对一组数据对象进行划分,将相同的对象划分为同一类,不同的对象划分为不同的类。在信息时代,数据量呈指数级爆炸式增长,因此更有必要对相似对象进行划分和组织,从而帮助研究者更容易区分其内在逻辑,降低数据标注的成本。目前,聚类算法被广泛应用于计算机视觉、数据挖掘、模式识别等领域。
随着信息技术的快速发展,数据的采集方式也越来越多样化,从而产生海量的多视图数据。例如,新闻可以通过不同的语言进行报道,也可以以文本、图像和视频的形式报道;一幅图像可以用不同的特征来表示,如LBP(Local Binary Patterns,100维的局部二值模式)、HOG(Histogram of Oriented Gradients,256维的方向梯度直方图)等。虽然最终数据的表示形式可能不同,但它们都代表同一个事物。一般来说,多视图数据比单一视图包含更加丰富的信息,合理地整合这些来自不同视角的信息能够更加全面地分析问题。然而,大多数传统的方法主要集中在单个视图上,不能直接用于处理多视图数据。因此近些年来,大量的多视图学习方法被提出来以用于不同的任务,如分类、聚类等。
在多视图学习领域,多视图聚类(Multi-view Clustering,MVC)的目的是合理地融合不同视图的信息,在没有任何标签信息的情况下,自适应地将数据划分到各自的类别中。多视图聚类通过考虑不同视图之间的一致性和互补性,从而获得比单个视图更好的聚类结果。由于多视图聚类降低了多视图数据标注的时间和人力成本,因此受到越来越多的关注。
随着多媒体的发展,越来越多的数据以多种模态或者特征呈现,这种数据称为多视图数据。由于多视图聚类能够降低海量数据的标注成本,因此受到越来越多的关注。相关技术大多考虑利用视图的一致性和互补性来融合多个视图的信息,通常是基于原始数据矩阵或者浅层特征构建图,然后利用不同的融合策略将多个图融合起来。然而,相关技术基于图学习的多视图聚类方法不仅计算量大,而且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果。
发明内容
本申请提供一种多视图聚类方法、装置、电子设备及存储介质,以解决相关技术基于原始数据矩阵或者浅层特征构建图,计算量大,且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果等问题。
本申请第一方面实施例提供一种多视图聚类方法,包括以下步骤:获取待聚类的多个视图;提取每个视图的至少一个图像特征,得到多个图像特征;将所述多个图像特征输入预先训练得到的聚类模型,利用所述聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用所述互补信息和所述结构信息匹配每个视图的实际类别,基于所述实际类别对所述多个视图进行聚类,输出所述多个视图的聚类结果。
根据上述技术手段,本申请实施例可以提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,通过公共的隐空间表示来灵活地挖掘不同视图的互补信息,并利用结构化的隐空间得到视图间的结构信息,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。同时考虑视图间的互补信息和样本间的结构关系,不仅能够灵活地融合多个视图的信息,也能充分利用样本间的结构信息,从而使聚类结果更加准确。
可选地,在本申请的一个实施例中,所述聚类模型基于携带有真实聚类结果标签的训练数据训练得到,包括:获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型。
根据上述技术手段,本申请实施例可以同时优化隐空间表示学习和聚类,从而使学习的结构化隐空间表示更适合聚类任务。首先,计算了隐空间表示中每个样本点与聚类质心之间的软分配,其次,更新结构化隐空间表示,并通过使用辅助目标分布从当前的高置信度分配中学习来细化聚类质心。通过重复进行这个过程,直到达到收敛,使每个样本的特征表示更接近聚类中心,从而提高集群内聚性。
可选地,在本申请的一个实施例中,所述根据所述训练聚类结果与所述真实聚类结果计算训练损失值,包括:根据所述训练聚类结果与所述真实聚类结果计算重构损失和聚类损失;获取所述聚类损失的权重参数,并根据所述权重参数、所述聚类损失和所述重构损失计算得到所述训练损失值。
根据上述技术手段,本申请实施例可以根据重构损失、聚类损失和聚类损失的权重参数得到训练聚类结果与真实聚类结果计算训练损失值,从而使学习到的隐空间表示具有更好的类簇结构。
可选地,在本申请的一个实施例中,在将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息之前,包括:获取任意视图在预设样本中的隐空间表示;以所述隐空间表示的重构损失最小为优化目标,计算得到所述隐空间表示与所述任意视图之间的映射关系;基于所述映射关系和预设多层感知机构建得到所述预设公共隐空间。
根据上述技术手段,本申请实施例可以基于视图在预设样本中的隐空间表示对每个视图进行重构,来实现公共隐空间表示和原始数据的原始图像特征的映射,从而更全面地描述图像数据本身,使隐空间表示更加准确和健壮。
可选地,在本申请的一个实施例中,在将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息之前,包括:利用所述预设公共隐空间构建无向k近邻图;将所述多个视图样本输入所述无向k近邻图,得到所述多个视图样本之间的实际近邻关系;以所述实际近邻关系和所述预设公共隐空间表示作为预设图卷积网络的输入,输出所述预设公共隐空间的更新表示,并通过所述预设图卷积网络进行逐层卷积,得到每层卷积的更新表示,并基于所述每层卷积的更新表示构建得到所述预设结构化隐空间。
根据上述技术手段,本申请实施例可以基于公共隐空间构建了一个k近邻图,利用图卷积网络来挖掘公共隐空间表示中样本间的信息。通过非线性变换和聚合函数收集节点邻居的信息,并用于更新该节点的特征。因此,可以保留数据的拓扑结构,同时使临近的节点特征更加相似。并通过图卷积网络进一步加强样本间的交互,从而学习到一个结构化的隐空间表示,相似的样本在图卷积过程中特征更加接近,具有更好的结构性。
本申请第二方面实施例提供一种多视图聚类方法,包括以下步骤:获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;将所述多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型,利用所述聚类模型聚类待聚类的多个视图,得到所述多个视图的聚类结果。
根据上述技术手段,本申请实施例根据训练数据结果和训练的损失值对聚类模型进行训练并修正,直到满足预设收敛值时,停止训练,从而利用训练完成的聚类模型输出得到待聚类的多个视图的聚类结果,准确性高,聚类效果好。
本申请第三方面实施例提供一种多视图聚类装置,包括:第一获取模块,用于获取待聚类的多个视图;提取模块,用于提取每个视图的至少一个图像特征,得到多个图像特征;第一聚类模块,用于将所述多个图像特征输入预先训练得到的聚类模型,利用所述聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用所述互补信息和所述结构信息匹配每个视图的实际类别,基于所述实际类别对所述多个视图进行聚类,输出所述多个视图的聚类结果。
可选地,在本申请的一个实施例中,所述第一聚类模块,进一步用于获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;将所述多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型。
可选地,在本申请的一个实施例中,所述第一聚类模块,进一步用于根据所述训练聚类结果与所述真实聚类结果计算重构损失和聚类损失;获取所述聚类损失的权重参数,并根据所述权重参数、所述聚类损失和所述重构损失计算得到所述训练损失值。
可选地,在本申请的一个实施例中,还包括:计算单元,用于在将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息之前,获取任意视图在预设样本中的隐空间表示;以所述隐空间表示的重构损失最小为优化目标,计算得到所述隐空间表示与所述任意视图之间的映射关系;
第一构建单元,用于基于所述映射关系和预设多层感知机构建得到所述预设公共隐空间。
可选地,在本申请的一个实施例中,还包括:生成单元,用于在将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息之前,利用所述预设公共隐空间构建无向k近邻图;将所述多个视图样本输入所述无向k近邻图,得到所述多个视图样本之间的实际近邻关系;
第二构建单元,用于以所述实际近邻关系和所述预设公共隐空间表示作为预设图卷积网络的输入,输出所述预设公共隐空间的更新表示,并通过所述预设图卷积网络进行逐层卷积,得到每层卷积的更新表示,并基于所述每层卷积的更新表示构建得到所述预设结构化隐空间。
本申请第四方面实施例提供一种多视图聚类装置,包括:第二获取模块,用于获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;处理模块,用于将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;训练模块,用于根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;第二聚类模块,用于根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型,利用所述聚类模型聚类待聚类的多个视图,得到所述多个视图的聚类结果。
本申请第五方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的多视图聚类方法。
本申请第六方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的多视图聚类方法。
由此,本申请至少具有如下有益效果:
1、本申请实施例可以提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,通过公共的隐空间表示来灵活地挖掘不同视图的互补信息,并利用结构化的隐空间得到视图间的结构信息,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。同时考虑视图间的互补信息和样本间的结构关系,不仅能够灵活地融合多个视图的信息,也能充分利用样本间的结构信息,从而使聚类结果更加准确。
2、本申请实施例可以同时优化隐空间表示学习和聚类,从而使学习的结构化隐空间表示更适合聚类任务。首先,计算了隐空间表示中每个样本点与聚类质心之间的软分配,其次,更新结构化隐空间表示,并通过使用辅助目标分布从当前的高置信度分配中学习来细化聚类质心。通过重复进行这个过程,直到达到收敛,使每个样本的特征表示更接近聚类中心,从而提高集群内聚性。
3、本申请实施例可以根据重构损失、聚类损失和聚类损失的权重参数得到训练聚类结果与真实聚类结果计算训练损失值,从而使学习到的隐空间表示具有更好的类簇结构。
4、本申请实施例可以基于视图在预设样本中的隐空间表示对每个视图进行重构,来实现公共隐空间表示和原始数据的原始图像特征的映射,从而更全面地描述图像数据本身,使隐空间表示更加准确和健壮。
5、本申请实施例可以基于公共隐空间构建了一个k近邻图,利用图卷积网络来挖掘公共隐空间表示中样本间的信息。通过非线性变换和聚合函数收集节点邻居的信息,并用于更新该节点的特征。因此,可以保留数据的拓扑结构,同时使临近的节点特征更加相似。并通过图卷积网络进一步加强样本间的交互,从而学习到一个结构化的隐空间表示,相似的样本在图卷积过程中特征更加接近,具有更好的结构性。
6、本申请实施例根据训练数据结果和训练的损失值对聚类模型进行训练并修正,直到满足预设收敛值时,停止训练,从而利用训练完成的聚类模型输出得到待聚类的多个视图的聚类结果,准确性高,聚类效果好。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种多视图聚类方法的流程图;
图2为根据本申请实施例提供的SLRL的模型框架图;
图3为根据本申请实施例提供的在BBCSport和MSRCV1数据集上的可视化比较示意图;
图4为根据本申请实施例提供的参数k和γ的敏感性实验结果图;
图5为根据本申请实施例提供的在MSRCV1和100Leaves上ACC和目标函数值随迭代次数的变化情况示意图;
图6为根据本申请实施例提供的SLRL模型的训练过程示意图;
图7为根据本申请实施例提供的另一种多视图聚类方法的流程图;
图8为根据本申请实施例提供的一种多视图聚类装置的方框示意图;
图9为根据本申请实施例提供的另一种多视图聚类装置的方框示意图;
图10为根据本申请实施例的电子设备的结构示意图。
附图标记说明:第一获取模块-100、提取模块-200、第一聚类模块-300、第二获取模块-400、处理模块500、训练模块-600、第二聚类模块-700、存储器-1001、处理器-1002、通信接口-1003。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的多视图聚类方法、装置、电子设备及存储介质。针对上述背景技术中提到的问题,本申请提供了一种多视图聚类方法,在该方法中,通过提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,通过公共的隐空间表示来灵活地挖掘不同视图的互补信息,并利用结构化的隐空间得到视图间的结构信息,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。同时考虑视图间的互补信息和样本间的结构关系,不仅能够灵活地融合多个视图的信息,也能充分利用样本间的结构信息,从而使聚类结果更加准确。由此,解决了相关技术基于原始数据矩阵或者浅层特征构建图,并利用不同的融合策略将多个图融合起来的方式,不仅计算量大,且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果等问题。
具体而言,图1为本申请实施例所提供的一种多视图聚类方法的流程示意图。
如图1所示,该多视图聚类方法包括以下步骤:
在步骤S101中,获取待聚类的多个视图。
可以理解的是,多视图数据比单一视图包含更加丰富的信息,合理地整合这些来自不同视角的信息能够更加全面地分析问题。因此,本申请实施例首先需要获取待聚类的多个视图,通过合理地融合不同视图的信息,在没有任何标签信息的情况下,自适应地将数据划分到各自的类别中。
在步骤S102中,提取每个视图的至少一个图像特征,得到多个图像特征。
本申请实施例可以选择常用的多视图数据集来对所有方法进行对比,包括100leaves,Scene-15,MSRCV1,3Soures和BBCSport。如表1所示,展示了各数据集的统计信息。其中,表1为常用数据集的统计信息表。
表1
数据集 样本数 视图数 类别 特征维度
100Leaves 1600 3 100 64/64/64
Scene-15 4485 3 15 20/59/40
MSRCV1 210 6 7 1302/48/512/100/256/210
3sources 169 3 6 3560/3631/3068
BBCSport 544 2 5 3183/3203
每个数据集的详细情况如下:
(1)100Leaves1:该数据集由100类植物的1600个图像组成。本申请实施例对个植物样本提取分别了三种特征:形状描述、精细尺度边缘和纹理直方图;
(2)Scene-152:该数据集包括室内和室外的15种不同的场景图,共有4485图片组成。对于每张图片,分别提取了GIST、PHOG(Pyramid Histogram of Oriented Gradients,分层梯度方向直方图)和LBP三种不同的特征;
(3)MSRCV1:该数据集包含由树、建筑物、飞机、奶牛、人脸、汽车、自行车组成的7类生活中常见的物体,每个类有30张图片。对每张图像提取了6个视觉特征,分别是:1302维的尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)特征,48维的色矩(ColorMoment,CMT)特征,512维的GIST特征,100维的局部二值模式(Local Binary Patterns,LBP)特征,256维的方向梯度直方图(Histogram of Oriented Gradients,HOG)特征以及210维的CensusTransform Histogram(CENTRIST)特征;
(4)3Soures3:该数据集由948条新闻文章组成,涵盖416个不同的新闻。在本申请实施例中,选择169条被三家同时报道的新闻,共包含商业、娱乐、健康、政治、体育和科技组成的6个主题。对于每条新闻,分别提取了3560维,3631维和3068维三种不同维度的特征;
(5)BBCSport4:该数据集由544份体育新闻组成,共包含5个不同类型的主题。在本申请实施例中,对于每份文档都提取了3183维和3203维两种不同维度的特征。
在步骤S103中,将多个图像特征输入预先训练得到的聚类模型,利用聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用互补信息和结构信息匹配每个视图的实际类别,基于实际类别对多个视图进行聚类,输出多个视图的聚类结果。
为了更好地挖掘出多视图数据的信息,多视图聚类算法一般需遵循两个原则:一致性原则和互补性原则。本申请实施例提出了一种基于结构化隐空间表示学习的多视图聚类方法(Structured Latent Representation Learning for Multi-view Clustering,SLRL),其SLRL模型框架如图2所示。本申请实施例可以通过提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,首先通过学习一个公共的隐空间表示来灵活地挖掘不同视图的互补信息。其次,为了利用样本间的结构信息,基于该隐空间表示构建了一个k近邻图,并通过图卷积网络进一步加强样本间的交互,从而学习到一个结构化的隐空间表示。此外,通过聚类损失进一步约束隐空间表示学习,使所学隐空间表示具有好的类簇结构,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。
在本申请的一个实施例中,在将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息之前,包括:获取任意视图在预设样本中的隐空间表示;以隐空间表示的重构损失最小为优化目标,计算得到隐空间表示与任意视图之间的映射关系;基于映射关系和预设多层感知机构建得到预设公共隐空间。
可以理解的是,多视图聚类的关键在于如何合理利用视图间的一致性和互补性,从而获得更全面的信息。因此,需要通过一定的策略将多个视图的信息进行融合。考虑到多个视图的互补性,相关技术提出了一种隐空间多视图子空间聚类方法,通过对所有视图寻找一个公共的隐空间表示,并基于该公共隐空间表示对每个视图进行重构。由于多视图的互补性,隐空间表示可以比单个视图更全面地描述数据本身,从而使隐空间表示更加准确和健壮。
本申请实施例可以给定一个具有V个视图的多视图数据集X={X(1),X(2),…,X(V)},
Figure BDA0003900896070000091
其中N为数据的样本数,dv为视图v的原始特征维度。SLRL的目的是为所有视图学习一个结构化的隐空间表示,使其能够很好地用于多视图聚类任务。所涉及的部分符号及其含义如表2所示。其中,表2为所用符号及说明表。
表2
Figure BDA0003900896070000092
具体而言,对于第v个视图
Figure BDA0003900896070000101
定义其第n个样本的隐空间表示为hn
Figure BDA0003900896070000102
Figure BDA0003900896070000103
由参数化的第v个视图的重构网络,则可将公共隐空间表示学习的优化目标定义为:
Figure BDA0003900896070000104
其中,Lr为公共隐空间表示的重构损失,其目的是学习原始数据空间与公共隐空间空间之间的映射。在本申请实施例中,可以使用多层感知机作为编码器,来实现公共隐空间表示和原始数据的原始特征xn的映射。通过最小化公式(3-1)对应的损失,可以学到一个公共的隐空间表示H={h1,h2,...,hN}。
在本申请的一个实施例中,在将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息之前,包括:利用预设公共隐空间构建无向k近邻图;将多个视图样本输入无向k近邻图,得到多个视图样本之间的实际近邻关系;以实际近邻关系和预设公共隐空间表示作为预设图卷积网络的输入,输出预设公共隐空间的更新表示,并通过预设图卷积网络进行逐层卷积,得到每层卷积的更新表示,并基于每层卷积的更新表示构建得到预设结构化隐空间。
在本申请实施例中,在上述实施例学到的公共隐空间表示能够灵活地融合多个视图的互补信息,但是没有较好的类簇结构,因此直接用于聚类时难以得到理想的聚类效果。同时,仅考虑挖掘多个视图的互补信息忽略了样本间的结构信息,而这种结构信息对于聚类任务是比较重要的。考虑到同类的样本具有相似的特征,对于每个样本,本申请实施例可以选择其最临近的k个样本作为它的邻居,因此,提出了对所学公共隐空间表示H构建一个无向k近邻图,以挖掘样本在隐空间中的结构信息。本申请实施例将近邻图定义为A∈RN*N,对于任意的两个样本i和j,它们的隐空间表示为hi和hj,二者间的距离可以通过以下方式计算得到。
对于连续的数据,如图像等,本申请实施例可以用高斯核来度量样本i与样本j的相似度,则样本i和j的近邻关系可以由以下公式计算得到:
Figure BDA0003900896070000105
对于离散数据,例如文本等,本申请实施例可以使用点积相似度来进行计算二者的相似度,则近邻关系可以计算为:
Figure BDA0003900896070000106
其中,Nk(hi)表示第i个样本的k个最近邻的样本。这样,本申请实施例可以从非图数据中得到近邻图A,它能够很好地表示样本间的近邻关系。
由于近邻图很好地度量了不同样本间的距离。为了使所学隐空间表示更具有结构性,本申请实施例可以利用图卷积网络(Graph Nerual Network,GCN)来挖掘公共隐空间表示中样本间的信息。GCN通过应用多个的卷积层,通过非线性变换和聚合函数收集节点邻居的信息,并用于更新该节点的特征。因此,可以保留数据的拓扑结构,同时使临近的节点特征更加相似。通过图卷积网络,同一类样本的特征更加接近,从而得到一个结构化的隐空间表示。
图卷积层以隐空间表示H和近邻图A作为输入,输出为更新后的隐空间表示。对于权值矩阵W,GCN的第l层学习到的特征表示H(l),可以通过以下卷积运算得到:
Figure BDA0003900896070000111
其中,
Figure BDA0003900896070000112
为带有自连接的相关系数矩阵,
Figure BDA0003900896070000113
I为A对应的单位对角矩阵,W(l)为第l层的可学习的参数矩阵。φ(·)为激活函数,本申请实施例可以用ReLU作为激活函数。因此,在第l层网络中,隐空间表示H(l-1)通过归一化邻接矩阵
Figure BDA0003900896070000114
传播,得到新的表示H(l)。对于层数为L的图卷积网络,通过逐层卷积,最终可以学习到一个结构化的隐空间表示
Figure BDA0003900896070000115
对于
Figure BDA0003900896070000116
中的每个样本,相似的样本在图卷积过程中特征更加接近,具有更好的结构性。
在本申请的一个实施例中,聚类模型基于携带有真实聚类结果标签的训练数据训练得到,包括:获取携带有真实聚类结果标签的训练数据,其中,训练数据包括多个视图样本;将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息;根据互补信息和结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据实际相似度确定每个视图样本的实际类别,基于实际类别对多个视图样本聚类,得到训练聚类结果;根据训练聚类结果与真实聚类结果计算训练损失值,在训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化聚类中心,并更新预设结构化隐空间,直到训练损失值小于或等于收敛阈值时,停止迭代训练,得到训练完成的聚类模型。
可以理解的是,通过图卷积网络,可以得到更具有结构性的隐空间表示
Figure BDA0003900896070000117
所学的公共表示可以保留数据中固有的局部结构,但仍不能直接应用于聚类问题。现有的工作大多在学到的特征上使用传统的聚类方法(如谱聚类或者kmeans等),聚类效果完全取决于学到的特征。相关技术提出了一种端到端的聚类方法,该方法可以同时优化隐空间表示学习和聚类,从而使学习的结构化隐空间表示更适合聚类任务。
在本申请实施例中,可以使用两步交替的无监督算法来改进聚类。在第一步中,计算隐空间表示中每个样本点与聚类质心之间的软分配。在第二步中,更新结构化隐空间表示,并通过使用辅助目标分布从当前的高置信度分配中学习来细化聚类质心。通过重复进行这个过程,直到达到收敛。具体而言,对于第i个样本和第j个类簇,本申请实施例可以使用t分布作为核来度量数据表示
Figure BDA0003900896070000121
和聚类中心向量uj之间的相似性,可以通过以下公式计算得到:
Figure BDA0003900896070000122
其中,聚类中心ui是通过K-means在
Figure BDA0003900896070000123
上初始化得到的。Q=[qi j]是将样本i分配给聚类j的概率,即软分配。在获得聚类分布Q后,本申请实施例的目标是通过对高置信度软分配的学习来优化隐空间表示。具体来说,本申请实施例可以使每个样本的特征表示更接近聚类中心,从而提高集群内聚性。因此,目标分布P中的pij可以通过以下方式计算:
Figure BDA0003900896070000124
在目标分布P中,对Q中的每个分配进行平方和归一化处理,使其具有更高的置信度。因此聚类损失函数可以定义为如下:
Figure BDA0003900896070000125
通过最小化Q和P分布之间的KL散度损失,目标分布P可以促进网络学习一个更适用于聚类任务的结构化隐空间表示,即聚类中心周围的数据表示更加接近,从而具有更好的聚类性能。通过利用训练完成的聚类模型输出得到待聚类的多个视图的聚类结果,准确性高,聚类效果好。
在本申请的一个实施例中,根据训练聚类结果与真实聚类结果计算训练损失值,包括:根据训练聚类结果与真实聚类结果计算重构损失和聚类损失;获取聚类损失的权重参数,并根据权重参数、聚类损失和重构损失计算得到训练损失值。
具体而言,本申请实施例的损失函数可以主要包括重构损失和聚类损失。重构损失用于约束公共隐空间表示H重构的特征与视图原始特征间的误差,从而灵活地平衡了一致性和互补性。然后通过挖掘样本间结构特性,得到结构化的隐空间表示
Figure BDA0003900896070000126
聚类损失用于分散隐空间表示
Figure BDA0003900896070000127
同时约束公共隐空间表示学习和图表示学习,从而使学习到的隐空间表示具有更好的类簇结构。因此,总的损失函数可定义为:
L=Lr+γLc, (3-8)
其中,Lr和Lc分别为重构损失和聚类损失,γ>0是一个超参数,用来平衡聚类优化和公共隐空间表示学习。
在多视图聚类领域,为方便说明,本申请实施例可以选择以下九种方法同本申请实施例的多视图聚类方法进行比较。
a、对比方法
(1)SPCBestSV:该方法分别在每个视图上进行谱聚类,并选取最好的一组结果。
(2)LRRBestSV:该方法提出在所有数据样本中寻找最低秩表示,从而将样本聚类到它们各自的子空间中。利用LRR在在每个视图上分别进行聚类,并选取最好的一个结果。
(3)DiMSC:该方法利用Hilbert Schmidt独立性准则(HSIC)作为多样性约束来加强不同视图间的互补性,然后利用谱聚类得到聚类结果。
(4)AMGL:该方法提出了一种新的无参自动加权多图学习模型。该模型可以自动学习不同视图的关联图和权重。此外,该方法能够收敛于一个局部最优解,既可用于多视图聚类,又可用于半监督分类。
(5)MLAN:该方法提出了一种新的多视图学习模型,该模型可以同时进行聚类和局部结构学习。得到的最优图可以直接划分为特定的类。此外,该模型可以自动为每个视图分配权重,而不需要额外的权重和惩罚参数。
(6)LMSC:该方法通过对多个视图寻找一个公共的隐空间表示,并根据学习到的隐空间表示对每个视图进行重构。由于隐空间表示可以比单个视图更全面地描述数据,同时能从多个视图中挖掘隐空间的互补信息,从而使子空间表示更加有效和鲁棒。
(7)MVGL:该方法提出了一种基于图学习的多视图聚类方法。首先针对不同视图学习初始图,并对初始图进行拉普拉斯矩阵上的秩约束进一步优化。最后,将优化后的图集成到全局图中。
(8)GMC:该方法提出一种新的多视图融合技术,可以自动对每个数据图矩阵进行加权,从而得到统一的图矩阵。统一的图矩阵又对每个视图的数据图矩阵进行了更新,可以使每个视图图矩阵的学习和统一图矩阵的学习相互加强。
(9)CGD:该方法首次尝试将扩散过程用于多视图聚类。以不同视图的图矩阵为输入,通过迭代交叉扩散过程捕获原始数据点的底层流形几何结构,利用多个图之间的互补信息,为每个视图学习改进的图。对改进后的视图关联图进行平均,得到用于聚类的统一图。
b、实验设置
对于每个实验,分别用数据集的80%作为训练集,20%作为测试集。为了公平起见,对于所有的对比方法,根据论文作者提供的源代码和参数进行调节,以获得最好的聚类结果。对于本申请实施例的模型,可以使用ReLU函数作为网络中的非线性激活函数。每个数据集的隐空间表示维度F取值范围为{16,32,64,128,256},隐空间表示的维度默认设置为64。近邻个数k的取值范围为k∈{3,15},默认设置为10。由于模型对γ参数的变化并不敏感,在本申请实施例的实验中统一设置γ=10,可以使用批量梯度下降算法来对模型的损失函数进行优化,其中学习率为0.01。为了避免随机误差,本申请实施例可以在每个实验上重复运行10次,并计算四个聚类性能指标的平均值和标准差作为对比。
c、实验及结果分析
下表展示了所有方法在100Leaves,Scene-15,MSRCV1,BBCSport及3Sources这五个数据集上不同指标的平均值和标准差。对于每个聚类指标,最好的结果用粗体标记。如表3-表7所示,其中,表3为在100Leaves数据集上的聚类性能比较表。
表3
方法 ACC NMI F_score ARI
SPCBestSV 48.03±1.11 76.61±2.18 40.76±1.84 40.19±1.51
LRRBestSV 47.86±2.49 70.62±1.37 38.42±2.67 35.08±0.91
DiMSC 85.58±3.13 72.34±2.31 57.97±3.25 60.89±2.96
AMGL 76.76±1.93 87.57±2.86 57.66±1.30 56.12±1.94.
MLAN 84.02±0.72 94.11±1.30 80.21±1.07 79.56±2.36
LMSC 74.37±2.06 86.41±2.73 64.31±2.84 63.30±2.95
MVGL 76.59±1.26 85.87±0.78 51 32±2.74 51.37±0.70
GMC 83.62±0.83 90.09±2.10. 80.94±2.65 73.79+0.68
CGD 86.34±1.21 94.92±1.93. 83.74±0.93 81.86±1.02
SLRL 93.75±0.94 97.03±1.33 88.89±1.72 88.67±1.01
表4为在Scene-15数据集上的聚类性能比较表。
表4
方法 ACC NMI F_score ARI
SPCBestSV 37.42±1.34 37.26±0.91 28.31±1.70 19.42±1.28
LRRBestSV 36.29±0.92 36.13±1.47 25.31±0.90 18.95±0.91
DiMSC 38.22±1.13 39.00±2.40 31.87±1.25 22.91±1.17
AMGL 33.92±2.33 37.35±1.33 25.02±0.83 17.39±1.10
MLAN 15.78±1.08 1 6.59±0.03 15.21±1.08 13.94±1.37
LMSC 42.68±1.40 34.98±2.21 27.77±1.27 23.26±0.93
MVGL 37.48±2.06 37.29±2.17 27.82±1.10 22.14±2.06
GMC 41.55±1.30 37.09±1.81 30.04±0.92 22.18±1.98
CGD 43.66±1.99 42.53±1.53 31.39±2.80 24.94±1.53
SLRL 47.52±1.87 53.25±1.02 42.31±0.97 31.88±1.24
表5为在MSRCV1数据集上的聚类性能比较表。
表5
方法 ACC NMI F_score ARI
SPCBestSV 51.45±2.41 50.07±0.85 48.68±1.64 47.70±1.89
LRRBestSV 66.75±3.06 59.68±1.55 60.44±3.03 58.24±1.17
DiMSC 74.33±2.61 66.75±2.73 73.79±0.68 72.95±1.13
AMGL 74.40±2.91 72.97±1.69 66.50±2.42 62.62±1.84
MLAN 71.41±1.82 74.40±0.73 66.73±2.66 60.88±1.38
LMSC 83.62±1.33 70.52±1.27 69.96±2.58 66.13±1.35
MVGL 90.72±2.46 82.51±0.47 81.21±1.50 76.64±1.22
GMC 90.55±2.29 82.76±2.03 78.48±1.94 76.95±2.27
CGD 91.29±1.09 83.63±2.51 80.98±0.82 77.79±0.81
SLRL 92.70±2.12 89.96±1.52 84.35±3.09 82.26±1.84
表6为在BBCSport数据集上的聚类性能比较表。
表6
方法 ACC NMI F_score ARI
SPCBestSV 35.05±2.47 30.71±1.09 39.84±2.61 31 92±1.65
LRRBestSV 89.68±1.91 77.34±2.90 80.18±1.39 73.75±2.26
DiMSC 84 98±1.11 89.08±1.51 91.27±1.20 91.63±1.75
AMGL 57.83±2.49 52.14±2.50 56.81±1.80 52.49±0.46
MLAN 97.23±3.13 90.68±1.69 94.77±2.94 92.07±3.08
LMSC 92.79±0.72 83.77±1.78 90.21±1.04 86.07±2.05
MVGL 80.89±1.59 79.90±2.38 79.55±1.11 74.81±2.35
GMC 85.56±2.30 81.01±0.97 80.85±1.26 81.15±0.37
CGD 97.37±1.03 91.09±2.76 93.97±1.75 93.73±1.20
SLRL 93.02±2.52 86.44±0.93 91.20±1.73 90.75±3.10
表7为在3Sources数据集上的聚类性能比较表。
表7
方法 ACC NMI F_score ARI
SPCBestSV 64.08±2.44 56.25±1.36 60.26±0.87 53.15±0.70
LRRBestSV 63.64±1.98 53.73±1.25 54.37±2.41 46.07±0.75
DiMSC 73.75±2.22 68.84±0.82 70.23±1.25 60.43±1.51
AMGL 63.88±1.08 60.89±1.91 62.75±1.27 54.91±1.03
MLAN 68.72±2.41 54.38±1.21 55.73±1.33 35.55±1.77
LMSC 72.22±2.08 68.40±0.91 70.61±1.15 57.76±0.55
MVGL 70.54±1.66 65.69±2.31 60.63±1.59 43.10±1.08
GMC 69.56±1.99 61.84±2.33 61.84±2.33 44.38±2.52
CGD 76.65±1.53 70.79±0.58 70.18±3.23 60.64±1.20
SLRL 81.62±1.62 72.33±2.05 77.90±1.32 69.86±1.27
从这些实验结果中,可以得到以下结论:
(1)在5个常用的多视图数据集上,所提出的方法均取得了很好的聚类效果。与对比的方法相比,在100Leaves,Scene-15,MSRCV1及3Sources数据集上,本申请实施例在四个聚类指标上均取得了最好的效果,相对第二好的方法,本申请实施例的SLRL在ACC上分别提升了7.41%,,3.86%,1.41%,4.97%,在NMI上分别提升了2.11%,10.72%,6.33%,1.54%。尽管MLAN和CGD在BBCSport数据集上表现更好,但在其他数据集上都低于本申请实施例的多视图聚类方法。总体来看,本申请实施例的多视图聚类装置方法在不同的数据集上都取得了理想的聚类表现,体现了其优越性。
(2)在一些数据集上,单视图聚类的最佳结果要好于部分多视图聚类算法,说明要充分利用多个视图的信息并不容易,需要更合理地挖掘视图间的一致性和互补性。
为了更加直观地展示本申请实施例的多视图聚类方法的有效性,可以在BBCSport和MSRCV1数据集上进行可视化分析。其中,BSV表示对所有视图进行可视化,并选择效果最好的一个。SLRL-H表示对公共隐空间表示H的可视化结果,
Figure BDA0003900896070000171
为结构化隐空间表示
Figure BDA0003900896070000172
的可视化效果。如图3所示,在BBCSport和MSRCV1数据集上,本申请实施例学到的隐空间表示具有相对原始输入特征更好的类簇结构,说明融合多个视图的信息有利于聚类效果。此外,在两个数据集上,相对于SLRL-H,
Figure BDA0003900896070000173
中同一类样本更加紧密,不同类更加分散,类簇结构更好。说明通过图表示学习和聚类约束,能够使模型学习到更适合聚类的特征。
其次,本申请实施例可以通过参数敏感性实验和收敛性实验对本申请实施例的聚类模型进行测试。
a、参数敏感性实验
(1)k值敏感性实验
最近邻数k是构造k近邻图的一个重要参数,对大多数基于图的算法的性能有很大的影响。为了检验模型对k的敏感性,本申请实施例可以在MSRCV1数据集上设计了一个k敏感性实验。如图4所示,对于k∈{3,15},本申请实施例的模型对k值在一定范围内不敏感。证明了本申请实施例的多视图聚类方法可以在邻域信息较少或存在虚假连接的情况下学习样本间的结构信息。
(2)γ敏感性实验
目标函数中的γ是一个平衡公共表示学习和聚类约束的参数。以100Leaves数据集为例,如图4所示,展示了γ的取值对聚类指标ACC和NMI的影响,其中,γ∈{10-5,10-4,10-3,10-2,10-1,100,101,102,103}。
为减少随机结果的影响,对γ每次取值都重复运行了10次实验,并以ACC和NMI的平均值绘出曲线。可以发现ACC和NMI随γ的变化保持较稳定的值,说明本申请实施例的多视图聚类方法在较大范围内对γ不敏感。
b、收敛性实验
本申请实施例可以在MSRCV1及100Leaves数据集上进行了收敛性实验。在图4中,x轴为算法迭代次数,曲线分别为ACC和目标损失随迭代的变化情况。实验证明,如图5所示,随着迭代次数的增加,目标函数非递增并且逐渐收敛到某个固定值,与此同时ACC逐渐递增并趋向稳定。此外,目标函数最开始快速下降,在30次左右迭代后,目标函数和ACC的变化趋于稳定,证明本申请实施例具有较好的收敛性。
根据本申请实施例提出的多视图聚类方法,通过提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,通过公共的隐空间表示来灵活地挖掘不同视图的互补信息,并利用结构化的隐空间得到视图间的结构信息,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。同时考虑视图间的互补信息和样本间的结构关系,不仅能够灵活地融合多个视图的信息,也能充分利用样本间的结构信息,从而使聚类结果更加准确。由此,解决了相关技术基于原始数据矩阵或者浅层特征构建图,并利用不同的融合策略将多个图融合起来的方式,不仅计算量大,且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果等问题。
基于上述实施例的多视图聚类方法,上述实施例主要阐多视图聚类的在线应用,本申请实施例还提出了另一种多视图聚类方法,用于说明如何进行离线训练,其训练过程如图6所示。本申请实施例和上述实施例在描述内容上各有侧重,各实施例之间对于未尽述步骤可相互参考。
具体而言,如图7所示,该多视图聚类方法包括以下步骤:
在步骤S701中,获取携带有真实聚类结果标签的训练数据,其中,训练数据包括多个视图样本。
在步骤S702中,将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息。
在步骤S703中,根据互补信息和结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据实际相似度确定每个视图样本的实际类别,基于实际类别对多个视图样本聚类,得到训练聚类结果。
在步骤S704中,根据训练聚类结果与真实聚类结果计算训练损失值,在训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化聚类中心,并更新预设结构化隐空间,直到训练损失值小于或等于收敛阈值时,停止迭代训练,得到训练完成的聚类模型,利用聚类模型聚类待聚类的多个视图,得到多个视图的聚类结果。
其次参照附图描述根据本申请实施例提出的一种多视图聚类装置。
图8是本申请实施例的一种多视图聚类装置的方框示意图。
如图8所示,该多视图聚类装置10包括:第一获取模块100、提取模块200和第一聚类模块300。
第一获取模块100,用于获取待聚类的多个视图;提取模块200,用于提取每个视图的至少一个图像特征,得到多个图像特征;第一聚类模块300,用于将多个图像特征输入预先训练得到的聚类模型,利用聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用互补信息和结构信息匹配每个视图的实际类别,基于实际类别对多个视图进行聚类,输出多个视图的聚类结果。
在本申请的一个实施例中,第一聚类模块300,进一步用于获取携带有真实聚类结果标签的训练数据,其中,训练数据包括多个视图样本;将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息;根据互补信息和结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据实际相似度确定每个视图样本的实际类别,基于实际类别对多个视图样本聚类,得到训练聚类结果;根据训练聚类结果与真实聚类结果计算训练损失值,在训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化聚类中心,并更新预设结构化隐空间,直到训练损失值小于或等于收敛阈值时,停止迭代训练,得到训练完成的聚类模型。
在本申请的一个实施例中,第一聚类模块300,进一步用于根据训练聚类结果与真实聚类结果计算重构损失和聚类损失;获取聚类损失的权重参数,并根据权重参数、聚类损失和重构损失计算得到训练损失值。
在本申请的一个实施例中,本申请实施例的装置10还包括:计算单元,用于在将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息之前,获取任意视图在预设样本中的隐空间表示;以隐空间表示的重构损失最小为优化目标,计算得到隐空间表示与任意视图之间的映射关系;第一构建单元,用于基于映射关系和预设多层感知机构建得到预设公共隐空间。
在本申请的一个实施例中,本申请实施例的装置10还包括:生成单元,用于在将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息之前,利用预设公共隐空间构建无向k近邻图;将多个视图样本输入无向k近邻图,得到多个视图样本之间的实际近邻关系;第二构建单元,用于以实际近邻关系和预设公共隐空间表示作为预设图卷积网络的输入,输出预设公共隐空间的更新表示,并通过预设图卷积网络进行逐层卷积,得到每层卷积的更新表示,并基于每层卷积的更新表示构建得到预设结构化隐空间。
根据本申请实施例提出的多视图聚类装置,通过提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,通过公共的隐空间表示来灵活地挖掘不同视图的互补信息,并利用结构化的隐空间得到视图间的结构信息,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。同时考虑视图间的互补信息和样本间的结构关系,不仅能够灵活地融合多个视图的信息,也能充分利用样本间的结构信息,从而使聚类结果更加准确。由此,解决了相关技术基于原始数据矩阵或者浅层特征构建图,并利用不同的融合策略将多个图融合起来的方式,不仅计算量大,且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果等问题。
图9是本申请实施例的另一种多视图聚类装置的方框示意图。
如图9所示,该多视图聚类装置20包括:第二获取模块400、处理模块500、训练模块600和第二聚类模块700。
其中,第二获取模块400,用于获取携带有真实聚类结果标签的训练数据,其中,训练数据包括多个视图样本;处理模块500,用于将多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出视图样本之间的互补信息和结构信息;训练模块600,用于根据互补信息和结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据实际相似度确定每个视图样本的实际类别,基于实际类别对多个视图样本聚类,得到训练聚类结果;第二聚类模块700,用于根据训练聚类结果与真实聚类结果计算训练损失值,在训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化聚类中心,并更新预设结构化隐空间,直到训练损失值小于或等于收敛阈值时,停止迭代训练,得到训练完成的聚类模型,利用聚类模型聚类待聚类的多个视图,得到多个视图的聚类结果。
需要说明的是,前述对多视图聚类方法实施例的解释说明也适用于该实施例的多视图聚类装置,此处不再赘述。
根据本申请实施例提出的多视图聚类装置,通过提取待聚类的多个视图的图像特征,输入到预先训练得到的聚类模型,通过公共的隐空间表示来灵活地挖掘不同视图的互补信息,并利用结构化的隐空间得到视图间的结构信息,从而实现对每个视图类别的分类,进一步得到多个视图的聚类结果。同时考虑视图间的互补信息和样本间的结构关系,不仅能够灵活地融合多个视图的信息,也能充分利用样本间的结构信息,从而使聚类结果更加准确。由此,解决了相关技术基于原始数据矩阵或者浅层特征构建图,并利用不同的融合策略将多个图融合起来的方式,不仅计算量大,且聚类效果严重依赖于原始构图的质量,从而限制了多视图聚类的效果等问题。
图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行程序时实现上述实施例中提供的多视图聚类方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral Component,外部设备互连)总线或EISA(Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个CPU(Central Processing Unit,中央处理器),或者是ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的多视图聚类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种多视图聚类方法,其特征在于,包括以下步骤:
获取待聚类的多个视图;
提取每个视图的至少一个图像特征,得到多个图像特征;
将所述多个图像特征输入预先训练得到的聚类模型,利用所述聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用所述互补信息和所述结构信息匹配每个视图的实际类别,基于所述实际类别对所述多个视图进行聚类,输出所述多个视图的聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述聚类模型基于携带有真实聚类结果标签的训练数据训练得到,包括:
获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;
将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;
根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;
根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述训练聚类结果与所述真实聚类结果计算训练损失值,包括:
根据所述训练聚类结果与所述真实聚类结果计算重构损失和聚类损失;
获取所述聚类损失的权重参数,并根据所述权重参数、所述聚类损失和所述重构损失计算得到所述训练损失值。
4.根据权利要求2所述的方法,其特征在于,在将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息之前,包括:
获取任意视图在预设样本中的隐空间表示;
以所述隐空间表示的重构损失最小为优化目标,计算得到所述隐空间表示与所述任意视图之间的映射关系;
基于所述映射关系和预设多层感知机构建得到所述预设公共隐空间。
5.根据权利要求2所述的方法,其特征在于,在将所述多个视图样本分别输入所述预设公共隐空间和所述预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息之前,包括:
利用所述预设公共隐空间构建无向k近邻图;
将所述多个视图样本输入所述无向k近邻图,得到所述多个视图样本之间的实际近邻关系;
以所述实际近邻关系和所述预设公共隐空间表示作为预设图卷积网络的输入,输出所述预设公共隐空间的更新表示,并通过所述预设图卷积网络进行逐层卷积,得到每层卷积的更新表示,并基于所述每层卷积的更新表示构建得到所述预设结构化隐空间。
6.一种多视图聚类方法,其特征在于,包括以下步骤:
获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;
将所述多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;
根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;
根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型,利用所述聚类模型聚类待聚类的多个视图,得到所述多个视图的聚类结果。
7.一种多视图聚类装置,其特征在于,包括:
第一获取模块,用于获取待聚类的多个视图;
提取模块,用于提取每个视图的至少一个图像特征,得到多个图像特征;
第一聚类模块,用于将所述多个图像特征输入预先训练得到的聚类模型,利用所述聚类模型的预设公共隐空间和预设结构化隐空间分别提取不同视图之间的互补信息和结构信息,利用所述互补信息和所述结构信息匹配每个视图的实际类别,基于所述实际类别对所述多个视图进行聚类,输出所述多个视图的聚类结果。
8.一种多视图聚类装置,其特征在于,包括:
第二获取模块,用于获取携带有真实聚类结果标签的训练数据,其中,所述训练数据包括多个视图样本;
处理模块,用于将所述多个视图样本分别输入预设公共隐空间和预设结构化隐空间,输出所述视图样本之间的互补信息和结构信息;
训练模块,用于根据所述互补信息和所述结构信息计算每个视图样本的样本点与预设聚类中心之间的实际相似度,根据所述实际相似度确定所述每个视图样本的实际类别,基于所述实际类别对所述多个视图样本聚类,得到训练聚类结果;
第二聚类模块,用于根据所述训练聚类结果与所述真实聚类结果计算训练损失值,在所述训练损失值大于收敛阈值时,利用实际相似度确定的目标分布从当前信度分配中优化所述聚类中心,并更新所述预设结构化隐空间,直到所述训练损失值小于或等于所述收敛阈值时,停止迭代训练,得到训练完成的聚类模型,利用所述聚类模型聚类待聚类的多个视图,得到所述多个视图的聚类结果。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的多视图聚类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任一项所述的多视图聚类方法。
CN202211289814.2A 2022-10-20 2022-10-20 多视图聚类方法、装置、电子设备及存储介质 Pending CN115546525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211289814.2A CN115546525A (zh) 2022-10-20 2022-10-20 多视图聚类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211289814.2A CN115546525A (zh) 2022-10-20 2022-10-20 多视图聚类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115546525A true CN115546525A (zh) 2022-12-30

Family

ID=84734658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211289814.2A Pending CN115546525A (zh) 2022-10-20 2022-10-20 多视图聚类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115546525A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310459A (zh) * 2023-03-28 2023-06-23 中国地质大学(武汉) 基于多视图空谱联合的高光谱图像子空间聚类方法
CN116564534A (zh) * 2023-04-03 2023-08-08 北京林业大学 中医临床数据的多视图聚类方法、装置及电子设备
CN117523244A (zh) * 2023-10-31 2024-02-06 哈尔滨工业大学(威海) 一种多视图聚类方法、系统、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310459A (zh) * 2023-03-28 2023-06-23 中国地质大学(武汉) 基于多视图空谱联合的高光谱图像子空间聚类方法
CN116310459B (zh) * 2023-03-28 2024-01-19 中国地质大学(武汉) 基于多视图空谱联合的高光谱图像子空间聚类方法
CN116564534A (zh) * 2023-04-03 2023-08-08 北京林业大学 中医临床数据的多视图聚类方法、装置及电子设备
CN117523244A (zh) * 2023-10-31 2024-02-06 哈尔滨工业大学(威海) 一种多视图聚类方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
CN103559504B (zh) 图像目标类别识别方法及装置
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
Foti et al. Nonparametric sparsification of complex multiscale networks
Ohata et al. A novel transfer learning approach for the classification of histological images of colorectal cancer
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
Tang et al. Deep safe incomplete multi-view clustering: Theorem and algorithm
Chakraborty et al. Simultaneous variable weighting and determining the number of clusters—A weighted Gaussian means algorithm
Bodnar et al. Deep graph mapper: Seeing graphs through the neural lens
N’Cir et al. Overview of overlapping partitional clustering methods
Mohammadi et al. Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
Cucuringu et al. An MBO scheme for clustering and semi-supervised clustering of signed networks
CN111178196B (zh) 一种细胞分类的方法、装置及设备
Lu et al. Multiple-kernel combination fuzzy clustering for community detection
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Wan et al. A self-adaptive multi-objective harmony search based fuzzy clustering technique for image segmentation
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Liu et al. A weight-incorporated similarity-based clustering ensemble method
Li et al. Standardized object-based dual CNNs for very high-resolution remote sensing image classification and standardization combination effect analysis
CN111428741B (zh) 网络社区的发现方法、装置、电子设备及可读存储介质
Ju et al. A novel neutrosophic logic svm (n-svm) and its application to image categorization
CN113378934A (zh) 一种基于语义感知图神经网络的小样本图像分类方法及系统
CN113515519A (zh) 图结构估计模型的训练方法、装置、设备及存储介质
Phamtoan et al. Improving fuzzy clustering algorithm for probability density functions and applying in image recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination