CN116108363A - 基于标签引导的不完备多视图多标签分类方法和系统 - Google Patents
基于标签引导的不完备多视图多标签分类方法和系统 Download PDFInfo
- Publication number
- CN116108363A CN116108363A CN202211622171.9A CN202211622171A CN116108363A CN 116108363 A CN116108363 A CN 116108363A CN 202211622171 A CN202211622171 A CN 202211622171A CN 116108363 A CN116108363 A CN 116108363A
- Authority
- CN
- China
- Prior art keywords
- view
- label
- sample
- incomplete
- perception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Sorting Of Articles (AREA)
Abstract
本发明公开了一种基于标签引导的不完备多视图多标签分类方法、系统及存储介质。方法包括:构建、训练基于标签引导的不完备多视图多标签分类网络模型;将测试数据输入训练好的不完备多视图多标签分类网络模型进行推理,输出预测标签;其中,不完备多视图多标签分类网络模型包括掩码视图感知编码器、自适应加权多视图融合模块、标签引导的样本级图约束模块和子类别感知多标签分类模块。本发明可以充分利用多视图的互补信息,同时提取样本的深层次特征;可自适应地学习每个视图的权重因子;利用标签流形假设指导样本编码,最终在子类嵌入空间中学习相关性以帮助预测标签。此外,本发明适用于视图和标签都不完整的多视图多标签数据。
Description
技术领域
本发明涉及模式识别技术领域,尤其涉及一种基于标签引导的不完备多视图多标签分类方法和系统。
背景技术
随着表示学习方法的发展,基于简单单视图数据的数据分析技术越来越难以满足多样化的应用需求。近年来,数据采集技术蓬勃发展,来自不同媒体或不同风格的多视角数据无处不在,为全面准确地描述观测目标提供了更多的可能性。简而言之,对同一事物从不同观察角度获得的多个观察结果,可以视为多视图数据。例如,在四个不同位置捕获的视网膜图像构成了四视图视网膜数据集;用不同的特征提取算子从目标图像中提取的特征也可以形成多视图数据集。更典型地,由诸如文本、图片和视频的多媒体数据组成的多视图或多模态数据集已经被广泛地用于诸如网页分类的许多应用中。于是,多视图学习应运而生,大量基于子空间学习、矩阵分解、图学习的方法被提出。这些方法中的大多数试图获得多视图的一致表示,以表示对象的本质属性。另一方面,由于多视图学习的核心是表示学习,研究者通常将其与下游任务相结合,以提高应用价值和评估学习效果。也就是说,根据监督信息是否可用,多视图学习可以分为聚类和分类。此外,在单标签分类任务中,一个样本只被标记为一个类别,这显然违背了信息在自然界中的分布规律。例如,一幅鸟的图片很可能包含“天空”或“树”的类别。因此,尽管多标签分类仍然面临着比单标签分类更多的挑战,但其广阔的应用前景正吸引着众多的研究热情。一些基于矩阵分解的多视图多标签分类模型被提出,这些模型试图一致化核空间中的不同视图以利用多视图的互补性挖掘更多的潜在信息。另一种伯努利混合条件模型被提出以模拟标签依赖性,并采用变分推理框架进行近似后验估计。目前,国内外研究者在多视图多标签学习领域进行了广泛的研究,但是这些工作都假设所有的视图和标签都是完整的,这个前提在实践中经常被违反。例如,如果网页仅包含文本和图像,则该页面的视频视图不可用。为了尽可能地避免丢失视图的负面影响,一些多视图学习工作试图掩盖不可用视图或恢复丢失视图。同样,人工标注也很可能因失误或成本而遗漏一些标签,这必然削弱了多标签数据的监管信息。尽管一些针对不完备多视图或不完备多标签学习所设计的方法已经取得了成果,但是它们中的大多数都不能同时处理两种不完备情况。
发明内容
本发明针对上述问题,提供了一种基于标签引导的不完备多视图多标签分类方法和系统,适用于视图和标签都不完整的多视图多标签数据。
本发明的第一方面,提供了一种基于标签引导的不完备多视图多标签分类方法,方法包括以下步骤:
构建基于标签引导的不完备多视图多标签分类网络模型,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块,
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
训练所述不完备多视图多标签分类网络模型;
将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
本发明进一步的技术方案是:所述掩码视图感知转换器为Transformer编码器结构,并在计算多头自注意得分时引入缺失视图指示矩阵用于防止缺失视图参与注意得分的计算。
本发明进一步的技术方案是:所述掩码视图感知转换器根据所述缺失视图指示矩阵对所述初步嵌入特征进行掩码操作,具体为对所述初步嵌入特征填充零值后构造样本的掩码矩阵。
本发明进一步的技术方案是:所述标签引导的样本级图约束模块定义标签相似度矩阵T为:
T=(Y⊙G)(Y⊙G)T./(GGT)
其中,⊙表示矩阵按位乘,./表示对应元素的除法,Y表示样本标签矩阵,Yi∈{0,1}c表示第i个样本标签的行向量,c是类别数,T∈[0,1]n×n是被GGT标准化的,n表示样本数,(GGT)ij表示在Yi和Yj中已知类别的个数。G∈{0,1}n×c为缺失标签的指示矩阵,Gij=1时表示第i个样本的第j个类别是已知的,否则Gij=0。
本发明进一步的技术方案是:所述标签引导的样本级图约束模块在余弦空间中计算两个嵌入特征的相似性,对于样本i和j在视图v中的特征相似性被定义为:
其中,m表示视图数,n表示样本数,表示在视图v中可用样本对的数量,W∈{0,1}n×m为缺失视图的指示矩阵,Wiv=1时表示第i个样本的第v个视图是可用的,Wiv=0时表示第i个样本的第v个视图是不可用的。
本发明进一步的技术方案是:所述自适应加权多视图融合模块融合多视图的所述嵌入特征,具体表达式为:
其中,m表示视图数,av是第v个视图的可学习权重,γ是调节因子,表示所述掩码视图感知编码器输出视图v中样本i的嵌入特征,Wiv=1时表示第i个样本的第v个视图是可用的,Wiv=0时表示第i个样本的第v个视图是不可用的。
本发明的第二方面,一种基于标签引导的不完备多视图多标签分类系统,包括:
网络模型构建单元,用于构建基于标签引导的不完备多视图多标签分类网络模型,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块,
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
网络模型训练单元,用于训练所述不完备多视图多标签分类网络模型;
预测单元,用于将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
本发明的第三方面,提供了一种基于标签引导的不完备多视图多标签分类系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述基于标签引导的不完备多视图多标签分类方法。
本发明的第四方面,一种存储介质,其上存储有程序,所述程序在被处理器执行时,使得所述处理器执行上述基于标签引导的不完备多视图多标签分类方法。
本发明提供的一种基于标签引导的不完备多视图多标签分类方法和系统,该方法搭建了基于标签引导的不完备多视图多标签分类网络模型,模型由四部分组成:掩码视图感知编码器、自适应加权多视图融合模块、标签引导的样本级图约束模块和子类别感知多标签分类模块,其中,掩码视图感知编码器打破了视图间的障碍来集成多视图特征,可以充分利用多视图的互补信息,同时提取样本的深层次特征;自适应加权多视图融合模块考虑到视图的不同判别能力意味着对最终的分类结果有着不同的贡献,因此需要自适应地学习每个视图的权重因子;标签引导的样本级图约束模块考虑到与单标签数据相比,多标签数据天然地享有更丰富的监督信息,因此利用标签光滑度(流形假设)指导样本编码;子类别感知多标签分类模块考虑到多标签数据具有不可忽略的类间相关性,在子类嵌入空间中学习相关性以帮助预测标签。此外,本发明考虑了丢失标签和视图的可能性,所提方法是一个通用的多视图多标签分类框架,可以兼容各种不完备多视图多标签数据。综上所述,本发明的有益效果包括:
本发明所提出的基于标签引导的不完备多视图多标签分类网络模型,能够处理不完备视图和有缺失的标签数据,提出的掩码视图感知自注意模块可以避免缺失视图对视图间信息交互的负面影响,提出的子类别感知多标签分类模块能够在子类别嵌入空间中挖掘潜在的类别间相关性,进而提高特征表达能力;
本发明所提出的不完备多视图多标签分类网络模型充分利用了标签流形假设,尽管多标签信息是零碎的,该方法仍然尽力构建基于不完备标签的近似相似图来指导样本的编码过程,这进一步加强了嵌入特征的语义判别能力;
不同的视图对分类结果的影响程度不同,本发明引入了一种自适应加权融合策略来平衡这种重要性差异,而不是简单地加和多个视图。该自适应加权融合策略能够帮助模型有倾向性地关注高判别性视图。
附图说明
图1是本发明实施例一中的基于标签引导的不完备多视图多标签分类方法流程示意图;
图2是本发明实施例一中的基于标签引导的不完备多视图多标签分类网络模型的结构示意图;
图3是本发明实施例一中的掩码视图感知转换器中掩码自注意力机制示意图;
图4是本发明实施例一中的掩码视图感知编码器的其他结构示意图;
图5是本发明实施例一中的标签引导的样本级图约束模块中标签引导的样本级图约束示意图;
图6是本发明实施例二中的基于标签引导的不完备多视图多标签分类系统结构示意图;
图7是本发明实施例三中的一种计算机设备的架构。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅出示了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本发明实施例针对一种基于标签引导的不完备多视图多标签分类方法、系统及存储介质,提供了如下实施例:
基于本发明的实施例一
本实施例用于说明基于标签引导的不完备多视图多标签分类方法,参见图1,为基于标签引导的不完备多视图多标签分类方法流程示意图,具体包括以下步骤:
S110、构建基于标签引导的不完备多视图多标签分类网络模型,如图2所示,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块,
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
S120、训练所述不完备多视图多标签分类网络模型;
S130、将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
具体实施过程中,先定义问题如下,给定输入多视图数据集D={X,Y},它包含n个样本。对于第i个样本,Xi由m个dv维度的视图组成,即或者对于第v个视图,Yi∈{0,1}c是表示第i个样本标签的行向量,c是类别数。为了描述缺失问题,定义W∈{0,1}n×m作为缺失视图的指示矩阵,Wij=1时表示第i个样本的第j个视图是可用的,除此之外,Wij=0。同样的,定义G∈{0,1}n×c作为缺失标签的指示矩阵,Gij=1时表示第i个样本的第j个类别是已知的,否则Gij=0。在数据准备阶段原始数据X和标签Y的所有缺失信息将被设置为“0”。本发明的多视图多标签学习目标是训练一个可以正确预测每个输入样本的多个类别的神经网络模型。
进一步地,所述掩码视图感知转换器为Transformer编码器结构,并在计算多头自注意得分时引入缺失视图指示矩阵用于防止缺失视图参与注意得分的计算。
进一步地,所述掩码视图感知转换器根据所述缺失视图指示矩阵对所述初步嵌入特征进行掩码操作,具体为对所述初步嵌入特征填充零值后构造样本的掩码矩阵。
具体实施过程中,掩码视图感知编码器(简称VFormer)用于在跨视图信息交互过程中聚合互补信息。在此之前,需要考虑不同的视图可能具有不同的特征维数,因此该模块首先通过一组多层感知器(MLP)将原始的多视角数据映射到相同维度的嵌入子空间中,这一步相当于初步的特征提取操作,即将这些多视图的嵌入特征堆叠成一个特征序列作为VFormer的输入张量。本发明的视图感知转换器的结构类似于典型Transformer中编码器结构,主要的不同在于计算多头自注意得分时引入了缺失视图指示矩阵,其目的是为了防止缺失视图参与注意得分的计算。该掩码多头自注意编码器的细节如下:
对于每个嵌入样本通过h组投影矩阵线性投影得到它的查询Query、键Key和值Value。为了根据缺失视图分布对嵌入特征进行掩码操作,该模块使用‘-1e9’填充零值,并构造样本i的掩码矩阵:其中wi是W的第i行,然后计算视图相关性At并输出Ht:
其中,dh=de/h,Wq t,Wk t,掩码自注意机制如图3中所示,实施例中用‘-1e9’填充缺失的注意力值,使得softmax在计算注意力分数时将忽略相应的缺失视图。最后连接所有输出产生关于样本i的新的嵌入特征在VFormer中,同一样本的所有视图都将在并行编码的过程中交换信息。因此,每个视图的私有信息在一定程度上被其他视图共享在VFormer中的其他操作如图4所示。其中L为线性层(LinearLayer)、C为连接操作(Concatenate)、A为上述自注意力层(Self-Attention)、N为层归一化(LayerNorm)、M为多层感知机(Multilayer perceptron)。最后,VFormer可以形式化地表述为:
不像单标签样本保持恒定的标签距离(如以欧氏距离计算为),多标签样本在标签空间中不均匀分布,这为基于标签相似性的高级表示学习提供了可能。标签流形假设是指“如果两个样本相似,那么它们的标签也应该相似”。因此,本发明利用这种标签相似性来构建样本级图约束以指导表示学习。如图5所示,计算从样本1到其他样本的相似性向量,以指导样本1的嵌入编码。标签引导的样本级图约束模块定义标签相似度矩阵T为:
T=(Y⊙G)(Y⊙G)T./(GGT) (2)
其中,⊙表示矩阵按位乘,./表示对应元素的除法,Y表示样本标签矩阵,Yi∈{0,1}c表示第i个样本标签的行向量,c是类别数,T∈[0,1]n×n是被GGT标准化的,n表示样本数,(GGT)ij表示在Yi和Yj中已知类别的个数。对于两个样本,正标签的数量越大,他们就越相似。
进一步地,所述标签引导的样本级图约束模块在余弦空间中计算两个嵌入特征的相似性,对于样本i和j在视图v中的特征相似性被定义为:
其中,m表示视图数,n表示样本数,表示在视图v中可用样本对的数量,W∈{0,1}n×m为缺失视图的指示矩阵,Wiv=1时表示第i个样本的第v个视图是可用的,Wiv=0时表示第i个样本的第v个视图是不可用的。标签引导的样本级图约束模块引入WivWjv来屏蔽丢失视图的损失计算。
进一步地,VFormer为每个样本的每个视图编码输出一个嵌入特征为了获得一致的公共表示来唯一地描述相应的样本,本发明的自适应加权多视图融合模块,在最终分类之前融合多视图的嵌入特征。样本i的融合特征被如下定义:
其中,m表示视图数,av是第v个视图的可学习权重,γ是调节因子,表示所述掩码视图感知编码器输出视图v中样本i的嵌入特征,Wiv=1时表示第i个样本的第v个视图是可用的,Wiv=0时表示第i个样本的第v个视图是不可用的。式(5)形式上很简单,但它有两个优点:1)不同于其它对所有视图一视同仁的方法,本方法灵活地为每个视图分配不同的加权系数,这有助于保持或突出视图之间判别能力的差异。2)在多视图融合中不可用的视图必须被忽略以避免负面影响,因此将视图缺失矩阵引入到融合特征的计算中,可以更好地利用未缺失的可用数据信息来训练模型。聚合所有的zi,可以得到输出张量用于进一步的分类。
具体实施过程中,多个类别的样本是非独立的。如何利用多标签相关性来使模型更具鉴别性是一个关键问题。不同于其他方法学习类别相关性图,本发明直接将每个类别映射到特征空间,并利用自注意机制来捕捉类别相关性。具体地说,c个类别表征在训练开始之前被随机初始化,然后与样本的融合特征一起输入到类别感知编码器(简称为CFormer)(即输入为)。类似于VFromer的结构,CFromer允许融合特征和类别表征共享信息。这一操作主要有两个好处:一方面,视图融合特征根据相似性聚合所有子类别信息,这使得CFormer输出的嵌入特征更接近相关类别表征。另一方面,子类别间的信息交互隐含地促进了类别相关性的学习。此处没有引入缺失标签掩码,是因为挖掘类别相关信息需要所有类别表征的参与。对于任意样本i,CFormer的输出张量为:将输出结果分为两部分,即用于主要分类目的的融合表示和类别表征进一步地,如图2所示,c+1个线性分类器与CFormer的输出并行连接。其中分类器Ψz预测主要类别分数Pz∈[0,1]n×c作为最终结果。而其他分类器只预测其对应类别的分数,因此可以聚合所有子类别表征的预测结果,得到次要类别分数Pc∈[0,1]n×c。最后,定义掩码二值交叉熵函数作为多标签分类损失:
综上,本发明所提出模型总损失函数是:
其中,α和β为惩罚系数。
下面给出一个基于标签引导的不完备多视图多标签分类网络模型运用的具体示例:
整个模型分为训练和测试两个部分:
模型训练:
1.训练准备阶段:
2)设置超参数α,β,γ和训练停止阈值σ;
3)用‘0’填充所有缺失视图与缺失标签;
4)初始化网络模型参数;
2.训练阶段
1)输入数据;
4)通过VFormer为每个视图计算视图感知嵌入特征{Z(v)};
5)利用式(5)计算融合特征;
8)保存网络参数。
模型测试:
1.测试准备阶段:
2)用‘0’填充所有缺失视图;
3)加载训练好的网络模型参数;
2.测试阶段
1)输入数据;
3)通过VFormer为每个视图计算视图感知嵌入特征{Z(v)};
4)利用式(5)计算融合特征;
5)根据CFormer和分类器计算主预测结果Pz;
6)输出预测结果Pz。
基于本发明的实施例2
本发明实施例2所提供的一种基于标签引导的不完备多视图多标签分类系统600可执行本发明实施例1所提供的基于标签引导的不完备多视图多标签分类方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件(集成电路)的方式实现,并一般可集成于服务器或终端设备中。图6是本发明实施例2中的一种基于标签引导的不完备多视图多标签分类系统600的结构示意图。参照图6,本发明实施例的基于标签引导的不完备多视图多标签分类系统600具体可以包括:
网络模型构建单元610,用于构建基于标签引导的不完备多视图多标签分类网络模型,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块,
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
网络模型训练单元620,用于训练所述不完备多视图多标签分类网络模型;
预测单元630,用于将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
除了上述单元以外,基于标签引导的不完备多视图多标签分类系统600还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
一种基于标签引导的不完备多视图多标签分类系统600的具体工作过程参照上述基于标签引导的不完备多视图多标签分类方法实施例1的描述,不再赘述。
基于本发明的实施例三
根据本发明实施例的系统也可以借助于图7所示的计算设备的架构来实现。图7示出了该计算设备的架构。如图7所示,计算机系统701、系统总线703、一个或多个CPU704、输入/输出702、存储器705等。存储器705可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1方法的程序指令。图7所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图7中的一个或多个组件。存储器705作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于标签引导的不完备多视图多标签分类方法对应的程序指令/模块(例如,基于标签引导的不完备多视图多标签分类系统600中的网络模型构建单元610、网络模型训练单元620和预测单元630)。一个或多个CPU 704通过运行存储在存储器705中的软件程序、指令以及模块,从而执行本发明系统的各种功能应用以及数据处理,即实现上述的基于标签引导的不完备多视图多标签分类方法,该方法包括:
构建基于标签引导的不完备多视图多标签分类网络模型,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块,
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
训练所述不完备多视图多标签分类网络模型;
将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
当然,本发明实施例所提供的服务器,其处理器不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的基于标签引导的不完备多视图多标签分类方法中的相关操作。
存储器705可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器705可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器705可进一步包括相对于一个或多个CPU 704远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入/输出702可用于接收输入的数字或字符信息,以及产生与装置的用户设置以及功能控制有关的键信号输入。输入/输出702还可包括显示屏等显示设备。
基于本发明的实施例四
本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机程序。当所述计算机程序被处理器执行时,可以执行参照以上附图描述的根据本发明实施例1的基于标签引导的不完备多视图多标签分类方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于标签引导的不完备多视图多标签分类方法中的相关操作。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
综上所述,通过实施例可以看出,本发明提供的一种基于标签引导的不完备多视图多标签分类方法和系统,该方法搭建了基于标签引导的不完备多视图多标签分类网络模型,模型由四部分组成:掩码视图感知编码器、自适应加权多视图融合模块、标签引导的样本级图约束模块和子类别感知多标签分类模块,其中,掩码视图感知编码器打破了视图间的障碍来集成多视图特征,可以充分利用多视图的互补信息,同时提取样本的深层次特征;自适应加权多视图融合模块考虑到视图的不同判别能力意味着对最终的分类结果有着不同的贡献,因此需要自适应地学习每个视图的权重因子;标签引导的样本级图约束模块考虑到与单标签数据相比,多标签数据天然地享有更丰富的监督信息,因此利用标签光滑度(流形假设)指导样本编码;子类别感知多标签分类模块考虑到多标签数据具有不可忽略的类间相关性,在子类嵌入空间中学习相关性以帮助预测标签。此外,本发明考虑了丢失标签和视图的可能性,所提方法是一个通用的多视图多标签分类框架,可以兼容各种不完备多视图多标签数据。综上所述,本发明的有益效果包括:本发明所提出的基于标签引导的不完备多视图多标签分类网络模型,能够处理不完备视图和有缺失的标签数据,提出的掩码视图感知自注意模块可以避免缺失视图对视图间信息交互的负面影响,提出的子类别感知多标签分类模块能够在子类别嵌入空间中挖掘潜在的类别间相关性,进而提高特征表达能力;本发明所提出的不完备多视图多标签分类网络模型充分利用了标签流形假设,尽管多标签信息是零碎的,该方法仍然尽力构建基于不完备标签的近似相似图来指导样本的编码过程,这进一步加强了嵌入特征的语义判别能力;不同的视图对分类结果的影响程度不同,本发明引入了一种自适应加权融合策略来平衡这种重要性差异,而不是简单地加和多个视图。该自适应加权融合策略能够帮助模型有倾向性地关注高判别性视图。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于标签引导的不完备多视图多标签分类方法,其特征在于,所述方法包括以下步骤:
构建基于标签引导的不完备多视图多标签分类网络模型,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块;
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
训练所述不完备多视图多标签分类网络模型;
将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
2.根据权利要求1所述的一种基于标签引导的不完备多视图多标签分类方法,其特征在于,所述掩码视图感知转换器为Transformer编码器结构,并在计算多头自注意得分时引入缺失视图指示矩阵用于防止缺失视图参与注意得分的计算。
3.根据权利要求2所述的一种基于标签引导的不完备多视图多标签分类方法,其特征在于,所述掩码视图感知转换器根据所述缺失视图指示矩阵对所述初步嵌入特征进行掩码操作,具体为对所述初步嵌入特征填充零值后构造样本的掩码矩阵。
4.根据权利要求1所述的一种基于标签引导的不完备多视图多标签分类方法,其特征在于,所述标签引导的样本级图约束模块定义标签相似度矩阵T为:
T=(Y⊙G)(Y⊙G)T./(GGT)
其中,⊙表示矩阵按位乘,./表示对应元素的除法,Y表示样本标签矩阵,Yi∈{0,1}c表示第i个样本标签的行向量,c是类别数,T∈[0,1]n×n是被GGT标准化的,n表示样本数,(GGT)ij表示在Yi和Yj中已知类别的个数,G∈{0,1}n×c为缺失标签的指示矩阵,Gij=1时表示第i个样本的第j个类别是已知的,Gij=0时表示第i个样本的第j个类别是未知的。
8.一种基于标签引导的不完备多视图多标签分类系统,其特征在于,包括:
网络模型构建单元,用于构建基于标签引导的不完备多视图多标签分类网络模型,所述不完备多视图多标签分类网络模型包括四个子模块:掩码视图感知编码器、标签引导的样本级图约束模块、自适应加权多视图融合模块和子类别感知多标签分类模块,
其中,所述掩码视图感知编码器包括多层感知器和视图感知转换器,所述多层感知器将原始的多视图数据映射到相同维度的嵌入子空间得到初步嵌入特征,所述视图感知转换器针对所述初步嵌入特征,对同一样本的各视图在并行嵌入编码的过程中交换信息,得到嵌入特征;
所述标签引导的样本级图约束模块用于利用标签相似性构建样本级图约束以指导所述视图感知转换器进行嵌入编码;
所述自适应加权多视图融合模块用于融合多视图的所述嵌入特征,得到样本的融合特征;
所述子类别感知多标签分类模块包括类别感知编码器和分类器,所述类别感知编码器将所述融合特征和类别表征共享信息后输出新的融合特征和新的类别表征,所述分类器根据所述新的融合特征和所述新的类别表征分别预测主要和次要类别分数并以主要类别分数作为最终预测结果;
网络模型训练单元,用于训练所述不完备多视图多标签分类网络模型;
预测单元,用于将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签。
9.一种基于标签引导的不完备多视图多标签分类系统,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-7中任一项所述的基于标签引导的不完备多视图多标签分类方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的基于标签引导的不完备多视图多标签分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211622171.9A CN116108363A (zh) | 2022-12-16 | 2022-12-16 | 基于标签引导的不完备多视图多标签分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211622171.9A CN116108363A (zh) | 2022-12-16 | 2022-12-16 | 基于标签引导的不完备多视图多标签分类方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116108363A true CN116108363A (zh) | 2023-05-12 |
Family
ID=86257155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211622171.9A Pending CN116108363A (zh) | 2022-12-16 | 2022-12-16 | 基于标签引导的不完备多视图多标签分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108363A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758319A (zh) * | 2023-06-15 | 2023-09-15 | 哈尔滨理工大学 | 一种基于图卷积流形正则化自编码器的非完备多视角遥感图像聚类方法 |
-
2022
- 2022-12-16 CN CN202211622171.9A patent/CN116108363A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758319A (zh) * | 2023-06-15 | 2023-09-15 | 哈尔滨理工大学 | 一种基于图卷积流形正则化自编码器的非完备多视角遥感图像聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN111767409B (zh) | 一种基于多头自注意力机制的实体关系抽取方法 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN111881722B (zh) | 一种跨年龄人脸识别方法、系统、装置及存储介质 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN116049454A (zh) | 一种基于多源异构数据的智能搜索方法及系统 | |
KR20220047228A (ko) | 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼 | |
CN111985207B (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN115994317A (zh) | 基于深度对比学习的不完备多视图多标签分类方法和系统 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN115909374B (zh) | 一种信息识别方法、装置、设备及存储介质、程序产品 | |
CN117690098B (zh) | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN116108363A (zh) | 基于标签引导的不完备多视图多标签分类方法和系统 | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
Belharbi et al. | Deep neural networks regularization for structured output prediction | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN117493674A (zh) | 基于标签增强的监督多模态哈希检索方法及系统 | |
CN117349437A (zh) | 基于智能ai的政府信息管理系统及其方法 | |
CN116861363A (zh) | 多模态的特征处理方法、装置、存储介质与电子设备 | |
CN116958624A (zh) | 指定材质的识别方法、装置、设备、介质及程序产品 | |
CN113435206B (zh) | 一种图文检索方法、装置和电子设备 | |
Zhang et al. | MTSCANet: Multi temporal resolution temporal semantic context aggregation network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |