CN113920379A - 一种基于知识辅助的零样本图像分类方法 - Google Patents
一种基于知识辅助的零样本图像分类方法 Download PDFInfo
- Publication number
- CN113920379A CN113920379A CN202111323019.6A CN202111323019A CN113920379A CN 113920379 A CN113920379 A CN 113920379A CN 202111323019 A CN202111323019 A CN 202111323019A CN 113920379 A CN113920379 A CN 113920379A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- class
- classifier
- gcn
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000000007 visual effect Effects 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims description 52
- 238000002474 experimental method Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 8
- 230000006872 improvement Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 229910001218 Gallium arsenide Inorganic materials 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 15
- 238000012360 testing method Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 241000879777 Lynx rufus Species 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 241001233037 catfish Species 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于知识辅助的零样本图像分类方法,用于解决图卷积神经网络和知识图的算法无法充分利用视觉和语义知识,导致零样本图像分类准确性低的问题。为此本发明提出了视觉知识辅助模块与语义知识辅助模块,进一步提升了现有模型的图像分类精度。视觉知识辅助模块中利用每个类的样本视觉特征中心及其对应标签设计一个分类损失函数,促使模型挖掘真实的视觉知识。语义知识辅助模块通过将分类器参数重构回语义特征的方式,保证了语义知识在卷积网络中重要信息不被损害。此外还添加了一个简单的残差卷积网络进一步提高模型在AWA2数据集上的表现。本发明在的AWA2数据集和ImageNet数据集上都取得了良好的实验结果。
Description
技术领域
本发明属于计算机视觉,零样本学习领域,具体是一种图像分类方法。
背景技术
目前,大部分深度学习模型都依赖于大量的训练样本,但是获取训练样本的标签需要耗费巨大,而且有些标签数据难以获取甚至无法获取。针对这种问题,人们提出了零样本学习算法,这种算法只需要利用可见类样本进行训练就能识别测试类。这类算法可以用极低的成本完成自然语言处理、视频分类以及目标动作识别等任务。
零样本学习在图像分类领域受到了广泛关注,这类方法需要使用隐性的知识表征作为可见类与不可见类之间知识传播的桥梁,这种知识表征通常为属性或词向量,多数方法致力于直接学习视觉表征与知识表征的映射关系。在测试阶段将未知图像视觉特征以及未知类的语义表征映射到同一空间内,之后在这空间内用最近邻算法实现图像分类。但是,由于训练时只能用到可见类的视觉表征,因此该映射网络不具备足够强的泛化能力,这限制了模型对不可见类图像的分类能力。有研究者认为类间结构信息能够提高模型的泛化能力,并提出用隐性的知识表征和类之间的关系来预测每个类的分类器。这种方法将每个类的词向量作为节点特征,再利用类间关系作为节点的边构成一个知识图,该知识图作为GCN(Graph Convolutional Network)的输入,最后GCN输出预测的分类器。在此基础上提出了六层GCN的模型,并获得了杰出效果。但是多层图卷积网络中由于拉普拉斯过度平滑导致的节点特征趋于相同的问题,该模型在训练过程中对节点特征造成了严重的损伤。为了克服这个问题,DGP(Dense Graph Propagation)模型提出了密集图的构建策略,通过将节点与其祖先节点和子节点直接连接的方法,将GCN的层数降低到了两层,并实现了更高性能的知识传播。总之,这类方法主要在图神经网络结构以及知识图的构建两个方面进行模型的优化,并且在当时都取得了杰出的实验结果。
但是上述方法仍然存在两个严重问题。第一,引导图神经网络训练的可见类分类器参数Ws是由监督学习训练而得,这个参数将会被固定在网络训练中,该参数的分类能力极大地影响着我们最终训练出来的分类器参数这里 为预测的可见类分类器参数,为预测的不可见类分类器参数。但是Ws也是由训练所得,因此仅仅将Ws作为监督。同时,我们注意到拥有更加真实知识的可见类视觉特征却被上述方法忽略了,这些问题严重限制着预测的分类器参数的分类能力。第二,这类模型的训练是将所有节点(可见类和不可见类)输入网络中,最终网络输出其对应的分类器参数,但是监督整个网络训练的损失函数往往只包含了可见类的信息(Ws与)。因此,在训练过程中我们无法保证不可见类的节点重要信息能够在图卷积神经网络中得以有效的应用。特别是对于ImageNet这样的数据集,可见类仅有一千类而不可见类却多达两万余类,不可见类信息的丢失对于本身就缺少大量训练数据的零样本学习算法而言是非常严重的问题。
发明内容
为了解决传统方法无法充分利用现有信息,导致零样本图像分类准确性低的问题,本发明在现有方法基础上,提出了视觉知识辅助模块和语义知识辅助模块激励GCN训练精度更高的分类器。在视觉知识辅助模块中,为了减少训练时间,通过计算每个类的视觉特征中心,并以此表示整个类的视觉特征,再用这些类视觉特征及其对应类标签引导模型训练出对真实视觉特征更适应的分类器。对于语义知识辅助模块,模型利用每个类的语义特征来预测对应类的分类器参数,之后,我们用图卷积神经网络将分类器参数重构回语义特征。这两个辅助模块让视觉知识及语义知识帮助模型获得更好的实验结果。在此基础上,本发明添加了一个简单的残差卷积网络进一步提高模型在AWA2数据集上的精度。
具体技术方案如下:
一种基于知识辅助的零样本图像分类方法,利用视觉知识和语义知识激励 GCN训练得到更高性能的分类器该方法训练一个GCN网络,该网络输入包含类名称的词嵌入的知识图,输出预测的分类器并利用三个模块,基础模块 BF、语义知识辅助模块以及视觉知识辅助模块分别设计一个损失函数提高分类器的分类精度;其中基础模块设计了一个分类器参数损失LW,即利用预训练好的可见类分类器Ws约束预测的可见类分类器与Ws尽可能相似;视觉知识辅助模块设计了一个分类损失LC,即利用可见类视觉特征几何中心及其标签促使模型挖掘真实的视觉知识;语义知识辅助模块设计了一个重构损失LV,即联合预测分类器的GCN构建一个语义自编码器,利用分类器参数重建词嵌入。重构约束保证了关键语义特征在GCN训练过程中不被损害。
L=LW+αLC+βLV
其中,α和β为超参数
本发明将预测分类器的GCN称为E-GCN,包括可见类分类器以及不可见类分类器首先构建一个知识图作为E-GCN的输入,将训练数据集中的每个训练类作为一个节点,节点的具体表示为类名称词嵌入;本发明采用密集图的构建策略,利用WordNet知识图的层次关系,将每个节点与其所有祖先节点和子节点建立连接关系,作为节点之间的边。利用输入的词嵌入经过两层图卷积操作后,得到预测的分类器参数其中,E-GCN第一层网络中知识图的边用到了祖先节点的连接关系,这层网络称为E-GCNa;第二层用到了子节点的连接关系,这层网络称为E-GCNd。
所述的基础模块具体工作过程,具体包括两个步骤:
第一个步骤是预训练阶段,利用可见类数据集训练ResNet-50网络,提取出该网络最后一层的参数作为可见类的分类器参数Ws,ResNet-50网络的其他网络参数作为图像的视觉特征提取器参数Fe,这些参数在零样本图像分类器训练过程中会被固定;
所述的视觉知识辅助模块工作过程,具体包括两个步骤:
第一个步骤,利用上述预训练的视觉特征提取器Fe提取可见类样本的视觉特征,然后计算每类样本视觉特征的几何中心作为该类的视觉特征。第c类的视觉特征为之后用来预测类视觉特征的标签将所有类的预测标签进行拼接得到预测标签矩阵
其中,Y是真实标签矩阵。
所述的语义知识辅助模块工作过程,具体如包括两个步骤:
首先,本发明将预测分类器参数的过程看作一个编码过程,即将类别名称经过词嵌入得到的词向量编码成相应的分类器。在AWA2实验中,为了获得更精确的分类器,将E-GCN网络升级为残差网络,即表示为:
其中,Gd和Ga分别表示E-GCNd和E-GCNa的输出,Gd[Ga]表示Ga作为 E-GCNd的输入后得到的输出;
在第二个步骤,语义知识辅助模块利用子节点连接关系构建一个知识图,利用一层GCN网络重构类名称词嵌入,本发明将重构网络看作一个解码器,称为D-GCN。D-GCN输入为预测的分类器输出为重构的类名称词嵌入。本发明用余弦相似度度量语义重构损失:
其中,n表示所有类的类别数量。
有益效果
针对现有技术无法充分利用视觉信息和语义信息的问题,本发明提出了一种知识辅助零样本图像分类模型。模型中视觉知识辅助模块帮助模型挖掘更真实的视觉信息,语义知识辅助模块保证了语义知识在模型训练过程不受到损害,进而提高了语义知识的利用效率。本发明提出的模型在ImageNet和AWA2上进行实验并取得了良好的表现。
附图说明
图1、网络结构框架图;
图2视觉知识辅助模块示意图;
图3语义知识辅助模块示意图;
图4知识图中山猫(bobcat)节点连接关系示意图。
具体实施方式
本发明致力于实现更高精度的零样本图像分类,如附图1所示,整个模型可以分为三个部分,第一部分是基础框架BF(Basic Framework),利用可见类分类器参数Ws帮助E-GCN预测分类器,E-GCN是基于GCN的编码器 (Encoder),将每个类的词向量编码成对应类的分类器参数。模型的第二部分,视觉知识辅助模块,将可见类数据集Ds的视觉信息用以优化该模型,即利用类平均视觉特征与对应标签,引导模型预测更可靠的分类器。前面两个部分主要关注于可见类的信息,因此在模型的第三部分,语义知识辅助模块,设计了一个语义重构损失,保护了包含大量未知类信息的语义知识在训练过程中不被损害。这三个部分分别包含一个损失函数,即LW、LC以及LV,具体表达式如下:
L=LW+αLC+βLV
其中,α和β为超参数。
在介绍模型之前,我们先进行相关知识的介绍。
本发明采用现有的WordNet知识子图作为图结构,该知识图利用词的上下位关系作为节点间的连接关系。本发明中,节点的上位节点称为该节点的祖先节点,下位词称为节点的子节点。本发明采用密集图的构建策略,将一个节点与其所有祖先节点和子节点分别建立连接关系。此外,在模型训练中这两种连接关系是分开的,每一层GCN网络只会用到一种连接关系,比如在某一层图卷积操作过程中,某个节点只会接受到父节点的知识。在知识图中每个节点用其类名称的GloVe词向量(维度为300)进行表示,即每个节点代表一个对象类别。
1.基础框架
在详细说明本发明辅助模块之前,本文先简要介绍本模型基础框架。
首先以监督学习方式利用可见类数据集Ds训练ResNet-50网络,然后提取出该网络最后一层的参数作为可见类的分类器参数Ws,其他网络参数将作为图像的视觉特征提取器,这些参数在零样本图像分类器训练过程中会被固定。
本发明将训练零样本分类器视为一个回归问题,利用GCN预测分类器本发明将预测分类器的GCN称为E-GCN,其输入为上述包含所有类节点的知识图,输出为分类器参数 包含两部分,预测的可见类分类器参数和预测的不可见类分类器参数E-GCN包含两层GCN网络,分别为E-GCNa和 E-GCNd,这两层网络分别表示节点接收到的知识来源于祖先节点和子节点。并且为了学习知识图上不同距离的节点产生的贡献程度,每层节点都会设置一个可学习的参数。
其中,表示由E-GCN预测的分类器参数,n为输入的节点数量, Wd为分类器参数维度。和分别表示与节点距离k的祖先节点和子节点邻接矩阵(k=0时表示自连接矩阵,即单位阵), 和为对应度矩阵,和分别表示祖先节点和子节点第K层的可训练权重参数,和均为参数矩阵,Wd表示词向量的维度,Qa和Qd为输出节点特征的维度。是输入的词向量矩阵,δ为激活函数。在本实验中,K取值为4,因此共有2K+1个对应层的可训练权重参数。
基础框架利用图卷积网络实现可见类到不可见类的知识迁移,旨在利用回归方式预测不可见类的分类器,这部分采用均方损失函数LW来度量回归损失:
2.基于视觉知识辅助的分类器优化模块
基础模块仅用LW来约束分类器的训练,但是通过监督学习方式训练的可见类分类器参数Ws并不完美,本发明采用的ResNet-50在ImageNet数据集上只能得到75.1%的分类结果。因此,这样的模型理想状态获得的预测可见类分类器参数最好也只能达到75.1%,同理,这类模型在不可见类数据集上也难以取得较好的结果。我们注意到,原始图像信息拥有及其丰富的分辨性信息,如果我们能在模型训练中充分利用这些信息,那么分类器将会有更好的性能。
类别信息辅助的深度学习方法提升了学习质量,因此,我们考虑在基于样本的训练基础上进行基于样本均值的训练;而计算时间的降低是其附带的优势。一个简单的办法是利用一个类所有样本的视觉特征几何中心来代表这个类的视觉特征,结构图如附图2所示。对于第c个可见类的所有图像,首先用上述预训练好的特征提取器提取该类所有样本的视觉特征,然后计算这些样本几何中心
下面定义我们的分类函数,用于预测待分类对象的标签:
3.基于语义知识辅助的分类器优化模块
基础框架和视觉知识辅助模块都只用到了可见类数据集Ds的信息,然而对于零样本学习,我们更关注的是如何为不可见类训练出分类器。在训练过程中,我们以词向量作为初始节点特征,在网络训练过程中节点通过节点间的边完成信息交换,在这一过程中可能存在关键信息的丢失。首先,一个重构约束能够增强从可见类学到的映射函数对不可见类的泛化性能。其次,我们认为语义重构约束在保护语义的信息的同时能够对语义进行降噪。因此,本文在语义知识辅助模块中,提出了基于GCN结构的语义重构网络(D-GCN),如附图3所示。
其中,vi表示第i个类名称的词嵌入。因为E-GCN输入包含了可见类和不可见类的词向量,所以需对所有语义进行重构。
4.基于残差网络的语义知识辅助模块增强:
ImageNet数据集包含两万多个类,以前的研究者对这些类一视同仁。但是现实生活中我们对于某些类的识别需求更高,尤其是一些接近人类生活的类,如猫、狗等。我们注意到,这些类在知识图中处于较“深”的位置,如山猫 (bobcat)在知识图中有15层祖先节点,然而却没有子节点,如附图4所示。这意味着对于山猫这个节点而言,在图卷积神经网络中知识传播全部来自于祖先节点,对于其他接近我们生活的类也类似,其祖先节点所提供的知识远远大于子节点提供的知识。如果可以让模型注重于祖先节点传播的知识,那么对于这些类,我们就能获得更精确的分类器。因此,本文给模型增加了一个简单的残差传递,将E-GCN网络升级为残差网络,如附图3所示,即预测分类器参数的图卷积网络由:
变成了:
其中,Gd和Ga分别表示E-GCNd和E-GCNa的输出,Gd[Ga]表示Ga作为 E-GCNd的输入后得到的输出。这里使用的残差网络与其他模型不同,这里仅仅是为了使模型在训练过程中更注重祖先节点的信息,后文将利用AWA2数据集进行实验加以验证。
测试:
实验部分
实验步骤:
1)以监督学习方式得到可见类分类器Ws以及视觉特征提取器Fe(视觉特征提取函数)
4)利用特征提取器提取测试图像视觉特征
数据集:本发明采用零样本学习领域广泛使用的ImageNet数据集和AWA2数据集进行实验。我们遵循Frome等人对ImageNet数据集的分割策略用于零样本实验的评测。他们根据与ImageNet 2012 1K(可见类数据集)在ImageNet层级中的距离将ImageNet数据集分成三个数据集,分别为“2-hops”、“3-hops”以及“all”,在零样本学习领域中,这三个数据集识别难度依次增加。其中,“2-hops”包含大约1.5K个类,“2-hops”包含约7.8K个类,而“all”包含近21K个类。这三个数据集与ImageNet 2012数据集均没有交集。AWA2数据集包含了50个动物类,总共有37322张图像,平均每类约746张。在本实验中,我们采用Xian等人提出的分割策略,40个类作为训练集,剩下的10个类作为测试集,这种40/10的分割比例与其他分割方式相同。此外,这种分割策略保证了AWA2测试集与ImageNet 2012数据集均没有交集,这使得我们严格遵守了零样本学习实验的要求。AWA2数据集还为每个类提供了多数零样本学习模型需要依赖85-attribute语义表征,但是本实验中由于“all”包含了AWA2的所有测试类,因此并不需要使用该属性。
评估指标:对于ImageNet数据集,我们采用Top-k Hit Ratio(Hit@k)作为评估指标,Hit@k表示由分类器选取K个评分最大标签,如果真实标签包含在这K个标签里面,那么认为分类器实现正确分类,K值分别为1、2、5、10和 20。为了更简单明了地进行比较,我们还设置了AVE指标,这个指标是前面五个实验结果的平均数值。
对于AWA2数据集,我们用每个测试类识别准确率的均值作为评估指标。本发明实验结果表格中,最好结果用黑色粗体表示,次好结果用下划线表示。
实验设置:根据测试集的来源不同,本实验可分为传统零样本学习(ZSL) 以及广义零样本学习(GZSL)。在ZSL设置中,分类器只需要识别不可见类;在GZSL设置中,分类器需要识别不可见类和可见类。
E-GCN包含两层图卷积网络,其输出维度均为2049,D-GCN包含一层图卷积神经网络,输出维度为300。每层网络后面都会应用Dropout,在ImageNet实验中比例为0.4,在AWA2实验中比例为0.5。实验中的激活函数为Leaky Relus,其负斜率为0.2。分类器用Adam进行训练,在ImageNet实验中学习率为0.0005, weight decay为0.0005;在AWA2实验中,参数分别为0.001和0.0001。此外,我们还采用了学习率衰减策略,StepLR,步长为500个epochs,gamma值为0.8,整个训练过程包含6000个epochs。在本文中α取值为0.1,β为0.002。
特征提取器微调:模型训练完成后,我们能得到预测的分类器参数但是我们训练的特征提取器仅利用了可见类数据集进行训练,该特征提取器在不可见类图像上泛化能力不够,因此需要对特征提取器进行微调(Finetuning)。是利用GCN完成可见类和不可见类之间的知识迁移后而预测得到的,因此具有了一定程度的不可见类信息。我们用代替ResNet-50倒数最后一层网络参数(Ws)并将这些参数固定,再利用Ds对ResNet-50进行训练,最终获得更具泛化能力的特征提取器。我们会在ImageNet实验测试阶段用到微调后的特征提取器,Ds是ImageNet的标准训练集,因此在AWA2数据集实验中不需要进行特征提取器的微调。
ImageNet实验:在该数据集上,本发明ZSL设置和GZSL设置上均进行了实验,我们遵守大部分前人工作的实验结果评估标准。ZSL实验结果如表1所示:
表1现有的杰出方法与本发明方法在ImageNet数据集上的Top-k准确率结果,仅对不可见类进行测试。
从表1中我们观察到相比其他模型,在三个数据集上我们的方法在AVE指标上均取得了最好的表现。尤其是相比DGP模型,我们的方法取得了连续的优异表现,在所有数据集每个指标上我们的方法都有所提高。例如,对于Top-1准确率,我们分别在“2-hops”、“3-hops”、“All”数据集上取得了相对 1.1%、4.8%以及3.3%的提升。这证明了视觉知识辅助模块和语义知识辅助模块的确能够帮助模型训练出了更好的分类器。GZSL实验结果如表2所示:
表2现有的杰出方法与本发明方法在ImageNet数据集上的Top-k准确率结果,对不可见类与可见类均进行测试。
在GZSL实验设置中,相比众多优秀模型,我们依然在所有数据集上取得了 AVE指标的最好的表现,这表明了我们模型具备较强的泛化能力。当然,我们在其他评估指标上也取得了不错的成绩,例如,对于Top-10准确率,我们分别在“2-hops”、“3-hops”、“All”数据集上相对第二好的结果取得了2.5%、 5.3%以及3.9%的提升。但是,我们也注意到本文模型在有些实验结果上比其他模型要差,尤其是“2-hops”数据集上的Top-1指标,我们比DGP模型(最高实验结果)相对低了接近8.2%,这也是我们在实验结果上唯一比DGP模型差的地方。我们认为这是可能由视觉知识辅助模块带来的缺陷,因为这个模块给我们带来更真实的信息的同时,也让模型过度关注于可见类的信息。而且在GZSL 实验设置里,有些不可见类图像被错误的识别成可见类。幸运的是,这个缺陷并不严重,因为我们在其他实验中均取得了比DGP更好的表现。接下来,表3 的实验结果将为我们证明我们的模型更加关注于可见类的信息。
表3现有的杰出方法与本发明方法在ImageNet数据集上的Top-k准确率结果,对可见类均进行测试。ResNet表示理想状态下结果。
针对可见类测试数据集,ImageNet为1K个训练类提供了一个验证集,每个类50张图像共50K张。在零样本学习领域,多研究者将其作为GZSL的测试类。我们在“1K”数据集上取得了非常理想的实验结果,相比DGP模型,我们在所有评估标准上有连续的提升。尤其在Top-1准确率上,我们的实验结果相比第二高的相比提高了9.2%。这些实验数据充分证明了我们的模型能够更充分地用好可见类的视觉信息。
AWA2实验:本发明在AWA2数据集上进行了ZSL设置实验,表4展示了实验结果:
表4不同方法与本发明在AWA2上的分类精度对比。
实验结果证明我们的模型在AWA2数据集上也取得了出色的成绩,比第二高的模型相比提高了约6.2%。
消融实验:本发明进行了下面的实验证明我们的模型中视觉知识辅助模块、语义知识辅助模块以及额外添加一个简单ResNet的有效性,在消融实验中本发明均没有对特征提取器进行微调。对于ImageNet数据集,我们完成了四个不同的实验。实验设置分别为:模型仅使用基础框架(BF)、模型使用基础框架以及视觉知识辅助模块(BF+VAK)、模型使用分基础框架(BF)以及语义知识辅助模块(BK+SAK)、模型使用以上的三个模块(BF+VAK+SAK)。表5展示了这部分的实验结果。
表5加入不同模块状态下本发明在2-hops数据集上的实验结果,最好结果用粗体黑字表示,次好结果用下划线表示。
相比仅使用基础框架的模型,VAK和SAK对我们的模型均有一定程度的提升。接下来,本文设置不同的模块对AWA2数据集进行实验,表6展示了该实验结果。
表6加入不同模块状态下本发明在AWA2数据集上的实验结果。
实验结果表明,对于AWA2数据集,VAK和SAK对我们的模型依然均有提升。但是,通过观察发现,SAK对AWA2的实验结果提升更大,而VAK对“2-hops”数据集提升更大。我们认为,VAK帮助模型在训练分类器过程中充分使用到了 ImageNet 2012 1K数据集的视觉特征。而相对于“3-hops”与“All”数据集,“2-hops”数据集的类是与1K类最接近的,具体来说,“2-hops”数据集包含的所有类都是1K数据集某个类的祖先类或子类。因此,VAK对于“2-hops”的贡献最大,相反,AWA2数据集则没有这样的特点。SAK包含了可见类词向量和不可见类词向量的重构,帮助模型充分使用到了所有类的语义信息。因此,对于AWA2这种并非根据与ImageNet 2012 1K数据集远近程度划分的数据集,SAK 的贡献更大。
Table7展示了ResNet升级网络对我们模型的贡献。
表7是否将本模型网络升级为ResNet在AWA2数据集的实验结果。
从实验数据来看我们增加的ResNet为模型带来了额外2.8%的精确度提升,而VAK+SAK为模型带来的提升也只有2.0%。这实验结果证明,相对于较深的节点类,祖先节点提供的信息更为重要。
Claims (5)
1.一种基于知识辅助的零样本图像分类方法,利用视觉知识和语义知识激励GCN训练得到更高性能的分类器其特征在于:该方法训练一个GCN网络,该网络输入包含类名称的词嵌入的知识图,输出预测的分类器并利用三个模块,基础模块BF、语义知识辅助模块以及视觉知识辅助模块分别设计一个损失函数提高分类器的分类精度;其中基础模块设计了一个分类器参数损失LW,即利用预训练好的可见类分类器Ws约束预测的可见类分类器与Ws尽可能相似;视觉知识辅助模块设计了一个分类损失LC,即利用可见类视觉特征几何中心及其标签促使模型挖掘真实的视觉知识;语义知识辅助模块设计了一个重构损失LV,即联合预测分类器的GCN构建一个语义自编码器,利用分类器参数重建词嵌入。重构约束保证了关键语义特征在GCN训练过程中不被损害;
L=LW+αLC+βLV
其中,α和β为超参数。
5.根据权利要求书2所述的一种基于语义知识辅助的零样本图像分类方法,其特征在于:所述的语义知识辅助模块工作过程,具体如下:
5.1)本发明将预测分类器参数的过程看作一个编码过程,即将类别名称经过词嵌入得到的词向量编码成相应的分类器,在AWA2实验中,为了获得更精确的分类器,将E-GCN网络升级为残差网络,即表示为:
其中,Gd和Ga分别表示E-GCNd和E-GCNa的输出,Gd[Ga]表示Ga作为E-GCNd的输入后得到的输出;
5.2)语义知识辅助模块利用要求2中子节点连接关系构建一个知识图,利用一层GCN网络重构类名称词嵌入,本发明将重构网络看作一个解码器,称为D-GCN,D-GCN输入为预测的分类器输出为重构的类名称词嵌入,本发明用余弦相似度度量语义重构损失:
其中,n表示所有类的类别数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111323019.6A CN113920379B (zh) | 2021-11-09 | 2021-11-09 | 一种基于知识辅助的零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111323019.6A CN113920379B (zh) | 2021-11-09 | 2021-11-09 | 一种基于知识辅助的零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113920379A true CN113920379A (zh) | 2022-01-11 |
CN113920379B CN113920379B (zh) | 2024-05-28 |
Family
ID=79245911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111323019.6A Active CN113920379B (zh) | 2021-11-09 | 2021-11-09 | 一种基于知识辅助的零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113920379B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114769072A (zh) * | 2022-06-16 | 2022-07-22 | 深圳徕科技术有限公司 | 高速喷射阀控制方法、装置、电子设备及存储介质 |
CN116503674A (zh) * | 2023-06-27 | 2023-07-28 | 中国科学技术大学 | 一种基于语义指导的小样本图像分类方法、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222771A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种零样本图片的类别识别方法 |
CN111126218A (zh) * | 2019-12-12 | 2020-05-08 | 北京工业大学 | 一种基于零样本学习的人体行为识别方法 |
CN112488241A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多粒度融合网络的零样本图片识别方法 |
-
2021
- 2021-11-09 CN CN202111323019.6A patent/CN113920379B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222771A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种零样本图片的类别识别方法 |
CN111126218A (zh) * | 2019-12-12 | 2020-05-08 | 北京工业大学 | 一种基于零样本学习的人体行为识别方法 |
CN112488241A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多粒度融合网络的零样本图片识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114769072A (zh) * | 2022-06-16 | 2022-07-22 | 深圳徕科技术有限公司 | 高速喷射阀控制方法、装置、电子设备及存储介质 |
CN116503674A (zh) * | 2023-06-27 | 2023-07-28 | 中国科学技术大学 | 一种基于语义指导的小样本图像分类方法、装置及介质 |
CN116503674B (zh) * | 2023-06-27 | 2023-10-20 | 中国科学技术大学 | 一种基于语义指导的小样本图像分类方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113920379B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN115422369B (zh) | 基于改进TextRank的知识图谱补全方法和装置 | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN114429122A (zh) | 一种基于循环注意力的方面级情感分析系统和方法 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN114297986B (zh) | 一种基于强化学习的icd自动合并编码系统和方法 | |
Jiang et al. | Hadamard product perceptron attention for image captioning | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN115600602B (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 | |
CN116521863A (zh) | 一种基于半监督学习的标签抗噪文本分类方法 | |
CN115455162A (zh) | 层次胶囊与多视图信息融合的答案句子选择方法与装置 | |
CN115620749A (zh) | 基于人工智能的预训练优化方法、装置、设备及介质 | |
CN114943216A (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 | |
CN114580423A (zh) | 一种基于Bert与Scat的页岩气领域命名实体识别方法 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
Zhu | English lexical analysis system of machine translation based on simple recurrent neural network | |
CN118504566A (zh) | 一种基于字符对网格表示的嵌套命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |