CN113920379A

CN113920379A - 一种基于知识辅助的零样本图像分类方法

Info

Publication number: CN113920379A
Application number: CN202111323019.6A
Authority: CN
Inventors: 孔德慧; 李希亮; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-01-11
Anticipated expiration: 2041-11-09
Also published as: CN113920379B

Abstract

本发明涉及一种基于知识辅助的零样本图像分类方法，用于解决图卷积神经网络和知识图的算法无法充分利用视觉和语义知识，导致零样本图像分类准确性低的问题。为此本发明提出了视觉知识辅助模块与语义知识辅助模块，进一步提升了现有模型的图像分类精度。视觉知识辅助模块中利用每个类的样本视觉特征中心及其对应标签设计一个分类损失函数，促使模型挖掘真实的视觉知识。语义知识辅助模块通过将分类器参数重构回语义特征的方式，保证了语义知识在卷积网络中重要信息不被损害。此外还添加了一个简单的残差卷积网络进一步提高模型在AWA2数据集上的表现。本发明在的AWA2数据集和ImageNet数据集上都取得了良好的实验结果。

Description

一种基于知识辅助的零样本图像分类方法

技术领域

本发明属于计算机视觉，零样本学习领域，具体是一种图像分类方法。

背景技术

目前，大部分深度学习模型都依赖于大量的训练样本，但是获取训练样本的标签需要耗费巨大，而且有些标签数据难以获取甚至无法获取。针对这种问题，人们提出了零样本学习算法，这种算法只需要利用可见类样本进行训练就能识别测试类。这类算法可以用极低的成本完成自然语言处理、视频分类以及目标动作识别等任务。

零样本学习在图像分类领域受到了广泛关注，这类方法需要使用隐性的知识表征作为可见类与不可见类之间知识传播的桥梁，这种知识表征通常为属性或词向量，多数方法致力于直接学习视觉表征与知识表征的映射关系。在测试阶段将未知图像视觉特征以及未知类的语义表征映射到同一空间内，之后在这空间内用最近邻算法实现图像分类。但是，由于训练时只能用到可见类的视觉表征，因此该映射网络不具备足够强的泛化能力，这限制了模型对不可见类图像的分类能力。有研究者认为类间结构信息能够提高模型的泛化能力，并提出用隐性的知识表征和类之间的关系来预测每个类的分类器。这种方法将每个类的词向量作为节点特征，再利用类间关系作为节点的边构成一个知识图，该知识图作为GCN(Graph Convolutional Network)的输入，最后GCN输出预测的分类器。在此基础上提出了六层GCN的模型，并获得了杰出效果。但是多层图卷积网络中由于拉普拉斯过度平滑导致的节点特征趋于相同的问题，该模型在训练过程中对节点特征造成了严重的损伤。为了克服这个问题，DGP(Dense Graph Propagation)模型提出了密集图的构建策略，通过将节点与其祖先节点和子节点直接连接的方法，将GCN的层数降低到了两层，并实现了更高性能的知识传播。总之，这类方法主要在图神经网络结构以及知识图的构建两个方面进行模型的优化，并且在当时都取得了杰出的实验结果。

但是上述方法仍然存在两个严重问题。第一，引导图神经网络训练的可见类分类器参数W_s是由监督学习训练而得，这个参数将会被固定在网络训练中，该参数的分类能力极大地影响着我们最终训练出来的分类器参数

这里

为预测的可见类分类器参数，

为预测的不可见类分类器参数。但是W_s也是由训练所得，因此仅仅将W_s作为监督。同时，我们注意到拥有更加真实知识的可见类视觉特征却被上述方法忽略了，这些问题严重限制着预测的分类器参数

的分类能力。第二，这类模型的训练是将所有节点(可见类和不可见类)输入网络中，最终网络输出其对应的分类器参数，但是监督整个网络训练的损失函数往往只包含了可见类的信息(W_s与

)。因此，在训练过程中我们无法保证不可见类的节点重要信息能够在图卷积神经网络中得以有效的应用。特别是对于ImageNet这样的数据集，可见类仅有一千类而不可见类却多达两万余类，不可见类信息的丢失对于本身就缺少大量训练数据的零样本学习算法而言是非常严重的问题。

发明内容

为了解决传统方法无法充分利用现有信息，导致零样本图像分类准确性低的问题，本发明在现有方法基础上，提出了视觉知识辅助模块和语义知识辅助模块激励GCN训练精度更高的分类器。在视觉知识辅助模块中，为了减少训练时间，通过计算每个类的视觉特征中心，并以此表示整个类的视觉特征，再用这些类视觉特征及其对应类标签引导模型训练出对真实视觉特征更适应的分类器。对于语义知识辅助模块，模型利用每个类的语义特征来预测对应类的分类器参数，之后，我们用图卷积神经网络将分类器参数重构回语义特征。这两个辅助模块让视觉知识及语义知识帮助模型获得更好的实验结果。在此基础上，本发明添加了一个简单的残差卷积网络进一步提高模型在AWA2数据集上的精度。

具体技术方案如下：

一种基于知识辅助的零样本图像分类方法，利用视觉知识和语义知识激励 GCN训练得到更高性能的分类器

该方法训练一个GCN网络，该网络输入包含类名称的词嵌入的知识图，输出预测的分类器

并利用三个模块，基础模块 BF、语义知识辅助模块以及视觉知识辅助模块分别设计一个损失函数提高分类器

的分类精度；其中基础模块设计了一个分类器参数损失L_W，即利用预训练好的可见类分类器W_s约束预测的可见类分类器

与W_s尽可能相似；视觉知识辅助模块设计了一个分类损失L_C，即利用可见类视觉特征几何中心及其标签促使模型挖掘真实的视觉知识；语义知识辅助模块设计了一个重构损失L_V，即联合预测分类器的GCN构建一个语义自编码器，利用分类器参数

重建词嵌入。重构约束保证了关键语义特征在GCN训练过程中不被损害。

分类器

预测网络的整体损失函数具体表示如下：

L＝L_W+αL_C+βL_V

其中，α和β为超参数

本发明将预测分类器

的GCN称为E-GCN，

包括可见类分类器

以及不可见类分类器

首先构建一个知识图作为E-GCN的输入，将训练数据集中的每个训练类作为一个节点，节点的具体表示为类名称词嵌入；本发明采用密集图的构建策略，利用WordNet知识图的层次关系，将每个节点与其所有祖先节点和子节点建立连接关系，作为节点之间的边。利用输入的词嵌入经过两层图卷积操作后，得到预测的分类器参数

其中，E-GCN第一层网络中知识图的边用到了祖先节点的连接关系，这层网络称为E-GCN_a；第二层用到了子节点的连接关系，这层网络称为E-GCN_d。

所述的基础模块具体工作过程，具体包括两个步骤：

第一个步骤是预训练阶段，利用可见类数据集训练ResNet-50网络，提取出该网络最后一层的参数作为可见类的分类器参数W_s，ResNet-50网络的其他网络参数作为图像的视觉特征提取器参数F_e，这些参数在零样本图像分类器

训练过程中会被固定；

第二个步骤是分类器参数损失函数L_W设计，本发明利用均方损失函数度量 E-GCN预测的可见类分类器

的误差。具体如下：

其中W_s为可见类的分类器参数，

n_s为可见类的类别数量， W_d为分类器参数维度。

所述的视觉知识辅助模块工作过程，具体包括两个步骤：

第一个步骤，利用上述预训练的视觉特征提取器F_e提取可见类样本的视觉特征，然后计算每类样本视觉特征的几何中心作为该类的视觉特征。第c类的视觉特征为

之后用

来预测类视觉特征

的标签

将所有类的预测标签进行拼接得到预测标签矩阵

第二个步骤，用均方损失函数度量预测标签矩阵

的误差，分类损失函数为：

其中，Y是真实标签矩阵。

所述的语义知识辅助模块工作过程，具体如包括两个步骤：

首先，本发明将预测分类器参数的过程看作一个编码过程，即将类别名称经过词嵌入得到的词向量编码成相应的分类器。在AWA2实验中，为了获得更精确的分类器，将E-GCN网络升级为残差网络，即表示为：

其中，G_d和G_a分别表示E-GCN_d和E-GCN_a的输出，G_d[G_a]表示G_a作为 E-GCN_d的输入后得到的输出；

在第二个步骤，语义知识辅助模块利用子节点连接关系构建一个知识图，利用一层GCN网络重构类名称词嵌入，本发明将重构网络看作一个解码器，称为D-GCN。D-GCN输入为预测的分类器

输出为重构的类名称词嵌入。本发明用余弦相似度度量语义重构损失：

其中v_i表示第i个类的类名称词嵌入，

表示重构的第i个类的类名称词嵌入，

表示v_i与

的余弦相似度计算：

其中，n表示所有类的类别数量。

有益效果

针对现有技术无法充分利用视觉信息和语义信息的问题，本发明提出了一种知识辅助零样本图像分类模型。模型中视觉知识辅助模块帮助模型挖掘更真实的视觉信息，语义知识辅助模块保证了语义知识在模型训练过程不受到损害，进而提高了语义知识的利用效率。本发明提出的模型在ImageNet和AWA2上进行实验并取得了良好的表现。

附图说明

图1、网络结构框架图；

图2视觉知识辅助模块示意图；

图3语义知识辅助模块示意图；

图4知识图中山猫(bobcat)节点连接关系示意图。

具体实施方式

本发明致力于实现更高精度的零样本图像分类，如附图1所示，整个模型可以分为三个部分，第一部分是基础框架BF(Basic Framework)，利用可见类分类器参数W_s帮助E-GCN预测分类器，E-GCN是基于GCN的编码器 (Encoder)，将每个类的词向量编码成对应类的分类器参数。模型的第二部分，视觉知识辅助模块，将可见类数据集D^s的视觉信息用以优化该模型，即利用类平均视觉特征与对应标签，引导模型预测更可靠的分类器。前面两个部分主要关注于可见类的信息，因此在模型的第三部分，语义知识辅助模块，设计了一个语义重构损失，保护了包含大量未知类信息的语义知识在训练过程中不被损害。这三个部分分别包含一个损失函数，即L_W、L_C以及_LV，具体表达式如下：

L＝L_W+αL_C+βL_V

其中，α和β为超参数。

在介绍模型之前，我们先进行相关知识的介绍。

本发明采用现有的WordNet知识子图作为图结构，该知识图利用词的上下位关系作为节点间的连接关系。本发明中，节点的上位节点称为该节点的祖先节点，下位词称为节点的子节点。本发明采用密集图的构建策略，将一个节点与其所有祖先节点和子节点分别建立连接关系。此外，在模型训练中这两种连接关系是分开的，每一层GCN网络只会用到一种连接关系，比如在某一层图卷积操作过程中，某个节点只会接受到父节点的知识。在知识图中每个节点用其类名称的GloVe词向量(维度为300)进行表示，即每个节点代表一个对象类别。

1.基础框架

在详细说明本发明辅助模块之前，本文先简要介绍本模型基础框架。

首先以监督学习方式利用可见类数据集D^s训练ResNet-50网络，然后提取出该网络最后一层的参数作为可见类的分类器参数W_s，其他网络参数将作为图像的视觉特征提取器，这些参数在零样本图像分类器

训练过程中会被固定。

本发明将训练零样本分类器视为一个回归问题，利用GCN预测分类器

本发明将预测分类器的GCN称为E-GCN，其输入为上述包含所有类节点的知识图，输出为分类器参数

包含两部分，预测的可见类分类器参数

和预测的不可见类分类器参数

E-GCN包含两层GCN网络，分别为E-GCN_a和 E-GCN_d，这两层网络分别表示节点接收到的知识来源于祖先节点和子节点。并且为了学习知识图上不同距离的节点产生的贡献程度，每层节点都会设置一个可学习的参数。

其中，

表示由E-GCN预测的分类器参数，n为输入的节点数量， W_d为分类器参数维度。

和

分别表示与节点距离k的祖先节点和子节点邻接矩阵(k＝0时表示自连接矩阵，即单位阵)，

和

为对应度矩阵，

和

分别表示祖先节点和子节点第K层的可训练权重参数，

和

均为参数矩阵，W_d表示词向量的维度，Q_a和Q_d为输出节点特征的维度。

是输入的词向量矩阵，δ为激活函数。在本实验中，K取值为4，因此共有2K+1个对应层的可训练权重参数。

基础框架利用图卷积网络实现可见类到不可见类的知识迁移，旨在利用回归方式预测不可见类的分类器，这部分采用均方损失函数L_W来度量回归损失：

其中

n_s为可见类的数量。

2.基于视觉知识辅助的分类器优化模块

基础模块仅用L_W来约束分类器的训练，但是通过监督学习方式训练的可见类分类器参数W_s并不完美，本发明采用的ResNet-50在ImageNet数据集上只能得到75.1％的分类结果。因此，这样的模型理想状态获得的预测可见类分类器参数

最好也只能达到75.1％，同理，这类模型在不可见类数据集上也难以取得较好的结果。我们注意到，原始图像信息拥有及其丰富的分辨性信息，如果我们能在模型训练中充分利用这些信息，那么分类器将会有更好的性能。

类别信息辅助的深度学习方法提升了学习质量，因此，我们考虑在基于样本的训练基础上进行基于样本均值的训练；而计算时间的降低是其附带的优势。一个简单的办法是利用一个类所有样本的视觉特征几何中心来代表这个类的视觉特征，结构图如附图2所示。对于第c个可见类的所有图像，首先用上述预训练好的特征提取器提取该类所有样本的视觉特征，然后计算这些样本几何中心

下面定义我们的分类函数，用于预测待分类对象的标签：

其中，v(y)是y对应类名称的词嵌入，W表示分类器参数，Y表示标签集合， p表示待分类的图像。这里，我们能够利用

来预测类视觉特征

的标签

其中，Y^s表示可见类的标签集合。将所有类视觉特征的预测标签

进行拼接，得到标签预测矩阵

后，我们依然用均方损失定义分类损失函数：

其中，

是预测的类视觉特征标签矩阵，而Y是真实标签矩阵。

3.基于语义知识辅助的分类器优化模块

基础框架和视觉知识辅助模块都只用到了可见类数据集D^s的信息，然而对于零样本学习，我们更关注的是如何为不可见类训练出分类器。在训练过程中，我们以词向量作为初始节点特征，在网络训练过程中节点通过节点间的边完成信息交换，在这一过程中可能存在关键信息的丢失。首先，一个重构约束能够增强从可见类学到的映射函数对不可见类的泛化性能。其次，我们认为语义重构约束在保护语义的信息的同时能够对语义进行降噪。因此，本文在语义知识辅助模块中，提出了基于GCN结构的语义重构网络(D-GCN)，如附图3所示。

D-GCN包含一层图卷积网络D-GCN_d，该网络内节点只接收来自子节点信息，预测的分类器权重参数

作为该网络的输入，最终输出重构的所有类的语义特征

i＝1,2…n。我们用余弦相似度来度量语义重构损失：

其中，

表示v_i与

的余弦相似度计算：

其中，v_i表示第i个类名称的词嵌入。因为E-GCN输入包含了可见类和不可见类的词向量，所以需对所有语义进行重构。

4.基于残差网络的语义知识辅助模块增强：

ImageNet数据集包含两万多个类，以前的研究者对这些类一视同仁。但是现实生活中我们对于某些类的识别需求更高，尤其是一些接近人类生活的类，如猫、狗等。我们注意到，这些类在知识图中处于较“深”的位置，如山猫 (bobcat)在知识图中有15层祖先节点，然而却没有子节点，如附图4所示。这意味着对于山猫这个节点而言，在图卷积神经网络中知识传播全部来自于祖先节点，对于其他接近我们生活的类也类似，其祖先节点所提供的知识远远大于子节点提供的知识。如果可以让模型注重于祖先节点传播的知识，那么对于这些类，我们就能获得更精确的分类器。因此，本文给模型增加了一个简单的残差传递，将E-GCN网络升级为残差网络，如附图3所示，即预测分类器参数的图卷积网络由：

变成了：

其中，G_d和G_a分别表示E-GCN_d和E-GCN_a的输出，G_d[G_a]表示G_a作为 E-GCN_d的输入后得到的输出。这里使用的残差网络与其他模型不同，这里仅仅是为了使模型在训练过程中更注重祖先节点的信息，后文将利用AWA2数据集进行实验加以验证。

测试：

训练完毕后，给定测试集图像p，可以利用公式(4)实现测试。

实验部分

实验步骤：

1)以监督学习方式得到可见类分类器W_s以及视觉特征提取器F_e(视觉特征提取函数)

2)利用本发明提出方法训练E-GCN得到预测的分类器的参数

3)利用

对图像的视觉特征提取器进行微调(ImageNet实验)

4)利用特征提取器提取测试图像视觉特征

5)利用训练好的分类器

预测视觉特征标签，并计算分类精度

数据集：本发明采用零样本学习领域广泛使用的ImageNet数据集和AWA2数据集进行实验。我们遵循Frome等人对ImageNet数据集的分割策略用于零样本实验的评测。他们根据与ImageNet 2012 1K(可见类数据集)在ImageNet层级中的距离将ImageNet数据集分成三个数据集，分别为“2-hops”、“3-hops”以及“all”，在零样本学习领域中，这三个数据集识别难度依次增加。其中，“2-hops”包含大约1.5K个类，“2-hops”包含约7.8K个类，而“all”包含近21K个类。这三个数据集与ImageNet 2012数据集均没有交集。AWA2数据集包含了50个动物类，总共有37322张图像，平均每类约746张。在本实验中，我们采用Xian等人提出的分割策略，40个类作为训练集，剩下的10个类作为测试集，这种40/10的分割比例与其他分割方式相同。此外，这种分割策略保证了AWA2测试集与ImageNet 2012数据集均没有交集，这使得我们严格遵守了零样本学习实验的要求。AWA2数据集还为每个类提供了多数零样本学习模型需要依赖85-attribute语义表征，但是本实验中由于“all”包含了AWA2的所有测试类，因此并不需要使用该属性。

评估指标：对于ImageNet数据集，我们采用Top-k Hit Ratio(Hit@k)作为评估指标，Hit@k表示由分类器选取K个评分最大标签，如果真实标签包含在这K个标签里面，那么认为分类器实现正确分类，K值分别为1、2、5、10和 20。为了更简单明了地进行比较，我们还设置了AVE指标，这个指标是前面五个实验结果的平均数值。

对于AWA2数据集，我们用每个测试类识别准确率的均值作为评估指标。本发明实验结果表格中，最好结果用黑色粗体表示，次好结果用下划线表示。

实验设置：根据测试集的来源不同，本实验可分为传统零样本学习(ZSL) 以及广义零样本学习(GZSL)。在ZSL设置中，分类器只需要识别不可见类；在GZSL设置中，分类器需要识别不可见类和可见类。

E-GCN包含两层图卷积网络，其输出维度均为2049，D-GCN包含一层图卷积神经网络，输出维度为300。每层网络后面都会应用Dropout，在ImageNet实验中比例为0.4，在AWA2实验中比例为0.5。实验中的激活函数为Leaky Relus，其负斜率为0.2。分类器用Adam进行训练，在ImageNet实验中学习率为0.0005， weight decay为0.0005；在AWA2实验中，参数分别为0.001和0.0001。此外，我们还采用了学习率衰减策略，StepLR，步长为500个epochs，gamma值为0.8，整个训练过程包含6000个epochs。在本文中α取值为0.1，β为0.002。

特征提取器微调：模型训练完成后，我们能得到预测的分类器参数

但是我们训练的特征提取器仅利用了可见类数据集进行训练，该特征提取器在不可见类图像上泛化能力不够，因此需要对特征提取器进行微调(Finetuning)。

是利用GCN完成可见类和不可见类之间的知识迁移后而预测得到的，因此具有了一定程度的不可见类信息。我们用

代替ResNet-50倒数最后一层网络参数(W_s)并将这些参数固定，再利用D_s对ResNet-50进行训练，最终获得更具泛化能力的特征提取器。我们会在ImageNet实验测试阶段用到微调后的特征提取器，D_s是ImageNet的标准训练集，因此在AWA2数据集实验中不需要进行特征提取器的微调。

ImageNet实验：在该数据集上，本发明ZSL设置和GZSL设置上均进行了实验，我们遵守大部分前人工作的实验结果评估标准。ZSL实验结果如表1所示：

表1现有的杰出方法与本发明方法在ImageNet数据集上的Top-k准确率结果，仅对不可见类进行测试。

从表1中我们观察到相比其他模型，在三个数据集上我们的方法在AVE指标上均取得了最好的表现。尤其是相比DGP模型，我们的方法取得了连续的优异表现，在所有数据集每个指标上我们的方法都有所提高。例如，对于Top-1准确率，我们分别在“2-hops”、“3-hops”、“All”数据集上取得了相对 1.1％、4.8％以及3.3％的提升。这证明了视觉知识辅助模块和语义知识辅助模块的确能够帮助模型训练出了更好的分类器。GZSL实验结果如表2所示：

表2现有的杰出方法与本发明方法在ImageNet数据集上的Top-k准确率结果，对不可见类与可见类均进行测试。

在GZSL实验设置中，相比众多优秀模型，我们依然在所有数据集上取得了 AVE指标的最好的表现，这表明了我们模型具备较强的泛化能力。当然，我们在其他评估指标上也取得了不错的成绩，例如，对于Top-10准确率，我们分别在“2-hops”、“3-hops”、“All”数据集上相对第二好的结果取得了2.5％、 5.3％以及3.9％的提升。但是，我们也注意到本文模型在有些实验结果上比其他模型要差，尤其是“2-hops”数据集上的Top-1指标，我们比DGP模型(最高实验结果)相对低了接近8.2％，这也是我们在实验结果上唯一比DGP模型差的地方。我们认为这是可能由视觉知识辅助模块带来的缺陷，因为这个模块给我们带来更真实的信息的同时，也让模型过度关注于可见类的信息。而且在GZSL 实验设置里，有些不可见类图像被错误的识别成可见类。幸运的是，这个缺陷并不严重，因为我们在其他实验中均取得了比DGP更好的表现。接下来，表3 的实验结果将为我们证明我们的模型更加关注于可见类的信息。

表3现有的杰出方法与本发明方法在ImageNet数据集上的Top-k准确率结果，对可见类均进行测试。ResNet表示理想状态下结果。

针对可见类测试数据集，ImageNet为1K个训练类提供了一个验证集，每个类50张图像共50K张。在零样本学习领域，多研究者将其作为GZSL的测试类。我们在“1K”数据集上取得了非常理想的实验结果，相比DGP模型，我们在所有评估标准上有连续的提升。尤其在Top-1准确率上，我们的实验结果相比第二高的相比提高了9.2％。这些实验数据充分证明了我们的模型能够更充分地用好可见类的视觉信息。

AWA2实验：本发明在AWA2数据集上进行了ZSL设置实验，表4展示了实验结果:

表4不同方法与本发明在AWA2上的分类精度对比。

实验结果证明我们的模型在AWA2数据集上也取得了出色的成绩，比第二高的模型相比提高了约6.2％。

消融实验：本发明进行了下面的实验证明我们的模型中视觉知识辅助模块、语义知识辅助模块以及额外添加一个简单ResNet的有效性，在消融实验中本发明均没有对特征提取器进行微调。对于ImageNet数据集，我们完成了四个不同的实验。实验设置分别为：模型仅使用基础框架(BF)、模型使用基础框架以及视觉知识辅助模块(BF+VAK)、模型使用分基础框架(BF)以及语义知识辅助模块(BK+SAK)、模型使用以上的三个模块(BF+VAK+SAK)。表5展示了这部分的实验结果。

表5加入不同模块状态下本发明在2-hops数据集上的实验结果，最好结果用粗体黑字表示，次好结果用下划线表示。

相比仅使用基础框架的模型，VAK和SAK对我们的模型均有一定程度的提升。接下来，本文设置不同的模块对AWA2数据集进行实验，表6展示了该实验结果。

表6加入不同模块状态下本发明在AWA2数据集上的实验结果。

实验结果表明，对于AWA2数据集，VAK和SAK对我们的模型依然均有提升。但是，通过观察发现，SAK对AWA2的实验结果提升更大，而VAK对“2-hops”数据集提升更大。我们认为，VAK帮助模型在训练分类器过程中充分使用到了 ImageNet 2012 1K数据集的视觉特征。而相对于“3-hops”与“All”数据集，“2-hops”数据集的类是与1K类最接近的，具体来说，“2-hops”数据集包含的所有类都是1K数据集某个类的祖先类或子类。因此，VAK对于“2-hops”的贡献最大，相反，AWA2数据集则没有这样的特点。SAK包含了可见类词向量和不可见类词向量的重构，帮助模型充分使用到了所有类的语义信息。因此，对于AWA2这种并非根据与ImageNet 2012 1K数据集远近程度划分的数据集，SAK 的贡献更大。

Table7展示了ResNet升级网络对我们模型的贡献。

表7是否将本模型网络升级为ResNet在AWA2数据集的实验结果。

从实验数据来看我们增加的ResNet为模型带来了额外2.8％的精确度提升，而VAK+SAK为模型带来的提升也只有2.0％。这实验结果证明，相对于较深的节点类，祖先节点提供的信息更为重要。