CN115641582A

CN115641582A - 一种基于对比学习的零样本图像分类网络及深度学习方法

Info

Publication number: CN115641582A
Application number: CN202211298406.3A
Authority: CN
Inventors: 张鼎文; 程德; 彭春蕾; 王格荣; 韩军伟
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-10-23
Filing date: 2022-10-23
Publication date: 2023-01-24

Abstract

本发明涉及一种基于对比学习的零样本图像分类网络及深度学习方法，设计的模型包括语义属性的对比学习嵌入、学生模型和教师模型的一致性约束以及原型模块三个部分。其中语义属性的对比学习嵌入部分从实例级监督和类别级监督两个层上面着手，在正负样本的预测语义属性上以及正负类别的预测语义属性上进行对比学习。一致性约束部分引入了Mean Teacher机制，将采用不同数据增强的图像输入给学生模型和教师模型，再通过让二者输出结果趋于一致来对模型增强约束。原型模块在学生模型和教师模型内部，通过属性原型向量的学习将视觉特征转换为预测属性得分。

Description

一种基于对比学习的零样本图像分类网络及深度学习方法

技术领域

本发明属于零样本图像分类领域，涉及一种基于对比学习的零样本图像分类网络及深度学习方法。

背景技术

零样本学习(Zero-shot Learning，ZSL)，也称作零样本分类(Zero-shotClassification，ZSC)，是指借助某种辅助知识对已知类的样本进行训练，完成未知类样本类别预测的一种技术。在此种分类场景下，已知类是训练类，未知类是测试类，且已知类与未知类是互斥的。与传统分类算法不同的是，零样本学习能够针对训练阶段完全缺失的样本，在测试阶段对其可分，即识别训练集中从未出现过的类别样本。而传统的分类算法仅能对测试类别属于训练类别的样本可分。零样本学习的这一学习机制大程度地缓解了传统模型对于足够样本和数据标签的依赖，并且为目标任务训练样本完全缺失的情况提供了可靠的解决方案。

零样本学习的核心思想是模仿人类的推理能力。人类具有很强的学习能力与推理能力，可以在无目标任务样本的情况下，通过学习与目标任务相关的辅助知识，完成对特定目标的学习。一个孩子可以从少量的样例中学习总结知识，当一个新类别样例出现时，通过一句话的描述就可以识别出新种类。零样本学习希望模型也能够具有这样举一反三的的推理能力，其利用语义信息作为已知类和未知类连接的桥梁，让模型在训练阶段从已知类样本中学习总结知识，然后在测试阶段将所学知识应用到未知类样本上进行分类，进而在已知训练类和未知测试类之间实现知识共享和传递。

如图附图1展示了零样本学习示意图，模型在训练阶段通过学习马的形状、熊猫的颜色和老虎的条纹等知识实现了测试阶段斑马类别的预测。具备推理能力的零样本学习模型让机器学习系统更加符合人类学习机制，帮助人工智能系统摆脱对于目标任务有标签数据集的依赖，进一步为实现真正意义上的人工智能作出了重要贡献。

零样本学习经历了不同时期的发展阶段。早期阶段的零样本图像分类方法大多属于基于直接语义预测的方法。近年来，随着深度学习技术的进步，基于深度学习的网络呈现爆发式增长，利用卷积神经网络提取的深度视觉特征作为图像信息的高级语义表达，有效地提升了基于嵌入模型方法的分类准确率。此外，生成对抗网络等模型的提出进一步为零样本学习问题提供了可靠的解决思路。根据解决零样本学习问题技术路线的不同，可以将现有的零样本图像分类方法分为3类：(1)基于直接语义预测的方法；(2)基于嵌入模型的方法；(3)基于生成式模型的方法。

针对提升零样本图像分类任务中具有判别性以及鲁棒性的语义属性的图像特征表达能力，进而实现嵌入空间下跨模态信息的语义对齐的核心问题，目前行业内有两种典型的解决方案，分别是通过设计特定的特征提取器或者使用原型学习来对齐真值类属性。特征提取器使用类别属性信息或局部信息进行有效引导，改进样本的视觉表示，从而对齐到相应的类原型。结合原型学习的方法不再将真值类属性视为原型，而是通过可学习的视觉原型来进行属性语义的特征表达。然而，这些方法在进行视觉特征表达的时候，忽略了对语义属性本身的探索，缺乏语义属性在不同类别间的判别性表达，以及同一类别上的鲁棒性表达。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于对比学习的零样本图像分类网络及深度学习方法，主要目的是提升零样本图像分类任务中具有判别性以及鲁棒性的语义属性的图像特征表达能力，进而实现嵌入空间下跨模态信息的语义对齐。

技术方案

一种基于对比学习的零样本图像分类网络及深度学习方法，其特征在于步骤如下：

步骤1：将图像x输入残差网络101特征提取网络得到视觉特征f(x)∈R^H*W*C，其中H、W和C分别代表特征的高度、宽度以及通道数；

步骤2：将视觉特征f(x)输入到由上下两个分支特征构成的特征处理网络，所述特征处理网络的上分支以原型模块构成，下分支以全局平均池化模块构成；

输入视觉特征f(x)经过原型模块输出图像样本预测的类别属性

得到正样本的语义属性预测，以及负样本的语义属性预测；

视觉特征f(x)经过全局平均池化层得到全局特征g(x)，全局特征通过线性层映射到类属性空间，将映射后的全局特征与数据集包含的所有类属性进行点积计算得到类嵌入，类嵌入指利用神经网络将高维表示空间，映射到一个低维分布式空间；

^

其中特征处理网络中以原型模块构成的上分支，输出图像样本预测的类别属性z，得到正样本的语义属性预测，以及负样本的语义属性预测；

步骤3：对于每一个属性，进行局部特征f_i,j(X)与属性原型p_a的内积运算，局部特征f_i,j(X)表示在f(x)空间位置(i，j)的特征，获取到每一个属性的相似度图M^a∈R^H*W,通过最大化第a个属性的相似度图的值，获取到输入图像的第a个属性的属性预测得分；

步骤4：进行分类网络

以属性预测得分最高的类嵌入作为输入图像的类别

其中g(x)^T为g(x)的转置矩阵，

为测试类

对应的真值类属性向量，

为预测类别，V表示映射矩阵；

当

是已知类时，函数I＝1,当

是未知类是，I＝0，上述公式演变为：

已知类表示在推理阶段出现得类别。

所述特征处理网络中的上分支以原型模块构成，原型模块以两层全连接层串联而成。

所述下分支以全局平均池化模块构成，全局平均池化模块由通道平均池化构成，通道平均池化指以该通道的算术平均值表征该通道特征。

所述分类网络由残差网络101特征提取网络和特征处理网络串联而成。

所述原型模块输入卷积神经网络提取到的视觉特征,输出图像样本预测的类别属性。最大化第a个属性的相似度图的值，获取到第a个属性的属性预测得分。

所述原型模块的真值类属性为50个，相似性图采用向量内积方式计算，每类真值类属性维度为256维。

有益效果

本发明提出的一种基于对比学习的零样本图像分类网络及深度学习方法，设计的模型包括语义属性的对比学习嵌入、学生模型和教师模型的一致性约束以及原型模块三个部分。其中语义属性的对比学习嵌入部分从实例级监督和类别级监督两个层上面着手，在正负样本的预测语义属性上以及正负类别的预测语义属性上进行对比学习。一致性约束部分引入了Mean Teacher机制，将采用不同数据增强的图像输入给学生模型和教师模型，再通过让二者输出结果趋于一致来对模型增强约束。原型模块在学生模型和教师模型内部，通过属性原型向量的学习将视觉特征转换为预测属性得分。

本发明的有益效果：

(1)在基于嵌入空间的模型中引入对比学习方法，在以往类别级监督的基础上增加了实例级的监督，有效地缓解了细粒度数据集的同一类图像的错分问题以及不同类图像的混淆问题。

(2)在语义属性上采用对比学习嵌入，增强了零样本图像分类任务中具有判别性以及鲁棒性的语义属性的图像特征表达能力，缩小了语义属性与视觉特征的模态差异，实现跨模态特征的语义对齐。

(3)采用Mean Teacher机制，学生模型和教师模型的间一致性正则化约束进一步提升嵌入空间下跨模态的视觉信息与语义信息映射的鲁棒性。

附图说明

图1是零样本学习示意图；

图2是本发明的基于对比学习的零样本图像分类网络；

图3是本发明的原型模块示意图；

图4是本发明CUB数据集上本章算法的分类结果样例展示。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在零样本学习中，给定已知类Y^s，未知类Y^u，且已知类与未知类互斥，训练集D^s＝{(x_i,y_i,z_i)}，其中x_i,y_i分别表示训练图像和其所对应的类别标签，z_i＝[z_I,......z_A],表示相对应的真值类属性向量。测试集D^s＝{(x_i,y_i,z_i)}包括未知类图像以及相对应的真值类属性向量。接下来将介绍本文提出的端到端的基于对比约束的零样本图像分类模型，其通过对比学习有效地提升了语义属性的图像特征表征能力，使其具有更强的判别性和鲁棒性，通过Mean Teacher机制，以更强的一致性正则化约束提升模型对于细粒度图像分类的鲁棒性。

本申请实施例还公开了一种基于对比学习的零样本图像分类网络，如附图2，所述网络的网络结构包括语义属性的对比学习嵌入模块、学生模型和教师模型的一致性约束模块以及原型模块三个部分。

所述的对比学习嵌入模块由主干特征提取网络与原型模块串联而成，原型模块与全局平均池化并联，作为优选，主干特征提起网络采用残差网络101。

所述的学生模型和教师模型的一致性约束模块指给定同一类别下的正例样本与不同类别下的负例样本，通过不同的数据增强输入给学生模型和教师模型，学生模型和教师模型网络结构一致，对学生模型的参数进行滑动平均计算得到教师模型的参数，对二者的分类结果进行一致性损失度量，一致性正则化约束提升了模型对于零样本图像分类的鲁棒性。在学生模型和教师模型内部，图像通过卷积神经网络提取到视觉特征，将视觉特征分为上下两个分支进行视觉语义信息的跨模态映射嵌入。

所述的原型模块输入卷积神经网络提取到的视觉特征,输出图像样本预测的类别属性。最大化第a个属性的相似度图的值，获取到第a个属性的属性预测得分。

作为优选，原型模块的真值类属性为50个，相似性图采用向量内积方式计算，每类真值类属性维度为256维。

本发明设计的模型包括语义属性的对比学习嵌入、学生模型和教师模型的一致性约束以及原型模块三个部分。其中语义属性的对比学习嵌入部分从实例级监督和类别级监督两个层上面着手，在正负样本的预测语义属性上以及正负类别的预测语义属性上进行对比学习。一致性约束部分引入了Mean Teacher机制，将采用不同数据增强的图像输入给学生模型和教师模型，再通过让二者输出结果趋于一致来对模型增强约束。原型模块在学生模型和教师模型内部，通过属性原型向量的学习将视觉特征转换为预测属性得分。

对比学习嵌入模块

给定图像x_i，构建唯一的正样本图像x⁺和k个负样本图像

共同作为模型输入，其中正样本x⁺是与图像x_i相同类别的随机挑选样本，负样本是与图像x_i相斥类别的随机挑选样本。首先将样本图像输入到骨干网络ResNet-101，获取到样本的视觉特征f(x)∈R^H*W*C，其中H、W和C分别代表特征的高度、宽度以及通道数，将获取到的视觉特征分为上下两个分支进行跨模态的视觉信息语义信息嵌入。上方的分支对局部特征f(x)进行嵌入，局部特征经过原型模块进行正样本的语义属性预测

以及负样本的语义属性预测，将正负样本预测得到的语义属性进行对比学习，通过正负样本强有力的对比约束，提升语义属性在不同类别间的判别性表达以及在同一类别上的鲁棒性表达能力。实例级的语义属性对比，学习监督，有效地缩小了跨模态视觉信息和语义信息的差异。具体而言，实例级的基于语义属性的对比学习嵌入可以通过如下公式表达，

其中z∈R^S*A是预测得到的语义属性，S是总类别数，A是属性的总数。τ_e是对比学习嵌入的温度系数。K是负样本的数量，较大的K值保证了对比学习的约束效果，让模型能够捕获到判别性的语义属性特征。与正样本的相似性计算，让模型能够捕获到鲁棒性的语义属性特征。下方的分支对全局特征进行嵌入，首先视觉特征f(x)经过全局平均池化(GlobalAverage Pooling，GAP)层得到全局特征,在嵌入空间中将全局特征通过线性层映射到类属性空间，该线性层包含一个可学习的参数,V∈R^C*N,其中N是类属性中语义属性的数量。将映射后的全局特征与数据集包含的所有S类属性进行点积计算，鼓励样本的全局特征与其真值类属性的点积计算结果，真值类属性可看作正例，降低样本的全局特征与其它S1的类属性相似性度量，其他S1的类属性可看作负例。S类的分类问题可以通过交叉熵损失函数进行计算，类别级的视觉语义对比学习嵌入获取到模型最终的分类结果，

其中，z表示样本的真值类属性，z_s表示所有S类的类属性。类别级的视觉语义对比学习嵌入加强了语义属性特征在嵌入空间中的判别能力。

原型模块

为了进一步实现跨模态视觉特征与语义特征的语义对齐，本发明使用了原型模块让语义属性在视觉特征上进行有效定位。如附图3所示，原型模块输入卷积神经网络提取到的视觉特征f(x),输出图像样本预测的类别属性

在原型模块内部，位于空间位置(i,j)的局部特征f_i,j(X)∈R^C,编码图像的局部区域(Region)，属性原型

作为原型模块的学习参数帮助图像的局部特征预测每一个属性的得分，其中p_a代表第a个属性的原型特征。对于每一个属性，通过局部特征f_i,j(X)与属性原型p_a的内积运算，获取到每一个属性的相似度图M^a∈R^H*W,其代表每一个属性在图像特征上的定位结果，定位结果能够有效地展示跨模态语义对齐效果。第a个属性位于空间位置(i,j)的相似度图通过如下公式进行计算

最后，通过最大化第a个属性的相似度图的值，我们获取到第a个属性的属性预测得分，原型模块将每一个视觉属性与局部特征关联，使得模型将每一个属性有效地定位在局部特征上，获取到接近真实结果的属性预测得分。本专利将属性得分预测任务看作一个回归问题，采用均方误差(Mean Square Error，MSE)损失对属性预测得分与真值类属性进行度量，则属性回归损失的公式如下，

其中，

是预测得到的属性得分，z是真值类属性向量。

一致性约束

为了进一步提升嵌入空间下跨模态语义对齐映射的鲁棒性，本专利引入了MeanTeacher机制对模型增强约束，相比直接使用模型的权重，其通过在训练步骤(Step)上不断地平均模型的权重产生更准确以及更鲁棒的模型。Mean teacher机制包含一个学生模型(Student Model)和一个教师模型(Teacher Model)，两个模型的内在结构完全一致，但参数不同。通过指数滑动平均(Exponential Moving Average，EMA)的方式，计算每一个训练步骤上学生模型和教师模型的的权重参数。给定学生模型的参数为θ，当训练步骤为t时，教师模型的参数θ_t'通过指数滑动平均的方式进行计算为，θ′_t＝aθ′_t-1+(1-a)θ_t,其中a是平滑系数,取0.95。

将采用不同数据增强的图像x和x′分别输入给学生模型和教师模型，二者经过结构相同但参数不同的编码器、原型模块以及分类器，获取到同一样本的不同分类结果

和

针对不同的数据增强输入图像，我们希望学生模型和教师模型的输出分类结果趋于一致，以提升跨模态的视觉信息与语义信息映射的鲁棒性。为此，采用均方误差(Mean SquareError，MSE)作为学生模型和教师模型间的一致性损失，

其中，

是学生模型的分类结果，

是教师模型的分类结果。经实验比较，最终采用学生模型的分类结果作为整个模型的预测输出结果。

零样本推理

对于零样本学习任务，给定输入图像x，分类器通过以下方式搜索兼容性得分最高的类嵌入

其中

为测试类

对应的真值类属性向量。对于广义的零样本学习任务，测试阶段不仅包含已知类的样本而且包含未知类的样本，容易出现偏置问题，模型在测试阶段容易将未知类的样本预测为已知类的类别。为了缓解广义零样本学习中的偏置问题，我们采用分类得分校正(Calibrated Stacking，CS)，通过减小样本在已知类上的分类得分实现，分类器通过以下方式搜索兼容性得分最高的类嵌入

其中，当

是已知类时，函数I＝1,当

是未知类是，I＝0，γ是超参数，在训练阶段，本文采用了四个方面的损失函数对模型进行联合优化，L_CC-ZSL＝L_cls+λ₁L_con+λ₂L_sis+λ₃L_reg其中λ1、λ2和λ3为模型的超参数。联合损失训练增强了语义属性在图像特征上不同类别间的判别性表达，以及同一类别上的鲁棒性表达，有助于嵌入空间下跨模态的视觉信息与语义信息的语义对齐，进一步缓解了零样本学习中的语义鸿沟问题。

实施例：

1.数据集与评价指标

本发明在零样本学习任务中广泛使用的三个基准数据集进行模型性能的评价，分别是Caltech-UCSD Birds-200-2011(CUB)数据集，SUN attributes(SUN)数据集，Animalswith Attributes 2(AWA2)数据集，使用Top-1类平均准确度以及协调平均准确度进行模型方法的定量评比。

2.数据准备与实验设置

本发明利用在ImageNet-1k数据集上预训练的Resnet-101模型作为骨干网络提取特征，且对其进行微调(with fine-tuning)。给定大小为给定大小为224×224的输入图像，通过不同的图像数据增强，输入给学生模型和教师模型的骨干网络进行特征提取，获得7×7×2048大小的特征图，再通过模型内部的上下两个分支学习跨模态的视觉信息和语义信息的映射。在深度学习网络的模型优化方面，使用Adam优化器来进行深度梯度计算以获取最佳的模型参数。在损失函数的超参数设置方面，模型通过在验证集上进行网格化搜索来获得最佳的超参数，总损失函数的系数λ1为1，λ2为在不同的数据集取值不同，AWA2数据集上λ2取值为1，CUB数据集上λ2取值为100，SUN数据集上λ2取值为1000，λ3在AWA2数据集和SUN数据集上取值为0.0001，λ3在CUB数据集上取值为0.01。Mean-teacher中指数滑动平均的平滑系数α的默认值为0.999，在训练过程中α取min(1/(1-t),α)，t为训练步骤。校正参数γ在CUB和AWA2数据集上是0.7，在SUN数据集上是0.4。整个模型仅在一块3090Ti GPU卡上训练完成，使用深度学习框架Pytorch进行搭建。

3.样本设置

本发明设置了9种不同的正负样本数量来进行详细的性能比较。附图4展示了在CUB数据集上使用本发明所获得的实验结果的示意图，设K和N代表在一个小批量(mini-batch)中设置K个类别，每一个类别中含有N个样本，则针对一个正样本而言，其与(K1)*N个负样本进行对比学习。在AWA2数据集上，经大量的不同正负样本数量设置实验发现，当K为8，N为12的时候，在广义的零样本学习任务和传统的零样本学习任务上都取得最佳的分类效果，即协调平均准确度(H)为71.1％、未知类的Top-1类平均准确度(T1)为68.8％，在AWA2数据集上一个正样本与其他7个负例类别下总计84个负样本作对比学习嵌入的时候效果最佳。在CUB数据集上，当K为8，N为12的时候，在广义的零样本学习任务上取得最佳的协调平均准确度(H)为69.3％，在传统的零样本学习任务上取得最佳的未知类的Top-1类平均准确度(T1)为74.3％，即一个正样本与其他7个负例类别下总计84个负样本作对比学习嵌入的时候效果最佳。由于AWA2数据集和CUB数据集均属于动物数据集，模型需要更多地关注动物的局部特征来进行对比学习嵌入，因此，一个负例类别下含有越多的负样本越有助于模型的嵌入。然而，负例类别的总类别并不是越多越好，过多的类别下的局部特征对比学习可能引起模型的混淆进而影响分类。在SUN数据集上，当K为12，N为4的时候，在广义的零样本学习任务上取得最佳的协调平均准确度(H)为40.3％，在传统的零样本学习任务上取得最佳的未知类的Top-1类平均准确度(T1)为62.4％，即一个正样本与其他11个负例类别下总计44个负样本作对比学习嵌入的时候效果最佳。

4.Mean-teacher超参数选择

当λ2取值为1时，在广义零样本任务和传统零样本任务上皆取得最高的分类正确率，此时协调平均准确度为71.1％，未知类的Top-1类平均准确度为68.8％。在CUB数据集上，当λ2取值为100时，在广义零样本任务取得最佳的协调平均准确度69.3％，传统零样本任务上取得最佳的协调平均准确度74.3％。在SUN数据集上，当λ2取值为1000时，在广义零样本任务取得最佳的协调平均准确度40.3％，传统零样本任务上取得最佳的协调平均准确度62.4％。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。