CN115471712A

CN115471712A - 一种基于视觉语义约束的生成零样本学习方法

Info

Publication number: CN115471712A
Application number: CN202211273301.2A
Authority: CN
Inventors: 田玲; 闫科; 高辉; 唐乾轲; 李帏韬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-13

Abstract

本发明涉及计算机视觉中的图像分类领域，其公开了一种基于视觉语义约束的生成零样本学习方法，其首先提取已知类的图像视觉特征和属性语义特征以及未知类属性的语义特征，建立生成器基于已知类语义特征生成的生成特征同已知类和未知类之间的视觉语义约束，构建基于视觉语义约束的生成对抗网络，训练获得生成器；然后，利用训练好的生成器，获得未知类生成特征；最后，将未知类生成特征融入已知类特征集中，对零样本分类器进行训练，其通过提高未知类生成特征的质量，提升模型对未知样本的识别准确率。适用于濒危动物识别、安检预测、人脸验证和故障诊断等领域的零样本学习。

Description

一种基于视觉语义约束的生成零样本学习方法

技术领域

本发明涉及计算机视觉中的图像分类领域，具体涉及一种基于视觉语义约束的生成零样本学习方法。

背景技术

零样本学习(Zero-shot Learning)即是利用已知类别的视觉特征和辅助信息(类别描述)来训练一个分类模型，在测试过程中能够对未参与训练的未知类样本进行正确预测。零样本学习在濒危动物识别、安检预测、人脸验证和故障诊断领域发挥着重要作用。

目前，零样本学习主要分为属性预测、特征映射和特征生成方法。其中，基于属性预测方法主要是计算图像的属性概率来推算最大概率的未知类的标签。对每个类别标注的属性作为类别的辅助信息。IAP首先学习一个属性分类器来计算输入图像到每个属性的概率，然后计算每个属性到类别标签的概率并将概率最大的标签作为图像的预测标签。

基于特征映射方法主要是将视觉特征和语义特征映射到同一个空间，然后在该空间判断语义特征和视觉特征之间的相似度。DeVISE学习图像特征到语义空间的映射函数，使用SVM双排序损失进行相似性度量学习。ConSE首先对输入图像进行分类，将概率前k的已知类别语义特征同图像映射特征进行叠加作为最终映射向量，然后再语义空间进行特征度量。

相比上述方法，基于特征生成方法能够生成未知类的视觉特征，降低样本不平衡导致模型对已知类样本的偏见问题。基于特征生成的方法主要是利用已知类训练生成模型(GAN、VAE等)然后生成未知类的视觉特征来学习零样本分类器，从而对未知类进行预测。f-CLSWGAN采用未知类的语义特征来生成未知类的视觉特征，并通过生成的视觉特征学习零样本分类器对未知类进行预测。CVAE构建两个自编码机分别从视觉和语义两个模态进行特征编码和解码，并结合视觉和特征两类特征的共同信息，提高生成特征的表征能力。

现有的零样本学习方法能够取得不错的预测效果，但是使用已知类数据训练模型来测试未知类易出现过拟合，难以生成高质量未知类特征，导致零样本分类器的预测性能不佳。

发明内容

本发明所要解决的技术问题是：提出一种基于视觉语义约束的生成零样本学习方法，提高未知类生成特征的质量，从而提升模型对未知样本的识别准确率。

本发明解决上述技术问题采用的技术方案是：

一种基于视觉语义约束的生成零样本学习方法，包括以下步骤：

A、训练零样本分类器模型；

A1、数据准备

构建训练数据集，所述训练数据集的样本包括已知类样本和未知类样本，所述已知类样本包括图像及其类别的属性和标签，所述未知类样本包括类别的属性和标签；

基于已知类样本，根据图像提取视觉特征x_i，根据类别属性提取语义特征y_i；基于未知类样本，根据类别属性提取语义特征

A2、构建生成对抗网络，基于已知类样本对生成对抗网络进行训练，获得完成训练的生成器；且，构建生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束，对生成器的训练过程进行约束；

A3、基于未知类样本的语义特征

输入到完成训练的生成器G中，生成未知类的视觉特征

然后，将生成的未知类的视觉特征

与提取的已知类的视觉特征x_i进行合并，获得训练数据集的完整的视觉特征集V；或者，基于已知类样本的语义特征y_i和未知类样本的语义特征

输入到完成训练的生成器G中，生成视觉特征v_n，获得训练数据集的完整的视觉特征集V；

A4、利用训练数据集样本的视觉特征及其标签，对分类器进行训练，获得完成训练的分类器；

B、基于完成训练的分类器，执行检测任务：

提取待检测图像的视觉特征，输入至完成训练的分类器进行图像分类，输出该图像的类别标签。

进一步的，步骤A2中，对生成对抗网络的训练，包括：

A21、由生成器G根据已知类的语义特征y_i，得到生成特征

固定生成器G的参数，根据生成特征

获得最大化鉴别器D的训练损失，对鉴别器D进行反向传播训练；

A22、由生成器G根据已知类的语义特征y_i，得到生成特征

固定鉴别器D的参数，根据生成特征

获得最小化生成器G的训练损失，并在视觉语义约束的约束下，对生成器G进行反向传播训练；

A23、重复步骤A21-A22，直至生成对抗网络收敛或达到预设的训练轮次，得到完成训练的生成器。

具体的，步骤A21中，鉴别器D的损失函数为：

其中，

表示最大化鉴别器D的训练损失，E表示数学期望，λ为权重系数，x_i为根据第i个已知类图像提取的视觉特征x_i，y_i为根据第i个已知类图像的类别属性提取的语义特征，

为由生成器根据语义特征y_i所获得的生成特征，

为鉴别器D期望的二范数，

为视觉特征x_i和生成特征

之间的插值。

具体的，步骤A22中，生成器G的损失函数为：

其中，

表示最小化生成器G的训练损失，E表示数学期望，y_i为根据第i个已知类图像的类别属性提取的语义特征，

为由生成器根据语义特征y_i所获得的生成特征，L_vs为生成器的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束，γ为超参数。

进一步的，步骤A2中，生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束为：

L_vs＝L_s+L_u

上述L_s为生成特征与已知类样本之间的视觉语义约束，计算公式如下：

其中，δ为超参数，

为由生成器根据第i个已知类类别属性的语义特征y_i所获得的生成特征，

为第i个已知类类别的视觉特征中心，

为从

以外的其他已知类类别的视觉特征中心中随机选取的一个视觉特征中心，||·||₂表示二范数；

上述L_u为生成特征与未知类样本之间的视觉语义约束，并按如下公式获得

其中，δ为超参数，

为第i个已知类类别的视觉特征中心，

为由生成器根据随机选取的一个未知类类别属性的语义特征

所获得的生成特征，||·||₂表示二范数。

进一步的，按如下公式计算类别的视觉特征中心

其中，p为已知类中第i个类别的样本数，x_j为该类别中第j个图像的视觉特征。

进一步的，步骤A3中，遍历各个未知类样本的语义特征

分别输入到完成训练的生成器G中，生成未知类的视觉特征

然后，将生成的未知类的视觉特征

与提取的已知类的视觉特征x_i进行合并，获得训练数据集的完整的视觉特征集V。

具体的，步骤A4，分类器为Softmax分类器，对分类器进行训练，其损失函数为：

其中，P_n表示视觉特征集的第n个视觉特征对应的真实类别标签，Q(c_l|v_n)表示分类器根据视觉特征集的第n个视觉特征v_n预测其为类别标签为c_l的概率，m为批次训练的样本数。

本发明的有益效果是：

本发明以生成对抗网络(GAN)为基干，设计了视觉语义约束损失，通过计算生成的视觉特征，同已知类真实的视觉特征和未知类的生成特征的类间差异性，优化特征的类间分布，提高了生成特征的类间区分性，从而显著提升对未知类样本的识别准确率，进而提升了零样本分类器的预测效果。

附图说明

图1为本发明基于视觉语义约束的生成零样本学习方法的模型框架图。

具体实施方式

本发明旨在提出一种基于视觉语义约束的生成零样本学习方法，提高未知类生成特征的质量，从而提升模型对未知样本的识别准确率。

其核心思想在于：首先，训练一个生成器，生成用于分类器识别的未知类样本的视觉特征，然后，将未知类样本的生成特征和已知类样本的视觉特征合并，作为分类器的训练样本集；且，在生成器的训练过程中，分别构建生成特征同已知类视觉特征和未知类生成特征的视觉语义约束来训练生成模型，增强未知类生成特征的质量，因此，基于本发明获得的零样本分类器，能提升其对未知类样本的识别准确率。

实施例：

如图1所示，本实施例中的基于视觉语义约束的生成零样本学习方法，主要包括数据预处理、基于视觉语义约束训练生成器、生成未知类的视觉特征并训练零样本分类器、基于零样本分类器模型执行检测任务。下面对各个步骤的具体实施过程进行详细阐述：

步骤1、数据预处理：

本步骤主要涉及到训练集的构建和特征提取。首先，构建训练数据集，所述训练数据集的样本包括已知类样本和未知类样本，所述已知类样本包括图像及其类别的属性和标签，所述未知类样本包括类别的属性和标签；然后，基于已知类样本，根据图像提取视觉特征x_i，根据类别属性提取语义特征y_i；基于未知类样本，根据类别属性提取语义特征

本发明的零样本分类器在学习中，已知类直接采用其视觉特征用于模型训练，未知类则采用根据其类别属性的语义特征生成视觉特征用于模型训练，因此，在本发明中，未知类的定义为：图像及其视觉特征没有参与分类器训练所对应的类别称之为未知类。

进一步的讲，在本实施例中，具体包括：

步骤1.1、采用CUB公开数据集作为训练数据集，其拥有11788张鸟类图像，总共200类，其中包含已知类150类，未知类50类。

步骤1.2、基于已知类样本，根据图像提取视觉特征x_i，构建视觉特征集X，根据类别属性提取语义特征y_i，构成已知类语义特征集Y；基于未知类样本，根据类别属性提取语义特征

构成未知类语义特征集

其中，图像视觉特征的提取，采用在ImageNet数据集上预训练的ResNet-101网络，以池化层pooling输出的2048维特征作为图像的视觉特征；CUB公开数据集，每个类别共有312个属性，类别属性的语义特征，基于连续属性进行标注编码获得。

步骤2、基于视觉语义约束训练生成器

本步骤中，通过构建生成对抗网络，基于已知类样本对生成对抗网络进行训练，获得完成训练的生成器；且，构建生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束，对生成器的训练过程进行约束。

进一步的讲，生成对抗网络的生成器G和鉴别器D采用交替对抗方式进行训练，并通过建立生成器的生成特征同已知类视觉特征和未知类视觉特征之间的视觉语义约束，构建基于视觉语义约束的生成对抗网络，来增强生成特征和非同类视觉特征之间的差异性，提升生成特征间的区分性，具体包括：

步骤2.1、构建视觉语义约束

具体的，生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束为：

L_vs＝L_s+L_u

其中，δ为超参数，

为第i个已知类类别的视觉特征中心，

为从

其中，δ为超参数，

为第i个已知类类别的视觉特征中心，

为由生成器根据随机选取的一个未知类类别属性的语义特征

所获得的生成特征，||·||₂表示二范数。

并按如下公式计算类别的视觉特征中心

步骤2.2、基于视觉语义约束训练生成器，具体包括：

2.21、由生成器G根据已知类的语义特征y_i，得到生成特征

固定生成器G的参数，根据生成特征

获得最大化鉴别器D的训练损失，对鉴别器D进行反向传播训练。

鉴别器D的损失函数为：

其中，

为由生成器根据语义特征y_i所获得的生成特征，

为鉴别器D期望的二范数，

为视觉特征x_i和生成特征

之间的插值。

2.22、由生成器G根据已知类的语义特征y_i，得到生成特征

固定鉴别器D的参数，根据生成特征

获得最小化生成器G的训练损失，并在视觉语义约束的约束下，对生成器G进行反向传播训练。

生成器G的损失函数为：

其中，

2.23、重复步骤2.21-2.22，直至生成对抗网络收敛或达到预设的训练轮次，得到完成训练的生成器。

步骤3、生成未知类的视觉特征并训练零样本分类器

本步骤中，首先，基于未知类样本的语义特征

输入到完成训练的生成器G中，生成未知类的视觉特征

然后，将生成的未知类的视觉特征

输入到完成训练的生成器G中，生成视觉特征v_n，获得训练数据集的完整的视觉特征集V。

在本实施例中，遍历各个未知类样本的语义特征

分别输入到完成训练的生成器G中，生成未知类的视觉特征

然后，将生成的未知类的视觉特征

与提取的已知类的视觉特征x_i进行合并，获得训练数据集的完整的视觉特征集V。并根据分类器的训练需求，设定由生成器生成的未知类的视觉特征

的数量。

然后，利用训练数据集样本的视觉特征及其标签，对分类器进行训练，获得完成训练的分类器。

针对类别标签，CUB公开数据集中，已知类具备类别标签；而本发明中的未知类，则可以采用CUB公开数据集中已知类的样本屏蔽其图像，从而构成本发明训练时的未知类；其次，CUB公开数据集中，未知类的类别属性，根据已知类的属性组合生成，因此，也可以在生成其类别属性的同时生成其类别标签；当然，也可以采用人工标引的方式获得未知类的类别标签。由于CUB公开数据集的未知类仅50类，因此，在本实施例中，采用人工标引的方式获得未知类的类别标签。

在本实施例中，分类器为Softmax分类器，对分类器进行训练，其损失函数为：

步骤4、基于零样本分类器模型执行检测任务

本步骤中，通过提取待检测图像的视觉特征，输入至完成训练的分类器进行图像分类，输出该图像的类别标签。

尽管这里参照本发明的实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。