CN116051909B

CN116051909B - 一种直推式零次学习的未见类图片分类方法、设备及介质

Info

Publication number: CN116051909B
Application number: CN202310205176.XA
Authority: CN
Inventors: 何向南; 王志才; 郝艳宾; 王硕
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-16
Anticipated expiration: 2043-03-06
Also published as: CN116051909A

Abstract

本发明公开了一种直推式零次学习的未见类图片分类方法、设备及介质，该方法是使用双向跨模态生成算法，包括视觉‑语义对齐模型和视觉‑视觉对齐模型，其中，视觉‑语义对齐模型通过监督学习和非条件式对抗式训练方法实现从视觉特征解析语义信息的功能；语义‑视觉对齐模型通过条件式非条件式对抗式训练方法实现从语义信息生成视觉特征的功能。本发明具有对训练过程中未见种类数据的分类功能，同时具有通过语义描述生成准备的视觉特征，可以解决现实生活中对标注数据稀缺的问题，满足视觉场景下对数据增广的需求。

Description

一种直推式零次学习的未见类图片分类方法、设备及介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及零样本学习中的对未见过数据的准确分类。

背景技术

零样本学习 (Zero-Shot Learning，ZSL) 最初被提出为计算机视觉中的零数据学习，旨在解决现实中有标签数据难以获取的情况下，模型能够通过对有限的已标注数据学习实现对其从没见过的未见类（unseen classes）的分类。例如，在传统的 ZSL 中，没有为未见类提供训练示例，但同时提供了大量的训练样例与他们的类别标签配对的数据，这些已匹配的数据类别称为已见类（seen classes）。为了实现对已见类数据学习的知识可以迁移到未见类别上，通常会使用辅助信息作为桥梁来进行知识迁移。这样的辅助信息，例如类别属性（attribute），使用者可以知道特定某个已见类的属性分布，比如对于‘猫’这个类别，‘它有毛’的属性值为‘1’，‘它有鱼鳍’的属性值为‘0’，‘它有尾巴’的属性值为‘1’等等；对于未见类‘海豚’，‘它有毛’的属性值为‘0’，‘它有鱼鳍’的属性值为‘1’，‘它有尾巴’的属性值为‘0’。该方法通过在已见类数据上对属性知识的学习，来实现利用未见类属性来对这些未见数据的分类，即让模型获得了推理的能力。

但是完全无训练示例的零样本学习很容易导致领域漂移的问题（domain shift），即模型建模的分布与实际分布存在偏差。因此该发明建立在未见类的训练示例可以在模型训练的时候使用，但是其与未见类标签是未匹配的情况下，这也被称为直推式（transductive）零样本学习（TZSL）。注意这样的假设是合理，因为在现实场景下获取大量未标注数据的难度要低很多。

针对现有的零样本学习，其存在的问题可以总结如下：

1、传统的零样本学习有显著的领域漂移问题，由于其无法利用未匹配标签的未见类训练示例来监督模型建模的未见类数据分布，如图1所示。

2、目前已经有的直推式零样本学习方案十分依赖辅助信息的质量，当辅助信息质量较低时，知识迁移效果不佳，对未见类的分类准确率较低。

3、基于生成式的直推式零样本学习方案十分依赖未见类别的频率分布先验知识，即给定特定未见类别，需要同时给定它在测试数据中的分布占比，从而才能实现良好的知识迁移结果。对于未见类分布先验未知的情况下，模型的知识迁移能力会极大的坍塌。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种直推式零次学习的未见类图片分类方法、设备及介质，以期能将已见类知识的学习准确鲁棒的迁移到未见类的分类当中去，从而能解决现实情况中已标注数据稀少的情形，以满足视觉场景下对数据增广的需求。

本发明的目的是通过以下技术方案实现的：

本发明一种直推式零次学习的未见类图片分类方法的特点在于，是按照如下步骤进行：

步骤1、构建图像-多语言字幕数据集D = {V^s, Y^s, A^s, V^u, A^u}；其中，V^s已见类视觉特征集合，Y^s表示所述已见类视觉特征集V^s的标签集合，令n^s代表已见类视觉特征集合V^s的样本数目，A^s代表已见类视觉特征集V^s的已见类标签集合Y^s相对应的已见类语义描述向量集合，N^s代表已见类标签集合Y^s的种类数目；V^u表示未见类图像特征集，A^u表示未见类图像特征集V^u的未见类标签集合相对应的未见类语义描述向量集合，令n^u代表未见类标签集合Y^s的样本数目，令N^u代表未见类标签集合的种类数目；

步骤2、构建基于多层感知机网络的双向式分布对齐方式模型，包括，视觉编码网络E，视觉生成网络G，回归器R，非条件式属性判别器D^a，条件式视觉判别器D和非条件式视觉判别器D^u；

步骤2.1、构建由回归器R和非条件式属性判别器D^a组成的视觉-语义对齐模型，并用于实现对视觉特征的语义信息预测；

步骤2.2、构建由视觉编码网络E，视觉生成网络G，回归器R，条件式视觉判别器D和非条件式视觉判别器D^u组成的语义-视觉对齐模型，并用于实现对语义特征的视觉特征解析生成；

步骤3、基于图像-多语言字幕数据集D，利用AdamW优化器对所述双向式分布对齐方式模型进行训练，并计算两个总体训练损失函数Loss₁和Loss₂以更新模型参数，直到Loss₁和Loss₂收敛为止，从而得到训练好的双向式分布对齐方式模型；

步骤4、获取另一未见类的标签数据集

，并与未见类语义描述向量集合A^u一起输入训练好的视觉生成网络G中，以生成一定量的合成数据/>

，从而得到带标签的合成未见类数据/>

；

步骤5、基于

训练分类器f，并利用训练好的分类器f对未见类图像特征集V^u分配伪标签/>

，实现对未见类视觉特征的分类。

本发明所述的直推式零次学习的未见类图片分类方法的特点也在于，所述步骤2.1包括：

步骤2.1.1、从已见类视觉特征集合V^s中随机采样得到一个已见类图像特征v^s输入回归器R中，并经过全连接层的映射后得到输出已见类图像特征表示R(v^s)，将v^s对应标签y^s的语义描述a^s作为监督信号，从而利用式(1)构建已见类监督损失函数

：

(1)

式(1)中，E表示期望；

步骤2.1.2、基于采样分布

从未见类语义向量集合A^u中采样得到一个未见类语义描述向量a^u并输入回归器R中进行处理，从而得到输出伪未见类语义向量/>

；y表示标签自变量；对a^u和/>

进行球面插值计算，得到插值后的插值未见类语义向量/>

，且

，其中，/>

表示插值分布；

将a^u，

和/>

输入所述非条件式属性判别器D^a中进行处理，并得到真实未见类语义判别分数表示D^a(a^u)，伪未见类语义判别分数表示/>

和插值未见类语义判别分数表示/>

，从而利用式(2)构建语义非条件式对抗式训练损失函数/>

：

(2)

步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss₁：

(3)。

所述步骤2.2包括：

步骤2.2.1、从正态分布

中随机采样高斯噪声z，并与语义描述a^s拼接后输入视觉生成网络G中进行处理，得到伪已见类视觉特征/>

；再对v^s和/>

进行球面插值计算，得到插值后的插值已见类视觉特征/>

；

将v^s和a^s拼接，将

和a^s拼接，将/>

和a^s拼接后分别输入所述条件式视觉判别器D中进行处理，得到真实已见类判别分数输出D(v^s,a^s)，伪已见类判别分/>

和插值已见类判别分数/>

，从而利用式(4)构建视觉条件式对抗式训练损失函数

：

(4)

式(4)中，

表示对/>

求梯度；

步骤2.2.2、从未见类视觉特征集合V^u中随机采样得到一个未见类图像特征v^u，将z和a^u拼接后输入所述视觉生成网络G中进行处理，并得到伪未见类视觉特征

；再对v^u和

进行球面插值计算，得到插值未见类视觉特征/>

；

将v^u、

和/>

分别输入所述条件式视觉判别器D中进行处理，相应得到真实未见类判别分数D^u(v^u)，伪未见类判别分数/>

和插值未见类判别分数/>

，从而利用式(5)构建视觉非条件对抗式训练损失函数/>

：

(5)

步骤2.2.3、将z和a^u拼接后输入所述视觉生成网络G中进行处理，并得到未见类生成特征表示G(a^u,z)；将G(a^u,z)所述回归器R中进行处理，并得到重预测未见类语义信息表示R(G(a^u,z))，将a^u作为监督信号，从而利用式(6)构建未见类监督损失函数

：

(6)

步骤2.2.4、将v^s，a^s拼接后输入所述视觉编码网络E中进行处理，并得到高斯分布输出E(v^s,a^s)；

从E(v^s,a^s)中采样得到编码表示z^s；再将z^s和a^s拼接后输入所述视觉生成网络G中进行处理，并得到已见类生成特征G(a^s,v^s)，将v^s作为监督信号，从而利用式(7)构建变分自编码损失函数

：

(7)

式(7)中，KL表示Kullback-Leibler 散度约束；

步骤2.2.5、利用式(8)构建所述语义-视觉对齐模型的总体训练损失函数Loss₂：

(8)。

本发明一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行任一所述直推式零次学习的未见类图片分类方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行任一所述直推式零次学习的未见类图片分类方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、对于直推式零样本学习，本发明利用生成式的方法建模属性数据到图片的生成路径，利用数据增广的方式来模拟未见类的图片分布，同时创造性的提出了直推式回归器（transductive regressor，TR），将生成的增广数据映射回到属性数据上，从而提高了对未见类图片的识别准确率，可以缓解现实场景下对标注数据稀缺的矛盾现状。

2、对于生成式的学习方式，本发明提出使用L₂归一化方式进行数据的预处理，相较于以往利用Min-Max归一化的方式，前者更利于模型建模真实数据的值分布，从而提高了模型的图像生成准确性，有利于满足现实场景下数据增广的需求。

附图说明

图1为本发明中双向对齐的零次学习技术的流程图；

图2为本发明中双向对齐的零次学习技术的框架图；

图3为本发明实施例提供的回归器模型的训练策略图；

图4为本发明实施例提供的视觉生成网络模型的训练策略图；

图5为本发明实施例提供的CPE算法的伪代码图。

实施方式

本实施例中，一种直推式零次学习的未见类图片分类方法，是按照如下步骤进行：

步骤1、构建图像-多语言字幕数据集D = {V^s, Y^s, A^s, V^u, A^u}；其中，V^s已见类视觉特征集合，Y^s表示已见类视觉特征集V^s的标签集合，令n^s代表已见类视觉特征集合V^s的样本数目，A^s代表已见类视觉特征集V^s的已见类标签集合Y^s相对应的已见类语义描述向量集合，N^s代表已见类标签集合Y^s的种类数目；V^u表示未见类图像特征集，A^u表示未见类图像特征集V^u的未见类标签集合相对应的未见类语义描述向量集合，令n^u代表未见类标签集合Y^s的样本数目，令N^u代表未见类标签集合的种类数目；

步骤2.1、构建由回归器R和非条件式属性判别器D^a组成的视觉-语义对齐模型，并用于实现对视觉特征的语义信息预测，模型流程图如图3所示；

：

(1)

式(1)中，E表示期望；

步骤2.1.2、基于采样分布

；y表示标签自变量；对a^u和/>

进行球面插值计算，得到插值后的插值未见类语义向量/>

，且

，其中，/>

表示插值分布；

将a^u，

和/>

输入非条件式属性判别器D^a中进行处理，并得到真实未见类语义判别分数表示D^a(a^u)，伪未见类语义判别分数表示/>

和插值未见类语义判别分数表示

，从而利用式(2)构建语义非条件式对抗式训练损失函数/>

：

(2)

对于来自未已见类的示例，它通过最大化对手目标来学习区分它们的真实属性和根据视觉特征计算的伪属性，式(2)中的第三项代表梯度惩罚项，这是沃森斯坦-对抗生成网络WGAN中为了稳定对抗生成网络GAN的训练而引入的；

步骤2.1.3、利用式(3)构建视觉-语义对齐模型的总体训练损失函数Loss₁：

(3)。

因此回归器R旨在以有监督的方式学习已见类从视觉到属性特征的映射，同时以无监督的方式学习不已见类的整体特征域的分布。

步骤2.2、构建由视觉编码网络E，视觉生成网络G，回归器R，条件式视觉判别器D和非条件式视觉判别器D^u组成的语义-视觉对齐模型，并用于实现对语义特征的视觉特征解析生成。该步视觉生成网络G也采用了直推式和对抗式的训练方式。它旨在对齐合成视觉特征和真实特征，在视觉空间中使用视觉判别器D和D^u，同时在属性空间中使用冻结回归器R，模型流程图如图4所示。

步骤2.2.1、从正态分布

；再对v^s和/>

进行球面插值计算，得到插值后的插值已见类视觉特征/>

；

将v^s和a^s拼接，将

和a^s拼接，将/>

和a^s拼接后分别输入条件式视觉判别器D中进行处理，得到真实已见类判别分数输出D(v^s,a^s)，伪已见类判别分数/>

和插值已见类判别分数/>

，从而利用式(4)构建视觉条件式对抗式训练损失函数/>

：

(4)

式(4)中，

表示对/>

求梯度。

步骤2.2.2、从未见类视觉特征集合V^u中随机采样得到一个未见类图像特征v^u，将z和a^u拼接后输入视觉生成网络G中进行处理，并得到伪未见类视觉特征

；再对v^u和/>

进行球面插值计算，得到插值未见类视觉特征/>

；

将v^u、

和/>

分别输入条件式视觉判别器D中进行处理，相应得到真实未见类判别分数D^u(v^u)，伪未见类判别分数/>

和插值未见类判别分数/>

，从而利用式(5)构建视觉非条件对抗式训练损失函数/>

：

(5)

步骤2.2.3、式(4)和式(5)弱对齐未见类在视觉空间上的条件分布，但这样的过程缺乏任何监督约束，这也使得从已见类知识迁移到未见类的过程极度依赖属性知识的质量。因此缓解这种弱约束对齐的情况，即为了进一步加强条件对齐，该步骤使用回归器R来执行监督约束。

将z和a^u拼接后输入视觉生成网络G中进行处理，并得到未见类生成特征表示G(a^u,z)；将G(a^u,z)回归器R中进行处理，并得到重预测未见类语义信息表示R(G(a^u,z))，将a^u作为监督信号，从而利用式(6)构建未见类监督损失函数

：

(6)

步骤2.2.4、将v^s，a^s拼接后输入视觉编码网络E中进行处理，并得到高斯分布输出E(v^s,a^s)；

从E(v^s,a^s)中采样得到编码表示z^s；再将z^s和a^s拼接后输入视觉生成网络G中进行处理，并得到已见类生成特征G(a^s,v^s)，将v^s作为监督信号，从而利用式(7)构建变分自编码损失函数

：

(7)

式(7)中，KL表示Kullback-Leibler 散度约束；

步骤2.2.5、利用式(8)构建语义-视觉对齐模型的总体训练损失函数Loss₂：

(8)。

通过传递已见类的成对视觉特征和属性以及未见类的类别先验分布的知识，并且通过属性回归器 R 得到增强，以进一步约束未见类的视觉特征生成。

步骤3、基于图像-多语言字幕数据集D，利用AdamW优化器对双向式分布对齐方式模型进行训练，并计算Loss₁和Loss₂更新模型参数，直到Loss₁和Loss₂收敛为止，从而得到训练好的双向式分布对齐方式模型。

步骤4、当模型收敛的时候，本发明方法利用视觉生成网络生成增广的未见类数据，因为是基于条件生成，所以增广的数据具有标签属性。利用带标签的合成数据，本发明训练一个简单的线性分类器，并利用训练好的分类器在真实的未见类数据上进行推理预测，最终的评价指标由分类准确率(ACC)给出。

首先获取另一未见类的标签数据集

，从而得到带标签的合成未见类数据/>

。

步骤5、进一步的，基于

，实现对未见类视觉特征的分类；

步骤6、未见类的分布先验估计。

当对式(3)和式(8)中的目标函数进行训练时，未见类的属性是从类之前采样的：a^u~

。由于没有为看不见的类提供标签信息，因此不可能从真实的类先验分布p^u(y)中采样，这就需要一种估计/>

的方法。利用未见类的示例在视觉特征空间中具有较好的聚类结构的特点，该发明使用这种聚类结构来估计未见类先验，即聚类先验估计策略(CPE)。采用 K 均值聚类算法进行分布的估计，并仔细设计其聚类中心的初始化方式，算法伪代码在图5中给出。具体来说，先验估计会在每个训练周期结束迭代更新，并且在每个时期中，簇中心由伪类中心初始化。这个伪类中心利用一个额外的分类器在V^u上推理得到的伪标签给定。同时对于/>

的第一次先验估计，该发明没有使用朴素但有时有害的均匀分布假设，而是使用在非直推式ZSL上训练的视觉生成网络来传输已见类的配对知识以获得温和的估计。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行该直推式零次学习的未见类图片分类方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行该直推式零次学习的未见类图片分类方法的步骤。

实施例：

本发明方法可以用于标注数据稀缺场景下，对未标注的未见类别数据仍旧可以进行准确的分类，这个技术也让模型学得有限数据的知识高效的迁移到新的数据当中，使得模型获得了更强的推理能力。

为了说明本发明的有效性，通过进行了如下实验进行了验证。

在这里使用四个数据集AWA1，AWA2，CUB，SUN上的进行直推式零次学习(TZSL)实验，并展现了未见类的分类准确率(ACC)作为评价指标。实验分为如下两个部分：

未见类分布先验已知的情形：

如表1所示，是在四个数据集上的TZSL分类准确率比较结果。其中，“*”代表使用了已知的未见类分布先验的生成式方法。

表1

该发明与其他非直推式和直推式的TZSL 方法进行比较结果展示。以往的大部分生成式方法使用了已知的未见类分布先验假设，因此，对双向生成模型Bi-VAEGAN 应用相同的设置以获得公平的比较。表 1可以看出，一般来说，使用了无标签测试数据的直推式方法要远优于非直推式方法。同时Bi-VAEGAN 在所有数据集上都优于其他的方法，其中包括了和Bi-VAEGAN一样采用了变分自编码器VAE和GAN作为基础框架的视觉特征生成模型F-VAEGAN和视觉特征反馈生成模型TF-VAEGAN。该发明实现的新的最好的 TZSL结果为93.9\%(AWA1)、95.8\% (AWA2)、78.0\% (CUB) 和 74.2\% (SUN)。值得一提的是，对于类内样本稀缺的 SUN 数据集，Bi-VAEGAN 取得了令人满意的性能提升。这是因为每个类别的样本数量少，本质上使条件生成的判别力降低，从而使 SUN 数据集更具有挑战性。而 Bi-VAEGAN 受益于其双向对齐生成，提供了更具辨别力的特征进而获得了显著的性能提升。

2、未见类分布先验未知的情形：

如表2所示，是在未见类分布先验未知的假设下的实验结果；

表2

在这个实验中，该发明展示未知的未见类分布先验的假设下的实验结果，即表2所示。其中，对于生成式方法需要从未见类分布先验采样，该发明使用了“均匀分布先验”和“CPE”两种方式。通过比较表2和图4可以看出，当使用的未见类分布先验与根据实际类别大小计算的先验类别有显着差异时，有显着的性能下降，例如，对于极度不平衡的 AWA2 数据集上存在超过 30%的性能下降。CPE 在这类困难的未知先验的数据集表现出优异的性能。