CN114821196A

CN114821196A - 零样本图像识别方法及其识别装置、介质与计算机终端

Info

Publication number: CN114821196A
Application number: CN202210638733.2A
Authority: CN
Inventors: 赵鹏; 刘金辉; 韩莉
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-07-29

Abstract

本发明涉及公开了一种基于原型域对齐与跨模态重建的零样本图像识别方法，其包括以下主要步骤：提取可见类样本的视觉特征；通过特征分布编码器获得可见类图像的视觉分布信息；通过特征生成器获得生成的视觉特征；通过设计分布正则化损失、域一致性损失、视觉重建损失、对抗损失和语义重建损失，训练优化所述特征生成器的模型的参数，获得训练好的特征生成器；将未见类语义特征输入训练好的特征生成器获得生成的未见类视觉特征；利用生成的未见类视觉特征训练未见类分类器；利用训练好的未见类分类器对未见类图像进行预测。本发明通过原型域一致性对齐和跨模态重建，使生成的视觉特征与真实的视觉特征更加接近，并且包含更多的类别判别性特征。

Description

零样本图像识别方法及其识别装置、介质与计算机终端

技术领域

本发明涉及计算机视觉的图像识别领域中的一种零样本图像识别方法，特别是一种基于原型域对齐与跨模态重建的零样本图像识别方法、与所述零样本图像识别方法相对应的零样本图像识别装置、采用所述零样本图像识别方法的计算机可读存数介质与计算机终端。

背景技术

现有的图像识别方法需要在模型训练阶段收集大量有类别标签的图像对模型进行训练，识别阶段只能识别训练阶段中出现过的类别。然而在实际场景中，经常需要识别训练阶段缺少图像的类别，例如濒危物种的图像、医疗肿瘤图像等。在上述应用场景下，训练阶段只能获取到各个类别的文本描述，无法获得对应的图像。因此，传统的图像识别方法无法对未见类图像进行识别，而采用零样本图像识别方法便可以对对未见类图像进行识别。零样本图像识别方法通过模型训练，能够在识别阶段识别出在训练阶段无法获取到图像的类别。训练阶段具有图像的类别称为可见类，训练阶段无法获取到图像的类别称为未见类。

公开号为CN113537322A的发明专利申请公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法。该方法需先训练跨模态语义增强网络，再训练基于跨模态语义增强的生成对抗网络。所述方法的跨模态语义增强网络首先将视觉特征进行降维后完成分类器及回归器操作。然后，为了保证视觉和语义之间更接近，所述方法又将语义特征通过升维变换为与降维后视觉空间相同的维度，然后通过网络将语义特征和视觉特征映射到同一子空间中，获得跨模态重构的语义特征和视觉特征，并进行计算不同模态的特征差异。

但是考虑到视觉特征包含丰富的细致和判别信息，容易在降维的过程中丢失一部分视觉信息；同时，这传统的视觉模态和语义文本模态的特征生成机制会存在有些细致视觉特征没法找到对应的语义特征，有些具有隐喻的语义文本特征也无法找到对应的视觉特征，因而将视觉特征和语义特征映射到同一空间，会造成信息损失和错误的信息对齐。其次，公开号为CN113537322A的发明专利申请中的方法通过生成对抗网络中的生成器进行特征生成的，生成器从高斯分布中直接采样，忽略了样本的分布信息。

零样本学习通过可见类的视觉图像和语义属性进行训练，建立相同类别的视觉图像与语义属性之间的关系，并在预测时，将这种关系迁移到未见类，便可以实现对未见类图像的预测。现有的零样本学习方法主要分为基于属性预测的方法、基于空间嵌入的方法以及基于生成模型的方法。本发明属于基于生成模型的零样本学习方法。

由于图像和语义特征来自不同模态，某些相同的语义属性映射到不同类上的视觉特征具有较大的分布差异，例如“大象”和“猪”具有相同的语义属性“鼻子”，但它们的视觉特征差异很大。因此不同类别之间视觉特征和语义特征的映射关系存在着域偏移现象。因而，基于生成模型的零样本学习在生成未见类视觉样本时，存在生成的视觉特征分布偏离真实视觉特征分布的现象，从而会产生样本域分布不一致的问题。此外，基于生成模型的方法需要同时以随机向量与语义向量作为生成器的输入，生成的图像难以保证包含充足的类别信息，可能会掺杂更多与类别无关的噪声信息，无法保证生成器可以将随机向量和语义向量充分解耦。生成的图像可能会包含更多与类别无关的信息，导致合成样本的类区分性比较差，从而会产生生成样本类别信息不完全的问题。

发明内容

为解决生成模型中样本域分布不一致和生成样本类别信息不完全的技术问题，本发明提供一种基于原型域对齐与跨模态重建的零样本图像识别方法、与所述零样本图像识别方法相对应的零样本图像识别装置、采用所述零样本图像识别方法的计算机可读存数介质与计算机终端。

本发明是通过以下技术方案实现：一种基于原型域对齐与跨模态重建的零样本图像识别方法，具有模型训练阶段和零样本图像识别阶段，所述零样本图像识别方法包括以下步骤：

一、模型训练阶段

（1）所述模型训练阶段采用的训练集中包含图像的类别称为可见类，具有可见类的图像和类别语义属性，所述训练集中没有包含图像的类别称为未见类，具有未见类的类别语义属性；

（2）利用视觉提取器对所述可见类的图像获得视觉特征x，利用原型提取器对所述可见类获得类别视觉原型

，利用语义提取器分别对所述可见类的类别语义属性、所述未见类的类别语义属性均获得语义特征s；

（3）将所述视觉特征x和所述可见类的语义特征拼接s，输入到特征分布编码器，获取所述可见类的图像的视觉分布信息，所述视觉分布信息包括均值μ和标准差σ；

（4）计算潜在空间中的低维向量z：

z=σ×ε＋μ

其中，ε表示服从高斯分布的随机向量，设计分布正则化损失，通过模型训练，约束所述低维向量z逼近于高斯分布；

所述特征分布编码器是通过最小化分布正则化损失完成的，所述特征分布编码器的分布正则化损失L _Dis-Reg表示为：

其中，KL(·)表示散度函数，用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异； q _φ(z|x, s)表示低维向量z的后验分布，即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布， p _θ(z|s)表示z的先验分布，即高斯分布；

（5）将所述低维向量z和所述可见类的语义特征s拼接，输入到特征生成器，获得生成的视觉特征x'；设计域一致性损失，最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异，使生成的视觉特征和对应类别的视觉原型尽可能一致；

所述域一致性损失L _MMD设计如下：

其中，

表示该类别的视觉原型，φ(·)表示将数据映射到再生希尔伯特空间的核函数，K表示生成的该类别的视觉特征的个数，而

表示生成第i个视觉特征；

（6）设计视觉重建损失，最小化所述生成的视觉特征x'与所述视觉特征x之间的差异，使所述生成的视觉特征x'与所述视觉特征x尽可能一致；

所述视觉重建损失的函数L _Visual-Rec为：

其中，M表示数据集中图像的数目，

表示第i个图像的视觉特征，

表示与该图像的视觉特征对应的生成的视觉特征；

（7）将所述生成的视觉特征x'和所述视觉特征x分别输入到真假判别器，设计对抗损失，通过博弈的方式，增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力；

所述特征生成器和所述真假判别器通过对抗的方式进行训练，用于提高视觉特征生成的质量，对抗损失函数L _GAN设计如下：

其中，D(·)表示所述真假判别器的判别函数，其值介于0到1之间，IE[·]表示期望值函数；梯度惩罚项通过执行Lipschitz约束进行实现，λ表示梯度惩罚项的权重；

表示所述视觉特征x和生成的视觉特征x'的线性插值，即

，其中α是一个随机数值；

（8）将所述生成的视觉特征x'输入到语义解码器，重构与所述生成的视觉特征x'相对应的语义特征s'，设计语义重建损失，最小化所述重构的语义特征s'和相应语义特征s之间的差异，使所述重构的语义特征s '与相应语义特征s尽可能一致；

通过语义解码器，获得视觉特征重构的语义特征s'，并通过所述语义重建损失对模型进行训练，所述语义重建损失L _Semantic-Rec设计如下：

其中，M 表示数据集中图像的数目，s _i表示第i 个图像对应类别的语义特征，s'_i表示第i 个生成的视觉特征通过所述语义解码器后重构的语义特征；

（9）将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加，获得所述视觉特征生成器的模型整体的损失函数，通过梯度反向传播，优化所述特征生成器的模型的参数，获得训练好的特征生成器；

（10）将未见类的语义特征和从高斯分布中采样的随机向量拼接，输入到所述训练好的特征生成器，生成未见类的视觉特征；

（11）将生成的未见类视觉特征输入到分类器，输出预测的类别标签，通过交叉熵损失，使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致，训练获得一个未见类的分类器；

通过所述分类器预测所述生成的未见类视觉特征对应的类别标签，所述分类器的分类函数定义如下：

其中，exp(·)表示以e 为底的指数函数；

为视觉特征x 在分类器中输出的标签值，

表示第y 个类别对应的模型参数向量的转置，

表示第j 个类别的模型参数向量的转置，C表示未见类别的个数；

所述分类器通过交叉熵损失进行训练，交叉熵损失L _Cls-CE表示为：

其中，y _i,k表示第k 个样本是否属于第i 个标签，k=1，2，…，K；i=1，…，N；当第k个样本属于第i个标签时，y _i,k=1，否则，y _i,k=0；p _i,k表示第k 个样本属于第i 个类别的概率；

二、零样本图像识别阶段

（12）通过所述视觉提取器和训练好的所述未见类的分类器，获得待预测的未见类图像的类别标签；

其中，通过所述视觉提取器，获得未见类图像对应的视觉特征，再输入到训练好的所述未见类的分类器中，获得识别出的类别标签。

作为上述方案的进一步改进，所述可见类的类别视觉原型是利用原型提取器获得的，即将类别中所有图像视觉特征均值作为该类别的视觉原型。

作为上述方案的进一步改进，α是介于0到1之间的一个随机数值。

作为上述方案的进一步改进，在步骤（1）之前，还包括步骤：

获得所需图像；其中，模型所使用的公开数据集包括：细粒度的鸟类数据集CUB、动物系列数据集AWA以及场景类数据集SUN；

对所述公开数据集进行类别划分；其中，使用预处理过程，将各数据集的全部类别划分为不相交的可见类和未见类，并分别获得对应的图像和语义属性；可见类的图像和语义属性用于生成模型的训练阶段，未见类的语义属性用于生成模型的未见类视觉特征生成阶段，未见类的图像则用于最终的零样本识别阶段；

获取数据集的特征；其中，在大规模数据集ImageNet上预训练一个ResNet网络，将类别划分后的所述公开数据集中的图像送入已预训练好的网络中，获得数据集中每张图像对应的视觉特征。

本发明还提供开一种基于原型域对齐与跨模态重建的零样本图像识别装置，所述零样本图像识别装置包括应用于模型训练阶段的定义模块、第一提取模块、视觉分布信息获取模块、低维向量计算模块、域一致性损失设计模块、视觉重建损失设计模块、真假判别能力模块、语义重建损失设计模块、第二提取模块、第三提取模块、未见类的分类器生成模块；

所述定义模块用于将所述模型训练阶段采用的训练集中包含图像的类别称为可见类，具有可见类的图像和类别语义属性，所述训练集中没有包含图像的类别称为未见类，具有未见类的类别语义属性；

所述第一提取模块用于利用视觉提取器对所述可见类的图像获得视觉特征x，利用原型提取器对所述可见类获得类别视觉原型

所述视觉分布信息获取模块用于将所述视觉特征x和所述可见类的语义特征拼接s，输入到特征分布编码器，获取所述可见类的图像的视觉分布信息，所述视觉分布信息包括均值μ和标准差σ；

所述低维向量计算模块用于计算潜在空间中的低维向量z：

z=σ×ε＋μ

其中，KL(.)表示散度函数，用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异；

表示低维向量z的后验分布，即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布，

表示z的先验分布，即高斯分布；

所述域一致性损失设计模块用于将所述低维向量z和所述可见类的语义特征s拼接，输入到特征生成器，获得生成的视觉特征

；设计域一致性损失，最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异，使生成的视觉特征和对应类别的视觉原型尽可能一致；

其中，所述域一致性损失L _MMD设计如下：

其中，

表示该类别的视觉原型，φ(.)表示将数据映射到再生希尔伯特空间的核函数，K表示生成的该类别的视觉特征的个数，而

表示生成第i个视觉特征；

所述视觉重建损失设计模块用于设计视觉重建损失，最小化所述生成的视觉特征

与所述视觉特征x之间的差异，使所述生成的视觉特征

与所述视觉特征x尽可能一致；

所述视觉重建损失的函数L _Visual-Rec为：

其中，M表示数据集中图像的数目，x _i表示第i个图像的视觉特征，

表示与该图像的视觉特征对应的生成的视觉特征；

所述真假判别能力模块用于将所述生成的视觉特征

和所述视觉特征x分别输入到真假判别器，设计对抗损失，通过博弈的方式，增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力；

其中，D(.)表示所述真假判别器的判别函数，其值介于0到1之间，IE[·]表示期望值函数；梯度惩罚项通过执行Lipschitz约束进行实现，λ表示梯度惩罚项的权重；

表示所述视觉特征x和生成的视觉特征

的线性插值，即

，其中，α~U(0,1)，即：α是介于0到1之间的一个随机数值；

所述语义重建损失设计模块用于将所述生成的视觉特征

输入到语义解码器，重构与所述生成的视觉特征

相对应的语义特征

，设计语义重建损失，最小化所述重构的语义特征

和相应语义特征s之间的差异，使所述重构的语义特征

与相应语义特征s尽可能一致；

通过语义解码器，获得视觉特征重构的语义特征

，并通过所述语义重建损失对模型进行训练，所述语义重建损失L _Semantic-Rec设计如下：

其中，M表示数据集中图像的数目，s _i表示第i个图像对应类别的语义特征，s'_i表示第i个生成的视觉特征通过所述语义解码器后重构的语义特征；

所述第二提取模块用于将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加，获得所述视觉特征生成器的模型整体的损失函数，通过梯度反向传播，优化所述特征生成器的模型的参数，获得训练好的特征生成器；

所述第三提取模块用于将未见类的语义特征和从高斯分布中采样的随机向量拼接，输入到所述训练好的特征生成器，生成未见类的视觉特征；

所述未见类的分类器生成模块用于将生成的未见类视觉特征输入到分类器，输出预测的类别标签，通过交叉熵损失，使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致，训练获得一个未见类的分类器；

其中，exp(.)表示以e为底的指数函数；

为视觉特征x在分类器中输出的标签值，

表示第y个类别对应的模型参数向量的转置，

表示第j个类别的模型参数向量的转置，C表示未见类别的个数；

其中，y _i,k表示第k个样本是否属于第i个标签，k=1，2，…，K；i=1，…，N；当第k个样本属于第i 个标签时，y _i,k=1，否则，y _i,k=0；p _i,k表示第k个样本属于第i个类别的概率；

所述零样本图像识别装置还包括应用于零样本图像识别阶段的类别标签识别模块，

所述类别标签识别模块用于通过所述视觉提取器和训练好的所述未见类的分类器，获得待预测的未见类图像的类别标签；其中，通过所述视觉提取器，获得未见类图像对应的视觉特征，再输入到训练好的所述未见类的分类器中，获得识别出的类别标签。

作为上述方案的进一步改进，所述零样本图像识别装置还包括也应用于模型训练阶段的所需图像获得模块、公开数据集类别划分模块、数据集的特征获取模块；

所述所需图像获得模块用于获得所需图像；其中，模型所使用的公开数据集包括：细粒度的鸟类数据集CUB、动物系列数据集AWA以及场景类数据集SUN；

所述公开数据集类别划分模块用于对所述公开数据集进行类别划分；其中，使用预处理过程，将各数据集的全部类别划分为不相交的可见类和未见类，并分别获得对应的图像和语义属性；可见类的图像和语义属性用于生成模型的训练阶段，未见类的语义属性用于生成模型的未见类视觉特征生成阶段，未见类的图像则用于最终的零样本识别阶段；

所述数据集的特征获取模块用于获取数据集的特征；其中，在大规模数据集ImageNet上预训练一个ResNet网络，将类别划分后的所述公开数据集中的图像送入已预训练好的网络中，获得数据集中每张图像对应的视觉特征。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现上述任意基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。

本发明还公开一种计算机终端，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。

采用以上技术方案，本发明具有以下技术优点：

1.本发明提出通过所述视觉原型提取器获得同一类别的视觉原型，同时最小化域一致性损失实现原型域一致性对齐，使得生成的样本更接近于对应类别的视觉原型，保证了生成样本与对应的真实分布更加接近，使生成模型可以学习到与类别更相关的视觉信息；

2.通过一个语义解码器，将生成的视觉特征解码到语义空间，并分别计算视觉重建损失和语义重建损失，使解码后的语义接近于真实的语义特征，从而与对应类别更接近，增加了所生成视觉特征的类区分性；

3. 本发明提供了一种高效的零样本图像识别方法，能够满足多种未知类别的图像识别需求，无需对生成模型重新进行训练降低了样本收集标记过程中带来的人力物力消耗，提高了对未见类别图像的识别分类的任务性能，加快零样本分类在实际场景中的研究与应用。

4. 不同于公开号为CN113537322A的发明专利申请的跨模态重建方法，本发明通过分布编码器获得样本的潜在分布特征，通过特征生成器获取生成的视觉特征，即在视觉模态下重建视觉特征；同时通过语义解码器，将生成的视觉特征解码为生成的语义特征，即在语义模态下重建语义特征，通过这种跨模态的重建方式，使生成过程更直接地得到训练，即将跨模态重建和生成过程融入一个统一的框架，统一训练，各部件在训练过程中直接互相补益，无需先训练跨模态语义增强网络，再训练基于跨模态语义增强的生成对抗网络。本发明无需进行复杂的降维/升维变换及子空间映射操作，降低了模型复杂度的同时，避免了在视觉特征维度降低过程所产生的信息损失问题，并且在统一的训练框架下同时训练分布编码器，特征生成器和语义解码器，使得各部件在训练过程中直接互相补益。而本发明的权利要求1使用了分布编码器、生成对抗网络的生成器作为本模型的特征生成器，共同进行特征生成过程；通过分布编码器对样本中的视觉特征和语义特征进行编码后，能够获得样本的潜在分布向量；使特征生成器生成的视觉特征包含更多真实的样本分布信息。即本发明和公开号为CN113537322A的发明专利申请所使用的方法均为基于生成模型的方法，但二者所使用的模型并不相同。此外，本方法通过分布编码器，使视觉特征的生成过程能够包含更多真实样本的分布信息。

5. 与现有的基于生成模型的零样本学习方法相比，本发明首次在生成过程中通过获取视觉原型特征，度量生成的视觉特征与视觉原型特征之间的最大均值差异；通过域一致性度量操作，即最小化最大均值差异，使生成的视觉特征与对应类别的视觉原型特征更加接近，减小了生成视觉特征的分布与对应类别真实视觉特征域分布的差异。从而在对未见类视觉特征进行合成时，可以生成与对应类别真实视觉特征更接近的视觉特征。

附图说明

图1是本发明中模型训练阶段中的生成模型训练阶段框架图。

图2是本发明中模型训练阶段中的未见类分类器训练阶段框架图。

图3是本发明中零样本图像识别阶段框架图。

图4是本发明实施例二中基于原型域对齐与跨模态重建的零样本图像识别方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

零样本图像识别的数据集由可见类和未见类构成。在训练过程中，可见类包含图像、类别标签及类别标签对应的语义属性，而未见类只包含类别标签对应的语义属性，不包含未见类的图像。此外，可见类和未见类的类别无交集。

本发明提出了一种基于原型域对齐与跨模态重建的零样本图像识别方法，通过在可见类上训练好生成模型，便可以借助未见类的语义属性生成对应的图像。从而将缺乏未见类图像的零样本图像识别转化为传统的基于监督学习的图像识别问题；利用生成的未见类样本便可以训练出用于对未见类图像识别的分类器。

实施例一

本发明的基于原型域对齐与跨模态重建的零样本图像识别方法主要有两个阶段：一、模型训练阶段；二、零样本图像识别阶段。模型训练包括生成模型的训练和未见类分类器的训练两部分，第一部分是获得训练好的特征生成器，第二部分首先利用训练好的特征生成器和未见类的语义特征生成未见类视觉特征，然后用这些生成的未见类视觉特征训练未见类分类器。零样本图像识别阶段，将待分类的未见类图像送入训练好的未见类分类器，识别出该未见类图像所属的类别。

所述零样本图像识别方法可设计相应的基于原型域对齐与跨模态重建的零样本图像识别装置。所述零样本图像识别装置包括应用于模型训练阶段的所需图像获得模块、公开数据集类别划分模块、数据集的特征获取模块、定义模块、第一提取模块、视觉分布信息获取模块、低维向量计算模块、域一致性损失设计模块、视觉重建损失设计模块、真假判别能力模块、语义重建损失设计模块、第二提取模块、第三提取模块、未见类的分类器生成模块，还包括应用于零样本图像识别阶段的类别标签识别模块。

参照图1，图2和图3，对本发明的各阶段进行详细介绍。

一、模型训练阶段

本发明模型训练阶段包括生成模型训练阶段和未见类分类器训练阶段。生成模型训练阶段参阅图1，主要包括以下步骤：

（1）所述模型训练阶段采用的训练集中包含图像的类别称为可见类，具有可见类的图像和类别语义属性，所述训练集中没有包含图像的类别称为未见类，具有未见类的类别语义属性。步骤（1）可由定义模块执行。

在本实施例中，在步骤（1）之前，可以包括以下步骤：

I获得所需数据集：

在本步中，获得用于模型训练的公开数据集，本方法采用了计算机视觉领域中通用的零样本学习数据集，包含：细粒度的鸟类数据集CUB、动物数据集AWA以及场景数据集SUN。CUB指：细粒度的鸟类数据集Caltech- UCSD Birds-200-2011。CUB数据集由加州理工学院建立，包含200个类别的11,788张鸟类图片，每个类别附有312维的语义属性，其中150个类作为训练集，50个类作为测试集，在珍稀鸟类识别的场景中具有较好的研究价值。AwA指：动物系列数据集Animals with Attributes。 AwA是Lampert等人在2009年创建的动物数据集，它是一种粗粒度动物数据集，包含50个类别的30,475张动物图片，每个类别附有85维的语义属性，其中40个类做为训练集，10个类作为测试集。SUN指场景类数据集SUNAttributes。SUN是它是一个细粒度场景数据集，包含717个类别的14,340张场景图，每个类别附有102维的语义属性，其中645类作为训练集，72类作为测试集一个场景数据集，可以应用于场景识别中。由于不同类别的样本数目差距较大，SUN数据集存在着严重的长尾分布现象，因此其分类难度比较大。

II对数据集进行类别划分：

使用预处理过程，将各数据集的全部类别划分为不相交的可见类和未见类，分别获得对应的图像和语义属性。其中，可见类的图像和语义属性用于生成模型的训练阶段；未见类的语义属性用于未见类分类器训练阶段中，利用生成模型训练阶段完成后已训练好的特征生成器，生成未见类的视觉特征；未见类的图像则用于最终的零样本识别阶段。此步骤可由公开数据集类别划分模块执行。

III获取数据集的特征；其中，在大规模数据集ImageNet上预训练一个ResNet网络，将类别划分后的所述公开数据集中的图像送入已预训练好的网络中，获得数据集中每张图像对应的视觉特征。此步骤可由数据集的特征获取模块执行。

（2）利用视觉提取器对所述可见类的图像获得视觉特征

，利用原型提取器对所述视觉特征

获得视觉原型

，利用语义提取器分别对所述可见类的类别语义属性、所述未见类的类别语义属性均获得语义特征s。此步骤可由数据集的特征获取模块执行。

需要说明的是，所述视觉提取器是在大规模数据集ImageNet上预训练一个卷积神经网络，例如ResNet，用于获取图像的视觉特征向量。将数据集中的图像送入已预训练好的网络，便可以获得数据集中每张图像对应的视觉特征。

需要说明的是，所述语义提取器获得类别对应的语义特征，通常情况下，可以使用手工标注的形式获得每个类别对应的属性向量，作为类别对应的语义特征。同一数据集的属性向量维度相同，每一维度均表示一定的含义，例如羽毛、尾巴等。每个维度的值则可以利用0/1二进制或[0, 1]之间的实数值表示。此外，也可以选择预训练好的词向量提取网络，对来自Wikipedia中的类别描述提取对应的词向量，作为每个类别的语义特征。

在本实施例中，获得每个类别的视觉原型特征，本模型提出所述原型提取器，计算各类别视觉特征的均值，作为该类别的视觉原型，与语义特征分别用来表征类别的视觉信息和语义信息。

（3）将所述视觉特征

和所述可见类的语义特征拼接s，输入到特征分布编码器，获取所述可见类的图像的视觉分布信息，所述视觉分布信息包括均值μ和标准差σ。此步骤可由视觉分布信息获取模块执行。

在本实施例中，将可见类的视觉特征和语义特征拼接，输入到特征分布编码器中，将样本的高维特征编码到低维潜在空间，获得样本的特征分布参数μ和σ。随后，使用重参数化技术获得可以表征样本分布信息的潜在分布向量即低维向量z，其中，z=σ×ε＋μ，其中，ε表示服从高斯分布的随机向量。由于潜在分布向量是通过特征分布编码器编码得到的，因此，z可以表示为z=Enc(x,s)，其中Enc(·)表示编码操作。

（4）计算潜在空间中的低维向量z：

z=σ×ε＋μ

其中，ε表示服从高斯分布的随机向量，设计分布正则化损失，通过模型训练，约束所述低维向量z逼近于高斯分布。

所述特征分布编码器是通过最小化分布正则化损失完成的，所述分布编码器的分布正则化损失L _Dis-Reg表示为：

L _Dis-Reg=KL(q _φ(z|x, s)||p _θ(z|s))

其中，KL(·) KL表示散度函数，用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异；q _φ(z|x, s)表示低维向量z的后验分布，即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布，p _θ(z|s)表示z的先验分布，即高斯分布。

（5）将所述低维向量z和所述可见类的语义特征s拼接，输入到特征生成器，获得生成的视觉特征

；设计域一致性损失，最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异，使生成的视觉特征和对应类别的视觉原型尽可能一致。

所述域一致性损失L _MMD设计如下：

其中，

表示该类别的视觉原型特征，φ(·)表示将数据映射到再生希尔伯特空间的核函数，K表示生成的该类别的视觉特征的个数，而

表示生成第i个视觉特征。此步骤可由域一致性损失设计模块执行。

在本实施例中，使用原型域一致性对齐约束生成视觉特征的分布。将生成的视觉特征与视觉原型进行一致性度量。本模型最小化生成视觉特征和类别视觉原型之间的分布差异，减小在特征生成过程中随机采样导致的分布偏差。上述约束使生成的视觉特征与对应类别的视觉原型特征在希尔伯特空间中更加接近，保证了域一致性，减小了生成视觉特征的分布与对应类别真实视觉特征域分布的差异。从而在对未见类视觉特征进行合成时，可以生成与对应类别真实视觉特征更接近的视觉特征。

（6）设计视觉重建损失，最小化所述生成的视觉特征x'与所述视觉特征x之间的差异，使所述生成的视觉特征x'与所述视觉特征x尽可能一致。所述视觉重建损失函数L _Visual-Rec为：

]

表示与该图像的视觉特征对应的生成的视觉特征。

在本实施例中，在视觉模态，使用均方误差实现视觉重建损失，最小化生成的可见类视觉特征与采样的真实视觉特征之间的差异，从而使模型能够获得与真实视觉特征更接近的生成视觉特征。此步骤可由视觉重建损失设计模块执行。

（7）将所述生成的视觉特征

和所述视觉特征x分别输入到真假判别器，设计对抗损失，通过博弈的方式，增强所述特征生成器的生成能力和所述真假判别器的真假判别能力。

其中，D(·)表示所述真假判别器的判别函数，其值介于0到1之间，IE[·]表示期望值函数；梯度惩罚项通过执行Lipschitz约束进行实现，用于避免判别器产生梯度消失现象，从而可以增加所述真假判别器的判别能力，λ表示梯度惩罚项的权重；

表示所述视觉特征x和生成的视觉特征x'的线性插值，即

，其中，

，即：α是介于0到1之间的一个随机数值。

在本实施例中，训练特征生成器合成可见类的视觉特征。将获取的潜在低维向量z和语义特征s拼接后传入特征生成器，生成语义特征对应类别的视觉特征x'。将可见类的视觉特征和生成的视觉特征传入真假判别器，对输入视觉特征的真假情况进行判断，即判断输入的特征是真实视觉特征还是生成的视觉特征。视觉特征生成器和真假判别器通过对抗的方式进行训练，用于提高视觉特征生成的质量。生成视觉特征的过程可以表示为

，Gen(·)表示特征生成操作，上述目标函数通过对抗的方式进行训练，以生成更真实的视觉特征。此步骤可由真假判别能力模块执行。

（8）通过语义解码器，重构与所述生成的视觉特征x'相对应的语义特征s'，设计语义重建损失，最小化所述重构的语义特征s'和相应语义特征s之间的差异，使所述重构的语义特征s'与相应语义特征s尽可能一致。所述语义重建损失L _Semantic-Rec设计如下：

]

其中， M表示数据集中图像的数目，s _i表示第i个图像对应类别的语义特征，s'_i表示第i个生成的视觉特征通过所述语义解码器后重构的语义特征。此步骤可由语义重建损失设计模块执行。

需要说明的是，将生成的视觉特征输入到语义解码器，解码输出与真实的语义特征维度相同的特征向量，该输出的特征向量称之为重构的语义特征。使用均方误差计算真实的语义特征和重建的语义特征之间的语义重建损失，使生成的视觉特征中能够保留更多语义信息。

使用语义解码器，将生成的视觉特征重建回语义空间，得到重建后的语义特征。为了保证与真实的语义特征更接近，本模型在语义模态使用语义重建损失，使映射后的语义特征与真实的语义特征更接近，保证了生成的视觉特征能够还原到语义空间，使特征生成器能够生成包含更多语义知识的视觉特征，从而使生成的视觉特征具有更强的类区分性。本步骤联合步骤（6）一起，通过多模态重建的约束，保证了生成的视觉特征与真实的视觉特征更接近，同时还能保证生成的视觉特征中包含更多的类判别信息。

（9）将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加，获得所述生成模型整体的损失函数，通过梯度反向传播，优化所述生成模型的参数，获得训练好的特征生成器。此步骤可由第二提取模块执行。

未见类分类器训练阶段参阅图2，主要包括以下步骤：

（1）将未见类的语义特征和从高斯分布中采样的随机向量拼接，输入到所述训练好的特征生成器，生成未见类的视觉特征。此步骤可由第三提取模块执行。

（2）将生成的未见类视觉特征输入到分类器，输出预测的类别标签，通过交叉熵损失，使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致，训练获得一个未见类的分类器。此步骤可由未见类的分类器生成模块执行。

需要说明的是，分类器预测类别标签的分类函数定义如下：

其中，exp(·)表示以e为底的指数函数；

为视觉特征x在分类器中输出的标签值，

表示第y个类别对应的模型参数向量的转置，

表示第j个类别的模型参数向量的转置，C表示未见类别的个数。

在本实施例中，所述分类器可通过交叉熵损失进行训练，交叉熵损失L _Cls-CE表示为：

其中，y _i,k表示第k个样本是否属于第i个标签，k=1，2，…，K；i=1，…，N；当第k个样本属于第

个标签时，y _i,k=1，否则，y _i,k=0；p _i,k表示第k个样本属于第i个类别的概率。

二、零样本图像识别阶段

在本实施例中，完成模型训练后，便可以进入零样本图像识别过程。零样本图像识别阶段参阅图3，主要包括以下步骤：

（1）将待识别的未见类图像输入到所述视觉提取器，获得该未见类图像的视觉特征x _u。

（2）将视觉特征x _u输入到训练好的所述分类器，预测出的该未见类图像的类别标签。

需要说明的是，分类器预测类别标签的分类函数定义如下：

其中，exp(·)表示以e为底的指数函数；

为视觉特征x在分类器中输出的标签值，

表示第y个类别对应的模型参数向量的转置，

表示第j个类别的模型参数向量的转置，C表示未见类别的个数。此两个步骤可由未见类的分类器生成模块执行。

需要说明的是，未见类分类器训练阶段步骤（2）中分类函数定义中的

为未见类生成的视觉特征，而在零样本图像识别阶段的步骤（2）中分类函数定义中的

为待识别的未见类图像真实的视觉特征。

本发明的基于原型域对齐与跨模态重建的零样本图像识别方法设计成程序进行实现功能时，可以采用一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序。该计算机终端可包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机程序。该计算机程序被处理器执行时，实现本发明的基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。计算机终端可以是电脑、智能手机等。也可以设计成嵌入式运行的程序，安装在计算机终端上，如安装在单片机上。

本发明的基于原型域对齐与跨模态重建的零样本图像识别方法设计成程序进行实现功能时，也可以设计成计算机可读存储介质可独立运行的程序，计算机可读存储介质可以是U盘，设计成U盾，通过U盘设计成通过外在触发启动整个方法的程序。

实施例二

本实施例的零样本图像识别方法，与实施例1基本相似，用于实现对未见类的视觉特征进行识别。参照图4，该方法包括以下步骤：

S1.获取数据集。

S2.提取视觉特征，语义特征和可见类类别的视觉原型。使用所述视觉提取器和语义提取器，提取可见类别图像的视觉特征和语义特征，以及未见类别语义特征。设计原型提取器，获取每个可见类类别的视觉原型。

S3.利用可见类别图像的视觉特征和语义特征，以及可见类别视觉原型训练生成模型，获得训练好的特征生成器。

S4.将未见类别的语义特征送入训练好的特征生成器，获得未见类的生成的视觉特征。

S5.利用未见类的生成的视觉特征训练未见类分类器，获得训练好的分类器。

S6.提取待识别的未见类图像的视觉特征。

S7.将待识别的未见类图像的视觉特征输入训练好的分类器，识别出该未见类图像的类别。

在本实施例中，步骤S2中，提取每个样本的视觉特征的同时，对每一类别的语义特征和视觉原型特征进行获取。其流程可以分为：1）使用视觉提取器提取每张图像的1024维视觉特征，2）使用语义提取器，根据语义属性或词向量获取类别的语义特征，3）按照不同的类别，得到由视觉特征和语义特征构成的样本集合，4）计算每个类别中全部视觉特征的均值，作为每个类别的视觉原型。

步骤S3中，生成模型中包括特征分布编码器，特征生成器，语义解码器和真假判别器。通过设计所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失，并上述损失相加，获得所述生成模型整体的损失函数，通过梯度反向传播，优化所述生成模型的参数，获得训练好的特征生成器。

步骤S5中，利用未见类生成的视觉特征和交叉熵损失训练未见类分类器，将零样本图像识别问题转换为传统的基于监督学习的图像识别问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于原型域对齐与跨模态重建的零样本图像识别方法，其特征在于，具有模型训练阶段和零样本图像识别阶段，所述零样本图像识别方法包括以下步骤：

一、模型训练阶段

（4）计算潜在空间中的低维向量z：

z=σ×ε＋μ

所述域一致性损失L _MMD设计如下：

其中，

表示生成第i个视觉特征；

所述视觉重建损失的函数L _Visual-Rec为：

其中，M表示数据集中图像的数目，

表示第i个图像的视觉特征，

表示与该图像的视觉特征对应的生成的视觉特征；

表示所述视觉特征x和生成的视觉特征x'的线性插值，即

，其中α是一个随机数值；

其中，exp(·)表示以e 为底的指数函数；

为视觉特征x 在分类器中输出的标签值，

表示第y 个类别对应的模型参数向量的转置，

二、零样本图像识别阶段

2.如权利要求1所述的基于原型域对齐与跨模态重建的零样本图像识别方法，其特征在于，所述可见类的类别视觉原型是利用原型提取器获得的，即将类别中所有图像视觉特征均值作为该类别的视觉原型。

3.如权利要求1所述的基于原型域对齐与跨模态重建的零样本图像识别方法，其特征在于，α是介于0到1之间的一个随机数值。

4.如权利要求1 所述的基于原型域对齐与跨模态重建的零样本图像识别方法，其特征在于，在步骤（1）之前，还包括步骤：

获得所需图像；其中，模型所使用的公开数据集包括：细粒度的鸟类数据集CUB、动物系列数据集AWA 以及场景类数据集SUN；

获取数据集的特征；其中，在大规模数据集ImageNet 上预训练一个ResNet 网络，将类别划分后的所述公开数据集中的图像送入已预训练好的网络中，获得数据集中每张图像对应的视觉特征。

5.一种基于原型域对齐与跨模态重建的零样本图像识别装置，其特征在于，所述零样本图像识别装置包括应用于模型训练阶段的定义模块、第一提取模块、视觉分布信息获取模块、低维向量计算模块、域一致性损失设计模块、视觉重建损失设计模块、真假判别能力模块、语义重建损失设计模块、第二提取模块、第三提取模块、未见类的分类器生成模块；

所述低维向量计算模块用于计算潜在空间中的低维向量z：

z=σ×ε＋μ

所述域一致性损失设计模块用于将所述低维向量z和所述可见类的语义特征s拼接，输入到特征生成器，获得生成的视觉特征x'；设计域一致性损失，最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异，使生成的视觉特征和对应类别的视觉原型尽可能一致；

所述域一致性损失L _MMD设计如下：

其中，

表示生成第i个视觉特征；

所述视觉重建损失设计模块用于设计视觉重建损失，最小化所述生成的视觉特征x'与所述视觉特征x之间的差异，使所述生成的视觉特征x'与所述视觉特征x尽可能一致；

所述视觉重建损失的函数L _Visual-Rec为：

其中，M表示数据集中图像的数目，

表示第i个图像的视觉特征，

表示与该图像的视觉特征对应的生成的视觉特征；

所述真假判别能力模块用于将所述生成的视觉特征x'和所述视觉特征x分别输入到真假判别器，设计对抗损失，通过博弈的方式，增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力；

表示所述视觉特征x和生成的视觉特征x'的线性插值，即

，其中α是一个随机数值；

所述语义重建损失设计模块用于将所述生成的视觉特征x'输入到语义解码器，重构与所述生成的视觉特征x'相对应的语义特征s'，设计语义重建损失，最小化所述重构的语义特征s'和相应语义特征s之间的差异，使所述重构的语义特征s '与相应语义特征s尽可能一致；

其中，exp(·)表示以e 为底的指数函数；

为视觉特征x 在分类器中输出的标签值，

表示第y 个类别对应的模型参数向量的转置，

所述零样本图像识别装置还包括应用于零样本图像识别阶段的类别标签识别模块，所述类别标签识别模块用于通过所述视觉提取器和训练好的所述未见类的分类器，获得待预测的未见类图像的类别标签；

6.如权利要求5所述的基于原型域对齐与跨模态重建的零样本图像识别装置，其特征在于，所述可见类的类别视觉原型是利用原型提取器获得的，即将类别中所有图像视觉特征均值作为该类别的视觉原型。

7.如权利要求5所述的基于原型域对齐与跨模态重建的零样本图像识别装置，其特征在于，α是介于0到1之间的一个随机数值。

8.如权利要求5所述的基于原型域对齐与跨模态重建的零样本图像识别装置，其特征在于，所述零样本图像识别装置还包括也应用于模型训练阶段的所需图像获得模块、公开数据集类别划分模块、数据集的特征获取模块；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至4中任意一项所述的基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。

10.一种计算机终端，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任意一项所述的基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。