CN113139591A

CN113139591A - 一种基于增强多模态对齐的广义零样本图像分类方法

Info

Publication number: CN113139591A
Application number: CN202110401006.XA
Authority: CN
Inventors: 胡晓; 钟小容; 丁嘉昱; 向俊将
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-20
Anticipated expiration: 2041-04-14
Also published as: CN113139591B

Abstract

本发明公开了一种基于增强多模态对齐的广义零样本图像分类方法，该方法包括以下步骤：图像获取步骤：获取待识别图像；图像分类步骤：将待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别；广义零样本图像分类模型为通过训练步骤和测试步骤得出；训练步骤具体包括：特征编码步骤：采用两个超球面变分自编码器分别对训练样本的视觉特征和语义特征编码进共享的潜层空间中；潜层向量对齐步骤：将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐；分布边界阈值获取步骤：寻找分布边界阈值。本发明通过超球面变分自编码器为视觉特征和语义特征构建潜层空间，使不同类的相互远离，提高已见类和未见类的识别效果。

Description

一种基于增强多模态对齐的广义零样本图像分类方法

技术领域

本发明涉及图像分类技术领域，尤其涉及一种基于增强多模态对齐的广义零样本图像分类方法。

背景技术

零样本学习就是让计算机模拟人类的推理方式，识别从未见过的新事物。比如，在传统的图像识别算法中，要想让计算机认出斑马，往往需要给计算机输入足够量的斑马图像才可以实现，尽管如此，训练出来的分类器，往往无法识别它未见过的其他类别的图像。但是零样本学习却可以在没有提供新事物数据的情况下，只需要特征描述就能识别出新事物。广义零样本学习与零样本学习的区别在于广义零样本学习在测试阶段的输入图像包含已见类和未见类。在现实中，训练广义零样本学习的模型更具挑战性。

零样本图像分类的数据集的划分和传统的图像分类不一样。前者将数据集划分为已见类和未见类，并且已见类和未见类的类别是不重叠的。已见类主要用于训练模型，而未见类用于评估模型的性能。为了使得未见类样本可以在模型上有更好的表现，在训练的时候通常会引入类别的辅助信息来帮助模型学习未见类的相关知识。而传统的图像分类方法是监督学习问题。这种数据集划分方式的不同是零样本图像分类和传统图像分类的最大区别。

现有的零样本图像分类的算法主要分为三种：嵌入方法，生成方法和选通方法。嵌入方法通常是利用映射函数将视觉特征和辅助信息(语义属性特征或者词向量)映射到一个公共的嵌入空间中，通过某种距离度量方式判断特征的相似度。虽然该方法可以较为简单实现，但是其中存在的偏差和域移位问题的限制，因此嵌入方法具有一定的局限性。生成方法采用模型利用生成对抗网络或变分自编码器为未见类样本生成合成特征，虽然生成方法大大提高了零样本图像分类的性能，但它们仍然受到特征混淆问题的困扰。选通方法通常由未见类专家和已见类专家分别处理未见类样本和已见类样本。理想情况下，如果二进制分类器足够可靠，则广义零样本问题可以分解为一个零样本问题和一个监督分类问题，基于选通方法去解决零样本分类问题上已经卓有成效。

在实际应用过程中，由于零样本学习是多模态学习模式，由视觉空间和语义空间组成，当模态不同的特征通过编码的方式在高维的潜层空间中表示时，很容易造成特征混淆，尤其当两种类别不同但视觉特征相似的数据在潜层空间中的表示更为相近时，更易导致数据分布的混乱，进而导致数据分类效果差。因此，如何在潜层空间中提高模态的不变性，增强同类数据在潜层空间中的凝聚力，仍是零样本图像分类中需共同探讨的问题。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供了一种基于增强多模态对齐的广义零样本图像分类方法，该方法利用超球面变分自编码器为视觉特征和语义特征构建潜层空间，促使模态对齐，最后通过未见类数据与已见类数据的距离设定，将未见类数据和已见类数据分离，再将分离的数据交由各自领域的专家分类器处理，从而提高广义零样本图像分类的准确度。

为了达到上述目的，本发明采用以下技术方案：

一种基于增强多模态对齐的广义零样本图像分类方法，包括以下步骤：

图像获取步骤：获取待识别图像；

图像分类步骤：将所述待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别；

所述广义零样本图像分类模型为通过训练步骤和测试步骤得出；

所述训练步骤具体包括：

特征编码步骤：采用两个超球面变分自编码器分别对训练样本的视觉特征和语义特征编码进共享的潜层空间中；

潜层向量对齐步骤：设置损失函数，将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐，即通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失，优化损失函数，收敛训练模型，使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数，当训练模型的测试准确率达到预设训练准确度阈值时，保存训练模型所有的最优参数，基于所述训练模型所有的最优参数得到广义零样本图像分类模型的参数；

分布边界阈值获取步骤：将已见类的语义潜层向量定义为对应样本的类中心，寻找每一个已见类在潜层空间中的分布边界阈值；

所述测试步骤具体包括：

第一分类处理步骤：将测试样本通过视觉编码器编码到潜层空间中，计算与每一个已见类中心的余弦相似度再与分布边界阈值进行比较；

通过比较结果判断测试样本是否投影到已见类的边界里面，如果是，交由已见类分类器处理，否则交由未见类分类器处理；

第二分类处理步骤：分别对已见类和未见类进行类别识别。

作为优选的技术方案，所述第二分类处理步骤，具体步骤包括：当交由已见类分类器处理时，利用第一分类器进行分类，所述第一分类器由所述潜层向量对齐步骤得到；当交由未见类分类器处理时，利用第二分类器进行分类，第二分类器采用基于减缓特征混淆的零样本分类器。

作为优选的技术方案，所述特征编码步骤，具体包括以下步骤：

部署两个超球面变分自编码器，用于在单位超球面上建立潜层空间，在所述潜层空间中，根据近似圆进行划分数据，令近似圆包围的数据作为已见类数据，令散布在近似圆之外的数据为未见类数据；

所述超球面变分自编码器遵循编解码结构的范式,编码器将输入特征编码得到潜层向量,解码器将潜层向量表示为输入特征的概率分布；

在潜层空间中每个类基于vMF分布表示。

作为优选的技术方案，所述部署两个超球面变分自编码器，具体步骤为：设置两个超球面变分自编码器，即第一超球面变分自编码器和第二超球面变分自编码器，初始化两个超球面变分自编码器，所述第一超球面变分自编码器设有视觉编码器、视觉解码器，所述第二超球面变分自编码器设有语义编码器、语义解码器。

作为优选的技术方案，所述在潜层空间中每个类基于vMF分布表示，具体步骤为：将已见类的视觉特征、语义特征分别通过视觉编码器、语义编码器编码到潜层空间中，对于每一个特征经过编码后的输出均服从近似于均值为u，方差为σ的高斯分布，从不同模态合成的高斯分布中分别采样一个第一潜层向量z₁和第二潜层向量z₂，且第一潜层向量z₁和第二潜层向量z₂均服从vMF分布。

作为优选的技术方案，所述潜层向量对齐步骤，具体包括以下步骤：

重构原始数据步骤：利用超球面变分自编码器重构原始数据，建立超球面变分损失，所述超球面变分损失包括两个超球面变分自编码器的损失，所述超球面变分自编码器的损失表示为对数似然函数的变分下界；

模态不变信息捕获步骤：基于交叉对齐损失对潜层向量捕获模态不变信息；

潜层向量分布对齐步骤：最小化潜层分布损失，其中潜层分布损失为在高斯分布的情况下，根据两个分布的参数之间的Wasserstein距离进行对齐潜层向量分布得到；

模态对齐步骤：基于互信息损失对齐潜层空间中的不同模态的潜层向量；

联合分布的熵最大化步骤：最大化联合熵损失；

第一分类器构建步骤：构建第一分类器，所述第一分类器用于对已见类数据编码在潜层空间的向量进行分类、在所述测试步骤中当判断为已见类时进行监督分类，在训练阶段将已见类数据编码在潜层空间的向量直接用于分类，即构建分类损失；

训练步骤：通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失，优化损失函数，收敛训练模型，使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数，最终保存训练模型所有的最优参数，基于所述训练模型所有的最优参数得到广义零样本图像分类模型的参数；

所述混合损失具体为：

Loss＝L_SVAE+L_CA+L_DA+L_MI+L_EM+L_cls；

其中，Loss表示混合损失，L_SVAE表示超球面变分损失，L_CA表示交叉对齐损失，L_DA表示潜层分布损失，L_MI表示互信息损失，L_EM表示联合熵损失，L_cls表示分类损失。

作为优选的技术方案，所述分布边界阈值获取步骤，具体包括以下步骤：

已见类数据分布步骤：将每个已见类数据在潜层空间中由vMF分布表示，同一类样本在潜层空间中的分布近似地用单位超球面上的一个圆来表示；

分布边界阈值确定步骤：寻求已见类数据在潜层空间中的边界；

设定语义特征在潜层空间中的表示C_i作为类中心，视觉特征在潜层空间中的表示z_ij围绕类中心C_i进行随机分布；

计算每个视觉潜层向量z_ij与每个类中心C_i之间的余弦相似度D(z_ij，C_j)；

通过设定数据界限值γ，确定在每一个视觉潜层向量z_ij与类中心C_i的余弦相似度中抽取预设距离数据作为分布边界阈值η，所述分布边界阈值η小于γ，其中γ∈(0,1)且η大于1-γ。

作为优选的技术方案，所述第一分类处理步骤，具体包括以下步骤：

设置一个测试样本的视觉特征，将视觉特征通过训练好的视觉编码器将其编码在潜层空间中得到潜层向量；

根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度，进而确定测试样本是否被投影到流形中；

如果是，交由已见类分类器处理，否则交由未见类分类器处理。

作为优选的技术方案，所述根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度，利用分布边界阈值η，通过分类归属公式判断测试样本属于未见类还是已见类；

所述分类归属公式具体为：

其中Result代表数据归属情况，具体的，0代表未见类，1代表已见类，z_ij表示第i个类别的第j个视觉特征，_i表示第i个类别的中心，D(z_ij，C_i)表示视觉潜层向量z_ij与类中心C_i之间的余弦相似度，max表示取最大值处理，A_s表示已见类样本的语义特征。

作为优选的技术方案，在所述训练步骤执行前，还包括训练准备步骤；

所述训练准备步骤，具体包括以下步骤：

数据集获取步骤：采用预先由卷积神经网络提取的高维图像特征作为视觉特征，采用人工标注类别信息的作为语义特征；

数据集划分步骤：将数据集划分为两种类别互不重叠的已见类和未见类。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明运用深度学习的技术，通过超球面变分自编码器为视觉特征和语义特征构建潜层空间，设定损失函数，收敛训练模型，从而生成更加具有区分性的特征表示分布，增强模态不变性，使同类的不同模态数据相互对齐，以此更好的将同类的视觉特征和语义特征聚集，并使不同类的数据相互远离，进而在潜层空间中减小特征混淆问题。

(2)本发明通过对未见类数据与已见类数据的距离设定，利用二分法判别测试样本是属于未见类还是已见类，最后再交由各自分类器去预测样本的确切类别，通过在高维的潜层空间中表示特征时，提高了特征之间的区别，进而减小特征混淆的现象，进而提高最终的图像分类的准确度。

(3)本发明利用超球面变分自编码器重构原始数据，使最大限度的减少信息损失，避免重构数据与原始数据的差异过大。

(4)本发明将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失，使编码在潜层空间中的模态对齐，从而增强两个模态的不变性，减小了特征混淆的现象，提高了广义零样本图像分类的准确度。

附图说明

图1为本发明实施例中基于增强多模态对齐的广义零样本图像分类方法的步骤流程图；

图2为本发明实施例中广义零样本图像分类模型的网络结构图；

图3为本发明实施例中基于增强多模态对齐的广义零样本图像分类方法的训练流程示意图。

具体实施方式

在本公开的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同，而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

在本公开的描述中，需要说明的是，除非另有明确的规定和限定，否则术语“安装”、“相连”、“连接”应做广义理解。例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本公开中的具体含义。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供了一种基于增强多模态对齐的广义零样本图像分类方法，该方法包括以下步骤：

图像获取步骤：获取待识别图像；

图像分类步骤：将待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别；

在本实施例中，广义零样本图像分类模型为通过训练步骤和测试步骤得出；

在本实施例中，训练步骤具体包括以下步骤：

潜层向量对齐步骤：设置损失函数，将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐，并保存训练模型所有的最优参数。实际应用时，通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失，优化损失函数，收敛训练模型，并使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数，当训练模型的测试准确率达到预设训练准确度阈值时，保存该训练模型所有的最优参数，基于训练模型所有的最优参数得到广义零样本图像分类模型的参数；

在本实施例中，测试步骤具体包括以下步骤：

第二分类处理步骤：当交由已见类分类器处理时，利用第一分类器进行分类，第一分类器由潜层向量对齐步骤得到；当交由未见类分类器处理时，利用第二分类器进行分类，第二分类器采用基于减缓特征混淆的零样本分类器。

此外，本领域技术人员可根据实际情况将识别性能高的未见类分类器作为第二分类器，以提高基于增强多模态对齐的广义零样本图像分类方法的可拓展性，进而在图像分类得到更高的准确度。

如图2所示，本实施例在特征编码步骤中部署了两个超球面变分自编码器(SVAE)，用于在单位超球面上建立潜层空间。其中，在潜层空间中，根据近似圆进行划分数据，令近似圆包围的数据作为已见类数据，令散布在近似圆之外的数据为未见类数据。超球面变分自编码器遵循编解码结构的范式,编码器将输入特征x编码得到潜层向量z,解码器则将潜层向量z表示为输入特征x的概率分布。将编码器表示为q(z|x),将解码器表示为p(x|z)。

结合图2所示，在潜层空间中每个类基于vMF(von Mises Fisher)分布表示，一个vMF分布可以看作是超球面上的高斯分布η(μ,Σ)。实际应用时，首先设置两个超球面变分自编码器，即第一超球面变分自编码器和第二超球面变分自编码器，初始化两个超球面变分自编码器，第一超球面变分自编码器设有视觉编码器E₁、视觉解码器D₁，其相应的网络参数分别为θ、

第二超球面变分自编码器设有语义编码器E₂、语义解码器D₂，其相应的网络参数分别为φ、τ。然后，将已见类的视觉特征X、语义特征A分别通过视觉编码器、语义编码器编码到潜层空间中。对于每一个特征经过编码后的输出均服从均值为u和方差为σ的高斯分布，从不同模态合成的高斯分布中分别采样一个第一潜层向量z₁和第二潜层向量z₂，且z₁和z₂均服从vMF分布。

如图3所示，潜层向量对齐步骤，具体包括以下步骤：

重构原始数据步骤：利用超球面变分自编码器重构原始数据，建立超球面变分损失。本实施例中的超球面变分损失包括两个超球面变分自编码器的损失，其中超球面变分自编码器的损失表示为对数似然函数的变分下界，具体为：

其中，q_θ(z₁|X)是视觉编码器，p_φ(X|z₁)是视觉解码器，

是语义编码器，p_τ(A|z₂)是语义解码器，θ、

φ、τ是网络参数，β是超参数，log为取对数运算。

表示对第一潜层向量z₁的对数似然期望；

βD_KL(q_θ(z₁|X)‖p_φ(z₁))表示对第一潜层向量z₁的KL散度正则项；

表示对第二潜层向量z₂的对数似然期望；

表示对第二潜层向量z₂的KL散度正则项；

在本实施例中，

和

均用于重构损失，使生成数据和原始数据尽可能相近。βD_KL(q_θ(z₁|X)‖p_φ(z₁))和

作为KL散度正则项，促使后验概率q_θ(z₁|X)、

分别与先验概率p_φ(z₁)、p_τ(z₂)尽可能相似。

模态不变信息捕获步骤：基于交叉对齐损失对潜层向量捕获模态不变信息。实际应用时，由于学习了两种不同模态的共享潜层空间，因此需对潜层向量进行捕获模态不变信息，为此，本实施例采用的交叉对齐损失L_CA，具体为：

其中L_CA表示交叉对齐损失，

τ分别是视觉解码器和语义解码器的参数。

潜层向量分布对齐步骤：最小化潜层分布损失L_DA。实际应用时，在高斯分布的情况下，根据两个分布的参数之间的Wasserstein距离进行对齐潜层向量分布，使潜层分布损失最小化，其中潜层分布对齐损失L_DA具体为：

其中，u₁、u₂分别表示潜层分布中第一潜层向量z₁和第二潜层向量z₂的均值，Σ₁、Σ₂分别表示潜层分布中第一潜层向量z₁和第二潜层向量z₂的方差。

模态对齐步骤：基于互信息损失对齐潜层空间中的不同模态的潜层向量。实际应用时，由于视觉特征和语义特征的模态不同，故编码到共享的潜层空间后，属于相同类别的视觉和语义的潜层向量会受到域位移的困扰，因此为了增强两个模态的不变性，本实施例通过引入互信息损失，使编码在潜层空间中的模态对齐。

实际应用时，在潜层空间中第一潜层向量z₁和第二潜层向量z₂的互信息MI表示为：

其中T_ω,ξ为神经网络建模函数，ω、ξ是其在网络中需要学习的参数，

和

分别是z₁和z₂的联合分布和边缘分布乘积；

表示获取潜层空间中z1和z2的联合分布信息，

表示获取潜层空间中z1和z2的边缘分布信息。通过最大化互信息MI从联合分布中学习并获取信息，而不从边缘分布中获取信息。E表示为取均值运算，log表示取对数运算，g为激活函数，其表达形式具体为g(a)函数：

a表示自变量,exp为以e为底的指数函数。

当视觉特征和语义特征编码后采样输出的第一潜层向量z₁和第二潜层向量z₂来自同一类别时，即z₁和z₂是一个类的不同模态的潜层向量时，基于互信息损失函数L_MI将最大化两者之间的互信息，促进潜层空间中模态的不变性，该互信息损失函数L_MI具体为：

L_MI＝-I(z₁；z₂)；

其中(z₁；z₂)表示两种潜层向量均是来自相同类别的已见类，I(z₁；z₂)表示在潜层空间中第一潜层向量z₁和第二潜层向量z₂的互信息MI。

实际应用时，通过优化两个潜层向量的互信息，能够学习视觉特征和语义特征的共同潜层表示，并有助于对齐同一类的两种模态，减轻不同类别的模态混乱程度，从而提高图像分类的准确度。

联合分布的熵最大化步骤：最大化联合熵损失。实际应用时，本实施例利用z₁和z₂的联合分布的熵最大化，来避免编码器生成过度记忆的已见类数据的潜层向量而导致在测试未见类的潜层向量分布不准确的问题，具体地，为进一步加强两种模态的不变性，设置第一潜层向量z₁和第二潜层向量z₂的联合熵损失L_EM：

其中γ是超参数且γ＞0，f(z)表示对潜层向量z的归一化操作，H(f(z))表示对归一化后的潜层向量z的求熵运算，

表示第一潜层向量z₁和第二潜层向量z₂的联合分布。

表示最大化第一潜层向量z₁和第二潜层向量z₂的联合分布的熵。

此外，本实施例对于归一化处理函数f采用Softmax，本领域技术人员可根据实际情况调整，本实施例在此对归一化处理函数f不做限定。

第一分类器构建步骤：构建第一分类器，该第一分类器用于对已见类数据编码在潜层空间的向量进行分类、在测试步骤中当判断为已见类时进行监督分类。实际应用时，为了使分类器在已见类的数据上有良好的分类性能，以便在后期作为已见类专家对测试样本的已见类数据进行监督分类，故在训练阶段应该将已见类数据编码在潜层空间的向量直接用于分类，即构建分类损失L_cls为：

其中y是类别的标签，log为取对数运算，ρ表示线性Softmax分类器的参数。

表示视觉编码器对于已见类的视觉特征X生成的潜层向量为第一潜层向量z₁的分类概率。相应地，

表示语义编码器对于已见类的语义特征A生成的潜层向量为第二潜层向量z₂的分类概率。logp_ρ(y|z₁)和logp_ρ(y|z₂)分别表示分类器做对数据第一潜层向量z₁和第二潜层向量z₂进行分类处理。

和

分别表示分类器对由已见类的视觉特征X经过视觉编码器生成的潜层向量为第一潜层向量z₁的正确分类概率和分类器对由已见类的语义特征A经过语义编码器生成的潜层向量为第二潜层向量z₂的正确分类概率。

训练步骤：通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失，优化损失函数，收敛训练模型，并使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数，最终保存训练模型所有的最优参数，基于训练模型所有的最优参数得到广义零样本图像分类模型的参数。实际应用时，混合损失具体为：

Loss＝L_SVAE+L_CA+L_DA+L_MI+L_EM+L_cls；

在本实施例中，分布边界阈值获取步骤，具体包括以下步骤：

已见类数据分布步骤：将每个已见类数据在潜层空间中由vMF分布表示，同一类样本在潜层空间中的分布可以近似地用单位超球面上的一个圆来表示；

分布边界阈值确定步骤：寻求已见类数据在潜层空间中的边界，首先，设定语义特征在潜层空间中的表示C_i作为类中心，视觉特征在潜层空间中的表示z_ij则围绕类中心C_i进行随机分布，然后，计算每个视觉潜层向量z_ij与每个类中心C_i之间的余弦相似度D(z_ij，C_j)；然后我们通过设定数据界限值γ，确定在每一个视觉潜层向量z_ij与类中心C_i的余弦相似度中抽取预设距离数据作为分布边界阈值η，限定η小于γ，γ∈(0,1)并且η大于1-γ。

结合图3所示，第一分类处理步骤，具体包括以下步骤：

设置一个测试样本的视觉特征X，将视觉特征X通过训练好的视觉编码器将其编码在潜层空间中得到潜层向量z；

根据确定好的分布边界阈值去比较测试样本和已见类中心之间的余弦相似度，进而确定测试样本是否被投影到流形中；

如果是，交由已见类分类器处理，否则交由未见类分类器处理；

实际应用时，利用分布边界阈值η，通过分类归属公式判断测试样本属于未见类还是已见类，分类归属公式具体为：

其中Result代表数据归属情况，具体的，0代表未见类，1代表已见类，z_ij表示第i个类别的第j个视觉特征，即视觉潜层向量，C_i表示第i个类别的中心，D(z_ij，C_i)表示视觉潜层向量z_ij与类中心C_i之间的余弦相似度，max表示取最大值处理，A_S表示已见类样本的语义特征。

在本实施例中，由于训练过程只有已见类的视觉特征进行训练，而未见类视觉特征只存在于测试过程，故对于已见类分类器，本实施例直接采用在训练过程中保存的第一分类器。对于未见类分类器，本发明采用基于减缓特征混淆的零样本分类器，并将该基于减缓特征混淆的零样本分类器作为第二分类器。通过两种高性能的分类器的结合，最终达到提升图像分类准确度的效果。

此外，本领域技术人员可根据实际情况对第二分类器进行调整，直接利用由其他学者提出的高识别性能的零样本分类器作为第二分类器，本实施例在此不做限制。

此外，本实施例在实验前期准备过程包括以下步骤：

数据集获取步骤：直接使用从ResNet-101在Image Net数据集上预先训练的最后一个池化层中提取的2048维的特征作为视觉特征，即采用预先由卷积神经网络提取的高维图像特征作为视觉特征，利用人工标注类别信息作为语义特征。实际应用时，还可采用其它预先训练的分类图像的高维图像特征作为视觉特征，采用其它已标注类别信息的作为语义特征，本实施例在此不作限定。

数据集划分步骤：将数据集划分为两种类别互不重叠的已见类和未见类。实际应用时，广义零样本图像分类任务就是在训练集{Xs，As，Ys}训练一个分类器f_GZSL：X→Ys∪Yu。令已见类的视觉特征表示为X，语义特征表示为A，Y为类别的标签，则已见类样本集合为：{Xs，As，Ys}，其中Xs是已见类样本的视觉特征，As是已见类样本的语义特征，Ys是已见类样本对应标签。未见类样本集合为：{Xu，Au，Yu}，其中Xu是未见类样本的视觉特征，Au是未见类样本的语义特征，Yu是未见类样本对应标签。根据零样本学习的定义，由于在训练过程中未见类的视觉特征Xu是不参与训练的，因此在测试阶段，只能依靠已见类别样本的训练好的模型对未见类样本进行分类，并且有

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于增强多模态对齐的广义零样本图像分类方法，其特征在于，包括以下步骤：

图像获取步骤：获取待识别图像；

所述训练步骤具体包括：

所述测试步骤具体包括：

第二分类处理步骤：分别对已见类和未见类进行类别识别。

2.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述第二分类处理步骤，具体步骤包括：当交由已见类分类器处理时，利用第一分类器进行分类，所述第一分类器由所述潜层向量对齐步骤得到；当交由未见类分类器处理时，利用第二分类器进行分类，第二分类器采用基于减缓特征混淆的零样本分类器。

3.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述特征编码步骤，具体包括以下步骤：

在潜层空间中每个类基于vMF分布表示。

4.根据权利要求3所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述部署两个超球面变分自编码器，具体步骤为：设置两个超球面变分自编码器，即第一超球面变分自编码器和第二超球面变分自编码器，初始化两个超球面变分自编码器，所述第一超球面变分自编码器设有视觉编码器、视觉解码器，所述第二超球面变分自编码器设有语义编码器、语义解码器。

5.根据权利要求4所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述在潜层空间中每个类基于vMF分布表示，具体步骤为：将已见类的视觉特征、语义特征分别通过视觉编码器、语义编码器编码到潜层空间中，对于每一个特征经过编码后的输出均服从近似于均值为u，方差为σ的高斯分布，从不同模态合成的高斯分布中分别采样第一潜层向量z₁和第二潜层向量z₂，且第一潜层向量z₁和第二潜层向量z₂均服从vMF分布。

6.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述潜层向量对齐步骤，具体包括以下步骤：

联合分布的熵最大化步骤：最大化联合熵损失；

所述混合损失具体为：

Loss＝L_SVAE+L_CA+L_DA+L_MI+L_EM+L_cls；

7.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述分布边界阈值获取步骤，具体包括以下步骤：

8.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述第一分类处理步骤，具体包括以下步骤：

9.根据权利要求8所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，所述根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度，利用分布边界阈值η，通过分类归属公式判断测试样本属于未见类还是已见类；

所述分类归属公式具体为：

其中Result代表数据归属情况，具体的，0代表未见类，1代表已见类，z_ij表示第i个类别的第j个视觉特征，C_i表示第i个类别的中心，D(z_ij，C_i)表示视觉潜层向量z_ij与类中心C_i之间的余弦相似度，max表示取最大值处理，A_S表示已见类样本的语义特征。

10.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法，其特征在于，在所述训练步骤执行前，还包括训练准备步骤；

所述训练准备步骤，具体包括以下步骤：

数据集获取步骤：采用预先由卷积神经网络提取的高维图像特征作为视觉特征，采用人工标注信息作为语义特征；