CN113269274A

CN113269274A - 一种基于循环一致性的零样本识别方法及系统

Info

Publication number: CN113269274A
Application number: CN202110679972.8A
Authority: CN
Inventors: 张桂梅; 黄军阳; 龙邦耀; 徐可
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-17
Anticipated expiration: 2041-06-18
Also published as: CN113269274B

Abstract

本发明涉及一种基于循环一致性的零样本识别方法及系统，从收集的数据集中，选取一部分类别为训练集，剩下的为测试集，其中训练集样本带标注信息，测试集样本不带标注信息；构建用于广义零样本识别的待训练循环一致性生成对抗网络模型，包括两个生成器、两个判别器和一个去冗余模块；构建多目标损失函数，对上述构造的循环一致性生成对抗网络模型进行更新，不断地优化网络模型的参数，得到训练完成的循环一致性生成对抗网络模型；基于训练完成的循环一致性生成对抗网络，分别在AWA、CUB和SUN三个数据集上进行测试，得出识别结果。本发明的方法可以识别未带标注信息的属性表示，且能够提高广义零样本识别的精度，提升模型的泛化能力。

Description

一种基于循环一致性的零样本识别方法及系统

技术领域

本发明涉及图像识别技术领域，特别是涉及一种基于循环一致性的零样本识别方法及系统。

背景技术

随着机器学习的发展，图像识别的精度得到明显提升。然而，现有识别模型的性能高度依赖于大量的带标注信息的训练数据集，一般地，对于每个类别，都需要数以千计的带标注信息的样本。而且对于某些特定的对象，如濒危物种，其图像信息源稀缺，难以获得足够数量的训练样本。随着图像识别技术应用的深入，待识别目标类别不断增加，未来图像识别技术不能完全寄希望于这种海量训练数据的学习方法。零样本学习的引入，可以解决对未知类别的识别，使人工智能系统逐渐摆脱对海量标注训练数据的依赖。

现阶段零样本识别方法的研究还存在一些挑战，因为要预测的图像来自未知的未知类，大多数方法是将视觉特征映射到语义特征空间，在语义空间中将未知类映射的语义特征视为与其最接近的语义特征，并计算出该语义特征所属的类别。这些传统的方法依赖于一个假设，即同一类别在语义空间和视觉空间中的特征分布是比较相似的，然而在实际情况中，同一类别在语义空间和视觉空间中的特征分布有所差异，因此将视觉特征映射成语义特征的识别精度较低。

发明内容

本发明的目的是提供一种基于循环一致性的零样本识别方法及系统，通过构建循环一致性生成对抗网络模型，缓解模型训练过程中的域偏移问题，实现准确度更高的零样本识别。

为实现上述目的，本发明提供了如下方案：

一种基于循环一致性的零样本识别方法，所述方法包括：

采集训练数据集；

构建待训练循环一致性生成对抗网络模型，利用所述训练数据集训练所述待训练循环一致性生成对抗网络模型，得到循环一致性生成对抗网络模型；

将所述循环一致性生成对抗网络模型应用于未知数据集的识别；所述训练数据集与所述未知数据集不存在交集。

一种基于循环一致性的零样本识别系统，所述系统包括：

预处理模块，用于采集训练数据集；

模型训练模块，用于构建待训练循环一致性生成对抗网络模型，利用所述训练数据集训练所述待训练循环一致性生成对抗网络模型，得到循环一致性生成对抗网络模型；

识别模块，用于将所述循环一致性生成对抗网络模型应用于未知数据集的识别；所述训练数据集与所述未知数据集不存在交集。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的一种基于循环一致性的零样本识别方法及系统，引入了语义对齐的循环一致性约束，通过循环一致性损失度量真实语义特征和伪语义特征之间的相似性，能够缓解在模型训练过程中的域偏移问题，解决了现实场景中训练图像和分类图像之间无法利用公共语义知识的问题，提高了零样本识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于循环一致性的零样本识别方法流程图；

图2为本发明实施例提供的视觉特征生成器G₁网络结构图；

图3为本发明实施例提供的视觉特征判别器D₁网络结构图；

图4为本发明实施例提供的语义特征生成器G₂网络结构图；

图5为本发明实施例提供的语义特征判别器D₂网络结构图；

图6为本发明实施例提供的零样本识别逻辑网络结构图；

图7为本发明实施例提供的一种基于循环一致性的零样本识别系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在零样本图像识别中的测试数据是未知类，因此需要额外的辅助信息作为支撑。主要思路是在已知类和未知类之间建立一个中间层介质，使用该中间层介质将视觉特征与语义特征联系起来，以解决视觉特征和语义特征间的语义鸿沟问题。早期的方法通过利用已知类的视觉特征和其相应的语义特征，学习一个映射函数，该函数可以将类别的视觉特征映射到语义空间中，得到其相应的语义特征；最后找出与其相似性最高的已知类的语义特征，以确定未知类所属的类标签。目前使用较多的中间语义特征空间有属性和文本两种。

在零样本图像识别中，由于已知类和未知类属于两个不同的域，因此它们是没有交集的，当使用已知类训练得到的分类器用来测试未知类时，会导致分类器将未知类分类成已知类，因此，映射的语义特征与真实语义特征相距甚远，这就是域偏移问题。为了缓解该问题，近些年提出了很多方法，如数据增强、自训练以及分类中心矫正等。

传统零样本学习方法通常将测试样本限制在未知类中，也即测试样本与训练样本没有交集。由于传统零样本学习在测试阶段设置的条件过于严格，不能真实反映现实场景中目标识别的过程。针对该问题，2016年首次提出广义零样本学习的方法，在该方法中，测试样本包括已知类和未知类两种情况的类别，其主要思想是对测试样本的来源做了更加宽松的假设，即测试样本可以来源于任意的目标类别。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

为了解决将视觉特征映射成语义特征的识别精度较低的问题，近年来，受生成对抗网络生成能力的启发，已知类和未知类可以直接从语义特征生成其相应的视觉特征，使用生成的视觉特征训练已知类和未知类联合的多类分类器。这种方法已经被证明可以提高广义零样本识别的准确性，但是一个明显的缺点是生成过程的无约束性可能会让该方法生成不具代表性的伪视觉特征，特别是对于未知类。针对以上问题，Rafael等人在GAN的基础上提出一种新的正则化方法，这种正则化是基于一个多模态循环一致性损失，即在训练过程中将生成的视觉特征通过反向映射的约束，生成其相应的伪语义特征，这个约束保留了视觉特征和语义特征之间的语义兼容性。该方法可以在一定程度上缓解广义零样本识别精度低的问题。

如图1所示，本实施例提供了一种基于循环一致性的零样本识别方法，所述方法包括：

步骤101：采集训练数据集；

步骤102：构建待训练循环一致性生成对抗网络模型，利用所述训练数据集训练待训练循环一致性生成对抗网络模型，得到循环一致性生成对抗网络模型；

步骤103：将所述循环一致性生成对抗网络模型应用于未知数据集的识别；所述训练数据集与所述未知数据集不存在交集。

在数据集的选取过程中，需要考虑模型的分类对象。模型的训练是基于任务的，需要根据任务来选择相应领域的数据集来训练模型，模型才能完成对应领域图像的识别任务。本实施例具体选用了AWA、CUB和SUN三个数据集为例进行具体说明。

首先，在步骤101中，选取训练数据集中的一部分类别为训练集，剩下的为未知数据集，其中训练集样本带标注信息，未知数据集样本不带标注信息，训练集样本与未知数据集样本不存在交集。本实施例所选择的AWA数据集是一个中等规模的细粒度动物数据集，拥有50个动物类别，每个类有85维属性注释，样本总数为30475。随机选取40个类作为有标签的训练集，其余10个类作为无标签的未知数据集。CUB数据集是一个中等规模的细粒度鸟类数据集，拥有200个鸟类，每个类有312维注释属性，样本总数为11788。随机选取150个类作为有标签的训练集，其余50个类作为无标签的未知数据集。SUN数据集是一个中等规模的场景类型数据集，拥有717个场景类别，每个类有102维注释属性，样本总数为14340。随机选取645个类作为有标签的训练集，其余72个类作为无标签的未知数据集。本实施例采用(AWA、CUB)和SUN两种不同的领域的数据集来训练和测试模型，能够十分有效的检测模型的泛化能力。

在完成数据集的采集后，开始构建待训练循环一致性生成对抗网络模型。具体可分为生成器网络的构建与判别器网络的构建，而生成器网络又分为视觉特征生成器G₁和语义特征生成器G₂，判别器同样分为视觉特征判别器D₁和语义特征判别器D₂。

参见图2，视觉特征生成器G₁包括两组卷积模块、两组全连接模块和一个Tanh激活函数，其中卷积模块由一个卷积层、一个最大池化层和一个归一化层组成；全连接模块由一个全连接层和一个LeakyReLU组成。语义特征生成器G₂包括两组全连接模块和一个全连接层，其中全连接模块由一个全连接层、一个LeakyReLU组成，如图4所示。G₂输入来自于G₁输出的视觉特征。

参阅图3，视觉特征判别器包括两个分支：一个分支用于0/1的真假判断，另一个分支用于对输入视觉特征的类别进行分类，预测该未知类的类别标签。第一个分支的网络结构包含一组全连接模块和一个二路的全连接层；另一个分支的网络结构包含一组全连接模块和一个n路的全连接层，其中n>2。语义特征判别器与视觉特征判别器的网络结构相同，如图5所示。

在得到待训练循环一致性生成对抗网络模型后，构建多目标损失函数，依据所述多目标损失函数的收敛情况利用所述训练数据集对所述待训练循环一致性生成对抗网络模型的参数进行更新，得到循环一致性生成对抗网络模型。具体的，分别将所述的AWA、CUB和SUN三个数据集上的属性输入到语义特征编码器中，提取相应的语义特征，并将其作为真实语义特征，然后与噪声z同时输入到视觉特征生成器G₁中，生成伪视觉特征

由于获取的视觉特征在细粒度层面上存在一些冗余信息，这些冗余信息会对识别的过程进行干扰，从而影响识别精度。基于此，开发一个去冗余模块，将生成的伪视觉特征和真实视觉特征输入到去冗余模块中，对视觉特征进行去冗余处理，去除掉一些不相关的信息，在去冗余的过程中保留其类别相关性，并输出去冗余的视觉特征

为了更好的缓解域偏移问题，本实施例中具体引入了循环一致性损失函数。语义特征生成器G₂将去冗余之后伪视觉特征

反向生成伪语义特征

然后用循环一致性损失度量真实语义特征和伪语义特征之间的相似度，以约束生成的语义特征更接近于真实的语义特征，进一步使得生成的特征更接近真实特征，这样可以在一定程度上缓解域偏移问题。最后，将去冗余处理后的真实视觉特征与去冗余处理后伪视觉特征作为视觉特征判别器D₁的输入，在判别器中进行判别和分类。将语义特征生成器G₂生成的伪语义特征

和真实语义特征y作为语义判别器D₂的输入，在判别器中进行判别和分类。判别器中一个分支进行判别，判别结果用于计算各自判别器网络的损失函数，优化模型参数，另一个分支预测该未知类的类别标签。

根据语义特征提取器从数据集中提取到的语义特征(属性的特征信息)构建视觉特征生成器损失和视觉特征判别器损失、语义特征生成器损失和语义特征判别器损失；然后根据去冗余模块计算视觉特征的去冗余约束损失；再构建真实语义特征和伪语义特征循环一致性损失函数。损失函数构建的目的是：根据损失函数值的收敛情况，能够更好的对广义零样本识别网络模型中对应的参数进行更新优化，最终获取最优化的循环一致性生成对抗网络模型，对真实的数据集中待识别的图像完成更加准确的识别。

上述的特征生成器损失函数和特征判别器损失函数分为两个部分，其一是对生成伪视觉特征的生成器损失，及该部分的判别器损失；其二是对生成伪语义特征的生成器损失，及该部分的判别器损失。去冗余的约束损失能够更好地对视觉特征中的冗余信息进行去除，并在去除冗余信息的同时保留其类别信息，从而减少冗余信息对识别过程的干扰。循环一致性损失函数可以很好的证明语义特征提取器提取的语义特征和生成的伪语义特征之间的匹配程度。因此，构建多目标损失函数具体包括：

分别构建视觉特征生成器损失函数、视觉特征判别器损失函数、语义特征生成器损失函数、语义特征判别器损失函数和循环一致性损失函数。

视觉特征生成器损失函数如下所示：

其中，第一项表示去冗余后的伪视觉特征的Wasserstein距离，第二项表示伪视觉特征的分类损失，第三项表示去冗余的约束损失。θ和ω表示生成器G₁和判别器D₁的超参数，λ_r表示去冗余约束损失的超参数。

将去冗余伪视觉特征与从已知类提取的真实视觉特征输入到判别器中进行判断和分类，视觉特征判别器的损失函数如下所示：

其中，第一项是视觉特征的分类损失，第二项是Lipschitz梯度惩罚项，第三项是去冗余伪视觉特征

和真实视觉特征x之间的Wasserstein距离。λ₁表示梯度惩罚系数。

语义特征生成器的目标是生成更加接近于真实语义特征的伪语义特征。将去冗余伪视觉特征

和高斯随机噪声z同时输入到语义特征生成器中，得到相应的伪语义特征。语义特征生成器G₂的损失函数如下所示：

其中，第一项表示伪语义特征的Wasserstein距离，第二项表示伪语义特征的分类损失。δ和ζ表示G₂和D₂的超参数，z表示噪声，p_z表示z的联合分布。

将语义特征生成器生成的伪语义特征和真实语义特征输入到判别器中进行判断和分类，语义特征判别器的损失函数如下所示：

其中，第一项表示语义特征分类损失，第二项是梯度惩罚项，第三项是生成的伪语义特征和真实语义特征之间的Wasserstein距离。λ₂表示梯度惩罚系数。

循环一致性生成对抗网络模型中真实语义特征和伪语义特征的循环一致性损失函数具体如下：

其中，λ是循环一致性损失的权重超参数，B表示batch size(批尺寸)的值。

为了减少冗余信息对识别精度的影响，本实施例提出一个新的去冗余特征模块，去除视觉特征中的冗余信息。去冗余的目标是对去冗余后的视觉特征x～'和伪视觉特征x′之间的相关性进行约束，以实现对x′中冗余信息的去除。

采用互相关信息(mutual information，MI)来衡量视觉特征间的相关性。用

表示两个随机变量之间的互相关信息，以约束

和X′之间信息的传递，提取x′中去冗余后的信息。与传统语义嵌入方法不同的是，本实施例设置一个阈值b，通过对

限制一个上界，在去除冗余视觉特征的同时使得去冗余的信息约束函数低于该阈值，以保留原始特征中的类别信息。有界互相关信息约束如下所示。去冗余信息的计算如下所示。

其中，X′表示生成的伪视觉特征x′的集合，

表示去冗余后的视觉特征

的集合，H(·)表示求信息熵。D_KL表示Kullback-Leibler(KL)散度，

表示去冗余特征

的条件分布，

是去冗余特征

的边缘分布。但是，仅仅去除冗余信息并不能保证获得较好的零样本识别结果，去冗余面临的最主要问题是如何在去除冗余特征的同时保留其类别信息。

为了保证视觉特征在去冗余的同时可以很好地保留数据间的类别关系。使用中心损失对上述去冗余过程进行约束，约束损失如下所示。

其中，c表示类别的聚类中心，l是x对应的类标签，l′是除x以外随机选择的其他类的类标签，

表示已知类数据的去冗余特征。

得到多目标损失函数后，依据所述多目标损失函数的收敛情况利用所述训练数据集对所述待训练循环一致性生成对抗网络模型的参数进行更新包括：

根据所述训练数据集的属性得到真实语义特征；

将所述真实语义特征与噪声叠加输入至所述待训练循环一致性生成对抗网络模型的视觉特征生成器，得到伪视觉特征；

将所述伪视觉特征通过待训练循环一致性生成对抗网络模型的语义特征生成器反向生成伪语义特征；

通过循环一致性损失函数度量所述真实语义特征与所述伪语义特征之间的相似性，当所述相似性满足预设阈值时，则将所述待训练循环一致性生成对抗网络模型作为输出，完成更新，否则继续进行参数的更新。

而将所述循环一致性生成对抗网络模型应用于未知类数据集的识别具体包括：

将所述测试(未知类)数据集的真实语义特征为输入，利用所述循环一致性生成对抗网络模型得到所述未知数据集的伪视觉特征与伪语义特征，根据所述伪视觉特征与所述伪语义特征得到所述未知数据集所属的类别。

图6中示出了本实施例提供的循环一致性零样本识别逻辑网络结构的示意图，本实施例中将语义对齐的循环一致损失约束引入生成模型，以解决现实场景中训练图像和测试图像之间无法利用公共语义知识的问题，并对视觉特征和语义特征之间的相关性进行度量，此外在判别器的输出部分添加一个与判别器并行的分类网络，对类标签进行正确的分类；使用WGAN对真实特征和合成特征进行对抗学习，以此来约束真实特征分布的梯度，并在一定程度上缓解模式崩溃问题。

实施例2

参阅图7，本实施例2提供了一种基于循环一致性的零样本识别系统，所述系统包括：

预处理模块M1，用于采集训练数据集；

模型训练模块M2，用于构建待训练循环一致性生成对抗网络模型，利用所述训练数据集训练待训练循环一致性生成对抗网络模型，得到循环一致性生成对抗网络模型；

识别模块M3，用于将所述循环一致性生成对抗网络模型应用于未知数据集的识别；所述训练数据集与所述未知数据集不存在交集。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于循环一致性的零样本识别方法，其特征在于，所述方法包括：

采集训练数据集；

2.根据权利要求1所述的一种基于循环一致性的零样本识别方法，其特征在于，所述训练数据集与所述未知数据集对应的领域相同。

3.根据权利要求1所述的一种基于循环一致性的零样本识别方法，其特征在于，所述利用所述训练数据集训练所述待训练循环一致性生成对抗网络模型，得到循环一致性生成对抗网络模型包括：

构建多目标损失函数，依据所述多目标损失函数的收敛情况利用所述训练数据集对所述待训练循环一致性生成对抗网络模型的参数进行更新，得到循环一致性生成对抗网络模型。

4.根据权利要求3所述的一种基于循环一致性的零样本识别方法，其特征在于，所述构建待训练循环一致性生成对抗网络模型包括：

构建生成器网络：构建视觉特征生成器和语义特征生成器，所述视觉特征生成器包括依次连接的第一卷积模块、第二卷积模块、第一全连接模块、第二全连接模块和第一激活函数层，所述语义特征生成器包括依次连接的第三全连接模块、第四全连接模块、第一全连接层和第二激活函数层；

构建判别器网络：构建视觉特征判别器和语义特征判别器；所述视觉特征判决器包括第五全连接模块和与所述第五全连接模块相连的第一分支与第二分支；所述第一分支包括2路的第二全连接层，所述第二分支包括n路的第三全连接层，其中n>2。

5.根据权利要求3所述的一种基于循环一致性的零样本识别方法，其特征在于，所述构建多目标损失函数包括：

6.根据权利要求5所述的一种基于循环一致性的零样本识别方法，其特征在于，所述构建多目标损失函数还包括：构建冗余约束损失函数。

7.根据权利要求6所述的一种基于循环一致性的零样本识别方法，其特征在于，所述视觉特征生成器损失函数包括：

其中，

表示去冗余后的伪视觉特征的Wasserstein距离，L_cls1(M(G₁(y,z,θ)))表示伪视觉特征的分类损失，λ_rL_r(M,c)表示去冗余的约束损失，θ和ω表示视觉特征生成器G₁和视觉特征判别器D₁的超参数，λ_r表示去冗余约束损失的超参数，L_r(M,c)表示去冗余约束损失，y表示真实语义特征，p_y表示y的联合分布；z表示噪声；M表示去冗余模块；c表示类别的聚类中心；

所述视觉特征判别器损失函数包括：