CN111581405A

CN111581405A - 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Info

Publication number: CN111581405A
Application number: CN202010337222.8A
Authority: CN
Inventors: 徐行; 朱佳文; 沈复民; 汪政; 杨阳; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-25
Anticipated expiration: 2040-04-26
Also published as: CN111581405B

Abstract

本发明提出了一种基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，该方法基于对偶学习构建生成对抗网络，将不同模态的高维视觉特征映射到共同的低维的语义嵌入空间，然后构造多种约束机制进行循环一致性约束，生成对抗约束和分类器约束，以维持视觉‑语义一致性和生成特征‑源特征一致性，经过整个网络训练后进行跨模态检索，使得模型在泛化零样本检索问题上性能更为强大。同时，整个训练过程不需要像素级上成对的多媒体数据对作为训练样本，只需要类别上成对的数据，以减少数据集收集的繁琐度和昂贵成本，检索效果更优，在零样本泛化检索问题中性能提升更为明显。

Description

基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

技术领域

本发明属于计算机视觉中的跨模态检索技术领域，具体涉及一种在多媒体类型的数据之间进行检索的方法，即基于对偶学习生成对抗网络的跨模态泛化零样本检索方法。

背景技术

跨媒体检索是指用户通过输入任意媒体类型的查询数据，检索出所有媒体类型中的语义相关数据。随着互联网中文本、图像、视频等多媒体数据的日益增多，跨越不同模态的检索成为信息检索的新趋势。传统跨模态零样本检索的目标是在未见过的新的类别数据上进行跨模态检索；跨模态泛化零样本检索的测试集包括未知类以及一部分已知类，但其类别标签对模型未知，具有更大的检索难度。

目前，跨模态泛化零样本检索方法，其研究受限于以下问题：

1.不同模态数据之间存在“语义鸿沟”和类内差异性问题，该问题导致不同媒体类型的数据分布和特征表示之间存在不一致性，因此难以直接度量多种媒体数据之间的相似性；

2.零样本检索问题涉及到将从已知类学习到的知识转移到未知类上，这种学习和迁移过程中存在信息损失和过拟合问题，因此泛化零样本检索往往比传统零样本检索更具难度。

为解决上述问题，一个普遍的思路是将不同模态的异构视觉特征映射到同一个公共子空间中得到统一表征，进而通过常用的距离度量方法直接计算不同模态数据之间的相似性，实现跨模态交叉检索。目前主要方法是通过深度学习方法构建神经网络，以现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系，有效提升对复杂跨模态关联的分析能力，以提高跨模态统一表征的检索准确率。这些方法通常采用对抗生成网络来生成共同嵌入空间，以获取不同模态数据的异构分布和特征表示。

现有方法的主要问题在于，从高维视觉特征映射到低维语义时存在语义信息损失，对抗生成网络在训练时也常常不稳定；同时，训练模型无法对只存在于未知类中的视觉外观特征和语义信息进行确定的编码，导致模型在检索过程中会趋向于训练过程中曾出现过的已知类。

发明内容

本发明的发明目的在于克服现有技术的不足，基于生成对抗网络的跨模态泛化零样本检索方法，通过对偶学习方法实现视觉->语义和语义->视觉的双向生成映射，这种基于对偶学习的对抗生成网络相互协作，以帮助保留视觉-语义一致性。

基于生成对抗网络的跨模态泛化零样本检索方法，该方法通过跨模态检索网络模型的网络结构实现，所述跨模态检索网络模型的网络结构包括多模态特征提取模块、基于对偶学习的对抗生成模块和基于多模态检索模块；

其中，多模态特征提取模块是该检索问题的基础层，提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练；对于视觉特征的提取，以基于ImageNet进行预训练的VGG16网络作为基础网络，在最后加入注意力机制，提取了512维的视觉表征；对于语义特征的提取，结合文本模型和层次模型建立特征选择自动编码器，最终提取M维的语义特征；从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入。

用X，Y分别表示多模态视觉特征提取模块提取出的两个模态的视觉特征，X为草图视觉特征，Y为自然图像视觉特征；用S表示语义特征提取模块提取出的视觉特征对应的语义特征。

所述的基于对偶学习的对抗生成模块包括视觉-语义双向映射网络，将重构的特征和原始特征相比较，通过约束缩短它们的距离来实现跨域对齐，从而减小语义损失，使得模型在泛化零样本检索问题上性能更为强大。通过生成器Generator基于语义特征生成相应的视觉特征；以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间；Generator和Regressor与判别器Discriminator组成生成对抗网络结构。

Generator选取了CVAE网络模型，其中Encoder首先基于视觉特征X或Y生成了一个噪声向量k，再将语义特征与相应噪声向量k相结合，作为CVAE模型中Decoder的输入，用于生成语义特征相应的视觉特征X′和Y′；生成的视觉特征通过Regressor再次映射回语义模态，得到相应的语义特征。在训练过程中，样本中的视觉特征X/Y通过Regressor生成相应的语义特征，再通过Generator反向映射回相应视觉空间。

其中，Regressor就是我们最终所需要的模型，即多模态视觉特征->语义特征的生成模型(R_sk：X->S和R_im：Y->S)。

所述多模态检索模块包括通过Regressor将测试集样本映射到语义子空间上，得到相应实值特征或二元特征；以及通过计算两个视觉模态的相似性矩阵得到给定检索目标相应的其他模态数据的匹配情况。

进一步地，语义特征的特征选择自动编码器结合了特定的文本模型和层次模型，获得的语义表征包含文本侧信息和层次侧信息，两种信息互为补充，使语义特征更具有鲁棒性。

进一步地，由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息，整个训练过程不需要像素级上成对的多媒体数据对作为训练样本，只需要类别上成对的数据，以减少数据集收集的繁琐度和昂贵成本。

本发明提出的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，具体包括如下步骤：

步骤S1：选择训练数据集。对训练数据进行预处理操作，生成视觉特征和语义特征，生成的视觉和语义特征作为构建的跨模态检索网络模型的输入；

步骤S2：构建跨模态检索模型。对所述跨模态检索网络模型的网络结构进行设计和构造；

步骤S3：构造约束。对所构建的跨模态检索网络模型精心设计约束，在之后的网络训练过程中以求生成信息损失最小；

步骤S4：训练跨模态检索网络模型，将不同模态视觉特征映射到共享的潜在语义空间中；

步骤S5：验证模型检索效果。获取当剔除相关约束或语义特征模型后，跨模态检索网络模型对应检索性能的描述数据。

进一步地，所述步骤S1中的数据集划分情况如下：在应用实例中，选择了应用广泛的大规模的Sketchy Ext.和TU-Berlin Ext.作为数据集；Sketchy数据集共有125个类别，随机选取100个类作为训练的可见类，剩余25个类作为不可见类；TU-Berlin数据集共有250个类别，随机选取220个类作为训练的可见类，剩余30个类作为不可见类；模型进行传统的零样本检索时，测试集直接选用不可见类；跨模态检索网络模型进行泛化零样本检索时，在训练集中随机选取不可见类数量的20％的类别，将这些类别加入到不可见类中作为最终的测试集，此时Sketchy数据集的测试集类别为25+25*0.2＝30个，TU-Berlin数据集的测试集类别为30+30*0.2＝36个。

进一步地，所述步骤S3中的约束包括：L_adv，L_cyc，L_cls。其中L_adv确保生成对抗过程中的信息损失；L_cyc确保重构生成特征和源特征之间的循环一致性，以减小生成过程中的语义损失；L_cls使生成视觉特征更具有判别性。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：对一个给定的模态数据，提取其特征向量；

步骤S52：将提取的特征向量输入训练好的跨模态检索网络模型，映射到公共语义子空间，得到实值特征或者二元特征；

步骤S53：计算潜在语义空间中另一模态数据变量与检索目标的相似性矩阵，进行排序，相似性最大的变量对应的原始模态数据为检索结果，即与检索目标属于同一类别的其他模态。

本发明提出了一个新兴的模型，用于解决泛化零样本检索方法。本发明使用对偶学习的方法使得生成的语义特征可以重构回源语义特征空间，生成的视觉特征也可以重构回源视觉特征空间，在精心设计的约束的作用下，对偶结构使得多模态之间的生成过程可以保留足够的语义-视觉一致性和生成特征-源特征一致性，使得本发明在传统零样本检索和泛化零样本检索中都可以获得比较好的检索效果；本发明的语义特征的特征选择自动编码器结合了特定的文本模型和层次模型，获得的语义表征包含文本侧信息和层次侧信息，两种信息互为补充，使语义特征更具有鲁棒性；本发明由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息，整个训练过程不需要像素级上成对的多媒体数据对作为训练样本，只需要类别上成对的数据，可减少数据集收集的繁琐度和昂贵成本。

附图说明

图1为基于生成对抗网络的跨模态泛化零样本检索方法的实现流程图；

图2为本发明的基于生成对抗网络的跨模态泛化零样本检索方法的框架示意图；

图3为本发明的基于生成对抗网络的跨模态泛化零样本检索方法的另一框架示意图；

图4为本发明的基于生成对抗网络的跨模态泛化零样本检索方法的网络结构；

图5为基于生成对抗网络的跨模态泛化零样本检索方法的实例在数据集Sketchy和TU-Berlin上的检索效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施方式作进一步地详细描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，所描述的实施例是本发明的部分实施例，而不是全部的实施例，也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明中基于生成对抗网络的跨模态泛化零样本检索方法包含如下步骤：

步骤1：选择训练数据集。本实例中选取了选择了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.进行实验。

Sketchy Ext.包含75479张草图和73002张自然图像，共分125个不同类别，随机选取其中的100个作为训练用的可见类别，剩余25个为训练过程中的不可见类别；

TU-Berlin Ext.包含20000张草图和204489张自然图像，共分为250个不同类别，随机选取其中220个作为训练用的可见类别，剩余30个为不可见类别。

为了综合测试跨模态检索网络模型的检索效果，实例中对跨模态检索网络模型进行了传统零样本检索和泛化零样本检索。跨模态检索网络模型进行传统零样本检索时，测试集直接选用不可见类；跨模态检索网络模型进行泛化零样本检索时，在训练集中随机选取不可见类数量的20％的类别，将这些类别加入到不可见类中作为最终的测试集，此时Sketchy数据集的测试集类别为25+25*0.2＝30个，TU-Berlin数据集的测试集类别为30+30*0.2＝36个。

选择以上两个数据集是为了验证跨模态检索网络模型对于不同类型数据集的适应性和鲁棒性，Sketchy和TU-Berlin均包含多个分类，同时，TU-Berlin由于自然图像与草图之间数据量不匹配的缘故，属于非对齐数据对，模型是否适用于非对齐数据检索任务，则可从该数据集上得到基本验证。

步骤2：构造跨模态检索网络模型。本实施例中该模型包括多模态特征提取模块、基于对偶学习的对抗生成模块和基跨模态检索模块；

其中，多模态特征提取模块是该检索问题的基础层，提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练；对于视觉特征的提取，以基于ImageNet进行预训练的VGG16网络作为基础网络，在最后加入注意力机制，提取了512维的视觉表征；对于语义特征的提取，我们结合文本模型和层次模型建立特征选择自动编码器，最终提取了M维的语义特征，在实例中M被设置为64；从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入。

参见图2，所述的基于对偶学习的对抗生成模块包括视觉-语义双向映射网络，将重构的特征和原始特征相比较，通过约束缩短它们的距离来实现跨域对齐，从而减小语义损失，使得模型在泛化零样本检索问题上性能更为强大。通过生成器Generator基于语义特征生成相应的视觉特征；以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间；Generator和Regressor与判别器Discriminator组成生成对抗网络结构。

参见图3、图4，在视觉->语义映射中，本实例Generator(G_sk：S->X和G_im：S->Y)选取了CVAE网络模型，其中编码器Encoder首先基于视觉特征X或Y生成了一个噪声向量k，再将语义特征与相应噪声向量k相结合，作为CVAE模型中解码器Decoder的输入，用于生成语义特征相应的视觉特征X′和Y′；生成的视觉特征通过Regressor再次映射回语义模态，得到相应的语义特征。在训练过程中，样本中的视觉特征X/Y通过Regressor生成相应的语义特征，再通过Generator反向映射回相应视觉空间。

作为基于多模态检索模块的基础模型，G_sk的CVAE训练网络的目标约束被设置为：

在本发明中，G_sk的CVAE的编码器P_E(k|x)基于给定的草图x生成相应的噪声向量k；CVAE中的P_D(x|k，s)基于噪声向量k和源语义特征s生成相应的草图视觉特征；E[*]为均方损失误差损失函数；P(k)是一个单元高斯分布。D_KL(p||q)为KL散度，KL散度又称为相对熵，信息散度，信息增益。KL散度是是两个概率分布q和p差别的非对称性的度量。KL散度是用来度量使用基于q的编码来编码来自p的样本平均所需的额外的位元数。典型情况下，p表示数据的真实分布，q表示数据的理论分布，模型分布，或p的近似分布。KL散度是信息理论一个常见计算量，并不是本发明的改进点，故不再赘述。

对于G_im我们有相似的CVAE训练网络，其目标约束被设置为：

其中，G_im的CVAE的编码器P_E(k|y)基于给定的自然图像y生成相应的噪声向量k；CVAE中的P_D(y|k，s)基于噪声向量k和源语义特征s生成相应的自然图像视觉特征；E[*]为均方损失误差损失函数；P(k)是一个单元高斯分布。

语义特征的特征选择自动编码器结合了特定的文本模型和层次模型，获得的语义表征包含文本侧信息和层次侧信息，两种信息互为补充，使语义特征更具有鲁棒性。

同时，由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息，整个训练过程不需要像素级上成对的多媒体数据对作为训练样本，只需要类别上成对的数据，以减少数据集收集的繁琐度和昂贵成本。

步骤3：构造约束。L_adv，L_cyc，L_cls。其中L_adv确保生成对抗过程中的信息损失以减小“语义鸿沟”问题，在对抗生成学习过程中，引进了以下三个Discriminator，包括D_sk、D_im和D_se：D_sk用于识别源草图特征X和生成的草图特征G_sk(s)，D_sk目标是当输入源草图特征时尽可能输出1，当输入生成草图特征时尽可能输出0，其目标对抗损失函数为：

E[*]为均方误差损失函数。相似的，D_im用于识别源自然图像特征Y和生成的自然图像特征G_im(s)，对于D_im我们设置了与D_sk相似的目标对抗损失函数L_adv(D_im)，即

D_se用于区分源语义特征S和生成的语义特征R_sk(X)和R_im(Y)，其目标对抗损失函数为：

其中λ为超参数，可以通过调试针对不同模型进行修改；E[*]为均方误差损失函数。

L_cyc确保重构生成特征和源特征之间的循环一致性，限制源特征的生成映射能通过生成网络返回原本的模态，以保证生成的语义特征能很好的表示相关的视觉特征，以及包含高判别性语义信息和减少语义损失，对于草图-语义映射，目标循环一致性损失函数被设置为：

E[*]为L1范数损失函数。相似的，对于自然图像-语义映射也设置了循环一致性损失函数，即

其中，E[*]为L1范数损失函数。

L_cls使生成视觉特征尽可能被预训练的分类器分类到源类别上，更具有判别性，对于草图-语义映射，草图分类器基于草图特征x生成的语义特征R_sk(x)和高斯噪声θ得到相应的类别c，然后通过分类损失确保得到的类别c与真实类别一致。分类损失函数被设置为：

其中，E[*]为交叉熵损失函数；相似的，对于自然图像-语义映射也设置了相似的自然图像分类器和分类损失函数：

进一步地，生成对抗训练中Generator和Regressor的总体目标约束为：

生成对抗训练中Discriminator的总体目标约束为

步骤4：训练跨模态检索网络模型。本实例选取Adam作为Generator和Regressor的优化器，其动量被设置为(0.8，0.999)；SGD作为Discriminator的优化器，动量被设置为0.9；所有的初始学习率被设置为0.0001；以及使用ITQ算法将生成的实值语义特征量化为二元特征，用来在哈希设置上检测模型效果。

步骤5：验证模型检索效果。本实例中选取了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.上进行检索，在mAP@all和Precision@100指标上和最近的草图-自然图像跨模态实值算法进行效果评估，mAP是多个查询的平均正确率(AP)的均值，Precision表示的是被识别为正类别的样本中，确实为正类别的比例是多少，它们均从整体上反映模型的检索性能，是信息检索系统常用的评价指标。测试比较结果如下表1；

表1

在mAP@200和Precision@200指标上和最近的草图-自然图像跨模态哈希算法进行效果评估，测试比较结果如下表2：

表2

从表1、表2可以看出，本发明(Our Method)在所有的测试集上均优于现有的方法，在草图-自然图像检索场景中获得了最高的检索准确率。我们注意到Yelamarthi et al.在Sketchy上表现的很好，但是由于TU-Berlin上由于成对样本比较难以获得所以其在TU-Berlin上表现不佳；SEM-PCYC由于运用了cycle-GAN结构和增加了循环一致性损失函数，在生成视觉特征和语义特征时保持了良好的循环一致性，跨模态传统零样本检索和跨模态泛化零样本检索中的效果相对于之前的方法有比较大的提升；然而本发明的方法由于增加了对偶学习的思想，同时对语义->视觉映射增加了循环一致性损失，因此可以生成更具有判别性的语义特征，减少语义损失，获得更好的检索效果。

参见图5，为本实施例在两个数据集上的检索效果图。

剔除相关特定约束和语义模型，选取mAP@all指标上对基于生成对抗网络的跨模态泛化零样本检索方法进行了效果评估，测试结果如下表3，“WO”指特定的约束被剔除出模型训练过程的情况：

表3

从表3可以看出，在语义特征生成网络中，仅仅使用文本模型或者层次模型生成语义特征的效果会低于两种模型的结合效果；另外，我们注意到如果缺少了L_cyc和L_cls，模型的检索效果会大大降低，因为此时模型无法保证生成的语义特征对是匹配的；当缺少L_cyc，相对于完整的模型结构，此时模型的检索效果略有一些下降，但仍然得到了比较好的结果，由此可以看出本发明涉及的网络结构本身具有强大的循环一致性效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，其特征在于，该方法包括以下步骤：

步骤S1：选择训练数据集，对训练数据进行预处理操作，生成视觉特征和语义特征，生成的视觉和语义特征作为构建的跨模态检索网络模型的输入；

步骤S2：构建跨模态检索网络模型，对所述跨模态检索网络模型的网络结构进行设计和构造；

步骤S3：构造约束，对所构建的跨模态检索网络模型设计约束，在之后的网络训练过程中以求生成信息损失最小；

步骤S4：训练所述跨模态检索网络模型，将不同模态视觉特征映射到共享的潜在语义空间中；

步骤S5：验证模型检索效果，获取当剔除相关约束或语义特征模型后，所述跨模态检索网络模型对应检索性能的描述数据；

其中，所述跨模态检索网络模型的网络结构包括多模态特征提取模块、基于对偶学习的对抗生成模块和基于多模态检索模块；

多模态特征提取模块是该检索问题的基础层，提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练；对于视觉特征的提取，以基于ImageNet进行预训练的VGG16网络作为基础网络，在最后加入注意力机制，提取了512维的视觉表征；对于语义特征的提取，结合文本模型和层次模型建立特征选择自动编码器，最终提取了M维的语义特征；从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入；

用X，Y分别表示多模态视觉特征提取模块提取出的两个模态的视觉特征，X为草图视觉特征，Y为自然图像视觉特征；用S表示语义特征提取模块提取出的视觉特征对应的语义特征；

所述基于对偶学习的对抗生成模块包括视觉-语义双向映射网络，将重构的特征和原始特征相比较，通过约束缩短它们的距离来实现跨域对齐，从而减小语义损失，使得所述跨模态检索网络模型在泛化零样本检索问题上性能更为强大，通过生成器Generator基于语义特征生成相应的视觉特征；以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间；Generator和Regressor与判别器Discriminator组成生成对抗网络结构；

在视觉->语义映射中，Generator，包括G_sk：S->X和G_im：S->Y，选取了CVAE网络模型，其中编码器Encoder首先基于视觉特征X或Y生成了一个噪声向量k，再将语义特征与相应噪声向量k相结合，作为CVAE模型中解码器Decoder的输入，用于生成语义特征相应的视觉特征X′和Y′；生成的视觉特征通过Regressor再次映射回语义模态，得到相应的语义特征；在训练过程中，样本中的视觉特征X/Y通过Regressor生成相应的语义特征，再通过Generator反向映射回相应视觉空间；

其中，Regressor就是最终所需要的模型，即多模态视觉特征->语义特征的生成模型，包括R_sk：X->S和R_im：Y->S。

其中，G_sk的CVAE的编码器P_E(k|x)基于给定的草图x生成相应的噪声向量k；CVAE中的P_D(x|k,s)基于噪声向量k和源语义特征s生成相应的草图视觉特征；E[*]为均方损失误差损失函数；P(k)是一个单元高斯分布；D_KL(p||q)为KL散度，KL散度又称为相对熵，信息散度，信息增益，KL散度是是两个概率分布q和p差别的非对称性的度量，KL散度是用来度量使用基于q的编码来编码来自p的样本平均所需的额外的位元数，p表示数据的真实分布，q表示数据的理论分布、模型分布或_p的近似分布；

对于G_im有相似的CVAE训练网络，其目标约束被设置为：

其中，G_im的CVAE的编码器P_E(k|y)基于给定的自然图像y生成相应的噪声向量k；CVAE中的P_D(y|k,s)基于噪声向量k和源语义特征s生成相应的自然图像视觉特征；E[*]为均方损失误差损失函数；P(k)是一个单元高斯分布；

所述多模态检索模块包括通过Regressor将测试集样本映射到语义子空间上，得到相应实值特征或二元特征；以及通过计算两个视觉模态的相似性矩阵得到给定检索目标相应的其他模态数据的匹配情况；

同时，由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息，整个训练过程不需要像素级上成对的多媒体数据对作为训练样本，只需要类别上成对的数据。

2.根据权利要求1所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，其特征在于，所述M被设置为64。

3.根据权利要求2所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，其特征在于，所述步骤1具体为：选取了选择了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.进行实验；

TU-Berlin Ext.包含20000张草图和204489张自然图像，共分为250个不同类别，随机选取其中220个作为训练用的可见类别，剩余30个为不可见类别；

为了综合测试所述跨模态检索网络模型的检索效果，对跨模态检索网络模型进行了传统零样本检索和泛化零样本检索，跨模态检索网络模型进行传统零样本检索时，测试集直接选用不可见类；跨模态检索网络模型进行泛化零样本检索时，在训练集中随机选取不可见类数量的20％的类别，将这些类别加入到不可见类中作为最终的测试集，此时Sketchy数据集的测试集类别为25+25*0.2＝30个，TU-Berlin数据集的测试集类别为30+30*0.2＝36个；

选择以上两个数据集是为了验证跨模态检索网络模型对于不同类型数据集的适应性和鲁棒性。

4.根据权利要求3所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，其特征在于，所述步骤3具体包括：

构造约束L_adv，L_cyc，L_cls，其中L_adv确保生成对抗过程中的信息损失以减小语义鸿沟问题，在对抗生成学习过程中，引进了以下三个Discriminator，包括D_sk、D_im和D_se：D_sk用于识别源草图特征X和生成的草图特征G_sk(s)，D_sk目标是当输入源草图特征时尽可能输出1，当输入生成草图特征时尽可能输出0，其目标对抗损失函数为：

E[*]为均方误差损失函数，D_im用于识别源自然图像特征Y和生成的自然图像特征G_im(s)，对于D_im设置了与D_sk相似的目标对抗损失函数L_adv(D_im)，即

其中λ为超参数，其针对不同模型通过调试进行修改；E[*]为均方误差损失函数；

其中，E[*]为L1范数损失函数。

L_cls使生成视觉特征尽可能被预训练的分类器分类到源类别上，更具有判别性，对于草图-语义映射，草图分类器基于草图特征x生成的语义特征R_sk(x)和高斯噪声θ得到相应的类别c，然后通过分类损失确保得到的类别c与真实类别一致，分类损失函数被设置为：

生成对抗训练中Discriminator的总体目标约束为

5.根据权利要求1-4任意一项所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，其特征在于，所述步骤4具体包括：选取Adam作为Generator和Regressor的优化器，其动量被设置为(0.8，0.999)；SGD作为Discriminator的优化器，动量被设置为0.9；所有的初始学习率被设置为0.0001；以及使用ITQ算法将生成的实值语义特征量化为二元特征，用来在哈希设置上检测所述跨模态检索网络模型效果。

6.根据权利要求5所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法，其特征在于，所述步骤5具体包括：

选取了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.上进行检索，在mAP@all和Precision@100指标上和最近的草图-自然图像跨模态实值算法进行效果评估，mAP是多个查询的平均正确率AP的均值，Precision表示的是被识别为正类别的样本中，确实为正类别的比例是多少，它们均从整体上反映所述跨模态检索网络模型的检索性能。