CN111966883B

CN111966883B - 结合自动编码器和生成对抗网络的零样本跨模态检索方法

Info

Publication number: CN111966883B
Application number: CN202010812271.2A
Authority: CN
Inventors: 徐行; 田加林; 沈复民; 邵杰; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2024-02-23
Anticipated expiration: 2040-08-13
Also published as: CN111966883A

Abstract

本发明公开了一种结合自动编码器和生成对抗网络的零样本跨模态检索方法，属于计算机视觉中的跨模态检索领域。本发明包括：使用预训练的模型提取各个模态的特征；为每个模态的特征构造相应的编码器，并生成相应的低维的潜在嵌入表示，并且对潜在嵌入表示进行跨分布对齐；为每个编码器构造相应的解码器，从低维的潜在嵌入表示重构每个模态的原始特征；构造相应的判别器，评估与生成器生成的特征分布和真实特征分布是否一致，若一致，则结合自动编码器和生成对抗网络联合训练整个网络；在低维的潜在嵌入空间进行零样本跨模态检索。本发明能够实现零样本跨模态检索。

Description

结合自动编码器和生成对抗网络的零样本跨模态检索方法

技术领域

本发明涉及计算机视觉中的跨模态检索领域，尤其涉及一种结合自动编码器和生成对抗网络的零样本跨模态检索方法。

背景技术

随着互联网技术的飞速发展，多模态数据(例如图像，文本，视频和音频)出现了爆炸性增长。由于不同模态之间存在跨模态相关性，跨模态检索成为了研究热点。跨模态检索的基本任务是使用对任一模态的查询数据来检索其他模态的数据，例如，文本图像检索，图像草图检索和视频检索。

然而，跨模态检索面临名叫“异构鸿沟”的主要问题，即查询模态和被查询模态的数据分布是不一致的，因此难以建立模态之间的关系，以及难以衡量模态数据之间的相似性。现在的主流解决办法是学习共享的潜在嵌入空间，通过学习各种线性或非线性变换，以将不同模态的数据投影到嵌入空间得到统一的嵌入表示。这消除了不同模态的不一致性，使得衡量不同模态的数据之间的相似性成为可能。

跨模态检索方法可以被分类为浅层表示学习方法和基于深度学习的方法。浅层表示学习方法所学习的变换通常是线性的和基于统计分析的。这些方法以统计分析的方法建模各个模态数据的特征，以及它们之间的相关关系。通过最大化跨模态的相关关系，浅层表示学习将不同模态的特征投影到学习得到的潜在嵌入空间，消除了不同模态的不一致性问题。

基于深度学习的方法旨在借助深度神经网络在视觉问题上表现出的强大的特征表达能力，以捕获跨模态的非线性关系。基于深度学习的方法通常遵循浅层表示学习方法的流程，即对不同模态构建特定的子网络，并通过联合层将它们进行连接。由联合层所构建的跨模态的潜在嵌入空间捕获了跨模态的非线性关系，提升了整体模型对于复杂多模态分布的关系的分析能力，最终提高了跨模态检索的检索准确率。

然而，传统的跨模态检索方法都假定实际应用时，被查询模态和查询模态所包含了类别与训练模型时所用的类别相同。零样本设置下，这样的假设被放宽到两者不共享同样的类别，即训练时的类别称为可见类，测试时的类别称为不可见类。受到零样本学习领域方法的启发，采用语义空间作为连接可见类和不可见类的桥梁，使得在可见类和不可见类之间迁移知识称为了可能。而语义空间可以很轻易地使用预训练的模型从语料库中提取的类别嵌入来构建，并不大幅增加跨模态检索方法的学习开销。

零样本学习领域的方法通常致力于探索单一模态的数据和类别嵌入之间关系，而零样本跨模态检索不仅要多模态数据带来的“异构鸿沟”问题，还要解决可见类和不可见类带来的语义不一致的问题。最近提出的一些零样本跨模态检索方法通常直接将零样本学习方法应用到多模态检索领域，模型中包含了许多与检索任务不相关的部分，并没有考虑这些方法与检索任务的适应性。

发明内容

本发明的目的是提供一种结合自动编码器和生成对抗网络的零样本跨模态检索方法，能够实现零样本跨模态检索。

本发明解决其技术问题，采用的技术方案是：结合自动编码器和生成对抗网络的零样本跨模态检索方法，包括如下步骤：

步骤1、使用预训练的模型提取各个模态的特征；

步骤2、为每个模态的特征构造相应的编码器，并生成相应的低维的潜在嵌入表示，并且对潜在嵌入表示进行跨分布对齐；

步骤3、为每个编码器构造相应的解码器，从低维的潜在嵌入表示重构每个模态的原始特征；

步骤4、构造相应的判别器，评估与生成器生成的特征分布和真实特征分布是否一致，若一致，则进入步骤5；

步骤5、结合自动编码器和生成对抗网络联合训练整个网络；

步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。

进一步的是，步骤1中，所述模态为两种模态。

进一步的是，步骤2、3和4具体包括如下步骤：

a、为两种模态的数据分别构造一个自动编码器和一个生成对抗网络，其中自动编码器的解码器和生成对抗网络的生成器共享参数；

b、为两种模态所共享的类别标签嵌入构造一个自动编码器；

c、三个自动编码器为一组，每个编码器将对应模态的原始数据编码为潜在嵌入特征，然后每个解码器重构出相应的原始数据，通过最小化重构信息误差和跨分布对齐，联合构建跨模态的潜在嵌入空间；

d、两个耦合的自动编码器和生成对抗网络为一组，判别器通过对抗性损失评估各个模态的重构特征分布的真实性，间接引导潜在嵌入特征的学习；

e、线性加权自动编码器和生成对抗网络的损失函数以构成整体模型的总损失函数，并以对抗式的训练方法训练整个模型。

进一步的是，步骤c中，所述跨分布对齐的方法包括：

采用最大均值差异作为度量标准，衡量成对的多模态数据对应的潜在嵌入表示的分布的相似性；以及，

采用最小均方误差作为度量标准，衡量实例级的模态潜在嵌入表示之间差异，提供更加细腻度的嵌入引导。

进一步的是，步骤d中，两个耦合的自编码器和生成对抗网络通过共享解码器和生成器的参数而结合在一起，形成两个平行的数据通路，用于联合学习模态潜在嵌入表示、特征重构和分布的真实性的评估。

进一步的是，步骤e具体为：通过超参数加权重构信息损失，分布判别损失和跨分布对齐损失，并通过调节超参数来调节三者的贡献，最终采用生成对抗网络的对抗式训练方法，通过随机梯度下降更新整体网络的参数。

进一步的是，步骤6具体包括如下步骤：

步骤601、对于查询模态和被查询模态的数据，使用相同的预训练模型提取其特征；

步骤602、将提取的特征向量输入训练好的网络，得到各自模态的潜在嵌入表示；

步骤603、在潜在嵌入空间中，计算所有成对的查询模态的实例和被查询模态的实例之间的相似度，并进行排序，相似度最大的结果所对应的被查询模态实例即为查询模态实例所要检索的目标。

本发明的有益效果是，通过上述结合自动编码器和生成对抗网络的零样本跨模态检索方法，通过耦合的自动编码器和生成对抗网络联合学习共享的潜在嵌入空间，原始模态特征的重构和重构特征分布真实性的评估，并且，由于使用自动编码器学习潜在嵌入空间而不是直接使用类别嵌入空间作为共享的空间，这使得可见类和不可见类之间的知识迁移更加有效，并且对抗式训练更加稳定。最终，查询模态和被查询模态的数据输入到训练好的网络，获得嵌入表示，实现零样本跨模态检索。

附图说明

图1为本发明结合自动编码器和生成对抗网络的零样本跨模态检索方法的流程图；

图2为本发明实施例1中由各个模态的自动编码器组成的框架以及跨分布对齐的示意图；

图3为本发明实施例1中由两个生成对抗网络组成的框架的示意图；

图4为本发明实施例1中耦合自动编码器和生成对抗网络的整体框架图。

具体实施方式

下面结合附图及实施例，详细描述本发明的技术方案。

本发明提出的一种结合自动编码器和生成对抗网络的零样本跨模态检索方法，其流程图见图1，其中，该方法包括如下步骤：

步骤1、使用预训练的模型提取各个模态的特征。

步骤2、为每个模态的特征构造相应的编码器，并生成相应的低维的潜在嵌入表示，并且对潜在嵌入表示进行跨分布对齐。

步骤3、为每个编码器构造相应的解码器，从低维的潜在嵌入表示重构每个模态的原始特征。

步骤4、构造相应的判别器，评估与生成器生成的特征分布和真实特征分布是否一致，若一致，则进入步骤5。

步骤5、结合自动编码器和生成对抗网络联合训练整个网络。

步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。

其中，步骤6具体可以包括如下步骤：

这里，首先将不同模态的数据通过预训练的模型提取各个模态的特征，然后通过编码器投影到共享的低维嵌入空间，在通过参数共享的解码器和生成器对模态嵌入进行重构，最后通过判别器评估生成的特征的真实性，整个网络经过训练后进行跨模态检索。

并且，利用一种耦合自动编码器和生成对抗网络的网络结构，结合了自动编码器学习低维表示的优点和生成对抗网络的对抗式训练的优点，联合学习共享的潜在嵌入空间，原始模态特征的重构和重构特征分布的真实性评估。

另外，采用自动编码器学习潜在嵌入空间而不是直接使用类别嵌入空间作为共享的空间，这使得可见类和不可见类之间的知识迁移更加有效，并且对抗式训练更加稳定。

上述方法中，模态一般来说存在多种，例如图像、文本、视频和音频等，实际应用中，可以任意选取两种模态。

并且，步骤2、3和4具体可以包括如下步骤：

a、为两种模态的数据分别构造一个自动编码器和一个生成对抗网络，其中自动编码器的解码器和生成对抗网络的生成器共享参数。

b、为两种模态所共享的类别标签嵌入构造一个自动编码器。

c、三个自动编码器为一组，每个编码器将对应模态的原始数据编码为潜在嵌入特征，然后每个解码器重构出相应的原始数据，通过最小化重构信息误差和跨分布对齐，联合构建跨模态的潜在嵌入空间。

其中，跨分布对齐的方法包括：

采用最大均值差异作为度量标准，衡量成对的多模态数据对应的潜在嵌入表示的分布的相似性；以及，采用最小均方误差作为度量标准，衡量实例级的模态潜在嵌入表示之间差异，提供更加细腻度的嵌入引导。

这里，同时应用两种跨分布对齐方法，同时衡量各个模态嵌入之间的分布差异和实例级的差异，使得不同模态的同类数据的嵌入表示更加相近而紧凑。

d、两个耦合的自动编码器和生成对抗网络为一组，判别器通过对抗性损失评估各个模态的重构特征分布的真实性，间接引导潜在嵌入特征的学习。

其中，两个耦合的自编码器和生成对抗网络通过共享解码器和生成器的参数而结合在一起，形成两个平行的数据通路，这里，能够联合学习模态潜在嵌入表示、特征重构和分布的真实性的评估。

其中，可以通过超参数加权重构信息损失，分布判别损失和跨分布对齐损失，并通过调节超参数来调节三者的贡献，最终采用生成对抗网络的对抗式训练方法，通过随机梯度下降更新整体网络的参数。

这里，通过贡献编码器和生成器的参数，耦合的自动编码器和生成对抗网络结合两者的学习低维嵌入表示和学习分布的优点，联合学习潜在嵌入表示，原始模态特征的重构和重构特征分布真实性的评估。由于使用自动编码器学习潜在嵌入空间而不是使用类别嵌入空间作为共享的空间，这使得可见类和不可见类之间的知识迁移更加有效，并且对抗式训练更加稳定。通过将多模态数据投影到共享的潜在嵌入空间，建立多模态数据之间的关系及衡量它们的相似性，“异构鸿沟”问题得以解决。

为了保证同类的多模态数据在潜在嵌入空间保持一致性，采用两种跨分布对齐的方法，最大均值差异衡量成对的多模态嵌入表示的分布的相似性，最小均方误差衡量模态嵌入表示之间的实例级的差异。综合以上两种跨分布对齐方式，使得不同模态的同类数据的嵌入表示更加相近而紧凑，以提升检索的准确率。

实施例1

本发明是一种结合自动编码器和生成对抗网络的零样本跨模态检索方法，先提取训练用的特征，再构建整体模型，经过训练后用于跨模态检索，本实施例中，主要包括步骤S1-步骤S6。

步骤S1：使用预训练的模型提取各个模态的特征。

本实施例包含三种模态的数据，分别是图像，文本和类别标签。它们的原始数据的表现形式为人类所能够理解的方式，但对计算机的理解能力却不足以处理原始数据。因此，使用预训练模型从原始数据提取出计算机所能处理和理解的特征。

对于图像数据，本实施例采用VGG-16模型提取4096维的图像特征。对于文本数据，本实施例采用Doc2Vec模型提取300维的文本特征。对于类别标签数据，本实施例采用Word2Vec模型提取300维的类别嵌入。经过提取得到的特征

步骤S2:为每个模态的特征构造相应的编码器，并生成相应的低维的潜在嵌入表示，并且对潜在嵌入表示进行跨分布对齐。

本实施例为每个模态分别构建一个编码器，以将不一致的多模态特征投影到共享的潜在嵌入空间，获得具有一致性的潜在嵌入表示。为了消除“异构鸿沟”和语义的不一致性，本实施例采用跨分布对齐引导潜在嵌入表示的学习。通过最小化潜在嵌入的分布差异和实例级的差异，为同类的不同模态特征生成更加相近而紧凑的潜在嵌入表示。

步骤S3：为每个编码器构造相应的解码器，从低维的潜在嵌入表示重构每个模态的原始特征。

对应于每一个编码器，本实施例为每个模态分别构建一个解码器，以将模态潜在嵌入表示重构为模态特征，并通过最小化重构信息损失，使得重构的特征和模态特征差异变小。

如图2所示，步骤S2和步骤S3共同构造了三个多模态的自动编码器，它们组成的框架建立了跨模态的相关关系。重构信息损失衡量每个模态特征和重构特征之间的平均欧式距离，其目标函数表示如下：

其中v表示图像特征，t表示文本特征，c表示语义嵌入。当自动编码器在学习到模态间所共享的信息的同时，也要尽可能地保留更多的利于重构的信息，以最小化重构信息损失。

本实施例共同应用两种跨分布对齐方法：第一种跨分布对齐方法采用最大均值差异作为度量标准，衡量成对的图像嵌入表示的分布和文本嵌入表示的分布的相似性。其优化的目标函数如下：

其中MMD是最大均值差异的英文缩写，常用于度量源域和目标域之间的距离。其值越小，源域和目标域越相近。s^v代表图像嵌入表示，s^t代表文本嵌入表示，表示图像编码器所生成的图像嵌入表示的分布，/>表示文本编码器所生成的文本嵌入表示的分布。H_K表示再生希尔伯特空间，K表示径向基函数。而且，再生希尔伯特空间H_K是由多个径向基函数K线性组合而构建的，其公式表示如下：

其中σ_n控制高斯核的带宽，η_n控制各个高斯核的加权系数，使用线性组合的径向基函数可以更加准确地衡量源域和目标域的差异。

第二种跨分布对齐方法采用最小均方误差作为度量标准，衡量实例级的模态潜在嵌入表示之间差异，提供更加细腻度的嵌入引导。其目标公式如下：

其中s^v代表图像嵌入表示，s^t代表文本嵌入表示，s^c代表类别嵌入表示。与最大均值差异不同，最小均方误差额外衡量了类别嵌入表示和其他两种表示之间的差异，这引导自动编码器将图像特征和文本特征嵌入到类别嵌入表示的附近，使得同类但不同模态的嵌入表示更加紧凑。

结合最大均值差异和最小均方误差，其目标函数表示如下：

步骤S4：构造相应的判别器，评估与生成器生成的特征分布和真实特征分布是否一致。

对于每一个解码器，可以看作是生成对抗网络中生成器，其输入是各个模态嵌入表示，输出是各个模态的原始特征。通过将解码器和生成器参数共享，本实施例为图像和文本分别构建了一个解码器，组成了生成对抗网络。如图3所示，类别嵌入表示被重构为类别嵌入特征，无需进一步输入至判别器。借助生成对抗网络拟合数据分布的能力，本实施例将生成器训练为既能重构出欧式距离较小的模态特征，也能捕获各个模态特征内在的分布。值得注意的是，本实施例中的判别器为条件判别器，即输入是串联后的类别嵌入特征和模态特征，即如图4所示。

以图像模态的生成对抗网络为例，其目标函数如下所示：

其中WGAN表示优化Wasserstein距离的生成对抗网络，是一个训练更加稳定的生成对抗网络。P_v表示图像特征的真实分布，是由图像特征生成器所生成的特征的分布。

是真实特征和生成特征的线性插值，其中α服从0和1之间的均匀分布。公式(6)的前两项近似优化真实特征分布和生成特征分布的Wasserstein距离，最后一项是梯度惩罚项，使得真实特征和生成特征之间的线性插值的导数的二范数为1，以稳定生成对抗网络的训练。

同理，文本模态的生成对抗网络的目标函数如下：

综上所述，由图像模态的生成对抗网络和文本模态的生成对抗网络的损失函数加和，组成生成对抗网络框架的损失函数：

步骤S5：结合自动编码器和生成对抗网络联合训练整个网络。

如图4所示，通过共享解码器和生成器的参数，本实施例耦合自动编码器和生成对抗网络，构成完整的网络框架。它的输入是各个模态的原始特征，经过潜在嵌入学习、跨分布对齐、最小化重构信息损失和最小化判别损失，完成整个网络的训练。因此，整个框架的目标函数如下：

其中β₁和β₂是判别损失和跨分布对齐损失的加权系数，用于控制两者对于整个网络框架的贡献程度。

因此，优化生成器和解码器的目标函数如下：

优化判别器的目标函数如下：

优化编码器的目标函数如下：

步骤S6:在低维的潜在嵌入空间进行跨模态检索。

这个步骤可以再详细划分为3个步骤：

步骤S61：对于查询模态和被查询模态的数据，使用相同的预训练模型提取其特征；

步骤S62：将提取的特征向量输入训练好的网络，得到各自模态的潜在嵌入表示；

步骤S63：在潜在嵌入空间中，计算所有成对的查询模态的实例和被查询模态的实例之间的相似度，并进行排序。相似度最大的结果所对应的被查询模态实例即为查询模态实例所要检索的目标。

实施例2

本实施例在实施例1的基础上，进行实验验证。本实施例采用跨模态检索领域的四个主流数据集为训练和测试的数据集，分别是Wikipedia,Pascal Sentence,NUS-WIDE,PKU-XMedieaNet。它们都包含图像模态的数据、文本模态的数据和类别标签，用于图像-文本检索任务。在实验中，本实施例采用平均正确率的均值(MAP)作为评估的标准，检验实施例3在图像到文本的检索任务、文本到图像的检索任务上的性能，并报告它们的均值作为最终的性能评估，反映整体模型的检索性能。

Wikipedia由10个类别的2866个图像/文本对构成，Pascal Sentence包含20个类别的1000个图像/文本对，NUS-WIDE包含10个类别的71602个图像/文本对，PKU-XMediaNet有200个类别的40000个图像/文本对。在数据集的划分上，为了和前人的工作进行公平的比较，本实施例保持相同的设置，将一半的类别作为可见类用于训练，另外一般的类别作为不可见类用于测试。

实验结果如表1和表二所示。观察实验数据可知，本发明在所有数据集上取得了最好的结果或具有可比性的结果。具体而言，本发明在Pascal Sentences和NUS-WIDE取得很大的提升，比最新的对比算法LCALE分别高了2.1％和1.8％。在Wikipedia上，本发明依旧取得了最好的结果，在LCALE的基础上提高了0.8％。在PKU-XMediaNet上，本发明虽然只取得了排名第二的结果，但比排名第三的TANSS提高1.6％。以上结果说明本发明对于检索任务的有效性。

表1

表2

Claims

1.结合自动编码器和生成对抗网络的零样本跨模态检索方法，其特征在于，包括如下步骤：

步骤1、使用预训练的模型提取各个模态的特征；

步骤5、结合自动编码器和生成对抗网络联合训练整个网络；

步骤6、在低维的潜在嵌入空间进行零样本跨模态检索；

步骤2、3和4具体包括如下步骤：a、为两种模态的数据分别构造一个自动编码器和一个生成对抗网络，其中自动编码器的解码器和生成对抗网络的生成器共享参数；b、为两种模态所共享的类别标签嵌入构造一个自动编码器；c、三个自动编码器为一组，每个编码器将对应模态的原始数据编码为潜在嵌入特征，然后每个解码器重构出相应的原始数据，通过最小化重构信息误差和跨分布对齐，联合构建跨模态的潜在嵌入空间；d、两个耦合的自动编码器和生成对抗网络为一组，判别器通过对抗性损失评估各个模态的重构特征分布的真实性，间接引导潜在嵌入特征的学习；e、线性加权自动编码器和生成对抗网络的损失函数以构成整体模型的总损失函数，并以对抗式的训练方法训练整个模型；

所述模态为图像、文本、视频和音频中任意选取两种模态。

2.根据权利要求1所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法，其特征在于，步骤c中，所述跨分布对齐的方法包括：采用最大均值差异作为度量标准，衡量成对的多模态数据对应的潜在嵌入表示的分布的相似性；以及，采用最小均方误差作为度量标准，衡量实例级的模态潜在嵌入表示之间差异，提供更加细腻度的嵌入引导。

3.根据权利要求1所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法，其特征在于，步骤d中，两个耦合的自编码器和生成对抗网络通过共享解码器和生成器的参数而结合在一起，形成两个平行的数据通路，用于联合学习模态潜在嵌入表示、特征重构和分布的真实性的评估。

4.根据权利要求1所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法，其特征在于，步骤e具体为：通过超参数加权重构信息损失，分布判别损失和跨分布对齐损失，并通过调节超参数来调节三者的贡献，最终采用生成对抗网络的对抗式训练方法，通过随机梯度下降更新整体网络的参数。

5.根据权利要求1所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法，其特征在于，步骤6具体包括如下步骤：步骤601、对于查询模态和被查询模态的数据，使用相同的预训练模型提取其特征；步骤602、将提取的特征向量输入训练好的网络，得到各自模态的潜在嵌入表示；步骤603、在潜在嵌入空间中，计算所有成对的查询模态的实例和被查询模态的实例之间的相似度，并进行排序，相似度最大的结果所对应的被查询模态实例即为查询模态实例所要检索的目标。