CN110990595B

CN110990595B - 一种跨域对齐嵌入空间的零样本跨模态检索方法

Info

Publication number: CN110990595B
Application number: CN201911228649.8A
Authority: CN
Inventors: 徐行; 张明; 林凯毅; 杨阳; 沈复民; 贾可; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-05-05
Anticipated expiration: 2039-12-04
Also published as: CN110990595A

Abstract

本发明涉及跨模态检索技术领域，具体的说，是一种跨域对齐嵌入空间的零样本跨模态检索方法。所述的零样本跨模态检索方法先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间，然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束，经过整个网络训练后进行跨模态检索。本发明利用一个多模态变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间而不是直接使用类别嵌入作为语义空间，并且避免了使用难以稳定训练的对抗生成网络，同时解决了“异构鸿沟”的问题。

Description

一种跨域对齐嵌入空间的零样本跨模态检索方法

技术领域

本发明属于跨模态检索技术领域，具体地说，涉及一种在多种媒体类型的数据之间进行检索的方法。

背景技术

跨媒体检索是指用户通过输入任意媒体类型的查询数据，检索出所有媒体类型中的语义相关数据。随着互联网中文本、图像、视频等多媒体数据的日益增多，跨越不同模态的检索成为信息检索的新趋势。零样本跨模态检索的目标是在未见过的新的类别数据上进行跨模态检索。

“异构鸿沟”问题导致不同媒体类型的数据分布和特征表示之间存在不一致性，因此难以直接度量多种媒体数据之间的相似性。现有方法的解决思路通常是建立一个共同子空间，将不同媒体类型的异构数据映射到这个共同子空间中得到统一表征，进而通过常用的距离度量方法来直接计算不同媒体数据之间的相似性，实现跨模态交叉检索。主要有两类方法：跨模态检索的传统方法、深度学习方法。

1)跨模态检索的传统方法：传统方法主要通过统计分析的方式学习映射矩阵，通过分析不同模态数据特征之间的关联关系，学习一个能够最大化成对相关性的共同空间，将不同模态的特征映射到这个共同空间得到相同维度的向量表示，实现跨模态的统一表征。

2)跨模态检索的深度学习方法：这些方法旨在利用深度神经网络对非线性关系的抽象能力，促进跨模态关联分析和统一表征学习。现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系，有效提升对复杂跨模态关联的分析能力，以提高跨模态统一表征的检索准确率。

目前零样本跨模态检索采用的方法主要受到零样本学习的启发，从语料库中提取类别嵌入来构建语义空间，让知识从已知类迁移到新的未见过的类别数据。这些方法通常采用对抗生成网络来生成共同嵌入空间，以获取不同模态数据的异构分布和特征表示。

现有的这类零样本学习方法通常用来解决传统的分类问题，在跨模态检索问题上并没有进行优化，对抗生成网络在训练时也常常不稳定。

发明内容

本发明的目的在于克服现有技术的不足，提供一种跨域对齐嵌入空间的零样本跨模态检索方法，以多模态的变分自动编码器对不同模态和类别嵌入在低维的潜在嵌入空间进行编码，避免了直接使用类别嵌入作为语义空间和对抗生成网络训练的不稳定性，同时，通过两个并行的跨域对齐方案使不同模态数据的潜在嵌入在潜在嵌入空间里强制对齐，由变分自动编码器使知识迁移到新的未见过的类别数据上，实现了零样本检索。

本发明通过下述技术方案实现：一种跨域对齐嵌入空间的零样本跨模态检索方法，先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间，然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束，经过整个网络训练后进行跨模态检索。

进一步，本发明在采用循环一致性约束机制进行循环一致性约束时，构建了回归器将不同模态数据的潜在嵌入映射到类别嵌入空间。

一种跨域对齐嵌入空间的零样本跨模态检索方法，具体包括以下步骤：

步骤S1：提取多模态数据特征；

步骤S2：构造变分自动编码器，在低维的潜在嵌入空间生成潜在嵌入，并采用跨模态重构机制进行数据重构；

步骤S3：在潜在嵌入空间，对重构后的不同模态数据采用跨域对齐机制进行跨域对齐；

步骤S4：构造回归器，将不同模态数据各自的潜在嵌入映射到共享的类别嵌入空间中，采用循环一致性约束机制进行循环一致性约束；

步骤S5：对整个网络进行训练；

步骤S6：跨模态检索数据。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：为两个同一类别不同的模态数据和共享的类别标签嵌入各自构造一个变分自动编码器；

步骤S22：三个变分自动编码器为一组，共同组合构建一个多模态的变分自动编码器架构；同一组的三个变分自动编码器分别对应同一类别的A模态数据、B模态数据、A模态数据与B模态数据共享的类别标签嵌入；

步骤S23:每一个模态数据的变分自动编码器将本模态数据编码映射到潜在嵌入空间然后通过解码器将这些潜在嵌入解码重构回原本的模态，为每一个模态定义一个计算重构损失的损失函数来约束重构过程，以求重构信息损失最小；同时，重构回跨域的相同类别下的其他模态数据；

步骤S24：将三个变分自动编码器各自的损失函数线性相加构成多模态变分自动编码器的总损失。

进一步地，所述步骤S3中构建两个并行的跨域对齐方案；

跨域对齐方案一为将共享的类别标签嵌入作为将成对多模态数据潜在嵌入的多元高斯模型分布进行对齐的桥梁；采用2-Wasserstein距离作为两个模态分布之间的对齐准则；

跨域对齐方案二为通过成对模态潜在嵌入之间的最大均值差异来衡量。

进一步地，所述步骤S4具体是指：在两个模态的变分自动编码器后各构建一个回归器将两个模态各自的潜在嵌入映射到共享的类别嵌入空间中，与共享的类别嵌入比较，采用循环一致性约束机制进行循环一致性约束。

进一步地，所述步骤S5具体是指：定义整个网络的损失函数为网络各个子部分损失函数的线性相加结果，采用随机梯度下降算法对网络结构里的编码器、解码器和回归器的参数进行训练。

进一步地，所述步骤S6具体包括以下步骤：

步骤S61：对一个给定模态的数据，提取其特征向量；

步骤S62：将提取的特征向量输入训练好的网络，映射到潜在嵌入空间；

步骤S63：计算潜在嵌入空间中其他模态数据变量与此检索目标变量的相似性，进行排序，相似性最大的变量对应的原始模态数据为检索结果，即与检索目标属于同一类别的其他模态。

本发明与现有技术相比，具有以下优点及有益效果。

(1)本发明利用一个多模态变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间而不是直接使用类别嵌入作为语义空间，并且避免了使用难以稳定训练的对抗生成网络，同时解决了“异构鸿沟”的问题。

(2)本发明中设计跨模态重构机制，将共同潜在嵌入空间里的多模态数据重构成相同类别下其他模态的表示，使得嵌入空间能够获取跨模态的共同信息。

(3)本发明构建了两个并行的跨域对齐机制，使潜在嵌入分布强制对齐，增强了相同类别不同模态数据在潜在嵌入空间的语义一致性，并且让知识迁移到了新的未见过的类别数据上，实现了零样本检索。

(4)本发明所述的网络还构建了回归器将不同模态数据的潜在嵌入映射到类别嵌入空间，增强了类别嵌入重构的鲁棒性，进一步提高了不同模态的语义一致性，提升了零样本检索的准确度。

附图说明

图1是本发明跨域对齐嵌入空间的零样本跨模态检索方法一种具体实施方式流程图。

图2是潜在嵌入空间跨模态重构示意图。

图3是在嵌入空间跨域对齐的一个说明图。

图4是在嵌入空间跨域对齐的另一个说明图。

图5是构造回归器建立循环一致性约束结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，所描述的实施例是本发明一部分实施例，而不是全部的实施例，也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1-图5所示，一种跨域对齐嵌入空间的零样本跨模态检索方法，先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间，然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束，经过整个网络训练后进行跨模态检索。

本实施例中，利用一个多模态变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间而不是直接使用类别嵌入作为语义空间，并且避免了使用难以稳定训练的对抗生成网络。而且，不同模态的数据具有不同特征表示，存在“异构鸿沟”，难以直接度量相似性，数据经过编码器编码到同一个共同嵌入空间，嵌入空间里各个模态的数据应该具有相同的特征维度以消除“异构鸿沟”，并且映射要尽量保持不同模态映射到嵌入空间的数据分布保持一致。本实施例利用变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间，以解决“异构鸿沟”的问题。

本实施例的一个核心内容在于在嵌入空间构建的两种跨域对齐机制，以确保相同类别的不同模态在嵌入空间的一致性。为处理零样本跨模态检索问题，将不同模态数据和类别标签一起通过变分自动编码器映射到嵌入空间而不是将类别标签作为语义空间，同时采用跨模态重构，跨域对齐，循环一致性约束机制的网络结构正是本发明的独特之处。

实施例2：

步骤S1：提取多模态数据特征；

步骤S5：对整个网络进行训练；

步骤S6：跨模态检索数据。

实施例3：

一种跨域对齐嵌入空间的零样本跨模态检索方法，先构建训练用的模型，然后对整个网络进行训练，再进行跨模态检索，主要包括步骤S1-步骤S6。

步骤S1：提取多模态数据特征。

多模态的数据包含图像、文本等，这些原始数据以人类接受的方式表示，但是计算机并不能直接处理，需要将他们的特征提取出来，以计算机能够处理的数字表示。

对于图像和简笔画，运用卷积神经网络VGG进行特征提取；对于类别标签嵌入，运用Word2Vec进行特征提取；对于文本，运用Doc2vec进行特征提取。这些数据经过特征提取之后都以向量的形式存在。

步骤S2：构造变分自动编码器，在低维的潜在嵌入空间生成潜在嵌入，并采用跨模态重构机制进行数据重构。

本实施例中将三个分别对应两种模态数据和一个类别标签嵌入的变分自动编码器组合构建一个多模态变分自动编码器架构来学习一个不同模态共同的潜在嵌入空间。而且每一个模态数据的变分自动编码器将本模态数据编码映射到潜在嵌入空间然后通过解码器解码这些潜在嵌入并以最小的信息损失重构回原始数据表示。最终，将这三个变分自动编码器各自的损失函数线性相加构成多模态变分自动编码器的总损失。

具体内容如下：

步骤S21：为两个同一类别不同的模态数据和共享的类别标签嵌入各自构造一个变分自动编码器。

步骤S22：三个变分自动编码器为一组，共同组合构建一个多模态的变分自动编码器架构。同一组的三个变分自动编码器分别对应同一类别的A模态数据、B模态数据、A模态数据与B模态数据共享的类别标签嵌入。

每一个变分自动编码器包含两部分：编码器和解码器。

编码器是一个神经网络，将提取的数据特征映射成低维的潜在变量。

解码器也是一个神经网络，将低维的潜在变量解码重构回与原始数据特征尽可能接近的表示。

为了找到潜在变量的正确分布，在变分自动编码器中引入了变分推理方法。由于这个分布比较棘手，所以用最接近它的后验代理来逼近，使用变分下界来最小化其距离。所以，使用输入数据的边际似然估计下界作为目标损失函数。

目标损失函数为：

其中，

为重构损失；

为KL散度，用来计算编码器生成的潜在变量的分布和多元高斯模型的先验分布之间的差异。

KL散度又称为相对熵，信息散度，信息增益。KL散度是两个概率分布q和p差别的非对称性的度量。KL散度是用来度量使用基于q的编码来自p的样本平均所需的额外的位元数。典型情况下，p表示数据的真实分布，q表示数据的理论分布，模型分布，或p的近似分布。KL散度是信息理论一个常见计算量，并不是本发明的改进点，故不再赘述。

多模态变分自动编码器的总损失函数为：

其中，

为多模态变分自动编码器的损失；

上标m代表不同模态。

多模态变分自动编码器的损失包括重构损失、编码器生成的潜在变量的分布和多元高斯模型的先验分布之间的KL散度。

如图2所示，多模态变分自动编码器将多模态共享的潜在嵌入空间里的数据重构时，不仅将数据重构回各自原本的模态数据，同时重构回跨域的相同类别下的其他模态数据。使得相同类别的数据即使来自不同模态在潜在嵌入空间里也保持语义一致性。

所以多模态跨域对齐损失函数为：

其中，m、n代表不同模态；

E_m(·)代表模态m的编码器；

D_n(·)代表模态n的解码器。

将模态m的原始表示用模态m的编码器生成潜在嵌入，再用模态n将这个生成的潜在嵌入重构到模态n，与同一类别的原始模态n数据表示相比较，通过缩短他们之间的距离来实现跨域对齐。

步骤S3：在潜在嵌入空间，对重构后的不同模态数据采用跨域对齐机制进行跨域对齐。

如图3中加粗虚线标记所示的跨域对齐1、如图4中加粗虚线标记所示的跨域对齐2，构建两个并行的跨域对齐方案，保证不同模态的潜在嵌入在共享的潜在嵌入空间中一致，增强了相同类别不同模态数据在潜在嵌入空间的语义一致性，并且让知识迁移到了新的未见过的类别数据上，实现了零样本检索。

跨域对齐方案一将共享的类别标签嵌入作为将成对多模态数据潜在嵌入的多元高斯模型分布进行对齐的桥梁。采用2-Wasserstein距离作为两个模态分布之间的对齐准则。

Wessertein距离相比KL散度和JS散度的优势在于：即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而JS散度在此情况下是常量，KL散度可能无意义。Wessertein距离和KL散度一样，也是一个测度而已，属于现有技术，而非本发明提出的改进点，故不再赘述。

Wasserstein距离度量两个概率分布之间的距离，模态m和模态n之间的2-Wasserstein距离定义如下：

其中，μ为后验高斯分布的期望值；

||·||_F为Frobenius范数。

最终，方案一的跨域对齐由距离

进行距离约束：

其中，w_uc为图像image和类别嵌入class embedding之间的距离；

w_tc为文本text和类别嵌入class embedding之间的距离。

方案一是通过将类别标签嵌入作为桥梁来间接构建两个模态之间的关联的，所以又采用方案二，通过成对模态潜在嵌入之间的最大均值差异来衡量，以直接明确地增强两种模态之间的语义相关性。

成对模态潜在嵌入之间的最大均值差异记为：

其中，p和q为不同模态z(v)和z(t)的潜在嵌入的分布；

k是特征映射；

是这个映射生成的再生希尔伯特空间。

步骤S4:构造回归器建立循环一致性约束。

即，构造回归器，将不同模态数据各自的潜在嵌入映射到共享的类别嵌入空间中，采用循环一致性约束机制进行循环一致性约束。

在两个模态的变分自动编码器后各构建一个回归器将两个模态各自的潜在嵌入映射到共享的类别嵌入空间中。如图5所示，与共享的类别嵌入比较，进一步增强同一类别不同模态在潜在嵌入空间里的语义一致性。

回归器利用循环一致性约束增强了本方法的鲁棒性。循环一致性约束为：

其中，R_υ、R_t代表模态υ和模态t的回归器；

x^(c)为类别嵌入。

步骤S5：对整个网络进行训练。

定义整个网络的损失函数为网络各个子部分损失函数的线性相加结果，采用随机梯度下降算法对网络结构里的编码器、解码器和回归器的参数进行训练，整个网络的损失函数其数学表示如下：

其中，

为多模态变分自动编码器的损失；

为跨模态重构损失；

为两个跨域对齐方案的损失；

为回归器上的循环一致性约束损失；

α、β、λ、γ作为超参数来平衡各个分部损失函数的权重。

整个网络的损失函数反映模型得到结果和实际结果之间的差异，用来衡量模型预测的好坏。

步骤S6：跨模态检索数据。

步骤S61：对一个给定模态的数据，如一段文本或者一张素描图，提取其特征向量；

实施例4：

本实施例在实施例2或实施例3的基础上，进一步优化，采用MAP指标来评估我们的模型。MAP是多个查询的平均正确率(AP)的均值，从整体上反映模型的检索性能，是信息检索系统常用的评价指标。

在四个广泛使用的跨模态检索数据集Wikipedia、Pascal Sentence、NUS-WIDE、PKU-XMediaNet上测试本发明在图片-文字检索场景的效果。Wikipedia包含10个类别的2866个图像/文本对，选取5个类别作为已见过类，5个作为未见过类；Pascal Sentence包含20个类别的1000个图像/文本对，选取10个类别作为已见过类，10个作为未见过类；NUS-WIDE包含10个类别的70000个图像/文本对，选取5个类别作为已见过类，5个作为未见过类；PKU-XMediaNet包含200个类别的40000个图像/文本对，选取100个类别作为已见过类，100个作为未见过类；测试比较结果如下表1所示：

表1

在数据集Sketchy(Extended)上测试本发明在图像-简笔画检索场景的效果。这个数据集包含125个类别的73002张图片和75471张简笔画，选取100个类别作为已见过类，25个作为未见过类；测试比较结果如下表2所示：

表2

从表1、表2可以看出，本发明在所有的测试集上均优于现有的方法。

我们的发明在图像-文本检索场景中获得了最高的检索准确率。在Wikipedia数据集上，我们相较于之前的最好方法的准确率提升了21.5％，在Pascal Sentence数据集上的准确率相较于之前的最好方法提高了15.3％，在大规模数据集NUS-WIDE和PKU-XMediaNet也获得了较大的提升。在图像-简笔画检索场景中我们相较于之前最好方法的准确率提升了36.3％。我们的方法有效地提升了零样本跨模态检索的准确率。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种跨域对齐嵌入空间的零样本跨模态检索方法，其特征在于：先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间，然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束，经过整个网络训练后进行跨模态检索；

所述跨域对齐嵌入空间的零样本跨模态检索方法具体包括以下步骤：

步骤S1：提取多模态数据特征；

所述步骤S2具体包括以下步骤：

步骤S23：每一个模态数据的变分自动编码器将本模态数据编码映射到潜在嵌入空间然后通过解码器将这些潜在嵌入解码重构回原本的模态，为每一个模态定义一个计算重构损失的损失函数来约束重构过程，以求重构信息损失最小；同时，重构回跨域的相同类别下的其他模态数据；

步骤S24：将三个变分自动编码器各自的损失函数线性相加构成多模态变分自动编码器的总损失；

所述步骤S4具体是指：在两个模态的变分自动编码器后各构建一个回归器将两个模态各自的潜在嵌入映射到共享的类别嵌入空间中，与共享的类别嵌入比较，采用循环一致性约束机制进行循环一致性约束；

步骤S5：对整个网络进行训练；

步骤S6：跨模态检索数据。

2.根据权利要求1所述的一种跨域对齐嵌入空间的零样本跨模态检索方法，其特征在于：所述步骤S3中构建两个并行的跨域对齐方案；

3.根据权利要求1所述的一种跨域对齐嵌入空间的零样本跨模态检索方法，其特征在于：所述步骤S5具体是指：定义整个网络的损失函数为网络各个子部分损失函数的线性相加结果，采用随机梯度下降算法对网络结构里的编码器、解码器和回归器的参数进行训练。

4.根据权利要求3所述的一种跨域对齐嵌入空间的零样本跨模态检索方法，其特征在于：所述步骤S6具体包括以下步骤：

步骤S61：对一个给定模态的数据，提取其特征向量；