CN111428071B

CN111428071B - 一种基于多模态特征合成的零样本跨模态检索方法

Info

Publication number: CN111428071B
Application number: CN202010222893.XA
Authority: CN
Inventors: 徐行; 张明; 林凯毅; 杨阳; 邵杰; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2022-02-01
Anticipated expiration: 2040-03-26
Also published as: CN111428071A

Abstract

本发明公开了一种基于多模态特征合成的零样本跨模态检索方法，利用两个对抗生成网络，通过两个模态数据共享的类别嵌入来合成不同模态的特征表示，然后将原始的模态数据和合成的模态数据映射到共同子空间并对齐分布。从而建立同一类别不同模态数据之间的联系并将知识迁移到未见过的类。循环一致性约束进一步减小了原始语义特征和重构语义特征之间的差异，很好地建立了每个模态中原始表示和语义特征之间的关联，使得共同语义空间更具鲁棒性，提高了零样本跨模态检索的准确度。

Description

一种基于多模态特征合成的零样本跨模态检索方法

技术领域

本发明属于跨模态检索技术领域，更为具体地讲，涉及一种基于多模态特征合成的零样本跨模态检索方法。

背景技术

跨模态检索的目标是通过使用来自一种模式(如文本)的查询，在另一种模式(如图像)中搜索语义相似的实例。不同模态数据的分布和特征表示不一致，因此难以直接度量不同模态数据之间的相似性。现有方法的解决思路通常是建立一个共同子空间，将不同模态的数据映射到这个共同子空间中得到统一的表征，进而通过一些度量方法来计算不同模态数据之间的相似性，与检索目标相似性大的即为检索结果，这样就实现了跨模态检索。

但是，现有的方法无法很好地处理零样本跨模态检索，因为目标集包含与源集中所见类不相交的不可见类。由于1)在训练期间没有训练看不见的类，2)可见类与不可见类之间语义信息不一致，以及3)源集和目标集之间的异构多模态分布，导致这种场景更具挑战性。

目前零样本跨模态检索采用的方法主要受到零样本学习的启发，从语料库中提取类别嵌入来构建语义空间，让知识从已知类迁移到新的未见过的类别数据。这些方法通常采用对抗生成网络(GAN)或者变分自动编码器(VAE)来生成共同嵌入空间，以获取不同模态数据的异构分布和特征表示。现有的这类零样本学习方法通常用来解决传统的分类问题，在跨模态检索问题上并没有进行优化，并且常常有限地侧重于从原始数据表示到类别嵌入的映射，而忽略了它们之间的相互关联。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多模态特征合成的零样本跨模态检索方法，将不同模态的数据映射到共同语义空间并对齐分布，从而使得不同模态的数据可以度量相似性，实现零样本跨模态数据之间相互检索。

为实现上述发明目的，本发明一种基于多模态特征合成的零样本跨模态检索方法，其特征在于，包括以下步骤：

(1)、提取多模态数据特征

下载包含图像、文本及图像和文本共享类别标签的N多组多模态数据，然后利用卷积神经网络VGG Net提取图像特征v_i，利用网络Doc2vec提取文本特征t_i，利用网络Word2vec进行提取类别标签特征c_i；其中，i＝1,2,…,N

(2)、生成多模态数据的合成特征表示

(2.1)、搭建两路对抗生成网络WGAN，每一路WGAN均包含一个生成模块G和一个判别模块D；

(2.2)、在第一路WGAN中，将共享类别标签c_i和随机噪声z_i同时输入至生成模块G_v，从而生成图像合成特征表示

然后将图像特征v_i和图像合成特征表示

同时输入至判别模块D_v，判别模块D通过损失函数

来衡量合成效果：

其中，L为求损失函数值，E表示求期望值，λ为给定的惩罚值，

表示生成模块G_v的参数，

表示判别模块D_v的参数，

表示v_i与c_i的联合分布概率，

表示

与c_i的联合分布概率，

a服从0-1的正态分布，

表示

与c_i的联合分布概率，

表示梯度惩罚系数；

(2.3)、在第二路WGAN中，将共享类别标签c_i和随机噪声z_i同时输入至生成模块G_t，从而生成文本合成特征表示

然后将文本特征t_i和文本合成特征表示

同时输入至判别模块D_t，判别模块D通过损失函数

来衡量合成效果：

表示生成模块G_t的参数，

表示判别模块D_t的参数，

表示t_i与c_i的联合分布概率，

表示

与c_i的联合分布概率，

a服从0-1的正态分布，

表示

与c_i的联合分布概率，

表示梯度惩罚系数；

(3)、构建分类器区分合成特征表示

将图像合成特征表示

和文本合成特征表示

输入至分类器，通过分类器来正确预测该合成特征表示的类别标签；

分类器的损失函数为：

其中，θ_C为分类器的参数，

为

输入至分类器后的参数，

为

输入至分类器后的参数；f_softmax(·)表示softmax函数，具体定义如下：

其中，y是合成特征表示

的类别标签，θ代表分类器的参数，C为类别的数量，

表示

属于第c类的softmax概率；

(4)、对齐共同语义空间的分布

(4.1)、通过两个回归器R_v、R_t分别对图像合成特征表示

和文本合成特征表示

进行回归映射，得到合成图像语义信息

和文本语义信息

利用最大均值差异MMD损失函数来表示所有合成特征的分布对齐；

其中，i≠j，θ_R为回归器的参数，κ(·)是多个RBF内核的线性组合函数；

(4.2)、通过两个回归器R_v、R_t分别对图像特征v_i和文本特征t_i进行回归映射，得到、图像语义信息f_i ^v和文本语义信息f_i ^t；

利用最大均值差异MMD损失函数来表示所有特征的分布对齐；

(5)、特征重构

(5.1)、将步骤(4.1)中合成特征回归映射得到的

和

进行语义重构，并在语义重构过程施加循环一致性约束来减小重构损失：

其中，E表示求期望值，

表示类别标签c_i的概率分布，

表示c_i服从分布

表示符合标准正态分布的噪声z_i；

(5.2)、将步骤(4.2)中原始特征回归映射得到的v_i和t_i进行语义重构，并在语义重构过程施加循环一致性约束来减小重构损失：

其中，

表示类别标签c_i和图像特征v_i的联合概率分布，

表示类别标签c_j和文本特征t_j的联合概率分布；

(6)、将步骤(2)～(5)中所有损失函数加起来作为总损失函数，再利用随机梯度下降法对总损失函数进行优化，记录下优化后的总损失函数值；

(7)、重复步骤(2)～(6)，处理完N多组多模态数据，得到N各总损失函数值，完成N次训练，然后选出最小的一个总损失函数值，并将该总损失函数值对应的所有损失函数作为最终检测模型；

(8)、零样本跨模态的实时检索

提取任意图像或文本的特征，并输入至步骤(7)得到的最终检测模型，从而检索出该图像或文本属于同一类别的其他模态数据。

本发明的发明目的是这样实现的：

本发明一种基于多模态特征合成的零样本跨模态检索方法，利用两个对抗生成网络，通过两个模态数据共享的类别嵌入来合成不同模态的特征表示，然后将原始的模态数据和合成的模态数据映射到共同子空间并对齐分布。从而建立同一类别不同模态数据之间的联系并将知识迁移到未见过的类。循环一致性约束进一步减小了原始语义特征和重构语义特征之间的差异，很好地建立了每个模态中原始表示和语义特征之间的关联，使得共同语义空间更具鲁棒性，提高了零样本跨模态检索的准确度。

同时，本发明一种基于多模态特征合成的零样本跨模态检索方法还具有以下有益效果：

(1)、提出一种新颖的神经网络结构，使用改进的对抗生成网络来生成特征，以解决零样本跨模态检索中样本数量不足的问题，这个网络可以在类别嵌入的指导下生成多模态数据特征；

(2)、将类别嵌入作为公共语义子空间，以实现平稳的知识转移，并开发有效的循环一致性约束，以保持原始语义特征与映射在语义子空间的特征之间的一致性。这些约束有利于学习更鲁棒的公共语义子空间，以有能力适应标准检索和零样本检索场景；

(3)、设计了一种分布对齐方案，以增强语义特征和类别嵌入之间的分布匹配，并充分捕获公共语义子空间中不同模态的跨模态相关性，实现了跨模态数据的匹配，进而将知识迁移到不可见类上，实现了零样本场景下的跨模态检索。

附图说明

图1是本发明基于多模态特征合成的零样本跨模态检索方法流程图；

图2是语义指导合成特征的示意图；

图3是分类器区分合成特征的示意图；

图4是语义空间分布对齐的示意图；

图5是循环一致性约束的示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种基于多模态特征合成的零样本跨模态检索方法流程图。

在本实施例中，如图1所示，本发明一种基于多模态特征合成的零样本跨模态检索方法，包括以下步骤：

S1、提取多模态数据特征

多模态的数据包含图像、文本等，这些原始数据以人类接受的方式表示，但是计算机并不能直接处理，需要将他们的特征提取出来，以计算机能够处理的数字表示。

下载包含图像、文本及图像和文本共享类别标签的N多组多模态数据，这些数据属于C个类别，每一类别下的图像和文本有共享的类别标签。然后利用卷积神经网络VGG Net提取图像特征v_i，利用网络Doc2vec提取文本特征t_i，利用网络Word2vec进行提取类别标签特征c_i；其中，i＝1,2,…,N。这些数据经过特征提取之后都以向量的形式存在。

S2、生成多模态数据的合成特征表示

如图2所示，本实施例中分别搭建两路改进的对抗生成网络Wasserstein GAN(WGAN)，利用两个不同模态数据共享的类别标签嵌入来分别生成两个模态的合成特征。WGAN是鲁棒训练过程中最稳定的GAN结构之一，每个WGAN都包含两部分，一个是生成模块，一个是判别模块。生成模块输入原始真实数据，输出合成数据，并送入判别模块。判别模块的任务是接收真实数据或者合成数据，并尝试预测输入是真实还是生成的，从而促进生成模块不断优化，使得生成的特征质量不断提高，直到判别模块不能很好区分出特征是真实的还是合成的，达到“以假乱真”的效果。

S2.1、搭建两路对抗生成网络WGAN，每一路WGAN均包含一个生成模块G和一个判别模块D，每个模块都是由几个人工神经网络的全连接层组成；

S2.2、在第一路WGAN中，将共享类别标签c_i和服从随机高斯分布的噪声z_i同时输入至生成模块G_v，从而生成图像合成特征表示

然后将图像特征v_i和图像合成特征表示

同时输入至判别模块D_v，判别模块D输出值为二元的0或1，来给出判断结果，最终所有图像的合成效果通过标准WGAN损失函数

来衡量，以求合成特征与原始真实数据特征尽量相近：

表示生成模块G_v的参数，

表示判别模块D_v的参数，

表示v_i与c_i的联合分布概率，

表示

与c_i的联合分布概率，

a服从0-1的正态分布，

表示

与c_i的联合分布概率，

表示梯度惩罚系数，公式中的第三项为梯度惩罚项，用来强制判别模块的梯度沿着原始图像和合成图像之间的连线，以确保训练时对该函数的优化效率最大化；

S2.3、在第二路WGAN中，将共享类别标签c_i和随机噪声z_i同时输入至生成模块G_t，从而生成文本合成特征表示

然后将文本特征t_i和文本合成特征表示

同时输入至判别模块D_t，判别模块D通过损失函数

来衡量合成效果：

表示生成模块G_t的参数，

表示判别模块D_t的参数，

表示t_i与c_i的联合分布概率，

表示

与c_i的联合分布概率，

a服从0-1的正态分布，

表示

与c_i的联合分布概率，

表示梯度惩罚系数；

S2.4、将两路WGAN的特征合成损失相加，得到多模态特征合成总损失：

S3、构建分类器区分合成特征表示

如图3所示，为了确保生成的不同类别下的合成特征表示在本模态内是可区分的，即属于不同类别的合成数据是不一样的，在每个WGAN的生成模块后面连接了一个分类器来正确预测该模态合成特征表示的类别标签。分类器由全连接层组成，并使用softmax激活函数来给出输入数据属于各个类别的概率，概率最高的对应的类别即为预测结果。

将图像合成特征表示

和文本合成特征表示

分类器在所有合成特征上的损失函数为：

其中，θ_C为分类器的参数，

为

输入至分类器后的参数，

为

其中，y是合成特征表示

的类别标签，θ代表分类器的参数，C为类别的数量，

表示

属于第c类的softmax概率；

S4、对齐共同语义空间的分布

有了足够多的合成多模态数据特征表示，在两个WGAN之后构建两个回归器，如图4所示，回归器由数个全连接层构成，将两种模态的真实特征表示和合成特征表示映射到共同语义子空间中，利用类别嵌入来构建共同语义空间。将知识从类别嵌入迁移，来对多模态数据进行语义信息建模，实现零样本跨模态检索。在公共语义空间学习过程中，使成对的真实和合成的图像-文本实例在公共语义空间中尽可能靠近，以表示跨不同模态的但是具有相同语义的数据是紧密联系的。因此，在统计方面将公共语义空间中两种模态的真实表示和合成表示对齐。在分布对齐方案中采用最大均值差异(Maximum Mean Difference，MMD)来衡量样本对的分布之间的差异，MMD度量在再生希尔伯特空间中两个分布的距离，是一种核学习方法，这个值越小，表示两个样本之间的分布相似度越高。

S4.1、通过两个回归器R_v、R_t分别对图像合成特征表示

和文本合成特征表示

进行回归映射，得到合成图像语义信息

和文本语义信息

利用最大均值差异MMD损失函数来表示所有特征的分布对齐；

其中，i≠j，θ_R为回归器的参数，κ(·)是多个RBF内核的线性组合函数，定义如下：

其中，第n个RBF核表示为η_n，其标准差为σ_n。此过程可以减少合成语义特征的模态间差异，从而有效地对齐用于知识传递的两种模态的合成表示。

S4.2、通过两个回归器R_v、R_t分别对原始的真实的图像特征v_i和文本特征t_i进行回归映射，得到、图像语义信息f_i ^v和文本语义信息f_i ^t；

利用最大均值差异MMD损失函数来表示所有特征的分布对齐；

通过分布对齐，将不同模态的真实语义特征和合成语义特征映射到共同语义子空间，不仅捕获了跨模态的相关性，而且还增强了可见与不可见类之间的知识迁移。

S5、特征重构

为了进一步增强公共语义空间里的原始多模态数据特征和合成多模态数据特征之间的相互联系，在回归器之后将回归器映射得到的公共语义空间中的特征重构回类别嵌入特征，与原始的类别嵌入特征进行比较。如图5所示，对此语义重构过程施加循环一致性约束，通过最小化重构损失来将合成语义特征重构回真实语义特征。考虑到回归器中针对不可见类类别标签的循环一致性，可以将知识迁移到不可见类上去。因此，这一过程有利于零样本场景下的跨模态检索。

S5.1、将步骤S4.1中合成数据特征回归映射得到的

和

其中，E表示求期望值，

表示类别标签c_i的概率分布，

表示c_i服从概率分布

表示符合标准正态分布的噪声z_i；

S5.2、将步骤S4.2中原始数据特征回归映射得到的f_i ^v和

其中，

表示类别标签c_i和图像特征v_i的联合概率分布，

表示类别标签c_j和文本特征t_j的联合概率分布；

S6、将步骤S2～S5中所有损失函数加起来作为总损失函数，对整个网络进行训练，利用随机梯度下降法对总损失函数进行优化，记录下优化后的总损失函数值，这个损失函数值反映得到结果和实际结果之间的差异，用来衡量模型好坏，损失函数值越小，模型的效果越好；

S7、重复步骤S2～S6，处理完N多组多模态数据，得到N各总损失函数值，完成N次训练，然后选出最小的一个总损失函数值，并将该总损失函数值对应的所有损失函数作为最终检测模型；

S8、零样本跨模态的实时检索

提取任意图像或文本的特征，并输入至步骤S7得到的最终检测模型，计算公共语义空间中其他模态数据变量与此检索目标变量的相似性，进行排序，相似性最大的变量对应的原始模态数据为检索结果，即与检索目标属于同一类别的其他模态数据。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。