CN110298395A

CN110298395A - 一种基于三模态对抗网络的图文匹配方法

Info

Publication number: CN110298395A
Application number: CN201910528838.0A
Authority: CN
Inventors: 冀中; 林志刚; 李晟嘉; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-10-01
Anticipated expiration: 2039-06-18
Also published as: CN110298395B

Abstract

一种基于三模态对抗网络的图文匹配方法，在图文两模态的基础上，将高层图片特征和底层文本特征串联得到融合模态，以融合模态作为第三种模态，依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束，构成三模态对抗网络。本发明能够有效地进行图文匹配，能够有效提高图文匹配的性能，对于百度，谷歌等搜索引擎公司优化图文互搜精度起到积极作用。同时对于其他模态也有借鉴意义，比如对提高语音文本匹配性能，起到了重要的推动作用。

Description

一种基于三模态对抗网络的图文匹配方法

技术领域

本发明涉及一种图文匹配方法。特别是涉及一种基于三模态对抗网络的图文匹配方法。

背景技术

随着对计算机视觉、语音处理和自然语言处理的研究不断推进，跨模态检索领域应势而生。例如，我们使用百度搜索“熊猫”这个词，能够搜索到相应的熊猫图片。这个过程中我们使用文本信息搜索到了图片信息。此时输入信息的类型和获得信息的类型就不同了，研究领域称之为“跨模态”。这里的模态不限于文本和图像，还有如语音、视频、生理信号等。

由于不同的模态之间具有底层特征异构，高层语义相关的特点，常用的跨模态检索方法是，利用深度网络，挖掘不同模态之间的关系，提取高层语义特征，并将不同模态映射到同一个公共空间中。在公共空间中我们就可以度量不同模态之间的相似度了，进而进行匹配。现今研究领域，普遍使用Ranking Loss损失函数在公共空间进行相似度约束。而且近几年应用于提取模态语义特征的神经网络模型，越来越丰富，例如VggNet，GoogleNet，LSTM和ResNet等。

发明内容

本发明所要解决的技术问题是，提供一种在基于公共空间的传统双模态相似度匹配的基础上，引入了一种融合模态进行对抗学习的基于三模态对抗网络的图文匹配方法。

本发明所采用的技术方案是：一种基于三模态对抗网络的图文匹配方法，在图文两模态的基础上，将高层图片特征和底层文本特征串联得到融合模态，以融合模态作为第三种模态，依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束，构成三模态对抗网络。

具体包括如下步骤：

1)通过ResNet卷积神经网络提取数据集图像的图像特征f_img和图像对应文本的文本特征f_text；

2)将文本底层特征向量T_i ^l和对应的图像特征f_img进行串联，将串联得到的第三模态底层特征输入LSTM网络，通过LSTM网络的学习训练得到第三模态的高层语义特征f_concat；

3)对图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat分别进行Instance Loss约束；

4)对Instance Loss约束收敛后的图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat进行两两之间的Ranking Loss约束，构成三模态对抗网络，从而实现样本的相似度匹配。

步骤1)包括：将数据集图像统一裁切成相同尺寸，输入第一ResNet卷积神经网络分别提取每张图像的图像特征f_img，将每张图像对应的文本语句编码成文本底层特征向量T_i ^l，将文本底层特征向量T_i ^l输入第二ResNet卷积神经网络，获得文本特征f_text，其中i是图片的标签序号。

步骤3)包括：将图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat对应输送到第一全连接层分类器、第二全连接层分类器和第三全连接层分类器，按照标签序号进行相应的分类，即，训练的第一阶段将图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat经过分类器分类后，分别进行Instance Loss约束，所述的Instance Loss约束的目标函数如下：

L_ins-img＝-log(softmax(W_sharef_img)) (1)

L_ins-text＝-log(softmax(W_sharef_text)) (2)

L_ins-concat＝-log(softmax(W_sharef_concat)) (3)

其中，L_ins-img、L_ins-text和L_ins-concat分别是图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat对应的Instance Loss约束函数；W_share为全连接层分类器的参数。

步骤4)包括：将Instance Loss约束收敛后的图像特征f_img和第三模态的高层语义特征f_concat通过统一维度，输送到第一相似度空间，将Instance Loss约束收敛后的文本特征f_text和第三模态的高层语义特征f_concat度量到第二相似度空间，将Instance Loss约束收敛后的图像特征f_img和文本特征f_text统一维度到第三相似度空间，所述的第一相似度空间、第二相似度空间和第三相似度空间是空间维度一致的公共语义空间，在第一相似度空间、第二相似度空间和第三相似度空间分别进行Ranking Loss约束，从而实现样本的相似度匹配，所述的Ranking Loss约束的目标函数如下：

其中，L_rank-ic、L_rank-tc和L_rank-it分别是第一相似度空间、第二相似度空间和第三相似度空间所对应的Instance Loss约束函数；(I_a,C_a)和(C_a,I_a)是图像特征f_img和第三模态的高层语义特征f_concat的正样本对，(T_a,C_a)和(C_a,T_a)是文本特征f_text和第三模态的高层语义特征f_concat的正样本对，(I_a,T_a)和(T_a,I_a)是图像特征f_img和文本特征f_text的正样本对；(I_a,C_n)和(C_a,I_n)是图像特征f_img和第三模态的高层语义特征f_concat的负样本对，(T_a,C_n)和(C_a,T_n)是文本特征f_text和第三模态的高层语义特征f_concat的负样本对，(I_a,T_n)和(T_a,I_n)是图像特征f_img和文本特征f_text的负样本对，D(·,·)是余弦相似度函数，α是Ranking Loss约束的常量参数；

以此进行对抗学习，将Instance Loss约束收敛后的图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat的空间欧式距离不断拉近，在训练过程中通过多次迭代，使得Ranking Loss约束的目标函数值不断下降，最终达到收敛，使得网络性能达到最优，至此，用于图文匹配的三模态对抗网络构建完成，所述的三模态对抗网络的总体约束函数L为：

其中，λ₁,λ₂,λ₃,λ₄,λ₅,λ₆分别为目标函数L_ins-img、L_ins-text、L_ins-concat、L_rank-ic、L_rank-tc、L_rank-it对应的权重。

本发明的一种基于三模态对抗网络的图文匹配方法，引入融合了图文信息的联合模态，然后以联合模态为连接桥梁，在公共语义空间两两模态的语义信息进行约束学习，三个模态的语义信息不断进行博弈对抗，从而不断优化训练的网络结构。具有如下特点：

1、新颖性：引入了融合式的第三模态，提出了适用于图文匹配的三模态对抗深度模型算法。

2、有效性：通过在Flickr30K数据集和MSCOCO数据集上进行试验，表明本发明相比现有的图文匹配算法能达到更优的性能。说明本发明能够有效地进行图文匹配。

3、实用性：该发明能够有效提高图文匹配的性能，对于百度，谷歌等搜索引擎公司优化图文互搜精度起到积极作用。同时对于其他模态也有借鉴意义，比如对提高语音文本匹配性能，起到了重要的推动作用。

附图说明

图1是本发明一种基于三模态对抗网络的图文匹配方法的网络结构图。

具体实施方式

下面结合实施例和附图对本发明的一种基于三模态对抗网络的图文匹配方法做出详细说明。

本发明的一种基于三模态对抗网络的图文匹配方法，在图文两模态的基础上，将高层图片特征和底层文本特征串联得到融合模态，以融合模态作为第三种模态，依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束，构成三模态对抗网络。

如图1所示，本发明的一种基于三模态对抗网络的图文匹配方法，具体包括如下步骤：

1)通过ResNet卷积神经网络提取数据集图像的图像特征f_img和图像对应文本的文本特征f_text；包括将数据集图像统一裁切成相同尺寸，输入图1中的ResNet卷积神经网络1分别提取每张图像的图像特征f_img，将每张图像对应的文本语句编码成文本底层特征向量T_i ^l，将文本底层特征向量T_i ^l输入ResNet卷积神经网络2，获得文本特征f_text，其中i是图片的标签序号。

2)将文本底层特征向量T_i ^l和对应的图像特征f_img进行串联，得到图1所示的同时具有图像信息和文本信息的联合模态，将串联得到的第三模态底层特征输入LSTM网络，通过LSTM网络的学习训练得到第三模态的高层语义特征f_concat；即，在提取到图像特征f_img的同时，将文本底层特征向量T_i ^l与图像特征f_img进行串联融合。通过串联，将图片和文本特征信息融合在一起，形成了一个新的第三模态，即联合模态。由于经过了特征融合，第三模态的高层语义特征f_concat的特征信息将更加丰富，有助于后续的约束训练。因为第三模态的高层语义特征f_concat是串联的特征，有更长的底层特征长度，此时采用LSTM更有助于提取和保留更多的语义信息。

3)对图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat分别进行Instance Loss约束；包括：

将图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat对应输送到第一全连接层分类器3、第二全连接层分类器4和第三全连接层分类器5，按照标签序号进行相应的分类，即，训练的第一阶段将图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat经过分类器分类后，分别进行Instance Loss约束，所述的Instance Loss约束的目标函数如下：

L_ins-img＝-log(softmax(W_sharef_img)) (1)

L_ins-text＝-log(softmax(W_sharef_text)) (2)

L_ins-concat＝-log(softmax(W_sharef_concat)) (3)

4)对Instance Loss约束收敛后的图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat进行两两之间的Ranking Loss约束，构成三模态对抗网络，从而实现样本的相似度匹配。包括：

将Instance Loss约束收敛后的图像特征f_img和第三模态的高层语义特征f_concat通过统一维度，输送到第一相似度空间6，将Instance Loss约束收敛后的文本特征f_text和第三模态的高层语义特征f_concat度量到第二相似度空间7，将Instance Loss约束收敛后的图像特征f_img和文本特征f_text统一维度到第三相似度空间8，所述的第一相似度空间6、第二相似度空间7和第三相似度空间8是空间维度一致的公共语义空间，在第一相似度空间6、第二相似度空间7和第三相似度空间8分别进行Ranking Loss约束，从而实现样本的相似度匹配，所述的Ranking Loss约束的目标函数如下：

其中，L_rank-ic、L_rank-tc和L_rank-it分别是第一相似度空间6、第二相似度空间7和第三相似度空间8所对应的Instance Loss约束函数；(I_a,C_a)和(C_a,I_a)是图像特征f_img和第三模态的高层语义特征f_concat的正样本对，(T_a,C_a)和(C_a,T_a)是文本特征f_text和第三模态的高层语义特征f_concat的正样本对，(I_a,T_a)和(T_a,I_a)是图像特征f_img和文本特征f_text的正样本对；(I_a,C_n)和(C_a,I_n)是图像特征f_img和第三模态的高层语义特征f_concat的负样本对，(T_a,C_n)和(C_a,T_n)是文本特征f_text和第三模态的高层语义特征f_concat的负样本对，(I_a,T_n)和(T_a,I_n)是图像特征f_img和文本特征f_text的负样本对，D(·,·)是余弦相似度函数，α是Ranking Loss约束的常量参数；

通过Ranking Loss约束，进行对抗学习，使得图文的正样本对相似度逐步提高，图文负样本对相似度逐步减小。对应于公共语义空间，即正样本对之间的欧式距离不断拉近，负样本对之间距离不断拉远。在本发明中，在图像特征f_img、文本特征f_text以外引入了第三模态的高层语义特征f_concat，此时将通过LSTM网络提取的第三模态的高层语义特征f_concat同样统一到公共语义空间。在公共语义空间里此时有了三个模态的特征，将三个模态的特征两两进行Ranking Loss约束，进行相似度匹配。本发明的关键就在于此。由于联合模态的语义信息融合了图像和文本的特征，通过两两模态之间的Ranking Loss约束，形成了一个闭环的约束环境。在这个闭环环境中，三个模态的正样本组特征不断靠近，负样本组特征不断远离。通过联合模态这个桥梁，三个模态在公共语义空间的位置不断进行博弈训练，进行自我修正，最终使得图像和文本的语义信息不断地进行对抗学习。通过深度网络的反向传播，网络参数不断得到优化，最终训练得到适合用于图文匹配的深度网络。整个训练过程中三模态对抗网络的总体约束函数L为：

其中，λ₁,λ₂,λ₃,λ₄,λ₅,λ₆分别为目标函数L_ins-img、L_ins-text、L_ins-concat、L_rank-ic、L_rank-tc、L_rank-it对应的权重；

在训练过程中通过多次迭代，使得Ranking Loss约束的目标函数值不断下降，最终达到收敛，使得网络性能达到最优，至此，用于图文匹配的三模态对抗网络构建完成。

Claims

1.一种基于三模态对抗网络的图文匹配方法，其特征在于，在图文两模态的基础上，将高层图片特征和底层文本特征串联得到融合模态，以融合模态作为第三种模态，依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束，构成三模态对抗网络。

2.根据权利要求1所述的基于三模态对抗网络的图文匹配方法，其特征在于，具体包括如下步骤：

3)对图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat分别进行InstanceLoss约束；

3.根据权利要求2所述的基于三模态对抗网络的图文匹配方法，其特征在于，步骤1)包括：将数据集图像统一裁切成相同尺寸，输入第一ResNet卷积神经网络(1)分别提取每张图像的图像特征f_img，将每张图像对应的文本语句编码成文本底层特征向量T_i ^l，将文本底层特征向量T_i ^l输入第二ResNet卷积神经网络(2)，获得文本特征f_text，其中i是图片的标签序号。

4.根据权利要求2所述的基于三模态对抗网络的图文匹配方法，其特征在于，步骤3)包括：将图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat对应输送到第一全连接层分类器(3)、第二全连接层分类器(4)和第三全连接层分类器(5)，按照标签序号进行相应的分类，即，训练的第一阶段将图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat经过分类器分类后，分别进行Instance Loss约束，所述的Instance Loss约束的目标函数如下：

L_ins-img＝-log(softmax(W_sharef_img)) (1)

L_ins-text＝-log(softmax(W_sharef_text)) (2)

L_ins-concat＝-log(softmax(W_sharef_concat)) (3)

5.根据权利要求2所述的基于三模态对抗网络的图文匹配方法，其特征在于，步骤4)包括：将Instance Loss约束收敛后的图像特征f_img和第三模态的高层语义特征f_concat通过统一维度，输送到第一相似度空间(6)，将Instance Loss约束收敛后的文本特征f_text和第三模态的高层语义特征f_concat度量到第二相似度空间(7)，将Instance Loss约束收敛后的图像特征f_img和文本特征f_text统一维度到第三相似度空间(8)，所述的第一相似度空间(6)、第二相似度空间(7)和第三相似度空间(8)是空间维度一致的公共语义空间，在第一相似度空间(6)、第二相似度空间(7)和第三相似度空间(8)分别进行RankingLoss约束，从而实现样本的相似度匹配，所述的Ranking Loss约束的目标函数如下：

其中，L_rank-ic、L_rank-tc和L_rank-it分别是第一相似度空间、第二相似度空间和第三相似度空间所对应的Instance Loss约束函数；(I_a,C_a)和(C_a,I_a)是图像特征f_img和第三模态的高层语义特征f_concat的正样本对，(T_a,C_a)和(C_a,T_a)是文本特征f_text和第三模态的高层语义特征f_concat的正样本对，(I_a,T_a)和(T_a,I_a)是图像特征f_img和文本特征f_text的正样本对；(I_a,C_n)和(C_a,I_n)是图像特征f_img和第三模态的高层语义特征f_concat的负样本对，(T_a,C_n)和(C_a,T_n)是文本特征f_text和第三模态的高层语义特征f_concat的负样本对，(I_a,T_n)和(T_a,I_n)是图像特征f_img和文本特征f_text的负样本对，D(·,·)是余弦相似度函数，α是RankingLoss约束的常量参数；

以此进行对抗学习，将Instance Loss约束收敛后的图像特征f_img、文本特征f_text和第三模态的高层语义特征f_concat的空间欧式距离不断拉近，在训练过程中通过多次迭代，使得RankingLoss约束的目标函数值不断下降，最终达到收敛，使得网络性能达到最优，至此，用于图文匹配的三模态对抗网络构建完成，所述的三模态对抗网络的总体约束函数L为：