CN109344266B

CN109344266B - 一种基于双语义空间的对抗性跨媒体检索方法

Info

Publication number: CN109344266B
Application number: CN201811106799.7A
Authority: CN
Inventors: 王文敏; 夏雅娴; 韩梁; 王荣刚; 李革; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2018-06-29
Filing date: 2018-09-21
Publication date: 2021-08-06
Anticipated expiration: 2038-09-21
Also published as: CN109344266A; WO2020001048A1

Abstract

本发明公布了一种基于双语义空间的对抗性跨媒体检索方法，涉及模式识别、自然语言处理、多媒体检索等技术领域；包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。本发明通过建立同构双语义空间，即文本子空间和图像子空间，实现在最大限度保留原有图像和文本信息的同时消除语义鸿沟；并通过对抗训练来优化同构子空间数据分布，挖掘多媒体数据中丰富的语义信息，在保证类别不变、模态可区分的情况下拟合语义空间中不同模态的向量分布。本发明方法能够有效的消除不同模态信息异构性，实现有效的跨媒体检索，在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

Description

一种基于双语义空间的对抗性跨媒体检索方法

技术领域

本发明涉及模式识别、自然语言处理、多媒体检索等技术领域，尤其涉及一种基于双语义空间的对抗性跨媒体检索方法，主要应用公共空间的特征映射来消除语义鸿沟，将不同模态的数据进行匹配达到检索的目的，并在跨媒体检索经典数据库中验证本方法的有效性。

背景技术

近年来，互联网技术飞速发展，随之而来的是多媒体信息的爆炸式增长，用户更倾向于通过检索获得多媒体信息结果，比如，用户输入关键字“狮子”，期望得到相关文字介绍以及其他模态的相关信息，比如狮子的图像，狮子的吼声以及狮子相关的视频等等。如此看来，传统的检索技术以经不能满足用户对于检索结果多样性、全面性的要求。跨媒体检索由于可以实现不同媒体间的灵活检索得到了广泛关注。其面临的挑战主要是不同模态的异构性和不可比性，以及不同模态所携带信息类型的不平衡性。比如，图片中包含更多的空间位置以及层次信息而文本中则包含着更多的上下文和背景信息。

现有方法大多将异构的特征映射到一个单一的同构空间，以消除“语义鸿沟”，但是，这样的处理同时伴随着大量的信息丢失，不同模态的特有信息不能得以保留，难以有效实现跨媒体检索。

发明内容

本发明提供了一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练来挖掘多媒体数据中丰富的语义信息，从而实现有效的跨媒体检索。

本发明的技术方案是：

一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练来挖掘多媒体数据中丰富的语义信息，从而实现有效的跨媒体检索；包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。

1)特征生成过程；

具体实施时，分别获取NUS-WIDE-10k和Wikipedia两个数据集的训练数据，验证数据及测试数据。并利用深度卷积神经网络CNN(Convolutional Neural Network)对训练及测试图像提取视觉特征向量，利用BoW(Bag of Words)模型对训练和测试文本提取“BoW文本特征向量”；设有n组训练数据，将图像和文本数据分别送入CNN网络和BoW模型，提取到的特征分别表示为图像特征I＝{i₁,i₂,…,i_n}和文本特征T＝{t₁,t₂,…,t_n}；

2)双语义空间的构建过程，包括图像子空间和文本子空间；

本发明构建了双语义空间，即图像子空间和文本子空间。

21)在图像子空间中，分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整，同时引入三元组损失(triplet loss)进行同构空间特征优化，实现在最大限度保留图像信息的同时消除“语义鸿沟”。

具体执行如下操作：

211)在图像子空间中，图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布，为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中，尽量多的保留原有图像特征。

212)在同构图像子空间中定义三元组

其中v_i表示参照用图片，t_j ⁺为与v_i类别相同的正样例文本，

表示与v_i类别不同的负样例文本，使用L2范数计算的不同模态数据间距离，表示为式1:

其中，f_v(i)与f_t(t)分别为图像与文本的映射函数，

表示同构空间内图像文本间的欧式距离。

以空间中的图像为参照，引入三元组约束(tripletconstraint)调整文本分布，即拉近相同语义的文本图像对(v_i,t_j ⁺)的距离，同时增加语义不同的图像文本对

间距离。图像子空间三元组损失可以表示为式2：

其中，α为表示安全系数的超参数；

为图像子空间三元组损失；V表示图像子空间。

22)相似的，在文本子空间中实现图像特征映射以及文本特征调整。

具体执行如下操作：

221)在文本子空间中，文本特征T利用文本映射函数ψ_t(T)在原文本特征空间进行分布调整，图像映射函数ψ_v(I)将图像特征I映射到文本空间当中，实现文本子空间内不同模态特征同构，同时避免大量损失原有文本信息。两个映射函数均为使用ReLU激活函数的3层全连接网络。

222)文本子空间的三元组损失

可以表示为式3：

其中，α为表示安全系数的超参数，与式2中相同。Φ^T表示文本子空间内的三元组

t_i为参照用文本，v_j ⁺是与t_i类别相同的正样例图片，

是与t_i类别不同的负样例图片。

223)两个语义子空间平行工作，实现特征提取的互补与平衡。

将双子空间的三元组损失适应性融合，得到最终不同模态在同构空间新的特征分布,表达式如式4，其中η^V、η^T为超参数：

3)对抗性语义空间优化过程

本发明引入对抗性学习优化双语义空间，在保证类别不变的前提下拟合不同模态的空间分布，同时保证模态可判别，上述结果反向传输更新双语义空间，通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务。

执行如下操作：

31)采用类别预测(concept prediction)方法，设定包含图像子空间和文本子空间的类别恒定目标函数，分别对图像子空间和文本子空间进行优化，使得子空间内不同模态特征映射或调整前后类别不变；

以图像子空间为例，优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差，其表达式如下：

式中，N是一次迭代中数据的数目，c_i为数据类别真实分布，p_c(f_v(I))、p_c(f_t(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率；

文本子空间内目标函数

定义类似：

p_c(ψ_v(I))与p_c(ψ_t(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率；

类别恒定目标函数整体可表示为式7：

32)利用对抗性学习模型更新优化双空间网络参数，其中将步骤212)、221)中的同构空间特征表示f_v(v)、f_t(t)、ψ_v(I)与ψ_t(T)作为对抗性学习模型的生成器生成向量，生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似，优化函数表达式为式8：

L_G＝μ_c·L_c+μ_tri·L_tri (式8)

其中，μ_c、μ_tri为超参数。

对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。具体实施时，本发明使用3层前向传播全连接网络进行模态判别。

以图像子空间为例，其优化目标是使得数据模态真实分布m_i与模态预测概率分布误差最小化，其表达式为式9：

其中，N是一次迭代中数据的数目，m_i为数据真实模态，D(f_v(I))与D(f_t(T))为同构图像子空间内图像与文本向量的模态预测。

文本子空间内目标函数

表达式与上述表达式类似：

D(ψ_v(I))与D(ψ_t(T))分别为同构文本子空间内图像与文本向量的模态预测。

判别器在双子空间内的目标函数整体可以表示为式11：

生成器与判别器的目标函数交替训练，得到最优化的两个同构语义空间。

利用优化的同构双语义空间，通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”，即可实现基于双语义空间的对抗性跨媒体的检索。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于双语义空间的对抗性跨媒体检索方法，其技术优势体现在：

(一)通过建立文本子空间和图像子空间，分别保留不同模态内部特征。在图像子空间中，分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整，同时引入三元组损失进行同构空间特征优化，实现在最大限度保留图像信息的同时消除“语义鸿沟”。相似的，在文本子空间中实现图像特征映射以及文本特征调整。两个语义子空间平行工作，实现特征提取的互补与平衡。

(二)通过对抗训练来挖掘多媒体数据中丰富的语义信息，通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务实现有效的跨媒体检索。

附图说明

图1是本发明提供方法的整体流程框图。

图2是本发明实施例中进行同构空间特征优化的示意图；

其中，(a)是图像子空间内三元组分布优化；(b)是文本子空间内三元组分布优化。

图3是本发明实施例进行文本检索图像的结果示例图，

其中，第一列为检索用文本，第二列为数据集给定的匹配图像，列3至列7为mAP值前五的对应检索结果。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供的方法包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程；图1所示是本发明提供方法的流程，具体步骤如下：

1)假设有n组训练数据，将图像和文本数据分别送入CNN网络和BoW模型，提取到的特征分别表示为图像特征I＝{i₁,i₂,…,i_n}和文本特征T＝{t₁,t₂,…,t_n}，

2)在图像子空间中，图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布，为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中，尽量多的保留原有图像特征。

3)在同构图像子空间中定义三元组

表示与v_i类别不同的负样例文本，使用L2范数计算的不同模态数据间距离:

其中f_v(i)与f_t(t)分别为图像与文本的映射函数，

表示同构空间内图像文本间的欧式距离。

间距离。图像子空间三元组损失可以表示为：

其中α为表示安全系数的超参数。

4)在文本子空间中，文本特征T经过文本映射函数ψ_t(T)在同原本文本维度空间特征分布调整，图像映射函数ψ_v(I)将图像特征I映射到文本空间当中，实现文本子空间内不同模态特征同构，同时避免大量损失原有文本信息。二者均为使用ReLU激活函数的3层全连接网络。与图像子空间类似，文本子空间的三元组损失可以表示为：

其中α为表示安全系数的超参数。Φ表示文本子空间内的三元组

t_i为参照用文本，v_j ⁺是与t_i类别相同的正样例图片，

是与t_i类别不同的负样例图片。

5)将双子空间的三元组损失适应性融合，得到最终不同模态在同构空间新的特征分布,表达式如下，其中η为超参数：

6)引入类别预测(concept prediction)，保证子空间内不同模态特征映射或调整前后类别不变，以图像空间为例，优化目标是最小化数据类别真实分布c_i与同构空间内向量的类别预测概率分布p_c(f_v(T))、p_c(f_t(T))间的误差，其表达式如下：

N是一次迭代中数据的数目，c_i为数据类别真实分布，p_c(f_v(I))、p_c(f_t(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率。

文本子空间内目标函数

定义类似，类别恒定目标函数整体可表示为：

7)对抗性学习模型更新优化双空间网络参数，其中步骤3)、4)中的同构空间特征表示f_v(v)、f_t(t)、ψ_v(I)与ψ_t(T)为对抗性学习模型中生成器生成向量，生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似，优化函数表达式为：

L_G＝μ_c·L_c+μ_tri·L_tri

其中μ_c、μ_tri为超参数。

判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。本发明使用3层前向传播全连接网络进行模态判别。以图像子空间为例，其优化目标是使得数据模态真实分布与模态预测概率分布误差最小化，其表达式为：

文本子空间内目标函数

表达式与上述表达式类似，判别器在双子空间内的目标函数整体可以表示为：

8)生成器与判别器的目标函数交替训练，得到最优化的两个同构语义空间。利用优化的同构双语义空间，即可实现基于双语义空间的对抗性跨媒体的检索。

图3是本发明实施例中进行同构空间特征优化的示意图；其中，(a)是图像子空间内三元组分布优化；(b)是文本子空间内三元组分布优化。

表1给出了采用本发明提供的跨媒体检索方法及现有方法[1]-[6]在NUS-WIDE-10k和Wikipedia两个数据集进行检索得到的检索结果以得到的检索结果的对比。

表1NUS-WIDE-10k和Wikipedia数据集在不同方法上的检索结果

其中，现有方法[1]-[6]分别为：

文献[1](Rasiwasia,N.,Pereira,J.C.,Coviello,E.,Doyle,G.,Lanckriet,G.R.G.,Levy,R.,Vasconcelos,N.:A new approach to cross-modal multimediaretrieval.In:International Conference on Multimedia.pp.251–260(2010))记载的CCA方法；

文献[2](Srivastava,N.,Salakhutdinov,R.:Learning representations formultimodal data with deep belief nets.In:ICML Workshop)记载的Multimodal DBN方法；

文献[3](Feng,F.,Wang,X.,Li,R.:Cross-modal retrieval withcorrespondence autoencoder pp.7–16(2014))记载的Corr-AE方法；

文献([4]Zhai,X.,Peng,Y.,Xiao,J.:Learning cross-media jointrepresentation with sparse and semisupervised regularization.IEEETransactions on Circuits and Systems for Video Technology24(6),965–978(2014))记载的JRL方法；

文献([5]Wang,B.,Yang,Y.,Xu,X.,Hanjalic,A.,Shen,H.T.:Adversarialcross-modal retrieval.In:ACM on Multimedia Conference.pp.154–162(2017))记载的ACMR方法；

文献([6]Peng,Y.,Qi,J.,Yuan,Y.:Modality-specific cross-modalsimilarity measurement with recurrent attention network(2017))记载的MCSM方法。

表2给出了本发明提供的跨媒体检索方法及本发明两个变体(仅有图像空间和仅有文本空间)对NUS-WIDE-10k和Wikipedia两个数据集进行检索，得到的检索结果的对比。

表2NUS-WIDE-10k和Wikipedia数据集在图像空间、文本空间和双语义空间的检索结果

表1和表2中，检索结果用mAP值衡量，mAP值越高，检索效果越优异。

从表1中可以看出，与现有方法比较，本发明在图像检索文本和文本检索图像两大任务上检索正确率均有明显提升，表2结果显示，虽然NUS-WIDE-10k数据集上的检索结果显示，在图像检索文本任务上双语义空间的mAP值稍低于仅在文本空间的结果，但双空间的平均检索结果在两个数据集上均明显高于单空间，充分验证了本发明中所提出的的双语义空间检索结构的有效性。图3是本发明实施例进行文本检索图像的结果示例图。图中，第一列为检索用文本，第二列为数据集给定的匹配图像，列3至列7为mAP值前五的对应检索结果，显示了本发明用于检索的有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练挖掘多媒体数据中的语义信息，从而实现有效的跨媒体检索；包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程；

1)特征生成过程；执行如下操作：

获取训练数据，验证数据及测试数据；

利用深度卷积神经网络CNN模型，对训练及测试图像提取视觉特征向量，利用BoW模型对训练和测试文本提取得到BoW文本特征向量；设有n组训练数据，提取到的特征分别表示为图像特征I＝{i₁，i₂，...，i_n}和文本特征T＝{t₁，t₂，...，t_n}；

2)双语义空间的构建过程，包括图像子空间和文本子空间；执行如下操作：

21)在图像子空间中，分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整，同时引入三元组损失进行同构空间特征优化，保留图像信息并消除语义鸿沟；具体执行如下操作：

211)在图像子空间中，图像特征I经过三层全连接网络在原有维度上调整特征分布，网络最后一层使用ReLU激活函数；引入三层全连接网络，将文本特征T映射到图像空间当中，保留原有图像特征；

212)在同构图像子空间中定义三元组

其中v_i表示参照用图片，

为与v_i类别相同的正样例文本，

表示与v_i类别不同的负样例文本；使用L2范数计算的不同模态数据间距离，表示为式1：

其中，f_v(v)与f_t(t)分别为图像与文本在图像子空间内的映射函数，

表示同构空间内图像文本间的欧式距离；

引入图像子空间三元组约束调整文本图像分布，拉近相同语义的文本图像对

的距离，同时增加语义不同的图像文本对

间距离；图像子空间三元组损失

可以表示为式2：

其中，α为表示安全系数的超参数；

为图像子空间三元组损失；V表示图像子空间；

22)在文本子空间中实现图像特征映射及文本特征调整；执行如下操作：

221)在文本子空间中，文本特征T利用文本映射函数ψ_t(T)在原文本特征空间进行分布调整，图像映射函数ψ_v(I)将图像特征I映射到文本空间当中，实现文本子空间内不同模态特征同构；

222)文本子空间的三元组损失

表示为式3：

其中，α为表示安全系数的超参数；Φ^T表示文本子空间内的三元组

t_i为参照用文本，

是与t_i类别相同的正样例图片，

是与t_i类别不同的负样例图片；

223)图像子空间和文本子空间平行工作，实现特征提取的互补与平衡；

将双子空间的三元组损失适应性融合，得到最终不同模态在同构空间新的特征分布，表示为式4，其中η^V、η^T为超参数：

3)对抗性语义空间优化过程；执行如下操作：

31)采用类别预测方法，设定包含图像子空间和文本子空间的类别恒定目标函数，分别对图像子空间和文本子空间进行优化，使得子空间内不同模态特征映射或调整前后类别不变；

设定图像子空间内的目标函数

文本子空间内的目标函数

是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差；类别恒定目标函数表示为式7：

32)利用对抗性学习模型更新优化双空间网络参数，将步骤212)、221)中的同构空间特征表示f_v(v)、f_t(t)、ψ_v(I)与ψ_t(T)作为对抗性学习模型的生成器生成向量，生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似，优化函数L_G表达式为式8：

L_G＝μ_c·L_c+μ_tri·L_tri (式8)

其中，μ_c、μ_tri为超参数；

对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本；

设定图像子空间内的优化目标为

文本子空间内目标函数为

判别器在双子空间内的目标函数L_D表示为式11：

生成器与判别器的目标函数交替训练，得到最优化的两个同构语义空间；

利用最优化的同构双语义空间，完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”，即可实现基于双语义空间的对抗性跨媒体的检索。

2.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法，其特征是，步骤31)中，对图像子空间，优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差，表示为式5：

文本子空间内目标函数

定义为式6：

其中，p_c(ψ_v(I))与p_c(ψ_t(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率。

3.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法，其特征是，步骤32)中，对图像子空间，优化目标是使得数据模态真实分布m_i与模态预测概率分布误差最小化，表示为式9：

其中，N是一次迭代中数据的数目，m_i为数据真实模态，D(f_v(I))与D(f_t(T))为同构图像子空间内图像与文本向量的模态预测；

文本子空间内目标函数

表示为式10：

4.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法，其特征是，步骤32)具体使用3层前向传播全连接网络进行模态判别。