CN110502743A

CN110502743A - 基于对抗学习和语义相似度的社交网络跨媒体搜索方法

Info

Publication number: CN110502743A
Application number: CN201910631327.1A
Authority: CN
Inventors: 杜军平; 薛哲; 刘翀; 周南
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-26

Abstract

本发明提出了一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法，包含文本和图像的特征提取网络、公共语义空间映射网络、语义相似度网络以及模态判别网络，创新性突出，主要用于社交网络跨媒体搜索中。本发明应用在图像以及文本处理领域，可以处理不同模态下的跨媒体数据，使得跨媒体数据之间的检索高效并且准确。

Description

基于对抗学习和语义相似度的社交网络跨媒体搜索方法

技术领域

本发明属于图像处理和文本处理的技术领域，具体涉及到跨媒体数据之间的相互检索，集成多种技术，如对抗学习、深度神经网络、语义融合、排序搜索算法等，最终实现跨媒体数据的语义关联以及搜索。

背景技术

随着移动互联网的高速发展，社交网络数据信息呈现爆炸式增长，越来越多的用户在各类社交媒体上发布大量实时信息，其中有关国民安全的信息显得尤为重要。在事故灾害发生的时候，能及时搜索到和灾害相关的文本和图像，能在一定程度上减小灾害带来的损失。微博是社交网络重要的组成部分，具有内容短小，传播快，用户量大等特点。微博数据对于国民安全相关热点事件内容具有敏感性，因此具有非常高的研究价值。微博数据的形式不仅包括文本，还有图像和视频，单一媒体数据的搜索已经不能很好地满足现有的社交网络信息需求，社交网络尤其是基于微博的跨媒体信息搜索的需求与日俱增。

近年来，深度学习在文本和图像领域应用十分广泛，它对数据特征的提取准确而高效，为跨媒体搜索提供了支持。然而不同模态之间的数据特征分布不同，语义空间不能互通，即包含相同语义内容的文本和图像不能通过它们所在的语义空间直接建立关联关系。对抗学习对于生成一个新的数据分布非常有效，已经被广泛应用于文本、图像、语音的生成。

提出一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法(SemanticSimilarity based Adversarial Cross Media Retrieval，SSACR)，对国民安全相关的微博文本以及图像进行搜索，并根据语义相似度进行排序。该方法主要使用对抗训练的方式训练两个神经网络模型，即特征映射网络和模态判别网络。特征映射网络作为对抗学习的生成器，分别将来自文本和图像的特征映射到同一语义空间中，并使用语义及其相似度来训练特征映射网络，相似度约束能够减小同语义下不同模态数据的差异。模态判别网络作为对抗学习判别器，用来区分映射到同一语义空间中的数据的原本模态，并以数据的真实模态来训练模态判别网络。本发明提出的方法将搜索的文本或图像经过特征映射网络投影到同一语义空间后，根据和该空间中其他数据距离的远近来得到搜索结果排序。

发明内容

本发明所提出的基于对抗学习和语义相似度的社交网络跨媒体搜索方法(SSACR)包括图像特征输入网络、文本特征输入网络、特征映射网络、语义分布网络、语义相似网络以及模态判别网络。对于每一个图像-文本-语义三元组，先将图像和文本的特征进行提取，然后分别输入到图像特征映射网络和文本特征映射网络中，语义向量输入到语义分布网络中。语义相似度网络对输入的语义向量进行相似度计算。特征映射网络将图像和文本特征映射到S中，模态判别网络根据映射到S数据的模态进行判别。总体流程如图1所示。

本发明提出的SSACR方法在公共语义空间S中得到合适的S_V和S_T，使得它们保持映射前的语义关系，同时使得语义相近的不同模态的数据在S中距离较近，相同模态的不同语义的数据在S中距离较远。

为达到上述目的，如图1所示，本发明的技术方案划分为四个部分：

1.基于深度卷积网络的图像特征提取；

2.基于TF-IDF的文本特征提取；

3.基于余弦相似度的跨模态语义相似度的计算；

4.基于对抗网络的模态判别。

本发明有以下一些技术特征：

(1)通过反复堆叠3*3的小型卷积核和2*2的最大池化层，使VGGNet构筑16～19层卷积层和全连接层的深度卷积神经网络，对大规模图像的特征进行有效提取，极大加快了特征提取速度以及准确性，并且为后续训练提供统一特征，方便后续训练。

(2)使用TFIDF特征对文本进行向量化，在词频的角度将文本切割为单词的集合，用词的文档频率以及逆文档频率进行建模，使得频率特征充分体现，进一步对训练的速度进行提升。

(3)使用语义相似度技术，利用深度神经网络将来自文本以及图像的特征向同一个语义空间进行投影，并提出使用余弦相似度计算不同模态数据之间语义之间的相似度，并根据已有的语义标签作为参考，使得投影的向量能够保持语义信息，增加语义有效性，并根据投影前后语义损失进行训练，使得投影前后语义保持恰当。

(4)基于对抗学习的思想训练模态判别网络，使得判别网络能区分公共语义空间中数据的原始模态，交替训练特征映射网络以及模态判别网络，最终使得两个网络都得到充分的训练，最终使得语义映射网络映射的语义足够精确，贴合原始语义分布。

本发明提出了一种基于对抗网络和语义相似性的跨媒体搜索模型，包含文本和图像的特征提取网络，公共语义空间映射网络，语义相似度网络以及模态判别网络，创新性突出，主要用于社交网络跨媒体搜索中。本发明应用在图像以及文本处理领域，可以处理不同模态下的跨媒体数据，使得跨媒体数据之间的检索高效并且准确。

附图说明

图1为基于对抗学习和语义相似度的社交网络跨媒体搜索方法总体流程图；

具体实施方式

以下参照附图对本发明做进一步详细地说明。本发明算法的具体实现分为以下几步：

1.特征映射网络

特征映射网络分为两部分，图像特征映射网络和文本特征映射网络，它们负责把原始数据特征映射到同一语义空间当中。为了保证映射之后的数据维持原模态的语义特征，在特征映射网络后面加入一个语义预测网络，并将分类器softmax的输出作为结果用于预测映射到同一语义空间的数据的语义分布。令网络的参数为θ_imd，图像、文本两种模态中第i个数据语义分布的第c维值分别是p_ic(v_i)和p_ic(t_i)，使用交叉熵计算新空间中语义的偏差值L_imd，n为数据个数，d_l为语义向量维数，y_ic为第i个数据的第c维真实语义值。如式(1)所示。

其中，L_imd计算在新的语义空间中每个新映射的数据和原来数据语义分布的差值，包括图像和文本两部分的差值总和，目的是保证经过f_V(V；θ_V)以及f_T(T；θ_T)的转换使得原本同一模态中语义相近的数据在新空间中距离依然相近，语义较远的数据在新空间中距离依然较远。

为了保证不同模态下的数据经过特征映射后，具有相同语义的不同模态的数据距离较近，不同模态的不同语义的数据相距较远，根据第1到n个数据的语义分布l_1...n来构造语义相似度矩阵任意两个数据的语义分布分别是l_a和l_b，l_ai和l_bi分别表示语义分布第i维的值，它们的相似度计算如式(2)所示。

这里需要对所有的分布l_1...n进行相似度计算，并得到所有数据下的语义相似性，Sim_L的计算方法如式(3)所示。

Sim_L(i,j)＝sim(l_i,l_j) (3)

对于任意两组数据o_a和o_b，抽取o_a的图像，经过特征映射网后变成S_va.从o_b抽取文本，经过特征映射网络后变成S_tb，其相似度通过sim(S_va,S_tb)来计算。对整个数据集映射后的特征进行相似度求解，即为得到的映射后数据特征相似度矩阵，f_V和f_T分别表示图像和文本特征映射网络的前馈函数，θ_V和θ_T分别表示图像和文本的网络参数，如式(4)所示。

为保证不同模态之间的数据映射后的距离和它们表达的语义是相关的，即距离较近的数据语义分布也相近，距离较远的数据语义分布也较远，本发明选用l2范数来描述两个相似度矩阵之间的差异，并将差异值定义为模态偏差值L_imi(θ_V,θ_T)，如下式所示。

将特征映射网络的总体损失函数定义L_emb，通过由语义偏差L_imd以及模态偏差L_imi的线性加权求和构成。其中α和β分别表示两个偏差值对损失函数的贡献，映射损失的计算如式(5)、(6)所示。

L_emb(θ_V,θ_T,θ_imd)＝α·L_imd+β·L_imi (6)

2.模态判别网络

模态判别网络主要区分映射到公共语义空间的数据的原始模态。令通过图像映射后的数据标签为0，通过文本映射后的数据标签为1，模态判别网络尽可能对数据的原始模态进行准确判断。使用一个神经网络进行计算，并将该网络的损失函数定义为模态预测的偏差值。假设网络的参数是θ_D，D(x,θ_D)表示该网络判定x是文本的概率，损失函数L_adv计算如式(7)所示。

3.对抗学习设计

训练流程由两个网络结构的协同训练组成，训练目标如式(5)和式(7)所示。基于对抗的思想优化两个损失函数的值，特征映射网络目标是尽可能保持语义消除模态，模态判别网络的目标是尽可能在公共语义空间中区分不同数据的模态，特征映射网络和模态判别网络参数优化表达式如式(8)、(9)所示。

(θ_v,θ_T,θ_imd)＝argmin(L_emb(θ_V,θ_T,θ_imd)-L_adv(θ_D)) (8)

θ_D＝argmax(L_emb(θ_V,θ_T,θ_imd)-L_adv(θ_D)) (9)

具体训练过程如算法1所示。

算法1.SSACR方法训练过程

输入：基于mini-batch思想，抽取当前batch数据的图像特征{v₁,...,v_n}，图像特征{t₁,...,t_n}，语义分布{l₁,...,l_n}。

输出：训练好的θ_V和θ_T。

定义：特征映射网络单次训练迭代次数k，进行一次mini-batch采样的数据量m，学习效率为μ，折损参数为λ。

①：随机初始化模型各个参数。

②：朝梯度减小的方向优化θ_V、θ_T和θ_imd。

③：重复②k-1次。

④：朝梯度增大的方向优化θ_D。

⑤：重复②到④直到训练收敛。

⑥：返回θ_V和θ_T。

4.搜索算法设计

跨媒体搜索问题定义为给定一个新的搜索条目x，找到和x不同模态的最相近的top K个结果。搜索过程如算法2所示。

算法2.跨模态搜索过程

输入：搜索条目x，图像数据V，文本数据T

输出：搜索结果列表res。

①：如果x是文本，那么语义空间映射向量为

s＝f_T(x；θ_T)，否则s＝f_V(x；θ_V)。

②：计算与x不同模态数据的语义空间矩阵，如果x是文本，R＝f_V(V；θ_V)，如果x是图像，那么R＝f_T(T；θ_T)。

③：计算s和R的相似度矩阵S。S＝sim(x,R)

④：将S按照距离进行排序，并取前top K个。

res＝argsort(S)[:topK]

⑤：返回res。

Claims

1.基于对抗学习和语义相似度的社交网络跨媒体搜索方法，其特征在于，使用对抗学习方法框架构建训练特征映射网络和模态判别网络，其中特征映射网络使用多维语义分布向量将不同模态的数据映射到同一语义空间中，使得相同语义下的不同模态数据在该空间距离小，不同语义下相同模态数据距离大。跨媒体数据经过特征映射网络之后，既保留映射前的语义分布，又能够消除模态上的差异。

2.根据权利要求1所述的方法，其特征在于，使用语义分布及相似度作为特征映射网训练依据，模态判别网络负责判定空间中不同数据的模态。基于对抗学习交替训练两个网络，最终使得特征映射网络得到的数据和原数据语义一致，并消除模态特性，最终在同一空间内使用相似度来排序并得到搜索结果。

3.根据权利要求1所述的方法，其特征在于，使用语义相似度描述不同模态之间语义的距离。充分表达了相同语义下不同模态数据的相似性和差异性，使用实数表达而非简单二元组描述数据关联特征，并使用余弦相似度来刻画距离，使得结果更加准确。