CN110502743A - 基于对抗学习和语义相似度的社交网络跨媒体搜索方法 - Google Patents

基于对抗学习和语义相似度的社交网络跨媒体搜索方法 Download PDF

Info

Publication number
CN110502743A
CN110502743A CN201910631327.1A CN201910631327A CN110502743A CN 110502743 A CN110502743 A CN 110502743A CN 201910631327 A CN201910631327 A CN 201910631327A CN 110502743 A CN110502743 A CN 110502743A
Authority
CN
China
Prior art keywords
semantic
data
network
similarity
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910631327.1A
Other languages
English (en)
Inventor
杜军平
薛哲
刘翀
周南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910631327.1A priority Critical patent/CN110502743A/zh
Publication of CN110502743A publication Critical patent/CN110502743A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法,包含文本和图像的特征提取网络、公共语义空间映射网络、语义相似度网络以及模态判别网络,创新性突出,主要用于社交网络跨媒体搜索中。本发明应用在图像以及文本处理领域,可以处理不同模态下的跨媒体数据,使得跨媒体数据之间的检索高效并且准确。

Description

基于对抗学习和语义相似度的社交网络跨媒体搜索方法
技术领域
本发明属于图像处理和文本处理的技术领域,具体涉及到跨媒体数据之间的相互检索,集成多种技术,如对抗学习、深度神经网络、语义融合、排序搜索算法等,最终实现跨媒体数据的语义关联以及搜索。
背景技术
随着移动互联网的高速发展,社交网络数据信息呈现爆炸式增长,越来越多的用户在各类社交媒体上发布大量实时信息,其中有关国民安全的信息显得尤为重要。在事故灾害发生的时候,能及时搜索到和灾害相关的文本和图像,能在一定程度上减小灾害带来的损失。微博是社交网络重要的组成部分,具有内容短小,传播快,用户量大等特点。微博数据对于国民安全相关热点事件内容具有敏感性,因此具有非常高的研究价值。微博数据的形式不仅包括文本,还有图像和视频,单一媒体数据的搜索已经不能很好地满足现有的社交网络信息需求,社交网络尤其是基于微博的跨媒体信息搜索的需求与日俱增。
近年来,深度学习在文本和图像领域应用十分广泛,它对数据特征的提取准确而高效,为跨媒体搜索提供了支持。然而不同模态之间的数据特征分布不同,语义空间不能互通,即包含相同语义内容的文本和图像不能通过它们所在的语义空间直接建立关联关系。对抗学习对于生成一个新的数据分布非常有效,已经被广泛应用于文本、图像、语音的生成。
提出一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法(SemanticSimilarity based Adversarial Cross Media Retrieval,SSACR),对国民安全相关的微博文本以及图像进行搜索,并根据语义相似度进行排序。该方法主要使用对抗训练的方式训练两个神经网络模型,即特征映射网络和模态判别网络。特征映射网络作为对抗学习的生成器,分别将来自文本和图像的特征映射到同一语义空间中,并使用语义及其相似度来训练特征映射网络,相似度约束能够减小同语义下不同模态数据的差异。模态判别网络作为对抗学习判别器,用来区分映射到同一语义空间中的数据的原本模态,并以数据的真实模态来训练模态判别网络。本发明提出的方法将搜索的文本或图像经过特征映射网络投影到同一语义空间后,根据和该空间中其他数据距离的远近来得到搜索结果排序。
发明内容
本发明所提出的基于对抗学习和语义相似度的社交网络跨媒体搜索方法(SSACR)包括图像特征输入网络、文本特征输入网络、特征映射网络、语义分布网络、语义相似网络以及模态判别网络。对于每一个图像-文本-语义三元组,先将图像和文本的特征进行提取,然后分别输入到图像特征映射网络和文本特征映射网络中,语义向量输入到语义分布网络中。语义相似度网络对输入的语义向量进行相似度计算。特征映射网络将图像和文本特征映射到S中,模态判别网络根据映射到S数据的模态进行判别。总体流程如图1所示。
本发明提出的SSACR方法在公共语义空间S中得到合适的SV和ST,使得它们保持映射前的语义关系,同时使得语义相近的不同模态的数据在S中距离较近,相同模态的不同语义的数据在S中距离较远。
为达到上述目的,如图1所示,本发明的技术方案划分为四个部分:
1.基于深度卷积网络的图像特征提取;
2.基于TF-IDF的文本特征提取;
3.基于余弦相似度的跨模态语义相似度的计算;
4.基于对抗网络的模态判别。
本发明有以下一些技术特征:
(1)通过反复堆叠3*3的小型卷积核和2*2的最大池化层,使VGGNet构筑16~19层卷积层和全连接层的深度卷积神经网络,对大规模图像的特征进行有效提取,极大加快了特征提取速度以及准确性,并且为后续训练提供统一特征,方便后续训练。
(2)使用TFIDF特征对文本进行向量化,在词频的角度将文本切割为单词的集合,用词的文档频率以及逆文档频率进行建模,使得频率特征充分体现,进一步对训练的速度进行提升。
(3)使用语义相似度技术,利用深度神经网络将来自文本以及图像的特征向同一个语义空间进行投影,并提出使用余弦相似度计算不同模态数据之间语义之间的相似度,并根据已有的语义标签作为参考,使得投影的向量能够保持语义信息,增加语义有效性,并根据投影前后语义损失进行训练,使得投影前后语义保持恰当。
(4)基于对抗学习的思想训练模态判别网络,使得判别网络能区分公共语义空间中数据的原始模态,交替训练特征映射网络以及模态判别网络,最终使得两个网络都得到充分的训练,最终使得语义映射网络映射的语义足够精确,贴合原始语义分布。
本发明提出了一种基于对抗网络和语义相似性的跨媒体搜索模型,包含文本和图像的特征提取网络,公共语义空间映射网络,语义相似度网络以及模态判别网络,创新性突出,主要用于社交网络跨媒体搜索中。本发明应用在图像以及文本处理领域,可以处理不同模态下的跨媒体数据,使得跨媒体数据之间的检索高效并且准确。
附图说明
图1为基于对抗学习和语义相似度的社交网络跨媒体搜索方法总体流程图;
具体实施方式
以下参照附图对本发明做进一步详细地说明。本发明算法的具体实现分为以下几步:
1.特征映射网络
特征映射网络分为两部分,图像特征映射网络和文本特征映射网络,它们负责把原始数据特征映射到同一语义空间当中。为了保证映射之后的数据维持原模态的语义特征,在特征映射网络后面加入一个语义预测网络,并将分类器softmax的输出作为结果用于预测映射到同一语义空间的数据的语义分布。令网络的参数为θimd,图像、文本两种模态中第i个数据语义分布的第c维值分别是pic(vi)和pic(ti),使用交叉熵计算新空间中语义的偏差值Limd,n为数据个数,dl为语义向量维数,yic为第i个数据的第c维真实语义值。如式(1)所示。
其中,Limd计算在新的语义空间中每个新映射的数据和原来数据语义分布的差值,包括图像和文本两部分的差值总和,目的是保证经过fV(V;θV)以及fT(T;θT)的转换使得原本同一模态中语义相近的数据在新空间中距离依然相近,语义较远的数据在新空间中距离依然较远。
为了保证不同模态下的数据经过特征映射后,具有相同语义的不同模态的数据距离较近,不同模态的不同语义的数据相距较远,根据第1到n个数据的语义分布l1...n来构造语义相似度矩阵任意两个数据的语义分布分别是la和lb,lai和lbi分别表示语义分布第i维的值,它们的相似度计算如式(2)所示。
这里需要对所有的分布l1...n进行相似度计算,并得到所有数据下的语义相似性,SimL的计算方法如式(3)所示。
SimL(i,j)=sim(li,lj) (3)
对于任意两组数据oa和ob,抽取oa的图像,经过特征映射网后变成Sva.从ob抽取文本,经过特征映射网络后变成Stb,其相似度通过sim(Sva,Stb)来计算。对整个数据集映射后的特征进行相似度求解,即为得到的映射后数据特征相似度矩阵,fV和fT分别表示图像和文本特征映射网络的前馈函数,θV和θT分别表示图像和文本的网络参数,如式(4)所示。
为保证不同模态之间的数据映射后的距离和它们表达的语义是相关的,即距离较近的数据语义分布也相近,距离较远的数据语义分布也较远,本发明选用l2范数来描述两个相似度矩阵之间的差异,并将差异值定义为模态偏差值LimiVT),如下式所示。
将特征映射网络的总体损失函数定义Lemb,通过由语义偏差Limd以及模态偏差Limi的线性加权求和构成。其中α和β分别表示两个偏差值对损失函数的贡献,映射损失的计算如式(5)、(6)所示。
LembVTimd)=α·Limd+β·Limi (6)
2.模态判别网络
模态判别网络主要区分映射到公共语义空间的数据的原始模态。令通过图像映射后的数据标签为0,通过文本映射后的数据标签为1,模态判别网络尽可能对数据的原始模态进行准确判断。使用一个神经网络进行计算,并将该网络的损失函数定义为模态预测的偏差值。假设网络的参数是θD,D(x,θD)表示该网络判定x是文本的概率,损失函数Ladv计算如式(7)所示。
3.对抗学习设计
训练流程由两个网络结构的协同训练组成,训练目标如式(5)和式(7)所示。基于对抗的思想优化两个损失函数的值,特征映射网络目标是尽可能保持语义消除模态,模态判别网络的目标是尽可能在公共语义空间中区分不同数据的模态,特征映射网络和模态判别网络参数优化表达式如式(8)、(9)所示。
vTimd)=argmin(LembVTimd)-LadvD)) (8)
θD=argmax(LembVTimd)-LadvD)) (9)
具体训练过程如算法1所示。
算法1.SSACR方法训练过程
输入:基于mini-batch思想,抽取当前batch数据的图像特征{v1,...,vn},图像特征{t1,...,tn},语义分布{l1,...,ln}。
输出:训练好的θV和θT
定义:特征映射网络单次训练迭代次数k,进行一次mini-batch采样的数据量m,学习效率为μ,折损参数为λ。
①:随机初始化模型各个参数。
②:朝梯度减小的方向优化θV、θT和θimd
③:重复②k-1次。
④:朝梯度增大的方向优化θD
⑤:重复②到④直到训练收敛。
⑥:返回θV和θT
4.搜索算法设计
跨媒体搜索问题定义为给定一个新的搜索条目x,找到和x不同模态的最相近的top K个结果。搜索过程如算法2所示。
算法2.跨模态搜索过程
输入:搜索条目x,图像数据V,文本数据T
输出:搜索结果列表res。
①:如果x是文本,那么语义空间映射向量为
s=fT(x;θT),否则s=fV(x;θV)。
②:计算与x不同模态数据的语义空间矩阵,如果x是文本,R=fV(V;θV),如果x是图像,那么R=fT(T;θT)。
③:计算s和R的相似度矩阵S。S=sim(x,R)
④:将S按照距离进行排序,并取前top K个。
res=argsort(S)[:topK]
⑤:返回res。

Claims (3)

1.基于对抗学习和语义相似度的社交网络跨媒体搜索方法,其特征在于,使用对抗学习方法框架构建训练特征映射网络和模态判别网络,其中特征映射网络使用多维语义分布向量将不同模态的数据映射到同一语义空间中,使得相同语义下的不同模态数据在该空间距离小,不同语义下相同模态数据距离大。跨媒体数据经过特征映射网络之后,既保留映射前的语义分布,又能够消除模态上的差异。
2.根据权利要求1所述的方法,其特征在于,使用语义分布及相似度作为特征映射网训练依据,模态判别网络负责判定空间中不同数据的模态。基于对抗学习交替训练两个网络,最终使得特征映射网络得到的数据和原数据语义一致,并消除模态特性,最终在同一空间内使用相似度来排序并得到搜索结果。
3.根据权利要求1所述的方法,其特征在于,使用语义相似度描述不同模态之间语义的距离。充分表达了相同语义下不同模态数据的相似性和差异性,使用实数表达而非简单二元组描述数据关联特征,并使用余弦相似度来刻画距离,使得结果更加准确。
CN201910631327.1A 2019-07-12 2019-07-12 基于对抗学习和语义相似度的社交网络跨媒体搜索方法 Pending CN110502743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910631327.1A CN110502743A (zh) 2019-07-12 2019-07-12 基于对抗学习和语义相似度的社交网络跨媒体搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910631327.1A CN110502743A (zh) 2019-07-12 2019-07-12 基于对抗学习和语义相似度的社交网络跨媒体搜索方法

Publications (1)

Publication Number Publication Date
CN110502743A true CN110502743A (zh) 2019-11-26

Family

ID=68585378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910631327.1A Pending CN110502743A (zh) 2019-07-12 2019-07-12 基于对抗学习和语义相似度的社交网络跨媒体搜索方法

Country Status (1)

Country Link
CN (1) CN110502743A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291563A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 词向量对齐方法和词向量对齐模型训练方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113239237A (zh) * 2021-07-13 2021-08-10 北京邮电大学 跨媒体大数据搜索方法及装置
CN113254678A (zh) * 2021-07-14 2021-08-13 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN113673685A (zh) * 2021-08-31 2021-11-19 西湖大学 基于流形学习的数据嵌入方法
CN116821408A (zh) * 2023-08-29 2023-09-29 南京航空航天大学 一种多任务一致性对抗的检索方法及系统
CN116955699A (zh) * 2023-07-18 2023-10-27 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOKUN WANG 等: "Adversarial cross-modal Retrieval", 《MM "17: PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
刘翀 等: "一种基于对抗学习和语义相似度的社交网络跨媒体", 《中国科学》 *
崔婉秋 等: "基于用户意图理解的社交网络跨媒体搜索与挖掘", 《智能系统学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291563B (zh) * 2020-01-20 2023-09-01 腾讯科技(深圳)有限公司 词向量对齐方法和词向量对齐模型训练方法
CN111291563A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 词向量对齐方法和词向量对齐模型训练方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111581405B (zh) * 2020-04-26 2021-10-26 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113239237A (zh) * 2021-07-13 2021-08-10 北京邮电大学 跨媒体大数据搜索方法及装置
CN113239237B (zh) * 2021-07-13 2021-11-30 北京邮电大学 跨媒体大数据搜索方法及装置
CN113254678A (zh) * 2021-07-14 2021-08-13 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN113254678B (zh) * 2021-07-14 2021-10-01 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN113673685A (zh) * 2021-08-31 2021-11-19 西湖大学 基于流形学习的数据嵌入方法
CN113673685B (zh) * 2021-08-31 2024-03-15 西湖大学 基于流形学习的数据嵌入方法
CN116955699A (zh) * 2023-07-18 2023-10-27 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN116955699B (zh) * 2023-07-18 2024-04-26 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN116821408A (zh) * 2023-08-29 2023-09-29 南京航空航天大学 一种多任务一致性对抗的检索方法及系统
CN116821408B (zh) * 2023-08-29 2023-12-01 南京航空航天大学 一种多任务一致性对抗的检索方法及系统

Similar Documents

Publication Publication Date Title
CN110502743A (zh) 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
US11544550B2 (en) Analyzing spatially-sparse data based on submanifold sparse convolutional neural networks
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
Kiros et al. Skip-thought vectors
CN109145112A (zh) 一种基于全局信息注意力机制的商品评论分类方法
US10678786B2 (en) Translating search queries on online social networks
CN108319686A (zh) 基于受限文本空间的对抗性跨媒体检索方法
US20190108282A1 (en) Parsing and Classifying Search Queries on Online Social Networks
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN109766432A (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
CN105393263A (zh) 计算机-人交互式学习中的特征完成
Wang et al. A hybrid model of sentimental entity recognition on mobile social media
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN108573068A (zh) 一种基于深度学习的文本表示与分类方法
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
Ji et al. Knowing what to learn: a metric-oriented focal mechanism for image captioning
CN109960755B (zh) 一种基于动态迭代快速梯度的用户隐私保护方法
CN113705218A (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
Zhou et al. Multi‐channel sliced deep RCNN with residual network for text classification
Zhang et al. Hierarchical scene parsing by weakly supervised learning with image descriptions
CN102662987B (zh) 一种基于百度百科的网络文本语义的分类方法
CN112256904A (zh) 一种基于视觉描述语句的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191126

WD01 Invention patent application deemed withdrawn after publication