CN109344266B - 一种基于双语义空间的对抗性跨媒体检索方法 - Google Patents

一种基于双语义空间的对抗性跨媒体检索方法 Download PDF

Info

Publication number
CN109344266B
CN109344266B CN201811106799.7A CN201811106799A CN109344266B CN 109344266 B CN109344266 B CN 109344266B CN 201811106799 A CN201811106799 A CN 201811106799A CN 109344266 B CN109344266 B CN 109344266B
Authority
CN
China
Prior art keywords
text
image
subspace
space
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811106799.7A
Other languages
English (en)
Other versions
CN109344266A (zh
Inventor
王文敏
夏雅娴
韩梁
王荣刚
李革
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Publication of CN109344266A publication Critical patent/CN109344266A/zh
Priority to PCT/CN2019/076400 priority Critical patent/WO2020001048A1/zh
Application granted granted Critical
Publication of CN109344266B publication Critical patent/CN109344266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

本发明公布了一种基于双语义空间的对抗性跨媒体检索方法,涉及模式识别、自然语言处理、多媒体检索等技术领域;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。本发明通过建立同构双语义空间,即文本子空间和图像子空间,实现在最大限度保留原有图像和文本信息的同时消除语义鸿沟;并通过对抗训练来优化同构子空间数据分布,挖掘多媒体数据中丰富的语义信息,在保证类别不变、模态可区分的情况下拟合语义空间中不同模态的向量分布。本发明方法能够有效的消除不同模态信息异构性,实现有效的跨媒体检索,在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

Description

一种基于双语义空间的对抗性跨媒体检索方法
技术领域
本发明涉及模式识别、自然语言处理、多媒体检索等技术领域,尤其涉及一种基于双语义空间的对抗性跨媒体检索方法,主要应用公共空间的特征映射来消除语义鸿沟,将不同模态的数据进行匹配达到检索的目的,并在跨媒体检索经典数据库中验证本方法的有效性。
背景技术
近年来,互联网技术飞速发展,随之而来的是多媒体信息的爆炸式增长,用户更倾向于通过检索获得多媒体信息结果,比如,用户输入关键字“狮子”,期望得到相关文字介绍以及其他模态的相关信息,比如狮子的图像,狮子的吼声以及狮子相关的视频等等。如此看来,传统的检索技术以经不能满足用户对于检索结果多样性、全面性的要求。跨媒体检索由于可以实现不同媒体间的灵活检索得到了广泛关注。其面临的挑战主要是不同模态的异构性和不可比性,以及不同模态所携带信息类型的不平衡性。比如,图片中包含更多的空间位置以及层次信息而文本中则包含着更多的上下文和背景信息。
现有方法大多将异构的特征映射到一个单一的同构空间,以消除“语义鸿沟”,但是,这样的处理同时伴随着大量的信息丢失,不同模态的特有信息不能得以保留,难以有效实现跨媒体检索。
发明内容
本发明提供了一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索。
本发明的技术方案是:
一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。
1)特征生成过程;
具体实施时,分别获取NUS-WIDE-10k和Wikipedia两个数据集的训练数据,验证数据及测试数据。并利用深度卷积神经网络CNN(Convolutional Neural Network)对训练及测试图像提取视觉特征向量,利用BoW(Bag of Words)模型对训练和测试文本提取“BoW文本特征向量”;设有n组训练数据,将图像和文本数据分别送入CNN网络和BoW模型,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};
2)双语义空间的构建过程,包括图像子空间和文本子空间;
本发明构建了双语义空间,即图像子空间和文本子空间。
21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失(triplet loss)进行同构空间特征优化,实现在最大限度保留图像信息的同时消除“语义鸿沟”。
具体执行如下操作:
211)在图像子空间中,图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布,为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中,尽量多的保留原有图像特征。
212)在同构图像子空间中定义三元组
Figure GDA0001832986620000021
其中vi表示参照用图片,tj +为与vi类别相同的正样例文本,
Figure GDA0001832986620000022
表示与vi类别不同的负样例文本,使用L2范数计算的不同模态数据间距离,表示为式1:
Figure GDA0001832986620000023
其中,fv(i)与ft(t)分别为图像与文本的映射函数,
Figure GDA0001832986620000024
表示同构空间内图像文本间的欧式距离。
以空间中的图像为参照,引入三元组约束(tripletconstraint)调整文本分布,即拉近相同语义的文本图像对(vi,tj +)的距离,同时增加语义不同的图像文本对
Figure GDA0001832986620000025
间距离。图像子空间三元组损失可以表示为式2:
Figure GDA0001832986620000026
其中,α为表示安全系数的超参数;
Figure GDA0001832986620000027
为图像子空间三元组损失;V表示图像子空间。
22)相似的,在文本子空间中实现图像特征映射以及文本特征调整。
具体执行如下操作:
221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构,同时避免大量损失原有文本信息。两个映射函数均为使用ReLU激活函数的3层全连接网络。
222)文本子空间的三元组损失
Figure GDA0001832986620000031
可以表示为式3:
Figure GDA0001832986620000032
其中,α为表示安全系数的超参数,与式2中相同。ΦT表示文本子空间内的三元组
Figure GDA0001832986620000033
ti为参照用文本,vj +是与ti类别相同的正样例图片,
Figure GDA0001832986620000034
是与ti类别不同的负样例图片。
223)两个语义子空间平行工作,实现特征提取的互补与平衡。
将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表达式如式4,其中ηV、ηT为超参数:
Figure GDA0001832986620000035
3)对抗性语义空间优化过程
本发明引入对抗性学习优化双语义空间,在保证类别不变的前提下拟合不同模态的空间分布,同时保证模态可判别,上述结果反向传输更新双语义空间,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务。
执行如下操作:
31)采用类别预测(concept prediction)方法,设定包含图像子空间和文本子空间的类别恒定目标函数,分别对图像子空间和文本子空间进行优化,使得子空间内不同模态特征映射或调整前后类别不变;
以图像子空间为例,优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差,其表达式如下:
Figure GDA0001832986620000036
式中,N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率;
文本子空间内目标函数
Figure GDA0001832986620000037
定义类似:
Figure GDA0001832986620000038
pcv(I))与pct(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率;
类别恒定目标函数整体可表示为式7:
Figure GDA0001832986620000041
32)利用对抗性学习模型更新优化双空间网络参数,其中将步骤212)、221)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)作为对抗性学习模型的生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数表达式为式8:
LG=μc·Lctri·Ltri (式8)
其中,μc、μtri为超参数。
对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。具体实施时,本发明使用3层前向传播全连接网络进行模态判别。
以图像子空间为例,其优化目标是使得数据模态真实分布mi与模态预测概率分布误差最小化,其表达式为式9:
Figure GDA0001832986620000042
其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测。
文本子空间内目标函数
Figure GDA0001832986620000043
表达式与上述表达式类似:
Figure GDA0001832986620000044
D(ψv(I))与D(ψt(T))分别为同构文本子空间内图像与文本向量的模态预测。
判别器在双子空间内的目标函数整体可以表示为式11:
Figure GDA0001832986620000045
生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间。
利用优化的同构双语义空间,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”,即可实现基于双语义空间的对抗性跨媒体的检索。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于双语义空间的对抗性跨媒体检索方法,其技术优势体现在:
(一)通过建立文本子空间和图像子空间,分别保留不同模态内部特征。在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,实现在最大限度保留图像信息的同时消除“语义鸿沟”。相似的,在文本子空间中实现图像特征映射以及文本特征调整。两个语义子空间平行工作,实现特征提取的互补与平衡。
(二)通过对抗训练来挖掘多媒体数据中丰富的语义信息,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务实现有效的跨媒体检索。
附图说明
图1是本发明提供方法的整体流程框图。
图2是本发明实施例中进行同构空间特征优化的示意图;
其中,(a)是图像子空间内三元组分布优化;(b)是文本子空间内三元组分布优化。
图3是本发明实施例进行文本检索图像的结果示例图,
其中,第一列为检索用文本,第二列为数据集给定的匹配图像,列3至列7为mAP值前五的对应检索结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索。
本发明提供的方法包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;图1所示是本发明提供方法的流程,具体步骤如下:
1)假设有n组训练数据,将图像和文本数据分别送入CNN网络和BoW模型,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn},
2)在图像子空间中,图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布,为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中,尽量多的保留原有图像特征。
3)在同构图像子空间中定义三元组
Figure GDA0001832986620000051
其中vi表示参照用图片,tj +为与vi类别相同的正样例文本,
Figure GDA0001832986620000052
表示与vi类别不同的负样例文本,使用L2范数计算的不同模态数据间距离:
Figure GDA0001832986620000053
其中fv(i)与ft(t)分别为图像与文本的映射函数,
Figure GDA0001832986620000061
表示同构空间内图像文本间的欧式距离。
以空间中的图像为参照,引入三元组约束(tripletconstraint)调整文本分布,即拉近相同语义的文本图像对(vi,tj +)的距离,同时增加语义不同的图像文本对
Figure GDA0001832986620000062
间距离。图像子空间三元组损失可以表示为:
Figure GDA0001832986620000063
其中α为表示安全系数的超参数。
4)在文本子空间中,文本特征T经过文本映射函数ψt(T)在同原本文本维度空间特征分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构,同时避免大量损失原有文本信息。二者均为使用ReLU激活函数的3层全连接网络。与图像子空间类似,文本子空间的三元组损失可以表示为:
Figure GDA0001832986620000064
其中α为表示安全系数的超参数。Φ表示文本子空间内的三元组
Figure GDA0001832986620000065
ti为参照用文本,vj +是与ti类别相同的正样例图片,
Figure GDA0001832986620000066
是与ti类别不同的负样例图片。
5)将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表达式如下,其中η为超参数:
Figure GDA0001832986620000067
6)引入类别预测(concept prediction),保证子空间内不同模态特征映射或调整前后类别不变,以图像空间为例,优化目标是最小化数据类别真实分布ci与同构空间内向量的类别预测概率分布pc(fv(T))、pc(ft(T))间的误差,其表达式如下:
Figure GDA0001832986620000068
N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率。
文本子空间内目标函数
Figure GDA0001832986620000069
定义类似,类别恒定目标函数整体可表示为:
Figure GDA0001832986620000071
7)对抗性学习模型更新优化双空间网络参数,其中步骤3)、4)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)为对抗性学习模型中生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数表达式为:
LG=μc·Lctri·Ltri
其中μc、μtri为超参数。
判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。本发明使用3层前向传播全连接网络进行模态判别。以图像子空间为例,其优化目标是使得数据模态真实分布与模态预测概率分布误差最小化,其表达式为:
Figure GDA0001832986620000072
其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测。
文本子空间内目标函数
Figure GDA0001832986620000073
表达式与上述表达式类似,判别器在双子空间内的目标函数整体可以表示为:
Figure GDA0001832986620000074
8)生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间。利用优化的同构双语义空间,即可实现基于双语义空间的对抗性跨媒体的检索。
图3是本发明实施例中进行同构空间特征优化的示意图;其中,(a)是图像子空间内三元组分布优化;(b)是文本子空间内三元组分布优化。
表1给出了采用本发明提供的跨媒体检索方法及现有方法[1]-[6]在NUS-WIDE-10k和Wikipedia两个数据集进行检索得到的检索结果以得到的检索结果的对比。
表1NUS-WIDE-10k和Wikipedia数据集在不同方法上的检索结果
Figure GDA0001832986620000075
Figure GDA0001832986620000081
其中,现有方法[1]-[6]分别为:
文献[1](Rasiwasia,N.,Pereira,J.C.,Coviello,E.,Doyle,G.,Lanckriet,G.R.G.,Levy,R.,Vasconcelos,N.:A new approach to cross-modal multimediaretrieval.In:International Conference on Multimedia.pp.251–260(2010))记载的CCA方法;
文献[2](Srivastava,N.,Salakhutdinov,R.:Learning representations formultimodal data with deep belief nets.In:ICML Workshop)记载的Multimodal DBN方法;
文献[3](Feng,F.,Wang,X.,Li,R.:Cross-modal retrieval withcorrespondence autoencoder pp.7–16(2014))记载的Corr-AE方法;
文献([4]Zhai,X.,Peng,Y.,Xiao,J.:Learning cross-media jointrepresentation with sparse and semisupervised regularization.IEEETransactions on Circuits and Systems for Video Technology24(6),965–978(2014))记载的JRL方法;
文献([5]Wang,B.,Yang,Y.,Xu,X.,Hanjalic,A.,Shen,H.T.:Adversarialcross-modal retrieval.In:ACM on Multimedia Conference.pp.154–162(2017))记载的ACMR方法;
文献([6]Peng,Y.,Qi,J.,Yuan,Y.:Modality-specific cross-modalsimilarity measurement with recurrent attention network(2017))记载的MCSM方法。
表2给出了本发明提供的跨媒体检索方法及本发明两个变体(仅有图像空间和仅有文本空间)对NUS-WIDE-10k和Wikipedia两个数据集进行检索,得到的检索结果的对比。
表2NUS-WIDE-10k和Wikipedia数据集在图像空间、文本空间和双语义空间的检索结果
Figure GDA0001832986620000082
表1和表2中,检索结果用mAP值衡量,mAP值越高,检索效果越优异。
从表1中可以看出,与现有方法比较,本发明在图像检索文本和文本检索图像两大任务上检索正确率均有明显提升,表2结果显示,虽然NUS-WIDE-10k数据集上的检索结果显示,在图像检索文本任务上双语义空间的mAP值稍低于仅在文本空间的结果,但双空间的平均检索结果在两个数据集上均明显高于单空间,充分验证了本发明中所提出的的双语义空间检索结构的有效性。图3是本发明实施例进行文本检索图像的结果示例图。图中,第一列为检索用文本,第二列为数据集给定的匹配图像,列3至列7为mAP值前五的对应检索结果,显示了本发明用于检索的有效性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (4)

1.一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练挖掘多媒体数据中的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;
1)特征生成过程;执行如下操作:
获取训练数据,验证数据及测试数据;
利用深度卷积神经网络CNN模型,对训练及测试图像提取视觉特征向量,利用BoW模型对训练和测试文本提取得到BoW文本特征向量;设有n组训练数据,提取到的特征分别表示为图像特征I={i1,i2,...,in}和文本特征T={t1,t2,...,tn};
2)双语义空间的构建过程,包括图像子空间和文本子空间;执行如下操作:
21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,保留图像信息并消除语义鸿沟;具体执行如下操作:
211)在图像子空间中,图像特征I经过三层全连接网络在原有维度上调整特征分布,网络最后一层使用ReLU激活函数;引入三层全连接网络,将文本特征T映射到图像空间当中,保留原有图像特征;
212)在同构图像子空间中定义三元组
Figure FDA0003119132050000011
其中vi表示参照用图片,
Figure FDA0003119132050000012
为与vi类别相同的正样例文本,
Figure FDA0003119132050000013
表示与vi类别不同的负样例文本;使用L2范数计算的不同模态数据间距离,表示为式1:
Figure FDA0003119132050000014
其中,fv(v)与ft(t)分别为图像与文本在图像子空间内的映射函数,
Figure FDA0003119132050000015
表示同构空间内图像文本间的欧式距离;
引入图像子空间三元组约束调整文本图像分布,拉近相同语义的文本图像对
Figure FDA0003119132050000016
的距离,同时增加语义不同的图像文本对
Figure FDA0003119132050000017
间距离;图像子空间三元组损失
Figure FDA0003119132050000018
可以表示为式2:
Figure FDA0003119132050000019
其中,α为表示安全系数的超参数;
Figure FDA00031191320500000110
为图像子空间三元组损失;V表示图像子空间;
22)在文本子空间中实现图像特征映射及文本特征调整;执行如下操作:
221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构;
222)文本子空间的三元组损失
Figure FDA0003119132050000021
表示为式3:
Figure FDA0003119132050000022
其中,α为表示安全系数的超参数;ΦT表示文本子空间内的三元组
Figure FDA0003119132050000023
ti为参照用文本,
Figure FDA0003119132050000024
是与ti类别相同的正样例图片,
Figure FDA0003119132050000025
是与ti类别不同的负样例图片;
223)图像子空间和文本子空间平行工作,实现特征提取的互补与平衡;
将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表示为式4,其中ηV、ηT为超参数:
Figure FDA0003119132050000026
3)对抗性语义空间优化过程;执行如下操作:
31)采用类别预测方法,设定包含图像子空间和文本子空间的类别恒定目标函数,分别对图像子空间和文本子空间进行优化,使得子空间内不同模态特征映射或调整前后类别不变;
设定图像子空间内的目标函数
Figure FDA0003119132050000027
文本子空间内的目标函数
Figure FDA0003119132050000028
是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差;类别恒定目标函数表示为式7:
Figure FDA0003119132050000029
32)利用对抗性学习模型更新优化双空间网络参数,将步骤212)、221)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)作为对抗性学习模型的生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数LG表达式为式8:
LG=μc·Lctri·Ltri (式8)
其中,μc、μtri为超参数;
对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本;
设定图像子空间内的优化目标为
Figure FDA0003119132050000031
文本子空间内目标函数为
Figure FDA0003119132050000032
判别器在双子空间内的目标函数LD表示为式11:
Figure FDA0003119132050000033
生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间;
利用最优化的同构双语义空间,完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”,即可实现基于双语义空间的对抗性跨媒体的检索。
2.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法,其特征是,步骤31)中,对图像子空间,优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差,表示为式5:
Figure FDA0003119132050000034
式中,N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率;
文本子空间内目标函数
Figure FDA0003119132050000035
定义为式6:
Figure FDA0003119132050000036
其中,pcv(I))与pct(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率。
3.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法,其特征是,步骤32)中,对图像子空间,优化目标是使得数据模态真实分布mi与模态预测概率分布误差最小化,表示为式9:
Figure FDA0003119132050000037
其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测;
文本子空间内目标函数
Figure FDA0003119132050000038
表示为式10:
Figure FDA0003119132050000039
D(ψv(I))与D(ψt(T))分别为同构文本子空间内图像与文本向量的模态预测。
4.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法,其特征是,步骤32)具体使用3层前向传播全连接网络进行模态判别。
CN201811106799.7A 2018-06-29 2018-09-21 一种基于双语义空间的对抗性跨媒体检索方法 Active CN109344266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/076400 WO2020001048A1 (zh) 2018-06-29 2019-02-28 一种基于双语义空间的对抗性跨媒体检索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018106954064 2018-06-29
CN201810695406 2018-06-29

Publications (2)

Publication Number Publication Date
CN109344266A CN109344266A (zh) 2019-02-15
CN109344266B true CN109344266B (zh) 2021-08-06

Family

ID=65306536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811106799.7A Active CN109344266B (zh) 2018-06-29 2018-09-21 一种基于双语义空间的对抗性跨媒体检索方法

Country Status (2)

Country Link
CN (1) CN109344266B (zh)
WO (1) WO2020001048A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN109933802B (zh) * 2019-03-25 2023-05-26 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110059217B (zh) * 2019-04-29 2022-11-04 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN111783980B (zh) * 2020-06-28 2023-04-07 大连理工大学 基于双重协作生成式对抗网络的排序学习方法
CN112001279B (zh) * 2020-08-12 2022-02-01 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN112949384B (zh) * 2021-01-23 2024-03-08 西北工业大学 一种基于对抗性特征提取的遥感图像场景分类方法
CN113435206B (zh) * 2021-05-26 2023-08-01 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN114863194B (zh) * 2022-07-11 2022-11-18 北京邮电大学 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
CN115470365B (zh) * 2022-11-09 2023-04-07 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095893A (zh) * 2016-06-06 2016-11-09 北京大学深圳研究生院 一种跨媒体检索方法
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7861260B2 (en) * 2007-04-17 2010-12-28 Almondnet, Inc. Targeted television advertisements based on online behavior
CN104317834B (zh) * 2014-10-10 2017-09-29 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN106095829B (zh) * 2016-06-01 2019-08-06 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095893A (zh) * 2016-06-06 2016-11-09 北京大学深圳研究生院 一种跨媒体检索方法
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Web数据管理研究进展;王晖等;《小型微型计算机系统》;20110130;第32卷(第1期);第1-8页 *

Also Published As

Publication number Publication date
CN109344266A (zh) 2019-02-15
WO2020001048A1 (zh) 2020-01-02

Similar Documents

Publication Publication Date Title
CN109344266B (zh) 一种基于双语义空间的对抗性跨媒体检索方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
Xu et al. Multilevel language and vision integration for text-to-clip retrieval
WO2023280065A1 (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN110188228B (zh) 基于草图检索三维模型的跨模态检索方法
Wang et al. How to trust unlabeled data? instance credibility inference for few-shot learning
Cao et al. Hybrid representation learning for cross-modal retrieval
CN109978021B (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
US11928957B2 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN107066558A (zh) 基于人工智能的引导项推荐方法及装置、设备与可读介质
CN107563409B (zh) 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN103440274A (zh) 一种基于细节描述的视频事件概要图构造和匹配方法
CN109472282B (zh) 一种基于极少训练样本的深度图像哈希方法
CN113822340A (zh) 一种基于注意力机制的图文情感识别方法
CN112818157B (zh) 一种基于多阶对抗特征学习的组合查询图像检索方法
Tian et al. Deep cross-modal face naming for people news retrieval
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
Wang et al. Listen, look, and find the one: Robust person search with multimodality index
CN117150069A (zh) 基于全局与局部语义对比学习的跨模态检索方法及系统
CN111309969A (zh) 一种匹配文字信息的视频检索方法
CN116894085A (zh) 对话生成方法及装置、电子设备和存储介质
CN110717068A (zh) 一种基于深度学习的视频检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant