CN109344266A - 一种基于双语义空间的对抗性跨媒体检索方法 - Google Patents
一种基于双语义空间的对抗性跨媒体检索方法 Download PDFInfo
- Publication number
- CN109344266A CN109344266A CN201811106799.7A CN201811106799A CN109344266A CN 109344266 A CN109344266 A CN 109344266A CN 201811106799 A CN201811106799 A CN 201811106799A CN 109344266 A CN109344266 A CN 109344266A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- subspace
- space
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000009977 dual effect Effects 0.000 title claims abstract description 37
- 230000008485 antagonism Effects 0.000 title claims abstract description 29
- 238000005457 optimization Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 18
- 230000013016 learning Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 241000282320 Panthera leo Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种基于双语义空间的对抗性跨媒体检索方法,涉及模式识别、自然语言处理、多媒体检索等技术领域;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。本发明通过建立同构双语义空间,即文本子空间和图像子空间,实现在最大限度保留原有图像和文本信息的同时消除语义鸿沟;并通过对抗训练来优化同构子空间数据分布,挖掘多媒体数据中丰富的语义信息,在保证类别不变、模态可区分的情况下拟合语义空间中不同模态的向量分布。本发明方法能够有效的消除不同模态信息异构性,实现有效的跨媒体检索,在图文检索、模式识别等领域具有广泛的市场需求和应用前景。
Description
技术领域
本发明涉及模式识别、自然语言处理、多媒体检索等技术领域,尤其涉及一种基于双语义空间的对抗性跨媒体检索方法,主要应用公共空间的特征映射来消除语义鸿沟,将不同模态的数据进行匹配达到检索的目的,并在跨媒体检索经典数据库中验证本方法的有效性。
背景技术
近年来,互联网技术飞速发展,随之而来的是多媒体信息的爆炸式增长,用户更倾向于通过检索获得多媒体信息结果,比如,用户输入关键字“狮子”,期望得到相关文字介绍以及其他模态的相关信息,比如狮子的图像,狮子的吼声以及狮子相关的视频等等。如此看来,传统的检索技术以经不能满足用户对于检索结果多样性、全面性的要求。跨媒体检索由于可以实现不同媒体间的灵活检索得到了广泛关注。其面临的挑战主要是不同模态的异构性和不可比性,以及不同模态所携带信息类型的不平衡性。比如,图片中包含更多的空间位置以及层次信息而文本中则包含着更多的上下文和背景信息。
现有方法大多将异构的特征映射到一个单一的同构空间,以消除“语义鸿沟”,但是,这样的处理同时伴随着大量的信息丢失,不同模态的特有信息不能得以保留,难以有效实现跨媒体检索。
发明内容
本发明提供了一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索。
本发明的技术方案是:
一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。
1)特征生成过程;
具体实施时,分别获取NUS-WIDE-10k和Wikipedia两个数据集的训练数据,验证数据及测试数据。并利用深度卷积神经网络CNN(Convolutional Neural Network)对训练及测试图像提取视觉特征向量,利用BoW(Bag of Words)模型对训练和测试文本提取“BoW文本特征向量”;设有n组训练数据,将图像和文本数据分别送入CNN网络和BoW模型,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};
2)双语义空间的构建过程,包括图像子空间和文本子空间;
本发明构建了双语义空间,即图像子空间和文本子空间。
21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失(triplet loss)进行同构空间特征优化,实现在最大限度保留图像信息的同时消除“语义鸿沟”。
具体执行如下操作:
211)在图像子空间中,图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布,为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中,尽量多的保留原有图像特征。
212)在同构图像子空间中定义三元组其中vi表示参照用图片,为与 vi类别相同的正样例文本,表示与vi类别不同的负样例文本,使用L2范数计算的不同模态数据间距离,表示为式1:
其中,fv(i)与ft(t)分别为图像与文本的映射函数,表示同构空间内图像文本间的欧式距离。
以空间中的图像为参照,引入三元组约束(triplet constraint)调整文本分布,即拉近相同语义的文本图像对的距离,同时增加语义不同的图像文本对间距离。图像子空间三元组损失可以表示为式2:
其中,α为表示安全系数的超参数;为图像子空间三元组损失;V表示图像子空间。
22)相似的,在文本子空间中实现图像特征映射以及文本特征调整。
具体执行如下操作:
221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构,同时避免大量损失原有文本信息。两个映射函数均为使用ReLU激活函数的3层全连接网络。
222)文本子空间的三元组损失可以表示为式3:
其中,α为表示安全系数的超参数,与式2中相同。ΦT表示文本子空间内的三元组ti为参照用文本,是与ti类别相同的正样例图片,是与ti类别不同的负样例图片。
223)两个语义子空间平行工作,实现特征提取的互补与平衡。
将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表达式如式4,其中ηV、ηT为超参数:
3)对抗性语义空间优化过程
本发明引入对抗性学习优化双语义空间,在保证类别不变的前提下拟合不同模态的空间分布,同时保证模态可判别,上述结果反向传输更新双语义空间,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务。
执行如下操作:
31)采用类别预测(concept prediction)方法,设定包含图像子空间和文本子空间的类别恒定目标函数,分别对图像子空间和文本子空间进行优化,使得子空间内不同模态特征映射或调整前后类别不变;
以图像子空间为例,优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差,其表达式如下:
式中,N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率;
文本子空间内目标函数定义类似:
pc(ψv(I))与pc(ψt(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率;
类别恒定目标函数整体可表示为式7:
32)利用对抗性学习模型更新优化双空间网络参数,其中将步骤212)、221)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)作为对抗性学习模型的生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数表达式为式8:
LG=μc·Lc+μtri·Ltri (式8)
其中,μc、μtri为超参数。
对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。具体实施时,本发明使用3层前向传播全连接网络进行模态判别。
以图像子空间为例,其优化目标是使得数据模态真实分布mi与模态预测概率分布误差最小化,其表达式为式9:
其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测。
文本子空间内目标函数表达式与上述表达式类似:
D(ψv(I))与D(ψt(T))分别为同构文本子空间内图像与文本向量的模态预测。
判别器在双子空间内的目标函数整体可以表示为式11:
生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间。
利用优化的同构双语义空间,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”,即可实现基于双语义空间的对抗性跨媒体的检索。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于双语义空间的对抗性跨媒体检索方法,其技术优势体现在:
(一)通过建立文本子空间和图像子空间,分别保留不同模态内部特征。在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,实现在最大限度保留图像信息的同时消除“语义鸿沟”。相似的,在文本子空间中实现图像特征映射以及文本特征调整。两个语义子空间平行工作,实现特征提取的互补与平衡。
(二)通过对抗训练来挖掘多媒体数据中丰富的语义信息,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务实现有效的跨媒体检索。
附图说明
图1是本发明提供方法的整体流程框图。
图2是本发明实施例中进行同构空间特征优化的示意图;
其中,(a)是图像子空间内三元组分布优化;(b)是文本子空间内三元组分布优化。
图3是本发明实施例进行文本检索图像的结果示例图,
其中,第一列为检索用文本,第二列为数据集给定的匹配图像,列3至列7为mAP值前五的对应检索结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索。
本发明提供的方法包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;图1所示是本发明提供方法的流程,具体步骤如下:
1)假设有n组训练数据,将图像和文本数据分别送入CNN网络和BoW模型,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn},
2)在图像子空间中,图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布,为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中,尽量多的保留原有图像特征。
3)在同构图像子空间中定义三元组其中vi表示参照用图片,为与vi类别相同的正样例文本,表示与vi类别不同的负样例文本,使用L2范数计算的不同模态数据间距离:
其中fv(i)与ft(t)分别为图像与文本的映射函数,表示同构空间内图像文本间的欧式距离。
以空间中的图像为参照,引入三元组约束(triplet constraint)调整文本分布,即拉近相同语义的文本图像对的距离,同时增加语义不同的图像文本对间距离。图像子空间三元组损失可以表示为:
其中α为表示安全系数的超参数。
4)在文本子空间中,文本特征T经过文本映射函数ψt(T)在同原本文本维度空间特征分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构,同时避免大量损失原有文本信息。二者均为使用ReLU激活函数的3 层全连接网络。与图像子空间类似,文本子空间的三元组损失可以表示为:
其中α为表示安全系数的超参数。Φ表示文本子空间内的三元组ti为参照用文本,是与ti类别相同的正样例图片,是与ti类别不同的负样例图片。
5)将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表达式如下,其中η为超参数:
6)引入类别预测(concept prediction),保证子空间内不同模态特征映射或调整前后类别不变,以图像空间为例,优化目标是最小化数据类别真实分布ci与同构空间内向量的类别预测概率分布pc(fv(T))、pc(ft(T))间的误差,其表达式如下:
N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率。
文本子空间内目标函数定义类似,类别恒定目标函数整体可表示为:
7)对抗性学习模型更新优化双空间网络参数,其中步骤3)、4)中的同构空间特征表示 fv(v)、ft(t)、ψv(I)与ψt(T)为对抗性学习模型中生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数表达式为:
LG=μc·Lc+μtri·Ltri
其中μc、μtri为超参数。
判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。本发明使用3层前向传播全连接网络进行模态判别。以图像子空间为例,其优化目标是使得数据模态真实分布与模态预测概率分布误差最小化,其表达式为:
其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测。
文本子空间内目标函数表达式与上述表达式类似,判别器在双子空间内的目标函数整体可以表示为:
8)生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间。利用优化的同构双语义空间,即可实现基于双语义空间的对抗性跨媒体的检索。
图3是本发明实施例中进行同构空间特征优化的示意图;其中,(a)是图像子空间内三元组分布优化;(b)是文本子空间内三元组分布优化。
表1给出了采用本发明提供的跨媒体检索方法及现有方法[1]-[6]在NUS-WIDE-10k和 Wikipedia两个数据集进行检索得到的检索结果以得到的检索结果的对比。
表1 NUS-WIDE-10k和Wikipedia数据集在不同方法上的检索结果
其中,现有方法[1]-[6]分别为:
文献[1](Rasiwasia,N.,Pereira,J.C.,Coviello,E.,Doyle,G.,Lanckriet,G.R.G.,Levy, R.,Vasconcelos,N.:A new approach to cross-modal multimediaretrieval.In:International Conference on Multimedia.pp.251–260(2010))记载的CCA方法;
文献[2](Srivastava,N.,Salakhutdinov,R.:Learning representations formultimodal data with deep belief nets.In:ICML Workshop)记载的Multimodal DBN方法;
文献[3](Feng,F.,Wang,X.,Li,R.:Cross-modal retrieval withcorrespondence autoencoder pp. 7–16(2014))记载的Corr-AE方法;
文献([4]Zhai,X.,Peng,Y.,Xiao,J.:Learning cross-media jointrepresentation with sparse and semisupervised regularization.IEEETransactions on Circuits and Systems for Video Technology 24(6),965–978(2014))记载的JRL方法;
文献([5]Wang,B.,Yang,Y.,Xu,X.,Hanjalic,A.,Shen,H.T.:Adversarialcross-modal retrieval. In:ACM on Multimedia Conference.pp.154–162(2017))记载的ACMR方法;
文献([6]Peng,Y.,Qi,J.,Yuan,Y.:Modality-specific cross-modalsimilarity measurement with recurrent attention network(2017))记载的MCSM方法。
表2给出了本发明提供的跨媒体检索方法及本发明两个变体(仅有图像空间和仅有文本空间)对NUS-WIDE-10k和Wikipedia两个数据集进行检索,得到的检索结果的对比。
表2 NUS-WIDE-10k和Wikipedia数据集在图像空间、文本空间和双语义空间的检索结果
表1和表2中,检索结果用mAP值衡量,mAP值越高,检索效果越优异。
从表1中可以看出,与现有方法比较,本发明在图像检索文本和文本检索图像两大任务上检索正确率均有明显提升,表2结果显示,虽然NUS-WIDE-10k数据集上的检索结果显示,在图像检索文本任务上双语义空间的mAP值稍低于仅在文本空间的结果,但双空间的平均检索结果在两个数据集上均明显高于单空间,充分验证了本发明中所提出的的双语义空间检索结构的有效性。图3是本发明实施例进行文本检索图像的结果示例图。图中,第一列为检索用文本,第二列为数据集给定的匹配图像,列3至列7为mAP值前五的对应检索结果,显示了本发明用于检索的有效性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (4)
1.一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练挖掘多媒体数据中的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;
1)特征生成过程;执行如下操作:
获取训练数据,验证数据及测试数据;
利用深度卷积神经网络CNN模型,对训练及测试图像提取视觉特征向量,利用BoW模型对训练和测试文本提取得到BoW文本特征向量;设有n组训练数据,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};
2)双语义空间的构建过程,包括图像子空间和文本子空间;执行如下操作:
21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,保留图像信息并消除语义鸿沟;具体执行如下操作:
211)在图像子空间中,图像特征I经过三层全连接网络在原有维度上调整特征分布,网络最后一层使用ReLU激活函数;引入三层全连接网络,将文本特征T映射到图像空间当中,保留原有图像特征;
212)在同构图像子空间中定义三元组其中vi表示参照用图片,为与vi类别相同的正样例文本,表示与vi类别不同的负样例文本;使用L2范数计算的不同模态数据间距离,表示为式1:
其中,fv(i)与ft(t)分别为图像与文本的映射函数,表示同构空间内图像文本间的欧式距离;
引入图像子空间三元组约束调整文本图像分布,拉近相同语义的文本图像对的距离,同时增加语义不同的图像文本对间距离;图像子空间三元组损失可以表示为式2:
其中,α为表示安全系数的超参数;为图像子空间三元组损失;V表示图像子空间;
22)在文本子空间中实现图像特征映射及文本特征调整;执行如下操作:
221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构;
222)文本子空间的三元组损失表示为式3:
其中,α为表示安全系数的超参数;ΦT表示文本子空间内的三元组ti为参照用文本,是与ti类别相同的正样例图片,是与ti类别不同的负样例图片;
223)图像子空间和文本子空间平行工作,实现特征提取的互补与平衡;
将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表示为式4,其中ηV、ηT为超参数:
3)对抗性语义空间优化过程;执行如下操作:
31)采用类别预测方法,设定包含图像子空间和文本子空间的类别恒定目标函数,分别对图像子空间和文本子空间进行优化,使得子空间内不同模态特征映射或调整前后类别不变;
设定图像子空间内的目标函数文本子空间内的目标函数是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差;类别恒定目标函数表示为式7:
32)利用对抗性学习模型更新优化双空间网络参数,将步骤212)、221)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)作为对抗性学习模型的生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数LG表达式为式8:
LG=μc·Lc+μtri·Ltri (式8)
其中,μc、μtri为超参数;
对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本;
设定图像子空间内的优化目标为文本子空间内目标函数为判别器在双子空间内的目标函数LD表示为式11:
生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间;
利用最优化的同构双语义空间,完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”,即可实现基于双语义空间的对抗性跨媒体的检索。
2.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法,其特征是,步骤31)中,对图像子空间,优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差,表示为式5:
式中,N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率;
文本子空间内目标函数定义为式6:
其中,pc(ψv(I))与pc(ψt(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率。
3.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法,其特征是,步骤32)中,对图像子空间,优化目标是使得数据模态真实分布mi与模态预测概率分布误差最小化,表示为式9:
其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测;
文本子空间内目标函数表示为式10:
D(ψv(I))与D(ψt(T))分别为同构文本子空间内图像与文本向量的模态预测。
4.如权利要求1所述基于双语义空间的对抗性跨媒体检索方法,其特征是,步骤32)具体使用3层前向传播全连接网络进行模态判别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/076400 WO2020001048A1 (zh) | 2018-06-29 | 2019-02-28 | 一种基于双语义空间的对抗性跨媒体检索方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810695406 | 2018-06-29 | ||
CN2018106954064 | 2018-06-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344266A true CN109344266A (zh) | 2019-02-15 |
CN109344266B CN109344266B (zh) | 2021-08-06 |
Family
ID=65306536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811106799.7A Expired - Fee Related CN109344266B (zh) | 2018-06-29 | 2018-09-21 | 一种基于双语义空间的对抗性跨媒体检索方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109344266B (zh) |
WO (1) | WO2020001048A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933802A (zh) * | 2019-03-25 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置及存储介质 |
CN109978021A (zh) * | 2019-03-07 | 2019-07-05 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
WO2020001048A1 (zh) * | 2018-06-29 | 2020-01-02 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
CN111783980A (zh) * | 2020-06-28 | 2020-10-16 | 大连理工大学 | 基于双重协作生成式对抗网络的排序学习方法 |
CN112001279A (zh) * | 2020-08-12 | 2020-11-27 | 山东省人工智能研究院 | 基于双重属性信息的跨模态行人重识别方法 |
CN112949384A (zh) * | 2021-01-23 | 2021-06-11 | 西北工业大学 | 一种基于对抗性特征提取的遥感图像场景分类方法 |
CN113435206A (zh) * | 2021-05-26 | 2021-09-24 | 卓尔智联(武汉)研究院有限公司 | 一种图文检索方法、装置和电子设备 |
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114863194A (zh) * | 2022-07-11 | 2022-08-05 | 北京邮电大学 | 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
CN115470365A (zh) * | 2022-11-09 | 2022-12-13 | 南京码极客科技有限公司 | 一种基于深度度量学习的细粒度跨媒体检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080259906A1 (en) * | 2007-04-17 | 2008-10-23 | Almondnet, Inc. | Targeted television advertisements based on online behavior |
CN106095893A (zh) * | 2016-06-06 | 2016-11-09 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN108319686A (zh) * | 2018-02-01 | 2018-07-24 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317834B (zh) * | 2014-10-10 | 2017-09-29 | 浙江大学 | 一种基于深度神经网络的跨媒体排序方法 |
CN106095829B (zh) * | 2016-06-01 | 2019-08-06 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
CN107562812B (zh) * | 2017-08-11 | 2021-01-15 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN109344266B (zh) * | 2018-06-29 | 2021-08-06 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
-
2018
- 2018-09-21 CN CN201811106799.7A patent/CN109344266B/zh not_active Expired - Fee Related
-
2019
- 2019-02-28 WO PCT/CN2019/076400 patent/WO2020001048A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080259906A1 (en) * | 2007-04-17 | 2008-10-23 | Almondnet, Inc. | Targeted television advertisements based on online behavior |
CN106095893A (zh) * | 2016-06-06 | 2016-11-09 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN108319686A (zh) * | 2018-02-01 | 2018-07-24 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
Non-Patent Citations (1)
Title |
---|
王晖等: "Web数据管理研究进展", 《小型微型计算机系统》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020001048A1 (zh) * | 2018-06-29 | 2020-01-02 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
CN109978021B (zh) * | 2019-03-07 | 2022-09-16 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN109978021A (zh) * | 2019-03-07 | 2019-07-05 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN109933802B (zh) * | 2019-03-25 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置及存储介质 |
CN109933802A (zh) * | 2019-03-25 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置及存储介质 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110059217B (zh) * | 2019-04-29 | 2022-11-04 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN111783980A (zh) * | 2020-06-28 | 2020-10-16 | 大连理工大学 | 基于双重协作生成式对抗网络的排序学习方法 |
CN112001279A (zh) * | 2020-08-12 | 2020-11-27 | 山东省人工智能研究院 | 基于双重属性信息的跨模态行人重识别方法 |
CN112949384A (zh) * | 2021-01-23 | 2021-06-11 | 西北工业大学 | 一种基于对抗性特征提取的遥感图像场景分类方法 |
CN112949384B (zh) * | 2021-01-23 | 2024-03-08 | 西北工业大学 | 一种基于对抗性特征提取的遥感图像场景分类方法 |
CN113435206A (zh) * | 2021-05-26 | 2021-09-24 | 卓尔智联(武汉)研究院有限公司 | 一种图文检索方法、装置和电子设备 |
CN113435206B (zh) * | 2021-05-26 | 2023-08-01 | 卓尔智联(武汉)研究院有限公司 | 一种图文检索方法、装置和电子设备 |
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114863194A (zh) * | 2022-07-11 | 2022-08-05 | 北京邮电大学 | 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
CN115470365A (zh) * | 2022-11-09 | 2022-12-13 | 南京码极客科技有限公司 | 一种基于深度度量学习的细粒度跨媒体检索方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020001048A1 (zh) | 2020-01-02 |
CN109344266B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344266A (zh) | 一种基于双语义空间的对抗性跨媒体检索方法 | |
Han et al. | 3D2SeqViews: Aggregating sequential views for 3D global feature learning by CNN with hierarchical attention aggregation | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN107346328B (zh) | 一种基于多粒度层级网络的跨模态关联学习方法 | |
Caelli et al. | An eigenspace projection clustering method for inexact graph matching | |
Saito et al. | Illustration2vec: a semantic vector representation of illustrations | |
CN105718532B (zh) | 一种基于多深度网络结构的跨媒体排序方法 | |
CN111581405A (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN109492099A (zh) | 一种基于领域对抗自适应的跨领域文本情感分类方法 | |
CN112766386B (zh) | 一种基于多输入多输出融合网络的广义零样本学习方法 | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN105393263A (zh) | 计算机-人交互式学习中的特征完成 | |
CN105654122B (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN108052683B (zh) | 一种基于余弦度量规则的知识图谱表示学习方法 | |
WO2024099037A1 (zh) | 数据处理、实体链接方法、装置和计算机设备 | |
CN105631037A (zh) | 一种图像检索方法 | |
CN108388639B (zh) | 一种基于子空间学习与半监督正则化的跨媒体检索方法 | |
CN111782833A (zh) | 基于多模型网络的细粒度跨媒体检索方法 | |
Xu et al. | Domain disentangled generative adversarial network for zero-shot sketch-based 3d shape retrieval | |
CN110110116A (zh) | 一种整合深度卷积网络和语义分析的商标图像检索方法 | |
Tran et al. | Aggregating image and text quantized correlated components | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN105701227B (zh) | 一种基于局部关联图的跨媒体相似性度量方法和检索方法 | |
Qi et al. | Cross-media similarity metric learning with unified deep networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210806 |
|
CF01 | Termination of patent right due to non-payment of annual fee |