CN109033304A - 基于在线深层主题模型的多模态检索方法 - Google Patents

基于在线深层主题模型的多模态检索方法 Download PDF

Info

Publication number
CN109033304A
CN109033304A CN201810781063.3A CN201810781063A CN109033304A CN 109033304 A CN109033304 A CN 109033304A CN 201810781063 A CN201810781063 A CN 201810781063A CN 109033304 A CN109033304 A CN 109033304A
Authority
CN
China
Prior art keywords
matrix
text
layer
global
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810781063.3A
Other languages
English (en)
Other versions
CN109033304B (zh
Inventor
陈渤
肖肃诚
王超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810781063.3A priority Critical patent/CN109033304B/zh
Publication of CN109033304A publication Critical patent/CN109033304A/zh
Application granted granted Critical
Publication of CN109033304B publication Critical patent/CN109033304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于在线深层主题模型的多模态检索方法,属于图像处理技术领域,其思路为:确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对数据集进行预处理后,得到文本矩阵和图像特征矩阵;建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵后作为本发明的一种基于在线深层主题模型的多模态检索结果。

Description

基于在线深层主题模型的多模态检索方法
技术领域
本发明属于图像处理技术领域,特别涉及一种基于在线深层主题模型的多模态检索方法,适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征,并利用所提取的联合特征对文本-图像进行检索。
背景技术
多模态检索技术是利用联合学习不同模态特征,并挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;在线深层主题模型ONLINE-PGBN(泊松伽马置信网络)是一种基于贝叶斯框架的在线深层主题模型,ONLINE-PGBN模型拥有多层网络结构,能够快速提取出数据的多层特征,在文本处理上优于传统主题模型;ONLINE-PGBN模型不仅可以应用于文本处理,还可以应用于图像处理。
多模态学习技术是指,联合学习不同模态特征,挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为:利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系,同时得到一个包含多模态信息的联合特征表示用于检索。
K Sohn,W Shang,H Lee等人在其发表的论文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法,该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络,受限制玻尔兹曼机网络层内无连接,在初始化网络参数后训练下一层网络,这就形成了一个两层结构的受限制玻尔兹曼机,将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元,就形成了多层深度网络。
该种基于深度神经网络的多模态检索方法引入了基于对比散度和多预测训练的学习方法,向深层网络反复编码结构调整整个网络,然后共享这些特定模态网络的最高层,通过联合学习的方法训练整个神经网络并把共享的隐层(最高层)作为联合特征表示;该种基于深度神经网络的多模态检索方法虽然能够挖掘的不同模态特征之间的联系,但该种基于深度神经网络的多模态检索方法仍然存在的不足之处是:由于深度神经网络的“黑箱”特性,多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限,从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系;同时,受限制玻尔兹曼机隐层与观测数据之间存在非线性映射,很难将隐层与观测之间的关系可视化。
上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号:201511016955.7,公开号:CN 105631018A)中提出了一种基于主题模型的文章特征抽取检索方法,该种基于主题模型的文章特征抽取检索方法基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。
该种基于主题模型的文章特征抽取检索方法虽然能够直接对多模态的输入建立概率模型,把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题;但是,该种基于主题模型的文章特征抽取检索方法仍然存在的不足之处是:受限于传统主题模型都是浅层模型,仅限于构建不同模态浅层的联系,不能挖掘模态之间更深层的联系,从而影响检索性能。
发明内容
针对上述现有技术存在的不足,本发明的目的在于提出一种基于在线深层主题模型的多模态检索方法,该种基于在线深层主题模型的多模态检索方法利用在线深层主题模型:泊松伽马置信网络,发掘不同模态隐层之间由深到浅的联系,同时得到一个包含多模态信息的联合特征用于检索,并提高检索性能;此外,本发明用到的在线学习算法,使得模型能够更快地收敛。
为达到上述技术目的,本发明采用如下技术方案予以实现。
一种基于在线深层主题模型的多模态检索方法,包括以下步骤:
步骤1,确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对所述数据集进行预处理后,得到文本矩阵和图像特征矩阵;其中,J为大于1的正整数;
步骤2,建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;其中,T为大于1的正整数;
步骤3,根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;
步骤4,根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵,所述文本矩阵的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。
本发明与现有技术相比,具有以下优点:
第一,由于本发明采用初始化共享参数的操作,克服了现有技术中由于深度神经网络的“黑箱”特性,多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限,从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系的不足,使得采用本发明方法检索时,对不同模态数据间的关联描述更加确切,检索性能更好。
第二,由于本发明采用了对隐变量参数的后验分布的吉布斯采样操作以更新第t层的隐变量参数的操作,克服了现有技术受限于传统主题模型都是浅层模型,仅限于构建不同模态浅层的联系,不能挖掘模态之间更深层联系的不足,使得采用本发明方法有助于提取深层的多模态联合特征表示,提高的隐层表示的检索准确率。
第三,由于本发明采用了在线梯度更新,使得模型能够更快地收敛,有助于高效地实现多模态检索。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明的一种基于在线深层主题模型的多模态检索方法流程图;
图2是本发明的数据集部分展示图;其中a-h八幅图中的每幅图右边生成7个单词。
具体实施方式
参照图1,为本发明的一种基于在线深层主题模型的多模态检索方法流程图;其中所述基于在线深层主题模型的多模态检索方法,包括以下步骤:
步骤1,获取MIR Flicker 25k数据,所述MIR Flicker 25k数据包括了从社交摄影网站Flickr下载下来的J张图像和对应的完整的人工标注的标签,第j张图像包括Nj个单词,其中j表示J张图像的第j张图像,Nj个单词是第j张图像对应的完整的人工标注的标签;每张图像包括的所有单词组成一个相应的文本,进而得到J张图像和J个相应的文本,将所述J张图像和J个相应的文本记为数据集;接下来就是对所述数据集进行预处理。
首先对J个相应的文本进行预处理,第一步是得到J个相应的文本词汇表:
1a)设定一个Nj×2维矩阵为第j个词汇表,Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数;j的初始值为1,j的最大值为J,Nj表示第j张图像包括的单词总个数,V=1,2,…,J。
1b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj
然后将Nj-1×2维矩阵增加Nj-Q行后变换为(Nj-1+Nj-Q)×2维矩阵,
(Nj-1+Nj-Q)×2维矩阵中第1列为第j-1张图像的Nj-1个单词和个第j张图像的Nj个单词中的剩余Nj-Q个单词,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数,所述(Nj-1+Nj-Q)×2维矩阵为第j个词汇表。
1c)重复执行1b),直到得到第J个词汇表,所述第J个词汇表为J个相应的文本词汇表,且设定J个相应的文本词汇表包括Voriginal个单词和对应每个单词出现的次数;然后将j的值初始化为1。
1d)然后对Voriginal个单词按照Voriginal个单词中每个单词出现的次数由高到低进行排序,由于原始有Voriginal个单词的词汇表太过冗长,所以选取排序后出现次数最多的前V个单词作为最终词汇表,所述最终词汇表包括V个单词,其中V<Voriginal
这样就获得了最终的词汇表,这个词汇表就是上述得到的V×2维矩阵的第一列,即V个按照出现次数从高到低排序的单词所组成的列向量。
获得最终词汇表之后,对J个相应的文本中每个文本,统计出现在最终词汇表里的单词次数,保存在一个向量里,向量的每一维上的值表示该文档出现单词的次数。
1e)初始化:确定一个V×2维矩阵,V×2维矩阵中第1列分别为最终词汇表中的V个词汇,V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数,且V×2维矩阵中第2列初始值分别为0。
1f)设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现,然后在V×2维矩阵中第1列相应找到Q'个单词,并将Q'个单词在V×2维矩阵中第2列相应值分别加1,其余V-Q'个单词未在最终词汇表内,V-Q'个单词在V×2维矩阵中第2列相应值仍然为0,将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量;0≤Q'≤Nj
1g)令j的值分别取1至J,重复执行1f),直到得到第1个相应的文本V维向量至第J个相应的文本V维向量,将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵Xtext
用尺度不变特征变换(sift)算法提取每幅图像特征,进而得到一个以特征维度Vimg为行数、图像总张数J为列数的图像特征矩阵Ximg,Ximg是Vimg×J维矩阵,J为图像总张数,Vimg为每幅图像特征的维度。
步骤2.初始化在线深层主题模型的超参数和共享参数。
在此之前先简单介绍一下泊松伽马置信网络(PGBN),将置泊松伽马置信网络(PGBN)包括T层;本实施例中T取值为3。
PGBN网络主旨是:对于输入的V×J维文本矩阵Xtext,确定T层全局主题参数矩阵,分别为第一层全局主题参数矩阵Φ(1)、第二层全局主题参数矩阵Φ(2)、…、第t层全局主题参数矩阵Φ(t)、…、第T层全局主题参数矩阵Φ(T),第t层全局主题参数矩阵Φ(t)为Kt-1×Kt维,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数,t=1,2,…,T;其中,当t=1时K0=V。
另外,定义第t层全局主题重构参数矩阵为 若t取值为1时,为V×Kt维;将V×J维文本矩阵Xtext中每一个相应的文本V维向量分别记为一个样本,进而得到J个样本,并将V×J维文本矩阵Xtext中第j个样本记为j=1,2,3...,J。
2.1第t层全局主题重构参数矩阵的第kt列是一个V维向量,记为的第kt列V维向量kt=1,2,3,...,Kt,所述的第kt列V维向量表示第t层全局主题参数矩阵Φ(t)的第kt个主题,之所以称的第kt列V维向量是主题,是因为的第kt列V维向量对应最终词汇表中的V个单词。
的第kt列V维向量中第v个元素为 的第kt列V维向量中每一个元素的值均为一个概率值,概率越大,那么最终词汇表中第v个单词出现的概率越大,且满足v=1,2,3...,V。
2.2将V×J维文本矩阵Xtext中第j个样本表示成:
其中,kt=1,2,3,...,Kt表示第t层全局主题重构参数矩阵的第kt个主题,表示第j个样本对应第kt个主题的权重;某个主题对应的权重越大,表示由这个主题构成的比重也就越大;将这Kt个元素合并成一个向量,记为第t层全局主题重构参数矩阵的Kt维向量,将所述第t层全局主题重构参数矩阵的Kt维向量作为第j个样本的第t层变量权重向量
令j分别取1至J,进而分别得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量并记为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),θ(t)的大小为Kt×J维,然后将j的值初始化为1。
2.3令t分别取1至T,重复执行2.2,进而分别得到V×J维文本矩阵Xtext的第1层变量权重矩阵θ(1)至V×J维文本矩阵Xtext的第T层变量权重矩阵θ(T),然后将V×J维文本矩阵Xtext表示为:
Xtext=Φ(1)×Φ(2)×…×Φ(t)×…×Φ(T)×θ(T)
其中,将Φ(1)×Φ(2)×…×Φ(t)记为第t层全局主题参数矩阵,大小为V×Kt维;进而得到T层全局主题参数矩阵;所述V×J维文本矩阵Xtext包括T层变量权重矩阵和T层全局主题参数矩阵。
在上面的基础上现在考虑输入图像特征矩阵Ximg和V×J维文本矩阵Xtext,对于共享的参数,一律在下标加上share;对于Ximg自己的参数,下标加img;对于Xtext自己的参数,下标加text;按照如下步骤来初始化网络,先初始化超参数:
然后初始化共享的参数,
其中,令V×J维文本矩阵Xtext和图像特征矩阵Ximg的第t层共享变量权重矩阵为 的第j列表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的共享权重向量;令V×J维文本矩阵Xtext和图像特征矩阵Ximg的第t层共享全局主题参数矩阵为 的第kt表示的第kt个主题;~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布;表示的第kt个主题的先验分布参数,表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第t层共享变量权重矩阵对应的先验分布参数,e0=1,f0=1;令表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第t层共享变量权重矩阵,令表示第t层全局主题参数矩阵Φ(t)的第kt个共享主题,t=1,2,…,T,kt=1,2,…,Kt
接着,根据V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第1层共享隐层分别得到V×J维文本矩阵Xtext的第j列文本的第1层变量权重向量和图像特征矩阵Ximg的第j列文本的第1层变量权重向量
其中,kimg_j表示图像特征矩阵Ximg的第j列图像的尺度参数,ktext_j表示V×J维文本矩阵Xtext中的第j列文本的尺度参数,表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第1层共享隐层;自适应的尺度参数按如下公式得到:
其中,表示图像特征矩阵Ximg的第j列图像的第v'个元素,v'=1,2,…,Vimg表示V×J维文本矩阵Xtext的第j列文本的第v个元素,v=1,2,…,V。
接着,再初始化最后的参数:
其中,令图像特征矩阵Ximg的第1层全局主题参数矩阵为 的第k1个主题为令V×J维文本矩阵Xtext的第1层全局主题参数矩阵为 的第k1个主题为t=1,2,…,T,kt=1,2,…,Kt;令表示的第k1个主题的第v'个元素的先验分布参数,v'=1,2,…,Vimg;令表示的第k1个主题的第v个元素的先验分布参数,v=1,2,…,V;表示图像特征矩阵Ximg的第j列图像的第1层变量权重向量,表示V×J维文本矩阵Xtext的第j列文本的第1层变量权重向量,表示V×J维文本矩阵Xtext的第j列文本,表示图像特征矩阵Ximg的第j列图像。
这样就初始化好了所有参数,记为初始化参数集,包括:
步骤3.训练在线深层主题模型。
将V×J维文本矩阵Xtext和图像特征矩阵Ximg输入泊松伽玛置信网络,但是为了能够训练,将输入的V×J维文本矩阵Xtext和图像特征矩阵Ximg分别划分L个迷你块,Jm表示每个迷你块包括的文本总个数;将V×J维文本矩阵Xtext的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵Ximg的第l'个迷你块记为第l'个图像特征迷你块l'=1,2,3...,L。
首先定义图像特征矩阵Ximg的第j列图像的第v'个元素的第1层层内增广向量为 表示图像特征矩阵Ximg的第j列图像的第v'个元素的第1层层内增广元素,其服从如下分布:
其中,表示的第k1个主题的第v'个元素,表示图像特征矩阵Ximg的第1层全局主题参数矩阵;表示图像特征矩阵Ximg的第j列图像的第1层变量权重向量的第k1个元素,v'=1,2,3,...,Vimg,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数,~表示服从,Mult表示分布。
定义V×J维文本矩阵Xtext的第j列文本的第v个元素的第1层层内增广向量为 表示V×J维文本矩阵Xtext的第j列文本的第v个元素的第1层层内增广元素,其服从如下分布:
其中,表示的第k1个主题的第v个元素,表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵,表示V×J维文本矩阵Xtext的第j列文本的第1层变量权重向量的第k1个元素,v=1,2,3,...,V,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数。
定义图像特征矩阵Ximg的第1层全局主题参数矩阵使用第l+1个图像特征迷你块进行第e次更新后的向量为
表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l+1个图像特征迷你块进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数。
定义V×J维文本矩阵Xtext的第1层全局主题参数矩阵使用第l+1个文本迷你块进行第e次更新后的向量为
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l+1个文本迷你块进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数。
利用下述过程对图像特征矩阵Ximg的第1层全局主题参数矩阵进行梯度更新:
3.1初始化:令e表示第e次更新,e=1,2,3,...,E,e的初始值为1,E表示设定的总更新次数;令l=1,2,…,L-1,l+1=2,…,L。
3.2计算图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l+1个图像特征迷你块进行第e次更新后的第k1个在线全局主题和V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l+1个文本迷你块进行第e次更新后的第k1个在线全局主题其计算公式分别为:
其中,表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l个图像特征迷你块进行第e次更新后的第k1个在线全局主题, 表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l个文本迷你块进行第e次更新后的第k1个在线全局主题,
ρ=L,εl表示第l次梯度更新后的学习率,εl=0.001;
v'=1,2,…,Vimg;c表示设定常数,c=0.01;上标T表示转置操作,N表示正态分布,diag表示对角矩阵。
3.3令l的值加1,如果l≥L,则转至3.4;如果l<L,返回3.2。
3.4令e的值加1,如果e≤E,则将l的值初始化为1,返回3.2;如果e>E,则停止更新,并将更新停止时对应得到的图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第L个图像特征迷你块进行第E次更新后的第k1个在线全局主题和V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第L个文本迷你块进行第E次更新后的第k1个在线全局主题分别作为图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题的最优在线全局主题向量以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题的最优在线全局主题向量
令k1分别取1至K1,进而分别得到图像特征矩阵Ximg的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至图像特征矩阵Ximg的第1层全局主题参数矩阵的第K1个主题的最优在线全局主题向量以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第K1个主题的最优在线全局主题向量分别记为图像特征矩阵Ximg的第1层最优全局主题参数矩阵和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵
步骤4.多模态检索。
通过输入图像特征矩阵Ximg来检索符合图像的标签。
具体方法为:根据AAAI2018上的论文《Multimodal Poisson Gamma BeliefNetwork》,对于图像特征矩阵Ximg的第j列图像根据V×J维文本矩阵Xtext和图像特征矩阵Ximg的第t层共享变量权重矩阵的第j列得到V×J维文本矩阵Xtext和图像特征矩阵Ximg的第1层共享变量权重矩阵的第j列
r~Gam(γ0,1/c0),c0=Gam(e0,1/f0),γ0~Gam(a0,1/b0),b0=0.01,a0=0.01;令表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第t层共享变量权重矩阵对应的先验分布参数,
e0=1,f0=1,t=1,2,3,~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布,表示的第k2个主题的先验分布参数,表示的第k3个主题的先验分布参数,表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第2层共享全局主题参数矩阵,表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第3层共享全局主题参数矩阵;kt=1,2,…,Kt,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数。
计算得到V×J维文本矩阵Xtext的第j列最终文本 将V×J维文本矩阵Xtext的第j列最终文本中所有元素从大到小排序后选取前s个元素,选取的前s个元素中每个元素对于一个单词,进而得到s个单词,并记为V×J维文本矩阵Xtext的第j列s个预测单词。
令j=1,2,…J,进而分别得到V×J维文本矩阵Xtext的第1列s个预测单词至V×J维文本矩阵Xtext的第J列s个预测单词,记为V×J维文本矩阵Xtext的预测单词矩阵。
所述V×J维文本矩阵Xtext的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。
参照图2,为本发明的数据集部分展示图;其中a-h八幅图中的每幅图右边生成7个单词,这7个单词是对对应图的很好描述,单词的个数可以根据需要制定,进而实现检索符合每幅图的标签目的。

Claims (5)

1.一种基于在线深层主题模型的多模态检索方法,其特征在于,包括以下步骤:
步骤1,确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对所述数据集进行预处理后,得到文本矩阵和图像特征矩阵;其中,J为大于1的正整数;
步骤2,建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;其中,T为大于1的正整数;
步骤3,根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;
步骤4,根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵,所述文本矩阵的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。
2.如权利要求1所述的一种基于在线深层主题模型的多模态检索方法,其特征在于,在步骤1中,所述文本矩阵和图像特征矩阵,其得到过程为:
1a)设定一个Nj×2维矩阵为第j个词汇表,Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数;j的初始值为1,j的最大值为J,Nj表示第j张图像包括的单词总个数,V=1,2,…,J;
1b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj
然后将Nj-1×2维矩阵增加Nj-Q行后变换为(Nj-1+Nj-Q)×2维矩阵,
(Nj-1+Nj-Q)×2维矩阵中第1列为第j-1张图像的Nj-1个单词和个第j张图像的Nj个单词中的剩余Nj-Q个单词,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数,所述(Nj-1+Nj-Q)×2维矩阵为第j个词汇表;
1c)重复执行1b),直到得到第J个词汇表,所述第J个词汇表为J个相应的文本词汇表,且设定J个相应的文本词汇表包括Voriginal个单词和对应每个单词出现的次数;然后将j的值初始化为1;
1d)然后对Voriginal个单词按照Voriginal个单词中每个单词出现的次数由高到低进行排序,由于原始有Voriginal个单词的词汇表太过冗长,所以选取排序后出现次数最多的前V个单词作为最终词汇表,所述最终词汇表包括V个单词,其中V<Voriginal
1e)初始化:确定一个V×2维矩阵,V×2维矩阵中第1列分别为最终词汇表中的V个词汇,V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数,且V×2维矩阵中第2列初始值分别为0;
1f)设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现,然后在V×2维矩阵中第1列相应找到Q'个单词,并将Q'个单词在V×2维矩阵中第2列相应值分别加1,其余V-Q'个单词未在最终词汇表内,V-Q'个单词在V×2维矩阵中第2列相应值仍然为0,将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量;0≤Q'≤Nj
1g)令j的值分别取1至J,重复执行1f),直到得到第1个相应的文本V维向量至第J个相应的文本V维向量,将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵Xtext
用尺度不变特征变换算法提取每幅图像特征,进而得到一个以特征维度Vimg为行数、图像总张数J为列数的图像特征矩阵Ximg,Ximg是Vimg×J维矩阵,J为图像总张数,Vimg为每幅图像特征的维度。
3.如权利要求2所述的一种基于在线深层主题模型的多模态检索方法,其特征在于,在步骤2中,所述文本矩阵的每一层变量权重矩阵,具体为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),其得到过程为:
2.1确定T层全局主题参数矩阵,分别为第一层全局主题参数矩阵Φ(1)、第二层全局主题参数矩阵Φ(2)、…、第t层全局主题参数矩阵Φ(t)、…、第T层全局主题参数矩阵Φ(T),第t层全局主题参数矩阵Φ(t)为Kt-1×Kt维,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数,t=1,2,…,T;其中,当t=1时K0=V;
定义第t层全局主题重构参数矩阵为 若t取值为1时,维;将V×J维文本矩阵Xtext中每一个相应的文本V维向量分别记为一个样本,进而得到J个样本,并将V×J维文本矩阵Xtext中第j个样本记为j=1,2,3...,J;
第t层全局主题重构参数矩阵的第kt列是一个V维向量,记为的第kt列V维向量kt=1,2,3,...,Kt,所述的第kt列V维向量表示第t层全局主题参数矩阵Φ(t)的第kt个主题,且的第kt列V维向量对应最终词汇表中的V个单词;
的第kt列V维向量中第v个元素为 的第kt列V维向量中每一个元素的值均为一个概率值,概率越大,那么最终词汇表中第v个单词出现的概率越大,且满足v=1,2,3...,V;
2.2将V×J维文本矩阵Xtext中第j个样本表示成:
其中,kt=1,2,3,...,Kt表示第t层全局主题重构参数矩阵的第kt个主题,表示第j个样本对应第kt个主题的权重;将这Kt个元素合并成一个向量,记为第t层全局主题重构参数矩阵的Kt维向量,将所述第t层全局主题重构参数矩阵的Kt维向量作为第j个样本的第t层变量权重向量
令j分别取1至J,进而分别得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量并记为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),θ(t)的大小为Kt×J维,然后将j的值初始化为1。
4.如权利要求3所述的一种基于在线深层主题模型的多模态检索方法,其特征在于,在步骤3中,所述图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,具体为图像特征矩阵Ximg的第1层最优全局主题参数矩阵和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵其得到过程为:
3.1将V×J维文本矩阵Xtext和图像特征矩阵Ximg分别划分L个迷你块,Jm表示每个迷你块包括的文本总个数;将V×J维文本矩阵Xtext的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵Ximg的第l'个迷你块记为第l'个图像特征迷你块l'=1,2,3...,L;
定义图像特征矩阵Ximg的第j列图像的第v'个元素的第1层层内增广向量为 表示图像特征矩阵Ximg的第j列图像的第v'个元素的第1层层内增广元素,其服从如下分布:
其中,表示的第k1个主题的第v'个元素,表示图像特征矩阵Ximg的第1层全局主题参数矩阵;表示图像特征矩阵Ximg的第j列图像的第1层变量权重向量的第k1个元素,v'=1,2,3,...,Vimg,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;~表示服从,Mult表示分布;
定义V×J维文本矩阵Xtext的第j列文本的第v个元素的第1层层内增广向量为 表示V×J维文本矩阵Xtext的第j列文本的第v个元素的第1层层内增广元素,其服从如下分布:
其中,表示的第k1个主题的第v个元素,表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵,表示V×J维文本矩阵Xtext的第j列文本的第1层变量权重向量的第k1个元素,v=1,2,3,...,V,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
定义图像特征矩阵Ximg的第1层全局主题参数矩阵使用第l+1个图像特征迷你块进行第e次更新后的向量为
表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l+1个图像特征迷你块进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
定义V×J维文本矩阵Xtext的第1层全局主题参数矩阵使用第l+1个文本迷你块进行第e次更新后的向量为
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l+1个文本迷你块进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
初始化:令e表示第e次更新,e=1,2,3,...,E,e的初始值为1,E表示设定的总更新次数;令l=1,2,…,L-1,l+1=2,…,L;
3.2计算图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l+1个图像特征迷你块进行第e次更新后的第k1个在线全局主题和V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l+1个文本迷你块进行第e次更新后的第k1个在线全局主题其计算公式分别为:
其中,表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l个图像特征迷你块进行第e次更新后的第k1个在线全局主题, 表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题,表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l个文本迷你块进行第e次更新后的第k1个在线全局主题, 表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题,
ρ=L,εl表示第l次梯度更新后的学习率,
v'=1,2,…,Vimg;c表示设定常数,上标T表示转置操作,N表示正态分布,diag表示对角矩阵;
3.3令l的值加1,如果l≥L,则转至3.4;如果l<L,返回3.2;
3.4令e的值加1,如果e≤E,则将l的值初始化为1,返回3.2;如果e>E,则停止更新,并将更新停止时对应得到的图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第L个图像特征迷你块进行第E次更新后的第k1个在线全局主题和V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第L个文本迷你块进行第E次更新后的第k1个在线全局主题分别作为图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题的最优在线全局主题向量以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题的最优在线全局主题向量
令k1分别取1至K1,进而分别得到图像特征矩阵Ximg的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至图像特征矩阵Ximg的第1层全局主题参数矩阵的第K1个主题的最优在线全局主题向量以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第K1个主题的最优在线全局主题向量分别记为图像特征矩阵Ximg的第1层最优全局主题参数矩阵和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵
5.如权利要求4所述的一种基于在线深层主题模型的多模态检索方法,其特征在于,在步骤4中,所述文本矩阵的预测单词矩阵,具体为V×J维文本矩阵Xtext的预测单词矩阵,其得到过程为:
计算得到V×J维文本矩阵Xtext的第j列最终文本 表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第1层共享变量权重矩阵的第j列,
b0=0.01,a0=0.01;令表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第t层共享变量权重矩阵对应的先验分布参数,
e0=1,f0=1,t=1,2,3,~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布,表示的第k2个主题的先验分布参数,表示的第k3个主题的先验分布参数,表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第2层共享全局主题参数矩阵,表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第3层共享全局主题参数矩阵;kt=1,2,…,Kt,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数;
将V×J维文本矩阵Xtext的第j列最终文本中所有元素从大到小排序后选取前s个元素,选取的前s个元素中每个元素对于一个单词,进而得到s个单词,并记为V×J维文本矩阵Xtext的第j列s个预测单词;
令j=1,2,…J,进而分别得到V×J维文本矩阵Xtext的第1列s个预测单词至V×J维文本矩阵Xtext的第J列s个预测单词,记为V×J维文本矩阵Xtext的预测单词矩阵。
CN201810781063.3A 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法 Active CN109033304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810781063.3A CN109033304B (zh) 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810781063.3A CN109033304B (zh) 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法

Publications (2)

Publication Number Publication Date
CN109033304A true CN109033304A (zh) 2018-12-18
CN109033304B CN109033304B (zh) 2022-05-03

Family

ID=64643310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810781063.3A Active CN109033304B (zh) 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法

Country Status (1)

Country Link
CN (1) CN109033304B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN110222222A (zh) * 2019-06-18 2019-09-10 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN115936008A (zh) * 2022-12-23 2023-04-07 中国电子产业工程有限公司 一种文本建模模型的训练方法、文本建模方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107609055A (zh) * 2017-08-25 2018-01-19 西安电子科技大学 基于深层主题模型的文本图像多模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107609055A (zh) * 2017-08-25 2018-01-19 西安电子科技大学 基于深层主题模型的文本图像多模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
D. GUO AND B. CHEN: ""SAR image target recognition via deep Bayesian generative network"", 《2017 INTERNATIONAL WORKSHOP ON REMOTE SENSING WITH INTELLIGENT PROCESSING (RSIP)》 *
GUANG-HAILIU 等: ""Image retrieval based on the texton co-occurrence matrix"", 《PATTERN RECOGNITION》 *
江悦: ""场景图像内容表述和分类研究"", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN109766481B (zh) * 2019-01-11 2021-06-08 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN110222222A (zh) * 2019-06-18 2019-09-10 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN110222222B (zh) * 2019-06-18 2022-12-27 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN115936008A (zh) * 2022-12-23 2023-04-07 中国电子产业工程有限公司 一种文本建模模型的训练方法、文本建模方法及装置
CN115936008B (zh) * 2022-12-23 2023-10-31 中国电子产业工程有限公司 一种文本建模模型的训练方法、文本建模方法及装置

Also Published As

Publication number Publication date
CN109033304B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
WO2021164772A1 (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
US10248664B1 (en) Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN113705769B (zh) 一种神经网络训练方法以及装置
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN109271522A (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN106650789A (zh) 一种基于深度lstm网络的图像描述生成方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN107609055B (zh) 基于深层主题模型的文本图像多模态检索方法
CN109033304B (zh) 基于在线深层主题模型的多模态检索方法
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
WO2019102984A1 (ja) 学習装置及び学習方法、識別装置及び識別方法、プログラム並びに記録媒体
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
Aich et al. Convolutional neural network-based model for web-based text classification.
CN110222222B (zh) 基于深层主题自编码模型的多模态检索方法
CN110083842A (zh) 译文质量检测方法、装置、机器翻译系统和存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN108898157B (zh) 基于卷积神经网络的数值型数据的雷达图表示的分类方法
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant