CN110222222A - 基于深层主题自编码模型的多模态检索方法 - Google Patents
基于深层主题自编码模型的多模态检索方法 Download PDFInfo
- Publication number
- CN110222222A CN110222222A CN201910527804.XA CN201910527804A CN110222222A CN 110222222 A CN110222222 A CN 110222222A CN 201910527804 A CN201910527804 A CN 201910527804A CN 110222222 A CN110222222 A CN 110222222A
- Authority
- CN
- China
- Prior art keywords
- matrix
- text
- image
- parameter
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深层主题自编码模型的多模态检索方法,主要解决现有技术检索性能低的问题,其实现方案是:确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对数据集进行预处理得到文本矩阵和图像特征矩阵作为训练数据;建立包括T层的泊松伽马置信自编码网络,并得到文本矩阵的每一层变量权重矩阵;利用训练数据去更新的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;根据训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以图像特征矩阵为输入,得到文本矩阵的预测单词矩阵,即为多模态检索结果。本发明提高了检索的性能,可用于文本‑图像检索。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种多模态检索方法,适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征,并利用所提取的联合特征对文本-图像进行检索。
背景技术
多模态检索技术是利用联合学习不同模态特征,并挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;多模态泊松伽马置信网络Multimodal-PGBN是一种基于贝叶斯框架的在线深层主题模型,该模型拥有多层网络结构,能够快速提取出数据的多层特征,在文本处理上优于传统主题模型;同时Multimodal-PGBN模型不仅可以应用于文本处理,还可以应用于图像处理。
多模态学习技术是指,联合学习不同模态特征,挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为:利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系,同时得到一个包含多模态信息的联合特征表示用于检索。
K Sohn,W Shang,H Lee等人在其发表的论文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法,该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络,受限制玻尔兹曼机网络层内无连接,在初始化网络参数后训练下一层网络,这就形成了一个两层结构的受限制玻尔兹曼机,将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元,就形成了多层深度网络。
该种基于深度神经网络的多模态检索方法引入了基于对比散度和多预测训练的学习方法,向深层网络反复编码结构调整整个网络,然后共享这些特定模态网络的最高层,通过联合学习的方法训练整个神经网络并把共享的隐层最高层作为联合特征表示;该种基于深度神经网络的多模态检索方法虽然能够挖掘的不同模态特征之间的联系,但该种基于深度神经网络的多模态检索方法仍然存在的不足之处是:由于深度神经网络的“黑箱”特性,多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限,从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系;同时,受限制玻尔兹曼机隐层与观测数据之间存在非线性映射,很难将隐层与观测之间的关系可视化。
上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号:201511016955.7,公开号:CN 105631018A)中提出了一种基于主题模型的文章特征抽取检索方法,该种基于主题模型的文章特征抽取检索方法基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。
该种基于主题模型的文章特征抽取检索方法虽然能够直接对多模态的输入建立概率模型,把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题;但是,该方法由于受限于传统主题模型都是浅层模型,且仅限于构建不同模态浅层的联系,因而不能挖掘模态之间更深层的联系,从而影响检索性能。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于深层主题自编码模型的多模态检索方法,以泊松伽马置信自编码网络为基础,发掘不同模态隐层之间由深到浅的联系,得到一个用于检索多模态信息的联合特征,提高检索性能。
为实现上述、目的,本发明的技术方案包括如下步骤:
(1)确定J张图像和J个相应的文本为数据集,其中,每个相应的文本为对应图像包括的若干个单词,其中,J为大于1的正整数;
(2)对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg;
(3)计算包括T层的泊松伽马置信自编码网络初始参数,其中,T为大于1的正整数;
(4)计算文本矩阵的每一层共享变量权重矩阵
(5)将数据集划分为L个迷你块作为训练数据,利用训练数据和共享变量权重矩阵更新Φi和Φt,直到达到设定的训练次数,得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵
(6)将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数,把图像特征矩阵Xi输入到该网络,得到文本矩阵的预测单词矩阵该预测单词矩阵为多模态检索结果。
本发明与现有技术相比,具有以下优点:
第一,由于本发明采用初始化共享参数的操作,克服了现有技术中由于深度神经网络的“黑箱”特性。
第二,本发明由于在检索时对不同模态数据间的关联描述更加确切,克服了传统的多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限的问题,提高了检索性能。
第三,本发明由于在计算共享变量权重矩阵时加入了变分自编码框架,能够直接利用推断网络映射对模型参数进行推断,不再局限于传统的基布斯采样。
第四,本发明采用了在线梯度更新,使得模型能够更快地收敛,有助于高效地实现多模态检索。
附图说明
图1是本发明的实现流程图;
图2是本发明中的数据集部分展示图。
具体实施方式
下面结合附图对本发明的实施例和效果作进一步详细说明。
参照图1,本实例的具体实现步骤如下:
步骤1,确定数据集。
获取MIR Flicker 25k数据,该MIR Flicker 25k数据包括了从社交摄影网站Flickr下载下来的J张图像和对应的完整人工标注的单词,每一张图像包括Nj个单词,Nj是第j张图像对应的单词的数量;
用每张图像对应的单词组成一个相应的文本,得到J张图像和J个相应的文本,并将这些图像和文本记为数据集,如图2所示,其中:
图2a是城市的图片,右边的7个单词是对城市图片特征的描述;
图2b是花的图片,右边的7个单词是对花的图片特征的描述;
图2c是沙滩的图片,右边的7个单词是对沙滩图片特征的描述;
图2d是森林的图片,右边的7个单词是对森林图片特征的描述;
图2e是昆虫与植物的图片,右边的7个单词是对昆虫与植物图片特征的描述;
图2f是雪景的图片,右边的7个单词是对雪景图片特征的描述;
图2g是天空与村落的图片,右边的7个单词是对天空与村落图片特征的描述;
图2h是人物的图片,右边的7个单词是对人物图片特征的描述。
步骤2,对数据集进行特征提取,得到文本矩阵、图像特征矩阵及图像的边缘信息矩阵。
2a)设定一个Nj×2维矩阵为第j个词汇表,其中Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数,设Nj表示第j张图像包括的单词总个数,其中j=1,2,…,J,Nj>0;
2b)令j的值加1,设定第j张图像的Nj个单词中有Q个单词在第j-1个词汇表中存在,将这Q个单词在第j-1个词汇表内对应单词出现的次数加1,0≤Q≤Nj;
2c)对Nj-1×2维矩阵增加Nj-Q行,使其变换为(Nj-1+Nj-Q)×2维矩阵,以构成第j个词汇表,其中(Nj-1+Nj-Q)×2维矩阵中的第1列由第j-1张图像的Nj-1个单词和第j张图像剩余的Nj-Q个单词构成,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数;
2d)重复执行2b)到2c),直到得到第J个词汇表,即J个相应的文本词汇表,该J个相应的文本词汇表中包括有Vo个单词,Vo>0;
2e)对Vo个单词按照每个单词出现的次数由高到低进行排序,选取排序后出现次数最多的前Ve个单词作为最终词汇表,该最终词汇表包括Ve个单词,其中Ve<Vo;
2f)确定一个Ve×2维矩阵,该Ve×2维矩阵中第1列为最终词汇表中的Ve个词汇;设定第j张图像的Nj个单词中有Q'个单词在最终词汇表中存在;
2g)设Ve×2维矩阵中第2列初始值为0,在Ve×2维矩阵中第1列找到相应的Q'个单词,并将这Q'个单词在Ve×2维矩阵中第2列相应值分别加1,得到Ve×2维矩阵的第2列,将该第2列作为第j个相应文本Ve维向量,0≤Q'≤Nj;
2h)令j的值分别取1至J,重复执行2g),直到得到第1个相应的文本Ve维向量至第J个相应的文本Ve维向量,并将这J个Ve维向量合并为Ve×J维文本矩阵Xt;
2i)用尺度不变特征变换算法提取训练数据中每幅图像的特征,得到Vi×J维图像特征矩阵Xi,其中J为图像总张数,Vi为每幅图像特征的维度;
2j)通过vgg16算法提取图像特征矩阵Xi的边缘信息矩阵Xg,其中第j个图像对应的边缘信息向量为Xg_j。
步骤3.计算包括T层的泊松伽马置信自编码网络初始参数。
本实施例中T取值为3,其计算方法如下:
3a)确定第1层至第T层全局主题参数矩阵Φ(1),Φ(2),...,Φ(t),...,Φ(T),其中Φ(t)表示第t层D(t-1)×D(t)维全局主题参数矩阵,t=1,2,…,T,D(t)表示第t层全局主题参数矩阵Φ(t)包括的主题总个数;当t=1时,D(0)=Ve;
3b)定义第t层全局主题重构参数为Ve×D(t)维矩阵:当t=1时,将Ve×J维文本矩阵Xt中每一个相应的文本Ve维向量分别记为一个样本,并将V×J维文本矩阵Xt中第j个样本记为
3c)将第t层全局主题重构参数矩阵的第k(t)列记为Ve维向量k(t)=1,2,3,...,D(t),将中第v个元素记为表示为最终词汇表中第v个单词出现的概率,且满足
3d)将Ve×J维文本矩阵Xt中第j个样本Xt_j表示成:
其中,表示第t层全局主题重构参数矩阵的第k(t)个主题,k(t)=1,2,3,...,D(t),表示第j个样本对应第k(t)个主题的权重,并将这D(t)个权重合并成D(t)维变量权重向量
3e)j分别取1至J,重复执行3d),得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量将至这J个向量合并为文本矩阵Xt的第t层D(t)×J维变量权重矩阵θ(t);
3f)令t分别取1至T,重复执行3e),得到文本矩阵Xt的第1层变量权重矩阵θ(1)至第T层变量权重矩阵θ(T);
3g)按如下公式初始化超参数及共享参数:
其中,符号~表示服从,Gam表示伽马分布,Dir表示狄利克雷分布;
为文本矩阵Xt和图像特征矩阵Xi的第t层共享变量权重矩阵,的第j列表示为
为文本矩阵Xt和图像特征矩阵Xi的第t层共享全局主题参数矩阵,的第k(t)列表示为表示的第k(t)个主题的先验分布参数,
表示共享变量权重矩阵对应的先验分布参数,e0=1,f0=1;t=1,2,…,T,k(t)=1,2,…,D(t),j=1,2,…,J,r~Gam(γ0,1/c0),γ0,c0为伽马分布参数,γ0~Gam(a0,1/b0),c0~Gam(e0,1/f0);
3h)分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j:
其中,ki_j表示图像特征矩阵Xi的第j列图像的自适应尺度参数,kt_j表示文本矩阵Xt中的第j列文本的自适应尺度参数,表示图像特征矩阵Xi的第j列图像的第v'个元素,v'=1,2,…,Vi,Vi为图像特征矩阵的特征维度;表示文本矩阵Xt的第j列文本的第v个元素,v=1,2,…,Ve,Ve为最终词汇表的单词数量;
3i)根据如下公式计算文本矩阵Xt的第j列文本的第1层变量权重向量和图像特征矩阵Xi的第j列文本的第1层变量权重向量
其中,表示文本矩阵Xt的第j列文本和图像特征矩阵Xi的第j列图像的第1层共享隐层,ki_j表示图像特征矩阵Xi的第j列图像的自适应尺度参数,kt_j表示文本矩阵Xt中的第j列文本的自适应尺度参数;
3j)使用和按如下公式初始化主题参数
其中,符号~表示服从,Pois表示泊松分布;
图像特征矩阵Xi的第1层全局主题参数矩阵为的第k(1)个主题为且满足
文本矩阵Xt的第1层全局主题参数矩阵为的第k(1)个主题为且满足
t=1,2,…,T,k(t)=1,2,…,D(t);表示的第k(1)个主题的第v'个元素的先验分布参数,v'=1,2,…,Vi,Vi为图像特征矩阵的特征维度;表示的第k(1)个主题的第v个元素的先验分布参数,v=1,2,…,Ve,Ve为最终词汇表的单词数量;
表示图像特征矩阵Xi的第j列图像的第1层变量权重向量,表示文本矩阵Xt的第j列文本的第1层变量权重向量,表示文本矩阵Xt的第j列文本,表示图像特征矩阵Xi的第j列图像。
步骤4.计算共享变量权重矩阵。
4a)定义边缘信息权重矩阵We(t)及偏置矩阵be(t),并计算第t层隐层的边缘信息其中t=1,2,…,T, 为第j个图像的边缘信息向量;
4b)按高斯分布随机采样算法初始化如下参数:
自编码第h(t)层的权重矩阵Wh(t),自编码第h(t)层的偏置矩阵bh(t);
自编码第k(t)层的权重矩阵Wk(t),自编码第k(t)层的偏置矩阵bk(t);
自编码第λ(t)层的权重矩阵Wλ(t),自编码第λ(t)层的偏置矩阵bλ(t);
图像特征权重矩阵Wi(1),文本权重矩阵Wt(1),共享偏置矩阵bs(1);
4c)计算深层主题自编码网络第t层隐变量的Weibull分布参数
其中t=1时,j=1,2,…J,softplus为激活函数;
4d)对下式服从符号~右边的Weibull分布进行吉布斯采样操作,得到泊松伽马置信分布的第t层的隐变量其公式表示如下:
其中,为第t+1层共享主题参数矩阵,t=1,2,…T-1,Weibull表示伟布尔分布,
4f)给定如下损失函数Lg:
其中,p,q均表示求括号内事件的概率,E为数学期望运算;
4g)对损失函数Lg使用梯度下降算法进行优化,得到优化后的共享隐层表示并将这J个向量合并为共享变量权重矩阵
步骤5.将数据集划分为迷你块,利用训练数据和共享变量权重矩阵进行训练。
5a)将输入的文本矩阵Xt和图像特征矩阵Xi分别划分为L个迷你块,Jm表示每个迷你块包括的文本总个数,并将文本矩阵Xt的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵Xi的第l'个迷你块记为第l'个图像特征迷你块l′=1,2,3...,L;
5b)定义图像特征矩阵Xi的第1层全局主题参数矩阵使用第l个图像特征迷你块进行第e次更新后的向量为文本矩阵Xt的第1层全局主题参数矩阵使用第l个文本迷你块进行第e次更新后的向量为
5c)使用第l个文本迷你块第l个图像迷你块和优化后的共享变量权重矩阵按照SGMMC推理算法对5b)定义的两个向量和向量进行更新,直到满足设定的训练次数E后,得到使用第l个图像特征迷你块进行第E次更新后的向量和使用第l个文本迷你块进行第E次更新后的向量
5d)重复5c),得到L个更新完成的向量和L个更新完成的向量再将L个更新完成的向量合并为图像特征矩阵的最优全局主题参数矩阵将L个更新完成的向量合并为文本矩阵的最优全局主题参数矩阵
步骤6.通过输入图像特征矩阵Xi来检索符合图像的标签。
6a)对于图像特征矩阵Xi的第j列图像按如下公式得到文本矩阵Xt和图像特征矩阵Xi的第1层共享变量权重矩阵的第j列
其中~表示服从,Gam表示伽马分布,表示文本矩阵Xt和图像特征矩阵Xi的第2层共享全局主题参数矩阵,为共享主题参数矩阵的第k(2)个主题,表示为 表示的第k(2)个主题的先验分布参数;
为第2层共享变量权重矩阵的第j列,表示为 为第3层共享全局主题参数矩阵,为共享主题参数矩阵的第k(3)个主题,表示为 为的第k(3)个主题的先验分布参数,Dir表示狄利克雷分布;为第3层共享变量权重矩阵的第j列表示为r为伽马分布参数,表示为r~Gam(γ0,1/c0),γ0,c0均为伽马分布参数,表示为c0~Gam(e0,1/f0),γ0~Gam(a0,1/b0),b0=0.01,a0=0.01;
为第t层共享变量权重矩阵的先验分布参数,表示为e0=1,f0=1;k(t)=1,2,…,D(t),D(t)表示第t层全局主题参数矩阵包括的主题总个数,j=1,2,…J;
6b)根据第1层共享变量权重矩阵和文本矩阵Xt的第1层全局主题参数矩阵计算文本矩阵Xt的第j列最终文本向量
6c)将第j列最终文本向量中所有元素从大到小排序后选取前s个元素,选取前s个元素在最终词汇表中对应的s个单词,记为文本矩阵Xt的第j列的预测单词;
6d)重复6c)得到文本矩阵Xt的第1列s个预测单词至文本矩阵Xt的第J列s个预测单词,将这s×J个单词合并为文本矩阵Xt的预测单词矩阵即为多模态检索结果。
Claims (9)
1.一种基于在线深层主题模型的多模态检索方法,其特征在于,包括如下:
(1)确定J张图像和J个相应的文本为数据集,其中,每个相应的文本为对应图像包括的若干个单词,其中,J为大于1的正整数;
(2)对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg;
(3)计算包括T层的泊松伽马置信自编码网络初始参数,其中,T为大于1的正整数;
(4)计算文本矩阵的每一层共享变量权重矩阵
(5)将数据集划分为L个迷你块作为训练数据,利用训练数据和共享变量权重矩阵更新Φi和Φt,直到达到设定的训练次数,得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵
(6)将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数,把图像特征矩阵Xi输入到该网络,得到文本矩阵的预测单词矩阵该预测单词矩阵为多模态检索结果。
2.如权利要求1所述的方法,其特征在于,(2)中对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg,其实现如下:
2a)设定一个Nj×2维矩阵为第j个词汇表,其中Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数,设Nj表示第j张图像包括的单词总个数,其中j=1,2,…,J,Nj>0;
2b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj;
2c)对Nj-1×2维矩阵增加Nj-Q行,使其变换为(Nj-1+Nj-Q)×2维矩阵,以构成第j个词汇表,其中(Nj-1+Nj-Q)×2维矩阵中的第1列由第j-1张图像的Nj-1个单词和第j张图像剩余的Nj-Q个单词构成,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数;
2d)重复执行2b)到2c),直到得到第J个词汇表,即J个相应的文本词汇表,该J个相应的文本词汇表中包括有Vo个单词,Vo>0;
2e)对Vo个单词按照每个单词出现的次数由高到低进行排序,选取排序后出现次数最多的前Ve个单词作为最终词汇表,该最终词汇表包括Ve个单词,其中Ve<Vo;
2f)确定一个Ve×2维矩阵,该Ve×2维矩阵中第1列为最终词汇表中的Ve个词汇;设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现;
2g)设Ve×2维矩阵中第2列初始值为0,在Ve×2维矩阵中第1列找到相应的Q'个单词,并将Q'个单词在Ve×2维矩阵中第2列相应值分别加1,得到的Ve×2维矩阵第2列作为第j个相应的文本Ve维向量,其余Ve-Q'个单词在Ve×2维矩阵中第2列的对应值为0,即最终词汇表中不存在这些单词;0≤Q'≤Nj;
2h)令j的值分别取1至J,重复执行2g),直到得到第1个相应的文本Ve维向量至第J个相应的文本Ve维向量,并将该第1个相应的文本Ve维向量至第J个相应的文本Ve维向量记为Ve×J维文本矩阵Xt;
2i)用尺度不变特征变换算法提取待训练数据中每幅图像的特征,得到Vi×J维图像特征矩阵Xi,其中J为图像总张数,Vi为每幅图像特征的维度;
2j)通过vgg16算法提取图像特征矩阵Xi的边缘信息矩阵Xg,其中第j个图像对应的边缘信息向量为Xg_j。
3.如权利要求1所述的方法,其特征在于,(3),计算包括T层的泊松伽马置信自编码网络初始参数,其实现如下:
3a)对于输入的Ve×J维文本矩阵Xt,确定第1层至第T层全局主题参数矩阵Φ(1),Φ(2),...,Φ(t),...,Φ(T),其中Φ(t)表示第t层D(t-1)×D(t)维全局主题参数矩阵,t=1,2,…,T,D(t)表示第t层全局主题参数矩阵Φ(t)包括的主题总个数;当t=1时,D(0)=Ve;
3b)定义第t层全局主题重构参数为Ve×D(t)维矩阵 当t=1时,将Ve×J维文本矩阵Xt中每一个相应的文本Ve维向量分别记为一个样本,并将V×J维文本矩阵Xt中第j个样本记为
3c)将第t层全局主题重构参数矩阵的第k(t)列记为Ve维向量k(t)=1,2,3,...,D(t),将中第v个元素记为表示最终词汇表中第v个单词出现的概率,且满足
3d)将Ve×J维文本矩阵Xt中第j个样本Xt_j表示成:
其中,表示第t层全局主题重构参数矩阵的第k(t)个主题,k(t)=1,2,3,...,D(t),表示第j个样本对应第k(t)个主题的权重,并将这D(t)个元素合并成D(t)维变量权重向量
3e)j分别取1至J,重复执行3d),得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量将至这J个向量合并为文本矩阵Xt的第t层D(t)×J维变量权重矩阵θ(t);
3f)令t分别取1至T,重复执行3e),得到文本矩阵Xt的第1层变量权重矩阵θ(1)至第T层变量权重矩阵θ(T);
3g)初始化超参数及共享参数,并分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j;
3h)计算文本矩阵Xt的第j列文本的第1层变量权重向量和图像特征矩阵Xi的第j列文本的第1层变量权重向量并使用和初始化主题参数
4.如权利要求3所述的方法,其特征在于,3g)中初始化超参数及共享参数,并分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j,其实现如下:
3g1)初始化超参数及共享参数:
其中,为文本矩阵Xt和图像特征矩阵Xi的第t层共享变量权重矩阵,的第j列表示为 为文本矩阵Xt和图像特征矩阵Xi的第t层共享全局主题参数矩阵,的第k(t)列表示为~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布;表示的第k(t)个主题的先验分布参数, 表示共享变量权重矩阵对应的先验分布参数,
3g2)计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j:
其中,其中,ki_j表示图像特征矩阵Xi的第j列图像的自适应尺度参数,kt_j表示文本矩阵Xt中的第j列文本的自适应尺度参数,表示图像特征矩阵Xi的第j列图像的第v'个元素,v'=1,2,…,Vi,Vi为图像特征矩阵的特征维度;表示文本矩阵Xt的第j列文本的第v个元素,v=1,2,…,Ve,Ve为最终词汇表的单词数量。
5.如权利要求3所述的方法,其特征在于,3h)中计算文本矩阵Xt的第j列文本的第1层变量权重向量和图像特征矩阵Xi的第j列文本的第1层变量权重向量并初始化主题参数,其实现如下:
3h1)根据文本矩阵Xt的第j列文本和图像特征矩阵Xi的第j列图像的第1层共享隐层按如下公式得到文本矩阵Xt的第j列文本的第1层变量权重向量和图像特征矩阵Xi的第j列文本的第1层变量权重向量
其中,表示文本矩阵Xt的第j列文本和图像特征矩阵Xi的第j列图像的第1层共享隐层,ki_j表示图像特征矩阵Xi的第j列图像的自适应尺度参数,kt_j表示文本矩阵Xt中的第j列文本的自适应尺度参数;
3h2)初始化主题参数:
其中,图像特征矩阵Xi的第1层全局主题参数矩阵为的第k(1)个主题为文本矩阵Xt的第1层全局主题参数矩阵为的第k(1)个主题为 表示的第k(1)个主题的第v'个元素的先验分布参数,Vi为图像特征矩阵的特征维度;表示的第k(1)个主题的第v个元素的先验分布参数,Ve为最终词汇表的单词数量;表示图像特征矩阵Xi的第j列图像的第1层变量权重向量,表示文本矩阵Xt的第j列文本的第1层变量权重向量,表示文本矩阵Xt的第j列文本,表示图像特征矩阵Xi的第j列图像,~表示服从,Pois表示泊松分布。
6.如权利要求1所述的方法,其特征在于,在(4)中计算得到文本矩阵的每一层共享变量权重矩阵实现如下:
4a)定义边缘信息权重矩阵We(t)及偏置矩阵be(t),并计算第t层隐层的边缘信息其中t=1,2,…,T, 为第j个图像的边缘信息向量;
4b)按高斯分布随机采样算法初始化如下参数:
自编码第h(t)层的权重矩阵Wh(t),自编码第h(t)层的偏置矩阵bh(t);
自编码第k(t)层的权重矩阵Wk(t),自编码第k(t)层的偏置矩阵bk(t);
自编码第λ(t)层的权重矩阵Wλ(t),自编码第λ(t)层的偏置矩阵bλ(t);
图像特征权重矩阵Wi(1),文本权重矩阵Wt(1),共享偏置矩阵bs(1);
4c)计算深层主题自编码网络第t层隐变量的Weibull分布参数
其中t=1时, softplus为激活函数;
4d)对下式服从符号~右边的Weibull分布进行吉布斯采样操作,得到泊松伽马置信分布的第t层的隐变量其公式表示如下:
其中,为第t+1层共享主题参数矩阵,t=1,2,…T-1,Weibull表示伟布尔分布,
4f)给定如下损失函数:
其中,p,q均表示求括号内事件的概率,E为数学期望运算;
4g)对损失函数Lg使用梯度下降算法进行优化,得到优化后的共享隐层表示并将这J个向量合并为共享变量权重矩阵
7.如权利要求1所述的方法,其特征在于,(5)中将数据集划分为L个迷你块作为训练数据,是将输入的文本矩阵Xt和图像特征矩阵Xi分别划分为L个迷你块,Jm表示每个迷你块包括的文本总个数,并将文本矩阵Xt的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵Xi的第l'个迷你块记为第l'个图像特征迷你块
8.如权利要求1或7所述的方法,其特征在于,(5)中将利用训练数据和共享变量权重矩阵更新Φi和Φt,得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵实现如下:
5a)定义图像特征矩阵Xi的第1层全局主题参数矩阵使用第l个图像特征迷你块进行第e次更新后的向量为文本矩阵Xt的第1层全局主题参数矩阵使用第l个文本迷你块进行第e次更新后的向量为
5b)使用第l个文本迷你块第l个图像迷你块和优化后的共享变量权重矩阵按照SGMMC推理算法对向量和向量进行更新,直到满足设定的训练次数E后,得到使用第l个图像特征迷你块进行第E次更新后的向量和文使用第l个文本迷你块进行第E次更新后的向量
5c)重复5b),得到L个更新完成的向量和L个更新完成的向量再将L个更新完成的向量合并为图像特征矩阵的最优全局主题参数矩阵将L个更新完成的向量合并为文本矩阵的最优全局主题参数矩阵
9.如权利要求1所述的方法,其特征在于(6)中,将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数,把图像特征矩阵Xi输入到该网络,得到文本矩阵的预测单词矩阵实现如下:
6a)对于图像特征矩阵Xi的第j列图像根据文本矩阵Xt和图像特征矩阵Xi的第t层共享变量权重矩阵的第j列按如下公式得到文本矩阵Xt和图像特征矩阵Xi的第1层共享变量权重矩阵的第j列
其中表示文本矩阵Xt和图像特征矩阵Xi的第2层共享全局主题参数矩阵,为共享主题参数矩阵的第k(2)个主题,表示为 表示的第k(2)个主题的先验分布参数;
表示第2层共享变量权重矩阵的第j列表示为表示第3层共享全局主题参数矩阵,为共享主题参数矩阵的第k(3)个主题,表示为 表示的第k(3)个主题的先验分布参数;为第3层共享变量权重矩阵的第j列表示为r为Gamma分布参数,表示为r~Gam(γ0,1/c0),γ0,c0均为Gamma分布参数,表示为c0~Gam(e0,1/f0),γ0~Gam(a0,1/b0),b0=0.01,a0=0.01;
为第t层共享变量权重矩阵的先验分布参数,表示为~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布,k(t)=1,2,…,D(t),D(t)表示第t层全局主题参数矩阵包括的主题总个数,j=1,2,…J;
6b)根据第1层共享变量权重矩阵和文本矩阵Xt的第1层全局主题参数矩阵计算文本矩阵Xt的第j列最终文本向量
6c)将第j列最终文本向量中所有元素从大到小排序后选取前s个元素,选取前s个元素在最终词汇表中对应的s个单词,记为文本矩阵Xt的第j列的预测单词;
6d)重复6c)得到文本矩阵Xt的第1列s个预测单词至文本矩阵Xt的第J列s个预测单词,将这s×J个单词合并为文本矩阵Xt的预测单词矩阵即为多模态检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527804.XA CN110222222B (zh) | 2019-06-18 | 2019-06-18 | 基于深层主题自编码模型的多模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527804.XA CN110222222B (zh) | 2019-06-18 | 2019-06-18 | 基于深层主题自编码模型的多模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222222A true CN110222222A (zh) | 2019-09-10 |
CN110222222B CN110222222B (zh) | 2022-12-27 |
Family
ID=67817725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910527804.XA Active CN110222222B (zh) | 2019-06-18 | 2019-06-18 | 基于深层主题自编码模型的多模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222222B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及系统 |
CN117726721A (zh) * | 2024-02-08 | 2024-03-19 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7814040B1 (en) * | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN107609055A (zh) * | 2017-08-25 | 2018-01-19 | 西安电子科技大学 | 基于深层主题模型的文本图像多模态检索方法 |
CN109033304A (zh) * | 2018-07-17 | 2018-12-18 | 西安电子科技大学 | 基于在线深层主题模型的多模态检索方法 |
-
2019
- 2019-06-18 CN CN201910527804.XA patent/CN110222222B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7814040B1 (en) * | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN107609055A (zh) * | 2017-08-25 | 2018-01-19 | 西安电子科技大学 | 基于深层主题模型的文本图像多模态检索方法 |
CN109033304A (zh) * | 2018-07-17 | 2018-12-18 | 西安电子科技大学 | 基于在线深层主题模型的多模态检索方法 |
Non-Patent Citations (1)
Title |
---|
田等: "一种基于多模态主题模型的图像自动标注方法", 《国外电子测量技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及系统 |
CN117726721A (zh) * | 2024-02-08 | 2024-03-19 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117726721B (zh) * | 2024-02-08 | 2024-04-30 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110222222B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052754B (zh) | 基于自监督表征学习的极化sar影像地物分类方法 | |
CN109086700A (zh) | 基于深度卷积神经网络的雷达一维距离像目标识别方法 | |
CN106897714A (zh) | 一种基于卷积神经网络的视频动作检测方法 | |
Huang et al. | Linking genetic algorithms with stochastic dynamic programming to the long‐term operation of a multireservoir system | |
CN107562812A (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN107622104A (zh) | 一种文字图像识别标注方法及系统 | |
CN108121975A (zh) | 一种联合原始数据和生成数据的人脸识别方法 | |
CN110597799B (zh) | 一种时序数据缺失值自动填补方法、系统和设备 | |
CN107609055B (zh) | 基于深层主题模型的文本图像多模态检索方法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN108009575A (zh) | 一种用于复杂网络的社区发现方法 | |
CN109960755B (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN110222222A (zh) | 基于深层主题自编码模型的多模态检索方法 | |
CN106846322A (zh) | 基于曲线波滤波器和卷积结构学习的sar图像分割方法 | |
CN110472062A (zh) | 识别命名实体的方法及装置 | |
CN109033304A (zh) | 基于在线深层主题模型的多模态检索方法 | |
CN109960732A (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN106971189A (zh) | 一种低分辨率含噪星图识别方法 | |
CN111310623B (zh) | 基于遥感数据与机器学习对泥石流敏感性地图分析的方法 | |
Jin et al. | Deep learning for seasonal precipitation prediction over China | |
CN104866630A (zh) | 成矿预测中gis与es自动空间建模系统及方法 | |
CN107451617A (zh) | 一种图转导半监督分类方法 | |
Zhang et al. | Hybrid feature CNN model for point cloud classification and segmentation | |
Xin et al. | Digitalization system of ancient architecture decoration art based on neural network and image features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |