CN110222222A

CN110222222A - 基于深层主题自编码模型的多模态检索方法

Info

Publication number: CN110222222A
Application number: CN201910527804.XA
Authority: CN
Inventors: 陈渤; 武嘉文; 王超杰; 刘宏伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-09-10
Anticipated expiration: 2039-06-18
Also published as: CN110222222B

Abstract

本发明公开了一种基于深层主题自编码模型的多模态检索方法，主要解决现有技术检索性能低的问题，其实现方案是：确定J张图像和J个相应的文本为数据集，其中每个相应的文本为对应图像包括的若干个单词；对数据集进行预处理得到文本矩阵和图像特征矩阵作为训练数据；建立包括T层的泊松伽马置信自编码网络，并得到文本矩阵的每一层变量权重矩阵；利用训练数据去更新的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵；根据训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，以图像特征矩阵为输入，得到文本矩阵的预测单词矩阵，即为多模态检索结果。本发明提高了检索的性能，可用于文本‑图像检索。

Description

基于深层主题自编码模型的多模态检索方法

技术领域

本发明属于图像处理技术领域，特别涉及一种多模态检索方法，适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征，并利用所提取的联合特征对文本-图像进行检索。

背景技术

多模态检索技术是利用联合学习不同模态特征，并挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成；多模态泊松伽马置信网络Multimodal-PGBN是一种基于贝叶斯框架的在线深层主题模型，该模型拥有多层网络结构，能够快速提取出数据的多层特征，在文本处理上优于传统主题模型；同时Multimodal-PGBN模型不仅可以应用于文本处理，还可以应用于图像处理。

多模态学习技术是指，联合学习不同模态特征，挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成；基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为：利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征表示用于检索。

K Sohn，W Shang，H Lee等人在其发表的论文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法，该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络，受限制玻尔兹曼机网络层内无连接，在初始化网络参数后训练下一层网络，这就形成了一个两层结构的受限制玻尔兹曼机，将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元，就形成了多层深度网络。

该种基于深度神经网络的多模态检索方法引入了基于对比散度和多预测训练的学习方法，向深层网络反复编码结构调整整个网络，然后共享这些特定模态网络的最高层，通过联合学习的方法训练整个神经网络并把共享的隐层最高层作为联合特征表示；该种基于深度神经网络的多模态检索方法虽然能够挖掘的不同模态特征之间的联系，但该种基于深度神经网络的多模态检索方法仍然存在的不足之处是：由于深度神经网络的“黑箱”特性，多层受限制玻尔兹曼机的隐层单元局限于二值，表达能力有限，从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系；同时，受限制玻尔兹曼机隐层与观测数据之间存在非线性映射，很难将隐层与观测之间的关系可视化。

上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号：201511016955.7，公开号：CN 105631018A)中提出了一种基于主题模型的文章特征抽取检索方法，该种基于主题模型的文章特征抽取检索方法基于原始语料库构建文章的引用关系网络，构建主题模型的生成模型和参数联合表达式，根据所述生成模型构建主题模型的推断过程，对新语料库采样文章，根据采样文章的采样结果提取文章参数。

该种基于主题模型的文章特征抽取检索方法虽然能够直接对多模态的输入建立概率模型，把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题；但是，该方法由于受限于传统主题模型都是浅层模型，且仅限于构建不同模态浅层的联系，因而不能挖掘模态之间更深层的联系，从而影响检索性能。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于深层主题自编码模型的多模态检索方法，以泊松伽马置信自编码网络为基础，发掘不同模态隐层之间由深到浅的联系，得到一个用于检索多模态信息的联合特征，提高检索性能。

为实现上述、目的，本发明的技术方案包括如下步骤：

(1)确定J张图像和J个相应的文本为数据集，其中，每个相应的文本为对应图像包括的若干个单词，其中，J为大于1的正整数；

(2)对数据集进行特征提取，得到文本矩阵X_t、图像特征矩阵X_i及图像的边缘信息矩阵X_g；

(3)计算包括T层的泊松伽马置信自编码网络初始参数，其中，T为大于1的正整数；

(4)计算文本矩阵的每一层共享变量权重矩阵

(5)将数据集划分为L个迷你块作为训练数据，利用训练数据和共享变量权重矩阵更新Φ_i和Φ_t，直到达到设定的训练次数，得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵

(6)将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数，把图像特征矩阵X_i输入到该网络，得到文本矩阵的预测单词矩阵该预测单词矩阵为多模态检索结果。

本发明与现有技术相比，具有以下优点：

第一，由于本发明采用初始化共享参数的操作，克服了现有技术中由于深度神经网络的“黑箱”特性。

第二，本发明由于在检索时对不同模态数据间的关联描述更加确切，克服了传统的多层受限制玻尔兹曼机的隐层单元局限于二值，表达能力有限的问题，提高了检索性能。

第三，本发明由于在计算共享变量权重矩阵时加入了变分自编码框架，能够直接利用推断网络映射对模型参数进行推断，不再局限于传统的基布斯采样。

第四，本发明采用了在线梯度更新，使得模型能够更快地收敛，有助于高效地实现多模态检索。

附图说明

图1是本发明的实现流程图；

图2是本发明中的数据集部分展示图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步详细说明。

参照图1，本实例的具体实现步骤如下：

步骤1，确定数据集。

获取MIR Flicker 25k数据，该MIR Flicker 25k数据包括了从社交摄影网站Flickr下载下来的J张图像和对应的完整人工标注的单词，每一张图像包括N_j个单词，N_j是第j张图像对应的单词的数量；

用每张图像对应的单词组成一个相应的文本，得到J张图像和J个相应的文本，并将这些图像和文本记为数据集，如图2所示，其中：

图2a是城市的图片，右边的7个单词是对城市图片特征的描述；

图2b是花的图片，右边的7个单词是对花的图片特征的描述；

图2c是沙滩的图片，右边的7个单词是对沙滩图片特征的描述；

图2d是森林的图片，右边的7个单词是对森林图片特征的描述；

图2e是昆虫与植物的图片，右边的7个单词是对昆虫与植物图片特征的描述；

图2f是雪景的图片，右边的7个单词是对雪景图片特征的描述；

图2g是天空与村落的图片，右边的7个单词是对天空与村落图片特征的描述；

图2h是人物的图片，右边的7个单词是对人物图片特征的描述。

步骤2，对数据集进行特征提取，得到文本矩阵、图像特征矩阵及图像的边缘信息矩阵。

2a)设定一个N_j×2维矩阵为第j个词汇表，其中N_j×2维矩阵中第1列分别为第j张图像的N_j个单词，N_j×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数，设N_j表示第j张图像包括的单词总个数，其中j＝1,2,…,J,N_j＞0；

2b)令j的值加1，设定第j张图像的N_j个单词中有Q个单词在第j-1个词汇表中存在，将这Q个单词在第j-1个词汇表内对应单词出现的次数加1，0≤Q≤N_j；

2c)对N_j-1×2维矩阵增加N_j-Q行，使其变换为(N_j-1+N_j-Q)×2维矩阵，以构成第j个词汇表，其中(N_j-1+N_j-Q)×2维矩阵中的第1列由第j-1张图像的N_j-1个单词和第j张图像剩余的N_j-Q个单词构成，(N_j-1+N_j-Q)×2维矩阵中第2列为第1列N_j-1+N_j-Q个单词在第j-1张图像和第j张图像中对应出现的次数；

2d)重复执行2b)到2c)，直到得到第J个词汇表，即J个相应的文本词汇表，该J个相应的文本词汇表中包括有V_o个单词，V_o＞0；

2e)对V_o个单词按照每个单词出现的次数由高到低进行排序，选取排序后出现次数最多的前V_e个单词作为最终词汇表，该最终词汇表包括V_e个单词，其中V_e＜V_o；

2f)确定一个V_e×2维矩阵，该V_e×2维矩阵中第1列为最终词汇表中的V_e个词汇；设定第j张图像的N_j个单词中有Q'个单词在最终词汇表中存在；

2g)设V_e×2维矩阵中第2列初始值为0，在V_e×2维矩阵中第1列找到相应的Q'个单词，并将这Q'个单词在V_e×2维矩阵中第2列相应值分别加1，得到V_e×2维矩阵的第2列，将该第2列作为第j个相应文本V_e维向量，0≤Q'≤N_j；

2h)令j的值分别取1至J，重复执行2g)，直到得到第1个相应的文本V_e维向量至第J个相应的文本V_e维向量，并将这J个V_e维向量合并为V_e×J维文本矩阵X_t；

2i)用尺度不变特征变换算法提取训练数据中每幅图像的特征，得到V_i×J维图像特征矩阵X_i，其中J为图像总张数，V_i为每幅图像特征的维度；

2j)通过vgg16算法提取图像特征矩阵X_i的边缘信息矩阵X_g，其中第j个图像对应的边缘信息向量为X_{g_j}。

步骤3.计算包括T层的泊松伽马置信自编码网络初始参数。

本实施例中T取值为3，其计算方法如下：

3a)确定第1层至第T层全局主题参数矩阵Φ⁽¹⁾,Φ⁽²⁾,...,Φ^(t),...,Φ^(T)，其中Φ^(t)表示第t层D^(t-1)×D^(t)维全局主题参数矩阵，t＝1,2,…,T，D^(t)表示第t层全局主题参数矩阵Φ^(t)包括的主题总个数；当t＝1时，D⁽⁰⁾＝V_e；

3b)定义第t层全局主题重构参数为V_e×D^(t)维矩阵：当t＝1时，将V_e×J维文本矩阵X_t中每一个相应的文本V_e维向量分别记为一个样本，并将V×J维文本矩阵X_t中第j个样本记为

3c)将第t层全局主题重构参数矩阵的第k^(t)列记为V_e维向量k^(t)＝1,2,3,...,D^(t)，将中第v个元素记为表示为最终词汇表中第v个单词出现的概率，且满足

3d)将V_e×J维文本矩阵X_t中第j个样本X_{t_j}表示成：

其中，表示第t层全局主题重构参数矩阵的第k^(t)个主题，k^(t)＝1,2,3,...,D^(t)，表示第j个样本对应第k^(t)个主题的权重，并将这D^(t)个权重合并成D^(t)维变量权重向量

3e)j分别取1至J，重复执行3d)，得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量将至这J个向量合并为文本矩阵X_t的第t层D^(t)×J维变量权重矩阵θ^(t)；

3f)令t分别取1至T，重复执行3e)，得到文本矩阵X_t的第1层变量权重矩阵θ⁽¹⁾至第T层变量权重矩阵θ^(T)；

3g)按如下公式初始化超参数及共享参数：

其中，符号～表示服从，Gam表示伽马分布，Dir表示狄利克雷分布；

为文本矩阵X_t和图像特征矩阵X_i的第t层共享变量权重矩阵，的第j列表示为

为文本矩阵X_t和图像特征矩阵X_i的第t层共享全局主题参数矩阵，的第k^(t)列表示为表示的第k^(t)个主题的先验分布参数，

表示共享变量权重矩阵对应的先验分布参数，e₀＝1,f₀＝1；t＝1,2,…,T，k^(t)＝1,2,…,D^(t)，j＝1,2,…,J，r～Gam(γ₀,1/c₀)，γ₀，c₀为伽马分布参数，γ₀～Gam(a₀,1/b₀)，c₀～Gam(e₀,1/f₀)；

3h)分别计算图像特征矩阵X_i的第j列图像的自适应尺度参数k_{i_j}和文本矩阵X_t中的第j列文本的自适应尺度参数k_{t_j}：

其中，k_{i_j}表示图像特征矩阵X_i的第j列图像的自适应尺度参数，k_{t_j}表示文本矩阵X_t中的第j列文本的自适应尺度参数，表示图像特征矩阵X_i的第j列图像的第v'个元素，v'＝1,2,…,V_i，V_i为图像特征矩阵的特征维度；表示文本矩阵X_t的第j列文本的第v个元素，v＝1,2,…,V_e,V_e为最终词汇表的单词数量；

3i)根据如下公式计算文本矩阵X_t的第j列文本的第1层变量权重向量和图像特征矩阵X_i的第j列文本的第1层变量权重向量

其中，表示文本矩阵X_t的第j列文本和图像特征矩阵X_i的第j列图像的第1层共享隐层,k_{i_j}表示图像特征矩阵X_i的第j列图像的自适应尺度参数，k_{t_j}表示文本矩阵X_t中的第j列文本的自适应尺度参数；

3j)使用和按如下公式初始化主题参数

其中，符号～表示服从，Pois表示泊松分布；

图像特征矩阵X_i的第1层全局主题参数矩阵为的第k⁽¹⁾个主题为且满足

文本矩阵X_t的第1层全局主题参数矩阵为的第k⁽¹⁾个主题为且满足

t＝1,2,…,T，k^(t)＝1,2,…,D^(t)；表示的第k⁽¹⁾个主题的第v'个元素的先验分布参数，v'＝1,2,…,V_i,V_i为图像特征矩阵的特征维度；表示的第k⁽¹⁾个主题的第v个元素的先验分布参数，v＝1,2,…,V_e，V_e为最终词汇表的单词数量；

表示图像特征矩阵X_i的第j列图像的第1层变量权重向量，表示文本矩阵X_t的第j列文本的第1层变量权重向量，表示文本矩阵X_t的第j列文本，表示图像特征矩阵X_i的第j列图像。

步骤4.计算共享变量权重矩阵。

4a)定义边缘信息权重矩阵W^e(t)及偏置矩阵b^e(t)，并计算第t层隐层的边缘信息其中t＝1,2,…,T，为第j个图像的边缘信息向量；

4b)按高斯分布随机采样算法初始化如下参数：

自编码第h(t)层的权重矩阵W^h(t)，自编码第h(t)层的偏置矩阵b^h(t)；

自编码第k(t)层的权重矩阵W^k(t)，自编码第k(t)层的偏置矩阵b^k(t)；

自编码第λ(t)层的权重矩阵W^λ(t)，自编码第λ(t)层的偏置矩阵b^λ(t)；

图像特征权重矩阵Wⁱ⁽¹⁾，文本权重矩阵W^t(1)，共享偏置矩阵b^s(1)；

4c)计算深层主题自编码网络第t层隐变量的Weibull分布参数

其中t＝1时，j＝1,2,…J，softplus为激活函数；

4d)对下式服从符号～右边的Weibull分布进行吉布斯采样操作，得到泊松伽马置信分布的第t层的隐变量其公式表示如下：

其中，为第t+1层共享主题参数矩阵，t＝1,2,…T-1，Weibull表示伟布尔分布，

4f)给定如下损失函数L_g：

其中，p，q均表示求括号内事件的概率，E为数学期望运算；

4g)对损失函数L_g使用梯度下降算法进行优化，得到优化后的共享隐层表示并将这J个向量合并为共享变量权重矩阵

步骤5.将数据集划分为迷你块，利用训练数据和共享变量权重矩阵进行训练。

5a)将输入的文本矩阵X_t和图像特征矩阵X_i分别划分为L个迷你块，J_m表示每个迷你块包括的文本总个数，并将文本矩阵X_t的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵X_i的第l'个迷你块记为第l'个图像特征迷你块l′=1，2，3...，L；

5b)定义图像特征矩阵X_i的第1层全局主题参数矩阵使用第l个图像特征迷你块进行第e次更新后的向量为文本矩阵X_t的第1层全局主题参数矩阵使用第l个文本迷你块进行第e次更新后的向量为

5c)使用第l个文本迷你块第l个图像迷你块和优化后的共享变量权重矩阵按照SGMMC推理算法对5b)定义的两个向量和向量进行更新，直到满足设定的训练次数E后，得到使用第l个图像特征迷你块进行第E次更新后的向量和使用第l个文本迷你块进行第E次更新后的向量

5d)重复5c)，得到L个更新完成的向量和L个更新完成的向量再将L个更新完成的向量合并为图像特征矩阵的最优全局主题参数矩阵将L个更新完成的向量合并为文本矩阵的最优全局主题参数矩阵

步骤6.通过输入图像特征矩阵X_i来检索符合图像的标签。

6a)对于图像特征矩阵X_i的第j列图像按如下公式得到文本矩阵X_t和图像特征矩阵X_i的第1层共享变量权重矩阵的第j列

其中～表示服从，Gam表示伽马分布，表示文本矩阵X_t和图像特征矩阵X_i的第2层共享全局主题参数矩阵，为共享主题参数矩阵的第k⁽²⁾个主题，表示为表示的第k⁽²⁾个主题的先验分布参数；

为第2层共享变量权重矩阵的第j列，表示为为第3层共享全局主题参数矩阵，为共享主题参数矩阵的第k⁽³⁾个主题，表示为为的第k⁽³⁾个主题的先验分布参数，Dir表示狄利克雷分布；为第3层共享变量权重矩阵的第j列表示为r为伽马分布参数，表示为r～Gam(γ₀,1/c₀)，γ₀，c₀均为伽马分布参数，表示为c₀～Gam(e₀,1/f₀)，γ₀～Gam(a₀,1/b₀)，b₀＝0.01，a₀＝0.01；

为第t层共享变量权重矩阵的先验分布参数，表示为e₀＝1,f₀＝1；k^(t)＝1,2,…,D^(t)，D^(t)表示第t层全局主题参数矩阵包括的主题总个数，j＝1,2,…J；

6b)根据第1层共享变量权重矩阵和文本矩阵X_t的第1层全局主题参数矩阵计算文本矩阵X_t的第j列最终文本向量

6c)将第j列最终文本向量中所有元素从大到小排序后选取前s个元素，选取前s个元素在最终词汇表中对应的s个单词，记为文本矩阵X_t的第j列的预测单词；

6d)重复6c)得到文本矩阵X_t的第1列s个预测单词至文本矩阵X_t的第J列s个预测单词，将这s×J个单词合并为文本矩阵X_t的预测单词矩阵即为多模态检索结果。

Claims

1.一种基于在线深层主题模型的多模态检索方法，其特征在于，包括如下：

(4)计算文本矩阵的每一层共享变量权重矩阵

2.如权利要求1所述的方法，其特征在于，(2)中对数据集进行特征提取，得到文本矩阵X_t、图像特征矩阵X_i及图像的边缘信息矩阵X_g，其实现如下：

2b)令j的值加1，设定第j张图像的N_j个单词中Q个单词在第j-1个词汇表内出现，将第j张图像的N_j个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1，0≤Q≤N_j；

2f)确定一个V_e×2维矩阵，该V_e×2维矩阵中第1列为最终词汇表中的V_e个词汇；设定第j张图像的N_j个单词中有Q'个单词在最终词汇表内出现；

2g)设V_e×2维矩阵中第2列初始值为0，在V_e×2维矩阵中第1列找到相应的Q'个单词，并将Q'个单词在V_e×2维矩阵中第2列相应值分别加1，得到的V_e×2维矩阵第2列作为第j个相应的文本V_e维向量，其余V_e-Q'个单词在V_e×2维矩阵中第2列的对应值为0，即最终词汇表中不存在这些单词；0≤Q'≤N_j；

2h)令j的值分别取1至J，重复执行2g)，直到得到第1个相应的文本V_e维向量至第J个相应的文本V_e维向量，并将该第1个相应的文本V_e维向量至第J个相应的文本V_e维向量记为V_e×J维文本矩阵X_t；

2i)用尺度不变特征变换算法提取待训练数据中每幅图像的特征，得到V_i×J维图像特征矩阵X_i，其中J为图像总张数，V_i为每幅图像特征的维度；

3.如权利要求1所述的方法，其特征在于，(3)，计算包括T层的泊松伽马置信自编码网络初始参数，其实现如下：

3a)对于输入的V_e×J维文本矩阵X_t，确定第1层至第T层全局主题参数矩阵Φ⁽¹⁾,Φ⁽²⁾,...,Φ^(t),...,Φ^(T)，其中Φ^(t)表示第t层D^(t-1)×D^(t)维全局主题参数矩阵，t＝1,2,…,T，D^(t)表示第t层全局主题参数矩阵Φ^(t)包括的主题总个数；当t＝1时，D⁽⁰⁾＝V_e；

3b)定义第t层全局主题重构参数为V_e×D^(t)维矩阵当t＝1时，将V_e×J维文本矩阵X_t中每一个相应的文本V_e维向量分别记为一个样本，并将V×J维文本矩阵X_t中第j个样本记为

3c)将第t层全局主题重构参数矩阵的第k^(t)列记为V_e维向量k^(t)＝1,2,3,...,D^(t)，将中第v个元素记为表示最终词汇表中第v个单词出现的概率，且满足

3d)将V_e×J维文本矩阵X_t中第j个样本X_{t_j}表示成：

其中，表示第t层全局主题重构参数矩阵的第k^(t)个主题，k^(t)＝1,2,3,...,D^(t)，表示第j个样本对应第k^(t)个主题的权重，并将这D^(t)个元素合并成D^(t)维变量权重向量

3g)初始化超参数及共享参数，并分别计算图像特征矩阵X_i的第j列图像的自适应尺度参数k_{i_j}和文本矩阵X_t中的第j列文本的自适应尺度参数k_{t_j}；

3h)计算文本矩阵X_t的第j列文本的第1层变量权重向量和图像特征矩阵X_i的第j列文本的第1层变量权重向量并使用和初始化主题参数

4.如权利要求3所述的方法，其特征在于，3g)中初始化超参数及共享参数，并分别计算图像特征矩阵X_i的第j列图像的自适应尺度参数k_{i_j}和文本矩阵X_t中的第j列文本的自适应尺度参数k_{t_j}，其实现如下：

3g1)初始化超参数及共享参数：

其中，为文本矩阵X_t和图像特征矩阵X_i的第t层共享变量权重矩阵，的第j列表示为为文本矩阵X_t和图像特征矩阵X_i的第t层共享全局主题参数矩阵，的第k^(t)列表示为～表示服从，Gam表示Gamma分布，Dir表示狄利克雷分布；表示的第k^(t)个主题的先验分布参数，表示共享变量权重矩阵对应的先验分布参数，

3g2)计算图像特征矩阵X_i的第j列图像的自适应尺度参数k_{i_j}和文本矩阵X_t中的第j列文本的自适应尺度参数k_{t_j}：

其中，其中，k_{i_j}表示图像特征矩阵X_i的第j列图像的自适应尺度参数，k_{t_j}表示文本矩阵X_t中的第j列文本的自适应尺度参数，表示图像特征矩阵X_i的第j列图像的第v'个元素，v'＝1,2,…,V_i，V_i为图像特征矩阵的特征维度；表示文本矩阵X_t的第j列文本的第v个元素，v＝1,2,…,V_e,V_e为最终词汇表的单词数量。

5.如权利要求3所述的方法，其特征在于，3h)中计算文本矩阵X_t的第j列文本的第1层变量权重向量和图像特征矩阵X_i的第j列文本的第1层变量权重向量并初始化主题参数，其实现如下：

3h1)根据文本矩阵X_t的第j列文本和图像特征矩阵X_i的第j列图像的第1层共享隐层按如下公式得到文本矩阵X_t的第j列文本的第1层变量权重向量和图像特征矩阵X_i的第j列文本的第1层变量权重向量

3h2)初始化主题参数：

其中，图像特征矩阵X_i的第1层全局主题参数矩阵为的第k⁽¹⁾个主题为文本矩阵X_t的第1层全局主题参数矩阵为的第k⁽¹⁾个主题为表示的第k⁽¹⁾个主题的第v'个元素的先验分布参数，V_i为图像特征矩阵的特征维度；表示的第k⁽¹⁾个主题的第v个元素的先验分布参数，V_e为最终词汇表的单词数量；表示图像特征矩阵X_i的第j列图像的第1层变量权重向量，表示文本矩阵X_t的第j列文本的第1层变量权重向量，表示文本矩阵X_t的第j列文本，表示图像特征矩阵X_i的第j列图像，～表示服从，Pois表示泊松分布。

6.如权利要求1所述的方法，其特征在于，在(4)中计算得到文本矩阵的每一层共享变量权重矩阵实现如下：

4b)按高斯分布随机采样算法初始化如下参数：

4c)计算深层主题自编码网络第t层隐变量的Weibull分布参数

其中t＝1时， softplus为激活函数；

4f)给定如下损失函数：

其中，p，q均表示求括号内事件的概率，E为数学期望运算；

7.如权利要求1所述的方法，其特征在于，(5)中将数据集划分为L个迷你块作为训练数据，是将输入的文本矩阵X_t和图像特征矩阵X_i分别划分为L个迷你块，J_m表示每个迷你块包括的文本总个数，并将文本矩阵X_t的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵X_i的第l'个迷你块记为第l'个图像特征迷你块

8.如权利要求1或7所述的方法，其特征在于，(5)中将利用训练数据和共享变量权重矩阵更新Φ_i和Φ_t，得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵实现如下：

5a)定义图像特征矩阵X_i的第1层全局主题参数矩阵使用第l个图像特征迷你块进行第e次更新后的向量为文本矩阵X_t的第1层全局主题参数矩阵使用第l个文本迷你块进行第e次更新后的向量为

5b)使用第l个文本迷你块第l个图像迷你块和优化后的共享变量权重矩阵按照SGMMC推理算法对向量和向量进行更新，直到满足设定的训练次数E后，得到使用第l个图像特征迷你块进行第E次更新后的向量和文使用第l个文本迷你块进行第E次更新后的向量

5c)重复5b)，得到L个更新完成的向量和L个更新完成的向量再将L个更新完成的向量合并为图像特征矩阵的最优全局主题参数矩阵将L个更新完成的向量合并为文本矩阵的最优全局主题参数矩阵

9.如权利要求1所述的方法，其特征在于(6)中，将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数，把图像特征矩阵X_i输入到该网络，得到文本矩阵的预测单词矩阵实现如下：

6a)对于图像特征矩阵X_i的第j列图像根据文本矩阵X_t和图像特征矩阵X_i的第t层共享变量权重矩阵的第j列按如下公式得到文本矩阵X_t和图像特征矩阵X_i的第1层共享变量权重矩阵的第j列

其中表示文本矩阵X_t和图像特征矩阵X_i的第2层共享全局主题参数矩阵，为共享主题参数矩阵的第k⁽²⁾个主题，表示为表示的第k⁽²⁾个主题的先验分布参数；

表示第2层共享变量权重矩阵的第j列表示为表示第3层共享全局主题参数矩阵，为共享主题参数矩阵的第k⁽³⁾个主题，表示为表示的第k⁽³⁾个主题的先验分布参数；为第3层共享变量权重矩阵的第j列表示为r为Gamma分布参数，表示为r～Gam(γ₀,1/c₀)，γ₀，c₀均为Gamma分布参数，表示为c₀～Gam(e₀,1/f₀)，γ₀～Gam(a₀,1/b₀)，b₀＝0.01，a₀＝0.01；

为第t层共享变量权重矩阵的先验分布参数，表示为～表示服从，Gam表示Gamma分布，Dir表示狄利克雷分布，k^(t)＝1,2,…,D^(t)，D^(t)表示第t层全局主题参数矩阵包括的主题总个数，j＝1,2,…J；