CN107609055B

CN107609055B - 基于深层主题模型的文本图像多模态检索方法

Info

Publication number: CN107609055B
Application number: CN201710739719.0A
Authority: CN
Inventors: 陈渤; 周翼; 王超杰; 丛玉来
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2019-10-11
Anticipated expiration: 2037-08-25
Also published as: CN107609055A

Abstract

本发明公开了一种基于深层主题模型的文本图像多模态检索方法，可用于文本和图像多模态检索。其实现步骤为：(1)对训练数据和测试数据进行预处理；(2)初始化深层主题模型的超参数和共享参数；(3)训练深层主题模型；(4)用联合特征训练分类器；(5)用测试数据进行测试。本发明利用深层主题模型挖掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征用于检索。

Description

基于深层主题模型的文本图像多模态检索方法

技术领域

本发明属于图像处理技术领域，更进一步涉及人工智能技术领域的一种基于深层主题模型的文本图像多模态检索方法。本发明可用于挖掘图像-文本两种不同模态的深层联系，提取联合特征，并利用所提取的联合特征对文本-图像进行检索。

背景技术

多模态检索技术是利用联合学习不同模态特征，并挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成。深层主题模型PGBN(泊松伽马置信网络)是一种基于贝叶斯框架的深层主题模型。PGBN模型拥有多层网络结构，能够提取出数据的多层特征，在文本处理上优于传统主题模型。PGBN模型不仅可以应用于文本处理，还可以应用于图像处理。多模态学习技术是指，联合学习不同模态特征，挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成。基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为：利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征表示用于检索。

K Sohn，W Shang，H Lee等人在其发表的论文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法。该方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络，受限制玻尔兹曼机网络层内无连接，在初始化网络参数后训练下一层网络，这就形成了一个两层结构的受限制玻尔兹曼机，将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元，就形成了多层深度网络。该方法引入了基于对比散度和多预测训练的学习方法，向深层网络反复编码结构调整整个网络，然后共享这些特定模态网络的最高层，通过联合学习的方法训练整个神经网络并把共享的隐层(最高层)作为联合特征表示。该方法虽然能够挖掘的不同模态特征之间的联系，但是，该方法仍然存在的不足之处是：由于深度神经网络的“黑箱”特性，多层受限制玻尔兹曼机的隐层单元局限于二值，表达能力有限，从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系，同时，受限制玻尔兹曼机隐层与观测数据之间存在非线性映射，很难将隐层与观测之间的关系可视化。

上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号：201511016955.7，公开号：CN 105631018A)中提出了一种基于主题模型的文章特征抽取检索方法。该方法基于原始语料库构建文章的引用关系网络，构建主题模型的生成模型和参数联合表达式，根据所述生成模型构建主题模型的推断过程，对新语料库采样文章，根据采样文章的采样结果提取文章参数。该方法虽然能够直接对多模态的输入建立概率模型，把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题，但是，该方法仍然存在的不足之处是：受限于传统主题模型都是浅层模型，仅限于构建不同模态浅层的联系，不能挖掘模态之间更深层的联系，从而影响检索性能。

发明内容

本发明的目的在于解决上述现有技术存在的不足，提出一种基于深层主题模型的文本图像多模态检索方法，利用深层主题模型：泊松伽马置信网络，发掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征用于检索，并提高检索性能。

本发明的具体步骤包括如下：

(1)对训练数据和测试数据进行预处理：

(1a)从MIR Flicker数据集任意选取文本和图像形式的25000个带标签的数据，将其中15000个作为训练数据，10000个作为测试数据；

(1b)统计训练数据与测试数据的文本数据中单词重复出现的次数，按照由多到少的次序进行排序，取前2000个单词作为词表，对每个文本，统计出现在词表里的单词次数，保存在一个向量里，向量的每一维上的值表示该文本出现单词的次数；

(1c)提取每幅图像的特征，组成一个以特征维度为行数，图像总数为列数的图像特征矩阵；

(2)初始化深层主题模型的超参数和共享参数；

(3)训练深层主题模型：

(3a)将预处理好的文本数据和图像特征数据输入泊松伽玛置信网络；

(3b)按照下式，更新全局参数：

其中，K_t-1表示泊松伽马置信网络第t-1层隐变量的维度，表示泊松伽玛置信网络第t层的全局参数矩阵中第k列，～表示等价关系符号，—表示右式所有参数符号，|表示条件概率符号，Dir表示狄利克雷分布，η^(t)表示第t层的狄利克雷分布的第一参数，表示第j个数据的泊松伽马置信网络第t层的层内增广矩阵中第v行第k列的元素，∑表示求和操作；

(3c)按照下式，计算泊松伽玛置信网络第t层到t+1层间增广矩阵：

其中，m^(t)(t+1)表示泊松伽玛置信网络第t层到t+1层的层间增广矩阵；

(3d)通过对顶层参数的后验分布的吉布斯采样更新顶层全局参数；

(3e)通过对隐变量参数的后验分布的吉布斯采样以更新泊松伽马置信网络第t层的隐变量参数

(3f)将泊松伽马置信网络第一层的隐变量作为训练数据中文本数据和图像数据的联合特征；

(4)用联合特征训练分类器：

对从泊松伽马置信网络得到的联合特征做归一化操作，使其均值为0，方差为1，将其输入到一对多分类器one vs all中对其进行训练；

(5)用测试数据进行测试：

(5a)将测试数据输入到泊松伽马置信网络中，得到测试数据中文本数据和图像数据的联合特征；

(5b)将联合特征输入到分类器中，分类器输出与数据对应的每一类概率；

(5c)将分类器输出的对应每一类的概率值从大到小进行排序；

(5d)对前50个概率值进行检索，统计50个概率值对应数据中包含正确数据的个数，计算正确数据个数和检索概率值对应数据个数的比值。

本发明与现有技术相比，具有以下优点：

第一，由于本发明采用初始化共享参数的操作，θ⁽¹⁾ _{share_j}代表泊松伽马置信网络第一层的第j个样本的共享参数，k_{img_j}，k_{txt_j}分别代表图像和文本输入的尺度参数，分别表示图像和文本的尺度参数与共享参数的乘积，克服了现有技术中由于深度神经网络的“黑箱”特性，多层受限制玻尔兹曼机的隐层单元局限于二值，表达能力有限，从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系的不足，使得采用本发明方法检索时，对不同模态数据间的关联描述更加确切，检索性能更好。

第二，由于本发明采用了对隐变量参数的后验分布的吉布斯采样操作以更新第t层的隐变量参数的操作，克服了现有技术受限于传统主题模型都是浅层模型，仅限于构建不同模态浅层的联系，不能挖掘模态之间更深层联系的不足，使得采用本发明方法有助于提取深层的多模态联合特征表示，提高的隐层表示的检索准确率。

附图说明

图1是本发明的流程图；

图2是本发明的数据集部分展示图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1对本发明的步骤做进一步的详细描述。

步骤1.对训练数据和测试数据进行预处理。

从MIR Flicker数据集任意选取25000个带标签的数据，这些数据是文本-图像对的形式，将其中15000个作为训练数据，10000个作为测试数据。

统计训练数据与测试数据的文本数据中单词重复出现的次数，按照由多到少的次序进行排序，取前2000个单词作为词表。对每个文本，统计出现在词表里的单词次数，保存在一个向量里，向量的每一维上的值表示该文档出现单词的次数。

提取每幅图像的特征，组成一个以特征维度为行数，图像总数为列数的图像特征矩阵。

步骤2.初始化深层主题模型的超参数和共享参数。

初始化泊松伽玛置信网络超参数的值如下：

其中，η^(t)表示Φ^(t)的先验分布的第一参数，Φ^(t)表示泊松伽玛置信网络第t层全局参数矩阵，表示θ^(t)的先验分布的第二参数向量，θ^(t)表示泊松伽玛置信网络第t层隐变量参数矩阵，Z＝1,2,...,J，J表示样本个数，a₀表示γ₀的先验分布的第一参数，γ₀表示r的先验分布的第一参数，Gam表示伽马分布，～表示等价关系，r表示顶层全局参数向量，b₀表示γ₀的先验分布的第二参数，e₀表示c₀的先验分布的第一参数，c₀表示顶层全局参数r的先验分布的第二参数，f₀表示c₀的先验分布的第二参数，c⁽³⁾表示θ⁽²⁾的先验分布的第二参数向量，p⁽²⁾表示θ⁽¹⁾的先验分布的第二参数向量，Beta表示贝塔分布。

考虑到不同形式的模态输入，如文本和图像输入数据的尺度不同，为此提出一种自适应方法，使模型能自动适应不同模态的输入，而不是用传统的归一化方法。按照下式初始化共享参数：

其中，θ⁽¹⁾ _{share_j}代表泊松伽马置信网络第一层的第j个样本的共享参数，k_{img_j}，k_{txt_j}分别代表图像和文本输入的尺度参数，分别表示图像和文本的尺度参数与共享参数的乘积。自适应的尺度参数按如下公式得到：

其中，x_{img_kj}，x_{txt_kj}分别代表泊松伽马置信网络的图像数据输入和文本数据输入，θ⁽¹⁾ _{share_j}表示泊松伽马置信网络第一层的第j样本的共享参数，表示泊松伽马置信网络第一层的第j个样本第k维的共享参数，K表示隐层维度。

步骤3.训练深层主题模型：

将预处理好的文本数据和图像特征数据输入泊松伽玛置信网络。

通过对后验分布采样更新全局参数，对按照下式：

其中，表示泊松伽玛置信网络第t层的全局参数矩阵中第k列，～表示等价关系符号，—表示右式所有参数符号，|表示条件概率符号，Dir表示狄利克雷分布，η^(t)表示第t层的狄利克雷分布的第一参数，表示泊松伽玛置信网络第t层的层内增广矩阵中第v行，第j列的元素，k表示对应于隐变量的第k维的值，∑表示求和操作，对等价关系符号～右边的狄利克雷分布进行吉布斯采样操作，得到新的全局参数。

泊松伽马置信网络第t层层内增广矩阵是由下式对等价关系符号～右边的多项式分布进行吉布斯采样操作得到的：

其中，x_vj表示输入样本的第v行第j列，Mult表示多项式分布，K_t表示泊松伽马置信网络第t层隐变量的维度，表示泊松伽马置信网络第t层的全局变量矩阵第v行第k列的元素，表示泊松伽马置信网络第t层网络参数矩阵的第k行第j列的元素。

计算层间增广矩阵是为了在之后的采样过程中得到下一层网络的隐变量参数，按照下式，计算第t层层间增广矩阵：

其中，m^(t)(t+1)表示泊松伽玛置信网络第t层到t+1层的层间增广矩阵。

按照下式对等价关系符号～右边的伽马分布进行吉布斯采样操作：

其中，r_k表示顶层全局参数，γ₀表示r_k的先验分布的第一参数，K_t表示泊松伽马置信网络第t层的维度，表示泊松伽玛置信网络第t+1层输入矩阵的第v行第k维的值，c₀表示r的先验分布的第二参数，表示第t-1层的第j个隐变量的先验分布的第二参数，Gam表示伽马分布，ln表示以e为底的取对数操作。

通过对隐变量参数的后验分布的吉布斯采样更新第t层的隐变量参数，是按照下式对等价关系符号～右边的伽马分布进行吉布斯采样操作得到的：

其中，表示泊松伽马置信网络第t层隐变量参数矩阵第j列，Φ^(t+1)表示泊松伽马置信网络第t+1层的全局变量矩阵，表示第t+1层全局参数先验分布的第二参数的第j列，表示第t层的第j个隐变量的先验分布的第二参数。

将泊松伽马置信网络第一层的隐变量作为训练数据中文本数据和图像数据的联合特征。对于泊松伽马置信网络的第t层，第t+1层是它的先验，故对整体而言，除第一层外的所有层都是第一层的先验，用以调整第一层的隐变量参数，此外，每次采样都伴随着信息损失，第一层信息损失最少，将其作为联合特征效果最好。

步骤4.用联合特征训练分类器。

步骤5.用测试数据进行测试.

将测试数据输入到泊松伽马置信网络中，得到测试数据中文本数据和图像数据的联合特征。

将联合特征输入到分类器中，分类器输出与数据对应的每一类概率。

将分类器输出的对应每一类的概率值从大到小进行排序。

对前50个概率值进行检索，统计50个概率值对应数据中包含正确数据的个数，计算正确数据个数和检索概率值对应数据个数的比值。

本发明的效果可通过以下仿真进一步说明。

1.仿真条件：

本发明的仿真是在windows7旗舰版，CPU基本频率为2GHZ，软件平台为Matlab2015b运行。

2.仿真内容：

本发明仿真实验使用了MIR Flicker数据集进行检索，该数据集由文本-图像组成，其部分展示如图2。该数据集共有一百万个数据，其中25000个是带有标签(label)的。本发明仿真使用的数据即是25000个带有标签的样本，其中15000个作为训练数据，10000个作为测试数据。这些数据被打上了注释，比如bird，tree，people这些物体标注，以及sky，night，indoor这些景象标注，一共分为38类。对仿真结果，仿真结果评估标准为：Precision@50，即对38类，每类做一次实验，将分类器输出的概率值从大到小排序，@50代表只取前50个数据进行检索，统计正确的数据所占的比例。

3仿真结果分析：

表1是基于Precision@50评估标准的仿真结果，对每一类做实验后，将检索到的正确率取平均值后的结果，用随机分类(RAND)，线性判别分析(LDA)，支持向量机(SVM)，深度玻尔兹曼机(DBM)，泊松因子分析(PFA)等方法与泊松伽马置信网络(PGBN)对比实验后的结果表。

表1

方法	Precision@50准确率
		RAND	0.124
LDA	0.754
		SVM	0.758
DBM	0.791
		PFA	0.832
PGBN	0.844

由表1可以看出深层主题模型在处理文本-图像的多模态数据时，以Precision@50为标准的准确率明显高于其他模型，凸显出了深层主题模型的优势。

Claims

1.一种基于深层主题模型的文本图像多模态检索方法，其特征在于，对文本和图像的多模态数据进行检索，具体步骤包括如下：

(1)对训练数据和测试数据进行预处理：

(2)初始化深层主题模型的超参数和共享参数；

(3)训练深层主题模型：

(3b)按照下式，更新全局参数：

(4)用联合特征训练分类器：

(5)用测试数据进行测试：

(5c)将分类器输出的对应每一类的概率值从大到小进行排序；

2.根据权利要求1所述的基于深层主题模型的文本图像多模态检索方法，其特征在于，步骤(2)中所述初始化深层主题模型的超参数的值如下：

3.根据权利要求1所述的基于深层主题模型的文本图像多模态检索方法，其特征在于，步骤(2)中所述的初始化深层主题模型共享参数按照下式操作：

其中，θ⁽¹⁾ _{share_j}表示泊松伽马置信网络第一层的第j个样本的共享参数，k_{img_j}，k_{txt_j}分别表示图像和文本输入的尺度参数，分别表示图像和文本的尺度参数与共享参数的乘积，自适应的尺度参数按如下公式得到：

其中，x_{img_kj}，x_{txt_kj}分别表示泊松伽马置信网络的图像数据输入和文本数据输入，表示泊松伽马置信网络第一层的第j个样本第k维的共享参数，K表示隐层维度。

4.根据权利要求1所述的基于深层主题模型的文本图像多模态检索方法，其特征在于，步骤(3b)中所述的泊松伽马置信网络第t层层内增广矩阵是由下式对等价关系符号～右边的多项式分布进行吉布斯采样操作得到的：

5.根据权利要求1所述的基于深层主题模型的文本图像多模态检索方法，其特征在于，步骤(3d)中所述的更新顶层全局参数是指，按照下式对等价关系符号～右边的伽马分布进行吉布斯采样操作：

6.根据权利要求1所述的基于深层主题模型的文本图像多模态检索方法，其特征在于，步骤(3e)中所述的对泊松伽马置信网络第t层隐变量参数的更新，是按照下式对等价关系符号～右边的伽马分布进行吉布斯采样操作得到的：

其中，表示泊松伽马置信网络第t层隐变量参数矩阵第j列，Φ^(t+1)表示泊松伽马置信网络第t+1层的全局变量矩阵，表示第t层全局参数先验分布的第二参数的第j列，表示第t层的第j个隐变量的先验分布的第二参数。