CN104346450A

CN104346450A - 一种基于多模态隐性耦合表达的跨媒体排序方法

Info

Publication number: CN104346450A
Application number: CN201410593006.4A
Authority: CN
Inventors: 吴飞; 李玺; 蒋忻洋; 汤斯亮; 邵健; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2015-02-11
Anticipated expiration: 2034-10-29
Also published as: CN104346450B

Abstract

本发明公开了一种基于多模态隐性耦合表达的跨媒体排序方法。包括如下步骤：1)将文本检索图像的排序样本或图像检索文本的排序样本构建为训练样本；2）对构建得到的训练样本进行基于隐性耦合表达的跨媒体排序学习，得到跨媒体数据的隐性耦合表达挖掘模型以及跨媒体排序模型；3)构建查询文档和候选文档之间的隐性耦合表达；4）基于隐性耦合表达，使用学习得到的跨媒体排序模型进行跨媒体检索。本发明在排序模型中引入了多模态数据的隐性耦合表达，相比一般的多模态数据隐性表达具有更强判别性。由于同时训练了隐性表达挖掘模型和排序模型，它在图像检索文本或文本检索图像中所取得性能较传统的跨媒体排序模型方法更好。

Description

一种基于多模态隐性耦合表达的跨媒体排序方法

技术领域

本发明涉及跨媒体检索，尤其涉及一种基于隐性耦合表达的跨媒体排序方法。

背景技术

跨媒体数据检索是具有现实意义的重要技术领域，而依据跨媒体数据的关联性对其进行排序是这一领域中的一项重要技术。这项技术在检索过程中，对候选的跨媒体数据按照与用户查询的关联性大小进行排序，并将排序结果展现给用户，在跨媒体数据的搜索应用中有巨大的价值。

传统的跨媒体排序方法，一般先为多模态数据学习一个共享空间，再将查询文档和候选文档分别映射为共享空间中的特征向量，最后使用一个人工指定的相似性度量函数计算查询和候选文档间的关联性，最后再依照关联性对多模态数据进行排序。这种方法将共享空间中的向量作为多模态数据的表示，难以挖掘这一共同表示内部本应存在的复杂依赖关系；同时，由于排序模型的人工指定的相似性度量函数，所以无法通过学习的方法发现多模态的共同表示的不同部分对数据关联性的影响大小。

基于隐性耦合表示的跨媒体排序方法能够有效弥补上述传统方法的不足。隐性耦合表示为每一对查询文档和候选文档学习一个基于主题的共有表示，而不是分别为查询和候选文档学习表示，这种表示方法能够有效建模共有表示内部的复杂依赖关系；同时排序函数通过学习得到，而不是事先制定的相似性度量，这样就能够发现隐性耦合表示中不同部分对关联性的影响大小。

发明内容

基于多模态隐性耦合表达的跨媒体排序方法包括如下步骤：

1)构建排序用的训练样本：在文本检索图像的训练样本中，将文本作为查询文档，将图像作为候选文档；在图像检索文本的训练样本中，将图像作为查询文档，将文本作为候选文档；

2)对构建得到的训练样本进行基于隐性耦合表达的跨媒体排序学习，得到隐性耦合表达挖掘模型以及跨媒体排序模型；

3)用户提交查询文档后，对于每一个候选文档，使用隐性耦合表达挖掘模型构建其和查询文档间的隐性耦合表达；

4)使用学习得到的跨媒体排序模型进行跨媒体检索：基于隐性耦合表达，使用排序模型对查询文档和候选文档的关联性进行评分，根据关联性评分的高低对候选文档进行排序，最后输出这一跨媒体排序结果。

所述的步骤1)包括：

1)对训练样本里的所有文本利用词袋模型进行特征表达，文本最终被表示为其中D₁为文本特征空间的维数；

2)将训练样本里的所有图像利用视觉词袋模型进行特征表达，图像最终被表达为其中D₂为图像特征空间的维数；

3)对文本检索图像方向而言，对每一个文本，构建一个候选图像的排序列表，其中列表中的图像被标记为与该文本语义相关或者语义不相关，因此每个文本检索图像的训练样本被表示为三元组其中N为训练样本个数，t_k为检索文本，p_k为图像集合，是图像集合上的排序，Y表示整个排序空间；

4)对图像检索文本方向而言，对每一个图像，构建一个文本的排序列表，其中列表中的文本被标记为与该图像语义相关或者语义不相关，每个图像检索文本的训练样本被表示为三元组N为训练样本个数，p_k为检索图像，t_k是文本文档集合，是文本文档集合上的排序。

所述的步骤2)包括：

1)给定N个训练样本组成训练集其中x^(k)是一个查询文档，是包含P个候选文档的集合，P为文档个数，y^(k)是对应查询文档的排序，如式(1)构建损失函数，隐性耦合表示挖掘模型和排序模型的参数需要同时满足这一损失函数：

其中，

其中，w是排序模型的参数，θ是隐性耦合表示挖掘模型的参数；F(·)是一个人工指定的判别函数，用来评估模型预测的排序、查询和候选文档之间的适配度，对于任意查询文档x，其候选文档和排序y，F(·)定义如下：

其中，和分别是候选文档集中与查询文档相关和不相关的文档的子集；d_i，d_j分别为候选文档集中的第i个和第j个文档；|·|标记了集合中元素的个数；s(·)是一个评分函数，用来衡量查询文档和一个候选文档之间的关联程度，基于隐性耦合表示对查询文档x和候选文档d间的关联性进行评分，关联评分函数定义如下：

s(x,d)＝w^TH(x,d) (16)

其中H(x,d)标记了查询文档和候选文档之间的隐性耦合表示；

将查询文档和候选文档共享的主题记为h＝{h_m|m＝1,...,M}，h的每一维h_m表示了两个多模态文档共享第m个主题的程度，M表示主题个数，隐性耦合表示被定义为，给定一对查询x和候选文档d时，共享主题在条件概率分布p(h|x,d)下的期望：

H(x,d)＝E_p(h|x,d)(h). (17)

3)使用随机梯度下降算法求解式(1)，得到隐性耦合表示挖掘模型和排序模型的参数，式(1)等价于如下无约束优化问题：

其中，

损失函数L关于w的梯度为：

损失函数L关于θ的梯度为：

其中，

\frac{&PartialD; H_{m} (x, d_{i})}{&PartialD; θ} = E_{p} (h_{m} f (h, x, d_{i})) + E_{p} (h_{m} E_{p} (f (h, x, d_{i}))

其中，E_p(·)是期望E_p(h|x,d)(·)的简写形式，使用变分推理得到；f是指示文档和主题之间兼容性的特征向量。

所述的步骤3)包括：

3)如式(4)所示，查询文档和候选文档间的隐性耦合表示被定义为两者在概率分布p(h|x,d)上的共享主题的期望；

给定一对查询文档x和候选文档d，两者共享的主题的条件概率分布建模如下：

p (h | x, d) = \frac{1}{Z} expψ (h, x, d) - - - (21)

其中，Z为归一化量，势函数Ψ(h,x,d)定义如下：

\begin{matrix} ψ (h, x, d) = \underset{m}{Σ} {(θ_{m}^{1})}^{T} f_{1} (x, h_{m}) + \underset{m}{Σ} {(θ_{m}^{2})}^{T} f_{2} (d, h_{m}) \\ + \underset{mn}{Σ} {(θ_{mn}^{3})}^{T} f_{3} (h_{m}, h_{n}) + \underset{m}{Σ} {(θ_{m}^{4})}^{T} f_{4 (h_{m})} \end{matrix} - - - (22)

特征函数f₁和f₂是指示主题和文档间兼容性的特征向量；f₃是指示两个主题间关联性的特征向量；f₄是主题h的先验；是概率模型的参数，它表示参数和第l个特征函数f_l关联并以第m个主题h_m作为函数输入；m，n分别对应第m和n个主题的下标。式(9)中的特征函数具体定义为如下形式：

ψ (h, x, d) = \underset{m}{Σ} {(θ_{m}^{1})}^{T} {xh}_{m} + \underset{m}{Σ} {(θ_{m}^{2})}^{T} {dh}_{m} + \underset{mn}{Σ} θ_{mn}^{3} h_{m} h_{n} + \underset{m}{Σ} \frac{1}{2} θ_{m}^{4} h_{m}^{2} . - - - (23)

4)共享主题的期望使用变分推理方法近似计算，即使用独立高斯分布q(h)近似计算条件概率分布p(h|x,d)，近似分布定义为多个高斯分布的乘积形式：

q (h) = Π_{m = 1}^{M} q (h_{m} | μ_{m}) - - - (24)

其中q(h_m|μ_m)是均值为μ_m方差为1的高斯分布，通过最小化q(h)和p(h|x,d)间的KL距离，得到如下不动点方程：

μ_{m} = - \frac{1}{θ_{m}^{4}} (Σ_{n = 1}^{M} θ_{mn}^{3} μ_{n} + x^{T} θ_{m}^{1} + d^{T} θ_{m}^{2}) - - - (25)

通过迭代计算式(12)来得到μ_m，易证共享主题的期望可用μ_m来近似：

E_{p (h_{m} | x, d)} h_{m} = {&Integral;}_{h_{m}} q (h_{m} | x, d) = μ_{m} - - - (26)

所述的步骤4)包括：

1)给定查询文档和候选文档的隐性耦合表达，使用式(1)对每个候选文档进行评分；

2)对根据评分结构对候选文档进行排序，其结果即为跨媒体排序结果y。

本发明在排序模型中引入了多模态数据的隐性耦合表达，相比一般的多模态数据隐性表达具有更强判别性。由于同时训练了隐性表达挖掘模型和排序模型，它在图像检索文本或文本检索图像中所取得性能较传统的跨媒体排序模型方法更好。

附图说明

图1是基于隐性耦合表示的跨媒体排序方法示意图。

具体实施方式

基于多模态隐性耦合表达的跨媒体排序方法包括如下步骤：

所述的步骤1)包括：

所述的步骤2)包括：

其中，

s(x,d)＝w^TH(x,d) (29)

其中H(x,d)标记了查询文档和候选文档之间的隐性耦合表示；

H(x,d)＝E_p(h|x,d)(h). (30)

4)使用随机梯度下降算法求解式(1)，得到隐性耦合表示挖掘模型和排序模型的参数，式(1)等价于如下无约束优化问题：

其中，

损失函数L关于w的梯度为：

损失函数L关于θ的梯度为：

其中，

\frac{&PartialD; H_{m} (x, d_{i})}{&PartialD; θ} = E_{p} (h_{m} f (h, x, d_{i})) + E_{p} (h_{m} E_{p} (f (h, x, d_{i}))

所述的步骤3)包括：

5)如式(4)所示，查询文档和候选文档间的隐性耦合表示被定义为两者在概率分布p(h|x,d)上的共享主题的期望；

p (h | x, d) = \frac{1}{Z} expψ (h, x, d) - - - (21)

其中，Z为归一化量，势函数Ψ(h,x,d)定义如下：

\begin{matrix} ψ (h, x, d) = \underset{m}{Σ} {(θ_{m}^{1})}^{T} f_{1} (x, h_{m}) + \underset{m}{Σ} {(θ_{m}^{2})}^{T} f_{2} (d, h_{m}) \\ + \underset{mn}{Σ} {(θ_{mn}^{3})}^{T} f_{3} (h_{m}, h_{n}) + \underset{m}{Σ} {(θ_{m}^{4})}^{T} f_{4 (h_{m})} \end{matrix} - - - (22)

ψ (h, x, d) = \underset{m}{Σ} {(θ_{m}^{1})}^{T} {xh}_{m} + \underset{m}{Σ} {(θ_{m}^{2})}^{T} {dh}_{m} + \underset{mn}{Σ} θ_{mn}^{3} h_{m} h_{n} + \underset{m}{Σ} \frac{1}{2} θ_{m}^{4} h_{m}^{2} . - - - (23)

6)共享主题的期望使用变分推理方法近似计算，即使用独立高斯分布q(h)近似计算条件概率分布p(h|x,d)，近似分布定义为多个高斯分布的乘积形式：

q (h) = Π_{m = 1}^{M} q (h_{m} | μ_{m}) - - - (24)

μ_{m} = - \frac{1}{θ_{m}^{4}} (Σ_{n = 1}^{M} θ_{mn}^{3} μ_{n} + x^{T} θ_{m}^{1} + d^{T} θ_{m}^{2}) - - - (25)

E_{p (h_{m} | x, d)} h_{m} = {&Integral;}_{h_{m}} q (h_{m} | x, d) = μ_{m} - - - (26)

所述的步骤4)包括：

实施例

本发明在公开数据集NUS-WIDE上进行了跨媒体排序实验。NUS-WIDE数据包含图像和图像上传者对图像的文本标注构成的跨模态文档，同时包含81个可以作为类别信息的概念标签。如果图像和文本都归属于81类中的一类，则认为图像和文本相关，否则不相关。对于特征提取按照本发明所说步骤进行，数据集中的图像数据被表示为1000维特征向量，对应的文本标注表被示为500维特征向量。为了客观地评价本发明的算法的性能，使用平均准确率(Mean AveragePrecision，MAP)对本发明进行评价。按照具体实施方式中描述的步骤，所得的实验结果如下：

	MAP50	MAPall
			文本查询图像	0.4739	0.4008
图像查询文本	0.5347	0.4003

表1

其中MAP50是前50个返回结果计算得到的MAP值，MAPall是所有返回结果计算得到的MAP值。

Claims

1.一种基于多模态隐性耦合表达的跨媒体排序方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种基于多模态隐性耦合表达的跨媒体排序方法，其特征在于，所述的步骤1)包括：

3.根据权利要求1所述的一种基于多模态隐性耦合表达的跨媒体排序方法，其特征在于，所述的步骤2)包括：

1)给定N个训练样本组成训练集其中x^(k) 是一个查询文档，是包含P个候选文档的集合，P为文档个数，y^(k)是对应查询文档的排序，如式(1)构建损失函数，隐性耦合表示挖掘模型和排序模型的参数需要同时满足这一损失函数：

其中，

s(x,d)＝w^TH(x,d) (3)

其中H(x,d)标记了查询文档和候选文档之间的隐性耦合表示；

H(x,d)＝E_p(h|x,d)(h). (4)

2)使用随机梯度下降算法求解式(1)，得到隐性耦合表示挖掘模型和排序模型的参数，式(1)等价于如下无约束优化问题：

其中，

损失函数L关于w的梯度为：

损失函数L关于θ的梯度为：

其中，

4.根据权利要求1所述的一种基于多模态隐性耦合表达的跨媒体排序方法，其特征在于，所述的步骤3)包括：

1)如式(4)所示，查询文档和候选文档间的隐性耦合表示被定义为两者在概率分布p(h|x,d)上的共享主题的期望；

其中，Z为归一化量，势函数Ψ(h,x,d)定义如下：

2)共享主题的期望使用变分推理方法近似计算，即使用独立高斯分布q(h)近似计算条件概率分布p(h|x,d)，近似分布定义为多个高斯分布的乘积形式：

。

5.根据权利要求1所述的一种基于多模态隐性耦合表达的跨媒体排序方法，其特征在于，所述的步骤4)包括：