CN105718532A

CN105718532A - 一种基于多深度网络结构的跨媒体排序方法

Info

Publication number: CN105718532A
Application number: CN201610029177.3A
Authority: CN
Inventors: 彭宇新; 黄鑫; 綦金玮
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2016-06-29
Anticipated expiration: 2036-01-15
Also published as: CN105718532B

Abstract

本发明涉及一种基于多深度网络结构的跨媒体排序方法，包括以下步骤：1.建立包含多种媒体类型的跨媒体数据集，提取所有媒体数据的特征向量；2.利用跨媒体数据集来训练多深度网络结构，用于为不同媒体的数据学习统一表示；3.利用训练好的多深度网络结构，得到不同媒体数据的统一表示，从而计算不同媒体类型数据的相似性；4.取一种媒体类型的每个数据作为查询样例，检索另一种媒体中的数据，计算查询样例和查询目标的相似性，并按照相似性从大到小排序，得到目标媒体数据的结果排序列表。本发明结合使用多种网络结构，能够同时建模媒体之间和媒体内部的关联信息，进而利用两级网络进行统一表示的学习，提高了跨媒体排序的准确率。

Description

一种基于多深度网络结构的跨媒体排序方法

技术领域

本发明涉及多媒体检索领域，具体涉及一种基于多深度网络结构的跨媒体排序方法。

背景技术

近年来，互联网和多媒体技术快速发展，多媒体数据已经成为大数据的主要内容，包括图像、文本、视频、音频等。随着多媒体数据的总量不断增长，如何有效检索这些信息就成为了大数据使用和管理的关键问题。现在常用的检索方式为基于文本关键词的检索，即用户输入查询文本，系统将用户查询与数据的文本标签进行匹配，从而得到检索结果。然而，这种检索方式需要对媒体数据进行大量的人工标注。为了克服这种不足，研究者提出了基于内容的媒体检索，即用户上传媒体数据作为查询，系统通过分析查询和库中数据的内容相似性返回检索结果排序，但在该方式中，检索结果与用户查询必须为同种媒体类型，从而限制了检索的灵活性。跨媒体检索是指，用户上传任意一种媒体类型的数据，系统能够得到所有媒体类型的检索结果排序。例如，用户输入一段音频，跨媒体检索不但能够返回相关的音频，也能够得到相关的其它媒体类型数据，如文本、视频等。跨媒体检索大大提高了检索的灵活性和全面性，有利于满足用户日益增长的信息检索需求。

现有常见的跨媒体检索方法是基于统计分析的统一表示学习方法。例如，典型相关分析(CanonicalCorrelationAnalysis，简称CCA)能够通过分析成对数据的相关性，学习得到一个能够最大化其关联性的公共子空间，从而将两种媒体的数据映射到同一维度的空间中，使其能够通过距离排序，实现跨媒体检索。在学习统一表示的过程中，CCA只利用了媒体数据间的成对信息，没有利用如类别标签等语义信息。为了建模类别标签信息，Rasiwasia等人在其文献“ANewApproachtoCross-ModalMultimediaRetrieval”中提出了高层语义映射方法，先利用CCA学习不同媒体数据的统一表示，再对统一表示进行逻辑回归得到高层语义表示，得到了比CCA更好的检索准确率。Zhai等人在文献“LearningCross-MediaJointRepresentationwithSparseandSemi-SupervisedRegularization”中提出了一种基于稀疏和半监督规约的跨媒体检索方法。该方法能够同时进行跨媒体关联学习和高层语义抽象，且能够在一个统一的框架中对不同媒体的数据引入稀疏和半监督规约，从而提高了检索准确率。

随着深度网络在单媒体处理(如图像特征提取和对象检测等)中的广泛应用，其也被应用于跨媒体检索的研究中。如Ngiam在文献“MultimodalDeepLearning”中提出的多模态自编码器方法，以两种媒体类型作为输入，同时考虑二者的重构误差，在中间层建模跨媒体的关联信息得到统一表示。Srivastava等人在文献“LearningRepresentationsforMultimodalDatawithDeepBeliefNets”中提出多模态深度信念网络方法，首先使用分离的两层深度信念网络来对于多种媒体的原始特征分别建模其分布概率模型，然后通过学习一个RBM联接层来融合上述分离的模型。这些方法大多可以分为两个学习阶段。在第一个阶段中，对单媒体数据进行语义抽象得到其高层特征表示。在第二个阶段中，对单媒体的高层特征表示进行关联学习，从而得到统一表示特征。但是，它们在第一个阶段中，只对单媒体进行语义抽象而忽视了媒体关联，可能造成关联信息的丢失。在第二个阶段中，大多采用浅层网络结构，不能充分建模跨媒体关联信息，从而限制了统一表示的排序效果。

发明内容

针对现有技术的不足，本发明提出了一种基于多深度网络结构的跨媒体排序方法，能够结合使用多种网络结构，既考虑到单媒体内部的语义抽象，又能够建模跨媒体数据的关联信息，并利用两级网络进行统一表示的学习。该方法对媒体内部与媒体之间的关联信息进行了全面建模，能够充分利用跨媒体的关联信息，从而提高了跨媒体排序的准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于多深度网络结构的跨媒体排序方法，用于对跨媒体数据的媒体内部与媒体之间的关联进行全面分析，得到不同媒体的统一表示，从而实现跨媒体排序，包括以下步骤：

(1)建立包含多种媒体类型的跨媒体数据集，提取所有媒体数据的特征向量；

(2)利用跨媒体数据集训练多深度网络结构，用于为不同媒体的数据学习统一表示；

(3)利用训练好的多深度网络结构，得到不同媒体数据的统一表示，从而计算不同媒体类型数据的相似性；

(4)取一种媒体类型作为查询媒体，另一种媒体类型作为目标媒体，将查询媒体的每个数据作为查询样例，检索目标媒体中的数据，按照步骤(3)计算查询样例和查询目标的相似性，按照相似性从大到小排序，输出结果排序列表。

进一步，上述一种基于多深度网络结构的跨媒体排序方法，所述步骤(1)中的多媒体类型为两种媒体类型：文本和图像。

进一步，上述一种基于多深度网络结构的跨媒体排序方法，所述步骤(1)中的特征向量具体为：文本数据是提取词频特征向量，图像数据是提取词袋特征向量与MPEG-7视觉特征向量。

进一步，上述一种基于多深度网络结构的跨媒体排序方法，所述步骤(2)中的网络结构，结合使用了多种深度网络，能够先对跨媒体数据的媒体内部和媒体之间的关系进行全面分析，得到单媒体的中间表示，再通过两级网络结构，充分建模跨媒体数据的关联信息，得到不同媒体数据的统一表示。

进一步，上述一种基于多深度网络结构的跨媒体排序方法，所述步骤(3)中的相似性，定义为媒体数据的统一表示之间的距离度量。

进一步，上述一种基于多深度网络结构的跨媒体排序方法，所述步骤(4)的查询方式是，使用一种媒体作为查询，检索另一种媒体的相关结果。按照步骤(3)计算得到相似性之后，根据相似性从大到小排序，输出结果排序列表。

本发明的效果在于：与现有方法相比，本方法通过结合使用多种深度网络，同时对跨媒体数据的媒体内部和媒体之间的关联信息进行建模，能够更加全面地学习到媒体数据间的关联，进而使用两级网络结构进行统一表示学习，更加充分地利用了不同媒体之间的关联关系，提高了跨媒体排序的准确率。

本方法之所以具有上述发明效果，其原因在于：结合使用多种深度网络，对媒体内部和媒体之间的关联关系都进行了分别建模，且利用了两级网络学习统一表示。一方面，我们使用多种深度网络，利用媒体内部的关联和媒体之间的关联，学习得到对应每种媒体类型的媒体内部关联表示和媒体之间关联表示，从而同时建模了单媒体高层语义抽象信息及媒体之间的关联信息。另一方面，通过两级网络结构，对媒体内部和媒体之间关联表示进行了有效融合，更加充分地建模了跨媒体数据的关联，从而得到了不同媒体数据的统一表示。通过上述的一种基于多深度网络结构的跨媒体排序方法学习到的统一表示，具有更高的有效性，从而提高了跨媒体排序的准确率。

附图说明

图1是本发明的一种基于多深度网络结构的跨媒体排序方法流程图。

图2是本发明的完整网络结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于多深度网络结构的跨媒体排序方法，其流程图如图1所示，包含以下步骤：

(1)建立包含多种媒体类型的跨媒体数据集，并将所述数据集分为训练集、验证集和测试集，提取所有媒体数据的特征向量。

本实施例中，所述的多种媒体类型为文本和图像。对这两种媒体类型的特征向量提取方法如下：文本数据是提取词频特征向量，图像数据是提取词袋特征向量与MPEG-7视觉特征向量。本方法同样支持其它媒体，如音频、视频等，并且能够支持其它种类的特征，如图像的纹理、颜色特征，文本的隐狄雷克雷分布特征向量等。

用D表示跨媒体数据集，D＝{D⁽ⁱ⁾,D^(t)}，其中

D^{(i)} = {x_{p}^{(i)}, y_{p}^{(i)}}_{p = 1}^{n^{(i)}},

D^{(t)} = {x_{p}^{(t)}, y_{p}^{(t)}}_{p = 1}^{n^{(t)}} .

对于媒体类型r，其中r＝i,t(i表示图像，t表示文本)，我们定义n^(r)为其数据个数。训练集中的每个数据有且只有一个语义类别。

定义为媒体类型r中的第p个数据的特征向量，其表示结构为一个d^(r)×1的向量，其中d^(r)表示媒体类型r的特征向量维度。

定义的语义标签为其表示结构为一个c×1的向量，其中c表示语义类别的总量。中有且只有一维为1，其余为0，表示该数据的语义类别值是1的列所对应的标签。

(2)利用跨媒体数据集训练多深度网络结构，用于为所有媒体数据学习统一表示。

该步骤的过程如图2所示。本实施例中，使用多模态深度信念网络(MultimodalDBN)进行媒体之间的关联表示学习。首先对于每种媒体类型使用两层的深度信念网络进行建模。具体地，使用高斯限制玻尔兹曼机(GaussianRBM)来建模图像特征上的分布模型，使用多重softmax模型(ReplicatedSoftmaxModel)来建模文本特征上的分布模型。然后，在上述两个模型之上，通过添加一个限制玻尔兹曼机(RBM)联接层使用吉布斯(Gibbs)采样的方法来学习媒体之间的关联信息，使用如下条件分布概率公式：

P(h|h_i,h_t)＝σ(W_ih_i+W_th_t+b)

P (h_{t} | h) = σ (W_{t}^{T} h + a_{t})

P (h_{i} | h) = σ (W_{i}^{T} + a_{i})

其中σ(x)＝1/(1+e^-x)，h为联接层上的分布，W_i和W_t为输入权值，b、a_t和a_i为偏移值。最后得到采样结果h_t和h_i，则用来生成包含媒体之间关联信息的特征表示和

本实施例中，使用栈式自编码器(StackedAutoencoders，简称SAE)来进行媒体内部的关联表示学习。对于每种媒体类型分别训练一个SAE，其输入与上述的多模态深度信念网络(MultimodalDBN)相同，均为原始媒体特征X⁽ⁱ⁾和X^(t)，同时用和表示对X⁽ⁱ⁾和X^(t)进行重建后的特征。具体的，对于图像和文本的两个栈式自编码器均包含h个自编码层，并通过最小化如下目标函数来进行训练：

L (X^{(i)}) = L_{r} (X^{(i)}, X_{2 h}^{(i)}) + α Σ_{p = i}^{h} (| | W_{i e}^{p} | |_{2}^{2} + | | W_{i d}^{p} | |_{2}^{2})

L (X^{(t)}) = L_{r} (X^{(t)}, X_{2 h}^{(t)}) + β Σ_{p = i}^{h} (| | W_{t e}^{p} | |_{2}^{2} + | | W_{t d}^{p} | |_{2}^{2})

其中和分别表示图像和文本的平均重建误差，W_ie,W_id和W_te,W_td则分别表示图像和文本的自编码器中编码器和解码器的激活函数中的参数。通过最小化重建误差，可以在保留原始媒体特性的同时，得到包含媒体内部关联信息的特征表示和

本实施例中，使用两级网络来进行跨媒体统一表示学习。对于图像和文本已经得到的包含媒体内部关联信息和媒体之间关联信息的表示和在第一级网络中，使用一个RBM联接层来融合同种媒体的两种不同表示，其联合分布定义如下：

P (v_{1}, v_{2}) = \underset{h_{1}^{(1)}, h_{2}^{(1)}, h^{(2)}}{Σ} P (h_{1}^{(1)}, h_{2}^{(1)}, h^{(2)}) \times \underset{h_{1}^{(1)}}{Σ} P (v_{1} | h_{1}^{(1)}) \times \underset{h_{2}^{(1)}}{Σ} P (v_{2} | h_{2}^{(1)})

其中，对于图像，v₁表示包含媒体之间信息的特征表示v₂表示包含媒体内部信息的特征表示而对于文本同理。由此可以得到两种媒体的中间特征表示Y⁽ⁱ⁾和Y^(t)。在第二级网络中，为了学习跨媒体统一表示，使用多模态自编码器(BimodalAutoencoders)，其可以在保留重建信息的同时，在中间的联合层建模跨媒体的关联信息。在网络的训练过程中，以迭代学习的方式自底向上地训练了n个多模态自编码器(BimodalAutoencoders)模型，并且增加了额外的标签信息作为监督。具体的，使用第一级网络得到的中间特征表示Y⁽ⁱ⁾和Y^(t)作为底层多模态自编码器的输入，其输出和将会作为输入传递到高层的网络来得到和同时其维数将会降低到输入维数的一半，直到得到和作为最终的统一表示。其中在迭代学习中使用的多模态自编码器的数量n，可以通过计算在验证集上的结果是否收敛来动态调整。迭代学习的方式，可以通过更强的网络学习能力来挖掘复杂的跨媒体关联信息。

(3)利用训练好的深度网络结构，得到不同媒体数据的统一表示，从而计算不同媒体类型数据的相似性。

当深度网络训练完毕之后，不同媒体的数据通过深度网络能够得到相同维度的统一表示，其相似性定义为媒体数据的统一表示之间的距离度量。本实施例中，距离度量采用余弦距离，通过计算两个媒体数据统一表示的夹角余弦值作为二者的相似性。本方法同样支持其它类型的距离度量，如欧氏距离等。

(4)取测试集中的一种媒体类型作为查询媒体，另一种媒体类型作为目标媒体。将查询媒体的每个数据作为查询样例，检索目标媒体中的数据，计算查询样例和查询目标的相似性，按照相似性从大到小排序，得到目标媒体数据的结果排序列表。

该步骤中，取一种媒体中的每个数据作为查询样例，按照步骤(3)中的方式与另一种媒体中的所有数据计算相似性，之后按照相似性从大到小排序，得到结果排序列表。

下面的实验结果表明，与现有方法相比，本发明基于多深度网络结构的跨媒体排序方法，能够取得更高的排序准确率。

本实施例中采用了Wikipedia跨媒体数据集进行实验，该数据集由文献“ANewApproachtoCross-ModalMultimediaRetrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos，发表在2010年的ACMinternationalconferenceonMultimedia)提出，其中包括2866段文本和2866张图像，这些文本和图像是一一对应的，数据集共分为10个类别，其中2173段文本和2173张图像作为训练集，231段文本和231张图像作为验证集，492段文本和492张图像作为测试集。我们测试了以下4种方法作为实验对比：

现有方法一：文献“RelationsbetweenTwoSetsofVariates”(作者H.Hotelling)中的典型相关分析(CCA)方法，通过分析两组向量之间的关系，学习能够最大化两组异构数据关联性的空间，从而完成向统一特征空间的映射。

现有方法二：文献“MultimodalDeepLearning”(作者J.Ngiam,A.Khosla,M.Kim,J.Nam,H.Lee,andA.Y.Ng)中的多模态自编码器(BimodalAE)方法，以多种媒体类型作为输入，在中间层建模跨媒体的关联信息得到统一表示，同时还需要网络能够从统一表示对原始特征输入进行重建，由此可以有效地学习不同媒体之间的关联信息，而且能够保留每种媒体各自内部的重建信息。

现有方法三：文献“LearningRepresentationsforMultimodalDatawithDeepBeliefNets”(作者N.SrivastavaandR.Salakhutdinov)中的多模态深度信念网络(MultimodalDBN)方法，首先使用分离的两层深度信念网络来对于多种媒体的原始特征分别建模其分布概率模型，然后通过学习一个RBM联接层来融合上述分离的模型。RBM联接层可以从多种媒体类型数据对其条件分布进行采样，从而可以得到不同媒体之间的关联信息。

本发明：本实施例的方法。

实验采用信息检索领域常用的MAP(meanaverageprecision)指标来评测跨媒体排序的准确性，MAP是指每个查询样例排序准确性的平均值，MAP值越大，说明跨媒体排序的结果就越好。

表1.本发明的实验结果展示

	图像查询文本	文本查询图像	平均
				现有方法一	0.150	0.146	0148
现有方法二	0.236	0.208	0.222
				现有方法三	0.149	0.150	0.150
本发明	0.393	0.324	0.359

从表1可以看出，本发明在图像查询文本和文本查询图像两个任务中都比现有方法更好。对比方法一，方法一是直接采用传统的统计关联分析方法将不同媒体的数据线性映射到统一空间，难以充分建模跨媒体数据的复杂关联。对比方法二和方法三，这两种方法都是基于深度学习的跨媒体排序方法，但只利用媒体内部的关联学习单媒体的中间表示，之后通过简单网络结构学习到跨媒体统一表示，限制了统一表示的有效性和结果排序的准确率。本发明一方面使用多种深度网络，同时利用媒体内部的关联和媒体之间的关联，学习得到对应每种媒体类型的媒体内部关联表示和媒体之间关联表示。另一方面，通过两级网络结构，上述两种关联表示进行了有效融合，使得学习到的跨媒体统一表示具有更好的效果，从而提高了跨媒体排序的准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多深度网络结构的跨媒体排序方法，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤(1)所述的多种媒体类型包括两种媒体类型：文本和图像。

3.如权利要求1所述的方法，其特征在于，步骤(1)中的特征向量具体为：文本数据是提取词频特征向量或隐狄雷克雷分布特征向量，图像数据是提取词袋特征向量与MPEG-7视觉特征向量，或者图像的纹理、颜色特征向量。

4.如权利要求1所述的方法，其特征在于，步骤(2)中的跨媒体统一表示学习方法，使用多模态深度信念网络进行媒体之间关联表示的学习，首先对于每种媒体类型使用两层的深度信念网络进行建模，具体地，使用高斯限制玻尔兹曼机来建模图像特征上的分布模型，使用多重softmax模型来建模文本特征上的分布模型；然后，在上述两个模型之上，通过添加一个RBM联接层使用吉布斯采样的方法来学习媒体之间的关联信息，使用如下条件分布概率公式：

P(h|h_i,h_t)＝σ(W_ih_i+W_th_t+b)，

P (h_{t} | h) = σ (W_{t}^{T} h + a_{t}),

P (h_{i} | h) = σ (W_{i}^{T} h + a_{i}),

其中σ(x)＝1/(1+e^-x)，h为联接层上的分布，W_i和W_t为输入权值，b、a_t和a_i为偏移值；最后得到采样结果h_t和h_i则用来生成包含媒体之间关联信息的特征表示和

5.如权利要求4所述的方法，其特征在于，步骤(2)中的跨媒体统一表示学习方法，使用栈式自编码器SAE来进行媒体内部的关联表示学习，对于每种媒体类型分别训练一个SAE，其输入与多模态深度信念网络相同，均为原始媒体特征X⁽ⁱ⁾和X^(t)，同时用和表示对X⁽ⁱ⁾和X^(t)；具体的，对于图像和文本的两个栈式自编码器均包含h个自编码层，并通过最小化如下目标函数来进行训练：

L (X^{(i)}) = L_{r} (X^{(i)}, X_{2 h}^{(i)}) + α Σ_{p = i}^{h} (| | W_{i e}^{p} | |_{2}^{2} + | | W_{i d}^{p} | |_{2}^{2}),

L (X^{(t)}) = L_{r} (X^{(t)}, X_{2 h}^{(t)}) + β Σ_{p = i}^{h} (| | W_{t e}^{p} | |_{2}^{2} + | | W_{t d}^{p} | |_{2}^{2}),

其中和分别表示图像和文本的平均重建误差，W_ie,W_id和W_te,W_td则分别表示图像和文本的自编码器中编码器和解码器的激活函数中的参数；通过最小化重建误差，可以在保留原始媒体特性的同时得到包含媒体内部关联信息的特征表示和

6.如权利要求1所述的方法，其特征在于，步骤(2)中的跨媒体统一表示学习方法，使用两级网络来进行跨媒体统一表示学习，对于图像和文本已经得到的包含媒体内部关联信息和媒体之间关联信息的表示和在第一级网络中，使用一个RBM联接层来融合同种媒体的两种不同表示，其联合分布定义如下：

P (v_{1}, v_{2}) = \underset{h_{1}^{(1)}, h_{2}^{(1)}, h^{(2)}}{Σ} P (h_{1}^{(1)}, h_{2}^{(1)}, h^{(2)}) \times \underset{h_{1}^{(1)}}{Σ} P (v_{1} | h_{1}^{(1)}) \times \underset{h_{2}^{(1)}}{Σ} P (v_{2} | h_{2}^{(1)}),

其中，对于图像，v₁表示包含媒体之间信息的特征表示v₂表示包含媒体内部信息的特征表示而对于文本同理；由此可以得到两种媒体的中间特征表示Y⁽ⁱ⁾和Y^(t)；在第二级网络中，为了学习跨媒体统一表示，以迭代学习的方式自底向上的训练n个多模态自编码器模型；具体地，使用第一级网络得到的中间特征表示Y⁽ⁱ⁾和Y^(t)作为底层多模态自编码器的输入，其输出和将会作为输入传递到高层的网络来得到和同时其维数将会降低到输入维数的一半，直到得到和作为最终的统一表示；其中在迭代学习中使用的多模态自编码器的数量n通过计算在验证集上的结果是否收敛来动态调整。

7.如权利要求1中所述的方法，其特征在于，所述步骤(3)中的距离度量采用余弦距离，通过计算两个媒体数据统一表示的夹角余弦值作为二者的相似性；或者步骤(3)采用其它类型的距离度量，包括欧氏距离。

8.如权利要求1中所述的方法，其特征在于，所述步骤(4)中的查询方式是，取一种媒体类型作为查询媒体，另一种媒体类型作为目标媒体，将查询媒体的每个数据作为查询样例，按照权利要求7中所述方法，与另一种媒体中的所有数据计算相似性，用户所看到的是返回数据及其相似性构成的列表，按相似度从大到小排序。