CN104166684A

CN104166684A - 一种基于统一稀疏表示的跨媒体检索方法

Info

Publication number: CN104166684A
Application number: CN201410356736.2A
Authority: CN
Inventors: 翟晓华; 彭宇新; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2014-07-24
Filing date: 2014-07-24
Publication date: 2014-11-26

Abstract

本发明涉及一种基于统一稀疏表示的跨媒体检索方法，包括以下步骤：建立包含多种媒体类型的跨媒体数据库，提取每种媒体数据的特征向量；为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵，考虑所有不同媒体类型之间的关联关系，同时也考虑跨媒体数据在映射后空间中的稀疏性，并保持映射后的统一特征空间样本分布和映射之前的特征空间样本分布接近；以两个媒体数据属于同一类别的概率作为不同媒体之间的相似性；计算查询样例和查询目标集中媒体数据之间的相似性，输出最相似的跨媒体检索结果，包含所有媒体类型。本发明充分考虑了跨媒体数据之间的关联关系、稀疏性和样本分布，能够提高统一特征表示的有效性，从而提高了跨媒体检索的准确率。

Description

一种基于统一稀疏表示的跨媒体检索方法

技术领域

本发明涉及多媒体检索技术领域，具体涉及一种基于统一稀疏表示的跨媒体检索方法。

背景技术

随着大数据时代的来临，互联网上的多媒体数据迅速增长，包括文本、图像、视频、音频等各种媒体数据。然而，现有的搜索引擎如谷歌、百度等仍然依赖于基于关键词的检索，这种检索方式一方面忽略了图像、视频、音频等多媒体数据本身的信息，另一方面当多媒体数据周边没有文本时，便无法进行搜索。尽管有一些研究工作关注基于内容的单媒体检索，如以图搜图等，然而无法支持基于内容的跨媒体检索，例如用一张图像样例，检索出所有相关的媒体数据，不仅包括相关的图像，还包括文本、视频、音频、3D等。这种检索方式比传统的基于关键词的检索和基于内容的单一媒体检索更加符合用户需求，一方面检索结果更加全面，用户可以一次获得所有相关的各种媒体结果，另一方面用户可以提交任意媒体作为查询，而不必限制查询媒体的类型，因此检索方式更加灵活。

现有的跨媒体检索方法一般可以分为两类。第一类是基于子空间的映射技术，这一类方法以典型相关分析(Canonical Correlation Analysis，简称CCA)为代表，CCA是一种类似于主成分分析(Principal Component Analysis，简称PCA)的降维技术，不同的是CCA可以同时分析两组变量之间的相关性，学习出映射子空间使得在子空间中两组变量的相关性最大。除了CCA以外，Li等人在文献“Multimedia content processing through cross-modal association”中提出了一种新的跨模态因子分析方法(Cross-modal Factor Analysis，简称CFA)用于学习两组异构数据的映射空间，不同于CCA最大化两组数据之间的相关性，CFA的学习目标是在映射后的空间中，最小化两组数据之间的弗罗贝尼乌斯范数(Frobenius Norm)，并且取得了比CCA更好的效果。

然而，现有方法往往只考虑了数据之间的一一对应关系，例如通过CCA或者CFA学习出映射子空间，使得原始的一一对应的跨媒体数据之间的相关性最大。它们不能挖掘更加丰富的语义信息，例如跨媒体数据的语义类别信息。因此第二类基于语义映射的方法被提出，Rasiwasia等人在其文献“A New Approach to Cross-Modal Multimedia Retrieval”中提出了两个假设：(1)对图像和文本两种媒体之间的关联关系进行建模有利于跨媒体检索；(2)高层抽象表示能够进一步提高跨媒体检索的效果。在Rasiwasia等人的工作中，跨媒体数据之间的关联信息通过CCA进行学习，高层抽象通过逻辑回归将文本或图像表示为具有相同维度的语义概念向量，其中每一维表示该多媒体数据属于对应类别的概率。然而，该方法在学习的过程中只能考虑两种媒体类型之间的关系，并且没有考虑利用稀疏性来降低跨媒体数据中的噪声，并且该方法的两个学习步骤是独立进行的，不能够同时考虑关联信息和语义类别信息，因此误差积累传播至后续的特征学习阶段，从而使得最终的跨媒体检索的准确率下降。

发明内容

针对现有技术的不足，本发明提出了一种基于统一稀疏表示的跨媒体检索方法，能够充分考虑多种媒体类型之间的关联关系，同时学习多种媒体类型的稀疏特征表示，从而有效地过滤特征表示中的噪声，并使得不同媒体数据能够互相校正，进一步提高统一特征表示的有效性，提高跨媒体检索的准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于统一稀疏表示的跨媒体检索方法，用于统一表示多种不同媒体类型实现跨媒体检索，包括以下步骤：

(1)建立包含多种媒体类型的跨媒体数据库，并将所述数据库分为训练集和测试集，提取每种媒体类型数据的特征向量；

(2)通过训练集的多媒体数据，为每种媒体类型数据学习跨媒体统一稀疏表示的特征映射矩阵；

(3)根据特征映射矩阵，将测试集中的每种媒体类型数据映射到统一的空间中，得到跨媒体数据的统一稀疏表示；

(4)基于统一稀疏表示，计算任意媒体数据之间的跨媒体相似性；

(5)将测试集中的每个数据作为查询样例，整个测试集作为查询目标集进行查询；计算查询样例和查询目标集中媒体数据之间的相似性，进而根据相似性得到跨媒体统一检索结果，检索结果包含所有相关的媒体类型数据。

进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(1)多种媒体类型为五种媒体类型，包括文本、图像、视频、音频和3D。

进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(1)中为了提取每种媒体类型数据的特征向量，对于文本数据，提取其隐狄雷克雷分布特征向量；对于图像数据，提取其词袋特征向量；对于视频数据，提取其词袋特征向量；对于音频数据，提取其梅尔频率倒谱系数特征向量；对于3D数据，提取其光场特征向量。

进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(2)中跨媒体统一稀疏表示学习算法考虑了所有不同媒体类型之间的关联关系，同时也考虑了跨媒体数据在映射后的空间中的稀疏性，并保持映射后的统一特征空间样本分布和映射之前的特征空间样本分布接近。

进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(4)的跨媒体相似性计算方法以两个媒体数据属于同一类别的概率作为其相似性。

进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(5)的跨媒体统一检索是指提交任意一种媒体类型数据作为查询，检索结果包括测试集中的所有媒体类型数据；该步骤计算得到所述相似性后，根据相似性进行排序，以输出最终的跨媒体检索结果。

本发明的效果在于：与现有方法相比，本发明能够支持多种媒体类型的统一检索，并充分考虑多种媒体类型之间的关联关系，同时学习多种媒体类型的统一稀疏特征表示，从而有效地过滤特征表示中的噪声，并使得不同媒体类型能够互相校正，进一步提高统一特征表示的有效性，从而能取得更高的跨媒体检索准确率。

本发明之所以具有上述发明效果，其原因在于：采用了统一稀疏表示。一方面，通过对多种媒体类型数据统一建模，能够充分考虑多种媒体类型之间的关联关系，增强了对跨媒体内容的分析与挖掘的能力；另一方面，能够同时学习多种媒体类型数据的稀疏特征表示，稀疏特征表示能够有效地过滤特征表示中的噪声，更为重要的是对不同媒体类型数据的统一建模学习，能够使得不同媒体类型数据能够互相校正，进一步提高统一特征表示的有效性，从而取得更高的跨媒体检索准确率。

附图说明

图1是本发明的基于统一稀疏表示的跨媒体检索方法的流程示意图。

图2是一个跨媒体检索实例的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于统一稀疏表示的跨媒体检索方法，其流程如图1所示，具体包含以下步骤：

(1)建立包含多种媒体类型的跨媒体数据库，并将所述数据库分为训练集和测试集，提取每种媒体类型数据的特征向量。

本实施例中，所述多种媒体类型为五种媒体类型，包括文本、图像、视频、音频和3D。

对于文本数据，提取其隐狄雷克雷分布特征向量；对于图像数据，提取其词袋特征向量；对于视频数据，提取其词袋特征向量；对于音频数据，提取其梅尔频率倒谱系数特征向量；对于3D数据，提取其光场特征向量。本实施例的方法同样支持其他特征种类，例如文本词袋特征，图像纹理特征、颜色特征，视频运动特征，音频均方根、过零率特征，3D形状特征等。

用X⁽¹⁾,...,X^(s)表示跨媒体训练集中s种媒体类型的特征向量矩阵，其中上标(i)表示第i种媒体类型，矩阵的维度为d⁽ⁱ⁾×n⁽ⁱ⁾，表示共有n⁽ⁱ⁾个训练样本，每个训练样本的特征向量维度是d⁽ⁱ⁾。

用Y⁽¹⁾,...,Y^(s)表示跨媒体训练集中s种媒体类型的类别标签矩阵，其中上标(i)表示第i种媒体类型，矩阵的维度为c×n⁽ⁱ⁾，表示共有n⁽ⁱ⁾个训练样本以及对应的c个类别，每个训练样本都来自于其中一类。

用表示跨媒体训练集和测试集中s种媒体类型的特征向量矩阵，其中上标(i)表示第i种媒体类型，矩阵的维度为d⁽ⁱ⁾×(n⁽ⁱ⁾+m⁽ⁱ⁾)，表示共有n⁽ⁱ⁾个训练样本和m⁽ⁱ⁾个测试样本，每个样本的特征向量维度是d⁽ⁱ⁾。

(2)通过训练集的多媒体数据，为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵。

建立的目标函数为：

\min_{P^{(i)}, . . ., P^{(s)}} Σ_{i = 1}^{s} Σ_{j = i + 1}^{s} {| | P^{{(i)}^{T}} X_{mij}^{(i)} - P^{{(j)}^{T}} X_{mij}^{(j)} | |}_{F}^{2} + Σ_{i = 1}^{s} ({| | P^{{(i)}^{T}} X^{(i)} - Y^{(i)} | |}_{F}^{2} + λ (Ω (P^{(i)}) + {| | P^{(i)} | |}_{2,1}))

其中P⁽¹⁾,...,P^(s)为跨媒体数据库中所有s种媒体类型的映射矩阵，其中上标(i)表示第i种媒体类型的映射矩阵，矩阵的维度为d⁽ⁱ⁾×c，可以将原始的特征向量从d⁽ⁱ⁾维的空间映射到一个统一的c维的统一空间中。和表示一一对应的两个矩阵，这两个矩阵中的一一对应样本表示来自不同媒体类型，而具有同样类别标签的元素。||Z||_F表示矩阵Z的Frobenius范数，其定义为：||Z||_2,1表示矩阵Z的l_2,1范数，其定义为：可以看出，最小化||Z||_2,1能够使得矩阵Z稀疏。

上述公式中的第一项目标函数考虑了所有不同媒体之间的关联关系，能够让来自不同媒体类型而描述相同类别的样本对象具有接近的特征表示。第二项目标函数考虑了各自媒体内部的类别信息，使其在映射之后的空间中尽可能接近原始的类别标签。第三项目标函数Ω(P⁽ⁱ⁾)表示在映射之后的统一特征空间中的样本分布和在映射之前的特征空间中的样本分布的一致程度，用于挖掘蕴含于不同媒体内部的样本分布结构信息，该信息能够作为类别信息的补充进一步提高效果，其定义为：

Ω (P^{(i)}) = tr (P^{{(i)}^{T}} X_{a}^{(i)} L^{(i)} X_{a}^{{(i)}^{T}} P^{(i)})

L⁽ⁱ⁾＝I-D^-1/2W⁽ⁱ⁾D^-1/2

其中表示矩阵Z的迹范数，I表示单位矩阵，D表示斜对角矩阵，其对角线上的元素W⁽ⁱ⁾为距离矩阵，表示样本的k近邻集合。

第四项目标函数||P⁽ⁱ⁾||_2，1能够使得最终的统一特征表示稀疏，从而过滤跨媒体数据中的噪声，提高跨媒体统一特征表示的有效性，从而能取得更高的跨媒体检索准确率。

上述目标函数的迭代求解公式为：

P_{t + 1}^{(i)} = {(Σ_{j = i + 1}^{s} X_{mij}^{(i)} X_{mij}^{{(j)}^{T}} + X^{(i)} X^{{(i)}^{T}} + λ D_{t}^{(i)} + λ X_{a}^{(i)} L X_{a}^{{(i)}^{T}})}^{- 1} (Σ_{j = i + 1}^{s} X_{\min}^{(i)} X_{mij}^{{(j)}^{T}} P_{t}^{(j)} + X^{(i)} Y^{{(i)}^{T}})

其中表示第j种媒体类型在第t轮迭代中的结果，我们通过初始化为一个随机值，然后迭代更新每一轮的映射矩阵的值，直至收敛即可获得最终的P⁽¹⁾,...,P^(s)。

(3)根据特征映射矩阵，将测试集中的每种媒体类型映射到统一的空间中，得到跨媒体数据的统一稀疏表示。

该步骤将测试集中的每种媒体类型数据通过上述学习的映射矩阵映射到一个统一空间中，以获得多种媒体类型的统一特征表示：

o^{i} = P^{{(i)}^{T}} \times x^{(i)}

这里我们用x⁽ⁱ⁾表示第i种媒体的一个样本，用oⁱ表示映射到统一空间中的第i种媒体的统一稀疏特征表示。

(4)基于统一稀疏表示，计算任意媒体数据之间的跨媒体相似性。

任意两个媒体数据之间相似性计算方法为：

Sim (o_{p}^{i}, o_{q}^{j}) = \underset{1}{Σ} p (y_{p} = 1 | o_{p}^{i}) p (y_{q} = 1 | o_{q}^{j})

p (y_{q} = 1 | o_{p}^{i}) = \frac{\underset{o &Element; N_{k} (o_{p}^{(i)})^y = 1}{Σ} σ ({| | o_{p}^{i} - o | |}_{2})}{\underset{o &Element; N_{k} (o_{p}^{(i)})}{Σ} σ ({| | o_{p}^{i} - o | |}_{2})}

这里表示第i种媒体的数据p的统一稀疏特征表示，表示第j种媒体的数据q的统一稀疏特征表示，y_p表示的类别，y_q表示的类别，l表示类别集合中的任一种类别，o表示任意一种媒体数据，N_k(o)表示媒体数据o的k近邻，可以看出，相似性计算公式的目标是计算两个媒体数据属于同一类别l的概率值，σ(z)＝(1+exp(-z))^-1为sigmoid函数。

(5)将测试集中的每个数据作为查询样例，整个测试集作为查询目标集进行查询；计算查询样例和查询目标集中媒体数据之间的相似性，根据相似性进行排序，得到跨媒体统一检索结果，检索结果包含所有媒体类型。

跨媒体统一检索是指提交任意一种媒体类型作为查询，检索结果包括测试集中的所有媒体类型数据的相关结果，即输出最相似的跨媒体检索结果。图2是一个跨媒体检索的实例示意图。用户提交任意媒体数据作为查询样例，系统自动从跨媒体数据集中检索出所有相关结果。例如提交一张加拿大梦莲湖的图像作为查询，除了能搜索出相关的图片结果以外，还能自动检索出所有相关的文本、音频、视频和3D。

下面的实验结果表明，与现有方法相比，本发明基于统一稀疏表示进行跨媒体检索，可以取得更高的检索准确率。

本实施例中采用了XMedia跨媒体数据集进行实验，其中包括5000段文本，5000张图像，1000段音频，500段视频和500个3D模型，分别来自20个不同的类别，每个类别包括250段文本，250张图像，50段音频，25段视频和25个3D模型。我们将数据集的80％作为训练集，剩余20％作为测试集。我们测试了以下3种方法作为实验对比：

现有方法一：文献“A New Approach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos，发表在2010年的ACM international conference on Multimedia)的方法，该方法首先采用CCA统计分析将原始的特征映射到第三个空间中，然后再采用逻辑回归进一步对特征进行映射；

现有方法二：文献“Multimedia content processing through cross-modal association”(作者D.Li,N.Dimitrova,M.Li和I.Sethi，发表在2003年的ACM international conference onMultimedia)的方法，该方法通过最小化一一对应的数据之间的Frobenius范数进行特征学习；

本发明：本实施例的方法。

实验采用信息检索领域最常用的MAP(mean average precision)指标来评测跨媒体检索的准确性，MAP是指每个查询样例检索准确性的平均值，MAP值越大，说明跨媒体检索的结果就越好。

表1.与现有方法的对比实验结果

	文本查询	图像查询	音频查询	视频查询	3D查询
						现有方法一	0.141	0.143	0.125	0.116	0.082
现有方法二	0.136	0.137	0.117	0.107	0.111
						本发明	0.199	0.252	0.197	0.152	0.181

从表1中可以看出，本发明取得了最好的跨媒体检索结果，对比现有方法一，该方法在学习的过程中只能考虑两种媒体类型之间的关系，并且没有考虑利用稀疏性来降低跨媒体数据中的噪声，而本发明能够同时学习多种媒体类型的稀疏特征表示，稀疏特征表示能够有效地过滤特征表示中的噪声，更为重要的是对不同媒体类型统一建模学习能够使得不同媒体类型数据能够互相校正，进一步提高统一特征表示的有效性。对比现有方法二，其仅考虑了数据之间的一一对应关系，本发明不仅可以考虑所有媒体之间的一一对应关系，还考虑了数据的类别信息和稀疏性，因此能够极大提高跨媒体检索的MAP值。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于统一稀疏表示的跨媒体检索方法，包括以下步骤：

(2)通过训练集的多媒体数据，为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵；

(3)根据特征映射矩阵，将测试集中的每种媒体类型映射到统一的空间中，得到跨媒体数据的统一稀疏表示；

(5)将测试集中的每个数据作为查询样例，以整个测试集作为查询目标集进行查询；计算查询样例和查询目标集中媒体数据之间的跨媒体相似性，进而根据相似性得到跨媒体统一检索结果，检索结果包含相关的所有媒体类型数据。

2.如权利要求1所述的方法，其特征在于，所述多种媒体类型为五种媒体类型，包括文本、图像、视频、音频和3D数据。

3.如权利要求2所述的方法，其特征在于，对于文本数据，提取其隐狄雷克雷分布特征向量；对于图像数据，提取其词袋特征向量；对于视频数据，提取其词袋特征向量；对于音频数据，提取其梅尔频率倒谱系数特征向量；对于3D数据，提取其光场特征向量。

4.如权利要求1所述的方法，其特征在于，所述步骤(2)中跨媒体统一稀疏表示学习算法考虑了所有不同媒体类型数据之间的关联关系，同时也考虑了跨媒体数据在映射后的空间中的稀疏性，并保持映射后的统一特征空间样本分布和映射之前的特征空间样本分布接近。

5.如权利要求4所述的方法，其特征在于，步骤(2)所述为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵，其建立的目标函数为：

\min_{P^{(i)}, . . ., P^{(s)}} Σ_{i = 1}^{s} Σ_{j = i + 1}^{s} {| | P^{{(i)}^{T}} X_{mij}^{(i)} - P^{{(j)}^{T}} X_{mij}^{(j)} | |}_{F}^{2} + Σ_{i = 1}^{s} ({| | P^{{(i)}^{T}} X^{(i)} - Y^{(i)} | |}_{F}^{2} + λ (Ω (P^{(i)}) + {| | P^{(i)} | |}_{2,1})),

其中P⁽¹⁾,...,P^(s)为跨媒体数据库中所有s种媒体类型的映射矩阵，上标(i)表示第i种媒体类型的映射矩阵，矩阵的维度为d⁽ⁱ⁾×c，可以将原始的特征向量从d⁽ⁱ⁾维的空间映射到一个统一的c维的统一空间中；和表示一一对应的两个矩阵，这两个矩阵中的一一对应样本表示来自不同媒体类型，而具有同样类别标签的元素；||Z||_F表示矩阵Z的Frobenius范数，其定义为：||Z||_2,1表示矩阵Z的l_2,1范数，其定义为：最小化||Z||_2,1能够使得矩阵Z稀疏。

6.如权利要求5所述的方法，其特征在于，第三项目标函数Ω(P⁽ⁱ⁾)表示在映射之后的统一特征空间中的样本分布和在映射之前的特征空间中的样本分布的一致程度，用于挖掘蕴含于不同媒体内部的样本分布结构信息，该信息能够作为类别信息的补充进一步提高效果，其定义为：

Ω (P^{(i)}) = tr (P^{{(i)}^{T}} X_{a}^{(i)} L^{(i)} X_{a}^{{(i)}^{T}} P^{(i)}),

L⁽ⁱ⁾＝I-D^-1/2W⁽ⁱ⁾D^-1/2，

7.如权利要求1所述的方法，其特征在于，所述步骤(4)的跨媒体相似性计算方法以两个媒体数据属于同一类别的概率作为其相似性。

8.如权利要求1所述的方法，其特征在于，所述步骤(4)中任意两个媒体数据之间相似性计算方法为：

Sim (o_{p}^{i}, o_{q}^{j}) = \underset{1}{Σ} p (y_{p} = 1 | o_{p}^{i}) p (y_{q} = 1 | o_{q}^{j}),

p (y_{q} = 1 | o_{p}^{i}) = \frac{\underset{o &Element; N_{k} (o_{p}^{(i)})^y = 1}{Σ} σ ({| | o_{p}^{i} - o | |}_{2})}{\underset{o &Element; N_{k} (o_{p}^{(i)})}{Σ} σ ({| | o_{p}^{i} - o | |}_{2})},

其中，表示第i种媒体的数据p的统一稀疏特征表示，表示第j种媒体的数据q的统一稀疏特征表示，y_p表示的类别，y_q表示的类别，l表示类别集合中的任一种类别，o表示任意一种媒体数据，N_k(o)表示媒体数据o的k近邻，σ(z)＝(1+exp(-z))^-1为sigmoid函数。

9.如权利要求1所述的方法，其特征在于，所述步骤(5)的跨媒体统一检索是指提交任意一种媒体类型作为查询，检索结果包括测试集中相关的所有媒体类型数据；该步骤计算得到所述相似性后，根据相似性进行排序，以输出最终的跨媒体检索结果。