CN103559192A

CN103559192A - 一种基于跨模态稀疏主题建模的跨媒体检索方法

Info

Publication number: CN103559192A
Application number: CN201310410634.XA
Authority: CN
Inventors: 吴飞; 王东辉; 王熙逵; 汤斯亮
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2014-02-05

Abstract

本发明公开了一种基于跨模态稀疏主题建模的跨媒体检索方法。它包括如下步骤：1)对于已有的跨模态多媒体数据进行联合分析，提取其中的主题特征；2)基于已有的图像和文本特征，分析出其中主题与特征之间的稀疏关联，筛选特征与主体之间的相关性，并为跨模态多媒体文档提供相应的主题空间表示；3)根据用户检索的图像或文本信息，在稀疏主题空间中提供跨模态的多媒体检索同能，返回相关主题的图像和文本检索结果。由于本发明在对文本与图像进行投影时，采用稀疏的约束方式，使得每个主题相关的文本与图像特征更精确，因此可以获得更准确的检索结果。

Description

一种基于跨模态稀疏主题建模的跨媒体检索方法

技术领域

本发明涉及多媒体检索，尤其涉及一种跨模态稀疏主题建模的跨媒体检索方法。

背景技术

在传统的搜索引擎技术中，使用关键字搜索是最常用的一种检索手段，近年来兴起的图片搜索，即通过用户上传图像进行检索的方式也得到的广泛的应用，如商业引擎Google和Baidu都提出了具有较高搜索成功率的图像搜索引擎，其中Baidu还借助深度学习的技术，进一步提高了图像检索的成功率。在Web搜索的用户请求中，用户通常希望的到与搜索关键词或搜索图像相关的图像及关键字搜索结果。例如，用户请求“毒奶粉事件”，所返回的搜索结果应该包含与“毒奶粉事件”相关的文字内容，同时还应该返回与其相关的新闻主题图片。然而，对于同时包含图像以及文本内容的跨模态检索，不仅需要打破底层特征和高层语义之间存在的“语义鸿沟”，更需要打破文本特征与图像特征之间关系的壁垒，这时候就需要一种同时包含多种模态数据信息的检索方法，通过同时对图像和文本特征建模，实现跨模态的检索方法。

对于存在于互联网上的图像，通常有一些与之相关的文字信息。图像信息与文本信息描述的内容相一致，并且同隶属于某一主题。例如，一副军舰的图片，旁边的文字内容包括“…军用舰船军舰是列入海军编制，用于完成战斗任务和保障任务的战斗舰艇和特种舰艇…”，文字与图片描述的都是关于“军舰”这一概念，并且“军舰”隶属于“军事”这一主题下。对于每一个“概念”，可以用不止一个主题来概括，比如“军舰”，可以同时隶属于“军事”，“船只”，“武器”，“安全”等多个主题下，因此对于每一个概念，我们可以反过来用其所隶属的主题来对他进行描述。通过抽象出每个主题相关的视觉特征与文字特征，从而将基于图像特征与文字特征描述的概念，转换成基于主题的表示，从而对于概念相关的图像和文字，均可以在此主题空间内进行相互检索，进而实现跨媒体检索的功能。

通过对主题—图像文本特征进行建模，不仅能以此对图像和文本实现跨媒体检索，并且可以进一步对主题进行细化，提高描述的准确性。对于传统的子空间学习方法，通过学习投影矩阵，将原图像和文本信息从原有的特征空间投影到主题空间中，但是，相对传统的学习方法，学习出来的子空间基与原有空间的所有特征相关。这样的描述不利于主题表达方式的准确性，因此需要进一步对新的主题空间进行约束，从而增加主题描述的准确性，最终达到提高跨媒体检索准确性的目的。

因此，本发明通过将概念相关的图像以及文字信息，投影到同一主题空间中，在此主题空间中对图像及文本信息进行统一的检索。此外，本发明在构造此主题空间的同时，通过对空间基的约束，使得每一主题相关的图像及文本特征具有稀疏的特征，从而让每一主题仅挑选与该主题最相关的特征，让每个主题的描述更加准确，并使每个概念相关的图像与文本内容在主题空间中的表示更准确，最终实现更准确的跨模态稀疏主题建模跨媒体检索方法。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于跨模态稀疏主题建模的跨媒体检索方法。

基于跨模态的稀疏主题建模的跨媒体检索方法包括如下步骤：

1)对于已有的跨模态多媒体数据进行联合分析，提取其中的主题特征；

2)基于已有的图像和文本特征，分析出其中主题与特征之间的稀疏关联，筛选特征与主体之间的相关性，并为跨模态多媒体文档提供相应的主题空间表示；

3)根据用户检索的图像或文本信息，在稀疏主题空间中提供跨模态的多媒体检索同能，返回相关主题的图像和文本检索结果。

所述的步骤1)包括：

1)对数据库中的所有图像提取SIFT特征，并对抽取得的特征进行聚类，得到1000个视觉单词，并计算每幅图像包含的SIFT特征点与视觉单词的距离，用视觉单词的频谱来表示每幅图像；

2)对数据库中的所有文本进行为词汇频率统计，并矢量化。

所述的步骤2)包括：

1)将所提取的跨媒体文档包含的视觉及文本特征向量化，并组合形成矩阵形式；2)对组合得到的视觉及文本特征矩阵进行稀疏主题学习，学习得到稀疏主题空间的一组新的基，并且使得他们具有正交并且稀疏的特性；

3)得到的新的主题空间的每一个基都是通过学习的到的稀疏主题，其与视觉及文本特征的相关性具有稀疏性。

所述的步骤3)为：

1)根据从稀疏主题建模中得到的稀疏主题空间中的基，将用户提交的检索文本或图像投影到所构建的稀疏主题空间中。

2)通过将用户提交的文本或图像在稀疏主题空间中的表示，与数据库中已有的跨模态多媒体文档，包含图像及文本，进行欧式距离计算，并根据该距离，将所有媒体对象进行排序，返回距离用户提交样本距离最近的多媒体对象。

本发明与背景技术相比，具有的有益的效果是：

本发明提出了一种新的基于跨模态多媒体数据稀疏主体建模的跨媒体检索方法。由于该方法采用了跨模态数据联合建模的方式，有效的利用了跨媒体数据之间的关系，从而实现了跨媒体查询的目的。同时，本方法还利用了稀疏主题建模的方法，使得基于稀疏主题的多媒体文档表示方法具有更高的准确性，进一步提高了检索的准确性。结合跨模态检索的方法，用户可以通过提交多种形式的检索内容，包括文本和图像，查询的例子和返回的结果可以是来自不同模态的内容，因此比传统的内容检索系统功能更加强大。

附图说明

图1是本发明的方法流程示意图；

图2是通过本方法学习到的包含跨模态多媒体数据的主题形式化结果。

具体实施方式

本发明通过对来自不同模态的多媒体数据进行基于主题的建模，同时对主题与特征的相关性进行稀疏约束，提高主题表示的准确性，通过在主题空间内的欧式距离比较，提供跨模态多媒体对象检索功能。

所述的步骤1)包括：

2)对数据库中的所有文本进行为词汇频率统计，并矢量化。

所述的步骤2)包括：

1)将所提取的跨媒体文档包含的视觉及文本特征向量化，并组合形成矩阵形式；

2)对组合得到的视觉及文本特征矩阵进行稀疏主题学习，学习得到稀疏主题空间的一组新的基，并且使得他们具有正交并且稀疏的特性；

所述的步骤3)为：

本发明提出的基于跨模态数据稀疏主题建模的检索方法如图1所示，具体说明如下：

1)预处理模块：

该模块实现对数据库已有的媒体对象进行特征提取，在我们的多媒体数据库中，包含许多的多媒体文档，每个文档隶属于不同的类别，并且每个文档包含一段与文档描述物体相关的文字，以及一张与物体相关的图片。我们通过SIFT特征子检测方法，提取出所有图片包含的SIFT特征，以及通过词频统计的方法，对包含的文本进行向量化。对于所得到的SIFT特征，我们采用KMeans的聚类方法，把所有的视觉特征向量聚类成若干个视觉单词，并将每幅图片替换成基于视觉单词的表示。我们将用视觉单词表示的图片特征及向量化后的文本特征分别表示为A和B。

2)跨模态稀疏主题建模模块

通过模块1中抽取的关于数据库中跨模态多媒体文档的特征，我们对这些数据进行跨模态稀疏主题建模。我们将跨模态多媒体文档在稀疏的主题空间的表示为X，从图片特征空间到稀疏主题空间的投影为U₁，从文本特征空间到稀疏主题空间的投影为U₂，则根据我们的假设，有：

\begin{matrix} A = {XU}_{1} + {&Element;}^{1}, \\ B = {XU}_{2} + {&Element;}^{2} . \end{matrix} - - - (1)

因此我们可以通过求解如下方程来得到对应的投影矩阵U₁和U₂：

\min_{X, U_{1}, U_{2}} {| | A - {XU}_{1} | |}_{F}^{2} + γ {| | B - {XU}_{2} | |}_{F}^{2}, s . t . {, X}^{T} X = I - - - (2)

此外，我们考虑每个主题空间中的主题相关的文本及图像特征都是稀疏的，那么对于投影得到的主题表示会更加准确，因此我们为投影加上稀疏约束，得到：

\begin{matrix} \min_{X, U_{1}, U_{2}} {| | A - {XU}_{1} | |}_{F}^{2} + γ {| | B - {XU}_{2} | |}_{F}^{2} + λ_{1} {| | U_{1} | |}_{1} + λ_{2} {| | U_{2} | |}_{1} \\ s . t . {, X}^{T} X = I \end{matrix} - - - (3)

本发明通过设计如下算法来解决这个问题：

a)当我们固定多媒体文档在稀疏主题空间中的表示X时，公式3的求解变成了求解一下两个独立的稀疏编码问题：

\begin{matrix} \min_{U_{1}} {| | A - {XU}_{1} | |}_{F}^{2} + λ_{1} {| | U_{1} | |}_{1}; \\ \min_{U_{2}} {| | B - {XU}_{2} | |}_{F}^{2} + λ_{2} {| | U_{2} | |}_{1 .} \end{matrix} - - - (4)

b)当我们固定投影矩阵U₁和U₂时，我们重写公式3为如下形式：

\min_{X} {| | [A, \sqrt{γ} B] - X [U_{1}, \sqrt{γ} U_{2} | |}_{F}^{2}, s . t ., X^{T} X = I . - - - (5)

为了表示方便，我们记

\tilde{Y} = [A, \sqrt{γ} B], \tilde{U} = [U_{1}, \sqrt{γ} U_{2}],

则公式5可以进一步写成如下形式：

\min_{X} {| | \tilde{Y} - X \tilde{U} | |}_{F}^{2}, s . t ., X^{T} X = I . - - - (6)

公式6的问题可以通过对

的奇异值分解V=PΔQ得到最优的X，由此我们得到关于多媒体文档在稀疏主题空间中的最优表示X=PQ，通过迭代算法，可以得到最优的U₁和U₂。并且U₁和U₂就是我们求得的稀疏主题的图像和文本特征表示。

3)跨模态多媒体对象检索模块

根据从模块2中学习得到的稀疏主题投影矩阵U₁和U₂，我们可以对用户提交的文本或者图片进行跨模态的多媒体文档检索功能。本发明提供文本驱动检索及图片驱动检索两种功能：

a)假设用户提交的文本为Z_t，那求解其在稀疏主题空间内的表示S为解决如下问题：

\min_{s} {| | Z_{t} - {SU}_{1} | |}_{F}^{2}, s . t ., S^{T} S = I . - - - (7)

此问题可采用在模块2中提到的算法中的类似方法，我们记G=SU₁ ^T，对G进行特征值分解G=HΔJ,则该文本在稀疏主题空间内的表示为S=HJ。

b)假设用户提交的图片为Z_i，那求解其在稀疏主题空间内的表示S为解决如下问题：

\min_{s} {| | Z_{i} - {SU}_{2} | |}_{F}^{2}, s . t ., S^{T} S = I . - - - (8)

此问题可采用在模块2中提到的算法中的类似方法，我们记G=SU₂ ^T，对G进行特征值分解G=HΔJ,则该文本在稀疏主题空间内的表示为S=HJ。

得到用户提交的图片或文本在稀疏主题空间中的表示S之后，将其与所有在数据库中已有的图片及文本在稀疏主题空间中的表示进行欧式距离计算，选出其中距离最近的若干文本和图片，作为查询结果返回给用户。

4）跨模态多媒体主题展示

通过学习得到最优化稀疏主题表示U₁和U₂，我们从数据库中寻找与稀疏主题共有最多图像特征的图片以及与稀疏主题共有最多文本特征的文本，作为当前主题最具代表性的文本及图片作为展示，图2展示了一部分我们学习得到的主题。

实施例

假设有5000个多媒体文档，其中每份多媒体文档均包含一段与描述物体相关的文字以及一副与描述物体相关的图像，那么我们的检索数据库中就包含5000张图片，5000段文本，首先应该对他们进行特征提取。对于5000张图片，首先我们用SIFT特征检测方法，从每幅图片随机挑选100个SIFT特征，得到总共500000个SIFT特征点。然后，我们对这个500000特征点进行KMeans聚类，将他们在图像特征空间内聚成1000个视觉单词。基于得到的1000个视觉单词，我们将每幅图像提取到的SIFT特征转换成视觉单词，将每幅图片用一个1000维的视觉单词表示。对于5000段文本，我们先对其中的单词进行词频统计，选取其中词频排序前4000的单词组成词典，再根据这个词典将每段文本转换成一个1000维的向量。

进行特征提取之后，我们的到了数据库多媒体文档的训练数据，有A∈R^5000×1000和B∈R^5000×4000，我们假设在这5000个多媒体文档与50个隐主题内容相关，因此根据求解公式3中的跨模态稀疏主题建模问题，我们可以得到分别关于图像特征以及文字特征的两个投影矩阵U₁∈R^50×1000和U₂∈R5^0×4000，他们表示稀疏主题空间到图像特征及文字特征空间的转换，且他们具有稀疏的性质。

假设用户提交100个文本文档，希望对他们进行跨模态的多媒体检索，首先我们采用相同的方法，提取他们的文本特征，将用户查询内容转换成一个矩阵Z_t∈R^100×4000，根据查询模块介绍的方法，我们得到这100个文本文档在稀疏主题空间中的表示为S∈R^100×1000。

假设用户提交100个图像，希望对他们进行跨模态的多媒体检索，首先我们采用相同的方法，提取他们的图像特征，将用户查询内容转换成一个矩阵Z_i∈R^100×5000，根据查询模块介绍的方法，我们得到这100个图像在稀疏主题空间中的表示为S∈R^100×1000。

在得到用户查询内容在稀疏主题空间内的表示后，我们将他们的稀疏表示与数据库中已有的图像和文本进行比较，选出其中相关条目返回给用户，作为检索结果。

根据查询结果可以得知本方法利用了稀疏主题建模的方法，使得基于稀疏主题的多媒体文档表示方法具有更高的准确性，进一步提高了检索的准确性。结合跨模态检索的方法，用户可以通过提交多种形式的检索内容，包括文本和图像，查询的例子和返回的结果可以是来自不同模态的内容，因此比传统的内容检索系统功能更加强大。

Claims

1.一种基于跨模态的稀疏主题建模的跨媒体检索方法，其特征在于包括如下步骤：

1) 对于已有的跨模态多媒体数据进行联合分析，提取其中的主题特征；

2) 基于已有的图像和文本特征，分析出其中主题与特征之间的稀疏关联，筛选特征与主体之间的相关性，并为跨模态多媒体文档提供相应的主题空间表示；

3) 根据用户检索的图像或文本信息，在稀疏主题空间中提供跨模态的多媒体检索同能，返回相关主题的图像和文本检索结果。

2.根据权利要求1所述的一种跨模态的稀疏主题建模的跨媒体检索方法，其特征在于所述的步骤1)包括：

2)对数据库中的所有文本进行为词汇频率统计，并矢量化。

3.根据权利要求1所述的一种跨模态的稀疏主题建模的跨媒体检索方法，其特征在于所述的步骤2) 包括：

4.根据权利要求1所述的一种跨模态的稀疏主题建模的跨媒体检索方法，其特征在于，所述的步骤3)为：

1)根据从稀疏主题建模中得到的稀疏主题空间中的基，将用户提交的检索文本或图像投影到所构建的稀疏主题空间中；