CN105893573B

CN105893573B - 一种基于地点的多模态媒体数据主题提取模型

Info

Publication number: CN105893573B
Application number: CN201610202586.9A
Authority: CN
Inventors: 刘安安; 师阳; 聂为之; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2019-07-23
Anticipated expiration: 2036-03-31
Also published as: CN105893573A

Abstract

一种基于地点的多模态媒体数据主题提取模型：将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库；对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取，得到初始文本特征向量集；采用颜色特征对每个地点的多媒体图像数据进行处理得到初始图像特征向量集；将所有地点的初始文本特征向量集和初始图像特征向量集进行集合定义为多模态媒体数据特征库；得到多模态媒体数据在同一空间下的特征向量集；得到基于地点的多模态媒体数据主题模型，计算主题模型中图像特征和文本特征之间的欧氏距离，实现对多媒体图像数据的文本标注。本发明避免了多媒体数据的模态单一性，实现了基于地点的多模态媒体数据的主题提取。

Description

一种基于地点的多模态媒体数据主题提取模型

技术领域

本发明涉及一种多模态媒体数据主题提取模型。特别是涉及一种基于地点的多模态媒体数据主题提取模型。

背景技术

现如今人类生活已经离不开网络，人们可以通过多种多样的社交软件了解身边发生的大事小事。随着信息技术的日益发展，多媒体数据的表现形式也由单一的文本逐渐丰富为视频、音频、动画和图形等，随之而来的就是多媒体数据正呈现海量增长的趋势。如何对这些媒体类型的信息进行快速准确的检索和分类已经成为人们迫切的需要(如参考文献[1])，并吸引了众多科研工作者的目光，多媒体数据信息检索顺利成章的成为了当下的研究热点。

多媒体信息检索与分类是基于数字图像处理、计算机视觉和机器学习等技术，借助于计算机处理技术，对数据库中的多媒体信息进行分析比较的过程。目前，多媒体信息检索研究主要分为两类：基于文本方式的信息检索、基于内容的多媒体信息检索技术。基于文本方式的信息检索方法简单快速，但已经无法满足现如今多媒体数据检索的需要(如参考文献[2])。基于内容的多媒体信息检索方法提取多媒体数据的语义信息形成数据的特征向量，通过找到最大相似度的特征向量进而完成检索(如参考文献[3])。但是多媒体数据的语义层次越高，检索所需的计算就越复杂。两类方法各有优劣，但由于基于内容的多媒体信息检索技术适用于如今多样的多媒体数据的形式，因而得到了广泛应用^[4]。

多媒体数据的主题提取目前面临的主要挑战为：多媒体数据具有多模态特性，而且社交网络的多样性导致了多媒体数据之间的联系也具有多样性，如今大多数方法只能处理单模态的多媒体数据，限制了实际应用范围。

发明内容

本发明所要解决的技术问题是，提供一种实现了多媒体数据在不同模态和不同社交网络上的跨域学习，提高了多模态媒体数据主题提取准确度的基于地点的多模态媒体数据主题提取模型

本发明所采用的技术方案是：一种基于地点的多模态媒体数据主题提取模型，包括以下步骤：

1)采集各个地点的多媒体图像数据和文本数据，得到各地点的初始多模态媒体数据集，将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库；

2)在多模态媒体数据库中，对每个地点的文本数据进行自然语言处理后采用词袋模型得到文本中前1000～1500个单词，对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取，去噪后得到初始文本特征向量集

其中N₂为初始文本特征向量集中文本数据的数目，m₂为特征的维度；

3)在多模态媒体数据库中，采用颜色特征对每个地点的多媒体图像数据进行处理，再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集

其中N₁为初始图像特征向量集中图像数据的数目，m₁为特征的维度；

4)将所有地点的初始文本特征向量集和初始图像特征向量集进行集合，将其定义为多模态媒体数据特征库；

5)以多模态媒体数据特征库作为模型的输入，初始化模型参数，构建多模态媒体数据图结构，得到多模态媒体数据在同一空间下的特征向量集；

6)对得到的特征向量集进行K均值聚类，得到基于地点的多模态媒体数据主题模型，计算主题模型中图像特征和文本特征之间的欧氏距离，实现对多媒体图像数据的文本标注。

步骤5)包括：

(1)根据初始图像特征向量集和初始文本特征向量集得到多模态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式：

其中：

设定其中U₁是X₁转换到V₁的近似的过渡矩阵，U₂是X₂转换到V₂的近似的过渡矩阵；

I为单位矩阵，O为零矩阵，n₀为Flickr图像数据的数量，n₁为Foursquare图像数据的数量，n₂为Foursquare文本数据的数量，D为对角矩阵；

(A₁)_es代表图像e和图像s的相似度，(V₁)_e为图像e的跨域特征，(V₁)_s为图像s的跨域特征，L₁是拉普拉斯算子；

(A₂)_es代表文本e和文本s的相似度，(V₂)_e为文本e的跨域特征，(V₂)_s为文本s的跨域特征，L₂是拉普拉斯算子；

λ₁、λ₂、μ、α₁、α₂和γ为模型参数；

其中d为要得到的特征映射的维度；

(2)对误差值关系式中的λ₁、λ₂、μ、α₁、α₂、V₁和V₂初始化；

(3)分别固定U₁、U₂、V₁和V₂并求导，不断重复求导过程直到误差值关系式具有设定的最小值，此时的V₁和V₂即为多模态媒体数据的特征映射，即不同模态数据在同一特征空间下的特征向量集。

本发明的一种基于地点的多模态媒体数据主题提取模型，具有的有益效果是：

1、避免了多媒体数据的模态单一性，可以应用于多种模态的多媒体数据库，即当多媒体数据库中既有文本数据又有图像数据时，本方法依然可行；

2、采用基于跨域学习的多媒体主题提取模型，通过某一社交网络中多模态媒体数据之间的联系将其他多模态媒体数据映射到同一特征空间下，实现了基于地点的多模态媒体数据的主题提取；

3、结合使用上述模型对图像数据进行文本标注，建立了图像数据和文本数据的联系，实现了该模型的应用。

附图说明

图1是本发明基于地点的多模态媒体数据主题提取模型的流程图；

图2a是雅虎网站(Flickr)数据样例，其文本标注为“星巴克”；

图2b是四方网站(Foursquare)数据样例，其文本标注为“海湾风景”；

图2c是四方网站(Foursquare)数据样例，其文本标注为“房间浴室”；

图3a是特征维数为10维的主题模型样例，文本标注为“舒服的房间”；

图3b是特征维数为100维的主题模型样例，文本标注为“沙滩”；

图3c是特征维数为1000维的主题模型样例，文本标注为“周末夜景”；

图4a是特征维数为10维的图片标注样例，文本标注为“灯光”；

图4b是特征维数为100维的图片标注样例，文本标注为“聚会”；

图4c是特征维数为1000维的图片标注样例，文本标注为“海鲜食品”；

图5是基于地点的多模态媒体数据主题模型的评估结果；

图6是图片标注的评估结果。

具体实施方式

下面结合实施例和附图对本发明的一种基于地点的多模态媒体数据主题提取模型做出详细说明。

研究表明：多模态媒体数据的特征映射分布情况与其数据本身的故有特征有非常紧密的联系，可以通过最优化主题模型得到同一特征空间下的多模态媒体数据特征向量进而计算数据之间的关系。本发明提出了一种基于地点的多模态媒体数据主题提取模型。

如图1所示，本发明的一种基于地点的多模态媒体数据主题提取模型，包括以下步骤：

2)在多模态媒体数据库中，对每个地点的文本数据进行自然语言处理后采用词袋模型(如参考文献[5])得到文本中前1000～1500个单词，对经过自然语言处理后的文本数据进行三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA(如参考文献[6]))的提取，去噪后得到初始文本特征向量集；

3)在多模态媒体数据库中，采用颜色特征对每个地点的多媒体图像数据进行处理，再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集；

5)以多模态媒体数据特征库作为模型的输入，初始化模型参数，构建多模态媒体数据图结构，得到多模态媒体数据在同一空间下的特征向量集；包括：

其中：

I为单位矩阵，O为零矩阵，D为对角矩阵；

(A₁)_es代表图像e和图像s的相似度，(V₁)_e为图像e的特征映射，(V₁)_s为图像s的特征映射，L₁是拉普拉斯算子；

(A₂)_es代表文本e和文本s的相似度，(V₂)_e为文本e的特征映射，(V₂)_s为文本s的特征映射，L₂是拉普拉斯算子；

λ₁,λ₂,μ,α₁,α₂,γ为模型参数；

其中d为要得到的特征映射的维度；

6)对得到的特征向量集进行K均值聚类(如参考文献[7])，得到基于地点的多模态媒体数据主题模型，计算主题模型中图像特征和文本特征之间的欧氏距离，实现对多媒体图像数据的文本标注。

下面结合具体的计算公式，对实施例1中的方案进行详细的介绍，详见下文描述：

1)采集S个地点的多媒体图像数据和文本数据，得到各地点的初始多模态媒体数据集m，将所有地点的多模态媒体数据集和文本数据总体M＝{m¹,m²,...,m^S}定义为基于地点的多模态媒体数据库MD(Multimedia Database)；

本发明实施例首先采集来自S个地点的雅虎网站(Flickr)和四方网站(Foursquare)媒体数据(本例中S＝41)，过程如下：

本发明是基于地点的多模态媒体数据主题提取，要收集数据的相关地点要比较热门，所以我们要选择比较受欢迎的地点。Foursquare中既有图像数据又有文本数据而且它们在数量和内容上基本没有联系，有的地点主页中用户上传的信息较少不具有代表性，所以在选择地点时要满足三个条件：(1)拥有的用户数量在1000以上；(2)地点主页中用户上传的图像数目大于1000；(3)用户对地点的相关评论在200条以上。由此，我们选择了41个比较受欢迎的地点。每个地点中所有的文本信息看成一个文本文档，所以我们收集到的Foursquare数据包含41个文本文档和10631张图像。

辅助域的数据主要从Flickr中获取，Flickr作为一个专业级图像分享网站，提供的图像数据包含丰富的信息，包括标注信息和图像的地理信息(如参考文献[8])。在Flickr数据的收集中，可以通过一些图像标注候选词汇作为搜索关键词在Flickr平台上收集图像。对这41个地点我们均选择搜集到的前60张图像，共2460张。

将S个地点的多模态媒体数据集合并得到总初始视图集M＝{m¹,m²,...,m^S}，将其定义为基于地点的多模态媒体数据库MD；

2)在多模态媒体数据库中，采用词袋模型对每个地点的文本数据Lⁱ，其中i∈{1,2,...,S}，进行自然语言处理，得到文本中前1000～1500个单词，对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取，去噪后得到初始文本特征向量集；

Flickr是多模态媒体数据结构图中的桥梁，所以如果Flickr的图像标注信息与主题相差很大的话会严重影响多模态媒体数据图结构的形成，这就主要需要对Flickr的文本信息进行去噪。我们将收集到的每个地点的所有文本视为一个文本文件，这些文件经过LDA处理以后生成了一个文本主题模型R＝{r₁,r₂,...,r_n}，第t个主题r_t有j个单词代表第t个主题的第k个单词。经过计算Flickr的文本和所有的主题的相似度，去掉相似度较低的Flickr文本噪声。Flickr的图像F和每个文本主题r的相似度计算公式为：

是Flickr的图像F的文本标注的第a个单词，是主题t的单词集合中的第k个单词。是两个单词之间的相似度，是单词出现在主题r的概率，相似度取两单词间的最大值。如果相似度很低，就将该文本和对应的图像滤掉，提高Flickr数据对地点描述的精确性。

对Foursquare的文本数据而言，可以通过删除掉文本中的冗杂单词(stopwords)实现数据的去噪。

去噪后的Flickr文本数据为2086条，Foursquare文本数据为3331条，对这些数据进行LDA处理，得到初始文本特征向量集T＝{t¹,t²,...,t^S}，定义为文本特征库TFD(TextFeature Database)。

3)在多模态媒体数据库MD(Multimedia Database)中，采用颜色特征(如参考文献[9])对每个地点的多媒体图像数据Bⁱ，其中i∈{1,2,...,S}进行处理，再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集P；

对图像数据进行去噪同样是将与地点相关性小的图像滤掉。针对Flickr和Foursquare数据的不同，要分别对其进行处理。

Foursquare：Foursquare上的图像是根据用户上传照片时所处的地理位置决定的，所以按道理来说，来自同一地点的图像应该都反映相同的场景。比如同一地点的白天和黑夜的图像在颜色方面有很大的不同，这两张图像虽然差异很大，但反映的是同一地点的场景。我们设定来自同一地点的图像在特征空间具有一致性或者类似性，利用上述假设就可以滤除图像噪声。具体处理过程如下：

根据地点图像经常出现的几种特征将图像大概分为几类，本算法使用K均值聚类将图像分为5类；由于每一类的图像特征对地点的描述程度不同、数量不同，所以应该对每类图像赋予不同的权值。设定每类的初始权重为c＝1,2,...,U,U是生成的类别的个数，n_c是第c个子类包含的图像的数目，N是聚类的所有图像的数目，w_c是每个子类所占的权重。然后采用随机游走算法不断对子类的权重进行更新，收敛后得到的结果即为最终的子类所占权重。我们选择权重最大的前3个子类作为训练数据，剩余的2个子类被作为噪声滤除掉。

Flickr：Flickr中的图像都有文本标注，所以可以直接计算文本标注和地点主题的相似度，滤除不相关图像。与Foursquare的文本预处理相同，需要将Flickr的文本标注中一些与地点无关的单词滤掉，比如‘Nikon’，‘Canon’等。在步骤202中已经提取了每个地点的LDA主题模型后，选择Z个主题用来描述地点θ＝{θ1,θ₂,...,θ_Z}。文本标注和主题之间的相似度S(W,Topic)取所有文本标注单词和主题之间相似度的最大值。

去噪后的Flickr图像数据为2086条，Foursquare图像数据为5536条，不失一般性的，对去噪后的图像特征进行LDA处理，得到初始图像特征向量集P＝{p¹,p²,...,p^S}，定义为图像特征库PFD(Picture Feature Database)。

4)将所有地点的初始文本特征向量集T＝{t¹,t²,...,tⁱ,...,t^S}和初始图像特征向量集P＝{p¹,p²,...,pⁱ,...,p^S}进行集合，将其定义为多模态媒体数据特征库；

去噪后的媒体数据示意图如图2。

5)以多模态媒体数据特征库作为模型的输入，初始化模型参数，构建多模态媒体数据图结构，得到多模态媒体数据在同一空间下的特征向量集

下面详细介绍得到构建多模态媒体数据图结构的具体过程：

我们将需要处理的数据分为两类：图像数据和文本数据。所以可以先将图像数据和文本数据分开处理，再进行统一整合。

其中X₁代表包含n₀张具有文本标签的Flickr图像数据和n₁张不包含任何文本信息的Foursquare图像数据的特征矩阵。在上式中N₁＝n₀+n₁，即总的图像数据的数量，m₁代表图像的空间视觉特征维度。

Flickr的图像数据和文本数据的数量都为n₀的原因是Flickr这个社交网络的特点是每张图像都有一条文本标签。

将Foursquare和Flickr的图像和文本数据分别结合起来的目的是赋予来自不同社交网络的相同模式的数据相同的维数以便于计算，然后通过形成的数据特征矩阵的因子分解得到图像数据的特征映射和文本数据的特征映射在这两个变量中d为统一特征空间下的特征维数。具体实现过程如下：

设定和其中U₁是X₁转换到V₁的近似的过渡矩阵，同样地，U₂是X₂转换到V₂的近似的过渡矩阵。为了得到图像数据和文本数据的特征映射，就要将不同特征空间下的图像特征和文本特征转换到相同的特征空间下，通过上述方法这些数据可以保持一致性和流形特征。内部数据的一致性代表图像和相关文本文档(比如图像和文本标签)应该具有类似的或者是相同的特征映射，保持原有的特性代表图像和文本应当具有相同的特征映射。

如上所述，我们首先对得到n₀张具有标签的Flickr图像数据和对应的文本数据进行处理，由这些数据得到的图像数据和文本数据的特征映射的之间应当比较接近。因此我们定义了两个选择矩阵

在上式中I为单位矩阵，O为零矩阵。由于P₁中前n₀列为单位矩阵，所以对应Flickr的相关图像数据。由于P₂中前n₀列为单位矩阵，所以对应Flickr的相关文本数据。这些选择矩阵能够分别从V₁和V₂中得到n₀张图像的特征映射和n₀条文本的特征映射。P₁V₁和Flickr的n₀张图像的特征映射相对应，P₂V₂和Flickr的n₀条文本标签的特征映射相对应。Flickr中具有文本标签的图像可以被当成联系Foursquare图像和文本文件间语义缺口的桥梁。为了使内部媒体数据之间具有一致性，不仅需要使用选择矩阵，还需要对下式极小化。

Tr((P₁V₁-P₂V₂)^TD(P₁V₁-P₂V₂))

上式中，Tr(·)是矩阵的轨迹，即取对角线上的元素。是对角元素为较大的正数常量的对角矩阵。P₁V₁-P₂V₂代表具有相关性的Flickr的图像和文本的特征映射之间的差值。当V₁和V₂的值最小时，具有一致性和语义相似性的文本数据和图像数据将会有类似的特征映射。

特征映射可以保护数据的局部结构信息比如流形特征。为了达到上述目的，我们定义一个图像类同矩阵和文本类同矩阵(A₁)_es代表图像e和图像s的相似度，(A₂)_es代表文本文件e和文本文件s的相似度。

根据上述的流形假设，如果两个数据点在固定的数据分布几何学中非常接近，那么这两个点的特征映射之间也非常接近。就图像而言，我们将其视为一个最小限度问题：

上式中(V₁)_e为图像e的特征映射，(V₁)_s为图像s的特征映射，L₁是一个图像拉普拉斯算子。

我们对下面的函数进行最小化来生成特征映射：

上式中是实际图像数据X₁和经过跨域转换后的图像数据之间的误差，Tr((P₁V₁-P₂V₂)^TD(P₁V₁-P₂V₂))是V₁和V₂的最小化问题，是图像和图像之间的相似度误差。

由于上式中存在四个变量U₁、U₂、V₁和V₂，所以该方程存在非球面的最优化问题。但是当固定其他三个矩阵变量时，对另一个矩阵变量来说该方程为球面的最优化问题。因此，可以通过迭代的方式来解决上式的最优化问题。特别地，通过固定U₁、U₂和V₂，我们可以通过求导得到因此，当的值等于零时，上式存在U₁为变量时的极小值，我们可以得到U₁的值的更新，如下式所示：

U₂的值也可以通过相似的方式得到更新。

通过固定U₁、U₂和V₂，我们可以通过求导得到因此，当的值等于零时，特征映射方程存在V₁为变量时的极小值，我们也可以得到V₁的更新值：

将求导公式简化为西尔维斯特方程AV₁+V₁B＝C，在本式中

若要想得到V₁的更新值，求导公式必须要有唯一解。当且仅当固有值A和B各自满足：对所有的i和j，p_i+q_j≠0，其中p_i和q_j分别代表A和B的固有值。经过计算可以发现A是对称的半正定矩阵之和，I是一个正定值。同样地，如果γ为足够大的值，A就为一正定矩阵并且对所有的i来说都有p_i>0。我们同样注意到B是半正定的格拉姆矩阵。同样地，对所有的j来说都有q_j>0。因此，p_i和q_j满足上述的p_i+q_j≠0这一条件并且通过解西尔维斯特方程可以得到特征映射映射最优化的唯一解。

V₂的更新值也可以通过相同的方法得到。

数据经过多模态媒体数据图后得到最终的特征向量集合其中特征向量的维数分别为10，50和100，示例图如图3；

6)对得到的向量集进行K均值聚类，得到1000个基于地点的多模态媒体数据主题模型O＝{o₁,o₂,...,o₁₀₀₀}，基于该主题模型计算图像特征和文本特征之间的欧氏距离实现对多媒体图像数据的文本标注。

将多模态媒体数据映射到同一特征空间后文本数据和图像数据之间就具有一定的联系，不失一般性的，采用欧氏距离(如参考文献[10])为例，可以得到与图像数据最相似的文本数据，从而实现多媒体图像数据的文本标注，示例图如图4。

实验

本实验使用的数据库为由步骤1)构建的多模态媒体数据库MD。这是来自两个社交网络的多模态媒体数据库，共包含来自41个地点的2086条Flickr图像数据，2086条Flickr文本数据，5536条Foursquare图像数据，3331条Foursquare文本数据。

不失一般性的，采用三个评估标准：每一类中图像和文本的一致性；文本对图像描述的完整性；用户对分类结果的满意度。为了评估的有效性，选择15人，每人在10维、50维、100维的文件夹中分别随机抽取20类，对每一类中的内容进行评判，形成用户评判结果的百分比并求得平均值。

用户对图像标注的评判是对算法性能的另一种评估。图像标注的结果中每一张图像都有其对应的文本描述。通过图像和文本的匹配度作出对标注结果的评判。由于图像标注中图像来自Foursquare，文本则来自Flickr和Foursquare，并且有的文本内容为空，所以会导致文本标注的不完整性。在评估时，将评估标准分为三个等级，2表示文本基本完整描述了图像，1表示文本中有些单词与图像相关，0为其他情况。

实验结果

多模态媒体数据库MD中主题模型和图片评估的评估结果分别如图5，6所示。评估结果越高，性能越优良。

由图5可知，本方法中最终的特征向量集合维数为100时结果最好，并且由图6可知，当最终的特征向量为100维时图片标注的效果也是最好的。这是由于特征维数越大能够描述的图片的信息就越多，分类效果就越好。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献：

[1]庄越挺，潘云鹤，吴飞，等.网上多媒体信息分析与检索[M].北京：清华大学出版社，2002：4-20.

[2]Salton G，Fox E A，Wu H.Extended Boolean Information Retrieval[J].Commun.ACM，1983，26(11)：1022–1036.

[3]张治国.中文文本分类反馈学习研究[D].西安：西安电子科技大学，2009.

[4]Felzenszwalb P，Girshick R，McAllester D et al.Object Detection withDiscriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal MachIntell,2010,32(9)：1627–1645.

[5]Belani A.Vandalism Detection in Wikipedia:a Bag-of-WordsClassifier Approach[J].CoRR,2010,abs/1001.0700.

[6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montréal:NIPS,2001.32–439.

[7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.

[8]郑伯川，彭维，张引，等.3D模型检索技术综述[J].计算机辅助设计与图形学学报，2004，16(7)：873-881.

[9]Stricker M，Orengo M.Similarity of Color Images[C].Nagova，Japan：1995.381–392.[10]Bradley P S,Reina C,Fayyad U M.Clustering Very LargeDatabases Using EM Mixture Models[C].Barcelona:ICPR,2000.198–208.

Claims

1.一种基于地点的多模态媒体数据主题提取模型，其特征在于，包括以下步骤：

其中：

λ₁、λ₂、μ、α₁、α₂和γ为模型参数；

其中d为要得到的特征映射的维度；

(3)分别固定U₁、U₂、V₁和V₂并求导，不断重复求导过程直到误差值关系式具有设定的最小值，此时的V₁和V₂即为多模态媒体数据的特征映射，即不同模态数据在同一特征空间下的特征向量集；