CN105893573B - 一种基于地点的多模态媒体数据主题提取模型 - Google Patents

一种基于地点的多模态媒体数据主题提取模型 Download PDF

Info

Publication number
CN105893573B
CN105893573B CN201610202586.9A CN201610202586A CN105893573B CN 105893573 B CN105893573 B CN 105893573B CN 201610202586 A CN201610202586 A CN 201610202586A CN 105893573 B CN105893573 B CN 105893573B
Authority
CN
China
Prior art keywords
text
data
eigenvectors
image
media data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610202586.9A
Other languages
English (en)
Other versions
CN105893573A (zh
Inventor
刘安安
师阳
聂为之
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610202586.9A priority Critical patent/CN105893573B/zh
Publication of CN105893573A publication Critical patent/CN105893573A/zh
Application granted granted Critical
Publication of CN105893573B publication Critical patent/CN105893573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/487Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于地点的多模态媒体数据主题提取模型:将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库;对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取,得到初始文本特征向量集;采用颜色特征对每个地点的多媒体图像数据进行处理得到初始图像特征向量集;将所有地点的初始文本特征向量集和初始图像特征向量集进行集合定义为多模态媒体数据特征库;得到多模态媒体数据在同一空间下的特征向量集;得到基于地点的多模态媒体数据主题模型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本标注。本发明避免了多媒体数据的模态单一性,实现了基于地点的多模态媒体数据的主题提取。

Description

一种基于地点的多模态媒体数据主题提取模型
技术领域
本发明涉及一种多模态媒体数据主题提取模型。特别是涉及一种基于地点的多模态媒体数据主题提取模型。
背景技术
现如今人类生活已经离不开网络,人们可以通过多种多样的社交软件了解身边发生的大事小事。随着信息技术的日益发展,多媒体数据的表现形式也由单一的文本逐渐丰富为视频、音频、动画和图形等,随之而来的就是多媒体数据正呈现海量增长的趋势。如何对这些媒体类型的信息进行快速准确的检索和分类已经成为人们迫切的需要(如参考文献[1]),并吸引了众多科研工作者的目光,多媒体数据信息检索顺利成章的成为了当下的研究热点。
多媒体信息检索与分类是基于数字图像处理、计算机视觉和机器学习等技术,借助于计算机处理技术,对数据库中的多媒体信息进行分析比较的过程。目前,多媒体信息检索研究主要分为两类:基于文本方式的信息检索、基于内容的多媒体信息检索技术。基于文本方式的信息检索方法简单快速,但已经无法满足现如今多媒体数据检索的需要(如参考文献[2])。基于内容的多媒体信息检索方法提取多媒体数据的语义信息形成数据的特征向量,通过找到最大相似度的特征向量进而完成检索(如参考文献[3])。但是多媒体数据的语义层次越高,检索所需的计算就越复杂。两类方法各有优劣,但由于基于内容的多媒体信息检索技术适用于如今多样的多媒体数据的形式,因而得到了广泛应用[4]
多媒体数据的主题提取目前面临的主要挑战为:多媒体数据具有多模态特性,而且社交网络的多样性导致了多媒体数据之间的联系也具有多样性,如今大多数方法只能处理单模态的多媒体数据,限制了实际应用范围。
发明内容
本发明所要解决的技术问题是,提供一种实现了多媒体数据在不同模态和不同社交网络上的跨域学习,提高了多模态媒体数据主题提取准确度的基于地点的多模态媒体数据主题提取模型
本发明所采用的技术方案是:一种基于地点的多模态媒体数据主题提取模型,包括以下步骤:
1)采集各个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数据集,将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库;
2)在多模态媒体数据库中,对每个地点的文本数据进行自然语言处理后采用词袋模型得到文本中前1000~1500个单词,对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取,去噪后得到初始文本特征向量集
其中N2为初始文本特征向量集中文本数据的数目,m2为特征的维度;
3)在多模态媒体数据库中,采用颜色特征对每个地点的多媒体图像数据进行处理,再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集
其中N1为初始图像特征向量集中图像数据的数目,m1为特征的维度;
4)将所有地点的初始文本特征向量集和初始图像特征向量集进行集合,将其定义为多模态媒体数据特征库;
5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体数据图结构,得到多模态媒体数据在同一空间下的特征向量集;
6)对得到的特征向量集进行K均值聚类,得到基于地点的多模态媒体数据主题模型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本标注。
步骤5)包括:
(1)根据初始图像特征向量集和初始文本特征向量集得到多模态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式:
其中:
设定其中U1是X1转换到V1的近似的过渡矩阵,U2是X2转换到V2的近似的过渡矩阵;
I为单位矩阵,O为零矩阵,n0为Flickr图像数据的数量,n1为Foursquare图像数据的数量,n2为Foursquare文本数据的数量,D为对角矩阵;
(A1)es代表图像e和图像s的相似度,(V1)e为图像e的跨域特征,(V1)s为图像s的跨域特征,L1是拉普拉斯算子;
(A2)es代表文本e和文本s的相似度,(V2)e为文本e的跨域特征,(V2)s为文本s的跨域特征,L2是拉普拉斯算子;
λ1、λ2、μ、α1、α2和γ为模型参数;
其中d为要得到的特征映射的维度;
(2)对误差值关系式中的λ1、λ2、μ、α1、α2、V1和V2初始化;
(3)分别固定U1、U2、V1和V2并求导,不断重复求导过程直到误差值关系式具有设定的最小值,此时的V1和V2即为多模态媒体数据的特征映射,即不同模态数据在同一特征空间下的特征向量集。
本发明的一种基于地点的多模态媒体数据主题提取模型,具有的有益效果是:
1、避免了多媒体数据的模态单一性,可以应用于多种模态的多媒体数据库,即当多媒体数据库中既有文本数据又有图像数据时,本方法依然可行;
2、采用基于跨域学习的多媒体主题提取模型,通过某一社交网络中多模态媒体数据之间的联系将其他多模态媒体数据映射到同一特征空间下,实现了基于地点的多模态媒体数据的主题提取;
3、结合使用上述模型对图像数据进行文本标注,建立了图像数据和文本数据的联系,实现了该模型的应用。
附图说明
图1是本发明基于地点的多模态媒体数据主题提取模型的流程图;
图2a是雅虎网站(Flickr)数据样例,其文本标注为“星巴克”;
图2b是四方网站(Foursquare)数据样例,其文本标注为“海湾风景”;
图2c是四方网站(Foursquare)数据样例,其文本标注为“房间浴室”;
图3a是特征维数为10维的主题模型样例,文本标注为“舒服的房间”;
图3b是特征维数为100维的主题模型样例,文本标注为“沙滩”;
图3c是特征维数为1000维的主题模型样例,文本标注为“周末夜景”;
图4a是特征维数为10维的图片标注样例,文本标注为“灯光”;
图4b是特征维数为100维的图片标注样例,文本标注为“聚会”;
图4c是特征维数为1000维的图片标注样例,文本标注为“海鲜食品”;
图5是基于地点的多模态媒体数据主题模型的评估结果;
图6是图片标注的评估结果。
具体实施方式
下面结合实施例和附图对本发明的一种基于地点的多模态媒体数据主题提取模型做出详细说明。
研究表明:多模态媒体数据的特征映射分布情况与其数据本身的故有特征有非常紧密的联系,可以通过最优化主题模型得到同一特征空间下的多模态媒体数据特征向量进而计算数据之间的关系。本发明提出了一种基于地点的多模态媒体数据主题提取模型。
如图1所示,本发明的一种基于地点的多模态媒体数据主题提取模型,包括以下步骤:
1)采集各个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数据集,将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库;
2)在多模态媒体数据库中,对每个地点的文本数据进行自然语言处理后采用词袋模型(如参考文献[5])得到文本中前1000~1500个单词,对经过自然语言处理后的文本数据进行三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA(如参考文献[6]))的提取,去噪后得到初始文本特征向量集;
3)在多模态媒体数据库中,采用颜色特征对每个地点的多媒体图像数据进行处理,再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集;
4)将所有地点的初始文本特征向量集和初始图像特征向量集进行集合,将其定义为多模态媒体数据特征库;
5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体数据图结构,得到多模态媒体数据在同一空间下的特征向量集;包括:
(1)根据初始图像特征向量集和初始文本特征向量集得到多模态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式:
其中:
设定其中U1是X1转换到V1的近似的过渡矩阵,U2是X2转换到V2的近似的过渡矩阵;
I为单位矩阵,O为零矩阵,D为对角矩阵;
(A1)es代表图像e和图像s的相似度,(V1)e为图像e的特征映射,(V1)s为图像s的特征映射,L1是拉普拉斯算子;
(A2)es代表文本e和文本s的相似度,(V2)e为文本e的特征映射,(V2)s为文本s的特征映射,L2是拉普拉斯算子;
λ12,μ,α12,γ为模型参数;
其中d为要得到的特征映射的维度;
(2)对误差值关系式中的λ1、λ2、μ、α1、α2、V1和V2初始化;
(3)分别固定U1、U2、V1和V2并求导,不断重复求导过程直到误差值关系式具有设定的最小值,此时的V1和V2即为多模态媒体数据的特征映射,即不同模态数据在同一特征空间下的特征向量集。
6)对得到的特征向量集进行K均值聚类(如参考文献[7]),得到基于地点的多模态媒体数据主题模型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本标注。
下面结合具体的计算公式,对实施例1中的方案进行详细的介绍,详见下文描述:
1)采集S个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数据集m,将所有地点的多模态媒体数据集和文本数据总体M={m1,m2,...,mS}定义为基于地点的多模态媒体数据库MD(Multimedia Database);
本发明实施例首先采集来自S个地点的雅虎网站(Flickr)和四方网站(Foursquare)媒体数据(本例中S=41),过程如下:
本发明是基于地点的多模态媒体数据主题提取,要收集数据的相关地点要比较热门,所以我们要选择比较受欢迎的地点。Foursquare中既有图像数据又有文本数据而且它们在数量和内容上基本没有联系,有的地点主页中用户上传的信息较少不具有代表性,所以在选择地点时要满足三个条件:(1)拥有的用户数量在1000以上;(2)地点主页中用户上传的图像数目大于1000;(3)用户对地点的相关评论在200条以上。由此,我们选择了41个比较受欢迎的地点。每个地点中所有的文本信息看成一个文本文档,所以我们收集到的Foursquare数据包含41个文本文档和10631张图像。
辅助域的数据主要从Flickr中获取,Flickr作为一个专业级图像分享网站,提供的图像数据包含丰富的信息,包括标注信息和图像的地理信息(如参考文献[8])。在Flickr数据的收集中,可以通过一些图像标注候选词汇作为搜索关键词在Flickr平台上收集图像。对这41个地点我们均选择搜集到的前60张图像,共2460张。
将S个地点的多模态媒体数据集合并得到总初始视图集M={m1,m2,...,mS},将其定义为基于地点的多模态媒体数据库MD;
2)在多模态媒体数据库中,采用词袋模型对每个地点的文本数据Li,其中i∈{1,2,...,S},进行自然语言处理,得到文本中前1000~1500个单词,对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取,去噪后得到初始文本特征向量集;
Flickr是多模态媒体数据结构图中的桥梁,所以如果Flickr的图像标注信息与主题相差很大的话会严重影响多模态媒体数据图结构的形成,这就主要需要对Flickr的文本信息进行去噪。我们将收集到的每个地点的所有文本视为一个文本文件,这些文件经过LDA处理以后生成了一个文本主题模型R={r1,r2,...,rn},第t个主题rt有j个单词 代表第t个主题的第k个单词。经过计算Flickr的文本和所有的主题的相似度,去掉相似度较低的Flickr文本噪声。Flickr的图像F和每个文本主题r的相似度计算公式为:
是Flickr的图像F的文本标注的第a个单词,是主题t的单词集合中的第k个单词。是两个单词之间的相似度,是单词出现在主题r的概率,相似度取两单词间的最大值。如果相似度很低,就将该文本和对应的图像滤掉,提高Flickr数据对地点描述的精确性。
对Foursquare的文本数据而言,可以通过删除掉文本中的冗杂单词(stopwords)实现数据的去噪。
去噪后的Flickr文本数据为2086条,Foursquare文本数据为3331条,对这些数据进行LDA处理,得到初始文本特征向量集T={t1,t2,...,tS},定义为文本特征库TFD(TextFeature Database)。
3)在多模态媒体数据库MD(Multimedia Database)中,采用颜色特征(如参考文献[9])对每个地点的多媒体图像数据Bi,其中i∈{1,2,...,S}进行处理,再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集P;
对图像数据进行去噪同样是将与地点相关性小的图像滤掉。针对Flickr和Foursquare数据的不同,要分别对其进行处理。
Foursquare:Foursquare上的图像是根据用户上传照片时所处的地理位置决定的,所以按道理来说,来自同一地点的图像应该都反映相同的场景。比如同一地点的白天和黑夜的图像在颜色方面有很大的不同,这两张图像虽然差异很大,但反映的是同一地点的场景。我们设定来自同一地点的图像在特征空间具有一致性或者类似性,利用上述假设就可以滤除图像噪声。具体处理过程如下:
根据地点图像经常出现的几种特征将图像大概分为几类,本算法使用K均值聚类将图像分为5类;由于每一类的图像特征对地点的描述程度不同、数量不同,所以应该对每类图像赋予不同的权值。设定每类的初始权重为c=1,2,...,U,U是生成的类别的个数,nc是第c个子类包含的图像的数目,N是聚类的所有图像的数目,wc是每个子类所占的权重。然后采用随机游走算法不断对子类的权重进行更新,收敛后得到的结果即为最终的子类所占权重。我们选择权重最大的前3个子类作为训练数据,剩余的2个子类被作为噪声滤除掉。
Flickr:Flickr中的图像都有文本标注,所以可以直接计算文本标注和地点主题的相似度,滤除不相关图像。与Foursquare的文本预处理相同,需要将Flickr的文本标注中一些与地点无关的单词滤掉,比如‘Nikon’,‘Canon’等。在步骤202中已经提取了每个地点的LDA主题模型后,选择Z个主题用来描述地点θ={θ1,θ2,...,θZ}。文本标注和主题之间的相似度S(W,Topic)取所有文本标注单词和主题之间相似度的最大值。
去噪后的Flickr图像数据为2086条,Foursquare图像数据为5536条,不失一般性的,对去噪后的图像特征进行LDA处理,得到初始图像特征向量集P={p1,p2,...,pS},定义为图像特征库PFD(Picture Feature Database)。
4)将所有地点的初始文本特征向量集T={t1,t2,...,ti,...,tS}和初始图像特征向量集P={p1,p2,...,pi,...,pS}进行集合,将其定义为多模态媒体数据特征库;
去噪后的媒体数据示意图如图2。
5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体数据图结构,得到多模态媒体数据在同一空间下的特征向量集
下面详细介绍得到构建多模态媒体数据图结构的具体过程:
我们将需要处理的数据分为两类:图像数据和文本数据。所以可以先将图像数据和文本数据分开处理,再进行统一整合。
其中X1代表包含n0张具有文本标签的Flickr图像数据和n1张不包含任何文本信息的Foursquare图像数据的特征矩阵。在上式中N1=n0+n1,即总的图像数据的数量,m1代表图像的空间视觉特征维度。
Flickr的图像数据和文本数据的数量都为n0的原因是Flickr这个社交网络的特点是每张图像都有一条文本标签。
将Foursquare和Flickr的图像和文本数据分别结合起来的目的是赋予来自不同社交网络的相同模式的数据相同的维数以便于计算,然后通过形成的数据特征矩阵的因子分解得到图像数据的特征映射和文本数据的特征映射在这两个变量中d为统一特征空间下的特征维数。具体实现过程如下:
设定其中U1是X1转换到V1的近似的过渡矩阵,同样地,U2是X2转换到V2的近似的过渡矩阵。为了得到图像数据和文本数据的特征映射,就要将不同特征空间下的图像特征和文本特征转换到相同的特征空间下,通过上述方法这些数据可以保持一致性和流形特征。内部数据的一致性代表图像和相关文本文档(比如图像和文本标签)应该具有类似的或者是相同的特征映射,保持原有的特性代表图像和文本应当具有相同的特征映射。
如上所述,我们首先对得到n0张具有标签的Flickr图像数据和对应的文本数据进行处理,由这些数据得到的图像数据和文本数据的特征映射的之间应当比较接近。因此我们定义了两个选择矩阵
在上式中I为单位矩阵,O为零矩阵。由于P1中前n0列为单位矩阵,所以对应Flickr的相关图像数据。由于P2中前n0列为单位矩阵,所以对应Flickr的相关文本数据。这些选择矩阵能够分别从V1和V2中得到n0张图像的特征映射和n0条文本的特征映射。P1V1和Flickr的n0张图像的特征映射相对应,P2V2和Flickr的n0条文本标签的特征映射相对应。Flickr中具有文本标签的图像可以被当成联系Foursquare图像和文本文件间语义缺口的桥梁。为了使内部媒体数据之间具有一致性,不仅需要使用选择矩阵,还需要对下式极小化。
Tr((P1V1-P2V2)TD(P1V1-P2V2))
上式中,Tr(·)是矩阵的轨迹,即取对角线上的元素。是对角元素为较大的正数常量的对角矩阵。P1V1-P2V2代表具有相关性的Flickr的图像和文本的特征映射之间的差值。当V1和V2的值最小时,具有一致性和语义相似性的文本数据和图像数据将会有类似的特征映射。
特征映射可以保护数据的局部结构信息比如流形特征。为了达到上述目的,我们定义一个图像类同矩阵和文本类同矩阵(A1)es代表图像e和图像s的相似度,(A2)es代表文本文件e和文本文件s的相似度。
根据上述的流形假设,如果两个数据点在固定的数据分布几何学中非常接近,那么这两个点的特征映射之间也非常接近。就图像而言,我们将其视为一个最小限度问题:
上式中(V1)e为图像e的特征映射,(V1)s为图像s的特征映射,L1是一个图像拉普拉斯算子。
我们对下面的函数进行最小化来生成特征映射:
上式中是实际图像数据X1和经过跨域转换后的图像数据之间的误差,Tr((P1V1-P2V2)TD(P1V1-P2V2))是V1和V2的最小化问题,是图像和图像之间的相似度误差。
由于上式中存在四个变量U1、U2、V1和V2,所以该方程存在非球面的最优化问题。但是当固定其他三个矩阵变量时,对另一个矩阵变量来说该方程为球面的最优化问题。因此,可以通过迭代的方式来解决上式的最优化问题。特别地,通过固定U1、U2和V2,我们可以通过求导得到因此,当的值等于零时,上式存在U1为变量时的极小值,我们可以得到U1的值的更新,如下式所示:
U2的值也可以通过相似的方式得到更新。
通过固定U1、U2和V2,我们可以通过求导得到因此,当的值等于零时,特征映射方程存在V1为变量时的极小值,我们也可以得到V1的更新值:
将求导公式简化为西尔维斯特方程AV1+V1B=C,在本式中
若要想得到V1的更新值,求导公式必须要有唯一解。当且仅当固有值A和B各自满足:对所有的i和j,pi+qj≠0,其中pi和qj分别代表A和B的固有值。经过计算可以发现A是对称的半正定矩阵之和,I是一个正定值。同样地,如果γ为足够大的值,A就为一正定矩阵并且对所有的i来说都有pi>0。我们同样注意到B是半正定的格拉姆矩阵。同样地,对所有的j来说都有qj>0。因此,pi和qj满足上述的pi+qj≠0这一条件并且通过解西尔维斯特方程可以得到特征映射映射最优化的唯一解。
V2的更新值也可以通过相同的方法得到。
数据经过多模态媒体数据图后得到最终的特征向量集合其中特征向量的维数分别为10,50和100,示例图如图3;
6)对得到的向量集进行K均值聚类,得到1000个基于地点的多模态媒体数据主题模型O={o1,o2,...,o1000},基于该主题模型计算图像特征和文本特征之间的欧氏距离实现对多媒体图像数据的文本标注。
将多模态媒体数据映射到同一特征空间后文本数据和图像数据之间就具有一定的联系,不失一般性的,采用欧氏距离(如参考文献[10])为例,可以得到与图像数据最相似的文本数据,从而实现多媒体图像数据的文本标注,示例图如图4。
实验
本实验使用的数据库为由步骤1)构建的多模态媒体数据库MD。这是来自两个社交网络的多模态媒体数据库,共包含来自41个地点的2086条Flickr图像数据,2086条Flickr文本数据,5536条Foursquare图像数据,3331条Foursquare文本数据。
不失一般性的,采用三个评估标准:每一类中图像和文本的一致性;文本对图像描述的完整性;用户对分类结果的满意度。为了评估的有效性,选择15人,每人在10维、50维、100维的文件夹中分别随机抽取20类,对每一类中的内容进行评判,形成用户评判结果的百分比并求得平均值。
用户对图像标注的评判是对算法性能的另一种评估。图像标注的结果中每一张图像都有其对应的文本描述。通过图像和文本的匹配度作出对标注结果的评判。由于图像标注中图像来自Foursquare,文本则来自Flickr和Foursquare,并且有的文本内容为空,所以会导致文本标注的不完整性。在评估时,将评估标准分为三个等级,2表示文本基本完整描述了图像,1表示文本中有些单词与图像相关,0为其他情况。
实验结果
多模态媒体数据库MD中主题模型和图片评估的评估结果分别如图5,6所示。评估结果越高,性能越优良。
由图5可知,本方法中最终的特征向量集合维数为100时结果最好,并且由图6可知,当最终的特征向量为100维时图片标注的效果也是最好的。这是由于特征维数越大能够描述的图片的信息就越多,分类效果就越好。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
参考文献:
[1]庄越挺,潘云鹤,吴飞,等.网上多媒体信息分析与检索[M].北京:清华大学出版社,2002:4-20.
[2]Salton G,Fox E A,Wu H.Extended Boolean Information Retrieval[J].Commun.ACM,1983,26(11):1022–1036.
[3]张治国.中文文本分类反馈学习研究[D].西安:西安电子科技大学,2009.
[4]Felzenszwalb P,Girshick R,McAllester D et al.Object Detection withDiscriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal MachIntell,2010,32(9):1627–1645.
[5]Belani A.Vandalism Detection in Wikipedia:a Bag-of-WordsClassifier Approach[J].CoRR,2010,abs/1001.0700.
[6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montréal:NIPS,2001.32–439.
[7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.
[8]郑伯川,彭维,张引,等.3D模型检索技术综述[J].计算机辅助设计与图形学学报,2004,16(7):873-881.
[9]Stricker M,Orengo M.Similarity of Color Images[C].Nagova,Japan:1995.381–392.[10]Bradley P S,Reina C,Fayyad U M.Clustering Very LargeDatabases Using EM Mixture Models[C].Barcelona:ICPR,2000.198–208.

Claims (1)

1.一种基于地点的多模态媒体数据主题提取模型,其特征在于,包括以下步骤:
1)采集各个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数据集,将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库;
2)在多模态媒体数据库中,对每个地点的文本数据进行自然语言处理后采用词袋模型得到文本中前1000~1500个单词,对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取,去噪后得到初始文本特征向量集
其中N2为初始文本特征向量集中文本数据的数目,m2为特征的维度;
3)在多模态媒体数据库中,采用颜色特征对每个地点的多媒体图像数据进行处理,再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集
其中N1为初始图像特征向量集中图像数据的数目,m1为特征的维度;
4)将所有地点的初始文本特征向量集和初始图像特征向量集进行集合,将其定义为多模态媒体数据特征库;
5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体数据图结构,得到多模态媒体数据在同一空间下的特征向量集;包括:
(1)根据初始图像特征向量集和初始文本特征向量集得到多模态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式:
其中:
设定其中U1是X1转换到V1的近似的过渡矩阵,U2是X2转换到V2的近似的过渡矩阵;
I为单位矩阵,O为零矩阵,n0为Flickr图像数据的数量,n1为Foursquare图像数据的数量,n2为Foursquare文本数据的数量,D为对角矩阵;
(A1)es代表图像e和图像s的相似度,(V1)e为图像e的跨域特征,(V1)s为图像s的跨域特征,L1是拉普拉斯算子;
(A2)es代表文本e和文本s的相似度,(V2)e为文本e的跨域特征,(V2)s为文本s的跨域特征,L2是拉普拉斯算子;
λ1、λ2、μ、α1、α2和γ为模型参数;
其中d为要得到的特征映射的维度;
(2)对误差值关系式中的λ1、λ2、μ、α1、α2、V1和V2初始化;
(3)分别固定U1、U2、V1和V2并求导,不断重复求导过程直到误差值关系式具有设定的最小值,此时的V1和V2即为多模态媒体数据的特征映射,即不同模态数据在同一特征空间下的特征向量集;
6)对得到的特征向量集进行K均值聚类,得到基于地点的多模态媒体数据主题模型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本标注。
CN201610202586.9A 2016-03-31 2016-03-31 一种基于地点的多模态媒体数据主题提取模型 Active CN105893573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202586.9A CN105893573B (zh) 2016-03-31 2016-03-31 一种基于地点的多模态媒体数据主题提取模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202586.9A CN105893573B (zh) 2016-03-31 2016-03-31 一种基于地点的多模态媒体数据主题提取模型

Publications (2)

Publication Number Publication Date
CN105893573A CN105893573A (zh) 2016-08-24
CN105893573B true CN105893573B (zh) 2019-07-23

Family

ID=57011957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202586.9A Active CN105893573B (zh) 2016-03-31 2016-03-31 一种基于地点的多模态媒体数据主题提取模型

Country Status (1)

Country Link
CN (1) CN105893573B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及系统
CN110599557B (zh) 2017-08-30 2022-11-18 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN110019675B (zh) * 2017-12-01 2021-10-15 北京搜狗科技发展有限公司 一种关键词提取的方法及装置
CN108399227B (zh) * 2018-02-12 2020-09-01 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质
CN109189959B (zh) * 2018-09-06 2020-11-10 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置
CN109740471B (zh) * 2018-12-24 2021-06-22 中国科学院西安光学精密机械研究所 基于联合潜在语义嵌入的遥感图像描述方法
CN114357263A (zh) * 2021-12-10 2022-04-15 阿里巴巴(中国)有限公司 目标对象的多模态信息的处理方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315663A (zh) * 2008-06-25 2008-12-03 中国人民解放军国防科学技术大学 一种基于区域潜在语义特征的自然场景图像分类方法
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315663A (zh) * 2008-06-25 2008-12-03 中国人民解放军国防科学技术大学 一种基于区域潜在语义特征的自然场景图像分类方法
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多模态媒体数据分析关键技术研究;聂为之;《万方数据知识服务平台》;20151203;第9-28页、第63-78页

Also Published As

Publication number Publication date
CN105893573A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893573B (zh) 一种基于地点的多模态媒体数据主题提取模型
US11074477B2 (en) Multi-dimensional realization of visual content of an image collection
Fan et al. Multi-level annotation of natural scenes using dominant image components and semantic concepts
Gao et al. Web image clustering by consistent utilization of visual features and surrounding texts
Fan et al. Hierarchical classification for automatic image annotation
US20160042252A1 (en) Multi-Dimensional Realization of Visual Content of an Image Collection
CN101996191B (zh) 一种二维跨媒体元搜索方法和系统
Chen et al. Research on personalized recommendation hybrid algorithm for interactive experience equipment
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
Wu et al. MvsGCN: A novel graph convolutional network for multi-video summarization
Zhang et al. Searching visual instances with topology checking and context modeling
Pedronette et al. Unsupervised rank diffusion for content-based image retrieval
Yang et al. Identifying points of interest using heterogeneous features
Gururaj et al. Content based image retrieval system implementation through neural network
Tang et al. An efficient concept detection system via sparse ensemble learning
Su et al. Semantically guided projection for zero-shot 3D model classification and retrieval
Yap et al. Efficient mobile landmark recognition based on saliency-aware scalable vocabulary tree
Zeng et al. 3-D object retrieval using topic model
Liu et al. A method of measuring the semantic gap in image retrieval: Using the information theory
Shekhar et al. An object centric image retrieval framework using multi-agent model for retrieving non-redundant web images
Wang et al. Visual saliency detection for RGB-D images under a Bayesian framework
Westman et al. Development and evaluation of a multifaceted magazine image categorization model
Maier et al. Image auto-annotation with automatic selection of the annotation length
Ma et al. Multi-source fusion based geo-tagging for web images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant