CN102637199A - 一种基于半监督主题建模的图像标注方法 - Google Patents

一种基于半监督主题建模的图像标注方法 Download PDF

Info

Publication number
CN102637199A
CN102637199A CN2012100503980A CN201210050398A CN102637199A CN 102637199 A CN102637199 A CN 102637199A CN 2012100503980 A CN2012100503980 A CN 2012100503980A CN 201210050398 A CN201210050398 A CN 201210050398A CN 102637199 A CN102637199 A CN 102637199A
Authority
CN
China
Prior art keywords
image
probability
images
theme
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100503980A
Other languages
English (en)
Other versions
CN102637199B (zh
Inventor
何晓飞
卜佳俊
陈纯
倪雅博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201210050398.0A priority Critical patent/CN102637199B/zh
Publication of CN102637199A publication Critical patent/CN102637199A/zh
Application granted granted Critical
Publication of CN102637199B publication Critical patent/CN102637199B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于半监督主题建模的图像标注方法。本发明的方法首先从互联网上得到图像,包括已有文本标注的图像,以及未标注图像。接着利用一种类似于概率潜在语义分析的模型,对所有图像的视觉特征和文本标注之间的联系通过潜在主题进行建模。然后构建所有图像的最近邻图,并根据由最近邻图进行建模得到的流形结构对模型进行调整。通过期望最大化算法学习该模型,并分别计算各个潜在主题与图像匹配的概率。最后根据潜在主题匹配图像的概率计算每个文本标注匹配未标注图像的概率,并选择概率最高的文本标注对未标注图像进行标注。

Description

一种基于半监督主题建模的图像标注方法
技术领域
本发明涉及机器学习中的半监督学习技术领域,特别是涉及一种基于主题建模的图像标注方法。 
背景技术
近年来,由于数码相机越来越普及,个人的数码照片数目急剧上升,同时在因特网上分享照片也越来越普及,为了挖掘大型照片集合的潜在价值,用户需要能够有效的检索到所需要的图像。图像标注,是将文本和图像的语义内容联系起来的技术,是一个很好的减少语义差距的方式并可以用于图像检索的中间步骤。使得用户可以通过文本查询对图像进行检索,并且在语义方面,相对于基于内容的检索能提供更好的结果。近年来,图像标注已经吸引了越来越多的研究兴趣。 
图像标注最基础的问题在于怎样对不同模式之间的关系进行建模,这些模式包括视觉特征,文本标注以及可能出现的图像的潜在主题,不同图像之间的关系。潜在主题建模在该问题上是一种很有效的解决方式。总体来讲,基于模型的方法具有较好的效率和稳定性,而它的主要不足在于可能存在不充分的建模。如果模型不能完全描述问题领域,它的推断值也会不准确。例如:如果数据不是按照高斯分布进行分布,对它进行高斯建模就会出现问题。对于图像标注,由于图像内容的多样化,总是很难对其进行充分的可能性建模。 
相反的,传统的基于相似性的方法,如:谱聚类和流正规化,并不需要采用具体的数据可能性结构,只需要对每组数据实例对定义相 似性函数即可。这种方法在半监督的内容学习上已表现得非常成功。在应用于正规化时,这种方法同样可以运用于可能性模型。 
发明内容
本发明的目的在于提供一种基于半监督主题建模的图像标注的方法。 
本发明解决其技术问题所采用的技术方案如下: 
1)从互联网上得到图像,包括已有文本标注的图像,以及未标注图像; 
2)利用一种类似于概率潜在语义分析的模型,对所有图像的视觉特征和文本标注之间的联系通过潜在主题进行建模; 
3)构建所有图像的最近邻图,并根据由最近邻图进行建模得到的流形结构对步骤2)的模型进行调整; 
4)通过期望最大化算法学习步骤2)的模型,并分别计算各个潜在主题与图像匹配的概率; 
5)根据潜在主题匹配图像的概率计算每个文本标注匹配未标注图像的概率,并选择概率最高的文本标注对未标记图像进行标注。 
1.步骤2)中的建模过程是按照如下方式进行的:对于每个图像i,首先用向量Fi表示图像视觉特征,向量Wi来表示图像文本标注,其中Fi={f1,…,fn},其中fu表示第u个视觉特征单词在第i个图片中出现的次数;Wi={w1,…,wn},其中wv表示第v个文本标注单词在第i个图片中出现的次数。 
并假设fi(其中i=1,…,n)服从多项式分布 
Figure BDA0000139592710000021
wi(其中i=1,…,n)服从多项式分布 
Figure BDA0000139592710000022
未标注图像Wi=0;然后用多项分布α建模图像与 潜在主题Zi的关系, 
最后得到所有图像与潜在主题的匹配概率的和为L,L的计算公式如下: 
Figure BDA0000139592710000031
其中,I为图像总数,K为潜在主题总数,P(zk|α)表示在α分布下潜在主题zk与第i个图像匹配的概率,U为视觉特征单词总数,P(fu|zk,β)表示在β分布下视觉特征fu与潜在主题zk匹配的概率,V为图像文本特征单词总数, 表示在 
Figure BDA0000139592710000033
分布下文本标注wv与潜在主题zk匹配的概率; 
2.步骤3)中的最近邻图的构造方法为,所有图像构成最近邻图的点,若图像i与图像j的文本标注和视觉特征的重合度达到某个阀值,则在最近邻图中创建一条连接图像i与图像j的边; 
3.步骤4)中使用期望最大化算法计算学习步骤2)的模型,并分别计算各个潜在主题与图像匹配的概率,以及三个多项式分布α,β,  Φ; 
4.步骤5)中利用步骤4)所得到的结果,从而获得文本标注匹配未标注图像的概率,并选取概率最大的文本标注对未标注图像进行标注,文本标注匹配未标注图像的概率P(wv)的计算公式如下: 
Figure BDA0000139592710000041
其中,K为潜在主题总数,pki为步骤4)所得到的潜在主题与图像匹配的概率, 
Figure BDA0000139592710000042
表示在 
Figure BDA0000139592710000043
分布下文本标注wv与潜在主题zk匹配的概率。 
附图说明
图1是本发明的方法流程图。 
具体实施方式
参照附图: 
一种半监督下的基于主题建模的图像标注的方法,该方法包括以下步骤: 
1.从互联网上得到图像,包括已有文本标注的图像,以及未标注图像; 
2.利用一种类似于概率潜在语义分析的模型,对所有图像的视觉特征和文本标注之间的联系通过潜在主题进行建模,建模过程是按照如下方式进行的:对于每个图像i,首先用向量Fi表示图像视觉特征,向量Wi来表示图像文本标注,其中Fi={f1,…,fn},其中fu表示第u个视觉特征单词在第i个图片中出现的次数;Wi={w1,…,wn},其中wv表示第v个文本标注单词在第i个图片中出现的次数。 
并假设fi(其中i=1,…,n)服从多项式分布 
Figure BDA0000139592710000044
wi(其中i=1,…,n)服从多项式分布 
Figure BDA0000139592710000045
未标注图像Wi=0;然后用多项分布α建模图像与潜在主题Zi的关系, 
最后得到所有图像与潜在主题的匹配概率的和为L,L的计算公式如下: 
Figure BDA0000139592710000051
其中,I为图像总数,K为潜在主题总数,P(zk|α)表示在α分布下潜在主题zk与第i个图像匹配的概率,U为视觉特征单词总数,P(fu|zk,β)表示在β分布下视觉特征fu与潜在主题zk匹配的概率,V为图像文本特征单词总数, 表示在 
Figure BDA0000139592710000053
分布下文本标注wv与潜在主题zk匹配的概率; 
3.构建所有图像的最近邻图,并根据由最近邻图进行建模得到的流形结构对步骤2)的模型进行调整,其中的最近邻图的构造方法为,所有图像构成最近邻图的点,若图像i与图像j的文本标注和视觉特征的重合度达到某个阀值,则在最近邻图中创建一条连接图像i与图像j的边; 
4.使用期望最大化算法计算学习步骤2)的模型,并分别计算各个潜在主题与图像匹配的概率,以及三个多项式分布α,β,Φ,其中α,β,Φ的计算公式如下 
Figure BDA0000139592710000054
k∈{1,...,K} 
β ku α Σ i = 1 1 F iu · p ki · ( k , u ) ∈ { 1 , . . . , K } × { 1 , . . . , U }
Figure BDA0000139592710000062
其中,I为图像总数,K为潜在主题总数,U为视觉特征单词总数,V为图像文本特征单词总数,pki为各个潜在主题与图像匹配的概率; 
5.根据潜在主题匹配图像的概率计算每个文本标注匹配未标注图像的概率,并选择概率最高的文本标注对未标记图像进行标注,本标注匹配未标注图像的概率P(wv)的计算公式如下: 
Figure BDA0000139592710000063
其中,K为潜在主题总数,pki为步骤4)所得到的潜在主题与图像匹配的概率, 
Figure BDA0000139592710000064
表示在 
Figure BDA0000139592710000065
分布下文本标注wv与潜在主题zk匹配的概率。 
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。 

Claims (5)

1.一种基于半监督主题建模的图像标注方法,其特征在于:
1)从互联网上得到图像,包括已有文本标注的图像,以及未标注图像;
2)利用一种类似于概率潜在语义分析的模型,对所有图像的视觉特征和文本标注之间的联系通过潜在主题进行建模;
3)构建所有图像的最近邻图,并根据由最近邻图进行建模得到的流形结构对步骤2)的模型进行调整;
4)通过期望最大化算法学习步骤2)的模型,并分别计算各个潜在主题与图像匹配的概率;
5)根据潜在主题匹配图像的概率计算每个文本标注匹配未标注图像的概率,并选择概率最高的文本标注对未标注图像进行标注。
2.根据权利要求1所述的一种半监督下的基于主题建模的图像标注的方法,其特征在于:步骤2)中的建模过程是按照如下方式进行的:对于每个图像i,首先用向量Fi表示图像视觉特征,向量Wi来表示图像文本标注,其中Fi={f1,…,fn},其中fu表示第u个视觉特征单词在第i个图片中出现的次数;Wi={w1,…,wn},其中wv表示第v个文本标注单词在第i个图片中出现的次数。
并假设fi(其中i=1,…,n)服从多项式分布
Figure FDA0000139592700000011
wi(其中i=1,…,n)服从多项式分布
Figure FDA0000139592700000012
未标注图像Wi=0;然后用多项分布α建模图像与潜在主题Zi的关系,
最后得到所有图像与潜在主题的匹配概率的对数似然为L,L的计算公式如下:
Figure FDA0000139592700000021
其中,I为图像总数,K为潜在主题总数,P(zk|α)表示在α分布下潜在主题zk与第i个图像匹配的概率,U为视觉特征单词总数,P(fu|zk,β)表示在β分布下视觉特征fu与潜在主题zk匹配的概率,V为图像文本特征单词总数,
Figure FDA0000139592700000022
表示在
Figure FDA0000139592700000023
分布下文本标注wv与潜在主题zk匹配的概率。
3.根据权利要求1所述的一种半监督下的基于主题建模的图像标注的方法,其特征在于:步骤3)中的最近邻图的构造方法为,所有图像构成最近邻图的点,若图像i与图像j的文本标注和视觉特征的重合度达到某个阀值,则在最近邻图中创建一条连接图像i与图像j的边。
4.根据权利要求1所述的一种半监督下的基于主题建模的图像标注的方法,其特征在于:步骤4)中使用期望最大化算法计算学习步骤2)的模型,并分别计算各个潜在主题与图像匹配的概率,以及三个多项式分布α,β,Φ。
5.根据权利要求1所述的一种半监督下的基于主题建模的图像标注的方法,其特征在于:步骤5)中利用步骤4)所得到的结果,从而获得文本标注匹配未标注图像的概率,并选取概率最大的文本标注对未标注图像进行标注,文本标注匹配未标注图像的概率P(wv)的计算公式如下:
Figure FDA0000139592700000031
其中,K为潜在主题总数,pki为步骤4)所得到的潜在主题与图像匹配的概率,
Figure FDA0000139592700000032
表示在
Figure FDA0000139592700000033
分布下文本标注wv与潜在主题zk匹配的概率。
CN201210050398.0A 2012-02-29 2012-02-29 一种基于半监督主题建模的图像标注方法 Expired - Fee Related CN102637199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210050398.0A CN102637199B (zh) 2012-02-29 2012-02-29 一种基于半监督主题建模的图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210050398.0A CN102637199B (zh) 2012-02-29 2012-02-29 一种基于半监督主题建模的图像标注方法

Publications (2)

Publication Number Publication Date
CN102637199A true CN102637199A (zh) 2012-08-15
CN102637199B CN102637199B (zh) 2014-01-29

Family

ID=46621593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210050398.0A Expired - Fee Related CN102637199B (zh) 2012-02-29 2012-02-29 一种基于半监督主题建模的图像标注方法

Country Status (1)

Country Link
CN (1) CN102637199B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246688A (zh) * 2012-12-03 2013-08-14 苏州大学 基于显著区域稀疏表示的语义层次模型图像分类管理方法
CN103440274A (zh) * 2013-08-07 2013-12-11 北京航空航天大学 一种基于细节描述的视频事件概要图构造和匹配方法
CN104484347A (zh) * 2014-11-28 2015-04-01 浙江大学 一种基于地理信息的层次化视觉特征提取方法
CN104573711A (zh) * 2014-12-22 2015-04-29 上海交通大学 基于文本-物体-场景关系的物体和场景的图像理解方法
CN105389326A (zh) * 2015-09-16 2016-03-09 中国科学院计算技术研究所 基于弱匹配概率典型相关性模型的图像标注方法
CN107292221A (zh) * 2016-04-01 2017-10-24 北京搜狗科技发展有限公司 一种轨迹处理方法和装置、一种用于轨迹处理的装置
CN107943985A (zh) * 2017-11-30 2018-04-20 西安交通大学 基于跨媒体稀疏主题编码的图像自动标注方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075263A (zh) * 2007-06-28 2007-11-21 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
WO2009032570A1 (en) * 2007-08-30 2009-03-12 Microsoft Corporation Visual language modeling for image classification
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN101963995A (zh) * 2010-10-25 2011-02-02 哈尔滨工程大学 基于特征场景的图像标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075263A (zh) * 2007-06-28 2007-11-21 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
WO2009032570A1 (en) * 2007-08-30 2009-03-12 Microsoft Corporation Visual language modeling for image classification
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN101963995A (zh) * 2010-10-25 2011-02-02 哈尔滨工程大学 基于特征场景的图像标注方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246688A (zh) * 2012-12-03 2013-08-14 苏州大学 基于显著区域稀疏表示的语义层次模型图像分类管理方法
CN103440274A (zh) * 2013-08-07 2013-12-11 北京航空航天大学 一种基于细节描述的视频事件概要图构造和匹配方法
CN103440274B (zh) * 2013-08-07 2016-09-28 北京航空航天大学 一种基于细节描述的视频事件概要图构造和匹配方法
CN104484347A (zh) * 2014-11-28 2015-04-01 浙江大学 一种基于地理信息的层次化视觉特征提取方法
CN104484347B (zh) * 2014-11-28 2018-06-05 浙江大学 一种基于地理信息的层次化视觉特征提取方法
CN104573711A (zh) * 2014-12-22 2015-04-29 上海交通大学 基于文本-物体-场景关系的物体和场景的图像理解方法
CN104573711B (zh) * 2014-12-22 2017-12-15 上海交通大学 基于文本‑物体‑场景关系的物体和场景的图像理解方法
CN105389326A (zh) * 2015-09-16 2016-03-09 中国科学院计算技术研究所 基于弱匹配概率典型相关性模型的图像标注方法
CN107292221A (zh) * 2016-04-01 2017-10-24 北京搜狗科技发展有限公司 一种轨迹处理方法和装置、一种用于轨迹处理的装置
CN107292221B (zh) * 2016-04-01 2022-09-30 北京搜狗科技发展有限公司 一种轨迹处理方法和装置、一种用于轨迹处理的装置
CN107943985A (zh) * 2017-11-30 2018-04-20 西安交通大学 基于跨媒体稀疏主题编码的图像自动标注方法

Also Published As

Publication number Publication date
CN102637199B (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
CN102637199B (zh) 一种基于半监督主题建模的图像标注方法
Huang et al. Cross-domain sentiment classification via topic-related TrAdaBoost
CN107729513A (zh) 基于语义对齐的离散监督跨模态哈希检索方法
CN101963995B (zh) 基于特征场景的图像标注方法
CN102495865B (zh) 结合图像内部空间关系及视觉共生关系的图像标注方法
US20150242689A1 (en) System and method for determining graph relationships using images
CN102968635B (zh) 一种基于稀疏编码的图像视觉特征提取方法
CN110458078B (zh) 一种人脸图像数据聚类方法、系统及设备
Pham et al. Word sense disambiguation with semi-supervised learning
CN102193946A (zh) 为媒体文件添加标签方法和使用该方法的系统
CN103390046A (zh) 潜在狄利克雷模型的多尺度字典自然场景图像分类方法
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN107967494A (zh) 一种基于视觉语义关系图的图像区域标注方法
CN104268140A (zh) 基于权重自学习超图和多元信息融合的图像检索方法
Ou et al. Spatially regularized latent topic model for simultaneous object discovery and segmentation
CN102937994A (zh) 一种基于停用词的相似文档查询方法
Kucer et al. DeepPatent: Large scale patent drawing recognition and retrieval
CN103578107A (zh) 一种交互式图像分割方法
CN109299464A (zh) 基于网络链接和文档内容的主题嵌入、文档表示方法
Peng et al. Social media based topic modeling for smart campus: a deep topical correlation analysis method
CN104239500B (zh) 保健食品关联知识库构建方法和装置
CN103942779A (zh) 一种基于图论和半监督学习相结合的图像分割方法
CN103440332A (zh) 一种基于关系矩阵正则化增强表示的图像检索方法
CN108182443A (zh) 一种基于决策树的图像自动标注方法和装置
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140129

Termination date: 20170229

CF01 Termination of patent right due to non-payment of annual fee