CN100401302C - 基于标注重要性次序的图像语义自动标注方法 - Google Patents

基于标注重要性次序的图像语义自动标注方法 Download PDF

Info

Publication number
CN100401302C
CN100401302C CNB2006100534038A CN200610053403A CN100401302C CN 100401302 C CN100401302 C CN 100401302C CN B2006100534038 A CNB2006100534038 A CN B2006100534038A CN 200610053403 A CN200610053403 A CN 200610053403A CN 100401302 C CN100401302 C CN 100401302C
Authority
CN
China
Prior art keywords
image
semantic
skeleton
keyword
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100534038A
Other languages
English (en)
Other versions
CN1920820A (zh
Inventor
庄越挺
吴飞
鲁伟明
吴江琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2006100534038A priority Critical patent/CN100401302C/zh
Publication of CN1920820A publication Critical patent/CN1920820A/zh
Application granted granted Critical
Publication of CN100401302C publication Critical patent/CN100401302C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标注重要性次序的图像语义自动标注方法,包括以下步骤:(1)对训练图像集进行分类,形成一系列内容一致的图像集;(2)对每一个图像集构建语义骨架,将其中的图像用语义骨架表示,同时计算图像的关键词重要性次序和图像子块的重要性次序;(3)用统计学习的方法进行图像自动标注。本发明在图像自动标注时,考虑了图像区域子块的重要性和训练集中文本的重要性次序,有效的解决了图像自动标注准确性和词频畸形分布的问题,从而支持基于语义的图像检索。

Description

基于标注重要性次序的图像语义自动标注方法
技术领域
本发明涉及计算机多媒体技术领域,尤其涉及一种基于标注重要性次序的图像语义自动标注方法。
背景技术
在多媒体检索领域中,基于内容的检索系统预先得到图像或视频的视觉感知特征(如颜色直方图、纹理、形状、运动矢量等),查询时要求用户提供描述所需图像的特征,然后进行匹配。这种查询方式普通用户难以理解,很难推厂使用。另外,视觉感知特征很难反映图像所表达的概念,查询准确率不高。人们更倾向于使用关键词在语义层上进行查询,但图像数据中存在着“语义鸿沟”,使得传统的基于内容的图像检索技术无法满足用户的需求。
图像标注能有效地弥补语义缺失给检索带来的麻烦,但是巨大的人力,物力代价使得纯手工的标注变得不切实际,而且图像寓意丰富,而手工标注存在主观性,从而导致图像检索的不准确性。
图像自动标注算法采用了统计模型,希望通过机器学习的方法自动标注图像,这些模型将标注过程看成是将图像翻译成文本内容的过程。
在第一届多媒体智能存储和检索管理会议论中(In First International Workshop onMultimedia Intelligent Storage and Retrieval Management)公布了一种Co-occurrence的模型中,研究人员将图像划分成规则区域,然后将这些区域进行分类,根据不同类别的图像区域和关键词的共生概率来计算图像应该被赋予某一关键词的概率大小。而计算机视觉欧洲2002会议论文集中(In Proceedings of 7th European Conference on Computer Vision,pp 97-112,2002)则使用了blob词组的概念,每一张图像都可以看作是由一些blob词汇组成的语句。他们提出了一种转换模型(Translate Model),来计算将一张由blob组成的图像转换成由某些关键词组成的标注结果的概率。另外一种有效的方式是使用SIGIR2003年会议论文集中(InProceedings of SIGIR 03 Conference,Toronto,Canada,2003)提出的跨媒体相关模型(FACMRMModel)。这个模型计算每个关键词和blob组的联合分布概率作为将这一关键词标注给图像的依据。
然而,以上的这些方法都存在着一个词频分布畸形的问题,根据研究表明,在自动标注模型中作为匹配图像和关键词的重要依据就是图像区域和已标注关键词的共生统计。因此如果关键词“X”和某一类图像区域共生频率远高于其它关键词和这一类图像区域的共生频率的时候,这个关键词“X”就应该以极大的概率标注给包含这类图像区域的图像。根据Zipf’s定律,即极少数的关键词频繁出现在训练图像中,在标注的结果中,这些高频的少数关键词将会占所有被标注关键词的绝大多数。这就意味着,除非用户使用这些少数的关键词进行语文检索,否则,只有少量的图像能够被检索出来。随着数据量的增大,这个问题带来的负面效应将会越来越明显。
发明内容
本发明的目的是为了克服已有图像自动标注算法的不足之处,提出了一种基于标注重要性次序的图像语义自动标注方法。
它包括训练标注图像集和图像自动标注两部份,其中
(1)训练标注图像集包括如下步骤:
a)对于训练图像集分类,用分类算法将标注图像集分成内容一致的图像集;
b)用关键词集合和图像语义子块来表示语义骨架,;
(2)图像自动标注包括如下步骤:
a)对于图像自动标注,先将未标注的图像分类到已构造语义骨架的某一个图像集中,
b)再将该图像进行分割,并用语义骨架中的语义子块进行表示,计算语义骨架中每一个关键词w可以表示该未标注图像I的概率P(w|I),P(w|I)的计算公式如下所示:
P(w|I)≈P(w|b1,b2...bm)≈p(w,b1,b2...bm)    1
P = ( w | b 1 . b 2 . b m ) = Σ J ∈ T P ( J ) P ( w , b 1 , b 2 . . . b m | J ) - - - 2
P = ( w | b 1 , b 2 . . b m ) = Σ J ∈ T i P ( J ) P ( w | J ) Π k = 1 m P ( b k | J ) - - - 3
P ( w | J ) = ( 1 - α ) × # ( w , J ) × Order ( w , J ) | J | + α × # ( w , T i ) × AvgOrder ( w , T i ) | T i | - - - 4
P ( b | J ) = ( 1 - β ) × # ( b , J ) × OrderB ( b . J ) | J | + β × # ( b , T i ) × AvgOrderB ( b , T i ) | T i | - - - 5
其中Ti表示待标注图像I被分到的图像语义类;|Ti|表示语义骨架Ti中的图像的个数;J为图像语义类Ti中的图像;|J|是图像J中的语义子块和关键词数目总和;w为语义骨架Ti中关键词集合中的词;b为图像语义子块;#(w,j)是w在J中出现的次数,#(w,Ti)是w在语义Ti中出现的次数;#(b,J)是b在J中出现的次数,#(b,Ti)是b在语义Ti中出现的次数;Order(wJ)为w在图像J中的位置信息,表示w在J中的语义重要性;AvgOrder(w,Ti)为w在语义类别Ti中的语义重要性的均值;OrderB(bJ)表示b在图像J中的视觉重要性;AvgOrderB(b,Ti)为b在语义类别Ti中的视觉重要性的均值;先验概率P(J)保持唯一,用J在语义类别Ti中的出现概率表示。
c)选择最大概率的若干关键词作为该未标注图像的标注词。
在基于标注重要性次序的图像语义自动标注方法中,所述的标注重要性次序包括语义重要性和视觉重要性
语义重要性是指:关键词集合中的关键词w在训练图像J中的重要性,用Order(wJ)表示  每一个训练图像都有一段注释文字s用于解决图像J的语义,则Order(w,J)定义为:
Figure C20061005340300061
关键词w在语义骨架Ti语义重要性的均值定义为AvgOrder(w,Ti),其计算如下:
AvgOrder ( w , T i ) = 1 # ( w , T i ) Σ J ∈ Tw ∈ J Order ( w , J ) - - - 7
其中#(w,Ti)表示关键词w在语义骨架Ti中出现的次数,J表示语义骨架Ti中的图像。
视觉重要性是指:图像语义子块b在训练图像J中的重要性,用OrderB(b,J)表示,其计算公式如下:
OrderB ( b , J ) = Size ( b ) Dis tan ce ( b ) - - - 8
其中Size(b)表示b在图像J中的面积,Distance(b)表示b离图像J中心的距离;
图像子块b在语义骨架Ti的视觉重要性的均值定义为AvgOrderB(b,Ti),其计算如下:
AvgOrderB ( b , T i ) = 1 # ( b , T i ) Σ J ∈ T i , b ∈ J OrderB ( b , J ) - - - 9
其中#(b,Ti)表示图像语义子块b在语义骨架Ti中出现的次数,J表示语义骨架Ti中的图像。
所述的用关键词集合和图像语义子块来表示语义骨架的步骤如下:
(1)每一个训练图像都有一段注释文字s用于解决图像J的语义,将训练集中每个图像的注释文字s中的名词和形容词提取出来构成的集合作为关键词集合;
(2)语义子块集合描述了整个图像集包含的所有语义子块,采用图像分割算法结合聚类算法构造语义子块集合:先对训练集中的每一个图像进行分割,形成若干子块,然后进行聚类,形成的聚类中心就是语义子块,这样每一个图都可以用语义子块表示;
(3)在形成语义骨架时,计算关键词和图像子块的重要性次序,该重要性次序用描述文本的词序顺序和图像子块的大小位置来表示;对于描述前景主体和背景环境的名词和位于图像中心或区域面积较大的子块,其重要性较大。
本发明的基于标注重要性次序的图像语义自动标注方法具有如下的有益效果:本发明应用了关键词顺序和图像区域顺序解决了原有相关模型在图像自动标注应用上带来的词频分布畸形问题,在解决了词频分布畸形的同时使被标注图片包含了更多的有效关键词,这将提高图像检索的准确度,增加图像检索的性能
附图说明
图1为基于标注重要性次序的图像语义自动标注方法工作流程图.
图2为本发明与其他模型低频关键词被标注的覆盖率的比较图;
图3为本发明在实施例中的图像子集“马”所含的图像集合图;
图4为本发明在实施例中的语义子块“马”所含的图像子块集合图;
图5为本发明在实施例中的语义子块“草地”所含的图像子块集合图;
图6为本发明在实施例中的待标注图;
图7为本发明在实施例中的分割后的图像子块图。
具体实施方式
如图1所示,在流程图中,先把训练图像集按底层特征进行分类,形成一系列内容一致的图像集。每一个图像集经过图像分割、图像子块聚类、统计学习得到一个语义骨架。在标注过程中,将未标注图像进行分类,用从属的图像集的语义子块表示该图像的子块,再计算语义骨架中的每一个关键词的概率,最后选择最大概率的若干关键词作为未标注图像的语义
本发明的具体步骤如下:
1.训练标注图像集
1)训练图像集分类(步骤101)
将训练标注图像集基于底层特征进行分类,每一类都形成一个内容一致的图像集。
2)形成语义骨架(步骤102)
假设C是一个已经具有文本标注并且内容一致的图像集合,C中的每个图像I的标注信息可以表示成I={w1,w2,,wm},其中wi(1≤i≤m)是标注的关键词。图像集合的语义骨架Skeleton可以定义成一个四元组Skeleton=<ID,KevwordSet,SemanticBlobSet>,各项的含义如下:
ID:图像集合的标识
KeywordSet:关键词集合
SemanticBlobSet:语义子块集合
关键词集合和语义子块集合是语义骨架的主要部分。关键词集合的构造:把C中每个图像的关键词提取出来构成的集合就可以作为KevwordSet={w1,w2,,wM},描述I的每个关键词就是KevwordSet中的某一项。语义子块集合SemanticBlobSet={b1,b2,...bN}抽象地描述整个图像集合包含的关键图像对象,其中每一项bj(1 ≤j≤ N)抽象地描述了C拥有的一个有效关键对象。一般说来,可以采用图像分割结合聚类算法构造语义子块集合:首先对C中的每个图像进行分割,形成若干个子块  考虑属于C的所有子块,对这些子块进行聚类。语义子块集合就由这些子块的聚类构成,其中bi(1≤i≤N)是各个子块的聚类标识。
构造了语义骨架后,可以把集合中的图像I表示成语义骨架的一个实例。对属于I的每个图像子块,从SemanticBlobSet中找出与它最相似的聚类b未标识它。这样I就可以表示成I={w1,w2,,wm,b1,b2,,bn}。语义骨架包含的关键词集合和语义子块集合分别在语义级别和底层特征级上描述了图像集合,可以通过求取它们之间的相关性,达到语义自动标注的目的。
在形成语义骨架的同时计算重要性次序。在训练图像中,每一个训练图像都有一段注释文字s用于解决图像J的语义,这段所带的描述文本的词序顺序反映了不同关键词对图像的不同重要性,用Order(w,J)表示关键词集合中的关键词w在训练图像J中的重要性,由于作为描述前景主体和背景环境的名词比形容词更能体现图像语义,因此这些词体现了更多的重要性,对于这些词,就增加其权重,Order(w,J)的计算公式如下:
Figure C20061005340300081
关键词w在语义骨架Ti语义重要性的均值定义为AvgOrder(w,Ti),其计算如下:
AvgOrder ( w , T i ) = 1 # ( w , T i ) &Sigma; J &Element; T i w &Element; J Order ( w , J )
其中#(w,Ti)表示关键词w在语义骨架Ti中出现的次数,J表示语义骨架Ti中的图像。
对于图像子块,可以发现位于图像中心的或者区域面积比较大的子块,一般反映了图像的语义信息,可以用图像区域中心的距离值和图像区域的大小来反映图像子块的重要性信息。
用Order(w,J)表示w在图像J中的位置信息,表示w在J中的语义重要性;用OrderB(b,J)为表示图像子块b在图像J中的视觉重要性,其中Size(b)表示b在图像J中的面积,Distance(b)表示b离图像J中心的距离。
图像子块b在语义骨架Ti的视觉重要性的均值定义为AvgOrderB(b,Ti),其计算如下:
AvgOrderB ( b , T i ) = 1 # ( b , T i ) &Sigma; J &Element; Ib &Element; J OrderB ( b , J )
其中#(b,Ti)表示图像语义子块b在语义骨架Ti中出现的次数,J表示语义骨架Ti中的图像。
2.图像自动标注
假设由人类图像组成的训练集为T=T1∪T2∪ ∪TK,其中I表示第i类已标注的训练图像集合采用训练图像标注集的方法,为每一类图像构造语义骨架,每一个训练图像J都可以表示为J={w1,w2,...wm;b1,b2...bn},wi是第i个标注关键词,bi对应于图像第j个了块的标识。每个训练图像对应的m和n不必相同,且n取决于图像的复杂程度。
1)未标注图像分类(步骤103)
为了更加准备的对图像进行自动标注,首先对末标注的图像进行分类。假设一个未标注的图像I被自动分到类别Ti中。
2)用语义子块表示未标注图像(步骤104)
将未标注图像进行分割,然后以Ti的语义骨架为标准,计算I中每个图像子块与Ti中语义子块的相似性,用语义子块的标识。这样I就可以表示成I={b1,b2,...bn}。
3)自动标注(步骤105)
自动标注希望选取一组最合适的关键词{w1,w2,...wm}作为I的文本标注,即选取若干个概率P(w|I)最大的关键词w。由于训练集中的图像用关键词和语义子块两种不同的方式描述同一个主题(图像内容),标注过程可以看成是把语义子块翻译成关键词的过程,P(w|I)可以按下式进行计算:
P(w|I)≈P(w|b1,b2...bm)≈p(w,b1,b2...bm)
P = ( w | b 1 , b 2 . . . b m ) = &Sigma; J &Element; T i P ( J ) P ( w , b 1 , b 2 . . . b m | J )
P = ( w | b 1 , b 2 . . . b m ) = &Sigma; J &Element; T i P ( J ) P ( w | J ) &Pi; i = 1 m P ( b i | J )
P ( w | J ) = ( 1 - &alpha; ) &times; # ( w , J ) &times; Order ( w , J ) | J | + &alpha; &times; # ( w , T i ) &times; AvgOrder ( w , T i ) | T i |
P ( b | J ) = ( 1 - &beta; ) &times; # ( b , J ) &times; OrderB ( b . J ) | J | + &beta; &times; # ( b , T i ) &times; AvgOrderB ( b , T i ) | T i |
其中Ti表示待标注图像I被分到的图像语义类;|Ti|表示语义骨架Ti中的图像的个数;J为图像语义类Ti中的图像;|J|是图像J中的语义子块和关键词数目总和;w为语义骨架Ti中关键词集合中的词;b为图像语义子块;#(w,J)是w在J中出现的次数,#(w,Ti)是w在语义Ti中出现的次数;#(b,J)是b在J中出现的次数,#(b,Ti)是b在语义Ti中出现的次数;Order(w,J)为w在图像J中的位置信息,表示w在J中的语义重要性;AvgOrder(w,Ti)为w在语义类别Ti中的语义重要性的均值;OrderB(b,J)表示b在图像J中的视觉重要性;AvgOrderB(b,Ti)为b在语义类别Ti中的视觉重要性的均值;先验概率P(J)保持唯一,用J在语义类别Ti中的出现概率表示。
为了考察本发明的性能,使用Corel图像库中5000幅图像作为天验数据集,分为50类,每类有100个图像,从中抽取90张作为训练数据,10张作为测试数据整个训练库分为50个语义类别,每一个类别中的语义子块类别为20,总共包括了373个天键词和1000个语义子块。在使用RBF核的多类支持同量机分类器的情况下,获得了54 5%的语义分类准确率,就是说272张测试图片被正确分类。为了定量评价算法的性能,利用训练集中包含的所有373个作为查询去检索图像,然后计算平均查全率和查准率。在检索过程中,如果图像标注结果的关键词中包含查询关键词,就把该图像作为查询结果返回。把图像的手工标注作为评价查询相关性的标准。查全率是正确检索到的图像数目除以所有相关的图像数目。查准率是正确检索到的图像数目除以检索返回的图像数目。把查全率和查准率都大于零的关键词称为有效关键词。查全率大于04查准率大于0.14的为良好关键词。本发明方法与Co-occurrence Model,Translation Model,FACMRM作了比较,用平均查全率和平均查准率作了有效关键词之间的比较,比较结果如下:
模型 Co-occurrence  Tianslation  FACMRM  本发明的模型
有效关键词 19  49  66  117
平均查全率 0 39  0 34  0.30  0 571
平均查准率 0 25  0 20  0 19  0 274
用平均查全率、平均查准率和F-measure作了良好关键词之间的比较,比较结果如下:
模型  Co-occurrence  Tianslation  FACMRM  本发明的模型
良好关键词  5  15  32  57
平均查全率  0 79  0 63  0 68  0 672
平均查准率  0 26  0 28  0 39  0 375
 F-measure  0 39  0 39  0 47  0 483
附图2展示了重要性较高的而频率较低的词的覆盖率的差别。虚线为其他的模型,实线为本发明的模型,在图2中,本发明低频词被标注的覆盖率为23 3%,远远大于其他模型的5 92%,这意味着,在保持了较高的查全率和查准率的情况下,本发明的方法标注的结果中包含的低频关键词更多。这表示,原有的方法中将大量的无效高频关键词标注给了测试图像。而这样做的结果使得用户在查询中可以使用的关键字被紧紧地局限在这些少数的高频关键词中,带来的直接后果就是检索能力的下降。反过来说,本发明标注的结果使得用户在使用别的非高频关键词查询时候也有相当的图像能被检索命中。
实施例1
给定6000张图像,其中5000张图像已含有标注信息作为标注方法的训练图像集,实施例对剩下的1000张图像进行图像自动标注。
(1)先对训练图像集进行支持向量机分类,形成内容一致的图像子集。在该实施例中,形成50个图像子集,每个子集大约100张图像,如附图3所示为归到图像子集“马”中的几个图像
(2)对每一个图像子集中的图像都进行图像分割,形成若干图像子块,对图像子块进行聚类  图像子集“马”分割聚类后形成的20个类,附图4和附图5为其中的两个语义子块中所含的图像子块集合图,分别表示“马”和“草地”,可以用各自的图像子块的底层特征聚类中心来表示该类。
(3)将聚类中心定义为语义子块集合,图像所带的关键词集合和语义子块集合构成该图像子集的语义骨架。此时图像可以由这些关键词和语义子块表示,即:对图像中的每个图像子块,从语义子块集合中找出与它最相似的聚类来标识它。用语义骨架表示图像子集中的每一个图像,并统计关键词和语义子块在图像子集中出现的次数。假设J为图像集Ti中的图像,则可以得到:|J|是图像J中的语义子块和关键词数目总和;#(w,J)是w在J中出现的次数,#(w,Ti)是w语义Ti中出现的次数。#(b,J)是b在J中出现的次数,#(b,Ti)是b在语义Ti中出现的次数。
(4)根据图像子块b的大小、位置信息计算图像子块的重要性,计算得到:OrderB(b,J)为表示b在图像J中的视觉重要性,Size(b)表示b在图像J中的面积,Distance(b)表示b离图像J中心的距离,AvgOrderB(b,Ti)为b在语义类别Ti中的视觉重要性的均值;根据关键词w在训练图像J标注信息的位置计算关键词w的重要性,计算得到:Order(w,J)为w在图像J中的位置信息,表示w在J中的语义重要性;AvgOrder(w,Ti)为w在语义类别Ti中的语义重要性的均值。
(5)给出待标注图像I,如图6所示。
(6)对待标注图像进行分割,得到结果如图7所示,计算每一个图像子块的面积和离图像中心的距离。
(7)将待标注图像根据底层特征和纹理特征进行分类,设被分到语义类Ti中,用语义类Ti的语义骨架表示该图像。经计算可以得到,图7中子块b1在底层特征上与图4所表示的聚类最近,用图4所示的语义子块来表示图像子块b1;图7中其他子块在底层特征上与图5所表示的聚类最近,用图5所示的语义子块来表示图像子块b2,b3,b4,b5。
(8)对语义类Ti中的每一个关键词w计算P(w|I),计算公式如下:
P(w|I)≈P(w|b1,b2...bm)≈p(w,b1,b2...bm)
P = ( w | b 1 . b 2 . b m ) = &Sigma; J &Element; T P ( J ) P ( w , b 1 , b 2 . . . b m | J )
P = ( w | b 1 , b 2 . . b m ) = &Sigma; J &Element; T i P ( J ) P ( w | J ) &Pi; k = 1 m P ( b k | J )
P ( w | J ) = ( 1 - &alpha; ) &times; # ( w , J ) &times; Order ( w , J ) | J | + &alpha; &times; # ( w , T i ) &times; AvgOrder ( w , T i ) | T i |
P ( b | J ) = ( 1 - &beta; ) &times; # ( b , J ) &times; OrderB ( b , J ) | J | + &beta; &times; # ( b , T i ) &times; AvgOrderB ( b , T i ) | T i |
其中Ti表示待标注图像I被分到的图像语义类;|Ti|表示语义骨架Ti中的图像的个数;J为图像语义类Ti中的图像;|J|是图像J中的语义子块和关键词数目总和;w为语义骨架Ti中关键词集合中的词;b为图像语义子块;#(w,J)是w在J中出现的次数,#(w,Ti)是w在语义Ti中出现的次数;#(b,J)是b在J中出现的次数,#(b,Ti)是b在语义Ti中出现的次数;Order(w,J)为w在图像J中的位置信息,表示w在J中的语义重要性;AvgOrder(w,Ti)为w在语义类别Ti中的语义重要性的均值;OrderB(b,J)表示b在图像J中的视觉重要性;AvgOrder(b,Ti)为b在语义类别Ti中的视觉重要性的均值;先验概率P(J)保持唯一,用J在语义类别Ti中的出现概率表示。
(9)选择P(w|I)最大的几个关键词作为图I的标注词。

Claims (5)

1.一种基于标注重要性次序的图像语义自动标注方法,其特征在于它包括训练标注图像集和图像自动标注两部分,其中
(1)训练标注图像集包括如下步骤:
a)对于训练图像集分类,用支持向量机分类算法将标注图像集分成内容一致的图像集;
b)用关键词集合和图像语义子块来表示语义骨架;
(2)图像自动标注包括如下步骤:
a)对于图像自动标注,先将未标注的图像分类到已构造语义骨架的某一个图像集中;
b)再将该图像进行分割,并用语义骨架中的语义子块进行表示,计算语义骨架中每一个关键词w可以表示该未标注图像I的概率P(w|I),P(w|I)的计算公式如下所示:
P(w|I)≈P(w|b1,b2,...bm)≈p(w,b1,b2...bm)    1
P ( w | b 1 , b 2 . . b m ) = &Sigma; J &Element; T P ( J ) P ( w , b 1 , b 2 . . . b m | J ) - - - 2
P ( w | b 1 , b 2 . . . b m ) = &Sigma; J &Element; T i P ( J ) P ( w | J ) &Pi; k = 1 m P ( b k | J ) - - - 3
P ( w | J ) = ( 1 - &alpha; ) &times; # ( w , J ) &times; Order ( w , J ) | J | + &alpha; &times; # ( w , T i ) &times; AvgOrder ( w , T i ) | T i | - - - 4
P ( b | J ) = ( 1 - &beta; ) &times; # ( b , J ) &times; OrderB ( b , J ) | J | + &beta; &times; # ( b , T i ) &times; AvgOrderB ( b , T i ) | T i | - - - 5
其中Ti表示待标注图像I被分到的图像语义类;|Ti|表示语义骨架Ti中的图像的个数;J为图像语义类Ti中的图像;|J|是图像J中的语义子块和关键词数目总和;w为语义骨架Ti中关键词集合中的词;b为图像语义子块;#(w,J)是w在J中出现的次数,#(w,Ti)是w在语义Ti中出现的次数;#(b,J)是b在J中出现的次数,#(b,Ti)是b在语义Ti中出现的次数;Order(w,J)为w在图像J中的位置信息,表示w在J中的语义重要性;AvgOrder(w,Ti)为w在语义类别Ti中的语义重要性的均值;OrderB(b,J)表示b在图像J中的视觉重要性;AvgOrderB(b,Ti)为b在语义类别Ti中的视觉重要性的均值;先验概率P(J)保持唯一,用J在语义类别Ti中的出现概率表示;
c)选择最大概率的若干关键词作为该未标注图像的标注词。
2.根据权利要求1所述的基于标注重要性次序的图像语义目动标注方法,其特征在于,所述的标注重要性次序包括语义重要性和视觉重要性。
3.根据权利要求2所述的基于标注重要性次序的图像语义目动标注方法,其特征在于,所述的语义重要性是指:关键词集合中的关键词w在训练图像J中的重要性,用Order(w,J)表示每个训练图像都有一段注释文字s用于解决图像J的语义,则Order(w,J)定义为:
Figure C2006100534030003C1
关键词w在语义骨架Ti语义重要性的均值定义为AvgOrder(w,Ti),其计算如下:
AvgOrder ( w , T i ) = 1 # ( w , T i ) &Sigma; T &Element; J w &Element; J Order ( w , J ) - - - 7
其中#(w,Ti)表示关键词w在语义骨架Ti中出现的次数,J表示语义骨架Ti中的图像。
4.根据权利要求2所述的基于标注重要性次序的图像语义自动标注方法,其特征在于,所述的视觉重要性是指:图像语义子块b在训练图像J中的重要性,用OrderB(b,J)表示,其计算公式如下:
OrderB ( b , J ) = Size ( b ) Dis tan ce ( b ) - - - 8
其中Size(b)表示b在图像J中的面积,Distance(b)表示b离图像J中心的距离;图像子块b在语义骨架Ti的视觉重要性的均值定义为AvgOrderB(b,Ti),其计算如下:
AvgOrderB ( b , T i ) = 1 # ( b , T i ) &Sigma; J &Element; T i , b &Element; J OrderB ( b , J ) - - - 9
其中#(b,Ti)表示图像语义子块b在语义骨架Ti中出现的次数,J表示语义骨架Ti中的图像。
5.根据权利要求1所述的基于标注重要性次序的图像语义自动标注方法,其特征在于,所述的用关键词集合和图像语义子块来表示语义骨架的步骤如下:
(1)每一个训练图像都有一段注释文字s用于解决图像J的语义,将训练集中每个图像的注释文字s中的名词和形容词提取出来构成的集合作为关键词集合;
(2)语义子块集合描述了整个图像集包含的所有语义子块,采用图像分割算法结合聚类算法构造语义子块集合:先对训练集中的每一个图像进行分割,形成若干子块,然后进行聚类,形成的聚类中心就是语义子块,这样每一个图用语义子块表示;
(3)在形成语义骨架时,计算关键词和图像子块的重要性次序。
CNB2006100534038A 2006-09-14 2006-09-14 基于标注重要性次序的图像语义自动标注方法 Expired - Fee Related CN100401302C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100534038A CN100401302C (zh) 2006-09-14 2006-09-14 基于标注重要性次序的图像语义自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100534038A CN100401302C (zh) 2006-09-14 2006-09-14 基于标注重要性次序的图像语义自动标注方法

Publications (2)

Publication Number Publication Date
CN1920820A CN1920820A (zh) 2007-02-28
CN100401302C true CN100401302C (zh) 2008-07-09

Family

ID=37778546

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100534038A Expired - Fee Related CN100401302C (zh) 2006-09-14 2006-09-14 基于标注重要性次序的图像语义自动标注方法

Country Status (1)

Country Link
CN (1) CN100401302C (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100592297C (zh) * 2008-02-22 2010-02-24 南京大学 一种基于表示转换的多义数字图像检索方法
CN101359330B (zh) * 2008-05-04 2015-05-06 索意互动(北京)信息技术有限公司 内容扩展的方法和系统
CN101315638B (zh) * 2008-05-28 2016-01-13 索意互动(北京)信息技术有限公司 添加专属扩展词的方法和系统
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
CN101315663B (zh) * 2008-06-25 2010-06-09 中国人民解放军国防科学技术大学 一种基于区域潜在语义特征的自然场景图像分类方法
EP2380093B1 (en) * 2009-01-21 2016-07-20 Telefonaktiebolaget LM Ericsson (publ) Generation of annotation tags based on multimodal metadata and structured semantic descriptors
CN101685464B (zh) * 2009-06-18 2011-08-24 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
CN101937301B (zh) * 2009-06-30 2013-10-30 株式会社理光 在查询图像上导航显示的方法和设备
CN101620615B (zh) * 2009-08-04 2011-12-28 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
WO2011094757A1 (en) 2010-02-01 2011-08-04 Google Inc. Joint embedding for item association
CN101937558B (zh) * 2010-08-10 2012-04-25 浙江大学 一种基于图像内容的标签添加方法
CN102298606B (zh) * 2011-06-01 2013-07-17 清华大学 基于标签图模型随机游走的图像自动标注方法及装置
CN102509121A (zh) * 2011-11-11 2012-06-20 东南大学 一种基于类别分布的自然场景分类排序方法
CN102496146B (zh) * 2011-11-28 2014-03-05 南京大学 一种基于视觉共生的图像分割方法
US9239848B2 (en) * 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
CN102722520A (zh) * 2012-03-30 2012-10-10 浙江大学 一种基于支持向量机的图片重要性分类方法
CN103853797B (zh) * 2012-12-07 2017-10-17 中兴通讯股份有限公司 一种基于n元图片索引结构的图片检索方法与系统
CN103544500B (zh) * 2013-10-22 2017-01-18 东南大学 多用户自然场景标记排序方法
CN103714178B (zh) * 2014-01-08 2017-01-25 北京京东尚科信息技术有限公司 一种基于词间相关性的图像自动标注方法
CN105912684B (zh) * 2016-04-15 2019-07-26 湘潭大学 基于视觉特征和语义特征的跨媒体检索方法
CN107562742B (zh) * 2016-06-30 2021-02-05 江苏苏宁云计算有限公司 一种图像数据处理方法及装置
CN106295706B (zh) * 2016-08-17 2019-04-19 山东大学 一种基于形状视觉知识库的图像自动分割和语义注释方法
CN106650775B (zh) * 2016-10-12 2020-04-10 南京理工大学 可同时挖掘视觉和语义相似性的图像标注方法
CN108182443B (zh) * 2016-12-08 2020-08-07 广东精点数据科技股份有限公司 一种基于决策树的图像自动标注方法和装置
CN108268875B (zh) * 2016-12-30 2020-12-08 广东精点数据科技股份有限公司 一种基于数据平滑的图像语义自动标注方法及装置
CN108985298B (zh) * 2018-06-19 2022-02-18 浙江大学 一种基于语义一致性的人体衣物分割方法
CN108875828B (zh) * 2018-06-19 2022-01-28 太原学院 一种相似图像的快速匹配方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6731788B1 (en) * 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
CN1504957A (zh) * 2002-11-26 2004-06-16 Ge医药系统信息科技公司 标注正交图像的方法和系统
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6731788B1 (en) * 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
CN1504957A (zh) * 2002-11-26 2004-06-16 Ge医药系统信息科技公司 标注正交图像的方法和系统

Also Published As

Publication number Publication date
CN1920820A (zh) 2007-02-28

Similar Documents

Publication Publication Date Title
CN100401302C (zh) 基于标注重要性次序的图像语义自动标注方法
Jin et al. Efficient decision tree construction on streaming data
Ko et al. Automatic text categorization by unsupervised learning
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN102945228B (zh) 一种基于文本分割技术的多文档文摘方法
CN102254192B (zh) 基于模糊k近邻的三维模型半自动标注方法及系统
CN101923653B (zh) 一种基于多层次内容描述的图像分类方法
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
Chua et al. TRECVID 2004 Search and Feature Extraction Task by NUS PRIS.
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
Wang et al. Automatic image annotation and retrieval using subspace clustering algorithm
CN109582783B (zh) 热点话题检测方法及装置
CN105740378A (zh) 一种数字病理全切片图像检索方法
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN112256865B (zh) 一种基于分类器的中文文本分类方法
CN103064846B (zh) 检索装置和检索方法
Wei et al. Representing word image using visual word embeddings and RNN for keyword spotting on historical document images
Rui et al. A Novel Approach to Auto Image Annotation Based on Pairwise Constrained Clustering and Semi-Na ï ve Bayesian Model
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
Elfayoumy et al. A survey of unstructured text summarization techniques
CN107491814B (zh) 一种用于知识推送的过程案例分层知识模型构建方法
Shi et al. Exploiting visual word co-occurrence for image retrieval
CN107423294A (zh) 一种社群图像检索方法及系统
Lu et al. Automatic image annotation based-on model space

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080709

Termination date: 20120914