CN1920820A

CN1920820A - 基于标注重要性次序的图像语义自动标注方法

Info

Publication number: CN1920820A
Application number: CN 200610053403
Authority: CN
Inventors: 庄越挺; 吴飞; 鲁伟明; 吴江琴
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2007-02-28
Anticipated expiration: 2026-09-14
Also published as: CN100401302C

Abstract

本发明公开了一种基于标注重要性次序的图像语义自动标注方法，包括以下步骤：(1)对训练图像集进行分类，形成一系列内容一致的图像集；(2)对每一个图像集构建语义骨架，将其中的图像用语义骨架表示，同时计算图像的关键词重要性次序和图像子块的重要性次序；(3)用统计学习的方法进行图像自动标注。本发明在图像自动标注时，考虑了图像区域子块的重要性和训练集中文本的重要性次序，有效的解决了图像自动标注准确性和词频畸形分布的问题，从而支持基于语义的图像检索。

Description

基于标注重要性次序的图像语义自动标注方法

技术领域

本发明涉及计算机多媒体技术领域，尤其涉及一种基于标注重要性次序的图像语义自动标注方法。

背景技术

在多媒体检索领域中，基于内容的检索系统预先得到图像或视频的视觉感知特征(如颜色直方图、纹理、形状、运动矢量等)，查询时要求用户提供描述所需图像的特征，然后进行匹配。这种查询方式普通用户难以理解，很难推广使用。另外，视觉感知特征很难反映图像所表达的概念，查询准确率不高。人们更倾向于使用关键词在语义层上进行查询，但图像数据中存在着“语义鸿沟”，使得传统的基于内容的图像检索技术无法满足用户的需求。

图像标注能有效地弥补语义缺失给检索带来的麻烦，但是巨大的人力，物力代价使得纯手工的标注变得不切实际，而且图像寓意丰富，而手工标注存在主观性，从而导致图像检索的不准确性。

图像自动标注算法采用了统计模型，希望通过机器学习的方法自动标注图像，这些模型将标注过程看成是将图像翻译成文本内容的过程。

在第一届多媒体智能存储和检索管理会议论中(In First International Workshop onMultimedia Intelligent Storage and Retrieval Management)公布了一种Co-occurrence的模型中，研究人员将图像划分成规则区域，然后将这些区域进行分类，根据不同类别的图像区域和关键词的共生概率来计算图像应该被赋予某一关键词的概率大小。而计算机视觉欧洲2002会议论文集中(In Proceedings of 7^th European Conference on Computer Vision，pp.97-112，2002)则使用了blob词组的概念，每一张图像都可以看作是由一些blob词汇组成的语句。他们提出了一种转换模型(Translate Model)，来计算将一张由blob组成的图像转换成由某些关键词组成的标注结果的概率。另外一种有效的方式是使用SIGIR2003年会议论文集中(InProceedings of SIGIR 03 Conference，Toronto，Canada，2003)提出的跨媒体相关模型(FACMRMModel)。这个模型计算每个关键词和blob组的联合分布概率作为将这一关键词标注给图像的依据。

然而，以上的这些方法都存在着一个词频分布畸形的问题，根据研究表明，在自动标注模型中作为匹配图像和关键词的重要依据就是图像区域和已标注关键词的共生统计。因此如果关键词“X”和某一类图像区域共生频率远高于其它关键词和这一类图像区域的共生频率的时候，这个关键词“X”就应该以极大的概率标注给包含这类图像区域的图像。根据Zipf’s定律，即极少数的关键词频繁出现在训练图像中，在标注的结果中，这些高频的少数关键词将会占所有被标注关键词的绝大多数。这就意味着，除非用户使用这些少数的关键词进行语义检索，否则，只有少量的图像能够被检索出来。随着数据量的增大，这个问题带来的负面效应将会越来越明显。

发明内容

本发明的目的是为了克服已有图像自动标注算法的不足之处，提出了一种基于标注重要性次序的图像语义自动标注方法。

它包括训练标注图像集和图像自动标注两部份，其中

(1)训练标注图像集包括如下步骤：

a)对于训练图像集分类，用分类算法将标注图像集分成内容一致的图像集；

b)用关键词集合和图像语义子块来表示语义骨架，；

(2)图像自动标注包括如下步骤：

a)对于图像自动标注，先将未标注的图像分类到已构造语义骨架的某一个图像集中，

b)再将该图像进行分割，并用语义骨架中的语义子块进行表示，计算语义骨架中每一个关键词w可以表示该未标注图像I的概率P(w|I)，P(w|I)的计算公式如下所示：

P(w|I)≈P(w|b₁，b₂…b_m)≈p(w，b₁，b₂…b_m) 1

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w, b_{1}, b_{2} . . . b_{m} | J) - - - 2

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w | J) Π_{k = 1}^{m} P (b_{k} | J) - - - 3

P (w | J) = \frac{(1 - α) \times # (w, J) \times Order (w, J)}{| J |} + \frac{α \times # (w, T_{i}) \times AvgOrder (w, T_{i})}{| T_{i} |} - - - 4

P (b | J) = \frac{(1 - β) \times # (b, J) \times OrderB (b, J)}{| J |} + \frac{β \times # (b, T_{i}) \times AvgOrderB (b, T_{i})}{| T_{i} |} - - - 5

其中T_i表示待标注图像I被分到的图像语义类；|T_i|表示语义骨架T_i中的图像的个数；J为图像语义类T_i中的图像；|J|是图像J中的语义子块和关键词数目总和；w为语义骨架T_i中关键词集合中的词；b为图像语义子块；#(w，J)是w在J中出现的次数，#(w，T_i)是w在语义T_i中出现的次数；#(b，J)是b在J中出现的次数，#(b，T_i)是b在语义T_i中出现的次数；Order(w，J)为w在图像J中的位置信息，表示w在J中的语义重要性；AvgOrder(w，T_i)为w在语义类别T_i中的语义重要性的均值；OrderB(b，J)表示b在图像J中的视觉重要性；AvgOrdeB(b，T_i)为b在语义类别T_i中的视觉重要性的均值；先验概率P(J)保持唯一，用J在语义类别T_i中的出现概率表示。

c)选择最大概率的若干关键词作为该未标注图像的标注词。

在基于标注重要性次序的图像语义自动标注方法中，所述的标注重要性次序包括语义重要性和视觉重要性。

语义重要性是指：关键词集合中的关键词w在训练图像J中的重要性，用Order(w，J)表示；每一个训练图像都有一段注释文字s用于解决图像J的语义，则Order(w，J)定义为：

关键词w在语义骨架T_i语义重要性的均值定义为AvgOrder(w，T_i)，其计算如下：

AvgOrder (w, T_{i}) = \frac{1}{# ({w, T}_{i})} \underset{J &Element; T_{i}, w &Element; J}{Σ} Order (w, J) - - - 7

其中#(w，T_i)表示关键词w在语义骨架T_i中出现的次数，J表示语义骨架T_i中的图像。

视觉重要性是指：图像语义子块b在训练图像J中的重要性，用OrderB(b，J)表示，其计算公式如下：

OrderB (b, J) = \frac{Size (b)}{Dis \tan ce (b)} - - - 8

其中Size(b)表示b在图像J中的面积，Distan ce(b)表示b离图像J中心的距离；图像子块b在语义骨架T_i的视觉重要性的均值定义为AvgOrderB(b，T_i)，其计算如下：

AvgOrderB ({b, T}_{i}) = \frac{1}{# ({b, T}_{i})} \underset{J &Element; T_{i}, b &Element; J}{Σ} OrderB (b, J) - - - 9

其中#(b，T_i)表示图像语义子块b在语义骨架T_i中出现的次数，J表示语义骨架T_i中的图像。

所述的用关键词集合和图像语义子块来表示语义骨架的步骤如下：

(1)每一个训练图像都有一段注释文字s用于解决图像J的语义，将训练集中每个图像的注释文字s中的名词和形容词提取出来构成的集合作为关键词集合；

(2)语义子块集合描述了整个图像集包含的所有语义子块，采用图像分割算法结合聚类算法构造语义子块集合：先对训练集中的每一个图像进行分割，形成若干子块，然后进行聚类，形成的聚类中心就是语义子块，这样每一个图都可以用语义子块表示；

(3)在形成语义骨架时，计算关键词和图像子块的重要性次序，该重要性次序用描述文本的词序顺序和图像子块的大小位置来表示；对于描述前景主体和背景环境的名词和位于图像中心或区域面积较大的子块，其重要性较大。

本发明的基于标注重要性次序的图像语义自动标注方法具有如下的有益效果：本发明应用了关键词顺序和图像区域顺序解决了原有相关模型在图像自动标注应用上带来的词频分布畸形问题，在解决了词频分布畸形的同时使被标注图片包含了更多的有效关键词，这将提高图像检索的准确度，增加图像检索的性能。

附图说明

图1为基于标注重要性次序的图像语义自动标注方法工作流程图；

图2为本发明与其他模型低频关键词被标注的覆盖率的比较图；

图3为本发明在实施例中的图像子集“马”所含的图像集合图；

图4为本发明在实施例中的语义子块“马”所含的图像子块集合图；

图5为本发明在实施例中的语义子块“草地”所含的图像子块集合图；

图6为本发明在实施例中的待标注图；

图7为本发明在实施例中的分割后的图像子块图。

具体实施方式

如图1所示，在流程图中，先把训练图像集按底层特征进行分类，形成一系列内容一致的图像集。每一个图像集经过图像分割、图像子块聚类、统计学习得到一个语义骨架。在标注过程中，将未标注图像进行分类，用从属的图像集的语义子块表示该图像的子块，再计算语义骨架中的每一个关键词的概率，最后选择最大概率的若干关键词作为未标注图像的语义

本发明的具体步骤如下：

1.训练标注图像集

1)训练图像集分类(步骤101)

将训练标注图像集基于底层特征进行分类，每一类都形成一个内容一致的图像集。

2)形成语义骨架(步骤102)

假设C是一个已经具有文本标注并且内容一致的图像集合，C中的每个图像I的标注信息可以表示成I＝{w₁，w₂，…，w_m}，其中w_i((1≤i≤m)是标注的关键词。图像集合的语义骨架Skeleton可以定义成一个四元组Skeleton＝<ID，KeywordSet，SemanticBlobSet>，各项的含义如下：

ID：图像集合的标识

KeywordSet：关键词集合

SemanticBlobSet：语义子块集合

关键词集合和语义子块集合是语义骨架的主要部分。关键词集合的构造：把C中每个图像的关键词提取出来构成的集合就可以作为KeywordSet＝{w₁，w₂，...，w_M}，描述I的每个关键词就是KeywordSet中的某一项。语义子块集合SemanticBlobSet＝{b₁，b₂，…，b_M}抽象地描述整个图像集合包含的关键图像对象，其中每一项b_j(1≤j≤N)抽象地描述了C拥有的一个有效关键对象。一般说来，可以采用图像分割结合聚类算法构造语义子块集合：首先对C中的每个图像进行分割，形成若干个子块。考虑属于C的所有子块，对这些子块进行聚类。语义子块集合就由这些子块的聚类构成，其中b_i(1≤f≤N)是各个子块的聚类标识。

构造了语义骨架后，可以把集合中的图像I表示成语义骨架的一个实例。对属于I的每个图像子块，从SemanticBlobSet中找出与它最相似的聚类b，来标识它。这样I就可以表示成I＝{w₁，w₂，...，w_m；b₁，b₂，...，b_n}。语义骨架包含的关键词集合和语义子块集合分别在语义级别和底层特征级上描述了图像集合，可以通过求取它们之间的相关性，达到语义自动标注的目的。

在形成语义骨架的同时计算重要性次序。在训练图像中，每一个训练图像都有一段注释文字s用于解决图像J的语义，这段所带的描述文本的词序顺序反映了不同关键词对图像的不同重要性，用Order(w，J)表示关键词集合中的关键词w在训练图像J中的重要性，由于作为描述前景主体和背景环境的名词比形容词更能体现图像语义，因此这些词体现了更多的重要性，对于这些词，就增加其权重，Order(w，J)的计算公式如下：

AvgOrder (w, T_{i}) = \frac{1}{# ({w, T}_{i})} \underset{J &Element; T_{i}, w &Element; J}{Σ} Order (w, J)

对于图像子块，可以发现位于图像中心的或者区域面积比较大的子块，一般反映了图像的语义信息，可以用图像区域中心的距离值和图像区域的大小来反映图像子块的重要性信息。

用Order(w，J)表示w在图像J中的位置信息，表示w在J中的语义重要性；用OrderB(b，J)为表示图像子块b在图像J中的视觉重要性，其中Size(b)表示b在图像J中的面积，Dis tan ce(b)表示b离图像J中心的距离。

图像子块b在语义骨架T_i的视觉重要性的均值定义为AvgOrderB(b，T_i)，其计算如下：

AvgOrderB ({b, T}_{i}) = \frac{1}{# ({b, T}_{i})} \underset{J &Element; T_{i}, b &Element; J}{Σ} OrderB (b, J)

2.图像自动标注

假设由K类图像组成的训练集为T＝T₁∪T₂∪…∪T_K，其中T_i表示第i类已标注的训练图像集合。采用训练图像标注集的方法，为每一类图像构造语义骨架，每一个训练图像J都可以表示为J＝{w₁，w₂，...，w_m；b₁，b₂，…，b_n}，w_i是第i个标注关键词，b_j对应于图像第j个子块的标识。每个训练图像对应的m和n不必相同，且n取决于图像的复杂程度。

1)未标注图像分类(步骤103)

为了更加准备的对图像进行自动标注，首先对未标注的图像进行分类。假设一个未标注的图像I被自动分到类别T_i中。

2)用语义子块表示未标注图像(步骤104)

将未标注图像进行分割，然后以T_i的语义骨架为标准，计算I中每个图像子块与T_i中语义子块的相似性，用语义子块的标识。这样I就可以表示成I＝{b₁，b₂，…，b_n}。

3)自动标注(步骤105)

自动标注希望选取一组最合适的关键词{w₁，w₂，…，w_m}作为I的文本标注，即选取若干个概率P(w|I)最大的关键词w。由于训练集中的图像用关键词和语义子块两种不同的方式描述同一个主题(图像内容)，标注过程可以看成是把语义子块翻译成关键词的过程，P(w|I)可以按下式进行计算：

P(w|I)≈P(w|b₁，b₂…b_m)≈p(w，b₁，b₂…b_m)

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w, b_{1}, b_{2} . . . b_{m} | J)

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w | J) Π_{i = 1}^{m} P (b_{i} | J)

P (w | J) = \frac{(1 - α) \times # (w, J) \times Order (w, J)}{| J |} + \frac{α \times # (w, T_{i}) \times AvgOrder (w, T_{i})}{| T_{i} |}

P (b | J) = \frac{(1 - β) \times # (b, J) \times OrderB (b, J)}{| J |} + \frac{β \times # (b, T_{i}) \times AvgOrderB (b, T_{i})}{| T_{i} |}

其中T_i表示待标注图像I被分到的图像语义类；|T_i|表示语义骨架T_i中的图像的个数；J为图像语义类T_i中的图像；|J|是图像J中的语义子块和关键词数目总和；w为语义骨架T_i中关键词集合中的词；b为图像语义子块；#(w，J)是w在J中出现的次数，#(w，T_i)是w在语义T_i中出现的次数；#(b，J)是b在J中出现的次数，#(b，T_i)是b在语义T_i中出现的次数；Order(w，J)为w在图像J中的位置信息，表示w在J中的语义重要性；AvgOrder(w，T_i)为w在语义类别T_i中的语义重要性的均值；OrderB(b，J)表示b在图像J中的视觉重要性；AvgOrderB(b，T_i)为b在语义类别T_i中的视觉重要性的均值；先验概率P(J)保持唯一，用J在语义类别T_i中的出现概率表示。

为了考察本发明的性能，使用Corel图像库中5000幅图像作为实验数据集，分为50类，每类有100个图像，从中抽取90张作为训练数据，10张作为测试数据。整个训练库分为50个语义类别，每一个类别中的语义子块类别为20，总共包括了373个关键词和1000个语义子块。在使用RBF核的多类支持向量机分类器的情况下，获得了54.5％的语义分类准确率，就是说272张测试图片被正确分类。为了定量评价算法的性能，利用训练集中包含的所有373个作为查询去检索图像，然后计算平均查全率和查准率。在检索过程中，如果图像标注结果的关键词中包含查询关键词，就把该图像作为查询结果返回。把图像的手工标注作为评价查询相关性的标准。查全率是正确检索到的图像数目除以所有相关的图像数目。查准率是正确检索到的图像数目除以检索返回的图像数目。把查全率和查准率都大于零的关键词称为有效关键词。查全率大于0.4查准率大于0.14的为良好关键词。本发明方法与Co-occurrence Model，Translation Model，FACMRM作了比较，用平均查全率和平均查准率作了有效关键词之间的比较，比较结果如下：

模型	Co-occurrence	Translation	FACMRM	本发明的模型
模型	Co-occurrence	Translation	FACMRM	本发明的模型	有效关键词	19	49	66	117
平均查全率	0.39	0.34	0.30	0.571	有效关键词	19	49	66	117
平均查全率	0.39	0.34	0.30	0.571	平均查准率	0.25	0.20	0.19	0.274

用平均查全率、平均查准率和F-measure作了良好关键词之间的比较，比较结果如下：

模型	Co-occurrence	Translation	FACMRM	本发明的模型
模型	Co-occurrence	Translation	FACMRM	本发明的模型	良好关键词	5	15	32	57
平均查全率	0.79	0.63	0.68	0.672	良好关键词	5	15	32	57
平均查全率	0.79	0.63	0.68	0.672	平均查准率	0.26	0.28	0.39	0.375
F-measure	0.39	0.39	0.47	0.483	平均查准率	0.26	0.28	0.39	0.375

附图2展示了重要性较高的而频率较低的词的覆盖率的差别。虚线为其他的模型，实线为本发明的模型，在图2中，本发明低频词被标注的覆盖率为23.3％，远远大于其他模型的5.92％，这意味着，在保持了较高的查全率和查准率的情况下，本发明的方法标注的结果中包含的低频关键词更多。这表示，原有的方法中将大量的无效高频关键词标注给了测试图像。而这样做的结果使得用户在查询中可以使用的关键字被紧紧地局限在这些少数的高频关键词中，带来的直接后果就是检索能力的下降。反过来说，本发明标注的结果使得用户在使用别的非高频关键词查询时候也有相当的图像能被检索命中。

实施例1

给定6000张图像，其中5000张图像已含有标注信息作为标注方法的训练图像集，实施例对剩下的1000张图像进行图像自动标注。

(1)先对训练图像集进行支持向量机分类，形成内容一致的图像子集。在该实施例中，形成50个图像子集，每个子集大约100张图像，如附图3所示为归到图像子集“马”中的几个图像。

(2)对每一个图像子集中的图像都进行图像分割，形成若干图像子块，对图像子块进行聚类。图像子集“马”分割聚类后形成的20个类，附图4和附图5为其中的两个语义子块中所含的图像子块集合图，分别表示“马”和“草地”，可以用各自的图像子块的底层特征聚类中心来表示该类。

(3)将聚类中心定义为语义子块集合，图像所带的关键词集合和语义子块集合构成该图像子集的语义骨架。此时图像可以由这些关键词和语义子块表示，即：对图像中的每个图像子块，从语义子块集合中找出与它最相似的聚类来标识它。用语义骨架表示图像子集中的每一个图像，并统计关键词和语义子块在图像子集中出现的次数。假设J为图像集T_i中的图像，则可以得到：|J|是图像J中的语义子块和关键词数目总和；#(w，J)是w在J中出现的次数，#(w，T_i)是w语义T_i中出现的次数。#(b，J)是b在J中出现的次数，#(b，T_i)是b在语义T_i中出现的次数。

(4)根据图像子块b的大小、位置信息计算图像子块的重要性，计算得到：OrderB(b，J)为

表示b在图像J中的视觉重要性，Size(b)表示b在图像J中的面积，Distan ce(b)表示b离图像J中心的距离，AvgOrderB(b，T_i)为b在语义类别T_i中的视觉重要性的均值；根据关键词w在训练图像J标注信息的位置计算关键词w的重要性，计算得到：Order(w，J)为w在图像J中的位置信息，表示w在J中的语义重要性；AvgOrder(w，T_i)为w在语义类别T_i中的语义重要性的均值。

(5)给出待标注图像I，如图6所示。

(6)对待标注图像进行分割，得到结果如图7所示，计算每一个图像子块的面积和离图像中心的距离。

(7)将待标注图像根据底层特征和纹理特征进行分类，设被分到语义类T_i中，用语义类T_i的语义骨架表示该图像。经计算可以得到，图7中子块b1在底层特征上与图4所表示的聚类最近，用图4所示的语义子块来表示图像子块b1；图7中其他子块在底层特征上与图5所表示的聚类最近，用图5所示的语义子块来表示图像子块b2，b3，b4，b5。

(8)对语义类T_i中的每一个关键词w计算P(w|I)，计算公式如下：

P(w|I)≈P(w|b₁，b₂…b_m)≈p(w，b₁，b₂…b_m)

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w, b_{1}, b_{2} . . . b_{m} | J)

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w | J) Π_{i = 1}^{m} P (b_{i} | J)

P (w | J) = \frac{(1 - α) \times # (w, J) \times Order (w, J)}{| J |} + \frac{α \times # (w, T_{i}) \times AvgOrder (w, T_{i})}{| T_{i} |}

P (b | J) = \frac{(1 - β) \times # (b, J) \times OrderB (b, J)}{| J |} + \frac{β \times # (b, T_{i}) \times AvgOrderB (b, T_{i})}{| T_{i} |}

(9)选择P(w|I)最大的几个关键词作为图I的标注词。

Claims

1.一种基于标注重要性次序的图像语义自动标注方法，其特征在于它包括训练标注图像集和图像自动标注两部分，其中

(1)训练标注图像集包括如下步骤：

a)对于训练图像集分类，用支持向量机分类算法将标注图像集分成内容一致的图像集；

b)用关键词集合和图像语义子块来表示语义骨架；

(2)图像自动标注包括如下步骤：

a)对于图像自动标注，先将未标注的图像分类到已构造语义骨架的某一个图像集中；

P(w|I)≈P(w|b₁，b₂...b_m)≈p(w，b₁，b₂...b_m) 1

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w, b_{1}, b_{2} . . . b_{m} | J) . . . 2

P (w | b_{1}, b_{2} . . . b_{m}) = \underset{J &Element; T_{i}}{Σ} P (J) P (w | J) Π_{k = 1}^{m} P (b_{k} | J) . . . 3

P (w / J) = \frac{(1 - α) \times # (w, J) \times Order (w, J)}{| J |} + \frac{α \times # (w, T_{i}) \times AvgOrder (w, T_{i})}{| T_{i} |} . . . 4

P (b / J) = \frac{(1 - β) \times # (b, J) \times OrderB (b, J)}{| J |} + \frac{β \times # (b, T_{i}) \times AvgOrderB (b, T_{i})}{| T_{i} |} . . . 5

其中T_i表示待标注图像I被分到的图像语义类；|T_i|表示语义骨架T_i中的图像的个数；J为图像语义类T_i中的图像；|J|是图像J中的语义子块和关键词数目总和；w为语义骨架T_i中关键词集合中的词；b为图像语义子块；#(w，J)是w在J中出现的次数，#(w，T_i)是w在语义T_i中出现的次数；#(b，J)是b在J中出现的次数，#(b，T_i)是b在语义T_i中出现的次数；Order(w，J)为w在图像J中的位置信息，表示w在J中的语义重要性；AvgOrder(w，T_i)为w在语义类别T_i中的语义重要性的均值；OrderB(b，J)表示b在图像J中的视觉重要性；AvgOrderB(b，T_i)为b在语义类别T_i中的视觉重要性的均值；先验概率P(J)保持唯一，用J在语义类别T_i中的出现概率表示；

c)选择最大概率的若干关键词作为该未标注图像的标注词。

2.根据权利要求1所述的基于标注重要性次序的图像语义自动标注方法，其特征在于，所述的标注重要性次序包括语义重要性和视觉重要性。

3.根据权利要求2所述的基于标注重要性次序的图像语义自动标注方法，其特征在于，所述的语义重要性是指：关键词集合中的关键词w在训练图像J中的重要性，用Order(w，J)表示；每一个训练图像都有一段注释文字s用于解决图像J的语义，则Order(w，J)定义为：

AvgOrder (w, T_{i}) = \frac{1}{# (w, T_{i})} \underset{J &Element; T_{i}, w &Element; J}{Σ} Order (w, J) . . . 7

4.根据权利要求2所述的基于标注重要性次序的图像语义自动标注方法，其特征在于，所述的视觉重要性是指：图像语义子块b在训练图像J中的重要性，用OrderB(b，J)表示，其计算公式如下：

OrderB (b, J) = \frac{Size (b)}{Dis \tan ce (b)} . . . 8

其中Size(b)表示b在图像J中的面积，Distan ce(b)表示b离图像J中心的距离；

AvgOrderB (b, T_{i}) = \frac{1}{# (b, T_{i})} \underset{J &Element; T_{i}, b &Element; J}{Σ} Or \det B (b, J) . . . 9

5.根据权利要求1所述的基于标注重要性次序的图像语义自动标注方法，其特征在于，所述的用关键词集合和图像语义子块来表示语义骨架的步骤如下：

(2)语义子块集合描述了整个图像集包含的所有语义子块，采用图像分割算法结合聚类算法构造语义子块集合：先对训练集中的每一个图像进行分割，形成若干子块，然后进行聚类，形成的聚类中心就是语义子块，这样每一个图用语义子块表示；

(3)在形成语义骨架时，计算关键词和图像子块的重要性次序。