CN101075263A

CN101075263A - 融合伪相关反馈与检索技术的自动图像标注方法

Info

Publication number: CN101075263A
Application number: CN 200710118106
Authority: CN
Inventors: 赵耀; 赵玉凤; 朱振峰
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2007-11-21
Anticipated expiration: 2027-06-28
Also published as: CN100535906C

Abstract

本发明提供一种融合伪相关反馈与检索技术的自动图像标注方法，包含：步骤1，在已标注的图像库中对未标注的查询图像进行检索，得到k个相关图像及相关图像的标注词集合；步骤2，计算每个标注词标注查询图像的后验概率；步骤3，根据k个相关图像提取均值向量作为新的查询向量，重复步骤1、2，直到最大迭代次数N；步骤4，计算每个标注词在每轮标注词集合中的稳定性因子；步骤5，根据后验概率及稳定性因子的值，计算每个标注词标注查询图像的排序概率，对查询图像进行标注。本发明的优点在于：提高了检索性能及标注的准确性，极大地改善了标注的可伸缩性，是一个灵活可靠、有实用价值的标注方法。

Description

融合伪相关反馈与检索技术的自动图像标注方法

技术领域

本发明涉及一种新型的自动图像标注方法，尤其涉及一种融合伪相关反馈与检索技术的自动图像标注方法。

背景技术

随着大量多媒体的出现，对其进行有效地管理和检索成为目前一个重要的研究课题。在上世纪70到80年代，对图像的检索主要是基于文本的检索，与图像相关的文本都是手工标注上去的，标注的工作量大，而且依赖于标注者的个人主观判断。在1992年首次提出了基于内容的图像检索(CBIR-Content Based Image Retrieval)技术，它可以自动提取图像的底层特征、自动检索。现在有许多CBIR系统已经被开发出来。然而，由于“语义鸿沟”问题的存在，使得检索结果的精度不高，不能满足用户的需求。因此，最近提出了自动图像标注方法，可以有效地缓解这个问题，减少了工作量与标注的主观性，又可以保留基于文本检索的优点。

在自动图像标注研究中，如何学习建立图像内容与关键词之间的关系模型是一项关键技术。通常来说，在已经标注好的训练图像集合中，关键词是标注给整幅图像的，由于将图像分割成了区域的集合，因此并未标注到区域上。首先，在每幅图像中，找到区域与标注词之间的一个对应关系。然后，根据这个对应关系，建立图像内容与关键词之间的关系模型。因此，研究的目的在于如何找到区域与关键词之间的对应关系，使之尽可能的准确。

在现有技术中，已经有许多成熟的自动图像标注方法，一类标注是基于概率模型的方法。其中，早期的Barnard and Duygulu等人提出的基于翻译模型(TM)的标注策略是比较经典的方法。根据关键词与区域的共现信息，使用了经典的统计机器翻译模型，将图像的一系列关键词翻译成区域符号的集合。为了进一步提高建立区域与关键词的概率关系模型，人们相继引入了隐变量的概率模型、相关图像与标注词之间概率模型等一系列的基于概率模型的标注方法，具有更好的标注性能。这类方法要求不断的估计概率模型中的参数，而且在图像内容与关键词之间存在的“语义鸿沟”，使得标注性能受到很大的制约。

第二类标注是基于分类的方法，在这类方法中，每一个关键词作为一个独立的语义类别。具有代表性的工作有应用支持向量机(SVM-Support Vector Machine)进行的分类、贝叶斯点机制、自动语言索引、以及估计每个关键词的视觉特征的分布等标注方法。由于每个关键词建立一个分类器，因此这类方法不太适用大量关键词的情况，限制了标注方法的可移植性。

第三类标注是基于图的方法，这类方法将图像描述成一个图的连接关系。其中，Pan等首次提出了基于图的自动标注(CCap-Graph-basedautomatic caption)方法，他们将所有图像、区域和关键词表达成为一个节点的三种数据类型，并根据三者内在的联系连接建立成一个图。另外，基于流行排序的图像标注方法也被提出。这类方法受到训练图像集合大小的制约，如果训练集增大，那么建立的图也会变得很庞大。

第四类标注是融合了检索技术的标注方法，该方法有效地融合了当前的检索技术进行标注，进而提高了图像标注的性能。在这种图像标注方法里，将未标注的图像看作是查询图像。首先，根据检索技术找到查询图像的一些相关图像集合。然后，从相关图像的标注词的集合中，可以应用一些文本技术挖掘出标注结果。首次提出融合检索技术进行标注的方法，即AnnoSearch方法，该方法要求用户给查询图像一个初始标注词，可以说该方法是一个半自动的过程。为了简化标注过程，进行改进，提出了基于检索的标注算法(SBIA-Search Based Image Annotation)，该方法无须用户提供初始标注词，实现了检索与标注的全自动化。基于检索的标注方法避免了复杂的参数学习的过程。而且，由于通过检索找到相关的图像，因此，该方法不受训练集或者标注词集合的限制。最近，这种标注方法受到很大的关注。

下面，对现有的基于检索的标注策略做一介绍性的比较。

(1)AnnoSearch方法

在AnnoSearch方法中，将未标注图像作为查询图像。首先，由用户给查询图像提供一个初始的标注词。然后，根据基于文本的图像检索技术，在Web中检索到与查询图像相关的图像集合，同时也得到一个相关图像的标注词集合。最后，对这个标注词集合上进行聚类，给出相关标注词的排序列表，从中决定查询图像的标注结果。该方法的检索精度依赖于用户提供的初始标注词，因此，在一定程度增加了用户的负担，而且还具有用户的主观性。

(2)SBIA方法

在SBIA方法中，同样将未标注图像作为查询图像，但不需要用户提供任何的初始标注词。首先，根据基于内容的图像检索方法，在Web中检索到与查询图像相关的图像集合，同样得到一个相关图像的标注词集合。然后，根据文本检索技术，分析标注词集合的每个标注词的相关性，并融合词典中该标注词的重要性，给每个标注词进行排序。该方法实现了完全自动化的标注方法，与AnnoSearch方法比较，该方法减轻了用户的负担，但缺陷在于标注性能仍然很低。

从这两个融合检索的标注方法的实验结果中可以看出，检索结果的优劣，在很大程度上决定了标注的性能。一般来讲，由于减少了用户的负担，消除了用户的主观性，完全自动的图像标注优于半自动的图像标注方法。而且，对图像内容的适应能力越强，标注性能越好。另外，检索效果佳的标注方法优于粗糙检索的标注方法。

然而，现有的这两种融合检索的标注方法中，都是进行简单地初始检索，这严重的限制了相关标注词集合的准确性，制约了标注性能的提高。分析其内在原因，现有的简单检索技术不能获得较多的相关图像；而且，对标注词的排序也是一次性的，缺乏对标注词的本身文本特性较好的利用。

发明内容

基于现有技术中存在的上述缺陷，本发明提供了一种融合伪相关反馈与检索的自动图像标注方法，较好的解决了所述问题。该方法包含：

步骤1：在已标注的图像库中对未标注的查询图像I_q进行检索，得到k个相关图像I_r及相关图像的标注词集合Ψ_w；步骤2：计算每个标注词w(w∈Ψ_w)标注查询图像I_q的后验概率p(w|I_q)；步骤3：根据k个相关图像提取均值向量I_mean作为新的查询向量，重复步骤1、2，直到最大迭代次数N；步骤4：计算每个标注词

w (w &Element; U_{i = 1}^{N} Ψ_{w}^{(i)})

在每轮标注词集合中的稳定性因子λ_i(w)，i＝1，2，...，N；步骤5：根据后验概率p(w|I_q)及稳定性因子λ_i(w)，i＝1，2，...，N的值，计算每个标注词

w (w &Element; U_{i = 1}^{N} Ψ_{w}^{(i)})

标注查询图像I_q的排序概率f(w)，对查询图像I_q进行标注。

一种自动图像标注方法，其中，步骤1进一步包含：确定相关图像I_r与查询图像I_q之间的相似性，由相似性度量公式p(I_r|I_q)＝ω_r·S(I_r|I_q)给出。

一种自动图像标注方法，其中，S(I_r|I_q)＝exp(-D(I_r，I_q))，

ω_{r} = \exp (\frac{{- D (I_{r}, I_{mean})}^{2}}{{2 σ}^{2}}) .

一种自动图像标注方法，其中，步骤2进一步包含：后验概率p(w|I_q)由相似性度量p(I_r|I_q)及每个标注词w(w∈Ψ_w)标注相关图像I_r的概率

确定，p(w|I_q)＝p(w|I_r)·p(I_r|I_q)。

一种自动图像标注方法，其中，

I_{mean} = \frac{1}{k} Σ_{r = 1}^{k} I_{r} .

一种自动图像标注方法，其中，

λ_{i} (w) = {tf}_{i} \times idf = \frac{{tf}_{i}}{\ln (n + 1)} .

一种自动图像标注方法，其中，

f (w) = Σ_{i = 1}^{N} λ_{i} (w) \cdot p_{i} (w | I_{q}) .

本发明的优点在于：(1)在保证标注速度的情况下，应用伪相关反馈技术提高了检索的性能。(2)本发明采用的是完全自动的标注方法。(3)考虑了标注词自身的文本属性，对标注词列表进行了重新排序。

附图说明

图1为本发明的自动图像标注方法的框架模型；

图2为本发明的自动图像标注方法的与现有技术的标注方法的性能比较。

具体实施方式

有关本发明的技术内容及详细说明，现配合附图说明如下：

图1为本发明的融合伪相关反馈与检索的自动图像标注方法的框架模型图。如图所示，步骤1：设定未标注图像I_q为查询图像，在已标注的图像库中进行检索，找到k个最邻近的图像，他们构成了相关图像的集合Ψ_q及相关图像的标注词集合Ψ_w。假设排在最前的几个图像为相关图像，用I_r表示。相关图像I_r与查询图像I_q之间的相似性度量p(I_r|I_q)由下式给出：

p(I_r|I_q)＝ω_r·S(I_r|I_q) (1)

(a)S(I_r|I_q)为相关图像I_r与查询图像I_q之间的相似度，它的定义如下式：

S(I_r|I_q)＝exp(-D(I_r，I_q)) (2)

其中，D(I_r，I_q)是相关图像I_r与查询图像I_q之间的欧式距离。

(b)ω_r为相关图像I_r的权重，反映相关图像I_r自身的可靠性，且满足

Σ_{r = 1}^{k} ω_{r} = 1 .

ω_{r} = \exp (\frac{{- D (I_{r}, I_{mean})}^{2}}{{2 σ}^{2}}) - - - (3)

其中，I_mean和σ分别是k个相关图像的均值与方差，D(I_r，I_mean)是相关图像I_r与均值向量I_mean之间的欧式距离。ω_r越大，I_r的可靠性越大。

其次，为了简化计算，由下式计算每个标注词w(w∈Ψ_w)标注相关图像I_r的概率p(w|I_r)：

步骤2：根据k个相关图像自动提取具有更强表达能力的查询向量，以便进行下一轮的检索，这部分工作被称为查询的修改。即均值向量I_mean作为新的查询向量。

I_{mean} = \frac{1}{k} Σ_{r = 1}^{k} I_{r} - - - (5)

步骤3：综合公式(1)和公式(4)，依据下式计算每个标注词w(w∈Ψ_w)标注查询图像I_q的后验概率p(w|I_q)：

p(w|I_q)＝p(w|I_r)·p(I_r|I_q) (6)

步骤4：重复执行步骤1至3，直到预先设定的最大迭代次数N。具体地说，设定在第i(i＝1，2，...，N)轮检索中，查询图像标记为I_q ⁽ⁱ⁾，得到的相关图像标记为I_r ⁽ⁱ⁾，他们构成的相关图像集合标记为Ψ_q ⁽ⁱ⁾，相关图像的标注词集合标记为Ψ_w ⁽ⁱ⁾，相关图像I_r ⁽ⁱ⁾与查询图像I_q ⁽ⁱ⁾之间的相似性度量标记为p(I_r ⁽ⁱ⁾|I_q ⁽ⁱ⁾)，标注词集合Ψ_w ⁽ⁱ⁾内的每个标注词w标注相关图像I_r ⁽ⁱ⁾的概率标记为p(w|I_r ⁽ⁱ⁾)，以及根据公式(6)计算得到的标注词w标注查询图像I_q的后验概率标记为p_i(w|I_q)。

步骤5：综合N轮的标注词集合Ψ_w ⁽ⁱ⁾，i＝1，2，...，N，计算每个标注词

w (w &Element; U_{i = 1}^{N} Ψ_{w}^{(i)})

在每轮标注词集合中的稳定性λ_i(w)，i＝1，2，...，N。本发明采用了文本检索技术中的tf-idf权重框架，将关键词作为文本检索中的短语，将每轮的关键词集合Ψ_w ⁽ⁱ⁾作为文档，让tf_i表达标注词w在Ψ_w ⁽ⁱ⁾中出现的频率，让idf表示标注词w出现在Ψ_w ⁽ⁱ⁾，i＝1，2，...，N的逆文档频率。定义如下式：

λ_{i} (w) = {tf}_{i} \times idf = \frac{{tf}_{i}}{\ln (n + 1)} - - - (7)

其中，n是包含关键词w的标注词集合的个数。这样，尽管一个可用的标注词出现的次数少，稳定性因子λ_i(w)也确保了该标注词具有标注该查询图像的可能性。

步骤6：综合N轮的检索结果，依据公式(6)公式(7)的输出值，计算每个标注词

w (w &Element; U_{i = 1}^{N} Ψ_{w}^{(i)})

标注查询图像I_q的排序概率，即

f (w) = Σ_{i = 1}^{N} λ_{i} (w) \cdot p_{i} (w | I_{q}) - - - (8)

步骤7：根据公式(8)得到的每个标注词w的输出概率进行排序，选择最后的标注词列表。一般来讲，标注词的选择策略有两种方式：一是事先设定一个实验的阈值，根据每个标注词的排序函数f(w)的输出值，选择其值大于该阈值的关键词来标注图像，这种方法确保了标注的可伸缩性。二是根据标注词的排序函数f(w)的输出值，选择排在最靠前的5个关键词来标注图像。本发明采用第二种的标注词选择策略。

如图2为本发明的自动图像标注方法的与现有技术的标注方法的性能比较，其中MBRM方法是基于经典的概率模型的标注方法，SBIA方法是融合了检索技术的标注方法，但该方法中的检索是简单的基于内容的图像检索方法。如图2所示，融合检索技术的标注方法的性能要比经典的概率模型的标注性能要高，而且，本发明的的融合伪相关反馈与检索的标注方法，还要比融合一般的检索方法的标注方法的性能——平均准确率和平均标全率都能够提高10％左右。其原因在于，通过检索技术找到未标注图像的相关图像的集合，进而找到了相关的标注词集合，在此基础上根据文本的特性挖掘的标注结果，效果要提高很多，这在一定程度上是基于高层语义层面的标注方法。另外，通过伪相关反馈技术，在一定程度上提高了检索的性能，进而更提高了标注的准确性。而且，本发明对更大的图像训练集具有更强的适应力，极大地改善了标注的可伸缩性，避免了复杂的参数估计的监督学习过程，是一个灵活可靠、有实用价值的标注方法。

Claims

1、一种融合伪相关反馈与检索的自动图像标注方法，其特征在于，包含：

步骤1：在已标注的图像库中对未标注的查询图像I_q进行检索，得到k个相关图像I_r及相关图像的标注词集合Ψ_w；

步骤2：计算每个标注词w(w∈Ψ_w)标注查询图像I_q的后验概率p(w|I_q)；

步骤3：根据k个相关图像提取均值向量I_mean作为新的查询向量，重复步骤1、2，直到最大迭代次数N；

步骤4：计算每个标注词

w (w &Element; Σ_{i = 1}^{N} Ψ_{w}^{(i)})

在每轮标注词集合中的稳定性因子λ_i(w)，i＝1，2，...，N；

步骤5：根据后验概率p(w|I_q)及稳定性因子λ_i(w)，i＝1，2，...，N的值，计算每个标注词

w (w &Element; Σ_{i = 1}^{N} Ψ_{w}^{(i)})

标注查询图像I_q的排序概率f(w)，对查询图像I_q进行标注。

2、根据权利要求1所述的一种自动图像标注方法，其特征在于，步骤1进一步包含：确定相关图像I_r与查询图像I_q之间的相似性，由相似性度量公式p(I_r|I_q)＝ωr·S(I_r|I_q)给出。

3、根据权利要求2所述的一种自动图像标注方法，其特征在于，S(I_r|I_q)＝exp(-D(I_r，I_q))，

ω_{r} = \exp (\frac{- D {(I_{r}, I_{mean})}^{2}}{{2 σ}^{2}}) .

4、根据权利要求2所述的一种自动图像标注方法，其特征在于，步骤2进一步包含：后验概率p(w|I_q)由相似性度量p(I_r|I_q)及每个标注词w(w∈Ψ_w)标注相关图像I_r的概率

确定，p(w|I_q)＝p(w|I_r)·p(I_r|I_q)。

5、根据权利要求1所述的一种自动图像标注方法，其特征在于，

I_{mean} = \frac{1}{k} Σ_{r = 1}^{k} I_{r} .

6、根据权利要求1所述的一种自动图像标注方法，其特征在于，

λ_{i} (w) = t f_{i} \times idf = \frac{{tf}_{i}}{\ln (n + 1)} .

7、根据权利要求1所述的一种自动图像标注方法，其特征在于，

f (w) = Σ_{i = 1}^{N} λ_{i} (w) \cdot p_{i} (w | I_{q}) .