CN101419606A

CN101419606A - 一种基于语义和内容的半自动图像标注方法

Info

Publication number: CN101419606A
Application number: CNA2008101222441A
Authority: CN
Inventors: 吴朝晖; 郑清照; 丁艳春; 姜晓红
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-11-13
Filing date: 2008-11-13
Publication date: 2009-04-29
Anticipated expiration: 2028-11-13
Also published as: CN101419606B

Abstract

本发明公开了一种基于语义和内容的半自动图像标注方法。该标注方法包括以下步骤：建立基于语义和内容的反馈图像检索系统，该系统的模型用三元组表示为(F，Q，R(f_q，f_d))；用户提交基于关键词的查询，系统将关键词序列转换为一组语义特征向量ω_i′，系统使用排列函数R(f_q，f_d))对数据库中的所有图像做基于语义的查询，将查询结果按照排序的高低返回给用户；用户从查询结果中选择比较满意的图像并反馈给系统，系统再次使用排列函数R(f_q，f_d))对数据库中的所有图像做基于语义或者基于内容或者综合语义和内容的查询，找出所有与用户认为比较满意的图像相似的图像，同时对每张图像相对应的标注信息的权值进行调整。本发明具有效率高、精确度高、交互方式友好的优点。

Description

一种基于语义和内容的半自动图像标注方法

技术领域

本发明涉及一种计算机图像搜索和图像标注方法，尤其是一种基于语义和内容的半自动图像标注方法。

背景技术

近十多年来，随着计算机网络技术的迅速发展、普及应用以及数据存储代价的大幅度下滑，多媒体数据库的使用变得越来越普遍。以图像、音乐、视频形式展现的多媒体信息无论在商业还是娱乐中都显现出了日益重要的作用。如何对如此大量的数据进行有效地管理和组织，并从中搜索出用户所需要的信息就成为非常重要的问题。对于多媒体数据，尤其是图像数据的浏览、搜索以及索引技术的研究已经有了很长时间的历史。如今，有关图像数据库和视觉信息搜索的话题已经变成了研究领域中最为活跃的一部分。

一个典型的图像搜索过程通常由一个初始查询和其后的一串相关反馈构成，通过这些反馈，用户对检索得到的内容做出评价。一个用户查询首先向系统提供了一组对于想要图像的描述。对于一个被标注了关键字的图像数据库来说，这些描述可以是一组关键字查询；对于一个被抽取了诸如全局亮度、像素点颜色百分比等量化特征向量的图像数据库来说，这些描述可以是一张案例图像。前一种的方式被称作为基于语义的图像搜索，后一种被称作为基于内容的图像搜索。对于一个基于语义的图像搜索系统，我们一般可通过人为标注或者机器标注的方法给数据库中的图像进行标注。人为标注精确度高，但效率低；机器标注效率高，但精确度低。对于一个基于内容的图像搜索系统，用户一般很难去定义这些描述，同时计算机程序也很难理解这些描述。此外，即使用户提供了一个比较不错的初始查询，如何让之后的反馈信息作用于系统也是一个很大的问题。

因此使用了人工标注的基于语义的图像搜索，使用了机器标注的基于语义的图像搜索以及基于内容的图像搜索这三种方式各有利弊，目前还没有一种能够结合上述三者优点的图像标注索引系统。

发明内容

本发明所要解决的技术问题是提供一种效率高、精确度高、交互方式友好的基于语义和内容的半自动图像标注方法。

本发明解决上述问题所采用的技术方案是：该标注方法包括以下步骤：

(1)建立基于语义和内容的反馈图像检索系统，该系统的模型用三元组表示为(F，Q，R(f_q，f_d))，其中F是由数据库中所有图像的语义特征向量和内容特征向量f构成的集合，Q是用户所表达的图像语义和内容信息需求的特征集，R(f_q，f_d))式是计算f_q∈Q，f_d∈F得到的相似度，并按照其相似度大小从大到小排列的排列函数；

(2)用户提交基于关键词的查询，系统将关键词序列转换为一组语义特征向量

，每个关键词的对应权值与其出现在查询序列中的位置成反比，系统使用排列函数R(f_q，f_d))对数据库中的所有图像做基于语义的查询，将查询结果按照排序的高低返回给用户；

(3)用户从查询结果中选择比较满意的图像并反馈给系统，系统再次使用排列函数R(f_q，f_d))对数据库中的所有图像做基于语义或者基于内容或者综合语义和内容的查询，找出所有与用户认为比较满意的图像相似的图像，并将查询结果按照排序的高低返回给用户，同时对每张图像相对应的标注信息的权值进行调整。

本发明所述的内容特征向量使用颜色特征向量和纹理特征向量。

本发明在步骤(3)做综合语义和内容的查询时，将颜色特征向量和纹理特征向量按一定的混合比结合，然后得到一个最终的相似度，该混合比可以是用户随自己的需求进行设定，也可以使用系统默认的混合比。

本发明在数据库中，每张图像与其对应的一组标注构成语义网络，在每张图片与标注值的链路上都赋有一个用于表示图片和标注值间的相干度的权值。

本发明所述权值采用tf-idf权值，tf-idf的向量R为

R = (r_{1}, r_{2}, . . ., r_{n}) = (\log \frac{| D |}{t_{2}}, \log \frac{| D |}{t_{2}}, . . ., \log \frac{| D |}{t_{n}})

其中，|D|是系统中所有图像的个数，t_i是与第i个标注所关联图像的个数；对权值进行调整的具体方法为在每次系统开始查询之前，进行一次重新计算，得到一个新的语义权值向量

W_{i}'' = R' \cdot W_{i}',

将这个新的权值向量加到图像原来的语义权值向量上

{SW}_{new, i} = {SW}_{old, i} + W_{i}^{''}

其中，SW_new，i表示第i张图像经过调整后新的语义权值向量，SW_old，i表示第i张图像未调整前的语义权值向量。

本发明所述相似度比较算法使用卡方检验、JD分离和欧几里德这三种方法。

本发明与现有技术相比，具有以下有益效果：(1)该标注方法利用混合比将多个内容特征向量结合在了一起，在搜索相似的反馈图像时，系统可以将颜色特征向量与纹理特征向量以一定的混合比相结合，得到最终的相似值；(2)该标注方法所采用的半自动标注过程比其他反馈系统更为“自动”，传统的反馈标注系统通常要求用户标出所有相关或者不相关的图像，然后再对这些标出图像的特征向量作一定的调整，在该系统中，用户只需选出那张他认为最为近似的图像，然后特征向量的调整便会在与该反馈图像相似的图像间自动进行；(3)传统的反馈标注系统往往将反馈作用于图像的内容特征向量上，但事实上在对图像进行反馈时，其图像内容并没有发生任何改变，该标注方法在传统的特征向量之上又加了一层语义层，并将反馈作用于其上，起到了优化其语义向量，使图像对应的语义特征向量能够更好的表达出图像的作用。

附图说明

图1为本发明的语义网络图。

具体实施方式

本实施例的具体步骤如下：

(1)建立一个基于语义和内容的反馈图像检索系统，该系统的模型用三元组表示为(F，Q，R(f_q，f_d))，其中F是由数据库中所有图像的语义特征向量和内容特征向量f构成的集合，Q是用户所表达的图像语义和内容信息需求的特征集，R(f_q，f_d))式是计算f_q∈Q，f_d∈F得到的相似度，并按照其相似度大小从大到小排列的排列函数；其中的内容特征向量使用颜色特征向量和纹理特征向量，即颜色一致性向量(CCV)与Gabor滤波向量。其中相似度比较算法使用卡方检验、JD分离和欧几里德这三种方法。

(2)用户提交基于关键词的查询，如“pizza tower，sky，grass”，即表示用户想要得到一张以蓝天草地为背景的比萨铁塔的全景图，系统自动将关键词序列转换为一组语义特征向量

其每个关键词的对应权值与其出现在查询序列中的位置成反比，即由上述关键字序列得到的语义特征向量

((pizza tower，1.0)，(sky，0.6)，(grass，0.3))

针对上述语义特征向量，系统使用排列函数R(f_q，f_d))对数据库中的所有图像做基于语义的查询，将查询结果按照排序的高低输出至界面以返回给用户；

(3)用户从查询结果中选择出最符合搜索目标的图像并反馈给系统，系统再次使用R(f_q，f_d))排列函数对数据库中的所有图像做基于语义或者基于内容或者综合语义和内容的查询，找出所有与用户认为比较满意的图像相似的图像，并将查询结果按照排序的高低返回给用户，同时将语义特征向量

((pizza tower，1.0)，(sky，0.6)，(grass，0.3))加载至查询结果，以对每张图像相对应的标注信息的权值进行调整。其中参数

与该图像和反馈图像的相似度成正比，其公式为

ω_{i}^{'} = \frac{Similarity_{General}_{i}}{Σ_{i = 1}^{M} Similarity_{General}_{i}}

其中，M表示所有查询得到的图像数量，i表示按相似度高低排序得到的第i张图像。

同时参见图1，在数据库中，每张图像与其对应的一组标注构成语义网络，在每张图像与标注值的链路上都赋有一个用于表示图片和标注值间相干度的权值。

从上述过程可以看到，随着关键字的不断调整，越来越多关键字被加入其中，系统的关键字词表不断得到了扩充，但同时由于个别关键字的多次重复查询，有些图像与关键字间的权值将会变得很大，例如说，每一次输入查询“grass”，系统都会为每一个相关的图片增加“grass”的权重，从而使得系统中所有其相关的图片都拥有一个很大的“grass”权重值，从而破坏了“grass”关键字与其它关键字之间的平衡，影响到下一次查询的精度。考虑到每一个权值都应当最恰当最客观的表达出图像与关键字间的相干度，所以每过一定的时间需要对关键字的权值作一定的调整。

本实施例中的权值采用tf-idf权值。tf-idf权值是一个为了评估某一关键字对文集中某一文档重要性的统计测量方法。关键字的重要性与其出现在该文档中的频次(tf—term frequency)成正比，与其出现在文集中其他文档的频次(idf—inverse document frequency)成反比。因此，这里可以把tf看作为上面计算得到的idf看作为系统中与某一标注相关联图像的个数。

这里就得到tf-idf的向量R为

R = (r_{1}, r_{2}, . . ., r_{n}) = (\log \frac{| D |}{t_{1}}, \log \frac{| D |}{t_{2}}, . . ., \log \frac{| D |}{t_{n}})

其中，|D|是系统中所有图像的个数t_i是与第i个标注所关联图像的个数；R是一个全局的向量，是一个统计量，少数标注值的改变并不能对其精准度产生较大的影响，因此对权值进行调整的具体方法为在每次系统开始查询之前，进行一次重新计算，得到一个新的语义权值向量

W_{i}^{''} = R' \cdot W_{i}^{'},

将这个新的权值向量加到图像原来的语义权值向量上：

{SW}_{new, i} = {SW}_{old, i} + W_{i}^{''}

在步骤(3)做综合语义和内容的查询时，将颜色特征向量和纹理特征向量按一定的混合比结合，然后得到一个最终的相似度，该混合比可以是用户随自己的需求进行设定，也可以使用系统默认的混合比。

在求这个系统默认的混合比之前假设处于同一目录下的所有图像在语义上是相互密切关联的。因此一个目录下的所有图像应当拥有相同的内容权重向量。举例来说，位于‘comic’目录下的所有图像应当对颜色较为敏感，因此对于颜色特征向量他们应当拥有一个较小的权值，而对于‘flower’目录下的所有图像应当对纹理较为敏感，因此对于纹理特征向量他们应当拥有一个较小的权值。这里又如果位于同一目录下的所有图像对于某一特征拥有一个较为相似的值，那么就认为该向量可以很好的表达出图像的语义信息；反之，如果位于同一目录下的所有图像对于某一特征出入较大，那么认为该向量不能很好地表达出图像的语义信息。在该标注方法中，使用一个“标方差”的概念来恒量该“相似度”，在标注系统启动之前，将系统中的目录图片作为训练集，逐一求得该混合比。

当需要在数据库中增加新图片时，不但需要将该新增图片的特征向量提取出来放入专门的特征向量数据库中，还需要对每张新增的图像作自动标注，这是由于在该系统使用关键字来表示每张图片的语义信息。

最初始的情况下，所有的图片被分为257个类别，每一个类别的名称被初始的标注给类别中的所有图片，例如“house”目录下的所有图片在最初始的情况下都有且仅有一个“house”的标注，其权重为1。新加入图片自动添加标注的过程为：

(a)对于系统中的每一个目录，计算该目录的代表特征向量，在本系统中，取的是该目录下所有特征向量的几何平均值。

(b)对于系统中的每一个目录，计算该目录的一组代表关键字。在本系统中，对于一个系统下的所有图片，将其标注向量相加，取权值最大的三个关键字。

(c)使用从新增图片上抽取得到的特征值，然后与每个目录的代表特征向量求相似度，然后将最为相似的那个目录的代表关键字赋值给新增图片，并将新增图片放置于该目录下。

图像特征向量抽取的算法选择颜色一致性特征向量抽取算法和Gabor滤波的特征向量抽取算法。

其中，颜色一致性向量的实现过程如下：

(a)对图像作模糊化，即使用相邻像素点的平均值代替该像素原本的颜色值。这样做的目的是为了消除一些随机的噪音。

(b)对图像的颜色空间作离散化，这样使得一副图像中具有n种不同的颜色矩。

(c)对每个像素点根据它的一致或者非一致性，将它放置于对应的颜色矩中。一个一致的像素点是一大组具有同样颜色像素区域的一部份，反之，则是非一致的像素点。使用计算图像连通组件(connected component)的方法来决定上述的像素区域。一个连通组件C可以被定义为使具有下面特征像素点的最大集合，对于任意的两个像素点p，p′∈C，在C中必有一条连接p与p′的路径，换句话说，就是说有一串像素点p，p₁，p₂…p_n，p′，来使得其中的每个p_i，p_i+1都是相邻的。这里把“相邻”定义为是八个与该点最为相近的像素点，也就是说这里的“相邻”还包括了对角线上的4个相邻点。这里只对某一颜色矩中的颜色进行连通组件的计算。

(d)当上述过程完成之后，图像中的每一像素点都将属于某一确定的连通组件中。然后根据这些连通区域的大小来决定这些像素点是一致的还是非一致的，给定一个阈值τ，如果该像素所属的连通组件的像素点个数大于这个值，则认为该点是一致的，反之，则认为是非一致的。

对于一个给定的离散颜色值，有一些该颜色的像素为一致的，另一些则是非一致的。把对于第j个颜色矩的一致的像素点个数称作为α_j，把非一致的像素点个数称作为β_j。很清楚的可以看到某一颜色矩的像素点个数的总合就是α_j+β_j，则一张图片的灰度直方图就可以被描述为是：

(α₂+β₂，...，α_n+β_n)

对于每一种不同的颜色，计算得到如下的组对：

(α_j+β_j)

把上述的组对称作为第j个颜色的一致性对。那么颜色一致性向量则可以以以下的形式表示：

((α₁，β₁)，...，(α_n+β_n))

Gabor特征向量抽取的实现如下：

(a)对图像作模糊化，即使用相邻像素点的平均值代替该像素点原本的颜色值。这样做的目的是为了消除一些随机的噪音。

(c)建立Gabor滤波核

g_{λ, θ, σ - γ} (x, y) = \exp (- \frac{{x'}^{2} + γ^{2} {y'}^{2}}{2 σ^{2}}) \cos (2 π \frac{x'}{λ} + φ)

x＝xcosθ+ysinθ

y＝-xsinθ+ycosθ

上述的Gabor函数将根据不同的特定参数：波长λ，方向θ，相位位移φ，展弦比γ和频宽σ来计算得到不同的Gabor滤波核。在Image Annotation1.0系统中，经过大量的实验之后，我们把Gabor滤波核的窗口大小取为9*9，将方向θ分别取做为0，

将频宽σ分别取做为0.3，0.4，0.5，将波长λ取作为频宽的倒数，将相位移固定。最后得到12个不同的Gabor滤波核。

(d)使用上述计算得到的12个9*9的Gabor滤波窗口分别对图像做卷积运算，生成12张新的经过Gabor滤波过后的图像。

(e)对上述12张新图像作求n维灰度直方图，对于每一张输入图像最后输出一个12*n维的特征向量。

特征向量相似度比较算法的实现采用卡方检验和JD分离和欧几里德这三种方法。

其中，卡方检验算法实现过程如下：

卡方检验是用途很广的一种假设检验方法，主要是比较两个及两个以上样本率以及两个分类变量的关联性分析。其根本思想就是在于比较理论期望值和实际检验值之间的吻合程度或者说是拟合优度问题。其应用包括有检验两个样本之间差别的显著性；检验多个样本或构比之间差比的显著性；检验两个双向无序分类变量是否存在关联。

对于输入特征向量v₁，v₂，卡方检验的计算可分为以下几个步骤：

(a)计算向量v间的理论期望值，这里我们将这两个向量间的几何中点作为它们的理论期望值，即

v_{\exp} = \frac{v_{1} + v_{2}}{2} = (\frac{k_{11} + k_{21}}{2}, \frac{k_{12} + k_{22}}{2}, . . ., \frac{k_{1 n} + k_{2 n}}{2})

v₁＝(k₁₁，k₁₂，...，k_1n)

v₂＝(k₂₁，k₂₂，...，k_2n)

(b)计算向量v间的卡方统计值，即

\frac{{(observed - expected)}^{2}}{expected} = \frac{{(v_{\exp} - v_{emp})}^{2}}{v_{\exp}} = \frac{{(v_{\exp} - v_{1})}^{2}}{v_{\exp}} = Σ_{i = 0}^{n} \frac{{(v_{expi} - v_{1 i})}^{2}}{v_{expi}}

JD分离的实现过程如下：

Kullback-Leibler(KL)分离测量的是如果将其中的一个向量作为编码簿，令一个向量使用该编码后的压缩程度。对于两个特征向量v₁，v₂，它们的Kullback-Leibler(KL)分离计算公式如下所示

D (v_{1}, v_{2}) = v_{2} \log \frac{v_{1}}{v_{2}} = Σ_{t = 1}^{n} k_{1 i} \log \frac{k_{1 i}}{k_{2 i}}

其中，v₁＝(k₁₁，k₁₂，...，k_1n)

v₂＝(k₂₁，k₂₂，...，k_2n)

Jeffery(JD)分离是对Kullback-Leibler(KL)分离的一种改进，与KL相比，它是对称的，并且更加稳定。对于两个特征向量v₁，v₂，它们的Jeffery(JD)分离计算公式如下所示

D (v_{1}, v_{2}) = v_{1} \log \frac{v_{1}}{\hat{v}} + v_{2} \log \frac{v_{2}}{\hat{v}} = Σ_{i = 1}^{n} (k_{1 i} \log \frac{k_{1 i}}{\tilde{k_{1}}} + k_{2 i} \log \frac{k_{2 i}}{\tilde{k_{L}}})

其中，v₁＝(k₁₁，k₁₂，...，k_1n)

v₂＝(k₂₁，k₂₂，...，k_2n)

\hat{v} = (\tilde{K_{1}}, \tilde{K_{2}}, . . ., \tilde{K_{n}}) = \frac{v_{1} + v_{2}}{2} = (\frac{k_{11} + k_{21}}{2}, \frac{k_{12} + k_{22}}{2}, . . ., \frac{k_{1 n} + k_{2 n}}{2})

在Image Annotation1.0中就使用了JD分离，对于输入特征向量v₁，v₂，其计算可以分为以下几个步骤：

(a)计算向量v₁，v₂间几何中点

(b)根据上述公式求得向量v₁，v₂间的JD距离D(v₁，v₂)

欧几里德距离实现过程如下：

欧几里德距离计算中所使用的特征向量并不是上述计算中的图像特征向量，而是各特征向量的平均值与标方差值。它不仅记录了两输入图像的颜色平均信息，还记录两张图片的颜色变化信息。对于输入特征向量v₁，v₂，其计算可以分为以下几个步骤：

(a)对特征向量v₁，v₂，分别计算它们的几何平均值

v₁＝(k₁₁，k₁₂，...，k_1n)

v₂＝(k₂₁，k₂₂，...，k_2n)

(b)对特征向量v₁，v₂，分别计算它们的标方差

(c)对特征向量v₁，v₂的欧几里德距离

Claims

1、一种基于语义和内容的半自动图像标注方法，其特征是：包括以下步骤：

(2)用户提交基于关键词的查询，系统将关键词序列转换为一组语义特征向量ω_i，每个关键词的对应权值与其出现在查询序列中的位置成反比，系统使用排列函数R(f_q，f_d))对数据库中的所有图像做基于语义的查询，将查询结果按照排序的高低返回给用户；

2、根据权利要求1所述的基于语义和内容的半自动图像标注方法，其特征是：所述的内容特征向量使用颜色特征向量和纹理特征向量。

3、根据权利要求1或2所述的基于语义和内容的半自动图像标注方法，其特征是：在步骤(3)做综合语义和内容的查询时，将颜色特征向量和纹理特征向量按一定的混合比结合，然后得到一个最终的相似度，该混合比可以是用户随自己的需求进行设定，也可以使用系统默认的混合比。

4、根据权利要求1所述的基于语义和内容的半自动图像标注方法，其特征是：在数据库中，每张图像与其对应的一组标注构成语义网络，在每张图片与标注值的链路上都赋有一个用于表示图片和标注值间的相干度的权值。

5、根据权利要求1或4所述的基于语义和内容的半自动图像标注方法，其特征是：所述权值采用tf-idf权值，tf-idf的向量R为

R = (r_{1}, r_{2}, . . ., r_{n}) = (\log \frac{| D |}{t_{1}}, \log \frac{| D |}{t_{2}}, . . ., \log \frac{| D |}{t_{n}})

其中，|D|是系统中所有图像的个数，t_i是与第i个标注所关联图像的个数；

对权值进行调整的具体方法为在每次系统开始查询之前，进行一次重新计算，得到一个新的语义权值向量

W_{i}'' = R' \cdot W_{i}',

将这个新的权值向量加到图像原来的语义权值向量上

{SW}_{new, i} = {SW}_{old, i} + W_{i}''

其中，SW_new，i表示第i张图像经过调整后新的语义权值向量，SW_old，t表示第i张图像未调整前的语义权值向量。

6、根据权利要求1所述的基于语义和内容的半自动图像标注方法，其特征是：所述相似度比较算法使用卡方检验、JD分离和欧几里德这三种方法。