CN101944183B

CN101944183B - 一种利用sift树进行物体识别的方法

Info

Publication number: CN101944183B
Application number: CN 201010271469
Authority: CN
Inventors: 李超; 杨晓辉; 陈帆; 池毅韬; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2010-09-02
Filing date: 2010-09-02
Publication date: 2013-12-25
Anticipated expiration: 2030-09-02
Also published as: CN101944183A

Abstract

本发明公开了一种用于计算机物体识别和基于内容的多媒体文件搜索的方法。这种方法首先通过提取几幅表示相同物体的图片的SIFT(Scale Invariant Feature Transform)特征，并根据这些特征的尺度及空间关系建立出一棵SIFT特征树，通过提取不同SIFT树之间的最大公共子树或子树集，然后利用这些公共子树集建立物体模型。并最终通过在从测试图片得到的SIFT树中查找匹配目标模型，达到识别物体的目的。这种方法可以是完全无监督的学习方法，也可以是具有少量的训练集的半监督的学习方法。它的优点在于：利用了图像特征点之间的空间关系；物体的模型是层次结构的；很多情况下，这种物体模型树的子树都具有一定的语义特征，比如一个公共子树就可能对应了物体的某一个部件。因此具有很广阔的应用前景和使用价值。

Description

一种利用SIFT树进行物体识别的方法

技术领域

本发明一种利用SIFT(Scale Invariant Feature Transform)树进行物体识别的方法，涉及利用计算机进行物体智能识别及基于内容的多媒体搜索的方法，主要是针对计算机对多媒体图像或视频影像中行人、车辆等识别并推广到计算机视觉中相关的其他领域，如目标定位与跟踪、场景分析、三维重建等。

背景技术

随着计算机视觉领域在近几年的快速发展，人们利用计算机进行智能的物体识别，运动跟踪及三维物体的重构等技术越来越成熟。然而目前比较流行的方法大多基于图片文件的局部特征信息的。其中由于SIFT特征对于几何变换和光照变换有着不变性，对于噪声和遮挡均有较强的鲁棒性，得到了广泛的使用。并且随后也出现了很多基于SIFT特征的改进算法。目前这些方法主要基于概率统计模型，这种方法一般是通过对物体的特征点(或部分)之间的空间关系建立一种概率模型表达，最常见的是高斯模型。通过学习训练从而确定概率模型的最似然估计值。最后在通过某种方法(例如贝叶斯分类器)进行识别。

但是单纯利用SIFT特征进行物体识别有很大的局限性，特别是存在遮挡等一些复杂环境场景下，识别正确率会明显降低，并且很难直接运用在物类识别中。因此联合特征点之间空间位置关系的识别方法越来越受到人们的重视。

发明内容

本发明的技术解决问题：为克服现有技术的不足，提出了一种基于SIFT特征树的物体识别方法。该方法可以很好的解决一些复杂环境下，比如遮挡、视角变化、光线变化条件下的目标识别、图像复原、图像拼接问题，而且也为物类识别提供新的思路和方法。

本发明的技术解决方案：本方法主要分为两步。步骤一，从训练集中获取图像的SIFT特征点，建立特征树，并最终生成物体模型。步骤二，用步骤一中的方法同样获得测试集中的SIFT树，并在该树中查找物体模型，如果有匹配，则表示测试图中包含有目标物体，否则认为不包含目标物体。具体方法如下：

一种利用SIFT树进行物体识别的方法，其特征在于，包括如下阶段：阶段一，从训练集中获取图像的SIFT特征点，建立特征树，并最终生成物体模型。阶段二，用阶段一中的方法对测试集中的图片建立SIFT树，并在该树中查找物体模型，如果有匹配，则表示测试图中包含有目标物体，否则认为不包含目标物体。

该方法中，阶段一或二过程中SIFT树的建立过程包括：

首先，需通过根据每一个SIFT特征点的尺度和位置求出它的覆盖域，覆盖域定义为边长为a正方形区域，并且

a = 2 \sqrt{\frac{\lg \frac{σ_{2}}{σ_{1}}}{\frac{1}{σ_{1}^{2}} - \frac{1}{σ_{2}^{2}}}} = 2 k σ_{1} \sqrt{\frac{lgk}{k^{2} - 1}},

其中，σ_i，(i＝1，2)分别DoG(Difference-of-Gaussian)方法的两个高斯滤波器的方差。然后根据覆盖率，进一步定义出特征点之间的父子关系；

其次，以图片本身为根节点，第一层的节点取尺度最大时的特征点，此处可以不考虑同层节点顺序关系。然后下一层对应的是次尺度最大的特征点，建立一棵特征树。每个节点存储了每个特征点的位置、尺度及SIFT描述子信息。

利用匹配查找两棵或多棵树中共享树建立物体模型；共享树是指在两棵树中最相似的子树或子树集，通过比较、删除、合并、分裂，最终获得一棵最大相似子树即共享树，从而一个物体或物类就是通过这样一棵由SIFT特征点建立而成的层次树所表示。

特别说明的一部分：本发明中关于建立SIFT树的方法不仅可以用于本发明所述的物体识别过程中，而且还可用于比如图像复原、图像拼接、物体跟踪、物类识别、基于内容的图形图像检索等相关领域。

本发明相对与现有技术所具有的优点：本发明利用了特征点之间的空间位置关系，并采用了层次树的物体建模方法，因此具有较高的识别率，特别是对于存在遮挡、视角以及光线变化条件下的目标识别具有很强的鲁棒性。

附图说明

图1本方法的主流程图。

图2提取SIFT特征点的流程图；

图3 DoG算子在一维空间中的示意图；

图4(1)(2)(3)以简单的两棵树T1，T2说明求两棵树的共享树的计算过程：其中图4(1)为两棵原始树；图4(2)为得到的T1，T2的传递闭包；图4(3为)T1，T2之间的关联图(不包含根节点)。

具体实施方式

(1)下面就计算机视觉的两个主要阶段(建模阶段和测试阶段)详细介绍整个实施过程。

阶段一：利用训练图像得到物体模型。

步骤101：从训练图像中提取SIFT特征点集。SIFT特征点的提取包括：(a)用大小不同的DoG算子处理图像，发现图片中在尺度空间上的极值点；(b)去除掉处去图像边界和不稳定的极值点；(c)根据灰度梯度计算极值点的方向值。(d)统计每个极值点附近区域的梯度直方图，最终得到一个128维的SIFT特征。流程可参见附图2。

步骤102：用上一步得到的特征点建立特征树。以图片本身为根节点，第一层的节点取尺度最大时的特征点，此处可以不考虑同层节点顺序关系。然后下一层对应的是次尺度最大的特征点，根据特征点的位置和尺度计算其覆盖域。由于在SIFT特征点的发现是用了DoG(Difference-of-Gaussian)算子：

D(x，y，σ)＝G₁(x，y，σ₁)-G₂(x，y，σ₂)＝G₁(x，y，kσ₂)-G₂(x，y，σ₂)，

其中k＝σ₂/σ₁。DoG算子在一维空间中的示意图参见附图3。其中阴影部分表示了G₁和G₂的差值。本方法中将覆盖域定义为边长为a正方形区域。并且

a = 2 \sqrt{\frac{\lg \frac{σ_{2}}{σ_{1}}}{\frac{1}{σ_{1}^{2}} - \frac{1}{σ_{2}^{2}}}} = 2 k σ_{1} \sqrt{\frac{lgk}{k^{2} - 1}}

其中，σ_i，(i＝1，2)分别DoG方法的两个高斯滤波器的方差。通过计算父辈与子辈特征点覆盖域之间的重合度，如果重合度达到或大于某一阈值(比如60％)，则将次节点归为该节点的子节点。以此类推得到一个SIFT特征树。树的每一个节点保存了这个特征点的位置、尺度、以及SIFT描述子，也可以根据需要加入其他特征量，比如颜色统计值等。

步骤103：计算多棵特征树之间的共享树。这部分的内容主要参照Todorovic和Ahuja于2008年在《国际计算机视觉期刊》(International journal of Computer Vision)发表的文章《按区域层次化的图像匹配》(Region-Based Hierarchical Image Matching)中关于树形结构匹配的方法。下面以两棵树为例详细介绍求解共享树的具体计算过程。设T1和T2是待匹配的两棵树，它们的根节点分别是u₁，u₂。寻找T1和T2的之间的共享树可以看成寻找一个编辑序列。通过这个编辑序列，就去掉了T1和T2之间不相似的节点，即节点属性量的距离超过设定的上限，从而形成了两棵最大相似子树。

Todorovic和Ahuja在其文中证明了寻找这样的编辑序列等价于在T1和T2的传递闭包Ω(T₁)和Ω(T₂)中寻找一个最大同构子树。而这个问题的解决可以利用树的递归特性，最终转化为求两个树的关联图的带权最大团的经典问题。用A＝(V_A，E_A，W_A)表示Ω(T₁)和Ω(T₂)的关联图，其中顶点集V_A＝{i＝(v₁，v₂)：u₁～v₁，u₂～v₂，v₁，u₁∈Ω(T₁)，v₂，u₂∈Ω(T₂)}，E_A是顶点之间边的集合。设是任意两顶点(v₁，v₁′)和(v₂，v₂′)，如果v₁，v₂和v₁′，v₂′分别在T₁和T₂中均不满足父子关系，则它们之间存在边相连接。W_A＝W(v₁，v₂)，表示两棵子树的相似度。

下面首先定义两棵根节点分别为u₁和u₂树的相似度。

W (u_{1}, u_{2}) \overset{Δ}{=} {[W_{u_{1}} + W_{u_{2}} - m_{u_{1} u_{2}}]}_{+} + \underset{(v_{1}, v_{2}) &Element; l (u_{1}, u_{2})}{Σ} W (v_{1}, v_{2})

其中

W_u表示节点的权值，此处可以设为常数。v₁，v₂分别表示u₁，u₂的任意子树。l表示所有匹配的子树对的集合，即需要迭代求解的值，用x表示。

其迭代方程如下：

x_{i} (t + 1) = x_{i} (t) \frac{{(({ξee}^{T} - Q) x (t))}_{i}}{x {(t)}^{T} ({ξee}^{T} - Q) x (t)},

i＝1，…，|V_A|.

其中V_A＝T₁×T₂，

Q是一个非负对称矩阵，

Q = {(q_{ij})}_{| V_{A} | \times | V_{A} |},

q_{ij} \overset{Δ}{=} \{\begin{matrix} \frac{1}{2 W (i)}, & if   i = j \\ 0, & if   i &NotEqual; j   and   i ~ j \\ \frac{1}{2 W (i)} + \frac{1}{2 W (i)}, & otherwise \end{matrix},

这里，i～j表示节点i和j之间有边连接。当，则整个迭代过程停止。若对于关联图中的节点i所对应的x_i(t_c)≥0.95，则认为该节点属于l。这样就可以得到最大同构子树。附图4以两棵最简单的树为例，说明这个过程中关于计算树的传递闭包及其关联图的计算方法。

阶段二：利用物体模型在测试图像中查找是否包含目标物体。这个阶段与阶段一的过程相同。

首先从测试集中获取SIFT特征集，具体参照附图2。建立测试图的特征树，具体方法与训练集类似。在测试图得到的特征树中查找阶段一得到的共享树。如果在测试树中存在一个子树其与共享树S之间的相似度W大于设定的阈值，则表明测试图中包含了目标物体，否则表示没有。关于W的计算同步骤103。

Claims

1.一种利用SIFT树进行物体识别的方法，其特征在于，包括如下阶段：阶段一，从训练集中获取图像的SIFT特征点，建立特征树，并最终生成物体模型；阶段二，用阶段一中的方法对测试集中的图片建立SIFT树，并在该树中查找物体模型，如果有匹配，则表示测试图中包含有目标物体，否则认为不包含目标物体；

其中，阶段一或阶段二过程中SIFT树的建立过程包括：

a = 2 \sqrt{\frac{1 g \frac{σ_{2}}{σ_{1}}}{\frac{1}{σ_{1}^{2}} - \frac{1}{σ_{2}^{2}}}} = 2 k σ_{1} \sqrt{\frac{1 gk}{k^{2} - 1}},

其中，σ_i分别DoG方法的两个高斯滤波器的方差；然后根据覆盖率，进一步定义出特征点之间的父子关系；i=1，2；

其次，以图片本身为根节点，第一层的节点取尺度最大时的特征点，此处不考虑同层节点顺序关系；然后下一层对应的是次尺度最大的特征点，建立一棵特征树；每个节点存储了每个特征点的位置、尺度及SIFT描述子信息；

其中，利用匹配查找两棵或多棵树中共享树建立物体模型；共享树是指在两棵树中最相似的子树或子树集，通过比较、删除、合并、分裂，最终获得一棵最大相似子树即共享树，从而一个物体或物类就是通过这样一棵由SIFT特征点建立而成的层次树所表示。