CN101976461A

CN101976461A - 一种新的户外增强现实无标跟踪注册算法

Info

Publication number: CN101976461A
Application number: CN2010105238338A
Authority: CN
Inventors: 王涌天; 郭俊伟; 陈靖; 刘越; 刘伟
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2010-10-25
Filing date: 2010-10-25
Publication date: 2011-02-16

Abstract

本发明涉及增强现实技术领域，特别是涉及一种新的户外增强现实无标跟踪注册算法。首先，本发明利用二级空间位置信息约束将场景识别的检索范围进行缩小；其次，提出使用纹理和轮廓两种特征来对场景进行表达，并使用结构较为简单的分类器对两种特征的后验概率模型进行估计，实现了基于视觉的场景识别方法；再次，通过优化通用树方法的基图像块选择方式提高了图像特征的识别性能，并与帧间光流跟踪相结合，提出了基于混合特征跟踪的注册方法。本发明所使用的无标跟踪注册算法能够满足实时性、鲁棒性的要求，适用于户外环境下的增强现实应用。

Description

一种新的户外增强现实无标跟踪注册算法

技术领域

本发明涉及增强现实技术领域，特别是涉及一种新的户外增强现实无标跟踪注册算法。

背景技术

增强现实技术(Augmented Reality，简称AR)是一种随着虚拟现实技术的发展而产生的新兴计算机应用和人机交互技术。该技术借助光电显示技术、交互技术、多传感器技术、计算机图形与多媒体技术，将计算机生成的虚拟环境与用户周围的真实场景相融合，使用户从感官效果上确信虚拟环境是其周围真实场景的组成部分。

早期，通常增强现实系统的应用范围局限于室内或户外的小范围环境，研究对象多是单一或较少目标的简单场景。

近年来，随着增强现实技术的发展，其应用范围和领域也不断拓宽，研究人员逐渐开始关注将增强现实技术应用于户外复杂的大范围、多目标环境，实现多种适用于不同应用的系统。主要有如下系统和应用：

1.基于增强现实技术的城市导航系统。这一类系统通过GPS和罗盘测定用户在城市中的位置和方位，并通过显示各条路所通往的地点来为用户进行导航，同时系统还能够对用户的行进速度进行测量。

2.博物馆导览系统。这一类系统使用GPS或蓝牙等技术定位参观者在博物馆中的位置，利用罗盘确定用户朝向或利用视觉技术识别用户所感性的展品，通过向用户显示与展品有关的各种信息来帮助用户更好的了解所参观的展品，使用户的参观过程变得丰富、有趣。

3.大范围古遗址导览及重现系统。由于，古遗址建筑的重建和修复是一项复杂、庞大的工程，需消耗大量的人力、物力、财力，易造成对遗址的再次破坏，于是出现了采用增强现实技术来实现遗址重现的技术系统。这一类系统通过GPS或蓝牙等技术定位参观者的位置，通过罗盘或视觉技术来对用户姿态进行确定，并将与古遗址相关的信息进行增强显示，通常包括古遗址的三维原貌模型、遗址历史介绍等。

4.以智能手机为平台的户外增强现实应用。这一类应用使得增强现实技术摆脱了大体积PC平台的限制，算法的功耗低、所需存储空间小。今年，荷兰一家公司推出了第一款增强现实手机浏览器-LayAR。该浏览器可运行于Android手机平台之上。用户只需要将手机的摄像头对准感兴趣场景，GPS首先定位用户所在位置，罗盘判断摄像头所面对的方向，随后用户就能在手机的屏幕下方看到与所拍摄的场景相关的信息，甚至还包括周边房屋出租、酒吧及餐馆的打折信息、招聘启事以及ATM等实用性的信息。苹果公司在Iphone手机上的这一类应用开发也起步较早，目前，已有多款相应的软件运行于Iphone3代以及4代产品之上，如LondonPipes，用户可以使用这一系统在伦敦街头进行游览，它可以自动识别建筑物并向用户显示内容详细的指路信息。

以上介绍的户外增强现实系统均采用GPS、罗盘等技术对用户位置进行初步定位，之后使用计算机视觉方法对场景进行精确识别并对用户的姿态进行注册，最终实现准确的增强显示。物理传感器通常存在刷新频率和定位精度较低的问题，同时随着目标物体数量的增多和视觉识别的检索范围会增大，视觉方法的识别准确率和实时性能都会逐渐下降。因此，目前大多数系统采用软硬件技术相结合的定位方式来完成户外大范围环境下的场景识别。

发明内容

本发明的主要目的在于针对户外环境范围大、场景数量多的特点，提出了一种户外环境下的无标增强现实跟踪注册算法。首先，算法提出使用轮廓和纹理两种混合特征来对场景进行表达，并通过结构简单的分类器对混合特征进行有监督学习。同时结合二级空间地理位置信息约束，进一步缩小识别用户当前所处场景的检索范围，并在这一范围内使用以上提出的视觉识别方法完成场景识别。其次，将基于模式分类思想的图像特征点识别方法与光流跟踪方法相结合提出了混合特征跟踪算法，实现了快速、准确、对存储空间要求更低的图像特征点跟踪。最后，与场景重建结果相结合构成了一个完整的户外增强现实无标跟踪注册。

本发明的技术方案是：

根据户外环境范围较大、场景种类和数量较多的特点，算法主要包括离线阶段和在线阶段两个部分，具体步骤包括：

(1)离线准备阶段：

①、为每一个场景建立来自不同观察视点的关键帧图像数据库，进行场景稀疏重建，并对每一个场景的二级空间地理位置信息进行标定；

②、提取关键帧图像上的轮廓和纹理混合特征，使用分类器对混合特征集合进行有监督学习；

③、使用改进的通用树分类器对特征点进行有监督学习；

(2)在线阶段，对每一幅当前帧图像做如下处理：

④、根据GPS定位结果以及离线标定的场景二级空间地理位置信息将用户当前所处场景的检索范围进行缩小；

⑤、提取轮廓和纹理混合特征，由分类器对混合特征进行识别，并在上一步得到的较小范围内完成场景识别；

⑥、由混合特征跟踪算法进行特征点匹配和跟踪，建立当前帧与其对应的关键帧之间的2D-2D特征点匹配；

⑦、将2D-2D对应信息与场景重建结果相结合得到2D-3D对应，计算摄像机姿态，完成跟踪注册。

本发明是一种新的用于户外增强现实系统的场景识别技术，具有以下优点：

(1)在本发明的技术方案中，二级空间位置信息约束的引入以及GPS信息的使用，在很大程度上缩小了基于视觉方法的场景识别的检索范围，由此进一步缩短了后续场景识别过程的处理时间、实现了较高的场景识别成功率。

(2)在本发明的技术方案中，由于是首先通过使用纹理和轮廓两种混合特征来对用户所在场景进行表达，因此与以往使用单一特征的表达方式相比，提高了对于户外复杂场景的表达能力，Ferns分类器的引入更是实现了对于混合特征的有效的有监督学习和更加快速、准确的识别。因此，可以为户外复杂的大范围环境下的增强现实系统提供较为高效、准确的场景识别结果。

(3)在本发明的技术方案中，通用树分类器的使用提高了图像特征点匹配的速度、准确性和鲁棒性，保证了图像特征点匹配的性能不会受到场景数量多少的影响。

(4)在本发明的技术方案中，图像特征点匹配和特征点的光流跟踪相结合，即确保了无标跟踪注册的鲁棒性，又满足了增强现实对于跟踪注册的快速、准确的要求。

附图说明

图1为本发明中户外增强现实无标跟踪注册算法流程图。

图2为本发明中场景关键帧图像以及基于序列图像的三维重建结果示意图。(a)和(b)是从不同视角观察的三维点云重建结果。

图3为本发明中针对一些物体提取得到的LoG特征点、部分纹理特征、轮廓特征提取结果及其PHOG直方图。

图4为本发明中Ferns分类器结构演化示意图。

图5为本发明中对某一校园环境进行的submap空间地理位置信息标注示意图。

图6为本发明中依据隐式和显式流型约束所选择的候选基图像块及每一类的聚类中心示意图。

图7为本发明中某一帧图像需要进行特征点的重新初始化情况下的示意图：(a)表示KLT跟踪过程中某一帧图像的特征点的数目较多；(b)示意跟踪过程中特征点数目减少，需要重新初始化；(c)黄色点为重新初始化加入特征点后的点集。

图8为本发明中算法对某一户外场景进行跟踪注册的精度测试结果，通过重建的3D点的重投影误差来表示跟踪注册的精度，图中曲线所示的是每一时刻对应的所有被识别3D点的重投影误差的平均值。

图9为本发明中算法对某一户外场景进行跟踪注册时处理每一帧图像所需的时间，其中曲线的各波峰所对应的是混合特征跟踪过程中的重新初始化情况，各波峰之间的每个阶段对应两次重新初始化之间的光流跟踪过程。

图10为本发明中算法对于各种环境和摄像机运动变化的鲁棒性示意图，其中包含了各种摄像机可能的运动例如旋转变化、尺度变化、视角变化和快速运动所导致的图像模糊等，以及各种场景变化例如遮挡、光照变化等。

图11为根据本发明提出的方法对某校园环境内的若干场景进行识别后得到的识别结果示意图。

具体实施方式

下面结合附图，对本发明进行详细说明。

图1为本发明中户外增强现实无标跟踪注册算法流程图。详见针对算法流程中的各主要步骤实施方式所进行的介绍。

图2为本发明中某一场景的三维重建示意图。

为了获得摄像机的姿态信息，需要在用户所处场景的世界坐标和其对应的图像坐标之间建立联系。在无标增强现实系统中，场景的世界坐标是通过对场景进行三维重建而获得的。在场景范围较小的情况下，直接对整个场景进行三维重建较为方便。而在户外增强现实应用系统中，用户所处的整个环境范围较大，场景之间的空间间隔较大，因此，本发明提出只针对每个独立的场景进行三维重建，避免了对整个大范围环境进行重建的问题，在很大程度上降低了计算复杂度和处理时间并且提高了各场景特征匹配的成功率。

目前存在众多较为成熟的三维重建方法，本发明采用基于场景序列图像的三维重建方法，用图像序列进行三维重建，首先沿着场景周围拍摄几幅序列图像(称之为关键帧)，具体做法是：针对每一个场景S_i(i＝1，2，...，n)，n是场景个数，W_i是的场景坐标系，沿着场景拍摄5幅关键帧图像R_ij(j＝1，2，...，5)(如图2所示)，R_ij表示第i个场景中的第j幅关键帧图像。其中，中间一幅图像在用户观察场景时最有可能所处的位置进行拍摄，一般这一位置在场景的正前方某处(如图2中的R_i3)。每个场景的关键帧图像除了要被用于场景重建过程之外，还将被用于场景的有监督学习。重建过程中从R_ij中提取LoG(Laplacian-of-Gaussian)特征，并由改进的通用树方法进行特征识别匹配。

图3为本发明中一些物体的LoG特征点、部分纹理特征、轮廓特征提取结果及其PHOG直方图。

户外环境中的场景复杂，不同场景所具有的典型特征各不相同。例如建筑物、车辆等物体的轮廓特征要较其纹理特征更为明显(如图3所示)。因此若要使用纹理特征区分图3中的两个汽车就可能会无法得到正确结果。纹理特征通常用图像中以特征点为中心的图像块来表示(如图3中显示的一些以红色特征点为中心的纹理特征)。本发明提出将纹理与轮廓两种特征相结合来描述一个场景。其中提取纹理特征所需的特征点采用目前较为常用的LoG(Laplacian-of-Gaussian)特征点，它被证明是目前最稳定的局部特征点算子。在使用LoG特征时，首先计算图像的Laplacian-of-Gaussian多尺度空间，选取Laplacian算子最大值的尺度值最为图像的尺度，之后在该尺度上提取特征点。轮廓特征使用PHOG(Pyra mid Histogram of Gradient)算子PHOG算子是对HOG，(Histogram ofOriented Gradients)算子的改进。PHOG根据梯度的方向将边缘的梯度值划分为n个区域，之后在梯度直方图的基础上加入了空间金字塔的特性，进一步提高了这一特征的稳定性。为构造空间金字塔，在第l层，图像被分为2l个子区域，并在子区域上分别统计直方图。

如图4中的二叉树结构所示，本发明所使用的Ferns分类器是对随机树分类器(Randomized Tree)的改进。它以二叉树为基础，将随机树的hierarchical结构改为flat结构，通过在每个子节点设置相应的测试将特征样本集合进行合理的空间划分，并最终在每个叶节点统计出每一类特征的后验概率分布，通过寻找最大后验概率评分将待识别的目标进行分类。

Ferns算法将图像中每一个图像块及其在各种图像变化下所得的图像块视为一个类。使用Ferns分类器对一个图像块进行识别，其实就是要找到与这一个图像块最为相似的那个类。令c_k(k＝1，2，3，...，L，类的总数为L)代表第k个类；令t_j(j＝1，2，3，...，M)为每个子节点分类所需要进行的二值测试集合。则将图像块进行识别分类的标准是：

. \hat{c_{k}} = \underset{c_{k}}{\arg \max} P (C = c_{k} | t_{1}, t_{2}, . . ., t_{M}) . - - - (1)

其中，C是一个代表任意类的随机变量。

根据贝叶斯理论，P(C＝c_k|t₁，t₂，....，t_M)可以按照如下方式进行计算：

P (C = c_{k} | t_{1}, t_{2}, . . ., t_{M}) = \frac{P (t_{1}, t_{2}, . . ., t_{M} | C = c_{k}) P (C = c_{k})}{P (t_{1}, t_{2}, . . ., t_{M})} - - - (2)

由于P(t₁，t₂，....，t_M)是一个与分类无关的因子，因此式(1)可以简化为：

\hat{c_{k}} = \underset{c_{k}}{\arg \max} P (t_{1}, t_{2}, . . ., t_{M} | C = c_{k}) - - - (3)

其中，二值测试项t_j仅与图像块中的任意两个像素d_j，1和d_j，2的灰度值有关，可以表示为：

t_{j} = \{\begin{matrix} 0 & I (d_{j, 1}) - I (d_{j, 2}) &GreaterEqual; 0 \\ 1 & otherwise \end{matrix} - - - (4)

其中I表示的是像素灰度值，像素d_j，1和d_j，2是预先随机选取的。

由于t_j属于一种较为简单的测试方式，因此需要进行大量的测试才能实现准确的分类。由此导致算法对每个类进行识别估计时需要存储约2N数量级的数据才能较为准确的表示出公式(3)所示的联合概率密度，当N的取值较小时，处理这些数据所需的存储空间较少、时间较短，但是当N的取值较大时，随着N的增大算法所需存储空间和处理时间迅速增加，最终无法满足实时性的要求。因此，Ferns方法提出将以上的测试过程分为Z个组来进行，每个组的容量大小为S，且S＝N/Z。此时，公式(3)中的条件概率可表示为：

P (t_{1}, t_{2}, . . ., t_{M} | C = c_{k}) = Σ_{a = 1}^{Z} P (F_{a} | C = c_{k}) - - - (5)

其中F_a＝{t_σ(a，1)，t_σ(a，2)，....，t_σ(a，S)}，a＝1，2，....，Z表示第a个Ferns，σ(·)是一个随机的排列函数，范围在1～N之间。由于Ferns算法将子节点测试过程进行了分组，使得参数的个数由原来的2^N减至Z×2^S，不仅使条件概率的计算变得更加简单，而且在处理较大规模的分类识别问题上具有非常明显的速度和存储优势。

在离线阶段，算法通过有监督学习方式为每个Ferns估计条件概率P(F_z|C＝c_k)，如公式所示：

p_{d, c_{k}} = P (F_{z} = d | C = c_{k}) - - - (6)

每一个Ferns需要进行的二值测试总数是D＝2^S，则条件概率

需要满足如下条件：

Σ_{d = 1}^{D} p_{d, c_{k}} = 1 - - - (7)

对于特征类c_k，通过分类器对属于该类的所有图像块样本进行有监督学习，最终在每一个叶节点中对这个类的后验概率进行计算，计算方式如下：

p_{d, c_{k}} = \frac{N_{d, c_{k}} + 1}{N_{c_{k}} + D} - - - (8)

其中，

代表属于类c_k的所有图像块样本中落入第d个叶节点中的图像块样本个数，

代表属于类c_k的所有图像块样本的总数。针对每一个Fern重复进行以上的训练过程，最终完成对整个Ferns的训练。

在线阶段，将当前帧图像上提取到的每个图像块放入Ferns分类器之中，通过其最终到达的叶子节点上的后验概率确定该图像块所属的类别。

根据以上介绍的Ferns分类器的后验概率计算方法，本发明采用以下方式对纹理和轮廓特征进行概率模型估计。

设Ω＝{ω₁，ω₂，L，ω_n}为包含所有类别的场景的集合，场景类别个数为n。F_texture＝{F_t1，F_t2，L，F_tn}代表n个场景的纹理特征集合，其中

为第i个场景的特征点集合，m_i为第i个场景特征点总数，F_shape＝{f_s1，f_s2，L，f_sn}表示n个场景的轮廓特征集合。根据贝叶斯判别准则，当前场景所属类别ω^*为所有类别中后验概率最大的那一个类：

ω^{*} = \underset{ω_{i} &Element; Ω}{\arg \max} \frac{1}{T} Σ_{t = 1}^{T} P_{t, l} (ω_{i} | F_{texture}^{obs}, f_{shape}^{obs}) - - - (9)

其中

为当前场景的纹理特征，

代表当前场景轮廓，其中l表示混合特征在第t颗随机树到达的叶节点编号。根据贝叶斯理论：

P_{t, l} (ω_{i} | F_{texture}^{obs}, f_{shape}^{obs}) = \frac{P_{t, l} (F_{texture}^{obs}, f_{shape}^{obs} | ω_{i}) P (ω_{i})}{Σ_{i = 1}^{n} P_{t, l} (ω_{i})} - - - (10)

&Proportional; P_{t, l} (F_{texture}^{obs}, f_{shape}^{obs} | ω_{i}) P (ω_{i})

假设同一场景纹理特征与轮廓特征独立，m₀个纹理特征平均分为M组，每组有

个特征，且每组纹理特征间独立，则：

P_{t, l} (F_{texture}^{obs}, f_{shape}^{obs} | ω_{i}) = P_{t, l} (F_{texture}^{obs} | ω_{i}) P_{t, l} (f_{shape}^{obs} | ω_{i})

= P_{t, l} ({f_{to}^{1}, f_{to}^{2}, L, f_{to}^{m_{o}}} | ω_{i}) \cdot P_{t, l} (f_{shape}^{obs} | ω_{i}) - - - (11)

= (Π_{k = 1}^{M_{o}} P_{t, l} (F_{to}^{k} | ω_{i})) \cdot P_{t, l} (f_{shape}^{obs} | ω_{i})

其中

k＝1，L，M_o代表Ferns的第k层节点，σ(k，s)表示从1到m₀的随机映射函数。则

ω^{*} = \underset{ω_{i} &Element; Ω}{\arg \max} \frac{1}{T} Σ_{t = 1}^{T} (Π_{k = 1}^{M_{o}} P_{t, l} (F_{to}^{k} | ω_{i}) \cdot P_{t, l} (f_{shape}^{obs} | ω_{i})) P (ω_{i}) - - - (12)

假设每个场景出现的概率相同，即P(ω_i)服从均匀分布，同时采用Ferns中的方法估计表达式

Π_{k = 1}^{M_{o}} P_{t, l} (F_{to}^{k} | ω_{i}) \cdot P_{t, l} (f_{shape}^{obs} | ω_{i}) - - - (13)

的概率分布。

Ferns分类器中每个子节点按照如下方式进行测试：

F_{texture} = \{\begin{matrix} 1 & if I_{i} < I_{j} \\ 0 & Otherwise \end{matrix}

(14)

f_{shape} = \{\begin{matrix} 1 & if w^{T} x + b < 0 \\ 0 & Otherwise \end{matrix}

其中w是与轮廓特征向量x具有相同维度n的向量，测试过程中从向量w中随机选取a个分量(a∈[1，n])，分量索引为随机，且分量值在[-1，1]之间，b∈(0到

)。

图5为根据本发明提出的方法来对某校园进行的二级空间地理信息标注结果。目前单纯基于视觉的场景识别算法，其识别率不超过75％，进一步提高识别率需要使用更加复杂的识别算法。而事实上，在大范围户外环境下的增强现实应用中，系统可充分利用空间位置关系以及地里位置信息，利用这一类信息来约束并缩小待识别场景的搜索范围，大幅提高识别成功率。

本发明提出使用一种二级空间约束来缩小场景识别的检索范围，具体做法是：首先使用GPS系统对用户在环境中的位置进行初步定位。考虑到所使用的GPS系统能够给出用户所在位置的经纬度，且测量精度为0.01″。因此，将范围较大的户外环境(例如图5中所示的某校园环境)按照5″×5″的规格进行局部区域的划分，并将该局部区域称之为submap，并对每个submap进行编号，例如submap-i表示第i个5″×5″的局部区域(如图4中对校园环境划分得到的若干个submap区域)。系统使用GPS所提供的定位信息精确标定每个submap所对应的经纬度范围(如图5中所示的黄色网格线及其对应的经纬度)。

由于每个submap内都包含了一定数量的场景，将这一数量记为V(V≥1)。有时某个submap内的V取值较大，在这一范围内进行场景识别仍然无法确保100％的正确识别率。因此，本发明提出对submap中的每个场景进行地理信息标注，根据每个场景的相邻位置顺序为其赋予一个标签，并记为subscene-j，如标签submap-3-subscene-3表示第3个区域中的第3个场景。

在系统实时运行时，GPS首先对用户当前位置进行定位，确定用户所属submap，系统结合这一submap内的场景地理信息标签将用户当前所在场景的检索范围进行缩小，并使用视觉方法在这一范围内识别出当前场景。

有时即使是在一个较小的范围内视觉识别方法也会出现识别失败的情况，为了解决这一问题，算法在通过视觉方法识别场景之后，会对识别结果按照相似程度进行排序，将排在靠前位置的场景作为备选显示给用户，以便用户在发现场景识别错误时能够选择出正确的当前场景。

为了在关键帧图像和当前帧之间进行特征点匹配，本发明对目前性能较好的通用树算法进行改进并进行特征识别。通用树方法的具体流程如下：首先，从自然图像之中随机选取一组图像来对分类器进行训练，这些随机图像被称作“基图像(base image)”，从基图像中所选出的用于训练分类器的图像块被称作“基图像块(base patch)”。在选择基图像的过程中，基图像与待识别图像的相关性是随机的。经过离线阶段的训练之后，分类器可以为每一个待识别图像特征生成一个N维的稀疏的描述符(sparse descriptor)，并将其进行压缩。算法期望通过对分类器的充分训练，所生成的每一个描述符向量都能够对各种环境变化诸如光照、旋转、视角和遮挡等具有鲁棒性，这样便可以在以上各种变化中仍然能够对特征进行识别。随后通过使用最近邻搜索算法就可以将相近的描述符向量寻找出来，进而实现相同特征的识别。

然而，在通用树算法中，基图像块的选择方式过于随机，作者采取随机的方式从基图像中选取基图像块，唯一的约束是任意两个基图像块在基图像上的距离大于5个像素。然而，这一约束条件较为粗糙，因为在一幅图像上即使是相隔5个像素的两个图像块也可能具有很高的相似性，由此二者之间可能具有较高的相关性存在，这样的选择方式无法保证所使用的基图像和基图像块的通用性和代表性。针对这些问题，本发明对通用树方法的基图像块选择方式进行了改进。

首先，目前存在其他较为有效的方法来去除基图像块之间的相关性，从而尽可能的保证每对基图像块之间的相异性。除了进一步的增大各个基图像块之间的像素距离到50个像素之外，本发明结合SIFT(Scale Invariant FeatureTransformation)描述符和K-Means聚类相结合的基图像块过滤方法，具体做法是：对每一个符合50像素距离约束的图像块以其中心点为特征点生成SIFT描述符，之后采用K-Means聚类方法将整个基图像块集合聚为K类，最终将所有类的聚类中心组成基图像块集合，集合大小为N，并且K＝N。这样的做法最大限度的保证了所选的基图像块之间的相异性。

其次，基图像块是通用树算法最重要的组成部分，基图像块的优劣决定了算法的特征识别性能的好坏。Shi和Zhu等人对目前已有的自然图像块的选择和组合进行了详细的分析和总结[具体参见：Shi，K.，Song-Chun Zhu.“MappingNatural Image Patches by Explicit and Implicit Manifolds”，In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition，pp.1-7，2007]，他们提出自然图像块可以被映射到两种子空间之中，并将这两种子空间分别称作显式流型(explicit manifolds)和隐式流型(implicit manifolds)。显式流型对应于那些规则的、较为简单的图像基源，例如边缘(edges)、条形(bars)、拐角(corners)和结合点(junctions)等。隐式流型对应于那些较为复杂的、随机的图像块，例如纹理(textures)和簇(clusters)等。Shi和Zhu的方法证明了确实存在一组最具有一般性、较之其他图像块更加具有代表性的图像块集合。本发明提出遵循显式流型和隐式流型的约束来筛选基图像块，并将筛选后得到的基图像块集合作为一个粗糙集(rough set)来进行上文提出的基于SIFT描述符的K-means聚类。图6为一些使用两种流型进行约束并且经过K-means聚类之后筛选出来的基图像块示例。图中在最后四行内的图像块满足显式流型约束，其他图像块满足隐式流型约束。

为了提高特征识别和跟踪的稳定性，本发明将光流特征跟踪方法(KLT)和上文提出的特征点匹配方法相结合。即在第一帧和后续的需要重新初始化的帧图像上进行特征点的识别，在连续帧间通过KLT跟踪来实现帧间2D特征点的对应。光流跟踪算法通常用在连续帧间物体的跟踪，并且在摄像机运动比较平滑的情况下，跟踪效果十分理想。

在跟踪过程中，由于场景变化、遮挡等问题使得目标物体移出视野而导致跟踪失败。此时，必须进行重新初始化过程加入新的特征点保持跟踪的连续性和稳定性。导致跟踪失败的根本因素是正确匹配的特征点数目不足或没有，在后续跟踪中提取当前帧的特征点并与关键帧匹配，根据新匹配点数量判定待跟踪物体是否出现并继续跟踪(图7展示了某一帧需要重新初始化的情形)。另外，由于LoG特征点的识别在进行的同时，KLT算法要继续保持跟踪，因此，本发明采用特征识别和KLT跟踪各占一个线程的多线程并行处理方法来进行混合特征跟踪。为避免KLT跟踪失败，必须预先判断跟踪失败的情形。由于在不同场景，匹配点数不同，不能直接使用特征点的数量作为判定条件。假设与关键帧匹配后特征点的数目为N_t，后续帧跟踪到的特征点为N_m，若满足

N_m/N_t＜N_th (15)

则进行初始化，其中N_th的范围在(0，1)之间。该比值表示了当前匹配点占总匹配数的数量。

本发明提出的跟踪注册算法的跟踪精度、跟踪速度以及算法对于各种变化的鲁棒性测试结果分别如附图8、9、10所示。

根据本发明提出的方法对某校园环境内的若干场景进行识别后得到的识别结果如图11所示，结果包括了测量得到的每个场景的二级空间地理信息和通过标签表示的场景识别结果。

以上对本发明所提供的一种新的户外增强现实无标跟踪注册算法进行了详细介绍，文中对本发明的原理及实施方式进行了阐述，以上内容的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种新的户外增强现实无标跟踪注册算法，其特征在于，包括以下步骤：

(1)离线准备阶段：

③、使用改进的通用树分类器对特征点进行有监督学习；

(2)在线阶段，对每一幅当前帧图像：

2.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在①中，场景三维重建的方法不局限于序列帧图像的计算方法，可以使用目前已有的各种成熟三维重建方法来进行。

3.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在①中，使用二级空间地理位置信息来对环境中的每一个场景进行表示，这样一种二级位置信息的表示方式是：第一级信息为这一场景所在的空间区域信息，该信息的测量可以使用GPS对其空间范围进行测量和标定，并采用经纬度来表示这一范围，这其中空间位置的测量手段和方式不局限于GPS方法，还可以是通过蓝牙、Wifi等无线空间位置测量方式；第二级信息为在这一场景在其所在的空间区域内，该场景与区域内的其他场景的相邻关系来表示和确定。

4.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在①中，确定每个场景的二级空间地理位置信息时，依据整个环境范围的大小以及环境中场景的空间密度大小来对整个环境的区域进行划分，每个区域范围的划分方法和表示单位根据使用的测量方式的不同而不同，例如使用GPS作为测量方式，则使用度(°)分(′)和秒(″)来作为区域范围的表示单位。

5.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在②中，为了达到对场景进行更加准确的表达的目的，使用轮廓和纹理混合特征来表达场景，这其中的混合特征也可以是更多种特征的组合，同时为了对混合特征进行有监督学习和实时的识别，使用结构较为简单的分类器对其进行训练和识别，这里的分类器种类可以是Ferns，也可以是其他能够进行实时特征识别的分类器。

6.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在③中，对于图像特征点的学习方法，不局限于通用树方法，可以是其他种类的符合模式分类思想的有监督学习方法。

7.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在④中，使用与步骤一中相一致的一级和二级空间位置测量和表示方法来对当前场景的空间位置范围进行缩小。

8.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在⑤中，使用与步骤二中相同种类的混合特征和分类器来进行基于计算机视觉的场景识别。

9.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在⑥中，特征点的匹配和跟踪方式不局限于将通用树方法和光流跟踪相结合的方法，可以是其他种类的匹配和跟踪方法。

10.如权利要求1所述的一种新的户外增强现实无标跟踪注册算法，其特征在于：在⑦中，通过将特征点的匹配结果与步骤一中的三维重建结果相结合，由此得到场景的二维图像特征点与三维世界点之间的一一对应关系，并通过优化计算完成摄像机姿态的跟踪注册。

经由以上所述的处理之后，便可以实现户外环境下增强现实无标跟踪注册。