CN103854283A

CN103854283A - 一种基于在线学习的移动增强现实跟踪注册方法

Info

Publication number: CN103854283A
Application number: CN201410059259.3A
Authority: CN
Inventors: 刘越; 桂振文; 王涌天
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2014-06-11
Anticipated expiration: 2034-02-21
Also published as: CN103854283B

Abstract

本发明提供一种基于在线学习的移动增强现实跟踪注册方法，通过减少反投影误差来优化摄像机的位姿矩阵，通过建立虚拟三维物体的坐标系和场景平面的坐标系，以利于更精确的完成虚拟物体对真实场景的注册；使用局部区域的特征点快速查找算法来恢复丢失的特征点，通过对检测到的场景特征点进行在线学习，使得场景三维点坐标的权值实时更新，贡献大的三维点逐步增大对应的权值，贡献小的逐步降低对应的权值，并通过学习计算出全局分值最大投影矩阵，从而进一步提高了增强现实注册的精准度。

Description

一种基于在线学习的移动增强现实跟踪注册方法

技术领域

本发明属于移动增强现实技术领域，具体涉及一种基于在线学习的移动增强现实跟踪注册方法。

背景技术

增强现实技术(Augmented Real ity--AR)是当前计算机视觉领域中的研究热点之一，通过将虚拟物体与真实环境紧密结合，增强人们对真实环境的理解与体验。增强现实技术的特性是：虚实结合、实时交互和跟踪注册。其中，跟踪注册是增强现实技术需要解决的核心问题之一。尤其是基于视觉的无标志点跟踪注册技术，由于其精度高、设备简单且对环境无干扰，逐渐成为增强现实领域的研究热点。

传统的无标志点跟踪注册技术大多适用于小范围的简单场景，算法只需处理少量的场景及其特征的跟踪注册问题。随着应用领域的不断拓宽，增强现实技术的应用开始向着户外复杂环境延伸。因此，适用于户外复杂环境的无标志点跟踪注册技术，尤其是跟踪精度高、实时性和鲁棒性强且存储容量低的无标志点跟踪注册技术，已经成为未来增强现实发展的难点和关键。国外相关机构已经在这一领域展开研究，并取得了一定的成果。国内在这方面的研究则刚刚起步，理论和实践均不够成熟。因此，进行户外复杂环境下的无标志点跟踪注册技术研究，是国内广泛深入开展相关增强现实系统研究的必然要求，也是我国发展具有独立自主知识产权的户外复杂环境下增强现实系统的必备条件。

在移动增强现实领域中，针对平面物体及有标志物体的注册方法已经取得了很好的发展与应用。但是，智能手机端对自然场景的识别与跟踪注册仍然是一个困难的、开放的问题。

2011年学者T.Guan等(文献1T.Guan；L.Y.Duan.“Real Time Camera Pose Estimation for WideAreaAugmented Reality Application”.IE EE Computer Graphics and Application，31(3)：56-68，2011)为能够正确识别自然场景，保存了大量的参考视图，通过局部特征匹配方法来对自然场景进行识别，但该算法计算量非常大，无法应用于智能手机端。

2013年，学者Liya Duan等(文献2.Liya Duan；Tao Guan；Yawei Luo.“Wide area regi stration on camera phones for mobile augmented reality applications”Sensor Review，2013，33(3)：209-219.)提出了局部区域特征的注册方法，将输入图像中提取的相应特征与场景图像的物体特征进行匹配，然后根据匹配点的对应关系对物体的三维位姿进行计算。但是，需要用计算机事先对所有场景进行三维重建，建立场景的三维点与场景相关图像的二维关系，并且都需要用户手动将所在场景的三维点坐标下载下来，才能实现后续的跟踪注册算法，否则将产生巨大的搜索空间，难以满足实时性的要求。

发明内容

针对现有的技术存在的问题，本发明提供一种基于在线学习的移动增强现实跟踪注册方法。

本发明的技术方案是：

一种基于在线学习的移动增强现实跟踪注册方法，包括以下步骤：

步骤1：对摄像机的内参进行标定；

步骤2：建立场景特征点的三维坐标信息库，根据立体视觉三维重建的基本原理，对场景特征点进行重建；

步骤3：继续拍摄当前场景，获取当前帧的视频图像，检测图像的自然特征；

步骤4：将当前视频图像与指定的参考图像进行匹配，根据匹配结果，判断当前场景图像与参考图像是否相似；如果匹配不相似进入步骤5，匹配成功进入步骤6；

步骤5：设定一个识别失败的计数器N，2≤N≤5，当失败次数大于N时，说明已经进入一个新的场景，进入步骤1对新场景进行重建，否则由于摄像头移动太快而导致匹配失败，则进入步骤3；

步骤6：根据描述符映射表找到当前图像描述符对应的3D点坐标，描述符2D坐标到3D空间坐标的投影矩阵；

步骤7：根据投影矩阵和已知的内参矩阵恢复出当前图像帧的位姿[R|t]矩阵；

步骤8：进行几何校验和反投影误差分析判断是不是有效的位姿矩阵如果是有效的位姿矩阵执行步骤9，否则返回步骤3；

步骤9：存在有效的位姿矩阵，定义虚拟物体的坐标系，合成有效的注册矩阵，叠加三维虚拟物体；

步骤10：利用光流跟踪算法对场景图像的局部特征点进行跟踪和在线学习；

步骤11：对跟踪的点进行分析，若跟踪上的特征点个数大于并且小于T₁，20＜T₁＜30，40＜T₁＜50，跟踪到的点数影响了计算位姿矩阵的精度，则进行丢失的特征点恢复；

步骤12：当跟踪到的特征点数小于，表明已经对当前场景跟踪失败，用户已经到达新的场景需要重新进行重建和识别，则返回步骤2。

步骤2中对场景特征点进行重建的具体步骤包括：

2.1从不同角度拍摄待注册场景的两幅图像作为参考图像，并做特征提取与匹配操作

2.2根据特征匹配结果，利用RANSAC算法去除误匹配点，根据匹配的特征点对求取基本矩阵F。

2.3由基本矩阵F和已知的摄像头内参得到本质矩阵E。

2.4根据本质矩阵E正确估计摄像机外参数R和t。

2.5将摄像机内参数K和外参数R和t组合成投影矩阵、。

2.7重建两幅图像匹配好的特征点。

2.8建立图像局部特征对应的三维坐标信息库。

步骤2.1对图像的特征提取和匹配，包括对图像的去噪声和进行灰度处理。特征点提取使用二进制特征检测算法BRISK，特征匹配使用汉明距离度量法。设定一个阈值T，30≤T≤50，当前图像的特征与参考图像的所有特征进行比较，选取距离最短的，并且小于T的特征作为匹配特征。

本发明的有益效果：

(1)通过减少反投影误差来优化摄像机的位姿矩阵。。

(2)通过建立虚拟三维物体的坐标系和场景平面的坐标系，以利于更精确的完成虚拟物体对真实场景的注册。

(3)使用局部区域的特征点快速查找算法来恢复丢失的特征点，大大节省了特征检测时间，进一步提高了实时更新注册信息的速度。

(4)通过对检测到的场景特征点进行在线学习，使得场景三维点坐标的权值实时更新，贡献大的三维点逐步增大对应的权值，贡献小的逐步降低对应的权值，并通过学习计算出全局分值最大投影矩阵，从而进一步提高了增强现实注册的精准度。

附图说明

图1为本发明具体实施的在线学习移动增强现实注册算法流程图；

图2为本发明中场景重建三角测量法原理图；

图3为本发明中图像尺度空间的BRISK特征示意图；

图4为本发明中2D描述符到3D坐标点的关联表。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细描述。

本实施方式中，实施基于户外自然场景的移动增强现实注册方法时，采用四核、1G内存的智能手机，摄像头分辨率为640*320，内参为标定好的，默认一直不变。对摄像头中出现的自然场景进行识别和跟踪注册。

图1示出了本发明的户外自然场景移动增强现实跟踪注册流程，主要包括以下步骤：

步骤1：用摄像机标定方法得到摄像机的内参K。

通过摄像机定标，可以确定与摄像机自身的几何和光学特性有关的参数(即内部参数)，以及它相对于某一世界坐标系的三维位置和方向(即外部参数)。摄像机的定标在增强现实系统中起着重要作用。本发明采用ARTOOLKIT方法，利用黑色边框的平板图案作为系统标识的四个角点及其在图像中的位置计算矩阵单应矩阵的值。

摄像机成像基本原理，屏幕坐标系与世界坐标系之间的变换关系可用下式表示：

[\begin{matrix} x_{c} \\ y_{c} \\ 1 \end{matrix}] = {λCT}_{cw} [\begin{matrix} X_{w} \\ Y_{w} \\ Z_{w} \\ 1 \end{matrix}] = λC [\begin{matrix} R_{1} & R_{2} & R_{3} & T \end{matrix}] [\begin{matrix} X_{w} \\ Y_{w} \\ Z_{w} \\ 1 \end{matrix}]

= λ [\begin{matrix} f_{u} & 0 & u_{0} \\ 0 & f_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} r_{11} & r_{12} & r_{13} & t_{1} \\ r_{21} & r_{22} & r_{23} & t_{2} \\ r_{31} & r_{32} & r_{33} & t_{3} \end{matrix}] [\begin{matrix} X_{w} \\ Y_{w} \\ Z_{w} \\ 1 \end{matrix}]

其中λ为比例因子，C为未知摄像头内参矩阵，T_cw为待求三维注册矩阵，R₁、R₂、R₃为旋转分量，T为平移分量，

X_{i} = [\begin{matrix} X_{w} \\ Y_{w} \\ Z_{w} \\ 1 \end{matrix}]

为世界坐标系中点坐标，

x_{i} = [\begin{matrix} x_{c} \\ y_{c} \\ 1 \end{matrix}]

为对应的像素坐标。此处假设主点(u₀，v₀)值为(0，0)。规定标识平面与世界坐标系下的Z＝0平面重合，则平面标识上某点在世界坐标系下的坐标(X_w，Y_w，0，1)与该点在第k帧图像中的投影

之间的关系可以用下式表示：

\begin{matrix} [\begin{matrix} x_{c} \\ y_{c} \\ 1 \end{matrix}] = λ [\begin{matrix} f_{u} & 0 & 0 \\ 0 & f_{v} & 0 \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} r_{11} & r_{12} & r_{13} & t_{1} \\ r_{21} & r_{22} & r_{23} & t_{2} \\ r_{31} & r_{32} & r_{33} & t_{3} \end{matrix}] [\begin{matrix} X_{w} \\ Y_{w} \\ 0 \\ 1 \end{matrix}] \\ = λ [\begin{matrix} f_{u} r_{11} & f_{u} r_{22} & f_{u} t_{1} \\ f_{v} r_{21} & f_{v} r_{22} & f_{u} t_{2} \\ r_{31} & r_{32} 0 & t_{3} \end{matrix}] [\begin{matrix} X_{w} \\ Y_{w} \\ 1 \end{matrix}] = λ [\begin{matrix} m_{11} & m_{12} & m_{13} \\ m_{21} & m_{22} & m_{23} \\ m_{31} & m_{32} & m_{33} \end{matrix}] [\begin{matrix} X_{w} \\ Y_{w} \\ 1 \end{matrix}] \\ = λ H_{w}^{k} [\begin{matrix} X_{w} \\ Y_{w} \\ 1 \end{matrix}] \end{matrix}

其中3×3矩阵

将真实世界中z＝0平面上的某点映射到第k帧图像，称之为单应性矩阵，下标w代表世界坐标系。单应矩阵通过下式来计算：

x_{i} \times H_{w}^{k} X_{i} = 0

求出

由三维注册矩阵旋转分量的正交性可得：

r_{11}^{2} + r_{12}^{2} + r_{13}^{2} = 1

r_{21}^{2} + r_{22}^{2} + r_{23}^{2} = 1

r_{11} r_{21} + r_{12} r_{22} + r_{13} r_{23} = 0

由以上三式及

可导出：

m_{11} m_{12} / {f_{u}}^{2} + m_{21} m_{22} / {f_{v}}^{2} + m_{31} m_{32} = 0 - - - (1)

λ (m_{11}^{2} / {f_{u}}^{2} + m_{21}^{2} / {f_{v}}^{2} + m_{31}^{2}) = 1 - - - (2)

λ (m_{12}^{2} / {f_{u}}^{2} + m_{22}^{2} / {f_{v}}^{2} + m_{32}^{2}) = 1 - - - (3)

由上(2)，(3)两式消去2λ，并结合式(1)可求出f_u，f_v，从而获取摄像头内参矩阵

C = [\begin{matrix} f_{u} & 0 & u_{0} \\ 0 & f_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}] .

f_{u} = \sqrt{\frac{m_{11} m_{12} (m_{21}^{2} - m_{22}^{2}) - m_{21} m_{22} (m_{11}^{2} - m_{12}^{2})}{m_{21} m_{22} (m_{31}^{2} - m_{32}^{2}) - m_{31} m_{32} (m_{21}^{2} - m_{22}^{2})}}

f_{v} = \sqrt{\frac{m_{11} m_{12} (m_{21}^{2} - m_{22}^{2}) + m_{21} m_{22} (m_{11}^{2} - m_{12}^{2})}{m_{11} m_{12} (m_{31}^{2} - m_{32}^{2}) - m_{31} m_{32} (m_{21}^{2} - m_{22}^{2})}}

步骤2：建立场景自然特征的三维点坐标信息库：

步骤2.1从不同角度拍摄待注册场景的两幅图像作为参考图像，并做特征提取与匹配操作，对当前场景的两幅参考图像，用BRISK算法提取图像的自然特征点，再对两幅图像的BRISK特征点进行匹配，找到两幅图像的相似特征点。

步骤2.2根据图2所示的与原理，利用特征匹配点集，求取基本矩阵F。

图2为欧式空间场景三维重建的原理图，图2中的两个摄像机，设O₁和O₂分别是两个摄像机的光心；X为三维空间中一点，它在第一个摄像机的成像平面A₁上的投影点为x₁，在第二个摄像机的成像平面A₂上的投影点为x₂。则x₂必然位于平面A₂内，而且必然位于由x₁决定的一条直线L₁上，其中L₂是A₂和由三维点X、两光心O₁和O₂决定的平面T的交线。这是因为在图像A₁上的投影点是x₂的空间三维点，必然位于射线O₁X上，而O₁X在A₂上的投影为L₂。L₂称为x₁决定的极线(epipolar line)。不仅如此，从图中还可以发现，A₂上所有的极线交于同一点e₂，此点称为极点(epipolar point)。它是O₁O₂和A₂的交点。可以这样解释：任给A₁上一点x₁它在A₂上决定的极线L₂是A₂与T的交线，其中T是由x₁决定的极平面(epipolar plane)。由于两摄像机的地位是完全对称的，因而类似的分析可发现，A₂上任一点x₂在A₁上决定一条极线L₁，L₁上所有极线交于极点e₁。e₁和e₂都在直线O₁O₂上。x₁、x₂、O₁和O₂四点共面，其中x₁和x₂是对应点，这被称为共面约束。它在已知摄像机内部参数的情况下从运动求解结构中有重要作用。

步骤2.3在已知摄像机内参的情况下，很容易由基本矩阵F得到本质矩阵E由基本矩阵F得到本质矩阵E。基本矩阵到本质矩阵的转换关系为：

F = C_{2}^{- T} E C_{1}^{- 1}

E = C_{2}^{T} F C_{1}

C₁，C₂是摄像机的内参矩阵，

摄像机2内参矩阵的转置的逆矩阵

是摄像机1的内参矩阵的逆矩阵。

步骤2.4根据本质矩阵E正确估计摄像机外参数R和t。通过对本质矩阵E进行奇异值分解，可以得到两个3阶的酉矩阵U，V和一个3阶的对角阵S，如下式：

E＝USV^T

在通过设置

W = [\begin{matrix} 0 & - 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{matrix}],

求出旋转矩阵R和平移向量t可以表示为R＝UWV^T或者R＝UW^TV^T，t＝u₃或者t＝-u₃，其中u₃是矩阵U的最后一列。

2.5将摄像机内参数K和外参数R和t组合成投影矩阵P₁、P₂。

\{\begin{matrix} P_{1} = K [\begin{matrix} I & 0 \end{matrix}] \\ P_{2} = K [\begin{matrix} R & t \end{matrix}] \end{matrix}

其中K为摄像机内部参数，我们假设两幅图像的摄像机内参相同，R和t为两个摄像机之间的外部参数，I为3×3的单位矩阵。

根据步骤1.5，R和t都有两种取值，则推出此时摄像机的第二个投影矩阵P₂有四种可能出现的情况，分别表示为：

①P₂＝K[UWV^T|u₃]

②P₂＝K[UWV^T|-u₃]

③P₂＝K[UW^TV^T|u₃]

④P₂＝K[UW^TV^T|-u₃]

本发明中根据空间的三维点必须同时在两个摄像机的前面，才能重建出空间三维坐标。这样只要用一个三维点作测试验证它是否在两个摄像机前面就可以从4个不同的解中确定一个作为摄像机矩阵P₂。采用下面公式所示的方法，同时满足公式的为投影矩阵为P₂。令

x₁，x₂分别为重建点

W = [\begin{matrix} w_{1} \\ w_{2} \\ w_{3} \end{matrix}]

对应的反投影图像点，如果重建点W均在两个摄像机前面，它必须满足：

x₁w₃＞0且x₂w₃＞0

在得到摄像机内外参数K，R，t以及匹配点图像坐标x₁和x₂之后，我们接下来可以计算出每一个匹配点所对应的物体空间点X的具体坐标。对于投影矩阵P₁，令P₁₁，P₁₂，P₁₃，为对应于P₁的行向量，(u_i，v_i，1)为对应于P₁的图像上的第i个匹配点的齐次坐标，X_i为对应该匹配点的空间齐次坐标，s为一常量因子，则有：

\begin{matrix} s [\begin{matrix} u_{i} \\ v_{i} \\ 1 \end{matrix}] = [\begin{matrix} P_{11} \\ P_{12} \\ P_{13} \end{matrix}] X_{i} &DoubleRightArrow; \{\begin{matrix} {su}_{i} = P_{11} X_{i} \\ {sv}_{i} {= P}_{12} X_{i} \\ s = P_{13} X_{i} \end{matrix} &DoubleRightArrow; \{\begin{matrix} P_{13} X_{i} u_{i} = P_{11} X_{i} \\ P_{13} X_{i} v_{i} = P_{12} X_{i} \end{matrix} \\ &DoubleRightArrow; \{\begin{matrix} P_{13} X_{i} u_{i} - P_{11} X_{i} = 0 \\ P_{13} X_{i} - P_{12} X_{i} = 0 \end{matrix} &DoubleRightArrow; [\begin{matrix} P_{13} u_{i} & {- P}_{11} \\ P_{13} v_{i} & - P_{12} \end{matrix}] X_{i} = 0 \end{matrix}

同理，对于投影矩阵P₂，令与点(u_i，v_i，1)对应的图像点的像素坐标为(u_i′，v_i ⁱ，1)，也可以得到类似的等式

[\begin{matrix} P_{23} {u_{i}}^{'} & - P_{11} \\ P_{23} {v_{i}}^{'} & - P_{12} \end{matrix}] X_{i} = 0

2.6重建两幅图像匹配好的特征点。根据图2所示欧式空间重建的三角测量法，已知匹配的图像点对直接反求出空间点三维坐标，重建出场景的三维结构。

通过联立上两式可得：

[\begin{matrix} P_{13} u_{i} & - P_{11} \\ P_{13} v_{i} & - P_{12} \\ P_{23} {u_{i}}^{'} & - P_{11} \\ P_{23} {v_{i}}^{'} & - P_{12} \end{matrix}] X_{i} = 0

从上式中可以看出，此时是通过四个方程式求解三个未知数，在这种情况下，可以通过最小二乘法原理求解出X_i的值，具体实现步骤如下：

首先令

B = [\begin{matrix} P_{13} u_{i} & - P_{11} \\ P_{13} v_{i} & - P_{12} \\ P_{23} {u_{i}}^{'} & - P_{11} \\ P_{23} {v_{i}}^{'} & - P_{12} \end{matrix}],

则上式可写成BX_i＝O的形式，然后对4阶矩阵A的每一行进行规一化处理，即行中的每一个元素都除以该行的模，我们就可以得到一个新的4阶矩阵B_n，对BX_i＝0的求解问题就可变为求解对应(B_n)^TB_n的最小特征值的特征向量。对B_n进行奇异值分解，

B_n＝USV^T

可以推导出X_i就等于最后一个酉矩阵V的最后一列。奇异值分解是最有用的矩阵分解方法中的一种，特别是对数值计算而言。给定一个方阵B_n，SVD把B_n分解为B_n＝USV，其中U和V是正交矩阵，而S是一个元素为非负的对角阵。

2.7建立图像局部特征对应的三维坐标信息库。将参考图像上的匹配的2D描述符与重建的场景3D点进行绑定，建立2D/3D的信息库。

步骤3：继续拍摄当前场景，获取视频图像。将采集到的图像帧降采用为640*320分辨率的图像，再进行灰度处理转为灰度图，检测图像的自然特征。

步骤4：将当前视频图像与指定的参考图像进行匹配，根据匹配结果，判断当前场景图像与参考图像是否相似拍。如果匹配不相似进入步骤5，匹配成功进入步骤6；

关键匹配的具体步骤为：

首先，进行特征提取。用BRISK算法构造图像金字塔，在每一层图像上使用fast算法提取角点，并对角点进行打分。满足如下情况的角点被认为是稳定特征点：得分高于相同层上相邻的8像素且得分高于相邻层上对应的像素点，若角点位于最底层，则只需得分高于上一层即可。考虑到图像在坐标和尺度空间上的连续性，对提取到的特征点在坐标平面上和尺度空间上进行优化，得到表示特征点的最优坐标和尺度，如图3所示。

再进行特征点描述符的构造与匹配。为了使特征点具有方向不变性，使用与SIFT相同的方法计算特征点的主方向。确定主方向以后，将特征点旋转到主方向。在特征点周围选取具有代表性的比较像素对p_i和p_j，通过对这些像素对灰度值的比较获得描述符的一位，具体公式如下。

b = \{\begin{matrix} 1, & I (p_{j}^{α}, σ_{j}) > I (p_{i}^{α}, σ_{i}) \\ 0, & otherwise \end{matrix}

选取n对比较像素对可以得到长度为n的描述符，BRISK特征描述符总共512位。

其次，进行特征点匹配，因为BRISK特征是用二进制描述符来进行标示的，在进行匹配的时候需要在汉明空间进行比较。设定汉明距离阈值为设定一个阈值T，30≤T≤50，当前图像的特征与参考图像的所有特征进行比较，选取距离最短的，并且小于T的特征作为匹配特征。对于户外建筑，Brisk具有较好的匹配效果，如图4所示。

最后，匹配图像的确定。当两幅图像匹配上的特征点数大于设定的阈值时确定为相似图像。或者设置一个匹配率，匹配上特征数量占总特征数量的比率，一般在户外场景干扰因素较多的情况比率阈值一般设定为30%-50%。

步骤5：设定一个识别失败的计数器count，2≤N≤5，当失败次数大于N时，说明已经进入一个新的场景，进入步骤1对新场景进行重建，否则可能由于摄像头移动太快而导致匹配失败，进入步骤3；

步骤6：根据描述符映射表找到当前图像描述符对应的3D点坐标，描述符2D坐标到3D空间坐标的投影矩阵。

步骤7：根据投影矩阵和已知的内参矩阵恢复出当前图像帧的位姿[R|t]矩阵。根据已知的摄像机内参和投影矩阵以及坐标轴间的正交性恢复出每个平面三维注册矩阵T₄，如下式。

T_{4} = [\begin{matrix} r_{11} & r_{12} & r_{13} & t_{1} \\ r_{21} & r_{22} & r_{33} & t_{2} \\ r_{31} & r_{32} & r_{33} & t_{3} \end{matrix}]

r₁₁＝λm₁₁/f_u，r₁₂＝λm₁₂/f_u，r₁₃＝r₂₁r₃₂-r_3cr₂₂，

t₁＝λm₁₃/f_u，r₂₁＝λm₂₁/f_v，r₂₂＝λm₂₂/f_v，r₂₃＝r₃₁r₁₂-r₁₁r₃₂，

t₂＝λm₂₃/f_v，r₃₁＝λm₃₁，r₃₂＝λm₃₂，r₃₃＝r₁₁r₂₂-r₂₁r₁₂，

t₂＝λm₃₃.

步骤8：进行几何校验和反投影误差分析判断是不是有效的位姿矩阵如果是有效的位姿矩阵执行步骤9，否则执行步骤3。

本发明使用RANSAC对2D/3D的对匹配点对进行几何校验，剔除误匹配点。在随机选择3对匹配点对计算投影矩阵时，确保选择的匹配对的图像特征点不是共线或者距离较近。

每次选择三对匹配点计算出投影矩阵后，再随机选择一个空间特征点，进行测试，计算在图像上的投影点，判断能否在真实的图像上找到匹配的特征点。如果不存则丢弃此次投影矩阵。本发明通过设计一个计时器，设置为30ms，在这个时间里不断测试是否找到计算出来的投影矩阵较准确，并且包含匹配特征点对最多的投影矩阵。如果超时没有找到则判断没有有效的位姿矩阵。

最后用Levenberg-Marquardt算法对投影矩阵进行优化，如下式：

\min_{P} Σ_{j = 1}^{N} | | x_{j} - P (X_{j}) | |

P是计算出来初始投影矩阵，x_j是图像上的像素点，X_j是对应的是三维点，||x_j-P(X_j)||是计算像素距离。

步骤9：存在有效的位姿矩阵，定义虚拟物体的坐标系，合成有效的注册矩阵，叠加三维虚拟物体。由投影矩阵以及所获得的世界坐标系与平面坐标系之间的变换关系合成三维注册所需的变换矩阵。

为了确定虚拟场景的叠加位置必须指定世界坐标系，本发明方法非常简单，只需在参考图像上指定四个可以构成方形的点即可。为了提高精确性，当用户在一幅图像上指定一点后，我们在另一幅图像上绘出与该点相对应的极线，从而为用户指定对应点提供参照。通过以上重建的方法，可以计算出上述四点在摄像机坐标系中的位置，进而求出由四点构成的方形的平面，我们以方形的中心点为坐标原点0，方形的所在平面为世界坐标系XOY面，Z轴为XOY轴的法线。在建立世界坐标系的同时，已经确立了它与摄像机坐标系的变换关系T₁。

接下来的任务是为每一个平面指定一个坐标系。利用三维重建的方法，我们已经获取真实世界中平面上的特征点在摄像机坐标系下的位置，事实上由于不可能完全避免成像畸变和图像处理过程中的误差，同一平面上的特征点在经过上述重建过程后不可能精确的位于一张平面上，本专利是利用最小二乘法拟合一张与所有特征点距离平方和最小的平面来代表实际平面。将拟合平面作为平面坐标系的XOY面，以所有特征点的重心在拟合平面上的投影为原点构建坐标系，要求X，Y，Z三个坐标轴两两垂直，但对X和Y轴的具体方向不做要求。在建立平面坐标系的同时，已经获取了它与摄像机坐标系的变换关系T₂。进而平面坐标系与世界坐标系的变换关系可以计算如下：

T₃＝T₂T₁

三维注册的最终目的是获取摄像机坐标系与世界坐标系之间的坐标变换关系在离线阶段我们已经获取了平面坐标系与世界坐标系之间的变换关系T_end，而且规定待注册场景结构在系统运行过程中不发生变化，则T_end完全可以由下式推出。

T_end＝T₄T₃

完成虚拟叠加的三维物体到场景的移动增强现实的三维注册。

步骤10：利用光流跟踪算法对场景图像的局部特征点进行跟踪和在线学习。

在本发明中，参考图像以及摄像机连续拍摄的视频帧的分辨率统一设置为640*321。经测试，对纹理丰富的图像可以提取超过一千个特征点。特征点数目过多给后续的匹配和姿态计算增加了许多工作量，同时跟踪精度并不能够得到提高。在特征提取阶段，每一个特征点都可以计算出一个响应强度信息，响应强度越高，特征点越稳定。所以本文将图像特征点按响应强度进行排序，最后只选取响应强度最高的400个特征点。

受限于移动平台的计算能力，无法对每一帧图像都通过提点匹配来计算摄像机的姿态。在实际应用中，摄像机的姿态在相邻帧之间变化不会太大，通过帧与帧之间的连续性可以有效的估计特征点在下一帧中出现的位置，从而快速计算摄像机的姿态。

在发明中，当通过brisk提点算法成功计算出摄像机的姿态以后，后续帧通过光流来计算特征点的坐标，进而计算摄像机的姿态。光流利用图像序列中的像素强度的时域变化和相关性来确定像素点的“运动”。光流算法基于如下假设：相邻帧之间亮度恒定，相邻帧之间目标运动比较微小。用I(x，y，t)表示t时刻像素点(x，y)的灰度值，可得如下公式：

I(x，y，t)＝I(x+dr，y+dy，t+dy)

使用泰勒级数展开：

I (x + dx, y + dy, t + dt) = I (x, y, t) + \frac{&PartialD; I}{&PartialD; x} dx + \frac{&PartialD; I}{&PartialD; y} dy + \frac{&PartialD; I}{&PartialD; t} dt

即：I_xdx+I_ydy+I_tdt＝0

令

u = \frac{dx}{dt}, v = \frac{dy}{dt}

可得：I_xu+I_yv＝-I_t

光流算法基于上述公式计算特征点像素的“运动”。在手机端使用光流算法计算相邻帧之间特征点的坐标变化用时只需几十毫秒。随着时间的推移，光流跟踪上的点数将越来越少，进而影响摄像机姿态的计算精度。在本发明中在光流点数小于一定阈值的情况下对当前图像提取特征点与参考图像进行匹配，同时如果在一定时间内都无法与关键帧建立匹配关系，则说明手机场景已经改变，则重新寻找正确的参考图像，直接进入步骤2场景初始化。

本发明中利用已经跟踪到的特征点对在线场景进行学习，选择最分值最高的投影矩阵作为当前图像帧到三维坐标的投影矩阵，具体如下：

设跟踪到的当前图像的2维坐标点为I＝{x₁，....，x_K}，相应的描述符为D＝{d₁，....，d_k}，对应的场景特征点的三维点为M＝{X₁，...，X_J}，C为匹配集合，C＝{(X_j，x_k，s_jk)|X_j∈M，x_k∈I，s_jk∈R}，s_jk为它们的匹配分数，R是分值集合。以前通常用公式(1)，通过匹配点数最多的作为最好的投影矩阵，要不断的循环计算投影空间中的所有投影矩阵，时间代价非常大几乎是不可行。所以，本发明进行采用改进的公式(2)设置了特征点分值集合w＝[w₁，....，w_J]^T，得分最大的P投影矩阵作为最好的当前图像相对空间特征点投影矩阵，每采集一副图像都进行学习，对表现比较突出设置较高的权值。(3)式为场景三维点对应的权值。(4)式匹配的2D坐标对应的描述符。

F (C, P) = Σ_{(X_{j}, x_{k}) &Element; C} E (| | x_{k} - P (X_{j}) {| |}_{2} < τ) - - - (1)

F_{w} = Σ_{(X_{j}, x_{k}) &Element; C} s_{jk} E (| | x_{k} - P (X_{j}) {| |}_{2} < τ) = < w, L (C, P) > - - - (2)

w＝[w₁，....，w_J]^T (3)

L(C，P)＝[L₁(C，P)，…，L_J(C，P)]^TL_j(1≤j≤j) (4)

L_{j} (C, P) = \{\begin{matrix} d_{k} & &Exists; (X_{j}, x_{k}) &Element; C : {| | x_{k} - P_{(xj)} | |}_{2} < τ \\ 0 & otherwise \end{matrix}

w＝[w₁，....，w_J]^T权值的获得通过式(5)来获得。式(5)类似于支持向量机计算最大分类面的解法。

为N个样本的惩罚参数。Δ(P_i，P)为损失函数，从P_i，P考虑的内点数量不一样。P_i样本图像正确投影矩阵为得分值最大的投影矩阵，P为任何其它尝试投影矩阵。γ_ij为内点得分的惩罚参数，内点的得分值应该高于其它的图像非内点的分值，v为应于内点分值小于其它图像非内点的分值时的权值参数。如下面公式：

\min_{w, ϵ} \frac{λ}{2} {| | w | |}^{2} + Σ_{i = 1}^{N} ϵ_{i} - - - (5)

s . t . &ForAll; i : ϵ_{i} &GreaterEqual; 0

&ForAll; i, &ForAll; P &NotEqual; P_{i} : δ F_{w}^{i} (P) &GreaterEqual; Δ (P_{i}, P) - ϵ_{i}

{δF}_{w}^{i} (P) = F_{w} (C_{i}, P) - F_{w} (C_{i}, P_{i})

本发明才用式(6)所示的公式来计算最大分类面的参数。并考虑内点的分值，内点的的分值要高于其它图像相对应的匹配点。

\min_{w, ϵ} \frac{λ}{2} {| | w | |}^{2} + Σ_{i = 1}^{N} ϵ_{i} + v Σ_{i}^{N} Σ_{(X, x_{k}) &Element; C_{i}^{*}} γ_{ij} - - - (6)

s . t . &ForAll; P &NotEqual; P : : δ F_{w}^{i} (P) &GreaterEqual; Δ (P_{i}, P) - ϵ_{i}

&ForAll; j : γ_{ij} &GreaterEqual; 0

&ForAll; i, &ForAll; (X_{j}, x_{k}), {&ForAll; k}^{'} &NotEqual; k : < w_{j}, d_{k} - d_{k^{'}} > &GreaterEqual; 1 - γ_{ij}

公式(7)是对公式(6)以损失函数的形式进行的优化

\begin{matrix} \min_{w, ϵ} \frac{λ}{2} {| | w | |}^{2} + Σ_{i = 1}^{N} (\max_{T &NotEqual; T_{1}} {Δ (P_{i}, P) - δ F_{w}^{i} (p)}) \\ + v Σ_{i}^{N} Σ_{(u_{j}, v_{k}) &Element; C_{i}^{*}} (\max_{k^{'} &NotEqual; k} {1 - {< w}_{j}, d_{k} - d_{k^{'}} >})} \end{matrix} - - - (7)

本发明中采用梯度下降的方法对w_j的值进行更新，如式(8)。设(I_t，P_t)为第t副训练图像三维点坐标集和需要估计的投影矩阵，在三维坐标点重建好时都会设置一个初始的权值w_j，并关联一个描述符，P_t通过逐个方法t副图像对应三维点投影矩阵的分值，选择最大的为P_t计算得出，再通过公式(7)计算出第j个三维点的权值然后利用公式(8)更新

\begin{matrix} w_{j}^{t + 1} &LeftArrow; (1 - η_{t} λ) w_{j}^{t} + E (\max_{P &NotEqual; P_{i}} {Δ (P_{t}, P) - δ F_{w}^{i} (P)} > 0) η_{t} a_{j}^{t} \\ + E (u_{j} &Element; C_{t}^{*}) E (\max_{k^{'} &NotEqual; k} {1 - < w_{j}, d_{k} - d_{k^{'}} >} > 0) η_{t} v β_{j}^{t}, \end{matrix}

\hat{P} {\arg \max}_{P &NotEqual; P_{i}} {Δ (P_{t}, P) - δ F_{w}^{i} (P)}

\hat{k} {\arg \max}_{k^{'} &NotEqual; k} {1 - < w_{j}, d_{k} - d_{k^{'}} >}

a_{j}^{t} = L_{j} (C_{t}, P_{t}) - L_{j} (C_{t}, \hat{P}),

β_{j}^{t} = d_{k} - d_{\hat{k}} . - - - (8)

而在线学习阶段，通过RANSAC计算方法，得到的中间P投影矩阵进行得分值判断，选择得分最高的作为P_t，次高的为P_i用来进行更新下一帧的

输出分值最高的P_t，为当前图像的投影矩阵，进行分解，分解出当前帧的位姿矩阵[R|t]。

步骤11：对跟踪的点进行分析，若跟踪上的特征点个数大于T₁并且小于T₂，20＜T₁＜30，40＜T₂＜50，跟踪到的点数影响了计算位姿矩阵的精度，则进行丢失的特征点恢复。T₁为最少跟踪到点的阈值，T₂位置矩阵计算的质量控制阈值。

丢失的特征点恢复通过计算参考图像与关键帧图像的单应矩阵来和当前图像对应三点的投影矩阵来实现，如下式：

[\begin{matrix} x_{2}^{j} \\ y_{2}^{j} \\ 1 \end{matrix}] = H_{r}^{2} [\begin{matrix} x_{r}^{j} \\ y_{r}^{j} \\ 1 \end{matrix}]

对空间三维点X对应在第二幅图像上参考图像的2D坐标点为

x_{r} = [\begin{matrix} x_{r}^{j} \\ y_{r}^{j} \\ 1 \end{matrix}]

如果在当前图像上没有匹配的2D特征点，利用投影矩阵进行重投影，计算对应当前图像的坐标，并在该图像坐标点的周围10个像素领域内，计算BRISK特征向量D₁。再根据上式，利用当前图像的与第二幅参考图像的单应矩阵

将以x₂为中心的像素块位置投影到当前图像，

[\begin{matrix} x_{r}^{j} \\ y_{r}^{j} \\ 1 \end{matrix}]

为x_r领域上的第j个像素，

[\begin{matrix} x_{2}^{j} \\ y_{2}^{j} \\ 1 \end{matrix}]

为单应变换后当前图像的像素坐标，并计算单应变化后的像素块的BRISK特征向量D₂。计算D₁与D₂的汉明距离，满足设定的阈值T，则认为是匹配特征点，将D₁向量对应的特征点进行恢复，否则认为该特征点被遮挡了丢掉该特征点。

步骤12：当跟踪到的特征点数小于T₁，表明已经对当前场景跟踪失败，用户已经到达新的场景需要重新进行重建和识别，进入步骤2。

Claims

1.一种基于在线学习的移动增强现实跟踪注册方法，其特征在于，包括以下步骤：

步骤1：对摄像机的内参进行标定；

步骤8：进行几何校验和反投影误差分析判断是不是有效的位姿矩阵，如果是有效的位姿矩阵执行步骤9，否则返回步骤3；

2.如权利要求1所述的一种基于在线学习的移动增强现实跟踪注册方法，其特征在于，步骤2中对场景特征点进行重建的具体步骤包括：

2.1从不同角度拍摄待注册场景的两幅图像作为参考图像，并做特征提取与匹配操作；

2.2根据特征匹配结果，利用RANSAC算法去除误匹配点，根据匹配的特征点对求取基本矩阵F；

2.3由基本矩阵F和已知的摄像头内参得到本质矩阵E；

2.4根据本质矩阵E正确估计摄像机外参数R和t；

2.5将摄像机内参数K和外参数R和t组合成投影矩阵；

2.6重建两幅图像匹配好的特征点；

2.7建立图像局部特征对应的三维坐标信息库。

3.如权利要求2所述的一种基于在线学习的移动增强现实跟踪注册方法，其特征在于，步骤2.1对图像的特征提取和匹配，包括对图像的去噪声和进行灰度处理；特征点提取使用二进制特征检测算法BRISK，特征匹配使用汉明距离度量法；设定一个阈值T，30≤T≤50，当前图像的特征与参考图像的所有特征进行比较，选取距离最短的，并且小于T的特征作为匹配特征。