CN101520904B

CN101520904B - 带有现实环境估算的增强现实的方法及其系统

Info

Publication number: CN101520904B
Application number: CN2009100481123A
Authority: CN
Inventors: 季斐翀; 陆涛; 周暖云; 潘晋
Original assignee: Shanghai Crystal Information Technology Co Ltd
Current assignee: Shanghai Crystal Visual Display Co ltd
Priority date: 2009-03-24
Filing date: 2009-03-24
Publication date: 2011-12-28
Anticipated expiration: 2029-03-24
Also published as: CN101520904A

Abstract

带有现实环境估算的增强现实的方法及其系统，包括：初始化系统环境、配置系统参数；选择或提取一幅标志物正视图，对标志物进行训练，获得训练数据；计算标志物图像的相机内部参数并进行校正；对摄像头拍摄到的真实环境中的每一帧，进行校正，基于训练数据识别标志物，计算该标志物在摄像头坐标系中的相对位置矩阵；通过识别出的标志物寻找对应虚拟模型，利用提取出的标志物位置矩阵确定模型的位置，绘制虚拟模型，通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息，进行现实环境光源估算，估算出现实光源的位置，生成阴影。本发明极大地减少了对标志物的限制，可用于对地图与复杂二维图像进行标示。

Description

带有现实环境估算的增强现实的方法及其系统

技术领域

本发明属于增强现实技术领域，特别涉及增强现实的方法及系统，应用于虚拟现实与计算机视觉领域，利用模式识别与虚拟现实技术对视频采集到的现实图像帧起到添加内容、增强效果的作用。

背景技术

增强现实(AR，Augmented Reality)是利用虚拟物体对真实场景进行现实增强的技术。增强现实基于摄像头等采集器件采集到的真实物理环境，通过将文本、二维图像、三维模型等虚拟生成的信息标注在显示屏所显示的真实物理环境中的物体上，从而实现对用户身处的现实物理环境的注释、说明，或者增强、强调现实环境的某些效果。比如用户戴上专用的增强现实显示眼镜，观察某个复杂机械时，他不仅可以看到现实世界中存在的机械结构本身，还可以同时看到通过增强现实技术附加的多媒体信息如机械各个部分的介绍等。增强现实技术给用户一种虚拟对象与现实环境两相融合的体验，它能有效地帮助用户认知周围环境，增添周围环境的信息，实现用户与周围环境的交互。

“ARToolkit”是一种可用于增强现实的开源软件包。ARtoolkit使用计算机视觉技术来计算真实摄像场景与标记符号之间的相对位置关系。ARToolkit的主要算法流程为：输入实时捕获的视频图像帧，通过可设定的阈值将其转换成黑白二值图；搜索场景中标志物的黑框颜色所对应的连通区域，作为标志物黑框的候选对象；得到各连通区域的轮廓线，若能提取出四条相交的直边，则作为可能的标志物；利用四条直边找到的角特征，进行形变矫正，并计算出标志物变换成前视图的一个单应性矩阵(homography)变换；利用该单应性矩阵在标志物的黑框内部区域进行采样，采样模板一般为16×16，共得到256个采样点构成一个采样向量；将这个采样向量与预先存放在标志物数据库的标志物逐个进行比较，计算标志物上相应点构成的向量与采样向量的归一化向量点积，得到一个可信度值；如果可信度值低于一个阈值，就当作是未匹配成功，否则就是匹配成功。根据匹配成功的标志物查找到相对应的虚拟物体，将虚拟物体按相机与标志物的当前相对方位进行变换，使之与标志物相吻合。

现有技术中，有基于ARToolKit包与二维可视编码技术实现三维增强现实的方法和系统，用以实现虚实物体之间映射关系的建立。该系统具体包括：视频帧捕获模块、视频跟踪模块、虚拟图形系统模块、虚实合成模块以及视频显示模块，各个部分功能具体为：

A、视频帧捕获模块，用于捕获二维可视编码标志物的视频帧，并将该视频帧发送给视频跟踪模块；

B、视频跟踪模块，用于计算处理获得的标志物视频帧，根据计算处理结果获得从标志物坐标系到相机坐标系的变换矩阵；通过采样二维可视编码中编码图案，获得标志物编码值，检索出与该编码值对应的三维模型，并根据该三维模型的顶点数组与变换矩阵的乘积，得到该三维图形在相机坐标系下的坐标数组。

C、虚拟图形系统模块，用于根据获得的三维图形在相机坐标系下的坐标数组绘制对应的三维图形，并将该三维图形存储在帧缓存中，生成虚拟图形帧。

D、虚实合成模块，用于将获得的虚拟图形帧与二维可视编码标志物的视频帧进行合成，得到合成视频帧。

该技术方案的主要特点为：

1、在现有的三维增强现实技术中引入规范的二维可视化编码图像作为跟踪所用标志物，以代替现有技术中ARToolkit采用的任意形状的标志物，从而提高了ARToolkit中的跟踪算法速度以及可靠性、并且加快了模式匹配处理速度。

2、在现有的二维可视化编码基础上引入对三维相对变换信息的计算与提取，检索出相应的三维媒体信息并且三维注册合成的增强现实技术，该技术可识别出二维可视编码，还能将得到的其对应的三维空间位置，通过编码检索到的三维模型实时地增强显示在编码图形上，进而实现增强现实功能。

3、主要用于在计算资源相对有限的手持移动计算设备上实施增强现实技术，拓展增强现实技术的应用领域。

其缺点是，对标志物的要求较高，要求标志物形态简单，形状边沿与背景色的反差非常清晰明显，并且必须有四条直边组成的四边形边框作为清晰边界，否则会影响识别效果。

发明内容

本发明的目的在于，提供一种带有现实环境估算的增强现实的方法及其系统，通过判断特定标志物区域是否被覆盖的方式改变虚拟物体与真实场景的合成效果，增强与用户的交互性。

本发明采用如下技术方案：

一种带有现实环境估算的增强现实的方法，包括以下步骤：

步骤10)、初始化系统环境、配置系统参数；

步骤20)、选择或提取一幅标志物正视图，对标志物进行训练，获得训练数据；

步骤30)、计算标志物图像的相机内部参数并进行校正；

步骤40)、对摄像头拍摄到的真实环境中的每一帧，利用步骤30)中的数据进行校正，再基于步骤20)中的训练数据识别标志物，若含有标志物，则计算该标志物在摄像头坐标系中的相对位置矩阵；

步骤50)、通过识别出的标志物寻找对应虚拟模型，利用提取出的标志物位置矩阵确定模型的位置；

步骤60)、在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型；

步骤70)、通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息，进行现实环境光源估算，估算出现实光源的位置，生成阴影。

进一步地，所述步骤70)具体包括以下步骤：

步骤71)、将标志物平面转向各个方向，获取识别出标志物的帧；

步骤72)、保存该帧中当前标志物的亮度及法向量坐标值；

步骤73)、判断识别到标志物并保存亮度信息的帧的总数是否达到一定数目，若达到，则进入步骤74)，若未达到，转步骤71)；

步骤74)、找到满足一定数目的帧，这些帧的标志物法向量指向同一个方向，并且其亮度值均值为最大，将这些帧的法向量坐标的均值作为光源方向的估算位置；

步骤75)、根据光源估算的位置，生成阴影。

进一步地，所述步骤20)具体包括以下步骤：

步骤21)、将彩色图转化为灰度图；

步骤22)、初步提取特征点，具体提取特征点的方法如下：

对于图片上的每个象素m，若以m为中点、围绕着m的八个象素中的任意两个满足以下两个条件，则排除这个像素m：

a、这两个像素处于以m为中点的这圈像素的某条直径两端，

b、这两个像素的灰度值均与m接近；

步骤23)、把灰度图进行正视图视角变换，在变换后的视图中提取特征点，用来得到更为稳定的特征点；

步骤24)、将所有经不同角度的透视变换的正视图中的同一个特征点取出，构成一个“特定视点集合”，得到N个“特定视点集合”，每个“特定视点集合”对应一个稳定特征点；

步骤25)、构建随机树用以特征点分类和识别。

进一步地，所述步骤24)中“特定视点集合”的构成方法为：

将原始正视图分别绕x轴、y轴按(-π，+π)的范围旋转进行透视变换，将绕x轴的转向均分为Lx个角度，将绕y轴的转向均分为Ly个角度，得L＝Lx×Ly幅变换视图，将所有变换视图中编号相同的特征点取出，得到N个集合V_n＝{v_n1，v_n2……v_nL}，1≤n≤N，每个V_n就是对应一个特征点的“特定视点集合”，该集合中的每个元素包含了在不同视角变换下同一特征点的不同位置。

进一步地，所述步骤23)具体为：

对于一幅给定的标志物的正视图，用步骤22)中的方法提取出M个特征点，按特征点的坐标位置顺序编号，构成一个特征点集合K＝{k₁，k₂……k_M}，集合中每个元素表示相应编号的一个特征点；

对该标志物原始正视图进行多个不同角度的透视变换，并给变换后的正视图加上白噪声，之后再利用步骤22)中的方法提取变换后的视图的特征点，再利用反变换将提取出的特征点还原为相应的正视图特征点；统计多个经过不同角度变换的视图经上述“变换-提取-还原”后的特征点仍能找到原始正视图相对应特征点的概率，概率最高的N个点被确认为“稳定”的特征点，集合K的元素数由M减为N，即K＝{K₁，K₂……K_N}。

进一步地，所述步骤25)中构建随机树用以特征点分类和识别，具体如下：

随机树采用二叉树结构，输入的数据为32×32像素的面片，在训练时将大量包含“特定视点集合”中的特征点的面片输入随机树，让每个面片进入某一片树叶，当所有的面片都进入树叶后，计算每片叶子对应所有“稳定”的特征点的概率分布，某片树叶包含的概率分布可由如下公式表示：

P_η(l，p)(Y(p)＝c)

其中，p代表32×32像素的一块面片，Y(p)是该面片所包含的特征点对应的特征点标号，c∈{-1，1，2……N}，其中-1表示不包含任何特征点的面片，l为随机树的编号，η代表p面片投入第l棵树所到达的那片树叶；

为每个结点选取的判断公式如下，

其中，I(p，m)表示面片p在m点的亮度，m₁，m₂，m₃，m₄为面片p中随机挑选的四个位置不同像素。

进一步地，所述步骤40)具体包括以下步骤：

将采集的一帧图像分解为32×32像素的面片，将每片面片输入步骤25)中构建的不同的随机树；

表示面片p所包含特征点经估算得到的特征点标号，

利用以下公式算得：

该公式是将面片p在不同树中所到达的叶片的概率分布相加取平均值，得到一个平均概率分布，将这个平均概率分布中概率最大的那个稳定特征点的标号，作为面片p对应的特征点的标号；利用该公式建立新采集图像特征点和原始正视图特征点的对应。

本发明还提供一种带有现实环境估算的增强现实的方法，包括：

视频帧训练模块，用于选择或提取一幅标志物正视图，对标志物进行训练，获得训练数据；

视频帧校正模块，与所述视频帧训练模块相连接，用于计算标志物图像的相机内部参数并进行校正；

视频帧捕获模块，与所述视频帧训练模块和所述视频帧校正模块相连接，用于对摄像头拍摄到的真实环境中的每一帧，利用所述视频帧校正模块中的数据进行校正，再基于所述视频帧训练模块中的训练数据识别标志物，若含有标志物，则计算该标志物在摄像头坐标系中的相对位置矩阵，并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息；

虚实合成模块，与视频帧捕获模块相连接，用于通过识别出的标志物寻找对应虚拟模型，利用提取出的标志物位置矩阵确定模型的位置，在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型，

现实环境光源估算模块，与所述虚实合成模块相连接，用于进行现实环境光源估算，根据估算出的现实光源位置，生成阴影。

相对于已有的其他发明，如ARToolkit开发包与华为的系统，本系统极大地减少了对标志物的限制，这些限制主要包括以下几条：

(1)、要求标志物色彩深而单一，与背景色反差大。

(2)、标志物形态为简单图形。

(3)、标志物四周有四边形的清晰边框作为识别的边界。

而本系统所对应标志物无需任何边界，可截取任意二维图像中包含一定纹理特征的任意四边形区域，主要面向真实环境中用摄像头、照相机等摄取的含真实景物、具有照片特性的二维图像，图形内容可以极为复杂。系统的这些特性极大地扩展了增强现实的使用范围。

本系统可用于对地图与复杂二维图像进行标示，也可在任意二维图像上合成三维模型，形成立体、生动的效果。

并且通过现实环境光源估算模块，估算出的现实光源位置，生成阴影，增添的效果的生动性，进一步提高了用户现实体验。

以下结合附图及实施例进一步说明本发明。

附图说明

图1为本发明基于图像特征点提取与随机树分类的增强现实的系统实施例示意图；

图2为本发明带有现实环境估算的增强现实的方法实施例流程图；

图3为本发明方法实施例中对标志物进行训练的流程图；

图4为一页书上特征点对应的实际情况；

图5为本发明实施例中现实环境光源估算步骤流程图；

图6为ShadowMap法生成阴影示意图。

具体实施方式

如图1所示，一种带有现实环境估算的增强现实的系统，包括：

虚实合成模块，与视频帧捕获模块相连接，用于通过识别出的标志物寻找对应虚拟模型，利用提取出的标志物位置矩阵确定模型的位置，在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型。

如图2所示，一种带有现实环境估算的增强现实的方法，包括以下步骤：

步骤10)、初始化系统环境、配置系统参数；主要包括搭建系统硬件平台，设置能够支持二维和三维图形的绘图环境，分配图像缓存空间，识别摄像头等；

步骤20)、从文件中选择一幅标志物正视图的图像文件或者从摄像头中提取标志物正视图，对标志物进行训练。训练主要包括灰度处理与特征点处理等；

步骤30)、计算标志物图像的内参并进行校正。相机内部参数是指摄像头相机的焦距和形变等内部固有参数，该参数确定了摄像头相机的投影变换矩阵，它取决于相机本身的属性，所以对同一个相机来说其内部参数是恒定不变的。本系统通过在多个不同角度拍摄标志物，通过对不同角度的标志物与标志物正视图的比对，计算相机的内参并读入系统，用来对之后虚实合成的每一帧图形进行校正；

步骤40)、对摄像头拍摄到的真实环境中的每一帧，利用步骤30)中的数据进行校正，再基于步骤20)中的训练数据识别标志物，若含有标志物，则计算该标志物在摄像头坐标系中的相对位置矩阵与光照等信息；

标志物在相机平面上成相的过程，相当于构成标志物的每个象素点坐标从三维坐标系上变换到相机坐标系上，然后投影到相机平面上形成标志物的二维图像。这一变换可由相对位置矩阵来表达。步骤40)即用来计算这一位置矩阵。之后通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息；

步骤50)、由识别出的标志物寻找对应虚拟模型，利用提取出的标志物位置矩阵确定模型的位置；

步骤60)、在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型，实现增强现实；

本实施例中的光源估算是对标志物所在的现实环境中的光的方向与强度进行估算。该步骤也可在训练结束之后，识别与合成阶段刚开始的n帧进行。实践中n取100。在最开始的n帧中采集标志物法向量指向各个不同方向时标志物的亮度值，经统计得到亮度值最大的方向，并将该方向作为光源的估算方向。所述步骤70)具体如图5所示，包括以下步骤：

步骤71)、将标志物平面转向各个方向，获取识别出标志物的帧；由于需要得到标志物朝向各个不同方向时的表面亮度值，故在这个阶段，要手动将标志物平面缓缓转向各个方向，并且速度要缓和，因为若是转动过则快无法识别标志物，导致无法判断亮度；

步骤72)、保存该帧中当前标志物的亮度及法向量坐标值；

步骤75)、根据光源估算的位置，生成阴影，增添的效果的生动性。

其中，所述步骤75)中采用现有的ShadowMap法生成阴影。ShadowMap法是一种简单高效的阴影生成算法。它的主要优点在于不需要计算场景几何物体的形状，即便对于复杂场景也只需要产生一张图(Map)就可以进行阴影生成。该方法如图6所示，首先设置一台摄像机以光源为视点观察物体，进行投影变换。由常识可知，从光源的角度观察物体，看不到由这个光源所形成的任何阴影。因此从该视角观察物体，任何在默认摄像头中应渲染为阴影的点都被遮挡，无法被观察到。由该光源视角观察物体，渲染出一幅带深度缓冲的平面阴影贴图，该贴图即为ShadowMap。该贴图中的灰度代表以灯光视点出发，穿过投影面形成的射线经过的所有场景中的点中离灯光最近的那个点的深度值。ShadowMap中的颜色灰度记录了从灯光视角点出发一条射线上所有顶点的Z深度值信息中最接近光源的点所转化为的灰度，而那些被遮挡的顶点即是产生阴影的点。再以光源为试点，进行投影变换，但这一次记录投影变换后场景中的每个点的真实的Z深度值。将每个点真实的Z深度值与ShadowMap中同一位置上的点的灰度值进行对比，如果是被光照到的点，则这两个值相同；如果是该被渲染为阴影的点，则这两个值不同。由此可判断哪些点是处在阴影中的点。在正常摄像机的视角中将判断为处在阴影中的点渲染为黑色，即得到物体的阴影。利用ShadowMap方法可快速生成合成图像的阴影。

图6中A、B、C三点在正常摄像机中都可被观察到，图中：

A点的Map灰度值＝2小于摄像机Z深度值＝7，因此渲染为黑色；

B点的Map灰度值＝2小于摄像机Z深度值＝6，因此渲染为黑色；

C点的Map灰度值＝2等于摄像机Z深度值＝2，因此渲染光照。

从灯光视角观察物体，生成ShadowMap灰度图，则在直线ABC上的点的z深度值都用点C的z深度值替代，保存在ShadowMap中。渲染时将从灯光视角得到的A、B、C三点的真实z深度值和灰度图中的值对比，即可得A、B两点为应该渲染为阴影的点。

进一步地，如图3所示，所述步骤20)具体包括以下步骤：

步骤21)、将彩色图转化为灰度图；

步骤22)、初步提取特征点，具体提取特征点的方法如下：

对于图片上的每个象素m，若以m为中点、围绕着m的八个象素中的任意两个满足以下两个条件：

a、这两个像素处于以m为中点的这圈像素的某条直径两端；

b、这两个像素的灰度值均与m接近。

则这个像素m被认为是“不稳定”的点。排除所有“不稳定”的像素后，剩下的即为初步提取出的“较稳定”特征点。这样可以很快地去除位于灰度值较平均的区域与位于边缘上的点；

步骤23)、把灰度图进行正视图视角变换，在变换后的视图中提取特征点，用来得到更为稳定的特征点，具体如下：

对于一幅给定的标志物的正视图，用步骤22)中的方法提取出M个特征点，按特征点的坐标位置顺序编号，构成一个特征点集合K＝{k₁，k₂……k_M}，集合中每个元素表示相应编号的一个特征点。

对该标志物原始正视图进行多个不同角度的透视变换，并给变换后的正视图加上白噪声，之后再利用步骤22)中的方法提取变换后的视图的特征点，再利用反变换将提取出的特征点还原为相应的正视图特征点。统计多个经过不同角度变换的视图经上述“变换-提取-还原”后的特征点仍能找到原始正视图相对应特征点的概率，概率最高的N个点被最终确认为“稳定”的特征点。通过该方法可对步骤22)中提取出的特征点进行进一步筛选，得到最为稳定的特征点。集合K的元素数由M减为N，即K＝{K₁，K₂……K_N}；

步骤24)、构建“特定视点集合”，该“特定视点集合”用于步骤25)中训练与构建“随机树”；

本发明基于特征点提取与随机树分类对标志物进行识别且计算标志物在摄像头坐标系中的位置，其中一个最为关键的问题是，判断待识别帧中是否包含正视图上的“稳定特征点”，以及包含的是哪个特征点。为实现此目的，构建了“特定视点集合”，对其的解释如下：

将所有经不同角度的透视变换的正视图中的同一个特征点取出，专门构成一个集合，可得到N个集合，每个集合对应一个稳定特征点，这些集合即所谓的“特定视点集合”。例如，将原始正视图分别绕x轴、y轴按(-π，+π)的范围旋转进行透视变换，将绕x轴的转向均分为Lx个角度，将绕y轴的转向均分为Ly个角度，最终可得L＝Lx×Ly幅变换视图，将所有变换视图中编号相同的特征点取出，可得到N个集合V_n＝{v_n1，v_n2……v_nL}，1≤n≤N，每个V_n就是对应一个特征点的“特定视点集合”，该集合中的每个元素包含了在不同视角变换下同一特征点的不同位置；

步骤25)、构建随机树用以特征点分类和识别；

随机树分类法是一种快速简洁的分类法。其具体构建方法如下：

随机树采用二叉树结构，只有一个树冠，分出两个节点，每个节点再分出两个节点，依次递归，直到最底层的节点不再有分支，称之为树叶。每个节点都有一个判断公式，当一个数据从树冠输入后，每个节点的判断公式会对其进行判断，以决定将其放入左边还是右边的节点，放入下一层节点后再进行判断，直到进入某一个树叶。本发明中，输入的数据为32×32像素的面片，每个面片可包含或不包含特征点。在训练时将大量包含“特定视点集合”中的特征点的面片输入随机树，让每个面片进入某一片树叶，当所有的面片都进入树叶后，便可计算每片叶子对应所有“稳定”的特征点的概率分布，即数一下进入这个叶片的每个编号的特征点的总数占进入这个叶片的总面片数的比例。这样，每片叶子都包含各自的一组面向所有“稳定”特征点的概率分布。本实施例中使用了多棵随机树来增加识别的准确性。某片树叶包含的概率分布可由如下公式表示：

P_η(l，p)(Y(p)＝c)

其中，p代表32×32像素的一块面片，Y(p)是该面片所包含的特征点对应的特征点标号，c∈{-1，1，2……N}，其中-1表示不包含任何特征点的面片。l为随机树的编号，η代表p面片投入第l棵树所到达的那片树叶。

为每个结点选取的多种判断公式，本实施例中为每个结点选取的判断公式如下：

这样便构建起了一棵随机树，其主要特征就是各个结点上的判断公式以及各片叶子上不同的概率分布。

通过以不同方式分割面片与计算每个像素不同方向的梯度值，可为每个节点设置不同的判断公式，进而构建出多棵不同的随机树。

进一步地，所述步骤40)具体包括以下步骤：

将摄像头采集的一帧图像分解为32×32像素的面片，将每片面片输入步骤25)中构建的不同的随机树；

表示面片p所包含特征点经估算得到的特征点标号，

可利用以下公式算得：

该公式的含义是将面片p在不同树中所到达的叶片的概率分布相加取平均值，得到一个平均概率分布，将这个平均概率分布中概率最大的那个稳定特征点的标号，作为面片p对应的特征点的标号。利用该公式便可以建立新采集图像特征点和原始正视图特征点的对应。实验表明，该对应的正确率在90％以上。在建立了特征点的对应之后，便可以利用计算机视觉中常用的算法来计算标志物在摄像头坐标系中的位置。图4显示了一页书上特征点对应的情况。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在使本领域内的技术人员能够了解本发明的内容并据以实施，当不能仅以本实施例来限定本发明的专利范围，即凡依本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种带有现实环境估算的增强现实的方法，其特征在于包括以下步骤：

步骤10)、初始化系统环境、配置系统参数；

步骤30)、计算标志物图像的相机内部参数并对相机内部参数数据进行校正；

步骤40)、对摄像头拍摄到的真实环境中的每一帧，利用步骤30)中的相机内部参数数据进行校正，再基于步骤20)中的训练数据识别标志物，若含有标志物，则计算该标志物在摄像头坐标系中的相对位置矩阵；

步骤50)、通过识别出的标志物寻找对应虚拟模型，利用提取出的标志物在摄像头坐标系中的相对位置矩阵确定模型的位置；

2.根据权利要求1所述的带有现实环境估算的增强现实的方法，其特征在于，所述步骤70)具体包括以下步骤：

步骤72)、保存该帧中当前标志物的亮度及法向量坐标值；

步骤75)、根据光源估算的位置，生成阴影。

3.根据权利要求1或2所述的带有现实环境估算的增强现实的方法，其特征在于，所述步骤20)具体包括以下步骤：

步骤21)、将彩色图转化为灰度图；

步骤22)、初步提取特征点，具体提取特征点的方法如下：

对于图片上的每个像素m，若以m为中点、围绕着m的八个像素中的任意两个满足以下两个条件，则排除这个像素m：

a、这两个像素处于以m为中点的这圈像素的某条直径两端，

b、这两个像素的灰度值均与m接近；

步骤23)、把灰度图进行正视图视角变换，在变换后的视图中提取特征点，用来得到“稳定”的特征点，具体步骤为：对于一幅给定的标志物的正视图，用步骤22)中的方法提取出M个特征点，按特征点的坐标位置顺序编号，构成一个特征点集合K＝{k₁，k₂……k_M}，集合中每个元素表示相应编号的一个特征点；对该标志物原始正视图进行多个不同角度的透视变换，并给变换后的正视图加上白噪声，之后再利用步骤22)中的方法提取变换后的视图的特征点，再利用反变换将提取出的特征点还原为相应的正视图特征点；统计多个经过不同角度变换的视图经上述“变换-提取-还原”后的特征点仍能找到原始正视图相对应特征点的概率，概率最高的N个点被确认为“稳定”的特征点，集合K的元素数由M减为N，即K＝{K₁，K₂……K_N}；

步骤24)、将所有经不同角度的透视变换的正视图中的同一个特征点取出，构成一个“特定视点集合”，得到N个“特定视点集合”，每个“特定视点集合”对应一个稳定特征点；所述“特定视点集合”的构成方法为：将原始正视图分别绕x轴、y轴按(-π，+π)的范围旋转进行透视变换，将绕x轴的转向均分为Lx个角度，将绕y轴的转向均分为Ly个角度，得L＝Lx×Ly幅变换视图，将所有变换视图中编号相同的特征点取出，得到N个集合V_n＝{v_n1，v_n2……v_nL}，1≤n≤N，每个V_n就是对应一个特征点的“特定视点集合”，该集合中的每个元素包含了在不同视角变换下同一特征点的不同位置；

步骤25)、构建随机树用以特征点分类和识别。

4.根据权利要求3所述的带有现实环境估算的增强现实的方法，其特征在于，所述步骤25)中构建随机树用以特征点分类和识别，具体如下：

随机树采用二叉树结构，输入的数据为32×32像素的面片，在训练时将大量包含“特定视点集合”中的特征点的面片输入随机树，让每个面片进入某一片树叶，当所有的面片都进入树叶后，计算每片树叶对应所有“稳定”的特征点的概率分布，某片树叶包含的概率分布可由如下公式表示：

P_η(l，p)(Y(p)＝c)

其中，p代表32×32像素的一块面片，Y(p)是该面片所包含的特征点对应的特征点标号，c∈{-1，1，2……N}，其中-1表示不包含任何特征点的面片，l为随机树的编号，η代表p面片投入第1棵树所到达的那片树叶，为每个结点选取的判断公式如下，

其中，I(p，m)表示面片p在m点的亮度，m₁，m₂，m₃，m₄为面片p中随机挑选的四个位置不同像素；

所述步骤40)具体包括以下步骤：

表示面片p所包含特征点经估算得到的特征点标号，

利用以下公式算得：

5.一种带有交互功能的增强现实的系统，其特征在于包括：

视频帧校正模块，与所述视频帧训练模块相连接，用于计算标志物图像的相机内部参数并对相机内部参数数据进行校正；

视频帧捕获模块，与所述视频帧训练模块和所述视频帧校正模块相连接，用于对摄像头拍摄到的真实环境中的每一帧，利用所述视频帧校正模块中的相机内部参数数据进行校正，再基于所述视频帧训练模块中的训练数据识别标志物，若含有标志物，则计算该标志物在摄像头坐标系中的相对位置矩阵，并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息；

虚实合成模块，与视频帧捕获模块相连接，用于通过识别出的标志物寻找对应虚拟模型，利用提取出的标志物位置矩阵确定模型的位置，在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型；