CN101551732A - 带有交互功能的增强现实的方法及其系统 - Google Patents
带有交互功能的增强现实的方法及其系统 Download PDFInfo
- Publication number
- CN101551732A CN101551732A CN 200910048110 CN200910048110A CN101551732A CN 101551732 A CN101551732 A CN 101551732A CN 200910048110 CN200910048110 CN 200910048110 CN 200910048110 A CN200910048110 A CN 200910048110A CN 101551732 A CN101551732 A CN 101551732A
- Authority
- CN
- China
- Prior art keywords
- mark
- unique point
- frame
- front elevation
- dough sheet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
带有交互功能的增强现实的方法及其系统,包括:初始化系统环境、配置系统参数;选择或提取一幅标志物正视图,对标志物进行训练,获得训练数据;计算标志物图像的相机内部参数并进行校正;对摄像头拍摄到的真实环境中的每一帧,进行校正,基于训练数据识别标志物,计算该标志物在摄像头坐标系中的相对位置矩阵,并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;通过识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置,绘制虚拟模型,设置交互区域并与用户的交互。本发明极大地减少了对标志物的限制,可用于对地图与复杂二维图像进行标示,也可在任意二维图像上合成三维模型。
Description
技术领域
本发明属于增强现实技术领域,特别涉及增强现实的方法及系统,应用于虚拟现实与计算机视觉领域,利用模式识别与虚拟现实技术对视频采集到的现实图像帧起到添加内容、增强效果的作用。
背景技术
增强现实(AR,Augmented Reality)是利用虚拟物体对真实场景进行现实增强的技术。增强现实基于摄像头等采集器件采集到的真实物理环境,通过将文本、二维图像、三维模型等虚拟生成的信息标注在显示屏所显示的真实物理环境中的物体上,从而实现对用户身处的现实物理环境的注释、说明,或者增强、强调现实环境的某些效果。比如用户戴上专用的增强现实显示眼镜,观察某个复杂机械时,他不仅可以看到现实世界中存在的机械结构本身,还可以同时看到通过增强现实技术附加的多媒体信息如机械各个部分的介绍等。增强现实技术给用户一种虚拟对象与现实环境两相融合的体验,它能有效地帮助用户认知周围环境,增添周围环境的信息,实现用户与周围环境的交互。
“ARToolkit”是一种可用于增强现实的开源软件包。ARtoolkit使用计算机视觉技术来计算真实摄像场景与标记符号之间的相对位置关系。ARToolkit的主要算法流程为:输入实时捕获的视频图像帧,通过可设定的阈值将其转换成黑白二值图;搜索场景中标志物的黑框颜色所对应的连通区域,作为标志物黑框的候选对象;得到各连通区域的轮廓线,若能提取出四条相交的直边,则作为可能的标志物;利用四条直边找到的角特征,进行形变矫正,并计算出标志物变换成前视图的一个单应性矩阵(homography)变换;利用该单应性矩阵在标志物的黑框内部区域进行采样,采样模板一般为16×16,共得到256个采样点构成一个采样向量;将这个采样向量与预先存放在标志物数据库的标志物逐个进行比较,计算标志物上相应点构成的向量与采样向量的归一化向量点积,得到一个可信度值;如果可信度值低于一个阈值,就当作是未匹配成功,否则就是匹配成功。根据匹配成功的标志物查找到相对应的虚拟物体,将虚拟物体按相机与标志物的当前相对方位进行变换,使之与标志物相吻合。
现有技术中,有基于ARToolKit包与二维可视编码技术实现三维增强现实的方法和系统,用以实现虚实物体之间映射关系的建立。该系统具体包括:视频帧捕获模块、视频跟踪模块、虚拟图形系统模块、虚实合成模块以及视频显示模块,各个部分功能具体为:
A、视频帧捕获模块,用于捕获二维可视编码标志物的视频帧,并将该视频帧发送给视频跟踪模块;
B、视频跟踪模块,用于计算处理获得的标志物视频帧,根据计算处理结果获得从标志物坐标系到相机坐标系的变换矩阵;通过采样二维可视编码中编码图案,获得标志物编码值,检索出与该编码值对应的三维模型,并根据该三维模型的顶点数组与变换矩阵的乘积,得到该三维图形在相机坐标系下的坐标数组。
C、虚拟图形系统模块,用于根据获得的三维图形在相机坐标系下的坐标数组绘制对应的三维图形,并将该三维图形存储在帧缓存中,生成虚拟图形帧。
D、虚实合成模块,用于将获得的虚拟图形帧与二维可视编码标志物的视频帧进行合成,得到合成视频帧。
该技术方案的主要特点为:
1、在现有的三维增强现实技术中引入规范的二维可视化编码图像作为跟踪所用标志物,以代替现有技术中ARToolkit采用的任意形状的标志物,从而提高了ARToolkit中的跟踪算法速度以及可靠性、并且加快了模式匹配处理速度。
2、在现有的二维可视化编码基础上引入对三维相对变换信息的计算与提取,检索出相应的三维媒体信息并且三维注册合成的增强现实技术,该技术可识别出二维可视编码,还能将得到的其对应的三维空间位置,通过编码检索到的三维模型实时地增强显示在编码图形上,进而实现增强现实功能。
3、主要用于在计算资源相对有限的手持移动计算设备上实施增强现实技术,拓展增强现实技术的应用领域。
其缺点是,对标志物的要求较高,要求标志物形态简单,形状边沿与背景色的反差非常清晰明显,并且必须有四条直边组成的四边形边框作为清晰边界,否则会影响识别效果。
发明内容
本发明的目的在于,提供一种带有交互功能的增强现实的方法及其系统,通过判断特定标志物区域是否被覆盖的方式改变虚拟物体与真实场景的合成效果,增强与用户的交互性。
本发明采用如下技术方案:
一种带有交互功能的增强现实的方法,包括以下步骤:
步骤10)、初始化系统环境、配置系统参数;
步骤20)、选择或提取一幅标志物正视图,对标志物进行训练,获得训练数据;
步骤30)、计算标志物图像的相机内部参数并进行校正;
步骤40)、对摄像头拍摄到的真实环境中的每一帧,利用步骤30)中的数据进行校正,再基于步骤20)中的训练数据识别标志物,若含有标志物,则计算该标志物在摄像头坐标系中的相对位置矩阵,并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;
步骤50)、通过识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置;
步骤60)、在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型。
步骤70)、在标志物附近设置交互区域,通过检测交互区域内是否被手覆盖,实现与用户的交互。
进一步地,所述步骤70)交互步骤具体包括以下步骤:
步骤71)、从摄像头取入当前帧;
步骤72)、判断是否识别出标志物,如果是,执行步骤73),如果否,转步骤71);
步骤73)、判断当前帧的交互区域内有无肤色,如果有,执行步骤74),如果无,执行步骤71);
步骤74)、启动交互效果。
进一步地,在所述步骤73)之后所述步骤74)之前,还包括以下步骤:
判断交互区域被手覆盖是否连续且达到一定帧数,如果是执行步骤74),如果否,转步骤71)。
进一步地,所述步骤73)中采用色度阈值判定方法检测是否存在肤色,通过统计多次采集当前光线下的肤色值,为肤色的r、g、b值确定一个阈值范围,然后对每个交互区域内的像素进行判断,若该像素值在肤色的阈值范围内,即认定检测到一个像素的肤色值。
进一步地,所述肤色色度中的r分量统一为值200,g分量阈值范围为[120,190],b分量为[100,160],当检测到肤色的像素值总数达到设定数目后,判定这一帧内的交互区域内有手覆盖于其上。
进一步地,所述步骤20)具体包括以下步骤:
步骤21)、将彩色图转化为灰度图;
步骤22)、初步提取特征点,具体提取特征点的方法如下:
对于图片上的每个象素m,若以m为中点、围绕着m的八个象素中的任意两个满足以下两个条件,则排除这个像素m:
a、这两个像素处于以m为中点的这圈像素的某条直径两端,
b、这两个像素的灰度值均与m接近;
步骤23)、把灰度图进行正视图视角变换,在变换后的视图中提取特征点,用来得到更为稳定的特征点;
步骤24)、将所有经不同角度的透视变换的正视图中的同一个特征点取出,构成一个“特定视点集合”,得到N个“特定视点集合”,每个“特定视点集合”对应一个稳定特征点;
步骤25)、构建随机树用以特征点分类和识别。
进一步地,所述步骤24)中“特定视点集合”的构成方法为:
将原始正视图分别绕x轴、y轴按(-π,+π)的范围旋转进行透视变换,将绕x轴的转向均分为Lx个角度,将绕y轴的转向均分为Ly个角度,得L=Lx×Ly幅变换视图,将所有变换视图中编号相同的特征点取出,得到N个集合Vn={vn1,vn2……vnL},1≤n≤N,每个Vn就是对应一个特征点的“特定视点集合”,该集合中的每个元素包含了在不同视角变换下同一特征点的不同位置。
进一步地,所述步骤23)具体为:
对于一幅给定的标志物的正视图,用步骤22)中的方法提取出M个特征点,按特征点的坐标位置顺序编号,构成一个特征点集合K={k1,k2……kM},集合中每个元素表示相应编号的一个特征点;
对该标志物原始正视图进行多个不同角度的透视变换,并给变换后的正视图加上白噪声,之后再利用步骤22)中的方法提取变换后的视图的特征点,再利用反变换将提取出的特征点还原为相应的正视图特征点;统计多个经过不同角度变换的视图经上述“变换-提取-还原”后的特征点仍能找到原始正视图相对应特征点的概率,概率最高的N个点被确认为“稳定”的特征点,集合K的元素数由M减为N,即K={K1,K2……KN}。
进一步地,所述步骤25)中构建随机树用以特征点分类和识别,具体如下:
随机树采用二叉树结构,输入的数据为32×32像素的面片,在训练时将大量包含“特定视点集合”中的特征点的面片输入随机树,让每个面片进入某一片树叶,当所有的面片都进入树叶后,计算每片叶子对应所有“稳定”的特征点的概率分布,某片树叶包含的概率分布可由如下公式表示:
Pη(l,p)(Y(p)=c)
其中,p代表32×32像素的一块面片,Y(p)是该面片所包含的特征点对应的特征点标号,c∈{-1,1,2……N},其中-1表示不包含任何特征点的面片,1为随机树的编号,η代表p面片投入第1棵树所到达的那片树叶;
为每个结点选取的判断公式如下,
其中,I(p,m)表示面片p在m点的亮度,m1,m2,m3,m4为面片p中随机挑选的四个位置不同像素。
进一步地,所述步骤40)具体包括以下步骤:
将采集的一帧图像分解为32×32像素的面片,将每片面片输入步骤25)中构建的不同的随机树;
该公式是将面片p在不同树中所到达的叶片的概率分布相加取平均值,得到一个平均概率分布,将这个平均概率分布中概率最大的那个稳定特征点的标号,作为面片p对应的特征点的标号;利用该公式建立新采集图像特征点和原始正视图特征点的对应。
本发明还提供一种带有交互功能的增强现实的系统,包括:
视频帧训练模块,用于选择或提取一幅标志物正视图,对标志物进行训练,获得训练数据;
视频帧校正模块,与所述视频帧训练模块相连接,用于计算标志物图像的相机内部参数并进行校正;
视频帧捕获模块,与所述视频帧训练模块和所述视频帧校正模块相连接,用于对摄像头拍摄到的真实环境中的每一帧,利用所述视频帧校正模块中的数据进行校正,再基于所述视频帧训练模块中的训练数据识别标志物,若含有标志物,则计算该标志物在摄像头坐标系中的相对位置矩阵,并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;
虚实合成模块,与视频帧捕获模块相连接,用于通过识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置,在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型,
交互模块,与所述虚实合成模块相连接,用于在标志物附近设置交互区域,通过检测交互区域内是否被手覆盖,实现与用户的交互。
相对于已有的其他发明,如ARToolkit开发包与华为的系统,本系统极大地减少了对标志物的限制,这些限制主要包括以下几条:
(1)、要求标志物色彩深而单一,与背景色反差大。
(2)、标志物形态为简单图形。
(3)、标志物四周有四边形的清晰边框作为识别的边界。
而本系统所对应标志物无需任何边界,可截取任意二维图像中包含一定纹理特征的任意四边形区域,主要面向真实环境中用摄像头、照相机等摄取的含真实景物、具有照片特性的二维图像,图形内容可以极为复杂。系统的这些特性极大地扩展了增强现实的使用范围。
本系统可用于对地图与复杂二维图像进行标示,也可在任意二维图像上合成三维模型,形成立体、生动的效果。
而交互功能通过判断特定标志物区域是否被覆盖的方式,改变虚拟物体与真实场景的合成效果,产生诸如变换虚拟模型、触发动画等效果,方便用户使用和操作。
以下结合附图及实施例进一步说明本发明。
附图说明
图1为本发明基于图像特征点提取与随机树分类的增强现实的系统实施例示意图;
图2为本发明带有交互功能的增强现实的方法实施例流程图;
图3为本发明方法实施例中对标志物进行训练的流程图;
图4为一页书上特征点对应的实际情况;
图5为本发明实施例中交互步骤流程图;
图6为确定交互式区域的示意图。
具体实施方式
如图1所示,一种带有交互功能的增强现实的系统,包括:
视频帧训练模块,用于选择或提取一幅标志物正视图,对标志物进行训练,获得训练数据;
视频帧校正模块,与所述视频帧训练模块相连接,用于计算标志物图像的相机内部参数并进行校正;
视频帧捕获模块,与所述视频帧训练模块和所述视频帧校正模块相连接,用于对摄像头拍摄到的真实环境中的每一帧,利用所述视频帧校正模块中的数据进行校正,再基于所述视频帧训练模块中的训练数据识别标志物,若含有标志物,则计算该标志物在摄像头坐标系中的相对位置矩阵,并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;
虚实合成模块,与视频帧捕获模块相连接,用于通过识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置,在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型。
交互模块,与所述虚实合成模块相连接,用于在标志物附近设置交互区域,通过检测交互区域内是否被手覆盖,实现与用户的交互。具体可以在标志物区域内或标志物平面上靠近标志物的地方任意划出一块区域,将该区域设为交互区域,当手覆盖于该区域上时,就像启动了一个开关一样,增强现实的合成效果会即时地产生相应变化,达到交互的目的。其中交互区域的划定可以是在提取并保存标志物正视图的时候,在正视图上或附近用鼠标手动划分出一块区域,保存该区域的坐标位置,设为交互区域,也可以由系统预先设定该交互区域。
如图2所示,一种带有交互功能的增强现实的方法,包括以下步骤:
步骤10)、初始化系统环境、配置系统参数;主要包括搭建系统硬件平台,设置能够支持二维和三维图形的绘图环境,分配图像缓存空间,识别摄像头等;
步骤20)、从文件中选择一幅标志物正视图的图像文件或者从摄像头中提取标志物正视图,对标志物进行训练。训练主要包括灰度处理与特征点处理等;
步骤30)、计算标志物图像的内参并进行校正。相机内部参数是指摄像头相机的焦距和形变等内部固有参数,该参数确定了摄像头相机的投影变换矩阵,它取决于相机本身的属性,所以对同一个相机来说其内部参数是恒定不变的。本系统通过在多个不同角度拍摄标志物,通过对不同角度的标志物与标志物正视图的比对,计算相机的内参并读入系统,用来对之后虚实合成的每一帧图形进行校正;
步骤40)、对摄像头拍摄到的真实环境中的每一帧,利用步骤30)中的数据进行校正,再基于步骤20)中的训练数据识别标志物,若含有标志物,则计算该标志物在摄像头坐标系中的相对位置矩阵与光照等信息;
标志物在相机平面上成相的过程,相当于构成标志物的每个象素点坐标从三维坐标系上变换到相机坐标系上,然后投影到相机平面上形成标志物的二维图像。这一变换可由相对位置矩阵来表达。步骤40)即用来计算这一位置矩阵。之后通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;
步骤50)、由识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置;
步骤60)、在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型,实现增强现实;
步骤70)、在标志物附近设置交互区域,如图6所示,通过检测交互区域内是否被手覆盖,实现与用户的交互。图6为确定交互式区域的示意图,左边为正视图,右边为检测出的实际试图,其中左下角区域为交互区域,该交互区域随交互视的位置角度变化而变化。
其中,所述步骤70)交互步骤如图5所示,具体包括以下步骤:
步骤71)、从摄像头取入当前帧;
步骤72)、判断是否识别出标志物,如果是,执行步骤73),如果否,转步骤71);
步骤73)、判断当前帧的交互区域内有无肤色,如果有,执行步骤74),如果无,执行步骤71);
步骤74)、启动交互效果。
进一步地,在所述步骤73)之后所述步骤74)之前,还包括以下步骤:
判断交互区域被手覆盖是否连续且达到一定帧数,如果是执行步骤74),如果否,转步骤71)。
其中,所述步骤73)中采用色度阈值判定方法检测是否存在肤色,通过统计多次采集当前光线下的肤色值,为肤色的r、g、b值确定一个阈值范围,然后对每个交互区域内的像素进行判断,若该像素值在肤色的阈值范围内,即认定检测到一个像素的肤色值。
其中,所述肤色色度中的r分量统一为值200,g分量阈值范围为[120,190],b分量为[100,160],当检测到肤色的像素值总数达到设定数目后,判定这一帧内的交互区域内有手覆盖于其上。
进一步地,如图3所示,所述步骤20)具体包括以下步骤:
步骤21)、将彩色图转化为灰度图;
步骤22)、初步提取特征点,具体提取特征点的方法如下:
对于图片上的每个象素m,若以m为中点、围绕着m的八个象素中的任意两个满足以下两个条件:
a、这两个像素处于以m为中点的这圈像素的某条直径两端;
b、这两个像素的灰度值均与m接近。
则这个像素m被认为是“不稳定”的点。排除所有“不稳定”的像素后,剩下的即为初步提取出的“较稳定”特征点。这样可以很快地去除位于灰度值较平均的区域与位于边缘上的点;
步骤23)、把灰度图进行正视图视角变换,在变换后的视图中提取特征点,用来得到更为稳定的特征点,具体如下:
对于一幅给定的标志物的正视图,用步骤22)中的方法提取出M个特征点,按特征点的坐标位置顺序编号,构成一个特征点集合K={k1,k2……kM},集合中每个元素表示相应编号的一个特征点。
对该标志物原始正视图进行多个不同角度的透视变换,并给变换后的正视图加上白噪声,之后再利用步骤22)中的方法提取变换后的视图的特征点,再利用反变换将提取出的特征点还原为相应的正视图特征点。统计多个经过不同角度变换的视图经上述“变换-提取-还原”后的特征点仍能找到原始正视图相对应特征点的概率,概率最高的N个点被最终确认为“稳定”的特征点。通过该方法可对步骤22)中提取出的特征点进行进一步筛选,得到最为稳定的特征点。集合K的元素数由M减为N,即K={K1,K2……KN};
步骤24)、构建“特定视点集合”,该“特定视点集合”用于步骤25)中训练与构建“随机树”;
本发明基于特征点提取与随机树分类对标志物进行识别且计算标志物在摄像头坐标系中的位置,其中一个最为关键的问题是,判断待识别帧中是否包含正视图上的“稳定特征点”,以及包含的是哪个特征点。为实现此目的,构建了“特定视点集合”,对其的解释如下:
将所有经不同角度的透视变换的正视图中的同一个特征点取出,专门构成一个集合,可得到N个集合,每个集合对应一个稳定特征点,这些集合即所谓的“特定视点集合”。例如,将原始正视图分别绕x轴、y轴按(-π,+π)的范围旋转进行透视变换,将绕x轴的转向均分为Lx个角度,将绕y轴的转向均分为Ly个角度,最终可得L=Lx×Ly幅变换视图,将所有变换视图中编号相同的特征点取出,可得到N个集合Vn={vn1,vn2……vnL},1≤n≤N,每个Vn就是对应一个特征点的“特定视点集合”,该集合中的每个元素包含了在不同视角变换下同一特征点的不同位置;
步骤25)、构建随机树用以特征点分类和识别;
随机树分类法是一种快速简洁的分类法。其具体构建方法如下:
随机树采用二叉树结构,只有一个树冠,分出两个节点,每个节点再分出两个节点,依次递归,直到最底层的节点不再有分支,称之为树叶。每个节点都有一个判断公式,当一个数据从树冠输入后,每个节点的判断公式会对其进行判断,以决定将其放入左边还是右边的节点,放入下一层节点后再进行判断,直到进入某一个树叶。本发明中,输入的数据为32×32像素的面片,每个面片可包含或不包含特征点。在训练时将大量包含“特定视点集合”中的特征点的面片输入随机树,让每个面片进入某一片树叶,当所有的面片都进入树叶后,便可计算每片叶子对应所有“稳定”的特征点的概率分布,即数一下进入这个叶片的每个编号的特征点的总数占进入这个叶片的总面片数的比例。这样,每片叶子都包含各自的一组面向所有“稳定”特征点的概率分布。本实施例中使用了多棵随机树来增加识别的准确性。某片树叶包含的概率分布可由如下公式表示:
Pη(l,p)(Y(p)=c)
其中,p代表32×32像素的一块面片,Y(p)是该面片所包含的特征点对应的特征点标号,c∈{-1,1,2……N},其中-1表示不包含任何特征点的面片。l为随机树的编号,η代表p面片投入第l棵树所到达的那片树叶。
为每个结点选取的多种判断公式,本实施例中为每个结点选取的判断公式如下:
其中,I(p,m)表示面片p在m点的亮度,m1,m2,m3,m4为面片p中随机挑选的四个位置不同像素。
这样便构建起了一棵随机树,其主要特征就是各个结点上的判断公式以及各片叶子上不同的概率分布。
通过以不同方式分割面片与计算每个像素不同方向的梯度值,可为每个节点设置不同的判断公式,进而构建出多棵不同的随机树。
进一步地,所述步骤40)具体包括以下步骤:
将摄像头采集的一帧图像分解为32×32像素的面片,将每片面片输入步骤25)中构建的不同的随机树;
该公式的含义是将面片p在不同树中所到达的叶片的概率分布相加取平均值,得到一个平均概率分布,将这个平均概率分布中概率最大的那个稳定特征点的标号,作为面片p对应的特征点的标号。利用该公式便可以建立新采集图像特征点和原始正视图特征点的对应。实验表明,该对应的正确率在90%以上。在建立了特征点的对应之后,便可以利用计算机视觉中常用的算法来计算标志物在摄像头坐标系中的位置。图4显示了一页书上特征点对应的情况。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在使本领域内的技术人员能够了解本发明的内容并据以实施,当不能仅以本实施例来限定本发明的专利范围,即凡依本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。
Claims (10)
1、一种带有交互功能的增强现实的方法,其特征在于包括以下步骤:
步骤10)、初始化系统环境、配置系统参数;
步骤20)、选择或提取一幅标志物正视图,对标志物进行训练,获得训练数据;
步骤30)、计算标志物图像的相机内部参数并进行校正;
步骤40)、对摄像头拍摄到的真实环境中的每一帧,利用步骤30)中的数据进行校正,再基于步骤20)中的训练数据识别标志物,若含有标志物,则计算该标志物在摄像头坐标系中的相对位置矩阵,并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;
步骤50)、通过识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置;
步骤60)、在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型;
步骤70)、在标志物附近设置交互区域,通过检测交互区域内是否被手覆盖,实现与用户的交互。
2、根据权利要求1所述的带有交互功能的增强现实的方法,其特征在于,所述步骤70)交互步骤具体包括以下步骤:
步骤71)、从摄像头取入当前帧;
步骤72)、判断是否识别出标志物,如果是,执行步骤73),如果否,转步骤71);
步骤73)、判断当前帧的交互区域内有无肤色,如果有,执行步骤74),如果无,执行步骤71);
步骤74)、启动交互效果。
3、根据权利要求2所述的带有交互功能的增强现实的方法,其特征在于,在所述步骤73)之后所述步骤74)之前,还包括以下步骤:
判断交互区域被手覆盖是否连续且达到一定帧数,如果是执行步骤74),如果否,转步骤71)。
4、根据权利要求3所述的带有交互功能的增强现实的方法,其特征在于:所述步骤73)中采用色度阈值判定方法检测是否存在肤色,通过统计多次采集当前光线下的肤色值,为肤色的r、g、b值确定一个阈值范围,然后对每个交互区域内的像素进行判断,若该像素值在肤色的阈值范围内,即认定检测到一个像素的肤色值。
5、根据权利要求4所述的带有交互功能的增强现实的方法,其特征在于:所述肤色色度中的r分量统一为值200,g分量阈值范围为[120,190],b分量为[100,160],当检测到肤色的像素值总数达到设定数目后,判定这一帧内的交互区域内有手覆盖于其上。
6、根据权利要求1至5中任一权利要求所述的带有交互功能的增强现实的方法,其特征在于,所述步骤20)具体包括以下步骤:
步骤21)、将彩色图转化为灰度图;
步骤22)、初步提取特征点,具体提取特征点的方法如下:
对于图片上的每个象素m,若以m为中点、围绕着m的八个象素中的任意两个满足以下两个条件,则排除这个像素m:
a、这两个像素处于以m为中点的这圈像素的某条直径两端,
b、这两个像素的灰度值均与m接近;
步骤23)、把灰度图进行正视图视角变换,在变换后的视图中提取特征点,用来得到更为稳定的特征点;
步骤24)、将所有经不同角度的透视变换的正视图中的同一个特征点取出,构成一个“特定视点集合”,得到N个“特定视点集合”,每个“特定视点集合”对应一个稳定特征点;
步骤25)、构建随机树用以特征点分类和识别。
7、根据权利要求6所述的带有交互功能的增强现实的方法,其特征在于,所述步骤24)中“特定视点集合”的构成方法为:
将原始正视图分别绕x轴、y轴按(-π,+π)的范围旋转进行透视变换,将绕x轴的转向均分为Lx个角度,将绕y轴的转向均分为Ly个角度,得L=Lx×Ly幅变换视图,将所有变换视图中编号相同的特征点取出,得到N个集合Vn={vn1,vn2……vnL},1≤n≤N,每个Vn就是对应一个特征点的“特定视点集合”,该集合中的每个元素包含了在不同视角变换下同一特征点的不同位置。
8、根据权利要求7所述的带有交互功能的增强现实的方法,其特征在于,所述步骤23)具体为:
对于一幅给定的标志物的正视图,用步骤22)中的方法提取出M个特征点,按特征点的坐标位置顺序编号,构成一个特征点集合K={k1,k2……kM},集合中每个元素表示相应编号的一个特征点;
对该标志物原始正视图进行多个不同角度的透视变换,并给变换后的正视图加上白噪声,之后再利用步骤22)中的方法提取变换后的视图的特征点,再利用反变换将提取出的特征点还原为相应的正视图特征点;统计多个经过不同角度变换的视图经上述“变换-提取-还原”后的特征点仍能找到原始正视图相对应特征点的概率,概率最高的N个点被确认为“稳定”的特征点,集合K的元素数由M减为N,即K={K1,K2……KN}。
9、根据权利要求8所述的带有交互功能的增强现实的方法,其特征在于,所述步骤25)中构建随机树用以特征点分类和识别,具体如下:
随机树采用二叉树结构,输入的数据为32×32像素的面片,在训练时将大量包含“特定视点集合”中的特征点的面片输入随机树,让每个面片进入某一片树叶,当所有的面片都进入树叶后,计算每片叶子对应所有“稳定”的特征点的概率分布,某片树叶包含的概率分布可由如下公式表示:
Pη(l,p)(Y(p)=c)
其中,p代表32×32像素的一块面片,Y(p)是该面片所包含的特征点对应的特征点标号,c∈{-1,1,2……N},其中-1表示不包含任何特征点的面片,1为随机树的编号,η代表p面片投入第1棵树所到达的那片树叶;
为每个结点选取的判断公式如下,
其中,I(p,m)表示面片p在m点的亮度,m1,m2,m3,m4为面片p中随机挑选的四个位置不同像素。
所述步骤40)具体包括以下步骤:
将采集的一帧图像分解为32×32像素的面片,将每片面片输入步骤25)中构建的不同的随机树;
该公式是将面片p在不同树中所到达的叶片的概率分布相加取平均值,得到一个平均概率分布,将这个平均概率分布中概率最大的那个稳定特征点的标号,作为面片p对应的特征点的标号;利用该公式建立新采集图像特征点和原始正视图特征点的对应。
10、一种带有交互功能的增强现实的系统,其特征在于包括:
视频帧训练模块,用于选择或提取一幅标志物正视图,对标志物进行训练,获得训练数据;
视频帧校正模块,与所述视频帧训练模块相连接,用于计算标志物图像的相机内部参数并进行校正;
视频帧捕获模块,与所述视频帧训练模块和所述视频帧校正模块相连接,用于对摄像头拍摄到的真实环境中的每一帧,利用所述视频帧校正模块中的数据进行校正,再基于所述视频帧训练模块中的训练数据识别标志物,若含有标志物,则计算该标志物在摄像头坐标系中的相对位置矩阵,并通过对已识别标志物和标志物正视图的亮度进行比对来估算标志物所处环境的光照信息;
虚实合成模块,与视频帧捕获模块相连接,用于通过识别出的标志物寻找对应虚拟模型,利用提取出的标志物位置矩阵确定模型的位置,在真实拍摄的视频帧上根据计算出的相对位置绘制虚拟模型;
交互模块,与所述虚实合成模块相连接,用于在标志物附近设置交互区域,通过检测交互区域内是否被手覆盖,实现与用户的交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910048110 CN101551732A (zh) | 2009-03-24 | 2009-03-24 | 带有交互功能的增强现实的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910048110 CN101551732A (zh) | 2009-03-24 | 2009-03-24 | 带有交互功能的增强现实的方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101551732A true CN101551732A (zh) | 2009-10-07 |
Family
ID=41155992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910048110 Pending CN101551732A (zh) | 2009-03-24 | 2009-03-24 | 带有交互功能的增强现实的方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101551732A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385512A (zh) * | 2010-08-25 | 2012-03-21 | 株式会社泛泰 | 通过使用标记来提供增强现实(ar)的装置和方法 |
CN102763064A (zh) * | 2009-12-17 | 2012-10-31 | 诺基亚公司 | 用于基于设备方位而提供对设备显示器的控制的方法和装置 |
WO2012174974A1 (zh) * | 2011-06-24 | 2012-12-27 | 中兴通讯股份有限公司 | 实现移动增强现实业务的方法及系统、终端及服务器 |
CN102867169A (zh) * | 2011-04-08 | 2013-01-09 | 索尼公司 | 图像处理设备、显示控制方法及程序 |
CN103295023A (zh) * | 2012-02-24 | 2013-09-11 | 联想(北京)有限公司 | 一种增强现实信息的显示方法及装置 |
CN103380631A (zh) * | 2010-12-22 | 2013-10-30 | 英特尔公司 | 用于移动增强现实应用的技术 |
WO2013174231A1 (zh) * | 2012-05-22 | 2013-11-28 | 腾讯科技(深圳)有限公司 | 增强现实交互的实现方法和系统 |
CN103543827A (zh) * | 2013-10-14 | 2014-01-29 | 南京融图创斯信息科技有限公司 | 基于单个摄像机的沉浸式户外活动交互平台的实现方法 |
CN103616954A (zh) * | 2013-12-06 | 2014-03-05 | Tcl通讯(宁波)有限公司 | 一种虚拟键盘系统、实现方法及移动终端 |
CN103679204A (zh) * | 2013-12-23 | 2014-03-26 | 上海安琪艾可网络科技有限公司 | 基于智能移动设备平台的图像识别与创作应用系统及方法 |
CN103916647A (zh) * | 2013-01-09 | 2014-07-09 | 英特尔公司 | 采用拖延期的视频流的姿势预处理来减少平台功率 |
CN104050443A (zh) * | 2013-03-13 | 2014-09-17 | 英特尔公司 | 使用肤色检测的视频流的姿势预处理 |
CN104077587A (zh) * | 2010-03-08 | 2014-10-01 | 英派尔科技开发有限公司 | 增强现实中的对象对准 |
CN105528081A (zh) * | 2015-12-31 | 2016-04-27 | 广州创幻数码科技有限公司 | 一种混合现实显示方法、装置及系统 |
CN105653036A (zh) * | 2015-12-31 | 2016-06-08 | 深圳市路通网络技术有限公司 | 一种涂鸦增强现实的方法及系统 |
CN105719522A (zh) * | 2016-01-25 | 2016-06-29 | 成都趣动力教育科技有限公司 | 一种双客户端语音通信方法、装置及系统 |
CN106127858A (zh) * | 2016-06-24 | 2016-11-16 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US9720507B2 (en) | 2012-12-13 | 2017-08-01 | Intel Corporation | Gesture pre-processing of video stream using a markered region |
CN107422840A (zh) * | 2011-07-18 | 2017-12-01 | 谷歌公司 | 使用光学遮挡识别目标对象 |
CN107615227A (zh) * | 2015-05-26 | 2018-01-19 | 索尼公司 | 显示装置、信息处理系统以及控制方法 |
CN108229333A (zh) * | 2016-12-21 | 2018-06-29 | 安讯士有限公司 | 用于识别运动视频中的事件的方法 |
CN105528083B (zh) * | 2016-01-12 | 2018-10-23 | 广州创幻数码科技有限公司 | 一种混合现实识别关联方法及装置 |
CN110070625A (zh) * | 2019-04-26 | 2019-07-30 | 京东方科技集团股份有限公司 | 增强现实设备用标识及其识别方法、增强现实设备 |
CN110737326A (zh) * | 2018-07-20 | 2020-01-31 | 广东虚拟现实科技有限公司 | 虚拟对象的显示方法、装置、终端设备及存储介质 |
-
2009
- 2009-03-24 CN CN 200910048110 patent/CN101551732A/zh active Pending
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102763064A (zh) * | 2009-12-17 | 2012-10-31 | 诺基亚公司 | 用于基于设备方位而提供对设备显示器的控制的方法和装置 |
CN102763064B (zh) * | 2009-12-17 | 2015-08-12 | 诺基亚公司 | 用于基于设备方位而提供对设备显示器的控制的方法和装置 |
CN104077587A (zh) * | 2010-03-08 | 2014-10-01 | 英派尔科技开发有限公司 | 增强现实中的对象对准 |
CN104077587B (zh) * | 2010-03-08 | 2018-02-02 | 英派尔科技开发有限公司 | 增强现实中的对象对准 |
CN102385512A (zh) * | 2010-08-25 | 2012-03-21 | 株式会社泛泰 | 通过使用标记来提供增强现实(ar)的装置和方法 |
CN103380631A (zh) * | 2010-12-22 | 2013-10-30 | 英特尔公司 | 用于移动增强现实应用的技术 |
CN103380631B (zh) * | 2010-12-22 | 2017-05-10 | 英特尔公司 | 用于移动增强现实应用的技术 |
CN102867169A (zh) * | 2011-04-08 | 2013-01-09 | 索尼公司 | 图像处理设备、显示控制方法及程序 |
CN102867169B (zh) * | 2011-04-08 | 2017-07-11 | 索尼公司 | 图像处理设备和显示控制方法 |
WO2012174974A1 (zh) * | 2011-06-24 | 2012-12-27 | 中兴通讯股份有限公司 | 实现移动增强现实业务的方法及系统、终端及服务器 |
CN107422840B (zh) * | 2011-07-18 | 2020-08-25 | 谷歌有限责任公司 | 用于识别目标对象的方法和系统 |
CN107422840A (zh) * | 2011-07-18 | 2017-12-01 | 谷歌公司 | 使用光学遮挡识别目标对象 |
CN103295023A (zh) * | 2012-02-24 | 2013-09-11 | 联想(北京)有限公司 | 一种增强现实信息的显示方法及装置 |
CN103426003B (zh) * | 2012-05-22 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 增强现实交互的实现方法和系统 |
CN103426003A (zh) * | 2012-05-22 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 增强现实交互的实现方法和系统 |
WO2013174231A1 (zh) * | 2012-05-22 | 2013-11-28 | 腾讯科技(深圳)有限公司 | 增强现实交互的实现方法和系统 |
US9189699B2 (en) | 2012-05-22 | 2015-11-17 | Tencent Technology (Shenzhen) Company Limited | Augmented reality interaction implementation method and system |
US10146322B2 (en) | 2012-12-13 | 2018-12-04 | Intel Corporation | Gesture pre-processing of video stream using a markered region |
US10261596B2 (en) | 2012-12-13 | 2019-04-16 | Intel Corporation | Gesture pre-processing of video stream using a markered region |
US9720507B2 (en) | 2012-12-13 | 2017-08-01 | Intel Corporation | Gesture pre-processing of video stream using a markered region |
US9104240B2 (en) | 2013-01-09 | 2015-08-11 | Intel Corporation | Gesture pre-processing of video stream with hold-off period to reduce platform power |
CN103916647B (zh) * | 2013-01-09 | 2017-04-12 | 英特尔公司 | 采用拖延期的视频流的姿势预处理来减少平台功率 |
CN103916647A (zh) * | 2013-01-09 | 2014-07-09 | 英特尔公司 | 采用拖延期的视频流的姿势预处理来减少平台功率 |
US9292103B2 (en) | 2013-03-13 | 2016-03-22 | Intel Corporation | Gesture pre-processing of video stream using skintone detection |
CN104050443A (zh) * | 2013-03-13 | 2014-09-17 | 英特尔公司 | 使用肤色检测的视频流的姿势预处理 |
CN104050443B (zh) * | 2013-03-13 | 2018-10-12 | 英特尔公司 | 使用肤色检测的视频流的姿势预处理 |
CN103543827B (zh) * | 2013-10-14 | 2016-04-06 | 徐坚 | 基于单个摄像机的沉浸式户外活动交互平台的实现方法 |
CN103543827A (zh) * | 2013-10-14 | 2014-01-29 | 南京融图创斯信息科技有限公司 | 基于单个摄像机的沉浸式户外活动交互平台的实现方法 |
CN103616954A (zh) * | 2013-12-06 | 2014-03-05 | Tcl通讯(宁波)有限公司 | 一种虚拟键盘系统、实现方法及移动终端 |
CN103679204A (zh) * | 2013-12-23 | 2014-03-26 | 上海安琪艾可网络科技有限公司 | 基于智能移动设备平台的图像识别与创作应用系统及方法 |
CN107615227A (zh) * | 2015-05-26 | 2018-01-19 | 索尼公司 | 显示装置、信息处理系统以及控制方法 |
CN107615227B (zh) * | 2015-05-26 | 2021-08-27 | 索尼公司 | 显示装置、信息处理系统以及控制方法 |
CN105528081B (zh) * | 2015-12-31 | 2019-02-19 | 广州创幻数码科技有限公司 | 一种混合现实显示方法、装置及系统 |
CN105653036A (zh) * | 2015-12-31 | 2016-06-08 | 深圳市路通网络技术有限公司 | 一种涂鸦增强现实的方法及系统 |
CN105528081A (zh) * | 2015-12-31 | 2016-04-27 | 广州创幻数码科技有限公司 | 一种混合现实显示方法、装置及系统 |
CN105528083B (zh) * | 2016-01-12 | 2018-10-23 | 广州创幻数码科技有限公司 | 一种混合现实识别关联方法及装置 |
CN105719522A (zh) * | 2016-01-25 | 2016-06-29 | 成都趣动力教育科技有限公司 | 一种双客户端语音通信方法、装置及系统 |
CN106127858A (zh) * | 2016-06-24 | 2016-11-16 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106127858B (zh) * | 2016-06-24 | 2020-06-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN108229333A (zh) * | 2016-12-21 | 2018-06-29 | 安讯士有限公司 | 用于识别运动视频中的事件的方法 |
CN110737326A (zh) * | 2018-07-20 | 2020-01-31 | 广东虚拟现实科技有限公司 | 虚拟对象的显示方法、装置、终端设备及存储介质 |
CN110070625A (zh) * | 2019-04-26 | 2019-07-30 | 京东方科技集团股份有限公司 | 增强现实设备用标识及其识别方法、增强现实设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101520849B (zh) | 基于图像特征点提取与随机树分类的增强现实方法及系统 | |
CN101520904B (zh) | 带有现实环境估算的增强现实的方法及其系统 | |
CN101551732A (zh) | 带有交互功能的增强现实的方法及其系统 | |
CN105046196B (zh) | 基于级联卷积神经网络的前车车辆信息结构化输出方法 | |
JP5522408B2 (ja) | パターン認識装置 | |
KR101469398B1 (ko) | 텍스트 기반 3d 증강 현실 | |
Dash et al. | Designing of marker-based augmented reality learning environment for kids using convolutional neural network architecture | |
CN102147867B (zh) | 一种基于主体的国画图像和书法图像的识别方法 | |
CN106952312B (zh) | 一种基于线特征描述的无标识增强现实注册方法 | |
CN103984963B (zh) | 一种高分辨率遥感图像场景分类方法 | |
Zhu et al. | An optimization approach for localization refinement of candidate traffic signs | |
CN110298867A (zh) | 一种视频目标跟踪方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN106529520A (zh) | 基于运动员号码识别的马拉松比赛照片管理方法 | |
Li et al. | Object tracking with only background cues | |
Donoser et al. | Robust planar target tracking and pose estimation from a single concavity | |
CN110390228A (zh) | 基于神经网络的交通标志图片识别方法、装置及存储介质 | |
CN201374082Y (zh) | 基于图像特征点提取与随机树分类的增强现实系统 | |
CN110766001B (zh) | 基于cnn和rnn的银行卡卡号定位与端到端识别方法 | |
Beglov | Object information based on marker recognition | |
Sharma | Text extraction and recognition from the normal images using MSER feature extraction and text segmentation methods | |
Vu et al. | Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering | |
KR101357581B1 (ko) | 깊이 정보 기반 사람의 피부 영역 검출 방법 | |
Hagbi et al. | In-place augmented reality | |
Prabaharan et al. | Text extraction from natural scene images and conversion to audio in smart phone applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20091007 |