CN102831401B

CN102831401B - 对无特定标记目标物体跟踪、三维叠加及交互的方法及系统

Info

Publication number: CN102831401B
Application number: CN201210273907.6A
Authority: CN
Inventors: 樊晓东; 唐文平; 刘家宾
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-08-03
Filing date: 2012-08-03
Publication date: 2016-01-13
Anticipated expiration: 2032-08-03
Also published as: CN102831401A

Abstract

本发明属于计算机应用技术领域，提供了一种对无特定标记目标物体跟踪、三维叠加及交互的方法及系统，首先从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板；然后利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；最后通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中；本方法利用加速surf算法对视频图像与模板图像进行特征匹配，完成摄像机标定，实现了无特定标记的目标物体实时跟踪、实时三维叠加，对每帧视频图像均实时计算目标的三维坐标信息，实现了现实中人或物和虚拟的人或物的交互，自动化程度较高，具有较强的推广与应用价值。

Description

对无特定标记目标物体跟踪、三维叠加及交互的方法及系统

技术领域

本发明属于增强现实技术领域，尤其涉及一种对无特定标记目标物体跟踪、三维叠加及交互的方法及系统。

背景技术

增强现实技术简称AR技术，也被称为扩增现实，把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉信息，声音，味道，触觉等)，通过科学技术模拟仿真后再叠加到现实世界被人类感官所感知，从而达到超越现实的感官体验，这种技术叫做增强现实技术，简称AR技术。

增强现实可根据所应用的范围分为户内型与户外型。户内型增强现实从广义上说包括各种将数据层覆盖于建筑物内部物理空间的实践，为建筑师、壁画师、展览设计师和新媒体艺术家所关心；相对而言，狭义的户内型增强现实是在计算机技术支持下发展起来的，它允许用户在现实环境中与虚拟物体交互。

增强现实技术中的诸多关键技术中，跟踪和定位技术、以及摄像机标定技术是重点，同时也是难点。为了实现虚拟与现实交互，增强现实技术需要对目标物体的三维坐标信息进行精确定位，因而准确地跟踪目标物体在三维坐标系下的位置以及目标和摄像机之间的相对位置十分重要。传统的增强现实技术实现方法通常需要预先在已知位置上放置基准标记(例如四周加黑色的方框)，通过识别和跟踪这些标记来间接跟踪目标物体，其优点是在确定或可控环境下能够实现鲁棒性较高的跟踪效果。缺点是不能实现直接对目标进行三维坐标信息提取和跟踪。

发明内容

本发明提供了一种对现实中存在的目标物体直接进行识别、三维坐标信息提取、跟踪的方法，旨在解决现有技术提供的增强现实技术需要预先在已知位置上放置基准标记，通过识别和跟踪这些标记来间接跟踪目标物体，不能自动对目标物体建立模板，并不能实现直接对现实中目标物体进行识别、三维坐标信息提取、跟踪的问题。

本发明的目的在于提供一种对无特定标记目标物体实时跟踪、三维叠加及交互的方法，该方法包括以下步骤：

从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板或预知已知目标物体的特征模版；

利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；

通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中，利用图形引擎中的交互功能，实现三维叠加的虚拟物体和现实物体之间的交互。

进一步，所述利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息以及通过图形引擎将虚拟物体或动画实时叠加在现实空间三维坐标系的实现方法为：

对采集到的某一帧视频图像Q，利用surf算法求解出与模板匹配的所有特征点P＝{p₁，p₂，...，p_n}，其中，p_i为图像Q中的特征点；

从全部匹配特征点P＝{p₁，p₂，...，p_n}中选择4个最准确的匹配特征点j_k∈{1，2，...，n}，k＝1，2，3，4，记录这些特征点的图像坐标值(u_i，v_i)，i＝j₁，j₂，j₃，j₄，并以其中一点为世界坐标原点，记录下其他特征点的世界坐标j_k∈{1，2，...，n}，k＝1，2，3，4；

利用世界坐标系的坐标与其投影点的像素坐标(u_i，v_i)之间的关系式计算相机的外参数矩阵H，其中，i＝j₁，j₂，j₃，j₄；

利用计算出的外参数矩阵H，在图形引擎中将当前视频帧图像作为三维引擎中三维场景的背景，在场景中所需要的位置渲染出三维模型，实现实时三维叠加；

利用图形引擎中的交互功能，实现三维叠加的虚拟物体和现实物体之间的交互。

进一步，该方法可对摄像机拍摄图像中多个目标物体进行计算，得出每个物体的三维信息，对多个目标物体进行三维叠加。

进一步，目标物体相对于摄像机的三维信息为目标物体相对于摄像机的三维实时位移及旋转角度。

本发明的另一目的在于提供一种对无特定标记目标物体实时跟踪、三维叠加及交互的系统，该系统包括：

特征模板建立模块，用于从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板，也可预置已知的特征模板；

三维信息计算模块，与所述特征模板建立模块相连接，用于利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；

三维模型叠加模块，与所述三维信息计算模块相连接，用于通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中。

进一步，所述系统还包括：

交互模块，与所述三维模型叠加模块相连接，用于通过图形引擎中的交互功能，实现三维叠加的虚拟物体和现实物体之间的交互。

进一步，所述三维信息计算模块进一步包括：

三维实时位移计算单元，与所述特征模板建立模块相连接，用于计算出目标物体相对于摄像机的三维实时位移；

三维实时旋转角度计算单元，与所述特征模板建立模块相连接，用于计算出目标物体相对于摄像机的三维实时旋转角度。

本发明的另一目的在于提供一种对无特定标记目标物体实时跟踪、三维叠加及交互的方法，所述方法包括如下步骤：

步骤1，将目标物体物预先拍摄一张图片或者由程序从摄像机的图像中自动分割出目标物体作为模板M；

步骤2，对输入的每帧图像Q与模板图像M，利用加速surf算法进行特征点匹配；得到匹配特征点P_Q＝{p₁，p₂，...，p_n}^Q，P_M＝{p₁，p₂，...，p_n}^M，点分别为图像Q与模板M中的点，i＝1，2，...，n；

步骤3，从图像Q与模板M中选取四对最准确的匹配特征点其中，j_k∈{1，2，...，n}，k＝1，2，3，4；确定匹配特征点在对应图像上的像素坐标(u_k，v_k)^Q，(u_k，v_k)^M；并以其中一对匹配特征点k₀∈{1，2，3，4}为世界坐标原点，记录下其它匹配特征点的世界坐标值匹配特征点有相同的世界坐标；

步骤4，建立摄像机成像模型，利用世界坐标系下的坐标值与其投影点的像素坐标值(u_k，v_k)^Q，(u_k，v_k)^M之间的关系式，计算摄像机的内参数N和外参数H：

Z_{c} [\begin{matrix} u_{i} \\ v_{i} \\ 1 \end{matrix}] = [\begin{matrix} \frac{1}{dx} & 0 & u_{0} \\ 0 & \frac{1}{dy} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{matrix}] [\begin{matrix} R & t \\ 0^{T} & 1 \end{matrix}] [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}]

= [\begin{matrix} a_{x} & 0 & u_{0} \\ 0 & a_{y} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} R & t \\ 0^{T} & 1 \end{matrix}] [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}] = NH [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}] = M [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}]

其中，α_x＝f/dx，α_y＝f/dy；α_x、α_y分别为图像u轴和v，轴上的尺度因子，u₀、v₀为摄像机的主点，M为投影矩阵；N为相机内部参数矩阵；H为相机的外部参数矩阵；

步骤5，由于摄像机存在镜头畸变，引入透镜的径向畸变和切向畸变，x_d、y_d分别为考虑畸变情况下的像点物理坐标，有等式：

[\begin{matrix} x \\ y \end{matrix}] = \begin{matrix} x_{d} (1 + k_{1} r^{2} + k_{2} r^{4}) + [{2 k}_{3} x_{d} y_{d} + k_{4} (r^{2} + {2 x}^{2}) \\ y_{d} (1 + k_{1} r^{2} + k_{2} r^{4}) + [{2 k}_{3} (r^{2} + {2 y}^{2}) + k_{4} x_{d} y_{d}] \end{matrix}

其中k₁、k₂为径向畸变，k₃、k₄为切向畸变，

步骤6，利用步骤3记录的特征点图像坐标值代入到步骤4和步骤5中的公式，计算出外参数矩阵H；

步骤7，利用三维引擎，导入外参数为模型视角矩阵，再叠加上三维虚拟模型，模型的视角变化就和图像中标识物视角变化一致，将当前帧视频图像作为背景，完成虚拟增强现实的三维叠加。

进一步，所述方法还可对图像中多个目标物体进行计算，得出每个物体的三维信息，从而实现多个目标物体的叠加效果以及运用上述的三维叠加、实时跟踪方法，配合语音识别、动作捕捉、肢体识别技术，在三维引擎中实时检测图像中的虚拟物体和虚拟物体之间，现实物体和虚拟物体之间、现实人和虚拟物体之间等的碰撞，即可实现现实中人或物和虚拟的人或物的交互效果。

本发明提供的对无特定标记目标物体跟踪、三维叠加及交互的方法及系统，首先从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板；然后利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；最后通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中；利用加速surf算法对视频图像与模板图像进行特征匹配，完成摄像机标定，实现了无特定标记的目标物体实时跟踪、实时三维叠加，对每帧视频图像均实时计算目标的三维坐标信息，实现了现实中人或物和虚拟的人或物的交互，具有较强的推广与应用价值。

附图说明

图1是本发明实施例提供的对无特定标记目标物体实时跟踪、三维叠加及交互的方法的实现流程图；

图2是本发明实施例提供的对无特定标记目标物体实时跟踪、三维叠加及交互的系统的结构框图。

图3是本发明实施例提供的对无特定标记目标物体实时跟踪、三维叠加及交互的方法的具体实现流程图；

图4是本发明实施例提供的CCD相机成像原理。

图中：21、特征模板建立模块；22、三维信息计算模块；221、三维实时位移计算单元；222、三维实时旋转角度计算单元；23、三维模型叠加模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定发明。

图1示出了本发明实施例提供的对无特定标记目标物体实时跟踪、三维叠加及交互的方法的实现流程。

该方法包括以下步骤：

在步骤S101中，从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板；

在步骤S102中，利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；

在步骤S103中，通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中。

在本发明实施例中，利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息以及通过图形引擎将虚拟物体或动画实时叠加在现实空间三维坐标系的实现方法为：

利用计算出的外参数矩阵H，将当前视频帧图像作为三维引擎中三维场景的背景，在场景中所需要的位置渲染出三维模型，实现实时三维叠加。

在本发明实施例中，无特定标记是指不需要对目标物体建立模版时加特定标记，如黑色方框、圆框或其他标识，而是使用目标物体照片作为模版，对物体直接进行识别。

在本发明实施例中，该方法可对摄像机拍摄图像中多个目标物体进行计算，得出每个物体的三维信息，对多个目标物体进行三维叠加。

在本发明实施例中，目标物体相对于摄像机的三维信息为目标物体相对于摄像机的三维实时位移及旋转角度。

图2示出了本发明实施例提供的对无特定标记目标物体实时跟踪、三维叠加及交互的系统的结构。为了便于说明，仅示出了与本发明相关的部分。

该系统包括：

特征模板建立模块21，用于从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板；

三维信息计算模块22，与特征模板建立模块21相连接，用于利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；

三维模型叠加模块23，与三维信息计算模块22相连接，用于通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中。

在本发明实施例中，该系统还包括：

交互模块24，与所述三维模型叠加模块相连接，用于通过图形引擎中的交互功能，实现三维叠加的虚拟物体和现实物体之间的交互。

在本发明实施例中，三维信息计算模块22包括：

三维实时位移计算单元221，与特征模板建立模块21相连接，用于计算出目标物体相对于摄像机的三维实时位移；

三维实时旋转角度计算单元222，与特征模板建立模块21相连接，用于计算出目标物体相对于摄像机的三维实时旋转角度。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

自动建立目标是指程序从摄像机拍摄的图像中分割出目标物体(目标物体可以是：图形、现实物体、人的肢体和躯干等)并自动建立该目标的特征模板方法；无特定标记目标物体是指目标物体(目标物体可以是：图形、现实物体、人的肢体和躯干等)的自身特征(自身特征可以是特征点、点方向、点坐标、纹理、轮廓等)，不用外加特定标记的现实物体和图片；实时跟踪是指在摄像机拍摄到图像中检测目标物体，并根据目标物体特征为基础，计算出目标物体相对于摄像机实时位移和旋转角度的方法；三维叠加是指在摄像机拍摄到图像中检测目标物体，并根据目标物体特征为基础，计算出目标物体相对于摄像机位移和旋转角度后，建立空间中的三维坐标系，然后通过图形引擎(例如：OPENGL、DIRECTX、三维图形处理引擎或虚拟现实软件)将三维或二维的虚拟物体或动画实时叠加在现实的空间三维坐标系中；交互是指运用三维叠加、实时跟踪、物体识别和人体动作识别等技术，实时检测图像中的虚拟物体和虚拟物体之间，现实物体和虚拟物体之间、现实人和虚拟物体之间等的碰撞，从而实现现实中人和虚拟物体的交互功能。

从摄像机拍摄的图像中分割出目标物体并自动建立该目标物体的特征模板；在不用基准标记的状况下，利用目标的自身特征，直接对目标进行识别，并计算出目标物体相对于摄像机实时位移和旋转角度等三维信息；通过图形引擎(例如：OPENGL、DIRECTX、FLASH、三维图形处理引擎或虚拟现实软件等)将三维或二维的虚拟物体或动画实时叠加在现实的空间三维坐标系中；可对图像中多个目标物体进行计算，得出每个物体的三维信息，从而实现多个目标物体的叠加效果；运用三维叠加、实时跟踪、物体识别和人体动作识别等技术，实时检测图像中的虚拟物体和虚拟物体之间，现实物体和虚拟物体之间、现实人和虚拟物体之间等的碰撞，从而实现现实中人或物和虚拟的人或物的交互功能。

首先，拍摄一个或多个目标物体的图片或者由程序从摄像机的图像中分割出一个或多个目标物体图片作为模板，然后运用加速surf算法可计算视频图像中目标物体的自身特征，利用其自身特征便可直接地跟踪目标物体，实时地计算出视频中一个或多个目标物体相对于摄像机的三维坐标和旋转信息。根据这些三维坐标信息，利用三维引擎(三维引擎可以是OPENGL、DIRECTX、FLASH、三维图形处理引擎或虚拟现实软件等任意一款来实现，此处采用了OPENGL做示例)平台，实时对每个目标物体叠加三维物体，同时配合语音识别、肢体识别、人体躯干识别、动作捕捉、体感等辅助技术，使用三维引擎中的物理碰撞功能，可实现华丽的人机交互效果。此外，本方法可以在Windows，Linux，WindowsPhone，IOS，MacOSX，Android等操作系统中应用。

本发明设计新颖，技术方案先进，功能完善，成本低廉，操作简单，可广泛运用于教育、出版、营销、展示、旅游、文化、军事、游戏、互联网等领域。

1)预先拍摄一张需要叠加三维模型的目标物体图片或者由程序从摄像机的图像中自动分割出目标物体图片作为模板M；

2)对采集到的某一帧视频图像Q，利用surf算法求解出与模板M匹配的所有特征点P＝{p₁，p₂，...，p_n}；其中，p_i为图像Q中的特征点；

3)从全部匹配特征点P＝{p₁，p₂，...，p_n}中选择4个最准确的匹配特征点j_k∈{1，2，...，n}，k＝1，2，3，4；记录这些特征点的图像坐标值(u_i，v_i)，i＝j₁，j₂，j₃，j₄；此外，以其中一点为世界坐标原点，记录下其他特征点的世界坐标j_k∈{1，2，...，n}，k＝1，2，3，4；

4)利用世界坐标系的坐标与其投影点的像素坐标(u_i，v_i)之间的关系式计算相机的外参数H，其中，i＝j₁，j₂，j₃，j₄；

5)利用计算出的外参数矩阵H，将当前视频帧图像作为三维引擎中三维场景的背景，在场景中所需要的位置渲染出三维模型，从而实现了实时三维叠加的效果。

6)利用采用上述方法，还可对图像中多个目标物体进行计算，得出每个物体的三维信息，从而实现多个目标物体的叠加效果。

7)运用上述的三维叠加、实时跟踪方法，配合语音识别、动作捕捉、肢体识别等技术，在三维引擎中实时检测图像中的虚拟物体和虚拟物体之间，现实物体和虚拟物体之间、现实人和虚拟物体之间等的碰撞，即可实现现实中人或物和虚拟的人或物的交互效果。

以下结合具体实例，对本发明实现方法进行详细说明。

参照附图3，本发明是实现增强现实技术的一种解决方法，包括如下步骤：

步骤2，对输入的每帧图像Q与模板图像M，利用加速surf算法进行特征点匹配；得到匹配特征点P_Q＝{p₁，p₂，...，p_n}^Q，P_M＝{p₁，p₂，...，p_n}^M，点分别为图像Q与模板M中的点，i＝1，2，...,n；

步骤4，建立如图4所示的摄像机成像模型，利用世界坐标系下的坐标值与其投影点的像素坐标值(u_k，v_k)^Q，(u_k，v_k)^M之间的关系式，计算摄像机的内参数N和外参数H：

Z_{c} [\begin{matrix} u_{i} \\ v_{i} \\ 1 \end{matrix}] = [\begin{matrix} \frac{1}{dx} & 0 & u_{0} \\ 0 & \frac{1}{dy} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{matrix}] [\begin{matrix} R & t \\ 0^{T} & 1 \end{matrix}] [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}]

= [\begin{matrix} a_{x} & 0 & u_{0} \\ 0 & a_{y} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} R & t \\ 0^{T} & 1 \end{matrix}] [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}] = NH [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}] = M [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}]

其中，α_x＝f/dx，α_y＝f/dy；α_x、α_y分别为图像u轴和v轴上的尺度因子，u₀、v₀为摄像机的主点，M为投影矩阵；N为相机内部参数矩阵；H为相机的外部参数矩阵。

步骤5，由于摄像机存在镜头畸变，成像模型并不能满足线性关系，而是一种非线性关系，需要引入透镜的径向畸变和切向畸变，x_d、y_d分别为考虑畸变情况下的像点物理坐标，有等式：

[\begin{matrix} x \\ y \end{matrix}] = \begin{matrix} x_{d} (1 + k_{1} r^{2} + k_{2} r^{4}) + [{2 k}_{3} x_{d} y_{d} + k_{4} (r^{2} + {2 x}^{2}) \\ y_{d} (1 + k_{1} r^{2} + k_{2} r^{4}) + [{2 k}_{3} (r^{2} + {2 y}^{2}) + k_{4} x_{d} y_{d}] \end{matrix}

其中k₁、k₂为径向畸变，k₃、k₄为切向畸变，

步骤6，利用步骤3记录的特征点图像坐标值代入到步骤4)和步骤5)中的公式，计算出外参数矩阵H。

步骤8，利用采用上述方法，还可对图像中多个目标物体进行计算，得出每个物体的三维信息，从而实现多个目标物体的叠加效果。

步骤9，运用上述的三维叠加、实时跟踪方法，配合语音识别、动作捕捉、肢体识别等技术，在三维引擎中实时检测图像中的虚拟物体和虚拟物体之间，现实物体和虚拟物体之间、现实人和虚拟物体之间等的碰撞，即可实现现实中人或物和虚拟的人或物的交互效果。

通过实验可以得到：摄像机拍摄的每一帧图像，程序会实时地将其与模板图像进行特征点匹配。若一个或多个目标物体出现在视频图像中，则可以得到一个或多个目标物体最匹配特征点的数据，包括图像像素坐标以及世界坐标，利用这些数据可计算出当前帧图像的相机外参数，将相机外参数矩阵赋给三维引擎中的相应模型视角矩阵，绘制用户自定义的三维模型。

用本发明的方法对视频中出现的各个目标物体进行相机外参数的计算，再将参数赋给三维引擎中相应的模型视角矩阵，渲染用户自定义的三维物体，实时性完全满足实际要求。

本发明实施例提供的对无特定标记目标物体跟踪、三维叠加及交互的方法及系统，首先从摄像机拍摄的图像中分割出目标物体，并自动建立目标物体的特征模板；然后利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息；最后通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中；利用加速surf算法对视频图像与模板图像进行特征匹配，完成摄像机标定，实现了无特定标记的目标物体实时跟踪、实时三维叠加，对每帧视频图像均实时计算目标的三维坐标信息，实现了现实中人或物和虚拟的人或物的交互，具有较强的推广与应用价值。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对无特定标记目标物体实时跟踪、三维叠加及交互的方法，其特征在于，该方法包括以下步骤：

通过图形引擎将虚拟物体或动画实时叠加在现实的空间三维坐标系中，利用图形引擎中的交互功能，实现三维叠加的虚拟物体和现实物体之间的交互；

所述利用目标物体的自身特征，直接对目标物体进行识别，并计算出目标物体相对于摄像机的三维信息以及通过图形引擎将虚拟物体或动画实时叠加在现实空间三维坐标系的实现方法为

利用图形引擎中的交互功能，实现三维叠加的虚拟物体和现实物体之间的交互；

该方法可对摄像机拍摄图像中多个目标物体进行计算，得出每个物体的三维信息，对多个目标物体进行三维叠加；

目标物体相对于摄像机的三维信息为目标物体相对于摄像机的三维实时位移及旋转角度；

2.一种对无特定标记目标物体实时跟踪、三维叠加及交互的方法，其特征在于，所述方法包括如下步骤：

步骤4，建立摄像机成像模型，利用世界坐标系下的坐标值与其投影点的像素坐标值(u_k，v_k)^Q，(u_k，v_k)^M之间的关系式，计算摄像机的内参数N和外参数H

Z_{c} [\begin{matrix} u_{i} \\ v_{i} \\ 1 \end{matrix}] = [\begin{matrix} \frac{1}{dx} & 0 & u_{0} \\ 0 & \frac{1}{dy} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{matrix}] [\begin{matrix} R & t \\ 0^{T} & 1 \end{matrix}] [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}]

= [\begin{matrix} a_{x} & 0 & u_{0} \\ 0 & a_{y} & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} R & t \\ 0^{T} & 1 \end{matrix}] [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}] = NH [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}] = M [\begin{matrix} X_{w}^{i} \\ Y_{w}^{i} \\ Z_{w}^{i} \\ 1 \end{matrix}];

其中，α_x＝f/dx，α_y＝f/dy；α_x、α_y分别为图像u轴和v轴上的尺度因子，u₀、v₀为摄像机的主点，M为投影矩阵；N为相机内部参数矩阵；H为相机的外部参数矩阵；

[\begin{matrix} x \\ y \end{matrix}] = \begin{matrix} x_{d} (1 + k_{1} r^{2} + k_{2} r^{4}) + [{2 k}_{3} x_{d} y_{d} + k_{4} (r^{2} + {2 x}^{2})] \\ y_{d} (1 + k_{1} r^{2} + k_{2} r^{4}) + [{2 k}_{3} (r^{2} + {2 y}^{2}) + k_{4} x_{d} y_{d}] \end{matrix};

其中k₁、k₂为径向畸变，k₃、k₄为切向畸变，

步骤7，利用三维引擎，导入外参数为模型视角矩阵，再叠加上三维虚拟模型，模型的视角变化就和图像中标识物视角变化一致，将当前帧视频图像作为背景，完成虚拟增强现实的三维叠加；

所述方法还可对图像中多个目标物体进行计算，得出每个物体的三维信息，从而实现多个目标物体的叠加效果以及运用上述的三维叠加、实时跟踪方法，配合语音识别、动作捕捉、肢体识别技术，在三维引擎中实时检测图像中的虚拟物体和虚拟物体之间，现实物体和虚拟物体之间、现实人和虚拟物体之间的碰撞，实现现实中人或物和虚拟的人或物的交互效果。