CN106980368B

CN106980368B - 一种基于视觉计算及惯性测量单元的虚拟现实交互设备

Info

Publication number: CN106980368B
Application number: CN201710110474.5A
Authority: CN
Inventors: 陈小明; 袁华宏; 张小龙
Original assignee: Shenzhen Voxelsense Technology Co ltd
Current assignee: Shenzhen Voxelsense Technology Co ltd
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2024-05-28
Anticipated expiration: 2037-02-28
Also published as: CN106980368A

Abstract

本发明公开了虚拟现实交互技术领域的一种基于视觉计算及惯性测量单元的虚拟现实交互设备，包括立体显示设备、工业相机模组、立体眼镜、用户交互外设以及计算机系统，工业相机模组获得视场范围内的两幅或者两幅以上的图像信号，并把该图像信号输入到计算机系统，计算机系统区分、跟踪用户佩戴的立体眼镜和用户交互外设上具有高反射涂层的标记点或主动发光元件，分别输出用户视线与立体显示设备的焦点和用户交互外设的空间位置和方向。本发明能在桌面级或大屏投影上使用，具有扩展性和易维护性；本发明可以实现高精度、低延时，可连续操作，不存在视线遮挡。

Description

一种基于视觉计算及惯性测量单元的虚拟现实交互设备

技术领域

本发明涉及虚拟现实交互技术领域，具体的说，是涉及一种基于视觉计算及惯性测量单元的虚拟现实交互设备。

背景技术

随着计算机技术的迅速发展以及广泛普及，人类与计算机的交流方式成为了一个新的研究领域。在人机交互领域的研究中，人们追求最自然的交互方式，目前应用在市场上最普及的新交互技术是多点触控技术，它用手指作为控制器的模式取代了传统的鼠标和键盘操作模式。虽然这种交互方式简单易懂，但是与“最自然的交互方式”仍有一段距离。为了模拟人类的语言交流与肢体交流，语音识别技术和图像识别技术蓬勃发展。对于图像识别技术，现今的图像识别都是基于二维的图像进行识别的，二维平面图像缺少深度即距离信息，使得识别准确度降低，而且识别结果很难克服环境与光线的影响。因此，具有深度信息的数据获取和计算分析，成为人机交互的核心技术手段。

虚拟现实技术的出现成为人机交互一个重要分支，虚拟现实技术作为新一代的人机交互技术，依靠实时计算空间三维信息来确定虚拟现实与真实世界之间的映射关系、同时计算出待目标的空间姿态。虚拟现实技术(VR)主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像；感知是指理想的VR应该具有一切人所具有的感知，除计算机图形技术所生成的视觉感知外，还有听觉、触觉、力觉、运动等感知，甚至还包括嗅觉和味觉等，也称为多感知。自然技能是指人的头部转动，眼睛、手势、或其他人体行为动作，由计算机来处理与参与者的动作相适应的数据，并对用户的输入做出实时响应，并分别反馈到用户的五官。

传感设备是指三维交互设备，常用的有立体头盔、数据手套、三维鼠标、数据衣等穿戴于用户身上的装置，以及设置于现实环境中的传感装置，如摄像机、地板压力传感器等。

但目前高精度的动作跟踪，特别是精度在1mm左右的跟踪显得尤为困难，单靠多目视觉系统跟踪难以获取高精度的计算精度，特别是遇到视线遮挡的情况，多目视觉计算更加无能为力，被动式光学定位系统存在这种问题。近红外系统中，当红外光线被用户或物体遮挡时，空间三维重构由于缺少必要的二维图像中的特征点对应信息，容易导致定位失败。多视觉系统能够大大减少视线遮挡的情况，而增加额外的传感器信息，如陀螺仪、加速度计、磁力计提供的额外的角度，加速度，方向等信息，能提供更加精准的三维空间坐标计算结果，精度甚至可以达到1mm或更高，这方面的核心技术一直被国外垄断，国内消费者、开发者拿到的设备价格一般比较高。

因此，设计一种性价比高的具备多传感器融合的高精度虚拟现实交互系统是有着重要的战略意义。

发明内容

为了克服现有的技术的不足，本发明提供一种基于视觉计算及惯性测量单元的虚拟现实交互设备，可以实现高精度，低延时，可连续操作，不存在视线遮挡的虚拟现实人机交互系统。

本发明技术方案如下所述：

一种基于视觉计算及惯性测量单元的虚拟现实交互设备，其特征在于，包括立体显示设备、工业相机模组、立体眼镜、用户交互外设以及计算机系统，所述工业相机模组获得视场范围内的两幅或者两幅以上的图像信号，并把该图像信号输入到所述计算机系统，所述计算机系统区分、跟踪用户佩戴的所述立体眼镜和所述用户交互外设上具有高反射涂层的标记点或主动发光标记点，输出用户视线与所述立体显示设备的焦点和所述用户交互外设的空间位置和方向。

根据上述方案的本发明，其特征在于，所述立体显示设备为偏振式显示器或能发射特定频率同步信号的主动式显示器或基于电子光栅或屏障式光栅的裸眼3D显示器；或者所述立体显示设备为由一个以上偏振式显示器、一个以上能发射特定频率同步信号的主动式显示器、一个以上基于电子光栅或屏障式光栅的裸眼3D显示器组成的具有3D显示功能的拼接墙；或者所述立体显示设备为3D投影设备投射到大屏或者幕布上的具有3D显示功能的显示系统。

根据上述方案的本发明，其特征在于，所述工业相机模组上加载窄带滤光片，所述工业相机模组包含光源和两个或两个以上工业相机模组，所述工业相机模组具有同时曝光功能，保证每个相机获取到的图像数据是同一时刻得到的，实现同步触发。

进一步的，所述工业相机模组中，每个相机包括红外波长范围是650nm-940nm的窄带滤光片。相机感光芯片为CCD/CMOS类型，具有全局或滚动式曝光，具有外触发/硬触发/软件触发功能。

所述光源为红外发光光源，其为波长范围为650-940nm的LED或其它可发光电子元件，总体光源功率可调，调节范围由0-25W之间。相机模组或内嵌蓝牙/红外/激光等编码模块，用于与所述立体眼镜通讯。

根据上述方案的本发明，其特征在于，所述立体眼镜为线偏振、圆偏振的偏振式立体眼镜或能接收特定同步频率的主动式的立体眼镜。

进一步的，所述立体眼镜上设有若干可识别的具有高反射涂层的标记点或若干以某种波长发光的主动发光元件。

进一步的，所述立体眼镜内嵌蓝牙/红外/激光等编码模块。

根据上述方案的本发明，其特征在于，所述用户交互外设内设有陀螺仪和/或加速度和/或磁力计芯片，所述用户交互外设上还设有若干可识别标记点。

进一步的，所述用户外设上设有功能按键。

进一步的，所述用户交互外设上设有若干高反射涂层标记点或主动式的以特定波长发光的光源，所述光源为发光体或电子元件。

根据上述方案的本发明，其特征在于，所述计算机系统内设有中央处理器、图形处理器SSD硬盘及内存容量。

根据上述方案的本发明，其特征在于，还包括校正模块、对齐模块、计算模块以及修正模块。

进一步的，所述校正模块用于所述工业相机模组的校正，以及所述立体显示设备的校正。所述工业相机模组的校正。

所述校正模块用于加载窄带滤光片的具有同步触发功能的两个或两个以上的工业相机模组的校正，以及包括每个工业相机自校正和多工业相机立体校正。

所述相机内部镜头焦距为1.4-6mm焦距，视野范围为45-110°。

进一步的，所述对齐模块用来校准所述用户交互外设初始的角度、旋转以及方向。

进一步的，所述计算模块包括姿态计算模块和方向计算模块；所述姿态计算模块计算刚体和/或指定待检测目标的六自由度，所述六自由度包括空间x、y、z的位移和绕x、y、z轴的旋转角度；所述方向计算模块计算待检测物在空间范围内的矢量信息。

进一步的，所述修正模块对比所述工业相机模组和所述计算机系统计算出来的位置信息，通过修正算法，得到最终交互矩阵。

一种基于视觉计算及惯性测量单元的虚拟现实交互设备实现方法，包括以下步骤：

在整个系统初始后，工业相机模组将开始工作；所述工业相机模组按照SDK指定的频率获取视野范围内的图像信号；用户佩戴的立体眼镜中具有高反射率的可识别标识点或主动发光元件在图像信号中表现为灰度值比较高的点，在每个工业相机的处理器中，做图像预处理计算。

SDK获取工业相机输入的信号，并对该信号进行实时的校正，校正后的图像信号输入到计算模块；计算模块对标记点进行三维坐标的测量，得出姿态相对于屏幕的矩阵，计算模块将计算出来的经过校正的移动物体的姿态和用户交互的三维空间矩阵作为对齐模块、修正模块以及3D交互模块的输入；对齐模块把姿态相对于屏幕的矩阵经过对齐算法后，输入到修正模块；修正模块通过修正算法，得到最终交互矩阵；3D显示模块获取上述两个矩阵，实时更新3D场景内模型，动画等3D坐标数据。

3D显示模块连接到用户交互外设中，从而实现高精度的3D交互体验。

根据上述方案的本发明，其有益效果在于，本发明通过使用3D眼镜和观看立体显示设备，除了能够正常观看3D内容外，能够实时地根据用户视点方向更新3D场景内模型、动画的3D坐标，用户能够更加自然流畅地观看3D虚拟世界，同时，多视觉技术与陀螺仪、加速度计、磁力计的融合算法能够实时地高精度地无死角地全面跟踪用户交互外设，避免了遮挡情况下交互的卡顿、不连续情况；本发明能在桌面级或大屏上使用，具有扩展性和易维护性。

附图说明

图1为本发明实施例一的结构示意图。

图2为本发明实施例二的结构示意图。

图3为本发明工业相机的结构示意图。

图4为本发明实施例三的结构示意图。

图5为本发明两种立体眼镜的结构示意图。

图6为本发明两种用户交互外设的结构示意图。

图7为本发明工作的原理图。

图8为本发明工业相机模组输出信号的分布图。

图9为本发明三维坐标测量的示意图。

图10为本发明空间姿态计算角度坐标的变换示意图。

图11为本发明陀螺仪输出角度的示意图。

图12为本发明系统实施的软件架构图。

图13为本发明校正模块的工作流程图。

图14为本发明对齐模块的工作流程图。

图15为本发明计算模块的工作流程图。

图16为本发明修正模块的工作流程图。

图17为本发明3D显示的工作流程图。

图18为本发明外设交互模块的工作流程图。

图19为本发明视点交互的流程图。

在图中，1、立体显示设备；2、工业相机模组；3、能发射特定频率同步信号的设备；4、工业相机；41、光源；42、内部镜头；5、计算机虚拟模型；6、虚拟射线；7、立体眼镜；71、主动式立体显示眼镜；72、同步信号接收器及处理器；73、被动式立体眼镜；8、用户交互外设；81、可识别点；82、笔；83、多功能按键；9、投影设备。

具体实施方式

下面结合附图以及实施方式对本发明进行进一步的描述：

一种基于视觉计算及惯性测量单元的虚拟现实交互设备，包括立体显示设备、工业相机模组、立体眼镜、用户交互外设以及计算机系统。计算机系统内设有中央处理器、图形处理器SSD硬盘及内存容量。

工业相机模组获得视场范围内的两幅或者两幅以上的图像信号，并把该图像信号输入到计算机系统，计算机系统区分、跟踪用户佩戴的立体眼镜和用户交互外设上具有高反射涂层的标记点或主动发光元件，分别输出用户视线与立体显示设备的焦点和用户交互外设的空间位置和方向。

工业相机模组上加载窄带滤光片且具有同步触发功能，工业相机模组包含光源和两个或两个以上工业相机模组。工业相机模组中，每个相机包括红外波长范围是650nm-940nm的窄带滤光片。相机感光芯片为CCD/CMOS类型的具有全局或滚动式曝光，且具有外触发/硬触发/软件触发个功能。光源为红外发光光源，其为波长范围为650-940nm的LED或其它可发光电子元件，总体光源功率可调，调节范围由0-25W之间。相机模组或内嵌蓝牙/红外/激光等编码模块，用于与立体眼镜通讯。

立体显示设备为偏振式显示器或能发射特定频率同步信号的主动式显示器或基于电子光栅或屏障式光栅的裸眼3D显示器；或者立体显示设备为由一个以上偏振式显示器、一个以上能发射特定频率同步信号的主动式显示器、一个以上基于电子光栅或屏障式光栅的裸眼3D显示器组成的具有3D显示功能的拼接墙；或者立体显示设备为3D投影设备投射到大屏或者幕布上的具有3D显示功能的显示系统。

如图1、3所示，立体显示设备1是偏光式立体显示器、主动式立体显示器、裸眼3D显示器，显示器尺寸在24寸以上。该立体显示设备1的工业相机模组2中工业相机4数量为两个或以上。在本实施例中，光源41发出650nm-940nm波长的光线，工业相机4的内部镜头42焦距为1.4-6mm焦距，视野范围为45-110°。工业相机4之间保持最少15cm以上，保证三角测量时的精度。

工业相机4与屏幕之间的角度设置从左到右角度依次为45°、55°、45°。

操作者佩戴立体眼镜7，使用用户交互外设8，以坐姿的形式与计算机虚拟模型5进行交互，操作者能够使用用户交互外设8进行计算机虚拟模型5的六个自由度的操作。操作者眼睛与屏幕的距离为60cm-100cm之间。

在本实施例中，操作者使用主动式立体眼镜71，立体显示设备1上设有能发射特定频率同步信号的设备3。

如图2-3所示，在另一个实施例中，立体显示设备1是具有三体立体显示功能的拼接墙设备，该设备可以是由一块或多块被动式、主动式、裸眼3D的显示器组成。

本实施例中，工业相机模组2的数量为4组，相互之间的距离根据拼接墙设备大物理宽度设定，优选的相互之间的距离大于30cm。面向拼接墙，左至右屏幕与相机的角度分别为15°、20°、20°、15°，与屏幕垂直面的角度分别为10°、10°、-10°、-10°。

操作者站在距离屏幕3米左右的距离，佩戴立体眼镜7或者裸眼观看计算机虚拟模型5。操作者佩戴立体眼镜7或者裸眼能看到计算机虚拟出来的一条虚拟射线6，该虚拟射线6与计算机虚拟模型5相交的时候，用户交互外设8会震动或者发光以提示用户此时已经选中物体。

如图4所示，在第三个实施例中，立体显示设备1为大型幕布，尺寸为长3-5米，宽3-4米，其中，另外设置具有立体显示功能的投影设备9。

如图5所示，立体眼镜7为线偏振、圆偏振的偏振式立体眼镜或能接收特定同步频率的主动式立体显示眼镜71。立体眼镜7上设有若干可识别的具有高反射涂层的标记点或若干以某种波长发光的主动式发光体。立体眼镜内嵌蓝牙/红外/激光等编码模块。

主动式立体显示眼镜71中设有同步信号接收器及处理器72。主动式立体显示眼镜71和被动式立体眼镜73两种眼镜均具有若干高反射率的可识别点，特别的，主动式立体显示眼镜71可具备主动式反光点。

如图6所示，用户交互外设8内设有陀螺仪和/或加速度和/或磁力计芯片，以及可识别点81。该外设可以是游戏手柄，也可以是笔82。游戏手柄具有5点高反射率的可识别点81。

用户交互外设8上设有多功能按键83，还设有若干高反射涂层标记点或主动式的以特定波长发光的光源，光源为发光体或电子元件。

如图7所示，整个系统工作过程中：系统在初始后，工业相机模组2将开始工作，此时，工业相机模组2的两个或者两个以上的工业相机4按照SDK指定的频率获取视野范围内的图像信号。操作者佩戴的主动式或被动式立体眼镜7上具有高反射的可识别标识点或主动发光点在图像信号中表现为灰度值比较高的点，在每个工业相机4的处理器中，做图像预处理计算，包括可识别点的阈值设定，膨胀与腐蚀等预处理操作，工业相机4输出信号。SDK获取工业相机4输入的信号，并对该信号进行实时的校正，校正后的图像信号输入到计算模块。

如图8所示，本实施例为四个工业相机4输出的信号，本发明并不限于四个工业相机4。

在图像预处理计算过程中，具体包括以下步骤：

1、如图9所示，计算模块此时选取多幅图中的两幅图，利用公式

对标记点进行三维坐标的测量，在已经校正好的双目视觉系统中，直接利用三角测量就可以计算出标定的坐标，式中，b指的是两个相机间的距离，Z是物体点P的Z坐标值，x_T是物体点P在右边相机照片上的位置，x_R是物体P在右边相机照片上的位置，f是相机的焦距，d是视差(d＝x_R-x_T)。

使用三对匹配的三维点就可以求解物体的前后两帧之间的运动参数，但是由于实际操作中对于稳定性和易用性的要求，一般采用五个或以上的对应点进行检测，得到稳定的若干个对应点，如图14中的p0_0，p0_1，p0_2，p0_3，p0_4，，其中p0为主动式或被动式立体眼镜上若干个具有高反射率的可识别点的组合或者主动发光点的组合，p0_0的第二个“0”为第n-1幅图中的点，p0_0中左上角的点与p0_1中左上角的对应的点，取出其中的三个进行计算即可，如取出p0_0，p0_0，p0_1，p0_2，p0_3的任意两组中的对应的三个点。

同理，P1为用户交互外设8上的具有高反射率的可识别点81组或主动发光点组，图14为两个点，如p1_0的两个点。取两幅图中的p1_0即p1_1,计算出来的空间坐标，(p1_0.x,p1_0.y,p1_0.z)与(p1_1.x,p1_1.y,p1_1.z)即为p1组的两个点的三维空间坐标，通过计算向量

p＝p1_0–p1_1

即可知道p相对于工业相机模组2的向量。校正模块会校正工业相机模组2与屏幕之间的标定关系，该关系描述为，其中R为工业相机模组2与屏幕之间的旋转矩阵，T为工业相机模组2与屏幕之间的平移关系，那么向量P与屏幕之间的关系即可通过下式计算，

Pnew＝px(R,T)。

2、如图10-11所示，当用户佩戴立体眼镜7进行旋转时，系统需要计算其空间姿态，根据以下几个步骤进行。

(1)首先计算当前双目相机检测到的三个标记点的质心坐标Poc，然后将三个三维点分别减去质心坐标，得到质心坐标系下的新坐标，设为Pc；利用同样的方法计算前一次双目相机检测到的三个标记点在其质心Pop坐标系下的新坐标Pp。

(2)利用点集Pc和Pp确定的平面的法向量nc＝Pc1xPc2和np＝Pp1xPp2，利用两个平面的法向量将两个平面旋转至同一个平面，使用四元数的理论计算出两个法向量之间的旋转，其中Pc＝{Pc1，Pc2，Pc3}为双目相机当前时刻检测到的三个标记点三维坐标，Pp＝{Pp1，Pp2,Pp3}为双目相机上一时刻检测到的三个标记点三维坐标。

(3)经过上述步骤两个平面已经处在同一个平面，这时两个坐标系的z轴重合，但是xy坐标系依然存在旋转，这时计算图中两组点向量之间的夹角即可算出面内旋转。

到此就可以计算出两平面的旋转的四元数。旋转之后的平面处在同一个面内，然后在利用两个坐标向量之间的夹角关系即可得出面内旋转。

(4)两组标记条的质心之间的坐标即为平移矢量。

至此，就可以计算出每次标记体移动的姿态，就是运动前后标记点之间的旋转和平移关系。再通过上述工业相机模块与屏幕之间的标定关系，该关系描述为，通过把姿态位置叉乘该矩阵，即可得出姿态相对于屏幕的矩阵W、U。

根据所述的计算出来的经过校正的移动物体的姿态和用户交互的三维空间矩阵，作为图6所示的系统工作原理的对齐模块，修正模块以及3D交互模块的输入。

对齐模块把上述的W，U经过对齐算法后，输入到修正模块。具体而言，

对齐模块有一组对齐矩阵，设为D，经过对齐后的新的矩阵为W1、U1。

W1＝DxW

U1＝DxU

对齐后的W1,U1输入到修正模块，修正模块通过修正算法，得到最终交互矩阵。

3、对修正模块而言，其中一个重要特征是设计一套低延时的自适应滤波器。

由于测量系统本身由于各种各样的干扰，所以测的姿态数据含有噪声，从而导致姿态数据出现剧烈的抖动，所以最后还需要对测定的旋转和平移数据进行滤波处理。滤波处理过程包括步骤：

(1)状态转移

选择位置和旋转的角度组成一个状态向量，x中的变量依次为位移的三维坐标，位移速度，位移加速度，旋转角度，旋转角速度，旋转角加速度。

式中，x、y、z分别为位移的三维坐标，分别为三维位移速度、/>分别为三维位移加速度、ψ、θ、/>分别为三维旋转角度、/>分别为三维旋转角速度、分别为三维旋转角加速度，T为矩阵转置。

利用下式进行状态转移

式中，Xk为当前状态、Xk-1为前一次的状态、Wk-1为噪声，使用前一次的状态可以预测下一次的状态，Δt为前一次测量和本次测量的时间间隔。

(2)测量过程，测量量为位移的三维坐标和三轴旋转角度，就是每次计算得到的平移和旋转。

式中，Xk是当前的状态，Vk是噪声，xk、yk、zk是当前时刻(用k表示)的坐标，其余为旋转角度。

(3)通过以上模型即可运用卡尔曼滤波进行数据过滤得到比较稳定的数据，即得到的数据就是当前的位置x、y、z，以及三个旋转角度，共6个变量。

如图12所示，整个系统的运行依靠跨平台SDK开发包进行。

工业相机模组在跨平台SDK控制下工作，当SDK初始化系统的时，系统工作开始工作，这时候系统进入自检程序，检查工业相机模组、用户交互外设、立体显示设备是否存在并记录当前自检结果，如果自检不通过，则返回错误信息给用户，提示用户正确连接所有的设备，如果自检通过，系统进入初始化模块，此时初始化工业相机模组，开启工业相机并设定工业相机的工作模式、开启光源并设定光源的工作模式、设定立体交互模式和3D成像参数，重点包括被动式或主动式3D交互模式和虚拟世界中虚拟相机的相互位置关系以及虚拟世界中场景与虚拟相机的位置关系；同时也初始化用户交互外设的参数，具体包括初始化用户交互的类型，主动式发光还是被动式反射光、操作者使用的是右手还是左手，在的计算模块中，将会作为参数输入。

操作系统提供时钟、通用外设的驱动、文件系统等；自定义外设驱动层包括用户交互外设、立体显示驱动、工业相机模块中的工业相机、光源、同步模块等驱动；核心模块层为依赖操作系统以及自动以外设驱动层的核心算法，具体包括初始化模块、自检模块，校正模块、对齐模块、计算模块、修正模块、反初始化模块、3D显示模块等；SDK接口层提供第三方开发的接口，如初始化模块；Apps层为第三方用户使用SDK提供的功能开发第三方的应用软件/系统。

如图13所示，校正模块用于对工业相机模组2进行校正，以及对立体显示设备1进行校正。校正模块用于加载窄带滤光片的具有同步触发功能的两个或两个以上的工业相机模组2的校正，以及包括每个工业相机4自校正和多工业相机4立体校正。工业相机4内部镜头焦距为1.4-6mm焦距，视野范围为45-110°。

校正模块的工作流程：首先对每个工业相机4进行单独标定，标定出工业相机4的焦距、光心坐标、畸变系数等内部参数，然后再对多个摄像头进行立体标定，计算出相机之间的平移和旋转。最后，任意挑一个相机和屏幕进行标定，计算出它们之间的平移和旋转关系即可。

工业相机4和屏幕之间的标定使用一个额外的外部相机辅助完成，首先标定出所选择的测量相机和外部相机进行标定计算出平移和旋转关系，然后在屏幕上显示一张棋盘格，标定出外部相机和屏幕之间的旋转和平移，这样利用这两组平移和旋转就可以，就可以计算出测量工业相机4和屏幕之间的平移和旋转关系，至此完成标定。

如图14所示，对齐模块的主要作用是将交互笔82的运动对齐到虚拟成像的物体上，用来校准用户交互外设初始的角度、旋转以及方向。

首先获取操作笔82的初始信息，如陀螺仪、加速度计以及磁力计等传感器的测量数据，并在读取传感器的同时，利用标定好的多目相机对笔82的初始位置进行视觉测量。得到传感器测量和视觉测量后，记录这两种测量之间的差值。此后在笔82的移动过程中，由于遮挡等原因造成多目相机检测不到笔82的情况下，利用传感器和测量差值对笔82的位置进行预估。

如图15所示，计算模块包括姿态计算模块和方向计算模块；姿态计算模块计算刚体和/或指定待检测目标的六自由度，六自由度包括空间x、y、z的位移和绕x、y、z轴的旋转角度；方向计算模块计算待检测物在空间范围内的矢量信息。方向计算模块主要计算待检测物在空间范围内的矢量信息。姿态计算模块从陀螺仪接收额外的信息，这些信息提供实时的Roll，Pitch，Yaw角偏移量，结合工业相机模组2和计算机计算出来的位置信息，经过数据融合，得到更加精准的姿态信息。

计算模块首先获取相机图像，然后将图像转换为二值图像，根据二值图像检测眼镜和交互笔上的标记点。检测到标记点后，依据标记点出现在图像上的顺序，将四个工业相机4中检测到的标记点匹配起来，然后利用双目视觉原理计算出每个标记点的三维坐标。利用前后两次获取到的标记点的三维坐标计算出眼镜的平移和旋转。如果有检测到交互笔上的标记点，则利用对齐模块的方法将传感器与图像检测到的数据进行融合。

如图16所示，修正模块与工业相机模组2和计算机系统计算出来的位置信息进行对比，主要用来对视觉检测到的数据进行修正，参考对齐模块。这个对比，会以一定的时间间隔(若干周期)执行。这种情况下，陀螺仪和/或加速度和/或磁力计作为一个参考和验证。

如图17所示，当工业相机模组2检测到立体眼镜7上的高反射涂层的标记点或者主动发光体时，系统此时开始工作，3D显示流程开始启动，此时立体显示器从2D模式切换成3D模式，同时，工业相机模组2通过蓝牙/红外/激光等编码模块与主动式立体显示眼镜71的相应模块通讯，把开启3D模式的命令发送至主动式立体显示眼镜71的接收模块，同步信号接收器及处理器在接收到该信号的同时，启动眼镜的3D模式，用户此时佩戴该3D眼镜就能观看到3D效果。

如图18所示，当视觉检测和传感器数据对齐之后，就可以得到稳定的交互数据，这里的交互数据包括眼镜的姿态和交互笔的姿态。利用眼镜和交互笔的三维坐标和3d显示原理即可计算出虚拟图像的位置。在笔82的运动过程中实时重复上述步骤即可完成虚拟交互操作。

如图19所示，摄像机输出的图像上利用视觉检测的方法检测出眼镜的位置和眼镜的朝向(即眼镜的姿态数据)，人在佩戴眼镜并且持续移动的过程中，视觉系统会检测到眼镜平移和旋转，虚拟的物体在眼镜的姿态数据控制下及时调整渲染，即可达到虚拟的物体就像是真的处于眼镜前方一样。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

上面结合附图对本发明专利进行了示例性的描述，显然本发明专利的实现并不受上述方式的限制，只要采用了本发明专利的方法构思和技术方案进行的各种改进，或未经改进将本发明专利的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1.一种基于视觉计算及惯性测量单元的虚拟现实交互设备实现方法，其特征在于，虚拟现实交互设备包括立体显示设备、工业相机模组、立体眼镜、用户交互外设以及计算机系统，所述工业相机模组获得视场范围内的两幅或者两幅以上的图像信号，并把该图像信号输入到所述计算机系统，所述计算机系统区分、跟踪用户佩戴的所述立体眼镜和所述用户交互外设上具有高反射涂层的标记点或主动发光元件，分别输出用户视线与所述立体显示设备的焦点和所述用户交互外设的空间位置和方向，所述工业相机模组上加载窄带滤光片，所述工业相机模组包含光源和两个或两个以上工业相机模组，两个或两个以上的所述工业相机模组同时曝光，获取图像，从而保证每个相机能够同一时刻捕获到数据，实现同步触发，所述工业相机模组内部的镜头焦距为1.4～6mm焦距，视野范围为45～110°；所述计算机系统包括校正模块、对齐模块、计算模块以及修正模块；所述校正模块用于对所述工业相机模组进行校正，以及对所述立体显示设备进行校正；所述对齐模块用来获取所述立体显示设备与垂直方向之间的初始角度，并对齐到所述用户交互外设，从而得到准确的空间交互数据；所述计算模块包括姿态计算模块和方向计算模块，所述姿态计算模块计算刚体和/或指定待检测目标的六自由度，所述六自由度包括空间x、y、z的位移和绕x、y、z轴的旋转角度；所述方向计算模块计算待检测物在空间范围内的矢量信息；所述修正模块对比所述工业相机模组和所述计算机系统计算出来的位置信息，通过修正算法，得到最终交互矩阵，包括以下步骤：

(1)所述工业相机模组按照SDK指定的频率获取视野范围内的图像信号；

(2)SDK获取所述工业相机模组输入的图像信号，并对该图像信号进行实时的校正，校正后的图像信号输入到所述计算模块；

(3)所述计算模块对标记点进行三维坐标的测量，得出姿态相对于屏幕的矩阵W、矩阵U，所述计算模块将计算出来的经过校正的移动物体的姿态和用户交互的三维空间矩阵作为所述对齐模块、所述修正模块以及3D交互模块的输入；

(4)所述对齐模块把姿态相对于屏幕的矩阵W、矩阵U对齐后分别得到矩阵W1、矩阵U1，然后将矩阵W1、矩阵U1输入到所述修正模块；所述修正模块对测定的旋转和平移数据进行滤波处理，通过修正算法得到最终交互矩阵；其中，滤波处理过程包括以下步骤：

步骤一、状态转移

选择位置和旋转的角度组成一个状态向量，x中的变量依次为位移的三维坐标，位移速度，位移加速度，旋转角度，旋转角速度，旋转角加速度；

式中，x、y、z分别为位移的三维坐标，分别为三维位移速度、/>分别为三维位移加速度、ψ、θ、/>分别为三维旋转角度、/>分别为三维旋转角速度、分别为三维旋转角加速度，T为矩阵转置；

利用下式进行状态转移

式中，X_k为当前状态、X_k-1为前一次的状态、W_k-1为噪声，使用前一次的状态可以预测下一次的状态，Δt为前一次测量和本次测量的时间间隔；

步骤二、测量过程，测量量为位移的三维坐标和三维旋转角度，就是每次计算得到的平移和旋转；

步骤三、通过以上步骤即可运用卡尔曼滤波进行数据过滤得到比较稳定的数据，即得到的数据就是当前的位置x、y、z，以及三个旋转角度，共6个变量；

(5)3D显示模块获取最终交互矩阵，实时更新3D场景内模型或动画的3D坐标数据。

2.根据权利要求1所述的基于视觉计算及惯性测量单元的虚拟现实交互设备实现方法，其特征在于，所述立体显示设备为偏振式显示器或能发射特定频率同步信号的主动式显示器或基于电子光栅或屏障式光栅的裸眼3D显示器；或者所述立体显示设备为由一个以上偏振式显示器、一个以上能发射特定频率同步信号的主动式显示器、一个以上基于电子光栅或屏障式光栅的裸眼3D显示器组成的具有3D显示功能的拼接墙；或者所述立体显示设备为3D投影设备投射到大屏或者幕布上的具有3D显示功能的显示系统。

3.根据权利要求1所述的基于视觉计算及惯性测量单元的虚拟现实交互设备实现方法，其特征在于，所述立体眼镜上设有若干可识别的具有高反射涂层的标记点或若干以某种波长发光的主动发光元件。