CN107357426A

CN107357426A - 一种用于虚拟现实设备的体感控制方法

Info

Publication number: CN107357426A
Application number: CN201710535117.3A
Authority: CN
Inventors: 徐子怡; 吴斌; 周希元; 孟寅桢
Original assignee: Nanjing Jiangnan High Tech Research Institute Co Ltd
Current assignee: Nanjing Jiangnan High Tech Research Institute Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-11-17

Abstract

本发明公开了一种用于虚拟现实设备的体感控制方法，所述虚拟现实设备包括虚拟现实显示装置、控制器及体感识别装置，方法包括：1)建立身体模板模型；2)获取用户的初始姿势的深度图，并将模型映射到该深度图，实现骨骼的正确匹配；3)持续获取深度图，采用稀疏估计算法，依据前一帧图像的身体部位数据对当前帧深度图运动进行粗略预测，生成预测结果；4)根据预测结果对模型进行投影转换，将投影转换后的模型深度图与输入深度图进行对比，通过判断图像的相似性，得到正确的姿势预测。本发明的方法计算量小，结果精确，控制精度高，反应快速。

Description

一种用于虚拟现实设备的体感控制方法

技术领域

本发明属于虚拟现实技术领域，具体来说涉及一种用于用于虚拟现实设备的体感控制方法。

背景技术

体感技术是指人们直接地使用肢体动作与周边的装置或环境互动，无需使用任何复杂的控制设备便可让人们身历其境地与内容做互动。体感互动系统利用即时动态捕捉、影像辨识、麦克风输入、语音辨识等功能让人们摆脱传统单调的操作模式。本课题将把体感交互应用到工业制造领域中，利用体感交互的优越性简化解决工业制造中的问题，提高设计和制造效率。

体感姿势估计算法主要对人体的外观与结构等特点进行研究，提取出主要的特征，然后利用约束求解、特征计算等方法，从输入的图像中提取出人物的骨架数据。姿势估计算法通常分为基于学习的方法、基于样例的方法、基于模型的方法三类。

(a)基于学习的方法

基于学习的方法使用大规模的姿态各异的样例对2D图像的特征与3D姿势之间的映射进行离线训练。然后根据训练的结果对输入的图像进行姿势的估计与跟踪。用一个姿态估计器来自动地在第一帧初始化跟踪模块，当跟踪失败时，自动地重新初始化。文献[Cao,2010]使用马尔可夫随机场(Markov Random Field.MRF)来自动地检测运动的人体。

(b)基于样例的方法

基于样例的方法通过维护一个大规模的样例数据库来实现对姿势估计与跟踪。所采用的样例集合从图像空间和3D空间对姿势进行描述。这种方法不需要建立全局对应模型，对于参数估算问题十分有效，但是涉及到模板库的存储，空间消耗较多。通过使用多个相机，Sagawa[Sagawa,2007]等人从捕捉到的图像中生成体素模型，然后使用基于直方图的特征向量来表示人体的3D形状上下文。

(c)基于模型的方法

基于模型的姿势估计使用预定义的身体模型或者图像描述符等来对人体运动进行预测与跟踪，通过匹配和约束的计算估算出当前帧的人物姿态。基于模型的方法能够解决自遮挡和歧义问题，而无需使用多个相机。Zhu[Youding,2008]等人定义了一个头部—颈部—躯干(Head-Neck.Torso，HNT)模板，使用8个特征来表现人体的上半部分。首先根据样本学习获得模板分布的参数，识别出角色的头部、四肢和躯干的位置。识别出位置之后，获取每个部位的关节点，求解约束方程。使得估算的特征和观察特征之问的误差最小。

在体感交互任务中，体感检测是其中较为重要的一个课题，通过对用户行为的分析，识别出用户的意图并做出相应的反应。目前已有的姿势估计方法中，基于学习的方法使用大规模的姿态各异的样例对2D图像的特征与3D姿势之间的映射进行离线训练，然后根据训练的结果对输入的图像进行姿势的估计与跟踪，由于需要离线训练，需要耗费更多的资源；基于样例的方法通过维护一个大规模的样例数据库来实现对姿势估计与跟踪，所采用的样例集合从图像空间和3D空间对姿势进行描述，由于涉及到模板库的存储，空间消耗较多。

发明内容

在虚拟现实设备所采用的体感交互过程中，准确、快速的体感检测是正确体感交互的前提，因此，实现基于模板匹配预测的体感检测，提高人体骨架跟踪的精度和准度，是一个重要的研究问题。

本发明开发了一种基于模板匹配的体感检测方法，实现了计算量小并且高精度的人体骨架跟踪。具体来说，本发明采用了以下技术方案：

一种用于虚拟现实设备的体感控制方法，所述虚拟现实设备包括虚拟现实显示装置、控制器及体感识别装置，其中体感识别装置识别并捕捉用户运动的图像，控制器分别连接体感识别装置和显示装置并从体感识别装置获取所捕捉的图像，经过处理后形成显示信号并传输到显示装置进行显示，其特征在于，所述方法包括：1)建立身体模板模型；2)获取用户的初始姿势的深度图，并将模型映射到该深度图，实现骨骼的正确匹配；3)持续获取深度图，采用稀疏估计算法，依据前一帧图像的身体部位数据对当前帧深度图运动进行粗略预测，生成预测结果；4)根据预测结果对模型进行投影转换，将投影转换后的模型深度图与输入深度图进行对比，通过判断图像的相似性，得到正确的姿势预测。

优选地，所述身体模板模型采用近似几何的三维模型。

在一个优选实施方案中，步骤2)用户姿势与模型匹配的过程包括：将模型中的身体部位渲染成特定颜色，然后将三维模型投影到图像平面上，对人体的深度图进行坐标转换后，将三维模型投影与深度图进行一一对应，从而创建人体部位分配映射。

另外在一个优选实施方案中，步骤3)形成预测结果的步骤包括：首先将一个身体部位的数据在三维空间中沿X、Y、Z三个方向移动一定的数值，然后将生成的结果与输入图像做相似性的评估，确定该身体部位的位移之后，依次在三维空间中沿X、Y、Z三个方向移动相关身体部位的数据并且也做同样的评估，最终确定整个身体的姿势预测。更优选，首先移动的部位为躯干，然后依据与躯干的连接和位置关系确定接下来依次移动的身体部位。另外更优选，在每个轴向上提供的预测移动的角度值为±10度、±20度、±30度。

在以上方案中，优选地，相似性的判断是通过计算图像上深度差累积之和来对预测获得的模型投影转换的深度图与当前帧深度图之间的相似性进行判断。

有益效果：本发明采用基于模板模型匹配预测的体感检测，计算量小，结果准确，能够更加准确有效地对人体进行检测，实现了虚拟现实设备的高精度控制和快速反应。

附图说明

图1是所建立的预定义人体模板示意图；

图2是将获得的预测模型投影与当前帧深度图对比的示意图；

图3是关节型身体参数模型的示意图。

具体实施方式

本发明针对虚拟现实设备中的体感交互应用，采用基于模板预测的体感理解技术，克服体感检测及跟踪的不稳定性，解决互相遮挡问题，以期实现精细、自然、高效的体感交互，为虚拟现实应用提供良好的技术支持。本发明的具体目标包括针对人体检测问题，研究采用基于模型匹配预测的体感检测，通过对模型与人体深度图像的匹配，实现人体快速、准确的骨架获取与跟踪。

下面将结合具体示例来对本发明的方法做进一步详细的说明。

本发明选择基于模板匹配预测的算法来进行姿势估计，基于模板匹配预测的算法不需要大规模的样例数据库作为基础，也不需要通过机器学习离线训练得到识别模型，并且在三维模型的指导下，能够更加有效的对人体进行检测。

为了实现模板匹配预测，首先需要定义模板模型，合理的身体模型能够提高运动预测的效率，本发明采用近似几何的三维模型来表示身体，如图1所示。由于预定义的模板与实际捕捉到的用户在尺度上不统一，因此需要对深度图的人体进行定位，配准人物的坐标和比例等。我们在预处理阶段，完成深度图与模板的匹配，要求用户做出指定的初始姿势，以此将模型映射到深度图，实现骨骼的正确匹配。

姿势的预测需要获取深度图中每一个像素所对应的身体部位，进而用基于约束的算法对骨架跟踪结果进行优化，因此每一帧都需要创建一个人体部位分配映射，记录每个身体部位所包含的像素集合。为了完成人体部位分配映射，我们对模型中的每一个身体部位渲染成特定的颜色，然后将三维模型投影到图像平面上。对人体的深度图进行坐标转换后，完成三维投影与深度图的一一对应，最终创建人体部位分配映射。

然后我们采用稀疏估计算法，依据前一帧的身体部位数据对当前帧深度图运动进行粗略预测，这样的方法利用了深度图的时序特征，具有较好的准确性。稀疏的估算方法降低了算法的迭代次数，提高了算法效率。首先从躯干开始，将数据沿着X、Y、Z三个方向分别平移一定的数值，然后将生成的结果与输入图像做相似性的评估。在确定了躯干的位移之后，从左肩开始，分别沿着X、Y、Z轴旋转，然后做同样的评估。在确定了父节点的旋转之后，对子节点重复此操作。对于头部和其他三个肢体，也做同样的预测。由于这是稀疏的估算，每个轴向仅定义少量的候选值以供预测，例如X方向上提供±10度、±20度、±30度六个角度去预测。

在稀疏估计算法中，有基于像素的预测与基于模型的预测两种方式。对于基于像素的预测，在初始姿势较精确的情况下，尚且能够进行正确的跟踪，但是随着误差的累积，预测会逐渐偏离身体，而在初始姿势匹配不精确的情况下，基于像素的预测会得到完全错误的结果，并且无法从错误中恢复。相比基于像素的预测，基于模型的预测能够始终保持对身体的跟踪，并且自动修正骨架。因此我们拟采用基于模型的模板匹配预测进行稀疏估计。基于模型的预测方法是根据估算量生成变换矩阵，然后将矩阵作用于对应的身体部位，将整个模型通过图形库渲染到缓冲区，最后将投影转换后的模型深度图与输入深度图进行对比，通过判断图像的相似性，得到正确的姿势预测。

在图像相似性计算中，互相关算法的计算耗时较多，考虑到本文采用的是深度图的动作识别，在基于模型的预测算法下，可以通过计算图像上深度差累积之和来判断两幅深度图之间的相似性。对于像素(x，y)，计算它的深度差值：

D(x,y)＝abs(I(x',y')-I(x',y'))

深度差值之和是O(N)的算法，仅需遍历两幅深度图中的所有像素就可以得到两幅图的差距，因此效率比互相关函数高很多。

图2示出了通过上述方法得到的预测模型和实际获得的当前帧深度图像的对比。

在基于模型的模板匹配预测后，需要通过约束方程对骨架进行优化，根据已有的图像和3D空间的信息逆推出骨架的参数。考虑到像素偏移的本质是骨架在3D空间的运动投射到图像平面，只要找出了像素偏移与骨架参数之间的约束关系，就可以利用深度图数据求解准确的骨架信息。为了简化方程组、减少未知量和提高准确率，首先需要定义一个合适的参数模型。本发明使用关节型身体模型作为约束计算的参数模型，如图3所示。

关节型身体模型沿用预测模型的骨架。为图中每一个的节点定义3个带有方向的三位坐标，旋转轴分别对应着Z、X、Y轴向，则每个节点的三个坐标旋转轴分别对应着(0，0，1)、(1，0，0)和(0，1，0)。

对于深度一致性约束，先定义一个点在3D空间中的坐标(X，Y，Z)^T，以及对应的像素空间坐标(X，Y)^T,对应的3D空间速度和像素空间速度分别为(v_x，v_y，v_z)^T和(v_x，v_y)^T。根据深度一致性约束的公式，转换矩阵形式可以得到：

上述公式定义了图像的时序变化与空间变化之间的关系，当两幅图像序列之间的像素的运动变化非常小时，可以认为该两幅图像满足这一约束方程

同样，骨架跟踪所要求得的是每一个关节在自己的局部坐标系中的平移和旋转幅度，因此。需要将像素空间的速度转换到3D空间。3D坐标与像素坐标的计算符合透视投影如下：

其中和为f_x和f_y方向上的焦距,(C_X，C_X)是光学中心。

通过对上述约束方程的联合求解，得到相应的未知参数，也就完对基于模板预测的姿势检测的进一步优化，得到更加精确的人体骨骼信息。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种用于虚拟现实设备的体感控制方法，所述虚拟现实设备包括虚拟现实显示装置、控制器及体感识别装置，其中体感识别装置识别并捕捉用户运动的图像，控制器分别连接体感识别装置和显示装置并从体感识别装置获取所捕捉的图像，经过处理后形成显示信号并传输到显示装置进行显示，其特征在于，所述方法包括：1)建立身体模板模型；2)获取用户的初始姿势的深度图，并将模型映射到该深度图，实现骨骼的正确匹配；3)持续获取深度图，采用稀疏估计算法，依据前一帧图像的身体部位数据对当前帧深度图运动进行粗略预测，生成预测结果；4)根据预测结果对模型进行投影转换，将投影转换后的模型深度图与输入深度图进行对比，通过判断图像的相似性，得到正确的姿势预测。

2.如权利要求1所述的用于虚拟现实设备的体感控制方法，其特征在于，所述身体模板模型采用近似几何的三维模型。

3.如权利要求1所述的用于虚拟现实设备的体感控制方法，其特征在于，步骤2)用户姿势与模型匹配的过程包括：将模型中的身体部位渲染成特定颜色，然后将三维模型投影到图像平面上，对人体的深度图进行坐标转换后，将三维模型投影与深度图进行一一对应，从而创建人体部位分配映射。

4.如权利要求1所述的用于虚拟现实设备的体感控制方法，其特征在于，步骤3)形成预测结果的步骤包括：首先将一个身体部位的数据在三维空间中沿X、Y、Z三个方向移动一定的数值，然后将生成的结果与输入图像做相似性的评估，确定该身体部位的位移之后，依次在三维空间中沿X、Y、Z三个方向移动相关身体部位的数据并且也做同样的评估，最终确定整个身体的姿势预测。

5.如权利要求4所述的用于虚拟现实设备的体感控制方法，其特征在于，首先移动的部位为躯干，然后依据与躯干的连接和位置关系确定接下来依次移动的身体部位。

6.如权利要求4所述的用于虚拟现实设备的体感控制方法，其特征在于，在每个轴向上提供的预测移动的角度值为±10度、±20度、±30度。

7.如权利要求1所述的用于虚拟现实设备的体感控制方法，其特征在于，相似性的判断是通过计算图像上深度差累积之和来对预测获得的模型投影转换的深度图与当前帧深度图之间的相似性进行判断。