CN103699214A

CN103699214A - 一种基于三维自然手势的三维跟踪和交互方法

Info

Publication number: CN103699214A
Application number: CN201310285326.9A
Authority: CN
Inventors: 冯志全; 杨波
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2014-04-02

Abstract

本发明公开了一种基于三维自然手势的三维跟踪和交互方法，其特征在于，包括如下步骤：初始化三维手势模型；通过概率统计方法初始化行为模型库，该行为模型包括四个矩阵：矩阵一Obje-matrix,矩阵二Gest-matrix,矩阵三Beha-matrix和矩阵四Path，矩阵一

表示在操作场景中完成对物体i进行操作后选择物体j进行操作的概率；矩阵二

表示由基本手势i到基本手势j的转移概率；矩阵三Beha-matrix[i]表示基本手势i的行为模型；矩阵四

表示由物体i到物体j的路径。

Description

一种基于三维自然手势的三维跟踪和交互方法

技术领域

本发明涉及三维手势模型处理领域，具体地讲，涉及一种基于三维自然手势的三维跟踪和交互方法。

背景技术

自然人机交互是利用人的日常技能进行的，强调无需特别训练或不需要训练。在基于人脸、头部、手臂、人手、人眼以及整个人体的输入方式中，由于在通信和操作中的灵巧性，人手是最有效、用途最多的输入工具。手势是一种自然、直观、易于学习的人机交互手段，以人手直接作为计算机的输入方式，人机间的通讯将不再需要中间媒体，用户可以简单地定义一种适当的手势来对周围的机器进行控制；手势是人与人之间的一种非口头交流形式，它包括从用手指示方向和移动物体的简单动作到能够表达感情以及允许彼此交流的复杂手势。考虑到人们拥有做手势的大量经验知识，如果人们能够把这些技能从日常的经验中转换过来并用在人机交互方面，就可以期盼直观的、操作简便的、功能强大的人机接口。

目前，三维交互技术的研究在国际图形学界已引起广泛重视，人们普遍认为三维图形交互技术将成为新一代用户界面的关键技术之一。事实上，研究者用手势作为人机交互的工具进行了大量的研究，已经在手语识别、手指鼠标、虚拟物体控制、家电遥控、Windows命令控制、手指绘画、机器人控制等领域得到初步应用。

通过对合成人手的3D模型进行手势分析，然后搜索模型参数，根据跟踪历史信息和人手3D约束条件，对模型参数进行逐步求精和优化，直到3D模型和真实人手具有相同的可视化图像为止。针对光照条件和自遮挡等问题，2008年波士顿大学的Stan Sclaroff教授及其研究团队引入动态隐状态形状模型(DynamicHidden-State Shape Models,DHSSMs)对人手进行跟踪和识别^[9]，他们实际上采用递归贝叶斯方法，利用局部穷举搜索技术得到状态的估计值。

中国科学院自动化研究所模式识别国家重点实验室的潘春洪研究员和马颂德教授在基于区域的手指三维运动跟踪[J].（中国图像图形学报.2003,8(10):1205-1210.）提出一种基于区域的多连接体(手指)的三维运动跟踪算法。该算法首先用多约束融合的方法以及手指的运动特性，建立多刚体的三维运动描述，通过三类基本约束条件，把跟踪问题归结为一个约束误差优化问题。该方法的一个主要特点之一是无需进行特征点的对应，通过结合运动特性和约束关系大大提高了跟踪结果的鲁棒性。

清华大学的孙增圻教授和崔锦实博士在基于三维模型的关节式物体姿态估计与跟踪方法研究[D].（博士论文,2004,北京:清华大学.）提出一种基于回归－优化方法的关节式物体的姿态估计方法。该方法把回归分析与全局优化搜索相结合，保证了估计的精度和连续性；针对现有滤波器在高维非线性多峰跟踪问题上的困难，将粒子滤波器与全局搜索算法的演化粒子滤波器方法相结合，提高了高维跟踪的精确度；针对物体模型参数的自动更新这一难题，将传统的粒子滤波器方法与在线期望最大化方法相结合，并引入了基于演化计算的全局搜索方法来解决高维状态空间且无显式解析关系情况下的优化问题。

现有研究存在以下几个问题：（1）人机交互涉及到两个基本对象：人和计算机。目前大多数研究对“人”的研究不够深入；（2）没有一个自然高效的交互模式。

发明内容

本发明要解决的技术问题是提供一种三维自然手势的三维跟踪和交互方法。

本发明采用如下技术方案实现发明目的：在普通单目视觉条件下，提供一种基于三维手势的自然、有效、高效的人机交互模式。

一种基于三维自然手势的三维跟踪和交互方法，其特征在于，包括如下步骤：

（1）初始化三维手势模型；

（2）通过机器学习方法初始化行为模型库，该行为模型包括四个矩阵：Obje-matrix,Gest-matrix,Beha-matrix和Path。

表示在操作场景中完成对物体i进行操作后选择物体j进行操作的概率；表示由基本手势i到基本手势j的转移概率；Beha-matrix[i]表示基本手势i的行为模型；

表示由物体i到物体j的路径；

（3）选择场景中的候选物体；

（4）根据当前物体和所选择的物体，在

中检索出从当前物体到所选物体的路径；

（5）确定操作手势；

（6）跟踪基本手势，估计手势状态；

（7）刷新行为模型库。

作为对本技术方案的进一步限定，所述步骤（3）包括如下步骤：

(3.1)逻辑上将场景中的候选物体按照中的概率由小到大进行排列;

(3.2)顺次高光显示每个候选物体;

(3.3)如果在高光停留期间手势发生运动，则当前高光所在候选物体为所选；否则，转3.2步，直到用户选中物体为止。

3、根据权利要求1所述基于三维自然手势的三维跟踪和交互方法，其特征在于，所述步骤（5）包括：

(5.1)根据

对操作者拟操作手势进行排序，操作者快速完成拟采用的手势，摄像机得到其手势序列，按照排序顺序依次对手势进行比较；

(5.2)从Beha-matrix[i]中提取当前候选手势的行为模型，并快速在计算机屏幕上显示该行为模型的运动动画；

(5.3)如果操作者手势发生平移运动，则表示操作者认可上述动画；否则，转步骤（5.1），直到选择成功为止。

作为对本技术方案的进一步限定，所述步骤(6)包括：

（6.1）对于基本手势的每一帧，在行为模型附近产生N手势粒子

（6.2）估计手势状态：

在（1）-（4）式中，X_k表示时刻k的手势状态；

表示时刻k产生的第i个粒子；表示第k个粒子的权值；

表示经验常数，取为0.01，Hm表示指三维手势模型粒子在图像平面上的投影与当前帧手势图像之间的误差，用它们之间的Hausdorff距离进行描述，

三维手势模型粒子的精度。

与现有技术相比，本发明的优点和积极效果是：本发明在深入研究操作者的认知行为模型的基础之上，提出一种用认知行为模型指导手势跟踪和交互的具体方法。本发明具体提出了一种认知行为模型的表达或描述方法；提出了一种基于手势这种单通道对场景中的物体进行选择的方法；提出了一种表达操作者操作意图（即当前操作完成后怎样告诉计算机他的下一个手势是什么）；提出了一种把认知行为模型与跟踪相结合的方法。

附图说明

图1为本发明优选实施例的流程图。

具体实施方式

下面结合附图和优选实施例对本发明作更进一步的详细描述。

（1）初始化三维手势模型；

（2）通过概率统计方法初始化行为模型库，该行为模型包括四个矩阵：矩阵一Obje-matrix,矩阵二Gest-matrix,矩阵三Beha-matrix和矩阵四Path，矩阵一

表示在操作场景中完成对物体i进行操作后选择物体j进行操作的概率；矩阵二表示由基本手势i到基本手势j的转移概率；矩阵三Beha-matrix[i]表示基本手势i的行为模型；矩阵四

表示由物体i到物体j的路径；

（3）选择场景中的候选物体；

（4）根据当前物体和所选择的物体，在中检索出从当前物体到所选物体的路径；

（5）确定操作手势；

（6）跟踪基本手势，估计手势状态；

（7）刷新行为模型库。

所述步骤（3）包括如下步骤：

(3.1)逻辑上将场景中的候选物体按照矩阵一中的概率由小到大进行排列;

(3.2)顺次高光显示每个候选物体;

(3.3)如果在高光停留期间手势发生运动，则当前高光所在候选物体为所选；否则，转步骤（3.2），直到用户选中物体为止。

所述步骤（5）包括：

(5.1)根据矩阵二

(5.2)同时，从矩阵三Beha-matrix[i]中提取当前候选手势的行为模型，并快速在计算机屏幕上显示该行为模型的运动动画；

所述步骤(6)包括：

（6.2）估计手势状态：

在（1）-（4）式中，X_k表示时刻k的手势状态；表示时刻k产生的第i个粒子；

表示第k个粒子的权值；

表示经验常数，取为0.01，Hm表示指三维手势模型粒子在图像平面上的投影与当前帧手势图像之间的误差，用它们之间的Hausdorff距离进行描述，三维手势模型粒子的精度。

当然，上述说明并非对本发明的限制，本发明也不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也属于本发明的保护范围。