CN104360742A

CN104360742A - 一种3d连续手势识别方法

Info

Publication number: CN104360742A
Application number: CN201410660206.7A
Authority: CN
Inventors: 程洪; 罗军
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-11-18
Filing date: 2014-11-18
Publication date: 2015-02-18

Abstract

本发明公开了一种3D连续手势识别方法，属于计算机视觉和人机交互领域，具体步骤为：步骤1，获取手势数据并提取手势特征；步骤2，计算全局代价矩阵；步骤3，对初始笔画进行检测；步骤4，对后续笔画进行检测，从而得的整个手势。通过引入了搜索窗口，不断的调整扩大搜索窗口的长宽参数，寻找规整路径，最终将窗口扩大至包含整个规整路径，此时，检测出对应模板序列，在搜索窗口调整的过程中，如果某一笔画未及时检测出，则本次检测结束，最终完成整个连续手势的识别。本发明无需标记手势的起始结束点，自动的检测手势起始结束点，使交互更加流畅自然，同时，解决了手势的自包含现象，是检测结果更加准确，系统更加稳定可靠。

Description

一种3D连续手势识别方法

技术领域

本发明属于计算机视觉和人机交互领域，具体涉及一种3D连续手势识别方法。

背景技术

随着3D视觉设备(尤其是以Kinect为代表深度摄像机)的商业化推进，手势识别在3D人机交互领域(HCI)获得了越来越多的关注。手势是人类最本能的意图表达，也最为形象生动，最符合人们习惯的自然的交流方式。手势作为一种新型的人机交互方式，具有以下优点：(1)手势生动形象，意义明了。(2)手势通用性高。(3)手势种类丰富多样，应用范围广泛。(4)手势摆脱了输入设备的局限。在手势应用方面，其中最重要的应用当属手语。手语作为一种交流语言，被各个国家广泛使用，如美国手语(American Sign Language，ASL)、英国手语(British Sign Language，BSL)、中国手语等。同时手语还被应用于军事指挥，体育裁判，交通指挥等领域。我们有理由相信，在不久的将来，3D手势识别将会在人们的日常生活中扮演越来越重要的角色。

目前的手势识别主要关注在手势识别的正确率上，而忽视了交互的流畅性和自然性。在实际应用时，需要人为地标记手势的起始点和终止点，这违背了自然人机交互这一理念。针对这一问题，本发明提供了一种3D连续手势识别方法，实现在无限长手势序列中自动检测手势的起始点和终止点，消除自包含现象。同时，加入局部窗口，滤除手势噪声干扰。

中国专利申请号为201310684231的发明专利申请公开了一种3D手势识别方法，该算法基于笔画特征和多层分类思想，将连续的运动手势轨迹，分割成一个个标准的手势笔画，提取笔画序号与长度组成手势的特征序列，然后计算手势特征序列与模板手势的相似度。在该算法中，用到了两层分类器。第一层分类器把手势运动轨迹拆分为标准的16种笔画；第二层分类器进行手势分类，计算测试样本到类的相似度，得到最终分类结果。该算法应用在手势起始点和终止点已知的手势识别中，手势识别过程中，用户需要给定手势的端点信息，影响了交互的流畅性和自然性。

发明内容

本发明的目的在于克服传统动态时间规整算法(TDTW)检测手势需要预先知道手势的起始点和终止点的不足，消除自包含手势导致的误检测，使得整个手势识别系统更加流畅自然，提供了一种3D连续手势识别方法。

本发明的具体方案如下：

一种3D连续手势识别方法，包含以下步骤：

步骤1，获取手势数据并提取手势特征；步骤2，计算全局代价矩阵；步骤3，对初始笔画进行检测；步骤4，对后续笔画进行检测，从而得的整个手势。

进一步的，所述步骤1是使用深度摄像机kinect进行手势数据获取，采用kinect的SDK中的手势跟踪模块跟踪手掌空间位置坐标，根据此坐标提取手势特征。

进一步的，所述步骤3包括定义搜索窗口W为[y,x；h,w]，并计算搜索窗口W的代价值S_W为S_W＝M(f(W[y,x；h,w]))；定义第i个笔画的相似度阀值τ_i(1≤i≤N)，(1≤i≤N)；对第一笔画的检测，初始化窗口W为[1,1；T₁,1]，窗口的左上角元素坐标为(1,1)，窗口高为T₁，宽度为1，其中，T₁为模板手势笔画1对应的手势模板长度，依次逐列向后调整窗口，在每一步调整窗口过程中，计算窗口的代价值S_W，并将S_W与模板手势第一笔画的相似度阈值τ₁进行比较，直到满足：S_W≤τ₁，则第一笔画被检测到，调整窗口到[1,k₀；T₁,1]，通过邻域值的选取情况，回溯得到了从元素(T₁,k₁)到元素(1,k₀)的规整路径，调整窗口W到[1,k₀；T₁,k₁-k₀]，使得W包含整个第一笔画的规整路径，若不满足，则继续逐列向后移动，调整窗口，直至检测到第一笔画。

进一步的，所述领域值的选取具体为，定义O(i,j)为针对元素(i,j)值选取的函数操作，它表示元素(i,j)的min_ω'∈N(ω)M(ω')取自于哪一个邻域元素，以数字1、2、3分别表示这三个邻域元素，则

O (i, j) = \{\begin{matrix} 1, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i, j - 1) \\ 2, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i - 1, j - 1) \\ 3, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i - 1, j) \end{matrix} .

进一步的，所述步骤4包括，第一，窗口的扩展；第二，计算每一个调整窗口的代价值S_W，并判断当前笔画是否被检测到。

进一步的，在手势识别过程中引入了约束规整路径的局部窗口。

本发明的有益效果是：将加窗的动态时间规整算法运用在具有部分相似手势的手势检测中，克服了多笔画检测的问题。即使是每一个笔画都对应一个单一手势的多笔画手势，加窗的动态时间规整算法也能输出正确的手势结果。同时，局部窗口也滤除掉手势噪声的干扰，使得手势识别系统更加稳定。

附图说明

图1：本发明所采用的加窗的动态时间规整示意图。

图2：本发明3D连续手势识别流程图。

图3：本发明中确定初始窗口的示意图。

图4：本发明中有关后续笔画检测的示意图。

图5：本发明中所加局部窗口的示意图。

图6：本发明中局部加窗矫正规整路径。

图7：本发明具体实施应用中的字母手势分解图。

具体实施方式

本发明一种3D连续手势的识别方法最核心的是通过在加窗的动态时间规整引入了搜索窗口，通过不断的调整扩大搜索窗口的长宽参数，寻找规整路径，最终将窗口扩大至包含整个规整路径，此时，检测出对应模板序列。在搜索窗口调整的过程中，如果某一笔画未及时检测出，则本次检测结束。加窗的动态时间规整算法的基本原理如图1所示。

模板时间序列曲线G_M，假设该手势模板由三个笔画组成，其长度分别为{T₁,T₂,T₃}，G_T为无限长输入序列。M为模板序列曲线G_M和无限长输入序列G_T计算得到的全局代价矩阵，窗口W定义为[y,x；h,w](y＞0,x＞0,h＞1,w＞1)，其中(y,x)为搜索窗口左上角的纵坐标和横坐标；h和w分别对应了窗口的长和宽。

加窗的动态时间规整算法以计算全局代价矩阵M为基础，主要分为两个步骤。

第一步：初始化搜索窗口W至代价矩阵的起点，如图1中的窗口[1,1；T₁,1]。计算窗口的代价值S_W(定义见公式2)，同时与笔画1的相似度阈值τ₁(定义见公式3)进行比较，若S_W＞τ₁，则继续调整窗口的位置，将窗口向后平移，同时计算窗口的代价矩阵并与相似度阈值1比较，至到点k₁，窗口的代价值满足S_W≤τ₁，此时，窗口检测到了模板序列曲线G_M的笔画1。通过回溯，可以找到笔画1的规整路径，从而得到无限长输入序列G_T中笔画1的起点k₀，调整窗口的长宽参数，使其包含笔画1的整个规整路径，如附图1中窗口

第二步：在检测完笔画1之后，接着进行笔画2的检测。固定搜索窗口的起点在点(1,k₀)位置，调整窗口的高至T₁+T₂，依次调整窗口的宽，同时计算其窗口的代价值S_W，将S_W值与笔画2的相似度阈值τ₂进行比较，若S_W＞τ₂，则继续调整窗口的宽，直至点k₂，窗口的代价值满足S_W≤τ₂，此时检测出笔画2，调整窗口大小(如图1所示窗口使之包含笔画1和笔画2的规整路径。若在一定的时间范围内，笔画2未被检测到，则整个检测结束，回到第一步笔画1的检测。后续笔画的检测同笔画2的检测相同，不断调整窗口的大小，直至所有的时间序列曲线笔画都被检测出，此时，窗口已调整至覆盖整个时间序列曲线的规整路径，如图1中的窗口

本发明对3D连续手势的识别方法包含数据获取与手检测，提取特征，计算全局代价矩阵以及判断手势是否结束，具体流程如图2所示。

数据获取与手检测模块主要采集彩色和深色数据，并跟踪手部位置。采用微软的Kinect深度传感器来获取彩色数据与深度数据并利用其SDK中的手跟踪模块来获取手部数据。提取特征模块主要是提取手势特征供后续模块使用。特征采用的是方向向量，即手部位置每个时刻与上一时刻的差值，该特征可以很好的表示手势的移动过程。计算代价矩阵模块主要是指计算待匹配手势序列与模板序列的相似度的过程。最后一个模块功能是判断手势是否结束，如果是，则检测成功，否则继续检测判断。

加窗的动态时间规整算法将手势检测转变为分阶段的笔画检测，同时将搜索窗口引入到代价矩阵中，通过不断的调整窗口的参数，及时的获取整个规整路径的信息，从而使得手势检测转化为搜索窗口参数的确定过程。在识别过程中，需要不断的调整改变窗口的大小和位置，检测手势笔画，判断手势是否结束。具体详述如下。

步骤一：获取数据与提取特征

当深度摄像头kinect采集到彩色与深度数据后，即可利用kinect的SDK中的手势跟踪模块提取手掌实时空间位置坐标(x,y,z)(以kinect为空间坐标原点)，然后即可根据此坐标提取我们所需的手势速度特征(dx,dy,dz)，即手掌位置的当前帧的空间坐标减去前一帧的空间坐标。

步骤二：全局代价矩阵计算

模板时间序列曲线表示G_M中的第i(1≤i≤n)帧，也即第i个特征。或者G_M也可表示成表示G_M由N(1≤N≤n)个笔画组成，其中每一个笔画对应的时间序列曲线的长度分别为输入时间序列曲线为无限长输入特征。G_M与G_T的全局代价矩阵为M。全局代价矩阵元素ω的计算公式为：

M(ω)＝d(ω)+min_ω'∈N(ω)M(ω'). (1)

其中，ω＝(i,j)(1≤i≤n,j＞0)表示M矩阵中的某一个元素(i,j)，i对应模板时间序列G_M的第i个特征j对应无限长输入序列G_T中的第j个时刻点的特征d(ω)表示第i个模板特征与时间j的输入特征的距离，采用欧式距离作为距离度量：N(ω)表示元素(i,j)的三个邻域元素(i,j-1)，(i-1,j)，(i-1.j-1)。

步骤三：初始笔画检测

定义搜索窗口W为[y,x；h,w]，S_W为搜索窗口W的代价值，其定义为：

S_W＝M(f(W[y,x；h,w])) (2)其中，f(.)函数的功能是得到窗口W的右下角元素的坐标。因此，M(f(.))表示全局代价矩阵元素[y+h,x+w]的值。S_W表示的物理含义为：当前窗口内检测到的输入手势序列与起始帧为1，长度为h帧的手势模板子序列的相似度。

定义τ＝{τ₁,τ₂,…,τ_N}为模板手势笔画每个手势笔画对应的相似度阈值，因此，通过相似度阈值τ_i(1≤i≤N)来判断手势G_M的第i个笔画是否被检测到。τ_i的定义如下：

τ_{i} = \frac{Σ_{j = 1}^{i} T_{j}}{Σ_{j = 1}^{N} T_{j}} μ, (1 \leq i \leq N) - - - (3)

其中，μ为整个手势G_M的相似度阈值,其值由经验得到。

如附图3所示，初始化窗口W为[1,1；T₁,1]，窗口的左上角元素坐标为(1,1)，窗口高为T₁，宽度为1，其中，T₁为模板手势笔画1对应的手势模板长度。如附图3中的虚线窗口，依次逐列向后调整窗口，在每一步调整窗口过程中，计算窗口的代价值S_W，并且将S_W与模板手势笔画1的相似度阈值τ₁进行比较，直到满足：

S_W≤τ₁ (4)则笔画1被检测到，假设此时调整窗口到[1,k₀；T₁,1]。此时，通过邻域值的选取(公式5)情况，回溯得到了从元素(T₁,k₁)到元素(1,k₀)的规整路径，调整窗口W到[1,k₀；T₁,k₁-k₀]，使得W包含整个笔画1的规整路径，如附图3中的黑色加粗窗口所示。若不满足式，则继续逐列向后移动，调整窗口，直至检测到笔画1。

步骤四：后续笔画检测

在检测到笔画1以后，并不急于做出判断手势是否已经结束，而是在d_n＝αT_n+ΔT(1≤n≤N)个延迟时间中，继续检测后续笔画。其中，d_n为第n个笔画对应的延迟时间，α为系数，一般取值为1，ΔT为弹性变量，可自定义取值。

后续的手势笔画的检测过程都是相同的，手势笔画n的检测过程大致分为两个阶段。(1)扩展窗口到如附图4中的窗口[1,k₀,T₁+T₂,k₁-k₀]；(2)依次逐列向后扩展窗口

[1, k_{0}; Σ_{i = 1}^{n} T_{i}, Σ_{i = 0}^{n - 1} (k_{i + 1} - k_{i}) + 1], [1, k_{0}; Σ_{i = 1}^{n} T_{i}, Σ_{i = 0}^{n - 1} (k_{i + 1} - k_{i}) + 2],

……，到并且计算每一个调整窗口的代价值SW。

当满足S_W≤τ_n，假设窗口扩展到则笔画n被检测到，调整窗口到使窗口W包含前n个手势笔画的规整路径，如附图4中的窗口[1,k₀,T₁+T₂,k₂-k₀]。

若窗口调整到时，仍未满足S_W≤τ_n，那么笔画n检测失败，返回笔画n-1的检测。

直到手势G_M的所有N个笔画都被检测出来，才可认为手势G_M被检测出。此时窗口调整到包含整个全局代价矩阵，如附图4中的窗口[1,k₀,T₁+T₂,k₂-k₀]，窗口包含了整条规整路径。k₀为手势G_M的起点；k_N为手势G_M的终点。

步骤五：局部窗口

在手势识别过程中我们引入局部窗口，用于约束规整路径，滤除手势噪声的干扰，增加算法的鲁棒性。局部窗口定义为[i,j；h,1]，窗口限定的范围为(i+1,j),......,(i+h,j)。在手势识别过程中，全局代价矩阵中所有小于相似度阈值μ(见公式5)的元素都需要加入局部窗口。

假设元素(i,j)为全局代价矩阵中的任意一元素，且M(i,j)＜μ。元素(i,j)加入局部窗口W_l，如附图5中窗口[i,j；r+1,1]。

定义O(i,j)为针对元素(i,j)值选取的函数操作，它表示元素(i,j)的min_ω'∈N(ω)M(ω')取自于哪一个邻域元素。以数字1、2、3分别表示这三个邻域元素。则

O (i, j) = \{\begin{matrix} 1, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i, j - 1) \\ 2, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i - 1, j - 1) \\ 3, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i - 1, j) \end{matrix} - - - (5)

以表示局部窗口限定的一元素，即(i+1,j)，(i+2,j),……，(i+h,j)中的一个，当所有元素均满足时，即匹配路径竖直向下时，则：

M(i+h+1,j)＝d(ω)+min_ω'∈N(ω)M(ω')+θ, (6)

其中θ为罚值，用于矫正竖直向下的匹配路径。一般情况下，θ取值为手势的相似度阈值μ。通过设置罚值，犹如在规整路径上设置了一道道“屏障”，防止其竖直“下降”。如附图6所示，五角星元素为理想规整路径，圆圈元素为经过局部窗口矫正后的规整路径。

本方法主要是要解决自动识别手势起始结束点以及手势自包含现象。因此，选取26个字母手势，其中有大量的手势包含关系，如字母c包含于a等。具体手势如附图7所示。

数据库中每个手势样本包含10个连续的相同手势，并且每个手势没有起始点和终止点标记，同时手势之间的间隔时间也是根据志愿者自己的习惯确定。共征集了4名志愿者采集数据，每名自愿者独立完成一组手势，共26个手势样本，总共采集了1040个连续手势样本。最终两种算法的实验效果对比：

由实验效果可知，WDTW相对于TDTW，WDTW的精确度为85.5％，远大于TDTW的24.6％，并且错误率26.4％也远小于TDTW的错误率94.2％，大大提高识别效果，其原因在于TDTW方法对于每个包含的手势均识别出来，导致其正确率大大降低而错误率大大升高。因此，加窗的方法很好的解决了手势自包含问题，大大提升了手势的识别准确率，减小了错误率。

Claims

1.一种3D连续手势识别方法，其特征在于，包含以下步骤：

2.如权利要求1所述的一种3D连续手势识别方法，其特征在于，所述步骤1是使用深度摄像机kinect进行手势数据获取，采用kinect的SDK中的手势跟踪模块跟踪手掌空间位置坐标，根据此坐标提取手势特征。

3.如权利要求1所述的一种3D连续手势识别方法，其特征在于，所述步骤3包括定义搜索窗口W为[y,x；h,w]，并计算搜索窗口W的代价值S_W为S_W＝M(f(W[y,x；h,w]))；定义第i个笔画的相似度阀值τ_i(1≤i≤N)，对第一笔画的检测，初始化窗口W为[1,1；T₁,1]，窗口的左上角元素坐标为(1,1)，窗口高为T₁，宽度为1，其中，T₁为模板手势笔画1对应的手势模板长度，依次逐列向后调整窗口，在每一步调整窗口过程中，计算窗口的代价值S_W，并将S_W与模板手势第一笔画的相似度阈值τ₁进行比较，直到满足：S_W≤τ₁，则第一笔画被检测到，调整窗口到[1,k₀；T₁,1]，通过邻域值的选取情况，回溯得到了从元素(T₁,k₁)到元素(1,k₀)的规整路径，调整窗口W到[1,k₀；T₁,k₁-k₀]，使得W包含整个第一笔画的规整路径，若不满足，则继续逐列向后移动，调整窗口，直至检测到第一笔画。

4.如权利要求3所述的一种3D连续手势识别方法，其特征在于，所述领域值的选取具体为，定义O(i,j)为针对元素(i,j)值选取的函数操作，它表示元素(i,j)的min_ω'∈N(ω)M(ω')取自于哪一个邻域元素，以数字1、2、3分别表示这三个邻域元素，则

O (i, j) = \{\begin{matrix} 1, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i, j - 1) \\ 2, & \min_{ω^{'} &Element; N (ω)} M (ω^{'}) = M (i - 1, j - 1) \\ 3, & \min_{ω^{'} &Element; N} M (ω^{'}) = M (i - 1, j) \end{matrix} .

5.如权利要求1所述的一种3D连续手势识别方法，其特征在于，所述步骤4包括，第一，窗口的扩展；第二，计算每一个调整窗口的代价值S_W，并判断当前笔画是否被检测到。

6.如权利要求1至5任一项所述的一种3D连续手势识别方法，其特征在于，在手势识别过程中引入了约束规整路径的局部窗口。