CN103824063A

CN103824063A - 基于稀疏表示的动态手势识别方法

Info

Publication number: CN103824063A
Application number: CN201410079781.8A
Authority: CN
Inventors: 韩红; 洪汉梯; 陈建; 李楠; 刘三军; 史媛媛; 曹赛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2014-05-28

Abstract

本发明公开了一种基于稀疏表示的动态手势识别方法，克服了现有技术中手势特征的提取受背景环境的影响而导致识别率下降，且将手势识别过程进行数学建模，导致手势识别过程太复杂的问题。本发明的具体实现步骤如下：（1）建立数据库；（2）提取时空兴趣点；（3）构建立方体；（4）提取三维SIFT特征；（5）训练字典；（6）稀疏表示；（7）训练支持向量机分类器；（8）分类。本发明能够有效克服手势识别过程中背景环境对特征提取的影响，提高手势识别的识别率，而且不需要复杂的数学建模过程，降低了手势识别过程的计算量和复杂性。

Description

基于稀疏表示的动态手势识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及视频图像处理技术领域中的一种处理基于稀疏表示的动态手势识别方法。本发明利用图像特征提取，字典训练，稀疏表达方法对动态手势进行识别，确认出不同手势所代表的意义以实现人机交互中的实际应用。

背景技术

手势识别技术在虚拟现实、人机交互、视觉监控等领域均有着广泛的应用前景，基于视觉的手势跟踪和识别就是其重要内容。由于手势本身具有的多样性、多义性以及时间和空间上的差异性等特点，加上人手是复杂的变形体和视觉本身的不适定性，因此找到一种优秀的手势识别方法一个多学科交叉且富有挑战性的技术问题。

已经有各种手势识别的方法被提出，特别是目前使用很广泛的基于HMM的，DTW的手势识别方法。它们将手势识别的过程进行特征提取，再通过数学建模，由最终得到的概率来给出识别的结果。但由于这些方法提取出的特征不能有效表示手势的意义，过程复杂，计算量太大，识别率不高，容易受到背景的影响，而且对于较复杂的手势，识别的结果往往不能尽如人意。所以需要新的研究方法的提出。

近年来，随着稀疏表示、字典学习研究的发展，基于超完备字典的稀疏表示因其具有稀疏性、特征保持性、可分性等特点而被广泛应用于图像处理领域。

电子科技大学申请的专利“一种3D手势识别方法”（专利申请号：201310168123.1，公开号：CN103294996A）中提出了一种基于手轮廓特征的手势识别方法。该专利技术在空间上利用图像形态学处理来获得视频帧的手势轮廓中指尖位置及手指连接点位置，在手势时间序列曲线的对应位置上进行曲线的分割。并对手指的时间序列曲线进行特定的组合来识别手势。该方法虽然操作简单，但识别效果容易受背景环境的影响，只适应于某些特定的环境中特定的手势，适用性不不强。

Mahmoud Elmezain,Ayoub Al-Hamadi,Bernd Michaelis在论文“handtrajectory-based gesture spotting and recognition using HMM.ICIP2009pp.3577-3590”中提出了一种基于HMM的手势识别方法。该方法先通过图像的颜色信息和三维深度信息组合提取出手势部分的图像，再根据手势部分的图像提取出手势轨迹的方向特征，利用HMM对方向特征进行建模来识别手势。该方法虽然识别率高，但提取的特征对图像的旋转，缩放保持不变性，而且需要复杂的数学建模过程，计算量大，实现过程复杂。

发明内容

本发明的目的是针对上述现有技术的不足，提出了一种基于稀疏表示的动态手势识别方法。本发明与现有技术中其他手势识别技术相比计算量小，准确度高，适应性强。

本发明实现的具体步骤包括如下：

（1）建立数据库：

（1a）拍摄九种手势，其中每种手势包括15个视频，将拍摄的135个视频组成训练数据库；

（1b）拍摄与组成训练数据库相同的九种手势，其中每种手势包括10个视频，将拍摄的90个视频作为测试数据库。

（2）提取时空兴趣点：

（2a）对训练数据库和测试数据库中每一个视频进行时域伽柏Gabor滤波和空域高斯Gaussian滤波，获得每个视频的每帧图像像素点处的响应值R；

（2b）将每个视频中每帧图像像素点响应值R大于等于阈值的像素点定义为时空兴趣点。

（3）构建立方体：

（3a）在时空兴趣点所在图像上，截取一个以时空兴趣点为中心，以40个像素点为边长的正方形图像块；

（3b）将时空兴趣点所在的图像选为中心帧图像，沿着每一个视频的时域方向在中心帧图像的前和后取相同数量帧的多帧图像；

（3c）从除中心帧图象以外的其它多帧图象上，选取与中心帧图象位置相同的正方形图像块，将所提取的正方形图像块，按照每帧图象在视频中的先后顺序排列组成一个图像块的立方体。

（4）提取三维SIFT特征：

（4a）按照下式，求得图像块立方体中每个像素点的空域方向值和时域方向值：

θ＝arctan(L₂/L₁)

其中，θ表示图像块立方体中每个像素点的空域方向值，L₁和L₂分别表示图像块立方体中每个像素点在空间域横轴和纵轴上的梯度分量值，

表示图像块立方体中每个像素点的时域方向值，L₃表示图像块立方体中每个像素点在时间轴上的梯度分量值；

（4b）将每一个图像块的立方体均分成8个大小相等的立方体，将每个立方体中每个像素点的空域方向作为x轴，将每个立方体中每个像素点的时域方向作为y轴，将立方体中像素点的个数作为z轴，构造8个三维梯度直方图，将图像块立方体中提取的8个三维梯度直方图级联，形成三维尺度不变特征变换SIFT特征。

（5）训练字典：

（5a）将训练数据库中所有视频里提取的三维尺度不变特征变换SIFT特征作为字典训练集；

（5b）采用稀疏表示的字典设计KSVD法，对字典训练集进行字典训练，获得超完备字典。

（6）稀疏表示：

（6a）利用超完备字典，计算训练数据库和测试数据库中每个视频的所有三维SIFT特征的稀疏表示系数向量；

（6b）对稀疏表示系数向量进行极大池max pooling操作，得到训练数据库中所有视频和测试数据库中所有视频的稀疏表示系数向量。

（7）训练支持向量机分类器：

用训练数据库中所有视频的稀疏表示系数向量对支持向量机分类器进行训练，得到训练好的分类器。

（8）分类：

用训练好的分类器对测试数据库中所有视频的稀疏表示系数向量进行分类，得到最终分类结果。

本发明与现有技术相比具有以下优点：

第一、由于本发明采用提取时空兴趣点的方法，能准确的从背景环境中提取出包含手势部分的图像，克服了现有技术中手势特征的提取受背景环境影响，不能被准确提取出来的问题，使得本发明对复杂背景具有更强的适应性。

第二、由于本发明采用提取三维SIFT特征的方法，克服了现有技术中提取出的手势特征随着图像的旋转、尺度的缩放、亮度的变化而不同，影响识别结果的问题，使得本发明在手势识别时提高了识别率。

第三、由于本发明采用稀疏表示方法对手势特征进行分类识别，克服了现有技术中需要数学建模，导致手势识别过程过于复杂的问题，使得本发明降低了手势识别过程的计算量和复杂性。

附图说明

图1是本发明的流程图；

图2是本发明提取图像块立方体的示意图；

图3是本发明的仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1，本发明实现的具体步骤如下：

步骤1，建立数据库。

拍摄九种手势，其中每种手势包括15个视频，将拍摄的135个视频组成训练数据库。

拍摄与组成训练数据库相同的九种手势，其中每种手势包括10个视频，将拍摄的90个视频作为测试数据库。

步骤2，提取训练数据库和测试数据库中视频的时空兴趣点。

按照下式，对训练数据库和测试数据库中的每一个视频进行时域Gabor滤波和空域Gaussian滤波：

R＝(I*g*h₁)²+(I*g*h₂)²

其中，R表示对视频进行时域伽柏Gabor滤波和空域高斯Gaussian滤波后的响应，I表示视频，*表示卷积操作，g表示空域的高斯Gaussian滤波器，h₁和h₂分别表示时域偶和时域奇的一维伽柏Gabor滤波器。

在取得视频中的所有像素点的响应值R之后，将响应值R大于等于2×10^-4的像素点定义为时空兴趣点。

步骤3，构建图像块组成的立方体。

在时空兴趣点所在图像上，截取一个以时空兴趣点为中心，以40个像素点为边长的正方形图像块。

将时空兴趣点所在的图像选为中心帧图像，沿着视频的时域方向在中心帧图像的前和后取相同数量帧的多帧图像。

从除中心帧图象以外的其它多帧图象上，选取与中心帧图象位置相同的正方形图像块，将所提取的正方形图像块，按照每帧图象在视频中的先后顺序排列组成一个图像块的立方体。

图2是本发明提取图像块立方体的示意图。图2中的每一个大矩形块表示一帧图像，每一个大矩形块中的小正方形块表示每一帧中提取的正方形图像块。本发明的实施例中沿着带有手势视频的时域方向选取10帧图象，选取以时空兴趣点所在的第五帧图像为中心帧图像，从其它九帧图像中选取与中心帧图象位置相同的正方形图像块，将10帧图像中提取出来的10个图像块，按照时间的先后顺序排列组成一个图像块的立方体。

步骤4，提取三维SIFT特征。

按照下式，求得每个像素点的空域方向值和时域方向值

θ＝arctan(L₂/L₁)

其中，θ表示空域方向值，L₁，L₂分别表示图像块的立方体中像素点在空间域横轴和纵轴上的梯度分量值，

表示时域方向值，L₃表示立方体中的像素点在时间轴上的梯度分量值。

将每一个图像块的立方体分成8个相等大小的立方体，以每个立方体中每个像素点的空域方向和时域方向作为横轴和纵轴，构造三维梯度直方图，将图像块的立方体中提取的三维梯度直方图级联在一起形成三维SIFT特征。

步骤5，训练字典。

将训练数据库中所有视频里提取的三维尺度不变特征变换SIFT特征作为字典训练集。

采用稀疏表示的字典设计KSVD法，对字典训练集进行字典训练，获得超完备字典，具体操作步骤如下：

第一步，在字典训练集中选取固定的训练样本作为初始字典。

第二步，固定字典，按照下式计算稀疏表示系数：

arg min{||Z||₀} s.t.||X-DZ||₂ ²≤ε

其中，arg min表示取最小值操作，Z表示每一个三维SIFT特征的稀疏表示系数向量，||·||₀表示取其中非零元素的个数操作，s.t.表示公式的约束条件，X表示每一个样本的三维SIFT特征，D表示超完备字典，||·||₂表示取二范数操作，ε表示满足上式约束条件的差值。

第三步，固定稀疏表示系数，根据匹配跟踪法更新字典。

第四步，重复第二步和第三步，直到满足第二步式子里的约束条件。

步骤6，稀疏表示。

利用超完备字典，计算训练数据库和测试数据库中每个视频的所有三维SIFT特征的稀疏表示系数向量。

对稀疏表示系数进行极大池max pooling操作，得到训练数据库中所有视频和测试数据库中所有视频的稀疏表示系数向量，具体操作步骤如下：

第一步，利用超完备字典，按照下式求得训练数据库中每个视频和测试数据库中每个视频的所有三维SIFT特征的稀疏表示系数向量：

\arg \min \frac{1}{2} {| | X - DZ | |}^{2}_{2} + λ {| | Z | |}_{0}

其中，arg min表示使目标函数取最小值的操作，X表示每一个三维SIFT特征，D表示超完备字典，Z表示每一个三维SIFT特征的稀疏表示系数向量，||·||₂表示取二范数操作，λ表示稀疏程度参数，||·||₀表示取其中非零元素个数的操作。

第二步，令Z＝[z₁,......z_N]表示每一个视频中的稀疏表示，其中z表示每一个视频中三维SIFT特征稀疏表示系数向量，N表示视频中三维SIFT特征的个数。为了得到每一个视频的稀疏表示系数，按照下式对Z进行max pooling操作：

β_k＝max{|Z_k1|,|Z_k2|,.....|Z_kN|}

其中，max表示取最大值操作，β_k表示视频的稀疏表示系数向量中的第k个元素，k表示超完备字典中原子的个数，Z_kN表示Z中第k行，第N列的元素，k表示Z中的行数，i表示Z中的列数。通过极大值max pooling操作，我们得到的向量β表示视频的稀疏表示系数向量。

步骤7，训练支持向量机分类器。

步骤8，分类。

下面结合仿真图对本发明的效果做进一步的描述。

1、仿真实验条件：

本发明所用的视频数据库为自拍的一组包含9个手势动作的视频库，其中每个手势动作包含有25个视频，将其中的15个作为训练样本，其余10个作为测试样本。硬件平台为：Intel Core2Duo CPU E65502.33GHZ、2GB RAM，软件平台：vs2008MATLAB R2009a。

2、实验内容与结果

本发明首先通过对带有手势的视频在时域和空域分别运用伽伯Gabor和高斯Gaussian进行滤波提取手势视频中的时空兴趣点，构建由图像块组成的立方体，提取每个立方体的三维SIFT特征，再利用这些特征来训练出一个超完备字典，通过稀疏表示方法得到每个时空兴趣点的稀疏表示向量，然后使用极大值max pooling操作得到每个视频的稀疏表示向量，最后用训练视频的稀疏表示向量训练出一个支持向量机分类器，用训练好的分类器对测试视频进行分类。

对照图3的仿真结果的混淆矩阵图，其中对角线上的数值表示该行所对应的手势中被正确分类的手势占每个测试手势的比例数，第一行第八列的0.1表示手势1有一个手势被错分为手势8，第二行第一列的0.2和第六列的0.1表示手势2有两个手势被错分为手势1，有一个手势被错分为手势6，第五行第四列的0.1表示手势5有一个手势被错分为手势4，第六行第四列的0.1表示手势6有一个手势被错分为手势4，第七行第三列的0.3表示手势7有三个收拾被错分为手势3，第九行第四列的0.3表示手势9有三个收拾被错分为手势4，可以看出本发明在识别背景复杂且动作比较复杂的手势时同样具有很高的识别率。

Claims

1.一种基于稀疏表示的动态手势识别方法，包括如下步骤：

（1）建立数据库：

（1b）拍摄与组成训练数据库相同的九种手势，其中每种手势包括10个视频，将拍摄的90个视频作为测试数据库；

（2）提取时空兴趣点：

（2b）将每个视频中每帧图像像素点响应值R大于等于阈值的像素点定义为时空兴趣点；

（3）构建立方体：

（3c）从除中心帧图象以外的其它多帧图象上，选取与中心帧图象位置相同的正方形图像块，将所提取的正方形图像块，按照每帧图象在视频中的先后顺序排列组成一个图像块的立方体；

（4）提取三维SIFT特征：

θ＝arctan(L₂/L₁)

（4b）将每一个图像块的立方体均分成8个大小相等的立方体，将每个立方体中每个像素点的空域方向作为x轴，将每个立方体中每个像素点的时域方向作为y轴，将立方体中像素点的个数作为z轴，构造8个三维梯度直方图，将图像块立方体中提取的8个三维梯度直方图级联，形成三维尺度不变特征变换SIFT特征；

（5）训练字典：

（5b）采用稀疏表示的字典设计KSVD法，对字典训练集进行字典训练，获得超完备字典；

（6）稀疏表示：

（6b）对稀疏表示系数向量进行极大池max pooling操作，得到训练数据库中所有视频和测试数据库中所有视频的稀疏表示系数向量；

（7）训练支持向量机分类器：

用训练数据库中所有视频的稀疏表示系数向量对支持向量机分类器进行训练，得到训练好的分类器；

（8）分类：

2.根据权利要求1所述的基于稀疏表示的动态手势识别方法，其特征在于：步骤（2a）所述的时域伽柏Gabor滤波和空域高斯Gaussian滤波，按下式操作：

R＝(I*g*h₁)²+(I*g*h₂)²

其中，R表示对视频进行时域伽柏Gabor滤波和空域高斯Gaussian滤波后的响应，I表示视频，g表示空域的高斯Gaussian滤波器，h₁和h₂分别表示时域偶和时域奇的一维伽柏Gabor滤波器，*表示卷积操作。

3.根据权利要求1所述的基于稀疏表示的动态手势识别方法，其特征在于：步骤（2b）所述阈值的取值为2×10^-4。

4.根据权利要求1所述的基于稀疏表示的动态手势识别方法，其特征在于：步骤（5b）所述的采用稀疏表示的字典设计KSVD法按照如下步骤进行：

第一步，在字典训练集中选取固定的训练样本作为初始字典；

第二步，固定字典，按照下式计算稀疏表示系数：

arg min{||Z||₀} s.t.||X-DZ||₂ ²≤ε

其中，argmin表示取最小值操作，Z表示每一个时三维SIFT特征的稀疏表示系数向量，||·||₀表示取其中非零元素的个数操作，s.t.表示公式的约束条件，X表示每一个样本的三维SIFT特征，D表示超完备字典，||·||₂表示取二范数操作，ε表示满足上式约束条件的差值。

5.根据权利要求1所述的基于稀疏表示的动态手势识别方法，其特征在于：步骤（6a）所述的计算训练数据库中每个视频和测试数据库中每个视频的所有三维SIFT特征的稀疏表示系数向量按下式进行：

\arg \min \frac{1}{2} {| | X - DZ | |}^{2}_{2} + λ {| | Z | |}_{0}