CN103530619B

CN103530619B - 基于rgb-d数据构成的少量训练样本的手势识别方法

Info

Publication number: CN103530619B
Application number: CN201310522370.7A
Authority: CN
Inventors: 万军; 阮秋琦; 安高云
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2016-08-31
Anticipated expiration: 2033-10-29
Also published as: CN103530619A

Abstract

本发明公开了一种基于RGB‑D数据构成的少量训练样本的手势识别方法。本发明包含了：特征提取单元，其基于RGB‑D相机得到的对齐的RGB‑D图像序列中提取三维稀疏SIFT特征；训练单元，其用于基于少量的手势训练样本来学习模型；识别单元，其用于对输入的连续手势进行识别。本发明能够应用在任何提供RGB‑D数据的相机或设备，比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion；该方法识别速度能够达到实时，可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。

Description

基于RGB-D数据构成的少量训练样本的手势识别方法

技术领域

本发明涉及手势识别方法,可以应用到人机交互、手语翻译、智能家居、游戏开发以及虚拟现实。

背景技术

在传统手势识别中，通常都是利用普通摄像头采集手势，然后对RGB视频流进行特征提取。在基于单目的手势识别中，由于只能够提供RGB图像，通常需要大量的训练样本才能够达到较好的识别效果；在多目视觉中，由于需要对多个相机进行标定以及构建三维模型，这些都需要复杂的运算量，无法达到实时的效果。

近年来，越来越多的公司开发了RGB-D相机。该相机的特点是能够实时的提供RGB图像和深度图像。比如2010年微软发布了能够实时采集RGB-D图像的摄像头（即Kinect）；2011年华硕发布了Xtion PRO；2013年体感控制器制造公司Leap发布的Leap Motion。

由于RGB-D相机比普通相机能够提供更加丰富的信息，为少量训练样本达到较好的识别效果提供了可能。因此，当只有少量训练样本条件下，手势识别所面临的困难是如何从深度信息和颜色信息中提取有效的特征。

而在现有方法中，没有基于RGB-D数据的少量样本数据来预测手势的。

发明内容

本发明针对现有手势识别方式上存在的缺陷，提供一种新的手势识别方法。

本发明解决其技术问题所采用的技术方案是：

本发明手势识别方法由特征提取单元、训练单元和识别单元组成。

在特征提取单元中，首先，对连续两帧RGB-D图像序列检测特征点；然后对特征点邻域区域进行特征向量计算，这样每个训练或者待识别样本可以用这些特征向量表示。特征提取单元应用到了后续的训练和识别单元中。

在训练单元中，首先，训练样本提取时空特征；其次，把所有的时空特征组成一个大矩阵；再次，对该大矩阵进行聚类获取该聚类中心矩阵，该聚类中心矩阵即为训练后的字典，该字典会应用到识别单元中；最后，每一个训练样本的时空特征利用该字典进行量化得到一个直方图，即每个训练样本可以由一个直方图表示。

在识别单元中，首先，对连续的手势分割成孤立手势，其次，对每个孤立手势提取时空特征；再次，利用训练单元中的字典对提取的待识别孤立手势的时空特征进行量化，使每个孤立手势由一个直方图表示；最后，把该直方图输入到最近邻分类器得到最终的识别结果。

进一步，本发明中的特征提取单元所提取的特征名为三维稀疏SIFT特征算子。

本发明需要的硬件包括RGB-D相机（如Kinect），电脑主机及常规配件（如鼠标，键盘等）。

这里，本发明有下面六个优点：第一，可从少量训练样本中提取有效的特征；第二，提供了一套完整的手势识别系统方法，包含了训练和识别过程；第三，能够应用到所有的能够提供RGB-D数据的相机；第四，该识别方法对手势发生旋转或尺度变化具有很好的鲁棒性；第五，该识别方法对手势中发生部分遮挡具有较好的识别效果；第六，该识别方法能够达到实时。

本发明能够应用在任何提供RGB-D数据的相机或设备，比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion；该方法识别速度能够达到实时，可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。

附图说明

图1为本发明的特征提取单元流程图；

图2为本发明的训练单元流程图；

图3为本发明的识别单元流程图。

具体实施方式

下面将结合附图对本发明方法作进一步说明。

如图1所示，本发明中，特征提取单元具体步骤如下：

步骤（1）.对输入的图像序列中的每一帧都建立金字塔，包括了灰度图金子塔和深度图金字塔。其中灰度图金字塔是由RGB图经过灰度转换而来的，而深度图金字塔是由深度图计算而来的。该金字塔的第一层是原图，第n层是第n-1层经过下采样得到的。

步骤（2）.对t时刻的深度图金字塔，利用角点检测器（如Harris、Shi-Tomasi等）检测金字塔每层图像中的角点。由此可以知道这些角点位于金字塔图像中的位置信息。

步骤（3）.利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置。由此可以知道这些角点的速度。当角点的速度小于某个阈值K的时候，该角点舍弃。同时保留速度大于该阈值K的角点，这些保留的角点即为特征点。

在该步骤中，所述阈值的取值为K=max{Sm*0.2,0.5}，其中Sm是指同一层金字塔中所有检测到角点速度的最大值。

步骤（4）.检测完感特征点后，可以知道这些特征点所处金字塔的位置。在t和t+1时刻，从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一小块图像区域。这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2。然后对这四个图像进行高斯滤波，得到对应的滤波后的图像G1',D1',G2',D2'。利用G1'求水平梯度图像G1_x和垂直梯度图像G1_y;利用D1'也求水平和垂直梯度图像Z_x，Z_y；利用G1'和G2'计算灰度图的水平光流场V1_x和垂直光流场V1_y;同样利用D1'和D2'计算深度图的水平和垂直光流场VZ_x，VZ_y。

步骤（5）.利用G1_x，G1_y，Z_x和Z_y构建三维梯度空间，其中三维坐标中，X方向为G1_x，Y方向为G1_y，Z方向由Z_x和Z_y构成。同样的，利用V1_x，V1_y，VZ_x和VZ_x构建三维运动空间，其中三维坐标中，X方向为V1_x，Y方向为V1_y，Z方向由VZ_x和VZ_y构成。

步骤（6）.在三维梯度和运动空间，分别在XY,YZ,XZ平面，求取SIFT描绘算子，这样就可以计算6个SIFT描绘算子。最后这6个算子组成一个长的特征算子，即三维稀疏SIFT算子。三维稀疏SIFT算子就是提取的特征向量。

如图2所示，本发明中，训练单元具体步骤如下：

步骤（1）.对每个训练样本利用特征提取单元的方法提取特征.

步骤（2）.把所有训练样本提取的特征组成一个大矩阵。

步骤（3）.对该大矩阵进行聚类（如Kmeans,稀疏编码等）获取该聚类中心矩阵，该聚类中心矩阵即为训练后的字典。

步骤（4）.对每一个训练样本的时空特征利用该字典进行矢量量化，计算每个矢量出现的次数，得到每个矢量的频数，最终得到归一化后的向量（即直方图）。

如图3所示，本发明中，识别单元具体步骤如下：

步骤（1）.对连续的RGB-D图像序列，利用动态时间规整算法进行时间上的分割，使每一段只包含一个训练手势。

步骤（2）.对每个孤立手势利用特征提取单元的方法提取特征。

步骤（3）.利用训练单元中的字典对每个孤立手势的特征进行矢量量化，这样每个孤立手势可以由一个直方图表示。

步骤（4）.该直方图输入到最近邻分类器（即找到与训练样本的直方图距离最近的类别）得到最终的识别结果。

Claims

1.基于RGB-D数据构成的少量训练样本的手势识别方法，包括：

特征提取单元，其用于对RGB-D相机采集到的对齐的RGB-D数据进行特征提取；

训练单元，其用于对少量的手势训练样本提取的特征进行训练，得到训练后的模型；

识别单元，其用于对输入的连续的RGB-D数据利用训练单元生成的模型进行识别；

在特征提取单元中，首先，对连续两帧RGB-D图像序列检测特征点；然后对特征点邻域区域进行特征向量计算，这样每个训练或者待识别样本可以用这些特征向量表示；所述的特征提取单元具体步骤为：

步骤(1).对输入的图像序列中的每一帧都建立金字塔，包括了灰度图金子塔和深度图金字塔；其中灰度图金字塔是由RGB图经过灰度转换而来的，而深度图金字塔是由深度图计算而来的；该金字塔的第一层是原图，第n层是第n-1层经过下采样得到的；

步骤(2).对t时刻的深度图金字塔，利用角点检测器检测金字塔每层图像中的角点，由此可以知道这些角点位于金字塔图像中的位置信息；

步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置，由此可以知道这些角点的速度；当角点的速度小于某个阈值K的时候，该角点舍弃；同时保留速度大于该阈值K的角点，这些保留的角点即为特征点；

在该步骤中，所述阈值的取值为K＝max{Sm*0.2,0.5}，其中Sm是指同一层金字塔中所有检测到角点速度的最大值；

步骤(4).检测完特征点后，即可知道这些特征点所处金字塔的位置；在t和t+1时刻，从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一小块图像区域，这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2；然后对这四个图像进行高斯滤波，得到对应的滤波后的图像G1',D1',G2',D2'；利用G1'求水平梯度图像G1_x和垂直梯度图像G1_y；利用D1'也求水平和垂直梯度图像Z_x，Z_y；利用G1'和G2'计算灰度图的水平光流场V1_x和垂直光流场V1_y；同样利用D1'和D2'计算深度图的水平和垂直光流场VZ_x，VZ_y；

步骤(5).利用G1_x，G1_y，Z_x和Z_y构建三维梯度空间，其中三维坐标中，X方向为G1_x，Y方向为G1_y，Z方向由Z_x和Z_y构成；

利用V1_x，V1_y，VZ_x和VZ_y构建三维运动空间，其中三维坐标中，X方向为V1_x，Y方向为V1_y，Z方向由VZ_x和VZ_y构成；

步骤(6).在三维梯度和运动空间，分别在XY,YZ,XZ平面，求取SIFT描绘算子，这样就可以计算6个SIFT描绘算子；最后这6个算子组成一个长的特征算子，即三维稀疏SIFT算子；三维稀疏SIFT算子就是提取的特征向量。

2.根据权利要求1所述的基于RGB-D数据构成的少量训练样本的手势识别方法，其特征在于：

在训练单元中，首先，训练样本提取时空特征；其次，把所有的时空特征组成一个大矩阵；再次，对该大矩阵进行聚类获取该聚类中心矩阵，该聚类中心矩阵即为训练后的字典；最后，每一个训练样本的时空特征利用该字典进行量化得到一个直方图，即每个训练样本可以由一个直方图表示；所述的训练单元具体步骤为：

步骤(1).对每个训练样本利用特征提取单元的方法提取特征；

步骤(2).把所有训练样本提取的特征组成一个大矩阵；

步骤(3).对该大矩阵进行聚类，获取该聚类中心矩阵，该聚类中心矩阵即为训练后的字典；

步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化，计算每个矢量出现的次数，得到每个矢量的频数，最终得到归一化后的向量——即直方图。

3.根据权利要求1或2所述的基于RGB-D数据构成的少量训练样本的手势识别方法，其特征在于：在识别单元中，首先，对连续的手势分割成孤立手势，其次，对每个孤立手势提取时空特征；再次，利用训练单元中的字典对提取的待识别孤立手势的时空特征进行量化，使每个孤立手势由一个直方图表示；最后，把该直方图输入到最近邻分类器得到最终的识别结果；所述的识别单元具体步骤为：

步骤(1).对连续的RGB-D图像序列，利用动态时间规整算法进行时间上的分割，使每一段只包含一个训练手势；

步骤(2).对每个孤立手势利用特征提取单元的方法提取特征；

步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化，这样每个孤立手势可以由一个直方图表示；

步骤(4).该直方图输入到最近邻分类器——即找到与训练样本的直方图距离最近的类别，得到最终的识别结果。