CN103530619B - 基于rgb-d数据构成的少量训练样本的手势识别方法 - Google Patents
基于rgb-d数据构成的少量训练样本的手势识别方法 Download PDFInfo
- Publication number
- CN103530619B CN103530619B CN201310522370.7A CN201310522370A CN103530619B CN 103530619 B CN103530619 B CN 103530619B CN 201310522370 A CN201310522370 A CN 201310522370A CN 103530619 B CN103530619 B CN 103530619B
- Authority
- CN
- China
- Prior art keywords
- rgb
- training
- gesture
- training sample
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于RGB‑D数据构成的少量训练样本的手势识别方法。本发明包含了:特征提取单元,其基于RGB‑D相机得到的对齐的RGB‑D图像序列中提取三维稀疏SIFT特征;训练单元,其用于基于少量的手势训练样本来学习模型;识别单元,其用于对输入的连续手势进行识别。本发明能够应用在任何提供RGB‑D数据的相机或设备,比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时,可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。
Description
技术领域
本发明涉及手势识别方法,可以应用到人机交互、手语翻译、智能家居、游戏开发以及虚拟现实。
背景技术
在传统手势识别中,通常都是利用普通摄像头采集手势,然后对RGB视频流进行特征提取。在基于单目的手势识别中,由于只能够提供RGB图像,通常需要大量的训练样本才能够达到较好的识别效果;在多目视觉中,由于需要对多个相机进行标定以及构建三维模型,这些都需要复杂的运算量,无法达到实时的效果。
近年来,越来越多的公司开发了RGB-D相机。该相机的特点是能够实时的提供RGB图像和深度图像。比如2010年微软发布了能够实时采集RGB-D图像的摄像头(即Kinect);2011年华硕发布了Xtion PRO;2013年体感控制器制造公司Leap发布的Leap Motion。
由于RGB-D相机比普通相机能够提供更加丰富的信息,为少量训练样本达到较好的识别效果提供了可能。因此,当只有少量训练样本条件下,手势识别所面临的困难是如何从深度信息和颜色信息中提取有效的特征。
而在现有方法中,没有基于RGB-D数据的少量样本数据来预测手势的。
发明内容
本发明针对现有手势识别方式上存在的缺陷,提供一种新的手势识别方法。
本发明解决其技术问题所采用的技术方案是:
本发明手势识别方法由特征提取单元、训练单元和识别单元组成。
在特征提取单元中,首先,对连续两帧RGB-D图像序列检测特征点;然后对特征点邻域区域进行特征向量计算,这样每个训练或者待识别样本可以用这些特征向量表示。特征提取单元应用到了后续的训练和识别单元中。
在训练单元中,首先,训练样本提取时空特征;其次,把所有的时空特征组成一个大矩阵;再次,对该大矩阵进行聚类获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典,该字典会应用到识别单元中;最后,每一个训练样本的时空特征利用该字典进行量化得到一个直方图,即每个训练样本可以由一个直方图表示。
在识别单元中,首先,对连续的手势分割成孤立手势,其次,对每个孤立手势提取时空特征;再次,利用训练单元中的字典对提取的待识别孤立手势的时空特征进行量化,使每个孤立手势由一个直方图表示;最后,把该直方图输入到最近邻分类器得到最终的识别结果。
进一步,本发明中的特征提取单元所提取的特征名为三维稀疏SIFT特征算子。
本发明需要的硬件包括RGB-D相机(如Kinect),电脑主机及常规配件(如鼠标,键盘等)。
这里,本发明有下面六个优点:第一,可从少量训练样本中提取有效的特征;第二,提供了一套完整的手势识别系统方法,包含了训练和识别过程;第三,能够应用到所有的能够提供RGB-D数据的相机;第四,该识别方法对手势发生旋转或尺度变化具有很好的鲁棒性;第五,该识别方法对手势中发生部分遮挡具有较好的识别效果;第六,该识别方法能够达到实时。
本发明能够应用在任何提供RGB-D数据的相机或设备,比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时,可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。
附图说明
图1为本发明的特征提取单元流程图;
图2为本发明的训练单元流程图;
图3为本发明的识别单元流程图。
具体实施方式
下面将结合附图对本发明方法作进一步说明。
本发明手势识别方法由特征提取单元、训练单元和识别单元组成。
如图1所示,本发明中,特征提取单元具体步骤如下:
步骤(1).对输入的图像序列中的每一帧都建立金字塔,包括了灰度图金子塔和深度图金字塔。其中灰度图金字塔是由RGB图经过灰度转换而来的,而深度图金字塔是由深度图计算而来的。该金字塔的第一层是原图,第n层是第n-1层经过下采样得到的。
步骤(2).对t时刻的深度图金字塔,利用角点检测器(如Harris、Shi-Tomasi等)检测金字塔每层图像中的角点。由此可以知道这些角点位于金字塔图像中的位置信息。
步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置。由此可以知道这些角点的速度。当角点的速度小于某个阈值K的时候,该角点舍弃。同时保留速度大于该阈值K的角点,这些保留的角点即为特征点。
在该步骤中,所述阈值的取值为K=max{Sm*0.2,0.5},其中Sm是指同一层金字塔中所有检测到角点速度的最大值。
步骤(4).检测完感特征点后,可以知道这些特征点所处金字塔的位置。在t和t+1时刻,从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一小块图像区域。这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2。然后对这四个图像进行高斯滤波,得到对应的滤波后的图像G1',D1',G2',D2'。利用G1'求水平梯度图像G1x和垂直梯度图像G1y;利用D1'也求水平和垂直梯度图像Zx,Zy;利用G1'和G2'计算灰度图的水平光流场V1x和垂直光流场V1y;同样利用D1'和D2'计算深度图的水平和垂直光流场VZx,VZy。
步骤(5).利用G1x,G1y,Zx和Zy构建三维梯度空间,其中三维坐标中,X方向为G1x,Y方向为G1y,Z方向由Zx和Zy构成。同样的,利用V1x,V1y,VZx和VZx构建三维运动空间,其中三维坐标中,X方向为V1x,Y方向为V1y,Z方向由VZx和VZy构成。
步骤(6).在三维梯度和运动空间,分别在XY,YZ,XZ平面,求取SIFT描绘算子,这样就可以计算6个SIFT描绘算子。最后这6个算子组成一个长的特征算子,即三维稀疏SIFT算子。三维稀疏SIFT算子就是提取的特征向量。
如图2所示,本发明中,训练单元具体步骤如下:
步骤(1).对每个训练样本利用特征提取单元的方法提取特征.
步骤(2).把所有训练样本提取的特征组成一个大矩阵。
步骤(3).对该大矩阵进行聚类(如Kmeans,稀疏编码等)获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典。
步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化,计算每个矢量出现的次数,得到每个矢量的频数,最终得到归一化后的向量(即直方图)。
如图3所示,本发明中,识别单元具体步骤如下:
步骤(1).对连续的RGB-D图像序列,利用动态时间规整算法进行时间上的分割,使每一段只包含一个训练手势。
步骤(2).对每个孤立手势利用特征提取单元的方法提取特征。
步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化,这样每个孤立手势可以由一个直方图表示。
步骤(4).该直方图输入到最近邻分类器(即找到与训练样本的直方图距离最近的类别)得到最终的识别结果。
Claims (3)
1.基于RGB-D数据构成的少量训练样本的手势识别方法,包括:
特征提取单元,其用于对RGB-D相机采集到的对齐的RGB-D数据进行特征提取;
训练单元,其用于对少量的手势训练样本提取的特征进行训练,得到训练后的模型;
识别单元,其用于对输入的连续的RGB-D数据利用训练单元生成的模型进行识别;
在特征提取单元中,首先,对连续两帧RGB-D图像序列检测特征点;然后对特征点邻域区域进行特征向量计算,这样每个训练或者待识别样本可以用这些特征向量表示;所述的特征提取单元具体步骤为:
步骤(1).对输入的图像序列中的每一帧都建立金字塔,包括了灰度图金子塔和深度图金字塔;其中灰度图金字塔是由RGB图经过灰度转换而来的,而深度图金字塔是由深度图计算而来的;该金字塔的第一层是原图,第n层是第n-1层经过下采样得到的;
步骤(2).对t时刻的深度图金字塔,利用角点检测器检测金字塔每层图像中的角点,由此可以知道这些角点位于金字塔图像中的位置信息;
步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置,由此可以知道这些角点的速度;当角点的速度小于某个阈值K的时候,该角点舍弃;同时保留速度大于该阈值K的角点,这些保留的角点即为特征点;
在该步骤中,所述阈值的取值为K=max{Sm*0.2,0.5},其中Sm是指同一层金字塔中所有检测到角点速度的最大值;
步骤(4).检测完特征点后,即可知道这些特征点所处金字塔的位置;在t和t+1时刻,从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一小块图像区域,这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2;然后对这四个图像进行高斯滤波,得到对应的滤波后的图像G1',D1',G2',D2';利用G1'求水平梯度图像G1x和垂直梯度图像G1y;利用D1'也求水平和垂直梯度图像Zx,Zy;利用G1'和G2'计算灰度图的水平光流场V1x和垂直光流场V1y;同样利用D1'和D2'计算深度图的水平和垂直光流场VZx,VZy;
步骤(5).利用G1x,G1y,Zx和Zy构建三维梯度空间,其中三维坐标中,X方向为G1x,Y方向为G1y,Z方向由Zx和Zy构成;
利用V1x,V1y,VZx和VZy构建三维运动空间,其中三维坐标中,X方向为V1x,Y方向为V1y,Z方向由VZx和VZy构成;
步骤(6).在三维梯度和运动空间,分别在XY,YZ,XZ平面,求取SIFT描绘算子,这样就可以计算6个SIFT描绘算子;最后这6个算子组成一个长的特征算子,即三维稀疏SIFT算子;三维稀疏SIFT算子就是提取的特征向量。
2.根据权利要求1所述的基于RGB-D数据构成的少量训练样本的手势识别方法,其特征在于:
在训练单元中,首先,训练样本提取时空特征;其次,把所有的时空特征组成一个大矩阵;再次,对该大矩阵进行聚类获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典;最后,每一个训练样本的时空特征利用该字典进行量化得到一个直方图,即每个训练样本可以由一个直方图表示;所述的训练单元具体步骤为:
步骤(1).对每个训练样本利用特征提取单元的方法提取特征;
步骤(2).把所有训练样本提取的特征组成一个大矩阵;
步骤(3).对该大矩阵进行聚类,获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典;
步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化,计算每个矢量出现的次数,得到每个矢量的频数,最终得到归一化后的向量——即直方图。
3.根据权利要求1或2所述的基于RGB-D数据构成的少量训练样本的手势识别方法,其特征在于:在识别单元中,首先,对连续的手势分割成孤立手势,其次,对每个孤立手势提取时空特征;再次,利用训练单元中的字典对提取的待识别孤立手势的时空特征进行量化,使每个孤立手势由一个直方图表示;最后,把该直方图输入到最近邻分类器得到最终的识别结果;所述的识别单元具体步骤为:
步骤(1).对连续的RGB-D图像序列,利用动态时间规整算法进行时间上的分割,使每一段只包含一个训练手势;
步骤(2).对每个孤立手势利用特征提取单元的方法提取特征;
步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化,这样每个孤立手势可以由一个直方图表示;
步骤(4).该直方图输入到最近邻分类器——即找到与训练样本的直方图距离最近的类别,得到最终的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310522370.7A CN103530619B (zh) | 2013-10-29 | 2013-10-29 | 基于rgb-d数据构成的少量训练样本的手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310522370.7A CN103530619B (zh) | 2013-10-29 | 2013-10-29 | 基于rgb-d数据构成的少量训练样本的手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103530619A CN103530619A (zh) | 2014-01-22 |
CN103530619B true CN103530619B (zh) | 2016-08-31 |
Family
ID=49932618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310522370.7A Expired - Fee Related CN103530619B (zh) | 2013-10-29 | 2013-10-29 | 基于rgb-d数据构成的少量训练样本的手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103530619B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814626A (zh) * | 2020-06-29 | 2020-10-23 | 中南民族大学 | 一种基于自注意力机制的动态手势识别方法和系统 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886295B (zh) * | 2014-03-25 | 2017-10-24 | 中科创达软件股份有限公司 | 手势检测方法及系统 |
CN103914149B (zh) * | 2014-04-01 | 2017-02-08 | 复旦大学 | 一种面向互动电视的手势交互方法和系统 |
CN103971116A (zh) * | 2014-04-24 | 2014-08-06 | 西北工业大学 | 基于Kinect的感兴趣区域检测方法 |
CN104156690B (zh) * | 2014-06-27 | 2017-09-29 | 辽宁石油化工大学 | 一种基于图像空间金字塔特征包的手势识别方法 |
CN104268507A (zh) * | 2014-09-15 | 2015-01-07 | 南京邮电大学 | 一种基于rgb-d图像的手语字母识别方法 |
CN105654103B (zh) * | 2014-11-12 | 2020-03-24 | 联想(北京)有限公司 | 一种图像识别方法及电子设备 |
US9672418B2 (en) | 2015-02-06 | 2017-06-06 | King Fahd University Of Petroleum And Minerals | Arabic sign language recognition using multi-sensor data fusion |
CN104866824A (zh) * | 2015-05-17 | 2015-08-26 | 华南理工大学 | 一种基于Leap Motion的手语字母识别方法 |
CN104915009B (zh) * | 2015-06-25 | 2018-04-13 | 深圳先进技术研究院 | 手势预判的方法及系统 |
CN105353634B (zh) * | 2015-11-30 | 2018-05-08 | 北京地平线机器人技术研发有限公司 | 利用手势识别控制操作的家电设备与方法 |
CN106019973A (zh) * | 2016-07-30 | 2016-10-12 | 杨超坤 | 一种具有情感识别功能的智能家居 |
CN106815578A (zh) * | 2017-01-23 | 2017-06-09 | 重庆邮电大学 | 一种基于深度运动图‑尺度不变特征变换的手势识别方法 |
CN108044625B (zh) * | 2017-12-18 | 2019-08-30 | 中南大学 | 一种基于多Leapmotion虚拟手势融合的机器人机械臂操控方法 |
CN108345852A (zh) * | 2018-02-05 | 2018-07-31 | 四川东鼎里智信息技术有限责任公司 | 一种用于手势远程控制物体的高度的控制算法 |
CN108804715A (zh) * | 2018-07-09 | 2018-11-13 | 北京邮电大学 | 融合视听感知的多任务协同识别方法及系统 |
CN110728191A (zh) * | 2019-09-16 | 2020-01-24 | 北京华捷艾米科技有限公司 | 手语翻译方法、基于mr的手语-语音交互方法及系统 |
CN112308910B (zh) * | 2020-10-10 | 2024-04-05 | 达闼机器人股份有限公司 | 一种数据生成方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345626A (zh) * | 2013-07-18 | 2013-10-09 | 重庆邮电大学 | 一种智能轮椅静态手势识别方法 |
CN103353935A (zh) * | 2013-07-19 | 2013-10-16 | 电子科技大学 | 一种用于智能家居系统的3d动态手势识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180114B2 (en) * | 2006-07-13 | 2012-05-15 | Northrop Grumman Systems Corporation | Gesture recognition interface system with vertical display |
-
2013
- 2013-10-29 CN CN201310522370.7A patent/CN103530619B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345626A (zh) * | 2013-07-18 | 2013-10-09 | 重庆邮电大学 | 一种智能轮椅静态手势识别方法 |
CN103353935A (zh) * | 2013-07-19 | 2013-10-16 | 电子科技大学 | 一种用于智能家居系统的3d动态手势识别方法 |
Non-Patent Citations (2)
Title |
---|
One-shot Learning Gesture Recognition from RGB-D Data Using Bag of Features;Jun Wan等;《Journal of Machine Learning Research》;20130131;第14卷(第1期);第2549-2582页 * |
基于Kinect深度信息的手势提取与识别研究;邓瑞等;《计算机应用研究》;20130430;第30卷(第4期);全文 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814626A (zh) * | 2020-06-29 | 2020-10-23 | 中南民族大学 | 一种基于自注意力机制的动态手势识别方法和系统 |
CN111814626B (zh) * | 2020-06-29 | 2021-01-26 | 中南民族大学 | 一种基于自注意力机制的动态手势识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103530619A (zh) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103530619B (zh) | 基于rgb-d数据构成的少量训练样本的手势识别方法 | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
CN110428428B (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
Garcia-Garcia et al. | A review on deep learning techniques applied to semantic segmentation | |
CN105069746B (zh) | 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其系统 | |
WO2020119661A1 (zh) | 一种目标检测方法、装置以及行人检测方法、系统 | |
CN107168527B (zh) | 基于区域卷积神经网络的第一视角手势识别与交互方法 | |
CN106897670B (zh) | 一种基于计算机视觉的快递暴力分拣识别方法 | |
Joo et al. | Panoptic studio: A massively multiview system for social motion capture | |
CN105718878B (zh) | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 | |
Xu et al. | Hierarchical semantic propagation for object detection in remote sensing imagery | |
CN109711413A (zh) | 基于深度学习的图像语义分割方法 | |
CN106598226A (zh) | 一种基于双目视觉和深度学习的无人机人机交互方法 | |
WO2019157344A1 (en) | Real-time gesture recognition method and apparatus | |
CN108765279A (zh) | 一种面向监控场景的行人人脸超分辨率重建方法 | |
CN107784291A (zh) | 基于红外视频的目标检测跟踪方法和装置 | |
CN107527054B (zh) | 基于多视角融合的前景自动提取方法 | |
US20210256707A1 (en) | Learning to Segment via Cut-and-Paste | |
CN105809716A (zh) | 融合超像素与三维自组织背景减除法的前景提取方法 | |
CN109657634A (zh) | 一种基于深度卷积神经网络的3d手势识别方法及系统 | |
CN108364302A (zh) | 一种无标记的增强现实多目标注册跟踪方法 | |
CN103324956B (zh) | 一种基于分布式视频检测的座位统计方法 | |
Tang et al. | Position-free hand gesture recognition using single shot multibox detector based neural network | |
CN110599587A (zh) | 一种基于单张图像的3d场景重构技术 | |
CN112967317B (zh) | 一种动态环境下基于卷积神经网络架构的视觉里程计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160831 Termination date: 20211029 |