CN103577793A - 手势识别方法及装置 - Google Patents

手势识别方法及装置 Download PDF

Info

Publication number
CN103577793A
CN103577793A CN201210264265.3A CN201210264265A CN103577793A CN 103577793 A CN103577793 A CN 103577793A CN 201210264265 A CN201210264265 A CN 201210264265A CN 103577793 A CN103577793 A CN 103577793A
Authority
CN
China
Prior art keywords
depth
pixel
node
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210264265.3A
Other languages
English (en)
Other versions
CN103577793B (zh
Inventor
罗圣美
王高浩
耿卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201210264265.3A priority Critical patent/CN103577793B/zh
Publication of CN103577793A publication Critical patent/CN103577793A/zh
Application granted granted Critical
Publication of CN103577793B publication Critical patent/CN103577793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种手势识别方法,捕捉常见的人体基本动作并存储为样本动作;根据所述样本动作得到最终的训练动作;对训练动作进行图形渲染生成初步的深度图及相应部位标识图;根据所生成的深度图合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量,通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。本发明同时公开了一种手势识别装置。

Description

手势识别方法及装置
技术领域
本发明涉及手势识别技术,尤其涉及一种手势识别方法及装置。
背景技术
基于视觉的体感交互技术近年来越来越多地受到研究人员的关注,特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来,更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究,大致可分为两个方面:一为近景动作交互,捕获区域和对象较小,集中在手部姿态,如SixthSense等;一为全身动作交互,动作的幅度也更大,需要更大的捕获区域和软硬件处理能力,但用户与虚拟空间的联系感更为强烈,如Kinect、Wii以及一些大型虚拟实境系统。
实时姿态估计技术是体感交互的关键技术之一,一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中,提取和估计人物的姿态。在具体交互语境中,系统就能够根据姿态结合上下文识别具体的动作语义。
传统的基于色彩光度图的姿态估计技术,容易受光照等多种环境因素的影响,很难同时达到对实时性能与精度的较高要求,并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息,这大大降低了姿态估计的难度。
微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别,该方法虽然能够准确的识别出手势动作,但计算量大、耗时久,不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时,微软的骨架聚合识别工具NITE中间件并未对外开源,在动作识别的开发上存在困难。
发明内容
有鉴于此,本发明的主要目的在于提供一种手势识别方法及装置,能快速、准确的识别出体感动作,适用于计算性能并不强大终端如电视机顶盒中。
为达到上述目的,本发明的技术方案是这样实现的:
一种手势识别方法,包括:
实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录骨架节点的时序序列形成骨架运动轨迹;
抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
优选地,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:
捕捉常见的人体基本动作并存储为样本动作;
对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;
对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;
利用合成样本计算对应深度特征向量,训练得到随机森林模型。
优选地,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为: f a ( I , x ) = d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ; 定义深度凹凸差异特征为: f b ( I , x ) = 2 * d I ( x ) - d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;
从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。
优选地,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
Figure BDA00001944045000032
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
优选地,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为: f c ( x ) ∝ Σ t = 1 N exp ( - | | x - x 1 b c | | ) ;
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,wi为像素权重,wt=P(c|I,xt).dI(xt)2
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
优选地,所述实时获取人体深度图片为:使用深度相机获取人体深度图片;
捕捉常见的人体基本动作时,还捕捉人体手部的动作。
一种手势识别装置,包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元,其中:
人像轮廓获取单元,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
部位标识概率确定单元,用于通过随机森林模型确定每个像素的部位标识概率;
骨架节点生成单元,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录单元,用于记录骨架节点的时序序列形成骨架运动轨迹;
识别单元,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
优选地,所述装置还包括:
训练单元,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;
优选地,所述训练单元利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为: f a ( I , x ) = d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
定义深度凹凸差异特征为: f b ( I , x ) = 2 * d I ( x ) - d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图从而获取对应像素的部位标识;
从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。
优选地,所述部位标识概率确定单元还用于:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
Figure BDA00001944045000053
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
优选地,所述骨架节点生成单元还用于:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
Figure BDA00001944045000061
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,wi为像素权重,wt=P(c|I,xi).dI(xt)2
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
本发明的技术方案利用深度相机,在无标识无需定标的情况下能准确识别出人体姿态,捕获姿态轨迹,然后通过模板匹配出手势动作。基于深度特征向量和时序模板匹配的手势识别方法,本发明能够快速、准确的识别出体感动作,适用于计算性能并不强大的终端中,如适用于IPTV电视机顶盒中。
附图说明
图1为本发明实施例的手势识别方法的流程图;
图2(a)为人体部位划分示意图;
图2(b)为合成深度示意图;
图2(c)为合成部位标识示意图;
图3为渲染深度图重采样、加噪后与真实采集的深度图对比示意图;
图4(a)为深度变化差异特征示意图(x为待识别的像素,图中“o”表示像素在u、v方向的位移示意);
图4(b)为深度凹凸差异特征示意图(x为待识别的像素,图中“o”表示像素在u、v方向的位移示意);
图5为部分测试集识别结果展示示意图;
图6为从深度图中提取轮廓示意图;
图7为随机森林示意图;
图8为实时部位识别结果示意图;
图9为时序优化的骨架生成算法与Mean Shift算法结果对比示意图;
图10为本发明实施例的手势识别装置的组成结构示意图。
具体实施方式
为使本发明的目的,技术方案和优点更加清楚明白,以下举实施例并参照附图,对本发明进一步详细说明。
图1为本发明实施例的手势识别方法的流程图,如图1所示,本示例的手势识别方法具体包括两部分处理流程,如图1中左侧所示,为离线训练基本动作的确定流程,其主要包括以下步骤:
1)使用动作捕捉设备捕获常见人体动作,尤其针对交互应用需求,添加了典型的手部动作;
2)确定一个适当阈值,对样本动作做关键帧聚类,剔除重复和相似的动作,得到最终的训练姿态;图2(a)示出了本示例的人体部位划分,其主要是依据人体运动学的特征对人体各部位进行了划分。图2(b)示出了本示例的最终的训练姿态。
3)配合不同体态、着装、性别、发型的人体模型,使用计算机图形渲染技术渲染生成初步的深度图及相应部位标识图;如图2(c)所示。
4)对3)中生成的深度图进行重采样、加噪等后处理,合成与实时采集的深度图尽量相似的样本;如图3所示。
5)利用合成数据计算对应深度特征向量,训练得到随机森林模型。
如图1中右侧所示,为在线的人体手势识别流程,具体包括以下步骤:
6)从深度相机端获取如图6所示的深度图片,使用简单的阈值分割前背景确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
7)从人像深度图基于随机森林模型,计算每个像素的深度特征,形成特征向量,再通过离线训练获得的随机森林模型确定每个像素的部位标识概率;
8)基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
9)在获得姿态骨架后,记录姿态骨架的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
其中,上述利用合成数据计算对应深度特征向量,训练得到随机森林模型,包括:
1a)定义两类深度特征,分别为:
深度变化差异特征fa(I,x): f a ( I , x ) = d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
如图4(a)所示,通过计算像素邻域内随机在两个方向位移的深度变化差异特征fa(I,x),体现部位的局部相对位置和边缘关系;
深度凹凸差异特征fb(I,x): f b ( I , x ) = 2 * d I ( x ) - d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
如图4(b)所示;其中u,v为该深度特征的随机参数,是指像素x在u,v方向位移;dt(x)为深度图I上的像素x的深度值;深度凹凸差异特征fb()在深度变化差异特征的基础上,考虑这两个位移像素间部位表面的凹凸性,取两者的深度均值与其连线中点的深度差异;
2a)对于单棵决策树,随机挑选训练数据库中的合成数据,并随机抽取每张图片中的若干像素作为训练样本,并读取对应标识图获取对应像素的部位标识;
3a)从根节点开始生成单棵随机决策树,对于当前分裂节点,按下述方式处理:
a)计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;
b)作终止条件判断:训练样本数量是否过少;深度是否大于最大指定深度;节点是否只存在一种类别。若上述判断项的结果均为是,则停止分裂;
c)若上述判断项的结果有至少一项不为是,则节点可分裂,寻找最优分裂:
4a)直至所有节点停止分裂,停止训练,最终生成如图7所示的随机森林。
上述从人像深度图基于识别模型,计算每个像素的深度特征,形成特征向量,再通过离线训练获得的随机森林模型确定每个像素的部位标识概率,包括:
1b)读入上述步骤6)轮廓提取后的人物深度图,如图6所示;
2b)对于图中的所有像素,若为背景像素,则标识类别为背景,对于所有非背景像素,计算深度特征向量;
3b)调用离线训练得到的随机森林识别模型,单棵决策树的终叶子节点给出类别c(I,x)概率分布Pt(c|I,x),则深度图I上的像素x的整个随机森林P(c|I,x)的最终预测结果为:
P ( c | I , x ) = 1 T Σ t = 1 T P t ( c | I , x ) ;
取其中概率最大类作为当前像素的类别:
C(I,x)=argmaxP(c|I,x);
其中,T为随机森林模型中单棵决策树的棵树。
4b)重复2b)直至遍历所有像素,最终输出如图8所示的部位识别图。
上述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:
1c)初始化搜索窗口为整个图像范围;
2c)对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
3c)定义每个部位的密度分布估计fc(x):
f c ( x ) ∝ Σ t = 1 N exp ( - | | x - x 1 b c | | )
其中,x是像素对应的三维空间位置,N指人物像素总数,x1是对应于深度值d将x重投影到三维空间的位置,bc指通过离线训练获得的每个部位的宽度,wi为像素权重,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,同时考虑像素的部位标识概率及其三维空间表面信息:
wt=P(c|I,xt).dI(xt)2
4c)对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;若丢失目标,则重新初始化搜索窗口为整个图像范围;
5c)对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
6c)在下一帧图像中,使用3c)获得的搜索窗口,重复2c)生成骨架节点。如图9所示。
本发明的手势识别方法利用深度相机,在无标识无需定标的情况下能准确识别出人体姿态,捕获姿态轨迹,然后通过模板匹配出手势动作。基于深度特征向量和时序模板匹配的手势识别方法,本发明能够快速、准确的识别出体感动作,适用于计算性能并不强大的终端中,如适用于IPTV电视机顶盒中。
图10为本发明实施例的手势识别装置的组成结构示意图,如图10所示,本发明实施例的手势识别装置包括人像轮廓获取单元1002、部位标识概率确定单元1003、骨架节点生成单元1004、记录单元1005和识别单元1006,其中:
人像轮廓获取单元1002,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
部位标识概率确定单元1003,用于基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
骨架节点生成单元1004,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录单元1005,用于记录骨架节点的时序序列形成骨架运动轨迹;
识别单元1006,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
在图10所示的手势识别装置的基础上,还包括有训练单元1001,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应对应像素的部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;其中,训练单元1001主要是通过采样人体的基本动作,进行相应的动作训练,确定出人体最基本的手势动作,以便在进行手势识别时,从训练手势工作中进行相关匹配,确定出待识别手势属于哪种手势。
本领域技术人员应当理解,上述训练单元1001是为优化本发明实施例的手势识别装置而设置的,并非是实现本发明实施例的手势识别装置的必需的技术手段。
上述训练单元1001利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为: f a ( I , x ) = d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
定义深度凹凸差异特征为: f b ( I , x ) = 2 * d I ( x ) - d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;上述函数中各字母及运算符的含义可参见前文,这里不再赘述。
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;
从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。
上述部位标识概率确定单元1003还用于:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
Figure BDA00001944045000121
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
上述骨架节点生成单元1004还用于:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
Figure BDA00001944045000122
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,wi为像素权重,wt=P(c|I,xt).dt(xt)2;上述函数中各字母及运算符的含义可参见前文,这里不再赘述。
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
本领域技术人员应当理解,图10中所示的手势识别装置中的各处理单元的实现功能可参照前述手势识别方法的相关描述而理解。本领域技术人员应当理解,图10所示的手势识别装置中各处理单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (11)

1.一种手势识别方法,其特征在于,所述方法包括:
实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录骨架节点的时序序列形成骨架运动轨迹;
抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
2.根据权利要求1所述的方法,其特征在于,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:
捕捉常见的人体基本动作并存储为样本动作;
对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;
对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;
利用合成样本计算对应深度特征向量,训练得到随机森林模型。
3.根据权利要求2所述的方法,其特征在于,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为: f a ( I , x ) = d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
定义深度凹凸差异特征为: f b ( I , x ) = 2 * d I ( x ) - d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;
从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。
4.根据权利要求1或2所述的方法,其特征在于,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为: P ( c | I , x ) = 1 T Σ t = 1 T P t ( c | I , t ) ;
取其中概率最大的类作为当前像素的类别:C(I,x)=arg max P(c|I,x)。
5.根据权利要求1或2所述的方法,其特征在于,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为: f c ( x ) ∝ Σ t = 1 N exp ( - | | x - x 1 b c | | ) ;
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,wi为像素权重,wi=P(c|I,xi),dI(xi)2
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
6.根据权利要求1所述的方法,其特征在于,所述实时获取人体深度图片为:使用深度相机获取人体深度图片;
捕捉常见的人体基本动作时,还捕捉人体手部的动作。
7.一种手势识别装置,其特征在于,所述装置包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元,其中:
人像轮廓获取单元,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
部位标识概率确定单元,用于通过随机森林模型确定每个像素的部位标识概率;
骨架节点生成单元,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录单元,用于记录骨架节点的时序序列形成骨架运动轨迹;
识别单元,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练单元,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型。
9.根据权利要求8所述的装置,其特征在于,所述训练单元利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为: f a ( I , x ) = d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
定义深度凹凸差异特征为: f b ( I , x ) = 2 * d I ( x ) - d I ( x + u d I ( x ) ) - d I ( x + v d I ( x ) ) ;
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图从而获取对应像素的部位标识;
从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。
10.根据权利要求7或8所述的装置,其特征在于,所述部位标识概率确定单元还用于:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为: P ( c | I , x ) = 1 T Σ t = 1 T P t ( c | I , t ) ;
取其中概率最大的类作为当前像素的类别:C(I,x)=arg max P(c|I,x)。
11.根据权利要求7或8所述的装置,其特征在于,所述骨架节点生成单元还用于:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为: f c ( x ) ∝ Σ t = 1 N exp ( - | | x - x 1 b c | | ) ;
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,wi为像素权重,wi=P(c|I,xi),dI(xi)2
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
CN201210264265.3A 2012-07-27 2012-07-27 手势识别方法及装置 Active CN103577793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210264265.3A CN103577793B (zh) 2012-07-27 2012-07-27 手势识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210264265.3A CN103577793B (zh) 2012-07-27 2012-07-27 手势识别方法及装置

Publications (2)

Publication Number Publication Date
CN103577793A true CN103577793A (zh) 2014-02-12
CN103577793B CN103577793B (zh) 2017-04-05

Family

ID=50049548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210264265.3A Active CN103577793B (zh) 2012-07-27 2012-07-27 手势识别方法及装置

Country Status (1)

Country Link
CN (1) CN103577793B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927016A (zh) * 2014-04-24 2014-07-16 西北工业大学 一种基于双目视觉的实时三维双手手势识别方法及其系统
CN104392210A (zh) * 2014-11-13 2015-03-04 海信集团有限公司 一种手势识别方法
CN104517100A (zh) * 2014-12-15 2015-04-15 中国科学院深圳先进技术研究院 手势预判方法和系统
CN104881640A (zh) * 2015-05-15 2015-09-02 华为技术有限公司 一种获取向量的方法及装置
CN105550667A (zh) * 2016-01-25 2016-05-04 同济大学 一种基于立体相机的骨架信息动作特征提取方法
CN105894533A (zh) * 2015-12-31 2016-08-24 乐视移动智能信息技术(北京)有限公司 基于智能设备实现体感控制的方法、系统以及智能设备
CN106250852A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 虚拟现实终端及手型识别方法和装置
CN106845513A (zh) * 2016-12-05 2017-06-13 华中师范大学 基于条件随机森林的人手检测器及方法
CN107077624A (zh) * 2014-09-23 2017-08-18 微软技术许可有限责任公司 跟踪手部/身体姿势
CN107203756A (zh) * 2016-06-06 2017-09-26 亮风台(上海)信息科技有限公司 一种识别手势的方法与设备
CN107301370A (zh) * 2017-05-08 2017-10-27 上海大学 一种基于Kinect三维骨架模型的肢体动作识别方法
CN107357426A (zh) * 2017-07-03 2017-11-17 南京江南博睿高新技术研究院有限公司 一种用于虚拟现实设备的体感控制方法
CN107704190A (zh) * 2017-11-06 2018-02-16 广东欧珀移动通信有限公司 手势识别方法、装置、终端及存储介质
CN107766842A (zh) * 2017-11-10 2018-03-06 济南大学 一种手势识别方法及其应用
CN108399367A (zh) * 2018-01-31 2018-08-14 深圳市阿西莫夫科技有限公司 手部动作识别方法、装置、计算机设备及可读存储介质
CN108475113A (zh) * 2015-12-31 2018-08-31 微软技术许可有限责任公司 使用姿态语言离散值的手部姿态的检测
CN108932053A (zh) * 2018-05-21 2018-12-04 腾讯科技(深圳)有限公司 基于手势的绘图方法、装置、存储介质和计算机设备
US10198083B2 (en) 2014-02-25 2019-02-05 Xi'an Zhongxing New Software Co. Ltd. Hand gesture recognition method, device, system, and computer storage medium
CN109375766A (zh) * 2018-09-13 2019-02-22 何艳玲 一种基于手势控制的新型学习方法
CN109858524A (zh) * 2019-01-04 2019-06-07 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质
CN110147737A (zh) * 2019-04-25 2019-08-20 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
CN110458235A (zh) * 2019-08-14 2019-11-15 广州大学 一种视频中运动姿势相似度比对方法
CN110516638A (zh) * 2019-08-30 2019-11-29 大连海事大学 一种基于轨迹和随机森林的手语识别方法
CN110705552A (zh) * 2019-10-11 2020-01-17 沈阳民航东北凯亚有限公司 行李托盘识别方法及装置
US10591999B2 (en) 2014-02-25 2020-03-17 Zte Corporation Hand gesture recognition method, device, system, and computer storage medium
CN111046825A (zh) * 2019-12-19 2020-04-21 杭州晨鹰军泰科技有限公司 人体姿态识别方法、装置、系统及计算机可读存储介质
CN111240486A (zh) * 2020-02-17 2020-06-05 河北冀联人力资源服务集团有限公司 一种基于边缘计算的数据处理方法及系统
CN111596767A (zh) * 2020-05-27 2020-08-28 广州市大湾区虚拟现实研究院 一种基于虚拟现实的姿态捕获方法和装置
CN111667005A (zh) * 2020-06-05 2020-09-15 镇江傲游网络科技有限公司 一种采用rgbd视觉传感的人体交互系统
WO2021022970A1 (zh) * 2019-08-05 2021-02-11 青岛理工大学 一种基于多层随机森林的零部件识别方法及系统
TWI738315B (zh) * 2020-05-04 2021-09-01 光時代科技有限公司 基於光標籤的自動追蹤拍攝系統

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084374A2 (en) * 2006-01-13 2007-07-26 Cytokinetics, Inc. Random forest modeling of cellular phenotypes
CN102122350A (zh) * 2011-02-24 2011-07-13 浙江工业大学 基于骨架化和模板匹配的交警手势识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084374A2 (en) * 2006-01-13 2007-07-26 Cytokinetics, Inc. Random forest modeling of cellular phenotypes
CN102122350A (zh) * 2011-02-24 2011-07-13 浙江工业大学 基于骨架化和模板匹配的交警手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHOTTON J: "Real-time Human Pose Recognition in Parts from Single Depth Images", 《IEEE PRESS》 *
曹雏清: "基于深度图像技术的手势识别方法", 《计算机工程》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10591999B2 (en) 2014-02-25 2020-03-17 Zte Corporation Hand gesture recognition method, device, system, and computer storage medium
US10198083B2 (en) 2014-02-25 2019-02-05 Xi'an Zhongxing New Software Co. Ltd. Hand gesture recognition method, device, system, and computer storage medium
CN103927016A (zh) * 2014-04-24 2014-07-16 西北工业大学 一种基于双目视觉的实时三维双手手势识别方法及其系统
CN103927016B (zh) * 2014-04-24 2017-01-11 西北工业大学 一种基于双目视觉的实时三维双手手势识别方法及其系统
CN107077624A (zh) * 2014-09-23 2017-08-18 微软技术许可有限责任公司 跟踪手部/身体姿势
CN104392210A (zh) * 2014-11-13 2015-03-04 海信集团有限公司 一种手势识别方法
CN104517100B (zh) * 2014-12-15 2017-09-29 中国科学院深圳先进技术研究院 手势预判方法和系统
CN104517100A (zh) * 2014-12-15 2015-04-15 中国科学院深圳先进技术研究院 手势预判方法和系统
CN104881640A (zh) * 2015-05-15 2015-09-02 华为技术有限公司 一种获取向量的方法及装置
CN104881640B (zh) * 2015-05-15 2018-06-15 华为技术有限公司 一种获取向量的方法及装置
US11410464B2 (en) 2015-12-31 2022-08-09 Microsoft Technology Licensing, Llc Detection of hand gestures using gesture language discrete values
CN108475113B (zh) * 2015-12-31 2021-04-27 微软技术许可有限责任公司 用于检测用户的手部姿态的方法、系统和介质
CN105894533A (zh) * 2015-12-31 2016-08-24 乐视移动智能信息技术(北京)有限公司 基于智能设备实现体感控制的方法、系统以及智能设备
CN108475113A (zh) * 2015-12-31 2018-08-31 微软技术许可有限责任公司 使用姿态语言离散值的手部姿态的检测
CN105550667B (zh) * 2016-01-25 2019-01-25 同济大学 一种基于立体相机的骨架信息动作特征提取方法
CN105550667A (zh) * 2016-01-25 2016-05-04 同济大学 一种基于立体相机的骨架信息动作特征提取方法
CN107203756B (zh) * 2016-06-06 2020-08-28 亮风台(上海)信息科技有限公司 一种识别手势的方法与设备
CN107203756A (zh) * 2016-06-06 2017-09-26 亮风台(上海)信息科技有限公司 一种识别手势的方法与设备
CN106250852A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 虚拟现实终端及手型识别方法和装置
CN106845513A (zh) * 2016-12-05 2017-06-13 华中师范大学 基于条件随机森林的人手检测器及方法
CN106845513B (zh) * 2016-12-05 2019-10-15 华中师范大学 基于条件随机森林的人手检测器及方法
CN107301370A (zh) * 2017-05-08 2017-10-27 上海大学 一种基于Kinect三维骨架模型的肢体动作识别方法
CN107357426A (zh) * 2017-07-03 2017-11-17 南京江南博睿高新技术研究院有限公司 一种用于虚拟现实设备的体感控制方法
CN107704190A (zh) * 2017-11-06 2018-02-16 广东欧珀移动通信有限公司 手势识别方法、装置、终端及存储介质
CN107704190B (zh) * 2017-11-06 2020-07-10 Oppo广东移动通信有限公司 手势识别方法、装置、终端及存储介质
CN107766842A (zh) * 2017-11-10 2018-03-06 济南大学 一种手势识别方法及其应用
CN107766842B (zh) * 2017-11-10 2020-07-28 济南大学 一种手势识别方法及其应用
CN108399367A (zh) * 2018-01-31 2018-08-14 深圳市阿西莫夫科技有限公司 手部动作识别方法、装置、计算机设备及可读存储介质
CN108399367B (zh) * 2018-01-31 2020-06-23 深圳市阿西莫夫科技有限公司 手部动作识别方法、装置、计算机设备及可读存储介质
CN108932053A (zh) * 2018-05-21 2018-12-04 腾讯科技(深圳)有限公司 基于手势的绘图方法、装置、存储介质和计算机设备
CN108932053B (zh) * 2018-05-21 2021-06-11 腾讯科技(深圳)有限公司 基于手势的绘图方法、装置、存储介质和计算机设备
CN109375766A (zh) * 2018-09-13 2019-02-22 何艳玲 一种基于手势控制的新型学习方法
CN109858524A (zh) * 2019-01-04 2019-06-07 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质
US11163373B2 (en) 2019-01-04 2021-11-02 Beijing Dajia Internet Information Technology Co., Ltd. Method and electronic device of gesture recognition
CN109858524B (zh) * 2019-01-04 2020-10-16 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质
CN110147737A (zh) * 2019-04-25 2019-08-20 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
WO2021022970A1 (zh) * 2019-08-05 2021-02-11 青岛理工大学 一种基于多层随机森林的零部件识别方法及系统
CN110458235A (zh) * 2019-08-14 2019-11-15 广州大学 一种视频中运动姿势相似度比对方法
CN110516638A (zh) * 2019-08-30 2019-11-29 大连海事大学 一种基于轨迹和随机森林的手语识别方法
CN110516638B (zh) * 2019-08-30 2022-09-27 大连海事大学 一种基于轨迹和随机森林的手语识别方法
CN110705552B (zh) * 2019-10-11 2022-05-06 沈阳民航东北凯亚有限公司 行李托盘识别方法及装置
CN110705552A (zh) * 2019-10-11 2020-01-17 沈阳民航东北凯亚有限公司 行李托盘识别方法及装置
CN111046825A (zh) * 2019-12-19 2020-04-21 杭州晨鹰军泰科技有限公司 人体姿态识别方法、装置、系统及计算机可读存储介质
CN111240486B (zh) * 2020-02-17 2021-07-02 河北冀联人力资源服务集团有限公司 一种基于边缘计算的数据处理方法及系统
CN111240486A (zh) * 2020-02-17 2020-06-05 河北冀联人力资源服务集团有限公司 一种基于边缘计算的数据处理方法及系统
TWI738315B (zh) * 2020-05-04 2021-09-01 光時代科技有限公司 基於光標籤的自動追蹤拍攝系統
CN111596767A (zh) * 2020-05-27 2020-08-28 广州市大湾区虚拟现实研究院 一种基于虚拟现实的姿态捕获方法和装置
CN111596767B (zh) * 2020-05-27 2023-05-30 广州市大湾区虚拟现实研究院 一种基于虚拟现实的姿态捕获方法和装置
CN111667005A (zh) * 2020-06-05 2020-09-15 镇江傲游网络科技有限公司 一种采用rgbd视觉传感的人体交互系统
CN111667005B (zh) * 2020-06-05 2023-09-12 镇江傲游网络科技有限公司 一种采用rgbd视觉传感的人体交互系统

Also Published As

Publication number Publication date
CN103577793B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
CN103577793A (zh) 手势识别方法及装置
Ge et al. 3d convolutional neural networks for efficient and robust hand pose estimation from single depth images
Keskin et al. Real time hand pose estimation using depth sensors
CN106407891B (zh) 基于卷积神经网络的目标匹配方法及装置
CN100407798C (zh) 三维几何建模系统和方法
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
CN104732203A (zh) 一种基于视频信息的情绪识别与跟踪方法
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
CN107024989A (zh) 一种基于Leap Motion手势识别的沙画制作方法
CN111027505B (zh) 一种基于显著性检测的分层多目标跟踪方法
CN103886287B (zh) 一种基于3d投影的跨视角步态识别方法
CN111080671B (zh) 一种基于深度神经网络的运动预测方法和智能终端
Haggag et al. An adaptable system for rgb-d based human body detection and pose estimation: Incorporating attached props
Neverova Deep learning for human motion analysis
JP2014013432A (ja) 特徴量抽出装置および特徴量抽出方法
CN104978583A (zh) 人物动作的识别方法及装置
An et al. RS-AUG: Improve 3D object detection on LiDAR with realistic simulator based data augmentation
US11361467B2 (en) Pose selection and animation of characters using video data and training techniques
CN116129016B (zh) 一种姿态运动的数字同步方法、装置、设备及存储介质
Zeng et al. Video‐driven state‐aware facial animation
Chuan et al. Human action recognition based on action forests model using kinect camera
CN115988262A (zh) 用于视频处理的方法、装置、设备和介质
CN110895684B (zh) 一种基于Kinect的手势动作识别方法
Wang et al. Research and implementation of the sports analysis system based on 3D image technology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant