CN104123007B - 一种多维加权的3d动态手势识别方法 - Google Patents

一种多维加权的3d动态手势识别方法 Download PDF

Info

Publication number
CN104123007B
CN104123007B CN201410366945.5A CN201410366945A CN104123007B CN 104123007 B CN104123007 B CN 104123007B CN 201410366945 A CN201410366945 A CN 201410366945A CN 104123007 B CN104123007 B CN 104123007B
Authority
CN
China
Prior art keywords
centerdot
gesture
articulare
coordinate
eigenvectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410366945.5A
Other languages
English (en)
Other versions
CN104123007A (zh
Inventor
康波
李云霞
孙琴
蔡会祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410366945.5A priority Critical patent/CN104123007B/zh
Publication of CN104123007A publication Critical patent/CN104123007A/zh
Application granted granted Critical
Publication of CN104123007B publication Critical patent/CN104123007B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种多维加权的3D动态手势识别方法,在训练阶段,首先对标准手势进行分割,获得标准手势的特征向量,然后进行坐标系转换、归一化处理、平滑处理、降采样以及差分处理,得到一个标准手势的特征向量集以及其中各关节点的权值和元素各维的权值,这样构建出标准手势样本库。在识别阶段,采用多维加权动态时间规整算法计算待识别手势的特征向量集分别与标准手势样本库中的各个标准手势的特征向量集c=1,2,…,C的动态规整距离,在计算代价矩阵C第(m,n)个元素s(m,n)时,考虑关节点的权值以及元素中各维的权值,去掉了对手势识别无贡献的关节点和坐标维数,有效去掉了关节抖动、人体误动作对手势识别造成的干扰,提高了算法的抗干扰能力,最终提高的手势识别的正确率和实时性。

Description

一种多维加权的3D动态手势识别方法
技术领域
本发明属于模式识别与智能系统、计算机视觉与人机交互技术领域,更为具体地讲,涉及一种多维加权的3D动态手势识别方法。
背景技术
人机交互领域经历过两次革命,第一次是1983年鼠标的出现,让人们从基于键盘的一维命令行进入到了基于鼠标的二维图形界面。第二次是触摸屏技术的产生,将显示和输入融为一体,使人们逐渐熟悉多点触控的交互方式。触摸屏技术的发展,也带动了其他新型交互方式和设备的探索和研究。
可以认为,人机交互方式的转变与科技进步和社会的发展是密切联系的。从传统遥控器、鼠标、键盘输入方式到现在的手写、触摸屏和语音输入方式,再到最新的体感输入方式,这些趋势告诉我们,由人适应计算机的工作方式已逐渐转变为以人为中心,让计算机去获得视觉感知的能力,从而“理解”用户的意图,做出正确的响应。
手势作为一种人类基本的交互手段,使用手势进行人机交互会更加自然、直观、友好、符合人类心理。目前,能识别手势的传感设备主要有:智能手环、智能手机、TOF摄像机、Kinect等。但现有的手势识别系统存在手势识别率不高的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种多维加权的3D动态手势识别方法,以提高手势识别的正确率和实时性。
为实现上述发明目的,本发明多维加权的3D动态手势识别方法,其特征在于,包括以下步骤:
(1)、训练阶段
1.1)、手势分割
从图像输入设备提供的连续人体动作视频(训练视频)中获取标准手势的关节点数据,并跟踪左右手、左右手腕、左右手肘这6个关节点的位置,当检测到手处于伸出状态即手的Z坐标值在跟踪的六个关节点的Z坐标值中最小时,并且手的移动速度在接下来的连续的若干帧图像中由0增加到某一阈值,认为手势开始;当该手部的移动速度在连续的若干帧图像中逐渐减小到某一阈值,则认为手势结束;
1.2)、获取手势特征向量
手势分割结束后,根据跟踪的6个关节点的连续坐标信息,就可以得到描述该标准手势的运动轨迹;
对于每一帧图像,6个关节点的位置信息:
f t c = { ( x 1 t , y 1 t , z 1 t ) , ( x 2 t , y 2 t , z 2 t ) , ( x 3 t , y 3 t , z 3 t ) , ( x 4 t , y 4 t , z 4 t ) , ( x 5 t , y 5 t , z 5 t ) , ( x 6 t , y 6 t , z 6 t ) }
其中,t为图像帧序号,为第t帧图像中第i个关节点的三维坐标,这些关节点分别为右手、右手腕、右手肘、左手腕、左手肘、左手;可以看成是一个包含6个元素的特征向量,而其中的每个元素是三维的,c表示这个特征向量所属的标准手势类别;
一个标准手势就是上述特征向量的集合,一个标准手势需要N帧的时间完成,则它对应的特征向量集为:N为标准手势持续的帧数;
1.3)、坐标系转换
以肩部中心这一关节点为基准,把每一帧获取的关节点的坐标系转换为以肩部中心为原点的用户坐标系:
肩部中心的坐标为(Cx,Cy,Cz),第t帧图像中关节点i的坐标为i∈[1,6]转换完之后的坐标为
x i ′ t = x i t - C x , ,
y i ′ t = y i t - C y ,
z i ′ t = z i t - C z ;
经过处理之后,关节点所参考的坐标系就变成了以肩部中心这个关节点为原点的用户坐标系;这样对应的特征向量具有平移不变性,不受手离图像输入设备的距离以及手势起始位置的影响;
1.4)、归一化处理
记特征向量集合Fc中,x,y,z三个坐标分量的最大值、最小值分别为XMax,XMin,YMax,YMin,ZMax,ZMin,对每一维坐标采用线性函数进行如下处理:
x ^ i t = ( x i ′ t - X Min ) / ( X Max - X Min ) ,
y ^ i t = ( y i ′ t - Y Min ) / ( Y Max - Y Min ) ,
z ^ i t = ( z i ′ t - Z Min ) / ( Z Max - Z Min ) ,
则: f ^ t c = { ( x ^ 1 t , y ^ 1 t , z ^ 1 t ) , ( x ^ 2 t , y ^ 2 t , z ^ 2 t ) , ( x ^ 3 t , y ^ 3 t , z ^ 3 t ) , ( x ^ 4 t , y ^ 4 t , z ^ 4 t ) , ( x ^ 5 t , y ^ 5 t , z ^ 5 t ) , ( x ^ 6 t , y ^ 6 t , z ^ 6 t ) } ;
第c类标准手势经过预处理之后的特征向量集为:
F ^ c = { f ^ 1 c , f ^ 2 c , f ^ 3 c , . . . , f ^ N c }
经过归一化之后的特征向量具有尺度不变性;
1.5)、对特征向量集进行平滑处理
考虑到本方法时间序列相邻帧变化缓慢的特点,最终选择移动平均滤波器对关节点的每一维数据进行平滑滤波;
移动平均滤波基于统计规律,将连续的图像帧看成一个长度固定为N的队列,然后对这个队列进行算术运算,并将其结果作为本次滤波的结果;
平滑处理的步骤为:
将特征向量集中,第一个关节点的第一维坐标按帧进行平滑滤波,滤波的窗口宽度为5,即:
x ‾ 1 1 = x ^ 1 1
x ‾ 1 2 = ( x ^ 1 1 + x ^ 1 2 + x ^ 1 3 ) / 3
x ‾ 1 3 = ( x ^ 1 1 + x ^ 1 2 + x ^ 1 3 + x ^ 1 4 + x ^ 1 5 ) / 5
x ‾ 1 4 = ( x ^ 1 2 + x ^ 1 3 + x ^ 1 4 + x ^ 1 5 + x ^ 1 6 ) / 5
x ‾ 1 5 = ( x ^ 1 3 + x ^ 1 4 + x ^ 1 5 + x ^ 1 6 + x ^ 1 7 ) / 5
x ‾ 1 N - 2 = ( x ^ 1 N - 4 + x ^ 1 N - 3 + x ^ 1 N - 2 + x ^ 1 N - 1 + x ^ 1 N ) / 5
x ‾ 1 N - 1 = ( x ^ 1 N - 2 + x ^ 1 N - 1 + x ^ 1 N ) / 3
x ‾ 1 N = x ^ 1 N
每一个关节点的每一维坐标都按上述方法进行平滑处理,经平滑处理之后,关节点的抖动被很好的处理了;
1.6)、降采样
为了降低手势特征向量集的元素数,对特征向量集进行二元采样,每隔一个元素提取一个元素,从而得到一个降采样特征向量集
1.7)、差分处理
对降采样之后的特征向量集的每一个特性向量的每一维进行一阶差分处理,用一阶差分的结果替换坐标值来描述手势随时间变化的位置特征趋势,差分如下:
x · i t = x ‾ i t + 1 - x ‾ i t
y · i t = y ‾ i t + 1 - y ‾ i t
z · i t = z ‾ i t + 1 - z ‾ i t
式中,分别表示经过前面七步处理之后的特征向量集第t帧的第i个关节点的x,y,z坐标,1<t<M,M=N/2-1,1<i<6;
第c类标准手势经过预处理之后的特征向量集为:
F &CenterDot; c = { f &CenterDot; 1 c , f &CenterDot; 2 c , f &CenterDot; 3 c , . . . , f &CenterDot; M c } ;
1.8)、计算特征向量集中各关节的权值
选择逻辑斯蒂函数来为每个关节点计算它在标准手势中的权值:
w i c = 2 1 + e - ( D i c - D max c ) / h , i &Element; [ 1,6 ] ;
其中,为关节点i的位移,Si()函数的作用是,在手势样本的特征向量集中,依次取相邻的两个分量,计算关节点i的累加位移:
D i c = &Sigma; t = 2 M S i ( f t c , f t - 1 c ) ,
S i ( f t c , f t - 1 c ) = ( x &CenterDot; i t - x &CenterDot; i t - 1 ) 2 + ( y &CenterDot; i t - y &CenterDot; i t - 1 ) 2 + ( z &CenterDot; i t - z &CenterDot; i t - 1 ) 2
为关节点位移i∈[1,6]中的最大值,h为单位距离,根据实际情况确定;
1.9)、计算特征向量集中元素各维的权值
选取特征向量集中权值最大的三个关节点α,β,γ各帧对应的三维坐标组成一个新的特征向量集:
T c = { { ( x &CenterDot; &alpha; 1 , y &CenterDot; &alpha; 1 , z &CenterDot; &alpha; 1 ) , ( x &CenterDot; &beta; 1 , y &CenterDot; &beta; 1 , z &CenterDot; &beta; 1 ) , ( x &CenterDot; &gamma; 1 , y &CenterDot; &gamma; 1 , z &CenterDot; &gamma; 1 ) } , . . . { ( x &CenterDot; &alpha; M , y &CenterDot; &alpha; M , z &CenterDot; &alpha; M ) , ( x &CenterDot; &beta; M , y &CenterDot; &beta; M , z &CenterDot; &beta; M ) , ( x &CenterDot; &gamma; M , y &CenterDot; &gamma; M , z &CenterDot; &gamma; M ) } } ;
分别计算特征向量集合Tc里每个关节点对应的x,y,z三维坐标的方差,其中,关节点α,β,γ的x维坐标的方差为:
D &alpha; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &alpha; t - X &OverBar; &alpha; ) 2
D &beta; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &beta; t - X &OverBar; &beta; ) 2
D &gamma; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &gamma; t - X &OverBar; &gamma; ) 2
表示关节点α,β,γ在第t帧坐标的x维数据,表示特征向量集合Tc中关节点α,β,γ各自对应的所有x维坐标的平均值;
均小于阈值时,表示在标准手势中x维坐标是次要的,权值为0;当中有大于阈值的情况时,表示在标准手势中x维坐标是主要的,权值为1;
对于y、z维坐标,采用同样的方法,得到其权值
1.10)、构建标准手势样本库
按照步骤1.1)~1.9)的方法,构造每个标准手势的特征向量集以及其中各关节点的权值、元素各维坐标的权值,生成标准手势样本库;
(2)、识别阶段
2.1)、采用步骤1.1)~1.7)的方法,从待识别视频中获取待识别手势的特征向量集
2.2)、采用多维加权动态时间规整(MDW-DTW)算法,计算出待识别手势的特征向量集分别与标准手势样本库中的各个标准手势的特征向量集c=1,2,…,C的动态规整距离(相似度),并进行比较,与待识别手势特征向量集的动态规整距离最短(相似度最高)的特征向量集对应的标准手势类别即为待识别手势的类别,C标准手势类别总数;
其中,多维加权动态时间规整算法中,代价矩阵C第(m,n)个元素s(m,n)的计算公式为:
s ( m , n ) = &Sigma; i = 1 6 &Sigma; j = 1 3 ( ( f &CenterDot; m test ( i , j ) - f &CenterDot; n c ( i , j ) ) &times; w i c &times; w ^ j c ) 2 ;
为待识别手势特征向量集中第m帧图像中第i个关节点对应坐标的第j维坐标,为标准手势样本库中标准手势c的特征向量集中第n帧图像中第i个关节点对应坐标的第j维坐标,j=1,2,3分别代表x,y,z;
其中,动态规整距离为:
DTW ( F &CenterDot; test , F &CenterDot; c ) = min { &Sigma; k = 1 L s ( m k , n k ) } ;
其中,L为规整路径的长度,(mk,nk)为代价矩阵C中规整路径上的第k个元素坐标,分别代表待识别手势特征向量集中第mk帧,标准手势样本库中标准手势c的特征向量集中第nk帧。
本发明的发明目的是这样实现的:
本发明多维加权的3D动态手势识别方法,在训练阶段,首先对标准手势进行分割,根据左右手、左右手腕、左右手肘的运动轨迹得到标准手势的特征向量,然后进行坐标系转换、归一化处理、平滑处理、降采样以及差分处理,得到一个标准手势的特征向量集,最后计算出其中各关节点的权值和元素各维的权值,这样构建出标准手势样本库;在识别阶段,对待识别手势采样同样的方法,获得其特征向量集,然后采用多维加权动态时间规整(MDW-DTW)算法计算出待识别手势的特征向量集分别与标准手势样本库中的各个标准手势的特征向量集c=1,2,…,C的动态规整距离,最短的动态规整距离对应的标准手势类别即为待识别手势的类别。由于对描述手势的特征向量集进行了上述预处理,使得该特征向量集能够更好的为每类标准手势进行建模。首先,以肩部中心为坐标原点使得手势识别时不受人体相对图像输入设备的空间位置的影响,提高了手势操作的灵活性。其次,用一阶差分结果代替三维坐标值,用手势随时间变化的空间位置趋势来表达手势,使其更为准确的反应出手势的本质特征,提高手势识别的泛化能力和鲁棒性,对不同体型的人做出的手势都有较好的识别效果。同时,在计算待识别手势与标准手势的动态规整距离时,采用多维加权动态时间规整算法进行计算,在计算代价矩阵C第(m,n)个元素s(m,n)时,考虑关节点的权值以及坐标元素中各维的权值,去掉了对手势识别无贡献的关节点和坐标维数,有效的去掉了关节抖动、人体误动作对手势识别造成的干扰,提高了算法的抗干扰能力,并且减少了计算量,同时在计算代价矩阵时,将每一帧图像中六个关节点的位置信息组成的特征向量看做一个单元进行规整计算,降低了算法的时间复杂度,提高了运算的效率,从而提高算法的实时性。最终提高了手势识别的正确率和实时性。
附图说明
图1是本发明多维加权的3D动态手势识别方法一种具体实施方式流程图;
图2是图1所示手势分割一种具体实施方式流程图;
图3是平滑处理前后的三维坐标曲线图;
图4是降采样前后的三维坐标曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
在本实施例中,如图1所示,首先进行手势分割,如图2所示,从图像输入设备提供的连续人体动作视频(训练视频)中获取标准手势的关节点数据;
跟踪左右手、左右手腕、左右手肘这6个关节点的位置,检测手是否处于伸出状态即手的Z坐标在跟踪的六个关节点的Z坐标中是否最小,如果不是伸出状态,则返回继续获取标准手势的关节点数据。
计算左右手的移动速度,在接下来的连续的若干帧图像中左或右手由0增加到某一阈值,认为手势开始,记录关节点位置,然后,逐帧记录该手部的移动速度在连续的若干帧图像中逐渐减小到某一阈值,则认为手势结束。
手势分割结束后,根据跟踪的右手、右手腕、右手肘、左手腕、左手肘、左手6个关节点的连续坐标信息,就可以得到描述该标准手势的运动轨迹即特征向量集为: F c = { f 1 c , f 2 c , f 3 c , . . . , f N c } .
特征向量集Fc以肩部中心这个关节点为原点进行坐标系转换,这样对应的特征向量具有平移不变性,不受手离图像输入设备的距离以及手势起始位置的影响。
然后进行归一化处理和平滑处理,关节点的抖动被很好地处理。如图3所示,三条曲线分别对应一个关节点的三维坐标即关节点相对于肩部的坐标相对时间(帧)的位置变化情况。从图3可以看出,经过平滑后关节点的抖动被很好地处理了。
平滑处理后,还需要进行降采样处理。由于关节点数据的采样频率为30fps,所以相邻帧间的关节点位置变化不大,为了降低手势特征向量集的元素数,在本发明中,对特征向量集进行二元采样,每隔一个元素提取一个元素,从而得到一个降采样特征向量集
对降采样之后的特征向量集的每一个特性向量的每一维进行一阶差分处理,用一阶差分的结果替换坐标值来描述手势随时间变化的位置特征趋势,得到特征向量集
在本发明中,为了进一步提高识别的准确性,还需要计算出特征向量集中各关节的权值以及元素各维的权值。
首先计算各关节点的权值。本发明选择了逻辑斯蒂函数来为关节点自动计算它在每一类标准手势中的权值。逻辑斯蒂函数是一个对称的函数,它的标准形式如下:
f ( x ) = 1 1 + e - x
对于本发明的手势识别来说,某个关节点i对标准手势c的贡献(或权值)由它在该标准手势中的运动位移的数值大小所决定。
以运动位移的数值最大的关节点为参考点,它的权值设为wmax/2,当某个关节点的运动位移的数值大小与最大位移的差值较大时,说明此关节点对标准手势的贡献很小,应该赋予较低的权值。因此,本发明的权值计算公式可由修改后的逻辑斯蒂函数表示:
w i c = w max 1 + e - ( D i c - D max c ) / h , i &Element; [ 1,6 ]
其中,wmax是要设置的权值上限,是标准手势c中关节点的最大运动位移的数值,h为单位距离,根据实际情况确定。从式中可以看出,当某个关节点贡献较低时,对应的权值就越小,反之,对应的权值就越大。
首先计算此关节点在整个手势中所移动的位移,也即关节点的活跃程度:
D i c = &Sigma; t = 2 M S i ( f t c , f t - 1 c )
S i ( f t c , f t - 1 c ) = ( x &CenterDot; i t - x &CenterDot; i t - 1 ) 2 + ( y &CenterDot; i t - y &CenterDot; i t - 1 ) 2 + ( z &CenterDot; i t - z &CenterDot; i t - 1 ) 2
令wmax=2计算出某个关节点在标准手势c中的位移之后,关节点在该标准手势中的权重为:
w i c = 2 1 + e - ( D i c - D max c ) / h , i &Element; [ 1,6 ]
的权值范围为[0,1]。可以看出,对于不同的手势,每个关节点的权重可能是不一样的。通过计算每个关节点在每类手势样本中的权重,可以降低一些不重要的关节点对整个DTW距离的贡献,同时也提高了那些关键关节点的重要性,从而提高算法的抗干扰能力。
然后计算各维数据的权值。通过对标准手势的特征向量集进行计算和统计,确定标准手势中哪些维数的数据是主要的,哪些维数的数据是次要的,从而得到每个维数的权值。
前面已经计算出在一个标准样本c中各关节点的权值,选取权值最大的三个关节点α,β,γ对应的特征向量组成一个新的特征向量集:
T c = { { ( x &CenterDot; &alpha; 1 , y &CenterDot; &alpha; 1 , z &CenterDot; &alpha; 1 ) , ( x &CenterDot; &beta; 1 , y &CenterDot; &beta; 1 , z &CenterDot; &beta; 1 ) , ( x &CenterDot; &gamma; 1 , y &CenterDot; &gamma; 1 , z &CenterDot; &gamma; 1 ) } , . . . { ( x &CenterDot; &alpha; M , y &CenterDot; &alpha; M , z &CenterDot; &alpha; M ) , ( x &CenterDot; &beta; M , y &CenterDot; &beta; M , z &CenterDot; &beta; M ) , ( x &CenterDot; &gamma; M , y &CenterDot; &gamma; M , z &CenterDot; &gamma; M ) } } .
分别计算特征向量集Tc里每个关节点对应x,y,z三维数据的方差,如果所有关节点的某一维方差低于某个设定的阈值,在非线性规整时,该维数据就不应该被考虑进去。因为这些维数包含的数据很有可能是噪声。在本发明中,方差阈值是凭经验确定的,在本实施例中值为0.1,以标准样本c的x维坐标方差为例,先计算α,β,γ三个关节点对应的x维坐标的方差公式如下:
D &alpha; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &alpha; t - X &OverBar; &alpha; ) 2
D &beta; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &beta; t - X &OverBar; &beta; ) 2
D &gamma; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &gamma; t - X &OverBar; &gamma; ) 2
表示关节点α,β,γ在第t帧坐标的x维数据,表示特征向量集合Tc中关节点α,β,γ各自对应的所有x维坐标的平均值。
均小于阈值时,表示在标准手势中x维坐标是次要的,权值为0;当中有大于阈值的情况时,表示在标准手势中x维坐标是主要的,权值为1。
构造每个标准手势的特征向量集以及其中各关节点的权值、元素各维的权值,构成标准手势样本库。
从待识别视频中获取待识别手势的特征向量集采用多维加权动态时间规整(MDW-DTW)算法,计算出待识别手势的特征向量集分别与标准手势样本库中的各个标准手势的特征向量集c=1,2,…,C动态规整距离(相似度),并进行比较,与待识别手势特征向量集动态规整距离最短(相似度最高)的特征向量集对应的标准手势类别即为待识别手势的类别,C标准手势类别总数。
为了把权重引入到动态时间规整路径计算中,本发明采用的多维加权动态时间规整算法对代价矩阵C第(m,n)个元素s(m,n)的计算公式进行了修改,加入了关节点权值和坐标维数的权值的计算,并且在进行规整计算时,将每一帧图像中六个关节点的位置信息组成的特征向量看做一个单元进行计算,其他的与动态时间规整算法相同,动态时间规整算法属于现有技术,在此不再赘述。
选取不同的标准手势,即标准手势类别c选取为不同值时,得到一系列的动态规整距离 { DTW ( F &CenterDot; test , F &CenterDot; 1 ) , DTW ( F &CenterDot; test , F &CenterDot; 2 ) , . . . . . . . , DTW ( F &CenterDot; test , F &CenterDot; C ) } , 与待识别手势特征向量集动态规整距离最短(相似度最高)的特征向量集对应的标准手势类别即为待识别手势的类别。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种多维加权的3D动态手势识别方法,其特征在于,包括以下步骤:
(1)、训练阶段
1.1)、手势分割
从图像输入设备提供的连续人体动作视频中获取标准手势的关节点数据,并跟踪左右手、左右手腕、左右手肘这6个关节点的位置,当检测到手处于伸出状态即手的Z坐标值在跟踪的六个关节点的Z坐标值中最小时,并且手的移动速度在接下来的连续的若干帧图像中由0增加到某一阈值,认为手势开始;当该手部的移动速度在连续的若干帧图像中逐渐减小到某一阈值,则认为手势结束;
1.2)、获取手势特征向量
手势分割结束后,根据跟踪的6个关节点的连续坐标信息,得到描述该标准手势的运动轨迹;
对于每一帧图像,6个关节点的位置信息:
f t c = { ( x 1 t , y 1 t , z 1 t ) , ( x 2 t , y 2 t , z 2 t ) , ( x 3 t , y 3 t , z 3 t ) , ( x 4 t , y 4 t , z 4 t ) , ( x 5 t , y 5 t , z 5 t ) , ( x 6 t , y 6 t , z 6 t ) }
其中,t为图像帧序号,为第t帧图像中第i个关节点的三维坐标,这些关节点分别为右手、右手腕、右手肘、左手腕、左手肘、左手;看成是一个包含6个元素的特征向量,而其中的每个元素是三维的,c表示这个特征向量所属的标准手势类别;
一个标准手势就是上述特征向量的集合,一个标准手势需要N帧的时间完成,则它对应的特征向量集为:N为标准手势持续的帧数;
1.3)、坐标系转换
以肩部中心这一关节点为基准,把每一帧获取的关节点的坐标系转换为以肩部中心为原点的用户坐标系:
肩部中心的坐标为(Cx,Cy,Cz),第t帧图像中关节点i的坐标为i∈[1,6]转换完之后的坐标为
x i &prime; t = x i t - C x , ,
y i &prime; t = y i t - C y ,
z i &prime; t = z i t - C z ;
经过处理之后,关节点所参考的坐标系就变成了以肩部中心这个关节点为原点的用户坐标系;这样对应的特征向量具有平移不变性,不受手离图像输入设备的距离以及手势起始位置的影响;
1.4)、归一化处理
记特征向量集合Fc中,x,y,z三个坐标分量的最大值、最小值分别为XMax,XMin,YMax,YMin,ZMax,ZMin,对每一维坐标采用线性函数进行如下处理:
x ^ i t = ( x i &prime; t - X M i n ) / ( X M a x - X M i n ) ,
y ^ i t = ( y i &prime; t - Y M i n ) / ( Y M a x - Y M i n ) ,
z ^ i t = ( z i &prime; t - Z M i n ) / ( Z M a x - Z M i n ) ,
则:
第c类标准手势经过预处理之后的特征向量集为:
F ^ c = { f ^ 1 c , f ^ 2 c , f ^ 3 c , ... , f ^ N c }
经过归一化之后的特征向量具有尺度不变性;
1.5)、对特征向量集进行平滑处理
考虑到本方法时间序列相邻帧变化缓慢的特点,最终选择移动平均滤波器对关节点的每一维数据进行平滑滤波;
移动平均滤波基于统计规律,将连续的图像帧看成一个长度固定为N的队列,然后对这个队列进行算术运算,并将其结果作为本次滤波的结果;
平滑处理的步骤为:
将特征向量集中,第一个关节点的第一维坐标按帧进行平滑滤波,滤波的窗口宽度为5,即:
x &OverBar; 1 1 = x ^ 1 1 x &OverBar; 1 2 = ( x ^ 1 1 + x ^ 1 2 + x ^ 1 3 ) / 3 x &OverBar; 1 3 = ( x ^ 1 1 + x ^ 1 2 + x ^ 1 3 + x ^ 1 4 + x ^ 1 5 ) / 5 x &OverBar; 1 4 = ( x ^ 1 2 + x ^ 1 3 + x ^ 1 4 + x ^ 1 5 + x ^ 1 6 ) / 5 x &OverBar; 1 4 = ( x ^ 1 3 + x ^ 1 4 + x ^ 1 5 + x ^ 1 6 + x ^ 1 7 ) / 5 ... ... x &OverBar; 1 N - 2 = ( x ^ 1 N - 4 + x ^ 1 N - 3 + x ^ 1 N - 2 + x ^ 1 N - 1 + x ^ 1 N ) / 5 x &OverBar; 1 N - 1 = ( x ^ 1 N - 2 + x ^ 1 N - 1 + x ^ 1 N ) / 3 x &OverBar; 1 N = x ^ 1 N
每一个关节点的每一维坐标都按上述方法进行平滑处理,经平滑处理之后,关节点的抖动被很好的处理了;
1.6)、降采样
为了降低手势特征向量集的元素数,对特征向量集进行二元采样,每隔一个元素提取一个元素,从而得到一个降采样特征向量集
1.7)、差分处理
对降采样之后的特征向量集的每一个特性向量的每一维进行一阶差分处理,用一阶差分的结果替换坐标值来描述手势随时间变化的位置特征趋势,差分如下:
x &CenterDot; i t = x &OverBar; i t + 1 - x &OverBar; i t
y &CenterDot; i t = y &OverBar; i t + 1 - y &OverBar; i t
z &CenterDot; i t = z &OverBar; i t + 1 - z &OverBar; i t
式中,分别表示经过前面七步处理之后的特征向量集第t帧的第i个关节点的x,y,z坐标;
第c类标准手势经过预处理之后的特征向量集为:
F &CenterDot; c = { f &CenterDot; 1 c , f &CenterDot; 2 c , f &CenterDot; 3 c , ... , f &CenterDot; M c } ;
1.8)、计算特征向量集中各关节的权值
选择逻辑斯蒂函数来为每个关节点计算它在标准手势中的权值:
w i c = 2 1 + e - ( D i c - D m a x c ) / h , i &Element; &lsqb; 1 , 6 &rsqb; ;
其中,为关节点i的位移:
D i c = &Sigma; t = 2 M S i ( f t c , f t - 1 c ) S i ( f t c , f t - 1 c ) = ( x &CenterDot; i t - x &CenterDot; i t - 1 ) 2 + ( y &CenterDot; i t - y &CenterDot; i t - 1 ) 2 + ( z &CenterDot; i t - z &CenterDot; i t - 1 ) 2 ,
为关节点位移i∈[1,6]中的最大值,h为单位距离,根据实际情况确定;
1.9)、计算特征向量集中元素各维的权值
选取特征向量集中权值最大的三个关节点α,β,γ各帧对应的三维坐标组成一个新的特征向量集:
T c = { { ( x &CenterDot; &alpha; 1 , y &CenterDot; &alpha; 1 , z &CenterDot; &alpha; 1 ) , ( x &CenterDot; &beta; 1 , y &CenterDot; &beta; 1 , z &beta; 1 ) , ( x &CenterDot; &gamma; 1 , y &CenterDot; &gamma; 1 , z &CenterDot; &gamma; 1 ) } , ... { ( x &CenterDot; &alpha; M , y &CenterDot; &alpha; M , z &CenterDot; &alpha; M ) , ( x &CenterDot; &beta; M , y &CenterDot; &beta; M , z &CenterDot; &beta; M ) , ( x &CenterDot; &gamma; M , y &CenterDot; &gamma; M , z &CenterDot; &gamma; M ) } } ;
分别计算特征向量集合Tc里每个关节点对应的x,y,z三维坐标的方差,其中,关节点α,β,γ的x维坐标的方差为:
D &alpha; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &alpha; t - X &OverBar; &alpha; ) 2
D &beta; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &beta; t - X &OverBar; &beta; ) 2
D &gamma; c ( x ) = 1 M &Sigma; t = 1 M ( x &CenterDot; &gamma; t - X &OverBar; &gamma; ) 2
表示关节点α,β,γ在第t帧坐标的x维数据,表示特征向量集合Tc中关节点α,β,γ各自对应的所有x维坐标的平均值;
均小于阈值时,表示在标准手势中x维坐标是次要的,权值为0;当中有大于阈值的情况时,表示在标准手势中x维坐标是主要的,权值为1;
对于y、z维坐标,采用同样的方法,得到其权值
1.10)、构建标准手势样本库
按照步骤1.1)~1.9)的方法,构造每个标准手势的特征向量集以及其中各关节点的权值、元素各维坐标的权值,生成标准手势样本库;
(2)、识别阶段
2.1)、采用步骤1.1)~1.7)的方法,从待识别视频中获取待识别手势的特征向量集
2.2)、采用多维加权动态时间规整(MDW-DTW)算法,计算出待识别手势的特征向量集分别与标准手势样本库中的各个标准手势的特征向量集c=1,2,…,C的动态规整距离(相似度),并进行比较,与待识别手势的特征向量集合动态规整距离最短(相似度最高)的特征向量集对应的标准手势类别即为待识别手势的类别,C标准手势类别总数;
其中,多维加权动态时间规整算法中,代价矩阵C第(m,n)个元素s(m,n)的计算公式为:
s ( m , n ) = &Sigma; i = 1 6 &Sigma; j = 1 3 ( ( f &CenterDot; m t e s t ( i , j ) - f &CenterDot; n c ( i , j ) ) &times; w i c &times; w ^ j c ) 2 ;
为待识别手势特征向量集中第m帧图像中第i个关节点对应坐标的第j维坐标,为标准手势样本库中标准手势c的特征向量集中第n帧图像中第i个关节点对应坐标的第j维坐标,j=1,2,3分别代表x,y,z;
其中,动态规整距离为:
D T W ( F &CenterDot; t e s t , F &CenterDot; c ) = m i n { &Sigma; k = 1 L s ( m k , n k ) } ;
其中,L为规整路径的长度,﹙mk,nk﹚为代价矩阵C中规整路径上的第k个元素坐标,分别代表待识别手势特征向量集中第mk帧,标准手势样本库中标准手势c的特征向量集中第nk帧。
2.根据权利要求1所述的多维加权的3D动态手势识别方法,其特征在于,步骤1.9所述的阈值为0.1。
CN201410366945.5A 2014-07-29 2014-07-29 一种多维加权的3d动态手势识别方法 Expired - Fee Related CN104123007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410366945.5A CN104123007B (zh) 2014-07-29 2014-07-29 一种多维加权的3d动态手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410366945.5A CN104123007B (zh) 2014-07-29 2014-07-29 一种多维加权的3d动态手势识别方法

Publications (2)

Publication Number Publication Date
CN104123007A CN104123007A (zh) 2014-10-29
CN104123007B true CN104123007B (zh) 2017-01-11

Family

ID=51768444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410366945.5A Expired - Fee Related CN104123007B (zh) 2014-07-29 2014-07-29 一种多维加权的3d动态手势识别方法

Country Status (1)

Country Link
CN (1) CN104123007B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503651A (zh) * 2016-10-21 2017-03-15 上海未来伙伴机器人有限公司 一种手势图像的提取方法及系统

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104777775A (zh) * 2015-03-25 2015-07-15 北京工业大学 一种基于Kinect装置的两轮自平衡机器人控制方法
CN106326811B (zh) * 2015-06-26 2019-05-31 浙江大学 一种基于分割信度的运动轨迹分割方法
CN111314299B (zh) * 2015-08-19 2022-09-20 创新先进技术有限公司 身份验证方法、装置及系统
CN105243352A (zh) * 2015-09-07 2016-01-13 苏州大学张家港工业技术研究院 一种3d运动识别的方法及装置
CN105320937B (zh) * 2015-09-25 2018-08-14 北京理工大学 基于Kinect的交警手势识别方法
CN105807935B (zh) * 2016-04-01 2019-01-11 中国科学技术大学苏州研究院 一种基于WiFi的手势控制人机交互系统
CN106354252B (zh) * 2016-08-18 2019-01-25 电子科技大学 一种基于stdw的连续字符手势轨迹识别方法
CN107169411B (zh) * 2017-04-07 2019-10-29 南京邮电大学 一种基于关键帧和边界约束dtw的实时动态手势识别方法
CN107145236B (zh) * 2017-05-12 2020-02-07 中国科学技术大学 一种基于腕部肌腱压力相关特性的手势识别方法及系统
CN107424207A (zh) * 2017-07-10 2017-12-01 北京航空航天大学 一种基于数据融合的虚拟维修仿真方法及装置
CN107292295B (zh) * 2017-08-03 2019-12-24 华中师范大学 手势分割方法及装置
CN109670380B (zh) * 2017-10-13 2022-12-27 华为技术有限公司 动作识别、姿势估计的方法及装置
CN107918488B (zh) * 2017-10-27 2020-08-11 杭州电子科技大学 一种基于特征选择的各向同性三维手势识别方法
CN108171133B (zh) * 2017-12-20 2020-08-18 华南理工大学 一种基于特征协方差矩阵的动态手势识别方法
CN107967061A (zh) * 2017-12-21 2018-04-27 北京华捷艾米科技有限公司 人机交互方法及装置
CN108416974B (zh) * 2018-01-23 2020-07-07 中国矿业大学 基于无线信道状态信息的自动报警装置及方法
CN110321754B (zh) * 2018-03-28 2024-04-19 西安铭宇信息科技有限公司 一种基于计算机视觉的人体运动姿态纠正方法及系统
CN110858409A (zh) * 2018-08-24 2020-03-03 北京微播视界科技有限公司 动画生成方法和装置
CN110125932B (zh) * 2019-05-06 2024-03-19 达闼科技(北京)有限公司 一种机器人的对话交互方法、机器人及可读存储介质
CN110163130B (zh) * 2019-05-08 2021-05-28 清华大学 一种用于手势识别的特征预对齐的随机森林分类系统及方法
CN110765967B (zh) * 2019-10-30 2022-04-22 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN110827226B (zh) * 2019-11-13 2022-09-27 北京迈格威科技有限公司 骨骼点的平滑方法、装置和电子设备
CN111240485A (zh) * 2020-01-14 2020-06-05 浙江大学宁波理工学院 基于Kinect骨骼信息的篮球裁判手势识别的方法
CN113031464B (zh) * 2021-03-22 2022-11-22 北京市商汤科技开发有限公司 设备控制方法、装置、电子设备及存储介质
CN113192352B (zh) * 2021-06-03 2023-07-14 山东交通学院 一种接收交管人员指令的自动驾驶方法及系统
CN115700812A (zh) * 2021-07-23 2023-02-07 上海宝信软件股份有限公司 适用再生钢铁自动判级的移取装置识别系统、方法及介质
CN113655889B (zh) * 2021-09-01 2023-08-08 北京字跳网络技术有限公司 一种虚拟角色控制方法、装置以及计算机存储介质
CN115576431B (zh) * 2022-11-18 2023-02-28 北京蔚领时代科技有限公司 一种vr手势编码、识别方法与装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763515A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 一种基于计算机视觉的实时手势交互方法
CN102122350A (zh) * 2011-02-24 2011-07-13 浙江工业大学 基于骨架化和模板匹配的交警手势识别方法
CN102368290A (zh) * 2011-09-02 2012-03-07 华南理工大学 一种基于手指高级特征的手势识别方法
CN102663452A (zh) * 2012-04-14 2012-09-12 中国人民解放军国防科学技术大学 基于视频分析的可疑行为检测方法
CN102789568A (zh) * 2012-07-13 2012-11-21 浙江捷尚视觉科技有限公司 一种基于深度信息的手势识别方法
CN103390168A (zh) * 2013-07-18 2013-11-13 重庆邮电大学 基于Kinect深度信息的智能轮椅动态手势识别方法
CN104115192A (zh) * 2012-06-25 2014-10-22 索夫特克尼特科软件公司 三维近距离交互的改进或与其有关的改进

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681031B2 (en) * 1998-08-10 2004-01-20 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763515A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 一种基于计算机视觉的实时手势交互方法
CN102122350A (zh) * 2011-02-24 2011-07-13 浙江工业大学 基于骨架化和模板匹配的交警手势识别方法
CN102368290A (zh) * 2011-09-02 2012-03-07 华南理工大学 一种基于手指高级特征的手势识别方法
CN102663452A (zh) * 2012-04-14 2012-09-12 中国人民解放军国防科学技术大学 基于视频分析的可疑行为检测方法
CN104115192A (zh) * 2012-06-25 2014-10-22 索夫特克尼特科软件公司 三维近距离交互的改进或与其有关的改进
CN102789568A (zh) * 2012-07-13 2012-11-21 浙江捷尚视觉科技有限公司 一种基于深度信息的手势识别方法
CN103390168A (zh) * 2013-07-18 2013-11-13 重庆邮电大学 基于Kinect深度信息的智能轮椅动态手势识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
手势识别研究综述;冯志全,蒋彦;《济南大学学报(自然科学版)》;20130930;第27卷(第4期);第336-341页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503651A (zh) * 2016-10-21 2017-03-15 上海未来伙伴机器人有限公司 一种手势图像的提取方法及系统
CN106503651B (zh) * 2016-10-21 2019-09-24 上海未来伙伴机器人有限公司 一种手势图像的提取方法及系统

Also Published As

Publication number Publication date
CN104123007A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN104123007B (zh) 一种多维加权的3d动态手势识别方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN103593680B (zh) 一种基于隐马尔科夫模型自增量学习的动态手势识别方法
Garg et al. Vision based hand gesture recognition
Ma et al. Kinect Sensor‐Based Long‐Distance Hand Gesture Recognition and Fingertip Detection with Depth Information
Xin et al. Arch: Adaptive recurrent-convolutional hybrid networks for long-term action recognition
CN104808788B (zh) 一种非接触式手势操控用户界面的方法
CN103984416A (zh) 一种基于加速度传感器的手势识别方法
CN102981742A (zh) 基于计算机视觉的手势交互系统
CN111291713B (zh) 一种基于骨架的手势识别方法及系统
Zhang et al. Handsense: smart multimodal hand gesture recognition based on deep neural networks
Juan Gesture recognition and information recommendation based on machine learning and virtual reality in distance education
Mahbub et al. Advances in human action, activity and gesture recognition
Hoang et al. Continuous hand gesture spotting and classification using 3D finger joints information
CN110472507A (zh) 基于深度残差网络的人手深度图像位姿估计方法及系统
Wang et al. Labanotation generation from motion capture data for protection of folk dance
CN113743247A (zh) 基于Reders模型的手势识别方法
Miah et al. Skeleton-based hand gesture recognition using geometric features and spatio-temporal deep learning approach
Niranjani et al. System application control based on Hand gesture using Deep learning
CN105929944B (zh) 一种三维人机交互方法
Chu et al. Multi-modal fusion sign language recognition based on residual network and attention mechanism
CN103425987B (zh) 基于双混合唇形特征提取的智能轮椅人机交互方法
CN115187660A (zh) 一种基于知识蒸馏的多人人体姿态估计方法及系统
Cheng et al. Lightweight hybrid model based on MobileNet-v2 and Vision Transformer for human–robot interaction
Dutta et al. A hand gesture-operated system for rehabilitation using an end-to-end detection framework

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170111

Termination date: 20200729