CN109190461B

CN109190461B - 一种基于手势关键点的动态手势识别方法和系统

Info

Publication number: CN109190461B
Application number: CN201810811365.0A
Authority: CN
Inventors: 项俊; 麻建; 牟海军; 侯建华; 张国帅
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-04-26
Anticipated expiration: 2038-07-23
Also published as: CN109190461A

Abstract

本发明公开了一种基于手势关键点的动态手势识别方法和系统，建模手势姿态的时空结构统计特性，构建过程包括以下步骤：在获取图像中的手势关键点后，利用帧间差分法，取前后几帧的对应手势关键点的位置坐标差，得到当前手势的时域特征；再选取当前图像中任意三个手势关键点的位置坐标，计算其构成的两个向量的夹角，得到当前手势的空域特征；将上述时域、空域特征级联得到中间特征利用K‑means算法对数据集中所有特征进行特征降维，得到一定数量的聚类中心；最后再以手势动作图像序列为单位，构建以聚类中心编号为横轴，各聚类中心权重为纵轴的动态手势时空域特征直方图。本发明能够有效的提高动态手势识别的准确率。

Description

一种基于手势关键点的动态手势识别方法和系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于手势关键点的动态手势识别方法和系统。

背景技术

动态手势识别一直是计算机视觉领域的研究热点之一，作为一种新兴的人机交互方式，动态手势识别在虚拟现实、智能家居、儿童早教、医用机器人等众多领域具有广阔的应用前景。虽然动态手势识别在许多领域都有着广泛的应用空间，也是近年来研究学者密切关注的研究方向，但在动态手势形成过程中，目标手势会快速移动，且其形状、姿态灵活多变，这为动态手势识别带来了很大难度；此外，当目标手势的背景图像复杂或者内容多变时，可能包含与目标手势特征相似的物体，这也为快速精准地实现动态手势识别带来了困难。

目前主流的动态手势识别方法可分为两种：第一种为基于模板匹配技术的方法，它将待识别手势的特征参数与预先存储的模板特征参数进行匹配，通过计算两者之间的相似度来完成识别任务，该方法具有简单便捷的优点，但其需要人工设计模板，从而导致拓展性差，准确率低；第二种为基于神经网络技术的方法，这种方法具有自主学习能力和分布性特点，能有效的抗抵噪声，并具有模式推广能力，然而，该方法需要大量的训练样本，且训练周期较长。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于手势关键点的动态手势识别方法和系统，其目的在于，解决现有动态手势识别方法中存在的由于需要人工设计模板所导致的拓展性差、准确率低的技术问题，以及由于需要大量训练样本所导致的训练周期长的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于手势关键点的动态手势识别方法，包括以下步骤：

(1)获取视频图像序列中当前帧图像的多个手势关键点，针对每一个手势关键点，利用帧间差分法获取当前帧图像之前第n帧图像的对应手势关键点的位置坐标与当前帧图像之后第n帧图像的对应手势关键点的位置坐标之间的差值，并利用帧间差分法对该差值做微分处理，以得到当前帧图像在该手势关键点处的手势时域特征，对当前帧图像的所有手势关键点重复上述操作，从而得到当前帧图像的手势时域特征，其中n为自然数；

(2)对当前帧图像的所有手势关键点中的任意三个手势关键点执行以下操作：根据三个手势关键点各自的位置坐标计算三个手势关键点构成的多个向量中任意两个向量之间的夹角，并从得到的多个夹角中任选一个夹角作为当前帧图像的角度特征，利用帧间差分法获取当前帧图像之前第n帧图像对应的角度特征与当前帧图像之后第n帧图像对应的角度特征之间的差值，根据该差值获取当前帧图像中该三个手势关键点处的手势空域特征，针对当前帧图像中的所有手势关键点，重复上述操作，从而最终得到当前帧图像的手势空域特征；

(3)将步骤(1)中得到的当前帧图像的手势时域特征、以及步骤(2)中得到的当前帧图像的手势空域特征进行级联处理，以得到当前帧图像的中间特征；

(4)针对视频序列中的所有剩余帧图像，重复上述步骤(1)到步骤(3)，以得到视频序列的中间特征，并利用聚类算法对视频序列的中间特征进行特征降维，以得到该视频序列的中间特征的聚类中心；

(5)使用KNN算法分别计算当前帧图像与步骤(4)中得到的多个聚类中心之间的欧氏距离，从中选择欧氏距离最小的m个，为这m个聚类中心分别分配权重值，并建立m个聚类中心的每一个在步骤(4)中得到的全部聚类中心中的序号与其权重值之间的映射关系，第i个聚类中心的权重大小等于1/Ni，其中m是1到100之间的自然数，i为0到m之间的自然数，Ni表示第i个聚类中心与当前帧图像之间的欧氏距离在从小到大排列的所有m个欧氏距离中的排名。

(6)针对视频序列中的所有帧图像，重复上述步骤(5)的过程，从而得到所有帧图像对应的聚类中心的序号与权重值之间的映射关系，根据该映射关系构建该视频序列的特征直方图，该特征直方图中不同帧图像对应的同一聚类中心的权重值需要进行求和处理；

(7)以步骤(6)得到的视频序列的特征直方图作为输入，使用机器学习分类算法对视频序列进行分类，以得到最终的手势识别结果。

优选地，n与整个视频图像序列的帧长之间的比值范围在1/5和1/5000之间，获取的手势关键点可以是二维、三维、或二者的组合。

优选地，步骤(1)中的手势时域特征包括手势关键点的位置坐标、位置坐标的差值、以及微分处理后得到的结果，步骤(2)中的手势空域特征包括角度特征的差值、以及角度特征。

优选地，在步骤(1)中，差值处理的过程是采用以下公式：

其中f_t表示当前帧图像，表示当前帧图像的手势关键点的位置坐标，表示当前帧图像前n帧图像的手势关键点的位置坐标，表示当前帧图像后n帧图像的手势关键点的位置坐标，表示位置坐标的差值。

对差值做微分处理是采用以下公式：

其中表示对差值做微分处理后得到的结果。

优选地，步骤(2)中的差值处理是采用以下公式：

其中表示角度特征之间的差值，θ_t+n表示当前帧图像之前第n帧图像对应的角度特征，θ_t-n表示当前帧图像之后第n帧图像对应的角度特征。

优选地，步骤(3)具体是采用以下公式：

其中α、β、为常量系数，用于调节手势时域特征和手势空域特征在中间特征J中的比重，α的取值范围是0.01到100，β的取值范围是0.01到100，的取值范围是0.01到100。

优选地，预设的聚类中心的数量范围是10到10000，使用的聚类算法可以是基于划分的聚类算法、基于密度的方法、基于网络的方法、基于模型的方法等。

优选地，步骤(7)中使用的机器学习分类算法是支持向量机模型、模糊分类法、神经网络法、决策树分类法、KNN、或朴素贝叶斯分类法。

按照本发明的另一方面，提供了一种基于手势关键点的动态手势识别系统，包括以下：

第一模块，用于获取视频图像序列中当前帧图像的多个手势关键点，针对每一个手势关键点，利用帧间差分法获取当前帧图像之前第n帧图像的对应手势关键点的位置坐标与当前帧图像之后第n帧图像的对应手势关键点的位置坐标之间的差值，并利用帧间差分法对该差值做微分处理，以得到当前帧图像在该手势关键点处的手势时域特征，对当前帧图像的所有手势关键点重复上述操作，从而得到当前帧图像的手势时域特征，其中n为自然数；

第二模块，用于对当前帧图像的所有手势关键点中的任意三个手势关键点执行以下操作：根据三个手势关键点各自的位置坐标计算三个手势关键点构成的多个向量中任意两个向量之间的夹角，并从得到的多个夹角中任选一个夹角作为当前帧图像的角度特征，利用帧间差分法获取当前帧图像之前第n帧图像对应的角度特征与当前帧图像之后第n帧图像对应的角度特征之间的差值，根据该差值获取当前帧图像中该三个手势关键点处的手势空域特征，针对当前帧图像中的所有手势关键点，重复上述操作，从而最终得到当前帧图像的手势空域特征；

第三模块，用于将第一模块中得到的当前帧图像的手势时域特征、以及第二模块中得到的当前帧图像的手势空域特征进行级联处理，以得到当前帧图像的中间特征；

第四模块，用于针对视频序列中的所有剩余帧图像，重复上述第一模块到第三模块，以得到视频序列的中间特征，并利用聚类算法对视频序列的中间特征进行特征降维，以得到该视频序列的中间特征的聚类中心；

第五模块，用于使用KNN算法分别计算当前帧图像与第四模块中得到的多个聚类中心之间的欧氏距离，从中选择欧氏距离最小的m个，为这m个聚类中心分别分配权重值，并建立m个聚类中心的每一个在第四模块中得到的全部聚类中心中的序号与其权重值之间的映射关系，第i个聚类中心的权重大小等于1/Ni，其中m是1到100之间的自然数，i为0到m之间的自然数，Ni表示第i个聚类中心与当前帧图像之间的欧氏距离在从小到大排列的所有m个欧氏距离中的排名；

第六模块，用于针对视频序列中的所有帧图像，重复上述第五模块的过程，从而得到所有帧图像对应的聚类中心的序号与权重值之间的映射关系，根据该映射关系构建该视频序列的特征直方图，该特征直方图中不同帧图像对应的同一聚类中心的权重值需要进行求和处理；

第七模块，用于以第六模块得到的视频序列的特征直方图作为输入，使用机器学习分类算法对视频序列进行分类，以得到最终的手势识别结果。

按照本发明的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现上述基于手势关键点的动态手势识别方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明由于采用了步骤(1)和步骤(2)，从图像中提取了手势关键点，并利用关键点获取了动态手势的时空域信息，因此，此方法结构信息明显，语义信息丰富，抗光照能力强，能够解决现有方法中存在的拓展性差、准确率低的技术问题；

(2)本发明由于采用了步骤(4)到步骤(6)，对获取的动态手势时空域特征进行了特征降维并以视频帧序列为单位，构建了动态手势时空域特征直方图，使本方法具有特征数据冗余性小，维度低，模型复杂度低，稳定性强，适用于小样本学习任务的特点，因此能够解决现有方法中存在的训练样本大、训练周期长的技术问题；

(3)本发明是基于时空域结构统计的特征建模策略，属于无参学习技术，可复现性好，迁移性强，应用范围广阔，经济时效性高。

附图说明

图1是本发明基于手势关键点的动态手势识别方法的流程示意图；

图2是本发明获取到的多个手势关键点的位置示意图；

图3是对图2中的多个手势关键点进行编号的示意图；

图4是由向量构成的夹角示意图；

图5是本发明多个手势关键点构成的角度特征的示意图；

图6是本发明步骤(6)中得到的特征直方图的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明基于手势关键点的动态手势识别方法包括以下步骤：

(1)获取视频图像序列中当前帧图像的多个手势关键点，针对每一个手势关键点，利用帧间差分法(Inter-frame difference method)获取当前帧图像之前第n帧(其中n为自然数)图像的对应手势关键点的位置坐标与当前帧图像之后第n帧图像的对应手势关键点的位置坐标之间的差值，并利用帧间差分法对该差值做微分处理，以得到当前帧图像在该手势关键点处的手势时域特征，其包括手势关键点的位置坐标、差值、以及微分处理后得到的结果，对当前帧图像的所有手势关键点重复上述操作，从而得到当前帧图像在所有手势关键点处的手势时域特征，即当前帧图像的手势时域特征。

具体而言，本步骤中获取帧图像的手势关键点，可通过深度摄像头实现，也可通过神经网络模型(诸如CNN模型等)实现。举例而言，本步骤中获取的手势关键点的数量是21个，如图2所示。

为了对本发明进行清楚描述的目的，对图2中的21个手势关键点进行了编号处理，具体请参见图3所示。

本步骤中n是自然数，其与整个视频图像序列的帧长之间的比值范围在1/5和1/5000之间，本步骤中获取的手势关键点可以是二维、三维、或二者的组合。

本步骤中差值处理的过程是采用以下公式：

本步骤中对差值做微分处理是采用以下公式：

(2)对当前帧图像的所有手势关键点中的任意三个手势关键点执行以下操作：根据三个手势关键点各自的位置坐标计算三个手势关键点构成的多个向量中任意两个向量之间的夹角，并从得到的多个夹角中任选一个夹角作为当前帧图像的角度特征，利用帧间差分法获取当前帧图像之前第n帧图像对应的角度特征与当前帧图像之后第n帧图像对应的角度特征之间的差值(即一阶微分处理的结果)，将该差值和该角度特征作为当前帧图像中该三个手势关键点处的手势空域特征，针对当前帧图像中的所有手势关键点，重复上述操作，从而最终得到当前帧图像的手势空域特征。

如图4所示，设θ为特定的三个关键点构成的两个向量间的夹角(即本发明中所述的角度特征)，关键点A和B构成了向量v₁，而关键点C和B则构成了向量v₂，这两个向量的夹角∠CBA即为本步骤所述的夹角θ，为对角度的一阶微分，即角速度。当前手势的空域信息包括θ、的计算过程如公式(3)所示：

举例而言，本发明中使用的21个手势关键点随机组合可以构成多个角度特征θ，为加快运算速度、减少冗余信息，本发明选取了其中关键的73个角度特征，该73个角度特征的定义如图5所示，其中∠表示角度，其后的三个数字分别是手势关键点的编号(见图3)，中间的数字表示角度的顶点。

(3)将步骤(1)中得到的当前帧图像的手势时域特征、以及步骤(2)中得到的当前帧图像的手势空域特征进行级联处理，以得到当前帧图像的中间特征j；

本步骤具体是采用以下公式(4)：

上式(4)中，α、β、为常量系数，用于调节手势时域特征和手势空域特征在中间特征J中的比重，α的取值范围是0.01到100，β的取值范围是0.01到100，的取值范围是0.01到100优选地，α＝1、β＝1、

(4)针对视频序列中的所有剩余帧图像，重复上述步骤(1)到步骤(3)，以得到视频序列的中间特征，并利用聚类(Clustering)算法对视频序列的中间特征进行特征降维，以得到该视频序列的中间特征的聚类中心，其中预设的聚类中心的数量范围是10到10000，优选取值为1500个；

具体而言，本发明中使用的聚类算法可以是基于划分的聚类算法(Partition-based methods)、基于密度的方法(Density-based methods)、基于网络的方法(Grid-based methods)、基于模型的方法(Model-based methods)等。

(5)使用K最近邻算法(K-Nearest Neighbor algorithm，简称KNN)分别计算当前帧图像与步骤(4)中得到的多个聚类中心之间的欧氏距离，从中选择欧氏距离最小的m个(其中m的取值范围是1到100)，为这m个聚类中心分别分配权重值，并建立m个聚类中心的每一个在步骤(4)中得到的全部聚类中心中的序号与其权重值之间的映射关系，第i个(其中i为0到m之间的自然数)聚类中心的权重大小等于1/Ni，其中Ni表示第i个聚类中心与当前帧图像之间的欧氏距离在从小到大排列的所有m个欧氏距离中的排名。

例如，如果m＝10，第3个聚类中心在所有10个欧氏距离中排名第4，则该聚类中心被分配的权重大小为1/4；如果第3个聚类中心在整个1500个聚类中心的序号是100，则本步骤建立了一个聚类中心序号100与权重值1/4之间的映射关系。

(6)针对视频序列中的所有帧图像，重复上述步骤(5)的过程，从而得到所有帧图像对应的聚类中心的序号与权重值之间的映射关系，根据该映射关系构建该视频序列的特征直方图，该特征直方图中不同帧图像对应的同一聚类中心的权重值需要进行求和处理。

如图6所示，图6(a)是五指握拳动作这一动态手势的视频序列的特征直方图，图6(b)是双指握拳动作这一动态手势的视频序列的特征直方图。

具体而言，本步骤中使用的机器学习分类算法可以是支持向量机(Supportvector machine，简称SVM)模型、模糊分类法、神经网络法、决策树分类法、KNN、或朴素贝叶斯分类法。

本发明是以特征直方图的方式体现时空域信息，以同一图像中多个手势关键点的相对角度来体现空域信息，以相邻图像对应关键点位置信息的差值来体现时域信息，适用于基于手势关键点的手势识别，如基于三维手势关键点的动态手势识别等。该特征直方图在动态手势识别中包含了丰富的时空域信息，对复杂背景以及光照变换有着良好的鲁棒性，可以有效的提高动态手势识别的准确率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于手势关键点的动态手势识别方法，其特征在于，包括以下步骤：

(5)使用KNN算法分别计算当前帧图像与步骤(4)中得到的多个聚类中心之间的欧氏距离，从中选择欧氏距离最小的m个，为这m个聚类中心分别分配权重值，并建立m个聚类中心的每一个在步骤(4)中得到的全部聚类中心中的序号与其权重值之间的映射关系，第i个聚类中心的权重大小等于1/Ni，其中m是1到100之间的自然数，i为0到m之间的自然数，Ni表示第i个聚类中心与当前帧图像之间的欧氏距离在从小到大排列的所有m个欧氏距离中的排名；

2.根据权利要求1所述的动态手势识别方法，其特征在于，n与整个视频图像序列的帧长之间的比值范围在1/5和1/5000之间，获取的手势关键点是二维、三维、或二者的组合。

3.根据权利要求1所述的动态手势识别方法，其特征在于，步骤(1)中的手势时域特征包括手势关键点的位置坐标、位置坐标的差值、以及微分处理后得到的结果，步骤(2)中的手势空域特征包括角度特征的差值、以及角度特征。

4.根据权利要求3所述的动态手势识别方法，其特征在于，在步骤(1)中，

差值处理的过程是采用以下公式：

其中f_t表示当前帧图像，表示当前帧图像的手势关键点的位置坐标，表示当前帧图像前n帧图像的手势关键点的位置坐标，表示当前帧图像后n帧图像的手势关键点的位置坐标，表示位置坐标的差值；

对差值做微分处理是采用以下公式：

其中表示对差值做微分处理后得到的结果。

5.根据权利要求3所述的动态手势识别方法，其特征在于，步骤(2)中的差值处理是采用以下公式：

6.根据权利要求1所述的动态手势识别方法，其特征在于，步骤(3)具体是采用以下公式：

其中α、β、为常量系数，用于调节手势时域特征和手势空域特征在中间特征中的比重，α的取值范围是0.01到100，β的取值范围是0.01到100，的取值范围是0.01到100。

7.根据权利要求1所述的动态手势识别方法，其特征在于，

预设的聚类中心的数量范围是10到10000；

使用的聚类算法是基于划分的聚类算法、基于密度的方法、基于网络的方法、或基于模型的方法。

8.根据权利要求1所述的动态手势识别方法，其特征在于，步骤(7)中使用的机器学习分类算法是支持向量机模型、模糊分类法、神经网络法、决策树分类法、KNN、或朴素贝叶斯分类法。

9.一种基于手势关键点的动态手势识别系统，其特征在于，包括以下：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1至8中所述基于手势关键点的动态手势识别方法的步骤。