CN109002811B

CN109002811B - 一种静态手势的识别方法及装置

Info

Publication number: CN109002811B
Application number: CN201810889194.3A
Authority: CN
Inventors: 疏达; 李�远; 冯强; 郑凯
Original assignee: Benewake Beijing Co Ltd
Current assignee: Benewake Beijing Co Ltd
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2021-07-13
Anticipated expiration: 2038-08-07
Also published as: CN109002811A

Abstract

本申请提供了一种静态手势的识别方法及装置，获取待识别的静态手势深度图像，并提取所述待识别的静态手势深度图像中的前景，从目标深度图像中提取旋转不变性特征，旋转不变性特征基于对目标深度图像中的采样点的深度值进行旋转不变性处理获取，再使用预先训练的分类器，基于旋转不变性特征，确定识别的静态手势深度图像中的手势所属的类别，因为旋转不变性特征具有旋转不变性，因此识别结果具有旋转不变性，所以，能够得到更准确性的识别结果。

Description

一种静态手势的识别方法及装置

技术领域

本申请涉及模式识别领域，尤其涉及一种静态手势的识别方法及装置。

背景技术

基于视觉的手势识别是指，通过获取的手势图像，识别出手势图像表示的含义。目前，手势识别算法包括二维手势识别算法和三维手势识别算法。

二维手势识别算法以颜色信息为基础做分割，包括肤色检测和基于灰度值的边缘提取，其识别精度往往与背景复杂程度、背景颜色和肤色类似程度及光照条件密切相关，而且身体其它部分的颜色信息也会对识别结果造成干扰，因此，二维手势识别算法的准确性有待提高。

针对二维手势识别算法的缺陷，三维手势识别算法应运而生。三维手势识别算法包括K最近邻(k-Nearest Neighbor，KNN)算法和人工神经网络(Artificial NeuralNetwork，ANN)算法等。无论是KNN算法还是ANN算法，均不具备旋转不变性，即在手势有一定角度的旋转的情况下，识别的准确性下降。

可见，如何提高手势识别的准确性，成为目前亟待解决的问题。

发明内容

本申请提供了一种静态手势的识别方法及装置，目的在于解决如何提高手势识别的准确性的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种静态手势的识别方法，包括：

获取待识别的静态手势深度图像；

提取所述待识别的静态手势深度图像中的前景；

从目标深度图像中提取特征，所述特征包括旋转不变性特征，所述旋转不变性特征基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取，所述目标深度图像依据所述前景形成；

使用预先训练的分类器，基于所述特征，确定所述识别的静态手势深度图像中的手势所属的类别。

可选的，所述基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取所述旋转不变性特征包括：

确定所述目标深度图像中的第一数量个采用点；

获取所述第一数量个采样点的深度值，所述第一数量个深度值作为特征；

生成所述特征对应的特征位，所述特征位与所述特征中的深度值一一对应，如果所述深度值不为0，则所述深度值对应的特征位为1，如果所述深度值为0，则所述深度值对应特征位为0；

将所述特征位进行循环移位操作，直至得到所述特征位形成的数值的最小值；

将所述特征进行与得到所述最小值相同的循环移位操作，得到所述旋转不变性特征。

可选的，在所述生成所述特征对应的特征位之前，还包括：

将第一特征中的所述第一数量个深度值划分为第二数量个集合，所述第一特征为所述第一数量个深度值形成的特征；

对于任意一个所述集合，计算该集合中的第一深度值之和，得到所述第二数量个第二深度值，所有的所述第二深度值作为第二特征，所述第一深度值为所述采样点的深度值；

所述生成所述特征对应的特征位包括：

生成所述第二特征对应的特征位。

可选的，所述确定所述目标深度图像中的第一数量个采用点包括：

计算所述目标深度图像的中心点的坐标；

依据所述中心点的坐标以及圆形的半径，确定所述采样点的坐标，所述圆形为所述目标深度图像中，以所述中心点为圆心的圆形。

可选的，所述计算所述目标深度图像的中心点的坐标包括：

依据所述目标深度图像中的目标像素的值的累加和、x坐标的累加和、y坐标的累加和，确定所述中心点的坐标，所述目标像素为所述目标深度图像中值为1的像素。

可选的，所述特征还包括：

有效面积以及宽度和高度比，所述有效面积比为所述目标深度图像中的手势区域占边界盒的百分比。

可选的，所述目标深度图像依据所述前景形成包括：

从所述前景中删除冗余像素，得到所述目标深度图像，所述冗余像素包括手腕部分的像素。

可选的，所述提取所述待识别的静态手势深度图像中的前景包括：

保留所述待识别的静态手势深度图像中深度值不大于预设的深度阈值的像素的深度值，将深度值大于预设的深度阈值的像素的深度值设置为零，得到所述前景。

一种静态手势的识别装置，包括：

获取模块，用于获取待识别的静态手势深度图像；

第一提取模块，用于提取所述待识别的静态手势深度图像中的前景；

第二提取模块，用于从目标深度图像中提取特征，所述特征包括旋转不变性特征，所述旋转不变性特征基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取，所述目标深度图像依据所述前景形成；

分类模块，用于使用预先训练的分类器，基于所述特征，确定所述识别的静态手势深度图像中的手势所属的类别。

可选的，所述第二提取模块用于基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取所述旋转不变性特征包括：

所述第二提取模块具体用于，确定所述目标深度图像中的第一数量个采用点；获取所述第一数量个采样点的深度值，所述第一数量个深度值作为特征；生成所述特征对应的特征位，所述特征位与所述特征中的深度值一一对应，如果所述深度值不为0，则所述深度值对应的特征位为1，如果所述深度值为0，则所述深度值对应特征位为0；将所述特征位进行循环移位操作，直至得到所述特征位形成的数值的最小值；将所述特征进行与得到所述最小值相同的循环移位操作，得到所述旋转不变性特征。

可选的，所述第二提取模块还用于：

在所述生成所述特征对应的特征位之前，将第一特征中的所述第一数量个深度值划分为第二数量个集合，所述第一特征为所述第一数量个深度值形成的特征；对于任意一个所述集合，计算该集合中的第一深度值之和，得到所述第二数量个第二深度值，所有的所述第二深度值作为第二特征，所述第一深度值为所述采样点的深度值；

所述第二提取模块用于生成所述特征对应的特征位包括：

所述第二提取模块具体用于，生成所述第二特征对应的特征位。

可选的，所述第二提取模块用于确定所述目标深度图像中的第一数量个采用点包括：

所述第二提取模块具体用于，计算所述目标深度图像的中心点的坐标；依据所述中心点的坐标以及圆形的半径，确定所述采样点的坐标，所述圆形为所述目标深度图像中，以所述中心点为圆心的圆形。

可选的，所述第二提取模块用于计算所述目标深度图像的中心点的坐标包括：

所述第二提取模块具体用于，依据所述目深度标图像中的目标像素的值的累加和、x坐标的累加和、y坐标的累加和，确定所述中心点的坐标，所述目标像素为所述目标深度图像中值为1的像素。

可选的，所述特征还包括：

可选的，所述第二提取模块还用于：

可选的，所述第一提取模块用于提取所述待识别的静态手势深度图像中的前景包括：

所述第一提取模块具体用于，保留所述待识别的静态手势深度图像中深度值不大于预设的深度阈值的像素的深度值，将深度值大于预设的深度阈值的像素的深度值设置为零，得到所述前景。

本申请所述的静态手势的识别方法及装置，获取待识别的静态手势深度图像，并提取所述待识别的静态手势深度图像中的前景，从目标深度图像中提取旋转不变性特征，旋转不变性特征基于对目标深度图像中的采样点的深度值进行旋转不变性处理获取，再使用预先训练的分类器，基于旋转不变性特征，确定识别的静态手势深度图像中的手势所属的类别，因为旋转不变性特征具有旋转不变性，因此识别结果具有旋转不变性，所以，能够得到更准确性的识别结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的静态手势的识别方法的流程图；

图2为本申请实施例公开的静态手势的识别方法中提取特征的流程图；

图3为本申请实施例公开的静态手势的识别方法中提取的前景的示例图；

图4为本申请实施例公开的静态手势的识别方法中提取的目标深度图像的示例图；

图5为本申请实施例公开的静态手势的识别方法中确定的中心点的示例图；

图6为本申请实施例公开的静态手势的识别方法中确定采样点使用的圆形的示例图；

图7为本申请实施例公开的静态手势的识别方法中使用的ANN的结构示意图；

图8为本申请实施例公开的静态手势的识别方法得到的识别结果的示例；

图9为本申请实施例公开的静态手势的识别装置的结构示意图。

具体实施方式

本申请实施例公开的静态手势的识别方法，分为训练部分和测试部分，其中训练部分的目的为训练分类器，测试部分的目的在于，使用训练得到的分类器对测试手势进行分类识别。

为了解决在手势有一定角度的旋转(旋转是指与样本相比，测试手势旋转一定角度)的情况下，识别的准确性下降的问题，本申请所述的技术方案的核心点在于，从手势深度图像中提取具有旋转不变性的特征，从而使得识别算法具有旋转不变性。

以下实施例针对的静态手势深度图像包括但不限于三维点云图像。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种静态手势的识别方法，包括以下步骤：

S101：获取训练数据，训练数据包括多个静态手势样本。

所述静态手势样本是指：已知分类结果的静态手势深度图像。训练数据可以从已有的深度图像数据库中获取。

S102：提取静态手势样本中的前景。

静态手势深度图像中包括前景和背景，前景是指手势，背景是指与手势无关的其它目标。

因为在用户与系统进行手势交互的过程中，与系统的交互限定在前景区域，背景区域的信息不会对手势识别产生任何影响，因此，本实施例中，基于深度信息提取前景，具体的，保留深度值不大于预设的深度阈值的像素的深度值，将深度值大于预设的深度阈值的像素的深度值设置为零。

经前景提取后，三维点云图像映射为二维图像，进一步的，为二维图像中的二值图像，图3为提取出的几组训练数据的前景。

使用深度信息进行前景的提取，与基于肤色信息提取前景的方式相比，能够避免将与手的颜色相似的部分(例如手臂部分)错误提取为手的问题。从图3也可以看出，使用深度信息进行前景的提取，提取出的前景即为手，而没有包括手臂部分。

S103：从前景中删除冗余像素，得到目标深度图像。

本实施例中，冗余像素是指手腕部分的像素。

因为手腕部分对于手势识别的影响较大，但是不具备明显的特征信息，因此，删除手腕部分，有利于进一步提高识别结果的准确性。

具体的，删除手腕部分的像素的方式包括：

1、将预设位置的像素的值设置为零。例如，将bottom_right_y-20到bottom_right_y的行像清零，其中，bottom_right_y为前景最下方、最右侧的y坐标值。预设位置的范围可以凭经验设置。

2、找到旋转角度(通过二阶矩的方法确定旋转角度，该方法为现有技术)，然后根据旋转角度反方向切割手腕部分的像素。具体的，已知旋转角度后，依据旋转角度计算手势与X轴的夹角(称为主方向角)，再将手势的中点沿X轴反方向移动预设距离(可以依据经验确定预设距离)，移动后得到的点称为目标点，将目标点作为切割线上的一点，依据主方向角确定切割线的斜率，可得到切割线。切割线之下(以X轴为依据)的像素即为腕部分的像素，删除这部分像素。

图4为图3中的前景删除冗余像素后得到的深度图像，即目标深度图像。

S104：从目标深度图像中提取特征。

本实施例中，为了使得识别方法具有旋转不变性，需要提取旋转不变性特征。

旋转不变性特征的提取过程如图2所示，包括以下步骤：

S1041：计算目标深度图像的中心点的坐标。

具体的，将目标深度图像转换为二值图像(S102后即转换为二值图像)后，中心点的坐标的计算公式为：

其中，M₀₀为目标深度图像的零阶矩，M₀₁和M₁₀为目标深度图像的一阶矩：

i为像素的行坐标，j为像素的列坐标，V(i,j)为像素的值，因为目标深度图像为二值图像，M₀₀表示目标深度图像中值为1的像素的值累加和，M₁₀表示目标深度图像中值为1的像素的x坐标的累加和，M₀₁表示目标深度图像中值为1的像素的y坐标的累加和。

图4中的部分图例得到的中心点如图5所示。

S1042：确定P个采样点。

P个采样点的坐标为：

xp＝xc+R*cos(2*pi*p/P)

yp＝yc-R*sin(2*pi*p/P)

其中(xc,yc)为中心点的坐标，(xp,yp)为某个采样点的坐标。R为以中心点为圆心，在目标深度图像上设置的圆形(如图6所示)的半径，R可以根据中心点到边缘的最大值Dmax设置，例如，R可以取0.73*Dmax。通过上式可以计算得到任一点采样点的坐标。

S1043：获取P个采样点的深度值，作为第一特征。

即第一特征中，包括P个原始深度值(原始深度值为采样点在目标深度图像中的深度值)。

需要说明的是，在任意一个采样点的坐标值不是整数的情况下(即不是图像上的像素点)，可以采用双线性插值来得到该采样点的深度值，双线性插值为现有技术，这里不再赘述。

本实施例中，P可以取256。

S1044：将第一特征中的P个第一深度值划分为q个集合，对于任意一个集合，计算该集合中的深度值之和，得到q个第二深度值，所有的第二深度值作为第二特征。

即第二特征中，包括q个第二深度值，每个第二深度值为p/q个第一深度值之和。

举例说明，第一特征中包括256个第一深度值，将256个第一深度值划分为64个集合，则每个集合中包括4个第一深度值，对于任意一个集合，计算4个第一深度值之和，得到一个第二深度值，所有的集合得到的第二深度值，构成第二特征。

S1044的目的在于，减少特征数量，降低过拟合的可能性，提高泛化能力。

S1045：生成第二特征对应的特征位。

具体的，特征位的位数与第二特征中包括的第二深度值的数量相同，即特征位与第二深度值一一对应，如果第二特征中的第二深度值不为0，则该深度值对应的特征位为1，如果第二特征中的第二深度值为0，则该深度值对应的特征位为0。

S1046：将特征位进行循环移位操作，直至得到特征位形成的数值的最小值。

S1047：将第二特征进行与得到最小值相同的循环移位操作，得到旋转不变性特征。

图2所示的方法得到的特征，具有旋转不变性。

可选的，为了进一步提高识别结果的准确性，本实施例中，除了旋转不变性特征之外，还提取目标深度图像的轮廓特征，具体的，轮廓特征包括但不限于：有效面积以及宽度和高度比。其中，有效面积比是指手势区域占边界盒(所述边界盒特征为目标深度图像中的手形区域的外界矩形)的百分比。

S105：使用从目标深度图像中提取的特征，训练ANN。

具体的，本实施例中可以使用如图7所示的ANN，包括4层网络，一个输入层(66个输入特征，64个旋转不变性特征，1个有效面积比特征，1个宽高比特征)，一个输出层(4个输出神经元，根据手势种类可调)，两个隐藏层，第一个隐藏层100个神经元，第二个隐藏层10个神经元，隐藏层和输出层的激活函数采用RELU(x)＝max(0,x)。

训练的目的是获取ANN中的权值和偏置值，具体训练过程可以参见现有技术，这里不再赘述。

S101-S105为训练过程，在训练得到ANN后，使用ANN进行静态手势的识别。具体的，包括以下步骤：

S106：获取待识别的静态手势深度图像。

S107：提取待识别的静态手势深度图像中的前景。

S108：从前景中删除冗余像素，得到目标深度图像。

S109：从目标深度图像中提取特征。

其中，S107-S109的具体实现过程，可以参见训练过程中相应的步骤，这里不再赘述。

S110：使用训练得到的ANN，依据S109中提取的特征，得到识别结果。

图8为识别结果的示例。

实验证明，使用图1所示的方法，识别结果的准确性达到98.25％，高于通用的静态手势识别算法的准确性。

可见，图1所示的静态手势的识别方法，提取旋转不变性特征，作为分类器输入特征，因此，得到的识别结果具有旋转不变性，因此，具有更高的准确性。

图9为本申请实施例公开的一种静态手势的识别装置，包括：获取模块、第一提取模块、第二提取模块和分类模块。

其中，获取模块用于获取待识别的静态手势深度图像。第一提取模块用于提取所述待识别的静态手势深度图像中的前景。第二提取模块用于从目标深度图像中提取特征，所述特征包括旋转不变性特征，所述旋转不变性特征基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取，所述目标深度图像依据所述前景形成。分类模块用于使用预先训练的分类器，基于所述特征，确定所述识别的静态手势深度图像中的手势所属的类别。

上述各个模块的功能的具体实现方式，可以参见上述方法实施例，这里不再赘述。

图9所示的装置，获得的识别结果具有旋转不变性，因此，具有更高的准确性。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种静态手势的识别方法，其特征在于，包括：

获取待识别的静态手势深度图像，所述静态手势深度图像中包括前景和背景，前景是指手势，背景是指与手势无关的其它目标；

提取所述待识别的静态手势深度图像中的前景；

使用预先训练的分类器，基于所述特征，确定所述识别的静态手势深度图像中的手势所属的类别；

其中，所述目标深度图像依据所述前景形成包括：从所述前景中删除冗余像素，得到所述目标深度图像，所述冗余像素包括手腕部分的像素；

其中，删除手腕部分的像素包括：通过二阶矩的方法确定旋转角度，依据旋转角度计算手势与X轴的夹角，再将手势的中点沿X轴反方向移动预设距离，移动后得到的点称为目标点，将目标点作为切割线上的一点，依据手势与X轴的夹角确定切割线的斜率，得到切割线，以X轴为依据切割线之下的像素即为腕部分的像素，删除这部分像素。

2.根据权利要求1所述的方法，其特征在于，所述基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取所述旋转不变性特征包括：

确定所述目标深度图像中的第一数量个采用点；

3.根据权利要求2所述的方法，其特征在于，在所述生成所述特征对应的特征位之前，还包括：

所述生成所述特征对应的特征位包括：

生成所述第二特征对应的特征位。

4.根据权利要求2所述的方法，其特征在于，所述确定所述目标深度图像中的第一数量个采用点包括：

计算所述目标深度图像的中心点的坐标；

5.根据权利要求4所述的方法，其特征在于，所述计算所述目标深度图像的中心点的坐标包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述特征还包括：

7.根据权利要求1-4任一项所述的方法，其特征在于，所述提取所述待识别的静态手势深度图像中的前景包括：

8.一种静态手势的识别装置，其特征在于，包括：

获取模块，用于获取待识别的静态手势深度图像，所述静态手势深度图像中包括前景和背景，前景是指手势，背景是指与手势无关的其它目标；

分类模块，用于使用预先训练的分类器，基于所述特征，确定所述识别的静态手势深度图像中的手势所属的类别；

其中，所述第二提取模块还用于：从所述前景中删除冗余像素，得到所述目标深度图像，所述冗余像素包括手腕部分的像素；

9.根据权利要求8所述的装置，其特征在于，所述第二提取模块用于基于对所述目标深度图像中的采样点的深度值进行旋转不变性处理获取所述旋转不变性特征包括：

10.根据权利要求9所述的装置，其特征在于，所述第二提取模块还用于：

所述第二提取模块用于生成所述特征对应的特征位包括：

11.根据权利要求9所述的装置，其特征在于，所述第二提取模块用于确定所述目标深度图像中的第一数量个采用点包括：

12.根据权利要求11所述的装置，其特征在于，所述第二提取模块用于计算所述目标深度图像的中心点的坐标包括：

13.根据权利要求8-11任一项所述的装置，其特征在于，所述特征还包括：

14.根据权利要求8-11任一项所述的装置，其特征在于，所述第一提取模块用于提取所述待识别的静态手势深度图像中的前景包括：