CN108960163B

CN108960163B - 手势识别方法、装置、设备和存储介质

Info

Publication number: CN108960163B
Application number: CN201810752370.9A
Authority: CN
Inventors: 李佩易
Original assignee: Hiscene Information Technology Co Ltd
Current assignee: Hiscene Information Technology Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2021-09-24
Anticipated expiration: 2038-07-10
Also published as: CN108960163A

Abstract

本发明公开了一种手势识别方法、装置、设备和存储介质，一种手势识别方法，包括：获取摄像头拍摄的图像帧；对图像帧进行图像检测，确定图像帧中人体所在区域；将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体在区域；在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域；将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果。本发明实施例提供的手势识别方法、装置、设备和存储介质，用于提高手势识别的速度和准确性。

Description

手势识别方法、装置、设备和存储介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种手势识别方法、装置、设备和存储介质。

背景技术

对智能设备传统的控制都是通过外部的输入设备进行的，例如与智能设备匹配的遥控器、触摸面板等，但这些都需要为智能设备配置额外的外部输入设备。随着人工智能技术的发展，手势识别技术已经成为对智能设备进行控制的热点。通过手势识别技术可以使用户更加便捷、高效地对智能设备进行控制。

手势识别方法是通过对智能设备拍摄到的图像进行图像识别，从而判断图像中是否存在预设的控制手势。但智能设备的手势识别方法需要对智能设备拍摄到的图像进行精确、快速的识别，这就导致目前的手势识别方法较为复杂，在高性能的计算平台上才能实现精确、快速的手势识别。但出于对成本的考虑，智能设备广泛地采用低成本的嵌入式计算平台，计算资源较为有限，导致目前的手势识别方法无法广泛地应用于智能设备中。

发明内容

本发明提供一种手势识别方法、装置、设备和存储介质，用于提高手势识别的计算速度和准确性。

第一方面，本发明实施例提供一种手势识别方法，包括：

获取摄像头拍摄的图像帧；

对所述图像帧进行图像检测，确定所述图像帧中人体所在区域；

将所述人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域；

在所述图像帧中，根据所述分类为正脸的人体所在区域，确定手部潜在区域；

将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果。

在第一方面一种可能的实现方式中，所述将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果，包括：

将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和所述回归计算的置信度；

所述将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果之后，所述方法还包括：

若所述置信度小于预设阈值，则确定所述手部潜在区域中不包括手势信息，忽略所述手势识别结果。

将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和手部所在区域；

将所述手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若所述手势分类结果与所述手势识别结果不同，则将所述手势分类结果作为最终手势识别结果。

在第一方面一种可能的实现方式中，所述对所述图像帧进行图像检测，确定所述图像帧中人体所在区域，包括：

将所述图像帧进行缩放处理，得到多个不同尺度的图像帧；

在所述多个尺度的图像帧中，以预设尺寸和步长选择多个人体搜索区域；

将所述多个人体搜索区域输入训练后的人体检测分类器，将得到的人体检测分类结果为人体的人体搜索区域在所述图像帧中对应的区域作为人体所在区域。

在第一方面一种可能的实现方式中，所述在所述图像帧中，根据所述分类为正脸的人体所在区域，确定手部潜在区域，包括：

在所述图像帧中，利用人体的先验知识，根据所述分类为正脸的人体所在区域，确定手部潜在区域。

在第一方面一种可能的实现方式中，所述人体所在区域，包括：人体头部所在区域、人体头肩部所在区域、人体上半身所在区域、人体全身所在区域中的至少一种。

在第一方面一种可能的实现方式中，所述第一机器学习模型和所述第二机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

在第一方面一种可能的实现方式中，所述第三机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

第二方面，本发明实施例提供一种手势识别装置，包括：

图像获取模块，用于获取摄像头拍摄的图像帧；

人体检测模块，用于对所述图像帧进行图像检测，确定所述图像帧中人体所在区域；

正脸识别模块，用于将所述人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域；

手部识别模块，用于在所述图像帧中，根据所述分类为正脸的人体所在区域，确定手部潜在区域；

手势识别模块，用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果。

在第二方面一种可能的实现方式中，所述手势识别模块，具体用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和所述回归计算的置信度；

手势识别装置还包括：

手势验证模块，用于若所述置信度小于预设阈值，则确定所述手部潜在区域中不包括手势信息，忽略所述手势识别结果。

在第二方面一种可能的实现方式中，所述手势识别模块，具体用于将将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和手部所在区域；将所述手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若所述手势分类结果与所述手势识别结果不同，则将所述手势分类结果作为最终手势识别结果。

在第二方面一种可能的实现方式中，所述人体检测模块，具体用于将所述图像帧进行缩放处理，得到多个不同尺度的图像帧；在所述多个尺度的图像帧中，以预设尺寸和步长选择多个人体搜索区域；将所述多个人体搜索区域输入训练后的人体检测分类器，将得到的人体检测分类结果为人体的人体搜索区域在所述图像帧中对应的区域作为人体所在区域。

在第二方面一种可能的实现方式中，所述手部识别模块，具体用于在所述图像帧中，利用人体的先验知识，根据所述分类为正脸的人体所在区域，确定手部潜在区域。

在第二方面一种可能的实现方式中，所述人体所在区域，包括：人体头部所在区域、人体头肩部所在区域、人体上半身所在区域、人体全身所在区域中的至少一种。

在第二方面一种可能的实现方式中，所述第一机器学习模型和所述第二机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

在第二方面一种可能的实现方式中，所述第三机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

第三方面，本发明实施例提供一种手势识别设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面任一种可能的实现方式的手势识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面任一种可能的实现方式的手势识别方法。

本发明实施例提供的手势识别方法、装置、设备和存储介质，通过获取摄像头拍摄的图像帧，对图像帧进行图像检测，确定图像帧中人体在区域，将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域，在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域，将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果，有效地减低了手势识别的计算量，提高计算速度，便于手势识别方法应用于低能力的计算平台中，还提高了手势识别的准确性。

附图说明

图1为本发明实施例提供的手势识别方法实施例一的流程图；

图2为用户进行手势操作的示意图；

图3为头部所在区域和手部潜在区域的相对位置关系示意图；

图4为本发明实施例提供的手势识别方法实施例二的流程图；

图5为本发明实施例提供的手势识别装置实施例一的结构示意图；

图6为本发明实施例提供的一种手势识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的手势识别方法实施例一的流程图，如图1所示，本实施例提供的方法，包括：

步骤S101，获取摄像头拍摄的图像帧。

本实施例提供的手势识别方法可以应用于任一种具有摄像头或者图像拍摄能力的设备中，且该设备可以根据外部的输入执行相应处理。该设备例如可以是手机、平板电脑等终端设备，或者空调、电视等家电设备，或者门禁系统等其他可能的电子设备。由于这些设备的传统外部输入都是从设备外接的输入设备中获取的，例如鼠标、键盘、触摸屏、遥控器等，但这些方式都需要依赖额外的外部设备。为了提高用户的使用感受，目前已经在部分设备上实现了通过识别用户手势作为设备的外部输入，对设备进行相应控制的方法。但由于手势识别需要对图像进行精确识别，因此现有的手势识别方法需要分辨率较高的图像，另外对图像中的手势进行识别的计算量也较大，那么就需要在应用手势识别的设备上配置高清摄像头或图像采集模块以及处理能力较强的处理器或处理模块。而高清摄像头以及高性能处理器的成本较高，在对成本比较敏感的设备中难以应用，而目前众多的消费级终端设备采用的都是低成本的嵌入式的计算平台，因此限制了手势识别方法的应用。即使在摄像头和处理器能力较强的终端设备中，若采用目前的手势识别方法，也需要消耗许多的计算资源进行手势识别，可能对终端设备的其他应用产生影响。

在本发明实施例提供的手势识别方法中，首先获取摄像头拍摄的图像帧。该摄像头配置在需要应用手势识别方法的任一种设备上，或者是需要应用手势识别方法的任一种设备外接的摄像头。该摄像头可以为任一种能够拍摄动态或者静态图像的摄像头。当摄像头拍摄到静态的图像后，该静态的图像即为一个图像帧，若摄像头拍摄到的是动态的图像，那么动态图像中的每一帧都为一个图像帧。本发明实施例提供的手势识别方法对摄像头拍摄到的每个图像帧分别进行手势识别。若用户输入的手势为一个连贯的动作，那么可以在使用本发明实施例提供的手势识别方法对各个图像帧进行手势识别后，将连续的多个图像帧中的识别出的手势组合为一个连贯的手势，并对其进行进一步地识别。

步骤S102，对图像帧进行图像检测，确定图像帧中人体所在区域。

在获取了图像帧之后，首先对图像帧进行图像检测，判断其中是否包含有人体。在对用户对设备进行手势控制的场景进行分析后发现，用户对设备进行手势控制时，需要先面对被控制的设备，然后再执行相应的控制手势，那么意味着若用户对设备进行手势控制，那么设备拍摄的图像中必然包括执行手势控制的人体。因此，在本实施例中，首先判断摄像头拍摄的图像帧中是否存在人体，以及人体面部是否面对被控制设备。判断图像帧中是否存在人体，可以通过对图像帧中的特征进行识别实现，例如图像帧中是否存在人体的相关特征、人体相关特征的相对位置关系和比例是否符合人体自然形态等。但随着人工智能技术的发展，神经网络由于具有很高的计算精度和自学习功能，被广泛地应用于图像识别领域。因此对图像帧进行图像检测，判断图像帧中是否存在人体，可以使用神经网络进行图像检测，判断其中是否存在人体。另外，由于是要对图像帧中的手势进行识别，判断人体的目的是为了进一步地对人体对应的手部手势进行判断，因此在判断图像帧中是否存在人体的同时，还需要确定图像帧中人体所在的区域。除了使用神经网络的方法对图像进行检测，还可以采用其他应用机器学习的图像检测方法对图像帧进行图像检测，确定图像帧中人体所在区域。

可选地，对图像帧中的人体所在区域进行检测，可以采用目前常用的人体图像检测算法。即将人体的全部特征所在区域作为一个整体，判断图像中是否存在人体的全部特征的一种图像检测算法。人体图像测算法例如可以采用AdaBoost检测算法，在使用AdaBoost检测算法时，首先对AdaBoost分类器进行训练，训练所使用的训练集包括正样本(即包含人体的图像)和负样本(即不含人体的图像)，利用聚合通道特征(AggregatedChannel Features，ACF)或者积分通道特征(Integral Channel Features，ICF)等特征提取方法提取训练图像中的特征，根据相应的标签，对AdaBoost分类器进行训练。其中，对AdaBoost分类器进行训练的训练集中的图像尺寸是相同的。在进行人体检测时，只要将图像帧分割为与AdaBoost训练集尺寸相同的图像块，并将分割后的图像块输入训练后的AdaBoost分类器中，即可得到分类结果，即分割后的图像块中是否包含人体区域。

另外，由于输入AdaBoost分类器的图像块的尺寸需要是固定大小的，而在摄像头实际拍摄的图像帧中，人体所在区域的大小是不固定的，若进行手势控制的用户距离摄像头很近，则人体所在区域在图像帧中所占面积会很大，而将图像帧分割为AdaBoost分类器所需大小后，可能不包含人体所在区域的全部特征而无法识别出人体所在区域。反过来，若进行手势控制的用户距离摄像头较远，则人体所在区域在图像帧中所占面积较小，由于图像帧分辨率的问题，可能也会导致将图像帧分割为AdaBoost分类器所需大小后，得到的人体所在区域包含除人体所在区域外较多的冗余信息，导致后面的手部潜在区域划分错误。

因此，在本实施例中，对摄像头拍摄的图像帧进行图像检测时，首先对原始图像帧进行遍历，其次对图像帧进行缩放处理，得到多个不同尺度的图像帧，这里的缩放处理包括对图像的放大和缩小，放大和所缩小的尺度和数量可以根据实际需求设置。在缩放后的多个尺度的图像帧中，以预设尺寸和步长遍历每个图像帧，得到多个人体搜索区域，其中每个人体搜索区域的尺寸均与待输入的人体检测分类器所需尺寸相同。也就是以一个固定尺寸的区域作为滑动窗口，再以预设的步长将滑动窗口在每个尺度的图像帧中移动，得到多个尺寸相同的人体搜索区域。然后将各个人体搜索区域输入训练后的人体检测分类器，得到每个人体搜索区域的分类结果。每个人体搜索区域的分类结果包括人体所在区域或者非人体所在区域两种分类结果。由于是在多个尺度的图像帧中进行的分类，若判断人体所在区域是在缩放后的人体搜索区域中得到的，则还需要进一步在原尺度的图像帧中确定实际人体所在区域的位置。

需要说明的是，目前的人体检测方法中，对图像中是否包含人体的检测，包括判断图像中是否包含人体的全部特征，以及判断图像中是否包含人体的部分特征等多种检测方法。在本实施例中，对图像帧进行图像检测，可以采用任一种人体检测方法，所确认的人体所在区域，可以是包含人体全部特征，也可以是包括人体部分特征的区域。例如人体所在区域包括：人体头部所在区域、人体头肩部所在区域、人体上半身所在区域、人体全身所在区域中的一种或多种。不同的人体检测方法所检测到的包含不同人体特征的人体所在区域，具有不同的特点，可以共同用于进行人体检测，也可以选择其中一种。例如若摄像头所拍摄的图像帧中仅包括人体的半身图像，那么就无法在其中检测到人体全身所在区域，就可以应用其他检测方法进行检测。

步骤S103，将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域。

在确定了图像帧中的人体所在区域后，还需要确定人体所在区域中的人脸是否面对摄像头，这是避免对手势操作进行误判。一般对设备进行手势控制的用户都是面对设备后才进行手势控制，而未面对设备的用户可能并不是进行手势控制的用户，对面对设备的用户的手势进行识别，才能实现准确的手势识别。

如图2所示，图2为用户进行手势操作的示意图，在图2中，用户21正面面对摄像头，在进行手势操作，而用户22和用户23是侧向对着摄像头，并不是对设备进行手势操作的用户，因此仅需要对用户21对应的手势进行识别即可。

而对人体所在区域是否为正面面对摄像头的区域进行判断，可以使用机器学习的方法进行处理。这里使用的机器学习模型为第一机器学习模型，首先需要对第一机器学习模型进行训练，训练使用的训练集包括正样本(即含有人体的图像)和负样本(即不包含人体的图像)，其中正样本还包括正面、侧脸、背脸等多种情况，训练的分类标签相应地包括正脸、侧脸、背脸、误检测几类。将步骤S102中得到的人体所在区域图像输入训练后的第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域，即为可能进行手势控制的用户人体所在区域。

步骤S104，在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域。

在确定了分类为正脸的人体所在区域后，即确定了可能进行手势控制的用户人体所在区域，而由于人体的手部与全身的相对位置关系是一个相对固定的关系，在确定了用户的人体所在区域后，人体的双手所在区域也可以被相对地确定在一个固定的范围内。因此，可以在图像帧中，根据人体的先验知识，根据分类为正脸的人体所在区域，确定手部潜在区域。手部潜在区域即为正面面对设备的用户的手部可能位于的区域，若用户进行手势控制，则在手部潜在区域内必然能够检测到相应的手势。对于一个分类为正脸的人体所在区域，可以在其左右各确定一个手部潜在区域。

手部潜在区域的大小和位置都根据分类为正脸的人体所在区域的大小和位置确定，分类为正脸的人体所在区域的大小更大，相应地手部潜在区域的大小也更大，两者具有固定的比例关系。例如图3所示，以人体所在区域为头肩部所在区域为例，图3为头肩部所在区域和手部潜在区域的相对位置关系示意图，在图3中，若区域31被检测为分类为正脸的头肩部所在区域，那么对应的手部潜在区域为区域32和区域33；而若区域34被检测为分类为正脸的头肩部所在区域，那么对应的手部潜在区域为区域35和区域36。从图中可以看出，区域32和区域33的大小大于区域35和区域36的大小。

步骤S105，将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果。

在确定了图像帧中的手部潜在区域后，即可在手部潜在区域中进行手势识别。具体的手势识别方法可以采用任一种图像识别的方法，在本实施例中，仍然使用机器学习的方法进行处理，将手部潜在区域输入第二机器学习模型进行回归计算，即可得到图像帧中的手势识别结果。

第二机器学习模型同样需要进行训练，训练所使用的训练集包括正样本(包含手的图像)和负样本(不包含手的图像)，其中正样本包括多种不同的手势的图像，对应的分类标签包括各种手势的类别。将手部潜在区域图像输入训练后的第二机器学习模型进行回归计算，即可得到相应的手势分类，即得到图像帧中的手势识别结果。由于对图像进行手势识别仅在手部潜在区域中进行，而手部潜在区域仅是摄像头拍摄的图像帧中有限的区域，因此大大减小了对图像帧进行手势识别的计算量。

进一步地，通过第二机器学习模型进行回归计算，除了可以得到回归的类别，即图像帧中的手势识别结果，还可以在每次回归计算时得到回归的置信度。置信度即为回归计算准确的概率，置信度越高，则意味着回归计算分类结果的准确性越高。因此，在通过第二机器学习模型进行回归计算后，若得到了回归计算的置信度，则在置信度超过预设阈值时，才确定手势识别的分类结果为准确的手势识别结果。若得到的置信度小于预设阈值，那么意味着回归计算的分类结果并不可靠，此时可以确定手部潜在区域中不包括手势信息，回归计算得到的手势识别结果可以忽略。这样可以提高手势识别的准确性。

由于本实施例提供的手势识别方法中，首先在图像帧中进行了人体检测和正脸识别，然后根据人体的先验知识确定了潜在的手部区域，最后才在潜在的手部区域中进行了手势识别，使得对图像进行手势识别的区域限制在了较小的范围内，有效地减低了手势识别的计算量，便于手势识别方法应用于低能力的计算平台中，并且通过人体检测、正脸识别、手部识别等一系列的识别，还提高了手势识别的准确性。

需要说明的是，使用机器学习模型进行图像检测时，一般的检测算法会采用滑框检测的方法，即在图像中使用一个滑动框遍历检测图像，但滑框检测的速度较慢，且由于滑动框会出现重叠，可能在一副图像中检测出多个目标，目标在图像中的尺度变化较大。而本实施例中，采用的是回归计算，首先，由于根据先验知识确定了手部潜在区域，每个手部潜在区域中仅会出现一个手掌，并且手掌在手部潜在区域中所占的比例比较固定。再有，手部潜在区域中，除了手掌外，还会有手臂或其他附加信息，因此，采用回归算法可以有效地提高计算速度，在图像分辨率不高时，即时手部特征不太明显，也可以根据附加信息辅助判断。再有，通过回归算法还可以得到置信度，可以进一步辅助判断检测的准确性。

本实施例提供的手势识别方法，通过获取摄像头拍摄的图像帧，对图像帧进行图像检测，确定图像帧中人体所在区域，将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域，在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域，将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果，有效地减低了手势识别的计算量，提高计算速度，便于手势识别方法应用于低能力的计算平台中，还提高了手势识别的准确性。

图4为本发明实施例提供的手势识别方法实施例二的流程图，如图3所示，本实施例提供的方法，包括：

步骤S401，获取摄像头拍摄的图像帧。

步骤S402，对图像帧进行图像检测，确定图像帧中人体所在区域。

步骤S403，将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域。

步骤S404，在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域。

步骤S405，将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果和手部所在区域。

本实施例提供的手势识别方法中，步骤S401-步骤S404与图1所示实施例中的步骤S101-步骤S102相同，此处不再赘述。

在本实施例中，当在图像帧中确定了手部潜在区域后，即可在手部潜在区域中进行手势识别。具体的与图1所示实施例中相同，将手部潜在区域输入第二机器学习模型进行回归计算，即可得到图像帧中的手势识别结果。

但在应用机器学习模型进行回归计算时，除了可以得到回归的手势分类结果，还可以回归出手的位置信息。在图像帧中根据人体先验知识得到的手部潜在区域是一个较大的范围，而人手的具体位置是一个相对较小的范围，根据机器学习的回归计算，可以确定执行手势操作的手的具体位置，该具体位置是一个范围相对较小的区域，称为手部所在区域。

步骤S406，将手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若手势分类结果与手势识别结果不同，则将手势分类结果作为最终手势识别结果。

由于手部潜在区域范围较大，在其中进行回归计算进行手势识别还是可能存在误检测的情况，为了进一步地消除误检测，在本实施例中，首先在手部潜在区域中确定手部所在区域。然后再根据机器学习对手部所在区域进行再次手势识别。这里使用的机器学习模型为第三机器学习模型，第三机器学习模型与第一机器学习模型可以使用不同的机器学习模型，也可以使用相同的机器学习模型，但对第三机器学习模型进行训练所使用的训练集与第一机器学习模型不同，而是使用对第二机器学习模型进行训练使用的训练集，包括正样本(包含手的图像)和负样本(不包含手的图像)，其中正样本包括多种不同的手势的图像，对应的分类标签包括各种手势的类别。将手部潜在区域图像输入训练后的第三机器学习模型进行分类计算，即可得到相应的手势分类，即得到图像帧中的手势识别结果。若这里得到的手势结果与步骤S405中相同，则相当于对手势识别结果的进一步验证。而若这里得到的手势结果与步骤S405中不同，则将此次得到的手势分类结果作为最终手势识别结果。由于使用第三机器学习模型对图像进行手势识别仅在手部潜在区域中确定的手部所在区域中进行，识别的范围更小，因此进一步减小了对图像帧进行手势识别的计算量。

使用本实施例提供的手势识别方法进行手势识别，实际上就是对待识别图像中的特征进行分别识别的判断，并逐步减小识别区域，由于识别区域的减小，使得使用神经网络进行识别的计算量减小，且准确度提高。

本实施例提供的手势识别方法，通过获取摄像头拍摄的图像帧，对图像帧进行图像检测，确定图像帧中人体所在区域，将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域，在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域，将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果和手部所在区域，将手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若手势分类结果与手势识别结果不同，则将手势分类结果作为最终手势识别结果，有效地减低了手势识别的计算量，提高计算速度，便于手势识别方法应用于低能力的计算平台中，还进一步提高了手势识别的准确性。

进一步地，为了进一步地降低手势识别的计算消耗，在图1和图4所示实施例中，第一机器学习模型、第二机器学习模型和第三机器学习模型还可以是低参数的神经网络，即采用神经网络的方法对图像进行检测。其中，低参数的神经网络中采用1×1卷积核对神经网络进行降维处理，使得神经网络中的参数数量得到有效的降低，从而降低神经网络的计算量，更加有利于低成本的计算平台应用。

需要说明的是，本发明实施例提供的手势识别方法仅是对一副图像进行的手势识别，而当对设备执行的控制手势为一个连续的手势动作时，同样可以使用本发明实施例所提供的手势识别方法，对连续的手势动作的每一帧图像进行分别识别，若连续识别的若干帧图像中的手势分别满足连续手势动作对应的各帧图像，则可以实现连续手势动作的识别。

图5为本发明实施例提供的手势识别装置实施例一的结构示意图，如图5所示，本实施例提供的装置包括：

图像获取模块51，用于获取摄像头拍摄的图像帧；

人体检测模块52，用于对图像帧进行图像检测，确定图像帧中人体所在区域；

正脸识别模块53，用于将人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域；

手部识别模块54，用于在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域；

手势识别模块55，用于将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果。

本实施例提供的手势识别装置用于实现图1所示手势识别方法的处理，其实现原理和技术效果类似，此处不再赘述。

进一步地，在图5所示实施例的基础上，所述手势识别模块55，具体用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和所述回归计算的置信度；所述手势识别装置还包括：手势验证模块，用于若置信度小于预设阈值，则确定手部潜在区域中不包括手势信息，忽略手势识别结果。

进一步地，在图5所示实施例的基础上，手势识别模块55，具体用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和手部所在区域；将手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若手势分类结果与手势识别结果不同，则将手势分类结果作为最终手势识别结果。

进一步地，在图5所示实施例的基础上，人体检测模块52，具体用于将图像帧进行缩放处理，得到多个不同尺度的图像帧；在多个尺度的图像帧中，以预设尺寸和步长选择多个人体搜索区域；将多个人体搜索区域输入训练后的人体检测分类器，将得到的人体检测分类结果为人体的人体搜索区域在所述图像帧中对应的区域作为人体所在区域。

进一步地，在图5所示实施例的基础上，手部识别模块54，具体用于在图像帧中，利用人体的先验知识，根据分类为正脸的人体所在区域，确定手部潜在区域。

进一步地，在图5所示实施例的基础上，所述人体所在区域，包括：人体头部所在区域、人体头肩部所在区域、人体上半身所在区域、人体全身所在区域中的至少一种。

进一步地，在图5所示实施例的基础上，所述第一机器学习模型和所述第二机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

进一步地，在图5所示实施例的基础上，所述第三机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

图6为本发明实施例提供的一种手势识别设备的结构示意图，如图6所示，该手势识别设备包括处理器61、存储器62、摄像头63；手势识别设备中处理器61的数量可以是一个或多个，图6中以一个处理器61为例；手势识别设备中的处理器61、存储器62、摄像头63可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器62作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请图1和图4实施例中的手势识别方法对应的程序指令/模块(例如，手势识别装置中的图像获取模块51、人体检测模块52、正脸识别模块53、手部识别模块54、手势识别模块55)。处理器61通过运行存储在存储器62中的软件程序、指令以及模块，从而执行手势识别设备的各种功能应用以及数据处理，即实现上述的手势识别方法。

存储器62可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据头戴式显示设备的使用所创建的数据等。此外，存储器62可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

摄像头63为任一种能够进行图像拍摄的元件或模块。

本申请实施例还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种手势识别方法，该方法包括：

获取摄像头拍摄的图像帧；

对图像帧进行图像检测，确定图像帧中人体所在区域；

将人体所在区域输入第一机器学习模型络进行分类计算，得到分类为正脸的人体所在区域；

在图像帧中，根据分类为正脸的人体所在区域，确定手部潜在区域；

将手部潜在区域输入第二机器学习模型进行回归计算，得到图像帧中的手势识别结果。

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的手势识别方法中的相关操作。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种手势识别方法，其特征在于，包括：

获取摄像头拍摄的图像帧；

将所述人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域，其中，所述分类计算用于确定进行手势控制的用户；

在所述图像帧中，基于人体的先验知识在分类为正脸的人体所在区域左右各确定一个手部潜在区域；

将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果；

其中，所述将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果，包括：

将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和手部所在区域，其中，所述手势识别结果为相应的手势分类，所述手部所在区域小于所述手部潜在区域；将所述手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若所述手势分类结果与所述手势识别结果不同，则将所述手势分类结果作为最终手势识别结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对所述图像帧进行图像检测，确定所述图像帧中人体所在区域，包括：

将所述图像帧进行缩放处理，得到多个不同尺度的图像帧；

4.根据权利要求1或2所述的方法，其特征在于，所述人体所在区域，包括：人体头部所在区域、人体头肩部所在区域、人体上半身所在区域、人体全身所在区域中的至少一种。

5.根据权利要求1或2所述的方法，其特征在于，所述第一机器学习模型和所述第二机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

6.根据权利要求1所述的方法，其特征在于，所述第三机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

7.一种手势识别装置，其特征在于，包括：

图像获取模块，用于获取摄像头拍摄的图像帧；

正脸识别模块，用于将所述人体所在区域输入第一机器学习模型进行分类计算，得到分类为正脸的人体所在区域，其中，所述分类计算用于确定进行手势控制的用户；

手部识别模块，用于在所述图像帧中，基于人体的先验知识在分类为正脸的人体所在区域左右各确定一个手部潜在区域；

手势识别模块，用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果；

其中，所述手势识别模块，具体用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和手部所在区域，所述手势识别结果为相应的手势分类，所述手部所在区域小于所述手部潜在区域；将所述手部所在区域输入第三机器学习模型进行分类计算，得到手势分类结果，若所述手势分类结果与所述手势识别结果不同，则将所述手势分类结果作为最终手势识别结果。

8.根据权利要求7所述的装置，其特征在于，所述手势识别模块，具体用于将所述手部潜在区域输入第二机器学习模型进行回归计算，得到所述图像帧中的手势识别结果和所述回归计算的置信度；

所述手势识别装置还包括：

9.根据权利要求7或8所述的装置，其特征在于，所述人体检测模块，具体用于将所述图像帧进行缩放处理，得到多个不同尺度的图像帧；在所述多个尺度的图像帧中，以预设尺寸和步长选择多个人体搜索区域；将所述多个人体搜索区域输入训练后的人体检测分类器，将得到的人体检测分类结果为人体的人体搜索区域在所述图像帧中对应的区域作为人体所在区域。

10.根据权利要求7或8所述的装置，其特征在于，所述人体所在区域，包括：人体头部所在区域、人体头肩部所在区域、人体上半身所在区域、人体全身所在区域中的至少一种。

11.根据权利要求7或8所述的装置，其特征在于，所述第一机器学习模型和所述第二机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

12.根据权利要求7所述的装置，其特征在于，所述第三机器学习模型为低参数神经网络，所述低参数神经网络中使用1×1卷积核对神经网络进行降维处理，以减少参数数量。

13.一种手势识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～6中任一所述的手势识别方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～6中任一所述的手势识别方法。