CN114120350A

CN114120350A - 一种手势识别的方法及其相关设备

Info

Publication number: CN114120350A
Application number: CN202010872157.9A
Authority: CN
Inventors: 吴觊豪; 侍晓龙; 林佰柱
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2022-03-01

Abstract

本申请实施例公开了一种手势识别的方法及其相关设备，可有效减少与手势动作相似的物体对手势识别产生的干扰，提高手势识别的准确性。本申请可通过人工智能优化基于手势识别的人机交互模式，本申请的方法包括：获取当前图像帧与上一图像帧之间的差分图像帧，当前图像帧包括目标人体；获取当前图像帧的动量累计值，动量累计值基于当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量得到，当前图像帧的动量基于差分图像帧得到；基于当前图像帧的动量累计值，获取当前图像帧的目标区域内各个像素点的动量累计值的平均值，目标区域包括目标人体的手部；若确定平均值大于或等于预置的阈值，则对目标区域进行手势识别，得到目标手势动作。

Description

一种手势识别的方法及其相关设备

技术领域

本申请涉及人机交互技术领域，尤其涉及一种手势识别的方法及其相关设备。

背景技术

随着信息技术的发展，人机交互活动逐渐成为日常生活中的一个重要组成部分。鼠标、键盘、遥控器等传统的人机交互设备在使用的自然性和友好性方面都存在一定的缺陷。因此，用户迫切希望能通过一种自然而直观的人机交互模式来取代基于输入设备的传统人机交互模式。

基于手势识别的人机交互模式由于其自然性、直观性、简洁性等特点，被应用得越来越广泛。具体地，当用户向设备远程输入特定的手势时，设备可基于手势识别的人机交互模式识别该手势，从而确定用户输入的控制指令。然而，在进行手势识别时，若用户身旁出现一些与特定的手势相似的物体(例如，某个用户身旁的纸袋的表面印刷有某个手势)，通常会引起设备对手势的误识别，从而影响了手势识别的准确性。

发明内容

本申请实施例提供了一种手势识别的方法及其相关设备，可有效减少与手势动作相似的物体对手势识别产生的干扰，提高手势识别的准确性。

本申请实施例的第一方面提供了一种手势识别的方法，该方法包括：

当需要进行手势识别时，可先获取包含目标人体的当前图像帧。在得到当前图像帧后，可基于当前图像帧和之前已获取的上一图像帧进行帧间差分处理，得到当前图像帧与上一图像帧之间的差分图像帧。

得到当前图像帧与上一图像帧之间的差分图像帧后，可基于该差分图像帧计算当前图像帧的动量。然后，基于当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量计算当前图像帧的动量累计值。

在当前图像帧中设定目标区域，该目标区域包括目标人体的手部。接着，基于当前图像帧的动量累计值，计算当前图像帧的目标区域内各个像素点的动量累计值的平均值。

若确定平均值大于或等于预置的阈值，则对目标区域进行手势识别，得到目标手势动作，从而确定用户输入的控制指令。

从上述方法可以看出：在得到当前图像帧与上一图像帧之间的差分图像帧后，可基于该差分图像帧计算当前图像帧的动量，进而计算当前图像帧的动量累计值。然后，基于当前图像帧的动量累计值，可确定目标区域内各个像素点的动量累计值的平均值。若该平均值大于或等于预置的阈值，则确定目标区域中的目标人体的手部为运动中的手部，最后对目标区域进行手势识别，得到目标手势动作，从而确定用户输入的控制指令。由于目标人体在通过手势动作进行人机交互时，目标人体的手部通常处于运动状态。在确定当前图像帧中目标人体的手部处于运动状态后，手势识别所得到的结果基本为目标人体的手势动作，可有效减少与手势动作相似的物体对手势识别产生的干扰，提高手势识别的准确性。

在一种可能的实现方式中，若确定平均值大于或等于预设阈值包括：若确定平均值大于或等于预设阈值，且确定目标区域中目标人体的手部未持有物体。

在一种可能的实现方式中，对目标区域进行手势识别，得到目标手势动作包括：对目标区域进行手势识别，得到多个候选手势动作的概率。基于多个候选手势动作的概率的大小，在多个候选手势动作确定目标手势动作。

在一种可能的实现方式中，目标人体与摄像头之间的距离位于预置范围内，摄像头用于获取图像帧。

在一种可能的实现方式中，当前图像帧的动量为差分图像帧与预置的动量系数之间的积。

在一种可能的实现方式中，动量累计值基于预置的动量系数、当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量得到。

本申请实施例的第二方面提供了一种手势识别的装置，该装置包括：

第一获取模块，用于获取当前图像帧与上一图像帧之间的差分图像帧，当前图像帧包括目标人体。

第二获取模块，用于获取当前图像帧的动量累计值，动量累计值基于当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量得到，当前图像帧的动量基于差分图像帧得到。

第三获取模块，用于基于当前图像帧的动量累计值，获取当前图像帧的目标区域内各个像素点的动量累计值的平均值，目标区域包括目标人体的手部。

识别模块，用于若确定平均值大于或等于预置的阈值，则对目标区域进行手势识别，得到目标手势动作。

从上述装置可以看出：在得到当前图像帧与上一图像帧之间的差分图像帧后，可基于该差分图像帧计算当前图像帧的动量，进而计算当前图像帧的动量累计值。然后，基于当前图像帧的动量累计值，可确定目标区域内各个像素点的动量累计值的平均值。若该平均值大于或等于预置的阈值，则确定目标区域中的目标人体的手部为运动中的手部，最后对目标区域进行手势识别，得到目标手势动作，从而确定用户输入的控制指令。由于目标人体在通过手势动作进行人机交互时，目标人体的手部通常处于运动状态。在确定当前图像帧中目标人体的手部处于运动状态后，手势识别所得到的结果基本为目标人体的手势动作，可有效减少与手势动作相似的物体对手势识别产生的干扰，提高手势识别的准确性。

在一种可能的实现方式中，识别模块还用于若确定平均值大于或等于预设阈值，且确定目标区域中目标人体的手部未持有物体，则对目标区域进行手势识别，得到目标手势动作。

在一种可能的实现方式中，识别模块还用于若确定平均值大于或等于预设阈值，且确定目标区域中目标人体的手部未持有物体，对目标区域进行手势识别，得到多个候选手势动作的概率。基于多个候选手势动作的概率的大小，在多个候选手势动作确定目标手势动作。

在一种可能的实现方式中，该装置还包括摄像头，该摄像头用于获取图像帧，目标人体与摄像头之间的距离位于预置范围内。

在一种可能的实现方式中，动量累计值基于预置的动量系数、当前图像帧的动量以及当前图像帧之前连续多个图像帧的动量得到。

本申请实施例的第三方面提供了一种手势识别的装置，该装置包括：

一个或一个以上处理器，存储器，输入输出接口，有线或无线网络接口，电源；

存储器为短暂存储存储器或持久存储存储器；

处理器配置为与存储器通信，在手势识别的装置上执行存储器中的指令操作以执行第一方面任意一项所述的方法。

本申请实施例的第四方面提供了一种终端设备，该终端设备包括如第三方面的装置。

本申请实施例的第五方面提供了一种计算机可读存储介质，包括指令，当指令在计算机上运行时，使得计算机执行如第一方面任意一项所述的方法。

本申请实施例的第六方面提供了一种包含指令的计算机程序产品，该计算机程序产品包括程序指令，当该程序指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面任意一项所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在得到当前图像帧与上一图像帧之间的差分图像帧后，可基于该差分图像帧计算当前图像帧的动量，进而计算当前图像帧的动量累计值。然后，基于当前图像帧的动量累计值，可确定目标区域内各个像素点的动量累计值的平均值。若该平均值大于或等于预置的阈值，则确定目标区域中的目标人体的手部为运动中的手部，最后对目标区域进行手势识别，得到目标手势动作，从而确定用户输入的控制指令。由于目标人体在通过手势动作进行人机交互时，目标人体的手部通常处于运动状态。在确定当前图像帧中目标人体的手部处于运动状态后，手势识别所得到的结果基本为目标人体的手势动作，可有效减少与手势动作相似的物体对手势识别产生的干扰，提高手势识别的准确性。

附图说明

图1为本申请实施例提供的应用场景的一个示意图；

图2为本申请实施例提供的手势识别的方法的一个流程示意图；

图3为本申请实施例提供的目标区域的一个示意图；

图4为本申请实施例提供的手势动作的一个示意图；

图5为本申请实施例提供的手势识别的装置的一个结构示意图；

图6为本申请实施例提供的手势识别的装置的另一结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。因此，可通过人工智能优化基于手势识别的人机交互模式。

以用户通过手势动作控制设备的应用场景进行说明。在此类场景中，设备通常指处于静止状态中的终端设备，例如安装有摄像头的电视机、监控器等可以采集图像帧的设备，用户可在与设备相距一定距离的范围内，向设备示意出特定的手势，使得设备进行手势识别，从而确定用户输入的控制指令。图1为本申请实施例提供的应用场景的一个示意图。如图1所示，当用户出现在电视机前方时，电视机的摄像头可实时获取用户的图像帧。一旦用户向电视机示意出特定的手势，电视机内置的处理器可基于摄像头采集的图像帧，对用户的手部进行手势识别，从而确定用户输入的控制指令，并响应该控制指令。

然而，若用户旁边出现与特定手势相似的物体，可能会造成设备对手势的误识别，从而影响手势识别的准确性。为了提高设备手势识别的准确性，本申请实施例提供了一种手势识别的方法。图2为本申请实施例提供的手势识别的方法的一个流程示意图。需要说明的是，图2所示方法的执行主体为手势识别的装置，该装置通常内置于终端设备中，且该装置包括摄像头和处理器，其中，摄像头用于采集包括人体的图像帧，处理器可对来自摄像头的图像帧进行目标检测和手势识别等操作。如图2所示，该方法包括：

201、获取当前图像帧与上一图像帧之间的差分图像帧，当前图像帧包括目标人体。

在终端设备启动后，可通过手势识别的装置中的摄像头，实时采集终端设备前方的图像帧。摄像头可将采集得到的图像帧发送至处理器，使得处理器对图像帧进行目标检测。需要说明的是，处理器上加载有已完成训练的神经网络，因此，处理器可将图像帧输入神经网络中，使得神经网络对图像帧进行目标检测，若神经网络确定图像帧中出现多个人体，且确定至少一个人体与设备之间的距离位于预置范围内，则将位于预置范围内的至少一个人体确定为目标人体。可以理解的是，预置范围为预先设定的范围，例如3m、4m等等。由于终端设备前方可能出现多个人体，故可通过神经网络对距离进行筛选，将距设备较远的人体剔除，将距设备较近的人体视为目标人体，目标人体的手部的手势动作则可为有效的手势动作(即可能对设备下发控制指令的动作)，如此一来，可减少处理器的工作量，降低处理器的功耗，从而实现节能。处理器基于神经网络确定目标人体后，可控制摄像头锁定目标人体，使得摄像头采集包含目标人体的连续多个图像帧。

应理解，上述神经网络的可以为多层感知机(multi-layer perceptron，MLP)、卷积神经网络(convolutional neural networks,CNN)、递归神经网络(recursive neuralnetwork)、循环神经网络(recurrent neural network,RNN)等模型中的任意一种，此处不做限定。

还应理解，本实施例中对神经网络的训练过程为AI技术中通用的神经网络训练过程，此处不再赘述。

本实施例中，将摄像头当前时刻所采集的包含目标人体的图像帧称为当前图像帧。处理器获得当前图像帧后，可获取上一时刻得到的上一图像帧。然后，对当前图像帧和上一图像帧进行帧间差分操作，得到当前图像帧和上一图像帧之间的差分图像帧。具体地，获取差分图像帧的计算公式如下：

D_m＝F_m-F_m-1

上式中，D_m为当前图像帧的差分图像帧，F_m为当前图像帧的像素值，F_m-1为上一帧图像帧的像素值，m为图像帧的帧号，m≥2。例如，当m为2时，表明当前图像帧F₂为第2个图像帧，上一图像帧F₁为第1个图像帧，D₂则为F₂与F₁之间的差分图像帧。又如，当m为3时，表明当前图像帧F₃为第3个图像帧，上一图像帧F₂为第2个图像帧，D₃则为F₃与F₂之间的差分图像帧等等。

202、获取当前图像帧的动量累计值，动量累计值基于当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量得到，当前图像帧的动量基于差分图像帧得到。

得到当前图像帧与上一图像帧之间的差分图像帧后，处理器可基于该差分图像帧计算当前图像帧的动量。具体地，当前图像帧的动量为差分图像帧与预置的动量系数之间的积。当前图像帧的动量的计算公式如下：

A_m＝αD_m

上式中，A_m为当前图像帧的动量，α为预置的动量系数。

得到当前图像帧的动量后，处理器可基于当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量计算当前图像帧的动量累计值。具体地，当前图像帧的动量累计值基于预置的动量系数、当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量(即当前图像帧之前的所有图像帧的动量)得到。当前图像帧的动量累计值的计算公式如下：

DIF₁＝A₁

DIF₂＝A₂+(1-α)DIF₁

......

DIF_m＝A_m+(1-α)DIF_m-1

上式中，A₁为第1个图像帧的动量，DIF₁为第1个图像帧的动量累计值，A₂为第2个图像帧的动量，DIF₂为第2个图像帧的动量累计值，DIF_m-1当前图像帧的上一图像帧的动量累计值，DIF_m为当前图像帧的动量累计值。可以理解的是，当前图像帧的帧号越大时，当前图像帧的动量累计值与当前图像帧的动量相关性越大，与上一图像帧的动量累计值相关性越小(即当前图像帧的动量累计值，受到当前图像帧之前连续多个图像帧的动量的影响越小)。

203、基于当前图像帧的动量累计值，获取当前图像帧的目标区域内各个像素点的动量累计值的平均值，目标区域包括目标人体的手部。

在得到当前图像帧的动量累计值后，则相当于得到当前图像帧中各个像素点的动量累计值。为了进一步减少处理器的工作量，可在当前图像帧中设定一个目标区域，该目标区域包括目标人体的手部，使得处理器仅针对当前图像帧中的目标区域进行后续处理，处理器则不需对当前图像帧中除目标区域外的其余区域进行处理，以进一步降低处理器的功耗，实现节能。为了进一步理解，下文结合图3对目标区域作进一步的介绍。图3为本申请实施例提供的目标区域的一个示意图，如图3所示，处理器在当前图像帧中设置一个检测框(即目标区域)，该检测框可用于捕捉当前图像帧中目标人体的手部。

确定当前图像帧的目标区域后，处理器可获取当前图像帧的目标区域内各个像素点的动量累计值的平均值。具体地，从当前图像帧中划分出目标区域后，可确定目标区域中各个像素点的动量累计值，并进行求平均计算(即将目标区域内所有像素点的动量累计值进行求和，然后将所得到的和除以目标区域内像素点的数量)，从而得到目标区域内各个像素点的动量累计值的平均值。

204、判断平均值大于或等于预置的阈值，若是，则执行步骤205，若不是，则停止操作。

在得到当前图像帧的目标区域内各个像素点的动量累计值的平均值后，处理器可比较该平均值与预置的阈值之间的大小。若该平均值大于或等于预置的阈值，则确定目标区域中的物体为运动中的物体，即为目标人体的手部(因为用户通过手势向设备下发控制指令时，用户的手部需要运动)，且目标人体的手部处于运动状态，而非静止中的物体，以此避免与特定的手势相似的物体所造成的影响。若该平均值小于预置的阈值，则目标区域内的物体可能为静止中的物体(例如位于用户旁边的与特定手势相似的物体)，有可能出现手势误识别，则不再继续后续的操作。

205、判断目标区域中目标人体的手部是否持有物体，若不是，则执行步骤206，若是，则停止操作。

确定平均值大于或等于预置的阈值后，处理器可检测目标区域中目标人体的手部是否持有物体。具体地，处理器可对目标区域中的物体进行交并比(Intersection ofUnion，IOU)检测。在获取目标人体的手部与其余物体之间的IOU后，若该IOU小于预设的IOU，则确定目标人体的手部未持有物体，若该IOU大于或等于预设的IOU阈值，则确定目标人体的手部持有物体，有可能出现手势误识别(例如，用户在喝水，其手部持有水杯，且手部处于运动状态，但用户并非想向设备下达控制指令)，则不再继续后续的操作。

206、对目标区域进行手势识别，得到目标手势动作。

在确定目标人体的手部未持有物体后，处理器对目标区域进行手势识别，得到目标手势动作。具体地，处理器先对目标区域进行手势识别，得到多个候选手势动作的概率。然后，基于多个候选手势动作的概率的大小，处理器在多个候选手势动作确定目标手势动作。在多个候选手势动作选择一个最终的手势动作作为目标手势动作时，可能出现多种情况，以下将分别进行介绍：

(1)在得到第一数量个候选手势动作的概率后，可将每个候选手势动作的概率与相应的概率阈值进行比较。若有第二数量(小于或等于第一数量)个候选手势动作的概率大于相应的概率阈值，且这部分候选手势动作互不相同，则按预置的优先级，在这部分候选手势动作中选择优先级最高的手势动作作为目标手势动作。为了便于理解，下文结合图4对前述过程进行介绍。图4为本申请实施例提供的手势动作的一个示意图，如图4所示，处理器得到4个手势动作的概率，分别为手势动作1的概率、手势动作2的概率、手势动作3的概率和手势动作4的概率。然后，将手势动作1的概率与预置的概率阈值A(设为0.95)比较，将手势动作2的概率与预置的概率阈值B(设为0.9)比较，将手势动作3的概率与预置的概率阈值C(设为0.85)比较，将手势动作4的概率与预置的概率阈值D(设为0.8)比较。在确定仅有手势动作1的概率、手势动作2的概率、手势动作3的概率大于相应的概率阈值后，则按优先级(手势动作1优于手势动作2，手势动作2优于手势动作3)将手势动作1作为目标手势动作。需要说明的是，手势动作的优先级是预先设置的，手势动作的优先级可按手势动作的误触率大小进行设置。

(2)在得到第一数量个候选手势动作的概率后，可将每个候选手势动作的概率与相应的概率阈值进行比较。若有第二数量(小于或等于第一数量)个候选手势动作的概率大于相应的概率阈值，且这部分候选手势动作为相同的手势动作，则从中选择一个距摄像头最近的手势动作作为目标手势动作。例如，处理器得到4个手势动作的概率，分别为手势动作1的概率a、手势动作1的概率b、手势动作2的概率和手势动作3的概率。然后，将手势动作1的概率a与预置的概率阈值A比较，将手势动作1的概率b与预置的概率阈值A比较，将手势动作2的概率与预置的概率阈值B比较，将手势动作3的概率与预置的概率阈值C比较。在确定仅有手势动作1的概率a、手势动作1的概率b大于相应的概率阈值后，设手势动作1的概率a对应的手势动作离摄像头较近(在图像帧中显示得比较大)，则可将该手势动作作为目标手势动作。

在确定目标手势动作后，处理器可确定该目标手势动作对应的指令，即确定用户下发的控制指令，并响应于该控制指令。

本实施例中，在得到当前图像帧与上一图像帧之间的差分图像帧后，可基于该差分图像帧计算当前图像帧的动量，进而计算当前图像帧的动量累计值。然后，基于当前图像帧的动量累计值，可确定目标区域内各个像素点的动量累计值的平均值。若该平均值大于或等于预置的阈值，则确定目标区域中的目标人体的手部为运动中的手部，最后对目标区域进行手势识别，得到目标手势动作，从而确定用户输入的控制指令。由于目标人体在通过手势动作进行人机交互时，目标人体的手部通常处于运动状态。在确定当前图像帧中目标人体的手部处于运动状态后，手势识别所得到的结果基本为目标人体的手势动作，可有效减少与手势动作相似的物体对手势识别产生的干扰，提高手势识别的准确性。

以上是对本申请实施例提供的手势识别的方法所进行的详细说明，以下将对本申请实施例提供的手势识别的装置进行介绍。图5为本申请实施例提供的手势识别的装置的一个结构示意图，如图5所示，该装置包括：

第一获取模块501，用于获取当前图像帧与上一图像帧之间的差分图像帧，当前图像帧包括目标人体。

第二获取模块502，用于获取当前图像帧的动量累计值，动量累计值基于当前图像帧的动量以及当前图像帧之前的连续多个图像帧的动量得到，当前图像帧的动量基于差分图像帧得到。

第三获取模块503，用于基于当前图像帧的动量累计值，获取当前图像帧的目标区域内各个像素点的动量累计值的平均值，目标区域包括目标人体的手部。

识别模块504，用于若确定平均值大于或等于预置的阈值，则对目标区域进行手势识别，得到目标手势动作。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

图6为本申请实施例提供的手势识别的装置的另一结构示意图。如图6所示，该装置可包括一个或一个以上处理器601，存储器602，输入输出接口603，有线或无线网络接口604，电源605。

存储器602可以是短暂存储或持久存储。更进一步地，处理器601可以配置为与存储器602通信，在手势识别的装置上执行存储器602中的一系列指令操作。

本实施例中，处理器601可以执行前述图2所示实施例中的方法步骤，具体此处不再赘述。

本实施例中，处理器601中的具体功能模块划分可以与前述图5中所描述的第一获取模块、第二获取模块、第三获取模块、识别模块等模块的功能模块划分方式类似，此处不再赘述。

本申请实施例还提供了一种终端设备，该终端设备可以是带有摄像头的电视机、监控器等可以采集图像帧的设备，该终端设备包括如图6所示的装置。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当指令在计算机上运行时，使得计算机执行如图2所示的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，该计算机程序产品包括程序指令，当该程序指令在计算机或处理器上运行时，使得计算机或处理器执行如图2所示的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种手势识别的方法，其特征在于，所述方法包括：

获取当前图像帧与上一图像帧之间的差分图像帧，所述当前图像帧包括目标人体；

获取所述当前图像帧的动量累计值，所述动量累计值基于所述当前图像帧的动量以及所述当前图像帧之前的连续多个图像帧的动量得到，所述当前图像帧的动量基于所述差分图像帧得到；

基于所述当前图像帧的动量累计值，获取所述当前图像帧的目标区域内各个像素点的动量累计值的平均值，所述目标区域包括所述目标人体的手部；

若确定所述平均值大于或等于预置的阈值，则对所述目标区域进行手势识别，得到目标手势动作。

2.根据权利要求1所述的方法，其特征在于，所述若确定所述平均值大于或等于预设阈值包括：

若确定所述平均值大于或等于预设阈值，且确定所述目标区域中所述目标人体的手部未持有物体。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标区域进行手势识别，得到目标手势动作包括：

对所述目标区域进行手势识别，得到多个候选手势动作的概率；

基于多个候选手势动作的概率的大小，在所述多个候选手势动作确定目标手势动作。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述目标人体与摄像头之间的距离位于预置范围内，所述摄像头用于获取图像帧。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述当前图像帧的动量为所述差分图像帧与预置的动量系数之间的积。

6.根据权利要求5所述的方法，其特征在于，所述动量累计值基于所述预置的动量系数、所述当前图像帧的动量以及所述当前图像帧之前的连续多个图像帧的动量得到。

7.一种手势识别的装置，其特征在于，所述装置包括：

第一获取模块，用于获取当前图像帧与上一图像帧之间的差分图像帧，所述当前图像帧包括目标人体；

第二获取模块，用于获取所述当前图像帧的动量累计值，所述动量累计值基于所述当前图像帧的动量以及所述当前图像帧之前的连续多个图像帧的动量得到，所述当前图像帧的动量基于所述差分图像帧得到；

第三获取模块，用于基于所述当前图像帧的动量累计值，获取所述当前图像帧的目标区域内各个像素点的动量累计值的平均值，所述目标区域包括所述目标人体的手部；

识别模块，用于若确定所述平均值大于或等于预置的阈值，则对所述目标区域进行手势识别，得到目标手势动作。

8.一种手势识别的装置，其特征在于，包括：

所述存储器为短暂存储存储器或持久存储存储器；

所述处理器配置为与所述存储器通信，在所述手势识别的装置上执行所述存储器中的指令操作以执行权利要求1至4中任意一项所述的方法。

9.一种终端设备，其特征在于，所述终端设备包括如权利要求8所述的装置。

10.一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至4中任意一项所述的方法。