CN109902588A

CN109902588A - 一种手势识别方法、装置及计算机可读存储介质

Info

Publication number: CN109902588A
Application number: CN201910088225.XA
Authority: CN
Inventors: 赵突
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-06-18
Anticipated expiration: 2039-01-29
Also published as: CN109902588B

Abstract

本发明实施例提供了一种手势识别方法、装置及计算机可读存储介质，方法包括：在目标视频中识别目标手势，得到手势类别和手势位置；根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果；对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果。本发明实施例手势识别结果中目标手势的类别和位置是较准确对应的，在实际的应用场景中，根据该手势识别结果在目标视频中添加特效时，能较好克服特效位置与视频中的手势位置不对应的情况，使得加特效效果较好。

Description

一种手势识别方法、装置及计算机可读存储介质

技术领域

本发明涉及视频处理领域，特别是涉及一种手势识别方法、装置及计算机可读存储介质。

背景技术

随着视频处理技术的发展，根据视频内容在视频中加特效，进而丰富视频内容的应用场景越来越多。举例来说，可以根据对视频中手势类别的识别，在视频中对应于手势的位置添加该手势类别对应的特效，例如，若在视频中识别到比心的手势，可以在视频中对应于该比心的手势的位置区域加入心型特效等。

现有技术中，以在视频中识别到比心的手势后，在该视频中对应于该比心的手势的位置区域加入心型特效为例，通常的做法是：在识别到该比心的手势后，通过跟踪模型跟踪该手势，然后获取跟踪到的手势位置，在该手势位置添加心型特效。

但是，申请人发现会有如下的情况出现：跟踪模型定位手势后，需要经过计算、分析才能得到具体的手势位置，该计算、分析的过程会造成时间消耗，而该段时间内手势位置可能已经发生了变化，因此，在视频中对应该手势位置添加特效时，会出现特效位置与视频中的手势位置不对应的情况，使得加特效效果较差。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种手势识别方法、装置及计算机可读存储介质。

根据本发明的第一方面，提供了一种手势识别方法，所述方法包括：

在目标视频中识别目标手势，得到手势类别和手势位置；

根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果；

对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果。

根据本发明的第二方面，提供了一种手势识别装置，所述装置包括：

识别模块，用于在目标视频中识别目标手势，得到手势类别和手势位置；

跟踪模块，用于根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果；

滤波模块，用于对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现任一所述的手势识别方法。

本发明实施例包括以下优点：

本发明实施例中首先在目标视频中识别目标手势，得到手势类别和手势位置，然后根据手势位置更新跟踪模型，使得该跟踪模型可以以该手势位置为起始，跟踪该目标手势，得到多个手势位置跟踪结果，考虑到跟踪模型在计算手势位置跟踪结果的时间消耗，使得该多个手势位置跟踪结果与目标视频中对应时刻的实际手势位置可能存在误差，因此对该多个手势位置跟踪结果进行平滑滤波，进而可以基于平滑滤波预测到目标手势的较准确的位置，将该较准确的位置结合手势类别得到手势识别结果，则该手势识别结果中目标手势的类别和位置是较准确对应的，在实际的应用场景中，根据该手势识别结果在目标视频中添加特效时，能较好克服特效位置与视频中的手势位置不对应的情况，使得加特效效果较好。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种手势识别方法的流程图；

图2是本发明实施例提供的一种平滑滤波示意图；

图3是本发明实施例提供的一种手势识别方法的具体流程图；

图4是本发明实施例提供的一种手势识别模型框架示意图；

图5是本发明实施例提供的一种跟踪过程示意图；

图6是本发明实施例提供的一种手势识别装置的框图；

图7是本发明实施例提供的一种手势识别装置的具体框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

应当理解，此处所描述的具体实施例仅用以解释本发明，仅仅是本发明一部分实施例，而不是全部的实施例，并不用于限定本发明。

参照图1，示出了一种手势识别方法的流程图。

该方法具体可以包括如下步骤：

步骤101：在目标视频中识别目标手势，得到手势类别和手势位置。

本发明实施例中，可以通过手势识别模型等对目标视频中的手势进行识别，目标手势可以是手势识别模型能够识别出的手势，例如，手势识别模型是通过100种类别的手势样本训练得到的，则若在目标视频中包括有该100种类别的手势的其中任意一种，就可以作为目标手势被识别。

具体应用中，目标视频可以是视频平台上提供的短视频、电影等视频作品，也可以是用户拍摄的视频作品，本法实施例对目标视频不作具体限定。

具体应用中，在目标视频中包括有目标手势，目标手势的手势类别可以根据实际的应用场景进行确定，本发明实施例不做具体限定；可以理解，为了后期对目标视频可以有较好的处理，目标手势可以是一些具有一些为公众所熟知的包含一定意义的手势，例如比心、抱拳等。

具体应用中，目标手势的手势位置可以通过目标手势在目标视频中对应的像素坐标等表示。

步骤102：根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果。

本发明实施例中，跟踪模型可以通过跟踪算法实现对目标手势的跟踪，跟踪算法的具体形式可以根据实际应用场景确定，本发明实施例对跟踪算法不作具体限定。

具体应用中，在识别得到目标手势的手势位置后，可以将该手势位置对应的坐标数据作为跟踪模型的输入，更新跟踪模型的初始跟踪区域，使得更新后的跟踪模型可以在目标视频中从该手势位置对应的区域起始对目标手势进行跟踪。

具体应用中，手势位置跟踪结果可以是跟踪到的手势对应的位置坐标等，通过该手势位置跟踪结果可以反映目标手势在目标视频中的位置，手势位置跟踪结果的具体个数可以根据实际的应用场景确定，例如，在跟踪模型效率较高的应用场景中，可以得到较多个数的手势位置跟踪结果，在跟踪模型效率较低的应用场景中，可以得到较少个数的手势位置跟踪结果。

步骤103：对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果。

本发明实施例中，对该多个手势位置跟踪结果进行平滑滤波具体可以是：通过已经得到的该多个手势位置跟踪结果，预测目标手势的移动轨迹，从而预测到目标手势在当前时刻的较准确的位置。

具体来说，发明人在研究中发现，跟踪模型进行目标手势跟踪时，从定位手势到得到具体的手势位置跟踪结果之间，需要经过计算、分析的时间消耗，因此跟踪模型得到的多个手势位置跟踪结果是不连续的、离散分布的位置，而在实际应用场景中，目标手势在目标视频中的移动通常是连续的、不会发生突变的、平滑的移动，基于该发现，本发明实施例中将多个离散手势位置跟踪结果平滑滤波，得到目标手势的移动轨迹，从而可以根据目标手势的移动轨迹预测到目标手势在当前时刻的较准确的位置。示例的，对多个手势位置跟踪结果进行平滑滤波可以是，对于每两个相邻的手势位置跟踪结果，计算该两个相邻的手势位置跟踪结果的中间位置，将该中间位置作为目标手势的移动轨迹上的其中一个位置，可以理解，在获取到两个相邻的手势位置跟踪结果的中间位置后，还可以将该中间位置与该两个相邻的手势位置跟踪结果分别再次计算新的中间位置，从而通过该两个相邻的手势位置跟踪结果预测到目标手势在该两个相邻的手势位置跟踪结果的移动轨迹，基于该方式对多个手势位置跟踪结果进行平滑滤波后，就可以得到目标手势的移动轨迹，根据该移动轨迹的走势可以预测到目标手势在当前时刻对应的较准确地位置。可以理解，平滑滤波的具体方式还可以根据实际的应用场景确定，只要可以预测到目标手势在当前时刻的较准确的位置即可，本发明实施例对平滑滤波不进行具体限定。

本发明实施例中，通过对多个手势位置跟踪结果进行平滑滤波后，可以预测到目标手势在当前时刻的较准确的位置，将该较准确的位置结合手势类别作为手势识别结果，则该手势识别结果中目标手势的类别和位置是较准确对应的，在实际的应用场景中，根据该手势识别结果在目标视频中添加特效时，能较好克服特效位置与视频中的手势位置不对应的情况，使得加特效效果较好。

作为本发明实施例的一种优选方案，还可以通过卡尔曼滤波算法对多个手势位置跟踪结果进行平滑滤波。

卡尔曼滤波(Kalman filtering)算法是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。卡尔曼滤波利用前一时刻的估计值和当前时刻的观测值来更新对状态变量的估计，计算出当前时刻的估计值，能够有效平滑算法的结果。与其他的平滑滤波相比，卡尔曼滤波算法具有效率高、准确度高的特点，因此通过卡尔曼滤波算法对多个手势位置跟踪结果进行平滑滤波，可以即快速又准确的预测到现在时刻目标手势在目标视频中的位置。

具体应用中，卡尔曼滤波算法的操作可以包括两个阶段：预测与更新。在预测阶段，卡尔曼滤波算法使用上一状态的估计值，做出对当前状态的估计值。在更新阶段，卡尔曼滤波算法利用对当前状态的观测值优化在预测阶段获得的预测值，以获得一个更精确的新估计值。

具体应用中，对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果包括：，包括：

子步骤A1：根据所述多个手势位置跟踪结果，计算状态估计值和协方差矩阵估计值。

具体应用中，因为目标手势在目标视频中通常对应一个区域，在该区域中可以包括较多的像素坐标，因此每个手势位置跟踪结果可以对应一个像素坐标矩阵，多个手势位置跟踪结果可以按照被获取的时间顺序组成离散的结果序列，在卡尔曼滤波算法中，可以将每个手势位置跟踪结果对应的像素坐标矩阵作为一个结果状态，进而可以根据上一个结果状态预估下一个结果状态，得到该上一个结果状态对应的下一个结果状态的初步状态估计值。

举例来说，以表示在时刻k的结果状态的状态估计值；协方差矩阵估计值P_k|k-1表示卡尔曼滤波算法中计算出的该状态估计值的精确程度。

状态估计值可以根据下述公式计算：

协方差矩阵估计值可以根据下述公式计算：

其中，是上一结果状态；u_k为现在状态的控制量，F_k和B_k为矩阵，Q_k是协方差，u_k、F_k、B_k和Q_k都是根据卡尔曼平滑滤波算法在实际应用中的需求所设定的常量。

通过子步骤A1，可以根据已经确定的手势位置跟踪结果对应的像素坐标矩阵，初步预测到该手势位置跟踪结果之后的目标手势的位置，以及该初步预测的精确程度。

子步骤A2：根据所述状态估计值和所述协方差矩阵估计值，计算测量余量和卡尔曼增益。

测量余量可以根据下述公式计算：

根据测量余量可以根据下述公式计算得到测量余量协方差S_k：

卡尔曼增益K_k可以根据下述公式计算：

其中，z_k是k时刻的手势位置跟踪结果对应的结果状态，H_k是根据实际应用确定的卡尔曼平滑滤波算法中的参数。

通过子步骤A2，可以得到在本次预测中，卡尔曼滤波算法中的卡尔曼增益，根据卡尔曼增益可以进一步更新状态估计值，得到准确的更新状态估计值。

子步骤A3：根据所述测量余量、所述卡尔曼增益、所述状态估计值和所述协方差矩阵估计值，计算更新状态估计值和协方差估计值，得到目标手势位置。

更新状态估计值可以根据下述公式计算：

协方差估计值P_k|k可以根据下述公式计算：

P_k|k＝(I-K_kH_k)P_k|k-1

通过子步骤A3，可以得到k时刻的手势位置跟踪结果对应的最优预测结果该对应着目标手势在现在时刻的目标手势位置；且更新了该k时刻对应的协方差估计值以确保卡尔曼滤波不断的运行下去直到平滑滤波结束。

子步骤A4：将所述手势类别和目标手势位置作为手势识别结果。

本发明实施例中，手势类别和目标手势位置是较为准确对应的，因此可以将手势类别和该目标手势位置作为手势识别结果，从而得到现在时刻准确的手势类别和手势位置。

本发明实施例中，通过步骤101至步骤103说明了在一次手势识别的完整过程，具体来说，在识别到目标手势的手势类别和手势位置后，根据手势位置更新跟踪模型，使得该跟踪模型可以以该手势位置为起始，跟踪该目标手势，得到多个手势位置跟踪结果，对该多个手势位置跟踪结果进行平滑滤波，进而可以基于平滑滤波预测到目标手势的较准确的位置，将该较准确的位置结合手势类别得到手势识别结果，从而完成一次手势识别。

实际应用中，目标视频是连续的，目标手势可以持续被识别，在持续识别的过程中，步骤101和步骤103将循环进行，具体来说，在完成一次完整的手势识别后，重复进行上述的识别目标手势的手势类别和手势位置、根据手势位置更新跟踪模型、利用跟踪模型得到多个手势位置跟踪结果，对该多个手势位置跟踪结果进行平滑滤波、结合手势类别得到手势识别结果的过程，从而在目标视频中实现对目标手势的连续识别。

示例的，如图2所示，横坐标可以表示视频帧，纵坐标可以表示手势位置，离散的点可以表示识别或跟踪得到的具体手势位置，曲线可以表示根据卡尔曼滤波得到的连续的手势位置轨迹，在任意时刻，均可以在手势位置轨迹中得到目标手势的较准确的位置，将该时刻对应的较准确的位置结合手势类别，作为该时刻的手势识别结果，则该手势识别结果中目标手势的类别和位置是较准确对应的，根据该手势识别结果在目标视频中添加特效时，能较好克服特效位置与视频中的手势位置不对应的情况，使得加特效效果较好。

综上所述，本发明实施例中首先在目标视频中识别目标手势，得到手势类别和手势位置，然后根据手势位置更新跟踪模型，使得该跟踪模型可以以该手势位置为起始，跟踪该目标手势，得到多个手势位置跟踪结果，考虑到跟踪模型在计算手势位置跟踪结果的时间消耗，使得该多个手势位置跟踪结果与目标视频中对应时刻的实际手势位置可能存在误差，因此对该多个手势位置跟踪结果进行平滑滤波，进而可以基于平滑滤波预测到目标手势的较准确的位置，将该较准确的位置结合手势类别得到手势识别结果，则该手势识别结果中目标手势的类别和位置是较准确对应的，在实际的应用场景中，根据该手势识别结果在目标视频中添加特效时，能较好克服特效位置与视频中的手势位置不对应的情况，使得加特效效果较好。

参照图3，示出了一种手势识别方法的具体流程图，具体可以包括如下步骤：

步骤201：将目标视频输入手势识别模型，得到所述目标视频对应的浮点数计算数据。

步骤202：通过所述手势识别模型将所述浮点数计算数据转换为整数计算数据，并基于所述整数计算数据识别目标手势，得到手势类别和手势位置。

具体应用中，手势识别模型可以在服务器中基于神经网络模型进行训练得到，训练手势识别模型的过程可以为：

先采集多种手势图片作为训练图片，人工标记出手势的区域和类别，然后使用训练图片训练基于MobileNet(移动网络)+SSD(Single Shot MultiBox Detector，基于全卷积的网络识别器)的手势识别模型。

MobileNet是针对移动终端等嵌入式设备提出的一种轻量级的深层神经网络，可以有效降低神经网络的运算复杂度。在识别时使用SSD算法。SSD是目前主要的识别框架之一，SSD算法中，只需要将图片输入一次就可以得到手势类别识别结果及手势位置识别结果。SSD中加入基于特征金字塔的识别方式，能够在多个尺度识别手势。

基于MobileNet+SSD训练模型分为训练阶段和推理阶段。在训练阶段，使用训练图片，训练模型中的参数。训练图片经过处理以后，比如旋转，缩放，截取，变形等，送入模型进行前向计算，经过与标注的真实值计算出误差以后，反向传播更新模型权重。经过训练阶段，模型获得能够进行手势识别的参数。经过多次训练后，可得到基于MobileNet+SSD的手势识别模型。在推理阶段，目标视频可以由多帧图片组成，对于每帧图片，图片可以直接缩放到300*300的尺寸，输入到网络中，在网络的输出中，可以获得该图片中目标手势的位置和类别信息，经过最大值抑制处理以后，得到最终的最优手势位置和手势类别。本发明实施例中，采用基于MobileNet+SSD的手势识别模型可以同时得到类别和位置，识别效率比较高。

具体应用中，如图4所示，示出了MobileNet+SSD系统框图，每个立方块可以表示该系统中的一个层级，原始的目标视频的各帧图片经过MobileNet以后，在不同的层级分别提取特征，输入到SSD目标检测层，在MobileNet+SSD网络每个层级分别进行检测。经过多级的网络级联以后，最终输出目标手势的类别以及位置坐标信息。输出的位置坐标信息经过非极大值抑制算法后，排除重叠的检测位置，得到置信度最大的手势类别和手势位置。

在实际应用中，手势识别模型通常是基于浮点数计算的模型，将目标视频输入手势识别模型后，手势识别模型会将目标视频处理为浮点数计算数据，考虑到浮点数计算的运算量较大，会影响手势识别的效率，因此，本发明实施例中，手势识别模型中可以设置量化层，进而可以通过该量化层将浮点数计算数据转换为整数计算数据，并基于该整数计算数据识别目标手势，得到手势类别和手势位置，整数计算相对与浮点数计算，无论是运算困难度还是运算量都大大降低，因此可以提升手势识别模型的执行速度。实验中，发明人经过大量的实验证明，将手势识别模型中的浮点数计算转换为整数计算后，在进行手势识别时可以将速度提升至少6倍。

具体应用中，浮点数的量化原理是将浮点数对应到0-255的整数上，最大值对应于255，而最小值对应于0。基于该原理，所述通过所述手势识别模型将所述浮点数计算数据转换为整数计算数据，可以通过下述公式实现：

所述浮点数计算数据等于，所述整数计算数据减去标准量化值后与缩放系数的乘积。具体为：

real_value＝scale*(quantized_value-zero_point)

real_value是原始的浮点数计算数据，quantized_value是量化以后的整数计算数据。Scale是缩放系数，zero_point是实数0对应的量化值。通过这样的转换，可以将浮点数的计算，转变为整数的计算，可以获得显著的识别加速，使得本发明实施例的手势识别方法可以应用在移动终端等计算能力较弱的终端设备。

本发明实施例中，在识别得到目标手势的手势类别和手势位置后，可以进一步通过跟踪模型跟踪该目标手势，跟踪模型可以包括核相关滤波层，核相关滤波层可以基于KCF(Kernel Correlation Filter，核相关滤波算法)实现对目标手势的跟踪，在根据KCF算法跟踪目标手势时，可以引入相关值的概念，相关值是衡量两个信号相似值的度量，如果两个信号越相似，那么其相关值就越高，在基于KCF的目标手势跟踪中，可以将目标手势作为滤波模板，使得当滤波模板作用在跟踪区域上时，能够得到跟踪区域各位置的响应值，最大响应值的位置就是跟踪到的目标手势的位置。适应的，根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果可以通过步骤203至步骤205实现。

步骤203：根据所述手势位置对应的位置数据确定所述核相关滤波层的滤波模板。

本发明实施例中，手势位置对应的位置数据具体可以是手势位置对应的像素坐标等，具体应用中，可以将手势位置对应区域的像素坐标作为核相关滤波层的滤波模板，则该滤波模板可以将目标手势作为跟踪目标。

步骤204：利用所述滤波模板对预测位置进行过滤。

本发明实施例中，预测位置可以是步骤202中手势识别模型所识别到的手势位置的周围区域，因为目标手势在目标视频中的移动通常是平滑连续的，因此，目标手势的下一个出现位置通常在上一个出现位置的附近，通过滤波模板对预测位置进行过滤，可以在预测位置中跟踪到目标手势。

作为本发明实施例的一种优选实施方式，所述利用所述滤波模板对预测位置进行过滤包括：

利用所述滤波模板，基于傅里叶变换并行执行对多个预测位置的过滤操作。

本发明实施例中，因为在确定目标手势的初始手势位置后，该初始手势位置四周的任一个区域都可能是目标手势的移动位置，因此，可以将该初始手势位置四周的区域划分为多个预测位置，通过滤波模板并行的执行对多个预测位置的过滤操作，能在较短的时间内实现对初始手势位置四周的区域的过滤，进而可以大大提升手势跟踪的效率。

具体应用中，在核相关滤波算法KCF中，需要计算快速傅里叶(FFT)变换。快速傅里叶变换在KCF中占据了约60％的计算量，因此，本发明实施例可以利用滤波模板，基于傅里叶变换并行执行对多个预测位置的过滤操作。示例的，在具体的KCF代码实现中，可以使用指令集ARM neon(Acorn RISC Machine neon，ARM元素)加速FFT的计算，ARM neon指令集可以是适用于ARM系列处理器的一种128位SIMD(Single Instruction,Multiple Data，单指令、多数据)扩展结构，可以在一条指令中完成多次数据计算，显著提升向量计算的效率，使用Neon指令集加速FFT的计算速度，使得KCF能够在移动终端达到60fps的跟踪速度。

步骤205：将所述预测位置中，与所述滤波模板的相关度高于预设阈值的区域作为手势位置跟踪结果。

本发明实施例中，在预测位置中进行过滤操作后，与滤波模板的相关度高于预设阈值的区域可以认为是目标手势的移动位置，因此可以作为手势位置跟踪结果。具体应用中，预设阈值可以根据实际应用场景进行设定，本发明实施例对此不作具体限定。示例的，参照图5，示出了一种基于KCF进行目标跟踪的过程示意图，在滤波模板中包括了目标手势，通过滤波模板对预测位置进行过滤后，可以将预测位置中与滤波模板相关度较高的位置作为响应输出，得到手势位置跟踪结果。

作为本发明实施例的一种较佳的实施方式，本发明实施例可以应用于移动终端，如电脑、手机、手环等，因为移动终端中对内存占用、算法实现有较多的限制，使得移动终端中往往不适用基于深度学习的手势识别模型等，本发明实施例中的手势识别模型，将浮点数量化为整数，大大降低了运算量，采用并行加速的跟踪算法加速跟踪的执行速度，使得本发明实施例的手势识别方法对内存、执行速度的要求明显减低，可以很好的使用于移动终端。

作为本发明实施例的另一种优选方式，手势识别模型与跟踪模型运行于不同的线程，示例的，手势识别模型可以运行于第一线程，跟踪模型运行于第二线程，即手势识别模型的识别过程与跟踪模型的跟踪过程通过独立的线程并行执行，从而可以实现高效的识别和跟踪效果；可以理解，具体应用中，手势识别模型可以应用于后台操作线程中，以实现对目标视频中目标手势的持续监控。

步骤206：根据所述手势识别结果在所述目标视频中添加特效。

本发明实施例中，特效的具体内容可以根据实际的应用场景进行设定，例如可以是各类炫酷特效、或是各类表情、或是标识框等。

具体应用中，可以预先设定手势类别与特效的对应关系，根据手势类别可以匹配到对应的特效，进而在目标视频对应于目标手势位置的区域添加特效。

示例的，在目标视频中可以根据手势类别，在目标手势位置处添加图形、文字、表情等特效来渲染视频，例如，若手势类别为控雨手势(例如将手指弯曲预设角度等)，则在目标视频中添加控雨特效(例如，控制目标视频中出现雨滴的特效)；类似的，也可以添加撒花特效、比心特效等，以增加视频的趣味性；可以理解，添加的特效也可以只是一个框定标识，例如，只是在目标视频中通过矩形框、圆形框等标记出目标手势位置及手势类别，使得在对目标视频进行后期剪辑时，后期人员可以方便的在框定的区域进行其他操作。

在实际的应用中，若所述跟踪模型未跟踪到所述目标手势，则可以根据所述手势识别模型重新进行手势识别。

具体应用中，根据手势识别模型在目标视频中识别到目标手势之后，根据跟踪模型进行目标手势跟踪时，可能出现目标手势丢失等消息，例如跟踪不到目标手势的次数超过预设次数，则可以说明目标手势可能是偶然出现，并不足进行后期加特效等操作，则可以通过手势识别模型重新进行手势识别，重复步骤203到步骤205的过程。

本发明实施例中，若发现跟踪模型未跟踪到所述目标手势，可以及时结束跟踪操作，重新开启下次的手势识别过程，避免在目标手势丢失的情况下，仍然持续进行无效跟踪对计算资源的浪费。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了一种手势识别装置的框图，该装置具体可以包括：

识别模块310，用于在目标视频中识别目标手势，得到手势类别和手势位置；

跟踪模块320，用于根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果；

滤波模块330，用于对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果。

优选地，参照图7，在图6的基础上，

所述滤波模块330包括：

第一计算子模块3301，用于根据所述多个手势位置跟踪结果，计算状态估计值和协方差矩阵估计值；

第二计算子模块3302，用于根据所述状态估计值和所述协方差矩阵估计值，计算测量余量和卡尔曼增益；

第三计算子模块3303，用于根据所述测量余量、所述卡尔曼增益、所述状态估计值和所述协方差矩阵估计值，计算更新状态估计值和协方差估计值，得到目标手势位置；

手势识别结果得到子模块3304，用于将所述手势类别和目标手势位置作为手势识别结果。

所述识别模块310包括：

输入子模块3101，用于将所述目标视频输入手势识别模型，得到所述目标视频对应的浮点数计算数据；

识别子模块3102，用于通过所述手势识别模型将所述浮点数计算数据转换为整数计算数据，并基于所述整数计算数据识别目标手势。

所述识别子模块3102通过下述公式实现将所述浮点数计算数据转换为整数计算数据：所述浮点数计算数据等于，所述整数计算数据减去标准量化值后与缩放系数的乘积。

所述手势识别模型与所述跟踪模型运行于不同的线程。

所述跟踪模型包括核相关滤波层，所述跟踪模块320包括：

滤波模板确定子模块3201，用于根据所述手势位置对应的位置数据确定所述核相关滤波层的滤波模板；

过滤子模块3202，用于利用所述滤波模板对预测位置进行过滤；

跟踪子模块3203，用于将所述预测位置中，与所述滤波模板的相关度高于预设阈值的区域作为手势位置跟踪结果。

所述过滤子模块3202包括：

过滤单元32021，用于利用所述滤波模板，基于傅里叶变换并行执行对多个预测位置的过滤操作。

优选地，所述装置还包括：

特效添加模块340，用于根据所述手势识别结果在所述目标视频中添加特效。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程手势识别终端设备的处理器以产生一个机器，使得通过计算机或其他可编程手势识别终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程手势识别终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程手势识别终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种手势识别方法和一种手势识别装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

在目标视频中识别目标手势，得到手势类别和手势位置；

2.根据权利要求1所述的方法，其特征在于，对所述多个手势位置跟踪结果进行平滑滤波，并结合所述手势类别得到手势识别结果包括：

根据所述多个手势位置跟踪结果，计算状态估计值和协方差矩阵估计值；

根据所述状态估计值和所述协方差矩阵估计值，计算测量余量和卡尔曼增益；

根据所述测量余量、所述卡尔曼增益、所述状态估计值和所述协方差矩阵估计值，计算更新状态估计值和协方差估计值，得到目标手势位置；

将所述手势类别和目标手势位置作为手势识别结果。

3.根据权利要求1所述的方法，其特征在于，所述在目标视频中识别目标手势，包括：

将所述目标视频输入手势识别模型，得到所述目标视频对应的浮点数计算数据；

通过所述手势识别模型将所述浮点数计算数据转换为整数计算数据，并基于所述整数计算数据识别目标手势。

4.根据权利要求3所述的方法，其特征在于，所述通过所述手势识别模型将所述浮点数计算数据转换为整数计算数据，通过下述公式实现：

所述浮点数计算数据等于，所述整数计算数据减去标准量化值后与缩放系数的乘积。

5.根据权利要求3所述的方法，其特征在于，所述手势识别模型与所述跟踪模型运行于不同的线程。

6.根据权利要求1所述的方法，其特征在于，所述跟踪模型包括核相关滤波层，所述根据所述手势位置更新跟踪模型，并利用更新后的所述跟踪模型跟踪所述目标手势，得到多个手势位置跟踪结果包括：

根据所述手势位置对应的位置数据确定所述核相关滤波层的滤波模板；

利用所述滤波模板对预测位置进行过滤；

将所述预测位置中，与所述滤波模板的相关度高于预设阈值的区域作为手势位置跟踪结果。

7.根据权利要求6所述的方法，其特征在于，所述利用所述滤波模板对预测位置进行过滤包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述手势识别结果在所述目标视频中添加特效。

9.一种手势识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述滤波模块包括：

第一计算子模块，用于根据所述多个手势位置跟踪结果，计算状态估计值和协方差矩阵估计值；

第二计算子模块，用于根据所述状态估计值和所述协方差矩阵估计值，计算测量余量和卡尔曼增益；

第三计算子模块，用于根据所述测量余量、所述卡尔曼增益、所述状态估计值和所述协方差矩阵估计值，计算更新状态估计值和协方差估计值，得到目标手势位置；

手势识别结果得到子模块，用于将所述手势类别和目标手势位置作为手势识别结果。

11.根据权利要求9所述的装置，其特征在于，所述识别模块包括：

输入子模块，用于将所述目标视频输入手势识别模型，得到所述目标视频对应的浮点数计算数据；

识别子模块，用于通过所述手势识别模型将所述浮点数计算数据转换为整数计算数据，并基于所述整数计算数据识别目标手势。

12.根据权利要求11所述的装置，其特征在于，所述识别子模块通过下述公式实现将所述浮点数计算数据转换为整数计算数据：所述浮点数计算数据等于，所述整数计算数据减去标准量化值后与缩放系数的乘积。

13.根据权利要求11所述的装置，其特征在于，所述手势识别模型与所述跟踪模型运行于不同的线程。

14.根据权利要求9所述的装置，其特征在于，所述跟踪模型包括核相关滤波层，所述跟踪模块包括：

滤波模板确定子模块，用于根据所述手势位置对应的位置数据确定所述核相关滤波层的滤波模板；

过滤子模块，用于利用所述滤波模板对预测位置进行过滤；

跟踪子模块，用于将所述预测位置中，与所述滤波模板的相关度高于预设阈值的区域作为手势位置跟踪结果。

15.根据权利要求14所述的装置，其特征在于，所述过滤子模块包括：

过滤单元，用于利用所述滤波模板，基于傅里叶变换并行执行对多个预测位置的过滤操作。

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

特效添加模块，用于根据所述手势识别结果在所述目标视频中添加特效。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一所述的手势识别方法。