CN112507918A

CN112507918A - 一种手势识别方法

Info

Publication number: CN112507918A
Application number: CN202011485807.0A
Authority: CN
Inventors: 钟浩; 伍广彬; 言宏亮; 曹晟; 于波; 张华�; 杨波; 梁兴伟; 杨卫国
Original assignee: Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd; Shenzhen Hit Technology Innovation Industry Development Co ltd; Konka Group Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd; Shenzhen Hit Technology Innovation Industry Development Co ltd; Konka Group Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16
Anticipated expiration: 2040-12-16
Also published as: CN112507918B

Abstract

本发明公开了一种手势识别方法，方法包括：获取视频文件中的第t帧图像；将第t帧图像输入已训练的手势识别模型，并控制手势识别模型对第t帧图像进行手势识别，得到第t帧图像对应的图像手势；当图像手势为静态手势类型时，将图像手势作为目标手势；当图像手势为动态手势类型时，迭代获取视频文件中的帧图像，并根据帧图像对应的图像手势，确定视频文件对应的目标手势；根据目标手势，确定视频文件对应的手势指令。本发明通过对手势模型的优化以及动态手势类型和静态手势类型识别的结合，提高在对手势识别精确度。

Description

一种手势识别方法

技术领域

本发明涉及生物识别技术领域，尤其涉及一种手势识别方法。

背景技术

随着计算机视觉技术的快速发展，人机交互在各个领域应用也越来越广泛。手势是一种直观、自然且快速地与计算机进行通信的交互技术。因此，手势识别技术也是目前人机交互技术中研究的重点方向之一。目前，手势识别技术已普遍应用于各种智能终端中，通过手势控制终端完成相应的功能操作，可实现对智能终端自然灵活的操作，增强操作的简便性及用户的体验度。然而，手势识别技术也依然存在一定的瓶颈，如何在基于大分辨图像下并且处于复杂的环境背景中快速准确的识别手势，以让智能终端实时响应完成相应的功能，这也是目前手势识别技术研究的一个热点问题和难点问题。

目前应用于手势识别的方式主要有三种，第一种是采用机器学习方法，利用传统图像处理方法对摄取图像进行预处理，然后对手势进行分割以及定位，最后设计分类器对手势进行分类，分类出相应的手势；第二种是采用深度学习方法，先通过CNN(Convolutional Neural Networks，简称CNN)网络回归定位出人，然后在检测到人的基础上再设计一个CNN网络对手势进行定位与分类，从而确定手势类型；第三种同样也是利用深度学习思想设计CNN网络直接检测出手部骨骼的关键点，然后利用关键点位置关系，进而可以判别每个手势的类别。

对于方法一，在复杂场景或者大分辨图像背景下，虽然这种方法速度快，但是鲁棒性差，准确率低，难以满足实际应用；对于方法二，通过设计CNN网络先定位人，在对手势进行定位与分类识别，此种方法对于大分辨图像以及复杂场景下，能保证较高的识别精度，稳定性高，但是这种方法往往在嵌入式设备上速度往往较慢，硬件内存消耗大，不利于量产使用。而对于方法三，在大分辨率图像下，由于手部占整个图像的比例比较小，往往会导致漏检，从而导致整个识别的精度不高，另外，在复杂场景下，这种方法也会把一些背景纳入手势识别的范围，从而导致手势误检。

发明内容

本发明的主要目的在于提供一种手势识别方法、智能终端及计算机可读存储介质，旨在解决现有技术中手势识别准确率低的问题。

为实现上述目的，本发明提供一种手势识别方法，所述手势识别方法包括如下步骤：

获取视频文件中的第t帧图像，其中，t为正整数；

将所述第t帧图像输入已训练的手势识别模型，并控制所述手势识别模型对所述第t帧图像进行手势识别，得到所述第t帧图像对应的图像手势；

当所述图像手势为静态手势类型时，将所述图像手势作为目标手势；

当所述图像手势为动态手势类型时，迭代获取所述视频文件中的帧图像，并根据所述帧图像对应的图像手势，确定所述视频文件对应的目标手势；

根据所述目标手势，确定所述视频文件对应的手势指令。

可选地，所述的手势识别方法，其中，所述手势识别模型包括基于预设的神经网络训练得到的模型，所述神经网络的主干网络为轻量级神经网络；所述轻量级神经网络包括网络扩张系数为小于六倍的MobileNet2网络。

可选地，所述的手势识别方法，其中，所述手势识别模型的训练过程包括：

获取训练样本集，并对所述训练样本集进行标注，得到所述训练样本集中各个训练图像对应的标注信息；

针对每一个所述训练图像，将该训练图像输入预设的初始模型，并控制所述初始模型对该训练样图像进行手势识别，得到该训练图像对应的预测结果；

计算该训练图像对应的标注信息和预测结果之间的损失值；

基于所述损失值，对所述初始模型的参数进行调整，直至所述初始模型收敛，得到所述手势识别模型。

可选地，所述的手势识别方法，其中，所述训练样本集包括正样本子集和负样本子集；

所述正样本子集包括包含所述图像手势的训练图像，其中，所述训练图像包括不同站姿的图像、不同手势姿态、不同背景的图像以及不同光照的图像；

所述负样本子集包括包含非图像手势的训练图像。

可选地，所述的手势识别方法，其中，所述训练样本集的获取方法包括：

获取初始图像；

针对每一个所述初始图像，对该初始图像进行数据增强处理，生成与该初始图像对应的训练图像；

根据所述训练图像是否包含所述图像手势，将所述训练图像进行分类，生成所述正训练图像子集和所述负训练图像子集。

可选地，所述的手势识别方法，其中，所述针对每一个所述初始图像，对该初始图像进行数据增强处理，生成与该初始图像对应的修饰图像，具体包括：

针对每一个初始图像，对该初始图像进行预处理，生成与该初始图像对应的中间图像；

根据预设的裁剪规则，对所述中间图像进行裁剪，生成该初始图像对应的训练图像。

可选地，所述的手势识别方法，其中，所述手势识别模型包括手势定位层、特征提取层和分类器；所述将所述第t帧图像输入已训练的手势识别模型，并控制所述手势识别模型对所述第t帧图像进行手势识别，得到所述第t帧图像对应的图像手势，具体包括：

将所述第t帧图像输入所述手势定位层；

所述手势定位层对所述第t帧图像进行目标定位，得到所述第t帧图像中的关键点，并根据所述关键点，确定所述第t帧图像对应的手势区域；

所述特征提取层对所述手势区域进行特征提取，得到所述手势区域对应的手势特征；

所述分类器对所述手势特征进行分类，确定所述第t帧图像对应的图像手势。

可选地，所述的手势识别方法，其中，所述关键点包括成对的对角坐标；所述手势定位层对所述第t帧图像进行目标定位，得到所述第t帧图像中的关键点之后，还包括：

计算所述对角坐标的横坐标的平均值和纵坐标的平均值，得到所述第t帧图像对应的中心点坐标。

可选地，所述的手势识别方法，其中，所述图像手势包括不同的手势方向；所述当所述图像手势为动态手势类型时，迭代获取所述视频文件中的帧图像，并根据所述帧图像对应的图像手势，确定所述视频文件对应的目标手势，具体包括：

当所述目标手势为动态手势类型时，迭代获取第t+1帧图像并对所述第t+1帧图像进行手势识别，直至迭代次数等于预设的次数阈值，得到第t+1帧图像至第T帧图像对应的图像手势，其中，T与t的差值等于所述次数阈值；

根据所述第t帧图像至所述第T帧图像对应的手势方向，计算不同的手势方向对应的方向数量；

根据所述方向数量大于等于预设的方向数量阈值的手势方向，确定所述视频文件对应的手势指令。

可选地，所述的手势识别方法，其中，所述根据所述第t帧图像至所述第T帧图像对应的手势方向，计算不同的手势方向对应的方向数量之前，还包括：

基于所述第t帧图像对应的中心点坐标和预设的跟踪算法，计算第t帧图像至第T帧图像对应的中心点坐标；

迭代计算第n帧图像与第n+1帧图像对应的中心点坐标之间的距离，得到所述第n帧图像与所述第n+1帧图像之间的手势距离，其中，n为大于等于t且小于等于T的自然数；

判断所述手势距离的数值是否大于预设的手势距离阈值；

若是，则将所述第n帧图像对应的手势方向保留；

若否，则将所述第n帧图像对应的手势方向剔除。

此外，为实现上述目的，本发明还提供一种智能终端，其中，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势识别程序，所述手势识别程序被所述处理器执行时实现如上所述的手势识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有手势识别程序，所述手势识别程序被处理器执行时实现如上所述的手势识别方法的步骤。

本发明提供一种手势识别方法、智能终端和计算机可读存储介质，先获取视频文件中的帧图像，并确定该帧图像所对应的图像手势，然后基于图像手势的类型，确定视频文件所对应的目标手势。当图像手势为静态手势类型，则直接确定图像手势为目标手势，当图像手势为动态手势类型，则获取后续的帧图像，并根据后续帧图像所对应的图像手势确定手势类型。因此本发明结合了静态手势类型和动态手势类型两种，减少误判。此外，本发明所采用的手势模型是基于主干网络为轻量级神经网络的神经网络训练得到，在嵌入式设备上具有更高的识别精度和速度。

附图说明

图1是本发明手势识别方法提供的较佳实施例的流程图；

图2是本发明手势识别模型采用的主干网络MobileNet2网络的逆残差结构；

图3是拇指向上的多种姿态示意图；

图4是不同的图像手势的示例图；

图5是本发明手势识别方法提供的较佳实施例中获取的初始图像示例图；

图6是本发明手势识别方法提供的较佳实施例中对中间图像进行裁剪的示例图；

图7是本发明手势识别方法提供的较佳实施例中手势检测的流程示意图；

图8是本发明手势识别方法提供的较佳实施例中对基于图像手势确定目标手势的流程图；

图9为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的手势识别方法，该手势识别方法可通过智能终端执行，所述智能终端包括智能电视、智能手机等安装有摄像头的终端。本实施例以智能电视为例进行手势识别过程的描述。如图1所述，所述手势识别方法包括以下步骤：

步骤S100，获取视频文件中的第t帧图像，其中，t为正整数。

具体地，用户在使用智能电视时，进入手势识别状态，智能电视会实时对当前场景进行摄像，从而得到视频文件。视频文件由多张帧图像构成，智能电视在得到视频文件后，从视频文件中获取第t帧图像。在获取第t帧图像时，默认首先获取第一张帧图像，即t＝1，本实施例以t＝1，即第一帧图像为例进行实施的描述。

步骤S200，将所述第t帧图像输入已训练的手势识别模型，并控制所述手势识别模型对所述第t帧图像进行手势识别，得到所述第t帧图像对应的图像手势。

具体地，将第一帧图像输入已训练的手势识别模型，手势识别模型可采用传统的机器学习训练得到，也可采用基于预设的神经网络训练得到的模型。

本实施例优选的用于进行手势识别的模型为基于预设的神经网络训练得到的模型，所述神经网络的主干网络为轻量级神经网络。常规的神经网络在处理效率方面存在存储和速度存在一定的缺陷。一般的神经网络具有数百层网络，数百层网络有着大量的权值参数，保存大量权值参数对设备的内存要求很高；在速度方面，速度要求往往是毫秒级别，为了达到实际应用标准，要么提高处理器性能，要么就减少计算量，而提高处理器性能在短时间内是无法完成的，因此减少计算量成为了主要的技术手段。为此，本实施例采用轻量级神经网络。轻量级神经网络包括SqueezeNet、MobileNet系列(V1,V2,V3)、ShuffleNet(V1,V2)、Xception等。本实施所优选的轻量级神经网络为MobileNet2网络。如图2所示，MobileNet2网络可以有效的减小模型参数，降低运算计算量，在嵌入式设备上有一定的优势。

进一步地，在原始的MobileNet2网络的基础上，为了进一步减小网络参数，在网络设计的时候，将原有的网络扩张系数进行缩小，MobileNet2原有的网络扩张系数为六倍，本实施采用的是网络扩展系数小于六倍的MobileNet2。经实验验证，扩张倍数为4倍时，在进一步降低网络权重参数，提升了速度的同时，精确度也只有1到2个点的损失，在实际中也是可以满足实际要求的。

手势识别模型可对输入的第一帧图像进行手势识别，从而确定第一帧图像对应的图像手势，图像手势即通过图像得到的手势。手势识别一般分为两个部分，首先是手势定位，其次是手势检测，手势定位为确定第t帧图像中的手势所在的位置，也就是手势区域，然后再基于手势区域，对该区域内的手势进行检测，从而确定其中的图像手势。因此，在本实施例中，图像手势有三种类型，第一种图像手势类型为空，也就是说，在进行手势定位时未定位到第t帧图像中的手势区域；第二种图像手势类型为静态手势类型；第三种手势类型为动态手势类型。

静态手势类型与动态手势类型是相对的概念，静态手势类型是指在日常生活中以单一图像即可确定是在做手势的手势类型，包括手指方向手势，例如拇指向上，拇指向下。

而动态手势类型是指要基于一定的动作才可确定用户在做手势的手势类型，如图4所示，例如手掌朝向，用户在日常生活中手掌也有一定的朝向，但并非手掌有一定朝向就代表用户在做手势。例如用户只是站在智能电视前方，双手垂直向下，左手自然朝右，这是一种常规的站姿，若将其进行手势识别，可能会误以为用户想要智能电视执行手掌朝右所对应的手势指令，从而导致误判。此外，手掌朝向会根据所识别的第t帧图像位于视频文件中的位置带来不同的判断结果。例如，用户想要做一个手掌朝右的动作，一般先会经过手掌超前这一个过程，然后再手掌朝右，此时整个视频文件中，手掌的朝向至少有两个，一个超前，一个朝右，若依次获取帧图像，则很可能将手掌超前识别为用户所想要下达的手势指令所对应的手势，从而导致误判。而某个特定手指的朝向，如图3所示，例如大拇指，一般并非常规的动作，只要单张图像即可准确识别。因此，在本实施例中，在对第t帧图像进行手势识别时，还会将图像手势划分为两类，动态手势类型和静态手势类型。

因此，对模型进行训练的过程为：

A10、获取训练样本集，并对所述训练样本集进行标注，得到所述训练样本集中各个训练图像对应的标注信息。

具体地，先获取由大量的训练样本组成的训练样本集。然后对训练样本集中的训练图像进行标注，得到各个训练图像对应的标注信息，标注信息的内容即该训练图像对应的手势类型，包括静态手势类型中的手指朝向、动态手势类型中的手掌朝向、是否有手势等等。

A20、针对每一个所述训练图像，将该训练图像输入预设的初始模型，并控制所述初始模型对该训练样图像进行手势识别，得到该训练图像对应的预测结果。

具体地，针对每一个训练图像，将该图像输入预设的初始模型，即以上述轻量级神经网络为主干网络的神经网络，主干网络优选对网络扩张系数进行改造的MobileNet2网络。将训练图像输入初始模型后，控制初始模型对该训练图像进行手势识别，从而得到该训练图像对应的预测的手势类型，即预测结果。

A30、计算该训练图像对应的标注信息和预测结果之间的损失值。

具体地，由于预先对训练图像进行标注，因此，可基于预设的损失函数，计算预测结果和标注信息之间的误差，即损失值。

A40、基于所述损失值，对所述初始模型的参数进行调整，直至所述初始模型收敛，得到所述手势识别模型。

具体地，然后将损失值反向传递会初始模型中，以便初始模型基于损失值对其中的参数，例如卷积核的大小，进行调整和优化，直至该初始模型收敛，得到手势识别模型。收敛方式可采用基于预设的训练次数和预设的损失值阈值等方式。

进一步的，训练样本集的制作很大程度上决定模型最终的性能。由于用户在做手势时，背景并非固定的，光照不同，站姿不同，还可能存在大量的噪音信息，例如拍摄到的帧图像中包含两个及以上的用户。因此，为了提高训练后的手势识别模型的鲁棒性以及泛化能力，训练图像考虑了人的站姿以及坐姿状态、场景的光照变化、场景背景的多样性和手势姿态的多样性，如图3所示，拇指向上这一手势包含多种姿态。本实施例中，训练样本集中训练图像的背景主要是模拟室内场景，参阅图5中，摄像头高度2米左右，人站在距离摄像头1.5米至3.5米的距离范围。此外，为应用于不同的终端类型，例如终端为车载导航仪，则训练图像的背景主要为模拟车内场景。训练样本集中包括正样本子集，所述正样本子集包括包含所述图像手势的训练图像，其中，所述训练图像包括不同站姿的图像、不同背景的图像以及不同光照的图像。

此外，为了减少实际过程中存在的手势误检问题，本实施例中，训练样本集还包括负样本子集，负样本子集包括了非图像手势的训练图像，非图像手势是指图像手势以外的手势。例如本实施例中，图像手势包括手指朝向和手掌朝向，则非图像手势可包括拳头，兰花指，V型手势等。无论是图像手势还是非图像手势，都可根据场景、需求等方面进行自由选择。

进一步地，由于训练样本集中训练样本的数量也直接影响训练的结果，因此，在本实施例中，所述训练样本的获取方法包括：

B10、获取初始图像；

具体地，先通过拍摄、网络爬虫等方式，获取大量的初始图像，所述初始图像为包括图像手势、包括非图像手势的图像，所有的图像中的站姿、手势姿态、背景以及光照等因素应不完全相同。

B20、针对每一个初始图像，对该初始图像进行数据增强处理，生成与该初始图像对应的训练图像；

具体地，针对每一个初始图像，通过对初始图像进行数据增强处理，得到与该初始图像对应的训练图像。数据增强包括随机裁剪、噪声添加、对比度增强等等。在原有的初始图像的数据量前提下，使训练图像的数据量增强一倍左右，进一步提升检测精度。本实施例优选的一种数据增强方式如下：

具体地，针对每一个初始图像，先对初始图像进行预处理，得到中间图像。预处理的方式包括数据增强方法中的添加噪声以及随机对比度增强等，添加噪声的方式可采用椒盐噪声、高斯噪声等，随机对比度增强是随机将初始图像中的某些区域的对比度进行增强或减弱。此外，数据增强中的翻转、色度调整、饱和度调整等方式都可作为对初始图像进行预处理的方式。

然后对中间图像进行一定的裁剪，由于目前的摄像机的分辨率得到大幅度提升，可拍摄1920*1080及以上分辨率的图像，而手势部位相对于初始图像整体大小而言目标比较小，直接送入初始模型中训练出来的手势识别模型精度不高，因此，如图6所示，需对中间图像按照一定的裁剪规则进行相应的裁剪，得到一幅相对于初始较小的图像。裁剪规则为对中间图像进行裁剪的规则，可为预先设定一个得到的训练图像的规格，然后依据预设的规格对中间图像进行裁剪。或者预先限定手势周围的距离值，然后根据中间图像中手势的位置和距离值，裁剪一定范围，从而得到训练图像。由于本实施例采用有效的数据增强策略以及数据裁剪方式进行训练，极大提升了大分辨下手势小目标的识别，因此在嵌入式设备上手势识别模型的识别精度较高。

B30、根据所述训练图像是否包含所述图像手势，将所述训练图像进行分类，生成所述正训练图像子集和所述负训练图像子集。

具体地，正训练图像子集和负训练图像子集的区别在于训练图像是否包含图像手势，因此根据所述训练图像是否包含所述图像手势，将所述训练图像进行分类，生成所述正训练图像子集和所述负训练图像子集。

进一步地，如图7所示，通过训练图像对初始模型进行训练得到手势识别模型后，将第t帧图像输入手势识别模型中，本实施例中优选的手势识别模型包括手势定位层、特征提取层和分类器。手势定位层即用于对第一帧图像中的手势进行定位，生成手势区域。特征提取层对提取后的手势区域进行特征提取，得到第一帧图像所对应的手势特征。然后再通过分类器对手势特征进行分类，从而确定手势特征所对应的图像手势。因此，对第一帧图像的手势识别的过程为：

C10、将所述第t帧图像输入所述手势定位层。

具体地，将第一帧图像先输入手势定位层。

C20、所述手势定位层对所述第t帧图像进行目标定位，得到所述第t帧图像中的关键点，并根据所述关键点，确定所述第t帧图像对应的手势区域。

具体地，手势定位层对第一帧图像进行目标定位，常规的目标定位基于锚框进行目标定位，即anchor-based。预先设定多个锚框，然后基于对每一个锚框的图像进行分析，判断锚框中是否存在目标，若存在，则将锚框保留，最后在将保留的锚框进行综合，从而得到手势区域。anchor-based具有较高的网络召回能力，但需要设定的参数较多，且依赖于先验知识对锚框的长宽进行设定，此外，会存在大量的冗余框。因此本实施例基于无锚框的目标定位，即anchor-free。anchor-free通过预测目标的关键点从而定位出目标位置，这种方法不同于耗时较多的非极大值抑制(Non-Maximum Suppression，NMS)操作，因为不存在可以减少网络后处理操作的时间，从而提升整体的识别速度，与anchor-based相比，不需要大量的预设参数，减轻网络负担。

在通过关键点定位时，可采用多种方式进行定位，例如直接定位预测目标的中心点坐标，将中心点坐标作为关键点，然后以中心点为起点，向四周进行延伸，从而得到目标框；或者预测成对的关键点，例如左上角和右下角，然后基于成对的对角坐标确定一个矩形框，从而得到目标框。因此，将预测目标设定为手，得到关键点后，可根据关键点确定第一帧图像所对应的包含手的区域，即手势区域。

进一步地，若采用上述成对的对角坐标作为定位的关键点的方式确定手势区域，则在得到关键点后，通过对角坐标，计算手势区域对应的中心点坐标：计算所述对角坐标的横坐标的平均值和纵坐标的平均值，得到所述第t帧图像对应的中心点坐标。

例如获取的对角坐标分别为左上角坐标(x1,y1)和右下角坐标(x2,y2)，则中心点坐标P(x0，y0)可通过公式x0＝(x1+x2)/2，y0＝(y1+y2)/2得到，也就是计算左上角坐标和右下角横坐标的平均值，以及左上角坐标以及右下角坐标纵坐标的平均值，从而得到中心点坐标P(x0，y0)。

C30、所述特征提取层对所述手势区域进行特征提取，得到所述手势区域对应的手势特征。

具体地，所述特征提取层主要用于特征提取，优选采用上述的网络扩张系数为4倍的MobileNet2网络。确定手势区域后，基于手势区域的边界，将第一帧图像中的手势裁剪出来，得到手势图像，然后将手势图像输入特征提取层，特征提取层从而对手势图像进行特征提取，得到手势特征。目前基于图像进行特征提取多种多样，可根据所使用的模型对特征提取的方式进行自由选择。

C40、所述分类器对所述手势特征进行分类，确定所述第t帧图像对应的图像手势。

具体地，得到提取后的手势特征后，将其输入分类器中，基于预先设定的多种图像手势，例如手掌向左，手掌向右等，分类器对手势特征进行分类，从而确定第一帧图像所对应的图像手势。

步骤S300，当所述图像手势为静态手势类型时，将所述图像手势作为所述视频文件对应的目标手势。

具体地，当所述图像手势为静态手势类型时，例如上述的拇指朝向，则将该图像手势作为视频文件所对应的目标手势。

步骤S400，当所述图像手势为动态手势类型时，迭代获取所述视频文件中的帧图像，并根据所述帧图像对应的图像手势，确定所述视频文件对应的目标手势。

具体地，如图8所示，当所述目标手势为动态手势类型时，则说明需要基于多张帧图像才能确定手势指令。因此以第一帧图像为起点，迭代获取第一帧图像后续的帧图像，然后根据后续的多张帧图像所对应的目标手势，从而确定该视频文件对应的手势指令。

进一步地，动态手势类型包括不同的手势方向的目标手势，也就是说目标手势包括不同的手势方向，本实施例以手掌方向作为动态手势类型为例进行描述。当所述目标手势为动态手势类型时，执行以下步骤：

D10、迭代获取第t+1帧图像并对所述第t+1帧图像进行手势识别，直至迭代次数等于预设的次数阈值，得到第t+1帧图像至第T帧图像对应的图像手势，其中，T与t的差值等于所述次数阈值。

具体地，获取第t+1帧图像，由于本实施例之前获取的是第一帧图像，因此第t+1帧图像即第二帧图像，然后对第二帧图像进行手势识别，得到第二帧图像所对应的图像手势和中心点坐标。由于是迭代获取，因此再获取第三帧图像，重复手势识别过程，得到第三帧图像所对应的图像手势和中心坐标，重复获取下一帧图像并进行手势识别的过程，直至迭代次数等于预设的次数阈值T。从而在第一帧图像之后，还获得第二帧图像至第T帧手势图像所对应的图像手势和中心点坐标。

D20、根据所述第t帧图像至所述第T帧图像对应的手势方向，计算不同的手势方向对应的方向数量。

具体地，根据手势方向的不同，计算各个所述手势方向所对应的帧图像的数量，也就是方向数量。例如获取的帧图像为第一帧图像、第二帧图像、第三帧图像和第四帧图像，第一帧图像的手势方向为向前，第二帧图像至第四帧图像的手势方向为向右，则手势方向为向前的方向数量为1，手势方向为向右的方向数量为3。

进一步地，由于用户可能处于静止状态，例如上述的处于站立姿势，手掌自然下垂，而此时手势并未发生变化，很可能被误判为做出某个手掌朝向的手势。因此，本实施例中，在上述得到中心坐标点的基础上，提供一种减少误判的方式，在计算不同的手势方向对应的方向数量之前：

判断所述手势距离的数值是否大于预设的手势距离阈值；

若是，则将所述第n帧图像对应的手势方向保留；

若否，则将所述第n帧图像对应的手势方向剔除。

具体地，预先设置一跟踪算法，本实施例优选采用的跟踪算法为卡尔曼滤波跟踪算法，此外还可采用粒子滤波跟踪算法等。卡尔曼滤波跟踪算法能够对得到的中心点坐标进行跟踪，较少每一个帧图像中心点确定的计算量，为了在嵌入式设备上能够达到实时检测提供基础。基于跟踪算法，可计算各个图像帧所对应的中心点坐标，即第t帧图像至第T帧图像对应的中心点坐标。然后计算相邻帧图像之间的中间点坐标距离，将其作为相邻帧图像之间的手势距离，相邻帧即第n帧图像与第n+1帧图像。然后判断所述手势距离的数值是否大于预设的手势距离阈值。若是，则说明用户在这两帧之间是发生了实际的运动的，而不是静立状态的轻微移动，因此将第n帧图像对应的手势方向保留。若否，则说明用户在这两帧之间可能处于静立状态，中心点坐标轻微改变或不改变，所以将第n帧图像对应的手势方向剔除。基于剔除静立状态时的手势方向，再进行方向数量的计数，提高后续目标手势判断的准确性。

D30、根据所述方向数量大于等于预设的方向数量阈值的手势方向，确定所述视频文件对应的目标手势。

具体地，将所述方向数量大于预设的方向数量阈值的手势方向，例如预设的方向数量为2，手势方向为向前的方向数量为1，为向右的方向数量为3，由于之前在进行图像识别时已判定图像手势为手掌朝向，因此确定整个视频文件所对应的目标手势为手掌向右。其中，方向数量阈值可为固定值，也可根据获得的帧图像所对应的图像手势的数量所确定，例如设定为50％的图像手势数量为方向数量阈值。

进一步地，在确定目标手势之后，可根据所述目标手势，确定所述视频文件对应的手势指令。

具体地，预先为各个目标手势和手势指令建立映射关系，即手势映射关系，例如拇指向上这一图像手势对应的手势指令为调高音量，拇指向下这一图像手势对应的手势指令为调低音量，手掌朝右所对应的手势指令为关机。因此在确定所述目标手势后，基于手势映射关系，可进一步确定视频文件所对应的手势指令。根据该手势指令，可控制智能终端执行相对应的操作。

本实施例将手势识别分为了动态手势类型的识别和静态手势类型的识别，在常规的基于图像的静态手势类型的手势识别的基础上，通过多张图像帧对应图像手势，从而确定手势指令。因此本实施例能够提高手势识别的准确率。此外，在选择用于进行手势识别的模型时，采用的轻量级神经网络，轻量级神经网络在嵌入式设备上速度快，其轻量化的网络结构设计使识别速度大大提升，能够满足实时识别。此外，通过对训练图像的改进，对于用户站立或是坐姿在室内白天或是夜晚两个场景，以及不同姿态的手势都能准确识别。

进一步地，如图9所述，基于上述手势识别方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图9仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有手势识别程序40，该手势识别程序40可被处理器10所执行，从而实现本申请中手势识别方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述手势识别方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中手势识别程序40时实现上述手势识别方法。

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有手势识别程序，所述手势识别程序被处理器执行时实现如上所述的手势识别方法的步骤。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种手势识别方法，其特征在于，所述手势识别方法包括：

获取视频文件中的第t帧图像，其中，t为正整数；

当所述图像手势为动态手势类型时，迭代获取所述视频文件中的帧图像，并根据所述帧图像对应的图像手势，确定所述视频文件对应的目标手势。

2.根据权利要求1所述的手势识别方法，其特征在于，所述手势识别模型包括基于预设的神经网络训练得到的模型，所述神经网络的主干网络为轻量级神经网络，所述轻量级神经网络包括网络扩张系数为小于六倍的MobileNet2网络。

3.根据权利要求1所述的手势识别方法，其特征在于，所述手势识别模型的训练过程包括：

计算该训练图像对应的标注信息和预测结果之间的损失值；

4.根据权利要求3所述的手势识别方法，其特征在于，所述训练样本集包括正样本子集和负样本子集；

所述负样本子集包括包含非图像手势的训练图像。

5.根据权利要求4所述的手势识别方法，其特征在于，所述训练样本集的获取方法包括：

获取初始图像；

6.根据权利要求5所述的手势识别方法，其特征在于，所述针对每一个所述初始图像，对该初始图像进行数据增强处理，生成与该初始图像对应的修饰图像，具体包括：

7.根据权利要求1-6中任意一项所述的手势识别方法，其特征在于，所述手势识别模型包括手势定位层、特征提取层和分类器；所述将所述第t帧图像输入已训练的手势识别模型，并控制所述手势识别模型对所述第t帧图像进行手势识别，得到所述第t帧图像对应的图像手势，具体包括：

将所述第t帧图像输入所述手势定位层；

8.根据权利要求7所述的手势识别方法，其特征在于，所述关键点包括成对的对角坐标；所述手势定位层对所述第t帧图像进行目标定位，得到所述第t帧图像中的关键点之后，还包括：

9.根据权利要求8所述的手势识别方法，其特征在于，所述图像手势包括不同的手势方向；所述当所述图像手势为动态手势类型时，迭代获取所述视频文件中的帧图像，并根据所述帧图像对应的图像手势，确定所述视频文件对应的目标手势，具体包括：

10.根据权利要求9所述的手势识别方法，其特征在于，所述根据所述第t帧图像至所述第T帧图像对应的手势方向，计算不同的手势方向对应的方向数量之前，还包括：

判断所述手势距离的数值是否大于预设的手势距离阈值；

若是，则将所述第n帧图像对应的手势方向保留；

若否，则将所述第n帧图像对应的手势方向剔除。