CN112115801B

CN112115801B - 动态手势识别方法、装置、存储介质及终端设备

Info

Publication number: CN112115801B
Application number: CN202010864060.3A
Authority: CN
Inventors: 邵池; 郭渺辰; 程骏; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2023-11-24
Anticipated expiration: 2040-08-25
Also published as: WO2022041613A1; US11636712B2; US20220067354A1; CN112115801A

Abstract

本申请属于手势识别技术领域，尤其涉及一种动态手势识别方法、装置、计算机可读存储介质及终端设备。所述方法使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势；当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型，所述第二手势为除所述第一手势之外的其它手势；使用所述动态手势检测模型对预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。通过本申请实施例，有效提高了识别准确率，并且减轻了设备的运行负荷。

Description

动态手势识别方法、装置、存储介质及终端设备

技术领域

本申请属于手势识别技术领域，尤其涉及一种动态手势识别方法、装置、计算机可读存储介质及终端设备。

背景技术

手势是人类之间交流的一种自然形式，手势识别也是人机交互的重要研究方向之一。手势识别可以分为静态手势识别和动态手势识别，相对静态手势识别来说，动态手势识别是一个连续的过程，需要学习不同帧的手势在时间维度上的关系。因此，识别动态手势难度较大，并且如何确定手势的开始帧与结束帧，也是目前动态手势识别的一个难点。

在实际的动态手势识别的应用中，往往是采用实时读取视频流的方式进行手势识别，而手势与手势之间通常存在过渡动作，且过渡动作复杂多变，时间长短不一，使得算法难以判断某个手势的起始时间与结束时间。一般情况下，为防止错过某个动态手势，会令动态手势识别模型持续运行，每读取到新的帧，都与先前的若干帧进行合并、检测并返回结果，但这会导致两个问题：第一、若每读到新的帧就进行预测并返回结果，则送入模型的帧可能一部分来自上个动作，一部分来自当前动作，这时模型就会返回一个错误的手势，导致识别准确率较低；第二、动态手势识别模型持续运行，设备运行负荷极大。

发明内容

有鉴于此，本申请实施例提供了一种动态手势识别方法、装置、计算机可读存储介质及终端设备，以解决现有的动态手势识别方法准确率低、设备运行负荷大的问题。

本申请实施例的第一方面提供了一种动态手势识别方法，可以包括：

使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势；

当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型，所述第二手势为除所述第一手势之外的其它手势；所述第一手势变换为所述第二手势是指：检测到的静态手势为所述第一手势的帧数大于预设的第一阈值，且之后检测到的静态手势为所述第二手势的帧数大于预设的第二阈值；

使用所述动态手势检测模型对在预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。

进一步地，在所述使用所述动态手势检测模型对在预设的存储介质中存储的若干帧图像进行检测之前，还可以包括：

将激活所述动态手势检测模型之前检测到的静态手势为所述第二手势的各帧图像依次存储入所述存储介质中；

将激活所述动态手势检测模型之后所述视频流中的各帧图像依次存储入所述存储介质中，直至所述存储介质中存储的帧数等于预设的第三阈值时为止。

进一步地，在得到动态手势识别结果之后，还可以包括：

当图像计数值等于预设的第四阈值时，清空所述存储介质中存储的各帧图像，以便进行下一轮的动态手势识别，所述图像计数值用于对激活所述动态手势检测模型之后所述视频流中的各帧图像进行计数。

进一步地，所述动态手势识别方法还可以包括：

在初始状态下，设置模型控制标志位为第一数值，所述第一数值用于指示执行静态手势检测；

当检测到的静态手势由所述第一手势变换为所述第二手势时，设置所述模型控制标志位为第二数值，所述第二数值用于指示执行动态手势检测；

当所述图像计数值等于所述第四阈值时，设置所述模型控制标志位为第一数值。

优选地，所述静态手势检测模型可以为采用Pelee-SSD对预设的静态手势训练集进行训练得到的模型。

优选地，所述动态手势检测模型可以为采用3D-MobileNetV2对预设的动态手势训练集进行训练得到的模型。

本申请实施例的第二方面提供了一种动态手势识别装置，可以包括：

静态手势识别模块，用于使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势；

模型切换模块，用于当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型，所述第二手势为除所述第一手势之外的其它手势；所述第一手势变换为所述第二手势是指：检测到的静态手势为所述第一手势的帧数大于预设的第一阈值，且之后检测到的静态手势为所述第二手势的帧数大于预设的第二阈值；

动态手势识别模块，用于使用所述动态手势检测模型对在预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。

进一步地，所述动态手势识别装置还可以包括：

第一存储模块，用于将激活所述动态手势检测模型之前检测到的静态手势为所述第二手势的各帧图像依次存储入所述存储介质中；

第二存储模块，用于将激活所述动态手势检测模型之后所述视频流中的各帧图像依次存储入所述存储介质中，直至所述存储介质中存储的帧数等于预设的第三阈值时为止。

进一步地，所述动态手势识别装置还可以包括：

图像清空模块，用于当图像计数值等于预设的第四阈值时，清空所述存储介质中存储的各帧图像，以便进行下一轮的动态手势识别，所述图像计数值用于对激活所述动态手势检测模型之后所述视频流中的各帧图像进行计数。

进一步地，所述动态手势识别装置还可以包括：

第一设置模块，用于在初始状态下，设置模型控制标志位为第一数值，所述第一数值用于指示执行静态手势检测；

第二设置模块，用于当检测到的静态手势由所述第一手势变换为所述第二手势时，设置所述模型控制标志位为第二数值，所述第二数值用于指示执行动态手势检测；

第三设置模块，用于当所述图像计数值等于所述第四阈值时，设置所述模型控制标志位为第一数值。

本申请实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种动态手势识别方法的步骤。

本申请实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种动态手势识别方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述任一种动态手势识别方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势；当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型，所述第二手势为除所述第一手势之外的其它手势；使用所述动态手势检测模型对预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。通过本申请实施例，将静态手势检测模型与动态手势识别模型相结合，利用静态手势检测模型检测到指定的第一手势作为唤醒动作，当由指定的第一手势变换为其它手势时，动态手势识别模型才会被唤醒激活，并进行动态手势的识别返回结果，在动态手势识别期间，静态手势检测模型暂停检测，即两个模型不会同时运行。而且，动态手势识别模型被唤醒后，也只进行一次检测过程，而不会每读取到新的帧，都与先前的若干帧进行合并、检测并返回结果，避免了不同动作交替时可能发生的识别错误，有效提高了识别准确率，并且减轻了设备的运行负荷。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种动态手势识别方法的一个实施例流程图；

图2为静态手势检测模型的网络结构示意图；

图3为残差块的内部结构示意图；

图4为主干网络的网络结构示意图；

图5为静态手势检测阶段的示意流程图；

图6为动态手势检测模型的反向残差块的内部结构示意图；

图7为动态手势检测阶段的示意流程图；

图8为本申请实施例中一种动态手势识别装置的一个实施例结构图；

图9为本申请实施例中一种终端设备的示意框图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参阅图1，本申请实施例中一种动态手势识别方法的一个实施例可以包括：

步骤S101、使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势。

所述静态手势检测模型可以为现有技术中的任意一种可以实现静态手势检测的模型，本申请实施例对其不作具体限定。

优选地，所述静态手势检测模型可以为采用Pelee-SSD对预设的静态手势训练集进行训练得到的模型。Pelee-SSD是以PeleeNet为主干(backbone)的SSD目标检测网络，具备轻量化的特点，非常适合移动端的部署。

所述静态手势检测模型的网络结构如图2所示，为了节省计算量，只将19×19，10×10，5×5，3×3，以及1×1这5个尺度的特征图(Feature Map)连接至检测分支，在每个检测分支的检测层之前，加入轻量化的残差块(ResBlock)，以确保特征表达能力。

残差块的内部结构如图3所示，输入的原始特征图的尺寸记为H×W×D，其中，H、W和D分别为原始特征图的高度、宽度和深度。原始特征图分别经过两个分支的处理，在第一分支依次经过三层卷积(conv)处理，第一层卷积处理的卷积核个数设置为128个，卷积核尺寸为1×1，第二层卷积处理的卷积核个数设置为128个，卷积核尺寸为3×3，第三层卷积处理的卷积核个数设置为256个，卷积核尺寸为1×1，在第二分支经过一层卷积处理，卷积核个数设置为256个，卷积核尺寸为1×1，两个分支的输出叠加为残差块的输出特征图，输出特征图的尺寸记为H×W×256。

主干网络PeleeNet的网络结构如图4所示，输入(Input)的尺寸为224×224×3，依次经过阶段0(Stage 0)、阶段1(Stage 1)、阶段2(Stage 2)、阶段3(Stage 3)、以及阶段4(Stage 4)这5个阶段(Stage)。在阶段1经过主干块(Stem Block)的处理，输出尺寸(OutputShape)为56×56×32；在阶段1，依次经过密集块(Dense Block)和过渡层(TransitionLayer)的处理，密集块包括3层密集层(DenseLayer)，过渡层包括步幅(stride)为1的1×1卷积处理以及步幅为2的2×2平均池化(average pool)处理，输出尺寸为28×28×128；在阶段2，依次经过密集块和过渡层的处理，密集块包括4层密集层，过渡层包括步幅为1的1×1卷积处理以及步幅为2的2×2平均池化处理，输出尺寸为14×14×256；在阶段3，依次经过密集块和过渡层的处理，密集块包括8层密集层，过渡层包括步幅为1的1×1卷积处理以及步幅为2的2×2平均池化处理，输出尺寸为7×7×512；在阶段4，依次经过密集块和过渡层的处理，密集块包括6层密集层，过渡层包括步幅为1的1×1卷积处理，输出尺寸为7×7×704；最后经过分类层(Classification Layer)的处理，在分类层，首先经过7×7的全局平均池化(global average pool)处理，输出尺寸为1×1×704，然后经过全连接层(fully-connecte)和逻辑回归(softmax)处理，得到最终结果。

在本申请实施例中，可以采集标准的第一手势和其它手势，所述第一手势可以根据实际情况进行设置，例如，可以将其设置为握拳手势(五指紧握，拇指贴近其余四指，手心面向摄像头，四只手指在同一水平线上)，对采集的手势进行精细标注作为静态手势训练集，采用Pelee-SSD对该训练集进行训练，使得训练后的模型能够检测图像中是否存在手势，以及手势是握拳(标签记为fist)还是其它类别(标签记为others)。

步骤S102、当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型。

所述第二手势为除所述第一手势之外的其它手势。

首先，对检测到的静态手势为所述第一手势的帧数进行累加，当检测到的静态手势为所述第一手势的帧数大于预设的第一阈值时，动态手势识别模型进入准备阶段。所述第一阈值记为T1，其具体取值可以根据实际情况进行设置，本申请实施例对此不作具体限定。优选地，可以将所述第一阈值设置为20，即：T1＝20。

在动态手势识别模型进入准备阶段之后，对检测到的静态手势为所述第二手势的帧数进行累加，当检测到的静态手势为所述第二手势的帧数大于预设的第二阈值时，确定所述第一手势已变换为所述第二手势，暂停所述静态手势检测模型，并激活所述动态手势检测模型。所述第二阈值记为T2，其具体取值可以根据实际情况进行设置，本申请实施例对此不作具体限定。优选地，可以将所述第二阈值设置为10，即：T2＝10。

图5所示即为静态手势检测阶段的示意流程图，如图所示，在本申请实施例的一种具体实现中，可以设置以下四个参数：模型控制标志位(记为fist_flag)、第一计数值(记为count_fist)、第二计数值(记为count_others)和计数标志位(记为count_flag)，这些参数用于控制静态手势检测模型和动态手势检测模型的开启与关闭，四个参数的初始值均为0。

fist_flag的取值范围为0或1，该参数的作用是控制两个模型的开启和关闭。若fist_flag＝0，即取值为第一数值时，则执行静态手势检测，若fist_flag＝1，即取值为第二数值时，则结束静态手势检测，执行动态手势检测。

count_fist表示检测到第一手势的计数，每检测到一帧第一手势，count_fist累加1。

count_flag的取值范围为0或1，当count_fist大于T1时，count_flag的取值由0变为1。

count_others表示检测到第二手势的计数，在count_flag变为1之前，即使检测到第二手势，也不对count_others进行累加，只有当count_flag变为1后，再检测到第二手势，才会对count_others累加1。若count_others的值大于T2，即用户在握拳动作持续了超过20帧之后，连续执行其它手势超过10帧。此时，认为用户已经由准备阶段过渡到开始执行动态手势检测的阶段，则fist_flag的值由0变为1，即结束静态手势检测阶段，并将count_fist、count_flag与count_others再次置为0。

步骤S103、使用所述动态手势检测模型对预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。

所述动态手势检测模型可以为现有技术中的任意一种可以实现动态手势检测的模型，本申请实施例对其不作具体限定。

优选地，所述动态手势检测模型为采用3D-MobileNetV2对预设的动态手势训练集进行训练得到的模型。

对于动态手势来说，其不仅具有空间域特性，还具有时间域特性，而传统的2D CNN难以对时间序列特征进行提取，因此，目前3D CNN成为动态手势识别的主流方法之一。3DCNN可以从序列中同时提取出空间与时序信息，它由多个3维卷积层、3维池化层以及激活函数组成。3维卷积层和3维池化层对特征图的操作分别与2维情形类似，仅有的差异在于2维卷积层和2维池化层只对一个特征图在宽和高的维度上进行操作，但3维卷积层和3维池化层对多个特征图同时在宽、高和时间维度上进行操作。因此3D CNN可以从序列中同时捕捉空间与时序信息。

3D CNN以多个帧作为输入，在实际的应用中，基于3D CNN的方法可以实现良好的性能，但其计算量较大，导致部署成本较高，因此设计小型且资源高效的3D CNN架构十分重要。例如，可以将几种高效的轻量级网络(MobileNet、MobileNetV2、ShuffleNet、ShuffleNetV2、SqueezeNet等)由2DCNN转换为3D CNN，这对探究更轻量级的、更实用的3D模型有很大贡献。MobileNetV2提出了一种新型层结构，即具有线性瓶颈的倒残差结构，该模块首先将输入的低维压缩表示扩展到高维，使用轻量级深度卷积做过滤；随后用线性瓶颈将特征投影回低维压缩表示。该模块在推理过程不实现大的张量，这减少了需要嵌入式硬件设计对主存储器访问的需求，适用于移动设备。采用基于MobileNetV2的3D CNN进行动态手势识别，可以在保持较小的模型的同时，实现较高的分类准确率。

所述动态手势检测模型从卷积层开始，然后是17个MobileNetV2块(Block)，再经过卷积层，最后以线性层结束。Block是反向残差块，其内部结构如图6的左图所示，输入的原始特征图的个数为F，每个原始特征图的尺寸记为D×H×W，其中，H、W和D分别为原始特征图的高度、宽度和深度，在三个维度上的步幅均为1，即stride＝(1,1,1)，原始特征图分别经过两个分支，在第一分支不进行任何处理，在第二分支依次经过三层处理，第一层为卷积核尺寸为1×1×1的卷积(Conv)处理，输出的特征图个数为6F，再经过批量标准化(BN)及线性整流函数(ReLU6)处理后进入第二层；第二层为卷积核尺寸为3×3×3的深度卷积(DWConv)处理，输出的特征图个数为6F，再经过BN及ReLU6处理后进入第三层；第三层为卷积核尺寸为1×1×1的卷积处理，输出的特征图个数为F，再经过BN处理后输出；两个分支的输出叠加(Add)为最后的输出特征图，输出的特征图个数为F，其尺寸为D×H×W。

图6右图所示为时间空间域两倍下采样的MobileNetV2 Block，输入的原始特征图的个数为F，每个原始特征图的尺寸记为D×H×W，在三个维度上的步幅均为2，即stride＝(2,2,2)，依次经过三层处理，第一层为卷积核尺寸为1×1×1的卷积处理，输出的特征图个数为6F，再经过BN及ReLU6处理后进入第二层；第二层为卷积核尺寸为3×3×3的深度卷积处理，输出的特征图个数为6F，再经过BN及ReLU6处理后进入第三层；第三层为卷积核尺寸为1×1×1的卷积处理，输出的特征图个数记为F’，再经过BN处理后得到最后的输出特征图，输出的特征图个数为F’，其尺寸为

在本申请实施例中，可以采集各种动态手势，并对采集的动态手势进行精细标注作为动态手势训练集，采用3D-MobileNetV2对该训练集进行训练，使得训练后的模型能够在获取若干个动态手势的帧后，返回一个动态手势的预测结果。

图7所示即为动态手势检测阶段的示意流程图，如图所示，在本申请实施例的一种具体实现中，可以设置以下四个参数：

帧数计数值(记为count_samples)，表示在动态手势识别阶段读取到的帧的计数，初始值为0，当上一阶段fist_flag变为1之后，count_samples即开始累加，每读到一帧，count_samples加1。

图像帧数组(记为buffer_frames)，即用来表示存储在所述存储介质中的各帧图像的一个数组，在本申请实施例中，可以首先将激活所述动态手势检测模型之前检测到的静态手势为所述第二手势的各帧图像依次存储入所述存储介质中，然后将激活所述动态手势检测模型之后所述视频流中的各帧图像依次存储入所述存储介质中，直至所述存储介质中存储的帧数等于预设的第三阈值时为止。所述第三阈值记为T3，其具体取值可以根据实际情况进行设置，本申请实施例对此不作具体限定。优选地，可以将所述第三阈值设置为30，即：T3＝30。

存储帧数计数值(记为count_buffer_frames)，表示数组buffer_frames中存储的帧的计数，初始值为T2，最大值设置为T3。

计数标志位(记为predict_flag)，用来控制动态手势识别的进行。初始值为0，当count_buffer_frames达到第三阈值时且predict_flag＝0，则动态手势检测模型对数组buffer_frames中存储的帧进行识别，返回结果。识别完一次后，predict_flag＝1。

当count_samples达到预设的第四阈值时，更新buffer_frame为空，count_buffer_frames＝0，count_samples＝0，fist_flag＝0。所述第四阈值记为T4，其具体取值可以根据实际情况进行设置，本申请实施例对此不作具体限定。优选地，可以将所述第四阈值设置为42，即：T4＝42。

从以上过程可以看出，执行完一次预测后，动态手势检测模型关闭，两个模型采用串行的方式执行，同一时刻只有其中一个模型在运行，在模型都比较轻量的情况下，可以保证整个手势识别过程流畅进行。

综上所述，本申请实施例使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势；当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型，所述第二手势为除所述第一手势之外的其它手势；使用所述动态手势检测模型对预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。通过本申请实施例，将静态手势检测模型与动态手势识别模型相结合，利用静态手势检测模型检测到指定的第一手势作为唤醒动作，当由指定的第一手势变换为其它手势时，动态手势识别模型才会被唤醒激活，并进行动态手势的识别返回结果，在动态手势识别期间，静态手势检测模型暂停检测，即两个模型不会同时运行。而且，动态手势识别模型被唤醒后，也只进行一次检测过程，而不会每读取到新的帧，都与先前的若干帧进行合并、检测并返回结果，避免了不同动作交替时可能发生的识别错误，有效提高了识别准确率，并且减轻了设备的运行负荷。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的一种动态手势识别方法，图8示出了本申请实施例提供的一种动态手势识别装置的一个实施例结构图。

本实施例中，一种动态手势识别装置可以包括：

静态手势识别模块801，用于使用预设的静态手势检测模型对视频流中的各帧图像进行检测，得到各帧图像的静态手势；

模型切换模块802，用于当检测到的静态手势由预设的第一手势变换为第二手势时，暂停所述静态手势检测模型，并激活预设的动态手势检测模型，所述第二手势为除所述第一手势之外的其它手势；

动态手势识别模块803，用于使用所述动态手势检测模型对预设的存储介质中存储的若干帧图像进行检测，得到动态手势识别结果。

进一步地，所述模型切换模块可以包括：

第一手势累加单元，用于对检测到的静态手势为所述第一手势的帧数进行累加；

第二手势累加单元，用于当检测到的静态手势为所述第一手势的帧数大于预设的第一阈值时，对检测到的静态手势为所述第二手势的帧数进行累加；

模型切换单元，用于当检测到的静态手势为所述第二手势的帧数大于预设的第二阈值时，确定所述第一手势已变换为所述第二手势，暂停所述静态手势检测模型，并激活所述动态手势检测模型。

进一步地，所述动态手势识别装置还可以包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图9示出了本申请实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本申请实施例相关的部分。

如图9所示，该实施例的终端设备9包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92。所述处理器90执行所述计算机程序92时实现上述各个动态手势识别方法实施例中的步骤，例如图1所示的步骤S101至步骤S103。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块801至模块803的功能。

示例性的，所述计算机程序92可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器91中，并由所述处理器90执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序92在所述终端设备9中的执行过程。

所述终端设备9可以是桌上型计算机、笔记本、云端服务器、手机、平板电脑、机器人等设备。本领域技术人员可以理解，图9仅仅是终端设备9的示例，并不构成对终端设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备9还可以包括输入输出设备、网络接入设备、总线等。

所述处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述终端设备9的内部存储单元，例如终端设备9的硬盘或内存。所述存储器91也可以是所述终端设备9的外部存储设备，例如所述终端设备9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述终端设备9所需的其它程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种动态手势识别方法，其特征在于，包括：

2.根据权利要求1所述的动态手势识别方法，其特征在于，在所述使用所述动态手势检测模型对在预设的存储介质中存储的若干帧图像进行检测之前，还包括：

3.根据权利要求1所述的动态手势识别方法，其特征在于，在得到动态手势识别结果之后，还包括：

4.根据权利要求3所述的动态手势识别方法，其特征在于，还包括：

5.根据权利要求1至4中任一项所述的动态手势识别方法，其特征在于，所述静态手势检测模型为采用Pelee-SSD对预设的静态手势训练集进行训练得到的模型。

6.根据权利要求1至4中任一项所述的动态手势识别方法，其特征在于，所述动态手势检测模型为采用3D-MobileNetV2对预设的动态手势训练集进行训练得到的模型。

7.一种动态手势识别装置，其特征在于，包括：

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的动态手势识别方法的步骤。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的动态手势识别方法的步骤。