CN110956059A

CN110956059A - 一种动态手势识别方法、装置和电子设备

Info

Publication number: CN110956059A
Application number: CN201811128265.4A
Authority: CN
Inventors: 杨嘉言; 虞勇波; 黄轩; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-03
Anticipated expiration: 2038-09-27
Also published as: CN110956059B

Abstract

本发明实施例提供一种动态手势识别方法、装置和电子设备，该方法包括：从摄像头拍摄到的视频中采样N帧图像帧，其中，所述N为对应一个手势的帧数；将所述N帧图像帧输入至预先训练好的时间关系推理TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。本发明实施例可以降低动态手势识别的计算量，以提高手势识别的识别效率。

Description

一种动态手势识别方法、装置和电子设备

技术领域

本发明涉及图像识别技术领域，尤其涉及一种动态手势识别方法、装置和电子设备。

背景技术

手势作为一种不需要中间媒介、非常人性化的人机交互方式，使人们无需输入设备，即可通过手势向计算机发布指令，增加了用户与计算机的交互性与用户体验。其中，手势可以分为静态手势与动态手势两种，静态手势识别是识别一些静态的如手掌、拳头等特定的手型，通常采用模版匹配的方法。在日常生活中，人们使用更多的是动态手势，比如左右挥手、前推后拉、上下移动等。目前主要是基于卷积神经网络的动态手势识别，然而，该动态手势识别技术在识别动态手势时，需要提取图像的光流信息或者深度信息，导致计算量大。

发明内容

本发明实施例提供一种动态手势识别方法、装置和电子设备，以降低动态手势识别的计算量。

第一方面，本发明实施例提供一种动态手势识别方法，包括：

从摄像头拍摄到的视频中采样N帧图像帧，其中，所述N为对应一个手势的帧数；

将所述N帧图像帧输入至预先训练好的时间关系网络(Temporal RelationNetwork，TRN)模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。

可选的，所述TRN模型的训练过程包括如下：

获取数据集，所述数据集包括属于M个手势类别的训练数据，每个训练数据包括N帧训练图像，所述M为大于1的整数；

分别使用所述数据集内的训练数据对所述TRN模型进行训练，其中，每个训练数据训练过程中包括学习该训练数据内多个训练图像的时间关系。

可选的，所述获取数据集，包括：

获取数据集，删除所述数据集中的至少一个手势类别的训练数据，以及将删除后的所述数据集中语义相似的手势类别的训练数据进行合并，以得到所述M个手势类别，其中，所述语义相似的手势类别为语义相似度大于预设相似度阈值的手势类别。

可选的，所述获取数据集，包括：

获取数据集，删除所述数据集中的至少一个手势类别的训练数据，以得到所述M个手势类别；

所述得到所述N帧图像帧的手势类别之后，所述方法还包括：

将所述N帧图像帧的手势类别转换为目标手势类别，其中，所述目标手势类别包括所述M个手势类别中的至少两个手势类别。

可选的，所述将所述N帧图像帧输入至预先训练好的TRN模型进行预测，包括：

通过所述TRN模型从所述N帧图像帧选取图像帧，以得到多个图像帧组，每组图像帧组包括多个图像帧；

通过所述TRN模型提取每个图像帧组的图像特征值，其中，每个图像帧组的图像特征值的提取过程中融合有该图像帧组内各图像帧的时间关系，每图像帧组内各图像帧的时间关系通过所述TRN模型学习得到；

通过所述TRN模型学习预测所述多个图像帧组的图像特征值对应的手势类别，以得到所述N帧图像帧的手势类别。

可选的，所述从摄像头拍摄到的视频中采样N帧图像帧，包括：

通过第一线程对摄像头拍摄到的视频进行采样，并将当前采样到的图像帧放入长度为T的帧队列，以及将当前采样到的图像帧放入长度为N的处理列表，其中，所述T为大于或者等于1的整数；

通过主线程显示所述帧队列的第一个图像帧；

所述将所述N帧图像帧输入至预先训练好的TRN模型进行预测，得到所述N帧图像帧的手势类别，包括：

若所述处理列表存放有N个图像帧，则通过第二线程将所述处理列表的当前N个图像帧输入至预先训练好的TRN模型进行预测，得到所述处理列表的当前N个图像帧的手势类别，并将所述手势类别，以及所述处理列表最后一个图像帧以及其拍摄时间加入结果队列；

通过第三线程维护所述结果队列，并向所述主线程返回所述结果队列中与显示图像帧的拍摄时间最近的手势类别，其中，所述显示图像帧为所述主线程当前显示的图像帧。

第二方面，本发明实施例提供一种动态手势识别装置，包括：

采样模块，用于从摄像头拍摄到的视频中采样N帧图像帧，其中，所述N为对应一个手势的帧数；

预测模块，用于将所述N帧图像帧输入至预先训练好的时间关系推理TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的动态手势识别方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的动态手势识别方法中的步骤。

本发明实施例中，从摄像头拍摄到的视频中采样N帧图像帧，其中，所述N为对应一个手势的帧数；将所述N帧图像帧输入至预先训练好的时间关系推理TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。由于只需要采样图像帧，而不需要提取图像帧的光流信息和深度信息，从而可以降低动态手势识别的计算量，以提高手势识别的识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种动态手势识别方法的流程示意图；

图2是本发明实施例提供的一种TRN模型的示意图；

图3是本发明实施例提供的另一种动态手势识别方法的流程示意图；

图4是本发明实施例提供的一种手势类别删除合并的示意图；

图5是本发明实施例提供的一种动态手势识别的示意图；

图6是本发明实施例提供的另一种动态手势识别的示意图；

图7是本发明实施例提供的一种多线线程动态手势识别的示意图；

图8是本发明实施例提供的一种动态手势识别装置的结构示意图；

图9是本发明实施例提供的另一种动态手势识别装置的结构示意图；

图10是本发明实施例提供的另一种动态手势识别装置的结构示意图；

图11是本发明实施例提供的另一种动态手势识别装置的结构示意图；

图12是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种动态手势识别方法的流程示意图，如图1所示，包括以下步骤：

101、从摄像头拍摄到的视频中采样N帧图像帧，其中，所述N为对应一个手势的帧数。

其中，上述视频可以是摄像头实际拍摄到的视频，而上述采样可以是fps(帧/秒)的速度采样，例如：fps＝10、15或者20等，具体可以为预设设定。

而上述N可以是预先设置与TRN模型对应一个手势的帧数，例如：8、12或者16等。本发明实施例中，优选N等于8，这样可以使得计算量简单，且识别的准确率比较高。

102、将所述N帧图像帧输入至预先训练好的TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。

其中，上述TRN模型为预先训练好的，能够学习输入数据的时间关系的网络模型。具体的，该TRN模型可以利用稀疏采样得到的帧学习它们之间随机的多时间尺度的时间关系信息，可以端到端地学得时间关系信息。以N等于8为例，上述TRN模型可以如图2所示，1、2、3…8表示8个图像帧，该TRN模型中从这8个图像帧中选择(可以随机选择)图像帧，例如：时间序列上随机采样2帧、3帧等多帧，得到图2所示的5个图像帧组，需要说明的是，本发明实施例中，对选择的规则，以及图像帧组的数量不作限定，可以根据实际情况进行设置。之后通过5个卷积神经网络(Convolutional Neural Network，CNN)提取每个图像帧组的图像特征值，具体如图2所示的CNN下面的实线所示。其中，在每个图像帧组的图像特征值的提取过程中融合有该图像帧组内各图像帧的时间关系，每图像帧组内各图像帧的时间关系通过对应的CNN学习得到。其中，图2中的g和h分别表示不同的网络层。通过图2所示的TRN模型可以实现融合了2帧关系、3帧关系等多个时间尺度上的时间关系信息，进行模型的训练与测试。由于只需要采样得到的图像帧，而不需光流信息和深度信息，故提高了效率的同时降低了对设备的要求。另外，由于只需要在整个视频片段上稀疏采样即可获得长期的关系信息，故大幅减少了计算量，从而可以实时动态地识别摄像头拍摄的视频内容中的手势。

优选的，本发明实施例中，上述图像帧为RGB图像帧。

另外，上述TRN模型可以是BN Inception网络结构，当然，对此不作限定，例如：还可以是QuocNet或者AlexNet等网络结构。其中，图5以BN Inception网络结构进行举例说明。

上述方法中，由于只需要采样图像帧，而不需要提取图像帧的光流信息和深度信息，从而可以降低动态手势识别的计算量，以提高手势识别的识别效率，另外，由于计算量从而降低对设备要求，提高动态手势识别的速度与准确率，且不需要光流信息和深度信息，从而能够实时识别2D摄像头拍摄到的动态手势。

需要说明的是，本发明实施例提供的动态手势识别方法可以应用于手机、智能终端、计算机、服务器、平板电脑等智能设备。

请参见图3，图3是本发明实施例提供的一种动态手势识别方法的流程示意图，如图3所示，包括以下步骤：

301、获取数据集，所述数据集包括属于M个手势类别的训练数据，每个训练数据包括N帧训练图像，所述M为大于1的整数，所述N为对应一个手势的帧数。

其中，上述数据集可以包括多个手势类别的训练数据，每个训练数据包括N帧训练图像，这N帧训练图像对应一个动态手势。另外，上述数据集的训练数据可以不包括深度信息和光流信息，这样可以降低模型训练的计算量。

优选的，上述M个手势类别的训练数据可以是通过对上述数据集内原始的训练数据进行优化得到的M个手势类别的训练数据，例如：删除一些本发明实施例不需要的类型识别。因为，在实际应用中，一些公开的数据集可能会包括一些类别语义不够明确的训练数据，或者本发明实施例中应用场景不需要的手势类别，这样删除一些本发明实施例不需要的类型识别，可以降低模型训练的计算量，以及保留语义明确的手势类别的训练数据，进而使得模型预测的结果更加准确。

一种可选的实施方式，所述获取数据集，包括：

其中，上述至少一个手势类别的训练数据可以是本发明实施例不需要的手势类别的训练数据，这些不需要的手势类别的训练数据可以是由用户设定，或者设备根据本发明实施例应用的场景智能选择，例如：根据应用场景与手势类别的对应选择，删除本发明实施例不需要的手势类别的训练数据。

而上述将删除后的所述数据集中语义相似的手势类别的训练数据进行合并可以是，分析删除后的数据集包括的手势类别，并确定相似的手势类别，进而将语义相似的手势类别的训练数据进行合并。

例如：以Jester数据集为例，该数据集可以包括148092个动态手势，共27个类别，而且没有深度信息。通过上述步骤将数据集原有27个类别针对人机交互的需求进行了类别的合并与删除，具体处理方式可以如图4所示，最终得到语义明确，利于人机交互的13个类别，以提高TRN模型预测的准确性。

需要说明的是，上述仅是以Jester数据集进行举例说明，但本发明实施例对数据集并不作限定，例如：还可以采用Imagenet数据集等。

该实施方式中，可以实现在TRN模型开始训练之前，将数据集按照上述处理方法进行数据的合并与删除，从而保证TRN模型是使用处理后的类别数据进行训练的，测试时得到的类别信息即为所需要的类别信息，具体流程图如图5所示。这样可以降低TRN模型训练的计算量，以及还可以提高TRN模型预测的准确性。

另一种可选的实施方式，所述获取数据集，包括：

在得到所述N帧图像帧的手势类别之后，所述方法还包括：

其中，上述删除所述数据集中的至少一个手势类别的训练数据可以参见上述描述，此处不作赘述。

需要说明的是，本实施方式中，上述M并不等于上面一实施方式中的M，例如：以图4所示的，上面一实施方式中的M等于13，但本实施方式中，由于是在预测之后进行合并，所以针对图4所示的数据集，本实施方式中，M等于22，即删除后面5个手势类别之后，剩余的22个手势类别。

另外，上述目标手势类型可以是参见上一实施方式中的合并规则进行合并，例如：将相似手势类别进行合并，从而得到上述目标手势类别，如图4所示，上述目标手势类别为图4中新类别中的前面9个中的某一个手势类型。

该实施方式中，可以实现在模型训练之前，将不需要的类别数据删除，而不进行数据的合并，即模型使用的是删除了不需要的类别数据进行训练的。但是在训练过程中计算准确率时，需要将预测的类别与真实的类别根据上述合并规则进行合并转换，只要转换后的预测结果与转换后真实的类别相同即视为识别正确，具体流程图如图6所示。由于先删除不需要的手势类别，这样可以降低模型训练的计算量，而在预测之后进行合并，可以提高预测的准确性，因为，合并后的手势类别为更加语义更加明确的手势类别。

302、分别使用所述数据集内的训练数据对所述TRN模型进行训练，其中，每个训练数据训练过程中包括学习该训练数据内多个训练图像的时间关系。

该步骤中，可以是将上述数据集内M个手势类别的训练数据输入到上述TRN模型进行训练，由于该数据集包括这些训练数据的真实手势类别，从而通过该数据集训练数据，可以训练出上述TRN模型。

另外，上述TRN模型在训练，以及预测过程中，可以保留第一(top1)准确率，具体可以是，针对某一训练数据进行训练时，可能会得到多个训练结果，每个训练结果存在对应一个准确率，从而这多个训练结果中选择准确率最高的训练结果，作为最终的训练结果。这样可以得到top1准确率最高的TRN模型。本发明实施例中，通过实验数据表示，如果选择使用BN Inception网络结构，并在Imagenet数据集上进行模型的预训练，然后训练得到8帧的多尺度信息模型，该模型在确认集上可以达到96％的top1准确率，每个视频的识别时间约为0.1s。

需要说明的是，通过步骤301和步骤302可以训练出预测过程中融合有所述N帧图像帧的时间关系的TRN模型，从而在动态手势识别过程中不需要图像帧的深度信息和光流信息，从而可以降低动态手势识别的计算量，以提高手势识别的识别效率。另外，由于计算量从而降低对设备要求，提高动态手势识别的速度与准确率，且不需要光流信息和深度信息，从而能够实时识别2D摄像头拍摄到的动态手势。

需要说明的是，步骤301和步骤302可以理解为上述TRN模型的训练过程。另外，该训练过程为可选的，例如：某一个设备需要进行动态手势识别，该设备可以接收其他设备发送的已经训练好的上述TRN模型，或者接收用户输入的已经训练好的上述TRN模型。

303、从摄像头拍摄到的视频中采样N帧图像帧。

304、将所述N帧图像帧输入至预先训练好的TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。

一种可选的实施方式，所述将所述N帧图像帧输入至预先训练好的TRN模型进行预测，包括：

通过所述TRN模型预测所述多个图像帧组的图像特征值对应的手势类别，以得到所述N帧图像帧的手势类别。

其中，上述选取图像帧可以是随机选取，或者按照某一特定规则进行选取，且得到上述多个图像帧组中不同图像帧组可以存在相同的图像帧，例如：如图2所示，当然，在一些实施方式中，不同图像帧组也可以不存在相同的图像帧。

上述提取每个图像帧组的图像特征值可以是通过TRN中的CNN学习个图像帧组内各图像帧之间的时间关系，并基于该时间关系信息提取该图像帧组的图像特征值，例如：如图2所示的CNN。

当得到每个图像帧组的图像特征值后，可以通过TRN模型预测所述多个图像帧组的图像特征值对应的手势类别，例如：通过如图2所示g和h网络层对多个图像帧组的图像特征值进行运算，以得到上述N帧图像帧的手势类别。

该实施方式中，由于每个图像帧组的图像特征值的提取过程中融合有该图像帧组内各图像帧的时间关系，从而可以在动态手势识别过程中不需要图像帧的深度信息和光流信息，从而可以降低动态手势识别的计算量，以提高手势识别的识别效率。另外，由于计算量从而降低对设备要求，提高动态手势识别的速度与准确率，且不需要光流信息和深度信息，从而能够实时识别2D摄像头拍摄到的动态手势。

需要说明的是，本发明实施例中，使用TRN模型进行预测的实施方式并不限定通过上述实施方式中的提供预测方式，例如：还可以是先提取N图像帧的图像特征值，再学习各图像帧的时间关系信息，之后，基于时间关系信息将这些N图像帧的图像特征值进行合并，得到多个图像特征值，最后，通过TRN模型预测这多个图像特征值对应的对应的手势类别，以得到所述N帧图像帧的手势类别。

一种可选的实施方式，所述从摄像头拍摄到的视频中采样N帧图像帧，包括：

通过主线程显示所述帧队列的第一个图像帧；

通过第三线程维护所述结果队列，并向所述主线程返回所述结果队列中与显示图像帧的采集时间最近的手势类别，其中，所述显示图像帧为所述主线程当前显示的图像帧。

其中，上述第一线程可以调用某一功能(例如：opencv)打开摄像头，并设置参数以fps(帧/秒)的速度采样，然后将当前采样得到的帧以及当前时间放入长为T的帧队列，等待被主线程从头部取帧贴上标签用于显示，以显示帧队列的第一个图像帧。其中，上述T可以等于delay×fps，优选的，这里采用delay＝0.2s、fps＝10，即帧队列长为2，当然，对此不作限定。从而得到如图7所示的帧队列(frame_queue:[delay×fps])。其中，图7中用(1)表示第一线程，(2)表示第二线程，(3)表示第三线程。

同时第一线程还将当前帧及当前时间放入长为N的处理列表，其中，图7用process_list:[number of segments]所示，并等待被第二线程识别该处理列表中所属的手势类别，优选的，这里采用N＝segments＝8。当帧队列满时，从队列头部取出一帧，并可以调用某一函数(例如：Queue.task_done())向已经完成的队列发送信号，然后将当前帧加入帧队列；当上述处理列表满时，可以调用另一函数(例如：List.pop(0))取出第一帧，然后将当前帧放在处理队列最后。

第二线程使用训练好的TRN模型(TRN Model)，可以处理队列中的数帧进行图像的预处理(例如：图像大小调整，当然，该预处理为可选的)，然后作为TRN模型(TRN Model)的输入，得到当前处理队列的预测结果，即手势类别。然后将该预测结果与当前处理队列的最后一帧(most close frame)及其拍摄时间加入结果队列result_queue:[number of max_live]中。若该结果队列已满，则采取与第一线程相同的处理方式进行处理，此处不作赘述。

第三线程负责维护结果队列，例如：可以是只保留最近max_live秒内的结果，这里max_live取2秒。当主线程需要返回距离某个时刻最近的结果时，第三线程负责在结果队列中根据每帧被采样的时间返回距离该时刻最近的结果类别。其中，这里时刻可以是指主线程当前显示的图像帧的采集时间。

主线程还可以负责设置上述TRN模型的参数，初始化帧队列、处理列表和结果队列等，然后依次启动第一线程、第二线程和第三线程。

一种优选的实施方式中，所述通过主线程显示所述帧队列的第一个图像帧，包括：

通过主线程延迟预设时间显示所述帧队列的第一个图像帧。

例如：主线程可以延时一秒显示，以用于建立上述队列及列表后，反复从帧队列中取出头部的帧及其采样时间，然后调用第三线程返回距离该采样时间最近的识别结果作为当前时刻的识别结果。

该实施方式中，通过多线程处理，可以提高动态手势识别的效率，做到实时识别用户的动态手势。

当然，本发明实施例中，并不限定通过上述四个线程进行动态手势识别，例如：可以通过四个线程中的部分线程动态手势识别。

本实施例中，在图1的所示的实施例的基础上增加了多种可选的实施方式，且均可以实现降低动态手势识别的计算量。

请参见图8，图8是本发明实施例提供的一种动态手势识别装置的结构图，如图8所示，包括：

采样模块801，用于从摄像头拍摄到的视频中采样N帧图像帧，其中，所述N为对应一个手势的帧数；

预测模块802，用于将所述N帧图像帧输入至预先训练好的时间关系推理TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。

可选的，所述TRN模型的训练过程包括如下：

可选的，所述获取数据集，包括：

如图9所示，所述装置还包括：

合并模块803，用于将所述N帧图像帧的手势类别转换为目标手势类别，其中，所述目标手势类别包括所述M个手势类别中的至少两个手势类别。

可选的，如图10所示，预测模块802，包括：

选取单元8021，用于通过所述TRN模型从所述N帧图像帧选取图像帧，以得到多个图像帧组，每组图像帧组包括多个图像帧；

提取单元8022，用于通过所述TRN模型提取每个图像帧组的图像特征值，其中，每个图像帧组的图像特征值的提取过程中融合有该图像帧组内各图像帧的时间关系，每图像帧组内各图像帧的时间关系通过所述TRN模型学习得到；

第一预测单元8023，用于通过所述TRN模型预测所述多个图像帧组的图像特征值对应的手势类别，以得到所述N帧图像帧的手势类别。

可选的，如图11所示，采样模块801包括：

采样单元8011，用于通过第一线程对摄像头拍摄到的视频进行采样，并将当前采样到的图像帧放入长度为T的帧队列，以及将当前采样到的图像帧放入长度为N的处理列表，其中，所述T为大于或者等于1的整数；

显示单元8012，用于通过主线程显示所述帧队列的第一个图像帧；

预测模块802，包括：

第二预测单元8024，用于若所述处理列表存放有N个图像帧，则通过第二线程将所述处理列表的当前N个图像帧输入至预先训练好的TRN模型进行预测，得到所述处理列表的当前N个图像帧的手势类别，并将所述手势类别，以及所述处理列表最后一个图像帧以及其拍摄时间加入结果队列；

返回单元8025，用于通过第三线程维护所述结果队列，并向所述主线程返回所述结果队列中与显示图像帧的采集时间最近的手势类别，其中，所述显示图像帧为所述主线程当前显示的图像帧。

可选的，显示单元8012用于通过主线程延迟预设时间显示所述帧队列的第一个图像帧。

本发明实施例提供的社区管理装置能够实现图1和图3的方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

参见图12，图12是本发明实施例提供的一种电子设备的结构示意图，如图12所示，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中：

处理器1201用于调用存储器1202存储的计算机程序，执行如下步骤：

将所述N帧图像帧输入至预先训练好的时间关系网络TRN模型进行预测，得到所述N帧图像帧的手势类别，其中，所述TRN模型在预测过程中融合有所述N帧图像帧的时间关系。

可选的，所述TRN模型的训练过程包括如下：

可选的，所述获取数据集，包括：

所述得到所述N帧图像帧的手势类别之后，所述方法还包括：

通过主线程显示所述帧队列的第一个图像帧；

可选的，所述通过主线程显示所述帧队列的第一个图像帧，包括：

通过主线程延迟预设时间显示所述帧队列的第一个图像帧。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的动态手势识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种动态手势识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述TRN模型的训练过程包括如下：

3.如权利要求2所述的方法，其特征在于，所述获取数据集，包括：

4.如权利要求2所述的方法，其特征在于，所述获取数据集，包括：

所述得到所述N帧图像帧的手势类别之后，所述方法还包括：

5.如权利要求1至4中任一项所述的方法，其特征在于，所述将所述N帧图像帧输入至预先训练好的TRN模型进行预测，包括：

6.如权利要求1至4中任一项所述的方法，其特征在于，所述从摄像头拍摄到的视频中采样N帧图像帧，包括：

通过主线程显示所述帧队列的第一个图像帧；

7.如权利要求6所述的方法，其特征在于，所述通过主线程显示所述帧队列的第一个图像帧，包括：

通过主线程延迟预设时间显示所述帧队列的第一个图像帧。

8.一种动态手势识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的动态手势识别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的动态手势识别方法中的步骤。