CN113392820B

CN113392820B - 动态手势识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN113392820B
Application number: CN202110944939.3A
Authority: CN
Inventors: 毛凤辉; 郭振民; 孙其民; 李建军
Original assignee: Nanchang Virtual Reality Institute Co Ltd
Current assignee: Nanchang Virtual Reality Institute Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-30
Anticipated expiration: 2041-08-17
Also published as: CN113392820A

Abstract

本申请实施例公开了一种动态手势识别方法、装置、电子设备及可读存储介质。所述方法包括：获取连续的多帧待识别图像；通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像；基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像；获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动；若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。进而提高了动态手势识别的准确性和实时性。

Description

动态手势识别方法、装置、电子设备及可读存储介质

技术领域

本申请属于手势识别领域，具体涉及一种动态手势识别方法、装置、电子设备及可读存储介质。

背景技术

手势是人类之间交流的一种自然形式，手势识别也是人机交互的重要研究方向之一。手势识别可以分为静态手势识别和动态手势识别，相对静态手势识别来说，动态手势识别是一个连续的过程，需要学习不同帧的手势在时间维度上的关系。因此，识别动态手势难度较大，并且如何确定手势的开始帧与结束帧，也是目前动态手势识别的一个难点。

发明内容

鉴于上述问题，本申请提出了一种动态手势识别方法、装置、电子设备及可读存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种动态手势识别方法，所述方法包括：获取连续的多帧待识别图像；通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像；获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动；若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。

第二方面，本申请实施例提供了一种动态手势识别装置，所述装置包括：第一图像获取单元，用于获取连续的多帧待识别图像；第二图像获取单元，用于通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；区域获取单元，用于基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像；光流矢量获取单元，用于获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动；位置确定单元，用于若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请实施例提供了一种动态手势识别方法、装置、电子设备及可读存储介质。首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像，再获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的光流矢量，通过计算出的光流矢量的变化量可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种动态手势识别方法的流程图；

图2示出了本申请另一实施例提出的一种动态手势识别方法的流程图；

图3示出了本申请另一实施例中步骤S230的具体步骤的流程图；

图4示出了本申请另一实施例中提出的一种图像的边界框的示意图；

图5示出了本申请另一实施例中步骤S240的具体步骤的流程图；

图6示出了本申请另一实施例中提出的一种子图像的示意图；

图7示出了本申请另一实施例中步骤S250的具体步骤的流程图；

图8示出了本申请另一实施例中步骤S255的具体步骤的流程图；

图9示出了本申请再一实施例提出的一种动态手势识别方法的流程图；

图10示出了本申请实施例提出的一种动态手势识别装置的结构框图；

图11示出了本申请实施例提出的另一种动态手势识别装置的结构框图；

图12示出了本申请实施例提出的一种电子设备的结构框图；

图13示出了本申请实施例提出的一种计算机可读存储介质的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人在对相关的动态手势识别方法的研究中发现，在动态手势识别过程中，一个视频内往往含有很多的没有手势或者无效手势的图像帧，这些无效手势严重影响动态手势的识别准确度及其识别的实时性。

动态手势识别的难点和重点也是找到有效手势的起始位置和终止位置，目前动态手势识别的起始位置判定方法一般是在做其动作时，给一个标准性的手势，比如一个手掌信号。这种方法要求客户刻意做一些规定性动作，并没有达到自然的人机手势交互。

因此，发明人提出了本申请中的首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像，再获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的光流矢量，通过计算出的光流矢量的变化量可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性的动态手势识别方法、装置、电子设备及可读存储介质。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供的一种动态手势识别方法，所述方法包括：

步骤S110：获取连续的多帧待识别图像。

在本申请实施例中，所述连续的多帧待识别图像可以为图像采集装置连续采集到的多帧图像，也可以为在时间上连续且属于同一个视频文件的视频帧图像。

作为一种方式，当连续的多帧待识别图像为图像采集装置连续采集到的多帧图像时，可以通过图像采集装置实时采集用户手部在运动过程中的图像，也可以预先通过图像采集装置连续采集用户手部在运动过程中的图像。其中，图像采集装置可以为包括摄像头的智能手机、平板电脑或者智能穿戴设备等，图像采集装置也可以为kinect相机，在此不做具体限定。

作为另一种方式，当连续的多帧待识别图像为在时间上连续且属于同一个视频文件的视频帧图像时，可以通过视频采集装置实时采集视频文件，当视频采集装置采集完视频文件时，可以将视频文件中的视频流划分为在时间上连续的一帧一帧的视频帧图像，进而得到连续的多帧视频帧图像，将该连续的多帧视频帧图像作为连续的多帧待识别图像。其中，视频采集装置也可以为包括摄像头的智能手机、平板电脑或者智能穿戴设备等，视频采集装置也可以为Kinect相机，在此不做具体限定。

可选的，连续的多帧待识别图像也可以为从云服务器或者其他外部设备的存储区域获取到的连续的多帧图像。具体的，云服务器或其他外部设备中预先存储有需要进行手势识别的连续的多帧图像，当电子设备需要获取连续的多帧待识别图像时，电子设备可以直接从云服务器或者其他外部设备中获取。在本申请实施例中，其他外部设备可以为与电子设备建立通信连接的设备。

当通过上述方法获取到连续的多帧待识别图像时，可以对该连续的多帧待识别图像进行预处理，得到经过预处理后的连续的多帧待识别图像。其中，预处理可以包括统一该连续的多帧待识别图像的尺寸大小，以及对该连续的多帧待识别图像的像素进行归一化处理等，以得到尺寸大小相同，图像像素相同的连续的多帧待识别图像。

步骤S120：通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像。

在本申请实施例中，所述连续的多帧目标图像为目标检测模型连续输出的多帧包括有预设定的动态手势的起始手型的图像，其中，所述连续的多帧目标图像包括连续的至少三帧目标图像。

当通过上述方式获取到连续的多帧待识别图像后，将连续的多帧待识别图像依次输入到目标检测模型中，当目标检测模型检测到待识别图像为包括预设定的动态手势的起始手型的图像时，则输出包括动态手势的位置信息的图像，并将该帧图像作为目标图像，若目标检测模型检测到待识别图像为不包括预设定的动态手势的起始手型的图像，目标检测模型还是会将该帧待识别图像进行输出，但不会输出该帧图像的动态手势的位置信息，也不会将该帧待识别图像作为目标图像。

示例性的，首先从网络摄像头中获取待识别图像src_1，将其输入目标检测模型中，若检测到待识别图像src_1中含有预设定的动态手势的起始手型，则输出包括动态手势的位置信息的待识别图像src_1，并将包括动态手势的位置信息的待识别图像src_1作为目标图像，再从网络摄像头中获取下一帧待识别图像src_2，若检测到待识别图像src_2中不含有预设定的动态手势的起始手型，则将原待识别图像src_2进行输出，继续依次从网络摄像头中读取待识别图像src_3、待识别图像src_4以及待识别图像src_5，若待识别图像src_3、待识别图像src_4以及待识别图像src_5中均含有预设定的动态手势的起始手型，则依次输出包括动态手势的位置信息的待识别图像src_3、包括动态手势的位置信息的待识别图像src_4以及包括动态手势的位置信息的待识别图像src_5，将包括动态手势的位置信息的待识别图像src_3、包括动态手势的位置信息的待识别图像src_4以及包括动态手势的位置信息的待识别图像src_5均作为目标图像，将包括动态手势的位置信息的待识别图像src_3、包括动态手势的位置信息的待识别图像src_4以及包括动态手势的位置信息的待识别图像src_5作为所述连续的多帧目标图像，但不会将待识别图像src_1作为所述连续的多帧目标图像中的一帧图像。

步骤S130：基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像。

作为一种方式，当通过上述方式获取到连续的至少三帧目标图像后，对获取到的连续的至少三帧目标图像进行分割，得到连续的至少三帧目标图像各自对应的子图像。在本申请实施例中，在对目标图像进行分割得到对应的子图像时，可以按照相同的位置以及尺寸对目标图像进行分割，得到包括手部区域的子图像。

步骤S140：获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断连续的多帧目标图像所包括的动态手势是否运动。

其中，所述光流矢量为二维图像平面特定坐标点上的灰度瞬时变化率，换句话说，光流矢量表示每个像素点在x，y方向的瞬时速率。

在本申请实施例中，基于相邻两帧目标图像各自对应的子图像，通过目标函数可以计算得到对应的光流矢量。其中，目标函数可以为opencv库函数，也就是calcOpticalFlowFarneback()函数。通过目标函数可以计算出每相邻两帧目标图像各自对应的子图像对应的光流矢量，得到多个光流矢量。示例性的，连续的多帧目标图像可以为连续的三帧目标图像，那么通过calcOpticalFlowFarneback()函数就可以得到两个光流矢量。当计算到了多个光流矢量后，可以通过多个光流矢量的值来判断连续的多帧目标图像所包括的动态手势对应的手部区域是否有一定的运动速度。

步骤S150：若连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。

若确定连续的多帧目标图像中包括的动态手势对应的手部区域有一定的运动速度，则从连续的多帧目标图像中可以确定动态手势的起始帧；若确定连续的多帧目标图像中包括的动态手势对应的手部区域没有一定的运动速度，那么通过前述获取目标图像的方法，重新获取连续的多帧目标图像，再通过上述计算光流矢量的方法重新计算对应的光流矢量，然后基于计算得到的光流矢量，从重新获取的连续的多帧目标图像中确定动态手势的起始帧。

本申请提供的一种动态手势识别方法，首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像，再获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的光流矢量，通过计算出的光流矢量的变化量可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性。

请参阅图2，本申请实施例提供的一种动态手势识别方法，所述方法包括：

步骤S210：获取连续的多帧待识别图像。

步骤S220：通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像。

步骤S210以及步骤S220具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤S230：基于所述连续的多帧目标图像中的相邻两帧目标图像各自对应的边界框的位置属性，得到目标边界框对应的位置属性。

其中，所述目标图像对应有所述动态手势的边界框，以及所述边界框的位置属性。

具体的，所述动态手势的边界框可以为包围动态手势的起始手型的手部图像的边界框，以及可以为检测到有动态手势的起始手型的图像帧之后的连续两帧包括有动态手势的图像中包围动态手势的手部图像的边界框；所述边界框的位置属性为

、w、h，其中，

表示边界框的左上角点坐标，w和h表示边界框的宽、高。所述目标边界框为根据相邻两帧目标图像的位置属性计算得到的稠密光流区域，其中，稠密光流区域为稠密光流法的计算区域。可以理解的是，稠密光流法是一种针对图像进行逐点匹配的图像配准方法，不同于稀疏光流法只针对图像上若干个特征点，稠密光流法计算图像上所有的点的偏移量，从而形成一个稠密的光流场。

在本申请实施例中，所述连续的多帧目标图像包括第一目标图像、第二目标图像以及第三目标图像。

作为一种方式，如图3所示，所述步骤S230的步骤具体可以包括：

步骤S231：基于所述第一目标图像和所述第二目标图像各自对应的边界框的位置属性，得到第一位置属性，所述第一位置属性为所述第一目标图像和所述第二目标图像对应的目标边界框对应的位置属性。

假设第一目标图像、第二目标图像以及第三目标图像分别为image1、image2以及image3。

image1的边界框的位置属性为

，

，

，如图4所示，图4为本申请实施例提出的一种图像的边界框示意图，image1的边界框可以如图4中的图像1的1区域边界框所示，图像1的1区域的位置属性为

，

，

；image2的边界框的位置属性为

，

，

，image2的边界框可以如图4中图像2的1区域的边界框所示，图像2的1区域的位置属性为

，

，

；image3的边界框的位置属性为

，

，

；计算image1和image2的稠密光流区域的位置属性的具体计算公式为：

；

；

，即image1，image2对应的稠密光流区域的位置属性(第一位置属性)为左上角点为

，宽、高分别为

，

。示例性的，如图4中图像1的2区域以及图4中图像2的2区域对应的位置属性均为左上角点为

，宽、高分别为

，

。

步骤S232：基于所述第二目标图像和所述第三目标图像各自对应的边界框的位置属性，得到第二位置属性，所述第二位置属性为所述第二目标图像和所述第三目标图像对应的目标边界框对应的位置属性。

同理，可以通过上述计算式计算得到image2，image3对应的稠密光流区域的位置属性(第二位置属性)为左上角点为

，宽、高分别为

，

。

步骤S240：基于所述目标边界框对应的位置属性，获取所述连续的多帧目标图像各自对应的子图像。

在本申请实施例中，子图像为上述计算得到的稠密光流区域。

作为一种方式，如图5所示，所述步骤S240的步骤具体可以包括：

步骤S241：获取第一子图像和第二子图像，所述第一子图像为基于所述第一位置属性获取的所述第一目标图像对应的子图像，所述第二子图像为基于所述第一位置属性获取的所述第二目标图像对应的子图像。

具体的，按照第一位置属性左上角点为

，宽、高分别为

，

所描述的目标边界框的大小和位置，从image1和image2中获取对应的第一子图像src1，第二子图像src2。

步骤S242：获取第三子图像和第四子图像，所述第三子图像为基于所述第二位置属性获取的所述第二目标图像对应的子图像，所述第四子图像为基于所述第二位置属性获取的所述第三目标图像对应的子图像。

具体的，按照第二位置属性左上角点为

，宽、高分别为

，

所描述的目标边界框的大小和位置，从image2和image3中获取对应的第三子图像src3，第四子图像src4。

步骤S243：对所述第一目标图像和所述第二目标图像进行手部区域分割，分别得到所述第一目标图像对应的第一参考图像和所述第二目标图像对应的第二参考图像，所述第一参考图像为从所述第一目标图像中分割出的包括手部区域的图像，所述第二参考图像为从所述第二目标图像中分割出的包括手部区域的图像。

具体的，通过皮肤检测模型，并结合深度图，依据手部区域中相邻区域深度变化连续特性，对image1和image2进行手部区域划分，分割出手部区域，得到第一参考图像img1和第二参考图像img2，其中，img1和img2中的手部区域颜色为初始时的颜色，其余部分为黑色，RGB值都为0。

步骤S244：基于所述第一位置属性，获取所述第一参考图像对应的子图像。

具体的，根据第一位置属性左上角点为

，宽、高分别为

，

所描述的目标边界框的大小和位置，从img1中获取对应的子图像dst1，如图6所示，图6为本申请实施例提出的一种子图像的示意图，图6中的图像1可以表征基于第一位置属性从img1中获取到的对应的子图像dst1。

步骤S245：基于所述第二位置属性，获取所述第二参考图像对应的子图像。

具体的，根据第二位置属性左上角点为

，宽、高分别为

，

所描述的目标边界框的大小和位置，从img2中获取对应的子图像dst2，如图6中的图像2所示。

步骤S250：获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

作为一种方式，如图7所示，所述步骤S250的步骤具体可以包括：

步骤S251：对所述第一子图像和所述第二子图像进行灰度化处理，得到灰度化处理后的第一子图像和第二子图像。

具体的，对src1和src2进行灰度化处理，得到灰度图像gray1和灰度图像gray2。

步骤S252：通过目标函数获取所述灰度化处理后的第一子图像和第二子图像对应的光流矢量。

再通过calcOpticalFlowFarneback()函数获得src1和src2对应的光流矢量flow1。

步骤S253：对所述第三子图像和所述第四子图像进行灰度化处理，得到灰度化处理后的第三子图像和第四子图像。

具体的，对src3和src4进行灰度化处理，得到灰度图像gray3和灰度图像gray4。

步骤S254：通过目标函数获取所述灰度化处理后的第三子图像和第四子图像对应的光流矢量。

再通过calcOpticalFlowFarneback()函数获得src3和src4对应的光流矢量flow2。

步骤S255：基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，和所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，判断所述连续的多帧目标图像所包括的动态手势是否运动。

具体的，根据光流矢量flow1和光流矢量flow2，判断image1、image2以及image3所包括的动态手势是否是运动的。

作为一种方式，如图8所示，所述步骤S255的步骤具体可以包括：

步骤S2551：基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，计算第一光流矢量均值，所述第一光流矢量均值为所述第一参考图像对应的子图像对应的光流矢量均值。

通过计算式：

计算得到dst1手部区域的光流矢量均值，其中，

表示dst1手部区域的光流矢量均值；

，

表示光流矢量flow1在x，y方向上的矢量的绝对值；N表示dst1手部区域的像素个数。

步骤S2552：基于所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，计算第二光流矢量均值，所述第二光流矢量均值为所述第二参考图像对应的子图像对应的光流矢量均值。

通过计算式：

计算得到dst1手部区域的光流矢量均值，其中，

表示dst2手部区域的光流矢量均值；

，

表示光流矢量flow2在x，y方向上的矢量的绝对值；N表示dst2手部区域的像素个数。

步骤S2553：基于所述第一光流矢量均值和所述第二光流矢量均值，判断所述连续的多帧目标图像所包括的动态手势是否运动。

根据上述计算得到的

和

，判断连续的多帧目标图像所包括的动态手势是否运动。

步骤S260：若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。

作为一种方式，若所述第一光流矢量均值和所述第二光流矢量均值均大于或等于预设光流矢量阈值，确定所述第一目标图像为所述动态手势的起始帧。

在本申请实施例中，所述预设光流矢量阈值为预先设置的表征手部区域有一定运动速度的光流矢量值。若

和

都大于或等于预设光流矢量阈值thr，说明手部区域有一定的运动速度，则确定image1为动态手势的起始帧图像。

本申请提供的一种动态手势识别方法，首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，然后基于连续的多帧目标图像中的相邻两帧目标图像各自对应的比那界框的位置属性，得到目标边界框的位置属性，再基于目标边界框的位置属性，获取连续的多帧目标图像各自对应的子图像，获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型进行动态手势检测，得到有动态手势的连续的多帧目标图像，然后通过稠密光流来确定相邻帧的目标图像是否发生移动，在发生移动的情况下，可以自动从连续多帧的目标图像中确定动态手势的起始帧，避免人为刻意做一些提示性手势，进一步达到自然的人机交互，提高客户体验效果。再者，通过分割出手部运动区域，再基于分割出的手部运动区域做稠密光流计算，可以有效的减少计算区域，进而可以提高手势识别的实时性。

请参阅图9，本申请实施例提供的一种动态手势识别方法，所述获取连续多帧待识别图像之前还包括：

步骤S310：获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像。

在本申请实施例中，所述动态手势为预定义的动态手势。具体的，预定义所需的几类动态手势，比如手掌翻页、食指伸直其他手指紧握的进度条左右拖动等。每类预定义的动态手势采集多个视频样本(比如3000个小视频)，每个视频样本只有一个预定义的动态手势，每个视频样本的时长为1s~3s，每个视频样本的视频帧率为30帧/s，在采集视频样本时，需要多个人员参与(比如40个人)。

将上述采集的视频样本分成一帧帧的图像数据。如果视频样本中有预定义的动态手势时，抽取该动态手势起始时的三帧图像，将抽取的连续的三帧图像作为一个正样本，同样的，对其他有预定义的动态手势的视频样本，也同样抽取每个视频样本各自包括的动态手势起始时的三帧图像，以得到正样本训练集。

同时，采集多个其他没有预定义的动态手势或者没有手势的视频样本(比如3000个小视频)，每个视频样本的时长也为1s~3s，每个视频样本的视频帧率也为30帧/s。

同样的，也将上述采集的视频样本分成一帧帧的图像数据。随机抽取没有预定义的动态手势或者没有手势的视频样本的图像帧数据，将随机抽取的没有预定义的动态手势或者没有手势的视频样本的图像帧数据作为负样本训练集。在本申请实施例中，抽取的正样本数量应与负样本数量相同。

其中，对于有手势但该手势不是预定义的动态手势的视频样本，在随机抽取图像帧数据时，抽取的图像帧数据中包括的手势必须跟预定义的动态手势的起始帧手势不同。

当通过上述方法抽取完正样本训练集和负样本训练集后，通过labelimg工具对正样本训练集和负样本训练集进行标注，得到标注后的正样本训练集和负样本训练集。其中，对正样本训练集中的每个正样本图像进行标注后，得到每个正样本图像对应的txt标注文件，txt标注文件中可以包括5个数值，5个数值具体的形式为“1 0.53389830508474580.5580357142857143 0.55932203398305 0.6428571428571428”。其中，“1”表示正样本标签值，“0.5338983050847458”以及“0.5580357142857143”表示手势中心位置相对于图像宽高的比例，“0.55932203398305”以及“0.6428571428571428”表示手势边界框相对于图像宽高的比例，每个数字之间用空格隔开。

同样的，也可以通过labelimg工具对负样本训练集中的每个负样本图像进行标注，对负样本训练集中的每个负样本图像进行标注后，得到每个负样本图像对应的txt标注文件，每个包括有手势的负样本图像标注后的txt标注文件中会有5个数值，5个数值具体的形式为“0 0.5338983050847458 0.5580357142857143 0.559322033983050.6428571428571428”。其中，“0”表示负样本标签值，“0.5338983050847458”以及“0.5580357142857143”表示手势中心位置相对于图像宽高的比例，“0.55932203398305”以及“0.6428571428571428”表示手势边界框相对于图像宽高的比例，每个数字之间用空格隔开。对于没有手势的负样本图像对应的txt标注文件中也会有5个值，但5个值均为0，具体形式为“0 0 0 0 0”。

步骤S320：基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型。

在本申请实施例中，将上述标注好后的图像以及标注文件按照一定的路径存放，进而可以通过标注后的正样本训练集和负样本训练集对初始yolov5模型进行训练。

在基于标注后的正样本训练集和负样本训练集对初始yolov5模型进行训练时，将标注后的中样本训练集和负样本训练集依次输入到初始yolov5 模型中，获取该初始yolov5输出的检测结果，根据检测结果与对应的动态手势在正样本图像中的位置的匹配程度，确认该初始yolov5模型是否需要继续训练，若是，则调整yolov5模型的训练参数或者优化yolov5模型的模型结构，直至模型输出的检测结果与对应的动态手势在正样本图像中的位置的匹配程度大于预设值，则不再对yolov5模型进行训练，得到目标检测模型。

其中，初始yolov5模型可以为四个训练模型中的任意一个，四个训练模型分别是yolov5s、yolov5m、yolov5l、yolov5x，这四个模型的参数也是依次增多，且模型越大精度越高，速度也就相应越慢。

步骤S330：获取连续的多帧待识别图像。

步骤S330具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤S340：将所述连续的多帧待识别图像输入所述目标检测模型，获取所述目标检测模型输出的连续的多帧目标图像。

在本申请实施例中，将连续的多帧待识别图像依次输入到目标检测模型中，当目标检测模型识别出待识别图像为包括预设定的动态手势的起始手型的图像时，输出包括的动态手势的位置信息的待识别图像，将该帧待识别图像作为目标图像。

步骤S350：基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像。

步骤S360：获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

步骤S370：若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。

步骤S350、步骤S360以及步骤S370具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

本申请提供的一种动态手势识别方法，获取包括正样本训练集和负样本训练集，然后基于正样本训练集和负样本训练集对初始yolov5模型进行训练，直至初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型，获取连续的多帧待识别图像，将连续的多帧待识别图像输入目标检测模型，获取目标检测模型输出的连续的多帧目标图像，再基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的子图像，获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型进行动态手势检测，得到有动态手势的连续的多帧目标图像，然后通过稠密光流来确定相邻帧的目标图像是否发生移动，在发生移动的情况下，可以自动从连续多帧的目标图像中确定动态手势的起始帧，避免人为刻意做一些提示性手势，进一步达到自然的人机交互，提高客户体验效果。再者，通过分割出手部运动区域，再基于分割出的手部运动区域做稠密光流计算，可以有效的减少计算区域，进而可以提高手势识别的实时性。

请参阅图10，本申请实施例提供的一种动态手势识别装置400，所述动态手势识别装置400包括：

第一图像获取单元410，用于获取连续的多帧待识别图像。

第二图像获取单元420，用于通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像。

作为一种方式，所述第二图像获取单元420还用于将所述连续的多帧待识别图像输入所述目标检测模型，获取所述目标检测模型输出的连续的多帧目标图像。

区域获取单元430，用于基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像。

作为一种方式，所述区域获取单元430包括属性获取模块和子图像获取模块。其中，所述属性获取模块用于基于所述连续的多帧目标图像中的相邻两帧目标图像各自对应的边界框的位置属性，得到目标边界框对应的位置属性；所述子图像获取模块用于基于所述目标边界框对应的位置属性，获取所述连续的多帧目标图像各自对应的子图像。

可选的，所述属性获取模块还用于基于所述第一目标图像和所述第二目标图像各自对应的边界框的位置属性，得到第一位置属性，所述第一位置属性为所述第一目标图像和所述第二目标图像对应的目标边界框对应的位置属性；基于所述第二目标图像和所述第三目标图像各自对应的边界框的位置属性，得到第二位置属性，所述第二位置属性为所述第二目标图像和所述第三目标图像对应的目标边界框对应的位置属性。

所述子图像获取模块还用于获取第一子图像和第二子图像，所述第一子图像为基于所述第一位置属性获取的所述第一目标图像对应的子图像，所述第二子图像为基于所述第一位置属性获取的所述第二目标图像对应的子图像；获取第三子图像和第四子图像，所述第三子图像为基于所述第二位置属性获取的所述第二目标图像对应的子图像，所述第四子图像为基于所述第二位置属性获取的所述第三目标图像对应的子图像。

再者，所述子图像获取模块还用于对所述第一目标图像和所述第二目标图像进行手部区域分割，分别得到所述第一目标图像对应的第一参考图像和所述第二目标图像对应的第二参考图像，所述第一参考图像为从所述第一目标图像中分割出的包括手部区域的图像，所述第二参考图像为从所述第二目标图像中分割出的包括手部区域的图像；基于所述第一位置属性，获取所述第一参考图像对应的子图像；基于所述第二位置属性，获取所述第二参考图像对应的子图像。

光流矢量获取单元440，用于获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

作为一种方式，所述光流矢量获取单元440还用于对所述第一子图像和所述第二子图像进行灰度化处理，得到灰度化处理后的第一子图像和第二子图像；通过目标函数获取所述灰度化处理后的第一子图像和第二子图像对应的光流矢量；对所述第三子图像和所述第四子图像进行灰度化处理，得到灰度化处理后的第三子图像和第四子图像；通过目标函数获取所述灰度化处理后的第三子图像和第四子图像对应的光流矢量；基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，和所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，判断所述连续的多帧目标图像所包括的动态手势是否运动。

所述光流矢量获取单元440还用于基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，计算第一光流矢量均值，所述第一光流矢量均值为所述第一参考图像对应的子图像对应的光流矢量均值；基于所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，计算第二光流矢量均值，所述第二光流矢量均值为所述第二参考图像对应的子图像对应的光流矢量均值；基于所述第一光流矢量均值和所述第二光流矢量均值，判断所述连续的多帧目标图像所包括的动态手势是否运动；

位置确定单元450，用于若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧。

作为一种方式，所述位置确定单元450用于若所述第一光流矢量均值和所述第二光流矢量均值均大于或等于预设光流矢量阈值，确定所述连续的多帧目标图像所包括的动态手势是运动的，确定所述第一目标图像为所述动态手势的起始帧。

请参阅图11，所述动态手势识别装置400还包括：

模型训练单元460，用于获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像；基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图12对本申请提供的一种电子设备进行说明。

请参阅图12，基于上述的动态手势识别方法、装置，本申请实施例还提供的另一种可以执行前述动态手势识别方法的电子设备800。电子设备800包括相互耦合的一个或多个（图中仅示出一个）处理器801、存储器802以及网络模块803。其中，该存储器802中存储有可以执行前述实施例中内容的程序，而处理器801可以执行该存储器802中存储的程序。

其中，处理器801可以包括一个或者多个处理核。处理器801利用各种接口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器802内的指令、程序、代码集或指令集，以及调用存储在存储器802内的数据，执行电子设备800的各种功能和处理数据。可选地，处理器801可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（ProgrammableLogic Array，PLA）中的至少一种硬件形式来实现。处理器801可集成中央处理器（CentralProcessing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器801中，单独通过一块通信芯片进行实现。

存储器802可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory，ROM）。存储器802可用于存储指令、程序、代码、代码集或指令集。存储器802可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备800在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

所述网络模块803用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块803可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块（SIM）卡、存储器等等。所述网络模块803可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块803可以与基站进行信息交互。

请参考图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

本申请提供的一种动态手势识别方法、装置、电子设备以及可读存储介质，首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像，再获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的光流矢量，通过计算出的光流矢量的变化量可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种动态手势识别方法，其特征在于，所述方法包括：

获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像；

基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型；

获取连续的多帧待识别图像；

通过所述目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，所述连续的多帧目标图像包括第一目标图像、第二目标图像以及第三目标图像；

基于所述第一目标图像和所述第二目标图像各自对应的边界框的位置属性，得到第一位置属性，所述第一位置属性为所述第一目标图像和所述第二目标图像对应的目标边界框对应的位置属性；

基于所述第二目标图像和所述第三目标图像各自对应的边界框的位置属性，得到第二位置属性，所述第二位置属性为所述第二目标图像和所述第三目标图像对应的目标边界框对应的位置属性，所述目标图像对应有所述动态手势的边界框，以及所述边界框的位置属性；

基于所述目标边界框对应的位置属性，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像，包括：获取第一子图像和第二子图像，所述第一子图像为基于所述第一位置属性获取的所述第一目标图像对应的子图像，所述第二子图像为基于所述第一位置属性获取的所述第二目标图像对应的子图像；获取第三子图像和第四子图像，所述第三子图像为基于所述第二位置属性获取的所述第二目标图像对应的子图像，所述第四子图像为基于所述第二位置属性获取的所述第三目标图像对应的子图像；

获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动；

若所述连续的多帧目标图像所包括的动态手势是运动的，确定所述连续的多帧目标图像中的第一目标图像为动态手势的起始帧。

2.根据权利要求1所述的方法，其特征在于，所述获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动，包括：

对所述第一子图像和所述第二子图像进行灰度化处理，得到灰度化处理后的第一子图像和第二子图像；

通过目标函数获取所述灰度化处理后的第一子图像和第二子图像对应的光流矢量；

对所述第三子图像和所述第四子图像进行灰度化处理，得到灰度化处理后的第三子图像和第四子图像；

通过目标函数获取所述灰度化处理后的第三子图像和第四子图像对应的光流矢量；

基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，和所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，判断所述连续的多帧目标图像所包括的动态手势是否运动。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标边界框对应的位置属性，获取所述连续的多帧目标图像各自对应的子图像还包括：

对所述第一目标图像和所述第二目标图像进行手部区域分割，分别得到所述第一目标图像对应的第一参考图像和所述第二目标图像对应的第二参考图像，所述第一参考图像为从所述第一目标图像中分割出的包括手部区域的图像，所述第二参考图像为从所述第二目标图像中分割出的包括手部区域的图像；

基于所述第一位置属性，获取所述第一参考图像对应的子图像；

基于所述第二位置属性，获取所述第二参考图像对应的子图像。

4.根据权利要求3所述的方法，其特征在于，所述基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，和所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，判断所述连续的多帧目标图像所包括的动态手势是否运动，包括：

基于所述灰度化处理后的第一子图像和第二子图像对应的光流矢量，计算第一光流矢量均值，所述第一光流矢量均值为所述第一参考图像对应的子图像对应的光流矢量均值；

基于所述灰度化处理后的第三子图像和第四子图像对应的光流矢量，计算第二光流矢量均值，所述第二光流矢量均值为所述第二参考图像对应的子图像对应的光流矢量均值；

基于所述第一光流矢量均值和所述第二光流矢量均值，判断所述连续的多帧目标图像所包括的动态手势是否运动；

所述若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定所述动态手势的起始帧，包括：

若所述第一光流矢量均值和所述第二光流矢量均值均大于或等于预设光流矢量阈值，确定所述连续的多帧目标图像所包括的动态手势是运动的，确定所述第一目标图像为所述动态手势的起始帧。

5.一种动态手势识别装置，其特征在于，所述装置包括：

模型训练单元，用于获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像；基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型；

第一图像获取单元，用于获取连续的多帧待识别图像；

第二图像获取单元，用于通过所述目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，所述连续的多帧目标图像包括第一目标图像、第二目标图像以及第三目标图像；

区域获取单元，用于基于所述第一目标图像和所述第二目标图像各自对应的边界框的位置属性，得到第一位置属性，所述第一位置属性为所述第一目标图像和所述第二目标图像对应的目标边界框对应的位置属性；基于所述第二目标图像和所述第三目标图像各自对应的边界框的位置属性，得到第二位置属性，所述第二位置属性为所述第二目标图像和所述第三目标图像对应的目标边界框对应的位置属性，所述目标图像对应有所述动态手势的边界框，以及所述边界框的位置属性；基于所述目标边界框对应的位置属性，获取所述连续的多帧目标图像各自对应的子图像，所述子图像为对所述目标图像进行分割后得到的图像，包括：获取第一子图像和第二子图像，所述第一子图像为基于所述第一位置属性获取的所述第一目标图像对应的子图像，所述第二子图像为基于所述第一位置属性获取的所述第二目标图像对应的子图像；获取第三子图像和第四子图像，所述第三子图像为基于所述第二位置属性获取的所述第二目标图像对应的子图像，所述第四子图像为基于所述第二位置属性获取的所述第三目标图像对应的子图像；

光流矢量获取单元，用于获取相邻两帧目标图像各自对应的子图像对应的光流矢量，以判断所述连续的多帧目标图像所包括的动态手势是否运动；

位置确定单元，用于若所述连续的多帧目标图像所包括的动态手势是运动的，确定所述连续的多帧目标图像中的第一目标图像为动态手势的起始帧。

6.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-4任一所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-4任一所述的方法。