CN113392821A

CN113392821A - 动态手势识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN113392821A
Application number: CN202110944956.7A
Authority: CN
Inventors: 毛凤辉; 郭振民
Original assignee: Nanchang Virtual Reality Institute Co Ltd
Current assignee: Nanchang Virtual Reality Institute Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-09-14
Anticipated expiration: 2041-08-17
Also published as: CN113392821B

Abstract

本申请实施例公开了一种动态手势识别方法、装置、电子设备及可读存储介质。所述方法包括：获取连续的多帧待识别图像；通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像；获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动；若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，提高了动态手势识别的准确性和实时性。

Description

动态手势识别方法、装置、电子设备及可读存储介质

技术领域

本申请属于动态手势识别领域，具体涉及一种动态手势识别方法、装置、电子设备及可读存储介质。

背景技术

手势是人类之间交流的一种自然形式，手势识别也是人机交互的重要研究方向之一。手势识别可以分为静态手势识别和动态手势识别，相对静态手势识别来说，动态手势识别是一个连续的过程，需要学习不同帧的手势在时间维度上的关系。因此，识别动态手势难度较大，并且如何确定手势的开始帧与结束帧，也是目前动态手势识别的一个难点。

发明内容

鉴于上述问题，本申请提出了一种动态手势识别方法、装置、电子设备及可读存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种动态手势识别方法，所述方法包括：获取连续的多帧待识别图像；通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像；获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动；若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

第二方面，本申请实施例提供了一种动态手势识别装置，所述装置包括：第一图像获取单元，用于获取连续的多帧待识别图像；第二图像获取单元，用于通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；第三图像获取单元，用于基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像；坐标获取单元，用于获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动；位置确定单元，用于若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请实施例提供了一种动态手势识别方法、装置、电子设备及可读存储介质。首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的二值图像，获取连续的多帧目标图像各自对应的二值图像的质心坐标，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的质心坐标，通过计算出的质心坐标可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种动态手势识别方法的流程图；

图2示出了本申请另一实施例提出的一种动态手势识别方法的流程图；

图3示出了本申请另一实施例中步骤S260的具体步骤的流程图；

图4示出了本申请另一实施例中步骤S280的具体步骤的流程图；

图5示出了本申请再一实施例提出的一种动态手势识别方法的流程图；

图6示出了本申请实施例提出的一种动态手势识别装置的结构框图；

图7示出了本申请实施例提出的另一种动态手势识别装置的结构框图；

图8示出了本申请实施例提出的一种电子设备的结构框图；

图9示出了本申请实施例提出的一种计算机可读存储介质的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

而发明人在对相关的动态手势识别方法的研究中发现，在动态手势识别过程中，一个视频内往往含有很多的没有手势或者无效手势的图像帧，这些无效手势严重影响动态手势的识别准确度及其识别的实时性。

动态手势识别的难点和重点也是找到有效手势的起始位置和终止位置，目前动态手势识别的起始位置判定方法一般是在做其动作时，给一个标准性的手势，比如一个手掌信号。这种方法要求客户刻意做一些规定性动作，并没有达到自然的人机手势交互。

因此，发明人提出了本申请中的首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的二值图像，获取连续的多帧目标图像各自对应的二值图像的质心坐标，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的质心坐标，通过计算出的质心坐标可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性的动态手势识别方法、装置、电子设备及可读存储介质。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供的一种动态手势识别方法，所述方法包括：

步骤S110：获取连续的多帧待识别图像。

在本申请实施例中，所述连续的多帧待识别图像可以为图像采集装置连续采集到的多帧图像，也可以为在时间上连续且属于同一个视频文件的视频帧图像。

作为一种方式，当连续的多帧待识别图像为图像采集装置连续采集到的多帧图像时，可以通过图像采集装置实时采集用户手部在运动过程中的图像，也可以预先通过图像采集装置连续采集用户手部在运动过程中的图像。其中，图像采集装置可以为包括摄像头的智能手机、平板电脑或者智能穿戴设备等，图像采集装置也可以为kinect相机，在此不做具体限定。

作为另一种方式，当连续的多帧待识别图像为在时间上连续且属于同一个视频文件的视频帧图像时，可以通过视频采集装置实时采集视频文件，当视频采集装置采集完视频文件时，可以将视频文件中的视频流划分为在时间上连续的一帧一帧的视频帧图像，进而得到连续的多帧视频帧图像，将该连续的多帧视频帧图像作为连续的多帧待识别图像。其中，视频采集装置也可以为包括摄像头的智能手机、平板电脑或者智能穿戴设备等，图像采集装置也可以为kinect相机，在此不做具体限定。

可选的，连续的多帧待识别图像也可以为从云服务器或者其他外部设备的存储区域获取到的连续的多帧图像。具体的，云服务器或其他外部设备中预先存储有需要进行动态手势识别的连续的多帧图像，当电子设备需要获取连续的多帧待识别图像时，电子设备可以直接从云服务器或者其他外部设备中获取。在本申请实施例中，其他外部设备可以为与电子设备建立通信连接的设备。

当通过上述方法获取到连续的多帧待识别图像时，可以对该连续的多帧待识别图像进行预处理，得到经过预处理后的连续的多帧待识别图像。其中，预处理可以包括统一该连续的多帧待识别图像的尺寸大小，以及对该连续的多帧待识别图像的像素进行归一化处理等，以得到尺寸大小相同，图像像素相同的连续的多帧待识别图像。

步骤S120：通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像。

在本申请实施例中，所述连续的多帧目标图像为目标检测模型连续输出的多帧包括有预设定的动态手势的起始手型的图像，其中，所述连续的多帧目标图像包括连续的至少三帧目标图像。

当通过上述方式获取到连续的多帧待识别图像后，将连续的多帧待识别图像依次输入到目标检测模型中，当目标检测模型检测到待识别图像为包括预设定的动态手势的起始手型的图像时，则输出包括动态手势的位置信息的图像，并将该帧图像作为目标图像，若目标检测模型检测到待识别图像为不包括预设定的动态手势的起始手型的图像，目标检测模型还是会将该帧待识别图像进行输出，但不会输出该帧图像的动态手势的位置信息，也不会将该帧待识别图像作为目标图像。

示例性的，首先从网络摄像头中获取待识别图像src_1，将其输入目标检测模型中，若检测到待识别图像src_1中含有预设定的动态手势的起始手型，则输出包括动态手势的位置信息的待识别图像src_1，并将包括动态手势的位置信息的待识别图像src_1作为目标图像，再从网络摄像头中获取下一帧待识别图像src_2，若检测到待识别图像src_2中不含有预设定的动态手势的起始手型，则将原待识别图像src_2进行输出，继续依次从网络摄像头中读取待识别图像src_3、待识别图像src_4以及待识别图像src_5，若待识别图像src_3、待识别图像src_4以及待识别图像src_5中均含有预设定的动态手势的起始手型，则依次输出包括动态手势的位置信息的待识别图像src_3、包括动态手势的位置信息的待识别图像src_4以及包括动态手势的位置信息的待识别图像src_5，将包括动态手势的位置信息的待识别图像src_3、包括动态手势的位置信息的待识别图像src_4以及包括动态手势的位置信息的待识别图像src_5均作为目标图像，将包括动态手势的位置信息的待识别图像src_3、包括动态手势的位置信息的待识别图像src_4以及包括动态手势的位置信息的待识别图像src_5作为所述连续的多帧目标图像，但不会将待识别图像src_1作为所述连续的多帧目标图像中的一帧图像。

步骤S130：基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像。

其中，所述二值图像是指每个像素点均为黑色或者白色的图像。也就是说，图像中的任何像素点的灰度值均为0或者255，分别代表黑色和白色。

在本申请实施例中，所述二值图像为对连续的多帧目标图像进行分割后，得到的分割后的图像各自对应的二值图像。当通过上述方式获取到连续的至少三帧目标图像后，对连续的至少三帧目标图像进行分割，对分割后得到的图像进行二值化处理，得到各自对应的二值图像，也就是连续的多帧目标图像各自对应的二值图像。

步骤S140：获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

在本申请实施例中，质心坐标是指图像中的像素点相对各顶点的位置。当获取到连续的多帧目标图像各自对应的二值图像后，通过质心计算算法计算得到每个二值图像对应的质心坐标，得到多个质心坐标。当计算到了多个质心坐标后，可以通过计算得到的多个质心坐标确定连续的多帧目标图像中包括的动态手势整体是否是运动的。

步骤S150：若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

若动态手势整体是运动的，则从连续的多帧目标图像中可以确定动态手势的起始帧；若动态手势整体不是运动的，那么通过前述获取目标图像的方法，重新获取连续的多帧目标图像，再通过上述计算质心坐标的方法计算对应的质心坐标，然后基于计算得到的质心坐标，从重新获取的连续的多帧目标图像中确定动态手势的起始帧。

本申请提供的一种动态手势识别方法，首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的二值图像，获取连续的多帧目标图像各自对应的二值图像的质心坐标，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的质心坐标，通过计算出的质心坐标可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性。

请参阅图2，本申请实施例提供的一种动态手势识别方法，所述方法包括：

步骤S210：获取连续的多帧待识别图像。

步骤S220：通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像。

步骤S210以及步骤S220具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤S230：分别对所述连续的多帧目标图像进行手部区域分割，得到所述连续的多帧目标图像各自对应的参考图像，所述参考图像为从所述目标图像中分割出的包括手部区域的图像。

具体的，通过皮肤检测模型，并结合深度图，依据手部区域中相邻区域深度变化连续特性，对连续的多帧目标图像进行手部区域分割，分割出手部区域，得到连续的多帧目标图像各自对应的参考图像。

作为一种方式，所述连续的多帧目标图像包括第一目标图像、第二目标图像以及第三目标图像。所述分别对所述连续的多帧目标图像进行手部区域分割，得到所述连续的多帧目标图像各自对应的参考图像的步骤，包括：分别对所述第一目标图像、第二目标图像以及第三目标图像进行手部区域分割，得到第一参考图像、第二参考图像以及第三参考图像，所述第一参考图像为所述第一目标图像对应的参考图像，所述第二参考图像为所述第二目标图像对应的参考图像，所述第三参考图像为所述第三目标图像对应的参考图像。

具体的，第一目标图像、第二目标图像以及第三目标图像分别为image1、image2以及image3。通过皮肤检测模型，并结合深度图，依据手部区域中相邻区域深度变化连续性，分别对image1、image2以及image3进行手部区域分割，分割出手部区域，得到第一参考图像img1、第二参考图像img2以及第三参考图像img3。

步骤S240：对所述连续的多帧目标图像各自对应的参考图像进行二值化处理，得到所述连续的多帧目标图像各自对应的二值图像。

作为一种方式，所述对所述连续的多帧目标图像各自对应的参考图像进行二值化处理，得到所述连续的多帧目标图像各自对应的二值图像的步骤，包括：分别对所述第一参考图像、第二参考图像以及第三参考图像进行二值化处理，得到所述第一目标图像对应的二值图像、所述第二目标图像对应的二值图像以及所述第三目标图像对应的二值图像。

在本申请实施例中，所述二值化处理为将参考图像上的像素点的灰度值设置为0或255，也就是将整个参考图像呈现出明显的黑白效果。可选的，可以通过opencv库函数对参考图像进行二值化处理，其中，opencv库函数可以为cvThreshold()函数或者cvAdaptiveThreshold()函数。

具体的，通过cvThreshold()函数或者cvAdaptiveThreshold()函数对img1进行二值化处理，得到二值图像binary1；通过cvThreshold()函数或者cvAdaptiveThreshold()函数对img2进行二值化处理，得到二值图像binary2；通过cvThreshold()函数或者cvAdaptiveThreshold()函数对img3进行二值化处理，得到二值图像binary3。

步骤S250：获取所述连续的多帧目标图像各自对应的二值图像的质心坐标。

作为一种方式，所述获取所述连续的多帧目标图像各自对应的二值图像的质心坐标的步骤包括：通过质心计算公式，计算得到第一质心坐标、第二质心坐标以及第三质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动，所述第一质心坐标为所述第一目标图像对应的二值图像的质心坐标，所述第二质心坐标为所述第二目标图像对应的二值图像的质心坐标，所述第三质心坐标为所述第三目标图像对应的二值图像的质心坐标。

在本申请实施例中，质心计算公式具体如下：

，

，

，质心坐标：

，其中，

表示二值图中，所有值为255的像素值之和；

表示像素值为255的像素横坐标与像素值的乘积的累加和；

表示像素值为255的像素纵坐标与像素值的乘积的累加和；

表示像素为255的像素值，即

=255，i表示像素的横坐标，j表示像素的纵坐标；I表示像素的横坐标的取值，J表示像素的纵坐标的取值。

根据上述质心计算公式计算binary1、binary2以及binary3的质心坐标，得到质心坐标分别为

、

以及

。

步骤S260：基于所述连续的多帧目标图像各自对应的二值图像的质心坐标，计算所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离。

作为一种方式，如图3所示，所述步骤S260具体可以包括：

步骤S261：通过所述第一质心坐标和所述第二质心坐标计算得到第一移动距离，所述第一移动距离表征所述第一目标图像和所述第二目标图像之间的相对移动距离。

具体的，通过距离计算公式：

，计算得到image1和image2之间的相对移动距离。

步骤S262：通过所述第二质心坐标和所述第三质心坐标计算得到第二移动距离，所述第二移动距离表征所述第二目标图像和所述第三目标图像之间的相对移动距离。

具体的，通过距离计算公式：

，计算得到image2和image3之间的相对移动距离。

步骤S263：通过所述第一质心坐标和所述第三质心坐标计算得到第三移动距离，所述第三移动距离表征所述第一目标图像和所述第三目标图像之间的相对移动距离。

通过距离计算公式：

，计算得到image1和image3之间的相对移动距离。

步骤S270：基于所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

具体的，当通过上述方式计算得到了第一移动距离、第二移动距离以及第三移动距离后，可以基于计算得到的第一移动距离、第二移动距离以及第三移动距离，判断连续的多帧目标图像所包括的动态手势整体是否是运动的。

步骤S280：若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

作为一种方式，如图4所示，所述步骤S280具体可以包括：

步骤S281：获取所述第一移动距离、所述第二移动距离以及所述第三移动距离的平均距离。

通过计算公式：

计算得到第一相对移动距离、第二相对移动距离以及第三相对移动距离的平均距离。

步骤S282：若所述平均距离大于预设距离，确定所述连续的多帧目标图像所包括的动态手势是运动的，确定所述第一目标图像为所述动态手势的起始帧。

具体的，所述预设距离为预先设置的表征动态手势整体是运动的移动距离。将上述计算得到的平均距离与预设距离进行比较，若该平均距离大于预设阈值thr，说明动态手势整体是运动的，则确定image1为动态手势的起始帧图像。

本申请提供的一种动态手势识别方法，获取连续多帧的待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，然后分别对连续的多帧目标图像进行手部区域分割，得到连续的多帧目标图像各自对应的参考图像，对连续的多帧目标图像各自对应的参考图像进行二值化处理，得到连续的多帧目标图像各自对应的二值图像，获取连续的多帧目标图像各自对应的二值图像的质心坐标，基于连续的多帧目标图像各自对应的二值图像的质心坐标，计算连续的多帧目标图像中每两帧目标图像之间的相对移动距离，基于连续的多帧目标图像中每两帧目标图像之间的相对移动距离，以判断连续的多帧目标图像所包括的动态手势是否运动，最后若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型进行动态手势检测，得到有动态手势的连续的多帧目标图像，然后通过质心计算公式计算每帧目标图像对应的二值图像的质心坐标，基于质心坐标计算每两帧目标图像之间的相对移动距离，在平均相对移动距离大于预设阈值的情况下，确定连续的多帧目标图像所包括的动态手势是运动的，可以自动从连续多帧的目标图像中确定动态手势的起始帧，避免人为刻意做一些提示性手势，进一步达到自然的人机交互，提高客户体验效果。再者，通过质心法判断动态手势起始位置的计算量少，实时性高，且受光线的影响小。

请参阅图5，本申请实施例提供的一种动态手势识别方法，所述方法包括：

步骤S310：获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像。

在本申请实施例中，所述动态手势为预定义的动态手势。具体的，预定义所需的几类动态手势，比如手掌翻页、食指伸直其他手指紧握的进度条左右拖动等。每类预定义的动态手势采集多个视频样本(比如3000个小视频)，每个视频样本只有一个预定义的动态手势，每个视频样本的时长为1s~3s，每个视频样本的视频帧率为30帧/s，在采集视频样本时，需要多个人员参与(比如40个人)。

将上述采集的视频样本分成一帧帧的图像数据。如果视频样本中有预定义的动态手势时，抽取该动态手势起始时的三帧图像，将抽取的连续的三帧图像作为一个正样本，同样的，对其他有预定义的动态手势的视频样本，也同样抽取每个视频样本各自包括的动态手势起始时的三帧图像，以得到正样本训练集。

同时，采集多个其他没有预定义的动态手势或者没有手势的视频样本(比如3000个小视频)，每个视频样本的时长也为1s~3s，每个视频样本的视频帧率也为30帧/s。

同样的，也将上述采集的视频样本分成一帧帧的图像数据。随机抽取没有预定义的动态手势或者没有手势的视频样本的图像帧数据，将随机抽取的没有预定义的动态手势或者没有手势的视频样本的图像帧数据作为负样本训练集。在本申请实施例中，抽取的正样本数量应与负样本数量相同。

其中，对于有手势但该手势不是预定义的动态手势的视频样本，在随机抽取图像帧数据时，抽取的图像帧数据中包括的手势必须跟预定义的动态手势的起始帧手势不同。

当通过上述方法抽取完正样本训练集和负样本训练集后，通过labelimg工具对正样本训练集和负样本训练集进行标注，得到标注后的正样本训练集和负样本训练集。其中，对正样本训练集中的每个正样本图像进行标注后，得到每个正样本图像对应的txt标注文件，txt标注文件中可以包括5个数值，5个数值具体的形式为“1 0.53389830508474580.5580357142857143 0.55932203398305 0.6428571428571428”。其中，“1”表示正样本标签值，“0.5338983050847458”以及“0.5580357142857143”表示手势中心位置相对于图像宽高的比例，“0.55932203398305”以及“0.6428571428571428”表示手势边界框相对于图像宽高的比例，每个数字之间用空格隔开。

同样的，也可以通过labelimg工具对负样本训练集中的每个负样本图像进行标注，对负样本训练集中的每个负样本图像进行标注后，得到每个负样本图像对应的txt标注文件，每个包括有手势的负样本图像标注后的txt标注文件中会有5个数值，5个数值具体的形式为“0 0.5338983050847458 0.5580357142857143 0.559322033983050.6428571428571428”。其中，“0”表示负样本标签值，“0.5338983050847458”以及“0.5580357142857143”表示手势中心位置相对于图像宽高的比例，“0.55932203398305”以及“0.6428571428571428”表示手势边界框相对于图像宽高的比例，每个数字之间用空格隔开。对于没有手势的负样本图像对应的txt标注文件中也会有5个值，但5个值均为0，具体形式为“0 0 0 0 0”。

步骤S320：基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型。

在本申请实施例中，将上述标注好后的图像以及标注文件按照一定的路径存放，进而可以通过标注后的正样本训练集和负样本训练集对初始yolov5模型进行训练。

在基于标注后的正样本训练集和负样本训练集对初始yolov5模型进行训练时，将标注后的中样本训练集和负样本训练集依次输入到初始yolov5 模型中，获取该初始yolov5输出的检测结果，根据检测结果与对应的动态手势在正样本图像中的位置的匹配程度，确认该初始yolov5模型是否需要继续训练，若是，则调整yolov5模型的训练参数或者优化yolov5模型的模型结构，直至模型输出的检测结果与对应的动态手势在正样本图像中的位置的匹配程度大于预设值，则不再对yolov5模型进行训练，得到目标检测模型。

其中，初始yolov5模型可以为四个训练模型中的任意一个，四个训练模型分别是yolov5s、yolov5m、yolov5l、yolov5x，这四个模型的参数也是依次增多，且模型越大精度越高，速度也就相应越慢。

步骤S330：获取连续的多帧待识别图像。

步骤S330具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤S340：将所述连续的多帧待识别目标图像输入所述目标检测模型，获取所述目标检测模型输出的连续的多帧目标图像。

在本申请实施例中，将连续的多帧待识别图像依次输入到目标检测模型中，当目标检测模型识别出待识别图像为包括动态手势的起始手势的图像时，将该帧待识别图像作为目标图像输出。

步骤S350：基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像。

步骤S360：获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

步骤S370：若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

步骤S350、步骤S360以及步骤S370具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

本申请提供的一种动态手势识别方法，获取包括正样本训练集和负样本训练集，然后基于正样本训练集和负样本训练集对初始yolov5模型进行训练，直至初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型，获取连续的多帧待识别图像，将连续的多帧待识别图像输入目标检测模型，获取目标检测模型输出的连续的多帧目标图像，再基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的二值图像，获取连续的多帧目标图像各自对应的二值图像对应的质心坐标，以判断连续的多帧目标图像所包括的动态手势是否运动，最后若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型进行动态手势检测，得到有动态手势的连续的多帧目标图像，然后通过质心计算算法来确定相邻帧的目标图像所包括的动态手势是否发生移动，在发生移动的情况下，可以自动从连续多帧的目标图像中确定动态手势的起始帧，避免人为刻意做一些提示性手势，进一步达到自然的人机交互，提高客户体验效果。再者，通过分割出手部运动区域，再基于分割出的手部运动区域做质心坐标计算，可以有效的减少计算，进而可以提高动态手势识别的实时性。

请参阅图6，本申请实施例提供的一种动态手势识别装置400，所述动态手势识别装置400包括：

第一图像获取单元410，用于获取连续的多帧待识别图像。

第二图像获取单元420，用于通过目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像。

在本申请实施例中，所述第二图像获取单元420用于将所述连续的多帧待识别目标图像输入所述目标检测模型，获取所述目标检测模型输出的连续的多帧目标图像。

第三图像获取单元430，用于基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像。

作为一种方式，所述第三图像获取单元430用于分别对所述连续的多帧目标图像进行手部区域分割，得到所述连续的多帧目标图像各自对应的参考图像，所述参考图像为从所述目标图像中分割出的包括手部区域的图像；对所述连续的多帧目标图像各自对应的参考图像进行二值化处理，得到所述连续的多帧目标图像各自对应的二值图像。

具体的，所述第三图像获取单元430用于分别对所述第一目标图像、第二目标图像以及第三目标图像进行手部区域分割，得到第一参考图像、第二参考图像以及第三参考图像，所述第一参考图像为所述第一目标图像对应的参考图像，所述第二参考图像为所述第二目标图像对应的参考图像，所述第三参考图像为所述第三目标图像对应的参考图像。

所述第三图像获取单元430还用于分别对所述第一参考图像、第二参考图像以及第三参考图像进行二值化处理，得到所述第一目标图像对应的二值图像、所述第二目标图像对应的二值图像以及所述第三目标图像对应的二值图像。

坐标获取单元440，用于获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

作为一种方式，所述坐标获取单元440用于通过质心计算公式，计算得到第一质心坐标、第二质心坐标以及第三质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动，所述第一质心坐标为所述第一目标图像对应的二值图像的质心坐标，所述第二质心坐标为所述第二目标图像对应的二值图像的质心坐标，所述第三质心坐标为所述第三目标图像对应的二值图像的质心坐标。

作为另一种方式，所述坐标获取单元440用于基于所述连续的多帧目标图像各自对应的二值图像的质心坐标，计算所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离；基于所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

具体的，所述坐标获取单元440用于通过所述第一质心坐标和所述第二质心坐标计算得到第一移动距离，所述第一移动距离表征所述第一目标图像和所述第二目标图像之间的相对移动距离；通过所述第二质心坐标和所述第三质心坐标计算得到第二移动距离，所述第二移动距离表征所述第二目标图像和所述第三目标图像之间的相对移动距离；通过所述第一质心坐标和所述第三质心坐标计算得到第三移动距离，所述第三移动距离表征所述第一目标图像和所述第三目标图像之间的相对移动距离。

位置确定单元450，用于若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

作为一种方式，所述位置确定单元450用于获取所述第一移动距离、所述第二移动距离以及所述第三移动距离的平均距离；若所述平均距离大于预设距离，确定所述连续的多帧目标图像所包括的动态手势是运动的，确定所述第一目标图像为所述动态手势的起始帧。

请参阅图7，所述动态手势识别装置400还包括：

模型训练单元460，用于获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像；基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图8对本申请提供的一种电子设备进行说明。

请参阅图8，基于上述的动态手势识别方法、装置，本申请实施例还提供的另一种可以执行前述动态手势识别方法的电子设备800。电子设备800包括相互耦合的一个或多个（图中仅示出一个）处理器801、存储器802以及网络模块803。其中，该存储器802中存储有可以执行前述实施例中内容的程序，而处理器801可以执行该存储器802中存储的程序。

其中，处理器801可以包括一个或者多个处理核。处理器801利用各种接口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器802内的指令、程序、代码集或指令集，以及调用存储在存储器802内的数据，执行电子设备800的各种功能和处理数据。可选地，处理器801可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（ProgrammableLogic Array，PLA）中的至少一种硬件形式来实现。处理器801可集成中央处理器（CentralProcessing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器801中，单独通过一块通信芯片进行实现。

存储器802可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory，ROM）。存储器802可用于存储指令、程序、代码、代码集或指令集。存储器802可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备800在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

所述网络模块803用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块803可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块（SIM）卡、存储器等等。所述网络模块803可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块803可以与基站进行信息交互。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

本申请提供的一种动态手势识别方法、装置、电子设备以及可读存储介质，首先获取连续的多帧待识别图像，通过目标检测模型从连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像，然后基于连续的多帧目标图像，获取连续的多帧目标图像各自对应的二值图像，获取连续的多帧目标图像各自对应的二值图像的质心坐标，以判断连续的多帧目标图像所包括的动态手势是否运动，若连续的多帧目标图像所包括的动态手势是运动的，从连续的多帧目标图像中确定动态手势的起始帧。通过上述方法，通过目标检测模型可以有效过滤没有手势或者有无效手势的图像，得到连续的多帧目标图像，进而可以基于目标图像计算出对应的质心坐标，通过计算出的质心坐标可以确定连续多帧目标图像所包括的动态手势是否运动，进而在确定连续多帧目标图像所包括的动态手势是运动的情况下，可以自动从连续的多帧目标图像中确定出动态手势的起始帧，提高了动态手势识别的准确性和实时性。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种动态手势识别方法，其特征在于，所述方法包括：

获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像；

基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型；

获取连续的多帧待识别图像；

通过所述目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；

基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像；

获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动；

若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

2.根据权利要求1所述的方法，其特征在于，所述基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像，包括：

分别对所述连续的多帧目标图像进行手部区域分割，得到所述连续的多帧目标图像各自对应的参考图像，所述参考图像为从所述目标图像中分割出的包括手部区域的图像；

对所述连续的多帧目标图像各自对应的参考图像进行二值化处理，得到所述连续的多帧目标图像各自对应的二值图像。

3.根据权利要求2所述的方法，其特征在于，所述连续的多帧目标图像包括第一目标图像、第二目标图像以及第三目标图像，所述分别对所述连续的多帧目标图像进行手部区域分割，得到所述连续的多帧目标图像各自对应的参考图像，包括：

分别对所述第一目标图像、第二目标图像以及第三目标图像进行手部区域分割，得到第一参考图像、第二参考图像以及第三参考图像，所述第一参考图像为所述第一目标图像对应的参考图像，所述第二参考图像为所述第二目标图像对应的参考图像，所述第三参考图像为所述第三目标图像对应的参考图像；

所述对所述连续的多帧目标图像各自对应的参考图像进行二值化处理，得到所述连续的多帧目标图像各自对应的二值图像，包括：

分别对所述第一参考图像、第二参考图像以及第三参考图像进行二值化处理，得到所述第一目标图像对应的二值图像、所述第二目标图像对应的二值图像以及所述第三目标图像对应的二值图像。

4.根据权利要求3所述的方法，其特征在于，所述获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动，包括：

通过质心计算公式，计算得到第一质心坐标、第二质心坐标以及第三质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动，所述第一质心坐标为所述第一目标图像对应的二值图像的质心坐标，所述第二质心坐标为所述第二目标图像对应的二值图像的质心坐标，所述第三质心坐标为所述第三目标图像对应的二值图像的质心坐标。

5.根据权利要求4所述的方法，其特征在于，所述获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动，包括：

基于所述连续的多帧目标图像各自对应的二值图像的质心坐标，计算所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离；

基于所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离，以判断所述连续的多帧目标图像所包括的动态手势是否运动。

6.根据权利要求5所述的方法，其特征在于，所述基于所述连续的多帧目标图像各自对应的二值图像的质心坐标，计算所述连续的多帧目标图像中每两帧目标图像之间的相对移动距离，包括：

通过所述第一质心坐标和所述第二质心坐标计算得到第一移动距离，所述第一移动距离表征所述第一目标图像和所述第二目标图像之间的相对移动距离；

通过所述第二质心坐标和所述第三质心坐标计算得到第二移动距离，所述第二移动距离表征所述第二目标图像和所述第三目标图像之间的相对移动距离；

通过所述第一质心坐标和所述第三质心坐标计算得到第三移动距离，所述第三移动距离表征所述第一目标图像和所述第三目标图像之间的相对移动距离；

所述若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧，包括：

获取所述第一移动距离、所述第二移动距离以及所述第三移动距离的平均距离；

若所述平均距离大于预设距离，确定所述连续的多帧目标图像所包括的动态手势是运动的，确定所述第一目标图像为所述动态手势的起始帧。

7.一种动态手势识别装置，其特征在于，所述装置包括：

模型训练单元，用于获取训练集，所述训练集包括正样本训练集和负样本训练集，所述正样本训练集为包括动态手势的多帧图像，所述负样本训练集为不包括动态手势的多帧图像；基于所述正样本训练集和所述负样本训练集对初始yolov5模型进行训练，直至所述初始yolov5模型收敛，将收敛后的初始yolov5模型作为目标检测模型；

第一图像获取单元，用于获取连续的多帧待识别图像；

第二图像获取单元，用于通过所述目标检测模型从所述连续的多帧待识别图像中确定出连续的多帧目标图像，所述目标图像为包括预设定的动态手势的起始手型的图像；

第三图像获取单元，用于基于所述连续的多帧目标图像，获取所述连续的多帧目标图像各自对应的二值图像；

坐标获取单元，用于获取所述连续的多帧目标图像各自对应的二值图像的质心坐标，以判断所述连续的多帧目标图像所包括的动态手势是否运动；

位置确定单元，用于若所述连续的多帧目标图像所包括的动态手势是运动的，从所述连续的多帧目标图像中确定动态手势的起始帧。

8.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-6任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-6任一所述的方法。