CN113343812A

CN113343812A - 手势识别方法、装置、存储介质及电子设备

Info

Publication number: CN113343812A
Application number: CN202110593870.4A
Authority: CN
Inventors: 麻凯利; 马志国; 张飞飞; 杨明坤; 郝双; 尹成浩; 王彦君; 刘腾龙; 王少康; 杜竹君
Original assignee: Beijing Zhitong Oriental Software Technology Co ltd
Current assignee: Beijing Zhitong Oriental Software Technology Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-03

Abstract

本公开涉及一种手势识别方法、装置、存储介质及电子设备，该方法通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置；根据该目标视频图像中每帧手部图像对应的手势类别和指尖位置确定该目标视频图像对应的目标手势动作；其中，该预设手势识别模型包括：特征提取子模型，中心位置确定子模型，偏差量获取子模型，长宽获取子模型，关键点位置获取子模型以及输出子模型，能够在一个模型中将识别手势类别和指尖定位两个任务进行统一，能够有效减少识别手势类别和指尖定位过程的所需的时间，从而能够有效提高模型识别手势类别和指尖位置的效率。

Description

手势识别方法、装置、存储介质及电子设备

技术领域

本公开涉及图像处理技术领域，具体地，涉及一种手势识别方法、装置、存储介质及电子设备。

背景技术

目前，针对手势检测，指尖定位，通常的处理方式为通过两个模型分阶段地处理这两个任务，即在一个阶段内使用多类手势检测模型输出手部位置和手势类别，在另一个阶段使用关键点检测模型在手部位置范围内识别手指关键点，从而完成指尖定位任务。也就是说，针对手势检测和指尖定位这两个任务，相关技术中的模型识别效率较低，不利于减少得到手势类别和指尖位置所需的时间。

发明内容

本公开的目的是提供一种手势识别方法、装置、存储介质及电子设备。

为了实现上述目的，在本公开的第一方面提供了一种手势识别方法，所述方法包括：

获取目标视频图像，所述目标视频图像包括多帧手部图像；

通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置；

根据所述目标视频图像中每帧手部图像对应的手势类别和指尖位置确定所述目标视频图像对应的目标手势动作；

其中，所述预设手势识别模型包括：特征提取子模型，中心位置确定子模型，偏差量获取子模型，长宽获取子模型，关键点位置获取子模型以及输出子模型，所述特征提取子模型的输出端分别与所述中心位置确定子模型的输入端，所述偏差量获取子模型的输入端，所述长宽获取子模型的输入端，以及关键点位置获取子模型的输入端耦合，所述中心位置确定子模型的输出端，所述偏差量获取子模型的输出端，所述长宽获取子模型的输出端，关键点位置获取子模型的输出端均与所述输出子模型的输入端耦合；所述特征提取子模型，用于对手部图像进行卷积特征提取，以得到所述手部图像对应的卷积特征图，所述中心位置确定子模型，用于生成手部图像对应的每个预设手势类别的手部位置特征图，所述偏差量获取子模型，用于获取所述手部图像中手部位置对应的偏移量特征图，所述长宽获取子模型，用于获取所述手部图像中手部位置对应的大小特征图，所述关键点位置获取子模型，用于获取所述手部图像中预设手部关键点对应的关键点位置特征图，所述输出子模型，用于根据所述手部位置特征图，所述偏移量特征图，所述大小特征图，以及所述关键点位置特征图输出每帧手部图像对应的所述手势类别和所述指尖位置。

可选地，所述通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置，包括：

将每帧手部图像输入所述预设手势识别模型，以使所述预设手势识别模型中的所述特征提取子模型对所述手部图像进行卷积特征提取，以得到卷积特征图；

将每帧手部图像对应的所述卷积特征图分别输入所述预设手势识别模型中的所述中心位置确定子模型，所述偏差量获取子模型，所述长宽获取子模型，所述关键点位置获取子模型，以使所述中心位置确定子模型生成所述手部图像对应的每个预设手势类别的手部位置特征图，并使所述偏差量获取子模型输出所述手部图像中手部位置对应的偏移量特征图，所述长宽获取子模型输出所述手部图像中手部位置对应的大小特征图，所述关键点位置获取子模型输出所述手部图像中手部预设关键点对应的关键点位置特征图；

通过预设手势识别模型中的所述输出子模型根据每帧手部图像对应的所述手部位置特征图，所述偏移量特征图，所述大小特征图，以及所述关键点位置特征图输出该帧手部图像对应的所述手势类别和所述指尖位置。

可选地，所述通过预设手势识别模型中的所述输出子模型根据每帧手部图像对应的所述手部位置特征图，所述偏移量特征图，所述大小特征图，以及所述关键点位置特征图输出该帧手部图像对应的所述手势类别和所述指尖位置，包括：

将所述手部图像对应的所述手部位置特征图，所述偏移量特征图，所述大小特征图，以及所述关键点位置特征图输入所述输出子模型，以使所述输出子模型对所述手部位置特征图进行最大池化处理，以得到目标手部位置特征图，并从所述偏移量特征图中确定所述目标手部位置特征图中每个像素对应的偏移量特征，从所述大小特征图中确定所述目标手部位置特征图中每个像素对应的大小特征，从所述关键点位置特征图中确定所述目标手部位置特征图中每个像素对应的关键点位置坐标，根据所述目标手部位置特征图中每个像素对应的偏移量特征，每个像素对应的大小特征，每个像素对应的关键点位置坐标，生成所述手部图像对应的所述手势类别和所述指尖位置。

可选地，所述根据所述目标视频图像中每帧手部图像对应的手势类别和指尖位置确定所述目标视频图像对应的目标手势动作，包括：

从所述目标视频图像中获取预设时长的待识别视频图像；

在确定所述待识别视频图像中包含目标手势类别的图像大于预设时长阈值的情况下，从所述待识别视频图像中确定目标手部视频图像，所述目标手部视频图像包括连续多帧目标手势类别的手部图像；

根据所述目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定所述目标手部视频对应的目标手势动作。

可选地，所述根据所述目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定所述目标手部视频对应的目标手势动作，包括：

获取所述起始帧图像中指尖位置与所述末尾帧图像中指尖位置的像素位置差；

根据所述像素位置差确定所述目标手势动作。

可选地，所述指尖位置包括第一坐标和第二坐标，相应地，所述像素位置差包括第一坐标差值和第二坐标差值，所述根据所述像素位置差确定所述目标手势动作包括：

在所述第一坐标差值的绝对值大于或者等于预设像素差阈值，且所述第二坐标差值的绝对值小于所述预设像素差阈值的情况下，若所述第一坐标差值为正数，则确定所述目标手势动作为向下滑动，若所述第一坐标差值为负数，则确定所述目标手势动作为向上滑动；或者，

在所述第二坐标差值的绝对值大于或者等于所述预设像素差阈值，且所述第一坐标差值的绝对值小于所述预设像素差阈值的情况下，若所述第二坐标差值为正数，则确定所述目标手势动作为向右滑动，若所述第二坐标差值为负数，则确定所述目标手势动作为向左滑动；或者，

在所述第一坐标差值的绝对值大于或者等于预设像素差阈值，且所述第二坐标差值的绝对值大于或者等于所述预设像素差阈值的情况下，若所述第一坐标差值为正数，且所述第二坐标差值为正数，则确定所述目标手势动作为向右下滑动，若所述第一坐标差值为负数，且所述第二坐标差值为正数，则确定所述目标手势动作为向右上滑动，若所述第一坐标差值为正数，且所述第二坐标差值为负数，则确定所述目标手势动作为向左下滑动，若所述第一坐标差值为负数，且所述第二坐标差值为负数，则确定所述目标手势动作为向左上滑动。

获取手掌包围框中心位置；

获取所述起始帧图像中指尖位置与手掌包围框中心形成的第一向量，以及末尾帧图像中指尖位置与手掌包围框中心形成的第二向量；

获取所述第一向量与所述第二向量之间的夹角；

在所述夹角大于预设夹角阈值时，确定所述目标手势动作为旋转动作。

在所述起始帧图像中包括食指或者中指的指尖位置，且所述末尾帧图像包括食指和中指的指尖位置的情况下，确定所述目标手势动作为点击动作。

可选地，所述预设手势识别模型通过以下方式训练得到：

将手部图像样本输入预设初始模型，通过所述预设初始模型中预设的特征提取子模型对所述图像样本进行特征提取，以得到卷积特征图样本；

将所述卷积特征图样本输入至预设初始模型中的第一预设初始子模型，第二预设初始子模型，第三预设初始子模型和第四预设初始子模型中，以使所述第一预设子模型输出手部位置特征图样本，使所述第二预设子模型输出偏移量特征图样本，第三预设子模型输出大小特征图样本，第四预设子模型输出关键点位置特征图样本；

根据所述手部位置特征图样本和第一损失函数计算每个手部位置对应的第一损失值，根据所述第一损失值对所述第一预设初始子模型进行迭代训练，以得到所述中心位置确定子模型；

根据偏移量特征图样本和第二损失函数对所述第二预设初始子模型进行迭代训练，以得到所述偏差量获取子模型；

根据大小特征图样本和第三损失函数对所述第三预设初始子模型进行迭代训练，以得到所述长宽获取子模型；

根据所述关键点位置特征图样本和第四损失函数对第四预设初始子模型进行迭代训练，以得到关键点位置获取子模型；

对所述第一损失值，第二损失值，第三损失值，第四损失值，以及每个损失值对应的权重进行加权处理，以得到第五损失值，根据所述第五损失值和每个损失值对应的权重分别对所述中心位置确定子模型，所述偏差量获取子模型，所述长宽获取子模型，所述关键点位置获取子模型进行迭代训练，直至所述第五损失值小于或者等于预设训练截止阈值停止，以得到所述预设手势识别模型。

可选地，所述方法还包括：

根据所述目标手势动作控制目标图像的显示。

可选地，所述目标图像包括多张图片，所述根据所述目标手势动作控制图像显示，包括：

在所述目标手势动作为向左滑动，向下滑动，左上滑动或者左下滑动的情况下，对所述目标图像进行向后翻页操作；或者，

在所述目标手势动作为向右滑动，向上滑动，右上滑动或者右下滑动的情况下，对所述目标图像进行向前翻页操作；或者，

在所述目标手势动作为旋转动作时，对所述目标图像当前展示的图片进行旋转操作；或者，

在所述目标手势动作为点击动作时，对所述目标图像当前展示的图片进行放大操作。

在本公开的第二方面提供一种手势识别装置，所述装置包括：

获取模块，用于获取目标视频图像，所述目标视频图像包括多帧手部图像；

第一确定模块，用于通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置；

第二确定模块，用于根据所述目标视频图像中每帧手部图像对应的手势类别和指尖位置确定所述目标视频图像对应的目标手势动作；

其中，所述预设手势识别模型包括：特征提取子模型，中心位置确定子模型，偏差量获取子模型，长宽获取子模型，关键点位置获取子模型以及输出子模型，所述特征提取子模型的输出端分别与所述中心位置确定子模型的输入端，所述偏差量获取子模型的输入端，所述长宽获取子模型的输入端，关键点位置获取子模型的输入端耦合，所述中心位置确定子模型的输出端，所述偏差量获取子模型的输出端，所述长宽获取子模型的输出端，以及关键点位置获取子模型的输出端均与所述输出子模型的输入端耦合；所述特征提取子模型，用于对手部图像进行卷积特征提取，以得到所述手部图像对应的卷积特征图，所述中心位置确定子模型，用于生成手部图像对应的每个预设手势类别的手部位置特征图，所述偏差量获取子模型，用于获取所述手部图像中手部位置对应的偏移量特征图，所述长宽获取子模型，用于获取所述手部图像中手部位置对应的大小特征图，所述关键点位置获取子模型，用于获取所述手部图像中预设手部关键点对应的关键点位置特征图，所述输出子模型，用于根据所述手部位置特征图，所述偏移量特征图，所述大小特征图，以及所述关键点位置特征图输出每帧手部图像对应的所述手势类别和所述指尖位置。

可选地，所述第一确定模块，用于：将每帧手部图像输入所述预设手势识别模型，以使所述预设手势识别模型中的所述特征提取子模型对所述手部图像进行卷积特征提取，以得到卷积特征图；

可选地，所述第一确定模块，用于：

可选地，所述第二确定模块，用于：

从所述目标视频图像中获取预设时长的待识别视频图像；

可选地，所述第二确定模块，用于：

根据所述像素位置差确定所述目标手势动作。

可选地，所述指尖位置包括第一坐标和第二坐标，相应地，所述像素位置差包括第一坐标差值和第二坐标差值，所述第二确定模块，用于：

可选地，所述第二确定模块，用于：

获取手掌包围框中心位置；

获取所述第一向量与所述第二向量之间的夹角；

可选地，所述第二确定模块，用于：

可选地，所述预设手势识别模型通过以下方式训练得到：

可选地，所述装置还包括：

控制模块，用于根据所述目标手势动作控制目标图像的显示。

可选地，所述目标图像包括多张图片，所述控制模块，用于：

在本公开的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上第一方面所述方法的步骤。

在本公开的第四方面一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现以上第一方面所述方法的步骤。

上述技术方案，通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置，并根据所述目标视频图像中每帧手部图像对应的手势类别和指尖位置确定所述目标视频图像对应的目标手势动作，能够在一个模型中将手势类别和指尖定位两个任务进行统一，能够有效减少识别手势类别和指尖定位过程的所需的时间，从而能够有效提高模型识别手势类别和指尖位置的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一示例性实施例示出的一种手势识别方法的流程图；

图2是根据图1所示实施例示出的一种手势识别方法的流程图；

图3是本公开一示例性实施例示出的一种手势识别方法的示意图；

图4是本公开一示例性实施例示出的一种模型训练方法的流程图；

图5是本公开一示例性实施例示出的一种手势识别装置的框图；

图6是根据图5所示实施例示出的一种手势识别装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在详细介绍本公开的具体实施方式之前，首先对本公开的应用场景进行以下说明，本公开可以应用于需要完成手势检测和指尖定位两个任务的场景中，例如，发明人发现，可以通过识别教学视频图像中每帧图像中教师的手势类别和指尖位置，以确定该教学视频图像中教师的手势动作，从而根据该手势动作控制PPT文档或者视频图像的播放和显示，在以上通过手势动作控制PPT文档或者视频图像的播放和显示的过程中，可以通过本公开中所示的手势识别方法对识别教学视频图像中每帧图像中教师的手势类别和指尖位置进行识别，能够有效提高手势类别和指尖位置的确定效率。之所以能够有效提高手势类别和指尖位置的确定效率，主要是因为相关技术中针对手势检测，指尖定位，通常的处理方式为通过两个模型分阶段地处理这两个任务，而不会将手势检测和指尖定位这两个任务在一个模型中统一，因此对应的模型确定手势类别和指尖位置的效率较低。

本公开为了克服以上相关技术中存在的技术问题，提供了一种手势识别方法、装置、存储介质及电子设备，该方法通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置；根据该目标视频图像中每帧手部图像对应的手势类别和指尖位置确定该目标视频图像对应的目标手势动作；其中，该预设手势识别模型包括：特征提取子模型，中心位置确定子模型，偏差量获取子模型，长宽获取子模型，关键点位置获取子模型以及输出子模型，能够在一个模型中将识别手势类别和指尖定位两个任务进行统一，能够有效减少识别手势类别和指尖定位过程的所需的时间，从而能够有效提高模型识别手势类别和指尖位置的效率。

下面结合具体的附图对本公开的实施方式进行详细介绍。

图1是本公开一示例性实施例示出的一种手势识别方法的流程图，参见图1，该手势识别方法可以包括以下步骤：

步骤101，获取目标视频图像。

其中，该目标视频图像包括多帧手部图像，例如，该目标视频图像可以是教师的授课视频图像，该授课视频图像包括教师授课时的手部图像。

步骤102，通过预设手势识别模型确定该目标视频图像中的每帧手部图像对应的手势类别和指尖位置。

其中，该预设手势识别模型包括：特征提取子模型，中心位置确定子模型，偏差量获取子模型，长宽获取子模型，关键点位置获取子模型以及输出子模型，该特征提取子模型的输出端分别与该中心位置确定子模型的输入端，该偏差量获取子模型的输入端，该长宽获取子模型的输入端，以及关键点位置获取子模型的输入端耦合，该中心位置确定子模型的输出端，该偏差量获取子模型的输出端，该长宽获取子模型的输出端，关键点位置获取子模型的输出端均与该输出子模型的输入端耦合；该特征提取子模型，用于对手部图像进行卷积特征提取，以得到该手部图像对应的卷积特征图，该中心位置确定子模型，用于生成手部图像对应的每个预设手势类别的手部位置特征图，该偏差量获取子模型，用于获取该手部图像中手部位置对应的偏移量特征图，该长宽获取子模型，用于获取该手部图像中手部位置对应的大小特征图，该关键点位置获取子模型，用于获取该手部图像中预设手部关键点对应的关键点位置特征图，该输出子模型，用于根据该手部位置特征图，该偏移量特征图，该大小特征图，以及该关键点位置特征图输出每帧手部图像对应的该手势类别和该指尖位置。

示例地，该手势类别可以是五指并拢平伸，食指伸直而其余四指内握，食指中指伸直其余三指内握，握拳等，该指尖位置可以是每帧手部图像中指尖对应的像素坐标。

步骤103，根据该目标视频图像中每帧手部图像对应的手势类别和指尖位置确定该目标视频图像对应的目标手势动作。

其中，该目标手势动作可以是向左滑动，向下滑动，左上滑动，左下滑动，向右滑动，向上滑动，右上滑动或者右下滑动，还可以是旋转动作或者点击动作。

本步骤中，一种可能的实施方式可以包括以下步骤S1至步骤S3：

S1，从该目标视频图像中获取预设时长的待识别视频图像。

S2，在确定该待识别视频图像中包含目标手势类别的图像大于预设时长阈值的情况下，从该待识别视频图像中确定目标手部视频图像。

其中，该目标手部视频图像可以包括连续多帧目标手势类别的手部图像。该目标手势类别可以是五指并拢平伸，食指伸直而其余四指内握，食指中指伸直其余三指内握，握拳等手势类别中的一种或者两种。

S3，根据该目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定该目标手部视频对应的目标手势动作。

示例地，预先设置一个时间窗口，例如每2秒为一个时间窗口，将处于该时间窗口内视频图像确定为该待识别视频图像，若在该2秒的待识别视频图像中有连续1秒的图像中均包括有同一种手势类别，则可以将这1秒的图像确定为目标手部视频图像，根据该目标手部视频图像中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定该目标手部视频对应的目标手势动作。并在确定该时间窗口内目标手势动作之后，更新该时间窗口内的视频图像，以得到新的待识别视频图像。又一示例中，一般的监控视频图像每秒包括25帧，即2秒内可以包括50帧图像，即若该时间窗口内有连续的25帧图像均包括一个手势类别的情况下，可以确定对应的手势动作为有效动作，则可以继续进一步地判断该手势动作，如此能够有效保证识别到的目标手势动作的有效性。

该步骤S3中，一种可能的实施方式中可以包括以下步骤S31a和S32a：

S31a，获取该起始帧图像中指尖位置与该末尾帧图像中指尖位置的像素位置差。

其中，该指尖位置包括第一坐标(例如，X坐标)和第二坐标(例如，Y坐标)，该像素位置差可以包括第一坐标差值(例如，X坐标差值)和第二坐标差值，(例如，Y坐标差值)。

S32a，根据该像素位置差确定该目标手势动作。

本步骤中，一种可能的实施方式为：在该第一坐标差值的绝对值大于或者等于预设像素差阈值，且该第二坐标差值的绝对值小于该预设像素差阈值的情况下，若该第一坐标差值为正数，则确定该目标手势动作为向下滑动，若该第一坐标差值为负数，则确定该目标手势动作为向上滑动；或者，

在该第二坐标差值的绝对值大于或者等于该预设像素差阈值，且该第一坐标差值的绝对值小于该预设像素差阈值的情况下，若该第二坐标差值为正数，则确定该目标手势动作为向右滑动，若该第二坐标差值为负数，则确定该目标手势动作为向左滑动；或者，

在该第一坐标差值的绝对值大于或者等于预设像素差阈值，且该第二坐标差值的绝对值大于或者等于该预设像素差阈值的情况下，若该第一坐标差值为正数，且该第二坐标差值为正数，则确定该目标手势动作为向右下滑动，若该第一坐标差值为负数，且该第二坐标差值为正数，则确定该目标手势动作为向右上滑动，若该第一坐标差值为正数，且该第二坐标差值为负数，则确定该目标手势动作为向左下滑动，若该第一坐标差值为负数，且该第二坐标差值为负数，则确定该目标手势动作为向左上滑动。

另一种可能的实施方式中，可以包括以下步骤S31b至S34b，具体如下：

S31b，获取手掌包围框中心位置；

S32b，获取该起始帧图像中指尖位置与手掌包围框中心形成的第一向量，以及末尾帧图像中指尖位置与手掌包围框中心形成的第二向量；

S33b，获取该第一向量与该第二向量之间的夹角；

S34b，在该夹角大于预设夹角阈值时，确定该目标手势动作为旋转动作。

又一种可能的实施方式中，可以包括：

S31c，在该起始帧图像中包括食指或者中指的指尖位置，且该末尾帧图像包括食指和中指的指尖位置的情况下，确定该目标手势动作为点击动作。

上述技术方案，通过预设手势识别模型确定该目标视频图像中的每帧手部图像对应的手势类别和指尖位置，能够在一个模型中将手势类别和指尖定位两个任务进行统一，能够有效减少识别手势类别和指尖定位过程的所需的时间，从而能够有效提高模型识别手势类别和指尖位置的效率。

进一步地，图2是根据图1所示实施例示出的一种手势识别方法的流程图，参见图2，以上图1中步骤102所述的通过预设手势识别模型确定该目标视频图像中的每帧手部图像对应的手势类别和指尖位置，可以包括以下步骤：

步骤1021，将每帧手部图像输入该预设手势识别模型，以使该预设手势识别模型中的该特征提取子模型对该手部图像进行卷积特征提取，以得到卷积特征图。

其中，该特征提取子模型可以是MobileNet卷积网络模型，MobileNet卷积网络模型具有对算力的需求较小，且具有更快的处理速度，有利于提升整个预设手势识别模型的处理速度。需要说明的是，该MobileNet卷积网络模型为现有技术中较为常见的网络模型，通过MobileNet卷积网络模型实现特征提取的实施方式在现有技术中较为常见，本公开在此不再赘述。

步骤1022，将每帧手部图像对应的该卷积特征图分别输入该预设手势识别模型中的该中心位置确定子模型，该偏差量获取子模型，该长宽获取子模型，以及该关键点位置获取子模型，以使该中心位置确定子模型生成该手部图像对应的每个预设手势类别的手部位置特征图，并使该偏差量获取子模型输出该手部图像中手部位置对应的偏移量特征图，该长宽获取子模型输出该手部图像中手部位置对应的大小特征图，该关键点位置获取子模型输出该手部图像中手部预设关键点对应的关键点位置特征图。

示例地，该中心位置确定子模型输出的维度可以是(1，c，128，128)，即每1张图片包括c个128×128的特征图，c为预设的手势类别的数目，该偏差量获取子模型输出的维度可以是(1，2，128，128)，即每1张图片包括2个128×128的特征图，一个为X轴的偏差量特征图，另一个为Y轴的偏差量特征图，该长宽获取子模型输出的维度可以是(1，2，128，128)，即每1张图片包括2个128×128的特征图，一个为长度特征图，另一个为宽度特征图，该关键点位置获取子模型输出的维度可以是(1，2ck，128，128)，其中，c为预设的手势类别的数目，k是预设的关键点数目，即表征每1张图片包括c·k·2个128×128的特征图。

步骤1023，通过预设手势识别模型中的该输出子模型根据每帧手部图像对应的该手部位置特征图，该偏移量特征图，该大小特征图，以及该关键点位置特征图输出该帧手部图像对应的该手势类别和该指尖位置。

本步骤中，可以将该手部图像对应的该手部位置特征图，该偏移量特征图，该大小特征图，以及该关键点位置特征图输入该输出子模型，以使该输出子模型对该手部位置特征图进行最大池化处理，以得到目标手部位置特征图，并从该偏移量特征图中确定该目标手部位置特征图中每个像素对应的偏移量特征，从该大小特征图中确定该目标手部位置特征图中每个像素对应的大小特征，从该关键点位置特征图中确定该目标手部位置特征图中每个像素对应的关键点位置坐标，根据该目标手部位置特征图中每个像素对应的偏移量特征，每个像素对应的大小特征，每个像素对应的关键点位置坐标，生成该手部图像对应的该手势类别和该指尖位置。

示例地，如图3所示，图3是本公开一示例性实施例示出的一种手势识别方法的示意图，参见图3，将该手部图像为512×512的图片，经过MobileNet进行特征提取后，将得到的卷积特征图分别输入至该中心位置确定子模型，该偏差量获取子模型，该长宽获取子模型，该关键点位置获取子模型，得到手部位置特征图a，该偏移量特征图b，该大小特征图c，以及该关键点位置特征图d，该输出子模型对该手部位置特征图a进行最大池化处理，即取预设的局部接受域中值最大的点，以得到目标手部位置特征图，从X轴对应的128×128的偏移量特征图中确定该目标手部位置特征图中每个像素对应的X轴的偏移量，从Y轴对应的128×128的偏移量特征图中确定该目标手部位置特征图中每个像素对应的Y轴的偏移量，从长度对应的128×128的大小特征图中确定该目标手部位置特征图中每个像素对应的长度，从宽度对应的128×128的大小特征图中确定该目标手部位置特征图中每个像素对应的宽度，从该关键点位置特征图中确定该目标手部位置特征图中每个像素对应的关键点位置坐标，根据该目标手部位置特征图中每个像素对应的偏移量对该目标手部位置特征图中当前像素的位置坐标进行校正，并根据每个像素对应的大小特征，每个像素对应的关键点位置坐标，生成该手部图像对应的该手势类别和该指尖位置，对该手部图像对应的手势类别和该指尖位置进行可视化，从而得到包括位置框，类别(例如，预先将每个手势类别进行标号，当前的手势类别为标号为one的手势)和关键点的图像。

上述技术方案，通过输出子模型对该预设手势识别模型中的该中心位置确定子模型，该偏差量获取子模型，该长宽获取子模型，以及该关键点位置获取子模型输入的特征图进行后处理，以得到每个手部图像对应的手势类别和指尖位置，能够在一个模型中将手势类别和指尖定位两个任务进行统一，能够有效减少识别手势类别和指尖定位过程的所需的时间，从而能够有效提高模型识别手势类别和指尖位置的效率。

图4是本公开一示例性实施例示出的一种模型训练方法的流程图，参见图4，该预设手势识别模型通过以下步骤训练得到：

步骤401，将手部图像样本输入预设初始模型，通过该预设初始模型中预设的特征提取子模型对该图像样本进行特征提取，以得到卷积特征图样本。

其中，该预设初始模型可以包括特征提取子模型，第一预设初始子模型，第二预设初始子模型，第三预设初始子模型和第四预设初始子模型，该特征提取子模型可以是MobileNet网络模型，该第一预设初始子模型，第二预设初始子模型，第三预设初始子模型和第四预设初始子模型可以是预设的神经网络模型。

步骤402，将该卷积特征图样本输入至预设初始模型中的第一预设初始子模型，第二预设初始子模型，第三预设初始子模型和第四预设初始子模型中，以使该第一预设子模型输出手部位置特征图样本，使该第二预设子模型输出偏移量特征图样本，第三预设子模型输出大小特征图样本，第四预设子模型输出关键点位置特征图样本。

步骤403，根据该手部位置特征图样本和第一损失函数计算每个手部位置对应的第一损失值，根据该第一损失值对该第一预设初始子模型进行迭代训练，以得到该中心位置确定子模型。

其中，该第一损失函数可以是：

以上第一损失函数中，L_k为第一损失函数值，

为检测到物体的预测值，若值为1，则表示x，y位置预测到目标，其类别为c，而

则表示这个坐标点不存在类别为c的目标。Y_xyc为标签值，对c类目标来说，在目标矩形框中心点(x，y)位置，Y_xyc为1，其中，该目标矩形框为手势图像对应的包围框。

步骤404，根据偏移量特征图样本和第二损失函数对该第二预设初始子模型进行迭代训练，以得到该偏差量获取子模型。

其中，该第二损失函数可以是：

以上第二损失函数中，L_off为第二损失函数值，R是全局缩放的尺度，

为关键点的位置，

是预测出来的偏置量。

步骤405，根据大小特征图样本和第三损失函数对该第三预设初始子模型进行迭代训练，以得到该长宽获取子模型。

其中，该第三损失函数可以是：

以上第三损失函数中，L_wh为第三损失值，S_k为关键点K的目标像素差值对应的标签值，这里S_k可以表示为

为预测的值。

步骤406，根据该关键点位置特征图样本和第四损失函数对第四预设初始子模型进行迭代训练，以得到关键点位置获取子模型。

其中，该第四损失函数可以是：

以上第四损失函数中，L_joint为第四损失函数值，k为关键数目，

为目标矩形框中心位置的坐标，

为关键点相对于目标矩形框中心位置

的偏移量。

步骤407，对该第一损失值，第二损失值，第三损失值，第四损失值，以及每个损失值对应的权重进行加权处理，以得到第五损失值，根据该第五损失值和每个损失值对应的权重分别对该中心位置确定子模型，该偏差量获取子模型，该长宽获取子模型，该关键点位置获取子模型进行迭代训练，直至该第五损失值小于或者等于预设训练截止阈值停止，以得到该预设手势识别模型。

其中，该第五损失值可以通过以下函数式子计算得到：

Loss＝λ_kL_k+λ_offL_off+λ_whL_wh+λ_jointL_joint

在以上函数式中，λ_k为第一损失值L_k的权重，λ_off为第二损失值L_off对应的权重，λ_wh为第三损失值L_wh对应的权重，λ_joint为第四损失值L_joint对应的权重，该Loss为第五损失值。

通过以上步骤401至步骤407所述的方法步骤，能够有效地训练出将识别手势类别和指尖定位两个任务统一为一个任务的手势识别模型，该手势识别模型能够同时完成手势类别检测和指尖定位的任务，能够有效减少识别手势类别和指尖定位过程的所需的时间，从而能够有效提高模型识别手势类别和指尖位置的效率。

可选地，在该步骤103之后，该方法还可以包括：

步骤104，根据该目标手势动作控制目标图像的显示。

其中，可以将控制指令与目标手势动作进行绑定，从而在识别到该目标手势动作的情况下，触发与该目标手势动作绑定的控制指令。

示例地，在该目标手势动作为向左滑动，向下滑动，左上滑动或者左下滑动的情况下，对该目标图像进行向后翻页操作；或者，在该目标手势动作为向右滑动，向上滑动，右上滑动或者右下滑动的情况下，对该目标图像进行向前翻页操作；或者，在该目标手势动作为旋转动作时，对该目标图像当前展示的图片进行旋转操作；或者，在该目标手势动作为点击动作时，对该目标图像当前展示的图片进行放大操作。

以上技术方案，通过对步骤103识别到的目标手势动作赋予控制意义，从而通过识别到的目标手势动作控制目标图像的展示，能够有效增加图像显示控制方式的多样性，降低图像显示的控制成本。

图5是本公开一示例性实施例示出的一种手势识别装置的框图；参见图5，该装置可以包括：

获取模块501，用于获取目标视频图像，该目标视频图像包括多帧手部图像；

第一确定模块502，用于通过预设手势识别模型确定该目标视频图像中的每帧手部图像对应的手势类别和指尖位置；

第二确定模块503，用于根据该目标视频图像中每帧手部图像对应的手势类别和指尖位置确定该目标视频图像对应的目标手势动作；

其中，该预设手势识别模型包括：特征提取子模型，中心位置确定子模型，偏差量获取子模型，长宽获取子模型，关键点位置获取子模型以及输出子模型，该特征提取子模型的输出端分别与该中心位置确定子模型的输入端，该偏差量获取子模型的输入端，该长宽获取子模型的输入端，关键点位置获取子模型的输入端耦合，该中心位置确定子模型的输出端，该偏差量获取子模型的输出端，该长宽获取子模型的输出端，以及关键点位置获取子模型的输出端均与该输出子模型的输入端耦合；该特征提取子模型，用于对手部图像进行卷积特征提取，以得到该手部图像对应的卷积特征图，该中心位置确定子模型，用于生成手部图像对应的每个预设手势类别的手部位置特征图，该偏差量获取子模型，用于获取该手部图像中手部位置对应的偏移量特征图，该长宽获取子模型，用于获取该手部图像中手部位置对应的大小特征图，该关键点位置获取子模型，用于获取该手部图像中预设手部关键点对应的关键点位置特征图，该输出子模型，用于根据该手部位置特征图，该偏移量特征图，该大小特征图，以及该关键点位置特征图输出每帧手部图像对应的该手势类别和该指尖位置。

可选地，该第一确定模块502，用于：将每帧手部图像输入该预设手势识别模型，以使该预设手势识别模型中的该特征提取子模型对该手部图像进行卷积特征提取，以得到卷积特征图；

将每帧手部图像对应的该卷积特征图分别输入该预设手势识别模型中的该中心位置确定子模型，该偏差量获取子模型，该长宽获取子模型，该关键点位置获取子模型，以使该中心位置确定子模型生成该手部图像对应的每个预设手势类别的手部位置特征图，并使该偏差量获取子模型输出该手部图像中手部位置对应的偏移量特征图，该长宽获取子模型输出该手部图像中手部位置对应的大小特征图，该关键点位置获取子模型输出该手部图像中手部预设关键点对应的关键点位置特征图；

通过预设手势识别模型中的该输出子模型根据每帧手部图像对应的该手部位置特征图，该偏移量特征图，该大小特征图，以及该关键点位置特征图输出该帧手部图像对应的该手势类别和该指尖位置。

可选地，该第一确定模块502，用于：

将该手部图像对应的该手部位置特征图，该偏移量特征图，该大小特征图，以及该关键点位置特征图输入该输出子模型，以使该输出子模型对该手部位置特征图进行最大池化处理，以得到目标手部位置特征图，并从该偏移量特征图中确定该目标手部位置特征图中每个像素对应的偏移量特征，从该大小特征图中确定该目标手部位置特征图中每个像素对应的大小特征，从该关键点位置特征图中确定该目标手部位置特征图中每个像素对应的关键点位置坐标，根据该目标手部位置特征图中每个像素对应的偏移量特征，每个像素对应的大小特征，每个像素对应的关键点位置坐标，生成该手部图像对应的该手势类别和该指尖位置。

可选地，该第二确定模块503，用于：

从该目标视频图像中获取预设时长的待识别视频图像；

在确定该待识别视频图像中包含目标手势类别的图像大于预设时长阈值的情况下，从该待识别视频图像中确定目标手部视频图像，该目标手部视频图像包括连续多帧目标手势类别的手部图像；

根据该目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定该目标手部视频对应的目标手势动作。

可选地，该第二确定模块503，用于：

获取该起始帧图像中指尖位置与该末尾帧图像中指尖位置的像素位置差；

根据该像素位置差确定该目标手势动作。

可选地，该指尖位置包括第一坐标和第二坐标，相应地，该像素位置差包括第一坐标差值和第二坐标差值，该第二确定模块，用于：

在该第一坐标差值的绝对值大于或者等于预设像素差阈值，且该第二坐标差值的绝对值小于该预设像素差阈值的情况下，若该第一坐标差值为正数，则确定该目标手势动作为向下滑动，若该第一坐标差值为负数，则确定该目标手势动作为向上滑动；或者，

可选地，该第二确定模块503，用于：

获取手掌包围框中心位置；

获取该起始帧图像中指尖位置与手掌包围框中心形成的第一向量，以及末尾帧图像中指尖位置与手掌包围框中心形成的第二向量；

获取该第一向量与该第二向量之间的夹角；

在该夹角大于预设夹角阈值时，确定该目标手势动作为旋转动作。

可选地，该第二确定模块503，用于：

在该起始帧图像中包括食指或者中指的指尖位置，且该末尾帧图像包括食指和中指的指尖位置的情况下，确定该目标手势动作为点击动作。

可选地，该预设手势识别模型通过以下方式训练得到：

将手部图像样本输入预设初始模型，通过该预设初始模型中预设的特征提取子模型对该图像样本进行特征提取，以得到卷积特征图样本；

将该卷积特征图样本输入至预设初始模型中的第一预设初始子模型，第二预设初始子模型，第三预设初始子模型和第四预设初始子模型中，以使该第一预设子模型输出手部位置特征图样本，使该第二预设子模型输出偏移量特征图样本，第三预设子模型输出大小特征图样本，第四预设子模型输出关键点位置特征图样本；

根据该手部位置特征图样本和第一损失函数计算每个手部位置对应的第一损失值，根据该第一损失值对该第一预设初始子模型进行迭代训练，以得到该中心位置确定子模型；

根据偏移量特征图样本和第二损失函数对该第二预设初始子模型进行迭代训练，以得到该偏差量获取子模型；

根据大小特征图样本和第三损失函数对该第三预设初始子模型进行迭代训练，以得到该长宽获取子模型；

根据该关键点位置特征图样本和第四损失函数对第四预设初始子模型进行迭代训练，以得到关键点位置获取子模型；

对该第一损失值，第二损失值，第三损失值，第四损失值，以及每个损失值对应的权重进行加权处理，以得到第五损失值，根据该第五损失值和每个损失值对应的权重分别对该中心位置确定子模型，该偏差量获取子模型，该长宽获取子模型，该关键点位置获取子模型进行迭代训练，直至该第五损失值小于或者等于预设训练截止阈值停止，以得到该预设手势识别模型。

图6是根据图5所示实施例示出的一种手势识别装置的框图；参见图6，该装置还可以包括：

控制模块504，用于根据该目标手势动作控制目标图像的显示。

可选地，该目标图像包括多张图片，该控制模块504，用于：

在该目标手势动作为向左滑动，向下滑动，左上滑动或者左下滑动的情况下，对该目标图像进行向后翻页操作；或者，

在该目标手势动作为向右滑动，向上滑动，右上滑动或者右下滑动的情况下，对该目标图像进行向前翻页操作；或者，

在该目标手势动作为旋转动作时，对该目标图像当前展示的图片进行旋转操作；或者，

在该目标手势动作为点击动作时，对该目标图像当前展示的图片进行放大操作。

以上技术方案，通过对识别到的目标手势动作赋予控制意义，从而通过识别到的目标手势动作控制目标图像的展示，能够有效增加图像显示控制方式的多样性，降低图像显示的控制成本。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的手势识别方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的手势识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的手势识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的手势识别方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

获取目标视频图像，所述目标视频图像包括多帧手部图像；

2.根据权利要求1所述的方法，其特征在于，所述通过预设手势识别模型确定所述目标视频图像中的每帧手部图像对应的手势类别和指尖位置，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过预设手势识别模型中的所述输出子模型根据每帧手部图像对应的所述手部位置特征图，所述偏移量特征图，所述大小特征图，以及所述关键点位置特征图输出该帧手部图像对应的所述手势类别和所述指尖位置，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频图像中每帧手部图像对应的手势类别和指尖位置确定所述目标视频图像对应的目标手势动作，包括：

从所述目标视频图像中获取预设时长的待识别视频图像；

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定所述目标手部视频对应的目标手势动作，包括：

根据所述像素位置差确定所述目标手势动作。

6.根据权利要求5所述的方法，其特征在于，所述指尖位置包括第一坐标和第二坐标，相应地，所述像素位置差包括第一坐标差值和第二坐标差值，所述根据所述像素位置差确定所述目标手势动作包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定所述目标手部视频对应的目标手势动作，包括：

获取手掌包围框中心位置；

获取所述第一向量与所述第二向量之间的夹角；

8.根据权利要求4所述的方法，其特征在于，所述根据所述目标手部视频中起始帧图像对应的指尖位置与末尾帧图像对应的指尖位置确定所述目标手部视频对应的目标手势动作，包括：

9.根据权利要求1所述的方法，其特征在于，所述预设手势识别模型通过以下方式训练得到：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标手势动作控制目标图像的显示。

11.根据权利要求10所述的方法，其特征在于，所述目标图像包括多张图片，所述根据所述目标手势动作控制图像显示，包括：

12.一种手势识别装置，其特征在于，所述装置包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-11中任一项所述方法的步骤。

14.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-11中任一项所述方法的步骤。