CN117789256A

CN117789256A - 手势识别方法、装置、设备及计算机可读介质

Info

Publication number: CN117789256A
Application number: CN202410215227.1A
Authority: CN
Inventors: 寸毛毛; 郝冬宁; 王淼军; 王伟达
Original assignee: Hubei Xingji Meizu Group Co ltd
Current assignee: Hubei Xingji Meizu Group Co ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-03-29

Abstract

本公开涉及一种手势识别方法、装置、设备及计算机可读介质，该方法包括：获取第一手势图像和所述第一手势图像的手部框；根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像；将所述手部图像输入训练完毕的关节点估计模型，根据关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度；根据所述第一手部关节点确定所述第一手势图像的手部手势；基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，所述第二手势图像为所述第一手势图像的下一待识别帧。本公开通过模型和算法的结合，相较于现有技术降低了手势识别的算力需求和功耗，提升了手势识别的效率。

Description

手势识别方法、装置、设备及计算机可读介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种手势识别方法、装置、设备及计算机可读介质。

背景技术

随着虚拟现实(Virtual Reality，VR)和增强现实(Agmented Rality，AR)技术的发展，为了实现VR/AR相关产品的更优质功能，在其佩戴设备上配置了一个或多个摄像头，包括鱼眼灰度、普通RGB以及RGBD等摄像头。

现有技术中，用户与设备的交互是通过摄像头获取手势来进行的，通常可采用AI模型识别手势，但是目前的AI模型参数量多，计算量大，难以在佩戴设备上实时运行，而且AI模型需要获取多帧图像的手势进行识别，手势识别的功耗高，效率低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种手势识别方法、装置、设备及计算机可读介质，以降低手势识别的算力需求和功耗，提升手势识别的效率。

第一方面，本公开实施例提供一种手势识别方法，包括：

获取第一手势图像和所述第一手势图像的手部框；

根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像；

将所述手部图像输入训练完毕的关节点估计模型，根据所述关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度；

根据所述第一手部关节点确定所述第一手势图像的手部手势；

基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，所述第二手势图像为所述第一手势图像的下一待识别帧。

在一些实施例中，基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，包括：

基于所述手部置信度大于第一置信度阈值且不大于第二置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，其中，所述第二置信度阈值大于所述第一置信度阈值。

在一些实施例中，所述方法还包括：

基于所述手部置信度大于第二置信度阈值，将所述第一手势图像的手部框作为所述第二手势图像的手部框。

在一些实施例中，获取第一手势图像和所述第一手势图像的手部框，包括：

在所述第一手势图像为初始帧，和/或，基于第三手势图像得到的手部置信度不大于所述第一置信度阈值的情况下，根据所述第一手势图像和训练完毕的手掌检测模型，得到所述第一手势图像的手部框，所述第三手势图像为所述第一手势图像的前一待识别帧。

在一些实施例中，根据所述第一手势图像和训练完毕的手掌检测模型，得到所述第一手势图像的手部框，包括：

对所述第一手势图像进行等比例缩放和/或填充处理，以匹配手掌检测模型格式要求；

将处理后的所述第一手势图像输入手掌检测模型，得到至少一个手掌框和与所述手掌框一一对应的至少一个手掌框置信度；

根据所述至少一个手掌框和所述至少一个手掌框置信度生成所述第一手势图像的手部框。

在一些实施例中，对所述第一手势图像进行等比例缩放和/或填充处理，包括：

比较所述第一手势图像的高度和宽度，确定所述第一手势图像的较长边和较短边；

根据所述较长边和所述手掌检测模型格式要求，通过线性差值算法对所述第一手势图像的较短边进行等比例缩放；

对缩放后的第一手势图像进行填充处理。

在一些实施例中，根据所述至少一个手掌框和所述至少一个手掌框置信度生成所述第一手势图像的手部框，包括：

根据每个所述手掌框对应的置信度，通过非极大值抑制从所述至少一个手掌框中计算手掌旋转框；

对所述手掌旋转框进行位置和尺寸修正，得到所述手部框。

在一些实施例中，所述手掌框包括手掌框中心坐标、手掌框宽度、手掌框高度、手掌框旋转角度中的至少一个。

在一些实施例中，根据每个所述手掌框对应的置信度，通过非极大值抑制从所述至少一个手掌框中计算手掌旋转框，包括：

根据每个所述手掌框对应的置信度，对所述至少一个手掌框进行降序排列；

确定置信度最高的手掌框为第一手掌框；

分别计算所述第一手掌框与除所述第一手掌框之外的多个手掌框的交并比；

确定所述交并比最小的手掌框和所述第一手掌框为目标手掌框；

将所述目标手掌框映射到第一手势图像，得到手掌旋转框。

在一些实施例中，对所述手掌旋转框进行位置和尺寸修正，得到所述手部框，包括：

根据手掌旋转框与手部框的预设比例，确定手部框的边长；

根据手掌旋转框中心坐标和偏移量，计算手部框中心坐标，所述偏移量为所述手掌旋转框中心坐标和所述手部框中心坐标在每个维度上的差值；

根据所述手部框中心坐标和所述手部框的边长，将所述手掌旋转框调整为手部框。

在一些实施例中，根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像，包括：

计算所述手部框和预先设定的标准框的仿射变换矩阵，通过所述仿射变换矩阵对第一手势图像进行仿射变换，得到变换后的第一手势图像；

使用所述标准框对所述变换后的第一手势图像抠图，得到手部图像。

在一些实施例中，计算所述手部框和所述标准框的仿射变换矩阵，包括：

根据所述手部框的第一顶点坐标和所述标准框的第二顶点坐标，计算所述手部框和所述标准框的仿射变换矩阵。

在一些实施例中，根据所述第一手部关节点确定所述第一手势图像的手部手势，包括：

对所述手部框和标准框的仿射变换矩阵进行逆变换，得到所述手部框和所述标准框逆仿射变换矩阵；

通过所述逆仿射变换矩阵对所述第一手部关节点进行逆仿射变换，计算第一手势图像的第二手部关节点；

根据所述第一手势图像的第二手部关节点，确定第一手势图像的手部手势。

在一些实施例中，根据所述第一手部关节点计算第二手势图像的手部框，包括：

确定所述第一手部关节点的目标手部关节点；

根据所述目标手部关节点计算第二手势图像的手部框的旋转角度；

根据第一手势图像的第二手部关节点的坐标，筛选第二手部关节点在每个维度上的坐标最大值和坐标最小值；

根据所述第二手部关节点在每个维度上的坐标最大值和坐标最小值，计算第二手势图像的手部框的中心坐标、第二手势图像的手部框的宽度和第二手势图像的手部框的高度；

根据所述第二手势图像的手部框的旋转角度、所述第二手势图像的手部框的中心坐标、所述第二手势图像的手部框的宽度和所述第二手势图像的手部框的高度，计算第二手势图像的手部框。

第二方面，本公开实施例提供一种手势识别装置，包括：

获取模块，用于获取第一手势图像和所述第一手势图像的手部框；

得到模块，用于根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像；

输出模块，用于将所述手部图像输入训练完毕的关节点估计模型，根据所述关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度；

确定模块，用于根据所述第一手部关节点确定所述第一手势图像的手部手势；

计算模块，用于基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，所述第二手势图像为所述第一手势图像的下一待识别帧。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种非易失性的计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现第一方面所述的方法。

本公开实施例提供的手势识别方法、装置、设备及计算机可读介质，通过获取第一手势图像和第一手势图像的手部框；根据第一手势图像的手部框，从第一手势图像中得到手部图像；将手部图像输入训练完毕的关节点估计模型，根据关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度；根据第一手部关节点确定第一手势图像的手部手势；基于手部置信度大于第一置信度阈值，根据第一手部关节点计算第二手势图像的手部框，第二手势图像为第一手势图像的下一待识别帧，相较于现有技术，本公开实施例在手部置信度大于第一置信度阈值时，无需调用关节点估计模型，直接根据第一手部关节点计算第二手势图像的手部框，降低了手势识别的算力需求和功耗，提升了手势识别的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的手势识别方法流程图；

图2为本公开实施例提供的处理第一手势图像的示意图；

图3为本公开实施例提供的手部框和标准框的示意图；

图4为本公开实施例提供的手部图像的第一手部关节点的示意图；

图5为本公开实施例提供的第一手势图像的第二手部关节点的示意图；

图6为本公开实施例提供的手掌旋转框调整为手部框的示意图；

图7为本公开实施例提供的手掌旋转框和手部框的示意图；

图8为本公开实施例提供的第二手势图像手部框的计算方法流程图；

图9为本公开实施例提供的手势识别装置的结构示意图；

图10为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

现有技术中，用户与设备的交互是通过摄像头获取手势来进行的，但是传统的手势很难解决场景多样性问题，可采用AI模型解决场景的多样化问题，但是AI模型比较重，难以在终端设备上实时运行，手势识别的功耗高，效率低。针对该问题，本公开实施例提供了一种手势识别方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的手势识别方法流程图。该方法可以由手势识别装置执行，该手势识别装置可以采用软件和/或硬件的方式实现，该手势识别装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括可穿戴设备、手机、电脑或平板电脑等，其中，可穿戴设备具体可以是AR眼镜、VR眼镜等。另外，该方法可以应用于手势识别的应用场景，可以理解的是，本公开实施例提供的手势识别方法还可以应用在其他场景中。

下面对图1所示的手势识别方法进行介绍，该方法包括的具体步骤如下：

S101、获取第一手势图像和所述第一手势图像的手部框。

手势识别装置通过图像传感器获取第一手势图像，其中，第一手势图像中包含至少一个手部图像，根据第一手势图像，获取第一手势图像的手部框。

其中，手势是指通过手的动作来传达信息和情感的肢体语言。手势可以包括：剪刀手、竖大拇指、握手、OK手势、V字手势、比心、双手合十等，不同的手势在不同地区可能具有不同的含义。手势图像指的是包含手势的图像。手部框是指在图像或视频中，用来标识手部的外框或边界。手部框通常用于图像识别、计算机视觉和机器学习等领域，以帮助计算机更好地理解和分析手部的位置、姿态和动作。手部框可以通过各种算法和技术来检测和识别，例如基于颜色、形状、纹理和运动等特征的算法。在人机交互、虚拟现实和增强现实等领域，手部框也有着广泛的应用，例如手势识别、虚拟手部模型等。

具体地，手势识别装置上设置有图像传感器，示例性地，手势识别装置可以配置于可穿戴设备，可穿戴设备具体可以是以增强现实(Agmented Rality，AR)方式显示的眼镜，也可以是以虚拟现实(Virtual Reality，VR)方式显示的眼镜；图像传感器可以是图像采集装置，图像采集装置具体可以是摄像头等。也就是说，AR眼镜通过摄像头采集图像，在用户进行手势操作时，摄像头便可以采集到第一手势图像，进而可以获取第一手势图像的手部框。

需要指出的是，第一手势图像是摄像头采集的、需要进行手势识别的图像，在实际使用中，第一手势图像中既可能存在用户的手部，也可能不存在用户的手部，本申请实施例对此并不限制。相应的，第一手势图像的手部框为假设第一手势图像中存在用户的手部时，手部所在的区域，该假设将通过本申请实施例后续步骤进行验证。

S102、根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像。

在本申请实施例中，手部框可以表征第一手势图像中手部所在的位置，手势识别装置可以根据第一手势图像的手部框，从第一手势图像中得到手部图像。

可选地，根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像，包括：计算所述手部框和预先设定的标准框的仿射变换矩阵，通过所述仿射变换矩阵对第一手势图像进行仿射变换，得到变换后的第一手势图像；使用所述标准框对所述变换后的第一手势图像抠图，得到手部图像。

手势识别装置计算手部框和预先设定的标准框的仿射变换矩阵，通过仿射变换矩阵对第一手势图像进行仿射变换，得到变换后的第一手势图像，通过标准框对变换后的第一手势图像进行抠图，得到手部图像handImg。其中，预先设定标准框的目的是为了让手旋转到标准位置，为后续关节点计算提供数据基础，提升关节点计算的准确度，标准位置具体指的是将第一手势图像中的手部框处于标准框所在的位置。需要指出的是，此处的第一手势图像指的是未经缩放处理的第一手势图，也就是图2中的A。

可选地，计算所述手部框和所述标准框的仿射变换矩阵，包括：根据所述手部框的第一顶点坐标和所述标准框的第二顶点坐标，计算所述手部框和所述标准框的仿射变换矩阵。

手势识别装置利用仿射变换矩阵对手部框进行仿射变换，将手部框变换到标准框的位置，手势识别装置根据手部框的第一顶点坐标和标准框的第二顶点坐标，计算手部框和标准框的仿射变换矩阵。

图3为本公开实施例提供的手部框和标准框的示意图，如图3所示，假设标准框的四个顶点分别为dstPts[0]、dstPts[1]、dstPts[2]、dstPts[3]，其中：

顶点dstPts[0]的横坐标和纵坐标分别为：

dstPts[0].xdstPts[0].y；

顶点dstPts[1]的横坐标和纵坐标分别为：

dstPts[1].xdstPts[1].y；

顶点dstPts[2]的横坐标和纵坐标分别为：

dstPts[2].xdstPts[2].y；

顶点dstPts[3]的横坐标和纵坐标分别为：

dstPts[3].xdstPts[3].y；

假设手部框的四个顶点分别为handPts[0]、handPts[1]、handPts[2]、handPts[3]，其中：

顶点handPts[0]的横坐标和纵坐标分别为：

handPts[0].xhandPts[0].y；

顶点handPts[1]的横坐标和纵坐标分别为：

handPts[1].xhandPts[1].y；

顶点handPts[2]的横坐标和纵坐标分别为：

handPts[2].xhandPts[2].y；

顶点handPts[3]的横坐标和纵坐标分别为：

handPts[3].xhandPts[3].y；

手势识别装置根据手部框的第一顶点坐标和标准框的第二顶点坐标，计算手部框和标准框的仿射变换矩阵，即通过手部框的四个顶点dstPts[0]、dstPts[1]、dstPts[2]、dstPts[3]和标准框的四个顶点handPts[0]、handPts[1]、handPts[2]、handPts[3]计算手部框和标准框的仿射变换矩阵，其中，手部框的四个顶点和标准框的四个顶点是一一对应的，手部框和标准框的仿射变换矩阵M的计算公式如下：

通过仿射变换矩阵M对第一手势图像进行仿射变换，可以理解为根据第一手势图像的手部框和标准框之间的位置关系标准化第一手势图像。相较于直接使用手部框在所述第一手势图像中抠图，在摄像头获取第一手势图像的实际操作过程中，手部框和标准框可能不在同一位置，导致第一手势图像输入关节点估计模型得到的手部关节点的不准确，本公开实施例通过仿射变换矩阵对第一手势图像进行仿射变换，可以让第一手势图像中的手部框的位置变换到标准位置，再使用标准框对变换后的第一手势图像抠图，可以得到标准位置的手部图像，将处于非标准位置的第一手势图像的手部框变换到标准位置，提升了关节点估计模型计算手部关节点的准确性。

S103、将所述手部图像输入训练完毕的关节点估计模型，根据所述关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度。

关节点估计模型包括：第二主干部分和第二头部部分；其中，第二主干部分用于提取手部图像特征，例如颜色、形状、纹理、姿态等特征。具体是由1x1卷积、relu、深度可分离卷积、relu和1x1卷积串联组成的基础模块堆积而成；第二头部部分用于对手部图像特征进行分别计算，输出手部置信度和21个第一手部关节点，具体是利用第二主干部分提取手部图像特征，通过全局平均池化，将手部图像特征变为分辨率为1x1的特征张量，利用全连接得到手部置信度和21个第一手部关节点的输出结果。

本申请实施例所提供的关节点估计模型中，通过图融合的方式将卷积算子和relu算子，融合为一个算子（也就是relu和1x1卷积串联组成的基础模块）进行计算操作，相较于现有技术中心需要通过卷积算子和relu算子两个算子进行计算，本申请实施例所提供的关节点估计模型通过图融合的方式将卷积算子和relu算子融合为一个算子进行计算，减少了算子，减少了关节点估计模型的内存访问次数，加快了运算速度，进而提升关节点估计模型的性能。

图4为本公开实施例提供的手部图像的第一手部关节点的示意图，如图4所示，手部图像handImg的第一手部关节点有21个，分别标记为第一手部关节点0-第一手部关节点20。具体地，手势识别装置将手部图像handImg输入训练完毕的关节点估计模型，根据训练完毕的关节点估计模型的输出结果得到手部图像handImg的第一手部关节点handLandmarks[21]和手部置信度handflags[1]。

S104、根据所述第一手部关节点确定所述第一手势图像的手部手势。

手部手势可以是OK手势、剪刀（yeah）手势、布（五指张开）手势、石头（拳头）手势等等，具体可以根据手部图像handImg的21个第一手部关节点的位置来确定第一手势图像的手部手势，进而识别第一手势图像的手部手势。

可选地，根据所述第一手部关节点确定所述第一手势图像的手部手势，包括：对所述手部框和标准框的仿射变换矩阵进行逆变换，得到所述手部框和所述标准框逆仿射变换矩阵；通过所述逆仿射变换矩阵对所述第一手部关节点进行逆仿射变换，计算第一手势图像的第二手部关节点；根据所述第一手势图像的第二手部关节点，确定第一手势图像的手部手势。

具体地，手势识别装置对手部框和标准框的仿射变换矩阵进行逆变换，得到手部框和标准框逆仿射变换矩阵invTransMat；通过逆仿射变换矩阵invTransMat对手部图像handImg的第一手部关节点进行逆仿射变换，计算第一手势图像的第二手部关节点，即将手部图像handImg的第一手部关节点映射到第一手势图像，得到第一手势图像的第二手部关节点，具体地计算公式如下：

基于与上述手部框的四个顶点dstPts[0]、dstPts[1]、dstPts[2]、dstPts[3]和标准框的四个顶点handPts[0]、handPts[1]、handPts[2]、handPts[3]相同的算法，可以直接计算得到手部框和标准框的逆仿射变换矩阵。

handLandmarks[i].x1=handLandmarks[i].xinvTransMat[0,0]+handLandmarks[i].y/>invTransMat[0,1]+invTransMat[0,2]；

handLandmarks[i].y1=handLandmarks[i].xinvTransMat[1,0]+handLandmarks[i].y/>invTransMat[1,1]+invTransMat[1,2]；

其中，handLandmarks[i].x1表示第i个第二手部关节点的横坐标，handLandmarks[i].y1表示第i个第二手部关节点的纵坐标，即（handLandmarks[i].x1，handLandmarks[i].y1）表示第i个第二手部关节点的坐标，handLandmarks[i].x表示第i个第一手部关节点的横坐标，handLandmarks[i].y表示第i个第一手部关节点的纵坐标，即（handLandmarks[i].x，handLandmarks[i].y）表示第i个第一手部关节点的坐标。可以理解的是，第i个第二手部关节点的坐标（handLandmarks[i].x1，handLandmarks[i].y1）是根据第i个第一手部关节点的坐标（handLandmarks[i].x，handLandmarks[i].y）通过逆仿射变换矩阵计算得到的。其中，invTransMat[0,0]、invTransMat[0,1]、invTransMat[1,0]、invTransMat[1,1]、invTransMat[0,2]、invTransMat[1,2]是逆仿射变换矩阵的元素，与仿射变换矩阵M的元素/>、/>、/>、/>、/>、/>具有一一对应关系，即逆仿射变换矩阵/>与仿射变换矩阵M互为逆矩阵。

可以理解的是，在手部图像是从变换后的第一手势图像中抠图得到的情况下，基于手部图像所得到的第一手部关节点是变换后的第一手势图像中手的关节点。而第二手部关节点是对第一手部关节点逆仿射变换得到的关节点，因此第二手部关节点可以认为是变换前的第一手势图像（也就是原图）中手的关节点。相较于直接通过第一手部关节点确定手部手势，通过第二手部关节点确定手部手势，可以更贴合第一手势图像，手部手势识别更加精确。

图5为本公开实施例提供的第一手势图像的第二手部关节点的示意图，如图5所示，第一手势图像的第二手部关节点有21个，分别标记为第二手部关节点0'-第二手部关节点20'，第二手部关节点0'-第二手部关节点20'与上述第一手部关节点0-第一手部关节点20一一对应。根据第一手势图像的第二手部关节点0'-20'，确定第一手势图像的手部手势。

S105、基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，所述第二手势图像为所述第一手势图像的下一待识别帧。

基于手部置信度大于第一置信度阈值，如第一置信度阈值可以为0.3，当手部置信度大于0.3时，说明识别到的关节点可信度高，即手势识别装置可以监测到手部，根据第一手部关节点计算第二手势图像的手部框，该第二手势图像为第一手势图像的下一待识别帧，可以理解的是，第一置信度阈值也可以是0.5等其他数值，具体可以根据实际情况进行设定，本实施例不作限定。

可以理解的是，手势识别装置既可以识别每一帧手势图像，即第二手势图像是第一手势图像的下一待识别帧。手势识别装置也可以间隔一帧或多帧识别，即第二手势图像可以是第一手势图像之后间隔一帧或多帧的图像帧。

本公开实施例通过获取第一手势图像和第一手势图像的手部框；根据第一手势图像的手部框，从第一手势图像中得到手部图像；将手部图像输入训练完毕的关节点估计模型，根据关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度；根据第一手部关节点确定第一手势图像的手部手势；基于手部置信度大于第一置信度阈值，根据第一手部关节点计算第二手势图像的手部框，第二手势图像为第一手势图像的下一待识别帧，相较于现有技术，本公开实施例在手部置信度大于第一置信度阈值时，根据第一手部关节点计算第二手势图像的手部框，降低了手势识别的算力需求和功耗，提升了手势识别的效率。

在本申请实施例中，第一手势图像的手部框可以通过多种方式获取。例如，可以基于第三手势图像的手部置信度大于第一置信度阈值，或基于第三手势图像的手部置信度大于第一置信度阈值且不大于第二置信度阈值，其中，第二置信度阈值大于第一置信度阈值，根据第三手势图像的第一手部关节点计算得到第一手势图像的手部框，或者基于第三手势图像的手部置信度大于第二置信度阈值，将第三手势图像的手部框作为第一手势图像的手部框，其中，第三手势图像为第一手势图像的前一帧待识别图像。

在一种可能的实现方式中，基于第一手势图像为初始帧，或者基于第三手势图像的手部置信度小于或等于第一置信度阈值，可以通过经训练的手掌检测模型推理得到第一手势图像的手部框。

示例性的，对所述第一手势图像进行等比例缩放和/或填充处理，以匹配手掌检测模型格式要求；将处理后的所述第一手势图像输入手掌检测模型，得到至少一个手掌框和与所述手掌框一一对应的至少一个手掌框置信度；根据所述至少一个手掌框和所述至少一个手掌框置信度生成所述第一手势图像的手部框。

手势识别装置对第一手势图像进行等比例缩放和/或填充处理，具体可以是等比例缩小处理、等比例放大处理、填充处理中的任意一种、以及等比例缩小处理和填充处理或等比例放大处理和填充处理，使得处理后的第一手势图像匹配手掌检测模型格式要求；将处理后的第一手势图像输入手掌检测模型，得到至少一个手掌框和与手掌框一一对应的至少一个手掌框置信度；根据至少一个手掌框和至少一个手掌框置信度生成第一手势图像的手部框。

示例性的，本申请实施例中手掌检测模型可以包括：第一主干部分、颈部部分和第一头部部分；其中，第一主干部分用于提取手势图像的特征，例如颜色、纹理、形状、深度信息等，具体通过深度可分离卷积和点卷积，按照残差连接的方式融合后，和Relu激活数组成的基础模块堆积而成；颈部部分用于分层次提取手势图像的特征，如底层纹理、上层颜色等，并对上述特征进行融合，具体是在主干部分的基础上，使用目标检测（Feature PyramidNetwork，FPN）特征金子塔对手势图像的特征进行融合，得到融合后的特征信息，丰富手势图像的特征信息；第一头部部分用于将手势图像的特征转换为输出的结果，具体是将融合后的特征信息，输入１＊１卷积输出特征图，将特征图的调整为分辨率在前，通道数在后，根据每个特征点将推理结果拉平输出，即将特征图的点由多维拉成一维。

对手掌检测模型进行结构优化，将深度可分离卷积和点卷积合并，将深度可分离卷积的第零维和第一维互相调换位置后与点卷积进行卷积操作，得到合并后卷积；把残差连接合并时，把Identity换为1x1卷积，构造以单位矩阵为卷积核的1x1卷积，通过用常数“0”填充把1x1卷积等价转换为3x3卷积；将合并的卷积和残差连接变换的卷积，相加即可深度可分离卷积、点卷积和残差连接，合并为一个卷积核。即通过重参数化的方法，将基础模块中深度可分离卷积、点卷积和残差连接，合并为一个卷积核，优化后的手掌检测模型减少了手掌检测模型权重参数，减少了手掌检测模型内存访问次数，提升了手掌检测模型本身的性能。

示例性的，图2为本公开实施例提供的处理第一手势图像的示意图。如图2所示，以手势识别装置对第一手势图像进行等比例放大和填充处理为例，其中，A为第一手势图像，B为对第一手势图像进行等比例放大处理后的图像，C为对等比例放大处理后的图像进行填充后的图像。

在一种可能的实现方式中，可以优先将第一手势图像的高度缩放为手掌检测模型所需的图像高度，而第一手势图像的宽度则随高度等比例缩放。

例如，设手掌检测模型格式要求为wh，其中，w为手掌检测模型所需图像的宽度，h为手掌检测模型所需图像的高度，第一手势图像A大小为W/>H且W<H，其中，W为第一手势图像A的宽度，H为第一手势图像A的高度，对第一手势图像A进行等比例放大处理，得到等比例放大处理后的图像B大小为(W/>h/H)/>h，其中，(W/>h/H)为等比例放大处理后的图像B的宽度，h为等比例放大处理后的图像B的高度，根据[w-(W/>h/H)]/2，即通过预设方式对等比例放大处理后的图像B左右两边的边缘进行填充，其中，所填充的可以是常数“0”，也可以是白色、黑色或透明空间，得到填充后的图像C大小为w/>h，即填充后的图像C匹配手掌检测模型格式要求，且填充后的图像C不失真。

在另一种可能的实现方式中，可以优先将第一手势图像的宽度缩放为手掌检测模型所需的图像宽度，而第一手势图像的高度则随宽度等比例缩放。

例如，设手掌检测模型格式要求为wh，其中，w为手掌检测模型所需图像的宽度，h为手掌检测模型所需图像的高度，第一手势图像A大小为W/>H且W≧H，其中，W为第一手势图像A的宽度，H为第一手势图像A的高度，对第一手势图像A进行等比例放大处理，得到等比例放大处理后的图像B大小为w/>（H/>w/W），其中，（H/>w/W）为等比例放大处理后的图像B的高度，w为等比例放大处理后的图像B的宽度，根据[h-(H/>w/W)]/2，即通过预设方式对等比例放大处理后的图像B上下两边的边缘进行填充，其中，所填充的可以是常数“0”，也可以是白色、黑色或透明空间，得到填充后的图像C大小为w/>h，即填充后的图像C匹配手掌检测模型格式要求，且填充后的图像C不失真。

在本申请实施例中，第一手势图像的宽度和高度可以是预先设定的固定方向，并不限制宽度和高度之间的相对大小。

在另一种可能的实现方式中，也可以默认宽度为第一手势图像中的较短边，长度为第一手势图像中的较长边。或者，默认宽度为第一手势图像中的较长边，宽度为第一手势图像中的较短边。

示例性的，对所述第一手势图像进行等比例缩放和/或填充处理，包括：比较所述第一手势图像的高度和宽度，确定所述第一手势图像的较长边和较短边；根据所述较长边和所述手掌检测模型格式要求，通过线性差值算法对所述第一手势图像的较短边进行等比例缩放；对缩放后的第一手势图像进行填充处理。

具体地，手势识别装置比较第一手势图像的高度和宽度，确定第一手势图像的较长边和较短边，即当高度>宽度时，高度为较长边，宽度为较短边，当高度<宽度时，宽度为较长边，高度为较短边；根据较长边和手掌检测模型格式要求，通过线性差值算法对第一手势图像的较短边进行等比例缩放；对缩放后的第一手势图像进行填充处理。

示例性地，第一手势图像大小为WH，即宽度（W）和高度（H）；手掌检测模型所需图像大小为w/>h，即宽度（w）和高度（h）；比较第一手势图像的高度和宽度的大小，若高度大于宽度，即H>W，则resizeH=h，resizeW=W/>(h/H)，resizePad[0]=(w-resizeW)/2，其中，resizeH表示将第一手势图像的高度转换为手掌检测模型所需图像的高度，resizeW表示根据手掌检测模型所需图像和第一手势图像的高度比，对第一手势图像的宽度进行等比例缩放，resizePad[0]表示手掌检测模型所需图像宽度与resizeW的差值的一半；若高度小于或等于宽度，即H<=W时，resizeW=w，resizeH=H/>(w/W)，resizePad[1]=(h-resizeH)/2，其中，resizeW表示将第一手势图像的宽度转换为手掌检测模型所需图像的宽度，resizeH表示根据手掌检测模型所需图像和第一手势图像的宽度比，对第一手势图像的高度进行等比例缩放，resizePad[0]表示手掌检测模型所需图像高度与resizeH的差值的一半；跟据resizeH和resizeW，使用双线性差值算法，对第一手势图像进行等比例缩放；根据resizePad[0]或resizePad[1]，以预设方式对图像边缘进行填充，预设方式具体可以是常数“0”，也可以是白色、黑色或透明空间，从而得到手掌检测模型所需的图像大小，即匹配手掌检测模型格式要求。

本公开实施例通过具体描述第一手势图像和第一手势图像的手部框的由来，在保证图像不失真的情况下匹配手掌检测模型格式要求，提高了手势识别的精确度。

在一些实施例中，获取第一手势图像和所述第一手势图像的手部框，包括：在所述第一手势图像为初始帧，和/或，基于第三手势图像得到的手部置信度不大于所述第一置信度阈值的情况下，根据所述第一手势图像和训练完毕的手掌检测模型，得到所述第一手势图像的手部框。其中，第三手势图像为第一手势图像的前一待识别帧。

也就是说，在第一手势图像为初始帧或者第一手势图像的前一待识别帧的手部置信度较低的情况下，可以通过手掌检测模型得到第一手势图像的手部框。可以理解的是，在第一手势图像的前一待识别帧的手部置信度较高的情况下，则可以直接通过前一待识别帧的第一手部关节点或者手部框计算得到第一手势图像的手部框。

示例性地，当第一手势图像在标准位置时，直接将第一手势图像的手部框输入训练完毕的关节点估计模型，得到关节点估计模型输出结果，该关节点估计模型输出结果为第一手部关节点。

示例性地，当第一手势图像在非标准位置时，通过仿射变换矩阵对第一手势图像进行仿射变换，让第一手势图像变换到标准位置，再使用标准框对变换后的第一手势图像抠图，得到标准位置的手部图像，将标准位置的手部图像输入训练完毕的关节点估计模型，输出关节点估计模型输出结果，即输出处于标准位置的第二手部关节点，对该第二手部关节点进行逆仿射变换得到第一手部关节点。

在第一手势图像为初始帧，和/或，基于第三手势图像得到的手部置信度不大于第一置信度阈值的情况下，对第一手势图像进行等比例缩放和/或填充处理，以匹配手掌检测模型格式要求，将处理后的第一手势图像输入训练完毕的手掌检测模型，得到至少一个手掌框和与至少一个手掌框一一对应的至少一个手掌框置信度，根据至少一个手掌框和至少一个手掌框置信度生成第一手势图像的手部框。

可以理解的是，若当前图像帧为初始帧时，通过手掌检测模型得到当前图像帧的手部框；或若当前图像帧的前一待识别帧手部置信度不大于第一置信度阈值时，即当前图像帧的前一待识别帧手部置信度不高，通过手掌检测模型得到当前图像帧的手部框。

本公开实施例通过第一手势图像为初始帧，和/或，第三手势图像得到的手部置信度不大于第一置信度阈值时，根据第一手势图像和训练完毕的手掌检测模型，得到第一手势图像的手部框，保障了手部框检测的准确性，通过设计参数量少的手掌检测模型，得到所述第一手势图像的手部框，降低了手势识别的计算量，提升了手势追踪的准确性。

在一些实施例中，根据所述至少一个手掌框和所述至少一个手掌框置信度生成所述第一手势图像的手部框，包括：根据每个所述手掌框对应的置信度，通过非极大值抑制从所述至少一个手掌框中计算手掌旋转框；对所述手掌旋转框进行位置和尺寸修正，得到所述手部框。

非极大值抑制（Non-Maximum Suppression，NMS）抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域的“维度”和“大小”都是可变的参数。非极大值抑制的目的是找到局部极大值，并筛除（抑制）邻域内其余的值。

手势识别装置根据每个手掌框对应的置信度，通过非极大值抑制从至少一个手掌框中计算手掌旋转框；对手掌旋转框进行位置和尺寸修正，得到手部框。

可选地，所述手掌框包括手掌框中心坐标、手掌框宽度、手掌框高度、手掌框旋转角度中的至少一个。

可选地，根据每个所述手掌框对应的置信度，通过非极大值抑制从所述至少一个手掌框中计算手掌旋转框，包括：根据每个所述手掌框对应的置信度，对所述至少一个手掌框进行降序排列；确定置信度最高的手掌框为第一手掌框；分别计算所述第一手掌框与除所述第一手掌框之外的多个手掌框的交并比；确定所述交并比最小的手掌框和所述第一手掌框为目标手掌框；将所述目标手掌框映射到第一手势图像，得到手掌旋转框。

具体地，利用sigmod函数激活手掌框置信度handflags[1]，从而获取手掌框置信度，其中，sigmod函数是一个在生物学中常见的S型函数，也称为S型生长曲线，由于sigmod函数单增以及反函数单增等性质，常被用作神经网络的激活函数，将变量映射到0-1之间。根据每个手掌框对应的置信度，对至少一个手掌框进行降序排列，得到按照置信度从高到低的手掌框队列，将置信度最高的手掌框为第一手掌框，将该第一手掌框作为目标手掌框，分别计算该第一手掌框与除第一手掌框之外的多个手掌框的交并比IoU，其中，第一手掌框与除第一手掌框之外的手掌框的交并比IoU越大，则该第一手掌框与除第一手掌框之外的手掌框的重合度越高，将交并比IoU大于第一阈值的手掌框从至少一个手掌框中剔除，重复执行计算第一手掌框与除第一手掌框之外的多个手掌框的交并比，直到将至少一个手掌框全部计算完毕，确定交并比IoU最小的手掌框也为目标手掌框，即目标手掌框为第一手掌框和与第一手掌框交并比IoU最小的手掌框，每个目标手掌框都有对应的四个顶点，通过对多个目标手掌框进行等比例缩放和/或填充处理的逆变换，将每个目标手掌框对应的四个顶点分别映射到第一手势图像，得到与目标手掌框对应的手掌旋转框，也就是说，每个目标手掌框都有一一对应手掌旋转框，并分别对每个手掌旋转框执行手势识别的流程，后续将以任意一个手掌旋转框为例进行阐述。

其中，至少一个手掌框可以理解为手掌检测模型输出的所有手掌框，也可以理解为在手掌检测模型输出的手掌框中基于置信度剔除置信度低于第三置信度阈值的手掌框。

可选地，对所述手掌旋转框进行位置和尺寸修正，得到所述手部框，包括：根据手掌旋转框与手部框的预设比例，确定手部框的边长；根据手掌旋转框中心坐标和偏移量，计算手部框中心坐标，所述偏移量为所述手掌旋转框中心坐标和所述手部框中心坐标在每个维度上的差值；根据所述手部框中心坐标和所述手部框的边长，将所述手掌旋转框调整为手部框。

手掌旋转框与手部框的预设比例可以根据实际情况进行设定，示例性地，预设比例可以根据数据集中测试效果最好的值进行设定，目的包括通过手部框框到第二手势图像的手，即通过手部框框到第一手势图像下一待识别帧的手，本实施例中以预设比例为2.6为例进行阐述说明，将手掌旋转框变为手部框的四个顶点handPts[0]、handPts[1]、handPts[2]、handPts[3]，其中，手掌旋转框包括手掌旋转框中心坐标、手掌旋转框宽度、手掌旋转框高度、手掌旋转框的旋转角度θ1。根据手掌旋转框的位置信息box[0]、box[1]、box[2]、box[3]，计算手掌旋转框宽度palmWidth和手掌旋转框高度palmHeight、以及手掌旋转框中心坐标（palmCenterX，palmCenterY），公式如下：

palmWidth=box[2]-box[0]；

palmHeight=box[3]-box[1]；

palmCenterX=box[0]+palmWidth/2；

palmCenterY=box[1]+palmHeight/2；

其中，（box[0]，box[1]）表示手掌旋转框的右上顶点，（box[2]，box[3]）表示手掌旋转框的左下顶点，palmWidth表示手掌旋转框中心坐标宽度，palmHeight表示手掌旋转框中心坐标高度，palmCenterX表示手掌旋转框中心横坐标，palmCenterY表示手掌旋转框中心纵坐标。

图6为本公开实施例提供的手掌旋转框调整为手部框的示意图，如图6所示，根据手掌旋转框与手部框的预设比例，选取手掌旋转框的最长边，根据最长边的大小和预设比例确定手部框的边长，具体地，手部框的边长=手掌旋转框的最长边预设比例，当预设比例为2.6时，手部框的边长的计算公式如下：

longside=max(palmWidth,palmHeight)；

handWidth=longside2.6；

handHeight=longside2.6；

根据手掌旋转框中心坐标、手掌旋转框的旋转角度和偏移量，计算手部框中心坐标，其中，偏移量为当手掌旋转框和手部框在标准位置时，手掌旋转框中心坐标和手部框中心坐标在每个维度上的差值，如X维度上的差值shiftX和Y维度上的差值shiftY。但是在实际操作过程中，手掌旋转框和手部框可能不在标准位置，则可以根据手掌旋转框宽度palmWidth、手掌旋转框高度palmHeight、手掌旋转框的旋转角度θ1，通过空间坐标变换关系的基本原理来计算手部框相对于手掌旋转框在X方向偏移量、Y方向偏移量。

示例性地，如图7所示，手掌旋转框中心为C（palmCenterX，palmCenterY），偏移量为shiftX和shiftY，手掌旋转框的旋转角度为θ1，则可以根据手掌旋转框中心坐标（palmCenterX，palmCenterY）、手掌旋转框的旋转角度θ1、以及偏移量shiftX、shiftY，计算X方向偏移量dX、Y方向偏移量dY、以及手部框中心坐标（handCenterX，handCenterY），具体的计算公式如下：

X方向偏移量：

dX=palmWidthshiftX/>cosθ1-palmHeight/>shiftY/>sinθ1；

Y方向偏移量：

dY=palmWidthshiftX/>sinθ1+palmHeight/>shiftY/>cosθ1；

手部框中心坐标：

handCenterX=palmCenterX+dX；

handCenterY=palmCenterY+dY；

示例性地，当偏移量shiftX=0，shiftY=-0.5时，即当手掌旋转框和手部框都在标准位置时，将手掌旋转框转换为手部框时，dX=-0.5palmHeight/>sinθ1，dY=-0.5/>palmHeight/>cosθ1。

根据手部框中心坐标和手部框的边长，计算手部框的四个顶点handPts[0]、handPts[1]、handPts[2]、handPts[3]，进而将手掌旋转框调整为手部框。

本公开实施例通过具体描述了如何生成第一手势图像的手部框，通过设计较少参数量的手掌检测模型，检测第一手势图像中近似刚体的手掌，降低了手掌检测的难度，降低了手势识别的功耗，提升了手势识别的效率，进而提升了手势识别方法的灵活性和准确性。

在上述实施例的基础上，即通过第一手势图像的手部框从第一手势图像中得到手部图像，将手部图像输入训练完毕的关节点估计模型，根据关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度，当手部置信度大于第一置信度阈值时，可以执行第一手部关节点的追踪流程，即根据第一手部关节点计算第二手势图像的手部框，图8为本公开实施例提供的第二手势图像手部框的计算方法流程图，如图8所示，该方法包括如下几个步骤：

S801、确定所述第一手部关节点的目标手部关节点。

选取基于第一手势图像得到的手部图像handImg中的第一手部关节点0（即handLandmarks[0]）和第一手部关节点5（即handLandmarks[5]）作为目标手部关节点。

S802、根据所述目标手部关节点计算第二手势图像的手部框的旋转角度。

以手部为一个平面，第一手部关节点0（即handLandmarks[0]）所在的水平向右方向是0度来计算，平面内角度为360度，以宽度方向为X轴，高度方向为Y轴，根据第一手部关节点0（即handLandmarks[0]）和第一手部关节点5（即handLandmarks[5]）计算第二手势图像的手部框的旋转角度θ２。

S803、根据第一手势图像的第二手部关节点的坐标，筛选第二手部关节点在每个维度上的坐标最大值和坐标最小值。

根据第一手势图像的第二手部关节点的坐标，即根据21个第二手部关节点，筛选21个第二手部关节点在每个维度上的坐标最大值和坐标最小值，即筛选21个第二手部关节点在横向维度上的坐标最大值maxLandmark.x和坐标最小值minLandmark.x，筛选21个第二手部关节点在纵向维度上的坐标最大值maxLandmark.y和坐标最小值minLandmark.y。具体地，每个第二手部关节点都有一个横坐标x值和纵坐标y值，第一手势图像有21个第二手部关节点，那么21个第二手部关节点在横向维度上有21个横坐标x值，在纵向维度上有21个纵坐标y值，在21个横坐标x值中确定最大值和最小值，进而筛选出第二手部关节点在横向维度上的坐标最大值maxLandmark.x和坐标最小值minLandmark.x，在21个纵坐标y值中确定最大值和最小值，进而筛选出第二手部关节点在纵向维度上的坐标最大值maxLandmark.y和坐标最小值minLandmark.y。

S804、根据所述第二手部关节点在每个维度上的坐标最大值和坐标最小值，计算第二手势图像的手部框的中心坐标、第二手势图像的手部框的宽度和第二手势图像的手部框的高度。

根据上述横坐标最大值maxLandmark.x、横坐标最小值minLandmark.x、纵坐标最大值maxLandmark.y和纵坐标最小值minLandmark.y，计算第二手势图像的手部框的中心坐标（center.x，center.y）、第二手势图像的手部框的宽度handWidth2和第二手势图像的手部框的高度handHeight2。具体地计算公式如下：

center.x=(maxLandmark.x+minLandmark.x)/2；

center.y=(maxLandmark.y+minLandmark.y)/2；

handWidth2=maxLandmark.x-minLandmark.x；

handHeight2=maxLandmark.y-minLandmark.y。

S805、根据所述第二手势图像的手部框的旋转角度、所述第二手势图像的手部框的中心坐标、所述第二手势图像的手部框的宽度和所述第二手势图像的手部框的高度，计算第二手势图像的手部框。

根据第二手势图像的手部框的旋转角度、第二手势图像的手部框的中心坐标、第二手势图像的手部框的宽度和第二手势图像的手部框的高度，计算第二手势图像的手部框。

示例性地，第二手势图像的手部框的旋转角度为θ２度，第二手势图像的手部框的中心坐标为（center.x，center.y），第二手势图像的手部框的宽度为handWidth2，第二手势图像的手部框的高度为handHeight2，则根据第二手势图像的手部框的中心坐标，向水平方向左右分别延伸handWidth2的一半，得到（center.x-handWidth2/2，center.y）和（center.x+handWidth2/2，center.y）两个点；向竖直方向上下分别延伸handHeight2的一半，得到（center.x，center.y-handHeight2/2）和（center.x，center.y+handHeight2/2）两个点；进而根据这四个点的坐标确定第二手势图像的手部框逆向旋转θ２度的四个顶点，即确定第二手势图像的手部框的大小，其中，第二手势图像的手部框逆向旋转的四个顶点的坐标分别为：

（center.x-handWidth2/2，center.y-handHeight2/2）

（center.x+handWidth2/2，center.y-handHeight2/2）

（center.x+handWidth2/2，center.y+handHeight2/2）

（center.x-handWidth2/2，center.y+handHeight2/2）

将上述逆向旋转θ２度的第二手势图像的手部框正向旋转θ２度，得到第二手势图像的手部框。

本公开实施例通过根据第一手部关节点计算第二手势图像的手部框，避免现有技术中获取每帧图像进行识别手势，提高了手势识别的效率。

图9为本公开实施例提供的手势识别装置的结构示意图。该手势识别装置可以是如上实施例所述的终端，或者该手势识别装置可以该终端中的部件或组件。本公开实施例提供的手势识别装置可以执行手势识别方法实施例提供的处理流程，如图9所示，手势识别装置90包括：获取模块91、得到模块92、输出模块93、确定模块94和计算模块95；

其中，获取模块91，用于获取第一手势图像和所述第一手势图像的手部框；

得到模块92，用于根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像；

输出模块93，用于将所述手部图像输入训练完毕的关节点估计模型，根据所述关节点估计模型输出结果得到手部图像的第一手部关节点和手部置信度；

确定模块94，用于根据所述第一手部关节点确定所述第一手势图像的手部手势；

计算模块95，用于基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，所述第二手势图像为所述第一手势图像的下一待识别帧。

可选地，计算模块95，还用于基于所述手部置信度大于第一置信度阈值且不大于第二置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，其中，所述第二置信度阈值大于所述第一置信度阈值。

可选地，计算模块95，还用于基于所述手部置信度大于第二置信度阈值，将所述第一手势图像的手部框作为所述第二手势图像的手部框。

可选地，获取模块91，还用于在所述第一手势图像为初始帧，和/或，基于第三手势图像得到的手部置信度不大于所述第一置信度阈值的情况下，根据所述第一手势图像和训练完毕的手掌检测模型，得到所述第一手势图像的手部框，所述第三手势图像为所述第一手势图像的前一待识别帧。

可选地，获取模块91，还用于对所述第一手势图像进行等比例缩放和/或填充处理，以匹配手掌检测模型格式要求；将处理后的所述第一手势图像输入手掌检测模型，得到至少一个手掌框和与所述手掌框一一对应的至少一个手掌框置信度；根据所述至少一个手掌框和所述至少一个手掌框置信度生成所述第一手势图像的手部框。

可选地，获取模块91，还用于比较所述第一手势图像的高度和宽度，确定所述第一手势图像的较长边和较短边；根据所述较长边和所述手掌检测模型格式要求，通过线性差值算法对所述第一手势图像的较短边进行等比例缩放；对缩放后的第一手势图像进行填充处理。

可选地，获取模块91，还用于根据每个所述手掌框对应的置信度，通过非极大值抑制从所述至少一个手掌框中计算手掌旋转框；对所述手掌旋转框进行位置和尺寸修正，得到所述手部框。

可选地，获取模块91，还用于根据每个所述手掌框对应的置信度，对所述至少一个手掌框进行降序排列；确定置信度最高的手掌框为第一手掌框；分别计算所述第一手掌框与除所述第一手掌框之外的多个手掌框的交并比；确定所述交并比最小的手掌框和所述第一手掌框为目标手掌框；将所述目标手掌框映射到第一手势图像，得到手掌旋转框。

可选地，获取模块91，还用于根据手掌旋转框与手部框的预设比例，确定手部框的边长；根据手掌旋转框中心坐标和偏移量，计算手部框中心坐标，所述偏移量为所述手掌旋转框中心坐标和所述手部框中心坐标在每个维度上的差值；根据所述手部框中心坐标和所述手部框的边长，将所述手掌旋转框调整为手部框。

可选地，得到模块92，还用于计算所述手部框和预先设定的标准框的仿射变换矩阵，通过所述仿射变换矩阵对第一手势图像进行仿射变换，变换后的第一手势图像；使用所述标准框对所述变换后的第一手势图像抠图，得到手部图像。

可选地，得到模块92，还用于根据所述手部框的第一顶点坐标和所述标准框的第二顶点坐标，计算所述手部框和所述标准框的仿射变换矩阵。

可选地，确定模块94，还用于对所述手部框和标准框的仿射变换矩阵进行逆变换，得到所述手部框和所述标准框逆仿射变换矩阵；通过所述逆仿射变换矩阵对所述第一手部关节点进行逆仿射变换，计算第一手势图像的第二手部关节点；根据所述第一手势图像的第二手部关节点，确定第一手势图像的手部手势。

可选地，计算模块95，还用于确定所述第一手部关节点的目标手部关节点；根据所述目标手部关节点计算第二手势图像的手部框的旋转角度；根据第一手势图像的第二手部关节点的坐标，筛选第二手部关节点在每个维度上的坐标最大值和坐标最小值；根据所述第二手部关节点在每个维度上的坐标最大值和坐标最小值，计算第二手势图像的手部框的中心坐标、第二手势图像的手部框的宽度和第二手势图像的手部框的高度；根据所述第二手势图像的手部框的旋转角度、所述第二手势图像的手部框的中心坐标、所述第二手势图像的手部框的宽度和所述第二手势图像的手部框的高度，计算第二手势图像的手部框。

图9所示实施例的手势识别装置可用于执行上述手势识别方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图10为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的终端。本公开实施例提供的电子设备可以执行手势识别方法实施例提供的处理流程，如图10所示，电子设备100包括：存储器101、处理器102、计算机程序和通讯接口103；其中，计算机程序存储在存储器101中，并被配置为由处理器102执行如上所述的手势识别方法。

另外，本公开实施例还提供一种非易失性的计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的手势识别方法。

此外，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的手势识别方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

获取第一手势图像和所述第一手势图像的手部框；

另外，该电子设备还可以执行如上所述的手势识别方法中的其他步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

获取第一手势图像和所述第一手势图像的手部框；

2.根据权利要求1所述的方法，其特征在于，基于所述手部置信度大于第一置信度阈值，根据所述第一手部关节点计算第二手势图像的手部框，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，获取第一手势图像和所述第一手势图像的手部框，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述第一手势图像和训练完毕的手掌检测模型，得到所述第一手势图像的手部框，包括：

6.根据权利要求5所述的方法，其特征在于，对所述第一手势图像进行等比例缩放和/或填充处理，包括：

对缩放后的第一手势图像进行填充处理。

7.根据权利要求5所述的方法，其特征在于，根据所述至少一个手掌框和所述至少一个手掌框置信度生成所述第一手势图像的手部框，包括：

对所述手掌旋转框进行位置和尺寸修正，得到所述手部框。

8.根据权利要求7所述的方法，其特征在于，所述手掌框包括手掌框中心坐标、手掌框宽度、手掌框高度、手掌框旋转角度中的至少一个。

9.根据权利要求7所述的方法，其特征在于，根据每个所述手掌框对应的置信度，通过非极大值抑制从所述至少一个手掌框中计算手掌旋转框，包括：

确定置信度最高的手掌框为第一手掌框；

将所述目标手掌框映射到第一手势图像，得到手掌旋转框。

10.根据权利要求7所述的方法，其特征在于，对所述手掌旋转框进行位置和尺寸修正，得到所述手部框，包括：

根据手掌旋转框与手部框的预设比例，确定手部框的边长；

11.根据权利要求1所述的方法，其特征在于，根据所述第一手势图像的手部框，从所述第一手势图像中得到手部图像，包括：

12.根据权利要求11所述的方法，其特征在于，计算所述手部框和所述标准框的仿射变换矩阵，包括：

13.根据权利要求11所述的方法，其特征在于，根据所述第一手部关节点确定所述第一手势图像的手部手势，包括：

14.根据权利要求1所述的方法，其特征在于，根据所述第一手部关节点计算第二手势图像的手部框，包括：

确定所述第一手部关节点的目标手部关节点；

15.一种手势识别装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-14中任一项所述的方法。

17.一种非易失性的计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-14中任一项所述的方法。