CN117275086A

CN117275086A - 手势识别方法、装置、计算机设备、存储介质

Info

Publication number: CN117275086A
Application number: CN202311095654.2A
Authority: CN
Inventors: 王豪庆
Original assignee: Fengmi Beijing Technology Co ltd
Current assignee: Fengmi Beijing Technology Co ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-22

Abstract

本申请涉及一种手势识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待识别图像；基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图；基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框；识别所述候选锚框中的手势特征，得到所述待识别图像的手势识别结果。采用本方法能够提高手势识别结果的准确性。

Description

手势识别方法、装置、计算机设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种手势识别方法、装置、计算机设备、存储介质。

背景技术

随着科技的发展，越来越多的智能终端逐渐走进用户的生活，例如，机顶盒、电视机、电脑、手机、投影仪等。手势识别技术已经普遍应用于各种智能终端中，通过手势能够对智能终端进行控制完成相应的功能操作，可以实现智能终端更为灵活的操作过程，能够有效提升操作过程的简便性。传统的手势识别方法中，进行手势识别时，手势识别结果准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高手势识别结果的准确性的手势识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种手势识别方法。所述方法包括：

获取待识别图像；

基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图；

基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框；

识别所述候选锚框中的手势特征，得到所述待识别图像的手势识别结果。

在其中一个实施例中，所述基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图，包括：

基于特征提取网络对所述待识别图像进行特征提取，得到初始特征图；

对所述初始特征图进行全局平均池化，得到所述初始特征图对应的全局特征向量；

基于全连接层对所述全局特征向量进行处理，得到所述初始特征图中各个通道对应的权重值；

根据所述权重值和所述初始特征图，得到所述目标特征图。

在其中一个实施例中，所述基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，包括：

获取所述目标锚框对对应尺度的目标特征图进行预测所得的评分；

将所述评分最高的目标锚框作为当次识别的候选锚框。

在其中一个实施例中，所述方法还包括：

将所述评分最高的目标锚框作为第一目标锚框，依次计算所述第一目标锚框与每个第二目标锚框之间的交并比；所述第二目标锚框为除第一目标锚框之外的其他目标锚框；

根据所述交并比，确定所述第二目标锚框的下一次评分。

在其中一个实施例中，所述根据所述交并比，确定所述第二目标锚框的下一次评分，包括：

若所述交并比小于预设比值，将所述交并比对应的第二目标锚框的评分作为所述第二目标锚框的下一次评分；

若所述交并比不小于预设比值，通过所述交并比对应的第二目标锚框的评分确定所述第二目标锚框的下一次评分；所述第二目标锚框的下一次评分与所述第二目标锚框的评分线性相关。

在其中一个实施例中，所述方法还包括：

在所述目标锚框的最高评分高于预设评分的情况下，将所述评分最高的目标锚框作为当次识别的候选锚框。

在其中一个实施例中，所述目标锚框的确定方式，包括：

获取预设锚框和标注框；

根据所述标注框确定所述预设锚框的召回率；

在所述召回率高于召回率阈值的情况下，将所述预设锚框作为备用锚框；

根据标注框对所述备用锚框进行训练；

若满足训练收敛条件，获取所述备用锚框与所述标注框之间的偏移量；

根据所述备用锚框和所述偏移量，确定所述目标锚框。

第二方面，本申请还提供了一种手势识别装置。所述装置包括：

图像获取模块，用于获取待识别图像；

特征提取模块，用于基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图；

锚框确定模块，用于基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框；

特征识别模块，用于识别所述候选锚框中的手势特征，得到所述待识别图像的手势识别结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别图像；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别图像；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待识别图像；

上述手势识别方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待识别图像，基于特征提取网络对待识别图像进行特征提取，得到目标特征图，基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，识别候选锚框中的手势特征，得到待识别图像的手势识别结果。本申请基于目标锚框对对应尺度的目标特征图进行预测所得的评分确定候选锚框，从而识别候选锚框中的手势特征，可以得到更加准确的待识别图像的手势识别结果，提高手势识别结果的准确性。

附图说明

图1为一个实施例中手势识别方法的应用环境图；

图2为一个实施例中手势识别方法的流程示意图；

图3为一个实施例中步骤204的流程示意图；

图4为一个实施例中目标锚框的确定流程示意图；

图5为一个实施例中YOLOv5网络模型的模型结构图；

图6为一个实施例中特征提取网络结构示意图；

图7为另一个实施例中特征提取网络结构示意图；

图8为一个实施例中手势识别装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的手势识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104接收到终端102发送的待识别图像，基于特征提取网络对待识别图像进行特征提取，得到目标特征图，基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，识别候选锚框中的手势特征，得到待识别图像的手势识别结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供的手势识别方法，不局限于应用在上述终端与服务器交互的应用场景中，也可以单独应用于终端或者服务器。

在一个实施例中，如图2所示，提供了一种手势识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤202至步骤208。

步骤202，获取待识别图像。

服务器可以获取电子设备发送的待识别图像，或者是服务器通过摄像头拍摄得到的待识别图像。其中，待识别图像中包括手势特征，手势特征可以是一种或多种。例如，一张待识别图像中包括两种手势对应的手势特征。在一个实际应用场景中，电子设备通过摄像头拍摄待识别图像，将待识别图像发送至服务器，服务器获取待识别图像。

步骤204，基于特征提取网络对待识别图像进行特征提取，得到目标特征图。

服务器基于特征提取网络对待识别图像进行特征提取，得到目标特征图。其中，特征提取网络可以是特征提取算法，也可以是基于机器学习的特征提取模型，例如，可以是YOLOv5网络模型中的Backbone层和Neck层，特征提取网络可以包括卷积(conv)网络。本实施例中，服务器基于特征提取网络对待识别图像中的手势特征进行特征提取，得到目标特征图。

可选地，服务器基于特征提取网络对待识别图像进行特征提取，得到对应多尺度特征图，例如，通过YOLOv5网络模型对待识别图像进行特征提取，对应得到三种尺度或者四种尺度的目标特征图，假设待识别图像为640*640像素，对待识别图像进行特征提取，得到对应20*20像素、40*40像素、80*80像素三种尺度的特征图，进一步地，可以将80*80像素的特征图进行上采样得到160*160像素的特征图，即对应得到20*20像素、40*40像素、80*80像素、160*160像素四种尺度的特征图。

步骤206，基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框。

服务器基于预设数量的目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框。其中，目标锚框可以是初始设定的预设锚框，也可以是根据标注框对预设锚框进行召回率计算，在召回率高于召回率阈值的情况下对应的预设锚框。目标锚框的数量可以根据需要进行设置，不同尺度的目标锚框对应不同尺度的目标特征图，同一尺度的目标锚框对应同一尺度的目标特征图，相对地，小尺度的目标锚框对应大尺度的目标特征图，用于检测较小目标，大尺度的目标锚框对应小尺度的目标特征图，用于检测较大目标。例如，目标锚框的数量为12个，包括四类尺寸，每类尺寸有3个，比如第一类尺寸为[5,6]、[8,14]、[15,11]，第二类尺寸为[10,13]、[16,30]、[33,23]，第三类尺寸为[30,61]、[62,45]、[59,119]，第四类尺寸为[116,90]、[156,198]、[373,326]，其中，[x,y]中的数值x和y分别用于表征目标锚框的长和宽，例如[5,6]表征该目标锚框的长为5像素，宽为6像素。目标特征图的四种尺度为20*20像素、40*40像素、80*80像素、160*160像素，那么，第一类尺寸的目标锚框分布在160*160像素尺度的目标特征图上进行特征预测，第二类尺寸的目标锚框分布在80*80像素尺度的目标特征图上进行特征预测，第三类尺寸的目标锚框分布在40*40像素尺度的目标特征图上进行特征预测，第四类尺寸的目标锚框分布在20*20像素尺度的目标特征图上进行特征预测。

可以理解地，在基于目标锚框对目标特征图中的手势特征进行预测所得的评分，可以通过目标锚框对目标特征图中的手势特征进行预测的置信度进行表征。本实施例中，可以根据所有目标锚框的特征预测评分，确定候选锚框。

可选地，可以将评分最高的目标锚框，作为当次识别的候选锚框。

步骤208，识别候选锚框中的手势特征，得到待识别图像的手势识别结果。

服务器识别候选锚框中的手势特征，得到待识别图像的手势识别结果。可以理解地，通过识别候选锚框中的手势特征，从而减少识别范围，可以提高识别手势特征的几率与识别效率。可选地，识别候选锚框中的手势特征，得到手势信息，对手势信息的类别进行识别，再对对应类别的手势信息进行回归，得到手势信息的位置和尺寸，得到对应的手势识别结果。手势识别结果可以包括手势类型和手势名称，还可以包括手势位置、手势尺寸等信息。

上述手势识别方法中，通过获取待识别图像，基于特征提取网络对待识别图像进行特征提取，得到目标特征图，基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，识别候选锚框中的手势特征，得到待识别图像的手势识别结果。基于目标锚框对对应尺度的目标特征图进行预测所得的评分确定候选锚框，从而识别候选锚框中的手势特征，可以得到更加准确的待识别图像的手势识别结果，提高手势识别结果的准确性。

在一个实施例中，如图3所示，基于特征提取网络对待识别图像进行特征提取，得到目标特征图的步骤204，包括以下步骤302至步骤308。

步骤302，基于特征提取网络对待识别图像进行特征提取，得到初始特征图。

基于特征提取网络对待识别图像进行特征提取，得到多尺度的初始特征图，可以理解为，初始特征图是通过特征提取网络直接提取得到的，并没有在所提取得到的特征图的基础上进行任何处理的。

步骤304，对初始特征图进行全局平均池化，得到初始特征图对应的全局特征向量。

本实施例中，对初始特征图进行全局平均池化处理，得到初始特征图对应的全局特征向量。例如，通过全局平均池化处理，将每个通道的二维特征(宽和高)压缩为一个实数，将初始特征图[H,W,C]变成[H,W,1]，得到初始特征图对应的全局特征向量。

步骤306，基于全连接层对全局特征向量进行处理，得到初始特征图中各个通道对应的权重值。

基于全连接层对全局特征向量进行处理，得到初始特征图中各个通道对应的权重值。可选地，可以通过多个全连接层对全局特征向量进行处理，例如两个全连接层，通过两个全连接层构建全局特征向量各通道间的相关性，确定初始特征图中各个通道对应的权重值，可以对得到的权重值进行归一化处理，得到0和1之间的权重值。

步骤308，根据权重值和初始特征图，得到目标特征图。

服务器可以根权重值和初始特征图，得到目标特征图。可选地，可以根据权重值和初始特征图的乘积，得到目标特征图，具体地，可以将各个通道对应的权重值乘以初始特征图中对应通道特征，得到目标特征图。

上述实施例中，基于特征提取网络对待识别图像进行特征提取，得到初始特征图，对初始特征图进行全局平均池化，得到初始特征图对应的全局特征向量，基于全连接层对全局特征向量进行处理，得到初始特征图中各个通道对应的权重值，根据权重值和初始特征图，得到目标特征图。通过将各个通道的权重值增加到对应通道上，使得权重值更大的通道特征会更明显，而权重值更小对应的通道特征会被弱化，从而突显重要通道的特征，使得目标特征图中的手势特征会更加明显，从而更容易被识别出来，提高手势识别结果的准确性。

在一些实施例中，基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，包括：获取目标锚框对对应尺度的目标特征图进行预测所得的评分，将评分最高的目标锚框作为当次识别的候选锚框。

本实施例中，通过目标锚框对目标特征图进行手势特征预测，每个目标锚框会得到对应的预测评分，预测评分表征预测的准确度，预测评分越高，表征预测的准确度越高，预测的评分越低，表征预测的准确度越低，选取评分最高的目标锚框作为当次识别的候选锚框，可以提高手势识别结果的准确性。

可以理解地，可以基于候选锚框对目标特征图中的手势特征进行多次识别，得到多次识别的手势识别结果，从而提高手势识别结果的准确性。可选地，多次识别的手势结果可以是同一类别的手势，也可以是不同类别的手势，每次识别一种类别的手势。

在一些实施例中，上述手势识别方法还包括：将评分最高的目标锚框作为第一目标锚框，依次计算第一目标锚框与每个第二目标锚框之间的交并比，其中，第二目标锚框为除第一目标锚框之外的其他目标锚框；根据交并比，确定第二目标锚框的下一次评分。

本实施例中，将评分最高的目标锚框作为当次识别的候选锚框，同时，可以将评分最高的目标锚框作为第一目标锚框，依次计算第一目标锚框与每个第二目标锚框之间的交并比，其中，第二目标锚框为除第一目标锚框之外的其他目标锚框，交并比是指将两个区域重叠的部分除以两个区域的集合部分的结果，是测量在特定数据集检测相应物体准确度的一个标准，本实施例中的交并比可以是指第一目标锚框和第二目标锚框的重叠面积与第一目标锚框和第二目标锚框的并集之间的比值。进而，根据交并比，可以确定对应第二目标锚框的下一次评分，针对每个交并比，可以确定该交并比对应的第二目标锚框的下一次评分。可以理解地，评分最高的第一目标锚框作为当次识别的候选锚框，不参与到下一次的识别中。

可选地，可以根据交并比与预设比值之间的大小关系，确定第二目标锚框的下一次评分。例如，若交并比小于预设比值，则将对应第二目标锚框的当次评分作为该第二目标锚框的下一次评分；若交并比不小于预设比值，则将对应第二目标锚框的下一次评分置零。

上述实施例中，通过根据评分最高的目标锚框与其他目标锚框之间的交并比，确定其他目标锚框的下一次评分，也就是根据当次识别中评分最高的目标锚框与其他目标锚框之间的位置大小关系，确定其他目标锚框的下一次评分，可以得到其他目标锚框在下一次识别中的更准确的评分。

在一些实施例中，根据交并比，确定第二目标锚框的下一次评分，包括：

若交并比小于预设比值，将交并比对应的第二目标锚框的当次评分作为第二目标锚框的下一次评分；若交并比不小于预设比值，通过交并比对应的第二目标锚框的当次评分确定第二目标锚框的下一次评分；其中，第二目标锚框的下一次评分与第二目标锚框的当次评分线性相关。

本实施例中，可以根据交并比和第二目标锚框的当次评分，确定第二目标锚框的下一次评分。若交并比小于预设比值，将交并比对应的第二目标锚框的当次评分作为第二目标锚框的下一次评分；若交并比不小于预设比值，通过交并比对应的第二目标锚框的当次评分确定第二目标锚框的下一次评分，其中，第二目标锚框的下一次评分与第二目标锚框的当次评分线性相关，例如，第二目标锚框的下一次评分是以第二目标锚框的当次评分为自变量的函数值。

可选地，若交并比不小于预设比值，则可以计算第二目标锚框的当次评分与对应交并比的乘积，将该第二目标锚框的当次评分与该乘积的差值，作为该第二目标锚框的下一次评分。

在一个示例中，第二目标锚框的下一次评分的计算方式详见下述公式(1)，

公式(1)中，s_i+1表示第二目标锚框的下一次评分，s_i表示第二目标锚框的当次评分，iou(M,b_i)表示第二目标锚框b_i与第一目标锚框M之间的交并比，N_t表示预设比值。

上述实施例中，根据交并比与预设比值之间的大小关系，确定交并比对应的第二目标锚框的下一次评分，若交并比小于预设比值，将交并比对应的第二目标锚框的当次评分作为第二目标锚框的下一次评分；若交并比不小于预设比值，通过交并比对应的第二目标锚框的当次评分确定第二目标锚框的下一次评分，第二目标锚框的下一次评分与当次评分呈线性相关，可以依次过滤掉与评分最高的第一目标锚框交集较大的第二目标锚框，防止不同次确定的候选锚框为同一目标锚框，依次确定各第二目标锚框的下一次评分，从而可以确定更加准确的候选锚框。

在一个实施例中，上述方法还包括：在目标锚框的最高评分高于预设评分的情况下，将评分最高的目标锚框作为当次识别的候选锚框。

本实施例中，在目标锚框的最高评分高于预设评分的情况下，将评分最高的目标锚框作为当次识别的候选锚框。可选地，在目标锚框的最高评分不高于预设评分的情况下，结束手势特征的识别流程。

在一个示例中，获取目标锚框对对应尺度的目标特征图进行预测所得的评分，若所有目标锚框中A锚框对应的评分最高，那么将A锚框的评分与预设评分进行比较，若A锚框的评分高于预设评分，则将评分最高的A锚框作为当次识别的候选锚框；在进行下一个候选锚框的筛选时，同样地，获取当前目标锚框对应的评分，若所有目标锚框中B锚框的评分最高，则在B锚框的评分高于预设评分的情况下，将B锚框作为当次识别的候选锚框。

上述实施例中，只有在目标锚框的最高评分高于预设评分的情况下，才将评分最高的目标锚框作为当次识别的候选锚框，确保候选锚框中的特征更接近手势特征，从而进一步提高手势识别结果的准确性。

在一个实施例中，如图4所示，目标锚框的确定方式，包括以下步骤402至步骤412。

步骤402，获取预设锚框和标注框。

获取预设数量的预设锚框和所有标注图像中的标注框，其中，预设锚框的尺寸可以根据经验进行设定，位置可以随机分布，预设数量可以根据实际应用场景进行设置，例如预设数量为9，预设锚框包括3种类型，即3种尺寸，对应检测三种尺度的手势特征图中的手势特征。标注框为标注图像中标注手势特征的框，其中，标注框可以人工进行标注得到，或者通过标注工具进行自动标注得到。获取标注框，包括获取标注框在目标手势图像中的位置以及标注框的尺寸。

步骤404，根据标注框确定预设锚框的召回率。

本实施例中，通过标注框确定预设锚框的召回率，可以根据标注框的长和宽分别与预设锚框的长和宽对应的比值，确定预设锚框的召回率。

在一个示例中，假设有n个标注框，9个预设锚框，通过n个标注框确定9个预设锚框的召回率。计算n个标注框的长和宽分别与每个预设锚框的长和宽的比值，得到n*9组长和宽的比值，从每组比值中确定最小比值，再从每个预设锚框对应的最小比值中确定最大比值，得到n个最大比值，从n个最大比值中确定大于比值阈值的比值数量，将大于比值阈值的比值数量与n的比值，作为9个预设锚框的召回率。其中，比值阈值可以根据实际应用场景进行设定，比值阈值用于表征预设锚框与标定框相匹配的最小匹配度。本示例的计算过程可以参见下述公式(2)至公式(3)所展示的内容。

步骤406，在召回率高于召回率阈值的情况下，将预设锚框作为备用锚框。

在召回率高于召回率阈值的情况下，将预设锚框作为备用锚框，其中，备用锚框是用于供目标识别模型识别手势特征的框。可选地，在召回率不高于预设召回率的情况下，可通过遗传算法和Kmeans算法计算备用锚框。

步骤408，根据标注框对备用锚框进行训练。

步骤410，若满足训练收敛条件，获取备用锚框与标注框之间的偏移量。

步骤412，根据备用锚框和偏移量，确定目标锚框。

通过标注框对备用锚框进行训练，使得备用锚框进一步学习标注框的特征，在满足训练收敛条件的情况下，得到备用锚框与标注框之间的偏移量，其中，偏移量用于表征备用锚框偏离标注框的程度，根据备用锚框和偏移量，可以确定目标锚框。可选地，可以将备用锚框与偏移量的乘积，作为目标锚框。

上述实施例中，根据标注框确定预设锚框的召回率，根据预设锚框的召回率与召回率阈值之间的关系，确定预设锚框是否作为备用锚框，在召回率高于预设召回率的情况下，将预设锚框作为备用锚框，并根据标注框对备用锚框进行训练，在满足训练收敛条件的情况下，获取备用锚框与标注框之间的偏移量，根据备用锚框和偏移量确定目标锚框，可以确定较准确的目标锚框，提高候选锚框的准确性，从而提高手势识别的准确性。

在一个实施例中，提供一种手势识别模型，用于实现上述手势识别方法。其中，手势识别模型例如可以是YOLOv5网络模型，或者是基于YOLOv5网络模型进行训练改进后的模型。YOLOv5网络模型的模型结构如图5所示。其中，YOLOv5网络模型主要划分为四个模块：(1)输入端：输入端用于接收目标手势图像，目标手势图像的大小统一为608*608像素。(2)Backbone：YOLOv5中使用了CSP Darknet53结构和Focus结构作为Backbone。CSP Darknet53是由CSP和Darknet53组成。推理计算量过高的问题是由于网络优化中的梯度信息重复导致的，因此采用CSP模块先将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，在减少了计算量的同时可以保证准确率。Darknet53是一个卷积神经网络，主要用于提取输入图像中丰富的特性信息。Focus的作用是使图片在下采样中，不带来信息丢失的情况下，将W、H的信息集中到通道上，再使用3×3卷积进行特征提取，使得特征提取得更加的充分，虽增加了一点计算量，但为后续的特征提取保留了更完整的图片下采样信息。(3)Neck：SPP+FPN+PAN。SPP：代替了卷积层后的常规池化层，可以增加感受野，更能获取多尺度特征。FPN是下采样自顶向下传达特征，PAN是上采样自底向上传达特征。PAN模块对不同层次的特征进行疯狂融合，其在FPN模块的基础上增加了自底向上的特征金字塔结构，自顶向下部分和自下向上部分的特征图进行融合，得到最终的特征图，将整体特征提取能力进一步提升。(4)输出端：用来对特征金字塔进行目标检测，输出端包括一些卷积层、池化层和全连接层等。在YOLOv5网络模型中，检测头模块主要负责对骨干网络提取的特征图进行多尺度目标检测。该模块主要包括Anchors(锚框)，用于定义不同大小和长宽比的目标框，通常使用K-means聚类对训练集的目标框进行聚类得到，可以在模型训练之前进行计算，存储在模型中，用于预测时生成检测框。Classification(分类)，用于对每个检测框进行分类，判断其是否为目标物体，采用全连接层加Softmax函数的形式对特征进行分类。Regression(回归)，用于对每个检测框进行回归，得到其位置和大小，通常采用全连接层的形式对特征进行回归。Backbone和Neck为YOLOv5网络模型中的特征提取网络，用于对待识别图像的手势特征进行提取，得到目标特征图。

可选地，可以在YOLOv5网络模型中增加小目标检测层，对应基于更小尺度的目标锚框预测较大尺度目标特征图中的手势特征，以检测小尺度的手势特征，从而可以使得YOLOv5网络模型更关注小尺度的手势特征的检测，提高手势特征预测的准确度。例如，YOLOv5网络模型目标锚框为9个，包括三类尺寸，每类尺寸有3个，输入的待识别图像大小为640*640像素，第一类尺寸为[10,13]、[16,30]、[33,23]，第二类尺寸为[30,61]、[62,45]、[59,119]，第三类尺寸为[116,90]、[156,198]、[373,326]，那么，第一类尺寸的目标锚框分布在80*80像素尺度的目标特征图上进行特征预测，用于检测与第一类尺寸相对应的手势特征；第二类尺寸的目标锚框分布在40*40像素尺度的目标特征图上进行特征预测，用于检测与第二类尺寸相对应的手势特征；第三类尺寸的目标锚框分布在20*20像素尺度的目标特征图上进行特征预测，用于检测与第三类尺寸相对应的手势特征，YOLOv5网络模型中特征提取网络结构如图6所示。想要再增加一层检测更小尺寸的手势特征的目标特征图，可以在80*80像素尺度的目标特征图上增加，由于YOLOv5网络模型Neck网络中没有160*160像素尺度的目标特征图，因此，通过对80*80像素尺度的目标特征图进行上采样，得到160*160像素尺度的目标特征图，可以与backbone中160*160像素尺度的目标特征图拼接，得到最终用于检测的160*160像素尺度的目标特征图，上采样后的特征提取网络结构如图7所示。对应地，需要增加对应尺寸的目标锚框，例如，[5,6]、[8,14]、[15,11]，分布在160*160像素尺度的目标特征图上进行特征预测，用于检测对应尺寸的手势特征。即，可以是，第一类尺寸为[5,6]、[8,14]、[15,11]，第二类尺寸为[10,13]、[16,30]、[33,23]，第三类尺寸为[30,61]、[62,45]、[59,119]，第四类尺寸为[116,90]、[156,198]、[373,326]，那么，第一类尺寸的目标锚框分布在160*160像素尺度的目标特征图上进行特征预测，用于检测与第一类尺寸相对应的第一尺寸特征；第二类尺寸的目标锚框分布在80*80像素尺度的目标特征图上进行特征预测，用于检测与第二类尺寸相对应的第二尺寸特征；第三类尺寸的目标锚框分布在40*40像素尺度的目标特征图上进行特征预测，用于检测与第三类尺寸相对应的第三尺寸特征；第四类尺寸的目标锚框分布在20*20像素尺度的目标特征图上进行特征预测，用于检测与第四类尺寸相对应的第四尺寸特征，其中，第一尺寸特征小于第二尺寸特征，第二尺寸特征小于第三尺寸特征，第三尺寸特征小于第四尺寸特征。

可选地，可以通过SE(Squeeze Excitation)注意力机制，确定初始特征图中各个通道对应的权重值，其中，初始特征图是通过YOLOv5网络模型中的特征提取网络对待识别图像进行特征提取得到的。将权重值增加到对应通道上，从而使得信息量较大的通道特征更容易被关注到，信息量较小的通道特征会被抑制。

可选地，可以通过改进的非极大值抑制算法(Non Maximum Suppression，NMS)对目标锚框进行筛选，得到候选锚框。将评分最高的目标锚框作为第一目标锚框，依次计算第一目标锚框与每个第二目标锚框之间的交并比，其中，第二目标锚框为除第一目标锚框之外的其他目标锚框；根据交并比，确定第二目标锚框的下一次评分。例如，通过公式(1)计算第二目标锚框的下一次评分。

可选地，可以将YOLOv5网络模型Backbone中的C3替换为强量化网络MobilenetV3，Backbone中C3即为CSP结构，YOLOv5主干特征提取网络采用C3结构，带来较大的参数量，检测速度较慢，应用受限，在某些实际的应用场景，例如移动端或者嵌入式设备等，针对大而复杂的模型难以被应用，可能会存在内存不足、响应速度慢、延迟大等问题。因此，在上述这些实际应用场景中，可以将主干特征提取网络替换为更轻量的MobileNetV3网络，以实现模型的轻量化，平衡速度和精度。

可选地，可以将手势识别模型中的γ进行归一化处理，得到归一化后的γ，对归一化之后的γ进行正则化处理，得到对应的稀疏矩阵，将稀疏矩阵中小于参数阈值的值置零，得到优化后的稀疏矩阵，进而得到优化后的YOLOv5网络模型，通过保留γ较大的通道，删除γ较小的通道，γ较小的通道即为不重要信息对应的通道，可以实现对手势识别模型的剪枝处理，在保证模型准确度的情况下，减少模型的复杂度。

可选地，可以将手势识别模型的模型参数的精度从第一精度转换为第二精度，其中，第二精度低于第一精度，将第二精度的模型参数所对应的手势识别模型，作为优化后的手势识别模型。例如，可以将模型参数的精度从32为float型，转换为8位整型int8。将模型参数从高精度转换为低精度，可以压缩模型参数，减少内存占用，降低设备功耗，加快运行速度。

在一些实际应用场景中，首先，将在pytorch下训练好的手势识别模型转换成ONNX模型，再对ONNX模型进行解析，生成推理引擎。其中，pytorch是一种深度学习的框架，ONNX模型是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型，它使得不同的人工智能框架可以采用相同格式存储模型数据并交互。其次，将ONNX文件转换成NCNN文件，得到NCNN所需要的模型文档文件及其二值文件，完成模型加载工作后，可在Android、Ios等操作系统上移植。然后，将NCNN文件生成apk(Android Package)部署到电子设备端，例如智能手机，以移植到Android操作系统为例，编译器对Android工程项目下的各类源码文件进行编译，得到已编译资源以及dex文件，将已编译资源以及dex文件交由打包器，由打包器完成apk签名，使用Android SDK中的zipalign优化工具对apk签名进行优化，提高优化后的应用与Android操作系统之间的交互效率，生成APK文件，将APK文件安装在Android操作系统上，在对应电子设备上生成手势识别APP。其中，dex文件，是android系统的可执行文件，包含应用程序的全部操作指令以及运行时数据。当java程序编译成class后，还需要使用dx工具将所有的class文件整合到一个dex文件，目的是其中各个类能够共享数据，在一定程度上降低了冗余，同时也使文件结构更加紧凑。APK，即Android安装包，适配安卓应用程序的格式。APK文件实质是一个zip压缩包，通过把android sdk编译的工程打包成一个安卓系统支持的安装程序文件。

在一个实施例中，服务器或者终端设备获取待识别图像，基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图，基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，识别所述候选锚框中的手势特征，得到所述待识别图像的手势识别结果，在与投影设备通信连接的情况下，指示投影设备根据手势识别结果执行手势识别结果对应的目标操作指令，其中，投影设备中保存有手势识别结果与目标操作指令之间的映射关系。可以实现根据不同手势识别结果对投影设备的高效控制，避免由于不方便获取遥控器等辅助配件而造成的控制不及时的现象，提高对投影设备的控制效率。

在一个实际应用场景中，电子设备与投影设备通过蓝牙实现通信连接，打开电子设备上的手势识别APP，手势识别APP可以指示相机拍摄目标手势图像或者从相册获取目标手势图像，手势识别APP通过手势识别模型基于候选锚框检测目标特征图中的手势特征，得到手势识别结果，将手势识别结果发送给投影设备，以指示投影设备根据手势识别结果执行手势识别结果对应的目标操作指令。其中，投影设备中保存有手势识别结果与目标操作指令之间的映射关系，势识别结果与目标操作指令之间为一一对应的映射关系。例如，手势识别结果为大拇指朝下，则对应的目标操作指令为调低音量；手势识别结果为大拇指朝上，则对应的目标操作指令为调高音量；手势识别结果为食指朝左，则对应的目标操作指令为回退；手势识别结果为食指朝右，则对应的目标操作指令为前进；手势识别结果为五个手指张开，对应的目标操作指令为暂停；手势识别结果为“OK”手势，对应的目标操作指令为继续，等等。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的手势识别方法的手势识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个手势识别装置实施例中的具体限定可以参见上文中对于手势识别方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种手势识别装置，包括：图像获取模块802、特征提取模块804、锚框确定模块806和特征识别模块808，其中：

图像获取模块802，用于获取待识别图像；

特征提取模块804，用于基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图；

锚框确定模块806，用于基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框；

特征识别模块808，用于识别所述候选锚框中的手势特征，得到所述待识别图像的手势识别结果。

在一个实施例中，特征提取模块804，还用于：

基于特征提取网络对所述待识别图像进行特征提取，得到初始特征图；对所述初始特征图进行全局平均池化，得到所述初始特征图对应的全局特征向量；基于全连接层对所述全局特征向量进行处理，得到所述初始特征图中各个通道对应的权重值；根据所述权重值和所述初始特征图，得到所述目标特征图。

在一个实施例中，锚框确定模块806，还用于：

获取所述目标锚框对对应尺度的目标特征图进行预测所得的评分；将所述评分最高的目标锚框作为当次识别的候选锚框。

在一个实施例中，上述手势识别装置还包括评分确定模块，用于：

将所述评分最高的目标锚框作为第一目标锚框，依次计算所述第一目标锚框与每个第二目标锚框之间的交并比；所述第二目标锚框为除第一目标锚框之外的其他目标锚框；根据所述交并比，确定所述第二目标锚框的下一次评分。

在一个实施例中，确定模块，还用于：

若所述交并比小于预设比值，将所述交并比对应的第二目标锚框的评分作为所述第二目标锚框的下一次评分；若所述交并比不小于预设比值，通过所述交并比对应的第二目标锚框的评分确定所述第二目标锚框的下一次评分；所述第二目标锚框的下一次评分与所述第二目标锚框的评分线性相关。

在一个实施例中，手势识别装置还包括评分管理模块，用于：在所述目标锚框的最高评分高于预设评分的情况下，将所述评分最高的目标锚框作为当次识别的候选锚框。

在一个实施例中，目标锚框模块，用于实现目标锚框的确定方式，包括：

获取预设锚框和标注框；根据所述标注框确定所述预设锚框的召回率；在所述召回率高于召回率阈值的情况下，将所述预设锚框作为备用锚框；根据标注框对所述备用锚框进行训练；若满足训练收敛条件，获取所述备用锚框与所述标注框之间的偏移量；根据所述备用锚框和所述偏移量，确定所述目标锚框。

上述手势识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手势识别方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述手势识别方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述手势识别方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述手势识别方法的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

获取待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述基于特征提取网络对所述待识别图像进行特征提取，得到目标特征图，包括：

根据所述权重值和所述初始特征图，得到所述目标特征图。

3.根据权利要求1所述的方法，其特征在于，所述基于目标锚框对对应尺度的目标特征图进行预测所得的评分，确定候选锚框，包括：

将所述评分最高的目标锚框作为当次识别的候选锚框。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述交并比，确定所述第二目标锚框的下一次评分。

5.根据权利要求4所述的方法，其特征在于，所述根据所述交并比，确定所述第二目标锚框的下一次评分，包括：

若所述交并比小于预设比值，将所述交并比对应的第二目标锚框的当次评分作为所述第二目标锚框的下一次评分；

若所述交并比不小于预设比值，通过所述交并比对应的第二目标锚框的当次评分确定所述第二目标锚框的下一次评分；所述第二目标锚框的下一次评分与所述第二目标锚框的当次评分线性相关。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述目标锚框的确定方式，包括：

获取预设锚框和标注框；

根据所述标注框确定所述预设锚框的召回率；

根据标注框对所述备用锚框进行训练；

根据所述备用锚框和所述偏移量，确定所述目标锚框。

8.一种手势识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。