CN114612832A

CN114612832A - 一种实时手势检测方法及装置

Info

Publication number: CN114612832A
Application number: CN202210249415.7A
Authority: CN
Inventors: 裴超
Original assignee: Bigo Technology Singapore Pte Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-10
Also published as: WO2023174098A1

Abstract

本申请实施例提供了一种实时手势检测方法及装置。本申请实施例提供的技术方案通过获取待识别图像并将待识别图像输入到手势检测模型中进行手势识别，并根据手势检测模型输出的手势识别结果确定手势类型以及手势位置，该手势检测模型基于可分离卷积结构和残差结构提取输入图像的多个层级的原始特征图，减少特征提取的计算量，减小手势检测的计算量，并对多个原始特征图进行融合处理得到融合特征图，利用融合特征增强对目标的检测能力弥补参数量减小导致的性能损失，同时加强对于小目标和模糊场景的检测效果，再根据融合特征图进行手势识别并输出手势识别结果，可有效满足手势识别的实时性要求。

Description

一种实时手势检测方法及装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种实时手势检测方法及装置。

背景技术

随着视频直播和短视频应用在移动端的大规模兴起，移动端的智能内容应用也越来越广泛。手势作为一种重要的交互方式，可用于情绪表达、互动娱乐、虚拟游戏等等。

手势检测能够直接获取图像中手的位置和当前做出的手势类型，对于直播和短视频应用的互动具有重要意义。现有的手势检测主要分为两类方法：基于SIFT等传统特征的手势检测和基于卷积神经网络的手势检测。前者通过提取图像中一些具有尺度不变性的特征来计算图像中手势位置和类别。但是这类特征一般是人工设计得来，对于图像蕴含的特征表达能力非常有限，容易出现漏检和误检。后者通过多层卷积神经网络提取图像特征，然后回归手势在图像中的位置和类别，但是一般的卷积神经网络计算量庞大，而移动端设备的计算能力、内存、散热能力等等都受到限制，无法直接应用于直播等实时性要求比较高的场景。

发明内容

本申请实施例提供一种实时手势检测方法及装置，以解决现有技术中移动端因卷积神经网络计算量较大，设备处理能力受限而导致手势识别无法满足实时性要求的技术问题，减小手势检测的计算量，可有效满足手势识别的实时性要求。

在第一方面，本申请实施例提供了一种实时手势检测方法，包括：

获取待识别图像；

将所述待识别图像输入到训练好的手势检测模型中，以使所述手势检测模型基于所述待识别图像输出手势识别结果，所述手势检测模型配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图，对多个所述原始特征图进行融合得到多个融合特征图，并基于多个所述融合特征图进行手势识别并输出手势识别结果；

基于所述手势检测模型输出的手势识别结果确定手势类型以及手势位置。

在第二方面，本申请实施例提供了一种实时手势检测装置，包括图像获取模块、手势识别模块和手势确定模块，其中：

所述图像获取模块，配置为获取待识别图像；

所述手势识别模块，配置为将所述待识别图像输入到训练好的手势检测模型中，以使所述手势检测模型基于所述待识别图像输出手势识别结果，所述手势检测模型配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图，对多个所述原始特征图进行融合得到多个融合特征图，并基于多个所述融合特征图进行手势识别并输出手势识别结果；

所述手势确定模块，配置为基于所述手势检测模型输出的手势识别结果确定手势类型以及手势位置。

在第三方面，本申请实施例提供了一种实时手势检测设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的实时手势检测方法。

在第四方面，本申请实施例提供了一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的实时手势检测方法。

在第五方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序，使得设备执行如第一方面所述的实时手势检测方法。

本申请实施例通过获取待识别图像并将待识别图像输入到手势检测模型中进行手势识别，并根据手势检测模型输出的手势识别结果确定手势类型以及手势位置，该手势检测模型基于可分离卷积结构和残差结构提取输入图像的多个层级的原始特征图，减少特征提取的计算量，减小手势检测的计算量，并对多个原始特征图进行融合处理得到融合特征图，利用融合特征增强对目标的检测能力弥补参数量减小导致的性能损失，同时加强对于小目标和模糊场景的检测效果，再根据融合特征图进行手势识别并输出手势识别结果，可有效满足手势识别的实时性要求。

附图说明

图1是本申请实施例提供的一种实时手势检测方法的流程图；

图2是本申请实施例提供的一种对输入图像进行特征提取的流程示意图；

图3是本申请实施例提供的一种基础特征提取网络结构示意图；

图4是本申请实施例提供的一种对原始特征图的融合流程示意图；

图5是本申请实施例提供的一种特征融合网络结构示意图；

图6是本申请实施例提供的一种对融合特征图进行手势识别的流程示意图；

图7是本申请实施例提供的一种分离式检测头部网络结构示意图；

图8是本申请实施例提供的一种融合特征图与先验框的关系示意图；

图9是本申请实施例提供的一种实时手势检测装置的结构示意图；

图10是本申请实施例提供的一种实时手势检测设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时上述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。上述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1给出了本申请实施例提供的一种实时手势检测方法的流程图，本申请实施例提供的实时手势检测方法可以由实时手势检测装置来执行，该实时手势检测装置可以通过硬件和/或软件的方式实现，并集成在实时手势检测设备中。

下述以实时手势检测装置执行实时手势检测方法为例进行描述。参考图1，该实时手势检测方法包括：

S101：获取待识别图像。

其中，待识别图像可以是通过网络或本地图库的视频或图像获取，还可以是通过实时手势检测装置上搭载的摄像模块实时拍摄获取。例如在实时手势检测装置(例如移动端)上安装视频应用程序(例如视频直播软件)，并在拍摄视频的同时将每一帧图像作为待识别图像，在确定待识别图像上的手势类型以及手势位置后，可基于手势类型以及手势位置进行下一步的处理。

以视频直播软件为例，在视频直播软件中配置手势检测模型，在需要根据主播的手势进行相关的特效渲染时，获取拍摄的视频帧作为待识别图像，并提交给手势检测模型进行手势识别，并根据手势检测模型输出的手势识别结果确定手势类型以及手势位置，再根据手势类型确定特效类型并根据手势位置确定特效的渲染位置。

S102：将待识别图像输入到训练好的手势检测模型中，以使手势检测模型基于待识别图像输出手势识别结果，手势检测模型配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图，对多个原始特征图进行融合得到多个融合特征图，并基于多个融合特征图进行手势识别并输出手势识别结果。

示例性的，在实时手势检测装置中配置有训练好的手势检测模型，在获取待识别图像后，依次将待识别图像输入到手势检测模型中，由手势检测模型基于接收到的待识别图像进行手势识别并输出对应的手势识别结果。

其中，手势检测模型基于可分离卷积结构和残差结构进行搭建，手势检测模型基于接收到的待识别图像进行手势识别时，基于可分离卷积结构和残差结构获取输入图像(即待识别图像)的多个不同层级的原始特征图，对多个原始特征图进行融合得到多个融合特征图，并基于多个融合特征图进行手势识别并输出手势识别结果。本方案提供的手势检测模型基于可分离卷积结构和残差结构提取输入图像的多个层级的原始特征图，有效减少特征提取的计算量，减小手势检测的计算量，并对多个原始特征图进行融合处理得到融合特征图，利用融合特征增强对目标的检测能力弥补参数量减小导致的性能损失，同时加强对于小目标和模糊场景的检测效果，可有效满足手势识别的实时性要求。

在一个可能的实施例中，本申请提供的手势检测模型包括依次连接的层级特征提取网络、特征融合网络和分离式检测头部网络。其中，层级特征提取网络配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图，特征融合网络配置为对层级特征提取网络输出的多个原始特征图进行融合得到多个融合特征图，分离式检测头部网络配置为基于多个融合特征图进行手势识别并输出手势识别结果。在一个实施例中，分离式检测头部网络输出的手势识别结果包括预测手势类别、手势置信度和预测手势位置。

在一个实施例中，本申请提供的层级特征提取网络包括多个串行的基础特征提取网络，每一层级的基础特征提取网络配置为对输入图像进行特征提取以得到对应层级的原始特征图。并且每一层级的基础特征提取网络输出的原始特征图的尺寸相对于输入图像的尺寸减半，并且原始特征图的通道数目(卷积结构通道数目)相对于输入图像的通道数目翻倍。

其中，一个层级的基础特征提取网络的输出图像作为下一层级的基础特征提取网络的输入图像。例如，第一层级的基础特征网格将获取的待识别图像作为输入图像，将待识别图像对应的输入减半(尺寸减半)并将通道翻倍(输入卷积结构通道数目翻倍)，对待识别图像进行特征提取并输出第一层级的原始特征图。进一步的，将第一层级的原始特征图作为第二层级的基础特征提取网络的输入图像，将第一层级的原始特征图对应的输入减半(尺寸减半)并将通道翻倍(输入卷积结构通道数目翻倍)，对第一层级的原始特征图进行特征提取并输出第二层级的原始特征图，并以此类推得到每一层级的原始特征图。

在一个可能的实施例中，本申请层级特征提取网络包括5个串行的基础特征提取网络，即由5层串行的基础特征提取网络构成层级特征提取网络，每层基础特征提取网络得到的原始特征图相对于输入图像的尺寸(长宽)都减小一半，对应的，整个层级特征提取网络的下采样步长为32，输入图像经过特征提取后得到了一个长宽均缩小32倍的原始特征图(下采样步长为32)，这些原始特征图的特点是高度抽象化，具有丰富的高级视觉特征。

在一个实施例中，如图2提供的一种对输入图像进行特征提取的流程示意图所示，本申请提供的基础特征提取网络在对输入图像特征提取时，具体包括步骤S1021-S1023：

S1021：通过基础卷积模块对输入图像进行卷积结构通道减半操作，并通过可分离卷积模块对卷积结构通道减半后的输入图像进行特征提取得到特征提取结果。

示例性的，基础特征提取网络基于基础卷积模块和可分离卷积模块搭建而成，其中，基础卷积模块可用于改变输入卷积结构的通道数目，可分离卷积模块可用于主要的特征提取。

基础特征提取网络在接收到输入图像(第一层级的基础特征提取网络的输入图像为待识别图像，后续层级基础特征提取网络的输入图像为上一层级基础特征提取网络输出的原始特征图)后，利用基础卷积模块对输入图像进行卷积结构通道减半，减少特征提取的计算量，并将块对卷积结构通道减半后的输入图像发送给可分离卷积模块进行特征提取得到特征提取结果。

S1022：对卷积结构通道减半后的输入图像和特征提取结果进行逐元素相加得到逐元素相加结果，并通过基础卷积模块对逐元素相加结果做混淆操作得到元素相加混淆结果。

示例性的，在得到可分离卷积模块对卷积结构通道减半后的输入图像进行特征提取得到的特征提取结果后，将先前基础卷积模块进行卷积结构通道减半的输入图像与可分离卷积模块输出的特征提取结果进行逐元素相加(例如通道减半后的输入图像和特征提取结果对应像素点相加)得到逐元素相加结果，并通过基础卷积模块对逐元素相加结果做混淆操作得到元素相加混淆结果。

S1023：对元素相加混淆结果和卷积结构通道减半后的输入图像做字符串连接得到连接结果，并对连接结果做降采样得到原始特征图。

示例性的，在将逐元素相加结果做混淆操作得到元素相加混淆结果后，进一步将元素相加混淆结果和先前基础卷积模块进行卷积结构通道减半的输入图像做字符串连，接得到连接结果，并进一步对该连接结果做降采样(假设降采样步长为2)得到当前层级的基础特征提取网络相对于输入图像输入减半(尺寸减半)，并且通道翻倍(卷积结构通道数目翻倍)的原始特征图。

在一个实施例中，可使用高效的可分离卷积(DwConv，depthwise separableconvolution)和残差结构构建基础特征提取网络，基于此，如图3提供的一种基础特征提取网络结构示意图所示，本方案提供的基础特征提取网络(图中Layer)基于基础卷积模块(图中CBL)和可分离卷积模块(图中DwUnit)构建而成。其中，基础卷积模块包括依次连接的1*1的卷积核(图中1x1 Conv)、BatchNorm归一化单元(图中BatchNorm)和LeakyReLU激活函数单元(图中LeakyReLU)，其中，LeakyReLU激活函数单元使用的非线性激活函数由ReLU激活函数优化得到，相比其他激活函数，具有计算效率高、收敛速度快等优点，并且减轻了ReLU激活函数的稀疏性。

其中，可分离卷积模块包括依次连接的第一基础卷积模块(图中DwCBL前一级的CBL)、特征提取模块(图中DwCBL)和第二基础卷积模块(图中DwCBL下一级的CBL)。其中，特征提取模块包括依次连接的3*3的深度可分离卷积核(图中3x3 DwConv)、BatchNorm归一化单元(图中BatchNorm)和LeakyReLU激活函数单元(图中LeakyReLU)。其中，特征提取模块DwConv不同于传统的卷积，DwConv卷积核的每个通道只和输入特征的部分通道(参与计算的通道数量可预先设定)做卷积计算，使得计算量大幅度降低，但是特征提取模块DwCBL特征提取能力也因此变弱，因此在使用特征提取模块DwConv之前，先使用基础卷积模块CBL提升通道数目，在特征提取模块DwConv之后再利用基础卷积模块CBL降低通道数目。

在搭建基础卷积模块CBL和可分离卷积模块DwUnit后，即基于基础卷积模块CBL和可分离卷积模块DwUnit搭建基础特征提取网络Layer。图中input用于接收输入图像的图像接收模块，在图像接收模块input之后，分别用一个基础卷积模块CBL将输入图像进行卷积结构通道减半操作，将输入图像尺寸减半。图中基础特征提取网络Layer左侧为使用可分离卷积模块DwUnit为主的残差结构，右侧在输入减半后不做其他操作。在左侧的残差结构中，在图像接收模块input连接基础卷积模块CBL之后，还依次连接可分离卷积模块DwUnit、元素相加模块Add、基础卷积模块CBL、通道连接模块concat和步长为2(Strident＝2)的可分离卷积模块DwUnit，右侧在图像接收模块input连接基础卷积模块CBL之后，连接至通道连接模块concat，构成了层级特征提取网络中的一层基础特征提取网络。

基于上述基础特征提取网络Layer，图像接收模块input接收到输入图像后，分别通过两侧的基础卷积模块CBL做通道减半，通道减半后的输入图像在左侧通过可分离卷积模块DwUnit块对卷积结构通道减半后的输入图像进行特征提取得到特征提取结果，然后在元素相加模块Add卷积结构通道减半后的输入图像和特征提取结果进行逐元素相加得到逐元素相加结果，并在元素相加模块Add之后的基础卷积模块CBL对逐元素相加结果做混淆操作得到元素相加混淆结果。进一步的，在通道连接模块concat对元素相加模块Add之后的基础卷积模块CBL输出的元素相加混淆结果和右侧基础卷积模块CBL输出的卷积结构通道减半后的输入图像做字符串连接(即将左侧和右侧的基础卷积模块CBL输出在通道维度上做Concat连接)得到连接结果，最后通过步长为2的可分离卷积模块DwUnit对连接结果做降采样得到相对于输入图像输入减半，并且通道翻倍的原始特征图。本方案提供的基础特征提取网络只对左侧一半通道的数据做卷积操作，使得计算量降低一半，同时残差结构可很好的保持深层网络的数据传递。在一个实施例中，使用5个上述的基础特征提取网络组成层级特征提取网络，每层得到的原始特征图的长宽都减小一半，整个网络的下采样步长为32。

可以理解的是，在上述层级特征提取网络中，由于多层下采样以及尺度(尺寸)限制，最终得到的原始特征图会丢失部分基础特征和部分目标，为了保证场景模糊或者小目标的手势检测，可将不同层级的原始特征图进行融合，利用特征融合混淆增强手势识别的能力。

在相关技术中，传统的特征融合均类似FPN(Feature Pyramid Networks多层次特征融合，一种自上而下的特征融合方式)的处理方式，其处理流程较多，计算量复杂，在移动端难以实现较好的实时性能。本方案针对现有手势检测方法在检测精度和计算效率上的不足，通过提供提出一种轻量级的特征金字塔网络结构，对层级特征提取网络输出的多层的原始特征图做融合，高效地融合低层像素特征和高层抽象信息，不同特征之间取长补短，增强小目标和遮挡目标的检测效果，能够满足移动端的实时计算效率和高精度要求。

在一个实施例中，特征融合网络在对层级特征提取网络输出的多个原始特征图进行融合得到多个融合特征图时，具体为对层级特征提取网络输出的最后三层原始特征图进行融合得到三个融合特征图。示例性的，对原始特征图进行融合的融合方式可采用element-wise(特征相乘相加)融合方式。

在一个可能的实施例中，如图4提供的一种对原始特征图的融合流程示意图所示，特征融合网络在对层级特征提取网络输出的最后三层原始特征图进行融合得到多个融合特征图时，包括步骤S1024-S1026：

S1024：对层级特征提取网络输出的最后一层原始特征图做下采样步长减半以及通道减半操作得到第一中间特征图，并将第一中间特征图和层级特征提取网络输出的倒数第二层原始特征图做逐元素相加，得到第二融合特征图。

示例性的，利用层级特征提取网络输出的最后三层原始特征图作为融合的基础，由于不同层级的原始特征图的尺寸不同，以层级特征提取网络设置有5层基础特征提取网络为例，最后三个阶段的原始特征图的下采样步长分别为x8、x16和x32，对应的通道数目分别128、256和512，在对原始特征图进行融合前需要对下采样步长和通道数目进行处理，使用于融合的两个原始特征图处于想用的下采样步长和通道数目水平。

可以理解的是，最后一层原始特征图的下采样步长和通道数目水平都是倒数第二层原始特征图的下采样步长和通道数目水平的两倍，基于此，对于对层级特征提取网络输出的最后一层原始特征图和倒数第二层原始特征图的融合，本方案对最后一层原始特征图做下采样步长减半以及通道减半操作得到第一中间特征图，并将第一中间特征图和层级特征提取网络输出的倒数第二层原始特征图做逐元素相加(例如第一中间特征图和倒数第二层原始特征图对应像素点相加)得到第二融合特征图。在一个实施例中，在得到第二融合特征图后，可进一步对第二融合特征图做特征混淆处理，进一步增强第二融合特征图的特征表达能力。

S1025：对第二融合特征图做下采样步长减半以及通道减半操作得到第二中间特征图，并将第二中间特征图和层级特征提取网络输出的倒数第三层原始特征图做逐元素相加，得到第三融合特征图。

在一个可能的实施例中，对于层级特征提取网络输出的倒数第二层原始特征图和倒数第三层原始特征图的融合处理，可按照上述对最后一层原始特征图和倒数第二层原始特征图的融合进行。

考虑到第二融合特征图融合了最后一层原始特征图和倒数第二层原始特征图的特征，其特征表达能力更强，基于此，在本阶段可利用第二融合特征图代替倒数第二层原始特征图，即利用第二融合特征图和倒数第三层原始特征图的融合处理。即对第二融合特征图做下采样步长减半以及通道减半操作得到第二中间特征图，并将第二中间特征图和层级特征提取网络输出的倒数第三层原始特征图做逐元素相加(例如第二中间特征图和倒数第三层原始特征图对应像素点相加)得到第三融合特征图。在一个实施例中，在得到第三融合特征图后，可进一步对第三融合特征图做特征混淆处理，进一步增强第三融合特征图的特征表达能力。

S1026：对第二融合特征图做下采样步长翻倍操作得到第三中间特征图，并将第三中间特征图和层级特征提取网络输出的最后一层原始特征图做逐元素相加，得到第一融合特征图。

对于层级特征提取网络输出的最后一层原始特征图和第二融合特征图的融合处理，将第二融合特征图做下采样步长翻倍操作得到第三中间特征图，并将第三中间特征图和层级特征提取网络输出的最后一层原始特征图做逐元素相加(例如第三中间特征图和最后一层原始特征图对应像素点相加)得到了增强型的高级特征图，即第一融合特征图，其可用于检测待识别图像中的大目标。

如图5提供的一种特征融合网络结构示意图所示，假设图中F5、F4和F3分别为层级特征提取网络输出的最后一层、倒数第二层和倒数第三层原始特征图，原始特征图F5、F4和F3的下采样步长分别为x32，x16和x8，通道数目分别512，256和128。对于原始特征图F5，使用x2的上采样模块(UpSample)和基础卷积模块(1x1 CBL)分别对原始特征图F5做下采样步长减半(将下采样步长缩小为x16)以及通道减半(将通道数目缩小为256)操作得到第一中间特征图P5，将第一中间特征图P5和原始特征图F4按照逐元素相加的方式做融合，并进一步利用stride＝1的3x3 conv(图中3x3 DwCBL)对融合后的特征图做特征混淆得到第二融合特征图FF2。

进一步的，使用上采样模块(UpSample)和基础卷积模块(1x1 CBL)分别对第二融合特征图FF2做下采样步长减半(将下采样步长缩小为x8)以及通道减半(将通道数目缩小为128)操作得到第二中间特征图P4，将第二中间特征图P4和原始特征图F3按照逐元素相加的方式做融合，并进一步利用stride＝1的3x3 conv(图中3x3 DwCBL)对融合后的特征图做特征混淆得到第三融合特征图FF3。

进一步的，利用stride＝2的3x3 DwCBL对第二融合特征图做下采样步长翻倍操作(使用3x3 conv下采样一次，将下采样步长增大为x32)，再将第二融合特征图FF2和原始特征图F5按照逐元素相加的方式做融合得到第一融合特征图FF1。其中，第二融合特征图FF2和第三融合特征图FF3都是采用前向特征融合的方式，特别是第三融合特征图FF3集合了原始特征图F3、F4、F5等的感知特征，同时具有较大的视觉感受野，可以更好的检测小目标和处理模糊场景，而增强型的第一融合特征图FF1则主要用于检测大目标，第二融合特征图FF2兼顾二者，三个融合特征图相互补充，有效提升手势检测的性能。

在相关技术中，现有端到端目标检测网络一般采用直接在特征图上通过一个全连接层或者1x1 conv直接回归目标类别和位置信息，但是考虑到手势目标的部分类别特征比较相似，这种方法对于手势检测存在缺陷，比如伸出两个手指和三个手指，特别是在模糊场景下，会导致较高的误检率，基于此，本方案分离式检测头部网络分别对多个融合特征图进行手势检测处理。如图6提供的一种对融合特征图进行手势识别的流程示意图所示，本方案提供的分离式检测头部网络在基于多个融合特征图进行手势识别并输出手势识别结果时，包括步骤S1027-S1028：

S1027：针对每个融合特征图，通过基础卷积模块将融合特征图进行分离，得到第一分离特征图、第二分离特征图和第三分离特征图。

S1028：根据第一分离特征图确定预测手势类别，根据第二分离特征图确定手势置信度，根据第三分离特征图确定预测手势位置。

示例性的，针对每个融合特征图(包括上述提供的第一融合特征图FF1、第二融合特征图FF2和第三融合特征图FF3)，利用3个基础卷积模块(1x1 CBL)将融合特征图进行分离得到三个分支，三个分支分别为第一分离特征图、第二分离特征图和第三分离特征图。这三个分支可分别用于预测手势类别、手势置信度和手的位置，最后将3个分支合并作为最终输出。

进一步的，可利用1x1 conv卷积核从第一分离特征图中确定预测手势类别，可利用1x1 conv卷积核从第二分离特征图中确定手势置信度，以及利用可利用1x1 conv卷积核从第三分离特征图确定预测手势位置。最后将三个分支对应的输出连接到concat连接中输出包括预测手势类别、手势置信度和预测手势位置的手势识别结果。

在一个实施例中，在分离融合特征图之前，可先利用基础卷积模块(1x1 CBL)降低分离特征图对应的通道数目，减少计算量。在得到预测手势类别后，可利用softmax归一化模块对预测手势类别进行归一化处理。在得到手势置信度后，可利用sigmoid归一化模块将手势置信度归一化到0～1之间，即如果归一化后的手势置信度对应数值大于0.5，则表示这个先验框中包含有效目标，小于0.5则表示先验框中不包含有效目标。

如图7提供的一种分离式检测头部网络结构示意图所示，在得到第一融合特征图FF1、第二融合特征图FF2和第三融合特征图FF3后，对于每个融合特征图(图中FF)，先利用1x1 CBL降低通道数目，减小计算量，然后用3个1x1 CBL分离得到3个分支，即第一分离特征图、第二分离特征图和第三分离特征图。对于第一分离特征图，使用1x1 conv归一化得到和预设置类别数目相同的输出(预设置类别数目即融合特征图中标注的数目，例如需要识别10种手势，分别输出10种手势的不同概率，概率最大的就认为对应的预测手势类别)，然后使用softmax归一化类别的概率，并将概率最大的类别确定为预测手势类别。对于第二分离特征图，使用1x1 conv归一化得到手势置信度，使用sigmoid函数将手势置信度归一化到0～1之间，如果输出大于0.5，则表示先验框中包含了有效目标；小于0.5则表示先验框不包含有效目标。对于第二分离特征图，使用1x1 conv归一化得到预测手势位置，最后将三个分支通过concat连接，并输出输出包括预测手势类别、手势置信度和预测手势位置的手势识别结果。

在一个实施例中，为了获取更加精确的预测手势位置，本方案可使用一种基于先验框(anchor)的网格位置编码表示位置信息。先验框作为一种标的，需要预测的是目标位置(目标框的位置，目标框即预测的包含有目标的框)，但是直接预测位置范围太大，本方案设置先验框，预测的目标位置是先验框+偏移(编码)。其中预测手势位置基于目标框的网格位置编码进行表示，网格位置编码用于表示目标框在特征网格中的编码坐标，特征网格由融合特征图按照设定单位长度划分得到。

其中，预测手势位置基于目标框在融合特征图上的解码坐标、解码尺寸以及融合特征图的下采样步长确定。即根据预测得到的目标框的解码坐标、解码尺寸确定目标框在对应融合特征图上的全局绝对坐标，再将全局绝对坐标乘以融合特征图的下采样步长得到目标框在待识别图像上的全局绝对坐标，目标框在待识别图像上的全局绝对坐标即为预测手势位置。

如图8提供的一种融合特征图与先验框的关系示意图所示，在本实施例中，图中示出了一个先验框(虚线框)和融合特征图。假设融合特征图的长宽均为N，即融合特征图的尺寸为NxN，将融合特征图划分为NxN个特征网格(cell)，每个特征网格的长宽尺寸均为1，在每个特征网格中设定3个不同尺寸的先验框(本方案一个待识别图像对应3个融合特征图，对应的，有9种不同尺寸的先验框)。考虑到如果是直接预测手势位置会导致漂移严重，训练收敛速度慢而且误差较大，本方案使用相对偏移坐标编码，在训练的过程中，预测其编码结果，在使用的过程中，将预测的结果解码就可以获得目标(预设的手势)在待识别图像中的全局绝对坐标。

在一个实施例中，将当前特征网格的左上角坐标记为(c_x，c_y)，先验框的中心坐标(t_x，t_y)表示距离当前特征网格左上角的偏移，并使用sigmoid函数将其规定在0～1之间(因为每个特征网格的尺度均记为1)。基于此，本方案提供的解码坐标可基于以下公式进行确定：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，(b_x，b_y)为目标框的中心坐标在融合特征图上的解码坐标，(c_x，c_y)为当前特征网格的左上角坐标，σ(t_x)和σ(t_y)为先验框距离当前特征网格左上角的偏移，(t_x，t_y)为先验框的中心坐标在融合特征图上的编码坐标。

本方案提供的解码尺寸可基于以下公式确定：

其中，b_h，和b_w为目标框的解码尺寸的长和宽，p_h和p_w为先验框的编码尺寸的长和宽，t_h和t_w为手势检测模型训练得到的指数系数。其中计算得到的b_x、b_y、b_h、和b_w都是目标框在对应融合特征图上的全局绝对坐标，将全局绝对坐标乘以融合特征图的下采样步长得到目标框在待识别图像上的全局绝对坐标，目标框在待识别图像上的全局绝对坐标即为预测手势位置。

在一个实施例中，对于手势检测模型的训练，通过收集不同类型的手势图片，并对图片中的手势目标做人工标注(包括手势类型和手势位置)，然后构建训练集和验证集，通过反向传播和梯度下降方法，基于损失函数迭代训练并不断更新手势检测模型的参数。当手势检测模型在验证集上收敛了之后，保存手势检测模型的参数并输出手势检测模型的模型文件。在移动端应用产品等实时手势检测装置上，通过神经网络推理框架，加载保存好的手势检测模型文件，将待识别图像作为输入，执行手势检测模型的前向计算，即可获取待识别图像所包含的手势类别和位置，这些结果(手势类别和位置)可以作为特效渲染等其他技术链的输入信号，实现各种移动端应用需求。

本方案采用了端到端的网络结构，对应的，同样采用端到端的有监督训练方式对手势检测模型进行训练，可使用随机梯度下降的方法进行优化求解。本方案使用的检测网络有3个预测分支已经有先验框的存在，因此可使用一种优化的联合训练方式对手势检测模型进行训练。基于此，手势检测模型基于联合损失函数进行训练，其中，联合损失函数基于先验框中是否包含目标、先验框和先验框之间的坐标误差、预测目标和匹配的先验框的损失值确定。

在一个可能的实施例中，本方案提供的联合损失函数可基于以下公式确定：

其中：

其中，W为融合特征图的宽度，H为融合特征图的长度，A为融合特征图上每个点的先验框数量，maxiou为各个先验框和所有真实目标的交叠比中的最大交叠比，thresh为设置的交叠比筛选阈值，λ_noobj为设置的负样本损失函数权重，

为当前融合特征图上宽度为i，长度为j的点上的第k个先验框的坐标，o为先验框对应的目标得分，t为训练次数，λ_prior为warmup损失函数的权重，

表示第k个先验框的坐标，r表示预设的坐标，

为先验框的坐标，

表示这部分只计算与某个真实目标匹配的框的损失值，λ_coord为坐标的损失函数权重，truth^r为训练样本中标注目标的坐标值，λ_obj为是否包含目标的损失函数权重，

为先验框和标注目标的IOU分数，λ_class为类别预测的损失函数权重，truth^c为预测的目标类别，

为先验框的类别。

其中，第一损失函数loss1用于判断预测框中是否包含目标，首先需要计算各个预测框和所有标注的真实目标(groundtruth)的交叠比(Intersection-over-Union，IoU)，并且取最大值maxiou，如果该值小于预设的阈值(预设的超参数，例如0.65)，那么这个预测框被标记为background类别，因此需要计算noobj(负样本)的置信度误差。其中，真实目标为在样本图像上标记的手势。

第二损失函数loss2用于计算先验框和预测框之间的坐标误差，但是只计算前12800次迭代(这个过程称为warmup过程，通过warmup方法增强预测框的形状收敛效果，有效加快整体训练速度)，这个第二损失函数的设置主要是为了让手势检测模型能够迅速学习到先验框的长宽尺寸，加快整体训练的收敛速度。

第三损失函数loss3用于计算预测目标和某个匹配的真实目标(ground-truth)的各类损失值。因为融合特征图上每个特征网格都预测3个目标框，而一个图上的真实目标数量是非常少的，并且每个真实目标都只对应一个要预测的预测框，也就是正样本，而其余的预测框就是负样本。为了区分预测框是正样本还是负样本，本方案可使用一种匹配来区分正负样本：对于某个真实目标，首先确定其中心点要落在哪个特征网格里，然后计算这个特征网格的3个先验框和该真实目标的IoU的值(由于计算这个IoU的值的时候不考虑坐标，只考虑形状，可将他们左上角偏移到零点位置之后计算)，并选择IoU最大的那个先验框作为匹配，相应地，这个先验框对应的预测框就是正样本，用于后续计算。所有没有被真实目标匹配上的预测框均为负样本，因此负样本的数量特别多，为了平衡正负样本，本方案按照第一损失函数的设置，只选择maxiou小于阈值的预测框进行计算，其余的预测框均舍弃。对于正样本的损失部分，也分为三个部分计算，对应预测的三个分支(第一分离特征图、第二分离特征图和第三分离特征图)：第一项是计算预测框与真实目标的坐标损失，使用平方差损失函数；第二项是置信度损失，IoU越小，损失函数值越大；第三项是分类损失，真实目标对应的类别目标为1，其余类别目标为0，使用交叉熵损失函数计算softmax的输出结果。本方案使用联合优化的联合损失函数直接一次性训练整个手势检测模型，同时对于正负样本设置对应的匹配机制，减少由于正负样本数量不平衡导致训练效果不佳的情况。

S103：基于手势检测模型输出的手势识别结果确定手势类型以及手势位置。

示例性的，手势检测模型在接收到待识别图像后，对待识别图像进行手势识别并输出对应的手势识别结果，可根据手势检测模型输出的手势识别结果确定待识别图像上是否有识别到设定类型的手势，以及在识别到设定类型的手势时，所识别到的手势类型以及各个手势类型对应的手势位置。例如，确定手势识别结果中的预测手势类别、手势置信度和预测手势位置，确定对应手势置信度达到设定置信阈值的手势类别和预测手势位置，并将对应的手势类别和预测手势位置确定为手势类型以及手势位置。在各个手势类别和预测手势位置对应的手势置信度均小于设定置信阈值时，确定在待识别图像中未识别到目标手势。

在一个可能的实施例中，在确定手势类型以及手势位置后，可基于手势类型确定手势响应方式，以及手势响应位置。其中确定手势响应方式可以是确定进行特效渲染的特效类型，对应对，手势响应位置可以是对应特效的渲染位置。在一个实施例中，可在实时手势检测装置中配置多个不同类型的特效信息，可根据特效信息记进行特效渲染并在交互界面上显示对应的特效。

以安装在实时手势检测装置上的视频直播软件为例，在视频直播软件中配置有手势检测模型以及特效类型为“心跳”的特效信息，主播在开启视频直播软件进行直播的过程中，在直播画面中做出“比心”手势，此时视频直播软件将实时采集的视频帧提交到手势检测模型中，由手势检测模型输出指示在某个位置检测到“比心”手势类型的手势识别结果，视频直播软件根据手势识别结果确定检测到“比心”的手势，可确定对应的特效类型为“心跳”，则在确定手势类型以及手势位置后，根据对应的特效信息在“比心”手势的位置上渲染显示“心跳”的特效，丰富主播与观众之间的互动体验，实现各种移动端应用需求。

上述，通过获取待识别图像并将待识别图像输入到手势检测模型中进行手势识别，并根据手势检测模型输出的手势识别结果确定手势类型以及手势位置，该手势检测模型基于可分离卷积结构和残差结构提取输入图像的多个层级的原始特征图，减少特征提取的计算量，减小手势检测的计算量，并对多个原始特征图进行融合处理得到融合特征图，利用融合特征增强对目标的检测能力弥补参数量减小导致的性能损失，同时加强对于小目标和模糊场景的检测效果，再根据融合特征图进行手势识别并输出手势识别结果，可有效满足手势识别的实时性要求。同时，通过可分离卷积减小模型参数量，以及使用通道级别的残差结构缩小卷积计算的输入通道数目，实现手势检测模型的轻量化，有效减小了模型参数量和计算量，将warmup、位置、类别等训练目标统一到一个联合损失函数中进行联合优化，加快模型收敛和运行效率。并使用残差结构和特征融合弥补参数量减小导致的性能损失，同时加强对于小目标和模糊场景的检测效果，有效解决了端到端检测对于小目标和模糊背景性能不佳问题。对手势位置的预测使用编码方式进行表示，减小坐标极值差异带来的预测误差，同时加快训练的收敛速度。本方案可不使用全连接和池化等连接层，通过卷积神经网络提取待识别图像的特征，根据特征回归并输出待识别图像中所有手势的位置和类别，针对传统卷积神经网络的计算量太大的问题，使用深度可分离卷积和特征金字塔结构，兼顾计算效率和特征提取的粒度，能够有效减少网络的计算规模，同时可保证神经网络的精度，可在移动端应用上取得较好的手势识别效果。

图9是本申请实施例提供的一种实时手势检测装置的结构示意图。参考图9，该实时手势检测装置包括图像获取模块21、手势识别模块22和手势确定模块23。

其中，图像获取模块21，配置为获取待识别图像；手势识别模块22，配置为将待识别图像输入到训练好的手势检测模型中，以使手势检测模型基于待识别图像输出手势识别结果，手势检测模型配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图，对多个原始特征图进行融合得到多个融合特征图，并基于多个融合特征图进行手势识别并输出手势识别结果；手势确定模块23，配置为基于手势检测模型输出的手势识别结果确定手势类型以及手势位置。

上述，通过获取待识别图像并将待识别图像输入到手势检测模型中进行手势识别，并根据手势检测模型输出的手势识别结果确定手势类型以及手势位置，该手势检测模型基于可分离卷积结构和残差结构提取输入图像的多个层级的原始特征图，减少特征提取的计算量，减小手势检测的计算量，并对多个原始特征图进行融合处理得到融合特征图，利用融合特征增强对目标的检测能力弥补参数量减小导致的性能损失，同时加强对于小目标和模糊场景的检测效果，再根据融合特征图进行手势识别并输出手势识别结果，可有效满足手势识别的实时性要求。

在一个可能的实施例中，手势检测模型包括层级特征提取网络、特征融合网络和分离式检测头部网络，其中：

层级特征提取网络，配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图；

特征融合网络，配置为对层级特征提取网络输出的多个原始特征图进行融合得到多个融合特征图；

分离式检测头部网络，配置为基于多个融合特征图进行手势识别并输出手势识别结果，手势识别结果包括预测手势类别、手势置信度和预测手势位置。

在一个可能的实施例中，层级特征提取网络包括多个串行的基础特征提取网络，每一层级的基础特征提取网络配置为对输入图像进行特征提取，得到对应层级的原始特征图，其中，原始特征图的尺寸相对于输入图像的尺寸减半，并且原始特征图的通道数目相对于输入图像的通道数目翻倍。

在一个可能的实施例中，基础特征提取网络包括特征提取模块、元素相加混淆模块和数据连接模块，其中：

特征提取模块，配置为通过基础卷积模块对输入图像进行卷积结构通道减半操作，并通过可分离卷积模块对卷积结构通道减半后的输入图像进行特征提取得到特征提取结果；

元素相加混淆模块，配置为对卷积结构通道减半后的输入图像和特征提取结果进行逐元素相加得到逐元素相加结果，并通过基础卷积模块对逐元素相加结果做混淆操作得到元素相加混淆结果；

数据连接模块，配置为对元素相加混淆结果和卷积结构通道减半后的输入图像做字符串连接得到连接结果，并对连接结果做降采样得到原始特征图。

在一个可能的实施例中，基础卷积模块包括依次连接的1*1的卷积核、BatchNorm归一化单元和LeakyReLU激活函数单元，可分离卷积模块包括依次连接的第一基础卷积模块、特征提取模块和第二基础卷积模块，特征提取模块包括依次连接的3*3的深度可分离卷积核、BatchNorm归一化单元和LeakyReLU激活函数单元。

在一个可能的实施例中，层级特征提取网络包括5个串行的基础特征提取网络。

在一个可能的实施例中，特征融合网络配置为对层级特征提取网络输出的最后三层原始特征图进行融合得到三个融合特征图。

在一个可能的实施例中，特征融合网络包括第一融合模块、第二融合模块和第三融合模块，其中：

第二融合模块，配置为对层级特征提取网络输出的最后一层原始特征图做下采样步长减半以及通道减半操作得到第一中间特征图，并将第一中间特征图和层级特征提取网络输出的倒数第二层原始特征图做逐元素相加，得到第二融合特征图；

第三融合模块，配置为对第二融合特征图做下采样步长减半以及通道减半操作得到第二中间特征图，并将第二中间特征图和层级特征提取网络输出的倒数第三层原始特征图做逐元素相加，得到第三融合特征图；

第一融合模块，配置为对第二融合特征图做下采样步长翻倍操作得到第三中间特征图，并将第三中间特征图和层级特征提取网络输出的最后一层原始特征图做逐元素相加，得到第一融合特征图。

在一个可能的实施例中，分离式检测头部网络包括特征图分离模块和手势预测模块，其中：

特征图分离模块，配置为针对每个融合特征图，通过基础卷积模块将融合特征图进行分离，得到第一分离特征图、第二分离特征图和第三分离特征图；

手势预测模块，配置为根据第一分离特征图确定预测手势类别，根据第二分离特征图确定手势置信度，根据第三分离特征图确定预测手势位置。

在一个可能的实施例中，预测手势位置基于目标框的网格位置编码进行表示，网格位置编码配置为表示目标框在特征网格中的编码坐标，特征网格由融合特征图按照设定单位长度划分得到。

在一个可能的实施例中，预测手势位置基于目标框在融合特征图上的解码坐标、解码尺寸以及融合特征图的下采样步长确定。

在一个可能的实施例中，解码坐标基于以下公式进行确定：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，(b_x，b_y)为目标框的中心坐标在融合特征图上的解码坐标，(c_x，c_y)为当前特征网格的左上角坐标，σ(t_x)和σ(t_y)为先验框距离当前特征网格左上角的偏移，(t_x，t_y)为先验框的中心坐标在融合特征图上的编码坐标；

解码尺寸基于以下公式确定：

其中，b_h，和b_w为目标框的解码尺寸的长和宽，p_h和p_w为先验框的编码尺寸的长和宽，t_h和t_w为手势检测模型训练得到的指数系数。

在一个可能的实施例中，手势检测模型基于联合损失函数进行训练，联合损失函数基于先验框中是否包含目标、先验框和先验框之间的坐标误差、预测目标和匹配的先验框的损失值确定。

在一个可能的实施例中，联合损失函数基于以下公式确定：

其中：

表示第k个先验框的坐标，r表示预设的坐标，

为先验框的坐标，

为先验框的类别。

值得注意的是，上述实时手势检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

本申请实施例还提供了一种实时手势检测设备，该实时手势检测设备可集成本申请实施例提供的实时手势检测装置。图10是本申请实施例提供的一种实时手势检测设备的结构示意图。参考图10，该实时手势检测设备包括：输入装置33、输出装置34、存储器32以及一个或多个处理器31；存储器32，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器31执行，使得一个或多个处理器31实现如上述实施例提供的实时手势检测方法。上述提供的实时手势检测装置、设备和计算机可用于执行上述任意实施例提供的实时手势检测方法，具备相应的功能和有益效果。

本申请实施例还提供一种存储计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的实时手势检测方法。当然，本申请实施例所提供的一种存储计算机可执行指令的存储介质，其计算机可执行指令不限于如上提供的实时手势检测方法，还可以执行本申请任意实施例所提供的实时手势检测方法中的相关操作。上述实施例中提供的实时手势检测装置、设备及存储介质可执行本申请任意实施例所提供的实时手势检测方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的实时手势检测方法。

在一些可能的实施方式中，本公开提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当上述程序产品在计算机设备上运行时，上述程序代码用于使上述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤，例如，上述计算机设备可以执行本公开实施例所记载的实时手势检测方法。

Claims

1.一种实时手势检测方法，其特征在于，包括：

获取待识别图像；

2.根据权利要求1所述的实时手势检测方法，其特征在于，所述手势检测模型包括层级特征提取网络、特征融合网络和分离式检测头部网络，其中：

所述层级特征提取网络，配置为基于可分离卷积结构和残差结构获取输入图像的多个不同层级的原始特征图；

所述特征融合网络，配置为对所述层级特征提取网络输出的多个原始特征图进行融合得到多个融合特征图；

所述分离式检测头部网络，配置为基于多个所述融合特征图进行手势识别并输出手势识别结果，所述手势识别结果包括预测手势类别、手势置信度和预测手势位置。

3.根据权利要求2所述的实时手势检测方法，其特征在于，所述层级特征提取网络包括多个串行的基础特征提取网络，每一层级的所述基础特征提取网络配置为对输入图像进行特征提取，得到对应层级的原始特征图，其中，所述原始特征图的尺寸相对于输入图像的尺寸减半，并且所述原始特征图的通道数目相对于输入图像的通道数目翻倍。

4.根据权利要求3所述的实时手势检测方法，其特征在于，所述基础特征提取网络在对输入图像特征提取时，包括：

通过基础卷积模块对输入图像进行卷积结构通道减半操作，并通过可分离卷积模块对卷积结构通道减半后的所述输入图像进行特征提取得到特征提取结果；

对卷积结构通道减半后的所述输入图像和所述特征提取结果进行逐元素相加得到逐元素相加结果，并通过基础卷积模块对所述逐元素相加结果做混淆操作得到元素相加混淆结果；

对所述元素相加混淆结果和卷积结构通道减半后的所述输入图像做字符串连接得到连接结果，并对所述连接结果做降采样得到原始特征图。

5.根据权利要求4所述的实时手势检测方法，其特征在于，所述基础卷积模块包括依次连接的1*1的卷积核、BatchNorm归一化单元和LeakyReLU激活函数单元，所述可分离卷积模块包括依次连接的第一基础卷积模块、特征提取模块和第二基础卷积模块，所述特征提取模块包括依次连接的3*3的深度可分离卷积核、BatchNorm归一化单元和LeakyReLU激活函数单元。

6.根据权利要求3所述的实时手势检测方法，其特征在于，所述层级特征提取网络包括5个串行的基础特征提取网络。

7.根据权利要求2所述的实时手势检测方法，其特征在于，所述特征融合网络配置为对所述层级特征提取网络输出的最后三层原始特征图进行融合得到三个融合特征图。

8.根据权利要求7所述的实时手势检测方法，其特征在于，所述特征融合网络在对所述层级特征提取网络输出的最后三层原始特征图进行融合得到多个融合特征图时，包括：

对所述层级特征提取网络输出的最后一层所述原始特征图做下采样步长减半以及通道减半操作得到第一中间特征图，并将所述第一中间特征图和所述层级特征提取网络输出的倒数第二层原始特征图做逐元素相加，得到第二融合特征图；

对所述第二融合特征图做下采样步长减半以及通道减半操作得到第二中间特征图，并将所述第二中间特征图和所述层级特征提取网络输出的倒数第三层原始特征图做逐元素相加，得到第三融合特征图；

对所述第二融合特征图做下采样步长翻倍操作得到第三中间特征图，并将所述第三中间特征图和所述层级特征提取网络输出的最后一层所述原始特征图做逐元素相加，得到第一融合特征图。

9.根据权利要求2所述的实时手势检测方法，其特征在于，所述分离式检测头部网络在基于多个所述融合特征图进行手势识别并输出手势识别结果时，包括：

针对每个所述融合特征图，通过基础卷积模块将所述融合特征图进行分离，得到第一分离特征图、第二分离特征图和第三分离特征图；

根据所述第一分离特征图确定预测手势类别，根据所述第二分离特征图确定手势置信度，根据所述第三分离特征图确定预测手势位置。

10.根据权利要求9所述的实时手势检测方法，其特征在于，所述预测手势位置基于目标框的网格位置编码进行表示，所述网格位置编码配置为表示所述目标框在特征网格中的编码坐标，所述特征网格由融合特征图按照设定单位长度划分得到。

11.根据权利要求10所述的实时手势检测方法，其特征在于，所述预测手势位置基于目标框在融合特征图上的解码坐标、解码尺寸以及融合特征图的下采样步长确定。

12.根据权利要求11所述的实时手势检测方法，其特征在于，所述解码坐标基于以下公式进行确定：