CN113378770B

CN113378770B - 手势识别方法、装置、设备、存储介质

Info

Publication number: CN113378770B
Application number: CN202110720284.1A
Authority: CN
Inventors: 郝燕茹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-06-27
Anticipated expiration: 2041-06-28
Also published as: CN113378770A

Abstract

本公开提供了一种手势识别方法、装置、设备、存储介质以及程序产品，涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可应用于智慧城市场景下。该方法的一具体实施方式包括：获取从手部视频提取的视频帧序列；将视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果，其中，手势识别模型包括特征提取网络和分类网络，分类网络用于根据特征提取网络输出的特征提取结果确定手势类别；确定视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据运动轨迹确定第二手势识别结果；根据第一手势识别结果和第二手势识别结果，生成视频帧序列对应的手势识别结果。该实施方式实现了有助于提升手势识别结果的准确度。

Description

手势识别方法、装置、设备、存储介质

技术领域

本公开的实施例涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可应用于智慧城市场景下。

背景技术

手势识别是当前逐渐开始流行的人机交互方式之一，可应用于智能家居、智能交通、虚拟现实、智能电视、在线教育、空中键盘、体感游戏、智能驾驶舱、智能健身镜、智能物流等各种领域中。

相比于人体或者人脸识别，由于人手在图像上呈现出的目标较小而导致比较难定位或跟踪、人手具有复杂的关节结构、运动时手指部分容易发生自遮挡情况、运动环境的光照等条件的变化、不同人做同一动态手势时手指的运动速度和幅度等差异较大等各种原因，都为手势识别带来了挑战性。

现有的手势识别方法主要包括利用硬件设备的识别方法和基于计算机视觉的识别方法。其中，利用硬件设备通常是利用各种硬件与用户手部连接，直接检测手部的空间位置和各手指的角度等手势信息，从而实现手势识别。基于计算机视觉的识别方法主要是利用视频采集设备等采集手部的图像或视频，然后通过各种计算机视觉技术对采集的图像或视频进行分析，以实现对手势的识别。

发明内容

本公开的实施例提出了一种手势识别方法、装置、设备、存储介质以及程序产品。

第一方面，本公开的实施例提供了一种手势识别方法，该方法包括：获取从手部视频提取的视频帧序列；将视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果，其中，手势识别模型包括特征提取网络和分类网络，分类网络用于根据特征提取网络输出的特征提取结果确定手势类别；确定视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据运动轨迹确定第二手势识别结果；根据第一手势识别结果和第二手势识别结果，生成视频帧序列对应的手势识别结果。

第二方面，本公开的实施例提供了一种手势识别装置，该装置包括：获取模块，被配置成获取从手部视频提取的视频帧序列；第一识别模块，被配置成将视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果，其中，手势识别模型包括特征提取网络和分类网络，分类网络用于根据特征提取网络输出的特征提取结果确定手势类别；第二识别模块，被配置成确定视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据运动轨迹确定第二手势识别结果；生成模块，被配置成根据第一手势识别结果和第二手势识别结果，生成视频帧序列对应的手势识别结果。

第三方面，本公开实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

第四方面，本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

第五方面，本公开实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开的实施例提供的手势识别方法、装置、设备、存储介质以及程序产品，对于从手部视频中提取的视频帧序列，同时利用手势识别模型进行手势识别和基于该手部关键点的运动轨迹进行手势识别，并结合两种手势识别所得到的手势识别结果来生成该视频帧序列对应的手势识别结果，有助于提升手势识别结果的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性系统架构图；

图2是本公开的手势识别方法的一个实施例的流程图；

图3是本公开的手势识别方法的又一个实施例的流程图；

图4是本公开的实施例的手势识别方法的一个应用场景的示意图；

图5是本公开的手势识别装置的一个实施例的结构示意图；

图6是适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的手势识别方法或手势识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括视频采集设备101、网络102和服务器103。网络102用以在视频采集设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

视频采集设备101可以通过网络102与服务器103交互，以接收或发送视频(如手部视频等)等。视频采集设备101可以是硬件，也可以是软件。当视频采集设备101为硬件时，可以是各种带有摄像头的电子设备。当视频采集设备101为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器103可以提供各种服务。例如，服务器103可以获取从视频采集设备101采集到的手部视频中提取的视频帧序列，并对视频帧序列进行手势识别，以生成视频帧序列对应的手势识别结果。

需要说明的是，服务器103可以是硬件，也可以是软件。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的手势识别方法一般由服务器103执行，相应地，手势识别装置一般设置于服务器103中。

应该理解，图1中的视频采集设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的视频采集设备、网络和服务器。

继续参考图2，其示出了根据本公开的手势识别方法的一个实施例的流程200。该手势识别方法包括以下步骤：

步骤201，获取从手部视频提取的视频帧序列。

在本实施例中，手部视频可以指包含手部的视频。视频帧序列可以由手部视频中的若干视频帧组成。视频帧序列包含的视频帧的数目可以任意设置。

根据实际的应用场景或应用需求，可以灵活采用各种方法从手部视频提取视频帧序列。例如，可以间隔式地抽取若干关键帧组成视频帧序列。

手势识别方法的执行主体(如图1所示的服务器103等)可以从本地或其他电子设备、所连接的数据库等获取视频帧序列。例如，执行主体可以其包括的摄像头采集手部视频，然后从手部视频中提取视频帧序列。由例如，可以由用户终端采集手部视频并提取视频帧序列，然后将视频帧序列发送至执行主体。

需要说明的是，从手部视频中提取视频帧序列的执行者可以是上述手势识别的执行主体，也可以是其他电子设备。

步骤202，将视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果。

在本实施例中，手势识别模型可以用于识别输入的视频帧序列所包含的手势，其输出的手势识别结果可以作为第一手势识别结果。具体地，手势识别模型可以包括特征提取网络和分类网络。其中，特征提取网络可以用于提取输入的视频帧序列所包括的各个视频帧的特征，得到特征提取结果，分类网络可以用于根据特征提取网络输出的特征提取结果确定视频帧序列对应的手势类别。根据实际的应用场景，可以由技术人员预先设置手势类别集，此时分类网络可以用于确定视频帧序列对应的、属于该手势类别集中的手势类别。

手势识别模型可以基于现有的各种卷积神经网络(CNN，Convolutional NeuralNetworks)的网络结构进行构建，然后可以利用预设的训练样本和损失函数，利用机器学习的方法训练得到。

步骤203，确定视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据运动轨迹确定第二手势识别结果。

在本实施例中，视频帧的手部关键点可以指视频帧所包含的手部的关键点。其中，手部的关键点的数目可以根据实际的应用场景由技术人员预先设置。例如，手部的关键点可以为21个骨节点。

视频帧序列中的视频帧的手部关键点的运动轨迹可以指手部关键点按照视频帧对应的时间戳，在视频帧序列所包括的各视频帧之间的位置变化。例如，在手部的关键点为21个骨节点时，视频帧序列中的视频帧的手部关键点的运动轨迹可以包括21个骨节点分别对应的运动轨迹，每个骨节点对应的运动轨迹可以指该骨节点在视频帧序列中的各视频帧中的位置变化。

具体地，可以先利用现有的各种关键点识别方法(如基于图模型的方法、基于深度学习的方法等等)确定视频帧序列中的每个视频帧对应的手部关键点的位置，进而通过比较各视频帧分别对应的手部关键点的位置得到视频帧序列中的视频帧的手部关键点的运动轨迹。

在得到视频帧序列中的视频帧的手部关键点的运动轨迹之后，可以采用各种方法确定视频帧序列对应的手势识别结果作为第二手势识别结果。例如，可以预先设置各种手势与手部关键点的运动轨迹之间的对应关系，此时，在得到视频帧对应的手部关键点的运动轨迹之后，可以查询预设的对应关系该运动轨迹对应的手势，从而得到手势识别结果。

需要说明的是，为了区分不同处理方法得到的手势识别结果，分别命名为第一手势识别结果和第二手势势必结果，本领域技术人员应该理解，其中的第一和第二并不构成对手势识别结果的特殊限定。

步骤204，根据第一手势识别结果和第二手势识别结果，生成视频帧序列对应的手势识别结果。

在本实施例中，在得到第一手势识别结果和第二手势识别结果之后，可以采用各种方法综合两个手势识别结果来生成视频帧序列对应的手势识别结果作为最终的手势识别结果。

例如，若第一手势识别结果指示的手势和第二手势识别结果指示的手势相同，则可以将这两个手势识别结果指示的手势作为视频帧序列对应的手势识别结果。若第一手势识别结果指示的手势和第二手势识别结果指示的手势不同，可以根据预设的第一手势识别结果和第二手势识别结果分别对应的优先级，选取优先级高的手势识别结果作为视频帧序列对应的手势识别结果。

在本实施例的一些可选地实现方式中，在第一手势识别结果指示的手势和第二手势识别结果指示的手势不同时，可以确定第一手势识别结果的置信度和第二手势识别结果的置信度，然后根据第一手势识别结果和第二手势识别结果分别对应的置信度，生成视频帧序列对应的手势识别结果。

其中，第一手势识别结果的置信度可以利用手势识别模型得到。此时，手势识别模型可以根据输入的视频帧序列，输出该视频帧序列对应的手势识别结果和该手势识别结果的置信度。

第二手势识别结果的置信度可以采用各种方法确定。例如，在识别视频帧序列所包括的各视频帧对应的手部关键点时，可以同时确定识别出的每个视频帧对应的手部关键点的置信度，然后计算视频帧序列包括的各视频帧分别对应的手部关键点的置信度的均值作为第二手势识别结果的置信度。

又例如，在预先设置有各种手势与手部关键点的运动轨迹之间的对应关系时，可以计算查找到的手部关键点的运动轨迹与生成的视频帧对应的手部关键点的运动轨迹之间的相似度作为第二手势识别结果的置信度。

具体地，可以采用各种方法根据第一手势识别结果和第二手势识别结果分别对应的置信度，生成视频帧序列对应的手势识别结果。一般地，可以选取对应的置信度较大的手势识别结果作为视频帧序列对应的手势识别结果。又例如，可以先确定第一手势识别结果的置信度是否大于预设阈值，若大于，则使用第一手势识别结果作为视频帧序列对应的手势识别结果，若不大于，可以选取对应的置信度较大的手势识别结果作为视频帧序列对应的手势识别结果。

在利用手势识别模型对视频帧序列进行处理得到手势识别结果的同时，利用基于关键点识别的运动轨迹跟踪对视频帧序列进行处理也得到手势识别结果，在两个手势识别结果不一致时，根据分别对应的置信度选取置信度较大的手势识别结果作为视频帧序列最终对应的手势识别结果，有助于提升手势识别结果的准确度。

在本实施例的一些可选地实现方式中，手势识别模型可以为三维卷积神经网络(3D CNN)。其中，3D CNN是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核，通过这种结构，卷积层中的特征图都会与上一层中的多个相邻帧相连，从而捕获运动信息。作为示例，手势识别模型包括的特征提取网络可以采用C3D网络等，分类网络可以采用ResNeXt网络(如ResNeXt-101等)等等。

和2D CNN相比，3D CNN可以更好地捕捉视频帧序列所包括的各个视频帧的运动信息，从而可以更充分地利用时间维度和空间维度的特征信息进行更准确地手势识别。

在本实施例的一些可选地实现方式中，对于视频帧序列中的视频帧，可以先生成由该视频帧中的各手部关键点所形成的关键点拓扑结构，然后根据视频帧序列中的各视频帧分别对应的关键点拓扑结构，确定视频帧序列中的视频帧的手部关键点的运动轨迹。

其中，视频帧中的各手部关键点所形成的关键点拓扑结构可以指各手部关键点按照预设顺序的连线所形成的几何形状。预设顺序可以由技术人员预先设置。具体地，对于视频帧序列中的每个视频帧，可以先识别该视频帧中的各关键点的位置，然后通过连接各关键点形成该视频帧对应的关键点拓扑结构。

在得到视频帧序列中的各视频帧分别对应的关键点拓扑结构之后，可以通过比较各拓扑结构之间的差异得到视频帧序列中的视频帧的手部关键点的运动轨迹。

通过分析视频帧序列中的各视频帧分别对应的关键点拓扑结构之间的差异，可以从整体上更好地把握视频帧序列中的视频帧的手部关键点的运动轨迹，从而有助于基于运动轨迹得到更准确地手势识别结果。

在本实施例的一些可选地实现方式中，视频帧序列中的视频帧对应的手部关键点可以使用手部热图表示。其中，手部热图具体可以用于表示视频帧中的各像素点属于手部关键点的概率。

具体地，对于视频帧序列中的每个视频帧，该视频帧中的每个手部关键点都可以对应一个手部热图，且该手部热图可以表示该视频帧中的各像素点属于该关键点的概率。

利用手部热图可以更精确地表示每个手部关键点在视频帧中的位置，进而利用手部热图更精确地捕捉视频帧序列中的视频帧的手部关键点的运动轨迹，如利用手部热图分析指尖关键点的运动轨迹，从而有助于提升基于运动轨迹确定的手势识别结果的精确度。

可选地，在手势识别模型的训练过程中，可以使用PaddleSlim等工具的量化能力，通过剪枝、蒸馏等方法在保证模型效果的基础上，实现模型如Int8量化，从而实现较高的加速比。

此外，在手势识别模型的训练过程中，可以使用编辑距离(如LevenshteinDistance，莱文斯坦距离等)作为指标之一检测手势识别模型的识别效果，以保证训练好的手势识别模型对手部视频的第一视频帧的手势识别效果。其中，编辑距离主要指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符。

本公开的上述实施例提供的手势识别方法一方面利用手势识别模型生成视频帧序列的第一手势识别结果，同时另一方面利用基于手部关键点的运动轨迹生成第二手势识别结果，然后通过综合考虑第一手势识别结果和第二手势识别结果，以充分利用各种手势识别结果来确定视频帧序列对应的手势识别结果，从而有助于提升视频帧序列对应的手势识别结果的准确度。

进一步参考图3，其示出了手势识别方法的又一个实施例的流程300。该手势识别方法的流程300，包括以下步骤：

步骤301，获取手部视频。

在本实施例中，执行主体可以从本地获取其他设备获取手部视频。

步骤302，按照预设步长，从手部视频中依次选取预设数目的视频帧，得到至少两个视频帧序列。

在本实施例中，步长和数目都可以由技术人员根据实际的应用场景灵活设置。作为示例，步长为1，数目为3时，则可以将手部视频的第一个视频帧、第二个视频帧和第三个视频帧组成第一视频帧序列，然后将手部视频的第二个视频帧、第三个视频帧和第四个视频帧组成第二视频帧序列，以此类推，得到若干个视频帧序列。

步骤303，对于至少两个视频帧序列中的视频帧序列，通过如下步骤3031-3033得到该视频帧序列对应的手势识别结果：

步骤3031，将该视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果。

步骤3032，确定视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据运动轨迹确定第二手势识别结果。

步骤3033，根据第一手势识别结果和第二手势识别结果，生成该视频帧序列对应的手势识别结果。

上述步骤3031-3033的具体执行过程可参考图2实施例中所描述的相关内容，在此不再赘述。

步骤304，根据至少两个视频帧序列分别对应的手部识别结果，生成手部视频的手势识别结果。

在本实施例中，在得到至少两个视频帧序列分别对应的手部识别结果之后，可以结合各视频帧序列分别对应的手部识别结果，确定手部视频对应的手势识别结果。例如，可以将对各视频帧序列分别对应的手部识别结果进行去重处理后得到的处理结果作为手部视频对应的手势识别结果。又例如，可以先选取置信度大于预设阈值的手部识别结果，然后对选取的手势识别结果进行去重处理以得到手部视频对应的手势识别结果。

在本实施例的一些可选地实现方式中，对于至少两个视频帧序列中的每个视频帧序列，在执行上述步骤303之前，可以先检测该视频帧序列是否包含手部图像。若检测到该视频帧序列不包含手部图像，可以停止对该视频帧序列进行后续的手势识别。若检测到该视频帧序列包括手部图像，可以继续执行上述步骤303以确定该视频帧序列对应的手势识别结果。

其中，可以利用现有的各种目标检测方法实现对视频帧序列的手部检测。可选地，可以采用一些轻量级的2D CNN对视频帧序列进行手部检测，以保证手部检测速度。

由于一些情况下，从手部视频提取的视频帧序列的数量是非常多的，而且后续还要同时利用两种手势识别方法对视频帧序列进行处理，因此，通过先对视频帧序列进行手部检测，可以及时停止对不包含手部图像的视频帧序列的后续手势识别，可以大大地降低计算量，提升手势识别效率。

继续参见图4，图4是根据本实施例的手势识别方法的一个示意性的应用场景400。在图4的应用场景中，手势识别方法的执行主体可以先采集手部视频，然后按照预设步长从手部视频中依次提取包含预设数目的视频帧序列，得到至少两个视频帧序列。

然后，对于每个视频帧序列，执行主体可以先利用轻量级CNN进行手部检测，以确定该视频帧序列是否包含手部图像，若确定该视频帧序列不包含手部图像，则停止后续对该视频帧序列的手势识别。

若确定该视频帧序列包含手部图像，可以将该视频帧序列输入至预先训练的3DCNN以进行手势识别，得到第一手势识别结果，同时，对该视频帧序列中的各视频帧进行手部关键点识别，并根据手部关键点识别结果确定该视频帧序列对应的手部关键点运动轨迹，再根据得到的手部关键点运动轨迹生成该视频帧序列对应的第二手势识别结果。之后，可以结合第一手势识别结果和第二手势识别结果确定该视频帧序列对应的手势识别结果。

进一步地，可以结合各视频帧序列分别对应的手势识别结果，确定手部视频对应的手势识别结果。

本公开的上述实施例提供的方法通过从手部视频中提取至少两个视频帧序列，并分别对每个视频帧序列进行手势识别，进而通过结合各视频帧序列分别对应的手势识别结果得到手部视频对应的手势识别结果。此外，在对每个视频帧序列进行手势识别之前，先对该视频帧序列进行手部检测，并在确定该视频帧序列不包含手部图像时及时停止对该视频帧序列的后续手势识别处理，从而节省计算资源和功耗的浪费。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了手势识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例提供的手势识别装置500包括获取模块501、第一识别模块502、第二识别模块503和生成模块504。其中，获取模块501被配置成获取从手部视频提取的视频帧序列；第一识别模块502被配置成将视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果，其中，手势识别模型包括特征提取网络和分类网络，分类网络用于根据特征提取网络输出的特征提取结果确定手势类别；第二识别模块503被配置成确定视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据运动轨迹确定第二手势识别结果；生成模块504被配置成根据第一手势识别结果和第二手势识别结果，生成视频帧序列对应的手势识别结果。

在本实施例中，手势识别装置500中：获取模块501、第一识别模块502、第二识别模块503和生成模块504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述手势识别装置500还包括：确定模块(图中未示出)被配置成确定第一手势识别结果的置信度，以及确定第二手势识别结果的置信度；以及生成模块进一步被配置成响应于确定第一手势识别结果和第二手势识别结果分别指示的手势不同，根据第一手势识别结果和第二手势识别结果分别对应的置信度，生成视频帧序列对应的手势识别结果。

在本实施例的一些可选的实现方式中，上述手势识别模型为三维卷积神经网络。

在本实施例的一些可选的实现方式中，上述第二识别模块503进一步被配置成：对于视频帧序列中的视频帧，生成由该视频帧中的各手部关键点所形成的关键点拓扑结构；根据视频帧序列中的各视频帧分别对应的关键点拓扑结构，确定视频帧序列中的视频帧的手部关键点的运动轨迹。

在本实施例的一些可选的实现方式中，视频帧序列中的视频帧对应的手部关键点使用手部热图表示，其中，手部热图用于表示视频帧中的各像素点属于手部关键点的概率。

在本实施例的一些可选的实现方式中，上述获取模块501进一步被配置成：获取手部视频；按照预设步长，从手部视频中依次选取预设数目的视频帧，得到至少两个视频帧序列；以及生成模块504进一步被配置成：根据至少两个视频帧序列分别对应的手部识别结果，生成手部视频的手势识别结果。

在本实施例的一些可选的实现方式中，上述手势识别装置500还包括：检测模块(图中未示出)被配置成对于至少两个视频帧序列中的视频帧序列，检测该视频帧序列是否包含手部图像；响应于检测到该视频帧序列不包含手部图像，停止对该视频帧序列的手势识别。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如手势识别方法。例如，在一些实施例中，手势识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元501执行时，可以执行上文描述的手势识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行手势识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种手势识别方法，包括：

获取从手部视频提取的视频帧序列；

将所述视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果，其中，所述手势识别模型包括特征提取网络和分类网络，分类网络用于根据特征提取网络输出的特征提取结果确定手势类别；

确定所述视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据所述运动轨迹确定第二手势识别结果；

根据所述第一手势识别结果和第二手势识别结果，生成所述视频帧序列对应的手势识别结果；

确定所述第一手势识别结果的置信度，以及确定所述第二手势识别结果的置信度；

其中，所述根据所述第一手势识别结果和第二手势识别结果，生成所述视频帧序列对应的手势识别结果，包括：响应于确定所述第一手势识别结果和第二手势识别结果分别指示的手势不同，根据所述第一手势识别结果和第二手势识别结果分别对应的置信度，生成所述视频帧序列对应的手势识别结果。

2.根据权利要求1所述的方法，其中，所述手势识别模型为三维卷积神经网络。

3.根据权利要求1所述的方法，其中，所述确定所述视频帧序列中的视频帧的手部关键点的运动轨迹，包括：

对于所述视频帧序列中的视频帧，生成由该视频帧中的各手部关键点所形成的关键点拓扑结构；

根据所述视频帧序列中的各视频帧分别对应的关键点拓扑结构，确定所述视频帧序列中的视频帧的手部关键点的运动轨迹。

4.根据权利要求3所述的方法，其中，所述视频帧序列中的视频帧对应的手部关键点使用手部热图表示，其中，手部热图用于表示视频帧中的各像素点属于手部关键点的概率。

5.根据权利要求1所述的方法，其中，所述获取从手部视频提取的视频帧序列，包括：

获取手部视频；

按照预设步长，从所述手部视频中依次选取预设数目的视频帧，得到至少两个视频帧序列；以及

所述方法还包括：

根据所述至少两个视频帧序列分别对应的手部识别结果，生成所述手部视频的手势识别结果。

6.根据权利要求5所述的方法，还包括：

对于所述至少两个视频帧序列中的视频帧序列，检测该视频帧序列是否包含手部图像；响应于检测到该视频帧序列不包含手部图像，停止对该视频帧序列的手势识别。

7.一种手势识别装置，包括：

获取模块，被配置成获取从手部视频提取的视频帧序列；

第一识别模块，被配置成将所述视频帧序列输入至预先训练的手势识别模型，得到第一手势识别结果，其中，所述手势识别模型包括特征提取网络和分类网络，分类网络用于根据特征提取网络输出的特征提取结果确定手势类别；

第二识别模块，被配置成确定所述视频帧序列中的视频帧的手部关键点的运动轨迹，以及根据所述运动轨迹确定第二手势识别结果；

生成模块，被配置成根据所述第一手势识别结果和第二手势识别结果，生成所述视频帧序列对应的手势识别结果；

确定模块，被配置成确定所述第一手势识别结果的置信度，以及确定所述第二手势识别结果的置信度；

所述生成模块进一步被配置成响应于确定所述第一手势识别结果和第二手势识别结果分别指示的手势不同，根据所述第一手势识别结果和第二手势识别结果分别对应的置信度，生成所述视频帧序列对应的手势识别结果。

8.根据权利要求7所述的装置，其中，所述手势识别模型为三维卷积神经网络。

9.根据权利要求7所述的装置，其中，所述第二识别模块进一步被配置成：

10.根据权利要求9所述的装置，其中，所述视频帧序列中的视频帧对应的手部关键点使用手部热图表示，其中，手部热图用于表示视频帧中的各像素点属于手部关键点的概率。

11.根据权利要求7所述的装置，其中，所述获取模块进一步被配置成：获取手部视频；按照预设步长，从所述手部视频中依次选取预设数目的视频帧，得到至少两个视频帧序列；以及

所述生成模块进一步被配置成：根据所述至少两个视频帧序列分别对应的手部识别结果，生成所述手部视频的手势识别结果。

12.根据权利要求11所述的装置，还包括：

检测模块，被配置成对于所述至少两个视频帧序列中的视频帧序列，检测该视频帧序列是否包含手部图像；响应于检测到该视频帧序列不包含手部图像，停止对该视频帧序列的手势识别。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。