CN116263622A

CN116263622A - 手势识别方法、装置、电子设备、介质及程序产品

Info

Publication number: CN116263622A
Application number: CN202111522926.3A
Authority: CN
Inventors: 余海桃; 孙飞; 吴涛
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-06-16

Abstract

本申请涉及一种手势识别方法、装置、电子设备、介质及程序产品，应用于图像处理技术领域，所述方法包括：获取针对用户手势的一个或多个待处理图像，其中，多个手势图像从多个不同方位采集得到；基于预先训练完成的位置检测模型，确定待处理图像中多个手部关键点的位置信息以及位置信息的置信度；根据位置信息进行姿态解算，得到用户手势的姿态信息；根据位置信息的置信度，确定是否基于姿态信息对用户手势进行跟踪。本申请可以提高手势识别的准确性。

Description

手势识别方法、装置、电子设备、介质及程序产品

技术领域

本申请涉及图像处理技术领域，尤其涉及一种手势识别方法、装置、电子设备、介质及程序产品。

背景技术

在VR/AR(虚拟现实/增强现实)领域，手势识别是实现交互的一种方式。手势识别越准确，用户的交互体验也越好。相关技术中，可以基于计算机视觉追踪识别技术来进行手势识别。然而，当用户的手势较为复杂时，手势识别结果和用户的实际手势可能产生较大的残差，手势识别准确度较低等。

发明内容

为了解决上述技术问题，本申请提供了一种手势识别方法、装置、电子设备、介质及程序产品。

根据本申请的第一方面，提供了一种手势识别方法，包括：

获取针对用户手势的一个或多个待处理图像，其中，所述多个手势图像从多个不同方位采集得到；

基于预先训练完成的位置检测模型，确定所述待处理图像中多个手部关键点的位置信息以及所述位置信息的置信度；

根据所述位置信息进行姿态解算，得到所述用户手势的姿态信息；

根据所述位置信息的置信度，确定是否基于所述姿态信息对所述用户手势进行跟踪。

可选的，根据所述位置信息进行姿态解算，得到所述用户手势的姿态信息，包括：

根据所述位置信息和手模型，利用优化算法进行姿态解算，得到所述用户手势的姿态信息和残差值；其中，所述手模型包含手部的特征信息；

所述根据所述位置信息的置信度，确定是否基于所述姿态信息对所述用户手势进行跟踪预测，包括：

根据所述位置信息的置信度和所述残差值，确定是否基于所述姿态信息对所述用户手势进行跟踪预测。

可选的，所述根据所述位置信息的置信度和所述残差值，确定是否基于所述姿态信息对所述用户手势进行跟踪，包括：

根据所述残差值和预设残差阈值，确定残差置信度；

根据所述位置信息的置信度和所述残差置信度，确定跟踪置信度；

如果所述跟踪置信度大于等于预设置信度阈值，则基于所述姿态信息对所述用户手势进行跟踪；

如果所述跟踪置信度小于所述预设置信度阈值，则不基于所述姿态信息对所述用户手势进行跟踪。

可选的，所述方法还包括：

如果基于所述姿态信息对所述用户手势进行跟踪，基于所述姿态信息和所述待处理图像的前一帧图像或前多帧图像中用户手势的姿态信息，对所述待处理图像的下一帧图像中的用户手势进行预测，得到所述下一帧图像中用户手势的预测姿态信息；

获取所述待处理图像的下一帧图像，通过所述位置检测模型，确定所述下一帧图像中多个手部关键点的位置信息以及所述位置信息的置信度；

根据所述预测姿态信息对所述下一帧图像中多个手部关键点的位置信息以及所述位置信息的置信度进行修正。

可选的，根据所述预测姿态信息对所述下一帧图像中多个手部关键点的位置信息进行修正，包括：

根据所述预测姿态信息确定在世界坐标系下所述多个手部关键点的第一预测位置坐标；

将所述第一预测位置坐标转换为所述多个不同方位的相机坐标系下的第二预测位置坐标；

将所述第二预测位置坐标转换为图像坐标系下的第三预测位置坐标；

根据所述第三预测位置坐标，对多个手部关键点的位置信息进行修正。

可选的，位置检测模型包括：手部区域识别子模型和关键点检测子模型；

所述基于预先训练完成的位置检测模型，确定所述待处理图像中多个手部关键点的位置信息以及所述位置信息的置信度，包括：

将所述多个待处理图像分别输入所述手部区域识别子模型，得到第一手部区域图像；

根据所述第一手部区域图像，得到第二手部区域图像；

将所述第二手部区域图像输入所述关键点检测子模型，得到手部关键点的位置信息。

可选的，所述手部区域识别子模型的训练方法包括：

获取包含手部信息的多个第一样本图像、所述第一样本图像中的手部区域图像以及所述第一样本图像中手的类型，其中，手的类型包括左手和/或右手；

将所述第一样本图像作为输入数据，将所述第一样本图像中的手部区域图像以及所述第一样本图像中手的类型作为标签数据，训练生成所述手部区域识别子模型；

所述关键点检测子模型的训练方法包括：

获取包含手部信息的多个第二样本图像、所述第二样本图像中手部关键点的位置信息；

将所述第二样本图像作为输入数据，将所述第二样本图像中手部关键点的位置信息作为标签数据，训练生成所述关键点检测子模型。

可选的，所述方法还包括：

在训练生成所述手部区域识别子模型后，对所述手部区域识别子模型中网络参数的参数值进行量化；和/或；

在训练所述关键点检测子模型时，对所述关键点检测子模型中网络参数的参数值进行量化。

根据本申请的第二方面，提供了一种手势识别装置，包括：

待处理图像获取模块，用于获取针对用户手势的一个或多个待处理图像，其中，所述多个手势图像从多个不同方位采集得到；

位置信息确定模块，用于基于预先训练完成的位置检测模型，确定所述待处理图像中多个手部关键点的位置信息以及所述位置信息的置信度；

姿态信息确定模块，用于根据所述位置信息进行姿态解算，得到所述用户手势的姿态信息；

手势跟踪判断模块，用于根据所述位置信息的置信度，确定是否基于所述姿态信息对所述用户手势进行跟踪。

可选的，所述姿态信息确定模块，具体用于根据所述位置信息和手模型，利用优化算法进行姿态解算，得到所述用户手势的姿态信息和残差值；其中，所述手模型包含手部的特征信息；

所述手势跟踪判断模块，具体用于根据所述位置信息的置信度和所述残差值，确定是否基于所述姿态信息对所述用户手势进行跟踪预测。

可选的，所述手势跟踪判断模块，具体用于根据所述残差值和预设残差阈值，确定残差置信度；根据所述位置信息的置信度和所述残差置信度，确定跟踪置信度；如果所述跟踪置信度大于等于预设置信度阈值，则基于所述姿态信息对所述用户手势进行跟踪；如果所述跟踪置信度小于所述预设置信度阈值，则不基于所述姿态信息对所述用户手势进行跟踪。

可选的，所述手势识别装置还包括：

姿态信息预测模块，用于如果基于所述姿态信息对所述用户手势进行跟踪，基于所述姿态信息和所述待处理图像的前一帧图像或前多帧图像中用户手势的姿态信息，对所述待处理图像的下一帧图像中的用户手势进行预测，得到所述下一帧图像中用户手势的预测姿态信息；

所述待处理图像获取模块，还用于获取所述待处理图像的下一帧图像；

所述位置信息确定模块，还用于通过所述位置检测模型，确定所述下一帧图像中多个手部关键点的位置信息以及所述位置信息的置信度；

位置信息修正模块，用于根据所述预测姿态信息对所述下一帧图像中多个手部关键点的位置信息以及所述位置信息的置信度进行修正。

可选的，所述位置信息修正模块具体用于根据所述预测姿态信息确定在世界坐标系下所述多个手部关键点的第一预测位置坐标；将所述第一预测位置坐标转换为所述多个不同方位的相机坐标系下的第二预测位置坐标；将所述第二预测位置坐标转换为图像坐标系下的第三预测位置坐标；根据所述第三预测位置坐标，对多个手部关键点的位置信息进行修正。

所述位置信息确定模块，具体用于将所述多个待处理图像分别输入所述手部区域识别子模型，得到第一手部区域图像；根据所述第一手部区域图像，得到第二手部区域图像；将所述第二手部区域图像输入所述关键点检测子模型，得到手部关键点的位置信息。

可选的，所述手势识别装置还包括：

第一训练数据获取模块，用于获取包含手部信息的多个第一样本图像、所述第一样本图像中的手部区域图像以及所述第一样本图像中手的类型，其中，手的类型包括左手和/或右手；

手部区域识别子模型生成模块，用于将所述第一样本图像作为输入数据，将所述第一样本图像中的手部区域图像以及所述第一样本图像中手的类型作为标签数据，训练生成所述手部区域识别子模型；

第二训练数据获取模块，用于获取包含手部信息的多个第二样本图像、所述第二样本图像中手部关键点的位置信息；

关键点检测子模型生成模块，用于将所述第二样本图像作为输入数据，将所述第二样本图像中手部关键点的位置信息作为标签数据，训练生成所述关键点检测子模型。

可选的，所述手势识别装置还包括：

第一量化模块，用于在训练生成所述手部区域识别子模型后，对所述手部区域识别子模型中网络参数的参数值进行量化；和/或；

第二量化模块，用于在训练所述关键点检测子模型时，对所述关键点检测子模型中网络参数的参数值进行量化。

根据本申请的第三方面，提供了一种电子设备，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

根据本申请的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

根据本申请的第五方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面所述的方法。

本申请实施例提供的技术方案与现有技术相比具有如下优点：

通过从一个方位或多个不同方位采集针对用户手势的待处理图像，并获取待处理图像中多个手部关键点的位置信息及位置信息的置信度。根据位置信息进行姿态解算，可以得到用户手势的姿态信息。由于置信度表示位置信息的可靠程度，位置信息的可靠程度决定了姿态信息的可靠程度，因此，可以根据位置信息的置信度，来判断是否基于姿态信息对用户手势进行跟踪，从而提高手势识别的准确性。在采集多个不同方位的待处理图像的情况下，可以弥补单一方位视觉遮挡的缺陷，能更好地得到符合真实手势的姿态信息。在根据该姿态信息进行手势跟踪的情况下，可以进一步提高手势识别的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为可以应用于本申请实施例的手势识别方法的一种应用场景示意图；

图2为本申请实施例中手势识别方法的一种流程图；

图3A为手部关键点的一种示意图；

图3B为食指中手部关键点的一种世界坐标系示意图；

图4A为本申请实施例中手部区域识别子模型的训练方法的一种流程图；

图4B为本申请实施例中关键点检测子模型的训练方法的一种流程图；

图5为本申请实施例中手势识别方法的又一种流程图；

图6为本申请实施例中手势识别装置的一种结构示意图；

图7为本申请实施例中电子设备的一种结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面将对本申请的方案进行进一步描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但本申请还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本申请的一部分实施例，而不是全部的实施例。

本申请实施例的手势识别方法可以应用于VR/AR场景，或者其他可以通过用户手势与设备进行交互的场景。本申请实施例的手势识别方法的执行主体可以是与用户手势进行交互的设备，例如VR/AR设备等。

图1为可以应用于本申请实施例的手势识别方法的一种应用场景示意图。如图1所示，用户在使用VR设备的过程中，可以通过手势与VR设备进行交互。VR设备的不同位置配置有一个或多个摄像头，其中，在配置有多个摄像头的情况下，多个摄像头可以从不同方位对用户的手势进行采集，得到手势图像。通过提取手势图像中的手部关键点的位置信息以及位置信息的置信度，根据位置信息可以进行姿态解算，得到用户手势的姿态信息。根据位置信息的置信度，可以评估姿态信息的可靠程度，从而判断是否根据姿态信息进行手势跟踪，以提高手势识别的准确性。本申请结合多个不同方位的手部关键点的位置信息，进行姿态解算，可以弥补单一方位视觉遮挡的缺陷，得到更真实、准确的姿态信息。进一步地，在根据该姿态信息对用户手势进行跟踪时，可以更准确地预测得到下一帧图像中用户手势的姿态信息。

以下首先对本申请实施例的手势识别方法进行介绍。

参见图2，图2为本申请实施例中手势识别方法的一种流程图，可以包括以下步骤：

步骤S210，获取针对用户手势的一个或多个待处理图像，其中，多个手势图像从多个不同方位采集得到。

本申请实施例中，与用户手势进行交互的设备中可以配置有一个或多个摄像头，用于采集用户手势的图像数据。在配置有多个摄像头的情况下，多个摄像头可以为设备的不同位置，以从不同方位采集图像数据。摄像头可以实时采集图像数据，待处理图像指当前时刻采集到的图像数据。

步骤S220，基于预先训练完成的位置检测模型，确定待处理图像中多个手部关键点的位置信息以及位置信息的置信度。

位置检测模型用于检测图像中手部关键点(例如关节点)的位置信息。参见图3A，图3A为手部关节点的一种示意图，可以看出，手部关节点的数量一共21个。通过位置检测模型，可以得到各个手部关节点的位置信息及位置信息的置信度。例如，如果从三个不同方位采集到三个待处理图像，位置检测模型可以对每个待处理图像进行处理，从每个待处理图像中可以确定出21个手部关键点的位置信息和21个手部关键点的位置信息分别对应的置信度，最终可以得到63个手部关键点的位置信息和63个置信度。

位置检测模型可以是一个模型，即将待处理图像输入位置检测模型，可以输出待处理图像中多个手部关键点的位置信息以及位置信息的置信度。或者，位置检测模型也可以由两个子模型构成。可选的，位置检测模型可以包括：手部区域识别子模型和关键点检测子模型；可以将多个待处理图像分别输入手部区域识别子模型，得到第一手部区域图像；根据第一手部区域图像，得到第二手部区域图像；将第二手部区域图像输入关键点检测子模型，得到手部关键点的位置信息。即，依次通过两个子模型对待处理图像进行处理，得到待处理图像中多个手部关键点的位置信息以及位置信息的置信度。

其中，手部区域识别子模型用于检测手在待检测图像中的位置，第一手部区域图像是待检测图像中包含手的那一部分图像。例如，第一手部区域图像可以是包含手的矩形框等。关键点检测子模型用于检测手部关键点的位置信息。在手部区域识别子模型输出第一手部区域图像后，可以直接将第一手部区域图像输入关键点检测子模型，得到多个手部关键点的位置信息以及位置信息的置信度。

或者，为了保证输入关键点检测子模型的图像能够完全包含手，避免出现手被裁剪的情况，可以将第一手部区域图像进行外扩(例如外扩20％)，得到第二手部区域图像。这样，可以保证手部关键点的位置信息的完整性，避免手部关键点的位置信息过少，影响下述姿态解算的准确性。

步骤S230，根据位置信息进行姿态解算，得到用户手势的姿态信息。

根据多个手部关键点的位置信息，通过姿态解算算法，可以得到用户手势的姿态信息。例如，针对多个待处理图像的场景，可以通过坐标系转换的方式进行姿态解算，也就是，可以将多个待处理图像进行两两组合，根据每两个待处理图像中各个手部关键点的位置信息，确定深度信息，将多种组合分别对应的深度信息进行加权平均，得到最终的深度信息。之后，根据该最终的深度信息和相机的内参将任一待处理图像中二维图像坐标系下的位置信息转换到相机坐标系下的三维位置坐标，进一步根据相机的外参将三维位置坐标转换到世界坐标系，得到世界坐标系下的三维位置坐标。至此，将多个待处理图像中单个手部关键点的位置信息转换为该单个手部关键点的在世界坐标系下的一个三维位置坐标。

最后，结合图3A所示的手部关节点的示意图，根据各个手部关键点位置关系和位置坐标，计算得到用户手势的姿态信息。其中，用户手势的姿态信息可以是各个手部关键点的自由度信息等。

如图3B所示，以食指为例，假设四个手部关键点从里到外依次为：手部关键点301、手部关键点302、手部关键点303和手部关键点304。分别计算向量V12(手部关键点301至手部关键点302的向量)在z轴和y轴的投影向量Vz1,Vy1，然后分别计算Vz1和Vy1与x轴和z轴的夹角，即为手部关键点301的自由度信息。计算V12和V23(手部关键点302至手部关键点303的向量)分别在y轴的投影向量，该两个投影向量之间的夹角，即为手部关键点302的自由度信息。手部关键点303的自由度信息和手部关键点302的自由度信息的计算方法类似，手部关键点304没有自由度信息。

步骤S240，根据位置信息的置信度，确定是否基于姿态信息对用户手势进行跟踪。

位置信息的置信度表示位置信息的可靠程度，置信度越高，表示位置信息越可靠。相应地，根据位置信息得到的姿态信息也更准确。因此，可以基于位置信息的置信度，判断是否基于姿态信息对用户手势进行跟踪。可选的，可以将多个手部关键点的位置信息的置信度进行加权平均，得到第一目标置信度，根据第一目标置信度判断是否基于姿态信息对用户手势进行跟踪。或者，将多个手部关键点的位置信息的置信度的最小值确定为第二目标置信度，根据第二目标置信度判断是否基于姿态信息对用户手势进行跟踪。

举例而言，针对三个待处理图像，可以得到63个手部关键点的位置信息分别对应的置信度，可以将63个置信度进行加权平均，得到第一目标置信度，根据第一目标置信度判断是否基于姿态信息对用户手势进行跟踪。或者，将63个置信度中的最小值确定为第二目标置信度，根据第二目标置信度判断是否基于姿态信息对用户手势进行跟踪。

本申请实施例的手势识别方法，通过从一个方位或多个不同方位采集针对用户手势的待处理图像，并获取待处理图像中多个手部关键点的位置信息及位置信息的置信度。根据位置信息进行姿态解算，可以得到用户手势的姿态信息。由于置信度表示位置信息的可靠程度，位置信息的可靠程度决定了姿态信息的可靠程度，因此，可以根据位置信息的置信度，来判断是否基于姿态信息对用户手势进行跟踪，从而提高手势识别的准确性。在采集多个不同方位的待处理图像的情况下，可以弥补单一方位视觉遮挡的缺陷，能更好地得到符合真实手势的姿态信息。在根据该姿态信息进行手势跟踪的情况下，可以进一步提高手势识别的准确性。

参见图4A，图4A为本申请实施例中手部区域识别子模型的训练方法的一种流程图，可以包括以下步骤：

步骤S402，获取包含手部信息的多个第一样本图像、第一样本图像中的手部区域图像以及第一样本图像中手的类型，其中，手的类型包括左手和/或右手。

手部区域识别子模型是用于识别图像中手部区域图像的模型，因此，在训练时，第一样本图像可以是包含手部信息的图像。对第一样本图像进行定位标注，例如从指尖到手腕进行标注，以手部的外截矩形、圆形等为标注内容，得到手部区域图像。为了提高模型的准确性，第一样本图像可以尽可能的丰富，例如，可以是包括各种角度、各种肤色、各种大小、各种姿态的手部信息的图像。

可以理解的是，手分为左手和右手，在手势识别时，可能只识别一只手(左手或右手)，也可能会同时识别两只手，因此，第一样本图像中可以只包含一只手的信息，也可以同时包含两只手(左手和右手，而不是两个左手或两个右手)的信息。手部区域识别子模型除了识别出图像中的手部区域图像外，还可以判断识别出的手部区域图像是左手图像还是右手图像。相应地，在对第一样本图像进行标注时，还可以标注第一样本图像中手的类型。这样，可以根据该第一样本图像中的手部区域图像以及该第一样本图像中手的类型，构建对应的标签数据。

步骤S404，将第一样本图像作为输入数据，将第一样本图像中的手部区域图像以及第一样本图像中手的类型作为标签数据，训练生成手部区域识别子模型。

在构建完输入数据和标签数据后，可以进行神经网络训练。在训练的过程中，可以通过梯度下降法，根据反向传播原理，不断计算损失函数的值，并根据损失函数的值更新网络参数的参数值，其中，网络参数与手部区域识别子模型的网络结构相关，在设置好手部区域识别子模型的网络结构后，可以设置对应的网络参数。损失函数的值可以用来估量预测值与真实值的不一致程度。在训练过程中，损失函数的值符合要求，例如，小于预设阈值等，训练结束，从而得到手部区域识别子模型，即，确定手部区域识别子模型中网络参数的参数值。其中，预设阈值可以根据实际应用进行设置，在此不做限定。

在训练完成之后，还可以通过测试数据验证手部区域识别子模型的准确性，在准确性较高的情况下，可以使用该手部区域识别子模型；在准确性较低的话可以重新训练，直至手部区域识别子模型的准确性满足要求。

需要说明的是，本申请实施例的手势识别方法可以适用于VR场景，由于模型具有较大的网络参数量、计算量以及内存占用量，为了满足在移动端的模型运行效率，可以对手部区域识别子模型进行量化处理。可选的，在训练生成手部区域识别子模型后，对手部区域识别子模型中网络参数的参数值进行量化。例如，可以对网络参数的参数值进行8bit量化处理。也就是，将网络参数的参数值转换为0～255之间的整数，0～255之间的数占用8个比特位。如果网络参数的参数值为float类型的数据，占用4个字节，32个比特位，在进行量化处理后，占用8个比特位，占用的存储空间更小，因此可以提高模型在移动端的运行效率。

参见图4B，图4B为本申请实施例中关键点检测子模型的训练方法的一种流程图，可以包括以下步骤：

步骤S410，获取包含手部信息的多个第二样本图像、第二样本图像中手部关键点的位置信息。

第二样本图像可以是对第一样本图像进行标注后，得到的手部区域图像。或者，第二样本图像也可以是将获取到的其他包含手部信息的样本图像，输入前述训练完成的手部区域识别子模型之后得到的图像。

类似的，可以对第二样本图像中手部关键点的位置信息进行标注，以构建对应的标签数据。为了保证模型训练的准确性，可以在3D场景下进行标注，手部关键点标注可以精确的标注每个手部关键点的位置所在。针对未遮挡的手部关键点，可以准确确定该手部关键点的位置信息，针对遮挡的手部关键点，通过转换角度可以得到准确的位置坐标。

步骤S420，将第二样本图像作为输入数据，将第二样本图像中手部关键点的位置信息作为标签数据，训练生成关键点检测子模型。

类似地，在构建完输入数据和标签数据后，可以进行神经网络训练。在训练完成之后，还可以通过测试数据验证关键点检测子模型的准确性，在准确性较高的情况下，可以使用该关键点检测子模型；在准确性较低的话可以重新训练，直至关键点检测子模型的准确性满足要求。

为了满足在移动端的模型运行效率，也可以对关键点检测子模型进行量化处理。与前述手部区域识别子模型不同的是，由于关键点检测子模型的精度要求较高，可以在训练关键点检测子模型时，对关键点检测子模型中网络参数的参数值进行量化。这样，可以将量化残差在训练过程中加以迭代收敛，提高关键点检测子模型的精度。

参见图5，图5为本申请实施例中手势识别方法的又一种流程图，可以包括以下步骤：

步骤S510，获取针对用户手势的一个或多个待处理图像，其中，多个手势图像从多个不同方位采集得到。

步骤S520，基于预先训练完成的位置检测模型，确定待处理图像中多个手部关键点的位置信息以及位置信息的置信度。

上述步骤S510～步骤S520与图2实施例中步骤S210～步骤S220相同，具体参见图2实施例中的描述即可，在此不再赘述。

步骤S530，根据位置信息和手模型，利用优化算法进行姿态解算，得到用户手势的姿态信息和残差值，其中，手模型包含手部的特征信息。

本申请实施例中，针对一个或多个待处理图像的场景，均可以从手模型出发，通过优化算法(例如最小二乘法优化算法等)确定用户手势的姿态信息，从而可以避免用户手指出现乱扭的问题，提高用户手势的姿态信息确定的准确性。优化算法的解算过程是给定一个假设的初始值，计算残差，修正初始值，直到修正后的值满足预设条件。

具体方法可以如下：

设置初始姿态信息，例如初始自由度信息，初始自由度信息可以是确定一个0状态的手的自由度信息，比如图3所示的五指张开的状态。之后，可以根据初始自由度信息计算出每个手部关键点在世界坐标系的三维位置坐标，根据相机的外参将该三维位置坐标转换到不同方位的相机坐标系下，得到每个方位的相机坐标系下的三维位置坐标。进一步地，通过相机的内参，将相机坐标系下的三维位置坐标转换成图像坐标系下的二维位置坐标。

将上述计算得到的二维位置坐标与通过上述模型检测得到的二维位置坐标之间的差值确定为残差值，利用优化算法优化自由度信息，使得目标残差值(例如可以是各个图像坐标系下的残差值之和)小于预设残差值，比如10，也就是，认为目标残差值小于10，姿态的匹配程度满足要求，此时的自由度信息即为最终的自由度信息。如果目标残差值无法小于预设残差值，可以根据预先设置的最大迭代次数，比如10次，10次迭代后无论是否小于预设残差值，均结束优化，返回最终的自由度信息和残差值。最终的自由度信息即为计算得到的用户手势的姿态信息，目标残差即为用户手势的姿态信息对应的残差值。

步骤S540，根据位置信息的置信度和残差值，确定是否基于姿态信息对用户手势进行跟踪预测。

由于残差值可以表示用户手势的姿态信息的准确程度，位置信息的置信度也可以决定用户手势的姿态信息的准确程度，因此本申请可以根据位置信息的置信度和残差值，确定是否基于姿态信息对用户手势进行跟踪预测。

在一种可选的实施方式中，可以根据残差值和预设残差阈值，确定残差置信度。例如，若a＝残差值和预设残差阈值的比值，当a大于等于1时，即残差值大于等于预设残差阈值，残差置信度为0，否则残差置信度＝1-a。当然，残差置信度的确定方式不限于此。

之后，根据位置信息的置信度和残差置信度，确定跟踪置信度。例如，可以将位置信息的置信度和残差置信度的加权平均值作为跟踪置信度。或者，将位置信息的置信度和残差置信度中的最小值作为跟踪置信度。

如果跟踪置信度大于等于预设置信度阈值，则基于姿态信息对用户手势进行跟踪，执行步骤S550。如果跟踪置信度小于预设置信度阈值，则不基于该姿态信息对用户手势进行跟踪。需要说明的是，不基于该姿态信息对用户手势进行跟踪是指该姿态信息的准确程度较低，在跟踪时可以不使用该姿态信息，但是可以使用待处理图像的前一帧图像或前多帧图像中用户手势的姿态信息进行跟踪。

步骤S550，基于姿态信息和待处理图像的前一帧图像或前多帧图像中用户手势的姿态信息，对待处理图像的下一帧图像中的用户手势进行预测，得到下一帧图像中用户手势的预测姿态信息。

预测是通过对手的稳定跟踪的结果进行的，跟踪会记录和统计每一次稳定姿态解算的结果和变化趋势，并进行预测。

本申请可以通过速度差分的方式进行预测，将待处理图像的前两帧图像的差作为速度，或者以累计待处理图像的前n帧的平均变化率作为速度，根据该速度预测下一帧图像中用户手势的预测姿态信息。

或者，也可以通过预先训练完成CNN(卷积神经网络)模型进行预测，输入待处理图像中用户手势的姿态信息和待处理图像的前一帧图像或前多帧图像中用户手势的姿态信息，预测待处理图像的下一帧图像的姿态信息。

需要说明的是，预测下一帧图像的姿态信息不仅可以对下一帧图像中用户手势的姿态进行估计便于跟踪的判断，而且还可以更稳定地检测手部区域和手部关键点的位置坐标。即，还可以继续执行下述步骤S560～步骤S570，以对下一帧图像中多个手部关键点的位置信息以及位置信息的置信度进行修正。

步骤S560，获取待处理图像的下一帧图像，通过位置检测模型，确定下一帧图像中多个手部关键点的位置信息以及位置信息的置信度。

本申请实施例中，由于位置检测模型可以包括两个子模型，因此，可以直接根据下一帧图像中用户手势的预测姿态信息，对实际获取到的待处理图像的下一帧图像中手部关键点的位置信息进行修正。也可以先根据下一帧图像中用户手势的预测姿态信息，对实际获取到的待处理图像的下一帧图像中的手部区域进行修正，之后再对实际获取到的待处理图像的下一帧图像中手部关键点的位置信息进行修正。

步骤S570，根据预测姿态信息对下一帧图像中多个手部关键点的位置信息以及位置信息的置信度进行修正。

与前述优化算法类似，可以通过坐标系转换的方式对下一帧图像中多个手部关键点的位置信息以及位置信息的置信度进行修正。具体的，根据预测姿态信息确定在世界坐标系下多个手部关键点的第一预测位置坐标；将第一预测位置坐标转换为多个不同方位的相机坐标系下的第二预测位置坐标；将第二预测位置坐标转换为图像坐标系下的第三预测位置坐标；根据第三预测位置坐标，对多个手部关键点的位置信息进行修正。在对位置信息进行修正的情况下，也可以同时对位置信息的置信度进行修正。这样，可以保证检测的稳定性，同时对手的定位具有修正作用，避免定位过程的漏报和误报。

本申请实施例的手势识别方法，通过从一个方位或多个不同方位采集针对用户手势的待处理图像，并获取待处理图像中多个手部关键点的位置信息及位置信息的置信度。根据位置信息通过优化算法进行姿态解算，可以得到用户手势的姿态信息以及残差值。由于置信度表示位置信息的可靠程度，位置信息的可靠程度决定了姿态信息的可靠程度，残差值也表示姿态信息的准确程度，因此，可以根据位置信息的置信度和残差值，来判断是否基于姿态信息对用户手势进行跟踪，从而提高手势识别的准确性。在采集多个不同方位的待处理图像的情况下，可以弥补单一方位视觉遮挡的缺陷，能更好地得到符合真实手势的姿态信息。在根据该姿态信息进行手势跟踪的情况下，可以预测下一帧图像中用户手势的预测姿态信息，对实际采集到的下一帧图像中多个手部关键点的位置信息以及位置信息的置信度进行修正，保证位置检测的准确性。

相应于上述方法实施例，本申请实施例还提供了一种手势识别装置，参见图6，手势识别装置600包括：

待处理图像获取模块610，用于获取针对用户手势的一个或多个待处理图像，其中，多个手势图像从多个不同方位采集得到；

位置信息确定模块620，用于基于预先训练完成的位置检测模型，确定待处理图像中多个手部关键点的位置信息以及位置信息的置信度；

姿态信息确定模块630，用于根据位置信息进行姿态解算，得到用户手势的姿态信息；

手势跟踪判断模块640，用于根据位置信息的置信度，确定是否基于姿态信息对用户手势进行跟踪。

可选的，姿态信息确定模块630，具体用于根据位置信息和手模型，利用优化算法进行姿态解算，得到用户手势的姿态信息和残差值；其中，手模型包含手部的特征信息；

手势跟踪判断模块640，具体用于根据位置信息的置信度和残差值，确定是否基于姿态信息对用户手势进行跟踪预测。

可选的，手势跟踪判断模块640，具体用于根据残差值和预设残差阈值，确定残差置信度；根据位置信息的置信度和残差置信度，确定跟踪置信度；如果跟踪置信度大于等于预设置信度阈值，则基于姿态信息对用户手势进行跟踪；如果跟踪置信度小于预设置信度阈值，则不基于姿态信息对用户手势进行跟踪。

可选的，手势识别装置600还包括：

姿态信息预测模块，用于如果基于姿态信息对用户手势进行跟踪，基于姿态信息和待处理图像的前一帧图像或前多帧图像中用户手势的姿态信息，对待处理图像的下一帧图像中的用户手势进行预测，得到下一帧图像中用户手势的预测姿态信息；

待处理图像获取模块610，还用于获取待处理图像的下一帧图像；

位置信息确定模块620，还用于通过位置检测模型，确定下一帧图像中多个手部关键点的位置信息以及位置信息的置信度；

位置信息修正模块，用于根据预测姿态信息对下一帧图像中多个手部关键点的位置信息以及位置信息的置信度进行修正。

可选的，位置信息修正模块具体用于根据预测姿态信息确定在世界坐标系下多个手部关键点的第一预测位置坐标；将第一预测位置坐标转换为多个不同方位的相机坐标系下的第二预测位置坐标；将第二预测位置坐标转换为图像坐标系下的第三预测位置坐标；根据第三预测位置坐标，对多个手部关键点的位置信息进行修正。

位置信息确定模块620，具体用于将多个待处理图像分别输入手部区域识别子模型，得到第一手部区域图像；根据第一手部区域图像，得到第二手部区域图像；将第二手部区域图像输入关键点检测子模型，得到手部关键点的位置信息。

可选的，手势识别装置600还包括：

第一训练数据获取模块，用于获取包含手部信息的多个第一样本图像、第一样本图像中的手部区域图像以及第一样本图像中手的类型，其中，手的类型包括左手和/或右手；

手部区域识别子模型生成模块，用于将第一样本图像作为输入数据，将第一样本图像中的手部区域图像以及第一样本图像中手的类型作为标签数据，训练生成手部区域识别子模型；

第二训练数据获取模块，用于获取包含手部信息的多个第二样本图像、第二样本图像中手部关键点的位置信息；

关键点检测子模型生成模块，用于将第二样本图像作为输入数据，将第二样本图像中手部关键点的位置信息作为标签数据，训练生成关键点检测子模型。

可选的，手势识别装置600还包括：

第一量化模块，用于在训练生成手部区域识别子模型后，对手部区域识别子模型中网络参数的参数值进行量化；和/或；

第二量化模块，用于在训练关键点检测子模型时，对关键点检测子模型中网络参数的参数值进行量化。

上述装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本申请的示例性实施例中，还提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行本示例实施方式中上述手势识别方法。

图7为本申请实施例中电子设备的一种结构示意图。需要说明的是，图7示出的电子设备700仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。中央处理单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元701执行时，执行本申请的装置中限定的各种功能。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述手势识别方法。

需要说明的是，本申请所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频等等，或者上述的任意合适的组合。

本申请实施例中，还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述手势识别方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述位置信息进行姿态解算，得到所述用户手势的姿态信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述位置信息的置信度和所述残差值，确定是否基于所述姿态信息对所述用户手势进行跟踪，包括：

根据所述残差值和预设残差阈值，确定残差置信度；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，根据所述预测姿态信息对所述下一帧图像中多个手部关键点的位置信息进行修正，包括：

6.根据权利要求1所述的方法，其特征在于，位置检测模型包括：手部区域识别子模型和关键点检测子模型；

根据所述第一手部区域图像，得到第二手部区域图像；

7.根据权利要求6所述的方法，其特征在于，所述手部区域识别子模型的训练方法包括：

所述关键点检测子模型的训练方法包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种手势识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法的步骤。

12.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-8任一项所述的方法的步骤。