CN115661917A

CN115661917A - 手势识别方法及相关产品

Info

Publication number: CN115661917A
Application number: CN202110780583.4A
Authority: CN
Inventors: 李明; 裴峥
Original assignee: Pateo Connect Nanjing Co Ltd
Current assignee: Pateo Connect Nanjing Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-01-31

Abstract

本申请实施例公开了一种手势识别方法及相关产品，该方法包括以下步骤：获取多帧手势图像；获取所述多帧手势图像中每帧手势图像内手部关键点的位置信息；根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，得到所述多帧手势图像对应的多个距离；根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型；调用所述目标模型对所述多帧手势图像进行手势识别。本申请实施例有利于提高手势识别结果的精确度。

Description

手势识别方法及相关产品

技术领域

本申请涉及图像处理领域，具体涉及一种手势识别方法及相关产品。

背景技术

随着科学技术的发展以及各类电子设备在社会中的普及，人们越来越重视人机交互技术水平和质量的提高。长期以来，手势一直被认为是一种自然直观的人机交互手段，因此，基于计算机视觉的手势识别成为了人机交互的一个重要研究领域。基于手势识别技术，用户可便捷的通过手势实现对电子设备的控制，但是，目前在进行手势识别时，通常未对动态手势识别和静态手势识别进行区别设置，动态手势和静态手势识别均通过同一个模型来进行识别，导致手势识别结果的精确度不足。

发明内容

本申请实施例提供了一种手势识别方法及相关产品，以期提高手势识别结果的精确度。

第一方面，本申请实施例提供了一种手势识别方法，包括以下步骤：

获取多帧手势图像；

获取所述多帧手势图像中每帧手势图像内手部关键点的位置信息；

根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，得到所述多帧手势图像对应的多个距离；

根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型；

调用所述目标模型对所述多帧手势图像进行手势识别。

第二方面，本申请实施例提供了一种手势识别装置，包括：

第一获取单元，用于获取多帧手势图像；

第二获取单元，用于获取所述多帧手势图像中每帧手势图像内手部关键点的位置信息；

第一确定单元，用于根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，得到所述多帧手势图像对应的多个距离；

第二确定单元，用于根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型；

调用单元，用于调用所述目标模型对所述多帧手势图像进行手势识别。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种计算机存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本实施例中，电子设备先获取多帧手势图像，然后获取多帧手势图像中每帧手势图像内手部关键点的位置信息，再根据该位置信息，确定该多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，得到多个距离，最后再根据该多个距离，从预设的动态手势识别模型和静态手势识别模型中确定出目标模型，并调用该目标模型对该多帧手势图像进行手势识别。可见，电子设备可以自动根据用户手部移动距离的不同，调用不同的手势识别模型进行手势识别，即动静态手势分别采用不同的预设模型进行识别，有利于提高手势识别的精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种硬件架构示意图；

图1B是本申请实施例提供的另一种硬件架构示意图；

图1C是本申请实施例提供的一种电子设备的组成示例图；

图2是本申请实施例提供的一种手势识别方法的流程示意图；

图3A是本申请实施例提供的一种手势识别装置的功能单元组成框图；

图3B是本申请实施例提供的另一种手势识别装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面结合附图对本申请实施例进行说明。

本申请技术方案的硬件架构可以是以下任意一种：

(1)电子设备+图像采集设备架构，如图1A所示，电子设备100与图像采集设备200通信连接，图像采集设备200用于采集手势图像，电子设备100可以与图像采集设备200通信，并从图像采集设备200获取手势图像，例如电子设备100可以从图像采集设备获取多帧手势图像，然后根据获取的多帧手势图像内手部关键点的位置信息，最终从预设的动态手势识别模型和静态手势识别模型中确定出目标手势识别模型，调用该目标手势识别模型对获取的多帧手势图像进行手势识别。具体的，本申请的技术方案可以应用在车内手势识别场景中，电子设备100可以是设置在车辆中的车载设备例如车机，图像采集设备200可以是设置在车辆中的摄像头等。

(2)电子设备本地架构，如图1B所示，电子设备100内部设置有图像采集装置101，电子设备100可通过本地设置的图像采集装置101采集手势图像。

本申请中的电子设备100的组成结构可以如图1C所示，电子设备100可以包括处理器110、存储器120、通信接口130以及一个或多个程序121，其中，所述一个或多个程序121被存储在上述存储器120中，且被配置由上述处理器110执行，所述一个或多个程序121包括用于执行上述方法实施例中任一步骤的指令。

其中，通信接口130用于支持电子设备100与其他设备的通信。处理器110例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(DigitalSignal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框，单元和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

存储器120可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。

具体实现中，所述处理器110用于执行下述方法实施例中由电子设备执行的任一步骤，且在执行诸如发送等数据传输时，可选择的调用所述通信接口130来完成相应操作。

需要注意的是，上述电子设备100的结构示意图仅为示例，具体包含的器件可以更多或更少，此处不做唯一限定。例如，电子设备100的内部还可以设置有图像采集装置，该图像采集装置可以通过通信总线分别与上述处理器110和存储120通信连接，上述处理器110可通过该图像采集装置采集手势图像，该图像采集装置采集的手势图像也可以存储在上述存储器120中。具体的，处理器在执行本申请方法实施例中获取多帧手势图像的步骤时，可以直接通过图像采集装置采集多帧手势图像，也可以从存储器120中获取由图像采集装置采集并存储在120中的多帧手势图像。

请参阅图2，图2是本申请实施例提供的一种手势识别方法的流程示意图，该方法可以应用在如图1A或图1B所示的电子设备上，如图2所示，该手势识别方法包括以下步骤：

S201，电子设备获取多帧手势图像。

其中，多帧手势图像中每帧手势图像的采集时间均不相同，以采集时间从早到晚或从晚到早对多帧手势图像进行排序，每相邻两帧手势图像的采集时间间隔均为第一预设时间。

具体实现中，图像采集设备/或图像采集装置可以每间隔第一预设时间采集一帧手势图像，并将采集到的手势图像保存在图像采集设备或电子设备中(可以设置采集时间距离当前时间最近的预设数量帧手势图像，以节约设备存储资源)，电子设备获取该多帧手势图像时，可以直接从图像采集设备或电子设备保存的手势图像中获取。或者，电子设备也可以在接收到手势识别请求时，才通知图像采集设备或通过图像采集装置采集手势图像。

此外，对于车辆内手势识别场景，出于驾驶安全性的考虑，电子设备还可以在接收到手势识别请求后，获取车辆行驶状态信息(例如车辆行驶速度等)，该车辆行驶状态信息用于表征车辆处于行驶状态或者是静止状态，当车辆行驶状态信息表征车辆处于行驶状态时，对发出请求的用户的身份信息进行确定，若确定该用户为驾驶员，则停止手势识别并输出风险提示信息。

具体的，车辆中每个座位下可设置压力检测装置，该压力检测装置和电子设备通信连接，电子设备获取各压力检测装置的压力检测结果，确定车辆中只有驾驶座有人乘坐时，即可确定发出请求的用户为驾驶员。

或者，车辆驾驶座前方可设置图像采集设备，该图像采集设备与电子设备连接，用于采集驾驶座上乘客的人脸图像；电子设备中预存了用户的身份信息，每个用户的身份信息包括：掌纹信息和人脸信息，电子设备在获取多帧手势图像后，可获取驾驶座前方图像采集设备采集的人脸图像，然后对手势图像进行掌纹识别确定掌纹信息，对人脸图像进行识别确定人脸信息，若掌纹信息和人脸信息为同一用户的信息，则确定发出手势识别请求的用户为驾驶员。

S202，电子设备获取所述多帧手势图像中每帧手势图像内手部关键点的位置信息。

其中，手部关键点可以是用户手部关节点，即电子设备可以对每帧手势图像进行识别，提取出每帧手势图像中用户手部关节点的位置信息。

S203，电子设备根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，得到所述多帧手势图像对应的多个距离。

举例来说，例如多帧手势图像包括3帧图像，按照采集时间从早到晚进行排序为：图像1、图像2、图像3，多个距离即根据图像1和图像2确定的距离1，根据图像2和图像3确定的距离2。

S204，电子设备根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型。

其中，由于用户在使用静态手势时用户手部几乎不会移动，而在使用动态手势时，用户手部的位置通常会持续发生变化。因此，电子设备可以根据采集时间相邻的每两张手势图像间手部的距离，确定用户使用的是动态手势还是静态手势，进而可对应的调取预设的动态手势识别模型或者是静态手势识别模型进行手势识别。

其中，预设的动态手势识别模型和静态手势识别模型是分别通过不同的训练样本训练得到的。具体的，动态手势识别模型的训练方法可以是：先获取多个训练样本和每个训练样本对应的训练标签，其中，每个训练样本包括一个手势图像集合(集合中手势图像的数量大于1，例如可以是第二预设数量)，每个训练样本对应的训练标签可以是该手势图像集合对应的实际动态手势类别；针对每个训练样本执行以下操作：将当前训练样本(即手势图像集合)输入到神经网络，得到该训练样本对应的预测动态手势类别，其中，该神经网络的初始参数可以是通过随机初始化得到的，根据该预测动态手势类别和当前训练样本对应的样本标签(即实际动态手势类别)，调整该神经网络的参数，得到训练好的动态手势识别模型。

静态手势识别模型的训练方式与动态手势识别模型的训练方式相同，静态手势识别模型获取的训练样本中，每个训练样本包括一帧手势图像，每个训练样本对应的训练标签为实际静态手势类别，将每个训练样本输入神经网络后，得到该训练样本对应的预测静态手势类别，然后则可根据该预测静态手势类别和当前训练样本对应的实际静态手势类别，调整神经网络的参数，得到训练好的静态手势识别模型。

具体实现中，电子设备中可预存多个不同的动态手势识别模型和静态手势识别模型，每个动态手势识别模型和静态手势识别模型均关联有唯一的用户标识，电子设备可以在接收到手势识别请求后获取多帧手势图像，该手势识别请求可以携带用户标识(用户标识可由用户在手势识别开始界面进行选择确定)，在确定目标模型之前，电子设备可从预存的多个动态手势识别模型和静态手势识别模型中，确定出与该用户标识匹配的动态手势识别模型和静态手势识别模型，作为该预设的动态手势识别模型和静态手势识别模型。

进一步的，在每次手势识别之后，电子设备可将本次手势识别的结果作为样本数据用于训练本次使用的目标模型，也就是说，通过每个用户的手势识别结果训练该用户对应的(动态和/或静态)手势识别模型，使得模型与用户更匹配，可进一步提高手势识别结果的精确性。

S205，电子设备调用所述目标模型对所述多帧手势图像进行手势识别。

在一个可能的示例中，所述根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型，包括以下步骤：若所述多个距离中大于预设阈值的距离的数量大于第一预设数量，则确定所述动态手势识别模型为所述目标模型；否则，确定所述静态手势识别模型为所述目标模型。

具体实现中，为了便于电子设备统计处理，在确定出每个距离之后，可以根据该距离与预设阈值的大小关系对该距离进行简化处理，例如，在距离大于预设阈值时，将该距离的值计为1，在距离小于或等于预设阈值时，将该距离的值计为0。在确定超过大于预设阈值的距离的数量是否大于第一预设数量时，可以直接将多个距离的值相加，相加后的值若大于第一预设数量，则大于预设阈值的距离的数量大于第一预设数量。

具体实现中，考虑到不同年龄的或身高的用户，使用同一手势时，手部运动幅度可能是不同的，因此预设阈值可以根据手势识别请求对应的用户身份信息进行确定，不同用户身份信息对应不同的预设阈值，电子设备可以根据用户身份信息查询预设的用户身份信息与预设阈值的对应关系，从而确定出与该用户身份信息对应的预设阈值。

具体的，用户身份信息可以由电子设备根据用户标识进行确定，电子设备内预存了多个用户标识和每个用户标识对应的用户身份信心。该用户标识可以是电子设备接收到的手势识别请求所携带的，也可以是电子设备对多帧手势图像进行掌纹识别确定的。用户身份信息具体可以包括以下至少一项：用户年龄、用户身高。

可见，本示例中，在多个距离中大于预设阈值的距离的数量大于第一预设数量时，确定动态手势识别模型为目标模型，否则，确定静态手势识别模型为目标模型，根据多个距离进行判断，有利于提高模型调用的准确性。

在一个可能的示例中，所述确定所述动态手势识别模型为所述目标模型之后，所述方法还包括以下步骤：调用所述动态手势识别模型对所述多帧手势图像进行手势识别；若未识别出动态手势，则重新将所述静态手势识别模型确定为所述目标模型。

具体实现中，考虑到用户在使用静态手势时，手部也可能存在位置移动。例如在车辆内手势识别场景中，由于车辆抖动等原因，可能造成用户使用静态手势时，不同时间采集到的手势图像中手部位置发生了变化，此时，即使将动态手势识别模型确定为目标模型，调用该动态识别模型也无法识别出动态手势，进而导致手势识别失败，因此，在动态手势模型未识别出动态手势时，可重新确定静态手势识别模型为目标模型。

其中，电子设备调用动态手势识别模型对多帧手势图像进行手势识别时，该多帧手势图像的识别结果可以包括多个分数信息，每个分数信息对应一个预设的动态手势类别，当某个动态手势类别对应的分数满足预设条件(例如分数大于预设分数)时，电子设备即可将该动态手势类别确定为该多帧手势图像最终的手势识别结果。若每个动态手势类别对应的分数信息均不满足预设条件，则认为未识别到动态手势。

此外，在其他实施例中，若目标模型为动态手势识别模型，电子设备也可以在调用动态手势识别模型进行手势识别时，同时调用静态手势识别模型进行手势识别，在未识别出动态手势时，直接将调用静态手势识别模型得到的结果确定为最终的手势识别结果，以提高设备响应速度。

进一步的，在电子设备为车载设备的情况下，电子设备也可以获取车辆位置信息，当根据车辆位置信息确定车辆在预设的不平整路段时，才在目标模型为动态模型时，同时调用动态手势识别模型和静态手势识别模型，以节约资源。

可见，本示例中，在调用动态手势识别模型进行手势识别后，若未识别出动态手势，重新将静态手势识别模型确定为目标模型，有利于提高手势识别的可靠性。

在一个可能的示例中，在所述目标模型为所述动态手势识别模型的情况下，所述调用所述目标模型对所述多帧手势图像进行手势识别，包括以下步骤：从所述多帧手势图像中获取采集时间距离当前时刻最近的第二预设数量帧手势图像，所述第二预设数量大于1；调用所述动态手势识别模型对所述第二预设数量帧手势图像进行手势识别。

其中，第二预设数量可以等于该多帧手势图像的数量。也就是说，步骤201中，电子设备获取的多帧手势图像即采集时间距离当前时刻最近的第二预设数量帧手势图像。

可见，本示例中，由于用户使用动态手势时，用户手势不是始终保持不变的，在目标模型为动态手势识别模型的情况下，调用动态手势识别模型对多帧手势图像进行手势识别，有利于保证动态手势识别结果的准确性。

在一个可能的示例中，在所述目标模型为所述静态手势识别模型的情况下，所述调用所述目标模型对所述多帧手势图像进行手势识别，包括以下步骤：从所述多帧手势图像中获取采集时间距离当前时刻最近的一帧手势图像；调用所述静态手势识别模型对所述一帧手势图像进行手势识别。

其中，由于用户使用静态手势时，用户手势并不会发生变化，因此，处于节约电子设备资源消耗的目的，可以仅对采集时间距离当前时刻最近的一帧手势图像进行手势识别。

在其他实施例中，出于提高手势识别结果准确度的考虑，电子设备也可以从多帧手势图像中获取第三预设数量(大于1)帧的手势图像，分别调用静态手势识别模型对第三预数量帧手势图像中每帧手势图像进行手势识别，得到多个手势识别结果，每个手势识别结果包括识别出的静态手势的类别。电子设备可以统计该多个手势识别结果中各静态手势类别的数量，将数量最多的静态手势类别确定为最终的手势识别结果。或者，电子设备可根据多个手势识别结果中各静态手势类别的数量和各手势识别结果对应的图像的采集时间，综合确定最终的手势识别结果。具体的，根据手势图像采集时间的先后确定时间系数，根据每帧手势图像的时间系数，确定该帧手势图像的手势识别结果用于统计数量的数值。其中，时间系数越大，用于统计数量的数值越大，根据实际需要的不同，可以设置采集时间约早，时间系数越大，或者采集时间约晚，时间系数越大。

具体的，可以直接将时间系数作为用于统计的数量，例如，第三预设数量为3，获取了三帧手势图像：图像A、图像B、图像C，图像A最早采集，其次是图像B，图像C最后采集，图像A、图像B的手势识别结果为类别1，图像C的手势识别结果为类别2，若设置最先采集的时间系数为0，中间采集的时间系数为1，最后采集的时间系数为2，统计后，类别1的数量为1，类别2的数量为2，因此最终识别结果为类别2。

可见，本示例中，在目标模型为静态手势识别模型的情况下，电子设备仅对单帧手势图像进行手势识别，有利于减少电子设备的资源消耗。

在一个可能的示例中，所述位置信息包括坐标信息；所述根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，包括以下步骤：针对所述多帧手势图像中每帧手势图像执行以下操作：根据当前帧手势图像内手部关键点的坐标信息，确定出所述当前帧手势图像内手部中心点的坐标信息；

针对所述每两帧手势图像执行以下操作：根据当前两帧手势图像中每帧手势图像内手部关键点的坐标信息，确定坐标均值和坐标标准差；根据所述坐标均值和所述坐标标准差，对所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息进行标准化处理；根据标准化处理后的所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息，确定所述当前两帧手势图像中手部的距离。其中，每帧手势图像中手部关键点的数量可以是多个，每帧手势图像中手部中心点的数量只有一个。在确定两帧手势图像中手部的距离时，通过手部中心点的坐标信息进行确定，有利于减少电子设备的处理量，进而有利于提高电子设备的处理效率。

具体的，电子设备可以根据标准化处理后的当前两帧手势图像中每帧手势图像内手部中心点的坐标信息，计算该当前两帧手势图像中每帧手势图像内手部中心点的距离，将该手部中心点的距离确定为当前两帧手势图像中手部的距离。例如，当前两帧手势图像包括第一图像和第二图像，标准化处理后的第一图像内手部中心点的坐标为(x_a，y_a)，标准化处理后的第二图像内手部中心点的坐标为(x_b，y_b)，则当前两帧手势图像中手部的距离

具体实现中，考虑到若根据标准化处理前手势图像内手部中心点的坐标信息(即未经标准化处理的原始坐标)确定手部移动的距离，即使用户手部实际移动的距离相同，由于用户手部距离图像采集设备/图像采集装置距离的不同，或者由于手势图像的图像尺寸(例如图像的长和宽)不同，体现在手势图像中手部移动的距离也是不同的，即通过手部中心点原始坐标确定出的手部距离也不同。也就是说，若通过手部中心点原始坐标确定用户手部的距离，手部与图像采集设备/图像采集装置距离的不同会给最终确定出的距离带来干扰，同时确定出的距离也不具备抗图片缩放的能力。

因此，不直接采用每个图像中手部中心点的原始坐标进行手部距离的计算，而是通过两帧手势图像中每帧手势图像内手部关键点和手部中心点的坐标信息，确定出坐标均值和坐标标准差，对手部中心点的原始坐标进行标准化处理，由于坐标均值和坐标方差表征了两帧手势图像内手部关键点的离散情况，无论用户手部与图像采集设备/图像采集装置的距离如何变化，或者是采集的手势图像如何缩放，手部关键点的离散情况始终是一致的，因此，通过均值和方差对原始坐标信息进行标准化处理，得到的手部的距离具有抗图片缩放的能力，同时也可以排除手部距离图像采集设备/装置远近不同所带来的干扰。

可见，本示例中，确定两帧手势图像内手部的距离的坐标信息，是经过坐标均值和坐标标准差标准化处理后的手部中心点坐标信息，由于坐标标准差和坐标均值用于表征两帧手势图像内手部关键点的离散情况，即使用户手部和图像采集设备/图像采集装置的距离变化，或者手势图像的图像尺寸缩放变化，手势图像中手部关键点的离散情况也不会改变，有利于提高确定出的手部的距离的可靠性。

在一个可能的示例中，所述坐标信息包括第一坐标值和第二坐标值，所述坐标均值和坐标标准差包括：所述当前两帧手势图像中每帧手势图像内手部关键点的第一坐标值的第一均值和第一坐标标准差、所述当前两帧手势图像中每帧手势图像内手部关键点的第二坐标值的第二均值和第二标准差；

所述根据所述坐标均值和所述坐标标准差，对所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息进行标准化处理，包括以下步骤：针对所述当前两帧手势图像中每帧手势图像内手部中心点执行如下操作：通过如下公式确定标准化处理后的当前手部中心点的坐标信息：

其中，

为标准化处理后的所述当前手部中心点的第一坐标值，

为标准化处理后所述当前手部中心点的第二坐标值，x为标准化处理前所述当前手部中心点的第一坐标值，y为标准化处理前所述当前手部中心点的第二坐标值，μx为所述第一均值，σx为所述第一标准差，μy为所述第二均值，σy为所述第二标准差。

举例来说，还是以当前两帧手势图像包括第一图像和第二图像为例，例如第一图像中包括k个手部关键点，该k个手部关键点的坐标信息为：

(x₁，y₁)，(x₂，y₂)...(x_k-1，y_k-1)，(x_k，y_k)；

第二图像中包括n-k个手部关键点，该n-k个手部关键点的坐标信息为：

(x_k+1，y_k+1)，(x_k+2，y_k+2)...(x_n，y_n)；

假设根据k个手部关键点的坐标信息确定出的第一图像内手部中心点的坐标信息为P_C1(x_C1，y_C1)，根据n-k个手部关键点的坐标信息确定出的第二图像内手部中心点的坐标信息为P_C2(x_C2，y_C2)。

根据上述k个手部关键点和上述n-k个手部关键点的坐标信息确定出的第一标准差

第二标准差

第一均值

第二均值

由于标准化处理后的第一图像内手部中心点的坐标信息为

标准化处理后的第二图像内手部中心点的坐标信息为

将上述第一标准差σx，第二标准差σy，第一均值μx，第二均值μy具体的值代入上述标准化处理后两个手部中心点的坐标信息中，即可确定出当前两帧手势图像中手部的距离：

采用上述根据标准化处理后手部中心点的坐标信息确定手部距离的方式，在用户手部实际移动距离相同的情况下，即使在用户手部与图像采集设备/图像采集装置的距离发生变化，或者是图像尺寸产生缩放时，标准化处理前两帧手势图像内手部中心点的坐标信息(包括第一坐标信息和第二坐标信息)均变化为原来的a倍，例如，P_C1(x_C1，y_C1)坐标信息变化为(ax_C1，ay_C1)，P_C2(x_C2，y_C2)坐标信息变化为(ax_C2，ay_C2)；

此时，第一标准差变为aσx，第二标准差变为aσy，第一均值仍为aμx，第二均值仍为aμy；

即坐标信息变化为原来的a倍之后，手部中心点的坐标信息在标准化处理后分别为：

即坐标信息变化为原来的a倍之后，可得到出手部距离：

也就是说，经过标准化处理后，在用户手部实际移动距离相同的情况下，即使在用户手部与图像采集设备/图像采集装置的距离发生变化，或者是图像尺寸缩放变化的情况下，确定出的手部距离都是相同的。

可见，本示例中，通过预设公式确定的标准化处理后手部中心点的坐标信息，不受用户手部距离图像采集设备/图像采集装置距离远近不同的干扰，也不受图像尺寸缩放的影响，有利于提高根据该坐标信息确定出的手部距离的可靠性。

本申请可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图3A是本申请实施例提供的一种手势识别装置的功能单元组成框图。该手势识别装置30可以应用于如图1A或图1B所示的电子设备中，该手势识别装置30包括：

第一获取单元301，用于获取多帧手势图像；

第二获取单元302，用于获取所述多帧手势图像中每帧手势图像内手部关键点的位置信息；

第一确定单元303，用于根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，得到所述多帧手势图像对应的多个距离；

第二确定单元304，用于根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型；

调用单元305，用于调用所述目标模型对所述多帧手势图像进行手势识别。

在一个可能的示例中，所述第二确定单元304具体用于：若所述多个距离中大于预设阈值的距离的数量大于第一预设数量，则确定所述动态手势识别模型为所述目标模型；否则，确定所述静态手势识别模型为所述目标模型。

在一个可能的示例中，所述手势识别装置30还包括：第三确定单元，用于在所述确定所述动态手势识别模型为所述目标模型之后，调用所述动态手势识别模型对所述多帧手势图像进行手势识别；若未识别出动态手势，则重新将所述静态手势识别模型确定为所述目标模型。

在一个可能的示例中，在所述目标模型为所述动态手势识别模型的情况下，所述调用单元305具体用于：从所述多帧手势图像中获取采集时间距离当前时刻最近的第二预设数量帧手势图像，所述第二预设数量大于1；调用所述动态手势识别模型对所述第二预设数量帧手势图像进行手势识别。

在一个可能的示例中，在所述目标模型为所述静态手势识别模型的情况下，所述调用单元305具体用于：从所述多帧手势图像中获取采集时间距离当前时刻最近的一帧手势图像；调用所述静态手势识别模型对所述一帧手势图像进行手势识别。

在一个可能的示例中，所述位置信息包括坐标信息；所述第一确定单元303具体用于：针对所述多帧手势图像中每帧手势图像执行以下操作：根据当前帧手势图像内手部关键点的坐标信息，确定出所述当前帧手势图像内手部中心点的坐标信息；针对所述每两帧手势图像执行以下操作：根据当前两帧手势图像中每帧手势图像内手部关键点的坐标信息，确定坐标均值和坐标标准差；根据所述坐标均值和所述坐标标准差，对所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息进行标准化处理；根据标准化处理后的所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息，确定所述当前两帧手势图像中手部的距离。

在一个可能的示例中，所述坐标信息包括第一坐标值和第二坐标值，所述坐标均值和坐标标准差包括：所述当前两帧手势图像中每帧手势图像内手部关键点的第一坐标值的第一均值和第一坐标标准差、所述当前两帧手势图像中每帧手势图像内手部关键点的第二坐标值的第二均值和第二标准差；在所述根据所述坐标均值和所述坐标标准差，对所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息进行标准化处理方面，所述第一确定单元303具体用于：针对所述当前两帧手势图像中每帧手势图像内手部中心点执行如下操作：通过如下公式确定标准化处理后的当前手部中心点的坐标信息：

其中，

为标准化处理后的所述当前手部中心点的第一坐标值，

在采用集成的单元的情况下，本申请实施例提供的手势识别装置的功能单元组成框图如图3B所示。在图3B中，手势识别装置包括：处理模块310和通信模块311。处理模块310用于对手势识别装置的动作进行控制管理，例如，第一获取单元301、第二获取单元302、第一确定单元303、第二确定单元304和调用单元305执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块311用于支持手势识别装置与其他设备之间的交互。如图3B所示，手势识别装置还可以包括存储模块312，存储模块312用于存储手势识别装置的程序代码和数据。

其中，处理模块310可以是处理器或控制器，例如可以是中央处理器(CentralProcessing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块311可以是收发器、RF电路或通信接口等。存储模块312可以是存储器。

其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。上述手势识别装置均可执行上述图2所示的手势识别方法中电子设备所执行的步骤。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手势识别方法，其特征在于，包括以下步骤：

获取多帧手势图像；

调用所述目标模型对所述多帧手势图像进行手势识别。

2.根据权利要求1所述的方法，所述根据所述多个距离从预设的动态手势识别模型和静态手势识别模型中确定出目标模型，包括以下步骤：

若所述多个距离中大于预设阈值的距离的数量大于第一预设数量，则确定所述动态手势识别模型为所述目标模型；

否则，确定所述静态手势识别模型为所述目标模型。

3.根据权利要求2所述的方法，所述确定所述动态手势识别模型为所述目标模型之后，所述方法还包括以下步骤：

调用所述动态手势识别模型对所述多帧手势图像进行手势识别；

若未识别出动态手势，则重新将所述静态手势识别模型确定为所述目标模型。

4.根据权利要求1-3任一项所述的方法，在所述目标模型为所述动态手势识别模型的情况下，所述调用所述目标模型对所述多帧手势图像进行手势识别，包括以下步骤：

从所述多帧手势图像中获取采集时间距离当前时刻最近的第二预设数量帧手势图像，所述第二预设数量大于1；

调用所述动态手势识别模型对所述第二预设数量帧手势图像进行手势识别。

5.根据权利要求1-3任一项所述的方法，在所述目标模型为所述静态手势识别模型的情况下，所述调用所述目标模型对所述多帧手势图像进行手势识别，包括以下步骤：

从所述多帧手势图像中获取采集时间距离当前时刻最近的一帧手势图像；

调用所述静态手势识别模型对所述一帧手势图像进行手势识别。

6.根据权利要求1-3任一项所述的方法，所述位置信息包括坐标信息；所述根据所述位置信息，确定所述多帧手势图像中采集时间相邻的每两帧手势图像中手部的距离，包括以下步骤：

针对所述多帧手势图像中每帧手势图像执行以下操作：

根据当前帧手势图像内手部关键点的坐标信息，确定出所述当前帧手势图像内手部中心点的坐标信息；

针对所述每两帧手势图像执行以下操作：

根据当前两帧手势图像中每帧手势图像内手部关键点的坐标信息，确定坐标均值和坐标标准差；

根据所述坐标均值和所述坐标标准差，对所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息进行标准化处理；

根据标准化处理后的所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息，确定所述当前两帧手势图像中手部的距离。

7.根据权利要求6所述的方法，所述坐标信息包括第一坐标值和第二坐标值，所述坐标均值和坐标标准差包括：所述当前两帧手势图像中每帧手势图像内手部关键点的第一坐标值的第一均值和第一坐标标准差、所述当前两帧手势图像中每帧手势图像内手部关键点的第二坐标值的第二均值和第二标准差；

所述根据所述坐标均值和所述坐标标准差，对所述当前两帧手势图像中每帧手势图像内手部中心点的坐标信息进行标准化处理，包括以下步骤：

针对所述当前两帧手势图像中每帧手势图像内手部中心点执行如下操作：

通过如下公式确定标准化处理后的当前手部中心点的坐标信息：

其中，

为标准化处理后的所述当前手部中心点的第一坐标值，

8.一种手势识别装置，其特征在于，包括：

第一获取单元，用于获取多帧手势图像；

9.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法中的步骤。