CN108983979B

CN108983979B - 一种手势跟踪识别方法、装置和智能设备

Info

Publication number: CN108983979B
Application number: CN201810825939.XA
Authority: CN
Inventors: 蔡颖鹏; 马志强
Original assignee: Beijing Inspire Robots Technology Co ltd
Current assignee: Beijing Inspire Robots Technology Co ltd
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2021-11-30
Anticipated expiration: 2038-07-25
Also published as: CN108983979A

Abstract

本申请公开了一种手势跟踪识别方法、装置和智能设备，该方法和装置应用于智能设备，具体为基于视觉方式获取用户的脸部信息和手部影像；利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。相比于传统操作，通过识别用户的手势类型并作出反馈能够大为简化操作，从而提高了用户的使用效率和使用体验。

Description

一种手势跟踪识别方法、装置和智能设备

技术领域

本申请涉及人工智能技术领域，更具体地说，涉及一种手势跟踪识别方法、装置和智能设备。

背景技术

随着传感器设备与技术的发展成熟和智能化技术的日益普及，手势跟踪与识别在日常生活中所涉及人机交互的过程中起到了日益重要的作用，通过手势跟踪和识别可以使智能设备与用户方便地实现交互，因此快捷高效的手势跟踪识别能够有效提高用户的使用效率和使用体验。

发明内容

有鉴于此，本申请提供一种手势跟踪识别方法、装置和智能设备，用于对用户的手势进行精确识别，以使智能设备根据识别结果与用户进行交互，提高用户的使用效率和使用体验。

为了实现上述目的，现提出的方案如下：

一种手势跟踪识别方法，应用于智能设备，所述手势跟踪识别方法包括步骤：

基于视觉方式获取用户的脸部信息和手部影像；

利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；

根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。

可选的，所述机器学习模型通过如下训练步骤得到：

基于手部运动捕获传感器采集手部各个关节的精细手部姿态信息；

利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，所述机器学习模型包括用于输出手势分类的分类器。

可选的，所述利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，包括：

将所述手部的影像和对应的精细手部姿态信息作为训练集对深度神经网络进行训练；

以所述手部关节姿态数据作为输入信息，并以规定的手势类型作为标记进行模型训练，得到所述机器学习模型。

可选的，所述利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，还包括：

在训练所述机器学习模型的过程中，固定所述深度神经网络的中间层参数；

利用人脸识别技术获取用户脸部信息，并以所述用户脸部信息作为个体标记信息对所述手部关节姿态数据进行标记；

以标记后的手部关节姿态数据对所述深度神经网络进行重新训练的，得到所述深度神经网络的输出层参数；

以所述中间层参数和所述输出层参数构建所述集群学习模型。

可选的，所述手势跟踪识别装置包括：

信息获取模块，用于基于视觉方式获取用户的脸部信息和手部影像；

手势识别模块，用于利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；

控制执行模块，用于根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。

可选的，还包括模型训练模块，所述模型训练模块包括：

数据采集单元，用于基于手部运动捕获传感器采集手部各个关节的精细手部姿态信息；

训练执行单元，用于利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，所述机器学习模型包括用于输出手势分类的分类器。

可选的，所述训练执行单元包括：

第一训练子单元，用于将所述手部的影像和对应的精细手部姿态信息作为训练集对深度神经网络进行训练；

第二训练子单元，用于以所述手部关节姿态数据作为输入信息，并以规定的手势类型作为标记进行模型训练，得到所述机器学习模型。

可选的，所述训练执行单元还包括：

参数固定子单元，用于在训练所述机器学习模型的过程中，固定所述深度神经网络的中间层参数；

数据标记子单元，用于利用人脸识别技术获取用户脸部信息，并以所述用户脸部信息作为个体标记信息对所述手部关节姿态数据进行标记；

第三训练子单元，用于以标记后的手部关节姿态数据对所述深度神经网络进行重新训练的，得到所述深度神经网络的输出层参数；

模型构建子单元，用于以所述中间层参数和所述输出层参数构建所述集群学习模型。

一种智能设备，包括如上所述的手势跟踪识别装置。

一种智能设备，包括至少一个处理器和与所述处理器通过数据总线相连接的存储器，所述存储器用于存储计算机程序或指令，所述处理器用于执行所述计算机程序或指令，以使所述智能设备实现如下操作：

基于视觉方式获取用户的脸部信息和手部影像；

从上述的技术方案可以看出，本申请公开了一种手势跟踪识别方法、装置和智能设备，该方法和装置应用于智能设备，具体为基于视觉方式获取用户的脸部信息和手部影像；利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。相比于传统操作，通过识别用户的手势类型并作出反馈能够大为简化操作，从而提高了用户的使用效率和使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种手势跟踪识别方法的步骤流程图；

图2为本申请实施例提供的一种手势跟踪识别装置的结构框图；

图3为本申请实施例提供的另一种手势跟踪识别装置的结构框图；

图4为本申请实施例提供的一种智能设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1为本申请实施例提供的一种手势跟踪识别方法的步骤流程图。

参照图1所示，本实施例提供的手势跟踪识别方法应用于智能设备，以使该智能设备能够对用户的手势进行跟踪识别，并根据识别结果做出相应操作，该手势跟踪识别方法包括如下步骤：

S1、基于视觉方法获取用户的脸部信息和手部影像。

该获取基于智能设备的视觉设备，如摄像头，在该摄像头获取相应影像后，从摄像头采集相应的脸部信息和手部影像，该手部影像包括图像和视频。

S2、利用机器学习模型对手部影像进行识别，得到识别结果。

在得到用户的脸部信息和手部影像后，利用提前训练好的机器学习模型对手部影像进行识别，同时在识别过程中参照脸部信息，以输出精确的用户做出的手势的手势类型。这些手势类型包括握拳、摊掌、剪刀手、挥手等。

这里机器学习模型是利用精细手部姿态信息和/或用户脸部信息作为样本，对深度神经网络进行训练所得到的。

S3、根据手势类型控制智能设备做出相应操作。

在确定用户所做出的手势类型后，根据该手势类型从提前定义的与手势类型相对应的操作选取具体操作，然后控制该智能设备执行该具体操作。

从上述技术方案可以看出，本实施例提供了一种手势跟踪识别方法，该方法应用于智能设备，具体为基于视觉方式获取用户的脸部信息和手部影像；利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。相比于传统操作，通过识别用户的手势类型并作出反馈能够大为简化操作，从而提高了用户的使用效率和使用体验。

本实施例中所涉及的机器学习模型通过如下步骤训练得到。

首先，基于手部运动捕获传感器采集手部各个关节的精细手部姿态信息，这里的手动运动捕获传感器优选运动捕捉手套，该手套可以高精度、细粒度地采集手部各个关节的精细手部姿态信息；然后利用各个关节的精细手部姿态信息并基于影像作为输入信号进行模型训练，得到该机器学习模型。

该机器学习模型包括用于对手势进行分类器，具体来说，可以构建标记有手势类别的手部精细姿态信息，作为监督学习的分类器输入，训练以精细手部姿态信息作为输入的分类器，得到手势类别的判断输出。

本申请中对机器学习模型进行训练过程的具体过程如下所述：

将视觉传感器、如深度相机采集得到的视频片段或者单帧图像等影像作为输入，将由触觉传感器、如运动捕捉手套采集得到的精细手部姿态信息作为输出，通过构建深度学习模型进行机器学习，以训练深度神经网络模型各层参数。

当对用户的个体不加区分时，将影像及其对应精细手部姿态信息作为深度神经网络训练集。由于可以利用所有个体数据，有望获得充足的数据进行复杂的深度神经网络训练，构建能够以手部视频、图像作为输入，手部各个关节角度作为估计对象的回归(regression)网络。在此基础上进而可以通过较为简单的分类器(classifier)，以精细关节角度作为输入信息，以规定的手势类型作为标记，进行手势识别模型的训练与部署应用。

当对用户的个体加以区分时，上述模型由于将所有个体数据进行了混合，得到的模型在特定识别个体对象上可能会产生估计偏差，需要进行补偿。因此还需进行如下处理：

首先，在训练过程中固定深度神经网络的大部分中间层参数。

然后，利用通过人脸识别技术对个体进行识别得到的个体标记信息对采集得到的视频图像数据与对应的精细手部姿态信息进行标记。再后，使用每个个体自身数据对固定部分中间参数的深度神经网络靠近输出前最终的若干层的参数进行重新训练，从而得到输出层参数。

最后，利用中间层参数和输出层参数对该深度神经网络赋值，从而最终得到相应的机器学习模型。

通过上述重新训练，首先，对于大规模网络模型，其大部分层及其参数被固定且可以在多个个体间共享，节约了大量的网络模型文件存储开销；其次，由于仅更新少部分网络参数，网络学习较为简单，在有限的个体数据作为训练集的情况下，亦能取得较为鲁棒的效果。

实施例二

图2为本申请实施例提供的一种手势跟踪识别装置的结构框图。

参照图2所示，本实施例提供的手势跟踪识别装置应用于智能设备，以使该智能设备能够对用户的手势进行跟踪识别，并根据识别结果做出相应操作，该手势跟踪识别装置包括信息获取模块10、手势识别模块20和控制执行模块30。

信息获取模块用于基于视觉方法获取用户的脸部信息和手部影像。

手势识别模块用于利用机器学习模型对手部影像进行识别，得到识别结果。

控制执行模块用于根据手势类型控制智能设备做出相应操作。

从上述技术方案可以看出，本实施例提供了一种手势跟踪识别装置，该装置应用于智能设备，具体为基于视觉方式获取用户的脸部信息和手部影像；利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。相比于传统操作，通过识别用户的手势类型并作出反馈能够大为简化操作，从而提高了用户的使用效率和使用体验。

本实施例中的机器学习模型通过提前训练得到，为了提供该装置的性能，该装置还可以包括用于训练该机器学习模型的模型训练模块40，如图3所示，该模型训练模块具体包括数据采集单元41和训练执行单元42。

数据采集单元用于基于手部运动捕获传感器采集手部各个关节的精细手部姿态信息，这里的手动运动捕获传感器优选运动捕捉手套，该手套可以高精度、细粒度地采集手部各个关节的精细手部姿态信息；训练执行单元用于利用各个关节的精细手部姿态信息并基于影像作为输入信号进行模型训练，得到该机器学习模型。

本申请中训练执行单元具体包括第一训练子单元和第二训练子单元。

当对用户的个体不加区分时，第一训练子单元用于将影像及其对应精细手部姿态信息作为深度神经网络训练集。由于可以利用所有个体数据，有望获得充足的数据进行复杂的深度神经网络训练，构建能够以手部视频、图像作为输入，手部各个关节角度作为估计对象的回归(regression)网络。第二训练子单元用于在此基础上进而可以通过较为简单的分类器(classifier)，以精细关节角度作为输入信息，以规定的手势类型作为标记，进行手势识别模型的训练与部署应用。

当对用户的个体加以区分时，上述模型由于将所有个体数据进行了混合，得到的模型在特定识别个体对象上可能会产生估计偏差，需要进行补偿。因此该训练执行单元还包括参数固定子单元、数据标记子单元、第三训练子单元和模型构建子单元。

参数固定子单元用于在训练过程中固定深度神经网络的大部分中间层参数。

数据标记子单元用于利用通过人脸识别技术对个体进行识别得到的个体标记信息对采集得到的视频图像数据与对应的精细手部姿态信息进行标记。

第三训练子单元则使用每个个体自身数据对固定部分中间参数的深度神经网络靠近输出前最终的若干层的参数进行重新训练，从而得到输出层参数。

模型构建子单元用于利用中间层参数和输出层参数对该深度神经网络赋值，从而最终得到相应的机器学习模型。

实施例三

本实施例提供了一种智能设备，如手机、机器人、自动驾驶汽车等，该智能设备设置有上一实施例所提供的手势跟踪识别装置。该装置具体用于基于视觉方式获取用户的脸部信息和手部影像；利用基于精细手部姿态信息和/或用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作。相比于传统操作，通过识别用户的手势类型并作出反馈能够大为简化操作，从而提高了用户的使用效率和使用体验。

实施例四

图4为本申请实施例提供的一种智能设备的结构框图。

如图4所示，本实施例提供的智能设备为手机、机器人或自动驾驶汽车等，其至少设置有一个处理器50和相应的存储器60，两者通过数据总线70相连接，存储器用于存储计算机程序或指令，处理器则用于从存储器获取相应计算机程序或指令并加以执行，通过执行使该智能设备实现如下操作：

S1、基于视觉方法获取用户的脸部信息和手部影像。

S3、根据手势类型控制智能设备做出相应操作。

从上述技术方案可以看出，相比于传统操作，通过识别用户的手势类型并作出反馈能够大为简化操作，从而提高了用户的使用效率和使用体验。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手势跟踪识别方法，应用于智能设备，其特征在于，所述手势跟踪识别方法包括步骤：

基于视觉方式获取用户的脸部信息和手部影像；

利用基于精细手部姿态信息和用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；

根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作；所述机器学习模型通过如下训练步骤得到：

利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，所述机器学习模型包括用于输出手势分类的分类器；所述利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，包括：

以所述手部关节姿态数据作为输入信息，并以规定的手势类型作为标记进行模型训练，得到所述机器学习模型；

以所述中间层参数和所述输出层参数构建集群学习模型。

2.一种手势跟踪识别装置，应用于智能设备，其特征在于，所述手势跟踪识别装置包括：

手势识别模块，用于利用基于精细手部姿态信息和用户脸部信息的机器学习模型对所述脸部信息和所述手部影像进行识别，得到用户的手势类型；

控制执行模块，用于根据所述手势类型控制所述智能设备执行与所述手势类型相对应的操作；

模型训练模块，所述模型训练模块包括：

训练执行单元，用于利用所述精细手部姿态信息作为监督信号并基于影像作为输入信号进行模型训练，得到所述机器学习模型，所述机器学习模型包括用于输出手势分类的分类器；

所述训练执行单元包括：

第二训练子单元，用于以所述手部关节姿态数据作为输入信息，并以规定的手势类型作为标记进行模型训练，得到所述机器学习模型；

模型构建子单元，用于以所述中间层参数和所述输出层参数构建集群学习模型。

3.一种智能设备，其特征在于，包括如权利要求2所述的手势跟踪识别装置。

4.一种智能设备，其特征在于，包括至少一个处理器和与所述处理器通过数据总线相连接的存储器，所述存储器用于存储计算机程序或指令，所述处理器用于执行所述计算机程序或指令，以使所述智能设备实现如权利要求1所述手势跟踪识别的方法。