CN108229324A

CN108229324A - 手势追踪方法和装置、电子设备、计算机存储介质

Info

Publication number: CN108229324A
Application number: CN201711248850.3A
Authority: CN
Inventors: 杜天元; 钱晨; 王权
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-06-29
Anticipated expiration: 2037-11-30
Also published as: CN108229324B

Abstract

本发明实施例公开了一种手势追踪方法和装置、电子设备、计算机存储介质，其中，方法包括：从获取的待识别图像中提取得到至少一个兴趣区域，基于所述兴趣区域获得兴趣图像；利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，基于所述候选区域获得候选图像；基于所述候选图像进行手势追踪。本发明上述实施例通过识别获得兴趣图像可以将待识别图像中占比较小或不易识别的手势图像突出显示，使待识别图像中的手势图像可以被识别和追踪；增大了人机交互的距离。

Description

手势追踪方法和装置、电子设备、计算机存储介质

技术领域

本发明涉及计算机视觉技术，尤其是一种手势追踪方法和装置、电子设备、计算机存储介质。

背景技术

随着计算机视觉技术的发展，人机交互的方式渐渐由接触式交互转换为非接触式交互，目前主流的非接触式交互包括语音输入和视频输入。其中，视频输入的人机交互十分依赖图像识别和定位等计算机视觉任务。

在物体检测领域中，小物体的检测一直是难度很大的任务；当摄像头和物体距离较远时，目标物体在获取到的图片中就变成了小物体，原有的检测算法可能因此失灵。

发明内容

本发明实施例提供一种手势追踪技术。

本发明实施例提供的一种手势追踪方法，包括：

从获取的待识别图像中提取得到至少一个兴趣区域，基于所述兴趣区域获得兴趣图像；所述兴趣区域用于表示存在手部图像的概率超出设定阈值的区域，每个所述兴趣图像对应一个所述兴趣区域；

利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，基于所述候选区域获得候选图像；所述第一神经网络经过样本手部图像训练获得，所述样本手部图像标注有手部图像的坐标，所述候选区域中包括手部图像的概率超出预设阈值，每个所述候选图像对应一个所述候选区域；

基于所述候选图像识别获得手势坐标信息，基于所述手势坐标信息实现手势追踪；所述手势坐标信息包括手势框坐标和/或关键点坐标。

在基于本发明上述方法的另一个实施例中，所述从获取的待识别图像中提取得到至少一个兴趣区域，包括：

利用人体识别网络，识别获取的待识别图像中的人体区域，基于所述获得的人体区域获得兴趣区域；所述人体识别网络经过样本人体图像训练获得，所述样本人体图像中标注有人体图像的坐标。

利用人脸识别网络，识别获取的待识别图像中的人脸区域，基于所述获得的人脸区域获得兴趣区域；所述人脸识别网络经过样本人脸图像训练获得，所述样本人脸图像中标注有人脸图像的坐标。

在基于本发明上述方法的另一个实施例中，所述基于所述兴趣区域获得兴趣图像，包括：

基于所述兴趣区域在所述待识别图像中的坐标，将所述兴趣区域从所述待识别图像中分离获得兴趣图像。

在基于本发明上述方法的另一个实施例中，所述基于所述兴趣区域获得兴趣图像之后，还包括：

将所述兴趣图像缩放到预设大小；

利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，包括：

利用第一神经网络，对所述缩放后的兴趣图像执行识别操作，获得候选区域。

在基于本发明上述方法的另一个实施例中，利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，基于所述候选区域获得候选图像，包括：

利用第一神经网络，对所述兴趣图像执行识别操作，获得包括手部图像的概率超出预设阈值的矩形框的坐标；所述第一神经网络经过样本手部图像训练获得，所述样本手部图像标注有手部图像的坐标；

基于所述矩形框的坐标确定所述矩形框的各边长度，以所述矩形框的长边为边长，以所述矩形框的中心点坐标为中心，获得呈正方形的候选区域；

基于所述候选区域在所述兴趣图像中的坐标，将所述候选区域从所述兴趣图像中分离获得候选图像。

在基于本发明上述方法的另一个实施例中，基于所述候选图像进行手势追踪，包括：

基于所述候选图像识别获得手势坐标信息，基于所述手势坐标信息进行手势追踪；所述手势坐标信息包括手势框坐标和/或关键点坐标。

在基于本发明上述方法的另一个实施例中，基于所述候选图像识别获得手势坐标信息，包括：

基于所述候选图像获得所述候选图像中的至少一个手势框图像；

将所述手势框图像输入手势识别网络，经所述手势识别网络输出手势坐标信息、手势分类信息和背景信息；所述手势识别网络经过待处理图像结合权重向量训练获得，所述手势分类信息用于表示所述手势框图像中手势属于多种预设手势中一个预设手势，所述背景信息用于表示所述手势框图像属于前景图像或背景图像；

响应于所述手势识别网络输出的背景信息为前景图像，根据所述手势分类信息输出手势坐标信息。

在基于本发明上述方法的另一个实施例中，还包括：

响应于所述手势识别网络输出的背景信息为背景图像，不输出手势坐标信息。

在基于本发明上述方法的另一个实施例中，所述基于所述候选图像获得所述候选图像中的至少一个手势框图像，包括：

将所述候选图像输入第二神经网络，经所述第二神经网络对所述候选图像执行卷积操作，获得所述候选图像中的手部图像的位置和大小；

基于所述手部图像的位置和大小将所述手部图像从所述候选图像中分离，获得手势框图像。

利用预设大小的矩形框在所述候选图像上移动，基于所述矩形框中手部图像的比例超出预设值的矩形框获得所述候选图像中的手部图像的位置和大小；

在基于本发明上述方法的另一个实施例中，所述手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

将所述手势框图像输入手势识别网络，经所述手势识别网络输出手势坐标信息、手势分类信息和背景信息，包括：

将所述手势框图像输入所述共享网络层，经所述共享网络层输出对应所述手势框图像的共享特征；

将所述共享特征输入所述坐标检测网络层，经所述坐标检测网络层输出手势坐标信息；

将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出手势分类信息；

将所述共享特征输入所述背景判断网络层，经所述共享网络层和背景判断网络层输出背景信息。

在基于本发明上述方法的另一个实施例中，将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出手势分类信息，包括：

将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出特征向量，基于所述特征向量中的最大值确定所述手势框输出的手势分类信息；所述特征向量中的每个值对应一种预设手势种类。

在基于本发明上述方法的另一个实施例中，所述预设手势种类包括关键点手势和开关手势；

响应于所述手势识别网络输出的背景信息为前景图像，根据所述手势分类信息输出手势坐标信息，包括：

响应于所述手势分类信息判断所述手势框中手势为关键点手势，输出的所述手势坐标信息包括手势框坐标和关键点坐标；所述手势框坐标包括手势框图像在所述候选图像中的至少两个顶点的坐标，所述关键点坐标用于标示所述手势框图像中手势关键点的坐标；

响应于所述手势分类信息判断所述手势框中手势为开关手势，输出的所述手势坐标信息包括手势框坐标。

在基于本发明上述方法的另一个实施例中，从获取的待识别图像中提取得到至少一个兴趣区域，基于所述兴趣区域获得兴趣图像之前，还包括：

通过摄像设备采集视频，在所述视频中提取至少一个视频帧，作为所述待识别图像。

根据本发明实施例的一个方面，提供的一种手势追踪装置，包括：

兴趣区域提取单元，用于从获取的待识别图像中提取得到至少一个兴趣区域，基于所述兴趣区域获得兴趣图像；所述兴趣区域用于表示存在手部图像的概率超出设定阈值的区域，每个所述兴趣图像对应一个所述兴趣区域；

候选区域提取单元，用于利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，基于所述候选区域获得候选图像；所述候选区域中包括手部图像的概率超出预设阈值，每个所述候选图像对应一个所述候选区域；

手势追踪单元，用于基于所述候选图像进行手势追踪。

在基于本发明上述装置的另一个实施例中，所述兴趣区域提取单元，具体用于利用人体识别网络，识别获取的待识别图像中的人体区域，基于所述获得的人体区域获得兴趣区域；所述人体识别网络经过样本人体图像训练获得，所述样本人体图像中标注有人体图像的坐标。

在基于本发明上述装置的另一个实施例中，所述兴趣区域提取单元，具体用于利用人脸识别网络，识别获取的待识别图像中的人脸区域，基于所述获得的人脸区域获得兴趣区域；所述人脸识别网络经过样本人脸图像训练获得，所述样本人脸图像中标注有人脸图像的坐标。

在基于本发明上述装置的另一个实施例中，所述候选区域提取单元，具体用于基于所述兴趣区域在所述待识别图像中的坐标，将所述兴趣区域从所述待识别图像中分离获得兴趣图像。

在基于本发明上述装置的另一个实施例中，还包括：

缩放单元，用于将所述兴趣图像缩放到预设大小；

所述候选区域提取单元，具体用于利用第一神经网络，对所述缩放后的兴趣图像执行识别操作，获得候选区域。

在基于本发明上述装置的另一个实施例中，所述候选区域提取单元，包括：

候选识别模块，用于利用第一神经网络，对所述兴趣图像执行识别操作，获得包括手部图像的概率超出预设阈值的矩形框的坐标；所述第一神经网络经过样本手部图像训练获得，所述样本手部图像标注有手部图像的坐标；

候选获得模块，用于基于所述矩形框的坐标确定所述矩形框的各边长度，以所述矩形框的长边为边长，以所述矩形框的中心点坐标为中心，获得呈正方形的候选区域；

区域分离模块，用于基于所述候选区域在所述兴趣图像中的坐标，将所述候选区域从所述兴趣图像中分离获得候选图像。

在基于本发明上述装置的另一个实施例中，所述手势追踪单元，包括：

坐标获取模块，用于基于所述候选图像识别获得手势坐标信息；所述手势坐标信息包括手势框坐标和/或关键点坐标；

坐标追踪模块，用于基于所述手势坐标信息进行手势追踪。

在基于本发明上述装置的另一个实施例中，所述坐标获取模块，包括：

手势框模块，用于基于所述候选图像获得所述候选图像中的至少一个手势框图像；

手势识别模块，用于将所述手势框图像输入手势识别网络，经所述手势识别网络输出手势坐标信息、手势分类信息和背景信息；所述手势识别网络经过待处理图像结合权重向量训练获得，所述手势分类信息用于表示所述手势框图像中手势属于多种预设手势中一个预设手势，所述背景信息用于表示所述手势框图像属于前景图像或背景图像；

信息输出模块，用于响应于所述手势识别网络输出的背景信息为前景图像，根据所述手势分类信息输出手势坐标信息。

在基于本发明上述装置的另一个实施例中，所述信息输出模块，还用于响应于所述手势识别网络输出的背景信息为背景图像，不输出手势坐标信息。

在基于本发明上述装置的另一个实施例中，所述手势框模块，具体用于将所述候选图像输入第二神经网络，经所述第二神经网络对所述候选图像执行卷积操作，获得所述候选图像中的手部图像的位置和大小；基于所述手部图像的位置和大小将所述手部图像从所述候选图像中分离，获得手势框图像。

在基于本发明上述装置的另一个实施例中，所述手势框模块，具体用于利用预设大小的矩形框在所述候选图像上移动，基于所述矩形框中手部图像的比例超出预设值的矩形框获得所述候选图像中的手部图像的位置和大小；基于所述手部图像的位置和大小将所述手部图像从所述候选图像中分离，获得手势框图像。

在基于本发明上述装置的另一个实施例中，所述手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

所述手势识别模块，包括：

共享识别模块，用于将所述手势框图像输入所述共享网络层，经所述共享网络层输出对应所述手势框图像的共享特征；

坐标识别模块，用于将所述共享特征输入所述坐标检测网络层，经所述坐标检测网络层输出手势坐标信息；

分类识别模块，用于将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出手势分类信息；

背景识别模块，用于将所述共享特征输入所述背景判断网络层，经所述共享网络层和背景判断网络层输出背景信息。

在基于本发明上述装置的另一个实施例中，所述坐标识别模块，具体用于将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出特征向量，基于所述特征向量中的最大值确定所述手势框输出的手势分类信息；所述特征向量中的每个值对应一种预设手势种类。

在基于本发明上述装置的另一个实施例中，所述预设手势种类包括关键点手势和开关手势；

所述信息输出模块，包括：

关键点输出模块，用于响应于所述手势分类信息判断所述手势框中手势为关键点手势，输出的所述手势坐标信息包括手势框坐标和关键点坐标；所述手势框坐标包括手势框图像在所述候选图像中的至少两个顶点的坐标，所述关键点坐标用于标示所述手势框图像中手势关键点的坐标；

开关输出模块，用于响应于所述手势分类信息判断所述手势框中手势为开关手势，输出的所述手势坐标信息包括手势框坐标。

在基于本发明上述装置的另一个实施例中，还包括：

视频采集单元，用于通过摄像设备采集视频，在所述视频中提取至少一个视频帧，作为所述待识别图像。

根据本发明实施例的另一个方面，提供的一种电子设备，其特征在于，包括处理器，所述处理器包括如上所述的手势追踪装置。

根据本发明实施例的又一个方面，提供的一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述手势追踪方法的操作。

根据本发明实施例的还一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行如上所述的手势追踪方法的操作。

基于本发明上述实施例提供的一种手势追踪方法和装置、电子设备、计算机存储介质，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像；通过识别获得兴趣图像可以将待识别图像中占比较小或不易识别的手势图像突出显示，使待识别图像中的手势图像可以被识别和追踪；利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像；通过基于候选图像进行手势追踪；增大了人机交互的距离。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明手势追踪方法一个实施例的流程图。

图2为本发明手势追踪装置一个实施例的结构示意图。

图3为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

现有技术中的接触型交互媒介，由于需要依赖于与机器接触的设备，因此需要较大的使用空间，如：鼠标键盘需要在桌面上使用，不能很好地满足便携性；而其它非接触交互媒介，如深度摄像头、双目红外摄像头，价格昂贵且使用范围有限，不利于普及推广。

现有的非接触式人机交互以语音控制和动作控制为代表，而语音控制的有效距离要远远小于动作控制，因此精确的远距离动作识别成为了非接触式人机交互的关键；而现有的手势识别算法一般只能识别图像中占比比较大的手势，即现有算法适用距离一般在2米以内，在日常使用中十分受限。

图1为本发明手势追踪方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像。

其中，兴趣区域用于表示存在手部图像的概率超出设定阈值的区域，每个兴趣图像对应一个兴趣区域，具体地，由于手部图像通常与人体或人脸关联出现，兴趣区域中可以包括至少一个人体图像和/或至少一个人脸图像，兴趣区域还可以是预先设置的任意待检测区域，比如：屏幕左半边、右半边等。

步骤102，利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像。

其中，候选区域中包括手部图像的概率超出预设阈值，每个候选图像对应一个候选区域。

具体地，当基于兴趣图像无法识别到包括手部图像的概率超出预设阈值的候选区域时(如：手部快速移动或被遮挡)，返回操作101，从待识别图像中重新提取兴趣图像。

步骤103，基于候选图像进行手势追踪。

基于本发明上述实施例提供的一种手势追踪方法，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像；通过识别获得兴趣图像可以将待识别图像中占比较小或不易识别的手势图像突出显示，使待识别图像中的手势图像可以被识别和追踪；利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像；通过基于候选图像进行手势追踪；增大了人机交互的距离。

在本发明手势追踪方法上述实施例的一个具体示例中，操作101，包括：

利用人体识别网络，识别获取的待识别图像中的人体区域，基于获得的人体区域获得兴趣区域。

其中，人体识别网络经过样本人体图像训练获得，样本人体图像中标注有人体图像的坐标；具体地，由于手部图像通常是与人体图像同时出现，在距离较远的情况下，手部图像在整张图像中所占比例较小无法识别时，通过识别人体区域的相关区域即可获得手部图像。

在本发明手势追踪方法上述各实施例的一个具体示例中，从获取的待识别图像中提取得到至少一个兴趣区域，包括：

利用人脸识别网络，识别获取的待识别图像中的人脸区域，基于获得的人脸区域获得兴趣区域。

其中，人脸识别网络经过样本人脸图像训练获得，样本人脸图像中标注有人脸图像的坐标；具体地，由于手部图像通常是与人脸图像同时出现，在距离较远的情况下，手部图像在整张图像中所占比例较小无法识别时，通过识别人脸区域的相关区域即可获得手部图像。

获得兴趣区域的方式不限于基于人体识别网络或人脸识别网络获得，现有技术中任何可以获得兴趣区域的方式都可以应用于本发明手势追踪方法。

在本发明手势追踪方法上述各实施例的一个具体示例中，基于兴趣区域获得兴趣图像，包括：

基于兴趣区域在待识别图像中的坐标，将兴趣区域从待识别图像中分离获得兴趣图像。

具体地，已知兴趣区域在待识别图像中坐标，即可获得兴趣区域的位置和大小，基于位置和大小，将兴趣区域从待处理图像中分离出来就得到了兴趣图像，具体分离可采用透视变换等技术实现，本实施例对分离的具体技术不作限制。

本发明手势追踪方法的另一个实施例中，在上述各实施例的基础上，还包括：

将兴趣图像缩放到预设大小；

操作102包括：

利用第一神经网络，对缩放后的兴趣图像执行识别操作，获得候选区域。

在本实施中，为了更好的识别远距离获得的图像中占比较小的手部图像，具体地，可以将获得的兴趣区域放大到预设大小，利用第一神经网络，对放大后的兴趣图像识别得到包括手部图像的概率超出预设阈值的候选图像，基于放大后的兴趣图像获取候选区域，可以将手势识别和追踪的有效距离扩展至6米，在无人机上获取了成功的应用；候选图像并不一定包括手部图像，还有一定的几率候选图像中无法识别到手势框，此时，重新执行操作102或重新执行101和操作102，直到获取手势图像的手势坐标信息。

本发明手势追踪方法的又一个实施例中，在上述各实施例的基础上，操作102包括：

利用第一神经网络，对兴趣图像执行识别操作，获得包括手部图像的概率超出预设阈值的矩形框的坐标；

其中，第一神经网络经过样本手部图像训练获得，样本手部图像标注有手部图像的坐标。

基于矩形框的坐标确定矩形框的各边长度，以矩形框的长边为边长，以矩形框的中心点坐标为中心，获得呈正方形的候选区域；

基于候选区域在兴趣图像中的坐标，将候选区域从兴趣图像中分离获得候选图像。

本实施例中，在兴趣图像中获得可能包括手部图像的矩形框后，将矩形框通过以中心点为中心，长边为边长的方式适当放大，以增加后续步骤中获得手势坐标信息，以实现对手势的追踪，已知候选区域在兴趣图像中坐标，即可获得候选区域的位置和大小，基于位置和大小，将候选区域从兴趣图像中分离出来就得到了候选图像，具体分离可采用透视变换等技术实现，本实施例对分离的具体技术不作限制。

本发明手势追踪方法的还一个实施例中，在上述各实施例的基础上，操作103包括：

基于候选图像识别获得手势坐标信息，基于手势坐标信息进行手势追踪。

其中，手势坐标信息包括手势框坐标和/或关键点坐标；通过手势框坐标和/或关键点坐标即可确定手势图像在待处理图像中的位置，通过确定的手势图像在待处理图像中的位置即可实现在待处理图像中对手势的查找；具体地，在连续获得的待处理图像中，通常手势图像的移动距离在一定范围内，因此，在一定时间内，在通过基于本实施例手势追踪方法获得的兴趣区域都能查找到手势图像，实现手势追踪；当手势图像在该兴趣区域消失时，重新执行兴趣区域的提取操作，获得新的兴趣区域，基于新的兴趣区域进行手势追踪。

在本发明手势追踪方法上述各实施例的一个具体示例中，基于候选图像识别获得手势坐标信息，包括：

基于候选图像获得候选图像中的至少一个手势框图像；

将手势框图像输入手势识别网络，经手势识别网络输出手势坐标信息、手势分类信息和背景信息；

其中，手势识别网络经过待处理图像结合权重向量训练获得，手势分类信息用于表示手势框图像中手势属于多种预设手势中一个预设手势，背景信息用于表示手势框图像属于前景图像或背景图像。

响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出手势坐标信息。

本实施例中，手势识别网络经过候选图像结合权重向量训练获得，坐标信息包括手势框坐标和/或关键点坐标，本实施例中权重向量用于区分手势框图像中是否包括关键点坐标，在本实施例中对于无论是否包括关键点的手势框图像都输出手势框坐标和关键点坐标，对于识别的关键点坐标，该关键点坐标结合手势分类信息判断是否真实有效，当手势分类信息判断该手势不具有关键点，那么该关键点坐标是无效的；手势分类信息用于表示手势框图像中手势属于多种预设手势中一个预设手势，在无接触人机交互中，能准确地识别每一种手势，可以让机器正确接收指令；背景信息用于表示手势框图像属于前景图像或背景图像，其中，前景图像指手势框图像中包括面积大小达到预设大小的手部图像，而背景图像指手势框图像中不包括手部图像后手部图像的面积大小未达到预设大小，例如：需要捕捉的是前台操作的人手，而此时，该人手后方有其他路人等无关人员的面积较小的手部图像，此时，将后方面积较小的手部图像识别为背景图像；本实施例将手势识别网络输出的各信息结合处理，得到更精准的识别结果，为人机交互提供了更准确的位置信息。

在本发明手势追踪方法上述各实施例的一个具体示例中，还包括：

响应于手势识别网络输出的背景信息为背景图像，不输出手势坐标信息。

本实施例中，基于手势识别网络输出的背景信息判断当前手势框图像中是否包含手部图像，当该手势框图像中不包括手部图像时，说明未捕捉到手势，无法获取正确的手势分类信息和手势框坐标，因此，不输出手势坐标信息。

在本发明手势追踪方法上述各实施例的一个具体示例中，基于获取的候选图像获得候选图像中的至少一个手势框图像，包括：

将候选图像输入第二神经网络，经第二神经网络对候选图像执行卷积操作，获得候选图像中的手部图像的位置和大小；

基于手部图像的位置和大小将手部图像从候选图像中分离，获得手势框图像。

具体地，基于手部图像训练得到的第二神经网络可以准确的识别图像中哪些像素属于手部，哪些像素不属于手部，可以对图像中每个像素进行分类，基于分类结果获得手部图像的所有像素，基于这些像素可获得手部图像的位置和大小，基于手部图像的位置和大小即可获得手势框，将手势框从候选图像中分离出来就得到了手势框图像，具体分离可采用透视变换等技术实现，本实施例对分离的具体技术不作限制。

在本发明手势追踪方法上述各实施例的一个具体示例中，基于候选图像获得候选图像中的至少一个手势框图像，包括：

利用预设大小的矩形框在候选图像上移动，基于矩形框中手部图像的比例超出预设值的矩形框获得候选图像中的手部图像的位置和大小；

具体地，通过预设大小的矩形框在候选图像中移动的过程中，如果获得多个相邻的矩形框中都包含比例超出预设值的手部图像时，可将这些矩形框组合构成手势框；而当获得的所有矩形框中的手部图像的比例都小于预设比例时，可以缩小矩形框的大小，重新通过调整扣的矩形框在候选图像上移动，直到获得一个以上的保护手部图像的比例超出预设值的矩形框；将手势框从候选图像中分离出来就得到了手势框图像，具体分离可采用透视变换等技术实现，本实施例对分离的具体技术不作限制。

本发明手势追踪方法的再一个实施例中，在上述各实施例的基础上，手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

将手势框图像输入手势识别网络，经手势识别网络输出手势坐标信息、手势分类信息和背景信息，包括：

将手势框图像输入共享网络层，经共享网络层输出对应手势框图像的共享特征；

将共享特征输入坐标检测网络层，经坐标检测网络层输出手势坐标信息；

将共享特征输入手势分类网络层，经手势分类网络层输出手势分类信息；

将共享特征输入所述背景判断网络层，经共享网络层和背景判断网络层输出背景信息。

本实施例中，通过设置共享网络层识别待处理图像中的共享特征，共享特征用于体现图像中的小物体纹理特征，边缘特征和细节特征，通过共享部分网络，减少重复的对图像的特征进行提取；分别通过坐标检测网络层、手势分类网络层和背景判断网络层输出手势框坐标、关键点坐标、手势分类信息和背景信息，实现了通过一个网络对手势的完整识别和坐标检测，缩小了网络模型的大小，简化了网络的训练过程。

具体地，坐标检测网络层输出的特征为6维向量，表示手势框的左上、右下以及手势关键点坐标；手势分类网络层是一个12类分类器，前11类表示手势的类别，最后一类表示其他手势；背景判断网络层输出两个值，分别表示当前手势框内容属于手势的概率和属于背景的概率。在实际使用的时候，可以根据手势分类网络层输出的分类结果，从坐标检测网络层的输出中手势框坐标，或手势框坐标和关键点坐标作为网络输出。

在本发明手势追踪方法上述各实施例的一个具体示例中，将共享特征输入手势分类网络层，经手势分类网络层输出手势分类信息，包括：

将共享特征输入手势分类网络层，经手势分类网络层输出特征向量，基于特征向量中的最大值确定手势框输出的手势分类信息；特征向量中的每个值对应一种预设手势种类。

具体地，手势分类网络层作为一个分类网络，可以根据预设的手势种类对手势框图像中的手势进行识别，手势可以包括两大类：包括关键点的手势和不包括关键点的手势，其中不包括关键点的手势可以作为开关或按钮，包括关键点的手势可以模拟鼠标。

在本发明手势追踪方法上述各实施例的一个具体示例中，预设手势种类包括关键点手势和开关手势；

响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出手势坐标信息，包括：

响应于手势分类信息判断手势框中手势为关键点手势，输出的手势坐标信息包括手势框坐标和关键点坐标；手势框坐标包括手势框图像在候选图像中的至少两个顶点的坐标，关键点坐标用于标示手势框图像中手势关键点的坐标；

响应于手势分类信息判断手势框中手势为开关手势，输出的手势坐标信息包括手势框坐标。

其中，手势框坐标包括手势框图像在待处理图像中的至少两个顶点的坐标，关键点坐标用于标示手势框图像中手势中关键点的坐标，精确的关键点定位也为更好地控制机器提供了可能；本实施例通过判断手势种类是否包括关键点，控制输出的坐标中关键点坐标是否为0，当手势为关键点手势时，输出手势框坐标和关键点坐标，具体地，可以为6维向量，表示手势框的左上、右下以及手势关键点坐标；而当手势为开关手势时，输出手势框坐标，具体可以包括4维向量，表示手势框的左上、右下坐标，或具体包括6维向量，表示手势框的左上、右下以及手势关键点坐标，其中手势关键点坐标为0。

在本发明手势追踪方法上述各实施例的一个具体示例中，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像之前，还包括：

通过摄像设备采集视频，在视频中提取至少一个视频帧，作为待识别图像。

具体地，由于需要实现人机交互，那么待处理图像的获取必须是基于实时的人体动作，捕捉人体动作时，需要摄像设备(如：摄像头等)对人体动作进行采集，将采集到的视频分解为待处理图像，基于待处理图像中的手势实现人机交互；基于对从视频中获得的连续图像进行手势识别，实现手势追踪，达到更好的非接触型的人机交互的效果。

本发明在具体应用中可以包括：

例如现有一张远距离拍摄的人像，需要提取人像手势，但是手势区域在整图中所占面积很小，无法被RPN网络提取到，因此可以先使用人体检测算法，检测到图像中的人体，将人体附近区域作为兴趣区域；或者使用人脸检测算法检测图片中的人脸，再根据人脸区域信息放大一定比例，得到兴趣区域。

提取兴趣区域的目的是缩小手势所在的范围，基于兴趣区域对原图进行切割，对切割后的小图像，使用手势检测模型检测到手势区域，再用手势追踪模型预测手势的精确位置及分类。

获得的兴趣区域只作为手势识别模型的输入，手势追踪模型的输入是根据手势识别模型的结果切割后得到的更小的图片。

每次只能处理一个兴趣区域，每个兴趣区域对应一次识别+追踪算法。

本发明方法可在兴趣区域内检测手势并识别、追踪，藉此有效扩展手势识别追踪的距离；在追踪过程中仅使用追踪模型，既保证了运行速度，又可以脱离最初的兴趣区域，可以在实际生活中大量推广。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图2为本发明手势追踪装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图2所示，该实施例的装置包括：

兴趣区域提取单元21，用于从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像。

其中，兴趣区域用于表示存在手部图像的概率超出设定阈值的区域，每个兴趣图像对应一个兴趣区域；具体地，由于手部图像通常与人体或人脸关联出现，兴趣区域中可以包括至少一个人体图像和/或至少一个人脸图像，兴趣区域还可以是预先设置的任意待检测区域，比如：屏幕左半边、右半边等。

候选区域提取单元22，用于利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像。

手势追踪单元23，用于基于候选图像进行手势追踪。

基于本发明上述实施例提供的一种手势追踪装置，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像；通过识别获得兴趣图像可以将待识别图像中占比较小或不易识别的手势图像突出显示，使待识别图像中的手势图像可以被识别和追踪；利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像；通过基于候选图像进行手势追踪；增大了人机交互的距离。

在本发明手势追踪装置上述实施例的一个具体示例中，兴趣区域提取单元21，具体用于利用人体识别网络，识别获取的待识别图像中的人体区域，基于获得的人体区域获得兴趣区域。

其中，人体识别网络经过样本人体图像训练获得，样本人体图像中标注有人体图像的坐标。

在本发明手势追踪装置上述各实施例的一个具体示例中，兴趣区域提取单元21，具体用于利用人脸识别网络，识别获取的待识别图像中的人脸区域，基于获得的人脸区域获得兴趣区域。

其中，人脸识别网络经过样本人脸图像训练获得，样本人脸图像中标注有人脸图像的坐标。

在本发明手势追踪装置上述各实施例的一个具体示例中，候选区域提取单元22，具体用于基于兴趣区域在待识别图像中的坐标，将兴趣区域从待识别图像中分离获得兴趣图像。

本发明手势追踪装置的另一个实施例中，在上述各实施例的基础上，缩放单元，用于将兴趣图像缩放到预设大小；

候选区域提取单元22，具体用于利用第一神经网络，对缩放后的兴趣图像执行识别操作，获得候选区域。

在本实施中，为了更好的识别远距离获得的图像中占比较小的手部图像，具体地，可以将获得的兴趣区域放大到预设大小，利用第一神经网络，对放大后的兴趣图像识别得到包括手部图像的概率超出预设阈值的候选图像，基于放大后的兴趣图像获取候选区域，可以将手势识别和追踪的有效距离扩展至6米，在无人机上获取了成功的应用；候选图像并不一定包括手部图像，还有一定的几率候选图像中无法识别到手势框，此时，重新执行候选区域提取单元22的操作或重新执行兴趣区域提取单元21和候选区域提取单元22的操作，直到获取手势图像的手势坐标信息。

本发明手势追踪装置的又一个实施例中，在上述各实施例的基础上，候选区域提取单元22，包括：

候选识别模块，用于利用第一神经网络，对兴趣图像执行识别操作，获得包括手部图像的概率超出预设阈值的矩形框的坐标；

其中，第一神经网络经过样本手部图像训练获得，样本手部图像标注有手部图像的坐标；

候选获得模块，用于基于矩形框的坐标确定矩形框的各边长度，以矩形框的长边为边长，以矩形框的中心点坐标为中心，获得呈正方形的候选区域；

区域分离模块，用于基于候选区域在兴趣图像中的坐标，将候选区域从兴趣图像中分离获得候选图像。

本发明手势追踪装置的还一个实施例中，在上述各实施例的基础上，手势追踪单元23，包括：

坐标获取模块，用于基于候选图像识别获得手势坐标信息；

坐标追踪模块，用于基于手势坐标信息进行手势追踪。

在本发明手势追踪装置上述各实施例的一个具体示例中，坐标获取模块，包括：

手势框模块，用于基于候选图像获得候选图像中的至少一个手势框图像；

手势识别模块，用于将手势框图像输入手势识别网络，经手势识别网络输出手势坐标信息、手势分类信息和背景信息；

其中，手势识别网络经过待处理图像结合权重向量训练获得，手势分类信息用于表示手势框图像中手势属于多种预设手势中一个预设手势，背景信息用于表示手势框图像属于前景图像或背景图像；

信息输出模块，用于响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出手势坐标信息。

在本发明手势追踪装置上述各实施例的一个具体示例中，信息输出模块，还用于响应于手势识别网络输出的背景信息为背景图像，不输出手势坐标信息。

在本发明手势追踪装置上述各实施例的一个具体示例中，手势框模块，具体用于将候选图像输入第二神经网络，经第二神经网络对候选图像执行卷积操作，获得候选图像中的手部图像的位置和大小；基于手部图像的位置和大小将手部图像从候选图像中分离，获得手势框图像。

在本发明手势追踪装置上述各实施例的一个具体示例中，手势框模块，具体用于利用预设大小的矩形框在候选图像上移动，基于矩形框中手部图像的比例超出预设值的矩形框获得候选图像中的手部图像的位置和大小；基于手部图像的位置和大小将手部图像从候选图像中分离，获得手势框图像。

本发明手势追踪装置的再一个实施例中，在上述各实施例的基础上，手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

手势识别模块，包括：

共享识别模块，用于将手势框图像输入共享网络层，经共享网络层输出对应手势框图像的共享特征；

坐标识别模块，用于将共享特征输入坐标检测网络层，经坐标检测网络层输出手势坐标信息；

分类识别模块，用于将共享特征输入手势分类网络层，经手势分类网络层输出手势分类信息；

背景识别模块，用于将共享特征输入背景判断网络层，经共享网络层和背景判断网络层输出背景信息。

在本发明手势追踪装置上述各实施例的一个具体示例中，坐标识别模块，具体用于将共享特征输入手势分类网络层，经手势分类网络层输出特征向量，基于特征向量中的最大值确定手势框输出的手势分类信息；特征向量中的每个值对应一种预设手势种类。

在本发明手势追踪装置上述各实施例的一个具体示例中，预设手势种类包括关键点手势和开关手势；

信息输出模块，包括：

关键点输出模块，用于响应于手势分类信息判断手势框中手势为关键点手势，输出的手势坐标信息包括手势框坐标和关键点坐标；手势框坐标包括手势框图像在候选图像中的至少两个顶点的坐标，关键点坐标用于标示手势框图像中手势关键点的坐标；

开关输出模块，用于响应于手势分类信息判断手势框中手势为开关手势，输出的手势坐标信息包括手势框坐标。

在本发明手势追踪装置上述各实施例的一个具体示例中，还包括：

视频采集单元，用于通过摄像设备采集视频，在视频中提取至少一个视频帧，作为待识别图像。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述任一实施例的手势追踪装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明手势追踪方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被执行时执行本发明手势追踪方法上述任一实施例的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图3，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备300的结构示意图：如图3所示，计算机系统300包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)301，和/或一个或多个图像处理器(GPU)313等，处理器可以根据存储在只读存储器(ROM)302中的可执行指令或者从存储部分308加载到随机访问存储器(RAM)303中的可执行指令而执行各种适当的动作和处理。通信部312可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器302和/或随机访问存储器330中通信以执行可执行指令，通过总线304与通信部312相连、并经通信部312与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像；利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像；基于候选图像进行手势追踪。

此外，在RAM303中，还可存储有装置操作所需的各种程序和数据。CPU301、ROM302以及RAM303通过总线304彼此相连。在有RAM303的情况下，ROM302为可选模块。RAM303存储可执行指令，或在运行时向ROM302中写入可执行指令，可执行指令使处理器301执行上述通信方法对应的操作。输入/输出(I/O)接口305也连接至总线304。通信部312可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

需要说明的，如图3所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图3的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，从获取的待识别图像中提取得到至少一个兴趣区域，基于兴趣区域获得兴趣图像；利用第一神经网络，对兴趣图像执行识别操作，获得候选区域，基于候选区域获得候选图像；基于候选图像进行手势追踪。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种手势追踪方法，其特征在于，包括：

利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，基于所述候选区域获得候选图像；所述候选区域中包括手部图像的概率超出预设阈值，每个所述候选图像对应一个所述候选区域；

基于所述候选图像进行手势追踪。

2.根据权利要求1所述的方法，其特征在于，所述从获取的待识别图像中提取得到至少一个兴趣区域，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述从获取的待识别图像中提取得到至少一个兴趣区域，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述兴趣区域获得兴趣图像，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述兴趣区域获得兴趣图像之后，还包括：

将所述兴趣图像缩放到预设大小；

6.根据权利要求1-5任一所述的方法，其特征在于，利用第一神经网络，对所述兴趣图像执行识别操作，获得候选区域，基于所述候选区域获得候选图像，包括：

7.一种手势追踪装置，其特征在于，包括：

手势追踪单元，用于基于所述候选图像进行手势追踪。

8.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求7所述的手势追踪装置。

9.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至6任意一项所述手势追踪方法的操作。

10.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至6任意一项所述的手势追踪方法的操作。