CN109086725B

CN109086725B - 手部跟踪方法及机器可读存储介质

Info

Publication number: CN109086725B
Application number: CN201810906929.9A
Authority: CN
Inventors: 王行; 周晓军; 李骊; 盛赞; 李朔; 杨淼
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-01-05
Anticipated expiration: 2038-08-10
Also published as: CN109086725A

Abstract

本发明涉及手势识别领域。本发明一实施例提供一种手部跟踪方法及机器可读存储介质，其中所述手部跟踪方法，包括：获取待执行手部跟踪任务的手部图像视频；从所述手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像，并获取所述第一帧深度图像中手的第一手部位置；将所述第一手部位置和所述第二帧深度图像输入神经网络模型，以由该神经网络模型预测所述第二帧图像中手的第二手部位置，其中所述神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。由此，基于手部历史位置信息和当前图像信息预测当前帧目标在图像中的位置，并推断出了当前手部位置的跟踪状态。

Description

手部跟踪方法及机器可读存储介质

技术领域

本发明涉及手势识别领域，具体地涉及一种手部跟踪方法及机器可读存储介质。

背景技术

手势识别技术能够通过识别用户手部的姿态以及动作实现基于手势的人机交互，而手跟踪技术是此类技术方案中不可或缺的一部分。

目前相关技术中实现目标跟踪主要有两方面的实现技术：一方面，可以是基于上一帧目标在图像中所占据的区域，通过算法给出当前帧目标可能的候选区域；然后，计算候选区域与上一帧目标所在区域的匹配程度(或其它评判标准，如颜色直方图分布等)，选取匹配程度最好的区域为当前帧目标的位置预测。另一方面，可以是对目标物体进行建模，然后寻找当前图像中与目标模型最接近的区域，之后再更新目标模型。

故目前的手部跟踪技术都是对目标所占据的区域进行跟踪，但是人的手因其复杂的形变和姿态变化、特征多样，前后帧之间的相关性较弱，区域跟踪难度大，并且其跟踪算法通常计算量大且算法逻辑复杂而导致手部跟踪响应滞后严重，降低了手势识别的精确度。

发明内容

本发明实施例的目的是提供一种手部跟踪方法及机器可读存储介质，用以至少解决目前相关技术中手部跟踪算法复杂且响应滞后严重，而降低了手势识别的精确度的问题。

为了实现上述目的，本发明实施例一方面提供一种手部跟踪方法，包括：获取待执行手部跟踪任务的手部图像视频；从所述手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像，并获取所述第一帧深度图像中手的第一手部位置；将所述第一手部位置和所述第二帧深度图像输入神经网络模型，以由该神经网络模型预测所述第二帧图像中手的第二手部位置，其中所述神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。

本发明实施例另一方面提供一种机器可读存储介质其中该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述的手部跟踪方法。

本发明实施例又一方面提供一种手部跟踪系统，包括图像获取单元，用于获取待执行手部跟踪任务的手部图像视频；帧提取单元，用于从所述手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像；历史手部位置获取单元，用于获取所述第一帧深度图像中手的第一手部位置；手部位置推测单元，用于将所述第一手部位置和所述第二帧深度图像输入神经网络模型，以由该神经网络模型预测所述第二帧图像中手的第二手部位置，其中所述神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。

通过上述技术方案，将上一帧深度图像中的手部位置和当前帧深度图像输入至神经网络模型，该神经网络模型是以深度图像和相邻帧的深度图像之间的手部位置差为标签而训练的，使得该神经网络模型能够结合上一帧手部位置推算出其相对于当前帧的手部位置差，并进一步计算出当前帧的手部位置。由此，仅通过上一帧的手部位置和当前帧的深度图像信息来推断当前帧的手部位置，利用手部历史位置信息和当前图像信息来预测当前帧目标在图像中的位置，简化了算法的复杂性，并降低了手部跟踪难度，实现了手部跟踪的快速响应。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例的手部跟踪方法的流程图；

图2是本发明一实施例的手部跟踪方法的原理流程图；

图3是本发明一实施例的手部跟踪系统的结构框图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

手势识别技术能够通过识别用户手部的姿态以及动作实现基于手势的人机交互，而手跟踪技术是此类技术方案中不可或缺的一部分。本发明实施例提出了基于深度学习的手部跟踪方案，仅通过上一帧的手部位置和当前帧的深度图像信息，就能够推断当前帧的手部位置和跟踪状态。

如图1所示，本发明一实施例的手部跟踪方法，包括：

S11、获取待执行手部跟踪任务的手部图像视频，其中手部图像视频可以是以采集的方式所获取的并据此进行手部跟踪，例如通过各种类型的相机所拍摄的。

关于本发明实施例方法的实施客体，其可以是专用于手部跟踪或手势识别的终端(例如增强现实/虚拟现实(AR/VR)头戴配件，诸如头盔、眼镜等)，还可以是各种通用型终端(例如智能手机或PC计算机等)上，且都属于本发明的保护范围内。

S12、从手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像，并获取所述第一帧深度图像中手的第一手部位置。

具体的，当手部图像视频是由深度相机所拍摄时，此时只需从该视频流中截取连续的多帧图像即可。本发明实施例中的该第一手部位置可以是指示初始位置或历史位置，其获取方式可以是任意及多样化的，例如可以是通过人员标注、历史位置读取，并还可以是通过其他技术来实现的，而本发明实施例所专注的是相对于该第一手部位置后续的(例如初始帧或已知手部位置的帧的下一帧或多帧，即第二帧或第三帧等)手部位置的跟踪。

在一些优选实施方式中，为了实现动态连续的实时手部跟踪，还可以是将所预测的第二手部位置和第三帧深度图像(其为第二帧深度图像的下一帧)输入至所述神经网络模型，以由该神经网络模型预测所述第三帧图像中手的第三手部位置。

S13、将第一手部位置和第二帧深度图像输入神经网络模型，以由该神经网络模型预测第二帧图像中手的第二手部位置，其中该神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。

具体的，由于神经网络模型是以深度图像和相邻帧的深度图像之间的手部位置差为标签进行训练的，使得在输入神经网络模型的数据中存在当前帧深度图像和上一帧手部位置时，神经网络模型能够计算推导出当前帧深度图像所对应的手部位置差，并以该所推导的手部位置差结合上一帧的手部位置确定出当前帧中的手部位置。

由于视频流中存在手部消失的情况，此时就应当停止跟踪。有鉴于此，本发明实施例还提供了更多的功能，即利用上述的神经网络模型判断手部跟踪状态的实施方式；其中，由于神经网络模型的训练数据中包括含手部的深度图像，使得神经网络模型可以对深度图像中是否存在手部进行检测并判断。

具体的，在神经网络模型预测手部位置时，可以是神经网络模型基于所输入的深度图像(可以是第二帧深度图像或第三帧深度图像)，判断该所输入的深度图像中是否存在手部。一方面，当该判断的结果指示输入图像中存在手部时，由于神经网络模型是由包括相邻帧的深度图像之间的手部位置差和深度图像所训练的，其可以推断当前深度图像所对应的手部位置差，并进一步结合所输入深度图像的上一帧图像中的手部位置确定出所输入的深度图像中的手部位置；另一方面，当该判断的结果指示输入图像中不存在手部时，可以是神经网络模型输出手部跟踪失败结果以触发停止手部跟踪，并还可以触发跳转至相应的后续处理流程。在本发明实施例的优选实施方式中，首先判断跟踪状态并在跟踪状态成功的情况下才实施位置预测跟踪操作，节约了处理资源并提高了跟踪效率。

在本发明实施例中，上述的神经网络模型可以优选为卷积神经网络CNN模型，以及本文还提供了基于深度图像和CNN模型的手部跟踪方法，以根据上一帧图像的手部位置结合当前帧的深度图像，来预测当前帧的手部位置并同时判断手部跟踪状态。

1)CNN模型训练阶段

使用带有深度信息的摄像头采集深度图像，通过标注给出图像中手部位置的像素坐标以及对应的深度值(u,v,d)。对数据进行预处理：基于上一帧手部位置，在当前帧深度图像上截取一个方形子图作为模型训练的输入图像，上一帧与当前帧手部位置的像素坐标差作为输入图像的回归标签，分类标签为1。另外，在深度图像上截取手部位置以外的方形子图作为模型训练的第二类输入图像，回归标签设置为(0,0,0)，分类标签为0。

将上述处理好的数据作为输入以训练CNN模型。

2)CNN模型应用阶段

如图2所示，输入为当前帧图像以及上一帧手部位置坐标，基于上一帧手部位置坐标，在当前帧深度图像上截取一个方形子图，将该子图输入CNN模型。模型同时给出对该图像的分类结果和回归结果。首先判断该图的分类结果，若为0，则认为跟踪失败，不再处理回归结果，进入跟踪失败的后续处理。若分类结果为1，则处理回归结果。该回归结果预测的是当前帧手部位置与上一帧手部位置的差值，通过将回归结果与上一帧手部位置相加，预测当前帧手部位置，完成当前帧的手部位置跟踪。

在本发明实施例中，基于回归和分类多任务CNN模型实现了手部位置坐标跟踪，其中基于图像的目标跟踪技术可以是利用手部的历史位置信息以及当前图像信息来判断目标是否处于可跟踪状态，并在可跟踪状态下同时预测目标当前的位置，故该手部跟踪过程涉及判断与预测两个任务的执行。

由此，本发明实施例将复杂的目标跟踪任务简化为对单点的跟踪，大大降低了跟踪任务的难度；采用一个多任务CNN模型完成手部位置的跟踪方案，能同时判断跟踪状态和预测当前帧手部位置，算法逻辑简单，开发难度低。并且，由于该CNN模型的处理任务较为简单、模型简洁，使得手部跟踪运行速度极快，能够达到实时的效果，尤其适合被应用在交互式VR/AR设备上。

如图3所示，本发明一实施例的手部跟踪系统30，包括：

图像获取单元301，用于获取待执行手部跟踪任务的手部图像视频；

帧提取单元302，用于从所述手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像；

历史手部位置获取单元303，用于获取所述第一帧深度图像中手的第一手部位置；

手部位置推测单元304，用于将所述第一手部位置和所述第二帧深度图像输入神经网络模型，以由该神经网络模型预测所述第二帧图像中手的第二手部位置，其中所述神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。

在一些实施方式中，该系统30还包括：手部位置动态跟踪单元(未示出)，用于将所预测的所述第二手部位置和作为所述第二帧深度图像的下一帧的第三帧深度图像输入至所述神经网络模型，以由该神经网络模型预测所述第三帧图像中手的第三手部位置。

在一些实施方式中，所述神经网络模型(未示出)包括：手部分类模块(未示出)，用于在所述神经网络模型预测手部位置时，基于所输入的深度图像，判断该所输入的深度图像中是否存在手部；手部位置预测模块(未示出)，用于当该判断的结果指示存在手部时，推断所述所输入的深度图像所对应的手部位置差，以确定所述所输入的深度图像中的手部位置。

在一些实施方式中，所述神经网络模型还包括：跟踪状态检测模块(未示出)，用于当该判断的结果指示不存在手部时，则所述神经网络模型输出手部跟踪失败结果，以触发停止手部跟踪。

关于本发明实施例所提供的手部跟踪系统更多的细节可以参照上文关于手部跟踪方法的描述，其也能实现相应的技术效果，故在此便不赘述。其中，该手部跟踪系统可以被配置在任意的终端上，例如计算机、VR眼镜、AR头盔等。

本发明一实施例还提供了机器可读存储介质，该机器可读存储介质上存储有指令，其分别用于执行本申请上述的手部跟踪方法的步骤，该机器可读存储介质所安装的终端可以是任意的终端，例如计算机、VR眼镜、AR头盔等，其具体的技术方案的细节和效果可以参照上文方法实施例的描述，在此便不赘述。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种手部跟踪方法，包括：

获取待执行手部跟踪任务的手部图像视频；

从所述手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像，并获取所述第一帧深度图像中手的第一手部位置；

将所述第一手部位置和所述第二帧深度图像输入神经网络模型，以由该神经网络模型预测所述第二帧图像中手的第二手部位置，其中所述神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。

2.根据权利要求1所述的方法，其中，在所述由该神经网络模型预测所述第二帧图像中手的第二手部位置之后，该方法还包括：

将所预测的所述第二手部位置和作为所述第二帧深度图像的下一帧的第三帧深度图像输入至所述神经网络模型，以由该神经网络模型预测所述第三帧图像中手的第三手部位置。

3.根据权利要求1或2所述的方法，其中，在所述神经网络模型预测手部位置时，该方法包括：

基于所输入的深度图像，所述神经网络模型判断该所输入的深度图像中是否存在手部；

当该判断的结果指示存在手部时，推断所述所输入的深度图像所对应的手部位置差，以确定所述所输入的深度图像中的手部位置。

4.根据权利要求3所述的方法，其中，在基于所输入的深度图像所述神经网络模型判断该所输入的深度图像中是否存在手部之后，该方法还包括：

当该判断的结果指示不存在手部时，则所述神经网络模型输出手部跟踪失败结果，以触发停止手部跟踪。

5.根据权利要求1所述的方法，其中，所述神经网络模型为卷积神经网络。

6.一种机器可读存储介质，其中该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1-5中任一项所述的手部跟踪方法。

7.一种手部跟踪系统，包括：

图像获取单元，用于获取待执行手部跟踪任务的手部图像视频；

帧提取单元，用于从所述手部图像视频中提取出第一帧深度图像和其下一帧的第二帧深度图像；

历史手部位置获取单元，用于获取所述第一帧深度图像中手的第一手部位置；

手部位置推测单元，用于将所述第一手部位置和所述第二帧深度图像输入神经网络模型，以由该神经网络模型预测所述第二帧图像中手的第二手部位置，其中所述神经网络模型是以深度图像和相邻帧的所述深度图像之间的手部位置差为标签进行训练的。

8.根据权利要求7所述的系统，其中，该系统还包括：

手部位置动态跟踪单元，用于将所预测的所述第二手部位置和作为所述第二帧深度图像的下一帧的第三帧深度图像输入至所述神经网络模型，以由该神经网络模型预测所述第三帧图像中手的第三手部位置。

9.根据权利要求7或8所述的系统，其中，所述神经网络模型包括：

手部分类模块，用于在所述神经网络模型预测手部位置时，基于所输入的深度图像，判断该所输入的深度图像中是否存在手部；

手部位置预测模块，用于当该判断的结果指示存在手部时，推断所述所输入的深度图像所对应的手部位置差，以确定所述所输入的深度图像中的手部位置。

10.根据权利要求9所述的系统，其中，所述神经网络模型还包括：

跟踪状态检测模块，用于当该判断的结果指示不存在手部时，则所述神经网络模型输出手部跟踪失败结果，以触发停止手部跟踪。