CN112711324B

CN112711324B - 基于tof相机的手势交互方法及其系统

Info

Publication number: CN112711324B
Application number: CN201911019826.1A
Authority: CN
Inventors: 张建峰; 张新远; 戴怡洁; 陈文�; 樊能
Original assignee: Zhejiang Sunny Optical Intelligent Technology Co Ltd
Current assignee: Zhejiang Sunny Optical Intelligent Technology Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2024-03-26
Anticipated expiration: 2039-10-24
Also published as: CN112711324A

Abstract

一基于TOF相机的手势交互方法及其系统。该基于TOF相机的手势交互方法包括步骤：获取通过一TOF相机采集的一深度图像和一红外图像；基于该深度图像和该红外图像，检测手的位置；基于该手的位置，估计手的关节点位置；以及建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互。

Description

基于TOF相机的手势交互方法及其系统

技术领域

本发明涉及人机交互技术领域，特别是涉及一基于TOF相机的手势交互方法及其系统。

背景技术

手势交互作为一种非接触式的人机交互方式，具有交互自然、使用简单、可实现远距离操控等优点。另外，手势交互的应用场景也十分广泛，可应用于诸如 AR/VR头盔、体感游戏、虚拟键盘、空中鼠标以及智能家居等等场景中。手势识别作为手势交互中的核心技术之一，对于我们来说并不陌生，且手势识别技术很早就有，目前也在逐渐成熟。现在大部分消费类应用都在试图增加这一识别功能，无论是在智能家居或智能穿戴等应用场景，还是在AR或VR等应用领域，增加手势识别控制功能已经成为该应用产品的一大卖点。

然而，现有技术中的手势识别/交互主要是以RGB相机作为信息采集/输入的来源，通过结合双目RGB图像，来实现手势识别/交互。但RGB相机极易受到外界环境光线的干扰，对识别技术要求较高，造成手势识别或交互的稳定性比较差，进而导致用户的体验较差。特别地，尽管目前的RGB相机可以通过闪光/曝光的方式拍摄夜景，但仍无法满足手势识别/交互技术中对RGB图像的要求，导致在黑暗/昏暗的环境中，基于RGB相机的手势识别/交互系统将无法正常使用，这极大地限制了手势识别/交互技术的应用场景和用户体验，不利于手势交互技术的推广和普及。

发明内容

本发明的一目的在于提供一基于TOF相机的手势交互方法及其系统，其能够解决现有的手势交互方法在暗环境下无法使用或效果差的问题，拓展了所述基于 TOF相机的手势交互方法及其系统的应用场景。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法采用TOF相机作为数据输入来源，以便避免环境光线的干扰。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法结合深度图和红外图，实现手的定位、跟踪、关节点估计、手势定义和手势交互功能。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法能够通过TOF 相机获得对齐度较高的深度图像和红外图像，有助于提高手势交互的精度。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法能够提高手势交互的稳定性和用户体验。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法能够藉由自适应不同距离的fast算法来实现不同距离的手部候选区域的获取，使得算法简单且运行效率得以提高。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法使用检测加跟踪的算法能够提高整个系统的实时性，有助于提升用户体验。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法采用TOF相机获取深度数据能够有效地利用手的空间特性，提高不同手势之间的区分度。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，在本发明的一实施例中，所述基于TOF相机的手势交互方法采用深度学习的算法有力地提高手势关节点估计的精度，为精确的手势定义奠定了良好的基础。

本发明的另一目的在于提供一基于TOF相机的手势交互方法及其系统，其中，为了达到上述目的，在本发明中不需要采用昂贵的材料或复杂的结构。因此，本发明成功和有效地提供一解决方案，不只提供一简单的基于TOF相机的手势交互方法及其系统，同时还增加了所述基于TOF相机的手势交互方法及其系统的实用性和可靠性。

为了实现上述至少一发明目的或其他目的和优点，本发明提供了一基于TOF 相机的手势交互方法，包括步骤：

获取通过一TOF相机采集的一深度图像和一红外图像；

基于所述深度图像和所述红外图像，检测手的位置；

基于所述手的位置，估计手的关节点位置；以及

建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互。

在本发明的一些实施例中，所述基于所述深度图像和所述红外图像，检测手的位置的步骤，包括步骤：

藉由特征点检测算法，在所述深度图像上检测手部候选区域的特征点，以获得所述手部候选区域的Mask；和

藉由数据分类算法，根据所述手部候选区域的Mask从所述红外图像中确定所述手的位置。

在本发明的一些实施例中，所述特征点检测算法为自适应的FAST算法。

在本发明的一些实施例中，所述藉由特征点检测算法，在所述深度图像上检测手部候选区域的特征点，以获得所述手部候选区域的Mask的步骤，包括步骤：

根据所述深度图像中每个点的深度变化来自适应地改变所述FAST算法的检测半径，以适应不同距离对所述手部候选区域的检测；和

基于改变检测半径后的所述FAST算法，检测出所述手部候选区域的特征点，以获取所述手部候选区域的Mask。

在本发明的一些实施例中，所述数据分类算法为SVM分类器。

在本发明的一些实施例中，所述藉由数据分类算法，根据所述手部候选区域的Mask从所述红外图像中确定所述手的位置的步骤，包括步骤：

训练所述SVM分类器，以区分所述红外图像中的手部图像和背景图像；

基于所述手部候选区域的Mask，从所述红外图像中获取一组手部候选区域子图像；

归一化所述手部候选区域子图像至预定大小，以计算所述手部候选区域子图像的HOG特征；以及

将所述手部候选区域子图像的HOG特征输入到训练好的所述SVM分类器，以获取最终的所述手的位置。

在本发明的一些实施例中，所述基于所述手的位置，估计手的关节点位置的步骤，包括步骤：

根据所述手的位置，从所述深度图像中分割出手部区域图像；和

基于关节点估计算法，从所述手部区域图像中估计出所述手的关节点位置。

在本发明的一些实施例中，所述关节点估计算法为基于深度学习的关节点估计算法，用于精确地估计出手关节点的3D位置。

在本发明的一些实施例中，所述的基于TOF相机的手势交互方法，进一步包括步骤：

对手进行持续跟踪并不断刷新手的位置，以便基于刷新后的所述手的位置，估计手的关节点位置。

在本发明的一些实施例中，所述对手进行持续跟踪并不断刷新手的位置的步骤，包括步骤：

根据所述手的位置来初始化跟踪算法；

基于所述跟踪算法对手进行持续地跟踪，以获得手的跟踪结果；

判断手在被跟踪时是否丢失；以及

如果丢失，则再次检测手的位置；如果未丢失，则不断地刷新手的位置。

根据本发明的另一方面，本发明还提供了一基于TOF相机的手势交互系统，包括：

一获取模块，用于获取通过一TOF相机采集的一深度图像和一红外图像；

一手部检测模块，其中所述手部检测模块可通信地连接于所述获取模块，用于基于该深度图像和该红外图像，检测手的位置；

一手关节点估计模块，其中所述手关节点估计模块可通信地连接于所述手部检测模块，用于基于该手的位置，估计手的关节点位置；以及

一交互模块，其中所述交互模块用于建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互。

在本发明的一些实施例中，所述手部检测模块可以包括相互可通信地连接的一特征点检测模块和一数据分类模块，其中所述特征点检测模块用于藉由特征点检测算法，在该深度图像上检测手部候选区域的特征点，以获得该手部候选区域的Mask；其中所述数据分类模块用于藉由数据分类算法，根据该手部候选区域的Mask从该红外图像中确定所述手的位置。

在本发明的一些实施例中，所述特征点检测模块为一自适应FAST算法模块，用于基于该深度图像，根据特征点的深度变化来自适应地改变FAST算法的检测半径，以适应不同距离对该手部候选区域的检测；和基于改变检测半径后的该FAST算法，检测出该手部候选区域的特征点，以获取该手部候选区域的Mask。

在本发明的一些实施例中，所述数据分类模块为一SVM分类器模块，用于训练SVM分类器，以区分该红外图像中的手部图像和背景图像；基于该手部候选区域的Mask，从该红外图像中获取手部候选区域子图像；归一化该手部候选区域子图像至一预定大小，以计算该手部候选区域子图像的HOG特征；以及将该手部候选区域子图像的HOG特征输入到训练好的该SVM分类器，以获取最终的该手的位置。

在本发明的一些实施例中，所述手关节点估计模块进一步用于根据该手的位置，从该深度图像中分割出手部区域图像；和基于关节点估计算法，从该手部区域图像中估计出该手的关节点位置。

在本发明的一些实施例中，所述交互模块包括依次可通信地连接的一手势定义模块、一交互关系建立模块以及一响应模块，其中所述手势定义模块用于根据关节点的位置和手关节点的拓扑关系定义手势；其中所述交互关系建立模块用于建立不同的手势和交互响应动作之间的关系；其中所述响应模块用于根据该不同的手势来触发不同的动作，从而实现手势交互。

在本发明的一些实施例中，所述的基于TOF相机的手势交互系统，进一步包括一跟踪刷新模块，其中所述跟踪刷新模块用于对手进行持续跟踪并不断地刷新手的位置，以便基于刷新后的该手的位置，估计该手的关节点位置。

在本发明的一些实施例中，所述跟踪刷新模块包括相互可通信地连接的一初始化模块、一跟踪模块、一判断模块以及一刷新模块，其中所述初始化模块用于根据该手的位置来初始化跟踪算法；其中所述跟踪模块用于基于该跟踪算法对手进行持续地跟踪，以获得手的跟踪结果；其中所述判断模块用于判断手在被跟踪时是否丢失，如果丢失，则发送返回信号至所述手部检测模块，以使所述手部检测模块再次检测手的位置，如果未丢失，则发送刷新信号至所述刷新模块，其中所述刷新模块用于响应于该刷新信号，基于该手的跟踪结果，不断地刷新该手的位置。

根据本发明的另一方面，本发明还提供了一计算系统，包括：

一逻辑机，用于执行指令；和

一存储机，其中所述存储机被配置用于保存可由所述逻辑机执行以实现一基于TOF相机的手势交互方法的机器可读指令，其中所述基于TOF相机的手势交互方法包括步骤：

获取通过一TOF相机采集的一深度图像和一红外图像；

基于所述深度图像和所述红外图像，检测手的位置；

基于所述手的位置，估计手的关节点位置；以及

根据本发明的另一方面，本发明还提供了一计算可读存储介质，所述计算可读存储介质上存储有计算程序指令，当所述计算程序指令被计算装置执行时，可操作来执行一基于TOF相机的手势交互方法，其中所述基于TOF相机的手势交互方法包括步骤：

获取通过一TOF相机采集的一深度图像和一红外图像；

基于所述深度图像和所述红外图像，检测手的位置；

基于所述手的位置，估计手的关节点位置；以及

通过对随后的描述和附图的理解，本发明进一步的目的和优势将得以充分体现。

本发明的这些和其它目的、特点和优势，通过下述的详细说明，附图和权利要求得以充分体现。

附图说明

图1是根据本发明的第一实施例的一基于TOF相机的手势交互方法的流程示意图。

图2至图4示出了根据本发明的上述第一实施例的所述基于TOF相机的手势交互方法的步骤之一的流程示意图。

图5示出了根据本发明的上述第一实施例的所述基于TOF相机的手势交互方法的步骤之二的流程示意图。

图6示出了根据本发明的第二实施例的所述基于TOF相机的手势交互方法的流程示意图。

图7是根据本发明的上述第二实施例的所述基于TOF相机的手势交互系统中手部检测的流程示意图。

图8是根据本发明的一实施例的所述基于TOF相机的手势交互系统的框图示意图。

图9示出了根据本发明的一实施例的计算系统的框图示意图。

图10示出了根据本发明的一实施例的电子设备的框图示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

在本发明中，权利要求和说明书中术语“一”应理解为“一个或多个”，即在一个实施例，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个。除非在本发明的揭露中明确示意该元件的数量只有一个，否则术语“一”并不能理解为唯一或单一，术语“一”不能理解为对数量的限制。

在本发明的描述中，需要理解的是，属于“第一”、“第二”等仅用于描述目的，而不能理解为指示或者暗示相对重要性。本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或者一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过媒介间接连结。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

随着科学技术的飞速发展，人们的生活水平也逐步提高，诸如VR头盔、体感游戏、虚拟键盘、空中鼠标或智能家居等应用广泛地进入了人们的视野。手势交互作为一种非接触式的交互方法，具有交互自然、使用简单、可实现远距离操控等优点，已经在上述应用中得到广泛地使用。然而，现有技术中的手势交互技术多以RGB相机作为输入的来源，其容易受到外界环境光线的干扰，对技术要求高，造成稳定性比较差，因此用户的体验比较差，并且在黑暗的环境中效果更差，甚至无法使用。

随着TOF相机硬件的成熟和深度学习技术的发展，本发明创造性地将TOF 相机作为输入的来源，可以有效地避免环境光线的干扰，便于拓展手势交互的应用场景。此外，本发明进一步采用目前先进的深度学习算法，有助于进一步提高手势交互的稳定性和用户体验。

示意性方法

参考说明书附图之图1至图5所示，根据本发明的第一实施例的一基于TOF 相机的手势交互方法被阐明。具体地，如图1所示，所述基于TOF相机的手势交互方法，包括步骤：

S100：获取通过一TOF相机采集的一深度图像和一红外图像；

S200：基于所述深度图像和所述红外图像，检测手的位置；

S300：基于所述手的位置，估计手的关节点位置；以及

S400：建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互。

值得注意的是，在本发明的上述第一实施例的所述基于TOF相机的手势交互方法的所述步骤S100中，通过所述TOF相机采集的所述深度图像和所述红外图像可以但不限于被实施为点云数据和红外数据。特别地，由于所述深度图像和所述红外图像是通过一个所述TOF相机同步采集的，因此所述深度图像和所述红外图像具有较高的一致性(对齐度较高)，有助于简化后续的算法，且能够提高手势交互的精度。

更具体地，在本发明的一示例中，如图2所示，所述基于TOF相机的手势交互方法的所述步骤S200，包括步骤：

S210：藉由特征点检测算法，在所述深度图像上检测手部候选区域的特征点，以获得所述手部候选区域的Mask；和

S220：藉由数据分类算法，根据所述手部候选区域的Mask从所述红外图像中确定所述手的位置。

优选地，在本发明的所述步骤S210中，所述特征点检测算法可以但不限于被实施为自适应的FAST算法，用于根据深度的变化来自适应改变FAST算法的检测半径，以适应不同距离对手部候选区域的检测，进而根据检测出的特征点获取手部候选区域的Mask(掩模)。可以理解的是，所述FAST算法的英文全称为 Features from accelerated segmenttest，用于角点检测的算法。

示例性地，如图3所示，所述基于TOF相机的手势交互方法的所述步骤S210，包括步骤：

S211：根据所述深度图像中点的深度变化来自适应地改变FAST算法的检测半径，以适应不同距离对所述手部候选区域的检测；和

S212：基于改变检测半径后的所述FAST算法，检测出所述手部候选区域的特征点，以获取所述手部候选区域的Mask。

值得注意的是，由于现有技术中的FAST算法通常具有恒定的检测半径，而手的深度和手在深度图像中的尺度往往会有较大的变化，因此本发明创造性地提出了一种利用深度图像的自适应FAST算法，根据所述深度图像上的深度变化，来自适应地改变所述FAST算法的检测半径，以对不同距离下的手部候选区域进行检测，进而根据检测出的特征点来获取所述手部候选区域的Mask。

值得一提的是，在本发明的所述步骤S220中，所述数据分类算法可以但不限于被实施为一SVM(英文：Support Vector Machines，中文：支持向量机) 分类器，用于基于所述手部候选区域的Mask和所述红外图像，获取最终的手的位置。

示例性地，如图4所示，所述基于TOF相机的手势交互方法的所述步骤S220，可以包括步骤：

S221：训练SVM分类器，以区分所述红外图像中的手部图像和背景图像；

S222：基于所述手部候选区域的Mask，从所述红外图像中获取一组手部候选区域子图像；

S223：归一化所述手部候选区域子图像至一预定大小，以计算所述手部候选区域子图像的HOG特征；以及

S224：将所述手部候选区域子图像的HOG特征输入到训练好的所述SVM分类器，以获取最终的所述手的位置。

值得注意的是，在所述步骤S223中计算出的所述手部候选区域子图像的所述HOG特征被实施为方向梯度直方图(英文：Histogram of Oriented Gradient) 特征，是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。当然，在本发明的其他示例中，所述步骤S223也可以计算所述手部候选区域子图像的诸如LBP特征、Haar特征或SIFT特征等其他特征。

值得一提的是，如图5所示，本发明的所述基于TOF相机的手势交互方法的所述步骤S300，包括步骤：

S310：根据所述手的位置，从所述深度图像中分割出手部区域图像；和

S320：基于关节点估计算法，从所述手部区域图像中估计出所述手的关节点位置。

优选地，在所述步骤S320中，所述关节点估计算法可以但不限于被实施为基于深度学习的关节点估计算法(如DenseReg算法或DeepPrior算法)，用于精确地估计出手关节点的3D位置(即手关节点的三维坐标)。可以理解的是，本发明的所述基于TOF相机的手势交互方法采用深度学习的算法能够有力地提高关节点位置估计的精度，为精确的手势定义奠定了良好的基础。

值得注意的是，根据本发明的上述实施例，在所述基于TOF相机的手势交互方法的所述步骤S400中：所述定义的手势可以但不限于根据所述关节点位置和手关节点的拓扑关系定义而来。可以理解的是，本发明的所述基于TOF相机的手势交互方法采用TOF相机获取深度数据可以有效地利用手的空间特征，提高不同手势之间的区分度，进而提高手势交互的稳定性和用户体验。

根据本发明的另一方面，如图6和图7所示，根据本发明的第二实施例的一基于TOF相机的手势交互方法被阐明。具体地，如图6所示，所述基于TOF相机的手势交互方法，包括步骤：

先通过TOF相机采集深度图像和红外图像；

再对所述深度图像和所述红外图像进行预处理和规范化处理；

接着，基于自适应的FAST算法和SVM算法检测手的位置；

之后，初始化跟踪算法，对手进行持续跟踪。

如果丢失，则返回基于所述自适应的FAST算法和所述SVM算法检测手的位置的步骤；如果未丢失，则不断地刷新手的位置；

采用基于深度学习的关节点算法对手的关节点位置进行估计；

最后根据关节点的位置和手关节点的拓扑关系定义手势，并建立不同的手势和交互响应动作之间的关系，以根据不同的手势来触发不同的动作，从而实现手势交互。

进一步地，在根据本发明的所述第二实施例中，如图7所示，所述基于自适应的FAST算法和SVM算法检测手的位置的步骤，包括步骤：

初始化距离和手的尺度之间的关系；

根据所述深度图像中每个点的深度确定所述FAST算法的检测半径；

利用所述FAST算法判断所述点是否满足预定条件，以检测出满足所述预定条件的特征点；

根据检测出来的特征点确定手部候选区域的Mask；

根据所述手部候选区域的Mask从所述红外图像中裁剪一组手部候选区域子图像；

将所述手部候选区域子图像进行归一化并计算HOG特征；

最后，通过SVM分类器判断所述手部候选区域子图像是否是手，并获取手的位置。

值得注意的是，在本发明的所述利用所述FAST算法判断所述点是否满足预定条件，以检测出满足所述预定条件的特征点步骤中，可以根据所述检测半径，选择当前点周围一个圆上的16个点，计算这16个点与当前点深度的差值，如果有大于等于9个点的差值且超过设定的阈值，那么认为这个点为特征点。

值得一提的是，相比于根据本发明的上述第一实施例，根据本发明的所述第二实施例的所述基于TOF相机的手势交互方法加入了跟踪更新步骤，也就是说，根据本发明的所述第二实施例的所述基于TOF相机的手势交互方法将检测到的手段位置用来初始化跟踪算法，通过跟踪算法不断地更新手的位置；当出现跟踪丢失的情况后，再一次使用检测算法获取手的位置，重新初始化跟踪算法，再次进行手持续跟踪，以实时更新手的位置，这有助于大幅地提高整个方法的实时性和用户体验。

示意性系统

参考说明书附图之图8所示，根据本发明的一实施例的一基于TOF相机的手势交互系统被阐明。具体地，所述基于TOF相机的手势交互系统1包括依次可通信地连接的一获取模块10、一手部检测模块20、一手关节点估计模块30以及交互模块40，其中所述获取模块10用于获取通过一TOF相机采集的一深度图像和一红外图像；所述手部检测模块20用于基于所述深度图像和所述红外图像，检测手的位置；所述手关节点估计模块30用于基于所述手的位置，估计手的关节点位置；所述交互模块40用于建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互。

进一步地，在本发明的一示例中，所述手部检测模块20可以包括相互可通信地连接的一特征点检测模块21和一数据分类模块22，其中所述特征点检测模块21用于藉由特征点检测算法，在所述深度图像上检测手部候选区域的特征点，以获得所述手部候选区域的Mask；所述数据分类模块22用于藉由数据分类算法，根据所述手部候选区域的Mask从所述红外图像中确定所述手的位置。

优选地，所述特征点检测模块21被实施为一自适应FAST算法模块，用于基于所述深度图像，根据特征点的深度变化来自适应地改变FAST算法的检测半径，以适应不同距离对所述手部候选区域的检测；和基于改变检测半径后的所述 FAST算法，检测出所述手部候选区域的特征点，以获取所述手部候选区域的 Mask。

在本发明的一示例中，所述数据分类模块22优选地被实施为一SVM分类器模块，用于训练SVM分类器，以区分所述红外图像中的手部图像和背景图像；基于所述手部候选区域的Mask，从所述红外图像中获取手部候选区域子图像；归一化所述手部候选区域子图像至一预定大小，以计算所述手部候选区域子图像的 HOG特征；以及将所述手部候选区域子图像的HOG特征输入到训练好的所述SVM 分类器，以获取最终的所述手的位置。

值得注意的是，在本发明的一示例中，所述手关节点估计模块30进一步用于根据所述手的位置，从所述深度图像中分割出手部区域图像；和基于关节点估计算法，从所述手部区域图像中估计出所述手的关节点位置。

此外，在本发明的一示例中，所述交互模块40包括依次可通信地连接的一手势定义模块41、一交互关系建立模块42以及一响应模块43，其中所述手势定义模块41用于根据关节点的位置和手关节点的拓扑关系定义手势；其中所述交互关系建立模块42用于建立不同的手势和交互响应动作之间的关系；其中所述响应模块43用于根据不同的手势来触发不同的动作，从而实现手势交互。

值得一提的是，在本发明的上述实施例中，所述基于TOF相机的手势交互系统1进一步包括一跟踪刷新模块50，其中所述跟踪刷新模块50用于对手进行持续跟踪并不断刷新手的位置，以便基于刷新后的所述手的位置，估计手的关节点位置。

示例性地，所述跟踪刷新模块50包括相互可通信地连接的一初始化模块51、一跟踪模块52、一判断模块53以及一刷新模块54，其中所述初始化模块51用于根据所述手的位置来初始化跟踪算法；所述跟踪模块52用于基于所述跟踪算法对手进行持续跟踪，以获得手的跟踪结果；所述判断模块53用于判断手在被跟踪时是否丢失，如果丢失，则发送返回信号至所述手部检测模块20，以使所述手部检测模块20再次检测手的位置；如果未丢失，则发送刷新信号至所述刷新模块54，其中所述刷新模块54用于响应于所述刷新信号，基于所述手的跟踪结果，不断地刷新手的位置。

示意性计算系统

附图9示出了可执行上述示意性方法或过程中的一个或多个的计算系统600 的非限制性实施例，并以简化形式示出了一计算系统600。所述计算系统600可采取以下形式：一个或多个头戴式显示设备，或与头戴式显示设备合作的一个或多个设备(例如，个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/ 或其他计算设备)。

所述计算系统600包括一逻辑机601和一存储机602。所述计算系统600可任选地包括一显示子系统603、一输入子系统604、一通信子系统605和/或在图 9中未示出的其他组件。

所述逻辑机601包括被配置成执行指令的一个或多个物理设备。例如，所述逻辑机601可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

所述逻辑机601可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，所述逻辑机601可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。所述逻辑机601的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。所述逻辑机601的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。所述逻辑机601的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

所述存储机602包括被配置成保存可由所述逻辑机601执行以实现此处所述的方法和过程的机器可读指令的一个或多个物理设备。在实现这些方法和过程时，可以变换所述存储机602的状态(例如，保存不同的数据)。

所述存储机602可以包括可移动和/或内置设备。所述存储机602可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、 EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM 等)等等。所述存储机602可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，所述存储机602包括一个或多个物理设备。然而，本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

所述逻辑机601和所述存储机602的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

值得注意的是，当所述计算系统600包括所述显示子系统603时，所述显示子系统603可用于呈现由所述存储机602保存的数据的视觉表示。该视觉表示可采用图形用户界面(GUI)的形式。由于此处所描述的方法和过程改变了由存储机保持的数据，并由此变换了所述存储机602的状态，因此同样可以转变所述显示子系统603的状态以视觉地表示底层数据的改变。所述显示子系统603可包括利用实际上任何类型的技术的一个或多个显示设备。可将这样的显示设备与所述逻辑机601和/所述或所述存储机602组合在共享封装中，或者这样的显示设备可以是外围显示设备。

此外，在所述计算系统600包括所述输入子系统604时，所述输入子系统 604可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其对接。在一些实施例中，所述输入子系统604可以包括所选择的自然用户输入(NUI)部件或与其对接。这种元件部分可以是集成的或外围的，并且输入动作的转导和/或处理可以在板上或板外被处理。示例NUI部件可包括用于语言和/或语音识别的话筒；用于机器视觉和/或姿势识别的红外、色彩、立体显示、TOF相机和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动和/或身体运动的电场感测部件；和/或任何其他合适的传感器。

而当所述计算系统600包括所述通信子系统605时，所述通信子系统605 可被配置成将所述计算系统600与一个或多个其他计算设备通信地耦合。所述通信子系统605可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，所述通信子系统605可允许所述计算系统600经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其它设备接收消息。

将会理解，此处描述的配置和/或方法本质是示例性的，这些具体实施例或示例不应被视为限制性的，因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

示意性电子设备

下面，参考图10来描述根据本发明实施例的电子设备(图10示出了根据本发明实施例的电子设备的框图)。如图10所示，电子设备700包括一个或多个处理器710和存储器720。

所述处理器710可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

所述存储器720可以包括一个或多个计算程序产品，所述计算程序产品可以包括各种形式的计算可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算可读存储介质上可以存储一个或多个计算程序指令，所述处理器710可以运行所述程序指令，以实现上文所述的本发明的各个实施例的方法以及/或者其他期望的功能。

在一个示例中，电子设备700还可以包括：输入装置730和输出装置740，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置730可以是例如用于采集图像数据或视频数据的摄像模组等等。

该输出装置740可以向外部输出各种信息，包括分类结果等。该输出设备 740可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备700中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

示意性计算程序产品

除了上述方法和设备以外，本发明的实施例还可以是计算程序产品，其包括计算程序指令，所述计算程序指令在被处理器运行时使得所述处理器执行本说明书上述“示意性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“，还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算可读存储介质，其上存储有计算程序指令，所述计算程序指令在被处理器运行时使得所述处理器执行本说明书上述方法中的步骤。

所述计算可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和 /或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一基于TOF相机的手势交互方法，其特征在于，包括步骤：

获取仅通过一TOF相机采集的一深度图像和一红外图像，其中，所述深度图像和所述红外图像由所述TOF相机同步采集；

基于所述深度图像和所述红外图像，检测手的位置；

基于所述手的位置，估计手的关节点位置；以及

建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互；

其中，所述基于所述深度图像和所述红外图像，检测手的位置的步骤，包括步骤：

2.如权利要求1所述的基于TOF相机的手势交互方法，其中，所述特征点检测算法为自适应的FAST算法。

3.如权利要求2所述的基于TOF相机的手势交互方法，其中，所述藉由特征点检测算法，在所述深度图像上检测手部候选区域的特征点，以获得所述手部候选区域的Mask的步骤，包括步骤：

4.如权利要求2所述的基于TOF相机的手势交互方法，其中，所述数据分类算法为SVM分类器。

5.如权利要求4所述的基于TOF相机的手势交互方法，其中，所述藉由数据分类算法，根据所述手部候选区域的Mask从所述红外图像中确定所述手的位置的步骤，包括步骤：

6.如权利要求1至5中任一所述的基于TOF相机的手势交互方法，其中，所述基于所述手的位置，估计手的关节点位置的步骤，包括步骤：

7.如权利要求6所述的基于TOF相机的手势交互方法，其中，所述关节点估计算法为基于深度学习的关节点估计算法，用于精确地估计出手关节点的3D位置。

8.如权利要求1至5中任一所述的基于TOF相机的手势交互方法，进一步包括步骤：

9.如权利要求8所述的基于TOF相机的手势交互方法，其中，所述对手进行持续跟踪并不断刷新手的位置的步骤，包括步骤：

根据所述手的位置来初始化跟踪算法；

判断手在被跟踪时是否丢失；以及

10.一基于TOF相机的手势交互系统，其特征在于，包括：

一获取模块，用于获取仅通过一TOF相机采集的一深度图像和一红外图像，其中，所述深度图像和所述红外图像由所述TOF相机同步采集；

一交互模块，其中所述交互模块用于建立定义的手势与交互响应动作之间的关系，以根据不同的手势触发不同的交互响应动作，进而实现手势交互；

所述手部检测模块可以包括相互可通信地连接的一特征点检测模块和一数据分类模块，其中所述特征点检测模块用于藉由特征点检测算法，在该深度图像上检测手部候选区域的特征点，以获得该手部候选区域的Mask；其中所述数据分类模块用于藉由数据分类算法，根据该手部候选区域的Mask从该红外图像中确定所述手的位置。

11.如权利要求10所述的基于TOF相机的手势交互系统，其中，所述特征点检测模块为一自适应FAST算法模块，用于基于该深度图像，根据特征点的深度变化来自适应地改变FAST算法的检测半径，以适应不同距离对该手部候选区域的检测；和基于改变检测半径后的该FAST算法，检测出该手部候选区域的特征点，以获取该手部候选区域的Mask。

12.如权利要求10所述的基于TOF相机的手势交互系统，其中，所述数据分类模块为一SVM分类器模块，用于训练SVM分类器，以区分该红外图像中的手部图像和背景图像；基于该手部候选区域的Mask，从该红外图像中获取手部候选区域子图像；归一化该手部候选区域子图像至一预定大小，以计算该手部候选区域子图像的HOG特征；以及将该手部候选区域子图像的HOG特征输入到训练好的该SVM分类器，以获取最终的该手的位置。

13.如权利要求10至12中任一所述的基于TOF相机的手势交互系统，其中，所述手关节点估计模块进一步用于根据该手的位置，从该深度图像中分割出手部区域图像；和基于关节点估计算法，从该手部区域图像中估计出该手的关节点位置。

14.如权利要求10至12中任一所述的基于TOF相机的手势交互系统，其中，所述交互模块包括依次可通信地连接的一手势定义模块、一交互关系建立模块以及一响应模块，其中所述手势定义模块用于根据关节点的位置和手关节点的拓扑关系定义手势；其中所述交互关系建立模块用于建立不同的手势和交互响应动作之间的关系；其中所述响应模块用于根据该不同的手势来触发不同的动作，从而实现手势交互。

15.如权利要求10至12中任一所述的基于TOF相机的手势交互系统，进一步包括一跟踪刷新模块，其中所述跟踪刷新模块用于对手进行持续跟踪并不断地刷新手的位置，以便基于刷新后的该手的位置，估计该手的关节点位置。

16.如权利要求15所述的基于TOF相机的手势交互系统，其中，所述跟踪刷新模块包括相互可通信地连接的一初始化模块、一跟踪模块、一判断模块以及一刷新模块，其中所述初始化模块用于根据该手的位置来初始化跟踪算法；其中所述跟踪模块用于基于该跟踪算法对手进行持续地跟踪，以获得手的跟踪结果；其中所述判断模块用于判断手在被跟踪时是否丢失，如果丢失，则发送返回信号至所述手部检测模块，以使所述手部检测模块再次检测手的位置，如果未丢失，则发送刷新信号至所述刷新模块，其中所述刷新模块用于响应于该刷新信号，基于该手的跟踪结果，不断地刷新该手的位置。

17.一计算系统，其特征在于，包括：

一逻辑机，用于执行指令；和

基于所述深度图像和所述红外图像，检测手的位置；

基于所述手的位置，估计手的关节点位置；以及

18.一计算可读存储介质，其特征在于，所述计算可读存储介质上存储有计算程序指令，当所述计算程序指令被计算装置执行时，可操作来执行一基于TOF相机的手势交互方法，其中所述基于TOF相机的手势交互方法包括步骤：

基于所述深度图像和所述红外图像，检测手的位置；

基于所述手的位置，估计手的关节点位置；以及