CN115461794A

CN115461794A - 从二维图像估计用户手势的方法、系统和非暂时性计算机可读记录介质

Info

Publication number: CN115461794A
Application number: CN202180030648.1A
Authority: CN
Inventors: 金石中; 郑直限
Original assignee: Vtouch Co Ltd
Current assignee: Vtouch Co Ltd
Priority date: 2020-03-03
Filing date: 2021-02-26
Publication date: 2022-12-09
Also published as: US20220415094A1; KR20210111619A; WO2021177674A1; KR102346294B1

Abstract

提供了一种从二维图像估计用户手势的方法。该方法包括以下步骤：从二维相机获取与用户身体相关的二维图像；在二维图像中动态定义的相对坐标系中特定与用户的第一和第二身体部分分别对应的二维相对坐标点，并比较第一和第二身体部分的二维相对坐标点之间在第一时间点的第一位置关系和第一和第二身体部分的二维相对坐标点之间在第二时间点的第二位置关系；根据比较结果和从二维图像中获取的环境信息，推定用户在第一时间点和第二时间点之间做出的手势。

Description

从二维图像估计用户手势的方法、系统和非暂时性计算机可读记录介质

技术领域

本发明涉及一种用于从二维图像估计用户手势的方法、系统和非暂时性计算机可读记录介质。

背景技术

近年来，已经引入了用于通过识别在诸如移动设备、平板电脑、膝上型电脑、个人计算机(PC)、家用电器、汽车等的各种使用环境中的用户手势来控制对象或执行指令的技术。

作为相关传统技术的示例，韩国公开专利公报2012-126508号公开了一种在不使用指针的情况下识别虚拟触摸设备中的触摸的方法，其中虚拟触摸设备包括：图像获取单元，其由设置在不同位置两个或多个图像传感器组成，且配置为拍摄显示器表面前的用户身体；空间坐标计算单元，其被配置为使用从图像获取单元接收到的图像来计算用户身体的三维坐标数据；触摸位置计算单元，其被配置为使用从空间坐标计算单元接收的第一和第二空间坐标计算连接第一和第二空间坐标的直线与显示器表面相交的接触点的坐标数据；以及虚拟触摸处理单元，其配置为生成用于执行与从触摸位置计算单元接收的接触点坐标数据对应的操作的命令代码，并将该命令代码输入到电子装置的主控制单元，并且其中该方法包括：(A)处理指尖的三维坐标数据(X1,Y1,Z1)和一侧眼睛中心点的三维坐标数据(X2,Y2,Z2)，检测出一侧眼睛、指尖点B和显示器表面C的接触点A的步骤；(B)计算检测到的指尖点的深度变化、轨迹变化、保持时间和变化率中的至少一项的步骤；和(C)基于指尖点的深度变化、轨迹变化、保持时间和变化率中的至少一个来操作电子装置或选择对应于触控面板的接触部分的区域的步骤。

根据包含上述传统技术在内的迄今为止介绍的技术，使用三维相机获取用户身体部分的三维坐标的过程是必要的，以便识别用于选择或控制物体的用户手势。然而，三维相机不仅价格昂贵，而且在处理三维数据的过程中会造成很多延迟。需要更高性能的中央处理器(CPU)等来解决延迟问题，导致整体效率较低。

可替代地，已经介绍了使用诸如RGB相机、红外(IR)相机等的二维相机来识别用户手势的技术。然而，对于二维相机，难以检测到拍摄目标的距离或拍摄目标之间的深度差。结果，仍然存在难以使用从二维相机获取的二维图像来基于用户在前后方向上的移动进行手势识别的技术限制。

基于以上发现，本发明人提出了一种新颖且改进的技术，该技术能够仅通过使用二维相机拍摄而获取的二维图像来准确地估计用户在三维空间中做出的手势。

发明内容

技术问题

本发明的一个目的是解决现有技术中的所有上述问题。

本发明的另一目的是通过仅使用由通常为电子设备提供的二维相机获取的信息，而不使用诸如三维相机的精确感测装置，来准确估计用户在三维空间中所做的手势。

本发明的又一个目的是使用更少量的资源有效地估计用户的手势，从而有效地识别用户的控制意图。

本发明的又一个目的是使用基于从二维图像获取的信息学习的机器学习模型来更准确地估计用户的手势。

技术方案

下面描述实现上述目的的本发明的代表性配置。

根据本发明的一个方面，提供了一种从二维图像估计用户手势的方法，包括以下步骤：从二维相机获取与用户身体相关的二维图像；在二维图像中动态定义的相对坐标系中特定分别对应于用户的第一身体部分和第二身体部分的二维相对坐标点，比较第一时间点处的第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点之间的第一位置关系，和在第二时间点处的第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点之间的第二位置关系；以及参考比较结果和从二维图像获取的环境(context)信息，估计用户在第一时间点和第二时间点之间做出的手势。

根据本发明的另一方面，提供了一种用于从二维图像估计用户手势的系统，包括：图像获取单元，其配置为从二维相机中获取与用户身体相关的二维图像；以及手势估计单元，其配置为：在二维图像中动态定义的相对坐标系中特定分别对应于用户的第一身体部分和第二身体部分的二维相对坐标点，比较在第一时间点的第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点之间的第一位置关系和在第二时间点的第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点之间的第二位置关系，参考比较结果和从二维图像中获取的环境信息，估计用户在第一时间点和第二时间点之间做出的手势。

还提供了实现本发明的其他方法和系统，以及其上存储有用于执行这些方法的计算机程序的非暂时性计算机可读记录介质。

发明效果

根据本发明，不使用诸如三维相机的精确感测装置，仅利用通过电子设备通常具备的二维相机获取的信息来准确地估计在三维空间中做出的用户的手势。

此外，根据本发明，可以使用少量的资源有效地估计用户的手势，从而有效地识别用户的控制意图。

此外，根据本发明，可以使用机器学习模型来更准确地估计用户的手势，该机器学习模型基于从二维图像获取的信息来学习。

附图说明

图1是详细示出了根据本发明的一个实施例的手势估计系统的内部配置的示意图。

图2和图3是示例性地示出了根据本发明的一个实施例的用户相对于二维相机做出手势的二维图像的示意图。

图4至图6是示例性地示出了根据本发明的一个实施例的参照极坐标系的用户对二维相机做出手势的二维图像的示意图。

图7是示例性地示出了根据本发明的一个实施例的用户做出将他/她的手指朝向二维相机移动的手势的二维图像的示意图。

图8和图9是示例性地示出了根据本发明的一个实施例的用户对周围对象做出手势的二维图像的示意图。

图10是示例性地示出了根据本发明的一个实施例的用户做出将他/她的手指移向周围对象的手势的二维图像的示意图。

图11至图14是示例性地示出了根据本发明的一个实施例的用户对周围对象做出手势的二维图像的示意图。

<附图标记的说明>

100：手势估计系统

110：图像采集单元

120：手势估计单元

130：通信单元

140：控制单元

具体实施方式

在本发明的以下详细描述中，参考了附图，这些附图通过说明的方式示出了可以实施本发明的具体实施方式。这些实施方式被充分详细地描述以使本领域技术人员能够实践本发明。应当理解，本发明的各种实施方式虽然彼此不同，但不一定是相互排斥的。例如，在不脱离本发明的精神和范围的情况下，本文描述的特定形状、结构和特性可以被实施为从一个实施方式改进为另一个实施方式。此外，应当理解，在不脱离本发明的精神和范围的情况下，还可以对各个实施方式中的各个构成要素的位置或布置进行变更。因此，以下详细描述不应被理解为限制意义，并且本发明的范围应被视为包含所附权利要求及其所有等同物的范围。在附图中，相同的附图标记在几个视图中指代相同或相似的构成要素。

在下文中，将参照附图详细描述本发明的各种优选实施方式，以使本领域的技术人员能够容易地实施本发明。

整个系统的配置

根据本发明的一个实施方式的系统可以被配置为包括通信网络、手势估计系统100和二维相机。

首先，根据本发明的一个实施方式的通信网络可以在不考虑诸如有线或无线通信等通信方式的情况下配置，可以包括诸如局域网(LAN)、城域网(MAN)和广域网(WAN)的各种通信网络。优选地，这里描述的通信网络可以是互联网或万维网(WWW)。然而，通信网络不一定限于此，并且可以至少部分地包括已知的有线/无线数据通信网络、已知的电话网络或已知的有线/无线电视通信网络。

例如，通信网络可以是无线数据通信网络，其至少一部分可以用诸如射频(RF)通信、WiFi通信、蜂窝通信(例如，长期演进(LTE等)通信)、蓝牙通信(更具体地说，蓝牙低功耗(BLE)通信)、红外通信和超声波通信的传统通信方案来实现。

接下来，根据本发明的一个实施方式的手势估计系统100可以是数字设备，该数字设备具有存储装置且通过搭载微处理器从而具备运算能力。手势估计系统100可以是服务器系统。

根据本发明的一个实施方式，手势估计系统100可以通过通信网络或处理器(未示出)连接到下面将要描述的二维相机，并且可以用于：从二维相机获取与用户的身体相关的二维图像；在二维图像中动态定义的相对坐标系中指定对应于用户的第一身体部分和第二身体部分中每一个的二维相对坐标点，并比较第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点在第一时间点处的位置关系与第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点在第二时间点处的位置关系；以及参考上述比较结果和从二维图像中获取的来龙去脉(context)信息，推定用户在第一时间点和第二时间点之间做出的手势。

这里，根据本发明的一个实施方式的二维相对坐标点可以是在从二维相机获得的二维图像中动态定义的相对坐标系中指定的坐标点。

例如，根据本发明的一个实施方式的相对坐标系可以是二维正交坐标系或二维极坐标系，其是以出现在二维相机拍摄的二维图像上的用户的第一身体部分的位置为基准而动态定义的。

具体地，根据本发明的一个实施方式，当二维图像中动态定义的相对坐标系为二维正交坐标系时，第一身体部分和第二身体部分的二维相对坐标点可以用诸如(x,y)的形式特定。当二维图像中动态定义的相对坐标系为二维极坐标系时，第一身体部分和第二身体部分的二维相对坐标点可以用诸如(r,θ)的形式特定。

根据本发明的一个实施方式，可以在二维图像中特定的第一身体部分或第二身体部分可以包括头部、眼睛(优势眼)、鼻子、嘴巴、手、指尖、手指、手臂(前臂和上臂)、脚、脚尖、脚趾、腿等。然而，本发明不限于上述身体部分，在可以实现本发明的范围内，第一身体部分或第二身体部分可以改变为其他各种身体部分。此外，根据本发明的一个实施方式，如果需要用户身体部分以外的对象(例如，用户手握的指针等)来估计用户的手势(gesture)，则可以认为该对象类似于用户的身体部分并且可以在二维图像中特定针对该对象的二维相对坐标点。

下面将更详细地描述根据本发明的手势估计系统100的配置和功能。同时，尽管以上已经描述了手势估计系统100，但是这样的描述是示例性的，并且对于本领域的技术人员显而易见的是，手势估计系统100所需的至少一部分功能或构成要素必要时可以在外部设备(例如，用户持有的移动设备、可穿戴设备等)或外部系统(例如，云服务器等)中实现或者包含在外部设备或外部系统中。

接着，根据本发明的一个实施方式的二维相机(未示出)可通过通信网络或处理器与手势估计系统100通信，并可执行获取与用户身体相关的二维图像的功能。例如，根据本发明的一个实施方式的二维相机可以包括各种类型的拍摄模块，例如RGB相机、IR相机等。

手势估计系统的配置

在下文中，将描述对实现本发明至关重要的手势估计系统100的内部配置及其各个构成要素的功能。

图1是详细示出了根据本发明的一个实施例的手势估计系统100的内部配置的附图。

如图1所示，手势估计系统100可以包括图像获取单元110、手势估计单元120、通信单元130以及控制单元140。根据本发明的一个实施例，图像获取单元110、手势估计单元120、通信单元130和控制单元140中的至少一些可以是被配置为与外部系统通信的程序模块。这样的程序模块可以以操作系统、应用程序模块和其他程序模块的形式被包括在手势估计系统100中，同时它们可以物理地存储在各种公知的存储设备中。此外，程序模块也可以存储在可以与手势估计系统100通信的远程存储设备中。同时，这样的程序模块可以包括但不限于用于执行将要后述的特定任务或执行特定抽象数据类型的例程、子例程、程序、对象、组件、数据结构等。

首先，根据本发明的一个实施方式的图像获取单元110可以执行从二维相机获取拍摄用户身体的二维图像的功能。

例如，根据本发明的一个实施方式，图像获取单元110可以获取二维图像，该二维图像中包括作为用户的第一身体部分的眼睛(例如，双眼或优势眼)和作为用户的第二身体部分的指尖(例如，食指尖)的用户的身体被拍摄。

接下来，根据本发明的一个实施例，手势估计单元120可以在二维图像中动态定义的相对坐标系中指定分别对应于用户的第一身体部分和第二身体部分的二维相对坐标点。

此外，根据本发明的一个实施方式，手势估计单元120可以比较第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点在第一时间点处的位置关系和第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点在第二时间点的位置关系。

这里，根据本发明的一个实施方式，第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点之间的位置关系可以通过二维图像中将连接第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点的直线与在二维图像中设置的基准线之间的角度来特定。具体地，根据本发明的一个实施方式，第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点的位置关系可以是包括连接二维图像中第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点的直线的长度(即，出现在二维图像中的第一身体部分和第二身体部分之间的距离)的概念。

进一步地，根据本发明的一个实施方式，当二维图像中动态定义的相对坐标系为在二维图像中以第一身体部分的二维相对坐标点为中心动态定义的极坐标系时，则第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点之间的位置关系可以由极坐标系中特定的第二身体部分的二维相对坐标点确定。例如，用户的指尖的二维相对坐标点(r,θ)可以特定为表示用户的第一身体部分到用户的第二身体部分的距离r和用户的第二身体部分相对于某一基准线的方向角θ。

此外，根据本发明的一个实施方式，手势估计单元120在参考第一时间点的位置关系和第二时间点的位置关系的比较结果的同时，进一步参考从二维图像获取的环境(context)信息来推定用户在第一时间点和第二时间点之间做出的姿势(gesture)。

这里，根据本发明的一个实施方式，环境信息可以包括关于出现在二维图像中的第一身体部分和第二身体部分之间的距离变化的信息。此外，根据本发明的一个实施方式，环境信息可以包括关于出现在二维图像中的第二身体部分或与第二身体部分相关的其他身体部分的大小、亮度和姿态(pose)中的至少一项的变化的信息。例如，与环境信息相关联的第二身体部分可以是用户的手(或手指)，与第二身体部分相关联的其他身体部分可以是与用户的手相连的手臂(前臂或上臂)。

作为示例，当用户相对于二维相机做出向前或向后移动他/她的手的手势时，出现在二维图像上的用户的手的大小可以根据远近法变大或变小，并且随着用户的手与二维相机的光源之间的距离的变化，出现在二维图像上的用户的手的亮度可以变得更亮或更暗。

此外，例如，当用户做出平行移动他/她的手的手势同时保持二维相机和用户的手之间的距离基本恒定时，二维图像上的用户的手的尺寸、亮度等不会出现特别的变化。

作为另一示例，当用户做出相对于周围对象向前或向后移动他/她的手的手势时，在二维图像中显示的他/她的眼睛和他/她的手之间的距离可能会变大或变小。此外，随着用户的手腕、肘部、肩部等的姿势改变，出现在二维图像上的用户的手的姿态可以从折叠姿态改变为伸展姿态或者从伸展姿态改变为折叠姿态，连接到用户的手的用户手臂可以从折叠状态改变为伸展状态，或者从伸展状态改变为折叠状态。

根据本发明的一个实施方式的手势估计单元120通过参考如上所示的环境信息，与仅参考与用户的身体部分相关的二维相对坐标点的情况相比，可以更具体和准确地推定用户的姿势。

具体地，根据本发明的一个实施方式，当第一时间点的第一身体部分和第二身体部分的位置关系与第二时间点的第一身体部分和第二身体部分的位置关系之间的差异等于或小于预定阈值水平，并且根据环境信息判断为第二身体部分接近或远离二维相机，手势估计单元120可以估计用户已经做出了相对于二维相机向前或向后移动他/她的第二身体部分的姿势。

作为示例，当在拍摄了用户的第二身体部分的二维图像上，第二身体部分的大小增加的程度等于或大于预定水平，或当第二身体部分的亮度变亮的程度等于或大于预定水平时，根据本发明的一个实施方式的手势估计单元120可以确定第二身体部分越来越靠近二维相机。相反，当在其中拍摄了用户的第二身体部分的二维图像上，第二身体部分的大小减小的程度等于或大于预定水平，或者第二身体部分的亮度变暗的程度等于或大于预定水平时，根据本发明的一个实施方式的手势估计单元120可以确定第二身体部分距离二维相机越来越远。

另一方面，根据本发明的一个实施方式，即使第一身体部分与第二身体部分在第一时间点的位置关系与第一身体部分与第二身体部分在第二时间点的位置关系之间的差异等于或小于预定阈值水平，但如果根据环境信息判断为第二身体部分相对二维相机没有接近或远离，那么手势估计单元120可以估计用户没有做出使第二身体部分相对于二维相机向前或向后移动的姿势。

作为示例，根据本发明的一个实施方式，当在其中拍摄了用户的第二身体部分的二维图像上，第二身体部分的大小和亮度的变化小于预定水平，则手势估计单元120可以判断出第二身体部分没有靠近或远离二维相机，进而判断二维相机与第二身体部分之间的距离没有显著变化。

另一方面，根据本发明的一个实施方式，当确定在第一时间点的第一身体部分和第二身体部分之间的位置关系与在第二时间点的第一身体部分和第二身体部分之间的位置关系之间的差异等于或小于预定阈值水平，并且根据环境信息判断第二身体部分距离用户的周围对象更近或更远，手势估计单元120可以推定用户做出了相对于周围对象向前或向后移动第二身体部分的姿势。

作为示例，当在拍摄了用户的二维图像上，第一身体部分和第二身体部分之间的距离增加的程度等于或大于预定水平时，或者与第二身体部分连接的手臂伸展程度等于或大于预定水平，或者第二身体部分的姿态改变为伸展姿态的程度等于或大于预定水平，根据本发明的一个实施方式的手势估计单元120可以判断为第二身体部分变得更接近周围对象。相反，当在其中拍摄了用户的二维图像上，第一身体部分和第二身体部分之间的距离减小的程度等于或大于预定水平时，或者连接到第二身体部分的手臂的折叠程度等于或大于预定水平，或者第二身体部分的姿态改变为折叠姿态的程度等于或大于预定水平，根据本发明的一个实施方式的手势估计单元120可以确定第二身体部分远离了周围对象。

根据本发明的一个实施方式，手势估计单元120可以使用基于机器学习而学习的模型来估计用户在第一时间点和第二时间点之间做出的手势。

这里，根据本发明的一个实施方式，可以使用某种机器学习(machine learning)来执行上述学习。更具体地，可以使用基于人工神经网络的机器学习来执行学习。例如，可以利用诸如卷积神经网络(CNN)、递归神经网络(RNN)、自动编码器(auto-encoder)等的各种神经网络算法来实现上述人工神经网络。

此外，根据本发明的一个实施方式，手势估计系统100可以参考以上述方式估计的用户手势，以特定用户意图的控制命令并使得该控制命令被执行。

根据本发明的一个实施方式的通信单元130可以用于实现向图像获取单元110和手势估计单元120的数据传输以及从图像获取单元110和手势估计单元120接收数据。

最后，根据本发明的一个实施方式的控制单元140可以用于控制图像获取单元110、手势估计单元120以及通信单元130之间的数据流。即，根据本发明的控制单元140可控制手势估计系统100的数据流入/流出，或手势估计系统100的各个构成要素之间的数据流，使得图像获取单元110、手势估计单元120以及通信单元130可以分别执行它们的固有功能。

示例性实施例

图2和图3是示例性地示出了根据本发明的一个实施方式的其中包含用户对二维相机做出手势的模样的二维图像的附图。

在参考图2和图3描述的一个实施方式中，可以假设看着二维相机201的用户通过移动他/她的指尖221、222来做出用于对象控制或命令输入的手势。

参考图2和图3，根据本发明的一个实施方式的手势估计单元120可以将连接在由二维相机201拍摄的二维图像200、300上特定的用户的眼睛211的二维相对坐标点(即，第一身体坐标点)和用户的指尖221、222的二维相对坐标点(即，第二身体坐标点)的直线232、233与二维图像200、300上设定的基准线231之间的角度指定为用户的眼睛和他/她的指尖之间的位置关系。在这种情况下，根据本发明的一个实施方式，设置在二维图像200(或300)上的基准线231可以是由二维图像200、300的水平轴线(或垂直轴线)特定的水平线(或垂直线)，或平行于连接二维图像200、300上用户的双眼的直线的直线。

在参照图2和图3描述的实施方式中，可以看出，当用户做出使他/她的指尖221、222相对于二维相机201移动的手势时，出现在从二维相机201获取的二维图像200、300上的用户的眼睛211和他/她的指尖221、222之间相对位置关系(即，上述角度)基本上保持恒定而没有任何变化。在图2和图3的实施方式中，可以假设上述角度保持在大约150度。

具体地，参考图2和图3，根据本发明的一个实施方式的手势估计单元120将在第一时间点T1出现在二维图像200、300上的用户的眼睛211和他/她的指尖221之间的位置关系与第二时间点T2处的用户的眼睛211和他/她的指尖222之间的位置关系进行比较。当确定两个位置关系之间的差值等于或小于预定阈值水平(即，两个位置关系实质相同)时，根据本发明的一个实施方式的手势估计单元120可以估计：(1)在第一时间点和第二时间点之间，用户最有可能做出了将他/她的指尖221、222移近或远离二维相机201的手势，和(2)用户最有可能已经做出使他/她的指尖221、222平行移动的手势，同时二维相机201和指尖221、222之间的距离保持基本恒定。

此外，参考图2和图3，当第一时间点处用户的眼睛211和他/她的指尖221之间的位置关系和第二时间点处用户的眼睛211和他/她的指尖222之间的位置关系实质上相同时，根据本发明的一个实施方式的手势估计单元120可以通过进一步参考从二维图像200、300获取的环境信息来具体和准确地推定用户的手势。

具体地，在上述情况下，(1-1)在获取支持用户的手241、242靠近二维相机201的环境信息时，例如在二维图像200上，当用户的手241、242的大小增加或用户的手241、242的亮度变亮时，根据本发明的一个实施方式的手势估计单元120可以估计用户在第一时间点和第二时间点之间已经做出了相对于二维相机201向前移动他/她的指尖221、222的手势(见图2)。进一步地，(1-2)在获取支持用户的手241、242远离二维相机201的环境信息时，例如在二维图像300上，用户的手241、242的大小减小或用户的手241、242的亮度变暗时，根据本发明的一个实施方式的手势估计单元120可以估计在第一时间点和第二时间点之间用户已经做出了将他/她的指尖221、222相对于二维相机201向后移动的手势(见图3)。此外，(2)在获取支持用户的手与二维相机201之间的距离变化不显著的环境信息时，例如在二维图像上出现的用户的手的大小和亮度没有变化，根据本发明的一个实施方式的手势估计单元120可以估计用户已经做出平行移动他/她的指尖221、222的手势，同时用户保持他/她的指尖和二维相机201之间的距离在第一时间点和第二时间点之间基本恒定(即，不同于将他/她的指尖相对于二维相机201向前或向后移动的手势的手势)(未示出)。

图4至图6是示例性地示出了根据本发明的一个实施方式的参照极坐标系的用户相对于二维相机做出手势的二维图像的附图。

参照图4至图6，根据本发明的一个实施方式的手势估计单元120可以指定利用用户的眼睛211(即，第一身体坐标点)动态限定的极坐标系中特定的用户的指尖221、222(即，第二身体坐标)的二维相对坐标值作为用户的眼睛211和他/她的指尖221、222之间的位置关系，在从二维相机201获取的二维图像400、500、600上指定的用户的眼睛211作为中心(原点)。在这种情况下，根据本发明的一个实施方式，用户指尖的二维相对坐标值可以由表示从用户的眼睛(即，原点)到用户的指尖的距离r和用户的指尖相对于在二维图像400、500和600上设置的基准线的方向角θ。

具体地，参考图4至图6，根据本发明的一个实施方式的手势估计单元120比较在二维图像400、500、600上出现的用户的指尖221在第一时间点T1处的二维相对坐标点的方向角和用户的指尖222在第二时间点T2处的二维相对坐标点的方向角。当确定两个方向角之间的差值等于或小于预定阈值水平时(即，两个方向角基本上彼此相等)，根据本发明的一个实施方式的手势估计单元120可以估计(1)用户最有可能在第一时间点和第二时间点之间已经做出了相对于二维相机201向前或向后移动他/她的指尖221、222的手势，和(2)用户最有可能已经做出了平行于用户的指尖221的二维相对坐标点的方向角对应的方向移动他/她的指尖221、222的手势，同时二维相机201和指尖221、222之间的距离在第一时间点和第二时间点之间保持基本恒定。

此外，参考图4至图6，当用户的指尖221在第一时间点T1的二维相对坐标点的方向角(约150度)与用户的指尖222在第二时间点T2的二维相对坐标点的方向角(约150度)被确定为实质相同时，根据本发明的一个实施方式的手势估计单元120可以通过进一步参考从二维图像400、500、600获取的环境信息来具体且准确地估计用户的手势。

具体地，在上述情况下，(1-1)在获取支持用户的手241、242接近二维相机201的环境信息时，例如在二维图像400上，当用户的手241、242增大或用户的手241、242的亮度变亮时，根据本发明的一个实施方式的手势估计单元120可以估计用户在第一时间点和第二时间点之间已经做出了相对于二维相机201向前移动他/她的指尖221、222的手势(见图4)。进一步地，(1-2)在获取支持用户的手241、242远离二维相机201的环境信息时，例如在二维图像500上，用户的手241、242的大小减小或用户的手241、242的亮度变暗时，根据本发明的一个实施方式的手势估计单元120可以估计用户在第一时间点和第二时间点之间已经做出了将他/她的指尖221、222相对于二维相机201向后移动的手势(见图5)。此外，(2)当获取支持用户的手与二维相机201之间的距离的变化不显著的环境信息时，例如二维图像600没有发生用户的手的大小和亮度的变化，根据本发明的一个实施方式的手势估计单元120可以估计用户已经做出了平行移动他/她的指尖221、222的手势，同时用户在第一时间点和第二时间点之间保持他/她的指尖和二维相机201之间的距离基本恒定(即，不同于将他/她的指尖相对于二维相机201向前或向后移动的手势的手势)(见图6)。

图7的(a)和(b)是示例性地示出了根据本发明的一个实施方式的用户相对于二维相机做出向前移动他/她的手指的手势的二维图像的附图。

图7的(a)示出了在第一时间点T1拍摄了用户的二维图像，图7的(b)示出了在第二时间点T2拍摄了用户的二维图像。

参考图7的(a)和(b)，当用户在第一时间点到第二时间点的时间段期间做出使他/她的指尖221向前移动的手势时，作为比较在其中在第一时间点拍摄了用户的二维图像701和在其中在第二时间点拍摄了用户的二维图像702的结果，可以发现二维图像701、702上出现的与用户的手241对应的区域的大小变为更大并且用户的手241的亮度变得更亮。

图8和图9是示例性地示出了根据本发明的一个实施方式的用户相对于周围对象做出手势的二维图像的附图。

参考图8和图9，根据本发明的一个实施方式的手势估计单元120可以将在二维图像800、900上出现的用户的指尖221在第一时间点T1的二维相对坐标点的方向角与用户的指尖222在第二时间点T2处的二维相对坐标点的方向角进行比较。当确定两个方向角之间的差值等于或小于预定阈值水平时(即，两个方向角基本上彼此相等)，根据本发明的一个实施方式的手势估计单元120可以估计用户在第一时间点和第二时间点之间最有可能已经做出了将他/她的指尖221、222相对于周围对象(未示出)移更近或移更远的手势。

此外，参考图8和图9，当确定用户的指尖221在第一时间点T1的二维相对坐标点的方向角(约150度)和用户的指尖222在第二时间点T2的二维相对坐标点的方向角(约150度)基本彼此相等时，根据本发明的一个实施方式的手势估计单元120可以通过进一步参考从二维图像800、900获取的环境信息来具体准确地估计出用户的手势。

具体地，在上述情况下，根据本发明的一个实施方式的手势估计单元120可以参考关于用户的眼睛211和他/她的指尖221、222之间的距离的变化、用户的手241、242的姿态变化、与用户的手241、242连接的手臂的姿势的变化等的环境信息来估计用户的手势。

作为示例，在获取支持用户的手241、242靠近周围对象(未示出)的环境信息时，例如在二维图像800上，用户的眼睛211与他/她的指尖221、222之间的距离增加，或用户的手241、242的姿态改变为伸展姿态，或者连接到用户的手241、242的手臂伸展，根据本发明的一个实施方式的手势估计单元120可以估计用户在第一时间点和第二时间点之间已经做出了相对于周围对象(未示出)向前移动他/她的指尖221、222的手势(参考图8)。

进一步地，例如，在获取支持用户的手241、242远离周围对象(未示出)的环境信息时，例如在二维图像上，用户的眼睛211和他/她的指尖221、222之间的距离减小，或用户的手241、242的姿态改变为折叠姿态，或者与用户的手241、242相关联的手臂折叠，根据本发明的一个实施方式的手势估计单元120可以估计用户在第一时间点和第二时间点之间已经做出了相对于周围对象(未示出)向后移动他/她的指尖221、222的手势。

此外，例如，当获取支持用户的手241、242与周围对象(未示出)之间的距离的变化不显著的环境信息时，例如在二维图像900上，用户的眼睛211和他/她的指尖221、222之间的距离没有发生变化、用户的手241、242的姿态没有发生变化，并且与用户的手241、242相关联的手臂的姿势没有发生变化，根据本发明的一个实施方式的手势估计单元120可以估计用户已经做出了手势(例如，平行移动他/她的指尖221、222的手势，同时保持周围对象(未示出)和他/她的指尖221、222之间的距离基本恒定)，该手势与在第一时间点和第二时间点之间相对于周围对象(未示出)向前或向后移动他/她的指尖221、222的手势不同。

图10的(a)至(d)是示例性地示出了根据本发明的一个实施方式的其中用户做出了相对于周围对象向前移动他/她的手指的手势的二维图像的附图。

在图10(a)至(d)所示的二维图像1001至1004中的每一个，在第一时间点T1拍摄的用户的状态和在第二时间点T2拍摄的用户的状态被以重叠方式显示。在图10所示的实施方式中，用户对其做出手势的对象(未示出)将用户作为基准时可以位于二维相机侧。

参考图10(a)至(d)，当用户在第一时间点到第二时间点的时间段期间做出使他/她的指尖221、222相对于特定对象(未示出)向前移动的手势时，在用户的眼睛211的二维相对坐标点与用户的指尖221、222的二维相对坐标点之间的位置关系保持实质相同状态时，可以看出，随着连接到用户的手241、242的手臂伸展，出现在每个二维图像1001至1004上的手臂相对进一步伸展。

在上述实施方式中，用户的手势已经被描述为参考关于出现在拍摄了用户的二维图像上的用户的眼睛和他/她的指尖之间的位置关系的信息和关于用户眼睛和他/她的手之间的距离、用户的手的大小、姿态和亮度以及手臂(前臂和上臂)的姿势变化的环境信息进行估计。然而，本发明不必限于上述示例性实施方式。

作为示例，根据本发明的一个实施方式，手势估计单元120可以学习某个分类模型或估计模型，其能够通过基于其中在多个时间点拍摄了用户的多个二维图像进行机器学习(深度学习)来估计用户的手势，并且可以使用学习的分类模型或学习的估计模型来估计用户的手势。

图11至图14是示例性地示出了根据本发明的一个实施方式的用户对周围对象做出手势的二维图像的附图。

在图11至图14的实施方式中，可以假设其是这样一种情况：被二维相机201拍摄的用户通过移动他/她的指尖221、222做出对其附近存在的对象270的控制或命令输入的手势。

参考图11至图14，在使用二维相机201的二维图像1100、1300上，其中用户相对于对象270做出使他/她的指尖221、222向前或向后移动的手势(见图12和图14)，用户的眼睛211和他/她的指尖221、222之间的距离、连接到用户的指尖221、222的手臂的姿势以及连接到用户的指尖221、222的手的姿态的可能发生显著变化。根据本发明的一个实施方式的手势估计单元120可以参考基于这样的变化确定的环境信息来估计用户的手势。

具体地，如图11和图12所示，可以假设这样一种情况：其中在第一时间点T1到第二时间点T2的时段期间用户做出使他/她的指尖221、222相对于位于二维相机201之外的对象270向前移动的手势(见图11)。在这种情况下，当用户伸出他/她的手臂以相对于对象270向前移动他/她的指尖221、222时，在二维图像1100(见图12)上，用户的眼睛211与他/她的指尖221、222之间的距离可以改变为增加，连接到用户的指尖221、222的手臂可以改变为伸展，并且连接到用户的指尖221、222的手可以从折叠姿态改变到伸展姿态。

此外，参考图11和图12，根据本发明的一个实施方式的手势估计单元120可以通过参考有关上述变化的环境信息估计用户已经做出了将他/她的指尖221、222相对于位于二维相机201之外的对象270向前移动的手势。

此外，如图13和图14所示，可以假设这样一种情况：在第一时间点T1到第二时间点T2的时段期间，用户做出将他/她的指尖221、222相对于位于用户左侧的对象270向前移动的手势(见图13)。在这种情况下，当用户伸出他/她的手臂以相对于对象270向前移动他/她的指尖221、222时，在二维图像1300(见图14)上，用户的眼睛211和他/她的指尖221、222之间的距离可以变化为增加，连接到用户的指尖221、222的手臂可以变化为伸展，并且连接到用户的指尖221、222的手可以从折叠姿态变化到伸展姿态。

此外，参考图13和图14，根据本发明的一个实施方式的手势估计单元120可以通过参考有关上述变化的环境信息估计用户已经做出了将他/她的指尖221、222相对于位于用户左侧的对象270向前移动的手势。

如上所述的根据本发明的实施方式可以以可以由各种计算机构成要素执行的程序指令的形式来实现，并且可以存储在计算机可读记录介质上。计算机可读记录介质可以包括单独或组合的程序指令、数据文件和数据结构。存储在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的，也可以是计算机软件领域的技术人员公知和可用的。计算机可读记录介质的示例包括以下：诸如硬盘、软盘和磁带之类的磁介质；诸如光盘-只读存储器(CD-ROM)和数字多用光盘(DVD)等光学介质；诸如软式光盘(floptical disk)的磁光介质(magneto-optical medium)；以及诸如专门用于存储和执行程序指令的只读存储器(ROM)、随机存取存储器(RAM)和闪存的硬件设备。程序指令的示例不仅包括由编译器创建的机器语言代码，还包括可以由计算机使用解析器执行的高级语言代码。上述的硬件设备可以改变为一个或多个软件模块来执行本发明的过程，反之亦然。

尽管上面已经根据具体项目(例如详细的构成要素)以及有限的实施方式和附图对本发明进行了描述，但是提供它们只是为了帮助对本发明的更全面的理解，并且本发明不限于以上实施方式。本发明所属领域的技术人员将理解，可以根据以上描述进行各种修改和改变。

因此，本发明的精神不应局限于上述实施方式，所附权利要求的全部范围和所有等同物均应落入本发明的范围和精神内。

Claims

1.一种从二维图像估计用户手势的方法，其特征在于，

包括以下步骤：

从二维相机获取与用户身体相关的二维图像；

在二维图像中动态定义的相对坐标系中特定与用户的第一身体部分和第二身体部分分别对应的二维相对坐标点，比较第一时间点处的第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点之间的第一位置关系和第二时间点处的第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点之间的第二位置关系；以及

参考比较结果和从二维图像中获取的环境信息，估计用户在第一时间点和第二时间点之间做出的手势。

2.根据权利要求1所述的从二维图像估计用户手势的方法，其特征在于，

第一位置关系和第二位置关系中的每一个由二维图像上连接第一身体部分的二维相对坐标点和第二身体部分的二维相对坐标点的直线和二维图像上设置的基准线之间的角度来特定。

3. 根据权利要求1所述的从二维图像估计用户手势的方法，其特征在于，

所述相对坐标系是以二维图像上的第一身体部分的二维相对坐标点为中心动态定义的极坐标系，并且

其中，第一位置关系和第二位置关系中的每一个由极坐标系中特定的第二身体部分的二维相对坐标点确定。

4.根据权利要求1所述的从二维图像估计用户手势的方法，其特征在于，

所述环境信息包括：关于出现在二维图像上的第一身体部分和第二身体部分之间的距离的变化以及出现在二维图像上的第二身体部分或与第二身体部分相关的其他身体部分的大小、亮度或姿势的变化中的至少一个的信息。

5.根据权利要求4所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤中，当第一时间点处的第一位置关系与第二时间点处的第二位置关系之间的差值等于或小于预定阈值水平时，并且当根据环境信息判断出第二身体部分在第一时间点到第二时间点的时段期间距离二维相机越来越近或越来越远，则估计用户已经做出了相对于二维相机向前或向后移动第二身体部分的手势。

6.根据权利要求5所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤中，当在二维图像上出现的第二身体部分的大小在第一时间点至第二时间点的时段期间变大的程度等于或大于第一预定水平时，或者当出现在二维图像上的第二身体部分的亮度变亮的程度等于或大于第二预定水平时，确定第二身体部分离二维相机更近了。

7.根据权利要求5所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤中，当出现在二维图像上的第二身体部分的大小在第一时间点到第二时间点的时段期间变小的程度等于或大于第三预定水平时，或者当在第一时间点到第二时间点的时段期间出现在二维图像上的第二身体部分的亮度变暗的程度等于或大于第四预定水平时，确定第二身体部分距离二维相机越来越远。

8.根据权利要求4所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤中，当第一时间点处的第一位置关系与第二时间点处的第二位置关系之间的差值等于或小于预定阈值水平时，并且当基于环境信息判断出在第一时间点到第二时间点的时段期间第二身体部分距离用户周围的对象更近或更远时，估计出用户已经做出了相对于对象向前或向后移动第二身体部分的手势。

9.根据权利要求8所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤，当出现在二维图像上的第一身体部分和第二身体部分之间的距离在第一时间点至第二时间点的时段期间增加的程度等于或大于第五预定水平时，当出现在二维图像上的用户的第二身体部分相连的手臂在第一时间点至第二时间点的时段期间的伸展程度等于或大于第六预定水平时，或者当出现在二维图像上的用户的第二身体部分的姿态在第一时间点至第二时间点的时段期间改变为伸展姿态的程度等于或大于第七预定水平，确定用户的第二身体部分靠近对象。

10.根据权利要求8所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤中，当在二维图像上出现的第一身体部分和第二身体部分之间的距离在第一时间点至第二时间点的时段期间减小的程度等于或大于第八预定水平时，或者当出现在二维图像上的用户的第二身体部分连接的手臂的折叠程度等于或大于第九预定水平时，或者当二维图像上出现的用户的第二身体部分的姿态改变为折叠姿态的程度等于或大于第十预定水平时，确定用户的第二身体部分距离对象更远。

11.根据权利要求1所述的从二维图像估计用户手势的方法，其特征在于，

在估计步骤中，基于机器学习学习的模型被用于估计用户在第一时间点和第二时间点之间做出的手势。

12.一种非暂时性计算机可读记录介质，其特征在于，

其在其上存储有用于执行权利要求1所述方法的计算机程序。

13.一种用于从二维图像估计用户手势的系统，其特征在于，

包括：

图像获取单元，其配置为从二维相机获取与用户身体相关的二维图像；以及

手势估计单元，其配置为：在二维图像中动态定义的相对坐标系中特定与用户的第一身体部分和第二身体部分分别对应的二维相对坐标点；比较第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点在第一时间点的第一位置关系和第一身体部分的二维相对坐标点与第二身体部分的二维相对坐标点在第二时间点的第二位置关系；参考比较结果和从二维图像中获取的环境信息，估计用户在第一时间点和第二时间点之间做出的手势。