CN108431733A - 用于手势检测的电子设备 - Google Patents

用于手势检测的电子设备 Download PDF

Info

Publication number
CN108431733A
CN108431733A CN201680076681.7A CN201680076681A CN108431733A CN 108431733 A CN108431733 A CN 108431733A CN 201680076681 A CN201680076681 A CN 201680076681A CN 108431733 A CN108431733 A CN 108431733A
Authority
CN
China
Prior art keywords
hand
gesture
discrete
runtime
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680076681.7A
Other languages
English (en)
Other versions
CN108431733B (zh
Inventor
K·卡蒙
E·克鲁普卡
A·迪亚曼特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108431733A publication Critical patent/CN108431733A/zh
Application granted granted Critical
Publication of CN108431733B publication Critical patent/CN108431733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于检测手势的手势检测电子设备,包括IC,其电子集成以下各项:(a)第一接口,连接到(多个)成像设备,(b)第二接口,连接到受控单元,(c)数据存储装置,存储表示手势的序列逻辑模型。序列逻辑模型对预定义手姿态和/或运动的序列进行映射。(d)存储器,存储代码,(e)(多个)处理器,耦合到第一接口和第二接口、数据存储装置和存储器用于执行代码以进行以下各项:(1)接收描绘用户的移动的手的被计时的图像,(2)生成映射运行期手数据集的运行期序列,运行期手数据集各自由指示移动的手的当前状态的离散手值定义,(3)通过使用SSVM函数、与序列逻辑模型相比较而优化运行期序列,来估计哪个(些)手势最好地匹配运行期序列,(4)向受控单元发起(多个)动作。(多个)动作与基于估计而选择的(多个)手势相关联。

Description

用于手势检测的电子设备
相关申请的交叉引用
通过引用被并入本公开的材料包括以下:
Eyal Krupka等,“Discriminative Ferns Ensemble for Hand PoseRecognition”。
背景技术
随着计算机化环境的发展,人机接口(HMI)的使用已经显著地增加。对于更自然的人机用户接口(NUI)方法,诸如例如语音和/或注视,并且更具体地,对于用于替换和/或补充传统HMI(诸如例如键盘、指点设备和/或触摸接口)的手势交互,增长的需要被标识。这样做可以用于例如消除和/或减少对于中间设备(诸如键盘和/或指点设备)的需要,支持解放手的交互、对于具有残疾的(多个)人口改进可访问性和/或提供多模式交互环境。用于标识和/或识别(多只)手的当前方案可能存在,然而,它们大多数是不成熟的,呈现不足的准确度和/或高复杂性,同时要求用于广泛的计算机视觉处理和/或机器学习的大量计算资源。将这样的方案集成到现有和/或新的产品、系统、平台和/或环境中可以呈现巨大挑战,该挑战可能是不轻易遇到的,并且可能防止这样的解决方案被采用用于大规模使用。
发明内容
根据本公开的一些实施例,提供了一种用于通过估计运行期手数据集的运行期序列来检测用户手势的电子设备,该估计是通过关于多个预定义手势来分析描绘用户的(多只)手的运动的一个或多个图像,以将运行期序列标识为有效手势。贯穿本公开,下文所提及的预定义手势指模拟(多只)手的相应手势的预定义手势表示。以相同的方式,贯穿本公开,下文所提及的手势、手姿态和/或手运动的定义、创建、构建和/或生成分别指:手势、手姿态和手运动的表示的定义、创建、构建和/或生成,这些表示模拟(多只)手的相应的手势、姿态和运动。电子设备(例如,集成电路(IC)、片上系统(SOC)、专用集成电路(ASIC)和/或被集成在父IC中的知识产权(IP)模块)执行手势检测的过程,并且可以发起动作、操作和/或命令,以操作一个或多个受控单元,例如,产品、装置和/或系统。控制单元可以是任何一个或多个设备、装置、系统和/或平台,其可以通过手势HMI控制。可选地,电子设备可以向一个或多个主机装置(例如,IC、ASIC和OSC、设备和/或系统)提供高级别手势指示。电子设备架构可以基于硬件和/或执行硬件的软件指令的组合。电子设备可以连接到一个或多个成像设备,例如,照相机、立体照相机、红外线(IR)照相机和/或深度照相机,其监测用户的移动的手,以接收描绘移动的手的一个或多个被计时的图像。电子设备可以通过一个或多个接口(例如,印刷电路板(PCB)迹线、有线接口和/或无线接口)连接到一个或多个照相机单元、(多个)受控单元和/或主机装置。电子设备可以集成执行手势检测所要求的必要的硬件部件(单元),诸如例如一个或多个处理器、易失性存储器阵列、非易失性存储器阵列和/或专用硬件单元(诸如例如向量处理单元)。可选地,电子设备集成成像设备中的一个或多个成像设备。手势的检测基于用于表示手势的离散架构,其中手势中的每个手势包括一个或多个手姿态和/或手运动,其各自由手特征记录表示。手特征记录中的每个手特征记录通过多个离散手值中的一个或多个离散手值来定义。离散手值中的每个离散手值指示对应的手特征(特性)的值,例如,手姿态、(多根)手指弯曲、手运动和/或手的(多根)手指运动。一个或多个手特征的连续值可以通过量化连续值而由离散手值表示,以支持手势检测过程的离散架构。在若干阶段中执行手势检测。第一阶段是生成一个或多个运行期手数据集的运行期序列,一个或多个运行期手数据集各自由多个离散手值分数定义,多个离散手值分数通过使用经训练的统计分类函数(分类器)分析一个或多个被计时的图像来从移动的手推断。在第二阶段中,通过使用一个或多个SSVM函数,运行期手数据集与一个或多个序列逻辑模型匹配以产生估计项,一个或多个序列逻辑模型各自绘制表示多个手势中的一个手势的手。手势的一个或多个序列逻辑模型可以由记录(多个)手姿态和/或(多个)手运动之间的转变的有限状态机表示。在下一阶段中,优化过程可以通过电子设备执行,其中多个手势的最佳手势通过使用运行期手数据集上的估计项解析加权计算来选择,以标识最好地描述所描绘的运行期序列的最佳手势。优化可以在利用FSM内的一个或多个序列上的一个或多个分数函数增强手势FSM之后,使用例如维特比解码通过动态编程来完成。
使用电子设备检测手势可以关于将手势检测能力集成到现有和/或新的高级别设备、产品、系统平台和/或方案中的方面呈现主要优点。通过直接地控制受控单元和/或提供所检测的手势的高级别指示,手势交互的全部优点被实现,而不需要高级别设备、产品、系统平台和/或方案涉及检测过程本身。电子设备可以启用手势HMI,用于多个产品、应用和系统,例如,物联网(IOT)、智能家居、游戏、学习、医学、运动器械、汽车、客户服务、智能会议、工业应用等。
除非另外定义,否则本文使用的所有技术和/或科学术语具有与由本领域的普通技术人员通常理解的相同的意义。尽管与本文所描述的那些方法和材料类似或者等同的方法和材料可以被使用在本公开的实施例的实践或者测试中,但是下文描述了示例性方法和/或材料。在冲突的情况下,以包括定义的专利说明书为准。另外,材料、方法和示例仅是说明性的,并且不旨在是必然地限制性的。
附图说明
本公开的一些实施例在本文中参考附图仅以示例的方式来描述。现在对附图进行详细特定参考,应当强调,所示的细节以示例的方式示出,并且出于本公开的实施例的说明性讨论的目的。就这一点而言,结合附图进行的描述使如何可以实现本发明的实施例对本领域技术人员而言是清楚的。
在附图中:
图1是根据本公开的一些实施例的用于检测由(多个)图像所描绘的手势的示例性电子设备的示意图;
图2是根据本公开的一些实施例的在用于检测由(多个)图像所描绘的手势的示例性电子设备上执行的示例性过程的流程图;
图3是根据本公开的一些实施例的示例性手姿态的离散表示的示意图;
图4是根据本公开的一些实施例的示例性捏的手姿态的离散表示的示意图;
图5是根据本公开的一些实施例的示例性手运动的离散表示的示意图;
图6是根据本公开的一些实施例的示例性半圆基本手运动的离散表示的示意图;
图7是根据本公开的一些实施例的示例性手势的构建框的框图;
图8是根据本公开的一些实施例的示例性弹弓手势的构建框的框图;
图9是根据本公开的一些实施例的将手势序列逻辑模型表示为手运动和手姿态的序列的示例性FSM的示意图;以及
图10是根据本公开的一些实施例的集成示例性手势检测电子设备的示例性微波炉的示意图。
具体实施方式
根据本公开的一些实施例,提供了一种用于通过估计一个或多个运行期手数据集的运行期序列来检测用户手势的电子设备,该估计是通过关于多个预定义手势来分析描绘用户的(多只)手的移动的一个或多个图像,以将运行期序列和/或其部分标识为有效手势。电子设备(例如,IC、SOC、ASIC和/或被集成在另一IC中的IP模块)可以执行手势检测的过程并且可以发起动作、操作和/或命令,以操作一个或多个受控单元(例如,产品、装置和/或系统)。受控单元可以是任何一个或多个设备、装置、系统和/或平台,其可以通过手势HMI控制。可选地,电子设备可以向主机装置(诸如例如IC、ASIC和SOC、设备和/或系统)提供高级别的手势指示。电子设备可以基于硬件和/或采用在其中硬件模块执行软件指令的硬件/软件组合。电子设备可以连接到一个或多个成像设备,例如,照相机、立体照相机、IR照相机和/或深度照相机,其监测用户的移动的手,以接收描绘移动的手的一个或多个被计时的图像。电子设备可以通过一个或多个接口(例如,IC内部互连、PCB迹线、有线接口和/或无线接口)连接到一个或多个受控单元和/或主机装置。有线接口可以利用例如通用串行总线(USB)、局域网(LAN)、火线等。无线接口可以利用例如无线LAN(WLAN)、蓝牙、蓝牙低功耗(BLE)、近场通信(NFC)、IR等。当电子设备被实现为被集成在父IC中的IP模块时,其中受控单元和/或主机装置可以是被集成在父IC中的另一(些)模块,电子设备可以通过父IC的一个或多个内部互连与主机装置模块互连。当电子设备被实现为PCB上的IC时,其中受控单元和/或主机装置是相同PCB上的另一IC,电子设备与受控单元和/或主机装置之间的互连可以通过PCB迹线来利用。电子设备可以集成执行手势检测所要求的必要的硬件部件(单元),诸如例如一个或多个处理器、易失性存储器阵列、非易失性存储器阵列和/或专用硬件单元(诸如例如向量处理单元)。可选地,电子设备集成成像设备中的一个或多个成像设备。对由用户所执行的并且在一个或多个图像中所描绘的一个或多个手势的检测基于离散架构,其中离散手值用作定义构成手势的手姿态和/或手运动的构建框。一个或多个图像可以是被计时的和/或同步的,以维持所描绘的移动的(多个)手势的运行期序列。每个手势可以包括各自被表示为预定义手特征记录的一个或多个手姿态和/或手运动,预定义手特征记录可以分别地是手姿态特征记录或者手运动特征记录。手特征记录各自由唯一的离散手值集来定义,离散手值各自指示所描绘的手的多个手特征(特性)中的对应的手特征的状态,诸如例如各种手指和/或手状态和/或运动。手特征包括姿态特征和运动特征,各自分别与一个或多个离散姿态值和离散运动值相关联。预定义手势中的每个预定义手势可以被表示为序列逻辑模型,其包括一个或多个手姿态和/或手运动,各自由手特征记录表示,手特征记录进而通过多个离散手值定义。以相同的方式,捕获构成用户的手运动的运行期序列的一个或多个运行期手数据集的一个或多个图像中的每个图像被分析,以将其标识为手姿态或手运动,并且进一步推断离散手值中的一个或多个离散手值,从离散手值构建每个运行期手数据集。针对运行期手数据集中的每一个运行期手数据集所标识的离散手值被称为离散手值分数,并且可以包括各自指示多个手特征中的对应的手特征的当前(运行期)值的离散姿态值和/或离散运动值。一个或多个手特征的连续值可以通过量化连续值而由离散手值表示,以支持手势检测过程的离散架构。由于预定义手姿态和/或手运动以及运行期手数据集通过多个离散手值定义,将运行期序列估计为预定义手势中的一个预定义手势基本上是一个优化问题,其中最好地描述运行期序列的最佳预定义手势被选择。一个或多个运行期手数据集中的每个运行期手数据集连同预定义手特征记录中的一个或多个被提交给一个或多个SSVM函数,以相对于预定义手特征记录中的每个预定义手特征记录来生成用于运行期手数据集的多个估计项。估计项包括单个项和成对项。单个项定义运行期手数据集中的每个运行期手数据集与预定义手特征记录中的一个预定义手特征记录之间的相关性。成对项定义运行期手数据集中的每个运行期手数据集与预定义手特征记录中的两个预定义手特征记录(当前和前驱)之间的相关性。通过解析用于一个或多个运行期手数据集中的每个运行期手数据集的最佳匹配预定义手特征记录,运行期序列可以然后被估计以依从预定义手势中的一个预定义手势。单个项和/或成对项可以通过在运行期手数据集中的每个运行期手数据集的离散手值分数上模拟预定义手姿态和/或手运动的离散手值来生成。预定义手特征记录可以以二进制形式(例如,合取范式(CNF))表示。一个或多个SSVM函数可以应用一个或多个参数函数来生成单个项和/或成对项。一个或多个SSVM函数可以离线训练,以标识最准确的估计项来与预定义手特征记录中的每个预定义手特征记录相关联。定义一个或多个手势的一个或多个序列逻辑模型中的每个序列逻辑模型可以由FSM表示,其中每个手特征记录(手姿态或者手运动)是状态,并且FSM记录(多个)手姿态和/或(多个)手运动之间的转变。在发起优化过程之前,表示一个或多个预定义手势的FSM可以利用FSM内的序列上的一个或多个分数函数来增强,以便允许高效和准确的优化,FSM内的一个或多个序列中的每个序列表示手势。优化过程可以通过动态编程执行,动态编程可以使用所生成的单个项和/或成对项对一个或多个分数函数利用例如维特比解码。在完成时,优化过程产生最佳预定义手势,其最好地匹配如在一个或多个图像中所描绘的用户的手的运动的运行期序列。可选地,一个或多个权重被分配给估计项中的每个估计项来改进优化过程。一个或多个权重可以通过例如一个或多个SSVM函数计算,SSVM函数可以被训练,以选择用于预定义手特征记录中的每个预定义手特征记录的最佳匹配权重。可选地,运行期序列可以被估计为手势的序列逻辑模型,其未被预定义,但是可以通过使用各自指示手特征中的对应手特征的值的离散架构离散手值来构建。可选地,一个或多个SSVM函数被特定为:将运行期序列优先标识为多个注册的手势中的一个注册的手势。一个或多个注册的手特征可以基于用户的活动的上下文来注册,例如,预定义手势中的一个或多个注册的可以与特定应用注册(关联)。在运行期序列中所描绘的用户手运动的检测期间,在特定应用正被使用的情况下,优化过程仅考虑注册手势,用于选择最好地匹配运行期序列的最佳手势。
推断离散手值分数来创建构成运行期序列的一个或多个运行期手数据集通过应用经训练的分类函数而实现的一个或多个手姿态和/或手运动的分类过程来完成,经训练的分类函数将从所捕获的(多个)图像提取的多个离散手值与在训练会话期间优化的对应的离散值匹配。在手姿态和/或手运动的分类之前,一个或多个调节和/或操纵可以在所捕获的(多个)图像上被执行,以将在(多个)图像中所捕获的移动的手的视觉表示与在训练会话期间使用的捕获条件对齐。一个或多个调节和/或操纵还可以使用经训练的分类函数来利用分类。对描绘移动的手的(多个)图像的一个或多个调节可以包括例如图像中的非相关部分的移除、缩放和/或对齐。初始步骤可以是估计在(多个)图像中所描绘的手的质心,以标识可以在分类过程期间处理的相关图像分割。质心估计后可以跟随有微调分析,以估计手的中心。基于在接收到的(多个)图像内可用的图像数据,(多个)图像还可以被操纵,以移除与所描绘的手不相关的元素,诸如例如背景静态元素(其可以通过后续图像的比较来标识),和/或距所描绘的手的某个绝对和/或相对距离的像素,其中距离可以根据阈值设定。在接收到的(多个)图像内可用的图像数据可以是例如深度数据和/或IR数据。从(多个)图像移除不相关的数据可以改进分类过程分析。离散手值架构是用于分类过程的基础,其中在分类步骤中的每个分类步骤中,多个经训练的分类函数(分类器)被应用到(多个)图像分割,以解析和/或分类移动的手中的一个或多个状态。一个或多个手姿态特征的连续值(例如,手的3D空间位置和/或(多根)手指相对手掌的(多个)相对角度)可以通过量化连续值而由离散手值表示,以支持分类函数的离散架构。多类分类和/或多个二进制分类函数可以使用一个分类函数(相对于使用其他一个或多个分类函数)来训练。在训练会话期间,提供最高准确度的分类函数被选择。分类函数包括例如手的3维(3D)空间旋转、手对齐和/或多个手姿态特征,例如手位置、手指弯曲、手指方向、手指接触和/或手指相对位置。手的3D空间旋转可以在两个阶段中被估计,首先标识全局定向类别(GOC),其表示相对于(多个)成像设备的二维(2D)平面不能被补偿的旋转,接着标识定义成像设备的2D平面内的手的旋转的平面内旋转。对于分类过程步骤中的每个步骤而言,使用专用分类函数集。通过产生包含各自对应于移动的手的手特征中的一个手特征的多个离散手值分数的运行期数据集,分类过程创建手的离散骨骼表示。分类函数集在训练会话期间被训练,其中多个训练数据集,例如,一个或多个用户的多个手姿态和/或运动的(多个)图像和/或(多个)手姿态和/或运动的多个模型被驱动到分类函数,并且类别标签被分配到它们中的每一个。分类函数可以采用统计处理(例如,回归分析)和/或使用多个区别性蕨丛集(DFE)。多个DFE分类器中的每个DFE分类器包括离散手值的一个或多个表格,离散手值与收集的手特征之一相关联,并且在训练过程期间使用训练数据来分类。DFE表格保持在逐像素基础上被匹配到图像分段的权重值,并且图像分段的内容根据匹配结果被分类。DFE分类器(各自与手姿态特征中的一个相关联)可以堆叠和/或连结,以扩大DFE结构并且增加分类函数的数目。堆叠和/或连结的DFE分类器可以改进对由(多个)图像分段所描绘的手姿态的分类的准确度。在Eyal Krupka等人的公开“Discriminative Ferns Ensemble for Hand Pose Recognition”中描述了创建、训练和/或使用用于手姿态识别的DFE架构的更详细的描述,其通过引用并入本文。可选地,被用于例如手的3维(3D)空间旋转、手对齐和/或多个手特征(姿态和运动)的分类函数采用经训练的区别性树集(DTE),在本文中还被称为“长树”和/或DFE和“长树”的组合。在题为“Structure and Training for Image Classification”(Attorney Docket No.63962)的美国申请专利申请中更详细地描述了创建、训练和/或使用“长树”架构和/或将其与DFE组合,用于手姿态和/或运动识别,其公开内容通过引用并入本文。可选地,轨迹分析被应用,以标识多个离散手值分数中的一个或多个离散手值分数来表示运动和/或运动的一部分。轨迹分析可以基于用于表征手特征的多个训练数据,手特征对于多个用户中的至少一些用户而言是共同的。
提供以下电子设备可以显著地减少将手势交互引入和/或集成到产品、系统、平台和/或方案中的集成工作,该电子设备执行用户的完整手势检测并且直接地控制一个或多个受控单元和/或给主机提供对由用户执行的手势的高级别指示。电子设备解放主机设备、装置、产品、系统和/或平台,使其无需执行在检测用户的手势时涉及的任何任务,具体而言,与手势的分类和/或识别有关的计算机视觉处理计算机学习和/或计算负载。引入手势检测电子设备可以易于和/或简化手势HMI的集成,其可以变得高度可访问,这促进其被大规模地用于多个应用。电子设备可以用作使能装置,其将手势HMI变成普遍且广泛应用的HMI,用于控制多个产品、应用和系统(例如,IOT、智能家居、游戏、学习、运动器械、汽车、医学、客户服务、智能会议、工业应用等)和/或与其相互作用。
而且,以下手势检测方法可以显著地减少需要被用于运行期的计算机视觉处理、图像处理和/或机器学习中的所要求的计算负载,该手势检测方法基于手姿态表示的离散性质来估计和/或识别如在(多个)图像中所描绘的用户的一个或多个手势。当一个或多个手势中的每个手势由有限数目的可能值定义时,例如,5、10和/或20可以对于每个手特征有效,这避免将手骨骼完全地建模和/或采用密集计算机视觉处理的需要。减少对于例如计算机视觉处理、图像处理和/或机器学习所需要的计算负载可以因此减少电子设备的功耗、复杂性和/或成本。
在详细解释示例性实施例的至少一个实施例之前,将理解到,本公开不必在其应用中限于在以下描述中所阐述的和/或在附图和/或示例中所说明的部件和/或方法的构建和布置的细节。本公开能够具有其他实施例,或者以各种方式被实践或者执行。
现在参考附图,图1是根据本公开的一些实施例的用于检测由(多个)图像所描绘的手势的示例性电子设备的示意图。图示100呈现了用于通过估计一个或多个运行期手数据集的运行期序列来检测用户手势的示例性电子设备101,该估计是通过关于多个预定义手势来分析描绘用户的移动的手的一个或多个图像,以将运行期序列和/或其部分标识为有效手势。可选地,与运行期手数据集相比较来确定匹配的手势并非预定义手势,而是一个或多个姿态特征记录和/或手运动特征记录的组合。电子设备101(例如,IC、SOC、ASIC和/或被集成在另一IC中的IP模块)可以执行手势检测的过程,并且可以向主机装置(诸如例如IC、ASIC和SOC、设备和/或系统)提供高级别的手势指示。电子设备101包括成像单元接口140,用于连接到一个或多个成像单元160,例如,照相机、立体照相机、IR照相机和/或深度照相机,其监测用户的移动的手,以接收描绘移动的手的一个或多个被计时的图像。电子设备101包括用于连接到一个或多个受控单元170(例如,设备、产品、系统和/或平台)的控制接口145。由于电子设备101可以以不同的形式实现,因而成像单元接口140和/或控制接口145可以利用一个或多个不同的基础设施和/或协议。在电子设备101是独立式电子设备的情况下,成像单元接口140和/或控制接口145可以是有线和/或无线接口,例如,USB、LAN、火线、WLAN、蓝牙、BLE、NFC、IR等。当电子设备101可以被实现为被集成在IC中的IP模块时,其中(多个)成像单元160和/或受控单元170是被集成在相同IC中的另一模块,成像单元接口140和/或控制接口145可以通过IC的内部互连与(多个)成像单元160和/或受控单元170互连。可选地,电子设备101可用作硬和/或软IP模块,其可以使用超大规模集成(VLSI)过程集成工具和/或硬件描述语言(HDL)(诸如例如Verilog和/或超高速集成电路(VHSIC)硬件描述语言(VHDL))被综合和/或被集成到例如IC、ASIC和/或SOC中。当电子设备101被用作装配在PCB上的电子设备时,其中受控单元170和/或(多个)成像单元160是相同PCB上的另一电子设备,电子设备101可以通过PCB迹线与(多个)成像单元160和/或受控单元170电子设备互连。可选地,电子设备101集成执行手势检测所要求的一个或多个单元(模块和/或部件),诸如例如处理器110、易失性存储器单元120、非易失性数据存储单元125和/或专用硬件单元(诸如例如向量处理单元115))。一个或多个向量处理单元115可以用处理从一个或多个成像单元160接收到的一个或多个图像来支持电子设备101。可选地,电子设备101将成像设备160中的一个或多个集成在其中。可选地,存储器单元120和/或数据存储单元125在电子设备101外部,并且通过成像单元接口140、控制接口145和/或在电子设备101中可用的一个或多个附加接口中的一个或多个可访问。数据存储单元125可以存储手势检测应用130和/或多个序列逻辑模型135,多个序列逻辑模型135各自表示多个手势中的一个手势。处理器110可以执行来自数据存储单元125和/或来自存储器单元120的程序代码145,以估计多个手势中的哪一个在描绘移动的手的(多个)被计时的图像中被标识。在检测与一个或多个动作、操作和/或命令相关联的一个或多个手势时,电子设备101可以通过控制接口145向受控单元170发起一个或多个相关联的动作。可选地,手势检测应用130和/或多个序列逻辑模型135从电子设备101外部获取(例如,从主机装置170接收)。可选地,手势检测应用130和/或多个序列逻辑模型135通过由处理器110和/或由主机装置170控制的更新会话而在数据存储单元125中被更新。可选地,电子设备101通过例如控制接口145连接到主机装置,以给主机装置提供对所检测的一个或多个手势的高级别指示,例如传送消息、发送描述和/或指示指针,以标识在用户150的手移动中所检测的一个或多个手势。
现在参考附图,图2是根据本公开的一些实施例的用于检测由(多个)图像所描绘的手势的示例性过程的流程图。可以由电子设备(诸如执行手势检测应用(诸如手势检测应用130)的电子设备101)执行的示例性手势检测过程200呈现用户(诸如在一个或多个图像中所描绘的用户150)的移动的手的移动的检测过程。如在110处所示,手势检测过程100开始于从成像单元(诸如成像单元160)接收一个或多个被计时的图像。(多个)被计时的图像可以具有时间戳记和/或以其他方式同步,以维持移动的手的(多个)移动的同步运行期序列。
在进一步描述在电子设备101上执行的手势检测过程200之前,理解被用于定义手势、手姿态和/或手运动的离散架构是重要的。定义手特征记录的离散手特征以及定义运行期手数据集的离散手特征分数全部指代如本文所呈现的相同的离散手值。离散手值可以是离散姿态值或者离散运动值。一个或多个手特征的连续值可以通过量化连续值由离散手值表示,以支持手势检测过程的离散架构。
现在参照图3,其是根据本公开的一些实施例的示例性手姿态离散表示的示意图。图示500将示例性手姿态350表示描绘为手姿态特征记录351,手姿态特征记录351包括一个或多个手姿态特征310、320、330和340。在手特征记录的广义项内引用的手姿态特征记录351可以利用离散姿态值311、321、331和/或341中的一个或多个来表示,离散姿态值311、321、331和/或341各自指示用于手姿态350的相关联的手姿态的相应的手姿态特征310、320、330和/或340的状态(值)。一个或多个手特征310、320、330和/或340的连续值可以通过量化连续值分别由离散姿态值311、321、331和/或341表示。由手姿态特征记录351定义的相应的手姿态特征310、320、330和340的一个或多个离散姿态值311、321、331和/或341的组合标识手姿态350的特定姿态,该特定姿态可以通过分析描绘用户(诸如用户150)的(多只)手的运动的一个或多个图像来检测。手姿态特征记录351可以被表示为例如特征向量、特征矩阵和/或特征表格。手姿态特征记录351可以包括以下示例性手姿态特征中的一个或多个手姿态特征的值:
■手掌姿态特征——一个或多个手掌姿态特征310包括例如手选择、手掌方向、手掌旋转和/或手位置。手选择可以标识哪个手活动并且可以包括离散姿态值311,诸如例如左、右、二者和/或任何。手掌方向可以定义活动的手的手掌面对的方向,并且可以包括离散姿态值311,诸如例如左、右、上、下、向前和/或向后。手掌旋转可以定义活动的手的手掌旋转,并且可以包括离散姿态值311,诸如例如左、右、上、下、向前和/或向后。手位置可以标识空间中的活动的手的空间位置并且可以包括离散姿态值311,诸如视场(FOV)的中心、FOV的左侧、FOV的右侧、FOV的顶部、FOV的底部、FOV的前面和/或FOV的后面。其中FOV是例如监测用户150的手的移动的成像设备的可见空间。可选地,手位置相对于存在于FOV中的固定对象来标识,例如,键盘和/或指点设备,使得手位置可以由离散姿态值311定义,诸如例如在键盘上方,在键盘后面,在键盘右边和/或在键盘左边。
■手指弯曲特征——根据每根手指定义的一个或多个手指弯曲特征320。例如,手指弯曲特征320可以是弯曲和/或屈曲状态,其可以包括离散姿态值321,诸如例如由0、1和2表示的伸展、折叠和/或打开。每个手指(拇指、食指、中指、无名指和/或小指)被分配一个或多个特定手指特征,例如{折叠的}状态中的{拇指、中指、无名指、小指}和{伸展的}状态中的{食指}。
■手指接触条件特征——根据每根手指定义的一个或多个接触特征330。接触特征可以定义任何两个或两个以上手指的触摸条件和/或触摸类型,并且可以包括离散姿态值331,诸如例如非触摸、指尖和/或全触摸。
■手指相对位置条件特征——根据每根手指定义的一个或多个手指相对位置特征340。手指相对位置条件特征340中的每个手指相对位置条件特征340可以定义一根手指相对于另一根的相对位置。手指相对位置特征340可以包括离散姿态值341,诸如例如一根或多根手指相对于另外的一根或多根手指被定位在左、右、上、下、向内、向外、前面和/或后面。
手姿态350中的每个手姿态350由手姿态特征记录301中的唯一一个手姿态特征记录301定义,手姿态特征记录301可以是各自指示对应的手姿态特征310、320、330和/或340的值的一个或多个离散姿态值311、321、331和/或314的组合/或序列。手姿态特征记录301可以仅包括离散姿态值311、321、331和/或341中的一些(并非全部),同时未包括的其他离散姿态值311、321、331和/或341保持为不受限制。例如,手姿态特征记录301可以定义手指的特定状态(例如,离散姿态值321、331和/或341),而手掌的方向保持未指定(例如,离散姿态值311)。在这种情况下,通过利用面向任何方向的手来标识由手姿态特征记录351定义的手指状态,手姿态350在运行期中被检测。由于离散姿态值311、321、331和/或341可以容易地被标识,因而一个或多个手姿态350的检测被简化,这是因为对于手姿态特征310、320、330和/或340中的每一个,存在有限、受限数目的可能状态,这避免对于手骨骼建模的需要,因此减少计算机视觉处理的量。手姿态特征310、320、330和/或340的离散表示可以不仅限于离散值。一个或多个手特征310、320、330和/或340的连续值可以通过量化连续值分别地由离散姿态值311、321、331和/或341表示。例如,手掌旋转手掌姿态特征可以用8个离散姿态值311A-311F来定义——0°、45°、90°、135°、180°、225°、270°和315°来量化0°-360°的完整旋转范围。
现在参照图4,其是根据本公开的一些实施例的示例性捏的手姿态离散表示的示意图。图示400通过捏的姿态特征记录351A来描绘示例性捏的手姿态350A表示,捏的姿态特征记录351A包括离散姿态值,诸如离散姿态值311、321、331和/或341,其各自指示对应的手姿态特征(诸如姿态特征310、320、330和/或340)的值。通过图像捕获401而可视化的捏的手姿态350A利用多个离散姿态值311、321、331和341中的一些被定义如下:
■手选择特征310A被分配离散姿态值311A,以指示左手是活动的。
■手掌方向特征310B被分配离散姿态值311B,以指示活动的手的手掌面向前。
■手指弯曲特征320A被分配离散姿态值321A和离散弯曲值321B,以指示拇指和食指是折叠的。
■手指弯曲特征320B被分配离散姿态值321C和离散姿态值321D,以指示中指、无名指和小指是打开的。
■手指接触条件特征330A被分配离散姿态值331A,以指示拇指和食指在其尖端处相触摸。
■手指相对位置特征340A被分配离散姿态值341A、离散姿态值341B和离散姿态值341C,以指示食指被定位为在拇指上方。
如上可见,捏的手姿态350A唯一地由捏的姿态特征记录351A定义,捏的姿态特征记录351A包括分别地对应于手姿态特征310A、310B、320A、320B、330A和340A的离散姿态值311A、311B、321A、321B、321C、321D、331A、331B、341A、341B和341C。类似地,可以定义附加的手姿态350。
现在参照图5,其是根据本公开的一些实施例的示例性手运动离散表示的示意图。图示500将多个示例性手运动550表示中的每一个描绘为手运动特征记录551。在手特征记录的广义项内引用的手运动特征记录551可以包括一个或多个手运动特征510和520。手运动特征510和520中的每一个可以被分配有一个或多个离散运动值511和/或521,其指示用于手运动550的相关联的手运动的相应的手运动特征510和/或520的状态(值)。一个或多个手运动特征510和/或520的连续值可以由通过量化连续值而引起的离散运动值511和/或521来表示。手运动特征记录551标识手和/或(多跟)手指的特定运动,其可以通过分析描绘用户(诸如用户150)的(多只)手的移动的一个或多个图像来检测。手运动特征记录551可以被表示为例如特征向量、特征矩阵和/或特征表格。手运动特征记录501可以包括以下手运动特征中的一个或多个:
■运动属性特征——一个或多个运动属性特征510可以包括例如运动大小、运动速度和/或运动位置。运动大小可以标识运动的大小(范围),并且可以包括离散运动值511,诸如例如小、正常和/或大。运动速度可以定义运动的速度,并且可以包括离散运动值511,诸如例如慢、正常、快和/或中断。运动位置可以标识在其中运动被执行的空间位置,并且可以包括离散运动值611,诸如例如FOV的中心、FOV的右侧、FOV的左侧、FOV的顶部、FOV的底部、FOV的前面和/或FOV的后面。可选地,手位置相对于存在于FOV中的固定对象来标识,例如,键盘和/或指点设备,使得手位置可以包括离散运动值611,诸如例如在键盘上方,在键盘后面,在键盘右边和/或在键盘左边。
■运动脚本特征——一个或多个运动脚本特征520可以定义执行的实际运动。运动脚本值520可以包括例如运动方向、运动开始点、运动结束点和/或预定义曲线形状。运动方向特征520可以包括离散运动值521,诸如例如向上、向下、从左向右、从右向左、对角_左_向上、对角_右_向上、对角_左_向下、对角_右_向下、顺时针_曲线_右_向上、顺时针_曲线_右_向下、顺时针_曲线_左_向上、顺时针_曲线_左_向下、逆时针_曲线_右_向上、逆时针_曲线_右_向下、逆时针_曲线_左_向上和/或逆时针_曲线_左_向下。可选地,运动曲线形状可以包括例如at标志(@)、无限标志(∞)、数字标志、字母标志等。可选地,附加的一个或多个曲线形状(例如,检查标志、账单请求等)可以由手运动特征记录551定义。运动脚本特征520中的每个运动脚本特征520被定义用于二维(2D)平面,然而,运动脚本特征520中的每个运动脚本特征520可以被变换以描绘另一2D平面(例如,X-Y、X-Z和/或Y-Z)。可选地,运动脚本特征520使用3D图像数据表示格式来定义三维(3D)运动和/或曲线。
手运动550的每个手运动550由手运动特征记录501中的唯一一个手运动特征记录501来定义,手运动特征记录501可以是各自指示对应的手运动特征510和/或520的值的一个或多个离散运动值511和/或521的组合/或序列。使用离散运动值521和/或521允许手运动550的简单检测,因为存在待分析和估计的有限数目的离散运动值511和/或521,这避免对于全手骨骼建模的需要,因此减少计算机视觉处理的量。例如,被包括在手运动属性特征510中的运动速度特征可以包括多达四个离散运动值511——慢、正常、快和中断。类似地,可以定义附加的手运动550。手运动特征510和/或520的离散表示可以不仅限于离散值,一个或多个手运动特征510和/或520的连续值可以通过量化连续值分别地由离散运动值511和/或521表示。例如,运动速度属性特征511可以用6个离散运动值511来定义,诸如例如5m/s(米/秒)、10m/s、15m/s、20m/s、25m/s和30m/s,以量化0m/s-30m/s的正常人手的运动速度范围。
现在参考图6,其是根据本公开的一些实施例的示例性半圆手运动离散表示的示意图。图示600通过从左到右的上半圆的手运动特征记录551A描绘示例性从左到右的上半圆的手运动550A构建,手运动特征记录551A包括离散运动值(诸如离散运动值511和/或521),其各自指示对应的手运动特征(诸如手运动特征510和/或520)的值。通过图像捕获601A、601B和601C而可视化的从左到右的上半圆的手运动550A利用多个离散运动值551和521中的一些被创建如下:
■运动大小特征510A被分配离散运动值511A,以指示运动大小是正常的。
■运动速度特征510B被分配离散运动值511B,以指示运动速度是正常的。
■运动位置特征510C被分配离散运动值511C,以指示在键盘上方执行运动。
■第一运动脚本特征520A被分配离散运动值521A,以指示由图像捕获601B呈现的顺时针_曲线_左_向上的运动形状。
■第二运动脚本特征520B被分配离散运动值521B,以指示由图像捕获601C呈现的顺时针_曲线_左_向下的运动形状。
如上所示,从左到右的上半圆的运动550A由从左到右的上半圆的运动特征记录551A唯一地定义,运动特征记录551A包括分别对应于运动特征510A、510B、510C、520A和520B的离散运动值511A、511B、511C、521A和521B。类似地,可以定义附加的手和/或(多根)手指运动550。
运动位置特征510C可以适于电子设备101的环境和/或目的,例如,膝上型添加电子设备、汽车控制单元、家用电器控制等。示例性从左到右的上半圆的手运动550A可以与例如计算机辅助电子设备有关,诸如电子设备101,其中从左到右的上半圆的手运动550A由用户150在键盘上方执行。对于其他目的和/或环境而言,可以使用不同的一个或多个位置参考对象,例如,在电子设备101被使用和/或被集成在汽车中的情况下,一个或多个位置参考对象可以是例如方向盘、变速杆和/或仪表盘。
现在参照图7,其是根据本公开的一些实施例的示例性手势的构建框的框图。图示600描绘了示例性手势750的若干构造方案。手势750可以通过一个或多个可能的构造创建,例如:
(a)手势750可以由手姿态350组成。
(b)手势750可以是两个手姿态350的组合/或序列。
(c)手势750可以是手姿态350和手运动550的组合/或序列。
(d)(第一)手势750可以是第二手势750和手姿态350的组合/或序列。第二手势可以是与第一手势相同的手势或者其可以是不同的手势750。
(e)(第一)手势750可以是第二手势750和手运动550的组合/或序列。第二手势750可以是与第一手势相同的手势或者其可以是不同的手势750。
手势750可以通过以上构造(d)和/或(e)的多次迭代来创建。每个手势750被构建为由包括手姿态350、手运动550和/或手势750中的一个或多个的手势序列201所表示的唯一组合/或序列。手势750中的每个手势750以空闲状态710开始和结束,空闲状态710可以是标识手势750的唯一手势序列751的开始和/或结束的虚拟状态。手势序列751可以被认为是描述手特征750的序列逻辑模型。
现在参照图8,其是根据本公开的一些实施例的示例性弹弓手势的构建框的框图。图示800将示例性弹弓手势750A离散表示描绘为多个手姿态(诸如手姿态350)和手运动(诸如手运动550)。通过图像捕获701A、701B、701C和701D可视化的弹弓手势750A由以下各项的组合/或序列构建:空闲状态(诸如虚拟空闲状态710)、无捏的手姿态350B、捏的手姿态(诸如捏的手姿态350A)、缩回手运动550B和结束空闲状态(诸如虚拟空闲状态710)。弹弓手势750A的序列如下:
■虚拟空闲状态710定义弹弓手势750A的序列的开始状态和/或点。■由手姿态特征记录351B定义的无捏的手姿态350B表示如在图像捕获701A中所描绘的无捏的动作。
■由手姿态特征记录351A定义的捏的手姿态350A,其中捏的动作被标识,如在图像捕获701B中所描绘的。
■由手运动特征记录551B定义的缩回手运动550B,其中手向后移动,如在图像捕获701C中所描绘的。
■由手姿态特征记录351B定义的无捏的手姿态350B表示捏的姿态被释放并且被标识为无捏的动作,如在图像捕获701D中所描绘的。
■空闲状态710定义弹弓手势750A的序列的结束状态和/或点。
如上文所描述的弹弓手势750A的序列通过唯一的弹弓手势序列751A来表示,弹弓手势序列751A可以被认为是与弹弓手势750A相关联的序列逻辑模型。对于手姿态350A、350B和手运动550B中的每一个而言,仅相关离散姿态和/或运动值可以被定义。例如,无捏的手姿态特征记录351B由手选择性的离散姿态值311(左)、手指弯曲离散姿态值321(伸展的)来定义,并且手指接触离散姿态值331(未触摸)被定义用于无捏的姿态350B。与对于无捏的手姿态350B与捏的手姿态350A之间的区分不相关的其他离散姿态值保持为不受限制,并且未被指定。仅指定相关的离散姿态和/或运动的值允许如在运行期处由一个或多个用户150所执行的手姿态350和/或手运动550的关节中的若干自由度。这意味着一个或多个用户150中的每个用户150可以在运行期处稍微不同地执行手姿态350和/或手运动550,并且然而它们仍然同样被检测。
现在参照图9,其是根据本公开的一些实施例的将手势序列逻辑模型表示为手运动和手姿态的序列的示例性FSM的示意图。图示800描绘FSM 901,其可以表示手势序列(诸如手势序列751)的序列逻辑模型。FSM 901从指示针对FSM 901的开始状态的开始点910开始。FSM 901可以包括一个或多个状态902A、902B、902C到902N。第一状态902A是手姿态(诸如手姿态350),其可以描述表示手势(诸如手势750)的序列的开始。候选状态902B、902C到902N中的每一个可以是手姿态350或者手运动(诸如手运动550)。FSM 901以FSM结束点920结束。开始点910和/或结束点920可以被定义为虚拟空闲状态(诸如空闲状态710)。在手势750的检测过程期间,FSM 901可以被转换为HMM,以便允许处理被包括在描绘用户150的移动的手的运行期序列中的一个或多个运行期手数据集,与手姿态350和/或手运动550中的每一个相比较。手姿态350和/或手运动550中的每一个由相应的手姿态特征记录和手运动特征记录表示。使用FSM 901表示各自与手势910中的一个手势910对应的多个手势序列901中的每个手势序列901允许显著地简化运行期序列的估计,以在运行期中通过使用在从FSM901转换的HMM上应用例如维特比解码的动态编程来将运行期序列检测为预定义手势中的一个预定义手势。
电子设备101可以访问数据存储单元(诸如数据存储单元125)以检索多个预定义手势(诸如手势750),其各自被表示为可以由FSM(诸如FSM 901)表示的序列逻辑模型(诸如手势序列751)。手势序列751中的每一个可以映射一个或多个手姿态(诸如手姿态350)和/或手运动(诸如手运动550),其各自由多个手特征记录中的唯一的手特征记录表示。手特征记录中的每一个可以是手姿态特征记录(诸如手姿态特征向量351中的一个)或者手运动特征记录(诸如手运动特征向量551中的一个)。如之前所描述的,手姿态特征向量351和手运动特征向量551中的每一个分别地与手姿态350和手运动550相关联。手特征记录中的每一个由多个离散手值中的一个或多个定义,多个离散手值各自指示相应的手特征(可以是姿态特征或者运动特征)的状态。类似地,离散手值可以是离散姿态值(诸如离散姿态值311、321、331和/或341)和/或离散运动值(诸如离散运动值511和/或521)。如之前所描述的,离散姿态值311、321、331和/或341中的每一个指示对应的手姿态特征310、320、330和/或340的状态,而离散运动值511和/或521中的每一个指示对应的手运动特征510和/或520的状态。
再次参照图2。如在220处所示,手势检测过程200的第一步是处理一个或多个接收到的被计时的图像,以生成描绘用户150的移动的手的移动的运行期序列。运行期序列包括各自由多个离散手值分数中的一个或多个定义的一个或多个运行期手数据集,多个离散手值分数指示在一个或多个被计时的图像中所描绘的移动的手的相应的手特征的状态。生成一个或多个运行期手数据集的过程包括若干步骤,在此期间,一个或多个被计时的图像的各方面被处理,以将移动的手的移动分类为手姿态350和/或手运动550。分类过程的目标是根据(多个)被计时的图像推断多个离散手值分数。第一步可以是估计移动的手的质心,以便将手放置在由一个或多个被计时的图像所呈现的3D空间内。质心通过处理在来自一个或多个成像设备160的(多个)被计时的图像中可用的图像数据来估计,并且以3轴格式(x,y,z)表示。在(多个)被计时的图像中可用的图像数据可以包括例如深度数据和/或IR数据。根据所估计的质心,(多个)相关图像分段可以被选择用于处理,并且避免处理非相关的图像部分。基于在(多个)被计时的图像内可用的图像数据,(多个)图像分段还可以被操纵以移除与所描绘的手不相关的元素,诸如例如背景静态元素(其可以通过后续图像的比较来标识)和/或距所描绘的手的某个绝对和/或相对距离的像素,其中距离可以根据阈值设定。由于可以避免处理不必要的图像内容,因而从(多个)图像移除非相关数据和/或减少图像大小以仅包括描绘移动的手的相关部分可以稍后改进分类过程。通过改进分类过程,计算负载和/或处理资源可以被减少。在对手的质心的估计之后,图像分段(还可以被称为分块)被定位,以便被定位在适于执行分类过程的后续步骤的统计分类分析的预定义位置中,因为接收到的(多个)被计时的图像应当与训练数据兼容(相对于定位和/或位置),训练数据被用于训练在分类过程的后续步骤中使用的分类函数(分类器)。可选地,(多个)相关图像分段被缩放,以便在距成像设备160预定义距离处。再次,这可以被要求,以便将(多个)图像分段放置适于执行分类过程的后续步骤的统计分类分析的预定义位置中,因为所捕获的(多个)被计时的图像应当与训练数据兼容(相对于定位和/或位置),训练数据被用于训练在分类过程的后续步骤中使用的分类函数。
在对移动的手的质心进行标识后,在(多个)相关图像分段上执行微调分析以估计移动的手的手的中心。手的中心再次以由(多个)被计时的图像中所描绘的3D空间中的3轴格式(X,Y,Z)定义。手的中心的估计可以通过一个或多个统计分类分析(例如,回归分析、SSVM函数、DFE和/或“长树”)来执行。在使用DFE和/或“长树”分类器估计手的中心期间,一个或多个经训练的手中心分类函数的集合被应用到(多个)相关图像分段。可选地,手位置可以使用除了质心和/或手的中心之外的技术来估计。这样的技术可以包括例如手3D体积建模、手3D骨骼建模、手形状估计、手轮廓估计和/或手剪影估计。可选地,被用于通过分类过程后续步骤的分析的手位置根据除手的中心之外的解剖参考点(例如,腕关节和/或拇指-手掌连接关节)来估计。
在标识移动的手的手的中心之后,针对由(多个)相关图像分段所描绘的手,GOC被标识和估计。GOC表示在3D空间内的(多个)图像分段中所描绘的手的旋转状态。由于3D旋转可能未完全地相对于2D空间分析中的成像设备160的2D平面补偿和/或考虑,因而实际的3D旋转必须首先被标识,以便选择适于所选择的GOC的适当的分类函数集。3D旋转可以使用例如相对于预定义手方向的Euler角和/或Tait-Bryan角定义。例如,正面面向成像设备160的手可以被定义为具有角(0,0,0)的参考图像,而定义的其他手方向使用例如Tait-Bryan角定义被定义为相对于参考图像的三个旋转角。可选地,3D旋转角可以不精确地估计,然而,该估计足以表示具有离散类别的手定向角。这意味着对于不同的GOC而言,可以选择不同的分类函数集。标识并且选择GOC可以通过一个或多个统计分类器(例如,DFE和/或“长树”)来执行。使用DFE和/或“长树”分类器来标识并且选择手的GOC通过使用应用到(多个)相关图像分段的一个或多个经训练的GOC分类函数的集合来完成。在GOC被选择之后,平面内旋转被标识并且被选择。平面内旋转通过使用适于所估计的特定GOC的多个平面内分类函数(分类器)的集合来标识和估计。平面内分类函数(例如,DFE和/或“长树”分类器)被应用到(多个)相关图像分段以标识由特定GOC所标识的平面内的旋转。平面内旋转可以是连续值,然而,其被量化以通过待由平面内分类函数使用的离散值表示。(多个)相关图像分段在先前的步骤中所标识的2D平面中对齐,使得手被放置在已知状态中,这可以允许稍后在分类过程期间对多个手特征的更简单和/或更确定的分类。分类过程中的第一步是标识(多个)图像分段中所描绘的移动的手的一个或多个姿态和/或运动中的每一个的多个离散手值分数。对齐的(多个)图像分段通过在其上应用多个特征分类函数(分类器)(例如,DFE和/或“长树”分类器)中的一个或多个来处理。多个特征分类函数中的每一个与手特征(例如,手位置、手掌方向、手掌旋转、手指弯曲、手指方向、手指接触、手指相对位置、运动属性和/或运动脚本)相关联。多个手特征中的每一个利用指示移动的手的对应的手特征的状态的离散手值分数来估计。在Eyal Krupka等人的公开“Discriminative Ferns Ensemble forHand Pose Recognition”中描述了使用用于手姿态识别的DFE架构的更详细的描述,其通过引用并入本文。可选地,被用于例如GOC选择、平面内旋转标识、手对齐设置和/或多个手特征(姿态和运动)的分类的分类函数采用经训练的DTE(在本文中还被称为“长树”)。在题为“Structure and Training for Image Classification”(Attorney Docket No.63962)的美国申请专利申请中描述了创建、训练/或使用用于手姿态和/或运动识别的“长树”架构的更详细的描述,其公开内容通过引用并入本文。该步骤的结果是提供由包括一个或多个运行期手数据集的移动的手所执行的运动的运行期序列。运行期手数据集中的每个运行期手数据集由各自指示用户150的移动的手的相应的手特征的当前状态的多个离散手值分数定义。可选地,在专用硬件单元(诸如向量处理单元115)中处理分类函数中的一个或多个。
如在230处所示,检测由移动的手所执行的手势的第二步包括估计和/或选择预定义手势(诸如手势750)中的最佳预定义手势,其最好地匹配描绘移动的手的运动的运行期序列。可选地,被用于估计运行期序列的手势未被预定义,而是一个或多个手特征记录(诸如手姿态特征记录351和/或手运动特征记录551)的组合。被包括在描绘用户150的移动的手的接收到的运行期序列中的一个或多个运行期手数据集,连同多个预定义手特征记录(手姿态特征记录351和/或手运动特征记录551),被提交到一个或多个SSVM函数。一个或多个SSVM函数生成多个估计项,其稍后将被用于估计运行期序列,作为多个手势750中的一个手势。
惯例和注释:
1)xt∈Rd;x1:t=(x1,.....,xt)
xt是针对时间t处的特定运行期手数据集定义的离散手值分数集,其中分数d中的每一个对应于特定手特征,例如,食指向前指,中指触摸拇指,无名指折叠等。为了简洁起见,注释x1:t被用于描述(x1,.....,xt)。
2)yt∈Yt;y1:t=(y1,.....,yt)
yt被定义为与作为在时间t处有效的预定义手特征集Yt的一部分的特定手势相关联的预定义手特征记录(手姿态特征记录351和/或手运动特征记录551)的集合。为了简洁起见,注释y1:t被用于描述(y1,.....,yt)。
估计项包括单个项和成对项。单个项涉及估计以下项,其中运行期手数据集中的每个手数据集通过有效的预定义手特征记录(其各自定义被包括在有效的手特征750中的手姿态350和/或手运动550中的一个)的多个离散手值模拟。下面在式1中表达单个项的计算。
式1∶
其中S(x1:T,yt)是单个项集,Fs(x1:t,yt)是单个特征集,并且ws是被分配给单个特征中的每一个的权重集。单个项集以及权重集ws可以使用一个或多个SSVM函数通过训练会话来创建,以选择为相关联的预定义手特征记录集提供最好的准确度的单个项和权重。
成对估计项涉及估计以下项,其中运行期手数据集中的每个手数据集由有效的预定义手特征记录(其各自定义被包括在有效手势750中的手姿态350和/或手运动550中的一个)的当前预定义手特征记录和前驱预定义手特征记录的多个离散手值来模拟。下面在式2中表达成对项的计算。
式2∶
其中P(x1:T,yt-1,yt)是成对项集,Fp(x1:t,yt-1,yt)是成对特征集,并且wp是被分配给成对特征中的每一个的权重集。成对项集以及权重集wp可以使用一个或多个SSVM函数通过训练会话来创建,以选择为相关联的预定义手特征记录集提供最好的准确度的成对项和权重。
单个特征集和成对特征集通过离散手值的模拟来创建,离散手值通过运行期手数据集的离散手值分数来定义有效手势750的手特征记录。离散手值可以以布尔形式表达,例如,“食指向上指OR食指向右指AND(无名指触摸拇指)”。跟随该过程,整个手特征记录由布尔表达式表示。布尔表达式可以允许高效和/或简单的模拟。布尔表示可以采取许多形式,然而,呈现最好结果的一个可以是例如CNF。CNF是一种布尔表示,其中每个布尔表达式可以被表达为两个或两个以上OR运算符上的AND运算符,例如,“(手掌面向前OR手掌面向上OR手掌面向左)AND(食指触摸拇指OR中指触摸拇指)”。通过运行期手数据集的离散手值分数来模拟定义手特征记录的离散手值通过以下被执行:使用多个参数函数中的一个或多个,其中一个或多个参数被用于实现最佳模拟结果。下面在式3中给定单个特征的生成。
式3∶
其中∝(xt,yt;ρ)是参数函数集。提供呈现最好结果的单个特征的参数函数选自参数函数集。在运行期执行参数函数集,因为为手势检测过程200提供最佳准确度结果的参数ρ可能先前未知。用于单个特征中的每一个的参数函数的执行可以使用一个或多个SSVM函数执行。
类似地,下面在式4中给定成对特征的生成。
式4∶
其中β(xt,yt;σ)是参数函数集。提供呈现最好结果的成对特征的参数函数选自参数函数集。在运行期执行参数函数集,因为为手势检测过程200提供最佳准确度结果的参数ρ可能先前未知。用于成对特征中的每一个的参数函数的执行可以使用一个或多个SSVM函数执行。
继续手势检测过程200:通过一个或多个分数函数执行优化过程,一个或多个分数函数使用所生成的估计项(单个项和/或成对项)来选择最好地拟合一个或多个运行期手数据集的运行期序列的预定义手势750。通过将分数函数应用到FSM(诸如FSM 901)内的一个或多个序列,分数函数被优化,其中一个或多个序列中的每一个对应于手势750中的一个。下面在式5中表达分数函数。
式5:
其中项maxy1:T H(x1:T,y1:T)表示在时间t处最佳地匹配描绘用户150的移动的手的运行期序列的手势750。优化可以通过动态编程完成,动态编程在FSM 901内的一个或多个序列上利用分数函数中的一个或多个增强FSM 901之后,在FSM(诸如多个有效手势750中的一个或多个中的每一个的FSM 901)上采用例如维特比解码。可选地,在时间t处的有效手势750的集合包括一个或多个手势750,其未被预定义,而是包括一个或多个手姿态(诸如手姿态350)和/或手运动(诸如手运动260),其可以使用离散手值表示。
可选地,通过在时间t处选择有效的预定义手势750的集合,使其仅包括手势750中的一个或多个注册手势,一个或多个SSVM函数被专门化。一个或多个注册手势750可以相对于用户150的运行期环境的上下文被认为是有效的。上下文可以描述在时间t处的一个或多个运行期执行参数和/或条件,诸如例如有效应用、用户交互状态和/或在时间t处可用于用户150的手势750的限制。使一个或多个SSVM函数专门化还可以加速优化过程,以允许实现更迅速的手势检测过程200。可选地,在专用硬件单元(诸如向量处理单元115)中处理SSVM函数中的一个或多个。
如在240处所示,跟随过程200的步骤230,在(多个)被计时的图像中所描绘的、由用户150所执行的一个或多个手势被估计时,一个或多个动作、操作和/或命令可以向受控单元(诸如受控单元170)发起。一个或多个动作、操作和/或命令与在步骤230处所标识的检测到的一个或多个手势750相关联。可选地,高级别指示可以被提供到主机装置,这指示在步骤230中估计的检测到的一个或多个手势750。
可选地,过程200包括利用一个或多个手势750的FSM 901来检测一个或多个转变。所检测的(多个)转变可以被用于多个目的中的一个或多个,例如,记录用户150的部分手势;基于部分手势向用户150提供反馈;在检测到用户150的部分手势之后,发起一个或多个动作、操作和/或命令等。
本公开的一些实施例通过参考附图的示例来提供。然而,本发明可以以许多不同的形式实现,并且不应当被解释为限于在本文中所呈现的任何特定结构或功能。
第一示例可以是智能家居应用,其中多个智能家居元件(例如,电器和/或系统)中的一个或多个由手势检测电子设备(诸如电子设备101)控制。一个或多个电子设备101可以被安装在被装备有一个或多个智能控制基础设施(智能家居)(例如,照明系统、遮光物和/或空调(AC)系统)的位置中。(多个)电子设备101可以被连接到一个或多个成像单元(诸如成像单元160)和(多个)智能家居基础设施,其将作为受控单元(诸如受控单元170)来执行。(多个)电子设备101可以执行手势检测过程(诸如手势检测过程200),以通过分析从监测用户(诸如用户150)的手移动的成像单元160接收到的一个或多个被计时的图像,来检测一个或多个预定义手势(诸如手势750)。一个或多个动作、命令和/或操作可以与手势中的一个或多个相关联。在检测预定义手势750中的一个或多个时,(多个)电子设备101可以向受控单元170发起相关联的一个或多个命令,以控制智能家居元件中的一个或多个的操作。预定义手势750中的一个或多个可以被分配到:例如,开/关(多个)灯、调节(多个)灯的照明水平(调光器)、打开/关闭AC系统和/或设置AC系统的温度水平。另一示例性应用可以是调节用于电器(诸如例如电视机(TV)、多媒体系统、无线电接收器和/或立体系统)的音频输出音量。可选地,电子设备被连接到智能家居的控制单元,并且将对所检测的手势750的高级别指示传送到控制单元。控制单元进而可以发起与所指示的一个或多个手势750相关联的命令、动作和/或操作,以控制智能家居元件中的一个或多个。
第二示例可以是智能汽车应用,其中多个智能汽车元件(例如,电器和/或系统)中的一个或多个由手势检测电子设备(诸如电子设备101)控制。一个或多个电子设备101可以被安装在被装备有一个或多个智能控制基础设施(智能汽车)(例如,照明系统、多媒体系统和/或空调(AC)系统)的汽车中。(多个)电子设备101可以被连接到一个或多个成像单元(诸如成像单元160)和(多个)智能汽车基础设施,其将作为受控单元(诸如受控单元170)来执行。(多个)电子设备101可以执行手势检测过程(诸如手势检测过程200),以通过分析从监测用户(诸如用户150)的手移动的成像单元160接收到的一个或多个被计时的图像,来检测一个或多个预定义手势(诸如手势750)。一个或多个动作、命令和/或操作可以与手势中的一个或多个相关联。在检测预定义手势750中的一个或多个时,(多个)电子设备101可以向受控单元170发起相关联的一个或多个命令,以控制智能汽车元件中的一个或多个的操作。预定义手势750中的一个或多个可以被分配到:例如,开/关(多个)灯、调节(多个)灯的照明水平(调光器)、打开/关闭AC系统和/或设置AC系统的温度水平和/或调节用于多媒体系统和/或无线电接收器的音频输出音量。可选地,电子设备被连接到智能汽车的控制单元,并且将对所检测的手势750的高级别指示传送到控制单元。控制单元进而可以发起与所指示的一个或多个手势750相关联的命令、动作和/或操作,以控制智能汽车元件中的一个或多个。
第三示例可以是智能微波炉,其与手势检测电子设备(诸如手势检测电子设备101)集成。手势检测电子设备101可以适于标识一个或多个预定义手势(诸如手势750),其与一个或多个动作、命令和/或操作相关联以操作微波炉。
现在参照图10,其是根据本公开的一些实施例的集成示例性手势检测电子设备的示例性微波炉的示意图。图示1000呈现示例性微波炉1010,其集成手势检测电子设备(诸如电子设备101)、微波室170A和显示器1030,例如,液晶显示器(LCD)和/或一个或多个七段阵列。微波室170A是受控单元(诸如受控单元170)。电子设备101可以连接到一个或多个成像单元(诸如成像单元160)以监测用户(诸如用户150)的手移动。电子设备101可以执行手势检测过程(诸如手势检测过程200),以检测一个或多个预定义手势(诸如手势750),其与一个或多个动作、命令和/或操作相关联,以控制微波炉1010的操作。控制微波炉1010的一个或多个预定义手势750可以包括:例如,如由示例性手势750E所图示的开始烹饪命令、如由示例性手势750F所图示的烹饪时间调节命令和/或如由示例性手势750G所图示的烹饪停止命令。电子设备101可以在显示器1030上呈现与所检测的一个或多个手势750相关联的当前操作和/或命令,以允许与用户150交互。在检测到手势750E时,电子设备101可以接通微波室170A。在检测到手势750F时,电子设备101可以发起用户150执行的烹饪时间交互。手势750F可以是例如旋钮转向手势,其中顺时针转向假想旋钮将增加烹饪时间段,而逆时针转向假想旋钮将减小烹饪时间段。由用户150所选择的烹饪时间间隔可以被呈现在显示器1030上。在与用户150的交互结束时,电子设备101可以保存所选择的烹饪时间段。可选地,FSM(诸如表示手势750E、750F和/或750G的FSM 901)内的转变被检测为部分手势,以发起微波炉1010内的动作、操作和/或命令。例如,在微波炉1010的电子设备101检测到用户150明确表达旋转转向手势750F时,刻度旋钮的图示可以被显示在显示器1030上,以向用户150可视化旋转转向操作和/或烹饪时间值。所显示的说明性旋钮还可以在从用户150的手移动检测的方向上转向。在烹饪开始并且微波室170A被接通之后,电子设备101可以等待所选择的烹饪时间段并且在所选择的烹饪时间段结束时,电子设备101将微波室170A关断。在检测到手势750G时,电子设备101可以关断微波室1020。可选地,成像单元160中的一个或多个可以被集成在微波炉1010中。可选地,微波炉1010包括控制单元1020,其控制微波室170A和/或显示器1030的操作。电子设备101可以向控制单元1020传送高级别指示,例如,指示由电子设备101在一个或多个被计时的图像中检测到的手势750中的一个或多个手势750的消息。控制单元1020可以根据从电子设备101接收到的手势750指示来控制微波室170A和/或显示器1030。
预计在本申请成熟的专利的生命期间,许多相关DFE、DTE、HMI和/或NUI将被开发,并且术语DFE、DTE、HMI和/或NUI的范围旨在先验包括所有这样的新技术。
术语“包括”、“具有”和其词形变化意味着“包括但不限于”。
术语“由……组成”意味着“包括并且限于”。
术语“基本上由……组成”意味着组成、方法或者结构可以包括附加成分、步骤和/或部分,但是只要附加成分、步骤和/或部分未实质地更改要求保护的组成、方法或者结构的基本和新颖特性。
如本文所使用的,除非上下文另外清楚地指明,否则单数形式“一”、“一个”和“该”包括复数参考。例如,术语“手势”或者“至少手势”可以包括单个手势和/或两个手势。
如本文所使用的,术语“方法”指代用于完成给定任务的方式、手段、技术和程序,包括但不限于:对于化学、药物学、生物学、生物化学和医学领域的从业者而言,已知的方式、手段、技术和程序,或者易于从已知的方式、手段、技术和程序来开发的方式、手段、技术和程序。
根据本公开的一些实施例,提供了一种用于检测手势的手势检测电子设备,包括IC,其电子地集成以下各项:第一接口,连接到一个或多个成像设备;第二接口,连接到受控单元;数据存储装置;存储器,存储代码;以及一个或多个处理器,耦合到第一接口、第二接口、数据存储装置和存储器用于执行所存储的代码。数据存储装置存储各自表示多个手势中的一个手势的多个序列逻辑模型。序列逻辑模型映射一个或多个预定义手姿态和预定义手运动的预定义序列。该代码包括:
a)用于接收描绘用户的移动的手的多个被计时的图像中的一个或多个被计时的图像的代码指令。
b)用于生成映射多个运行期手数据集中的一个或多个运行期手数据集的运行期序列的代码指令,多个运行期手数据集各自由指示移动的手的当前状态的多个离散手值定义。
c)用于通过使用一个或多个SSVM函数、与多个序列逻辑模型中的每个序列逻辑模型相比较而实现的对运行期序列的优化,估计多个手势中的哪一个最好地匹配运行期序列的代码指令。
d)用于向受控单元发起一个或多个动作的代码指令。一个或多个动作与多个手势中的所选择的一个或多个手势相关联。该选择基于该估计。
多个预定义手姿态和手运动中的每一个由多个预定义手特征记录中的一个预定义手特征记录表示,多个预定义手特征记录各自由多个离散手值中的至少一些离散手值定义,多个离散手值各自指示参考手的多个手特征中的相应的手特征的状态。
多个运行期手数据集中的每个运行期手数据集由多个离散手值分数中的至少一些离散手值分数定义,多个离散手值分数各自指示移动的手的多个手特征中的相应的手特征的当前状态。多个离散手值分数通过分析一个或多个被计时的图像由代码指令推断。
多个离散手值中的每个离散手值由以CNF的形式被定义的布尔公式表示。
手势检测电子设备是:例如,IC、专用集成电路(ASIC)、片上系统(SOC)和/或知识产权(IP)模块。IP模块被集成在另一IC中。
一个或多个成像设备是:例如照相机、红外线(IR)照相机、立体照相机和/或深度照相机。
可选地,第一接口利用一个或多个互连介质,例如,IC内部互连、印刷电路板(PCB)迹线、有线连接和/或无线连接。
可选地,第二接口利用一个或多个互连介质,例如,IC内部互连、印刷电路板(PCB)迹线、有线连接和/或无线连接。
可选地,一个或多个成像设备被集成在手势检测电子设备中。
可选地,数据存储装置和/或存储器中的一个或多个由一个或多个外部设备利用,并且未被集成在手势检测电子设备中。
可选地,一个或多个SSVM函数由被集成在手势检测电子设备中的专用电路执行。
可选地,代码包括用于通过第一接口和/或第二接口中的一个或多个,向被连接到手势检测电子设备的主机装置传送所选择的一个或多个手势的指示的代码指令。
可选地,代码包括用于操纵一个或多个被计时的图像,以移除一个或多个非相关的图像部分的代码指令。
可选地,代码包括缩放在一个或多个被计时的图像中所描绘的移动的手的代码指令。
代码指令在一个或多个被计时的图像上应用多个手特征分类函数。多个手特征分类函数中的每个手特征分类函数输出所述移动的手的多个手特征中的相应的手特征的当前离散手值分数。多个手特征分类函数是经训练的统计分类器。
可选地,代码包括标识移动的手的平面内旋转的代码指令。平面内旋转通过在一个或多个被计时的图像上应用多个平面内旋转分类函数来标识。多个平面内旋转分类函数根据移动的手的所选择的GOC来选择。
多个平面内旋转分类函数是经训练的统计分类器。
GOC通过在一个或多个被计时的图像上应用多个GOC分类函数来选择。多个GOC分类函数是经训练的统计分类器。
可选地,代码包括在标识平面内旋转之后将在一个或多个被计时的图像中所描绘的移动的手对齐的代码指令。
可选地,代码包括在选择GOC之前标识移动的手的手的中心的代码指令。手的中心从移动的手的质心导出。质心通过分析从描绘移动的手的一个或多个图像可用的图像数据而被标识。
手的中心通过在一个或多个被计时的图像上应用多个手的中心分类函数来标识。多个手的中心分类函数是经训练的统计分类器。
可选地,序列逻辑模型被表示为FSM。FSM中的每个状态与多个预定义手特征记录中的相应的预定义手特征记录对应。
可选地,代码包括在优化之前利用FSM中的一个或多个序列上的一个多个分数函数来增强FSM的代码指令。
可选地,FSM内的一个或多个转变被检测。一个或多个转变由手势检测电子设备记录。
可选地,一个或多个转变的检测向受控单元发起一个或多个动作。一个或多个动作与一个或多个转变相关联。
可选地,一个或多个SSVM函数通过从多个手势选择一个或多个上下文注册的手势的序列逻辑模型而被专门化。
可选地,多个运行期手数据集中的每个运行期手数据集被估计为未被预定义的多个手姿态和/或手运动中的一个。
为了清晰起见,本文所描述的示例的某些特征在分离的实施例的上下文中被描述,这些特征还可以被组合而提供在单个实施例中。相反地,为了清晰起见,在单个实施例的上下文中描述的本文所描述的示例的各种特征还可以分离地被提供,或以任何适合的子组合被提供,或者被提供在适于本公开的任何其他所描述的实施例中。除非实施例在没有那些元件的情况下不工作,否则在各种实施例的上下文中所描述的某些特征将不被认为是那些实施例的必要特征。

Claims (15)

1.一种用于检测手势的手势检测装置,包括:
集成电路(IC),电子地集成以下各项:
第一接口,连接到至少一个成像设备;
第二接口,连接到受控单元;
数据存储装置,存储多个序列逻辑模型,所述多个序列逻辑模型各自表示多个手势中的一个手势,所述序列逻辑模型映射多个预定义手姿态和预定义手运动中的至少一个的预定义序列;
存储器,存储代码;
至少一个处理器,耦合到所述第一接口、所述第二接口、所述数据存储装置和所述存储器,用于执行所存储的所述代码,所述代码包括:
用于接收多个被计时的图像中的至少一个被计时的图像的代码指令,所述多个被计时的图像描绘用户的移动的手;
用于生成映射多个运行期手数据集中的至少一个运行期手数据集的运行期序列的代码指令,所述多个运行期手数据集表示所述移动的手;
用于通过使用至少一个结构化支持向量机(SSVM)函数、与所述多个序列逻辑模型中的每个序列逻辑模型相比较而实现的对所述运行期序列的优化,来估计所述多个手势中的哪个手势最好地匹配所述运行期序列的代码指令;以及
用于向所述受控单元发起至少一个动作的代码指令,所述至少一个动作与所述多个手势中的所选择的至少一个手势相关联,所述选择基于所述估计。
2.根据权利要求1所述的手势检测装置,其中所述手势检测装置是选自由以下各项组成的组的构件:IC、专用集成电路(ASIC)、片上系统(SOC)和知识产权(IP)模块,所述IP模块被集成在另一IC中。
3.根据权利要求1所述的手势检测装置,其中所述至少一个成像设备是选自由以下各项组成的组的构件:照相机、红外线(IR)照相机、立体照相机和深度照相机。
4.根据权利要求1所述的手势检测装置,还包括所述第一接口和/或所述第二接口利用至少一个互连介质,所述至少一个互连介质是选自由以下各项组成的组的构件:IC内部互连、印刷电路板(PCB)迹线、有线连接和无线连接。
5.根据权利要求1所述的手势检测装置,还包括所述至少一个成像设备被集成在所述手势检测装置中。
6.根据权利要求1所述的手势检测装置,还包括以下各项中的至少一项:所述数据存储装置和所述存储器由设备利用,所述设备在所述手势检测装置外部。
7.根据权利要求1所述的手势检测装置,还包括所述至少一个SSVM函数由被集成在所述手势检测装置中的专用电路执行。
8.根据权利要求1所述的手势检测装置,其中所述代码还包括用于通过所述第一接口和/或所述第二接口,向被连接到所述手势检测装置的主机装置传送所选择的所述至少一个手势的指示的代码指令。
9.根据权利要求1所述的手势检测装置,其中所述代码还包括用于操纵和/或缩放所述至少一个被计时的图像,以移除至少一个非相关的图像部分的代码指令。
10.根据权利要求1所述的手势检测装置,其中:
所述多个预定义手姿态和手运动中的每一个由多个预定义手特征记录中的一个预定义手特征记录表示,所述多个预定义手特征记录各自由多个离散手值中的至少一些离散手值定义,所述多个离散手值各自指示参考手的多个手特征中的相应的手特征的状态;以及
所述多个运行期手数据集中的每个运行期手数据集由多个离散手值分数中的至少一些离散手值分数定义,所述多个离散手值分数各自指示所述移动的手的所述多个手特征中的相应的手特征的当前状态,所述多个离散手值分数通过分析所述至少一个被计时的图像由所述代码指令推断。
11.根据权利要求1所述的手势检测装置,其中所述代码指令在所述至少一个被计时的图像上应用多个手特征分类函数,所述多个手特征分类函数中的每个手特征分类函数输出所述移动的手的多个手特征中的相应的手特征的当前离散手值分数,
其中所述多个手特征分类函数是经训练的统计分类器。
12.根据权利要求1所述的手势检测装置,其中所述代码还包括用于标识所述移动的手的平面内旋转的代码指令,所述平面内旋转通过在所述至少一个被计时的图像上应用多个平面内旋转分类函数来标识,所述多个平面内旋转分类函数根据所述移动的手的所选择的全局定向类别(GOC)来选择。
13.根据权利要求1所述的手势检测装置,还包括所述序列逻辑模型被表示为有限状态机(FSM),所述FSM的每个状态与所述多个预定义手特征记录中的相应预定义手特征记录相关,其中所述代码还包括用于在所述优化之前利用在所述FSM内的至少一个序列上的至少一个分数函数来增强所述FSM的代码指令。
14.根据权利要求13所述的手势检测装置,还包括检测所述FSM内的至少一个转变,所述至少一个转变由所述手势检测装置记录。
15.根据权利要求1所述的手势检测装置,还包括:所述至少一个SSVM函数通过选择所述多个手势中的至少上下文注册的手势的所述序列逻辑模型来专门化。
CN201680076681.7A 2015-12-31 2016-12-21 用于手势检测的电子设备 Active CN108431733B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/985,728 US9857881B2 (en) 2015-12-31 2015-12-31 Electrical device for hand gestures detection
US14/985,728 2015-12-31
PCT/US2016/068157 WO2017116921A1 (en) 2015-12-31 2016-12-21 Electrical device for hand gestures detection

Publications (2)

Publication Number Publication Date
CN108431733A true CN108431733A (zh) 2018-08-21
CN108431733B CN108431733B (zh) 2021-05-28

Family

ID=57777749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680076681.7A Active CN108431733B (zh) 2015-12-31 2016-12-21 用于手势检测的电子设备

Country Status (4)

Country Link
US (2) US9857881B2 (zh)
EP (2) EP3779650A1 (zh)
CN (1) CN108431733B (zh)
WO (1) WO2017116921A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297546A (zh) * 2019-07-08 2019-10-01 合肥工业大学 一种用于采集腕部-手指动作同步信号的装置及其标注方法
CN110956059A (zh) * 2018-09-27 2020-04-03 深圳云天励飞技术有限公司 一种动态手势识别方法、装置和电子设备

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10353495B2 (en) * 2010-08-20 2019-07-16 Knowles Electronics, Llc Personalized operation of a mobile device using sensor signatures
KR102165818B1 (ko) * 2013-09-10 2020-10-14 삼성전자주식회사 입력 영상을 이용한 사용자 인터페이스 제어 방법, 장치 및 기록매체
US9857881B2 (en) 2015-12-31 2018-01-02 Microsoft Technology Licensing, Llc Electrical device for hand gestures detection
US11270053B2 (en) * 2016-07-08 2022-03-08 efabless corporation Systems and methods for assembling and developing an SoC efficiently using templates and designer input data
US10764281B1 (en) * 2017-01-09 2020-09-01 United Services Automobile Association (Usaa) Systems and methods for authenticating a user using an image capture device
US11184574B2 (en) 2017-07-17 2021-11-23 Facebook, Inc. Representing real-world objects with a virtual reality environment
US10496879B2 (en) * 2017-08-25 2019-12-03 Qualcomm Incorporated Multiple-detection gesture recognition
CN109143875B (zh) * 2018-06-29 2021-06-15 广州市得腾技术服务有限责任公司 一种手势控制智能家居方法及其系统
TWI710973B (zh) * 2018-08-10 2020-11-21 緯創資通股份有限公司 手勢識別方法、手勢識別模組及手勢識別系統
CN110941187A (zh) * 2018-09-21 2020-03-31 珠海格力电器股份有限公司 家电控制方法及装置
US11017217B2 (en) * 2018-10-09 2021-05-25 Midea Group Co., Ltd. System and method for controlling appliances using motion gestures
CN109344793B (zh) * 2018-10-19 2021-03-16 北京百度网讯科技有限公司 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
KR20200050235A (ko) 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 지능형 인터랙션 방법
KR20200080047A (ko) 2018-12-26 2020-07-06 삼성전자주식회사 진정 사용자의 손을 식별하는 방법 및 이를 위한 웨어러블 기기
EP3712851A1 (de) * 2019-03-19 2020-09-23 Bayer Animal Health GmbH Reduzierung von videomaterial auf bewegungsabschnitte
US11334212B2 (en) 2019-06-07 2022-05-17 Facebook Technologies, Llc Detecting input in artificial reality systems based on a pinch and pull gesture
CN110458059B (zh) * 2019-07-30 2022-02-08 北京科技大学 一种基于计算机视觉的手势识别方法及识别装置
CN110333703A (zh) * 2019-08-23 2019-10-15 航天库卡(北京)智能科技有限公司 一种基于深度学习技术的智能家居控制系统及控制方法
US10991163B2 (en) 2019-09-20 2021-04-27 Facebook Technologies, Llc Projection casting in virtual environments
US11086406B1 (en) * 2019-09-20 2021-08-10 Facebook Technologies, Llc Three-state gesture virtual controls
US11176745B2 (en) 2019-09-20 2021-11-16 Facebook Technologies, Llc Projection casting in virtual environments
US11170576B2 (en) 2019-09-20 2021-11-09 Facebook Technologies, Llc Progressive display of virtual objects
US11189099B2 (en) 2019-09-20 2021-11-30 Facebook Technologies, Llc Global and local mode virtual object interactions
US11086476B2 (en) * 2019-10-23 2021-08-10 Facebook Technologies, Llc 3D interactions with web content
US11175730B2 (en) 2019-12-06 2021-11-16 Facebook Technologies, Llc Posture-based virtual space configurations
US11475639B2 (en) 2020-01-03 2022-10-18 Meta Platforms Technologies, Llc Self presence in artificial reality
JP7443070B2 (ja) * 2020-01-23 2024-03-05 Sanei株式会社 画像認識水栓
US11227151B2 (en) * 2020-03-05 2022-01-18 King Fahd University Of Petroleum And Minerals Methods and systems for computerized recognition of hand gestures
US11257280B1 (en) 2020-05-28 2022-02-22 Facebook Technologies, Llc Element-based switching of ray casting rules
US11256336B2 (en) 2020-06-29 2022-02-22 Facebook Technologies, Llc Integration of artificial reality interaction modes
US11227445B1 (en) 2020-08-31 2022-01-18 Facebook Technologies, Llc Artificial reality augments and surfaces
US11176755B1 (en) 2020-08-31 2021-11-16 Facebook Technologies, Llc Artificial reality augments and surfaces
US11178376B1 (en) 2020-09-04 2021-11-16 Facebook Technologies, Llc Metering for display modes in artificial reality
CN112306235B (zh) * 2020-09-25 2023-12-29 北京字节跳动网络技术有限公司 一种手势操作方法、装置、设备和存储介质
CN112309540B (zh) * 2020-10-28 2024-05-14 中国科学院深圳先进技术研究院 运动评估方法、装置、系统及存储介质
US11113893B1 (en) 2020-11-17 2021-09-07 Facebook Technologies, Llc Artificial reality environment with glints displayed by an extra reality device
CN112558778A (zh) * 2020-12-18 2021-03-26 珠海格力电器股份有限公司 多终端环境下用户动作识别控制方法、装置及用户终端
US11409405B1 (en) 2020-12-22 2022-08-09 Facebook Technologies, Llc Augment orchestration in an artificial reality environment
US11461973B2 (en) 2020-12-22 2022-10-04 Meta Platforms Technologies, Llc Virtual reality locomotion via hand gesture
KR20220098312A (ko) * 2020-12-31 2022-07-12 센스타임 인터내셔널 피티이. 리미티드. 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
US11294475B1 (en) 2021-02-08 2022-04-05 Facebook Technologies, Llc Artificial reality multi-modal input switching model
US20240196087A1 (en) * 2021-06-11 2024-06-13 Hewlett-Packard Development Company, L.P. Camera power state controls
US11762952B2 (en) 2021-06-28 2023-09-19 Meta Platforms Technologies, Llc Artificial reality application lifecycle
US11295503B1 (en) 2021-06-28 2022-04-05 Facebook Technologies, Llc Interactive avatars in artificial reality
WO2023277888A1 (en) * 2021-06-29 2023-01-05 Innopeak Technology, Inc. Multiple perspective hand tracking
US11521361B1 (en) 2021-07-01 2022-12-06 Meta Platforms Technologies, Llc Environment model with surfaces and per-surface volumes
US12008717B2 (en) 2021-07-07 2024-06-11 Meta Platforms Technologies, Llc Artificial reality environment control through an artificial reality environment schema
US12056268B2 (en) 2021-08-17 2024-08-06 Meta Platforms Technologies, Llc Platformization of mixed reality objects in virtual reality environments
CN115196076B (zh) * 2021-09-18 2024-01-05 苏州优斯登物联网科技有限公司 一种受控机构动作自适应调节系统及物料自动包装设备
US11798247B2 (en) 2021-10-27 2023-10-24 Meta Platforms Technologies, Llc Virtual object structures and interrelationships
US11748944B2 (en) 2021-10-27 2023-09-05 Meta Platforms Technologies, Llc Virtual object structures and interrelationships
US12093447B2 (en) 2022-01-13 2024-09-17 Meta Platforms Technologies, Llc Ephemeral artificial reality experiences
US12067688B2 (en) 2022-02-14 2024-08-20 Meta Platforms Technologies, Llc Coordination of interactions of virtual objects
US12026527B2 (en) 2022-05-10 2024-07-02 Meta Platforms Technologies, Llc World-controlled and application-controlled augments in an artificial-reality environment
US12097427B1 (en) 2022-08-26 2024-09-24 Meta Platforms Technologies, Llc Alternate avatar controls
US11947862B1 (en) 2022-12-30 2024-04-02 Meta Platforms Technologies, Llc Streaming native application content to artificial reality devices
US11991222B1 (en) 2023-05-02 2024-05-21 Meta Platforms Technologies, Llc Persistent call control user interface element in an artificial reality environment

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945362A (zh) * 2012-10-18 2013-02-27 中国科学院计算技术研究所 基于异构数据融合的传感器协同手势识别方法及系统
CN103038725A (zh) * 2010-06-29 2013-04-10 高通股份有限公司 使用连续波超声信号的无触摸感测和手势辨识
US20130332848A1 (en) * 2012-06-06 2013-12-12 Wilfred Lam Creating new connections on social networks using gestures
CN103493104A (zh) * 2011-04-29 2014-01-01 微软公司 从空间手势推断空间对象描述
CN104317391A (zh) * 2014-09-24 2015-01-28 华中科技大学 一种基于立体视觉的三维手掌姿态识别交互方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9323985B2 (en) 2012-08-16 2016-04-26 Microchip Technology Incorporated Automatic gesture recognition for a sensor system
US20150116200A1 (en) * 2013-10-25 2015-04-30 Honda Motor Co., Ltd. System and method for gestural control of vehicle systems
US20150138078A1 (en) 2013-11-18 2015-05-21 Eyal Krupka Hand pose recognition using boosted look up tables
US9811165B2 (en) * 2015-03-11 2017-11-07 Samsung Electronics Co., Ltd. Electronic system with gesture processing mechanism and method of operation thereof
US9857881B2 (en) 2015-12-31 2018-01-02 Microsoft Technology Licensing, Llc Electrical device for hand gestures detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038725A (zh) * 2010-06-29 2013-04-10 高通股份有限公司 使用连续波超声信号的无触摸感测和手势辨识
CN103493104A (zh) * 2011-04-29 2014-01-01 微软公司 从空间手势推断空间对象描述
US20130332848A1 (en) * 2012-06-06 2013-12-12 Wilfred Lam Creating new connections on social networks using gestures
CN102945362A (zh) * 2012-10-18 2013-02-27 中国科学院计算技术研究所 基于异构数据融合的传感器协同手势识别方法及系统
CN104317391A (zh) * 2014-09-24 2015-01-28 华中科技大学 一种基于立体视觉的三维手掌姿态识别交互方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956059A (zh) * 2018-09-27 2020-04-03 深圳云天励飞技术有限公司 一种动态手势识别方法、装置和电子设备
CN110297546A (zh) * 2019-07-08 2019-10-01 合肥工业大学 一种用于采集腕部-手指动作同步信号的装置及其标注方法
CN110297546B (zh) * 2019-07-08 2022-05-03 合肥工业大学 一种用于采集腕部-手指动作同步信号的装置及其标注方法

Also Published As

Publication number Publication date
US20180120950A1 (en) 2018-05-03
US20170192513A1 (en) 2017-07-06
CN108431733B (zh) 2021-05-28
EP3779650A1 (en) 2021-02-17
WO2017116921A1 (en) 2017-07-06
EP3398034A1 (en) 2018-11-07
US9857881B2 (en) 2018-01-02
US10139921B2 (en) 2018-11-27
EP3398034B1 (en) 2021-03-31

Similar Documents

Publication Publication Date Title
CN108431733A (zh) 用于手势检测的电子设备
US9690982B2 (en) Identifying gestures or movements using a feature matrix that was compressed/collapsed using principal joint variable analysis and thresholds
CN102693413B (zh) 运动识别
WO2021120834A1 (zh) 基于生物识别的手势识别方法、装置、计算机设备及介质
US20200184204A1 (en) Detection of hand gestures using gesture language discrete values
US9734435B2 (en) Recognition of hand poses by classification using discrete values
WO2018064047A1 (en) Performing operations based on gestures
CN108073851B (zh) 一种抓取手势识别的方法、装置及电子设备
CN108475111A (zh) 变换轻量骨骼并且使用逆运动学产生有关节的骨骼
CN109309878A (zh) 弹幕的生成方法及装置
CN103745423B (zh) 一种口型示教系统与示教方法
Deng et al. Real‐time mocap dance recognition for an interactive dancing game
CN106293099A (zh) 手势识别方法及系统
JP2016014954A (ja) 手指形状の検出方法、そのプログラム、そのプログラムの記憶媒体、及び、手指の形状を検出するシステム。
CN109215131A (zh) 虚拟人脸的驱动方法及装置
CN114049683A (zh) 基于三维人体骨架模型的愈后康复辅助检测系统、方法、介质
CN113807280A (zh) 一种基于Kinect的虚拟船舶机舱系统与方法
Yan et al. AGRMTS: A virtual aircraft maintenance training system using gesture recognition based on PSO‐BPNN model
Pierard et al. A technique for building databases of annotated and realistic human silhouettes based on an avatar
Duan Robotic perception and manipulation of garments
Rangkuti et al. Optimizing Hand Gesture Recognition Using CNN Model Supported by Raspberry pi for Self-Service Technology
Ab Hamid An Android Application for Facial Expression Recognition Using Deep Learning
CN115273230A (zh) 基于多源信息融合及改进cnn网络的手势识别方法
CN117891339A (zh) 一种桌面vr交互一体机的裸手交互方法及系统
CN117908661A (zh) 基于手势的智能音箱交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant