CN117762242A - 在检测到外围设备上的外围事件时对手部手势的抑制 - Google Patents

在检测到外围设备上的外围事件时对手部手势的抑制 Download PDF

Info

Publication number
CN117762242A
CN117762242A CN202311226286.0A CN202311226286A CN117762242A CN 117762242 A CN117762242 A CN 117762242A CN 202311226286 A CN202311226286 A CN 202311226286A CN 117762242 A CN117762242 A CN 117762242A
Authority
CN
China
Prior art keywords
hand
gesture
peripheral
usage mode
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311226286.0A
Other languages
English (en)
Inventor
D·J·布鲁尔
A·K·阿索卡库玛施诺伊
T·邱
L·M·甘
D·J·梅耶
J·K·舒特兹博格
Y·汤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN117762242A publication Critical patent/CN117762242A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及在检测到外围设备上的外围事件时对手部手势的抑制。在检测到外围设备上的外围事件时抑制手部手势包括:响应于检测到的外围设备外围事件而确定第一只手的第一手姿势和第二只手的第二手姿势;基于该第一手姿势和该第二手姿势确定该第一只手和该第二只手中的至少一只手处于外围使用模式;检测来自被确定为处于该外围使用模式的该至少一只手中的手的输入手势;以及根据该手处于该外围使用模式的该确定,通过用户输入管线拒绝该输入手势。响应于确定满足外围使用条件,通过激活计算机视觉系统来确认外围设备的存在。

Description

在检测到外围设备上的外围事件时对手部手势的抑制
技术领域
本公开一般地涉及在检测到外围设备上的外围事件时对手部手势的抑制。
背景技术
一些设备能够生成并呈现扩展现实(XR)环境。XR环境可包括人们经由电子系统感知和/或与其交互的完全或部分模拟的环境。在XR中,跟踪人的物理运动的一个子集或其表示,并且作为响应,以符合现实属性的方式调节在XR环境中模拟的一个或多个虚拟对象的一个或多个特征。一些XR环境允许用户在XR环境内与虚拟对象交互或相互交互。例如,用户可使用手势来与XR环境的部件交互。然而,需要一种管理手势识别和输入的改进的技术。
附图说明
图1A至图1B示出了根据一些实施方案的用户与设备交互的图。
图2示出了根据一些实施方案的用于进入外围使用模式的技术的流程图。
图3示出了根据一些实施方案的退出外围使用模式的示例性图。
图4示出了根据一些实施方案的用于处理用户输入的技术的流程图。
图5示出了根据一些实施方案的用于取消输入手势动作的技术的流程图。
图6示出了根据一个或多个实施方案的用于激活计算机视觉系统的技术的流程图。
图7示出了根据一些实施方案的用于检测输入手势的技术的流程图。
图8示出了根据一些实施方案的用于确定手势的有意性的技术的流程图。
图9示出了根据一些实施方案的动作网络的流程图。
图10示出了根据一些实施方案的用于在外围模式期间接受手势输入的技术的流程图。
图11以框图形式示出了根据一些实施方案的用于管理UI接合的示例性系统。
图12示出了根据一个或多个实施方案的在运动映射中使用的示例性系统。
具体实施方式
本公开涉及用于提供并抑制来自手部手势的输入的系统、方法和计算机可读介质。具体地,本发明涉及用于在检测到外围设备上的外围事件时抑制来自手部手势的用户输入的技术。另外,本文所述的技术涉及激活计算机视觉系统以便确认场景中存在外围设备。
根据一些实施方案,该技术包括:响应于检测到来自外围设备的外围事件而获得用户的一只或多只手的姿势信息。可分析每只手的手姿势以确定每只手是否处于外围使用模式。外围使用模式可指示其中确定手(或在一些实施方案中,双手)正在使用外围设备并且因此不应将手视为用于基于手势的输入的操作模式。例如,在一些实施方案中,如果手处于使得手掌平行于环境中的检测到的表面的姿势,则手可被认为处于外围使用模式。如另一示例,在一些实施方案中,如果手上的手指的关节以使得很可能键入的方式移动,则手可被认为处于外围使用模式。响应于确定手处于外围使用模式,可忽略或以其他方式拒绝在处于外围使用模式时检测到的手的任何手势。更具体地,与手势相关联的动作将被抑制。另选地,在一些实施方案中,如果未确定手处于外围使用模式,则可将该手视为处于手势使用模式,在此情况下,允许手势输入并且根据该手处理手势输入。
在一些实施方案中,本文所述的技术包括取消初始化的用户输入手势。在一些实施方案中,输入手势可由两个动作组成:初始化阶段(当系统确认输入手势时)和动作(即,实际执行对应于输入手势的动作)。例如,根据一些实施方案,特定手的输入手势可在预定义时间段内检测到,在该预定义时间段内,当该特定手处于外围使用模式时,检测外围设备的外围事件。可识别手势,并且可呈现识别的图形指示。例如,如果输入手势与对用户接口上的用户输入部件的选择相关联,则捏合手势的向下捏合可通过该部件的呈现的改变在用户接口上以图形方式表示。如果恰好在检测到手势之后检测到外围事件,并且确定该外围事件由同一只手引起,则取消与手势相关联的动作。输入手势管线的除动作以外的其他部件可继续,诸如对手势的识别的图形表示。
在一些实施方案中,技术还包括例如响应于手处于外围使用模式的确定而使用计算机视觉来确认外围设备的存在。标识外围对象的存在和位置可能是计算昂贵且功率要求高的。因此,根据一些实施方案,优选使用较低功率技术(例如外围输入模式的确定)来确定外围设备在区域中的位置。一直运行对象检测可能是功率密集的。因此,本文所述的某些实施方案针对响应于存在外围设备的低功率确定而触发对象检测。在一些实施方案中,低功率跟踪技术最初可用于确定外围设备是否在附近。这可包括例如分析来自手跟踪管线的数据,诸如手姿势数据、包括一只或多只手的图像数据等。在一些实施方案中,如果手的姿势或运动指示外围部件可能在附近(例如,如果确定手处于外围输入模式),则可激活计算机视觉系统以确认外围设备的存在。类似地,如果在来自手跟踪管线的图像数据中检测到外围设备,则可激活计算机视觉系统以应对外围设备的存在。即,可使用计算机视觉管线来执行对象检测以确定外围设备的存在。该对象检测可包括获得附加传感器数据,诸如深度数据、较高分辨率图像数据(即,以比手跟踪管线的分辨率高的分辨率捕获的图像数据)等。
物理环境是指人们在没有电子设备帮助的情况下能够对其感测和/或与其交互的物理世界。物理环境可包括物理特征,诸如物理表面或物理对象。例如,物理环境对应于包括物理树木、物理建筑物和物理人的物理公园。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。相比之下,XR环境是指人们经由电子设备感测和/或交互的完全或部分模拟的环境。例如,XR环境可包括增强现实(AR)内容、混合现实(MR)内容、虚拟现实(VR)内容等。在XR系统的情况下,跟踪人的物理运动的一个子集或其表示,并且作为响应,以符合至少一个物理定律的方式调节在XR环境中模拟的一个或多个虚拟对象的一个或多个特征。如一个示例,XR系统可以检测头部移动,并且作为响应,以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。如另一示例,XR系统可以检测呈现XR环境的电子设备(例如,移动电话、平板电脑、膝上型电脑等)的移动,并且作为响应,以类似于此类视图和声音在物理环境中将如何改变的方式调节呈现给人的图形内容和声场。在一些情况下(例如,出于可达性原因),XR系统可响应于物理运动的表示(例如,声音命令)来调节XR环境中图形内容的特征。
有许多不同类型的电子系统使人能够感测和/或与各种XR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如,类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如,具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。头戴式系统可具有集成不透明显示器和一个或多个扬声器。另选地,头戴式系统可被配置为接受外部不透明显示器(例如,智能电话)。头戴式系统可结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可具有透明或半透明显示器,而不是不透明显示器。透明或半透明显示器可以具有媒介,代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一些具体实施中,透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中,例如作为全息图或在物理表面上。
在以下描述中,为了解释的目的,阐述了很多具体细节以便提供对所公开构思的彻底理解。作为该描述的一部分,本公开的附图中的一些附图以框图形式表示结构和设备,以避免模糊所公开构思的新颖方面。为了清晰起见,可能未对实际具体实施的所有特征进行描述。另外,作为本说明书的一部分,本公开的一些附图可以流程图的形式提供。任何特定流程图中的框可以特定顺序呈现。然而,应当理解,任何给定流程图的特定顺序仅用于举例说明一个实施方案。在其他实施方案中,可删除流程图中描绘的各种元件中的任何元件,或者可以不同的顺序,或甚至同时执行图示的操作序列。此外,其他实施方案可包括未被示为流程图的一部分的附加步骤。此外,本公开中所使用的语言已主要被选择用于可读性和指导性目的,并且可能没有被选择为划定或限定本发明的主题,或诉诸于所必需的权利要求以确定此类发明主题。在本公开中提到“一个实施方案”或“实施方案”意指结合该实施方案所述的特定特征、结构或特性被包括在所公开主题的至少一个实施方案中,并且多次提到“一个实施方案”或“实施方案”不应被理解为必然地全部涉及相同的实施方案。
应当理解,在任何实际实施方式的开发中(如在任何软件和/或硬件开发项目中那样),必须要作出许多决策以实现开发者的特定目标(例如,符合与系统和商务相关的约束条件),并且这些目标在不同实施方式之间可能不同。还应理解,此类开发工作可能复杂且耗时,但是尽管如此,对于在受益于本公开而设计和实施图形建模系统的那些普通技术人员而言,这仍然是他们的日常工作。
图1A至图1B示出了根据一些实施方案的用于用户与设备交互的系统设置。应当理解,图1A至图1B的各种特征和描述是出于说明性目的而提供的,并且不一定旨在限制本公开的范围。
在图1A中,提供了系统设置100A,其中用户102正在观看显示设备106。具体地,图1A描绘了用户102使第一只手104A自由地执行输入手势并且使第二只手108A利用输入设备110在显示设备106上所呈现的用户接口上的光标位置120处引起用户输入的示例。根据一些实施方案,可为每只手确定输入模式。例如,基于跟踪数据和/或其他所捕获数据,可作出关于每只手是处于外围使用模式还是手势输入模式的确定。该确定可基于多种数据来作出。此数据可包括例如手跟踪数据、凝视数据、用户接口(UI)数据或它们的某种组合。例如,各种输入数据可应用于训练网络,该训练网络被配置为确定或预测每只手的输入模式(或者,另选地,确定手是否处于外围使用模式)。如另一示例,手跟踪数据、凝视数据和/或UI数据的各种特性可被认为是对关于一只或多只手是否处于外围使用模式的确定的试探。
根据一些实施方案,可从系统设置100A中的电子系统获得各种输入信号。该电子系统可包括例如计算设备、移动设备、可穿戴设备、物联网(IoT)设备、图像捕获设备、或它们的某种组合。该电子系统可用于手跟踪,针对该手跟踪获得手跟踪数据。手跟踪数据可包括例如一只或多只手的图像数据、一只或多只手的深度数据、一只或多只手的移动数据等。在一些实施方案中,此图像数据可包括环境中的手的裁剪图像,可根据该裁剪图像确定手的特性。手跟踪数据可指示例如用户的手姿势、移动和/或位置是否指示用户使用外围设备或手势输入。
类似地,电子系统可被配置为执行凝视跟踪,或以其他方式获得凝视信息。凝视数据可诸如以凝视向量的形式指示用户102正在凝视的方向。在一些实施方案中,凝视数据可包括附加信息,诸如瞳孔位置、眼睛位置等。凝视数据可用于例如确定用户接口上的用户凝视目标是否对应于来自手势和/或外围设备的用户输入。因此,当训练网络以预测手是否处于外围使用模式时,可考虑凝视数据,或凝视数据可用作确定手是否处于手势输入模式的外围使用模式的试探。
在一些实施方案中,可考虑用户接口的特性以确定给定手的模式。例如,如果用户接口包括与手势输入兼容的用户可选择部件,则手更可能处于手势输入模式。相反,如果用户接口是文本编辑器,或者属于依赖于特定外围设备的应用,则更可能处于外围使用模式。同样,这些确定可被合并到训练网络中,或者可用作用于模式的确定的试探。
外围设备110被描绘为键盘。然而,应当理解,可如本文所述利用具有用户输入能力的任何种类的外围设备。外围设备的示例包括例如键盘、触控板、计算机鼠标、数字化仪、触笔、操纵杆等。另外,这些外围设备可包括虚拟化部件,诸如触摸屏上的键盘等。因此,外围设备可经由机械装置、光学装置、数字装置等提供用户输入。
基于各种输入,可为每只手作出关于输入模式的确定。例如,手104A处于不太可能与外围设备的使用相关联的姿势。因此,在一些实施方案中,手104A可被视为处于手势输入模式。因此,当手势由手104A执行时,手势输入可被接受。相比之下,手108A处于外围使用模式,因为其姿势与外围输入相关联且紧邻外围设备110。在一些实施方案中,一只手的外围使用模式的确定可应用于两只手。另选地,可为每只手确定不同的模式。
根据本文所述的一些实施方案,可在没有关于外围设备的任何视觉数据的情况下确定一只或多只手是否处于外围使用模式。即,即使电子系统未捕获到外围设备110的视图,也可确定手108A的手掌面向下并且手指弓形向下的姿势可与外围设备诸如键盘、鼠标、触控板等的使用兼容。
响应于手可能处于外围使用模式的确定,在一些实施方案中,可触发计算机视觉技术的执行以确认外围设备在场景中的存在。例如,手跟踪网络可使用包括手的图像信息来确定手的特性。如果手的姿势指示其很可能与外围设备交互,则可触发系统以对图像信息执行对象检测。此信息可包括场景中的手的裁剪图像,该裁剪图像可包括环境的直接围绕或接近手的部分。因此,对图像执行的对象检测可通过分析外围设备的在手的裁剪(图像)中可见的一部分来标识键盘或其他外围设备是否位于手后面。
图1B示出了系统设置100B的替代视图。这里,用户102用手104B执行捏合手势,而手108B保持处于外围使用模式。在一些实施方案中,电子系统可确定因为手104B处于手势输入模式,所以允许与手势相关联的用户输入动作。因此,在显示设备106上呈现输入表示122。
值得注意的是,因为手108B可能正在外围设备110上执行输入动作,同时手104B正在执行用户输入手势,所以可作出关于手势104B是否为有意的确定。在一些实施方案中,此确定可响应于检测到外围设备上的外围事件而作出。外围事件可被认为是与相关联的外围设备交互的用户的输入事件。在一些实施方案中,外围设备可以是提供手跟踪数据、凝视数据等的电子系统的一部分。因此,外围事件可基于电子系统经由外围设备接收到用户输入来检测。另选地,外围设备可以是第二系统的一部分。在此示例中,外围事件可基于电子系统监视用于输入的用户接口或监视用于外围事件的外围设备来检测。在又一示例中,外围设备可通信地连接到电子系统,使得当外围事件发生时外围设备发送通知。
响应于检测到外围事件,电子系统可确定与外围事件相关联的手处于外围使用模式。当处于外围使用模式时,可在手势输入被识别为由任一只手执行时抑制该手势输入。然而,在一些实施方案中,输入模式可专用于单手。因此,如果该手被确定为不处于外围使用模式(例如,如果该手处于手势输入模式),则可允许由不同的手进行手势输入。因此,继续图1B中所示的示例,其中手108B处于外围使用模式并且手104B处于手势输入模式(或非外围使用模式),将抑制由手108B进行的手势输入,同时将识别由手104B进行的手势输入。
转到图2,呈现了用于确定手是否处于外围使用模式的技术的流程图。具体地,图2描述了用于在检测到外围设备上的外围事件时抑制手部手势的过程。尽管各种过程描绘了以特定顺序执行的步骤并且可被描述为由特定部件执行,但是应当理解,各种动作可由替代部件执行。此外,可以不同的顺序执行各种动作。另外,可同时执行一些动作,并且可不需要一些动作,或可添加其他动作。
流程图200在框205处开始,在此处检测外围设备上的外围事件。如上所述,外围设备可包括例如键盘、触控板、触笔、操纵杆、计算机鼠标、触摸屏或它们的任何组合或其他类似的输入部件。此外,外围设备可被配置为提供机械装置、光学装置、数字装置等的用户输入。因此,外围设备可以是物理部件,或者可以是呈现在屏幕上的计算机生成的部件,例如呈现在触控板上的键盘。
外围事件可以多种方式来检测。例如,如果跟踪系统包括外围设备,则该系统可检测到用户输入经由特定外围设备来接收。如另一示例,系统可接收已发生点击事件的指示,或可监视场景(例如,使用图像数据、深度数据等)以确定是否已在外围设备处发生点击事件。即,根据系统和外围设备之间的可通信关系,可主动地或被动地发生事件的检测。
转向框210,作出关于手是否处于外围使用模式的确定。在一些实施方案中,该确定可使用试探法、训练网络等来作出。例如,在一些实施方案中,可将手跟踪信息传递到被训练以预测手是否处于与外围设备的使用一致的姿势的网络。附加地或另选地,其他信号诸如凝视检测、UI特性等可用于该确定。
如果在框210处作出特定手处于外围使用姿势的确定,则任选地,在框215处,作出是否确认外围设备的存在的确定。例如,系统可发起对象跟踪或其他计算机视觉技术以确定是否存在外围设备。下文将关于图6更详细地描述激活对象跟踪以确认外围设备的存在的示例。如果确认了外围设备的存在,则流程图继续到框220,在此处认为手处于外围使用模式。根据一些实施方案,在外围使用模式下,来自点击事件的用户输入例如通过用户输入管线来处理。同时,在框225处,拒绝或以其他方式忽视来自手的用户输入手势。即,如果手处于外围使用模式,则确定在外围设备的使用期间碰巧被检测到的任何手势是无意的,并且因此不针对这些手势进行动作。在一些实施方案中,可识别用户输入手势,但可不执行与输入手势相关联的动作。可例如在手势输入被取消时发生该检测,如下文将关于图4更详细地描述。
流程图继续到框230,在此处作出关于是否满足手势输入条件的确定。换句话讲,可作出关于是否应继续认为手处于外围使用模式的确定。例如,可基于超时时段的期满、响应于预先确定的移动或满足预先确定阈值的移动等来做出该确定。例如,手势输入条件可包括预定义的外围使用模式的超时条件。此超时条件可指示在检测到点击事件且当不再认为手处于外围使用模式时确定手处于外围使用模式之后的时间段。即,可能需要新的输入模式确定来将手保持处于外围使用模式。因此,如果不满足手势输入条件,则流程图200返回到框220,并且继续认为手处于外围使用模式。另选地,如果作出满足手势输入条件的确定,则流程图继续到框235,在此处例如认为手不处于外围使用模式,并且现在处于手势输入模式。
返回到框210,如果确定手不处于外围使用姿势(并且任选地,如果未确认外围设备的存在),则流程图也进行到框235。在框235处,认为手不处于外围使用模式。在一些实施方案中,可认为手处于手势输入模式。因此,如框240处所示,允许来自手的用户输入手势,因为手不处于外围使用模式。
如上所述,手可在多种条件下退出外围使用模式。例如,超时条件可指示手何时再次接受手势输入。如另一示例,预定义移动或以其他方式满足手势输入阈值的移动可致使手退出外围使用模式。图3示出了根据一些实施方案的退出外围使用模式的示例性图。
在图3中,提供了系统设置300,其中用户302正在观看显示设备306。具体地,图3描绘了用户302使手308A利用输入设备310在显示设备306上的光标位置316处引起用户输入的示例。
如上所述,手可以多种方式退出外围使用模式,诸如在手姿势改变之后、超时时段、或基于满足退出条件的移动。图3描绘了此种移动的两个示例。在图320处,手308B被描绘为以满足移动阈值的度数旋转手腕以使手从其当前姿势移动一定度数,从而退出外围使用模式。因此,在图320中,可接收并处理来自308B的手势输入以允许用户302与显示设备306上的用户接口交互。可例如基于手姿势的跟踪信息确定手腕移动满足移动阈值。例如,可针对方向的变化来跟踪起源于手腕并且随后越过手的向量。因此,如308B处所示,手腕向量旋转预先确定的量。如另一示例,可基于前臂向量和手腕向量之间的关系来确定此旋转,使得由关系标识的旋转满足移动阈值。
如另一示例,图330示出手308C移动成使得从原始手位置到新位置的平移满足移动阈值。此平移可由手在3D空间中的相对位置来确定。例如,可在一系列帧上跟踪手的质心、手腕位置或手的某个其他位置tracked in 3Dspace.For example,the tracking以确定是否满足阈值距离。此阈值距离可基于外围设备的类型(如果可用的话)来确定。例如,在触控板上离开外围使用模式的距离可小于在全键盘上离开外围使用模式的距离。如另一示例,阈值条件可基于手移动的速度、加速度、方向或它们的某种组合。在一些实施方案中,手跟踪管线可提供此种位置信息,可在帧上比较该位置信息以确定是否满足移动阈值。因此,在图330中,如果确定手308C正在执行输入手势,则该输入手势将被处理并且用于与显示设备306上的用户接口交互。
可在用户与用户接口交互时实时发生手是否处于外围使用模式的确定。因此,当检测到输入手势时,如何处理那些手势取决于执行手势的手的当前输入模式。图4示出了根据一些实施方案的用于处理用户输入的技术的流程图。尽管各种过程描绘了以特定顺序执行的步骤并且可被描述为由特定部件执行,但是应当理解,各种动作可由替代部件执行。此外,可以不同的顺序执行各种动作。另外,可同时执行一些动作,可不需要一些动作,或可添加其他动作。
流程图400在框405处开始,在此处监视场景中的一只或多只手。可例如基于手跟踪模块等来监视手。因此,可监视手以获得图像数据、姿势、深度、移动等。在框410处,确定左手姿势和右手姿势。这些姿势可包括姿势信息、手移动等。例如,这些姿势可包括可根据其确定使用模式的数据,如框415处所示。
确定每只手的模式类型可包括确定手是处于外围使用模式还是手势输入模式。在一些实施方案中,为两只手一起作出确定。然而,在其他实施方案中,单独地为每只手作出确定。例如,基于手姿势的组合,可认为两只手都处于外围使用模式。例如,可关于手取向(诸如手掌取向)、手指关节、手之间的距离、手和环境中的表面之间的关系、它们的某种组合或本文所讨论的任何其他方法作出确定。在一些实施方案中,可使用类似的试探法来确定手是否处于手势输入模式。
流程图400在框420处继续,在此处作出关于是否检测到输入手势的确定。可例如从手跟踪管线检测输入手势。即,手跟踪管线可提供手数据,可根据该手数据作出手是否正在执行与用户输入相关联的预先确定的手势的确定。在一些实施方案中,可检测来自任一只手的输入手势。如果未检测到手势,则流程图返回到框405,并且连续监视场景中的一只或多只手。
返回到框420,如果作出检测到手势的确定,则流程图进行到框425,并且作出关于执行手势的手是否处于外围使用模式的确定。如上所述,在一些实施方案中,每只手可与唯一使用模式相关联。因此,来自手的手势是否被识别为处于外围使用模式影响输入手势如何被处理。因此,如果在框425处作出执行手势的手处于外围使用模式的确定,则流程图继续到框430。在框430处,拒绝或以其他方式忽略输入手势。即,输入手势可被手势管线忽略,使得系统不执行与该手势相关联的动作或取消/召回与该手势相关联的动作。相反,返回到框425,如果作出执行手势的手不处于外围使用模式(并且因此例如处于手势输入模式)的确定,则流程图在框435处结束,并且将手势作为用户输入来处理。因此,当执行手势的手不处于外围使用模式时,仅将检测到的手势作为用户输入来处理。
在一些情况下,可彼此紧密连续地发生输入模式的确定和点击事件的检测,使得难以确定输入手势是有意的还是意外的。例如,用户可能在对外围设备执行点击事件的过程中意外地执行用户输入手势。图5示出了根据一些实施方案的用于取消输入手势动作的技术的流程图。尽管各种过程描绘了以特定顺序执行的步骤并且可被描述为由特定部件执行,但是应当理解,各种动作可由替代部件执行。此外,可以不同的顺序执行各种动作。另外,可同时执行一些动作,可不需要一些动作,或可添加其他动作。
流程图500在框505处开始,在此处检测特定手的输入手势。可例如从手跟踪管线检测输入手势。即,手跟踪管线可提供手数据,可根据该手数据作出手是否正在执行与用户输入相关联的预先确定的手势的确定。根据一些实施方案,可检测来自任一只手的输入手势。这可在输入手势的初始化阶段期间发生。
流程图500继续到框510,在此处在用户接口上呈现检测到的输入手势的图形指示。例如,该呈现可在手势开始但与该手势相关联的动作尚待激活时发生。例如,捏合手势可与向下捏合动作和向上捏合动作相关联。在一些实施方案中,可响应于向下捏合(即,当确定两个手指进行接触时)而检测捏合手势,但直到检测到向上捏合(即,当确定两个触摸手指彼此移开时)才可激活与手势相关联的动作。因此,图形指示可在检测到向下捏合时提供视觉表示,从而指示识别到手势,同时不执行与该手势相关联的动作。例如,如果输入手势与对3D用户输入部件的选择相关联,则该部件可响应于向下捏合而被突出显示/展平,但可能直到检测到向上捏合才被选择。
流程图500在框515处继续,在此处检测到外围设备上的点击事件。如上所述,外围设备可包括例如键盘、触控板、触笔、操纵杆、计算机鼠标、触摸屏或它们的任何组合或其他类似的输入部件。此外,外围设备可被配置为提供机械装置、光学装置、数字装置等的用户输入。因此,输入部件可以是物理部件,或者可以是呈现在屏幕上的计算机生成的部件,例如呈现在触控板上的键盘。
点击事件可以多种方式来检测。例如,如果系统包括外围设备,则该系统可检测到用户输入经由特定外围设备来接收。如另一示例,系统可接收已发生点击事件的指示,或可监视场景(例如,使用图像数据、深度数据等)以确定是否已使用外围设备发生点击事件。即,根据系统和外围设备之间的可通信关系,可主动地或被动地发生事件的检测。
流程图500继续到框520,在此处作出关于执行手势的手是否处于外围使用模式的确定。如上文关于图2所述,手是否处于外围使用模式可以多种方式来确定。如果确定手不处于外围使用模式,则流程图在框525处结束,并且处理用户输入手势以完成。即,执行与用户输入手势相关联的动作。在一些实施方案中,该动作可包括确定外围设备是否接近手。可执行关于外围设备是否接近手定位的确定,如下文关于图6所述。
返回到框520,如果作出执行手势的手处于外围使用模式的确定,则流程图继续到框530。在框530处,作出关于是否满足取消阈值的确定。取消阈值可指示满足此种阈值的一组试探。如另一示例,可由训练网络确定是否满足取消阈值。取消阈值可指示检测到的输入手势未完成或为无意的。例如,可基于执行手势的手在阈值数量的帧、阈值时间段等内处于外围使用模式的确定来确定满足取消阈值。各种阈值可以是预先确定的,并且在系统的整个使用期间可以是一致的,或者可基于用户偏好、应用配置、系统配置等而变化。如果在框530处作出不满足取消阈值的确定,则流程图也在框525处结束,并且按预期处理用户输入手势(即,不抑制手势输入)。
返回到框530,如果作出满足取消阈值的确定,则流程图继续到框535。在框535处,呈现指示手势释放的图形指示。手势释放的图形指示可指示针对其发起用户输入的用户输入动作将不再完成。即,与用户输入部件相关联的动作已被取消。应注意,根据一些实施方案,输入释放的图形指示可作为如框525处所述的完成对用户输入手势的处理的一部分来提供。该流程图在框540处结束,并且忽视针对输入手势的用户输入动作。
在一些实施方案中,当确定用户的手是否处于外围使用模式时,确认外围设备在该手附近可以是有用的。在一些实施方案中,外围设备的存在可用于确认手处于外围使用模式的确定或增加对该确定的置信度。图6示出了根据一个或多个实施方案的用于激活计算机视觉系统的技术的流程图。尽管各种过程描绘了以特定顺序执行的步骤并且可被描述为由特定部件执行,但是应当理解,各种动作可由替代部件执行。此外,可以不同的顺序执行各种动作。另外,可同时执行一些动作,并且可不需要一些动作,或可添加其他动作。
流程图600在框605处开始,在此处执行手跟踪。可执行手跟踪数据以确定手在场景中的状态、手的位置等。在执行手跟踪时,可生成手跟踪数据。手跟踪数据可包括例如一只或多只手的图像数据、一只或多只手的深度数据、一只或多只手的移动数据等。在一些实施方案中,此图像数据可包括环境中的手的裁剪图像,可根据该裁剪图像确定手的特性。手跟踪数据可指示例如用户的手姿势、移动和/或位置是否指示用户使用外围设备或手势输入。因此,在框605处执行手跟踪包括接收手图像(如框610处所示)以及确定手姿势(如框615处所示)。
流程图600继续到框620,在此处作出关于手是否处于外围使用姿势的确定。在一些实施方案中,该确定可使用试探法、训练网络等来作出。例如,在一些实施方案中,可将手跟踪信息传递到被训练以预测手是否处于与外围设备的使用一致的姿势的网络。附加地或另选地,其他信号诸如凝视检测、UI特性等可用于该确定。如果在框620处作出手处于外围使用姿势的确定,则流程图在框635处结束。在框635处,激活对象检测以确认外围设备的存在,并且任选地标识外围设备,诸如确定外围标识符、外围分类等。激活对象检测可包括激活设备上的计算机视觉系统等。因此,可在低功率模式下执行潜在外围设备的初始检测,而在框635处,激活高功率计算机视觉模式以确认外围设备在场景中的存在或位置。
返回到框620,如果作出手不处于外围使用模式的确定,则流程图继续到框625,并且对手图像执行低功率外围检测。例如,该系统可包括低功率训练网络,该低功率训练网络用于利用来自手跟踪管线的手的裁剪(图像)来预测该手的裁剪(图像)中是否存在外围设备。在框630处,作出是否检测到处于低功率模式的外围设备的确定。如果未检测到外围设备,则流程图返回到框605,并且由系统连续地执行手跟踪。相反,返回到框630,如果检测到处于低功率模式的外围设备,则流程图在框635处结束,在此处激活高功率计算机视觉模式以确认外围设备在场景中的存在或位置。
在一些实施方案中,框620处的手处于外围使用姿势的分类还可用于在不需要较高功率算法的情况下提高手掌向下试探的有效性。低功率手跟踪可具有一些限制,诸如单手键入或者当用户将其手放在其膝上时。通过确定是否存在外围设备,该决策可用于改进未来情况下的手姿势确定。
根据一些实施方案,可在外围使用模式期间允许一些手势。例如,可在外围使用模式期间允许滚动手势以允许用户快速地导航用户正在键入的接口。然而,因为在单个帧中未检测到滚动,所以发起滚动手势的接触事件最初可能被拒绝。因此,当捏合以使得滚动可检测到的方式移动时,可能需要从先前帧恢复手势。
图7示出了根据一些实施方案的用于检测输入手势的技术的流程图。具体他,图7示出了手势估计管线700,其中识别并处理用户输入手势。尽管流程图示出了被描述为执行特定过程的各种部件,但是应当理解,根据一些实施方案,图的流程可不同,并且根据一些实施方案,部件的功能可不同。
流程图700以传感器数据702开始。在一些实施方案中,传感器数据可包括用户的一只手或两只手的所捕获的图像数据和/或深度数据。在一些实施方案中,传感器数据可从电子设备上的传感器捕获,诸如头戴式设备上的面向外的相机,或以其他方式配置在电子设备中以捕获包括用户的手的传感器数据的相机。根据一个或多个实施方案,传感器数据可由一个或多个相机捕获,该一个或多个相机可包括一组或多组立体相机。在一些实施方案中,传感器数据702可包括由电子设备收集并且与用户相关的附加数据。例如,传感器数据可提供电子设备的位置数据,诸如设备的位置和取向。
在一些实施方案中,传感器数据702可应用于手跟踪网络704。手跟踪网络可以是被训练以估计用户的一只手或两只手的物理状态的网络。在一些实施方案中,手跟踪网络704预测手姿势706。手姿势可以是基于所估计的物理状态的手的分类姿势,或者可提供指示手的姿势的某一其他形式的数据。例如,在一些实施方案中,手姿势数据706可包括对手的关节位置的估计。另外,在一些实施方案中,手跟踪网络704可被训练以提供对设备(诸如头戴式耳机)位置和/或模拟世界空间的估计的估计。
在一些实施方案中,手跟踪网络704可被进一步配置为例如以接触信号708的形式提供接触数据。接触数据可包括关于对于一个或多个给定帧在手上的两个区域之间是否正在发生接触的预测。例如,机器学习模型可被训练以预测拇指垫和食指是否接触。出于本文描述的目的,接触是指两个表面之间的接触,而不管意图如何,而捏合被定义为以产生对应输入动作的意图执行的接触。如下文将更详细地描述,在一些实施方案中,手跟踪可基于传感器数据702和/或手姿势数据706预测是否发生接触。
根据一个或多个实施方案,手势确定框架710提供关于传感器数据702中所呈现的特定姿势是否为有意的确定。即,作出关于(例如,基于手姿势数据706或由该手姿势数据提供的)手的分类姿势是否为有意的确定。当所确定手姿势包括接触事件(诸如,捏合)时,手势确定框架710可使用由手跟踪网络704提供的接触信号708来确定是否执行有意手势。
在一些实施方案中,手势确定框架710可利用图7中未明确描绘的附加数据。例如,手势确定框架710可接收信号诸如用户接口(UI)几何形状、凝视估计、由连接的外围设备生成的事件、与对象的用户交互等。如将在图9中描述,手势确定框架710可考虑来自输入的各种特征以针对特定输入手势作出手势是否为有意的确定。可将此确定以手势信号712的形式发送到UI手势处理模块714。手势信号可指示是否已发生有意输入手势。在一些实施方案中,手势信号712还可用于指示是否应当取消先前手势信号。例如,如果用户移动他们的位置、放下他们的手等,可能发生该取消。
根据一个或多个实施方案,手姿势数据706和/或接触信号708可基于一组试探来确定,如下文将更详细地描述。这些试探可用于确定手姿势706和/或接触信号708是否与用户输入手势相关联。例如,可在每个帧处作出确定。因此,描绘捏合的初始帧可致使系统标识捏合。然而,如果捏合是滚动(例如,被定义为移动通过超过预定义距离的空间的捏合)的开始,则滚动最初不被标识,因为该移动不能被第一帧检测到。
在一些实施方案中,可在外围使用模式下接受或拒绝手势的子集。例如,可拒绝捏合,而可不拒绝滚动。因此,在检测到第一帧的初始事件的情况下,将拒绝对应手势直到可作出检测到滚动手势的确定为止。
UI手势处理模块714可被配置为基于手势信号712启用用户输入动作。特定手势诸如捏合可与UI部件等的选择动作相关联。在一些实施方案中,如果接收到对应于已经发起的手势信号712的取消信号,则系统可与在该手势没有被取消的情况不同地处理该手势。例如,UI部件可被示为被选择但未被激活等。如另一示例,由用户引起的先前发起的轻击可被截断或取消。
另外,最初被忽视的手势诸如外围模式期间的捏合稍后可被检测为有效手势诸如外围模式期间的滚动的一部分。在此种情况下,可调用手势开始处的帧(例如,滚动开始时的捏合),以便处理相关联的基于手势的输入动作。因此,滚动手势的起始点可基于原始捏合,该原始捏合可能最初已作为在外围使用模式期间被拒绝的手势而被丢弃。
如上所述,手势确定框架710可被配置为生成手势的有意性分类。手势确定框架710可被配置为估计手的姿势或手势,并且确定该手势是否意图用于触发用户输入动作。图8示出了根据一些实施方案的用于分类手势的有意性的技术的流程图。出于解释的目的,以下步骤将被描述为由图7的特定部件执行。然而,应当理解,各种动作可由替代部件来执行。可以不同的顺序执行各种动作。另外,可同时执行一些动作,可不需要一些动作,或可添加其他动作。
流程图800在框805处开始,在此处基于来自手跟踪网络的接触数据来检测接触事件。该接触可例如基于从手跟踪网络704接收的接触信号708来检测。根据一些实施方案,一些手势可能需要接触,诸如捏合等。另外,可利用不同种类的接触来识别多种类型的捏合。根据一些实施方案,并非每个手势都需要接触事件。因此,可未检测到接触,或接触信号708可指示发生接触。在一些实施方案中,接触信号708可不被接收,或者可以其他方式被忽略并且手势仍然可被识别。
流程图800继续到框810,在此处根据手跟踪数据来确定接触阶段。接触阶段可针对给定帧指示手指当前处于接触动作的什么阶段。根据一些实施方案,确定有意性的感兴趣的特征可根据手势的当前状态而变化。对于包括接触事件的手势,手势当前所处的阶段可影响启用、取消或拒绝相关联的输入动作的能力。接触阶段的一些示例包括空闲状态、其中接触事件正在开始的进入状态(诸如向下捏合阶段)、其中当前正在发生捏合的保持状态、以及例如当对于捏合正在结束发生向上捏合时的退出阶段。
在框815处,估计与接触相关联的低级特征。可根据手跟踪数据来确定低级特征,并且/或者附加数据可包括对手在帧期间正在做什么的估计。例如,其他数据源包括用于捕获手跟踪数据的设备的姿势信息、手姿势、UI几何形状等。在一些实施方案中,在不考虑意图的情况下确定低级特征。低级特征的示例包括例如向下捏合时的捏合速度、手腕弯曲的测量、手指卷曲、手与头的接近度、手的速度等。
流程图800继续到框820,在此处估计高级、低状态特征。高级、低状态特征可包括模态特征,这些模态特征估计用户在接触期间正在做什么以便确定有意性。在一些实施方案中,高级特征可以是可互操作并且可被单独验证的特征。示例包括关于手是否正使用一个或多个外围设备、手势的重复频率(例如,如果用户正快速捏合)、如果手正保持对象,或如果手处于休息姿势、特定捏合或手势样式(即,使用两个手指的垫或使用手指的侧面捏合)的估计。在一些实施方案中,高级特征可基于用户活动,诸如用户坐立不安、说话或阅读。根据一个或多个实施方案,高级特征可基于手跟踪数据、所确定接触阶段和/或所估计基本特征来确定。在一些实施方案中,高级特征可直接确定动作的有意性。例如,如果用户正在使用外围设备诸如键盘,则可拒绝捏合,或者可确定手势是无意的。
根据一个或多个实施方案,高级特征可基于用户姿势、用户输入或其他信号来指示用户可能处于外围使用模式。例如,可跟踪手腕关节和一个或多个手指的位置。如果手指相对于手腕关节的运动满足预定义参数,则可确定手处于外围使用模式。在一些实施方案中,高级特征可基于其他信号或参数(诸如,由外围设备检测到的用户输入等)来确定。
该流程图在框825处结束,在此处手势确定框架710组合高级特征和接触阶段以对有意性进行分类。在一些实施方案中,手势确定框架710使用高级特征和接触阶段的条件组合来对有意性进行分类。该分类然后可用于用信号通知要作为输入手势来处理的手势(由此激活相关联的UI输入动作)、在确定手势为无意的情况下(例如,在已经发起与手势相关联的UI动作的情况下)取消相关联的动作、或忽视手势。
图7的接触信号708可以多种方式确定。例如,在一些实施方案中,可基于手跟踪数据使用试探法来确定是否已发生接触和/或当前接触阶段。图9示出了根据一些实施方案的动作网络的流程图,该动作网络提供用于确定是否已发生接触事件的示例性机器学习过程。
管线900开始于作为输入的帧集合902。帧902可以是由一个或多个相机捕获的手的时间序列的图像帧。相机可以是单独相机、立体相机、相机曝光已被同步的相机、或它们的组合。相机可位于用户的电子设备诸如移动设备或头戴式设备上。帧可包括一系列与预先确定的时间相关联的一个或多个帧。例如,帧902可包括在连续时间捕获的一系列单独帧,或可包括在连续时间中的每个时间捕获的多个帧。帧的整体可表示手的运动序列,在任何特定时间内根据该运动序列可检测到或不可检测到接触事件。
帧902可应用于姿势模型904。姿势模型904可以是训练神经网络,该训练神经网络被配置为基于给定时间的给定帧(或帧集合,例如,在立体相机的情况下)预测手的3D姿势908。即,帧集合902的每个帧可应用于姿势模型904以生成3D姿势908。因此,姿势模型904可预测手在特定时间点的姿势。在一些实施方案中,几何特征912可从3D姿势908导出。几何特征可指示可由3D姿势标识的手的关节之间的关系特征。即,在一些实施方案中,3D姿势908可指示手中的关节的位置和定位,而几何特征912可指示关节之间的空间关系。例如,几何特征912可指示两个关节之间的距离等。
在一些实施方案中,帧902可另外应用于编码器906,该编码器被训练以从指示手的外观的特定时间生成给定输入帧(或多个帧)的潜在值。外观特征910可以是可能够从帧902标识的特征,但对于姿势不是特别有用的。因此,这些外观特征可被姿势模型904忽略,但在管线900内可用于确定是否发生接触事件。例如,外观特征910可以是几何特征912或3D姿势908的互补特征以推进确定特定动作920(诸如是否已发生接触事件)的目标。根据一些实施方案,编码器906可以是与姿势模型904相关的网络的一部分,使得编码器906可使用姿势数据中的一些姿势数据来预测外观特征910。另外,在一些实施方案中,3D姿势908和外观特征910可由单个模型或两个单独、不相关的模型来预测。编码器906的结果可以是例如呈一组指纹形式的一组外观特征910。
融合网络914被配置为接收几何特征912、3D姿势908和外观特征910作为输入,并且每次生成一组编码916。融合网络914可以任何数量的方式组合几何特征912、3D姿势908和外观特征910。例如,可以不同方式在组合中对各种特征进行加权,或者以其他方式以不同方式进行组合,以每次获得一组编码916。
编码916然后通过临时网络918运行每次以确定一个动作920。动作920可指示例如是否已发生接触事件或接触阶段的改变。临时网络918可考虑用于确定动作920的特定时间的帧(或帧集合)以及帧集合902中的其他帧两者。
图10描绘了用于在外围使用模式期间恢复接触数据的技术的流程图。尽管各种过程描绘了以特定顺序执行的步骤并且可被描述为由特定部件执行,但是应当理解,各种动作可由替代部件执行。此外,可以不同的顺序执行各种动作。另外,可同时执行一些动作,可不需要一些动作,或可添加其他动作。
流程图1000在框1005处开始,在此处检测特定帧的特定手的输入手势。在一些实施方案中,可基于手跟踪数据的帧的时间集合中的每个帧来作出手势确定。可例如从手跟踪管线704检测输入手势。即,手跟踪管线704可提供手数据,可根据该手数据作出关于手是否正在执行与用户输入相关联的预先确定的手势(诸如手势信号712)的确定。根据一些实施方案,可检测来自任一只手的输入手势。
流程图1000在框1010处继续,在此处作出关于执行手势的手是否处于外围使用模式的确定。如上文关于图2所述,手是否处于外围使用模式可以多种方式来确定。如果手不处于外围使用模式,则流程图在框1015处结束,并且将用户输入手势作为用户输入来处理。该处理可包括例如触发输入事件,诸如与手势相关联的用户输入动作。在一些实施方案中,输入事件可包括指示手势的识别的视觉反馈。例如,用户接口部件可被放大、突出显示或以其他方式在视觉上被修改以指示输入手势的识别。
返回到框1010,如果作出执行手势的手处于外围使用模式的确定,则流程图1000进行到框1020。在框1020处,作出是否在当前帧中检测到例外的确定。例外可包括在外围使用模式期间被允许用于用户输入的任何手势,诸如滚动。在一些实施方案中,滚动是由行进至少预定义距离的检测到的捏合定义的手势。
在一些实施方案中,用于标识捏合的特定距离可基于捏合的移动和手的运动的方向而不同。例如,水平运动可与不同于竖直运动的阈值距离相关联。另选地,水平移动的阈值距离可大于竖直移动的阈值距离。例如,在键盘上的水平移动可能比远离键盘的竖直运动更自然。因此,竖直阈值的阈值距离可小于水平阈值以与用户的自然移动对准。关于滚动,因为基于移动来检测滚动,所以滚动可不能通过单个帧检测到。相反,必须在若干帧上作出确定,使得可检测与滚动相关联的运动。然而,因为滚动以捏合开始,所以可最初从第一个或多个帧检测到捏合。
如果在框1020处作出在当前帧中未检测到滚动的确定,则流程图进行到框1025,并且忽视当前帧的用户输入手势。即,可抑制在框1005处检测到的用户输入手势,使得该手势不触发用户输入动作。然后,流程图进行到框1030,并且接收手跟踪数据的下一个帧。然后,在框1035处,作出关于是否仍检测到手势的确定。即,作出关于用户是否正在继续执行可与用户输入相关联的手势的确定。如果否,则流程图结束。
返回到框1035,如果在当前帧中仍检测到手势,则流程图返回到框1020。这里,在框1020处,作出关于是否基于当前帧检测到滚动的确定。即,基于其中检测到手势的一系列帧,作出关于是否存在滚动运动的确定。如果基于当前帧检测到滚动,则流程图进行到框1040并且从先前帧检索捏合位置。即,通过从先前被忽视的先前帧恢复手势数据来处理滚动,这是通过抑制那些帧的先前确定的手势来实现的。流程图1000然后在框1045处结束,在此处使用从先前帧检索到的手势数据来处理用户输入手势(即,滚动)。
图11描绘了系统的网络图,本公开的各种实施方案通过该系统实践。具体地,图11描绘了为计算机系统的电子设备1100。电子设备1100可为多功能设备的一部分,诸如移动电话、平板电脑、个人数字助理、便携式音乐/视频播放器、可穿戴设备、头戴式系统、基于投影的系统、基站、膝上型计算机、台式计算机、网络设备或诸如本文所述的任何其他电子系统。电子设备1100可通过网络1160连接到其他设备,诸如附加电子设备1170、移动设备、平板设备、台式设备和远程感测设备以及网络存储设备等。例示性网络包括但不限于本地网络(诸如通用串行总线(USB)网络)、组织的局域网以及广域网(诸如互联网)。
电子设备1100和/或附加电子设备1170可附加地或另选地包括一个或多个附加设备,在这些附加设备内可包含各种功能,或者可跨这些设备分布各种功能,诸如服务器设备、基站、附属设备等。应当理解,电子设备1100和附加电子设备1110内的各种部件和功能可跨设备不同地分布,或者可跨附加设备分布。
电子设备1100可包括处理器1120。处理器1120可以是片上系统,诸如存在于移动设备中的那些片上系统,并且包括一个或多个中央处理单元(CPU)、专用图形处理单元(GPU)或两者。另外,处理器1120可包括相同或不同类型的多个处理器。电子设备1100还可包括存储器1130。存储器1130可包括一个或多个不同类型的存储器,其可用于结合处理器1120执行设备功能。例如,存储器1130可包括高速缓存、ROM、RAM或能够存储计算机可读代码的任何种类的暂态或非暂态计算机可读存储介质。存储器1130可在执行期间存储各种编程模块,诸如跟踪模块1145,该跟踪模块可执行手跟踪技术、凝视跟踪技术等。在一些实施方案中,跟踪模块1145可使用眼睛跟踪传感器、相机1105或其他传感器1110来确定用户的眼睛所看向的场景的一部分。另外,存储器1130可包括一个或多个附加应用1135。
电子设备1100还可包括存储装置1140。存储装置1140可包括一个或多个非暂态计算机可读介质,该一个或多个非暂态计算机可读介质包括,例如,磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质(诸如CD-ROM和数字视频光盘(DVD))以及半导体存储器设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储装置1140可用于存储各种数据和结构,这些数据和结构可用于在检测到点击事件时抑制手部手势。例如,存储装置1140可包括登记数据1150,其可用于诸如通过手跟踪技术或眼睛跟踪技术来跟踪用户。例如,登记数据1150还可包括可用于确定手是否处于外围使用模式的用户偏好。存储装置1140还可包括手跟踪网络1155,其可以是训练网络,手跟踪通过该训练网络执行,如上所述。
电子设备1100可包括一组传感器1110。在此示例中,该组传感器1110可包括一个或多个图像捕获传感器、环境光传感器、运动传感器、眼睛跟踪传感器等。在其他具体实施中,该组传感器1110还包括加速度计、全球定位系统(GPS)、压力传感器和惯性测量单元(IMU)等。
电子设备1100可允许用户与XR环境进行交互。许多电子系统使得个体能够与各种XR布景进行交互和/或感知各种SR布景。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地,头戴式系统可被设计为接收外部显示器(例如,智能电话)。头戴式系统可具有分别用于拍摄物理布景的图像/视频和/或捕获物理布景的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器1125。透明或半透明显示器1125可结合基板,表示图像的光通过该基板被引导到个体的眼睛。显示器1125可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶,或这些技术的任何组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中,透明或半透明显示器1125可在不透明状态和透明或半透明状态之间选择性地转换。又如,电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地,投影系统还可将虚拟对象投影到物理布景中(例如,投影到物理表面上或作为全息图)。XR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如,具有或不具有触觉反馈的控制器)、平板电脑、智能电话,以及台式计算机或膝上型计算机。
在一些实施方案中,电子设备1100可通过网络1160通信地连接到附加电子设备1170。附加电子设备1170可包括处理器1175以及存储器1180和I/O设备1185。在一些实施方案中,I/O设备可用于允许用户与存储在存储器1180上并由处理器1175执行的应用交互。如上所述,电子设备1100中的跟踪模块1145可确定用户的手是否处于外围使用模式,例如,用户的手是否正在与I/O设备1185中的一个I/O设备交互,或者是否预测到与I/O设备1185的交互。在一些实施方案中,可例如基于跟踪模块1145从I/O设备1185确定点击事件。在一些实施方案中,电子设备1170可将点击事件的指示传送到电子设备1100。如另一示例,在一些实施方案中,电子设备1100可直接通信地耦接到I/O设备1185。例如,I/O设备1185可例如通过蓝牙连接或其他短程连接直接通信地耦接到电子设备1100。
现在参考图12,其示出了根据一个实施方案的例示性多功能电子设备1200的简化功能框图。电子设备可为多功能电子设备,或者可具有本文所述的多功能电子设备的一部分或全部所描述的部件。多功能电子设备1200可包括处理器1205、显示器1210、用户接口1215、图形硬件1220、设备传感器1225(例如,接近传感器/环境光传感器、加速度计和/或陀螺仪)、麦克风1230、音频编解码器1235、扬声器1240、通信电路1245、数字图像捕获电路1250(例如,包括相机系统)、视频编解码器1255(例如,支持数字图像捕获单元)、存储器1260、存储设备1265和通信总线1270。多功能电子设备1200可为例如数字相机或个人电子设备,诸如个人数字助理(PDA)、个人音乐播放器、移动电话或平板电脑。
处理器1205可执行实施或控制由设备1200执行的许多功能的操作所必需的指令(例如,诸如本文所公开的图像的生成和/或处理)。处理器1205可例如驱动显示器1210并可从用户接口1215接收用户输入。用户接口1215可允许用户与设备1200交互。例如,用户接口1215可呈现多种形式,诸如按钮、小键盘、拨号盘、点击轮、键盘、显示屏、触摸屏、视线和/或手势。处理器1205还可例如是片上系统,诸如在移动设备中所发现的片上系统,并且包括专用GPU。处理器1205可基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构,并且可包括一个或多个处理内核。图形硬件1220可为用于处理图形和/或辅助处理器1205以处理图形信息的专用计算硬件。在一个实施方案中,图形硬件1220可包括可编程GPU。
图像捕获电路1250可包括两个(或更多个)透镜组件1280A和1280B,其中每个透镜组件可具有单独的焦距。例如,相对于透镜组件1280B的焦距,透镜组件1280A可具有短焦距。每个透镜组件可具有单独的相关联传感器元件1290A或1290B。另选地,两个或更多个透镜组件可共用共同的传感器元件。图像捕获电路1250可捕获静态图像和/或视频图像。可至少部分地通过以下来处理来自图像捕获电路1250的输出:视频编解码器1255和/或处理器1205和/或图形硬件1220和/或结合在电路1265内的专用图像处理单元或管线。这样捕获的图像可被存储在存储器1260和/或存储装置1265中。
传感器和相机电路1250可捕获可至少部分地由以下设备根据本公开来处理的静态图像和视频图像:视频编解码器1255和/或处理器1205和/或图形硬件1220和/或结合在电路1250内的专用图像处理单元。这样捕获的图像可被存储在存储器1260和/或存储装置1265中。存储器1260可包括由处理器1205和图形硬件1220用于执行设备功能的一个或多个不同类型的介质。例如,存储器1260可包括存储器高速缓存、只读存储器(ROM)和/或随机存取存储器(RAM)。存储装置1265可存储介质(例如,音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置1265可包括一个或多个非暂态计算机可读存储介质,包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质(诸如CD-ROM和DVD)以及半导体存储器设备(诸如EPROM和EEPROM)。存储器1260和存储装置1265可用于有形地保持被组织成一个或多个模块并以任何所需的计算机编程语言编写的计算机程序指令或代码。当由例如处理器1205执行时,此类计算机程序代码可实施本文所述的方法中的一种或多种方法。
本文定义的各种过程考虑了获取和利用用户的识别信息的选项。例如,可以利用此类个人信息以便跟踪用户的运动。然而,就收集此类个人信息而言,此类信息应当在用户的知情同意下获得,并且用户应知道其个人信息并控制其个人信息的使用。
个人信息将由适当方仅用于合法和合理的目的。利用此类信息的各方将遵守至少符合适当法律法规的隐私政策和惯例。此外,这类政策应是完善的且符合或高于政府/行业标准。此外,除任何合理和合法的目的外,各方不得分发、出售或以其他方式分享此类信息。
此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用中,数据去标识可用于保护用户的隐私。在适当的情况下,可以通过移除特定标识符(例如,出生日期)、控制存储的数据的量或特征(例如,在城市级而非地址级收集位置数据)、控制数据的存储方式(例如,在用户之间聚合数据)和/或其他方法来促进去标识。
应当理解,以上描述旨在是例示性的而非限制性的。已经呈现材料以使本领域的任何技术人员能够作出并使用受权利要求保护的所公开的主题并在特定实施方案的上下文中提供该材料,其变化对于本领域的技术人员而言将是显而易见的(例如,可彼此结合地使用所公开的实施方案中的一些)。因此,图2和图4至图10中所示的步骤或动作的特定布置或者图1、图3和图7至图12中所示的元件的布置不应被解释为限制所公开的主题的范围。因此,应当参考所附权利要求以及赋予此类权利要求的等同形式的完整范围来确定本发明的范围。在所附权利要求书中,术语“包括”和“在其中”被用作相应术语“包含”和“其中”的通俗英语等同形式。

Claims (20)

1.一种方法,包括:
响应于外围设备处的外围事件的指示而确定第一只手的第一手姿势;
基于所述第一手姿势,确定所述第一只手处于外围使用模式;
检测来自被确定为处于所述外围使用模式的所述第一只手的输入手势;以及
根据确定所述第一只手处于所述外围使用模式,通过用户输入管线拒绝所述输入手势。
2.根据权利要求1所述的方法,其中所述外围事件与所述第一只手相关联,所述方法还包括:
在确定所述第一只手处于外围使用模式之前,检测所述第一只手的输入手势;
根据确定所述第一只手处于外围使用模式,确定所述输入手势和所述外围事件之间的关系满足取消阈值;
其中所述输入手势由所述用户输入管线处理以忽视与所述输入手势相关联的用户输入动作。
3.根据权利要求1所述的方法,其中确定所述至少一只手处于外围使用模式包括:
确定所述至少一只手的手掌位置;
确定所述至少一只手所处的场景的物理特性;以及
基于手掌位置和所述物理特性确定所述至少一只手的所述手掌位于外围设备之上。
4.根据权利要求1所述的方法,其中所述第一只手和第二只手中的至少一只手处于外围使用模式的所述确定还基于所述第一只手和所述第二只手中的所述至少一只手的手指姿势。
5.根据权利要求4所述的方法,其中所述至少一只手处于外围使用模式的所述确定还基于所述手指姿势包括:
获得捕获所述至少一只手的传感器数据;以及
将所述传感器数据应用于手分类器,所述手分类器被训练以基于包括至少一只手的传感器数据来预测外围使用模式分类。
6.根据权利要求1所述的方法,还包括:
当确定所述第一只手处于所述外围使用模式时,检测所述第一只手的手移动;
确定所述手移动是否满足取消阈值;以及
根据确定所述手移动满足所述取消阈值,确定所述第一只手处于手势输入模式,
其中在所述手势输入模式期间检测到的所述第一只手的输入手势通过所述用户输入管线处理。
7.根据权利要求1所述的方法,还包括:
确定所述第一只手的第二手姿势;
基于所述第二手姿势,确定所述第一只手处于所述外围使用模式;
检测来自被确定为处于所述外围使用模式的所述第一只手的第二输入手势;以及
根据确定所述第二输入手势在所述外围使用模式期间是可允许的,处理与所述第二输入手势相关联的用户输入动作。
8.一种包括计算机可读代码的非暂态计算机可读介质,所述计算机可读代码能够由一个或多个处理器执行以:
响应于外围设备处的外围事件的指示而确定第一只手的第一手姿势;
基于所述第一手姿势,确定所述第一只手处于外围使用模式;
检测来自被确定为处于所述外围使用模式的所述第一只手的输入手势;以及
根据确定所述第一只手处于所述外围使用模式,通过用户输入管线拒绝所述输入手势。
9.根据权利要求8所述的非暂态计算机可读介质,其中所述外围事件与所述第一只手相关联,并且所述非暂态计算机可读介质还包括用于以下操作的计算机可读代码:
在确定所述第一只手处于外围使用模式之前,检测所述第一只手的输入手势;
根据确定所述第一只手处于外围使用模式,确定所述输入手势和所述外围事件之间的关系满足取消阈值;
其中所述输入手势由所述用户输入管线处理以忽视与所述输入手势相关联的用户输入动作。
10.根据权利要求8所述的非暂态计算机可读介质,其中所述用于确定所述至少一只手处于外围使用模式的计算机可读代码包括用于以下操作的计算机可读代码:
确定所述至少一只手的手掌位置;
确定所述至少一只手所处的场景的物理特性;以及
基于手掌位置和所述物理特性确定所述至少一只手的所述手掌位于外围设备之上。
11.根据权利要求8所述的非暂态计算机可读介质,其中所述第一只手和第二只手中的至少一只手处于外围使用模式的所述确定还基于所述第一只手和所述第二只手中的所述至少一只手的手指姿势。
12.根据权利要求11所述的非暂态计算机可读介质,其中所述至少一只手处于外围使用模式的所述确定还基于所述手指姿势包括:
获得捕获所述至少一只手的传感器数据;以及
将所述传感器数据应用于手分类器,所述手分类器被训练以基于包括至少一只手的传感器数据来预测外围使用模式分类。
13.根据权利要求8所述的非暂态计算机可读介质,还包括用于以下操作的计算机可读代码:
当确定所述第一只手处于所述外围使用模式时,检测所述第一只手的手移动;
确定所述手移动是否满足取消阈值;以及
根据确定所述手移动满足所述取消阈值,确定所述第一只手处于手势输入模式,
其中在所述手势输入模式期间检测到的所述第一只手的输入手势由所述用户输入管线处理。
14.根据权利要求8所述的非暂态计算机可读介质,还包括用于以下操作的计算机可读代码:
确定所述第一只手的第二手姿势;
基于所述第二手姿势,确定所述第一只手处于所述外围使用模式;
检测来自被确定为处于所述外围使用模式的所述第一只手的第二输入手势;以及
根据确定所述第二输入手势在所述外围使用模式期间是可允许的,处理与所述第二输入手势相关联的用户输入动作。
15.一种系统,包括:
一个或多个处理器;和
包括计算机可读代码的一个或多个计算机可读介质,所述计算机可读代码能够由所述一个或多个处理器执行以:
响应于外围设备处的外围事件的指示而确定第一只手的第一手姿势;
基于所述第一手姿势,确定所述第一只手处于外围使用模式;
检测来自被确定为处于所述外围使用模式的所述第一只手的输入手势;以及
根据确定所述第一只手处于所述外围使用模式,通过用户输入管线拒绝所述输入手势。
16.根据权利要求15所述的系统,其中所述外围事件与所述第一只手相关联,并且所述系统还包括用于以下操作的计算机可读代码:
在确定所述第一只手处于外围使用模式之前,检测所述第一只手的输入手势;
根据确定所述第一只手处于外围使用模式,确定所述输入手势和所述外围事件之间的关系满足取消阈值;
其中所述输入手势由所述用户输入管线处理以忽视与所述输入手势相关联的用户输入动作。
17.根据权利要求15所述的系统,其中所述用于确定所述至少一只手处于外围使用模式的计算机可读代码包括用于以下操作的计算机可读代码:
确定所述至少一只手的手掌位置;
确定所述至少一只手所处的场景的物理特性;以及
基于手掌位置和所述物理特性确定所述至少一只手的所述手掌位于外围设备之上。
18.根据权利要求15所述的系统,其中所述第一只手和第二只手中的至少一只手处于外围使用模式的所述确定还基于所述第一只手和所述第二只手中的所述至少一只手的手指姿势。
19.根据权利要求18所述的系统,其中所述至少一只手处于外围使用模式的所述确定还基于所述手指姿势包括:
获得捕获所述至少一只手的传感器数据;以及
将所述传感器数据应用于手分类器,所述手分类器被训练以基于包括至少一只手的传感器数据来预测外围使用模式分类。
20.根据权利要求15所述的系统,还包括用于以下操作的计算机可读代码:
当确定所述第一只手处于所述外围使用模式时,检测所述第一只手的手移动;
确定所述手移动是否满足取消阈值;以及
根据确定所述手移动满足所述取消阈值,确定所述第一只手处于手势输入模式,
其中在所述手势输入模式期间检测到的所述第一只手的输入手势由所述用户输入管线处理。
CN202311226286.0A 2022-09-23 2023-09-22 在检测到外围设备上的外围事件时对手部手势的抑制 Pending CN117762242A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263376945P 2022-09-23 2022-09-23
US63/376,945 2022-09-23
US202363505883P 2023-06-02 2023-06-02
US63/505,883 2023-06-02

Publications (1)

Publication Number Publication Date
CN117762242A true CN117762242A (zh) 2024-03-26

Family

ID=90360348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311226286.0A Pending CN117762242A (zh) 2022-09-23 2023-09-22 在检测到外围设备上的外围事件时对手部手势的抑制

Country Status (2)

Country Link
US (1) US20240103635A1 (zh)
CN (1) CN117762242A (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8704767B2 (en) * 2009-01-29 2014-04-22 Microsoft Corporation Environmental gesture recognition
US20150220150A1 (en) * 2012-02-14 2015-08-06 Google Inc. Virtual touch user interface system and methods
US20130257734A1 (en) * 2012-03-30 2013-10-03 Stefan J. Marti Use of a sensor to enable touch and type modes for hands of a user via a keyboard
US10331219B2 (en) * 2013-01-04 2019-06-25 Lenovo (Singaore) Pte. Ltd. Identification and use of gestures in proximity to a sensor
WO2021091604A1 (en) * 2019-11-08 2021-05-14 Apple Inc. Machine-learning based gesture recognition using multiple sensors
US11755124B1 (en) * 2020-09-25 2023-09-12 Apple Inc. System for improving user input recognition on touch surfaces
US20240028137A1 (en) * 2022-07-22 2024-01-25 Htc Corporation System and method for remotely controlling extended reality by virtual mouse

Also Published As

Publication number Publication date
US20240103635A1 (en) 2024-03-28

Similar Documents

Publication Publication Date Title
US11803233B2 (en) IMU for touch detection
US11966510B2 (en) Object engagement based on finger manipulation data and untethered inputs
US11755124B1 (en) System for improving user input recognition on touch surfaces
US11620790B2 (en) Generating a 3D model of a fingertip for visual touch detection
US20240045501A1 (en) Directing a Virtual Agent Based on Eye Behavior of a User
US11782548B1 (en) Speed adapted touch detection
CN117762242A (zh) 在检测到外围设备上的外围事件时对手部手势的抑制
US20240331447A1 (en) Pinch Recognition and Rejection
US11768535B1 (en) Presenting computer-generated content based on extremity tracking
CN118736664A (zh) 捏合识别和拒绝
US11237671B1 (en) Temporal filter touch detection
US11698677B1 (en) Presenting a notification based on an engagement score and an interruption priority value
US11281337B1 (en) Mirror accessory for camera based touch detection
US11960657B2 (en) Targeted drop of a computer-generated object
US12008160B2 (en) Eye tracking based selection of a user interface (UI) element based on targeting criteria
US11641460B1 (en) Generating a volumetric representation of a capture region
US20230370578A1 (en) Generating and Displaying Content based on Respective Positions of Individuals
US11934584B2 (en) Finger orientation touch detection
US20230333665A1 (en) Hand Engagement Zone
US20240103634A1 (en) Motion Mapping for Continuous Gestures
CN116802589A (zh) 基于手指操纵数据和非系留输入的对象参与

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination