CN110785688A - 可穿戴系统的多模式任务执行和文本编辑 - Google Patents

可穿戴系统的多模式任务执行和文本编辑 Download PDF

Info

Publication number
CN110785688A
CN110785688A CN201880040284.3A CN201880040284A CN110785688A CN 110785688 A CN110785688 A CN 110785688A CN 201880040284 A CN201880040284 A CN 201880040284A CN 110785688 A CN110785688 A CN 110785688A
Authority
CN
China
Prior art keywords
user
input
text
virtual object
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880040284.3A
Other languages
English (en)
Other versions
CN110785688B (zh
Inventor
J·M·鲍德利
S·奈尔斯
J·M·R·迪瓦恩
A·C·卡尔森
J·索默斯
P·巴布吉德
A·S·费尔南德斯
A·R·希德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Priority to CN202110917855.0A priority Critical patent/CN113608617A/zh
Publication of CN110785688A publication Critical patent/CN110785688A/zh
Application granted granted Critical
Publication of CN110785688B publication Critical patent/CN110785688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B6/00Light guides; Structural details of arrangements comprising light guides and other optical elements, e.g. couplings
    • G02B6/0001Light guides; Structural details of arrangements comprising light guides and other optical elements, e.g. couplings specially adapted for lighting devices or systems
    • G02B6/0011Light guides; Structural details of arrangements comprising light guides and other optical elements, e.g. couplings specially adapted for lighting devices or systems the light guides being planar or of plate-like form
    • G02B6/0075Arrangements of multiple light guides
    • G02B6/0076Stacked arrangements of multiple light guides of the same or different cross-sectional area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0127Head-up displays characterised by optical features comprising devices increasing the depth of field
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Optics & Photonics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Macromonomer-Based Addition Polymer (AREA)
  • Position Input By Displaying (AREA)

Abstract

可穿戴系统和方法的示例可以使用多种输入(例如,手势、头部姿势、眼睛注视、语音和/或环境因素(例如,位置))来确定应执行的命令和应该被执行操作的三维(3D)环境中的对象。多种输入也可以由可穿戴系统使用,以允许用户与文本交互,例如,编写、选择或编辑文本。

Description

可穿戴系统的多模式任务执行和文本编辑
相关申请的交叉引用
本申请根据35 U.S.C.§119(e)要求2017年4月19日提交的名称为“MULTI-MODALCONTEXTUAL TASK EXECUTION FOR AUGMENTED REALITY(增强现实的多模式情境任务执行)”的美国临时申请No.62/487,364和2017年12月22日提交的名称为“MULTI-MODAL TEXTCOMPOSITION AND EDITING FOR AUGMENTED REALITY(增强现实的多模式文本编写和编辑)”的美国临时申请No.62/609,647的优先权,这两个申请在此通过引用整体并入本文中。
技术领域
本公开涉及虚拟现实和增强现实成像和可视化系统,更具体地说,涉及使用用户输入的组合而与三维(3D)环境中的虚拟对象或文本的交互。
背景技术
现代计算和显示技术促进了用于所谓的“虚拟现实”、“增强现实”或“混合现实”体验的系统的开发,其中数字再现的图像或其部分以它们看起来是或者可以被感觉是真实的方式呈现给用户。虚拟现实或“VR”场景通常涉及数字或虚拟图像信息的呈现,而不对其它实际的真实世界的视觉输入透明;增强现实或“AR”场景通常涉及将数字或虚拟图像信息呈现为对用户周围的现实世界的可视化的增强;混合现实或“MR”涉及将真实世界和虚拟世界合并以产生物理和虚拟对象共存并实时交互的新环境。事实证明,人类视觉感知系统非常复杂,并且产生VR、AR或MR技术具有挑战性,这些技术便于在其它虚拟或真是世界的图像元素中舒适、自然、丰富地呈现虚拟图像元素。在此公开的系统和方法解决了与VR、AR和MR技术有关的各种挑战。
发明内容
本文所述的可穿戴系统和方法的示例可以使用多个输入(例如,手势、头部姿势、眼睛注视、语音或环境因素(例如,位置))来确定应执行的命令和应该被执行操作的三维(3D)环境中的对象。多个输入也可以由可穿戴设备使用,以允许用户与文本交互,例如,编写、选择或编辑文本。
例如,可穿戴显示设备可以被配置为解析多模式输入以执行任务。可穿戴设备可以使用多个输入(例如,头部姿势、眼睛注视、手势、语音命令、环境因素(例如,用户的位置或用户周围的对象)的组合,以确定应该被可穿戴设备执行操作的用户环境中的虚拟对象、可穿戴设备可以对虚拟对象执行的操作类型,以及可穿戴设备如何执行这些操作。
作为另一示例,可穿戴设备可以被配置为解析多模式输入以便与文本交互。可穿戴设备可以使用多个输入(例如,语音输入、眼睛注视、手势和图腾输入)的组合以编写(例如,输入)和编辑文本。可穿戴设备可以允许用户利用第一输入模式(例如,语音输入)来向系统指示文本,利用不同的第二输入模式(例如,眼睛注视输入或身体姿势)来选择要编辑的本文部分,以及利用第一模式、第二模式、另一模式或它们的模式组合来编辑所选文本。
在附图和以下描述中阐述了本说明书中描述的主题的一种或多种实施方式的细节。通过说明书、附图和权利要求,其它特征、方面和优点将变得显而易见。本发明内容和以下具体实施方式都并非旨在限定或限制本发明主题的范围。
附图说明
图1示出了具有由人观看到的某些虚拟现实对象和某些物理对象的混合现实场景的图示。
图2示意性地示出了可穿戴系统的示例。
图3示意性地示出了使用多个深度平面模拟三维图像的方法的各方面。
图4示意性地示出了用于将图像信息输出给用户的波导堆叠的示例。
图5示出了可以由波导输出的示例出射光束。
图6是示出光学系统的示意图,该光学系统包括波导装置、光学耦合器子系统以及控制子系统,其中光学耦合器子系统用于将光光学耦合到波导装置或从波导装置光学耦合光,控制子系统用于产生多焦点体积显示、图像或光场。
图7是可穿戴系统的示例的框图。
图8是渲染与所识别的对象有关的虚拟内容的方法的示例的过程流程图。
图9是可穿戴系统的另一示例的框图。
图10是用于确定可穿戴系统的用户输入的方法的示例的过程流程图。
图11是用于与虚拟用户界面交互的方法的示例的过程流程图。
图12A示意性地示出了能视域(field of regard,FOR)、世界相机的视野(FOV)、用户的视野以及用户的注视视野(field of fixation)的示例。
图12B示意性地示出了用户视野中的虚拟对象和能视域中的虚拟对象的示例。
图13示出了使用一种用户输入模式与虚拟对象进行交互的示例。
图14示出了使用用户输入模式的组合来选择虚拟对象的示例。
图15示出了使用直接用户输入的组合与虚拟对象进行交互的示例。
图16示出了用于聚合输入模式的示例计算环境。
图17A示出了使用格子树(lattice tree)分析来识别目标虚拟对象的示例。
图17B示出了基于多模式输入来确定目标用户界面操作的示例。
图17C示出了聚合与虚拟对象的输入模式相关联的置信度得分的示例。
图18A和18B示出了计算用户的FOV内的对象的置信度得分的示例。
图19A和19B示出了使用多模式输入与物理环境进行交互的示例。
图20示出了基于多模式输入自动调整虚拟对象的大小的示例。
图21示出了基于对象的位置识别目标虚拟对象的示例。
图22A和22B示出了基于直接和间接输入的组合与用户环境进行交互的另一示例。
图23示出了使用多模式输入与虚拟对象进行交互的示例过程。
图24示出了设置与用户交互相关联的直接输入模式的示例。
图25示出了利用多模式输入的用户体验的示例。
图26示出了具有各种加书签的(bookmarked)应用的示例用户界面。
图27示出了当发出搜索命令时的示例用户界面。
图28A至28F示出了基于语音和注视输入的组合而编写和编辑文本的示例用户体验。
图29示出了基于来自用户输入设备和注视的输入而选择单词的示例。
图30示出了基于语音和注视输入的组合而选择单词进行编辑的示例。
图31示出了基于注视和手势输入的组合而选择单词进行编辑的示例。
图32示出了基于眼睛注视和语音输入的组合而替换单词的示例。
图33示出了基于语音和注视输入的组合而更改单词的示例。
图34示出了使用虚拟键盘编辑所选单词的示例。
图35示出了显示应用于所选单词的可能的动作的示例用户界面。
图36示出了使用多模式输入与短语进行交互的示例。
图37A和37B示出了使用多模式输入与文本进行交互的另外的示例。
图38是使用多个用户输入模式与文本进行交互的示例方法的过程流程图。
在全部附图中,参考标号可以被重复使用来指示被引用的要素之间的对应关系。提供附图是为了示例本文中描述的示例性实施例,而非旨在限制本公开的范围。
具体实施方式
概述
现代计算系统可以具有各种用户交互。可穿戴设备可以呈现交互式VR/AR/MR环境,该环境可以包括可通过各种输入与用户交互的数据元素。现代计算系统通常被设计为基于单个直接输入而生成给定输出。例如,键盘将中继通过用户的手指滑动接收到的文本输入。语音识别应用可以基于作为直接输入的用户语音而创建可执行数据字符串。计算机鼠标可以响应于用户的直接操纵(例如,用户的手部动作或手势)而引导光标。用户可以与系统进行交互的各种方式有时在本文中被称为用户输入模式。例如,经由鼠标或键盘的用户输入是基于手势的交互模式(因为手的手指按下了键盘上的键或手移动了鼠标)。
然而,数据丰富和动态交互环境(例如,AR/VR/MR环境)中的诸如键盘、用户输入设备、手势等的常规输入技术可能需要高度的特异性来完成所需的任务。否则,在没有精确输入的情况下,计算系统可能发生高错误率,并且可能导致执行不正确的计算机操作。例如,当用户打算使用触摸板在3D空间中移动对象时,如果用户未指定目的地或未使用触摸板指定对象,则计算系统可能无法正确解释移动命令。作为另一示例,使用虚拟键盘(例如,通过用户输入设备操纵或通过手势操作)作为唯一的输入模式来输入文本字符串可能会很慢并且产生物理疲劳,因为这需要长时间的精细运动控制才能在呈现虚拟键盘的空中或物理表面(例如,桌子)上键入描述的按键。
为了降低输入命令中所需的特异性程度并降低与不精确命令相关的错误率,可以对本文所述的可穿戴系统进行编程,以应用多模式输入来执行交互事件,例如用于选择、移动、调整虚拟对象的大小或将虚拟对象作为目标的任务。交互事件可以包括使与虚拟对象相关联的应用执行(例如,如果目标对象是媒体播放器,则交互事件可以包括使媒体播放器播放歌曲或视频)。选择目标虚拟对象可以包括执行与目标虚拟对象相关联的应用。多模式输入利用两种或更多种类型的输入(或来自多个输入通道的输入)来生成用于执行任务的命令。如本文将进一步解释的,输入模式可以包括但不限于手势、头部姿势、眼睛注视、语音命令、环境输入(例如,用户或对象在用户环境中的位置)等。例如,当用户说“将那个移动到那儿(move that there)”时,可穿戴系统可以响应于这些多模式输入,使用头部姿势、眼睛注视、手势以及其它环境因素(例如,用户的位置或用户周围的对象的位置)结合该语音命令来确定应该移动的对象(例如,哪个对象是“那个(that)”)以及打算到达的目的地(例如,“那儿(there)”)。
如本文将进一步描述的,用于多模式输入的技术不仅是多个用户输入模式的聚合。相反,采用这种技术的可穿戴系统可以有利地支持在可穿戴系统中提供的3D(与传统2D交互相比)中增加的深度维度。增加的维度不仅允许附加类型的用户交互(例如,在笛卡尔坐标系中沿附加轴的旋转或运动),而且还需要高准确度的用户输入以提供正确的结果。然而,由于用户对运动控制的限制,用于与虚拟对象进行交互的用户输入并不总是准确的。尽管传统的输入技术可以校准和调整2D空间中用户运动控制的不准确度,但是由于增加了维度,这种不准确度在3D空间中被放大。然而,传统的输入法(例如,键盘输入)不能很好地适于调整3D空间中的此类不准确度。因此,多模式输入技术提供的一个好处(除其它好处之外)是使传统输入方法适于与3D空间中的对象进行流畅且更准确的交互。
另外,有利地,在一些实施例中,本文所述的技术可以减少硬件要求和可穿戴系统的成本。例如,可穿戴设备可以结合语音命令使用低分辨率眼睛跟踪相机来执行任务,而不是单独使用高分辨率眼睛跟踪相机(其使用起来可能很昂贵并且很复杂)来基于用户眼睛注视方向和语音命令的多模式组合确定任务。在该示例中,使用用户的语音命令可以补偿执行眼睛跟踪时的较低分辨率。因此,与使用单个输入模式相比,多个用户输入模式的多模式组合可以提供成本更低、复杂度更小,以及更稳健的与AR/VR/MR设备的用户交互。参考图13至27进一步描述与用于与虚拟对象进行交互的多模式输入有关的技术的其它好处和示例。
可穿戴系统还可以有利地支持使用多模式输入控制与文本的交互。如前所述,在AR/VR/MR环境中,单独使用的常规输入技术存在问题。例如,利用用户输入设备、手势或眼睛注视的输入(例如,通过与虚拟键盘的交互)需要精细的运动控制,因此会是缓慢的且令人疲劳。在通过注视操纵字符插入的情况下的虚拟键盘在文本输入速度方面具有较低的上限(例如,估计为每分钟约10到35个单词(word))。语音输入虽然速度很快(例如,估计为每分钟约100到150个单词),但是容易出错,这是因为存在识别错误或不流畅的假象(例如出于各种原因,如发音不佳、环境噪音、使用同音异义词、使用特殊的或只是不常见的词汇等)。由于在缺少非常精确的命令集的情况下难以进行选择和替代,因此使用单模式输入进行文本编辑(例如,由于其它原因而纠正错误)会极具挑战性。
有利地,在一些实施例中,本文所述的可穿戴系统可通过以下方式便于包括混合现实系统的各种系统中的文本输入和编辑:组合可用的输入方法,并且使用户能够利用用户输入的组合来实现与文本的有效交互(例如,编写、选择和编辑文本)。例如,语音可以被用作将文本输入到系统中的主要方法。通常,可以将语音与眼睛注视结合起来,作为选择用于进行编辑和修改的文本和操纵图形用户界面元素的方法。可穿戴系统还可以使用交互模式(例如,使用注视进行选择和使用语音进行替换)的组合来执行任何给定任务(例如,用不同的字符串替换特定的文本字符串)。
因此,如将参考图28A至图38进一步描述的,可穿戴系统为用户提供了使用语音编写文本消息以及使用注视或不同于语音的另一类型的输入(例如,身体姿势)编辑此类消息的能力。可穿戴系统可以被配置为接收音频输入,例如来自用户的语音输入(例如,说话)或来自环境的声音,生成语音输入的转录(transcription)(例如,使用自动语音识别(ASR)),向用户呈现所生成的转录的文本表示(例如,混合现实中显示的文本字符),接收来自用户的另一类型的输入(例如,注视输入、手势输入等),并基于从用户处接收的另外类型的输入来选择和编辑转录的一部分。
通过以这种方式组合用户输入模式,文本编写和编辑过程可以更快且更直观,这是因为对于编写而言,语音输入可以比注视输入更有效(例如,注视打字可能会使人疲劳),并且对于编辑而言,注视输入(或手势输入)可能比语音输入更有效(例如,使用语音选择或更改已转录的消息容易出错)。
可穿戴系统的3D显示的示例
可穿戴系统(这里也被称为增强现实(AR)系统)可以被配置为向用户呈现2D或3D虚拟图像。图像可以是静止图像、视频帧或视频、上述项的组合等等。可穿戴系统可以包括可穿戴设备,可穿戴设备可以单独或组合地呈现环境中的VR、AR或MR内容以用于用户交互。可穿戴设备可以是头戴式设备(HMD),头戴式设备可以包括头戴式显示器。在一些情况下,可穿戴设备可以可互换地被称为AR设备(ARD)。
图1示出了具有由人观看到的某些虚拟现实对象以及某些物理对象的混合现实场景的图示。在图1中,示出了MR场景100,其中MR技术的用户看到以人、树木、背景中的建筑物以及混凝土平台120为特征的真实世界公园状设置110。除了这些项目之外,MR技术的用户还感知他“看到”站在真实世界平台120上的机器人雕像130,以及看起来像大黄蜂的化身的飞舞的卡通式的化身角色140,尽管这些元素不存在于真实世界中。
为了使3D显示器产生真实的深度感觉,更具体地,模拟的表面深度感觉,可能期望显示器的视野中的每个点产生与其虚拟深度对应的调节响应(accommodative response)。如果对显示点的调节响应不对应于该点的虚拟深度(由汇聚和立体视觉的双眼深度线索确定),则人眼可能经历调节冲突,导致成像不稳定、有害的眼部紧张、头痛,并且在没有调节信息的情况下,几乎完全缺乏表面深度。
VR、AR和MR体验可以由具有显示器的显示系统提供,在显示器中,对应于多个渲染平面的图像被提供给观看者。渲染平面可以对应于一个深度平面或多个深度平面。对于每个渲染平面,图像可以是不同的(例如,提供稍微不同的场景或对象呈现),并且可以由观看者的眼睛单独聚焦,从而有助于基于眼睛的调节(需要这种调节以使位于不同渲染平面上的场景的不同图像特征聚焦),或者基于观察到不同渲染平面上的不同图像特征脱焦,为用户提供深度线索。如本文其它地方所讨论的,这种深度线索提供了可靠的深度感。
图2示例出可穿戴系统200的示例。可穿戴系统200包括显示器220以及支持该显示器220的功能的各种机械和电子模块和系统。显示器220可以被耦接到框架230,该框架可由用户、穿戴者或观看者210穿戴。显示器220可以被定位在用户210的眼睛的前方。显示器220可以向用户呈现AR/VR/MR内容。显示器220可以包括穿戴在用户头部上的头戴式显示器(HMD)。在一些实施例中,扬声器240被耦接到框架230并且被定位在用户的耳道附近(在一些实施例中,另一扬声器(未示出)可以被定位在用户的另一耳道附近以提供立体声/可塑形的声音控制)。显示器220可以包括音频传感器232(例如,麦克风)以检测来自环境的被执行语音识别的音频流。
可穿戴系统200可包括面向外的成像系统464(如图4所示),其观察用户周围环境中的世界。可穿戴系统200可以还包括面向内的成像系统462(如图4所示),其可以跟踪用户的眼睛运动。面向内的成像系统可以跟踪一只眼睛的运动或全部两只眼睛的运动。面向内的成像系统462可以被附接到框架230并且可以与处理模块260或270电通信,处理模块260或270可以处理由面向内的成像系统获取的图像信息以确定例如用户210的眼睛的瞳孔直径或取向、眼睛运动或眼睛姿势。
作为示例,可穿戴系统200可以使用面向外的成像系统464或面向内的成像系统462来获取用户姿势的图像。图像可以是静止图像、视频帧或视频,上述项的组合等等。
显示器220可以例如通过有线引线或无线连接可操作地耦接250到本地数据处理模块260,本地数据处理模块260可以以各种配置安装,例如固定地附接到框架230,固定地附接到用户戴的头盔或帽子,嵌入在耳机中,或以其它方式可移除地附接到用户210(例如,采取背包式配置,采取腰带耦接式配置)。
本地处理和数据模块260可以包括硬件处理器以及诸如非易失性存储器(例如,闪速存储器)的数字存储器,二者都可用于辅助数据的处理、缓存以及存储。数据可以包括如下数据:a)从环境传感器(其可以例如可操作地耦接到框架230或以其它方式附接到用户210)、音频传感器232(例如,麦克风)捕获的数据;或b)使用远程处理模块270或远程数据储存库280获取或处理的数据,可能在这样的处理或检索之后传递给显示器220。本地处理和数据模块260可以通过通信链路262或264(诸如经由有线或无线通信链路)可操作地耦接到远程处理模块270或远程数据储存库280,使得这些远程模块作为资源可用于本地处理和数据模块260。另外,远程处理模块280和远程数据储存库280可以可操作地相互耦接。
在一些实施例中,远程处理模块270可以包括一个或多个处理器,其被配置为分析和处理数据和/或图像信息。在一些实施例中,远程数据储存库280可以包括数字数据存储设施,其可以通过互联网或其它网络配置以“云”资源配置而可用。在一些实施例中,在本地处理和数据模块中存储全部数据,并且执行全部计算,允许从远程模块完全自主使用。
作为图2中描述的组件的补充或替代,可穿戴系统200可以包括环境传感器,以检测对象、刺激、人、动物、位置或用户周围的世界的其它方面。环境传感器可以包括图像捕获设备(例如,相机、面向内的成像系统、面向外的成像系统等)、麦克风、惯性测量单元(IMU)、加速度计、磁力计(罗盘)、全球定位系统(GPS)单元、无线电设备、陀螺仪、高度计、气压计、化学传感器、湿度传感器、温度传感器、外部麦克风、光传感器(例如、光度计)、定时装置(例如,时钟或日历),或其任何组合或子组合。在某些实施例中,IMU可以是九轴IMU,其可以包括三轴陀螺仪、三轴加速度计和三轴磁力计。
环境传感器还可以包括各种生理传感器。这些传感器可以测量或估计用户的生理参数,例如心率、呼吸率、皮肤电反应、血压、脑电状态等。环境传感器还可以包括发射装置,其被配置为接收诸如激光、可见光、不可见波长光或声音(例如,可听声音、超声波或其它频率)之类的信号。在一些实施例中,一个或多个环境传感器(例如,相机或光传感器)可以被配置为测量环境的环境光(例如,亮度)(例如,以捕获环境的照明条件)。物理接触传感器(例如应变仪、路缘探测器等)也可以被包括作为环境传感器。
人类视觉系统复杂,并且提供深度的逼真感知是具挑战性的。不受理论的限制,据信对象的观看者可能由于聚散度和调节的组合而将该对象感知为“三维的”。两只眼睛相对于彼此的聚散运动(例如,瞳孔朝向彼此或远离彼此的滚动运动,以会聚眼睛的视线来注视对象)与眼睛晶状体的聚焦(或“调节”)密切相关。在正常情况下,改变眼睛晶状体的焦点或调节眼睛,以将焦点从一个对象改变到在不同距离处的另一个对象,这将会在被称为“调节-聚散度反射(accommodation-vergence reflex)”的关系下自动地导致到相同的距离的聚散度的匹配改变。同样,在正常情况下,聚散度的改变将引发调节的匹配改变。提供调节和聚散度之间的更好匹配的显示系统可以形成更逼真且舒适的三维图像模拟。
图3示出了使用多个渲染平面来模拟三维图像的方法的方面。参考图3,在z轴上距眼睛302和眼睛304的不同距离处的对象由眼睛302和眼睛304调节,以使得这些对象在焦点中。眼睛302和眼睛304采取特定的调节状态,以使沿着z轴的不同距离处的对象进入焦点。因此,可以说特定的调节状态与渲染平面306中的特定一个渲染平面相关联,该特定渲染平面具有相关联的焦距,以使得当眼睛处于特定渲染平面的调节状态时,该渲染平面中的对象或对象的部分被聚焦。在一些实施例中,可以通过为眼睛302和304中的每一只眼睛提供图像的不同呈现,并且还通过提供与渲染平面中每一个渲染平面对应的图像的不同呈现,来模拟三维图像。尽管为了清楚说明而被示出为分离的,但应理解的是,例如随着沿z轴的距离增加,眼睛302和眼睛304的视野可能重叠。另外,虽然为了便于说明而被示出为平坦的,但应理解的是,渲染平面的轮廓在物理空间中可以是弯曲的,使得渲染平面中的所有特征在特定的调节状态下与眼睛对焦。不受理论的限制,据信人类眼睛通常可以解释有限数量的渲染平面以提供深度感知。因此,通过向眼睛提供与这些有限数量的渲染平面中的每一个渲染平面对应的图像的不同呈现,可以实现所感知的深度的高度可信的模拟。
波导堆叠组件
图4示出了用于将图像信息输出给用户的波导堆叠的示例。可穿戴系统400包括波导堆叠或堆叠波导组件480,其可用于使用多个波导432b、434b、436b、438b、4400b向眼睛/大脑提供三维感知。在一些实施例中,可穿戴系统400可以对应于图2的可穿戴系统200,图4更详细地示意性地示出了该可穿戴系统200的一些部分。例如,在一些实施例中,波导组件480可以被集成到图2的显示器220中。
继续参考图4,波导组件480可以还包括位于波导之间的多个特征458、456、454、452。在一些实施例中,特征458、456、454、452可以是透镜。在其它实施例中,特征458、456、454、452可以不是透镜。相反,它们可以简单地是间隔物(例如,包层和/或用于形成气隙的结构)。
波导432b、434b、436b、438b、440b或多个透镜458、456、454、452可以被配置为以各种级别的波前曲率或光线发散度向眼睛发送图像信息。每个波导级别可以与特定渲染平面相关联,并且可以被配置为输出对应于该渲染平面的图像信息。图像注入装置420、422、424、426、428可用于将图像信息注入到波导440b、438b、436b、434b、432b中,每个波导可以被配置为分配入射光穿过每个相应的波导以便朝着眼睛410输出。光从图像注入装置420、422、424、426、428的输出表面射出,并且被注入到波导440b、438b、436b、434b、432b的相应输入边缘。在一些实施例中,可以将单个光束(例如准直光束)注入到每个波导中,以输出克隆的准直光束的整个场,这些克隆的准直光束以对应于与特定波导相关联的渲染平面的特定角度(和发散量)朝向眼睛410定向。
在一些实施例中,图像注入装置420、422、424、426、428是分立的显示器,每个显示器产生用于分别注入到相应波导440b、438b、436b、434b、432b中的图像信息。在一些其它实施例中,图像注入装420、422、424、426、428是单个多路复用显示器的输出端,其可以例如经由一个或多个光导管(例如光纤电缆)将图像信息管道传输到图像注入装置420、422、424、426、428中的每一者。
控制器460控制堆叠波导组件480和图像注入装置420、422、424、426、428的操作。控制器460包括编程(例如,非暂时性计算机可读介质中的指令),该编程调节到波导440b、438b、436b、434b、432b的图像信息的定时和提供。在一些实施例中,控制器460可以是单个整体设备,或者是通过有线或无线通信信道连接的分布式系统。在一些实施例中,控制器460可以是处理模块260或270(如图2所示)的部分。
波导440b、438b、436b、434b、432b可以被配置为通过全内反射(TIR)在每一个相应的波导内传播光。波导440b、438b、436b、434b、432b可以各自是平面的或具有其它形状(例如,弯曲),具有顶部和底部主表面以及在这些顶部和底部主表面之间延伸的边缘。在所示的配置中,波导440b、438b、436b、434b、432b可以各自包括光提取光学元件440a、438a、436a、434a、432a,这些光提取光学元件被配置为通过将每一个相应波导内传播的光重定向而将光提取到波导外,以向眼睛410输出图像信息。提取的光也可以被称为耦出光,并且光提取光学元件也可以被称为耦出光学元件。提取的光束在波导中传播的光照射光重定向元件的位置处被波导输出。光提取光学元件(440a、438a、436a、434a、432a)可以例如是反射或衍射光学特征。虽然为了便于描述和清晰绘图起见而将其图示设置在波导440b、438b、436b、434b、432b的底部主表面处,但是在一些实施例中,光提取光学元件440a、438a、436a、434a、432a可以设置在顶部或底部主表面处,或可以直接设置在波导440b、438b、436b、434b、432b的体积中。在一些实施例中,光提取光学元件440a、438a、436a、434a、432a可以形成在被附接到透明基板的材料层中以形成波导440b、438b、436b、434b、432b。在一些其它实施例中,波导440b、438b、436b、434b、432b可以是单片材料,并且光提取光学元件440a、438a、436a、434a、432a可以形成在那片材料的表面上或那片材料的内部中。
继续参考图4,如本文所讨论的,每一个波导440b、438b、436b、434b、432b被配置为输出光以形成与特定渲染平面对应的图像。例如,最接近眼睛的波导432b可以被配置为将如注入到这种波导432b中的准直光传送到眼睛410。准直光可以代表光学无限远焦平面。下一上行波导434b可以被配置为将传输通过第一透镜452(例如,负透镜)的准直光在其可以到达眼睛410之前发出。第一透镜452可以被配置为产生轻微凸面的波前曲率,使得眼睛/大脑将来自该下一上行波导434b的光解释为来自第一焦平面,该第一焦平面从光学无限远处向内更靠近眼睛410。类似地,第三上行波导436b将输出光在到达眼睛410之前传输通过第一透镜452和第二透镜454。第一透镜452和第二透镜454的组合光焦度(optical power)可被配置为产生波前曲率的另一增量,以使得眼睛/大脑将来自第三波导436b的光解释为来自第二焦平面,该第二焦平面从光学无穷远比来自所述下一上行波导434b的光更向内靠近人。
其它波导层(例如,波导438b、440b)和透镜(例如,透镜456、458)被类似地配置,其中堆叠中的最高波导440b通过它与眼睛之间的全部透镜发送其输出,用于代表最靠近人的焦平面的总(aggregate)焦度。当在堆叠波导组件480的另一侧上观看/解释来自世界470的光时,为了补偿透镜458、456、454、452的堆叠,补偿透镜层430可以被设置在堆叠的顶部处以补偿下面的透镜堆叠458、456、454、452的总焦度。这种配置提供了与可用波导/透镜配对一样多的感知焦平面。波导的光提取光学元件和透镜的聚焦方面可以是静态的(例如,不是动态的或电激活的)。在一些替代实施例中,两者之一或者两者都可以使用电激活特征而为动态的。
继续参考图4,光提取光学元件440a、438a、436a、434a、432a可以被配置为将光重定向出它们各自的波导并且针对与波导相关联的特定渲染平面以适当的发散量或准直度输出该光。结果,具有不同相关联渲染平面的波导可具有不同的光提取光学元件配置,其取决于相关联的渲染平面而输出具有不同发散量的光。在一些实施例中,如本文所讨论的,光提取光学元件440a、438a、436a、434a、432a可以是体积或表面特征,其可以被配置为以特定角度输出光。例如,光提取光学元件440a、438a、436a、434a、432a可以是体积全息图、表面全息图和/或衍射光栅。在2015年6月25日公开的美国专利公开No.2015/0178939中描述了诸如衍射光栅的光提取光学元件,其通过引用全部并入本文中。
在一些实施例中,光提取光学元件440a、438a、436a、434a、432a是形成衍射图案的衍射特征或“衍射光学元件”(本文中也称为“DOE”)。优选地,DOE具有相对较低的衍射效率,以使得仅光束的一部分通过DOE的每一个交点偏转向眼睛410,而其余部分经由全内反射继续移动通过波导。携带图像信息的光因此可被分成多个相关的出射光束,这些出射光束在多个位置处离开波导,并且该结果对于在波导内反弹的该特定准直光束是朝向眼睛304的相当均匀图案的出射发射。
在一些实施例中,一个或多个DOE可以在它们活跃地衍射的“开”状态和它们不显著衍射的“关”状态之间可切换。例如,可切换的DOE可以包括聚合物分散液晶层,其中微滴在基体介质中包含衍射图案,并且微滴的折射率可以被切换为基本上匹配基体材料的折射率(在这种情况下,图案不明显地衍射入射光),或者微滴可以被切换为与基体介质的折射率不匹配的折射率(在这种情况下,该图案活跃地衍射入射光)。
在一些实施例中,渲染平面的数量和分布或景深可以基于观看者的眼睛的瞳孔大小或取向而动态地改变。景深可以与观看者的瞳孔大小成反比地改变。因此,随着观看者眼睛的瞳孔大小减小时,景深增加,使得由于一个平面的位置超出了眼睛的焦点深度而不可辨别的该平面可能变得可辨别,并且随着瞳孔大小的减小表现为更聚焦,而且与景深的增加相称。同样地,用于向观看者呈现不同图像的间隔开的渲染平面的数量可以随着瞳孔大小的减小而减小。例如,观看者在不将眼睛的调节从一个渲染平面调整到另一个渲染平面的情况下,可能不能以一个瞳孔大小清楚地感知第一渲染平面和第二渲染平面两者的细节。然而,这两个渲染平面可以在不改变调节的情况下,对于处于另一瞳孔大小的用户同时充分地聚焦。
在一些实施例中,显示系统可以基于瞳孔大小或取向的确定,或在接收到指示特定瞳孔大小或取向的电信号时,改变接收图像信息的波导的数量。例如,如果用户的眼睛不能区分与两个波导相关联的两个深度平面,则控制器460可以被配置或编程为停止向这些波导中的一个提供图像信息。有利地,这可以减轻系统的处理负担,从而增加系统的响应性。在其中用于一波导的DOE可在接通和关断状态之间切换的实施例中,当波导确实接收图像信息时,DOE可以被切换到关断状态。
在一些实施例中,可能期望使出射光束满足直径小于观看者眼睛直径的条件。然而,考虑到观看者的瞳孔大小的可变性,满足这种条件可能是具有挑战性的。在一些实施例中,通过响应于观看者的瞳孔大小的确定而改变出射光束的大小,该条件在宽范围的瞳孔大小上满足。例如,随着瞳孔大小减小,出射光束的大小也可以减小。在一些实施例中,可以使用可变光圈来改变出射光束大小。
可穿戴系统400可包括面向外的成像系统464(例如,数字相机),其对世界470的一部分进行成像。世界470的该部分可被称为世界相机的视野(FOV),并且成像系统464有时被称为FOV相机。可供观看者观看或成像的整个区域可被称为能视域(FOR)。因为穿戴者可以移动其身体、头部或眼睛以感知空间中的基本上任何方向,FOR可以包括围绕可穿戴系统400的立体角的4π球面度。在其它情况下,穿戴者的运动可能更受限制,相应地,穿戴者的FOR可以对着更小的立体角。从面向外的成像系统464获得的图像可用于跟踪用户做出的手势(例如手或手指的姿势),检测用户前方的世界470中的对象等等。
可穿戴系统400还可以包括面向内的成像系统462(例如,数码相机),其观察用户的运动,诸如眼睛运动和面部运动。面向内的成像系统462可以用于捕获眼睛410的图像以确定眼睛304的瞳孔的大小和/或取向。面向内的成像系统462可以用于获得图像,用于确定用户正在观看的方向(例如,眼睛姿势)或用于用户的生物测定识别(例如,经由虹膜识别)。在一些实施例中,可以为每只眼睛利用至少一个相机,以独立地分别确定每只眼睛的瞳孔大小或眼睛姿势,由此允许向每只眼睛呈现图像信息以动态地适合该眼睛。在一些其它实施例中,仅单个眼睛410的瞳孔直径或取向(例如,每对眼睛仅使用单个相机)被确定并假定对于用户的双眼是相似的。可以分析由面向内的成像系统462获得的图像以确定用户的眼睛姿势或情绪,其可由可穿戴系统400使用来决定应该向用户呈现哪些音频或视觉内容。可穿戴系统400还可以使用诸如IMU、加速度计、陀螺仪等的传感器来确定头部姿势(例如,头部位置或头部取向)。
可穿戴系统400可以包括用户输入设备466,通过该用户输入设备466用户可以向控制器460输入命令以与可穿戴系统400交互。例如,用户输入设备466可以包括触控板、触摸屏、操纵杆、多自由度(DOF)控制器、电容感测设备、游戏控制器、键盘、鼠标、方向垫(D-pad)、魔杖、触觉设备、图腾(例如,用作虚拟用户输入设备)等等。多DOF控制器可以感测控制器的部分或全部可能的平移(例如,左/右、前/后、或上/下)或旋转(例如,偏航、俯仰或翻滚)方面的用户输入。支持平移运动的多DOF控制器可以被称为3DOF,而支持平移和旋转的多DOF控制器可以被称为6DOF。在一些情况下,用户可以使用手指(例如,拇指)在触敏输入设备上按压或轻扫以向可穿戴系统400提供输入(例如,以将用户输入提供给由可穿戴系统400提供的用户界面)。用户输入设备466可以在使用可穿戴系统400期间由用户的手保持。用户输入设备466可以与可穿戴系统400进行有线或无线通信。
图5示出了由波导输出的出射光束的示例。示出了一个波导,但是应该理解的是,波导组件480中的其它波导可以类似地起作用,其中波导组件480包括多个波导。光520在波导432b的输入边缘432c处被注入到波导432b中,并且通过TIR在波导432b内传播。在光520照射在DOE 432a上的点处,一部分光作为出射光束510离开波导。出射光束510被示出为基本上平行,但是取决于与波导432b相关联的渲染平面,该出射光束510也可以以一定角度(例如,形成发散的出射光束)被重定向以传播到眼睛410。应该理解的是,基本上平行的出射光束可以指示具有光提取光学元件的波导,其中光提取光学元件将光耦出以形成看起来被设置在距眼睛410较大距离(例如,光学无穷远)处的渲染平面上的图像。其它波导或者其它光提取光学元件组可以输出更加发散的出射光束图案,这将需要眼睛410调节到更近距离以将其聚焦在视网膜上并且将被大脑解释为来自比光学无穷远更靠近眼睛410的距离的光。
图6是示出了包括波导装置、将光光学耦合到波导装置或从波导装置光学耦合光的光耦合器子系统、以及控制子系统的光学系统的示意图,该光学系统用于生成多焦点立体显示、图像或光场。该光学系统可以包括波导装置、将光光学耦合到波导装置或从波导装置光学耦合光的光耦合器子系统,以及控制子系统。该光学系统可以用于生成多焦点立体、图像或光场。该光学系统可以包括一个或多个主平面波导632a(在图6中仅示出一个)以及与至少一些主波导632a中的每一个主波导相关联的一个或多个DOE 632b。平面波导632b可以类似于参考图4讨论的波导432b、434b、436b、438b、440b。该光学系统可以使用分布波导装置以沿着第一轴(图6的视图中的垂直轴或Y轴)中继光,并且沿着第一轴(例如,Y轴)扩展光的有效出射光瞳。分布波导装置可以例如包括分布平面波导622b和与分布平面波导622b相关联的至少一个DOE 622a(由双点划线示出)。分布平面波导622b在至少一些方面可以与主平面波导632b相似或相同,但具有与其不同的取向。类似地,至少一个DOE 622a在至少一些方面可以与DOE 632a相似或相同。例如,分布平面波导622b或DOE 622a可以分别由与主平面波导632b或DOE 632a相同的材料构成。图6中所示的光学显示系统600的实施例可以被集成到图2中所示的可穿戴显示系统200中。
中继的和出射光瞳扩展的光可从分布波导装置被光学耦合到一个或多个主平面波导632b中。主平面波导632b可以沿着优选地与第一轴正交的第二轴(例如,图6的视图中的水平轴或X轴)中继光。值得注意的是,第二轴可以是与第一轴非正交的轴。主平面波导632b沿着该第二轴(例如,X轴)扩展光的有效出射光瞳。例如,分布平面波导622b可以沿着垂直轴或Y轴中继和扩展光,并且将该光传递到可以沿着水平轴或X轴中继和扩展光的主平面波导632b。
该光学系统可以包括一个或多个彩色光源(例如,红色、绿色和蓝色激光)610,这些彩色光源可以被光学耦合到单模光纤640的近端中。可以穿过压电材料的中空管642来通过或接收光纤640的远端。远端作为非固定柔性悬臂644从管642突出。压电管642可以与四个象限电极(未示出)相关联。例如,电极可以被镀在管642的外侧、外表面或外周或外径上。芯电极(未示出)也可以位于管642的芯、中心、内周或内径中。
例如经由导线660电耦接的驱动电子器件650驱动相对的电极对以独立地在两个轴上弯曲压电管642。光纤644的突出远端顶端具有机械共振模式。共振的频率可以取决于光纤644的直径、长度和材料特性。通过在光纤悬臂644的第一机械共振模式附近振动压电管642,可以使得光纤悬臂644振动,并且可以扫过大的偏转。
通过激发两个轴上的共振,光纤悬臂644的顶端在遍及二维(2-D)扫描的区域中双轴扫描。通过与光纤悬臂644的扫描同步地调制一个或多个光源610的强度,从光纤悬臂644出射的光可以形成图像。美国专利公开No.2014/0003762中提供了这样的设置的描述,其通过引用全部并入本文中。
光学耦合器子系统的部件可以准直从扫描光纤悬臂644出射的光。准直光可以被镜面648反射到包含至少一个衍射光学元件(DOE)622a的窄分布平面波导622b中。准直光可以通过TIR沿分布平面波导622b垂直地(相对于图6的视图)传播,并且在这样做时与DOE622a反复相交。DOE622a优选具有低衍射效率。这可导致一部分(例如,10%)光在与DOE622a的每个交点处被衍射朝向较大的主平面波导632b的边缘,并且一部分光通过TIR在其原始轨迹上继续沿分布平面波导622b的长度向下。
在与DOE 622a的每个交点处,附加光可以被衍射向主波导632b的入口。通过将入射光分成多个耦出组,光的出射光瞳可以在分布平面波导622b中被DOE 4垂直地扩展。从分布平面波导622b耦出的该垂直扩展的光可以进入主平面波导632b的边缘。
进入主波导632b的光可以经由TIR沿着主波导632b水平(相对于图6的视图)传播。由于光通过TIR沿着主波导632b的长度的至少一部分水平传播,因此光在多个点处与DOE632a相交。DOE 632a可以有利地被设计或构造成具有相位轮廓,该相位轮廓是线性衍射图案和径向对称衍射图案的总和,以产生光的偏转和聚焦。DOE 632a可以有利地具有低衍射效率(例如,10%),使得DOE 632a的每个交点只有一部分光束的光朝着视图的眼睛偏转,而其余的光经由TIR通过波导632b继续传播。
在传播光和DOE 632a之间的每个交点处,一部分光朝着主波导632b的相邻面衍射,从而允许光脱离TIR,并且从主波导632b的面出射。在一些实施例中,DOE 632a的径向对称衍射图案另外向衍射光赋予聚焦水平,既对单独的光束的光波前(例如,赋予曲率)进行整形,也以与设计的聚焦水平相匹配的角度使光束转向。
因此,这些不同的路径可以通过多个DOE 632a以不同的角度、聚焦水平和/或在出射光瞳处产生不同的填充图案来使光耦合出主平面波导632b。出射光瞳处的不同填充图案可以有利地被用于创建具有多个深度平面的光场显示。波导组件中的每一层或堆叠中的一组层(例如3层)可被用于产生相应的颜色(例如,红色、蓝色、绿色)。因此,例如,可以采用第一组的三个相邻层在第一焦深处分别产生红光、蓝光和绿光。可以采用第二组的三个相邻层在第二焦深处分别产生红光、蓝光和绿光。可以采用多个组来产生具有各种焦深的全3D或4D彩色图像光场。
可穿戴系统的其它部件
在许多实施方式中,可穿戴系统可以包括其它部件,作为上述可穿戴系统的部件的补充或替代。可穿戴系统例如可以包括一个或多个触觉设备或部件。触觉设备或部件可以用于向用户提供触觉。例如,触觉设备或部件可以在触摸虚拟内容(例如,虚拟对象、虚拟工具、其它虚拟构造)时提供压力或纹理的触觉。触觉可以复制虚拟对象表示的物理对象的感觉,或者可以复制虚拟内容表示的想象的对象或角色(例如,龙)的感觉。在一些实施方式中,触觉设备或部件可由用户穿戴(例如,用户可穿戴的手套)。在一些实施方式中,触觉设备或部件可以由用户保持。
可穿戴系统例如可以包括可由用户操纵的一个或多个物理对象以允许输入或与可穿戴系统进行交互。这些物理对象在本文中可以被称为图腾。一些图腾可采取无生命对象的形式,诸如例如金属或塑料块、墙壁、桌子的表面。在某些实施方式中,图腾可能实际上不具有任何物理输入结构(例如,键、触发器、操纵杆、轨迹球、摇杆开关)。相反,图腾可以简单地提供物理表面,并且可穿戴系统可以呈现用户界面,以便对于用户而言看起来在图腾的一个或多个表面上。例如,可穿戴系统可以使计算机键盘和触控板的图像看起来驻留在图腾的一个或多个表面上。例如,可穿戴系统可以使虚拟计算机键盘和虚拟触控板看起来在作为图腾的铝的薄矩形板的表面上。矩形板本身没有任何物理键或触控板或传感器。然而,可穿戴系统可以检测用户操纵或交互或触摸该矩形板作为经由虚拟键盘或虚拟触控板进行的选择或输入。用户输入设备466(在图4中示出)可以是图腾的实施例,其可以包括触控板、触摸板、触发器、操纵杆、轨迹球、摇杆或虚拟开关、鼠标、键盘、多自由度控制器或另一物理输入设备。用户可以单独或与姿势结合使用图腾,以与可穿戴系统或其它用户进行交互。
在美国专利公开No.2015/0016777中描述了可用于本公开的可穿戴设备、HMD和显示系统的触觉设备和图腾的示例,其全部内容通过引用并入本文中。
可穿戴系统、环境和接口的示例
可穿戴系统可以采用各种与地图绘制相关的技术,以便在所呈现的光场中实现高景深。在绘制出虚拟世界时,了解真实世界中的所有特征和点以准确描绘与真实世界相关的虚拟对象是有利的。为此,可以通过包括传达关于真实世界的各种点和特征的信息的新图片,将从可穿戴系统的用户捕获的FOV图像添加到世界模型。例如,可穿戴系统可以收集一组地图点(诸如2D点或3D点)并找到新的地图点(map point)以呈现的世界模型的更精确版本。可以将第一用户的世界模型(例如,通过诸如云网络的网络)传达给第二用户,使得第二用户可以体验围绕第一用户的世界。
图7是MR环境700的示例的框图。MR环境700可以被配置为接收来自一个或多个用户可穿戴系统(例如,可穿戴系统200或显示系统220)或固定房间系统(例如,室内相机等)的输入(例如,来自用户的可穿戴系统的视觉输入702、诸如房间相机的固定输入704、来自各种传感器的传感器输入706、来自用户输入设备466的用户输入、手势、图腾、眼睛跟踪等)。可穿戴系统可以使用各种传感器(例如,加速度计、陀螺仪、温度传感器、移动传感器、深度传感器、GPS传感器、面向内的成像系统、面向外的成像系统等)来确定用户环境的位置和各种其它属性。该信息可以进一步补充有来自房间中的固定相机的信息,该相机可以从不同的视点提供图像或各种线索。由相机(诸如房间相机和/或面向外的成像系统的相机)获取的图像数据可以被缩减为映射点组。
一个或多个对象识别器708可以爬过(crawl through)接收到的数据(例如,点的集合)并且借助于地图数据库710来识别或映射点、标记图像,将语义信息附加到对象。地图数据库710可以包括随时间推移收集的各个点及其相应的对象。各种设备和地图数据库可以通过网络(例如LAN、WAN等)相互连接以访问云。
基于该信息和地图数据库中的点集合,对象识别器708a至708n可以识别环境中的对象。例如,对象识别器可以识别面部、人、窗户、墙壁、用户输入设备、电视、用户环境中的其它对象等。一个或多个对象识别器可以专用于具有特定特性的对象。例如,对象识别器708a可用于识别面部,而另一对象识别器可用于识别图腾。
可以使用各种计算机视觉技术来执行对象识别。例如,可穿戴系统可以分析由面向外的成像系统464(如图4所示)获取的图像以执行场景重建、事件检测、视频跟踪、对象识别、对象姿势估计、学习、索引、运动估计或图像恢复等。可以使用一种或多种计算机视觉算法来执行这些任务。计算机视觉算法的非限制性示例包括:尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)、定向FAST和旋转BRIEF(ORB)、二进制鲁棒不变可扩展关键点(BRISK)、快速视网膜关键点(FREAK)、Viola-Jones算法、特征脸方法、Lucas-Kanade算法、Horn-Schunk算法,均值漂移(Mean-shift)算法、视觉同步定位与地图构建(vSLAM)技术、序列贝叶斯估计器(例如,卡尔曼滤波器、扩展卡尔曼滤波器等)、光束法平差(bundle adjustment)、自适应阈值分割(和其它阈值分割技术)、迭代最近点(ICP)、半全局匹配(SGM)、半全局块匹配(SGBM)、特征点直方图、各种机器学习算法(例如,支持向量机、k最近邻算法、朴素贝叶斯、神经网络(包括卷积或深度神经网络)或其它有监督/无监督模型等)等等。
附加地或替代地,对象识别可以通过各种机器学习算法来执行。一旦经过训练,机器学习算法就可以由HMD存储。机器学习算法的一些示例可以包括有监督或无监督机器学习算法,包括回归算法(例如,普通最小二乘回归)、基于实例的算法(例如,学习向量量化)、决策树算法(例如,分类和回归树)、贝叶斯算法(例如,朴素贝叶斯)、聚类算法(例如,k均值聚类)、关联规则学习算法(例如,先验算法)、人工神经网络算法(例如,感知机)、深度学习算法(例如,深度玻尔茨曼机或深度神经网络)、降维算法(例如例如,主成分分析)、集合算法(例如,堆栈泛化)和/或其它机器学习算法。在一些实施例中,可以针对各个数据集定制各个模型。例如,可穿戴设备可以生成或存储基础模型。基础模型可以用作生成特定于数据类型(例如,远端临场会话中的特定用户)、数据集(例如,在远端临场会话中从用户处获得的附加图像集)、条件情况或其它变化的附加模型的起点。在一些实施例中,可穿戴HMD可以被配置为利用多种技术来生成用于分析聚合数据的模型。其它技术可包括使用预定义的阈值或数据值。
基于该信息和地图数据库中的点的集合,对象识别器708a至708n可以识别对象并用语义信息补充对象以赋予对象生命。例如,如果对象识别器将一组点识别为门,则系统可以附加一些语义信息(例如,该门具有铰链并且具有围绕铰链的90度移动)。如果对象识别器将一组点识别为镜子,则系统可以附加这样的语义信息:该镜子具有可以反射房间中对象的图像的反射表面。随着时间的推移,地图数据库随着系统(其可以驻留在本地或可以通过无线网络访问)累积来自世界的更多数据而增长。一旦识别出对象,就可以将该信息发送到一个或多个可穿戴系统。例如,MR环境700可以包括关于在加利福尼亚发生的场景的信息。环境700可以被发送给纽约的一个或多个用户。基于从FOV相机和其它输入接收的数据,对象识别器和其它软件组件可以映射从各种图像收集的点、识别对象等,使得该场景可以准确地“传递”给可能在世界的不同部分的第二用户。环境700也可以使用拓扑图来实现本地化目的。
图8是呈现与所识别的对象相关的虚拟内容的方法800的示例的过程流程图。方法800描述了如何将虚拟场景呈现给可穿戴系统的用户。用户可能在地理上远离该场景。例如,用户可能在纽约,但可能想要观看当前正在加利福尼亚发生的场景,或者可能想要与居住在加利福尼亚的朋友散步。
在框810处,可穿戴系统可以从用户和其他用户接收关于用户的环境的输入。这可以通过各种输入设备和在地图数据库中已有的知识来实现。在框810处,用户的FOV相机、传感器、GPS、眼睛跟踪等向系统传送信息。在框820处,系统可以基于该信息确定稀疏点。稀疏点可用于确定姿势数据(例如,头部姿势、眼睛姿势、身体姿势或手部手势),这些数据可用于显示和理解用户周围环境中各种对象的取向和位置。在框830处,对象识别器708a-708n可以爬过这些收集的点并使用地图数据库识别一个或多个对象。然后可以在框840处将该信息传送给用户的个人可穿戴系统,并且可以在框850处相应地向用户显示所期望的虚拟场景。例如,可以相对于在纽约的用户的各种对象和其它环境以适当的取向、位置等显示所期望的虚拟场景(例如,位于CA的用户)。
图9是可穿戴系统的另一示例的框图。在该示例中,可穿戴系统900包括地图,该地图可以包括世界的地图数据。该地图可以部分地驻留在可穿戴系统本地,可以部分地驻留在可通过有线或无线网络(例如,在云系统中)访问的网络存储位置。姿势处理910(例如,头部或眼睛姿势)可以在可穿戴计算架构(例如,处理模块260或控制器460)上被执行,并利用来自地图的数据而确定可穿戴计算硬件或用户的位置和取向。可以根据当用户正在体验系统并在世界中操作时即时收集的数据来计算姿势数据。该数据可以包括图像、来自传感器(例如惯性测量单元,其通常包括加速度计和陀螺仪部件)的数据和与真实或虚拟环境中的对象相关的表面信息。
稀疏点表示可以是同时定位与地图构建(SLAM或V-SLAM,是指其中输入只是图像/视觉的配置)过程的输出。该系统可以被配置为不仅找出各种部件在该世界中的位置,而且还找出该世界是由什么构成的。姿势可以是实现许多目标的构建块,包括填充地图和使用来自地图的数据。
在一个实施例中,稀疏点位置本身可能不完全足够,并且可能需要进一步的信息来产生多焦点AR、VR或MR体验。可以使用通常参考深度地图信息的密集表示来至少部分地填充该间隙。这样的信息可以根据被称为立体(Stereo)的处理940来计算,其中使用诸如三角测量或飞行时间感测的技术来确定深度信息。图像信息和有源(active)模式(诸如使用有源(active)投影仪创建的红外模式)可以用作立体处理940的输入。可以将大量深度地图信息融合在一起,并且可以用表面表示来概括其中的一些。例如,数学上可定义的表面是诸如游戏引擎之类的其它处理设备的有效(例如,相对于大点云)且可消化的输入。因此,立体处理(例如,深度地图)940的输出可以在融合处理930中组合。姿势也可以是向该融合处理930的输入,并且融合930的输出变为填充(populate)地图处理920的输入。子表面可以彼此连接(例如在地形图中)以形成更大的表面,并且地图变成点和表面的大混合体。
为了解决混合现实处理960中的各个方面,可以使用各种输入。例如,在图9所示的实施例中,可以输入游戏参数以确定系统的用户正在玩打怪兽游戏,其中一个或多个怪兽位于各个位置,怪兽在各种条件下死亡或逃跑(例如如果用户射杀怪兽),墙壁或其它对象位于各个位置等等。世界地图可以包括有关这些对象在哪些位置彼此相关的信息,作为混合现实的另一有价值的输入。相对于世界的姿势也成为一种输入,并且几乎对任何交互系统起着关键作用。
来自用户的控制或输入是可穿戴系统900的另一输入。如本文所述,用户输入可包括视觉输入、手势、图腾、音频输入、感官输入等。为了四处移动或玩游戏,例如,用户可能需要指示可穿戴系统900关于他或她想要做什么。除了在空间中移动自己之外,存在可以利用的多种形式的用户控制。在一个实施例中,图腾(例如,用户输入设备)或诸如玩具枪之类的对象可由用户握持并由系统跟踪。该系统优选地被配置为知道用户正在握住商品并且理解用户与商品进行何种交互(例如,如果图腾或对象是枪,则系统可以被配置为了解位置和取向,以及用户是否正在点击触发器或其它可能配备有传感器的感测按钮或元件,例如IMU,其可以有助于确定正在发生的事情,即使这样的活动不在任何相机的视野内)。
手势跟踪或识别也可以提供输入信息。可穿戴系统900可以被配置为跟踪和解释按钮按压的手势,用于向左或向右打手势、停止、抓取、保持等。例如,在一种配置中,用户可能想要在非游戏环境中翻阅电子邮件或日历,或与其他人或玩家“击拳”。可穿戴系统900可以被配置为利用最小量的手势,该手势可以是动态的,也可以不是动态的。例如,手势可以是简单的静态手势,如张开手表示停止,拇指向上表示好(ok),拇指向下表示不好;或者左右或上下翻转手来做出方向命令。
眼睛跟踪是另一种输入(例如,跟踪用户正在看哪里以控制显示技术来在特定深度或范围进行呈现)。在一个实施例中,可以使用三角测量来确定眼睛的聚散度,然后使用为该特定人物开发的聚散度/调节模型,可以确定调节。
语音识别是另一输入,其可以单独使用或与其它输入(例如,图腾跟踪、眼睛跟踪、手势跟踪等)组合使用。系统900可以包括从环境中接收音频流的音频传感器232(例如,麦克风)。接收到的音频流可以被处理(例如,通过处理模块260、270或中央服务器1650)以识别用户的语音(从其它语音或背景音频中),以从音频流中提取命令、主题(subject)、参数等。例如,系统900可以从音频流中识别出已说出短语“将那个移动到那儿”,识别出该短语是由系统900的穿戴者(而不是用户环境中的另一人)说出的,并且从该短语中提取到存在可执行命令(“移动(move)”)和要被移到一位置(“那儿”)的对象(“那个”)。要被该命令执行操作的对象可以被称为命令的主题,并且提供其它信息作为命令的参数。在该示例中,要将对象移到的位置是该“移动”命令的参数。参数例如可以包括位置、时间、要与之交互的其它对象(例如,“将那个移动到红色椅子旁边(move that next to the red chair)”或“把魔术棒给Linda(give the magic wand to Linda)”)、命令如何被执行(例如,“使用楼上的扬声器播放我的音乐(play my music using the upstairs speakers)”)等等。
作为另一示例,系统900可以使用语音识别技术来处理音频流以输入文本字符串或修改文本内容。系统900可以结合确定谁在说话的说话者识别技术以及确定正在说什么的语音识别技术。语音识别技术可以单独地或组合地包括隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化、说话者日记化(speaker diarisation)、决策树以及动态时间规整(DTW)技术。语音识别技术还可以包括反说话者技术,例如同类群组模型(cohort model)和世界模型。频谱特征可用于表示说话者特征。
关于相机系统,图9所示的示例性可穿戴系统900可包括三对相机:相对宽的FOV或被动SLAM相机对,其布置在用户面部的侧面,不同的相机对定位在用户前面以处理立体成像处理940且还捕获手势和在用户面部前面的图腾/对象跟踪。用于立体处理940的FOV相机和所述相机对可以是面向外的成像系统464(在图4中示出)的一部分。可穿戴系统900可以包括眼睛跟踪相机(其可以是图4中所示的面向内的成像系统462的一部分),眼睛跟踪相机朝向用户的眼睛取向,以便对眼睛向量和其它信息进行三角测量。可穿戴系统900可以还包括一个或多个纹理化光投影仪(例如红外(IR)投影仪)以将纹理注入到场景中。
图10是用于确定可穿戴系统的用户输入的方法1000的示例的过程流程图。在该示例中,用户可以与图腾交互。用户可能有多个图腾。例如,用户可能已经指定了一个图腾用于社交媒体应用,另一图腾用于玩游戏,等等。在框1010处,可穿戴系统可以检测图腾的移动。图腾的移动可以通过面向外的系统识别,或者可以通过传感器(例如,触觉手套、图像传感器、手部跟踪设备、眼睛跟踪相机、头部姿势传感器等)来检测。
在框1020处,至少部分地基于检测到的手势、眼睛姿势、头部姿势或通过图腾的输入,可穿戴系统检测图腾(或用户的眼睛或头部或手势)相对于参考系(reference frame)的位置、取向和/或移动。参考系可以是一组地图点,可穿戴系统基于该组地图点将图腾(或用户)的移动转换为动作或命令。在框1030处,映射(map)用户与图腾的交互。在框1040处,基于相对于参考系1020的用户交互的映射,系统确定用户输入。
例如,用户可以前后移动图腾或物理对象以表示翻动虚拟页面并移动到下一页或者从一个用户界面(UI)显示屏移动到另一UI屏。作为另一示例,用户可移动他们的头部或眼睛以观看用户的FOR中的不同真实或虚拟对象。如果用户注视特定真实或虚拟对象的时间长于阈值时间,则可以选择该真实或虚拟对象作为用户输入。在一些实施方式中,可以跟踪用户眼睛的聚散度,并且可以使用调节/聚散度模型来确定用户眼睛的调节状态,其提供关于用户正在聚焦于的渲染平面的信息。在一些实施方式中,可穿戴系统可以使用锥体投射技术来确定哪些真实或虚拟对象沿着用户的头部姿势或眼睛姿势的方向。通常描述的锥体投射技术可以在用户观看的方向上投射不可见锥体,并且识别与该锥体相交的任何对象。锥体投射可以涉及将具有基本上很小的横向宽度的细铅笔光线或具有大横向宽度(例如,锥体或平截头体)的光线从(可穿戴系统的)AR显示器投射到物理或虚拟对象。具有单个光线的锥体投射也可以被称为光线投射。锥体投射技术的详细示例在2017年3月29日提交的名称为“Interactions with 3D Virtual Objects Using Poses and Multiple-DOFControllers(使用姿势和多DOF控制器与3D虚拟对象交互)”的美国申请No.15/473,444中进行了描述,其全部内容通过引用并入本文中。
用户界面可由本文所述的显示系统(例如图2中的显示器220)投射。它还可以使用各种其它技术显示,例如一个或多个投影仪。投影仪可以将图像投射到诸如画布或地球仪之类的物理对象上。可以使用系统外部的或作为系统一部分的一个或多个相机(例如,使用面向内的成像系统462或面向外的成像系统464)来跟踪与用户界面的交互。
图11是用于与虚拟用户界面交互的方法1100的示例的过程流程图。方法1100可以由本文描述的可穿戴系统执行。
在框1110处,可穿戴系统可识别特定UI。UI的类型可以由用户预先确定。可穿戴系统可以基于用户输入(例如,姿势、视觉数据、音频数据、传感数据、直接命令等)识别需要填充特定UI。在框1120处,可穿戴系统可以生成用于虚拟UI的数据。例如,可以生成与UI的界限(confine)、一般结构、形状等相关联的数据。另外,可穿戴系统可以确定用户的物理位置的地图坐标,使得可穿戴系统可以显示与用户的物理位置有关的UI。例如,如果UI以身体为中心,则可穿戴系统可以确定用户的身体位置(physical stance)的坐标、头部姿势或眼睛姿势,使得可以在用户周围显示环形UI,或者可以在墙壁上或在用户前面显示平面UI。如果UI以手为中心,则可以确定用户的手的地图坐标。这些地图点可以借助通过FOV相机接收的数据、传感输入或任何其它类型的收集数据取得。
在框1130处,可穿戴系统可以从云向显示器发送数据,或者数据可以从本地数据库发送到显示部件。在框1140处,基于发送的数据向用户显示UI。例如,光场显示器可以将虚拟UI投射到用户的一只或两只眼睛中。在框1150处,一旦创建了虚拟UI,可穿戴系统只需等待来自用户的命令以生成在虚拟UI上的更多虚拟内容。例如,UI可以是围绕用户身体的身体中心环。然后,可穿戴系统可以等待命令(姿势、头部或眼睛动作、来自用户输入设备的输入等),并且如果它被识别(框1160),可以向用户显示与该命令相关联的虚拟内容(框1170)。作为示例,可穿戴系统可以在混合多个流轨道之前等待用户的手势。
可穿戴系统、UI和用户体验(UX)的其它示例在美国专利公开No.2015/0016777中描述,其全部内容通过引用并入本文中。
能视域(FOR)和视野(FOV)中的示例对象
图12A示意性地示出了能视域(FOR)1200、世界相机的视野(FOV)1270、用户的视野1250以及用户的注视视野1290的示例。如参考图4所示,FOR 1200包括用户周围的环境的一部分,环境的该部分能够被用户经由可穿戴系统感知到。FOR可以包括可穿戴系统周围的4π弧度的立体角,这是因为穿戴者可以移动他的身体、头部或眼睛以感知空间中的基本上任何方向。在其它情况下,穿戴者的移动可能会更受限制,因此穿戴者的FOR可能对着较小的立体角。
世界相机1270的视野可以包括当前由面向外的成像系统464观察到的用户的FOR的一部分。参考图4,世界相机的视野1270可以包括由可穿戴系统400在给定时间观察到的世界470。世界相机的FOV 1270的大小可以取决于面向外的成像系统464的光学特性。例如,面向外的成像系统464可以包括广角相机,该广角相机可以对用户周围的190度空间进行成像。在某些实施方式中,世界相机的FOV 1270可以大于或等于用户眼睛的自然FOV。
用户的FOV 1250可以包括用户在给定时间感知的FOR 1200的一部分。FOV可以取决于可穿戴设备的显示器的尺寸或光学特性。例如,AR/MR显示器可以包括在用户浏览显示器的特定部分时提供AR/MR功能的光学器件。FOV 1250可以对应于当用户浏览AR/MR显示器(例如,堆叠波导组件480(图4)或平面波导600(图6))时,可由用户感知的立体角。在某些实施例中,用户的FOV 1250可以小于用户眼睛的自然FOV。
可穿戴系统还可以确定用户的注视视野1290。注视视野1290可以包括用户的眼睛可以注视的FOV 1250的一部分(例如,在该部分处保持视觉注视)。注视视野1290可以对应于光落在其上的眼睛的中央凹区域。注视视野1290可以小于用户的FOV 1250,例如,注视视野可以在若干度到大约5度之间。因此,用户可以感知到不在注视视野1290中,但是在用户的外围视野中的FOV 1250中的一些虚拟对象。
图12B示意性地示出了用户视野(FOV)中的虚拟对象和能视域(FOR)中的虚拟对象的示例。在图12B中,FOR 1200可以包含能够由用户经由可穿戴系统感知的一组对象(例如,1210、1220、1230、1242和1244)。用户的FOR 1200内的对象可以是虚拟和/或物理对象。例如,用户的FOR 1200可以包括诸如椅子、沙发、墙壁等的物理对象。虚拟对象可以包括操作系统对象,例如用于已删除文件的回收站、用于输入命令的终端、用于访问文件或目录的文件管理器、图标、菜单、用于音频或视频流的应用程序、来自操作系统的通知、文本、文本编辑应用、消息应用等等。虚拟对象还可以包括应用程序中的对象,例如化身、游戏中的虚拟对象、图形或图像等。一些虚拟对象可以既是操作系统对象,也是应用程序中的对象。在一些实施例中,可穿戴系统可以将虚拟元素添加到现有物理对象。例如,可穿戴系统可以添加与房间中的电视相关联的虚拟菜单,其中虚拟菜单可以向用户提供选项以使用可穿戴系统打开或改变电视频道。
虚拟对象可以是三维(3D)、二维(2D)或一维(1D)对象。例如,虚拟对象可以是3D咖啡杯(其可以表示物理咖啡机的虚拟控件)。虚拟对象还可以是时钟的2D图形表示(向用户显示当前时间)。在一些实施方式中,一个或多个虚拟对象可以显示在另一虚拟对象内(或与另一虚拟对象相关联)。虚拟咖啡杯可以显示在用户界面平面的内部,尽管虚拟咖啡杯在该2D平面虚拟空间内看起来是3D的。
用户的FOR中的对象可以是参考图9所描述的世界地图的一部分。与对象相关联的数据(例如,位置、语义信息、特性等)可以被存储在各种数据结构中,例如数组、列表、树、散列、图形等。每个存储对象的索引在适当的时候例如可以通过对象的位置来确定。例如,数据结构可以通过诸如对象距基准位置的距离(例如,距离基准位置的左侧或右侧多远,距离基准位置的顶部或底部多远,或距基准位置的深度多远)的单个坐标来索引对象。可以基于用户的位置(例如,用户头部的位置)确定基准位置。基准位置也可以基于用户环境中虚拟或物理对象(例如,目标对象)的位置来确定。因此,可以在2D用户界面中表示用户环境中的3D空间,在该2D用户界面中,根据对象与基准位置的距离来布置虚拟对象。
在图12B中,FOV 1250由虚线1252示意性地示出。可穿戴系统的用户可以感知FOV1250中的多个对象,例如对象1242、对象1244和对象1230的一部分。当用户的姿势改变时(例如,头部姿势或眼睛姿势),FOV 1250将相应地改变,并且FOV 1250内的对象也可能改变。例如,在图12B中,地图1210最初在用户的FOV之外。如果用户朝着地图1210看去,则地图1210可以移入用户的FOV 1250中,并且(例如)对象1230可以移到用户的FOV 1250之外。
可穿戴系统可以保持跟踪FOR 1200中的对象以及FOV 1250中的对象。例如,本地处理和数据模块260可以与远程处理模块270和远程数据储存库280进行通信,以检索用户的FOR中的虚拟对象。本地处理和数据模块260可以将虚拟对象存储在例如缓冲器或临时存储器中。本地处理和数据模块260可以使用本文所述的技术来确定用户的FOV,并且渲染在用户的FOV中的虚拟对象的子集。当用户的姿势改变时,本地处理和数据模块260可以更新用户的FOV,并相应地渲染与用户的当前FOV相对应的另一组虚拟对象。
各种用户输入模式的概述
可穿戴系统可以被编程为接受用于执行操作的各种输入模式。例如,可穿戴系统可以接受以下类型的输入模式中的两种或更多种:语音命令、头部姿势、身体姿势(其可以通过例如腰带包中的IMU或HMD外部的传感器进行测量)、眼睛注视(在此也被称为眼睛姿势)、手势(或身体的其它部位做出的姿势)、来自用户输入设备(例如,图腾)、环境传感器等的信号。计算设备通常被设计为基于来自用户的单个输入产生给定输出。例如,用户可以通过敲击键盘来输入文本消息,或者使用鼠标来引导虚拟对象的运动,这些是手势输入模式的示例。作为另一示例,计算设备可以从用户的语音接收音频数据流,并使用语音识别技术将音频数据转换为可执行命令。
在某些情况下,用户输入模式可以非排他地分类为直接用户输入或间接用户输入。直接用户输入可以是由用户直接提供的用户交互,例如,经由用户身体的自愿运动(例如,转动头部或眼睛,盯着物体或位置,说出短语,移动手指或手)。作为直接用户输入的示例,用户可以使用诸如头部姿势、眼睛姿势(也被称为眼睛注视)、手势或另一身体姿势之类的姿势与虚拟对象交互。例如,用户可以(用头部和/或眼睛)看着虚拟对象。用户直接输入的另一示例是用户的语音。例如,用户可以说“启动浏览器(launch a browser)”以使HMD打开浏览器应用。作为直接用户输入的又一示例,用户例如可以通过触摸手势(例如,触摸图腾的触敏部分)或身体运动(例如,旋转充当多自由度控制器的图腾)来致动用户输入设备。
作为直接用户输入的补充或替代,用户还可以基于间接用户输入与虚拟对象进行交互。可以根据各种情境因素(例如,用户或虚拟对象的地理位置、用户的环境等)来确定间接用户输入。例如,用户的地理位置可以是在用户的办公室中(而不是在用户的家中),并且不同的任务(例如,与工作有关的任务)可以基于地理位置(例如,从GPS传感器导出)执行。
情境因素还可以包括虚拟对象的可见性(affordance)。虚拟对象的可见性可以包括虚拟对象与对象的环境之间的关系,此关系为与该对象相关联的动作或使用提供了机会。可以基于例如对象的功能、取向、类型、位置、形状和/或大小来确定上述可见性。上述可见性也可以基于虚拟对象所在的环境。作为示例,水平桌子的可见性是可以将物体放置在该桌子上,而垂直墙壁的可见性是可以将物体悬挂在该墙壁上或投影到该墙壁上。例如,可以说“将那个放置在那儿(place that there)”,然后放置一虚拟办公室日历,以使其看起来在用户办公室的用户书桌上是水平的。
单一的直接用户输入模式可能会产生各种限制,其中可用的用户界面操作的数量或类型可能会由于用户输入的类型而受到限制。例如,用户可能无法用头部姿势放大或缩小,这是因为头部姿势可能无法提供精确的用户交互。作为另一示例,用户可能需要在触摸板上来回移动拇指(或将拇指移动较大距离),以便将虚拟对象从地板移到墙壁,这样长时间操作可能导致用户疲劳。
然而,某些直接输入模式对于用户而言可能更加方便和直观。例如,用户可以对可穿戴系统说话以发出语音命令,而无需使用基于手势的键盘输入来键入句子。作为另一示例,用户可以使用手势来指向目标虚拟对象,而不是移动光标来识别目标虚拟对象。其它直接输入模式可以提高用户交互的准确性,尽管它们可能不那么方便或直观。例如,用户可以将光标移到虚拟对象以指示该虚拟对象是目标对象。然而,如上所述,如果用户想要使用直接用户输入(例如,头部姿势或作为用户动作的直接结果的其它输入)来选择相同的虚拟对象,则用户可能需要控制头部的精确运动,这会导致肌肉疲劳。3D环境(例如,VR/AR/MR环境)可能会给用户交互带来更多挑战,这是因为还需要针对深度(与平面表面相反)指定用户输入。与2D环境相比,该额外的深度维度会产生更多出错的机会。例如,在2D环境中,用户输入可以相对于坐标系中的水平轴和垂直轴进行平移,而用户输入可能需要相对于3D环境中的3个轴(水平、垂直和纵深)进行平移。因此,用户输入的不精确执行可能导致3个轴(而不是2D环境中的2个轴)出错。
为了利用直接用户输入的现有优点,同时提高与3D空间中的对象进行交互的准确性并减少用户疲劳,可以使用多个直接输入模式来执行用户界面操作。多模式输入可以进一步改善现有的计算设备(特别是可穿戴设备),以与诸如AR、VR或MR环境之类的数据丰富和动态环境中的虚拟对象进行交互。
在多模式用户输入技术中,可以使用直接输入中的一种或多种来识别用户将与之交互的目标虚拟对象(也被称为主题),并确定将对目标虚拟对象执行的用户界面操作。例如,用户界面操作可以包括命令操作,例如选择、移动、缩放、暂停、播放以及命令操作的参数(例如,如何执行该操作,将在何处或何时发生操作,目标对象将与哪个对象进行交互等)。作为识别目标虚拟对象并确定要对目标虚拟对象执行的交互的示例,用户可以查看虚拟便签(头部或眼睛姿势输入模式)、指向桌子(手势输入模式),然后说“将那个移动到那儿”(语音输入模式)。可穿戴系统可以识别短语“将那个移动到那儿”中的目标虚拟对象是虚拟便签(“那个”),并可以确定用户界面操作涉及将虚拟便签移动(可执行命令)到桌子(“那儿”)。在该示例中,命令操作可以是“移动”虚拟对象,而命令操作的参数可以包括目的地对象,该目的地对象是用户正指向的桌子。有利地,在某些实施例中,可穿戴系统可以通过基于多个直接用户输入模式(例如,上面示例中的三种模式,头部/眼睛的姿势、手势和语音)执行用户界面操作来提高用户界面操作的整体准确性或增加用户交互的便利性。例如,用户不用说“将最左边的浏览器向右移动2.5英尺(move the leftmost browser 2.5 feetto the right)”,而可以在使用指示对象是最左边的浏览器的头部姿势或手势的同时说“将那个移动到那儿”(无需在语音输入中指出被移动的对象),并使用头部或手部移动来指示移动距离。
使用各种输入模式在虚拟环境中交互的示例
图13示出了使用一种用户输入模式与虚拟对象进行交互的示例。在图13中,用户1310穿戴HMD并且与三个场景1300a、1300b和1300c中的虚拟内容交互。用户的头部位置(和相应的眼睛注视方向)由几何锥1312a表示。在该示例中,用户可以经由HMD的显示器220感知虚拟内容。在与HMD交互时,用户可以通过用户输入设备466输入文本消息。在场景1300a中,用户的头部处于其自然休息位置1312a,用户的手也处于其自然休息位置1316a。然而,尽管用户可能更舒适地在用户输入设备466上键入文本,但是用户无法看到用户输入设备466上的界面以确保正确键入字符。
为了查看在用户输入设备上输入的文本,用户可以将手向上移到位置1316b,如场景1300b所示。因此,当头部处于其自然休息位置1312a时,手将处于用户头部的FOV中。然而,位置1316b不是手的自然休息位置,因此可能导致用户疲劳。或者,如场景1300c所示,用户可以将她的头部移到位置1312c以便将手保持在自然休息位置1316a。然而,由于头部的非自然位置,用户颈部周围的肌肉可能会变得疲劳,并且用户的FOV指向地面或地板,而不是指向外部世界(如果用户在拥挤的区域中行走,这样可能不安全)。在场景1300b或场景1300c中,当用户使用单个输入模式执行用户界面操作时,要牺牲用户的自然人体工程学以满足所需的用户界面操作。
本文所述的可穿戴系统可以至少部分地减轻场景1300b和1300c中所描绘的人体工程学限制。例如,虚拟界面可以被投影在场景1300a中的用户的视野内。虚拟界面可以允许用户从自然位置观察键入的输入。
可穿戴系统还可以在不受设备约束的情况下显示和支持与虚拟内容的交互。例如,可穿戴系统可以向用户呈现多种类型的虚拟内容,并且用户可以使用触摸板与一种类型的内容进行交互,同时使用键盘与另一类型的内容进行交互。有利地,在一些实施例中,可穿戴系统可以通过计算置信度得分(较高的置信度得分表示该系统已识别出正确的目标虚拟对象的较高置信度(或可能性))来确定哪个虚拟内容是目标虚拟对象(用户打算对其执行操作的对象)。有关识别目标虚拟对象的详细示例参考图15至18B进行描述。
图14示出了使用用户输入模式的组合来选择虚拟对象的示例。在场景1400a中,可穿戴系统可以向用户1410呈现由正方形1422、圆形1424和三角形1426表示的多个虚拟对象。
如场景1400b所示,用户1410可以使用头部姿势与虚拟对象进行交互。这是头部姿势输入模式的示例。头部姿势输入模式可能涉及用于将虚拟对象作为目标或选择虚拟对象的锥体投射。例如,可穿戴系统可以将锥体1430从用户的头部朝向虚拟对象投射。可穿戴系统可以检测虚拟对象中的一个或多个是否落在锥体的体积之内,以识别用户打算选择哪个对象。在该示例中,锥体1430与圆1424和三角形1426相交。因此,可穿戴系统可以确定用户打算选择圆1424或三角形1426。然而,因为锥体1430与圆1424和三角形1426二者都相交,所以可穿戴系统可能无法仅基于头部姿势输入确定目标虚拟对象是圆形1424还是三角形1426。
在场景1400c中,用户1410可以通过手动定向诸如图腾之类的用户输入设备466(例如,手持式远程控制设备)来与虚拟对象进行交互。这是手势输入模式的示例。在该场景中,可穿戴系统可以确定圆形1424或正方形1422是预期目标,因为这两个对象在用户输入设备466指向的方向上。在该示例中,可穿戴系统可以通过检测用户输入设备466的位置或取向(例如,经由用户输入设备466中的IMU),或者通过执行源自用户输入设备466的锥体投射来确定用户输入设备466的方向。由于圆形1424和正方形1422都是目标虚拟对象的候选者,因此可穿戴系统无法仅基于手势输入模式确定其中哪一个是用户实际上想要选择的对象。
在场景1400d中,可穿戴系统可以使用多模式用户输入来确定目标虚拟对象。例如,可穿戴系统可以使用从锥体投射(头部姿势输入模式)获得的结果和从用户输入设备的取向(手势输入模式)获得的结果来识别目标虚拟对象。在该示例中,圆1424是在来自锥体投射的结果和从用户输入设备获得的结果两者中识别出的候选者。因此,可穿戴系统可以使用这两种输入模式以高置信度确定目标虚拟对象是圆1424。如场景1400d中进一步所示,用户可以发出语音命令1442(示例为“移动那个(Move that)”,这是第三输入模式(即,语音)的示例)以与目标虚拟对象进行交互。可穿戴系统可以将单词“那个”与目标虚拟对象进行关联,将单词“移动”与要执行的命令相关联,并且可以相应地移动圆1424。然而,单独使用语音命令1442(没有来自用户输入设备466或锥体投射143的指示)可能会引起可穿戴系统的混乱,因为可穿戴系统可能不知道哪个对象与单词“那个”相关联。
有利地,在一些实施例中,通过接受多种输入模式以识别虚拟对象并与虚拟对象进行交互,可以减少每种输入模式所需的精度量。例如,锥体投射可能无法在远处的渲染平面上精确定位对象,因为锥体直径会随着锥体远离用户而增大。作为其它示例,用户可能需要将输入设备保持在特定取向以指向目标对象,并以特定的短语或速度说话以确保正确的语音输入。然而,通过组合语音输入和锥体投射的结果(来自使用输入设备的头部姿势或手势),可穿戴系统仍可在不需要输入(例如,锥体投射或语音输入)精确的情况下识别目标虚拟对象。例如,即使锥体投射选择了多个对象(例如,如参考场景1400b、1400c所描述的),语音输入也可以帮助缩小选择范围(例如,增加选择的置信度得分)。例如,锥体投射可以捕获3个对象,其中第一对象在用户的右边,第二对象在用户的左边,第三对象在用户FOV的中心。用户可以通过说“选择最右边的对象(select the rightmost object)”来缩小选择范围。作为另一示例,用户的FOV中可能有两个形状相同的对象。为了使用户选择正确的对象,用户可能需要通过语音命令对对象进行更多描述。例如,用户可能需要说“选择红色的正方形对象(select the square object that is red)”,而非说“选择正方形对象(selectthe square object)”。然而,当使用锥体投射时,语音命令不必这样精确。例如,用户可以看着其中一个正方形对象并说“选择正方形对象(select the square object)”甚至“选择该对象(select the object)”。可穿戴系统可以自动选择与用户的眼睛注视方向一致的正方形对象,而不会选择不在用户的眼睛注视方向上的正方形对象。
在一些实施例中,系统可以具有输入模式组合的偏好的层次结构。例如,用户倾向于在他或她的头部所指的方向上注视;因此,眼睛注视和头部姿势可能会提供彼此相似的信息。头部姿势和眼睛注视的组合可能不是优选的,这是因为与单独使用眼睛注视或单独使用头部姿势相比,该组合不会提供太多额外的信息。因此,系统可以使用模式输入偏好的层次结构来选择提供对比鲜明的信息而非一般重复性信息的模式输入。在一些实施例中,层次结构使用头部姿势和语音作为主要的模式输入,然后是眼睛注视和手势。
因此,如本文进一步所述,基于多模式输入,系统可以针对用户环境中的各个对象来计算每个这样的对象是目标对象的置信度得分。系统可以选择环境中具有最高置信度得分的特定对象作为目标对象。
图15示出了使用直接用户输入的组合与虚拟对象进行交互的示例。如图15所示,用户1510穿戴被配置为显示虚拟内容的HMD 1502。HMD 1502可以是本文所述的可穿戴系统200的一部分,并且可以包括腰带穿戴式电源和处理包1503。HMD 1502可以被配置为接受来自图腾1516的用户输入。HMD 1502的用户1510可以具有第一FOV 1514。用户可以在第一FOV1514中观察虚拟对象1512。
用户1510可以基于直接输入的组合与虚拟对象1512进行交互。例如,用户1510可以通过基于用户的头部或眼睛姿势的锥体投射技术,或者通过图腾1516,通过语音命令,或者通过这些(或其它)输入模式的组合(例如,如参考图14所述)来选择虚拟对象1512。
用户1510可以改变其头部姿势以移动所选择的虚拟对象1512。例如,用户可以向左旋转其头部以使FOV从第一FOV 1514更新为第二FOV 1524(如从场景1500a到场景1500b所示)。可以将用户的头部的移动与其它直接输入进行结合,以使虚拟对象从第一FOV 1514移到第二FOV 1524。例如,头部姿势的变化可以与其它输入聚合,其它输入例如为语音命令(“移动那个,到那儿(move that,to there)”)、来自图腾1516的引导,或眼睛注视方向(例如,由图4所示的面向内的成像系统462所记录的)。在该示例中,HMD 1502可以将更新的FOV1524用作虚拟对象1512应当被移到的大致区域。HMD 1502可以基于用户的注视方向进一步确定虚拟对象1512移动的目的地。作为另一示例,HMD可以捕获语音命令“将那个移动到那儿”。HMD可以将虚拟对象1512识别为用户将与之进行交互的对象(因为用户先前选择了该虚拟对象1512)。HMD可以通过检测用户头部姿势的变化来进一步确定用户打算将对象从FOV 1514移到FOV 1524。在该示例中,虚拟对象1512最初可以位于用户的第一FOV 1514的中心部分。基于语音命令和用户的头部姿势,HMD可以将虚拟对象移到用户的第二FOV 1524的中心。
通过多模式用户输入来识别目标虚拟对象或用户界面操作的示例
如参考图14所述,在某些情况下,可穿戴系统可能无法(以足够的置信度)识别用户打算使用单一输入模式与之交互的目标虚拟对象。此外,即使使用多种用户输入模式,一种用户输入模式可以指示一个虚拟对象,而另一用户输入模式可以指示不同的虚拟对象。
为了解决模糊性(ambiguity)并提供支持多模式用户输入的改进的可穿戴系统,可穿戴系统可以聚合用户输入模式并计算置信度得分以识别期望的虚拟对象或用户界面操作。如上所述,较高的置信度得分表示系统已识别出期望的目标对象的较高概率或可能性。
图16示出了用于聚合输入模式的示例计算环境。示例环境1600包括例如与应用A1672、应用B1674和应用C1676相关联的三个虚拟对象。如参考图9所示,可穿戴系统可以包括各种传感器,并且可以从这些传感器接收各种用户输入,并且可以分析用户输入以与混合现实960进行交互。在示例环境1600中,中央运行时服务器1650可以聚合直接输入1610和间接用户输入1630以产生针对应用的多模式交互。直接输入1610的示例可以包括手势1612、头部姿势1614、语音输入1618、图腾1622、眼睛注视方向(例如,眼睛注视跟踪1624)、其它类型的直接输入1626等。间接输入1630的示例可以包括环境信息(例如,环境跟踪1632)和地理位置1634。中央运行时服务器1650可以包括远程处理模块270。在某些实施方式中,本地处理和数据模块260可以执行中央运行时服务器1650的一个或多个功能。本地处理和数据模块260还可以与远程处理模块270通信以聚合输入模式。
可穿戴系统可以使用面向外的成像系统464来跟踪手势1612。可穿戴系统可以使用图9中描述的各种技术来跟踪手势。例如,面向外的成像系统464可以获取用户的手的图像,并将图像映射到相应的手势。面向外的成像系统464可以使用FOV相机或深度相机(被配置用于深度检测)来对用户的手势进行成像。中央运行时服务器1650可以使用对象识别器708来识别用户的头部姿势。手势1612也可以由用户输入设备466跟踪。例如,用户输入设备466可以包括触敏表面,该触敏表面可以跟踪用户的手部移动,例如轻扫手势或轻击手势。
HMD可以使用IMU识别头部姿势1614。头部1410可以具有多个自由度,包括三种类型的旋转(例如,偏航、俯仰和翻滚)和三种类型的平移(例如,纵荡、横荡和垂荡)。IMU例如可以被配置为测量头部的3-DOF运动或6-DOF运动。从IMU获得的测量结果可以被传送到中央运行时服务器1650以进行处理(例如,以识别头部姿势)。
可穿戴系统可以使用面向内的成像系统462来执行眼睛注视跟踪1624。例如,面向内的成像系统462可以包括被配置为获取用户的眼睛区域的图像的眼睛相机。中央运行时服务器1650可以分析图像(例如,经由对象识别器708),以推断用户的注视方向或跟踪用户的眼睛运动。
可穿戴系统还可以接收来自图腾1622的输入。如本文所述,图腾1622可以是用户输入设备466的实施例。附加地或替代地,可穿戴系统可以接收来自用户的语音输入1618。来自图腾1622的输入和语音输入1618可被传送到中央运行时服务器1650。中央运行时服务器1650可实时或近实时地使用自然语言处理来解析用户的音频数据(例如,来自麦克风232的音频数据)。中央运行时服务器1650可以通过应用各种语音识别算法,例如,隐马尔可夫模型、基于动态时间规整(DTW)的语音识别、神经网络、深度学习算法(例如,深度前馈和递归神经网络)、端到端自动语音识别、机器学习算法(参考图7和9进行描述)、语义分析、其它使用声学建模或语言建模的算法等,来识别语音的内容。中央运行时服务器1650还可以应用能够识别说话者身份(例如,说话者是可穿戴设备的用户还是用户的背景中的人)的语音识别算法。
当用户与HMD交互时,中央运行时服务器1650还可以接收间接输入。HMD可以包括参考图2描述的各种环境传感器。通过使用由环境传感器获取的数据(单独地使用或与直接输入1610的相关数据结合使用),中央运行时服务器1650可以重建或更新用户的环境(例如,地图920)。例如,中央运行时服务器1650可以基于用户的环境确定用户的环境光条件。该环境光条件可用于确定用户可以与哪个虚拟对象进行交互。例如,当用户处于明亮的环境中时,中央运行时服务器1650可以将目标虚拟对象识别为支持作为输入模式的手势1612的虚拟对象,这是因为相机可以观察到用户的手势1612。然而,如果环境黑暗,则中央运行时服务器1650可以确定虚拟对象可以是支持语音输入1618而不是手势1612的对象。
中央运行时服务器1650可以执行环境跟踪1632并且聚合直接输入模式以产生用于多个应用的多模式交互。作为示例,当用户从安静的环境进入嘈杂的环境时,中央运行时服务器1650可以禁用语音输入1618。参考图24进一步描述关于基于环境选择输入模式的其它示例。
中央运行时服务器1650还可以基于用户的地理位置信息识别目标虚拟对象。地理位置信息1634也可以从环境传感器(例如,GPS传感器)获取。中央运行时服务器1650可以识别用于潜在用户交互的虚拟对象,其中虚拟对象与用户之间的距离在阈值距离内。有利地,在一些实施例中,锥体投射中的锥体可以具有可由系统调节的长度(例如,基于环境中对象的数量或密度)。通过选择在用户的一定半径内的对象,可以显著减少可能是目标对象的潜在对象的数量。参考图21描述使用间接输入作为输入模式的其它示例。
确定目标对象的示例
中央运行时服务器1650可以使用多种技术来确定目标对象。图17A示出了使用格子树分析来识别目标对象的示例。中央运行时服务器1650可以从输入源导出给定值,并产生用户可能与之交互的候选虚拟对象的可能值的格子。在一些实施例中,该值可以是置信度得分。置信度得分可以包括排名(ranking)、评级(rating)、赋值(valuation)、定量或定性值(例如,1到10范围内的数值、百分比或百分位数、或定性值“A”、“B”等)等等。每个候选对象可与一置信度得分相关联,并且在某些情况下,系统选择具有最高置信度得分(例如,高于其它对象的置信度得分或高于阈值得分)的候选对象作为目标对象。在其它情况下,系统将置信度得分低于阈值置信度得分的对象从目标对象的考虑中淘汰,这可以提高计算效率。
在本文的许多示例中,提及目标虚拟对象的选择或从一组虚拟对象的选择。这旨在说明示例实施方式,而非意图限制。所描述的技术可以应用于用户环境中的虚拟对象或物理对象。例如,语音命令“将那个移动到那儿”可以指将虚拟对象(例如,虚拟日历)移动到物理对象(例如,用户桌子的水平表面)上。或者,语音命令“将那个移动到那儿”可以指将虚拟对象(例如,虚拟文字处理应用)移动到另一虚拟对象内的另一位置(例如,用户虚拟桌面中的另一位置)。
命令的情境还可提供关于系统是否应尝试识别虚拟对象和/或物理对象的信息。例如,在命令“将那个移动到那儿”中,系统可以识别出“那个”是虚拟对象,这是因为AR/VR/MR系统无法移动实际的物理对象。因此,系统可以消除物理对象作为“那个”的候选者。如以上示例中所述,目标位置“那儿”可能是虚拟对象(例如,用户的虚拟桌面)或物理对象(例如,用户的桌子)。
另外,系统可以向用户环境中的对象分配置信度得分,用户环境可以是FOR、FOV或注视视野(例如,参见图12A),具体取决于在那个时间点处系统的情境和目标。例如,用户可能希望将虚拟日历移到用户桌子上的某个位置,这两个对象都在用户的FOV中。系统可能分析用户FOV内的对象,而不是用户FOR中的所有对象,这是因为这种情况的情境表明,移动虚拟日历的命令是指移到用户FOV中的目标目的地,这可以提高处理速度或效率。在另一情况下,用户可能正在查看虚拟电影应用中的电影选择的菜单,并且可能盯着一小部分电影。系统可以仅针对用户的注视视野中的电影选择(例如基于用户的眼睛注视),而不是针对完整的FOV(或FOR)(并且例如提供置信度得分),这样做也可提高处理效率或速度。
参考图17A中所示的示例,用户可以使用两种输入模式(头部姿势1614和眼睛注视1624)与虚拟环境进行交互。基于头部姿势1614,中央运行时服务器1650可以识别与应用A1672和应用B 1674相关联的两个候选虚拟对象。中央运行时服务器1650可以在应用A 1672和应用B 1674之间均匀地分配100%的置信度得分。因此,可以分别向应用A 1672和应用B1674分配50%的置信度得分。中央运行时服务器1650还可以基于眼睛注视方向1624识别两个候选虚拟对象(应用A 1672和应用C 1676)。中央运行时服务器1650还可以在应用A 1672和应用C 1676之间划分100%的置信度。
中央运行时服务器1650可以执行格子压缩(lattice compression)逻辑功能1712以减少或消除多种输入模式当中不常见的异常置信度值或者降到特定阈值以下的那些置信度值,以确定用户想要与之交互的最可能的应用。例如,在图17A中,中央运行时服务器1650可以消除应用B 1674和应用C 1676,因为头部姿势1614和眼睛注视1624分析二者都没有识别出这两个虚拟对象。作为另一示例,中央运行时服务器1650可以聚合分配给每个应用的值。中央运行时服务器1650可以将阈值置信度值设置为等于或大于80%。在该示例中,应用A 1672的总值为100%(50%+50%);应用B 1674的总值为50%;并且应用C 1676的值为50%。因为应用B和C各自的置信度值均低于阈值置信度值,所以中央运行时服务器1650可以被编程为不选择应用B和C,而是选择应用A 1672,因为应用A的总置信度值(100%)大于阈值置信度值。
尽管图17A中的示例在候选虚拟对象之间均分了与输入设备相关联的值(例如,置信度得分),但是在某些实施例中,值分布在候选虚拟对象之间可能不相等。例如,如果头部姿势1614的值为10,则应用A 1672可以接收值7,而应用B 1674可以接收值3(因为头部姿势指向A 1672更多)。作为另一示例,如果头部姿势1614具有定性等级“A”,则可以将应用A1672指定为等级“A”,而应用B 1674和应用C 1676不从头部姿势1614进行任何接收。
可穿戴系统(例如,中央运行时服务器1650)可以将焦点指示器(focusindicator)分配给目标虚拟对象,使得用户可以更容易地感知目标虚拟对象。焦点指示器可以是视觉焦点指示器。例如,焦点指示器可以包括光晕(基本上围绕或靠近对象)、颜色、感知的大小或深度变化(例如,使目标对象在被选择时看起来更近和/或更大)或引起用户注意的其它视觉效果。焦点指示器还可以包括听觉或触觉效果,例如振动、铃声、嘟嘟声等。焦点指示器可以通过向用户确认(经由焦点指示器)系统已经正确地确定了与命令相关联的对象(例如,正确地确定了“将那个移动到那儿”命令中的“那个”和“那儿”)来为用户提供有关系统“正在做正确的事情”的有用反馈。例如,可以向所识别的目标虚拟对象分配第一焦点指示器,并且可以向目的地位置(例如,命令中的“那儿”)分配第二焦点指示器。在某些情况下,如果系统错误地确定了目标对象,则用户例如可以通过盯着(注视)正确的对象并提供语音命令(例如“不,这个不是那个(no,this not that)”)来覆盖系统的确定。
识别目标用户界面操作的示例
作为识别目标虚拟对象的补充或替代,中央运行时服务器1650还可以基于所接收的多个输入确定目标用户界面操作。图17B示出了基于多模式输入确定目标用户界面操作的示例。如图所示,中央运行时服务器1650可以接收采取头部姿势1614和手势1612的形式的多个输入。中央运行时服务器1650可以向用户显示与例如应用A 1672和应用B 1674相关联的多个虚拟对象。然而,单独使用头部姿势输入模式可能不足以确定所需的用户界面动作,因为有这样的50%的置信度:头部姿势应用于与应用A 1672相关联的用户界面操作(显示为修改选项1772),并且还有这样的50%的置信度:头部姿势应用于与应用B 1674相关联的另一用户界面操作(显示为修改选项1774)。
在各种实施例中,可以将特定应用或某种类型的用户界面操作编程为对特定的输入模式更具响应性。例如,可以将应用B 1674的HTML标签或JavaScript编程设置为比应用A1672的HTML标签或JavaScript编程对手势输入更具响应性。例如,应用A 1672对头部姿势1672比对手势1612更具响应性,而“选择(select)”操作对手势1612(例如,轻击手势)比对头部姿势1614更具响应性,这是因为在一些情况下,与使用头部姿势相比,用户更大可能使用手势来选择对象。
参考图17B,手势1612可以对应用B 1674中的特定类型的用户界面操作更具响应性。如图所示,手势1612可以具有与应用B的用户界面操作相关联的更高置信度,而手势1612可能不适用应用A 1672中的界面操作。因此,如果目标虚拟对象是应用A 1672,则从头部姿势1614接收的输入可以是目标用户界面操作。然而,如果目标虚拟对象是应用B 1674,则从手势1612接收的输入(单独地或与基于头部姿势1614的输入结合)可以是目标用户界面操作。
作为另一示例,由于当用户与应用B交互时,手势1612的置信度水平高于头部姿势1614的置信度水平,因此手势1612可以成为应用B 1674的主要输入模式,而头部姿势1614可以是次要输入模式。因此,与头部姿势1614相比,从手势1612接收的输入可以与更高的权重相关联。例如,如果头部姿势指示与应用B 1674相关联的虚拟对象应该保持静止,而手势1612指示虚拟对象应该向左移动,则中央运行时服务器1650可以使虚拟对象向左移动。在某些实施方式中,可穿戴系统可以允许用户使用主要输入模式与虚拟对象进行交互,并且如果主要输入模式不足以确定用户的动作,则可以考虑次要输入模式。例如,用户可以主要通过手势1612与应用B 1674进行交互。然而,当HMD无法确定目标用户界面操作时(例如,由于应用B 1674中可能存在多个候选虚拟对象,或者手势1612不清楚),HMD可以使用头部姿势作为输入来确定目标虚拟对象或要对应用B 1674执行的目标用户界面操作。
与每种输入模式相关联的得分可以被合计以确定期望的用户界面操作。图17C示出了合计与虚拟对象的输入模式相关联的置信度得分的示例。如该示例中所示,头部姿势输入1614针对应用A产生的置信度得分(80%置信度)高于针对应用B产生的置信度得分(30%置信度),而手势输入1612针对应用B产生的置信度得分(60%置信度)高于针对应用A产生的置信度得分(30%置信度)。中央运行时服务器1650可以基于从每种用户输入模式中导出的置信度得分合计每个对象的置信度得分。例如,中央运行时服务器1650可以针对应用A 1672产生110的总得分,并且针对应用B 1674产生90的总得分。该总得分可以是加权的或未加权的平均值或其它数学组合。因为应用A 1672的总得分高于应用B 1674,所以中央运行时服务器1650可以选择应用A作为要与之交互的应用。附加地或替代地,由于应用A1672的总得分较高,因此,中央运行时服务器1650可以确定头部姿势1614和手势1612旨在对应用A 1672执行用户界面操作,即使应用B比应用A对手势1612更具响应性。
在该示例中,中央运行时服务器1650对通过增加给定对象的各种输入的置信度得分而出现的置信度得分进行总计。在各种其它实施例中,中央运行时服务器1650可以使用除简单加法之外的技术来总计置信度得分。例如,输入模式或得分可以与权重相关联。因此,置信度得分的总计将考虑分配给输入模式或得分的权重。权重可以是用户可调整的,以允许用户选择性地调整与HMD的多模式交互的“响应性”。权重也可以是情境相关的。例如,在公共场所中使用的权重可以相比于手势而加重头部或眼睛姿势,从而避免在操作HMD时让用户频繁地做手势而可能带来的社交尴尬。作为另一示例,在地铁、飞机或火车上,由于用户可能不希望在这种环境中大声对着他或她的HMD讲话,因此语音命令被赋予的权重可能小于头部或眼睛姿势。环境传感器(例如,GPS)可以辅助确定用户操作HMD的适当情境。
尽管参考两个对象示出了图17A至17C中的示例,但是当存在更多或更少的对象时,也可以应用本文所述的技术。另外,参考这些附图描述的技术可以应用于可穿戴系统的应用或与一个或多个应用相关联的虚拟对象。此外,本文所述的技术还可以应用于除了头部姿势、眼睛注视或手势之外的直接或间接输入模式。例如,也可以使用语音命令。另外,尽管全文使用中央运行时服务器1650作为示例来描述各种输入模式的处理,但是HMD的本地处理和数据模块260也可以作为对中央运行时服务器1650的补充或替代来执行部分或全部操作。
计算置信度得分的示例技术
可穿戴系统可以使用各种技术中的一种或组合来计算对象的置信度得分。图18A和18B示出了计算用户的FOV内的对象的置信度得分的示例。例如,可以在锥体投射期间基于用户的头部姿势或眼睛注视来计算用户的FOV。图18A和18B中的置信度得分可以基于单个输入模式(例如,用户的头部姿势)。可以计算出多个置信度得分(针对各种多模式输入中的部分或全部),然后将这些得分进行合计以基于多模式用户输入来确定用户界面操作或目标虚拟对象。
图18A示出了基于落在用户的FOV 1810内的虚拟对象的一部分计算虚拟对象的置信度得分的示例。在图18A中,用户的FOV具有两个虚拟对象(由圆1802和三角形1804表示)的一部分。可穿戴系统可以基于落在FOV 1810内的对象的投影区域的比例,向圆和三角形分配置信度得分。如图所示,圆1802的近一半落在FOV 1810内,因此,可穿戴系统可向圆分配1802分配50%的置信度得分。作为另一示例,三角形的约75%位于FOV 1810内。因此,可穿戴系统可向三角形1804分配75%的置信度。
可穿戴系统可以对FOV和FOR中的内容使用回归分析(regression analysis)来计算FOV内的虚拟对象的比例。如参考图12B所描述的,尽管可穿戴系统保持跟踪FOR中的对象,但是可穿戴系统也可以将FOV中的对象(或对象的部分)传送到渲染投影仪(例如,显示器220)以在FOV内显示。可穿戴系统可以确定哪些部分被提供用于渲染投影仪,并且可以分析被传送到渲染投影仪的部分相对于全部虚拟对象的比例,从而确定FOV内的虚拟对象的百分比。
作为基于落在FOV内的比例区域(proportional area)计算置信度得分的补充或替代,可穿戴系统还可以分析FOV中的对象附近的空间以确定对象的置信度得分。图18B示出了基于FOV 1820中虚拟对象的周围空间的均匀性而计算置信度得分的示例。FOV 1820包括两个虚拟对象,如由三角形1814和圆1812示出的。每个虚拟对象周围的空间可以由矢量表示。例如,虚拟对象1812周围的空间可以由向量1822a、1822b、1822c和1822d表示,而虚拟对象1814周围的空间可以由向量1824a、1824b、1824c和1824d表示。向量可以源自虚拟对象(或虚拟对象的边界)并在FOV 1820的边缘处结束。系统可以分析从对象到FOV的边缘的向量的长度的分布以确定哪个对象更靠近FOV的中心。例如,处于圆形FOV的正中心的对象将具有相对均匀的向量长度分布,而非常靠近边缘的对象将具有不均匀的向量长度分布(因为某些指向附近边缘的向量较短,而指向最远边缘的向量较长)。如图18B所示,从虚拟三角形1814到视野1820的边缘的向量长度的分布比从圆1812到视野1820的边缘的向量长度的分布变化得更大,这表示虚拟圆1812比虚拟三角形1814更靠近FOV 1820的中心。向量长度分布的可变性可以由长度的标准偏差或方差(或其它统计量度)表示。可穿戴系统可以相应地将更高的置信度得分分配给虚拟圆1812(与虚拟三角形1814相比)。
除了参考图18A和18B描述的技术之外,可穿戴系统可以基于用户交互的历史分析而向虚拟对象分配置信度得分。作为示例,可穿戴系统可以将较高的置信度得分分配给经常与用户交互的虚拟对象。作为另一示例,一个用户可能倾向于使用语音命令来移动虚拟对象(例如,“将那个移动到那儿”),而另一用户可能更喜欢使用手势(例如,通过伸手并“抓取”虚拟对象并将其移到另一位置)。系统可以根据历史分析确定此类用户倾向。作为又一示例,输入模式可能经常与特定用户界面操作或特定虚拟对象相关联,因此,可穿戴系统可以增加分配给特定用户界面操作或特定虚拟对象的置信度得分,即使可能存在基于相同输入的替代用户界面操作或虚拟对象。
在给定图18A或18B所示的视野1810或1820的情况下,第二输入模式可以便于选择适当的虚拟对象或虚拟对象中的适当用户界面操作。例如,用户可以说“放大三角形(enlarge the triangle)”以增加视野1810内的三角形的尺寸。作为另一示例,在图18A中,用户可以发出语音命令,例如“使那个成为两倍大(make that twice as big)”。由于基于头部姿势,虚拟对象1804具有较高置信度得分,因此可穿戴系统可以确定语音命令的主题(例如,目标对象)是虚拟对象1804。有利地,在一些实施例中,这减少了产生期望结果所需的交互的特异性。例如,用户不必说“使三角形成为两倍大(make the triangle twice asbig)”即可使可穿戴系统实现相同的交互。
图18A和18B中的三角形和圆仅用于说明目的。本文所述的各种技术也可以应用于支持更复杂的用户交互的虚拟内容。
物理环境中的多模式交互示例
作为与虚拟对象的交互的补充或替代,可穿戴系统还可以在真实世界环境内提供广泛的交互。图19A和19B示出了使用多模式输入与物理环境进行交互的示例。在图19A中,示出了三种输入模式:手势1960、头部姿势1920以及来自用户输入设备1940的输入。可以使用姿势传感器来确定头部姿势1920。姿势传感器可以是IMU、陀螺仪、磁力计、加速度计或图2描述的其它类型的传感器。可以使用面向外的成像系统464来测量手势1960,同时用户输入设备1940可以是图4所示的用户输入设备466的实施例。
在一些实施例中,可穿戴系统还可以测量用户的眼睛注视。眼睛注视可包括从用户的每只眼睛延伸到两只眼睛的视线会聚的位置的向量。该向量可用于确定用户正在看的方向,并且可用于选择或标识会聚点处的或沿着向量的虚拟内容。可以通过诸如发亮(glint)检测、虹膜或瞳孔形状制图、红外光照或双目眼成像的眼睛跟踪技术来确定这种眼睛注视,其中交点的回归源自于各自的瞳孔取向。然后可以将眼睛注视或头部姿势视为用于虚拟对象选择的锥体投射或射线投射的源点。
如本文所述,在用户的环境中移动所选虚拟内容的交互事件(例如,“将那个放在那儿(put that there)”)可能需要确定命令操作(例如“放(put)”)、主题(例如,“那个(that)”,其可以根据上述多模式选择技术确定),以及参数(例如,“那儿(there)”)。可以使用输入模式的组合来确定命令操作(或简称为命令)和主题(也被称为目标对象或目标虚拟对象)。例如,移动主题1912的命令可以单独地或组合地基于头部姿势1920的改变(例如,头部转动或点头)或手势1960(例如,轻扫手势)。作为另一示例,可以基于头部姿势和眼睛注视的组合来确定主题1912。因此,基于多模式用户输入的命令有时也可以被称为多模式输入命令。
还可以使用单个输入或多模式输入来确定参数。参数可以与用户的物理环境中的对象(例如,桌子或墙壁)或用户的虚拟环境中的对象(例如,电影应用、游戏中的化身或虚拟建筑物)相关联。在一些实施例中,识别真实世界参数可以允许更快和更准确地做出内容放置响应。例如,特定的虚拟对象(或虚拟对象的一部分)可以是具有水平取向的基本平面的(例如,虚拟对象的法线垂直于房间的地板)。当用户发起移动虚拟对象的交互时,可穿戴系统可以识别具有相似取向的真实世界表面(例如,桌面),并将虚拟对象移到该真实世界表面。在某些实施例中,这种移动可以是自动的。例如,用户可能想要将虚拟书从其所在的地板上的位置移动。房间中唯一可用的水平表面可能是用户的书桌。因此,可穿戴系统可以响应于“移动那个”的语音命令而自动将虚拟书移到书桌的表面,无需用户输入额外的命令或参数,这是因为书桌的表面是用户希望将书移到的最可能的位置。作为另一示例,可穿戴系统可以针对给定内容识别合适大小的真实世界表面,从而可以为用户提供更好的参数匹配。例如,如果用户正在观看具有给定显示尺寸的虚拟视频屏幕,并希望通过简单的语音命令将其移到特定表面,则系统可以确定哪些真实世界表面提供了必要的表面区域以最好地支持虚拟视频的显示尺寸。
可穿戴系统可以使用参考识别目标虚拟对象描述的技术来识别目标参数(例如,目标表面)。例如,可穿戴系统可以基于间接用户输入或直接用户输入来计算与多个目标参数相关联的置信度得分。作为示例,可穿戴系统可以基于直接输入(例如,用户的头部姿势)和间接输入(例如,墙壁的特征(如竖直表面))计算与墙壁相关联的置信度得分。
识别真实世界参数的示例技术
可穿戴系统可以使用各种技术来确定多模式输入命令的参数(诸如目标位置)。例如,可穿戴系统可以使用各种深度感测技术,诸如将SLAM协议应用于环境深度信息(例如,参考图9所述),或者构造或访问环境的网格模型。在一些实施例中,深度感测确定3D空间中的已知点之间的距离(例如,HMD上的传感器之间的距离)和真实世界中对象表面上的兴趣点(“POI”)(例如,用于定位虚拟内容的墙壁)。该深度信息可以存储在世界地图920中。可以基于POI的集合来确定用于交互的参数。
可穿戴系统可以将这些深度感测技术应用于从深度传感器获得的数据,以确定物理环境的边界。深度传感器可以是面向外的成像系统464的一部分。在一些实施例中,深度传感器被耦接到IMU。从深度传感器获取的数据可用于确定多个POI相对于彼此的取向。例如,可穿戴系统可以计算POI的截断的带符号距离函数(“TSDF”)。TSDF可以包括每个POI的数值。当某点处于特定平面的给定公差内时,该数值可以为零;当某点在第一方向上与特定平面间隔开(例如,在上方或在外部)时,该数值可以为正的;当某点在第二(例如,相反的)方向上与特定平面间隔开(例如,在下方或内部)时,该数值可以为负的。所计算的TSDF可用于定义沿着由IMU确定的取向的砖块或盒子的3D体积格,这些砖块或盒子在该特定平面之中、上方和下方对齐,以构造或表示特定表面。
可以消除在给定平面公差之外(例如,TSDF的绝对值大于公差)的POI,仅留下在给定公差内的多个彼此相邻的POI,以在真实世界环境中创建表面的虚拟表示。例如,真实世界环境可以包括会议桌。会议桌顶部上可能有各种其它对象(例如,电话、膝上型计算机、咖啡杯等)。对于会议桌的表面,可穿戴系统可以保持与会议桌相关联的POI,并去除其它对象的POI。因此,平面地图(描绘会议桌的表面)可以仅用属于会议桌的点来表示会议桌。该地图可以省略与会议桌顶部上的对象相关联的点。在某些实施例中,保留在平面地图中的POI的集合可以被称为环境的“可使用表面”,因为平面地图的这些区域表示可以放置虚拟对象的空间。例如,当用户想要将虚拟屏幕移到桌子上时,可穿戴系统可以识别用户环境中的合适表面(例如,桌面、墙壁等),同时消除对象(例如,咖啡杯或铅笔或壁画)或不适合放置屏幕的表面(例如,书架表面)。在该示例中,所识别的合适表面可以是环境的可使用表面。
返回参考图19A所示的示例,环境1900可以包括物理墙壁1950。HMD或用户输入设备1940可以容纳深度传感器系统(例如,飞行时间传感器或垂直腔表面发射激光器(VCSEL))和姿势传感器(例如,IMU)。深度传感器系统获得的数据可用于识别用户环境中的各种POI。可穿戴系统可以将基本上平面的POI组合在一起以形成边界多边形1910。边界多边形1910可以是可使用表面的示例实施例。
在一些实施例中,面向外的成像系统464可以识别用户手势1960,用户手势1960可以包括手指指向真实世界环境1900内的区域。面向外的成像系统464可以通过确定朝向边界多边形1910的手指指向的稀疏点向量构造来识别预测量的边界多边形1910。
如图19A所示,边界多边形1910内部可以有虚拟视频屏幕1930。用户可以使用多模式输入与在虚拟视频屏幕1930内部的虚拟对象1912进行交互。图19B示出了使用多模式输入与真实世界环境内的虚拟对象1912的交互。图19B中的环境包括竖直表面1915(其可以是墙壁的一部分)和桌面上的表面1917。在第一状态1970a中,虚拟内容1926最初显示在墙壁表面1915上的边界多边形1972a内。用户可以例如通过锥体投射或多模式输入(包括手势1960、头部姿势1920、眼睛注视或来自用户输入设备1940的输入中的两者或更多者)来选择虚拟对象1926。
用户可以使用另一输入作为多模式输入的一部分来选择作为目的地的表面1917。例如,用户可以结合使用头部姿势和手势来指示表面1917是目的地。可穿戴系统可以通过将看上去位于同一平面上的POI进行组合来识别表面1917(和多边形1972b)。可穿戴系统还可以使用其它表面识别技术来识别表面1917。
用户还可以使用多模式输入将虚拟内容1126平移到表面1917上的边界多边形1972b,如第二状态1970b所示。例如,用户可以通过头部姿势的变化和用户输入设备1940的移动的组合来移动虚拟内容1926。
作为另一示例,用户可以经由可穿戴系统的麦克风232说“将那个移动到那儿”,该可穿戴系统可以接收音频流并从中解析该命令(如本文所述)。用户可以将此语音命令与头部姿势、眼睛注视、手势或图腾的启动相结合。由于虚拟对象1926是最高置信度对象(例如,请参见场景1970a中的虚线,其指示用户的手指1960、HMD 1920和图腾1940朝着对象1926取向),因此可穿戴系统可以将虚拟对象1926检测为该命令的主题。可穿戴系统还可以将命令操作识别为“移动”,并将该命令的参数确定为“那儿”。可穿戴系统可以基于语音以外的输入模式(例如,眼睛注视、头部姿势、手势、图腾)进一步确定“那儿”是指边界多边形1972b。
交互事件中的命令可以涉及多个参数的调整和计算。例如,参数可以包括虚拟对象的目的地、放置、取向、外观(例如,大小或形状)或动画。可穿戴系统也可以自动计算参数,即使直接输入在更改参数中不是显式的。作为示例,可穿戴系统在虚拟对象1926从竖直表面1915移到水平表面1917时可以自动改变虚拟对象1926的取向。在第一状态1970a中,虚拟内容1926在表面1915上是基本竖直取向的。当在第二状态1970b中虚拟内容1926被移到表面1917时,虚拟内容1926的取向可以保持一致(例如,保持竖直取向),如虚拟对象1924所示。可穿戴系统还可以自动调整虚拟内容1926的取向以与表面1917的取向对齐,使得虚拟内容1926看起来在水平位置,如虚拟对象1922所示。在该示例中,可以基于作为间接输入的环境跟踪1632自动调整取向。当可穿戴系统确定该对象是目标目的地对象时,可穿戴系统可以自动考虑对象(例如,表面1917)的特征。可穿戴系统可以基于目标目的地对象的特征调整虚拟对象的参数。在该示例中,可穿戴系统基于表面1917的取向自动旋转虚拟对象1926的取向。
自动放置或移动虚拟对象的其它示例在2017年8月9日提交的名称为“AUTOMATICPLACEMENT OF A VIRTUAL OBJECT IN A THREE-DIMENSIONAL SPACE(在三维空间中自动放置虚拟对象)”的美国申请No.15/673,135中进行了描述,该申请的全部内容通过引用并入本文中。
在某些实施方式中,输入可以显式地修改多个参数。除了将表面1917识别为目的地之外,语音命令“将那个平放在那儿(place that there flat)”还可以改变虚拟对象1926的取向。在该示例中,单词“平(flat)”和单词“那儿(there)”都可以是参数值,其中“那儿”使可穿戴系统更新目标虚拟对象的位置,而单词“平”与目的地位置处的目标虚拟对象的取向相关联。为了执行参数“平”,可穿戴系统可以匹配虚拟对象1926的取向,从而与表面1917的取向匹配。
作为选择和移动虚拟对象的补充或替代,多模式输入可以以其它方式与虚拟内容进行交互。图20示出了基于多模式输入自动调整虚拟对象的大小的示例。在图20中,用户1510可以穿戴HMD 1502并且可以使用手势和语音命令2024与虚拟对象进行交互。图20示出了四个场景2000a、2000b、2000c和2000d。每个场景都包括显示屏幕和虚拟对象(用笑脸例示)。
在场景2000a中,显示屏幕具有尺寸2010,虚拟对象具有尺寸2030。用户可以将手势从手势2020更改为手势2022,以指示用户想要调整虚拟对象或显示屏幕的尺寸。用户可以使用语音输入2024来指示是虚拟对象还是显示屏幕为操纵的主题。
作为示例,用户可能想要同时放大显示屏幕和虚拟对象。因此,用户可以将输入手势2022用作放大命令。放大程度的参数可以由伸出的手指范围来表示。同时,用户可以使用语音输入2024来口述交互的主题。如场景2000b所示,用户可以说“全部(all)”以产生放大的显示器2012和放大的虚拟对象2032。作为另一示例,在场景2000c中,用户可以说“内容(content)”以产生放大的虚拟对象2034,而显示屏幕的尺寸与场景2000a中相同。作为又一示例,在场景2000d中,用户可以说“显示器(display)”以产生放大的显示屏幕2016,而虚拟对象的尺寸保持与场景2000a中相同。
作为输入模式的间接输入的示例
如本文所述,可穿戴系统可以被编程为允许用户与作为多模式输入的一部分的直接用户输入和间接用户输入进行交互。直接用户输入可以包括头部姿势、眼睛注视、语音输入、手势、来自用户输入设备的输入或直接来自用户的其它输入。间接输入可以包括各种环境因素,例如用户的位置、用户的特征/偏好、对象的特征、用户环境的特征等。
如参考图2所述,可穿戴系统可以包括位置传感器,例如GPS或雷达或激光雷达。可穿戴系统可以根据对象与用户的接近程度来确定用户交互的主题。图21示出了基于对象的位置来识别目标虚拟对象的示例。图21示意性地示出了用户的FOR的鸟瞰图2100。FOR可以包括多个虚拟对象2110a至2110q。用户可以穿戴包括位置传感器的HMD。可穿戴系统可以基于对象与用户的接近程度确定候选目标对象。例如,可穿戴系统可以选择距离用户阈值半径(例如1m、2m、3m、5m、10m或更大)内的虚拟对象作为候选目标虚拟对象。在图21中,虚拟对象(例如,虚拟对象2110o、2110p、2110q)落在距离用户位置2120阈值半径(以虚线圆2122例示)之内。因此,可穿戴系统可以将虚拟对象2110o至2110q设置为候选目标虚拟对象。可穿戴系统可以基于其它输入(例如,用户的头部姿势)进一步细化选择。阈值半径可以取决于情境因素,例如用户的位置。例如,用户在他或她的办公室中时的阈值半径可以短于用户在外面的公园中时的阈值半径。可以从距离用户阈值半径内的区域2122的一部分中选择候选对象。例如,仅在圆2122之内且在用户的FOV中(例如,通常在用户前面)的那些对象可以是候选者,而在圆2122之内但在用户的FOV之外(例如,在用户后面)的对象不能是候选者。作为另一示例,多个虚拟对象可以沿着共同的视线。例如,锥体投射可以选择多个虚拟对象。可穿戴系统可以将用户的位置用作另一输入,以确定目标虚拟对象或用于用户交互的参数。例如,锥体投射可以选择与不同深度平面相对应的对象,但是可穿戴系统可以被配置为将目标虚拟对象识别为用户手部可达范围内的对象。
类似于直接输入,间接输入也可以被分配可用于计算虚拟对象的置信度得分的值。例如,当多个对象或参数在共同的选择置信度内时,间接输入可以被进一步用作置信度因素。参考图21,圆2122内的虚拟对象可以比圆2122和圆2124之间中的虚拟对象具有更高的置信度得分,这是因为更靠近用户位置2120的对象更可能是用户有兴趣与之交互的对象。
在图21所示的示例中,为了方便起见,示出了虚线圆2122、2124,其表示具有相应半径的球在图21所示的平面上的投影。这只是为了说明而非限制;在其它实施方式中,可以选择其它形状的区域(例如,多面体)。
图22A和22B示出了基于直接和间接输入的组合与用户环境进行交互的另一示例。这两个图示出了世界相机的FOV 1270(其可以大于用户的FOV 1250)中的两个虚拟对象:虚拟对象A 2212和虚拟对象B 2214。虚拟对象A 2212也在用户的FOV 1250内。例如,虚拟对象A 2212可以是用户当前正在查看的虚拟文档,而虚拟对象B 2214可以是墙上的虚拟便签。然而,当用户与虚拟对象A 2212进行交互时,用户可能需要查看虚拟对象B 2214以从虚拟对象B 2214获得附加信息。因此,用户可以向右转动头部(以改变FOV 1250)以查看虚拟对象B 2214。有利地,在某些实施例中,可穿戴系统可以检测用户注视方向(朝向虚拟对象B2214的方向)的变化,而不是转动头部。因此,可穿戴系统可以自动将虚拟对象B 2214移动在用户的FOV内,无需用户更改其头部姿势。虚拟对象B可以覆盖虚拟对象A(或被包括在对象A内),或者对象B可以被放置在用户FOV 1250内,但是与对象A至少部分地间隔开(从而对象A也至少部分地对用户可见)。
作为另一示例,虚拟对象B 2214可以在另一用户界面屏幕上。用户可能想要在具有虚拟对象A 2212的用户界面屏幕和具有虚拟对象B 2214的用户界面屏幕之间切换。可穿戴系统可以在不改变用户的FOV 1250的情况下进行切换。当检测到眼睛注视变化或用户输入设备的致动时,可穿戴系统可以自动地将具有虚拟对象A 2212的用户界面屏幕移到用户的FOV 1250之外,同时将具有虚拟对象B 2214的用户界面屏幕移到用户的FOV 1250之内。作为另一示例,可穿戴系统可以自动地将具有虚拟对象B 2214的用户界面屏幕覆盖在具有虚拟对象A 2212的用户界面屏幕之上。一旦用户提供了有关他已经完成了虚拟用户界面屏幕的指示,可穿戴系统便可自动地将虚拟用户界面屏幕移到FOV 1250之外。
有利地,在一些实施例中,可穿戴系统可以基于多模式输入将虚拟对象B 2214识别为要被移动到FOV内的目标虚拟对象。例如,可穿戴系统可以基于用户的眼睛注视和虚拟对象的位置做出该确定。可穿戴系统可以将目标虚拟对象设置为在用户注视方向上并且是距离用户最近的对象。
使用多模式用户输入与虚拟对象进行交互的示例过程
图23示出了使用多模式输入与虚拟对象进行交互的示例过程。过程2300可以由本文所述的可穿戴系统执行。例如,过程2300可以由本地处理和数据模块260、远程处理模块270和中央运行时服务器1650单独或组合地执行。
在框2310处,可穿戴系统可以可选地检测启动条件(initiation condition)。启动可以是用户启动的输入,其可以提供有关用户打算向可穿戴系统发出命令的指示。启动条件可以由可穿戴系统预定义。启动条件可以是单个输入或组合输入。例如,启动条件可以是语音输入,例如通过说出短语“嘿,奇跃(Hey,Magic Leap)”。启动条件也可以基于手势。例如,当在世界相机的FOV(或用户的FOV)内检测到用户的手时,可穿戴系统可以检测到启动条件的存在。作为另一示例,启动条件可以是特定的手部动作,例如打响指。当用户启动用户输入设备时,也可以检测到启动条件。例如,用户可以点击用户输入设备上的按钮,指示该用户将发出命令。在某些实施方式中,启动条件可以基于多模式输入。例如,可穿戴系统可能需要语音命令和手势二者来检测启动条件的存在。
框2310是可选的。在一些实施例中,可穿戴系统可以在不检测启动条件的情况下接收并开始解析多模式输入。例如,当用户正在观看视频时,可穿戴系统可以获取用户的多模式输入以调整音量、快进、快退、跳至下一集等,而无需用户首先提供启动条件。有利地,在一些实施例中,在用户可以使用多模式输入与视频屏幕交互之前,用户可以不需要唤醒视频屏幕(例如,以便视频屏幕可以呈现时间调节或音量调节工具)。
在框2320处,可穿戴系统可以接收用于用户交互的多模式输入。多模式输入可以是直接或间接输入。示例输入模式可以包括语音、头部姿势、眼睛注视、手势(在用户输入设备上或在空中)、用户输入设备(例如,图腾)上的输入、用户环境,或3D环境中对象(物理或虚拟对象)的特征。
在框2330处,可穿戴系统可以解析多模式输入以识别用户交互的主题、命令和参数。例如,可穿戴系统可以将置信度得分分配给候选目标虚拟对象、目标命令和目标参数,并基于最高置信度得分选择主题、命令和参数。在一些实施例中,一个输入模式可以是主要输入模式,而另一输入模式可以是次要输入模式。来自次要输入模式的输入可以补充来自主要输入模式的输入以确定目标主题、命令或参数。例如,可穿戴系统可以将头部姿势设置为主要输入模式,将语音命令设置为次要输入模式。可穿戴系统可以首先尽可能多地解释来自主要输入模式的输入,然后解释来自次要输入模式的附加输入。如果附加输入被解释为暗示与主要输入的输入不同的交互,则可穿戴系统可以自动向用户提供消歧提示。消歧提示可以请求用户从以下项中选择期望的任务:主要输入的解释,或者基于次要输入的解释的替代选项。尽管参考主要输入模式和次要输入模式描述了该示例,但是在各种情况下,可能存在多于两个的输入模式。相同的技术还可以应用于第三输入模式、第四输入模式等。
在框2340处,可穿戴系统可以基于主题、命令和参数执行用户交互。例如,多模式输入可以包括眼睛注视和语音命令“将那个放在那儿”。可穿戴系统可以确定交互的主题是用户当前正在与之交互的对象,命令是“放”,并且参数是用户的注视视野的中心(基于用户的眼睛注视方向确定)。因此,用户可以将当前正在与之交互的虚拟对象移到用户的注视视野的中心。
设置与用户交互相关联的直接输入模式的示例
在某些情况下,例如当用户使用姿势、手势或语音与可穿戴系统进行交互时,存在用户附近的其他人可能会通过使用这些直接输入发出命令来“劫持”用户交互的风险。例如,在公园中,用户A可能站在用户B的附近。用户A可以使用语音命令与HMD进行交互。用户B可以通过说“拍照”来劫持用户A的体验。即使用户A从未打算拍照,由用户B发出的该语音命令也会导致用户A的HMD拍照。作为另一示例,用户B可能在用户A的HMD的世界相机的FOV内做手势。例如,在用户A正在玩视频游戏时,此手势可能导致用户A的HMD转到主页。
在一些实施方式中,可以分析输入以确定该输入是否源自用户。例如,系统可以应用说话者识别技术来确定命令“拍照”是由用户A还是劫持者B说出的。系统可以应用计算机视觉技术来确定手势是由用户A的手还是由劫持者B的手做出的。
另外地或替代地,为了防止安全漏洞和用户与可穿戴系统的交互中断,可穿戴系统可以基于间接输入自动设置可用的直接输入模式,或者在发出命令之前要求多种直接输入模式。图24示出了设置与用户交互相关联的直接输入模式的示例。图24中示出了三种直接输入:语音2412、头部姿势2414和手势2416。如下面进一步描述的,滑动条2422、2424和2426表示在确定命令时每个输入的加权量。如果滑块全程向右,则输入被赋予整权重(例如,100%),如果滑块全程向左,则输入被赋予零权重(例如,0%),并且如果滑块位于这些极限设置之间,则输入被赋予部分权重(例如,20%或80%或其它一些中间值,例如0到1之间的值)。在该示例中,可穿戴系统可以被设置为在执行命令之前要求语音命令2422和手势2426二者(而不使用头部姿势2414)。因此,如果语音命令2442和手势2426指示不同的用户交互(或虚拟对象),则可穿戴系统可能不执行命令。通过要求两种类型的输入,可穿戴系统可以降低其他人劫持用户交互的可能性。
作为另一示例,可以禁用一种或多种输入模式。例如,当用户与文档处理应用交互时,可以禁用头部姿势2414作为输入模式,如图24所示,其中头部姿势滑块2424被设置为0。
每种输入可以与认证级别相关联。在图24中,语音2412与认证级别2422相关联;头部姿势2414与认证级别2424相关联;并且手势2416与认证级别2426相关联。认证级别可用于确定待执行的命令是否需要输入,或者是否禁用输入,或者是否赋予输入部分权重(介于完全启用或完全禁用之间)。如图24所示,语音2412和手势2416的认证级别被设置为全程向右(与最大认证级别相关联),这表明需要这两种输入才能发出命令。作为另一示例,头部姿势的认证级别被设置为全程向左(与最小认证级别相关联)。这表明发出命令不需要头部姿势2414,即使仍然可以使用头部姿势2414来确定目标虚拟对象或目标用户界面操作。在一些情况下,通过将认证级别设置为最小,可穿戴系统可以禁用头部姿势2414作为输入模式。
在某些实施方式中,认证级别也可用于计算与虚拟对象相关联的置信度级别。例如,可穿戴系统可以将较高值分配给具有较高认证级别的输入模式,而将较低值分配给具有较低认证级别的输入模式。因此,当合计来自多个输入模式的置信度得分以计算虚拟对象的总置信度得分时,具有较高认证级别的输入模式在总置信度得分中的权重大于具有较低认证级别的输入模式的权重。
认证级别可以由用户(通过输入或经由设置面板)设置,或者可以由可穿戴系统自动设置(例如,基于间接输入)。当用户在公共场所时,可穿戴系统可能需要更多的输入模式,而当用户在私人场所时,可能需要更少的输入模式。例如,当用户在地铁上时,可穿戴系统可能既需要语音2412也需要手势2416。然而,当用户在家时,可穿戴系统可能仅需要语音2412来发出命令。作为另一示例,当用户在公园中时,可穿戴系统可以禁用语音命令,从而为用户的交互提供隐私。但是,当用户在家时,语音命令仍然可用。
尽管参考设置直接输入模式描述了这些示例,但是类似的技术也可以应用于设置作为多模式输入的一部分的间接输入模式。例如,当用户正在使用公共交通工具(例如,公共汽车)时,可穿戴系统可以被配置为禁用地理位置作为输入模式,因为可穿戴系统可能无法准确地知道用户具体坐在或站在公共交通工具上的什么位置。
用户体验的其它示例
除了本文所述的示例之外,本节还描述了利用多模式输入的其它用户体验。作为第一示例,多模式输入可以包括语音输入。例如,用户可以说出语音命令,例如“嘿,奇跃,呼叫她(Hey Magic Leap,call her)”,该命令由HMD上的音频传感器232接收并由HMD系统解析。在该命令中,用户可以通过说出“嘿,奇跃”来启动任务(或提供启动条件)。“呼叫(call)”可以是预编程的单词,因此可穿戴系统知道它应该进行电话呼叫(而不是发起视频呼叫)。在某些实施方式中,这些预编程的单词也可以称为“热词”或“载体短语”,系统将其识别为指示用户想要采取特定动作(例如,“呼叫”),并且可以警告系统接受进一步的输入以完成所期望的动作(例如,在单词“呼叫”之后标识人(“她”)或电话号码)。可穿戴系统可以使用附加输入来识别“她”是谁。例如,可穿戴系统可以使用眼睛跟踪来查看用户正在查看虚拟联系人列表或用户电话上的哪个联系人。可穿戴系统还可以使用头部姿势或眼睛跟踪来确定用户是否直接注视着用户想要呼叫的人。在某些实施例中,可穿戴系统可以利用人脸识别技术(例如,使用对象识别器708)来确定用户正在查看的人的身份。
作为第二示例,用户可以具有直接放置在墙壁上的虚拟浏览器(例如,可穿戴系统的显示器220可以投射虚拟浏览器,就好像其覆盖在墙壁上一样)。用户可以伸出他或她的手,并在浏览器中的链接上提供轻击手势。由于浏览器看起来位于墙壁上,因此用户可以轻击墙壁或在空间中轻击,使得用户手指的投影看起来轻击墙壁以提供指示。可穿戴系统可以使用多模式输入来识别用户打算点击的链接。例如,可穿戴系统可以使用手势检测(例如,经由由面向外的成像系统464获取的数据)、基于头部姿势的锥体投射和眼睛注视。在该示例中,手势检测的准确性可能小于100%。可穿戴系统可以利用从头部姿势和眼睛注视获取的数据来改善手势检测,从而提高手势跟踪的准确性。例如,可穿戴系统可基于由面向内的成像系统462获取的数据来识别眼睛最有可能聚焦的半径。在某些实施例中,可穿戴系统可基于眼睛注视识别用户的注视视野。可穿戴系统还可以使用诸如环境特征(例如,墙壁的位置、浏览器或网页的特征等)之类的间接输入来改善手势跟踪。在该示例中,墙壁可以由平面网格表示(其可以预先存储在环境的地图920中),可穿戴系统可以根据平面网格来确定用户的手的位置,从而确定用户定为目标和选择的链接。有利地,在各种实施例中,与单一输入模式相比,通过组合多种输入模式,可以降低用于用户交互的一种输入模式所需的准确度。例如,FOV相机不需要具有非常高的分辨率来进行手势识别,因为可穿戴系统可以利用头部姿势或眼睛注视对手势进行补充以确定预期的用户交互。
尽管以上示例中的多模式输入包括音频输入,但是音频输入对于上述多模式输入交互不是必需的。例如,用户可以使用2D触摸轻扫手势(例如,在图腾上)以将浏览器窗口从一堵墙移到另一堵墙。浏览器最初可位于左侧墙壁上。用户可以通过启动图腾来选择浏览器。然后,用户可以看着右墙壁,并在图腾的触摸板上做出向右轻扫的手势。在触摸板上轻扫是松散且不准确的,因为2D轻扫本身无法轻易/很好地转换为3D运动。然而,可穿戴系统可以检测墙壁(例如,基于由面向外的成像系统获取的环境数据),并且检测用户专门观看的墙壁上的点(例如,基于眼睛注视)。通过这三种输入(触摸轻扫、注视,环境特征),可穿戴系统就可以以高置信度完美地将浏览器置于用户希望浏览器窗口安放的位置。
作为多模式输入的头部姿势的其它示例
在各种实施例中,多模式输入可以支持无图腾的体验(或不经常使用图腾的体验)。例如,多模式输入可以包括可用于共享或搜索虚拟对象的头部姿势和语音控制的组合。多模式输入还可以使用头部姿势和手势的组合来导航各种用户界面平面和用户界面平面内的虚拟对象。头部姿势、语音和手势的组合可用于移动对象,进行社交网络活动(例如,发起和进行远端临场会话、共享帖子),浏览网页上的信息或控制媒体播放器。
图25示出了多模式输入的用户体验的示例。在示例场景2500a中,用户2510可以用头部姿势来将应用2512和2514定为目标并选择应用2512和2514。可穿戴系统可以显示焦点指示器2524a,焦点指示器2524a指示用户当前正利用头部姿势与虚拟对象进行交互。一旦用户选择了应用2514,可穿戴系统便可显示用于应用2514的焦点指示器2524a(例如,图25所示的目标图形、应用2514周围的光晕、或使虚拟对象2514看起来更靠近用户)。可穿戴系统还可以将焦点指示器的外观从焦点指示器2524a更改为焦点指示器2524b(例如,场景2500b中所示的箭头图形),其指示用户输入设备466进行的交互在用户选择虚拟对象2514之后也变为可用的。语音和手势交互扩展了头部姿势加手势的该交互模式。例如,当用户发出语音命令时,利用头部姿势被定为目标的应用可响应于语音命令或被语音命令操纵。通过例如头部姿势、手势和语音识别的组合与虚拟对象进行交互的其它示例在2016年10月18日提交的名称为“SELECTING VIRTUAL OBJECTS IN A THREE-DIMENSIONAL SPACE(在三维空间中选择虚拟对象)”、被公开为美国专利公开No.2017/0109936的美国申请No.15/296,869中进行了描述,其全部公开内容通过引用并入本文中。
头部姿势可以与语音控制、手势识别和环境信息(例如,网格信息)结合以提供非手动(hands-free)浏览。例如,如果用户正使用头部姿势来将浏览器定为目标,将由浏览器处理“搜索Fort Lauderdale(Search for Fort Lauderdale)”的语音命令。如果用户未将特定浏览器定为目标,则可穿戴系统也可以在不仔细查看(go through)浏览器的情况下处理该语音命令。作为另一示例,当用户说“与Karen共享这个(Share this with Karen)”时,可穿戴系统将对用户定为目标(例如,使用头部姿势、眼睛注视或手势)的应用执行共享动作。作为另一示例,语音控制可以执行浏览器窗口功能,例如“去往书签(Go toBookmarks)”,而手势可用于执行网页的基本导航,例如点击和滚动。
也可以在不需要用户输入设备的情况下使用多模式输入启动和移动虚拟对象。可穿戴系统可以使用诸如手势、语音和注视之类的多模式输入来将内容自然地放置在用户和环境附近。例如,当用户与HMD交互时,用户可以使用语音打开未启动的应用。用户可以通过说“嘿,奇跃,启动浏览器(Hey Magic Leap,launch the Browser)”来发出语音命令。在该命令中,启动条件包括启用短语“嘿,奇跃”的存在。该命令可以被解释为包括“启动”或“打开”(它们可以是可互换的命令)。该命令的主题是应用名称,例如“浏览器”。然而,该命令不需要参数。在某些实施例中,可穿戴系统可以自动应用默认参数,例如将浏览器放置在用户的环境(或用户的FOV)中。
多模式输入还可用于执行基本的浏览器控制,例如,打开书签,打开新标签,导航到历史记录等。非手动或全手动情况下引用网络内容的能力可以使用户获得更多信息并提高工作效率。例如,用户Ada是一名放射科医生,在她办公室里看片。Ada可以通过语音和手势浏览网页,以在看片时调出参考材料,从而减少了她在屏幕上前后移动鼠标以在片子和参考资料之间切换的需求。作为另一示例,用户Chris正在通过虚拟浏览器窗口烹饪新食谱。虚拟浏览器窗口可以放在他的橱柜上。Chris可以在开始切碎食物时使用语音命令调出加书签的食谱。
图26示出了具有各种加书签的应用的示例用户界面。用户可以通过说出应用的名字而在用户界面2600上选择应用。例如,用户可以说“open food(打开美食)”以启动food(美食)应用。作为另一示例,用户可以说“open this(打开这个)”。可穿戴系统可以确定用户的注视方向,并在用户界面2600上识别与用户的注视方向相交的应用。可穿戴系统可以相应地打开所识别的应用。
用户还可以使用语音来发出搜索命令。搜索命令可以由用户当前定为目标的应用执行。如果对象当前不支持搜索命令,则可穿戴系统可在可穿戴系统的数据存储内执行搜索,或者通过默认应用(例如,通过浏览器)搜索信息。图27示出了发出搜索命令时的示例用户界面2700。该用户界面2700示出了电子邮件应用和媒体观看应用。可穿戴系统可以(基于用户的头部姿势)确定用户当前正在与电子邮件应用进行交互。因此,可穿戴系统可以自动将用户的语音命令转换为电子邮件应用中的搜索命令。
也可使用多模式输入实现媒体控制。例如,可穿戴系统可以使用语音和手势控制来发出命令,例如播放、暂停、静音、快进和快退,以控制应用(例如屏幕)中的媒体播放器。用户可以将语音和手势控制与媒体应用一起使用,并将图腾搁置在一边。
多模式输入可以进一步在社交网络情境中使用。例如,用户可以在没有用户输入设备的情况下开始对话并分享经验(例如,虚拟图像、文档等)。作为另一示例,用户可以参加远端临场会话并设置私人情境,以使用户可以舒适地使用语音导航用户界面。
相应地,在各种实施方式中,系统可以利用多模式输入,例如:头部姿势加语音(例如,用于信息共享和一般应用搜索)、头部姿势加手势(例如,用于应用中的导航),或头部姿势加语音加手势(例如,用于“将那个放在那儿”功能、媒体播放器控制、社交互动或浏览器应用)。
作为多模式输入的一部分的手势控制的其它示例
手势交互可以有两种非限制性和非排他性的类别:事件手势和动态手部跟踪。事件手势可以是在用户与HMD进行交互时对事件进行响应,例如,棒球比赛中捕手向投手做出的投掷标志或浏览器窗口中的竖大拇指标志,从而使可穿戴系统打开共享对话。可穿戴系统可以遵循用户执行的一个或多个手势模式并相应地对事件做出响应。动态手部跟踪可以涉及以低延迟跟踪用户的手。例如,用户可以在用户的FOV上移动一只手,而虚拟角色可以跟随用户手指的移动。
手势跟踪的质量可取决于用户交互的类型。质量可能涉及多个因素,例如稳健性、响应性和人体工程学。在一些实施例中,事件手势具有几近完美的稳健性。在社交体验、前沿(bleeding-edge)交互和第三方应用中,最低可接受手势性能的阈值可能会低一些,因为这些体验的美感可以容忍错误、干扰、低延迟等,但是手势识别仍然可以在这些体验中表现出色,以保持响应能力。
为了增加可穿戴系统响应用户手势的可能性,该系统可以减少或最小化手势检测的延迟(对于事件手势和动态手部跟踪二者)。例如,可穿戴系统可以通过检测用户的手何时在深度传感器的视野内,自动将深度传感器切换到适当的手势模式,然后向用户提供有关他或她何时执行手势的反馈,来减少或最小化延迟。
如本文所述,手势可以与其它输入模式结合使用以启动、选择和移动应用。手势也可用于与应用内的虚拟对象进行交互,例如通过在空中或在表面(例如,在桌子或墙壁上)轻击、滚动来实现。
在某些实施例中,可穿戴系统可以实现支持手势交互的社交网络工具。用户可以执行语义事件手势来丰富交流。例如,用户可以在FOV相机前挥手,因此挥手动画被发送给用户正在与其聊天的人。可穿戴系统还可以为用户手部的虚拟化提供动态手部跟踪。例如,用户可以在他或她的FOV前面举起他或她的手,并获得有关正在跟踪他或她的手以制作他或她的化身的手部动画的视觉反馈。
手势也可用作多模式输入的一部分以实现媒体播放器控制。例如,用户可以使用手势来播放或暂停视频流。用户可以远离播放视频的设备(例如,电视机)执行手势操纵。在检测到用户的手势后,可穿戴系统可以基于用户的手势远程控制设备。用户还可以查看媒体面板,并且可穿戴系统可以结合使用用户的注视方向和用户的手势来更新媒体面板的参数。例如,捏取(ok)手势可以暗示“播放(play)”命令,拳头手势可以暗示“暂停(pause)”命令。用户还可以通过在FOV相机前面挥舞一只手臂来关闭菜单。手势2080的示例在图20中示出。
与虚拟对象进行交互的其它示例
如本文所述,可穿戴系统可以支持与用户环境中的对象(物理或虚拟对象)的各种多模式交互。例如,可穿戴系统可以支持用于与找到的对象进行交互的直接输入,诸如将找到的对象定为目标、选择、控制(例如,移动或特性)找到的对象。与找到的对象的交互还可以包括与找到的对象几何形状的交互或与找到的对象连接的表面的交互。
还支持用于与平面表面的交互的直接输入,例如将墙壁或桌面定为目标和选择墙壁或桌面。用户还可以启动各种用户界面事件,例如,触摸事件、轻击事件、轻扫事件或滚动事件。用户可以使用直接交互(例如,面板滚动、轻扫和选择面板内的元素(例如,虚拟对象或诸如按钮之类的用户界面元素)来操纵2D用户界面元素(例如,面板)。用户还可以使用一种或多种直接输入来移动面板或调整面板的大小。
直接输入可以进一步用于操纵处于不同深度处的对象。可穿戴系统可以设置各种阈值距离(距离用户的阈值距离)来确定虚拟对象的区域。参考图21,虚线圆2122内的对象可被视为近场中的对象,虚线圆2124内(但在虚线圆2122之外)的对象可被视为中场中的对象,虚线圆2124之外的对象可被视为远场中的对象。近场和远场之间的阈值距离可以是例如1m、2m、3m、4m、5m或更大,并且可以取决于环境(例如,在室外公园中比在室内办公室隔间中更大)。
可穿戴系统可以支持近场中的虚拟对象的各种2D或3D操纵。示例性2D操纵可以包括移动或调整大小。示例性3D操纵可以包括例如通过捏取、拖动、移动或旋转虚拟对象而将虚拟对象放置在3D空间中。可穿戴系统还可以支持与中场中的虚拟对象的交互,例如在用户环境中平移和重新定位对象,执行对象的径向运动或将对象移到近场或远场中。
可穿戴系统还可以支持连续的指尖交互。例如,可穿戴系统可以允许用户的手指像吸引子一样指向,或精确定位对象并对该对象执行推动交互。可穿戴系统可以进一步支持快速姿势交互,例如,手表面交互或手轮廓交互。
社交网络和共享的情景中语音命令的其它示例
可穿戴系统可以支持将语音命令作为社交网络(或消息传递)应用的输入。例如,可穿戴系统可以支持用于与联系人共享信息或与联系人通话的语音命令。
作为开始与联系人通话的示例,用户可以使用语音命令,例如“嘿,奇跃,呼叫Karen(Hey Magic Leap,call Karen)”。在该命令中,“嘿,奇跃(Hey Magic Leap)”是调用短语,命令是“呼叫(call)”,命令的参数是联系人的姓名。可穿戴系统可以自动使用信使(messenger)应用(作为主题)发起呼叫。命令“呼叫”可以与任务相关联,例如,“开始与......通话(start a call with)”,“开始与.....聊天(start a chat with)”等。
如果用户说“开始呼叫(Start a call)”,然后说出姓名,则可穿戴系统可以尝试识别该姓名。如果可穿戴系统无法识别该姓名,则可穿戴系统可以向用户传达消息,以供用户确认该姓名或联系人信息。如果可穿戴系统识别出该姓名,则可穿戴系统可以呈现对话框提示,使得用户可以确认/否决(或取消)呼叫,或提供替代联系人。
用户还可以使用好友列表开始与若干个联系人的通话。例如,用户可以说“嘿,奇跃,与Karen、Cole和Kojo开始群聊(Hey Magic Leap,start a group chat with Karen,Cole,and Kojo)”。该群聊命令可以从短语“开始群聊(start a group chat)”中提取,或者可以从用户提供的好友列表中提取。当用户正在通话时,该用户可以将另一用户添加到会话中。例如,用户可以说“嘿,奇跃,邀请Karen(Hey Magic Leap,invite Karen)”,其中短语“邀请(invite)”可以与邀请命令相关联。
可穿戴系统可以使用语音命令与联系人共享虚拟对象。例如,用户可以说“嘿,奇跃,与Karen共享屏幕(Hey Magic Leap,share Screens with Karen)”或“嘿,奇跃,与David和Tony共享那个(Hey Magic Leap,share that with David and Tony)”。在这些示例中,单词“共享(share)”是共享命令。单词“屏幕(screens)”或“那个(that)”可以指可穿戴系统可以基于多模式输入确定的主题。诸如“Karen”、“David和Tony”之类的姓名是该命令的参数。在一些实施例中,当由用户提供的语音命令包括带有应用引用(applicationreference)和联系人的单词“共享”时,可穿戴系统可以提供确认对话框,以要求用户确认用户是想要共享应用本身还是经由引用的应用共享主题。当用户发出包括单词“共享”、应用引用和联系人的语音命令时,可穿戴系统可以判定该应用名称是否被可穿戴系统识别,或者该应用是否存在于用户的系统上。如果系统无法识别该名称或该应用不存在于用户系统中,则可穿戴系统可以向用户提供消息。该消息可以建议用户再次尝试语音命令。
如果用户在语音命令中提供了指示性或回指性引用(例如“这个”或“那个”),则可穿戴系统可以使用多模式输入(例如,用户的头部姿势)来确定用户是否正在与能被共享的对象交互。如果对象不能被共享,则可穿戴系统可以向用户提示错误消息,或者移到第二输入模式(例如,手势),以确定应该共享的对象。
可穿戴系统还可以确定是否能够识别与之共享对象的联系人(例如,作为用户的联系人列表的一部分)。如果可穿戴系统识别出该联系人的姓名,则可穿戴系统可以提供确认对话框,以确认用户希望继续共享。如果用户确认,则可以共享该虚拟对象。在一些实施例中,可穿戴系统可以共享与应用相关联的多个虚拟对象。例如,可穿戴系统可以响应于用户的语音命令,共享整个相册或共享最近查看的相片。如果用户拒绝共享,则取消共享命令。如果用户指示联系人错误,则可穿戴系统可以提示用户再次说出联系人姓名,或从可用联系人列表中选择联系人。
在某些实施方式中,如果用户说“共享”并说出应用参考但未指定联系人,则可穿戴系统可能与用户环境中有权访问用户文件的人员在本地共享应用。可穿戴系统还可以使用本文所述的输入模式中的一种或多种来回复以及要求用户输入姓名。与社交网络示例类似,用户可以发出语音命令以与一个联系人或一组联系人共享虚拟对象。
经由语音进行通话的挑战是语音用户界面错误地识别或未能识别联系人姓名。对于较不常用的或非英语的姓名(例如lsi、Ileana等),这尤其成问题。例如,当用户说出的语音命令包含联系人姓名(例如“与lly共享屏幕(Share Screens with lly)”)时,可穿戴系统可能无法识别姓名“lly”或其发音。可穿戴系统可以使用诸如“谁?(Who?)”之类的提示来打开联系人对话。用户可以使用语音再次尝试以指定“Ily”,使用语音或用户输入设备拼出姓名“I-L-Y”,或使用用户输入设备从可用姓名面板中快速选择姓名。姓名“Ily”可能是在用户的联系人中具有入口的Ileana的昵称。一旦用户指示系统“Ily”是昵称时,系统可以被配置为通过自动将该昵称(或与该昵称相关联的发音或音频模式)与朋友的姓名相关联来“记住”该昵称。
使用语音命令选择和移动虚拟对象的其它示例
用户可以使用多模式输入(例如,眼睛注视、手势和语音的组合)自然而迅速地管理虚拟对象在用户环境中的放置。例如,名为Lindsay的用户坐在桌子旁,准备好做一些工作。她打开她的膝上型计算机,然后在她的计算机上启动了桌面监视器应用。当计算机加载时,她将手伸到膝上型计算机屏幕上方,并且说:“嘿,奇跃,将监视器放在这儿(Hey MagicLeap,put Monitors here.)”。响应于该语音命令,可穿戴系统可以自动启动监视器屏幕,并将其放置在膝上型计算机上方。然而,当Lindsay在看着房间另一侧的墙壁的同时说“将屏幕器放在那儿(Put screens there)”时,可穿戴系统可以自动将屏幕放到她对面的墙壁上。Lindsay还可以在看着她的书桌时说“将神翠鸟放在这儿(Put halcyon here)”。神翠鸟最初是在厨房的桌子上的,但是响应于该语音命令,可穿戴系统可以自动将其移到她的桌面上。在工作时,她可以使用图腾与这些对象交互,并根据自己的喜好调整它们的比例。
用户可以在用户环境中的任一点处使用语音来打开未启动的应用。例如,用户可以说“嘿,奇跃,启动浏览器(Hey Magic Leap,launch the Browser)”。在该命令中,“嘿,奇跃(Hey Magic Leap)”是调用词,单词“启动(launch)”是启动命令,而单词“浏览器(Browser)”是主题的应用。“启动”命令可以与单词“启动”、“打开(open)”、“播放(play)”相关联。例如,当用户说“打开浏览器(open the browser)”时,可穿戴系统仍然可以识别该启动命令。在某些实施例中,应用可以是沉浸式应用,其可以向用户提供3D虚拟环境,就像用户是3D虚拟环境的一部分一样。因此,当启动沉浸式应用时,可以将用户定位为好像他在3D虚拟环境中一样。在某些实施方式中,沉浸式应用还包括商店应用。当启动商店应用时,可穿戴系统可以为用户提供3D购物体验,从而使用户可以感觉到好像他在真实商店中购物一样。与沉浸式应用形成对照,应用可以是景观应用(landscape application)。当启动景观应用时,可以将其放置在通过启动器中的图腾启动时其将被放置的位置。因此,用户可以与景观应用进行交互,但是用户可能不觉得自己是景观应用的一部分。
用户还可以使用语音命令在用户FOV中的指定位置启动虚拟应用,或者用户可以将已经放置的虚拟应用(例如,景观应用)移到用户FOV中的特定位置。例如,用户可以说“嘿,奇跃,将浏览器放在这儿(Hey Magic Leap,Put the browser here)”、“嘿,奇跃,将浏览器放在那儿(Hey Magic Leap,Put the browser there)”、“嘿,奇跃,将这个放在这儿(Hey Magic Leap,Put this here)”或“嘿,奇跃,将那个放在那儿(Hey Magic Leap,Putthat there)”。这些语音命令包括调用词、“放(put)”命令、应用名称(其是主题)和位置提示(其是参数)。可以基于音频数据(例如,基于用户说出的应用名称)引用主题。当用户改为说出单词“这个”或“那个”时,也可以基于头部姿势或眼睛注视识别主题。为了便于这种语音交互,可穿戴系统可以做出例如两个推断:(1)要启动哪个应用;(2)将应用放置在哪里。
可穿戴系统可以使用“放”命令和应用名称来推断要启动哪个应用。例如,如果用户说出可穿戴系统无法识别的应用名称,则可穿戴系统可能会提供错误消息。如果用户说出可穿戴系统识别出的应用名称,则可穿戴系统可以确定该应用是否已被放置在用户环境中。如果该应用已经被显示在用户环境中(例如,在用户FOV中),则可穿戴系统可以确定用户环境中有多少个应用实例(instance)(例如,打开了多少个浏览器窗口)。如果只有一个目标应用实例,则可穿戴系统可以将该应用移到用户指定的位置。如果环境中存在所说出的应用的多于一个实例,则可穿戴系统可以将该应用的所有实例移到指定位置,或者将最近使用的实例移到指定位置。如果该虚拟应用尚未被放置在用户的环境中,则系统可以确定该应用是景观应用、沉浸式应用还是商店应用(用户可在其中下载或购买其它应用)。如果该应用是景观应用,则可穿戴系统可以在指定位置处启动该虚拟应用。如果该应用是沉浸式应用,则可穿戴系统可以将该应用的快捷方式放在指定位置,因为沉浸式应用不支持在用户FOV中的指定位置处启动的功能。如果该应用是商店应用,则系统可以将迷你商店放置在指定位置,因为商店应用需要使用户完全地3D浸入虚拟世界中,因此不支持在用户环境中的特定位置启动。迷你商店可以包括商店中虚拟对象的简短摘要或图标。
可穿戴系统可以使用各种输入来确定将应用放置在哪里。可穿戴系统可以解析用户命令中的语法(例如,“这儿”或“那儿”),确定用户环境中的虚拟对象与基于头部姿势的射线投射(或锥体投射)的交点,确定用户的手部位置,确定平面表面网格或环境平面网格(例如,与墙壁或桌子相关联的网格)等。作为示例,如果用户说“这儿”,则可穿戴系统可以确定用户的手势,例如用户FOV中是否存在平坦张开的手。可穿戴系统可以将对象放置在用户平坦张开的手的位置处以及用户的手触及范围附近的渲染平面处。如果FOV中没有平坦张开的手,则可穿戴系统可以确定头部姿势(例如,基于头部姿势的锥体投射的方向)是否与用户手臂触及范围内的表面为平面的(surface-planar)网格相交。如果存在表面平面的网格,则可穿戴系统可以将虚拟对象放置在用户手臂触及范围内的渲染平面处的头部姿势方向与表面平面的网格的交点处。用户可以将对象平放在该表面上。如果没有表面平面的网格,则可穿戴系统可以将虚拟对象放置在渲染平面处,该渲染平面具有在手臂触及范围内与最佳阅读距离之间某处的距离。如果用户说“那儿”,则可穿戴系统可以执行与用户说“这儿”时类似的操作,不同之处在于,如果没有在用户手臂触及范围内的表面平面的网格,则可穿戴系统可以将虚拟对象放置在中场内的渲染平面处。
一旦用户说“将应用放在……(Put the Application....)”,可穿戴系统便可立即向用户提供预测性反馈,以显示在用户说“这儿”或“那儿”时基于可用输入将虚拟对象放置在哪里。该反馈可以采用焦点指示器的形式。例如,反馈可包括一个说出“这儿”的小浮动文本气泡,该气泡位于用户手臂触及范围内的渲染平面处的与用户头部姿势方向相交的手、网格或平面表面处。如果用户的命令为“这儿”,则该平面表面可位于近场中,而如果用户的命令为“那儿”,则该平面表面可位于中场或远场中。该反馈可以像阴影或视觉对象的轮廓一样可视化。
用户还可以取消交互。在各种情况下,可以以两种方式取消交互:(1)命令未能在n秒超时前完成,或者(2)输入取消命令,例如说“不(no)”,“不必在意(never mind)”,或“取消(cancel)”。
使用用户输入组合与文本进行交互的示例
混合现实环境中使用传统交互方式的自由形式文本输入,特别是长字符串序列的输入是有问题的。例如,尤其是在缺少输入或接口设备(例如,键盘、手持式控制器(例如,图腾)或鼠标)的“非手动”环境中,完全依赖于自动语音识别(ASR)的系统很难使用文本编辑(例如,用于纠正语音识别技术本身特有的ASR错误,如用户语音的错误转录)。作为另一示例,“非手动”环境中的虚拟键盘可能需要精细的用户控制,并且在被用作主要的用户输入形式时可能会导致疲劳。
本文所述的可穿戴系统200可以被编程为允许用户使用多模式输入自然而迅速地与虚拟文本进行交互,所述多模式输入例如为以下项中的两种或更多种的组合:语音、眼睛注视、手势、头部姿势、图腾输入等。本文使用的短语“文本”可以包括字母、字符、单词、短语、句子、段落或其它类型的自由形式文本。文本还可以包括图形或动画,例如绘文字、表意文字、表情符号、笑脸、标志等。与虚拟文本的交互可以单独地或组合地包括编写、选择(例如,选择部分或全部文本)或编辑文本(例如,更改、复制、剪切、粘贴、删除、清除、撤消、重做、插入、替换等)。与单一输入系统相比,本文所述的系统通过利用用户输入的组合,在速度和便利性方面提供了显著的改善。
本文所述的多模式文本交互技术可以应用于任何听写场景或应用(例如,其中系统只是转录用户语音而不应用任何语义评价,即使该转录是确实依赖于语义评价的另一任务的一部分)。一些示例应用可以包括消息传递应用,文字处理应用、游戏应用、系统配置应用等。用例的示例可以包括用户编写要发送给可能在也可能不在用户的联系人列表中的联系人的文本消息;用户写信、文章或其它文本内容;用户在社交媒体平台上发布和分享内容;以及用户使用可穿戴系统200完成或填写表格。
利用用户输入组合的系统不必是可穿戴系统。如果需要,这样的系统可以是任何合适的计算系统,例如桌面计算机、膝上型计算机、平板计算机、智能电话或具有多个用户输入通道(例如,键盘、轨迹板、麦克风、眼睛或注视跟踪系统、手势识别系统等)的另一计算设备。
使用多模式用户输入编写文本的示例
图28A至图28F示出了基于诸如语音命令或眼睛注视之类的输入的组合编写和编辑文本的示例用户体验。如本文所述,可穿戴系统可以基于由图4所示的面向内的成像系统462获取的图像来确定用户的注视方向。面向内的成像系统462可以确定用户的一个或两个瞳孔的取向,并且可以外推用户的一只或两只眼睛的视线。通过确定用户的两只眼睛的视线,可穿戴系统200可以确定用户正在看的空间中的三维位置。
可穿戴系统还可以基于从图2所示的音频传感器232(例如,麦克风)获取的数据确定语音命令。系统可以具有将语音输入2800转换为文本的自动语音识别(ASR)引擎。语音识别引擎可以在将语音输入2800转换为文本时使用自然语言理解,其中包括从较长的话语中分离和提取消息文本。
如图28A所示,音频传感器232可以接收用户说出的短语2800。如图28所例示的,短语2800可以包括:命令,例如“Send a message to John Smith saying that(给JohnSmith发送消息,说)”;以及命令的参数,例如编写和发送消息;以及消息的目标接收者JohnSmith。短语2800还可以包括要编写的消息的内容。在该示例中,消息的内容可以包括“I’mflying in from Boston and will be there around seven o’clock;Period;Let’smeet at the corner near the office(我将从波士顿起飞,将在大约七点钟到那里;句号;我们在办公室附近的拐角处会面吧)”。这样的内容可以通过使用ASR引擎(该引擎可以实现自然语言理解,从而从用户的话语中分离和提取消息内容和标点符号(例如“Period(句号)”))解析音频数据来获得。在一些示例中,可以处理标点符号以在转录的字符串的上下文内呈现(例如,“两点钟(two o’clock)”可被呈现为“2:00”,或者“问号(questionmark)”可被呈现为“?”)。可穿戴系统还可以标记化(tokenize)文本字符串(例如,通过隔离文本字符串中的离散单词),并在混合现实环境中显示结果(例如,通过显示离散单词)。
然而,在某些情况下,自动语音识别可能容易出错。如图28B所示,由于各种原因,使用ASR引擎的系统可能会产生与用户的语音输入不完全匹配的结果,这些原因包括不良或奇特的发音、环境噪声、同音异义词和其它类似发音的词、犹豫或不流利,以及不在ASR的词典中的词汇(例如,外来短语、技术术语、行话、俚语等)。在图28B的示例中,系统正确地解释了短语2800的命令方面,并且生成了具有头2802和正文(body)2804的消息。然而,在消息的正文2804中,系统错误地将“corner(拐角)”的用户表达解释为“quarter(四分之一)”(这两个词的发音有些相似)。在完全依赖于语音输入的系统中,用户很难用预期的单词(或短语)快速替换错误识别的单词(或短语)。然而,本文所述的可穿戴系统200可以有利地允许用户快速纠正错误,如图28C至28F所示。
可穿戴系统中的ASR引擎可以产生与用户的话语相关联的文本结果(其中包括至少一个单词),并且还可以产生与文本结果中的每个单词(或短语)相关联的ASR得分。高ASR得分可以表示ASR引擎正确地将用户的话语转录为文本的置信度高或可能性高,而低ASR得分可以表示ASR引擎正确地将用户的话语转录为文本的置信度低或可能性低。在一些实施例中,系统可以以强调的方式(例如,通过突出显示的背景、斜体或粗体,不同颜色的字体等)显示具有低ASR得分(例如,低于ASR阈值的ASR得分)的单词,这可以使得用户更容易识别或选择错误识别的单词。单词的低ASR得分可以表示用户有更大可能性选择该单词进行编辑或替换,因为ASR引擎极有可能错误地识别该单词。
如图28C和28D所示,可穿戴系统可以使用户能够使用眼睛跟踪系统(例如,图4的面向内的成像系统462)来选择错误识别的单词(或短语)。在该示例中,所选单词可以是上面结合较早的附图描述的目标虚拟对象的示例。
可穿戴系统200可以基于面向内的成像系统462确定注视方向,并且可以在注视方向上投射锥体2806或射线。可穿戴系统可以选择一个或多个与用户的注视方向相交的单词。在某些实施方式中,可以在用户的注视在错误单词上停留至少阈值时间时选择该单词。如上所述,错误的单词可以至少部分地通过与低ASR得分相关联来确定。阈值时间可以是足以指示用户想要选择特定单词的任何时间量,但是不会长得不必要地延迟选择。阈值时间还可用于确定指示用户想要选择特定虚拟词的置信度得分。例如,可穿戴系统可以基于用户在一方向/对象上盯着的时间计算置信度得分,其中置信度得分可以随着注视特定方向/对象的持续时间的增加而增大。还可以基于本文所述的多模式输入来计算置信度得分。例如,可穿戴系统可以以较高置信度得分(高于单独根据眼睛注视导出的置信度得分)确定用户的手势和眼睛注视二者是否均指示一单词应该被选择。
作为另一示例,可穿戴系统可以部分地基于ASR得分而计算置信度得分,如本文中更详细地讨论的,ASR得分可以指示ASR引擎转换特定单词的相对置信度。例如,低ASR引擎得分可以表示ASR引擎对正确地转录语音单词的置信度较低。因此,用户更大可能选择该单词进行编辑或替换。如果用户的注视停留在具有低ASR得分的单词上的时间超过阈值时间,则系统可以分配较高置信度得分以反映用户至少基于两个原因选择该单词:第一,眼睛注视该单词的长度;第二,该单词很可能被ASR引擎错误转录,这两点都倾向于表明用户将想要编辑或替换该单词。
如果置信度得分超过阈值标准,则可以选择单词。作为示例,阈值时间可以是半秒、一秒、一秒半、两秒、两秒半、一秒至两秒、一秒至三秒等。因此,仅通过盯着错误的单词“quarter”看足够长的时间,用户便可以轻松、快速地选择出该错误的单词。可以基于眼睛注视(或手势)时间与高于ASR阈值的ASR得分的组合选择单词,这两个标准都提供了有关用户将要选择该特定单词的指示。
作为示例,如果ASR引擎的结果包括具有高ASR得分的第一单词(例如,ASR引擎相对确信地正确识别的单词)和具有低ASR得分的第二单词(例如,ASR引擎相对确信地不正确识别的单词),并且这两个单词由可穿戴系统彼此相邻地显示,则可穿戴系统可以假设包含第一和第二单词的用户注视输入实际上是用户基于其相对低的ASR得分选择第二单词的尝试,因为与正确识别的第一单词相比,用户更可能想要编辑错误识别的第二单词。以此方式,由ASR引擎产生的低ASR得分的单词(这些单词更可能是不准确的并且需要编辑)对于用户而言显著更容易选择以进行编辑,从而便于用户的编辑。
尽管该示例描述了使用眼睛注视选择错误识别的单词,但也可以使用另一多模式输入来选择单词。例如,锥体投射可以识别多个单词,例如“around(大约)”、“7:00”、“the”和“quarter”,因为它们也与虚拟锥体2806的一部分相交。如将参考图29至31进一步描述的,可穿戴系统可以将用户注视输入与另一输入(例如,手势、语音命令或来自用户输入设备466的输入)进行组合以选择单词“quarter”作为进一步编辑的单词。
在选择单词2808之后,系统可以启用对所选单词的编辑。可穿戴系统可以允许用户使用多种技术来编辑单词,例如,更改、剪切、复制、粘贴、删除、清除、撤消、重做、插入、替换等。如图28D所示,可穿戴系统可以允许用户将单词2808更改为另一单词。可穿戴系统可以支持用于编辑单词2808的多种用户输入,例如通过麦克风接收另外的语音输入以替换或删除所选单词,显示虚拟键盘以使用户能够键入替换单词,或者经由用户输入设备接收用户输入等等。在某些实施方式中,输入可以与特定类型的文本编辑相关联。例如,挥舞手势可以与删除所选文本相关联,而手指指向文本中某个位置的手势可以使可穿戴系统在该位置处插入附加文本。可穿戴系统还可以支持用于编辑单词的用户输入组合。如将参考图32至35进一步描述的,系统可以支持将眼睛注视与另一输入模式进行组合来编辑单词。
在图28D和28E的示例中,系统可以在选择单词2808后自动向用户呈现建议的替代词阵列,例如替代词2810a和2810b。建议的替代词可以由系统中的ASR引擎或其它语言处理引擎生成,并且可以基于原始语音输入(其在一些实施例中也被称为语音输入)、自然语言理解、上下文、从用户行为中学习,或其它合适的来源。在至少一些实施例中,建议的替代词可以是由ASR引擎生成的替代假设,可以是由预测文本引擎(该引擎可以尝试使用相邻单词的上下文和用户的历史文本样式“填空”)生成的假设,可以是原始转换的同音异义词,可以使用同义词库生成,或者可以使用其它合适的技术生成。在所示的示例中,“quarter”的建议替代词包括“corner”和“courter(法院)”,这些替代词由语言引擎提供,作为发音类似于“quarter”的单词。
图28E示出了系统可以如何使用户能够通过眼睛注视选择期望的替代词,例如“corner”。可穿戴系统可以使用与参考图28C描述的技术类似的技术选择替代词。例如,该系统可以使用面向内的成像系统462来跟踪用户的眼睛,以确定用户的注视2812已持续至少阈值时间集中在特定替代词(诸如替代词2810A或“corner”)。在确定用户的注视2812持续阈值时间集中在替代词上之后,系统可以通过用选定的替代词2814替换初始选定的单词来修改文本(消息),如图28F所示。在某些实施方式中,在可穿戴系统使用锥体投射来选择单词的情况下,可穿戴系统可以基于文本的密度动态地调整锥体大小。例如,可穿戴系统可以呈现具有较大孔径的锥体(从而在远离用户的地方具有更大的表面积),以选择用于编辑的替代词,如图28E所示,这是因为可用选项很少。但是可穿戴系统可以呈现具有较小孔径的锥体以选择图28C中的单词2808,因为单词2808被其它单词包围,并且较小的锥体可以降低意外选择另一单词的错误率。
在整个操作过程中,可穿戴系统可以向用户提供反馈(例如,视觉、听觉、触觉反馈等)。例如,可穿戴系统可以呈现焦点指示器,以便于用户识别目标虚拟对象。例如,如图28E所示,可穿戴系统可以在单词“quarter”周围提供对比鲜明的背景2830,以表明单词“quarter”被选定并且用户当前正在编辑单词“quarter”。作为另一示例,如图28F所示,可穿戴系统可以更改单词“corner”2814的字体(例如,更改为粗体)以表明可穿戴系统已确认用该替代词“corner”替换单词“quarter”。在其它实施方式中,焦点指示器可以包括十字准线、围绕所选文本的圆形或椭圆形,或其它图形技术,以突出显示或强调所选文本。
使用多模式用户输入选择单词的示例
可穿戴系统可以被配置为支持和利用多种用户输入模式来选择单词。图29至31示出了基于眼睛注视和另一输入模式的组合选择单词的示例。但是在其它示例中,也可以结合使用眼睛注视以外的输入和另一输入模式来实现与文本的交互。
图29示出了基于来自用户输入设备的输入和注视来选择单词的示例。如图29所示,系统可以将用户的注视2900(其可以基于来自面向内的成像系统462的数据而被确定)与经由用户输入设备466接收的用户输入组合在一起。在该示例中,可穿戴系统可以基于用户的注视方向执行锥体投射。可穿戴系统可以基于来自用户输入设备的输入而确认选择单词“quarter”。例如,可穿戴系统可以识别出单词“quarter”是最接近用户注视方向的单词,并且可穿戴系统可以基于用户对用户输入设备466的致动而确认选择单词“quarter”。作为另一示例,锥体投射可以捕获多个单词,例如“around”、“7:00”、“the”和“quarter”。用户可以经由用户输入设备466从多个单词中选择单词以进一步编辑。通过独立于用户注视而接收输入,系统可以不需要等待很长时间,就可以确信地将特定单词识别为用户想要编辑的单词。在以此方式选择要编辑的单词之后,系统可以呈现替代词(如结合图28E所讨论的)或以其它方式允许用户编辑所选单词。将用户的注视与经由图腾接收的用户输入进行组合的相同过程可以应用于选择期望的替换词(例如,在替代词当中选择单词“corner”以替换单词“quarter”)。一些实施方式可以利用置信度得分来确定用户正在选择哪个文本。置信度得分可以聚合多个输入模式以更好地确定所选文本。例如,置信度得分可以基于用户注视文本的时间,用户在注视文本时是否启动用户输入设备466,用户是否指向所选文本等等。如果置信度得分超过阈值,则可穿戴系统可以以增加的置信度确定系统已正确选择了用户想要的文本。例如,为了仅通过眼睛注视来选择文本,系统可以被配置为在注视时间超过1.5秒时选择文本。然而,如果用户仅注视文本0.5秒,但同时启动了用户输入设备,则系统可以更快、更确信地确定所选文本,从而可以改善用户体验。
图30示出了基于语音和注视输入的组合选择要编辑的单词的示例。可穿戴系统可以基于用户的注视确定目标虚拟对象。如图30所示,系统可以确定用户的注视3000指向特定单词(在此情况下为“quarter”)。可穿戴系统还可以基于用户的语音命令确定要对目标虚拟对象执行的操作。例如,可穿戴系统可以经由音频传感器232接收用户的语音输入3010,可以将语音输入3010识别为命令,并且可以将两个用户输入组合成命令,以将命令操作(“edit(编辑)”)应用于目标虚拟对象(例如,用户的注视集中于的单词(“quarter”))。如前所述,系统可以在用户选择要编辑的单词之后呈现替代词。将用户的注视与语音输入进行组合的相同过程可以应用于在多个替代词当中选择期望的替代词来替换单词“quarter”。如本文所述,诸如“edit”之类的术语表示上下文特定的唤醒词,其用于针对一种或多种不同的用户输入模式中的每一者调用与编辑相关联的受约束的系统命令库。也就是说,这样的术语在作为语音输入被系统接收时,可以使系统根据有限的标准集来评估随后接收到的用户输入,从而以提高的准确性识别由用户提供的与编辑有关的命令。例如,在语音输入的上下文中,系统可以查阅有限的命令特定术语词汇,以对随后接收到的语音输入执行语音识别。在另一示例中,在注视或手势输入的情境中,系统可以查阅有限的命令特定模板图像库,以对随后接收到的注视或手势输入执行图像识别。诸如“edit”之类的术语有时被称为“热词”或“载体短语”,并且系统可以包括多个预编程的(以及可选地,用户可设置的)热词,例如(在编辑上下文中):编辑、剪切、复制、粘贴、粗体、斜体、删除、移动等。
图31示出了基于注视和手势输入的组合选择要编辑的单词的示例。如图31的示例所示,系统可以使用眼睛注视输入3100与手势输入3110的组合来选择要编辑的单词。具体地,系统可以确定眼睛注视输入3100(例如,基于由面向内的成像系统462获取的数据),并且可以识别手势输入3110(例如,基于由面向外的成像系统464获取的图像)。诸如识别器708之类的对象识别器可用于检测用户身体的一部分(例如,用户的手),并做出与识别要编辑的单词相关联的手势。
可以单独地使用手势,或结合眼睛注视使用手势,以选择单词。例如,尽管锥体投射可以捕获多个单词,但是可穿戴系统仍可以将单词“quarter”识别为目标虚拟对象,这是因为它是从锥体投射和用户的手势二者中识别出来的(例如,除了手势外还基于眼睛注视锥体投射的置信度得分超过置信度阈值,从而指示用户选择了单词“quarter”)。作为另一示例,尽管锥体投射可以捕获多个单词,但是可穿戴系统仍可以将单词“quarter”识别为目标虚拟对象,这是因为它是从锥体投射中识别出来的,并且还是位于锥体投射内(或附近)的来自ASR引擎的具有最低ASR得分的单词。在某些实施方式中,手势可以与命令操作相关联,因为手势与诸如“edit”之类的命令或本文所述的其它热词相关联。作为示例,系统可以识别用户何时指向他们注视的同一单词,并将这些用户输入解释为请求编辑同一单词。如果需要,系统还可以在确定用户要编辑特定单词的同时利用附加用户输入,诸如用于“edit”的语音命令。
使用多模式用户输入编辑单词的示例
一旦用户选择了要编辑的单词,系统便可利用任何所需的用户输入模式来编辑所选单词。可穿戴系统可以通过显示可能的替代词列表并接收用户注视输入2812以选择替换原始词的替代词,来允许用户更改或替换所选单词(请参见图28E所示的示例)。图32至34图示了编辑所选单词的另外的示例,其中可以使用多模式输入来编辑所选单词。
图32示出了基于眼睛注视和语音输入的组合替换单词的示例。在图32中,系统(通过音频传感器232或其它合适的传感器)接收来自用户的语音输入3210。语音输入3210可以包含期望的替换词(其可以是或可以不是来自建议替代词3200的列表的替换词)。在接收到语音输入3210后,可穿戴系统可以解析输入(例如,剥离出诸如“change this to…(将这个更改为……)”之类的载体短语)以识别由用户说出的单词,并将所选单词“quarter”替换为由用户说出的单词“corner”。尽管在该示例中,替换词是单词,但是在某些实施方式中,可穿戴系统可以被配置为用短语或句子或某一其它元素(例如,绘文字)替换单词“quarter”。在眼睛注视锥体投射中包含多个单词的示例中,可穿戴系统可以自动选择眼睛注视锥体内最接近替换词的单词(例如,“quarter”比“the”或“7:00”更接近“corner”)。
图33示出了基于语音和注视输入的组合更改单词的示例。在该示例中,可穿戴系统可以接收语音输入3310并确定用户的注视方向3300。如图33所示,语音输入3310包括短语“change it to‘corner’(将它更改为‘拐角’)”。可穿戴系统可以解析语音输入3310,并确定语音输入3310包括命令操作“change(更改)”(它是载体短语的示例)、主题“it(它)”和命令的参数(例如,结果单词“corner”)。该语音输入3310可以与眼睛注视3300组合以确定操作的主题。如参考图28A和28B所示,可穿戴系统可以将单词“quarter”识别为操作的主题。因此,可穿戴系统可以将主题(“quarter”)更改为结果单词“corner”。
图34示出了使用虚拟键盘3410编辑所选单词3400的示例。虚拟键盘3410可以由用户注视输入、手势输入、从用户输入设备接收的输入等控制。例如,用户可以通过在虚拟键盘3410(该虚拟键盘通过可穿戴系统200的显示器显示给用户)上方移动眼睛注视方向3420来键出替换词。用户可以通过在相应键上将其注视暂停阈值时间段来键入替换词中的每个字母,或者可穿戴系统可以将特定键上的用户注视方向3420的变化识别为用户想要选择该键的指示(从而不需要用户在键出单词时在每个单独键上保持稳定的聚焦)。如参考图28D所描述的,在某些实施方式中,可穿戴系统可以基于键的尺寸来改变锥体的尺寸。例如,在每个键的尺寸相对较小的虚拟键盘3410中,可穿戴系统可以减小锥体的尺寸,以允许用户更准确地识别出替换词中的字母(使得锥体投射不会意外捕获大量可能的键)。如果尺寸相对较大,则可穿戴系统可以相应地增加键的尺寸,从而使用户不必精确地定位注视方向(这可以减少疲劳)。
在某些实施方式中,在单词被选择之后,作为显示用于替换所选单词的建议替代词列表的补充或替代,可穿戴系统可以呈现一组可能的动作。用户210可以使用本文所述的技术来选择动作并编辑所选单词。图35示出了显示应用于所选单词的可能动作的示例用户界面。在图35中,在选择要编辑的单词3500之后,可穿戴系统可以呈现用于编辑的选项的列表3510,其中包括(在该示例中)用于执行以下动作的选项:(1)更改单词(使用本文所述的用于编辑的任何技术),(2)剪切单词并可选地将其存储在剪贴板中,或者复制单词并将其存储在剪贴板中,或者(3)从剪贴板粘贴在单词或短语中。可呈现的附加或替代选项包括删除选择选项、撤销选项、重做选项、全选选项、插入此处选项和替换选项。可以使用本文所述的注视输入、图腾输入、手势输入等来选择各种选项。
使用多模式用户输入与短语进行交互的示例
尽管前面的示例已经描述了使用多模式输入来选择和编辑单词,但这仅是为了说明,并且相同或相似的处理和输入通常可以用于选择和编辑短语或句子或段落(包括多个单词或字符)。
图36(i)至36(iii)示出了使用多模式输入与短语进行交互的示例。在图36(i)中,可穿戴系统可以确定用户的注视3600方向,并基于用户的注视方向执行锥体投射。在图36(ii)中,系统可以识别出用户210的注视3600集中在第一单词3610(例如,“I'm(我)”)上。系统可以使用本文讨论的任何技术来对第一单词3610进行这样的确定,其中包括但不限于识别出用户的注视3600在特定单词上的停留(例如,逗留)持续阈值时间段,识别出在用户提供语音、手势或图腾输入等的同时用户的注视3600位于特定单词上。可穿戴系统还可以在所选单词“I'm”3610上显示焦点指示器(例如,所示的对比鲜明的背景)来指示已经根据眼睛注视锥体投射确定该单词。用户可以在注视第一单词3610的同时启动图腾3620(其是用户输入设备466的示例)。该启动可以指示用户打算选择以第一单词3610开头的短语或句子。
在图36(iii)中,在用户输入设备466被启动之后,用户可以看最后一个预期单词(例如,单词“there(那儿)”)以指示用户期望选择从单词“I'm”开始并以单词“there”结束的短语。可穿戴系统还可以检测到用户已停止启动图腾3620(例如,释放用户先前按下的按钮),并可以相应地选择短语“I’m flying in from Boston and will be there(我将从波士顿起飞,将到那里)”的整个范围3630。系统可以使用焦点指示器来显示所选短语(例如,通过将对比鲜明的背景扩展到短语中的所有单词)。
系统可以使用各种技术确定用户期望选择短语而不是另一单词进行编辑。作为示例,当用户在选择第一单词之后不久选择第二单词时,系统可以确定用户希望选择短语而不是撤销他们对第一单词的选择。作为另一示例,当用户选择在第一单词之后出现的第二单词并且用户尚未编辑第一所选单词时,系统可以确定用户想要选择短语。作为又一示例,用户可以在集中在第一单词3610上时按下图腾3620上的按钮,然后保持住该按钮,直到他们的注视落在最后一个单词上为止。当系统识别出在注视3610集中在第一单词上的同时按钮被按下,但仅在用户的注视3610移至第二单词后才被释放时,系统可以将多模式用户输入识别为选择了短语。然后,系统可以识别短语中的所有单词,其中包括第一单词、最后一个单词以及介于两者之间的所有单词,并且允许整体编辑该短语。系统可以使用焦点指示器来突出显示所选短语(例如,突出显示,强调的文本(例如,粗体、斜体或不同颜色)等),从而使其从未选择的文本中凸显出来。然后,系统可以显示用于编辑所选短语的上下文相关选项,例如选项3510、虚拟键盘(如键盘3410)、替代短语等。系统可以接收另外的用户输入,例如语音输入、图腾输入、手势输入等,以确定如何编辑所选短语3630。
虽然图36示出了用户选择位于短语的开始处的第一单词3610,但是系统还可以允许用户从第一单词3610向后选择。换句话说,用户可以通过选择单词的最后一个单词(例如,“there”),然后选择所需短语的第一单词(例如,“I'm”),来选择短语。
图37A至37B示出了使用多模式输入与文本进行交互的另一示例。在图37A中,用户210说出句子(“I want to sleep(我想睡觉)”)。可穿戴系统可以捕获用户的话语作为语音输入3700。对于该语音输入,可穿戴系统可以针对每个单词显示来自自动语音识别(ASR)引擎的一级结果和二级结果,如图37B所示。每个单词的一级结果可以表示ASR引擎针对用户在语音输入3700中说出的单词的最佳猜测(例如,具有最高ASR得分的单词,用于指示用户实际说出什么单词),而二级结果可以表示发音类似的替代词或具有比ASR引擎的最佳猜测低的ASR得分的单词。在该图37B中,一级结果被显示为序列3752。在一些实施例中,可穿戴系统可以呈现替代结果或假设作为替代短语和/或整个句子,而不是替代词。作为示例,可穿戴系统可以提供一级结果“four score and seven years ago(八十七年前)”以及二级结果“force caring seven years to go(强迫照料还有七年)”,其中一级结果和二级结果中的离散词之间没有一一对应关系。在这样的实施例中,可穿戴系统可以支持来自用户的输入(采取本文所述的任何方式),从而选择替代或次要短语和/或句子。
如图37B所示,来自用户语音输入3700的每个单词可以被显示为一级结果和二级结果的集合3710、3720、3730、3740。这种类型的排列可以使用户快速调换出不正确的一级结果,并纠正由ASR引擎引入的任何错误。可以用焦点指示器来强调一级结果3752(例如,在图37B的示例中,每个单词为由边界框包围的粗体文本)以将它们与二级结果区分开。
如果主要单词不是用户想要的,则用户210可以停留在二级结果上,例如次要单词、短语或句子等。作为示例,ASR引擎在集合3740中的一级结果是“slip(滑动)”,而正确的转录实际上是第一二级结果“sleep(睡觉)”。为了纠正此错误,用户可以将注视集中在正确的二级结果“sleep”上,并且系统可以识别出用户的注视持续阈值时间段逗留在二级结果上。系统可以将用户注视输入转换为请求,以将一级结果“slip”替换为选定的二级结果“sleep”。可以与选择所需的二级结果一起接收另外的用户输入,例如用户语音输入(例如,用户可以在看着所需的二级结果的同时要求系统“edit”、“use this(使用这个)”或“replace(替换)”。
一旦用户完成了短语“I want to sleep”的编辑或确认转录正确,便可使用本文所述的任何用户输入模式将该短语添加到文本正文中。例如,用户可以说出诸如“finish(完成)”之类的热词,以使编辑后的短语被添加回文本正文中。
使用用户输入的组合与文本进行交互的示例过程
图38是使用多种用户输入模式与文本进行交互的示例方法3800的过程流程图。过程3800可以由本文所述的可穿戴系统200执行。
在框3810处,可穿戴系统可以接收来自用户的语音输入。语音输入可以包括包含一个或多个单词的用户语音。在一个示例中,用户可以口述消息,并且可穿戴系统可以接收该口述消息。这可以通过任何合适的输入设备(例如,音频传感器232)来实现。
在框3820处,可穿戴系统可以将语音输入转换为文本。可穿戴系统可以利用自动语音识别(ASR)引擎将用户的语音输入转换为文本(例如,文字转录),并且可以进一步利用自然语言处理技术将此类文本转换为语义表示,该语义表示指示意图和概念。可以针对自由形式的文本输入优化ASR引擎。
在框3830处,可穿戴系统可以将文本标记化(tokenize)为离散的可操作元素,例如单词、短语或句子。可穿戴系统还可以使用诸如显示器220之类的显示系统向用户显示文本。在一些实施例中,可穿戴系统在标记化系统期间不需要理解文本的含义。在其它实施例中,可穿戴系统配备有理解文本含义的能力(例如,一个或多个自然语言处理模型或其它概率统计模型),或者仅配备有在以下(i)与(ii)之间区分的能力:(i)表示用户编写的消息或其一部分的单词、短语和句子,以及(ii)不表示用户编写的消息或其一部分,而是对应于可穿戴系统要执行的命令的单词、短语和句子。例如,可穿戴系统可能需要知道文本的含义以识别用户说出的命令操作或命令的参数。这样的文本的示例可以包括情境特定的唤醒词,其用于针对一种或多种不同的用户输入模式中的每一者调用与编辑相关联的一个或多个受约束的系统命令库,在本文中也被称为热词。
用户可以使用多模式用户输入来与可操作元素中的一个或多个进行交互。在框3840处,可穿戴系统可以响应于第一指示而选择一个或多个元素。如本文所述,第一指示可以是一种用户输入或用户输入的组合。可穿戴系统可以接收来自选择文本串的一个或多个元素进行编辑的用户的输入。用户可以选择单个单词或多个单词(例如,短语或句子)。可穿戴系统可以接收选择要编辑的元素的任何期望形式的用户输入,其中包括但不限于语音输入、注视输入(例如,经由面向内的成像系统462)、手势输入(例如,由面向外的成像系统464捕获的)、图腾输入(例如,经由用户输入设备466的启动)或其任何组合。作为示例,可穿戴系统可以接收持续阈值时间段停留在特定单词上的用户注视形式的用户输入,或者可以在经由麦克风或图腾获取的用户输入指示选择要编辑的特定单词的同时,接收特定单词上的用户注视。
在框3850处,可穿戴系统可以响应于第二指示而编辑所选元素。可以经由参考上面的附图描述的单个输入模式或输入模式的组合来接收第二指示,这些输入模式包括但不限于用户注视输入、语音输入、手势输入和图腾输入。可穿戴系统可以接收指示应该如何编辑所选元素的用户输入。可穿戴系统可以根据在框3850中接收到的用户输入来编辑所选元素。例如,可穿戴系统可以基于语音输入替换所选元素。可穿戴系统还可以呈现建议的替代元素列表,并基于用户的眼睛注视在所选替代元素中进行选择。可穿戴系统还可经由用户与虚拟键盘的交互或经由用户输入设备466(例如,物理键盘或手持设备)来接收输入。
在框3860处,可穿戴系统可以显示编辑所选元素的结果。在某些实施方式中,可穿戴系统可以在被编辑的元素上提供焦点指示器。
如箭头3870所示,如果用户提供额外的用户输入来编辑文本的另外的元素,则可穿戴系统可以重复框3840、3850和3860。
其它方面
在第1方面,一种用于与虚拟内容进行交互的方法,包括:接收第一直接用户输入,确定与所述第一直接用户输入相关的第一置信度得分,接收第二直接用户输入,确定与所述第二直接用户输入相关的第二置信度得分,至少从所述第一置信度得分和所述第二置信度得分计算总置信度得分,操纵主题虚拟对象以满足参数条件。
在第2方面,根据第1方面所述的方法,其中所述第一直接用户输入选自语音输入、手势、头部姿势和眼睛注视。
在第3方面,根据第1方面至第2方面中任一项所述的方法,其中所述第二直接用户输入选自语音输入、手势、头部姿势和眼睛注视。
在第4方面,根据第1方面至第3方面中任一项所述的方法,其中参数是所述主题虚拟对象的位置。
在第5方面,根据第1方面至第4方面中任一项所述的方法,其中参数是所述主题虚拟对象的大小。
在第6方面,根据第1方面至第5方面中任一项所述的方法,其中,参数是所述主题虚拟对象的功能。
在第7方面,一种用于与虚拟内容进行交互的方法,包括:接收直接用户输入,确定与所述直接用户输入相关的第一置信度得分,接收间接用户输入,确定与所述间接用户输入相关的第二置信度得分,至少从所述第一置信度得分和所述第二置信度得分计算总置信度得分,操纵主题虚拟对象以满足参数条件。
在第8方面,根据第7方面所述的方法,其中所述直接用户输入选自语音输入、手势、头部姿势和眼睛注视。
在第9方面,根据第8方面所述的方法,其中所述间接用户输入是地理位置。
在第10方面,根据第7方面至第8方面中任一项所述的方法,其中参数是所述主题虚拟对象的位置。
在第11方面,根据第7方面至第10方面中任一项所述的方法,其中参数是所述主题虚拟对象的大小。
在第12方面,根据第7方面至第11方面中任一项所述的方法,其中参数是所述主题虚拟对象的功能。
以上第1方面至第12方面中任一项所述的方法可以在本文所述的可穿戴系统200的控制下执行。
在第13方面,一种用于可穿戴设备的与对象进行交互的系统,所述系统包括:可穿戴设备的显示系统,其被配置为向用户呈现三维(3D)视图,并允许用户与用户的能视域(FOR)中的对象进行交互,所述FOR包括能够被所述用户经由所述显示系统感知的所述用户周围的环境的一部分;与所述传感器和所述显示系统通信的硬件处理器,所述硬件处理器被编程为:接收用于用户交互的多模式输入;解析所述多模式输入以识别所述用户交互的主题、命令和参数;以及基于所述主题、命令和参数执行所述用户交互。
在第14方面,根据第13方面所述的系统,其中所述系统包括麦克风、惯性测量单元、面向外的成像系统、或面向内的成像系统中的至少一者。
在第15方面,根据第14方面所述的系统,其中所述多模式输入包括直接输入,所述直接输入包括头部姿势、眼睛注视、手势或语音输入中的至少一者。
在第16方面,根据第13方面至第14方面中任一项所述的系统,其中所述多模式输入包括间接输入或来自用户输入设备的输入中的至少一者,其中所述间接输入包括所述用户的位置或所述用户的环境中的对象的位置。
在第17方面,根据第13方面至第16方面中任一项所述的系统,其中所述主题包括用户打算交互的目标虚拟对象,其中所述命令包括所述可穿戴系统对所述目标虚拟对象执行的动作,并且其中所述参数包括所述动作的特征。
在第18方面,根据第17方面所述的系统,其中所述参数包括所述目标虚拟对象的放置、取向、目的地位置。
在第19方面,根据第13方面至第18方面中任一项所述的系统,其中,为了识别所述用户交互的主题,所述可穿戴设备被编程为:读取(access)所述多模式输入的第一输入的第一值;读取所述多模式输入的第二输入的第二值;基于所述第一值或所述第二值计算第一候选虚拟对象的第一置信度得分;基于所述第一值或所述第二值计算第二候选虚拟对象的第二置信度得分;以及基于所述第一置信度得分的比较,将所述主题设置为所述第一候选虚拟对象或所述第二候选虚拟对象。
在第20方面,根据第19方面所述的系统,其中所述第一输入与第一权重相关联,所述第二输入与第二权重相关联,并且其中所述第一值和所述第二值分别基于所述第一权重和所述第二权重进行分配。
在第21方面,根据第13方面至第20方面中任一项所述的系统,其中所述计算机处理器被进一步配置为:检测与所述用户交互相关联的启动条件,其中所述启动条件包括调用短语或手势。
在第22方面,根据第21方面所述的系统,其中所述启动条件包括两种输入模式的组合,其中所述两种输入模式一致地指示所述用户交互。
在第23方面,根据第13方面至第22方面中任一项所述的系统,其中所述处理器被进一步编程为:从所述可穿戴设备的环境传感器接收环境数据;以及基于所述环境数据自动设置与输入模式相关联的认证级别。
在第24方面,根据第13方面至第23方面中任一项所述的系统,其中所述用户交互包括以下项中的至少一者:选择或移动虚拟对象,执行远端临场会话,修改所述虚拟对象,或与另一可穿戴设备共享所述虚拟对象。
在第25方面,根据第13方面至第24方面中任一项所述的系统,其中所述多模式输入包括头部姿势和语音输入。
在第26方面,根据第25方面所述的系统,其中所述多模式输入进一步包括手势或眼睛注视。
在第27方面,一种系统包括:第一传感器,其被配置为在第一输入模式下获取第一用户输入数据;第二传感器,其被配置为在第二输入模式下获取第二用户输入数据,所述第二输入模式不同于所述第一输入模式;以及硬件处理器,其与所述第一传感器和所述第二传感器通信。所述系统可以是用于与对象进行交互的可穿戴系统,并且所述第一传感器和所述第二传感器可以是所述可穿戴系统的一部分。所述系统的所述硬件处理器可以被编程为:接收包括所述第一输入模式下的所述第一用户输入数据和所述第二输入模式下的所述第二用户输入数据的多模式输入;基于所述第一用户输入数据识别用于交互的第一组候选对象;基于所述第二用户输入数据识别用于交互的第二组候选对象;基于所述第一用户输入数据和所述第二用户输入数据的组合从所述第一组候选对象和所述第二组候选对象中确定目标虚拟对象;基于所述第一用户输入数据或所述第二用户输入数据中的至少一者确定对所述目标虚拟对象的用户界面操作;以及生成多模式输入命令,所述多模式输入命令导致对所述目标虚拟对象执行所述用户界面操作。
在第28方面,根据第27方面所述的系统,其中所述多模式输入包括以下输入模式中的至少两者:头部姿势、眼睛注视、用户输入设备、手势或语音。
在第29方面,根据第27方面或第28方面所述的系统,其中所述用户界面操作包括选择所述目标虚拟对象、移动所述目标虚拟对象或调整所述目标虚拟对象的大小中的至少一者。
在第30方面,根据第27方面至第29方面中任一项所述的系统,其中所述硬件处理器被进一步配置为确定在所述用户界面操作中所述目标虚拟对象的目标位置、取向或运动中的至少一者。
在第31方面,根据第30方面所述的系统,其中为了确定所述目标虚拟对象的所述目标位置,所述硬件处理器被编程为识别物理环境中用于放置所述目标虚拟对象的可使用表面。
在第32方面,根据第31方面所述的系统,其中所述可使用表面通过以下方式识别:计算所述物理环境中的物理对象上的兴趣点(POI)的距离函数;消除所述POI中的在平面公差之外的一个或多个POI;以及基于剩余的POI划定(delineate)所述可使用表面。
在第33方面,根据第31方面或第32方面所述的系统,其中所述硬件处理器被编程为自动定向所述目标虚拟对象以匹配所述目标位置的取向。
在第34方面,根据第27方面至第33方面中任一项所述的系统,其中基于所述第一输入模式下的所述第一用户输入数据确定所述操作,并且基于所述第一输入模式和所述第二输入模式的组合确定所述主题或所述参数中的至少一者。
在第35方面,根据第27方面至第34方面中任一项所述的系统,其中所述第一输入模式包括基于所述可穿戴系统的用户的位置信息的间接输入模式。
在第36方面,根据第35方面所述的系统,其中所述硬件处理器被编程为响应于确定所述对象在所述用户的阈值范围之内,从所述第一组对象和所述第二组对象中识别出作为所述目标虚拟对象的虚拟对象。
在第37方面,根据第27方面至第36方面中任一项所述的系统,其中所述用户界面操作与虚拟应用相关联,并且所述虚拟应用被编程为对所述第一传感器或所述第二传感器中的一者更具响应性(more responsive)。
在第38方面,根据第27方面至第37方面中任一项所述的系统,其中为了从所述第一组候选对象和所述第二组候选对象中确定所述目标虚拟对象,所述硬件处理器被编程为基于所述第一用户输入数据和所述第二用户输入数据对所述第一组候选对象和所述第二组候选对象执行基于树的分析。
在第39方面,根据第38方面所述的系统,其中为了从所述第一组候选对象和所述第二组候选对象中确定所述目标虚拟对象,所述硬件处理器被编程为:基于所述第一用户输入数据计算所述第一组候选对象中的候选对象的第一置信度得分;基于所述第二用户输入数据计算所述候选对象的第二置信度得分;至少从所述第一置信度得分和所述第二置信度计算所述候选对象的总得分;以及响应于确定所述总得分满足阈值条件,将所述候选对象设置为所述目标虚拟对象。
在第40方面,根据第27方面至第39方面中任一项所述的系统,其中为了确定所述目标虚拟对象,所述硬件处理器被编程为通过计算以下至少一者来计算虚拟对象的置信度得分:视野中的所述虚拟对象周围的空间的均匀性;用户视野之内的所述虚拟对象的第一部分相对于所述用户视野之外的所述虚拟对象的第二部分的比例区域;或用户与所述虚拟对象的交互的历史分析。
在第41方面,根据第27方面至第40方面中任一项所述的系统,其中所述硬件处理器被进一步编程为:检测所述交互事件的启动条件,所述启动条件触发所述硬件处理器以基于所述多模式输入确定所述目标虚拟对象和所述用户界面操作。
在第42方面,根据第41方面所述的系统,其中所述启动条件包括触发短语。
在第43方面,根据第27方面至第42方面中任一项所述的系统,其中所述第一输入模式是主要输入模式,所述第二输入模式是次要输入模式,并且所述硬件处理器被编程为:基于所述第二用户输入数据解决所述目标虚拟对象和所述用户界面操作中的至少一者的模糊性。
在第44方面,根据第27方面至第43方面中任一项所述的系统,其中所述第一用户输入数据包括对虚拟对象的指示性或回指性引用,并且所述硬件处理器被编程为基于所述第二用户输入数据将作为所述目标虚拟对象的虚拟对象识别为所述主题。
在第45方面,根据第27方面至第44方面中任一项所述的系统,其中所述硬件处理器被进一步编程为至少部分地基于用户设置或所述用户的环境而自动地启用、禁用或调整所述第一输入模式和/或所述第二输入模式的灵敏度。
在第46方面,根据第27方面至第45方面中任一项所述的系统,其中所述硬件处理器被编程为至少部分地基于所述多模式输入而识别在所述用户的视野之外的所述目标虚拟对象;并且自动将所述虚拟对象移到所述视野内以进行用户交互。
在第47方面,描述了一种方法。所述方法可用于与对象进行交互,并且可以在与被配置为获取用户输入数据的多个传感器通信的可穿戴系统的硬件处理器的控制下执行。所述方法可以包括:针对用户与环境的交互事件从所述多个传感器接收所述用户输入数据;分析所述用户输入数据以识别用于与所述环境交互的多模式输入,其中所述多模式输入包括在第一输入通道中的第一输入和在第二输入通道中的第二输入;基于所述第一输入和所述第二输入确定多模式输入命令,所述多模式输入命令包括用于描述与所述环境的所述交互事件的主题、参数或操作中的一者或多者,其中所述主题、所述参数或所述操作中的至少一者基于所述第一输入和所述第二输入的组合而被识别;以及使所述可穿戴设备针对所述交互事件执行所述多模式输入命令。
在第48方面,根据第47方面所述的方法,其中所述操作包括选择所述主题、移动所述主题或调整所述主题的大小中的至少一者;其中所述主题包括所述用户将要与之交互的目标虚拟对象;或其中所述参数至少包括所述主题的目标位置、取向或运动。
在第49方面,根据第48方面所述的方法,其中所述目标位置通过以下方式确定:计算物理对象上的兴趣点(POI)的距离函数;消除所述POI中的在给定平面公差之外的一个或多个POI;以及基于剩余的POI划定所述物理对象上的可使用表面。
在第50方面,根据第48方面或第49方面所述的方法,其中所述方法包括自动定向所述虚拟对象以匹配所述目标位置的取向。
在第51方面,根据第47方面至第50方面中任一项所述的方法,其中所述多模式输入包括以下输入模式中的至少两者:头部姿势、眼睛注视、用户输入设备、手势或语音。
在第52方面,根据第51方面所述的方法,其中所述第一输入通道是语音,所述第二输入通道是头部姿势或手势。
在第53方面,根据第47方面至第52方面中任一项所述的方法,其中所述操作、所述主题或所述参数中的至少一者进一步基于所述用户的环境或位置信息而被识别。
在第54方面,根据第53方面所述的方法,其中所述主题选自所述用户的阈值范围内的一组对象。
在第55方面,根据第47方面至第54方面中任一项所述的方法,其中所述交互事件在虚拟应用内,并且所述虚拟应用被编程为对所述第一输入通道或所述第二输入通道中的一者更具响应性。
在第56方面,根据第47方面至第55方面中任一项所述的方法,其中所述主题通过以下方式而被识别:使用格子树分析来分析所述第一输入和所述第二输入以识别要设置为所述主题的虚拟对象。
在第57方面,根据第47方面至第56方面中任一项所述的方法,其中所述多模式输入命令中的所述主题或所述参数通过以下方式而被确定:针对候选对象或参数,计算与所述第一输入相关的第一置信度得分和与所述第二输入相关的第二置信度得分;以及至少根据所述第一置信度得分和所述第二置信度计算所述候选对象或参数的总得分;以及至少部分地基于所述总得分,针对所述交互事件将所述候选对象或参数分别设置为所述主题或所述参数。
在第58方面,根据第47方面至第57方面中任一项所述的方法,其中候选虚拟对象基于所述用户的视野中的虚拟对象的置信度得分而被识别为所述主题;并且其中所述置信度码基于以下至少一者而被计算:所述视野中的所述候选虚拟对象周围的空间的均匀性;所述用户视野之内的所述候选虚拟对象的第一部分相对于所述用户视野之外的所述候选虚拟对象的第二部分的比例区域;或用户与所述候选虚拟对象的交互的历史分析。
在第59方面,根据第47方面至第58方面中任一项所述的方法,进一步包括:基于从所述多个传感器中的一个或多个传感器接收的数据而检测所述交互事件的启动条件,其中所述启动条件触发所述接收、分析、确定和引起步骤。
在第60方面,根据第47方面至第59方面中任一项所述的方法,其中来自所述第一输入通道的所述第一输入是主要输入,来自所述第二输入通道的所述第二输入是次要输入,并且所述方法包括:解析所述第一输入以识别所述主题、所述参数和所述操作,以及基于所述第二输入解决所述主题、所述参数或所述操作中的至少一者的模糊性,以生成所述多模式输入命令。
在第61方面,根据第47方面至第60方面中任一项所述的方法,其中所述方法进一步包括至少部分地基于用户设置或所述用户的环境而自动地启用、禁用或调整输入通道的灵敏度。
在第62方面,根据第47方面至第61方面中任一项所述的方法,其中所述方法进一步包括:至少部分地基于所述用户交互,将所述用户的视野之外的虚拟对象识别为所述主题;以及自动将所述虚拟对象移到所述视野内以进行用户交互。
在第63方面,根据第47方面至第62方面中任一项所述的方法,其中所述第一输入包括所述对象的指示性或回指性引用,并且所述方法进一步包括基于所述第二输入选择目标对象作为所述主题。
在第64方面,一种系统,包括:头戴式显示器(HMD),其被配置为向用户呈现三维(3D)虚拟内容;两个或更多个用户输入部件,其被配置为接收相应模式的用户输入,其中所述用户输入部件中的一者包括被配置为捕获声音的音频感测设备;以及通信地耦合到所述显示器和所述两个或更多个用户输入部件的硬件处理器。所述HMD可以是可穿戴系统的一部分。所述硬件处理器可以被编程为:从所述音频感测设备接收对所述用户说出的一个或多个单词的话语进行编码的语音数据;至少基于所接收的语音数据获得由所述用户说出的所述一个或多个单词的转录;控制所述显示器以向所述用户呈现表示所获得的转录的文本字符的串;从所述两个或更多个用户输入部件中的另一用户输入部件接收指示另一不同模式的用户输入的用户输入数据;确定从所述另一用户输入部件接收的所述用户输入数据表示用于选择所述文本字符的特定子集进行编辑的命令;以及响应于确定从所述另一用户输入部件接收的所述用户输入数据表示用于选择所述文本字符的所述特定子集进行编辑的命令:确定来自所述两个或更多个用户输入部件中的任一者的随后接收的数据是否表示用于以特定方式修改所述文本字符的所述特定子集的命令。
在第65方面,根据第64方面所述的系统,其中所述另一用户输入部件包括眼睛注视跟踪设备,其被配置为获取指示所述用户的眼睛注视方向的数据。
在第66方面,根据第65方面所述的系统,其中所述硬件处理器被进一步编程为:至少基于从所述注视跟踪设备接收的数据而确定所述用户已持续长于阈值时间段注视所述文本字符的所述特定子集;以及响应于确定所述用户已持续长于阈值时间段注视所述文本字符的所述特定子集,确定从所述另一用户输入部件接收的所述用户输入数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
在第67方面,根据第65方面或第66方面所述的系统,其中所述硬件处理器被进一步编程为:从所述音频感测设备接收对由所述用户说出的短语的话语进行编码的附加语音数据;以及至少基于从所述眼睛注视跟踪设备接收的数据和从所述音频感测设备接收的所述附加语音数据,确定所述用户已经在注视所述文本字符的特定子集的同时说出一个或多个预定的热词,响应于确定所述用户已经在注视所述文本字符的所述特定子集的同时说出一个或多个预定的热词,确定从所述眼睛注视跟踪设备接收的数据和从所述音频感测设备接收的所述附加语音数据表示用于选择所述文本字符的特定子集进行编辑的命令。
在第68方面,根据第65方面至第67方面中任一项所述的系统,其中所述两个或更多个用户输入部件进一步包括手势跟踪设备,所述手势跟踪设备被配置为获取指示所述用户的手势的数据,其中所述硬件处理器被进一步编程为:从所述眼睛注视跟踪设备接收指示所述用户的眼睛注视方向的数据;从所述手势跟踪设备接收指示所述用户的手势的数据;至少基于从所述眼睛注视跟踪设备接收的数据和从所述手势跟踪设备接收的数据,确定所述用户已经在注视所述文本字符的特定子集的同时做出了一个或多个预定手势,以及响应于确定所述用户已经在注视所述文本字符的所述特定子集的同时做出了一个或多个预定手势,确定从所述眼睛注视跟踪设备和所述手势跟踪设备接收的数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
在第69方面,根据第65方面至第68方面中任一项所述的系统,其中所述两个或更多个用户输入部件进一步包括触敏设备,所述触敏设备被配置为获取指示所述用户与其进行物理交互的数据,其中所述硬件处理器被进一步编程为:从所述眼睛注视跟踪设备接收指示所述用户的眼睛注视方向的数据;从所述触敏设备接收指示所述用户与所述触敏设备进行物理交互的数据;至少基于从所述眼睛注视跟踪设备接收的数据和从所述触敏设备接收的数据,确定所述用户是否已经在注视所述文本字符的特定子集的同时提供了一个或多个预定的触摸输入;以及响应于确定所述用户已经在注视所述文本字符的所述特定子集的同时提供了一个或多个预定的触摸输入,确定从所述眼睛注视跟踪设备和所述触敏设备接收的数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
在第70方面,根据第64方面至第69方面中任一项所述的系统,其中所述硬件处理器被编程为实现自动语音识别(ASR)引擎以获得所述转录。
在第71方面,根据第70方面所述的系统,其中所述ASR引擎被配置为产生与所述文本串中的一个或多个单词相关联的得分,所述得分指示所述ASR引擎正确地转录这些单词的可能性。
在第72方面,根据第71方面所述的可穿戴系统,其中所述硬件处理器被进一步编程为:如果正确转录的可能性低于阈值水平,则使所述HMD强调所述一个或多个单词。
在第73方面,一种系统,包括:显示器,其被配置为向用户呈现虚拟内容;音频感测设备,其被配置为捕获由所述用户说出的单词并生成语音数据;眼睛注视跟踪设备,其被配置为跟踪所述用户的注视;以及硬件处理器,其通信地耦合到所述显示器、所述音频感测设备和所述眼睛注视跟踪设备。所述系统可以是可穿戴系统,并且所述硬件处理器可以被编程为:至少部分地基于来自所述音频感测设备的语音数据而获得由所述用户说出的一个或多个单词向文本的转录;控制所述显示器以向所述用户呈现所述文本;至少基于从所述眼睛注视跟踪设备接收的数据,确定所述用户已给出用于选择所呈现的文本的一部分进行编辑的命令;以及对所呈现的文本的所述部分执行编辑操作。
在第74方面,根据第73方面所述的系统,其中所述硬件处理器被进一步编程为:基于来自所述眼睛注视跟踪设备的指示所述用户的注视已经持续至少阈值时间段停留在由所述显示器呈现的所呈现的文本的所述一部分上的数据,确定所述用户已给出用于选择所述给定单词进行编辑的命令。
在第75方面,根据第73方面或第74方面所述的系统,进一步包括用户输入设备,其中所述硬件处理器被进一步编程为:基于来自所述用户输入设备的数据和来自所述眼睛注视跟踪设备的指示在所述用户的注视集中在由所述显示器呈现的所呈现的文本的所述一部分上的同时所述用户输入设备接收到用户输入的数据,确定所述用户已给出用于选择所呈现的文本的所述部分进行编辑的命令。
在第76方面,根据第73方面至第75方面中任一项所述的系统,其中所述硬件处理器被编程为:基于来自所述音频感测设备的数据和来自所述眼睛注视跟踪设备的指示在所述用户的注视集中在由所述显示器呈现的所呈现的文本的所述一部分上的同时所述音频感测设备接收到语音命令的数据,确定所述用户已给出用于选择所呈现的文本的所述一部分进行编辑的命令。
在第77方面,根据第73方面至第76方面中任一项所述的系统,进一步包括对所述用户的至少一只手进行成像的成像系统,其中所述处理器被配置为:基于来自所述成像系统的数据和来自所述眼睛注视跟踪设备的指示在所述用户的注视集中在由所述显示器呈现的所呈现的文本的所述一部分上的同时所述用户用其手做出命令手势的数据,确定所述用户已给出用于选择所呈现的文本的所述一部分进行编辑的命令。
在第78方面,根据第73方面至第77方面中任一项所述的系统,其中所述硬件处理器被进一步编程为:响应于用于选择所述给定单词进行编辑的命令,控制所述显示器以呈现所呈现的文本的所述一部分的替代转录。
在第79方面,根据第73方面至第78方面中任一项所述的系统,其中所述硬件处理器被进一步编程为:基于从所述眼睛注视跟踪设备接收的附加数据,确定所述用户已给出用于用所选择的替代转录替换所呈现的文本的所述一部分的命令;修改所述文本以用所选择的替代转录替换所呈现的文本的所述一部分;以及控制所述显示器以向所述用户呈现修改后的文本。
在第80方面,根据第73方面至第79方面中任一项所述的系统,其中所述硬件处理器被进一步编程为产生与所述文本中的一个或多个单词相关联的得分,所述得分指示这些单词被正确转录的可能性。
在第81方面,根据第80方面所述的可穿戴系统,其中所述硬件处理器被进一步编程为:如果正确转录的可能性低于阈值水平,则使所述显示器强调所述一个或多个单词。
在第82方面,一种方法,包括:从麦克风接收用户的语音输入;将所述语音输入转换为包括多个单词的文本;使可穿戴显示器向所述用户呈现文本;至少基于来自注视跟踪系统的数据,接收对所显示的文本中的所呈现的文本的一部分的选择;以及为所述用户提供编辑所呈现的文本的所述一部分的机会。所述方法可用于基于多模式输入与虚拟内容进行交互,并且所述方法可以在硬件处理器的控制下执行。
在第83方面,根据第82方面所述的方法,其中接收对所呈现的文本的所述一部分的选择包括以下一者或多者:确定所述用户的注视持续至少预定的阈值时间段集中在所述给定单词上;确定在使用所述麦克风接收由所述用户说出的请求编辑的预定命令的同时所述用户的注视集中在所呈现的文本的所述一部分上;确定在接收用于启动用户输入设备的数据的同时所述用户的注视集中在所呈现的文本的所述一部分上;或确定基本上在从手势跟踪系统接收指示所述用户做出请求编辑的预定命令手势的数据的同时所述用户的注视集中在所呈现的文本的所述一部分上。
在第84方面,根据第82方面或第83方面所述的方法,进一步包括:基于来自所述注视跟踪系统的至少一个数据,接收对所显示的文本中的另外的单词的选择;以及为所述用户提供编辑由所呈现的文本的所述一部分或所述文本的另外的部分形成的短语的机会。
在第85方面,根据第82方面至第84方面中任一项所述方法,其中在所述显示器上强调所述文本的至少一部分,其中所述一部分与从所述语音输入到所述文本的相应部分的转换正确的低置信度相关联。
在第86方面,一种方法,包括:接收多模式输入,所述多模式输入包括:来自可穿戴设备的硬件部件的第一用户输入,其中所述第一用户输入与第一用户输入模式相关联;以及第二用户输入,其中所述第二用户输入与第二用户输入模式相关联;基于所述第一用户输入和所述第二用户输入识别多模式输入命令,其中所述多模式输入命令至少包括:包括文本的至少一部分的主题,以及包括与所述文本的交互的命令操作;以及执行所述多模式输入命令并且使所述用户多模式输入的结果显示给用户。所述方法可以在硬件处理器的控制下执行,并且可以基于多模式输入与虚拟内容进行交互。
在第87方面,根据第86方面所述的方法,其中所述第一用户输入模式包括从所述可穿戴设备的音频传感器接收的语音输入,其中所述方法进一步包括转录所述语音输入以识别所述文本、所述主题或所述命令操作中的至少一者。
在第88方面,根据第86方面或第87方面所述的方法,其中所述第二用户输入模式包括来自以下至少一者的输入:用户输入设备、手势或眼睛注视。
在第89方面,根据第86方面至第88方面中任一项所述的方法,其中与所述文本的交互包括以下至少一者:选择、编辑或编写所述文本。
在第90方面,根据第86方面至第89方面中任一项所述的方法,其中所述主题包括单词、短语或句子中的一者或多者。
在第91方面,根据第86方面至第90方面中任一项所述的方法,其中所述主题包括句子,并且所述命令操作包括选择所述句子进行编辑,并且所述方法进一步包括:执行第一用户界面操作,使得将所述句子从文本正文中显出(bring out);将所述句子显示为作为一级结果的标记序列,其中所述一级结果包括从所述用户的语音中转录的句子;进一步显示二级结果,其中所述二级结果包括所述序列中标记的替代词;接收包括第三输入模式和第四输入模式的另一多模式输入以逐单词地编辑所述序列;以及响应于有关所述序列的编辑已完成的指示,将编辑后的序列插入回到所述文本的正文。
其它考虑事项
本文描述和/或附图中描绘的过程、方法和算法中的每一个可以体现在由一个或多个物理计算系统、硬件计算机处理器、应用专用电路和/或被配置为执行特定和特殊的计算机指令的电子硬件所执行的代码模块中并且完全或部分地由该代码模块自动化。例如,计算系统可以包括用特定计算机指令编程的通用计算机(例如,服务器)或专用计算机、专用电路等等。代码模块可以被编译并链接到可执行程序中,安装在动态链接库中,或者可以用解释的编程语言编写。在一些实施方式中,特定操作和方法可以由专用于给定功能的电路来执行。
此外,本公开的功能的某些实施方式在数学上、计算上或技术上是足够复杂的,使得应用专用硬件或一个或多个物理计算设备(利用适当的专用可执行指令)对于执行功能可能是必需的,例如由于所涉及的计算的数量或复杂性或为了基本上实时提供结果。例如,视频可以包括许多帧,每帧具有数百万个像素,并且具体地编程的计算机硬件对于处理视频数据是必需的以在商业上合理的时间量内提供期望的图像处理任务或应用。
代码模块或任何类型的数据可以存储在任何类型的非暂时性计算机可读介质上,诸如物理计算机存储器,包括硬盘驱动器、固态存储器、随机存取存储器(RAM)、只读存储器(ROM)、光盘、易失性或非易失性存储器、其组合和/或类似物。方法和模块(或数据)也可以在各种计算机可读传输介质上作为生成的数据信号(例如,作为载波或其他模拟或数字传播信号的一部分)传输,所述传输介质包括基于无线的和有线/基于线缆的介质,并且可以采取多种形式(例如,作为单个或多路复用模拟信号的一部分,或者作为多个离散数字分组或帧)。所公开的方法或方法步骤的结果可以持久地或以其他方式存储在任何类型的非暂时性有形计算机存储器中,或者可以经由计算机可读传输介质来通信。
在此描述的和/或在附图中描绘的流程图中的任何过程、框、状态、步骤或功能应当被理解为潜在地表示代码模块、代码段或代码部分,代码包括一个或多个可执行指令以实现特定功能(例如,逻辑或算术)或方法中的步骤。各种方法、框、状态、步骤或功能可以与本文提供的说明性示例相组合,重新排列,添加,删除,修改或以其他方式改变。在一些实施例中,附加的或不同的计算系统或代码模块可以执行本文描述的功能中的一些或全部。本文描述的方法和过程也不限于任何特定的序列,并且与其相关的块、步骤或状态可以以适当的其他序列来执行,例如串行、并行或以某种其他方式。可以向所公开的示例性实施例添加任务或事件或者从中移除任务或事件。此外,本文描述的实现中的各种系统组件的分离是出于说明的目的,并且不应该被理解为在所有实施方式中都需要这种分离。应该理解,所描述的程序组件、方法和系统通常可以一起集成在单个计算机产品中或者封装到多个计算机产品中。许多实施方式变化是可能的。
过程、方法和系统可以在网络(或分布式)计算环境中实施。网络环境包括企业范围的计算机网络、内联网、局域网(LAN)、广域网(WAN)、个人区域网络(PAN)、云计算网络、众包计算网络、因特网和万维网。网络可以是有线或无线网络或任何其他类型的通信网络。
本公开的系统和方法各自具有若干创新性方面,其中没有单独一个对于本文公开的期望属性完全负责或需要。上述各种特征和过程可以彼此独立地使用,或者可以以各种方式组合。所有可能的组合和子组合均旨在落入本公开的范围内。对于本公开中所描述的实施方式的各种修改对于本领域技术人员来说可能是显而易见的,并且在不脱离本公开的精神或范围的情况下,可将本文中定义的一般原理应用于其他实施方式。因此,权利要求不旨在限于本文所示的实施方式,而是应被赋予与本公开一致的最宽范围、本文公开的原理和新颖特征。
在本说明书中在分开的实施方式的情境中描述的某些特征也可以在单个实施方式中组合实施。相反,在单个实施方式的情境中描述的各种特征也可以分开或者以任何合适的子组合在多个实施方式中实施。此外,尽管上文可以将特征描述为以某些组合起作用并且甚至最初如此要求,但是来自所要求保护的组合的一个或多个特征可以在一些情况下从组合中删除,并且所要求保护的组合可以针对子组合或变体的子组合。没有单个特征或特征组对于每个实施例是必要或是必不可少的。
除非另有明确说明,否则本文中使用的条件语言,诸如“能够”、“可能”“应该”、“可以”、“例如”等等,或者在情境中以其他方式理解的,为一般地意在表达某些实施例包括,而其他实施例不包括某些特征、元件和/或步骤。因此,这样的条件语言通常不旨在暗示特征、元素和/或步骤以任何方式对于一个或多个实施例是必需的,或者一个或多个实施例必然包括用于在有或者没有作者输入或提示的情况下决定是否这些特征、元件和/或步骤包括在任何特定实施例中或将在任何特定实施例中执行。术语“包括”、“包含”、“具有”等是同义词,并且以开放式的方式包含性地使用,并且不排除附加的元件、特征、动作、操作等等。此外,术语“或”以其包含性含义(而不是其专有含义)使用,因此当用于例如连接元素列表时,术语“或”表示一个、一些或全部列表中的元素。另外,除非另有说明,否则本申请和所附权利要求中使用的冠词“一”、“一个”和“所述”应被解释为表示“一个或多个”或“至少一个”。
如本文所使用的,提及项目列表中的“至少一个”的短语是指这些项目的任何组合,包括单个成员。举例来说,“A、B或C中的至少一个”旨在覆盖:A、B、C、A和B、A和C、B和C以及A、B和C。连接语言例如短语“X、Y和Z中的至少一个”,除非另有特别说明,否则在通常用于表达项目,术语等可以是X、Y或Z中的至少一个。因此,这样的连接语言通常并不意味着某些实施方案需要X中的至少一个,Y中的至少一个和Z中的至少一个存在。
类似地,尽管可以在特定顺序中在附图中描绘操作,但应认识到,这些操作不需要以所示出的特定顺序或按顺序执行,或者所有所示操作都要执行,以实现理想的结果。此外,附图可以以流程图的形式示意性地描绘一个或多个示例过程。然而,未示出的其他操作可以并入示意性说明的示例性方法和过程中。例如,可以在任何所示操作之前、之后、同时或之间执行一个或多个附加操作。另外,在其他实施中,操作可以重新安排或重新排序。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施方式中的各种系统组件的分离不应该被理解为在所有实施方式中都需要这种分离,并且应该理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品。另外,其他实施方式在以下权利要求的范围内。在一些情况下,权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。

Claims (65)

1.一种系统,包括:
可穿戴系统的第一传感器,其被配置为在第一输入模式下获取第一用户输入数据;
所述可穿戴系统的第二传感器,其被配置为在第二输入模式下获取第二用户输入数据,所述第二输入模式不同于所述第一输入模式;以及
硬件处理器,其与所述第一传感器和所述第二传感器通信,所述硬件处理器被编程为:
接收包括所述第一输入模式下的所述第一用户输入数据和所述第二输入模式下的所述第二用户输入数据的多模式输入;
基于所述第一用户输入数据识别用于交互的第一组候选对象;
基于所述第二用户输入数据识别用于交互的第二组候选对象;
基于所述第一用户输入数据和所述第二用户输入数据的组合从所述第一组候选对象和所述第二组候选对象中确定目标虚拟对象;
基于所述第一用户输入数据或所述第二用户输入数据中的至少一者确定对所述目标虚拟对象的用户界面操作;以及
生成多模式输入命令,所述多模式输入命令导致对所述目标虚拟对象执行所述用户界面操作。
2.根据权利要求1所述的系统,其中所述多模式输入包括以下输入模式中的至少两者:头部姿势、眼睛注视、用户输入设备、手势或语音。
3.根据权利要求1所述的系统,其中所述用户界面操作包括选择所述目标虚拟对象、移动所述目标虚拟对象或调整所述目标虚拟对象的大小中的至少一者。
4.根据权利要求1所述的系统,其中所述硬件处理器被进一步配置为确定在所述用户界面操作中所述目标虚拟对象的目标位置、取向或运动中的至少一者。
5.根据权利要求4所述的系统,其中为了确定所述目标虚拟对象的所述目标位置,所述硬件处理器被编程为识别物理环境中用于放置所述目标虚拟对象的可使用表面。
6.根据权利要求5所述的系统,其中所述可使用表面通过以下方式识别:
计算所述物理环境中的物理对象上的兴趣点(POI)的距离函数;
消除所述POI中的在平面公差之外的一个或多个POI;以及
基于剩余的POI划定所述可使用表面。
7.根据权利要求5所述的系统,其中所述硬件处理器被编程为自动定向所述目标虚拟对象以匹配所述目标位置的取向。
8.根据权利要求1所述的系统,其中基于所述第一输入模式下的所述第一用户输入数据确定所述操作,并且基于所述第一输入模式和所述第二输入模式的组合确定所述主题或所述参数中的至少一者。
9.根据权利要求1所述的系统,其中所述第一输入模式包括基于所述可穿戴系统的用户的位置信息的间接输入模式。
10.根据权利要求9所述的系统,其中所述硬件处理器被编程为响应于确定所述对象在所述用户的阈值范围之内,从所述第一组对象和所述第二组对象中识别出作为所述目标虚拟对象的虚拟对象。
11.根据权利要求1所述的系统,其中所述用户界面操作与虚拟应用相关联,并且所述虚拟应用被编程为对所述第一传感器或所述第二传感器中的一者更具响应性。
12.根据权利要求1所述的系统,其中为了从所述第一组候选对象和所述第二组候选对象中确定所述目标虚拟对象,所述硬件处理器被编程为基于所述第一用户输入数据和所述第二用户输入数据对所述第一组候选对象和所述第二组候选对象执行基于树的分析。
13.根据权利要求12所述的系统,其中为了从所述第一组候选对象和所述第二组候选对象中确定所述目标虚拟对象,所述硬件处理器被编程为:
基于所述第一用户输入数据计算所述第一组候选对象中的候选对象的第一置信度得分;
基于所述第二用户输入数据计算所述候选对象的第二置信度得分;
至少从所述第一置信度得分和所述第二置信度计算所述候选对象的总得分;以及
响应于确定所述总得分满足阈值条件,将所述候选对象设置为所述目标虚拟对象。
14.根据权利要求1所述的系统,其中为了确定所述目标虚拟对象,所述硬件处理器被编程为通过计算以下至少一者来计算虚拟对象的置信度得分:
视野中的所述虚拟对象周围的空间的均匀性;
用户视野之内的所述虚拟对象的第一部分相对于所述用户视野之外的所述虚拟对象的第二部分的比例区域;或
用户与所述虚拟对象的交互的历史分析。
15.根据权利要求1所述的系统,其中所述硬件处理器被进一步编程为:检测所述交互事件的启动条件,所述启动条件触发所述硬件处理器以基于所述多模式输入确定所述目标虚拟对象和所述用户界面操作。
16.根据权利要求15所述的系统,其中所述启动条件包括触发短语。
17.根据权利要求1所述的系统,其中所述第一输入模式是主要输入模式,所述第二输入模式是次要输入模式,并且所述硬件处理器被编程为:基于所述第二用户输入数据解决所述目标虚拟对象和所述用户界面操作中的至少一者的模糊性。
18.根据权利要求1所述的系统,其中所述第一用户输入数据包括对虚拟对象的指示性或回指性引用,并且所述硬件处理器被编程为基于所述第二用户输入数据将作为所述目标虚拟对象的虚拟对象识别为所述主题。
19.根据权利要求1所述的系统,其中所述硬件处理器被进一步编程为至少部分地基于用户设置或所述用户的环境而自动地启用、禁用或调整所述第一输入模式和/或所述第二输入模式的灵敏度。
20.根据权利要求1所述的系统,其中所述硬件处理器被编程为至少部分地基于所述多模式输入而识别在所述用户的视野之外的所述目标虚拟对象;并且自动将所述虚拟对象移到所述视野内以进行用户交互。
21.一种方法,包括:
在与被配置为获取用户输入数据的多个传感器通信的可穿戴系统的硬件处理器的控制下:
针对用户与环境的交互事件从所述多个传感器接收所述用户输入数据;
分析所述用户输入数据以识别用于与所述环境交互的多模式输入,其中所述多模式输入包括在第一输入通道中的第一输入和在第二输入通道中的第二输入;
基于所述第一输入和所述第二输入确定多模式输入命令,所述多模式输入命令包括用于描述与所述环境的所述交互事件的主题、参数或操作中的一者或多者,其中所述主题、所述参数或所述操作中的至少一者基于所述第一输入和所述第二输入的组合而被识别;以及
使所述可穿戴设备针对所述交互事件执行所述多模式输入命令。
22.根据权利要求21所述的方法,其中所述操作包括选择所述主题、移动所述主题或调整所述主题的大小中的至少一者;其中所述主题包括所述用户将要与之交互的目标虚拟对象;或其中所述参数至少包括所述主题的目标位置、取向或运动。
23.根据权利要求22所述的方法,其中所述目标位置通过以下方式确定:
计算物理对象上的兴趣点(POI)的距离函数;
消除所述POI中的在给定平面公差之外的一个或多个POI;以及
基于剩余的POI划定所述物理对象上的可使用表面。
24.根据权利要求22所述的方法,其中所述方法包括自动定向所述虚拟对象以匹配所述目标位置的取向。
25.根据权利要求21所述的方法,其中所述多模式输入包括以下输入模式中的至少两者:头部姿势、眼睛注视、用户输入设备、手势或语音。
26.根据权利要求25所述的方法,其中所述第一输入通道是语音,所述第二输入通道是头部姿势或手势。
27.根据权利要求21所述的方法,其中所述操作、所述主题或所述参数中的至少一者进一步基于所述用户的环境或位置信息而被识别。
28.根据权利要求27所述的方法,其中所述主题选自所述用户的阈值范围内的一组对象。
29.根据权利要求21所述的方法,其中所述交互事件在虚拟应用内,并且所述虚拟应用被编程为对所述第一输入通道或所述第二输入通道中的一者更具响应性。
30.根据权利要求21所述的方法,其中所述主题通过以下方式而被识别:使用格子树分析来分析所述第一输入和所述第二输入以识别要设置为所述主题的虚拟对象。
31.根据权利要求21所述的方法,其中所述多模式输入命令中的所述主题或所述参数通过以下方式而被确定:
针对候选对象或参数,计算与所述第一输入相关的第一置信度得分和与所述第二输入相关的第二置信度得分;以及
至少根据所述第一置信度得分和所述第二置信度计算所述候选对象或参数的总得分;以及
至少部分地基于所述总得分,针对所述交互事件将所述候选对象或参数分别设置为所述主题或所述参数。
32.根据权利要求21所述的方法,其中候选虚拟对象基于所述用户的视野中的虚拟对象的置信度得分而被识别为所述主题;并且其中所述置信度码基于以下至少一者而被计算:
所述视野中的所述候选虚拟对象周围的空间的均匀性;
所述用户的视野之内的所述候选虚拟对象的第一部分相对于所述用户的视野之外的所述候选虚拟对象的第二部分的比例区域;或
用户与所述候选虚拟对象的交互的历史分析。
33.根据权利要求21所述的方法,进一步包括:基于从所述多个传感器中的一个或多个传感器接收的数据而检测所述交互事件的启动条件,其中所述启动条件触发所述接收、分析、确定和引起步骤。
34.根据权利要求21所述的方法,其中来自所述第一输入通道的所述第一输入是主要输入,来自所述第二输入通道的所述第二输入是次要输入,并且所述方法包括:
解析所述第一输入以识别所述主题、所述参数和所述操作,以及
基于所述第二输入解决所述主题、所述参数或所述操作中的至少一者的模糊性,以生成所述多模式输入命令。
35.根据权利要求21所述的方法,其中所述方法进一步包括至少部分地基于用户设置或所述用户的环境而自动地启用、禁用或调整输入通道的灵敏度。
36.根据权利要求21所述的方法,其中所述方法进一步包括:至少部分地基于所述用户交互,将所述用户的视野之外的虚拟对象识别为所述主题;以及自动将所述虚拟对象移到所述视野内以进行用户交互。
37.根据权利要求21所述的方法,其中所述第一输入包括所述对象的指示性或回指性引用,并且所述方法进一步包括基于所述第二输入选择目标对象作为所述主题。
38.一种系统,包括:
可穿戴系统的头戴式显示器(HMD),其被配置为向用户呈现三维(3D)虚拟内容;
两个或更多个用户输入部件,其被配置为接收相应模式的用户输入,其中所述用户输入部件中的一者包括被配置为捕获声音的音频感测设备;以及
通信地耦合到所述显示器和所述两个或更多个用户输入部件的硬件处理器,所述硬件处理器被编程为:
从所述音频感测设备接收对由所述用户说出的一个或多个单词的话语进行编码的语音数据;
至少基于所接收的语音数据获得由所述用户说出的所述一个或多个单词的转录;
控制所述显示器以向所述用户呈现表示所获得的转录的文本字符的串;
从所述两个或更多个用户输入部件中的另一用户输入部件接收指示另一不同模式的用户输入的用户输入数据;
确定从所述另一用户输入部件接收的所述用户输入数据表示用于选择所述文本字符的特定子集进行编辑的命令;以及
响应于确定从所述另一用户输入部件接收的所述用户输入数据表示用于选择所述文本字符的所述特定子集进行编辑的命令:
确定来自所述两个或更多个用户输入部件中的任一者的随后接收的数据是否表示用于以特定方式修改所述文本字符的所述特定子集的命令。
39.根据权利要求38所述的系统,其中所述另一用户输入部件包括眼睛注视跟踪设备,其被配置为获取指示所述用户的眼睛注视方向的数据。
40.根据权利要求39所述的系统,其中所述硬件处理器被进一步编程为:
至少基于从所述注视跟踪设备接收的数据而确定所述用户已持续长于阈值时间段注视所述文本字符的所述特定子集;以及
响应于确定所述用户已持续长于阈值时间段注视所述文本字符的所述特定子集,确定从所述另一用户输入部件接收的所述用户输入数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
41.根据权利要求39所述的系统,其中所述硬件处理器被进一步编程为:
从所述音频感测设备接收对由所述用户说出的短语的话语进行编码的附加语音数据;以及
至少基于从所述眼睛注视跟踪设备接收的数据和从所述音频感测设备接收的所述附加语音数据,确定所述用户已经在注视所述文本字符的所述特定子集的同时说出一个或多个预定的热词,
响应于确定所述用户已经在注视所述文本字符的所述特定子集的同时说出一个或多个预定的热词,确定从所述眼睛注视跟踪设备接收的数据和从所述音频感测设备接收的所述附加语音数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
42.根据权利要求39所述的系统,其中所述两个或更多个用户输入部件进一步包括手势跟踪设备,所述手势跟踪设备被配置为获取指示所述用户的手势的数据,
其中所述硬件处理器被进一步编程为:
从所述眼睛注视跟踪设备接收指示所述用户的眼睛注视方向的数据;
从所述手势跟踪设备接收指示所述用户的手势的数据;
至少基于从所述眼睛注视跟踪设备接收的数据和从所述手势跟踪设备接收的数据,确定所述用户已经在注视所述文本字符的所述特定子集的同时做出了一个或多个预定手势,以及
响应于确定所述用户已经在注视所述文本字符的所述特定子集的同时做出了一个或多个预定手势,确定从所述眼睛注视跟踪设备和所述手势跟踪设备接收的数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
43.根据权利要求39所述的系统,其中所述两个或更多个用户输入部件进一步包括触敏设备,所述触敏设备被配置为获取指示所述用户与其进行物理交互的数据,
其中所述硬件处理器被进一步编程为:
从所述眼睛注视跟踪设备接收指示所述用户的眼睛注视方向的数据;
从所述触敏设备接收指示所述用户与所述触敏设备进行物理交互的数据;
至少基于从所述眼睛注视跟踪设备接收的数据和从所述触敏设备接收的数据,确定所述用户是否已经在注视所述文本字符的所述特定子集的同时提供了一个或多个预定的触摸输入;以及
响应于确定所述用户已经在注视所述文本字符的所述特定子集的同时提供了一个或多个预定的触摸输入,确定从所述眼睛注视跟踪设备和所述触敏设备接收的数据表示用于选择所述文本字符的所述特定子集进行编辑的命令。
44.根据权利要求38所述的系统,其中所述硬件处理器被编程为实现自动语音识别(ASR)引擎以获得所述转录。
45.根据权利要求44所述的系统,其中所述ASR引擎被配置为产生与所述文本的串中的一个或多个单词相关联的得分,所述得分指示所述ASR引擎正确地转录这些单词的可能性。
46.根据权利要求45所述的系统,其中所述硬件处理器被进一步编程为:如果正确转录的可能性低于阈值水平,则使所述HMD强调所述一个或多个单词。
47.一种系统,包括:
可穿戴系统的显示器,其被配置为向用户呈现虚拟内容;
音频感测设备,其被配置为捕获由所述用户说出的单词并生成语音数据;
所述可穿戴系统的眼睛注视跟踪设备,其被配置为跟踪所述用户的注视;以及
硬件处理器,其通信地耦合到所述显示器、所述音频感测设备和所述眼睛注视跟踪设备,所述硬件处理器被编程为:
至少部分地基于来自所述音频感测设备的语音数据而获得由所述用户说出的一个或多个单词向文本的转录;
控制所述显示器以向所述用户呈现所述文本;
至少基于从所述眼睛注视跟踪设备接收的数据,确定所述用户已给出用于选择所呈现的文本的一部分进行编辑的命令;以及
对所呈现的文本的所述一部分执行编辑操作。
48.根据权利要求47所述的系统,其中所述硬件处理器被进一步编程为:基于来自所述眼睛注视跟踪设备的指示所述用户的注视已经持续至少阈值时间段停留在由所述显示器呈现的所呈现的文本的所述一部分上的数据,确定所述用户已给出用于选择所述给定单词进行编辑的命令。
49.根据权利要求47所述的系统,进一步包括用户输入设备,其中所述硬件处理器被进一步编程为:基于来自所述用户输入设备的数据和来自所述眼睛注视跟踪设备的指示在所述用户的注视集中在由所述显示器呈现的所呈现的文本的所述一部分上的同时所述用户输入设备接收到用户输入的数据,确定所述用户已给出用于选择所呈现的文本的所述一部分进行编辑的命令。
50.根据权利要求47所述的系统,其中所述硬件处理器被编程为:基于来自所述音频感测设备的数据和来自所述眼睛注视跟踪设备的指示在所述用户的注视集中在由所述显示器呈现的所呈现的文本的所述一部分上的同时所述音频感测设备接收到语音命令的数据,确定所述用户已给出用于选择所呈现的文本的所述一部分进行编辑的命令。
51.根据权利要求47所述的系统,进一步包括对所述用户的至少一只手进行成像的成像系统,其中所述处理器被配置为:基于来自所述成像系统的数据和来自所述眼睛注视跟踪设备的指示在所述用户的注视集中在由所述显示器呈现的所呈现的文本的所述一部分上的同时所述用户用其手做出命令手势的数据,确定所述用户已给出用于选择所呈现的文本的所述一部分进行编辑的命令。
52.根据权利要求47所述的系统,其中所述硬件处理器被进一步编程为:
响应于用于选择所述给定单词进行编辑的命令,控制所述显示器以呈现所呈现的文本的所述一部分的替代转录。
53.根据权利要求47所述的系统,其中所述硬件处理器被进一步编程为:
基于从所述眼睛注视跟踪设备接收的附加数据,确定所述用户已给出用于用所选择的替代转录替换所呈现的文本的所述一部分的命令;
修改所述文本以用所选择的替代转录替换所呈现的文本的所述一部分;以及
控制所述显示器以向所述用户呈现修改后的文本。
54.根据权利要求47所述的系统,其中所述硬件处理器被进一步编程为产生与所述文本中的一个或多个单词相关联的得分,所述得分指示这些单词被正确转录的可能性。
55.根据权利要求54所述的系统,其中所述硬件处理器被进一步编程为:如果正确转录的可能性低于阈值水平,则使所述显示器强调所述一个或多个单词。
56.一种方法,包括:
在硬件处理器的控制下:
从麦克风接收用户的语音输入;
将所述语音输入转换为包括多个单词的文本;
使可穿戴显示器向所述用户呈现文本;
至少基于来自注视跟踪系统的数据,接收对所显示的文本中的所呈现的文本的一部分的选择;以及
为所述用户提供编辑所呈现的文本的所述一部分的机会。
57.根据权利要求56所述的方法,其中接收对所呈现的文本的所述一部分的选择包括以下一者或多者:
确定所述用户的注视持续至少预定的阈值时间段集中在所述给定单词上;
确定在使用所述麦克风接收由所述用户说出的请求编辑的预定命令的同时所述用户的注视集中在所呈现的文本的所述一部分上;
确定在接收用于启动用户输入设备的数据的同时所述用户的注视集中在所呈现的文本的所述一部分上;或
确定基本上在从手势跟踪系统接收指示所述用户做出请求编辑的预定命令手势的数据的同时所述用户的注视集中在所呈现的文本的所述一部分上。
58.根据权利要求56所述的方法,进一步包括:
基于来自所述注视跟踪系统的至少一个数据,接收对所显示的文本中的另外的单词的选择;以及
为所述用户提供编辑由所呈现的文本的所述一部分或所述文本的另外的部分形成的短语的机会。
59.根据权利要求56所述的方法,其中在所述显示器上强调所述文本的至少一部分,其中所述一部分与从所述语音输入到所述文本的相应部分的转换正确的低置信度相关联。
60.一种方法,包括:
接收多模式输入,所述多模式输入包括:
来自可穿戴设备的硬件部件的第一用户输入,其中所述第一用户输入与第一用户输入模式相关联;以及第二用户输入,其中所述第二用户输入与第二用户输入模式相关联;
基于所述第一用户输入和所述第二用户输入识别多模式输入命令,其中所述多模式输入命令至少包括:
主题,其包括文本的至少一部分,以及
命令操作,其包括与所述文本的交互;以及
执行所述多模式输入命令并且使所述用户多模式输入的结果显示给用户。
61.根据权利要求60所述的方法,其中所述第一用户输入模式包括从所述可穿戴设备的音频传感器接收的语音输入,其中所述方法进一步包括转录所述语音输入以识别所述文本、所述主题或所述命令操作中的至少一者。
62.根据权利要求60所述的方法,其中所述第二用户输入模式包括来自以下至少一者的输入:用户输入设备、手势或眼睛注视。
63.根据权利要求60所述的方法,其中与所述文本的交互包括以下至少一者:选择、编辑或编写所述文本。
64.根据权利要求60所述的方法,其中所述主题包括单词、短语或句子中的一者或多者。
65.根据权利要求60所述的方法,其中所述主题包括句子,并且所述命令操作包括选择所述句子进行编辑,并且所述方法进一步包括:
执行第一用户界面操作,使得将所述句子从文本的正文中显出;
将所述句子显示为作为一级结果的标记序列,其中所述一级结果包括从所述用户的语音中转录的句子;
进一步显示二级结果,其中所述二级结果包括所述序列中标记的替代词;
接收包括第三输入模式和第四输入模式的另一多模式输入以逐单词地编辑所述序列;以及
响应于有关所述序列的编辑已完成的指示,将编辑后的序列插入回到所述文本的正文。
CN201880040284.3A 2017-04-19 2018-04-17 可穿戴系统的多模式任务执行和文本编辑 Active CN110785688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110917855.0A CN113608617A (zh) 2017-04-19 2018-04-17 可穿戴系统的多模式任务执行和文本编辑

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762487364P 2017-04-19 2017-04-19
US62/487,364 2017-04-19
US201762609647P 2017-12-22 2017-12-22
US62/609,647 2017-12-22
PCT/US2018/028002 WO2018195099A1 (en) 2017-04-19 2018-04-17 Multimodal task execution and text editing for a wearable system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110917855.0A Division CN113608617A (zh) 2017-04-19 2018-04-17 可穿戴系统的多模式任务执行和文本编辑

Publications (2)

Publication Number Publication Date
CN110785688A true CN110785688A (zh) 2020-02-11
CN110785688B CN110785688B (zh) 2021-08-27

Family

ID=63854461

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880040284.3A Active CN110785688B (zh) 2017-04-19 2018-04-17 可穿戴系统的多模式任务执行和文本编辑
CN202110917855.0A Pending CN113608617A (zh) 2017-04-19 2018-04-17 可穿戴系统的多模式任务执行和文本编辑

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110917855.0A Pending CN113608617A (zh) 2017-04-19 2018-04-17 可穿戴系统的多模式任务执行和文本编辑

Country Status (9)

Country Link
US (4) US10768693B2 (zh)
EP (2) EP4220258A1 (zh)
JP (3) JP7149289B2 (zh)
KR (2) KR20240046613A (zh)
CN (2) CN110785688B (zh)
AU (1) AU2018256365A1 (zh)
CA (1) CA3059234A1 (zh)
IL (1) IL270002B2 (zh)
WO (1) WO2018195099A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526083A (zh) * 2020-04-15 2020-08-11 上海幂方电子科技有限公司 通过头部动作即时通信的方法、装置、系统及存储介质
CN111782053A (zh) * 2020-08-10 2020-10-16 Oppo广东移动通信有限公司 模型编辑方法、装置、设备及存储介质
CN111782031A (zh) * 2020-05-26 2020-10-16 北京理工大学 一种基于头动以及手指微手势的文本输入系统及方法
CN111831112A (zh) * 2020-05-26 2020-10-27 北京理工大学 一种基于眼动以及手指微手势的文本输入系统及方法
CN112379799A (zh) * 2020-10-16 2021-02-19 杭州易现先进科技有限公司 在三维渲染中输入框的控制方法、装置和电子装置
WO2021212603A1 (zh) * 2020-04-23 2021-10-28 捷开通讯(深圳)有限公司 运用头控实现语音输入的方法和装置
CN113627312A (zh) * 2021-08-04 2021-11-09 东南大学 一种通过眼动追踪来协助瘫痪失语者语言输出的系统
CN115344121A (zh) * 2022-08-10 2022-11-15 北京字跳网络技术有限公司 用于处理手势事件的方法、装置、设备和存储介质
CN116300092A (zh) * 2023-03-09 2023-06-23 北京百度网讯科技有限公司 智能眼镜的控制方法、装置、设备以及存储介质
CN117348737A (zh) * 2023-12-06 2024-01-05 之江实验室 一种基于多通道交互的数据处理系统及方法
CN117378000A (zh) * 2020-12-31 2024-01-09 奥布朗科技有限公司 用于虚拟现实环境的系统和方法
TWI834458B (zh) * 2022-11-17 2024-03-01 宏達國際電子股份有限公司 頭戴式顯示裝置、跟蹤系統及跟蹤方法

Families Citing this family (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10768704B2 (en) 2015-03-17 2020-09-08 Whirlwind VR, Inc. System and method for modulating a peripheral device based on an unscripted feed using computer vision
WO2017068926A1 (ja) * 2015-10-21 2017-04-27 ソニー株式会社 情報処理装置及びその制御方法、並びにコンピュータ・プログラム
WO2018176017A1 (en) 2017-03-24 2018-09-27 Revealit Corporation Method, system, and apparatus for identifying and revealing selected objects from video
CN110785688B (zh) 2017-04-19 2021-08-27 奇跃公司 可穿戴系统的多模式任务执行和文本编辑
US10782793B2 (en) * 2017-08-10 2020-09-22 Google Llc Context-sensitive hand interaction
US10373332B2 (en) * 2017-12-08 2019-08-06 Nvidia Corporation Systems and methods for dynamic facial analysis using a recurrent neural network
CN107977586B (zh) * 2017-12-22 2021-04-13 联想(北京)有限公司 显示内容处理方法、第一电子设备以及第二电子设备
BR112020010376A2 (pt) * 2017-12-22 2020-11-24 Telefonaktiebolaget Lm Ericsson (Publ) método para iniciar o controle de voz através da detecção de olhar, dispositivo para iniciar o controle de voz através da detecção de olhar, e, mídia legível por computador
JP7272278B2 (ja) * 2018-01-04 2023-05-12 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
WO2019143117A1 (en) * 2018-01-18 2019-07-25 Samsung Electronics Co., Ltd. Method and apparatus for adjusting augmented reality content
CN112005196A (zh) * 2018-02-06 2020-11-27 沃尔玛阿波罗有限责任公司 定制的增强现实商品过滤系统
US11403806B2 (en) * 2018-03-20 2022-08-02 Sony Corporation Information processing apparatus, information processing method, and recording medium
US10540015B2 (en) * 2018-03-26 2020-01-21 Chian Chiu Li Presenting location related information and implementing a task based on gaze and voice detection
US11157075B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Gaze-activated voice services for interactive workspaces
US10890969B2 (en) 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US10916065B2 (en) * 2018-05-04 2021-02-09 Facebook Technologies, Llc Prevention of user interface occlusion in a virtual reality environment
US20190339837A1 (en) * 2018-05-04 2019-11-07 Oculus Vr, Llc Copy and Paste in a Virtual Reality Environment
US10504290B2 (en) * 2018-05-04 2019-12-10 Facebook Technologies, Llc User interface security in a virtual reality environment
EP3859494B1 (en) * 2018-05-04 2023-12-27 Google LLC Adapting automated assistant based on detected mouth movement and/or gaze
CN112639718B (zh) 2018-05-04 2024-09-03 谷歌有限责任公司 自动化助手功能的免热词调配
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
WO2019226691A1 (en) 2018-05-22 2019-11-28 Magic Leap, Inc. Transmodal input fusion for a wearable system
US11733824B2 (en) * 2018-06-22 2023-08-22 Apple Inc. User interaction interpreter
US11227435B2 (en) 2018-08-13 2022-01-18 Magic Leap, Inc. Cross reality system
US10937243B2 (en) * 2018-08-29 2021-03-02 Dell Products, L.P. Real-world object interface for virtual, augmented, and mixed reality (xR) applications
US11348316B2 (en) * 2018-09-11 2022-05-31 Apple Inc. Location-based virtual element modality in three-dimensional content
JP7503542B2 (ja) 2018-10-05 2024-06-20 マジック リープ, インコーポレイテッド 任意の場所における場所特有の仮想コンテンツのレンダリング
US11288733B2 (en) * 2018-11-14 2022-03-29 Mastercard International Incorporated Interactive 3D image projection systems and methods
EP3887925A4 (en) 2018-11-30 2022-08-17 Magic Leap, Inc. MULTIMODAL HANDHELD LOCATION AND ORIENTATION TO AVATAR MOVEMENT
US11513768B2 (en) * 2018-12-03 2022-11-29 Sony Group Corporation Information processing device and information processing method
US11036838B2 (en) 2018-12-05 2021-06-15 Bank Of America Corporation Processing authentication requests to secured information systems using machine-learned user-account behavior profiles
US11120109B2 (en) 2018-12-05 2021-09-14 Bank Of America Corporation Processing authentication requests to secured information systems based on machine-learned event profiles
US11176230B2 (en) 2018-12-05 2021-11-16 Bank Of America Corporation Processing authentication requests to secured information systems based on user behavior profiles
US11113370B2 (en) 2018-12-05 2021-09-07 Bank Of America Corporation Processing authentication requests to secured information systems using machine-learned user-account behavior profiles
US11159510B2 (en) 2018-12-05 2021-10-26 Bank Of America Corporation Utilizing federated user identifiers to enable secure information sharing
US11048793B2 (en) 2018-12-05 2021-06-29 Bank Of America Corporation Dynamically generating activity prompts to build and refine machine learning authentication models
US10930275B2 (en) 2018-12-18 2021-02-23 Microsoft Technology Licensing, Llc Natural language input disambiguation for spatialized regions
KR20200076325A (ko) * 2018-12-19 2020-06-29 삼성전자주식회사 외부 객체를 컨트롤러로 이용하기 위한 웨어러블 장치 및 방법
US10789952B2 (en) * 2018-12-20 2020-09-29 Microsoft Technology Licensing, Llc Voice command execution from auxiliary input
US11024074B2 (en) * 2018-12-27 2021-06-01 Facebook Technologies, Llc Virtual spaces, mixed reality spaces, and combined mixed reality spaces for improved interaction and collaboration
KR20200092464A (ko) * 2019-01-07 2020-08-04 삼성전자주식회사 전자 장치 및 이를 이용하는 어시스턴트 서비스를 제공하는 방법
US11908055B2 (en) * 2019-03-13 2024-02-20 Sony Group Corporation Information processing device, information processing method, and recording medium
EP3951560A4 (en) * 2019-03-28 2022-05-04 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
US11321436B2 (en) 2019-05-01 2022-05-03 Samsung Electronics Co., Ltd. Human ID for mobile authentication
DE112020002268T5 (de) 2019-05-06 2022-02-10 Apple Inc. Vorrichtung, verfahren und computerlesbares medium zur darstellung von dateien computergenerierter realität
CN113544634A (zh) 2019-05-06 2021-10-22 苹果公司 用于构成cgr文件的设备、方法和图形用户界面
US10969863B2 (en) * 2019-05-08 2021-04-06 International Business Machines Corporation Configurable sensor array for a multi-target environment
EP4170654A1 (en) * 2019-05-22 2023-04-26 Google LLC Methods, systems, and media for object grouping and manipulation in immersive environments
CN110334330A (zh) * 2019-05-27 2019-10-15 努比亚技术有限公司 一种信息编辑方法、可穿戴设备及计算机可读存储介质
US10937192B2 (en) * 2019-05-29 2021-03-02 Dell Products, L.P. Resolving incorrect distributed simultaneous localization and mapping (SLAM) data in edge cloud architectures
JP7336266B2 (ja) * 2019-06-04 2023-08-31 キヤノン株式会社 電子機器、電子機器の制御方法、プログラム、記憶媒体
JP2021005157A (ja) * 2019-06-25 2021-01-14 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置および画像処理方法
US11422638B2 (en) 2019-07-08 2022-08-23 Apple Inc. Input devices that use self-mixing interferometry to determine movement within an enclosure
US11017231B2 (en) * 2019-07-10 2021-05-25 Microsoft Technology Licensing, Llc Semantically tagged virtual and physical objects
JP7451110B2 (ja) * 2019-08-27 2024-03-18 ソニーグループ株式会社 測距システム及び電子機器
WO2021045730A1 (en) 2019-09-03 2021-03-11 Light Field Lab, Inc. Light field display for mobile devices
US11409365B2 (en) * 2019-09-06 2022-08-09 Apple Inc. Self-mixing interferometry-based gesture input system including a wearable or handheld device
US10943388B1 (en) * 2019-09-06 2021-03-09 Zspace, Inc. Intelligent stylus beam and assisted probabilistic input to element mapping in 2D and 3D graphical user interfaces
US11848000B2 (en) * 2019-09-06 2023-12-19 Microsoft Technology Licensing, Llc Transcription revision interface for speech recognition system
US11086406B1 (en) 2019-09-20 2021-08-10 Facebook Technologies, Llc Three-state gesture virtual controls
US11176745B2 (en) 2019-09-20 2021-11-16 Facebook Technologies, Llc Projection casting in virtual environments
US10991163B2 (en) 2019-09-20 2021-04-27 Facebook Technologies, Llc Projection casting in virtual environments
US11170576B2 (en) 2019-09-20 2021-11-09 Facebook Technologies, Llc Progressive display of virtual objects
US11189099B2 (en) 2019-09-20 2021-11-30 Facebook Technologies, Llc Global and local mode virtual object interactions
US11580869B2 (en) * 2019-09-23 2023-02-14 Revealit Corporation Computer-implemented interfaces for identifying and revealing selected objects from video
US11419546B2 (en) 2019-09-24 2022-08-23 Apple Inc. Wearable self-mixing interferometry device used to sense physiological conditions
KR102684612B1 (ko) 2019-09-27 2024-07-15 애플 인크. 가상 객체들 제어
JP2022551735A (ja) 2019-10-15 2022-12-13 マジック リープ, インコーポレイテッド 無線フィンガプリントを用いたクロスリアリティシステム
US11568605B2 (en) 2019-10-15 2023-01-31 Magic Leap, Inc. Cross reality system with localization service
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
US11308284B2 (en) 2019-10-18 2022-04-19 Facebook Technologies, Llc. Smart cameras enabled by assistant systems
US11086476B2 (en) * 2019-10-23 2021-08-10 Facebook Technologies, Llc 3D interactions with web content
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
US11493989B2 (en) * 2019-11-08 2022-11-08 Magic Leap, Inc. Modes of user interaction
US11175730B2 (en) 2019-12-06 2021-11-16 Facebook Technologies, Llc Posture-based virtual space configurations
US11562542B2 (en) 2019-12-09 2023-01-24 Magic Leap, Inc. Cross reality system with simplified programming of virtual content
US11816757B1 (en) * 2019-12-11 2023-11-14 Meta Platforms Technologies, Llc Device-side capture of data representative of an artificial reality environment
US11042222B1 (en) 2019-12-16 2021-06-22 Microsoft Technology Licensing, Llc Sub-display designation and sharing
US11093046B2 (en) 2019-12-16 2021-08-17 Microsoft Technology Licensing, Llc Sub-display designation for remote content source device
US11487423B2 (en) 2019-12-16 2022-11-01 Microsoft Technology Licensing, Llc Sub-display input areas and hidden inputs
US20210192681A1 (en) * 2019-12-18 2021-06-24 Ati Technologies Ulc Frame reprojection for virtual reality and augmented reality
US11475639B2 (en) 2020-01-03 2022-10-18 Meta Platforms Technologies, Llc Self presence in artificial reality
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
EP3851939A1 (en) * 2020-01-14 2021-07-21 Apple Inc. Positioning a user-controlled spatial selector based on extremity tracking information and eye tracking information
CN115380236A (zh) 2020-01-24 2022-11-22 奇跃公司 使用单个控制器的内容移动和交互
JP2023514205A (ja) 2020-02-13 2023-04-05 マジック リープ, インコーポレイテッド 正確な共有マップを伴うクロスリアリティシステム
WO2021163289A1 (en) * 2020-02-13 2021-08-19 Magic Leap, Inc. Cross reality system for large scale environments
EP4104001A4 (en) 2020-02-13 2024-03-13 Magic Leap, Inc. CROSS-REALLY SYSTEM WITH MAP PROCESSING USING MULTIPLE RESOLUTION FRAME DESCRIPTORS
WO2021163295A1 (en) 2020-02-13 2021-08-19 Magic Leap, Inc. Cross reality system with prioritization of geolocation information for localization
JP2021157277A (ja) * 2020-03-25 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
US11789688B1 (en) 2020-03-26 2023-10-17 Apple Inc. Content presentation based on environmental data
WO2021230048A1 (ja) 2020-05-15 2021-11-18 株式会社Nttドコモ 情報処理システム
US11257280B1 (en) 2020-05-28 2022-02-22 Facebook Technologies, Llc Element-based switching of ray casting rules
US11340707B2 (en) * 2020-05-29 2022-05-24 Microsoft Technology Licensing, Llc Hand gesture-based emojis
CN115698632A (zh) * 2020-06-04 2023-02-03 三菱电机株式会社 建筑物的交通管理系统
GB202009874D0 (en) * 2020-06-29 2020-08-12 Microsoft Technology Licensing Llc Visual interface for a computer system
US11995774B2 (en) * 2020-06-29 2024-05-28 Snap Inc. Augmented reality experiences using speech and text captions
US11256336B2 (en) 2020-06-29 2022-02-22 Facebook Technologies, Llc Integration of artificial reality interaction modes
CN115836271A (zh) * 2020-07-14 2023-03-21 苹果公司 生成用于工作空间的建议内容
WO2022046367A1 (en) * 2020-08-25 2022-03-03 Sterling Labs Llc Displaying an environment from a selected point-of-view
US11227445B1 (en) 2020-08-31 2022-01-18 Facebook Technologies, Llc Artificial reality augments and surfaces
US11176755B1 (en) 2020-08-31 2021-11-16 Facebook Technologies, Llc Artificial reality augments and surfaces
US11178376B1 (en) 2020-09-04 2021-11-16 Facebook Technologies, Llc Metering for display modes in artificial reality
US11582245B2 (en) 2020-09-15 2023-02-14 Meta Platforms Technologies, Llc Artificial reality collaborative working environments
US11520456B2 (en) * 2020-09-25 2022-12-06 Apple Inc. Methods for adjusting and/or controlling immersion associated with user interfaces
US11113893B1 (en) 2020-11-17 2021-09-07 Facebook Technologies, Llc Artificial reality environment with glints displayed by an extra reality device
KR102258531B1 (ko) * 2020-11-23 2021-06-01 (주)펜타유니버스 복합 입력 인지 시스템용 통합 인지 분석부
US11854230B2 (en) 2020-12-01 2023-12-26 Meta Platforms Technologies, Llc Physical keyboard tracking
KR20220080399A (ko) * 2020-12-07 2022-06-14 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 방법
US11928263B2 (en) * 2020-12-07 2024-03-12 Samsung Electronics Co., Ltd. Electronic device for processing user input and method thereof
US12046252B2 (en) * 2020-12-08 2024-07-23 International Business Machines Corporation Directional voice command identification
US11409405B1 (en) 2020-12-22 2022-08-09 Facebook Technologies, Llc Augment orchestration in an artificial reality environment
US11461973B2 (en) 2020-12-22 2022-10-04 Meta Platforms Technologies, Llc Virtual reality locomotion via hand gesture
KR20220105893A (ko) * 2021-01-21 2022-07-28 삼성전자주식회사 외부 웨어러블 전자 장치로부터 정보를 수신하는 웨어러블 전자 장치 및 그 작동 방법
US11294475B1 (en) 2021-02-08 2022-04-05 Facebook Technologies, Llc Artificial reality multi-modal input switching model
EP4288950A1 (en) 2021-02-08 2023-12-13 Sightful Computers Ltd User interactions in extended reality
EP4295314A1 (en) 2021-02-08 2023-12-27 Sightful Computers Ltd Content sharing in extended reality
US11995230B2 (en) 2021-02-11 2024-05-28 Apple Inc. Methods for presenting and sharing content in an environment
CN117178245A (zh) * 2021-04-01 2023-12-05 苹果公司 凝视和头部姿态交互
US11478927B1 (en) * 2021-04-01 2022-10-25 Giant.Ai, Inc. Hybrid computing architectures with specialized processors to encode/decode latent representations for controlling dynamic mechanical systems
JP2024098511A (ja) * 2021-04-08 2024-07-24 株式会社Nttドコモ コンテンツ表示制御システム
US20220375172A1 (en) * 2021-05-19 2022-11-24 Snap Inc. Contextual visual and voice search from electronic eyewear device
CN113286163B (zh) * 2021-05-21 2022-07-08 成都威爱新经济技术研究院有限公司 一种用于虚拟拍摄直播的时间戳误差标定方法及系统
US11295503B1 (en) 2021-06-28 2022-04-05 Facebook Technologies, Llc Interactive avatars in artificial reality
US11762952B2 (en) 2021-06-28 2023-09-19 Meta Platforms Technologies, Llc Artificial reality application lifecycle
US12008717B2 (en) 2021-07-07 2024-06-11 Meta Platforms Technologies, Llc Artificial reality environment control through an artificial reality environment schema
WO2023009580A2 (en) 2021-07-28 2023-02-02 Multinarity Ltd Using an extended reality appliance for productivity
US12056268B2 (en) 2021-08-17 2024-08-06 Meta Platforms Technologies, Llc Platformization of mixed reality objects in virtual reality environments
US20230055819A1 (en) * 2021-08-18 2023-02-23 Target Brands, Inc. Virtual reality system for retail store design
US20230267933A1 (en) * 2021-09-27 2023-08-24 International Business Machines Corporation Selective inclusion of speech content in documents
US11810242B2 (en) * 2021-10-12 2023-11-07 Htc Corporation Method for stabilizing raycast and electronic device using the same
US11748944B2 (en) 2021-10-27 2023-09-05 Meta Platforms Technologies, Llc Virtual object structures and interrelationships
US11798247B2 (en) 2021-10-27 2023-10-24 Meta Platforms Technologies, Llc Virtual object structures and interrelationships
US11726587B2 (en) * 2021-11-03 2023-08-15 Htc Corporation Virtual image display system and pointing direction control method of control device thereof
US11989343B2 (en) * 2022-01-05 2024-05-21 Nokia Technologies Oy Pose validity for XR based services
US12093447B2 (en) 2022-01-13 2024-09-17 Meta Platforms Technologies, Llc Ephemeral artificial reality experiences
US12020704B2 (en) 2022-01-19 2024-06-25 Google Llc Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant
US11948263B1 (en) 2023-03-14 2024-04-02 Sightful Computers Ltd Recording the complete physical and extended reality environments of a user
US12067688B2 (en) 2022-02-14 2024-08-20 Meta Platforms Technologies, Llc Coordination of interactions of virtual objects
US12032736B2 (en) * 2022-02-23 2024-07-09 International Business Machines Corporation Gaze based text manipulation
US11579747B1 (en) * 2022-03-14 2023-02-14 Snap Inc. 3D user interface depth forgiveness
US20230306350A1 (en) * 2022-03-22 2023-09-28 Saudi Arabian Oil Company Method and system for verifying performance-based assessments during virtual reality sessions
US12093440B2 (en) * 2022-03-31 2024-09-17 Lenovo (Singapore) Pte. Ltd. Direction of user input to virtual objects based on command metadata
US11610376B1 (en) 2022-04-08 2023-03-21 Meta Platforms Technologies, Llc Wrist-stabilized projection casting
US20230326144A1 (en) * 2022-04-08 2023-10-12 Meta Platforms Technologies, Llc Triggering Field Transitions for Artificial Reality Objects
US12026527B2 (en) * 2022-05-10 2024-07-02 Meta Platforms Technologies, Llc World-controlled and application-controlled augments in an artificial-reality environment
US20240036578A1 (en) * 2022-07-26 2024-02-01 Zebra Technologies Corporation Generation of Navigational Paths Using Recursive Partitioning of Unoccupied Space
CN115237255B (zh) * 2022-07-29 2023-10-31 天津大学 一种基于眼动和语音的自然图像共指目标定位系统及方法
US12073054B2 (en) 2022-09-30 2024-08-27 Sightful Computers Ltd Managing virtual collisions between moving virtual objects
US12074722B2 (en) * 2022-11-14 2024-08-27 Zoom Video Communications, Inc. Sign language control for a virtual meeting
US20240185849A1 (en) * 2022-12-05 2024-06-06 Google Llc Facilitating virtual or physical assistant interactions with virtual objects in a virtual environment
US11947862B1 (en) 2022-12-30 2024-04-02 Meta Platforms Technologies, Llc Streaming native application content to artificial reality devices
US11880936B1 (en) * 2023-01-26 2024-01-23 Intuit Inc. Generating and displaying text in a virtual reality environment
US11991222B1 (en) 2023-05-02 2024-05-21 Meta Platforms Technologies, Llc Persistent call control user interface element in an artificial reality environment
CN116301388B (zh) * 2023-05-11 2023-08-01 环球数科集团有限公司 一种智能多模态组合应用的人机交互场景系统
WO2024031109A2 (en) * 2023-07-19 2024-02-08 Futurewei Technologies, Inc. Audio-visual information system for smart eyewear
US11995414B1 (en) * 2023-08-28 2024-05-28 Sdl Inc. Automatic post-editing systems and methods

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100509A1 (en) * 2002-10-24 2010-04-22 At&T Corp. Systems and Methods for Generating Markup-Language Based Expressions from Multi-Modal and Unimodal Inputs
US20120113092A1 (en) * 2010-11-08 2012-05-10 Avi Bar-Zeev Automatic variable virtual focus for augmented reality displays
US20130046544A1 (en) * 2010-03-12 2013-02-21 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
CN103460256A (zh) * 2011-03-29 2013-12-18 高通股份有限公司 在扩增现实系统中将虚拟图像锚定到真实世界表面
US20140003762A1 (en) * 2012-06-11 2014-01-02 Magic Leap, Inc. Multiple depth plane three-dimensional display using a wave guide reflector array projector
US20150016777A1 (en) * 2012-06-11 2015-01-15 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
CN105283825A (zh) * 2013-05-22 2016-01-27 微软技术许可有限责任公司 增强现实对象的身体锁定放置
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
CN105339870A (zh) * 2014-03-21 2016-02-17 三星电子株式会社 用于提供虚拟输入界面的方法和可穿戴装置
CN106104361A (zh) * 2014-02-18 2016-11-09 摩致实验室有限公司 与移动计算装置一起使用的头戴式显示器眼罩
US20170060230A1 (en) * 2015-08-26 2017-03-02 Google Inc. Dynamic switching and merging of head, gesture and touch input in virtual reality

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04372012A (ja) * 1991-06-20 1992-12-25 Fuji Xerox Co Ltd 入力装置
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
JP3461980B2 (ja) 1995-08-25 2003-10-27 株式会社東芝 高速描画方法および装置
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
JP3822357B2 (ja) * 1998-02-09 2006-09-20 株式会社東芝 マルチモーダル入出力装置のインタフェース装置及びその方法
USD514570S1 (en) 2004-06-24 2006-02-07 Microsoft Corporation Region of a fingerprint scanning device with an illuminated ring
US7561717B2 (en) 2004-07-09 2009-07-14 United Parcel Service Of America, Inc. System and method for displaying item information
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
JP5145569B2 (ja) 2007-12-19 2013-02-20 株式会社国際電気通信基礎技術研究所 対象物特定方法および装置
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
JP5472056B2 (ja) 2010-11-19 2014-04-16 コニカミノルタ株式会社 表示システム、表示処理装置、表示方法、および表示プログラム
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
CA2822978C (en) 2010-12-24 2019-02-19 Hong Hua An ergonomic head mounted display device and optical system
CN103635891B (zh) 2011-05-06 2017-10-27 奇跃公司 大量同时远程数字呈现世界
USD658094S1 (en) 2011-06-18 2012-04-24 Dunn Scott E Rounded square display device for a cord
US9417754B2 (en) 2011-08-05 2016-08-16 P4tents1, LLC User interface system, method, and computer program product
JP5762892B2 (ja) 2011-09-06 2015-08-12 ビッグローブ株式会社 情報表示システム、情報表示方法、及び情報表示用プログラム
EP2760363A4 (en) 2011-09-29 2015-06-24 Magic Leap Inc TACTILE GLOVE FOR HUMAN COMPUTER INTERACTION
US20130104085A1 (en) 2011-10-21 2013-04-25 Digital Artforms, Inc. Systems and methods for human-computer interaction using a two handed interface
CN104011788B (zh) 2011-10-28 2016-11-16 奇跃公司 用于增强和虚拟现实的系统和方法
KR102440195B1 (ko) 2011-11-23 2022-09-02 매직 립, 인코포레이티드 3차원 가상 및 증강 현실 디스플레이 시스템
BR112014024941A2 (pt) 2012-04-05 2017-09-19 Magic Leap Inc dispositivo de imagem de campo de visão amplo com capacidade de focalização ativa
US8754829B2 (en) 2012-08-04 2014-06-17 Paul Lapstun Scanning light field camera and display
JP2015534108A (ja) 2012-09-11 2015-11-26 マジック リープ, インコーポレイテッド 人間工学的な頭部搭載型ディスプレイデバイスおよび光学システム
JP2014085954A (ja) 2012-10-25 2014-05-12 Kyocera Corp 携帯端末装置、プログラムおよび入力操作受け付け方法
IL283193B (en) 2013-01-15 2022-08-01 Magic Leap Inc A system for scanning electromagnetic imaging radiation
IL313175A (en) 2013-03-11 2024-07-01 Magic Leap Inc System and method for augmentation and virtual reality
NZ735754A (en) 2013-03-15 2019-04-26 Magic Leap Inc Display system and method
JP5900393B2 (ja) 2013-03-21 2016-04-06 ソニー株式会社 情報処理装置、操作制御方法及びプログラム
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
US9129430B2 (en) 2013-06-25 2015-09-08 Microsoft Technology Licensing, Llc Indicating out-of-view augmented reality images
KR20150037254A (ko) 2013-09-30 2015-04-08 엘지전자 주식회사 착용형 디스플레이 디바이스 및 레이어 제어 방법
IL295157B2 (en) 2013-10-16 2023-10-01 Magic Leap Inc An augmented or virtual reality head device with intrapupillary distance adjustment
WO2015059976A1 (ja) * 2013-10-24 2015-04-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
CN107315249B (zh) 2013-11-27 2021-08-17 奇跃公司 虚拟和增强现实系统与方法
JP2015114757A (ja) 2013-12-10 2015-06-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
NZ722904A (en) 2014-01-31 2020-05-29 Magic Leap Inc Multi-focal display system and method
CN111552079B (zh) 2014-01-31 2022-04-15 奇跃公司 多焦点显示系统和方法
JP2015145934A (ja) 2014-02-03 2015-08-13 セイコーエプソン株式会社 プロジェクター
AU2015297036B2 (en) * 2014-05-09 2017-09-28 Google Llc Systems and methods for discerning eye signals and continuous biometric identification
USD759657S1 (en) 2014-05-19 2016-06-21 Microsoft Corporation Connector with illumination region
CA3124368C (en) 2014-05-30 2023-04-25 Magic Leap, Inc. Methods and systems for generating virtual content display with a virtual or augmented reality apparatus
US9971492B2 (en) * 2014-06-04 2018-05-15 Quantum Interface, Llc Dynamic environment for object and attribute display and interaction
USD752529S1 (en) 2014-06-09 2016-03-29 Comcast Cable Communications, Llc Electronic housing with illuminated region
USD758367S1 (en) 2015-05-14 2016-06-07 Magic Leap, Inc. Virtual reality headset
JP6780642B2 (ja) 2015-06-15 2020-11-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
EP3118722B1 (en) * 2015-07-14 2020-07-01 Nokia Technologies Oy Mediated reality
AU2016324039B2 (en) 2015-09-16 2021-09-30 Magic Leap, Inc. Head pose mixing of audio files
KR102701209B1 (ko) 2015-10-20 2024-08-29 매직 립, 인코포레이티드 3차원 공간에서 가상 객체들 선택
CN107533360B (zh) * 2015-12-07 2021-06-15 华为技术有限公司 一种显示、处理的方法及相关装置
CN106997235B (zh) * 2016-01-25 2018-07-13 亮风台(上海)信息科技有限公司 用于实现增强现实交互和展示的方法、设备
US10229541B2 (en) * 2016-01-28 2019-03-12 Sony Interactive Entertainment America Llc Methods and systems for navigation within virtual reality space using head mounted display
USD805734S1 (en) 2016-03-04 2017-12-26 Nike, Inc. Shirt
USD794288S1 (en) 2016-03-11 2017-08-15 Nike, Inc. Shoe with illuminable sole light sequence
CN114995594A (zh) 2016-03-31 2022-09-02 奇跃公司 使用姿势和多dof控制器与3d虚拟对象的交互
US10068134B2 (en) * 2016-05-03 2018-09-04 Microsoft Technology Licensing, Llc Identification of objects in a scene using gaze tracking techniques
IL292911B2 (en) 2016-08-11 2023-11-01 Magic Leap Inc Automatic positioning of a virtual object in three-dimensional space
US20180096505A1 (en) * 2016-10-04 2018-04-05 Facebook, Inc. Controls and Interfaces for User Interactions in Virtual Spaces
CN108664201B (zh) * 2017-03-29 2021-12-28 北京搜狗科技发展有限公司 一种文本编辑方法、装置及电子设备
CN110785688B (zh) 2017-04-19 2021-08-27 奇跃公司 可穿戴系统的多模式任务执行和文本编辑
CN111052046B (zh) * 2017-09-29 2022-06-03 苹果公司 使用现实界面访问外部设备的功能

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100509A1 (en) * 2002-10-24 2010-04-22 At&T Corp. Systems and Methods for Generating Markup-Language Based Expressions from Multi-Modal and Unimodal Inputs
US20130046544A1 (en) * 2010-03-12 2013-02-21 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
US20120113092A1 (en) * 2010-11-08 2012-05-10 Avi Bar-Zeev Automatic variable virtual focus for augmented reality displays
CN103460256A (zh) * 2011-03-29 2013-12-18 高通股份有限公司 在扩增现实系统中将虚拟图像锚定到真实世界表面
US20140003762A1 (en) * 2012-06-11 2014-01-02 Magic Leap, Inc. Multiple depth plane three-dimensional display using a wave guide reflector array projector
US20150016777A1 (en) * 2012-06-11 2015-01-15 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
CN105283825A (zh) * 2013-05-22 2016-01-27 微软技术许可有限责任公司 增强现实对象的身体锁定放置
CN106104361A (zh) * 2014-02-18 2016-11-09 摩致实验室有限公司 与移动计算装置一起使用的头戴式显示器眼罩
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
CN105339870A (zh) * 2014-03-21 2016-02-17 三星电子株式会社 用于提供虚拟输入界面的方法和可穿戴装置
US20170060230A1 (en) * 2015-08-26 2017-03-02 Google Inc. Dynamic switching and merging of head, gesture and touch input in virtual reality

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526083A (zh) * 2020-04-15 2020-08-11 上海幂方电子科技有限公司 通过头部动作即时通信的方法、装置、系统及存储介质
WO2021212603A1 (zh) * 2020-04-23 2021-10-28 捷开通讯(深圳)有限公司 运用头控实现语音输入的方法和装置
CN111782031A (zh) * 2020-05-26 2020-10-16 北京理工大学 一种基于头动以及手指微手势的文本输入系统及方法
CN111831112A (zh) * 2020-05-26 2020-10-27 北京理工大学 一种基于眼动以及手指微手势的文本输入系统及方法
CN111782053A (zh) * 2020-08-10 2020-10-16 Oppo广东移动通信有限公司 模型编辑方法、装置、设备及存储介质
CN112379799A (zh) * 2020-10-16 2021-02-19 杭州易现先进科技有限公司 在三维渲染中输入框的控制方法、装置和电子装置
CN112379799B (zh) * 2020-10-16 2022-04-01 杭州易现先进科技有限公司 在三维渲染中输入框的控制方法、装置和电子装置
CN117378000A (zh) * 2020-12-31 2024-01-09 奥布朗科技有限公司 用于虚拟现实环境的系统和方法
CN113627312A (zh) * 2021-08-04 2021-11-09 东南大学 一种通过眼动追踪来协助瘫痪失语者语言输出的系统
CN115344121A (zh) * 2022-08-10 2022-11-15 北京字跳网络技术有限公司 用于处理手势事件的方法、装置、设备和存储介质
TWI834458B (zh) * 2022-11-17 2024-03-01 宏達國際電子股份有限公司 頭戴式顯示裝置、跟蹤系統及跟蹤方法
CN116300092A (zh) * 2023-03-09 2023-06-23 北京百度网讯科技有限公司 智能眼镜的控制方法、装置、设备以及存储介质
CN116300092B (zh) * 2023-03-09 2024-05-14 北京百度网讯科技有限公司 智能眼镜的控制方法、装置、设备以及存储介质
CN117348737A (zh) * 2023-12-06 2024-01-05 之江实验室 一种基于多通道交互的数据处理系统及方法

Also Published As

Publication number Publication date
EP3612878A1 (en) 2020-02-26
WO2018195099A1 (en) 2018-10-25
IL270002B2 (en) 2023-11-01
AU2018256365A1 (en) 2019-10-31
JP7336005B2 (ja) 2023-08-30
US10768693B2 (en) 2020-09-08
EP3612878B1 (en) 2023-06-28
US11237623B2 (en) 2022-02-01
US20200363865A1 (en) 2020-11-19
US20240211028A1 (en) 2024-06-27
JP2020519986A (ja) 2020-07-02
CN110785688B (zh) 2021-08-27
IL270002A (zh) 2019-12-31
JP2022121592A (ja) 2022-08-19
CN113608617A (zh) 2021-11-05
KR102652922B1 (ko) 2024-03-29
IL270002B1 (en) 2023-07-01
CA3059234A1 (en) 2018-10-25
KR20190141696A (ko) 2019-12-24
EP3612878A4 (en) 2020-09-23
KR20240046613A (ko) 2024-04-09
JP7149289B2 (ja) 2022-10-06
US11960636B2 (en) 2024-04-16
JP2023144096A (ja) 2023-10-06
US20220171453A1 (en) 2022-06-02
EP4220258A1 (en) 2023-08-02
US20180307303A1 (en) 2018-10-25

Similar Documents

Publication Publication Date Title
CN110785688B (zh) 可穿戴系统的多模式任务执行和文本编辑
US11983823B2 (en) Transmodal input fusion for a wearable system
US11410392B2 (en) Information display in augmented reality systems
JP7118007B2 (ja) 視野周辺の視覚的背光
CN115185366A (zh) 用户界面菜单的情景感知

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant