CN110488972B

CN110488972B - 用于空间交互中的额外模态的面部跟踪

Info

Publication number: CN110488972B
Application number: CN201910660380.4A
Authority: CN
Inventors: 哈特穆特·赛西特
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-11-08
Filing date: 2014-11-07
Publication date: 2023-06-09
Anticipated expiration: 2034-11-07
Also published as: CN105683868A; EP3066543B1; US10146299B2; WO2015070063A1; JP2016536687A; US20150130704A1; CN105683868B; EP3066543A1; CN110488972A; JP6591411B2; ES2897797T3

Abstract

本申请涉及用于空间交互中的额外模态的面部跟踪。用户装置从所述用户装置的用户方接收图像流且从所述用户装置的目标方接收图像流。所述用户装置获取用于所述用户的坐标系统，获取其自身的坐标系统，且将所述两个坐标系统与全局坐标系统相关。所述用户装置接着确定所述用户是否已移动及/或所述用户装置是否已移动。所述用户及/或所述用户装置的移动被用作输入模态以控制所述用户在增强现实环境中的交互。

Description

用于空间交互中的额外模态的面部跟踪

分案申请的相关信息

本案是分案申请。该分案的母案是申请日为2014年11月07日、申请号为201480057721.4、发明名称为“用于空间交互中的额外模态的面部跟踪”的发明专利申请案。

根据35 U.S.C.§119要求优先权

本专利申请案要求2013年11月8日由本申请案的同一发明人申请的名为“使用面部跟踪的空间交互(SPATIAL INTERACTION USING FACE TRACKING)”的临时申请案第61/902,025号的优先权，所述临时申请案被转让给其受让人且特此明确地将全文以引用的方式并入本文中。

背景技术

使用手持式用户装置的空间交互变得愈加风行，因为相当多的用户选择其作为傻瓜相机装置。然而，使用这些用户装置通常要求用户双手抓握来固持用户装置，甚至对于轻量用户装置也是如此，例如平板计算机、平板手机、智能电话、及其类似者。在增强现实环境中使用这些及其它用户装置甚至可具有较大挑战性。

发明内容

一般来说，本文中所揭示的主题的一个实施方案包含用于在用户与用户装置之间执行空间交互的设备。所述设备包含经配置以在第一坐标系统中检测及跟踪所述用户的面部相对于所述用户装置的位置及定向的逻辑和经配置以在第二坐标系统中检测及跟踪所述用户装置相对于目标的位置及定向的逻辑。所述设备还包含经配置以将所述第一坐标系统与所述第二坐标系统组合成全局坐标系统且使用所述用户的所述面部的所述所检测到的位置及定向、所述用户装置的所述所检测到的位置及定向和所述全局坐标系统连续地跟踪所述用户的所述面部的逻辑。

本文中所揭示的主题的另一实施方案包含用于执行用户与用户装置的空间交互的方法。所述方法包括：在第一坐标系统中检测及跟踪所述用户的面部相对于所述用户装置在第一坐标系统中的位置及定向；在第二坐标系统中检测及跟踪所述用户装置相对于目标在第二坐标系统中的位置及定向；将所述第一坐标系统与所述第二坐标系统组合成全局坐标系统；及使用所述用户的所述所检测到的面部、所述用户装置的所述所检测到的位置和所述全局坐标系统连续地跟踪所述用户的所述面部。

本文中所揭示的主题的另一实施方案包含用于执行用户与用户装置的空间交互的设备。所述设备包括：用于在第一坐标系统中检测及跟踪所述用户的面部相对于所述用户装置在第一坐标系统中的位置及定向的装置；用于在第二坐标系统中检测及跟踪所述用户装置相对于目标在第二坐标系统中的位置及定向的装置；用于将所述第一坐标系统与所述第二坐标系统组合成全局坐标系统的装置；和用于使用所述用户的所述所检测到的面部、所述用户装置的所述所检测到的位置和所述全局坐标系统连续地跟踪所述用户的所述面部的装置。

本文中所揭示的主题的另一实施方案包含计算机可读存储媒体，其包含在由机器存取时使所述机器执行以下操作的数据，所述操作包括：在第一坐标系统中检测及跟踪用户的面部相对于用户装置在第一坐标系统中的位置及定向；在第二坐标系统中检测及跟踪所述用户装置相对于目标在第二坐标系统中的位置及定向；将所述第一坐标系统与所述第二坐标系统组合成全局坐标系统；及使用所述用户的所述所检测到的面部、所述用户装置的所述所检测到的位置和所述全局坐标系统连续地跟踪所述用户的所述面部。

此“发明内容”在遵守以下理解的情况下提交：它将不会用于解释或限制权利要求的范围或含义。此“发明内容”不意图识别所主张的主题的关键或基本特征，并且也不意图被用作辅助确定所主张的主题的范围。

附图说明

图1说明根据本文中所描述的技术的实施方案的增强现实环境。

图2说明根据本文中所描述的技术的替代性实施方案的增强现实环境。

图3说明根据本文中所描述的技术的另一实施方案的图2中所描绘的增强现实环境。

图4说明根据本文中所描述的技术的另一实施方案的图2中所描绘的增强现实环境。

图5说明根据本文中所描述的技术的另一实施方案的图2中所描绘的增强现实环境。

图6说明根据本文中所描述的技术的另一实施方案的图2中所描绘的增强现实环境。

图7说明根据本文中所描述的技术的实施方案的增强现实系统的高级框图。

图8说明根据本文中所描述的技术的实施方案的图7中所描绘的的交互逻辑的高级框图。

图9为根据本文中所描述的技术的实施方案的操作图7中所描绘的增强现实环境的方法的流程图。

“具体实施方式”参考附图。在图中，参考数字的最左边数字识别其中所述参考数字首先出现的图。贯穿图式使用同一数字以指代相同特征及组件。

具体实施方式

举例来说，本文中所描述的技术包含用于用户装置的屏幕方与用户装置的相机方之间的增强现实环境中的交互的机构。如本文中所使用，术语“增强现实”意指将现实世界图像与计算机产生的数据组合且将图形、音频和其它感官输入叠加到现实世界上的任何环境。

在增强现实环境中操作用户装置可具有挑战性，因为除其它操作之外，应将用户装置在空间上朝向增强现实场景对齐。然而，因为用户双手抓握来固持用户装置，因此对于用户装置存在有限的输入模态，这是由于屏幕上的菜单、标签、小组件需要使用用户的手来接触。

在一个方面中，用户装置中的相机从用户装置的用户方(或前方)接收可恒定的图像流且从用户装置的目标方(或后方)接收图像流。所述相机可检测用户的面部上的眼睛、嘴、鼻孔、面颊等。在一个方面中，所述用户装置获取用户相对于用户装置的坐标系统，获取其自身相对于目标的坐标系统，且将两个坐标系统组合成全局坐标系统。所述用户装置接着确定用户是否已移动及/或用户装置是否已移动。用户及/或用户装置的移动被用作输入模态以控制用户在增强现实环境中的交互。

在一或多个实施方案中，用户装置解释用户装置前方和用户装置后方的六个自由度。用户装置将这些自由度中的每一者映射到分离的输入模态，从而产生十二个输入模态。所述输入模态可包含话音、唇移动、眼睛移动、语音、手势、笑、凝视、头部移动、面部移动、身体移动、键盘输入、来自数字化平板计算机的输入等。所述输入模态还可包含可从用户的面部、用户的头部位置和用户相对于用户装置的近程等推断的信息，其可影响用户装置与目标之间的交互空间。

在一或多个方面中，在用户装置前方和用户装置后方的映射允许通过用户固持用户装置(行走到目标)或用户移动他或她的头部(使用面部跟踪)来控制增强现实环境。在一或多个实施方案中，在用户装置前方和用户装置后方的映射还可与其它输入模态组合。举例来说，用户的面部姿态可为投射到场景中的光线。用户的面部姿态接着可与来自用户的话音输入组合。替代地，用户的面部姿态可与用户的眨眼输入、语音输入、凝视输入以及与用户装置的位置及/或定向组合。语音输入可用于指代场景中的对象。用户的凝视可用于确定用户实际上在观看哪里。另外，另一输入模态可包含用户装置在空间中的位置及/或定向。

在一或多个实施方案中，用户装置检测及跟踪相对于用户装置的用户的面部。用户装置还检测及跟踪相对于目标的用户装置。用户装置接着映射用户的面部朝向用户装置的近程和方向。

可通过改变展示在用户装置的显示器上的信息的细节水平来完成用户的面部朝向用户装置的近程和方向的映射。举例来说，取决于用户相对于用户装置的近程，用户装置后方的增强现实场景中展示的细节可因此适应于为较详细或较不详细。

可通过使用自动式分解图及/或x射线技术观看增强现实场景中的目标对象内部来完成用户的面部朝向用户装置的近程和方向的映射。举例来说，产生目标上的一或多个对象的自动式三维(3D)模型可包含将对象组织成编码对象的部分相对于彼此如何分解的分解图。自动式三维(3D)模型允许用户使用引导控制和较高级交互模式两者来交互式地探索分解视图。

在一个实施方案中，用户的凝视可直接控制经分解部分沿着在目标上移动的路径。在另一实施方案中，用户的凝视与经分解的模型之间的关系可用作主要控制，且另一模态(例如，话音、触摸等)可用作改变分解图中用户的凝视的相交点附近的经分解部分的状态的辅助控制。

还可使用放置在目标上的对象中的关注区上以改变其外观及/或其交互式行为的透明及/或半透明用户接口元件或“魔法透镜”来完成用户的面部朝向用户装置的近程和方向的映射。此所谓的“魔法透镜”可用于检视一或多个对象的顶部以辅助映射。

图1说明根据本文中所描述的技术的一或多个实施方案的增强现实环境100。在增强现实环境100中，使用虚拟的计算机产生的图形来增强用户对现实世界的检视。所述图形在空间上对齐且在空间上延伸到增强现实环境100中，使得从用户的视角来看其看起来与现实世界对准。

所说明的增强现实环境100包含用户102、用户装置104和目标106。来自目标106的场景展示在用户装置104上的显示器112上。所说明的环境100还包含坐标系统114、坐标系统116和坐标系统118。

在一或多个实施方案中，增强现实环境100可用于游戏设置、指令设置、工业设计、体育及娱乐、医疗环境，或可受益于增强现实技术的使用的其它适合的环境中。

在一或多个实施方案中，用户102可为用户装置104的任何人类用户。因而，用户102可使用多种输入模态与用户装置104交互。当然，用户102可为任何机械装置，例如能够在(例如)人类的控制下与用户装置104交互的机器人。

在一或多个实施方案中，用户装置104可为任何用户装备，例如电话、平板计算机、“平板手机(电话+平板计算机)”计算机、智能电话、膝上型计算机和桌上型计算机及其类似者。在一或多个实施方案中，用户装置104包含一或多个定向传感模块、相机、无线收发器、图形引擎、处理器、用户接口(例如显示器112、小键盘)、眼睛移动检测模块、手移动检测模块、话音检测模块、语音辨识模块、面部表达辨识模块、头部跟踪模块及其类似者。

在一或多个实施方案中，目标106可为场所、对象、大体方向、人员，或其它类似项目。目标106可静止或移动。

所说明的显示器112可为能够显示文本、图像及其类似者的触摸屏显示器、全息显示器等。

所说明的坐标系统114为面部到装置坐标系统(在用户装置前方)。坐标系统114为用户102相对于其在空间中的定向的坐标系统。在一或多个实施方案中，坐标系统114检测及跟踪用户102的面部相对于用户装置104的位置及定向。

所说明的坐标系统116为装置到目标坐标系统(在用户装置后方)。坐标系统116为用户装置104相对于其在空间中的定向的坐标系统。在一或多个实施方案中，坐标系统114检测及跟踪用户装置104相对于目标106的位置及定向。

坐标系统114和坐标系统116经组合以产生坐标系统118。所说明的坐标系统118为全局坐标系统(或现实世界坐标系统)。用户装置104使用坐标系统118以确定定向是否为相对定向或绝对定向。

用户装置104还使用坐标系统118以确定用户102是否已移动、用户装置104是否已移动，或是否用户102与用户装置104两者都已移动。在一个方面中，用户装置104在不使用传感器的情况下确定用户102是否已移动、用户装置104是否已移动，或用户102与用户装置104两者是否都已移动。通常，传感器可仅确定用户装置104已移动还是未移动。

使用图1中所描绘的布置，有可能计算用户102的面部朝向用户装置104的六个自由度姿势，因为用户102可移动他的头部、转动他的头部、移动用户装置104以及转动用户装置104，且用户装置104可检测以及解释移动。在一或多个实施方案中，用户装置104将这些自由度中的每一者映射到分离的输入模态，从而产生十二个输入模态。

图2说明根据本文中所描述的技术的实施方案的增强现实环境200。所说明的增强现实环境200包含用户102、用户装置104和目标106。用户装置104将来自目标106的对象202显示在用户装置104的显示器112上。在所说明的增强现实环境200中，对象202为咖啡机。用户102从咬合侧观察对象202。在所说明的增强现实环境200中，用户102沿着箭头204的方向移动他或她的头部。沿着箭头204的方向的移动为输入模态的源头，且对象202为动作对象。

在用户装置104前方的用户102的位置被映射到对象202的定向。在所说明的实施方案中，用户102朝向显示器上的屏幕的头部姿势在反向方向上被映射到对象202的定向。因而，当用户102沿着箭头204的方向将他或她的头部移动到右边时，对象202转到左边。这允许用户102从各个角度观察对象202。此外，当用户装置104朝向目标106移动时，对象202保持在同一位置处的物理空间中。然而，对象202的定向随着用户102与用户装置104之间的定向改变而改变。

图3也说明包含用户102、用户装置104和目标106的增强现实环境200。用户装置104将来自目标106的对象202显示在用户装置104的显示器112上。然而，在图3中，用户102已沿着箭头302的方向移动到旁边以揭露对象202的部分和其底层结构，其被说明为咖啡杯304。咖啡杯304根据用户102的头部姿态来布置以便优化对象202对于用户102的可见性。在此实施方案中，用户装置104可显示用户102在观看哪里。

在一或多个方面中，用户102的凝视提供一个输入模态，且用户102沿着箭头302的方向的移动提供另一输入模态。用户装置104映射用户102的面部朝向用户装置104的近程和方向以改变对象202的细节水平。在所说明的实施方案中，用户装置104使用用户102的凝视以调整对象202的细节水平以较详细地展示咖啡杯304。在一个实施方案中，用户装置104中的相机(未图示)分解对象202的关注区以允许用户102检视咖啡杯304。

图4说明包含用户102、用户装置104和目标106的增强现实环境200。用户装置104将来自目标106的对象202显示在用户装置104的显示器112上。然而，在增强现实环境200的此实施方案中，使用标签及/或虚拟对象(未图示)。尽管未图示，但对象202上的标签可根据用户102的头部姿势以广告牌方式来布置。然而，应根据视线且朝向用户102布置标签以使得用户102实际上可看见对象202。另外，标签不应直接咬合到用户102的视线中或与对象202冲突。

在一或多个实施方案中，用户装置104使用用户102的凝视及/或视线(即，冲突信息)作为输入模态以改变标签的位置及/或定向以使得用户102能够有效地检视对象202。用户装置104可检测用户102的眨眼，其接着可经映射以打开及关闭任何标签。作为一实例，可将与用户102的视线具有最近近程的标签排除显现在用户装置104上。

图5说明其中实施语义缩放(semantic zoom)的增强现实环境200。图5中所描绘的增强现实环境200还包含用户102、用户装置104和目标106。用户装置104将来自目标106的对象202显示在用户装置104的显示器112上。然而，在图5中所说明的实施方案中，沿着箭头504放大在用户102的头部姿势的中心点502中的对象202的部分以允许用户102对对象202的特写检测且用户102不用向目标106更接近地移动。用户102的凝视可用于放大对象202。

图5中所描绘的增强现实环境200还可确定用户102是否已移动(一个输入模态)或用户装置104是否已移动(另一输入模态)。用户装置104上的分离的用户接口可用于分别地映射这些输入模态。

举例来说，用户装置104可使用坐标系统114(面部到装置)、坐标系统116(装置到目标)和全局坐标系统118(全部在图1中展示)以确定用户102及/或用户装置104的定向是否为相对定向或绝对定向。用户装置104可计算定向差异以确定用户102是否已移动、用户装置104是否已移动，或两者是否都已移动。可在不使用传感器的情况下完成此计算，此为有利的，因为传感器仅可确定用户装置104是否已移动。

图6说明根据本文中所描述的技术的另一实施方案的增强现实环境200，其中实施适合的魔法透镜(未图示)。举例来说，在所说明的实施方案中，基于与对象202的有界体积602相交的用户102的头部姿势突显对象202的部分。

通常，使用常规魔法透镜仅存在两个自由度，因为魔法透镜为屏幕对准的。根据一些实施方案，使用坐标内的一或多个模态准许魔法透镜相应地移动。举例来说，可存在实际上描绘于现实世界屏幕上的不同层。因此，额外模态准许切换魔法透镜的内容以及以高达六个自由度移动魔法透镜。使用用户102的凝视或用户102的视线实现六个自由度。

图7说明根据本文中所描述的技术的实施方案的增强现实系统700的高级框图。在一或多个实施方案中，增强现实系统700使用用户坐标系统检测及跟踪用户的面部相对于用户装置的位置及定向，使用用户装置坐标系统检测及跟踪用户装置相对于目标的位置及定向，以及将用户坐标系统与用户装置坐标系统映射到全局坐标系统。增强现实系统700还使用用户的所检测到的面部、用户装置的所检测到的位置和全局坐标系统连续地跟踪用户的面部。

所说明的系统700包含用户装置702，其具有任选的惯性测量单元(IMU)704、一或多个处理器706、存储器708、交互逻辑710、显现器712、复合器714和图形处理单元(GPU)716。

在一或多个实施方案中，用户装置702为相机。在此实施方案中，用户装置702包含相机前部718和相机后部720。相机前部718面对用户装置702的用户，例如用户102。相机后部720面对图像的目标(目标106)经定位的场景。

所说明的相机前部718捕获图像722。所说明的相机后部720捕获图像724。

所说明的处理器706包含面部检测器726、面部跟踪器728和眨眼检测器730。所说明的面部检测器726、面部跟踪器728和眨眼检测器730处理图像722。

在一个方面中，所说明的面部检测器726检测图像722中的用户102的面部。所说明的面部跟踪器728使用面部检测器726的输出跟踪用户102的面部移动。所说明的面部跟踪器728还使用姿势面部模块732确定用户102是否已摆出他或她的面部姿势。所说明的眨眼检测器730使用面部跟踪器728的输出确定用户102是否已眨眼(即，眼睛睁开/闭上)，且使用此确定以用于眨眼触发器模块734。将姿势面部模块732输出和眨眼触发器模块734输出两者都提供到交互逻辑710。以下更详细地描述交互逻辑710。

所说明的处理器706还包含图像目标检测器736、图像跟踪器738和传感器跟踪器740。所说明的图像目标检测器736、图像跟踪器738和传感器跟踪器740处理图像724。举例来说，所说明的图像目标检测器736检测图像724中的目标，例如对象202。所说明的图像跟踪器738使用图像目标检测器736输出跟踪目标的移动。所说明的图像跟踪器738使用图像目标检测器736输出跟踪目标的移动。所说明的图像跟踪器738还使用姿势装置模块742确定用户装置702是否摆出姿势。

所说明的传感器跟踪器740跟踪用户装置702的移动。所说明的传感器跟踪器740任选地从惯性测量单元(IMU)704接收用于用户装置702的惯性信息，且确定用户装置702是否已移动。所说明的传感器跟踪器740将此确定提供到姿势装置模块742。替代地，传感器跟踪器740可实施用以确定用户装置702的位置的技术。此类技术可包含使用来自网络的数据，包含三角测量、Wi-Fi定位及其类似者。

将图像跟踪器738输出和姿势装置742输出两者都提供到交互逻辑710。将交互逻辑710输出提供到显现器712。可使用能够在图像722和图像724中产生场景的视觉元素的任何适合的技术实施所说明的显现器712。将显现器712输出提供到复合器714。

在一或多个实施方案中，用户装置702与用户装置104相同或类似。用户装置702中的相机可包含基于电荷耦合装置(CCD)的图像检测器、基于互补金属氧化物半导体(CMOS)的图像检测器，或其它适合的图像检测器。

在一或多个实施方案中，惯性测量单元(IMU)704检测用户装置702的移动。惯性测量单元(IMU)704可为能够测量以及报告用户装置702的速度、定向和重力的任何装置。举例来说，惯性测量单元(IMU)704可使用加速度计、陀螺仪及/或磁力计的组合。

在一或多个实施方案中，处理器706为通用微处理器、微控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、状态机、门控逻辑、离散硬件组件，或可执行信息的计算或其它操控的任何其它适合的实体。处理器706可用于处理信息。处理器706可由专用逻辑电路补充或并入在专用逻辑电路中。

在一或多个实施方案中，存储器708为随机存取存储器(RAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除PROM(EPROM)、寄存器、硬盘、可装卸式磁盘、CD-ROM、DVD或用于存储信息、计算机程序及/或待由处理器706执行的指令的任何其它合适的存储装置。存储器708可存储创建用于一或多个计算机程序的执行环境的代码，所述一或多个计算机程序用于实施本文中所描述的技术。

所说明的复合器714可使用能够将从显现器712获得的视觉元素组成单一图像的任何适合的技术来实施。在一或多个实施方案中，复合器714以数字方式将视觉元素组合成单一图像以用于显示在用户装置702的屏幕上。

所说明的图形处理单元(GPU)716可使用能够处理从处理器706和存储器708接收的信息以使得图像722和724可显示在用户装置702的屏幕上的任何适合的技术来实施。

在一或多个实施方案中，姿势面部模块732提供用户102的面部的三个自由度的平移以及用户102的面部的三个度的定向。

在一或多个实施方案中，眨眼触发器模块734可产生指示用户102的眼睛是睁开还是闭上的布尔(Boolean)开/关信号及/或眼睛睁/闭信号。这些信号可用于打开/关闭用户装置702的屏幕上的标签。

所说明的面部检测器726、面部跟踪器728和眨眼检测器730可使用任何适合的基于外观的面部辨识技术来实施。适合的基于外观的面部辨识技术包含直接相关技术、特征脸技术，或其类似者。所说明的面部检测器726和面部跟踪器728可在无传感器的情况下实施。

图8说明根据一或多个实施方案的交互逻辑710的高级框图。所说明的交互逻辑710从姿势面部模块732、眨眼触发器模块734、姿势装置模块742和其它输入模态802接收输入。所说明的交互逻辑710将输出提供到显现器712。在一或多个实施方案中，交互逻辑710解释用户102的面部的定向中的位置、用户102的面部的外观(例如，眨眼和笑)和用户装置702位置及定向的改变以在增强现实环境(例如，增强现实环境100和200)中提供动作。

在一或多个实施方案中，其它输入模态802通常包含话音、唇移动、眼睛移动、语音、手势、头部、面部和身体移动、键盘、数字化平板计算机等。其它输入模态802还可包含可从用户102的面部推断及/或可影响用户装置702与目标106之间的交互空间的信息。举例来说，其它输入模态802可从用户102的头部位置、用户102相对于用户装置702的近程等推断。其它输入模态802还对在面向场景侧的用户装置702后方的交互空间有影响。

交互逻辑710还包含定向及平移滤波器804、约束求解器806、时间一致性模块808、交互对象模块810、全局坐标系统模块812和空间交互模块814，其输出被提供到映射器816。

所说明的定向及平移滤波器804可用于(例如)向用户装置702及/或用户102提供三个自由度的平移。所说明的定向及平移滤波器804还可用于(例如)向用户装置702及/或用户102提供三个自由度的定向。

所说明的约束求解器806可用于更改图像722及/或724的实际大小及/或像素比。

所说明的时间一致性模块808可确保用于面向用户102的用户装置702的侧的时序与用于面向目标106的用户装置702的侧的时序一致。

在所说明的实施方案中，面部姿势模块732、眨眼触发器734和其它输入模态802经映射到交互对象模块810。交互对象可为由用户装置702跟踪的交互式虚拟和物理对象的重新表示。所说明的交互对象模块810提供被跟踪对象的基于物理的空间表示(存储和逻辑)，所述被跟踪对象贯穿增强现实系统700被说明。

在一或多个实施方案中，交互对象模块810经映射到全局坐标系统模块812。

所说明的空间交互模块814将交互对象固持在交互对象模块810中且使在交互对象模块810中的交互对象保持经更新，且将数据输出提供到允许可配置动作在显现系统712中可见的映射器816。数据输出可为交互对象810之间的近程。

所说明的映射器816可确定待在用户装置702的屏幕上显现什么及/或显示什么。另外，映射器816可确定声音是否待在用户装置702上播放。

实例增强现实方法

在一或多个实施方案中，其它输入模态802通常包含话音、唇移动、眼睛移动、语音、手势、头部、面部和身体移动、键盘、数字化平板计算机等。其它输入模态802还可包含可从用户102的面部推断及/或可影响用户装置702与目标106之间的交互空间的信息。举例来说，其它输入模态802可从用户102的头部位置、用户102相对于用户装置702的近程等推断。换句话说，其它输入模态802可对在面向场景侧的用户装置702后方的交互空间有影响。

所说明的空间交互模块814将交互对象固持在交互对象模块810中且使在交互对象模块810中的交互对象保持经更新，且将数据输出提供到允许可配置动作在显现系统712中可见的映射器(816)。数据输出可为交互对象810之间的近程。

所说明的映射器816合并来自在相同时间(即，同时地)连续地运行的面部跟踪器728和图像跟踪器738的数据，以使得面部姿势定向及平移(坐标)和装置定向及平移(坐标)合并在一起。映射器816可确定待在用户装置702的屏幕上显现什么及/或显示什么。另外，映射器816可确定声音是否待在用户装置702上播放。

图9为根据本文中所描述的技术的实施方案的关于增强现实环境700如何操作的方法的流程图。

在框902中，方法900检测及跟踪用户的面部相对于用户装置的位置及定向。在一个方面中，用户装置702从用户装置702的用户102方接收图像流。在一或多个实施方案中，面部检测器726检测用户102的面部相对于用户装置702的位置及定向。在一或多个实施方案中，面部跟踪器728跟踪用户102的面部相对于用户装置702的位置及定向。

在框904中，方法900检测及跟踪用户装置相对于场景中的目标的位置及定向。在一个方面中，用户装置702从来自目标106的图像流接收图像流。在一或多个实施方案中，图像目标检测器736检测用户装置104相对于目标106的位置及定向。在一或多个实施方案中，图像跟踪器738跟踪用户装置702相对于目标106的位置及定向。

在框906中，方法900将用户坐标系统与用户装置坐标系统组合成全局坐标系统。在一或多个实施方案中，交互逻辑710将坐标系统114与坐标系统116组合成坐标系统118。在一或多个实施方案中，交互逻辑710合并来自面部跟踪器728和图像跟踪器738的数据以使得姿势定向及平移坐标114与用户装置702定向及平移坐标116一起组合成坐标系统118。

在框908中，方法900使用用户的面部相对于用户装置的所检测到的位置及定向、用户的面部的所检测到的位置及定向和全局坐标系统连续地跟踪用户的面部。在一或多个实施方案中，面部跟踪器728使用用户102的面部相对于用户装置702的所检测到的位置及定向、用户102的面部的所检测到的位置及定向和坐标系统118连续地跟踪用户的面部。

本文中所描述的技术和相关图式的方面是针对技术的具体实施方案。可在不脱离本文中所描述的技术的范围的情况下设计替代性实施方案。另外，技术的熟知元件将不加以详细地描述或将被省去以免混淆相关细节。

尽管在此揭示内容中可能已连续地描述各个方法的步骤和决策，但可由单独元件共同或平行地、异步地或同步地、以管线化方式或以其它方式执行这些步骤和决策中的一些。除非明确地如此指示、另外从上下文清楚或固有地要求，否则不存在以与此描述列出步骤及决策的次序相同的次序执行所述步骤及决策的特定要求。然而，应注意，在选定的变体中，以上文所描述的特定次序执行所述步骤及决策。此外，在根据本文中所描述的技术的每一实施方案/变体中可能不要求每一所说明的步骤和决策，而未经具体地说明的一些步骤和决策在根据本文中所描述的技术的一些实施方案/变体中可为合意的或必要的。

所属领域的技术人员将理解，可使用多种不同科技及技术中的任一者来表示信息和信号。举例来说，可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可贯穿以上描述参考的数据、指令、命令、信息、信号、位、符号和芯片。

所属领域的技术人员将进一步了解，结合本文中所揭示的实施方案描述的各个说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为清晰地展示硬件与软件的此可互换性，上文已大体上就其功能性描述了各种说明性组件、块、模块、电路和步骤。此功能性被实施为硬件、软件还是硬件与软件的组合取决于施加于整个系统上特定应用和设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但此类实施决策不应被解释为引起偏离本文中所描述的本发明技术的范围。

结合本文中所揭示的实施方案描述的各种说明性逻辑块、模块和电路可用以下各项来实施或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文中所描述的功能的其任何组合。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规的处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器与DSP核心的联合，或任何其它此类配置。

结合本文中所揭示的方面描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中，或在两者的组合中实施。软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸式磁盘、CD-ROM，或此项技术中已知的任何其它形式的存储媒体中。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息以及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体。处理器和存储媒体可驻留在ASIC中。ASIC可驻留在接入终端中。替代地，处理器和存储媒体可作为离散组件驻留在接入终端中。

提供对所揭示的实施方案的先前描述以使得所属领域的技术人员能够制作或使用本文中所描述的技术。所属领域的技术人员将易于了解对这些实施方案的各种修改，且本文中界定的一般原理可在不脱离本文中所描述的技术的精神或范围的情况下应用于其它实施方案。因此，本文中所描述的技术的方面并不意图限于本文中所展示的实施方案，而应给予与本文中所揭示的原理和新颖特征相一致的最广范围。

Claims

1.一种用于执行用户与用户装置的空间交互的设备，其包括：

所述用户装置的至少一个处理器，其经配置以：

使图像跟踪器在第一坐标系统中检测及跟踪所述用户的面部相对于所述用户装置的位置及定向；

使传感器跟踪器在第二坐标系统中检测及跟踪所述用户装置相对于目标的位置及定向；

将所述第一坐标系统与所述第二坐标系统映射到全局坐标系统；

基于所述用户的所述面部的所检测到的位置及定向、所述用户装置的所检测到的位置及定向和所述全局坐标系统，连续地跟踪所述用户的所述面部；

接收来自于所述用户的包括至少所述用户的凝视的输入，其中至少部分地基于所述用户的所述面部被连续地跟踪而确定所述用户的所述凝视；及

基于来自于所述用户的所述输入且基于所述用户装置的所述位置或定向操作显示于所述用户装置的用户界面上的所述目标的表示。

2.根据权利要求1所述的设备，其中所述图像跟踪器经配置以：

检测所述用户的所述面部；

跟踪所述用户的所述面部的移动；或

确定所述用户是否已眨眼且基于所述用户已眨眼触发所述用户装置。

3.根据权利要求1所述的设备，其中所述传感器跟踪器经配置以：

检测所述用户装置的移动；

跟踪所述用户装置的移动；

检测所述目标；或

连续地跟踪所述目标的移动。

4.根据权利要求1所述的设备，其中所述至少一个处理器进一步经配置以解释在所述用户装置前方的三个自由度和在所述用户装置后方的三个自由度。

5.根据权利要求1所述的设备，其中所述第一坐标系统为在所述用户装置前方的面部到装置坐标系统。

6.根据权利要求1所述的设备，其中所述第二坐标系统为在所述用户装置后方的装置到目标坐标系统。

7.根据权利要求1所述的设备，

其中所述全局坐标系统包括现实世界坐标系统。

8.根据权利要求1所述的设备，其中所述图像跟踪器包括耦合于所述至少一个处理器的硬件组件，由所述至少一个处理器执行的软件模块，或者软件与硬件的组合，以及其中所述传感器跟踪器包括耦合于所述至少一个处理器的硬件组件，由所述至少一个处理器执行的软件模块，或者软件与硬件的组合。

9.根据权利要求1所述的设备，其中所述至少一个处理器经配置以进行操作包括所述至少一个处理器经配置以基于所述用户的凝视显示放大级别增加的所述目标的所述表示。

10.根据权利要求1所述的设备，其中所述至少一个处理器经配置以进行操作包括所述至少一个处理器经配置以显示所述目标的所述表示的X射线视图。

11.根据权利要求1所述的设备，其中所述至少一个处理器经配置以进行操作包括所述至少一个处理器经配置以基于所述用户的凝视的方向改变所述目标的所述表示的细节水平。

12.根据权利要求9所述的设备，其中所述目标的所述表示的放大级别基于所述用户的凝视的方向。

13.一种用于执行用户与用户装置的空间交互的方法，其包括：

在第一坐标系统中检测及跟踪所述用户的面部相对于所述用户装置的位置及定向；

在第二坐标系统中检测及跟踪所述用户装置相对于目标的位置及定向；

基于所述用户的所检测到的面部、所述用户装置的所检测到的位置和所述全局坐标系统，连续地跟踪所述用户的所述面部；

14.根据权利要求13所述的方法，其进一步包括以下各者中的至少一者：

检测所述用户的所述面部；

跟踪所述用户的所述面部的移动；或

15.根据权利要求13所述的方法，其进一步包括以下各者中的至少一者：

检测所述用户装置的移动；

跟踪所述用户装置的移动；

检测所述目标；或

连续地跟踪所述目标的移动。

16.根据权利要求13所述的方法，其进一步包括解释在所述用户装置前方的三个自由度和在所述用户装置后方的三个自由度。

17.根据权利要求13所述的方法，其中所述第一坐标系统为在所述用户装置前方的面部到装置坐标系统。

18.根据权利要求13所述的方法，其中所述第二坐标系统为在所述用户装置后方的装置到目标坐标系统。

19.根据权利要求13所述的方法，

其中所述全局坐标系统包括真实世界坐标系统。

20.一种用于执行用户与用户装置的空间交互的设备，其包括：

用于在第一坐标系统中检测及跟踪所述用户的面部相对于所述用户装置的位置及定向的装置；

用于在第二坐标系统中检测及跟踪所述用户装置相对于目标的位置及定向的装置；

用于将所述第一坐标系统与所述第二坐标系统映射到全局坐标系统的装置；

用于基于所述用户的所检测到的面部、所述用户装置的所检测到的位置和所述全局坐标系统，连续地跟踪所述用户的所述面部的装置；

用于接收来自于所述用户的包括至少所述用户的凝视的输入的装置，其中至少部分地基于所述用户的所述面部被连续地跟踪而确定所述用户的所述凝视；及

用于基于来自于所述用户的所述输入且基于所述用户装置的所述位置或定向操作显示于所述用户装置的用户界面上的所述目标的表示的装置。

21.根据权利要求20所述的设备，其进一步包括以下各者中的至少一者：

用于检测所述用户的所述面部的装置；

用于跟踪所述用户的所述面部的移动的装置；或

用于确定所述用户是否已眨眼且基于所述用户已眨眼触发所述用户装置的装置。

22.根据权利要求20所述的设备，其进一步包括以下各者中的至少一者：

用于检测所述用户装置的移动的装置；

用于跟踪所述用户装置的移动的装置；

用于检测所述目标的装置；或

用于连续地跟踪所述目标的移动的装置。

23.根据权利要求20所述的设备，其进一步包括用于解释在所述用户装置前方的三个自由度和在所述用户装置后方的三个自由度的装置。

24.根据权利要求20所述的设备，其中所述第一坐标系统为在所述用户装置前方的面部到装置坐标系统。

25.根据权利要求20所述的设备，其中所述第二坐标系统为在所述用户装置后方的装置到目标坐标系统。

26.根据权利要求20所述的设备，

其中所述全局坐标系统包括现实世界坐标系统。

27.一种非暂时性计算机可读介质，其包含一个或多个指令，所述指令包括：

用以指导用户装置在第一坐标系统中检测及跟踪用户的面部相对于所述用户装置的位置及定向的至少一个指令；

用以指导所述用户装置在第二坐标系统中检测及跟踪所述用户装置相对于目标的位置及定向的至少一个指令；

用以指导所述用户装置将所述第一坐标系统与所述第二坐标系统映射到全局坐标系统的至少一个指令；

用以指导所述用户装置基于所述用户的所检测到的面部、所述用户装置的所检测到的位置和所述全局坐标系统，连续地跟踪所述用户的所述面部的至少一个指令；

用以指导所述用户装置接收来自于所述用户的包括至少所述用户的凝视的输入的至少一个指令，其中至少部分地基于所述用户的所述面部被连续地跟踪而确定所述用户的所述凝视；及

用以指导所述用户装置基于来自于所述用户的所述输入且基于所述用户装置的所述位置或定向操作显示于所述用户装置的用户界面上的所述目标的表示的至少一个指令。

28.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括：

用以指导所述用户装置检测所述用户的所述面部的至少一个指令；

用以指导所述用户装置跟踪所述用户的所述面部的移动的至少一个指令；或

用以指导所述用户装置确定所述用户是否已眨眼且基于所述用户已眨眼触发所述用户装置的至少一个指令。

29.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括：

用以指导所述用户装置检测所述用户装置的移动的至少一个指令；

用以指导所述用户装置跟踪所述用户装置的移动的至少一个指令；

用以指导所述用户装置检测所述目标的至少一个指令；或

用以指导所述用户装置连续地跟踪所述目标的移动的至少一个指令。

30.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括用以指导所述用户装置解释在所述用户装置前方的三个自由度和在所述用户装置后方的三个自由度的至少一个指令。

31.根据权利要求27所述的非暂时性计算机可读介质，其中所述第一坐标系统为在所述用户装置前方的面部到装置坐标系统，以及其中所述第二坐标系统为在所述用户装置后方的装置到目标坐标系统。

32.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括用以指导所述用户装置解释在所述用户装置前方的三个自由度的至少一个指令。

33.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括用以指导所述用户装置解释在所述用户装置后方的三个自由度的至少一个指令。

34.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括用以指导所述用户装置确定所述用户已相对于所述用户装置移动的至少一个指令。

35.根据权利要求27所述的非暂时性计算机可读介质，其进一步包括用以指导所述用户装置确定所述用户装置已相对于所述目标移动的至少一个指令。

36.根据权利要求27所述的非暂时性计算机可读介质，

其中所述全局坐标系统包括真实世界坐标系统。