CN115023738A

CN115023738A - 中性化身

Info

Publication number: CN115023738A
Application number: CN202180011093.6A
Authority: CN
Inventors: K·施托尔岑贝格; L·帕斯米尼奥; S·奈尔斯; I·曼科夫斯基; P·金; C·李
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-01-27
Filing date: 2021-01-25
Publication date: 2022-09-06
Also published as: EP4097685A1; US20230298287A1; EP4097685A4; US11645823B2; JP2023511107A; US11380072B2; US20210233318A1; WO2021154646A1; US20220405995A1

Abstract

中性化身对于对应用户的物理特性是中性的，诸如体重、种族、性别、或甚至身份。因此，中性化身可能希望在用户希望参考上述特性保持隐私的各种共同在场环境中使用。中性化身可以被配置为实时传达对应用户的动作和行为而不使用用户动作和行为的原样形式。

Description

中性化身

技术领域

本公开涉及虚拟现实和增强现实，包括混合现实，成像和可视化系统，并且更特别地，涉及对虚拟角色(诸如化身)进行动画处理。

背景技术

现代计算和显示技术已经促进了用于所谓的“虚拟现实”、“增强现实”和“混合现实”体验的系统的开发，其中，以它们似乎是真实的或可能被感知为真实的方式向用户呈现数字再现的图像。虚拟现实(VR)场景通常涉及计算机生成的虚拟图像信息的呈现，而对其他实际现实视觉输入不透明。增强现实(AR)场景通常涉及虚拟图像信息的呈现，作为对用户周围现实世界的可视化的增强。混合现实(MR)是其中物理和虚拟对象可共存并实时交互的一种类型的增强现实。本文所公开的系统和方法解决了与VR、AR和MR技术有关的各种挑战。

发明内容

本说明书中描述的主题的一种或多种实施方式的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，其他特征、方面和优点将变得显而易见。该概述或以下详细描述均不旨在定义或限制本发明主题的范围。

本公开的实施例涉及用于促进虚拟或增强现实交互的设备、系统和方法。作为一个示例实施例，一个或多个用户输入设备可用于在VR、AR或MR会话中进行交互。这样的会话可包括三维空间中的虚拟元素或对象。除了其他动作，一个或多个用户输入设备还可用于在AR或MR会话中对虚拟对象、真实对象或空白空间进行指向、选择、注释和绘图。为了便于阅读和理解，本文讨论的某些系统和方法是指增强现实环境或其他“增强现实”或“AR”组件。这些对“增强现实”或“AR”的描述应解释为包括“混合现实”、“虚拟现实”、“VR”、“MR”等，就好像还特别提到了这些“现实环境”中的每一个一样。

如本文所公开的，“中性(neutral)化身”是在上面列出的特性以及可以基于化身的物理特性的组合确定的其他特性的中性化身，诸如种族、性别、或甚至用户的身份。因此，这些中性化身可能希望在用户希望参考上述特性保持隐私的各种共存环境中使用。中性化身可以被配置为实时传达对应用户的动作和行为而不使用用户动作和行为的原样(literal)形式。

附图说明

本说明书中描述的主题的一种或多种实施方式的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，其他特征、方面和优点将变得显而易见。

图1描绘了具有某些虚拟现实对象和由人观察到的某些物理对象的混合现实场景的图示。

图2示出了可被配置为提供AR/VR/MR场景的示例AR设备。

图3示意性地示出了AR设备的示例组件。

图4是AR设备的另一示例的框图，该AR设备可包括混合现实环境中的化身处理和渲染系统。

图5A示出了示例化身处理和渲染系统。

图5B是示出与中性化身的实现相关联的组件和信号的示例的框图。

图6A、6B、6C是示例中性化身的图示，具有指示来自一个或多个用户传感器的非原样输入信号的不同视觉特征。

图7A、7B和7C示出了另一示例中性化身，其中基于各种输入信号中的一个或多个输入信号来调整视觉特征。

图8A和8B示出了另一示例中性化身，其中可以基于一个或多个输入信号来修改视觉特征。

图9A、9B、9C和9D示出了另一示例中性化身，其中视觉特征包括分别响应于不同输入信号的部分(例如，环形和圆形)。

图10A至10F示出了六个示例中性化身，其中视觉特征的调整可以绑定到一个或多个输入信号中的各种输入信号。

图11A至11I示出了具有可以基于一个或多个输入信号动态更新的各种形式的视觉特征的另一示例中性化身。

图12A至12B示出了另一示例中性化身，其中对中性化身的部分的变形(morph)、运动和/或其他视觉变化可以被映射到一个或多个输入信号。

在所有附图中，附图标记可以被重复使用以指示引用元件之间的对应关系。提供附图是为了说明本文中描述的示例实施例，而无意于限制本公开的范围。

具体实施方式

总览

虚拟化身可以是AR环境中真实或虚构的人的虚拟表示。例如，在两个或两个以上AR用户彼此交互的远程呈现会话期间，观看者可以在观看者的环境中感知另一个用户的化身，并且从而在观看者的环境中创建其他用户存在的有形感觉。化身还可以为用户提供一种在共享虚拟环境中彼此交互和一起做事的方式。例如，参加在线课程的学生可以在虚拟教室中感知其他学生或老师的化身并与之交互。作为另一示例，在AR环境中玩游戏的用户可以查看游戏中其他玩家的化身并与之交互。

化身可以在人类用户的外观和角色之后被建模，诸如镜像(mirror)用户的身体、头部、眼睛、嘴唇等的运动，以使化身的运动尽可能逼真。因此，这些“原样化身”可以将诸如体型、性别、身高、体重、头发颜色、头发长度、发型、眼睛颜色、肤色等的特性传达给其他用户。此外，这样的原样化身可以直接将用户动作与化身动画或声音进行映射。例如，当用户说话时，化身可以移动它的嘴。虽然在一些情况下可能期望代表用户原样外观和动作的化身，但是在其他环境中期望化身中性，诸如保留用户关于这些原样特性的隐私。

如本文所公开的，“中性化身”是在上面列出的特性以及可以基于化身的物理特性的组合所确定的其他特性的中性化身，诸如种族、性别、或甚至用户的身份。因此，这些中性化身可能希望在用户希望参考上述特性保持隐私的各种共存环境中使用。

在一些实施例中，中性化身可以被配置为实时传达对应用户的动作和行为，而不使用用户动作和行为的原样形式。这些行为可以包括，例如：

·眼睛注视(例如，某人正在看什么方向)

·语音活动(例如，谁在说话)

·头部位置(例如，该人的关注指向哪里)

·手部方向(例如，某人在谈话期间指向、保持或讨论的活动)。

有利地，可以以向其他人传达交流、行为和/或社交提示的方式对中性化身进行动画处理。例如，用户的动作(例如，注视方向的变化、头部运动、说话等)可以被映射到中性化身的视觉提示，这些视觉提示字面上并不代表用户动作。中性化身可以使用几何、形式和形状来表示用户行为，而不是原样的人类特征。例如，输入信号(诸如来自由用户穿戴的AR设备的传感器)可以映射到抽象的几何形式，以实时表示用户对非特定身体部位的行为。由于它们的抽象和极简主义，这些几何形式避免暗示特定的性别、种族身份，并且可以容易地在不同的用户之间共享。

中性化身使用的一些附加优点可包括：

·更容易和更快速的设置。例如，与用户经历选择可能以不同方式显示的化身的无数特性的过程不同，中性化身具有非常有限的自定义选项。在一些实施例中，化身被自动分配给用户，完全消除了用户选择自定义化身特征的需求。

·减少化身渲染中使用的计算机资源(例如，处理器周期、存储等)。由于专注于以相同的方式为所有用户传达某些行为、社交和交流提示，因此不需要特定于特定用户的复杂化身图形。

·可能更容易在使用单个AR设备的多个用户之间共享，因为中性化身不表示对应用户的特定特性(例如，特定身份、种族、性别等)。

·允许用户不经由他们的化身公开个人信息，诸如例如可能期望用于业务协作。

·允许隐藏用户的视觉形式，同时仍然允许在AR环境中进行协作和运动。用户不需要为他们的化身做出可能脱颖而出、分散关注或发送意外消息的审美选择，诸如在企业上下文中。

·表示实时用户行为和动作。

AR设备的3D显示的示例

AR设备(在本文中也称为增强现实(AR)系统)可被配置为向用户呈现2D或3D虚拟图像。图像可以是静止图像、视频的帧、或视频、或组合等。AR设备的至少一部分可以被实现在可穿戴设备上，该可穿戴设备可以单独或组合地为用户交互来呈现VR、AR或MR环境。可穿戴设备可以互换地用作AR设备。此外，出于本公开的目的，术语“AR”与术语“MR”和“VR”可互换使用。

图1描绘了具有某些虚拟现实对象和由人观察的某些物理对象的混合现实场景的图示。在图1中，描绘了MR场景100，其中，MR技术的用户看到以背景中以人、树、建筑为特征的现实世界公园般的设置110，以及混凝土平台120。除了这些项目之外，MR技术的用户还感知到他“看到”了站在现实世界平台120上的机器人雕像130，以及飞行的卡通状的化身角色140，似乎是大黄蜂的化身，即使这些元素在现实世界中不存在。

为了使3D显示器产生真实的深度感，更具体地说，产生表面深度的模拟感，可能希望显示器的视野中的每个点都生成与其虚拟深度对应的适应性响应。如由会聚和立体视觉的双眼深度提示所确定的，如果对显示点的适应响应不对应于该点的虚拟深度，则人眼可能经历适应冲突，以导致不稳定的成像、有害的眼睛疲劳、头痛，并且在缺少调节信息的情况下，几乎完全缺少表面深度。

可以通过具有对应于多个深度平面的图像被提供给观看者的显示器的显示系统提供AR体验。对于每个深度平面，图像可能是不同的(例如，提供场景或对象的稍有不同的呈现)，并且可能会被观看者的眼睛分别聚焦，从而基于使位于不同深度平面上的场景的不同图像特征聚焦所需的眼睛适应，或基于观察在不同深度平面上失焦的不同图像特征，为用户提供深度提示。如本文其他地方所讨论的，这样的深度提示提供了对深度的可信感知。

图2示出了可被配置为提供AR场景的示例AR设备200。AR设备200也可以称为AR系统200。AR设备200包括显示器220以及支持显示器220的功能的各种机械和电子模块和系统。显示器220可以耦合到可由用户、穿戴者或观看者210穿戴的框架230。显示器220可以被定位在用户210的眼睛的前面。显示器220可以向用户呈现AR内容。显示器220可以包括穿戴在用户头部上的头戴式显示器(HMD)。

在一些实施例中，扬声器240耦合到框架230并且邻近用户的耳道定位(在一些实施例中，未示出的另一个扬声器可以邻近用户的另一耳道定位，以提供立体声/可塑造声音控制)。显示器220可以包括用于检测来自环境的音频流并捕获环境声音的音频传感器(例如，麦克风)232。在一些实施例中，未示出的一个或多个其他音频传感器被定位为提供立体声接收。立体声接收可以用来确定声源的位置。AR设备200可以对音频流执行声音或语音识别。

AR设备200可以包括面向外的成像系统，该成像系统观察用户周围的环境中的世界。AR设备200还可以包括可以跟踪用户的眼睛运动的面向内的成像系统。面向内的成像系统可以跟踪一只眼睛的移动或两只眼睛的移动。面向内的成像系统可以附接到框架230，并且可以与处理模块260或270电连通，处理模块260或270可以处理由面向内的成像系统获取的图像信息以确定例如用户210的眼睛的瞳孔直径或取向、眼睛移动或眼睛姿势。面向内的成像系统可以包括一个或多个相机。例如，至少一个相机可以用于对每只眼睛成像。相机获取的图像可以用于分别确定每只眼睛的瞳孔大小或眼睛姿势，从而允许将图像信息呈现给每只眼睛以动态地适应该只眼睛。

作为示例，AR设备200可以使用面向外的成像系统或面向内的成像系统来获取用户的姿势的图像。图像可以是静止图像、视频的帧、或视频。

显示器220可以例如通过有线引线或无线连接可操作地耦合250到本地数据处理模块260，该本地数据处理模块260可以以各种配置安装，例如，固定地附接到框架230、固定地附接到用户穿戴的头盔或帽子上、嵌入耳机中、或以其他方式可拆卸地附接到用户210(例如，以背包式配置、皮带耦合式配置)。

本地处理和数据模块260可以包括硬件处理器以及数字存储器(例如，非易失性存储器(例如，闪存))，两者均可以用于协助处理、缓存和存储数据。数据可以包括：a)从传感器(其可以例如可操作地耦合到框架230或以其他方式附接到用户210)捕获的数据，例如图像捕获设备(例如，面向内的成像系统或面向外的成像系统中的相机)、音频传感器(例如，麦克风)、惯性测量单元(IMU)、加速度计、指南针、全球定位系统(GPS)单元、无线电设备或陀螺仪；或b)使用远程处理模块270或远程数据存储库280获取或处理的数据，可能在这样的处理或检索之后传递给显示器220。本地处理和数据模块260可以通过通信链路262或264(例如，经由有线或无线通信链路)可操作地耦合到远程处理模块270或远程数据存储库280，使得这些远程模块可用作本地处理和数据模块260的资源。另外，远程处理模块280和远程数据存储库280可以操作地耦合到彼此。

在一些实施例中，远程处理模块270可以包括被配置为分析和处理数据或图像信息的一个或多个处理器。在一些实施例中，远程数据存储库280可以是数字数据存储设施，其可以通过互联网或“云”资源配置中的其他网络配置来使用。在一些实施例中，所有数据被存储并且所有计算在本地处理和数据模块中执行，这允许来自远程模块的完全自主使用。

AR设备的示例组件

图3示意性地示出了AR设备的示例组件。图3示出了可以包括显示器220和框架230的AR设备200。分解图202示意性地示出了AR设备200的各种组件。在某些实施方式中，图3所示的组件中的一个或多个可以是显示器220的一部分。单独或组合的各种组件可以收集与AR设备200的用户或用户的环境相关联的各种数据(例如，音频或视觉数据)。在一些实施例中，AR设备200可以具有附加的或更少的组件，这取决于使用AR设备的应用。尽管如此，图3提供了各种组件中的一些以及可以通过AR设备收集、分析和存储的数据的类型的基本思想。

在图3的实施例中，显示器220包括可安装到用户头部或壳体或框架230的显示透镜226。显示透镜226可以包括一个或多个透明镜，该透明镜由壳体230定位在用户的眼睛302、304的前面，并且可被配置为将投射的光338弹射到眼睛302、304中并促进光束整形，同时还允许透射至少一些来自本地环境的光。投射的光束338的波前(wavefront)可以被弯曲或聚焦以与投射的光的期望焦距一致。如图所示，两个广视野机器视觉相机316(也称为世界相机)可以耦合到壳体230以对用户周围的环境成像。这些相机316可以是双重捕获可见光/不可见(例如，红外)光相机。相机316可以是面向外的成像系统的一部分。由世界相机316获取的图像可以由姿势处理器336处理。例如，姿势处理器336可以实现一个或多个对象识别器以标识用户或在用户的环境中的另一个人的姿势或标识在用户的环境中的物理对象。

继续参考图3，示出了一对具有显示镜和光学器件的扫描激光成形波前(例如，用于深度)光投射仪模块，其被配置为将光338投射到眼睛302、304中。所描绘的视图还示出了与红外光(例如，发光二极管“LED”)配对的两个微型红外相机324，其被配置为能够跟踪用户的眼睛302、304以支持渲染和用户输入。AR设备200还可以以传感器组件339为特征，该传感器组件339可包括X、Y和Z轴加速度计能力以及磁指南针和X、Y和Z轴陀螺仪能力，优选地以相对高的频率提供数据，诸如200Hz。姿势处理器336可包括ASIC(专用集成电路)、FPGA(现场可编程门阵列)或ARM处理器(高级简化指令集机器)，其可被配置为根据从捕获设备316输出的宽视野图像信息来计算实时或近实时用户头部姿势。在一些实施例中，从可穿戴耳机中的一个或多个传感器(例如，6Dof传感器)感测的头部位置信息用于确定化身特性和运动。例如，用户的头部位置可以驱动化身头部位置，为化身躯干提供推理位置以及为化身在空间周围的运动提供推理位置。

AR设备还可以包括一个或多个深度传感器234。深度传感器234可被配置为测量环境中的对象到可穿戴设备之间的距离。深度传感器234可包括激光扫描仪(例如，LIDAR)、超声深度传感器、或深度感测相机。在某些实施方式中，在相机316具有深度感测能力的情况下，相机316也可以被认为是深度传感器234。

还示出了处理器332，其被配置为执行数字或模拟处理以根据来自传感器组件339的陀螺仪、指南针或加速度计数据导出姿势。处理器332可以是图2中所示的本地处理和数据模块260的一部分。如图3所示的AR设备200还可以包括诸如GPS 337(全球定位系统)的定位系统，以辅助姿势和定位分析。另外，GPS可以进一步提供关于用户的环境的基于远程的(例如，基于云的)信息。此信息可用于识别用户的环境中的对象或信息。

AR设备可以组合由GPS 337和远程计算系统(诸如，例如，远程处理模块270、另一个用户的AR设备等)获取的数据，该数据可以提供关于用户的环境的更多信息。作为一个示例，AR设备可以基于GPS数据确定用户的位置，并检索包括与用户的位置相关联的虚拟对象的世界地图(例如，通过与远程处理模块270通信)。作为另一示例，AR设备200可以使用世界相机316来监测环境。基于由世界相机316获取的图像，AR设备200可以检测环境中的对象(例如，通过使用一个或多个对象识别器)。

AR设备200还可包括渲染引擎334，该渲染引擎334可被配置为提供用户本地的渲染信息，以促进扫描仪的操作和成像到用户的眼睛中，以供用户观看世界。渲染引擎334可以由硬件处理器(例如，中央处理单元或图形处理单元)实现。在一些实施例中，渲染引擎是本地处理和数据模块260的一部分。渲染引擎334可以可通信地(例如，经由有线或无线链路)耦合到AR设备200的其他组件。例如，渲染引擎334可以经由通信链路274耦合到眼睛相机324，并且可以经由通信链路272耦合到投射子系统318(其可以以类似于视网膜扫描显示器的方式经由扫描的激光布置将光投射到用户的眼睛302、304中)。渲染引擎334还可以分别经由链路276和294与其他处理单元通信，例如，传感器姿势处理器332和图像姿势处理器336。

相机324(例如，微型红外相机)可以用来跟踪眼睛的姿势以支持渲染和用户输入。一些示例眼睛姿势可以包括用户正在看的地方、或他或她正聚焦的深度(这可以通过眼睛辐辏(vergence)来估计)。GPS 337、陀螺仪、指南针和加速度计339可用于提供粗略或快速的姿势估计。相机316中的一个或多个可以获取图像和姿势，这些图像和姿势与来自关联的云计算资源的数据一起可以用于映射本地环境并与其他用户共享用户视图。

图3所示的示例组件仅用于说明目的。为了便于说明和描述，一起显示了多个传感器和其他功能模块。一些实施例可以仅包括这些传感器或模块中的一个或子集。此外，这些组件的位置不限于图3所描绘的位置。某些组件可安装到其他组件或容纳在其他组件中，例如，皮带安装组件、手持组件或头盔组件。作为一个示例，图像姿势处理器336、传感器姿势处理器332和渲染引擎334可以被放置在皮带包中，并且被配置为经由无线通信(例如，超宽带、Wi-Fi、蓝牙等)或经由有线通信与AR设备的其他组件通信。所描绘的壳体230优选地是用户可头戴的和可穿戴的。但是，AR设备200的一些组件可能穿戴到用户的身体的其他部分。例如，扬声器240可以被插入用户的耳朵中以向用户提供声音。

关于光338到用户的眼睛302、304中的投射，在一些实施例中，相机324可以用于测量用户的眼睛的中心在几何上被趋向(verge)的位置，这通常与眼睛的焦点位置或“焦深”一致。眼睛趋向的所有点的三维表面可以称为“双眼单视界(horopter)”。焦距可以具有有限量的深度，或者可以无限变化。从辐辏距离投射的光似乎聚焦到了受试者眼睛302、304，而在辐辏距离之前或之后的光却变得模糊了。在2016年3月16日提交的题为“Methods andsystems for diagnosing and treating health ailments(用于诊断和治疗健康疾病的方法和系统)”的美国专利公开号2016/0270656(其全部内容通过引用并入本文并且用于所有目的)中也描述了本公开的可穿戴设备和其他显示系统的示例。

人的视觉系统是复杂的，并且提供对深度的真实感是具有挑战性的。由于组合了辐辏(vergence)和适应，对象的观看者可以将对象感知为三维。两只眼睛相对于彼此的辐辏运动(即，瞳孔相向或远离彼此的滚动移动以会聚眼睛的视线以固定在对象上)与眼睛晶状体的聚焦(或“适应”)紧密相关联。在正常情况下，改变眼睛的晶状体的焦点或适应眼睛，以将焦点从一个对象改变到不同距离处的另一对象将根据被称为“适应-辐辏反射”的关系而自动导致与同一距离的辐辏的匹配变化。同样，在正常情况下，辐辏的变化将触发适应的匹配变化。在适应和辐辏之间提供更好匹配的显示系统可以形成更逼真和舒适的三维图像模拟。

此外，人眼可以正确地分辨出光束直径小于约0.7毫米的空间相干光，而无论眼睛聚焦在何处。因此，为了产生适当的焦深的错觉，可以用相机324跟踪眼睛的辐辏，并且可以利用渲染引擎334和投射子系统318来将所有对象渲染聚焦在双眼单视界上或附近，以及将所有其他对象以不同程度的失焦(例如，使用故意创建的模糊)。优选地，系统220以大约每秒60帧或更高的帧速率向用户渲染。如上所述，优选地，相机324可以用于眼睛跟踪，并且软件可被配置为不仅拾取辐辏几何形状，而且拾取焦点位置提示以用作用户输入。优选地，这种显示系统配置有适合白天或晚上使用的亮度和对比度。

在一些实施例中，显示系统优选地具有小于约20毫秒的视觉对象对准延迟，小于约0.1度的角度对准和约1弧分的分辨率，这不受理论限制地被认为大约是人眼的极限。显示系统220可以与定位系统集成在一起，该定位系统可以涉及GPS元件、光学跟踪、指南针、加速度计或其他数据源，以帮助确定位置和姿势；定位信息可用于促进用户观看相关世界时的准确渲染(例如，此类信息将有助于眼镜了解它们相对于现实世界的位置)。

在一些实施例中，AR设备200被配置为基于用户的眼睛的适应来显示一个或多个虚拟图像。在一些实施例中，不同于迫使用户聚焦在图像被投射的地方的现有3D显示方法，AR设备被配置为自动变化投射的虚拟内容的焦点，以允许更舒适地观看呈现给用户的一个或多个图像。例如，如果用户的眼睛当前焦点为1m，则可以投射图像以使其与用户的焦点一致。如果用户将焦点移至3m，则投射图像以使其与新焦点一致。因此，一些实施例的AR设备200不是迫使用户达到预定的焦点，而是允许用户的眼睛以更自然的方式起作用。

这样的AR设备200可以消除或减少通常关于虚拟现实设备观察到的眼睛疲劳、头痛和其他生理症状的发生。为了实现这一点，AR设备200的各种实施例被配置为通过一个或多个可变聚焦元件(VFE)以变化的焦距投射虚拟图像。在一个或多个实施例中，可以通过多平面聚焦系统来实现3D感知，该多平面聚焦系统在远离用户的固定焦平面上投射图像。其他实施例采用可变平面焦点，其中，焦平面在z方向上前后移动，以与用户的当前焦点状态一致。

在多平面聚焦系统和可变平面聚焦系统中，AR设备200都可以使用眼睛跟踪来确定用户的眼睛的辐辏，确定用户的当前聚焦以及以确定的聚焦投射虚拟图像。在其他实施例中，AR设备200包括光调制器，该光调制器通过光纤扫描仪或其他光产生源将可变焦点的光束以光栅图案可变地投射到整个视网膜上。因此，如在美国专利公开号2016/0270656中进一步描述的(其全部内容通过引用并入本文)，AR设备200的显示器以变化的焦距投射图像的能力不仅使用户轻松适应以观看3D对象，而且还可以用于补偿用户眼部异常。在一些其他实施例中，空间光调制器可以通过各种光学组件将图像投射到用户。例如，如下文进一步所述，空间光调制器可将图像投射到一个或多个波导上，波导然后将图像发送给用户。

混合现实中的化身渲染示例

AR设备可以采用各种与映射有关的技术，以便在渲染的光场中实现高景深。在映射虚拟世界时，了解现实世界中的所有特征和点以相对于现实世界准确地描绘虚拟对象是有利的。为此目的，可以通过包括传达关于现实世界的各种点和特征的信息的新图片，从AR设备的用户捕获的FOV图像被添加到世界模型。例如，AR设备可以收集一组地图点(诸如2D点或3D点)并找到新的地图点以渲染世界模型的更准确版本。可以将第一用户的世界模型(例如，通过诸如云网络之类的网络)传达给第二用户，以便第二用户可以体验第一用户周围的世界。

图4是AR设备的另一示例的框图，该AR设备可包括增强现实环境中的化身处理和渲染系统690。在该示例中，AR设备600可以包括地图620，其可以包括地图数据库中的数据的至少一部分。地图可以部分本地驻留在AR设备上，并且可以部分驻留在可由有线或无线网络(例如，在云系统中)可访问的联网存储位置处。姿势处理610可以在可穿戴计算架构(例如，处理模块260或控制器460)上执行，并且利用来自地图620的数据来确定可穿戴计算硬件或用户的位置和取向。当用户体验系统并在世界范围内操作时，可以根据操作飞行中收集的数据计算姿势数据。数据可以包括图像、来自传感器(例如，惯性测量单元，其通常包括加速度计和陀螺仪组件)的数据以及与真实或虚拟环境中的对象有关的表面信息。

稀疏点表示可以是同时定位和地图构建(例如，SLAM或vSLAM，是指其中输入仅是图像/视觉的配置)过程的输出。系统可以被配置为不仅找出各种部件在世界上何处，而且世界由什么组成。姿势可以是实现许多目标的构建块，包括填充地图和使用地图中的数据。

在一个实施例中，稀疏点位置本身可能并不完全足够，并且可能需要更多信息来产生多焦点AR、VR或MR体验。通常涉及深度图信息的密集表示可以被用来至少部分地填充该空隙。可以根据称为立体声(Stereo)640的过程来计算这样的信息，其中，使用诸如三角测量或飞行时间感测(time-of-flight sensing)之类的技术来确定深度信息。图像信息和有源(active)图案(例如，使用有源投影仪创建的红外图案)、从图像相机获取的图像、或手势/图腾650可以用作立体声过程640的输入。大量的深度图信息可以融合在一起，并且这样的一些可以利用表面表示概述。例如，数学上可定义的表面可以是对其他处理设备(例如，游戏引擎)是有效(例如，相对于大的点云而言)和可消化的输入。因此，立体声过程(例如，深度图)640的输出可以在融合过程630中被组合。姿势610也可以是该融合过程630的输入，并且融合630的输出成为填充该地图过程620的输入。例如，子表面可以在地形图绘制中相互连接，以形成更大的表面，并且该地图成为点和表面的大型混合体。

为了解决混合现实过程660中的各个方面，可以利用各种输入。例如，在图4中所描绘的实施例中，可以输入游戏参数来确定系统的用户正在与各个位置处的一个或多个怪物、在各个位置处的墙壁或其它物体等玩怪物战斗游戏，怪物在各种条件下死亡或逃跑(诸如，如果用户射击了怪物)。世界地图可以包括关于对象的位置的信息或对象的语义信息(例如，诸如对象是平的还是圆的、水平的还是垂直的、桌子还是灯等的分类)，并且世界地图可以是混合现实的另一个有价值的输入。相对于世界的姿势也变为输入并且扮演几乎任何交互式系统的关键角色。

来自用户的控制或输入是AR设备600的另一输入。如本文所描述的，用户输入可以包括视觉输入、手势、图腾、音频输入、感官输入等。例如，为了四处移动或玩游戏，用户可能需要指示AR设备600关于他或她想做什么。除了在空间中仅自己移动之外，存在可以利用的用户控制的各种形式。在一个实施例中，图腾(例如，用户输入设备)或诸如玩具枪之类的对象可以被用户握持并由系统跟踪。系统优选地将被配置为知道用户正握持该物品并且理解用户与该物品正进行什么类型的交互(例如，如果图腾或对象是枪，则系统可以被配置为理解位置和取向，以及用户是否点击触发器或其他感测按钮或可以装备有传感器(诸如IMU)的元件，其可以辅助确定正发生什么，甚至在这样的活动不在任何相机的视野内时)。

手势跟踪或识别也可以提供输入信息。AR设备600可被配置为跟踪和解释用于按钮按压、用于指示向左或向右、停止、抓握、握持等的手势。例如，在一种配置中，用户可能想要在非游戏环境中翻阅电子邮件或日历，或与其他人或玩家进行“拳头碰撞”。AR设备600可被配置为利用最小量的手势，该最小量的手势可以是动态的或可以不是动态的。例如，手势可以是简单的静态手势，例如，张开手以示停止、大拇指向上以示可以、大拇指向下以示不可以；或手向右、向左或向上/向下翻转以示方向性命令。

眼睛跟踪是另一输入(例如，跟踪用户正观看的位置以控制显示技术在特定深度或范围进行渲染)。在一个实施例中，可以使用三角测量确定眼睛的辐辏，并且然后使用针对该特定人开发的辐辏/适应模型，可以确定适应。眼睛相机可以执行眼睛跟踪以确定眼睛凝视(例如，一只眼睛或两只眼睛的方向或取向)。可以将其他技术用于眼睛跟踪，例如，通过放置在眼睛附近的电极来测量电势(例如，眼球运动电位测定法)。

语音跟踪可以是另一输入，其可以单独或与其他输入(例如，图腾跟踪、眼睛跟踪、手势跟踪等)组合使用。语音跟踪可以包括单独或组合的语音识别、话音识别。AR设备600可以包括从环境接收音频流的音频传感器(例如，麦克风)。AR设备600可以结合语音识别技术来确定谁在说话(例如，语音是来自ARD的穿戴者还是另一个人或语音(例如，由环境中的扬声器发送的录音))以及语音识别技术来确定正在说什么。本地数据和处理模块260或远程处理模块270可以处理来自麦克风的音频数据(或另一个流中的音频数据，诸如，例如，用户正在观看的视频流)，以通过应用各种语音识别算法来标识语音的内容，诸如，例如，隐马尔可夫模型、基于动态时间规整(DTW)的语音识别、神经网络、深度学习算法(诸如深度前馈和递归神经网络)、端到端自动语音识别、机器学习算法或使用声学建模或语言建模等的其他算法。

本地数据和处理模块260或远程处理模块270也可以应用语音识别算法，该算法可以标识说话者的身份，例如，说话者是AR设备600的用户210还是用户正与之通话的另一个人。一些示例语音识别算法可以包括频率估计、隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化、说话者分类(speaker diarisation)、决策树、和动态时间规整(DTW)技术。语音识别技术还可以包括反说话者技术，例如，交股模型(cohortmodel)和世界模型。频谱特征可用于表示说话者特性。本地数据和处理模块或远程数据处理模块270可以使用各种机器学习算法以执行语音识别。

AR设备的实施方式可以经由UI使用这些用户控件或输入。UI元素(例如，控件、弹出窗口、气泡、数据输入字段等)可以用于例如关闭信息(例如，对象的图形或语义信息)的显示。

关于相机系统，所示的示例AR设备600可以包括三对相机：被布置在用户的面部的侧面的相对宽的FOV或无源SLAM相机对、定向在用户前面的另一对相机，以用于处理立体成像处理640并且还捕获用户的面部前面跟踪的手部手势和图腾/对象。FOV相机和用于立体声处理640的一对相机可以是面向外的成像系统的一部分。AR设备600可以包括朝向用户眼睛取向的眼睛跟踪相机，以便对眼睛向量和其他信息进行三角测量。AR设备600还可以包括一个或多个纹理光投射仪(例如红外(IR)投射仪)以将纹理注入场景。

AR设备600可以包括化身处理和渲染系统690。化身处理和渲染系统690可被配置为基于上下文信息来生成、更新、进行动画处理和渲染化身。化身处理和渲染系统690中的一些或全部可以单独地或组合地被实现为本地处理和数据模块260或远程处理模块262、264的一部分。在各种实施例中，(例如，如在不同的可穿戴设备上实现的)多个化身处理和渲染系统690可以用于渲染虚拟化身670。例如，第一用户的可穿戴设备可以用于确定第一用户的意图，而第二用户的可穿戴设备可以基于从第一用户的可穿戴设备接收的意图来确定化身的特性并渲染第一用户的化身。第一用户的可穿戴设备和第二用户的可穿戴设备(或其他这样的可穿戴设备)可以经由网络进行通信。

图5A示出了示例化身处理和渲染系统690。示例化身处理和渲染系统690可以单独地或组合地包括：3D模型处理系统680、上下文信息分析系统688、化身自动缩放器692、意图映射系统694、解剖结构调整系统698、刺激响应系统696。系统690旨在示出用于化身处理和渲染的功能，而并非旨在进行限制。例如，在某些实施方式中，这些系统中的一个或多个可以是另一系统的一部分。例如，上下文信息分析系统688的部分可以单独地或组合地是化身自动缩放器692、意图映射系统694、刺激响应系统696或解剖结构调整系统698的一部分。

上下文信息分析系统688可被配置为基于参考图2和图3描述的一个或多个设备传感器来确定环境和对象信息。例如，上下文信息分析系统688可以使用由用户或用户的化身的观看者的面向外的成像系统获取的图像来分析环境和用户的环境或在其中渲染用户的化身的环境的对象(包括物理或虚拟对象)。上下文信息分析系统688可以单独地或与从位置数据或世界地图获取的数据组合地来分析此类图像，以确定环境中对象的位置和布局。上下文信息分析系统688通常还可以访问用户或人类的生物学特征，以逼真地对虚拟化身670进行动画处理。例如，上下文信息分析系统688可以生成不适曲线，该不适曲线可以应用于化身，使得用户的化身的身体的一部分(例如，头部)相对于用户的身体的其他部分不会处于不适(或不逼真)位置(例如，化身的头部未旋转270度)。在某些实施方式中，一个或多个对象识别器可以被实现为上下文信息分析系统688的一部分。

化身自动缩放器692、意图映射系统694、刺激响应系统696以及解剖结构调整系统698可被配置为基于上下文信息来确定化身的特性。化身的一些示例特性可以包括大小、外观、位置、取向、运动、姿势、表情等。化身自动缩放器692可被配置为自动缩放化身，使得用户不必以不适的姿势看化身。例如，化身自动缩放器692可以增加或减小化身的大小以将化身带到用户的视线高度，使得用户不需要分别向下看化身或向上看化身。意图映射系统694可以确定用户的交互的意图，并且基于在其中渲染化身的环境将意图映射到化身(而不是确切的用户交互)。例如，第一用户的意图可以在远程呈现会话中与第二用户通信。通常，两个人在交流时会面对面。第一用户的AR设备的意图映射系统694可以确定在远程呈现会话期间存在这种面对面意图，并且可以使第一用户的AR设备将第二用户的化身渲染为面对第一用户。如果第二用户要在物理上转身，而不是将第二用户的化身渲染在转过的位置(这将导致第二用户的化身的背面渲染给第一用户)，则第一用户的意图映射系统694可以继续将第二化身的脸部渲染给第一用户，这是远程呈现会话的推断意图(例如，在此示例中的面对面意图)。

刺激响应系统696可以标识环境中的感兴趣对象，并确定化身对感兴趣对象的响应。例如，刺激响应系统696可以标识化身的环境中的声源，并自动转动化身以观看声源。刺激响应系统696还可以确定阈值终止条件。例如，刺激响应系统696可以在声源消失之后或经过一段时间之后，使化身回到其原始姿势。

解剖结构调整系统698可被配置为基于生物学特征来调整用户的姿势。例如，解剖结构调整系统698可被配置为基于不适曲线来调整用户的头部与用户的躯干之间或用户的上身与下身之间的相对位置。

3D模型处理系统680可被配置为对虚拟化身670进行动画处理，并使显示器220渲染虚拟化身670。3D模型处理系统680可以包括虚拟角色处理系统682和运动处理系统684。虚拟角色处理系统682可被配置为生成和更新用户的3D模型(用于创建虚拟化身和对虚拟化身进行动画处理)。运动处理系统684可被配置为对化身进行动画处理，诸如例如通过改变化身的姿势、通过在用户的环境中四处移动化身、或通过对化身的面部表情进行动画处理等。如本文将进一步描述的，可以使用装配(rigging)技术对虚拟化身进行动画处理。在一些实施例中，化身以两部分表示：用于渲染虚拟化身的外部外观的表面表示(例如，可变形的网格(mesh))和用于对网格进行动画处理的一组分层的互连关节(例如，核心骨骼)。在一些实施方式中，虚拟角色处理系统682可被配置为编辑或生成表面表示，而运动处理系统684可以用于通过移动化身、使网格变形等来对化身进行动画处理。

示例中性化身映射系统

图5B是示出与中性化身的实现相关联的组件和信号的示例的框图。在该示例中，若干用户传感器组件601-604向信号映射部件606提供输入信号605(包括605A、605B、605C和605D)。信号映射部件606被配置为分析输入信号605并确定对中性化身的更新，该更新然后可以作为一个或多个输出信号607发送到化身渲染器608(例如，图5A的化身处理和渲染系统690的一部分)。在图5B的实施例中，用户传感器包括注视跟踪601、语音跟踪602、头部姿势跟踪603、和手部姿势跟踪604。这些用户传感器中的每一个可以包括一个或多个相同类型或多个不同类型的传感器。输入信号605的类型可以从一个实施例到另一个实施例不同，诸如包括更少或附加的用户传感器。在一些实施例中，输入信号605也可以被处理(例如，在传输到信号映射部件606之前或同时)，以便确定由信号映射部件使用的附加输入信号。在图5B的示例中，导出信号发生器609还接收输入信号605A-605D中的每一个，并且可以生成一个或多个输入信号605E，该输入信号605E被发送到信号映射部件606。导出信号发生器可以创建输入信号605E，该输入信号605E指示不直接链接到输入信号605A-605D之一的用户意图、行为或动作。

信号映射部件606可包括各种形式的映射表。例如，允许输入信号与输出信号之间的一对一、一对多、和多对多映射的查找表。类似地，规则列表、伪代码、和/或任何其他逻辑可由信号映射部件606用于确定映射到当前输入信号605的适当输出信号607。有利地，信号映射部件606实时操作以将输入信号605映射到一个或多个输出信号607，使得对中性化身的更新(如由化身渲染器608实现的)与触发用户活动同时应用。

在一些实施例中，信号映射部件被配置为1)测量用户的与用户身体的一部分相关联的参数，以及然后2)将测量的参数映射到中性化身的特征，其中中性化身的特征不代表用户身体的部分。测量的参数可以是输入信号605，并且中性化身的映射特征可以在由信号映射部件606生成的对应输出信号607中指示。作为该映射的示例，用户眼睛的旋转可以是用户的参数，该参数与用户身体的眼睛相关联。如上所述，用户的这种眼睛旋转可以映射到位于中性化身的眼睛区域之外的线或其他几何特征，并且因此不代表用户的眼睛。与一个身体部分相关联的输入信号到第二身体部分的中性化身的视觉指示器的这种映射可以称为非原样映射。

在一些实施例中，非原样映射也可以是中性化身的特征的动作(例如，动画、颜色、纹理、声音等)，该动作不代表测量参数的用户身体的动作。例如，中性化身的线条特征可以响应于从用户测量的语音输入信号而改变颜色。该颜色变化并不代表由用户为提供语音输入执行的语音动作(例如，用户嘴巴的张开和闭合)。因此，该映射也可以被认为是非原样映射。

在一些实施例中，与用户的特定身体部分和/或特定身体部分的活动相关联的输入信号可以被映射到中性化身的全异的、不相关的、不相关联的、差异的和/或不同的特征和/或活动。例如，信号映射部件606可以将输入信号映射到与中性化身相关联的非原样输出信号。例如，响应于用户说话，可以将输入信号605B发送到信号映射部件606，信号映射部件606然后可以将说话映射到应用于中性化身的颜色或阴影(shading)调整输出信号607。因此，可以在接收到语音输入时动态地调整中性化身的一些或全部的阴影。阴影可应用于与语音不直接相关联的化身部分，诸如面部的非嘴部区域或中性化身的几何特征(例如，不直接与用户的特定面部特征相关联)。例如，当用户说话时，中性化身的上部可以被不同地着色。随着语音输入变化(例如，语音的音量、音调、模式等)，可以动态地更新阴影，诸如调整阴影的水平和/或区域。这与典型的化身行为相反，其中通过化身的嘴以说话模式的运动在化身中指示用户的说话。因此，中性化身被配置为提供具有以不直接映射到对应的用户动作的方式表达的行为、社交和通信提示的身份中性可视化。

在另一示例中，不是以一对一或直接的方式映射眼睛注视输入信号(例如，由AR设备的一个或多个传感器测量)以控制化身眼睛的旋转，诸如将在原样映射下进行，间接(或非原样)映射可以将用户眼睛的瞳孔跟踪映射到中性化身的特征形状(例如，中性化身的头部、身体或几何形状)、特征的阴影(例如，中性化身头部、身体或几何形状的一部分或全部)、特征的颜色、和/或不是化身瞳孔的化身的任何其他特征的变化。因此，用户的眼睛运动可以映射到中性化身的颜色或阴影的波动，或者甚至映射到中性化身的辅助特征，诸如中性化身附近的背景或对象。

在一些实施例中，多个输入信号605可以与中性化身的单个视觉元素相关联。例如，眼睛注视方向和语音可以映射到中性化身的相同视觉元素，诸如水平线或其他几何形状。该单个视觉元素可以被配置为摆动以表达语音活动和移动(例如，左右)或变形以表达注视方向。因此，可以以更精确的视觉方式来传达多个用户动作而不分散高度定制的化身视觉特性。在一些实施方式中，将多个输入信号映射到中性化身的一个视觉元素可以增加这些简单的中性特征的突然的生动感和/或视觉复杂性。因为真实的人脸能够进行许多细微的运动，所以响应于单个提示(例如，单个输入信号)的简单视觉元素可能不太可信为表示这种复杂的人类行为，而不是具有响应于多个提示(例如，多个输入信号)的更复杂的行为的单个视觉元素。将多个输入信号映射到中性化身的相同视觉元素可以提供进一步的视觉分散，而不是原样视觉熟悉度。

中性化身的视觉元素被配置为传达用于通信和协作的人类行为(例如，在远程共现环境中)。

在一些实施例中，用户的头部位置(例如，来自头部姿势跟踪603)可以映射到中性化身的较大元素的变化(例如，阴影、运动、变形)。在一些实施例中，眼睛注视和眼睛跟踪信息(例如，来自注视跟踪601)可以映射到较小的元素，诸如映射到移动、平移和动画以对应于眼睛跟踪信号的几何形状。在一些实施例中，语音信号可以映射到根据语音幅度和/或语音音素转换、变换和/或动画的几何元素或粒子着色器。

图6至12示出了若干中性化身示例，以及示例输入信号，这些输入信号可以映射到触发对中性化身的更新的输出信号。从图6开始，在图6A、6B、6C中的每一个中示出了中性化身，具有指示来自一个或多个用户传感器的非原样输入信号的不同视觉特征603。在一些实施方式中，当用户清楚地表达某些声音时，它们与特定视觉特征的显示和/或特性相关，诸如视觉特征603、611或612的不透明度。在示例中，特征可能变得或多或少不透明，这取决于用户正在说什么，例如基于在语音输入中识别的音量、音高、音调、速度、模式和/或语音。因此，这些视觉特征的视觉特性可以按比例映射到这样的视觉特征的不透明度。例如，视觉特征的阴影或颜色可以动态地增加和减少以跟随对应的一个或多个语音特征的增加和减少。

在一个实施例中，图6A的中性化身的视觉特征603可能在用户发出“ah”声音(或另一个前元音)时出现，图6B的中性化身的视觉特征611可能在用户发出“oo”声音(或另一个后元音)时出现，并且图6C的中性化身的视觉特征612可能在用户发出“th”声音时出现。因此，当用户发出不同的对应声音时，视觉特征603、611、612可替代地显示在中性化身上。在一些实施例中，用户嘴巴的形状(例如，其可以被称为视位(viseme))可以映射到可能影响中性化身的外观和/或行为的各种输出信号。例如，视位的相对大小，例如用户嘴巴张开的大小，可以映射到幅度或响度特性。然后可以将该幅度特性用作中性化身的一些方面的驱动器，诸如中性化身的视觉指示器的大小或形状。此外，可以基于语音输入和/或其他输入信号的其他因素来调整视觉特征的颜色、纹理、阴影、不透明度等。

在一些实施例中，中性化身的视觉指示器的位置和/或平移可以映射到眼睛注视方向输入信号。例如，可以基于用户的眼睛注视来移动映射到视位形状的视觉指示器(例如，随着视位中嘴巴的张开区域增加/减小而增加/减小)。

在一些实施例中，视觉指示器的其他变换，诸如挤压、收缩等，可以映射到眨眼事件。

图7A、7B和7C示出了另一示例中性化身，其中基于各种输入信号中的一个或多个来调整视觉特征702。在该示例中，视觉特征702中的变形可以与用户的头部姿势相关联。例如，指示向右的头部姿势的输入信号可能导致视觉特征702B的变形，而向左的头部姿势可能导致视觉特征702C的变形。变形的方向(例如，向上或向下)可以基于另一输入信号，诸如用户的关注或基于特定的用户意图(例如，可以基于多个输入信号确定)。单线视觉特征702可以反映多个输入信号，诸如通过以第一方式变形以指示注视并且以第二方式变形以指示语音输入。

在一个实施例中，视觉特征702A指示用户的空闲状态。在图7B中，视觉特征702B响应于指示特定视位(例如，“Ahh”声音)的输入信号而变形。例如，响应于注视方向，视觉特征702B的变形区域可以向左移动。因此，视觉特征702C可以指示用户的注视方向已经向左移动，并且更新的变形可以指示另一视位或没有语音输入。

在一些实施例中，视觉特征702(或其他简单几何形状)的变换(例如，变形)可以映射到眼睛注视移动，而头部姿势可以映射到其他视觉特征，诸如包括视觉特征702的整个半球形状的旋转。在一个示例实施例中，视觉特征702提供了总体头部方向(例如，相似面部方向)的视觉参考，并且特征702的变形(例如，如在图7C中)可以映射到眉毛抬高和/或向变形位置的眼睛注视移动(例如，视觉特征702C可以指示眼睛注视向左和向上移动)。

在一些实施例中，诸如视觉特征702A的几何形状可以映射到指示口型同步或语音动画的输入信号，其以不同于用于其他输入信号的模式在视觉特征702中产生变化。例如，视觉特征可以响应于检测到特定视位而波动或摆动。线变换的半径和/或线的平滑度可以根据检测到的特定视位、语音的幅度、语音的音高和/或从用户导出的任何其他输入信号来(例如，动态地)调整。作为另一示例，视觉特征702A在中性化身上的位置可以垂直平移以表示眼睛注视降低或升高。作为另一示例，视觉特征702(或其他视觉特征)的长度可以缩放/缩短/增加以表示语音幅度。

图8A和8B示出了另一示例中性化身，其中可以基于一个或多个输入信号来修改视觉特征802和804。例如，在一种实施方式中，上线802A可以映射到用户注视，使得用户注视的变化可以通过上线802A的各种变化来示出(例如，类似于图7中的变形、颜色变化、阴影变化、大小或厚度变化等)。在该示例中，下线804可以映射到语音信号的变化，使得下线804B随着用户提供语音输入而变形。输入信号到导致中性化身变化的输出信号的其他示例映射(例如，图8的中性化身，以及具有对应视觉特征的任何其他中性化身)：

·视觉特征的长度(例如，线802A、804A中的一者或两者)可以随着眨眼事件而缩短或延长

·视觉特征可以与眼睛注视方向变化相关联地左右平移。

·视觉特征804可以通过形状和/或锐度的摆动或变形来响应视位变化。

·总长度和/或位置可能相对于幅度而变化。

图9A、9B、9C和9D的中性化身示出了另一示例中性化身，其中视觉特征904包括环形和圆形。在一种实施方式中，基于一个或多个输入信号来调整圆形的大小。例如，如图9B和9C所示，可以调整圆形的大小以指示输入信号的变化，诸如指示何时从用户接收到语音输入。在该示例中，视觉特征904B的较大圆形可以指示正在接收活动语音信号，而视觉特征904C的较小圆形可以指示未接收活动语音信号。因此，视觉指示器的大小的变化可以实时动态地调整以反映来自用户的语音信号的变化。例如，视觉特征904C的圆形部分可以与提供语音输入的用户一致地脉冲。相同的视觉特征904可以以其他方式移动以反映其他输入信号。例如，视觉特征904可以响应于用户的头部姿势和/或眼睛姿势的变化在图9A和9D所示的取向之间旋转。因此，视觉特征904对以易于理解且低复杂度的中性化身所提供的多个输入信号是反应性的。输入信号到导致中性化身变化的输出信号的其他示例映射(例如，图9的中性化身，以及具有对应视觉特征的任何其他中性化身)：

·圆形903的大小可以基于语音幅度脉冲(或以其他方式改变)。例如，大小不仅可以指示用户是否正在发出声音，而且可以动态调整大小以指示多级语音响度。

·圆形903可以沿着环形元素左右平移以指示眼睛注视方向，这可以与头部姿势位置无关。

·圆形903可以变平或伸展成压扁的圆柱体用于眨眼。

在图10A至10F的示例中，示出了中性化身的六个示例可视化，其中视觉特征1002中的调整可以绑定到一个或多个输入信号中的各种输入信号。在一个实施例中，视觉特征1002的位置、形状和/或动画可以映射到语音输入。例如，用户的视位(例如，指示对应声音的用户嘴巴的形状)可以映射到视觉特征1002的变化。在图10A的示例中，视觉特征1002A(或其他基本上圆形的形状)可以映射到指示“Ooo”语音输入的视位，视觉特征1002B(或具有基本上方形边缘的其他形状)可以映射到指示“Thh”语音输入的视位，并且视觉特征1002D(或具有更锐利边缘的其他形状)可以映射到指示“Ahh”语音输入的视位。在图10C中，视觉特征1002C指示用户向下向右看的注视方向。

对于视觉特征1002的这些动画中的任何一个，语音输入的幅度可以通过视觉特征1002的两条线之间的距离视觉地指示。例如，视觉特征1002E可以表示响亮的(例如，高幅度)的语音输入，而视觉特征1002F表示更安静(例如，低幅度)的语音输入。在其他实施例中，可以将其他视位和/或语音或其他输入信号映射到视觉特征1002(或中性化身的其他视觉特征)中的类似调整。

图11A至11H示出了具有可以基于一个或多个输入信号动态更新的各种形式的视觉特征1102的另一示例中性化身。在一些实施例中，视觉特征1102(例如，在一些实施方式中可能看起来像遮阳板或浮动太阳镜)可以响应于眼睛姿势和/或头部姿势的变化而从一侧移动到另一侧(例如，如图11B和11C所示)。图11F和11G示出了视觉特征1102F改变为与视觉特征1102G一样的更小的大小，这可以反映用户关注的变化或者可以动画化以对应于来自用户的语音输入。例如，较大的视觉特征1102F可以在指示接收到语音输入的输入信号时示出，而较小的视觉特征1102G在没有接收到语音输入时示出(例如，在口语词或语音中的其他停顿之间)。视觉特征1102H可以指示两个输入信号的变化，一个映射到视觉特征1102H的左侧，并且一个映射到视觉特征1102H的右侧。因此，视觉特征1102H的部分(例如，视觉特征1102H的左侧和右侧)的大小、形状、颜色、阴影等可以独立地指示用户行为或社交提示。在一些实施例中，可以参考指示语音活动的视觉特征1102来指示纹理效果。例如，诸如图11I中所示的背光效果可以根据语音输入来脉冲、移动等。在一个实施例中，脉冲形状(和/或其他特性)可以以与上文参考图10A至10F讨论的类似方式改变(例如，以反映特定视位和/或幅度)。在该示例中，视觉特征1102I的其他特性可以保持映射到其他信号输入，诸如上文所讨论的信号输入。图11E示出了视觉特征1102E之上的另一示例视觉特征，该视觉特征可以映射到各种语音输入和/或其他输入信号。

图12A和12B示出了另一示例中性化身，其中对中性化身的部分的变形、运动和/或其他视觉变化可以映射到一个或多个输入信号。在该示例中，球体1202的动态缩放可以指示语音幅度的变化，其中较大的球体大小(例如1202A)可以与较高的语音输入幅度相关联，而较小的球体大小(例如1202B)可以与较低的语音输入幅度相关联。在一个示例中，球体1202的颜色、纹理或其他属性可以映射到其他语音属性，诸如特定声音或视位。在一个实施例中，水平元素1204可以伸展、缩放或以其他方式变形，以指示用户的注视或关注方向。

在以上任何示例中，输入信号和输出信号之间的链接可以组合、分离和/或映射到其他视觉特征的变化。如上所述，在一些实施例中，视觉特征的阴影可以指示一个或多个输入信号的变化。此外，中性的其他部分的阴影，诸如化身面部或身体的部分，可以指示输入信号的变化。

示例实施方式

本文所描述的系统、方法和设备各自具有若干方面，其中没有单独一个仅负责其期望的属性。在不限制本公开的范围的情况下，现在将简要讨论若干非限制性特征。以下段落描述了本文所描述的设备、系统和方法的各种示例实施方式。一个或多个计算机的系统可以被配置为通过在系统上安装软件、固件、硬件或它们的组合来执行特定的操作或动作，这些软件、固件、硬件或它们的组合在操作中使得或使得系统执行动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定操作或动作，该指令当由数据处理装置执行时，使得装置执行动作。

示例1：一种计算系统，包括：硬件计算机处理器；非暂态计算机可读介质，其具有存储在其上的软件指令，所述软件指令能够由所述硬件计算机处理器执行以使得所述计算系统执行包括以下各项的操作：提供能够由多个用户使用以在增强现实环境中交互的共同在场(co-presence)环境数据；对于多个用户中的每一个：确定用于所述用户的中性化身的一个或多个视觉特点(distinction)，其中，所述视觉特点与所述多个用户中的其他用户的中性化身的视觉特点不同；更新所述共同在场环境数据以包括所确定的中性化身的视觉特点。

示例2：根据示例1所述的计算系统，其中，所述视觉特点包括所述中性化身的颜色、纹理、或形状。

示例3：根据示例1所述的计算系统，其中，所述操作还包括：存储用于特定用户的所确定的视觉特点，其中，确定用于所述用户的所述中性化身包括选择与所述用户相关联的所存储的视觉特点。

示例4：根据示例1所述的计算系统，其中，自动执行确定用于用户的中性化身的视觉特点，而不考虑所述用户的个人特性。

示例5：一种计算系统，包括：硬件计算机处理器；

非暂态计算机可读介质，其具有存储在其上的软件指令，所述软件指令能够由所述硬件计算机处理器执行以使得所述计算系统执行包括以下各项的操作：确定与增强现实环境中的用户相关联的中性化身，其中，所述中性化身不包括所述用户的性别、种族和身份的指示；以及其中，所述中性化身被配置为通过所述中性化身的视觉元素的变化表示来自所述用户的输入提示，其中，所述中性化身的视觉元素的变化是对应的输入提示的非原样指示；以及提供对所述中性化身的实时渲染更新，该更新能由共享增强现实环境中的多个用户中的每一个观看。

示例6：根据示例5所述的计算系统，其中，第一视觉元素与两个或多个输入提示相关联。

示例7：根据示例6所述的计算系统，其中，所述输入提示包括以下中的一个或多个：注视方向、语音、头部姿势、以及手部姿势。

示例8：根据示例7所述的计算系统，其中，所述输入提示包括以下中的一个或多个：共享关注、共享注视、以及相互手势。

示例9：根据示例5所述的计算系统，还包括：

信号映射部件，其存储输入提示与对应的输出信号之间的映射，其中，所述实时渲染更新是基于所述输出信号来确定的。

示例10：根据示例5所述的计算系统，其中，所述中性化身包括响应于语音输入提示可变形的视觉元素。

示例11：根据示例10所述的计算系统，其中，所述视觉元素能够响应于指示特定注视活动的输入提示以另一方式变形。

示例12：根据示例5所述的计算系统，其中，所述中性化身包括响应于语音输入提示而在尺寸方面改变的视觉元素。

示例13：根据示例5所述的计算系统，其中，所述中性化身包括响应于语音输入提示而改变所述中性化身的一部分的阴影的视觉元素。

示例14：根据示例13所述的计算系统，其中，所述中性化身的所述部分不与所述中性化身的嘴部区域相关联。

示例15：根据示例5所述的计算系统，其中，所述中性化身包括一个或多个几何形状。

如上所述，上文所提供的描述示例的实现可以包括计算机可访问介质上的硬件、方法或过程和/或计算机软件。

其他考虑

在本文中所描述和/或在附图中所描绘的过程、方法和算法中的每一个可以以由一个或多个物理计算系统、硬件计算机处理器、专用电路、和/或被配置为执行特定和具体计算机指令的电子硬件执行的代码模块实现或通过其完全或部分自动化。例如，计算系统可以包括用特定计算机指令编程的通用计算机(例如服务器)或专用计算机、专用电路等。代码模块可被编译并链接到可执行程序中、安装在动态链接库中，或者可以用解释性编程语言来编写。在一些实施方式中，可以通过特定于给定功能的电路执行特定操作和方法。

进一步地，本公开的功能的某些实施方式数学上、计算上、技术上足够复杂以致于专用硬件或一个或多个物理计算设备(利用适当的专用可执行指令)可以对于执行例如归因于涉及的计算的容量或复杂性的功能或者对于基本上实时提供结果是必要的。例如，动画或视频可以包括许多帧，每个帧具有数百万个像素，并且需要专门编程的计算机硬件来处理视频数据，以在商业上合理的时间量内提供所需的图像处理任务或应用。作为另一示例，通过解决针对这些参数的约束优化问题来计算用于蒙皮系统的权重图、旋转和平移参数是高度计算密集型的(例如，参见参考图14所描述的示例过程1400)。

代码模块或任何类型的数据可以存储在任何类型的非暂时性计算机可读介质上，例如物理计算机存储器，包括硬盘驱动器、固态存储器、随机存取存储器(RAM)、只读存储器(ROM)、光盘、易失性或非易失性存储设备、它们和/或类似的组合等。方法和模块(或数据)也可以作为生成的数据信号(例如作为载波或其他模拟或数字传播信号的一部分)在包括基于无线的和基于有线/电缆的介质的各种计算机可读传输介质上进行发送，并且可以采用多种形式(例如作为单个或多路复用模拟信号的一部分，或作为多个离散数字分组或帧)。所公开的过程或过程步骤的结果可以永久地或以其他方式存储在任何类型的非暂时性有形计算机存储器中，或者可以经由计算机可读传输介质进行传递。

本文描述的和/或在附图中描绘的流程图中的任何过程、框、状态、步骤或功能应被理解为潜在地表示代码模块、代码段或代码部分，其包括用于在流程中实现特定功能(例如逻辑或算术)或步骤的一个或多个可执行指令。各种过程、框、状态、步骤或功能可以组合、重新布置、添加到本文提供的说明性示例、从本文提供的说明性示例中删除、修改或以其他方式改变。在一些实施例中，附加的或不同的计算系统或代码模块可以执行本文描述的一些或全部功能。本文描述的方法和过程也不限于任何特定的顺序，并且与之相关的框、步骤或状态可以以适当的其他顺序(例如串行、并行或以某些其他方式)来执行。可以将任务或事件添加到所公开的示例实施例中或从中删除。而且，本文所描述的实施方式中的各种系统组件的分离出于说明性目的并且不应当被理解为要求所有实施方式中的这样的分离。应当理解，所描述的程序组件、方法和系统通常可以被集成在一起在单个计算机产品中或包装到多个计算机产品中。许多实施方式变型是可能的。

过程、方法和系统可以实现在网络(或者分布式)计算环境中。网络环境包括企业范围计算机网络、内联网、局域网(LAN)、广域网(WAN)、个域网(PAN)、云计算网络、众包计算网络、因特网和万维网。网络可以是有线或无线网络或任何其他类型的通信网络。

本公开的系统和方法各自具有若干创新方面，其中没有单独一个仅负责或者要求本文所公开的期望的属性。上文所描述的各种特征和过程可以彼此独立地使用，或者可以以各种方式组合。所有可能的组合和子组合旨在落入本公开的范围内。对于本公开中所描述的实施方式的各种修改可以对于本领域的技术人员是容易明显的，并且本文中定义的一般原理可以适用于其他实施方式而不脱离本公开的精神或范围。因此，权利要求不旨在限于本文中所示的实施方式，而是将符合与本文所公开的本公开、原理和新颖特征一致的最宽范围。

在单独的实施方式的上下文中在该说明书中所描述的某些特征也可以组合实现在单个实施方式中。相反地，在单个实施方式中的上下文中所描述的各种特征还可以单独地或者以任何适合的子组合被实现在多个实施方式中。而且，尽管以上可以将特征描述为以某些组合起作用并且甚至最初如此要求的，但是在某些情况下可以从组合中切除所要求保护的组合中的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变体。对于每个实施例，没有单个特征或一组特征是必要的或必不可少的。

这里使用的条件语言，尤其例如“能够”、“会”、“可能”、“可以”、“例如”等，除非另有明确说明，否则在所使用的上下文中理解为通常意在传达某些实施例包括而其他实施例不包括某些特征、元素和/或步骤。因此，这样的条件语言通常不旨在暗示特征、元素和/或步骤以任何方式对于一个或多个实施例是必需的，或者一个或多个实施例必然包括用于在有或没有作者输入或提示的情况下决定这些特征、元素和/或步骤是否在任何特定实施例中被包括或将被执行的逻辑。术语“包括”、“包含”、“具有”等是同义词，以开放式方式包含地使用，并且不排除附加要素、特征、动作、操作等。而且，术语“或”以其包含的含义使用(而不是以其排他的含义使用)，因此例如在用于连接元素列表时，术语“或”表示列表中的一个、一些或全部元素。另外，在本申请和所附权利要求书中使用的“一”、“一个”和“该”应被解释为表示“一个或多个”或“至少一个”，除非另有说明。

如本文所使用的，涉及项目列表中的“至少一个”的短语是指这些项的任意组合，包括单个成员。例如，“A、B或C中的至少一个”旨在涵盖：A、B、C、A和B、A和C、B和C、以及A、B和C。除非另外特别说明，否则诸如短语“X、Y和Z中的至少一个”之类的联合语言应与上下文一起理解，用于传达项目、术语等可以是X、Y或Z中的至少一个。因此，这种联合语言通常不旨在暗示某些实施例要求X中的至少一个、Y中的至少一个和Z中的至少一个存在。

类似地，尽管可以以特定顺序在附图中描绘操作，但是要认识到，不需要以所示的特定顺序或相继顺序来执行这样的操作，或者不需要执行所有示出的操作来实现期望的结果。此外，附图可以以流程图的形式示意性地描绘一个或多个示例过程。然而，未描绘的其他操作可以包含在示意性地示出的示例方法和过程中。例如，可以在任何所示操作之前、之后、同时或之间执行一个或多个附加操作。另外，在其他实现中，操作可以重新布置或重新排序。在某些情况下，多任务和并行处理可以是有利的。此外，在上述实现中的各种系统组件的分离不应被理解为在所有实现中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或打包到多个软件产品中。另外，其他实现在所附权利要求的范围内。在一些情况下，权利要求中所记载的动作可以以不同的次序执行并且仍然实现期望的结果。

Claims

1.一种计算系统，包括：

硬件计算机处理器；

非暂态计算机可读介质，其具有存储在其上的软件指令，所述软件指令能够由所述硬件计算机处理器执行以使得所述计算系统执行包括以下各项的操作：

提供能够由多个用户使用以在增强现实环境中交互的共同在场环境数据；

对于多个用户中的每一个：

确定用于所述用户的中性化身的一个或多个视觉特点，其中，所述视觉特点与所述多个用户中的其他用户的中性化身的视觉特点不同；

更新所述共同在场环境数据以包括所确定的中性化身的视觉特点。

2.根据权利要求1所述的计算系统，其中，所述视觉特点包括所述中性化身的颜色、纹理、或形状。

3.根据权利要求1所述的计算系统，其中，所述操作还包括：

存储用于特定用户的所确定的视觉特点，其中，确定用于所述用户的所述中性化身包括选择与所述用户相关联的所存储的视觉特点。

4.根据权利要求1所述的计算系统，其中，自动执行确定用于用户的中性化身的视觉特点，而不考虑所述用户的个人特性。

5.一种计算系统，包括：

硬件计算机处理器；

确定与增强现实环境中的用户相关联的中性化身，

其中，所述中性化身不包括所述用户的性别、种族和身份的指示；以及

其中，所述中性化身被配置为通过所述中性化身的视觉元素的变化表示来自所述用户的输入提示，其中，所述中性化身的视觉元素的变化是对应的输入提示的非原样指示；以及

提供对所述中性化身的实时渲染更新，该更新能由共享增强现实环境中的多个用户中的每一个观看。

6.根据权利要求5所述的计算系统，其中，第一视觉元素与两个或多个输入提示相关联。

7.根据权利要求6所述的计算系统，其中，所述输入提示包括以下中的一个或多个：注视方向、语音、头部姿势、以及手部姿势。

8.根据权利要求7所述的计算系统，其中，所述输入提示包括以下中的一个或多个：共享关注、共享注视、以及相互手势。

9.根据权利要求5所述的计算系统，还包括：

10.根据权利要求5所述的计算系统，其中，所述中性化身包括响应于语音输入提示可变形的视觉元素。

11.根据权利要求10所述的计算系统，其中，所述视觉元素能够响应于指示特定注视活动的输入提示以另一方式变形。

12.根据权利要求5所述的计算系统，其中，所述中性化身包括响应于语音输入提示而在尺寸方面改变的视觉元素。

13.根据权利要求5所述的计算系统，其中，所述中性化身包括响应于语音输入提示而改变所述中性化身的一部分的阴影的视觉元素。

14.根据权利要求13所述的计算系统，其中，所述中性化身的所述部分不与所述中性化身的嘴部区域相关联。

15.根据权利要求5所述的计算系统，其中，所述中性化身包括一个或多个几何形状。