CN116917791A

CN116917791A - 用于增强现实设备和虚拟现实设备的反向透视眼镜

Info

Publication number: CN116917791A
Application number: CN202180094429.XA
Authority: CN
Inventors: 内森·马特萨达; 布赖恩·惠尔赖特; 乔尔·赫格兰; 杰森·萨拉吉; 斯蒂芬·安东尼·伦巴第; 托马斯·西蒙·克鲁兹; 斋藤俊介; 迈克尔·佐尔霍费尔; 詹姆斯·亨利·海斯; 阿密特·拉杰
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2020-12-23
Filing date: 2021-12-23
Publication date: 2023-10-20

Abstract

一种用于向旁观者提供头戴式设备显示器的用户的反向透视视图的设备包括：目镜，该目镜包括光学表面，该光学表面被配置为在该光学表面的第一侧上向用户提供图像。该设备还包括第一摄像头、显示器和屏幕，该第一摄像头被配置为收集从第一视场中的光学表面反射的用户面部的一部分的图像，该显示器与该光学表面相邻且被配置为向前投影用户面部的图像，该屏幕被配置为接收来自该显示器的光并向旁观者提供用户面部的图像。

Description

用于增强现实设备和虚拟现实设备的反向透视眼镜

背景

技术领域

本公开涉及增强现实(Augmented Reality，AR)设备和虚拟现实(VirtualReality，VR)设备，该AR设备和VR设备包括向前面的旁观者提供用户的面部特征的真实视图的反向透视特征。更具体地，本公开为AR/VR头戴式设备(headset)用户的旁观者提供自动立体(autostereoscopic)外部显示。

相关技术

在AR设备和VR设备领域，一些设备包括面向外的显示器，该显示器向旁观者提供正为该设备的用户显示的图像的视图。尽管这些配置有助于旁观者更好地理解AR设备或VR设备的用户正在经历什么，但是这使旁观者对该用户的心理状态或该用户的注意力焦点(例如，如果用户试图使用透视模式与旁观者进行交谈，并且没有以其他方式参与虚拟现实环境)一无所知。此外，对于具有面向外的显示器的这种设备，这些面向外的显示器通常是传统的二维(two-dimensional，2D)显示器，该显示器缺乏用户的面部或头部的至少一部分的全身图像的真实视图，该真实视图例如用于描绘用户的面部或头部在设备内的准确深度和距离。

发明内容

根据本公开的第一方面，提供了一种设备，该设备包括：近眼显示器，该近眼显示器被配置为向对象提供图像；眼睛成像系统，该眼睛成像系统被配置为收集对象的图像；以及光场显示器，该光场显示器被配置为向旁观者提供对象的三维(three-dimensional，3D)模型的自动立体图像，其中，自动立体图像包括来自光场显示器的视场(field of view，FOV)内的多个视点的对象的透视校正视图。

在一些实施例中，光场显示器包括像素阵列和多微透镜阵列，其中，像素阵列被配置为向多微透镜阵列提供对象的分割视图，该分割视图包括选定视点处的光场显示器的视场的多个部分。

在一些实施例中，眼睛成像系统包括两个摄像头，以收集对象的双眼视图。

在一些实施例中，该设备还包括一个或多个处理器和存储器，该存储器存储有指令，该指令在被该一个或多个处理器执行时，根据对象的图像生成该对象的三维表示。

在一些实施例中，近眼显示器向对象提供环境的三维表示，该环境包括旁观者。

在一些实施例中，眼睛成像系统包括红外摄像头，该红外摄像头以反射模式从与光场显示器相邻的二向色镜接收来自对象的图像。

在一些实施例中，光场显示器包括微透镜阵列，该微透镜阵列具有多个微透镜，该多个微透镜排列成具有预先选定的间距的二维图案，以避免旁观者的两个视点的透视校正视图之间的串扰(cross-talk)。

在一些实施例中，光场显示器还包括浸入式光圈(immersed stop)，该浸入式光圈与微透镜阵列相邻，该浸入式光圈包括多个孔，使得每个孔与微透镜阵列中的每个微透镜的中心对准。

在一些实施例中，其中，光场显示器包括像素阵列，该像素阵列被分为多个有源区段，其中，像素阵列中的每个有源区段具有与多微透镜阵列中的折射元件的直径相对应的尺寸。

在一些实施例中，该设备还包括一个或多个处理器和存储器，该存储器存储有指令，该指令在被该一个或多个处理器执行时使光场显示器将像素阵列分为多个有源区段，每个有源区段被配置为在选定视点处为旁观者提供光场显示器的视场的一部分。

根据本公开的第二方面，提供了一种计算机实施的方法，该方法包括：从一个或多个头戴式设备摄像头接收多个图像，该多个图像具有对象的至少两个或更多个视场，其中，对象是头戴式设备的用户；使用一组可学习权重从该多个图像提取多个图像特征；使用该组可学习权重形成对象的三维模型；将对象的三维模型映射到自动立体显示格式(autostereoscopic display format)上，该自动立体显示格式将对象的图像投影与旁观者的选定的观察点进行关联；以及当旁观者位于选定的观察点时，在设备显示器上提供对象的图像投影。

在一些实施例中，提取图像特征包括：提取用于收集该多个图像中的每个图像的头戴式设备摄像头的固有属性。

在一些实施例中，将对象的三维模型映射到自动立体显示格式上包括：用与第二观察点相关联的特征图，对与第一观察点相关联的特征图进行插值。

在一些实施例中，将对象的三维模型映射到自动立体显示格式上包括：沿着选定的观察点的方向聚集多个像素的多个图像特征。

在一些实施例中，将对象的三维模型映射到自动立体显示格式上包括：将该一个或多个头戴式设备摄像头中的每个头戴式设备摄像头生成的多个特征图以置换不变组合进行串连(concatenate)，该一个或多个头戴式设备摄像头中的每个头戴式设备摄像头具有固有特性。

在一些实施例中，提供对象的图像投影包括：随着旁观者从第一观察点移动到第二观察点，在设备显示器上提供第二图像投影。

根据本公开的第三方面，提供了一种计算机实施的方法，该计算机实施的方法用于训练模型以向虚拟现实头戴式设备中的自动立体显示器提供对象的视图，该计算机实施的方法包括：从多个用户的面部收集多个基准真值(ground truth)图像；用所存储的、经校准的立体图像对来校正该多个基准真值图像；将对象的三维模型映射到自动立体显示格式上，该自动立体显示格式将对象的图像投影与旁观者的选定的观察点进行关联；基于对象的该多个基准真值图像与图像投影之间的差异来确定损失值；以及基于损失值对对象的三维模型进行更新。

在一些实施例中，生成多个合成视图包括：沿着选定的观察方向投影来自多个基准真值图像中的每个基准真值图像的多个图像特征，并且将该多个基准真值图像中的每个基准真值图像生成的多个特征图以置换不变组合进行串连，该多个基准真值图像中的每个基准真值图像具有固有特性。

在一些实施例中，对对象的三维模型进行训练包括：基于指示多个基准真值图像与对象的图像投影之间的差异的损失函数的值，对多个特征中的每个特征的一组可学习权重中的至少一个可学习权重进行更新。

在一些实施例中，对对象的三维模型进行训练包括：基于从多个基准真值图像投影的像素背景值，对该多个基准真值图像中的多个像素中的每个像素的背景值进行训练。

根据本公开的第四方面，提供了一种系统，该系统包括：用于存储指令的第一装置和用于执行该指令以执行一种方法的第二装置，该方法包括：接收多个二维图像，该多个二维图像具有对象的至少两个或更多个视场；使用一组可学习权重从该多个二维图像提取多个图像特征；沿着对象的三维模型与旁观者的选定的观察点之间的方向投影该多个图像特征；以及向旁观者提供对象的三维模型的自动立体图像。

应理解的是，本文中描述为适合于结合到本公开的一个或多个方面或实施例中的任何特征旨在可推广到本公开的任何和所有的方面和实施例。本领域技术人员可以根据本公开的说明书、权利要求书和附图理解本公开的其他方面。前文的概括性描述和下文的详细描述仅是示例性和说明性的，并不对权利要求书进行限制。

附图说明

图1A示出了根据一些实施例的包括自动立体外部显示器的AR设备或VR设备。

图1B示出了根据一些实施例的被前面的旁观者观看的AR设备或VR设备用户。

图2示出了根据一些实施例的AR设备或VR设备的目镜的详细视图，该AR设备或VR设备被配置为向前面的旁观者提供用户面部的反向透视视图。

图3A至图3D示出了根据一些实施例的微透镜阵列的不同方面和部件，该微透镜阵列用于向前面的旁观者提供AR设备或VR设备用户的反向透视视图。

图4示出了根据一些实施例的通过光场显示器来向前面的旁观者提供AR设备或VR设备用户的广角、高分辨率视图的光线追踪视图。

图5A至图5D示出了根据一些实施例的微透镜阵列中的分辨力特性的不同方面，该微透镜阵列用于提供AR设备或VR设备用户的广角、高分辨率视图。

图6示出了根据一些实施例的AR设备或VR设备用户的面部的一部分的3D渲染。

图7示出了根据一些实施例的用于VR/AR头戴式设备用户的面部的一部分的3D渲染的模型架构的框图。

图8A至图8D示出了根据一些实施例的用于训练模型以向虚拟现实头戴式设备中的自动立体显示器提供用户面部的一部分的视图的方法中的元素和步骤。

图9示出了根据一些实施例的用于提供VR/AR头戴式设备用户的面部的自动立体视图的方法的流程图。

图10示出了用于根据用户面部的一部分的多个二维(2D)图像渲染该用户面部的一部分的三维(3D)视图的方法的流程图。

图11示出了根据一些实施例的用于训练模型以根据用户面部的一部分的多个二维(2D)图像渲染该用户面部的一部分的三维(3D)视图的方法的流程图。

图12示出了根据一些实施例的计算机系统，该计算机系统被配置为执行用于使用AR设备或VR设备的多种方法中的至少一些方法。

在各附图中，除非另有明确说明，否则相似的元件根据其描述而被相似地标记。

具体实施方式

在以下详细描述中，阐述了许多具体的细节，以提供对本公开的全面理解。然而，对于本领域普通技术人员来说将是显而易见的是，可以在没有这些具体细节中的一些具体细节的情况下对本公开的实施例进行实践。在其他实例中，没有详细示出众所周知的结构和技术，以免模糊本公开。

在AR设备和VR设备及该AR设备和VR设备的使用的领域，用户与环境之间存在断连，这种断连可能会对该用户周围的人造成困扰，甚至会对该用户和附近的其他人造成危害。在某些场景下，用户可能希望与一个或多个旁观者进行交谈或吸引他们的关注。目前的AR设备和VR设备缺乏让旁观者参与并验证用户关注焦点的能力。

通常，显示应用试图匹配广角视场或具有深焦距的三维显示器，就需要在显示器的空间分辨率上做出妥协。一种方法是减小显示器中像素的尺寸，以提高分辨率；然而，在当前最先进的技术中，像素尺寸正在达到可见光和近红外光的衍射极限，这对可实现的最终分辨率施加了限制。在AR设备和VR设备的情况下，考虑到与这些设备所涉及的形状要素和角度大小相关联的范围有限，空间分辨率与角度分辨率之间的这种妥协就不那么严格了。

AR/VR设备的一个理想特征是具有较小的形状要素。因此，需要更薄的设备。为了实现这一点，具有较短工作距离的多微透镜阵列(Multi-lenslet Array，MLA)光场显示器通过使用全息超短焦光学折叠光路(pancake)透镜的便利设计，提供分辨率损失有限、横截面较薄的VR头戴式设备。

AR/VR设备的另一个理想特征是提供高分辨率。尽管这对焦深施加了限制，但是这种限制在用于采集复杂场景的光学系统中是常见的，而对于本文所公开的外部显示器而言，这种限制并不那么严格，因为景深受外部显示器与用户面部之间的相对位置(该相对位置的变化很小)的限制。

本文所公开的实施例提高了使用用于各种应用的VR头戴式设备进行面对面交互(in-person interaction)的质量，其中，一个或多个佩戴着VR头戴式设备的人与一个或多个未佩戴VR头戴式设备的人进行交互。本文所论述的实施例消除了VR用户与旁观者或其他VR用户之间的摩擦，并且弥合了VR与AR之间的差距：透视式AR的益处与VR系统的更精细和更高的沉浸能力共存。因此，本文所公开的实施例提供了引人注目的且更自然的VR体验。

更一般地，本文所公开的实施例提供了一种AR/VR头戴式设备，该AR/VR头戴式设备在旁观者看来像一副标准的透视眼镜，使得AR/VR用户能够更好地与周围环境互动。这在AR/VR用户与其他人或旁观者进行互动的场景中非常有用。

图1A示出了根据一些实施例的头戴式设备10A，该头戴式设备包括自动立体外部显示器110A。头戴式设备10A可以是AR设备或VR设备，该AR设备或VR设备被配置为佩戴在用户的头上。头戴式设备10A包括两个目镜(eyepiece)100A，这两个目镜由带15机械地耦接并且具有柔性底座(mount)，以将电子部件20保持在用户头部的后方。柔性连接件5可以将这两个目镜100A与电子部件20电连接。这两个目镜100A中的目镜各自包括眼睛成像系统115-1和115-2(在下文中，统称为“眼睛成像系统115”)，该眼睛成像系统被配置为收集从选定的视场(FOV)中的光学表面反射的用户面部的一部分的图像。眼睛成像系统115可以包括双眼摄像头，该双眼摄像头在不同的FOV下收集用户眼睛的两个图像，以生成用户面部的至少一部分的三维立体视图。眼睛成像系统115可以向电子部件提供有关瞳孔位置和瞳孔移动的信息。目镜100A还可以包括外部显示器110A(例如，光场显示器)，该外部显示器与光学表面相邻且被配置为从用户前方投射该用户面部的自动立体图像。

在一些实施例中，电子部件20可以包括存储器电路112和处理器电路122，该存储器电路存储有指令，该处理器电路执行这些指令，以接收来自眼睛成像系统115的用户面部的一部分的图像并向外部显示器110A提供用户面部的自动立体图像。此外，电子部件20还可以接收来自一个或多个眼睛摄像头的用户面部的一部分的图像，并且应用图像分析来评估用户对外部视图的一方面或虚拟现实显示器的凝视、辐辏(vergence)和聚焦。在一些实施例中，电子部件20包括通信模块118，该通信模块被配置为与网络通信。通信模块118可以包括射频软件和硬件，以将存储器112和处理器122与外部网络或一些其他设备进行无线通信。因此，通信模块118可以包括无线电天线、收发器和传感器，以及还包括用于根据多种无线协议中的任何一种无线协议进行信号处理的数字处理电路，这些无线协议为例如无线网络通信技术(Wi-Fi)、蓝牙(Bluetooth)、和近场接触(Near field contact，NFC)等。另外，通信模块118还可以和与头戴式设备10A协作的其他输入工具和附件(例如，手柄、操纵杆、鼠标、以及无线指针等)进行通信。

在一些实施例中，目镜100A可以包括一个或多个外部摄像头125-1和125-2(在下文中，统称为“外部摄像头125”)，以为用户采集场景的前方视图。在一些实施例中，外部摄像头125可以基于用户视图的凝视、辐辏、以及其他特征，来聚焦或指向(例如，由处理器122聚焦或指向)用户可能特别感兴趣的前方视图的各个方面，其中，用户视图的凝视、辐辏、以及其他特征可以从双眼摄像头所提供的用户面部的一部分的图像得到。

图1B示出了根据一些实施例的被前面的旁观者观看的头戴式设备10B。在一些实施例中，头戴式设备10B可以是处于“浮潜(snorkel)”配置的AR设备或VR设备。在下文中，头戴式设备10A和10B将被统称为“头戴式设备10”。在一些实施例中，护目镜(visor)100B可以包括单个前向的显示器110B，该显示器向旁观者102提供用户101的视图。显示器110B包括用户101的面部的一部分，该部分具有两只眼睛、鼻子的一部分、眉毛、以及其他面部特征。此外，用户面部的自动立体图像111可以包括各种细节，例如用户眼睛的准确且实时的位置，该位置指示用户101的凝视方向和注意力的辐辏或焦点。这可以向旁观者102指示用户是否正在注意已经说过的某件事，或者可能引起用户注意的一些其他环境干扰或感官输入。

在一些实施例中，自动立体图像111提供用户面部的3D渲染。因此，旁观者102具有用户面部甚至用户头部的全身视图，该视图随着旁观者102视角的改变而改变景象。在一些实施例中，向外投影的显示器110B可以包括除了用户面部的一部分的图像之外的图像特征。例如，在一些实施例中，向外投影的显示器可以包括叠加到用户面部图像的图像中的虚拟元素(例如，用户实际正在观看的虚拟图像的反射或眩光，或者环境中真实光源的反射或眩光)。

图2示出了根据一些实施例的AR设备或VR设备的目镜200的详细视图，该AR设备或VR设备被配置为向前面的旁观者提供用户面部的反向透视视图(参考目镜100A和浮潜式护目镜100B)。目镜200包括光学表面220，该光学表面被配置为在光学表面220的第一侧(左侧)上向用户提供图像。在一些实施例中，可以由前向摄像头225向用户提供图像，光学表面220可以包括耦接到前向摄像头225的显示器。在一些实施例中，光学表面220中的图像可以是由处理器所提供的虚拟图像，该处理器为执行存储在存储器(例如，用于VR设备、存储器112和处理器122的存储器)中的指令的处理器。在一些实施例中(例如，对于AR设备)，给用户的图像可以至少部分包括经由透明光学部件(例如，透镜、波导、以及棱镜等)从目镜200的前侧传输的图像。

在一些实施例中，目镜200还包括第一眼睛摄像头215A和第二眼睛摄像头215B(在下文中，统称为“眼睛摄像头215”)，该第一眼睛摄像头和该第二眼睛摄像头被配置为在两个不同的FOV下采集用户面部(例如，用户的眼睛)的第一图像和第二图像。在一些实施例中，眼睛摄像头215可以是红外摄像头，该红外摄像头以反射模式从热镜组件205收集用户面部的图像。照明环211可以向将要由眼睛摄像头215进行成像的用户面部的一部分提供照明。因此，光学表面220可以被配置为在由眼睛摄像头215操作的光的波长(例如，红外域)下进行反射，并且透射向用户提供图像的光(例如，可见域，该可见域包括红(R)、蓝(B)和绿(G)像素)。前向显示器210B向旁观者(向图的右端)投射用户面部的自动立体图像。

图3A至图3D示出了根据一些实施例的微透镜阵列300的不同方面和部件，该微透镜阵列用作屏幕，以向前面的旁观者提供AR设备或VR设备的用户的反向透视视图。在一些实施例中，微透镜阵列300接收来自像素阵列320的光，并且向旁观者提供用户面部的图像。在一些实施例中，取决于旁观者的视角，用户面部的图像是用户面部的3D渲染的透视图。

图3A为微透镜阵列300的详细视图，该微透镜阵列包括多个微透镜301-1、301-2和301-3(在下文中，统称为“微透镜301”)，该多个微透镜排列成具有间距305的二维图案302。在一些实施例中，可以设置与微透镜阵列相邻的孔眼掩模(aperture mask)315，使得每个微透镜301对准一个孔，以避免与旁观者的视点不同的视角的串扰。

仅出于说明性目的，图案302是间距305小于一毫米(例如，500微米(μm))的微透镜301的六方点阵(hexagonal lattice)。微透镜阵列300可以包括第一表面和第二表面310，该第一表面或第二表面包括形成微透镜301的凹陷，第一表面和第二表面310由透射性衬底307(例如，N-BK7玻璃、以及塑料等)隔开。在一些实施例中，透射性衬底307可以具有约200μm的厚度。

图3B为根据一些实施例的用于反向透视头戴式设备的光场显示器350的详细视图。光场显示器350包括像素阵列320，该像素阵列与微透镜阵列(例如，微透镜阵列300)相邻，出于说明性目的，在该微透镜阵列中仅示出了一个微透镜301。像素阵列320包括多个像素321，这些像素生成指向微透镜301的光束323。在一些实施例中，像素阵列320与微透镜301之间的距离303可以近似等于微透镜301的焦距，因此，可以取决于原始像素321的特定位置而在不同方向上对出射光束325进行准直。因此，取决于旁观者的位置，像素阵列320中的不同像素321可以提供不同视角的用户面部的3D表示。

图3C为微透镜阵列300的平面图，该平面图显示出蜂窝图案。

图3D示出了微透镜阵列300，其中，与该微透镜阵列相邻设置有孔眼掩模315，使得孔眼掩模315上的开口的中心位于微透镜阵列300上。在一些实施例中，孔眼掩模315可以包括铬(chrome)，该孔眼掩模在500μm的六方堆积间距(hex-pack pitch)上具有约400μm的孔径(如图所示)。在微透镜阵列300的任一侧、或两侧上，孔眼掩模315可以与第一表面或第二表面310对齐。

图4示出了根据一些实施例的向旁观者提供AR/VR设备用户的面部的反向透视图像的光场显示器450的光线追踪视图。根据一些实施例，光场显示器450包括微透镜阵列400，该微透镜阵列用于向前面的旁观者提供AR设备或VR设备用户的面部的广角、高分辨率视图。如本文所公开的，微透镜阵列400包括排列成二维图案的多个微透镜401。像素阵列420可以包括提供光线423的多个像素421，该光线透过微透镜阵列400，以生成AR设备或VR设备用户的面部的至少一部分的3D渲染。微透镜阵列400可以包括孔眼掩模415。孔眼掩模415在微透镜阵列400中的多个微透镜中的每个微透镜的边缘附近提供遮挡元件。对于旁观者而言，该遮挡元件相对于形成用户面部的前方视图的光线425A减少了光线425B和425C的量。这减少了位于屏幕前面且正在观看用户面部的3D渲染的旁观者的串扰和鬼影效果(向下，根据图4)。

图5A至图5C示出了根据一些实施例的微透镜阵列中的分辨力特性500A、500B和500C(在下文中，统称为“分辨力特性500”)的不同方面，该微透镜阵列用于提供AR设备或VR设备的用户面部的广角、高分辨率视图。分辨力特性500中的横轴521(X轴)指示用户面部(例如，用户的眼睛)与微透镜阵列之间的图像距离(以毫米(mm)为单位)。分辨力特性500中的纵轴522(Y轴)是根据频率值给定的光学系统的分辨率，该光学系统包括光学显示器和屏幕，该分辨率例如为显示器上每毫米的特征周期(周期/mm)，该分辨率如位于距佩戴着AR设备或VR设备的用户约一米处的旁观者所看到的。

图5A示出了包括截止值的分辨力特性500A，该截止值是旁观者可以从显示器辨别出的最高频率。曲线501-1A和501-2A(在下文中，统称为“曲线501A”)与两种不同的头戴式设备模型(分别称为模型1和模型2)相关联。具体分辨率取决于图像距离和屏幕的其他参数，例如微透镜阵列的间距(例如，间距305)。一般而言，对于用户的眼睛与屏幕之间的距离较大的情况，分辨率截止将单调下降(沿着横轴521向右)。这由曲线501-2A的截止值510-2A(约为0.1个周期/mm)与曲线501-1A的截止值510-1A(约为0.25个周期/mm)之间的差异示出。实际上，曲线501-2A的头戴式设备模型的图像距离(用户面部与显示器之间接近10厘米(cm))比曲线501-1A的头戴式设备模型的图像距离(用户眼睛与显示器之间约为5厘米)更大。此外，对于具有较宽间距(模型2，500μm间距)的微透镜阵列，分辨率截止将相对于较小间距(模型1，200μm间距)降低。

图5B示出了分辨力特性500B，该分辨力特性包括用于光场显示器模型(模型3)的曲线501B，该光场显示器模型在点510B处提供约5cm的图像距离和约0.3个周期/mm的空间频率。

图5C示出了分辨力特性500C，该分辨力特性包括曲线501-1C、501-2C、501-3C和501-4C(在下文中，统称为“曲线501C”)。分辨力特性500C的横轴521C(X轴)指示头戴式设备深度(例如，与用户的眼睛/面部和光场显示器之间的距离相似)，纵轴522C(Y轴)指示光场显示器中的像素阵列的像素间距(以微米(μm)为单位)。多条曲线501C中的每条曲线指示每个光场显示器模型的周期/mm截止分辨率的数量。示出了点510B与点510C的对比情况，光场显示器模型(模型4)在点510C处获得更好的分辨率，该光场显示器模型具有高密度像素堆积(pixel packing)(间距小于10μm)，近距离头戴式设备深度约为25mm(例如，约1英寸或更小)。

图5D示出了多个光场显示器模型中的每个光场显示器模型的、根据旁观者的、佩戴着头戴式设备的用户的图像510-1D和510-2D。图像510-1D利用光场显示器的模型3来获取，图像510-2D利用光场显示器的模型4来获取(分别参考点510B和510C)。模型4的分辨率性能肯定好于模型3的分辨率性能，这表明：考虑到模型设计方面的其他权衡因素，在满足所期望的分辨率方面存在广泛的可能性，这与本公开一致。

图6示出了根据一些实施例的AR设备或VR设备用户的面部的一部分的3D渲染621A和621B(在下文中，统称为“3D渲染621”)。在一些实施例中，3D渲染621由对用户的面部(例如，眼睛)的至少一部分的多个2D图像611进行操作的模型650来提供，以及由AR设备或VR设备中的眼睛成像系统(参见眼睛成像系统115和眼睛摄像头215)来提供。模型650可以包括线性算法和/或非线性算法，例如神经网络(Neural Network，NN)、卷积神经网络(Convolutional Neural Network，CNN)、机器学习(Machine Learning，ML)模型和人工智能(Artificial Intelligence，AI)模型。模型650包括存储在存储器电路中并由处理器电路执行的指令。存储器电路和处理器电路可以存储在AR设备或VR设备的背面(例如，电子部件20中的存储器112和处理器122)。因此，从眼睛成像系统接收多个2D图像611，以创建、更新和改进模型650。该多个2D图像包括(例如，来自眼睛成像系统中的两个不同立体眼睛摄像头中的每个立体眼睛摄像头的)至少两个不同的FOV，模型650可以确定哪个图像来自哪个摄像头，以形成3D渲染621。然后，模型650使用2D图像输入和两个眼睛摄像头的FOV之间的差异的详细知识(例如，摄像头方向向量)，提供AR设备或VR设备用户的面部的至少一部分的3D渲染621。

图7示出了根据一些实施例的用于VR/AR头戴式设备用户的面部的一部分的3D渲染的模型架构700的框图。模型架构700是像素对齐的体积化身(pixel alignedvolumetric avatar，PVA)模型。PVA模型700从生成多个2D输入图像701-1、701-2和701-n(在下文中，统称为“输入图像701”)的多视图图像集合中学习。多个输入图像701中的每个输入图像与摄像头视图矢量v_i(例如，v₁、v₂和v_n)相关联，该视图矢量指示特定图像中的用户面部的视图方向。多个矢量v_i中的每个矢量是已知的视点711，该视点与摄像头固有参数K_i和旋转参数R_i(例如，{K_i，[R|t]_i})相关联。摄像头固有参数K_i可以包括亮度、色彩映射、传感器效率、以及其他依赖于摄像头的参数。旋转参数R_i指示对象的头部相对于摄像头的定向(和距离)。尽管事实是不同的摄像头传感器是同一摄像头型号，但是它们对相同的入射辐射的响应略有不同。如果不采取任何措施来解决这一问题，强度差异最终会被纳入到场景表示N中，这将导致图像在某些视点下不自然地变亮或变暗。为了解决这个问题，我们学习了每个摄像头的偏差和增益值。这使得本系统就能够以一种“更容易”的方式来解释数据中的这种变化。

‘n’的值仅仅是示例性的，因为任何普通技术人员都会意识到的是，可以使用任何数量n的输入图像701。PVA模型700生成头戴式设备用户的体积渲染721。体积渲染721是可以用于从目标视点生成对象的2D图像的3D模型(例如，“化身”)。该2D图像随着目标视点的改变而改变(例如，随着旁观者在头戴式设备用户周围移动)。

PVA模型700包括卷积编码器-解码器710A、光线行进阶段710B和辐射场阶段710C(在下文中，统称为“PVA阶段710”)。PVA模型700是使用梯度下降、利用从多身份训练库中选择的输入图像701来训练的。因此，PVA模型700包括在来自多个对象的预测图像与对应的基准真值之间定义的损失函数。这使得PVA模型700能够独立于对象来渲染准确的体积渲染721。

卷积编码器-解码器网络710A获取输入图像701，并且生成像素对齐的特征图703-1、703-2和703-n(在下文中，统称为“特征图703”)。光线行进阶段710B沿着目标视图j(由{Kj，[R|t]j}定义)中的光线跟随每个像素，在每个点处累积由辐射场阶段710C生成的颜色c和光密度(“不透明度”)。辐射场阶段710C(N)将3D位置和像素对齐的特征转换为颜色和不透明度，以渲染辐射场715(c，σ)。

输入图像701是3D对象，该3D对象具有与由摄像头沿着方向v_i收集的2D图像相对应的高度(h)和宽度(w)，且对于每个颜色像素R、G、B具有3层的深度。特征图703是具有维度h×w×d的3D对象。编码器-解码器网络710A使用可学习权重721-1、721-2……721-n(在下文中，统称为“可学习权重721”)对输入图像701进行编码。光线行进阶段710B执行世界到摄像头投影723、双线性插值725、位置编码727、以及特征聚集729。

在一些实施例中，对于条件视图(conditioning view)v_i∈R^h×w×3特征图703可以被定义为函数

其中，φ(X)：R³→R^6×l是点730的位置编码(X∈R³)，该位置编码具有2×l个不同的基函数。点730(X)是沿着从对象的2D图像指向特定视点731r₀的光线的点。特征图703(f⁽ⁱ⁾∈R^h×w×d)与摄像头位置矢量v_i相关联，其中，d是特征通道的数量，h和w是图像的高度和宽度，且f_X∈R^d’是与点X相关联的聚集图像特征。对于每个特征图f⁽ⁱ⁾，光线行进阶段710B通过使用特定视点的摄像头内部参数(K)和外部参数(R，t)沿着光线投影3D点X来获取f_X∈R^d，

x_i＝∏(X；K_i[R|t]_i) (3)

其中，Π是对摄像头像素坐标的透视投影函数，F(f,x)是f在像素位置x处的双线性插值725。光线行进阶段710B对来自辐射场阶段710C的多个图像的像素对齐特征f⁽ⁱ⁾ _X进行组合。

对于具有摄像头固有K_j以及旋转R_j和平移t_j的每个给定的训练图像v_j，通过使用摄像头到世界的投影矩阵P^-1＝[R_i|t_i]^-1K^-1 _i将光线行进到场景中，获取摄像头和中心731(r₀)∈R³的焦平面中的给定视点的像素p∈R²的预测颜色，该投影矩阵具有由下式给出的光线方向，

光射行进阶段710B沿着光线735累积辐射值和不透明度值，该光线由t∈[t_近,t_远]的r(t)＝r₀+td定义如下：

其中，

在一些实施例中，光射行进阶段710B对一组n_s个点t～[t_近,t_远]进行均匀采样。设置X＝r(t)，可以使用求积规则来近似积分6和7。函数I_α(p)可以被定义为

其中，α_i＝1-exp(-δ_i·σ_i)，其中，δ_i是沿着光线735的第i+1个采样点与第i个采样点之间的距离。

在具有已知摄像头视点v_i和固定数量的条件视图的多视图设置中，光线行进阶段710B通过简单的串联(concatenation)来聚集特征。具体地，对于具有由{R_i}ⁿ _i＝1和{ti}ni＝1给定的相应的旋转矩阵和平移矩阵的n个条件图像{v_i}ⁿ _i＝1，光线行进阶段710B对如公式(3)中的每个点X使用特征{f⁽ⁱ⁾ _X}ⁿ _i＝1来生成如下最终特征，

其中，表示沿着深度维度的串联。这保留了来自视点{v_i}ⁿ _i＝1的特征信息，有助于PVA模型700确定最佳组合并采用条件信息。

在一些实施例中，PVA模型700与视点和条件视图的数量无关。在这种情况下，如上的简单串联是不够的，因为条件视图的数量可能不是先验已知的，从而导致在推理时间期间出现不同的特征维度(d)。为了总结多视图设置的特征，一些实施例包括置换不变函数G:R^n×d→R^d，使得对于任何置换ψ，

G(f⁽¹⁾,…,f⁽ⁿ⁾)＝G([f^ψ(1),f^ψ(2)…,f^ψ(n)])

用于特征聚集的简单置换不变函数是采样后的多个特征图703的平均值。当训练期间的深度信息可用时，可能需要该聚集过程。然而，在存在深度模糊的情况下(例如，对于在采样之前被投影到特征图703上的点)，上述聚集可能导致伪影。为了避免这一点，一些实施例认为摄像头信息包括辐射场阶段710C中的有效调节。因此，一些实施例包括调节功能网络N_cf:R^d+7→R^d’，该调节功能网络采用特征矢量f⁽ⁱ⁾ _X和摄像头信息(ci)，并且生成摄像头汇总特征矢量f’⁽ⁱ⁾ _X。然后，这些修改后的矢量在多个或所有条件视图上求平均，如下所示

这种方法的优点在于，在执行特征求平均之前，摄像头汇总特征可以将可能的遮挡考虑在内。摄像头信息被编码为四维(4D)旋转四元数和3D摄像头位置。

一些实施例还可以包括背景估计网络N_bg，以避免对场景表示中的部分背景进行学习。背景估计网络N_bg可以被定义为：N_bg:R^nc:→R^h×w×3，以学习每个摄像头的固定背景。在一些实施例中，辐射场阶段710C可以使用N_bg来对最终图像像素进行如下预测：

I_p＝I_rgb+(1-I_α)·I_bg (11)

其中，对于摄像头c_i，其中，/>是使用图像修复来提取的背景的初始估计，I_α如公式(8)所定义的。这些图像修复后的背景通常是有噪声的，从而导致人的头部周围产生“光晕(halo)”效果。为了避免这一点，N_bg模型对图像修复后的背景的残差进行学习。这样做的优点在于不需要大容量网络来处理(account for)背景。

对于基准真值目标图像v_j，PVA模型700使用简单的光度重建损失来训练辐射场阶段710C和特征提取网络这两者：

图8A至图8D示出了根据一些实施例的用于训练模型以向虚拟现实头戴式设备中的自动立体显示器提供用户面部的一部分的视图的方法中的元素和步骤。目镜800是用来自多个用户的多个训练图像811来进行训练的。为该多个用户中的每个用户创建包括纹理图和深度图的3D模型821，以恢复图像特征833-1B、833-2B和833C(在下文中，统称为“纹理和深度图833”)的精细细节。当生成3D模型821时，用户面部的三维重建的自动立体图像被提供给了光场显示器中的像素阵列。光场显示器被分成多个有源像素区段，每个区段提供旁观者的选定的视角下的3D模型821的视场的一部分。

图8A示出了根据一些实施例的用于将多个训练图像811收集到目镜800上的设置850。训练图像811可以由显示器提供，并且当目镜装配在头戴式设备中时，将该训练图像投影到设置在与热镜相同位置的屏幕812上。一个或多个红外摄像头815以反射模式收集训练图像811，一个或多个RGB摄像头825以透射模式收集训练图像。设置850具有对于所有训练图像811而固定的图像矢量801-1、红外(IR)摄像头矢量801-2和RGB摄像头矢量801-3(在下文中，统称为“定位矢量801”)。算法模型使用定位矢量801来准确地估计与3D模型821相关联的尺寸、距离和视角。

图8B示出了根据一些实施例的纹理图像833-1B和深度图像833-2B。可以使用RGB摄像头825从训练图像的采集中获取纹理图像833-1B，可以使用IR摄像头815从训练图像中获取深度图像833-2B。

图8C示出了根据一些实施例的用IR摄像头815收集的深度图像833C。图8D示出了根据一些实施例的相对于目镜800形成的3D模型821。

图9示出了根据一些实施例的用于提供VR/AR头戴式设备用户的面部的自动立体视图的方法900的流程图。方法900中的各步骤可以至少部分地由处理器来执行，该处理器执行存储在存储器中的指令，其中，处理器和存储器是如本文所公开的头戴式设备中的电子部件(例如，存储器112、处理器122、电子部件20、以及头戴式设备10)的一部分。在另一些实施例中，与方法900一致的方法中的多个步骤中的至少一个或多个步骤可以由执行存储在存储器中的指令的处理器来执行，其中，处理器和存储器中的至少一者远程位于云服务器中，头戴式设备经由耦接到网络的通信模块(参见通信模块118)通信耦接到该云服务器。在一些实施例中，方法900可以使用如本文所公开的包括机器学习中的神经网络架构或人工智能算法的模型(例如，模型650、模型架构700)来执行。在一些实施例中，与本公开一致的方法可以包括方法900中的一个或多个步骤，该一个或多个步骤以不同顺序执行、同时执行、准同时(quasi-simultaneously)执行或时间上重叠执行。

步骤902包括从一个或多个头戴式设备摄像头接收多个图像，该多个图像具有对象的至少两个或更多个视场，其中，该对象是头戴式设备的用户。

步骤904包括使用一组可学习权重从多个图像提取多个图像特征。在一些实施例中，步骤904包括沿着扫描线匹配该多个图像特征，以在第一分辨率设置下构建代价体(cost volume)并提供粗略的视差估计。在一些实施例中，步骤904包括在第二分辨率设置下恢复包括小细节和薄结构的一个或多个图像特征，该第二分辨率设置高于第一分辨率设置。在一些实施例中，步骤904包括基于该多个图像特征生成用户面部的部分的纹理图和用户面部的部分的深度图，其中，纹理图包括该多个图像特征的颜色细节，深度图包括该多个图像特征的深度位置。在一些实施例中，步骤904包括提取用于收集该多个图像中的每个图像的头戴式设备摄像头的固有属性。

步骤906包括使用可学习权重形成对象的三维模型。

步骤908包括将对象的三维模型映射到自动立体显示格式上，该自动立体显示格式将对象的图像投影与旁观者的选定的观察点进行关联。在一些实施例中，步骤908包括向光场显示器的一个区段提供用户面部在旁观者的选定的视点处的视场的一部分。在一些实施例中，步骤908还包括追踪一个或多个旁观者，以识别视角并修改光场显示器，从而优化该一个或多个旁观者中的每个旁观者的视场。在一些实施例中，步骤908包括用与第二观察点相关联的特征图，对与第一观察点相关联的特征图进行插值。在一些实施例中，步骤908包括沿着选定的观察点的方向聚集多个像素的多个图像特征。在一些实施例中，步骤908包括将每个头戴式设备摄像头生成的多个特征图以置换不变组合(permutation invariantcombination)进行串连，该每个头戴式设备摄像头具有固有特征。

步骤910包括当旁观者位于选定的观察点时，在显示器上提供对象的图像投影。在一些实施例中，步骤910包括随着旁观者从第一观察点移动到第二观察点，在设备显示器上提供第二图像投影。

图10示出了用于根据用户面部的一部分的多个二维(2D)图像渲染该用户面部的一部分的三维(3D)视图的方法1000的流程图。方法1000中的各步骤可以至少部分地由处理器来执行，该处理器执行存储在存储器中的指令，其中，处理器和存储器是如本文所公开的头戴式设备中的电子部件(例如，存储器112、处理器122、电子部件20、以及头戴式设备10)的一部分。在另一些实施例中，与方法1000一致的方法中的多个步骤中的至少一个或多个步骤可以由执行存储在存储器中的指令的处理器来执行，其中，处理器和存储器中的至少一者远程位于云服务器中，头戴式设备经由耦接到网络的通信模块(参见通信模块118)通信耦接到该云服务器。在一些实施例中，方法1000可以使用如本文所公开的包括机器学习中的神经网络架构或人工智能算法的模型(例如，模型650、模型架构700)来执行。在一些实施例中，与本公开一致的方法可以包括方法1000中的一个或多个步骤，该一个或多个步骤以不同顺序执行、同时执行、准同时执行或时间上重叠执行。

步骤1002包括从多个用户的面部收集多个基准真值图像。

步骤1004包括用所存储的、经校准的立体图像对来校正该多个基准真值图像。在一些实施例中，步骤1004包括使用一组可学习权重从多个二维图像提取多个图像特征。在一些实施例中，步骤1004包括提取用于收集二维图像的摄像头的固有属性。

步骤1006包括将对象的三维模型映射到自动立体显示格式上，该自动立体显示格式将该对象的图像投影与旁观者的选定的观察点进行关联。在一些实施例中，步骤1006包括沿着对象的三维模型与旁观者的选定的观察点之间的方向投影图像特征。在一些实施例中，步骤1006包括用与第二方向相关联的特征图，对与第一方向相关联的特征图进行插值。在一些实施例中，步骤1006包括沿着对象的三维模型与选定的观察点之间的方向聚集多个像素的图像特征。在一些实施例中，步骤1006包括将多个摄像头中的每个摄像头生成的多个特征图以置换不变组合进行串连，该多个摄像头中的每个摄像头具有固有特征。

步骤1008包括基于多个基准真值图像与对象的图像投影之间的差异来确定损失值。在一些实施例中，步骤1008包括向旁观者提供对象的三维模型的自动立体图像。在一些实施例中，步骤1008包括基于对象的三维模型的自动立体图像与该对象的基准真值图像之间的差异来评估损失函数，以及基于该损失函数对该组可学习权重中的至少一个可学习权重进行更新。

步骤1010包括基于损失值对对象的三维模型进行更新。

图11示出了根据一些实施例的用于训练模型以根据用户面部的一部分的多个二维(2D)图像渲染该用户面部的一部分的三维(3D)视图的方法1100的流程图。方法1100中的各步骤可以至少部分地由处理器来执行，该处理器执行存储在存储器中的指令，其中，处理器和存储器是如本文所公开的头戴式设备中的电子部件(例如，存储器112、处理器122、电子部件20、以及头戴式设备10)的一部分。在另一些实施例中，与方法1100一致的方法中的多个步骤中的至少一个或多个步骤可以由执行存储在存储器中的指令的处理器来执行，其中，处理器和存储器中的至少一者远程位于云服务器中，头戴式设备经由耦接到网络的通信模块(参见通信模块118)通信耦接到该云服务器。在一些实施例中，方法1100可以使用如本文所公开的包括机器学习中的神经网络架构或人工智能算法的模型(例如，模型650、模型架构700)来执行。在一些实施例中，与本公开一致的方法可以包括方法1100中的一个或多个步骤，该一个或多个步骤以不同顺序执行、同时执行、准同时执行或时间上重叠执行。

步骤1102包括从多个用户的面部收集多个基准真值图像。

步骤1104包括用所存储的、经校准的立体图像对来校正该多个基准真值图像。

步骤1106包括用三维面部模型生成对象的多个合成视图，其中，对象的合成视图包括沿着不同方向投影的多个特征图的插值，该不同方向与对象的多个视图相对应。在一些实施例中，步骤1106包括沿着选定的观察方向投影来自多个基准真值图像中的每个基准真值图像的多个图像特征，并且将该多个基准真值图像中的每个基准真值图像生成的多个特征图以置换不变组合进行串连，该多个基准真值图像中的每个基准真值图像具有固有特性。

步骤1108包括基于对象的该多个基准真值图像与合成视图之间的差异，对三维面部模型进行训练。在一些实施例中，步骤1108包括基于指示对象的多个基准真值图像与合成视图之间的差异的损失函数的值，为特征图中的多个特征中的每个特征对一组可学习权重中的至少一个可学习权重进行更新。在一些实施例中，步骤1108包括基于从该多个基准真值图像投影的像素背景值，对该多个基准真值图像中的多个像素中的每个像素的背景值进行训练。

硬件概述

图12是示出了示例性计算机系统1200的框图，利用该计算机系统可以实施头戴式设备10以及方法900、1000和1100。在某些方面，计算机系统1200可以使用硬件或软件与硬件的组合来实施，可以在专用服务器中实施，可以集成到另一实体中来实施，或者分布在多个实体中来实施。计算机系统1200可以包括台式计算机、笔记本电脑、平板电脑、平板手机、智能手机、功能型手机、服务器计算机、或其他设备。服务器计算机可以远程地位于数据中心或被存储在本地。

计算机系统1200包括总线1208或用于传输信息的其他通信机构、以及与总线1208耦接以用于处理信息的处理器1202(例如，处理器122)。作为示例，计算机系统1200可以用一个或多个处理器1202来实施。处理器1202可以是通用微处理器、微控制器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、状态机、门控逻辑、分立的多个硬件部件、或可以执行计算或其他信息操作的任何其他合适的实体。

除了硬件之外，计算机系统1200可以包括代码，该代码为所论述的计算机程序创建执行环境，该代码例如为构成存储在所包括的存储器(memory)1204(例如，存储器112)中的以下内容的代码：处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一者或多者的组合，该存储器例如为：随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、寄存器、硬盘、可移动磁盘、紧凑型光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)、或任何其他合适的存储设备，该存储器与总线1208耦接以用于存储信息和待由处理器1202执行的指令。处理器1202和存储器1204可以由专用逻辑电路补充或被并入专用逻辑电路中。

指令可以被存储在存储器1204中，并且可以在一个或多个计算机程序产品中实施，该一个或多个计算机程序产品例如为多个计算机程序指令的一个或多个模块，这些计算机程序指令被编码在计算机可读介质上、以用于由计算机系统1200执行或控制该计算机系统的操作，并且根据本领域技术人员所众所周知的任何方法，这些计算机程序指令包括但不限于计算机语言，计算机语言为诸如面向数据的语言(例如，SQL、dBase)、系统语言(例如，C、扩充C的面向对象编程语言(Objective-C)、C++、汇编)、架构语言(例如，Java、NET)以及应用程序语言(例如，PHP、Ruby、Perl、Python)。指令还可以按照以下计算机语言来实施：例如数组语言、面向方面的语言、汇编语言、创作语言(authoring language)、命令行接口语言、编译语言、并发语言、花括号语言(curly-bracket language)、数据流语言、数据结构化语言、声明性语言、深奥的语言(esoteric language)、扩展语言(extension language)、第四代语言、函数式语言、交互模式语言、解释型语言、迭代语言(iterative language)、基于列表的语言(list-based language)、小语言(little language)、基于逻辑的语言、机器语言、宏语言、元编程语言、多范式语言(multiparadigm language)、数值分析语言、非基于英语的语言(non-English-based language)、面向对象的基于类的语言、面向对象的基于原型的语言、越位规则语言(off-side rule language)、过程化语言、反射式语言(reflective language)、基于规则的语言、脚本语言、基于堆栈的语言、同步式语言、语法处理语言(syntax handling language)、视觉语言、wirth语言和基于xml的语言。存储器1204还可以用于在执行待由处理器1202执行的指令期间，存储临时变量或其他中间信息。

如本文所论述的计算机程序不一定对应于文件系统中的文件。程序可以存储在保存有其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中，存储在专用于所论述程序的单个文件中，或者存储在多个协同文件(例如，存储有一个或多个模块、一个或多个子程序或部分代码的多个文件)中。计算机程序可以部署为在一台计算机或多台计算机上执行，该多台计算机位于一个站点处、或分布在多个站点且通过通信网络互连。本说明书中描述的过程和逻辑流可以由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。

计算机系统1200还包括诸如磁盘或光盘的数据存储设备(data storage device)1206，该数据存储设备与总线1208耦接以用于存储信息和指令。计算机系统1200可以经由输入/输出模块1210耦接至各种设备。输入/输出模块1210可以是任何的输入/输出模块。示例性输入/输出模块1210包括诸如USB端口的数据端口。输入/输出模块1210被配置为连接至通信模块1212。示例性通信模块1212包括连网接口卡，例如以太网卡和调制解调器。在某些方面，输入/输出模块1210被配置为连接至多个设备，例如，输入设备1214和/或输出设备1216。示例性输入设备1214包括键盘和指针设备(例如，鼠标或追踪球)，用户可以通过该键盘和指针设备向计算机系统1200提供输入。其他种类的输入设备1214也可以用于提供与用户的交互，这些输入设备例如为触觉输入设备、视觉输入设备、音频输入设备、或脑机接口设备。例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式来接收来自用户的输入，这些形式包括声音输入、语音输入、触觉输入或脑电波输入。示例性输出设备1216包括用于向用户显示信息的显示设备，例如液晶显示器(liquid crystal display，LCD)监视器。

根据本公开的一方面，可以响应于处理器1202执行存储器1204中包含的一个或多个指令的一个或多个序列，使用计算机系统1200来至少部分地实施头戴式设备10。这些指令可以被从另一机器可读介质(例如，数据存储设备1206)读入到存储器1204中。对包含在主存储器1204中的指令序列的执行，使得处理器1202执行本文所描述的过程步骤。还可以采用多处理配置中的一个或多个处理器，执行包含在存储器1204中的指令序列。在替代方面，可以使用硬连线电路来代替软件指令，或可以将硬连接线路与软件指令组合使用，以实施本公开的各种方面。因此，本公开的各方面不限于硬件电路与软件的任何特定组合。

本说明书中所描述的主题的各方面可以在计算系统中实施，该计算系统包括后端部件(例如，数据服务器)，或该计算系统包括中间件部件(例如，应用服务器)，或该计算系统包括前端部件(例如，具有图形用户界面或网页浏览器的客户端计算机，用户可以通过该图形用户界面或网页浏览器与本说明书中描述的主题的实施方式进行交互)；或者本说明书中所描述的主题的各方面可以在一个或多个这种后端部件、一个或多个这种中间件部件或一个或多个这种前端部件的任意组合中实现。该系统的各部件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络例如可以包括局域网(LAN)、广域网(WAN)和互联网等中的任何一种或多种。此外，通信网络可以例如包括但不限于以下网络拓扑中的任何一种或多种，这些网络拓扑包括总线网络、星形网络、环形网络、网状网络、星形总线网络、或者树形或分层网络等。通信模块例如可以是调制解调器或以太网卡。

计算系统1200可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端与服务器的关系借助于在各自的计算机上运行且彼此之间具有客户端-服务器关系的计算机程序而产生。例如，计算机系统1200可以是但不限于台式计算机、膝上型计算机或平板电脑。计算机系统1200还可以嵌入在另一设备中，该另一设备例如但不限于移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GlobalPositioning System，GPS)接收器、视频游戏控制台、和/或电视机顶盒。

如本文所使用的术语“机器可读存储介质”或“计算机可读介质”是指，参与向处理器1202提供指令以用于执行的任何一个介质或多个介质。这种介质可以采取许多形式，这些形式包括但不限于非易失性介质、易失性介质和传输介质。例如，非易失性介质包括光盘或磁盘，例如数据存储设备1206。易失性介质包括动态存储器，例如，存储器1204。传输介质包括同轴电缆、铜线和光纤，该同轴电缆、铜线和光纤包括形成总线1208的线。例如，机器可读介质的常见形式包括软盘(floppy disk)、软磁盘(flexibledisk)、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH EPROM、任何其他存储器芯片或盒式存储器(cartridge)、或计算机可以读取的任何其他介质。机器可读存储介质可以是机器可读存储设备、机器可读存储基体(machine-readable storage substrate)、存储器设备、影响机器可读传播信号的物质的组合、或者它们中的一者或多者的组合。

为了说明硬件与软件的可互换性，诸如各种说明性块、模块、部件、方法、操作、指令和算法等项目已大体在它们的功能性方面进行了描述。是否将此功能性实施为硬件、软件、或者硬件与软件的组合，取决于具体应用和施加于整个系统的设计约束。熟练的技术人员可以对于每一具体应用以不同方式来实施所描述的功能性。

如本文所使用的，短语“……中的至少一个”在一系列项目之前，用术语“和”或“或”将这些项目中任何一个项目分开，修饰的是整个列表，而不是修饰该列表的每个元素(例如，每个项目)。短语“……中的至少一个”并不要求选择至少一个项目；而是，该短语的意思是包括这些项目中的任何一个项目中的至少一者，和/或这些项目的任何组合中的至少一者，和/或这些项目中的每个项目中的至少一者。作为示例，短语“A、B和C中的至少一个”或“A、B或C中的至少一个”均指的是：仅A、仅B或仅C；A、B和C的任意组合；和/或，A、B和C中的每者中的至少一个。

在本文中，词语“示例性”用于表示“用作示例、实例或说明”。本文中被描述为“示例性”的任何实施例不一定被解释为比其他实施例优选或有利。诸如一方面、该方面、另一方面、一些方面、一个或多个方面、一种实施方式、该实施方式、另一实施方式、一些实施方式、一种或多种实施方式、一个实施例、该实施例、另一实施例、一些实施例、一个或多个实施例、一种配置、该配置、另一配置、一些配置、一个或多个配置、本主题技术、该公开、本公开、以及它们的其他变型等短语等均是为了方便，而并非暗指与一个或多个这类短语相关的公开对本主题技术是必不可少的，也并非暗指本公开适用于本主题技术的所有配置。与一个或多个这类短语相关的公开可以适用于所有配置、或一种或多种配置。与一个或多个这类短语相关的公开可以提供一个或多个示例。诸如一方面或一些方面的短语可以指一个或多个方面，并且反之亦然，并且这类似地适用于前述其他短语。

除非特别说明，否则以单数形式对元素的提及并非旨在意味着“一个且仅有一个”，而是“一个或多个”。术语“一些”指的是一个或多个。带下划线和/或斜体的标题和副标题仅为了方便而使用，并不限制本主题技术，也不表示与本主题技术的描述的解释有关。诸如第一和第二等的相关术语可以用于将一个实体或动作与另一个实体或动作进行区分，而不必要求或暗示这些实体或动作之间的任何实际这种关系或顺序。本主题技术涵盖了本领域普通技术人员已知或以后将知晓的、本公开全文所描述的各种配置的元素的所有结构和功能等同物。此外，本文所公开的任何内容均不旨在奉献给公众，无论这种公开是否明确记载在以上描述中。任何权利要求的要素不得根据《美国法典》第35卷第112节第6段(35U.S.C.§112)的规定进行解释，除非该要素是使用短语“用于……的装置”来明确记载的，或者在方法权利要求的情况下，该要素是使用短语“用于……的步骤”来记载的。

尽管本说明书包含许多具体细节，但是这些具体细节不应被解释为对可能被描述的内容的范围的限制，而是应被解释为对本主题的特定实施方式的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合地实施。反之，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独实施或以任何合适的子组合实施。此外，尽管特征可能在以上被描述为在某些组合中起作用，甚至最初也被描述为如此，但是在一些情况下，来自所描述的组合的一个或多个特征可以从该组合中被去除，并且所描述的组合可以针对子组合或子组合的变型。

已经在特定方面描述了本说明书的主题，但是其他方面也可以被实施，并且这些其他方面位于所附权利要求的范围内。例如，尽管在附图中以特定顺序描绘了操作，但是这不应当被理解为要求以所示的特定顺序或以连续顺序执行这些操作，或者要求执行所有示出的操作以实现期望的结果。权利要求中所记载的动作可以以不同的顺序执行，并且仍然实现了期望的结果。作为一个示例，附图中所描绘的过程不一定要求所示的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务并行处理可能是有利的。此外，不应将上述多个方面中的各个系统部件的分开理解为要求在所有方面中都进行这样的分开，而应理解的是，所描述的程序部件和系统通常可以一起集成在单个软件产品中或一起封装在多个软件产品中。

名称、背景技术、附图说明、摘要和附图在此被并入本公开中，并且作为本公开的说明性示例而非限制性描述来提供。提交时要理解的是，它们将不用于限制权利要求的范围或含义。另外，在具体实施方式中可以看出，该描述提供了说明性示例，并且为了精简本公开，不同的特征在不同的实施方式中被组合在一起。本公开的方法不应被解释为反映了以下意图：所描述的主题需要比每项权利要求中明确记载的特征更多的特征。反之，正如权利要求所反映的，发明主题在于比单个公开的配置或操作的所有特征少。权利要求书在此被并入具体实施方式中，其中，每项权利要求作为单独描述的主题独立存在。

权利要求不旨在被限制为本文所描述的方面，而是应被赋予与语言权利要求一致的全部范围并且涵盖所有合法的等同物。尽管如此，权利要求中并不旨在包含不满足适用专利法的要求的主题，也不应该以这种方式解释它们。

Claims

1.一种设备，包括：

近眼显示器，所述近眼显示器被配置为向对象提供图像；

眼睛成像系统，所述眼睛成像系统被配置为收集所述对象的图像；以及

光场显示器，所述光场显示器被配置为向旁观者提供所述对象的三维模型的自动立体图像，其中，所述自动立体图像包括来自所述光场显示器的视场内的多个视点的所述对象的透视校正视图。

2.根据权利要求1所述的设备，其中，所述光场显示器包括像素阵列和多微透镜阵列，其中，所述像素阵列被配置为向所述多微透镜阵列提供所述对象的分割视图，所述分割视图包括选定的视点处的所述光场显示器的所述视场的多个部分。

3.根据权利要求1或2所述的设备，其中，所述眼睛成像系统包括两个摄像头，以收集所述对象的双眼视图。

4.根据前述任一项权利要求所述的设备，还包括一个或多个处理器和存储有指令的存储器，所述指令在被所述一个或多个处理器执行时，根据所述对象的所述图像生成所述对象的三维表示；和/或优选地，其中，所述近眼显示器向所述对象提供环境的三维表示，所述环境包括所述旁观者。

5.根据前述任一项权利要求所述的设备，其中，所述眼睛成像系统包括红外摄像头，所述红外摄像头以反射模式从与所述光场显示器相邻的二向色镜接收来自所述对象的所述图像。

6.根据前述任一项权利要求所述的设备，其中，光场显示器包括微透镜阵列，所述微透镜阵列具有多个微透镜，所述多个微透镜排列成具有预先选定的间距的二维图案，以避免所述旁观者的两个视点的透视校正视图之间的串扰。

7.根据前述任一项权利要求所述的设备，其中，所述光场显示器还包括浸入式光圈，所述浸入式光圈与微透镜阵列相邻，所述浸入式光圈包括多个孔，使得每个孔与所述微透镜阵列中的每个微透镜的中心对准。

8.根据前述任一项权利要求所述的设备，其中，所述光场显示器包括像素阵列，所述像素阵列被分为多个有源区段，其中，所述像素阵列中的每个有源区段具有与多微透镜阵列中的折射元件的直径相对应的尺寸；和/或优选地，还包括一个或多个处理器和存储有指令的存储器，所述指令在被所述一个或多个处理器执行时使所述光场显示器将像素阵列分为多个有源区段，每个有源区段被配置为在所述旁观者的选定的视点处提供所述光场显示器的所述视场的一部分。

9.一种计算机实施的方法，包括：

从一个或多个头戴式设备摄像头接收多个图像，所述多个图像具有对象的至少两个或更多个视场，其中，所述对象是头戴式设备的用户；

使用一组可学习权重从所述多个图像提取多个图像特征；

使用所述一组可学习权重形成所述对象的三维模型；

将所述对象的所述三维模型映射到自动立体显示格式上，所述自动立体显示格式将所述对象的图像投影与旁观者的选定的观察点进行关联；以及

当所述旁观者位于所述选定的观察点时，在设备显示器上提供所述对象的图像投影。

10.根据权利要求9所述的计算机实施的方法，其中，提取多个图像特征包括：提取用于收集所述多个图像中的每个图像的头戴式设备摄像头的固有属性。

11.根据权利要求9或10所述的计算机实施的方法，其中，将所述对象的所述三维模型映射到自动立体显示格式上包括：用与第二观察点相关联的特征图，对与第一观察点相关联的特征图进行插值；或者优选地，其中，将所述对象的所述三维模型映射到自动立体显示格式上包括：沿着所述选定的观察点的方向聚集多个像素的所述多个图像特征；或者优选地，其中，将所述对象的所述三维模型映射到自动立体显示格式上包括：将所述一个或多个戴式设备摄像头中的每个头戴式设备摄像头生成的多个特征图以置换不变组合进行串连，所述一个或多个戴式设备摄像头中的每个头戴式设备摄像头具有固有特性。

12.根据权利要求9至11中任一项所述的计算机实施的方法，其中，提供所述对象的所述图像投影包括：随着所述旁观者从第一观察点移动到第二观察点，在所述设备显示器上提供第二图像投影。

13.一种计算机实施的方法，所述计算机实施的方法用于训练模型以向虚拟现实头戴式设备中的自动立体显示器提供对象的视图，所述模型包括生成多个合成视图，所述计算机实施的方法包括：

从多个用户的面部收集多个基准真值图像；

用所存储的、经校准的立体图像对，校正所述多个基准真值图像；

将所述对象的三维模型映射到自动立体显示格式上，所述自动立体显示格式将所述对象的图像投影与旁观者的选定的观察点进行关联；

基于所述多个基准真值图像与所述对象的所述图像投影之间的差异来确定损失值；以及

基于所述损失值，对所述对象的所述三维模型进行更新。

14.根据权利要求13所述的计算机实施的方法，其中，生成多个合成视图包括：沿着选定的观察方向投影来自所述多个基准真值图像中的每个基准真值图像的多个图像特征，并且将所述多个基准真值图像中的每个基准真值图像生成的多个特征图以置换不变组合进行串连，所述多个基准真值图像中的每个基准真值图像具有固有特性；和/或优选地，其中，对所述对象的所述三维模型进行训练包括：基于指示所述多个基准真值图像与所述对象的所述图像投影之间的差异的损失函数的值，为多个特征中的每个特征更新一组可学习权重中的至少一个可学习权重；或者优选地，其中，对所述对象的所述三维模型进行训练包括：基于从所述多个基准真值图像投影的像素背景值，对所述多个基准真值图像中的多个像素中的每个像素的背景值进行训练。