CN112513779A

CN112513779A - 通过排名标准识别2d图像的替换3d图像

Info

Publication number: CN112513779A
Application number: CN201980026572.8A
Authority: CN
Inventors: D·A·查维斯; J·霍森普德; C·S·钱平; A·R·勒利夫; A·L·伯曼; K·S·雅马达
Original assignee: zSpace Inc
Current assignee: zSpace Inc; Infinite Z Inc
Priority date: 2018-04-06
Filing date: 2019-04-05
Publication date: 2021-03-16
Also published as: WO2019195648A1; EP3752901A1; EP3752901A4; US20200128228A1; US10701347B2; US10523922B2; US20190313084A1

Abstract

用于在网页内用等效的3D图像替换2D图像的系统和方法。可以识别在网页内显示的2D图像的内容，并且可以将3D图像识别为2D图像的可能替换。可以基于多组排名标准对3D图像进行排名。可以基于3D图像的排名来选择具有最高排名值的3D图像。所选择的3D图像可以被集成到网页中，从而用所选择的3D图像替换2D图像。此外，可以接收操纵网页内的3D图像的用户输入。用户输入可以包括用户的观察点相对于显示网页的显示器的移动和/或从与3D图像相交的用户输入设备的一端投射的光束的检测。

Description

通过排名标准识别2D图像的替换3D图像

技术领域

本公开涉及数字显示领域，并且更特别地涉及用基本上等效的三维图像替换网页中的二维图像的方法。

背景技术

三维(3D)显示(实际上是模拟的3D，例如，经由立体显示(SD)技术)被越来越多地用于各种应用，包括例如远程查看、视频会议、视频协作，等等。

图1图示了根据典型的现有技术实施例的现代显示链，其包括以下组件：

1.GPU-图形处理单元。该组件位于个人计算机、工作站或功能等效的设备上，并针对显示器上的每个像素，为支持的颜色模型的每种颜色或通道(例如，为通常是红色(R)、绿色(G)和蓝色(B)的三种颜色中的每种颜色)输出视频电平。这些数字中的每一个通常都是8位数字，范围为0到255，但是其它范围也是可能的。

2.缩放器(Scaler)–该组件将从GPU输出的每个像素的(例如，用于R、G和B的)视频电平作为输入，并以各种方式处理它们，然后输出(通常)用于RGB、通常在相同的0-255的8位范围内的经修过的视频电平。该组件还可以将图像从输入分辨率缩放到由显示器支持的不同的、渲染的分辨率。

3.面板(Panel)-该组件是显示器本身，通常是液晶显示器(LCD)，但是其它显示器也是可能的，并且将从缩放器输出的用于每个像素的(例如，用于R、G和B的)视频电平作为输入，并将视频电平转换成电压，然后这些电压被输送到显示器上的每个像素。面板本身可以在将视频电平转换成电压之前对视频电平进行修改。

视频链通常以两种方式修改视频电平，具体而言是伽马校正和过驱动(overdrive)。注意的是，上述功能通常是在缩放器中实现的，但是有时至少部分地在视频链的其它设备或元件中实现，例如，在GPU或显示设备(面板)中实现。

时间顺序立体显示器

与普通(即，单视)显示器不同，在立体显示器中，每个视频帧有两个图像：右图像和左图像。右图像只能传递到观察者的右眼，左图像只能传递到观察者的左眼。在时间顺序立体显示器中，左右图像的这种分离是按时间执行的，即，左右图像是顺序呈现的，因此包含将这两个图像分离的某种时间相关的元素。立体显示器有两种常见的体系架构。

第一种体系架构使用称为偏振开关(PS)的设备，该设备可以是不同的(即，分离的)或集成的LC设备或其它技术的开关，并且被放置在LCD面板(或任何其它类型的成像面板，诸如OLED(有机发光二极管)面板、等离子显示器等)或在时间顺序的立体成像系统中使用的任何其它像素化面板显示器的前面。具体而言，PS开关可以放置在显示面板和观看者之间，如图2A所示。PS的目的是在两个正交偏振状态之间切换从显示面板透射的光。例如，这些状态之一可以是水平线性偏振光(即，该光可以处于水平线性偏振状态)，而另一个状态可以是垂直线性偏振光(即，该光可以处于垂直线性偏振状态)；但是，其它选项也是可能的(例如，左和右圆偏振状态等)。允许PS将正确的图像传递到观看者的正确眼睛(即，左图像到左眼并且右图像到右眼)的关键特征是两个偏振状态是彼此正交的。

该体系架构允许实现现有技术图2B中所示的立体效果。如可以看到的，该图的顶部示出了在左图像和右图像之间切换的(显示)面板。如图所示，与面板切换同步，PS正在左状态和右状态之间切换透射的光。如上所述，这两个状态发射两个对应的正交偏振状态。如图2B进一步所示，该系统包括立体眼部佩戴物(eyewear)，其被设计为使得左透镜将仅通过左状态偏振，并且右透镜将仅通过右状态偏振。以这种方式，实现了左右图像的分离。

第二种常规体系架构使用立体快门眼镜，该立体快门眼镜代替了PS和眼部佩戴物(或集成了PS和眼部佩戴物的功能)。在这样的系统中，每只眼睛都被光学快门遮盖，该光学快门可以是打开的或者关闭的。这些快门中的每个快门都与显示面板同步地在打开和关闭之间循环，使得当在显示器上显示左图像时，仅左眼快门打开，并且当在显示器上显示右图像时，仅右眼快门打开。以这种方式，左视图和右视图分别交替地呈现给用户的左眼和右眼。如图4所示，向用户的左眼和右眼交替呈现左视图和右视图可创建视觉深度感。虚拟物体可以显示在这种创建的3D空间中，该3D空间既存在于3D立体显示面板上方(即，负空间)又存在于立体显示面板下方(即，正空间)。

液晶显示器(LCD)

液晶显示器(LCD)的一些优点包括更轻的重量、更低的功耗以及更少的辐射污染。LCD监视器已经广泛应用于各种便携式信息产品(例如，诸如膝上型电脑、平板电脑、移动电话、PDA等的用户装备设备)。通常，在LCD监视器中，当液晶分子的排列改变时，入射光会产生不同的偏振或折射效果。液晶分子影响入射光的透射，因此从液晶分子发射的光的量值变化。LCD监视器利用液晶分子的特性来控制对应的光透射率，并产生每种不同量值的红、蓝和绿光的图像。

图2C中示出了向列液晶相1000的示意图。液晶材料不像晶体一样具有其分子质心的位置远距离排序。但是，液晶材料沿着主轴方向具有其分子的远距离定向排序(在最简单的所谓向列液晶的情况下)，从而有效地使分子沿着一个优选的方向排列，这被称为液晶的指向矢(director)

(参见图2C)。

液晶分子或者具有永久的偶极矩，或者当被放置在电场中时获得感应的偶极矩。在两种情况下，在电场中，液晶分子2000都通过某个偶极矩μ来表征。该偶极子可以沿着分子的对称轴排列(据称这种材料具有正介电常数各向异性)，或者可以与其垂直(负介电常数各向异性)。分子中电荷的分离会导致其在电场中旋转，直到它平行于或垂直于施加的场排列为止，这取决于材料的介电各向异性的符号。图2D描绘了具有正介电各向异性的液晶分子的这种重新定向。

由于液晶相中的所有分子都在电场的作用下同时进行重新定向，因此可以控制相的对称轴(指向矢)，通常是液晶样本的光轴。

图2E图示了在常规的扭曲向列液晶基偏振旋转器内液晶分子300的构造。选择向列液晶以具有正介电各向异性。该图的左侧图示了电压关(OFF)，90度旋转状态。图的右侧图示了电压开(ON)，0度旋转状态。

取决于液晶单元的类型以及液晶单元的光轴和偏振器的透射轴的相对朝向，偏振旋转器可以在正常白(NW)或正常黑(NB)模式下操作。这些模式由零或低电压状态下的光透射控制，即，正常白模式对应于零或低电压状态下的最大光透射和高电压状态下的最小透射；对于正常黑模式而言，反之。

扭曲向列偏振旋转器通常以正常白模式操作。在这种情况下，较高的施加电压由于液晶单元的残余延迟的减小而改善了正常白模式的对比度。

其它类型的偏振旋转器，诸如电控双折射(ECB)模式，可以在正常白和正常黑两种模式下操作。使用3D系统中的附加光学元件(诸如两个正交偏振器)，相同的偏振旋转器可以在每一帧中在两种模式下交替操作。

发明内容

本文公开了用于实现用基本上等效的三维(3D)图像替换网页中的二维(2D)图像的方法的系统的各种实施例。在一些实施例中，3D图像可以从替代3D影像(imagery)导出。可以从正被访问的(例如，托管网页的)网站和/或从互联网上的其它地方获得替代的3D影像(或图像)。另外，本文公开了用于实现用于确定和/或选择(例如，至少部分地基于一个或多个标准)最佳(例如，基本上等效的)3D替换图像的方法的系统的各种实施例。

在一些实施例中，一种系统可以包括一个或多个显示器以及耦合到一个或多个显示器(或与之通信)的至少一个处理器。在一些实施例中，一个或多个显示器和至少一个处理器可以被包括在头戴式显示系统中和/或与头戴式显示系统通信。在一些实施例中，该系统还可以包括可通信地耦合到该至少一个处理器的触控笔和耦合到该至少一个处理器的存储器。处理器可以被配置为执行或实现本文公开的技术的实施例。此外，实现本文公开的技术的实施例的方法可以在计算机系统上实现或者作为程序指令被存储在计算机可读存储介质上。在一些实施例中，计算机系统可以包括移动设备，诸如用户装备设备(UE)。

在一些实施例中，可以识别在网页内显示的2D图像。另外，可以识别与2D图像的内容相比具有基本上等效的内容的3D图像。可以将3D图像集成到网页中，从而用3D图像替换2D图像。此外，可以接收操纵网页内的3D图像的至少一个用户输入。在一些实施例中，至少一个用户输入可以包括用户的视点(view point)(或观察点(point of view))相对于显示网页的显示器的移动。在一些实施例中，至少一个用户输入可以包括检测从与3D图像相交的用户输入设备的一端(和/或该用户输入设备的一端)投射的光束。在一些实施例中，与3D图像的相交可以至少部分地基于用户输入设备相对于显示网页的显示器的跟踪位置和朝向。

在一些实施例中，可以识别在网页内显示的2D图像。另外，可以识别与2D图像的内容相比具有基本上等效的内容的3D图像。2D图像可以由平坦的3D图像代替，其中可以减小与3D图像的深度相关联的z-标度(z-scale)值以使3D图像平坦化。此外，可以接收操纵网页内的3D图像的至少一个用户输入。在一些实施例中，至少一个用户输入可以包括用户的视点(或观察点)相对于显示网页的显示器的移动。在一些实施例中，至少一个用户输入可以包括检测从与3D图像相交的用户输入设备的一端(和/或该用户输入设备的一端)投射的光束。在一些实施例中，与3D图像的相交可以至少部分地基于用户输入设备相对于显示网页的显示器的跟踪位置和朝向。

在一些实施例中，可以识别在网页内显示的2D图像。另外，可以识别与2D图像的内容相比具有基本上等效的内容的3D图像。可以将3D图像集成到网页中，从而用3D图像替换2D图像。此外，可以接收操纵网页内的3D图像的至少一个用户输入。在一些实施例中，至少一个用户输入可以包括用户的视点(或观察点)相对于显示网页的显示器的移动。在一些实施例中，至少一个用户输入可以包括检测从与3D图像相交的用户输入设备的一端(和/或该用户输入设备的一端)投射的光束。在一些实施例中，与3D图像的相交可以至少部分地基于用户输入设备相对于显示网页的显示器的跟踪位置和朝向。在一些实施例中，在接收到操纵网页内的3D图像的至少一个用户输入时，可以做出现实世界的标度和/或3D图像的尺寸适合在显示网页的web浏览器的范围内的确定，并且可以以现实世界的标度和/或尺寸显示3D图像。

在一些实施例中，可以识别在网页内显示的2D图像的内容。可以基于网页结构分析或与2D图像相关联的元数据的识别中的一种来识别2D图像。另外，可以例如基于2D图像的内容将一个或多个三维(3D)图像识别为2D图像的可能替换。可以例如基于一组或多组排名标准来对一个或多个3D图像进行排名。可以选择具有最高排名值的3D图像并将其集成到网页中，从而用3D图像替换2D图像。此外，可以接收操纵网页内的3D图像的至少一个用户输入。在一些实施例中，至少一个用户输入可以包括用户的视点(或观察点)相对于显示网页的显示器的移动。在一些实施例中，至少一个用户输入可以包括检测从与3D图像相交的用户输入设备的一端(和/或该用户输入设备的一端)投射的光束。在一些实施例中，与3D图像的相交可以至少部分地基于用户输入设备相对于显示网页的显示器的跟踪位置和朝向。

在一些实施例中，可以识别在网页内显示的2D图像的内容，并且可以例如基于2D图像的内容将一个或多个三维(3D)图像识别为2D图像的可能替换。可以例如基于一组或多组排名标准来对一个或多个3D图像进行排名。可以基于一个或多个3D图像的排名，例如，基于一组或多组排名标准，来选择具有最高排名值的3D图像。可以识别和修改不与2D图像的影像对应的3D图像的影像，使得3D图像的经修改的影像对应于2D图像的影像，从而生成经修改的3D图像。可以将经修改的3D图像集成到网页中，从而用经修改的3D图像替换2D图像。此外，可以接收操纵网页内的3D图像的至少一个用户输入。在一些实施例中，至少一个用户输入可以包括用户的视点(或观察点)相对于显示网页的显示器的移动。在一些实施例中，至少一个用户输入可以包括检测从与经修改的3D图像相交的用户输入设备的一端(和/或该用户输入设备的一端)投射的光束。在一些实施例中，与经修改的3D图像的相交可以至少部分地基于用户输入设备相对于显示网页的显示器的跟踪位置和朝向。

在一些实施例中，可以识别在网页内显示的2D图像。另外，可以识别与2D图像的内容相比具有基本上等效的内容的3D图像。可以识别和修改不与2D图像的影像对应的3D图像的影像，使得3D图像的经修改的影像对应于2D图像的影像，从而生成经修改的3D图像。可以将经修改的3D图像集成到网页中，从而用经修改的3D图像替换2D图像。此外，可以接收操纵网页内的3D图像的至少一个用户输入。在一些实施例中，至少一个用户输入可以包括用户的视点(或观察点)相对于显示网页的显示器的移动。在一些实施例中，至少一个用户输入可以包括检测从与经修改的3D图像相交的用户输入设备的一端(和/或该用户输入设备的一端)投射的光束。在一些实施例中，与经修改的3D图像的相交可以至少部分地基于用户输入设备相对于显示网页的显示器的跟踪位置和朝向。

附图说明

当结合以下附图考虑优选实施例的以下详细描述时，可以获得对本公开的更好的理解，其中：

图1图示了根据实施方式的现代显示链。

图2A图示了根据实施方式的利用偏振开关的体系架构的示例。

图2B图示了根据实施方式的在左右视图之间使用偏振切换的立体效果(模拟3D)的示例。

图2C图示了根据实施方式的向列液晶相的示意图的示例。

图2D图示了根据实施方式的在电场中切换液晶分子的示意图的示例。

图2E图示了根据实施方式的常规扭曲向列液晶基偏振旋转器内的液晶分子的构造的示意图的示例。

图3A和图3B图示了根据一些实施例配置的3D立体显示系统的示例。

图4图示了根据一些实施例配置的用户装备设备的示例框图。

图5A和图5B图示了根据一些实施例配置的3D头戴式立体显示系统的示例。

图5C图示了根据一些实施例配置的头戴式电子设备的示例框图。

图6图示了根据一些实施例的用户输入设备的示例。

图7图示了根据一些实施例的用于用等效的3D图像识别和替换2D图像的处理的示例的框图。

图8A-D图示了根据一些实施例的对3D图像的一种可能的操纵的示例。

图9图示了根据一些实施例的用于在集成到网页中以替代2D图像时使3D图像平坦化的处理的示例的框图。

图10A-C图示了根据一些实施例的3D图像的另一种可能的操纵的示例。

图11图示了根据一些实施例的用于选择合适的3D图像以替换显示在网页上的2D图像的处理的示例的框图。

图12图示了根据一些实施例的用于改善3D图像的适用性以替换网页上显示的2D图像的处理的示例的框图。

虽然本公开内容可进行各种修改和替代形式，但是其具体实施例在附图中以示例的方式示出并且在本文中进行详细描述。但是，应该理解的是，附图及其详细描述并非旨在将本公开限制为所公开的特定形式，而是相反，其意图是覆盖落入如所附权利要求书所定义的本公开的精神和范围内的所有修改、等同形式和替代形式。

具体实施方式

术语

以下是在本申请中使用的术语的术语表：

存储介质-各种类型的存储器设备或存储设备中的任何一种。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带设备；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM、Rambus RAM、EEPROM等；非易失性存储器，诸如闪存、磁介质(例如，硬盘驱动器)或光学存储装置；寄存器或其它类似类型的存储器元件等。存储介质可以包括其它类型的存储器以及其组合。另外，存储介质可以位于其中执行程序的第一计算机中，或者可以位于通过诸如互联网之类的网络连接到第一计算机的不同的第二计算机中。在后一种情况下，第二计算机可以向第一计算机提供程序指令以供执行。术语“存储介质”可以包括两个或更多个存储介质，这些存储介质可以驻留在不同位置，例如，在通过网络连接的不同计算机中。

承载介质-如上所述的存储介质，以及物理传输介质，诸如传达诸如电信号、电磁信号或数字信号之类的信号的总线、网络和/或其它物理传输介质。

计算机系统-各种类型的计算或处理系统中的任何一种，包括个人计算机系统(PC)、大型计算机系统、工作站、网络设备、互联网设备、个人数字助理(PDA)、智能电话、电视系统、网格计算系统、平板电脑或其它设备或设备的组合。一般而言，术语“计算机系统”可以被广泛地定义为涵盖具有执行来自存储介质的指令的至少一个处理器的任何设备(或设备的组合)。

图形处理单元-指可以驻留在个人计算机、工作站、服务器、图形服务器或等效设备上的组件，并针对显示器上的每个像素，为支持的颜色模型的每种颜色或通道(例如，为三种颜色中的每种颜色，通常是红色(R)、绿色(G)和蓝色(B))输出视频电平。这些数字中的每一个通常都是8位数字，范围为0到255，但是其它范围也是可能的。

移动设备(或移动台)-移动或便携式的各种类型的计算机系统设备中的任何一种，并且使用WLAN通信执行无线通信。移动设备的示例包括移动电话或智能电话(例如，iPhone^TM，基于Android^TM的电话)，以及平板计算机，诸如iPad^TM、三星Galaxy^TM等。如果各种其它类型的设备包含Wi-Fi或蜂窝和Wi-Fi通信能力两者，那么它们将属于此类别，诸如膝上型计算机(例如，MacBook^TM)、便携式游戏设备(例如，Nintendo DS^TM、PlayStationPortable^TM、Gameboy Advance^TM、iPhone^TM)、便携式互联网设备和其它手持设备，以及可穿戴设备，诸如智能手表、智能眼镜、耳机、吊坠、听筒等。一般而言，术语“移动设备”可以广泛定义为涵盖用户易于运输并且能够使用WLAN或Wi-Fi进行无线通信的任何电子、计算和/或电信设备(或设备的组合)。

无线设备(或无线站)-使用WLAN通信执行无线通信的各种类型的计算机系统设备中的任何一种。如本文中所使用的，术语“无线设备”可以指如上所定义的移动设备，或者指固定设备，诸如固定无线客户端或无线基站。例如，无线设备可以是802.11系统的任何类型的无线站，诸如接入点(AP)或客户端站(STA或UE)。其它示例包括电视、媒体播放器(例如，AppleTV^TM、Roku^TM、Amazon Fire TV^TM、Google Chromecast^TM等)、冰箱、洗衣机、恒温器等。

WLAN-术语“WLAN”具有其通常含义的完整范围，并且至少包括由WLAN接入点提供服务并通过这些接入点提供到互联网的连接的无线通信网络或RAT。大多数现代WLAN基于IEEE 802.11标准，并且以“Wi-Fi”的名称销售。WLAN网络与蜂窝网络不同。

处理元件(或功能单元)-是指在计算机系统中执行功能的数字电路系统的各种实现。此外，处理元件可以指在计算机或计算机系统中执行功能(或多个功能)的模拟或混合信号(模拟和数字的组合)电路系统的各种实现。处理元件包括例如电路，诸如集成电路(IC)、ASIC(专用集成电路)、各个处理器核心的部分或电路、整个处理器核心、各个处理器、诸如现场可编程门阵列(FPGA)的可编程硬件设备，和/或包含多个处理器的系统的更大部分。

耦合区–是指3D立体显示器的用户可以在其中观看人眼自然景深内的3D内容的物理体积。如图4所示，当人看到物理世界中的物体时，该人的眼睛会聚在该物体上、或者注视(单独瞄准)该物体。此外，当两只眼睛会聚在物体上时，每只眼睛的透镜也会通过调节(单视)聚焦在物体上。在这个意义上，两只眼睛都聚焦并会聚在物体上，因此聚焦和会聚是“耦合的”。

视差(Disparity)–是指3D立体显示器的左眼图像和右眼图像之间的差异。可以以至少两种方式来描述视差。首先，对于显示设备，即，3D立体显示器，可以通过在显示或渲染的图像或内容的对应位置之间分离的像素(换句话说，左眼和右眼图像或内容之间分离的像素)的数量来描述视差。替代地，或作为附加，对于用户的观察点，可以通过显示或呈现的图像或内容中的对应位置之间的角度分离(即，左眼和右眼图像或内容之间的角度分离)的程度来描述视差。

投影–是指3D物体或内容在二维(2D)显示器上的显示。因此，投影可以被描述为应用于虚拟3D场景内的物体以确定该物体在可以由3D立体显示器的尺寸和用户的观察点来定义的3D空间内的虚拟位置的数学函数。

视点(Viewpoint)-该术语在计算机图形/相机领域具有其普通含义的全部范围，并指定位置和/或朝向。例如，术语“视点”可以指单个观察点(例如，对于单只眼睛)或一对观察点(例如，对于一对眼睛)。因此，视点可以指单只眼睛的观察点，或者可以指一对眼睛的两个观察点。“单个视点”可以指定视点仅指单个观察点，并且“成对视点”或“立体视点”可以指定视点指两个观察点(而不是一个观察点)。在视点是用户的视点的情况下，该视点可以被称为眼点(eyepoint)(参见下文)或“物理视点”。术语“虚拟视点”是指从虚拟表示或3D场景内的视点。视点与“观察点”(POV)同义(参见下面的POV的定义)。

眼点–单只眼睛或一对眼睛的物理位置(和/或朝向)。上面的视点可以对应于人的眼点。例如，人的眼点具有对应的视点。

观察点(POV)-是指或指定位置和朝向。例如，POV可以是通常用户的视点或眼点，但也可以是诸如相机之类的光学设备的视点。POV通常是捕获两个或更多个6自由度物体之间的关系的部件。在本技术的典型应用中，用户的双眼或头部(视图)以任何X、Y、Z位置和/或俯仰(pitch)、偏航(yaw)、侧倾(roll)朝向定位到显示设备(例如，监视器屏幕)，该显示设备可以在任何X、Y、Z位置和/或俯仰、偏航、侧倾朝向中具有其自己的位置。在这个示例中，POV可以被定义为用户的视野相对于显示设备的定位/朝向的位置/朝向。POV确定可以由捕获系统识别。在本技术的典型应用中，一个或多个跟踪设备被附接到显示设备，使得控制器知道跟踪系统在显示设备的上下文中所跟踪的内容，即附接到显示设备的跟踪系统可通过编程了解显示设备的位置/朝向以及显示设备的位置/朝向的任何潜在变化。

跟踪系统(其除其它外还可以识别和跟踪用户的视野)可以识别用户的视野的位置/朝向，然后该信息可以与跟踪系统对查看设备的位置/朝向(再次，相对于显示设备)的识别相关。

垂直视角(Vertical Perspective)–从基本上垂直于显示表面的视点渲染的视角效果。“基本上垂直”是指90度或其变化，诸如89或91度、85-95度、或不引起渲染的场景的明显失真的任何变化。垂直视角可以是中心视角，例如，具有单个(和中心)消失点。如本文所使用的，垂直视角可以应用于单个图像或立体图像。当针对立体图像使用(例如，根据垂直视角呈现立体图像)时，可以根据垂直视角，但是利用不同的单个视点，呈现立体图像的每个图像。

水平或倾斜视角-从不垂直于显示表面的视点渲染的视角效果。更特别地，术语“水平视角”通常可以指相对于对应的视点使用基本上45度成角度的渲染平面来渲染的视角效果。渲染可以旨在针对可以相对于站立视点水平(例如，平行于桌子表面或地板)定位的显示器。“基本上45度”可以指45度或其变化，诸如44和46度、40-50度、或者可以引起渲染场景的最小失真的任何变化。如本文所使用的，水平视角可以应用于单个图像或立体图像。当针对立体图像使用(例如，根据水平视角呈现立体图像)时，可以根据水平视角，但是利用不同的单个视点，呈现立体图像的每个图像。

如本技术的实施例中通常使用的水平视角的另一个概念涉及将预期的渲染图形投影到观看设备。在POV被确定的情况下，水平视角引擎可以在3D空间中识别正确的图形视锥，同时考虑定义视锥的渲染平面时查看设备的位置和朝向以及用户视野的位置和朝向以定义视锥相对于渲染平面的相机点。然后将所产生的投影渲染到观看设备上，如用户将看到的。

位置–物体(虚拟或真实)的位置或坐标。例如，位置可以包括在定义的空间内的x、y和z(即，位置)坐标。根据需要，位置可以是相对的或绝对的。例如，当定义视点的朝向时，位置还可以包括偏航、俯仰和侧倾信息。换句话说，位置被广义地定义，以便涵盖关于位置和朝向两者的信息。

触控笔-外围设备或元件，诸如手持设备、手持笔设备、手持指示设备、手、手指、手套，或如在立体渲染的虚拟投影物体中用于直接与渲染的虚拟物体交互的任何物体。

相似-如本文中关于几何形状所使用的，是指几何术语，其指示物体具有相同的形状，或者一个物体具有与另一个物体的镜像图像相同的形状。换句话说，如果一个物体可以通过均匀缩放(放大或缩小)物体从另一个物体获得，那么认为这些物体相似。此外，术语相似或相似物体是指任一物体可以被重新缩放、重新定位和反射，以便与另一个物体重合。因此，例如，如果第一物体在几何上与第二物体相似，即具有相同的形状但可能具有不同的尺寸，那么任一物体可以被均匀地缩放以获得另一个物体的几何尺寸和形状。因此，第一物体可以被均匀地缩放以获得第二物体，或者第二物体可以被均匀地缩放以获得第一物体。注意的是，相似的定义仅指在几何形状的上下文中使用该词，并在其它上下文中保留该词的普通含义(例如，系统A与系统B相似意味着系统A与系统B相仿，而不与系统B相同)。

大约-是指在某个指定公差内正确或确切的值。例如，大约可以指在确切值(或期望值)的1％到10％以内的值。但是，应该注意的是，实际阈值(或公差)可能取决于应用。例如，在一个实施例中，“大约”可以表示在某个指定值或期望值的0.1％以内，而在其它各种实施例中，阈值可以根据需要或根据特定应用的要求是例如2％、3％、5％等。

接近–靠近；例如，接近可以表示在某个特定距离内，或者在距离的某个特定分数内。注意的是，接近的实际阈值通常取决于应用。因此，在各种应用中，接近可以表示在某个参考点或物体的1毫米、1英寸、1英尺、1米、1英里等以内，或者可以指在距某个参考点或物体的参考距离的1％、2％、5％、10％等以内。

基本上–是指近似术语。与术语“大约”相似，基本上是指某个可容忍的范围。因此，如果部分A是基本上水平的，那么部分A可以是水平的(与垂直方向成90度)，或者可以在一定的水平公差极限内。例如，在一个应用中，与垂直方向成89-91度的范围是可以可容忍的，而在另一个应用中，与垂直方向成85-95度的范围是可以可容忍的。另外，可容忍的极限可以是单侧的。因此，使用“部分A基本上是水平的”的示例，部分A在与垂直方向成60-90度的范围内，但与垂直方向不大于90度可以是可容忍的。替代地，部件A在与垂直方向成90-120度的范围内，但与垂直方向不小于90度可以是可容忍的。因此，可容忍的极限以及因此通过使用该术语所引用的近似值基本上可以是期望的或特定应用所要求的。

等效-是指在值、度量、功能、含义、效果、重要性、外观等方面与另一个物体相等或对应的物体。例如，如果第一图像内的影像与第二图像内的影像对应，那么第一图像可以等效于第二图像。此外，如果第一图像内的影像至少部分地(例如，在某个可容忍的范围和/或极限内)与第二图像内的影像对应，那么第一图像可以基本上等效于第二图像。

并发–是指并行运行或执行，其中任务、处理或程序以至少部分重叠的方式执行。例如，可以使用“强”或严格并行性来实现并发性，其中在各个计算元件上并行执行任务(至少部分)，或者使用“弱并行性”来实现并发性，其中任务以交错的方式(例如，通过执行线程的时间复用)来执行。

自动–是指由计算机系统(例如，由计算机系统执行的软件)或设备(例如，电路系统、可编程硬件元件、ASIC等)执行的动作或操作，而无需用户直接指定或执行该动作或操作。因此，术语“自动”与由用户手动执行或指定的操作(其中用户提供输入以直接执行操作)相反。可以通过由用户提供的输入来发起自动过程，但是“自动”执行的后续动作不是由用户指定的，即，不是“手动”执行的(其中用户指定要执行的每个动作)。例如，用户通过选择每个字段并提供指定信息的输入(例如，通过键入信息、选择复选框、单选按钮选择等)来填写电子表单是手动填写表单，即使计算机系统必须响应于用户动作而更新表单。表单可以由计算机系统自动填写，其中计算机系统(例如，在计算机系统上执行的软件)分析表单的字段并填写表单，而无需指定字段的答案的任何用户输入。如上所述，用户可以调用表单的自动填充，但不参与表单的实际填充(例如，用户不手动指定字段的答案，而是它们自动完成)。本说明书提供了响应于用户已采取的动作而自动执行的操作的各种示例。

包括-该术语是开放式的，并且意味着“包含”。如在所附权利要求书中所使用的，该术语不排除附加的元件、结构或步骤。考虑陈述以下内容的权利要求：“一种包括显示器的系统…”，这样的权利要求并不排除系统包含附加的组件(例如，电压源、光源等)。

被配置为-各种单元、电路或其它组件可以被描述为或声明为“被配置为”执行一个或多个任务。在这样的上下文中，“被配置为”用于通过指示单元/电路/组件包括在操作期间执行那些一个或多个任务的结构(例如，电路系统)来表示结构。由此，即使指定的单元/电路/组件当前不工作(例如，未接通)，也可以说该单元/电路/组件被配置为执行任务。与“被配置为”语言一起使用的单元/电路/组件包括硬件—例如，电路、存储可执行以实现操作的程序指令的存储器等。陈述单元/电路/组件“被配置为”执行一个或多个任务明确地旨在不针对该单元/电路/组件引用35 U.S.C.§112(f)。此外，“被配置为”可以包括由软件和/或固件(例如，执行软件的FPGA或通用处理器)操纵从而以能够执行所讨论的(一个或多个)任务的方式进行操作的通用结构(例如，通用电路系统)。

第一、第二等-这些术语用作它们在其之前的名词的标签，并不暗示任何类型的排序(例如，空间、时间、逻辑等)。例如，在具有多个跟踪传感器(例如，相机)的系统中，术语“第一”和“第二”传感器可以用于指任何两个传感器。换句话说，“第一”和“第二”传感器不限于逻辑传感器0和1。

基于-该术语用于描述影响确定的一个或多个因素。该术语不排除可能影响确定的附加因素。即，确定可以仅基于那些因素或至少部分地基于那些因素。考虑短语“基于B确定A”。虽然B可能是影响A的确定的因素，但这样的短语并不排除A的确定也基于C。在其它情况下，可以仅基于B来确定A。

本说明书可以包括对“一个实施例”或“实施例”的引用。短语“在一个实施例中”或“在实施例中”的出现不一定指相同的实施例。可以以与本公开一致的任何合适的方式来组合特定特征、结构或特性。

图3-6示例性系统

图3A和图3B图示了被配置为实现下面描述的技术的各种实施例的示例性系统。

在图3A的示例性实施例中，计算机系统100A可以包括机架110A、显示器150A和显示器150B(其可以共同称为显示器150或“一个或多个显示器”150)、键盘120、鼠标125、用户输入设备130、眼部佩戴物140、至少两个相机160和托架170。注意的是，在一些实施例中，可以不使用两个显示器150A和150B；而是，例如，可以使用单个显示器150。在各种实施例中，显示器150A和150B中的至少一个可以是立体显示器。例如，在一个实施例中，显示器150A和150B都可以是立体显示器。或者，在其它实施例中，单个显示器150可以是立体显示器。注意的是，立体显示器还可以被配置为显示二维(2D)物体并且可以被配置为以2D模式操作。

机箱110A可以包括各种计算机组件，诸如处理器、至少一个存储介质(例如，RAM、ROM、硬盘驱动器等)、图形电路系统、音频电路系统以及用于执行计算机任务的其它电路系统，诸如本文所描述的那些电路系统。至少一个存储介质可以存储根据本发明的各种实施例的一个或多个计算机程序或软件组件。例如，存储介质可以存储一个或多个图形引擎，该图形引擎可执行以执行本文描述的一些技术。在某些实施例中，图形引擎可以在功能单元或处理元件上或由功能单元或处理元件实现。如本文所使用的，以及如以上术语部分中所指出的，术语功能单元或处理元件是指被配置为处理指令和/或数据的各种元件或元件的组合中的任何一种。处理元件包括例如电路，诸如ASIC(专用集成电路)、各个处理器核心的部分或电路、整个处理器核心、各个处理器、诸如现场可编程门阵列(FPGA)的可编程硬件设备和/或包含多个处理器的系统的更大部分，以及其任何组合。

存储介质(其可以包括两个或更多个存储介质)还可以存储表示虚拟空间的数据(和/或程序指令)(例如，实现或指定计算机模型)，该虚拟空间可以用于经由(一个或多个)显示器150投影虚拟空间的3D场景(诸如场景180)。此外，如本文所述，存储介质可以存储可执行以执行三维空间跟踪(例如，用户视野跟踪、用户控制跟踪等)、内容处理或其它特征的软件。例如，计算机系统可以包括跟踪系统，该跟踪系统可以跟踪用户的头部、用户的手或触控笔中的一个或多个。此外，存储介质可以存储操作系统软件以及用于计算机系统的操作的其它软件。各种实施例还包括在承载介质上接收或存储根据前述描述实现的指令和/或数据。

如上所述，计算机系统100A可以被配置为使用显示器150A和/或显示器150B显示三维(3D)场景(例如，经由立体图像)或3D内容，诸如场景180。计算机系统100A还可以被配置为使用显示器150A、显示器150B和/或另一个显示器来显示3D场景的“视图”，如下面更详细描述的。3D场景或内容的“视图”可以指从3D场景内的视点来看的3D场景的显示部分。3D场景内的视点可以被称为“虚拟视点”。视图可以是立体的，例如，可以显示在立体显示器上。替代地，视图可以是单视的(不是立体的)，并且可以在单视显示器或立体显示器上显示。注意的是，在立体显示器上显示的单视图像或场景可能看起来与在单视显示系统上相同。

应该注意的是，图3A的实施例仅是示例性的，并且还设想了其它数量的显示器。例如，计算机系统100A可以仅包括单个显示器或两个以上的显示器，或者这些显示器可以以与所示出的方式不同的方式布置，例如，如下面参考图5进一步描述的护目镜或其它可穿戴的眼部佩戴物或头戴装置(headgear)。在该特定实施例中，显示器150A被配置为垂直显示器(其可以与用户的视线垂直或近似垂直)，并且显示器150B被配置为水平显示器(其可以与用户的视线平行(或近似平行)或倾斜)。可以使用垂直显示器150A(例如，经由由在机箱110A中执行的图形引擎发送的指令)来提供根据垂直(或中央)视角呈现的图像，并且可以使用显示器150B(例如，经由由在机箱110A中执行的图形引擎发送的指令)来提供根据水平视角呈现的图像。本文提供了水平视角和垂直视角的描述(例如，参见以上术语部分)。此外，虽然显示器150被示为平板显示器，但是在其它实施例中，它们可以是能够显示图像的任何类型的设备或系统，例如，投影系统。例如，(一个或多个)显示器150可以是或包括CRT(阴极射线管)监视器、LCD(液晶显示器)监视器，或具有多个投影仪的前投影或后投影屏幕或表面，等等。(一个或多个)显示器150可以包括发光二极管(LED)背光或其它类型的背光。

显示器150A和150B中的任一个或两者可以呈现(显示)立体图像以供用户观看。通过呈现立体图像，(一个或多个)显示器150可以为用户呈现3D场景。该3D场景可以被视为或称为幻觉或模拟3D，因为实际提供的图像是2D，但是该场景经由立体效果经由用户对提供的图像的解释以3D传达。为了正确地观看立体图像(每个图像帧每只眼睛一个图像)，用户可以配戴眼部佩戴物140。眼部佩戴物140可以是浮雕眼镜、偏振眼镜、快门眼镜、双凸眼镜等中的任何一种。在一些实施例中，(一个或多个)显示器150可以被包括(或并入)在眼部佩戴物(或其它可配戴的头戴装置)中。在使用浮雕眼镜的实施例中，根据第一颜色呈现用于第一只眼睛的图像(并且对应的透镜具有对应的滤色器)，并且根据第二颜色投射用于第二只眼睛的图像(并且对应的透镜具有对应的滤色器)。对于偏振眼镜，使用正交偏振为每只眼睛呈现图像，并且眼部佩戴物的每个透镜具有用于接收对应图像的对应正交偏振。对于快门眼镜，每个透镜例如以交替的方式相对于由(一个或多个)显示器150提供的左眼和右眼图像进行同步。显示器可以根据需要同时或以交替的方式(例如，顺序地)提供两种偏振。因此，在左眼图像显示时间期间可以允许左眼仅看到左眼图像，而在右眼图像显示时间期间可以允许右眼仅看到右眼图像。对于双凸眼镜，图像在圆柱透镜元件或透镜元件的二维阵列上形成。可以经由光学方法来提供立体图像，其中使用诸如棱镜、(一个或多个)反射镜、(一个或多个)透镜等光学部件，将左眼和右眼图像仅提供给对应的眼睛。大的凸面或凹面透镜也可以用于为用户接收两个单独投影的图像。

在一个实施例中，眼部佩戴物140可以用作位置输入设备，用于跟踪查看由系统100A呈现的3D场景的用户的用户视野(例如，眼点或观察点(POV))。例如，眼部佩戴物140可以提供可用于例如经由三角测量来确定用户的观察点的位置的信息(例如，包括朝向信息的位置信息等)。在一些实施例中，位置输入设备可以使用光敏检测系统，例如，可以包括红外检测系统，以检测观看者头部的位置，以允许观看者头部自由移动。(一个或多个)输入设备的其它实施例可以使用三角测量方法来检测观看者的观察点位置，诸如一个或多个传感器(例如，两个相机，诸如电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)相机)提供适合头部跟踪的位置数据。观看者可以手动操作(一个或多个)输入设备，诸如触控笔、键盘、鼠标、轨迹球、操纵杆等或其组合，以指定或指示水平视角显示图像的正确显示。但是，可以根据需要使用任何用于跟踪用户的头部或观察点的位置的方法。因此，可以从用户的视角(或观察点)渲染3D场景，使得用户可以以最小的失真(例如，因为它基于用户的观察点)来观看3D场景。因此，可以使用位置输入设备针对用户的观察点特别地渲染3D场景。

(一个或多个)显示器150的位置与用户的观察点之间的关系可以用于将虚拟空间的一部分映射到系统100A的物理空间。实质上，可以将所使用的物理空间和组件映射到虚拟模型，以便准确地渲染虚拟空间的3D场景。

用户输入设备(例如，键盘120、鼠标125、用户输入设备130、指示设备、用户控制设备、用户手/手指等)中的一个或多个可以用于与呈现的3D场景交互。例如，用户输入设备130(显示为触控笔)或简单地用户的手可以用于(经由查看的投影物体)与3D场景的虚拟物体直接交互。这种直接交互可能是与3D场景的负空间部分进行的。在一些实施例中，可以经由(3D场景的)立体渲染在该负空间中呈现3D场景的至少一部分，该负空间在至少一个显示器的前面或以其它方式在显示器的外面。在一些实施例中，3D场景的至少一部分可以在显示器150的表面上方看起来像全息图状图像。例如，当使用水平显示器150B时，可以看到3D场景悬停在水平显示器上方。但是，应该注意的是，3D场景的一部分也可以呈现为看起来像在位于正空间中的显示表面的后面。因此，负空间是指用户能够自由移入并与之交互的空间(例如，其中用户能够将他的手(或更一般而言，用户输入设备130)放置在该空间中)，而不是用户无法自由移入和与之交互的空间(例如，其中用户无法将他的手(或用户输入设备130)放置在诸如显示表面下方的空间中)。因此，负空间可以被认为是“动手(hands-on)体积”，而不是“内部体积”(即正空间)，后者可以在(一个或多个)显示器的表面下方，并且因此是不可接近的。因此，用户可以与负空间中的虚拟物体交互，因为它们接近用户自己的物理空间。换句话说，正空间位于观看表面的后面(或下方)，因此呈现的物体看起来像位于物理观察设备的内部(或背面)。因此，呈现在正空间内的3D场景的物体与用户不共享相同的物理空间，因此，这些物体不能用手直接和物理操纵或通过诸如用户输入设备130之类的手持工具物理相交。而是，它们可以例如经由计算机鼠标、操纵杆、手的虚拟表示、手持工具或触控笔、或者通过触控笔的投影(例如，虚拟激光或虚拟平面)被间接地操纵。

在一些实施例中，系统100A可以包括一个或多个传感器160。一个或多个传感器160可以被包括在跟踪系统中。图3图示了使用四个相机160的实施例。例如，四个相机160中的两个可以用于感测用户视野(例如，观察点)，而另外两个相机160可以用于感测用户输入设备(例如，指示设备、触控笔、手、手套等)。替代地，可以使用少于四个的传感器(例如，两个传感器)，其中每个传感器可以同时跟踪用户(例如，用户的头部和/或用户的观察点)和用户输入设备。传感器160可以用于对系统100A的用户进行成像、跟踪用户的移动，或者跟踪用户的头部或眼睛以及其它预期功能。在一个实施例中，相机160可以跟踪用户输入设备130的位置和/或朝向。由一个或多个传感器160提供的关于用户输入设备130的位置(包括朝向)的信息可以与系统的其它位置信息(例如，触控笔自身内的加速度计和/或陀螺仪)结合使用，以对用户输入设备130执行更精确的3D跟踪。一个或多个传感器160可以在空间上彼此分开并且被放置在查看涵盖用户将在其中观看立体影像的体积的位置。传感器160也可以彼此足够远以为真实的三轴三角测量确定提供视距。系统100A还可以包括托架170，以存储用户输入设备130。托架170还可以用于将触笔的朝向校准为已知的侧倾、俯仰和偏航，并且因此可以相对于相机160处于固定位置。

在一个实施例中，系统100A可以被配置为经由输入端耦合到网络，诸如广域网。输入端可以被配置为通过网络从类似于系统100A的系统接收数据(例如，图像数据、视频数据、音频数据等)。在其它实施例中，跟踪系统可以包括相机160。相机160可以被配置为提供关于用户的视觉信息(例如，使得可以确定用户的POV，例如，位置(包括朝向)，或者使得可以确定用户的手的位置)。但是，应当注意的是，可以根据需要使用任何类型的各种跟踪技术或设备。注意的是，如本文所使用的，用户的POV是指用户从其光学地观看物体或图像的视角或POV，即，用户的视觉POV，因此是相对于系统的显示设备定义的。在一些实施例中，POV可以是6自由度(6DOF)POV，例如，三个位置坐标和三个朝向坐标，但是可以根据需要使用任何POV，例如，三个位置坐标和两个或三个朝向坐标，等等。如上所述，位置坐标可以包括位置和朝向坐标。

注意的是，在一些实施例中，跟踪系统可以至少部分地依赖于机架110A的组件来确定位置或POV，例如，经由由机架110A的处理器或功能单元或在其上执行一个或多个程序来确定位置或POV，但是在其它实施例中，跟踪系统可以独立地操作，例如，可以具有其自己的处理器或功能单元。

在某些实施例中，系统可以包括实现基于视角的图像捕获系统的组件，用于在远离系统的位置捕获目标物体的图像。例如，基于视角的图像捕获系统可以包括输入端，该输入端被配置为耦合到网络，以从远程位置处的跟踪系统接收关于观察点(POV)的信息。关于POV的信息可以指示远程用户的位置。基于视角的图像捕获系统还可以包括用于捕获目标物体的图像的另一个图像捕获系统。更具体而言，图像捕获系统可以被配置为基于与由输入端接收的关于POV的信息从第一视角捕获一个或多个图像。

用户可以能够在(一个或多个)显示器150呈现的3D场景中指定或以其它方式操纵虚拟视点。根据需要，可以通过(一个或多个)显示器150中的一个或多个或另一个显示器基于虚拟视点来呈现3D场景的视图。根据需要，该3D场景的视图可以是立体的或单视的。

在机架110A中存储并执行的3D场景生成器(例如，内容处理系统)可以被配置为动态改变由(一个或多个)显示器150提供的显示图像。更特别地，3D场景生成器可以基于用户视野的改变、用户控制(例如，经由用户输入设备的操纵)等来更新显示的3D场景。这样的改变可以在运行时动态地执行，并且可以实时执行。3D场景生成器还可以跟踪外围设备(例如，用户输入设备130或眼部佩戴物140)，以确保外围设备与显示图像之间的同步。该系统还可以包括校准单元、过程和/或基准标记物，以确保外围设备到显示图像的正确映射以及投影图像与存储在机架110A的存储器中的虚拟图像之间的正确映射。

因此，系统100A可以呈现用户可以与之实时交互的3D场景。该系统可以包括可以在开放空间中呈现或传达视角图像的(一个或多个)实时电子显示器150，以及可以允许用户使用手动控制的或手持工具与3D场景进行交互的用户输入设备130。系统100A还可以包括以各种方式(诸如放大、缩放、旋转或移动，或甚至显示新图像)来操纵显示图像的部件。但是，如上所述，在一些实施例中，系统可以例如不需要手持工具而经由用户的手来促进这样的操纵。

此外，虽然系统100A由于其模拟用户在水平地面上的视觉体验而被示为包括水平显示器150B，但其它观看表面可以提供类似的3D幻觉体验。例如，通过将水平视角图像投影到天花板表面上，3D场景可以看起来像是从天花板上悬挂，或者通过将水平视角图像投影到垂直墙表面上，3D场景可以看起来像是从墙上浮动。更一般而言，可以根据需要使用显示器朝向和视角的任何其它变化(或系统100A的任何其它配置)。

根据本公开的各种实施例，显示器150可以显示要提供给用户的各种类型的信息(例如，多媒体数据或文本数据)。显示器150可以被配置为包括液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、等离子电池显示器、电子墨水阵列显示器、电子纸显示器、柔性LCD、柔性电致变色显示器或柔性电润湿显示器。显示器150可以在功能上连接到电子设备的(一个或多个)元件。而且，显示器150可以在功能上连接到除该电子设备之外的(一个或多个)电子设备。

在图3B的示例性实施例中，计算机系统100B可以包括机架110B，该机架110B可以包括显示器150、键盘120、触控板或触摸板135以及至少两个相机160。计算机系统100B还可以包括用户输入设备130和眼部佩戴物140。注意的是，在一些实施例中，计算机系统100B可以是无线或移动站，例如，诸如下面进一步描述的无线站106。例如，计算机系统100B可以是或包括在移动电话或智能电话(例如，基于iPhone^TM、Android^TM的电话)、平板计算机(例如，iPad^TM、Samsung Galaxy^TM等)、膝上型计算机(例如，MacBook^TM)、便携式游戏设备(例如，Nintendo DS^TM、PlayStation Portable^TM、Gameboy Advance^TM、iPhone^TM)、便携式互联网设备和/或其它手持设备。在各种实施例中，显示器150中的至少一个可以是立体显示器。注意的是，立体显示器还可以被配置为显示二维(2D)物体并且可以被配置为以2D模式操作。

机箱110B可以包括各种计算机组件，诸如处理器、至少一个存储介质(例如，RAM、ROM、硬盘驱动器等)、图形电路系统、音频电路系统以及用于执行计算机任务的其它电路系统，诸如本文所描述的那些电路系统。至少一个存储介质可以存储根据本发明的各种实施例的一个或多个计算机程序或软件组件。例如，存储介质可以存储一个或多个图形引擎，该图形引擎可执行以执行本文描述的一些技术。在某些实施例中，图形引擎可以在功能单元或处理元件上或由功能单元或处理元件实现。如本文所使用的，以及如以上术语部分中所指出的，术语功能单元或处理元件是指被配置为处理指令和/或数据的各种元件或元件的组合中的任何一种。处理元件包括例如电路，诸如ASIC(专用集成电路)、各个处理器核心的部分或电路、整个处理器核心、各个处理器、诸如现场可编程门阵列(FPGA)的可编程硬件设备和/或包含多个处理器的系统的更大部分，以及其任何组合。

如上所述，计算机系统100B(或更具体而言，机架110B)可以被配置为使用显示器150显示三维(3D)场景(例如，经由立体图像)或3D内容，诸如场景180。计算机系统100B还可以被配置为使用显示器150显示3D场景的“视图”。3D场景或内容的“视图”可以指从3D场景内的视点来看的3D场景的显示部分。3D场景内的视点可以被称为“虚拟视点”。视图可以是立体的，例如，可以显示在立体显示器上。替代地，视图可以是单视的(不是立体的)，并且可以在单视显示器或立体显示器上显示。注意的是，在立体显示器上显示的单视图像或场景可能看起来与在单视显示系统上的相同。

在一些实施例中，显示器150可以为用户呈现3D场景。该3D场景可以被视为或称为幻觉或模拟3D，因为实际提供的图像是2D，但是该场景经由立体效果经由用户对提供的图像的解释以3D传达。为了正确地观看立体图像(每个图像帧每只眼睛一个图像)，用户可以配戴眼部佩戴物140。眼部佩戴物140可以是浮雕眼镜、偏振眼镜、快门眼镜、双凸眼镜等中的任何一种。

在一些实施例中，眼部佩戴物140可以用作位置输入设备，用于跟踪查看由系统100B呈现的3D场景的用户的用户视野(例如，眼点或观察点(POV))。例如，眼部佩戴物140可以提供可用于例如经由三角测量来确定用户的观察点的位置的信息(例如，包括朝向信息的位置信息等)。在一些实施例中，位置输入设备可以使用光敏检测系统，例如，可以包括红外检测系统，以检测观看者头部的位置，以允许观看者头部自由移动。(一个或多个)输入设备的其它实施例可以使用三角测量方法来检测观看者的观察点位置，诸如一个或多个传感器(例如，两个相机，诸如电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)相机)提供适合头部跟踪的位置数据。观看者可以手动操作(一个或多个)输入设备，诸如触控笔、键盘、鼠标、轨迹球、操纵杆等或其组合，以指定或指示水平视角显示图像的正确显示。但是，可以根据需要使用任何用于跟踪用户的头部或观察点的位置的方法。因此，可以从用户的视角(或观察点)渲染3D场景，使得用户可以以最小的失真(例如，因为它基于用户的观察点)来观看3D场景。因此，可以使用位置输入设备针对用户的观察点特别地渲染3D场景。

显示器150的位置与用户的观察点之间的关系可以用于将虚拟空间的一部分映射到系统100B的物理空间。实质上，可以将所使用的物理空间和组件映射到虚拟模型，以便准确地渲染虚拟空间的3D场景。

用户输入设备(例如，键盘120、触控板135、用户输入设备130、指示设备、用户控制设备、用户手/手指等)中的一个或多个可以用于与呈现的3D场景交互。例如，用户输入设备130(显示为触控笔)或简单地用户的手可以用于(经由查看的投影物体)与3D场景的虚拟物体直接交互。这种直接交互可能是与3D场景的负空间部分进行的。在一些实施例中，可以经由(3D场景的)立体渲染在该负空间中呈现3D场景的至少一部分，该负空间在至少一个显示器的前面或以其它方式在显示器的外面。在一些实施例中，3D场景的至少一部分可以在显示器150的表面上方看起来像全息图状图像。但是，应该注意的是，3D场景的一部分也可以呈现为看起来像在位于正空间中的显示表面的后面。因此，负空间是指用户能够自由移入并与之交互的空间(例如，其中用户能够将他的手(或更一般而言，用户输入设备130)放置在该空间中)，而不是用户无法自由移入和与之交互的空间(例如，其中用户无法将他的手(或用户输入设备130)放置在该空间(诸如显示表面下方的空间)中)。因此，负空间可以被认为是“动手体积”，而不是“内部体积”(即正空间)，后者可以在(一个或多个)显示器的表面下方，并且因此是不可接近的。因此，用户可以与负空间中的虚拟物体交互，因为它们接近用户自己的物理空间。换句话说，正空间位于观看表面的后面(或下方)，因此呈现的物体看起来像位于物理观察设备的内部(或背面)。因此，呈现在正空间内的3D场景的物体与用户不共享相同的物理空间，因此，这些物体不能用手直接和物理操纵或通过诸如用户输入设备130之类的手持工具物理相交。而是，它们可以例如经由计算机鼠标、操纵杆、手的虚拟表示、手持工具或触控笔、或者通过来自触控笔的投影(例如，虚拟激光或虚拟平面)被间接地操纵。

在一些实施例中，系统100可以包括一个或多个传感器160。一个或多个传感器160可以被包括在跟踪系统中。图3B图示了使用四个相机160的实施例。例如，四个相机160中的两个可以用于感测用户视野(例如，观察点)，而另外两个相机160可以用于感测用户输入设备(例如，指示设备、触控笔、手、手套等)。替代地，可以使用少于四个的传感器(例如，两个传感器)，其中每个传感器可以同时跟踪用户(例如，用户的头部和/或用户的观察点)和用户输入设备。传感器160可以用于对系统100B的用户进行成像、跟踪用户的移动，或者跟踪用户的头部或眼睛以及其它预期功能。在一个实施例中，相机160可以跟踪用户输入设备130的位置和/或朝向。由一个或多个传感器160提供的关于用户输入设备130的位置(包括朝向)的信息可以与系统的其它位置信息(例如，触控笔自身内的加速度计和/或陀螺仪)结合使用，以对用户输入设备130执行更精确的3D跟踪。一个或多个传感器160可以在空间上彼此分开并且被放置在查看涵盖用户将在其中观看立体影像的体积的位置。传感器160也可以彼此足够远以为真实的三轴三角测量确定提供视距。

在一些实施例中，系统100B可以被配置为经由输入端或接口(有线或无线)耦合到网络，诸如广域网。输入端可以被配置为通过网络从类似于系统100A或100B的系统接收数据(例如，图像数据、视频数据、音频数据等)。在其它实施例中，跟踪系统可以包括相机160。相机160可以被配置为提供关于用户的视觉信息(例如，使得可以确定用户的POV，例如，位置(包括朝向)，或者使得可以确定用户的手的位置)。但是，应当注意的是，可以根据需要使用任何类型的各种跟踪技术或设备。注意的是，如本文所使用的，用户的POV是指用户从其光学地观看物体或图像的视角或POV，即，用户的视觉POV，因此是相对于系统的显示设备定义的。在一些实施例中，POV可以是6自由度(6DOF)POV，例如，三个位置坐标和三个朝向坐标，但是可以根据需要使用任何POV，例如，三个位置坐标和两个或三个朝向坐标，等等。如上所述，位置坐标可以包括位置和朝向坐标。

注意的是，在一些实施例中，跟踪系统可以至少部分地依赖于机架110B的组件来确定位置或POV，例如，经由由机架110B的处理器或功能单元或在其上执行一个或多个程序来确定位置或POV，但是在其它实施例中，跟踪系统可以独立地操作，例如，可以具有其自己的处理器或功能单元。

用户可以能够在显示器150呈现的3D场景中指定或以其它方式操纵虚拟视点。根据需要，可以通过显示器150中的一个或多个或另一个显示器基于虚拟视点来呈现3D场景的视图。根据需要，该3D场景的视图可以是立体的或单视的。

在机架110B中存储并执行的3D场景生成器(例如，内容处理系统)可以被配置为动态改变由显示器150提供的显示图像。更特别地，3D场景生成器可以基于用户视野的改变、用户控制(例如，经由用户输入设备的操纵)等来更新显示的3D场景。这样的改变可以在运行时动态地执行，并且可以实时执行。3D场景生成器还可以跟踪外围设备(例如，用户输入设备130或眼部佩戴物140)，以确保外围设备与显示图像之间的同步。该系统还可以包括校准单元、过程和/或基准标记物，以确保外围设备到显示图像的正确映射以及投影图像与存储在机架110B的存储器中的虚拟图像之间的正确映射。

因此，系统100B可以呈现用户可以与之实时交互的3D场景。该系统可以包括可以在开放空间中呈现或传达视角图像的实时电子显示器150，以及可以允许用户使用手动控制的或手持工具与3D场景进行交互的用户输入设备130。系统100B还可以包括以各种方式(诸如放大、缩放、旋转或移动，或甚至显示新图像)来操纵显示图像的部件。但是，如上所述，在一些实施例中，系统可以例如不需要手持工具而经由用户的手来促进这样的操纵。

根据本公开的各种实施例，显示器150可以显示要提供给用户的各种类型的信息(例如，多媒体数据或文本数据)。显示器150可以被配置为包括液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、等离子电池显示器、电子墨水阵列显示器、电子纸显示器、柔性LCD、柔性电致变色显示器或柔性电润湿显示器。显示器150可以在功能上连接到电子设备的(一个或多个)元件。而且，显示器150可以在功能上连接到除电子设备之外的(一个或多个)电子设备。根据本公开的各种实施例，输入模块240可以接收用于控制例如历史屏幕的属性的输入。输入模块240可以接收例如“参考屏幕设置”的输入。“参考屏幕设置”可以包括用于在存储模块210中存储与屏幕相关的信息以便显示参考屏幕的操作。输入模块240可以接收例如用于显示参考屏幕的输入。屏幕的属性可以包括例如参考屏幕的位置、参考屏幕的音量、屏幕的亮度和屏幕的尺寸中的至少一个。根据本公开的各种实施例，如果输入模块240包括在第二电子设备中，那么输入模块240可以不在电子设备中提供。

图4图示了无线站106的示例简化框图。根据实施例，无线站106可以是用户装备(UE)设备、移动设备和/或移动站。无线站106可以与上面参考图3A和图3B描述的系统以及下面参考图5B和图5C描述的系统结合使用。例如，无线站106可以被配置为任何所描述的系统的输入设备(例如，无线站106可以被配置为用户输入设备)。作为另一个示例，根据一些实施例，无线站106可以被配置为任何所描述的系统的显示器。因此，无线站106可以被配置为显示立体图像。在一些实施例中，无线站106可以被配置为无线地(例如，经由诸如Wi-Fi的局域网、蓝牙或蓝牙低能耗连接)或经由诸如通用串行总线接口之类的有线接口，以及其它有线接口与3D系统通信。在一些实施例中，无线站106可以被包括在计算机系统中，诸如上述计算机系统100B。

如图所示，无线站106可以包括片上系统(SOC)300，其可以包括用于各种目的的部分。SOC 300可以耦合到无线站106的各种其它电路。例如，无线站106可以包括各种类型的存储器(例如，包括NAND闪存310)、连接器接口(I/F)(或扩展坞)320(例如，用于耦合到计算机系统、扩展坞、充电站等)、显示器360、蜂窝通信电路系统330(诸如，用于LTE、GSM等)，以及短中程无线通信电路系统329(例如，Bluetooth^TM和WLAN电路系统)。无线站106还可以包括结合SIM(订户身份模块)功能的一个或多个智能卡310，诸如一个或多个UICC((一个或多个)通用集成电路卡)卡345。蜂窝通信电路系统330可以耦合到一个或多个天线，诸如所示的天线335和336。短中程无线通信电路系统329也可以耦合到一个或多个天线，诸如所示的天线337和338。替代地，除了耦合到天线337和338之外，或者代替耦合到天线337和338，短中程无线通信电路系统329可以耦合到天线335和336。短中程无线通信电路系统329可以包括多个接收链和/或多个发送链，用于接收和/或发送多个空间流，诸如在多输入多输出(MIMO)配置中。

如图所示，SOC 300可以包括可以执行用于无线站106的程序指令的(一个或多个)处理器302和可以执行图形处理并将显示信号提供给显示器360的显示电路系统304。(一个或多个)处理器302还可以耦合到存储器管理单元(MMU)340，该存储器管理单元340可以被配置为从(一个或多个)处理器302接收地址并且将那些地址转换成到存储器(例如，存储器306、只读存储器(ROM)350、NAND闪存310)中的位置和/或到其它电路或设备，诸如显示电路系统304、蜂窝通信电路系统330、短程无线通信电路系统329、连接器接口(I/F)320和/或显示器360。MMU 340可以被配置为执行存储器保护和页表转换或设置。在一些实施例中，MMU340可以被包括为(一个或多个)处理器302的一部分。

如本文所述，无线站106可以包括用于实现本文描述的特征的硬件和软件组件，例如，无线站106可以形成3D显示系统(诸如上述系统100和/或下面描述的系统500A和5B)的至少一部分。例如，无线站106的处理器302可以被配置为例如通过执行存储在存储介质(例如，非暂态计算机可读存储介质)上的程序指令来实现本文描述的部分或全部特征。替代地(或附加地)，处理器302可以被配置为可编程硬件元件，诸如FPGA(现场可编程门阵列)，或者被配置为ASIC(专用集成电路)。替代地(或附加地)，UE 106的处理器302与其它组件300、304、306、310、320、330、335、340、345、350、360中的一个或多个结合可以被配置为实现本文描述的部分或全部特征。

另外，如本文所述，处理器302可以包括一个或多个处理元件。因此，处理器302可以包括被配置为执行处理器302的功能的一个或多个集成电路(IC)。另外，每个集成电路可以包括被配置为执行(一个或多个)处理器302的功能的电路系统(例如，第一电路系统、第二电路系统等)。

参考图5A，头戴式电子设备500A可以包括主体502A和盖504。主体502可以包括透镜508和510，以及控制设备514。另外，电子设备500A可以包括支撑件506A，该支撑件506A可以被配置为在用户的头部上支撑电子设备500A。透镜508和510可以被定位成与用户的眼睛对应。用户可以通过透镜508和510查看显示器上的屏幕。显示器可以耦合或连接到电子设备500。在一些实施例中，显示器可以被包括在盖504上(或之中)，并且盖504可以被配置为耦合到主体502A。在一些实施例中，电子设备500B可以包括显示器，诸如以上参考图4描述的显示器150A或150B。因此，盖504可以通信地耦合到主体502A(例如，以将盖504的显示器耦合到电子设备500的处理器)并且机械地耦合(例如，附接到)主体502。在一些实施例中，主体502A与盖504之间的通信耦合可以是有线的和/或无线的。

在一些实施例中，控制设备514可以位于主体502A的侧表面上。控制设备514可以用于用户输入用于控制头戴式电子设备500A的输入。例如，控制设备514可以包括触摸面板、按钮、滚轮键和/或触摸板。触摸面板可以接收用户的触摸输入。触摸输入可以是对触摸面板的直接触摸输入，或者是触摸面板附近的悬停输入。

转到图5B，头戴式电子设备500B可以包括主体502B和支撑件506B。主体502B可以被配置为耦合到无线站，并且电子设备500B的显示器可以是无线站(诸如无线站106)的显示器，并且无线站可以耦合或连接到(例如，可以可拆卸地安装到)电子设备500B。换句话说，电子设备500B可以被配置为使得无线站可以非永久地耦合到电子设备500B，并且可以在没有破坏性措施的情况下可移动到电子设备500B。因此，电子设备500B可以与无线站耦合和解耦(例如，非破坏性地与之解耦)，而不改变无线站或电子设备500B的功能。

转到图5C，图5C图示了头戴式电子设备500C的示例简化框图。根据实施例，电子设备500C可以包括显示器(例如，诸如电子设备500A)，或者可以被配置为耦合到无线站(例如，诸如电子设备500B)。注意的是，上述电子设备500A和500B可以至少包括参考电子设备500C所描述的部分特征。

如图所示，电子设备500C可以包括片上系统(SOC)506，其可以包括用于各种目的的部分。SOC 506可以耦合到电子设备500C的各种其它电路。例如，电子设备500C可以包括各种类型的存储器(例如，包括NAND闪存510)、连接器接口(I/F)(或扩展坞)520(例如，用于耦合到计算机系统、扩展坞、充电站、外部显示器等)、显示器560(注意的是，在一些实施例中，电子设备500C可以不包括显示器560)以及短中程无线通信电路系统529(例如，Bluetooth^TM和WLAN电路系统)。短中程无线通信电路系统529也可以耦合到一个或多个天线，诸如所示的天线537和538。短中程无线通信电路系统529可以包括多个接收链和/或多个发送链，用于接收和/或发送多个空间流，诸如在多输入多输出(MIMO)配置中。

如图所示，SOC 506可以包括可以执行用于电子设备500C的程序指令的(一个或多个)处理器502和可以执行图形处理并将显示信号提供给显示器560(和/或扩展坞520)的显示电路系统504。(一个或多个)处理器502还可以耦合到存储器管理单元(MMU)540，该存储器管理单元540可以被配置为从(一个或多个)处理器502接收地址并且将那些地址转换成到存储器(例如，存储器506、只读存储器(ROM)550、NAND闪存510)中的位置和/或到其它电路或设备，诸如显示电路系统504、短程无线通信电路系统529、连接器接口(I/F)520和/或显示器560。MMU 540可以被配置为执行存储器保护和页表转换或设置。在一些实施例中，MMU 540可以被包括为(一个或多个)处理器502的一部分。

在一些实施例中，电子设备500C(和/或诸如电子设备500A或500B之类的电子设备)可以与用户输入设备(诸如上述用户输入设备130)通信。在一些实施例中，电子设备可以如上所述经由用户输入设备130接收用户输入。

另外，在一些实施例中，电子设备500C可以包括一个或多个位置传感器，诸如加速度计、陀螺仪传感器、地磁传感器、磁传感器、接近传感器、姿势传感器、抓握传感器和/或生物特征传感器。在一些实施例中，电子设备可以使用一个或多个位置传感器来获取信息，以确定穿戴电子设备的用户的运动和/或用户是否穿戴或移除电子设备500C。至少一个处理器可以响应于接收到的输入来控制与通过控制设备(例如，控制设备514和/或用户输入设备130)接收到的输入对应的(一个或多个)功能或(一个或多个)操作的执行。

如本文所述，电子设备500C可以包括用于实现本文描述的特征的硬件和软件组件，例如，电子设备500C可以形成3D显示系统(诸如上述系统100和/或下面描述的系统500A和5B)的至少一部分。例如，电子设备500C的处理器502可以被配置为例如通过执行存储在存储介质(例如，非暂态计算机可读存储介质)上的程序指令来实现本文描述的部分或全部特征。替代地(或附加地)，处理器502可以被配置为可编程硬件元件，诸如FPGA(现场可编程门阵列)，或者被配置为ASIC(专用集成电路)。替代地(或附加地)，UE 106的处理器502与其它组件500、504、506、510、520、535、550、560中的一个或多个组件结合可以被配置为实现本文描述的部分或全部特征。

在一些实施例中，电子设备500C可以包括一个或多个外部相机或与之通信。例如，电子设备500C可以包括可以被配置为捕获用户的物理位置的图像的一个或多个相机(或相机阵列)(或与之通信)。

另外，如本文所述，处理器502可以包括一个或多个处理元件。因此，处理器502可以包括被配置为执行处理器502的功能的一个或多个集成电路(IC)。另外，每个集成电路可以包括被配置为执行(一个或多个)处理器502的功能的电路系统(例如，第一电路系统、第二电路系统等)。

图6图示了根据一些实施例的用户输入设备的示例。如图所示，用户输入设备600可以被配置为执行如本文所述的各种实施例。用户输入设备600可以与如以上参考图4和图5B-5C描述的用户输入设备130相似或相同。因此，用户输入设备600可以与系统100或系统500和550结合使用或包括在其中。如上所述，系统100、500和550可以具有确定用户输入设备600的六轴位置和朝向的能力。注意的是，这包括用户输入设备600的尖端610的X、Y、Z位置以及用户输入设备600的主体602的α、β、γ角朝向。但是，应该进一步注意的是，用户输入设备600是示例性的，并且可以根据需要使用适当配置的其它用户输入设备。

如图所示，用户输入设备600可以包括按钮604、606和612。可以按下并按住按钮中的一个，诸如按钮606，以触发在由系统100、500和550中的任何一个呈现的3D场景中选择物体。此外，系统100可以被配置为显示从尖端610到所选择的物体的虚拟“类似激光器”的投影。在选择物体的情况下，对用户输入设备600的位置和/或朝向的调整可以改变物体的位置和/或朝向。因此，用户输入设备600的移动可以导致物体的对应平移和/或旋转。

用基本上等效的3D图像替换2D图像

现有的网页(例如，托管在网站上)通常包括(或包含，例如，具有网页结构)二维(2D)图像。但是，随着技术的发展和增强现实(AR)和/或虚拟现实(VR)变得越来越普及和可获得，有大量的证据表明，如果将部分或全部图像呈现为三维(3D)图像，那么可以带来显著的优势。例如，与2D图像相比，3D图像通常吸引更多的注意力。因此，网页的用户(或访客)可能在基于显示3D图像而不是2D图像的网页上花费额外的时间。另外，与2D图像相比，3D图像通常允许更长的显示内容保留。因此，与不替换2D图像相比，用基本上等效的3D图像替换2D图像可以允许网页吸引更多的访问者，这些访问者可能在具有更大的内容保留的网页上花费更多的时间。

为了完成2D图像到3D图像的转换，需要在2D网页中识别2D图像，并且显示设备需要能够显示3D图像。要做到这一点，需要两件事。在一些实施例中，从2D图像到3D图像的转换可以包括确定2D图像的内容、获取具有基本上等效的内容的3D图像，以及用基本上等效的3D图像替换2D图像(例如，至少部分地基于2D图像内容的确定)。本文公开了用于实现用基本上等效的3D图像替换网页中的2D图像的方法的系统的实施例。3D图像可以源自替代的3D影像。可以从正被访问的网站(例如，托管网页)和/或从互联网上的其它地方获得替代的3D影像。另外，本文公开了用于实现用于确定和/或选择(例如，至少部分地基于一个或多个标准，诸如2D图像的内容)最优(例如，基本上等效)3D替换图像的方法的系统的实施例。

图7图示了根据一些实施例的用于识别等效的3D图像并用其替换2D图像的处理的示例的框图。图7中所示的处理可以与以上各图中所示的任何系统或设备以及其它设备一起使用。在各种实施例中，所示的一些处理元件可以以与所示的顺序不同的顺序并发地执行，或者可以被省略。还可以根据需要执行附加的处理元件。如图所示，该处理可以如下操作。

在702处，可以识别网页内的2D图像的内容。例如，识别可以包括与2D图像相关联的元数据的识别。替代地或附加地，如果元数据不(现成)可用，那么机器学习算法可以用于例如经由对网页结构的分析(或扫描)来识别2D图像的内容。

在704处，一旦已经识别出2D图像的内容，就可以识别(或定位)具有基本上等效的内容的3D图像。例如，如果正在访问的网页具有可用的合适的替代3D图像(例如，基本上等效的3D图像)，那么该处理可以选择替代的3D图像。替代地，如果网页不提供3D图像作为替代，那么可以从互联网中的其它地方获取(例如，搜索和定位/找到)合适的3D图像(例如，基本上等效的3D图像)。例如，在搜索互联网时，可以至少部分地基于与3D图像相关联的元数据来识别(例如，在互联网中找到或定位)合适的3D图像。替代地，如果在互联网中没有找到具有识别元数据的合适的3D图像，那么可以使用机器学习来分析在互联网中找到的3D图像的内容。作为另一个示例，互联网中的3D图像的内容可以被索引，并且可以至少部分地基于对3D图像的索引内容的搜索来识别合适的3D图像替换。作为另一个示例，2D视频或3D视频的一个(或多个)帧可以包括适合于获取合适的3D图像的内容。注意的是，组合几个视频帧可以提高合适的3D图像与2D图像的匹配质量。其它示例可以包括将其它和/或附加标准应用于选择合适的3D图像来替换2D图像的处理。这样的标准可以包括3D图像的形状和/或3D图像的照明的细节。

此外，这样的标准可以包括来自网页用户的信息。例如，可以询问(或调查)用户以获得帮助选择合适的3D图像来替换2D图像的信息。举例来说，如果网页上有狗的2D图像，并试图用狗的合适的3D图像替换狗的2D图像，那么应用可以调查用户对与狗的特定品种、颜色、尺寸和/或年龄相关的兴趣。附加地(或替代地)，应用可以基于用户的浏览历史和/或其它在线历史来导出(或进一步增强)这样的附加信息。

在706处，可以将3D图像集成到网页中，例如，可以在网页中显示3D图像而不是2D图像。另外，用户可以与集成的3D图像进行交互。例如，可以对3D图像进行重新定向、平移(例如，沿着X、Y、Z轴的任何组合在任何方向上移动)、旋转(例如，围绕X、Y、Z轴的任何组合在任何方向上)等等。换句话说，3D图像可以能够进行重新定向、平移和/或其它类型的操纵。(一个或多个)操纵可以响应于经由用户输入设备(例如，诸如上述用户输入设备130和600)的用户输入和/或(例如，实时地)从如上所述的用户头部和/或眼睛跟踪导出的信息。在一些实施例中，从用户头部和/或眼睛跟踪导出的信息可以包括检测用户的视点(或观察点)的移动(例如，改变)。

图8A-D图示了根据一些实施例的3D图像的一种可能的操纵的示例。如图8A所示，网页800可以包括2D图像840。2D图像840可以通过例如以上参考图7描述的处理来识别，并且合适的或等效的3D图像845(如图8B所示)可以被识别(例如，经由元数据关联和/或经由互联网)。如图8C所示，3D图像845可以替代2D图像840，但是，可以手动和/或自动重新定向3D图像845，使得3D图像845的纵横比与2D图像840的纵横比等效。在一些实施例中，当3D图像845被插入到网页800中时可以被平坦化。换句话说，可以减小3D图像845的z-标度分量的值，使得3D图像845看起来像2D图像。在一些实施例中，如图8D所示，一旦用户利用用户输入设备(例如，触控笔130/600)与3D图像845相交，就可以将3D图像845的z-标度分量动画化回其原始值，从而出现3D。注意的是，z-轴可以是与3D图像的深度相关联的轴(例如，进入或离开由显示器定义的平面)，而x-轴和y-轴可以与平面内维度(例如，在显示器的平面中)和/或移动相关联。这样的动画可以在悬停时创建物体从2D到3D(并在去掉悬停时返回2D)的无缝动画效果。

图9图示了根据一些实施例的用于在集成到网页中以替代2D图像时使3D图像平坦化的处理的示例的框图。图9中所示的处理可以与以上各图中所示的任何系统或设备以及其它设备一起使用。在各种实施例中，所示的一些处理元件可以以与所示的顺序不同的顺序并发地执行，或者可以被省略。还可以根据需要执行附加的处理元件。如图所示，该处理可以如下操作。

在902处，可以将网页上显示的2D图像替换为3D图像。换句话说，如上面参考图7所述，可以识别2D图像、可以定位合适的3D图像，并且可以将合适的3D图像集成到网页中。

在904处，在插入到网页中后，可以例如通过减小3D图像的z-标度分量的值来使3D图像平坦化。因此，3D图像在插入到网页中时可以看起来像2D图像。

在906处，在检测到用户输入设备(或用户输入设备的投影光束)与3D图像的相交和/或对3D图像的操纵时，通过增加3D图像的z-标度分量的值来使3D图像动画化，从而创建在悬停时从2D无缝动画到3D的3D影像的效果。此外，由于用户输入设备(或用户输入设备的投射光束)不再与3D图像相交，因此通过减小3D图像的z-标度分量的值将3D图像恢复为平坦状态。换句话说，当用户输入设备不再悬停在3D图像上时，3D图像可以返回显示为2D图像。

图10A-C图示了根据一些实施例的3D图像的另一种可能的操纵的示例。如图10A所示，网页1000可以包括2D图像1040。2D图像1040可以通过例如以上参考图7所描述的处理来识别，并且合适的或等效的3D图像1045(如图10B所示)可以被识别(例如，经由元数据关联和/或经由互联网)。如图10C所示，等效的3D图像可以以现实世界比例/尺寸呈现。换句话说，如果由3D图像表示的物体(例如，汽水罐或汽水瓶)的实际现实世界尺寸适合在应用/浏览器视口的边界内，那么可以为用户提供以现实世界比例的3D图像。在一些实施例中，例如，响应于操纵3D图像的用户输入，在以现实世界比例显示之前，例如，如以上参考图8A-8D和图9所描述的，首先可以将3D图像缩放到2D图像尺寸并使其平坦化。另外，在一些实施例中，在确定用户不再与3D图像交互时，可以将3D图像重新缩放为2D图像尺寸。在诸如电子商务之类的应用中，现实世界尺寸物体的表示可能是有益的。在一些实施例中，正在购物的顾客可以以正确的物理比例(现实世界尺寸与虚拟世界尺寸之间的大约1:1对应关系)观看物品的3D表示(例如，3D物体)。例如，用户可能正在购买戒指，因此可以向用户呈现戒指的3D虚拟表示，并且用户可以在显示器和/或戒指的3D表示附近举起手指来确定戒指是否合适以及戒指适合的情况。类似地，用户可能正在购买手镯，因此可以向用户呈现手镯的3D表示，并且用户可以在显示器和/或手镯的3D表示附近举起手腕来确定手镯是否合适以及手镯适合的情况。作为另一个示例，用户可能正在购物眼镜(例如，眼镜、太阳镜架和/或镜片)，因此可以向用户呈现眼镜的3D表示，并且用户可以例如通过将眼镜定位在其脸上(例如，通过用户输入和操纵眼镜的3D表示)并在虚拟3D场景中呈现提供佩戴虚拟眼镜的用户的反射的虚拟镜子，能够可视化眼镜看起来如何。

如上所述，可以基于与图像相关的标准来选择合适的(或等效的)3D图像。例如，在一些实施例中，标准可以包括排名系统。因此，替换3D图像的有序列表可以至少部分地基于以下进行排名：(1)3D图像先前已被选择作为替换3D图像的次数；(2)3D图像从先前已搜索过这种类型的3D图像的用户接收到的票数或背书数；和/或(3)由3D内容创建者为使3D影像排名高于非付费(付费较少的)3D内容创建者而支付的费用。另外，排名还可以至少部分地基于：(1)3D图像中的细节水平；(2)3D图像是否包含与在3D图像内显示的3D物体的内部相关的信息；和/或(3)3D图像的尺寸。

图11图示了根据一些实施例的用于选择合适的3D图像来替换显示在网页上的2D图像的处理的示例的框图。图11中所示的处理可以与以上各图中所示的任何系统或设备以及其它设备一起使用。在各种实施例中，所示的一些处理元件可以以与所示的顺序不同的顺序并发地执行，或者可以被省略。还可以根据需要执行附加的处理元件。如图所示，该处理可以如下操作。

在1102处，可以识别网页内的2D图像的内容。例如，识别可以包括与2D图像相关联的元数据的识别。替代地或附加地，如果元数据不(现成)可用，那么机器学习算法可以用于例如经由对网页结构的分析(或扫描)来识别2D图像的内容。

在1104处，一旦已经识别出2D图像的内容，就可以识别(或定位)具有与2D图像相似的内容的多个3D图像。换句话说，多个3D图像中的每一个可以具有与2D图像相关或也与2D图像相关联的影像、元数据、图像标签等。例如，如果所访问的网页具有可用的合适的替代3D图像(例如，基本上等效的3D图像)，那么该处理可以识别替代3D图像。替代地，如果网页不提供3D图像作为替代，那么3D图像可以从互联网中的其它地方获取(例如，搜索和定位/找到)。例如，在搜索互联网时，可以至少部分地基于与3D图像相关联的元数据来识别(例如，在互联网中找到或定位)3D图像。替代地，如果在互联网中没有找到具有标识元数据的3D图像，那么可以使用机器学习来分析在互联网中找到的3D图像的内容。作为另一个示例，互联网中的3D图像的内容可以被索引，并且可以至少部分地基于对3D图像的索引内容的搜索来识别3D图像替换。作为另一个示例，2D视频或3D视频的一个(或多个)帧可以包括适合于获取3D图像的内容。注意的是，组合几个视频帧可以提高3D图像与2D图像的匹配质量。其它示例可以包括将其它和/或附加标准应用于选择3D图像作为2D图像的可能替换的处理。这样的标准可以包括3D图像的形状和/或3D图像的照明的细节。此外，在一些实施例中，如果未找到完全匹配的(例如，合适的)3D图像，那么3D重建算法可以应用于2D图像和/或2D视频(连续镜头)以产生重建的3D模型，然后可以使用该重建的3D模型作为用于替换到网页中的合适的3D图像。

在1106处，可以例如基于一组或多组排名标准对多个3D图像进行排名。例如，第一组排名标准可以包括：(1)3D图像先前已被选择作为替换3D图像的次数；(2)3D图像从先前已搜索过这种类型的3D图像的用户接收到的票数或背书数；和/或(3)由3D内容创建者为使3D影像排名高于非付费(付费较少的)3D内容创建者而支付的费用。另外，第二组排名标准可以包括：(1)3D图像中的细节水平；(2)3D图像是否包含与在3D图像内显示的3D物体的内部相关的信息；和/或(3)3D图像的尺寸。注意的是，多个3D图像的排名可以组合多组标准和/或可以分别考虑多组标准。在一些实施例中，一组标准与另一组标准相比可以被加权。如果来自一组标准的排名产生的结果与来自另一组标准的排名产生的结果不同，那么这样的加权可能成为平局。在一些实施例中，这样的加权可以用于组合来自各种标准组的排名。

在1108处，可以选择最高排名的3D图像作为等效的3D图像。一旦选择了等效的(或合适的)3D图像，那么该等效的3D图像就可以被集成到网页中，例如，该等效的3D图像可以被显示在网页中而不是2D图像。另外，用户可以与集成的等效的3D图像进行交互。例如，等效的3D图像可以被重新定向、平移(例如，沿着X、Y、Z轴的任何组合在任何方向上移动)、旋转(例如，围绕X、Y、Z轴的任何组合在任何方向上)等等。换句话说，等效的3D图像可以能够进行重新定向、平移和/或其它类型的操纵。(一个或多个)操纵可以响应于经由用户输入设备(例如，诸如上述用户输入设备130和600)的用户输入和/或(例如，实时地)从如上所述的用户头部和/或眼睛跟踪导出的信息。

除了选择合适的(或等效的)3D图像之外，还可以提高特定3D图像的质量或适用性。例如，一旦识别或选择了最高排名的合适3D图像，就可以将影像添加到最高排名的合适3D图像。影像可以从被最高排名的合适3D图像替代的2D图像中导出(或可导出)。作为另一个示例，一旦识别或选择了最高排名的合适3D图像，最高排名的合适3D图像中的不正确的3D影像就可以被替换为从2D图像导出(或可导出)的正确的3D影像。换句话说，可以去除和/或修改不与2D图像中的2D影像对应的3D影像，使得校正的3D影像确实与2D影像对应。作为又一个示例，一旦识别或选择了最高排名的合适3D图像，就可以将2D图像内容映射到3D图像内容上以替换最高排名的合适3D图像中的现有影像。另外，可以通过组合两个或更多个不太合适的3D图像的各方面来创建(或导出)合适的3D图像。换句话说，如果没有合适的3D图像，那么可以基于两个或更多个找到的3D图像来构造(或组装)合适的3D图像。

此外，在一些实施例中，可以渲染合适的3D图像模型的初始姿势(pose)，使得模型的朝向、比例和定位的位置(例如，在平面中方向“x”和“y”上)可以匹配要替换的2D图像的朝向、比例和位置(在“x”和“y”上)，从而在从2D图像到合适的3D图像的替换处理中创建无缝的用户体验。

图12图示了根据一些实施例的用于提高3D图像的适用性以替换网页上显示的2D图像的处理的示例的框图。图12中所示的处理可以与以上各图中所示的任何系统或设备以及其它设备一起使用。在各种实施例中，所示的一些处理元件可以以与所示的顺序不同的顺序并发地执行，或者可以被省略。还可以根据需要执行附加的处理元件。如图所示，该处理可以如下操作。

在1202处，可以针对相对于3D图像正在替换的2D图像的准确性分析所选择的等效3D图像(3D图像)。例如，可以将3D图像的影像(例如，背景或背景物体、前景或前景物体、照明、着色、阴影等)与2D图像的影像进行比较。

在1204处，可以识别不与2D图像的影像对应的3D图像的影像，并且在1206处，可以修改和/或替换识别出的影像。例如，影像可以被添加到3D图像。在一些实施例中，添加的影像可以从2D图像导出(或可导出)。作为另一个示例，可以将2D图像内容(影像)映射到3D图像内容上，以替换3D图像中的现有影像。

在1208处，可以显示经修改的3D图像。换句话说，经修改的3D图像可以被集成到网页中，例如，经修改的3D图像可以被显示在网页中而不是2D图像中。另外，用户可以与经修改的3D图像进行交互。例如，经修改的3D图像可以被重新定向、平移(例如，沿着X、Y、Z轴的任何组合在任何方向上移动)、旋转(例如，围绕X、Y、Z轴的任何组合在任何方向上)等等。换句话说，经修改的3D图像可以能够进行重新定向、平移和/或其它类型的操纵。(一个或多个)操纵可以响应于经由用户输入设备(例如，上述用户输入设备130和600)的用户输入和/或(例如，实时地)从如上所述的用户头部和/或眼睛跟踪导出的信息。

本公开的实施例可以以各种形式中的任何形式来实现。例如，一些实施例可以被实现为计算机实现的方法、计算机可读存储介质或计算机系统。可以使用一个或多个定制设计的硬件设备(诸如ASIC)来实现其它实施例。可以使用一个或多个可编程硬件元件(诸如FPGA)来实现其它实施例。

在一些实施例中，非暂态计算机可读存储介质可以被配置为使得其存储程序指令和/或数据，其中如果程序指令由计算机系统执行，那么该程序指令使计算机系统执行一种方法，例如，本文描述的任何方法实施例，或本文描述的方法实施例的任何组合，或本文描述的方法实施例中的任何方法实施例的任何子集，或此类子集的任何组合。

在一些实施例中，无线设备(或无线站)可以被配置为包括处理器(或一组处理器)和存储介质，其中存储介质存储程序指令，其中处理器被配置为从存储介质读取程序指令并执行程序指令，其中程序指令可执行，以使得无线设备实现本文描述的各种方法实施例中的任何一个(或本文描述的方法实施例的任何组合，或本文描述的方法实施例中的方法实施例的任何子集，或此类子集的任何组合)。设备可以以各种形式中的任何一种来实现。

虽然以上已经相当详细地描述了实施例，但是一旦充分理解了以上公开，许多变化和修改对于本领域技术人员将变得显而易见。意图将以下权利要求解释为涵盖所有这样的变化和修改。

Claims

1.一种存储编程指令的非暂态计算机可读存储介质，所述编程指令可由无线设备的处理电路系统执行以：

识别在所述无线设备的至少一个显示器上的网页内显示的二维(2D)图像的内容，其中基于网页结构分析或与2D图像相关联的元数据的识别之一来识别2D图像；

至少部分地基于2D图像的内容，将一个或多个三维(3D)图像识别为2D图像的可能替换；

基于一组或多组排名标准对所述一个或多个3D图像进行排名；

选择具有最高排名值的3D图像；以及

将3D图像集成到网页中，从而用3D图像替换2D图像。

2.如权利要求1所述的非暂态计算机可读存储介质，

其中，所述编程指令还可执行以：

接收操纵网页内的3D图像的至少一个用户输入，其中所述至少一个用户输入包括以下项中的至少一项：

用户的观察点相对于所述至少一个显示器的移动，其中观察点的移动是至少部分地基于用户的头部或眼睛的跟踪信息来确定的；或者

从与3D图像相交的用户输入设备的一端投射的光束的检测，其中与3D图像相交的光束的检测至少部分地基于用户输入设备相对于所述至少一个显示器的跟踪位置和朝向。

3.如权利要求1所述的非暂态计算机可读存储介质，

其中，为了识别所述一个或多个图像，所述编程指令还可执行以：

选择由托管网页的网站托管的一个或多个3D图像。

4.如权利要求1所述的非暂态计算机可读存储介质，

选择通过互联网搜索识别出的一个或多个图像。

5.如权利要求4所述的非暂态计算机可读存储介质，

其中，为了选择通过互联网搜索识别出的所述一个或多个图像，所述编程指令还可执行以：

至少部分地基于与3D图像相关联的元数据来识别一个或多个3D图像。

6.如权利要求4所述的非暂态计算机可读存储介质，

搜索3D图像的内容索引。

7.如权利要求1所述的非暂态计算机可读存储介质，

其中，第一组排名标准包括以下项中的两项或更多项：

3D图像先前已被选择为替换3D图像的次数；

3D图像从先前已搜索过这种类型的3D图像的用户接收到的票数；

3D图像从先前已搜索过这种类型的3D图像的用户接收到的背书数；

由3D内容创建者为使3D影像排名高于非付费3D内容创建者而支付的费用；或者

由3D内容创建者为使3D影像排名高于付费较少的3D内容创建者而支付的费用。

8.如权利要求1所述的非暂态计算机可读存储介质，

其中，第一组排名标准包括以下项中的两项或更多项：

与其它3D图像相比，3D图像中的细节水平；

3D图像是否包含与在3D图像内显示的3D物体的内部相关的信息；或者

3D图像的尺寸。

9.如权利要求1所述的非暂态计算机可读存储介质，

其中，所述一组或多组排名标准被组合成单组排名标准。

10.如权利要求1所述的非暂态计算机可读存储介质，

其中，与基于第二组排名标准的第二排名的值相比，对基于第一组排名标准的第一排名的值进行加权。

11.如权利要求1所述的非暂态计算机可读存储介质，

其中，对于所述一个或多个3D图像中的每个3D图像，所述编程指令还可执行以：

确定排名值，其中所述排名值至少部分地基于所述一组或多组排名标准中的每一组的排名值。

12.如权利要求11所述的非暂态计算机可读存储介质，

其中，所述排名值是所述一组或多组标准中的每一组的排名值的加权组合。

13.如权利要求1所述的非暂态计算机可读存储介质，

其中，所述编程指令还可执行以：

分析3D图像相对于2D图像的准确性；

识别不与2D图像的影像对应的3D图像的影像；以及

修改识别出的影像以使得3D图像的经修改的影像与2D图像的影像对应。

14.一种三维(3D)立体显示系统，包括：

至少一个处理器；

一个或多个显示器，耦合到至少一个处理器；以及

存储器，耦合到所述至少一个处理器，其中所述至少一个处理器被配置为：

识别在所述一个或多个显示器中的至少一个显示器上显示的网页内显示的二维(2D)图像的内容；

通过网页结构的搜索或互联网的搜索，基于2D图像的内容，将一个或多个三维(3D)图像识别为2D图像的可能替代；

选择具有最高排名值的3D图像，其中最高排名是基于一组或多组排名标准根据所述一个或多个3D图像的排名确定的；

识别不与2D图像的影像对应的3D图像的影像；

修改识别出的影像以使得3D图像的经修改的影像与2D图像的影像对应，从而生成经修改的3D图像；以及

将经修改的3D图像集成到网页中，从而用经修改的3D图像替换2D图像。

15.如权利要求14所述的3D立体显示系统，

其中所述至少一个处理器还被配置为：

16.如权利要求14所述的3D立体显示系统，

其中第一组排名标准包括以下项中的至少一项：

3D图像先前已被选择为替换3D图像的次数；

由3D内容创建者为使3D影像排名高于付费较少的3D内容创建者而支付的费用；并且

其中第二组排名标准包括以下项中的至少一项：

与其它3D图像相比，3D图像中的细节水平；

3D图像的尺寸。

17.如权利要求16所述的3D立体显示系统，

其中，所述排名值是第一组排名标准和第二组排名标准的排名值的加权组合。

18.如权利要求16所述的3D立体显示系统，

其中，所述一组或多组排名标准被组合成单组排名标准。

19.如权利要求14所述的3D立体显示系统，

其中影像包括以下项中的至少两项：

3D图像的形状；

背景物体；

前景物体

照明；

着色；或者

阴影。

20.如权利要求14所述的3D立体显示系统，

其中，经修改的影像包括从2D图像导出的影像。

21.如权利要求14所述的3D立体显示系统，

其中，经修改的影像包括从2D图像映射到3D图像的影像。

22.一种无线设备，包括：

至少一个天线；

至少一个无线电装置，其与所述至少一个天线通信并且被配置为使用至少一种无线电接入技术(RAT)执行无线通信；

一个或多个处理器，耦合到所述至少一个无线电装置；以及

至少一个显示器，与所述一个或多个处理器通信；

其中所述一个或多个处理器被配置为使所述无线设备：

识别在所述无线设备的显示器上的网页内显示的二维(2D)图像的内容；

识别与2D图像的内容相比具有基本上等效的内容的三维(3D)图像；

识别不与2D图像的影像对应的3D图像的影像；

修改识别出的影像以使得3D图像的经修改的影像与2D图像的影像对应，从而生成经修改的3D图像；

将经修改的3D图像集成到网页中，从而用经修改的3D图像替换2D图像；以及

23.如权利要求22所述的无线设备，

其中，为了识别3D图像，所述一个或多个处理器还被配置为使所述无线设备：

选择具有最高排名值的3D图像，其中最高排名是根据被识别为2D图像的可能替换的一个或多个3D图像的排名确定的。

24.如权利要求23所述的无线设备，

其中所述排名基于一组或多组排名标准。

25.如权利要求24所述的无线设备，

其中第一组排名标准包括以下项中的至少一项：

3D图像先前已被选择为替换3D图像的次数；

由3D内容创建者为使3D影像排名高于付费较少的3D内容创建者而支付的费用；以及

其中第二组排名标准包括以下项中的至少一项：

与其它3D图像相比，3D图像中的细节水平；

3D图像的尺寸。

26.如权利要求25所述的无线设备，

27.如权利要求25所述的无线设备，

其中，所述一组或多组排名标准被组合成单组排名标准。

28.如权利要求22所述的无线设备，

其中，影像包括以下项中的至少两项：

3D图像的形状；

背景物体；

前景物体

照明；

着色；或者

阴影。

29.如权利要求22所述的无线设备，

其中，经修改的影像包括从2D图像导出的影像。

30.如权利要求22所述的无线设备，

其中，经修改的影像包括从2D图像映射到3D图像的影像。