CN108369457A

CN108369457A - 用于混合现实的现实混合器

Info

Publication number: CN108369457A
Application number: CN201780004780.9A
Authority: CN
Inventors: A·基普曼; P·M·拉奥; R·哈鲁亚玛; S-S·C·丘; S·梅休; O·E·穆里洛; C·F·F·柯斯塔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-02-16
Filing date: 2017-02-10
Publication date: 2018-08-03
Anticipated expiration: 2037-02-10
Also published as: US10169922B2; US20190197784A1; CN115016642A; EP3417357A1; CN108369457B; WO2017142793A1; US10573085B2; US20170236332A1

Abstract

一种混合现实显示设备包括输入系统、显示器以及图形处理器。输入系统被配置成接收参数值，该参数值是可由输入系统接收的预定范围的多个值之一。显示器被配置成显示增加对混合现实显示设备的用户所查看的现实世界环境的扩充的虚拟图像内容。图形处理器在操作上耦合至输入系统和显示器；它被配置成渲染虚拟图像内容以可变地改变该扩充，与参数值相关地可变地改变现实世界环境的所感知的真实度。

Description

用于混合现实的现实混合器

背景

一些显示设备提供混合现实(MR)体验，其中用户视野中的现实对象与计算机化虚拟影像相组合。此类设备可将信息文本覆盖叠加在现实世界场景上，或例如使用虚拟内容来扩充用户的世界视野。

概述

一个实施例涉及包括输入系统、显示器以及图形处理器的混合现实显示设备。输入系统被配置成接收参数值，该参数值是可由输入系统接收的预定范围的多个值之一。显示器被配置成显示增加对混合现实显示设备的用户所查看的现实世界环境的扩充的虚拟图像内容。图形处理器在操作上耦合至输入系统和显示器；它被配置成渲染虚拟图像内容以可变地改变该扩充，与参数值相关地可变地改变现实世界环境的所感知的现实度。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。

附图说明

图1示出了示例近眼显示设备和板外计算机的各方面。

图2示出了近眼显示设备用户观看由虚拟图像内容扩充的前景对象。

图3示出了近眼显示设备的示例显示窗的各方面。

图4和5解说了与虚拟图像内容的立体显示相关的各方面。

图6示出了参与混合现实(MR)演示的各种非近眼显示设备。

图7解说了跨一系列MR演示的两个不同幻想参数的变化。

图8解说了对其应用MR混合的前景对象的选择。

图9解说了使用MR混合对所选前景对象的参数调整。

详细描述

本公开涉及用于操纵在混合现实(MR)环境中观看的对象的演示属性的方法和配置。在本说明书中，‘MR环境’是其中现实世界影像由一个或多个虚拟现实(VR)对象或组件在视觉上扩充或以其他方式由其修改的环境。经修改MR影像经由头戴式设备或其他显示设备被提供给用户。除了虚拟影像之外，MR还包括其他演示属性的混合，诸如音频和触觉属性。相应地，虚拟音频和触觉内容可被添加、删减、或以其他方式用来变换现实世界的声音和/或感觉，其随后按经修改的形式被传递给用户。例如，合适地配置的显示设备可以将视频覆盖(例如虚拟帽子)添加到在现实视频馈源中看到的对象或人。声音和/或感觉也可被添加到该对象或人。一些MR环境提供虚拟对象和影像相对于现实世界的持久、合理定位。例如，置于现实桌子上的虚拟植物布置可持续被渲染为跨多个MR会话放置。

在一个实施例中，用来向用户递送复合MR体验的硬件可包括具有用于捕捉现实影像和音频的面向世界的视觉系统和话筒的VR头戴式设备。最终提供给用户的影像是将现实世界视频馈源与一个或多个合成视频覆盖相组合的复合影像。较少沉浸的MR体验可以用具有例如面向世界的视觉系统的其他显示设备来达成。在一些示例中，显示器和视觉系统可被安装在环境中，诸如家、公司、或交通工具。也可使用所谓的‘增强现实’(AR)头戴式设备，其中外部世界的至少一部分可透过该头戴式设备来直接查看。

所公开的办法的核心是要理解：用户查看的影像(现实或虚拟)的各虚拟化方面可以按各种方式来参数化。具体而言，MR体验中的每一对象可具有与其相关联的独立参数集。一些参数可以控制对象的虚拟美学：形状、大小、纹理、透明度、模糊、或演示方式——例如从现实到幻想。其他参数可以控制虚拟对象的行为：例如，质量和相关联的运动学、人的体力或跳跃能力、以及诸如响度和音调等声音属性。又一些其他参数可以控制虚拟对象的时间演化：该对象要被表示为它现在将看起来的那样、还是表示为它将在过去某一时间看起来的那样、还是表示为它在将来某一时间可看起来的那样？因为此类属性可针对MR体验中的不同对象被个别地参数化，所以该体验整体上可通过独立地改变一个或多个对象的相关联的参数值被更改或调整。

用于改变管控对象属性的参数值的主机制是本公开的MR混合器方面。MR混合器提供一种用于通过与对象相关联的底层参数值来调整对象的各种演示属性的机制。对象参数值可被个别地或共同地来改变。以此方式，用户可以按与在录音棚中混合不同音轨相似的方式来调整MR体验中的现实性和幻想性的混合。

用户可以经由任何合适的用户界面(UI)模态来访问本文的MR混合器。在一个实施例中，面向世界的视觉系统包括深度成像相机和平面成像相机两者。视觉系统可被用来实时地构造用户视野(FOV)中的对象的世界表面。在视觉系统下游的对象识别引擎标识各种现实世界对象，从而使得这些对象可供用于选择。在一个示例中，用户将他或她的注视指向其演示属性要被调整的对象。使用在MR头戴式设备的框架上的手指轻叩，用户发起对所注视的对象的选择。用户随后说出可听命令‘MR混合器’，这带来针对所选对象的MR混合器UI控件。在一些实例中，所选对象可以在显示MR混合器UI控件之前被识别。相应地，该控件可以智能地提供只调整属于所选对象的那些属性的能力。

如上所述，所公开的MR混合器可以调用一种用于识别可被包括且操纵在MR体验内的现实世界对象的方法。对象识别可被用来标识可被调整以及调整到什么水平的人、对象和环境。对象识别可以利用显著的颜料或标签、特定图案、材料、形态，等等。现实世界衣物例如可能捆绑有一系列虚拟实例化。现实世界鞋子、手套、帽子、戒指或任何配饰可以与虚拟世界中的额外属性相关联——例如，生长植物、焚烧事物、绘制世界到世界的门户、或启用飞行的能力。现实世界物联网(IoT)硬件——音频扬声器、灯、电器、诸如恒温器等控制器，等等——在虚拟空间中可以具有更多增强形态。

MR混合器概念很好地超出视频、音频、以及触觉混合的简单概念。它延及MR环境中的现实和虚拟对象的复杂美学和行为参数的动态调整。复杂美学和行为参数可包括例如时间和地点。在一个示例中，所选空间上一天中的时间可通过提供模拟光照和天气以及可能修改结构和地形来被更改。此外，音频体验的沉浸式性质可被更改，从而能够收听和关掉特定声音——例如，整个体验的声音对仅一个音频元素(诸如风)。另一示例是将来自不同应用(例如，网络音频源)的音频作为各种音轨来混合到所选MR空间。假定虚拟组件——人的化身、虚拟对象等——按渐进方式来构建(即，3D建模、纹理化、以及光照)，则MR混合器可以向用户提供将构造过程当作时延来查看的能力。在将多个用户(他们随后可体验到该空间的演化)在公共MR空间中作出的变化进行可视化时，这一方面变得更清楚。在一个特定示例中，用户可以对能访问的所有已知数字空间的地图类视图进行成像，与所行进的地形有关的数据可被覆盖于其上。以此方式，用户可不仅理解和记起过去的体验，还探索未看过但可用的世界。混合器的‘时间’分量也应用于这一示例。

本文公开的MR混合器概念还使得能够瞄准和调整在MR环境内移动的现实和虚拟对象的美学和行为参数。这一能力利用处于运动中的变形对象的核心交互模型，或者在用户处于运动中(例如，在车中)的同时瞄准对象。例如，用户可以从一群飞行中途的鸟中瞄准并更改一只鸟。一旦应用了改变，整群鸟都继承新属性。在其他示例中，用户可以实时地改变流动液体的颜色、粘性、虚拟质量、或速度。

在一些实施例中，MR混合器可基于显式或隐式用户信号来自动调整现实和虚拟对象的美学和行为参数。例如，某些对象可基于用户的感知意图而被带入焦点(视觉上、声学上、触觉上)。用户例如可跨房间凝视正在聊天的一群人。根据这一线索，混合器可允许该好奇用户窥视封闭或远距离房间或‘世界’以在加入该群人之前得到该群人的体验的预览。所探索的世界可基于用户的兴趣来被过滤。例如，利用社交图的社交网络应用可被覆盖在整个虚拟世界上，以使用户能够只看到处于用户的社交图中的那些人或共享一个或多个属性。类似地，虚拟世界可由照片共享应用基于图像来过滤；MR混合器可被配置成从世界选择与该图像‘相像’的更多内容。

在一些实施例中，MR混合器可被配置成基于对美学和行为参数的动态调整来自动修改现实和虚拟对象之间的相关方面。以此方式，混合器可调和包括人工智能(AI)的元素或甚至天然自导航元素的两个或更多个体验的冲突。例如，MR混合器可以使来自一个视频游戏的角色能够与来自另一视频游戏的角色对接。

现在将通过示例并参照所示的以上列出的实施例来描述本公开的各方面。在一个或多个实施例中基本相同的组件、过程步骤和其他元素被协调地标识并且以重复最小的方式描述。然而，将注意，同等地标识的各元素也可在一定程度上不同。将进一步注意到，本公开中包括的附图是示意性的并且通常未按照比例绘制。当然，附图中所示的各种绘图比例、纵横比、以及组件的数量可故意地失真，以更容易看到某些特征或关系。

图1示出了一个示例实施例中的近眼显示设备10的各方面。近眼显示设备10是具有透视显示窗12R和12L、耳上扬声器14R和14L、以及配置成搁在用户的头上的框架16的双目近眼显示设备。在其他实施例中，右和左显示窗可以是完全不透明的，以用于完全沉浸式显示体验。在一些实施例中，显示窗12可经由变暗滤光器来动态地控制。基本上透视的显示窗例如可被切换成完全不透明以用于完全沉浸式MR体验。

近眼显示设备10包括右微显示器16R和左微显示器16L。右和左微显示器被配置成将计算机化虚拟显示影像分别投影到右和左显示窗12R和12L上。微显示器由板载计算机20的图形处理器18来驱动。板载计算机可在操作上耦合至近眼显示设备的各种有源和传感组件，包括通信系统22。在一些实施例中，图形处理器被配置成渲染投影到显示窗上的虚拟显示影像。在一些实施例中，此类渲染是整体或部分地由通过板载通信系统接收到的数据来控制的。在一些实施例中，此类数据可由板外计算机20’来传送。例如，板外计算机可以是游戏控制台、台式计算机、或联网的服务器系统。在其他实施例中，板外计算机可以是膝上型计算机或平板计算机、智能电话、手持式游戏设备等。显示影像或控制显示影像的渲染的数据可以按任何方式从板外计算机20’传递给板载计算机20。编码有此类数据的信号可以承载在相应计算机的通信系统22之间的有线或无线通信链路上。

在近眼显示设备10处于操作中时，显示设备的用户分别通过他的右眼和左眼来查看右和左显示图像。当右和左显示图像被组成并以适当的方式呈现时，用户体验到在指定位置处并具有指定3D内容和其他显示属性的一个或多个虚拟对象的幻像。这样的虚拟影像可具有任何所需的复杂性；例如，它可包括具有前景和背景部分两者的完整虚拟场景。

图1的近眼显示设备10包括配置成接收参数值的输入系统24。参数值可以从近眼显示设备的用户或从板外计算机20’接收。接收到的参数值可以是可由输入系统接收的预定(在一些情形中，是数值)范围的多个值之一。示例范围包括负五到正五、零到二百五十六、零到百分之百，等等。在一些实施例中，参数值可以是预定范围内的三个或更多个可用值之一。值范围可以是离散的(其中可用参数值由相对于范围的大小的大增量来分开)或准连续的(其中可用参数值由相对于范围的大小来说的小增量来分开)。

输入系统24在本公开的不同实施例中可以是不同的。在一些实施例中，输入系统可包括近眼显示设备10上、或者智能电话、游戏控制器或其他设备上的机械刻度盘。例如，用户可以通过顺时针旋转刻度盘来增大参数值，或通过逆时针旋转刻度盘来减小参数值。

在一些实施例中，用户对参数值的选择是经由呈现在近眼显示设备10上或另一显示设备上的一个或多个UI元素来促进的。该一个或多个UI元素可由图1的实施例中的微显示器16显示，或由设备的任何其他UI组件来呈现。在一些场景中，UI控件可只在用户调用MR混合器之后出现，且在MR混合操作完成之后消失。

在一些实施例中，输入系统24可包括布置在近眼显示设备10的框架16上或其他位置的触摸传感器24A。用户可以在触摸传感器上滑动或轻叩手指以实现对可用参数值的输入。在一些示例中，触摸传感器可以仿真根据应用上下文实例化的基于触摸的虚拟刻度盘。用户可以通过跟踪触摸传感器上的顺时针路径来增大参数值，或者通过跟踪逆时针路径来减小参数值。

在一些实施例中，输入系统24可包括在操作上耦合至下游姿势识别组件26的相机。面向世界的深度成像相机例如可被配置成采集用户前方的环境的深度图像。揭示用户的手势的时间解析深度图像序列可被馈送到姿势识别组件，它随后可计算参数值。作为替换或补充，输入系统可包括面向用户的注视跟踪相机。注视跟踪相机可在操作上耦合至下游注视跟踪引擎28。在一些实施例中，姿势和/或注视检测与近眼显示设备10上显示的一个或多个UI元素相结合地使用。参数输入可需要用户瞄准一个UI元素以增大给定参数值，或瞄准另一UI元素以减小参数值。替换地，用户可以说出词语‘增大’或‘减小’以实现参数值的对应变化。为此，输入系统24可包括在操作上耦合至下游语音识别组件30的话筒。在一些实施例中，可变参数值可经由来自用户的直接音频输入来接收。

面向世界的深度成像相机形式的输入系统24可被配置成对用户环境的任何或全部方面进行成像，包括一个或多个现实对象。来自面向世界的深度成像相机的深度图像可被提供给图形处理器18，以用于虚拟地重构环境的目的。术语‘相机’在本文中指的是具有配置成对场景或主体进行成像的至少一个光学孔径和传感器阵列的任何机器视觉组件。深度成像相机可被配置成采集场景或主体的深度图的时间解析序列。如在此所使用的，术语‘深度图’指与成像场景的对应区域(X_i,Y_i)配准的像素阵列，其中深度值Z_i指示针对每个像素的对应区域的深度。‘深度’被定义为与相机的光轴平行的坐标，该坐标随着距相机的距离的增加而增加。操作上，深度成像相机可被配置成获取2D图像数据，根据这些2D图像数据经由下游处理获得深度图。术语‘深度视频’在此指的是深度图的时间解析序列。

深度成像相机的配置可以是逐实施例不同的。在一个示例中，来自深度成像相机中的两个实立体镜地(stereoscopically)定向的成像阵列的亮度或颜色数据可被共同配准并用于构造深度图。更一般而言，通过被成像特征的基于光学断层摄影的共同配准可使用一个或多个平面成像相机来获得深度坐标。超光谱平面成像可以和这一方案一起使用，以用于改进的特征区分。在其他示例中，与深度成像相机相关联的照明源可被配置成将包括多个离散特征(例如，线或点)的结构化红外照明图案投影到主体上。该深度成像相机中的成像阵列可被配置成对从该主体反射回的结构化照明进行成像。基于所成像的主体的各个区域中的毗邻特征之间的间隔，可构造该主体的深度图。在又一些其他示例中，照明源可以将脉冲化或以其他方式调制的红外(IR)或近红外照明朝该主体投射。成像阵列的传感器元件可被寻址，以解析来自每一传感器元件的相对于照明源的调制的相移。相移(可任选地转换到深度域)可以与对应于所寻址的传感器元件的图像部分相关联。在一些实施例中，快速连贯的IR采集序列可被用来获得相移。在其他实施例中，深度成像相机中的一对成像阵列可被配置成检测从主体反射回的脉冲照明。这两个阵列均可包括与脉冲照明同步的电子快门，但这两个阵列的积分时间(integration time)可不同，使得脉冲照明的从照明源到主体再接着到这两个阵列的像素解析的飞行时间(ToF)可基于在这两个阵列的相应元素中接收到的相对光的量来区别开来。

在一些实施例中，不同的平面成像相机和深度成像相机可被布置成具有平行的、以相同方向定向的光轴。在一些实施例中，来自平面成像相机和深度成像相机的图像或视频输出可被共同配准并组合成单一(例如，RGB+深度)数据结构或流。在其中深度成像相机是合适地配置的ToF深度成像相机的示例中，表示深度和亮度(例如，IR+深度)两者的数据流可通过组合在相位方面不同的输出而是可用的。

继续图1，在一些实施例中，输入系统24可被进一步配置成使用姿势识别来启用从用户看到的多个对象中对对象的选择。此外，输入系统可被配置成将对象识别应用于所选对象，以识别它是什么种类的对象。使用对象识别算法，对象识别引擎32可被配置成将由输入系统解析的对象与存储在数据库中或启发式地定义的多个对象相比较，并标识出匹配。对于一些对象和场景，对象识别引擎可以标识一般匹配(这一对象是人)。对于其他对象和场景，对象识别引擎可以标识特定匹配(这一对象是我的母亲)。

在图1的实施例中，近眼显示设备10包括配置成感测近眼显示设备相对于环境中的对象或某一其他参考点的位置和取向的位置传感器34。位置传感器可包括惯性测量单元(IMU，包括一个或多个加速度计、陀螺仪和磁力计)和/或全球定位系统(GPS)接收机。在一些实施例中，位置传感器返回近眼显示设备的三个笛卡尔坐标的六自由度(6DOF)估计，加上绕这三个笛卡尔轴中的每一者的旋转。位置传感器的输出可被用来将(全局地定义的)虚拟显示对象的位置、大小和取向映射到近眼显示设备的右和左显示窗12。

现在转向图2，近眼显示设备10的每一微显示器16可被配置成将虚拟图像内容36投影在用户40可看到的对象38的预定位置处，或者沿着该对象的视线来投影。虚拟图像内容可被配置成向近眼显示设备的用户所查看的现实世界环境添加扩充。在透视显示器实施例中，虚拟图像内容可用于扩充透过显示窗12看到的对象的现实图像。在其中近眼显示设备是完全沉浸式的实施例中，虚拟图像内容可以形成该对象的整个图像，连同可能需要的该对象的任何扩充。

为了这些目的，近眼显示设备10的图形处理器18可被配置成渲染虚拟图像内容，以按可变地改变现实世界环境的感知现实度的方式可变地改变扩充。换言之，虚拟图像内容可向经由近眼显示设备看到的一个或多个对象给予可变的非现实质量。在其中用户环境中的各种现实对象是透过透明显示窗12查看的透视实施例中，每一微显示器可被配置成将这一虚拟图像内容叠加在该对象上，以给予可变的非现实质量。在其中输入系统包括配置成采集现实环境的主图像的面向世界的相机的完全沉浸式实施例中，主图像可被提供给图形处理器，其随后将虚拟图像内容与对应的现实对象配准。在此，每一微显示器16被配置成整体地投影该对象的次级图像，使得该次级图像与虚拟图像内容一起可由用户看到。因为图形处理器18在操作上耦合至输入系统24，所以可以使(上述实施例中的每一者中的)可变非现实质量相关于经由输入系统接收到的参数值而变化。

图3示出了一个非限制性实施例中的右或左显示窗12的各方面。显示窗包括背光42和液晶显示器(LCD)矩阵46。背光可包括发光二极管(LED)的整体——例如，白LED或红、绿和蓝LED的某种分布。可放置背光以便引导其发射光穿过LCD矩阵，该LCD矩阵基于来自图形处理器18的控制信号形成显示图像。LCD矩阵可包括布置于矩形网格或其它几何形状上的众多可个别寻址的像素。在一些实施例中，发射红光的像素可在矩阵中与发射绿和蓝光的像素并置，使得LCD矩阵形成彩色图像。一个实施例中LCD矩阵可以是硅上液晶(LCOS)矩阵。在其他实施例中，数字微镜阵列可被用于代替LCD矩阵，或有源LED矩阵可被替代使用。在又一些实施例中，扫描束技术可被用于形成右和左显示图像。

继续图3，显示窗12还包括配置成感测近眼显示设备10的用户的右眼或左眼48的瞳孔位置的注视跟踪引擎。在图3的实施例中，注视跟踪引擎采取面向用户的成像系统的形式，其中眼睛成像相机50被布置成对用户的眼睛进行成像。在图3的实施例中，每一显示窗12包括轴上照明源52和轴外照明源54。每个照明源发射眼睛成像相机的高灵敏度波长段中的红外(IR)或近红外(NIR)照明。板载计算机20的注视跟踪引擎28被配置成使用来自眼睛成像相机的输出来跟踪用户的注视轴56。

相对于注视跟踪而言，轴上和轴外照明服务于不同的目的。如图3所示，轴外照明可创建从用户的眼睛的角膜62反射的镜面闪光58。轴外照明也可被用于照亮眼睛以用于‘暗瞳’效果，其中瞳孔60显得比周围的虹膜62更暗。相反，来自IR或NIR源的轴上照明可被用于创建‘亮瞳’效果，其中瞳孔显得比周围的虹膜更亮。更具体地，来自轴上照明源52的IR或NIR照明照亮眼睛的视网膜64的回射组织，该回射组织将光通过瞳孔反射回去，形成亮图像66。

如上所述，来自眼睛成像相机50的图像数据被传达给板载计算机20的注视跟踪引擎28。在那里，可处理图像数据以便解析如瞳孔中心、瞳孔轮廓、和/或来自角膜的一个或多个镜面闪烁之类的特征。图像数据中这些特征的位置可被用作把特征位置与注视轴56联系起来的模型(例如多项式模型)中的输入参数。注视向量可被用来瞄准用户FOV中的对象，以致动基于注视的UI控件，等等。在其中确定右眼和左眼的注视轴的各实施例中，注视跟踪引擎还可被配置成计算用户的焦点作为右和左注视轴的交叉点。

在大多数情况下，来自LCD矩阵46的显示图像将不适合被显示系统10的用户直接观看。具体而言，显示图像可能从用户眼睛偏移开，可能具有不合需要的聚散度，和/或非常小的出射瞳孔。通过使显示图像穿过水平和垂直瞳孔扩展器68，该显示图像被呈现在基本上覆盖眼睛的区域上。这使用户能在微显示器和眼睛之间的适当的水平和垂直偏移范围上看到显示图像。图3还示出了面向世界的深度成像相机(见上)形式的输入系统24B的示例放置。

用户对距虚拟显示影像的距离的感知受右和左显示图像之间的位置视差的影响。这个原理通过图4中的示例来解说。图4示出了为说明目的而相互叠加的右和左图像框70R和70L。右和左图像框分别对应于右和左显示窗的LCD矩阵46的图像形成区域。由此，右图像框包围右显示图像72R，而左图像框包围左显示图像72L。适当渲染的话，对于用户来说，右和左显示图像可表现为虚拟影像。在图4的示例中，虚拟影像呈现了用户可视的个别可渲染的位点的表面。现在参考图5，该可视表面中的每个位点i具有与右和左显示图像中的每个像素(X_i,Y_i)相关联的深度坐标Z_i。所需的深度坐标可以以下方式模拟。

一开始，选择距近眼显示设备10的焦平面F的距离Z₀。左和右微显示器然后被配置为以适合于所选距离的聚散度呈现它们各自的显示图像。在一个实施例中，Z₀可被设定为“无穷大”，使得每个微显示器16以准直光线的形式呈现显示图像。在另一实施例中，Z₀可被设定为两米，从而要求每个微显示器以发散光的形式呈现显示图像。在一些实施例中，Z₀可在设计时被选择，并对由显示设备呈现的所有虚拟影像保持不变。在其他实施例中，微显示器可被配置有电子可调光功率，以便允许Z₀根据呈现虚拟影像的距离的范围而动态地变化。

在距焦平面的距离Z₀已被建立之际，可对可视表面上的每个位点i设定深度坐标Z。这是通过调整右和左显示图像中对应于位点i的两个像素的位置视差(相对于它们各自的图像框)完成的。在图5中，右图像框中对应于位点i的像素被表示为R_i，而左图像框中的对应像素被表示为L_i。在图5中，位置视差为正——即，在叠加的图像框中R在L_i的右边。这导致位点i出现在焦平面F的后面。如果位置视差是负的，则该位点将出现在焦平面的前面。最后，如果右和左显示图像被重叠(无视差，R_i和L_i重合)，则位点将似乎正好位于焦平面上。无需使本公开受任何特定的理论约束，位置视差D可以按下式与Z、Z₀、以及用户的瞳距(IPD)相关：

D＝IPD×(1-Z₀/Z)。

在上述方案中，试图在右和左显示图像的相应位点之间引入的位置视差是“水平视差”——即，平行于显示设备10的用户的瞳间轴线的视差。水平视差模仿了真实物体深度对人类视觉系统的作用，其中由右和左眼接收的真实物体的图像沿瞳间轴线自然地偏移。

任何所需复杂度的虚拟影像可以按这一方式来渲染。在一个实施例中，板载计算机20或板外计算机20’中的逻辑维护在固定到近眼显示设备10的参考系中的用户前方的笛卡尔空间的模型。用户的瞳孔位置被映射到该空间，被定位于预定深度Z₀处的图像框架44R和44L也一样。然后，通过使得图像中可见表面的每个位点i都具有在公共参考系中的坐标X_i,、Y_i、和Z_i，构造虚拟影像74。针对可视表面的每个位点，构造两条线段——至用户的右眼的瞳孔位置的第一线段以及至用户的左眼的瞳孔位置的第二线段。右显示图像中对应于位点i的像素R_i被取为第一线段在右图像框44R中的交点。类似地，左显示图像中的像素L_i被取为第二线段在左图像框44L中的交点。此过程自动提供适当量的移位和缩放以便正确地渲染可视表面，从而将每个位点i放置于距用户的所需距离处。

前述的描述或附图的任何方面都不应以限制的意义被解读，因为众多变型都位于本公开的精神和范围之内。例如，尽管图1示出了近眼显示系统10，其中右显示图像出现于右显示窗之后，而左显示图像出现于左显示窗之后，但右和左显示图像也可被形成于同一窗口上。在用于例如膝上型计算机或家庭影院系统的立体显示设备中，右显示图像可使用一种偏振态的光被形成于显示屏上，而左显示图像可使用不同偏振态的光形成于同一显示屏上。用户的眼镜中的正交对准偏振滤光器可被用于确保适当显示图像被接收进适当的眼睛。

在一些示例中，使用本来类似于近眼显示设备10的非透视显示设备或图6中所示的非近眼显示设备，可提供确信MR。面向世界的输入系统可被实现为智能电话、平板和膝上型计算机的安装在背面的相机。这些输入系统可以从设备用户的近似有利位置提供现实视频馈源。现实视频馈源随后可以与虚拟显示内容相组合(或以其他方式由虚拟显示内容修改)，以生成复合视频馈源。如上所述，启用显示的设备的位置感测组件可被用来促进虚拟显示内容到本地显示坐标的映射。复合视频馈源随后被实时地呈现在显示器上。

更具体而言，图6示出了具有如上所述地配置的三个不同非可穿戴显示设备的示例MR环境76的各方面。在图6中，该环境是其中单个用户40沉浸在MR体验中的室内生活空间。在这一情形中，影像包括幻想虚拟现实(VR)显示图像78，它可在显示设备中的每一者上看到。该附图中示出的设备包括膝上型计算机80、平板计算机82以及电视机监视器84。每一设备可以用安装在背面的相机来启用以捕捉该设备后方的现实影像。

回头简要参考图1，近眼显示设备10包括在操作上耦合至扬声器14R和14L的音频混合组件86。扬声器可被配置成发出看起来源自要被扩充的对象的预定位置处的音频。例如，来自每一扬声器的音频可以在该扬声器接近该位置时变得更响，或者可以根本不打开，直至该对象接近到阈值距离内。在操作上耦合至输入系统24和扬声器，音频混合组件可被配置成合成音频覆盖以向现实对象给予可变非现实质量。同样，可变非现实质量可以相关于参数值而变化。

各种不同参数可被选择性地调整以影响现实度和扩充之间的平衡。在一些实施例中，由MR混合器控制的可变非现实质量可包括对象的颜色、纹理、光照、阴影、不透明度、模糊、以及像素化中的一个或多个。在一些实施例中，可变非现实质量可包括对象的美学演示的方式。在此，参数值的范围可以从现实美学演示到幻想美学演示。

在图7的示例中，两个不同幻想参数值可跨MR混合器演示序列而变化。跨该附图从左至右，背景幻想参数B的值增大。在该附图中自顶向下，前景幻想参数值F的值增大。如此，左上视图框示出了用户对包括拿蜂窝电话的人的现实世界环境的未更改视图；且右下视图示出了现实世界环境的高度幻想化扩充。在图7的示例中，每一幻想参数具有十一个可能的值，其中零表示无更改视图而十表示完全幻想视图。随着前景幻想参数F从零朝十向上调整，拿蜂窝电话的人被蓝莓递增地覆盖。随着背景幻想参数B增大，该人背后的环境变得越来越多地用程式化星星和行星来修饰。

在其他实施例中，由MR混合器控制的可变非现实质量可包括前景对象的虚拟化质量和相关联的运动学。更具体而言，该扩充可被配置成响应于变化的参数值(其范围从现实虚拟化质量到非现实虚拟化质量)来改变现实世界环境内的对象的虚拟化质量和相关联的运动学。在一些实施例中，可变非现实质量可包括前景或背景对象的外观的时间演化，其中参数值范围从过去时间到将来时间。该扩充可被改变，使得拿蜂窝电话的人的外观可以示出例如加速老化的效果，或者回到更年轻状态。在一些实施例中，可变非现实质量可包括前景和背景对象相对于一个或多个邻近对象的关系方面。因而，该扩充可被配置成根据参数值的变化来更改关系方面。在包括扬声器和音频混合组件的各实施例中，可变虚拟质量可包括该对象发出的响度和音调中的一者或多者。

这些和其他调整可经由上述硬件配置来发生，或通过任何其他合适的硬件配置使用任何合适的过程来发生。对于利用面向世界的相机和电子显示器的设备，未更改视图(图7的左上部)可通过在没有显著扩充的情况下显示面向世界的相机看到的图像来实现。尽管在调整位于背景前方的人的图像的上下文中示出，但任何看到的对象或对象集合可以按相似的方式调整。此外，对不同种类的参数的调整可以一起作出。调整可被共同地作出，例如对于幻想参数、分辨率参数、以及不透明度参数。

部分不透明效果可通过估计所看到的前景对象后方的背景并通过覆盖所估计的背景的部分地透明的渲染以扩充前景对象的视图来实现。对于完全透明度，MR混合器被用来从场景中有效地移除前景对象。完全透明效果可通过估计所看到的前景对象后方的背景并通过覆盖所估计的背景的完全不透明的渲染以扩充前景对象的视图来实现。在使用透视显示器时，完全不透明渲染可通过选择性地遮挡场景光以免于到达观看者的眼睛来实现。类似地，降低分辨率效果可通过标识由面向世界的相机所捕捉的图像中的前景对象并与前景对象的透视视图相配准地覆盖仅该前景对象的像素化图像来实现。对于利用面向世界的相机和电子显示器的设备，降低分辨率效果可通过标识由面向世界的相机捕捉的图像中的前景对象并将图像的与所标识的前景对象相对应的部分像素化来实现。

图8和9示出了其中一个或多个参数可被选择性地调整以实现现实度和扩充之间的平衡的使用场景。这些和其他调整可由任何合适的硬件配置、使用任何合适的过程来作出。图8示出了包括人38的所看到的场景。该附图示出了人上的黑点88，这示意性地表示用户40的注视目标(或另一类型的选择目标)。图8还示意性地示出了由用户执行以选择所看的人的框架轻叩姿势90。取决于用来查看场景的设备的硬件能力，各种不同输入(例如，视觉识别姿势、语音、设备输入(例如，按钮))和外围设备输入(例如，智能电话或游戏控制器按钮)可被用来选择任何前景对象。任何合适的处理办法可被用来将前景对象与场景中的任何其他事物区分开(例如，使用深度信息的前景/背景分析、边缘检测、以及机器学习识别器)。

图9示出了覆盖在场景上的参数调整视觉92。参数调整视觉可任选地由与所选前景对象(例如，图9的人38)协调的近眼显示设备10来显示，以向用户提供哪一对象被选择用于调整的指示。参数调整视觉可包括指示将作出什么类型的调整的图标、文本、或其他指示。在图9的上下文中，参数调整视觉包括用于指示所看的对象的不透明度将被改变的眼球图标94。黑点88指示用户的注视目标是该参数调整视觉的降低图标。此外，图9示意性地示出了由用户执行的用于降低所选择的前景对象的不透明度的象征性框架滑动姿势96。在一些实施例中，用户可以执行提交姿势，这被用来完成调整。在更具体的示例中，用户可以注视天花板并说出‘改变天花板’命令，从而选择天花板来调整。如上文介绍的，天花板或其他对象(前景或背景)可使用任何合适的过程来识别。例如，深度图像可被分析以找出一般水平的天花板表面。

其他示例可包括覆盖在用户所看的场景的主题选择视觉的覆盖。此类覆盖可允许观看者在若干可能的主题预设中的任一者之间快速改变整个场景的外观。主题选择可将真实背景从视图中有效地隐藏并创建用户处于完全不同环境中的幻像。主题预设可允许观看者对场景一次作出若干改变，与独立地改变每一个别方面形成对比。

在一些实施例中，物理参数或其他行为参数可被选择性地调整。与上述基于外观的参数相对比，行为参数可以影响所看的对象与其他对象和/或力相互作用的方式。例如，如果重力参数在房间中被降低，则房间中的现实弹球可被虚拟地擦除且用弹得更高的虚拟球来替换。

一些示例可包括玩具屋场景选择工具。玩具屋选择工具允许用户放大和/或缩小所看的场景。在执行这一类型的缩放时，可以以可由观看者选择性地改变(例如，使用姿势输入、语音输入、或机械输入)的比例和视角在视觉上向用户呈现世界的经建模表示。以此方式，用户能够在虚拟地以不同比例且从不同视角观看世界，而无需实际上在世界四处移动。用户随后可作出对视觉上看到的世界的改变，并且此类改变可以在观看者随后(物理地或虚拟地)移动以查看经改变世界时实现。

如从前述描述中显而易见的，本文所描述的方法和过程可被绑定到一个或多个计算机的计算机系统。这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其它计算机程序产品。

以简化形式示于图1的是被用于支持本文描述的方法和过程的计算机系统的一个非限制性示例。计算机系统中的每个计算机20包括逻辑机98和指令存储机100。计算机系统还包括微显示器16形式的显示器、通信系统22以及图1中未示出的各种组件。

每个逻辑机98包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可被配置来执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其它逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个组件的状态、实现技术效果、或以其他方式得到期望结果。

每个逻辑机98可以包括被配置成执行软件指令的一个或多个处理器。附加地或替换地，逻辑机可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，且在其上执行的指令可被配置用于串行、并行和/或分布式处理。逻辑机的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置用于进行协同处理。逻辑机的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

每个指令存储机100包括被配置成保持可由相关联的逻辑机98执行以实现此处描述的方法和过程的指令的一个或多个物理设备。当实现这样的方法和过程时，指令存储机的状态可以被变换—例如用来保持不同的数据。指令存储机可包括可移动的和/或内置设备；它可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如，RAM、EPROM、EEPROM等)、和/或磁性存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、以及其他。指令存储机可以包括易失性的、非易失性的、动态的、静态的、读/写的、只读的、随机存取的、顺序存取的、位置可定址的、文件可定址的、和/或内容可定址的设备。

将理解，每个指令存储机100包括一个或多个物理设备。然而，本文描述的指令的各方面可替换地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机(一个或多个)和指令存储机(一个或多个)的各方面可一起被集成于一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可用于描述被实现为执行一特定功能的计算机系统的一方面。在某些情况下，可经由执行由指令存储机所保持的指令的逻辑机来实例化模块、程序或引擎。将理解，不同的模块、程序、和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地，相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

应该理解，在此使用的“服务”是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序和/或其他服务。在一些实施例中，服务可以在一个或多个服务器计算设备上运行。

通信系统22可被配置为将计算机通信地耦合于一个或多个其它机器。通信系统可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，通信系统可允许计算机经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其它设备接收消息。

本公开的一个方面涉及包括输入系统、显示器以及图形处理器的混合现实显示设备。输入系统被配置成接收参数值，该参数值是可由输入系统接收的预定范围的多个值之一。显示器被配置成显示增加对混合现实显示设备的用户所查看的现实世界环境的扩充的虚拟图像内容。图形处理器在操作上耦合至输入系统和显示器。图形处理器被配置成渲染虚拟图像内容，以可变地改变扩充，与参数值相关地可变地改变现实世界环境的感知现实度。

在一些实现中，所述显示设备还包括用户界面组件，所述用户界面组件被配置成在所述显示设备上呈现用于允许选择所述参数值的用户界面元素。在一些实现中，所述输入系统包括在操作上耦合至姿势识别组件的相机和在操作上耦合至语音识别组件的话筒中的一者或多者。在一些实现中，所述输入系统包括触摸传感器。在一些实现中，所述虚拟图像内容被显示在能由所述显示设备的用户查看的对象的预定位置处，并且所述输入系统还被配置成允许从由所述用户查看的多个对象中选择所述对象。在一些实现中，所述参数值是所述范围内的三个或更多个值之一。在一些实现中，所述显示器被配置成整体地投影所述对象的次级图像，并且所述次级图像能由所述用户经由所述显示设备来看到。在一些实现中，所述虚拟图像内容被显示在所述显示设备的用户能查看的对象的预定位置处。在此，输入系统包括配置成采集所述对象的主图像的面向世界的相机，并且所述主图像被提供给所述图形处理器。在一些实现中，所述虚拟图像内容被显示在所述现实世界环境中的对象的预定位置处，并且所述显示器被配置成将所述虚拟图像内容叠加在所述对象上，以向所述对象给予可变非现实质量。在一些实现中，所述显示设备还包括配置成发出音频的扬声器；以及在操作上耦合至所述输入系统和所述扬声器的音频混合组件，所述音频混合组件被配置成组成音频覆盖以向现实世界环境给予可变非现实质量，所述可变非现实质量相关于所述参数值而变化。在一些实现中，所述扩充包括所述现实世界环境内的前景或背景对象的颜色、纹理、光照、阴影、不透明度、模糊以及像素化中的一者或多者。在一些实现中，所述扩充被配置成改变所述现实世界环境内的对象的美学演示，并且所述参数值的范围从现实美学演示到幻想美学演示。在一些实现中，所述扩充被配置成改变所述现实世界环境内的对象的虚拟化质量和相关联的运动学，并且所述参数值的范围从现实虚拟化质量到非现实虚拟化质量。在一些实现中，所述扩充被配置成随时间演化所述现实世界环境内的对象的外观，并且所述参数值的范围从过去时间到将来时间。在一些实现中，所述扩充被配置成更改对象相对于所述现实世界环境中的一个或多个邻近对象的关系方面。

本公开的另一方面涉及包括输入系统、微显示器以及图形处理器的完全沉浸式双目近眼显示设备。输入系统被配置成接收参数值，该参数值是可由输入系统接收的预定范围的多个值之一。微显示器被配置成在对象的预定位置处显示虚拟图像内容，形成可由近眼显示设备的用户查看的对象的图像，所述虚拟图像内容将扩充增加到所述对象。图形处理器在操作上耦合至输入系统和微显示器。图形处理器被配置成渲染虚拟图像内容，以可变地改变扩充，与参数值相关地可变地改变对象的感知现实度。

在一些实现中，输入系统包括配置成采集所述对象的深度图像的面向世界的深度成像相机，并且所述深度图像被提供给所述图形处理器。

本公开的又一方面涉及包括输入系统、微显示器、扬声器、图形处理器以及音频混合组件的近眼显示设备。输入系统被配置成接收参数值，该参数值是可由输入系统接收的预定范围的多个值之一。微显示器被配置成将虚拟图像内容显示到近眼显示设备的用户能查看的预定位置，所述虚拟图像内容将扩充增加到所述用户的现实世界。所述扬声器被配置成在预定位置处发出音频。图形处理器在操作上耦合至输入系统和微显示器。所述图形处理器被配置成渲染所述虚拟图像内容以相关于所述参数值可变地改变所述扩充。音频混合组件在操作上耦合至输入系统和扬声器。音频混合组件被配置成组成音频覆盖以与参数值相关地给予可变虚拟质量。

在一些实现中，扩充被配置成改变预定位置中的对象发出的响度和音调中的一者或多者，并且显示设备还包括配置成感测所述显示设备相对于所述对象的位置和取向的位置传感器。在一些实现中，所述扩充被配置成改变所述预定位置中的背景影像。

将会理解，本文描述的配置和/或方式本质是示例性的，这些具体实施例或本文示例不应被视为限制性的，因为许多变体是可能的。本文描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所例示和/或所描述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims

1.一种混合现实显示设备，包括：

配置成接收参数值的输入系统，所述参数值是能由所述输入系统接收的预定范围的多个值之一；

显示器，所述显示器被配置成显示增加对所述混合现实显示设备的用户所查看的现实世界环境的扩充的虚拟图像内容；以及

在操作上耦合至所述输入系统和所述显示器的图形处理器，所述图形处理器被配置成渲染虚拟图像内容以可变地改变所述扩充，与所述参数值相关地可变地改变所述现实世界环境的所感知的现实度。

2.如权利要求1所述的混合现实显示设备，其特征在于，还包括用户界面组件，所述用户界面组件被配置成在所述显示设备上呈现用于允许选择所述参数值的用户界面元素。

3.如权利要求1所述的混合现实显示设备，其特征在于，所述输入系统包括在操作上耦合至姿势识别组件的相机和在操作上耦合至语音识别组件的话筒中的一者或多者。

4.如权利要求1所述的混合现实显示设备，其特征在于，所述输入系统包括触摸传感器。

5.如权利要求1所述的混合现实显示设备，其特征在于，所述虚拟图像内容被显示在能由所述显示设备的用户查看的对象的预定位置处，并且其中所述输入系统还被配置成允许从由所述用户查看的多个对象中选择所述对象。

6.如权利要求1所述的混合现实显示设备，其特征在于，所述参数值是所述范围内的三个或更多个值之一。

7.如权利要求1所述的混合现实显示设备，其特征在于，所述显示器被配置成整体地投影所述对象的次级图像，并且其中所述次级图像能由所述用户经由所述显示设备查看。

8.如权利要求7所述的混合现实显示设备，其特征在于，所述虚拟图像内容被显示在能由所述显示设备的用户查看的对象的预定位置处，其中所述输入系统包括配置成采集所述对象的主图像的面向世界的相机，并且其中所述主图像被提供给所述图形处理器。

9.如权利要求1所述的混合现实显示设备，其特征在于，所述虚拟图像内容被显示在所述现实世界环境中的对象的预定位置处，并且其中所述显示器被配置成将所述虚拟图像内容叠加在所述对象上，以向所述对象给予可变非现实质量。

10.如权利要求1所述的混合现实显示设备，其特征在于，进一步包括：配置成发出音频的扬声器；以及在操作上耦合至所述输入系统和所述扬声器的音频混合组件，所述音频混合组件被配置成组成音频覆盖以向现实世界环境给予可变非现实质量，所述可变非现实质量相关于所述参数值而变化。

11.如权利要求1所述的混合现实显示设备，其特征在于，所述扩充包括所述现实世界环境内的前景或背景对象的颜色、纹理、光照、阴影、不透明度、模糊以及像素化中的一者或多者。

12.如权利要求1所述的混合现实显示设备，其特征在于，所述扩充被配置成改变所述现实世界环境内的对象的美学演示，并且其中所述参数值的范围从现实美学演示到幻想美学演示。

13.如权利要求1所述的混合现实显示设备，其特征在于，所述扩充被配置成改变所述现实世界环境内的对象的虚拟质量和相关联的运动学，并且其中所述参数值的范围从现实虚拟化质量到非现实虚拟化质量。

14.如权利要求1所述的混合现实显示设备，其特征在于，所述扩充被配置成随时间演化所述现实世界环境内的对象的外观，并且其中所述参数值的范围从过去时间到将来时间。

15.如权利要求1所述的混合现实显示设备，其特征在于，所述扩充被配置成更改对象相对于所述现实世界环境中的一个或多个邻近对象的关系方面。