CN107408314B

CN107408314B - 混合现实系统

Info

Publication number: CN107408314B
Application number: CN201680006581.7A
Authority: CN
Inventors: A·C·汤姆林; E·M·圭布勒; N·G·法杰特; B·J·芒特; G·L·阿尔特; J·托萨尔; J·M·里昂斯; A·J·安布鲁斯; C·Q·埃格伯特; W·盖曼; J·W·麦格林; J·汉斯; R·S-K·叙尔文; A·G·普法夫; D·克罗伊曼; E·A·索尔特威尔; C·沃德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-01-20
Filing date: 2016-01-13
Publication date: 2022-01-25
Anticipated expiration: 2036-01-13
Also published as: WO2016118371A1; US9846968B2; CN107408314A; US20160210783A1; JP2018511098A; JP6860488B2; EP3248176A1

Abstract

公开了用于从各个视角捕捉可被显示在监视器上的混合现实环境的视图的系统和方法。该系统包括位于混合现实环境内的用户定义的各位置处的一个或多个物理相机(50a,50b)。该系统从一个或多个相机(50a,50b)的视角下渲染混合现实环境中的虚拟物体(40)。混合现实环境中的现实和虚拟物体可随后从一个或多个相机(50a,50b)的视角下被显示在一个或多个外部的2D监视器上供其他人观看。

Description

混合现实系统

背景

混合现实是一种允许将虚拟图像与现实世界物理环境相混合的技术。用户可佩戴透视、头戴式、混合现实显示设备来观看用户的视野中所显示的现实物体和虚拟物体的混合图像。然而，不具备头戴式显示设备的其他人无法看到混合现实环境。他们能看到现实物体，但是看不到虚拟物体。

概述

本发明技术的各实施例总得涉及一种用于从各个视角捕捉可被显示在监视器上的混合现实环境的视图的系统和方法。系统包括位于混合现实环境内的用户定义的各位置处的一个或多个物理相机。系统时间与一个或多个物理相机同步，并且从一个或多个相机的视角来渲染混合现实环境中的虚拟物体。混合现实环境中的现实和虚拟物体可随后从一个或多个相机的视角下被显示在一个或多个外部的2D监视器上供其他人观看。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并非旨在标识出要求保护的主题的关键特征或必要特征，亦非旨在用作辅助确定要求保护的主题的范围。

附图简述

图1是包括现实和虚拟物体的虚拟现实环境的例示图。

图2是图1的相机套件所捕捉的混合现实环境在监视器上的显示。

图3是根据本发明技术的各实施例的相机套件的框图。

图4是头戴式显示单元的一个实施例的立体图。

图5是头戴式显示单元的一个实施例的一部分的侧视图。

图6是头戴式显示单元的组件的一个实施例的框图。

图7是与头戴式显示单元相关联的处理单元的组件的一个实施例的框图。

图8是与头戴式显示单元相关联的处理单元的软件组件的一个实施例的框图。

图9是示出与本系统的头戴式显示单元相关联的一个或多个处理单元的操作的流程图。

图10-12是图9的流程图中所示的各步骤的示例的更详细的流程图。

图13是本发明技术的相机套件所捕捉的混合现实环境在监视器上的显示。

图14是根据本发明技术的各实施例的系统的框图。

详细描述

现在将结合附图来描述本发明技术的各实施例，总得来说，本发明技术的各实施例涉及用于从各个视角捕捉混合现实环境的视图的系统和方法，这些视图可在监视器上被显示给不限数量的人。系统包括位于混合现实环境内的用户定义的各位置处的一个或多个物理相机。系统时间与一个或多个物理相机同步，并且从一个或多个相机的视角来渲染混合现实环境。场景可随后被显示在一个或多个外部2D监视器上以供其他人观看。

图1例示了包括与现实世界物体混合的虚拟物体的混合现实环境10。在各实施例中，本发明技术可连同用于生成虚拟物体的内容生成软件应用一起使用。在所示出的示例中，用户18正在生成虚拟内容40，在这一示例中，虚拟内容40是一个虚拟机器人。该虚拟机器人被构造在桌子42上，桌子42可以是现实的或虚拟的。在所示出的示例中，用户正应用虚拟工具44，在这一示例中，虚拟工具44是用于对机器人的各部分着色的涂色工具。本发明的用于从一个或多个相机的视角显示虚拟和现实内容的技术可与除了内容生成应用以外的各种各样的混合现实应用一起使用。

包括虚拟和现实物体的混合现实环境可由用户18经由连同处理单元4一起工作的头戴式显示设备2来观看。头戴式显示设备2可经由柔性电缆6与处理单元4通信。替代地，头戴式显示设备可与处理单元4无线通信。在进一步的实施例中，处理单元4可被集成到头戴式显示设备2中。在一个实施例中为眼镜形状的头戴式显示设备2被佩戴在用户的头上，使得用户可以透过显示器进行观看，并且从而具有该用户前方的空间的实际直接视图。下面提供头戴式显示设备2和处理单元4的更多细节。

处理单元4可包括执行诸如游戏应用、非游戏应用等应用的硬件组件和/或软件组件。在一个实施例中，处理单元4可包括可执行在处理器可读存储设备上存储的、用于执行在此描述的过程的指令的处理器，诸如标准化处理器、专用处理器、微处理器等。在各实施例中，处理单元4与一个或多个远程计算系统无线地(例如，WiFi、蓝牙、红外、或其他无线通信手段)通信。这些远程计算系统可包括计算机、游戏系统或控制台、或远程服务提供商等。

头戴式显示设备2和处理单元4可彼此协作以将混合现实环境10中的虚拟物体(例如物体40、44)呈现给用户。根据本发明技术的各个方面，混合现实环境10可进一步包括一个或多个相机套件50，相机套件50可被用于生成可被显示在外部监视器上供其他人观看的混合现实环境10的视图。具体地，相机套件50可被用于生成包括虚拟和现实物体的混合现实环境10的视图，这些视图可在监视器上供未佩戴头戴式显示设备2的其他人观看。

在所示出的示例中，相机套件50包括相机套件50a和50b。然而，能够理解的是，在进一步实施例中，本发明技术可用单个相机套件50或多于两个相机套件50来操作。当特定相机视图被选择时，从被选择的相机套件的视角，混合现实环境中的虚拟物体和现实物体可被显示在外部监视器上。换言之，从被选择的相机套件的物理位置的观看视角，现实世界物体可被显示在监视器上。并且，从被选择的相机套件的物理位置的观看视角，虚拟物体可被显示在监视器上。

例如，如果相机套件50a被选择，则混合现实环境的视图将来自相机套件50a的物理位置的视角，如图头戴式显示设备2中所示。现实世界物体(诸如举例而言用户18、相机套件50b以及可能的桌子42)处在相机套件50a的视锥体视野中。因此，从相机套件50a的视角，由相机套件50a所捕捉的这些现实世界物体的图像可被显示在监视器60上。可以理解的是，多个相机套件可被同时选择使得多个相机套件的视图被同时显示在一个或多个监视器60上。

类似地，混合显示环境内的虚拟物体具有三维空间中的限定位置，并且可从不同角度和不同侧被观看，取决于观看虚拟物体的观看视角。在图2中，虚拟物体(诸如虚拟内容40和虚拟工具44)处于相机套件50a的视锥体视野内。因此，从三维空间中与相机套件50a的位置重合的位置，这些虚拟物体可被显示在监视器60上。结果是监视器60上的从相机套件50a的视角下的混合现实环境10的视图。在图1中，示出了从一给定视角下的虚拟和现实物体。这一视角可例如通过由另一用户佩戴的第二头戴式显示设备2(未示出)来看到。替代地，这一视角可由从第三相机套件50(未示出)的位置捕捉在例如监视器60上看到。

在各实施例中，处理单元4(单独工作或与其它处理单元组合)可构建包括房间或其他环境中的用户、现实世界物体和虚拟三维物体的x、y、z笛卡尔位置的环境的模型。每一个头戴式显示设备2的位置可被校准到混合现实环境的模型，如以下将阐述的。每一个相机套件50的位置也可被校准到混合现实环境的模型，如以下将阐述的。在进一步实施例中，替代校准到混合现实环境，一个或多个头戴式显示设备2和相机套件50的位置可被彼此校准。该环境的三维模型(在本文中被称为场景图(scene map))以及对每个用户的FOV、每一个相机套件的视锥体、以及该环境中的物体的跟踪可由移动处理单元4独立或与其它处理单元协作来生成，如下文中将阐述的。

这些校准操作使得系统能够确定每一个用户的视线以及混合现实环境的FOV，以及每一个相机套件的视线以及混合现实环境的视锥体视野。因此，可向每一个用户显示虚拟图像，但是系统确定从每一个用户的视角还是相机套件的视角来对虚拟图像进行显示。另外，如以下阐述的，头戴式显示设备2和相机套件50可包括深度传感器和/或其它图像传感器。这些传感器能够确定从给定设备2或相机套件50的视角第一虚拟物体是正遮挡第二虚拟物体或现实物体还是被第二虚拟物体或现实物体遮挡。

图3是与外部监视器60和计算系统70通信的相机套件50的示意框图。计算系统70可以是或可包括处理单元4，或者替代地，计算系统70可与处理单元4一起工作。图3中所示的相机套件50可以是此处描述的相机套件50中的任意一种。一个或多个相机套件50可被放置在混合现实环境10内或周围的任何位置处，用于从任何角度捕捉混合现实环境10内的现实和/或虚拟物体。相机套件50可例如被安装在三脚架上，或者以其它方式被支撑在混合现实环境中或周围的想要的位置处，用于提供混合现实环境的鸟瞰图。鸟瞰图是从混合现实环境的侧面、下面、上面或里面的混合现实环境的视图。相机套件可处于固定位置，或者它们可在混合现实环境内四处移动。

相机套件50包括相机52、位置传感器54和图像传感器56。在进一步实施例中，相机套件50可包括附加的组件。相机52可以是视频相机，例如来自加利福尼亚州埃尔文市的Red.com的

相机。构想了其他视频相机。在各实施例中，相机52可捕捉动态现实物体的视频并且当它们移动或改变时显示它们。在进一步实施例中，相机套件50的相机52可替代地或附加地捕捉现实物体的静态图像。

位置传感器54可被用于校准相机套件50在混合现实环境10内相对于虚拟物体、其它的相机套件50和/或头戴式显示设备2的位置。在各示例中，位置传感器54可以是一种惯性测量单元，类似于以下描述的惯性测量单元132。位置传感器54的惯性测量单元可包括惯性传感器，诸如三轴磁力计、三轴陀螺仪和/或三轴加速度计。惯性测量单元感测相机套件50的位置、定向和突然加速度(俯仰、滚转和偏航)。相机套件50(或头戴式显示设备2)的位置和定向在本文中被称为相机套件50(或头戴式显示设备2)的姿态。除了磁力计、陀螺仪和加速度计之外或者取代磁力计、陀螺仪和加速度计，惯性测量单元还可包括其他惯性传感器。

位置传感器54的惯性测量单元可被用于确定相机套件50的位置和定向，例如使用已知的更早时候的相机套件50的位置和定向。来自惯性测量单元的惯性信息可随后被使用来更新相机套件50的位置和定向。来自惯性测量单元的信息可提供相机套件的准确的运动数据，但是惯性测量单元通常不提供关于相机套件位置的绝对位置信息。这一绝对位置信息也被称为“地面实况”，其可由从相机套件50的相机52和/或图像传感器56获得的图像数据来提供。

如以下阐述的，头戴式显示设备2包括惯性测量单元132。由此，在各实施例中，位置传感器54可以是或者可包括附连到相机52的头戴式显示设备2。在这类实施例中，惯性测量单元132(以及可能的以下描述的其它套件中的一些)可作为位置传感器54的一部分来活动，而以下描述的其它套件(例如微显示器120)可被禁用或以其它方式停止活动。

图像传感器56可被用于获得从相机套件50到混合现实环境10内的现实世界物体的深度数据。在各实施例中，图像传感器56可以是例如与来自华盛顿州雷蒙德市的微软公司的Xbox

平台一起使用的

相机。来自图像传感器56的数据可被用于实现不透明度滤光器，不透明度滤光器与以下结合头戴式显示设备2描述的不透明度滤光器114相同。这类不透明度滤光器确保从相机套件50的视角看到的被部分或全部阻挡的虚拟物体被以恰当的遮挡来显示。

相机套件50可经由电缆62与监视器60通信。监视器60可以是例如可向用户提供视频和/或音频的电视机、监视器、高清电视机(HDTV)等。例如，相机套件50可包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，这些适配器可提供与混合现实环境10相关联的音频/视觉信号。监视器60可接收来自相机套件50的音频/视觉信号，并且随后可将与该音频/视觉信号相关联的视频和/或音频输出给观看监视器60的任意数量的人。监视器可以是二维或三维监视器。在进一步实施例中，替代将馈送内容从相机套件50发送到监视器，馈送内容可被发送到头戴式显示设备2。这一设备2可由处于一个或多个相机套件50所在的环境中的用户18佩戴，或者设备2可以是远程的并且由用户18以外的用户佩戴。

所有的相机套件50可被连接到单个监视器60。此外，替代单个监视器60，可以理解的是，相机套件50中的一个或多个可将音频/视频信号输出给大量的监视器60。在各实施例中，构想了存在两个监视器60，一个显示原始相机馈送内容(仅包括现实世界物体)，而另一个示出相同的原始相机馈送内容，但是还显示与原始相机馈送内容融合的虚拟物体。根据一个实施例，监视器60可经由电缆62连接到相机套件50，电缆62可以是例如SDI视频电缆、S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等。来自相机套件50的馈送内容可被发送给监视器以供实时显示，或者它可被记录以供稍后重放(其中任何虚拟物体也被存储以供稍后重放)。替代将馈送内容发送到附连的监视器60，馈送内容可被存储在web服务器上并且可作为web流来访问，或者以其它方式广播到一远程位置。

如以下阐述的，头戴式显示设备2和处理单元4可被用于定义场景图，场景图包括混合现实环境10内的虚拟物体、现实物体以及相机套件的三维坐标。然而，在各实施例中，连同处理单元4和/或计算系统70一起工作的一个或多个相机套件50可帮助确定场景图。在计算系统70与处理单元4分开的情况下，计算系统70可被耦合到相机套件50，例如通过上文所述的电缆62。在进一步实施例中(其中计算系统70与处理单元4相同或不同)，计算系统70可以是相对于相机套件50远程的，并且通过某个其它的有线或无线网络连接到相机套件50。计算系统70可与所有的相机套件50和/或头戴式显示设备2通信。

图4和5示出了头戴式显示设备2的立体图和侧视图。图5仅仅示出了头戴式显示设备2的右侧，其包括具有镜腿102和鼻梁104的那部分。在鼻梁104中置入了话筒110用于记录声音以及将音频数据传送给处理单元4，如下所述。在头戴式显示设备2的前方是朝向房间的视频相机112，该视频相机112可以捕捉视频和静止图像。那些图像被传送至处理单元4，如下所述。

头戴式显示设备2的镜架的一部分将围绕显示器(显示器包括一个或多个透镜)。为了示出头戴式显示设备2的组件，未描绘围绕显示器的镜架部分。该显示器包括光导光学元件115、不透明度滤光器114、透视透镜116和透视透镜118。在一个实施例中，不透明度滤光器114处于透视透镜116之后并与其对齐，光导光学元件115处于不透明度滤光器114之后并与其对齐，而透视透镜118处于光导光学元件115之后并与其对齐。透视透镜116和118是眼镜中使用的标准镜片，并且可根据任何验光单(包括无验光单)来制作。在一个实施例中，透视透镜116和118可由可变处方透镜取代。不透明度滤光器114滤除自然光(要么以每像素为基础，要么均匀地)以增强虚拟图像的对比度。光导光学元件115将人造光引导到眼睛。下面提供不透明度滤光器114和光导光学元件115的更多细节。

在镜腿102处或镜腿102内安装有图像源，该图像源(在一个实施例中)包括用于对虚拟图像进行投影的微显示器120、以及用于将图像从微显示器120引导到光导光学元件115中的透镜122。在一个实施例中，透镜122是准直透镜。

控制电路136提供支持头戴式显示设备2的其他组件的各种电子装置。控制电路136的更多细节在下文参照图6提供。处于镜腿102内部或安装到镜腿102的是耳机130、惯性测量单元132、以及温度传感器138。在图6中所示的一个实施例中，惯性测量单元132(或IMU132)包括惯性传感器，诸如三轴磁力计132A、三轴陀螺仪132B以及三轴加速度计132C。惯性测量单元132感测头戴式显示设备2的位置、定向和突然加速度(俯仰、滚转和偏航)。除了磁力计132A、陀螺仪132B和加速度计132C之外或者取代磁力计132A、陀螺仪132B和加速度计132C，IMU 132还可包括其他惯性传感器。

微显示器120通过透镜122来投影图像。存在着可被用于实现微显示器120的不同的图像生成技术。例如，微显示器120可以使用透射投影技术来实现，其中光源由光学活性材料来调制，用白光从背后照亮。这些技术通常使用具有强大背光和高光能量密度的LCD型显示器来实现。微显示器120还可使用反射技术来实现，其中外部光被光学活性材料反射并调制。取决于该技术，照明是由白光源或RGB源来向前点亮的。数字光处理(DLP)、硅上液晶(LCOS)、以及来自Qualcomm有限公司的

显示技术是高效的反射技术的示例(因为大多数能量从已调制结构反射离开)并且可被用在本系统中。附加地，微显示器120可以使用发射技术来实现，其中光由该显示器生成。例如，来自Microvision有限公司的PicoP^TM显示引擎使用微型镜面舵来将激光信号发射到担当透射元件的小型屏幕上或直接将光束(例如，激光)发射到眼睛。

光导光学元件115将来自微显示器120的光传送到佩戴头戴式显示设备2的用户的眼睛140。光导光学元件115还允许如箭头142所描绘的那样将光从头戴式显示设备2的前方通过光导光学元件115传送到眼睛140，从而除了接收来自微显示器120的虚拟图像之外还允许用户具有头戴式显示设备2的前方的空间的实际直接视图。从而，光导光学元件115的壁是透视的。光导光学元件115包括第一反射表面124(例如镜面或其他表面)。来自微显示器120的光穿过透镜122并入射在反射表面124上。反射表面124反射来自微显示器120的入射光，使得光通过内反射被陷在包括光导光学元件115的平面基底内。在基底的表面上进行若干次反射之后，被陷的光波到达选择性反射表面126的阵列。注意，五个表面中只有一个表面被标记为126以防止附图太过拥挤。反射表面126将从基底出射并入射在这些反射表面上的光波耦合进用户的眼睛140。

由于不同光线将以不同角度传播并弹离衬底的内部，因此这些不同的光线将以不同角度击中各个反射面126。因此，不同光线将被所述反射面中的不同反射面从基底反射出。关于哪些光线将被哪个表面126从基底反射出的选择是通过选择表面126的合适角度来设计的。光导光学元件的更多细节可在于2008年11月20日公开的题为“Substrate-GuidedOptical Devices”(基底导向的光学设备)的美国专利公开号2008/0285140中找到。在一个实施例中，每只眼睛将具有其自己的光导光学元件115。当头戴式显示设备2具有两个光导光学元件时，每只眼睛都可以具有其自己的微显示器120，该微显示器120可以在两只眼睛中显示相同图像或者在两只眼睛中显示不同图像。在另一实施例中，可以存在将光反射到两只眼睛中的一个光导光学元件。

与光导光学元件115对齐的不透明度滤光器114要么均匀地、要么以每像素为基础来选择性地阻挡自然光，以免其穿过光导光学元件115。于2010年9月21日提交的Bar-Zeev等人的题为“Opacity Filter For See-Through Mounted Display(用于透视安装显示器的不透明度滤光器)”的美国专利公开号2012/0068913中提供了不透明度滤光器114的示例的细节。然而，一般而言，不透明度滤光器114的一实施例可以是透视LCD面板、电致变色膜(electrochromic film)或能够充当不透明滤光器的类似设备。不透明度滤光器114可以包括致密的像素网格，其中每个像素的透光率能够在最小和最大透光率之间被单独地控制。尽管0-100％的透光率范围是理想的，然而更受限的范围也是可接受的，诸如例如每像素约50％到90％。

在用代理为现实世界物体进行z-缓冲(z-buffering)之后，可以使用来自渲染流水线的阿尔法值的掩码(mask)。当系统为增强现实显示而呈现场景时，该系统记录哪些现实世界物体处于哪些虚拟物体之前，如同下面解释的。如果虚拟物体处于现实世界物体之前，则不透明度对于该虚拟物体的覆盖区域而言可以是开启的。如果虚拟物体(虚拟地)处于现实世界物体之后，则不透明度以及该像素的任何颜色都可被关闭，使得对于现实光的该相应区域(其大小为一个像素或更多)而言，用户将会看到现实世界物体。覆盖将是以逐像素为基础的，所以该系统可以处置虚拟物体的一部分处于现实世界物体之前、该虚拟物体的一部分处于现实世界物体之后、以及该虚拟物体的一部分与现实世界物体相重合的情况。对这种用途而言，最期望的是能够以低的成本、功率和重量来从0％开始直至100％不透明度的显示器。此外，不透明度滤光器可以比如用彩色LCD或用诸如有机LED等其他显示器来以彩色进行呈现。

头戴式显示设备2还包括用于跟踪用户的眼睛的位置的系统。如下面将会解释的那样，该系统将跟踪用户的位置和定向，使得该系统可以确定用户的FOV。在替代实施例中，该系统可包括用于跟踪用户的眼睛的位置以便细化对该用户的FOV的测量的技术。例如，头戴式显示设备2可包括眼睛跟踪套件(未示出)，该眼睛跟踪套件具有眼睛跟踪照明设备和眼睛跟踪相机。在一个实施例中，眼睛追踪照明设备包括一个或多个红外(IR)发射器，这些红外发射器向眼睛发射IR光。眼睛跟踪相机包括一个或多个感测反射的IR光的相机。通过检测角膜的反射的已知成像技术，可以标识出瞳孔的位置。例如，参见于2008年7月22日颁发的题为“Head Mounted Eye Tracking and Display System”(头戴式眼睛跟踪和显示系统)的美国专利号7,401,920。此类技术可以定位眼睛的中心相对于跟踪相机的位置。一般而言，眼睛跟踪涉及获得眼睛的图像并使用计算机视觉技术来确定瞳孔在眼眶内的位置。在一个实施例中，跟踪一只眼睛的位置就足够了，因为双眼通常一致地移动。然而，单独地跟踪每只眼睛是可能的。

图5仅仅示出了头戴式显示设备2的一半。完整的头戴式显示设备可包括另一组透视透镜、另一不透明度滤光器、另一光导光学元件、另一微显示器120、另一透镜122、面向房间的相机、耳机、和温度传感器。

图6是描绘了头戴式显示设备2的各个组件的框图。图7是描述处理单元4的各种组件的框图。头戴式显示设备2(其组件在图6中被描绘)被用于通过将一个或多个虚拟图像与用户对现实世界的视图无缝地融合来向用户提供虚拟体验。另外，图6的头戴式显示设备组件包括追踪各种状况的许多传感器。头戴式显示设备2将从处理单元4接收关于虚拟图像的指令，并且将把传感器信息提供回给处理单元4。处理单元4可确定在何处以及在何时向用户提供虚拟图像并相应地将指令发送给图6的头戴式显示设备。

图6的组件中的一些(例如朝向房间的相机112、微显示器120、不透明度滤光器114、耳机130和温度传感器138)是以阴影示出的，以指示这些设备中的每个都存在两个，其中一个用于头戴式显示设备2的左侧，而一个用于头戴式显示设备2的右侧。图6示出与电源管理电路202通信的控制电路200。控制电路200包括处理器210、与存储器214(例如D-RAM)进行通信的存储器控制器212、相机接口216、相机缓冲器218、显示驱动器220、显示格式化器222、定时生成器226、显示输出接口228、以及显示输入接口230。

在一个实施例中，控制电路200的组件都通过专用线路或一个或多个总线彼此进行通信。在另一实施例中，控制电路200的各组件与处理器210通信。相机接口216提供到两个朝向房间的相机112的接口，并且将从朝向房间的相机所接收到的图像存储在相机缓冲器218中。显示驱动器220将驱动微显示器120。显示格式化器222向控制不透明度滤光器114的不透明度控制电路224提供关于微显示器120上所正显示的虚拟图像的信息。定时生成器226被用来为该系统提供定时数据。显示输出接口228是用于将图像从朝向房间的相机112提供给处理单元4的缓冲器。显示输入接口230是用于接收诸如要在微显示器120上显示的虚拟图像之类的图像的缓冲器。显示输出接口228和显示输入接口230与作为到处理单元4的接口的带接口232通信。

电源管理电路202包括电压调节器234、眼睛追踪照明驱动器236、音频DAC和放大器238、话筒前置放大器和音频ADC 240、温度传感器接口242、以及时钟发生器244。电压调节器234通过带接口232从处理单元4接收电力，并将该电力提供给头戴式显示设备2的其他组件。音频DAC和放大器238向耳机130输出音频信息。话筒前置放大器和音频ADC 240提供用于话筒110的接口。温度传感器接口242是用于温度传感器138的接口。电源管理电路202还向三轴磁力计132A、三轴陀螺仪132B以及三轴加速度计132C提供电能并从其接收回数据。

图7是描述处理单元4的各种组件的框图。图7示出与电源管理电路306通信的控制电路304。控制电路304包括：中央处理单元(CPU)320、图形处理单元(GPU)322、高速缓存324、RAM 326、与存储器330(例如D-RAM)进行通信的存储器控制器328、与闪存334(或其他类型的非易失性存储)进行通信的闪存控制器332、通过带接口302和带接口232与头戴式显示设备2进行通信的显示输出缓冲器336、通过带接口302和带接口232与头戴式显示设备2进行通信的显示输入缓冲器338、与用于连接到话筒的外部话筒连接器342进行通信的话筒接口340、用于连接到无线通信设备346的PCI express接口、以及(一个或多个)USB端口348。在一个实施例中，无线通信设备346可包括启用Wi-Fi的通信设备、蓝牙通信设备、红外通信设备等。USB端口可以用于将处理单元4对接到处理单元计算系统22，以便将数据或软件加载到处理单元4上以及对处理单元4进行充电。在一个实施例中，CPU 320和GPU 322是用于确定在何处、何时以及如何向用户的视野内插入虚拟三维物体的主要力量。以下提供更多的细节。

电源管理电路306包括时钟发生器360、模数转换器362、电池充电器364、电压调节器366、头戴式显示器电源376、以及与温度传感器374进行通信的温度传感器接口372(其可能位于处理单元4的腕带上)。模数转换器362被用于监视电池电压、温度传感器，以及控制电池充电功能。电压调节器366与用于向该系统提供电力的电池368进行通信。电池充电器364被用来在从充电插孔370接收到电力时(通过电压调节器366)对电池368进行充电。HMD电源376向头戴式显示设备2提供电力。

图8解说了包括显示设备2的面向房间的相机112和处理单元4上的一些软件模块的移动混合现实套件30的高级框图。这些软件模块中的一些或全部可替换地被实现在头戴式显示设备2的处理器210上。

如图所示，面向房间的相机112向头戴式显示设备2中的处理器210提供图像数据。在一个实施例中，面向房间的相机112可包括深度相机、RGB色彩图像相机和用于捕捉场景的图像数据的IR光组件。如以下所解释的，面向房间的相机112可包括少于全部的这些组件。

例如使用飞行时间分析，IR光组件可将红外光发射到场景上，并且可随后使用传感器(未示出)用例如深度相机和/或RGB相机来检测从场景中的一个或多个物体的表面反向散射的光。在一些实施例中，可以使用脉冲红外光，使得可以测量出射光脉冲与相应入射光脉冲之间的时间，并且将其用于确定从面向房间的相机112到场景中的物体(包括例如用户的手)上的特定位置的物理距离。另外，在其他示例实施例中，可以将出射光波的相位与入射光波的相位相比较来确定相移。然后可以使用该相移来确定从捕捉设备到目标或物体上的特定位置的物理距离。

根据另一示例性实施例，可以使用飞行时间分析来通过经由包括例如快门式光脉冲成像在内的各种技术分析反射光束随时间的强度来间接地确定从面向房间的相机112到物体上的特定位置的物理距离。

在另一示例实施例中，面向房间的相机112可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即，被显示为诸如网格图案、条纹图案、或不同图案之类的已知图案的光)可经由例如IR光组件被投影到场景上。在落到场景中的一个或多个目标或物体的表面上以后，作为响应，图案可以变为变形的。图案的这种变形可由例如3-D相机和/或RGB相机(和/或其他传感器)来捕捉，并可随后被分析以确定从面向房间的相机112到物体上的特定位置的物理距离。在一些实现中，IR光组件从深度和/或RGB相机移位，使得可以使用三角测量来确定与深度和/或RGB相机的距离。在一些实现中，面向房间的相机112可包括感测IR光的专用IR传感器或具有IR滤波器的传感器。

应理解，本技术可在没有深度相机、RGB相机和IR光组件中的每一者的情况下感测物体和物体的三维位置。在各实施例中，面向房间的相机112可例如仅与标准图像相机(RGB或黑或白)一起工作。这样的实施例可通过单独或组合使用的各种图像跟踪技术来操作。例如，单个、标准的面向房间的图像相机112可使用特征标识和跟踪。即，使用来自标准相机的图像数据，有可能提取场景的感兴趣区域或特征。通过查找那些相同的特征达某一时间段，可在三维空间中确定针对物体的信息。

在各实施例中，头戴式显示设备2可包括两个间隔开的标准的面向房间的图像相机112。在该实例中，物体在场景中的深度可依据两个相机的立体效果来确定。每一相机都可成像某一重叠的特征集，并且深度可从其视野中的视差差异中被计算出。

一种用于确定未知环境内具有位置信息的场景图的进一步方法被称为同时定位和映射(SLAM)。SLAM的一个示例题为“Systems and Methods for Landmark Generationfor Visual Simultaneous Localization and Mapping”(用于可视同时定位和映射的地标生成的系统和方法)的美国专利No.7,774,158中被公开。此外，来自IMU 132的数据可被用于更准确地解释视觉跟踪数据。

处理单元4可包括场景制图模块452。使用以上所描述的来自(诸)面向前面的相机112的数据，场景映射模块能够将场景中的各物体(包括用户的一个或两个手)映射到三维参考帧。以下描述了场景映射模块的进一步细节。

为了跟踪用户在场景内的位置，可从图像数据中识别用户。处理单元4可实现骨架识别和跟踪模块448。2012年3月2日提交的、题为“Skeletal Joint Recognition AndTracking System(骨架关节识别和跟踪系统)”的美国专利公开No.2012/0162065中公开了骨架跟踪模块448的一示例。这样的系统还可跟踪用户的手。然而，在各实施例中，处理单元4还可执行手识别和跟踪模块450。该模块450接收来自面向房间的相机112的图像数据，并且能够标识FOV中的用户的手以及用户的手的位置。2011年11月18日提交的、题为“Systemfor Recognizing an Open or Closed Hand(用于识别张开或闭合的手的系统)”的美国专利公开No.2012/0308140中公开了手部识别和跟踪模块450的一示例。一般来说，模块450可检查图像数据以辨别物体的宽度和长度，物体可以是手指、在手指并在一起的情况下手指和指间之间的间距，以便标识并跟踪处于其各位置的用户的手。

处理单元4还可以包括姿势识别引擎454以用于接收场景中的一个或多个用户的骨架模型和/或手数据，并确定该用户是否正在执行预定义的姿势或影响在处理单元4上运行的应用的应用控制移动。关于姿势识别引擎454的更多信息可以在2009年4月13日提交的名为“Gesture Recognizer System Architecture(姿势识别器系统架构)”的美国专利申请No.12/422,661中找到。

如上所述，用户可例如以口述命令的形式执行各种口头姿势以选择物体并可能修改那些物体。因此，本系统进一步包括语音识别引擎456。语音识别引擎456可根据各种已知技术中的任一者来操作。

处理单元4可进一步实现同步软件引擎480和校准软件引擎482，用于将一个或多个头戴式显示设备2和相机套件50校准到场景图。同步软件引擎480和校准软件引擎482的操作被阐述如下。

如上文提到的，相机套件50包括图像传感器56。在一个实施例中，图像传感器56可包括深度相机和IR光组件以捕捉场景的图像数据。使用这些组件，图像传感器56可根据以上描述的面向房间的相机112用来捕捉图像数据的方法中的任意一种从相机套件50的视角捕捉场景的深度数据。还可理解的是，图像传感器56可采用各种其它技术来构建场景图，例如单独使用深度传感器、单独使用RGB相机、单独使用黑白相机或者这些传感器/相机中的两个或更多个一起工作。例如，深度数据可使用双色相机和立体分析来生成。这类场景图可使用来自单个相机套件或一起工作的多个相机套件(以及可能的头戴式显示设备2)的数据来构建。

如上文提到的，相机套件50可与计算系统70通信。在计算系统70和处理单元4彼此分开的情况下，计算系统70可执行以上结合图8描述的处理单元4软件模块448、450、452、454、456、480和/或482中的一些或全部，作为处理单元4的替代或补充。

在一个示例实施例中，头戴式显示设备2和处理单元4一起工作以创建用户所在的环境的场景图或模型并且跟踪该环境中各个移动的或静止的物体。在各实施例中，来自一个或多个相机套件50的传感器的数据可帮助生成场景图。现在参考图9的流程图来更详细地解释这些特征。

此外，处理单元4通过跟踪头戴式显示设备2的位置和定向来跟踪用户18所佩戴的头戴式显示设备2的FOV。由头戴式显示设备2获得的例如来自面向房间的相机112和IMU132的传感器信息被传送到处理单元4。处理单元4处理数据并更新场景模型。处理单元4进一步向头戴式显示设备2提供关于在何处、在何时以及如何插入任何虚拟三维物体的指令。以相同的方式，计算系统70可跟踪一个或多个相机套件50的位置、定向和视锥体视野，并且相应地更新场景模型。还将参考图9的流程图来更详细地解释这些特征。

图9是处理单元4、头戴式显示设备2、一个或多个相机套件50以及计算系统70在离散时间段(诸如为了生成、渲染和显示单帧图像数据所花费的时间)期间的操作和交互性的高级流程图在一些实施例中，数据可以以60Hz的速率刷新，但是在另外的实施例中可以以更高或更低的频度刷新。

在步骤600，可配置用于呈现虚拟环境的系统。例如，用户18或系统的操作者可指定要被呈现的虚拟内容，以及该虚拟内容将在何处被呈现。在用户正经由内容生成软件引擎458来创建虚拟内容的情况下，可打开并显示包括多个虚拟工具的虚拟工具箱。

在步骤604，处理单元4从场景收集数据。该数据可以是由头戴式显示设备2感测到的数据，且具体而言，是由面向房间的相机112和IMU 132感测到的数据。该数据还可包括由相机套件50感测到的图像和惯性数据，且具体而言，是由相近50、位置传感器54和图像传感器56感测到的图像和惯性数据

如以下阐述的，一个或多个头戴式显示设备2和一个或多个相机套件50在场景图内的位置可被彼此校准。然而，可能发生的是一个或多个相机套件50的相机52和图像传感器56、以及一个或多个头戴式显示设备2的面向房间的相机112中接收的图像数据是以不同速率被接收的。因此，在相机套件和头戴式显示设备可被校准到场景图之前，在步骤606，本发明技术的各实施例对从不同相机套件和头戴式显示设备的图像捕捉设备接收的图像数据进行时间同步以移除作为变量的时间。以此方式，校准引擎482可对来自不同图像捕捉设备的在同一时间捕捉的图像数据执行其分析。在以下的描述中，相机52、图像传感器56和/或面向房间的相机112被统称为图像捕捉设备。

同步步骤606由同步引擎480执行。现在参考附图10的流程图描述与步骤606有关的进一步细节。以下的描述可适用于从不同图像捕捉设备的深度相机和RGB相机接收的数据的同步。因此，一个或多个头戴式显示设备2和一个或多个相机套件50的所有图像捕捉设备可被一起同步。

在步骤720，在每个图像捕捉设备内，由深度相机和RGB相机捕捉场景信息帧。在步骤724，每一个捕捉设备的深度和RGB帧数据被传送给处理单元4和/或计算系统70。在步骤726，传入的深度/RGB数据被按照在处理单元4或者计算系统70中的单个主时钟盖下时间戳。

在步骤730，同步引擎480查看接收自所有设备2和套件50的帧数据以寻找给定的帧号。通过使用给定帧的此类数据的时间戳，以及每一个相机的已知分辨率，同步引擎从生成深度和RGB数据的每个设备/套件确定该深度和RGB数据的所需时间偏移量。由此，同步引擎可确定在每一个图像捕捉设备的定时中需要的调整。同步引擎可从单个设备的帧数据(例如，该设备生成此帧的第一数据的)选择时间戳作为基准，并将此时间戳设为基准时间戳。所有其他设备的帧数据随后可被调节到此基准时间戳。替代地，同步引擎可生成内部时钟参考，并且根据该内部时钟参考设置针对所有帧数据的调整。

一旦在步骤730确定了针对每一个设备的调整，则在步骤734，同步引擎可向每一个设备2/套件50发送命令以调整该设备生成其帧数据的速率。存在可被用于调整帧数据的生成的各种机制。在一个实施例中，同步引擎可为生成该帧数据的捕捉设备添加或减去一个空白间隔，使得来自所有的捕捉设备的所有的帧数据被同时生成和发送。如果同步引擎480需要使来自一个设备或套件的帧进来地更快以便例如避免缓冲器向下溢出，则其可发送命令给设备/套件以缩小针对该设备的空白间隔。如果同步引擎480需要让一个设备或套件的帧数据更晚地生成以便例如避免缓冲器向上溢出，则其可增加针对该设备/套件的纵向空白间隔。

与同步引擎480在步骤606中的操作有关的更多细节被公开在2010年5月3日提交的、序列号为12/772,802、题为“Heterogeneous Image Sensor Synchronization(异质图像传感器同步)”的申请人的共同待决的美国专利申请中。此处考虑这一公开，本领域技术人员将理解各种其它操作可被用于将头戴式显示设备2和相机套件50的不同捕捉设备一起同步以供校准过程。

在进一步实施例中，可以想到同步步骤可从最初的校准过程中省略。这类实施例可利用运动矢量来预测所捕捉的图像数据点在捕捉点以外的时间的各个位置。虽然计算上是困难的并且处理上是高强度的，但是这类实施例还是可能的。

现在返回图9，在步骤606，一旦针对移动场景数据同步了图像数据帧，则在步骤608，捕捉设备就可相对于彼此和场景被校准。在以下的描述中，z轴被定义为从相机透镜直接延伸出，而x轴和y轴分别相对于z轴水平和竖直偏移。对x、y和z轴的这一定义仅仅是作为示例，并且各轴在进一步实施例中可被不同地定向。每一个捕捉设备可具有不同于其它捕捉设备的x、y、z笛卡尔空间的x、y、z笛卡尔空间。如之后阐述的，一旦所有的捕捉设备被校准，单个3D现实世界笛卡尔坐标系可被定义，该坐标系包括所有的图像捕捉设备。

在各个实施例中，校准操作由校准引擎482使用来自不同的捕捉设备的深度信息和RGB信息两者来执行。深度相机提供与图像中的各点的x、y和z位置有关的信息，但是可能具有低分辨率。RGB相机不提供z方向上的深度信息，但是通常具有高分辨率以及用于辨别不连续性、或暗示的纹理，用于将一个捕捉设备的视图与另一个进行关联。相应地，本发明技术的各实施例可使用来自捕捉设备的深度和RGB相机两者来用于校准过程。

然而，虽然更加计算密集且取决于场景中的物体，但是仅使用来自捕捉设备中的两个或更多个的深度信息来将捕捉设备相对于彼此和场景进行校准是可能的。类似地，虽然仍然更加计算密集且取决于场景中的物体，但是仅使用来自两个或更多个捕捉设备的RGB信息来将捕捉设备相对于彼此进行校准是可能的。例如在2007年5月17日公开的、题为“Navigating Images Using Image Based Geometric Alignment and Object BasedControls(使用基于几何对齐的图像和基于物体的控制来导航图像)”的公开号为2007/0110338的美国专利中描述了用于单独使用RGB信息来校准相机视角的技术，该公开被用在来自微软公司的Photosynth^TM图像识别软件的技术中。

现在将结合图11的流程图来阐述与校准引擎482使用深度和RGB数据来进行的图像捕捉设备的校准的实施例有关的进一步细节。在步骤740，不同图像捕捉设备捕捉来自场景的深度和RGB图像数据。在步骤742，不同捕捉设备的每一个深度相机和RGB相机的相机视图被从以相机为中心的视图转换成因正生成数据的相机而异的正交3D世界视图。一些深度相机使用垂直参考帧来测量捕捉的数据。换言之，相机定义z方向上的平面，z方向对于更为远离相机的物体而增大。x和y维度表示与z轴的水平和竖直差异。其它深度相机使用径向参考帧来测量捕捉的数据。换言之，相机测量具有位于相机处的第一点(x1,y1,z1)和位于物体处的第二点(x2,y2,z2)的矢量。

无论相机如何测量其图像数据点，理想的是，任意两个相邻坐标之间的距离在测量中是相同的。然而，由于相机透镜失真的缘故，很可能将不是这种情形。相应地，在步骤742，校准引擎482可接着针对设备2和套件50中的图像捕捉设备的深度和RGB相机两者进行相机失真校正。给定相机(深度或RGB)的失真可以是由相机制造商提供的已知属性。如果不是，则还公知有用于计算相机的失真的算法，例如包括对已知尺寸的物体进行成像，所述尺寸是例如在相机视野内的不同位置处的方格盘图案之类。该图像中的各点的相机视图坐标中的偏差将是相机透镜失真的结果。一旦得知透镜失真的程度，就可以通过已知的逆矩阵变换来校正失真，逆矩阵变换产生给定捕捉设备的点云中的点的均匀相机视图映射。

校准引擎482可接着在步骤746将由捕捉设备所捕捉的经失真校正的图像数据点从相机视图转换成正交3D世界视图。这一正交3D世界视图是图像捕捉设备所捕捉的所有数据在正交x、y、z笛卡尔坐标系中相对于捕捉设备(例如，捕捉设备可位于3D世界视图中的(0,0,0)处)的点云图。用于将相机视图转换成正交3D世界视图的矩阵变换公式是已知的。例如，参见Morgan Kaufman Publishers(2000年)出版的David H.Eberly的“3d GameEngine Design:A Practical Approach To Real-Time Computer Graphics(3d游戏引擎设计：实时计算机图形的可行方法)”。

来自捕捉设备深度相机的数据可能对于在步骤746中构造正交3D世界视图是足够的。然而，来自捕捉设备RGB相机的数据也可被用于在步骤746中构造该3D世界视图。RGB相机返回数据点的2D图，因此要单独从RGB数据中推导出3D世界图在计算上更困难。然而，取决于场景中的物体，从RGB数据中构造3D世界图也是可能的。例如，参见之前提到的的美国专利公开No.2007/0110338。

在步骤746，头戴式显示设备2和相机套件50中的每一个图像捕捉设备可构造正交3D世界视图。在步骤746的结尾处，来自给定捕捉设备的数据点的x、y、z世界坐标仍旧是来自该捕捉设备的视角，而尚未与来自设备2和相机套件50中的其它捕捉设备的数据点的x,y,z世界坐标相关。在进一步实施例中，在将相机视图转换成正交3D世界视图的步骤746之后，可执行针对相机透镜失真的校正的步骤。

下一步骤是将不同图像捕捉设备的各个正交3D世界视图转换成头戴式显示设备2和相机套件50中的所有图像捕捉设备所共享的单个总体的3D世界视图。为实现这一点，校准引擎482的各实施例接着在步骤748中在相应捕捉设备的世界视图的点云中寻找关键点不连续性或线索，并且随后在步骤750标识出在不同捕捉设备的不同点云之间相同的线索。

一旦校准引擎482能够确定两个不同捕捉设备的两个世界视图包括相同的校准线索，则在步骤752，校准引擎482能够确定这两个捕捉设备相对于彼此以及线索的位置、定向和焦距。在各实施例中，一个或多个设备2和/或相机套件50中的并非所有的图像捕捉设备都将共享相同的公共线索。然而，只要第一和第二捕捉设备具有共享的线索，并且第二和第三捕捉设备具有共享的线索，则校准引擎能够确定第一、第二和第三捕捉设备相对于彼此的位置、定向和焦距以及单个总体的3D世界视图。这对于附加的捕捉设备同样成立。

这一过程中的第一个步骤748用于在每一个捕捉设备的3D现实世界视图点云中标识线索。线索可以是与相邻点不连续的数据点，并且因此容易在来自不同捕捉设备的点云之间被标识出来。理想地，在每一个点云内标识多个这类线索，并且可能定义点云内的物体的边缘和/或拐角。图像点云内的其他物体的各方面也可以成为线索。存在用于从图像点云中标识出线索的各种已知算法。在Mikolajczyk,K.和Schmid,C的“A PerformanceEvaluation of Local Descriptors(局部描述符的性能评估)”(IEEE模式分析和机器智能学报，27，10，1615-1630(2005年))中阐述了这样的算法。利用图像数据检测线索的另一方法是比例不变特征变换(SIFT)算法。SIFT算法在例如2004年3月23日授权给David G.Lowe的题为“Method and Apparatus for Identifying Scale Invariant Features in anImage and Use of Same for Locating an Object in an Image”(用于在图像中标识出比例不变特征和将其用于对图像中的物体进行定位的方法和装置)的美国专利号6,711,293中被描述。另一线索检测器方法是最大稳定极值区域(MSER)算法。MSER算法在例如J.Matas、O.Chum、M.Urba和T.Pajdla的论文“Robust Wide Baseline Stereo FromMaximally Stable Extremal Regions”(来自最大稳定极值区域的鲁棒宽基线立体)，英国机器视觉会议学报，第384-396页(2002)中被描述。

在步骤750，标识出在来自两个或更多个捕捉设备的点云之间共享的线索。在概念上，当在第一捕捉设备的笛卡尔坐标系中在第一捕捉设备与一组线索之间存在第一组向量，并且在第二捕捉设备的笛卡尔坐标系中在第二捕捉设备与同一组线索之间存在第二组矢量时，两个系统可以相对于彼此被解析成包括这两个捕捉设备的单个笛卡尔坐标系。存在用于寻找来自两个或更多个捕捉设备的点云之间的共享线索的多种已知技术。这样的技术在例如Arya,S.、Mount,D.M.、Netanyahu,N.S.、Silverman,R.和Wu,A.Y.的“An OptimalAlgorithm For Approximate Nearest Neighbor Searching Fixed Dimensions”(用于近似最近邻居搜索固定维度的最优算法)，ACM期刊45,6,891-923(1998)中被示出。作为上文提及的Arya等人的近似最近邻居解决方案的替代或补充，可使用其他技术，包括但不限于散列或上下文敏感的散列。

当来自两个不同捕捉设备的点云共享足够大数目的匹配线索时，可以例如通过随机采样一致性(RANSAC)或各种其他估计技术来估计将两个点云相关在一起的矩阵。作为被还原的基础矩阵的离群值的那些匹配可随后被移除。在找到点云对之间的一组假定的、几何上一致的匹配之后，这些匹配可被组织成针对各个点云的轨迹的集合，其中轨迹是点云之间相互匹配的线索的集合。该集合中的第一轨迹可包含每个公共线索在第一点云中的投影。该集合中的第二轨迹可包含每个公共线索在第二点云中的投影。

如果相应点云中的线索形成图的顶点集合，并且在每一对匹配的线索之间存在图中的边，则这个图的每一个连接的分量包括一轨迹。然而，与一些连接的分量相关联的轨迹可能是不一致的；具体来说，如果轨包含针对同一图像的不止一个线索，则轨是不一致的。在各实施例中，只有包含至少两个线索的一致的轨迹被保存以供确定相对捕捉设备位置的步骤752，如以下描述的。

使用来自步骤748和750的信息，来自不同捕捉设备的点云可被解析成单个正交3D现实世界视图中的单个点云。所有捕捉设备的位置和定向相对于该单个点云和单个正交3D现实世界视图被校准。为了一起解析各个点云，针对两个点云的轨的集合中的线索的投影被分析。根据这些投影，校准引擎482可确定第一捕捉设备相对于所述线索的视角，并且还可确定第二捕捉设备相对于所述线索的视角。由此，校准引擎482可以将点云解析成对单个点云和包括所述线索和来自两个点云的其他数据点的单个正交3D现实世界视图的最佳估计。

对任何其他捕捉设备重复该过程，直到该单个正交3D现实世界视图包括了所有图像捕捉设备。一旦完成这一步，校准引擎可确定各捕捉设备相对于该单个正交3D现实世界视图和相对于彼此的相对位置和定向。校准引擎可进一步确定每个捕捉设备相对于该单个正交3D现实世界视图的焦距。

作为校准过程的一个示例，为了确定捕捉设备的姿态、透镜视野以及失真参数，两个或更多个捕捉设备(多个相机套件或一个或多个相机套件和头戴式显示设备)可捕捉校准线索的一个或多个图像。这一校准线索可从多个不同方向捕捉。所捕捉的图像被如上所述地处理以确定每一个图像捕捉设备的位置/定向以及透镜性质。

在完成校准步骤之际，各个头戴式显示设备和/或相机套件的位置和定向可被知晓。来自头戴式显示设备的IMU 132以及来自相机套件50的位置传感器54的IMU数据可被用于细化和/或确认一个或多个头戴式显示设备2和相机套件50的位置和定向。

在一个或多个头戴式显示设备2和相机套件50的最初使用之际，校准引擎482所执行的并且以上结合图9到11描述的校准步骤可被执行一次。场景内的用户和物体可改变，因而相应捕捉设备所生成的点云可改变，但是相机相对于彼此的校准可保持不变。在相机套件被移动的情况下，校准步骤可被重复。在各实施例中，校准引擎可继续收集与来自各个捕捉设备的点云的线索有关的数据，并且在校准引擎从两个或更多个捕捉设备中标识出更好的线索的情况下，校准引擎可重复以上步骤以尝试改善捕捉设备的校准。

在步骤610，可开发场景图，场景图标识了场景的几何形状、设备2和相机套件50的位置、以及场景内的物体的位置。在各实施例中，在给定帧中生成的场景图可包括该场景中用户的(诸)手、其它现实世界物体和虚拟物体的x、y和z位置。以上解释了用于收集深度和位置数据的方法。

在步骤612，如以上所描述的，系统可检测并跟踪用户的骨架和/或手，并基于移动身体部位和其他移动物体的位置来更新场景图。在步骤614，处理单元4确定场景内的头戴式显示设备2的x、y和z位置、定向以及FOV。现在参考附图12的流程图描述步骤614的进一步细节。

在步骤760，由处理单元4分析场景的图像数据以确定用户头部位置、以及从用户的面部向外直视的面部单位向量二者。头部位置可从来自头戴式显示设备2的反馈中标识出，并且根据该反馈，可构建面部单位向量。面部单位向量可被用来定义用户的头部定向，且在一些示例中可被认为是用户的FOV的中心。也可或替代地根据从头戴式显示设备2上的面向房间的相机112返回的相机图像数据来标识面部单位向量。特别而言，基于头戴式显示设备2上的相机112所看到的，相关联的处理单元4能够确定表示用户的头部定向的面部单位向量。

在步骤764，用户的头部的位置和定向还可或替代地通过如下方式来被确定：分析来自较早时间(要么在帧中较早，要么来自前一帧)的用户的头部的位置和定向，以及然后使用来自IMU 132的惯性信息来更新用户的头部的位置和定向。来自IMU 132的信息可以提供用户的头部的精确动力学数据，但是IMU典型地不提供关于用户的头部的绝对位置信息。该绝对位置信息或地面实况可提供自从头戴式显示设备2上的相机处获得的图像数据。

在各实施例中，用户的头部的位置和定向可以通过联合作用的步骤760和764来确定。在又一些实施例中，步骤769和764中的一者或另一者可被用来确定用户的头部的头部位置和定向。

可能发生的是，用户未向前看。因此，除了标识出用户头部位置和定向以外，处理单元可进一步考虑用户的眼睛在其头部中的位置。该信息可由上述的眼睛跟踪套件提供。眼睛跟踪套件能够标识出用户的眼睛的位置，该位置可以被表示成眼睛单位向量，该眼睛单位向量示出了与用户的眼睛聚焦所在且向前看的位置的向左、向右、向上和/或向下的偏离(即面部单位向量)。面部单位向量可以被调整为定义用户正在看向何处的眼睛单位向量。

在步骤770，接着可以确定用户的FOV。头戴式显示设备2的用户的视图范围可以基于假想用户的向上、向下、向左和向右的边界视力(peripheral vision)来预定义。为了确保针对给定用户计算得到的FOV包括特定用户或许能够在该FOV的范围内看到的物体，这一假想用户可不被当作具有最大可能边界视力的人。在一些实施例中，某一预定的额外FOV可被添加于此以确保对给定用户捕捉足够的数据。

然后，可以通过取得视图范围并且将其中心定在调整了眼睛单位向量的任何偏离的面部单位向量周围来计算该用户在给定时刻的FOV。除了定义用户在给定时刻正在看什么之外，用户的FOV的这一确定还有用于确定什么可能对用户是不可见的。如以下所解释的，将对虚拟物体的处理限制于特定用户的FOV内的那些区域可提高处理速度并降低延迟。

再次参考图9，在步骤620，一个或多个相机套件50的视锥体视野可被确定。这一确定可与以上结合步骤764和770描述的相同或类似方式来执行。

根据本发明技术的各方面，从头戴式显示设备2或相机套件50中的任意一个的视角，混合现实场景的虚拟和现实物体的视图可被显示在一个或多个监视器60上。在步骤624，处理单元4和/或计算系统70可接收来自头戴式显示设备2或相机套件50的用户或操作者的选择。此后，用于渲染和显示虚拟物体的步骤630－658使用被选择的头戴式显示设备2或相机套件50的观看视角。以下步骤630－658涉及将图像显示在一个或多个监视器60上。然而，类似的一组步骤630－658还可被并行地执行以从头戴式显示设备2的视角将图像显示给头戴式显示设备2。

在步骤630，处理单元4可精选渲染操作使得仅仅有可能在被选择的相机套件或头戴式显示设备的最终视锥体视野内出现的那些虚拟物体被渲染。其他虚拟物体的位置仍可被跟踪，但是它们不被渲染。还可设想，在其他实施例中，步骤630可以被完全跳过且整个图像被渲染。

处理单元4和/或计算系统70接下来可执行渲染设置步骤638，在该步骤，使用在步骤610、614和620中接收到的场景图和FOV来执行设置渲染操作。一旦接收到虚拟物体数据，处理单元就可以对要在监视器60上被渲染的虚拟物体执行步骤638中的渲染设置操作。步骤638中的设置渲染操作可包括与要被显示的虚拟物体相关联的常见渲染任务。这些渲染任务可包括例如阴影图生成、光照和动画。在一些实施例中，渲染设置步骤638可进一步包括对可能的绘制信息的编译，诸如要在预测的最终FOV中显示的虚拟物体的顶点缓冲区、纹理和状态。

使用与物体在3D场景图中的位置有关的信息，处理单元4/计算系统70可接着在步骤644确定从被选择的设备2/套件50的视角下的遮挡和阴影。具体而言，该场景图具有物体(包括任何移动和非移动的虚拟和现实物体)在该场景中的x、y和z位置。已知被选择的视角的位置以及其对该FOV中的物体的视线的情况下，处理单元4和/或计算系统70随后可确定某一虚拟物体是否全部或部分地遮挡了对现实世界物体的查看。另外，处理单元4和/或计算系统70可确定某一现实世界物体是否部分或全部地遮挡了对一虚拟物体的查看。

在步骤646，处理单元4的GPU 322(或计算系统70中的GPU)可接下来渲染要显示在监视器60上的图像。渲染操作的各部分可能已经在渲染设置步骤638中被执行并且被周期性地更新。任何被遮挡的虚拟物体可不被渲染，或者它们可被渲染。在被渲染的情况下，被遮挡的物体将通过以上阐述的不透明度滤光器114而被略过显示。

在步骤650，处理单元4和/或计算系统70检查：是否到了该将渲染的图像发送给监视器60的时间、或者是否还有时间使用来自头戴式显示设备2和/或相机套件50的更新近的位置反馈数据来进一步细化图像。在使用60赫兹帧刷新率的系统中，单帧大约为16毫秒。

如果到了显示更新图像的时间，则来自被选择的相机套件50或头戴式设备2的图像被发送给监视器60。例如，在相机套件50被选择的情况下，相机52所捕捉的现实世界图像被发送给监视器60供显示。在头戴式显示器被选择的情况下，面向房间的相机112的RGB相机所捕捉的现实世界图像被发送给监视器供显示。另外，在被确定的视锥体视野中的任何虚拟物体也被发送给监视器60以在合适的像素处、在考虑视角和遮挡的情况下被显示。在此时，用于不透明度滤光器的控制数据也从处理单元4和/或计算系统70被传送至监视器60以应用不透明度滤光器设置。在步骤658，监视器60可随后显示现实和虚拟物体的融合图像。

在以上描述的各实施例中，来自相机套件50的深度和其它图像数据被用于确定相机套件的视野中的遮挡。来自处理单元4和头戴式显示设备2创建的场景图的数据还可被用于确定场景图中的物体的表面网格。这一数据和表面网格还可在确定相机套件的视野中的遮挡时被使用。

可能的是，从被选择的相机套件50的视角，用户18正阻挡了对虚拟物体的查看。在各实施例中，来自相机套件50的深度和其它图像数据和/或来自处理单元4和头戴式显示设备2的场景图可被用于确定由于从被选择的相机套件50的视角下用户18阻挡了虚拟物体的一部分或全部的缘故而导致的对虚拟物体的遮挡。

在进一步实施例中，替代使用来自相机套件50或场景图的深度或图像数据，用户18的已知位置可被用于确定从被选择的相机套件50的视角下的遮挡。例如，用户18所佩戴的头戴式显示设备2的位置是已知的。用户18的位置可替代地或附加地通过骨架跟踪算法来检测。之后，接近用户18的尺寸和形状的几何形状可被构造并用于确定从被选择的相机套件50的视角下用户对虚拟内容的遮挡的目的。

另一方面，在步骤650还没到发送要被显示的图像数据帧的时间的情况下，处理单元和/或计算系统70可为了获得更新近的传感器数据而循环回以细化最终视图以及视图中各物体的最终位置的预测。具体而言，如果在步骤650中仍旧有时间，则处理单元4和/或计算系统70可返回至步骤604以从头戴式显示设备2和相机套件50获得更新近的传感器数据。

上面仅以示例的方式描述了处理步骤600至658。理解到，这些步骤中的一个或多个步骤在另外的实施例中可被省略，这些步骤可以按不同次序来执行，或者可以添加附加步骤。

使用以上描述的系统，包括虚拟和现实物体的混合现实体验可被显示在监视器上供未佩戴头戴式显示设备的人观看。此外，通过将相机套件50定位在混合现实场景周围的想要的位置，混合现实环境的不同视图可被选择并显示在监视器上。

图13例示了由第一相机套件50a(未示出)捕捉并显示在第一监视器60a上的屏幕截图。该屏幕截图示出了现实物体和虚拟物体(包括虚拟内容40和虚拟工具44)。第二相机套件50b也在该场景内并且被捕捉在该屏幕截图中。第一监视器60a也显示了也处在该场景中的第二监视器60b。第二监视器60b正示出与图13中所示的相同的图像(即正被显示在第一监视器60a上的相同的图像)。

图14例示了根据本发明技术的系统的实施例的框图。虽然各组件之间的通信被示为通过具体的有线或无线连接，但是可以理解的是，在进一步实施例中，各组件之间的通信可以是有线或无线的。

本发明技术的一些其它特征包括混合现实环境的视频馈送可通过网络连接被发送给一远程位置。混合现实环境可随后在该远程位置处在监视器上或者经由头戴式显示设备来被观看。

在进一步实施例中，本发明技术采用收集在传感器露出自己以得到可靠的世界锁定的虚拟物体时的姿态的时间同步系统和方法。虚拟物体在比从相机52获得现实世界图像的时间更晚的时间被渲染。这是因为来自相机套件上的跟踪设备的姿态是以60Hz接收的。在各实施例中，系统可获取不同的连续的时间段的相机姿态。系统随后能够在这些时间段之间插补以便以亚毫秒准确度精确地知晓在给定时刻时的相机姿态。通过所知晓的精准时刻的相机套件的位置，虚拟物体将在该精准时刻被渲染以提供虚拟物体与现实世界视频馈源的极其接近的匹配。这一方法采用渲染物体中的微小的延迟(例如100到150ms延迟)，但是提供了相机套件50所生成的图像中的虚拟和现实物体的无缝融合。

在进一步实施例中，对于任何给定时刻，相机套件50的相机52的缩放/聚焦/曝光/白平衡/ISO设置可被电子地传递给处理单元4和/或计算系统70，使得合适的缩放、模糊以及其它设置可被用于该准确的帧。这实现了对于与高端相机的传感器上的透镜所产生的图像在几何形状上和质量上相匹配的虚拟图像的渲染。

以上描述的各实施例以包括了相机套件50和佩戴头戴式显示设备2的用户。在进一步实施例中，头戴式显示设备2可被省略。在这一实施例中，用户18可具有包括传感器的设备，使传感器能够跟踪设备在空间中的位置。这类设备可例如是蜂窝电话或计算平板。场景图可由一个或多个相机套件50和/或用户18握持的设备中的传感器来构建。混合现实环境经由监视器60或用户所握持的设备被显示给用户。

总之，在一个实施例中，本发明技术涉及一种用于呈现包括现实和虚拟物体的混合现实环境的系统，该系统包括：头戴式显示设备，所述头戴式显示设备包括用于在虚拟环境中显示三维虚拟物体的显示单元；一个或多个相机套件；以及操作地耦合到所述显示设备和所述一个或多个相机套件的处理单元，所述处理单元生成包括所述头戴式显示设备、所述三维虚拟物体以及所述一个或多个相机套件被记录于其中的三维坐标空间的场景图，所述处理单元和所述一个或多个相机套件的相机套件从所述相机套件的视角下生成所述混合现实环境的图像供显示。

在又一实施例中，本发明技术涉及一种用于呈现包括现实和虚拟物体的混合现实环境的系统，该系统包括：多个图像捕捉设备，用于从不同视角捕捉所述混合现实环境中的现实世界物体的图像；以及操作地耦合到所述多个图像捕捉设备的处理单元，所述处理单元标识所述多个图像捕捉设备相对于彼此的位置，所述处理单元进一步生成所述混合现实环境中的虚拟物体并且标识所述虚拟物体相对于所述多个图像捕捉设备的位置，所述处理单元和所述多个图像捕捉设备中的一个图像捕捉设备从所述图像捕捉设备的视角下生成所述混合现实环境的图像供在二维监视器上显示。

在另一实施例中，本发明技术涉及一种用于呈现包括显示和虚拟物体的混合现实环境的方法，该方法包括：(a)经由合并到头戴式显示设备中的第一相机从第一视角下捕捉所述混合现实环境的第一图像；(b)经由合并到相机套件中的第二相机从第二视角下捕捉所述混合现实环境的第二图像；(c)在所述混合现实环境中的一位置处生成虚拟物体；(d)在所述头戴式显示设备上的光学器件上显示所述虚拟物体，所述虚拟物体是从所述头戴式显示设备的视角下显示的；以及(e)将来自所述相机套件的所述第二图像与所述虚拟物体一起显示在二维显示设备上，所述虚拟物体是从所述相机套件的视角下显示的。

尽管用结构特征和/或方法动作专用的语言描述了本发明主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明的范围由所附的权利要求进行定义。

Claims

1.一种用于呈现包括现实和虚拟物体的混合现实环境的系统，所述系统包括：

头戴式显示设备，所述头戴式显示设备包括用于在虚拟环境中显示三维虚拟物体的显示单元；

一个或多个相机套件，其中所述相机套件包括用于捕捉所述混合现实环境中的现实物体的视频相机；以及

操作地耦合到所述显示设备和所述一个或多个相机套件的处理单元，所述处理单元生成包括所述头戴式显示设备、所述三维虚拟物体以及所述一个或多个相机套件被记录于其中的三维坐标空间的场景图，所述处理单元和所述一个或多个相机套件中被选择的相机套件从所述被选择相机套件的视角下生成所述混合现实环境的图像供显示，所述混合现实环境的图像包括所述现实物体和虚拟物体的视频；

第一二维监视器，所述第一二维监视器能显示从所述头戴式显示设备的视角下显示的所述混合现实环境的图像；

其中头戴式显示设备的所述显示单元能显示从所述被选择相机套件的视角下的所述混合现实环境的图像。

2.如权利要求1所述的系统，其特征在于，所述相机套件包括用于捕捉所述混合现实环境中的现实物体的彩色或黑白图像的图像捕捉设备。

3.如权利要求1所述的系统，其特征在于，所述相机套件包括用于捕捉所述混合现实环境的深度数据的图像传感器，所述深度数据被用于从所述图像传感器的视角下生成所述混合现实环境的深度图。

4.如权利要求1所述的系统，其特征在于，所述相机套件和所述头戴式显示设备通过所述相机套件和所述头戴式显示设备捕捉校准线索的一个或多个图像来校准到公共坐标系。

5.如权利要求4所述的系统，其特征在于，所述处理单元基于来自从所述相机套件和所述头戴式显示设备的视角下的校准目标的一个或多个图像的深度成像传感器数据来确定所述相机套件和所述头戴式显示设备的姿态。

6.如权利要求1所述的系统，其特征在于，使用至少部分由所述相机套件生成的深度图像和RGB图像中的至少一者来在所述场景图的三维坐标系中校准所述相机套件。

7.如权利要求1所述的系统，其特征在于，所述相机套件包括位置传感器，所述位置传感器包括用于帮助将所述相机套件记录在所述场景图的三维坐标空间内的惯性测量单元。

8.如权利要求1所述的系统，其特征在于，所述被选择相机套件是第一相机套件，所述一个或多个相机套件还包括第二相机套件，并且所述系统进一步包括用于选择从所述第一和第二相机套件中的任意一个的视角下显示所述混合现实环境的选择设备。

9.如权利要求8所述的系统，其特征在于，进一步包括至少第二二维监视器，所述第一二维监视器显示从所述第一相机套件的视角下的所述混合现实环境的图像，并且所述第二二维监视器从所述第二相机套件的视角下显示所述混合现实环境的图像。

10.一种用于呈现包括现实和虚拟物体的混合现实环境的系统，所述系统包括：

多个图像捕捉设备，用于从不同视角捕捉所述混合现实环境中的现实世界物体的图像，其中所述图像捕捉设备包括用于捕捉所述混合现实环境中的现实物体的视频的视频相机；以及

操作地耦合到所述多个图像捕捉设备的处理单元，所述处理单元标识所述多个图像捕捉设备相对于彼此的姿态，所述处理单元进一步生成所述混合现实环境中的虚拟物体并且标识所述虚拟物体相对于所述多个图像捕捉设备的位置，所述处理单元和所述多个图像捕捉设备中的一个被选择的图像捕捉设备从所述被选择的图像捕捉设备的视角下生成所述混合现实环境的图像供在二维监视器上显示，所述混合现实环境的图像包括所述现实物体和虚拟物体的视频；

其中所述图像捕捉设备包括头戴式显示设备上的相机，所述头戴式显示设备进一步包括用于将所述虚拟物体显示到所述头戴式显示设备中的光学器件上的显示单元；

其中所述二维监视器能显示从所述头戴式显示设备的视角下显示的所述混合现实环境的图像；

其中头戴式显示设备的所述显示单元能显示从所述被选择的图像捕捉设备的视角下生成所述混合现实环境的图像。

11.如权利要求10所述的系统，其特征在于，所述图像捕捉设备包括相机套件。

12.如权利要求11所述的系统，其特征在于，所述相机套件包括用于捕捉所述混合现实环境中的现实物体的彩色图像的彩色图像捕捉设备，以及用于捕捉所述混合现实环境的深度数据的图像传感器，从所述深度数据中可生成所述混合现实图像的从所述图像传感器的视角下的所述混合现实环境的深度图。

13.如权利要求12所述的系统，其特征在于，所述处理单元使用RGB图像和深度图像中的至少一者来标识所述相机套件相对于其它图像捕捉设备的姿态。

14.如权利要求11所述的系统，其特征在于，所述相机套件包括位置传感器，所述位置传感器包括用于帮助标识所述相机套件相对于其它图像捕捉设备的姿态的惯性测量单元。

15.一种用于呈现包括现实和虚拟物体的混合现实环境的方法，所述方法包括：

(a)经由合并到头戴式显示设备中的第一相机从第一视角捕捉所述混合现实环境的第一图像；

(b)经由合并到相机套件中的第二相机从第二视角捕捉所述混合现实环境的第二图像，其中所述第二相机包括用于捕捉所述混合现实环境中的现实物体的视频的视频相机，所述第二图像包括所述现实物体的视频；

(c)在所述混合现实环境中的一位置处生成虚拟物体；

(d)在所述头戴式显示设备上的光学器件上显示所述虚拟物体，所述虚拟物体是从所述头戴式显示设备的视角下显示的；以及

(e)将来自所述相机套件的所述第二图像与所述虚拟物体一起显示在二维显示设备上，所述虚拟物体是从所述相机套件的视角下显示的；

(f)将所述二维显示设备上的显示改变为显示来自所述头戴式显示设备的第一图像连同所述虚拟物体的步骤，所述虚拟物体是从所述头戴式显示设备的视角下显示的。

16.如权利要求15所述的方法，其特征在于，进一步包括使用至少在所述第一和第二图像中共同的物体来将所述头戴式显示设备、所述相机套件以及所述虚拟物体的姿态记录到彼此的步骤。

17.如权利要求15所述的方法，其特征在于，进一步包括通过所述相机套件从所述虚拟物体的位置的侧面、下面以及上面中的一个来捕捉所述第二图像的步骤。

18.如权利要求15所述的方法，其特征在于，进一步包括所述头戴式显示设备的佩带者使用虚拟物体工具来构造所述虚拟物体的步骤，显示在所述二维显示设备上的来自所述相机套件的所述第二图像包括示出在所述虚拟物体正被构造时的所述虚拟物体工具和所述虚拟物体的视频馈送。