CN108139876B

CN108139876B - 用于沉浸式和交互式多媒体生成的系统和方法

Info

Publication number: CN108139876B
Application number: CN201680013652.6A
Authority: CN
Inventors: 何安莉; 费越
Original assignee: Hangzhou Linggan Technology Co ltd
Current assignee: Play Out Dreams Shanghai Technology Co ltd
Priority date: 2015-03-04
Filing date: 2016-03-03
Publication date: 2022-02-25
Anticipated expiration: 2036-03-03
Also published as: CN108139876A; WO2016141208A1

Abstract

公开了一种方法。可以由沉浸式和交互式多媒体生成系统实现该方法。该方法可以包括由该系统的第一组件将多个图案投影到该系统的第二组件所在的物理环境中；由该系统的第二组件获取至少一部分物理环境的第一图像和第二图像，该第一图像和第二图像分别包括对应于该多个投影图案其中的至少一些第一和第二像素数据；以及，由该系统的该第二组件基于该第一和第二像素数据之间的关系确定在物理环境中的该第二组件的至少一个方向或位置的变化。

Description

用于沉浸式和交互式多媒体生成的系统和方法

相关申请的交叉引用

本申请主张2015年3月4日提交的申请号为62/127,947的美国临时专利申请，2015年3月10日提交的申请号为62/130,859的美国临时专利申请和2015年10月23日提交的申请号为PCT/US2015/000116的国际专利申请的优先权。以上提到的所有专利申请的内容以引用其全文的方式并入本文中。

技术领域

本发明涉及人机交互技术领域，尤其是涉及沉浸式和交互式多媒体生成。

背景技术

沉浸式多媒体通常包括提供与环境相关的多媒体数据(以音频和视频的形式)，使接收到多媒体数据的人具有身临其境的感受。沉浸式多媒体的生成通常是交互式的，因此提供给人的多媒体数据可以基于例如人的物理位置，人进行的动作等等动态更新。交互式和沉浸式多媒体可以通过例如使体验更加栩栩如生来改善用户体验。

交互式和沉浸式多媒体的主要类型有两种。第一种类型是虚拟现实(VR)，其中多媒体数据复制模拟在真实世界或想象世界中的地方的物理存在的环境。环境的呈现也反映用户进行的动作，从而使用户与环境交互。用户的动作(例如，身体的移动)通常可以被运动传感器检测到。虚拟现实人为地创造包括视觉、听觉和触觉的感官体验。

交互式和沉浸式多媒体的第二种类型是增强现实(AR)，其中多媒体数据包括人所位于的物理环境中的实时图形图像，以及附加数字信息。附加数字信息通常被置于实时图形图像的顶部，但是不改变或增强物理环境的实时图形图像的呈现。附加数字信息还可以是虚拟物体的图像，然而虚拟物体的图像通常只被置于实时图形图像的顶部，而不是被融入到物理环境中以创造逼真的呈现。物理环境的呈现也可以反映用户进行的动作和/或人的位置，从而支持交互。用户的动作(例如，身体的移动)通常可以被运动传感器检测到，而人的位置可以通过检测和跟踪来自图形图像的物理环境的特征而被确定。当人正处于物理环境中时，增强现实可以复制人的某些感官体验，同时为人提供附加数字信息。

目前，没有能够提供组合虚拟现实和增强现实的系统，以创造虚拟物体的图像和物理环境的图像的逼真混合。而且，虽然现有的增强现实系统可以复制用户的感官体验，但是这样的系统通常不能增强用户的感知能力。此外，在虚拟和增强现实呈现中，没有反映用户进行的动作和/或人的位置的物理环境的呈现，以支持交互。

此外，现有的基于虚拟现实设备的移动式头戴显示器笨重且不方便携带。由于带有传感器和电子设备，HDM设备需要充足的供电。而且，不同的人具有不同的视力和不同的瞳孔间距。为了给用户提供最好的观看质量和舒适性，HDM设备需要可调整的结构，用于针对视力和IPD的用户定制。

发明内容

本发明的实施例的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中显而易见，或通过本发明的实施例的实践了解到。

根据一些实施例，可以通过沉浸式和交互式多媒体生成系统实现方法。该方法可包括：由该系统的第一组件将多个图案投影到该系统的第二组件所在的物理环境中；由该系统的第二组件获取至少一部分物理环境的第一图像和第二图像，该第一图像和第二图像分别包括对应于该多个投影图案其中的至少一些第一和第二像素数据；以及，由该系统的第二组件基于第一和第二像素数据之间的关系确定在物理环境中的第二组件的至少一个方向或位置的变化。

根据一些实施例，该物理环境可以是室内环境。

根据一些实施例，该第一组件和第二组件可以同时连接到该系统的用户。

根据一些实施例，该第一组件可以被设置在固定位置，并且该第二组件可以被连接到在物理环境中移动的用户。

根据一些实施例，该图案可以是红外图案，并且该第二组件可能对该图案没有预先了解。

根据一些实施例，该方法进一步可以包括从第一和第二图像检测手势，确定与该手势相关联的用户指令，并且基于所确定的用户指令确定物理环境的呈现。

根据一些实施例，该图案可以包括转角。

根据一些实施例，该图案可以是“L”形。

根据一些实施例，该方法可以进一步包括实时监控与物理环境中的物体相对应的系统用户的位置，基于所监控的位置确定用户是否将与物理环境中的一个物体碰撞，并为用户提供指令以显示覆盖于该物理环境呈现上的警告。

根据一些实施例，该方法可以进一步包括实时监控该物理环境中的物体，生成该物理环境的3D模型，该3D模型包括真实世界物体的位置，并提供指令以显示在该物理环境的呈现中的该真实世界物体的位置上的虚拟物体。

根据一些实施例，沉浸式和交互式多媒体生成系统可以包括：第一装置，被配置于将多个图案投影到该系统的第二组件所在的物理环境中；和第二装置，被配置于获取至少一部分物理环境的第一图像和第二图像，该第一图像和第二图像分别包括对应于该多个投影图案的至少一些的第一和第二像素数据，并基于第一和第二像素数据之间的关系确定在该物理环境中的第二组件的至少一个方向或位置的变化。

根据一些实施例，该物理环境可以是室内环境。

根据一些实施例，该第一装置和第二装置可以均连接到该系统的用户。

根据一些实施例，该第一装置可以被设置在固定位置，并且该第二装置可以连接到在物理环境中移动的用户。

根据一些实施例，该图案可以是红外图案，并且该第二装置可能对该图案没有预先了解。

根据一些实施例，该第二装置进一步可以被配置于从第一和第二图像检测手势，确定与该手势相关联的用户指令，并且基于所确定的用户指令确定物理环境的呈现。

根据一些实施例，该图案可以包括转角。

根据一些实施例，该图案可以是“L”形。

根据一些实施例，该第二装置可以进一步被配置于实时监控与物理环境中的物体相对应的系统用户的位置，基于所监控的位置确定用户是否将与物理环境中的一个物体碰撞，并为用户提供指令以显示覆盖于该物理环境呈现上的警告。

根据一些实施例，该第二装置可以进一步被配置于实时监控该物理环境中的物体，生成该物理环境的3D模型，该3D模型包括真实世界物体的位置，并提供指令以显示在该物理环境的呈现中的该真实世界物体的位置上的虚拟物体。

根据一些实施例，可折叠装置可以包括：至少一个摄像机，被配置于获取物理环境的图像；方向和位置确定模块，被配置于基于所获得的图像来确定该装置相对于物理环境的方向和/或位置的变化；外壳，被配置于容纳至少一个摄像机和方向和位置确定模块；和连接到该外壳的第一带子，被配置于将外壳连接到该装置的用户头部。

根据一些实施例，该至少一个摄像机可以被进一步配置于实时监控与物理环境中的物体相对应的用户的位置，该方向和位置确定模块可以进一步被配置于基于所监控的位置确定用户是否将与物理环境中的一个物体碰撞，并提供指令以显示覆盖于该物理环境呈现上的警告。

根据一些实施例，该至少一个摄像机可以被进一步配置于实时监控该物理环境中的真实世界物体，该方向和位置确定模块可以进一步被配置于生成该物理环境的3D模型，该3D模型包括真实世界物体的位置，并提供指令以显示在该物理环境的呈现中的位置上的虚拟物体。

根据一些实施例，该外壳可以包括可拆卸的背板，用于当该装置折叠时将该第一带子包含在该外壳内。

根据一些实施例，该装置进一步可以包括连接在该外壳上的第二带子，其被配置于当该装置展开时将外壳连接到装置的用户头部，并将该背板连接到该外壳上以折叠该装置。

根据一些实施例，该背板或第一带子中的至少一个可以包括电池和用于为电池充电的充电触点或无线充电接收电路中的至少一个。

根据一些实施例，该装置进一步可以包括用于将移动电话固定在该外壳内的移动电话固定装置。

根据一些实施例，该外壳可以包括连接在该外壳上的可折叠面部支撑和与该可折叠面部支撑相连的可折叠面垫，其中该可折叠面垫被配置于使该外壳靠着该用户的面部。

根据一些实施例，该可折叠面部支撑可以包括弹簧支撑。

根据一些实施例，该可折叠面部支撑可以是可弯曲的材料。

根据一些实施例，当该装置展开时，可通过微型气泵膨胀该可折叠面部支撑，并且当该装置被折叠时，该可折叠面部支撑可以被微型空气泵放气。

根据一些实施例，该装置进一步可以包括由该外壳保持的陀螺仪、加速度计或磁强计中的至少一个。

根据一些实施例，该装置进一步可以包括由该外壳保持的手势确定模块，其被配置于从所获取的图像检测手势。

根据一些实施例，该外壳可以包括前板，该前板包括开口。

根据一些实施例，该装置进一步可包括由该外壳保持的至少两个摄像机和红外发射器，该至少两个摄像机和红外发射器通过开口监控物理环境。

根据一些实施例，该装置进一步可包括对应于该两个摄像机的至少两个透镜。

根据一些实施例，该装置进一步可以包括块，其被配置于调节该至少两个摄像机之间的距离，该开口之间的距离，或该至少两个透镜之间的距离中的至少一个，以与该用户的瞳孔间距相匹配。

根据一些实施例，该装置进一步可以包括显示物理环境的呈现的显示屏。

根据一些实施例，该装置进一步可以包括聚焦调整旋钮，其被配置于调节该至少两个透镜和显示屏之间的距离。

根据一些实施例，当该装置不使用时，该外壳进一步可以包括用于覆盖该开口的装饰板。

本发明的附加特征和优点将在下面的详细描述中部分阐述，部分将从描述中显而易见，或可以通过本发明的实践了解到。本发明的特征和优点将通过所附权利要求书中特别指出的要素和组合来实现和达到。

应当理解，上述一般性描述和以下详细说明仅具有示范性和解释性，且不对所要求保护的本发明构成限制。

附图说明

现在将参考附图说明本申请的示例实施例，其中：

图1是实现本发明的实施例的示例性计算设备的框图。

图2A-2B是根据本发明实施例的说明沉浸式多媒体生成的示例效果图的图示。

图2C是根据本发明实施例的以IR投影器或照明器进行室内跟踪的图示。

图2D-2E是根据本发明实施例的从IR投影器或照明器发射的图案。

图3是根据本发明实施例的用于沉浸式和交互式多媒体生成的示例系统的框图。

图4A-4E是根据本发明实施例的用于支持沉浸式和交互式多媒体生成的示例摄像机系统的示意图。

图5是根据本发明实施例的用于感知摄像机位置和姿态以支持沉浸式和交互式多媒体生成的示例方法的流程图。

图6是根据本发明实施例的用于基于手势更新多媒体呈现的示例方法的流程图。

图7A-B是根据本发明实施例的将3D虚拟物体融入到物理环境的实时图形图像中的示意图。

图8是根据本发明实施例的用于将3D虚拟物体融入到物理环境的实时图形图像中的示例方法的流程图。

图9A-9B是说明根据本发明实施例的示例头戴交互式和沉浸式多媒体生成系统的示意图。

图10A至10N是根据本发明实施例的示例头戴交互式和沉浸式多媒体生成系统的示例实施例的图示。

图11是根据本发明实施例的展开示例头戴交互式和沉浸式多媒体生成系统的步骤的图示。

图12A和12B是根据本发明实施例的示例头戴交互式和沉浸式多媒体生成系统的图示。

具体实施方式

现在将对实施例进行详细说明，其中的示例在附图中加以说明。在任何可能的情况下，相同的附图标记用于在所有附图中表示相同或相似的部件。

实施例的说明仅仅为示范性的，而非限制性的。

图1是实现本发明的实施例的示例性计算设备100的框图。如图1所示，计算设备100包括处理器121和主内存122。处理器121可以是任何逻辑电路，其响应和处理从主内存122获取的指令。处理器121可以是一个或多个通用微处理器，现场可编程门阵列(FPGAs)，或者数字信号处理器(DSPs)，其能够执行存储于存储器(例如主内存122)或特定应用集成电路(ASIC)中的指令，以便处理器121被配置于执行某项任务。

内存122包括有形的和/或非暂时性的计算机可读介质，例如软盘、硬盘、CD-ROM(光盘只读存储器)、MO(磁-光)驱动器，DVD-ROM(数字通用光盘只读存储器)，DVD-RAM(数字通用盘随机存取存储器)，闪存驱动器，闪存存储器，寄存器，高速缓存，或者半导体存储器。主内存122可以是能够存储数据并允许任何存储位置能够被处理器121直接存取的一个或多个存储器芯片。主内存122可以是任意类型的随机存取存储器(RAM)，或任何可以按照本文所述操作的可用存储器芯片。在图1所示的示例性实施例中，处理器121通过系统总线150与主内存122通信。

计算设备100还可以包括存储设备128，例如一个或多个硬盘驱动器，用于存储操作系统和其他相关软件，用于存储应用软件程序，以及存储应用软件程序所使用的应用数据。例如，应用程序数据可以包括多媒体数据，而该软件可包括用于呈现多媒体数据的呈现引擎。软件程序可以包括一个或多个指令，这些指令可以从存储器128获取到内存122，由处理器121处理。软件程序可以包括不同的软件模块，它可以包括，通过举例的方式，组件，如软件组件、面向对象的软件组件、组件类和任务组件，流程，函数，字段，程序，子程序，程序代码段，驱动，固件，微码，电路，数据，数据库，数据结构，表，数组和变量。

一般来说，本文所使用的“模块”一词是指嵌入在硬件或固件中的逻辑，或者是指用例如java、Lua、C或C++等编程语言编写的，可能具有入口和出口点的软件指令的集合。软件模块可以被编译并链接到安装在动态链接库中的可执行程序中，或者用解释性编程语言编写，例如Basic、Perl或Python。将认识到，软件模块可以从其他模块或自身调用，和/或可以响应检测到的事件或中断而被调用。软件模块被配置于在计算设备上执行，其可被提供在计算机可读介质上，如光盘、数字视频光盘，闪存驱动器，磁盘，或其他任何有形媒介，或作为数字下载(和可以被原始存储在压缩的或可安装的格式中，其在执行之前需要安装，解压，或解密)。这样的软件代码可以部分或全部地存储在执行计算设备的存储器设备上，以供计算设备执行。软件指令可以被嵌入到固件中，例如EPROM。还将进一步认识到，硬件模块(例如，在处理器121是ASIC的情况下)可以由连接的逻辑单元组成，例如门和触发器，和/或可以由可编程单元组成，例如可编程门阵列或处理器。本文中所描述的模块或计算装置功能优选地被实现为软件模块，但可以用硬件或固件来表示。一般来说，本文描述的模块指的是逻辑模块，其可以与其他模块组合，也可以被划分为子模块，不管它们的物理组织或存储。

本文所使用的术语“非暂态介质”是指存储使机器以特定方式运行的数据和/或指令的任何非暂态介质。这种非暂态介质可以包括非易失性介质和/或易失性介质。非易失性介质可以包括，例如存储128。易失性介质可以包括，例如内存122。非暂态介质的常见形式包括，例如软盘，磁盘，硬盘，固态硬盘，磁带或其他磁性数据存储介质，CD-ROM，任何其他的光学数据存储介质，任何带有孔形图案的物理介质，一个RAM，PROM，和EPROM，FLASH-ERPROM，NVRAM，任何其他存储器芯片或墨盒，联网版本与此相同。

计算设备100还可以包括一个或多个输入设备123和一个或多个输出设备124。输入设备123可以包括例如摄像机、麦克风、运动传感器等，而输出设备124可以包括例如显示单元和扬声器。输入设备123和输出设备124都通过I/O控制器125连接到系统总线150，使得处理器121能够与输入设备123和输出设备124通信。处理器121、输入设备123和输出设备124之间的通信可以由例如执行从内存122获取的指令的处理器121来执行。

在一些实施例中，处理器121也可以通过I/O控制器125与一个或多个智能设备130通信。智能设备130可以包括系统，该系统包括处理和生成多媒体数据的功能(例如，智能电话)。在一些实施例中，处理器121可以从输入设备123接收数据，获取数据到智能设备130进行处理，从智能设备130接收多媒体数据(以例如音频信号，视频信号等等形式)作为处理结果，然后提供多媒体数据的输出设备124。在一些实施例中，智能设备130可以充当多媒体内容的来源，并向处理器121提供与多媒体内容相关的数据。然后处理器121可以将从智能设备130接收的多媒体内容添加到输出数据，以提供给输出设备124。处理器121和智能设备130之间的通信可以通过例如执行从内存122获取的指令的处理器121来实现。

在一些实施例中，计算设备100可以被配置于生成交互式和沉浸式多媒体，包括虚拟现实、增强现实或两者的组合。例如，存储器128可以存储用于图形图像呈现的多媒体数据和用于产生虚拟现实体验的音频效果，并且处理器121可以被配置于通过输出设备124提供至少一部分多媒体数据以产生虚拟现实体验。处理器121也可以从输入设备123(例如，运动传感器)接收数据，使处理器121能够确定例如用户位置的改变，用户进行的动作(例如，身体移动)。处理器121可以被配置于基于确定，通过输出设备124呈现多媒体数据，为用户创造交互式体验。

此外，计算设备100也可以被配置于提供增强现实。例如，输入设备123可以包括一个或多个摄像机，其被配置于捕获用户所在的物理环境的图形图像，和一个或多个麦克风，其被配置于从物理环境中捕获音频信号。处理器121可以从摄像机接收代表了所捕获的图形图像和音频信息的数据。处理器121也可以处理代表提供给用户的附加内容的数据。附加内容可以是例如与从物理环境的图形图像中检测到的一个或多个物体相关的信息。处理器121可以被配置于通过输出设备124呈现包含所捕获的图形图像、音频信息以及附加内容的多媒体数据，以产生增强现实体验。表示附加内容的数据可以被存储在存储器128中，或者可以由外部源提供(例如，智能设备130)。

处理器121还可以被配置于通过例如获取关于用户动作的信息来为用户创造交互式体验，并且可以基于用户动作通过输出设备124生成多媒体数据的呈现。在一些实施例中，用户的动作可以包括用户的位置改变，其可以由处理器121基于例如来自运动传感器的数据和来自图形图像的特征跟踪(例如，显著特征，可见特征，周围环境中的物体，下面描述的IR图案，和手势)来确定。在一些实施例中，用户动作还可以包括手势，其可以由处理器121基于摄像机捕获的手势图像来确定。处理器121可以被配置于基于位置信息和/或手势信息，更新多媒体数据的呈现以创造交互式体验。在一些实施例中，处理器121也可以被配置于基于用户的手势更新多媒体数据的呈现以增强用户的感知能力，例如，放大物理环境中的特定位置，增加源于特定位置的音频信号的音量，等等。

现在参考图2a和2b，其根据本发明的实施例说明用于提供增强现实、混合现实，或者超现实的示例多媒体呈现200a和200b。增强现实，混合现实，或超现实可以包括以下类型：1)碰撞检测和预警，如以图形、文字、或音频形式覆盖于所呈现的虚拟信息上的预警信息，当用户作圆周移动时，虚拟内容被呈现给用户，用户可能与真实世界的物体相撞；2)在真实世界内容顶部覆盖虚拟内容；3)改变真实世界视图，例如，使真实世界视图更明亮或色彩更丰富，或改变绘画风格；和4)基于真实世界呈现虚拟世界，例如，在真实世界物体的位置上显示虚拟物体。

如图2a和2b所示，呈现200a和200b反映用户位于的物理环境的图形表示。在一些实施例中，呈现200a、200b可以被计算设备100的处理器121基于由一个或多个摄像机(例如，输入设备123)捕获的图形图像所构造。处理器121还可以被配置于从图形图像中检测手势，并更新呈现以包括与手势相关的附加内容。作为示例，如图2A和2B所示，呈现200a、200b可以包括分别表示参与手势创造的手指运动的虚线202a和202b。在一些实施例中，所检测的手势可以触发图形图像的附加处理，以增强用户的感知能力(例如，视觉)。作为一个例子，如图2A所示，呈现200a中呈现的物理环境包括物体204。物体204可以基于检测的第一手势被选择，手指运动间的交叠创建第一手势(例如，通过202a虚线表示)。可以基于虚线202a的3D坐标和表示物理环境的3D地图中的物体204的3D坐标之间的关系确定交叠。

当物体204被选择后，用户可以提供第二手势(由虚线202b表示)，其也可以被处理器121检测。处理器121可以基于在接近时间和临近空间发生的两个手势的检测，确定第二手势以指示处理器121在物理环境的呈现中提供物体204的扩大和放大图像。这会导致图像206中的表示物体204的扩大和放大的呈现200b与用户所位于的物理环境一起被呈现。通过向用户提供物体的放大图像，从而使用户能够在物理环境中的同一位置观察到比他(她)用肉眼能观察到的关于物体的更多细节，增强了用户的感知能力。以上是在真实世界内容(房间设置)的顶部覆盖虚拟内容(放大图)，改变(放大)真实世界视图，以及基于真实世界呈现虚拟世界(在真实世界物体204的位置上呈现放大图206)的示例性方法。

在一些实施例中，物体204也可以是插入在物理环境的呈现中的虚拟物体，图像206可以是任何图像(或只是覆盖于物理环境的呈现顶部的文字)，其响应于物体204的选择和由虚线202b表示的手势的检测而被提供。

在一些实施例中，处理器121可以构建环境模型，该环境模型包括物体，如图2B中的沙发，以及物体在模型中的位置，获取处理器121的用户在环境模型中的位置，基于用户移动(例如速度和方向)的历史预测用户的未来位置和方向，并将用户的位置(例如历史和预测的位置)映射到环境模型中。基于映射到模型中的用户移动的速度和方向，以及物体在模型中的位置，处理器121可以预测用户将与沙发相撞，并显示警告“小心沙发”！！！”，所显示的警告可以覆盖其他在呈现200b中呈现的虚拟和/或真实世界的图像。

图2C是根据本发明实施例的以IR投影器、照明器或发射器进行室内跟踪的图示。如图所示，沉浸式和交互式多媒体生成系统可以包括装置221和装置222。装置221可以由用户220穿戴，其可以包括本发明中描述的计算设备100、系统330、系统900、或系统1000a。装置222可以是IR投影器，照明器，或发射器，其投影IR图案230a到例如墙壁，地板，和房间里的人上。图2C中所示的图案230a在IR检测下可见，例如用IR摄像机，在没有这样的检测下对肉眼来说是不可见的。图案230a在图2D和2E中被进一步描述。

装置222可以被配置在装置223上，装置223可以是装置221和/或装置222的对接站。装置222可以由装置223无线充电，或与装置223有线连接。装置222也可以被固定在房间中的任何位置。装置223可以通过插头224插到墙上的插座里。

在一些实施例中，如图2C所示，当用户220穿戴着装置221进入房间，装置221的检测器，如RGB-IR摄像机或IR灰度摄像机，可以持续跟踪来自用户220的不同位置和视点的所投影的IR图。基于用户对本地固定IR图案的相对移动，基于跟踪IR图案可以确定用户(如设备221的移动所反映的)的移动(例如3d位置和3d方向)。下面对图5的方法500涉及的跟踪机制详细描述。

图2C的跟踪装置，其中标记(例如IR图案)被投影到物体上用于跟踪，与基于视觉特征的室内跟踪相比较时，可以具有一些优点。首先，要跟踪的物体可以包括或不包括适合跟踪的视觉特征。因此，通过投影带有预先设计用于跟踪这些物体的特征的标记，可以提高跟踪的精度和效率，或至少变得更可预测。例如，可以使用IR投影器，照明器，或发射器投影这些标记。这些IR标记，在没有IR检测的情况下人眼不可见，可以在不改变视觉感知的情况下标记物体。

此外，由于视觉特征通常是稀疏的或不均匀分布的，缺乏可用的视觉特征可能会导致跟踪困难和不准确。利用所描述的IR投影技术，定制的IR图案可以均匀分布，为跟踪提供了良好的目标。由于IR图案是固定的，用户的轻微移动可以导致检测信号的显著变化，例如，基于视点变化，因此可以以较低的计算成本实现对用户的室内位置和方向的有效和稳定的跟踪。

在上述方法中，如图5的方法500所详细描述的，由于IR图案的图像被检测器捕获以通过三角测量步骤获得用户的移动，因此在此方法中不需要生成深度图和/或深度测量。此外，如下参考图5所述，由于用户的移动是基于图像中的IR图案的位置(例如再投影位置)的变化而确定的，该确定不需要预先了解图案分布和图案位置。因此，甚至是随机模式也可以用来实现上述结果。

在一些实施例中，如下面所描述的，随着用户环境的3d模型生成，可以准确地捕获和模拟用户在房间内和用户周围的相对位置。

图2d-2e是根据本发明实施例的从装置222发出的示例图案230b和230c的图示。图案可以包括如图2d-2e中所示的重复单元。图案230b包括随机定向的“L”形单元，由于锐利转角和锋利边缘，以及随机方向，其可以被检测器，例如下面所描述的RGB-IR摄像机，或本发明的多种沉浸式和交互式多媒体生成系统的检测器更容易地识别和更准确地跟踪。优选地，图案可以包含非重复单元。图案还可以包括固定的圆点图案，条形码，和快速响应码。

回顾图1，在一些实施例中计算设备100还可以包括网络接口140，通过不同的链路连接LAN，WAN，MAN或因特网，该不同的链路包括但不限于标准的电话线，LAN或WAN链路(例如，802.11，T1，T3，56KB，X.25)，宽带链路(如ISDN、帧中继、ATM)，无线连接(Wi-Fi、蓝牙、Z-Wave、ZigBee)或任何或所有上述的一些组合。网络接口140可以包括内置的网络适配器、网络接口卡、PCMCIA网卡，卡总线网络适配器，无线网络适配器，USB网络适配器，调制解调器或其他任何适当的设备，用于将计算设备100连接到任何类型的可通信网络并执行本文所描述的操作。在一些实施例中，处理器121可以经由网络接口140将所生成的多媒体数据不仅发送到输出设备124，还发送到其他设备(例如，另一计算设备100或移动设备)。

图3是根据本发明实施例的用于沉浸式和交互式多媒体生成的示例系统300的框图。如图3所示，系统300包括传感系统310、处理系统320、和音频/视频系统330，以及电源系统340。在一些实施例中，系统300的至少一部分由图1的计算设备100来实现。

在一些实施例中，传感系统310被配置于提供数据用于沉浸式和交互式多媒体生成。传感系统310包括图像传感系统312、音频传感系统313，和运动传感系统314。

在一些实施例中，光学传感系统312可被配置于接收来自物理环境反射或发射的各种波长(包括可见光和不可见光)的光。在一些实施例中，光学传感系统312包括，例如一个或多个灰度红外线(灰度IR)摄像机，一个或多个红-绿-蓝(RGB)摄像机，一个或多个RGB-IR摄像机，一个或多个飞行时间(TOF)摄像机，或它们的组合。基于摄像机的输出，系统300可以获取物理环境的图像数据(例如，以RGB像素和红外像素的形式表示)。光学传感系统312可以包括一对完全相同的摄像机(例如，一对RGB摄像机，一对IR摄像机，一对RGB-IR摄像机，等等)，其中每个摄像机捕获左眼或右眼的视点。如下文所述，由每个摄像机捕获的图像数据可由系统300组合以创建物理环境的立体三维呈现。

在一些实施例中，光学传感系统312可以包括被配置于照亮物体的IR投影器、IR照明器或IR发射器。照明可以被用于支持距离成像，使得系统300还能够基于立体匹配算法确定摄像机与物理环境中物体的不同部分之间的距离。基于距离信息，可以创建物体的三维(3D)深度图，以及物理环境的三维地图。下文将讨论，物体的深度图可以被用来创建表示物体的3D点云；由RGB摄像机捕获的物体的RGB数据，可以被映射到3D点云来创建物体的3D呈现，以产生虚拟现实和增强现实效果。另一方面，物理环境的3D地图可以被用于位置和方向确定，以创建交互式体验。在一些实施例中，还可以包括用于距离成像的飞行时间摄像机，其允许摄像机与被测物体的各个部分之间的距离被确定，并且基于距离信息可以创建物理环境的深度图。

在一些实施例中，IR投影器或照明器还可以被配置于投影特定图案(例如，条形码，角隅纹样，等等)到物理环境的一个或多个表面上。如上文关于图2C-2E的描述，IR投影器或照明器可以被固定在某位置，例如室内位置，以向室内发射图案。如下文关于图4A-4F的描述，IR投影器或照明器可以是用户穿戴的摄像机系统的一部分，当用户移动时发射图案。在上述实施例或示例中，用户的移动(通过摄像机的移动反映)可以通过跟踪由摄像机捕获的各种显著特征点来确定，已知的图案投影(其由摄像机捕获并由系统跟踪)使跟踪变得有效和稳定。

现在参考图4A-4F，其为分别说明根据本发明实施例的示例摄像机系统400,420,440，460，480和494的示意图。图4A-4F的每一个摄像系统可以是图3的光学传感系统312的一部分。下面描述的IR照明器为可选的。

如图4A所示，摄像机系统400包括RGB摄像机402、IR摄像机404和IR照明器406，其都可被固定在板408上。IR照明器406和下文描述的类似部件可以包括IR激光投影器或发光二极管(LED)。如上文所述，RGB摄像机402被配置于捕获RGB图像数据，IR摄像机404被配置于捕获IR图像数据，而IR摄像机404和IR照明器406的组合可用于创建被成像物体的深度图。如前面所述，在物体的3D呈现期间，RGB图像数据可以被映射到从深度图创建的物体的三维点云表示。然而，在某些情况下，由于RGB摄像机和IR摄像机之间的位置差，RGB图像数据中的RGB像素不能全部被映射到三维点云。因此，误差和差异可以被引入物体的3D呈现。在一些实施例中，本发明中的IR照明器或投影器或类似组件可以是独立的，如下所述，例如从板408上分离或独立于图9A和9B的系统900或电路板950。例如，IR照明器或投影器或类似组件可以被集成到系统900的充电器或对接站中，从而可以无线供电、电池供电或插头供电。

图4B显示摄像机系统420，摄像机系统420包括RGB-IR摄像机422和IR照明器424，其都可被固定在板426上。RGB-IR摄像机422包括RGB-IR传感器，其包括混合在一起的RGB和IR像素传感器，以形成像素组。由于RGB和IR像素传感器位置大体相同，可以消除RGB和IR传感器之间的位置差的影响。然而，在某些情况下，由于RGB光谱的一部分和IR光谱的一部分重叠，相同位置上具有RGB和IR像素传感器，会导致RGB像素传感器的颜色和RGB像素传感器产生的彩色图像质量产生劣化。

图4C显示摄像机系统440，摄像机系统440包括IR摄像机442、RGB摄像机444、镜446(例如分束器)和IR照明器448，其都可被固定到板450上。在一些实施例中，镜446可包括IR反射涂层452。由于光(包括由IR照明器448照亮的物体反射的可见光和IR光)入射在镜446上，IR光可由镜446反射并由IR摄像机442捕获，而可见光可穿过镜446并被RGB摄像机444捕获。IR摄像机442、RGB摄像机444，和镜446可以被定位，因此由IR摄像机442捕获的(由IR反射涂层造成的反射引起的)IR图形和由RGB摄像机444(从通过镜446的可见光)捕获的RGB图像可以被对齐以消除IR摄像机442和RGB摄像机444间的位置差的影响。此外，由于IR光反射远离RGB摄像机444，因此可以改善RGB摄像机444产生的彩色产品和彩色图像的质量。

图4D显示摄像机系统460，摄像机系统460包括RGB摄像机462，TOF摄像机464，和IR照明灯466，其都可被固定到板468上。与摄像机系统400，420和440类似，RGB摄像机462被配置于捕捉RGB图像数据。另一方面，TOF摄像机464和IR照明器406被同步以执行图像测距，该图像测距可用于创建被拍摄物体的深度图，由此可以创建物体的3D点云。与摄像机系统400相似，在某些情况下，由于RGB摄像机和TOF摄像机之间的位置差，RGB图像数据中的RGB像素不能全部被映射到基于TOF摄像机输出而创建的3D点云。因此，误差和差异可以被引入到物体的3D呈现中。

图4E显示摄像机系统480，摄像机系统480包括TOF摄像机482、RGB摄像机484，镜486(例如分束器)，和IR照明器488，其都可被固定到板490上。在一些实施例中，镜486可以包括IR反射涂层492。由于光(包括由IR照明器488照亮的物体反射的可见光和IR光)入射在镜486上，IR光可以由镜486反射并被TOF摄像机482捕获，而可见光可以穿过镜486并被RGB摄像机484捕获。TOF摄像机482，RGB摄像机484，和镜486可以被定位，因此由TOF摄像机482捕获的(由IR反射涂层造成的反射引起的)IR图像和由RGB摄像机484(从通过镜446的可见光)捕获的RGB图像可以被对齐以消除TOF摄像机482和RGB摄像机484之间的位置差影响。此外，由于IR光反射远离RGB摄像机484，因此可以改善RGB摄像机484产生的彩色产品和彩色图像的质量。

图4F显示摄像机系统494，摄像机系统494包括两个RGB-IR摄像机495和496，每一个被配置于模拟人眼的视点。RGB-IR摄像机495和496的组合可被用于生成立体图像和生成物理环境中物体的深度信息，如下所述。由于每个摄像机都有位于同一位置的RGB和IR像素，因此可以减少RGB摄像机和IR摄像机之间的位置差的影响，该影响导致像素映射中的劣化。摄像机系统494还包括IR照明器497，其具有与上文中描述的其他IR照明器相似的功能。如图4F所示，RGB-IR摄像机495和496，以及IR照明器497被固定到板498。

参照一些实施例中的摄像机系统494，相对于仅有RGB功能的摄像机或者仅有IR功能的摄像机，RGB-IR摄像机的使用具有以下优点：RGB-IR摄像机可以捕获RGB图像以添加颜色信息到深度图像，从而呈现3D图像帧，还可以捕获IR图像用于目标识别与跟踪，包括3D手势跟踪。另一方面，传统的仅有RGB功能的摄像机只能拍摄2D彩色照片，仅有IR功能的摄像机只能捕捉灰度深度图。此外，随着IR照明器向场景发射纹理图案，由RGB-IR摄像机捕获的信号可以更准确，并可以产生更宝贵的深度图像。此外，所捕获的IR图像还可以被用于基于灰度图像的立体匹配算法生成深度图像。立体匹配算法可以使用来自RGB-IR摄像机生成的深度图的原始图像数据。原始图像数据可以同时包括可见RGB范围内的信息和由激光投影器添加纹理的IR范围。

通过将摄像机传感器的RGB和IR信息与IR照明相结合，匹配算法可以解析物体的细节和边缘，并可以克服潜在的低纹理信息问题。低纹理信息问题可能会发生，因为尽管可见光就可以使场景中的物体以更好的细节和边缘信息呈现，但它可能对低纹理信息的区域不起作用。虽然IR投影光可以增加物体的纹理以改善低纹理信息问题，但在室内条件下，可能没有足够的环境IR光来照亮物体以呈现足够的细节和边缘信息。

回顾图3，传感系统310还包括音频传感系统313和运动传感系统314。音频传感系统313可以被配置于接收源于物理环境的音频信号。在一些实施例中，音频传感系统313包括，例如，一个或多个麦克风阵列。运动传感系统314可以被配置于检测用户的(和系统的，如果用户携带系统)的动作和/或姿势。在一些实施例中，运动传感系统314可以包括，例如，惯性运动传感器(IMU)。在一些实施例中，传感系统310可以是图1的输入设备123的一部分。

在一些实施例中，处理系统320被配置于处理来自光学传感系统312的图形图像数据，来自音频传感系统313的音频数据，和来自运动传感系统314的运动数据，并生成呈现物理环境的多媒体数据，以创造虚拟现实和/或增强现实的体验。处理系统320包括方向和位置确定模块322、手势确定系统模块323以及图形和音频呈现引擎模块324。如前所述，这些模块中的每一个都可以是由处理器(例如，图1的处理器121)执行的软件模块，或者被配置于执行特定功能的硬件模块(例如，ASIC)。

在一些实施例中，方向和位置确定模块322可以基于传感系统310的至少一些输出确定用户的方向和位置，在此基础上，多媒体数据可以被呈现以产生虚拟现实和/或增强现实的效果。在用户穿戴系统300的情况下(例如，护目镜)，方向和位置确定模块322可以确定部分系统的方向和位置(例如，摄像机)，其可以被用来推断用户的方向和位置。确定的方向和位置可以与在运动发生之前用户的方向和位置相关。

现在参考图5，它是说明根据本发明实施例的确定一对摄像机的方向和位置的示例方法500的流程图(例如，传感系统310)。可以理解，所示出的方法可以被改变以删除步骤，或进一步包括附加步骤。虽然方法500被描述为由处理器执行(例如，方位和位置确定模块322)，但可以理解，方法500可以被其他设备单独执行，或与处理器组合执行。

在步骤502中，处理器可从第一摄像机获得第一左图像，和从第二摄像机获得第一右图像。左摄像机可以是例如图4F的RGB-IR摄像机495，而右摄像机可以是例如图4F的RGB-IR摄像机496。第一左图像可以表示来自用户左眼的物理环境的视点，而第一右图像可以表示来自用户右眼的物理环境的视点。两个图像都可以是IR图像、RGB图像，或两者的组合(例如，RGB-IR)。

在步骤504中，处理器可以从第一左图像和右图像识别第一显著特征点集。在某些情况下，显著特征可以是物理环境中预先存在的物理特征(例如，墙上的特定标记、衣服的特征等等)，基于与这些特征相关联的RGB像素和/或IR像素来标识显著特征。在某些情况下，显著特征可以被IR照明器识别(例如，图4F的IR照明器497)，IR照明器投影特定IR图案(例如，点)到物理环境的一个或多个表面上。一个或多个表面可以将IR反射回摄像机，并被识别为显著特征。如前所述，这些IR图案可以被设计成有效的检测和跟踪，例如均匀分布和包括尖锐的边缘和转角。在某些情况下，可以通过在物理环境中的特定位置固定一个或多个IR投影器来识别显著特征，并在环境中投影IR图案。

在步骤506中，基于用于三角测量的立体约束，处理器可以从识别的第一突出特征(例如可见特征、周围环境中的物体、上述IR图案和手势)中找到相关对。立体约束可以包括，例如，基于立体特性、视差容限等，在用于第一显著特征的相关对的每一个图像内限制搜索范围。

可以基于候选特征的IR像素，候选特征的RGB像素，和/或二者的组合

来识别相关对。在识别了第一显著特征的相关对之后，可以确定它们在左、右图像中的位置差。基于位置差和第一摄像机和第二摄像机之间的距离，可以通过线形三角测量确定第一显著特征(在物理环境中出现)与第一和第二摄像机之间的距离。

在步骤508中，基于通过线形三角测量确定的第一显著特征与第一和第二摄像机之间的距离，以及第一显著特征在左图像和右图像中的位置，处理器可以确定第一个显著特征的一个或多个3D坐标。

在步骤510中，处理器可以在表示物理环境的3d图中添加或更新步骤508中确定的第一显著特征的3D坐标，并存储关于第一显著特征的信息。可以基于例如同步定位和构图算法(SLAM)来执行更新。存储的信息可以包括例如与第一显著特征相关的IR像素和RGB像素信息。

在步骤512中，在摄像机的移动之后(例如，由携带摄像机的用户的移动引起)，处理器可以获得第二左图像和第二右图像，并且从第二左图像和右图像识别第二显著特征。识别过程可以与步骤504类似。所识别的第二显著特征与与第二左图像相关联的第一2D空间内的2D坐标和与第二右图像相关的第二2D空间内的2D坐标相关联。在一些实施例中，可以从位于不同视角的相同物体捕获第一和第二显著特征。

在步骤514中，处理器可以在第一和第二2D空间中再投影第一显著特征的3D坐标(在步骤508中确定的)。

在步骤516中，处理器可基于例如位置接近、特征接近和立体约束来识别与第一显著特征相对应的第二显著特征中的一个或多个。

在步骤518中，处理器可以确定在每一个第一和第二2D空间中的第一显著特征的再投影位置和第二显著特征的2D坐标之间的距离。然后可以基于距离确定在移动之前和之后的第一和第二摄像机的相关3D坐标方向，以便于例如由此所确定的3D坐标和方向集同时最小化第一和第二2D空间中的距离。

在一些实施例中，方法500进一步包括(未在图5中示出)处理器可执行对3d图中显著特征的坐标的束调整的步骤，以最小化左右图像之间的显著特征的位置差。该调整可以与方法500的任何步骤同时进行，并且可以只对关键帧进行。

在一些实施例中，方法500进一步包括(未在图5中示出)处理器可以基于深度图和SLAM算法生成用户环境的3D模型的步骤。参考图4F的上述描述，深度图可以通过立体匹配和IR投影组合的而被生成。3D模型可以包括真实世界物体的位置。通过获得3D模型，虚拟物体可以呈现在与真实世界物体相关联的宝贵的和理想的位置上。例如，如果从用户的环境确定鱼缸的3D模型，虚拟鱼可以在鱼缸的呈现图像中以合理的位置呈现。

在一些实施例中，处理器也可以使用来自我们的输入设备的数据来便于方法500的执行。例如，处理器可以从一个或多个运动传感器(例如，运动传感系统314)获得数据，由此处理器可以确定摄像机的运动发生了。基于该确定，处理器可以执行步骤512。在一些实施例中，处理器也可以使用来自运动传感器的数据以便于步骤518中摄像机位置和方向的计算。

回顾图3，处理系统320还包括手势检测模块323。在一些实施例中，如果系统300不生成深度图，则手势确定模块323可以从来自光学传感系统312的图形图像数据中检测手势。手势信息的技术与2013年9月23日提交的申请号为14/034,286的美国申请，以及2014年8月18日提交的申请号为14/462,324的美国申请中描述的相应技术有关。上面提到的申请通过引用的方式并入本文中。如果系统300生成深度图，可基于生成的深度图实现手势跟踪。由此确定的手势信息可用于更新物理环境的呈现(图形和音频均有)，以提供额外的内容和/或增强用户的感知能力，如图2A-B之前讨论的那样。.例如，在一些实施例中，手势确定模块323可以确定与手势有关的解释(例如，选择缩放物体)，然后提供解释和其他相关信息至下游的逻辑(例如，图形和音频呈现模块324)以更新呈现。

现在参考图6，其为说明根据本发明实施例的基于检测的手势来更新多媒体呈现的示例方法600的流程图。可以理解，所示出的方法可以被改变以删除步骤，或进一步包括附加步骤。虽然方法600被描述为由处理器(例如，手势确定模块323)执行，但可以理解，方法600可以由其他设备单独执行或与处理器组合执行。

在步骤602中，处理器可以从一个或多个摄像机(例如，光学传感系统312)接收图像数据。在摄像机是灰度IR摄像机的情况下，处理器可以获得IR摄像机图像。在摄像机是RGB-IR摄像机的情况下，处理器可以获得IR像素数据。

在步骤604中，处理器可以基于上面讨论的技术从图像数据中确定手势。该确定还包括确定手势类型(其可以表示特定的命令)和手指轨迹的3D坐标(在创建手势中)。

在步骤606中，处理器可以确定与所检测的手势相关的物体，该物体被呈现为沉浸式多媒体数据的一部分。例如，在手势信号表示选择的情况下，由手势选择的呈现物体被确定。该确定可以基于手势轨迹的3D坐标和3D地图中物体的三维坐标之间的关系，表明手势的某一部分与用户视角中的至少一部分物体重叠。

在步骤608中，基于步骤604中确定的手势和步骤606中确定的物体的信息，处理器可以改变多媒体数据的呈现。作为一个示例性的例子，基于确定步骤604中检测的与选择物体(无论是位于物理环境中的真实物体，还是插入到呈现中的虚拟物体)的命令相关的手势用于缩放动作，处理器可以将物体的放大图像提供给下游逻辑(例如，图形和音频呈现模块324)以进行呈现。作为另一个示例性的例子，如果手势与显示物体附加信息的命令相关联，则处理器可以向图形和音频呈现模块324提供附加信息以进行呈现。

回顾图3，基于关于摄像机的方向和位置的信息(例如，由方向和位置确定模块322所提供)和关于检测到的手势的信息(例如，由手势确定模块323所提供)，图形和音频呈现模块324可以呈现沉浸式多媒体数据(图形和音频)来创建交互式虚拟现实和/或增强现实体验。各种方法可被用于呈现。在一些实施例中，图形和音频呈现模块324可以创建与为左眼捕获图像的第一摄像机相关的第一3D网格(可以是平面或曲面)，和与为右眼捕获图像的第二摄像机相关的第二3D网格(也可以是平面或曲面)。3D网格可以被放置于与摄像机间隔特定假象距离，可以确定3D网格的大小，使它们在假象距离上符合摄像机视锥体的大小。然后，图形和音频呈现模块324可以将左图像(由第一摄像机获得)映射到第一3D网格，并将右图像(由第二摄像机获得)映射到第二3D网格。图形和音频呈现模块324可以被配置于在为左眼呈现场景时仅显示第一3D网格(和映射到它的内容)，并且在为右眼呈现场景时仅显示第二3D网格(和映射到它的内容)。

在一些实施例中，图形和音频呈现模块324还可以使用3D点云进行呈现。如前所述，在确定位置和方向期间，可以基于IR像素数据确定物理环境中显著特征(和相关物体)的深度图。可以基于深度图生成物理环境的3D点云。图形和音频呈现模块324可以将物理环境的RGB像素数据(通过例如RGB摄像机，或RGB-IR传感器的RGB像素获得)映射到3D点云，以创建环境的3D呈现。

在一些实施例中，在3D虚拟物体的图像与物理环境的实时图形图像混合的情况下，图形和音频渲染模块324可以被配置于基于虚拟3D物体和物理环境的深度信息，以及摄像机的位置和方向确定呈现。现在参考图7A和7B，其显示了根据本发明实施例的将虚拟物体的3D图像混合到物理环境的实时图形图像中。如图7A所示，环境700包括物理物体702和物理物体706。图形和音频呈现模块324被配置于在呈现环境700时在物理物体702和物理物体706之间插入虚拟物体704。摄像机708沿路线710从位置A到位置B捕获环境700的图形图像。在位置A，物理物体706相对于所呈现环境中的虚拟物体704更接近摄像机708，模糊了部分虚拟物体704，而在位置B，虚拟物体704相对于所呈现环境中的物理物体706更接近摄像机708。

图形和音频呈现模块324可被配置于基于虚拟物体704和物理物体706的深度信息、以及摄像机的位置和方向来确定虚拟物体704和物理物体706的呈现。现在参考图8，其示出了根据本发明实施例的用于将虚拟物体图像与物理环境的图形图像进行混合的示例方法800的流程图。虽然方法800被描述为由处理器执行(例如，图形和音频呈现模块324)，但可以理解，方法800可以由其他设备单独或与处理器组合执行。

在步骤802中，处理器可以接收与虚拟物体(例如，图7A中的虚拟物体704)的第一图像的像素相关的深度信息。可以基于摄像机708的位置和方向生成深度信息，摄像机708的位置和方向由例如图3的方向和位置确定模块322确定。举例来说，基于3D地图中的虚拟物体的预定位置和摄像机在3D地图中的位置，处理器可以确定摄像机和虚拟物体之间的距离。

在步骤804中，处理器可以确定与物理物体(例如，图7A的物理物体706)的第二图像的像素相关的深度信息。可以基于摄像机708的位置和方向生成深度信息，摄像机708的位置和方向由例如图3的方向和位置确定模块322确定。举例来说，基于3D地图中的物理物体的预定位置和摄像机在3D地图中的位置，可以确定摄像机和物理物体之间的距离。

在步骤806中，处理器可以比较两个像素的深度信息，然后在步骤808中基于比较结果确定其中一个像素的呈现。例如，如果处理器确定物理物体的像素比虚拟物体的像素更靠近摄像机(例如，在图7B的位置A)，处理器可以确定物理物体的像素使虚拟物体的像素变得模糊，并确定要呈现物理物体的像素。

回顾图3，在一些实施例中，图形和音频呈现模块324还可以提供用于呈现的音频数据。音频数据可以从例如音频传感系统313(如麦克风阵列)处收集。在一些实施例中，为了提供增强的感知能力，可以基于用户指令(例如，通过手势检测)来放大某些音频数据。例如，使用麦克风阵列，图形和音频呈现模块324可以确定音频数据源的位置，并且可以基于用户指令确定增加或减少与该特定源相关联的音频数据的音量。在虚拟音频数据源混合来自物理环境的音频信号的情况下，图像和音频呈现模块324也可以以和方法800类似的方式确定麦克风和虚拟源之间的距离，以及麦克风和物理对象之间的距离。基于所述距离，图形和音频呈现模块324可以确定来自虚拟源的音频数据是否被物理物体阻塞，并相应地调整音频数据的呈现。

在确定了将被呈现的图形和音频数据之后，图形和音频呈现模块324可以提供图形和音频数据至音频/视频系统330，其包括被配置于显示所呈现的图形数据的显示系统332(例如显示屏)，和被配置于播放所呈现的音频数据音频输出系统334(例如扬声器)。图形和音频呈现模块324还可以将图形和音频数据存储在存储器(例如图1的存储器128)中，或者将数据提供给网络接口(例如图1的网络接口140)以传送到另一个设备以供呈现。所呈现的图形数据可以覆盖通过传感系统310捕获的实时图形。所呈现的图形数据也可以被修改或增强，如增加亮度或色彩，或改变绘画风格。所呈现的图形数据也可以与由传感系统310捕获的实时图形中的物体的真实世界位置相关联。

在一些实施例中，传感系统310(例如光学传感系统312)还可以被配置于相对于用户周围环境中的物体实时监控系统300的用户位置(如下所述的用户穿戴系统900)或用户的身体部位，并发送相应数据到处理系统320(例如方向和位置确定模块322)。处理系统320可以被配置于确定用户或身体部位与物体之间是否可能发生碰撞或接触，例如通过基于监测到的运动和位置预测未来运动或位置(例如，在之后的20秒内)，并确定碰撞是否可能发生。如果处理系统320确定有可能发生碰撞，则其可以被进一步配置于向音频/视频系统330提供指令。响应于指令，音频/视频系统330还可以被配置于显示音频或视觉格式的警告，以通知用户可能发生的碰撞。警告可以是覆盖于所呈现的图形数据上的文本或图形。

此外，系统300还包括电源系统340，电源系统340通常包括电池和电源管理系统(图3中未示出)。

系统300的一些组件(软件或硬件)可以被分布于不同的平台。例如，如图1中所讨论的，计算系统100(基于其可以实现系统300)可以被连接到智能设备130(例如，智能电话)。智能设备130可以被配置于执行处理系统320的一些功能。例如，130的智能设备可以被配置为执行图形和音频呈现模块324的功能。作为一个示例，智能设备130可以被配置于从方向和位置确定模块322接收关于摄像机方向和位置的信息，以及从手势确定模块323接收手势信息，然后执行图形和音频的呈现。作为另一个示例，智能设备130可以运行另一软件(例如app)，其可以生成附加内容以被添加到多媒体呈现中。然后，智能设备130可以向系统300(其通过图形和音频呈现模块324执行呈现)提供附加内容，或者仅添加附加内容到图形和音频数据的呈现。

图9A-B是说明根据本发明实施例的示例头戴交互式和沉浸式多媒体生成系统900的示意图。在一些实施例中，系统900包括计算装置100，系统300和图4的摄像机系统494的实施例。

如图9A所示，系统900包括具有双开口904的外壳902，和头带906。外壳902可以被配置于容纳一个或多个用于生成交互式和沉浸式多媒体数据的硬件系统。例如，外壳902可以容纳电路板950(如图9B所示)，其包括一对摄像机954a和954b、一个或多个麦克风956，处理系统960、运动传感器962，电源管理系统，一个或多个连接器968和IR投影器或照明器970。摄像机954a和954b可以包括立体彩色图像传感器，立体单声道图像传感器、立体RGB-IR图像传感器、超声传感器、和/或TOF图像传感器。摄像机954a和954b被配置于生成物理环境的图形数据。麦克风956被配置于从环境中收集音频数据，以作为沉浸式多媒体数据的一部分来呈现。处理系统960可以是通用处理器、CPU、GPU、FPGA、ASIC、计算机视觉ASIC等等，它们被配置为执行图3的处理系统300的至少一些功能。运动传感器962可以包括陀螺仪、加速计、磁强计和/或信号处理单元。连接器968被配置于连接系统900和移动设备(如智能电话)，移动设备起到图1的智能设备130的作用，以提供附加功能(例如，呈现音频和图形数据，提供用于呈现的附加内容等等)，因此处理系统960可以与移动设备进行通信。在这种情况下，外壳902还提供了内部空间以容纳移动设备。外壳902还包括一对透镜(未在图中示出)和可选地显示装置(可由移动设备提供)，其被配置于显示由移动设备和/或通过处理系统960呈现的立体3D图像。外壳902还包括开口904，摄像机954可以通过开口904捕获系统900所在的物理环境的图像。

如图9A所示，900系统还包括一套头带906。头带可以被配置于成允许人将系统900戴在头上，她的眼睛暴露在显示设备和镜头上。在一些实施例中，电池可以位于头带内，头带也可以在电池和安装在外壳902中的系统之间提供电连接。

图10A至10N是根据本发明实施例的头戴交互式和沉浸式多媒体生成系统的示例实施例的图示。系统1000a-1000n可能引用同一模范头山互动身临其境的多媒体系统不同的实施例中，可折叠，可紧凑，在不同的国家和不同的视角。系统1000a-1000n涉及同一示例头戴交互式和沉浸式多媒体生成系统的不同实施例，其可折叠，并且在不同的情况和不同的视角下可以被收紧。系统1000a-1000n可以与上述的系统900类似，可以包括上述的电路板950。示例头戴交互式和沉浸式多媒体生成系统可以为电源(例如电池)、上述的感测和计算电子设备，以及用户的移动设备(例如可移动的或内置的移动设备)提供外壳。当不使用时，该示例系统可以被折叠成紧密的形状，并且在使用时打开以安装到用户的头部。该示例系统可以包括可调节的屏幕透镜组合，使得屏幕和镜头之间的距离可以被调整以匹配用户的视力。该示例系统还可以包括可调整的镜头组合，使得可以调节两个镜头之间的距离以匹配用户的IPD。

如图10A所示，系统1000a可以包括多个组件，其中一些可以是可选的：前壳1001，中间壳1002a，可折叠面垫1003a，可折叠面部支撑1023A，带锁1004a，调焦旋钮1005a，顶带1006a，侧带1007a，装饰板1008a，背板和垫1009a。图10A示出了展开/打开状态下的系统1000a。

前壳1001a和/或中间壳1002a可以看作一个壳体，被配置于容纳和保持上述的电子设备和传感器(例如系统300)，可折叠面垫1003a，可折叠面部支撑1023a，带锁1004a，调焦旋钮1005a、装饰板1008a、以及背板和垫1009a。前壳1001a也可以被从中间壳1002a拉开，或从中壳1002a相对于铰链或旋转轴打开。中间壳1002a还可以包括两个镜片和用于支撑镜片的壳。前壳1001a也可以被打开以插入上述的智能设备。前壳1001a可以包括移动电话夹具以保持智能设备。

可折叠面部支撑1023a可以包括三种结构：1)可折叠面部支撑1023a可以通过内置弹簧支撑而被推开，用户通过推它而关闭可折叠面部支撑1023a；2)可折叠面部支撑1023a可以包括具有打开可折叠面部支撑1023a的自然位置的可弯曲材料，用户通过推它而关闭可折叠面部支撑1023a；3)可折叠面部支撑1023a可以由微型泵充气而打开使系统1000a展开，被放气以关闭使系统1000a折叠。

可折叠面垫1003a可被连接到可折叠面部支撑1023a。可折叠面垫1003a可以随着折叠面部支持1023a改变形状，并被配置于使中间壳1002a靠在用户的脸上。可折叠面部支撑1023a可以被连接到中间壳1002a。带锁1004a可以与侧带1007a连接。调焦旋钮1005a可以连接到中间壳1002a上并被配置于调整上述画面和镜头之间的距离，以匹配用户的视力(例如调整位于前壳1001a内的所插入的智能设备位置，或从中间壳1002a移动前壳1001a)。

当装置展开时，顶带1006a和侧带1007a中的每一个可以被配置于将外壳连接到用户的头部。装饰板1008a可以是可拆卸的和可更换的。侧带1007a可以被配置于将系统1000a连接到用户的头。装饰板1008a可以被直接夹在或磁性连接到前壳1001a。背板和垫1009a可以包括为电子设备和传感器供电的内置电池。电池可以被有线连接到前壳1001a，为电子设备和智能设备供电。背板和垫1009a和/或顶带1006a还可以包括电池充电触点或无线充电接收电路，用于为电池充电。当系统1000a放置在用户头部时，这种电池及相关组件的配置可以平衡前壳1001a和中间壳1002a的重量。

如图10B所示，系统1000b示出了不包括装饰板1008a的系统1000a，并且系统1000b可以包括位于系统1000a前板上的开口1011b、开口1012b和开口1013b。开口1011b可以适合立体相机(例如摄像机954a和954b)，开放1012b可以适合光发射器(如IR投影器或照明器970、激光投影器和LED)，开口1013b可以适合麦克风(例如麦克风阵列956)。

如图10C所示，系统1000c从不同视角示出了系统1000a的一部分，系统1000c可以包括镜头1015c，可折叠面垫1003c和可折叠面部支撑1023c。

如图10D所示，系统1000d从不同视角示出了系统1000a(前视图)，系统1000d可以包括前壳1001d、聚焦调节旋钮1005d，和装饰板1008d。

如图10E所示，系统1000e从不同视角示出了系统1000a(侧视图)，系统1000e可以包括前壳体1001e、聚焦调节旋钮1005e，背板和垫1009e，和滑块1010e。滑块1010e可以被连接到上述中间壳1002a上，并被配置于调整立体摄像机之间的距离和/或上述对应的开口1011b之间的距离。例如，滑块1010e可以被连接到上述镜片1015c，调整滑块1010e可以反过来调整1015c透镜之间的距离。

如图10F所示，系统1000f从不同视角示出了系统1000a(前视图)，其包括智能设备。系统1000f可以包括电路板1030f(例如，上述的电路板950)，上述的智能设备1031f和前壳1001f。智能装置1031f可以被内置或由用户插入。电路板1030f和智能设备1031f可以被安装在前壳1001f的内部。电路板1030f可以通过有线或无线方式与智能设备1031f通信，以传送数据。

如图10G所示，系统1000g从不同视角示出了包括智能设备的系统1000a(侧视图)。系统1000g可以包括电路板1030g(例如，上述的电路板950)，上述的智能设备1031g和前壳1001g。智能设备1031g可以被内置或由用户插入。电路板1030g和智能设备1031g可以被安装在前壳1001g内部。

如图10H所示，系统1000h从不同视角示出了系统1000a(仰视图)，系统1000h可以包括背板和垫1009h，可折叠面垫1003h和滑块1010h。滑块1010h可以被配置于调整立体摄像机之间的距离和/或上述对应的开口1011b之间的距离。

如图10I所示，系统1000i从不同视角示出了系统1000a(俯视图)，系统1000i可以包括背板和垫1009i，可折叠面垫1003i和聚焦调节旋钮1005i。滑块1010h可以被配置于调整立体摄像机之间的距离和/或上述对应的开口1011b之间的距离。

如图10J所示，系统1000j从不同视角示出了包括智能设备的系统1000a(仰视图)。系统1000j可以包括电路板1030j(例如，上述的电路板950)和上述的智能设备1031j。智能设备1031j可以被内置或由用户插入。

如图10K所示，系统1000k从不同视角示出了包括智能设备的系统1000a(俯视图)。系统1000k可以包括电路板1030k(例如，上述的电路板950)和上述的智能设备1031k。智能设备1031k可以被内置或由用户插入。

如图10L所示，系统1000l从不同视角示出了处于关闭/折叠状态的系统1000a(前视图)。系统1000k可以包括带锁1004I和装饰板1008I。带锁1004I可以被配置于使系统1000I保持紧密形态。装饰板1008I可以覆盖开口，其在图10L中被绘制为透明开口。

如图10M所示，系统1000m从不同视角示出了处于关闭/折叠状态的系统1000a(后视图)。系统1000m可以包括带锁1004m，后盖1014m，侧带1007m，以及背板和垫1009m。背板和垫1009m可以包括内置电池。侧带1007m可被配置于通过关闭背板1009m到外壳以折叠系统1000m，使系统1000m保持紧密形态。

如图10N所示，系统1000n示出了处于关闭/折叠状态的系统1000a的一部分，系统1000n可以包括镜头1015n，处于折叠状态的可折叠面垫1003n，和处于折叠状态的可折叠面部支撑1023n。

图11是根据本发明实施例的，与涉及附图10A-10N的上述描述类似的，折叠示例头戴式交互式和沉浸式多媒体生成系统1100的步骤图示。

在步骤111，系统1100被折叠/关闭。

在步骤112，用户可以解开带锁(例如，上述的带锁10041)。

在步骤113，用户可以打开侧带(例如，上述的侧带1007m)。图11中示出了该步骤的两个视图。从步骤111至步骤113，顶带被装入外壳中。

在步骤114中，用户可以拆下后盖(例如，上述的后盖1014m)。

在步骤115中，用户可以把侧带以及背板和垫(例如，上述的背板和垫1009a)拉出。同时，可折叠面垫和可折叠面部支撑(例如，上述的可折叠面垫1003n，可折叠面部支撑1023n)从折叠/关闭状态弹出，变成展开/打开状态(例如，上述的可折叠面垫1003a，折叠面支持1023a)。图11中示出了该步骤的两个视图。

在步骤116，在将侧带以及背板和垫拉到末端位置时，用户固定带锁，获得展开/打开系统1100。

图12A和12B是根据本发明实施例的示例头戴交互式和沉浸式多媒体生成系统的图示。系统1200a和1200b从两个不同的视角示出同样的示例头戴交互式和沉浸式多媒体生成系统。系统1200a可以包括前壳1201a，铰链(图中未显示)和中间壳1203a。系统1200b可以包括前壳1201a、铰链1202、和中间壳1203b。铰链1202可以将前壳1201b连接到中间壳1203b，允许前壳1201b在连接到中间壳1203b时可以从中间壳1203b关闭或打开。这种结构简单、使用方便，并能为容纳在中间壳中的部件提供保护。

根据本发明的实施例，可以提供用户(和摄像机)3D位置和方向的精确跟踪。基于用户的位置和方向信息，可以提供交互式和沉浸式多媒体体验。这些信息还可以真实地混合虚拟物体的图像和物理环境的图像，从而产生增强现实和虚拟现实的综合体验。本发明的实施例还使得用户能够高效地更新部分物理环境的图形和音频呈现，以增强用户的感知能力。

在前述的说明书中，实施例已经根据许多特定的细节被描述，这些细节在实现的过程中可以根据实施方式的不同而不同。可以对所描述的实施例进行某些调整和修改。此外，本领域的技术人员可以对上述实施例进行适当增加、删除和设计组件的修改，可以适当组合实施例的特征；这样的修改也包含在本发明的范围内，以达到包括本发明的精神的程度。考虑本文公开的本发明的说明书和实践，对本领域的技术人员来说，其他实施例是显而易见的。应当理解，本说明书和示例仅被认为是示例性的，本发明的真正范围和精神将由下面的权利要求书表明。还应当理解，附图中所示的步骤顺序仅作为示范目的，不对任何特定的步骤顺序构成限制。因此，本领域技术人员可以理解，在实现相同方法时，可以以不同的顺序执行这些步骤。

Claims

1.一种可折叠装置，包括：

至少一个摄像机，被配置于获取物理环境的图像；

方向和位置确定模块，被配置于基于所述获得的图像来确定装置相对于物理环境的方向和/或位置的变化；

外壳，被配置于容纳所述至少一个摄像机和所述方向和位置确定模块；和连接到所述外壳的第一带子，被配置于将外壳连接到所述装置的用户的头部；

感知所述摄像机的位置和姿态的方法包括：

从第一摄像机获得第一左图像，和从第二摄像机获得第一右图像；

从第一左图像和第一右图像识别第一显著特征；

基于用于三角测量的立体约束，从识别的第一显著特征中寻找相关对；

基于第一显著特征与第一和第二摄像机之间的距离，以及第一显著特征在第一左图像和第一右图像中的位置，确定第一个显著特征的3D坐标；

在表示物理环境的3d图中添加或更新第一显著特征的3D坐标，并存储关于第一显著特征的信息；

在摄像机的移动之后，获得第二左图像和第二右图像；从第二左图像和第二右图像识别第二显著特征；

将所识别的第二显著特征与第二左图像相关联的第一2D空间内的2D坐标和与第二右图像相关的第二2D空间内的2D坐标相关联；

在第一和第二2D空间中再投影第一显著特征的3D坐标；

基于位置接近、特征接近和立体约束来识别与第一显著特征相对应的第二显著特征；

确定在每一个第一和第二2D空间中的第一显著特征的再投影位置和第二显著特征的2D坐标之间的距离和基于距离确定在移动之前和之后的第一和第二摄像机的相关3D坐标方向。

2.如权利要求1所述的装置，其中：

至少一个摄像机被进一步配置于实时监控与所述物理环境中的物体相对应的所述用户的位置；和

所述方向和位置确定模块被进一步配置于基于所述监控的位置确定用所述用户是否将与所述物理环境中的一个物体碰撞，并且提供指令以显示覆盖于所述物理环境呈现上的警告。

3.如权利要求1所述的装置，其中：

所述至少一个摄像机被进一步配置于实时监控所述物理环境中的真实世界物体；和

所述方向和位置确定模块进一步被配置于：

生成所述物理环境的3D模型，所述3D模型包括所述真实世界物体的位置；并且提供指令以显示在所述物理环境的呈现中的位置上的虚拟物体。

4.如权利要求1所述的装置，其中所述外壳包括可拆卸的背板，用于当所述装置折叠时将所述第一带子包含在所述外壳内。

5.如权利要求4所述的装置，进一步包括连接在所述外壳上的第二带子，被配置于：当所述装置展开时，将所述外壳连接到所述装置的用户的头部，并将所述背板连接到所述外壳上以折叠所述装置。

6.如权利要求4所述的装置，其中所述背板或所述第一带子中的至少一个包括：

电池；和

用于为电池充电的充电触点或无线充电接收电路中的至少一个。

7.如权利要求1所述的装置，其中所述外壳包括用于将移动电话固定在所述外壳内的移动电话固定装置。

8.如权利要求1所述的装置，其中所述外壳包括：

连接在所述外壳上的可折叠面部支撑；和

与所述可折叠面部支撑相连的可折叠面垫，其中所述可折叠面垫被配置于使该外壳靠着所述用户的面部。

9.如权利要求8所述的装置，其中所述可折叠面部支撑包括弹簧支撑。

10.如权利要求8所述的装置，其中所述可折叠面部支撑是可弯曲的材料。

11.如权利要求8所述的装置，其中：

所述装置展开时，通过微型气泵膨胀所述可折叠面部支撑；并且所述装置被折叠时，所述可折叠面部支撑被所述微型气泵放气。

12.如权利要求1所述的装置，进一步包括由所述外壳保持的陀螺仪、加速度计或磁强计中的至少一个。

13.如权利要求1所述的装置，进一步包括由所述外壳保持的手势确定模块，其被配置于从所述获取的图像检测手势。

14.如权利要求1所述的装置，所述外壳包括前板，所述前板包括开口。

15.如权利要求14所述的装置，进一步包括由所述外壳保持的至少两个摄像机和红外发射器，所述至少两个摄像机和所述红外发射器通过所述开口监控所述物理环境。

16.如权利要求15所述的装置，进一步包括对应于所述至少两个摄像机的至少两个透镜。

17.如权利要求16所述的装置，进一步包括滑块，其被配置于调节所述至少两个摄像机之间的距离，所述开口之间的距离，或所述至少两个透镜之间的距离中的至少一个，以与所述用户的瞳孔间距相匹配。

18.如权利要求15所述的装置，进一步包括显示物理环境的呈现的显示屏。

19.如权利要求18所述的装置，进一步包括聚焦调整旋钮，其被配置于调节所述至少两个透镜和所述显示屏之间的距离。

20.如权利要求1所述的装置，当所述装置不使用时，所述外壳还进一步包括用于覆盖开口的装饰板。