CN108307675B

CN108307675B - 用于vr/ar应用中的深度增强的多基线相机阵列系统架构

Info

Publication number: CN108307675B
Application number: CN201680028821.3A
Authority: CN
Inventors: K·文卡塔拉曼; D·勒勒斯卡; J·杜帕雷
Original assignee: Quick Chart Co ltd
Current assignee: Quick Map Co Ltd
Priority date: 2015-04-19
Filing date: 2016-04-19
Publication date: 2020-12-25
Anticipated expiration: 2036-04-19
Also published as: US11368662B2; US20230007223A1; KR20170139098A; EP3286914B1; US20160309134A1; KR20230008893A; US12081721B2; EP3286914A4; WO2016172125A1; KR102483838B1; WO2016172125A9; US10805589B2; US20210044790A1; EP3286914A1; CN108307675A

Abstract

本发明的实施方案提供了一种相机阵列成像架构，所述成像架构计算由所述相机捕获的场景内的对象的深度图，并且使用近场相机子阵列来计算到近场对象的深度，以及使用远场相机子阵列来计算到远场对象的深度。特别地，所述近场子阵列中的相机之间的基线距离小于所述远场子阵列中的相机之间的基线距离，以便增加所述深度图的准确度。一些实施方案提供用于计算深度图的照明近红外光源。

Description

用于VR/AR应用中的深度增强的多基线相机阵列系统架构

技术领域

本发明整体涉及用于虚拟现实/增强现实应用中的深度增强的多基线相机阵列系统架构。更具体地讲，本发明涉及用于使用多基线成像系统以便确定近场对象和远场对象的深度信息的系统和方法。

背景技术

增强现实(“AR”)、虚拟现实(“VR”)和混合现实(“MR”)设备设想一种成像系统，其旨在将虚拟对象与现实世界视图无缝地结合起来，以提供引人入胜的用户体验。具体地讲，VR是一种计算机技术，该技术复制现实的或想象的环境，并以允许用户与其进行交互的方式模拟用户的物理存在和环境。在AR应用中，通过虚拟计算机图形来增强现实世界，虚拟计算机图形通过诸如平视显示器或投影仪的显示技术对用户可见。该增强可能是简单的文本通知或复杂的模拟屏幕。因此，增强现实试图将用户周围的现实环境与综合生成的图像一前一后地结合起来。在混合现实中，通过在将虚拟对象呈现在用户的视野中的同时允许用户看到周围的现实世界，从而结合了AR和VR的最佳功能。这些虚拟对象被锚定到现实空间中的点上，从用户的视角看，可将它们视为场景的整体部分。为了实现现实的体验，混合现实中现实对象和虚拟对象之间的交互需要以非常类似于这些对象在现实世界中如何交互的方式进行复制，因此AR/VR/MR系统能够确定现实世界中对象的间距和深度的方式在确定如何显示这些对象与虚拟对象交互的方面具有重要意义。MR、VR和AR应用可以用于各种不同的目的，包括：娱乐和游戏等商业用途；包括战斗或飞行员训练的军事用途；教育用途以及许多其他用途。

发明内容

公开了根据本发明的实施方案的用于利用相机阵列估计深度的系统和方法。在一个实施方案中，一种使用由图像处理应用程序配置的处理器从相机组中的不同相机捕获的图像组来估计场景内的对象的距离的方法，该方法包括生成场景的初始深度图，识别场景的近场和远场部分，使用从近场相机组捕获的图像数据来细化场景的近场部分的深度图，以及使用从远场相机组捕获的图像数据来细化场景的远场部分的深度图。

另一实施方案包括使用定位在距参考相机的阈值距离内的照明光源来照亮场景。

在另一个实施方案中，场景的近场部分位于小于某一阈值的距离处，并且场景的远场部分位于大于该阈值的距离处。

在另一个实施方案中，近场相机组中的相机之间的基线距离小于远场相机组中的相机之间的基线距离。

在另一个实施方案中，相机组中的每个相机具有相同的成像属性。

在另一个实施方案中，相机组具有不同的视野。

在另一个实施方案中，相机组具有不同的分辨率。

在另一个实施方案中，相机组按光谱的不同部分成像。

在另一个实施方案中，相机组是具有相同视野和分辨率的单色相机。

在另一个实施方案中，单色相机跨越可见光谱的至少一部分和近红外光谱的至少一部分成像。

在另一个实施方案中，包括使用深度图以便确定在VR应用的显示器上在何处呈现对象，使得该对象被也在VR应用中显示的现实世界对象适当地遮挡。

在另一个实施方案中，包括使用深度图以便确定在AR应用的显示器上在何处呈现对象，使得该对象被通过AR应用内的透明显示器可见的现实世界对象适当地遮挡。

在另一个实施方案中，相机组被安装在包括能够显示图像的显示器的头戴耳机内。

在另一个实施方案中，参考相机和显示器是安装在头戴耳机内的可拆除部件的一部分。

在另一个实施方案中，相机阵列包括设置在第一位置处的相机的第一子阵列，该第一相机阵列包括至少两个相机，设置在第二位置处的相机的第二子阵列，该第二相机阵列包括至少两个相机，设置在第一位置和第二位置之间的相机的第三子阵列，相机的第三子阵列包括至少一个参考相机；以及设置在距离参考相机的阈值距离内的照明光源。

在另一个实施方案中，相机的第一子阵列、第二子阵列和第三子阵列中的相机具有相同的成像特征。

在另一个实施方案中，相机的第一子阵列和第二子阵列中的相机具有与至少一个参考相机不同的成像特征。

在另一个实施方案中，相机的第一子阵列和第二子阵列中的相机各自具有与参考相机不同的核轴。

在另一个实施方案中，相机都是具有相同视野的单色相机。

在另一个实施方案中，视野选自由70度和90度组成的组。

在另一个实施方案中，相机阵列被安装到头戴耳机，并且相机阵列中的至少一个相机是安装在头戴耳机内的可拆卸部件的一部分。

在另一个实施方案中，从相机获得的图像数据被用于生成场景的深度图。

在另一个实施方案中，第一相机阵列和第三相机阵列之间的基线距离小于第一相机阵列和第二相机阵列之间的基线距离。

在另一个实施方案中，提供一种相机阵列，该相机阵列包括：若干相机、被配置为使用投影纹理照亮场景的照明系统、处理器、包含图像处理管线应用程序和照明系统控制器应用程序的存储器，其中照明系统控制器应用程序导向处理器控制照明系统使用投影纹理照亮场景，其中图像处理管线应用程序导向处理器：生成场景的初始深度图；识别场景的近场和远场部分，使用从近场相机组捕获的图像数据来细化场景的近场部分的深度图，以及使用从远场相机组捕获的图像数据来细化场景的远场部分的深度图。

在另一个实施方案中，图像处理管线应用程序引导处理器使用设置在距离参考相机的阈值距离内的照明光源来照亮场景。

在另一个实施方案中，场景的近场部分位于小于特定阈值的距离处，并且场景的远场部分位于大于该阈值的距离处。

在另一个实施方案中，相机组中的每个相机具有相同的成像特性。

在另一个实施方案中，相机组具有不同的视野。

在另一个实施方案中，相机组具有不同的分辨率。

在另一个实施方案中，相机组在光谱的不同部分中成像。

在另一个实施方案中，图像处理管线应用程序引导处理器使用深度图以便确定在VR应用的显示器上呈现对象的位置，使得该对象适当地被也在VR应用中显示的现实世界对象遮挡。

在另一个实施方案中，图像处理管线应用程序引导处理器使用深度图以便确定在AR应用的显示器上在何处呈现对象，使得该对象适当地被通过AR应用内的透明显示器可见的现实世界对象遮挡。

在另一个实施方案中，参考相机和显示器是安装在头戴耳机内的可拆卸部件的一部分。

另一实施方案包括使用由图像处理应用程序配置的处理器从相机组中的不同相机捕获的图像组来估计场景内的对象的距离，该方法包括使用来自若干相机的图像估计场景的各个区域的深度，其中深度估计的精度随场景的区域不同而变化。

在另一个实施方案中，场景的近场区域的深度估计的深度估计精度与场景的远场区域的深度估计的精度不同。

在另一个实施方案中，由于使用不同数量的深度样本估计不同区域的深度，深度估计精度会发生变化。

在另一个实施方案中，由于使用不同数量的由相机捕获的图像估计不同区域的深度，深度估计精度会发生变化。

在另一个实施方案中，区域的深度估计精度基于位于该区域中的对象的初始深度估计来确定。

在另一个实施方案中，区域的深度估计精度基于参考相机的视野内的区域的位置来确定。

附图说明

图1A示出了根据本发明实施方案的形成增强/混合现实头戴耳机的一部分的相机阵列。

图1B示出了根据本发明实施方案的形成增强/混合现实头戴耳机的一部分的相机阵列。

图2概念性地示出了根据本发明实施方案的利用一个或多个相机阵列的相机阵列。

图3示出了根据本发明实施方案的提供了可由用于AR/VR/MR应用的许多相机阵列满足的一些要求的表格。

图4示出了根据本发明实施方案的满足图3所示的许多规格的多基线相机阵列架构。

图5示出了根据本发明实施方案的示出了作为对象距离和相机阵列的其他成像参数的函数的深度精度值的表格。

图6示出了根据本发明实施方案的具有5个活动相机的相机阵列。

图7示出了根据本发明实施方案的具有4个活动相机的相机阵列。

图8示出了根据本发明实施方案的具有3个活动相机的相机阵列。

图9根据本发明的实施方案提供了一个表格，该表格对不同的配置和操作模式进行了汇总，并且详细列举了所示处理系统上的接口(例如，MIPI通道)以及计算和省电的可能。

图10示出了根据本发明实施方案的包括设置在两个相机(包括参考相机)的垂直阵列上方的四个相机的线性阵列的相机阵列。

图11示出了根据本发明实施方案的适用于AR/VR/MR头戴耳机的相机阵列。

图12示出了根据本发明实施方案的使用Qualcomm^TM820系统的多基线相机阵列。

图13示出了根据本发明实施方案的多基线相机阵列中的六个相机，其在Qualcomm^TM820平台上实现了图像处理管线。

图14示出了场景的捕获的单色图像，其上由作为与图12中的阵列相机相似的阵列相机内的参考相机的相机投影了近红外图案。

图15示出了通过从由相机阵列捕获的图像组生成深度估计并基于该深度估计的置信度来筛选深度估计而产生的深度图。

图16示出了使用图15所示的高置信度深度估计生成的规则化深度图。

图17示出了图15的深度图，其深度以假彩色示出，红色指示对象更近和蓝色指示对象更远。

图18示出了通过执行与用于生成图15和图17中示出的深度图的过程(除诸如立体对无法执行遮挡处理例外)类似的过程以从相机阵列中的单对相机产生深度图得到的深度图。

图19示出了以假彩色示出的立体致密深度图，红色更近蓝色更远。

图20提供了根据本发明的实施方案的相机阵列的深度精度图。

图21概念性地示出了根据本发明的实施方案的使用多基线相机阵列计算场景的深度图的过程。

图22示出了根据本发明的实施方案的使用两个近红外图案化光源的用于AR/VR/MR头戴耳机的多基线相机阵列。

图23示出了根据本发明的实施方案的当与并入在VR头戴耳机的框架内的相机组合时，并入了作为相机阵列的参考相机的手持移动电话。

具体实施方式

现在转到附图，描述了利用相机阵列获得用于虚拟现实(VR)/增强现实(AR)或混合现实(MR)应用的深度信息的系统和方法。可以通过以足够的精度实时感测现实世界对象的深度使得锚定到或插入到现实世界影像中的虚拟对象与其局部和全局拓扑关系一致，来增强AR/VR/MR体验。根据本发明的各种实施方案的系统和方法利用安装在AR/VR头戴耳机内的相机阵列来捕获从中可以导出深度信息的图像数据。一旦确定了深度信息，则可以利用该深度信息来获取用户相对于环境的姿势、虚拟对象的创建和/或显示给用户的虚拟环境的后续呈现。此外，深度信息可以用于对象检测和识别，然后可以向用户驱动情境相关信息的显示。

将虚拟对象与现实世界影像合并通常被称为z键控。z键控应用程序可以对工作范围和/或宽视野中的深度精度施加严格的要求，其中虚拟对象将被添加到场景中。因此，根据本发明的许多实施方案的相机阵列利用具有宽视野透镜的相机，与阵列中使用的可以建模为针孔相机的典型相机相比，其可以引入更大的光学失真以用于处理由相机捕获的图像。通常，宽视野通过宽视角来表征，通常是大于80°、90°、120°或150°的宽水平视角，而窄视野通过小于50°、80°、90°、120°或150°的视角来表征。在某些相机阵列使用的一些分类中，当相机阵列相机可能具有大于80°的视野时，相机阵列相机可以被认为是“宽”并且当它们可能具有小于80°的视野时，相机阵列相机可以被认为是“窄”。虽然上文将宽或窄视野描述为具体的数字角度，但根据本发明的实施方案，被认为是“窄”或“宽”的特定视野可能不仅基于角度，而且可以基于适用于具体应用要求的各种其他因素而变化。在多个实施方案中，相机阵列利用具有不同视野的相机子组的相机并且利用来自不同子组的图像数据生成不同深度和相机阵列视野不同区域内的对象的深度信息。在若干实施方案中，通过利用相机阵列实现宽操作范围内的深度精度，其中根据对象的初始检测距离利用了具有不同基线的相机子组。在某些实施方案中，用于确定不同距离处的距离的子组包含不同的成像特性，包括(但不限于)不同的分辨率和/或具有相对于场高度剖面图的不同失真的不同视野。这样，可以选择在阵列中使用的相机的特性，以便在适用于特定应用要求的视野和距离的操作范围内提供深度精度。除了深度精度要求外，许多AR应用还考虑到在室内和室外两种环境中使用AR头戴耳机。因此，根据本发明的若干实施方案的相机阵列具备在各种照明条件下工作的能力。在某些实施方案中，能够捕获近红外光谱内的图像数据的相机包括在相机阵列内，以在低照明条件下提供增强的敏感度。在许多实施方案中，相机阵列并入了可在场景上投影IR纹理的IR投影仪，以提供可用于在适当的照明条件下增加深度估计精度的附加深度提示。可以容易地理解，使用具有相同成像特征的相机的阵列的使用或具有不同成像特征的相机的阵列的使用通常将取决于给定应用的要求。在AR/VR/MR应用中使用的相机阵列的处理能力通常还取决于给定应用的要求，诸如(但不限于)功耗、延迟和/或帧频要求。同时满足所有这些约束仍然是目前可用的许多深度技术的挑战。

可以使用通常被称为多视点立体的技术基于视差从图像组估计到对象的深度或距离。视差是指根据视点，从不同视点捕获的图像中可见的前景对象相对于图像背景偏移的程度。多视点立体技术通过使用两个或更多个相机的阵列捕获场景的图像并使用与在图像中观察到的视差偏移相关的信息测量到对象的距离以确定到场景中可见的对象的距离。具体地讲，被某一距离分开的两个或更多个相机可以对相同的场景拍照，并且可以比较捕获的图像以确定两个或更多个图像中对应的像素之间的观察到的偏移。如果投影到立体相机对的每个图像平面上的3D空间中的对应点采用相似的像素值，则像素被认为是立体对中的对应的像素。这被称为强度不变性假设。对象在两个不同相机视图之间偏移量称为差异，其与到对象的距离成反比。检测多个图像中的对象的偏移的差异搜索可用于基于相机之间的基线距离和所涉及的相机的焦距计算到对象的距离。在非常宽的视野透镜中，由视差引起的差异可能导致来自立体相机对的图像中的对应的像素具有悬殊的场高度。在这两个点处的失真以及由此的MTF可能是迥异的，这些点可能不符合使用典型的强度不变性假设。因此，在许多实施方案中，对于给定的宽视野，阵列相机增加传感器分辨率(以及由此的光学格式)。某些实施方案可通过以受控方式或其组合分配场高度上的失真/MTF来仔细设计透镜。对于许多实施方案，存在一种潜在的假设，即不管相机阵列的视野如何，设计可确保亮度不变性假设将成立。在某些实施方案中，相机阵列可使用重新采样来增加具有不同视野的图像的像素之间的一致性。

能够使用视差检测来估计深度的各种阵列相机在由Venkataraman等人于2010年9月29日提交的名称为“Capturing and Processing Images Using Monolithic CameraArray with Heterogeneous Imagers”(使用具有异构成像器的单片相机阵列捕获和处理图像)的美国专利8,902,321、由Venkataraman等人于2014年2月24日提交的名称为“ThinForm Factor Computational Array Cameras and Modular Array Cameras”(薄型计算阵列相机和模块化阵列相机)的美国专利申请序列号14/188,521以及由Rodda等人于2014年11月7日提交的名称为“Array Camera Modules Incorporating Independently AlignedLens Stacks”(包括独立对齐的透镜组的阵列相机模块)的美国专利9,264,592中有所描述。本公开包括来自美国专利8,902,321、美国专利9,264,592和美国专利申请序列号14/188,521的与阵列相机结构、处理由阵列相机中的相机捕获的图像以估计深度和构造阵列相机的方法相关的公开内容，其全部以引用方式并入本文。

使用由相机阵列捕获的图像确定深度信息的过程也在由Ciurea等人于2013年3月13日提交的名称为“Systems and Methods for Parallax Detection and Correction inImages Captured Using Array Cameras that Contain Occlusions using Subsets ofImages to Perform Depth Estimation”(通过使用图像子组执行深度估计而对使用包含遮挡的阵列相机所捕获的图像进行视差检测和校正的系统和方法)的美国专利8,619,082和由Venkataraman等人于2014年3月12日提交的名称为“Systems and Methods forSynthesizing Images from Image Data Captured by an Array Camera UsingRestricted Depth of Field Depth Maps in which Depth Estimation PrecisionVaries”(使用深度估计精度变化的深度受限的深度图根据由阵列相机捕获的图像数据合成图像的系统和方法)的美国专利申请序列号14/207,254中公开。本公开包括来自美国专利8,619,082和美国专利申请序列号14/207,254的与处理由阵列相机捕捉的图像数据以获得深度信息、处理由阵列相机捕获的图像子组以获得在存在遮挡的情况下的深度信息以及用于生成其中深度估计精度与阵列相机捕获的图像不同的深度图的过程相关的公开内容，其全部内容以引用方式并入本文。

如上文所述，满足AR/VR/MR应用中z键控的各种约束，包括工作范围、工作视野、不同照明条件下的工作能力、功耗等各种其他约束可以要求构建专门的相机阵列、对应的透镜和/或有效地利用根据相机阵列中的相机的特定放置和成像特征定制的深度估计过程。根据本发明实施方案的形成增强/混合现实头戴耳机的一部分的相机阵列在图1A和图1B中示出。具体地讲，图1A示出了增强现实头戴耳机100，其具有设置在框架左端的相机110的第一阵列，设置在框架右端的相机120的第二阵列以及设置在相机110的第一阵列和相机120的第二阵列之间的一个或多个相机130。多基线成像架构可使用这些相机110至130中的一个或多个相机以获得场景的深度信息。

图1A所示的设计包括围绕参考相机分布的相机。美国专利8,902,321中描述了包括设置在参考相机周围的相机的各种阵列相机结构，其全部内容以引用方式并入本文。在参考相机周围分配相机可以增加在参考相机的视野中可见的前景对象边缘周围的深度估计精度。在参考相机上方、下方、左侧和/或右侧的相机的存在增加了前景对象的边缘还将在阵列中的另一个相机中可见的可能性。通过忽略来自相机的图像，其中前景对象的边缘和与前景对象的边缘相邻的区域被遮挡，可以获得精确的深度估计。因此，在可用于估计给定距离范围内和/或视野的不同区域内的深度的给定的相机的子组内，期望相机子组包括分布在参考相机周围(例如，参考相机上方、下方、左侧、右侧)的相机，以提供处理相机子组内的遮挡的能力。在某些实施方案中，第一子组仅可用于确定相对于前景对象的深度。因此，第一子组不需要用于处理遮挡的围绕参考相机分布的相机。这样，第一子组可以是单对相机。用于确定远离阵列相机的对象的深度的附加子组可以包括相机的分布以处理遮挡。下面将参考图4讨论根据本发明的实施方案实现的这种相机阵列的示例。可以容易地理解，出于估计位于不同距离和阵列相机视野的不同区域内的对象的深度的目的，在相机阵列中使用的具体组和布置方式和相机在很大程度上取决于具体应用。

在许多实施方案中，由相机阵列中的相机捕获的图像数据可用于从捕获的图像数据合成场景的图像。在多个实施方案中，图像数据的融合涉及对由相机阵列捕获的场景内的对象的深度进行计算以便生成深度图，以及检测和校正使用阵列相机捕获的图像中的视差。美国专利8,619,082中描述了用于检测和校正使用阵列相机捕获的图像中的视差的过程，与从由相机阵列捕获的图像估计深度相关的相关公开内容以引用方式并入上文。用于使用深度图从由相机阵列捕获的图像融合图像数据在由Lelescu等人于2014年10月21日提交的名称为“Systems and Methods for Synthesizing High Resolution Images Usinga Set of Geometrically Registered Images”(用于使用几何注册图像组合成高分辨率图像的系统和方法)的美国专利9,047,684中有所描述，包括与视差校正以及图像数据融合以合成图像相关的公开内容的有关公开内容全文以引用方式并入本文。

图1B示出了某些间距细节，包括相机110的第一阵列和相机120的第二阵列之间的测量空间。如该实施例所示，相机阵列之间的基线距离介于12cm至14cm之间。此外，图1B还示出了设置在中间相机130附近的NIR图案化光135。在一些实施方案中，NIR投影光可被图案化、结构化和/或纹理化，并且可能不一定是光源本身。在若干实施方案中，NIR可以是平场NIR光源(例如，闪光)。在许多实施方案中，NIR光源可以是激光和/或LED。

在一些实施方案中，相机110至130可围绕近红外光源对称地分布，并且近红外光源135可设置在尽可能靠近参考相机130的位置，以便减少在参考相机130可见的图像的部分中的投影纹理的遮挡的可能性。

在一些实施方案中，定位在中央相机阵列130周围的相机阵列110至120中的相机可以是低分辨率(例如，720P)深度相机。在其他实施方案中，所有相机110至130可共享相同的成像特征(例如，所有相机都是720P、黑白相机)。在某些实施方案中，不同的相机可捕获光谱的不同部分。

虽然图1A和图1B示出了用于增强现实头戴耳机的相机阵列，但是根据本发明的实施方案，包括虚拟现实应用、游戏应用以及许多其他应用的任何种类的应用都可利用具有设置在各种位置的相机的相机阵列，用于根据特定应用的要求捕获深度信息。下面将描述相机阵列的系统架构。

多基线相机阵列

为了捕获场景内位于各种不同距离的各种对象的深度信息，根据本发明的许多实施方案的相机阵列可根据需要利用在相机之间具有不同基线距离的一个或多个相机子组来准确地确定远场对象和近场对象的深度。根据本发明的实施方案的利用一个或多个相机阵列的相机阵列在图2中概念性地示出。相机阵列包括左侧相机子阵列210、右侧相机子阵列220和中央相机子阵列230。左侧相机子阵列210包括沿垂直轴对准的两个相机201和202(即，2×1相机阵列)。右侧相机子阵列220包括三个相机203、204和206，其中两个相机203和204沿着垂直轴对齐，与第三相机206一起形成三角形结构。左侧和右侧相机子阵列210和220位于参考相机子阵列230的任一侧上的互补遮挡区域中，该侧包括一个相机205和照明系统235。

相机阵列210-230和照明系统235被控制并与处理器240通信。处理器还被配置为与可用于存储图像处理管线应用程序250和深度图数据255的一个或多个不同类型的存储器245进行通信。深度图数据255可包括(但不限于)深度图、网格、颜色信息、纹理信息和/或点云。在许多实施方案中，相机子阵列210-230中的一者或多者可用于捕获场景的图像和/或视频。可利用从子阵列中的一者或多者内的相机捕获的图像生成深度图。

使用处理器240实现的成像管线可采用各种形式，如上面以引用方式并入的描述基于由相机阵列捕获的信息生成深度图和合成图像的方法的各种专利和应用中所概述的。在许多AR/VR/MR系统中，成像管线至少包括以下四个阶段：(1)光度归一化：归一化相机之间的光度不平衡；(2)几何归一化：归一化不同相机之间的几何变化，并补偿变化的焦距、视野、放大率和失真变化；(3)视差检测：根据可选地处理可能存在的任何遮挡物以及根据相机阵列视野区域和对象深度可选地改变深度估计的精度的相应像素之间的差异来计算深度估计的主要阶段；(4)正则化：可以可选地执行正则化，以使用各种图像先验从周围的高置信度深度值填充具有低置信度深度值的区域，从而提供正则化的深度图。在一些实施方案中，正则化阶段由3D点云阶段代替，其采用“视差检测”阶段中计算的像素深度，并与高置信度深度图结合，并且前向映射过程输出3D点云。对应于场景的3D点云可以是由相机阵列捕获的像素的3D世界坐标。在处理器采取可能包括主处理器或CPU、图形处理器(GPU)和/或数字信号处理器(DSP)的片上系统的形式的情况下，图像处理管线中的不同阶段可使用固件和/或固件和软件的组合在片上系统内不同处理器上实现。图像处理管线的具体实现方式很大程度上取决于给定的AR/VR/MR系统内存在的处理器，并且可利用专门设计用于实现图像处理阶段中的一者或多者的专用集成电路和/或现场可编程门阵列。

在许多实施方案中，深度估计过程与AR/VR/MR系统中的其他过程进行通信，以交换关于相机阵列的视野范围内的区域和/或AR/VR/MR系统尝试执行z键控以将虚拟对象覆盖在场景的图像上的距离的信息，并/或将虚拟对象呈现在透明显示器上，观看者可通过该透明显示器看到覆盖在场景上的虚拟对象。如可以容易地理解的，AR/VR/MR系统可仅在其中执行或可能执行z键控的区域中才需要高度的深度准确度。因此，图像处理管线可利用诸如在Venkataraman等人于2014年3月12日提交的名称为“Systems and Methods forSynthesizing Images from Image Data Captured by an Array Camera UsingRestricted Depth of Field Depth Maps in which Depth Estimation PrecisionVaries”(使用深度估计精度变化的深度受限的深度图根据由阵列相机捕获的图像数据合成图像的系统和方法)的美国专利申请序列号14/207,254中描述的处理，根据从AR/VR平台上执行的呈现过程接收的指令在相机阵列视野的不同距离和/或不同区域内改变深度估计精度，这可采取(但不限于)视野内的感兴趣的矩形区域的形式，和/或需要更高深度估计精度的景深。在某些实施方案中，正则化也可限于需要高精度深度信息的那些区域。在某些其他实施方案中，用于计算深度信息的相机阵列可使用用于捕获场景的RGB全色图像/视频的高分辨率主相机进行增强。在这样的实施方案中，主相机可捕获RGB图像(或视频)，其被来自相机阵列的深度信息增强。用于捕获RGB全色图像(或视频)的参数，诸如曝光、增益、帧速率，可通过在z键控过程中呈现的虚拟对象的存在进行调制。例如，可使用虚拟对象作为场景捕获的焦点来计算用于捕获场景的RGB图像(或视频)的焦点/曝光。这可得到正在捕获的图像，其中虚拟对象是捕获的焦点并且背景适当地散焦/去强调。最终捕获的图像可具有场景中的真实对象和虚拟对象，但是对虚拟对象进行强调(例如，关于焦点提示和曝光)。尽管上文描述了在AR/VR/MR上下文中使用阵列相机来计算深度信息，但阵列相机可用于其他上下文中，包括(但不限于)并入手机、平板电脑、台式计算机、膝上型电脑、游戏系统的阵列相机，以及可根据本发明的实施方案根据具体应用的要求适当地利用相机计算深度信息的各种其他计算平台。如可以容易地理解的，由阵列相机执行的特定成像过程可由根据本发明的各种实施方案的具体应用的要求来确定。

尽管图2示出了用于使用设置在参考相机的相对侧的两个相机子阵列捕获深度信息的多基线相机阵列，但可利用多种不同的相机阵列配置中的任一种，包括设置在参考相机的顶部、底部、前面、背面的相机子阵列，或根据本发明的实施方案的适于具体应用要求的相机子阵列。这可包括以不同方向取向以便捕获360°场景视角的多个相机阵列。下面描述用于捕获深度信息的不同相机阵列架构的其他示例。

计算要求和校准稳健性

多基线成像系统的一些实施方案的单一问题可能是系统可能安装在整体上可能不是机械稳定或热稳定的框架上。许多相机阵列利用的差异估计过程依赖于阵列中相机的相对取向是固定和已知的。当阵列中的相机相对于阵列中的每个其他相机不是刚性的时，则违反此要求，并且差异估计(以及由此得到的深度估计)可能变得不太可靠。

在一些实施方案中，相机阵列执行姿态恢复的过程，以确定阵列中相机的相对间距和取向。阵列中的相机数量可在执行姿态恢复方面发挥关键作用。具体来说，相对于参考相机固定的子阵列的存在可有助于稳定姿态估计的过程并改善姿态估计参数的准确度。通过从阵列中的附加相机施加约束，系统可能不仅可恢复旋转，还可恢复平移和缩放。这在多个潜在的视觉应用中具有显著优势，包括(但不限于)AR/VR系统。

在许多实施方案中，右侧的相机子阵列包括至少三个相机，并且可一起装配在提供热和机械刚性的板上。换句话说，该板上的相机相对于彼此具有机械刚性，并且它们的运动不是彼此独立的。类似地，刚度可以是相机具有最小到没有平移、旋转、观察方向变化，和/或可能由于温度和/或机械力(诸如扭曲、弯曲、膨胀以及各种其他原因)的影响而发生的各种其他变化。为了获得刚性，相机阵列的许多实施方案可在系统的结构内使用低CTE和高刚度(例如，高杨氏模量)基板。杨氏模量也称为弹性模量，通常定义为线性弹性固体材料的机械特性，并且限定材料中的应力(每单位面积的力)和应变(比例变形)之间的关系。这使得能够使用由阵列中的该相机子组捕获的图像进行稳健姿态估计，包括旋转和平移(矢量)。使用由子组生成的准确的深度信息，可执行与阵列内未刚性固定的其他相机的基线和取向有关的估计。在几个实施方案中，使用特征跟踪过程来跟踪这些相机中的任何一个相机的多个特征。稳健地跟踪最小数量的特征点使得能够恢复阵列中相机的基本相机矩阵，从而准确地推导出相机系统的整体旋转。然而，平移的恢复是准确的，最多只有未知的比例因素。通过将3台相机的组视为一个刚性整体，并在刚性子阵列中的所有相机以及整个阵列中的其他相机中跟踪相同的特征点，系统可恢复平移和缩放，以完成阵列中所有相机的姿态的稳健恢复。

存在于阵列内的相机数量，更重要的是，在阵列内相对于彼此刚性地安装的相机数量，使得能够连续校准阵列中所有相机的基线和取向(即，姿态)，无论其是否相对于彼此刚性地固定。通常，在相机阵列中相对于彼此刚性地固定的两个相机可能足以将相对于阵列中的所有相机的姿态恢复问题转变为完全确定的问题。然而，添加第三相机可能会增加姿态恢复对噪声和其他因素的稳健性。因此，根据本发明的许多实施方案的相机阵列包括相对于彼此非刚性地安装的多个相机以及被安装成具有足够的刚度以保持校准并产生可靠的深度估计的至少两个相机，由此可执行整个相机阵列的持续校准。

如可以容易地理解的，基线相机阵列系统的许多实施方案在多基线相机阵列系统中具有超过三个相机。一些实施方案具有右侧两个相机的组和中央相机。通过对左侧的组施加类似的一组约束，系统可以左侧的相机组的视频速率检索姿态。对于中央相机，某些实施方案的系统可具有从左侧和右侧相机组的稳健姿态估计来估计姿态的任务。该问题现在受到两端的姿态估计的限制。此外，通过从机械设计本身引入附加的约束，根据本发明的许多实施方案的处理器可进一步改善确定阵列中相机的姿态以及保持相机阵列的校准的准确度。

没有这些约束，在存在对AR/VR/MR系统的热冲击和机械冲击的情况下保持校准的问题可能会成为完全不确定的问题且没有明确解决方案。这就是为什么纯立体声解决方案(即只有两台相机)可能很难在现场保持校准的一个原因。具有大基线的立体相机可能难以以在运行期间保持机械稳定性和热稳定性的方式构造。当相机以导致校准性能下降的方式自由移动时，相机中的姿态确定问题将变得不能确定，降低深度估计的准确度。

上述过程(姿态估计)可与重新校准过程(或校准状态的恢复)无缝地组合，诸如以确保对由于众多因素(包括温度、弯曲、冲击等)而将在现场出现的不可避免的几何变换的高度稳健性。特别是对于针对集成在AR/VR/MR系统内的相机阵列所设想的预期一般用途，预计这种改变的稳健性将是解决后可提供显著优点的关键要求之一。

一些实施方案可利用已经开发和测试的补充处理系统，并且包含当场景被成像时丢失的校准的实时恢复。在某些实施方案中，相机阵列可使用这种补充处理来从不同视点捕获的多个图像成功地融合图像数据，其中同样，维持校准对于相机功能的成功非常重要。在美国专利9,047,684中公开了用于从由计算相机阵列捕获的图像数据合成图像的方法，其相关部分涉及组合来自多个图像的图像数据以合成新图像，该专利在上文中以引用方式全文并入。

近红外有源照明

非等距的伪随机纹理图案可由近红外有源照明源投影。潜在的源发射器技术可以是某种激光源，在许多实施方案中其在800nm至1000nm的波长范围内。在某些实施方案中，确定图案投影的方式，使得图案可在系统的所需工作范围(例如，0.15m至4.0m)内解析。换句话说，投影图案的元素被设计为使得它们在整个工作范围内不会彼此合并。

在许多实施方案中，专利的特征可以包括(但不限于)：光谱的近红外部分中的投影图案(可选地)与被消色差的相机组合使用，以在包含近红外光谱的至少一部分的宽光谱带上捕获图像；准随机图案(任意但非周期性的)；和/或以这样一种方式投影的图案：使得相机阵列的视野稍微过满，以便考虑光源和相机之间的横向偏移。

在一些实施方案中，有效范围最多仅1m的近场结构照明系统可仅消耗约50mW的功率，并且可利用诸如(但不限于)基于LED的折射方法的方法。然而，在利用将照明系统的范围延伸到4m工作距离的有源照明系统的实施方案中，基于激光的源可与衍射方法组合使用。在这种情况下，功率要求可能会相当大(约1W)。然而，软件管线可使用诸如基于场景内容分析的选通和跳帧来显著减轻功率要求和电流消耗的策略。

在许多实施方案中，相机阵列用于围绕照明系统的互补遮挡区域。使用由线性相机阵列捕获的一组图像估计深度通常涉及沿着核线进行差异搜索。在许多实施方案中，相机阵列中的照明系统的位置可以受到用于计算深度的相机阵列中的参考相机的位置的强烈影响。使近红外发射器尽可能靠近参考相机可确保来自近红外发射器的阴影最小化，并且投影纹理最大程度地入射到由参考相机捕获的场景上。因此，使用位于靠近参考相机的照明系统周围的互补遮挡区域中的相机的二维阵列可以显著增强深度估计性能。

阵列中的相机可对IR光敏感。正则化使用强度和深度之间的关系，并且IR光可通过各个位置处的投影纹理来阻止这种情况。因此，许多实施方案可能需要确定哪些点可能由于存在投影照明图案而增加了强度，并且在这些区域中进行更仔细的分析。在一些实施方案中，参考相机可具有IR截止滤光片，并且可以用于确定哪些点可由于存在投影的近IR图案而具有增加的强度。例如，如果系统使用IR闪光灯，则可能会得到其上放置有图案的图像，并且所有IR点都将是深度。因为该系统可能已经具有此点的深度，所以将知道深度必须如何扭曲到主参考相机的图像，例如，通过查看绿色通道并估计该点是否由于存在投影的近红外图案而具有增加的强度。根据一些实施方案，该系统可以消除具有非IR基准标记的IR基准标记以辅助深度正则化。当临时性地跟踪特征(例如，基准标记)以计算相机姿态时，这可能是有益的。由于IR基准的位置从一帧变化到下一帧，在计算相机姿态时不考虑这些可能是有益的。因此，与非IR基准标记不同的IR基准标记的识别可能有益于正确计算相机姿态。

除了以上述方式使用近红外结构照明之外，根据本发明的若干实施方案的系统和方法还可以利用均匀(近红外)照明(例如，近红外闪光)以在场景自然照明不良的情况下改善边缘可见度。在被发现适合的任何波长下(近红外线可能是优选的，因为人眼不可见，但在某些情况下也可使用可见光)，这可以由独立(“平场”)照明系统完成。为此，可采用用于移动应用的常规近红外或可见光闪光装置。或者，许多系统利用已经在深度解决方案中使用的结构化照明装置的有限效率(或动态范围)，或者有意地进一步降低其效率。具体来说，在结构化照明系统中，通常难以构建其中所有投影光都包含在期望的亮区(例如，“点”)内并且在“背景”(或期望的暗区)中没有光的结构化照明系统。所以暗从来不是真正的暗，因此结构化照明的动态范围是非常有限的。然而，如上所述，这意味着整个场景被微微照亮，这可有助于纹理好但场景照明不良的情况。可以减少积分时间，并且可能增加帧速率。在许多情况下，边缘变得更平滑，因为它们不一定受到结构化照明的采样的限制。还可尝试使进入结构中的光与在场景上均匀分布的光的比例可调谐。例如，通过与用于光束整形的衍射元件(衍射效率是波长的函数)结合改变其温度来改变(激光)发射器的波长。如可以容易地理解的，用于控制投影图案的亮部与投影图案的暗部之间的对比度的具体机制在很大程度上取决于具体应用的要求。

虽然上面描述了可与相机阵列结合用于向AR/VR/MR系统提供深度信息的各种结构化和均匀的照明系统，但是可以容易地理解的是，并入照明源、布置照明源的性质和照明源的性质可根据具体应用的要求以及阵列内相机的成像特性和/或布置而变化。根据本发明的多个实施方案的适用于AR/VR/MR系统的各种相机阵列将在下面进一步讨论。

范围和系统要求

AR/VR/MR市场的发展呈现了各种不同的约束和/或要求，理想情况下，这些约束和/或要求将被合乎这些市场需求的AR/VR/MR产品或解决方案满足。因此，本发明的许多实施方案提供了满足某些关键工作要求的各种多基线相机阵列架构，包括限定深度质量、工作范围以及理想地满足AR/VR/MR市场需求所需的计算和功率约束的架构。具体地讲，在图3的表1中示出了根据本发明的实施方案的在AR/VR/MR应用中使用的许多相机阵列可满足的一些关键要求。

如可以容易地理解的，图3的表1所示的要求可根据具体应用而变化，并且可以相应地适应根据本发明实施方案的系统和方法。下面描述的部分描述了多基线相机阵列的各种其他方面，包括所提出的成像架构、深度准确度和误差、使得能够具有功率和成本效率的运行特性、光学考虑因素和计算目标。随后的部分还识别可能的系统优化考虑因素，这些考虑因素可提高操作效率，并且可实现相机阵列实施的成本和/或复杂性的降低。

多基线相机阵列架构

图4中示出了根据本发明的实施方案的满足图3的表1中概述的许多规格的多基线相机阵列架构。在例示的实施方案中，相机阵列#004是包括3个独立组或子阵列中的6个相机(401-406)的多基线相机阵列。左侧410的保持容积(keep-in volume)容纳两个VGA相机401和402，每个相机可具有第一对角线视野(我们可使用的样本对角线视野角将为70°)。右侧420的保持容积容纳三个相机403、404和406，放置在限定了虚拟三角形的三个位置。右侧420上的两个垂直取向的相机403和404在与左侧410上的VGA相机相同的视野下(例如，70°对角线视野)可具有VGA分辨率，而第三相机，即保持容积的右侧420上的相机406，在第二较大对角线视野下(例如，90°或120°将在所述要求内)具有720P分辨率。右侧420的外壳还包括有源照明系统407。第三子阵列包括在第二较大对角线视野(例如，90°或120°)下具有720P分辨率的中央相机405。

一些实施方案可将VGA相机的对角线视野固定为70°，而将720P相机的对角线视野固定为90°。在某些实施方案中，所有相机可被设计成在覆盖整个可见光谱范围的宽光谱带以及(可选地)近红外范围的400nm到900nm部分上工作。这可使光谱灵敏度最大化，并且还能够使用有源照明系统(其在近红外范围内工作)而不影响使用者体验。

应当指出的是，可根据具体AR/VR客户的需求来调整(细化)相机的DFOV，特别是当前被标记为90度的FOV，包括图4的相机406和405，特别是可能需要将DFOV增至120度以用于姿态估计。对于90度或120度DFOV可能的情况，较大的FOV相机可以在其全FOV能力下的姿态估计中使用，而为了深度估计，系统可利用整个FOV或FOV的较小部分(在图像空间中高达一定场幅度)，诸如对应于70度-90度DFOV的场幅度，其允许与用于深度估计的阵列中的其他相机的DFOV进行协调。

两端保持容体410和420可彼此分开较大总基线距离(例如，约14cm)，并可与中央相机405分开较小基线距离(例如，每边7cm)。

处理系统425可用于通过接口诸如(但不限于)MIPI接口向相机401-406提供接口连接，并通过接口430诸如但不限于USB3接口向外部世界提供接口连接。在一些实施方案中，在桥接芯片方面存在能够聚集相机组401,402和405,406的相机接口(例如，MIPI接口)和时钟通道的选项，以便释放更多的通道供其他传感器使用。例如，MIPI桥芯片(例如，OV680)可将多达6个或更少的单通道MIPI接口组合到输出1或2通道MIPI接口中。因此，在一些实施方案中，4VGA(30fps)单通道MIPI输出可组合到将连接到处理系统425(例如，Movidius MV2)的2通道MIPI输出。这可提供在处理系统上释放MIPI输入通道的潜在益处，以潜在连接其他传感器用于其他用途。具体的处理系统可以是微处理器、数字信号处理器、图形处理单元、结合多个处理单元的片上系统和/或专用集成电路(诸如但不限于FPGA)，通常取决于给定应用的要求。

上述讨论仅代表对整个系统的少数实施方案的讨论。如可以容易地理解的，根据本发明的各种实施方案，各种相机组合中的任一种可被应用于阵列中以适应具体应用的要求。下面的部分将概述操作特性以及利用架构效率，其能够降低部件和计算/功耗成本。应当指出的是，随着在以下操作模式中减少相机数量，桥接芯片可能变得不必要。

操作模式和深度准确性

上面提出的多基线相机阵列系统可以被设计成在相当大的景深上工作，例如从0.15m到4m。距离大于1m且最大4m的远场对象可能需要相机之间具有较大的操作基线才能获得高的几何深度准确性(即误差范围约1％)。这些由远场相机提供，例如图4的相机401、402、403、404和406，其平均基线间距为约14cm。然而，随着物距开始下降到1m以下，可能会遇到立体聚散度问题。换句话讲，相机的视野之间可能没有足够的重叠，使得无法在非常近的距离对场景内容进行有效的三角测量。

立体聚散度问题的一个解决办法可能是具有更大的视野。然而，这可能通常使差异估计过程复杂化，因为与这种大视野相关联的光学畸变通常较大，伴随着MTF中的相应劣化，这通常使得使用对极几何，通过像素对应估计来从差异确定深度的过程复杂化。在此类条件下，立体相机对中相应像素之间的像素强度恒定性假设可能不再有效。强度恒定性是指假设物空间中的某点在设置在不同视点的两个不同相机中的图像具有大致相等的强度(假设对象具有朗伯反射模型)。类似地，FOV较宽的相机的焦距小于FOV较窄的相机的焦距，这可以对降低深度估计精度具有成正比的影响。可以根据具体应用的规范来对这个因素进行定量评估，所述规范详细说明该具体应用需要DFOV较高的相机。

在许多实施方案中，相机阵列包括用于处理距离相机两端大约7cm处的近场对象的附加相机(例如，图4的相机405)。添加该相机减少了立体聚散度问题，但是仍然提供足够的基线，使得对近场对象进行三角测量以在合适的几何准确度(例如1％误差)下估计深度。图4的相机403、404、405和406现在可以处理近场对象，而远场对象可以由相机401、402、403、404和406来处理。

在一些实施方案中，操作要求需要对0.15m至1m的工作范围要求至少90°的对角线视野，并且这将需要图4的相机405和406具有更大的对角线视野，同时其余相机保持70°的对角线视野。然而，当进入更大的对角线视野时，一个附加的问题可能变得明显。一般来讲，较大的视野会缩短成像系统的焦距，同时伴随相机对之间差异的减小。差异的减小会降低深度准确性。为了有效地解决此问题，相机阵列的许多实施方案通过为图4的相机405和406使用更大分辨率(例如，720P)的传感器来增大图像传感器对角线。随着相机阵列系统焦距的这种增大，现在可以在整个工作范围内满足深度准确性要求。

图5所示的表2示出了作为上述系统中的物距和其他成像参数的函数的深度准确度值。

尽管上文参考图1、图2和图4描述了特定阵列，但可以根据具体应用的要求适当地使用各种相机阵列中的任一种。此外，可以使用来自阵列中的相机子集的图像数据生成深度图，以实现效率。根据本发明的多个实施方案的用于提高深度图生成的计算效率的各种过程以及替代性相机阵列架构将在下文进一步讨论。

操作效率

存在用于通过忽略由相机阵列中的一个或多个相机捕获的图像数据来提高该阵列的计算效率的一些可能性。下面将在图4所示的相机阵列的上下文中讨论可以实现的多种效率。如可以容易地理解的，通过从图4所示的相机阵列中完全消除相机来将相机阵列限制在下面描述的成像模式，可以减少部件数量和/或成本。与往常一样，这些效率考量的折衷权衡会影响深度图的整体质量。

模式1[5个相机有效]

在图6所示的这种模式中，可以使用总共5个相机。如图6所示，仅保留一个相机即相机602用于提供大基线(例如14cm)。该系统如前所述工作，不同的是少了一个相机即相机601(并且因此在深度估计中少使用了一个长基线)。相机603、604、605和606可以适用于近场(避免如上所述的正常视野的聚散度问题)，而相机602可以用于远场操作(结合相机603、604、605和606)。

模式2[4个相机有效]

在该模式中，总共使用4个相机，如图7所示。如图7所示，仅保留一个相机即相机702用于确保大基线(例如14cm)。该系统如上所述工作，不同的是少了一个相机(并且因此在深度估计中少使用了一个长基线)。相机704、705和706适用于近场(避免如上所述的正常视野的聚散度问题)，而相机702可以用于远场操作(结合相机704、705和706)。该操作模式中的附加折衷权衡是，对于最重要的内容即对于近处对象(“近”范围)，相机产生的遮挡覆盖比图6所示的模式1更差。相机704、705、706以这样的方式布置，其中参考相机、相机706在参考相机的上方和右侧的方向上没有另外的相机涉及从该角度的遮挡(与模式1相比)。然而，这些方面可以在后续处理阶段中在一定程度上解决。

模式3[3个相机有效]

在该模式中，总共使用3个相机，如图8所示。如图8所示，仅保留一个相机即相机802用于确保大基线(例如14cm)。相机805和806适用于近场(避免如上所述的正常视野的聚散度问题)，并且行为类似立体系统，而相机802可以结合相机805和806用于远场操作。该操作模式中的附加折衷权衡是，对于最重要的内容即对于近处对象(“近”范围)，相机产生的遮挡覆盖通常比图7的模式2更差。相机805、806形成立体系统，具有已知的深度估计限制(较高的估计噪声、严重的遮挡问题)。这些可以在后续处理阶段中在一定程度上解决。

图9提供了一个表格，该表格汇总了上面讨论的不同配置和操作模式，并列出了所示处理系统上的接口(例如，MIPI通道)以及可能的计算量和功率节省。

附加相机阵列架构

在许多实施方案中，相机阵列利用不同类型的相机和相机阵列配置，包括相机之间的各种基线，如同将适用于不同的VR/AR/MR应用一样。尽管存在构造在VR/AR/MR系统中使用的相机阵列的大量可能性，但下面将讨论一些示例来说明特定于VR/AR/MR系统并且可能与其他可以有利地影响相机阵列性能的应用有关的各种设计考虑因素。

图10中示出了根据本发明的一个实施方案的相机阵列，该相机阵列包括设置在两个相机组成的垂直阵列上方的四个相机，其中所述两个相机包括参考相机。在例示的实施方案中，各个相机1001至1007和照明系统1008被设置成在AR/VR/MR系统的框架内结合，使得每个相机共享一条核线，同时参考相机相对于其他交替视域相机的核线以不同角度对准。左侧1010相机1001和1002作为1×2相机子阵列沿着水平轴对准。这些相机之间的间隔为约1.5cm。右侧1020相机1005和1006也与左侧1010相似地设置，具有大约相同的间隔(约1.5cm)。中间1030相机1003、1004和1007垂直对准，相机1007和1003之间的距离为约0.75cm，相机1003和1004之间的距离为约0.65cm，相机1007和1004之间的距离为约2.1cm。此外，中间相机1030和右侧1010之间的间隔为约3.2cm，左侧同样如此(约3.2cm)。此外，除了高分辨率成像相机1007之外，所有相机都是相同的类型，并且高分辨率成像相机1007可以是不同的类型(如较大的镜头所示)，以便捕获场景的全色图像。在若干实施方案中，相机1003充当用于生成深度图的参考相机，然后将初始深度图变换到高分辨率成像相机1007的视点。还可以将该深度图变换到这样的一个视点，从该视点呈现AR/VR显示以有利于Z键控。在一些实施方案中，高分辨率成像相机1007可以是参考相机。在某些实施方案中，如下文进一步描述的，参考相机1007可以是可互换的相机，诸如来自使用者的智能手机的相机，其放置在相机阵列成像架构内。

在例示的实施方案中，照明系统1008被设置在参考相机1007附近。在一些实施方案中，将相机对称地设置在照明系统1008周围并将照明光源尽可能靠近参考相机1007定位，可以有助于降低在图像的可以被参考相机看见的部分中的投影纹理被遮挡的可能性。在其他实施方案中，可以提供多个光源以通过前景对象来解决投影图案的遮挡。

在一些实施方案中，相机1001至1006可以各自具有6.5mm×6.5mm(全局快门3μ像素)的尺寸，并且主参考相机1007可以具有8.5mm×8.5mm的尺寸。此外，不同的相机可以沿着不同的核线定位，这方面的若干示例由相机1001和1003、1004之间的虚线以及相机1002和1003、1004之间的虚线示出。因此，由相机阵列中的相机捕获的图像组中的相应像素位于不同的核线上。在沿着对极线的区域自相似的情况下，深度估计值可能不可靠。当沿相对于彼此以不同角度对准的多条核线执行差异搜索时，沿着不同核线的每个相应位置处的图案将自相似的可能性随着搜索到每条附加核线而减小。可以通过考虑从4个相机计算的深度图的质量，同时改变所使用的特定相机，来说明一个突出的示例。因此，如果查看从相机2、3、4和5计算的深度，并将其与从相机1、3、4和6计算的深度进行比较，则可以发现，由于涉及较大的基线，后一组(即相机1、3、4和6)的作为物距函数的深度精度(即准确度)得到改善。然而，由于所涉及的各条核线的角方向上的变化较大，前一组(即相机2、3、4和5)中深度图中的噪声可能更好。在相机阵列(特别是较小的相机阵列)中，在基线宽度与核线角方向变化之间的具体权衡通常取决于给定应用的要求。

在某些实施方案中，相机阵列之间的基线大于相机阵列内的相机之间的基线。因此，沿着第一核线观察到的差异将明显大于沿第二(垂直)核线观察到的差异。因此，可以利用在对应于第二核线的方向上并入有较小空间图案特征尺寸的投影图案。例如，可以将具有比垂直空间图案特征尺寸大的水平空间图案特征的图案与相机阵列一起使用，其中在一对二维相机阵列之间存在宽水平基线，并且二维相机阵列中的相机之间的最大垂直基线明显小于水平基线。在其他实施方案中，空间图案特征尺寸的差异可以根据具体应用的要求在投影图案内的不同轴上采用。

附加相机阵列

图11中示出了适用于根据本发明架构实施方案的AR/VR/MR头戴耳机的另一个相机阵列。多基线相机阵列1100包括左相机子阵列1110、右相机子阵列1120、中间相机子阵列1130和照明系统1135。左相机子阵列1110包括沿垂直轴对准的两个相机1101、1102。右相机子阵列1120包括作为2×2相机阵列对准的四个相机1103、1104、1105和1108。中间相机子阵列1130包括沿着对角轴设置的两个相机1106和1107。在一些实施方案中，中间相机1106或1107可以用作参考相机。因此，考虑到其他布局限制，照明系统1135被设置为尽可能靠近参考相机1106，以便降低照明系统在图像的可以被参考相机1106看见的部分中产生的投影纹理被遮挡的可能性。与上述许多相机阵列一样，子阵列可以安装到刚性基板，刚性基板保持子阵列内的相机的间距和取向，尽管子阵列的间距和取向可以在操作期间变化。

在一些实施方案中，相机1108和1107(以虚线示出，连同其连接)可以不被填入，但是可以放置用于实现可能的实验和/或用于实现提高的深度估计精度。如图所示，将上排相机(1101、1106、1103、1109)与下排相机(1102、1107、1104和1105)分开的距离为约20mm。相机1101和1106之间的距离为约70mm。相机1106和1103之间的距离为约70mm。相机1103、1104与相机1108、1105之间的距离分别为约10mm。虽然已经举例说明了具体距离，但是可以根据具体应用的要求来为多基线相机阵列架构规定各种不同距离中的任一种。在许多实施方案中，相机间隔开，使得相机中的至少两个间隔得比使用者的眼睛宽。在多个实施方案中，相机间隔开，使得两个相机间隔得比使用者的眼睛宽，并且第三参考相机位于使用者眼睛之间。在某些实施方案中，相机间隔开，使得至少两个相机组成的子阵列刚性地安装在使用者左眼的左侧，并且至少两个相机组成的子阵列刚性地安装在使用者右眼的右侧。在更进一步的实施方案中，相机间隔开，使得至少两个相机组成的第一子阵列刚性地安装在使用者左眼的左侧，至少两个相机组成的第二子阵列刚性地安装在使用者右眼的右侧，并且至少两个相机组成的第三子阵列刚性地安装在使用者的两只眼睛之间。在另一个实施方案中，第一子阵列、第二子阵列和第三子阵列中的所有相机具有相同的成像特性。在又一个实施方案中，子阵列中的至少两个子阵列包括具有不同成像特性的相机。

再次参考图11，可将来自每个相机1101至1108的图像数据提供给复用器1140。在一些实施方案中，系统可以一次激活一个复用器1140源以允许静态场景捕获。某些实施方案可以同时激活两个复用器1140源。

然后可以通过各种接口诸如(但不限于)USB接口来将该数据提供给计算系统。计算系统可以是个人计算机、移动电话或平板计算机、VR/AR/MR头戴耳机和/或专用计算平台。图12中示出了根据本发明的一个实施方案使用Qualcomm^TM820系统的多基线相机阵列。具体地讲，图12示出了与图11所示的相机阵列1100相似的相机阵列结构1200，但是使用来自Qualcomm^TM820处理平台的QCT 9096AP。尽管图12示出了使用Qualcomm^TM820平台的多基线相机阵列架构，但是可以根据本发明的实施方案，根据具体应用的要求适当地利用各种不同平台中的任何一种。

可以容易地理解，类似于图11和图12所示相机阵列的相机阵列可以用较少的相机来构造。图13中示出了根据本发明的实施方案，在多基线相机阵列中使用六个相机，该多基线相机阵列在Qualcomm^TM820平台上实现图像处理管线。如图所示，多基线相机阵列架构1300包括左相机子阵列1310，该子阵列包括沿着水平轴对准的两个相机1301和1302。右相机子阵列1320包括沿着水平轴对准的两个相机1303和1304。中间相机子阵列1330包括沿着垂直轴对准的两个相机1305和1306。在一些实施方案中，相机1306可以是参考相机。该系统还包括设置为靠近参考相机1306的照明系统1335。分隔左子阵列相机1301、1302、右子阵列相机1303、1304以及参考相机1306的距离分别可以是约40mm。分隔相机1301、1302的距离可以是约10mm。分隔相机1303、1304的距离也可以是约10mm。来自相机1301至1306的数据可以被提供给两个复用器1340中的一个复用器，其中来自多个相机的图像数据被组合成单个数据流，该单个数据流被提供给QCT 8096AP(或者称为Qualcomm 820SOC)中提供的两个图像处理器中的一个。Qualcomm^TM820片上系统包含两个图像处理器、数字信号处理器(DSP)、图形处理单元(GPU)和中央处理单元(CPU)。在其他实施方案中，可以用定制硬件替代Qualcomm 820SOC，该定制硬件包含实现上述四个阶段的整个深度管线的定制RTL。虽然图13示出了在Qualcomm 820平台上使用具有六个相机和设置在参考相机附近的单个照明系统的多基线相机阵列，但是可以根据具体应用的要求适当地使用各种相机、照明系统和/或平台中的任何一个。下面描述根据本发明实施方案的包括多个照明系统的多基线相机阵列的示例。

深度估计性能的比较

通过查看图14至图19可以知道在相对于立体相机对执行深度估计时使用多个相机的好处。图14是针对某个场景捕获的单色图像，由某个相机在该场景上透射近红外图案，该相机充当与图12所示的阵列相机相似的阵列相机内的参考相机。如图所示，有一个具有潜在遮挡边界的前景对象。图15示出了通过从该相机阵列捕获的一组图像生成深度估计并基于深度估计的置信度来过滤深度估计而产生的深度图。如可以容易地理解的那样，使用投影近红外图案产生分布在参考相机的整个视野范围内以及在场景内可见的整个深度范围内的大量高置信度深度估计。图16示出了使用图15所示的高置信度深度估计生成的正则化深度图。如图所示，该前景对象由于多基线阵列而具有清晰边缘，伪像无遮挡。图17示出了同一个深度图，其中深度以伪彩色示出，红色表示对象较近，蓝色表示对象较远。这是正则化的深度，因此，该前景对象由于多基线阵列而具有清晰边缘，伪像无遮挡。为了认识提供能够相对于：两个以上的图像；由具有不同基线的相机捕获的图像；进行差异搜索的附加相机和/或具有不平行的核线的相机的有益效果，提供了图18，其示出了深度图，该深度图的生成是通过执行与用于生成图15和图17所示的深度图的那些相似的过程(不同的是诸如立体对无法执行遮挡处理)来从相机阵列中的单个相机对产生深度图。如图所示，当仅使用单个立体相机对时，前景对象的边缘具有明显的遮挡伪像。图19示出了以伪彩色显示的立体密集深度图，其中红色表示较近，蓝色表示较远。如图所示，当仅使用立体相机时，边缘具有明显的遮挡伪像。虽然在将图15和图17所示图像与图19和图20中所示图像进行比较之后可以容易地看出深度估计精度(特别是在前景对象附近的遮挡区域)的大幅提高，但可以通过查看图20来了解使用包括投影照明的多基线阵列相机可实现的深度估计精度的真实程度。

图20提供了一个深度精度曲线图。具体地讲，该差异-物距曲线图示出了在测量范围[0.4m，1.5m]上<2％的误差界限。

虽然上述结果是相对于与图12所示的相机阵列相似的相机阵列捕获的图像数据，但是可以使用本文所述的许多相机阵列来实现相似的深度估计精度。如上所述，在深度和/或视野的操作范围内涉及高深度估计精度的应用中使用的相机阵列的具体配置在很大程度上取决于给定应用的要求。

多基线深度估计

如上所述，由于可以使用相机之间较大的操作基线来计算远场对象诸如距离大于某个阈值(例如，1m至4m)的远场对象的深度，同时使用相机之间较小的操作基线来计算近场对象(包括距离低于某个阈值例如低于1m的对象)的深度，多基线相机阵列可以在相当大的景深(例如，0.15m至4m)上工作。图21中示出了根据本发明的实施方案的用于使用多基线相机阵列来计算场景的深度图的过程。过程2100生成2105初始深度估计和/或初始深度图。在许多实施方案中，该过程使用美国专利8,619,082中所述的方法来生成深度图，以便获得到阵列相机所捕获的场景内的对象的深度；相关公开内容在上文以引用方式并入。

基于初始深度估计，该过程识别2110近场对象和远场对象以及场景的在捕获场景内的部分。在一些实施方案中，近场对象具有低于某个阈值的距离(例如，小于1m)，并且远场对象具有等于或高于该阈值距离的距离(例如，大于或等于1m)。定义近场和远场的特定阈值在很大程度上取决于阵列中的相机的配置(例如视野、基线)以及给定应用的要求。该过程可以(可选地)使用从多基线相机阵列中的近场相机捕获的图像来细化2115对场景的近场对象和/或部分的深度估计。该过程可以(可选地)使用从多基线相机阵列中的远场相机捕获的图像来细化2120场景的远场对象和/或部分的深度图。随后，该过程完成。

尽管上文相对于近场对象和远场对象描述了生成深度图的具体过程，但是可以利用结合上文概述的相机阵列结构和成像技术的多种过程中的任一种来根据本发明的实施方案生成深度估计。例如，根据本发明的许多实施方案的相机阵列可以通过改变深度估计的采样和/或用来采样深度的空间分辨率，来改变相机阵列视野的不同区域内和/或在距相机阵列不同深度处的深度估计精度。根据本发明的各种实施方案执行深度估计的方式通常取决于给定应用的要求。

包括多个照明系统的相机阵列

本发明的一些实施方案可以利用多个照明系统来确定到场景中的对象的深度。图22中示出了根据本发明的一个实施方案的多基线相机阵列，该相机阵列使用了在AR/VR/MR头戴耳机中使用的两个近红外图案化光源。具体地讲，该相机阵列包括左相机子阵列2210和右相机子阵列2220，左相机子阵列包括沿着垂直轴对准的两个相机2201、2202，右相机子阵列包括三个相机2203、2204、2206。相机2203和2206沿着水平轴对准，相机2206和2204沿着垂直轴对准，并且相机2204和2203沿着斜(非零角)轴对准。中间相机子阵列2230包括设置在照明光源2209附近的单个参考相机2205。第二照明光源2208被设置在相机2204附近。使用多个照明光源可以提高确定场景中对象的深度的准确性。参考相机2205与相机2201和2206之间的距离为约7cm。此外，相机2206和2203之间的距离为约1cm，并且相机2206和2204之间的距离为约2cm。尽管图22示出了使用两个照明光源的多基线相机阵列，但是可以根据本发明的实施方案，按照具体应用的要求适当地利用多个不同照明光源中的任何一个。

包括可拆卸相机和照明源的AR/VR/MR头戴耳机

上文描述了将相机接合到AR/VR/MR头戴耳机的框架中的若干相机阵列，根据本发明的许多实施方案的相机阵列可以利用刚性地固定在AR/VR头戴耳机内的多个相机，以及可拆卸地连接到AR/VR头戴耳机的一个或多个相机和/或照明源。在许多实施方案中，可以将组装了一个或多个相机(或另一可拆卸部件)和/或照明源的移动电话听筒插入到VR头戴耳机框架中。通过将移动电话听筒锁定到位，组装在该听筒内的相机可以相对于VR头戴耳机框架中的相机对准以形成相机阵列。可以使用与上过程述相似的过程来确定相机的相对姿态并生成用于深度估计的合适的校准信息。下面进一步讨论组装了相机阵列的AR/VR/MR头戴耳机，其中相机阵列包括来自移动电话听筒的至少一个相机和AR/VR/MR头戴耳机框架内的至少一个相机。

图23中示出了根据本发明的一个实施方案的移动电话听筒，该移动电话听筒结合了在与VR头戴耳机框架内结合的相机组合时用作相机阵列的参考相机的相机。头戴耳机2300包括左相机子阵列2303、右相机子阵列2303，以及用于结合了参考相机2302的移动电话听筒的安装座。可以容易地理解，参考相机和结合在头戴耳机内的子阵列中的相机可具有相同的成像特性或不同的成像特性，具体取决于特定应用的要求。头戴耳机2300可以使用从各个相机2301至2303获得的用于各种不同应用的信息，包括从由两个或更多个相机捕获的场景的图像计算深度图。在某些实施方案中，相机阵列包括安装在头戴耳机2300内的照明源。在各种实施方案中，可以使用这样的照明源，其并入在插入头戴耳机2300(例如，移动电话听筒)内的可拆卸部件内。

尽管上面对图23的讨论参考了用作参考相机的移动电话的相机，但是可以使用各种可拆卸部件中的任何一个来为头戴耳机提供处理和/或成像功能。例如，当AR/MR应用需要实时深度计算时，某些实施方案可具有这样的AR/MR设备，该设备AR/MR具有主相机，该主相机与可拆卸相机阵列系统组合，该相机阵列系统可被锁定在AR/MR设备上的适当位置。此外，组装在头戴耳机内的相机可以用作参考相机，并且深度图可以(可选地)变换成移动电话听筒中相机的参考系，其在许多情况下主要用于捕获场景的彩色图像。此外，在一些实施方案中，相机阵列可以是包括用于确定深度的所有相机的移动电话，并且该移动电话可以附接到VR/AR/MR头戴耳机框架。可以容易地理解，这些特定相机以及在VR/AR/MR头戴耳机内的相机阵列中利用这些相机在很大程度上取决于给定应用的要求。

在一些实施方案中，VR头戴耳机中的相机可用于向使用者提示使用者周围环境中的对象。特别地，许多VR头戴耳机令使用者完全浸入到虚拟环境中，使得使用者不再能够看到其周围环境。因此，许多实施方案使用VR头戴耳机中的相机向使用者提供关于其周围环境的信息，诸如提醒使用者是否即将与障碍物碰撞，或者提醒使用者是否正在离开房间的某个区域。

虽然以上说明含有本发明的许多具体实施方案，但这些都不应理解为对本发明范围的限制，而应理解为其一个实施方案的示例。因此，本发明的范围不应由所示实施方案确定，而应由所附权利要求及其等同物确定。

Claims

1.一种头戴耳机，包括：

可穿戴的框架，所述框架具有左侧和右侧；以及

相机阵列，其中所述相机阵列包括：

定位在所述框架的所述左侧的相机的第一子阵列，所述第一子阵列包括被配置为捕获场景的图像或者场景的视频的至少两个相机，其中所述第一子阵列中的每个相机相对于所述第一子阵列中的每个其他相机具有固定的取向；

定位在所述框架的所述右侧的相机的第二子阵列，所述第二子阵列包括被配置为捕获所述场景的图像或者所述场景的视频的至少两个相机，其中所述第二子阵列中的每个相机相对于所述第二子阵列中的每个其他相机具有固定的取向；

定位在所述第一子阵列和所述第二子阵列之间的相机的第三子阵列，所述第三子阵列包括至少一个参考相机，所述至少一个参考相机被配置为捕获所述场景的图像或者所述场景的视频；和

定位在距所述至少一个参考相机阈值距离内的照明光源。

2.根据权利要求1所述的头戴耳机，其中相机的所述第一子阵列、所述第二子阵列和所述第三子阵列中的相机具有相同的成像特性。

3.根据权利要求1所述的头戴耳机，其中相机的所述第一子阵列和所述第二子阵列中的所述相机具有与所述至少一个参考相机不同的成像特性。

4.根据权利要求1所述的头戴耳机，其中相机的所述第一子阵列和所述第二子阵列中的所述相机各自具有与所述参考相机不同的核轴。

5.根据权利要求1所述的头戴耳机，其中相机的所述第一子阵列和所述第二子阵列中的相机全部是具有相同视野的单色相机。

6.根据权利要求5所述的头戴耳机，其中所述视野选自由70度和90度组成的组。

7.根据权利要求1所述的头戴耳机，其中：

所述第一子阵列中的相机被配置为使用所述场景中的对象在从所述第一子阵列中的每个相机获得的图像之间的视差偏移，生成所述场景的深度图；或者

所述第二子阵列中的相机被配置为使用所述场景中的对象在从所述第二子阵列中的每个相机获得的图像之间的视差偏移，细化所述场景的所述深度图。

8.根据权利要求7所述的头戴耳机，其中通过执行检测所述第一子阵列中的每个相机中的对象的偏移的差异搜索来生成所述场景的所述深度图，以基于所述第一子阵列中每个相机之间的基线距离和所述第一子阵列中每个相机的焦距来计算到对象的距离；以及

通过执行检测所述第二子阵列中的每个相机中的对象的偏移的差异搜索来生成所述场景的所述深度图，以基于所述第二子阵列中每个相机之间的基线距离和所述第二子阵列中每个相机的焦距来计算到所述对象的距离。

9.根据权利要求1所述的头戴耳机，其中所述第一子阵列和所述第二子阵列中的每个相机相对于所述第一子阵列和所述第二子阵列中的每个其他相机具有固定的取向。

10.根据权利要求1所述的头戴耳机，其中所述第一子阵列和所述第二子阵列之间的基线距离大于所述第一子阵列中的每个相机之间的基线距离和所述第二子阵列中的每个相机之间的基线距离。

11.根据权利要求10所述的头戴耳机，其中所述第一子阵列和所述第二子阵列之间的基线距离是12-14cm。

12.根据权利要求10所述的头戴耳机，其中所述第一子阵列中的每个相机之间的基线距离为大约1.5cm。

13.根据权利要求10所述的头戴耳机，其中所述第二子阵列中的每个相机之间的基线距离是大约1.5cm。