CN113436066A

CN113436066A - 用于多相机或其他环境的超分辨率深度图生成

Info

Publication number: CN113436066A
Application number: CN202110248537.XA
Authority: CN
Inventors: 库沙尔·卡尔达姆·维亚斯; 李英茂; 罗谌持; 陈前; 哈米德·拉希姆·谢赫; 柳荣俊; 迈克尔·奥利弗·波利
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-03-06
Filing date: 2021-03-05
Publication date: 2021-09-24
Also published as: US20210281813A1; WO2021177784A1; KR20210113100A; US11503266B2

Abstract

一种方法，包括：使用至少一个处理器获得第一输入图像帧和第二输入图像帧，其中第一输入图像帧和第二输入图像帧分别与第一图像平面和第二图像平面相关联。该方法还包括使用至少一个处理器获得与第一输入图像帧相关联的第一深度图。该方法还包括通过执行一次或多次以下操作来生成第二深度图：(a)使用至少一个处理器，使用(i)一深度图和(ii)标识从第一图像平面到第二图像平面的转换的信息，将第一输入图像帧投影到第二图像平面，以产生投影的图像帧；以及(b)使用至少一个处理器调整该深度图和标识从第一图像平面到第二图像平面的转换的信息中的至少一个。

Description

用于多相机或其他环境的超分辨率深度图生成

技术领域

本公开总体上涉及成像系统。更具体地，本公开涉及用于多相机或其他环境的超分辨率深度图生成。

背景技术

许多移动电子设备(例如智能手机和平板电脑)都包括可用于捕获静止图像和视频图像的相机。在许多这种移动电子设备中，可以基于场景内的不同估计深度，使用场景的捕获图像来执行各种图像处理操作。例如，“散景(bokeh)”是指通过使图像的离焦部分(例如图像的背景)模糊同时使图像的其他部分(例如前景或一个或多个被摄物)保持聚焦来帮助改善图像的美学质量的效果。在数码单镜反光(DSLR)相机或其他高端相机中，由于相机及其相关镜头的设计和操作，在捕获的图像中会光学地产生散景。但是，在诸如智能手机和平板电脑之类的移动电子设备中，散景通常是通过计算方式而非光学方式产生的。例如，移动电子设备可以估计图像内的场景中的各种深度，并且可以通过使与较大深度相关联的像素更多地模糊并使与较小深度相关联的像素更少地模糊或根本不模糊来产生散景。

发明内容

本公开提供了用于多相机或其他环境的超分辨率深度图生成。

在第一实施例中，一种方法包括：使用至少一个处理器获得第一输入图像帧和第二输入图像帧，其中所述第一输入图像帧和所述第二输入图像帧分别与第一图像平面和第二图像平面相关联。该方法还包括：使用所述至少一个处理器获得与所述第一输入图像帧相关联的深度图。该方法还包括通过执行一次或多次以下操作来生成所述深度图的另一个版本：(a)使用所述至少一个处理器，使用(i)所述深度图和(ii)标识从所述第一图像平面到所述第二图像平面的转换的信息，将所述第一输入图像帧投影到所述第二图像平面，以产生投影的图像帧；以及(b)使用所述至少一个处理器调整所述深度图和标识从所述第一图像平面到所述第二图像平面的转换的所述信息中的至少一个。

在第二实施例中，一种装置包括：至少一个存储器，被配置为存储第一输入图像帧和第二输入图像帧，其中所述第一输入图像帧和所述第二输入图像帧分别与第一图像平面和第二图像平面相关联。该装置还包括：至少一个处理器，被配置为获得与所述第一输入图像帧相关联的深度图。所述至少一个处理器还被配置为通过执行一次或多次以下操作来生成所述深度图的另一个版本：(a)使用(i)所述深度图和(ii)标识从所述第一图像平面到所述第二图像平面的转换的信息，将所述第一输入图像帧投影到所述第二图像平面，以产生投影的图像帧；以及(b)调整所述深度图和标识从所述第一图像平面到所述第二图像平面的转换的所述信息中的至少一个。

在第三实施例中，一种非暂时性计算机可读介质包含指令，这些指令在被执行时使得至少一个处理器获得第一输入图像帧和第二输入图像帧，其中所述第一输入图像帧和所述第二输入图像帧分别与第一图像平面和第二图像平面相关联。所述介质还包含在被执行时使得所述至少一个处理器获得与所述第一输入图像帧相关联的深度图的指令。所述介质还包含在被执行时使得所述至少一个处理器通过执行一次或多次以下操作来生成所述深度图的另一个版本的指令：(a)使用(i)所述深度图和(ii)标识从所述第一图像平面到所述第二图像平面的转换的信息，将所述第一输入图像帧投影到所述第二图像平面，以产生投影的图像帧；以及(b)调整所述深度图和标识从所述第一图像平面到所述第二图像平面的转换的所述信息中的至少一个。

根据下面的附图、描述和权利要求，其他技术特征对本领域技术人员而言可以是容易理解的。

附图说明

为了更完整地理解本公开及其优点，现在将参考结合附图的以下描述，其中相似的附图标记表示相似的部分：

图1示出了根据本公开的包括电子设备的示例网络配置；

图2和图3示出了根据本公开的用于在多相机或其他环境中生成超分辨率深度图的第一示例技术；

图4、图5和图6示出了根据本公开的用于在多相机或其他环境中生成超分辨率深度图的第二示例技术；

图7a、图7b和图7c示出了根据本公开的使用在多相机或其他环境中的超分辨率深度图生成可以获得的示例结果；

图8示出了根据本公开的用于在多相机或其他环境中生成超分辨率深度图的示例方法；

图9示出了用于说明相机投影模型的示例；以及

图10示出了用于说明如何将3D点从第一相机C₁投影到第二相机C_r的示例。

具体实施方式

在进行下面的详细描述之前，阐述贯穿本专利文件所使用的某些词语和短语的定义可能是有利的。术语“发送”、“接收”和“通信”及其派生词包括直接通信和间接通信这二者。术语“包含”和“包括”及其派生词意味着在没有限制的情况下的包含。术语“或”是包含性的，意味着和/或。短语“与...相关联”及其派生词意味着包括、被包括在...内、与...互连、包含、被包含在...内、连接到或与...连接、耦接到或与...耦接、可与...通信、与...协作、交织、并置、接近...、绑定到...或与...绑定、具有、具有...的属性、具有到...的关系或与...的关系等。

此外，下文所描述的各种功能可以由一个或多个计算机程序实现或支持，每个计算机程序由计算机可读程序代码形成并被实施在计算机可读介质中。术语“应用”和“程序”是指一个或多个计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其适于在适当的计算机可读程序代码中实现的部分。短语“计算机可读程序代码”包括任何类型的计算机代码，包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质，诸如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、高密度盘(CD)、数字视频盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质排除了传输暂时电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括其中能够永久存储数据的介质和其中能够存储数据且随后能够被重写的介质，诸如可重写的光盘或可擦除的存储器设备。

如本文所使用的，诸如“具有”、“可以具有”、“包括”或“可以包括”特征(例如，数字、功能、操作或诸如部件等组件)之类的术语和短语指示存在该特征，而不排除其他特征的存在。此外，如本文所使用的，短语“A或B”、“A和/或B中的至少一项”或“A和/或B中的一个或多个”可以包括A和B的所有可能组合。例如，“A或B”、“A和B中至少一项”和“A或B中至少一项”可以指示以下所有情形：(1)包括至少一个A，(2)包括至少一个B，或者(3)包括至少一个A和至少一个B。此外，如本文中所使用的，术语“第一”和“第二”可以修饰各种组件而与重要性无关，并且不限制这些组件。这些术语仅用来将组件彼此区分开。例如，第一用户设备和第二用户设备可以指示彼此不同的用户设备，而与设备的顺序或重要性无关。在不脱离本公开范围的情况下，第一组件可以被称为第二组件，反之亦然。

应该理解，当一元件(例如，第一元件)被称为(操作地或者通信地)“耦接至”或者“连接至”另一元件(例如，第二元件)时，该元件可以直接耦接或连接至该另一元件，或者可以经由第三元件耦接或连接至该另一元件。相反，将理解的是，当一元件(例如，第一元件)被称为“直接耦接至”或“直接连接至”另一元件(例如，第二元件)时，没有其他元件(例如，第三元件)介于该元件和该另一元件之间。

如本文所使用的，取决于场景，短语“被配置(或设置)为”可以与短语“适合于”、“具有......的能力”、“被设计为”、“适于”、“被制造为”或者“能够......”互换使用。短语“被配置(或设置)为”不是在本质上意味着“在硬件上被专门设计为”。更确切地说，短语“被配置为”可以意指一设备能够与另一设备或部件一起执行操作。例如，短语“被配置(或设置)为执行A、B和C的处理器”可以表示可以通过执行存储在存储器设备中的一个或多个软件程序来执行操作的通用处理器(例如，CPU或应用处理器)、或者用于执行操作的专用处理器(例如，嵌入式处理器)。

本文使用的术语和短语仅被设置为描述本公开的一些实施例，而不限制本公开的其他实施例的范围。将理解，单数形式“一”、“一个”和“该”包括复数指代，除非上下文另外清楚地说明。这里使用的包括技术和科学术语和短语在内的所有术语和短语具有本公开实施例所属领域的普通技术人员通常所理解的相同意义。还应理解，诸如在常用词典中定义的术语和短语等的术语和短语应被解释为其含义与在相关技术的上下文中的含义相一致，而不应将其解释为理想的或过于正式的含义，除非本文明确如此定义。在一些情况下，本文中定义的术语和短语可以被解释为排除本公开的实施例。

根据本公开实施例的“电子设备”的示例可以包括以下至少一项：智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书(e-book)阅读器、台式PC、膝上型计算机、上网本计算机、工作站、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机或可穿戴设备(例如，智能眼镜、头戴式设备(HMD)、电子服装、电子手镯、电子项链、电子配饰、电子纹身、智能镜子或智能手表)。电子设备的其他示例包括智能家用电器。智能家用电器的示例可以包括以下至少一项：电视、数字视频盘(DVD)播放器、音频播放器、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、干燥器、空气净化器、机顶盒、家庭自动控制面板、安全控制面板、TV盒(例如，SAMSUNG HOMESYNC、APPLE TV或GOOGLE TV)、智能扬声器或带有集成数字助理的扬声器(例如SAMSUNG GALAXYHOME、APPLE HOMEPOD或AMAZONECHO)、游戏机(例如，XBOX、PLAYSTATION或NINTENDO)、电子词典、电子钥匙、摄像机或电子相框。电子设备的再其他示例包括以下至少一项：各种医疗设备(例如，多功能便携式医疗测量设备(例如，血糖测量设备、心跳测量设备或体温测量设备)、磁共振血管造影(MRA)设备、磁共振成像(MRI)设备、计算机断层扫描(CT)设备、成像设备或超声设备)、导航设备、全球定位系统(GPS)接收器、事件数据记录仪(EDR)、飞行数据记录仪(FDR)、汽车信息娱乐设备、航海电子设备(例如，航海导航设备或陀螺罗盘)、航空电子设备、安全设备、车辆头单元、工业或家庭机器人、自动柜员机(ATM)、销售点(POS)设备或物联网(IoT)设备(例如，灯泡、各种传感器、电表或燃气表、洒水器、火警、恒温调节器、街灯、烤面包机、健身器材、热水箱、加热器或烧水壶)。电子设备的其他示例包括：家具或建筑物/结构的至少一部分、电子板、电子签名接收设备、投影仪或各种测量仪器(例如，用于测量水、电、燃气或电磁波的设备)。注意，根据本公开的各种实施例，电子设备可以是以上列出的设备之一或组合。根据本公开的一些实施例，电子设备可以是柔性电子设备。本文公开的电子设备不限于以上列出的设备，并且可以根据技术的发展包括新的电子设备。

在以下描述中，根据本公开的各种实施例，参考附图对电子设备进行描述。如本文所使用的，术语“用户”可以表示使用电子设备的人或另一设备(例如，人工智能电子设备)。

贯穿本专利文件可以提供对其他某些词语和短语的定义。本领域普通技术人员应该理解：在许多情况下(如果不是大多数情况)，这样的定义适用于这样定义的词语和短语的先前以及将来的使用。

本申请中的描述不应被解读为暗示任何特定的元素、步骤或功能是必须包括在权利要求范围中的基本要素。专利主题的范围仅由权利要求限定。权利要求中的任何其他术语(包括但不限于“机制”、“模块”、“设备”、“单元”、“组件”、“元件”、“构件”、“装置”、“机器”、“系统”、“处理器”或“控制器”)的使用被申请人理解为指代相关领域技术人员已知的结构。

参考附图描述下面讨论的图1至图10以及本公开的各种实施例。然而，应理解，本公开不限于这些实施例，并且对这些实施例的所有改变和/或等同或替换也属于本公开的范围。

如上所述，许多移动电子设备(例如智能手机和平板电脑)都包括可用于捕获静止图像和视频图像的相机。在许多这种移动电子设备中，可以基于场景内的不同估计深度，使用场景的捕获图像来执行各种图像处理操作。通常使用深度图来标识和表示场景中的深度。深度图通常基于捕获的图像，其中深度图中的每个像素对应并标识与捕获的图像中的至少一个像素相关联的深度。深度图可被用于执行涉及捕获的图像的一个或多个图像处理操作。但是，可以使用电子设备捕获的图像的分辨率随着时间的推移而提高。当前，可以使用电子设备以“4K”分辨率(例如3840×2160)或甚至更高分辨率来捕获图像。直接从高分辨率图像计算深度图在计算上是昂贵且费时的。在某些情况下，例如由于电子设备中计算能力或硬件的限制，甚至可能无法直接从高分辨率图像计算深度图。虽然可以简单地创建较低分辨率的深度图，然后对该较低分辨率的深度图进行上采样以生成较高分辨率的深度图，但这种方法通常会丢失场景中很多与深度有关的细节。

本公开提供了用于在多相机或其他环境中生成超分辨率深度图的各种技术。如以下更详细描述的，使用由电子设备的一个或多个成像传感器捕获的或从存储图像的存储器获得的多个高分辨率输入图像帧来生成高分辨率深度图。这通常涉及创建初始的高分辨率深度图，该初始的高分辨率深度图是使用低分辨率深度图生成的。使用优化过程重复或迭代地完善该初始的高分辨率深度图，该过程可以按以下所述的各种方式实现。优化过程改进该初始的高分辨率深度图，从而生成场景的最终的高分辨率深度图，该最终的高分辨率深度图恢复丢失的细节并校正错误的深度值(与原始的低分辨率深度图相比)。

以这种方式，可以显著提高场景的深度图的分辨率。结果，与简单地对低分辨率深度图进行上转换相比，可以以改进的精度和改进的细节来生成深度图。这也使各种图像处理操作能够获得更加美观或准确的结果。高分辨率深度图的生成可以用于各种图像处理应用，例如散景图像生成、深度感知去模糊、图像重新照明、增强现实(AR)、混合现实(MR)、视觉即时定位与地图构建(SLAM)、测距法以及与动漫表情相关的处理。此外，与直接从高分辨率输入图像生成高分辨率深度图相比，以下所述的技术可以在明显更短的时间内使用明显更少的计算生成高分辨率深度图。因此，下述技术可以在较高功率的电子设备中更快地执行，并且可以在具有较少或较低功率资源(例如较慢的处理器)的电子设备中实现。

图1示出了根据本公开的包括电子设备的示例网络配置100。图1所示的网络配置100的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用网络配置100的其他实施例。

根据本公开的实施例，电子设备101被包括在网络配置100中。电子设备101可以包括总线110、处理器120、存储器130、输入/输出(I/O)接口150、显示器160、通信接口170、传感器180和闪光灯190中的至少之一。在一些实施例中，电子设备101可以排除这些组件中的至少一个，或者可以添加至少一个其他组件。总线110包括用于将组件120至190彼此连接并且用于在这些组件之间传输通信(例如控制消息和/或数据)的电路。

处理器120包括中央处理单元(CPU)、图形处理器单元(GPU)、应用处理二器(AP)或通信处理器(CP)中的一项或多项。处理器120能够对电子设备101的至少一个其他组件执行控制，和/或执行与通信相关的操作或数据处理。例如，在本公开的一些实施例中，处理器120可以获得输入图像帧并执行一个或多个图像处理操作，这些操作包括一个或多个高分辨率深度图的生成或使用。

输入图像帧可以由电子设备的一个或多个成像传感器捕获或从电子设备中的存储器获得。例如，输入图像帧可以是未处理的原始RGB图像或sRGB图像。或者，输入图像帧可以是彩色滤光片阵列数据，例如原始拜耳图案数据。未处理的原始RGB图像是从传感器(如电荷耦合器件(CCD)传感器或互补金属氧化物半导体(CMOS)传感器)获得的图像数据，并且未经ISP(集成信号处理器)处理。sRGB图像是经ISP处理的图像数据。但是，sRGB图像是预定图像格式的示例，基于如下其他格式处理的图像可以是输入图像帧之一，所述其他格式是基于RGB的格式(例如Adobe RGB、Prophoto RGB)、基于CYMK的格式(例如SWOP CMYK)或基于YCbCr的格式。存储器130可以包括易失性和/或非易失性存储器。例如，存储器130可以存储与电子设备101的至少一个其他组件有关的命令或数据。根据本公开的实施例，存储器130可以存储软件和/或程序140。程序140包括例如内核141、中间件143、应用编程接口(API)145和/或应用程序(或“应用”)147。内核141、中间件143或API 145中的至少一部分可以被表示为操作系统(OS)。

内核141可以控制或管理用于执行在其他程序(例如，中间件143、API 145或应用147)中实现的操作或功能的系统资源(例如，总线110、处理器120或存储器130)。内核141提供允许中间件143、API145或应用147访问电子设备101的各个组件以控制或管理系统资源的接口。应用147可以包括一个或多个应用，这些应用除执行其他操作外还获得输入图像帧并执行一个或多个图像处理操作，这些图像处理操作可以包括一个或多个高分辨率深度图的生成或使用。这些功能可以由单个应用执行，也可以由多个应用执行，该多个应用中的每个应用执行这些功能中的一个或多个功能。例如，中间件143可以作为中继二器，以允许API145或应用147与内核141进行数据通信。可以提供多个应用147。中间件143能够控制从应用147接收到的工作请求，诸如通过将使用电子设备101的系统资源(例如总线110、处理器120或存储器130)的优先级分配给多个应用147中的至少一个应用。API 145是允许应用147控制从内核141或中间件143提供的功能的接口。例如，API 145包括用于归档控制、窗口控制、图像处理或文本控制的至少一个接口或功能(例如，命令)。

I/O接口150用作可以例如将从用户或其他外部设备输入的命令或数据传输至电子设备101的其他组件的接口。I/O接口150也可以将从电子设备101的其他组件接收的命令或数据输出给用户或其他外部设备。

显示器160包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、量子点发光二极管(QLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。显示器160也可以是深度感知显示器，例如多焦点显示器。显示器160能够向用户显示例如各种内容(例如文本、图像、视频、图标或符号)。显示器160可以包括触摸屏，并可以接收例如通过使用电子笔或用户的身体部位进行的触摸、手势、接近或悬停输入。

通信接口170例如能够在电子设备101和外部电子设备(例如，第一电子设备102、第二电子设备104或服务器106)之间建立通信。例如，通信接口170可以通过无线或有线通信与网络162或164相连以与外部电子设备通信。通信接口170可以是有线或无线收发器、或用于发送和接收诸如图像之类的信号的任何其他组件。

无线通信能够使用例如以下至少一项作为蜂窝通信协议：长期演进(LTE)、高级长期演进(LTE-A)、第五代无线系统(5G)、毫米波或60GHz无线通信、无线USB、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)。有线连接可以包括例如以下至少一项：通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准232(RS-232)或普通老式电话服务(POTS)。网络162或164包括至少一个通信网络，例如，计算机网络(例如，局域网(LAN)或广域网(WAN))、互联网或电话网。

电子设备101还包括一个或多个传感器180，传感器180可以计量物理量或检测电子设备101的激活状态，并将所计量或检测到的信息转换为电信号。例如，一个或多个传感器180包括一个或多个相机或其他成像传感器，其可用于捕获场景的图像。传感器180还可以包括用于触摸输入的一个或多个按钮、一个或多个麦克风、手势传感器、陀螺仪或陀螺仪传感器、气压传感器、磁性传感器或磁力计、加速度传感器或加速度计、握持传感器、接近传感器、颜色传感器(例如，红绿蓝(RGB)传感器)、生物物理传感器、温度传感器、湿度传感器、照度传感器、紫外(UV)传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外(IR)传感器、超声传感器、虹膜传感器或指纹传感器。传感器180可以进一步包括惯性测量单元，该惯性测量单元可以包括一个或多个加速度计、陀螺仪和其他组件。此外，传感器180可以包括用于控制这里包括的至少一个传感器的控制电路。这些传感器180中的任何一个都可以位于电子设备101内。一个或多个相机或其他成像传感器180可以可选地与至少一个闪光灯190结合使用。闪光灯190表示被配置为产生供电子设备101进行图像捕获所用的照明的设备，例如一个或多个LED。

第一外部电子设备102或第二外部电子设备104可以是可穿戴设备或能够安装电子设备的可穿戴设备(诸如HMD)。当将电子设备101安装在电子设备102(例如HMD)中时，电子设备101可以通过通信接口170与电子设备102通信。电子设备101可以直接与电子设备102连接以与电子设备102通信，而不涉及单独的网络。电子设备101也可以是包括一个或多个相机的增强现实可穿戴设备，例如眼镜。

第一和第二外部电子设备102和104以及服务器106均可以是与电子设备101相同或不同类型的设备。根据本公开的某些实施例，服务器106包括具有一个或多个服务器的组。此外，根据本公开的某些实施例，在电子设备101上执行的全部或一些操作可以在另一其他电子设备或多个其他电子设备(例如，电子设备102和104或服务器106)上执行。此外，根据本公开的某些实施例，当电子没备101应自动地或者根据请求执行一些功能或服务时，代替其自身执行该功能或服务或者附加地，电子设备101可以请求另一设备(例如，电子设备102和104或服务器106)执行与该功能或服务相关联的至少一些功能。其他电子设备(例如，电子设备102和104或服务器106)能够执行所请求的功能或附加功能，并向电子设备101传送执行的结果。电子设备101可以通过按原样或附加地处理接收到的结果来提供所请求的功能或服务。为此，例如，可以使用云计算、分布式计算或客户端-服务器计算技术。尽管图1示出了电子设备101包括通信接口170以经由网络162或164与外部电子设备104或服务器106通信，但是根据本公开的一些实施例，电子设备101可以独立地操作而没有单独的通信功能。

服务器106可以包括与电子设备101相同或相似的组件(或其合适的子集)。服务器106可以通过执行在电子设备101上实现的至少一个操作(或功能)来支持驱动电子设备101。例如，服务器106可以包括可以支持在电子设备101中实现的处理器120的处理模块或处理器。在一些实施例中，服务器106可以执行一个或多个应用，这些应用除执行其他操作外还获得输入图像帧并执行一个或多个图像处理操作，这些图像处理操作可以包括一个或多个高分辨率深度图的生成或使用。

尽管图1示出了包括电子设备101在内的网络配置100的一个示例，但是可以对图1进行各种改变。例如，网络配置100可以包括任何数量的、具有任何合适布置的各种组件。通常，计算和通信系统具有各种各样的配置，且图1不将本公开的范围限制于任何特定配置。此外，虽然图1示出了其中可以使用本专利文档中公开的各种特征的一个操作环境，但是这些特征可以用于任何其他合适的系统中。

以下描述了用于在多相机或其他环境中生成超分辨率深度图的几种示例技术。注意，这些技术可能涉及使用多个相机或其他成像传感器180或单个相机或其他成像传感器180。因此，在一些实施例中，可以使用多个相机或其他成像传感器180来捕获多个输入图像帧(可能同时地)。在其他实施例中，可以使用单个相机或其他成像传感器180快速连续地捕获多个图像，其中成像传感器180在图像捕获之间移动。结果，可以由多个相机或其他成像传感器180或由单个相机或其他成像传感器180，捕获以下描述的第一输入图像帧和第二输入图像帧。在任一情况下，第一输入图像帧和第二输入图像帧与不同的图像平面相关联，所述不同的图像平面是指在捕获输入图像帧时一个或多个成像传感器180的平面。

图2和图3示出了根据本公开的用于在多相机或其他环境中生成超分辨率深度图的第一示例技术200。为了便于解释，将图2和图3所示的技术200描述为涉及使用在图1的网络配置100中的电子设备101。但是，图2和图3所示的技术200可以与任何其他合适的设备一起使用，并且可以在任何其他合适的系统中使用。

如图2所示，使用电子设备101捕获或以其他方式获得多个输入图像帧，其中包括第一输入图像帧202和第二输入图像帧204。可以使用电子设备101的不同的相机或其他成像传感器180同时捕获输入图像帧202和204。作为特定示例，输入图像帧202和204可以由电子设备101的一对立体相机或其他立体成像传感器180同时捕获。然而，如上所述，也可以例如利用在图像捕获之间移动的单个的相机或其他成像传感器180顺序地捕获输入图像帧202和204。输入图像帧202和204可以响应于捕获事件而被捕获，例如当处理器120检测到用户通过按下电子设备101的硬按钮或软按钮而发起图像捕获时。输入图像帧202和204可以具有任何合适的分辨率，例如3840×2160的4K分辨率或更高的分辨率。输入图像帧202和204的分辨率可以取决于电子设备101中的成像传感器180的能力，并且可能地取决于影响分辨率的一项或多项用户设置。在某些情况下，输入图像帧202和204可以表示RGB图像帧。

电子设备101还生成或以其他方式获得低分辨率深度图206。低分辨率深度图206表示在输入图像帧202和204中的至少一个中捕获的场景的初始深度图。然而，与输入图像帧202和204相比，低分辨率深度图206具有较低的分辨率。作为特定示例，如果输入图像帧202和204具有3840×2160的分辨率，则低分辨率深度图206可以具有960×540的分辨率。低分辨率深度图206可以以任何合适的方式生成。在一些实施例中，低分辨率深度图206是使用输入图像帧202和204之一生成的。下面通常假定低分辨率深度图206是使用输入图像帧202生成的，但是也可以使用输入图像帧204生成低分辨率深度图206。用于针对图像生成深度图的各种技术在本领域中是已知的，这里可以使用这些技术中的任何一种。在其他实施例中，可以按照如后文所述的方式来生成低分辨率深度图。注意，这里可以使用任何合适的技术来生成低分辨率深度图206，并且本公开不限于用于生成低分辨率深度图206的任何特定技术。

将输入图像帧202和204以及低分辨率深度图206提供给引导式深度超分辨率(DSR)算法208，该算法处理该信息以生成高分辨率深度图210。高分辨率深度图210表示与输入图像帧202和204中的至少一个相关联的深度图，并且与低分辨率深度图206相比，高分辨率深度图210具有较高的分辨率。例如，在一些实施例中，高分辨率深度图210可以具有与输入图像帧202和204的分辨率匹配的分辨率。作为特定示例，如果输入图像帧202和204具有3840×2160的分辨率，则高分辨率深度图210可以具有3840×2160的匹配分辨率。在这些类型的实施例中，高分辨率深度图210中的每个像素对应并标识输入图像帧202和204中的至少一个中的像素的深度。

引导式DSR算法208的一种示例实现方式在图3中示出。如图3所示，引导式DSR算法208接收输入图像帧202和204，并执行姿势估计功能302。姿势估计功能302用于确定在捕获输入图像帧202和204时由一个或多个相机或其他成像传感器180使用的图像平面之间的姿势差异。姿势估计功能302生成标识从输入图像帧202的图像平面到输入图像帧204的图像平面的转换的信息。在此，该信息包括旋转值和平移值304，这些值定义了输入图像帧202和204的图像平面如何不同。例如，如果输入图像帧202和204由不同的相机或其他成像传感器180同时捕获，则旋转值和平移值304可以基于在图像捕获时成像传感器180的不同图像平面。如果输入图像帧202和204由单个的相机或其他成像传感器180顺序地捕获，则旋转值和平移值304可以基于成像传感器180在不同的图像捕获时间的不同图像平面。平移通常是指图像平面之间在指定方向上(例如，沿着第一和第二正交轴)的差异。旋转通常是指图像平面之间绕第三轴旋转的差异，该第三轴可以正交于第一轴和第二轴。

用于标识图像平面之间的旋转和平移差异的各种技术在本领域中是已知的，例如运动恢复结构技术。作为特定示例，电子设备101的处理器120可以标识输入图像帧202和204中的n对稀疏点，其中n至少为八。稀疏点可以表示为

其中p^l表示第一输入图像帧的稀疏点，而p²表示第二输入图像帧的稀疏点。然后，电子设备101的处理器120可以通过求解p¹[T]×Rp²＝0来计算旋转R和平移T的值。注意，这里可以使用任何合适的技术来执行姿势估计并生成旋转值和平移值304，本公开不限于用于生成旋转值和平移值304的任何特定技术。旋转值和平移值304可以分别表示为

和

为了更好地理解，将参考图10再次说明用于识别图像平面之间的旋转和平移差异的特定运动恢复结构技术。

上采样功能306接收低分辨率深度图206并产生高分辨率或上采样的深度图308，其最初被称为粗略深度图。深度图308可以具有与输入图像帧202和204相同的分辨率，例如4K分辨率或其他分辨率。然而，因为深度图308是通过对低分辨率深度图206进行上采样而产生的，所以与输入图像帧202和204相比，深度图308最初缺少精细的细节，这就是为什么深度图308最初可以被称为粗略深度图的原因。用于对图像数据进行上采样的各种技术在本领域中是已知的，例如最近邻上采样技术。注意，这里可以使用任何合适的技术来执行上采样并生成上采样的深度图308，本公开不限于用于生成上采样的深度图308的任何特定技术。深度图308可以被表示为

如上所述，在一些实施例中，可以使用输入图像帧202来生成低分辨率深度图206，在这种情况下，上采样的深度图308可以与输入图像帧202相关联或基于输入图像帧202(并因此与用于捕获输入图像帧202的图像平面相关联)。

深度图坐标转换功能310接收深度图308以及旋转值和平移值304。深度图坐标转换功能310通常用于将深度图308从输入图像帧202的坐标系(坐标框架)转换到输入图像帧204的坐标系(坐标框架)，从而产生转换后的深度图312。换句话说，深度图坐标转换功能310基于旋转值和平移值304将深度图308从用于捕获输入图像帧202的图像平面转换到用于捕获输入图像帧204的图像平面。例如，深度图坐标转换功能310可以从深度图308识别点云，其中该点云包括深度图308中的大量指定点。深度图坐标转换功能310可以将旋转值和平移值304应用于所识别的点云，以便识别转换后的深度图312中的对应点。注意，可以在点云中识别任意合适数量的点，并使用旋转值和平移值304处理这些点，以产生转换后的深度图312。转换后的深度图312可以表示为

图像投影功能314使用转换后的深度图312，将第一输入图像帧202投影到与第二输入图像帧204相关联的图像平面。例如，图像投影功能314可以使用转换后的深度图312，将由一个相机或其他成像传感器180捕获的第一输入图像帧202投影到与另一个相机或其他成像传感器180相关联的图像平面。作为另一示例，图像投影功能314可以使用转换后的深度图312，将由相机或其他成像传感器180在一个时间捕获的第一输入图像帧202投影到与在不同时间的同一相机或其他成像传感器180相关联的图像平面。图像投影功能314的结果是输入图像帧202的投影版本，其被称为投影的图像帧316。投影的图像帧316表示如果在用于捕获第二输入图像帧204的图像平面处捕获了第一输入图像帧202则对第一输入图像帧202可能看起来像什么的估计，这基于深度图308的当前版本。投影的图像帧316可以表示为

在这一点上，投影的图像帧316可以与第二输入图像帧204相似但不完全匹配。除了其他事项以外，这是由于以下事实：投影的图像帧316是使用初始的深度图308和初始的旋转值和平移值304(它们可能是粗略值)生成的。在图3中，通过迭代地对深度图308和/或旋转值和平移值304进行调整，来改进第二输入图像帧204与投影的图像帧316之间的匹配。因此，在图3中，将投影的图像帧316和第二输入图像帧204提供给损失最小化功能318，该损失最小化功能318通常用于使损失函数最小化，以便更新深度图308和/或旋转值和平移值304。

这里可以使用任何合适的损失函数来帮助缩小第二输入图像帧204与投影的图像帧316之间的差距(gap)。在一些实施例中，损失最小化功能318使用基于以下三个因素的组合的损失函数，即：(i)第二输入图像帧204与投影的图像帧316之间的光度学损失的度量，(ii)深度图308中的总方差的度量，以及(iii)在第一输入图像帧202中识别的边缘与在深度图308中识别的边缘之间的误差的度量。在特定实施例中，损失最小化功能318可以使用以下损失函数：

在这里，I₂表示第二输入图像帧204，并且投影的图像帧

在这里显示为深度图

以及旋转值和平移值

和

的函数。稍后将参考图10说明有关将相机位置1的图像平面的I₁投影到位置2处的相机的图像平面作为

的具体过程。另外，ΔI₁表示包含在第一输入图像帧202中的边缘，并且

表示包含在深度图308中的边缘。这里的表达式

定义了第二输入图像帧204与投影的图像帧316之间的光度学损失。这里的表达式

定义了深度图

的总方差。这里的表达式

定义了在第一输入图像帧202和深度图308中识别的边缘之间的误差。

更新功能320可用于基于损失最小化功能318的结果来更新深度图308和/或旋转值和平移值304，从而反馈更新后的深度图308和/或更新后的旋转值和平移值304。然后，深度图坐标转换功能310可以使用更新后的深度图308和/或更新后的旋转值和平移值304来生成另一个转换后的深度图312，图像投影功能314可以使用该另一个转换后的深度图312来产生更新后的投影的图像帧316。更新后的投影的图像帧316可以由损失最小化功能318再次处理，并且可以对深度图308和/或旋转值和平移值304进行额外更新。该迭代过程可以继续进行，直到满足至少一个指定条件为止，指定条件例如是测得的损失低于指定的阈值或完成了指定的迭代次数。在某些情况下，此过程通常可能需要三到五次迭代以使测得的损失降至指定的阈值以下。此外，在某些情况下，指定的迭代次数可以基于使用期间通常可能发生的预期最大迭代次数。

通过利用多次迭代将附加细节添加到深度图308中，这里的迭代有助于细化深度图308的原始版本。由于深度图308的原始版本基于缺少精细细节的经上采样的低分辨率深度图206，因此这实质上有助于恢复丢失的细节。此外，这有助于校正可能包含在原始深度图206或308中的错误深度值。一旦迭代结束，就可以输出高分辨率深度图210，其中高分辨率深度图210表示深度图308的最终更新版本。在此示例中，高分辨率深度图210被示出为从更新功能320输出，但是高分辨率深度图210可以由任何其他合适的组件(例如，用于存储深度图308的最终更新版本的存储器)提供。

与直接从高分辨率输入图像帧202或204计算高分辨率深度图210相比，这里示出的过程可以在明显更短的时间内使用明显更少的计算来产生高分辨率深度图210。例如，使用从4K图像帧直接生成的方法，可能需要在大约12秒的时段上进行大约十亿次乘法累加操作，以从4K图像帧生成4K深度图。使用上面参照图2和图3所述的方法，可能会花费不到两秒的时间进行大约一亿次乘法累加操作，以生成高分辨率深度图210。对于如移动智能手机和平板电脑之类的电子设备，这种时间上的缩减可能非常显著，尤其是在用户满意度方面。

这里示出的方法实质上支持在确定深度时用于多平面引导的深度连续和空间不连续技术。这里，两个原始的输入图像帧202和204用作引导图像，并帮助引导高分辨率深度图210的生成。而且，这里使用的引导可以独立于输入图像帧202和204中的图像强度，这有助于避免诸如基于对比度的深度不连续之类的问题。此外，这里可以仅基于深度变化来顾及多平面考虑，以帮助在高分辨率深度图210中保留边缘。

尽管图2和图3示出了用于在多相机或其他环境中生成超分辨率深度图的第一种示例技术200，但是可以对图2和图3进行各种改变。例如，可以接收和处理多于两个的输入图像帧。而且，这里生成的高分辨率深度图210可以用于任何数量的图像处理应用中。

图4、图5和图6示出了根据本公开的用于在多相机或其他环境中生成超分辨率深度图的第二示例技术400。为了便于说明，将图4、图5和图6所示的技术400描述为涉及使用在图1的网络配置100中的电子设备101。然而，图4、图5和图6所示的技术400可以与任何其他合适的设备一起使用，并且可以在任何其他合适的系统中使用。

如图4所示，使用电子设备101捕获或以其他方式获得多个输入图像帧，其中包括第一输入图像帧402和第二输入图像帧404。可以使用电子设备101的不同的相机或其他成像传感器180同时捕获输入图像帧402和404，例如通过电子设备101的一对立体相机或其他立体成像传感器180。然而，如上所述，也可以例如利用在图像捕获之间移动的单个的相机或其他成像传感器180顺序地捕获输入图像帧402和404。输入图像帧402和404可以响应于捕获事件而被捕获，例如当处理器120检测到用户通过按下电子设备101的硬按钮或软按钮而发起图像捕获时。输入图像帧402和404可以具有任何合适的分辨率，例如3840×2160的4K分辨率或更高的分辨率。输入图像帧402和404的分辨率可以取决于电子设备101中的成像传感器180的能力，并且可能地取决于影响分辨率的一项或多项用户设置。在某些情况下，输入图像帧402和404可以表示RGB图像帧。

将输入图像帧402和404提供给机器学习或人工智能(AI)深度和引导式DSR算法408。AI深度和引导式DSR算法408使用输入图像帧402和404中的至少一个来产生低分辨率深度图。AI深度和引导式DSR算法408还使用低分辨率深度图以及输入图像帧402和404来产生高分辨率深度图410。因此，与在图2中以某种未指定的方式获得低分辨率深度图206的情况不同，图4中的低分辨率深度图是作为对输入图像帧402和404的处理的一部分而产生的。因此，图4中的方法允许训练机二器学习算法以生成低分辨率深度图，并允许训练机器学习算法以生成高分辨率深度图410。这里的低分辨率深度图表示在输入图像帧402和404中捕获的场景的初始深度图，但是与输入图像帧402和404相比，该低分辨率深度图具有较低的分辨率。作为特定示例，如果输入图像帧402和404具有3840×2160的分辨率，则低分辨率深度图可以具有960×540的分辨率。可以按照下面针对图5所述的方式生成低分辨率深度图。

高分辨率深度图410表示与输入图像帧402和404中的至少一个相关联的深度图，并且高分辨率深度图410与低分辨率深度图相比具有较高的分辨率。例如，在一些实施例中，高分辨率深度图410可以具有与输入图像帧402和404的分辨率匹配的分辨率。作为特定示例，如果输入图像帧402和404具有3840×2160的分辨率，则高分辨率深度图410可以具有3840×2160的匹配分辨率。在这些类型的实施例中，高分辨率深度图410中的每个像素对应并标识输入图像帧402和404中的至少一个中的像素的深度。

AI深度和引导式DSR算法408的一种示例实现方式在图5中示出。如图5所示，AI深度和引导式DSR算法408接收输入图像帧402和404，并执行姿势估计功能502。姿势估计功能502可以与上文中描述的姿势估计功能302相同或相似。姿势估计功能502生成旋转值和平移值504，这些值定义了输入图像帧402和404的图像平面如何不同。

卷积层506a至506d的集合也用于处理输入图像帧402和404。每个卷积层506a至506d将卷积函数应用于其输入以生成其输出。卷积层506a至506d通常表示卷积神经元的层，其应用模拟单个神经元对视觉刺激的响应的卷积函数。每个神经元通常将某函数应用于其输入值(通常通过对不同输入值不同地进行加权)以生成输出值。卷积层506a至506d可以与激活函数相关联，该激活函数可以将特定函数或运算应用于神经元的输出值以产生卷积层的最终输出。在该示例中，第一卷积层506a接收并处理输入图像帧402和404，并且其余卷积层506b至506d各自接收并处理来自先前卷积层506a至506c的输出。每个卷积层506a至506d的输出具有比其输入低的分辨率。最后的卷积层506d的输出表示低分辨率深度图508。注意，尽管这里示出了使用四个卷积层506a至506d来产生低分辨率深度图508，但是AI深度和引导式DSR算法408可以支持任何合适数量的卷积层。

上采样层510从卷积层506d接收低分辨率深度图508，并产生较高分辨率或上采样的深度图512，其最初被称为粗略深度图。深度图512可以具有与输入图像帧402和404相同的分辨率，例如4K分辨率或其他分辨率。然而，因为深度图512是通过对低分辨率深度图508进行上采样而产生的，所以与输入图像帧402和404相比，深度图512最初缺少精细的细节，这就是为什么深度图512最初可以被称为粗略深度图的原因。注意，这里可以使用任何合适的技术来执行上采样并生成上采样的深度图512(诸如最近邻上采样技术)，本公开不限于用于生成上采样的深度图512的任何特定技术。

将深度图512提供给DSR层514a至514e的集合，DSR层514a至514e实现引导式深度超分辨率算法的其余功能。例如，DSR层514a至514e可以重复地细化上采样的深度图512，以产生高分辨率深度图410。注意，AI深度和引导式DSR算法408可以支持任何合适数量的DSR层。在一些实施例中，尽管可以使用其他数量的DSR层，但是AI深度和引导式DSR算法408可以包括三到五个DSR层。这里的前馈路径516可以用于将诸如输入图像帧402和404的信息从卷积层506a提供给DSR层514a至514e。

每个DSR层514a至514e的一种示例实现方式在图6中示出。如图6所示，每个DSR层514a至514e接收输入深度图601。在第一个DSR层514a中，输入深度图601可以表示由上采样层510生成的上采样的深度图512。在每个后续的DSR层514b至514e中，输入深度图601可以表示由前一DSR层产生的更新后的深度图。每个DSR层514a至514e还接收输入旋转值和平移值602。在第一个DSR层514a中，输入旋转值和平移值602可以表示由姿势功能502生成的旋转值和平移值504。在每个后续的DSR层514b至514e中，输入旋转值和平移值602可以表示由前一DSR层产生的更新后的旋转值和平移值。

深度图坐标转换功能610使用输入深度图601和输入旋转值和平移值602，将深度图601从输入图像帧402的坐标系(坐标框架)转换到输入图像帧404的坐标系(坐标框架)，从而产生转换后的深度图612。图像投影功能614使用转换后的深度图612，将第一输入图像帧402投影到与第二输入图像帧404相关联的图像平面。图像投影功能614的结果是输入图像帧402的投影版本，其被称为投影的图像帧616。将投影的图像帧616和第二输入图像帧404提供给损失最小化功能618，该损失最小化功能618通常用于最小化损失函数，以便更新深度图601和/或旋转值和平移值602。这里可以使用任何合适的损失函数来帮助缩小第二输入图像帧404与投影的图像帧616之间的差距，诸如上文中描述的损失函数(如等式(1)中的损失函数)。

更新功能620可以用于基于损失最小化功能618的结果来更新深度图601和/或旋转值和平移值602，并且更新后的深度图601和/或更新后的旋转值和平移值602可以被提供作为一个或多个更新后的输出622。在除最后的DSR层514e之外的每个DSR层中，更新后的输出622可以包括要由下一DSR层使用的更新后的深度图601和/或更新后的旋转值和平移值602。在最后的DSR层514e中，更新后的输出622包括高分辨率深度图410。这里的功能610、614、618和620可以与在上文中描述的功能310、314、318和320相同或相似。

如图5和图6所示，DSR层514a至514e实质上是级联的层，它们串联地操作以实现反复的深度图优化。因此，这里的DSR层514a至514e实现了上文中针对图3所示的引导式DSR算法208所描述的迭代功能，但是在图5和图6中优化是使用级联的DSR层进行的(而不是像图3中那样的迭代循环)。图5和图6中的方法仍然允许进行期望的优化，从而实现高分辨率深度图生成。

AI深度和引导式DSR算法408的各个层506a至506d、510、514a至514e表示机器学习或AI层，并因此可以使用任何合适的机器学习技术来训练。例如，在一些实施例中，AI深度和引导式DSR算法408可以被提供有其中成像场景中的实际深度为已知的训练图像(诸如计算机生成的图像)。AI深度和引导式DSR算法408生成训练图像的高分辨率深度图410，并且可以将所生成的深度图410和与训练图像相关联的已知深度进行比较，以便识别所计算的深度图410中的误差。可以通过AI深度和引导式DSR算法408向后传播误差，以便调整在层506a至506d、510、514a至514e中的一个或多个层中使用的权重或其他参数。该过程可以继续进行，直到AI深度和引导式DSR算法408中的层506a至506d、510、514a至514e已经被训练为识别出训练图像中的已知深度(至少在某个阈值或期望的准确度之内)为止。但是，注意，本公开不限于任何特定的机器学习训练技术。

尽管图4、图5和图6示出了用于在多相机或其他环境中生成超分辨率深度图的第二种示例技术400，但可以对图4、图5和图6进行各种改变。例如，可以接收和处理多于两个的输入图像帧。而且，这里生成的高分辨率深度图410可以用于任何数量的图像处理应用中。

应当注意，可以以任何合适的方式在电子设备101、102、104、服务器106或其他设备中实现图2至图6所示的操作。例如，在一些实施例中，可以使用由设备的至少一个处理器120执行的一个或多个软件应用或其他软件指令，来实现或支持图2至图6的至少一部分中所示的操作。在其他实施例中，可以使用专用硬件组件来实现或支持图2至图6的至少一部分中所示的至少一部分操作。通常，可以使用任何合适的硬件、或硬件和软件/固件指令的任何合适的组合，来执行图2至图6的至少一部分中所示的操作。

还应注意，以上将图2至图6所示的操作描述为使用电子设备101的特定实现来执行，但是可以基于所使用的设备进行多种变形。例如，虽然以上将电子设备101描述为使用RGB图像帧执行各种操作，但是也可以使用或处理其他域中的图像数据(例如拜耳或YUV数据)。作为另一示例，本专利文件中描述的技术可以与任何其他合适的图像处理功能相结合，以执行对静止图像数据、视频图像数据或其他数据的期望处理。

可以在任何合适的应用中使用用于生成高分辨率深度图的功能。尽管以下示例描述了可将高分辨率深度图用于支持其他功能的各种方式，但高分辨率深度图可按任何其他合适的方式来使用。作为一个示例，可以生成高分辨率深度图并将其用于在捕获的图像帧中创建散景效果。此处，处理器120可以将不同量的模糊应用于所捕获图像帧中的不同像素，其中不同量的模糊至少部分取决于高分辨率深度图中标识的深度(通常，将较多的模糊应用于较大的深度，而将较少的模糊应用于较小的深度/不对较小的深度应用模糊)。获得高分辨率深度图的能力可以帮助在图像帧中更准确地应用模糊，从而在场景的最终图像中实现更准确的散景。

作为另一个示例，可以生成高分辨率深度图并将其用于支持深度感知去模糊。这里，可以捕获多个较短曝光的图像帧(具有很少的运动模糊或没有运动模糊)和一个较长曝光的图像帧(具有较多的运动模糊)，并且可以使用较短曝光的图像帧中的至少一个生成高分辨率深度图。然后，可以使用高分辨率深度图和较长曝光的图像帧来执行深度感知运动模糊去除，例如通过使用与较长曝光的图像帧的具有不同深度的不同部分相关联的、空间变化的点扩散函数。获得高分辨率深度图的能力可以帮助更准确地应用深度感知去模糊，从而在场景的最终图像中实现更精确的去模糊。

作为又一个示例，可以生成高分辨率深度图并将其用于支持图像重新照明。在此，可以为图像帧生成高分辨率深度图，并且可以使用高分辨率深度图来控制如何在前景和背景中修改图像帧中的照明。获得高分辨率深度图的能力可以帮助更准确地应用重新照明，从而能够在场景的最终图像中更准确地对前景和背景进行重新照明。作为其他示例，涉及AR/MR、视觉SLAM、测距法或动漫表情相关处理的各种功能可以基于场景中的深度，并且可以受益于准确的高分辨率深度图的使用。

图7a、图7b和图7c示出了根据本公开的使用在多相机或其他环境中的超分辨率深度图生成可以获得的示例结果。在图7a中，捕获了场景的高分辨率输入图像帧700。这里，该场景包括一个站在足球网前方的人(出于隐私遮挡了其脸部)。在图7a中标识了输入图像帧700的区域702，并且在图7b和图7c中示出了与输入图像帧700的区域702相关联的两个深度图704和706。

图7b中所示的深度图704是使用标准过程(诸如通过生成低分辨率深度图然后对深度图进行上采样)生成的。图7c所示的深度图706是使用上文中描述的技术之一生成的。如图7b所示，输入图像帧700的与人的头发相关联的区域缺少更精细的细节，并且人的头发后方的足球网倾向于有些损失或模糊。如图7c所示，输入图像帧700的与人的头发相关联的区域包含更精细的细节，并且人的头发后方的足球网被清晰限定。这表明上文中描述的技术可用于恢复损失的细节并校正错误，从而与简单地对低分辨率深度图进行上采样相比，生成了更准确的高分辨率深度图。此外，可以使用明显更少的计算和明显更短的时间来获得高分辨率深度图。

尽管图7a、图7b和图7c示出了使用在多相机或其他环境中的超分辨率深度图生成可以获得的示例结果，但是可以对图7a、图7b和图7c进行各种改变。例如，图7a、图7b和图7c仅旨在示出可以使用本公开中描述的方法获得的结果类型的一个示例。显然，场景的图像可以广泛地变化，并且使用本专利文件中描述的方法所获得的结果也可以根据情况而广泛地变化。

图8示出了根据本公开的用于在多相机或其他环境中生成超分辨率深度图的示例方法800。为了便于解释，将图8所示的方法800描述为涉及使用在图1的网络配置100中的电子设备101，其中电子设备101可以支持上文中描述的技术200、400之一。然而，图8所示的方法800可以与任何其他合适的设备一起使用，并且可以在任何其他合适的系统中使用。

如图8所示，在步骤802，获得第一输入图像帧和第二输入图像帧。例如，这可以包括：电子设备101的处理器120从一个或多个相机或其他成像传感器180获得输入图像帧202、204或402、404。可以以各种方式来获得输入图像帧202、204或402、404，诸如同时使用多个相机或其他成像传感器180获得，或使用单个相机或其他成像传感器180顺序地获得。在步骤804，执行姿势估计以识别与第一输入图像帧和第二输入图像帧相关联的旋转值和平移值。例如，这可以包括：电子设备101的处理器120执行姿势估计功能302、502以生成旋转值和平移值304、504，该旋转值和平移值定义了输入图像帧202、204或402、404的图像平面如何不同。在步骤806，生成与第一输入图像帧相关联的初始深度图。例如，这可以包括：电子设备101的处理器120生成低分辨率深度图206、508，并执行上采样以产生初始较高分辨率深度图308、601。

在步骤808，将深度图从与第一输入图像帧相关联的坐标系(坐标框架)转换到与第二输入图像帧相关联的坐标系(坐标框架)。例如，这可以包括：电子设备101的处理器120从深度图308、601识别点云，其中该点云包括深度图308、601中的大量点。这还可以包括：电子设备101的处理器120将当前的旋转值和平移值304、504应用于所识别的点云，以识别转换后的深度图312、612中的对应点。在步骤810，将第一输入图像帧从与第一输入图像帧相关联的图像平面投影到与第二输入图像帧相关联的图像平面。例如，这可以包括：电子设备101的处理器120使用转换后的深度图312、612将第一输入图像帧202、402投影到与第二输入图像帧204、404相关联的图像平面，以产生投影的图像帧316、616。

在步骤812，使基于投影的图像帧和第二输入图像帧的损失函数最小化，并且在步骤814，对当前的深度图和/或当前的旋转值和平移值进行一个或多个更新。例如，这可以包括：电子设备101的处理器120使用基于以下项的组合的损失函数：(i)第二输入图像帧204、404与投影的图像帧316、616之间的光度学损失的度量，(ii)当前的深度图308、601中的总方差的度量，以及(iii)在第一输入图像帧202、402中识别的边缘与在当前的深度图308、601中识别的边缘之间的误差的度量。损失函数的一个具体示例在上面的等式(1)中示出，但是这里可以使用其他损失函数。这还可以包括：电子设备101的处理器120基于损失最小化的结果来更新当前的深度图308、601和/或当前的旋转值和平移值304、504。

如果在步骤816将发生进一步的更新，则过程返回到步骤808，以基于更新后的深度图和/或更新后的旋转值和平移值重复进行转换、投影、损失最小化和更新步骤。注意，这里的步骤816可以涉及或可以不涉及关于是否重复迭代的主动确定。例如，在图3中可以做出主动确定，其中如果所测得的损失不低于指定阈值或尚未完成指定的迭代次数，则可以进行另一次迭代。在其他情况下，例如在使用了指定数量的DSR层514a-514e的图5中，可以通过将结果从一个DSR层馈送到下一个DSR层直到到达最后的DSR层514e，来自动地重复进行转换、投影、损失最小化和更新步骤。还应注意，在图3中，如果生成的深度图满足指定的阈值，则转换、投影、损失最小化和更新步骤可以仅进行一次。

在某处，转换、投影、损失最小化和更新步骤结束，并且在步骤818，将当前的深度图作为高分辨率深度图输出。例如，这可以包括：电子设备101的处理器120将当前的深度图作为高分辨率深度图210、410输出。理想地，与初始深度图308、601相比，高分辨率深度图210、410更准确并且包含更多细节。而且，可以使用明显更少的计算并且在明显更短的时间内产生高分辨率深度图210、410。然后，在步骤820，可以以任何合适的方式使用高分辨率深度图，例如用于执行一个或多个图像处理操作。例如，这可以包括：电子设备101的处理器120或某个其他组件使用高分辨率深度图210、410来执行一个或多个功能，例如散景图像生成、深度感知去模糊、图像重新照明、AR/MR、视觉SLAM、测距法或与动漫表情相关的处理。

尽管图8示出了用于在多相机或其他环境中生成超分辨率深度图的方法800的一个示例，但是可以对图8进行各种改变。例如，尽管被示为一系列步骤，但是图8中的各个步骤可以重叠、并行发生、以不同顺序发生、或发生任何次数。

图9示出了用于说明相机投影模型的示例。形成局部相机坐标系900，使得光轴为Z轴，沿着水平线的轴为X轴，并且沿着竖直线的轴为Y轴。相机坐标系900的原点被称为投影910的中心。投影910的中心对应于相机的位置。图像平面920是与XY平面平行的表面，图像平面920的中心是主点925。图像平面920和XY平面之间的距离是焦距f930。对于坐标为(X_cY_cZ_c)的任何给定的3D点940，通过使3D点940和投影910的中心之间的光线与图像平面920相交，将3D点940投影在图像平面920上。投影点950的坐标是(u，v)，其中主点为925。在数学上，[u，v，1]^T＝K[X_c，Y_c，Z_c]^T，其中K∈R^3×3是相机固有矩阵，其包含焦距和主点信息。

给定相机C₁1000的坐标系中的3D点P₁1010，通过以下等式将P₁1010的3D坐标转变到相机C_r1020的坐标系：

P_r＝[R，T]P_l (2)

其中，R、T是相机C₁1000的坐标系和相机C_r1020的坐标系之间的旋转和平移。P_r1010通过以下等式投影到相机C_r1020的图像平面1030上：

p_r＝KP_r (3)

其中，K是包含焦距和主点信息的相机C_r1020的相机固有矩阵。

最后，将该等式替换为以下等式：

p_r＝K[R，T]P_l (4)

如上所述，需要两个相机C₁1000和C_r1020之间的相对姿势(R，T)，使得3D点P₁1010从相机C₁ 1000的坐标系投影到相机C_r1020的坐标系。可以使用许多技术来求解T和R。例如，可以使用任意n对(n是整数)或更多对跟踪特征点来恢复相对姿势(R，T)。如前所述，基于运动恢复结构(SfM)的八点算法。对于来自多相机(例如双相机系统)的给定图像，将检测并跟踪n对(n≥8)稀疏点，分别为

然后，通过求解以下等式来计算R和T：

p¹[T]_×Rp²＝0 (5)

回到参考图3所描述的损失函数(1)，现在说明有关将相机位置1的图像平面的I₁投影到位置2处的相机的图像平面作为

的具体过程。令

描述从位置1到位置2的相机平移，且

描述从位置1到位置2的相机旋转。

对于任何给定的3D点P，其在位置1处的相机坐标系(坐标框架)中的坐标为P₁＝[x₁，y₁，z₁]^T，通过以下等式得出在位置2处的相机坐标系(坐标框架)中的坐标P₂＝[x₂，y₂，z₂]^T：

通过将

附加到

将等式(6)替换为以下等式。

对于由位置1处的相机获得的图像I₁上的任何给定点p₁，查找深度图

并获得对应的3D坐标P₁，然后通过上述等式(7)获得3D坐标P₂。通过以下等式，将3D坐标P₂投影到位置2处的相机的图像平面上：

p₂＝KP₂ (8)

即，通过等式(8)获得投影点p₂相对于主点的坐标(u，v)，其中等式(8)被重新表达为等式：[u，v，1]^T＝K[x₂，y₂，z₂]^T，其中K∈R^3×3是包含焦距和主点信息的相机固有矩阵。

通过组合等式(7)和(8)，得到以下等式：

对于图像I₁上的所有点，通过应用与上述相同的过程，可以获得位置2处的相机的图像平面中的投影点，然后通过投影点生成投影图像

注意，转换后的深度图

在位置[x₂，y₂]处具有深度值，该位置是投影点P₂的3D坐标的x轴值和y轴值，即是(或对应于)z₂。

即，通过使用

获得具有对应于z₂的深度值的转换后的深度图

并且通过使用K和

最终获得位置[u₂，v₂]，其是投影点p₂的二维坐标。并且，通过使用I₁上的p₁处的像素值，获得I₂上的p₂的像素值。

尽管已经利用示例实施例描述了本公开，但是可以向本领域技术人员提出各种变化和变形。本公开意在涵盖落入所附权利要求的范围内的这种变化和变形。

Claims

1.一种方法，包括：

使用至少一个处理器获得第一输入图像帧和第二输入图像帧，所述第一输入图像帧和所述第二输入图像帧分别与第一图像平面和第二图像平面相关联；

使用所述至少一个处理器获得与所述第一输入图像帧相关联的第一深度图；以及

通过执行一次或多次以下操作来生成第二深度图：

使用所述至少一个处理器，使用(i)深度图和(ii)标识从所述第一图像平面到所述第二图像平面的转换的信息，将所述第一输入图像帧投影到所述第二图像平面，以产生投影的图像帧；以及

使用所述至少一个处理器调整所述深度图和标识从所述第一图像平面到所述第二图像平面的转换的所述信息中的至少一个。

2.根据权利要求1所述的方法，其中，将所述第一输入图像帧投影到所述第二图像平面包括：

使用所述信息将所述深度图从与所述第一图像平面相关联的坐标系转换到与所述第二图像平面相关联的坐标系，以产生转换后的深度图；以及

使用所述转换后的深度图将所述第一输入图像帧投影到所述第二图像平面。

3.根据权利要求1所述的方法，其中，调整所述深度图和所述信息中的至少一个包括：

最小化与所述投影的图像帧和所述第二输入图像帧相关联的损失函数；以及

基于所述损失函数的最小化，调整所述深度图和所述信息中的至少一个。

4.根据权利要求3所述的方法，其中：

标识从所述第一图像平面到所述第二图像平面的转换的所述信息包括旋转值和平移值；以及

所述损失函数基于以下各项的组合：(i)所述第二输入图像帧与所述投影的图像帧之间的光度学损失的度量；(ii)所述深度图中的总方差的度量；以及(iii)在所述第一输入图像帧中识别的边缘与在所述深度图中识别的边缘之间的误差的度量。

5.根据权利要求1所述的方法，还包括：

生成与所述第一输入图像帧相关联的所述第一深度图，所述第一深度图包括通过对较低分辨率的深度图进行上采样而生成的较高分辨率的深度图。

6.根据权利要求5所述的方法，其中，生成所述第一深度图包括：

将多个第一卷积层应用于所述输入图像帧中的至少一个，以产生所述较低分辨率的深度图；以及

将上采样层应用于所述较低分辨率的深度图，以生成所述较高分辨率的深度图。

7.根据权利要求6所述的方法，其中，调整所述深度图和所述信息中的至少一个包括：

将多个第二卷积层应用于所述较高分辨率的深度图，所述多个第二卷积层将所述第一输入图像帧投影到所述第二图像平面并调整所述深度图和所述信息中的至少一个，所述多个第二卷积层中的最后的层输出所述第二深度图。

8.一种装置，包括：

至少一个存储器，被配置为存储第一输入图像帧和第二输入图像帧，所述第一输入图像帧和所述第二输入图像帧分别与第一图像平面和第二图像平面相关联；以及

至少一个处理器，被配置为：

获得与所述第一输入图像帧相关联的第一深度图；以及

通过执行一次或多次以下操作来生成第二深度图：

使用(i)深度图和(ii)标识从所述第一图像平面到所述第二图像平面的转换的信息，将所述第一输入图像帧投影到所述第二图像平面，以产生投影的图像帧；以及

调整所述深度图和标识从所述第一图像平面到所述第二图像平面的转换的所述信息中的至少一个。

9.根据权利要求8所述的装置，其中，为了将所述第一输入图像帧投影到所述第二图像平面，所述至少一个处理器被配置为：

10.根据权利要求8所述的装置，其中，为了调整所述深度图和所述信息中的至少一个，所述至少一个处理器被配置为：

11.根据权利要求10所述的装置，其中：

12.根据权利要求8所述的装置，其中：

所述至少一个处理器还被配置为生成与所述第一输入图像帧相关联的所述第一深度图；以及

为了生成所述第一深度图，所述至少一个处理器被配置为对较低分辨率的深度图进行上采样并产生包括在所述第一深度图中的较高分辨率的深度图。

13.根据权利要求12所述的装置，其中，为了生成所述第一深度图，所述至少一个处理器被配置为：

14.根据权利要求13所述的装置，其中：

为了调整所述深度图和所述信息中的至少一个，所述至少一个处理器被配置为将多个第二卷积层应用于所述较高分辨率的深度图；

所述多个第二卷积层被配置为将所述第一输入图像帧投影到所述第二图像平面并调整所述深度图和所述信息中的至少一个；以及

所述多个第二卷积层中的最后的层被配置为输出所述第二深度图。

15.一种包含指令的非暂时性计算机可读介质，其中，所述指令在被执行时使得至少一个处理器执行以下操作：

获得第一输入图像帧和第二输入图像帧，所述第一输入图像帧和所述第二输入图像帧分别与第一图像平面和第二图像平面相关联；

获得与所述第一输入图像帧相关联的第一深度图；以及

通过执行一次或多次以下操作来生成第二深度图：