CN110889851B

CN110889851B - 针对深度和视差估计的语义分割的稳健用途

Info

Publication number: CN110889851B
Application number: CN201910864998.2A
Authority: CN
Inventors: M·N·朱皮; A·林德斯科格; M·W·陶
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-09-11
Filing date: 2019-09-09
Publication date: 2023-08-01
Anticipated expiration: 2039-09-09
Also published as: CN110889851A; US11526995B2; US20200082541A1

Abstract

本公开涉及针对深度和视差估计的语义分割的稳健用途。本公开涉及用于使用语义分割来生成捕获图像的稳健深度估计的技术。语义分割可被定义为在图像上创建掩模的过程，其中像素被分割成预定义的一组语义类别。此类分割可以是二进制的(例如，“人物像素”或“非人物像素”)或多类(例如，可将像素标记为：“人物”、“狗”、“猫”等)。随着语义分割技术在准确性和采用方面的增加，开发利用此类分割和开发用于将分割信息整合到现有计算机视觉应用(诸如深度和/或视差估计)中的柔性技术的方法变得越来越重要，以在广泛的图像捕获场景中产生改善的结果。在一些实施方案中，可使用优化框架来优化相机设备的初始场景深度/视差估计，该估计采用稳健方式的语义分割和颜色正则化两者。

Description

针对深度和视差估计的语义分割的稳健用途

技术领域

本公开整体涉及数字成像领域。更具体地，但并非限制性地，本公开涉及针对在数字图像中执行稳健深度和/或视差估计的技术。

背景技术

移动的多功能设备(诸如智能电话和平板设备)的出现使得人们期望能够实时或几乎实时地生成高水平图像质量的小外形相机以集成到此类移动的多功能设备中。随着用户依赖这些多功能设备作为其日常使用的主要相机，用户越来越需要他们习惯于在专用相机设备中使用的特征。

一些此类特征，例如“肖像风格”摄影模式，依赖于对所捕获图像使用估计的深度和/或视差映射，即，为了产生比通常在设备的相机系统自然捕获的图像中看到的更浅的景深的效果。(所得的具有浅景深外观的肖像风格图像在本文中也称为“SDOF”图像或“合成SDOF”图像。)例如，在此类肖像风格的合成SDOF图像中，可以将更大量的模糊应用于估计离捕获场景中的焦平面更远的对象(例如，背景对象)，而在焦平面中的对象，诸如在捕获的场景的前景中的人类主体，可以保持相对更清晰，从而愉快地强调人类主体对图像的观察者的外观。然而，某些场景捕获条件(例如，前景和背景对象可能包含相似颜色，和/或场景中单个深度平面上的对象包含多种颜色和纹理的位置)可能对用于深度和/或视差估计的典型的基于颜色图像的正则化技术提出特定挑战。

语义分割在涉及图像处理和计算机视觉的产品中的使用变得越来越流行。语义分割可以被定义为创建掩模的过程，例如，图像上的逐像素掩模，其中像素被分配(或“分割”)成预定义的一组语义类别。此类分割可以是二进制的(例如，给定像素可以被分类为“人物像素”或“非人物像素”)，或者分割也可以是多类分割(例如，给定的像素可以标记为：“人物”、“狗”、“猫”或“其他”)。近年来，使用卷积神经网络(CNN)已经实现了最准确的语义分割。随着语义分割技术在准确性和采用方面的增加，开发利用此类分割和开发用于将分割信息整合到现有计算机视觉应用(诸如深度和/或视差估计)中的柔性技术的稳健方法变得越来越重要，以在广泛的图像捕获场景中产生改善的结果。

发明内容

本文公开了电子设备、计算机可读存储介质和相关方法，它们被配置为生成捕获图像的深度和/或视差估计。特别地，此类估计可依赖于与所捕获图像相关联的语义分割信息的稳健使用，以及与所捕获图像相关联的颜色信息的组合。

在本文的整个讨论中，将关于捕获图像讨论视差和深度的各个方面。如本文所使用的，视差是指从不同视角捕获的图像的对应部分之间观察到的偏移量，例如，两个相机被隔开一距离。使图像的对应部分重叠所需的偏移量是视差。图像中的对象最佳匹配的视差可用于计算场景中的对象的深度，即，对象远离捕获相机的实际距离。可以根据任何期望的方法将视差信息转换为深度信息。例如，在一些情况下，深度被大致计算为与视差估计的倒数成正比。

在本文描述的一些视差估计实施方案中，可以采用联合优化框架，其利用相机设备的初始场景视差信息估计(例如，通过立体图像对、聚焦像素(即，用于相位检测自动聚焦的像素)、有源视差感测或其他视差估计方法获得)并且包含数据项和正则化项。数据项在本文中还可以称为“匹配”或“成本”项，并且正则化项可以用于将约束编码到优化解决方案，例如平滑约束，如在一些视差映射的情况下。根据一些实施方案，优化框架可以采用迭代方法来求解图像的视差映射的值，其中，在每次迭代时，采取附加步骤来解决包括数据项和正则化项的联合优化问题。在一些实施方案中，可使用一个或多个权重来编码与正则化项有关的数据项的重要性。这允许优化框架被调整为有利于与数据匹配的解决方案，而不是更多地符合关于正则化项的先前假设。根据一些实施方案，优化可包括最小化操作。

本文还公开了非暂态程序存储设备。此类程序存储设备可以包括存储在其上的指令，使得一个或多个处理器：获得场景的第一图像，第一图像包括多个第一像素，这些像素具有色值；获得包括多个第一值的第一深度或视差信息，其中每个值对应于场景中的位置；获得包括多个第一分割值的至少一个分割掩模，其中每个分割值对应于场景中的位置；针对至少一个分割掩模中的至少一个获得至少一个正则化项；并且执行优化操作以生成第一深度或视差映射，其中优化操作至少部分地基于多个第一像素、第一深度或视差信息、至少一个分割掩模和至少一个正则化项。在一些实施方案中，可以至少部分地基于所生成的第一深度或视差映射来生成第一图像的模糊版本(例如，合成SDOF图像)。

根据一些实施方案，指令还可使得一个或多个处理器获得至少一个获得的分割掩模中的一个的置信掩模，然后将来自置信掩模的信息合并到优化操作中。根据其他实施方案，指令还可使得一个或多个处理器获得至少一个分割掩模中的一个的至少一个分割类别的最大影响值，然后将所获得的最大影响值合并到优化操作中。

根据其他实施方案，可获得针对第一图像的至少两个分割掩模，其中每个分割掩模任选地具有对应的置信掩模、正则化项和/或每个分割类别的最大影响值。来自每个所获得的分割掩模的此类附加信息也可并入优化操作中。

根据以上列举的程序存储设备的实施方案，本文还公开了生成稳健深度和/或视差估计的各种方法。

根据以上列举的程序存储设备的实施方案，本文还公开了各种电子设备。此类电子设备可包括存储器、一个或多个图像捕获设备、显示器、用户界面以及可操作地耦接到存储器的一个或多个处理器。指令可以存储在存储器中，这些指令使得一个或多个处理器根据以上列举的程序存储设备的实施方案执行技术。

附图说明

图1A是参考颜色图像和对应的期望视差映射的示例。

图1B是参考颜色图像和对应的正则化视差映射的另一个示例。

图1C是参考颜色图像和对应的正则化视差映射的又一个示例。

图1D是具有和不具有语义正则化的参考颜色图像和对应的视差映射的示例。

图2是根据一个或多个实施方案的用于生成稳健深度和/或视差估计的示例性方法。

图3是根据一个或多个实施方案的用于生成稳健深度和/或视差估计的系统的框图。

图4是示出示例性电子设备的框图，其中可以实现本文公开的技术中的一种或多种技术。

具体实施方式

在以下描述中，为了解释的目的，阐述了很多具体细节以便提供对本发明的彻底理解。然而，对本领域的技术人员而言显而易见的是，可以在不存在这些具体细节的情况下实践本发明。在其他实例中，结构和设备被以框图的形式示出，以便避免模糊本发明。对没有下标或后缀的数字的引用应当理解为引用对应于附图标记的所有下标和后缀情况。此外，本公开中所使用的语言已主要被选择用于可读性和指导性目的，并且可能没有被选择为划定或限定本发明的主题，从而诉诸于所必需的权利要求以确定此类发明主题。在说明书中提到“一个实施方案”或“一种实施方案”意指在本发明的至少一个实施方案中包括的结合该实施方案描述的特定特征、结构或特性，并且多次提到“一个实施方案”或“一种实施方案”不应被理解为全部必然地参考相同的实施方案。

现在转到图1A，示出了参考颜色图像102和对应的期望视差映射104的示例100。如图1A所示，参考颜色图像102中的前景和背景区域是不同的颜色(如各个区域中的不同阴影图案所指出的那样)。在期望的视差映射104中，白色像素表示参考颜色图像中应被标记为前景像素的区域(并且与参考颜色图像中的前景图案区域完全重叠)，并且黑色像素表示参考颜色图像中应被标记为背景像素的区域(并且与参考颜色图像中的背景图案区域完全重叠)。

为了开发期望的视差映射，例如期望的视差映射104，可以采用传统的立体匹配正则化方法，如以下的公式1所示：

其中(x,y)表示视差映射中的每个像素的像素坐标，并且表示在给定像素的(x,y)像素坐标处的视差映射的梯度。这种类型的传统立体匹配正则化强制执行约束/先验，即视差映射应该是平滑的。换句话说，正则化矩阵将在优化操作期间惩罚视差映射的梯度中的任何大值。需注意，在一些情况下，初始视差信息的数据源可以在整个图像上被稀疏地采样，例如，在图像传感器上稀疏地分布的一组聚焦像素的情况下，但是，正则化确保捕获场景中缺少初始视差信息(或包含错误信息)的区域将被填充以估计值，例如，由于平滑性约束。还需注意，尽管数据项被称为包括公式1以及下列等中的视差映射，但是在一些情况下，数据源可以替代地包括初始深度信息，而不是视差信息，并且可以将相似的正则化技术应用于此类初始深度信息。

现在参见图1B，示出了参考颜色图像112和对应的正则化视差映射114的另一个示例110。在图1B的示例中，已经采用了颜色正则化方案，使用像素颜色作为先验/约束。该约束的使用源于一般概念，即具有相似色值的相邻像素通常也应具有相似的视差值。为了遵循参考颜色图像中的颜色边缘，可以使用颜色边缘来确定平滑视差映射的位置，例如，如以下的公式2所示：

其中(x,y)表示将在视差正则化操作中使用的每个像素的像素坐标，是指给定像素的(x,y)像素坐标处的视差映射的梯度，并且/>是指在给定像素的(x,y)像素坐标处的参考颜色图像中的强度值(例如，红/绿/蓝像素值)的梯度。

基于这一概念，具有相似色值的相邻像素通常也应具有相似的深度和/或视差值，深度和视差算法传统上使用颜色图像作为正则化指南。如上所述，在优化框架中，通常存在两个待优化的术语或标准，数据术语(也称为“匹配”或“成本”术语)和正则化术语。数据项对解决方案解释输入数据的程度进行编码，例如，立体视差应该在参考图像与畸变的非参考图像之间具有最小的残差。正则化项对特定问题的先验编码以约束该组解决方案。一种类型的正则化术语是强制执行某种平滑度假设，例如，视差场应该是分割平滑表面。通常还存在用于编码与正则化项有关的数据项的重要性的权重。为简单起见，在本公开中，该权重将被称为“λ”。使用此类权重允许调整算法以调成支持更多地匹配数据的解决方案，即，与更符合关于正则化的先前假设的解决方案相比。

例如，在对立体图像对进行操作的传统视差算法中，参考颜色图像通常用于对视差场进行平滑约束编码。通常，此类算法将强制执行在与颜色图像的均匀区域对应的区域中视差应该是平滑的约束，而在具有纹理或强边缘的颜色图像的区域中，将放宽对视差场的平滑度约束。这编码了深度边缘应对应于颜色边缘的假设。在没有更专业的先验的情况下，对于许多情况，这可能是一个合理的一般假设。

该方法的优点在于，它允许算法从数据项(例如，视差对应)在空间上去噪和聚集信息。如果前景对象具有与其背景不同的颜色，则此类方法可以产生干净的边缘和明确定义的边界。如果相同深度的对象颜色均匀，则能够在对象内成功地平滑该深度。然而，这种假设并不总是真实的；在一些情况下，前景和背景对象可能包含相似的颜色，以及单个深度平面处的对象包含多种颜色和纹理的情况。

图1C是前一种情况的示例。具体地，在图1C的示例120中，参考颜色图像122具有背景树对象124，其恰好在颜色上与人类主体123所穿着的衬衫的颜色相似(例如，每个可以主要是深绿色)。由于在场景中处于不同深度的边界对象之间的这种颜色相似性，正则化的视差映射可能在横跨相似颜色的前景和背景对象的深度边界呈现前景的出血128(即，图1C中的人类主体的背景树和衬衫都被编码为正则化视差映射126中的前景像素)。在包含多种颜色和纹理的单个深度平面处的对象的情况下，正则化视差映射可能会呈现噪声视差估计和/或伪深度边缘的出现，因为对象内的颜色太不相似，所以这些区域无法与邻居进行去噪或平滑。这是传统的基于颜色图像的正则化技术的主要缺点之一。

语义分割

如前所述，语义分割将像素级映射编码为两个或更多个类别的给定集合，其中该类别描述了该像素所属的语义对象或类别。根据所使用的特定分割方案，像素分类可以是离散的(即，编码给定的类别)或连续的(即，编码类别的概率)。除了分割掩模本身之外，根据所使用的分割方案，还可以生成置信映射。此类置信映射编码了由分割掩模描述的类别预测的相对确定性。

通常使用上述基于颜色图像的正则化技术，因为它们提供了横跨深度和/或视差映射去噪和空间聚集信息的手段，其中对应于颜色边缘的深度边缘的假设成立。在一些情况下，这可能确实是最合理的正则化方案。然而，在其他情况下，例如，当可以获得受过训练的系统(诸如分割网络)时，这些系统已经从大型训练数据集中学习并提取了见解，此类系统可用于在图像上产生专用语义映射，以解决基于颜色图像的正则化的一些限制，并强制执行不同的先验和假设，例如，特定于给定分割类别的语义含义的先验和假设。

在分割的一种特定用法中，正则化方案可以简单地假设由分割给出的不同类别总是具有不同的深度。例如，给定二元人物分割，可以假设人物像素是前景而非人物像素是背景。这将产生具有锐利的人物的模糊背景，即，直接对应于分割掩模。如果需要，可以使用一个或多个边缘感知滤波器(例如，由颜色引导的滤波器)，诸如双边滤波器，来基于颜色图像的内容来细化分割掩模。这具有以下缺点，由于不存在“信号”或“数据项”来通知深度，而只有分割的输出，因此不可能在图像中产生“连续”深度的外观。这意味着，例如，在从估计的深度和/或视差信息生成合成的SDOF图像的情况下，除了被分割的人物之外的任何对象，即使那些与主体处于同一聚焦平面的对象也会模糊，就好像它们在背景中一样。这种方法通常会产生难以令人信服且不自然的合成SDOF图像。

另一种方法可以使用语义分割作为颜色正则化的替代。也就是说，保持数据项适用于给定传感器模态(例如，无源立体对、有源感测深度映射、来自聚焦像素的视差)但改变传统的基于颜色图像的正则化而不是对分割图像进行操作的方法。在该方案中，不是假设深度不连续性对应于颜色图像边缘，而是假设深度不连续性对应于分割边界。

这种方法的优势在于，它允许正则化矩阵平滑分割对象的内部，即使在颜色图像中存在边缘或纹理。另外，分割图像边缘的平滑可防止对象的深度横跨其边界出血。在具有精确分割的理想情况下，这有效地避免了基于颜色图像的正则化所遇到的问题，其中由不同颜色组成的对象的内部不能被平滑，并且不同深度但相似颜色的前景和背景对象的深度不适当地平滑。

该方法的缺点在于，如果语义分割被用作对于整个深度/视差场真性地完全替换颜色图像，即，包括与非分割区域对应的那些区域(例如，如果分割掩模是二进制的，“1”＝人，“0”＝不是人，那么非分割区域将是“0”)，这将导致非分割区域中的结构和细节的损失(例如，对于人物分割，人物以外的区域会失去他们本来会拥有的任何结构，并且会被严重平滑)。应当理解，分割掩模可以具有与参考颜色图像相同的分辨率或不同的分辨率，例如，比参考颜色图像更高或更低的分辨率，在这种情况下，对应于捕获场景中的特定位置的分割掩模中的单个值可以反映对应于参考颜色图像中的一个或多个像素的分割分类输出。使用语义分割作为颜色正则化的唯一替代也能够导致在分割区域内横跨深度不连续性的上述“出血”，诸如当两个不同距离的人是一个连续分割区域的一部分时。根据一些实施方案，上述场景，其中不同距离处的两个人是一个连续分割区域的一部分，可以经由使用实例分割来改善。在实例分割中，在图像中找到的人物的每个单独实例可以被编码为单独的分割类别。在此类情况下，实例分割可以防止正则化矩阵在整个连续分割区域的深度上平滑，从而遵守两个不同人物实例在场景中可能处于的不同深度。

语义分割与颜色正则化组合

如上所述，真性地使用分割图像作为传统的基于颜色的正则化的直接替换的问题之一是消除了来自视差或深度映射的背景结构，其可能包含有意义和/或美学上重要的信息。因此，根据本文公开的一些实施方案，不是使用分割作为直接替换，而是可以以遵循图像中的相应识别的分割类别的语义含义的方式使用分割信息。

如上所述，在一些实施方案中，人物分割可以是应用于捕获图像的分割的类型。因此，使用此类分割应该反映出具体关于人的假设以及关于人的深度和/或视差映射应该如何。例如，可以推断，人物通常由相对均匀的深度组成。例如，给定的人物不会由距离相机1米和10米的深度组成。换句话讲，人物的身体的部分应当定位在小得多的深度范围内。通过这种推理，分割可以用于平滑已经被分割为人的区域，同时使未被分类为人的像素保持使用传统的颜色图像正则化。这遵循分割的语义含义，而不在未包括为分割的一部分(例如，场景的其余部分，包括背景)的区域中使用关于该类别的假设(例如，本示例中的人)。

根据一些实施方案，这种形式的组合颜色和分割正则化可由以下公式表示：

其中(x,y)表示将在视差正则化操作中使用的每个像素的像素坐标，是指给定像素的(x,y)像素坐标处的视差映射的梯度，/>是指给定像素的(x,y)像素坐标处的分割掩模的梯度，并且/>是指在给定像素的(x,y)像素坐标处的参考颜色图像中的强度值(例如，红/绿/蓝像素值)的梯度。使用指数函数的一个原因是它有利地提供指数衰减。例如，如果分割掩模中存在非常高的梯度(即，分割掩模中的强边缘)，则期望将上文的公式3中的第一项推到零(即，如果在分割掩模中存在强边缘，则期望允许视差估计在空间上或横跨边缘改变，即，通过不强烈地惩罚横跨边缘的视差的改变)。相反，如果分割掩模是完全平坦的，即具有零梯度，则希望将公式3中的第一项推到一，从而在视差映射d中的梯度为非零时给予优化器最大可能的损失(即，如果分割掩模中的梯度小，则视差映射中的梯度也应该小)。

如上所述，给定像素的正则化约束的源可以变化，例如，来自分割掩模或来自颜色图像。然而，可以采用的另一个自由度是正则化的全局强度。在用于深度或视差估计的传统优化框架中，寻求一种解决方案，其最小化数据项的残差加上正则化项。全局“λ”标量值可以乘以数据项，以编码数据项的重要程度，即与正则化项相比较。例如，大的λ将支持更多跟随数据的解决方案，即使它们是有噪声的，虽然小的λ将更有利于遵循正则化标准的解决方案，例如，在正则化标准将结果偏向平滑的情况下创建更平滑的深度或视差映射。虽然传统方法可以使用全局λ(即，当λ对于图像上的所有像素都相同时)，但是根据本文描述的一些实施方案，可以采用逐像素变化的λ样标量加权值，即，在每个像素处编码正则化应该有多强。

例如，从语义分割操作获得的信息可以用于向优化过程通知关于图像的某些部分应该被正则化的程度。在分割掩模反映图像中人位置的实施方案中，例如，由于前述提到的观点，人通常在深度上相当均匀，以及导致与他们的邻居在人体内平滑深度和/或视差估计的风险较低，因此可以在分割人物的区域内使用更大的正则化强度。相比之下，在此类实施方案中，可以在非人物区域中使用较低的正则化强度，因为对于非人物区域实际上由什么组成的分割(例如，草、天空、狗、猫等)可能不太确定，并且在对这些区域进行正则化时可能需要更加谨慎，因为关于大致均匀深度的相同假设不一定适用于此类非人物区域。

在稳健的方案中使用语义分割

可以预期上述方法可以很好地与理想的，即完全准确的语义分割掩模一起工作。然而，在实践中，即使是现有技术的语义分割CNN的状态也会在某些像素的分类中产生一些错误和不准确性。此外，在处理受限和/或功率受限的设备(例如，小型或手持式移动设备)上，可能需要采用消耗较少处理和/或功率资源的更高性能的神经网络，但产生可能不太准确的分割输出。因此，可能期望开发以稳健且容错的方式利用分割的过程，尤其是如果期望深度和/或视差估计应用横跨许多不同的现实世界环境和图像捕获条件产生高质量结果。

增加对分割误差的稳健性的一种方法是使用分割和颜色图像信息的加权组合来确定给定像素处的正则化，而不是约束二进制判定，以在每个像素处专门选择分割或颜色图像。可以通过各种方法选择权重以提高稳健性，如下文进一步详细描述的。

选择分割信息应该对给定像素的正则化有贡献的权重应该反映给定像素的分类中存在多少置信度。如上所述，可以训练一些语义分割CNN，以输出置信映射以及分割掩模。此类置信映射可以反映来自网络的关于其对每个像素的类别的预测的确定性。因此，根据一些实施方案，在分割中的置信度低的情况下，可以对应地减小给予语义分割的判定的影响的权重。

此外，不是产生离散类预测，而是一些语义分割CNN可以被配置为产生关于像素类别的连续概率估计。例如，对于人物分割CNN，不是输出是二进制的(例如，“1”＝人物像素，“0”＝非人物像素)，网络可以产生中间概率值(例如，0.75＝75％的可能性，像素是人物的一部分)。通过利用置信映射和/或语义分割的连续概率，算法能够以明显更稳健的方式表现，例如，通过更多地仅依赖于语义分割，其中分割可能更准确。

用于在进行深度和/或视差估计时利用语义分割信息的稳健框架的一些实施方案的另一个元素是将分割信息与各种其他深度和/或视差数据源合并(例如，立体匹配信息、聚焦像素对应、语义深度先验、其他深度感测硬件或模态等)，并且/或者待在联合优化框架的上下文中求解的各种正则化源(例如，颜色、分割、其他先验等)。语义深度先验的一个示例可以是分割人物的物理尺寸的知识，并且因此可能是深度，即，由于人物在图像中的表观尺寸。虽然还存在集成语义分割信息的其他方法，例如，使用分割来处理诸如后处理视差或深度映射，但是发明人已经发现，如果将各种数据源(包括分割)组合成单个损失函数以进行优化，则通常可以实现更好质量的深度和视差映射。这使优化器在成本空间中找到最佳局部最小值，该成本空间由问题的所有输入形成，这比使用独立块的链(每个块具有有限的知识和/或目的)更强大。在联合优化框架中，例如，考虑来自所有数据源的所有错误，从而通过利用组合所有已知先验(例如，来自数据、颜色和分割)和它们各自的置信度来增加冗余。

因此，根据一些实施方案，如下的公式结合了分割置信权重以及最大分割影响权重(如下文将更详细地描述的)，可以用于解决联合优化问题：

其中(x,y)表示将在视差正则化操作中使用的每个像素的像素坐标，是指给定像素的(x,y)像素坐标处的视差映射的梯度，/>是指给定像素的(x,y)像素坐标处的分割掩模的梯度，/>是指在给定像素的(x,y)像素坐标处的参考颜色图像中的强度值(例如，红/绿/蓝像素值)的梯度，ω(x，y)是指相对于来自颜色图像的贡献的分割权重贡献。

根据一些实施方案，分割权重ω可如下定义：

ω＝c*(Φ_p*s+Φ_np*(1-s)) (公式5)，

其中s是分割值，c是分割置信值，Φ_p是语义区域允许的最大分割影响(即，在二进制分割分类算法的情况下，被认为是分割操作试图找到的分割类别的一部分的区域，例如，具有s＝1的分数的像素)，并且Φ_np是非语义区域允许的最大分割影响(即，在二进制分割分类算法的情况下，不被认为是分割操作试图找到的分割类别的一部分的区域，例如，具有s＝0的分数的像素)。

在上述示例性实施方案中，其结合了人物分割作为视差估计之前，分割对该像素处的正则化的影响可以由ω表示，如以上的公式5所示，并且颜色图像的影响可以表示为：

Ω＝1–ω (公式6)。

例如，如果最大分割影响是1(即，Φ_p＝1)，并且如果语义分割在其预测中完全确信(即，c＝1)像素具有作为人物的最大概率(即，s＝1)，则像素的正则化完全由分割(即，以上的公式4的前半部分)确定，而不是由颜色图像确定。也就是说，在此类场景中，ω的值为1，Ω的值为0。

由于在这个示例中存在不同的最大分割影响，即分别针对人物和非人物区域的Φ_p和Φ_np，这使得算法具有以不同方式处理这些区域的灵活性，诸如根据其语义含义投射对视差应如何正则化进行不同的假设。例如，在一些实施方案中，由于前述提到人们通常被约束到较小的深度范围，而选择回归到例如，用于图像的非人物区域的基于颜色图像的更一般的正则化技术，因此可以选择在人物内积极地平滑。因此，这种类型的稳健方案(例如，利用置信值和最大影响权重)遵循所使用的特定分割的语义含义，并且允许仅对图像中可能真正属于其指定语义类别的那些区域强制执行假设。应当理解，上述公式仅构成对稳健深度和/或视差估计框架的一个特定实施方案的描述，并且本文呈现的发明构思不限于其可能的实现方式。

还应当理解，如本文所述，语义分割可以在优化框架之前用作一般的。换句话讲，可以使用任何类型的语义分割来改善从任意模态获得的深度或视差估计。还应当注意，本文描述的方法中使用的语义分割信息用于正则化目的，而不是简单地分割出不应该应用附加模糊的图像区域(例如，在合成SDOF图像的生成期间)。根据所使用的语义分割，可以使用不同的假设作为先验来指导正确反映不同语义类别的语义含义的深度和/或视差估计。这些假设可能会影响优化框架的数据项和/或正则化项。

例如，如果使用语义分割CNN来检测捕获图像中“天空”部分的位置，则合适的假设可能是天空区域被期望无限远离捕获图像的聚焦平面(即，具有巨大的深度或零视差)。然后可以使用此类语义上适当的假设将数据项偏置到假定范围(或者鼓励天空区域内的高正则化)。

其中具有孔的对象(例如，栅栏)可以提供另一个机会来应用语义上适当的假设作为优化框架的先验。例如，传统视差估计技术中的一个常见错误是在对象中的孔上诸如栅栏进行正则化，特别是如果背景具有相似的颜色(例如，褐色木栅栏在褐色叶子背景上)，而不是遵循经由初始视差估计发现的不同深度。如果存在检测到具有孔的栅栏或对象的语义分割，则可以在此类检测到的对象上适当地放松正则化强度，使得在这种情况下，栅栏中的孔不会以不准确的深度“平滑”，即具有所有“前景”深度。这只是一个示例，其中可以将语义上适当的假设构建到用于深度和/或视差估计的稳健框架中。

在其他实施方案中，可以在同一图像内将多个(例如，不同的)分割组合在一起(例如，利用它们自己的分割特定先验/假设)。这将允许正则化矩阵例如在图像中的人物区域内平滑深度和/或视差估计，同时，将数据项偏置为对应于天空的图像区域中的无限深度。在此类多分割实施方案中，可能还期望针对不同的分割具有多个不同的权重(例如，一个用于人物，一个用于天空等)。然后，在图像中的给定像素处，正则化矩阵可以基于哪一个具有更大的置信度分数而插置在不同的分割之间。例如，对于给定像素，它可以被分类为可能是人物的75％，但也可能是天空像素的25％。在此类情况下，相应分割的先验/假设也可以在优化过程期间由正则化矩阵与给定像素的各个分割的相应置信值成比例地强制执行。

现在参见图1D，示出了参考颜色图像130、不具有语义正则化的对应视差映射(140)以及具有语义正则化的对应视差映射(150)的示例。在该示例中，参考颜色图像130的前景中的人类主体穿着运动衫，该运动衫主要由与场景背景的大部分中发现的颜色共同的颜色组成。如图1D所示，具有语义正则化(150)的视差映射比没有语义正则化(140)的视差映射更好地将整个人类主体放置在场景的前景(即，由对应于人类主体的形状中的较亮像素表示)中，它仅依赖于颜色正则化，因此将人类主体的大部分放置在与场景的大部分背景相同(或相似)的深度处。因此，视差映射150呈现了本文描述的稳健深度估计技术的益处的一个具体示例。

一般来讲，作为人类主体(或任何感兴趣的主体在给定图像中)离相机越远，并且随着光照水平降低，优化中的数据项变得更弱和更嘈杂(例如，在数据项来自立体信息和/或聚焦像素的情况下)。当数据项较弱且噪声较大时，具有稳健的正则化方案(例如，与单独的简单颜色正则化相反)变得更加重要，即，由于在此类情况下数据项的不可靠性。虽然来自立体信息和聚焦像素的数据项随着主体离相机越来越远和/或随着光照水平的降低而变弱，但其他数据源可能不会。然而，此类其他深度数据源也可以非常依赖于正则化，例如，由于仅能够在帧中的稀疏位置处递送数据。在此类情况下，稳健的正则化将变得重要，例如，正确地“扩散”或传播稀疏采样的信息。

示例性过程概述

现在转到图2，示出了根据上述一个或多个实施方案的用于生成稳健深度和/或视差估计的示例性方法200。首先，第一方法200可通过获得参考颜色图像来开始(步骤202)。接下来，可以例如从任何期望的深度或视差估计模态获得初始深度和/或视差信息(步骤204)。接下来，该过程可以获得参考颜色图像的一个或多个分割掩模，并且任选地，获得一个或多个分割掩模的对应置信掩模(步骤206)。如上所述，分割可以是二进制、多类或甚至连续的。分割掩模和置信掩模可以由神经网络或其他基于机器学习的系统产生。置信掩模可以反映给定神经网络或其他基于机器学习的系统在参考颜色图像中的任何给定像素的分割分类中具有的置信度。

接下来，方法200可以获得分割掩模和参考颜色图像的期望先验/假设(步骤208)。如上所述，在一些实施方案中，可以针对将要使用它们的特定类别对象来定制或细化分割假设。例如，正则化矩阵可以对场景中的人物的深度做出与围绕场景中的天空、太阳或墙壁相关的不同假设。接下来，方法200可对所获得的初始深度和/或视差信息执行组合的颜色和基于分割的正则化优化过程(步骤210)，以产生对应于所获得的颜色图像的第一深度或视差映射，例如，根据上述各种实施方案(步骤212)。如上所述，所生成的视差和/或深度映射可以用于各种摄影应用中，诸如合成肖像风格的SDOF图像的生成。

示例性系统概述

现在转到图3，示出了根据一个或多个实施方案的用于生成稳健深度和/或视差估计的系统300的框图。从图3的左侧开始，系统可以获得原始颜色图像(例如，RGB格式)304。结合原始颜色图像304，可以从期望的模态获得初始深度和/或视差信息302，例如，以在捕获场景上分布的一组聚焦像素视差估计的形式。此外，可以对原始颜色图像304执行分割操作306，从而产生任意数量的期望分割掩模，任何数量的这些分割掩模可以具有对应的置信掩模。如上所述，在原始颜色图像上产生的每个此类分割掩模可以具有期望数量的类别。

然后可以将每个信息源(即：初始深度和/或视差信息(302)、原始颜色图像数据(304)和分割信息(306))馈送到稳健深度/视差估计过程308。如上所述，稳健深度/视差估计过程308可以：获得各种分割掩模的先验/假设(以及它们对应的置信掩模，如果提供的话)(步骤310)；获得一个或多个分割掩模的一个或多个分割类别的最大影响值(步骤312)；获得颜色图像的任何先验/假设(步骤314)；然后，例如以迭代求解器操作的形式运行联合优化过程(步骤316)。然后，联合优化过程的结果将是正则化的深度或视差映射，其基于出现在图像中的各种分割类别的语义含义考虑了颜色信息和特定的先验/假设两者。如果优化器已经在视差值上运行，并且如果需要，则可以通过任何期望的方法将正则化的视差映射值转换为深度估计(318)。因此，联合优化过程的输出将是原始颜色图像的改善的深度或视差映射(320)，如上所述，其可以用于各种摄影应用，诸如合成肖像风格SDOF图像的生成。在一些实施方案中，可能不需要将正则化视差映射的值转换为深度估计和/或深度映射，因为某些摄影应用，诸如上述肖像风格SDOF图像渲染，可能能够直接对视差信息进行操作，即，不会被明确地转换为深度估计。

第二电子设备

现在参见图4，其示出了根据一个实施方案的说明性的可编程电子设备400的简化的功能框图。电子设备400能够为例如移动电话、个人媒体设备、便携式相机、或平板电脑、笔记本电脑或台式计算机的系统。如图所示，电子设备400可包括处理器405、显示器410、用户界面415、图形硬件420、设备传感器425(例如，近距离传感器/环境光传感器、加速度计和/或旋转仪)、麦克风430、音频编解码器435、扬声器440、通信电路445、图像捕获设备450(例如，它可以包括具有不同特性或能力(例如，高动态范围(HDR)、光学图像稳定(OIS)系统、光学变焦和数字变焦等)的多个相机单元/光学图像传感器)、视频编解码器455、存储器460、存储装置465以及通信总线470。

处理器405可执行有必要用于实施或控制由电子设备400所执行的多种功能的操作的指令(例如，诸如根据本文描述的各种实施方案的视差/深度信息的生成和/或处理)。处理器405可例如驱动显示器410并可从用户界面415接收用户输入。用户界面415可采取多种形式，诸如按钮、小键盘、拨号盘、点击轮、键盘、显示屏和/或触摸屏。用户界面415可以例如是用户可以通过其观看捕获的视频流的导线管和/或指示用户想要捕获的特定帧(例如，通过在设备的显示屏上正显示所需帧的时刻点击物理按钮或虚拟按钮)。在一个实施方案中，显示器410可以显示在处理器405和/或图形硬件420和/或图像捕获电路同时地生成视频流并将视频流存储在存储器460和/或存储装置465中时其被捕获的视频流。处理器405可以是片上系统(例如存在于移动设备中的那些片上系统)，并且可包括一个或多个专用图形处理单元(GPU)。处理器405可基于精简指令集计算机(RISC)架构或复杂指令集计算机(CISC)架构或任何其他合适的架构，并且可包括一个或多个处理内核。图形硬件420可以是用于处理图形和/或帮助处理器405执行计算任务的专用计算硬件。在一个实施方案中，图形硬件420可包括一个或多个可编程图形处理单元(GPU)。

例如，根据本公开，图像捕获设备450可以包括一个或多个相机单元，这些相机单元被配置为捕获图像，例如，可以被处理以生成针对此类捕获图像的深度/视差信息的图像。至少部分地通过以下设备可处理来自图像捕获设备450的输出：视频编解码器455和/或处理器405和/或图形硬件420、和/或结合在图像捕获设备450内的专用图像处理单元或图像信号处理器。这样捕获的图像可被存储在存储器460和/或存储装置465中。存储器460可包括由处理器405、图形硬件420和图像捕获设备450使用的一种或多种不同类型的介质以执行设备功能。例如，存储器460可包括存储器超高速缓存、只读存储器(ROM)、和/或随机存取存储器(RAM)。存储装置465可存储介质(例如，音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置465可包括一个或多个非暂态存储介质，所述非暂态存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质(例如CD-ROM和数字视频光盘(DVD))以及半导体存储设备(例如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储器460和存储装置465可用于保持计算机程序指令或代码，所述计算机程序指令或代码被组织成一个或多个模块并以任何所需的计算机编程语言编写。例如，在由处理器405执行时，此类计算机程序代码可实现本文所述的方法或过程中的一种或多种。

应当理解，以上描述旨在是示例性的而非限制性的。例如，如本公开所述，使用语义分割来通知深度算法并改善其质量可与多个传感器模式一起使用，并且不依赖于所涉及的具体感测或硬件。应用包括但不限于从传统立体图像对计算出的视差，从聚焦像素(即，用于相位检测自动对焦的像素)计算出的视差，以及经由有源感测获得的深度。另外，在本公开中，涉及深度和视差估计两者。应当理解，广义上，视差可被视为与深度成反比。

在回顾以上描述时，许多其他实施方案对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求以及赋予此类权利要求的等同形式的完整范围来确定本发明的范围。

Claims

1.一种非暂态程序存储设备，所述非暂态程序存储设备包括被存储在其上的指令，所述指令使得一个或多个处理器：

获得场景的第一图像，所述第一图像包括多个第一像素，所述像素具有色值；

获得包括多个第一值的第一深度或视差信息，其中每个值对应于所述场景中的位置；

获得包括多个第一分割值的至少一个语义分割掩模，其中每个分割值对应于所述场景中的位置；

针对所述至少一个语义分割掩模中的至少一个获得至少一个正则化项；以及

执行优化操作以生成第一深度或视差映射，

其中所述优化操作联合最小化基于所述多个第一像素中的所述色值、所述第一深度或视差信息、所述至少一个语义分割掩模和所述至少一个正则化项的公式。

2.根据权利要求1所述的非暂态程序存储设备，其中所述指令还使得所述一个或多个处理器：至少部分地基于所述生成的第一深度或视差映射来生成所述第一图像的模糊版本。

3.根据权利要求1所述的非暂态程序存储设备，其中所述指令还使得所述一个或多个处理器：获得针对所述至少一个所获得的语义分割掩模中的一个的置信掩模，其中所述优化操作还至少部分地基于所述获得的置信掩模。

4.根据权利要求1所述的非暂态程序存储设备，其中所述指令还使得所述一个或多个处理器：获得针对所述至少一个语义分割掩模中的至少一个的最大影响值，其中所述优化操作还至少部分地基于所述获得的最大影响值。

5.根据权利要求1所述的非暂态程序存储设备，其中所述至少一个语义分割掩模包括至少两个语义分割掩模，其中所述指令还使得所述一个或多个处理器针对所述至少两个语义分割掩模中的每个获得至少一个正则化项，并且其中所述优化操作还至少部分地基于针对所述至少两个语义分割掩模中的每个的所述获得的正则化项。

6.根据权利要求1所述的非暂态程序存储设备，其中所述多个第一值中的至少一个值对应于用于捕获所述第一图像的图像捕获设备的聚焦像素的位置。

7.根据权利要求1所述的非暂态程序存储设备，其中所述至少一个正则化项中的至少一个强制执行平滑约束。

8.一种电子设备，包括：

存储器；

一个或多个图像捕获设备；

显示器；

用户界面；以及

一个或多个处理器，所述一个或多个处理器可操作地耦接到所述存储器，其中所述一个或多个处理器被配置为执行使得所述一个或多个处理器执行以下操作的指令：

从所述一个或多个图像捕获设备获得场景的第一图像，所述第一图像包括多个第一像素，所述像素具有色值；

执行优化操作以生成第一深度或视差映射，

9.根据权利要求8所述的电子设备，其中所述指令还使得所述一个或多个处理器：至少部分地基于所述生成的第一深度或视差映射来生成所述第一图像的模糊版本。

10.根据权利要求8所述的电子设备，其中所述指令还使得所述一个或多个处理器：获得针对所述至少一个所获得的语义分割掩模中的一个的置信掩模，其中所述优化操作还至少部分地基于所述获得的置信掩模。

11.根据权利要求8所述的电子设备，其中所述指令还使得所述一个或多个处理器：获得针对所述至少一个语义分割掩模中的至少一个的最大影响值，其中所述优化操作还至少部分地基于所述获得的最大影响值。

12.根据权利要求8所述的电子设备，其中所述至少一个语义分割掩模包括至少两个语义分割掩模，其中所述指令还使得所述一个或多个处理器针对所述至少两个语义分割掩模中的每个获得至少一个正则化项，并且其中所述优化操作还至少部分地基于针对所述至少两个语义分割掩模中的每个的所述获得的正则化项。

13.根据权利要求8所述的电子设备，其中所述多个值中的至少一个值对应于用于捕获所述第一图像的所述一个或多个图像捕获设备中的一个的聚焦像素的位置。

14.根据权利要求8所述的电子设备，其中所述至少一个正则化项中的至少一个强制执行平滑约束。

15.一种图像处理方法，包括：

从一个或多个图像捕获设备获得场景的第一图像，所述第一图像包括多个第一像素，所述像素具有色值；

执行优化操作以生成第一深度或视差映射，

其中所述优化操作联合最小化基于所述多个第一像素中的所述色值、所述第一深度或视差信息、所述至少一个语义分割掩模和所述至少一个正则化项。

16.根据权利要求15所述的方法，还包括至少部分地基于所述生成的第一深度或视差映射来生成所述第一图像的模糊版本。

17.根据权利要求15所述的方法，还包括获得针对所述至少一个所获得的语义分割掩模中的一个的置信掩模，其中所述优化操作还至少部分地基于所述获得的置信掩模。

18.根据权利要求15所述的方法，还包括获得所述至少一个语义分割掩模中的至少一个的最大影响值，其中所述优化操作还至少部分地基于所述获得的最大影响值。

19.根据权利要求15所述的方法，其中所述至少一个语义分割掩模包括至少两个语义分割掩模，其中所述方法还包括针对所述至少两个语义分割掩模中的每个获得至少一个正则化项，并且其中所述优化操作还至少部分地基于针对所述至少两个语义分割掩模中的每个的所述获得的正则化项。

20.根据权利要求15所述的方法，其中所述多个值中的至少一个值对应于用于捕获所述第一图像的所述一个或多个图像捕获设备中的一个的聚焦像素的位置。