CN106204522B

CN106204522B - 对单个图像的联合深度估计和语义标注

Info

Publication number: CN106204522B
Application number: CN201610183367.0A
Authority: CN
Inventors: 林哲; S·科恩; 王鹏; 沈晓辉; B·普赖斯
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2015-05-28
Filing date: 2016-03-28
Publication date: 2021-10-22
Anticipated expiration: 2036-03-28
Also published as: DE102016005407A1; GB2538847B; AU2016201908B2; US10019657B2; US20160350930A1; GB201605125D0; GB2538847A; CN106204522A; AU2016201908A1

Abstract

本申请的各实施例涉及对单个图像的联合深度估计和语义标注。描述了可用于处理单个图像的联合深度估计和语义标注技术。在一个或者多个实现方式中，由一个或者多个计算设备通过机器学习来估计图像的景物的全局语义和深度布局。由一个或者多个计算设备也通过机器学习来为图像的景物的多个段中的相应的段估计局部语义和深度布局。由一个或者多个计算设备合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值。

Description

对单个图像的联合深度估计和语义标注

技术领域

本申请总体上涉及对单个图像的联合深度估计和语义标注。

背景技术

图像中的深度估计通常用来估计在图像景物中的对象与用来捕获图像的相机之间的距离。这常规地使用立体图像或者专用深度传感器(例如，飞行时间或者结构光相机)而被执行以标识对象、支持手势等。因而，对专用硬件(比如立体相机或者专用深度传感器)的这一依赖限制这些常规技术的可用性。

图像中的语义标注用来向图像中的像素指派标签以比如描述至少部分由像素代表的对象，比如天空、地面、建筑物等。这可以用来支持多种功能，比如图像中的对象去除和替换、掩模化、分割技术等。然而，用来执行语义标注的常规方式通常与使用不同和无关技术的深度估计分离地或者依次地被解决、缺乏准确性并且可能造成将在技术的执行中的早期阶段中形成的误差传播到以后阶段。

发明内容

描述了可用于处理单个图像的联合深度估计和语义标注技术。在一个或者多个实现方式中，由一个或者多个计算设备通过机器学习来估计图像的景物的全局语义和深度布局。也由一个或者多个计算设备通过机器学习来估计用于图像的景物的多个段中的相应的段的局部语义和深度布局。由一个或者多个计算设备合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值。

在一个或者多个实现方式中，一种系统包括至少部分地在硬件中实施的一个或者多个计算设备。一个或者多个计算设备被配置为执行操作，这些操作包括：通过机器学习来估计图像的景物的全局语义和深度布局，将图像分解成多个段，使用景物的估计的全局和语义深度布局来指导对多个段中的个别段的局部语义和深度部件的预测，并且联合地形成图像的其中向个别像素指派语义标签的语义地标注的版本以及图像的其中向个别像素指派深度值的深度图。

在一个或者多个实现方式中，一种系统包括至少部分地在硬件中实施的全局确定模块，该全局确定模块被配置为通过机器学习估计图像的景物的全局语义和深度布局。该系统也包括至少部分地在硬件中实施的局部确定模块，该局部确定模块被配置为通过机器学习估计用于图像的景物的多个段中的相应的段的局部语义和深度布局。该系统还包括合并计算模块，该合并计算模块被配置为合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值。

这一发明内容以简化的形式介绍以下在具体实施方式中进一步描述的概念选集。这样，这一发明内容未旨在于标识要求保护的主题内容的实质特征，它也未旨在于在确定要求保护的主题内容的范围时用作辅助。

附图说明

参照附图描述具体实施方式。在各图中，标号的最左位标识标号首次出现的图。在描述和各图中的不同实例中使用相同标号可以指示相似或者相同项目。在各图中表示的实体可以指示一个或者多个实体，因此可以在讨论中可互换地引用实体的单数或者复数形式。

图1是如下环境的图示，在该环境中，示例实现方式可操作用于运用这里描述的技术，这些技术可用来执行对单个图像的联合深度估计和语义标注。

图2描绘了示例实现方式中的系统，该实现方式更具体地示出了图1的深度和语义分割模块的模版生成模块的操作。

图3描绘了示例实现方式中的系统，该实现方式更具体地示出了图1的深度和语义分割模块的全局确定模块的操作。

图4描绘了示例实现方式中的系统，该实现方式更具体地示出了图1的深度和语义分割模块的局部确定模块和合并计算模块的操作。

图5描绘了被实施为常规神经网络以根据全局模版池对图像进行分类的机器学习的示例。

图6描绘了用来得到对全局语义和深度部件的估计的全局模版的组合的示例。

图7描绘了多级分割的示例实现方式，该多级分割可用作对局部语义和深度部件的确定的部分。

图8描绘了对从图像取得的每个段到多个局部模版中的每个局部模版的仿射分数的计算的示例实现方式。

图9描绘了如下实现方式，该实现方式示出了用于段的预测结果的示例。

图10描绘了被视为从相邻超像素的在两个定界框的重叠区域内的深度偏移的光滑度。

图11描绘了如下示例实现方式，其中对于在室外和室内图像中的使用而比较这里描述的技术。

图12描绘了如下示例实现方式，该示例实现方式示出了从图像生成的语义地标注的图像和深度图。

图13和图14提供了用于室内图像的定性结果。

图15是描绘了示例实现方式中的过程的流程图，在该过程中，描述了可用于处理单个图像的联合深度估计和语义标注技术。

图16是描绘了示例实现方式中的过程的另一流程图，在该过程中，描述了可用于处理单个图像的联合深度估计和语义标注技术。

图17图示了包括示例设备的各种部件的示例系统，该示例设备可以被实施为如描述的任何类型的计算设备和/或参照图1至图16以用来实施这里描述的技术的实施例。

具体实施方式

概述

语义分割和深度估计是图像理解中的两个基本问题。尽管已经发现两个任务强烈相关并且互利，但是这些问题常规地使用不同技术而被分离地或者依次地解决，这造成不一致、误差和不准确。

在下文中，观察来自两个任务的典型失败情况的互补效果，该互补效果造成对可用于单个图像的用于联合语义分割和深度估计的统一粗略到精细框架的描述。例如，提出了如下框架，该框架首先通过机器学习来预测由语义标签和深度值(例如，绝对深度值)组成的粗略全局模型以代表图像的总体上下文。语义标签描述“什么”由图像中的相应像素代表，例如，天空、植物、地面、墙壁、建筑物等。深度值描述在用来捕获图像中的景物的相机与由像素代表的在景物中的相应对象之间的距离，例如，在由图像捕获的景物中的“z”距离。

图像然后被分割，并且通过嵌入全局模型，也使用机器学习来预测用于相应局部分割中的每个像素的语义标签和深度值，并且学习语义标签以局部地标记在段内的像素。深度值一个接一个地对于在段内的相对性而被归一化，并且因此未描述绝对距离值，而是实际上描述在段内的像素之间的深度关系。

对于用于语义标签的段和来自段的深度值的预测然后被合并并且例如通过有条件随机场(CRF)由来自全局模型的语义标签和深度值指导。这产生精细级估计以形成其中向图像中的每个像素给予语义标签的语义地标注的图像以及其中向图像中的每个像素指派深度值的深度图，该深度值代表在相机与由像素代表的对象之间的绝对值。另外，通过实行在深度值与语义标签之间的一致性标签并且通过使用来自全局上下文的指导，这些技术有效地利用这两个组成标签提供总体常规技术的现有技术结果。也可以运用附加技术作为这一联合估计的部分以比如如在下文中进一步描述的那样在模版分类上下文中执行机器学习、平滑语义标签中的值和深度值、在图像内实行对象边界等。

在以下讨论中，首先描述了可以运用这里描述的技术的示例环境。然后描述了可以在示例环境以及其它环境中执行的示例过程。因而，对示例过程的执行不限于示例环境而示例环境不限于对示例过程的执行。

示例环境

图1是示例实现方式中的环境100的图示，该环境可操作用于运用这里描述的技术，这些技术可用来执行对单个图像的联合深度估计和语义标注。所示环境100包括可以按照多种方式配置的计算设备102。

计算设备102例如可以被配置为台式计算机、膝上型计算机、移动设备(例如，假设如图所示的手持配置，比如平板计算机或者移动电话)等。因此，计算设备102可以范围从具有大量存储器和处理器资源的全资源设备(例如，个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如，移动设备)。附加地，虽然示出了单个计算设备102，但是计算设备102可以代表多个不同设备，比如由企业用来“在云上”执行如关于图17进一步描述的操作的多个服务器。

计算设备102被图示为包括多种硬件部件，这些硬件部件的示例包括处理系统104、被图示为存储器106的计算机可读存储介质的示例、显示设备108、可用来捕获图像112的相机110等。处理系统104代表用于通过执行在存储器106中存储的指令来执行操作的功能。虽然被分离地图示，但是可以对这些部件的功能进一步划分、组合(例如，在专用集成电路上)等。

处理系统104被图示为执行可在存储器106中存储的并且这样至少部分的在硬件中实施的深度和语义分割模块114。深度和语义分割模块114可由处理系统104执行以引起执行一个或者多个操作。也设想了其它实现方式，比如被实施为专用硬件部件(例如专用集成电路、固定逻辑电路装置)、“在云116之上”实施等。

深度和语义分割模块114代表用于取得单个图像118(可以对应于或者可以不对应于图像112)并且从该图像118生成语义地标注的图像120和深度图122的功能。语义地标注的图像120描述“什么”由图像118中的个别像素代表，例如，如对于图像118图示的树、房屋、地面和天空。深度图122包括绝对深度值，这些绝对深度值指示由图像118中的相应像素代表的对象位于距捕获图像118的相机110多远，即，“z”距离。虽然相机110被图示为计算设备102的部分，但是应当清楚图像118可以由其它设备捕获并且被存储在计算设备102上和/或在云116之上用于处理。

为了执行对图像118的联合深度估计和语义标注，深度和语义分割模块114运用多种不同功能。这一功能的示例包括模版生成模块124，该模版生成模块124可用来生成全局和局部模版，这些模版在机器学习中用作分类问题的部分以得到用于图像118的深度值和语义标签，在下文中的对图2的描述中包括其进一步讨论。也设想了如在下文中进一步描述的未运用模版的其它示例。

这一功能的附加示例包括全局和局部确定模块126、128，这些模块可用来分别估计全局和局部语义标签和深度值以形成全局和局部语义和深度布局，并且因此遵循粗略到精细过程。在对图3和图4的讨论中包括了对全局和局部语义和深度布局确定的进一步描述。这一功能的又一示例被图示为合并计算模块130，该合并计算模块130可用来合并全局和局部语义和深度布局以得到语义地标注的图像120和深度图122，在下文中的对图4的对应描述中包括其进一步讨论。

在下文中，示出了通过利用语义标签和深度值二者的联合训练，实现了在语义与深度预测之间的一致性。此外，全局到局部策略保留用于生成全局合理结果的长范围上下文，该上下文维持段边界信息。另外，如以下描述的机器学习技术在图像和段的大外观变化之下提供健壮估计。语义地标注的图像120和深度图122可用来支持多种功能，比如对象检测、对象识别和姿态估计、透镜模糊、图像内涂、对象去除、用于图形使用的机器人和再点燃等。

现在将主要地参照图2至图4以描述图1的模版生成模块124、全局确定模块126、局部确定模块128和合并计算模块130的功能的相互关系。给定如图3中所示的图像118，全局确定模块126首先使用机器学习以估计全局语义和深度布局302、304，这可以使用全局和局部模版或者其它技术而被执行。

在所示的示例中，全局语义布局302被示出为给定对在中心的建筑物、在图像112的底部的地面和在图像的顶部的天空的粗略估计，并且因此图像中的像素被粗略地语义地标注为对应于特定对象。此外，全局确定模块126也生成图像的全局深度布局304(该全局深度布局如以上描述的那样给定用于图像中的像素的绝对深度值)，并且因此提供在由像素代表的对象与用来捕获图像118的相机110之间的“z”距离

一旦已经生成了全局语义和深度布局302、304，深度和语义分割模块114然后使用局部确定模块128将图像112分割成多个段，这可以包括多级分割，其中为图像118生成不同段大小。局部确定模块128然后个别地生成用于段的局部语义和深度布局以比如描述段的大多数是否代表地面、建筑物的部分或者植物。局部深度布局描述用于段中的像素的相对深度值，这些相对深度值描述像素相对于彼此的深度(例如，局部深度转变)，但不是如以上描述的“z”距离的绝对值。

深度和语义分割模块114然后运用合并计算模块130以合并全局和局部语义布局以形成语义地标注的图像120并且合并全局和局部深度布局以形成深度图122。合并计算模块130通过将来自局部语义布局中的段的语义预测组合成在段之间平滑的并且由全局语义布局指导的精化的语义预测图来构造语义地标注的图像120。附加地，合并计算模块130通过利用全局深度布局的绝对深度值和来自局部深度部件的相对深度值将段的局部深度转变组合成精化的深度图122。

为了执行这些技术，深度和语义分割模块114可以运用多种不同机器学习212技术，比如常规神经网络(CNN)、支持矢量回归(SVR)等。例如，深度和语义分割模块114可以使用多个神经层来运用机器学习212以学习模型，该模型直接地预测用于图像112中的每个像素的语义标签和深度值。在另一示例中，模版生成模块124可以用来生成从训练数据生成并且可用来通过分类问题指导机器学习212过程的全局和局部模版，在下文中进一步描述生成模版的示例。

图2描绘了示例实现方式中的系统200，该实现方式更具体地示出了图1的模版生成模块124的操作。模版生成模块124代表如下功能，该功能可用来运用机器学习212(例如，经由常规神经网络)以处理图像以得到可用来使用全局模版206来描述由图像捕获的景物的全局模型204。模版生成模块124也代表如下功能，该功能可用来生成局部模型208，该局部模型使用局部模型208和对应的局部模版210来描述景物的在来自图像118的段内的部分。

在支持这里描述的技术时，已经观察到自然景物图像包含在全局上下文中的某些布局，比如街道景色、海洋、风景、树、建筑物等。因此，可以作为模版分类问题解决对图像118的语义标签和深度部件的整体预测，其中通过匹配图像118与对应全局模版206来处理图像118以便学习用于图像118中的景物的很可能的语义标签和深度值。

为了生成全局模版206(这些全局模版206形成全局模型204)，模版生成模块124利用机器学习212以处理训练图像202以学习全局模版，这些全局模版粗略地描述全局语义布局214，该全局语义布局将个别像素标注为对应于语义地描述的对象类型，例如，天空、地面、植物、建筑物等。也执行机器学习212以联合地学习全局深度值的全局深度布局216，该全局深度布局216描述在由图像捕获的景物中的对象相对于捕获图像的相机110而言的绝对距离。例如，相似阴影和/或颜色可以用来代表景物中的相似“z”深度。

内核k均值(k-means)技术用来利用从在与图2的数据集中的每个训练图像202关联的语义标签实测值(ground truth)和深度实测值的距离形成全局模版206。在形式上，在图像I_i与I_j之间的距离可以记为如下：

k(I_i，I_j)＝λ₁||I_si-I_sj||₀+λ₂||log I_di-log I_dj||₁ (l)

其中是I_si和I_di分别是图像I_i的实测值语义标签和深度。

具体而言，实测值被重设大小为五十个像素×五十个像素的大小以避免来自小局部变化的影响。此外，如在图5的示例实现方式中所示的，用于室内502和室外504景物的集群被分离为不同深度比例和不同语义标签数目。对于室外504，初始集群数目被设置为七十。

为了包括模版的足够变化和避免无关值，在这一示例中为每个类设置最大数目(300)和最小数目(10)。分别地，如果在以内的图像数目大于三百，则内核k均值技术将类分类成三个子类，而如果图像数目小于十，则被删减。在拥有了全局模版206的池后，每个训练图像202基于来上式1的距离而被指派到全局模版206中的相应全局模版中，并且机器学习212分类器被调节以将每个图像分类成全局模版之一。

图3描绘了示例实现方式中的系统300，其中示出了深度和语义分割模块114的全局确定模块126的操作以计算用于图像118的全局语义和深度布局302、304。如先前描述的那样，全局确定模块126得到图像118的语义标签的粗略描述，该粗略描述被表达为全局语义布局302。在所示示例中，全局语义布局302主要地描述天空、建筑物和地面。类似地，全局确定模块126得到图像118的全局深度布局304的粗略描述，该粗略描述如图所示指示地面最近并且在z方向上渐远，并且建筑物也在z方向上随着天空更远而渐远。

为了执行这一估计，全局确定模块126作为示例运用全局模版206作为机器学习212的部分以对全局模版206的与图像118对应的一个或者多个全局模版进行定位。这些全局模版206因此具有将用于图像的正确语义标签和深度值分别提供作为全局语义布局和全局深度布局的可能性。更在形式上地，如在图5的示例实现方式500中所示，通过机器学习212(例如，学习的CNN)，根据全局模版206的池以某个置信度对图像118进行分类以便确定表达为全局语义布局的用于相似的全局语义标签。

给定图像I，机器学习212作为全局机器学习分类器C操作以将图像118分类成多个全局模版206

中的相应全局模版，其中N是生成的模版数目而T_i是m×n×2矩阵，其中m×n是模版大小标签它级联语义图S_i和深度图D_i。

然而，实际上，图像i的全局模版T_i可能与图像布局不相配，因为它是类中心表示。因此，取代使用单个模版，前K个全局模版206的组合可以用来用从机器学习212获得的分类分数代表图像。

图6描绘了这样的全局模版组合的示例600，该全局模版组合用于得到对全局语义和深度部件的估计。对于图像602，组合来自相应全局模版的全局语义布局604、606、608以形成比任何一个个别全局模版更准确地描述图像602的语义布局的全局语义布局610。类似地，组合描述全局深度布局612、614、616的全局模版以形成比模版中的任何特定模版更准确地描述图像602中的对象的深度的全局深度布局618。图示了用于图像620的另一示例，其中组合全局语义布局622、624、626以形成全局语义布局628以提供图像620中的语义标签的概率标签组合全局深度布局630、632、634以形成全局深度布局636。

在形式上，给定前K个模版

和对应的分数S_j，产生全局概率布局I_ti，其中I_ti是m×n×d矩阵，m、n是全局模版尺度，并且d＝d_s+d_d，其中d_s是语义标签的数目并且d_d是组合的深度图，该深度图指示模版级联在语义标签内的概率分布和用于每个像素的组合的深度值在形式上，对于语义标签c，给定第j个预测，获得表达式P(c|x)_j＝e(S_j(x))，并且在每个分布内是P(c|x)＝∑_js_jP(c|x)_j/∑_js_j。对于深度，x的深度值被计算为来自所有全局模版的深度值的线性组合，即，d(x)＝∑_js_jD_j(x)＝∑_js_j。

在一个或者多个实现方式中，训练机器学习，从而取代简单分类损失，比较每个图像的距离(例如，相似度)与模版(例如，全局或者局部)。在形式上，描述每个图像的粗略布局为全局模版的稀疏合成，即，I_ti＝w_iH,其中H是级联T中的所有模版的矩阵。机器学习训练损失因此对于图像i是||w_ci-w_i||然后例如机器学习用来预测组合代码w_ci，并且通过w_iH生成全局布局。

图7描绘了多级分割的示例实现方式700，该多级分割可用作对局部语义和深度部件的确定的部分。多级分割可以用来捕获上下文和外观信息的级别。这可以包括改变段参数和改变阈值以及来自外观、语义边缘和空间信息的信息以生成紧凑、语义有意义段。

在形式上，将图像702分割成350个超像素。同时，闭合形式边缘技术用来生成具有包围的强边界的语义边缘图704。然后，内核k均值技术用来将相似段集群成多个级别708、710(例如具有十五、三十和五十个段)而距离如下：

k(S_i，S_j)＝λ₁Geo(S_i，S_j)+λ₂||f_si-f_sj|| (3)

其中Geo(S_i，S_j)是S_i和S_j在语义边缘图内的测地距离，而

是段S_i的局部外观特征，该局部外观特征由在段以内的像素RGB的均值和协方差组成。

现在将参照图2以讨论由模版生成模块124的局部模版210生成。与全局模版预测相似，可以用公式将局部模版210生成表示为模版分类问题。为了生成局部模版210，模版生成模块124考虑语义和深度信息二者以保证一致性。

局部模版210在描述用于图像的段的局部语义布局时通常地对应于单个语义标签。这样，局部模版的局部语义布局与单个对象有关，并且段中的像素中的每个像素语义地被标记为对应于该对象，例如，植物、地面、天空、竖直等。局部模版210的局部深度部件218描述段内的像素相对于彼此的相对深度值。

在形式上，给定段S，从实测值向段指派单个语义标签s(S)和深度转变d(S)。选择如下语义标签，该语义标签代表在段内的像素的大多数，并且对于深度转变，深度被归一化成[0，1]。如果段数目太大以至于无法在存储器中相配以用于联合集群化，则集群化被分离成两个步骤。在第一步骤，段基于它的语义标签而被分离。

在第二步骤中，在每个语义标签内通过深度转变的L₁距离对段进行集群以生成局部深度布局。在每个语义类内基于语义类的几何复杂性指派集群编号。此外，标识共享相似几何性质(比如地面和草地的语义类)，并且在所有共享的类内的段被集群在一起。集群深度模版然后被指派给共享的语义类。最后，删减具有很少段示例(例如，少于十个)的集群，并且这些示例被重新指派给来自其余类的最近类。局部模版210然后用作如以下进一步描述的局部语义和深度布局预测的部分。

现在参照图4，与全局模版相似，为了训练局部确定模块128的机器学习，相继地取得图像112的多级段402、404、406作为输入。局部确定模块128然后提供相应实测值对应语义标签和深度转变模版作为输出以便描述段的局部语义和深度布局。

由图3中的全局确定模块126确定的全局语义和深度布局302、304可以由局部确定模块128用来指导这一过程。全局语义和深度布局302、304例如提供全局上下文，该全局上下文帮助解决局部确定模块128可能遇到的局部混淆。具体而言，来自全局语义和深度部件302、304的指导可以被并入最后预测层中作为机器学习的部分。

在形式上，对于段S第7和第8，从调节的机器学习输出特征、即f₇和f₈。此外，段402、404、406的所示定界框被映射到全局语义和深度布局的区域中，并且取对应语义分布和深度值作为附加特征即f_s和f_d。为了平衡不同特征的影响，每个特征首先用L₂范数来归一化，然后特征和每个类型的特征的权值在它的相对特征长度上被级联，即w_i＝Σ_jL_j/L_i，其中L_i是类型i的特征长度。

不同于全局分类，可以确定每个段与训练的局部模版的相似度。如在图8的示例实现方式800中所示，计算从图像804取得的每个段到局部模版210中的每个局部模版的放射分数。

对于每个局部模版210，训练支持矢量回归(SVR)以用于预测。在形式上，给定段S_i，如下计算段802到局部模版210中的相应局部模版的仿射性：

S(S_i,D_j)＝exp(-||d(S_i)-d(D_j)||₁/^σ (3)

其中σ是0∶85AT并且AT是局部模版210的面积。然后，在推测期间，前K个局部模版210由图4的局部确定模块128取得而最高预测分数用于对段的以后合并。

图9描绘了实现方式900，该实现方式示出了用于段906、908、910、912的预测结果的两个示例902、904。如图所示，深度预测对于图像变化和模糊是健壮的而没有平面假设，这使得这一方式很好地推广至许多场景而避免传统线检测。

再次回到图4，合并计算模块130从局部确定模块128接收局部语义和深度布局并且使用全局语义和深度布局302、304来合并它们。可以使用多种不同技术来执行合并，其用于语义标注的示例涉及到使用按像素有条件随机场(CRF)用于预测。在这一技术中，每个图形节点是像素x并且边缘是四个连接的邻居像素。

对于一元项，从像素对应段获得语义预测分数，而对于平滑度，计算在邻居像素之间的概率差值。在形式上，公式表示可以记为如下：

其中P(l|S_i)是从局部语义布局计算的概率。具体而言，对于段S，从用于每个局部模版的T_j的SVR计算它的预测的分数v_j，该局部模版T_j包含语义标签S_j和深度转变d_j。然后，被预测为标签1的段的概率被为：

附加地，可以执行图形切割以高效地求解这样的能量函数以得到最终语义标注结果。

对于深度，用于每个段的中心绝对深度值d和转变比例s由合并计算模块130推测以合并深度转变d_j，以便得到每个像素的绝对深度值以形成深度图122。

由于平滑度难以在像素级实现，所以以上关于图7的超像素704技术用于图形节点并且边缘是在超像素之间的相邻边缘。一元项被一元地视为来自全局深度和语义布局中的对应地点的段的绝对深度和比例改变。平滑度被视为如图10的示例实现方式1000中所示从相邻超像素的在两个定界框的重叠区域1002内的深度偏移。

在形式上，这一公式表示可以被记为如下：

L(d_r，s_r)＝||d_r-gd_r||₁+||s_r-gs_r||₁ (6)

其中r是超像素段，D、S是用于段d_r的绝对中心深度的可能值和深度转变S_r的比例。

对于一元项，在一个方面中，考虑在段的预测的深度值d_r与它的来自全局模版的对应绝对深度值gdr之间的L1距离。在另一方面中，在它的预测的比例S_r与预测的之间的距离。

对于平滑度项，如图10中所示，在两个邻居超像素的重叠框内考虑深度偏移，即，上式7中的

具体而言，深度偏移考虑来自外观相似性和语义标签权重的权重的语义标签和来自全局布局中的相机的深度的权重二者。

在实际上，段的绝对深度值被量化为来自全局深度布局中的相应值的移位值的集合(例如，在[-1，1]米内的二十个平均内插值)而深度转变的比例为最大深度范围的集合(在[0.5，2]内的平均内插值)。通过量化，使用多环信任传播可以用于推测和获得求解。此外，为了考虑高阶平滑度(例如，在相同地面或者相同墙壁上的段在单个平面中对准)，使用来自语义合并的预测结果，并且地平面被设置为图形中的单个段节点，这保证长范围平滑度。

示例结果

图11描绘了示例实现方式1100，其中对于在室外和室内图像1102、1104中使用来比较这里描述的技术。室外图像1102代表从室外图像(例如，8432个图像)的数据集选择的一个图像。每个语义标签首先被映射到几何标签中。具体而言，在这一示例中为室外图像构造六个几何标签，即，地面、天空、建筑物、植物、山脉和对象。然后从映射的实测值几何分割生成深度。

室内图像1004代表与语义标签和例如来自深度传感器的实测值深度二者关联的室内图像(例如，1449个图像)的数据集选择的一个图像。语义标签被映射出五个一般几何标签、即地面、竖直、天花板、平面物体、其它物体。

图12描绘示例实现方式1200，该示例实现方式示出了语义地标注的图像120和从图像1202生成的深度图122。如图所示，这里描述的技术提供健壮语义分割标签提供语义一致深度，这保证结果的可视质量。此外，从结果的第三行，可观察到天空中的太阳和水中的反射由于由全局模版提供的指导而具有接近外观，这可能误导常规技术。

图13和图14提供了用于室内图像的定性结果1300、1400。在图13的定性结果1300中，图像1302被处理以形成语义地标注的图像120和深度图122。比较这些与来自常规深度传送技术的结果1304和使用深度传感器而生成的实测值1306深度图。类似地，图像1402被处理以形成语义地标注的图像120和深度图122并且与来自常规深度传送技术的结果1404比较。可以观察到这里描述的技术的深度结果比在多数情况下仅提供粗略估计的常规深度传送更好地保留景物结构。

示例过程

以下讨论描述可以利用先前描述的系统和设备而实施的技术可以在硬件、固件或者软件或者其组合中实施过程中的每个过程的方面。过程被示出为块集合，这些块指定由一个或者多个设备执行的操作，而未必限于所示用于由相应块执行操作的顺序。在以下讨论的部分中，将参照图1-14。

图15描绘了示例实现方式中的过程1500，其中描述了可用于处理单个图像的联合深度估计和语义标注技术。一个或者多个计算设备通过机器学习来估计图像的景物的全局语义和深度布局(块1502)。例如，可以作为由机器学习212求解的分类问题的部分、基于与全局模版206的相似度来估计全局语义和深度布局302、304。全局语义布局302向图像中的像素给定粗略语义标注，并且全局深度布局304给定绝对深度值，该绝对深度值例如描述在相机110与由图像118捕获的相应对象之间的z距离。

一个或者多个计算设备也通过机器学习为图像的景物的多个段中的相应的段估计局部语义和深度布局(块1504)。可以作为由机器学习212求解的分类问题的部分、基于与局部模版210的相似度来估计局部语义和深度布局。局部语义布局主要地使用单个语义值(例如，标签)以用于从图像取得的段，并且局部深度布局描述用于像素的相对于彼此的相对深度值。局部布局可以由全局布局指导以支持在为从被局部地处理的图像取得的段执行的标注和标记时的一致性。

一个或者多个计算设备合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值(块1506)。合并计算模块130例如可以与来自局部深度部件的相对深度值一起使用来自全局深度部件的绝对深度值以生成深度图122。相似地，从由全局语义布局指导的局部语义布局形成语义地标注的图像120以向图像中的像素指派语义标签以例如指示“什么”由像素代表。

图16描绘了示例实现方式中的过程1600，其中描述了可用于处理单个图像的联合深度估计和语义标注技术。通过机器学习估计图像的景物的全局语义和深度布局(块1602)(例如，通过常规神经网络)可以执行作为使用模版的分类问题的部分等。

将图像分解成多个段(块1604)。这可以包括单级或者多级分割，在图4中示出了其示例。然后做出对局部语义的预测，并且使用景物的估计的全局和语义深度布局来指导多个段中的个别段的深度布局(块1606)，例如，使用模版作为分类问题的部分、未用模版而直接地执行等。

与图像的深度图(其中向个别像素指派深度值)一起联合地形成图像的语义地标注的版本(其中向个别像素指派语义标签)(块1608)。以这一方式，可以一起执行对语义地标注的图像120和深度图122的形成以如以上描述的那样共享信息和提高一致性。

示例系统和设备

图17图示了包括示例计算设备1702的大体上在1700的示例系统，该计算设备1702代表可以实施这里描述的各种技术的一个或者多个计算系统和/或设备。这通过包括深度和语义分割模块114而被举例说明，该深度和语义分割模块包括模版生成模块124、全局确定模块126、局部确定模块128和合并计算模块130。计算设备1702可以例如是服务提供商的服务器、与客户端关联的设备(例如，客户端设备)、片上系统和/或任何其它适当计算设备或者计算系统。

示例计算设备1702如图所示包括相互通信地耦合的处理系统1704、一个或者多个计算机可读介质1706和一个或者多个I/O接口1708。虽然未示出，但是计算设备1702还可以包括相互耦合各种部件的系统总线或者其它数据和命令传送系统。系统总线可以包括不同总线结构(比如存储器总线或者存储器控制器、外围总线、通用串行总线和/或利用多种总线架构中的任何总线架构的处理器或者本地总线)中的任何总线结构或者组合。也设想了多种其它示例，比如控制和数据线。

处理系统1704代表用于使用硬件来执行一个或者多个操作的功能。因而，处理系统1704被图示为包括可以被配置为处理器、功能块等的硬件单元1710。这可以包括在硬件中实施为专用集成电路或者使用一个或者多个半导体而被形成的其它逻辑器件。硬件单元1710不受形成它们的材料或者其中运用的处理机制所限制。例如，处理器可以由半导体和/或晶体管(例如，电子集成电路(IC))组成。在这样的情境中，处理器可执行指令可以是电子可执行指令。

计算机可读存储介质1706被图示为包括存储器/存储装置1712。存储器/存储装置1712代表与一个或者多个计算机可读介质关联的存储器/存储容量。存储器/存储部件1712可以包括易失性介质(比如随机存取存储器(RAM))和/或非易失性介质(比如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储部件1712可以包括固定介质(例如，RAM、ROM、固定硬驱动等)以及可拆卸介质(例如，闪存、可拆卸硬驱动、光盘等)。可以用如以下进一步描述的多种其它方式配置计算机可读介质1706。

输入/输出接口1708代表用于允许用户向计算设备1702录入命令和信息并且也允许向用户呈现信息的功能和/或使用各种输入/输出设备的其它部件或者设备。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或者其它传感器)、相机(例如，该相机可以运用可见或者不可见光波长(比如红外线频率)以将移动识别为未涉及触摸的手势)等等。输出设备的示例包括显示设备(例如，监视器或者投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，可以用如以下进一步描述的多种方式配置计算设备1702以支持用户交互。

这里可以在软件、硬件单元或者程序模块的一般情境中描述各种技术。一般而言，这样的模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、单元、部件、数据结构等。如这里所用的术语“模块”、“功能”和“部件”一般地表示软件、固件、硬件或者其组合。这里描述的技术的特征独立于平台，这意味着可以在具有多种处理器的多种商用计算平台上实施技术。

可以在某个形式的计算机可读介质上存储或者跨该形式的计算机可读介质传输描述的模块和技术的实现方式。计算机可读介质可以包括计算设备1702可以访问的多种介质。举例而言而无限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”是指与仅信号传输、载波或者信号本身对照而言实现信息的持久和/或非瞬态存储的介质和/或设备。计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括硬件，比如在适合用于存储信息(比如计算机可读指令、数据结构、程序模块、逻辑元件/电路或者其它数据)的方法或者技术中实施的易失性和非易失性、可拆卸和非可拆卸介质和/或存储设备。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或者其它存储器技术、CD-ROM、数字万用盘(DVD)或者其它光存储装置、硬盘、磁盒、磁带、磁盘存储装置或者其它磁存储设备或者适合用来存储希望的信息并且可以由计算机访问的其它存储设备、有形介质或者制造品。

“计算机可读信号介质”可以是指被配置为比如经由网络向计算设备1702的硬件输指令的信号承载介质。信号介质通常可以在调制的数据信号(、比如载波、数据信号)或者其它传送机制中体现计算机可读指令、数据结构、程序模块或者其它数据。信号介质也包括任何信息递送介质。术语“调制的数据信号”意味着如下信号，该信号让它的特性中的一个或者多个特性以对信号中的信息编码这样的方式来设置或者改变。举例而言而非限制，通信介质包括有线介质(比如有线网络或者直接有线连接)和无线介质(比如声学、RF、红外线和其它无线介质)。

如先前描述的那样，硬件单元1710和计算机可读介质1706代表以硬件形式实施的模块、可编程逻辑器件和/或固定器件逻辑，可以在一些实施例中运用该硬件形式以实施这里描述的技术的至少一些方面，比如执行一个或者多个指令。硬件可以包括集成电路或者片上系统的部件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)和在硅或者其它硬件中的其它实现方式。在本文中，硬件可以作为处理设备操作，该处理设备执行由指令定义的程序任务或者由硬件体现的逻辑的处理设备以及用来存储以用于执行的指令的硬件，例如，先前描述的计算机可读存储介质。

可以运用前述各项的组合以实施这里描述的各种技术。因而，软件、硬件或者可执行模块可以被实施为在某个形式的计算机可读存储介质上和/或由一个或者多个硬件单元1710体现的一个或者多个指令或者逻辑。计算设备1702可以被配置为实施与软件和/或硬件模块对应的特定指令和/或功能。因而，可以至少部分在硬件中(例如，通过使用计算机可读存储介质和/或处理系统1704的硬件单元1710)来实现作为软件可由计算设备1702执行的模块的实现方式。指令和功能可以可由一个或者多个制造品(例如，一个或者多个计算设备1702和处理系统1704)可执行/可操作以实施这里描述的技术、模块和示例。

这里描述的技术可以由计算设备1702的各种配置支持而不限于这里描述的技术的具体示例。也可以全部或者部分通过使用分布式系统(比如如以下描述的那样经由平台1716在“云”1714之上)实施这一功能。

云1714包括和/或表示用于资源1718的平台1716。平台1716将云1714的硬件(例如，服务器)和软件资源的下层功能抽象化。资源1718可以包括可以在从计算设备1702远离的服务器上执行计算机处理之时利用的应用或者数据。资源1718也可以包括通过因特网或者通过预订者网络(比如蜂窝或者Wi-Fi网络)提供的服务。

平台1716可以将用于连接计算设备1702与其它计算设备的资源和功能抽象化。平台1716也可以服务于将对资源的缩放抽象化以提供与对于经由平台1716实施的资源1718的所遇需求对应的规模级别。因而，在一个互连设备实现方式中，可以遍及系统1700分布这里描述的功能的实现方式。例如，可以部分在计算设备1702上以及经由将云1714的功能抽象化的平台1716实施该功能。

结论

虽然已经用结构特征和方法动作特有的语言描述了主题内容，但是将理解，在所附权利要求中定义的主题内容未必限于描述的具体特征或者动作。实际上，以上描述的具体特征和动作被公开为实施权利要求的示例形式。

Claims

1.一种由一个或者多个计算设备执行对图像的联合深度估计和语义标注的方法，所述方法包括：

由所述一个或者多个计算设备通过机器学习来估计所述图像的景物的全局语义布局和全局深度布局；

由所述一个或者多个计算设备通过机器学习来估计用于所述图像的所述景物的多个段中的相应的段的局部语义布局和局部深度布局；以及

由所述一个或者多个计算设备合并估计的所述全局语义布局和估计的所述全局深度布局与所述局部语义布局和所述局部深度布局以语义地标注所述图像中的个别像素并且向所述个别像素指派深度值。

2.根据权利要求1所述的方法，其中通过将具有对应的全局语义布局和全局深度布局的多个全局模版中的一个或者多个全局模版选择为对应于所述图像的所述景物来作为模版分类问题执行对所述全局语义布局和所述全局深度布局的所述估计。

3.根据权利要求2所述的方法，其中组合使用多个所述全局模版来执行所述选择以执行对所述图像的所述景物的所述全局语义布局和所述全局深度布局的所述估计。

4.根据权利要求2所述的方法，还包括通过使用距与数据集中的每个训练图像关联的语义标签实测值和深度实测值一距离的内核k均值来生成所述多个全局模版。

5.根据权利要求1所述的方法，其中通过学习模型、通过所述机器学习来执行对所述全局语义布局和所述全局深度布局的所述估计，所述模型直接地预测所述景物的全局语义布局和全局深度布局，从而使得所述图像中的每个像素具有对应的语义标签和深度值。

6.根据权利要求1所述的方法，其中所述景物的估计的所述全局深度布局向所述图像中的多个像素指派相应的绝对距离。

7.根据权利要求1所述的方法，其中通过将具有对应的局部语义布局和局部深度布局的多个局部模版中的一个或者多个局部模版选择为对应于所述图像来作为模版分类问题执行对所述局部语义布局和所述局部深度布局的所述估计。

8.根据权利要求1所述的方法，其中所述景物的估计的所述局部深度布局一个接一个地向所述图像中的相应的所述段中的像素指派相应的相对距离。

9.根据权利要求1所述的方法，其中所述机器学习使用卷积神经网络(CNN)或者支持矢量机器(SVM)被执行。

10.根据权利要求1所述的方法，其中所述合并被执行以使用通过所述全局深度布局估计的绝对距离值和通过所述局部深度布局估计的相对深度值来生成深度图。

11.根据权利要求1所述的方法，其中对所述全局语义布局和所述全局深度布局的所述估计、对所述局部语义布局和所述局部深度布局的所述估计和所述合并被执行以联合地计算对所述图像的所述像素的语义值和深度标签。

12.根据权利要求1所述的方法，其中所述合并包括平滑向所述图像中的个别像素指派的语义标签深度值。

13.一种用于执行对图像的联合深度估计和语义标注的系统，包括：

至少部分地在硬件中实施的一个或者多个计算设备，所述一个或者多个计算设备被配置为执行操作，所述操作包括：

通过机器学习来估计图像的景物的全局语义和深度布局；

将所述图像分解成多个段；

使用所述景物的估计的所述全局和语义深度布局来指导对所述多个段中的个别段的局部语义和深度部件的预测；以及

联合地形成所述图像的其中向个别像素指派语义标签的语义地标注的版本和所述图像的其中向个别像素指派深度值的深度图。

14.根据权利要求13所述的系统，其中所述分解通过维持语义区域边界被执行。

15.根据权利要求14所述的系统，其中所述维持被执行以考虑来自外观、语义边缘或者空间信息的信息。

16.根据权利要求13所述的系统，其中：

通过将具有对应的全局语义和深度布局的多个全局模版中的一个或者多个全局模版选择为对应于所述图像的所述景物来作为模版分类问题执行对所述全局语义和深度布局的所述估计；以及

对所述多个段中的所述个别段的所述局部语义和深度布局的所述预测包括通过机器学习来估计所述局部语义和深度布局。

17.一种用于执行对图像的联合深度估计和语义标注的系统，包括：

至少部分地在硬件中实施的全局确定模块，所述全局确定模块被配置为通过机器学习来估计图像的景物的全局语义和深度布局；

至少部分地在硬件中实施的局部确定模块，所述局部确定模块被配置为通过机器学习来估计用于所述图像的所述景物的多个段中的相应的段的局部语义和深度布局；以及

合并计算模块，所述合并计算模块被配置为合并估计的所述全局语义和深度布局与所述局部语义和深度布局以语义地标注所述图像中的个别像素并且向所述个别像素指派深度值。

18.根据权利要求17所述的系统，其中所述全局确定模块被配置为通过将具有对应的全局语义和深度布局的多个全局模版中的一个或者多个全局模版选择为对应于所述图像的所述景物来作为模版分类问题估计所述全局语义和深度布局。

19.根据权利要求17所述的系统，其中所述全局确定模块被配置为通过学习模型、通过所述机器学习来执行估计所述全局语义和深度布局，所述模型直接地预测所述景物的所述全局语义和深度布局，从而使得所述图像中的每个像素具有对应的语义标签和深度值。

20.根据权利要求17所述的系统，其中通过将具有对应的局部语义和深度部件的多个局部模版中的一个或者多个局部模版选择为对应于所述图像来作为模版分类问题执行对所述局部语义和深度布局的所述估计。