CN106204522B - 对单个图像的联合深度估计和语义标注 - Google Patents

对单个图像的联合深度估计和语义标注 Download PDF

Info

Publication number
CN106204522B
CN106204522B CN201610183367.0A CN201610183367A CN106204522B CN 106204522 B CN106204522 B CN 106204522B CN 201610183367 A CN201610183367 A CN 201610183367A CN 106204522 B CN106204522 B CN 106204522B
Authority
CN
China
Prior art keywords
depth
semantic
global
image
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610183367.0A
Other languages
English (en)
Other versions
CN106204522A (zh
Inventor
林哲
S·科恩
王鹏
沈晓辉
B·普赖斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of CN106204522A publication Critical patent/CN106204522A/zh
Application granted granted Critical
Publication of CN106204522B publication Critical patent/CN106204522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20161Level set

Abstract

本申请的各实施例涉及对单个图像的联合深度估计和语义标注。描述了可用于处理单个图像的联合深度估计和语义标注技术。在一个或者多个实现方式中,由一个或者多个计算设备通过机器学习来估计图像的景物的全局语义和深度布局。由一个或者多个计算设备也通过机器学习来为图像的景物的多个段中的相应的段估计局部语义和深度布局。由一个或者多个计算设备合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值。

Description

对单个图像的联合深度估计和语义标注
技术领域
本申请总体上涉及对单个图像的联合深度估计和语义标注。
背景技术
图像中的深度估计通常用来估计在图像景物中的对象与用来捕获图像的相机之间的距离。这常规地使用立体图像或者专用深度传感器(例如,飞行时间或者结构光相机)而被执行以标识对象、支持手势等。因而,对专用硬件(比如立体相机或者专用深度传感器)的这一依赖限制这些常规技术的可用性。
图像中的语义标注用来向图像中的像素指派标签以比如描述至少部分由像素代表的对象,比如天空、地面、建筑物等。这可以用来支持多种功能,比如图像中的对象去除和替换、掩模化、分割技术等。然而,用来执行语义标注的常规方式通常与使用不同和无关技术的深度估计分离地或者依次地被解决、缺乏准确性并且可能造成将在技术的执行中的早期阶段中形成的误差传播到以后阶段。
发明内容
描述了可用于处理单个图像的联合深度估计和语义标注技术。在一个或者多个实现方式中,由一个或者多个计算设备通过机器学习来估计图像的景物的全局语义和深度布局。也由一个或者多个计算设备通过机器学习来估计用于图像的景物的多个段中的相应的段的局部语义和深度布局。由一个或者多个计算设备合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值。
在一个或者多个实现方式中,一种系统包括至少部分地在硬件中实施的一个或者多个计算设备。一个或者多个计算设备被配置为执行操作,这些操作包括:通过机器学习来估计图像的景物的全局语义和深度布局,将图像分解成多个段,使用景物的估计的全局和语义深度布局来指导对多个段中的个别段的局部语义和深度部件的预测,并且联合地形成图像的其中向个别像素指派语义标签的语义地标注的版本以及图像的其中向个别像素指派深度值的深度图。
在一个或者多个实现方式中,一种系统包括至少部分地在硬件中实施的全局确定模块,该全局确定模块被配置为通过机器学习估计图像的景物的全局语义和深度布局。该系统也包括至少部分地在硬件中实施的局部确定模块,该局部确定模块被配置为通过机器学习估计用于图像的景物的多个段中的相应的段的局部语义和深度布局。该系统还包括合并计算模块,该合并计算模块被配置为合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值。
这一发明内容以简化的形式介绍以下在具体实施方式中进一步描述的概念选集。这样,这一发明内容未旨在于标识要求保护的主题内容的实质特征,它也未旨在于在确定要求保护的主题内容的范围时用作辅助。
附图说明
参照附图描述具体实施方式。在各图中,标号的最左位标识标号首次出现的图。在描述和各图中的不同实例中使用相同标号可以指示相似或者相同项目。在各图中表示的实体可以指示一个或者多个实体,因此可以在讨论中可互换地引用实体的单数或者复数形式。
图1是如下环境的图示,在该环境中,示例实现方式可操作用于运用这里描述的技术,这些技术可用来执行对单个图像的联合深度估计和语义标注。
图2描绘了示例实现方式中的系统,该实现方式更具体地示出了图1的深度和语义分割模块的模版生成模块的操作。
图3描绘了示例实现方式中的系统,该实现方式更具体地示出了图1的深度和语义分割模块的全局确定模块的操作。
图4描绘了示例实现方式中的系统,该实现方式更具体地示出了图1的深度和语义分割模块的局部确定模块和合并计算模块的操作。
图5描绘了被实施为常规神经网络以根据全局模版池对图像进行分类的机器学习的示例。
图6描绘了用来得到对全局语义和深度部件的估计的全局模版的组合的示例。
图7描绘了多级分割的示例实现方式,该多级分割可用作对局部语义和深度部件的确定的部分。
图8描绘了对从图像取得的每个段到多个局部模版中的每个局部模版的仿射分数的计算的示例实现方式。
图9描绘了如下实现方式,该实现方式示出了用于段的预测结果的示例。
图10描绘了被视为从相邻超像素的在两个定界框的重叠区域内的深度偏移的光滑度。
图11描绘了如下示例实现方式,其中对于在室外和室内图像中的使用而比较这里描述的技术。
图12描绘了如下示例实现方式,该示例实现方式示出了从图像生成的语义地标注的图像和深度图。
图13和图14提供了用于室内图像的定性结果。
图15是描绘了示例实现方式中的过程的流程图,在该过程中,描述了可用于处理单个图像的联合深度估计和语义标注技术。
图16是描绘了示例实现方式中的过程的另一流程图,在该过程中,描述了可用于处理单个图像的联合深度估计和语义标注技术。
图17图示了包括示例设备的各种部件的示例系统,该示例设备可以被实施为如描述的任何类型的计算设备和/或参照图1至图16以用来实施这里描述的技术的实施例。
具体实施方式
概述
语义分割和深度估计是图像理解中的两个基本问题。尽管已经发现两个任务强烈相关并且互利,但是这些问题常规地使用不同技术而被分离地或者依次地解决,这造成不一致、误差和不准确。
在下文中,观察来自两个任务的典型失败情况的互补效果,该互补效果造成对可用于单个图像的用于联合语义分割和深度估计的统一粗略到精细框架的描述。例如,提出了如下框架,该框架首先通过机器学习来预测由语义标签和深度值(例如,绝对深度值)组成的粗略全局模型以代表图像的总体上下文。语义标签描述“什么”由图像中的相应像素代表,例如,天空、植物、地面、墙壁、建筑物等。深度值描述在用来捕获图像中的景物的相机与由像素代表的在景物中的相应对象之间的距离,例如,在由图像捕获的景物中的“z”距离。
图像然后被分割,并且通过嵌入全局模型,也使用机器学习来预测用于相应局部分割中的每个像素的语义标签和深度值,并且学习语义标签以局部地标记在段内的像素。深度值一个接一个地对于在段内的相对性而被归一化,并且因此未描述绝对距离值,而是实际上描述在段内的像素之间的深度关系。
对于用于语义标签的段和来自段的深度值的预测然后被合并并且例如通过有条件随机场(CRF)由来自全局模型的语义标签和深度值指导。这产生精细级估计以形成其中向图像中的每个像素给予语义标签的语义地标注的图像以及其中向图像中的每个像素指派深度值的深度图,该深度值代表在相机与由像素代表的对象之间的绝对值。另外,通过实行在深度值与语义标签之间的一致性标签并且通过使用来自全局上下文的指导,这些技术有效地利用这两个组成标签提供总体常规技术的现有技术结果。也可以运用附加技术作为这一联合估计的部分以比如如在下文中进一步描述的那样在模版分类上下文中执行机器学习、平滑语义标签中的值和深度值、在图像内实行对象边界等。
在以下讨论中,首先描述了可以运用这里描述的技术的示例环境。然后描述了可以在示例环境以及其它环境中执行的示例过程。因而,对示例过程的执行不限于示例环境而示例环境不限于对示例过程的执行。
示例环境
图1是示例实现方式中的环境100的图示,该环境可操作用于运用这里描述的技术,这些技术可用来执行对单个图像的联合深度估计和语义标注。所示环境100包括可以按照多种方式配置的计算设备102。
计算设备102例如可以被配置为台式计算机、膝上型计算机、移动设备(例如,假设如图所示的手持配置,比如平板计算机或者移动电话)等。因此,计算设备102可以范围从具有大量存储器和处理器资源的全资源设备(例如,个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如,移动设备)。附加地,虽然示出了单个计算设备102,但是计算设备102可以代表多个不同设备,比如由企业用来“在云上”执行如关于图17进一步描述的操作的多个服务器。
计算设备102被图示为包括多种硬件部件,这些硬件部件的示例包括处理系统104、被图示为存储器106的计算机可读存储介质的示例、显示设备108、可用来捕获图像112的相机110等。处理系统104代表用于通过执行在存储器106中存储的指令来执行操作的功能。虽然被分离地图示,但是可以对这些部件的功能进一步划分、组合(例如,在专用集成电路上)等。
处理系统104被图示为执行可在存储器106中存储的并且这样至少部分的在硬件中实施的深度和语义分割模块114。深度和语义分割模块114可由处理系统104执行以引起执行一个或者多个操作。也设想了其它实现方式,比如被实施为专用硬件部件(例如专用集成电路、固定逻辑电路装置)、“在云116之上”实施等。
深度和语义分割模块114代表用于取得单个图像118(可以对应于或者可以不对应于图像112)并且从该图像118生成语义地标注的图像120和深度图122的功能。语义地标注的图像120描述“什么”由图像118中的个别像素代表,例如,如对于图像118图示的树、房屋、地面和天空。深度图122包括绝对深度值,这些绝对深度值指示由图像118中的相应像素代表的对象位于距捕获图像118的相机110多远,即,“z”距离。虽然相机110被图示为计算设备102的部分,但是应当清楚图像118可以由其它设备捕获并且被存储在计算设备102上和/或在云116之上用于处理。
为了执行对图像118的联合深度估计和语义标注,深度和语义分割模块114运用多种不同功能。这一功能的示例包括模版生成模块124,该模版生成模块124可用来生成全局和局部模版,这些模版在机器学习中用作分类问题的部分以得到用于图像118的深度值和语义标签,在下文中的对图2的描述中包括其进一步讨论。也设想了如在下文中进一步描述的未运用模版的其它示例。
这一功能的附加示例包括全局和局部确定模块126、128,这些模块可用来分别估计全局和局部语义标签和深度值以形成全局和局部语义和深度布局,并且因此遵循粗略到精细过程。在对图3和图4的讨论中包括了对全局和局部语义和深度布局确定的进一步描述。这一功能的又一示例被图示为合并计算模块130,该合并计算模块130可用来合并全局和局部语义和深度布局以得到语义地标注的图像120和深度图122,在下文中的对图4的对应描述中包括其进一步讨论。
在下文中,示出了通过利用语义标签和深度值二者的联合训练,实现了在语义与深度预测之间的一致性。此外,全局到局部策略保留用于生成全局合理结果的长范围上下文,该上下文维持段边界信息。另外,如以下描述的机器学习技术在图像和段的大外观变化之下提供健壮估计。语义地标注的图像120和深度图122可用来支持多种功能,比如对象检测、对象识别和姿态估计、透镜模糊、图像内涂、对象去除、用于图形使用的机器人和再点燃等。
现在将主要地参照图2至图4以描述图1的模版生成模块124、全局确定模块126、局部确定模块128和合并计算模块130的功能的相互关系。给定如图3中所示的图像118,全局确定模块126首先使用机器学习以估计全局语义和深度布局302、304,这可以使用全局和局部模版或者其它技术而被执行。
在所示的示例中,全局语义布局302被示出为给定对在中心的建筑物、在图像112的底部的地面和在图像的顶部的天空的粗略估计,并且因此图像中的像素被粗略地语义地标注为对应于特定对象。此外,全局确定模块126也生成图像的全局深度布局304(该全局深度布局如以上描述的那样给定用于图像中的像素的绝对深度值),并且因此提供在由像素代表的对象与用来捕获图像118的相机110之间的“z”距离
一旦已经生成了全局语义和深度布局302、304,深度和语义分割模块114然后使用局部确定模块128将图像112分割成多个段,这可以包括多级分割,其中为图像118生成不同段大小。局部确定模块128然后个别地生成用于段的局部语义和深度布局以比如描述段的大多数是否代表地面、建筑物的部分或者植物。局部深度布局描述用于段中的像素的相对深度值,这些相对深度值描述像素相对于彼此的深度(例如,局部深度转变),但不是如以上描述的“z”距离的绝对值。
深度和语义分割模块114然后运用合并计算模块130以合并全局和局部语义布局以形成语义地标注的图像120并且合并全局和局部深度布局以形成深度图122。合并计算模块130通过将来自局部语义布局中的段的语义预测组合成在段之间平滑的并且由全局语义布局指导的精化的语义预测图来构造语义地标注的图像120。附加地,合并计算模块130通过利用全局深度布局的绝对深度值和来自局部深度部件的相对深度值将段的局部深度转变组合成精化的深度图122。
为了执行这些技术,深度和语义分割模块114可以运用多种不同机器学习212技术,比如常规神经网络(CNN)、支持矢量回归(SVR)等。例如,深度和语义分割模块114可以使用多个神经层来运用机器学习212以学习模型,该模型直接地预测用于图像112中的每个像素的语义标签和深度值。在另一示例中,模版生成模块124可以用来生成从训练数据生成并且可用来通过分类问题指导机器学习212过程的全局和局部模版,在下文中进一步描述生成模版的示例。
图2描绘了示例实现方式中的系统200,该实现方式更具体地示出了图1的模版生成模块124的操作。模版生成模块124代表如下功能,该功能可用来运用机器学习212(例如,经由常规神经网络)以处理图像以得到可用来使用全局模版206来描述由图像捕获的景物的全局模型204。模版生成模块124也代表如下功能,该功能可用来生成局部模型208,该局部模型使用局部模型208和对应的局部模版210来描述景物的在来自图像118的段内的部分。
在支持这里描述的技术时,已经观察到自然景物图像包含在全局上下文中的某些布局,比如街道景色、海洋、风景、树、建筑物等。因此,可以作为模版分类问题解决对图像118的语义标签和深度部件的整体预测,其中通过匹配图像118与对应全局模版206来处理图像118以便学习用于图像118中的景物的很可能的语义标签和深度值。
为了生成全局模版206(这些全局模版206形成全局模型204),模版生成模块124利用机器学习212以处理训练图像202以学习全局模版,这些全局模版粗略地描述全局语义布局214,该全局语义布局将个别像素标注为对应于语义地描述的对象类型,例如,天空、地面、植物、建筑物等。也执行机器学习212以联合地学习全局深度值的全局深度布局216,该全局深度布局216描述在由图像捕获的景物中的对象相对于捕获图像的相机110而言的绝对距离。例如,相似阴影和/或颜色可以用来代表景物中的相似“z”深度。
内核k均值(k-means)技术用来利用从在与图2的数据集中的每个训练图像202关联的语义标签实测值(ground truth)和深度实测值的距离形成全局模版206。在形式上,在图像Ii与Ij之间的距离可以记为如下:
k(Ii,Ij)=λ1||Isi-Isj||02||log Idi-log Idj||1 (l)
其中是Isi和Idi分别是图像Ii的实测值语义标签和深度。
具体而言,实测值被重设大小为五十个像素×五十个像素的大小以避免来自小局部变化的影响。此外,如在图5的示例实现方式中所示的,用于室内502和室外504景物的集群被分离为不同深度比例和不同语义标签数目。对于室外504,初始集群数目被设置为七十。
为了包括模版的足够变化和避免无关值,在这一示例中为每个类设置最大数目(300)和最小数目(10)。分别地,如果在以内的图像数目大于三百,则内核k均值技术将类分类成三个子类,而如果图像数目小于十,则被删减。在拥有了全局模版206的池后,每个训练图像202基于来上式1的距离而被指派到全局模版206中的相应全局模版中,并且机器学习212分类器被调节以将每个图像分类成全局模版之一。
图3描绘了示例实现方式中的系统300,其中示出了深度和语义分割模块114的全局确定模块126的操作以计算用于图像118的全局语义和深度布局302、304。如先前描述的那样,全局确定模块126得到图像118的语义标签的粗略描述,该粗略描述被表达为全局语义布局302。在所示示例中,全局语义布局302主要地描述天空、建筑物和地面。类似地,全局确定模块126得到图像118的全局深度布局304的粗略描述,该粗略描述如图所示指示地面最近并且在z方向上渐远,并且建筑物也在z方向上随着天空更远而渐远。
为了执行这一估计,全局确定模块126作为示例运用全局模版206作为机器学习212的部分以对全局模版206的与图像118对应的一个或者多个全局模版进行定位。这些全局模版206因此具有将用于图像的正确语义标签和深度值分别提供作为全局语义布局和全局深度布局的可能性。更在形式上地,如在图5的示例实现方式500中所示,通过机器学习212(例如,学习的CNN),根据全局模版206的池以某个置信度对图像118进行分类以便确定表达为全局语义布局的用于相似的全局语义标签。
给定图像I,机器学习212作为全局机器学习分类器C操作以将图像118分类成多个全局模版206
Figure BDA0000951981040000091
中的相应全局模版,其中N是生成的模版数目而Ti是m×n×2矩阵,其中m×n是模版大小标签它级联语义图Si和深度图Di
然而,实际上,图像i的全局模版Ti可能与图像布局不相配,因为它是类中心表示。因此,取代使用单个模版,前K个全局模版206的组合可以用来用从机器学习212获得的分类分数代表图像。
图6描绘了这样的全局模版组合的示例600,该全局模版组合用于得到对全局语义和深度部件的估计。对于图像602,组合来自相应全局模版的全局语义布局604、606、608以形成比任何一个个别全局模版更准确地描述图像602的语义布局的全局语义布局610。类似地,组合描述全局深度布局612、614、616的全局模版以形成比模版中的任何特定模版更准确地描述图像602中的对象的深度的全局深度布局618。图示了用于图像620的另一示例,其中组合全局语义布局622、624、626以形成全局语义布局628以提供图像620中的语义标签的概率标签组合全局深度布局630、632、634以形成全局深度布局636。
在形式上,给定前K个模版
Figure BDA0000951981040000101
和对应的分数Sj,产生全局概率布局Iti,其中Iti是m×n×d矩阵,m、n是全局模版尺度,并且d=ds+dd,其中ds是语义标签的数目并且dd是组合的深度图,该深度图指示模版级联在语义标签内的概率分布和用于每个像素的组合的深度值在形式上,对于语义标签c,给定第j个预测,获得表达式P(c|x)j=e(Sj(x)),并且在每个分布内是P(c|x)=∑jsjP(c|x)j/∑jsj。对于深度,x的深度值被计算为来自所有全局模版的深度值的线性组合,即,d(x)=∑jsjDj(x)=∑jsj
在一个或者多个实现方式中,训练机器学习,从而取代简单分类损失,比较每个图像的距离(例如,相似度)与模版(例如,全局或者局部)。在形式上,描述每个图像的粗略布局为全局模版的稀疏合成,即,Iti=wiH,其中H是级联T中的所有模版的矩阵。机器学习训练损失因此对于图像i是||wci-wi||然后例如机器学习用来预测组合代码wci,并且通过wiH生成全局布局。
图7描绘了多级分割的示例实现方式700,该多级分割可用作对局部语义和深度部件的确定的部分。多级分割可以用来捕获上下文和外观信息的级别。这可以包括改变段参数和改变阈值以及来自外观、语义边缘和空间信息的信息以生成紧凑、语义有意义段。
在形式上,将图像702分割成350个超像素。同时,闭合形式边缘技术用来生成具有包围的强边界的语义边缘图704。然后,内核k均值技术用来将相似段集群成多个级别708、710(例如具有十五、三十和五十个段)而距离如下:
k(Si,Sj)=λ1Geo(Si,Sj)+λ2||fsi-fsj|| (3)
其中Geo(Si,Sj)是Si和Sj在语义边缘图内的测地距离,而
Figure BDA0000951981040000111
是段Si的局部外观特征,该局部外观特征由在段以内的像素RGB的均值和协方差组成。
现在将参照图2以讨论由模版生成模块124的局部模版210生成。与全局模版预测相似,可以用公式将局部模版210生成表示为模版分类问题。为了生成局部模版210,模版生成模块124考虑语义和深度信息二者以保证一致性。
局部模版210在描述用于图像的段的局部语义布局时通常地对应于单个语义标签。这样,局部模版的局部语义布局与单个对象有关,并且段中的像素中的每个像素语义地被标记为对应于该对象,例如,植物、地面、天空、竖直等。局部模版210的局部深度部件218描述段内的像素相对于彼此的相对深度值。
在形式上,给定段S,从实测值向段指派单个语义标签s(S)和深度转变d(S)。选择如下语义标签,该语义标签代表在段内的像素的大多数,并且对于深度转变,深度被归一化成[0,1]。如果段数目太大以至于无法在存储器中相配以用于联合集群化,则集群化被分离成两个步骤。在第一步骤,段基于它的语义标签而被分离。
在第二步骤中,在每个语义标签内通过深度转变的L1距离对段进行集群以生成局部深度布局。在每个语义类内基于语义类的几何复杂性指派集群编号。此外,标识共享相似几何性质(比如地面和草地的语义类),并且在所有共享的类内的段被集群在一起。集群深度模版然后被指派给共享的语义类。最后,删减具有很少段示例(例如,少于十个)的集群,并且这些示例被重新指派给来自其余类的最近类。局部模版210然后用作如以下进一步描述的局部语义和深度布局预测的部分。
现在参照图4,与全局模版相似,为了训练局部确定模块128的机器学习,相继地取得图像112的多级段402、404、406作为输入。局部确定模块128然后提供相应实测值对应语义标签和深度转变模版作为输出以便描述段的局部语义和深度布局。
由图3中的全局确定模块126确定的全局语义和深度布局302、304可以由局部确定模块128用来指导这一过程。全局语义和深度布局302、304例如提供全局上下文,该全局上下文帮助解决局部确定模块128可能遇到的局部混淆。具体而言,来自全局语义和深度部件302、304的指导可以被并入最后预测层中作为机器学习的部分。
在形式上,对于段S第7和第8,从调节的机器学习输出特征、即f7和f8。此外,段402、404、406的所示定界框被映射到全局语义和深度布局的区域中,并且取对应语义分布和深度值作为附加特征即fs和fd。为了平衡不同特征的影响,每个特征首先用L2范数来归一化,然后特征和每个类型的特征的权值在它的相对特征长度上被级联,即wi=ΣjLj/Li,其中Li是类型i的特征长度。
不同于全局分类,可以确定每个段与训练的局部模版的相似度。如在图8的示例实现方式800中所示,计算从图像804取得的每个段到局部模版210中的每个局部模版的放射分数。
对于每个局部模版210,训练支持矢量回归(SVR)以用于预测。在形式上,给定段Si,如下计算段802到局部模版210中的相应局部模版的仿射性:
Figure BDA0000951981040000121
S(Si,Dj)=exp(-||d(Si)-d(Dj)||1/σ (3)
其中σ是0∶85AT并且AT是局部模版210的面积。然后,在推测期间,前K个局部模版210由图4的局部确定模块128取得而最高预测分数用于对段的以后合并。
图9描绘了实现方式900,该实现方式示出了用于段906、908、910、912的预测结果的两个示例902、904。如图所示,深度预测对于图像变化和模糊是健壮的而没有平面假设,这使得这一方式很好地推广至许多场景而避免传统线检测。
再次回到图4,合并计算模块130从局部确定模块128接收局部语义和深度布局并且使用全局语义和深度布局302、304来合并它们。可以使用多种不同技术来执行合并,其用于语义标注的示例涉及到使用按像素有条件随机场(CRF)用于预测。在这一技术中,每个图形节点是像素x并且边缘是四个连接的邻居像素。
对于一元项,从像素对应段获得语义预测分数,而对于平滑度,计算在邻居像素之间的概率差值。在形式上,公式表示可以记为如下:
Figure BDA0000951981040000131
其中P(l|Si)是从局部语义布局计算的概率。具体而言,对于段S,从用于每个局部模版的Tj的SVR计算它的预测的分数vj,该局部模版Tj包含语义标签Sj和深度转变dj。然后,被预测为标签1的段的概率被为:
Figure BDA0000951981040000132
附加地,可以执行图形切割以高效地求解这样的能量函数以得到最终语义标注结果。
对于深度,用于每个段的中心绝对深度值d和转变比例s由合并计算模块130推测以合并深度转变dj,以便得到每个像素的绝对深度值以形成深度图122。
由于平滑度难以在像素级实现,所以以上关于图7的超像素704技术用于图形节点并且边缘是在超像素之间的相邻边缘。一元项被一元地视为来自全局深度和语义布局中的对应地点的段的绝对深度和比例改变。平滑度被视为如图10的示例实现方式1000中所示从相邻超像素的在两个定界框的重叠区域1002内的深度偏移。
在形式上,这一公式表示可以被记为如下:
Figure BDA0000951981040000141
L(dr,sr)=||dr-gdr||1+||sr-gsr||1 (6)
Figure BDA0000951981040000142
其中r是超像素段,D、S是用于段dr的绝对中心深度的可能值和深度转变Sr的比例。
对于一元项,在一个方面中,考虑在段的预测的深度值dr与它的来自全局模版的对应绝对深度值gdr之间的L1距离。在另一方面中,在它的预测的比例Sr与预测的之间的距离。
对于平滑度项,如图10中所示,在两个邻居超像素的重叠框内考虑深度偏移,即,上式7中的
Figure BDA0000951981040000143
具体而言,深度偏移考虑来自外观相似性和语义标签权重的权重的语义标签和来自全局布局中的相机的深度的权重二者。
在实际上,段的绝对深度值被量化为来自全局深度布局中的相应值的移位值的集合(例如,在[-1,1]米内的二十个平均内插值)而深度转变的比例为最大深度范围的集合(在[0.5,2]内的平均内插值)。通过量化,使用多环信任传播可以用于推测和获得求解。此外,为了考虑高阶平滑度(例如,在相同地面或者相同墙壁上的段在单个平面中对准),使用来自语义合并的预测结果,并且地平面被设置为图形中的单个段节点,这保证长范围平滑度。
示例结果
图11描绘了示例实现方式1100,其中对于在室外和室内图像1102、1104中使用来比较这里描述的技术。室外图像1102代表从室外图像(例如,8432个图像)的数据集选择的一个图像。每个语义标签首先被映射到几何标签中。具体而言,在这一示例中为室外图像构造六个几何标签,即,地面、天空、建筑物、植物、山脉和对象。然后从映射的实测值几何分割生成深度。
室内图像1004代表与语义标签和例如来自深度传感器的实测值深度二者关联的室内图像(例如,1449个图像)的数据集选择的一个图像。语义标签被映射出五个一般几何标签、即地面、竖直、天花板、平面物体、其它物体。
图12描绘示例实现方式1200,该示例实现方式示出了语义地标注的图像120和从图像1202生成的深度图122。如图所示,这里描述的技术提供健壮语义分割标签提供语义一致深度,这保证结果的可视质量。此外,从结果的第三行,可观察到天空中的太阳和水中的反射由于由全局模版提供的指导而具有接近外观,这可能误导常规技术。
图13和图14提供了用于室内图像的定性结果1300、1400。在图13的定性结果1300中,图像1302被处理以形成语义地标注的图像120和深度图122。比较这些与来自常规深度传送技术的结果1304和使用深度传感器而生成的实测值1306深度图。类似地,图像1402被处理以形成语义地标注的图像120和深度图122并且与来自常规深度传送技术的结果1404比较。可以观察到这里描述的技术的深度结果比在多数情况下仅提供粗略估计的常规深度传送更好地保留景物结构。
示例过程
以下讨论描述可以利用先前描述的系统和设备而实施的技术可以在硬件、固件或者软件或者其组合中实施过程中的每个过程的方面。过程被示出为块集合,这些块指定由一个或者多个设备执行的操作,而未必限于所示用于由相应块执行操作的顺序。在以下讨论的部分中,将参照图1-14。
图15描绘了示例实现方式中的过程1500,其中描述了可用于处理单个图像的联合深度估计和语义标注技术。一个或者多个计算设备通过机器学习来估计图像的景物的全局语义和深度布局(块1502)。例如,可以作为由机器学习212求解的分类问题的部分、基于与全局模版206的相似度来估计全局语义和深度布局302、304。全局语义布局302向图像中的像素给定粗略语义标注,并且全局深度布局304给定绝对深度值,该绝对深度值例如描述在相机110与由图像118捕获的相应对象之间的z距离。
一个或者多个计算设备也通过机器学习为图像的景物的多个段中的相应的段估计局部语义和深度布局(块1504)。可以作为由机器学习212求解的分类问题的部分、基于与局部模版210的相似度来估计局部语义和深度布局。局部语义布局主要地使用单个语义值(例如,标签)以用于从图像取得的段,并且局部深度布局描述用于像素的相对于彼此的相对深度值。局部布局可以由全局布局指导以支持在为从被局部地处理的图像取得的段执行的标注和标记时的一致性。
一个或者多个计算设备合并估计的全局语义和深度布局与局部语义和深度布局以语义地标注图像中的个别像素并且向个别像素指派深度值(块1506)。合并计算模块130例如可以与来自局部深度部件的相对深度值一起使用来自全局深度部件的绝对深度值以生成深度图122。相似地,从由全局语义布局指导的局部语义布局形成语义地标注的图像120以向图像中的像素指派语义标签以例如指示“什么”由像素代表。
图16描绘了示例实现方式中的过程1600,其中描述了可用于处理单个图像的联合深度估计和语义标注技术。通过机器学习估计图像的景物的全局语义和深度布局(块1602)(例如,通过常规神经网络)可以执行作为使用模版的分类问题的部分等。
将图像分解成多个段(块1604)。这可以包括单级或者多级分割,在图4中示出了其示例。然后做出对局部语义的预测,并且使用景物的估计的全局和语义深度布局来指导多个段中的个别段的深度布局(块1606),例如,使用模版作为分类问题的部分、未用模版而直接地执行等。
与图像的深度图(其中向个别像素指派深度值)一起联合地形成图像的语义地标注的版本(其中向个别像素指派语义标签)(块1608)。以这一方式,可以一起执行对语义地标注的图像120和深度图122的形成以如以上描述的那样共享信息和提高一致性。
示例系统和设备
图17图示了包括示例计算设备1702的大体上在1700的示例系统,该计算设备1702代表可以实施这里描述的各种技术的一个或者多个计算系统和/或设备。这通过包括深度和语义分割模块114而被举例说明,该深度和语义分割模块包括模版生成模块124、全局确定模块126、局部确定模块128和合并计算模块130。计算设备1702可以例如是服务提供商的服务器、与客户端关联的设备(例如,客户端设备)、片上系统和/或任何其它适当计算设备或者计算系统。
示例计算设备1702如图所示包括相互通信地耦合的处理系统1704、一个或者多个计算机可读介质1706和一个或者多个I/O接口1708。虽然未示出,但是计算设备1702还可以包括相互耦合各种部件的系统总线或者其它数据和命令传送系统。系统总线可以包括不同总线结构(比如存储器总线或者存储器控制器、外围总线、通用串行总线和/或利用多种总线架构中的任何总线架构的处理器或者本地总线)中的任何总线结构或者组合。也设想了多种其它示例,比如控制和数据线。
处理系统1704代表用于使用硬件来执行一个或者多个操作的功能。因而,处理系统1704被图示为包括可以被配置为处理器、功能块等的硬件单元1710。这可以包括在硬件中实施为专用集成电路或者使用一个或者多个半导体而被形成的其它逻辑器件。硬件单元1710不受形成它们的材料或者其中运用的处理机制所限制。例如,处理器可以由半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的情境中,处理器可执行指令可以是电子可执行指令。
计算机可读存储介质1706被图示为包括存储器/存储装置1712。存储器/存储装置1712代表与一个或者多个计算机可读介质关联的存储器/存储容量。存储器/存储部件1712可以包括易失性介质(比如随机存取存储器(RAM))和/或非易失性介质(比如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储部件1712可以包括固定介质(例如,RAM、ROM、固定硬驱动等)以及可拆卸介质(例如,闪存、可拆卸硬驱动、光盘等)。可以用如以下进一步描述的多种其它方式配置计算机可读介质1706。
输入/输出接口1708代表用于允许用户向计算设备1702录入命令和信息并且也允许向用户呈现信息的功能和/或使用各种输入/输出设备的其它部件或者设备。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风、扫描仪、触摸功能(例如,被配置为检测物理触摸的电容或者其它传感器)、相机(例如,该相机可以运用可见或者不可见光波长(比如红外线频率)以将移动识别为未涉及触摸的手势)等等。输出设备的示例包括显示设备(例如,监视器或者投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,可以用如以下进一步描述的多种方式配置计算设备1702以支持用户交互。
这里可以在软件、硬件单元或者程序模块的一般情境中描述各种技术。一般而言,这样的模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、单元、部件、数据结构等。如这里所用的术语“模块”、“功能”和“部件”一般地表示软件、固件、硬件或者其组合。这里描述的技术的特征独立于平台,这意味着可以在具有多种处理器的多种商用计算平台上实施技术。
可以在某个形式的计算机可读介质上存储或者跨该形式的计算机可读介质传输描述的模块和技术的实现方式。计算机可读介质可以包括计算设备1702可以访问的多种介质。举例而言而无限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
“计算机可读存储介质”是指与仅信号传输、载波或者信号本身对照而言实现信息的持久和/或非瞬态存储的介质和/或设备。计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括硬件,比如在适合用于存储信息(比如计算机可读指令、数据结构、程序模块、逻辑元件/电路或者其它数据)的方法或者技术中实施的易失性和非易失性、可拆卸和非可拆卸介质和/或存储设备。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或者其它存储器技术、CD-ROM、数字万用盘(DVD)或者其它光存储装置、硬盘、磁盒、磁带、磁盘存储装置或者其它磁存储设备或者适合用来存储希望的信息并且可以由计算机访问的其它存储设备、有形介质或者制造品。
“计算机可读信号介质”可以是指被配置为比如经由网络向计算设备1702的硬件输指令的信号承载介质。信号介质通常可以在调制的数据信号(、比如载波、数据信号)或者其它传送机制中体现计算机可读指令、数据结构、程序模块或者其它数据。信号介质也包括任何信息递送介质。术语“调制的数据信号”意味着如下信号,该信号让它的特性中的一个或者多个特性以对信号中的信息编码这样的方式来设置或者改变。举例而言而非限制,通信介质包括有线介质(比如有线网络或者直接有线连接)和无线介质(比如声学、RF、红外线和其它无线介质)。
如先前描述的那样,硬件单元1710和计算机可读介质1706代表以硬件形式实施的模块、可编程逻辑器件和/或固定器件逻辑,可以在一些实施例中运用该硬件形式以实施这里描述的技术的至少一些方面,比如执行一个或者多个指令。硬件可以包括集成电路或者片上系统的部件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)和在硅或者其它硬件中的其它实现方式。在本文中,硬件可以作为处理设备操作,该处理设备执行由指令定义的程序任务或者由硬件体现的逻辑的处理设备以及用来存储以用于执行的指令的硬件,例如,先前描述的计算机可读存储介质。
可以运用前述各项的组合以实施这里描述的各种技术。因而,软件、硬件或者可执行模块可以被实施为在某个形式的计算机可读存储介质上和/或由一个或者多个硬件单元1710体现的一个或者多个指令或者逻辑。计算设备1702可以被配置为实施与软件和/或硬件模块对应的特定指令和/或功能。因而,可以至少部分在硬件中(例如,通过使用计算机可读存储介质和/或处理系统1704的硬件单元1710)来实现作为软件可由计算设备1702执行的模块的实现方式。指令和功能可以可由一个或者多个制造品(例如,一个或者多个计算设备1702和处理系统1704)可执行/可操作以实施这里描述的技术、模块和示例。
这里描述的技术可以由计算设备1702的各种配置支持而不限于这里描述的技术的具体示例。也可以全部或者部分通过使用分布式系统(比如如以下描述的那样经由平台1716在“云”1714之上)实施这一功能。
云1714包括和/或表示用于资源1718的平台1716。平台1716将云1714的硬件(例如,服务器)和软件资源的下层功能抽象化。资源1718可以包括可以在从计算设备1702远离的服务器上执行计算机处理之时利用的应用或者数据。资源1718也可以包括通过因特网或者通过预订者网络(比如蜂窝或者Wi-Fi网络)提供的服务。
平台1716可以将用于连接计算设备1702与其它计算设备的资源和功能抽象化。平台1716也可以服务于将对资源的缩放抽象化以提供与对于经由平台1716实施的资源1718的所遇需求对应的规模级别。因而,在一个互连设备实现方式中,可以遍及系统1700分布这里描述的功能的实现方式。例如,可以部分在计算设备1702上以及经由将云1714的功能抽象化的平台1716实施该功能。
结论
虽然已经用结构特征和方法动作特有的语言描述了主题内容,但是将理解,在所附权利要求中定义的主题内容未必限于描述的具体特征或者动作。实际上,以上描述的具体特征和动作被公开为实施权利要求的示例形式。

Claims (20)

1.一种由一个或者多个计算设备执行对图像的联合深度估计和语义标注的方法,所述方法包括:
由所述一个或者多个计算设备通过机器学习来估计所述图像的景物的全局语义布局和全局深度布局;
由所述一个或者多个计算设备通过机器学习来估计用于所述图像的所述景物的多个段中的相应的段的局部语义布局和局部深度布局;以及
由所述一个或者多个计算设备合并估计的所述全局语义布局和估计的所述全局深度布局与所述局部语义布局和所述局部深度布局以语义地标注所述图像中的个别像素并且向所述个别像素指派深度值。
2.根据权利要求1所述的方法,其中通过将具有对应的全局语义布局和全局深度布局的多个全局模版中的一个或者多个全局模版选择为对应于所述图像的所述景物来作为模版分类问题执行对所述全局语义布局和所述全局深度布局的所述估计。
3.根据权利要求2所述的方法,其中组合使用多个所述全局模版来执行所述选择以执行对所述图像的所述景物的所述全局语义布局和所述全局深度布局的所述估计。
4.根据权利要求2所述的方法,还包括通过使用距与数据集中的每个训练图像关联的语义标签实测值和深度实测值一距离的内核k均值来生成所述多个全局模版。
5.根据权利要求1所述的方法,其中通过学习模型、通过所述机器学习来执行对所述全局语义布局和所述全局深度布局的所述估计,所述模型直接地预测所述景物的全局语义布局和全局深度布局,从而使得所述图像中的每个像素具有对应的语义标签和深度值。
6.根据权利要求1所述的方法,其中所述景物的估计的所述全局深度布局向所述图像中的多个像素指派相应的绝对距离。
7.根据权利要求1所述的方法,其中通过将具有对应的局部语义布局和局部深度布局的多个局部模版中的一个或者多个局部模版选择为对应于所述图像来作为模版分类问题执行对所述局部语义布局和所述局部深度布局的所述估计。
8.根据权利要求1所述的方法,其中所述景物的估计的所述局部深度布局一个接一个地向所述图像中的相应的所述段中的像素指派相应的相对距离。
9.根据权利要求1所述的方法,其中所述机器学习使用卷积神经网络(CNN)或者支持矢量机器(SVM)被执行。
10.根据权利要求1所述的方法,其中所述合并被执行以使用通过所述全局深度布局估计的绝对距离值和通过所述局部深度布局估计的相对深度值来生成深度图。
11.根据权利要求1所述的方法,其中对所述全局语义布局和所述全局深度布局的所述估计、对所述局部语义布局和所述局部深度布局的所述估计和所述合并被执行以联合地计算对所述图像的所述像素的语义值和深度标签。
12.根据权利要求1所述的方法,其中所述合并包括平滑向所述图像中的个别像素指派的语义标签深度值。
13.一种用于执行对图像的联合深度估计和语义标注的系统,包括:
至少部分地在硬件中实施的一个或者多个计算设备,所述一个或者多个计算设备被配置为执行操作,所述操作包括:
通过机器学习来估计图像的景物的全局语义和深度布局;
将所述图像分解成多个段;
使用所述景物的估计的所述全局和语义深度布局来指导对所述多个段中的个别段的局部语义和深度部件的预测;以及
联合地形成所述图像的其中向个别像素指派语义标签的语义地标注的版本和所述图像的其中向个别像素指派深度值的深度图。
14.根据权利要求13所述的系统,其中所述分解通过维持语义区域边界被执行。
15.根据权利要求14所述的系统,其中所述维持被执行以考虑来自外观、语义边缘或者空间信息的信息。
16.根据权利要求13所述的系统,其中:
通过将具有对应的全局语义和深度布局的多个全局模版中的一个或者多个全局模版选择为对应于所述图像的所述景物来作为模版分类问题执行对所述全局语义和深度布局的所述估计;以及
对所述多个段中的所述个别段的所述局部语义和深度布局的所述预测包括通过机器学习来估计所述局部语义和深度布局。
17.一种用于执行对图像的联合深度估计和语义标注的系统,包括:
至少部分地在硬件中实施的全局确定模块,所述全局确定模块被配置为通过机器学习来估计图像的景物的全局语义和深度布局;
至少部分地在硬件中实施的局部确定模块,所述局部确定模块被配置为通过机器学习来估计用于所述图像的所述景物的多个段中的相应的段的局部语义和深度布局;以及
合并计算模块,所述合并计算模块被配置为合并估计的所述全局语义和深度布局与所述局部语义和深度布局以语义地标注所述图像中的个别像素并且向所述个别像素指派深度值。
18.根据权利要求17所述的系统,其中所述全局确定模块被配置为通过将具有对应的全局语义和深度布局的多个全局模版中的一个或者多个全局模版选择为对应于所述图像的所述景物来作为模版分类问题估计所述全局语义和深度布局。
19.根据权利要求17所述的系统,其中所述全局确定模块被配置为通过学习模型、通过所述机器学习来执行估计所述全局语义和深度布局,所述模型直接地预测所述景物的所述全局语义和深度布局,从而使得所述图像中的每个像素具有对应的语义标签和深度值。
20.根据权利要求17所述的系统,其中通过将具有对应的局部语义和深度部件的多个局部模版中的一个或者多个局部模版选择为对应于所述图像来作为模版分类问题执行对所述局部语义和深度布局的所述估计。
CN201610183367.0A 2015-05-28 2016-03-28 对单个图像的联合深度估计和语义标注 Active CN106204522B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/724,660 US10019657B2 (en) 2015-05-28 2015-05-28 Joint depth estimation and semantic segmentation from a single image
US14/724,660 2015-05-28

Publications (2)

Publication Number Publication Date
CN106204522A CN106204522A (zh) 2016-12-07
CN106204522B true CN106204522B (zh) 2021-10-22

Family

ID=56027419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610183367.0A Active CN106204522B (zh) 2015-05-28 2016-03-28 对单个图像的联合深度估计和语义标注

Country Status (5)

Country Link
US (1) US10019657B2 (zh)
CN (1) CN106204522B (zh)
AU (1) AU2016201908B2 (zh)
DE (1) DE102016005407A1 (zh)
GB (1) GB2538847B (zh)

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262426B2 (en) 2014-10-31 2019-04-16 Fyusion, Inc. System and method for infinite smoothing of image sequences
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
US10176592B2 (en) 2014-10-31 2019-01-08 Fyusion, Inc. Multi-directional structured image array capture on a 2D graph
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
US10726593B2 (en) 2015-09-22 2020-07-28 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10275935B2 (en) 2014-10-31 2019-04-30 Fyusion, Inc. System and method for infinite synthetic image generation from multi-directional structured image array
US9940541B2 (en) 2015-07-15 2018-04-10 Fyusion, Inc. Artificially rendering images using interpolation of tracked control points
CN106296638A (zh) * 2015-06-04 2017-01-04 欧姆龙株式会社 显著性信息取得装置以及显著性信息取得方法
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10852902B2 (en) 2015-07-15 2020-12-01 Fyusion, Inc. Automatic tagging of objects on a multi-view interactive digital media representation of a dynamic entity
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US10346996B2 (en) 2015-08-21 2019-07-09 Adobe Inc. Image depth inference from semantic labels
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
US10282623B1 (en) * 2015-09-25 2019-05-07 Apple Inc. Depth perception sensor data processing
JP6915542B2 (ja) * 2015-09-30 2021-08-04 日本電気株式会社 情報処理装置、通知システム、情報送信方法及びプログラム
US10277877B2 (en) * 2015-11-13 2019-04-30 Vefxi Corporation 3D system including a neural network
US10242448B2 (en) * 2015-11-13 2019-03-26 Vefxi Corporation 3D system including queue management
CN105740402B (zh) * 2016-01-28 2018-01-02 百度在线网络技术(北京)有限公司 数字图像的语义标签的获取方法及装置
US9858675B2 (en) * 2016-02-11 2018-01-02 Adobe Systems Incorporated Object segmentation, including sky segmentation
US10096158B2 (en) * 2016-03-24 2018-10-09 Ford Global Technologies, Llc Method and system for virtual sensor data generation with depth ground truth annotation
GB2550347A (en) * 2016-05-13 2017-11-22 The Imp College Of Science Tech & Medicine Real-Time Height Mapping
EP3264763A1 (en) * 2016-06-29 2018-01-03 Thomson Licensing Method and apparatus for improved significance flag coding using simple local predictor
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
US10402690B2 (en) * 2016-11-07 2019-09-03 Nec Corporation System and method for learning random-walk label propagation for weakly-supervised semantic segmentation
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
CA3054959C (en) * 2017-03-13 2023-07-25 Lucidyne Technologies, Inc. Method of board lumber grading using deep learning techniques
US10089742B1 (en) * 2017-03-14 2018-10-02 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases
US10216766B2 (en) * 2017-03-20 2019-02-26 Adobe Inc. Large-scale image tagging using image-to-topic embedding
WO2018172881A1 (ja) * 2017-03-24 2018-09-27 株式会社半導体エネルギー研究所 半導体装置、表示システム及び電子機器
US11157764B2 (en) 2017-03-27 2021-10-26 Intel Corporation Semantic image segmentation using gated dense pyramid blocks
US11704894B2 (en) 2017-03-27 2023-07-18 Intel Corporation Semantic image segmentation using gated dense pyramid blocks
US10332002B2 (en) * 2017-03-27 2019-06-25 GM Global Technology Operations LLC Method and apparatus for providing trailer information
US10169549B2 (en) 2017-03-30 2019-01-01 Adobe Inc. Digital image processing including refinement layer, search context data, or DRM
US10339642B2 (en) * 2017-03-30 2019-07-02 Adobe Inc. Digital image processing through use of an image repository
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
US10810371B2 (en) 2017-04-06 2020-10-20 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system
US10839017B2 (en) 2017-04-06 2020-11-17 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system utilizing an advanced memory graph structure
US10929759B2 (en) 2017-04-06 2021-02-23 AIBrain Corporation Intelligent robot software platform
US10963493B1 (en) 2017-04-06 2021-03-30 AIBrain Corporation Interactive game with robot system
CN106886801B (zh) 2017-04-14 2021-12-17 北京图森智途科技有限公司 一种图像语义分割方法及装置
DE202017102381U1 (de) * 2017-04-21 2017-05-11 Robert Bosch Gmbh Vorrichtung zum Verbessern der Robustheit gegen "Adversarial Examples"
CN107204010B (zh) * 2017-04-28 2019-11-19 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
US10558864B2 (en) * 2017-05-18 2020-02-11 TuSimple System and method for image localization based on semantic segmentation
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
CN107330449A (zh) * 2017-06-13 2017-11-07 瑞达昇科技(大连)有限公司 一种糖尿病性视网膜病变体征检测方法及装置
US10762635B2 (en) * 2017-06-14 2020-09-01 Tusimple, Inc. System and method for actively selecting and labeling images for semantic segmentation
JP6833630B2 (ja) * 2017-06-22 2021-02-24 株式会社東芝 物体検出装置、物体検出方法およびプログラム
CN109118532B (zh) * 2017-06-23 2020-11-20 百度在线网络技术(北京)有限公司 视觉景深估计方法、装置、设备及存储介质
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
CN108229478B (zh) * 2017-06-30 2020-12-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
WO2019027506A1 (en) * 2017-08-01 2019-02-07 Apple Inc. DETERMINATION OF CLEAR-PATTERN LIGHTING VERSUS DENSE
CN107563431A (zh) * 2017-08-28 2018-01-09 西南交通大学 一种结合cnn迁移学习和svdd的图像异常检测方法
CN107578435B (zh) * 2017-09-11 2019-11-29 清华-伯克利深圳学院筹备办公室 一种图像深度预测方法及装置
US10552979B2 (en) 2017-09-13 2020-02-04 TuSimple Output of a neural network method for deep odometry assisted by static scene optical flow
US10671083B2 (en) 2017-09-13 2020-06-02 Tusimple, Inc. Neural network architecture system for deep odometry assisted by static scene optical flow
KR102472767B1 (ko) 2017-09-14 2022-12-01 삼성전자주식회사 신뢰도에 기초하여 깊이 맵을 산출하는 방법 및 장치
CN107886477B (zh) * 2017-09-20 2020-07-14 武汉环宇智行科技有限公司 无人驾驶中立体视觉与低线束激光雷达的融合矫正方法
CN108229565B (zh) * 2017-09-26 2022-04-05 同济大学 一种基于认知的图像理解方法
KR20200129168A (ko) 2017-09-27 2020-11-17 구글 엘엘씨 고해상도 이미지 세분화를 위한 종단간 네트워크 모델
US10739775B2 (en) 2017-10-28 2020-08-11 Tusimple, Inc. System and method for real world autonomous vehicle trajectory simulation
KR20190051697A (ko) 2017-11-07 2019-05-15 삼성전자주식회사 뉴럴 네트워크의 디컨벌루션 연산을 수행하는 장치 및 방법
US10497145B2 (en) * 2017-11-16 2019-12-03 Nec Corporation System and method for real-time large image homography processing
CN111480183B (zh) * 2017-11-20 2023-08-08 上海科技大学 用于产生透视效果的光场图像渲染方法和系统
KR102264962B1 (ko) * 2017-12-18 2021-06-15 한국전자기술연구원 레이아웃 정보를 이용한 깊이 영상 후처리 방법
CN108171735B (zh) * 2017-12-27 2021-01-22 清华大学 基于深度学习的十亿像素视频对齐方法及系统
CN108053420B (zh) * 2018-01-05 2021-11-02 昆明理工大学 一种基于有限时空分辨率类无关属性动态场景的分割方法
US11094075B1 (en) * 2018-01-23 2021-08-17 Facebook Technologies, Llc Systems and methods utilizing a machine learning model for generating defocus blur effects
US11024046B2 (en) * 2018-02-07 2021-06-01 Fotonation Limited Systems and methods for depth estimation using generative models
US10706503B2 (en) * 2018-03-13 2020-07-07 Disney Enterprises, Inc. Image processing using a convolutional neural network
CN108846473B (zh) * 2018-04-10 2022-03-01 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
DE102018206848A1 (de) 2018-05-03 2019-11-07 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln eines Tiefeninformationsbilds aus einem Eingangsbild
CN110533705B (zh) * 2018-05-23 2023-02-28 富士通株式会社 估计单个图像的深度图的方法和设备
US10878245B2 (en) * 2018-05-30 2020-12-29 Logitech Europe S.A. Video content activity regions
US10638147B2 (en) * 2018-06-01 2020-04-28 Apple Inc. Gradual decoder refresh techniques with management of reference pictures
DE102018210003A1 (de) 2018-06-20 2019-12-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Anlernen eines Modells für maschinelles Lernen
CN110648299A (zh) * 2018-06-26 2020-01-03 株式会社理光 图像处理方法、图像处理装置和计算机可读存储介质
CN109190752B (zh) * 2018-07-27 2021-07-23 国家新闻出版广电总局广播科学研究院 基于深度学习的全局特征和局部特征的图像语义分割方法
CN110827341A (zh) * 2018-08-10 2020-02-21 中国移动通信有限公司研究院 一种图片深度估计方法、装置和存储介质
WO2020036468A1 (ko) * 2018-08-16 2020-02-20 주식회사 날비컴퍼니 이미지에 보케 효과를 적용하는 방법 및 기록매체
KR102192899B1 (ko) * 2018-08-16 2020-12-18 주식회사 날비컴퍼니 이미지에 보케 효과를 적용하는 방법 및 기록매체
RU2698402C1 (ru) * 2018-08-30 2019-08-26 Самсунг Электроникс Ко., Лтд. Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты)
CN109271539B (zh) * 2018-08-31 2020-11-24 华中科技大学 一种基于深度学习的图像自动标注方法及装置
US10796201B2 (en) 2018-09-07 2020-10-06 Toyota Research Institute, Inc. Fusing predictions for end-to-end panoptic segmentation
CN110889410B (zh) * 2018-09-11 2023-10-03 苹果公司 浅景深渲染中语义分割的稳健用途
CN109472200B (zh) * 2018-09-29 2022-04-05 深圳市锦润防务科技有限公司 一种智能的海面垃圾检测方法、系统和存储介质
CN109493346B (zh) * 2018-10-31 2021-09-07 浙江大学 一种基于多损失的胃癌病理切片图像分割方法和装置
CN109543557B (zh) * 2018-10-31 2021-01-05 百度在线网络技术(北京)有限公司 视频帧的处理方法、装置、设备以及存储介质
CN109458978B (zh) * 2018-11-07 2020-12-01 五邑大学 一种基于多尺度检测算法的天线下倾角测量方法
CN111160378A (zh) * 2018-11-07 2020-05-15 电子科技大学 基于单张图像的多任务增强的深度估计系统
US10846870B2 (en) * 2018-11-29 2020-11-24 Adobe Inc. Joint training technique for depth map generation
CN111382753B (zh) * 2018-12-27 2023-05-12 曜科智能科技(上海)有限公司 光场语义分割方法、系统、电子终端及存储介质
US10929715B2 (en) 2018-12-31 2021-02-23 Robert Bosch Gmbh Semantic segmentation using driver attention information
EP3721382B1 (en) * 2018-12-31 2022-10-12 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system of annotation densification for semantic segmentation
US20200242771A1 (en) * 2019-01-25 2020-07-30 Nvidia Corporation Semantic image synthesis for generating substantially photorealistic images using neural networks
CN111508010B (zh) * 2019-01-31 2023-08-08 北京地平线机器人技术研发有限公司 对二维图像进行深度估计的方法、装置及电子设备
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
EP3931795A1 (en) 2019-03-21 2022-01-05 Huawei Technologies Co., Ltd. Depth of field image refocusing
CN109784424B (zh) * 2019-03-26 2021-02-09 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
US10776669B1 (en) * 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US10810782B1 (en) * 2019-04-01 2020-10-20 Snap Inc. Semantic texture mapping system
US11094072B2 (en) * 2019-04-09 2021-08-17 Samsung Electronics Co., Ltd System and method for providing single image depth estimation based on deep neural network
CN110120049B (zh) * 2019-04-15 2023-06-30 天津大学 由单张图像联合估计场景深度与语义的方法
CN110084293A (zh) * 2019-04-18 2019-08-02 贝壳技术有限公司 一种全明格局房屋的确定方法和装置
US11176374B2 (en) * 2019-05-01 2021-11-16 Microsoft Technology Licensing, Llc Deriving information from images
CN110136185B (zh) * 2019-05-23 2022-09-06 中国科学技术大学 一种单目深度估计方法及系统
US11386671B2 (en) * 2019-06-25 2022-07-12 Zoox, Inc. Refining depth from an image
CN110276405B (zh) * 2019-06-26 2022-03-01 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN112329498B (zh) * 2019-08-05 2022-06-07 四川大学 一种基于机器学习的街道空间品质量化方法
CN110598741B (zh) * 2019-08-08 2022-11-18 西北大学 一种像素级标签自动生成模型构建、自动生成方法及装置
KR102234461B1 (ko) * 2019-08-12 2021-04-01 네이버랩스 주식회사 2d 지도를 이용하여 거리뷰 이미지의 깊이 정보를 생성하는 방법 및 시스템
KR102262671B1 (ko) * 2019-09-06 2021-06-09 주식회사 날비컴퍼니 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
AU2020355226A1 (en) * 2019-09-25 2022-04-07 Blue River Technology Inc. Treating plants using feature values and ground planes extracted from a single image
JP7401663B2 (ja) * 2019-10-14 2023-12-19 グーグル エルエルシー デュアルカメラおよびデュアルピクセルからのジョイント深度予測
US11295242B2 (en) * 2019-11-13 2022-04-05 International Business Machines Corporation Automated data and label creation for supervised machine learning regression testing
US11380033B2 (en) * 2020-01-09 2022-07-05 Adobe Inc. Text placement within images using neural networks
CN111460200B (zh) * 2020-03-04 2023-07-04 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN115191005A (zh) 2020-03-05 2022-10-14 奇跃公司 用于从多视图图像进行端到端场景重建的系统和方法
US10970645B1 (en) * 2020-05-08 2021-04-06 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using Bayesian dual autoencoder and active learning device using the same
US11290705B2 (en) * 2020-05-11 2022-03-29 Mapbox, Inc. Rendering augmented reality with occlusion
US11966234B2 (en) 2020-07-23 2024-04-23 Toyota Research Institute, Inc. System and method for monocular depth estimation from semantic information
WO2022019710A1 (en) * 2020-07-23 2022-01-27 Samsung Electronics Co., Ltd. Method and electronic device for determining boundary of region of interest
TWI812888B (zh) 2020-10-14 2023-08-21 財團法人工業技術研究院 影像辨識方法及影像辨識系統
US11625875B2 (en) * 2020-11-06 2023-04-11 Adobe Inc. Generating modified digital images incorporating scene layout utilizing a swapping autoencoder
US11868439B2 (en) 2020-11-13 2024-01-09 Toyota Research Institute, Inc. Mixed-batch training of a multi-task network
CN112614171B (zh) * 2020-11-26 2023-12-19 厦门大学 面向工程机械集群作业的空-地一体化动态环境感知系统
CN113781493A (zh) * 2021-01-04 2021-12-10 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备、介质及计算机程序产品
CN113240723A (zh) * 2021-05-18 2021-08-10 中德(珠海)人工智能研究院有限公司 一种单目深度估计方法、装置以及深度评估设备
CN114092874B (zh) * 2021-10-29 2023-07-25 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及其相关设备
CN113989511B (zh) * 2021-12-29 2022-07-01 中科视语(北京)科技有限公司 图像语义分割方法、装置、电子设备和存储介质
CN114882091B (zh) * 2022-04-29 2024-02-13 中国科学院上海微系统与信息技术研究所 一种结合语义边缘的深度估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016839A (zh) * 2008-04-14 2011-04-13 伊斯曼柯达公司 使用捕捉位置序列信息的图像分类
CN103177440A (zh) * 2012-12-20 2013-06-26 香港应用科技研究院有限公司 生成图像深度图的系统和方法
EP2624208A2 (en) * 2012-01-17 2013-08-07 Samsung Electronics Co., Ltd. Display system with image conversion mechanism and method of operation thereof
CN103268317A (zh) * 2012-02-06 2013-08-28 微软公司 对图像进行语义注释的系统和方法
CN104662896A (zh) * 2012-09-06 2015-05-27 诺基亚技术有限公司 用于图像处理的装置、方法和计算机程序

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711278B1 (en) * 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US6504951B1 (en) * 1999-11-29 2003-01-07 Eastman Kodak Company Method for detecting sky in images
US20040125124A1 (en) * 2000-07-24 2004-07-01 Hyeokman Kim Techniques for constructing and browsing a hierarchical video structure
CN1833258A (zh) * 2003-08-07 2006-09-13 皇家飞利浦电子股份有限公司 图像对象处理
WO2006075902A1 (en) * 2005-01-14 2006-07-20 Samsung Electronics Co., Ltd. Method and apparatus for category-based clustering using photographic region templates of digital photo
US20070121094A1 (en) 2005-11-30 2007-05-31 Eastman Kodak Company Detecting objects of interest in digital images
US7720773B2 (en) * 2005-12-29 2010-05-18 Microsoft Corporation Partitioning data elements of a visual display of a tree using weights obtained during the training state and a maximum a posteriori solution for optimum labeling and probability
US8330801B2 (en) * 2006-12-22 2012-12-11 Qualcomm Incorporated Complexity-adaptive 2D-to-3D video sequence conversion
US8045800B2 (en) 2007-06-11 2011-10-25 Microsoft Corporation Active segmentation for groups of images
TWI368176B (en) * 2007-09-28 2012-07-11 Ind Tech Res Inst System and method of image-based space detection
US8885890B2 (en) * 2010-05-07 2014-11-11 Microsoft Corporation Depth map confidence filtering
US8989483B2 (en) * 2011-06-10 2015-03-24 Sri International Method and apparatus for inferring the geographic location of captured scene depictions
US8577131B1 (en) * 2011-07-12 2013-11-05 Google Inc. Systems and methods for visual object matching
WO2013090830A1 (en) 2011-12-16 2013-06-20 University Of Southern California Autonomous pavement condition assessment
WO2014001062A2 (en) * 2012-06-26 2014-01-03 Ultra-D Coöperatief U.A. Device for generating a depth map
US9398287B2 (en) * 2013-02-28 2016-07-19 Google Technology Holdings LLC Context-based depth sensor control
US20150371440A1 (en) 2014-06-19 2015-12-24 Qualcomm Incorporated Zero-baseline 3d map initialization
US9811756B2 (en) 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
US10346996B2 (en) 2015-08-21 2019-07-09 Adobe Inc. Image depth inference from semantic labels

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016839A (zh) * 2008-04-14 2011-04-13 伊斯曼柯达公司 使用捕捉位置序列信息的图像分类
EP2624208A2 (en) * 2012-01-17 2013-08-07 Samsung Electronics Co., Ltd. Display system with image conversion mechanism and method of operation thereof
CN103268317A (zh) * 2012-02-06 2013-08-28 微软公司 对图像进行语义注释的系统和方法
CN104662896A (zh) * 2012-09-06 2015-05-27 诺基亚技术有限公司 用于图像处理的装置、方法和计算机程序
CN103177440A (zh) * 2012-12-20 2013-06-26 香港应用科技研究院有限公司 生成图像深度图的系统和方法

Also Published As

Publication number Publication date
DE102016005407A1 (de) 2016-12-01
GB2538847B (en) 2017-09-06
AU2016201908B2 (en) 2020-09-03
US10019657B2 (en) 2018-07-10
US20160350930A1 (en) 2016-12-01
GB201605125D0 (en) 2016-05-11
GB2538847A (en) 2016-11-30
CN106204522A (zh) 2016-12-07
AU2016201908A1 (en) 2016-12-15

Similar Documents

Publication Publication Date Title
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
US10692243B2 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10733431B2 (en) Systems and methods for optimizing pose estimation
US10796452B2 (en) Optimizations for structure mapping and up-sampling
CN108345890B (zh) 图像处理方法、装置和相关设备
US20210295082A1 (en) Zero-shot object detection
US20210264227A1 (en) Method for locating image region, model training method, and related apparatus
US10346996B2 (en) Image depth inference from semantic labels
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
EP3493106B1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
WO2019108251A1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10977549B2 (en) Object animation using generative neural networks
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN113361593B (zh) 生成图像分类模型的方法、路侧设备及云控平台
EP3493104A1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN109544516B (zh) 图像检测方法及装置
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
US11961249B2 (en) Generating stereo-based dense depth images
US11847725B2 (en) Performing interactive digital image operations utilizing modified machine learning models
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
US9886652B2 (en) Computerized correspondence estimation using distinctively matched patches
He et al. Fast depth extraction from a single image
US20230281843A1 (en) Generating depth images for image data
CN115631498A (zh) 一种文本位置确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant