CN115564708A - 多通道高质量深度估计系统 - Google Patents

多通道高质量深度估计系统 Download PDF

Info

Publication number
CN115564708A
CN115564708A CN202210997921.4A CN202210997921A CN115564708A CN 115564708 A CN115564708 A CN 115564708A CN 202210997921 A CN202210997921 A CN 202210997921A CN 115564708 A CN115564708 A CN 115564708A
Authority
CN
China
Prior art keywords
depth
image
semantic
module
estimation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210997921.4A
Other languages
English (en)
Inventor
屠方闻
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Black Sesame Intelligent Technology Shanghai Co Ltd
Original Assignee
Black Sesame Intelligent Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Black Sesame Intelligent Technology Shanghai Co Ltd filed Critical Black Sesame Intelligent Technology Shanghai Co Ltd
Publication of CN115564708A publication Critical patent/CN115564708A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/536Depth or shape recovery from perspective effects, e.g. by using vanishing points
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • G06T5/70
    • G06T5/77
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Abstract

本发明公开了一种用于从单目摄像装置提供多通道高质量深度估计以向图像提供增强现实(AR)和虚拟现实(VR)特征的系统和方法。本发明还包括在具有语义信息的部署友好的单目深度推理流水线上增强泛化的方法。此外,通过在单个图像输入内修复丢失的深度和背景来确保生动和完整的重建。

Description

多通道高质量深度估计系统
技术领域
本发明总体上涉及单视图深度估计。更具体地,本发明涉及从单目摄像装置的多通道高质量深度估计以向图像提供增强现实(AR)和虚拟现实(VR)特征。
背景技术
在单视图深度估计中,可以从单视场空间标记的时域获得深度。术语“单视场(monoscopic)”或“单目(mono)”用来指代如下特点,左眼与右眼看到给定场景的相同透视图。已知的一种单视图深度估计方法是通过从对象运动的程度中提取深度信息来执行的,并且因此被称为根据运动获得深度方法(depth-from-motion method)。
为具有较高的运动程度的对象分配较小的深度,以及为具有较低的运动程度的对象分配较大的深度。另一种常规的单视图深度估计方法是通过给诸如背景的非聚焦区域分配更大的深度来执行的,并且因此被称为根据聚焦提示获得深度方法(depth-from-focus-cue method)。
另一种常规的单视图深度估计方法是通过检测消失线的交点或消失点来执行的。为接近消失点的点分配较大(或较远)的深度,以及为远离消失点的点分配较小(或较近)的深度。然而,常规方法的缺点是能够从单视场时空域获得的信息非常有限。因此,不幸的是,常规方法无法解决真实世界图像中的所有场景内容。
转让给奇景光电有限公司(Himax Technologies Ltd.)的美国申请20100220893公开了一种涉及单视图深度估计的系统和方法。该发明提供了一种用于单视图深度估计的基础模型方法和系统,只要深度扩散区域(depth diffusion region,DDR)存在或能够被识别,所述基础模型方法和系统就能够提供正确和通用的深度并且能够处理相对大(即,大量)的各种场景。该发明中所描述的技术将图像分解成不同的实体,并且为每个实体分配深度。该发明提供了对图像的深度估计,然而,其缺乏的是为在深度估计过程中可能出现的遮挡区域提供纹理、颜色和深度信息。
转让给Adobe系统公司(Adobe Systems Inc.)的另一件美国专利8665258B2总体上涉及数字图像处理,并且更具体地涉及从单个图像生成深度图。通过为图像数据提供根据一个或更多个深度约束自动确定的的深度图,该专利中公开的技术比在先申请先进。此外,深度图的表示可以在计算机显示器上显示。然而,现有技术使用单个图像来预测深度,并且没有考虑预先存储的图像以及用于识别物体并对其进行标记的电子装置的摄像装置的内部参数。因此,很有可能在没有引入深度模式的情况下留下未标记的识别对象。
因此,为了克服上述现有技术中提到的缺陷,本发明提出了一种高质量的深度估计系统。本发明的高质量深度估计系统提供了一种深度估计系统,用于在将增强现实特征或虚拟现实特征添加至图像之前提供图像的三维重建。
因此,现在显然的是,在现有技术中开发了许多适合各种目的的方法和系统。此外,即使这些发明可能相应地适于它们所要解决的特定目的,其也不适用于如前所述的本发明的目的。因此,存在对本发明的高质量深度估计系统的需要,本发明提供了一种用于在将AR特征或VR特征添加至图像之前提供图像的三维重建的深度估计系统。
发明内容
与传统的三维图像相比,能够以动态的方式记录场景的三维摄影是一项令人着迷的功能。这些照片通过在图像中嵌入深度并且呈现具有计算序数的新颖视图使得图像变得更加逼真。当用户移动其便携式装置或简单地用鼠标点击时,三维效果就会出现在用户面前。在三维图像的基础上,可以添加具有生动的多视图呈现的增强现实(AR)或虚拟现实(VR)应用。
本发明的主要目的是介绍一种系统,该系统需要单个图像捕获装置来为包括PC、移动电话和可穿戴装置在内的任意显示终端产生三维重建以及其他AR或VR视觉特征。本发明介绍了如下系统,其采用多个透视特征来促进密集且像素级高质量深度估计的生成。
本发明的另一目的是引入使用单个图像来预测深度的深度估计模块。不同的内部摄像装置参数导致不同的视场、失真和图像布局。这些变化为单个网络带来了额外挑战。在训练过程中,将一批图像以及GT深度导入到网络中以扩展数据源范围。此外,附加模块被设计成处理不同摄像装置类型的内部参数。在输入网络之前,GT深度与内部参数都要经过一些归一化操作。引入了边缘对齐技术以去除在深度估计期间可能出现的任何边缘不连续和位移。
由单目深度估计模块估计的深度将不可避免地包含不合理的深度区域,例如均匀表面内不均匀的深度分布、深度渐变区域内深度梯度的丢失。本发明的另一目的是提出一种用于获得给定图像中每个实体的语义标签的全景分割单元。字典输出每个实例对应的深度样式(depth pattern)。
在图像中存在低置信区域的情况下,即图像中存在无法为其产生语义标签的区域的情况下,使用消失点对整个深度图进行平滑,具体做法是使这些低置信点保持与消失点或深度布局一致的正确序数顺序。
本发明的又一目的是在对图像中的标记实体和未标记实体进行平滑之后对图像进行修复操作。描述了一种语义边缘检测器,用于检测包括遮挡的实际语义边缘并请求修复。修复操作对被遮挡区域进行检测,并且将颜色、纹理和深度信息添加至被遮挡区域。
本发明的其他目的和方面将从以下结合附图的详细描述中变得明显,通过例如方式举例说明了根据本发明的实施方式的特征。
为了实现以上目的和相关目的,本发明可以以附图中所示的形式体现,但请注意:附图仅是说明性的,并且在所附权利要求的范围内可以对所示的具体结构进行改变。
尽管以上按照各种示例性实施方式和实现方式描述了本发明,但是应当理解,在一个或更多个实施方式中描述的各种特征、方面和功能在其适用性上并不限于被描述的具体实施方式,而是可以单独地或以各种组合应用于本发明的其他实施方式中的一个或更多个,无论是否对这些实施方式进行描述以及无论这些特征是否作为所描述的实施方式的一部分被提出。因此,本发明的广度和范围不应受到任何上述示例性实施方式限制。
在一些实例中意义扩大的词和短语例如“一个或更多个”、“至少”、“但不限于”或其他类似的短语的出现不应被解读为意指在可能不存在这样的意义扩大的短语的实例中意图或要求较窄的情况。
附图说明
结合附图,本发明的目的和特征将根据以下描述和所附权利要求变得更加完全清楚。应理解的是:这些附图仅描绘了本发明的典型实施方式,并且因此不应被认为是对其范围的限制,将通过使用附图以附加的具体性和细节来描述和解释本发明,在附图中:
图1A示出了根据本发明的用于提供基于单目CNN的深度估计的系统;
图1B示出了根据本发明的深度估计系统的工作流表示;
图2A示出了根据本发明的深度估计系统内的初始单目深度估计模块;
图2B示出了根据本发明的初始单目深度估计模块的工作流表示;
图3A示出了根据本发明的深度估计系统内的深度图优化模块;
图3B示出了根据本发明的利用深度图优化模块进行优化的工作流表示;
图4示出了根据本发明的空间布局样式;
图5示出了根据本发明的语义边缘引导的修复工作流;以及
图6示出了根据本发明的用于提供基于单目CNN的深度估计的方法。
具体实施方式
随着时间的推移,三维图像显示逐渐普及,并且对三维图像数据的要求也逐渐提高。然而,大多数图像数据仍然是二维(two-dimensional,2D)数据。将原始2D图像转换成三维图像时,图像深度是转换中的一个重要参数。图像深度是指图像中从视点到对象的距离,并且可以用于生成左右略有不同的两个图像以分别供左眼和右眼观看,使得用户通过利用眼睛之间的视差而具有观看三维图像的感觉。然而,由于算法非常复杂,因此实时的二维到三维图像转换非常困难。因此,如何快速地获得由二维到三维图像转换所需要的参数,例如图像中的每个像素的深度值,是一个重要的主题。
在常规的技术中,在一些方法中,通过使用帧间信息来加速深度值估计。例如,通过使用视频电影的连续帧中的对象移动距离来估计深度值。然而,图像中的场景或主要对象变化或快速移动,很难准确估计每个像素的深度值。此外,当图像中物体的前后关系不明确时,例如遮蔽后面对象的前面对象不存在时,也很难进行图像深度估计。
根据本发明的实施方式,输入装置提供或接收要处理的一个或更多个二维(2D)输入图像。输入装置通常可以是通过透视投影将三维对象映射到2D图像平面上的电光装置。在一个实施方式中,输入装置可以是拍摄2D图像的静态摄像装置或捕获多个图像帧的视频摄像装置。
在另一实施方式中,输入装置可以是执行诸如图像增强、图像复原、图像分析、图像压缩或图像合成的一个或更多个数字图像处理任务的预处理装置。此外,输入装置还可以包括存储装置,例如半导体存储器或硬盘驱动器,其存储来自预处理装置的经处理的图像。
图1A示出了根据本发明的用于所捕获的图像的深度估计系统。本发明的深度估计系统100包括初始单目深度估计模块200,其接收图像并借助配置在单目深度估计模块内的预测器单元改善图像内的深度质量。预测器单元基于多个预存储的图像以及导入预测流水线的电子装置的摄像装置的多个内部参数来预测图像的深度。不同的内部摄像装置参数导致不同的FOV、失真和图像布局。这些变化为单个网络处理带来了额外挑战。
附加模块被设计成处理不同摄像装置类型的内部参数。GT深度与内部参数在馈送到网络之前都要经过一些归一化操作。以这种方式,推理系统不仅考虑了具有RGB(红绿蓝)输入的图像布局,还考虑了由所涉及的摄像装置参数带来的相对比例。
初始单目深度估计模块200还包括边缘对齐质量单元。边缘对齐质量单元通过引入语义头来去除深度中的多个边缘不连续。该语义头不会给计算单元带来计算负担,因为该语义头在推理期间被丢弃了。
受限于模型回归能力以及训练数据的可用性,由单目深度估计模块估计的深度不可避免地包含不合理的深度区域,例如均匀表面内的不均匀深度分布、深度渐变区域内的深度梯度丢失。在这方面,由本发明提出了一种深度图优化模块,用于执行对对齐图像的优化(refinement)。
深度图优化模块300包括用于获得场景中每个实体的语义标签的全景分割单元。利用这些标记对象,系统能够在先验知识的指导下为每个类别拟合不同的深度样式模型。例如,对于天空,场景中的深度通常是最远的,对于地面,逐渐增加深度是一种适当的模式,对于人类,在大多数情况下均匀的深度是合适的。
全景分割单元为那些具有深度样式模型的对象产生语义标签。在深度图优化模块内配置的字典单元在每个实例中输出对应的深度样式。例如,地面区域,深度应当从近处朝向远处逐渐增加,例如,深度分布应当均匀地增加而不是突然变化。
场景中的消失点通常有助于指示深度变化趋势。在深度图中,仍然存在一些关于深度值的低置信点。所述点通常不属于任何语义标签或者未被识别为任何类。深度布局模块400包括用于指示深度变化样式的一个或更多个消失点,以促进深度图为分割图像中的一个或更多个未识别的语义标签提供一个或更多个深度样式。
可以使用消失点乃至深度布局预测(例如,遵循曼哈顿假设的室内场景深度布局)来平滑整个深度图,通过使这些未标记点保持符合VP或深度布局的正确序数顺序。该操作可以看作是深度图的全局平滑,而上一节中的语义标签优化则用作局部平滑操作。
在渲染三维图像以及AR特征或VR特征之前,需要对单个图像输入执行修复操作,该操作由深度修复模块500执行。对于图像内的遮挡区域,需要能够对颜色、纹理和深度信息进行补偿的修复操作。在本发明中提出了一种用于执行修复操作的语义边缘检测器。
语义边缘对包括遮挡的实际语义边缘进行检测并且请求修复。输出模块600产生修复图像的三维场景重建,并且将多个增强现实特征和虚拟现实特征添加至修复图像以生成三维图像。
图1B示出了根据本发明的深度估计系统。手头的图像可以被认为是整体图像102,或者可以被划分成多个帧102。在主要的实施方式中,图像被认为是整体。如图所示,深度估计模块使用单个图像来预测深度。结果用作随后的优化和修复流水线的初始输入。因此,深度的质量对最终的渲染性能至关重要。
一般而言,除了合理的深度分布之外,还有两个因素对质量以及实践使用也很重要。边缘对齐质量单元去除图像内的边缘不连续。引入了能够对诸如语义掩码、语义边缘等的任务进行预测的语义头。
由单目深度估计模块104估计的深度包含不合理的深度区域,例如均匀表面内的不均匀深度分布以及深度渐变区域内的深度梯度丢失。在这方面,提出了在深度图优化模块内配置的全景分割单元以获得图像中每个实体的语义标签。由分割模块进行的图像到不同实体的分割118称为基于语义标签的优化110。字典单元负责为图像的不同实体定义深度模式以形成组合深度图112。
在图像中存在无法标记的实体——也称为低置信区域的情况下,由多个消失点120组成的消失点修正图作用于图像并且对图像执行全局平滑操作,这也有助于为未标记的实体提供深度估计。这包括将语义修正图与VP修正图如图所示进行组合以生成组合深度图。
另一方面,如果在图像中没有识别出低置信区域108,则语义修正图或VP修正图122足以立刻为整个图像提供深度估计。语义边缘检测器126对包括遮挡的实际语义边缘进行检测,并且请求要对图像128执行的修复操作。最后,将修复的图像124与LDI 114进行组合,并且将AR特征或VR特征116添加至图像。
图2A示出了深度估计系统内的初始单目深度估计模块。初始单目深度估计模块200包括使用单个图像来预测深度的预测器单元202。深度估计模块的预测器单元使用单个图像来预测深度。结果将用作随后的优化和修复流水线的初始输入。
因此,深度的质量对最终的渲染性能至关重要。一般而言,除了合理的深度分布,另外两个因素对质量以及实践使用也很重要。所述两个因素是(1)具有不同摄像装置参数的各种输入图像的泛化能力,以及(2)关于对象的语义级别的边缘对齐质量。
至于泛化能力,已知不同的内部摄像装置参数将导致不同的FOV、失真和图像布局。这些变化为单个网络处理带来了额外挑战。传统上,需要对目标摄像装置输入图像进行微调以解决该问题。在本发明中,在预测流水线内采用了诸如焦距、主中心(principalcentre)的摄像装置内部参数。将这些参数与一批其他图像和GT深度一起作为输入导入。
通过提及要由边缘对齐质量单元204执行的边缘对齐质量,我们指示了深度是否与实际对象边缘严格地一致而没有任何过渡区域。相反,如果深度在每个边缘区域处都具有不连续也是不合理的,这是因为这些边缘可能是不存在深度跳跃的背景边缘(contextedge),或者是包含必要的深度不连续的实际对象边缘。
为了处理该问题,在训练期间提出了语义头以对语义对象进行考虑。语义头能够对诸如语义掩码、语义边缘等的任务进行预测。该附加的头不会给计算单元带来计算负担,这是因为将在推理期间丢弃了该附加的头。但是该头已经学习的语义信息将隐式地保留在剩余的流水线中。
图2B示出了根据本发明的初始单目深度估计模块。在本发明的本实施方式中,输入图像206被划分成多个帧208。已知不同的内部摄像装置参数210将导致不同的FOV、失真和图像布局。这些变化为单个网络处理带来了额外挑战。传统上,需要对目标摄像装置输入图像进行微调以解决该问题。在本发明中,预测流水线内导入了诸如焦距、主中心的内部参数。将这些参数作为输入导入。
在训练期间,将一批图像和GT深度导入到网络中以扩展数据源范围。此外,附加的模块被设计成处理不同摄像装置类型的内部参数。GT深度与内部参数两者在馈送到网络中之前要经过一些归一化操作。以这种方式,推理系统不仅考虑了具有RGB输入的图像布局,还考虑了由所涉及的摄像装置参数带来的相对比例。
由深度估计模块进行的深度预测可能导致图像具有不合理的深度区域,从而形成深度分支212。在训练期间引入语义头以考虑形成语义分支214的语义对象。语义头能够对诸如语义掩码、语义边缘等的任务进行预测。该附加的头不会给计算单元带来计算负担,这是因为将在推理期间丢弃了该附加的头。
图3A示出了深度估计系统内的深度图优化模块。深度图优化模块300包括全景分割单元302和字典单元304。全景分割单元302获得场景中的每个实体的语义标签。利用这些标记对象,深度图优化模块能够在先验知识的指导下为每个类别拟合不同的深度样式模型。例如,对于天空,场景中的深度通常是最远的,对于地面,逐渐增加深度是一种适当的模式,对于人类,在大多数情况下均匀的深度是合适的。
全景分割单元302针对具有深度样式模型的那些对象产生语义标签。然后,字典单元304输出每个实例内的对应深度样式。对于那些具有深度变化样式的对象,可以在最后一个模块的估计深度图的指导下确定诸如最小-最大深度、分布方差的参数。例如,在地面区域中,深度应当从近处朝向远处逐渐增加,例如,深度分布应当均匀地增加而不是突然变化。以这种方式,通过对每个语义类的深度本质进行考虑,将得出合理的深度。
图3B示出了根据本发明的深度图优化模块。图3B中的图像306示出了具有诸如道路、公众、天空、车辆等不同对象或实体的街景。如图3B所示,已经具体地标记了天空位置308、地面位置318以及车辆位置314。标签-深度字典310向所提及的实体提供深度样式。如图所示,天空深度样式312、车辆深度样式316以及地面深度样式320已经被标签-深度字典分配了对应的深度样式。
图4示出了根据本发明的空间布局样式。可以使用消失点乃至深度布局预测(例如,遵循曼哈顿假设的室内场景深度布局)来对整个深度图进行平滑,通过使这些未标记点保持符合VP或深度布局的正确序数顺序。一些空间典型布局样式如图402a、402b、402c和402d所示。
图5示出了根据本发明的语义边缘引导的修复工作流。深度图502由深度估计模块和深度图优化模块生成。在能够确定深度不连续边缘506之前,所生成的深度图将通过边缘保留滤波器504。语义边缘检测器融合方案508来解决该问题。语义边缘将促进对包括遮挡的实际语义边缘514进行检测并且请求修复。
此外,可以去除虚假的深度边缘以提高修复速度。基于融合深度边缘检测,能够创建初始分层深度图像(Layered Depth Image,LDI)510,并且可以基于局部背景512相似性或其他基于学习的方法进行修复。
图6示出了用于提供基于单目CNN的深度估计的方法。该方法包括通过深度估计系统同步地接收图像并改善图像内的深度质量702。然后,系统的深度估计模块借助于训练数据同步对图像的深度进行预测704,训练数据包括预存储的图像以及摄像装置的多个内部参数例如FOV、主中心等。接下来,深度估计系统的包括全景分割单元的深度图优化模块引入语义头以对语义对象进行考虑706。语义头能够对诸如语义掩码、语义边缘等的任务进行预测。
此外,在下一步骤中,从图像中的估计深度中去除图像中的边缘不连续以创建对齐图像708。接下来,在步骤中,全景分割单元通过将图像分类成诸如天空位置、车辆位置等的不同实体来进行对对齐图像的优化以形成分割图像710。然后在步骤712中,深度图优化模块的字典单元向图像的每个实体分配深度样式。接下来,在步骤714中,生成深度图以提供深度样式从而形成标记图像。该深度图包括VP修正图,以免即使在对图像的不同实体进行标记之后,图像内还存在低置信区域。
在步骤中,在生成深度图之后,对图像中缺乏适当颜色、深度信息和纹理的遮挡区域进行修复以形成修复图像716。接下来,在步骤718中,对修复图像重建三维场景。最后,将多个增强现实特征和虚拟现实特征添加至修复图像以生成三维图像720。
尽管以上已经描述了本发明的各种实施方式,但是应当理解,这些实施方式仅作为示例提出,而不是限制。类似地,附图可以描绘用于本发明的架构或其他配置的示例,对附图进行描绘是为了帮助理解可以包括在本发明中的特征和功能。本发明不限于所示的示例架构或配置,而是可以使用各种替选的架构和配置来实现想要的特征。
尽管以上按照各种示例性实施方式和实现方式描述了本发明,但是应当理解,在各个实施方式中的一个或更多个中描述的各种特征、方面和功能在其适用性上不限于被利用来描述所述各种特征、方面和功能的具体实施方式,而是可以单独地或以各种组合应用于本发明的其他实施方式中的一个或更多个,无论是否对这些实施方式进行描述并且无论这些特征是否作为所描述的实施方式的一部分被提出。因此,本发明的广度和范围不应受到上述示例性实施方式中的任何示例性实施方式限制。
在一些实例中意义扩大的词和短语例如“一个或更多个”、“至少”、“但不限于”或其他类似的短语的出现不应被解读为意指在可能不存在这样的意义扩大的短语的实例中意图或要求较窄的情况。

Claims (16)

1.一种用于单目摄像装置的基于多通道卷积神经网络(CNN)的深度估计系统,其特征在于,所述深度估计系统包括:
单目深度估计模块,其中,所述单目深度估计模块包括:
预测器单元,用于基于存储的图像以及所述单目摄像装置的一个或更多个参数来预测图像中的深度;以及
边缘对齐质量单元,用于去除所述图像的所述深度中的边缘不连续以生成对齐图像;
深度图优化模块,其中,所述深度图优化模块包括:
全景分割单元,用于将一个或更多个语义标签应用于所述对齐图像的一个或更多个部分以生成分割图像;以及
字典单元,用于基于所述一个或更多个语义标签将深度样式应用于所述分割图像的一个或更多个部分中的每一个,以生成处理后的图像;
深度布局模块,其中,所述深度布局模块通过向所述处理后的图像中的一个或更多个未识别的语义标签提供深度样式来促进所述深度图优化模块形成标记图像;
深度修复模块,其中,所述深度修复模块对所述标记图像中的一个或更多个遮挡区域进行修复以生成修复图像;以及
输出模块,其中,所述输出模块将多个增强现实特征和虚拟现实特征添加至所述修复图像以产生三维图像。
2.根据权利要求1所述的深度估计系统,其特征在于,所述一个或更多个参数在预测流水线内包括焦距、主中心。
3.根据权利要求2所述的深度估计系统,其特征在于,所述存储的图像以及所述一个或更多个参数被导入到所述预测流水线中。
4.根据权利要求3所述的深度估计系统,其特征在于,所述存储的图像以及所述一个或更多个参数构成训练数据。
5.根据权利要求1所述的深度估计系统,其特征在于,所述边缘对齐质量单元引入语义头,用于去除多个所述边缘不连续以创建所述对齐图像。
6.根据权利要求1所述的深度估计系统,其特征在于,所述全景分割单元为具有深度样式模型的一个或更多个部分生成所述语义标签。
7.根据权利要求1所述的深度估计系统,其特征在于,所述深度图包括一个或更多个消失点,用于指示深度变化样式。
8.根据权利要求1所述的深度估计系统,其特征在于,所述一个或更多个未识别标签保持序数顺序。
9.根据权利要求1所述的深度估计系统,其特征在于,所述深度修复模块包括语义边缘检测器。
10.根据权利要求9所述的深度估计系统,其特征在于,所述语义边缘检测器检测多个语义边缘。
11.根据权利要求9所述的深度估计系统,其特征在于,所述语义边缘检测器允许增加的修复速度。
12.根据权利要求1所述的深度估计系统,其特征在于,所述深度图优化模块执行局部平滑操作。
13.根据权利要求1所述的深度估计系统,其特征在于,所述深度布局模块执行全局平滑操作。
14.根据权利要求9所述的深度估计系统,其特征在于,所述语义边缘检测器包括用于基于遮挡对所述语义边缘进行检测的融合机制。
15.一种用于单目摄像装置的基于多通道卷积神经网络(CNN)的深度估计方法,其特征在于,所述方法包括:
接收图像并改善所述图像内的深度质量;
基于存储的图像以及一个或更多个参数对所述图像的深度进行预测;
在训练期间引入语义头以对一个或更多个语义对象进行考虑;
去除所述深度中的多个边缘不连续以创建对齐图像;
通过获得用于所述对齐图像的一个或更多个部分的一个或更多个语义标签,执行对所述对齐图像的优化以形成分割图像;
基于所述一个或更多个语义标签,将深度样式应用于所述对齐图像的所述一个或更多个部分的每个实体以生成处理后的图像;
向所述处理后的图像中的一个或更多个未识别的语义标签提供一个或更多个深度样式以形成标记图像;
对所述标记图像中的一个或更多个遮挡区域进行修复,创建修复图像;
对所述修复图像重建三维场景;以及
将多个增强现实特征和虚拟现实特征添加至所述修复图像以生成三维图像。
16.一种用于单目摄像装置的深度估计系统,其特征在于,所述系统包括:
单目深度估计模块,其中,所述单目深度估计模块包括:
预测器单元,用于基于存储的图像以及一个或更多个内部参数对图像的深度进行预测,其中,所述存储的图像以及所述一个或更多个内部参数被导入到预测流水线中;以及
边缘对齐质量单元,用于通过在训练期间引入语义头以对语义对象进行考虑来去除所述深度中的边缘不连续以生成对齐图像;
深度图优化模块,其中,所述深度图优化模块包括:
全景分割单元,用于获得用于所述对齐图像的一个或更多个部分的一个或更多个语义标签,从而形成分割图像;以及
字典单元,用于基于所述一个或更多个语义标签,将深度样式应用于所述分割图像中的所述一个或更多个部分中的每个部分以生成经处理的图像;
深度布局模块,其中,所述深度布局模块包括用于指示深度变化样式的一个或更多个消失点,以促进深度图优化模块为所述处理后的图像中的一个或更多个未识别的语义标签提供深度样式,进一步其中一个或更多个未识别的标签保持正确序数顺序以形成标记图像;
深度修复模块,其中,所述深度修复模块包括语义边缘检测器,所述语义边缘检测器用于对所述标记图像中的一个或更多个遮挡区域进行修复、创建修复图像以及去除一个或更多个虚假的深度边缘以提高修复速度;以及
输出模块,其中,所述输出模块产生所述修复图像的三维场景重建,以及将多个增强现实特征和虚拟现实特征添加至所述修复图像以生成三维图像。
CN202210997921.4A 2021-08-31 2022-08-19 多通道高质量深度估计系统 Pending CN115564708A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/463,188 2021-08-31
US17/463,188 US20230063150A1 (en) 2021-08-31 2021-08-31 Multi-channel high-quality depth estimation system

Publications (1)

Publication Number Publication Date
CN115564708A true CN115564708A (zh) 2023-01-03

Family

ID=84738388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210997921.4A Pending CN115564708A (zh) 2021-08-31 2022-08-19 多通道高质量深度估计系统

Country Status (2)

Country Link
US (1) US20230063150A1 (zh)
CN (1) CN115564708A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230141734A1 (en) * 2021-11-05 2023-05-11 Adobe Inc. Digital image inpainting utilizing plane panoptic segmentation and plane grouping

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796201B2 (en) * 2018-09-07 2020-10-06 Toyota Research Institute, Inc. Fusing predictions for end-to-end panoptic segmentation
US11017586B2 (en) * 2019-04-18 2021-05-25 Adobe Inc. 3D motion effect from a 2D image
WO2021097126A1 (en) * 2019-11-12 2021-05-20 Geomagical Labs, Inc. Method and system for scene image modification
US20230099521A1 (en) * 2021-09-28 2023-03-30 Clarkson University 3d map and method for generating a 3d map via temporal and unified panoptic segmentation

Also Published As

Publication number Publication date
US20230063150A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
US20230377183A1 (en) Depth-Aware Photo Editing
US8878835B2 (en) System and method for using feature tracking techniques for the generation of masks in the conversion of two-dimensional images to three-dimensional images
US8340422B2 (en) Generation of depth map for an image
JP4896230B2 (ja) 2次元から3次元に変換するためのオブジェクトのモデルフィッティング及びレジストレーションのシステム及び方法
JP5156837B2 (ja) 領域ベースのフィルタリングを使用する奥行マップ抽出のためのシステムおよび方法
US8331614B2 (en) Method and apparatus for tracking listener's head position for virtual stereo acoustics
US20080226181A1 (en) Systems and methods for depth peeling using stereoscopic variables during the rendering of 2-d to 3-d images
US20080228449A1 (en) Systems and methods for 2-d to 3-d conversion using depth access segments to define an object
US20080225042A1 (en) Systems and methods for allowing a user to dynamically manipulate stereoscopic parameters
US20080226160A1 (en) Systems and methods for filling light in frames during 2-d to 3-d image conversion
CN109462747B (zh) 基于生成对抗网络的dibr系统空洞填充方法
US20080225045A1 (en) Systems and methods for 2-d to 3-d image conversion using mask to model, or model to mask, conversion
US20080226128A1 (en) System and method for using feature tracking techniques for the generation of masks in the conversion of two-dimensional images to three-dimensional images
KR100560464B1 (ko) 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법
WO2013074561A1 (en) Modifying the viewpoint of a digital image
US20150379720A1 (en) Methods for converting two-dimensional images into three-dimensional images
Ceulemans et al. Robust multiview synthesis for wide-baseline camera arrays
CN105469375A (zh) 处理高动态范围全景图的方法和装置
Sharma et al. A flexible architecture for multi-view 3DTV based on uncalibrated cameras
Hsu et al. Spatio-temporally consistent view synthesis from video-plus-depth data with global optimization
KR101125061B1 (ko) Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법
CN115564708A (zh) 多通道高质量深度估计系统
Zhang et al. Refilming with depth-inferred videos
KR101785203B1 (ko) 깊이 이미지를 이용한 다시점 객체 분리 방법 및 시스템
Tasli et al. User assisted disparity remapping for stereo images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination