CN113850859A - 用于增强图像深度置信度图的方法、系统、制品和装置 - Google Patents
用于增强图像深度置信度图的方法、系统、制品和装置 Download PDFInfo
- Publication number
- CN113850859A CN113850859A CN202011377086.1A CN202011377086A CN113850859A CN 113850859 A CN113850859 A CN 113850859A CN 202011377086 A CN202011377086 A CN 202011377086A CN 113850859 A CN113850859 A CN 113850859A
- Authority
- CN
- China
- Prior art keywords
- confidence
- depth
- map
- values
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002708 enhancing effect Effects 0.000 title abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000013459 approach Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 230000003247 decreasing effect Effects 0.000 claims description 11
- 230000001965 increasing effect Effects 0.000 claims description 11
- 230000007423 decrease Effects 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 102
- 238000004891 communication Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 238000003860 storage Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及用于增强图像深度置信度图的方法、系统、制品和装置。公开了用于增强图像深度置信度图的方法、系统、制品和装置。一种装置包括梯度分析器,所述梯度分析器用于基于场景的数字图像来生成图像梯度,并且基于与所述数字图像相关联的深度图来生成深度梯度,所述深度图用于定义与数字图像中的像素相对应的深度值。所述装置还包括增强置信度图分析器,所述增强置信度图分析器用于基于图像梯度、深度梯度和深度图的初始置信度图来确定深度图的增强置信度图。
Description
技术领域
本公开总体上涉及计算机视觉,并且更具体地涉及用于增强图像深度置信度图的方法、系统、制品和装置。
背景技术
计算机视觉、机器视觉、图像处理、模式识别等的相关技术领域通常涉及对场景的一个或多个图像的分析,以提取指示场景内的对象和/或它们彼此的空间关系的特征。这些技术学科的实现可以涉及生成与成像场景相关联的深度图,该深度图包括指示场景内的对象的不同表面相对于正被分析的(一个或多个)图像的特定视点(例如,相对于捕获(一个或多个)图像的(一个或多个)相机的视点)的深度和/或距离的信息。更具体地,深度图定义了表示正被分析的场景的图像中每个像素的深度的值。在深度图中定义的各个像素的深度值是基于对场景的(一个或多个)底层图像的分析的估计值。除了生成深度图之外,许多计算机视觉系统还生成定义深度图中深度值的置信度水平的置信度图。
发明内容
本公开的第一方面涉及一种用于增强图像深度置信度图的装置,该装置包括:梯度分析器,用于:基于场景的数字图像来生成图像梯度;以及基于与数字图像相关联的深度图来生成深度梯度,该深度图定义与数字图像中的像素相对应的深度值;以及增强置信度图分析器,用于基于图像梯度、深度梯度和深度图的初始置信度图来确定深度图的增强置信度图。
本公开的第二方面涉及一种用于增强图像深度置信度图的方法,包括:通过利用逻辑电路执行指令,基于场景的数字图像来生成图像梯度;通过利用逻辑电路执行指令,基于与数字图像相关联的深度图来生成深度梯度,该深度图定义与数字图像中的像素相对应的深度值;以及通过利用逻辑电路执行指令,基于图像梯度、深度梯度以及深度图的初始置信度图来确定深度图的增强置信度图。
附图说明
图1示出了根据本文公开的教导的待分析的场景的两个示例经校正的立体图像。
图2是图1所示的左图像的放大图。
图3是图1和图2的左图像的示例深度图。
图4是图3的深度图的示例置信度图。
图5是基于图4的初始置信度图生成的图3的深度图的示例增强置信度图。
图6是另一示例初始置信度图与增强置信度图的并排比较。
图7是根据本文公开的教导构造的示例计算机视觉装置。
图8是图7所示的增强置信度图生成器的示例实现方式。
图9和图10是表示机器可读指令的流程图,这些机器可读指令可以被执行以实现图7的示例计算机视觉装置。
图11是被构造为执行图9和/或图10的指令以实现图7的示例计算机视觉装置的示例处理平台的框图。
附图未按比例绘制。通常,在整个附图和所附的文字描述中,相同的附图标记将用于指代相同或相似的部件。除非另有说明,否则连接引用(例如,附接、耦接、连接和接合)将被广义地解释,并且可包括元件集合之间的中间构件以及元件之间的相对移动。因此,连接引用不一定推断两个元件直接连接并且彼此成固定关系。声明任何部件与另一部件“接触”意味着这两个部件之间没有中间部件。
描述词“第一”、“第二”、“第三”等在本文中用于标识可以单独引用的多个元件或组件。除非基于它们的使用上下文另外指定或理解,否则此类描述词并不旨在赋予列表中的优先级、物理顺序或布置,或时间上的排序的任何含义,而仅用作用于单独地引用多个元件或组件的标记,以便于理解所公开的示例。在一些示例中,描述词“第一”可以用于在具体实施方式中指代元件,而相同的元件在权利要求中可以使用诸如“第二”或“第三”之类的不同描述词来指代。在此类情况中,应当理解,使用此类描述词仅仅是为了便于引用多个元件或组件。
具体实施方式
在一些计算机视觉应用中,除了场景的图像之外,还可以分析与成像的场景相关联的深度信息。在一些情况中,这种深度信息由深度图或深度图像表示。深度图可以表示为数据的二维阵列,其中元素对应于相关联的图像中的像素的二维阵列。也就是说,深度图中的每个元素的值对应于相关联的图像中的单个像素。更具体地,深度图中的每个元素的值指示和/或对应于由所捕获的图像中的对应像素表示的场景中的对象的表面相对于某个基准点(例如,捕获图像的传感器的位置)的深度或距离。
在一些情况下,可以使用一个或多个深度传感器来生成由深度图指示的深度信息。存在可以用于生成深度图的不同类型的深度传感器,这些传感器包括例如结构化光相机(stuctured light camera)、编码光相机、飞行时间相机(time offlight camera)(例如,LiDAR传感器)、立体深度相机等。每种类型的深度传感器具有其相关的优点和缺点。无论所使用的深度感测技术,在与由深度图表示的特定像素相关联的估计深度中都可能存在误差。因此,许多深度感测系统通常生成置信度图,该置信度图指示与由深度图中的每个元素表示的深度信息相关联的置信度水平。置信度图可以被表示为数据的二维阵列,其中元素对应于相关联的图像中的像素的二维阵列和相关联的深度图中的元素的对应二维阵列。置信度图中每个元素的值指示由深度图中对应元素中的值表示的估计深度或距离的置信度水平。在一些情况中,置信度图中的值可以是二进制的(例如,可信(值为1)或不可信(值为0))。在其他情况中,置信度图中的值可以是指示置信度水平的范围的值的范围(例如,从0到255)。在任一情况下,置信度图可以用于滤除深度图中的不可靠深度信息,排除与低置信度水平(例如,基于二进制的置信度图中的值0或满足(例如,低于)某个阈值的值)相关联的深度信息。
尽管置信度图可以用于滤除深度图中不可靠的深度信息,但是置信度图并不完美。通常,包含在深度图中的正确(例如,反映由正被分析的场景的图像中的相应像素表示的相关联对象的深度或距离的准确指示)的深度信息的至少一部分可以与置信度图中的低置信度水平(例如,假阴性)相关联。同样地,包含在深度图中的不正确(例如,反映深度或距离的非准确指示)的深度信息的至少一部分可以与置信度图中的高置信度水平(例如,假阳性)相关联。
结合图1至图4示出了基于立体匹配来生成深度图和相应的置信度图的方法的具体示例。具体地,图1示出了待分析的场景(例如,由立体相机捕获)的两个经校正的图像100、102。在此示例中,场景的左图像100是从比捕获场景的右图像102的位置的稍靠左侧的位置捕获的。因此,两个图像100、102呈现场景的略微不同的视角或视点,如从左图像100的前景中的椅背104相对于右图像102的椅背104的移位位置是明显的。在一些示例中,图像100、102可以是灰度图像,使得每个像素与单个像素值相关联。在其他示例中,图像100、102可以是彩色的,使得每个像素包括与红色、绿色和蓝色相对应的三个子像素值。也就是说,在一些示例中,图像100、102可以是RGB图像。
如上所述,图像100、102被校正。图像校正涉及原始捕获的图像的变换(例如,几何畸变),使得对应于场景中的相同点的输出(经校正的)图像100、102中的匹配像素沿Y轴垂直对准。也就是说,虽然与场景中的特定点相对应的匹配像素可以在两个图像100、102之间沿着X轴从左向右(例如,水平地)移位(例如,上文提到的椅背104的移位),但是校正确保了匹配像素不沿Y轴垂直地移位(例如,椅背104的顶部边缘在左图像100和右图像102内处于相同的垂直位置)。图像校正有助于识别两个图像100、102之间的匹配像素的过程,该过程然后可用于生成图像中的基准图像的深度图。
更具体地,可以基于三角测量原理来计算深度图中表示的深度信息,该三角测量原理基于捕获两个图像100、102的两个立体相机之间的已知距离以及两个图像中的匹配像素之间的视差或距离。如本文中所使用的,两个匹配像素之间的视差对应于两个图像100、102中的匹配像素的X位置中的差(例如,移位量)。一般地,场景中距离立体相机较近的对象将距离较远的对象对应于更大的像素视差。在一些示例中,与图像的特定像素相关联的深度图中的元素的值对应于这些像素与相关联的立体图像中的对应匹配像素之间的视差。为此,深度图有时被称为视差图,并且这两个术语在本文中可互换使用。
在可以计算像素视差以生成深度图的深度信息之前,需要匹配两个图像100、102的每一个中的像素中的对应像素。存在可以被实现以匹配两个图像100、102之间的像素的各种方法。根据本文所公开的教导,可以使用任何这样的方法。确定像素的对应性或匹配的许多方法涉及代价量(cost volumn)(cv{R,L}(x,y,d))的构建。代价量可以被概念化为表示不同的成本值,这些不同的成本值指示两个图像100、102之一中的每个像素与另一图像中的不同像素在不同视差水平下的不同比较。通常,不同水平的视差的范围将从两个图像100、102直接重叠(例如,视差0对应于图像之间在X方向上没有移位)直到两个图像100、102的水平对准之间在X方向上的某个阈值移位。基于对不同视差下的各个像素的不同比较的分析,将减小(例如,最小化)特定代价函数(例如,基于相似度)的特定视差被用作真实视差的估计,并且与真实视差的估计相关联的像素被确定为匹配像素。
一旦两个像素被识别为彼此匹配或相对应,对应的视差(例如,用于将像素识别为匹配的真实视差的估计)可用于估计与匹配像素相关联的场景中的对象的距离或深度。如上所述,在一些情况中,深度图中的元素的值对应于相关匹配像素之间的视差的大小,从这些相关匹配像素可以随后计算和/或推导出与像素相关联的实际距离或深度。生成深度图以对应于用作基准图像的两个图像之一。在此示例中,图1的左图像100是基准图像。图2示出了左图像100的放大视图。图3示出了对应于图1和图2的左图像100的示例深度图(或视差图)300。
为生成深度图的代价量计算的代价值也可以用于生成置信度图,该置信度图指示针对深度图中表示的不同视差(和/或相关联的深度)的置信度水平。图4示出了对应于图3的深度图300的示例置信度图400。在此示例中,置信度图400表示二进制置信度值,其中由黑色指示深度信息中的低置信度(例如,不可信的),由白色指示深度信息中的高置信度。
图3的深度图300和图4的置信度图400包括许多不可靠和/或不确定的数据点。在一些示例中,当深度图300中的深度信息不准确时,数据点是不可靠的。在一些示例中,无论基础深度信息是否准确,当数据点具有低置信度水平(如置信度图400所示)时,数据点都是不确定的。更具体而言,深度信息(例如,匹配像素之间的视差)通常是不准确的和/或与沿着诸如图2至图4所示的椅背104的左侧的区域202之类的对象的边缘的低置信度水平相关联。沿着对象边缘的深度信息与低置信度水平相关联,因为在两个图像100、102之一中,前景对象的边缘附近的成像场景中的背景对象的部分可能被前景对象遮挡。也就是说,与图2的左图像100中的区域202相关联的场景的一部分在图1的右图像102中不可见,因为椅背104挡道。因此,与左图像100中的区域202相关联的像素实际上与右图像102中的任何像素并不对应或不匹配,使得无法计算可靠的视差来确定与像素相关联的深度。
此外,深度信息(例如,匹配像素之间的视差)通常是不准确的和/或与沿着相对平坦或平滑的区域(例如,对应于图2至图4所示的椅背104面向的表面的区域204)的低置信度水平相关联。平滑或平坦的表面与较低的置信度水平相关联,因为整个表面上的一致外观使得更加难以将左图像100中的每个像素准确地匹配到右图像102中的适当的对应像素。因此,如图4的置信度图400中所示,椅背104上的区域204包括许多低置信度的点(在本文中也称为置信度图400中的孔或间隙(gap)),其中图3的深度图300中的可靠性深度信息被认为是不确定的。
虽然图3的深度图300和图4的对应置信度图400是如上文所述基于图1的两个经校正的图像100、102的立体匹配来生成的,但是可以以任何其他合适的方式生成类似的深度图和对应的置信度图。如上所述,基于匹配代价量生成许多深度图,匹配代价量涉及计算从左图像100中的像素(IL(xL,y))到右图像102中的像素(IR(xR,y))和/或反之亦然的定义的视差范围内的每个可能匹配的代价值。基于此方法的置信度水平或置信度度量取决于代价量提示(cue),例如,最小匹配代价、第二最小匹配代价、最小和第二最小匹配代价两者等。用于生成置信度图的匹配代价量方法的特定示例包括自然峰值比(nativepeakratio)(PKRN)方法、最大似然度量(MLM)方法和/或左右差(LRD)方法。
用于生成置信度图的另一种方法是基于多个不同的初始深度(视差)图。例如,当图像100、102相对于彼此从左向右移位时,可以通过确定像素之间的视差来生成第一深度图,而当图像100、102相对于彼此从右向左移位时,可以通过确定像素之间的视差来生成第二深度图。在此类示例中,可以基于第一深度图和第二深度图的比较来生成置信度图。此种特定方法被称为左右一致性(LRC)方法。基于初始深度图生成置信度图的过程的其他特定示例包括基于视差值的方差和/或视差值的中值偏差的过程。
由立体图像生成置信度图的第三种方法是基于源图像对本身。例如,可以基于图像梯度度量的大小和/或基于像素到图像边界的距离来生成置信度图。
可以以顺序逻辑方式实现用于生成置信度图的上述方法中的每种方法。另外地或可选地,可以基于相关联的机器学习模型使用深度神经网络来生成置信度图,该相关联的机器学习模型使用包括如以上示例方法中概述的代价量、深度图和/或图像对中的一者或多者的输入。许多深度学习模型是通过监督训练开发的,因为它们依赖于基于基础真实(groundtruth)深度图定义的基础真实置信度图,如下所示:
CGT=|DGT-Dest|<τ 式1
其中CGT是基础真实置信度图,DGT是基础真实深度图,Dest是估计的深度图,并且τ是阈值。机器学习模型是通过训练深度神经网络来再现基础真实置信度图(CGT)而生成的。一旦被训练,该模型就可以被应用于新的输入(例如,新的立体图像、代价量和/或深度图),以估计或推断输入的适当置信度图。
可以以无监督的方式生成用于估计置信度图的一些深度学习模型。例如,一种方法是基于左右一致性检查,其中估计的(输出富人)置信度图(Cest)基于相关联的一对立体图像的深度图的左估计和右估计(Dl est和Drest),如下所示:
其中τ是等于1的阈值。
虽然以上方法(无论是基于机器学习模型还是基于顺序逻辑指令)能够生成置信度图的合理估计,但是每种方法都是不完美的,并且得到的置信度图可能具有如上所述的误差和/或不准确性。本文公开的示例使得能够基于后续处理来增强或改进任何此类置信度图。改进置信度图生成的典型方法是改进算法和/或顺序逻辑,通过该算法和/或顺序逻辑来分析代价量以产生置信度图。然而,许多深度感测系统在内部处理代价量,并且不提供代价量作为输出。不提供该数据的一个原因是处理器和存储器效率,因为代价量包含大量数据,处理这些数据在计算上可能是昂贵的。因此,通过后处理对初始置信度图的增强受到代价量通常不可用的技术现实的显著限制。在用于置信度图生成的深度学习解决方案的背景下,通过改进用于估计置信度图的底层模型,改进是可能的。可以通过基于准确的基础真实的更好的训练来改进模型。然而,获得准确的基础真实(例如,成像场景的表面的实际深度或距离)非常困难和/或代价过高。实际上,如上所述,一些现有的深度学习方法基于估计而不是实际测得的深度信息来生成基础真实。本文公开的示例使得能够通过后处理来增强在任何合适的情况下生成的置信度图,而不需要代价量数据并且不需要基础真实数据。也就是说,本文公开的示例能够改进任何置信度图,而与用于最初生成置信度图的基础方法无关。
具体地,本文公开的置信度图的改进以三个假设为前提,这三个假设是由于观察到正被分析的场景的图像与该图像的深度图之间存在强相关性而产生的。第一个假设是增强置信度图应当相对接近或类似于初始置信度图。作出此假设是因为初始置信度图基于初始图像和相关联的深度图。因此,对于对应于底层图像的任何增强置信度图,增强置信度图应当相对接近或类似于初始置信度图。初始(输入)置信度图与增强或细化(输出)置信度图之间的接近度或相似度的度量可以表示为两个置信度图之间的差的欧几里得范数(也称为2-范数)。这可以用数学方式表示如下:
||Cout-Cin|2 式3
其中Cin是初始置信度图,并且Cout对应于增强置信度图。在一些示例中,初始置信度图由深度感测系统基于任何合适的方法提供,以生成如上所述的置信度图。在其他示例中,可以独立于任何相关联的深度感测系统来定义初始置信度图。例如,在一些示例中,置信度图可以被定义为所有值都为1(例如,Cin=1),指示相关联深度图中的所有深度信息都被指定为是可靠的(例如,在整个深度图中假设置信度)。
生成增强置信度图的第二个假设是底层数字图像(例如,图1和图2的左图像100)中的相对平滑的区域应当对应于相关联的深度图中的相对平滑的深度。可以通过生成图像的梯度以识别图像的像素信息内的边缘(例如,与背景对象相邻的前景对象的边缘)和/或其他不连续性,来识别图像内的平滑区域。图像的平滑区域通常对应于图像梯度中的不连续不存在或至少相对较小(例如,低于阈值)的区域。类似地,可以通过生成深度图的梯度以识别相关联的深度图中的任何不连续性,来识别其中的平滑区域。如果图像中的相对平滑区域应当对应于深度图中的相对平滑区域的假设为真,则深度图中包含高于阈值的不连续性(例如,非平滑)的区域在与底层图像中的平滑区域相关联时可能包含不准确的深度信息。可以通过将第一阈值函数应用于图像梯度并将第二阈值函数应用于深度梯度并将两个阈值函数的输出相乘,来实现在图像中隔离与相关联的深度图中的非平滑区域相对应的平滑区域。更具体地,在一些示例中,第一阈值函数是单调递减的软阈值函数(以使图像中的非平滑区域为零),并且第二阈值函数是单调递增的软阈值函数(以使深度图中的平滑区域为零)。
在一些示例中,与图像和深度图中的不匹配的平滑和非平滑区域的隔离区域相关联的置信度图中的值被减小(例如,设置为零或以其他方式设置为指定低置信度)以去除这些区域处的深度图中的潜在不可靠的深度信息。在一些示例中,可以将上述假设的度量描述为增强置信度图乘以应用于图像梯度的第一阈值函数的输出和应用于深度梯度的第二阈值函数的输出的欧几里得范数。这可以用数学方式表示如下:
||CoutFI(ΔI)FD(ΔD)||2 式4
其中ΔI是图像I的图像梯度,ΔD是深度图D的梯度,FI是单调递减软阈值函数,并且FD是单调递增软阈值函数。除图像中相对平滑的区域(例如,相对较小ΔI)和深度图中相对非平滑的区域(例如,相对较大ΔD)之外,互补(增加和减小)阈值函数使公式4接近0。因此,可以通过将增强置信度图(Cout)中的置信度值(对应于图像中的平滑区域和深度图中的非平滑区域)设置为0,来减小(最小化)式4。
生成增强置信度图的第三个假设是置信度图中的不连续性将出现在与底层数字图像(例如,图1和图2的左图像100)的边缘相对应的位置处。由于前景对象遮挡背景表面而出现此类不连续部(例如,图2中的区域202对应于被图1的右图像102中的椅背104遮挡的背景中的成像场景的区域)。可以通过生成置信度图的梯度来识别置信度图中的不连续部。此外,通过将置信度图的梯度与应用于图像的梯度的阈值函数的输出相乘,可以将置信度图梯度的相关部分与底层图像中的边缘相关联。在一些示例中,可以如式5中所表示的那样来对此乘法的欧几里得范数求值:
||ΔCoutFI(ΔI)||2 式5
其中ΔCout是增强置信度图Cout的梯度,并且FI是应用于图像梯度ΔI的阈值函数。在一些示例中,式5中的阈值函数FI与式4中的第一阈值函数FI相同。也就是说,在一些示例中,式5中的阈值函数FI是单调递减的软阈值函数。
式3-5中的每一个均基于增强置信度图项Cout。尽管这在上文中被描述为增强置信度图,但是项Cout可以更适当地被视为是表示置信度图的任何可能解的矩阵参数。但是,式3-5可以被组合以定义具有单个解的全局凸优化问题,该单个解提供矩阵参数Cout的最佳值,该矩阵参数Cout减小或消除初始置信度图中的孔或间隙并增加置信度图中低置信度区域与底层图像(例如,图1和/或图2的左图像100)中的边缘的对准。更具体地,通过同时减小(例如,最小化)式3-5中的每一个中的项来定义矩阵参数Cout的全局最优。这可以用数学方式表示如下表示:
其中α和β是可调谐参数。式6定义了在函数的全局最小值处具有单个最优解的凸二次问题(convex quadratic problem)。因此,通过确定式6的导数为零的Cout值,可以确定定义增强置信度图的最优解:
式8可以用矩阵表示法表示如下:
其中Cin和Cout是列向量,DID是对角矩阵,沿对角线的值对应于FI(ΔI)FD(ΔD)的对角线,并且G是由下式定义的矩阵:
G=HDI 式9
其中DI是对角矩阵,沿对角线的值对应于FI(ΔI)的对角线,并且H是导数矩阵。如本文中所使用的,导数矩阵H被定义为双对角矩阵,其中主对角线上的每个元素为1,并且超对角线上的每个元素为-1。即,
在式8中应用微分,产生
其中项ITI中的I是指单位矩阵,而不是式4-7中的图像梯度ΔI中的图像I)。简化式11,并隔离Cout,得到
式12右侧的所有项或者是已知的(例如,作为来自深度感测系统的输入而提供),或者可以从已知的输入中推导出。因此,可以直接对式12进行求值,以得到矩阵参数Cout的特定值,这些值定义了如上所述的增强置信度图。
使用图1和图2的左图像100以及图3的相关联深度图300和图4的初始置信度图400作为输入来对式12进行求值,得到图5的示例置信度图500。如通过与图4的比较明显的是,图5的置信度图500减少或消除了图4的置信度图400中与低置信度区域相关联的许多孔或间隙。也就是说,在图4的初始置信度图400中,具有相对低的置信度水平的许多区域(例如,在椅背104的面向表面的区域204中)已经被转换为高置信度值。尽管这种改进在视觉上是明显的,但可以通过测量填充因子(fill factor)来量化该改进,该填充因子被定义为置信度图中指示相关联的深度信息的置信度的值的数量相对于整个置信度图中的值的总数的比率或比例。图5的示例增强置信度图500具有与图4的初始置信度图400更高的填充因子(例如,指示相关联的深度信息中的置信度的更多值)。值得注意的是,尽管可以在增强置信度图中去除初始置信度图中的许多孔(例如,低置信度深度信息的点被确定为具有高置信度),以增加高置信度值的总数,但是存在由初始置信度图识别的高置信度深度信息的袋(pocket)或点被指定为在增强置信度图中具有低置信度的情况。后一种情况可能导致置信度图中指示高置信度的值的数量减少。然而,在许多这样的情况下,这仍然是对置信度图的准确性的改进,因为被转换为低置信度的值通常对应于不准确(例如,假阳性)的深度信息。
除了指示深度值的置信度的值的数量增加(以及孔的数量相应减少)之外,图5的置信度图500中的不连续部(例如,高置信度和低置信度的区域之间的边缘)还与图像100中表示的对象的边缘更紧密地对准。例如,图4的初始置信度图400包括对应于椅背104的左边缘206(对应于区域202的右边缘)的边缘不连续部402。然而,如图4所示,边缘不连续402相对不均匀。相比之下,图5的增强置信度图500在与图4中大致相同的位置处包括边缘不连续部502。然而,与图4的边缘不连续部402相比,图5的边缘不连续部502更加平滑,并且与椅背104的实际左边缘206更准确地对准。
在图6的示例中,对置信度图中的边缘不连续部与场景的相关联图像中的对象的边缘的对准的改进甚至更加明显。图6包括叠加在与场景的图像相关联的底层深度图上的初始置信度图600和对应的增强置信度图602。在这些示例中,该场景在前景中包括停止标志。初始置信度图600中的停止标志的八边形几乎无法识别,因为在初始置信度图600中沿停止标志的边缘存在太多不确定性。相反,增强置信度图中的停止标志的八边形是明显的,因为增强置信度图中的边缘不连续部更加均匀并且与停止标志的实际形状准确地对准。以这种方式实现的对置信度图中边缘不连续部的对准的改进是显著的改进,因为其极大地促进了通常在基于置信度图滤除不可靠数据之后使用来自深度图的深度信息来进行的对象识别和/或检测任务。
图7是根据本文公开的教导构造的示例计算机视觉装置700。如所示示例所示,计算机视觉装置700包括(一个或多个)示例图像传感器702、(一个或多个)示例深度传感器704、示例初始深度数据生成器706、(一个或多个)示例增强置信度图生成器708、示例存储器710、示例用户界面712、示例计算机视觉应用控制器714以及示例通信接口716。
在图7的所示示例中,(一个或多个)图像传感器702捕获待分析的场景的图像(例如,RGB图像)。因此,例如,(一个或多个)图像传感器702可以捕获图1的立体图像100、102。(一个或多个)示例深度传感器704捕获与由(一个或多个)图像传感器702捕获的图像相关联的深度信息。在一些示例中,(一个或多个)深度传感器704可以被省略,因为深度信息源自两个或更多个立体图像,如上文所述。示例初始深度数据生成器706基于由(一个或多个)图像传感器702和/或(一个或多个)深度传感器704提供的一个或多个图像以及相关联的深度信息来生成初始深度数据。在一些示例中,初始深度数据包括深度图(例如,图3的深度图300)和对应于深度图的初始置信度图(例如,图4的初始置信度图400)。示例初始深度数据生成器706可以使用任何合适的技术来生成深度图和初始置信度图。
在图7所示的示例中,示例增强置信度图生成器708为由初始深度数据生成器706所生成的深度图生成增强置信度图(例如,图5的增强置信度图500)。更具体地,在一些示例中,增强置信度图生成器708通过求解满足式6中表示的函数的矩阵参数Cout来生成增强型置信度图。在图8中示出图7的增强置信度图生成器708的示例实现方式。在图8所示的示例中,增强置信度图生成器708包括示例梯度分析器802、示例阈值函数分析器804以及示例增强置信度图分析器806。在此示例中,梯度分析器802生成和/或确定待分析图像(例如,图1和图2的左图像100)的梯度和与图像相关联的深度图(例如,图3的深度图300)的梯度。示例阈值函数分析器804确定应用于由梯度分析器802生成的图像梯度和深度梯度的相关阈值函数的输出。利用应用于图像和深度梯度的阈值函数的输出,式12中的所有项都是已知的,或这可以通过矩阵数学(matrix mathematics)直接确定。因此,在一些示例中,增强置信度图分析器806对式12进行求值,以确定Cout,Cout定义了增强置信度图(例如,图5的增强置信度图500)。
尽管结合图8示出和描述的实现增强置信度图生成器708的示例方式被描述为涉及基于式12的直接求值的离散操作,但是增强置信度图生成器708的其他实现方式也是可能的。例如,在一些示例中,增强置信度图生成器708可以由神经网络硬件加速器实现和/或与神经网络硬件加速器相关联,该神经网络硬件加速器实现机器学习模型,以隐式地生成图像梯度、深度梯度并求解使式6中所表达的函数减小(例如最小化)的Cout。在此示例中,神经网络可以不显式地对式12进行求值。但是,由神经网络实现的学习模型如果被适当地训练,则应当得到大约相同的结果。在一些示例中,神经网络可以产生与通过式12的分析求值更好的结果,因为神经网络在整个训练数据集上被训练以产生更广义的输出,而分析方法特定于单个图像的分析。在一些示例中,这样的训练可以如下发生:首先针对一组训练图像来对式12求值以解析地求解Cout,并且然后使用训练图像的解析解作为基本事实(groundtruth)。另外地或可选地,通过基于在式6中表达的最小化问题来定义损失函数,并且然后通过一组输入训练图像运行神经网络以减小(例如,最小化)损失函数,训练可以以无监督的方式(例如,无基本事实)发生。
在一些示例中,初始深度数据生成器706和增强置信度图生成器708被集成在一起和/或对应于单个组件。例如,初始深度数据生成器706和增强置信度图生成器708都可以使用相同的神经网络硬件加速器来实现。在其他示例中,初始深度数据生成器706和增强置信度图生成器708可以是单独的组件。实际上,在一些示例中,初始深度数据生成器706可以在与实现增强置信度图生成器708的第二设备分开的第一设备(连同(一个或多个)图像传感器702和/或(一个或多个)深度传感器704)上实现。
返回图7,示例存储器710用于存储由(一个或多个)图像传感器702、(一个或多个)深度传感器704、初始深度数据生成器706和/或增强置信度图生成器708中的任何一者生成和/或使用的信息。此外,在一些示例中,存储器710存储机器学习模型和/或相关联的参数以实现此类模型,从而使用神经网络来确定增强置信度图。示例用户界面712使得用户能够与计算机视觉装置700接口连接,例如以对式6的可调谐参数α和β的值进行定义。在一些示例中,经由示例用户界面712提供的用户输入也被存储在示例存储器710中。
示例计算机视觉应用控制器714基于初始深度数据生成器706和/或增强置信度图生成器708的输出来实现与计算机视觉应用相关联的后续操作。例如,计算机视觉应用控制器714可以执行对象识别和/或检测任务,这些任务然后用作实现计算机视觉应用(例如,尺寸测量、导航、场景理解等)的基础。在一些示例中,计算机视觉应用控制器714的操作基于由增强置信度图过滤的深度图中包含的深度信息。使用增强置信度图而不是初始置信度图,使得能够将更准确的深度信息用于后续处理,因为增强置信度图更准确地滤除不准确的深度信息,同时更准确地保留准确的深度信息。因此,可以用更准确的结果和/或在更少的时间内实现后续的计算机视觉应用。准确度和处理时间是显著的优势,因为许多计算机视觉应用基本上是实时实现的(例如,导航决策可以在少于1秒的时间内实时作出)。
在图7所示的示例中,通信接口716使得能够与和计算机视觉装置相关联的其他设备和/或组件进行通信。例如,如果计算机视觉装置700被实现为自主导航系统的一部分,则示例通信接口716可以将示例计算机视觉应用控制器714的输出提供给用于实现相关联的设备的导航的电机和/或其他机电系统的控制器。
尽管图7中示出了实现图7的示例计算机视觉装置700的示例方式,但是图7所示的一种或多种元件、过程和/或设备可以被组合、分割、重新布置、省略、消除和/或以任何其他方式实现。此外,示例初始深度数据生成器706、示例增强置信度图生成器708(在一些示例中,包括示例梯度分析器802、示例阈值函数分析器804和示例增强置信度图分析器806)、示例存储器710、示例用户界面712、示例计算机视觉应用控制器714、示例通信接口716和/或更一般地图7的示例计算机视觉装置700,可以由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,示例初始深度数据生成器706、示例增强置信度图生成器708(在一些示例中,包括示例梯度分析器802、示例阈值函数分析器804和示例增强置信度图分析器806)、示例存储器710、示例用户界面712、示例计算机视觉应用控制器714、示例通信接口716、和/或更一般地示例计算机视觉装置700中的任何一者可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元(GPU)、(一个或多个)数字信号处理器(DSP)、(一个或多个)专用集成电路(ASIC)、(一个或多个)可编程逻辑器件(PLD)、(一个或多个)现场可编程逻辑器件(FPLD)和/或硬件加速器(例如,神经网络加速器)来实现。当阅读本专利的任何装置或系统权利要求以覆盖纯软件和/或固件实现方式时,示例初始深度数据生成器706、示例增强置信度图生成器708(在一些示例中,包括示例梯度分析器802、示例阈值函数分析器804和示例增强置信度图分析器806)、示例存储器710、示例用户界面712、示例计算机视觉应用控制器714和/或示例通信接口716中的任何一者在此被明确地定义为包括软件和/或固件的非暂态计算机可读存储设备或存储盘,例如,存储器、数字多功能盘(DVD)、光盘(CD)、蓝光光盘等。此外,图7的示例计算机视觉装置700除了图7中所示的元件、过程和/或设备之外或者代替图7所示的这些还可以包括一个或多个元件、过程和/或设备,和/或可以包括多于一个的任何或所有所示的元件、过程和设备。如本文中所使用的,短语“在通信中”,包括其变体,包含直接通信和/或通过一个或多个中间部件间接通信,并且不需要直接物理(例如,有线)通信和/或持续通信,而是另外包括周期性间隔、预定间隔、非周期性间隔和/或一次性事件的选择性通信。
在图9和图10中示出表示用于实现图7的计算机视觉装置700的示例硬件逻辑、机器可读指令、硬件实现的状态机和/或其任何组合的流程图。机器可读指令可以是用于由计算机处理器和/或处理器电路(例如,以下结合图11讨论的示例处理器平台1100中示出的处理器1112)执行的一个或多个可执行程序或可执行程序的(一个或多个)部分。程序可以以存储在诸如CD-ROM、软盘、硬盘驱动器、DVD、蓝光光盘或与处理器1112相关联的存储器之类的非暂态计算机可读存储介质上的软件来实现,但是整个程序和/或其部分也可以由除处理器1112以外的设备执行和/或以固件或专用硬件(例如,神经网络加速器)实现。此外,尽管参考图9和图10所示的流程图描述了示例程序,但是也可以使用实现示例计算机视觉装置700的许多其他方法。例如,可以改变框的执行顺序,和/或可以改变、消除或组合所描述的一些框。此外,在一些示例中,由图9和图10中的各个框表示的一个或多个操作可以基于机器学习模型的实现方式来隐式地执行。另外地或可选地,任何或所有框可以由构造为执行相应的操作的一个或多个硬件电路(例如,离散和/或集成的模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,而无需执行软件或固件。处理器电路可以分布在不同的网络位置和/或位于一个或多个设备(例如,单个机器中的多核处理器、分布在服务器机架上的多个处理器等)的本地。
本文描述的机器可读指令可以以压缩格式、加密格式、分段格式、编译格式、可执行格式、封装格式等中的一种或多种格式存储。本文描述的机器可读指令可以被存储为可用于创建、制造和/或产生机器可执行指令的数据或数据结构(例如,指令的部分、代码、代码的表示等)。例如,机器可读指令可以被分段并被存储在位于网络或网络集合(例如,在云中,边缘设备中等)的相同或不同位置处的一个或多个存储设备和/或计算设备(例如,服务器)上。机器可读指令可能需要安装、修改、适配、更新、组合、补充、配置、解密、解压缩、解包、分发、重新分配、编译等中的一者或多者,以便使它们可由计算设备和/或其他机器直接读取、解释和/或执行。例如,机器可读指令可以被存储在多个部分中,这些部分被单独地压缩、加密并存储在单独的计算设备上,其中,这些部分在解密、解压缩和组合时形成实现一个或多个函数的可执行指令集,这些函数可以共同形成程序(如本文所述的程序)。
在另一示例中,机器可读指令可以以它们可以被处理器电路读取的状态存储,但是需要添加库(例如,动态链接库(DLL))、软件开发套件(SDK)、应用编程接口(API)等,以便在特定计算设备或其他设备上执行指令。在另一示例中,在机器可读指令和/或相应程序可以整体或部分执行之前,可能需要配置机器可读指令(例如,存储的设置、数据输入、记录的网络地址等)。因此,本文所使用的机器可读介质可以包括机器可读指令和/或程序,而不管机器可读指令和/或程序在存储时或以其它方式处于静止或传输中时的特定格式或状态。
本文描述的机器可读指令可以由任何过去、现在或将来的指令语言、脚本语言、编程语言等表示。例如,机器可读指令可以使用以下任何一种语言来表示:C、C++、Java、C#、Perl、Python、JavaScript、超文本标记语言(HTML)、结构化查询语言(SQL)、Swift等。
如上所述,图9和图10的示例过程可以使用存储在非暂态计算机和/或机器可读介质(例如,硬盘驱动器、闪存、只读存储器、光盘、数字多功能盘、缓存、随机存取存储器和/或任何其他存储设备或存储盘)上的可执行指令(例如,计算机和/或机器可读指令)来实现,其中信息被存储任何持续时间(例如,用于延长的时间段、永久性地、短暂地、临时缓冲和/或对信息进行缓存)。如本文所使用的,术语非暂态计算机可读介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘,并且不包括传播信号和传输介质。
“包括(including)”和“包含(comprising)”(及其所有形式和时态)在本文中用作开放式短语。因此,每当权利要求采用任何形式的“包括(include)”或“包括(comprise)”(例如,包含(comprises)、包括(includes)、包含(comprising)、包括(including)、具有(having)等)作为任何种类的权利要求陈述的前序部分或在任何种类的权利要求叙述中时,应当理解,在没有落在相应权利要求或叙述的范围之外的情况下,可以存在其他元素、项等。如本文中所使用的,当例如在权利要求的前序部分中使用短语“至少”作为过渡术语时,它是开放式的,其方式与词语“包含(comprising)”和“包括(including)”是开放式的相同。当例如以诸如A、B和/或C的形式使用术语“和/或”时,术语“和/或”是指A、B、C的任何组合或子集,例如(1)只有A,(2)只有B,(3)只有C,(4)A与B,(5)A与C,(6)B与C,以及(7)A与B与C。如在本文描述结构、组件、项目、对象和/或事物的上下文中所使用的,短语“A和B中的至少一者”旨在指代包括以下任一项的实现:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。类似地,如在本文描述结构、部件、项目、物体和/或事物的上下文中所使用的,短语“A或B中的至少一者”旨在指代包括以下任一项的实现:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。如在本文描述过程、指令、动作、活动和/或步骤的实施或执行的上下文下所使用的,短语“A和B中的至少一者”旨在指代包括以下任一项的实现:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。类似地,如在本文描述过程、指令、动作、活动和/或步骤的实施或执行的上下文中所使用的,短语“A或B中的至少一者”旨在指代包括以下任一项的实现:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。
如本文所使用的,单数引用(例如,“一(a)“、“一个(an)”、“第一”、“第二”等)不排除多个。如本文所使用的,词语“一”或“一个”实体是指一个或多个该实体。词语“一”(或“一个”)、“一个或多个”以及“至少一个”在本文中可以互换使用。此外,尽管被单独列出,但是多个装置、元件或方法动作可以由例如单个单元或处理器来实现。另外,尽管在不同的示例或权利要求中可以包括单独的特征,但是这些特征可以被组合,并且在不同的示例或权利要求中的包括并不意味着特征的组合是不可行的和/或不利的。
图9的程序开始于框902,在框902处,示例计算机视觉装置700获得场景的数字图像(例如,图1和图2的左图像100)。在一些示例中,数字图像由(一个或多个)图像传感器702捕获和/或提供。在框904处,示例计算机视觉装置700获得图像的深度图(例如,图3的示例深度图300)。在一些示例中,深度图由(一个或多个)深度传感器704生成和/或提供。另外地或可选地,在一些示例中,由初始深度数据生成器706基于图像来生成和/或提供深度图。在框906处,示例计算机视觉装置700获得深度图的初始置信度图(例如,图4的初始置信度图400)。在框908处,示例增强置信度图生成器708基于数字图像、深度图和初始置信度图来求解增强置信度图(例如,图5的增强置信度图500)。下面结合图10提供用于实现框908的示例过程。在框910处,示例计算机视觉应用控制器714使用增强置信度图来过滤深度图,以用于后续计算机视觉操作。之后,图9的示例过程结束。
如上所述,图10是示出图9的框908的示例实现方式的流程图。图10的流程图可以表示对应于由计算机处理器和/或处理器电路执行的一个或多个可执行程序或可执行程序的(一个或多个)部分的机器可读指令。因此,图10的流程图定义了可以被实现以求解增强置信度图的顺序逻辑。然而,由图10的流程图中的不同框表示的单独的功能和/或操作不需要遵循顺序路径或显式地实现。更确切地说,图10的流程图可以可选地表示由神经网络及其相关联的硬件实现的机器学习模型在内部完成的隐式操作。此外,在此类示例中,虽然图10的一个或多个框可以仅被隐式地实现,但是图10的框中的一个或多个其他框和/或它们所表示的操作可以被完全省略和/或被未在所示示例中示出的不同操作所代替。
详细地参照附图,图10的示例过程开始于框1002,在框1002处,示例增强置信度图生成器708生成数字图像的梯度。在一些示例中,图像梯度由示例梯度分析器802生成。在框1004处,示例增强置信度图生成器708将第一阈值函数应用于图像梯度。在一些示例中,第一阈值函数是单调递减软阈值函数。在一些示例中,由示例阈值函数分析器804应用第一阈值函数。在框1006处,示例增强置信度图生成器708生成深度图的梯度。在一些示例中,深度梯度由示例梯度分析器802生成。在框1008处,示例增强置信度图生成器708将第二阈值函数应用于深度梯度。在一些示例中,第二阈值函数是单调递增软阈值函数。在一些示例中,由示例阈值函数分析器804应用第二阈值函数。
在框1010处,示例增强置信度图生成器708定义可调谐参数。在一些示例中,基于经由用户界面712接收到的用户输入来定义可调谐参数。在框1012处,示例增强置信度图生成器708基于第一阈值函数的输出(在框1004处生成)乘以第二输入函数的输出(在框1008处生成)的对角线来确定第一对角矩阵的值。在框1014处,示例增强置信度图生成器708基于第一阈值函数的输出(在框1004处生成)的对角线来确定第二对角矩阵的值。在框1016处,示例增强置信度图生成器708基于导数矩阵(例如,由式10定义)乘以第二对角矩阵(在框1014处生成)来确定矩阵的值。在框1018处,示例增强置信度图生成器708通过评估式12求解增强图。在此示例中,Cin的值由在图9的框906处获得的初始置信度图定义。然而,在一些示例中,可以忽略初始置信度图,并且可以将Cin中的所有值设置为1。在一些示例中,框1012-1018的计算由图8的示例增强置信度图分析器806实现。一旦求解出增强置信度图,图10的示例过程就结束,并返回以完成图9的过程。
图11是示例处理器平台1100的框图,该示例处理器平台1100被构造成执行图9和/或图10的指令以实现图7的计算机视觉装置700。处理器平台1100可以是例如服务器、个人计算机、工作站、自学习机(例如,神经网络)、移动设备(例如,蜂窝电话、智能电话、平板电脑(例如,iPadTM))、个人数字助理(PDA)、因特网设备或任何其他类型的计算设备。
所示示例的处理器平台1100包括处理器1112。所示示例的处理器1112是硬件。例如,处理器1112可以由来自任何期望的家族(family)或制造商的一个或多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器可以是基于半导体的(例如,基于硅的)器件。在此示例中,处理器实现示例初始深度数据生成器706、示例增强置信度图生成器708(包括示例梯度分析器802、示例阈值函数分析器804和示例增强置信度图分析器806)以及示例通信接口716。
所示示例的处理器1112包括本地存储器1113(例如,缓存)。所示示例的处理器1112经由总线1118与包括易失性存储器1114和非易失性存储器1116的主存储器通信。易失性存储器1114可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、动态随机存取存储器和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器1116可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器1114、1116的访问由存储器控制器控制。
所示示例的处理器平台1100还包括接口电路1120。接口电路1120可以通过任何类型的接口标准(例如,以太网接口、通用串行总线(USB)、接口、近场通信(NFC)接口和/或PCI Express接口)来实现。
在所示示例中,一个或多个输入设备1122连接到接口电路1120。(一个或多个)输入设备1122允许用户向处理器1112输入数据和/或命令。输入设备可以通过例如音频传感器、麦克风、照相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、等位点(isopoint)和/或语音识别系统来实现。
一个或多个输出设备1124也连接到所示示例的接口电路1120。输出设备1124可以例如由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、原地切换(in-place switching)(IPS)显示器、触摸屏等)、触觉输出设备、打印机,和/或扬声器来实现。因此,所示示例的接口电路1120通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。
所示示例的接口电路1120还包括通信设备,例如发射器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口,以便于经由网络1126与外部机器(例如,任何类型的计算设备)交换数据。通信可以经由例如以太网连接、数字用户线(DSL)连接、电话线连接、同轴电缆系统、卫星系统、现场线路无线系统、蜂窝电话系统等。
所示示例的处理器平台1100还包括用于存储软件和/或数据的一个或多个大容量存储设备1128。此类大容量存储设备1128的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光光盘驱动器、独立磁盘冗余阵列(RAID)系统以及数字多功能盘(DVD)驱动器。
图9和/或图10的机器可执行指令1132可以被存储在大容量存储设备1128中、易失性存储器1114中、非易失性存储器1116中和/或可移动非暂态计算机可读存储介质(例如,CD或DVD)上。
根据前述内容,应当理解,已经公开了示例方法、系统、装置和制品,其使得能够生成增强或细化的置信度图,以更准确地过滤相关联的深度图中的深度信息以用于改进的计算机视觉应用。本文公开的示例基于先前使用任何合适的技术生成的置信度图来生成增强置信度图。尽管用于置信度图生成的许多现有技术取决于代价量,但是本文公开的示例基于这些初始置信度图来生成增强置信度图,而不使用此类代价量。这是显著的改进,因为代价量数据通常不可用,并且由于其大小而需要大量的处理和/或存储器容量。因此,实现本文公开的示例提供了改进的置信度图,同时避免了显著的存储器和/或处理器负担。因此,所公开的方法、装置和制品提高了使用计算设备的效率。
本文公开了用于增强图像深度置信度图的示例方法、装置、系统和制品。其他示例及其组合包括以下:
示例1包括一种装置,该装置包括:梯度分析器,用于基于场景的数字图像来生成图像梯度,并且基于与数字图像相关联的深度图来生成深度梯度,深度图定义与数字图像中的像素对应的深度值;和增强置信度图分析器,用于基于图像梯度、深度梯度和深度图的初始置信度图来确定深度图的增强置信度图。
示例2包括示例1的装置,其中,增强置信度图分析器用于定义包括在增强置信度图中的第一置信度值,第一置信度值指示深度图中的深度值的第一置信度水平,初始置信度图包括指示深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足第一阈值,第一组置信度值对应于第一组深度值,第二组置信度值对应于第二组深度值,第一组深度值比第二组深度值更准确地表示场景中的表面的深度。
示例3包括示例2的装置,其中,第一组置信度值包括第一数量的置信度值,并且第二组置信度值包括第二数量的置信度值,第一数量大于第二数量。
示例4包括示例2和示例3中任一者的装置,其中,第二组置信度值将以产生与第三组第二置信度值相关联的多个孔的方式在整个初始置信度图中定位,第二组置信度值不包括第三组置信度值,增强置信度图分析器用于定义第一组置信度值中的第一置信度值与第三组置信度值中的第二置信度值相对应。
示例5包括示例2-4中任一者的装置,其中,第一组深度值对应于数字图像中的像素的第一布置,并且第二组深度值对应于数字图像中的像素的第二布置,与像素的第二布置相比,像素的第一布置更对准数字图像中表示的场景中的对象的边缘。
示例6包括示例1-5中任一者的装置,其中,增强置信度图分析器用于在不处理与深度图相关联的代价量的情况下确定增强置信度图。
示例7包括示例1-6中任一者的装置,其中,增强置信度图对应于使矩阵参数的函数减小的矩阵参数的值。
示例8包括示例7的装置,其中,函数基于初始置信度图和矩阵参数之间的差的欧几里得范数。
示例9包括示例7和示例8中任一者的装置,其中,随着矩阵参数接近初始置信度图,函数接近最小值。
示例10包括示例7-9中任一者的装置,其中,函数基于矩阵参数乘以(1)应用于图像梯度的第一阈值函数的第一输出和(2)应用于深度梯度的第二阈值函数的第二输出的欧几里得范数。
示例11包括示例10的装置,其中,第一阈值函数是单调递减阈值函数,并且第二阈值函数是单调递增阈值函数。
示例12包括示例7-11中任一者的装置,其中,随着矩阵参数的第一值减小,函数接近最小值,第一值对应于数字图像和深度图中与(1)低于第一阈值的图像梯度的输出和(2)高于第二阈值的深度梯度的输出相关联的区域。
示例13包括示例7-12中任一者的装置,其中,函数基于矩阵参数的梯度乘以应用于图像梯度的阈值函数的输出的欧几里得范数。
示例14包括示例7-13中任一者的装置,其中,随着矩阵参数中相邻值之间的不连续性与数字图像中表示的场景中的对象的边缘对准时,函数接近最小值,数字图像中的边缘由图像梯度标识。
示例15包括非暂态计算机可读介质,其包括指令,指令在被执行时使机器至少:基于场景的数字图像来生成图像梯度,基于与数字图像相关联的深度图来生成深度梯度,深度图定义与数字图像中的像素对应的深度值,以及基于图像梯度、深度梯度和深度图的初始置信度图来确定深度图的增强置信度图。
示例16包括示例15的非暂态计算机可读介质,其中,指令还使机器定义包括在增强置信度图中的第一置信度值,第一置信度值指示深度图中的深度值的第一置信度水平,初始置信度图包括指示深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足第一阈值,第一组置信度值对应于第一组深度值,第二组置信度值对应于第二组深度值,第一组深度值比第二组深度值更准确地表示场景中的表面的深度。
示例17包括示例16的非暂态计算机可读介质,其中,第一组置信度值包括第一数量的置信度值,并且第二组置信度值包括第二数量的置信度值,第一数量大于第二数量。
示例18包括示例16和示例17中任一者的非暂态计算机可读介质,其中,第二组置信度值将以产生与第三组第二置信度值相关联的多个孔的方式在整个初始置信度图中定位,第二组置信度值不包括第三组置信度值,增强置信度图分析器用于定义第一组置信度值中的第一置信度值与第三组置信度值中的第二置信度值相对应。
示例19包括示例16-18中任一者的非暂态计算机可读介质,其中,第一组深度值对应于数字图像中的像素的第一布置,并且第二组深度值对应于数字图像中的像素的第二布置,与像素的第二布置相比,像素的第一布置更对准数字图像中表示的场景中的对象的边缘。
示例20包括示例15-19中任一者的非暂态计算机可读介质,其中,指令还使机器在不处理与深度图相关联的代价量的情况下,确定增强置信度图。
示例21包括示例15-20中任一者的非暂态计算机可读介质,其中,增强置信度图对应于使矩阵参数的函数减小的矩阵参数的值。
示例22包括示例21的非暂态计算机可读介质,其中,函数基于初始置信度图和矩阵参数之间的差的欧几里得范数。
示例23包括示例21和示例22中任一者的非暂态计算机可读介质,其中,随着矩阵参数接近初始置信度图,函数接近最小值。
示例24包括示例21-23中任一者的非暂态计算机可读介质,其中,函数基于矩阵参数乘以(1)应用于图像梯度的第一阈值函数的第一输出和(2)应用于深度梯度的第二阈值函数的第二输出的欧几里得范数。
示例25包括示例24的非暂态计算机可读介质,其中,第一阈值函数是单调递减阈值函数,并且第二阈值函数是单调递增阈值函数。
示例26包括示例21-25中任一者的非暂态计算机可读介质,其中,随着矩阵参数的第一值减小,函数接近最小值,第一值对应于数字图像和深度图中与(1)低于第一阈值的图像梯度的输出和(2)高于第二阈值的深度梯度的输出相关联的区域。
示例27包括示例21-26中任一者的非暂态计算机可读介质,其中,函数基于矩阵参数的梯度乘以应用于图像梯度的阈值函数的输出的欧几里得范数。
示例28包括示例21-27中任一者的非暂态计算机可读介质,其中,随着矩阵参数中相邻值之间的不连续性与数字图像中表示的场景中的对象的边缘对准时,函数接近最小值,数字图像中的边缘由图像梯度标识。
示例29包括一种方法,该方法包括:通过利用逻辑电路执行指令,基于场景的数字图像来生成图像梯度;通过利用逻辑电路执行指令,基于与数字图像相关联的深度图来生成深度梯度,深度图定义与数字图像中的像素对应的深度值,以及通过利用逻辑电路执行指令,基于图像梯度、深度梯度和深度图的初始置信度图来确定深度图的增强置信度图。
示例30包括示例29的方法,还包括定义包括在增强置信度图中的第一置信度值,第一置信度值指示深度图中的深度值的第一置信度水平,初始置信度图包括指示深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足第一阈值,第一组置信度值对应于第一组深度值,第二组置信度值对应于第二组深度值,第一组深度值比第二组深度值更准确地表示场景中的表面的深度。
示例31包括示例30的方法,其中,第一组置信度值包括第一数量的置信度值,并且第二组置信度值包括第二数量的置信度值,第一数量大于第二数量。
示例32包括示例30和示例31中任一者的方法,其中,第二组置信度值将以产生与第三组第二置信度值相关联的多个孔的方式在整个初始置信度图中定位,第二组置信度值不包括第三组置信度值,增强置信度图分析器用于定义第一组置信度值中的第一置信度值与第三组置信度值中的第二置信度值相对应。
示例33包括示例30-32中任一者的方法,其中,第一组深度值对应于数字图像中的像素的第一布置,并且第二组深度值对应于数字图像中的像素的第二布置,与像素的第二布置相比,像素的第一布置更对准数字图像中表示的场景中的对象的边缘。
示例34包括示例29-33中任一者的方法,还包括在不处理与深度图相关联的代价量的情况下确定增强置信度图。
示例35包括示例29-34中任一者的方法,其中,增强置信度图对应于使矩阵参数的函数减小的矩阵参数的值。
示例36包括示例35的方法,其中,函数基于初始置信度图和矩阵参数之间的差的欧几里得范数。
示例37包括示例35和示例36中任一者的方法,其中,随着矩阵参数接近初始置信度图,函数接近最小值。
示例38包括示例35-37中任一者的方法,其中,函数基于矩阵参数乘以(1)应用于图像梯度的第一阈值函数的第一输出和(2)应用于深度梯度的第二阈值函数的第二输出的欧几里得范数。
示例39包括示例38的方法,其中,第一阈值函数是单调递减阈值函数,并且第二阈值函数是单调递增阈值函数。
示例40包括示例35-39中任一者的方法,其中,随着矩阵参数的第一值减小,函数接近最小值,第一值对应于数字图像和深度图中与(1)低于第一阈值的图像梯度的输出和(2)高于第二阈值的深度梯度的输出相关联的区域。
示例41包括示例35-40中任一者的方法,其中,函数基于矩阵参数的梯度乘以应用于图像梯度的阈值函数的输出的欧几里得范数。
示例42包括示例35-41中任一者的方法,其中,随着矩阵参数中相邻值之间的不连续性与数字图像中表示的场景中的对象的边缘对准时,函数接近最小值,数字图像中的边缘由图像梯度标识。
示例43包括示例29-42中任一者的方法,其中,逻辑电路是处理器。
示例44包括示例29-43中任一者的方法,其中,逻辑电路是神经网络硬件加速器。
示例45包括一种装置,该装置包括:用于生成梯度的装置,用于基于场景的数字图像来生成图像梯度,并且基于与数字图像相关联的深度图来生成深度梯度,深度图定义与数字图像中的像素对应的深度值;以及用于基于图像梯度、深度梯度和深度图的初始置信度图来生成深度图的增强置信度图的装置。
示例46包括示例45的装置,其中,用于生成增强置信度图的装置定义包括在增强置信度图中的第一置信度值,第一置信度值指示深度图中的深度值的第一置信度水平,初始置信度图包括指示深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足第一阈值,第一组置信度值对应于第一组深度值,第二组置信度值对应于第二组深度值,第一组深度值比第二组深度值更准确地表示场景中的表面的深度。
示例47包括示例46的装置,其中,第一组置信度值包括第一数量的置信度值,并且第二组置信度值包括第二数量的置信度值,第一数量大于第二数量。
示例48包括示例46和示例47中任一者的装置,其中,第二组置信度值将以产生与第三组第二置信度值相关联的多个孔的方式在整个初始置信度图中定位,第二组置信度值不包括第三组置信度值,增强置信度图分析器用于定义第一组置信度值中的第一置信度值与第三组置信度值中的第二置信度值相对应。
示例49包括示例46-48中任一者的装置,其中,第一组深度值对应于数字图像中的像素的第一布置,并且第二组深度值对应于数字图像中的像素的第二布置,与像素的第二布置相比,像素的第一布置更对准数字图像中表示的场景中的对象的边缘。
示例50包括示例45-49中任一者的装置,其中,用于生成增强置信度图的装置在不处理与深度图相关联的代价量的情况下,确定增强置信度图。
示例51包括示例45-50中任一者的装置,其中,增强置信度图对应于使矩阵参数的函数减小的矩阵参数的值。
示例52包括示例51的装置,其中,函数基于初始置信度图和矩阵参数之间的差的欧几里得范数。
示例53包括示例51和示例52中任一者的装置,其中,随着矩阵参数接近初始置信度图,函数接近最小值。
示例54包括示例51-53中任一者的装置,其中,函数基于矩阵参数乘以(1)应用于图像梯度的第一阈值函数的第一输出和(2)应用于深度梯度的第二阈值函数的第二输出的欧几里得范数。
示例55包括示例54的装置,其中,第一阈值函数是单调递减阈值函数,并且第二阈值函数是单调递增阈值函数。
示例56包括示例51-55中任一者的装置,其中,随着矩阵参数的第一值减小,函数接近最小值,第一值对应于数字图像和深度图中与(1)低于第一阈值的图像梯度的输出和(2)高于第二阈值的深度梯度的输出相关联的区域。
示例57包括示例51-56中任一者的装置,其中,函数基于矩阵参数的梯度乘以应用于图像梯度的阈值函数的输出的欧几里得范数。
示例58包括示例51-57中任一者的装置,其中,当矩阵参数中相邻值之间的不连续性与数字图像中表示的场景中的对象的边缘对准时,函数接近最小值,数字图像中的边缘由图像梯度标识。
尽管本文已经公开了某些示例方法、装置和制品,但是本专利的覆盖范围不限于此。相反,本专利涵盖了完全落入本专利权利要求范围内的所有方法、装置和制品。
所附权利要求通过引用并入具体实施方式中,其中每个权利要求本身都是本公开的单独实施例。
Claims (25)
1.一种装置,所述装置包括:
梯度分析器,用于:
基于场景的数字图像来生成图像梯度;以及
基于与所述数字图像相关联的深度图来生成深度梯度,所述深度图定义与所述数字图像中的像素相对应的深度值;以及
增强置信度图分析器,用于基于所述图像梯度、所述深度梯度和所述深度图的初始置信度图来确定所述深度图的增强置信度图。
2.根据权利要求1所述的装置,其中,所述增强置信度图分析器用于定义包括在所述增强置信度图中的第一置信度值,所述第一置信度值指示所述深度图中的深度值的第一置信度水平,所述初始置信度图包括指示所述深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足所述第一阈值,所述第一组置信度值对应于第一组深度值,所述第二组置信度值对应于第二组深度值,所述第一组深度值比所述第二组深度值更准确地表示所述场景中的表面的深度。
3.根据权利要求2所述的装置,其中,所述第一组置信度值包括第一数目的置信度值,并且所述第二组置信度值包括第二数目的置信度值,该第一数目大于该第二数目。
4.根据权利要求2所述的装置,其中,所述第二组置信度值将以产生与第三组第二置信度值相关联的多个孔的方式在整个所述初始置信度图中定位,所述第二组置信度值不包括所述第三组置信度值,所述增强置信度图分析器用于定义所述第一组置信度值中的第一置信度值与所述第三组置信度值中的第二置信度值相对应。
5.根据权利要求2所述的装置,其中,所述第一组深度值对应于所述数字图像中的像素的第一布置,并且所述第二组深度值对应于所述数字图像中的像素的第二布置,与像素的第二布置相比,像素的第一布置更对准所述数字图像中表示的所述场景中的对象的边缘。
6.根据权利要求1至5中任一项所述的装置,其中,所述增强置信度图分析器用于在不处理与所述深度图相关联的代价量的情况下,确定所述增强置信度图。
7.根据权利要求1至5中任一项所述的装置,其中,所述增强置信度图对应于使矩阵参数的函数减小的所述矩阵参数的值。
8.根据权利要求7所述的装置,其中,所述函数基于所述初始置信度图与所述矩阵参数之间的差的欧几里得范数。
9.根据权利要求7所述的装置,其中,随着所述矩阵参数接近所述初始置信度图,所述函数接近最小值。
10.根据权利要求7所述的装置,其中,所述函数基于所述矩阵参数乘以(1)应用于所述图像梯度的第一阈值函数的第一输出和(2)应用于所述深度梯度的第二阈值函数的第二输出的欧几里得范数。
11.根据权利要求10所述的装置,其中,所述第一阈值函数是单调递减阈值函数,并且所述第二阈值函数是单调递增阈值函数。
12.根据权利要求7所述的装置,其中,随着所述矩阵参数的第一值减小,所述函数接近最小值,所述第一值对应于所述数字图像和所述深度图中与(1)低于所述第一阈值的所述图像梯度的输出和(2)高于第二阈值的所述深度梯度的输出相关联的区域。
13.根据权利要求7所述的装置,其中,所述函数基于所述矩阵参数的梯度乘以应用于所述图像梯度的阈值函数的输出的欧几里得范数。
14.根据权利要求7所述的装置,其中,当所述矩阵参数中的相邻值之间的不连续性与所述数字图像中表示的所述场景中的对象的边缘对准时,所述函数接近最小值,所述数字图像中的边缘由所述图像梯度标识。
15.一种计算机可读介质,包括指令,所述指令在被执行时使机器至少:
基于场景的数字图像来生成图像梯度;
基于与所述数字图像相关联的深度图来生成深度梯度,所述深度图定义与所述数字图像中的像素相对应的深度值;以及
基于所述图像梯度、所述深度梯度以及所述深度图的初始置信度图,来确定所述深度图的增强置信度图。
16.根据权利要求15所述的计算机可读介质,其中,所述指令还使所述机器定义包括在所述增强置信度图中的第一置信度值,所述第一置信度值指示所述深度图中的深度值的第一置信度水平,所述初始置信度图包括指示所述深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足所述第一阈值,所述第一组置信度值对应于第一组深度值,所述第二组置信度值对应于第二组深度值,所述第一组深度值比所述第二组深度值更准确地表示所述场景中的表面的深度。
17.根据权利要求15或16所述的计算机可读介质,其中,所述指令还使所述机器在不处理与所述深度图相关联的代价量的情况下确定所述增强置信度图。
18.根据权利要求15或16所述的计算机可读介质,其中,所述增强置信度图对应于使矩阵参数的函数减小的所述矩阵参数的值。
19.一种方法,包括:
通过利用逻辑电路执行指令,基于场景的数字图像来生成图像梯度;
通过利用所述逻辑电路执行指令,基于与所述数字图像相关联的深度图来生成深度梯度,所述深度图定义与所述数字图像中的像素相对应的深度值;以及
通过利用所述逻辑电路执行指令,基于所述图像梯度、所述深度梯度以及所述深度图的初始置信度图来确定所述深度图的增强置信度图。
20.根据权利要求19所述的方法,还包括:定义包括在所述增强置信度图中的第一置信度值,所述第一置信度值指示所述深度图中的深度值的第一置信度水平,所述初始置信度图包括指示所述深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足所述第一阈值,所述第一组置信度值对应于第一组深度值,所述第二组置信度值对应于第二组深度值,所述第一组深度值比所述第二组深度值更准确地表示所述场景中的表面的深度。
21.根据权利要求19或20所述的方法,其中,所述逻辑电路是处理器。
22.根据权利要求19或20所述的方法,其中,所述逻辑电路是神经网络硬件加速器。
23.一种装置,包括:
用于生成梯度的装置,用于:
基于场景的数字图像来生成图像梯度;以及
基于与所述数字图像相关联的深度图来生成深度梯度,所述深度图定义与所述数字图像中的像素相对应的深度值;以及
用于基于所述图像梯度、所述深度梯度和所述深度图的初始置信度图来生成所述深度图的增强置信度图的装置。
24.根据权利要求23所述的装置,其中,用于生成所述增强置信度图的装置用于定义包括在所述增强置信度图中的第一置信度值,所述第一置信度值指示所述深度图中的深度值的第一置信度水平,所述初始置信度图包括指示所述深度图中的深度值的第二置信度水平的第二置信度值,第一组第一置信度值满足第一阈值,第二组第二置信度值满足所述第一阈值,所述第一组置信度值对应于第一组深度值,所述第二组置信度值对应于第二组深度值,所述第一组深度值比所述第二组深度值更准确地表示所述场景中的表面的深度。
25.根据权利要求23或24所述的装置,其中,用于生成所述增强置信度图的装置用于在不处理与所述深度图相关联的代价量的情况下,确定所述增强置信度图。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/912,365 | 2020-06-25 | ||
US16/912,365 US11295463B2 (en) | 2020-06-25 | 2020-06-25 | Methods, systems, articles of manufacture, and apparatus to enhance image depth confidence maps |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850859A true CN113850859A (zh) | 2021-12-28 |
Family
ID=72747734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011377086.1A Withdrawn CN113850859A (zh) | 2020-06-25 | 2020-11-30 | 用于增强图像深度置信度图的方法、系统、制品和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11295463B2 (zh) |
CN (1) | CN113850859A (zh) |
DE (1) | DE102020132238A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723967A (zh) * | 2022-03-10 | 2022-07-08 | 北京的卢深视科技有限公司 | 视差图优化方法、人脸识别方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295463B2 (en) * | 2020-06-25 | 2022-04-05 | Intel Corporation | Methods, systems, articles of manufacture, and apparatus to enhance image depth confidence maps |
US12112427B2 (en) * | 2021-08-27 | 2024-10-08 | Snap Inc. | High-definition real-time view synthesis |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8428342B2 (en) * | 2010-08-12 | 2013-04-23 | At&T Intellectual Property I, L.P. | Apparatus and method for providing three dimensional media content |
US9519972B2 (en) * | 2013-03-13 | 2016-12-13 | Kip Peli P1 Lp | Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies |
WO2015134996A1 (en) * | 2014-03-07 | 2015-09-11 | Pelican Imaging Corporation | System and methods for depth regularization and semiautomatic interactive matting using rgb-d images |
US10462445B2 (en) * | 2016-07-19 | 2019-10-29 | Fotonation Limited | Systems and methods for estimating and refining depth maps |
US10887581B2 (en) * | 2016-11-11 | 2021-01-05 | Disney Enterprises, Inc. | Object reconstruction from dense light fields via depth from gradients |
US10930054B2 (en) * | 2019-06-18 | 2021-02-23 | Intel Corporation | Method and system of robust virtual view generation between camera views |
US11295463B2 (en) * | 2020-06-25 | 2022-04-05 | Intel Corporation | Methods, systems, articles of manufacture, and apparatus to enhance image depth confidence maps |
-
2020
- 2020-06-25 US US16/912,365 patent/US11295463B2/en active Active
- 2020-11-30 CN CN202011377086.1A patent/CN113850859A/zh not_active Withdrawn
- 2020-12-03 DE DE102020132238.0A patent/DE102020132238A1/de active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723967A (zh) * | 2022-03-10 | 2022-07-08 | 北京的卢深视科技有限公司 | 视差图优化方法、人脸识别方法、装置、设备及存储介质 |
CN114723967B (zh) * | 2022-03-10 | 2023-01-31 | 合肥的卢深视科技有限公司 | 视差图优化方法、人脸识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20200327686A1 (en) | 2020-10-15 |
US11295463B2 (en) | 2022-04-05 |
DE102020132238A1 (de) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI536318B (zh) | 深度測量之品質提升 | |
CN113850859A (zh) | 用于增强图像深度置信度图的方法、系统、制品和装置 | |
CN107123142B (zh) | 位姿估计方法和装置 | |
CN110349213A (zh) | 基于深度信息的位姿确定方法、装置、介质与电子设备 | |
CA3034058C (en) | Real-time hand modeling and tracking using sphere-mesh models | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
KR20160010120A (ko) | 단항 신뢰도 및 쌍별 신뢰도 학습을 통한 스테레오 매칭 장치 및 방법 | |
CN111047634B (zh) | 场景深度的确定方法、装置、设备及存储介质 | |
WO2020125637A1 (zh) | 一种立体匹配方法、装置和电子设备 | |
Pérez-Patricio et al. | FPGA implementation of an efficient similarity-based adaptive window algorithm for real-time stereo matching | |
US20210407189A1 (en) | Information processing apparatus, information processing method, and program | |
CN115362478A (zh) | 用于标记图像之间的空间关系的强化学习模型 | |
CN111738265A (zh) | Rgb-d图像的语义分割方法、系统、介质及电子设备 | |
CN110232368A (zh) | 车道线检测方法、装置、电子设备及存储介质 | |
KR20110021500A (ko) | 이동객체의 실시간 추적과 거리 측정 방법 및 그 장치 | |
US9659372B2 (en) | Video disparity estimate space-time refinement method and codec | |
KR102074929B1 (ko) | 깊이 영상을 통한 평면 검출 방법 및 장치 그리고 비일시적 컴퓨터 판독가능 기록매체 | |
Chang et al. | Robust stereo matching with trinary cross color census and triple image-based refinements | |
CN114549927B (zh) | 特征检测网络训练、增强现虚实注册跟踪及遮挡处理方法 | |
CN114757824B (zh) | 图像拼接的方法、装置、设备以及存储介质 | |
WO2023070421A1 (en) | Methods and apparatus to perform mask-based depth enhancement for multi-view systems | |
Stefanoski et al. | Depth estimation and depth enhancement by diffusion of depth features | |
CN116416290A (zh) | 一种计算散斑结构光深度的方法、装置及电子设备 | |
KR101856257B1 (ko) | 양안 시차 영상의 보정 장치 및 그 방법 | |
Kadmin et al. | Local Stereo Matching Algorithm Using Modified Dynamic Cost Computation [J] |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211228 |