CN110349198A

CN110349198A - 立体匹配方法及相应立体匹配装置

Info

Publication number: CN110349198A
Application number: CN201910262336.8A
Authority: CN
Inventors: 郑朝钟; 王毓莹; 魏震豪; 陈正旻; 林亮均
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2018-04-02
Filing date: 2019-04-02
Publication date: 2019-10-18
Also published as: TWI719440B; TW201942871A

Abstract

本公开揭露了一种立体匹配方法及相应立体匹配装置。立体匹配方法包括接收场景的左图像的第一数据和场景的右图像的第二数据；以及执行左图像和右图像的立体匹配以生成场景的深度图，其中，图案化的红外光投射到场景上以点亮场景，以及其中图案化的红外光满足一个或多个特征要求。本发明的立体匹配方法及相应立体匹配装置可以降低成本。

Description

立体匹配方法及相应立体匹配装置

【交叉引用】

本公开要求分别于2018年4月2日提交的美国专利申请号62/651,330和 2019年3月20日提交的美国专利申请16/359,699的优先权，其全部内容也一并引用于此。

【技术领域】

本公开一般涉及计算机立体视觉，并且更具体地，涉及用于立体匹配(stereomatch)的红外(IR)图案特征。

【背景技术】

除非本文另有说明，否则本部分中描述的方法不是后面列出的权利要求范围的现有技术，并且不包括在本部分中作为现有技术。

目前有许多用于范围感测和深度估计的技术以实现计算机立体视觉。例如，一些现有技术包括结构光、被动立体匹配(passive stereo)、主动立体匹配(active stereo)和飞行时间(time-of-flight)。但是，没有一种技术可以结合其中的一些技术。此外，在使用红外(IR)投射器和IR相机进行深度感测的应用中，使用的组件通常很昂贵。期望通过使用现成的和相对便宜的组件来提供允许具有立体匹配的计算机立体视觉的解决方案。

【发明内容】

根据本发明的第一方面，揭露了一种立体匹配方法，包括接收场景的左图像的第一数据和该场景的右图像的第二数据；以及执行该左图像和该右图像的立体匹配以生成该场景的深度图，其中，图案化的红外光投射到该场景上以点亮该场景，以及其中该图案化的红外光满足一个或多个特征要求。

根据本发明的第二方面，揭露了一种立体匹配方法，包括控制红外投影仪投射图案化的红外光；接收来自第一摄像机的场景的左图像的第一数据和来自第二摄像机的该场景的右图像的第二数据；以及执行该左图像和该右图像的主动立体匹配，以生成该场景的深度图，其中，该图案化的红外光满足多个特征要求中的一个或多个，以及其中，该多个特征要求包括：该图案化的红外光的图案包括多个像素，其密度满足密度要求，使得红外像素的数量除以该左图像或该右图像内的预定义窗口中的像素总数大于或等于第一阈值；该图案化的红外光包括重复图案的多个实例，使得沿着该立体匹配的搜索方向的该重复图案的重复周期大于该立体匹配的操作范围；以及该重复图案的重复方向相对于该立体匹配的该搜索方向旋转绝对值。

根据本发明的第三方面，揭露了一种立体匹配装置，包括：控制电路，执行包含以下操作的操作：控制红外投影仪投射图案化的红外光；接收来自第一摄像机的场景的左图像的第一数据和来自第二摄像机的该场景的右图像的第二数据；以及执行该左图像和该右图像的主动立体匹配，以生成该场景的深度图，其中，该图案化的红外光满足一个或多个特征要求。

在阅读了在各种图表和图形中所图示的优选实施例的下述详细说明书之后，本发明的这些和其他目的对本领域普通技术人员来说无疑将变得明显。

【附图说明】

图1示出了根据本公开实现的示例场景。

图2示出了根据本公开的实现的主动立体匹配的示例场景。

图3示出了根据本公开的实现的示例场景。

图4示出了根据本公开的实现的示例场景。

图5示出了根据本公开的实现的示例场景。

图6示出了根据本公开的实现的深度融合的示例场景。

图7示出了根据本公开的实现的示例融合方法。

图8示出了根据本公开的实现的示例融合方法。

图9示出了根据本公开的实现的示例装置。

图10示出了根据本公开的实现的示例过程。

图11示出了根据本公开的实现的示例过程。

图12示出了根据本公开的实现的示例过程。

【具体实施方式】

贯穿下述的说明书和权利要求书而使用了某些术语，其涉及特定的元件。如所属领域具有通常知识者将理解的那样，电子装备制造商可能透过不同的名称提及元件。本公开并不打算在那些名称不同但不是在功能上不同的元件之间进行区分。在下述的说明书中并且在权利要求书中，术语"包含"和"包括"以开放的方式进行使用，并且因此应被解释成意味着“包括，但不限于……”。同样，术语"结合"旨在意味着或者间接的或者直接的电连接。因此，如果一个装置结合至另一装置，则此连接可透过直接的电连接，或者透过藉由其他装置和连接的间接的电连接。

在用于范围感测和深度估计以实现计算机立体视觉的各种技术中，例如结构光(structured-light)、主动双镜头立体匹配(也称为主动立体匹配)(Active Stereo)和飞行时间(TOF)，电磁波(例如，激光或结构光)被发射或者以其他方式投射到场景，然后可以通过利用投射器-相机对应关系和/或相机-相机对应关系来执行立体匹配。每种深度估计技术提供其各自的优点。在根据本公开的各种提出的方案下，可以通过所提出的融合方法来提供准确和全范围的深度信息。更具体地，可以利用传感器(例如，相机)和投射器的不同设备配置，使得不同深度估计技术的优点可以融合在一起。

图1示出了根据本公开实现的示例场景100。场景100示出了传感器和投射器的许多不同设备配置。在场景100的部分(A)中，第一示例设备配置可以涉及两个IR相机、一个IR投射器和一个红绿蓝(RGB)相机。在场景100的部分(B)中，第二示例设备配置可以涉及一个IR相机、一个IR投射器和一个包含能够接收纯IR光的像素的RGB相机(这里表示为“RGB-IR相机”)。在场景 100的部分(C)中，第三示例设备配置可以涉及一个RGB相机、一个IR投射器和一个RGB-IR相机。在场景100的部分(D)中，第四设备配置可以涉及两个RGB相机、一个IR投射器(或TOF投射器)和一个IR相机(或TOF相机)。

在每个示例性设备配置中，两个传感器/相机之间的物理距离表示为基线。在每个示例设备配置中，用作辅助RGB相机的RGB相机可以提供要生成的深度图的颜色信息。可能需要校准一对相机以及相机和投射器。对于一对投射器和相机，可以应用通常具有良好精度的结构光或TOF方法。对于一对相机，立体算法(通常擅长完整性)可以应用于估计深度。在所提出的方案下，这些结果可以融合在一起以生成精确的全范围深度或深度图。

值得注意的是，在场景100中的设备配置及其任何变型中，每个RGB相机和RGB-IR相机可以由以下之一代替：单色相机(monochrome camera)(这里表示为“灰阶相机(monocamera)”))，一种RGB相机，其具有相对于可见光和 IR光的双带带通滤波(DB-DualBand)能力(此处表示为“RGB-DB相机”)，一种包含能够接收纯IR光的像素的单色相机(此处表示为“灰阶IR(mono-IR)像机”) 和具有关于可见光和IR光的双带带通滤波能力的灰阶相机(这里表示为“灰阶 DB摄像机“)。此外，IR相机、RGB相机、RGB-IR相机、RGB-DB相机、灰阶相机、灰阶IR相机和灰阶DB相机中的每一个可以互换地称为电磁(EM)波传感器，因为每个这样的相机能够感测可见和/或不可见(例如，IR)光谱中的EM 波。

主动立体匹配的IR特征

在根据本公开的提出的方案下，由IR投射器发射或以其他方式投射的结构化IR光(structured IR light)(也称为图案化IR光(patterned IR light)))可满足一个或多个特征要求(characteristic requirements)。也就是说，图案化IR光的一个或多个特征可以通过利用相对便宜的组件(例如两个相机和一个IR投射器) 用于主动立体匹配。因此，可以通过主动立体匹配在计算机立体视觉中实现成本节省，而无需借助相对昂贵的组件。

图2示出了根据本公开的实现的主动立体匹配的示例场景200。在场景200 中，可以使用两个相机和一个IR投射器来执行主动立体匹配。两个相机中的每一个可以是IR相机、RGB-IR相机、RGB-DB相机、灰阶IR相机或灰阶DB相机。

在操作中，IR投射器可以朝向场景发射或以其他方式投射图案化IR光，并且两个相机中的每一个可以捕获场景的相应图像(例如，捕获场景的左图像的左相机和捕获场景的右图像的右相机)。如图2所示，可以对左图像中的指定或预定义窗口内的给定像素或像素块以及右图像中的指定或预定义窗口内的对应像素或像素块执行主动立体匹配。主动立体匹配的结果可以用于生成深度图。

图3示出了根据本公开的实现的示例场景300。参考图3提供了关于用于主动立体匹配的IR特征的所提出的方案的以下描述。

在根据本公开的提出的方案下，对图案化IR光中的IR图案的形状可以没有限制或约束。也就是说，IR图案可以由多个IR像素形成,形成为(例如但不限于)一个或多个点、一个或多个线、一个或多个圆、一个或多个椭圆、一个或多个多边形、一个或多个星形或其组合。IR图案可能因设备而异(例如，从一个 IR投射器到另一个IR投射器)。换句话说，每个设备可以与其他设备不同。在场景300的部分(A)中示出了不同IR模式的示例。

在根据本公开的提出的方案下，图案化IR光的IR图案的密度可以足够高，使得每个像素块可以是可区分的。密度可以表示为(像素/单位面积的数量或出现(occurrence ofpixels/unit area))，并且单位面积可以表示为(宽度x高度像素²)。参考场景300的部分(B)，所关注的IR图案的密度可以是相对于捕获的具有多个IR图案的IR图像内的指定或预定窗口的密度(例如，来自IR相机、 RGB-IR相机、RGB-DB相机、灰阶IR相机或灰阶DB相机)。场景300的部分 (B)还示出了用于主动立体匹配的搜索方向。

因此，在所提出的方案下，图案化IR光的图案可以包括具有满足密度要求的密度的多个像素，如下:(IR像素的数量/捕获的IR图像内的预定义窗口中的像素总数))≥第一阈值。这里，第一阈值(或阈值1)可用于约束IR图像的给定窗口中的IR图案的密度。此外，阈值1可以由输出深度图的品质确定。阈值1 的值可以是例如0.2，单位为1/像素(a unitof1/pixel)。

在根据本公开的提出的方案下，在给定图案被重复多次的情况下(这里表示为“重复图案(repeated pattern)”)，沿着主动立体匹配的搜索方向的重复图案的重复周期可以大于主动立体匹配的操作范围。操作范围可以是，例如但不限于，等同于场景300的部分(B)中所示的指定窗口的预定义窗口。出于说明性目的而非限制，场景300的部分(C)示出了重复图案的重复周期小于操作范围的示例。

在根据本公开的提出的方案下，沿着立体匹配的搜索方向的搜索范围内的模糊度可能相对较低。可以使用定義的成本函數(cost function)來計算每個像素或像素塊的模糊度。並且最小成本值(cost value)相對於第二最小成本值的值是模糊度值。模糊度值應低於閾值(例如0.8)。

可以使用定义的成本函数来计算每个像素或像素块的模糊度。图4示出了根据本公开的实现的示例场景400。在场景400中，沿着立体匹配的搜索方向的搜索范围内的每个像素或每个像素块的模糊度值小于或等于第二阈值(或阈值2)，该阈值例如可以是0.8。例如，在执行左图像和右图像的立体匹配时，包括使用左视角的左图像和右视角的右图像之间的差的成本值(或匹配成本值)的成本函数来计算模糊度值。成本函数可以用数学表达为：

这里，可以表示左图像中的块(patch)内的当前像素的亮度(或颜色响应)(表示为“P_L”)，并且可以表示在立体匹配期间右图像中的参考块内的当前像素的亮度(或颜色响应)(表示为“P_R”)。在所提出的方案下，在使用成本函数计算模糊度值时，可以通过将来自成本函数的最小成本值除以来自成本函数的第二最小成本值来计算模糊度值。

在根据本公开的提出的方案下，可以利用IR图案的倾斜(tilt)或旋转(rotation)角度来减小沿着立体匹配方向的重复图案的可重复性，以遵循低模糊度的约束。倾斜或旋转角的绝对值可以大于0°且小于90°。图5示出了根据本公开的实现的示例场景500。在场景500的部分(A)中，重复图案的重复方向与立体匹配的搜索方向一致或平行。在场景500的部分(B)中，重复图案的重复方向相对于立体匹配的搜索方向旋转。在场景500的部分(C)中，倾斜/旋转角的绝对值可以大于0°且小于90°。

深度融合(depth fusion)

在根据本公开的提出的方案下，可以通过融合来自诸如结构光、被动立体匹配(passive stereo)、主动立体匹配(active stereo)和TOF的不同深度估计技术的深度信息来获得准确和全范围深度信息。图6示出了根据本公开的实现的深度融合的示例场景600。场景600可以涉及EM波投射器和两个传感器。EM 波投射器可用于发射或以其他方式投射图案。EM波投射器可以是例如IR投射器或TOF投射器(例如，光达(light detection andranging，简写为LiDAR)投射器)。两个传感器可以是一对相机或一个相机加一个TOF传感器。作为相机，每个传感器可以是RGB相机、RGB-IR相机、RGB-DB相机、灰阶相机，灰阶 IR相机或灰阶DB相机。

在操作中，EM波投射器可以发射或以其他方式投射图案，并且可以通过结构光方法或TOF方法利用来自两个传感器的第一相机的捕获图案来获得深度图和置信图(confidence map)。另外，可以通过立体方法(例如，主动立体和/或被动立体)利用来自第一相机的捕获图案和来自两个传感器的第二相机的捕获图案来获得深度图和置信图。然后，来自结构光/TOF方法的深度图和置信图以及来自立体方法的深度图和置信图可以通过深度融合融合在一起以生成融合深度图(fused depth map)。在场景600中，可以通过利用下面描述的融合方法700 和融合方法800来执行深度融合。

图7示出了根据本公开的实现的示例融合方法700。在融合方法700中，可以首先重新映射来自方法之一(例如，结构光/TOF方法)的深度图，然后通过考虑结构光/TOF方法的置信图以及立体方法的置信图来与来自其他方法(例如，立体方法)的深度图融合，以提供融合结果。然后，可以对融合结果执行后处理以生成融合深度图。由于不同方法之间的基线不同，因此需要重新映射来自其中一种方法深度图。

在融合方法700中，给定方法的置信图，置信度(初始峰值比率(peak ratio ))可以表示如下：

C_PKRN＝第二最小成本值/最小成本值

这里，可以通过算法生成成本值，例如获取两个捕获图像之间的绝对差值(absolute difference)，其可以表示如下：

此处，I表示图像强度，P_L表示左图像中的像素(或像素块)，P_R表示右图像中的像素(或像素块)。对于后处理，融合方法中的后处理可能涉及边缘感知滤波和分割。此外，深度融合可表示如下：

D(p)＝argmax_d(Conf(stereo(p)),Conf(structured light(p)))

这里，p可以表示给定深度图中的每个像素，并且Conf()可以表示置信图。

图8示出了根据本公开的实现的示例融合方法800。融合方法800可以类似于具有一些差异的融合方法700。例如，在融合方法800中，可以在成本量(cost volume)阶段估计融合。由结构光方法和立体方法中的每一个生成的成本体积可以被组合和优化以获得更加正确的深度图。在融合方法800中，深度融合可以表示如下：

Cost(p,d)＝weight_Conf(stereo)x cost_stereo(p,d)+weight_{Conf(structured} _light)x cost_{structured light(p,d)}

在所提出的方案下，融合方法700和融合方法800可以独立地用于不同的情况和应用。对于具有两个传感器和一个投射器的一般实现，在覆盖随意一个组件时深度品质可能显著不同，这对于模糊性是重要的。

图9示出了根据本公开的实现的示例装置900。装置900可以执行各种功能以实现本文所述的与视觉深度感测有关的过程、方案、技术、处理和方法，其具有精确和全范围深度融合和感测以及用于主动立体匹配的IR图案特征，包括以上关于描述的各种过程、场景、方案、解决方法、概念和技术以及下面描述的过程1000、1100和1200。

装置900可以是电子设备、便携式或移动设备、可穿戴设备、无线通信设备或计算设备的一部分。例如，装置900可以在智能手机、智能手表、个人数字助理、数码相机或诸如平板电脑、膝上型计算机或笔记本电脑的计算设备中实现。此外，装置900还可以是机器类型装置的一部分，其可以是诸如非移动或固定装置、家庭装置、有线通信装置或计算装置的IoT或NB-IoT装置。例如，装置900可以在智能恒温器、智能冰箱、智能门锁、无线扬声器或家庭控制中心中实现。或者，装置900可以以一个或多个集体电路(IC)晶片的形式实现，例如但不限于，一个或多个单核处理器、一个或多个多核处理器、一个或多个减少的指令集计算(reduced-instruction-set-computing，简写为RISC)处理器或一个或多个复杂指令集计算(CISC)处理器。

装置900可以包括图9中所示的那些组件中的至少一些，例如控制电路910、多个传感器920(1)～920(N)和至少一个EM波投射器930，其中N是大于1 的正整数。装置900还可以包括一个或多个与本公开的所提出的方案无关的其他组件(例如，内部电源、显示设备和/或用户界面设备)，因此，图9中未示出设备900的这种组件，并且为了简单和简洁起见，下面也没有对其进行描述。

在一个方面，控制电路910可以以包括各种电子部件的电子电路的形式实现。可选地，控制电路910可以以一个或多个单核处理器、一个或多个多核处理器、一个或多个RISC处理器或一个或多个CISC处理器的形式实现。也就是说，即使这里使用单数术语“处理器”来指代控制电路910，控制电路910在一些实现中可以包括多个处理器，并且在根据本公开的其他实现中可以包括单个处理器。在另一方面，装置910可以以具有电子组件的硬件(以及可选地，固件) 的形式实现，所述电子组件包括例如但不限于一个或多个晶体管、一个或多个二极管、一个或多个电容器、一个或多个电阻器、一个或多个电感器、一个或多个忆阻器和/或一个或多个变容二极管，其被配置和布置成实现根据本公开的特定目的。换句话说，在至少一些实施方式中，控制电路910是专用机器，其专门设计、布置和配置成执行与视觉深度感测有关的特定任务，具有精确和全范围深度融合和感测以及IR图案特征，用于根据本公开的各种实施方式的主动立体匹配。在一些实施方式中，控制电路910可以包括具有硬件组件的电子电路，所述硬件组件实现根据本公开的各种提出的方案中的一个或多个。或者，除了硬件组件之外，控制电路910还可以利用除硬件组件之外的软件代码和/或指令来实现具有精确和全范围深度融合和感测的视觉深度感测以及IR模式特征用于依据本公开的各种实施方式的主动立体匹配。

多个传感器920(1)～920(N)中的每一个可以是相机或TOF传感器。在相机的背景下，相应的传感器可以是IR相机、RGB相机、灰阶相机、RGB-IR 相机、灰阶IR相机、RGB-BD相机或灰阶BD相机。EM波投射器可以是IR 投射器或TOF投射器。

在根据本公开的各种提出的方案下，关于具有精确和全范围深度融合和感测的视觉深度感测，控制电路910可以从多个传感器920(1)～920(N)接收类型不同的多种传感器信号。另外，控制电路910可基于多个传感器信号产生场景的第一深度相关信息和场景的第二深度相关信息。此外，控制电路910可以融合第一深度相关信息和第二深度相关信息以生成场景的融合深度图。

在一些实施方案中，在从多个传感器920(1)～920(N)接收类型不同的多个传感器信号时，控制电路910可从以下中的两个或两个以上接收多个传感器信号：RGB相机、灰阶相机、IR相机、RGB-IR相机、灰阶红外相机、RGB-DB 相机、灰阶DB相机和TOF传感器。

在一些实现中，在生成第一深度相关信息和第二深度相关信息时，控制电路910可以执行多个操作。例如，控制电路910可以基于第一类型的多个传感器信号920(1)～920(N)中的至少第一传感器信号生成第一深度图和第一置信图。另外，控制电路910可以基于与第一类型不同的第二类型的多个传感器信号920(1)～920(N)中的至少第二传感器信号生成第二深度图和第二置信图。

在一些实施方案中，在产生第一深度图和第一置信图中，控制电路910可使用结构光方法或TOF方法产生第一深度图和第一置信图。在一些实施方案中，在产生第二深度图和第二置信图中，控制电路910可使用主动立体方法或被动立体方法产生第二深度图和第二置信图。

在一些实施方案中，在融合第一深度相关信息和第二深度相关信息以产生融合深度图时，控制电路910可执行若干操作。例如，控制电路910可以相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图。此外，控制电路910可以融合重新映射的第一深度图、第二深度图、第一置信图和第二置信图以提供融合结果。此外，控制电路910可以对融合结果执行后处理以生成融合深度图。

可替换地，在融合第一深度相关信息和第二深度相关信息以生成融合深度图时，控制电路910可以执行其他操作。例如，控制电路910可以相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图。另外，控制电路910 可以估计与生成第一深度图和第一置信图相关联的成本量。此外，控制电路910 可以融合重新映射的第一深度图、第二深度图、第一置信图、第二置信图和成本量以提供融合结果。此外，控制电路910可以对融合结果执行后处理以生成融合深度图。另外，在生成第一深度图和第一置信图时，控制电路910可以使用结构光方法或TOF方法生成第一深度图和第一置信图。

在一些实施方案中，在估计成本量时，控制电路910可通过计算与立体方法相关联的加权成本与与结构光方法相关联的加权成本的组合来估计成本量。

在一些实施方案中，在融合第一深度相关信息和第二深度相关信息以产生融合深度图时，控制电路910可执行若干操作。例如，控制电路910可以使用第一融合方法或第二融合方法确定是否融合第一深度相关信息和第二深度相关信息。然后，基于确定的结果，控制电路910可以使用第一融合方法或第二融合方法融合第一深度相关信息和第二深度相关信息。第一融合方法可以包括： (a1)相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图； (b1)融合重新映射的第一深度图、第二深度图、第一置信图和第二置信图以提供融合结果；(c1)对融合结果进行后处理，生成融合深度图。第二融合方法可以包括：(a2)相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图；(b2)估计与生成第一深度图和第一置信图相关联的成本量；(c2)融合重新映射的第一深度图、第二深度图、第一置信图、第二置信图和成本量以提供融合结果；(d2)对融合结果进行后处理，生成融合深度图。在一些实施方案中，在第二融合方法中，可使用结构光方法或TOF方法产生第一深度图和第一置信图。

在一些实施方案中，控制电路910可控制EM波投射器930以朝向场景发射电磁波。EM波投射器930可以包括IR投射器或TOF投射器。

在一些实施方式中，控制电路910可以校准多个传感器920(1)～920(N) 中的一对传感器或多个传感器920(1)～920(N)中的一个和EM波投射器930。

在根据本公开的提出的方案下，关于用于主动立体匹配的IR图案特征，控制电路910可以控制EM波投射器920(例如，IR投射器)以投射图案化IR光。此外，控制电路910可以从第一相机(例如，传感器920(1))接收场景的左图像的第一数据，并且从第二相机(例如，传感器920(2))接收场景的右图像的第二数据。此外，控制电路910可以执行左图像和右图像的立体匹配(例如，主动立体匹配)以生成场景的深度图。图案化IR光可以满足一个或多个特征要求。

在一些实施方案中，图案化IR光的图案可包含多个IR像素，形成一个或一个以上点、一条或一条以上线、一个或一个以上圆、一个或一个以上椭圆、一个或一个以上多边形、一颗或多颗星形的形状或其组合。

在一些实施方式中，图案化IR光的图案可以包括多个像素，其密度满足密度要求，使得IR像素的数量除以左图像或右图像内的预定义窗口中的像素总数大于或等于第一阈值。

在一些实施方案中，第一阈值可为0.2。

在一些实施方案中，图案化IR光可包含重复图案的多个实例。在这种情况下，沿着立体匹配的搜索方向重复图案的重复周期可以大于立体匹配的操作范围。

在一些实施方案中，重复图案的重复方向可相对于立体匹配的搜索方向倾斜大于0°且小于90°的角度。

在一些实施方案中，沿立体匹配方向的搜索范围内的每一像素或每一像素块的模糊度值可小于或等于第二阈值。

在一些实施方案中，在执行左图像和右图像的立体匹配中，控制电路910 可使用左图像与右图像之间的差的成本值的成本函数来计算模糊度值。在一些实现中，成本函数可以在数学上表达如下：

这里，可以表示左图像中的块内的当前像素的亮度，并且可以表示在立体匹配期间右图像中的参考块内的当前像素的亮度。

在一些实施方案中，在使用成本函数计算模糊度值时，控制电路910可通过将来自成本函数的最小成本值除以来自成本函数的第二最小成本值来计算模糊度值。

在一些实施方案中，第二阈值可为0.8。

在一些实施方案中，在执行左图像和右图像的立体匹配中，控制电路910 可执行左图像和右图像的主动立体匹配。

在根据本公开的另一个提出的方案下，关于用于主动立体匹配的IR图案特征，控制电路910可以控制EM波投射器930(例如，IR投射器)以投射图案化IR光。另外，控制电路910可以从第一相机(例如，传感器920(1))接收场景的左图像的第一数据，并且从第二相机(例如，传感器920(2))接收场景的右图像的第二数据。此外，控制电路910可以执行左图像和右图像的主动立体匹配，以生成场景的深度图。图案化IR光可以满足多个特征要求中的一个或多个。在一些实施方式中，多个特征要求可以包括：(1)图案化IR光的图案，其包括多个像素，其密度满足密度要求，使得IR像素的数量除以左图像或右图像内的预定义窗口中的像素总数大于或等于第一阈值；(2)图案化IR光，包括多个重复图案的实例，使得沿着立体匹配的搜索方向的重复图案的重复周期大于立体匹配的操作范围；(3)重复图案的重复方向相对于立体匹配的搜索方向旋转绝对值大于0°且小于90°的角度。

这里，可以表示左图像中的块内的当前像素的亮度，并且可以表示在立体匹配期间右图像中的参考块内的当前像素的亮度。此外，第一阈值可以是0.2，第二阈值可以是0.8。

图10示出了根据本公开的实现的示例过程1000。过程1000(无论是部分还是完全)可以是关于根据本公开的具有精确和全范围深度融合和感测的视觉深度感测的各种过程、场景、构想、解决方案、概念和技术或其组合的示例实现。过程1000可以表示装置900的特征的实现的一个方面。过程1000可以包括一个或多个操作、动作或功能，如块1010、1020和1030中的一个或多个所示。尽管示出为离散块，但是根据期望的实现，可以将过程1000的各种块划分为附加块、组合成更少的块或者消除。此外，过程1000的块可以按照图10中所示的顺序执行，或者可以以不同的顺序执行。此外，过程1000的一个或多个块可以重复一次或多次。过程1000可以由装置900或其任何变型来实现。仅出于说明性目的而非限制，以下在装置900的上下文中描述过程1000。过程1000 可以在块1010处开始。

在1010处，过程1000可以涉及控制电路910从多个传感器920(1)～920 (N)接收多种类型不同的传感器信号。过程1000可以从1010进行到1020。

在1020处，过程1000可以涉及控制电路910基于多个传感器信号生成场景的第一深度相关信息和场景的第二深度相关信息。过程1000可以从1020进行到1030。

在1030处，过程1000可以涉及控制电路910融合第一深度相关信息和第二深度相关信息以生成场景的融合深度图。

在一些实施方式中，在从多个传感器920(1)～920(N)接收不同类型的多个传感器信号时，过程1000可以涉及控制电路910从如下的两个或更多个传感器接收多个传感器信号：RGB相机、灰阶相机、IR相机、RGB-IR相机、灰阶IR相机、RGB-DB相机、灰阶DB相机和TOF传感器。

在一些实现中，在生成第一深度相关信息和第二深度相关信息时，过程1000 可以涉及控制电路910执行多个操作。例如，过程1000可以涉及控制电路910 基于第一类型的多个传感器信号920(1)～920(N)中的至少第一传感器信号生成第一深度图和第一置信图。另外，过程1000可以涉及控制电路910基于与第一类型不同的第二类型的多个传感器信号920(1)～920(N)中的至少第二传感器信号生成第二深度图和第二置信图。

在一些实施方案中，在产生第一深度图和第一置信图中，过程1000可涉及控制电路910使用结构光方法或TOF方法产生第一深度图和第一置信图。在一些实施方案中，在产生第二深度图和第二置信图中，过程1000可涉及控制电路 910使用主动立体方法或被动立体方法产生第二深度图和第二置信图。

在一些实施方案中，在融合第一深度相关信息和第二深度相关信息以产生融合深度图时，过程1000可涉及控制电路910执行多个操作。例如，过程1000 可以涉及控制电路910相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图。此外，过程1000可以涉及控制电路910融合重新映射的第一深度图、第二深度图、第一置信图和第二置信图以提供融合结果。此外，过程1000 可以涉及控制电路910对融合结果执行后处理以生成融合深度图。

或者，在融合第一深度相关信息和第二深度相关信息以生成融合深度图时，过程1000可以涉及控制电路910执行其他操作。例如，过程1000可以涉及控制电路910相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图。另外，过程1000可以涉及控制电路910估计与生成第一深度图和第一置信图相关联的成本量。此外，过程1000可以涉及控制电路910融合重新映射的第一深度图、第二深度图、第一置信图、第二置信图和成本量以提供融合结果。此外，过程1000可以涉及控制电路910对融合结果执行后处理以生成融合深度图。另外，在生成第一深度图和第一置信图时，过程1000可以涉及控制电路910 使用结构光方法或TOF方法生成第一深度图和第一置信图。

在一些实现中，在估计成本量时，过程1000可以涉及控制电路910通过计算与立体方法相关联的加权成本以及与结构光方法相关联的加权成本的组合来估计成本量。

在一些实施方案中，在融合第一深度相关信息和第二深度相关信息以产生融合深度图时，过程1000可涉及控制电路910执行多个操作。例如，过程1000 可以涉及控制电路910使用第一融合方法或第二融合方法确定是否融合第一深度相关信息和第二深度相关信息。然后，基于确定的结果，过程1000可以涉及控制电路910使用第一融合方法或第二融合方法融合第一深度相关信息和第二深度相关信息。第一融合方法可以包括：(a1)相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图；(b1)融合重新映射的第一深度图、第二深度图、第一置信图和第二置信图以提供融合结果；(c1)对融合结果进行后处理，生成融合深度图。第二融合方法可以包括：(a2)相对于第二深度图重新映射第一深度图以生成重新映射的第一深度图；(b2)估计与生成第一深度图和第一置信图相关联的成本量；(c2)融合重新映射的第一深度图、第二深度图、第一置信图、第二置信图和成本量以提供融合结果；(d2)对融合结果进行后处理，生成融合深度图。在一些实施方案中，在第二融合方法中，可使用结构光方法或TOF方法产生第一深度图和第一置信图。

在一些实施方案中，过程1000可进一步涉及控制电路910控制电磁波投射器(electromagnetic wave projector)以朝向场景发射电磁波。电磁波投射器可包括 IR投射器或TOF投射器。

在一些实施方式中，过程1000还可以包括控制电路910校准多个传感器中的一对传感器或多个传感器中的一个传感器加上电磁波投射器。

图11示出了根据本公开的实现的示例过程1100。过程1100可以是关于根据本公开的主动立体匹配的IR图案特征的部分或完全的各种过程、场景、构想、解决方案、概念和技术或其组合的示例实现。过程1100可以表示装置900的特征的实现的一个方面。过程1100可以包括一个或多个操作、动作或功能，如块 1110、1120和1130中的一个或多个所示。尽管示出为离散块，但是根据期望的实现，可以将过程1100的各种块划分为附加块、组合成更少的块或者消除。此外，过程1100的块可以按照图11中所示的顺序执行，或者可以以不同的顺序执行。此外，过程1100的一个或多个块可以重复一次或多次。过程1100可以由装置900或其任何变型来实现。仅出于说明性目的而非限制，以下在装置900 的上下文中描述过程1100。过程1100可以在块1110处开始。

在1110处，过程1100可以涉及控制电路910控制电磁波投射器930(例如， IR投射器)以投射图案化IR光。过程1100可以从1110进行到1120。

在1120处，过程1100可以涉及控制电路910从第一相机(例如，传感器 920(1))接收场景的左图像的第一数据，并且从第二相机(例如，传感器920 (2))接收场景的右图像的第二数据。过程1100可以从1120进行到1130。

在1130处，过程1100可以涉及控制电路910执行左图像和右图像的立体匹配(例如，主动立体匹配)以生成场景的深度图。图案化IR光可以满足一个或多个特征要求。

在一些实施方案中，第一阈值可为0.2。

在一些实施方案中，重复图案的重复方向可相对于立体匹配的搜索方向旋转大于绝对值0°且小于90°的角度。

在一些实施方案中，在使用成本函数计算模糊度值时，过程1100可涉及控制电路910通过将来自成本函数的最小成本值除以来自成本函数的第二最小成本值来计算模糊度值。

在一些实施方案中，第二阈值可为0.8。

在一些实施方案中，在执行左图像和右图像的立体匹配中，过程1100可涉及控制电路910执行左图像和右图像的主动立体匹配。

图12示出了根据本公开的实现的示例过程1200。过程1200可以是关于根据本公开的主动立体匹配的IR图案特征的部分或完全的各种过程、场景、构想、解决方案、概念和技术或其组合的示例实现。过程1200可以表示装置900的特征的实现的一个方面。过程1200可以包括一个或多个操作、动作或功能，如块 1210、1220和1230中的一个或多个所示。尽管示出为离散块，但是根据期望的实现，可以将过程1200的各种块划分为附加块、组合成更少的块或者消除。此外，过程1200的块可以按照图12中所示的顺序执行，或者可以以不同的顺序执行。此外，过程1200的一个或多个块可以重复一次或多次。过程1200可以由装置900或其任何变型来实现。仅出于说明性目的而非限制，以下在装置900 的上下文中描述过程1200。过程1200可以在块1210处开始。

在1210处，过程1200可以涉及控制电路910控制电磁波投射器930(例如， IR投射器)以投射图案化IR光。过程1200可以从1210进行到1220。

在1220处，过程1200可以涉及控制电路910从第一相机(例如，传感器 920(1))接收场景的左图像的第一数据，并且从第二相机(例如，传感器920 (2))接收场景的右图像的第二数据。过程1200可以从1220进行到1230。

在1230处，过程1200可以涉及控制电路910执行左图像和右图像的主动立体匹配以生成场景的深度图。图案化IR光可以满足多个特征要求中的一个或多个。

在一些实施方式中，所述多个特征要求可以包括：(1)图案化IR光的图案包括多个像素，其密度满足密度要求，使得IR像素的数量除以左图像或右图像内的预定义窗口中的像素总数大于或等于第一阈值；(2)图案化IR光包含重复图案的多个实例，使得沿着立体匹配的搜索方向重复图案的重复周期大于立体匹配的操作范围；(3)重复图案的重复方向相对于立体匹配的搜索方向旋转绝对值大于0°且小于90°的角度。

在一些实施方案中，在执行左图像和右图像的立体匹配中，过程1200可涉及控制电路910使用左图像与右图像之间的差的成本值的成本函数来计算模糊度值。在一些实现中，成本函数可以在数学上表达如下：

在一些实施方案中，在使用成本函数计算模糊度值时，过程1200可涉及控制电路910通过将来自成本函数的最小成本值除以来自成本函数的第二最小成本值来计算模糊度值。

文中描述的主题有时示出了包含在其它不同部件内的或与其它不同部件连接的不同部件。应当理解：这样描绘的架构仅仅是示例性的，并且，实际上可以实施实现相同功能的许多其它架构。在概念意义上，实现相同功能的部件的任何布置是有效地“相关联的”，以使得实现期望的功能。因此，文中被组合以获得特定功能的任意两个部件可以被视为彼此“相关联的”，以实现期望的功能，而不管架构或中间部件如何。类似地，这样相关联的任意两个部件还可以被视为彼此“可操作地连接的”或“可操作地耦接的”，以实现期望的功能，并且，能够这样相关联的任意两个部件还可以被视为彼此“操作上可耦接的”，以实现期望的功能。“操作上可耦接的”的具体示例包含但不限于：物理地可联结和/或物理地相互、作用的部件、和/或无线地可相互作用和/或无线地相互作用的部件、和/或逻辑地相互作用的和/或逻辑地可相互作用的部件。

此外，关于文中基本上任何复数和/或单数术语的使用，只要对于上下文和/ 或应用是合适的，本领域技术人员可以将复数变换成单数，和/或将单数变换成复数。

本领域技术人员将会理解，通常，文中所使用的术语，特别是在所附权利要求(例如，所附权利要求中的主体)中所使用的术语通常意在作为“开放性”术语(例如，术语“包含”应当被解释为“包含但不限干”，术语“具有”应当被解释为“至少具有”，术语“包含”应当被解释为“包含但不限干”等)。本领域技术人员还将理解，如果意在所介绍的权利要求陈述对象的具体数目，则这样的意图将会明确地陈述在权利要求中，在缺乏这样的陈述的情况下，不存在这样的意图。例如，为了帮助理解，所附权利要求可以包含使用介绍性短语“至少一个”和“一个或更多个”来介绍权利要求范围陈述对象。然而，这样的短语的使用不应当被解释为：用不定冠词“一个(a或an)”的权利要求陈述对象的介绍将包含这样介绍的权利要求陈述对象的任何权利要求范围限制为只包含一个这样的陈述对象的发明，即使在同一权利要求范围包含介绍性短语“一个或更多个”或“至少一个”以及诸如“一个(a)”或“一个(an)”之类的不定冠词的情况下(例如，“一个(a)”和/ 或“一个(an)”应当通常被解释为意味着“至少一个”或“一个或更多个”)也如此；上述对以定冠词来介绍权利要求陈述对象的情况同样适用。另外，即使明确地陈述了介绍的权利要求陈述对象的具体数目，但本领域技术人员也会认识到：这样的陈述通常应当被解释为意味着至少所陈述的数目(例如，仅有“两个陈述对象”而没有其他修饰语的陈述通常意味着至少两个陈述对象，或两个或更多个陈述对象)。此外，在使用类似于“A、B和C中的至少一个等”的惯用语的情况下，通常这样的结构意在本领域技术人员所理解的该惯用语的含义(例如，“具有A、 B和C中的至少一个的系统”将包含但不限于具有单独的A、单独的B、单独的C、 A和B—起、A和C一起、B和C一起和/或A、B和C一起的系统等)。在使用类似于“A、B或C中的至少一个等”的惯用语的情况下，通常这样的结构意在本领域技术人员所理解的该惯用语的含义(例如，“具有A、B或C中的至少一个的系统”将包含但不限于具有单独的A、单独的B、单独的C、A和B—起、A和C一起、 B和C一起和/或A、B和C一起的系统等)。本领域技术人员将进一歩理解，不管在说明书、权利要求中还是在附图中，表示两个或更多个可替换的术语的几乎任意析取词和/或短语应当理解成考虑包含术语中的一个、术语中的任一个或所有两个术语的可能性。例如，短语“A或B”应当被理解成包含“A”、“B”、或“A 和B”的可能性。

尽管已经在文中使用不同的方法、设备以及系统来描述和示出了一些示例性的技术，但是本领域技术人员应当理解的是：可以在不脱离所要求保护的主题的情况下进行各种其它修改以及进行等同物替换。此外，在不脱离文中描述的中心构思的情况下，可以进行许多修改以使特定的情况适应于所要求保护的主题的教导。因此，意在所要求保护的主题不限制于所公开的特定示例，而且这样的要求保护的主题还可以包含落在所附权利要求的范围内的所有实施及它们的等同物。

以上所述仅为本发明之较佳实施例，凡依本发明权利要求书所做之均等变化与修饰，皆应属本发明之涵盖范围。

Claims

1.一种立体匹配方法，包括：

接收场景的左图像的第一数据和该场景的右图像的第二数据；以及

执行该左图像和该右图像的立体匹配以生成该场景的深度图，

其中，图案化的红外光投射到该场景上以点亮该场景，以及

其中该图案化的红外光满足一个或多个特征要求。

2.如权利要求1所述的立体匹配方法，其特征在于，该图案化的红外光的图案包括多个红外像素，形成一个或一个以上点、一条或一条以上线、一个或一个以上圆、一个或一个以上椭圆、一个或一个以上多边形、一颗或多颗星形的形状或其组合。

3.如权利要求1所述的立体匹配方法，其特征在于，该图案化的红外光的图案包括多个像素，其密度满足密度要求，使得红外像素的数量除以该左图像或该右图像内的预定义窗口中的像素总数大于或等于第一阈值。

4.如权利要求3所述的立体匹配方法，其特征在于，该第一阈值是0.2。

5.如权利要求1所述的立体匹配方法，其特征在于，该图案化的红外光包括重复图案的多个实例，并且其中沿着该立体匹配的搜索方向的该重复图案的重复周期大于该立体匹配的操作范围。

6.如权利要求1所述的立体匹配方法，其特征在于，该重复图案的重复方向相对于该立体匹配的该搜索方向旋转一个绝对值大于0°且小于90°的角度。

7.如权利要求1所述的立体匹配方法，其特征在于，沿着立体匹配方向的搜索范围内的每个像素或每个像素块的模糊度值小于或等于第二阈值。

8.如权利要求7所述的立体匹配方法，其特征在于，执行该左图像和该右图像的该立体匹配包括使用该左图像和该右图像之间的差的成本值的成本函数来计算该模糊度值，并且其中，该成本函数在数学上表示为：

Cost_{绝对差值(PL,d)}＝1/3*Σ_i＝R,G.B|I_i ^left(P_L)–I_i ^right(P_R)|,

其中I_i ^left(P_L)表示该左图像中的块内当前像素的亮度，以及

其中I_i ^right(P_R)表示在该立体匹配期间参考块内的该当前像素的亮度。

9.如权利要求8所述的立体匹配方法，其特征在于，使用该成本函数计算该模糊度值包括通过将来自该成本函数的最小成本值除以来自该成本函数的第二最小成本值来计算该模糊度值。

10.如权利要求7所述的立体匹配方法，其特征在于，该第二阈值是0.8。

11.如权利要求1所述的立体匹配方法，其特征在于，执行该左图像和该右图像的该立体匹配包括执行该左图像和该右图像的主动立体匹配。

12.一种立体匹配方法，包括：

控制红外投影仪投射图案化的红外光；

接收来自第一摄像机的场景的左图像的第一数据和来自第二摄像机的该场景的右图像的第二数据；以及

执行该左图像和该右图像的主动立体匹配，以生成该场景的深度图，

其中，该图案化的红外光满足多个特征要求中的一个或多个，以及

其中，该多个特征要求包括：

该图案化的红外光的图案包括多个像素，其密度满足密度要求，使得红外像素的数量除以该左图像或该右图像内的预定义窗口中的像素总数大于或等于第一阈值；

该图案化的红外光包括重复图案的多个实例，使得沿着该立体匹配的搜索方向的该重复图案的重复周期大于该立体匹配的操作范围；以及

该重复图案的重复方向相对于该立体匹配的该搜索方向旋转绝对值大于0°且小于90°的角度。

13.如权利要求12所述的立体匹配方法，其特征在于，该图案化红外光的图案包括多个红外像素，形成一个或一个以上点、一条或一条以上线、一个或一个以上圆、一个或一个以上椭圆、一个或一个以上多边形、一颗或多颗星形的形状或其组合。

14.如权利要求12所述的立体匹配方法，其特征在于，沿着立体匹配方向的搜索范围内的每个像素或每个像素块的模糊度值小于或等于第二阈值。

15.如权利要求14所述的立体匹配方法，其特征在于，执行该左图像和该右图像的该立体匹配包括使用该左图像和该右图像之间的差的成本值的成本函数来计算该模糊度值，并且其中，该成本函数在数学上表示为：

Cost_{绝对差值(PL,d)}＝1/3*Σ_i＝R,G.B|I_i ^left(P_L)–I_红外 ^ight(P_R)|

其中I_i ^left(P_L)表示该左图像中的块内的当前像素的亮度，

其中I_i ^right(P_R)可以表示在该立体匹配期间参考块内的该当前像素的亮度，

其中该第一阈值是0.2，并且

其中该第二阈值是0.8。

16.如权利要求15所述的立体匹配方法，其特征在于，使用该成本函数计算该模糊度值包括通过将来自该成本函数的最小成本值除以来自该成本函数的第二最小成本值来计算该模糊度值。

17.一种立体匹配装置，包括：

控制电路，执行包含以下操作的操作：

控制红外投影仪投射图案化的红外光；

其中，该图案化的红外光满足一个或多个特征要求。

18.如权利要求17所述的立体匹配装置，其特征在于，该图案化的红外光满足多个特征要求中的一个或多个额外的特征要求，包括：

19.如权利要求18所述的立体匹配装置，其特征在于，沿着立体匹配方向的搜索范围内的每个像素或每个像素块的模糊度值小于或等于第二阈值。

20.如权利要求19所述的立体匹配装置，其特征在于，在执行该左图像和该右图像的该立体匹配时，该控制电路使用该左图像和该右图像之间的差的成本值的成本函数来计算该模糊度值，并且其中，该成本函数在数学上表示为：

Cost_{绝对差值(PL,d)}＝1/3*Σ_i＝R,G.B|I_i ^left(P_L)–I_i ^right(P_R)|,

其中I_i ^left(P_L)表示该左图像中的块内的当前像素的亮度，

其中该第一阈值是0.2，

其中该第二阈值是0.8,并且

其中，使用该成本函数计算该模糊度值时，该控制电路通过将来自该成本函数的最小成本值除以来自该成本函数的第二最小成本值来计算该模糊度值。