CN109671115B

CN109671115B - 使用深度值估计的图像处理方法和装置

Info

Publication number: CN109671115B
Application number: CN201810686860.3A
Authority: CN
Inventors: 朴升忍; 安民修
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-10-16
Filing date: 2018-06-28
Publication date: 2023-07-14
Anticipated expiration: 2038-06-28
Also published as: KR102468897B1; EP3471057B1; US10621783B2; CN109671115A; JP2019075082A; KR20190042187A; US20190114832A1; EP3471057A1; JP7173772B2

Abstract

一种图像处理方法包括：从输入图像序列中选择帧，其中所选择的帧包括第一帧和第二帧；使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点，针对所选择的帧中的每个帧生成包括多边形的多边形网格；基于所述多边形网格设置与第一帧的像素相对应的第二帧的对应像素的搜索范围；以及通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素来估计第一帧的所述像素的深度值。

Description

使用深度值估计的图像处理方法和装置

相关申请的交叉引用

本申请要求2017年10月16日在韩国知识产权局递交的韩国专利申请No.10-2017-0133815的权益，出于所有目的，其全部公开内容通过引用合并于此。

技术领域

以下描述涉及一种图像处理方法和装置，其使用单眼相机来估计深度值以重建三维(3D)图像。

背景技术

可以通过深度估计将二维(2D)输入图像重建为三维(3D)图像。使用以下方案来估计2D输入图像的深度：例如，使用深度相机来估计深度值的方案，通过对使用两个相机获取的左图像和右图像应用立体视觉来估计深度值的方案，或者在同时测量移动相机的位置的同时生成周围环境地图的同时定位和映射(SLAM)方案。

在移动设备中估计图像的深度值的当前技术需要诸如深度相机或两个相机之类的附加硬件设备。此外，由于移动设备的尺寸较小，因此难以提供两个相机之间的适当距离。另外，小型移动设备的有限计算资源妨碍了SLAM方案所需的操作的实时处理。

发明内容

提供了本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征，也不意在用于帮助确定所请求保护的主题的范围。

在一个总的方面，一种处理器实现的图像处理方法包括：从输入图像序列中选择帧，其中所选择的帧包括第一帧和第二帧；使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点针对所选择的帧中的每个帧生成包括多边形的多边形网格；基于所述多边形网格来设置与第一帧的像素相对应的第二帧的对应像素的搜索范围；以及通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素来估计第一帧的所述像素的深度值。

第一帧的所述像素可以位于所述多边形之一中，并且设置所述对应像素的搜索范围可以包括：基于所述多边形的深度值来设置所述对应像素的搜索范围。

设置所述对应像素的搜索范围可以包括：基于所述多边形之中包括所述像素的多边形的顶点的深度值来设置第二帧中所述对应像素的搜索范围。

设置所述对应像素的搜索范围可以包括：基于所述多边形之中包括第一帧的所述像素的多边形的顶点的深度值来预测第一帧的所述像素的三维(3D)候选坐标，并且通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来设置所述对应像素的搜索范围。

所述3D候选坐标的预测可以包括：基于所述多边形的顶点的深度值中的每一个来预测所述3D候选坐标。

所述3D候选坐标的预测可以包括：基于所述多边形的顶点的深度值的插值来预测所述3D候选坐标。

设置所述对应像素的搜索范围可以包括：通过将所述3D候选坐标投影到第二帧的坐标系来确定所述对应像素的候选，并且基于所述对应像素的候选，沿极线设置第二帧中所述对应像素的搜索范围。

估计第一帧的所述像素的深度值可以包括：通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素的候选来估计第一帧的所述像素的深度值。

所述选择帧可以包括：基于用来捕获所述输入图像序列的相机的姿态信息来将所选择的帧配对。

将所选择的的帧配对可以包括基于以下项中的任何一个或任何两个或更多个的任何组合来将所选择的帧配对：所选择的帧之间的重叠程度、所选择的帧之间的基线的长度以及所选择的帧之间的视角。

生成所述多边形网格可以包括：生成所述多边形网格，使得所述多边形具有与具有深度值的特征点相对应的顶点。

所述方法还可以包括：确定所述多边形之中包括所述像素的多边形的顶点的深度值。

所述方法还可以包括：估计用来捕获所述输入图像序列的相机的姿态信息。

所述方法还可以包括：基于估计的深度值生成深度图。

所述方法还可以包括：使用所述深度图生成所述输入图像序列的重建三维(3D)图像。

在另一个总的方面，一种非暂时性计算机可读存储介质存储指令，所述指令在由处理器执行时使得处理器执行上述方法。

在另一个总的方面，一种图像处理装置包括：相机，被配置为捕获输入图像序列；以及处理器，被配置为：从所述输入图像序列中选择帧，其中所选择的帧包括第一帧和第二帧。所述处理器被配置为：使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点针对所选择的帧中的每个帧生成包括多边形的多边形网格。所述处理器还被配置为：基于所述多边形网格来设置与第一帧的像素相对应的第二帧的对应像素的搜索范围，以及通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素来估计第一帧的所述像素的深度值。

第一帧的所述像素可以位于所述多边形之一中，并且所述处理器还可以被配置为：基于所述多边形的深度值来设置所述对应像素的搜索范围。

所述处理器还可以被配置为：基于所述多边形之中包括第一帧的所述像素的多边形的顶点的深度值来设置第二帧中所述对应像素的搜索范围。

所述处理器还可以被配置为：基于所述多边形之中的多边形的顶点的深度值来预测第一帧的所述像素的三维(3D)候选坐标，并且通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来设置所述对应像素的搜索范围。

所述处理器还可以被配置为：基于所述多边形的顶点的深度值中的每一个来预测所述3D候选坐标。

所述处理器还可以被配置为：基于所述多边形的顶点的深度值的插值来预测所述3D候选坐标。

所述处理器还可以被配置为：通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来确定所述对应像素的候选，并且基于所述对应像素的候选，沿极线设置第二帧中所述对应像素的搜索范围。

所述处理器还可以被配置为：通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素的候选来估计第一帧的所述像素的深度值。

所述处理器还可以被配置为：基于所述相机的姿态信息来将所选择的帧配对。

所述处理器还可以被配置为基于以下项中的任何一个或任何两个或更多个的任何组合来将所选择的帧配对：所选择的帧之间的重叠程度、所选择的帧之间的基线的长度以及所选择的帧之间的视角。

所述处理器还可以被配置为：生成所述多边形网格，使得所述多边形具有与具有深度值的特征点相对应的顶点。

所述处理器还可以被配置为：确定所述多边形之中包括第一帧的所述像素的多边形的顶点的深度值。

所述处理器还可以被配置为：估计所述相机的姿态信息。

所述处理器还可以被配置为：基于估计的深度值生成深度图。

所述处理器还可以被配置为：使用所述深度图生成所述输入图像序列的重建三维(3D)图像。

在另一个总的方面，一种增强现实装置包括处理器，其被配置为：从由图像捕获设备捕获的二维(2D)输入图像序列中的多个帧中选择帧，其中所选择的帧包括第一帧和第二帧；使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点针对所选择的帧中的每个帧生成包括多边形的二维(2D)多边形网格，其中所选择的帧中的每个帧的特征点包括与2D位置相对应的信息；基于所述多边形网格来设置与第一帧的像素相对应的第二帧的对应像素的搜索范围；通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素来估计第一帧的所述像素的深度值；以及基于所估计的深度值生成深度图。所述增强现实装置包括显示设备，其被配置为使用所述深度图重建2D输入图像序列的三维(3D)图像。

所述处理器还可以被配置为：基于所述多边形之中包括第一帧的所述像素的多边形的顶点的深度值来预测第一帧的所述像素的三维(3D)候选坐标，并且将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系。

所述处理器还被配置为：通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来确定所述对应像素的候选，并且基于所述对应像素的候选，沿极线设置第二帧中所述对应像素的搜索范围。

根据以下详细描述、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出深度值估计方法的示例的流程图。

图2示出从输入图像序列中选择帧的示例。

图3A至图3C示出生成多边形网格的示例。

图4是示出设置搜索范围的方法的示例的流程图。

图5示出设置对应像素的搜索范围的示例。

图6A和图6B示出多边形网格中包括像素的多边形位于单个对象上的示例以及多边形网格中包括像素的多边形分别位于若干对象上的示例。

图7示出所生成的深度图的示例。

图8和图9是示出深度值估计方法的示例的流程图。

图10是示出深度值估计装置的示例的框图。

贯穿附图和详细描述，相同的附图标记将被理解为表示相同的元件、特征和结构。附图可以不按比例绘制，并且为了清楚、说明和方便，可以夸大附图中的元件的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述来帮助读者获得对本文描述的方法、装置和/或系统的全面理解。然而，在理解了本申请的公开之后，本文描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如，这里描述的操作顺序仅仅是示例，并且不限于在此阐述的那些，而是可以在理解本申请的公开之后显而易见地改变，除了必须以特定顺序发生的操作之外。并且，为了更加清楚和简洁，可以省略已知的特征的描述。

这里描述的特征可以以不同的形式实施，并且不应被解释为限于在此描述的示例。相反，提供此处描述的示例仅仅是为了说明实施在理解了本申请的公开后将是显而易见的在此描述的方法、装置和/或系统的许多可能方式中的一些。

贯穿说明书，当元件(诸如，层、区域或基板)被描述为在另一元件“上”、“连接到”或“耦接到”另一元件时，其可以直接在该另一元件“上”、直接“连接到”或“耦接到”该另一元件，或者可以存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在另一元件上”、“直接连接到”或“直接耦接到”另一元件时，可以没有任何元件介于其间。

如本文所用，术语“和/或”包括关联列出项目中的任何一个以及任何两个或更多个的任意组合。

尽管本文可以使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但这些构件、组件、区域、层或部分并不受限于这些术语。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开来。因此，在不脱离示例的教导的前提下，本文讨论的示例中所称的第一构件、组件、区域、层或部分也可以称作第二构件、组件、区域、层或部分。

本文所用的术语仅是为了描述各种示例，并不用于限制本公开。除非上下文另外清楚指示，否则冠词“一”、“一个”和“所述”也意在包括复数形式。术语“包括”、“包含”和“具有”指定存在所声明的特征、数量、操作、构件、元件和/或其组合，但是并不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或其组合。

除非本文另外定义，否则在理解本公开之后，本文使用的术语(包括技术或科学术语)具有与本领域普通技术人员所通常理解的意义相同的意义。除非本文另外定义，否则通常使用的字典中定义的术语应该被解释为具有与相关领域和本公开中的上下文含义相匹配的含义，并且不应被解释为理想的或过度形式化的含义。

在理解本申请的公开之后，本文描述的示例的特征可以以各种方式进行组合，这将是显而易见的。此外，尽管本文描述的示例具有各种配置，但是在理解本申请的公开之后将会显而易见的其他配置是可能的。

下文中阐述的示例方法和设备可以用于估计深度值，以在各种增强现实(AR)应用领域中重建输入图像序列的三维(3D)场景。这些示例方法和设备可以使用由单个相机获取的图像在短时间内生成密集深度图，而无需使用诸如深度相机的附加硬件元件。这些示例方法和设备可以应用于例如自动驾驶车辆、智能车辆、智能电话和移动设备以实时实现AR应用。

图1是示出深度值估计方法的示例的流程图。参考图1，在操作110，深度值估计装置(在下文中称为“估计装置”)从输入图像序列中的多个帧中选择帧。输入图像序列是输入到估计装置的图像，并且例如是实时图像或运动图像。在这个示例中，所选择的帧是输入图像序列中包括的多个帧中的一部分，并且可以被称为“关键帧”以与输入图像序列中未选择的帧相区分。输入图像序列通过估计装置中包括的相机(例如，图10的相机1010)被捕获，或者在估计装置的外部被获取。将参考图2进一步描述估计装置从输入图像序列中包括的多个帧中选择帧的示例。

在操作120，估计装置使用在选择的帧中的每个帧的特征点之中具有深度值的特征点，针对所选择的帧中的每个帧生成包括多边形的多边形网格。估计装置针对所选择的帧中的每个帧(例如，针对每个关键帧)使用具有深度值的特征点生成多边形网格。例如，估计装置使用在关键帧A的特征点中具有深度值的特征点来生成关于关键帧A的多边形网格。此外，估计装置使用在关键帧B的特征点中具有深度值的特征点来生成关于关键帧B的多边形网格。特征点是作为帧中的特征的点，并且包括与对应帧中的二维(2D)位置相对应的信息。每个所选择的帧包括多个特征点。例如，常用的使用Canny算子、Sobel算子、高斯拉普拉斯(LoG)算子、用于边缘检测的高斯差分(DoG)算子、用于角检测的Harris算子、用于描述局部空间结构的census变换算子、Prewitt算子、Roberts算子、拉普拉斯算子和Compass算子中任一种的特征点检测算法可被应用于从帧中检测特征点的操作，因此本文将省略特征点检测算法的详细描述。

至少一部分特征点还包括与深度值相对应的信息。例如，在估计用于捕获输入图像序列的相机的姿态信息的处理期间，获得与至少一部分特征点的三维(3D)位置相对应的信息。3D位置包括深度值。估计装置基于所选择的帧中的每个帧的特征点中具有深度值的特征点来生成针对所选择的帧中的每个帧的多边形，并且生成包括所生成的多边形的多边形网格。估计装置针对所选择的帧中的每个帧生成包括多边形的多边形网格，所述多边形的顶点与具有深度值的特征点相对应。

由估计装置生成的多边形网格表示输入图像序列的场景结构，并且与涉及输入图像序列的深度空间的先验信息相对应。为了便于描述，本文描述了估计装置生成多边形网格。然而，本公开不限于这样的示例。除多边形网格外，估计装置还生成可表示输入图像序列的场景结构的各种几何结构。将参考图3A至图3C进一步描述估计装置生成多边形网格的示例。

所选择的帧或关键帧包括例如第一帧和第二帧。估计装置通过匹配第一帧的像素和第二帧的对应像素来估计第一帧的像素和与第一帧的像素相对应的第二帧的对应像素之间的视差，并确定第一帧的像素或第二帧的对应像素的深度值。在这样的示例中，匹配第一帧的像素和第二帧的对应像素可被解释为立体匹配，其通过将第一帧的像素与包括在第二帧中的像素相比较来检测与第一帧的像素相对应的第二帧的对应像素。例如，估计装置通过使用基于窗口的立体匹配算法匹配第一帧的像素和第二帧的对应像素，来估计像素的深度值。基于窗口的立体匹配算法是如下方案，该方案通过例如使用预定尺寸的窗口从每个帧中与最大搜索范围相对应的区域中提取像素，来执行立体匹配。估计装置通过例如使用相同尺寸的多个窗口、或角度被调整的移位窗口来重置窗口，并通过提取像素来执行立体匹配。

在操作130，估计装置基于针对所选择的帧中的每个帧生成的多边形网格来设置与第一帧的像素相对应的第二帧的对应像素的搜索范围。估计装置基于包括在每个多边形网格中的多边形的深度值来减小用于在第二帧中执行搜索的搜索范围以检测与第一帧的像素相对应的第二帧的对应像素。例如，估计装置基于每个多边形网格中包括的多边形之中包括第一帧的像素的多边形的顶点的深度值，来设置第二帧中与第一帧的像素相对应的第二帧的对应像素的搜索范围。将参考图4至图6进一步描述估计装置设置搜索范围的示例。

在操作140，估计装置通过基于所设置的搜索范围匹配第一帧的像素和所述对应像素来估计第一帧的像素的深度值。估计装置在所设置的搜索范围内执行匹配，而不是在第二帧中搜索可以与第一帧的像素相对应的所有候选范围。因此，减少了估计深度值所需的资源量。在一个示例中，估计装置基于像素的估计深度值生成如图7所示的密集深度图700。

图2示出从输入图像序列中包括的多个帧中选择帧的示例。参考图2，示出了通过捕获对象(例如米老鼠玩偶和玩具车)而获取的输入图像序列210的示例。在这个示例中，输入图像序列210是实时图像或运动图像，并且包括多个帧230。在一个示例中，可以提供多个输入图像序列。

估计装置从输入图像序列210中包括的多个帧230中选择关键帧250。在这个示例中，关键帧250与输入图像序列210中包括的多个帧230中的用于深度估计的帧相对应。关键帧250与从多个帧230中选择的部分帧相对应。

估计装置估计相机或者用于捕获输入图像序列210的捕获设备的姿态信息。当输入图像序列210被输入到估计装置时，估计装置例如使用基于特征的同时定位和映射(SLAM)方案来获得对于每个帧的相机的姿态信息。相机的姿态信息是包括与相机的姿态相对应的X(水平位置)、Y(垂直位置)、Z(深度)、以及与相机的方位相对应的俯仰、偏航和翻滚在内的六自由度(6-DOF)相机姿态。除基于特征的SLAM方案之外，还可使用诸如直接SLAM、扩展卡尔曼滤波器(EKF)SLAM、快速SLAM和大规模直接单目SLAM(LSD-SLAM)的各种SLAM方案来获得相机的姿态信息。

例如，在输入图像序列210是在估计装置外部获取的情况下，估计装置与输入图像序列210一起接收诸如用于捕获输入图像序列210的捕获设备的旋转信息和平移信息之类的姿态信息、捕获设备的位置信息和/或捕获设备的校准信息。

估计装置基于相机的姿态信息将多个帧230中用于深度估计的关键帧250进行配对。在这个示例中，配对对应于使例如第一关键帧251和第二关键帧253、第二关键帧253和第三关键帧255和/或第三关键帧255和第四关键帧257配成一对。

第一关键帧251和第二关键帧253被配对为第一运动立体对271。第二关键帧253和第三关键帧255被配对为第二运动立体对273。第三关键帧255和第四关键帧257被配对为第三运动立体对275。

例如，估计装置检查诸如所选择的帧之间的重叠程度、所选择的帧之间的基线的长度和所选择的帧之间的视角之类的需求，以便于所选择的帧之间的立体匹配。估计装置基于重叠程度、基线的长度和视角中的任一个或任何两个或更多个的任何组合来选择所选择的帧中要被配对的帧。例如，估计装置将具有大于或等于预定或指定阈值的重叠程度的帧进行配对。备选地，估计装置可以将重叠程度大于或等于预定或指定阈值的帧中基线的长度大于预设或指定参考值的帧进行配对。备选地，估计装置可以将视角不超过阈值视角的帧进行配对。

在一个示例中，估计装置为帧之间的立体匹配生成单独的关键帧集。然而，相对高效的是，在执行SLAM方案时生成的关键帧之中选择满足上面描述的各种需求的帧并将其配对。

估计装置可以使用与通过相机姿态估计获得的特征点相对应的3D图点和3D图作为先验信息，来更高效地生成密集深度图。

图3A至图3C示出生成多边形网格的示例。详细地说，图3A示出帧310的特征点315。图3B示出3D图330，其上映射了图3A的特征点315中包括深度值的特征点320。图3C示出使用特征点320生成的多边形网格350和包括在多边形网格350中的多边形355。

估计装置例如使用基于特征的SLAM方案针对每个帧310检测主要特征点315。估计装置通过将特征点315匹配到图3B的3D图330来计算每个帧的6-DOF相机姿态。当执行基于特征的SLAM方案时，估计装置通过线性三角测量来检测图点，并基于检测到的图点更新3D图330，其中该图点是帧310中检测到的特征点315的实际3D空间位置。

在一个示例中，使用在相机姿态估计期间生成的特征点来高效地使用基于特征的SLAM方案，而不需要执行单独的计算来生成2D多边形网格。在另一示例中，估计装置将3D位置已知的一部分像素(例如，深度值已知的一部分像素)分散为均匀分布在图像中，并且利用使用具有深度值的像素作为输入的直接SLAM方案来生成多边形网格。

估计装置通过从帧310中存在的特征点315之中选择3D位置已知并因此具有深度值的特征点(例如，图3B中的特征点320)，来生成图3C的2D多边形网格350。估计装置例如通过Delaunay三角测量来生成2D多边形网格350。Delaunay三角测量是如下方案，该方案通过相对于平面上的一组点，用线将与Voronoi图中的所有相邻Voronoi多边形相对应的两个点进行连接，来配置三角形网络。Delaunay三角测量需要满足如下要求：除了定义三角形的三个点之外的任何其他点都不应包括在包围三角形的圆圈中。在这个示例中，2D三角测量多边形网格指示使用每个帧(例如，每个2D图像)中的图像坐标，而不是3D世界坐标信息(例如，图点)，来执行三角测量。2D多边形网格350是三角测量多边形网格。

详细地说，估计装置使用图3B的3D图330中3D位置信息(X_p,Y_p,Z_p)已知并因此深度值已知的特征点320(例如图3A的特征点315中的点u_p,v_p)，来生成图3C的2D多边形网格350。2D多边形网格350包含场景结构，并因此提供近似信息以执行快速深度估计。

当估计帧中每个像素的深度时，估计装置在2D多边形网格350中包括对应像素的三角形355的范围内确定另一帧的对应像素的深度值。在这个示例中，包括在2D多边形网格350中的三角形355的顶点与具有深度值的特征点相对应。例如，在三角形355的各个顶点中存储对应深度值z_l、z_m和z_n或者对应3D信息，例如，(u_l,v_l,z_l)、(u_m,v_m,z_m)和(u_n,v_n,z_n)。

图4是示出设置搜索范围的方法的示例的流程图。参考图4，在操作410，估计装置基于多边形网格中包括第一帧的像素在内的多边形的顶点的深度值来预测像素的3D候选坐标。估计装置基于多边形网格中包括第一帧的像素在内的多边形的顶点的深度值中的每一个来预测像素的3D候选坐标。在另一示例中，估计装置将多边形网格中包括第一帧的像素在内的多边形的顶点的深度值的插值设置为像素的深度值，并基于像素的深度值预测像素的3D候选坐标。在这个示例中，多边形网格是相对于第一帧生成的多边形网格。

在操作420，估计装置通过将像素的所预测的3D候选坐标投影到第二帧的坐标系来设置对应像素的搜索范围。例如，估计装置通过将像素的3D候选坐标投影到第二帧的坐标系来确定对应像素的候选，并且基于对应像素的候选，沿极线(epipolar line)设置第二帧中对应像素的搜索范围。将参考图5进一步描述估计装置设置对应像素的搜索范围的示例。

图5示出设置对应像素的搜索范围的示例。参考图5，示出了关键帧k 510和关键帧m 530。关键帧k 510包括具有像素p 505的三角形515的多边形网格。用来捕获关键帧k 510的相机的镜头焦点O_i和用来捕获关键帧m 530的相机的镜头焦点O_j之间的姿态信息包括旋转信息R_ji和平移信息t_ji。

在图5的示例中，连接镜头焦点O_i和镜头焦点O_j的线501与这两个关键帧之间的“基线”相对应，并且基线501与关键帧k 510和关键帧m 530的图像平面相交的点e和e’对应于“极点”。在这个示例中，穿过关键帧m 530的极点e’并且与连接镜头焦点O_i和关键帧k 510中包括的像素p 505的线520平行的线540对应于“极线”。

估计装置通过传播多边形网格中包括每个像素(例如，像素p 505)的三角形515的顶点的深度值来减小关键帧m 530中的搜索范围，而不在关键帧k 510的整个搜索范围内计算对应像素的深度值。

在图5的示例中，假设关键帧k 510的包括像素p 505的三角形515的顶点的深度值是z₁、z₂和z₃。

在与关键帧k 510配对的关键帧m 530中检测与关键帧k 510的像素p 505相对应的对应像素p’的情况下，估计装置基于包括像素p505的三角形515的顶点的深度值z₁、z₂和z₃来预测像素p 505的3D候选坐标。3D候选坐标与3D世界坐标相对应。

估计装置通过传播包括像素p 505的三角形515的顶点的深度值z₁、z₂和z₃中的每一个来预测像素p的3D候选坐标。在一个示例中，不是传播包括像素p 505的三角形515的顶点的深度值z₁、z₂和z₃，估计装置在平滑约束的假设下将这三个深度值z₁、z₂和z₃的插值设置为像素的深度值z，并且基于像素的深度值z来预测像素p的3D候选坐标，从而减少计算时间。在这个示例中，包括深度值z的像素p的3D候选坐标是像素p的专有候选坐标。

平滑约束是如下假设：由于深度值在单个对象中变化缓慢，因此像素具有与相邻像素的深度值相等或相似的深度值。然而，在如图6B所示多边形网格中包括的三角形位于多个对象上而不是单个对象上的情况下，被预测为专有候选坐标(例如，插值)的深度值的误差范围大大增加。

估计装置基于像素p 505的3D候选坐标或深度值来检测与像素p505配对的可能位于关键帧m 530中的3D坐标，并基于检测到的3D坐标估计像素p 505的深度值。

估计装置通过将像素p 505的3D候选坐标投影到关键帧m 530的坐标系来检测像素p 505的对应像素的候选p'₁ 541、p'₂ 543和p'₃ 545。估计装置基于对应像素的候选p'₁541、p'₂ 543和p'₃ 545沿极线540设置具有轻微变化的搜索范围550。在这个示例中，所述轻微变化基于线520上三个深度值z₁、z₂和z₃的变化±α而变化。

估计装置通过基于搜索范围550执行像素p 505与对应像素的候选p'₁ 541、p'₂543和p'₃ 545之间的立体匹配来估计像素p 505的深度值。

除了基于窗口的方法之外，估计装置还将各种匹配方案应用于立体匹配以处理倾斜表面和/或色差。

如上所述，估计装置使用多边形网格中包括像素p 505的三角形515来搜索极线540的一部分，例如搜索范围550，而不是搜索整个极线540，并且针对图像中的所有像素执行基于像素的匹配，从而在移动设备中实时生成密集深度图。

图6A和图6B示出多边形网格中包括像素的多边形位于单个对象上的示例以及多边形网格中包括像素的多边形分别位于若干对象上的示例。参考图6A，使用存在于单个对象620上的特征点来配置多边形网格的三角形610。

如图6A所示，当使用存在于单个对象620上的特征点来配置三角形610时，三角形610的三个顶点的深度值差别不大。在这个示例中，在上述平滑约束的假设下，三角形610的三个顶点的深度值的插值被用作像素p的专有深度值，例如专有候选坐标。然而，在使用单个对象620没有密集地检测特征点的情况下，如图6B所示，生成包括属于多个不同对象的特征点在内的多边形网格的三角形650。

参考图6B，使用属于两个不同对象630和640的特征点来配置多边形网格的三角形650。例如，在如图6B所示多边形网格的三角形650被包括在不同对象630和640中的情况下，有利的是，为了准确度，使用包括像素p的三角形650的顶点的深度值z₁、z₂和z₃中的每一个来生成像素p的3D世界坐标，并且使用3D世界坐标来检测对应像素p’。

图7示出所生成的深度图的示例。参考图7,示出了由估计装置使用上面描述的方法基于图像中所有像素的估计深度值所生成的深度图700。

估计装置使用深度图700重建输入图像序列的3D图像。估计装置例如通过图10的显示器1050显示从输入图像序列重建的3D图像。

图8是示出深度值估计方法的示例的流程图。参考图8，在操作810，估计装置估计相机的姿态信息。相机的姿态信息包括例如旋转矩阵R、平移矩阵t和相机的位置信息。

在操作820，估计装置基于相机的姿态信息从输入图像序列中包括的多个帧中选择包括第一帧和第二帧在内的帧。

在操作830，估计装置执行图像校正以使所选择的帧对准。图像校正是将所选择的帧变换为平行于极线的处理。当执行图像校正时，所选择的帧被对准以平行于极线，并且因此能够在一维平面直线(例如，一维极线)上执行视差搜索，而不是在2D极线上执行搜索。

图8的操作840与图1的操作120相对应，图8的操作850与图1的操作130相对应，并且图8的操作860与图1的操作140相对应。因此可以参考针对图1提供的对应描述。

在操作870，估计装置基于通过操作860中像素和对应像素的匹配所估计的像素的深度值来生成深度图。

图9是示出深度值估计方法的示例的流程图。参考图9，估计装置还执行使用至少两个运动立体输入图像序列的多视点匹配。

图9的操作910与图8的操作810相同，因此可以参考针对图8提供的对应描述。此外，图9的操作920至940与图1的操作110至130相同，因此可以参考针对图1提供的对应描述。

在操作950，估计装置使用在操作940中设置的搜索范围执行多视点匹配。多视点匹配生成多视点帧中相邻帧的多个立体对，独立地估计每一对的深度，并最终通过深度融合来估计最优联合深度值。

在操作960，估计装置基于通过多视点匹配所估计的深度值(例如，最优联合深度值)来生成深度图。可以提供多个输入图像序列。

图10是示出深度值估计装置的示例的框图。参考图10，深度值估计装置1000(以下称为“估计装置”1000)包括相机1010、处理器1030和存储器1040。估计装置1000还包括通信接口1020和/或显示器1050。相机1010、通信接口1020、处理器1030、存储器1040和显示器1050通过通信总线1005彼此通信。

估计装置1000是配置为实时实现各种AR应用的电子设备，例如，诸如智能电话、导航系统或智能车辆的移动设备。

相机1010用于捕获输入图像序列。可以提供单个输入图像序列或多个输入图像序列。输入图像序列包括多个帧。相机1010例如是单眼相机。

通信接口1020接收在估计装置1000外部捕获的输入图像序列。在这个示例中，除了输入图像序列之外，通信接口1020还接收用来捕获输入图像序列的捕获设备的诸如旋转信息和平移信息之类的姿态信息、以及捕获设备的校准信息。

处理器1030从输入图像序列中包括的多个帧中选择帧。例如，所选择的帧包括第一帧和第二帧。在这个示例中，处理器1030估计相机1010的姿态信息，并基于相机1010的姿态信息将所选择的帧配对。处理器1030基于所选择的帧之间的重叠程度、所选择的帧之间的基线的长度以及所选择的帧之间的视角来将所选择的帧(例如，第一帧和第二帧)配对。

处理器1030使用所选择的帧中的每个帧的特征点中具有深度值的特征点来针对所选择的帧中的每个帧生成包括多边形的多边形网格。更具体地，处理器1030针对所选择的帧中的每个帧生成包括多边形的多边形网格，所述多边形的顶点与具有深度值的特征点相对应。

处理器1030基于多边形网格来设置与第一帧的像素相对应的第二帧的对应像素的搜索范围。处理器1030通过基于搜索范围匹配第一帧的像素和第二帧的对应像素来估计第一帧的像素的深度值。处理器1030基于第一帧的像素的估计深度值生成例如如图7所示的密集深度图。处理器1030使用深度图重建输入图像序列的3D图像。从输入图像序列重建的3D图像通过显示器1050被显示。

处理器1030确定多边形网格中包括的多边形之中包括第一帧的像素在内的多边形的顶点的深度值。处理器1030基于多边形网格中包括的多边形的深度值来设置与第一帧的像素相对应的第二帧的对应像素的搜索范围。处理器1030基于多边形网格中包括第一帧的像素在内的多边形的顶点的深度值来设置第二帧中的对应像素的搜索范围。

更具体地，例如，处理器1030基于多边形网格中包括第一帧的像素在内的多边形的顶点的深度值来预测像素的3D候选坐标，并且通过将像素的3D候选坐标投影到第二帧的坐标系来设置对应像素的搜索范围。

例如，处理器1030通过将第一帧的像素的3D候选坐标投影到第二帧的坐标系来确定第二帧的对应像素的候选，并且基于对应像素的候选，沿极线设置第二帧中对应像素的搜索范围。处理器1030通过基于搜索范围匹配第一帧的像素和所述对应像素的候选来估计像素的深度值。

另外，处理器1030执行参考图1至图9描述的方法或对应于所述方法的算法。处理器1030执行程序并控制估计装置1000。由处理器1030执行的程序代码或指令被存储在存储器1040中。

存储器1040存储输入图像序列和/或多个帧。存储器1040存储由处理器1030生成的多边形网格、像素的深度值、深度图和/或由处理器1030重建的3D图像。

此外，存储器1040存储在由处理器1030执行的处理期间生成的各种信息。另外，存储器1040存储各种数据和程序。存储器1040包括易失性存储器或非易失性存储器。存储器1040可以包括诸如硬盘的大容量存储介质以存储各种数据。

显示器1050显示由处理器1030从输入图像序列重建的3D图像。

图10中的执行本申请中描述的操作的通信总线1005、通信接口1020、处理器1030、存储器1040和显示器1050由硬件组件实现，所述硬件组件被配置为执行本申请中描述的由硬件组件执行的操作。在适当情况下可以用于执行本申请中描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中，执行本申请中描述的操作的硬件组件中的一个或多个由计算硬件(例如，由一个或多个处理器或计算机)来实现。处理器或计算机可以由一个或多个处理元件实现，诸如逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或配置为以定义的方式响应并执行指令以实现期望结果的任何其他设备或设备的组合。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的软件或指令的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件，诸如操作系统(OS)和运行在OS上的一个或多个软件应用，以执行本申请中描述的操作。响应于指令或软件的执行，硬件组件还可以访问、操作、处理、创建和存储数据。为了简单起见，在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”，但是在其他示例中可以使用多个处理器或计算机，或者处理器或计算机可以包括多个处理元件或多种类型的处理元件或两者。例如，单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或者处理器和控制器来实现，并且一个或多个其他硬件组件可以由一个或多个其他处理器、或者另一处理器和另一控制器来实现。一个或多个处理器、或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同处理配置中的任何一种或多种，其中处理配置的示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

执行本申请中描述的操作的图1、图2、图3A至图3C、图4、图5、图6A、图6B、图8和图9中示出的方法由计算硬件来执行，例如，由执行指令或软件的如上所述地实现的一个或多个处理器或计算机执行，以执行本申请中描述的通过这些方法执行的操作。例如，单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可以由一个或多个处理器、或者处理器和控制器来执行，并且一个或多个其他操作可以由一个或多个其他处理器、或者另一处理器和另一控制器来执行。一个或多个处理器、或者处理器和控制器可以执行单个操作、或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合，以用于单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机操作以执行通过如上所述的方法和硬件组件执行的操作。在一个示例中，指令或软件包括由一个或多个处理器或计算机直接执行的机器代码，诸如由编译器产生的机器代码。在另一个示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级代码。可以基于附图中所示的框图和流程图以及说明书中的相应描述使用任何编程语言来编写指令或软件，其中所述框图和流程图以及对应描述公开了用于执行通过如上所述的方法和硬件组件执行的操作的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件、以及任何相关数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质之中或之上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘和任何其他设备，所述任何其他设备被配置为以非暂时性方式存储指令或软件和任何相关数据、数据文件和数据结构并向一个或多个处理器或计算机提供指令或软件和任何相关数据、数据文件和数据结构以使得一个或多个处理器或计算机可以执行指令。在一个示例中，指令或软件以及任何关联的数据、数据文件和数据结构被分布在网络耦接的计算机系统上，使得指令和软件以及任何关联的数据、数据文件和数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。

虽然本公开包括特定的示例，但是在理解本申请的公开之后将显而易见的是，在不脱离权利要求及其等同物的精神和范围的情况下，可以在这些示例中进行形式和细节上的各种改变。本文所描述的示例应当被认为仅是描述性的，而不是为了限制目的。对每个示例中的特征或方面的描述应当被视为可适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充，也可实现合适的结果。因此，本公开的范围不是由详细描述来限定，而是由权利要求及其等同物来限定，并且权利要求及其等同物范围内的所有变化将被解释为包括在本公开中。

Claims

1.一种处理器实现的图像处理方法，包括：

从输入图像序列中选择帧，其中所选择的帧包括要进行立体匹配的第一帧和第二帧；

使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点，针对所选择的帧中的每个帧生成包括多边形的多边形网格，其中所述深度值是在估计用于捕获所述输入图像序列的图像捕获设备的姿态信息时获得的；

基于所述多边形网格中第一帧的像素所位于的多边形的深度值来设置用于在第二帧中执行搜索以检测与第一帧的所述像素相对应的第二帧的对应像素的搜索范围；以及

通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素来估计第一帧的所述像素的深度值。

2.根据权利要求1所述的方法，其中设置所述搜索范围包括：基于所述多边形之中包括所述像素的多边形的顶点的深度值来设置在第二帧中执行搜索以检测所述对应像素的搜索范围。

3.根据权利要求1所述的方法，其中设置所述搜索范围包括：

基于所述多边形之中包括第一帧的所述像素在内的多边形的顶点的深度值来预测第一帧的所述像素的三维3D候选坐标；以及

通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来设置所述搜索范围。

4.根据权利要求3所述的方法，其中预测3D候选坐标包括：基于包括第一帧的所述像素在内的所述多边形的顶点的深度值中的每一个来预测所述3D候选坐标。

5.根据权利要求3所述的方法，其中预测3D候选坐标包括：

基于包括第一帧的所述像素在内的所述多边形的顶点的深度值的插值来预测所述3D候选坐标。

6.根据权利要求3所述的方法，其中设置所述搜索范围包括：

通过将所述3D候选坐标投影到第二帧的坐标系来确定所述对应像素的候选；以及

基于所述对应像素的候选，沿极线设置在第二帧中执行搜索以检测所述对应像素的搜索范围。

7.根据权利要求6所述的方法，其中估计第一帧的所述像素的深度值包括：通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素的候选来估计第一帧的所述像素的深度值。

8.根据权利要求1所述的方法，其中选择帧包括：基于用来捕获所述输入图像序列的相机的姿态信息来将所选择的帧配对。

9.根据权利要求8所述的方法，其中将所选择的帧配对包括基于以下项中的任何一个或任何两个或更多个的任何组合来将所选择的帧配对：所选择的帧之间的重叠程度、所选择的帧之间的基线的长度以及所选择的帧之间的视角。

10.根据权利要求1所述的方法，其中生成多边形网格包括：生成所述多边形网格，使得所述多边形包括与具有深度值的特征点相对应的顶点。

11.根据权利要求1所述的方法，还包括：

确定所述多边形之中包括所述像素的多边形的顶点的深度值。

12.根据权利要求1所述的方法，还包括：

估计用来捕获所述输入图像序列的相机的姿态信息。

13.根据权利要求1所述的方法，还包括：基于估计的深度值生成深度图。

14.根据权利要求13所述的方法，还包括：使用所述深度图生成所述输入图像序列的重建三维3D图像。

15.一种存储指令的非暂时性计算机可读存储介质，所述指令在被处理器执行时使得处理器执行权利要求1所述的方法。

16.一种图像处理装置，包括：

相机，被配置为捕获输入图像序列；以及

处理器，被配置为：

从所述输入图像序列中选择帧，其中所选择的帧包括要进行立体匹配的第一帧和第二帧，

使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点，针对所选择的帧中的每个帧生成包括多边形的多边形网格，其中所述深度值是在估计所述相机的姿态信息时获得的，

基于所述多边形网格中第一帧的像素所位于的多边形的深度值来设置用于在第二帧中执行搜索以检测与第一帧的所述像素相对应的第二帧的对应像素的搜索范围，以及

17.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：基于所述多边形之中包括第一帧的所述像素在内的多边形的顶点的深度值来设置在第二帧中执行搜索以检测所述对应像素的搜索范围。

18.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：基于所述多边形之中包括第一帧的所述像素在内的多边形的顶点的深度值来预测第一帧的所述像素的三维3D候选坐标，并且通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来设置所述搜索范围。

19.根据权利要求18所述的图像处理装置，其中所述处理器还被配置为：基于包括第一帧的所述像素在内的所述多边形的顶点的深度值中的每一个来预测所述3D候选坐标。

20.根据权利要求18所述的图像处理装置，其中所述处理器还被配置为：基于包括第一帧的所述像素在内的所述多边形的顶点的深度值的插值来预测所述3D候选坐标。

21.根据权利要求18所述的图像处理装置，其中所述处理器还被配置为：通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来确定所述对应像素的候选，并且基于所述对应像素的候选，沿极线设置在第二帧中执行搜索以检测所述对应像素的搜索范围。

22.根据权利要求21所述的图像处理装置，其中所述处理器还被配置为：通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素的候选来估计第一帧的所述像素的深度值。

23.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：基于所述相机的姿态信息来将所选择的帧配对。

24.根据权利要求23所述的图像处理装置，其中所述处理器还被配置为基于以下项中的任何一个或任何两个或更多个的任何组合来将所选择的帧配对：所选择的帧之间的重叠程度、所选择的帧之间的基线的长度以及所选择的帧之间的视角。

25.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：生成所述多边形网格，使得所述多边形包括与具有深度值的特征点相对应的顶点。

26.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：确定所述多边形之中包括第一帧的所述像素在内的多边形的顶点的深度值。

27.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：估计所述相机的姿态信息。

28.根据权利要求16所述的图像处理装置，其中所述处理器还被配置为：基于估计的深度值生成深度图。

29.根据权利要求28所述的图像处理装置，其中所述处理器还被配置为：使用所述深度图生成所述输入图像序列的重建三维3D图像。

30.一种增强现实装置，包括：

处理器，被配置为：

从由图像捕获设备捕获的二维2D输入图像序列中的多个帧中选择帧，其中所选择的帧包括要进行立体匹配的第一帧和第二帧，

使用在所选择的帧中的每个帧的特征点之中具有深度值的特征点，针对所选择的帧中的每个帧生成包括多边形的二维2D多边形网格，其中所选择的帧中的每个帧的特征点包括与2D位置相对应的信息，并且所述深度值是在估计所述图像捕获设备的姿态信息时获得的，

基于所述多边形网格中第一帧的像素所位于的多边形的深度值来设置用于在第二帧中执行搜索以检测与第一帧的所述像素相对应的第二帧的对应像素的搜索范围，

通过基于所述搜索范围匹配第一帧的所述像素和所述对应像素来估计第一帧的所述像素的深度值，以及

基于所估计的深度值生成深度图，以及

显示设备，被配置为使用所述深度图重建所述2D输入图像序列的三维3D图像。

31.根据权利要求30所述的增强现实装置，其中所述处理器还被配置为：

基于所述多边形之中包括第一帧的所述像素在内的多边形的顶点的深度值来预测第一帧的所述像素的三维3D候选坐标，以及

将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系。

32.根据权利要求31所述的增强现实装置，其中所述处理器还被配置为：基于包括第一帧的所述像素在内的所述多边形的顶点的深度值的插值来预测所述3D候选坐标。

33.根据权利要求31所述的增强现实装置，其中所述处理器还被配置为：通过将第一帧的所述像素的3D候选坐标投影到第二帧的坐标系来确定所述对应像素的候选，并且基于所述对应像素的候选，沿极线设置在第二帧中执行搜索以检测所述对应像素的搜索范围。