CN109829875B

CN109829875B - 用于估计视差的方法和装置

Info

Publication number: CN109829875B
Application number: CN201810527546.0A
Authority: CN
Inventors: 李元熙; 郑景夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-11-23
Filing date: 2018-05-28
Publication date: 2023-10-27
Anticipated expiration: 2038-05-28
Also published as: CN109829875A; US20190156502A1; US10929998B2; JP7134012B2; JP2019096294A; EP3489898A1; KR20190059594A; KR102459853B1; EP3489898B1

Abstract

一种由处理器执行的视差估计方法包括：从第一图像提取包括参考像素的第一图像小块，从第二图像提取包括与参考像素相对应的目标像素的第二图像小块，并且使用残差模型从第一图像小块和第二图像小块估计参考像素和目标像素之间的初始视差的残差，所述残差是参考像素和目标像素之间的初始视差和实际视差之间的估计差。

Description

用于估计视差的方法和装置

相关申请的交叉引用

本申请要求于2017年11月23日在韩国知识产权局递交的韩国专利申请No.10-2017-0157352的优先权，其全部公开通过引用并入本文以用于所有目的。

技术领域

以下描述涉及用于估计视差的装置和方法。

背景技术

立体匹配是从二维(2D)图像获取深度信息的各种方法之一。在立体匹配中，从至少两个图像中检测对应点，并且基于所述对应点计算图像中的对象的深度。立体图像包括从不同视点(例如从与左眼相对应的左视点和与右眼相对应的右视点)捕获的同一个对象的多个图像。对应点是立体图像的至少两个图像中与对象的同一点相对应的点。由于双目视差的特性，当对象位于相机附近时，在立体图像中的图像之间可能发生大位移，而当对象远离相机时，图像之间可能发生小位移。可基于视差计算图像中对象的深度(即从相机到对象的距离)，所述视差是一个视点的图像中的点与另一视点的图像中的对应点之间的位置差。获得视差，并且可以基于该视差来计算对象的深度。

发明内容

提供了本发明内容以介绍下面在具体实施方式中进一步描述的对简化形式的理念的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征，也不意在用作帮助确定所请求保护的主题的范围。

在一个总体方面，由处理器执行的视差估计方法包括：从第一图像提取包括参考像素的第一图像小块；从第二图像提取包括与所述参考像素相对应的目标像素在内的第二图像小块；以及使用残差模型从所述第一图像小块和所述第二图像小块估计所述参考像素和所述目标像素之间的初始视差的残差，所述残差是所述参考像素和所述目标像素之间的初始视差和实际视差之间的估计差。

视差估计方法还可以包括：通过基于所估计的残差校正所述初始视差来确定所述参考像素和所述目标像素之间的最终视差。

视差估计方法还可以包括：基于所述最终视差计算与所述第一图像和所述第二图像的每个像素相对应的深度。

视差估计方法还可以包括：估计所述第一图像的参考像素和所述第二图像的目标像素之间的初始视差。

估计初始视差可以包括：确定第二图像中的搜索范围；将包括所述参考像素的参考图像小块与分别对应于所述搜索范围中包括的像素的每个候选图像小块进行比较；以及基于所述比较的结果确定所述第二图像中的目标像素。

估计初始视差可以包括：使用特征模型从所述第一图像小块和所述第二图像小块提取特征数据；以及使用所述残差模型从所述特征数据估计所述残差。

视差估计方法还可以包括：使用假视差检测模型从所述第一图像小块和所述第二图像小块估计所述初始视差的假视差信息。

视差估计方法还可以包括：响应于基于所估计的假视差信息确定所述初始视差为假，而不再进一步使用所述初始视差。

视差估计方法还可以包括以整像素单元估计所述初始视差，并且估计所述残差可以包括以子像素单元估计所述残差。

提取第一图像小块可以包括：从第一图像提取特征点；以及将与所述第一图像中的所述特征点相对应的像素确定为所述参考像素。

在另一总体方面，一种存储指令的非暂时性计算机可读介质，当所述指令由处理器执行时，使所述处理器执行如上所述的视差估计方法。

在另一总体方面，视差估计装置包括：图像获取器，被配置为获取第一图像和第二图像；以及处理器，被配置为从第一图像提取包括参考像素的第一图像小块，从第二图像提取包括与参考像素相对应的目标像素在内的第二图像小块，并且使用残差模型从第一图像小块和第二图像小块估计参考像素和目标像素之间的初始视差的残差，所述残差是参考像素和目标像素之间的初始视差和实际视差之间的估计差。

处理器还可以被配置为通过基于所估计的残差校正所述初始视差来确定所述参考像素和所述目标像素之间的最终视差。

处理器还可以被配置为基于所述最终视差计算与所述第一图像和所述第二图像的每个像素相对应的深度。

处理器还可以被配置为估计所述第一图像的参考像素和所述第二图像的目标像素之间的初始视差。

处理器还可以被配置为确定第二图像中的搜索范围，将包括所述参考像素的参考图像小块与分别对应于所述搜索范围中包括的像素的每个候选图像小块进行比较，以及基于所述比较的结果确定所述第二图像中的目标像素。

处理器还可以被配置为使用特征模型从第一图像小块和第二图像小块提取特征数据，并且使用残差模型从特征数据估计残差。

处理器还可以被配置为使用假视差检测模型从所述第一图像小块和所述第二图像小块估计所述初始视差的假视差信息。

处理器还可以被配置为响应于基于所估计的假视差信息确定所述初始视差为假，而不再进一步使用所述初始视差。

处理器还可以被配置为以整像素单元估计所述初始视差，并且以子像素单元估计所述残差。

在另一总体方面，由处理器执行的视差估计方法包括：估计第一图像中的参考像素和第二图像中的目标像素之间具有第一分辨率的初始视差，所述目标像素与所述参考像素相对应；使用残差模型从所述第一图像和所述第二图像估计具有比所述第一分辨率小的第二分辨率的残差，所述残差是所述参考像素和目标像素之间的初始视差和实际视差之间的估计差；以及基于所述残差校正所述初始视差，以获得最终视差。

估计残差可包括：从第一图像提取包括参考像素的第一图像小块；从第二图像提取包括目标像素的第二图像小块；以及使用所述残差模型从所述第一图像小块和所述第二图像小块估计所述残差。

提取第一图像小块可以包括从第一图像提取以参考像素为中心的图像小块作为第一图像小块，并且提取第二图像小块可包括从第二图像提取以目标像素为中心的图像小块作为第二图像小块。

估计初始视差可以包括以单个像素单元估计所述初始视差，并且估计所述残差包括以子像素单元估计所述残差。

视差估计方法还可以包括：从所述第一图像和所述第二图像估计指示所述初始视差为假的概率的假视差信息；响应于所述假视差信息超过假阈值水平，而不再进一步使用所述初始视差；以及响应于所述假视差信息没有超过假阈值水平，估计所述残差。

在另一总体方面，由处理器执行的训练残差模型的方法包括：从立体参考图像的第一参考图像和立体参考图像的第二参考图像估计初始视差；从第一参考图像提取第一参考图像小块；从第二参考图像提取第二参考图像小块；使用实现为神经网络的残差模型从所述第一参考图像小块和所述第二参考图像小块估计残差；基于所述残差校正初始视差，以获得估计的视差；计算损失函数的值，所述损失函数是第一参考图像和第二参考图像的正确标注视差与所估计的视差之间的差的函数；以及训练残差模型的神经网络，以最小化损失函数的值。

训练残差模型的方法还可以包括使用第一特征模型从第一参考图像小块提取与第一特征点相对应的第一特征数据；使用第二特征模型从第二参考图像小块提取与第二特征点相对应的第二特征数据，所述第二特征点与所述第一特征点相对应；以及级联第一特征数据和第二特征数据以获得级联特征数据，其中估计所述残差可包括将级联特征数据输入残差模型，以使残差模型输出残差。

训练残差模型的方法还可以包括：使用假视差检测模型从第一参考图像和第二参考图像估计指示初始视差为假的概率的假视差信息，其中所述损失函数是单个损失函数，所述单个损失函数是所述正确标注视差和所述初始视差之间的差、以及指示所述初始差异为假的概率的参考假视差信息与所估计的假视差信息的交叉熵误差两者的函数，计算损失函数的值可包括计算单个损失函数的值，并且训练残差模型的神经网络可包括训练残差模型的神经网络和假视差检测模型两者以最小化单个损失函数的值。

训练残差模型的方法还可以包括：使用第一特征模型从第一参考图像小块提取与第一特征点相对应的第一特征数据；使用第二特征模型从第二参考图像小块提取与第二特征点相对应的第二特征数据，所述第二特征点与所述第一特征点相对应；以及级联第一特征数据和第二特征数据以获得级联特征数据，其中估计所述残差可包括将级联特征数据输入残差模型，以使残差模型输出残差，并且估计假视差信息可包括将级联特征数据输入假视差检测模型，以使假视差检测模型输出估计的假视差信息。

其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。

附图说明

图1是示出了视差估计装置的配置的示例的框图。

图2是示出了视差估计装置的配置的另一示例的框图。

图3示出了视差估计过程的示例。

图4示出了除图3的视差估计处理之外的估计假视差信息的过程的示例。

图5示出了训练残差模型和假视差检测模型的过程的示例。

图6是示出了视差估计方法的示例的流程图。

图7示出了基于校正的视差计算深度的过程的示例。

图8示出了除图7的过程之外的检测假视差的示例。

图9示出了视差估计装置以子像素单元估计视差的示例。

贯穿附图和具体描述，相同的附图标记表示相同的元件。附图不必按比例绘制，并且为了清楚、示出和方便，可以扩大附图中的元件的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述以帮助读者获得对本文所描述的方法、装置和/或系统的全面理解。然而，在理解了本申请的公开内容之后，本文描述的方法、装置和/或系统的各种变型、改型和等同物将是显而易见的。例如，本文所述的操作的顺序仅仅是示例，并不限于本文中阐述的那些顺序，而是可以被改变成在理解本申请的公开内容之后将是显而易见的顺序，除了期望操作必须以某一顺序出现之外。此外，为了更加清楚和简洁，可以省略本领域已知的特征的描述。

本文所述的特征可以以不同的形式来体现，并且不被解释为限于本文所述的示例。相反，本文所述的示例仅仅是为了说明实现本文所述的方法、装置和/或系统的许多可能方式中的一些方式而提供的，这些方法、装置和/或系统在理解了本申请的公开内容之后将是显而易见的。

本文中所使用的术语仅仅是用于描述各种示例，而不用于限制本公开。除非上下文另有明确说明，否则冠词“一”、“一个”和“该”旨在也包括复数形式。术语“包括”、“包含”和“具有”表示所阐述的特征、数量、操作、构件、元素和/或其组合的存在，但是不排除一个或多个其它特征、数量、操作、构件、元素和/或其组合的存在或添加。

除非另外定义，否则本文使用的所有术语(包括技术术语和科学术语)具有与本申请的公开所属领域的普通技术人员通常所理解的基于对本申请的公开的理解相同的含义。诸如在常用词典中定义的术语应被解释为其含义与在相关技术和/或本申请的上下文中的含义相同，而不应将被解释为理想的或过于正式的含义，除非本文明确如此定义。

从以下描述中将显而易见的是，本申请描述了由处理器执行的视差估计方法的示例以及处理器实现的视差估计装置，其至少由于以下操作而具有改善的性能：通过在由立体相机捕获的立体图像的两个图像之间执行立体匹配来估计初始视差，使用残差模型估计残差，所述残差是两个图像之间的初始视差与实际视差之间的估计差，以及基于残差校正初始视差以获得两个图像之间精确度提高的最终视差。残差模型可以是通过机器学习基于参考图像和与参考图像相对应的参考残差训练的神经网络。初始视差可以以单个像素单元来估计，并且残差可以以子像素单元来估计。最终视差的增加的精确度导致与参考像素和目标像素相对应的立体图像中的点的更精确的深度计算。

图1是示出了视差估计装置的配置的示例的框图。

参考图1，视差估计装置100包括图像获取器110和处理器120。

图像获取器110获取视差估计装置100的环境图像。例如，图像获取器110获取环境的第一图像和第二图像。在一个示例中，图像获取器110是立体相机，并且第一图像和第二图像分别是左图像和右图像，但是图像获取器110、第一图像和第二图像不限于此。

处理器120估计第一图像和第二图像之间的初始视差，并且估计所估计的初始视差的残差。

在以下描述中，视差是参考图像的任意点(例如，参考像素)和与参考图像相对应的目标图像的对应点(例如，目标像素)之间的位置差。例如，处理器120选择第一图像作为参考图像，并选择第二图像作为目标图像。参考像素是从第一图像中选择的用于确定视差的像素。目标像素是从第二图像中选择的与参考像素相对应的像素。换句话说，参考像素和目标像素与从不同视点观看的同一点相对应。

残差是通过估计初始视差的误差而获得的值。也就是说，残差是初始视差与实际视差之间的估计差。在一个示例中，处理器120通过将残差与初始视差相加来计算最终视差。

图2是示出了视差估计装置的配置的另一示例的框图。

参考图2，除了图像获取器110和处理器120之外，视差估计装置200还包括存储器230。

图像获取器110执行与图1中所描述的相同的操作。在一个示例中，图像获取器110包括第一相机211和第二相机212。第一相机211和第二相机212彼此间隔开预定距离，所述预定距离已知为基线。第一相机211通过捕捉视差估计装置200的环境图像来生成第一图像，并且第二相机212通过在与第一相机211间隔开预定距离或基线的位置处捕捉视差估计装置200的环境图像来生成第二图像。也就是说，第一相机211和第二相机212从不同的视点捕捉第一图像和第二图像。在一个示例中，当第一相机211和第二相机212彼此水平间隔开预定距离时，第一相机211生成左图像并且第二相机212生成右图像，但是第一相机211和第二相机212不限于此。在另一示例中，当第一相机211和第二相机212彼此垂直间隔开时，第一图像是上图像并且第二图像是下图像。

处理器120从第一图像提取包括参考像素的第一图像小块，并且从第二图像提取包括与参考像素相对应的目标像素在内的第二图像小块。例如，处理器120提取第一图像的矩形部分作为第一图像小块。此外，处理器120提取第二图像的矩形部分作为第二图像小块。第一图像小块和第二图像小块具有相同的尺寸和相同的分辨率。

在以下描述中，图像小块是通过裁剪整个图像而获得的部分图像。例如，第一图像小块是通过裁剪第一图像而获得的部分图像，并且第二图像小块是通过裁剪第二图像而获得的部分图像。

此外，处理器120从第一图像和第二图像估计参考像素和目标像素之间的初始视差，然后使用残差模型从第一图像小块和第二图像小块估计初始视差的残差。

在以下描述中，残差模型是输出从两个图像估计的初始视差的误差的模型。残差模型例如是已通过机器学习训练过的模型。残差模型包括机器学习结构的参数。例如，当使用神经网络作为机器学习结构时，残差模型包括神经网络中的节点之间的连接权重。

例如，残差模型包括机器学习结构(例如，神经网络)的参数，该机器学习结构被训练为响应于参考图像小块对的输入，输出与从参考图像对提取的参考图像小块对相对应的参考残差(即，从参考图像对估计的初始视差与参考视差之间的差)。参考视差是参考图像对的两个参考图像之间的实际视差。用于训练机器学习结构的训练数据包括参考图像小块对和参考残差。参考残差是提供为参考图像小块对的正确标注(ground truth)的残差。然而，残差模型的训练不限于此。下面将参考图5描述训练残差模型以及使用单个损失函数执行假视差检测模型的过程的示例。

存储器230存储残差模型。此外，存储器230临时存储用来通过使用残差模型估计残差的数据。

视差估计装置200根据从立体相机的第一相机211和第二相机212获取的第一图像和第二图像估计初始视差，估计初始视差的残差，并且基于残差校正初始视差，从而以相对高的精确度确定最终视差。视差估计装置200使用残差模型估计残差，因此与不考虑图像的特征、而基于损失函数的两个最低值之间拟合的损失曲线来估计最终视差的传统方法相比，使用残差模型估计残差可以确定更精确的最终视差。

图3示出了视差估计过程的示例。

参考图3，视差估计装置的处理器从如上描述的图像获取器接收第一图像301和第二图像302。在以下描述中，为了描述的方便，第一图像301和第二图像302分别表示左图像和右图像，但不限于此。

处理器估计第一图像301和第二图像302之间的初始视差。第一图像301和第二图像302之间的初始视差的估计被称为“立体匹配”310。例如，立体匹配是比较图像信息(例如，像素的强度或颜色)以找到对应点、或比较围绕中心像素的图像小块的图像信息(例如，强度或颜色)的操作。处理器使用多块匹配(MBM)方案来估计第一图像301和第二图像302之间的初始视差。例如，处理器估计第一图像301的参考像素和第二图像302的目标像素之间的初始视差。

处理器将第一图像310中包括参考像素的第一图像小块311与第二图像302中的搜索范围312进行比较，以确定包括目标像素的第二图像小块313，并估计与第一图像小块311和第二图像小块313之间的位置差相对应的初始视差。处理器估计与第一图像301中呈现的至少一个对象相对应的像素的初始视差。例如，处理器从第一图像301中提取特征点。特征点是与第一图像391的特征相对应的点，并且是与第一图像301中呈现的对象(例如，图3中的车辆)的一部分相对应的像素。处理器将与从第一图像301中提取的特征点相对应的像素确定为参考像素。例如，在图3中，处理器提取与从第一图像301中检测到的车辆相对应的对象区域的中心点作为特征点，但不限于此。因此，在另一示例中，处理器还可从第一图像301提取对象区域的至少一部分或全部点作为特征点。

此外，处理器确定第二图像302中的搜索范围312。处理器基于包括第一图像310的参考像素在内的第一图像小块311确定搜索范围312。例如，处理器将第二图像302中的搜索范围312确定为具有与第一图像301的参考图像小块311的上边界和下边界相同高度的上边界和下边界的区域。

处理器将包括参考像素的参考图像小块与分别对应于搜索范围312中包括的候选像素的每个候选图像小块进行比较。例如，候选像素是与第二图像302的搜索范围312中的参考像素位于相同高度的像素。尽管如图3所示，将第二图像302中与参考像素位于相同高度的像素的一部分确定为候选像素，在另一示例中，将与参考像素具有相同高度的所有像素确定为候选像素。候选图像小块是通过使用候选像素作为候选图像小块的中心点来裁剪搜索范围312而获得的部分图像。参考图像小块和候选图像小块具有相同的尺寸和相同的分辨率。在以下描述中，参考图像小块是用作立体匹配310的标准的图像小块，而候选图像小块是为了与参考图像小块进行比较而选择的图像小块。

处理器基于候选图像小块和参考图像小块之间的比较结果确定第二图像302中的目标像素。例如，处理器将每个候选图像小块与参考图像小块进行比较，并且基于比较结果来计算每个候选图像小块与参考图像小块之间的相似度。处理器将搜索范围312中对应于与参考图像小块具有最高相似度的候选图像小块的像素(例如，候选图像小块的中心点)作为目标像素。

处理器将第一图像301和第二图像302中的每一个裁剪为图像小块，其被称为“图像小块裁剪”320。例如，处理器从第一图像301中提取包括参考像素的第一图像小块311。此外，处理器从第二图像302中提取包括目标像素的第二图像小块313。

处理器使用残差模型330从第一图像小块311和第二图像小块313估计残差。处理器将第一图像小块311和第二图像小块313输入残差模型330。残差模型330被训练为响应于参考图像小块对的输入而输出参考残差。处理器以特征数据的形式将第一图像小块311和第二图像小块313输入到残差模型330，并使用残差模型330估计特征数据的残差。例如，处理器使用特征模型从第一图像小块和第二图像小块提取特征数据。以下将参考图5描述特征模型的示例。

处理器将第一图像小块311和第二图像小块313输入到残差模型330，并且残差模型330以子像素单元输出残差。以下将参考图9描述子像素单元的示例。

在操作340，处理器基于残差来校正初始视差，从而确定最终视差。例如，处理器通过将残差与初始视差相加来计算最终视差309。

处理器如图3所示计算最终视差309，并基于第一图像小块311和第二图像小块313估计假视差信息408。

例如，处理器使用假视差检测模型450来从第一图像小块311和第二图像小块313估计初始视差的假视差信息408。假视差信息408是与假初始视差相关联的信息，并且包括例如初始视差为假的概率。

假视差检测模型450是被训练为响应于参考图像小块对的输入而输出参考假视差信息的模型。参考假视差信息是预先生成的信息，并且包括例如从参考图像小块对估计的初始视差为假的概率。

处理器响应于基于所估计的假视差信息408确定所述初始视差为假，而不再进一步使用所述初始视差。

在一个示例中，当估计的假视差信息408超过阈值假水平时，处理器不再进一步使用所述初始视差。阈值假水平是用作假评判标准的水平，并且包括例如用作确定初始视差是否为假的标准的概率。

在另一个示例中，当估计的假视差信息408小于或等于阈值假水平时，处理器继续基于初始视差来估计残差。

图5示出了训练残差模型和假视差检测模型的过程的示例。

参考图5，残差模型534和假视差检测模型550被设计为具有机器学习结构以共享特征模型531和532(例如，可以是神经网络的特征提取网络)。机器学习结构如下所述。

在操作510，视差估计装置的处理器从第一参考图像501和第二参考图像502的输入图像对估计初始视差D_init，并执行图像小块裁剪520以基于初始视差D_init来将第一参考图像501和第二参考图像502的每个图像裁剪为图像小块。

处理器使用特征模型531和532从每个图像小块中提取特征数据，并执行级联操作533以通过将提取的特征数据级联来生成级联特征数据。例如，级联操作533可以通过级联模型来实现，该级联模型可以是神经网络，包括例如与特征模型531和特征模型532的输出节点相连的节点在内的完全连接层。例如，特征模型531和532被训练为从图像小块中提取低水平特征。低水平特征由通过例如点、线、纹理和颜色中的任何两个或更多个的任何一个或任何组合所表示的图像特征数据来呈现。

处理器将级联特征数据输入到残差模型534和假视差检测模型550，并使用残差模型534估计残差Δd以及使用假视差检测模型550估计假视差信息l_false。

训练装置训练如上所述配置的机器学习结构。例如，训练装置训练如图5中的机器学习结构，以响应于第一参考图像501和第二参考图像502的对(在下文中，称为“参考图像对”)的输入，输出与第一参考图像501和第二参考图像502相对应的参考视差D_GT。训练装置基于单个损失函数509训练特征模型531和532、残差模型534和假视差检测模型550。例如，当从第一参考图像501提取“n”个特征点时，训练装置使用等式1和2将损失函数509表示为L。在该示例中，n为大于或等于“1”的整数。

Pⁱ _EST表示第i个特征点的初始视差D_init为真的概率，并且i为大于或等于“1”且小于或等于“n”的整数。L_FID表示假初始视差标签。L_FID是针对由训练装置用来训练机器学习结构的训练集中的初始视差D_init给出的。更具体地，L_FID指示给定的初始视差是真还是假。因此，Prob(L_FID)表示初始视差D_init是假的概率，并且1-Prob(L_FID)表示初始视差D_init是真的概率。||||²表示L2范数，也称为欧几里得范数。此外，CE表示L_GT和L_EST之间的交叉熵损失，并且α表示常数。Dⁱ _GT表示第i个特征点的参考视差。Dⁱ _EsT表示通过在训练期间的任意周期中使用残差Δd来校正第i个特征点的初始视差D_init而获得的视差。L_GT表示参考假视差信息，并且L_EST表示在训练期间的任意周期中估计的假视差信息。

在初始视差D_init为真的概率较高的一个示例中，训练装置训练特征模型531和特征模型532、实现级联操作的级联模型533和残差模型534，使得参考视差DⁱGT等于基于等式1的的估计视差Dⁱ _EST。在初始视差D_init为假的概率较高的另一示例中，训练装置通过不再进一步基于/>陵用估计视差Dⁱ _EST来执行训练。仅当初始视差D_init为真的概率高时，训练装置才将估计视差Dⁱ _EST用于训练过程，因此可减少当参考视差Dⁱ _GT与估计视差Dⁱ _EST彼此相似时的估计误差。

训练装置基于与交叉熵相对应的等式1中的α·CE(L_GT，L_EST)来训练假视差检测模型550，以输出初始视差D_init为假的概率。

此外，训练装置使用常数α来校正在两个损失(例如和α·CE(L_GT，L_EST))之间的一定范围值内的差。换句话说，训练装置使用常数α来平衡两个损失。

图6是示出了视差估计方法的示例的流程图。

参考图6，在操作610中，视差估计装置的处理器从第一图像提取包括参考像素的第一图像小块。例如，处理器从第一图像提取特征点并将与特征点相对应的像素确定为参考像素。特征点例如是与第一图像中的对象相对应的区域的一部分。

在操作620，处理器从第二图像提取包括与参考像素相对应的目标像素在内的第二图像小块。例如，处理器通过立体匹配确定与第一图像的参考像素相对应的第二图像的目标像素。此外，处理器基于目标像素提取第二图像小块。例如，处理器使用目标像素作为第二图像小块的中心点来提取第二图像小块。

在操作630，处理器使用残差模型从第一图像小块和第二图像小块估计参考像素和目标像素之间的初始视差的残差。例如，处理器从第一图像小块和第二图像小块提取特征数据，并将提取的特征数据输入残差模型，残差模型基于输入的特征数据输出初始视差的残差。

图7示出了基于校正的视差计算深度的过程的示例。

在图7中，第一图像和第二图像分别为左图像701和右图像702，但不限于此。可以根据视差估计装置中包括的相机的布置来改变设计。

在操作710，视差估计设备以整像素单元估计初始视差。例如，视差估计装置通过基于从立体相机输出的左图像701和右图像702执行立体匹配来估计初始视差。

在操作720，视差估计装置基于初始视差将左图像701裁剪为左图像小块并将右图像702裁剪为右图像小块。

在操作730，视差估计装置使用从数据库(DB)705下载的残差模型以子像素单元从左图像小块和右图像小块估计残差。残差模型可具有例如深度神经网络结构。

在操作740，视差估计装置基于残差来校正初始视差。例如，视差估计装置通过将残差与初始视差相加来计算最终视差。

在操作750，视差估计装置的处理器基于最终视差计算与左图像701和右图像702的每个像素相对应的深度709。

视差估计装置针对从左图像701提取为特征点的全部像素重复执行操作710至750。视差估计装置计算从左图像701提取的所有像素中的每一个像素的深度709。计算的深度709被用于将左图像701和右图像702中的每一个中的对象建模为三维(3D)形状。

图8示出了除图7的过程之外的检测假视差的示例。

当初始视差近似于正确标注视差时，视差估计装置在图7中精确地计算最终视差和深度。当初始视差与正确标注视差大不相同时，残差的估计的精确度降低。为了避免精确度的降低，视差估计装置基于初始视差和正确标注视差之间的差来估计与初始视差相关联的假视差信息808。

在操作860，视差估计装置使用假视差检测模型从左图像小块和右图像小块估计假视差信息808。假视差检测模型可具有例如神经网络结构。由于假视差信息808指示初始视差为假的概率，因此假视差信息808与所计算的深度709的可靠性水平相对应。例如，当假视差信息808超过阈值假水平时，视差估计装置不再进一步使用初始视差。在该示例中，当左图像701和右图像702处于连续帧的当前帧中时，处理器暂停计算当前帧中的深度并且在下一帧中重新开始计算深度。

图9示出了视差估计装置以子像素单元估计视差的示例。

视差估计装置的处理器以整像素单元估计初始视差，并且以子像素单元估计残差。在以下描述中，整像素单元是由单个像素定义的单元，而子像素单元是比像素小的单元，例如是与任意距离与单个像素的比相对应的实数。也就是说，初始视差被表示为整数个像素，而残差被表示为像素的实数。残差可以表示为十进制数，可以是正数也可以是负数，可以小于1、等于1或大于1。

参考图9，为了描述的方便，第一图像901和第二图像902的每一个包括8×8个像素。此外，对象951和952分别呈现在第一图像901和第二图像902中。处理器通过立体匹配910估计第一图像901的参考点911和第二图像902的目标点921之间的初始视差。参考点911和目标点921之间的初始视差例如是基于整像素单元的“1”。此外，根据从第一图像901裁剪出的第一图像小块和从第二图像902裁剪出的第二图像小块所估计的残差920例如是基于子像素单元的“-0.8”。处理器通过基于残差920校正初始视差来确定最终视差为“0.2”，例如，通过将残差与初始视差相加来获得最终视差，即1+(-0.8)＝0.2。因此，视差估计装置确定与参考点911相对应的第二图像902的最终点922。然而，以上描述的初始视差、最终视差和残差920的值仅仅是示例。

根据上述示例，视差估计装置执行立体匹配以找到左图像和右图像中的对应点，从而使用立体相机来测量深度。视差估计装置中的处理器通过立体匹配以整像素单元估计初始视差。然而，当基于以整像素单元估计的初始视差计算深度时，深度分辨率取决于立体图像中的像素的物理尺寸。视差估计装置使用残差模型以子像素单元估计残差，从而可以更精确地估计最终视差和深度，因为最终视差的分辨率越高，深度的分辨率也越高。如上所述，精确估计的深度用于更精确的3D形状的建模。

此外，上述视差估计装置高效且精确地估计立体图像中每个像素的深度。视差估计装置可通过例如用于车辆的深度传感器或移动深度传感器来实现。

执行本申请中描述的操作的组件(图1中的视差估计装置100、图像获取器110和处理器120，图2中的视差估计装置200、图像获取器110、第一相机211、第二相机212、处理器120和存储器230，图3中的残差模型330，图4中的残差模型330和假视差检测模型450，图5中的特征模型531和532、级联模型、残差模型534和假视差检测模型550，图7中的数据库(DB)705，以及图8中的数据库(DB)705)由硬件组件来实现，所述硬件组件被配置为执行由硬件组件执行的本申请中描述的操作。在适当的情况下可用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请所述的操作的任何其它电子组件。在其它示例中，执行本申请中所述的操作的一个或多个硬件组件通过计算硬件来实现(例如，通过一个或多个处理器或计算机来实现)。处理器或计算机可以由以下项实现：一个或多个处理元件(比如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其它设备或设备的组合)。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件，诸如操作系统(OS)和在OS上运行的一个或多个软件应用程序，以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见，在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”，但是在其它示例中可以使用多个处理器或计算机，或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如，单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现，并且一个或多个其它硬件组件可以由一个或多个其它处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件具有不同的处理配置中的任何一种或多种，所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、和多指令多数据(MIMD)多处理。

执行本申请中所述的操作的图3至图8所示的方法是由计算硬件来执行的，例如，由如以上描述而实现的、执行指令或软件以执行本申请所述的操作(通过所述方法实现的操作)的一个或多个处理器或计算机来执行的。例如，单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器执行，并且一个或多个其它操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合，用于单独或整体指示或配置一个或多个处理器或计算机以作为机器或专用计算机操作从而执行由上述硬件组件和方法执行的操作。在一个示例中，指令或软件包括由一个或多个处理器或计算机直接执行的机器代码，例如由编译器产生的机器代码。在另一示例中，指令或软件包括由一个或多个处理器或者计算机使用解译器执行的更高级代码。可以基于附图中所示的框图和流程图以及说明书中的对应描述(其公开了用于执行由硬件组件执行的操作和如上所述的方法的算法)使用任何编程语言来编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘以及被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并向一个或多个处理器或计算机提供指令或软件以及任何关联的数据、数据文件和数据结构使得所述一个或多个处理器或计算机可以执行指令的任何其他设备。在一个示例中，指令或软件以及任何关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得一个或多个处理器或计算机以分布方式存储、访问和执行所述指令和软件以及任何关联的数据、数据文件和数据结构。

尽管本公开包括特定示例，但是在理解了本申请的公开内容之后将显而易见的是，在不脱离权利要求及其等同物的精神和范围的情况下，可以对这些示例进行形式和细节上的各种改变。本文描述的示例仅被认为是描述性的，而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其它示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其它组件或其等同物替换或补充，则可以实现合适的结果。因此，本公开的范围不是由详细描述来限定，而是由权利要求及其等同物来限定，并且在权利要求及其等同物的范围内的所有变化都被解释为包括在本公开中。

Claims

1.一种由处理器执行的视差估计方法，所述视差估计方法包括：

从第一图像提取包括参考像素的第一图像小块；

从第二图像提取包括与参考像素相对应的目标像素在内的第二图像小块；

以整像素单元估计所述参考像素和所述目标像素之间的初始视差；以及

使用残差模型，基于所述第一图像小块和所述第二图像小块，以比所述初始视差的所述整像素单元小的子像素单元估计所述初始视差的残差，所述残差是所述参考像素和所述目标像素之间的初始视差和实际视差之间的估计差。

2.根据权利要求1所述的视差估计方法，还包括通过基于所估计的残差校正所述初始视差来确定所述参考像素和所述目标像素之间的最终视差。

3.根据权利要求2所述的视差估计方法，还包括基于所述最终视差计算与所述第一图像和所述第二图像的每个像素相对应的深度。

4.根据权利要求1所述的视差估计方法，还包括估计所述第一图像的参考像素和所述第二图像的目标像素之间的初始视差。

5.根据权利要求4所述的视差估计方法，其中估计所述初始视差包括：

确定所述第二图像中的搜索范围；

将包括所述参考像素的参考图像小块与分别对应于所述搜索范围中包括的像素的每个候选图像小块进行比较；以及

基于所述比较的结果确定所述第二图像中的目标像素。

6.根据权利要求1所述的视差估计方法，其中估计所述残差包括：

使用特征模型从所述第一图像小块和所述第二图像小块提取特征数据；以及

使用所述残差模型从所述特征数据估计所述残差。

7.根据权利要求1所述的视差估计方法，还包括使用假视差检测模型从所述第一图像小块和所述第二图像小块估计所述初始视差的假视差信息。

8.根据权利要求7所述的视差估计方法，还包括响应于基于所估计的假视差信息确定所述初始视差为假，而不再进一步使用所述初始视差。

9.根据权利要求1所述的视差估计方法，其中，提取所述第一图像小块包括：

从所述第一图像提取特征点；以及

将所述第一图像中与所述特征点相对应的像素确定为所述参考像素。

10.一种存储指令的非暂时性计算机可读介质，当所述指令由处理器执行时，使所述处理器执行权利要求1所述的视差估计方法。

11.一种视差估计装置，包括：

图像获取器，被配置为获取第一图像和第二图像；以及

处理器，被配置为：

从所述第一图像提取包括参考像素的第一图像小块，

从所述第二图像提取包括与所述参考像素相对应的目标像素在内的第二图像小块，

以整像素单元估计所述参考像素和所述目标像素之间的初始视差，并且

12.根据权利要求11所述的视差估计装置，其中所述处理器还被配置为通过基于所估计的残差校正所述初始视差来确定所述参考像素和所述目标像素之间的最终视差。

13.根据权利要求12所述的视差估计装置，其中所述处理器还被配置为基于所述最终视差计算与所述第一图像和所述第二图像的每个像素相对应的深度。

14.根据权利要求11所述的视差估计装置，其中所述处理器还被配置为估计所述第一图像的所述参考像素和所述第二图像的所述目标像素之间的初始视差。

15.根据权利要求14所述的视差估计装置，其中所述处理器还被配置为：

确定所述第二图像中的搜索范围；

将包括所述参考像素的参考图像小块与分别对应于所述搜索范围中包括的像素的每个候选图像小块进行比较，以及

基于所述比较的结果确定所述第二图像中的目标像素。

16.根据权利要求11所述的视差估计装置，其中所述处理器还被配置为：

使用特征模型从所述第一图像小块和所述第二图像小块提取特征数据，以及

使用所述残差模型从所述特征数据估计所述残差。

17.根据权利要求11所述的视差估计装置，其中所述处理器还被配置为使用假视差检测模型从所述第一图像小块和所述第二图像小块估计所述初始视差的假视差信息。

18.根据权利要求17所述的视差估计装置，其中所述处理器还被配置为响应于基于所估计的假视差信息确定所述初始视差为假，而不再进一步使用所述初始视差。

19.一种由处理器执行的视差估计方法，所述视差估计方法包括：

以整像素单元估计第一图像中的参考像素与第二图像中的目标像素之间的初始视差，所述目标像素与所述参考像素相对应；

使用残差模型，基于所述第一图像和所述第二图像，以比所述初始视差的所述整像素单元小的子像素单元估计残差，所述残差是所述参考像素和所述目标像素之间的初始视差与实际视差之间的估计差；以及

基于所述残差校正所述初始视差，以获得最终视差。

20.根据权利要求19所述的视差估计方法，其中估计所述残差包括：

从所述第一图像提取包括所述参考像素的第一图像小块；

从所述第二图像提取包括所述目标像素的第二图像小块；以及

使用所述残差模型从所述第一图像小块和所述第二图像小块估计所述残差。

21.根据权利要求20所述的视差估计方法，其中提取所述第一图像小块包括从所述第一图像提取以所述参考像素为中心的图像小块作为所述第一图像小块，以及

提取所述第二图像小块包括从所述第二图像提取以所述目标像素为中心的图像小块作为所述第二图像小块。

22.根据权利要求19所述的视差估计方法，还包括：

从所述第一图像和所述第二图像估计指示所述初始视差为假的概率的假视差信息；

响应于所述假视差信息超过假阈值水平，而不再进一步使用所述初始视差；以及

响应于所述假视差信息没有超过假阈值水平，估计所述残差。