CN108364310A

CN108364310A - 立体匹配方法和设备、图像处理设备及其训练方法

Info

Publication number: CN108364310A
Application number: CN201711145825.2A
Authority: CN
Inventors: 李元熙; 张现盛; 成映勋; 郑景夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-01-26
Filing date: 2017-11-17
Publication date: 2018-08-03
Also published as: US11900628B2; US20180211401A1; EP3355272A1; US20210398305A1; US11132809B2; KR20180087994A

Abstract

提供一种立体匹配方法和设备、图像处理设备及其训练方法。一种立体匹配方法包括：使用基于神经网络模型的特征提取器，获得与第一视图图像相关联的第一特征图和与第二视图图像相关联的第二特征图；使用第一特征图和第二特征图，确定第一视图图像的参考像素与第二视图图像的多个候选像素之间的各个匹配代价；基于确定的匹配代价，确定所述多个候选像素之中的与所述参考像素对应的像素。

Description

立体匹配方法和设备、图像处理设备及其训练方法

本申请要求于2017年1月26日提交到韩国知识产权局的第10-2017-0012468号韩国专利申请的权益，该韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及图像处理技术。

背景技术

立体匹配是用于从二维(2D)图像获得深度信息的方法。立体匹配从至少两个图像检测对应点，并基于对应点从该至少两个图像估计对象的深度。在立体图像中存在从不同视图捕获的同一对象。由于双眼视差(binocular disparity)，当对象位于更靠近相机时，产生立体图像的图像之间的大的位移差，当对象位于更远离相机时，产生图像之间的小的位移差。到对象的深度可基于视差来计算，其中，视差是一个视图图像中的像素与另一视图图像中的对应像素之间的距离差。

发明内容

提供本发明内容从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本发明内容不意在标识所要求保护的主题的关键特征或必要特征，也不意在用于帮助确定所要求保护的主题的范围。

在一个总体方面，一种立体匹配方法包括：使用基于神经网络模型的特征提取器，获得与第一视图图像相关联的第一特征图和与第二视图图像相关联的第二特征图；使用第一特征图和第二特征图，确定第一视图图像的参考像素与第二视图图像的多个候选像素之间的各个匹配代价；基于确定的匹配代价，确定所述多个候选像素之中的与所述参考像素对应的像素。

第一特征图可包括所述参考像素的特征矢量，第二特征图可包括所述多个候选像素的各自的特征矢量，确定各个匹配代价的步骤可包括：基于所述参考像素的特征矢量与所述多个候选像素的各自的特征矢量之间的各个差，确定匹配代价。

确定像素的步骤可包括：将所述多个候选像素之中的具有最低匹配代价的候选像素确定为与所述参考像素对应的像素。

特征提取器可被配置为：接收第一视图图像的图像信息作为输入；基于输入的图像信息，确定所述参考像素的特征矢量；基于所述参考像素的特征矢量，产生第一特征图。

特征提取器可被配置为：接收第二视图图像的图像信息作为输入；基于输入的图像信息，确定所述多个候选像素的各自的特征矢量；基于所述多个候选像素的各自的特征矢量，产生第二特征图。

获得第一特征图和第二特征图的步骤可包括：基于第一视图图像的图像块区域(patch region)，获得第一特征图；基于第二视图图像的图像块区域，获得第二特征图。

特征提取器可被配置为：接收包括第一视图图像的所述参考像素的图像块区域的信息作为输入；基于输入的图像块区域的信息，确定所述参考像素的特征矢量；基于所述参考像素的特征矢量，产生第一特征图。

特征提取器还可被配置为：接收包括在包含所述参考像素的图像块区域中的像素的亮度信息、颜色信息和梯度信息中的任意一个或者任意两个或更多个的任意组合作为所述输入。

特征提取器可被配置为：接收分别包括第二视图图像的所述多个候选像素的多个图像块区域的信息作为输入；基于输入的所述多个图像块区域的信息，确定所述多个候选像素的各自的特征矢量；基于所述多个候选像素的各自的特征矢量，产生第二特征图。

特征提取器还可被配置为：接收包括在分别包含所述多个候选像素的所述多个图像块中的像素的亮度信息、颜色信息和梯度信息中的任意一个或者任意两个或更多个的任意组合作为所述输入。

第一特征图可包括关于包括在第一视图图像中的每个像素的特征矢量的信息，第二特征图可包括关于包括在第二视图图像中的每个像素的特征矢量的信息。

所述多个候选像素可以是位于包括第二视图图像中的与第一视图图像的所述参考像素对应的点的线上的像素。

确定各个匹配代价的步骤可包括：确定所述参考像素与当前的候选像素之间的初始匹配代价；基于与另一参考像素相关联的匹配代价信息，调节所述初始匹配代价，其中，所述另一参考像素与所述参考像素相邻。

所述立体匹配方法还可包括：基于所述参考像素和与所述参考像素对应的像素之间的视差，确定深度信息。

在另一总体方面，一种存储指令的非暂时性计算机可读介质，当所述指令由处理器执行时，使处理器执行上述方法。

在另一总体方面，一种立体匹配方法包括：使用基于神经网络模型的特征提取器，提取包括在第一视图图像中的参考像素的第一特征矢量和包括在第二视图图像中的多个候选像素中的每个候选像素的各自的第二特征矢量；基于提取的第一特征矢量与提取的第二特征矢量中的每个第二特征矢量之间的各自的矢量，确定所述多个候选像素之中的与所述参考像素对应的像素。

在另一总体方面，一种变换参数估计方法包括：从在不同时间获得的第一图像和第二图像提取特征点；使用基于神经网络模型的特征提取器，确定第一图像的多个特征点的各自的第一特征矢量和第二图像的多个特征点的各自的第二特征矢量；基于第一特征矢量和第二特征矢量，确定第一图像和第二图像中的对应特征点的特征点对；基于特征点对的对应特征点之间的位置差，估计变换参数。

特征提取器可被配置为：接收关于包括第一图像或第二图像的特征点的图像块区域的信息作为输入；基于输入的信息，确定特征点的特征矢量。

在另一总体方面，一种图像处理设备包括：处理器，被配置为：使用基于神经网络模型的特征提取器，获得与第一视图图像相关联的第一特征图和与第二视图图像相关联的第二特征图；使用第一特征图和第二特征图，确定第一视图图像的参考像素与第二视图图像的多个候选像素之间的各个匹配代价；基于确定的匹配代价，确定所述多个候选像素之中的与所述参考像素对应的像素。

第一特征图可包括所述参考像素的特征矢量，第二特征图可包括所述多个候选像素的各自的特征矢量，处理器还可被配置为：基于所述参考像素的特征矢量与所述多个候选像素的各自的特征矢量之间的各个距离，确定匹配代价。

在另一总体方面，一种包括基于神经网络模型的特征提取器的立体匹配设备的训练方法包括：将第一视图图像的包括参考像素的参考图像块区域输入到三个为一组的神经网络模型中的第一神经网络模型，以获得所述参考像素的第一特征矢量，其中，所述三个为一组的神经网络模型包括共享参数的三个神经网络模型；将第二视图图像的包括与第一视图图像的所述参考像素对应的正确的候选像素的正常值(inlier)图像块区域输入到所述三个为一组的神经网络中的第二神经网络模型，以获得正确的候选像素的第二特征矢量；将第二视图图像的包括与第一视图图像的所述参考像素不对应的错误的候选像素的异常值(outlier)图像块区域输入到所述三个为一组的神经网络中的第三神经网络模型，以获得错误的候选像素的第三特征矢量；计算第一特征矢量与第二特征矢量之间的第一距离；计算第一特征矢量与第三特征矢量之间的第二距离；训练第一神经网络模型、第二神经网络模型和第三神经网络模型，以减小第一距离并增加第二距离；将训练的第一神经网络模型、第二神经网络模型和第三神经网络模型中的一个应用于立体匹配设备的基于神经网络模型的特征提取器。

参考图像块区域还可包括第一视图图像的包围第一视图图像的参考像素的像素，正常值图像块区域还可包括第二视图图像的包围第二视图图像的正确的候选像素的像素，异常值参考区域还可包括第二视图图像的包围第二视图图像的错误候选像素的像素。

训练方法还可包括：重复计算第一距离的步骤、计算第二距离的步骤和训练第一神经网络模型、第二神经网络模型和第三神经网络模型的步骤，直到第一距离基本等于0。

第一神经网络模型、第二神经网络模型和第三神经网络模型中的每个可包括卷积层和具有连接到卷积层的输出的输入的线性整流函数(ReLU)层。

第一神经网络模型、第二神经网络模型和第三神经网络模型中的每个还可包括N个组的卷积层和线性整流函数(ReLU)层，在所述N个组中的每个组内，线性整流函数(ReLU)层的输入可连接到卷积层的输出，所述N个组可串联连接，使得：所述N个组中的第一组的卷积层的输入连接到第一神经网络模型、第二神经网络模型和第三神经网络模型中的对应一个的输入，所述N个组的第二组至第N组中的每个组的卷积层的输入连接到所述N个组的前一个组的线性整流函数(ReLU)层的输出，所述N个组的第N组的线性整流函数(ReLU)层的输出连接到第一神经网络模型、第二神经网络模型和第三神经网络模型中的对应一个的输出。

从下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出立体匹配设备的操作的示例的示图。

图2是示出立体匹配方法的示例的流程图。

图3是示出从不同的视图图像确定匹配代价的方法的示例的示图。

图4是示出基于神经网络模型的特征提取器的结构的示例的示图。

图5是示出变换参数估计方法的示例的流程图。

图6是示出变换参数估计方法的示例的示图。

图7是示出图像处理设备的配置的示例的示图。

图8是示出特征提取器的训练方法的示例的流程图。

图9是示出特征提取器的训练方法的另一示例的示图。

贯穿附图和具体实施方式，相同的附图参考标号表示相同的元件。为了清楚、说明和方便，附图可不按比例，并且附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开后，在此描述的方法、设备和/或系统的各种变化、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，操作的顺序不局限于在此阐述的顺序，而是除了必须按特定次序发生的操作之外，可如在理解本申请的公开后将清楚的那样对在此描述的操作的顺序进行改变。此外，为了更加清楚和简洁，本领域中已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，并且不被解释为受限于在此描述的示例。相反，在此描述的示例仅被提供以示出在理解本申请的公开之后将清楚的那些实现在此描述的方法、设备和/或系统的许多可行方式中的一些方式。

这里可使用诸如第一、第二、A、B、(a)、(b)等术语来描述组件。这些术语中的每个术语不用于限定相应组件的本质、次序或顺序，而仅用于将相应组件与其它组件进行区分。例如，第一组件反而可被称为第二组件，相似地，第二组件反而可被称为第一组件。

如果说明书叙述了一个组件“连接”、“结合”或“接合”至另一组件，则第三组件可“连接”、“结合”或“接合”在第一组件与第二组件之间，或者第一组件可直接连接、结合或接合到第二组件而在第一组件与第二组件之间不存在第三组件。此外，如果说明书叙述了一个组件“直接连接”、“直接结合”或“直接接合”至另一组件，则在第一组件与第二组件之间不存在第三组件。同样地，诸如“在……之间”和“直接在……之间”以及“与……相邻”和“直接与……相邻”的表达将以类似的方式来解释。

在此使用的术语仅为了描述具体示例实施例的目的，不将用于限制本公开。除非上下文另外明确地指示，否则单数形式也意在包括复数形式。术语“包括”和/或“包含”指定存在所叙述的特征、数量、操作、元件、组件和/或它们的组合，但是不排除存在或添加一个或多个其他特征、数量、操作、元件、组件和/或它们的组合。

除非另外定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员在理解本申请的公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则诸如在通用字典中定义的术语将被解释为具有与在相关领域和本申请的公开的上下文中的含义一致的含义，而不将被解释为理想化或过于形式化的意义。

图1是示出立体匹配设备的操作的示例的示图。

参照图1的示例，立体匹配设备100接收立体图像120，并基于立体图像120确定深度信息。立体图像120包括从至少两个相机获得的不同视图图像(例如，左图像和右图像)。可在相同的时间在不同的位置或者从不同的视图或视点来捕获视图图像。例如，立体图像120可由立体相机来获得。

在另一示例中，立体匹配设备100基于包括至少三个不同视图图像的多视图图像来确定深度信息。为了描述的方便，将描述包括两个不同视图图像的立体图像的示例。

立体匹配设备100在立体图像120中检测对应像素的像素对，并基于视差来确定对象和背景的深度信息，其中，视差是像素对的对应像素之间的位置差。深度信息可用于渲染三维(3D)图像，或者估计从相机视图到对象或背景的距离。在一个示例中，深度信息用于使用车辆的导航系统中的立体相机估计距前方出现的车辆或障碍物的距离。在另一示例中，在组合了现实对象和虚拟对象的增强现实(AR)图像中，现实对象的深度信息用于确定图像中的将呈现虚拟对象的位置。立体匹配设备100可由至少一个硬件模图像块(诸如，处理器)来实现。

立体匹配设备100通过立体匹配来确定深度信息。立体匹配包括：提取包括在立体图像120中的每个像素的特征，并通过比较从立体图像120提取的特征并检测对应像素来估计视差。例如，立体匹配设备100检测右图像中的与包括在左图像中的像素对应的像素，或者检测左图像中的与包括在右图像中的像素对应的像素。为了检测这样的对应像素，立体匹配设备100使用像素的亮度信息、颜色信息或梯度信息，或者它们中的任意两个或更多个的组合。立体匹配设备100基于在检测到的对应像素之间的位置方面的差异(或者，位置差)来确定视差。在下文中，左图像和右图像中的任意一个将被称为第一视图图像，另一个将被称为第二视图图像。

立体匹配设备100使用基于神经网络模型的特征提取器110来执行立体匹配。可使用包括多个层的深度神经网络(DNN)模型作为神经网络模型。使用特征提取器119可以准确和快速地估计图像的特征。神经网络模型是根据生物神经网络的特性建模的统计模型。神经网络模型具有通过从输入信息输出期望的结果来解决问题的能力。为了提高这样的能力，神经网络模型对通过突触连接形成神经网络的人工神经元或节点执行训练或学习处理。通过训练处理，形成神经网络模型的参数值可更如期地被校正。

立体匹配设备100使用特征提取器110提取每个视图图像中的每个像素的特征或特征矢量，并确定像素之间的相似性，以用于通过特征距离计算来确定对应像素。立体匹配设备100通过使用神经网络模型更准确和更快速地提取视图图像的特征并使用具有相对低的计算复杂度的特征距离计算确定提取的特征之间的相似性，来降低计算复杂度，同时保持高的准确度。因此，可准确和快速地执行立体匹配。

在下文中，将参照图2至图4详细描述由立体匹配设备100执行的立体匹配方法。

图2是示出立体匹配方法的示例的流程图。

可通过参照图1描述的立体匹配设备100或将参照图7描述的图像处理设备700来执行将在下文中参照图2描述的立体匹配方法。参照图2，在操作210中，立体匹配设备使用基于神经网络模型的特征提取器来获得与不同的视图图像相关联的特征图。例如，立体匹配设备使用特征提取器来提取包括在第一视图图像中的每个像素的第一特征矢量和包括在第二视图图像中的每个像素的第二特征矢量，并且获得与第一视图图像相关联的第一特征图和与第二视图图像相关联的第二特征图。第一特征图包括关于包括在第一视图图像中的每个像素的第一特征矢量的信息，第二特征图包括关于包括在第二视图图像中的每个像素的第二特征矢量的信息。

在一个示例中，立体匹配设备获得由图像单元获取的第一视图图像的特征图。第一视图图像的图像信息被输入到特征提取器。特征提取器基于输入的图像信息确定形成第一特征图的特征矢量。第一视图图像的图像信息可以是包括在第一视图图像中的像素的像素信息，例如，像素信息包括像素的亮度信息、颜色信息或梯度信息，或者它们中的两个或更多个的组合。当第一视图图像的图像信息被输入时，特征提取器确定与包括在第一视图图像中的每个像素对应的特征矢量。例如，特征提取器基于包括在以第一视图图像的参考像素为中心的一部分(例如，图像块区域(patch region))中的像素的像素信息，来确定与参考像素对应的特征矢量。通过对其他像素执行在前述中描述的这样的方法，特征提取器确定与包括在第一视图图像中的每个像素对应的特征矢量。与特征提取器确定形成第一特征图的特征矢量的这样的方法相似，第二视图图像的图像信息被输入到特征提取器，特征提取器基于输入的第二视图图像的图像信息来确定形成第二特征图的特征矢量。

在另一示例中，立体匹配设备基于图像块区域获得特征图。图像块区域是包括多个像素的像素区域(例如，8×8像素块)。立体匹配设备基于第一视图图像的图像块区域获得第一特征图，并基于第二视图图像的图像块区域获得第二特征图。例如，以第一视图图像的参考像素为中心的图像块区域的信息被输入到特征提取器，特征提取器基于输入的图像块区域的信息来确定参考像素的特征矢量。包括在图像块区域中的像素的亮度信息、颜色信息或梯度信息，或者它们中的任意两个或更多个的组合，被输入到特征提取器。参考像素的特征基于邻近像素来确定，因此确定的参考像素的特征具有更准确的值的可能性被增加。相似地，以第二视图图像的候选像素为中心的图像块区域的信息被输入到特征提取器，特征提取器基于输入的图像块区域的信息来确定候选像素的特征矢量。包括在图像块区域中的像素的亮度信息、颜色信息或梯度信息，或者它们中的任意两个或更多个的组合，被输入到特征提取器。候选像素是第二视图图像的将作为比较的目标的像素，其中，该比较用于确定第二视图图像中的与第一视图图像的参考像素对应的像素。候选像素可以是位于包括第二视图图像中的与第一视图图像的参考像素对应的点的线上的像素。

在操作220和操作230中，立体匹配设备使用特征图来确定视图图像中的对应像素的像素对。立体匹配设备使用特征矢量之间的相似性来确定像素对，其中，像素之间的匹配代价用作相似性。立体匹配设备将第二视图图像的候选像素之中的具有最优匹配代价的像素确定为第二视图图像的与第一视图图像的参考像素对应的像素。

在操作220中，立体匹配设备使用与第一视图图像相关联的第一特征图和与第二视图图像相关联的第二特征图，来确定第一视图图像的参考像素与第二视图图像的候选像素之间的匹配代价。立体匹配设备计算参考像素的特征矢量与每个候选像素的特征矢量之间的差(或者，矢量距离)，并基于计算的差来确定匹配代价。例如，立体匹配设备计算特征矢量之间的欧几里得距离(Euclidean distance)作为参考像素的特征矢量与每个候选像素的特征矢量之间的差，并基于计算的欧几里得距离来确定匹配代价。立体匹配设备归一化计算的欧几里得距离，或者将权重施加到欧几里得距离。匹配代价可与欧几里得距离的值成比例，或者大的匹配代价指示作为用于比较的目标的两个像素之间的低的相似性。相反，小的匹配代价指示两个像素之间的高的相似性。

在另一示例中，在参考像素与候选像素之间的匹配代价被确定之后，立体匹配设备执行匹配代价优化或匹配代价聚合(aggregation)。例如，在匹配代价优化的情况下，立体匹配设备确定参考像素与候选像素之间的初始匹配代价，并基于与参考像素相邻的另一参考像素的匹配代价信息来调节该初始匹配代价。这样的方法提高匹配代价的准确性并降低错误信息的影响。

在局部匹配中，可主要执行匹配代价聚合。在半全局或全局匹配中，可主要执行匹配代价优化。在这样的全局方法中，根据需要，可在执行匹配代价优化之前执行匹配代价聚合。匹配代价聚合通常表示通过聚合位于单个像素p的预定范围内的像素p的邻近像素的匹配代价并确定与像素p的视差d对应的聚合的匹配代价AC(p,d)来确定新的匹配代价的方法。在一个示例中，聚合的匹配代价AC(p,d)被确定为与邻近像素的视差d对应的匹配代价的平均值。

在操作230中，立体匹配设备基于确定的匹配代价来确定第一视图图像与第二视图图像之间的对应像素的像素对。立体匹配设备将第二视图图像的候选像素之中的具有最优匹配代价的第二视图图像的候选像素确定为与参考像素对应的像素。例如，立体匹配设备将候选像素之中的具有最低的匹配代价的候选像素确定为与参考像素对应的像素。

通过对包括在第一视图图像中的所有图像块区域执行操作220和操作230，可确定第一视图图像与第二视图图像之间的对应像素的像素对。

在操作240中，立体匹配设备基于像素对的对应像素之间的视差来确定深度信息。在一个示例中，立体匹配设备基于参考像素和与参考像素对应的像素之间的视差来确定深度信息，并基于确定的深度信息来产生深度图。视差图可被使用，其中，该视差图包括关于包括在第一视图图像中的参考像素与包括在第二视图图像中的对应像素之间的视差的视差信息。

例如，立体匹配设备基于下面的等式1从视差确定深度值。

在等式1中，Z表示深度值，B表示基线，基线是分别捕获第一视图图像和第二视图图像的两个相机之间的距离，f表示相机焦距，d表示视差，s表示用于确定深度值的大小的比例元素，并且s具有预设的值。

参照图3，立体匹配设备使用基于神经网络模型的特征提取器330从不同的视图图像中的每个视图图像提取特征。关于包括第一视图图像310的像素312的图像块区域315的信息被输入到特征提取器330，特征提取器330提取与像素312对应的特征矢量。例如，在一个示例中，包括以包括在第一视图图像310中的每个像素为中心的图像块区域中的像素的亮度信息、颜色信息或梯度信息或者它们中的任意两个或更多个的组合的像素信息，被输入到特征提取器330。特征提取器330被预先训练，以基于输入的图像块区域的信息来输出与图像块区域对应的特征矢量。当特征提取器330确定包括在第一视图图像310中的每个像素的图像块区域的特征矢量时，获得与第一视图图像310相关联的第一特征图340。第一特征图340包括：包括在第一视图图像310中的像素的特征矢量。

相似地，关于包括第二视图图像320的像素322的图像块区域324的信息被输入到特征提取器330，特征提取器330输出与像素322对应的特征矢量。通过对包括在第二视图图像320中的所有像素执行这样的方法，获得与第二视图图像320相关联的第二特征图350。第二特征图350包括：包括在第二视图图像320中的像素的特征矢量。

在一个示例中，在第一视图图像310和第二视图图像320中的每个的宽度是W并且第一视图图像310和第二视图图像320中的每个的高度是H的假设下，包括在第一视图图像310和第二视图图像320中的每个视图图像中的像素的总数量是W×H。立体匹配设备使(2×W×H)个图像块区域通过特征提取器，以获得第一特征图340和第二特征图350。

在另一示例中，整个图像区域的信息被输入到特征提取器330，而不是图像块区域的信息被输入到特征提取器330。例如，包括在第一视图图像310中的所有像素的像素信息(或者，图像信息)被输入到特征提取器330，特征提取器330基于输入的图像信息来确定形成第一特征图340的特征矢量。相似地，包括在第二视图图像320中的所有像素的像素信息(或者，图像信息)被输入到特征提取器330，特征提取器330基于输入的图像信息来确定形成第二特征图350的特征矢量。

通过上述方法，立体匹配设备产生分别与视图图像310和视图图像320对应的特征图340和特征图350，并使用产生的特征图340和特征图350确定第一视图图像310与第二视图图像320之间的对应像素的像素对。例如，在如在图3中所示的操作360中，立体匹配设备通过比较第一视图图像310的像素的特征矢量和第二视图图像320的像素的特征矢量来确定匹配代价。匹配代价用于估计将被比较的像素之间的相似性。例如，立体匹配设备使用像素312的特征矢量345与像素322的特征矢量352之间的欧几里得距离L2或曼哈坦距离(Manhattan distance)L1，来估计第一视图图像310的像素312与第二视图图像320的像素322之间的相似性。

当在操作360中确定匹配代价时，立体匹配设备确定第一视图图像310的参考像素与第二视图图像320的对应于参考像素的每个候选像素之间的匹配代价。在像素312是参考像素的假设下，在第二视图图像320的位于包括与像素312的位置对应的点的线上的像素之中确定候选像素。例如，存在于第二视图图像320中的连接像素322与像素326的线上的像素被确定为候选像素。当关于以像素326为中心的图像块区域328的信息被输入到特征提取器330时，像素326的特征矢量354也被确定。

立体匹配设备计算单个参考值与多个候选像素中的每个候选像素之间的匹配代价。基于匹配代价的计算结果来计算匹配代价量(matching cost volumn)370。例如，通过具有参考像素与每个候选像素之间的匹配代价作为元素的(D×W×H)维矩阵结构来表示匹配代价量370。在矩阵结构中，W表示第一视图图像310和第二视图图像320的宽度，H表示第一视图图像310和第二视图图像320的高度，D表示搜索范围，其中，该搜索范围对应于将与参考像素比较的候选像素的数量。立体匹配设备通过执行(D×W×H)次的匹配代价计算来获得匹配代价量370。例如，在匹配代价量370中，基于像素312的特征矢量345和像素322的特征矢量352来确定匹配代价372，基于像素312的特征矢量345和像素326的特征矢量354来确定匹配代价374。在匹配代价量370中，作为参考像素的像素312与存在于像素322和像素326之间的候选像素之间的匹配代价作为匹配代价量370的元素存在于匹配代价372与匹配代价374之间。

匹配代价量370通过匹配代价优化(或者，匹配代价聚合)来调节。匹配代价优化确保像素之间的匹配代价的连续性以去除匹配代价的噪声，并调节匹配代价以便相同区域中的像素具有相似的匹配代价。可对所有匹配代价执行或者局部地执行匹配代价优化(或者，匹配代价聚合)。

立体匹配设备将候选像素之中的具有候选像素的匹配代价之中的最优匹配代价的候选像素确定为与参考像素对应的像素。例如，立体匹配设备将具有最低匹配代价的候选像素确定为与参考像素对应的像素。立体匹配设备基于相机参数和视差来确定深度信息，其中，视差是参考像素与对应于参考像素的像素之间的位置差。例如，相机参数可包括相机焦距、相机像素间距和相机基线。计算的深度信息用于获得深度图。

根据示例，可通过使用基于神经网络模型的特征提取器从不同的视图图像提取特征并在不使用神经网络模型的情况下通过简单操作确定匹配代价来实现降低计算复杂度，同时维持高的准确性。此外，还可实现更快速地执行立体匹配并且减少必要资源。

参照图4，以视图图像410的像素422为中心的图像块区域424的信息被输入到基于神经网络模型的特征提取器430，特征提取器430基于输入的图像块区域424的信息来输出与像素422对应的特征矢量f。实现特征提取器430的神经网络模型可具有卷积层和线性整流函数(ReLU)层重复连接的结构。例如，神经网络模型具有第一卷积层与第一ReLU层连接、第二卷积层连接到第一ReLU层并且第二ReLU层连接到第二卷积层的结构。卷积层对输入值执行卷积滤波，ReLU层从输入值丢弃负值并将正值传送到后续层。

更具体地，实现特征提取器430的神经网络模型可包括N个组的卷积层和线性整流函数(ReLU)层。在N个组中的每个组内，线性整流函数(ReLU)层的输入连接到卷积层的输出。N个组串联连接，使得N个组中的第一组的卷积层具有连接到神经网络模型的输入的输入，N个组中的第二组至第N组中的每个组的卷积层具有连接到N个组中的前一个组的线性整流函数(ReLU)层的输出的输入，N个组中的第N组的线性整流函数(ReLU)层具有连接到神经网络模型的输出的输出。

操作图1至图4描述的基于神经网络模型的特征提取器可用于使用在不同时间获得的图像来估计变换参数(诸如，相机运动参数和姿势变换参数)。因为图像之间可能存在时间间隔并且在时间间隔期间相机或对象可能运动，所以可能需要估计变换参数。将参照图5和图6详细描述使用特征提取器估计这样的变换参数的方法。

图5是示出变换参数估计方法的示例的流程图。可通过将参照图7描述的图像处理设备700来执行在下文中参照图5描述的变换参数估计方法。

参照图5，在操作510中，图像处理设备从在不同时间获得的第一图像和第二图像提取特征点。例如，在第一时间获得第一图像，在第一时间之后的第二时间获得第二图像。图像处理设备基于第一图像和第二图像中的每个图像的像素的亮度信息、颜色信息或梯度信息、或它们中的任意两个或更多个的组合，来提取边缘区域和角点区域(corner region)作为特征点。

例如，在一个示例中，图像处理设备使用哈里斯角点检测(Harris cornerdetection)、尺度不变特征变换(SIFT)和加速分割测试特征(features from acceleratedsegment test，FAST)，从第一图像和第二图像提取特征点。例如，图像处理设备使用SIFT来提取图像的局部特征。SIFT可用于提取特征点作为表示特征点周围的局部梯度分布的特性的特征。SIFT可将特征点周围的图像块区域划分为4×4个块，并确定与包括在每个块中的像素的梯度方向和梯度大小相关联的直方图。然后，SIFT可串联连接确定的直方图的二进制值，以获得128维矢量。

在操作520中，图像处理设备使用基于神经网络模型的特征提取器来确定第一图像的每个特征点的第一特征矢量和第二图像的每个特征点的第二特征矢量。关于包括第一图像的特征点的图像块区域的信息被输入到特征提取器，特征提取器基于输入的信息来确定与第一图像的特征点对应的特征矢量。相似地，关于包括第二图像的特征点的图像块区域的信息被输入到特征提取器，特征提取器基于输入的信息来确定与第二图像的特征点对应的特征矢量。

在操作530中，图像处理设备基于第一特征矢量和第二特征矢量，来确定第一图像和第二图像中的对应特征点的特征点对。图像处理设备使用第一特征矢量和第二特征矢量，在第二图像的特征点之中确定第二图像的最靠近第一图像的特征点的特征点。例如，如上所述，图像处理设备计算第一特征矢量与第二特征矢量之间的矢量距离(例如，欧几里得距离)，并基于计算的矢量距离来确定第一图像和第二图像中的对应特征点的特征点对。图像处理设备在第二图像的候选特征点之中确定具有距参考特征点最小矢量距离的候选特征点作为与第一图像的参考特征点对应的特征点。

在另一示例中，图像处理设备额外地执行异常值(outlier)去除处理。异常值去除处理可用于通过识别不满足预定规则的特定特征点对，来提高匹配特征点的准确性。例如，在参考特征点与候选特征点之间的矢量距离大于阈值的情况下，尽管矢量距离小于其他候选特征点与参考特征点之间的其他矢量距离，但是图像处理设备确定该候选特征点不对应于参考特征点。

在操作540中，图像处理设备基于特征点对的对应特征点之间的位置差来估计变换参数。图像处理设备基于被确定为在第一图像和第二图像中彼此对应的对应特征点的特征点对的位置信息来估计变换矩阵。位置信息通过矩阵来表示。通过应用矩阵操作，用于估计第一图像与第二图像之间的变换关系的变换矩阵可被计算。

图6是示出变换参数估计方法的示例的示图。

参照图6，图像处理设备从第一图像610提取第一特征点(例如，第一特征点612和第一特征点616)，并从第二图像620提取第二特征点(例如，第二特征点622和第二特征点626)。图像处理设备使用各种特征点提取方法中的任意的特征点提取方法来提取特征点。关于包括特征点的图像块区域的信息被输入到基于神经网络模型的特征提取器630，特征提取器630输出与特征点对应的特征矢量。例如，如在图6中所示，包括在图像块区域614中的像素的亮度信息、颜色信息或梯度信息、或者它们中的任意两个或更多个的组合，作为关于以第一图像610的第一特征点612为中心的图像块区域614的信息被输入到特征提取器630，特征提取器630输出与第一特征点612对应的特征矢量。特征提取器630对从第一图像610提取的每个第一特征点重复地执行这样的方法，以确定与第一图像610的每个第一特征点对应的特征矢量。

相似地，关于以第二图像620的第二特征点622为中心的图像块区域624的信息被输入到特征提取器630，特征提取器630输出与第二特征点622对应的特征矢量。特征提取器对从第二图像620提取的每个第二特征点重复地执行这样的方法，以确定与第二图像620的每个第二特征点对应的特征矢量。

在操作640中，图像处理设备比较第一特征点的特征矢量和第二特征点的特征矢量，并确定对应特征点的特征点对。在一个示例中，图像处理设备计算特征矢量之间的矢量距离，并将具有最小矢量距离的特征点对确定为第一图像610和第二图像620中的对应特征点的特征点对。

图像处理设备在确定特征点对之后额外地执行异常值去除处理。在一个示例中，图像处理设备从一组特征点对排除在第一图像610与第二图像620之间确定的特征点对之中的具有大于或等于阈值的矢量距离的特征点对。例如，如在图6中所示，第一特征点612的特征矢量与第二特征点622的特征矢量之间的矢量距离小于阈值，因此特征点612和特征点622的特征点对继续位于该组特征点对中。然而，第一特征点616的特征矢量与第二特征点626的特征矢量之间的矢量距离大于阈值，因此特征点616和特征点626的特征点对从该组特征点对去除。

在操作650中，在执行异常值去除处理之后，图像处理设备基于包括在该组特征点对中的特征点对的对应特征点之间的位置差来估计变换参数。估计的变换参数可用于校正或转换图像。可估计多于一个的变换参数(例如，相机运动参数和姿势变换参数)。

图7是示出图像处理设备的配置的示例的示图。

参照图7，图像处理设备700包括：传感器710、处理器720和存储器730。传感器710、处理器720和存储器730通过通信总线740相互通信。

传感器710捕获图像。在一个示例中，传感器710捕获立体图像，并且传感器710包括用于捕获第一视图图像的第一传感器和用于捕获第二视图图像的第二传感器。例如，第一传感器和第二传感器可以是图像传感器、接近传感器和红外传感器中的任意一个或者任意两个或更多个的任意组合。传感器710使用公知的方法(例如，将光学图像转换为电信号的方法)来捕获立体图像。传感器710将获得的彩色图像、获得的深度图像和获得的红外图像中的任意一个或者任意两个或更多个的任意组合传送到处理器720和存储器730中的任意一个或两者。

处理器720处理与立体匹配或变换参数估计相关联的操作。在一个示例中，处理器720使用基于神经网络模型的特征提取器将立体图像转换为特征图，并基于包括在特征图中的特征矢量来计算匹配代价。处理器720基于计算的匹配代价来确定立体图像中的对应像素的像素对，并基于确定的像素对的对应像素之间的视差来估计深度信息。

在另一示例中，处理器720从在不同时间捕获的图像提取特征点，并使用特征提取器来确定分别与特征点对应的特征矢量。处理器720通过比较图像的特征矢量来确定图像中的对应特征点的特征点对，并基于确定的对应特征点的特征点对的信息来估计变换参数。

处理器720执行操作图1至图6描述的至少一个操作，因此为了简明，这里省略更详细的和重复的描述。处理器720执行指令或程序，并控制图像处理设备700。

存储器730存储在立体匹配或变换参数估计中使用的信息和结果。此外，存储器730存储计算机可读指令。当存储在存储器730中的计算机可读指令由处理器720执行时，处理器720执行上述的至少一个操作。

图像处理设备700通过输入和/或输出装置(未示出)接收用户输入，或者输出图像和处理结果。此外，图像处理设备700通过通信装置(未示出)连接到外部装置(例如，个人计算机(PC)和网络)，并与外部装置交换数据。

图8是示出特征提取器的训练方法的示例的流程图。

将参照图8在下文中描述的训练方法可由训练设备执行，并且可被执行以训练可用于在此描述的示例中的特征提取器。训练包括：更新实现特征提取器的神经网络模型的参数，使得特征提取器输出更加正确的结果。在一个示例中，训练方法用于使用不同的视图图像的对应图像块区域之间的关系来离线训练特征提取器。

参照图8，在操作810中，训练设备确定用于训练的立体图像中的图像块区域。训练设备确定以第一视图图像和第二视图图像中的每个视图图像中的像素为中心的图像块区域。在操作820中，训练设备使用基于神经网络模型的特征提取器来确定与图像块区域对应的特征矢量。关于图像块区域的信息被输入到特征提取器，特征提取器输出图像块区域的中心像素的特征矢量。

在操作830中，训练设备基于确定的特征矢量来训练特征提取器。在训练中，第一视图图像和第二视图图像中的对应图像块区域已知，因此训练设备更新神经网络模型的参数，使得特征提取器针对对应图像块区域输出相似的特征矢量。此外，训练设备更新神经网络模型的参数，使得第一视图图像和第二视图图像中的彼此不对应的图像块区域的特征矢量之间的差增加。这样的更新处理包括调节包括在神经网络模型中的人工神经元之间的连接权重。

在一个示例中，训练设备通过反向传播学习来调节人工神经元之间的连接权重。反向传播学习用于针对给定的训练数据通过估计前向计算的损失并将估计的损失从神经网络模型的输出层开始反向传播到更低的层，来调节人工神经元之间的连接权重，以减少损失。训练设备定义用于测量当前设置的连接权重是否接近于最优值的目标函数，并连续地调节连接权重，直到目标函数获得满意的结果。

图9是示出特征提取器的训练方法的另一示例的示图。

参照图9，训练设备使用三个为一组的神经网络模型来训练基于神经网络模型的特征提取器930。通过共享三个神经网络模型和参数的三个为一组的神经网络模型来配置形成特征提取器930的神经网络模型。三个神经网络模型中的每个可具有与在图4中所示的基于神经网络模型的特征提取器430相同的结构。

在一个示例中，如在图9中所示，对于第一神经网络模型，关于以包括在第一视图图像910中的参考像素912为中心的参考图像块区域914的信息被输入。对于第二神经网络模型，关于以包括在第二视图图像920中的正确(true)的候选像素922为中心的正确的候选图像块区域924的信息被输入。对于第三神经网络模型，关于以包括在第二视图图像920中的错误(false)的候选像素926为中心的错误的候选图像块区域928的信息被输入。正确的候选图像块区域924是用于正常值(inlier)的检测的图像块区域，其中，正常值用于确定正确的视差。相反，错误的候选图像块区域928是用于异常值的检测的图像块区域，其中，异常值用于有效辨识错误的视差。例如，在存在128个候选图像块区域的情况下，一个候选图像块区域是用于正常值的检测的图像块区域，剩余的127个候选图像块区域是用于异常值的检测的图像块区域。

从第一神经网络模型、第二神经网络模型和第三神经网络模型输出的特征矢量分别被称为f₁、f₂和f₃。训练设备计算f₁与f₂之间的特征矢量距离d₁和f₁与f₃之间的特征矢量距离d₂。训练设备训练形成特征提取器930的三个为一组的神经网络模型，使得特征矢量距离d₁具有接近于0的值(即，基本等于0)，并且特征矢量距离d₂具有高的值。训练设备可使用在图8中所示的训练方法来训练三个为一组的神经网络模型的第一神经网络模型、第二神经网络模型和第三神经网络模型。

通过图9中所示的三个为一组的神经网络模型来训练特征提取器930的特征提取处理，特征提取器930可被有效地训练为允许与实际对应于参考图像块区域的正确的图像块区域(或者，正常值)相关联的匹配代价小于与不对应于参考图像块区域的错误的图像块区域(或者，异常值)相关联的匹配代价。

在一个示例中，包括在被训练的特征提取器930中的三个神经网络模型中的一个可用于参照图1至图7描述的特征提取处理。

通过被配置为执行在本申请中描述的由硬件组件执行的操作的硬件组件来实现执行在本申请中描述的图1中的立体匹配设备100和基于神经网络模型的特征提取器、图3中的基于神经网络模型的特征提取器330、图4中的基于神经网络模型的特征提取器、图6中的基于神经网络模型的特征提取器630、图7中的传感器710、处理器720、存储器730和通信总线740以及图9中的基于神经网络模型的特征提取器930。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括：控制器、传感器、产生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中，执行在本申请中描述的操作的一个或多个硬件组件通过计算机硬件(例如，通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合，来实现处理器或计算机。在一个示例中，处理器或计算机包括或被连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器和计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行在本申请中描述的操作。硬件组件还可响应于指令或软件的执行，访问、操纵、处理、创建和存储数据。为了简明，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述，但在其他示例中，可使用多个处理器或多个计算机，或者一个处理器或一个计算机可包括多个处理元件或多种类型的处理元件或者两者。例如，可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器，来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者一个处理器和一个控制器，来实现一个或多个硬件组件，并且可通过一个或多个其他处理器、或者另一处理器和另一控制器，来实现一个或多个其他硬件组件。一个或多个处理器、或者一个处理器和一个控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，不同的处理配置的示例包括：单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

通过计算硬件(例如，通过一个或多个处理器或计算机)来执行在图2至图6、图8和图9中示出的执行本申请中描述的操作的方法，其中，计算硬件被实现为如上所述地执行指令或软件，以执行在本申请中描述的由所述方法所执行的操作。例如，单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，并且一个或多个其他操作可通过一个或多个其他处理器或者另一处理器和另一控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作、或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或配置一个或多个处理器或计算机按照机器或专用计算机那样进行操作，以执行由硬件组件和如上所述的方法执行的操作。在一个示例中，指令或软件包括直接由一个或多个处理器或计算机执行的机器代码，诸如，由编译器产生的机器代码。在另一示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中示出的框图和流程图以及说明书中的相应描述使用任意编程语言编写指令或软件，其中，附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由硬件组件和如上所述的方法执行的操作的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件、以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和任何其他设备，该任何其他设备被配置为以非暂时方式存储指令或软件、以及任何相关联的数据、数据文件和数据结构，并向一个或多个处理器或计算机提供指令或软件、以及任何相关联的数据、数据文件和数据结构，使得一个或多个处理器或计算机能够执行指令。在一个示例中，指令或软件、以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得指令和软件、以及任何相关联的数据、数据文件和数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。

尽管本公开包括特定的示例，但是在不脱离权利要求及其等同物的精神和范围的情况下，可在这些示例中做出形式和细节上的各种改变，这在理解本申请的公开之后将是清楚的。在此描述的示例被认为仅是描述性的，而非为了限制的目的。在每一个示例中的特征和方面的描述将被认为适用于其他示例中的相似特征和方面。如果描述的技术以不同的次序被执行，和/或如果在描述的系统、架构、装置、或电路中的组件以不同的方式组合，和/或被其他组件或者它们的等同物代替或补充，则可实现合适的结果。因此，本公开的范围不是通过具体实施方式所限定，而是由权利要求及其等同物限定，并且在权利要求及其等同物的范围内的所有变化将被解释为包括在本公开中。

Claims

1.一种立体匹配方法，包括：

使用基于神经网络模型的特征提取器，获得与第一视图图像相关联的第一特征图和与第二视图图像相关联的第二特征图；

使用第一特征图和第二特征图，确定第一视图图像的参考像素与第二视图图像的多个候选像素之间的各个匹配代价；

基于确定的匹配代价，确定所述多个候选像素之中的与所述参考像素对应的像素。

2.如权利要求1所述的立体匹配方法，其中，第一特征图包括所述参考像素的特征矢量，

第二特征图包括所述多个候选像素的各自的特征矢量，

确定各个匹配代价的步骤包括：基于所述参考像素的特征矢量与所述多个候选像素的各自的特征矢量之间的各个差，确定匹配代价。

3.如权利要求1所述的立体匹配方法，其中，确定像素的步骤包括：将所述多个候选像素之中的具有最低匹配代价的候选像素确定为与所述参考像素对应的像素。

4.如权利要求1所述的立体匹配方法，其中，特征提取器被配置为：

接收第一视图图像的图像信息作为输入；

基于输入的图像信息，确定所述参考像素的特征矢量；

基于所述参考像素的特征矢量，产生第一特征图。

5.如权利要求1所述的立体匹配方法，其中，特征提取器被配置为：

接收第二视图图像的图像信息作为输入；

基于输入的图像信息，确定所述多个候选像素的各自的特征矢量；

基于所述多个候选像素的各自的特征矢量，产生第二特征图。

6.如权利要求1所述的立体匹配方法，其中，获得第一特征图和第二特征图的步骤包括：

基于第一视图图像的图像块区域，获得第一特征图；

基于第二视图图像的图像块区域，获得第二特征图。

7.如权利要求6所述的立体匹配方法，其中，特征提取器被配置为：

接收包括第一视图图像的所述参考像素的图像块区域的信息作为输入；

基于输入的图像块区域的信息，确定所述参考像素的特征矢量；

基于所述参考像素的特征矢量，产生第一特征图。

8.如权利要求7所述的立体匹配方法，其中，特征提取器还被配置为：接收包括在包含所述参考像素的图像块区域中的像素的亮度信息、颜色信息和梯度信息中的任意一个或者任意两个或更多个的任意组合作为所述输入。

9.如权利要求6所述的立体匹配方法，其中，特征提取器被配置为：

接收分别包括第二视图图像的所述多个候选像素的多个图像块区域的信息作为输入；

基于输入的所述多个图像块区域的信息，确定所述多个候选像素的各自的特征矢量；

10.如权利要求9所述的立体匹配方法，其中，特征提取器还被配置为：接收包括在分别包含所述多个候选像素的所述多个图像块区域中的像素的亮度信息、颜色信息和梯度信息中的任意一个或者任意两个或更多个的任意组合作为所述输入。

11.如权利要求1所述的立体匹配方法，其中，第一特征图包括关于包括在第一视图图像中的每个像素的特征矢量的信息，

第二特征图包括关于包括在第二视图图像中的每个像素的特征矢量的信息。

12.如权利要求1所述的立体匹配方法，其中，所述多个候选像素是位于包括第二视图图像中的与第一视图图像的所述参考像素对应的点的线上的像素。

13.如权利要求1所述的立体匹配方法，其中，确定各个匹配代价的步骤包括：

确定所述参考像素与当前的候选像素之间的初始匹配代价；

基于与另一参考像素相关联的匹配代价信息，调节所述初始匹配代价，其中，所述另一参考像素与所述参考像素相邻。

14.如权利要求1所述的立体匹配方法，还包括：基于所述参考像素和与所述参考像素对应的像素之间的视差，确定深度信息。

15.一种存储指令的非暂时性计算机可读介质，当所述指令由处理器执行时，使处理器执行如权利要求1所述的立体匹配方法。

16.一种立体匹配方法，包括：

使用基于神经网络模型的特征提取器，提取包括在第一视图图像中的参考像素的第一特征矢量和包括在第二视图图像中的多个候选像素中的每个候选像素的第二特征矢量；

基于提取的第一特征矢量与提取的第二特征矢量中的每个第二特征矢量之间的矢量距离，确定所述多个候选像素之中的与所述参考像素对应的像素。

17.一种变换参数估计方法，包括：

从在不同时间获得的第一图像和第二图像提取特征点；

使用基于神经网络模型的特征提取器，确定第一图像的多个特征点的各自的第一特征矢量和第二图像的多个特征点的各自的第二特征矢量；

基于第一特征矢量和第二特征矢量，确定第一图像和第二图像中的对应特征点的特征点对；

基于特征点对的对应特征点之间的位置差，估计变换参数。

18.如权利要求17所述的变换参数估计方法，其中，特征提取器被配置为：

接收关于包括第一图像或第二图像的特征点的图像块区域的信息作为输入；

基于输入的信息，确定特征点的特征矢量。

19.一种图像处理设备，包括：

处理器，被配置为：

20.如权利要求19所述的图像处理设备，其中，第一特征图包括所述参考像素的特征矢量，

第二特征图包括所述多个候选像素的各自的特征矢量，

处理器还被配置为：基于所述参考像素的特征矢量与所述多个候选像素的各自的特征矢量之间的各个距离，确定匹配代价。