CN110287964A

CN110287964A - 一种立体匹配方法及装置

Info

Publication number: CN110287964A
Application number: CN201910511889.2A
Authority: CN
Inventors: 王晓鲁; 卢维; 殷俊; 张兴明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-27
Anticipated expiration: 2039-06-13
Also published as: CN110287964B

Abstract

本发明提供了一种立体匹配方法及装置，其中，该方法包括：获取场景图像的初始视差图；对所述场景图像进行实例分割得到分割结果；根据所述分割结果对所述初始视差图进行优化，得到目标视差图，可以解决相关技术中采用语义分割进行立体匹配时，容易出现位置相临近的不同目标实例的视差值相互影响的问题，能够区分不同的物体，对于估算视差，尤其是前景目标的视差，有很大的改善。

Description

一种立体匹配方法及装置

技术领域

本发明涉及双目立体视觉领域，具体而言，涉及一种立体匹配方法及装置。

背景技术

双目立体视觉是计算机视觉领域研究的关键技术。目前，已被广泛地应用在机器人视觉、自主车导航、三维测量、基于图像的建模和绘制等领域。

目前常见的立体匹配方法包括全局方法和局部方法。全局算法主要包括图割(GC)和置信传播(BP)方法等，准确率较高，但速度相对较慢。局部算法主要是利用局部信息进行匹配，速度较快，但是难以解决无纹理区域、重复模式和遮挡区域的匹配问题。

随着深度学习在识别、目标检测等领域不断的取得成功，深度学习逐渐被应用到立体匹配中。基于语义分割及神经网络的图像立体匹配中，语义分割图为神经网络提供了丰富的信息，且只对图像中感兴趣的区域进行处理，又采用了残差网络，使得匹配精度与速度都得到了提升。

然而，采用语义分割难以区分同类目标的不同实例，容易出现位置相临近的不同目标实例的视差值相互影响的情况，导致目标实例的位置分割不准确，立体匹配得到的视差图中目标实例的位置不准确。

针对相关技术中采用语义分割进行立体匹配时，容易出现位置相临近的不同目标实例的视差值相互影响的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种立体匹配方法及装置，以至少解决相关技术中采用语义分割进行立体匹配时，容易出现位置相临近的不同目标实例的视差值相互影响的问题。

根据本发明的一个实施例，提供了一种立体匹配方法，包括：

获取场景图像的初始视差图；

对所述场景图像进行实例分割得到分割结果；

根据所述分割结果对所述初始视差图进行优化，得到目标视差图。

可选地，根据所述分割结果对所述初始视差图进行优化，得到所述目标视差图包括：

将所述初始视差图与所述分割结果输入预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图。

可选地，将所述初始视差图与所述分割结果输入预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图包括：

将所述参考图像、所述初始视差图以及所述分割结果进行通道合并后组成一个多通道数组；

将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图。

可选地，将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图包括：

将所述多通道数组进行卷积层降采样和反卷积层上采样处理，得到所述目标视差图。

可选地，对所述场景图像进行实例分割得到分割结果包括：

对所述场景图像采用神经网络进行实例分割得到所述分割结果。

可选地，对所述场景图像进行实例分割得到分割结果包括：

对参考图像进行实例分割得到所述分割结果，其中，所述场景图像包括第一图像和第二图像，所述参考图像为所述第一图像或所述第二图像。

可选地，对所述参考图像进行实例分割得到所述分割结果包括：

通过掩模区域卷积神经网络(Mask Region Con-volutional Neural Networks，简称为Mask RCNN)将所述参考图像进行像素级别的分类；

在所述像素级别的分类基础上进行实例区分得到所述分割结果。

根据本发明的又一个实施例，还提供了一种立体匹配装置，包括：

获取模块，用于获取场景图像的初始视差图；

分割模块，用于对所述场景图像进行实例分割得到分割结果；

优化模块，用于根据所述分割结果对所述初始视差图进行优化，得到目标视差图。

可选地，所述优化模块，还用于

可选地，所述优化模块包括：

合并单元，用于将所述参考图像、所述初始视差图以及所述分割结果进行通道合并后组成一个多通道数组；

深度学习单元，用于将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图。

可选地，所述深度学习单元，还用于

可选地，所述分割模块，还用于

可选地，所述分割模块包括：

分类单元，用于通过Mask RCNN网络将所述参考图像进行像素级别的分类；

实例区分单元，用于在所述像素级别的分类基础上进行实例区分得到所述分割结果。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取场景图像的初始视差图；对所述场景图像进行实例分割得到分割结果；根据所述分割结果对所述初始视差图进行优化，得到目标视差图，可以解决相关技术中采用语义分割进行立体匹配时，容易出现位置相临近的不同目标实例的视差值相互影响的问题，能够区分不同的物体，对于估算视差，尤其是前景目标的视差，有很大的改善。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种立体匹配方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种立体匹配方法的流程图；

图3是根据本发明实施例的初始视差图优化的示意图；

图4是根据本发明实施例的语义分割和实例分割对比的示意图；

图5是根据本发明实施例的编解码结构网络的示意图；

图6是根据本发明实施例的立体匹配装置的框图；

图7是根据本发明优选实施例的立体匹配装置的框图一；

图8是根据本发明优选实施例的立体匹配装置的框图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种立体匹配方法的移动终端的硬件结构框图，如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的立体匹配方法，图2是根据本发明实施例的一种立体匹配方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取场景图像的初始视差图；

本发明实施例中对于计算初始视差图的方法不做具体限定，只要保证一定的准确率即可，因为准确的初始视差能够简化视差优化的过程。可以采用网络结构计算初始视差图，利用3D卷积和3D反卷积对构建的代价体进行处理，能够更好的利用图像的上下文信息，得到更好的代价立方体和视差结果。当然，也可以采用其他的网络结构处理。

步骤S204，对所述场景图像进行实例分割得到分割结果；

上述分割结果为显示出场景图像中的多个实例。

步骤S206，根据所述分割结果对所述初始视差图进行优化，得到目标视差图。

通过上述步骤S202至S206，对场景图像进行实例分割得到分割结果，根据分割结果对该场景图像的初始视差图进行优化，得到目标视差图，由于采用实例分割，可以解决相关技术中采用语义分割进行立体匹配时，容易出现位置相临近的不同目标实例的视差值相互影响的问题，能够区分不同的物体，对于估算视差，尤其是前景目标的视差，有很大的改善。

本发明实施例在语义分割的基础上，基于实例分割和深度神经网络的立体匹配，计算场景图像的初始视差图，计算参考图像(以左图为例)的实例分割结果，实例分割不但要进行像素级别的分类，还需要再具体类别的基础上区别开不同的实例。可选地，上述步骤S204具体可以包括：对所述场景图像采用神经网络进行实例分割得到该分割结果。

图3是根据本发明实施例的初始视差图优化的示意图，如3所示，将左图、初始视差图和分割结果按通道合并，输入编解码结构的网络中，进行优化，得到优化后的目标视差图。

本发明实施例中，上述步骤S204具体可以包括：

对参考图像进行实例分割得到所述分割结果，其中，所述场景图像包括第一图像和第二图像，所述参考图像为所述第一图像或所述第二图像，本发明实施例中第一图像可以为左图，第二图像可以为右图。

进一步地，上述步骤S304还可以包括：通过Mask RCNN网络将所述参考图像进行像素级别的分类，在所述像素级别的分类基础上进行实例区分得到所述分割结果。

像素级别的语义分割指的是对图像中每个像素都划分出对应的类别，即实现像素级别的分类；实例分割不但要进行像素级别的分类，还需要再具体类别的基础上区别开不同的实例。图4是根据本发明实施例的语义分割和实例分割对比的示意图，如图4所示，三张图片中a为原图，b为语义分割的分割结果，c为实例分割的分割结果。

实例分割是基于一个目标上的点的视差或者深度值是相近或具有一定的规律的。例如车辆目标，表面的视差是有一定的规律的，但是其表面往往比较光滑。光滑表面的立体匹配常常会出现错误，造成视差值的突变。实例分割的分割结果是将每个车辆目标的区域分别标记出来。相当于在图像中，给每个车辆目标所在的像素区域的视差估计添加了一个约束条件，约束目标上每个点的视差的取值。

本发明实施例中实例分割的分割结果是将一个个具体的目标分割出来，作为约束。利用图像分割的立体匹配方法最早是根据像素值的相似性，将图像分割成一个一个颜色相近的小块(超像素)。这类方法存在很大的缺陷，就是如果在图像中相临近的不同物体，可能视差相差较大。但如果颜色相近，则可能分割到同一个图像块中。因此就会产生错误的约束。在此基础上，基于语义分割的立体匹配方法很好的改善了上述缺陷。但是语义分割不能区分同一类别的不同物体。因此在相邻的同一类别的不同物体处，会出现匹配的错误。实例分割是基于目标的分割，能够区分不同的物体。对于估算视差，尤其是前景目标的视差，有很大的改善。

本发明实施例中采用Mask RCNN网络实现实例分割，Mask RCNN是基于FasterRCNN架构提出的网络结构，能够获得高质量的实例分割结果，并且易于实现和训练。当然，也可以采用其他实例分割的方法代替MaskRCNN，只要能够保证获得良好的分割结果即可。

可选地，上述步骤S206中具体可以包括：将所述初始视差图与所述分割结果输入预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图。进一步的，将所述参考图像、所述初始视差图以及所述分割结果进行通道合并后组成一个多通道数组；将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图。

更进一步地，将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图具体可以包括：将所述多通道数组进行卷积层降采样和反卷积层上采样处理，得到所述目标视差图。

本发明实施例，基于实例分割和深度学习的立体匹配，立体匹配的一般步骤包括：计算匹配代价、代价聚合、计算视差和视差精化四个步骤。基于深度学习的立体匹配，首先用卷积网络提取左右图的特征，然后利用左右特征图计算匹配代价，利用神经网络实现代价聚合，然后计算初始视差图，以及视差优化得到目标视差图。

下面以左图(或第一图像)作为参考图像，将左图、初始视差和实例分割的结果按通道合并后，组成一个多通道的数组。将该数组作为编解码网络结构的输入数据。网络可以从左图中学习到其他的语义信息，作为实例分割的补充，共同去优化初始视差，获得更加精细的视差结果。

编解码结构包含两部分：1)卷积层降采样；2)反卷积层上采样。图5是根据本发明实施例的编解码结构网络的示意图，如图5所示，编码部分是卷积层，特征图的尺寸逐渐减小，是降采样的过程。每个卷积模块包含两个步长为1的卷积层加上一个步长为2的卷积层线性整流函数(Rectified Linear Unit，简称为ReLU)，pooling层也应用在网络中，输入数据经过第一个卷积模块，高度和宽度变为原来的1/2，输出通道变为32。经过第二个卷积模块，高度和宽度变为原来的1/4，输出通道变为64。以此类推，经过第五个卷积模块后，高度和宽度变为原来的1/32，输出通道变为512。

解码部分利用反卷积层，特征图的尺寸逐渐变大，是上采样的过程。每个反卷积模块包含一个步长为2的反卷积层和两个步长为1的卷积层。每个反卷积模块的输入为上一个反卷积模块的输出结果和相对应的编码部分的特征层按通道合并后的结果。在编码(降采样)过程中，特征图的尺寸逐渐降低，因此会损失很多高频的细节信息。为了在反卷积的过程中补充上这些信息，所以会将前面的特征层合并到每个反卷积模块的输入中。这样可以保证输出结果在细节上的准确性。

最后一层解码部分的输出和原始输入的尺寸相同，和输入数据按通道合并，经过卷积层卷积，输出最终的视差图。

本发明实施例中，计算初始视差采用什么方法并不做限制。如果采用深度神经网络，则预先训练好网络模型。在训练过程中，只训练优化视差部分的参数即可。

本发明实施例中，预先训练好分割网络模型，训练时先指定要分割的类别，包括汽车、行人、非机动车等目标。

网络的前向传播过程为：左右图作为原始输入数据，输入到初始估算视差模块中，得到初始视差图。将左图输出实例分割模块，得到实例分割的分割结果。将左图、初始视差图和分割结果一起输入到视差优化模块中，经过编解码网络，输出最终的目标视差图。

初始视差图中，在一些光滑表面、低纹理区域等，容易出现一些匹配错误，使视差值出现突变。例如车窗表面，视差值应该是相近或者是呈现渐变规律的(由大变小或由小变大)。但是一般算法估算的结果常常会出现这样的情况：车窗中间位置的视差低于车窗边缘位置的值。出现这种结果的原因是车窗表面光滑，难以找到正确的匹配点。对于出现这种错误的初始视差图，实例分割的分割结果和根据原图卷积出来的特征图会作为一种约束。优化网络通过反向传播，不断的改变网络的参数。车窗上的视差计算错误，根据分割结果这部分视差应该是具有一定的规律的，网络的参数不断调整，使计算出的同一目标区域的视差满足这种规律，loss才会减小。通过多组样本不断的调整，使网络能够修正同一个物体的像素区域的视差值，从而改进视差结果。

本发明实施例采用了实例分割来辅助立体匹配，优化视差结果。相比于语义分割，实例分割能够区分不同的目标。在图像中，多个目标粘连在一起的时候，能够获取更加精细化的视差结果。

采用基于深度学习的分割方法，分割的准确性更好，还可以指定分割的类别。

在优化视差部分采用编解码的网络结构，先缩小后放大的结构可以减少网络的开销，学习到更多的信息，跳跃连接又保证了细节信息的不丢失，有利于优化视差图。

从原始左图提取特征，能够学习到一些语义信息，辅助优化视差结果，减小分割不准确对估算视差的负面影响。

实施例2

本发明实施例，还提供了一种立体匹配装置，图6是根据本发明实施例的立体匹配装置的框图，如图6所示，包括：

获取模块62，用于获取场景图像的初始视差图；

分割模块64，用于对所述场景图像进行实例分割得到分割结果；

优化模块66，用于根据所述分割结果对所述初始视差图进行优化，得到目标视差图。

可选地，所述优化模块66，还用于

图7是根据本发明优选实施例的立体匹配装置的框图一，如图7所示，所述优化模块66包括：

合并单元72，用于将所述参考图像、所述初始视差图以及所述分割结果进行通道合并后组成一个多通道数组；

深度学习单元74，用于将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图。

可选地，所述深度学习单元74，还用于

可选地，所述分割模块64，还用于

图8是根据本发明优选实施例的立体匹配装置的框图二，如图8所示，所述分割模块64包括：

分类单元82，用于通过Mask RCNN网络将所述参考图像进行像素级别的分类；

实例区分单元84，用于在所述像素级别的分类基础上进行实例区分得到所述分割结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取场景图像的初始视差图；

S2，对所述场景图像进行实例分割得到分割结果；

S3，根据所述分割结果对所述初始视差图进行优化，得到目标视差图。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取场景图像的初始视差图；

S2，对所述场景图像进行实例分割得到分割结果；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种立体匹配方法，其特征在于，包括：

获取场景图像的初始视差图；

对所述场景图像进行实例分割得到分割结果；

2.根据权利要求1所述的方法，其特征在于，根据所述分割结果对所述初始视差图进行优化，得到所述目标视差图包括：

3.根据权利要求2所述的方法，其特征在于，将所述初始视差图与所述分割结果输入预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图包括：

4.根据权利要求3所述的方法，其特征在于，将所述多通道数组输入所述预先训练好的编解码结构网络中进行深度学习，得到所述目标视差图包括：

5.根据权利要求1所述的方法，其特征在于，对所述场景图像进行实例分割得到分割结果包括：

6.根据权利要求5所述的方法，其特征在于，对所述场景图像进行实例分割得到分割结果包括：

7.根据权利要求5所述的方法，其特征在于，对所述参考图像进行实例分割得到所述分割结果包括：

通过掩模区域卷积神经网络将所述参考图像进行像素级别的分类；

8.一种立体匹配装置，其特征在于，包括：

获取模块，用于获取场景图像的初始视差图；

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。