CN112149691B

CN112149691B - 用于双目视觉匹配的神经网络搜索方法及设备

Info

Publication number: CN112149691B
Application number: CN202011076376.2A
Authority: CN
Inventors: 陈雪莲; 刘从新; 戈宗元; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-10-15
Anticipated expiration: 2040-10-10
Also published as: CN112149691A

Abstract

本发明提供一种用于双目视觉匹配的神经网络搜索方法及设备，所述方法包括：获取训练数据，所述训练数据包括双目图像及相应的视差数据；利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构；通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异，优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛；根据第一权重参数集的值保留至少部分所述操作，以及根据第二权重参数集的值保留至少一条路径，并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。

Description

用于双目视觉匹配的神经网络搜索方法及设备

技术领域

本发明涉及神经网络搜索技术领域，具体涉及一种用于双目视觉匹配的神经网络搜索方法及设备。

背景技术

人类具有通过双眼观测、重建和理解三维世界的能力，对于场景的准确感知和重建对于人类的决策至关重要。双目视觉匹配(Stereo matching)致力于赋予计算机类似人类双眼的能力，其研究目标是由双目相机获得的二维彩色图像计算出视差图(disparitymap)。在获得了视差信息后，根据投影模型很容易地可以得到原始图像的深度信息和三维信息，因此该技术在三维场景重建、机器人、自动驾驶领域都有广泛的应用。双目视觉匹配不但是计算机视觉领域的一个难点问题，而且近二十年来一直是计算机视觉研究的重要问题之一。

双目视觉匹配通过遍历参考图像中的每一个像素，根据视差范围中的每一个视差值找到对应目标图像的像素，而后进行代价聚合计算。随着大规模数据集的出现、计算力的快速发展，卷积神经网络已经在双目视觉匹配中有所成效。目前大多数基于深度学习的双目视觉匹配方法大致分为两类，一是直接回归视差值，二是基于匹配代价量(cost volume)的方法。直接回归视差的方法是对输入图像中的每个像素直接回归，并不考虑双目视觉匹配中的几何约束。通常采用包含二维卷积的大型U形编码器和解码器网络来实现的。此类方法需要依靠大量数据驱动，且泛化能力较差。相反，基于匹配三维代价量的方法利用半全局匹配的概念，通过平移每个视差的特征，级联地构建四维特征量。

为减少人类在设计神经网络方面的工作，神经网络搜索(Neural ArchitectureSearch，NAS)被使用在一些基础视觉任务中，但直接使用神经网络搜索出一种用于双目视觉三维匹配的网络结构并非易事。通常，NAS需要大量的搜索空间以包含所有可能的架构，以选择合适的网络结构组件，如特定层中卷积的滤波器大小，这需要庞大的计算量。早期的NAS算法需要数千个GPU小时才能在CIFAR数据集上找到合适的架构。

除此之外，由于在基于深度学习的双目视觉匹配方法中，三维匹配代价量需要重复的使用大量浮点运算，且必须使用级联层来实例化这些计算以保证效果，从而导致大量算力的消耗。例如，仅仅每个批次中的三维匹配子网络就需要6到8GB的GPU内存来进行训练。由于现有的神经网络搜索方法对计算资源需求的爆炸性增长，端到端地搜索双目视觉匹配网络的结构被认为是不可能的任务。

发明内容

有鉴于此，本发明提供一种用于双目视觉匹配的神经网络搜索方法，包括：

获取训练数据，所述训练数据包括双目图像及相应的视差数据；

利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构，其中所述单元级搜索空间包括基本搜索单元，所述基本搜索单元是具有多个节点的完全连接的有向无环图，其中各个节点之间的边表示可选的操作，且各边对应于第一权重参数集，多个所述基本搜索单元层级排列构成所述网络级搜索空间，其中每个所述基本搜索单元与前一层中的上一级和下一级之间有路径连接，各级中的所述基本搜索单元的分辨率不同，各个路径对应于第二权重参数集，所述网络级搜索空间的超参数包括所述分辨率和层数；

通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异，优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛；

根据第一权重参数集的值保留至少部分所述操作，以及根据第二权重参数集的值保留至少一条路径，并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。

可选地，所述基本搜索单元包括多个中间节点，各个所述中间节点同时接收前两层基本搜索单元输出的特征数据。

可选地，所述基本搜索单元包括一个输出节点，所述输出节点是由本单元的每一个中间节点及其前一层的基本搜索单元的输出节点融合形成的。

可选地，对于特征提取网络和三维匹配网络，所述可选的操作不相同。

可选地，对于特征提取网络所述可选的操作包括二维卷积、零连接和残差连接；对于三维匹配网络所述可选的操作包括三维卷积、零连接和残差连接。

可选地，对于特征提取网络和所述三维匹配网络，所述层数不同。

可选地，所述可选的分辨率有三种，按层级由大到小设置，所述网络级搜索空间中相同级的所有基本搜索单元的分辨率相同。

可选地，将多个所述训练数据分为两部分，两部分训练数据被交替使用，其中第一部分训练数据用于优化所述网络权重，第二部分训练数据用于优化所述第一权重参数集和所述第二权重参数集。

可选地，当搜索过程收敛后，保留每个基本搜索单元中所有非零操作中的最大的两个第一权重参数对应的操作，解码得到离散的基本单元，并确定具有最大第二权重参数的路径得到离散的特征提取网络结构和三维匹配网络结构。

相应地，本发明提供一种用于双目视觉匹配的神经网络搜索设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述用于双目视觉匹配的神经网络搜索方法。

根据本发明提供的用于双目视觉匹配的神经网络搜索方法及设备，可以在搜索空间中加入特定于双目视觉匹配任务的分辨率和层数这些先验知识，以避免在针对高分辨率密集型预测任务的搜索体系结构中对计算资源的爆炸性需求，并且获得更高的准确性。并且整个搜索过程中仅仅需要优化一种类型的基本搜索单元，分辨率的选择则由网络级搜索来完成，具有更加灵活的搜索机制和更高的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个双目视觉匹配模型的结构示意图；

图2为本发明实施例中的用于双目视觉匹配的神经网络搜索方法的流程图；

图3为本发明实施例中的基本搜索单元和网络级搜索空间的示意图；

图4为本发明实施例中一个优选的架构搜索结果示意图；

图5为三维匹配模型识别视差数据的可视化效果图；

图6为本发明方案与现有技术的性能及速度对比图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1示出了一个双目视觉匹配模型，该模型主要包括四部分：两个特征提取网络11，用于从输入的双目图像中提取局部图像特征；由左、右特征图平移、错位级联而构成四维特征量；三维匹配网络12，通过一系列包含三维卷积的操作来计算匹配代价和代价聚合；以及投影层，将计算出的三维代价量投影变成二维视差图。由于仅在特征提取网络11和三维匹配网络12中包含可训练参数，因此使用NAS技术搜索这两个网络。

本发明实施例提供一种用于双目视觉匹配的神经网络搜索方法，用于搜索上述特征提取网络11和三维匹配网络12的结构。本方法可以由计算机或服务器等电子设备执行，如图2所示本方法包括如下步骤：

S1,获取训练数据，所述训练数据包括双目图像及相应的视差数据。训练数据可取自公开数据集，如SceneFlow数据集。每个训练数据包括两张图像(双目图像)及其真实视差数据(视差图，disparity map)。本实施例随机选择20000个双目图像对作为搜索训练集，选择另外1000个双目图像对作为搜索验证集。

S2,利用训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构。

具体地，单元级搜索空间包括基本搜索单元(简称为单元，cell)。本方案用于搜索特征提取网络11和三维匹配网络12的基本搜索单元的结构是相同的，如图3所示，基本搜索单元31是具有多个节点(输入节点

中间节点“0”、“1”、“2”和输出节点

)的完全连接的有向无环图，其中各个节点之间的边表示可选的操作(operation，比如卷积等)，且各边对应于第一权重参数集α。在收敛得到结构的过程中，两两节点中间所有的边都会存在并参与训练。每个边包含多种操作，并将所有操作的处理结果使用第一权重参数集α进行加权平均，第一权重参数集α是要训练的对象。

多个基本搜索单元层级排列构成网络级搜索空间，其中每个基本搜索单元与前一层中的上一级和下一级之间有路径连接，各级中的基本搜索单元的分辨率不同，各个路径对应于第二权重参数集。网络级搜索空间控制着单元之间的特征维数和信息流的变化。图3示中的网络级搜索空间32，有L层(图中表示为L列)并分为三级(图中表示为三行)，其中的圆点表示基本搜索单元31，单元之间的箭头连线为所述路径。本方案的目的是在预定义的L层网格内搜索找到最佳路径，每个路径关联着一个标量，用β表示这些标量的集合(第二权重参数集β)。类似于在基本搜索单元中搜索节点之间的最佳操作，本方案将使β来搜索网格，以便在其中找到一条路径以最大程度地减少损失，第二权重参数β同样作为训练的对象。在网络级搜索空间中，需要预设两个超参数：最小空间分辨率和最大深度，即L层数。为了处理相邻基本搜索单元中分辨率的差异，需先检查其分辨率，若不匹配，则通过上采样或下采样相应地对其调整。

通过搜索过程中得到的视差数据与训练数据中的视差数据的差异，优化第一权重参数集、第二权重参数集以及网络权重直至搜索过程收敛。网络权重不同于α和β，网络权重是指根据上述操作和路径所确定的神经网络中的各个层的权重，记为w。

在搜索期间，基本搜索单元的中间节点s^(j)的定义为：

符号

表示节点i到节点j之间的连接：

表示两个节点之间第r个操作，这些拥有不同权重的操作集合为

并进行softmax操作，进行松弛优化且可导。

类似于在基本搜索单元中搜索节点之间的最佳操作，在此使用β来搜索网格，以便在其中找到一条路径以最大程度地减少损失。

使用损失函数搜索网络结构的过程中，将根据损失值调整上述w和α、β。当α的值被改变时，其对应的操作对输出数据的影响力会发生变化，单元的输出结果相应地发生变化；当β的值被改变时，各个路径的权重将发生变化，也即采用各种分辨率的单元对最终输出结果的影响力发生变化。通过不断修改这三个参数来减小损失，本实施例的损失函数采用Smooth l₁函数，它对于视差不连续和离群值更具有鲁棒性。给定视差真实值d_gt(训练数据中的视差数据)，本实施例的损失函数定义为：

d_pred表示搜索过程中模型输出的视差数据。在连续松弛后，网络的权值w和参数α,β使用双层优化。在搜索结束后，分别离散参数化得到基本搜索单元参数α和网络级参数β。

S3,根据第一权重参数集的值保留至少部分操作，以及根据第二权重参数集的值保留至少一条路径，并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。之后即可基于优化的特征提取网络和三维匹配网络组成如图1所示的模型。

经过步骤S2的优化后，网络级搜索空间的所有路径、各个单元中的边及所有的操作都存在，只是对应的权重参数的值不同。为了使最终形成的神经网络结构得到简化，需要根据α、β的值保留部分操作和一条连通所有层中单元的路径。比如当搜索过程收敛后，可以保留每个单元中所有非零操作中的对应最大α值的前两个操作，解码得到离散的基本单元，并通过找到具有最大β的路径得到离散的网络级结构。

根据本发明实施例提供的用于双目视觉匹配的神经网络搜索方法，可以在搜索空间中加入特定于双目视觉匹配任务的分辨率和层数这些先验知识，以避免在针对高分辨率密集型预测任务的搜索体系结构中对计算资源的爆炸性需求，并且获得更高的准确性。并且整个搜索过程中仅仅需要优化一种类型的基本搜索单元，分辨率的选择则由网络级搜索来完成，具有更加灵活的搜索机制和更高的效率。

本方案的搜索框架遵循特征提取子网络—构建匹配代价量—三维匹配子网络的结构体系，同时优化整个网络架构。本方案大大减少了搜索空间，同时提高了网络的可解释性。在KITTI 2012、2015排行榜和Middlebury 2014排行榜上的结果显示，利用本方案的搜索技术得到的网络，性能优于所有最先进的深度双目视觉匹配网络，同时具有较少的网络参数和较快的预测速度。

在一个优选的实施例中，所采用的基本搜索单元具有3个中间节点，各个中间节点可同时接收前两层基本搜索单元输出的特征数据。输出节点由由每一个中间节点融合(concat)构成，并且类似于ResNet中的残差连接，如图3所示本方案在形成输出节点

时，还同时包含前一层的输入节点

图3中的残差连接单元用虚线显示，这允许网络在直接映射的基础上学习残差映射。此设计可称为残留像元，消融实验结果表明，残差单元的性能更优。

对于特征提取网络11和三维匹配网络12，由于功能不同，它们的单元级的搜索空间略有不同(可选的操作不相同)。具体来说，特征提取网络11的目的在于提取独特的局部特征，进而逐像素比较其相似度。所以其特征空间候选操作可包括3×3的二维卷积、零连接和残差连接，表示为

而三维匹配网络12的其特征空间候选操作可包括3×3的三维卷积、零连接和残差连接，表示为

作为优选的实施例，网络级搜索空间采用纵向三级的网格，提供三种可选的分辨率，设置下采样率为{3,2,2}，使得预设最小空间分辨率为1/12，按层级由大到小为1/3、1/6、1/12。特征提取子网络的开端，采用三层“stem”结构，第一层为stride为3的3×3卷积层，然后是stride为1的两层3×3卷积层。

对于特征提取网络和三维匹配网络预设不同的最大深度，具体是对于特征提取子网络选择深度L^F＝6，三维匹配子网络的深度选择L^M＝12，由此可以在网络的计算负载和性能之间达到良好的平衡。

网络级搜索空间更新为：

其中q表示下采样率，l为层索引，

表示操作O的连续松弛，β关联每一个操作

同时使用softmax归一化。

上述优选方案网络采用Pytorch实现，在NVIDIA V100 GPU上，整个架构搜索优化大约需要10个GPU天。整个架构搜索过程包含10个训练批次(epoches)：前三个批次仅优化络的权重w，以避免得到不良的局部最小值结果；其余批次用来交替更新架构参数w和α,β。使用SGD优化器，其动量为0.9，余弦学习率从0.025下降到0.001，权重衰减为0.0003。

基于上述优选的结构，当搜索优化过程收敛后，本方案找到的最优架构如图4所示。其中示出了对于特征提取网络11保留的基本搜索单元中的操作，以及网络架构仅使用了1/3和1/6两种分辨率；以及对于三维匹配子网络12保留的基本搜索单元中的操作，以及网络架构使用了三种分辨率。

图5示出了利用本方案建立的三维匹配模型识别视差数据的可视化效果图。图6示出了本方案(图中标记为LEAStereo)与现有技术的对比情况，具体是在KITTI 2015公开排行榜上的性能和运行速度的对比情况。本方案在精度方面超越了其他二百余种方法排名第一，且具有较快的运行速度。例如，CSPN的性能比本方案差5.45％，而需要2.33倍的处理时间；而GwcNet具有类似的运行时间，但准确性降低了27.88％。相比于另外一种基于单元搜索的NAS方法Autodispnet，本方案的精度提高了32.12％，速度提高了2倍。

本方发明还提供一种用于双目视觉匹配的神经网络搜索设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行上述用于双目视觉匹配的神经网络搜索方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种用于双目视觉匹配的神经网络搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基本搜索单元包括多个中间节点，各个所述中间节点同时接收前两层基本搜索单元输出的特征数据。

3.根据权利要求1或2所述的方法，其特征在于，所述基本搜索单元包括一个输出节点，所述输出节点是由本单元的每一个中间节点及其前一层的基本搜索单元的输出节点融合形成的。

4.根据权利要求1所述的方法，其特征在于，对于特征提取网络和三维匹配网络，所述可选的操作不相同。

5.根据权利要求4所述的方法，其特征在于，对于特征提取网络所述可选的操作包括二维卷积、零连接和残差连接；对于三维匹配网络所述可选的操作包括三维卷积、零连接和残差连接。

6.根据权利要求1所述的方法，其特征在于，对于特征提取网络和所述三维匹配网络，所述层数不同。

7.根据权利要求1所述的方法，其特征在于，所述可选的分辨率有三种，按层级由大到小设置，所述网络级搜索空间中相同级的所有基本搜索单元的分辨率相同。

8.根据权利要求1所述的方法，其特征在于，将多个所述训练数据分为两部分，两部分训练数据被交替使用，其中第一部分训练数据用于优化所述网络权重，第二部分训练数据用于优化所述第一权重参数集和所述第二权重参数集。

9.根据权利要求1所述的方法，其特征在于，当搜索过程收敛后，保留每个基本搜索单元中所有非零操作中的最大的两个第一权重参数对应的操作，解码得到离散的基本单元，并确定具有最大第二权重参数的路径得到离散的特征提取网络结构和三维匹配网络结构。

10.一种用于双目视觉匹配的神经网络搜索设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-9中任意一项所述的用于双目视觉匹配的神经网络搜索方法。