CN111582437A

CN111582437A - 一种视差回归深度神经网络的构造方法

Info

Publication number: CN111582437A
Application number: CN202010257910.3A
Authority: CN
Inventors: 杜娟; 李博涵; 汤永超
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-08-25
Anticipated expiration: 2040-04-03
Also published as: CN111582437B

Abstract

本发明公开了一种视差回归深度神经网络的构造方法，包括低层次特征信息提取步骤、匹配低价计算步骤、局部代价聚合步骤及使用贝叶斯推导和跳跃连接对初始视差进行迭代细化。本发明改进传统立体匹配网络的结构，加入了跳跃连接，局部代价聚合和迭代细化步骤，能够提高网络的视差预测效果。

Description

一种视差回归深度神经网络的构造方法

技术领域

本发明涉及图像处理领域，具体涉及一种视差回归深度神经网络的构造方法。

背景技术

随着自动驾驶和3D模型重建等技术的发展，立体匹配成为计算机视觉领域中越来越重要的研究课题，传统的立体匹配算法将该任务分割成多个部分进行，基于图像的像素点进行匹配任务，计算复杂且误差较大。深度神经网络可以进行端对端的学习，通过提取双目图像的特征，将视差信息的回归预测过程转换为有监督的学习任务，过程更加简洁，准确率更高。

立体匹配算法主要被分解为三个步骤：匹配代价计算，代价聚合与视差预测。目前的视差回归深度神经网络相对于传统的基于像素点匹配算法有显著的改进，但仍然难以在不适定区域(如遮挡区域，弱纹理区域和反光表面等)产生准确的视差预测信息。传统网络利用的不同视角下光照强度一致性约束不足以在不适定区域得到精确的匹配一致性预估，因此目前的视差回归深度神经网络会出现预测的视差值异常、不连续等问题。为了解决不适定区域引发的问题，需要提高神经网络对预测区域附近环境信息的利用率，扩大对该区域的感受野。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种视差回归深度神经网络的构造方法，主要针对双目视觉图像，相对于现在的视差回归网络具有鲁棒性强和预测准确率高的特点。

本发明采用如下技术方案：

一种视差回归深度神经网络的构造方法，包括如下步骤：

S1：使用权值共享的小型卷积核对双目视觉图像的特征信息进行轻量化提取，得到左图低层次特征信息F_left和右图低层次特征信息F_right；

S2：通过权值共享的多层卷积核对左图低层次特征信息F_left和右图低层次特征信息F_right进行不同尺度和不同大小的特征信息提取，然后使用空间金字塔池化层聚合不同尺度和不同层次的特征信息，得到池化特征，将池化特征进行拼接作为匹配代价C_(q,d)，q表示在像素点p的N_p邻域内的所有像素，d表示视差的预测值；

S3：使用滤波权重矩阵对匹配代价进行细化，得到局部聚合代价C^A _(p,d)；

S4：对低层次特征信息进行跳跃连接操作，也就是将F_left和F_right连接到局部聚合代价之后的卷积层，并预测出每一个像素点的初始视差p(disp)；

S5：通过贝叶斯公式，得到先验特征前提下的后验视差p(disp|FC)；

S6：对低层次特征信息进行再次跳跃连接操作，就是将F_left和F_right连接到后验视差p(disp|FC)之后的卷积层，预测出每一点的视差作为新的初始视差p(disp)'；

S7：重复S5及S6完成迭代细化，得到最终的视差回归预测值。

所述轻量化提取具体为：针对原始的图像，使用薄层次的结构，提取出低层次的较浅特征。

所述小型卷积核为3*3卷积核。

所述多层卷积核是指多个串联的卷积核。

所述S3具体是对每一个像素点p的匹配代价C_(q,d)在N_p邻域内执行局部聚合代价操作，共设置三个对应于不同视差值的滤波权重矩阵。

所述贝叶斯公式为：

其中，p(FC)表示先验特征恒常性，p(FC|disp)表示基于初始视差的后验特征恒常性，p(FC)由F_left和F_right的绝对差得出，p(FC|disp)由左图多尺度共享特征与右图较高层次特征的绝对差得出p(FC)由F_left和F_right的绝对差得出，p(FC|disp)由左图多尺度共享特征与右图较高层次特征的绝对差得出。

所述S7中，重复S5及S6的次数为2-3次。

本发明的有益效果：

(1)本发明通过一种针对双目图像的视差回归深度神经网络构造的方法对视差回归任务实施端对端的学习，将视差回归任务作为一个整体处理，过程简洁，可操作性强。

(2)本发明具有较强鲁棒性，通过跳跃连接结构的设置使深度神经网络针对双目图像学习到更多的低层特征，获取更多的高频信息。

(3)本发明针对不适定区域有更高的预测精度，使用局部代价聚合提高对区域环境信息的利用率，通过多次迭代细化提高视差细化效果，降低视差值异常和视差值不连续等问题的出现概率。

附图说明

图1是本发明的工作流程图；

图2是本发明的网络架构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

本发明涉及双目视觉领域，利用双目立体视觉系统获得左图及右图。

如图1及图2所示，一种视差回归深度神经网络的构造方法，包括如下步骤：

S1：低层次特征信息提取，具体是，使用权值共享的小型卷积核对双目视觉图像的特征信息进行轻量化提取，得到左图低层次特征信息F_left和右图低层次特征信息F_right；

所述轻量化提取是指针对原始的图像，使用薄层次结构，提取低层次的较浅特征，本实施例中小型卷积核采用3*3卷积核，也可以根据实际需要选择其他尺寸的卷积核。

本实施例中，图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征等。低层次特征是指从图像中提取的基本特征,一般是一些不需要形状/空间关系的特征信息。

权值共享是指左图使用的小型卷积核与右图使用的小型卷积核的权值相同，如果变化则同时变化。

S2：匹配代价计算，具体是：通过权值共享的多层卷积核对左图低层次特征信息F_left和右图低层次特征信息F_right进行不同尺度和不同大小的特征信息提取，然后使用空间金字塔池化层聚合不同尺度和不同层次的特征信息，得到池化特征，将池化特征进行拼接作为匹配代价C_(q,d)，q表示在像素点p的N_p邻域内的所有像素，d表示视差的预测值；

本实施例中多层卷积核指多个串联的卷积核，一个卷积核提取的信息传递到下一个卷积核再次进行运算。

不同尺度指用不同大小的卷积核提取信息：比如3*3卷积核每次提取3*3范围内像素点的信息，7*7卷积核每次提取7*7范围内像素点的信息。

不同层次是指卷积核的位置不同：比如一个卷积核前面只串联了两三个其他卷积核，该卷积核提取的还是低层次的信息，另一个卷积核前面已经串联了数十个其他卷积核，该卷积核提取到的是高层次的信息。

S3：局部引导代价聚合，具体是：使用滤波权重矩阵对匹配代价进行细化，提高在薄层次结构和目标边缘的预测准确度，对每一个像素点p的匹配代价C_(q,d)在N_p邻域内执行局部聚合操作，得到局部聚合代价C^A _(p,d)；

s.t.Σq∈N_p w₀(p,q)+w₁(p,q)+w₂(p,q)＝1。其中p表示该位置上的像素点，w₀，w₁，w₂分别表示三个滤波权重矩阵，对应于不同视差值。

S4：跳跃连接操作1，是指对低层次特征信息进行跳跃连接操作，也就是将F_left和F_right连接到局部聚合代价之后的卷积层，并预测出每一个像素点的初始视差p(disp)；

本实施例中的跳远连接操作是在已知的神经网络各部分结构中，采用一个torch.cat函数就可以完成，是把特征信息(数组的形式)合并在一起。

其中p(FC)表示先验特征恒常性，p(FC|disp)表示基于初始视差的后验特征恒常性，p(FC)由F_left和F_right的绝对差得出，p(FC|disp)由左图多尺度共享特征与右图较高层次特征的绝对差得出。

多尺度共享特征就是使用S2中不同的小卷积核得到不同尺度的特征信息，得到多尺度共享特征；

在偏后方的卷积核提取到较高层次特征信息。

S6：跳跃操作2：对S1得到低层次特征信息进行再次跳跃连接操作，就是将F_left和F_right连接到后验视差p(disp|FC)之后的卷积层，预测出每一点的视差作为新的初始视差p(disp)'；

S7：重复S5及S6完成迭代细化，得到最终的视差回归预测值。

迭代次数一般为2到3次，具体根据每次迭代的改进程度大小和输出预测结果的准确度确定。

每次迭代细化由旧视差得出新视差，包括贝叶斯推导和跳跃连接两部分。

本发明在传统立体匹配网络的基础上加入了跳跃连接结构，对初始信息进行轻量化提取后直接与网络后端卷积层相连。通过局部代价聚合提高对区域环境信息的利用率，并使用贝叶斯推导和跳跃连接对初始视差进行迭代细化。这种方法可以获取更多的高频信息，使深度神经网络针对双目图像学习到更多的低层特征，提高深度神经网络模型的鲁棒性；通过对得到的视差信息进行多次迭代提高视差细化效果，降低视差值异常和视差值不连续等问题的出现概率，提高在不适定区域(如遮挡区域，弱纹理区域和反光表面等)的预测准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种视差回归深度神经网络的构造方法，其特征在于，包括如下步骤：

S7：重复S5及S6完成迭代细化，得到最终的视差回归预测值。

2.根据权利要求1所述的构造方法，其特征在于，所述轻量化提取具体为：针对原始的图像，使用薄层次的结构，提取出低层次的较浅特征。

3.根据权利要求1所述的构造方法，其特征在于，小型卷积核为3*3卷积核。

4.根据权利要求1所述的构造方法，其特征在于，所述多层卷积核是指多个串联的卷积核。

5.根据权利要求1所述的构造方法，其特征在于，所述S3具体是对每一个像素点p的匹配代价C_(q,d)在N_p邻域内执行局部聚合代价操作，共设置三个对应于不同视差值的滤波权重矩阵。

6.根据权利要求1所述的构造方法，其特征在于，所述贝叶斯公式为：

7.根据权利要求1所述的构造方法，其特征在于，重复S5及S6的次数为2-3次。