CN108921852B

CN108921852B - 基于视差与平面拟合的双分支室外非结构化地形分割网络

Info

Publication number: CN108921852B
Application number: CN201810577133.3A
Authority: CN
Inventors: 李豪杰; 张朋博; 王智慧
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2021-05-07
Anticipated expiration: 2038-06-01
Also published as: CN108921852A

Abstract

本发明属于计算机视觉技术领域，提供了一种基于视差与平面拟合的双分支室外非结构化地形分割网络。该方法首先进行地面拟合以及地面偏差的计算，并选择具有几何特性的视差图和地平面偏差图代替彩色图像作为网络输入。该方法设计的网络体系结构由两个子网络组成：地形分割主网络及稳定性和适应性增强模块，两个模块相辅相成，显示了良好的地形分割效果，具有很好的鲁棒性和环境适应性。

Description

基于视差与平面拟合的双分支室外非结构化地形分割网络

技术领域

本发明属于计算机视觉技术领域，具体涉及一种以视差图与拟合的地平面偏差图为输入的面向非结构化室外环境地形分割的双分支深度网络。

背景技术

目前，非结构化室外环境下的自主机器人导航仍然是一个开放且具有挑战性的问题。地形分割是机器人导航的核心任务之一，是机器人识别可穿越区域和避免障碍物的关键。与城市道路不同，非结构化室外环境下的地形复杂，具有多种地形类型和障碍物的组合特征。在图1(a)中，光照条件产生阴影和过饱和的现象，此外，障碍物(树木、干草)与带落叶的污垢路面有很高的视觉相似性，这给地形分割带来了很大的挑战。

在人类生物视觉系统中，立体视差在场景感知中起着重要的作用，它可以被机器视觉系统用于自主机器人导航，因此许多道路分割算法是基于立体视差信息的。Zhu等人(“Stereo vision based traversable region detection for mobile robots usinguv-disparity,”in Control Conference(CCC),2013 32nd Chinese.IEEE,2013,pp.5785–5790.)提出了一种室内和城市道路的可穿越区域检测算法，该算法引入了u-v视差，(u，v)表示图像中的像素坐标，但是在特征提取和立体匹配过程中的不准确估计往往会得到带有空洞和噪声视差图(见图1(b))影响算法性能。因此，在应用视差图时，必须考虑全局信息和局部信息来平滑空洞和削弱噪声。

随着深度学习技术的飞速发展，全卷积网络(“Fully convolutional networksfor semantic segmentation,”in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2015,pp.3431–3440.)推动了语义分割的发展。许多优秀的研究基于全卷积网络，并进一步的改进网络结构，从而提高了公开的标准数据集的准确性，如Cityscapes和KITTI Road。他们在常见且规整的城市道路或高速公路上表现优异，但是在非结构化的自然场景中，由于光照、天气、路况等变化，会导致模型失效。这是因为在特定数据集上训练的网络不够灵活，无法适应变化的以及未曾出现过的路况。Shashank等人(“Deep CNN with color lines model for unmarked road segmentation,”in IEEEInternational Conference on Image Processing(ICIP 2017),Beijing,2017.)通过条件随机场将深度卷积神经网络与色线模型先验进行结合以适应不同的光照条件，但是当道路的颜色接近周围的环境时，它就失效了。在机器人导航的实际应用中，场景会随着时间而变化，为此，有必要研究一种自适应的且鲁棒的地形分割算法。

Procopio等人(“Learning terrain segmentation with classifier ensemblesfor autonomous robot navigation in unstructured environments,”Journal ofField Robotics,vol.26,no.2,pp.145–175,2009.)通过地面拟合获得图像标签，通过计算预测的地面视差与观察到的视差之间的差异，阈值直接用于确定图像中的像素是否属于地面。在图1(c)中可见，地平面偏差图存在一定的噪声和不连续性，因此直接阈值分割的结果不能完全适用。

本发明受到以上算法的启发，针对项目需求，提出一种以视差图与拟合的地平面偏差图为输入的面向非结构化室外环境地形分割的双分支深度网络。

发明内容

本发明的目的是解决非结构化室外环境地形分割在光照、天气、路况等变化情况下的不足之处。在以视差图与拟合的地平面偏差图为输入的面向非结构化室外环境地形分割的双分支深度网络中，处理目标是视差图像，处理目的是分割出可穿越区域和障碍物区域。

本发明的技术方案：

一种基于视差与平面拟合的双分支室外非结构化地形分割网络，步骤如下：

(1)进行非结构化室外环境下的地面拟合以及地面偏差的计算

通过立体摄像机采集数据，标定的立体摄像机系统具有基线长度L和焦距f，建立立体摄像机坐标系，其X,Y,Z轴分别与图像轴x,y，摄像机光轴对齐；

则图像深度Z_depth与视差δ的关系表示为：

任意平面P在立体摄像机坐标系中表示为：

AX+BY+CZ+D＝0

其中，A,B,C,D表示平面参数；

根据立体视觉中的透视投影原理以及相似变换原理，计算出双目立体摄像机坐标系下的平面在视差空间中的初始估计：

δ＝αu+βv+γ

其中，u,v是像素坐标，α，β，γ是平面参数；

根据上述原理，对输入的一张非结构化室外环境的视差图像，通过像素坐标u,v和视差值δ_o进行拟合，得到平面参数α，β，γ；

计算出立体摄像机坐标系下的地面在视差空间中的估计：

δ_p＝αu+βv+γ

然后通过拟合得到的平面参数α，β，γ计算预测的地面视差δ_p与输入的非结构化室外环境的视差δ_o的差异，逐像素对应作差得地平面偏差图I_dev：

I_dev＝δ_o-δ_p

进一步地，选择初始输入的视差图和通过上述过程拟合做差得到的地平面偏差图代替彩色图像作为网络输入，将其平面几何特性应用于网络；

因为在本发明中通过对室外环境的自然数据进行直方图统计分析和比较，可以注意到，对于彩色图像，当场景保持不变时，它们在纹理和颜色上有一些相似之处，但当场景发生变化时，它们将有显著的不同。然而，在变化的条件下，视差图和地平面偏差图的分布更加稳定和相似，且具有平面几何特性。

(2)针对视差图与拟合的地平面偏差图为输入，设计双分支深度网络模型自适应的提取特征，考虑全局信息和局部信息来平滑空洞和削弱噪声，进行地形分割，具体的设计方法如下：

深度网络模型由两个模块组成：分割模块和增强模块；如图2所示，这两个模块相辅相成，显示了良好的地形分割效果。

分割模块：以初始输入的视差图作为输入，基于Deeplab模型(“Deeplab:Semanticimage segmentation with deep convolutional nets,atrous convolution,and fullyconnected crfs,”IEEE Transactions on Pattern Analysis and MachineIntelligence,2017.)，16层结构，每次池化操作之前，采用1*1卷积核进行降维，步长为1，填充为0；

增强模块：以拟合做差得到的地平面偏差图作为输入；以1、1/2、1/4、1/8的尺度层、3*3的卷积核提取特征，来自适应地生成参考特征图，该特征参考图为网络的中间结果，然后将该参考特征图连接到分割模块的对应的1、1/2、1/4、1/8的尺度层，参考特征图的维度为对应分割模块的1/2；

输入层：以初始输入的视差图像和拟合做差得到的地面偏差图像作为输入，图像大小为640*480；

卷积层：3*3的卷积核提取特征，步长为1，填充为1；

1*1卷积核进行降维，步长为1，填充为0；

池化层：采用最大池化的方式，3*3的卷积核，步长为2；

扩张卷积层：

其中，u,v表示像素坐标，F表示卷积特征，W表示滤波器权重，r表示采样率，H是输出特征，i,j为循环变量；

融合层：将增强模块生成的参考特征图映射连接到分割模块的相应层；

将经过四种不同采样率的扩张卷积操作后产生的特征图连接起来；

损失层：最小化softmax损失函数；

基于公共平台Caffe进行深度网络模型训练；

学习率lr采用了“poly”学习率策略：

lr＝lr_base(1-iter/max_iter)^power

其中，lr表示当前学习率，iter表示当前迭代次数，基本学习率lr_base设置为0.001，指数power设置为0.9，最大迭代次数max_iter设置为10000；

最后，应用训练好的模型对新的数据进行预测，产生地形分割结果。

本发明的有益效果是：模型采用了带多采样率滤波器的卷积特征层，有效地考虑了局部和全局上下文信息，平滑了视差映射中的空洞信息；利用了由视差图计算出的地平面偏差图的平面几何特性，提高了算法的适应性，在定性和定量两方面均具有较好的地形分割性能。

附图说明

图1是非结构化场景示意图，(a)是非结构化场景地形实拍图；(b)是对应的视差图；(c)是计算得到的地平面偏差图。

图2是本发明的设计原理图，本发明基于视差图，通过平面拟合与偏差计算，得到地平面偏差图，作为双分支网络的输入，通过分割模块和增强模块的处理，得到输出结果。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明基于Matlab进行地面拟合以及地面偏差的计算,然后基于Caffe框架搭建网络模型。

Step 1:数据准备，如图1(b)所示的视差图和对应的可行区域与障碍区域标注。

Step 2：输入的一张视差图像，根据已知的像素坐标x,y和视差值δ进行地平面拟合δ＝αx+βy+γ，得到平面参数α，β，γ。

Step 3:估计出上述参数α，β，γ后，用该参数进一步地计算出相机坐标系下的地平面在视差空间中的估计：

δ_p＝αx+βy+γ

其中，x,y是图像坐标系中的像素坐标，α，β，γ是第二步估计的平面参数。

Step 4:通过计算预测的地面视差δ_p与初始的输入视差δ_o的差值，得到地面偏差图I_dev：

I_dev＝δ_o-δ_p

Step 5:搭建深度网络结构，层次结构如图2所示。分割模块基于deeplab模型16层的结构，每次池化操作之前，采用1*1卷积核进行降维到原本维度的1/2(步长为1，填充为0)，增强模块自适应的生成参考特征图并与对应尺度的分割层连接。

输入层：以视差图像和地面偏差图像作为输入，图像大小为640*480。

卷积层：3*3的卷积核提取特征，步长为1，填充为1。

1*1卷积核进行降维，步长为1，填充为0。

池化层：采用最大池化的方式，3*3的卷积核，步长为2。

扩张卷积层：

其中，x,y表示像素坐标，F表示卷积特征，W表示滤波器权重，r表示采样率，H是输出特征。本设计中应用四种不同采样率(2,4,6,8)的扩张卷积。

融合层：将增强模块生成的参考特征映射连接到分割模块的相应层。将经过四种不同采样率(2,4,6,8)的扩张卷积操作后产生的特征图连接起来。

损失层：最小化softmax损失函数。

Step 6：基于公共平台Caffe进行网络训练。

学习率lr采用了“poly”学习率策略：

lr＝lr_base(1-iter/max_iter)^power

其中，lr表示当前学习率，iter表示当前迭代次数，基本学习率lr_base设置为0.001，指数power设置为0.9，最大迭代次数max_iter设置为10000。

Step 7:应用训练好的模型进行前向传播产生地形分割结果。

Claims

1.一种基于视差与平面拟合的双分支室外非结构化地形分割网络的构建方法，其特征在于，以视差图与基于视差图拟合做差得到的地平面偏差图为输入，通过包含分割模块和增强模块的双分支深度网络模型对室外非结构化地形进行预测，产生地形分割结果；以视差图与地平面偏差图作为网络输入，网络结构采用双分支双输入结构：以带有噪声的视差图作为分割模块的输入，通过卷积池化操作平滑视差图中的空洞和噪声信息；以基于视差图拟合做差得到的地平面偏差图作为增强模块的输入，引入平面几何特征并自适应地生成参考特征图，提升分割准确率；双分支深度网络模型的输入均未使用对场景变化敏感的RGB彩色图像；

所述的包含分割模块和增强模块的双分支深度网络模型，基于deeplab模型16层的结构，分割模块每次池化操作之前，采用1*1卷积核进行降维到原本维度的1/2；增强模块引入地平面的平面几何特征，针对1、1/2、1/4、1/8的不同尺度层，自适应地生成参考特征图，该参考特征图为网络的中间结果，连接到分割模块的对应的1、1/2、1/4、1/8的尺度层，参考特征图的维度为对应分割模块的1/2。