CN110781773B

CN110781773B - 一种基于残差神经网络的道路提取方法

Info

Publication number: CN110781773B
Application number: CN201910958540.3A
Authority: CN
Inventors: 熊炜; 管来福; 李敏; 李利荣; 王娟; 曾春艳; 刘敏
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2021-05-18
Anticipated expiration: 2039-10-10
Also published as: CN110781773A

Abstract

本发明公开了一种基于残差神经网络的道路提取方法，基于残差神经网络，采用了编码器‑解码器的网络结构，同时结合了空洞卷积模块(Dilated Convolutional Module,DCM)，提取更高维的特征信息；还采用多尺度特征融合的方法，学习更多低维和高维的特征，从而分割出准确的道路结构。本发明能显著提高了复杂背景下的道路提取效果。高分辨率遥感图像所包含的地面物体信息十分丰富，尤其对小尺度目标成像更加清晰。本发明能够解决车辆、绿化带和建筑物的阴影与遮挡对道路提取形成的干扰，对于光照不均以及对比度低的高分辨率遥感图像中的道路提取也有很好的效果。

Description

一种基于残差神经网络的道路提取方法

技术领域

本发明属于数字图像处理、模式识别与机器学习技术领域，特别是涉及一种基于残差神经网络的道路提取方法。

背景技术

高分辨率遥感图像中提取道路信息对于地理信息更新有着重要意义，同时它也已经广泛地应用到交通管理、智能交通、土地利用检测、车辆导航、无人驾驶以及城市规划等领域，它是许多应用场景中必不可少的步骤。遥感图像中分割出道路，可以表示为一个二分类问题，即将每个像素分为道路和非道路。道路提取的精度不仅显著影响到车辆、建筑物等其他地面物体的识别效果，也是自然灾害、军事打击、无人车路径规划等研究领域必须攻克的关键技术之一。国内外针对道路提取的研究已有很多年的历史，许多学者针对不同的应用领域和数据来源，提出了不同的方法，其中面向对象的方法包括支持向量机、最近邻、知识模型、隶属度函数等；数学形态学方法包括形态学滤波、矢量化、形态学修复等。这些都是采用传统方法进行道路提取。而人工智能与机器学习的方法则是近年来发展的方向，包括采用卷积神经网络、全卷积神经网络以及残差神经网络等，对高分辨率遥感图像道路提取都取得了良好的效果。所以，将深度学习的方法应用到高分辨率遥感图像道路提取任务中，具有很大的应用价值。

发明内容

本发明的目的在于提供基于残差神经网络的道路提取方法，显著提高了复杂背景下的道路提取效果。

本发明所采用的技术方案是：一种基于残差神经网络的道路提取方法，包括以下步骤：

步骤1：基于残差神经网络，同时结合空洞卷积模块，提取更高维的特征信息；

步骤2：采用多尺度特征融合的方法，学习更多低维和高维的特征，从而分割出准确的道路结构。

本发明与现有算法相比，其显著优点在于：

(1)本发明采用残差神经网络ResNet34作预处理，先对道路目标进行初始的分类；

(2)本发明采用了类似于U-Net网络的结构，设计了编码器-解码器结构，这种结构模型对道路特征有着很好的效果；

(3)本发明采用空洞卷积模块，在编码器-解码器中间添加空洞卷积模块，这将有助于提取道路图像的高位特征语义信息；

(4)本发明采用了结合多尺度特征融合的方法，对编码器-解码器提取的特征信息进行特征融合，从而提取不同维度的特征信息，这将有助于改善道路结构的丢失，从而提高道路分割的完整性；

(5)本发明在训练和测试中采用了数据扩充操作，可以扩充道路数据集，针对道路数据集不充足时是一个很好的方法，这也有助于防止训练中出现过拟合。

附图说明

图1为本发明实施例的原理图；

图2为本发明实施例的空洞卷积模块示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于残差神经网络的道路提取方法，该方法的主要思想是：基于残差神经网络，采用了类似U-Net的网络结构，同时结合了空洞卷积模块(Dilated Convolutional Module,DCM)，提取更高维的特征信息；还采用多尺度特征融合的方法，学习更多低维和高维的特征，从而分割出准确的道路结构。

本实施例中，采用ResNet34作为预训练编码器，ResNet34起初被用来做图像分类任务，由于其分类性能的优越，可以对道路和非道路进行分类。模型接收的图像尺寸设置为500×500，本文的网络深度设置为五层，开始输入的特征维度为500×500×3，第一层使用7×7Convolution操作，得到特征维度输出256×256×64，剩下的每一层都要经过MaxPooling和Res-block操作。第二层经过Max Pooling和3个ResNet-block操作得到特征维度输出128×128×64，第三层经过Max Pooling和4个ResNet-block得到特征维度输出64×64×128，第四层经过Max Pooling和6个ResNet-block得到特征维度输出32×32×256，第五层经过Max Pooling操作得到16×16×512的特征维度输出。对于后四层的输出结果将经过Skip Connection与同层的解码器部分相连接，进行多尺度的特征融合，得到不同维度的语义信息。

本实施例中，Dilated Convolution中文名称叫做空洞卷积，它是在标准的卷积图里注入空洞，以此增加接受域，相比原始的卷积，空洞卷积多了一个超参数(Hyper-Parameter)，称之为空洞比率(Dilated Rate)，它指的是内核(Kernel)的间隔数量，标准的卷积是空洞卷积比率为1。

在图像分割领域，全卷积网络同传统的卷积神经网络一样，先采用卷积再进行池化操作，降低图像尺寸的同时增大感受野；全卷积网络有两个关键步骤，其中一个是通过池化减小图像尺寸增大感受野，另一个是上采样扩大图像尺寸；先池化再上采样操作过程中，将会造成一些信息损失。使用空洞卷积操作，不通过池化和上采样操作也能获得较大的感受野，因此，本发明采用空洞卷积的方式来提取特征信息。

使用空洞卷积的优点是，在不造成信息损失的情况下加大了感受野，每个卷积输出也能包含较大范围的特征信息，本发明设计的空洞卷积模块如图2所示。

空洞卷积可以采用并联的方式，调整空洞卷积的比率可以改变每层感受野的大小。本发明设计的DCM包含五个并联分支，其中全局池化分支，没有进行卷积操作，不改变感受野的大小。其余四个分支空洞卷积率将逐次增加，每条分支空洞卷积率分别设置为1、2、4、8。感受野的计算公式如所示：

S＝k+(k-1)(n-1) (1)

其中，k表示卷积核大小，默认设置为3，n表示空洞卷积率。如图2所示设置的空洞卷积模块，对于空洞卷积比率分别为1、2、4、8的分支，经过感受野的计算公式(1)，每一分支的感受野大小分别为3、5、9、17。对于最后一个全局池化分支，没有改变感受野的大小。

本实施例中，采用特征解码器恢复从空洞卷积模块获得的高维语义特征，SkipConnection将从编码器中获得一些详细的信息，弥补连续的池化以及跨卷积操作带来的信息损失。本发明采用有效的卷积块组合的方式，增强解码的性能。对比不同的网络结构，简单的上采样和反卷积是U形网络中常见的操作，比如常见的U-Net网络，上采样操作通过双线性插值可以增加图片的尺寸，反卷积也可以采用卷积运算放大图像的尺寸。本发明选择双线性插值的方法恢复解码器中更高维度的特征。设计的解码器模块包括1×1Convolution、Bilinear-Interpolation、1×1Convolution，三部分进行串联作用于整个解码部分。

本实施例中，采用多尺度特征融合的方法，每层编码器对图像中的道路特征进行编码，经过编码后的特征通过跳连传递到同层的解码器进行特征融合，该层的解码器还将接收上一层的解码器传递进来的特征，用于减少特征损失，提高道路获取的准确率。除此之外，采用的损失函数被应用在第五层解码器之后，用于反映道路获取模型的好坏，训练损失越小就表示预测结果越接近真实的标签图片。其中设计的损失函数分为两部分，分别为BCEL(Binary Cross Entropy Loss)和DCL(Dice Coefficient Loss)，两者之和作为整个模型训练的总损失；

BCEL损失函数定义为：

其中，Pre_i表示第i张预测图像，GT_i表示第i张标签图片，gt_i,j表示GT图像第i,j位置的像素值，Pre_i,j表示预测图片Pre第i,j位置的像素值，W表示图片的宽度，H表示图片的高度；

DCL损失函数定义味：

其中，Pre_i表示第i张预测图片，GT_i表示第i张标签图片，N表示Batch Size；

总的损失函数Loss为：

Loss＝DCL+BCEL (4)

高分辨率遥感图像所包含的地面物体信息十分丰富，尤其对小尺度目标成像更加清晰。本发明的方法能够解决车辆、绿化带和建筑物的阴影与遮挡对道路提取形成的干扰，显著提高了复杂背景下的道路提取效果；对于光照不均以及对比度低的高分辨率遥感图像中的道路提取也有很好的效果。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于残差神经网络的道路提取方法，包括以下步骤：

步骤1中，采用ResNet34作为预训练编码器，接收的图像尺寸设置为500×500，网络深度设置为五层，开始输入的特征维度为500×500×3，第一层使用7×7Convolution操作，得到特征维度输出256×256×64；第二层经过Max Pooling和3个ResNet-block操作得到特征维度输出128×128×64，第三层经过Max Pooling和4个ResNet-block得到特征维度输出64×64×128，第四层经过Max Pooling和6个ResNet-block得到特征维度输出32×32×256，第五层经过Max Pooling操作得到16×16×512的特征维度输出；对于后四层的输出结果将经过Skip Connection与同层的解码器部分相连接，进行多尺度的特征融合，得到不同维度的语义信息；

步骤1中，所述空洞卷积模块包含五个并联分支，其中全局池化分支，没有进行卷积操作，不改变感受野的大小；其余四个分支空洞卷积率将逐次增加，每条分支空洞卷积率分别设置为1、2、4、8；感受野的计算公式为：

S＝k+(k-1)(n-1) (1)

其中，k表示卷积核大小，默认设置为3，n表示空洞卷积率；

步骤1中，选择双线性插值的方法恢复解码器中更高维度的特征；解码器模块包括1×1Convolution、Bilinear-Interpolation、1×1Convolution，三部分进行串联作用于整个解码部分；

步骤2：采用多尺度特征融合的方法，学习更多低维和高维的特征，从而分割出准确的道路结构；

所述采用多尺度特征融合的方法，每层编码器对图像中的道路特征进行编码，经过编码后的特征通过跳连传递到同层的解码器进行特征融合，该层的解码器还将接收上一层的解码器传递进来的特征，用于减少特征损失，提高道路获取的准确率；除此之外，采用损失函数应用在第五层解码器之后，用于反映道路获取模型的好坏，训练损失越小就表示预测结果越接近真实的标签图片；所述损失函数分为两部分，分别为BCEL和DCL，两者之和作为训练的总损失；

BCEL损失函数定义为：

其中，Pre_i表示第i张预测图片，GT_i表示第i张标签图片，gt_i,j表示GT图像第i,j位置的像素值，pre_i,j表示预测图片Pre第i,j位置的像素值，W表示图片的宽度，H表示图片的高度；

DCL损失函数定义为：

总的损失函数Loss为：

Loss＝DCL+BCEL (4)。