CN110717921A

CN110717921A - 改进型编码解码结构的全卷积神经网络语义分割方法

Info

Publication number: CN110717921A
Application number: CN201910914737.7A
Authority: CN
Inventors: 王宏健; 胡文月; 李庆; 杜雪; 肖瑶; 班喜程
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-21
Anticipated expiration: 2039-09-26
Also published as: CN110717921B

Abstract

本发明属于深度学习及机器视觉领域，具体涉及一种改进型编码解码结构的全卷积神经网络语义分割方法。本发明采用图像预处理操作不仅提高了模型的精度，而且也增强了模型的稳定性；针对池化和下采样的重复组合的操作引起特征分辨率下降的问题，采用全卷积神经网络，进而提高了语义分割的准确性；引用U‑net模型结构的思想，采用编码‑解码结构，保留了二倍和四倍下采样的特征信息，分别与四倍和二倍上采样特征信息进行融合，通过逐渐恢复空间信息来捕捉清晰的目标边界，解决了图像边缘分割不太准确的问题，同时提高了神经网络的收敛速度，节约了运行时间。

Description

改进型编码解码结构的全卷积神经网络语义分割方法

技术领域

本发明属于深度学习及机器视觉领域，具体涉及一种改进型编码解码结构的全卷积神经网络语义分割方法。

背景技术

语义分割是目前比较活跃的研究课题，如何快速、准确的提高分割图像的边缘细化能力是语义分割方法研究的主要目的。语义分割，即给定一张图片，对于图片中的每一个像素做分类，在分割结果中，不同颜色代表不同类别，例如红色代表行人，蓝色代表汽车，绿色代表树，灰色代表建筑物等。而在实际应用中场景是复杂多变的，分割出精准的语义分割图是十分困难的。因此，探寻一个简单、准确、高效的语义分割神经网络是具有重大的理论和实践价值。目前，将神经网络应用于语义分割领域的文献不多，具有代表性的例如文献“Fully Convolutional Networks for Semantic Segmentation”，Long J等人提出全卷积网络FCN，使得卷积神经网络不需要全连接层就可以实现密集的像素级分类，从而成为当前流行的像素级分类CNN架构。由于不需要全连接层，所以可以对任意大小的图像进行语义分割，而且比传统方法要快上很多。文献“Deep-Lab:Semantic Image Segmentation withDeep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs”针对分辨率降低的问题，Deep-Lab提出使用Atrous convolution，借用空间金字塔池化的思想，使用了ASPP来实现多尺度物体检测。文献“Rethinking Atrous Convolution for Se-manticImage Segmentation”为了解决多尺度下物体的分割问题，设计了采用级联或并行的无尺度卷积模型，通过采用多尺度的无尺度速率来捕获多尺度背景。此外，还提出了一个新的空间金字塔池模型，该模型在多个尺度上探测卷积特性，并使用图像级别的特性来编码全局上下文，进一步提高性能。

现有的技术缺陷：与之前的传统方法相比，深度学习的框架进行语义分割具有很大优势，能够针对当前问题自动学习合适的特征表示。传统方法通常使用手动特征，主要解决前景-背景分割、图片内容的聚类等问题，传统的分割算法对物体分类并没有标记语义信息，在实际应用中，需要对分割块进行进一步的处理，为了使其适应新的数据集，通常需要专家经验和时间对特征进行调整。虽然已经设计出比较好的网络进行语义分割，但结果仍不能适用于各类图像，图像的多样性使得需要准备的训练数据量很大，而且各类别之间会进行相互的干扰，这就降低了像素预测的准确性。同时，随着神经网络的层数加深，图像的边缘信息也会损失严重，这些因素严重影响了图像分割的效果。例如文献“FullyConvolutional Networks for Semantic Segmentation”提出全卷积网络FCN，使得卷积神经网络不需要全连接层就可以实现密集的像素级分类；文献“Deep-Lab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs”中借用空间金字塔池化的思想，使用了ASPP；文献“Rethinking AtrousConvolution for Se-mantic Image Segmentation”设计了采用级联或并行的无尺度卷积模型，通过采用多尺度的无尺度速率来捕获多尺度背景。此外，还提出了一个新的空间金字塔池模型，该模型在多个尺度上探测卷积特性，并使用图像级别的特性来编码全局上下文，进一步提高性能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供一种解决现有的适用于语义分割的卷积神经网络对语义分割准确性较低以及边缘细化能力较弱的问题的改进型编码解码结构的全卷积神经网络语义分割方法。

本发明通过如下技术方案实现。包括以下步骤：

步骤1：根据待识别的图片，搜集相关数据，制作数据集；

步骤2：对数据集中的图片预处理；

步骤3：搭建神经网络模型框架；

所述的神经网络模型框架包括图像预处理模块、下采样模块、ASPP模块和上采样模块；所述的神经网络模型框架基于resnet-101改进，去掉第五层中的pooling层，并将第四层和第五层的卷积换成步长分别为2和4的带孔卷积；加入ASPP模块；去掉神经网络中所有的池化层；最后引入编码-解码结构设计思想设计网络整体框架；

步骤4：训练神经网络模型；

步骤5：将待识别的图片输入训练好的神经网络模型中，得到识别结果。

本发明还可以包括：

所述的步骤2中图片预处理的过程包括翻转、旋转、缩放和剪裁，将尺度变换与当前迭代的步数和当前损失关联；迭代初期，同一样本出现次数不多，每次都进行尺度变换，同时控制尺度变换随机种子均匀选择四种操作；迭代中期，同一样本出现的概率次数增多并且损失值伴随之起伏，利用损失值起伏的幅度来控制随机种子进行一种尺度变换操作还是多种尺度变换操作；迭代后期，将尺度变换出现的频率减少来增快训练速度，同时每次变换都进行四次尺度变换。

所述的编码-解码结构通过扩张卷积直接控制提取编码特征的分辨率，保留了二倍和四倍下采样的特征信息，分别与四倍和二倍上采样特征信息进行融合。

所述的步骤4中训练神经网络模型具体包括：采用自适应学习率的方法训练神经网络模型，采用交叉熵损失作为损失函数；所述的自适应学习率的数学表达式为：

其中，Current_step为当前学习率，base_rate为初始学习率，current_step为当前迭代步数，max_step为最大迭代步数，power为常量0.9，初始学习率设为2.5e-4；

所述的损失函数的表达式为：

其中y＝y_truth，y′＝y_pred；

w表示被限制的变量。

本发明的有益效果在于：

(1)本发明采用的图像预处理操作不仅提高了模型的精度，而且也增强了模型的稳定性，能够防止模型过拟合，并且将尺度变换与当前迭代的步数和当前损失关联起来，通过控制尺度变换规则增强数据集本身的容错性，提高模型的适应能力。

(2)本发明针对池化和下采样的重复组合的操作引起特征分辨率下降的问题，采用全卷积神经网络，进而提高了语义分割的准确性。

(3)本发明引用U-net模型结构的思想，采用编码-解码结构，此结构能够通过逐渐恢复空间信息来捕捉清晰的目标边界，解决了图像边缘分割不太准确的问题。

(4)本发明采用编码-解码结构，保留了二倍和四倍下采样的特征信息，分别与四倍和二倍上采样特征信息进行融合，这种操作提高了神经网络的收敛速度，节约了运行时间。

附图说明

图1为本发明的神经网络模型结构图。

图2为本发明的总体流程示意图。

图3为编码-解码结构图。

图4(a)为r＝1的标准卷积图。

图4(b)为r＝1的多孔卷积图。

图5(a)为图片A的原图。

图5(b)为图片B的原图。

图5(c)为图片A的Ground-truth分割图。

图5(d)为图片B的Ground-truth分割图。

图5(e)为图片A基于deep-lab v3的分割图。

图5(f)为图片B基于deep-lab v3的分割图。

图5(g)为图片A基于本发明神经网络框架下的分割图。

图5(h)为图片B基于本发明神经网络框架下的分割图。

具体实施方式

下面结合附图对本发明做进一步的描述。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示为本发明的神经网络模型结构图，在图1所示的神经网络模型结构图中依次包括图像预处理模块、下采样模块、ASPP模块、上采样模块。

如图2所示为本发明的流程示意图，主要包括以下几个步骤：1)数据搜集与预处理；2)神经网络模型的搭建；3)网络模型参数的设置和修改；4)根据交叉熵损失曲线图和mIoU的曲线图，针对分割效果图做出分析。本发明具体涉及一种改进型编码解码结构的全卷积神经网络语义分割方法，具体步骤如下：

S1、搜集自己所需要的数据制作自己的数据集，并将数据集中的图片进行预处理操作。制作自己的数据集；其中，制作自己的数据集具体包括以下子步骤：

S1.1、如图5(a)所示，以街道场景为研究对象时，拍摄符合条件的场景图片。

S1.2、将图片内容分为12大类，分别为人、小汽车、公共汽车、树、草坪、建筑物、马路牙子、道路、摩托车、自行车、停车位和背景。将每个大类标记上相应颜色，其中未标注出的类别以及背景色标记为黑色，依次为：[220,20,60]、[0,0,142]、[0,60,100]、[107,142,35]、[152,251,152]、[70,70,70]、[244,35,232]、[128,64,128]、[0,0,230]、[119,11,32]、[250,170,160]、[0,0,0]。所标记的图片即为Ground-truth图。

S1.3、将Ground-truth图中的颜色按照类别依次从0标记到11，从而做成最终的标签图。

预处理过程主要包括翻转、旋转、缩放和剪裁等，这些操作在提高模型精度的同时也增强了模型稳定性，防止模型过拟合，并且通过控制的尺度变换规格增强数据集本身的容错性。本发明将尺度变换与当前迭代的步数和当前损失关联起来。迭代初期同一样本出现次数并不是很多，每次都进行尺度变换，同时控制尺度变换随机种子均匀选择四种操作；当在迭代中期的时候，同一样本出现的概率次数增多并且损失值伴随着起伏，利用损失值起伏的幅度来控制随机种子进行一种尺度变换操作还是多种尺度变换操作。损失值变换幅度大，说明模型参数适应能力变弱，所以通过进行多次变换操作在一定程度上较快的提高模型的适应能力；在迭代后期，将尺度变换出现的频率减少来增快训练速度，但是同时每次变换都进行四次尺度变换。

S2、本发明所需要的神经网络模型框架。本发明的网络框架是基于resnet-101改进的，去掉第五层中的pooling层，并将第四层和第五层的卷积换成步长分别为2、4的带孔卷积，使得网络结构不降低特征映射的分辨率的同时增大了特征的感受野；并且在模型中加入ASPP模块来增加模型本身的适应能力；考虑到池化的操作会降低特征映射的分辨率，去掉神经网络中所有的池化层；最后引入编码-解码(encoder-decoder)结构设计思想设计本发明的网络整体框架。

其中，步骤S2具体包括以下内容：

(1)、在深度卷积神经网络中，最大池化和下采样(滑动步长)的重复组合会引起特征分辨率下降，虽然这一操作可以使深度卷积神经网络学习到越来越多的抽象特征，但是，这对语义分割任务来说却是不利的。为了克服这一问题，在本发明的神经网络模型中去掉所有的池化层。

(2)、采用用于密集特征提取和视野扩展的多孔卷积。对于语义分割的任务，连续池化操作或者步长大于一的卷积操作，可以使得深度卷积神经网络可以学习到越来越多的抽象特征表示。然而，这些操作会引起的特征分辨率的减少，可能妨碍精细的预测任务，这种任务需要详细的空间信息。为了克服这个问题，本发明采用带孔卷积，也被称为扩张卷积，这就相当于在卷积核各个权重之间插入孔洞。使用带孔卷积，能够在深度卷积神经网络不需要学习额外的参数的情况下控制特征映射的分辨率。

以一维信号为例，将具有长度为K的滤波器w[k]的一维输入信号x[i]的输出y[i]定义为：

公式中，参数r是对输入信息采样的步长。

图4(a)和图4(b)给出了标准卷积核多孔卷积的区别，图4(a)为标准卷积中r＝1，图4(b)为r＝2的多孔卷积。

在本发明的神经网络模型中，在第四层和第五层卷积层中采用带孔卷积，其中第四层卷积层中r＝2，第五层卷积层中r＝4。

(3)、采用Encoder-Decoder结构。以往的上采样操作主要是通过反卷积(Deconv)来实现的,但利用直接反卷积处理边缘信息的效果不理想，这是因为在进行卷积的过程中，特征信息已经丢失了部分，在进行直接反卷积时，丢失的信息并不能有效还原。Encoder-Decoder结构通过逐渐恢复空间信息来捕捉清晰的目标边界。Decoder模块用于辅助细化分割结果。Encoder模块逐步减少feature map分辨率，捕获高级语义信息；Decoder模块逐渐恢复空间信息。

经典的编码-解码结构应用是U-Net模型，整体结构就是先编码(下采样)，再解码(上采样)，回归到跟原始图像一样大小的像素点的分类。U-Net优点主要在于将特征提取的高分辨率特征和上采样的输出连接在一起，补充池化中损失的信息。

在encoder-decoder架构中，通过扩张卷积直接控制提取encoder特征的分辨率，并且没有像U-net编码-解码结构那样保留下采样每层特征信息，而是保留了二倍和四倍下采样的特征信息，分别与四倍和二倍上采样特征信息进行融合，如此选择的目的是为了用于平衡精度和运行时间。图3为编码-解码结构图。

(4)、鉴于带孔的空间金字塔结构在deeplab v2中有很好的表现，本发明也引入此模块。用不同采样率的多个并行的多孔卷积层，对每个采样率提取的特征进一步在单独的分支中进行处理，并进行融合，从而在多个尺度上捕获物体以及有用的图像上下文。

S3、网络模型参数的设置和修改。

本发明使用的GPU为Tesla k80，考虑到图片分辨率问题，设置图片的输入尺寸为(512,1024)。

在模型训练初期的时候，最优点距离极值点比较远，所以往往设置为较大的学习速率比较好，较大的学习速率可以快速靠近极值点；而在训练后期，由于已经靠近极值点，模型快收敛了，此时，采用较小的学习速率较好，较大的学习速率，容易导致在真实极值点附近来回波动，就是无法抵达极值点。所以采用自适应学习率的方法训练本发明的模型。自适应学习率的数学表达式为：

其中，Current_step为当前学习率，base_rate为初始学习率，current_step为当前迭代步数，max_step为最大迭代步数，power为常量0.9，初始学习率设为2.5e-4。

本发明采用简单的交叉熵损失作为损失函数，其数学表达式为：

其中y＝y_truth，y'＝y_pred。

为了提高泛化能力，防止过拟合，在损失函数的后面加上L2正则化。

L2正则化的数学表达式为：

因此，此刻的损失函数表达式为：

其中α∈[0,∞)。

采用平均像素交叠率(mIoU)来进行性能评估，其计算两个集合的交集和并集之比，这两个集合为真实值(ground truth)和预测值(predicted segmentation)。

假设共有k+1类，其中p_ij表示本属于i类但被预测为j类的像素数量，其中p_ji表示本属于j类但被预测为i类的像素数量，p_ii表示真正预测正确的像素数量。

对本发明的效果验证：

S4、根据交叉熵损失曲线图和mIoU的曲线图，针对分割效果图做出分析。

图5(a)为图片A的原图，图5(c)为图片A的Ground-truth分割图，图5(e)为图片A基于deep-lab v3的分割图，图5(g)为图片A基于本发明神经网络框架下的分割图；图5(b)为图片B的原图，图5(d)为图片B的Ground-truth分割图，图5(f)为图片B基于deep-lab v3的分割图，图5(h)为图片B基于本发明神经网络框架下的分割图。通过分割效果图可以看出，本发明使用的神经网络框架分割出来的效果图边缘细化的更好一些，表明本发明采用的网络结构可以通过优化物体边界来进一步提高分割效果。

本发明采用的图像预处理操作不仅提高了模型的精度，而且也增强了模型的稳定性；针对池化和下采样的重复组合的操作引起特征分辨率下降的问题，采用全卷积神经网络，进而提高了语义分割的准确性；引用U-net模型结构的思想，采用编码-解码结构，保留了二倍和四倍下采样的特征信息，分别与四倍和二倍上采样特征信息进行融合，通过逐渐恢复空间信息来捕捉清晰的目标边界，解决了图像边缘分割不太准确的问题，同时提高了神经网络的收敛速度，节约了运行时间。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.改进型编码解码结构的全卷积神经网络语义分割方法，其特征在于，包括以下步骤：

步骤1：根据待识别的图片，搜集相关数据，制作数据集；

步骤2：对数据集中的图片预处理；

步骤3：搭建神经网络模型框架；

步骤4：训练神经网络模型；

2.根据权利要求1所述的改进型编码解码结构的全卷积神经网络语义分割方法，其特征在于：所述的步骤2中图片预处理的过程包括翻转、旋转、缩放和剪裁，将尺度变换与当前迭代的步数和当前损失关联；迭代初期，同一样本出现次数不多，每次都进行尺度变换，同时控制尺度变换随机种子均匀选择四种操作；迭代中期，同一样本出现的概率次数增多并且损失值伴随之起伏，利用损失值起伏的幅度来控制随机种子进行一种尺度变换操作还是多种尺度变换操作；迭代后期，将尺度变换出现的频率减少来增快训练速度，同时每次变换都进行四次尺度变换。

3.根据权利要求1或2所述的改进型编码解码结构的全卷积神经网络语义分割方法，其特征在于：所述的编码-解码结构通过扩张卷积直接控制提取编码特征的分辨率，保留了二倍和四倍下采样的特征信息，分别与四倍和二倍上采样特征信息进行融合。

4.根据权利要求1或2所述的改进型编码解码结构的全卷积神经网络语义分割方法，其特征在于：所述的步骤4中训练神经网络模型具体包括：采用自适应学习率的方法训练神经网络模型，采用交叉熵损失作为损失函数；所述的自适应学习率的数学表达式为：

所述的损失函数的表达式为：

其中y＝y_truth，y'＝y_pred；

w表示被限制的变量。

5.根据权利要求3所述的改进型编码解码结构的全卷积神经网络语义分割方法，其特征在于：所述的步骤4中训练神经网络模型具体包括：采用自适应学习率的方法训练神经网络模型，采用交叉熵损失作为损失函数；所述的自适应学习率的数学表达式为：

所述的损失函数的表达式为：

其中y＝y_truth，y'＝y_pred；

w表示被限制的变量。