CN110706239A

CN110706239A - 融合全卷积神经网络与改进aspp模块的场景分割方法

Info

Publication number: CN110706239A
Application number: CN201910914699.5A
Authority: CN
Inventors: 王宏健; 胡文月; 李庆; 管凤旭; 肖瑶; 班喜程
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-17
Anticipated expiration: 2039-09-26
Also published as: CN110706239B

Abstract

本发明属于深度学习及机器视觉领域，具体涉及一种融合全卷积神经网络与改进ASPP模块的场景分割方法。本发明采用图像预处理操作能够防止模型过拟合，同时提高模型的适应能力；针对池化和下采样的重复组合的操作引起特征分辨率下降的问题，采用全卷积神经网络；在第五层卷积层后面加入改进的ASPP模块，融入图像级别的特征来捕获远距离信息，增加模型本身的适应能力；采用反卷积进行上采样，优势是可以自己学习参数；针对网络层数加深，边缘细节信息损失严重的问题，保留二倍下采样信息并与四倍上采样信息进行融合。

Description

融合全卷积神经网络与改进ASPP模块的场景分割方法

技术领域

本发明属于深度学习及机器视觉领域，具体涉及一种融合全卷积神经网络与改进ASPP模块的场景分割方法。

背景技术

语义分割是计算机视觉的关键问题之一。从宏观意义上来说，语义分割是为场景理解铺平了道路的一种高层任务。最为计算机视觉的核心问题，场景理解的重要性越来越突出，因为现实中越来越多的场景需要从影像中推理出相关的知识或语义。这些应用可以应用在自动驾驶上。而在实际应用中场景是复杂多变的，分割出精准的语义分割图是十分困难的。因此，探寻一个准确、简单、高效的语义分割神经网络是具有重大理论与实践价值的。目前，将神经网络应用于语义分割领域具有代表性的例如文献“Fully ConvolutionalNetworks for Semantic Segmentation”的Long J等人提出全卷积网络FCN，使得卷积神经网络不需要全连接层就可以实现密集的像素级分类，从而成为当前流行的像素级分类CNN架构。由于不需要全连接层，所以可以对任意大小的图像进行语义分割，而且比传统方法要快上很多。文献“Semantic Image Segmentation with Deep Convolutional Nets andFully Connected CRFs”采用的是atrous带孔算法扩展感受野，获取更多的上下文信息，且是由两个非常成熟的模块DCNN和CRFs级联而成。文献“DeepLab:Semantic ImageSegmenta-tion with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs”借用空间金字塔池化的思想，使用了ASPP来解决某些特征扭曲或者消失的问题。

现有的技术缺陷：传统的图像分割方法包括阈值分割方法、基于边缘的分割方法、基于区域的分割方法等，这些方法大多是基于对图像进行人工的特征提取，如颜色、纹理信息等，但是人工设计的特征往往是浅层的，这就使得传统方法具有很大的局限性，性能提高的空间非常有限。与传统方法相比，基于深度学习的框架进行的语义分割在精度和效率上有很大的优势。虽然已经设计出比较好的网络进行语义分割，但结果仍不能适用于各类图像，图像的多样性使得需要准备的训练数据量很大，而且各类别之间会进行相互的干扰，这就降低了像素预测的准确性。同时，随着神经网络的层数加深，图像的边缘信息也会损失严重，这些因素严重影响了图像分割的效果。例如文献“Fully Convolutional Networks forSemantic Segmentation”Chen L C等人提出虽然FCN是语义分割领域中的一种坚实的方法，但是FCN网络缺乏对于上下文等特征的建模，而这些信息有可能会提高准确率；文献“Semantic Image Segmentation with Deep Convolutional Nets and Fully ConnectedCRFs”将DCNNs层的响应和完全连接的条件随机场CRF结合。同时模型创新性的将hole，即空洞卷积，算法应用到DCNNs模型上，但针对多尺度下的物体的存在，并未采取相应策略；文献“DeepLab:Semantic Image Segmenta-tion with Deep Convolutional Nets,AtrousConvolution,and Fully Connected CRFs”中借用空间金字塔池化的思想，使用了ASPP，但在此模块中，随着采样率的增加，滤波器中有效的权重减少，因此难以捕获远距离信息。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供一种解决现有的适用于语义分割的卷积神经网络对语义分割边缘信息损失严重的问题的融合全卷积神经网络与改进ASPP模块的场景分割方法。

本发明的目的通过如下技术方案实现：包括以下步骤：

步骤1：根据待识别的图片，搜集相关数据，制作数据集；

步骤2：对数据集中的图片预处理；

步骤3：搭建神经网络模型框架；

所述的神经网络模型框架包括图像预处理模块、下采样模块、改进ASPP模块和上采样模块；所述的神经网络模型框架基于resnet-101改进，将神经网络的第四层和第五层的卷积分别换成步长为2和4的带孔卷积；去掉神经网络中所有的池化层；在第五层卷积层后面加入改进的ASPP模块，融入图像级别的特征来捕获远距离信息；采用反卷积进行上采样；随着网络层数加深，边缘细节信息损失严重，因此保留2倍下采样信息，将其与四倍上采样信息进行融合；所述的改进ASPP模块是用不同采样率的多个并行的多孔卷积层；对每个采样率提取的特征进一步在单独的分支中进行处理，并进行融合以产生最终结果；

步骤4：训练神经网络模型；

步骤5：将待识别的图片输入训练好的神经网络模型中，得到识别结果。

本发明还可以包括：

所述的步骤2中图片预处理的过程包括翻转、旋转、缩放和剪裁，设置开关函数，将尺度变换与当前迭代的步数和当前损失关联，迭代初期减少尺度变换出现的频率，同时控制尺度变换随机种子均匀选择四种操作；在迭代中期，将尺度变换出现的频率增加，同时利用损失值起伏的幅度控制随机种子进行一种尺度变换操作还是多种尺度变换操作；在迭代后期，将尺度变换出现的频率减少，同时每次变换都进行四次尺度变换。

所述的步骤4中训练神经网络模型具体包括：采用自适应学习率的方法训练神经网络模型，采用交叉熵损失作为损失函数；所述的自适应学习率的数学表达式为：

其中，Current_step为当前学习率，base_rate为初始学习率，current_step为当前迭代步数，max_step为最大迭代步数，power为常量0.9，初始学习率设为2.5e-4；

所述的损失函数的表达式为：

其中y＝y_truth，y'＝y_pred；

w表示被限制的变量。

本发明的有益效果在于：

(1)本发明采用的图像预处理操作不仅提高了模型的精度，而且也增强了模型的稳定性，能够防止模型过拟合，并且将尺度变换与当前迭代的步数和当前损失关联起来，通过控制尺度变换规则增强数据集本身的容错性，提高模型的适应能力

(2)本发明针对池化和下采样的重复组合的操作引起特征分辨率下降的问题，采用全卷积神经网络，进而提高了语义分割的准确性。

(3)在第五层卷积层后面加入改进的ASPP模块，融入图像级别的特征来捕获远距离信息，因此来增加模型本身的适应能力。

(4)采用反卷积进行上采样，优势是可以自己学习参数。

(5)本发明针对随着网络层数加深，边缘细节信息损失严重的问题，保留二倍下采样信息，将其与四倍上采样信息进行融合。

附图说明

图1为本发明的神经网络模型结构图。

图2为本发明的总体流程示意图。

图3(a)为r＝1的标准卷积图。

图3(b)为r＝2的多孔卷积图。

图4(a)为图片A的原图。

图4(b)为图片B的原图。

图4(c)为图片A的标签图。

图4(d)为图片B的标签图。

图4(e)为图片A的基于deeplab v2的分割图。

图4(f)为图片B的基于deeplab v2的分割图。

图4(g)为图片A的本发明神经网络框架下的分割图。

图4(h)为图片B的本发明神经网络框架下的分割图。

具体实施方式

下面结合附图对本发明做进一步的描述。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示为本发明的神经网络模型结构图，在图1所示的神经网络模型结构图中依次包括图像预处理模块、下采样模块、改进ASPP模块、上采样模块。

如图2所示为本发明的流程示意图，主要包括以下几个步骤：1)数据的搜集与预处理；2)神经网络模型的搭建；3)网络模型参数的设置和修改；4)根据交叉熵损失函数曲线图和mIoU的曲线图，针对分割效果图做出分析。为实现上述目的，本发明具体涉及一种融合全卷积神经网络与改进ASPP模块的场景分割方法，具体步骤如下：

S1、搜集街道场景的数据并制作数据集，并将数据集中的图片进行预处理操作。制作数据集包括以下子步骤：

S1.1、如图4(a)所示，当以街道场景为研究对象时，拍摄符合条件的场景图片。

S1.2、制作标签图。根据道路场景，将图片内容分为12大类，分别为人、停车位、小汽车、公共汽车、树、草坪、建筑物、道路、马路牙子、摩托车、自行车和背景。将每个大类标记上相应颜色，其余为背景色并标记为黑色，依次为：[220,20,60]、[250,170,160]、[0,0,142]、[0,60,100]、[107,142,35]、[152,251,152]、[70,70,70]、[128,64,128]、[244,35,232]、[0,0,230]、[119,11,32]、[0,0,0]。所标记的图片即为Ground-truth图。

S1.3、将Ground-truth图中的颜色按照类别依次从0标记到11，从而做成最终的标签图。

预处理过程主要包括旋转、缩放、剪裁和翻转等，这些操作不仅增强了模型的稳定性，而且能够防止模型过拟合，并在程序中设置开关函数，通过控制的尺度变换规格增强数据集本身的容错性。本发明将当前迭代的步数和当前损失与尺度变换关联起来。迭代初期同一样本出现次数很少，因此减少尺度变换出现的频率，同时控制尺度变换随机种子均匀选择四种操作；在迭代中期的时候，同一样本出现的概率次数增多并且损失值伴随着起伏，将尺度变换出现的频率增加，同时利用损失值起伏的幅度来控制随机种子进行一种尺度变换操作还是多种尺度变换操作，损失值变换幅度大，说明模型参数适应能力变弱，所以通过进行多次变换操作在一定程度上较快的提高模型的适应能力；在迭代后期，将尺度变换出现的频率减少来增快训练速度，但是同时每次变换都进行四次尺度变换。

S2、搭建本发明所需要的神经网络模型框架。本发明的网络框架是基于resnet-101改进的，将神经网络的第四层和第五层的卷积分别换成步长为2、4的带孔卷积，其作用是使得网络结构不降低特征映射的分辨率的同时增大了特征的感受野；考虑到池化的操作会降低特征映射的分辨率，去掉神经网络所有的池化层；在第五层卷积层后面加入改进的ASPP模块，融入图像级别的特征来捕获远距离信息，因此来增加模型本身的适应能力；采用反卷积进行上采样，优势是可以自己学习参数；随着网络层数加深，边缘细节信息损失严重，因此保留2倍下采样信息，将其与四倍上采样信息进行融合。

其中，步骤S2具体包括以下内容：

采用用于密集特征提取和视野扩展的多孔卷积。多孔卷积也被称为扩张卷积，这就相当于在卷积核各个权重之间插入孔洞。使用带孔卷积，能够在深度卷积神经网络不需要学习额外的参数的情况下控制特征映射的分辨率。在本发明的神经网络模型中，在第四层和第五层卷积层中采用带孔卷积，其中第四层卷积层中r＝2，第五层卷积层中r＝4。

以一维信号为例，将具有长度为K的滤波器w[k]的一维输入信号x[i]的输出y[i]定义为：

公式中，r是对输入信息采样的步长。

图3(a)和图3(b)给出了标准卷积核多孔卷积的区别，图3(a)为标准卷积中r＝1，图3(b)为r＝2的多孔卷积。

在深度卷积神经网络中，池化层的存在会引起特征分辨率下降，虽然这一操作可以使深度卷积神经网络学习到越来越多的抽象特征，但是却损失掉了许多细节信息，语义分割任务需要详细的空间信息，此操作妨碍精细的预测任务。为了克服这一问题，在本发明的神经网络模型中去掉所有的池化层。

引入改进的ASPP模块。ASPP是用不同采样率的多个并行的多孔卷积层。对每个采样率提取的特征进一步在单独的分支中进行处理，并进行融合以产生最终结果。在用不同尺度重复采样特征提高精确率方面是有效的而且任意的尺度都对分割很有效果。随着采样率的提高，有效的滤波器权重，即有效特征区域而不是补零区域的权重，却在变小。本发明采用图像级别特征，将全局内容信息整合进模型中对捕获远距离信息是有优势的。

采用反卷积进行上采样操作。相比于双线性差值方法，反卷积的操作可以自己学习参数，而双线性插值算法只能按照固定的算法进行上采样，学习能力相对较低。

借鉴U-net的神经网络模型框架，保留下采样的特征信息，并与上采样特征图进行信息融合的思想。本发明保留了二倍下采样的特征信息，与四倍上采样信息进行融合。其目的是为了平衡精度和运行时间。

S3、网络模型参数的设置和修改。

本发明使用的GPU为Tesla k80。

神经网络模型训练初期的时候，最优点距离极值点比较远，一般将学习速率设置的较大，较大的学习速率可以快速靠近极值点；在训练的中期以及后期，因为已经靠近极值点，模型即将收敛，在这两个阶段，采用较小的学习速率，较大的学习速率，容易导致在真实极值点附近来回波动，无法收敛到极值点。本发明采用自适应学习率的方法训练本发明的神经网络模型。自适应学习率的数学表达式为：

其中，Current_step为当前学习率，power为常量0.9，base_rate为初始学习率，max_step为最大迭代步数，current_step为当前迭代步数，初始学习率设为2.5e-4。

本发明采用简单的交叉熵损失作为损失函数，其数学表达式为：

其中y＝y_truth，y'＝y_pred。

为了提高泛化能力，在损失函数的后面加上L2正则化。

L2正则化的数学表达式为：

因此，此刻的损失函数表达式为：

其中α∈[0,∞)。

对分割效果图进行评估，采用频率加权交并比(FWIoU)来进行性能评估，这是对平均像素交叠率(mIoU)的改进。对每个类别按照重要性进行加权，重要性来自于其出现的频率。

假设共有k+1类，其中p_ii表示真正预测正确的像素数量，p_ij表示本属于i类但被预测为j类的像素数量，p_ji表示本属于j类但被预测为i类的像素数量。

对本发明的效果验证：

S4、根据交叉熵损失曲线图和mIoU的曲线图，针对分割效果图做出分析。

图4(a)为图片A的原图；图4(b)为图片B的原图；图4(c)为图片A的标签图；图4(d)为图片B的标签图；图4(e)为图片A的基于deeplab v2的分割图；图4(f)为图片B的基于deeplab v2的分割图；图4(g)为图片A的本发明神经网络框架下的分割图；图4(h)为图片B的本发明神经网络框架下的分割图。通过分割效果图可以看出，本发明使用的神经网络框架分割出来的效果图精确度更高一些，表明本发明采用的网络结构可以进一步提高分割效果。

本发明采用的图像预处理操作能够防止模型过拟合，同时提高模型的适应能力；针对池化和下采样的重复组合的操作引起特征分辨率下降的问题，采用全卷积神经网络；在第五层卷积层后面加入改进的ASPP模块，融入图像级别的特征来捕获远距离信息，增加模型本身的适应能力；采用反卷积进行上采样，优势是可以自己学习参数；针对网络层数加深，边缘细节信息损失严重的问题，保留二倍下采样信息并与四倍上采样信息进行融合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.融合全卷积神经网络与改进ASPP模块的场景分割方法，其特征在于，包括以下步骤：