CN109508639A

CN109508639A - 基于多尺度带孔卷积神经网络的道路场景语义分割方法

Info

Publication number: CN109508639A
Application number: CN201811186784.6A
Authority: CN
Inventors: 周武杰; 顾鹏笠; 潘婷; 吕思嘉; 钱亚冠; 向坚
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-03-22
Anticipated expiration: 2038-10-12
Also published as: CN109508639B

Abstract

本发明公开了一种基于多尺度带孔卷积神经网络的道路场景语义分割方法，其在训练阶段，构建多尺度带孔卷积神经网络，其隐层包括9个神经网络块、5个级联层、6个上采样块；使用原始的道路场景图像输入到多尺度带孔卷积神经网络中进行训练，得到对应的12幅语义分割预测图；再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，获得多尺度带孔卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将待分割的道路场景图像输入到多尺度带孔卷积神经网络分类训练模型中，得到预测语义分割图像；优点是提高了道路场景图像的语义分割效率和准确度。

Description

基于多尺度带孔卷积神经网络的道路场景语义分割方法

技术领域

本发明涉及一种深度学习的语义分割方法，尤其是涉及一种基于多尺度带孔卷积神经网络的道路场景语义分割方法。

背景技术

随着智能交通行业的快速发展，道路场景理解在辅助驾驶和无人驾驶系统的智能交通中得到了越来越广泛的应用。自动驾驶中最具挑战的任务之一是道路场景理解，包括计算机视觉任务下的车道检测和语义分割。车道检测帮助指导车辆，语义分割提供更多关于周围环境目标的细节位置。语义分割是计算机视觉的一个重要方向，其本质是对图像进行像素级别的分类，应用在道路场景理解中就是将图像中包括道路、汽车、行人等等类别的目标分割出来。

目前，语义分割的方法分为两种，一种是以传统机器学习方式进行的，以归一化分割(Normalized cut，N-cut)为代表，其核心思想是根据像素间的权重关系给出阈值将图像划分；另一种是以深度学习方式进行的，以全卷积神经网络为代表，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集中得到相较于传统机器学习方式更好的分割效果。得益于强大的学习表示能力，卷积神经网络使语义分割研究方向有了新进展，但依然很难处理外形较复杂物体的分割。传统的卷积神经网络，任意层接收上层的数据作输入，再作卷积并加激活传给下一层，是以单一直线型流程执行的。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征：较浅的卷积层感知域较小，学习到一些部分具体的特征；较深的卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好，有利于提高分割效果。

现有的道路场景语义分割方法大多采用深度学习的方法，其利用卷积层与池化层相结合的方式，然而池化层通过缩小分辨率来获取较大的感知域，损失分辨率从而会导致得到的图像的特征信息减少，最终导致还原的边缘信息比较粗糙，分割精度低。

发明内容

本发明所要解决的技术问题是提供一种基于多尺度带孔卷积神经网络的道路场景语义分割方法，其能够充分考虑到道路场景图像多种特征对场景理解的影响，利用多尺度与带孔卷积相结合的方式，以扩大感知域，得到更多图像的特征信息，从而提高了道路场景图像的语义分割效率和准确度。

本发明解决上述技术问题所采用的技术方案为：一种基于多尺度带孔卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将处理成的12幅独热编码图像构成的集合记为其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建多尺度带孔卷积神经网络：多尺度带孔卷积神经网络包括输入层、隐层和输出层；隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层；

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H；

对于第1个神经网络块，其由依次设置的卷积层、批规范化层、激活层组成；第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₁；其中，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的补零参数为“same”，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₁中的每幅特征图的宽度为W、高度为H；

对于第2个神经网络块，其由依次设置的最大池化层、卷积层、批规范化层、激活层组成；第2个神经网络块的输入端接收P₁中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为P₂；其中，最大池化层的池化尺寸为2，卷积层的卷积核大小为3×3、卷积核个数为128，卷积层的补零参数为“same”，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₂中的每幅特征图的宽度为高度为

对于第3个神经网络块，其由依次设置的最大池化层、卷积层、批规范化层、激活层组成；第3个神经网络块的输入端接收P₂中的所有特征图，第3个神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为P₃；其中，最大池化层的池化尺寸为2，卷积层的卷积核大小为3×3、卷积核个数为256，卷积层的补零参数为“same”，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₃中的每幅特征图的宽度为高度为

对于第4个神经网络块，其由依次设置的最大池化层、丢弃层、卷积层、批规范化层、激活层组成；第4个神经网络块的输入端接收P₃中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₄；其中，最大池化层的池化尺寸为2，丢弃层的丢弃率为0.5，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的补零参数为“same”，卷积层的带孔指数为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₄中的每幅特征图的宽度为高度为

对于第5个神经网络块，其由依次设置的最大池化层、丢弃层、上采样层组成；第5个神经网络块的输入端接收P₄中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₅；其中，最大池化层的池化尺寸为2，丢弃层的丢弃率为0.5，上采样层的尺寸为2，P₅中的每幅特征图的宽度为高度为

对于第1个级联层，第1个级联层的输入端接收P₄中的所有特征图和P₅中的所有特征图，第1个级联层通过Concatence方式连接P₄和P₅得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为1024，U₁中的每幅特征图的宽度为高度为

对于第6个神经网络块，其由依次设置的卷积层、批规范化层、激活层、丢弃层组成；第6个神经网络块的输入端接收U₁中的所有特征图，第6个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₆；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的补零参数为“same”，卷积层的带孔指数为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，丢弃层的丢弃率为0.5，P₆中的每幅特征图的宽度为高度为

对于第1个上采样块，其由上采样层组成；第1个上采样块的输入端接收P₆中的所有特征图，第1个上采样块的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁；其中，上采样层的尺寸为2，C₁中的每幅特征图的宽度为高度为

对于第2个级联层，第2个级联层的输入端接收P₃中的所有特征图和C₁中的所有特征图，第2个级联层通过Concatence方式连接P₃和C₁得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为768，U₂中的每幅特征图的宽度为高度为

对于第7个神经网络块，其由依次设置的卷积层、批规范化层、激活层、丢弃层组成；第7个神经网络块的输入端接收U₂中的所有特征图，第7个神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为P₇；其中，卷积层的卷积核大小为3×3、卷积核个数为256，卷积层的补零参数为“same”，卷积层的带孔指数为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，丢弃层的丢弃率为0.5，P₇中的每幅特征图的宽度为高度为

对于第2个上采样块，其由上采样层组成；第2个上采样块的输入端接收P₇中的所有特征图，第2个上采样块的输出端输出256幅特征图，将256幅特征图构成的集合记为C₂；其中，上采样层的尺寸为2，C₂中的每幅特征图的宽度为高度为

对于第3个级联层，第3个级联层的输入端接收P₂中的所有特征图和C₂中的所有特征图，第3个级联层通过Concatence方式连接P₂和C₂得到集合U₃，第3个级联层的输出端输出U₃；其中，U₃中包含的特征图的总幅数为384，U₃中的每幅特征图的宽度为高度为

对于第8个神经网络块，其由依次设置的卷积层、批规范化层、激活层、丢弃层组成；第8个神经网络块的输入端接收U₃中的所有特征图，第8个神经网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为P₈；其中，卷积层的卷积核大小为3×3、卷积核个数为128，卷积层的补零参数为“same”，卷积层的带孔指数为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，丢弃层的丢弃率为0.5，P₈中的每幅特征图的宽度为高度为

对于第3个上采样块，其由上采样层组成；第3个上采样块的输入端接收P₈中的所有特征图，第3个上采样块的输出端输出128幅特征图，将128幅特征图构成的集合记为C₃；其中，上采样层的尺寸为2，C₃中的每幅特征图的宽度为W、高度为H；

对于第4个级联层，第4个级联层的输入端接收P₁中的所有特征图和C₃中的所有特征图，第4个级联层通过Concatence方式连接P₁和C₃得到集合U₄，第4个级联层的输出端输出U₄；其中，U₄中包含的特征图的总幅数为192，U₄中的每幅特征图的宽度为W、高度为H；

对于第9个神经网络块，其由依次设置的卷积层、批规范化层、激活层、丢弃层组成；第9个神经网络块的输入端接收U₄中的所有特征图，第9个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₉；其中，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的补零参数为“same”，卷积层的带孔指数为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，丢弃层的丢弃率为0.5，P₉中的每幅特征图的宽度为W、高度为H；

对于第4个上采样块，其由上采样层组成；第4个上采样块的输入端接收P₆中的所有特征图，第4个上采样块的输出端输出512幅特征图，将512幅特征图构成的集合记为C₄；其中，上采样层的尺寸为8，C₄中的每幅特征图的宽度为W、高度为H；

对于第5个上采样块，其由上采样层组成；第5个上采样块的输入端接收P₇中的所有特征图，第5个上采样块的输出端输出256幅特征图，将256幅特征图构成的集合记为C₅；其中，上采样层的尺寸为4，C₅中的每幅特征图的宽度为W、高度为H；

对于第6个上采样块，其由上采样层组成；第6个上采样块的输入端接收P₈中的所有特征图，第6个上采样块的输出端输出128幅特征图，将128幅特征图构成的集合记为C₆；其中，上采样层的尺寸为2，C₆中的每幅特征图的宽度为W、高度为H；

对于第5个级联层，第5个级联层的输入端接收P₉中的所有特征图、C₄中的所有特征图、C₅中的所有特征图和C₆中的所有特征图，第5个级联层通过Concatence方式连接P₉、C₄、C₅和C₆得到集合U₅，第5个级联层的输出端输出U₅；其中，U₅中包含的特征图的总幅数为960，U₅中的每幅特征图的宽度为W、高度为H；

对于输出层，其包括卷积层，其中，卷积层的卷积核大小为1×1、卷积核个数为12，卷积层的补零参数为“valid”，卷积层的激活方式为“softmax”；输出层的输入端接收U₅中的所有特征图，输出层的输出端输出12幅与原始输入图像对应的语义分割预测图；

步骤1_3：将训练集中的每幅原始的道路场景图像作为原始输入图像，输入到多尺度带孔卷积神经网络中进行训练，得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图，将{I^q(i,j)}对应的12幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到多尺度带孔卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为多尺度带孔卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值；

步骤2_2：将的R通道分量、G通道分量和B通道分量输入到多尺度带孔卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到对应的预测语义分割图像，记为其中，表示中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_4中，采用分类交叉熵获得。

与现有技术相比，本发明的优点在于：

1)本发明方法对构建的多尺度带孔卷积神经网络，用训练集中的道路场景图像输入到多尺度带孔卷积神经网络中进行训练，得到多尺度带孔卷积神经网络分类训练模型；再将待语义分割的道路场景图像输入到多尺度带孔卷积神经网络分类训练模型中，预测得到道路场景图像对应的预测语义分割图像，由于本发明方法结合了道路场景图像的多尺度与带孔卷积特征，而这些特征能够比较准确地描述道路中各种分类目标，因此能够有效地提高道路场景图像的语义分割精确度，且由于带孔卷积能扩大感知域，因此可得到更多图像的特征信息，从而能提高道路场景图像的语义分割效率和准确度。

2)本发明方法采用批规范化层，使得多尺度带孔卷积神经网络能加速收敛，减少多尺度带孔卷积神经网络训练对初始化的依赖。

3)本发明方法在搭建多尺度带孔卷积神经网络中的较深的卷积层中使用丢弃层，防止了多尺度带孔卷积神经网络过拟合，进而在训练集与测试集上都能得到较好的效果。

附图说明

图1为本发明方法的总体实现框图；

图2a为第1幅原始的道路场景图像；

图2b为利用本发明方法对图2a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图3a为第2幅原始的道路场景图像；

图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图4a为第3幅原始的道路场景图像；

图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图5a为第4幅原始的道路场景图像；

图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于多尺度带孔卷积神经网络的道路场景语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将处理成的12幅独热编码图像构成的集合记为其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，如取Q＝367，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝480、H＝360，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；在此，原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。

步骤1_2：构建多尺度带孔卷积神经网络：多尺度带孔卷积神经网络包括输入层、隐层和输出层；隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层。

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于第1个神经网络块，其由依次设置的卷积层(Convolution，Conv)、批规范化层(Batch Normalization，BN)、激活层(Activation，Act)组成；第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₁；其中，卷积层的卷积核大小(kernel_size)为3×3、卷积核个数(filters)为64，卷积层的补零(padding)参数为“same”，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₁中的每幅特征图的宽度为W、高度为H。

对于第2个神经网络块，其由依次设置的最大池化层(Maxpooling，Pool)、卷积层、批规范化层、激活层组成；第2个神经网络块的输入端接收P₁中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为P₂；其中，最大池化层的池化尺寸(pool_size)为2，卷积层的卷积核大小为3×3、卷积核个数为128，卷积层的补零参数为“same”，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₂中的每幅特征图的宽度为高度为

对于第4个神经网络块，其由依次设置的最大池化层、丢弃层(Dropout，Drop)、卷积层、批规范化层、激活层组成；第4个神经网络块的输入端接收P₃中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₄；其中，最大池化层的池化尺寸为2，丢弃层的丢弃率(rate)为0.5，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的补零参数为“same”，卷积层的带孔指数(dilation_rate)为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，P₄中的每幅特征图的宽度为高度为

对于第5个神经网络块，其由依次设置的最大池化层、丢弃层、上采样层(Upsampling，Up)组成；第5个神经网络块的输入端接收P₄中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₅；其中，最大池化层的池化尺寸为2，丢弃层的丢弃率(rate)为0.5，上采样层的尺寸(size)为2，P₅中的每幅特征图的宽度为高度为

对于第1个级联层，第1个级联层的输入端接收P₄中的所有特征图和P₅中的所有特征图，第1个级联层通过现有的Concatence方式连接P₄和P₅得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为1024(512+512＝1024)，U₁中的每幅特征图的宽度为高度为

对于第2个级联层，第2个级联层的输入端接收P₃中的所有特征图和C₁中的所有特征图，第2个级联层通过现有的Concatence方式连接P₃和C₁得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为768(256+512＝768)，U₂中的每幅特征图的宽度为高度为

对于第3个级联层，第3个级联层的输入端接收P₂中的所有特征图和C₂中的所有特征图，第3个级联层通过现有的Concatence方式连接P₂和C₂得到集合U₃，第3个级联层的输出端输出U₃；其中，U₃中包含的特征图的总幅数为384(128+256＝384)，U₃中的每幅特征图的宽度为高度为

对于第3个上采样块，其由上采样层组成；第3个上采样块的输入端接收P₈中的所有特征图，第3个上采样块的输出端输出128幅特征图，将128幅特征图构成的集合记为C₃；其中，上采样层的尺寸为2，C₃中的每幅特征图的宽度为W、高度为H。

对于第4个级联层，第4个级联层的输入端接收P₁中的所有特征图和C₃中的所有特征图，第4个级联层通过现有的Concatence方式连接P₁和C₃得到集合U₄，第4个级联层的输出端输出U₄；其中，U₄中包含的特征图的总幅数为192(64+128＝192)，U₄中的每幅特征图的宽度为W、高度为H。

对于第9个神经网络块，其由依次设置的卷积层、批规范化层、激活层、丢弃层组成；第9个神经网络块的输入端接收U₄中的所有特征图，第9个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₉；其中，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的补零参数为“same”，卷积层的带孔指数为3×3，批规范化层采用默认参数，激活层的激活方式为“Relu”，丢弃层的丢弃率为0.5，P₉中的每幅特征图的宽度为W、高度为H。

对于第4个上采样块，其由上采样层组成；第4个上采样块的输入端接收P₆中的所有特征图，第4个上采样块的输出端输出512幅特征图，将512幅特征图构成的集合记为C₄；其中，上采样层的尺寸为8，C₄中的每幅特征图的宽度为W、高度为H。

对于第5个上采样块，其由上采样层组成；第5个上采样块的输入端接收P₇中的所有特征图，第5个上采样块的输出端输出256幅特征图，将256幅特征图构成的集合记为C₅；其中，上采样层的尺寸为4，C₅中的每幅特征图的宽度为W、高度为H。

对于第6个上采样块，其由上采样层组成；第6个上采样块的输入端接收P₈中的所有特征图，第6个上采样块的输出端输出128幅特征图，将128幅特征图构成的集合记为C₆；其中，上采样层的尺寸为2，C₆中的每幅特征图的宽度为W、高度为H。

对于第5个级联层，第5个级联层的输入端接收P₉中的所有特征图、C₄中的所有特征图、C₅中的所有特征图和C₆中的所有特征图，第5个级联层通过现有的Concatence方式连接P₉、C₄、C₅和C₆得到集合U₅，第5个级联层的输出端输出U₅；其中，U₅中包含的特征图的总幅数为960(64+512+256+128＝960)，U₅中的每幅特征图的宽度为W、高度为H。

对于输出层，其包括卷积层，其中，卷积层的卷积核大小为1×1、卷积核个数为12，卷积层的补零参数为“valid”，卷积层的激活方式(activation)为“softmax”；输出层的输入端接收U₅中的所有特征图，输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为采用分类交叉熵(categorical crossentropy)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到多尺度带孔卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为多尺度带孔卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝200。

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Keras2.1.5搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测，得到每幅道路场景图像对应的预测语义分割图像，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

图2a给出了第1幅原始的道路场景图像；图2b给出了利用本发明方法对图2a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图3a给出了第2幅原始的道路场景图像；图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图4a给出了第3幅原始的道路场景图像；图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图5a给出了第4幅原始的道路场景图像；图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。对比图2a和图2b，对比图3a和图3b，对比图4a和图4b，对比图5a和图5b，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种基于多尺度带孔卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的基于多尺度带孔卷积神经网络的道路场景语义分割方法，其特征在于所述的步骤1_4中，采用分类交叉熵获得。