CN109446933B

CN109446933B - 一种基于卷积神经网络的道路场景语义分割方法

Info

Publication number: CN109446933B
Application number: CN201811186863.7A
Authority: CN
Inventors: 周武杰; 顾鹏笠; 潘婷; 吕思嘉; 钱亚冠; 向坚
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2021-10-12
Anticipated expiration: 2038-10-12
Also published as: CN109446933A

Abstract

本发明公开了一种基于卷积神经网络的道路场景语义分割方法，其在训练阶段，构建卷积神经网络，其隐层包括5个神经网络块、5个过渡用卷积层、5个跳跃反卷积块、4个级联层；使用原始的道路场景图像输入到卷积神经网络中进行训练，得到对应的12幅语义分割预测图；再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中，得到预测语义分割图像；优点是提高了道路场景图像的语义分割效率和准确度。

Description

一种基于卷积神经网络的道路场景语义分割方法

技术领域

本发明涉及一种深度学习的语义分割方法，尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。

背景技术

智能交通行业的兴起，使得语义分割在智能交通系统中有着越来越多的应用，从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前，最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上，用于检测和识别特定物体，如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现，而使用深度学习来对交通场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的道路场景语义分割方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性，从而会导致得到的图像的特征信息减少，最终导致还原的效果信息比较粗糙，分割精度低。

发明内容

本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法，其分割效率高，且分割准确度高。

本发明解决上述技术问题所采用的技术方案为：一种基于卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为

然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将

处理成的12幅独热编码图像构成的集合记为

其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块；

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H；

对于第1个神经网络块，其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成；第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₁；其中，第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”，第一激活层和第二激活层的激活方式均为“Relu”，第一最大池化层的池化尺寸为2，P₁中的每幅特征图的宽度为

高度为

对于第2个神经网络块，其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成；第2个神经网络块的输入端接收P₁中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为P₂；其中，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”，第三激活层和第四激活层的激活方式均为“Relu”，第二最大池化层的池化尺寸为2，P₂中的每幅特征图的宽度为

高度为

对于第3个神经网络块，其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成；第3个神经网络块的输入端接收P₂中的所有特征图，第3个神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为P₃；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”，第五激活层、第六激活层和第七激活层的激活方式均为“Relu”，第三最大池化层的池化尺寸为2，P₃中的每幅特征图的宽度为

高度为

对于第4个神经网络块，其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成；第4个神经网络块的输入端接收P₃中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₄；其中，第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”，第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”，第四最大池化层的池化尺寸为2，P₄中的每幅特征图的宽度为

高度为

对于第5个神经网络块，其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成；第5个神经网络块的输入端接收P₄中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₅；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”，第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”，第五最大池化层的池化尺寸为2，P₅中的每幅特征图的宽度为

高度为

对于第1个过渡用卷积层，其由依次设置的第十四卷积层、第十四激活层组成；第1个过渡用卷积层的输入端接收P₅中的所有特征图，第1个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₁；其中，第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十四激活层的激活方式均为“Relu”，Q₁中的每幅特征图的宽度为

高度为

对于第2个过渡用卷积层，其由依次设置的第十五卷积层、第十五激活层组成；第2个过渡用卷积层的输入端接收P₄中的所有特征图，第2个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₂；其中，第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十五激活层的激活方式均为“Relu”，Q₂中的每幅特征图的宽度为

高度为

对于第3个过渡用卷积层，其由依次设置的第十六卷积层、第十六激活层组成；第3个过渡用卷积层的输入端接收P₃中的所有特征图，第3个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₃；其中，第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十六激活层的激活方式均为“Relu”，Q₃中的每幅特征图的宽度为

高度为

对于第4个过渡用卷积层，其由依次设置的第十七卷积层、第十七激活层组成；第4个过渡用卷积层的输入端接收P₂中的所有特征图，第4个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₄；其中，第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十七激活层的激活方式均为“Relu”，Q₄中的每幅特征图的宽度为

高度为

对于第5个过渡用卷积层，其由依次设置的第十八卷积层、第十八激活层组成；第5个过渡用卷积层的输入端接收P₁中的所有特征图，第5个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₅；其中，第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十八激活层的激活方式均为“Relu”，Q₅中的每幅特征图的宽度为

高度为

对于第1个跳跃反卷积块，其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成；第1个跳跃反卷积块的输入端接收Q₁中的所有特征图，Q₁中的所有特征图输入第一反卷积层，第一反卷积层的输出连接第十九激活层的输入，第十九激活层的输出连接第十九卷积层的输入，第十九卷积层的输出连接第二十激活层的输入，第二十激活层的输出连接第二十卷积层的输入，第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入，第二十一激活层的输出作为最终输出结果，第1个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₁；其中，第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”，第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₁中的每幅特征图的宽度为

高度为

对于第1个级联层，第1个级联层的输入端接收Q₂中的所有特征图和T₁中的所有特征图，第1个级联层通过Concatence方式连接Q₂和T₁得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为256，U₁中的每幅特征图的宽度为

高度为

对于第2个跳跃反卷积块，其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成；第2个跳跃反卷积块的输入端接收U₁中的所有特征图，U₁中的所有特征图输入第二反卷积层，第二反卷积层的输出连接第二十二激活层的输入，第二十二激活层的输出连接第二十一卷积层的输入，第二十一卷积层的输出连接第二十三激活层的输入，第二十三激活层的输出连接第二十二卷积层的输入，第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入，第二十四激活层的输出作为最终输出结果，第2个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₂；其中，第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”，第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₂中的每幅特征图的宽度为

高度为

对于第2个级联层，第2个级联层的输入端接收Q₃中的所有特征图和T₂中的所有特征图，第2个级联层通过Concatence方式连接Q₃和T₂得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为256，U₂中的每幅特征图的宽度为

高度为

对于第3个跳跃反卷积块，其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成；第3个跳跃反卷积块的输入端接收U₂中的所有特征图，U₂中的所有特征图输入第三反卷积层，第三反卷积层的输出连接第二十五激活层的输入，第二十五激活层的输出连接第二十三卷积层的输入，第二十三卷积层的输出连接第二十六激活层的输入，第二十六激活层的输出连接第二十四卷积层的输入，第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入，第二十七激活层的输出作为最终输出结果，第3个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₃；其中，第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”，第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₃中的每幅特征图的宽度为

高度为

对于第3个级联层，第3个级联层的输入端接收Q₄中的所有特征图和T₃中的所有特征图，第3个级联层通过Concatence方式连接Q₄和T₃得到集合U₃，第3个级联层的输出端输出U₃；其中，U₃中包含的特征图的总幅数为256，U₃中的每幅特征图的宽度为

高度为

对于第4个跳跃反卷积块，其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成；第4个跳跃反卷积块的输入端接收U₃中的所有特征图，U₃中的所有特征图输入第四反卷积层，第四反卷积层的输出连接第二十八激活层的输入，第二十八激活层的输出连接第二十五卷积层的输入，第二十五卷积层的输出连接第二十九激活层的输入，第二十九激活层的输出连接第二十六卷积层的输入，第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入，第三十激活层的输出作为最终输出结果，第4个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₄；其中，第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”，第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₄中的每幅特征图的宽度为

高度为

对于第4个级联层，第4个级联层的输入端接收Q₅中的所有特征图和T₄中的所有特征图，第4个级联层通过Concatence方式连接Q₅和T₄得到集合U₄，第4个级联层的输出端输出U₄；其中，U₄中包含的特征图的总幅数为256，U₄中的每幅特征图的宽度为

高度为

对于第5个跳跃反卷积块，其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成；第5个跳跃反卷积块的输入端接收U₄中的所有特征图，U₄中的所有特征图输入第五反卷积层，第五反卷积层的输出连接第三十一激活层的输入，第三十一激活层的输出连接第二十七卷积层的输入，第二十七卷积层的输出连接第三十二激活层的输入，第三十二激活层的输出连接第二十八卷积层的输入，第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入，第三十三激活层的输出作为最终输出结果，第5个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₅；其中，第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”，第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₅中的每幅特征图的宽度为W、高度为H；

对于输出层，其由第二十九卷积层组成，其中，第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”；输出层的输入端接收T₅中的所有特征图，输出层的输出端输出12幅与原始输入图像对应的语义分割预测图；

步骤1_3：将训练集中的每幅原始的道路场景图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图，将{I^q(i,j)}对应的12幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将

与

之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤2_2：将

的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_4中，

采用分类交叉熵获得。

与现有技术相比，本发明的优点在于：

1)本发明方法构建卷积神经网络，使用训练集中的道路场景图像输入到卷积神经网络中进行训练，得到卷积神经网络分类训练模型；再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中，预测得到道路场景图像对应的预测语义分割图像，由于本发明方法在构建卷积神经网络时结合了过渡用卷积层和跳跃反卷积块的特点，因此能够比较准确地描述道路场景中各种分类目标，从而有效地提高了道路场景图像的语义分割精确度。

2)本发明方法采用过渡用卷积层，减少训练参数量；采用跳跃反卷积块，使得卷积神经网络能反复利用低层特征，减少了细节特征丢失，物体边缘能更好还原。

3)本发明方法在搭建卷积神经网络中的较深的卷积层中使用级联层(concatenation)，重复利用低层特征，进而在训练集与测试集上都能得到较好效果。

附图说明

图1为本发明方法的总体实现框图；

图2a为第1幅原始的道路场景图像；

图2b为利用本发明方法对图2a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图3a为第2幅原始的道路场景图像；

图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图4a为第3幅原始的道路场景图像；

图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图5a为第4幅原始的道路场景图像；

图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的道路场景语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将

处理成的12幅独热编码图像构成的集合记为

其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，如取Q＝367，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝480、H＝360，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；在此，原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块。

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于第1个神经网络块，其由依次设置的第一卷积层(Convolution，Conv)、第一激活层(Activation，Act)、第二卷积层、第二激活层、第一最大池化层(Maxpooling，Pool)组成；第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₁；其中，第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、补零(padding)参数均为“same”，第一激活层和第二激活层的激活方式均为“Relu”，第一最大池化层的池化尺寸(pool_size)为2，P₁中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对于第1个跳跃反卷积块，其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成；第1个跳跃反卷积块的输入端接收Q₁中的所有特征图，Q₁中的所有特征图输入第一反卷积层，第一反卷积层的输出连接第十九激活层的输入，第十九激活层的输出连接第十九卷积层的输入，第十九卷积层的输出连接第二十激活层的输入，第二十激活层的输出连接第二十卷积层的输入，第二十卷积层的输出与第一反卷积层的输出作相加(add)操作后的输出连接第二十一激活层的输入，第二十一激活层的输出作为最终输出结果，第1个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₁；其中，第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长(strides)为2，第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”，第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₁中的每幅特征图的宽度为

高度为

对于第1个级联层，第1个级联层的输入端接收Q₂中的所有特征图和T₁中的所有特征图，第1个级联层通过现有的Concatence方式连接Q₂和T₁得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为256(128+128＝256)，U₁中的每幅特征图的宽度为

高度为

对于第2个跳跃反卷积块，其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成；第2个跳跃反卷积块的输入端接收U₁中的所有特征图，U₁中的所有特征图输入第二反卷积层，第二反卷积层的输出连接第二十二激活层的输入，第二十二激活层的输出连接第二十一卷积层的输入，第二十一卷积层的输出连接第二十三激活层的输入，第二十三激活层的输出连接第二十二卷积层的输入，第二十二卷积层的输出与第二反卷积层的输出作相加(add)操作后的输出连接第二十四激活层的输入，第二十四激活层的输出作为最终输出结果，第2个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₂；其中，第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”，第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₂中的每幅特征图的宽度为

高度为

对于第2个级联层，第2个级联层的输入端接收Q₃中的所有特征图和T₂中的所有特征图，第2个级联层通过现有的Concatence方式连接Q₃和T₂得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为256(128+128＝256)，U₂中的每幅特征图的宽度为

高度为

对于第3个跳跃反卷积块，其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成；第3个跳跃反卷积块的输入端接收U₂中的所有特征图，U₂中的所有特征图输入第三反卷积层，第三反卷积层的输出连接第二十五激活层的输入，第二十五激活层的输出连接第二十三卷积层的输入，第二十三卷积层的输出连接第二十六激活层的输入，第二十六激活层的输出连接第二十四卷积层的输入，第二十四卷积层的输出与第三反卷积层的输出作相加(add)操作的输出连接第二十七激活层的输入，第二十七激活层的输出作为最终输出结果，第3个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₃；其中，第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”，第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₃中的每幅特征图的宽度为

高度为

对于第3个级联层，第3个级联层的输入端接收Q₄中的所有特征图和T₃中的所有特征图，第3个级联层通过现有的Concatence方式连接Q₄和T₃得到集合U₃，第3个级联层的输出端输出U₃；其中，U₃中包含的特征图的总幅数为256(128+128＝256)，U₃中的每幅特征图的宽度为

高度为

对于第4个跳跃反卷积块，其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成；第4个跳跃反卷积块的输入端接收U₃中的所有特征图，U₃中的所有特征图输入第四反卷积层，第四反卷积层的输出连接第二十八激活层的输入，第二十八激活层的输出连接第二十五卷积层的输入，第二十五卷积层的输出连接第二十九激活层的输入，第二十九激活层的输出连接第二十六卷积层的输入，第二十六卷积层的输出与第四反卷积层的输出作相加(add)操作后的输出连接第三十激活层的输入，第三十激活层的输出作为最终输出结果，第4个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₄；其中，第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”，第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₄中的每幅特征图的宽度为

高度为

对于第4个级联层，第4个级联层的输入端接收Q₅中的所有特征图和T₄中的所有特征图，第4个级联层通过现有的Concatence方式连接Q₅和T₄得到集合U₄，第4个级联层的输出端输出U₄；其中，U₄中包含的特征图的总幅数为256(128+128＝256)，U₄中的每幅特征图的宽度为

高度为

对于第5个跳跃反卷积块，其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成；第5个跳跃反卷积块的输入端接收U₄中的所有特征图，U₄中的所有特征图输入第五反卷积层，第五反卷积层的输出连接第三十一激活层的输入，第三十一激活层的输出连接第二十七卷积层的输入，第二十七卷积层的输出连接第三十二激活层的输入，第三十二激活层的输出连接第二十八卷积层的输入，第二十八卷积层的输出与第五反卷积层的输出作相加(add)操作后输出连接第三十三激活层的输入，第三十三激活层的输出作为最终输出结果，第5个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₅；其中，第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”，第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₅中的每幅特征图的宽度为W、高度为H。

对于输出层，其由第二十九卷积层组成，其中，第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式(activation)为“softmax”；输出层的输入端接收T₅中的所有特征图，输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。

与

之间的损失函数值记为

采用分类交叉熵(categorical crossentropy)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝300。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值。

步骤2_2：将

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Keras2.1.5搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测，得到每幅道路场景图像对应的预测语义分割图像，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

图2a给出了第1幅原始的道路场景图像；图2b给出了利用本发明方法对图2a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图3a给出了第2幅原始的道路场景图像；图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图4a给出了第3幅原始的道路场景图像；图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图5a给出了第4幅原始的道路场景图像；图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。对比图2a和图2b，对比图3a和图3b，对比图4a和图4b，对比图5a和图5b，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种基于卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

处理成的12幅独热编码图像构成的集合记为

表示

中坐标位置为(i,j)的像素点的像素值；

高度为

高度为

高度为

高度为

高度为

高度为

对于第2个过渡用卷积层，其由依次设置的第十五卷积层、第十五激活层组成；第2个过渡用卷积层的输入端接收P₄中的所有特征图，第2个过渡用卷积层的输出端输出 128幅特征图，将128幅特征图构成的集合记为Q₂；其中，第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十五激活层的激活方式均为“Relu”，Q₂中的每幅特征图的宽度为