CN109635662B

CN109635662B - 一种基于卷积神经网络的道路场景语义分割方法

Info

Publication number: CN109635662B
Application number: CN201811350718.8A
Authority: CN
Inventors: 周武杰; 吕思嘉; 袁建中; 向坚; 王海江; 何成
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2022-06-21
Anticipated expiration: 2038-11-14
Also published as: CN109635662A

Abstract

本发明公开了一种基于卷积神经网络的道路场景语义分割方法，其先构建卷积神经网络，包括输入层、隐层和输出层，隐层由13个神经网络块、7个上采样层、8个级联层组成；然后将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练，得到每幅原始的道路场景图像对应的12幅语义分割预测图；接着通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，得到卷积神经网络分类训练模型的最优权值矢量和最优偏置项；将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中进行预测，得到对应的预测语义分割图像；优点是语义分割精度高。

Description

一种基于卷积神经网络的道路场景语义分割方法

技术领域

本发明涉及一种道路场景语义分割技术，尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。

背景技术

近年来，具有执行计算密集型任务能力的机器的进步使得研究人员能够更深入地挖掘神经网络。卷积神经网络在图像的分类、定位以及场景理解等方面取得了最近的成功。目前，由于增强现实和自动驾驶车辆等任务的激增，因此许多研究人员将注意力转移到场景理解上，其中一个主要步骤就是语义分割，即对所给定的图像中的每一个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。

当然，目标检测方法可以帮助绘制出某些确定实体的边框，但人类对场景理解能以像素级的精细程度对每一个实体进行检测并标记精确的边界。现在已经开始发展自动驾驶汽车和智能机器人，这些都需要深入理解周围环境，因此精确分割实体变得越来越重要。

深度学习在语义分割、计算机视觉、语音识别、跟踪方面都有极广泛的应用，其极强的高效性也使得它在实时应用等各方面具有巨大的潜力。现如今获取特征的方法主要可以分为两类：使用手动特征的传统方法和针对问题自动学习的深度学习方法，前者通常为了适应新的数据集需要专家相关经验和时间对特征进行调整；后者在物体检测和图像分类等方面的成功鼓舞着研究人员探索此类网络对像素级标记，如语义分割方面的能力。因此，深度学习语义分割方法的研究更高效实用。

经典的语义分割方法有全连接网络(Full Connected Network，FCN)，其能够做到端到端，像素点对像素点的连接，而且相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效，因为避免了由于使用像素块而带来的重复存储和计算卷积的问题，其是最先进的语义分割方法之一。但它存在很多缺点，首先是训练比较麻烦，需要训练三次才能够得到FCN-8s；其次是对图像的细节不够敏感，这是因为在解码过程，也就是恢复原图像大小的过程中，输入上采样层的label map(标签图片)太稀疏，而且上采样过程就是一个简单的deconvolution(反卷积)，因此得到的分割结果还是不精细。

发明内容

本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法，其语义分割精度高。

本发明解决上述技术问题所采用的技术方案为：一种基于卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为

然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将

处理成的12幅独热编码图像构成的集合记为

其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥100，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；隐层由13个神经网络块、7个上采样层、8个级联层组成；第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成，第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成，第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成，第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成，第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成，第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成，第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成，第8个神经网络块由第三十卷积层、第三十一卷积层组成，第9个神经网络块由第三十二卷积层、第三十三卷积层组成，第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成，第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成，第12个神经网络块由第四十卷积层、第四十一卷积层组成，第13个神经网络块由第四十二卷积层、第四十三卷积层组成；输出层由第四十四卷积层组成；其中，第一卷积层至第四十四卷积层各自的卷积核大小为3×3，第一最大池化层至第四最大池化层各自的池化步长为2，7个上采样层各自的上采样步长为2；

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H；

对于第1个神经网络块，第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第一卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₁；第二卷积层的输入端接收C₁中的所有特征图，第二卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₂；第一最大池化层的输入端接收C₂中的所有特征图，第一最大池化层的输出端输出64幅特征图，将64幅特征图构成的集合记为Z₁；第三卷积层的输入端接收C₂中的所有特征图，第三卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₃；第四卷积层的输入端接收C₂中的所有特征图，第四卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₄；其中，C₁、C₂、C₃、C₄各自中的每幅特征图的宽度为W、高度为H，Z₁中的每幅特征图的宽度为

高度为

对于第2个神经网络块，第五卷积层的输入端接收Z₁中的所有特征图，第五卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₅；第六卷积层的输入端接收C₅中的所有特征图，第六卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₆；第二最大池化层的输入端接收C₆中的所有特征图，第二最大池化层的输出端输出128幅特征图，将128幅特征图构成的集合记为Z₂；第七卷积层的输入端接收C₆中的所有特征图，第七卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₇；第八卷积层的输入端接收C₆中的所有特征图，第八卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₈；其中，C₅、C₆、C₇、C₈各自中的每幅特征图的宽度为

高度为

Z₂中的每幅特征图的宽度为

高度为

对于第3个神经网络块，第九卷积层的输入端接收Z₂中的所有特征图，第九卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₉；第十卷积层的输入端接收C₉中的所有特征图，第十卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₁₀；第十一卷积层的输入端接收C₁₀中的所有特征图，第十一卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₁₁；第三最大池化层的输入端接收C₁₁中的所有特征图，第三最大池化层的输出端输出256幅特征图，将256幅特征图构成的集合记为Z₃；第十二卷积层的输入端接收C₁₁中的所有特征图，第十二卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₁₂；第十三卷积层的输入端接收C₁₁中的所有特征图，第十三卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₁₃；其中，C₉、C₁₀、C₁₁、C₁₂、C₁₃各自中的每幅特征图的宽度为

高度为

Z₃中的每幅特征图的宽度为

高度为

对于第4个神经网络块，第十四卷积层的输入端接收Z₃中的所有特征图，第十四卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁₄；第十五卷积层的输入端接收C₁₄中的所有特征图，第十五卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁₅；第十六卷积层的输入端接收C₁₅中的所有特征图，第十六卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁₆；第四最大池化层的输入端接收C₁₆中的所有特征图，第四最大池化层的输出端输出512幅特征图，将512幅特征图构成的集合记为Z₄；第十七卷积层的输入端接收C₁₆中的所有特征图，第十七卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁₇；其中，C₁₄、C₁₅、C₁₆、C₁₇各自中的每幅特征图的宽度为

高度为

Z₄中的每幅特征图的宽度为

高度为

对于第5个神经网络块，第十八卷积层的输入端接收Z₄中的所有特征图，第十八卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁₈；第十九卷积层的输入端接收C₁₈中的所有特征图，第十九卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₁₉；第二十卷积层的输入端接收C₁₉中的所有特征图，第二十卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₀；第二十一卷积层的输入端接收C₂₀中的所有特征图，第二十一卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₁；第二十二卷积层的输入端接收C₂₁中的所有特征图，第二十二卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₂；第二十三卷积层的输入端接收C₂₂中的所有特征图，第二十三卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₃；其中，C₁₈、C₁₉、C₂₀、C₂₁、C₂₂、C₂₃各自中的每幅特征图的宽度为

高度为

对于第1个上采样层，第1个上采样层的输入端接收C₂₃中的所有特征图，第1个上采样层的输出端输出512幅特征图，将512幅特征图构成的集合记为Y₁；其中，Y₁中的每幅特征图的宽度为

高度为

对于第1个级联层，第1个级联层的输入端接收Y₁中的所有特征图和C₁₇中的所有特征图，第1个级联层的输出端输出1024幅特征图，将1024幅特征图构成的集合记为L₁；其中，L₁中的每幅特征图的宽度为

高度为

对于第6个神经网络块，第二十四卷积层的输入端接收L₁中的所有特征图，第二十四卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₄；第二十五卷积层的输入端接收C₂₄中的所有特征图，第二十五卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₅；第二十六卷积层的输入端接收C₂₅中的所有特征图，第二十六卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₂₆；其中，C₂₄、C₂₅、C₂₆各自中的每幅特征图的宽度为

高度为

对于第2个上采样层，第2个上采样层的输入端接收C₂₆中的所有特征图，第2个上采样层的输出端输出512幅特征图，将512幅特征图构成的集合记为Y₂；其中，Y₂中的每幅特征图的宽度为

高度为

对于第2个级联层，第2个级联层的输入端接收Y₂中的所有特征图和C₁₂中的所有特征图，第2个级联层的输出端输出768幅特征图，将768幅特征图构成的集合记为L₂；其中，L₂中的每幅特征图的宽度为

高度为

对于第7个神经网络块，第二十七卷积层的输入端接收L₂中的所有特征图，第二十七卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₂₇；第二十八卷积层的输入端接收C₂₇中的所有特征图，第二十八卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₂₈；第二十九卷积层的输入端接收C₂₈中的所有特征图，第二十九卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₂₉；其中，C₂₇、C₂₈、C₂₉各自中的每幅特征图的宽度为

高度为

对于第3个上采样层，第3个上采样层的输入端接收C₂₉中的所有特征图，第3个上采样层的输出端输出256幅特征图，将256幅特征图构成的集合记为Y₃；其中，Y₃中的每幅特征图的宽度为

高度为

对于第3个级联层，第3个级联层的输入端接收Y₃中的所有特征图和C₇中的所有特征图，第3个级联层的输出端输出384幅特征图，将384幅特征图构成的集合记为L₃；其中，L₃中的每幅特征图的宽度为

高度为

对于第8个神经网络块，第三十卷积层的输入端接收L₃中的所有特征图，第三十卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₃₀；第三十一卷积层的输入端接收C₃₀中的所有特征图，第三十一卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₃₁；其中，C₃₀、C₃₁各自中的每幅特征图的宽度为

高度为

对于第4个上采样层，第4个上采样层的输入端接收C₃₁中的所有特征图，第4个上采样层的输出端输出128幅特征图，将128幅特征图构成的集合记为Y₄；其中，Y₄中的每幅特征图的宽度为W、高度为H；

对于第4个级联层，第4个级联层的输入端接收Y₄中的所有特征图和C₃中的所有特征图，第4个级联层的输出端输出192幅特征图，将192幅特征图构成的集合记为L₄；其中，L₄中的每幅特征图的宽度为W、高度为H；

对于第9个神经网络块，第三十二卷积层的输入端接收L₄中的所有特征图，第三十二卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₃₂；第三十三卷积层的输入端接收C₃₂中的所有特征图，第三十三卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₃₃；其中，C₃₂、C₃₃各自中的每幅特征图的宽度为W、高度为H；

对于第10个神经网络块，第三十四卷积层的输入端接收C₁₆中的所有特征图，第三十四卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₃₄；第三十五卷积层的输入端接收C₃₄中的所有特征图，第三十五卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₃₅；第三十六卷积层的输入端接收C₃₅中的所有特征图，第三十六卷积层的输出端输出512幅特征图，将512幅特征图构成的集合记为C₃₆；其中，C₃₄、C₃₅、C₃₆各自中的每幅特征图的宽度为

高度为

对于第5个上采样层，第5个上采样层的输入端接收C₃₆中的所有特征图，第5个上采样层的输出端输出512幅特征图，将512幅特征图构成的集合记为Y₅；其中，Y₅中的每幅特征图的宽度为

高度为

对于第5个级联层，第5个级联层的输入端接收Y₅中的所有特征图和C₁₃中的所有特征图，第5个级联层的输出端输出768幅特征图，将768幅特征图构成的集合记为L₅；其中，L₅中的每幅特征图的宽度为

高度为

对于第11个神经网络块，第三十七卷积层的输入端接收L₅中的所有特征图，第三十七卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₃₇；第三十八卷积层的输入端接收C₃₇中的所有特征图，第三十八卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₃₈；第三十九卷积层的输入端接收C₃₈中的所有特征图，第三十九卷积层的输出端输出256幅特征图，将256幅特征图构成的集合记为C₃₉；其中，C₃₇、C₃₈、C₃₉各自中的每幅特征图的宽度为

高度为

对于第6个上采样层，第6个上采样层的输入端接收C₃₉中的所有特征图，第6个上采样层的输出端输出256幅特征图，将256幅特征图构成的集合记为Y₆；其中，Y₆中的每幅特征图的宽度为

高度为

对于第6个级联层，第6个级联层的输入端接收Y₆中的所有特征图和C₈中的所有特征图，第6个级联层的输出端输出384幅特征图，将384幅特征图构成的集合记为L₆；其中，L₆中的每幅特征图的宽度为

高度为

对于第12个神经网络块，第四十卷积层的输入端接收L₆中的所有特征图，第四十卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₄₀；第四十一卷积层的输入端接收C₄₀中的所有特征图，第四十一卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为C₄₁；其中，C₄₀、C₄₁各自中的每幅特征图的宽度为

高度为

对于第7个上采样层，第7个上采样层的输入端接收C₄₁中的所有特征图，第7个上采样层的输出端输出128幅特征图，将128幅特征图构成的集合记为Y₇；其中，Y₇中的每幅特征图的宽度为W、高度为H；

对于第7个级联层，第7个级联层的输入端接收Y₇中的所有特征图和C₄中的所有特征图，第7个级联层的输出端输出192幅特征图，将192幅特征图构成的集合记为L₇；其中，L₇中的每幅特征图的宽度为W、高度为H；

对于第13个神经网络块，第四十二卷积层的输入端接收L₇中的所有特征图，第四十二卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₄₂；第四十三卷积层的输入端接收C₄₂中的所有特征图，第四十三卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₄₃；其中，C₄₂、C₄₃各自中的每幅特征图的宽度为W、高度为H；

对于第8个级联层，第8个级联层的输入端接收C₃₃中的所有特征图和C₄₃中的所有特征图，第8个级联层的输出端输出128幅特征图，将128幅特征图构成的集合记为L₈；其中，L₈中的每幅特征图的宽度为W、高度为H；

对于输出层，第四十四卷积层的输入端接收L₈中的所有特征图，第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图；其中，每幅语义分割预测图的宽度为W、高度为H；

步骤1_3：将训练集中的每幅原始的道路场景图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图，将{I^q(i,j)}对应的12幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将

与

之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤2_2：将

的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_4中，

采用分类交叉熵获得。

与现有技术相比，本发明的优点在于：

1)本发明方法将第1个至第9个神经网络块、第1个至第4个上采样层、第1个至第4个级联层构成一个尺度模型，将第10个至第13个神经网络块、第5个至第7个上采样层、第5个至第7个级联层构成另一个尺度模型，采用两个尺度模型学习将来自不同层的多层信息与不同的接受域大小相结合，两个尺度模型的设置减少了冗余性，在数据量上相比现有的FCN等其他模型而言较少的情况下同样能够做到端到端，像素点对像素点的连接，因此相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效，极大增强了创建的卷积神经网络的学习能力，从而能够有效地提升语义分割精度。

2)本发明方法利用了VGG-16网络模型(即设置的13个神经网络块)为基础架构，充分吸收VGG-16网络模型小卷积核及高效性优点，使得每个上采样层输出的特征图即labelmap(标签图片)较为密集，从而使得训练集和测试集的结果均稳定提升，有极强的鲁棒性，因此提高了语义分割精度。

3)本发明方法创建的卷积神经网络中的第1个至第5个神经网络块构成了编码部分，第1个至第7个上采样层、第1个至第8个级联层、第6个至第13个神经网络块构成了解码部分，编码部分和解码部分组成了编解码神经网络体系结构，本发明方法同时考虑了编解码神经网络体系结构和跳跃再融合结构，打破了传统一步到位的模型，同时卷积核在编码部分逐步增加，在解码部分逐渐减少，优化了创建的卷积神经网络的结构对称性，同时跳跃融合域的特征信息增加了deconvolution(反卷积)数据量，防止了创建的卷积神经网络的过拟合，提升了创建的卷积神经网络的效率；同时，与FCN相比，本发明方法在结构上比较大的改动在上采样阶段，打破了其一步到位的上采样模式，本发明方法的上采样层包含了很多层的特征，减少了由于一步到位的上采样模型导致的信息损失，提升了分割结果的精确度；此外，本发明方法只需要一次训练，而FCN需要三次训练。

附图说明

图1为本发明方法的总体实现框图；

图2为本发明方法创建的卷积神经网络的组成结构示意图；

图3a为选取的一幅待语义分割的道路场景图像；

图3b为图3a所示的待语义分割的道路场景图像对应的真实语义分割图像；

图3c为利用本发明方法对图3a所示的待语义分割的道路场景图像进行预测，得到的预测语义分割图像；

图4a为选取的另一幅待语义分割的道路场景图像；

图4b为图4a所示的待语义分割的道路场景图像对应的真实语义分割图像；

图4c为利用本发明方法对图4a所示的待语义分割的道路场景图像进行预测，得到的预测语义分割图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的道路场景语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将

处理成的12幅独热编码图像构成的集合记为

其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥100，如取Q＝100，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝352、H＝480，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；在此，原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的100幅图像。

步骤1_2：构建卷积神经网络：如图2所示，卷积神经网络包括输入层、隐层和输出层；隐层由13个神经网络块、7个上采样层、8个级联层组成；第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成，第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成，第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成，第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成，第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成，第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成，第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成，第8个神经网络块由第三十卷积层、第三十一卷积层组成，第9个神经网络块由第三十二卷积层、第三十三卷积层组成，第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成，第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成，第12个神经网络块由第四十卷积层、第四十一卷积层组成，第13个神经网络块由第四十二卷积层、第四十三卷积层组成；输出层由第四十四卷积层组成；其中，第一卷积层至第四十四卷积层各自的卷积核大小为3×3，第一最大池化层至第四最大池化层各自的池化步长为2，7个上采样层各自的上采样步长为2，每个上采样层使输出的特征图的尺寸为输入的特征图的尺寸的2倍。

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

高度为

高度为

Z₂中的每幅特征图的宽度为

高度为

高度为

Z₃中的每幅特征图的宽度为

高度为

高度为

Z₄中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对于第4个上采样层，第4个上采样层的输入端接收C₃₁中的所有特征图，第4个上采样层的输出端输出128幅特征图，将128幅特征图构成的集合记为Y₄；其中，Y₄中的每幅特征图的宽度为W、高度为H。

对于第4个级联层，第4个级联层的输入端接收Y₄中的所有特征图和C₃中的所有特征图，第4个级联层的输出端输出192幅特征图，将192幅特征图构成的集合记为L₄；其中，L₄中的每幅特征图的宽度为W、高度为H。

对于第9个神经网络块，第三十二卷积层的输入端接收L₄中的所有特征图，第三十二卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₃₂；第三十三卷积层的输入端接收C₃₂中的所有特征图，第三十三卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₃₃；其中，C₃₂、C₃₃各自中的每幅特征图的宽度为W、高度为H。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对于第7个上采样层，第7个上采样层的输入端接收C₄₁中的所有特征图，第7个上采样层的输出端输出128幅特征图，将128幅特征图构成的集合记为Y₇；其中，Y₇中的每幅特征图的宽度为W、高度为H。

对于第7个级联层，第7个级联层的输入端接收Y₇中的所有特征图和C₄中的所有特征图，第7个级联层的输出端输出192幅特征图，将192幅特征图构成的集合记为L₇；其中，L₇中的每幅特征图的宽度为W、高度为H。

对于第13个神经网络块，第四十二卷积层的输入端接收L₇中的所有特征图，第四十二卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₄₂；第四十三卷积层的输入端接收C₄₂中的所有特征图，第四十三卷积层的输出端输出64幅特征图，将64幅特征图构成的集合记为C₄₃；其中，C₄₂、C₄₃各自中的每幅特征图的宽度为W、高度为H。

对于第8个级联层，第8个级联层的输入端接收C₃₃中的所有特征图和C₄₃中的所有特征图，第8个级联层的输出端输出128幅特征图，将128幅特征图构成的集合记为L₈；其中，L₈中的每幅特征图的宽度为W、高度为H。

对于输出层，第四十四卷积层的输入端接收L₈中的所有特征图，第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图；其中，每幅语义分割预测图的宽度为W、高度为H。

与

之间的损失函数值记为

采用分类交叉熵(categorical crossentropy)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝300。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值。

步骤2_2：将

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Keras2.1.5搭建卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即像素精度(PixelAccuracy，PA)、均像素精度(Mean Pixel Accuracy，MPA)、均交并比(Mean Intersectionover Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测，得到每幅道路场景图像对应的预测语义分割图像，反映本发明方法的语义分割效果的像素精度PA、均像素精度MPA、均交并比MIoU如表1所列，像素精度PA、均像素精度MPA、均交并比MIoU的值越高，说明有效性和预测准确率越高。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

图3a给出了选取的一幅待语义分割的道路场景图像；图3b给出了图3a所示的待语义分割的道路场景图像对应的真实语义分割图像；图3c给出了利用本发明方法对图3a所示的待语义分割的道路场景图像进行预测，得到的预测语义分割图像；图4a给出了选取的另一幅待语义分割的道路场景图像；图4b给出了图4a所示的待语义分割的道路场景图像对应的真实语义分割图像；图4c给出了利用本发明方法对图4a所示的待语义分割的道路场景图像进行预测，得到的预测语义分割图像。对比图3b和图3c，对比图4b和图4c，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高，接近真实语义分割图像。

Claims

1.一种基于卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

处理成的12幅独热编码图像构成的集合记为

表示

中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；隐层由13个神经网络块、7个上采样层、8个级联层组成，第1个至第5个神经网络块构成编码部分，第1个至第7个上采样层、第1个至第8个级联层、第6个至第13个神经网络块构成解码部分，编码部分和解码部分组成编解码神经网络体系结构；第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成，第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成，第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成，第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成，第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成，第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成，第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成，第8个神经网络块由第三十卷积层、第三十一卷积层组成，第9个神经网络块由第三十二卷积层、第三十三卷积层组成，第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成，第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成，第12个神经网络块由第四十卷积层、第四十一卷积层组成，第13个神经网络块由第四十二卷积层、第四十三卷积层组成；输出层由第四十四卷积层组成；其中，第一卷积层至第四十四卷积层各自的卷积核大小为3×3，第一最大池化层至第四最大池化层各自的池化步长为2，7个上采样层各自的上采样步长为2；