CN112149496A

CN112149496A - 一种基于卷积神经网络的实时道路场景分割方法

Info

Publication number: CN112149496A
Application number: CN202010793917.7A
Authority: CN
Inventors: 周武杰; 林鑫杨; 潘思佳; 强芳芳; 雷景生; 周扬; 邱微微
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-12-29

Abstract

本发明公开了一种基于卷积神经网络的实时道路场景分割方法，其构建卷积神经网络，包括彩色图像输入层、热力图像输入层、深层次特征提取模块、浅层次特征提取模块、第一上采样层、空间注意力机制模块、空间分辨率恢复模块、输出层；将原始的道路场景彩色图像的R、G和B通道分量及经纬度扩充后形成的三通道热力图像输入到卷积神经网络中进行训练，得到9幅语义分割预测图，通过计算真实语义分割图像处理成的9幅独热编码图像与对应的9幅语义分割预测图之间的损失函数值，得到卷积神经网络训练模型的最优权值矢量和最优偏置项；测试时利用卷积神经网络训练模型对待语义分割的道路场景彩色图像进行预测；优点是分割准确度高，且能达到实时性要求。

Description

一种基于卷积神经网络的实时道路场景分割方法

技术领域

本发明涉及一种深度学习的道路场景语义分割技术，尤其是涉及一种基于卷积神经网络的实时道路场景分割方法。

背景技术

随着自动驾驶技术、计算机视觉和自然语言处理技术的不断发展，无人驾驶汽车将会广泛地出现在人们的生活当中。无人驾驶汽车在行驶过程中需要实时精确地理解周围的场景并对突发事件快速地做出决策，避免交通事故。因此，高效精确的道路场景语义分割正成为计算机视觉领域研究的热点之一。

语义分割任务是图像理解的一个基础任务，也是计算机视觉领域中有待解决的一个重要任务。在过去的几年里，深度学习技术，尤其是卷积神经网络，在语义分割任务上显示出了巨大的潜力。对于夜间道路场景，不良的光照条件给夜间道路场景理解带来了巨大的挑战，热力图可以很好地进行信息的补充，作为输入信息。通常，语义分割任务使用的全卷积神经网络架构可以分为两类：编码器-解码器结构和膨胀卷积结构。编码器-解码器结构首先使用编码器提取图像特征，然后使用解码器对空间分辨率进行恢复；膨胀卷积结构为了减少编码部分空间信息的丢失，使用扩张卷积来增加全局的感受野，使得模型能够兼顾全局语义信息。

尽管膨胀卷积结构具有保持空间信息的优点，但是如果一直使用较高的空间分辨率不进行下采样，则会使得消耗内存较大，并且会对模型的推理速度有较大影响，无法达到实时性的要求。此外，由于卷积神经网络会随着层数的加深学到更丰富的特征，因此高内存消耗使得卷积神经网络难以有较深层次的结构。

发明内容

本发明所要解决的技术问题是提供一种基于卷积神经网络的实时道路场景分割方法，其分割准确度高，且能够达到实时性的要求。

本发明解决上述技术问题所采用的技术方案为：一种基于卷积神经网络的实时道路场景分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景彩色图像记为

将训练集中的第q幅原始的道路场景热力图像记为

将

对应的真实语义分割图像记为

然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像，将

处理成的9幅独热编码图像构成的集合记为

其中，Q为正整数，Q≥500，原始的道路场景彩色图像为RGB图像，原始的道路场景热力图像为灰度图像，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示

的宽度，H表示

的高度，

与

为从同一道路场景获取，

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：该卷积神经网络包括输入层、特征提取层、特征融合层和输出层，输入层由彩色图像输入层和热力图像输入层两部分构成，特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成，特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成；

对于彩色图像输入层，其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块；其中，原始RGB图像的宽度为W、高度为H；

对于热力图像输入层，其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像，其输出端输出三通道热力图像给深层次特征提取模块；其中，原始热力图像的宽度为W、高度为H；

对于深层次特征提取模块，其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块，第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出24幅特征图，将这24幅特征图构成的集合记为D_colour,1，D_colour,1中的每幅特征图的宽度为

高度为

第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像，其输出端输出24幅特征图，将这24幅特征图构成的集合记为D_thermal,1，D_thermal,1中的每幅特征图的宽度为

高度为

对D_colour,1中的每幅特征图与D_thermal,1中对应的特征图执行对应像素点的像素值相加融合操作，共融合得到24幅特征图，将这24幅特征图构成的集合记为D_Add,1，D_Add,1中的每幅特征图的宽度为

高度为

第二彩色结构块的输入端接收D_Add,1中的所有特征图，其输出端输出32幅特征图，将这32幅特征图构成的集合记为D_colour,2，D_colour,2中的每幅特征图的宽度为

高度为

第二热力图结构块的输入端接收D_thermal,1中的所有特征图，其输出端输出32幅特征图，将这32幅特征图构成的集合记为D_thermal,2，D_thermal,2中的每幅特征图的宽度为

高度为

对D_colour,2中的每幅特征图与D_thermal,2中对应的特征图执行对应像素点的像素值相加融合操作，共融合得到32幅特征图，将这32幅特征图构成的集合记为D_Add,2，D_Add,2中的每幅特征图的宽度为

高度为

第三彩色结构块的输入端接收D_Add,2中的所有特征图，其输出端输出64幅特征图，将这64幅特征图构成的集合记为D_colour,3，D_colour,3中的每幅特征图的宽度为

高度为

第三热力图结构块的输入端接收D_thermal,2中的所有特征图，其输出端输出64幅特征图，将这64幅特征图构成的集合记为D_thermal,3，D_thermal,3中的每幅特征图的宽度为

高度为

对D_colour,3中的每幅特征图与D_thermal,3中对应的特征图执行对应像素点的像素值相加融合操作，共融合得到64幅特征图，将这64幅特征图构成的集合记为D_Add,3，D_Add,3中的每幅特征图的宽度为

高度为

第四彩色结构块的输入端接收D_Add,3中的所有特征图，其输出端作为深层次特征提取模块的输出端输出160幅特征图，将这160幅特征图构成的集合记为D_colour,4，D_colour,4中的每幅特征图的宽度为

高度为

对于浅层次特征提取模块，其仅包括一个浅层结构块，浅层结构块的输入端接收D_Add,1中的所有特征图，其输出端输出160幅特征图，将这160幅特征图构成的集合记为S，S中的每幅特征图的宽度为

高度为

对于第一上采样层，其输入端接收D_colour,4中的所有特征图，其对D_colour,4中的每幅特征图执行四倍上采样操作，其输出端输出160幅特征图，将这160幅特征图构成的集合记为Y，Y中的每幅特征图的宽度为

高度为

对Y中的所有特征图和S中的所有特征图执行拼接操作，得到320幅特征图，将这320幅特征图构成的集合记为C，C中的每幅特征图的宽度为

高度为

对于空间注意力机制模块，其输入端接收C中的所有特征图，其输出端输出1幅特征图，这幅特征图的宽度为

高度为

将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像，利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作，共得到320幅特征图，将这320幅特征图构成的集合记为F，F中的每幅特征图的宽度为

高度为

对于空间分辨率恢复模块，其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层，第一激活层的激活函数为“ReLU”，第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图，第一卷积层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₁，H₁中的每幅特征图的宽度为

高度为

第一批量归一化层的输入端接收H₁中的所有特征图，第一批量归一化层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₂，H₂中的每幅特征图的宽度为

高度为

第一激活层的输入端接收H₂中的所有特征图，第一激活层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₃，H₃中的每幅特征图的宽度为

高度为

第二上采样层的输入端接收H₃中的所有特征图，第二上采样层对H₃中的每幅特征图执行两倍上采样操作，第二上采样层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₄，H₄中的每幅特征图的宽度为

高度为

Dropout层的输入端接收H₄中的所有特征图，Dropout层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₅，H₅中的每幅特征图的宽度为

高度为

第二卷积层的输入端接收H₅中的所有特征图，第二卷积层的输出端输出9幅特征图，将这9幅特征图构成的集合记为H₆，H₆中的每幅特征图的宽度为

高度为

第三上采样层的输入端接收H₆中的所有特征图，第三上采样层对H₆中的每幅特征图执行两倍上采样操作，第三上采样层的输出端输出9幅特征图，将这9幅特征图构成的集合记为H₇，H₇中的每幅特征图的宽度为W、高度为H；

对于输出层，其输入端接收H₇中的所有特征图，其输出端输出9幅特征图作为语义分割预测图；

步骤1_3：将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像，并将训练集中的每幅原始的道路场景热力图像作为原始热力图像，将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中，使用Adam优化方法进行训练，得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图，将

对应的9幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值，将

与

之间的损失函数值记为

采用分类交叉熵获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到Q×V个损失函数值；然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的道路场景彩色图像，令

表示待语义分割的道路场景热力图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i',j')的像素点的像素值，

表示

中坐标位置为(i',j')的像素点的像素值，

与

为从同一道路场景获取；

步骤2_2：将

的R通道分量、G通道分量和B通道分量及

经纬度扩充后形成的三通道热力图像输入到训练好的卷积神经网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，预测得到

对应的预测语义分割图像。

所述的步骤1_2中，深层次特征提取模块采用两个MobileNetV2网络结构的部分结构，MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层，在保持MobileNetV2网络结构中各层之间的连接关系的前提下，第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块，第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块，第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块，第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块，第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块，第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块，第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块；其中，卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1，第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。

所述的步骤1_2中，浅层次特征提取模块采用MobileNetV2网络结构的部分结构，MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层，将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块，并修改该bottleneck层的参数，使其输入端输入的特征图的宽度为

高度为

输入通道数为24，其输出端输出的特征图的宽度为

高度为

输出通道数为160，其下采样的倍数为1。

所述的步骤1_2中，空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层，第二激活层的激活函数为“ReLU”，第三激活层的激活函数为“Sigmoid”，第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图，第三卷积层的输出端输出80幅特征图，将这80幅特征图构成的集合记为Z₁，Z₁中的每幅特征图的宽度为

高度为

第二批量归一化层的输入端接收Z₁中的所有特征图，第二批量归一化层的输出端输出80幅特征图，将这80幅特征图构成的集合记为Z₂，Z₂中的每幅特征图的宽度为

高度为

第二激活层的输入端接收Z₂中的所有特征图，第二激活层的输出端输出80幅特征图，将这80幅特征图构成的集合记为Z₃，Z₃中的每幅特征图的宽度为

高度为

第四卷积层的输入端接收Z₃中的所有特征图，第四卷积层的输出端输出1幅特征图，这幅特征图的宽度为

高度为

第三激活层的输入端接收第四卷积层的输出端输出的特征图，第三激活层的输出端输出1幅特征图，这幅特征图的宽度为

高度为

与现有技术相比，本发明的优点在于：

1)本发明方法构建卷积神经网络，使用训练集中的道路场景彩色图像和热力图像输入到卷积神经网络中进行训练，得到卷积神经网络训练模型；再将待语义分割的道路场景彩色图像和热力图像输入到卷积神经网络训练模型中，得到对应的预测语义分割图像，由于本发明方法在构建卷积神经网络时结合了浅层次和深层次的特征信息，因此能够比较准确地分割道路场景中各种不同大小的目标，从而有效地提高了道路场景图像的语义分割准确度。

2)本发明方法使用MobileNetV2轻量级网络结构的部分结构用于特征提取，使得训练好的卷积神经网络训练模型能够达到实时性要求。

3)本发明方法将热力图像信息作为彩色图像信息的补充，将热力图像特征与彩色图像特征进行融合，能够准确预测黑夜情况下的物体。

附图说明

图1为本发明方法中构建的卷积神经网络的组成结构示意图；

图2a为第1幅原始的道路场景彩色图像；

图2b为与图2a同一场景的原始的道路场景热力图像；

图2c为利用本发明方法对图2a和图2b进行处理，预测得到的预测语义分割图像；

图3a为第2幅原始的道路场景彩色图像；

图3b为与图3a同一场景的原始的道路场景热力图像；

图3c为利用本发明方法对图3a和图3b进行处理，预测得到的预测语义分割图像；

图4a为第3幅原始的道路场景彩色图像；

图4b为与图4a同一场景的原始的道路场景热力图像；

图4c为利用本发明方法对图4a和图4b进行处理，预测得到的预测语义分割图像；

图5a为第4幅原始的道路场景彩色图像；

图5b为与图5a同一场景的原始的道路场景热力图像；

图5c为利用本发明方法对图5a和图5b进行处理，预测得到的预测语义分割图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的实时道路场景分割方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

将训练集中的第q幅原始的道路场景热力图像记为

将

对应的真实语义分割图像记为

然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像，将

处理成的9幅独热编码图像构成的集合记为

其中，Q为正整数，Q≥500，在本实施例中取Q＝785，原始的道路场景彩色图像为RGB图像，原始的道路场景热力图像为灰度图像，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示

的宽度，H表示

的高度，在本实施例中取W＝640、H＝480，

与

为从同一道路场景获取，

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值。

在此，原始的道路场景彩色图像和原始的道路场景热力图像直接从MFNet中报告的道路场景图像数据库中选取。

步骤1_2：构建卷积神经网络：如图1所示，该卷积神经网络包括输入层、特征提取层、特征融合层和输出层，输入层由彩色图像输入层和热力图像输入层两部分构成，特征提取层使用MobileNetV2网络结构的部分结构，且由深层次特征提取模块和浅层次特征提取模块两部分构成，特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成。

对于彩色图像输入层，其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块；其中，原始RGB图像的宽度为W、高度为H。

对于热力图像输入层，其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像，其输出端输出三通道热力图像给深层次特征提取模块；其中，原始热力图像的宽度为W、高度为H。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对于特征融合层，首先对接收的深层次的特征图进行四倍的上采样，使得与低层次的特征图具有相同的空间分辨率；然后对深层次的特征图与低层次的特征图进行拼接；接着使用空间注意力机制模块，学习空间位置权重并对拼接得到的特征图进行加权得到全局的特征图；再将全局的特征图输入到空间分辨率恢复模块。

高度为

高度为

高度为

将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像，利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作(即：使空间位置加权图像中的每个像素点的像素值与C中的每幅特征图中对应的像素点的像素值相乘实现加权)，共得到320幅特征图，将这320幅特征图构成的集合记为F，F中的每幅特征图的宽度为

高度为

对于空间分辨率恢复模块，其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层(即丢弃层)、第二卷积层、第三上采样层，第一激活层的激活函数为“ReLU”，第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图，第一卷积层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₁，H₁中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

第三上采样层的输入端接收H₆中的所有特征图，第三上采样层对H₆中的每幅特征图执行两倍上采样操作，第三上采样层的输出端输出9幅特征图，将这9幅特征图构成的集合记为H₇，H₇中的每幅特征图的宽度为W、高度为H。

对于输出层，其输入端接收H₇中的所有特征图，其输出端输出9幅特征图作为语义分割预测图。

在本实施例中，步骤1_2中，深层次特征提取模块采用现有的两个MobileNetV2网络结构的部分结构，MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层，在保持MobileNetV2网络结构中各层之间的连接关系的前提下，第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块，第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块，第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块，第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块，第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块，第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块，第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块；其中，卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1，第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。

表1给出了MobileNetV2网络结构中的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的参数配置及与第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块的关系。

表1MobileNetV2网络结构中的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的参数配置及划分

为了防止过多的下采样造成空间分辨率下降，本发明在第四彩色结构块中不进行下采样；为了提高模型的感受野，将第四彩色结构块中的第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。

在本实施例中，步骤1_2中，浅层次特征提取模块采用现有的MobileNetV2网络结构的部分结构，MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层，将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块，并修改该bottleneck层的参数，使其输入端输入的特征图的宽度为

高度为

输入通道数为24，其输出端输出的特征图的宽度为

高度为

输出通道数为160，其下采样的倍数为1。

表2给出了作为浅层结构块的bottleneck层的参数配置。

表2作为浅层结构块的bottleneck层的参数配置

表1和表2中，t为bottleneck层的内部参数、c为输出通道大小、n为模块重复次数、s为下采样倍数。

在本实施例中，步骤1_2中，空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层，第二激活层的激活函数为“ReLU”，第三激活层的激活函数为“Sigmoid”，第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图，第三卷积层的输出端输出80幅特征图，将这80幅特征图构成的集合记为Z₁，Z₁中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

对应的9幅语义分割预测图构成的集合记为

与

之间的损失函数值记为

采用分类交叉熵(categorical crossentropy)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到Q×V个损失函数值；然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，V＞1，在本实施例中取V＝300。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的道路场景彩色图像，令

的宽度，H'表示

的高度，

表示

中坐标位置为(i',j')的像素点的像素值，

表示

中坐标位置为(i',j')的像素点的像素值，

与

为从同一道路场景获取。

步骤2_2：将

的R通道分量、G通道分量和B通道分量及

对应的预测语义分割图像。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库pytorch搭建卷积神经网络的架构。采用MFNet中报告的道路场景图像数据库的测试集来分析利用本发明方法预测得到的道路场景彩色图像(取MFNet中报告的道路场景图像数据库的测试集中的393幅道路场景图像)的语义分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即像素精确度(Pixel Acurracy，PA)、平均类别准确率(Class Acurracy，CA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，mIoU)来评价预测语义分割图像的分割性能。此外，用每秒预测图像的张数(FPS)来评价模型的速度。

利用本发明方法对测试集中的每幅道路场景图像进行预测，得到每幅道路场景图像对应的预测语义分割图像，反映本发明方法的语义分割效果的像素精确度PA、平均类别准确率CA、分割图像与标签图像交集与并集的比值mIoU、每秒预测图像的张数FPS如表3所列。从表3所列的数据可知，按本发明方法得到的道路场景图像的语义分割结果是较好的，并且预测速度较快，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。

表3利用本发明方法在测试集上的评测结果

PA	98.0％
		CA	62.5％
mIoU	54.5％
		FPS	113

图2a给出了第1幅原始的道路场景彩色图像，图2b给出了与图2a同一场景的原始的道路场景热力图像，图2c给出了利用本发明方法对图2a和图2b进行处理，预测得到的预测语义分割图像；图3a给出了第2幅原始的道路场景彩色图像，图3b给出了与图3a同一场景的原始的道路场景热力图像，图3c给出了利用本发明方法对图3a和图3b进行处理，预测得到的预测语义分割图像；图4a给出了第3幅原始的道路场景彩色图像，图4b给出了与图4a同一场景的原始的道路场景热力图像，图4c给出了利用本发明方法对图4a和图4b进行处理，预测得到的预测语义分割图像；图5a给出了第4幅原始的道路场景彩色图像，图5b给出了与图5a同一场景的原始的道路场景热力图像，图5c给出了利用本发明方法对图5a和图5b进行处理，预测得到的预测语义分割图像。从图2c、图3c、图4c和图5c中可以看出，利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种基于卷积神经网络的实时道路场景分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

将训练集中的第q幅原始的道路场景热力图像记为

将

对应的真实语义分割图像记为

处理成的9幅独热编码图像构成的集合记为

的宽度，H表示

的高度，

与

为从同一道路场景获取，

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对应的9幅语义分割预测图构成的集合记为

与

之间的损失函数值记为

采用分类交叉熵获得；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的道路场景彩色图像，令

的宽度，H'表示

的高度，

表示

中坐标位置为(i',j')的像素点的像素值，

表示

中坐标位置为(i',j')的像素点的像素值，

与

为从同一道路场景获取；

步骤2_2：将

的R通道分量、G通道分量和B通道分量及

对应的预测语义分割图像。

2.根据权利要求1所述的一种基于卷积神经网络的实时道路场景分割方法，其特征在于所述的步骤1_2中，深层次特征提取模块采用两个MobileNetV2网络结构的部分结构，MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层，在保持MobileNetV2网络结构中各层之间的连接关系的前提下，第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块，第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块，第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块，第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块，第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块，第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块，第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块；其中，卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1，第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。

3.根据权利要求1或2所述的一种基于卷积神经网络的实时道路场景分割方法，其特征在于所述的步骤1_2中，浅层次特征提取模块采用MobileNetV2网络结构的部分结构，MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层，将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块，并修改该bottleneck层的参数，使其输入端输入的特征图的宽度为

高度为

输入通道数为24，其输出端输出的特征图的宽度为

高度为

输出通道数为160，其下采样的倍数为1。

4.根据权利要求3所述的一种基于卷积神经网络的实时道路场景分割方法，其特征在于所述的步骤1_2中，空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层，第二激活层的激活函数为“ReLU”，第三激活层的激活函数为“Sigmoid”，第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图，第三卷积层的输出端输出80幅特征图，将这80幅特征图构成的集合记为Z₁，Z₁中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为