CN110490082A

CN110490082A - 一种有效融合神经网络特征的道路场景语义分割方法

Info

Publication number: CN110490082A
Application number: CN201910664784.0A
Authority: CN
Inventors: 周武杰; 朱家懿; 叶绿; 雷景生; 王海江; 何成
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-22
Anticipated expiration: 2039-07-23
Also published as: CN110490082B

Abstract

本发明公开了一种有效融合神经网络特征的道路场景语义分割方法，其在训练阶段构建卷积神经网络，其包括输入层、隐藏层和输出层，隐藏层包括由3个神经网络块组成的空间特征提取通道、由5个神经网络块组成的背景特征提取通道、由第5个融合块组成的特征融合通道；将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练，得到每幅原始的道路场景图像对应的12幅语义分割预测图；通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，得到卷积神经网络训练模型；在测试阶段利用卷积神经网络训练模型进行预测；优点是分割准确度高，鲁棒性强。

Description

一种有效融合神经网络特征的道路场景语义分割方法

技术领域

本发明涉及一种语义分割方法，尤其是涉及一种有效融合神经网络特征的道路场景语义分割方法。

背景技术

语义分割是许多计算机视觉应用的基本技术，如场景理解、无人驾驶等。随着卷积神经网络特别是全卷积神经网络(FCN)的发展，在基准测试中取得了许多有前途的成果。全卷积神经网络具有典型的编码器-解码器结构，语义信息首先通过编码器嵌入到特征图中，解码器负责生成分割结果。通常，编码器是通过预先训练的卷积模型来提取图像特征，解码器包含多个上采样组件来恢复分辨率。尽管编码器最重要的特征图可能具有高度的语义性，但由于分辨率不足，因此它在分割图中重建精确细节的能力有限，这在现代主干模型中非常常见。语义分割既需要丰富的空间信息，又需要相当大的感受野。现代语义分割框架通常将预先训练的主干卷积模型的低级和高级特征结合起来，以提高性能。最常用的U-shape网络，如U-Net、FusionNet等，都是将低级特征直接加到高级特征中，以弥补损失的信息。但是由于语义层次和空间分辨率的差异，低层次和高层次特征的简单融合可能不太有效。若将语义信息引入低级特征和高级特征，将分辨率细节转换为高级特征，则对于以后的融合更为有效。

发明内容

本发明所要解决的技术问题是提供一种有效融合神经网络特征的道路场景语义分割方法，其分割准确度高，且鲁棒性强。

本发明解决上述技术问题所采用的技术方案为：一种有效融合神经网络特征的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将处理成的12幅独热编码图像构成的集合记为其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值。

步骤1_2：构建全卷积神经网络：全卷积神经网络包括输入层、隐藏层和输出层，隐藏层采用编码-解码架构，隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道，空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成，背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成，特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成；

对于输入层，其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量，其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层；其中，要求输入层的输入端接收的输入图像的宽度为W、高度为H；

对于空间特征提取通道，第1个神经网络块的输入端为空间特征提取通道的输入端，也为隐藏层的一个输入端，接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅宽度为且高度为的特征图，将这64幅特征图构成的集合记为S₁；第2个神经网络块的输入端接收S₁中的所有特征图，第2个神经网络块的输出端输出128幅宽度为且高度为的特征图，将这128幅特征图构成的集合记为S₂；第3个神经网络块的输入端接收S₂中的所有特征图，第3个神经网络块的输出端输出256幅宽度为且高度为的特征图，将这256幅特征图构成的集合记为S₃；

对于背景特征提取通道，第4个神经网络块为背景特征提取通道的输入端，也为隐藏层的另一个输入端，接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量，第4个神经网络块的输出端输出64幅宽度为且高度为的特征图，将这64幅特征图构成的集合记为S₄；第5个神经网络块的输入端接收S₄中的所有特征图，第5个神经网络块的输出端输出256幅宽度为且高度为的特征图，将这256幅特征图构成的集合记为S₅；第6个神经网络块的输入端接收S₅中的所有特征图，第6个神经网络块的输出端输出512幅宽度为且高度为的特征图，将这512幅特征图构成的集合记为S₆；第7个神经网络块的输入端接收S₆中的所有特征图，第7个神经网络块的输出端输出1024幅宽度为且高度为的特征图，将这1024幅特征图构成的集合记为S₇；第8个神经网络块的输入端接收S₇中的所有特征图，第8个神经网络块的输出端输出2048幅宽度为且高度为的特征图，将这2048幅特征图构成的集合记为S₈；

对于特征融合通道，第1个融合块的输入端接收S₁中的所有特征图、S₇中的所有特征图、S₈中的所有特征图，第1个融合块的输出端输出64幅宽度为且高度为的特征图，将这64幅特征图构成的集合记为R₁；第2个融合块的输入端接收S₂中的所有特征图、S₇中的所有特征图、S₈中的所有特征图，第2个融合块的输出端输出128幅宽度为且高度为的特征图，将这128幅特征图构成的集合记为R₂；第3个融合块的输入端接收S₃中的所有特征图、S₇中的所有特征图、S₈中的所有特征图，第3个融合块的输出端输出256幅宽度为且高度为的特征图，将这256幅特征图构成的集合记为R₃；第4个融合块的输入端接收R₂中的所有特征图、R₃中的所有特征图，第4个融合块的输出端输出12幅宽度为且高度为的特征图，将这12幅特征图构成的集合记为R₄；第5个融合块的输入端接收R₁中的所有特征图、R₄中的所有特征图，第5个融合块的输出端输出12幅宽度为且高度为的特征图，将这12幅特征图构成的集合记为R₅；

对于输出层，其输入端接收R₅中的所有特征图，其输出端输出12幅宽度为W且高度为H的特征图；

步骤1_3：将训练集中的每幅原始的道路场景图像作为输入图像，输入到全卷积神经网络中进行训练，得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图，将{I^q(i,j)}对应的12幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为采用Negative Log-liklihood函数获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到全卷积神经网络训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值；

步骤2_2：将的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到对应的预测语义分割图像，记为其中，表示中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_2中，第1个至第3个神经网络块的结构相同，其由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图，第三卷积层的输入端接收第二激活层的输出端输出的所有特征图，第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图，第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图，第三激活层的输出端为其所在的神经网络块的输出端；其中，第1个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为1×1、步长为2，第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1，第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1，第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2，第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1，第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1，第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2，第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1，第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1，第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。

所述的步骤1_2中，第4个至第8个神经网络块均是基于ResNet101的基本块，第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成；第5个神经网络块由ResNet101中的第一池化层和layer1组成；第6个神经网络块由ResNet101中的layer2组成；第7个神经网络块由ResNet101中的layer3组成；第8个神经网络块由ResNet101中的layer4组成。

所述的步骤1_2中，第1个至第3个融合块的结构相同，其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成，第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端，将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B₁，第四卷积层的输入端接收B₁中的所有特征图，第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图，第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图，第五卷积层的输入端接收第四激活层的输出端输出的所有特征图，第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图，第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图，将B₁中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B₂，第六卷积层的输入端接收B₂中的所有特征图，第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图，第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图，第七卷积层的输入端接收第六激活层的输出端输出的所有特征图，第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图，第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图，将B₂中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B₃，B₃中的所有特征图由所在的融合块的输出端输出；其中，第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍，第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1，第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1，第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1，第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1，第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。

所述的步骤1_2中，第4个融合块和第5个融合块的结构相同，其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成，第三上采样层的输入端为其所在的融合块的输入端，将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C₁，第八卷积层的输入端接收C₁中的所有特征图，第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图，第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图，第九卷积层的输入端接收第八激活层的输出端输出的所有特征图，第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图，第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图，第十卷积层的输入端接收第九激活层的输出端输出的所有特征图，第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图，第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图，第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图，第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图，第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图，第十一激活层的输出端为其所在的融合块的输出端；其中，第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2，第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2，第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1，第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1，第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。

所述的步骤1_2中，输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成，第十二卷积层的输入端为输出层的输入端，第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图，第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图，第十二激活层的输出端为输出层的输出端；其中，第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1，第十二激活层的激活方式为”Relu”。

与现有技术相比，本发明的优点在于：

1)本发明方法构建了全卷积神经网络，用步长为2的卷积层取代了现阶段常用的池化层，由于池化层会对图像造成不可逆的特征损失，且语义分割对预测精度的要求很高，因此本发明方法选择了步长为2的卷积层进行替代，该卷积层可以得到与池化层相同的效果，并能保证图像特征不会有过大损失，实验证明，更少的信息缺失可以大幅度提高分割精度。

2)本发明方法采用大卷积核的方式来扩大网络感受野，由于池化层的优点不只是能有效缩减图像尺寸，还可有效扩大感受野以保证提取到更多的全局信息，因此本发明方法在用步长为2的卷积层替代池化层时，感受野没有得到有效扩充，损失了部分全局信息，故采用大卷积核，以保证网络感受野得到增大，从而使全卷积神经网络捕获更多的全局信息，有助于增强全卷积神经网络训练模型的鲁棒性。

3)本发明方法提出了两种不同的特征提取通道即空间特征提取通道和背景特征提取通道，以适应语义分割对多类型网络特征的要求，利用较少下采样保留空间信息，较多下采样保留全局信息，最后将两种特征进行有效融合，进而提升了语义分割精度。

4)本发明方法在编码部分就将低级特征与高级特征交叉融合，提升了语义分割精度。

附图说明

图1为本发明方法中构建的卷积神经网络的组成结构示意图；

图2a为本发明方法中构建的卷积神经网络中的第1个至第3个融合块的组成结构示意图；

图2b为本发明方法中构建的卷积神经网络中的第4个和第5个融合块的组成结构示意图；

图3a为同一场景的第1幅原始的道路场景图像；

图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图4a为同一场景的第2幅原始的道路场景图像；

图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图5a为同一场景的第3幅原始的道路场景图像；

图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图6a为同一场景的第4幅原始的道路场景图像；

图6b为利用本发明方法对图6a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图7a为同一场景的第5幅原始的道路场景图像；

图7b为利用本发明方法对图7a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种有效融合神经网络特征的道路场景语义分割方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将处理成的12幅独热编码图像构成的集合记为其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，如取Q＝367，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝480、H＝360，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值。

在此，原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。

步骤1_2：构建全卷积神经网络：如图1所示，全卷积神经网络包括输入层、隐藏层和输出层，隐藏层采用编码-解码架构，隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道，空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成，背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成，特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成。

对于输入层，其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量，其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层；其中，要求输入层的输入端接收的输入图像的宽度为W、高度为H。

对于空间特征提取通道，第1个神经网络块的输入端为空间特征提取通道的输入端，也为隐藏层的一个输入端，接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅宽度为且高度为的特征图，将这64幅特征图构成的集合记为S₁；第2个神经网络块的输入端接收S₁中的所有特征图，第2个神经网络块的输出端输出128幅宽度为且高度为的特征图，将这128幅特征图构成的集合记为S₂；第3个神经网络块的输入端接收S₂中的所有特征图，第3个神经网络块的输出端输出256幅宽度为且高度为的特征图，将这256幅特征图构成的集合记为S₃。

对于背景特征提取通道，第4个神经网络块为背景特征提取通道的输入端，也为隐藏层的另一个输入端，接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量，第4个神经网络块的输出端输出64幅宽度为且高度为的特征图，将这64幅特征图构成的集合记为S₄；第5个神经网络块的输入端接收S₄中的所有特征图，第5个神经网络块的输出端输出256幅宽度为且高度为的特征图，将这256幅特征图构成的集合记为S₅；第6个神经网络块的输入端接收S₅中的所有特征图，第6个神经网络块的输出端输出512幅宽度为且高度为的特征图，将这512幅特征图构成的集合记为S₆；第7个神经网络块的输入端接收S₆中的所有特征图，第7个神经网络块的输出端输出1024幅宽度为且高度为的特征图，将这1024幅特征图构成的集合记为S₇；第8个神经网络块的输入端接收S₇中的所有特征图，第8个神经网络块的输出端输出2048幅宽度为且高度为的特征图，将这2048幅特征图构成的集合记为S₈。

对于特征融合通道，第1个融合块的输入端接收S₁中的所有特征图、S₇中的所有特征图、S₈中的所有特征图，第1个融合块的输出端输出64幅宽度为且高度为的特征图，将这64幅特征图构成的集合记为R₁；第2个融合块的输入端接收S₂中的所有特征图、S₇中的所有特征图、S₈中的所有特征图，第2个融合块的输出端输出128幅宽度为且高度为的特征图，将这128幅特征图构成的集合记为R₂；第3个融合块的输入端接收S₃中的所有特征图、S₇中的所有特征图、S₈中的所有特征图，第3个融合块的输出端输出256幅宽度为且高度为的特征图，将这256幅特征图构成的集合记为R₃；第4个融合块的输入端接收R₂中的所有特征图、R₃中的所有特征图，第4个融合块的输出端输出12幅宽度为且高度为的特征图，将这12幅特征图构成的集合记为R₄；第5个融合块的输入端接收R₁中的所有特征图、R₄中的所有特征图，第5个融合块的输出端输出12幅宽度为且高度为的特征图，将这12幅特征图构成的集合记为R₅。

对于输出层，其输入端接收R₅中的所有特征图，其输出端输出12幅宽度为W且高度为H的特征图。

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为采用Negative Log-liklihood(NLLLoss)函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到全卷积神经网络训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝500。

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值。

在此具体实施例中，步骤1_2中，第1个至第3个神经网络块的结构相同，其由依次设置的第一卷积层(Convolution，Conv)、第一批量归一化层(Batch Normalization，BN)、第一激活层(Activation，Act)、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图，第三卷积层的输入端接收第二激活层的输出端输出的所有特征图，第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图，第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图，第三激活层的输出端为其所在的神经网络块的输出端；其中，第1个神经网络块中的第一卷积层的卷积核大小(kernel_size)为3×3、卷积核个数(filters)为64、补零(padding)参数为1×1、步长(stride)为2，第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1，第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1，第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2，第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1，第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1，第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2，第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1，第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1，第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。

在此具体实施例中，步骤1_2中，第4个至第8个神经网络块均是基于ResNet101的基本块，第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成；第5个神经网络块由ResNet101中的第一池化层和layer1组成；第6个神经网络块由ResNet101中的layer2组成；第7个神经网络块由ResNet101中的layer3组成；第8个神经网络块由ResNet101中的layer4组成。

在此具体实施例中，步骤1_2中，第1个至第3个融合块的结构相同，如图2a所示，其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成，第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端，将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B₁，第四卷积层的输入端接收B₁中的所有特征图，第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图，第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图，第五卷积层的输入端接收第四激活层的输出端输出的所有特征图，第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图，第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图，将B₁中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B₂，第六卷积层的输入端接收B₂中的所有特征图，第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图，第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图，第七卷积层的输入端接收第六激活层的输出端输出的所有特征图，第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图，第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图，将B₂中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B₃，B₃中的所有特征图由所在的融合块的输出端输出；其中，第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍，第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1，第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1，第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1，第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1，第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。

在此具体实施例中，步骤1_2中，第4个融合块和第5个融合块的结构相同，如图2b所示，其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成，第三上采样层的输入端为其所在的融合块的输入端，将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C₁，第八卷积层的输入端接收C₁中的所有特征图，第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图，第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图，第九卷积层的输入端接收第八激活层的输出端输出的所有特征图，第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图，第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图，第十卷积层的输入端接收第九激活层的输出端输出的所有特征图，第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图，第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图，第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图，第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图，第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图，第十一激活层的输出端为其所在的融合块的输出端；其中，第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2，第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2，第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1，第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1，第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。

在此具体实施例中，步骤1_2中，输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成，第十二卷积层的输入端为输出层的输入端，第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图，第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图，第十二激活层的输出端为输出层的输出端；其中，第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1，第十二激活层的激活方式为”Relu”。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习框架Pytorch0.4.1搭建卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测，得到每幅道路场景图像对应的预测语义分割图像，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。

表1利用本发明方法在测试集上的预测结果

图3a给出了同一场景的第1幅原始的道路场景图像；图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图4a给出了同一场景的第2幅原始的道路场景图像；图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图5a给出了同一场景的第3幅原始的道路场景图像；图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图6a给出了同一场景的第4幅原始的道路场景图像；图6b给出了利用本发明方法对图6a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图7a给出了同一场景的第5幅原始的道路场景图像；图7b给出了利用本发明方法对图7a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。对比图3a和图3b、对比图4a和图4b、对比图5a和图5b、对比图6a和图6b、对比图7a和图7b，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种有效融合神经网络特征的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将处理成的12幅独热编码图像构成的集合记为其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为采用NegativeLog-liklihood函数获得；

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法，其特征在于所述的步骤1_2中，第1个至第3个神经网络块的结构相同，其由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成，第一卷积层的输入端为其所在的神经网络块的输入端，第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图，第三卷积层的输入端接收第二激活层的输出端输出的所有特征图，第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图，第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图，第三激活层的输出端为其所在的神经网络块的输出端；其中，第1个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为1×1、步长为2，第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1，第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1，第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2，第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1，第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1，第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2，第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1，第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1，第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。

3.根据权利要求1或2所述的一种有效融合神经网络特征的道路场景语义分割方法，其特征在于所述的步骤1_2中，第4个至第8个神经网络块均是基于ResNet101的基本块，第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成；第5个神经网络块由ResNet101中的第一池化层和layer1组成；第6个神经网络块由ResNet101中的layer2组成；第7个神经网络块由ResNet101中的layer3组成；第8个神经网络块由ResNet101中的layer4组成。

4.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法，其特征在于所述的步骤1_2中，第1个至第3个融合块的结构相同，其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成，第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端，将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B₁，第四卷积层的输入端接收B₁中的所有特征图，第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图，第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图，第五卷积层的输入端接收第四激活层的输出端输出的所有特征图，第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图，第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图，将B₁中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B₂，第六卷积层的输入端接收B₂中的所有特征图，第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图，第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图，第七卷积层的输入端接收第六激活层的输出端输出的所有特征图，第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图，第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图，将B₂中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B₃，B₃中的所有特征图由所在的融合块的输出端输出；其中，第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍，第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1，第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1，第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1，第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1，第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。

5.根据权利要求1或4所述的一种有效融合神经网络特征的道路场景语义分割方法，其特征在于所述的步骤1_2中，第4个融合块和第5个融合块的结构相同，其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成，第三上采样层的输入端为其所在的融合块的输入端，将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C₁，第八卷积层的输入端接收C₁中的所有特征图，第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图，第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图，第九卷积层的输入端接收第八激活层的输出端输出的所有特征图，第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图，第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图，第十卷积层的输入端接收第九激活层的输出端输出的所有特征图，第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图，第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图，第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图，第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图，第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图，第十一激活层的输出端为其所在的融合块的输出端；其中，第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2，第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2，第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1，第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1，第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。

6.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法，其特征在于所述的步骤1_2中，输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成，第十二卷积层的输入端为输出层的输入端，第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图，第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图，第十二激活层的输出端为输出层的输出端；其中，第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1，第十二激活层的激活方式为”Relu”。