CN112508956A

CN112508956A - 一种基于卷积神经网络的道路场景语义分割方法

Info

Publication number: CN112508956A
Application number: CN202011224151.7A
Authority: CN
Inventors: 周武杰; 刘劲夫; 钱小鸿; 雷景生; 万健; 杨胜英; 强芳芳
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-03-16

Abstract

本发明公开了一种基于卷积神经网络的道路场景语义分割方法。本发明在训练阶段，构建卷积神经网络，其隐层包括十个神经网络块、三个卷积块、两个联合金字塔上采样模块、可分离上采样块；使用原始的道路场景图像输入到卷积神经网络中进行训练，得到对应的9幅语义分割预测图；再通过计算原始的道路场景图像对应的9幅语义分割预测图构成的集合与对应的语义分割标签图集之间的损失函数值，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中，得到预测语义分割图像；本发明提高了道路场景图像的语义分割效率，并且提升了准确度。

Description

一种基于卷积神经网络的道路场景语义分割方法

技术领域

本发明涉及了一种深度学习的语义分割方法，尤其是涉及了一种基于卷积神经网络的道路场景语义分割方法。

背景技术

智能交通行业的兴起，使得语义分割在智能交通系统中有着越来越多的应用，从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前，最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上，用于检测和识别特定物体，如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现，而使用深度学习来对交通场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的道路场景语义分割方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性，从而会导致得到的图像的特征信息减少，最终导致还原的效果信息比较粗糙，分割精度低。

发明内容

本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法，其分割效率高，且分割准确度高。

本发明解决上述技术问题所采用的技术方案为：一种基于卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；

本发明包括训练阶段和测试阶段两个过程；

所述的训练阶段的具体步骤为：

步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像(RGB)对应的热力图(Thermat)和真实语义分割图像，利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像(RGB)叠加形成彩色热力图像(RT)，利用独热编码方法将真实语义分割图像转换为9幅独热编码图像，将9幅独热编码图像构成的集合作为语义分割标签图集，Q幅原始的道路场景图像(RGB)与对应的热力图(Thermat)、彩色热力图像(RT)、语义分割标签图构成训练集，其中，Q为正整数，Q≥200；

所述的原始的道路场景图像为256位的彩色图像。

所述的步骤1_1具体为：

选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，选择第q幅原始的道路场景图像记为

原始的道路场景图像对应的热力图记为

利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像叠加形成彩色热力图像记为

将第q幅原始的道路场景图像对应的真实语义分割图像记为

然后利用独热编码方法(one-hot)将第q幅原始的道路场景图像对应的真实语义分割图像处理成9幅独热编码图像，将真实语义分割图像处理成的9幅独热编码图像构成的集合作为语义分割标签图记为

重复操作Q次，由Q幅原始的道路场景图像和对应的热力图、彩色热力图像、语义分割标签图构成训练集；

其中，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示原始的道路场景图象的宽度，H表示原始的道路场景图象的高度，i、j分别表示坐标位置为(i,j)的像素点的横纵坐标，

表示第q幅原始的道路场景图像中坐标位置为(i,j)的像素点的像素值，

表示第q幅热力图中坐标位置为(i,j)的像素点的像素值，

表示第q幅彩色热力图像中坐标位置为(i,j)的像素点的像素值，

表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值。

步骤1_2：构建卷积神经网络：

卷积神经网络包括三个输入层、隐层和输出层；隐层包括第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块、第十神经网络块、第一卷积块、第二卷积块、第三卷积块、可分离上采样块(SUB)、第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2)；第一输入层、第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块和第五神经网络块依次连接，第三神经网络块、第四神经网络块和第五神经网络块的输出输入到第一联合金字塔上采样模块(JPU1)，第一联合金字塔上采样模块(JPU1)的输出输入到第五双线性插值层，第二输入层、第一卷积块和第二卷积块依次连接，第三输入层、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块和第十神经网络块依次连接，第八神经网络块、第九神经网络块和第十神经网络块的输出输入到第二联合金字塔上采样模块(JPU2)，第二联合金字塔上采样模块(JPU2)的输出输入到第六双线性插值层，第五双线性插值层和第五双线性插值层的输出先进行像素的加和后再与第二卷积块、第一神经网络块、第六神经网络块的输出进行通道的叠加后输入第三卷积块，第三卷积块依次连接可分离上采样块(SUB)和输出层；

第一输入层中输入训练集中的原始的道路场景图像，第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第三输入层中输入原始的道路场景图像对应的热力图，第三输入层输出原始的道路场景图像对应的热力图，第二输入层中输入原始的道路场景图像对应彩色热力图像，第二输入层输出原始的道路场景图像对应彩色热力图像。

所述的第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2)结构相同，均包括上采样层、金字塔卷积层、JPU输出层；上采样层、金字塔卷积层和JPU输出层依次连接，上采样层包括第一百零四卷积层、第一百零四激活层、第一百零五卷积层、第一百零五激活层、第一百零六卷积层、第一百零六激活层、第一双线性插值层和第二双线性插值层，第一百零四卷积层、第一百零四激活层和第一双线性插值层依次连接，第一百零五卷积层、第一百零五激活层和第二双线性插值层依次连接，第一百零六卷积层和第一百零六激活层依次连接，第三神经网络块的输出或者第八神经网络块的输出输入到第一百零六卷积层，第四神经网络块的输出或者第九神经网络块的输出输入到第一百零五卷积层，第五神经网络块的输出或者第十神经网络块的输出输入到第一百零四卷积层，第一百零六激活层、第一双线性插值层和第二双线性插值层的输出进行通道的叠加后输出到金字塔卷积层；金字塔卷积层包括四个金字塔子卷积层，四个金字塔子卷积层并联设置，上采样层的输出分别输入到各个金字塔子卷积层，各个金字塔子卷积层的输出进行通道的叠加后输出到JPU输出层，JPU输出层主要由第一百一十一卷积层和第一百一十一激活层依次连接构成，第一百一十一激活层的输出作为联合金字塔上采样模块的输出。

所述的可分离上采样块(SUB)和输出层结构相同，均包括第一上采样块和第二上采样块；第一上采样块的输入作为可分离上采样块(SUB)的输入，第一上采样块和第二上采样块级联，第一上采样块主要由第一百二十卷积层、第一百二十激活层、第一百二十一卷积层、第一百二十一激活层和第一百二十二卷积层依次连接构成，第三卷积块的输出输入第一百二十卷积层，第一百二十二卷积层的输出与第三卷积块的输出先进行像素的加和再输入到第一百二十二激活层；第二上采样块主要由第一百二十三卷积层、第一百二十三激活层、第一百二十四卷积层、第一百二十四激活层和第一反卷积层依次连接构成，第一上采样块的输出输入到第二反卷积层，第二反卷积层与第一反卷积层的输出先进行像素的加和再输入到第一百二十五激活层，第一百二十五激活层的输出作为可分离上采样块(SUB)的输出。

步骤1_3：将训练集中原始的道路场景图像和对应的热力图、彩色热力图像输入到卷积神经网络的输入层中进行训练，训练得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图，将与原始的道路场景图像对应的9幅语义分割预测图构成的语义分割预测图集合记为

步骤1_4：利用分类交叉熵计算9幅语义分割预测图构成的集合与对应的语义分割标签图的损失函数值，每幅原始的道路场景图像获得一个损失函数值；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，其中，V＞1，得到卷积神经网络分类训练模型，并总共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出最小的损失函数值，将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；

所述的测试阶段的具体步骤为：

步骤2_1：待语义分割的道路场景图像记为

其中，1≤i'≤W'，1≤j'≤H'，W'表示待语义分割的道路场景图像的宽度，H'表示待语义分割的道路场景图像的高度，i'、j'分别表示坐标位置为(i',j')的像素点的横纵坐标，

表示待语义分割的道路场景图像中坐标位置为(i',j')的像素点的像素值；将待语义分割的道路场景图像对应的待语义分割热力图记为

表示待语义分割热力图中坐标位置为(i',j')的像素点的像素值；

步骤2_2：将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第三输入层中，并利用最优权值矢量和最优偏置项进行预测，得到待语义分割的道路场景图像对应的语义分割预测图像，记为

其中，

表示语义分割预测图像中坐标位置为(i',j')的像素点的像素值。

与现有技术相比，本发明的优点在于：

1)本发明方法构建卷积神经网络，使用训练集中的道路场景图像输入到卷积神经网络中进行训练，得到卷积神经网络分类训练模型；再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中，预测得到道路场景图像对应的预测语义分割图像，由于本发明方法在构建卷积神经网络时采用了彩色图，热力图双分支结构，充分利用了热力图对彩色图细节纹理和边缘特征的补充性，因此能够比较准确地描述道路场景中各种分类目标，从而有效地提高了道路场景图像的语义分割精确度。

2)本发明方法将彩色图和热力图的叠合作为第三流输入，通过简单的卷积层组合，提取了浅层特征，减少了细节特征和物体边缘特征的丢失。

3)本发明方法采用联合上采样模块，充分利用了多层多尺度特征，与此同时保持所提取的特征图分辨率以及感知域，并且减少训练参数量。

4)本发明方法使用可分离的上采样块逐步恢复分辨率，即把上采样操作分解成两部分卷积层完成，进而在训练集与测试集上都能得到较好效果。

附图说明

图1为本发明方法的总体实现框图；

图2为联合金字塔上采样模块(JPU)结构图；

图3为可分离上采样块(SUB)结构图；

图4a为第1幅原始的道路场景图像；

图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图5a为第2幅原始的道路场景图像；

图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图6a为第3幅原始的道路场景图像；

图6b为利用本发明方法对图6a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图7a为第4幅原始的道路场景图像；

图7b为利用本发明方法对图7a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的道路场景语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的步骤1_1具体为：

原始的道路场景图像对应的热力图记为

将第q幅原始的道路场景图像对应的真实语义分割图像记为

重复操作Q次，由Q幅原始的道路场景图像和对应的热力图、彩色热力图像、语义分割标签图构成训练集；其中，如取Q＝784，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示原始的道路场景图象的宽度，H表示原始的道路场景图象的高度，如取W＝480、H＝640，i、j分别表示坐标位置为(i,j)的像素点的横纵坐标，

表示第q幅热力图中坐标位置为(i,j)的像素点的像素值，

表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值，具体实施中，原始的道路场景图像直接选用道路场景图像数据InfRecR500训练集中的784幅图像。

步骤1_2：构建卷积神经网络：

卷积神经网络包括三个输入层、隐层和输出层；隐层包括第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块、第十神经网络块、第一卷积块、第二卷积块、第三卷积块、可分离上采样块(SUB)、第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2)；第一输入层、第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块和第五神经网络块依次连接，第三神经网络块、第四神经网络块和第五神经网络块的输出输入到第一联合金字塔上采样模块(JPU1)，第二输入层、第一卷积块和第二卷积块依次连接，第三输入层、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块和第十神经网络块依次连接，第八神经网络块、第九神经网络块和第十神经网络块的输出输入到第二联合金字塔上采样模块(JPU2)，第一联合金字塔上采样模块(JPU1)的输出输入到第五双线性插值层，第二联合金字塔上采样模块(JPU2)的输出输入到第六双线性插值层，第五双线性插值层和第五双线性插值层的输出先进行像素的加和后再与第二卷积块、第一神经网络块、第六神经网络块的输出进行通道的叠加后输入第三卷积块，第三卷积块依次连接可分离上采样块(SUB)和输出层；

第一输入层中输入训练集中的原始的道路场景图像，第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第三输入层中输入原始的道路场景图像对应的热力图，第三输入层输出原始的道路场景图像对应的热力图，第二输入层中输入原始的道路场景图像对应彩色热力图像，第二输入层输出原始的道路场景图像对应彩色热力图像，其中要求输入层的输入端接收的原始的道路场景图像的宽度为W、高度为H。

对于隐层，第一神经网络块主要由第一卷积层(Convolution，Conv)、第一激活层(Activation，Act)和第一最大池化层(Maxpooling，Pool)依次连接构成；第一神经网络块的输入端接收R通道、G通道、B通道三个通道分量，第一神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为R₁。其中，第一卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数均3，第一激活层激活方式均为“Relu”，第一最大池化层的池化尺寸(pool_size)为2，R₁中的每幅特征图的宽度为

高度为

对于第二神经网络块，其主要由依次设置的第一残差网络块、第二残差网络块和第三残差网络块组成；第二神经网络块的输入端接收R₁中的所有特征图，第二神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为R₂；其中，第一残差网络块包括左、右两分支以及汇总激活，左分支主要由第二卷积层、第二激活层、第三卷积层、第三激活层和第四卷积层依次连接组成，右分支包括第一跳层下采样卷积，汇总激活包括第四激活层，第一残差网络块的输入分别输入左分支和右分支，第四卷积层和第一跳层下采样卷积的输出先进行像素的加和后输入第四激活层，第四激活层的输出为第一残差网络块的输出。第一残差网络块的输入是R₁中的64幅特征图，分别经过左分支和右分支后进行像素的加和，再经过第四激活层，第四激活层的输出为256幅特征图，将这256幅特征图构成的集合记为S₁。第二卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”；第三卷积层的卷积核大小为3×3、卷积核个数为64、步长为1，补零参数为“same”；第四卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”；第二激活层，第三激活层和第四激活层的激活方式均为“Relu”；第一跳层下采样卷积的卷积核为1×1，卷积核的个数256，步长为1，补零参数为“same”；第二残差网络块主要由第五卷积层、第五激活层、第六卷积层、第六激活层和第七卷积层依次连接组成，第二残差网络块的输入同时与第七卷积层的输出进行像素的加和后输入到第七激活层，第七激活层的输出作为第二残差网络块的输出。第二残差网络块的输入是S₁中的256幅特征图，经第二残差网络块处理后输出256幅特征图，将这256幅特征图构成的集合记为S₂。第五卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”，第六卷积层的卷积核大小为3×3、卷积核个数为64、步长为1，补零参数为“same”，第七卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第五激活层，第六激活层和第七激活层的激活方式均为“Relu”。第三残差网络块由第八卷积层、第八激活层、第九卷积层、第九激活层和第十卷积层依次连接组成，第三残差网络块的输入同时与第十卷积层的输出进行像素的加和后输入到第十激活层，第十激活层的输出作为第二神经网络块的输出。第三残差网络块的输入是S₂中的256幅特征图，经第三残差网络块处理后输出256幅特征图，将这256幅特征图构成的集合记为S₃，同时作为第二神经网络块的输出记为R₂。第八卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”，第九卷积层的卷积核大小为3×3、卷积核个数为64、步长为1，补零参数为“same”，第十卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第八激活层、第九激活层和第十激活层的激活方式均为“Relu”。R₂中的每幅特征图的宽度为

高度为

对于第三神经网络块，其主要由依次设置的第四残差网络块、第五残差网络块、第六残差网络块和第七残差网络块组成；第三神经网络块的输入端接收R₂中的所有特征图，第三神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为R₃；其中，第四残差块包括左、右两分支以及汇总激活，左分支主要由第十一卷积层、第十一激活层、第十二卷积层、第十二激活层和第十三卷积层依次连接组成，右分支包括第二跳层下采样卷积，汇总激活包括第十三激活层，第四残差网络块的输入分别输入左分支和右分支，第十三卷积层和第二跳层下采样卷积的输出先进行像素的加和后输入第十三激活层，第十三激活层的输出为第四残差网络块的输出。第四残差网络块的输入是R₂中的256幅特征图，分别经过左右两个分支，再做它们的像素加和，经过汇总激活输出为512幅特征图，将这512幅特征图构成的集合记为S₄，第十一卷积层的卷积核大小为1×1、卷积核个数为128、步长为2，补零参数为“same”，第十二卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第十三卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第十一激活层、第十二激活层和第十三激活层的激活方式均为“Relu”，第二跳层下采样卷积的卷积核为1×1，卷积核的个数512，步长为2，补零参数为“same”；第五残差网络块主要由第十四卷积层、第十四激活层、第十五卷积层、第十五激活层和第十六卷积层依次连接组成，第五残差网络块的输入同时与第十六卷积层的输出进行像素的加和后输入到第十六激活层，第十六激活层的输出作为第五残差网络块的输出。第五残差网络块的输入是S₄中的512幅特征图，经第五残差网络块处理后输出512幅特征图，将这512幅特征图构成的集合记为S₅。第十四卷积层的卷积核大小为1×1、卷积核个数为128、步长为1，补零参数为“same”，第十五卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第十六卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第十四激活层，第十五激活层和第十六激活层的激活方式均为“Relu”；第六残差网络块主要由第十七卷积层、第十七激活层、第十八卷积层、第十八激活层和第十九卷积层依次连接组成，第六残差网络块的输入同时与第十九卷积层的输出进行像素的加和后输入到第十九激活层，第十九激活层的输出作为第六残差网络块的输出。第六残差网络块的输入是S₅中的512幅特征图，经第六残差网络块处理后输出512幅特征图，将这512幅特征图构成的集合记为S₆。第十七卷积层的卷积核大小为1×1、卷积核个数为128、步长为1，补零参数为“same”，第十八卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第十九卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第十七激活层，第十八激活层和第十九激活层的激活方式均为“Relu”；第七残差网络块主要由第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层和第二十二卷积层依次连接组成，第七残差网络块的输入同时与第二十二卷积层的输出进行像素的加和后输入到第二十二激活层，第二十二激活层的输出作为第三神经网络块的输出。第七残差网络块的输入是S₆中的512幅特征图，经第七残差网络块处理后输出512幅特征图，将这512幅特征图构成的集合记为S₇，同时作为第3神经网络块的输出记为R₃。第二十卷积层的卷积核大小为1×1、卷积核个数为128、步长为1，补零参数为“same”，第二十一卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第二十二卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第二十激活层、第二十一激活层和第二十二激活层的激活方式均为“Relu”。R₃中的每幅特征图的宽度为

高度为

对于第四神经网络块，其主要由依次设置的第八残差网络块、第九残差网络块、第十残差网络块、第十一残差网络块、第十二残差网络块和第十三残差网络块组成；第四神经网络块的输入端接收R₃中的所有特征图，第四神经网络块的输出端输出1024幅特征图，将1024幅特征图构成的集合记为R₄；其中，第八残差网络块包括左、右两分支以及汇总激活，左分支主要由第二十三卷积层、第二十三激活层、第二十四卷积层、第二十四激活层、第二十五卷积层依次连接组成，右分支包括第三跳层下采样卷积，汇总激活包括第二十五激活层，第八残差网络块的输入分别输入左分支和右分支，第二十五卷积层和第三跳层下采样卷积的输出先进行像素的加和后共同输入第二十五激活层，第二十五激活层的输出为第八残差网络块的输出。第八残差网络块的输入是R₃中的512幅特征图，分别经过左右两个分支，做它们的像素加和，再经过汇总激活输出为1024幅特征图，将这1024幅特征图构成的集合记为S₈，第二十三卷积层的卷积核大小为1×1、卷积核个数为256、步长为2，补零参数为“same”，第二十四卷积层的卷积核大小为3×3、卷积核个数为256、步长为1，补零参数为“same”，第二十五卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1，补零参数为“same”，第二十三激活层，第二十四激活层和第二十五激活层的激活方式均为“Relu”，第三跳层下采样卷积的卷积核为1×1，卷积核的个数1024，步长为2，补零参数为“same”。第九、十、十一、十二、十三残差网络块的结构相同，以第九残差网络块为例，第九残差块将S₈中的1024幅特征图作为输入，分别经过左右两分支，左右两分支的输出进行像素加和后再经过汇总激活的输出为1024幅特征图，将这1024幅特征图构成的集合记为S₉。第九残差网络块的左分支主要由第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层和第二十八卷积层依次连接组成，第九残差网络块的输入同时与第二十八卷积层的输出进行像素的加和后输入到第二十八激活层，第二十八激活层的输出作为第九残差网络块的输出。第二十六卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第二十七卷积层的卷积核大小为3×3、卷积核个数为256、步长为1，补零参数为“same”，第二十八卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1，补零参数为“same”，第二十六激活层，第二十七激活层和第二十八激活层的激活方式均为“Relu”。以此类推，第十、十一、十二、十三残差块的输出分别为S₁₀、S₁₁、S₁₂、S₁₃，其中S₁₃又作为第四神经网络块的输出，记为R₄。R₄中的每幅特征图的宽度为

高度为

对于第五神经网络块，其主要由依次设置的第十四残差网络块、第十五残差网络块和第十六残差网络块组成；第五神经网络块的输入端接收R₄中的所有特征图，第五神经网络块的输出端输出2048幅特征图，将2048幅特征图构成的集合记为R₅；其中，第十四残差块包括左、右两分支以及汇总激活，左分支主要由第四十一卷积层、第四十一激活层、第四十二卷积层、第四十二激活层和第四十三卷积层依次连接组成；右分支包括第四跳层下采样卷积；汇总激活包括第四十三激活层，第十四残差网络块的输入分别输入左分支和右分支，第四十三卷积层和第四跳层下采样卷积的输出先进行像素的加和后共同输入第四十三激活层，第四十三激活层的输出为第十四残差网络块的输出。第十四残差网络块的输入是R₄中的1024幅特征图，分别经过左右两个分支，再做它们的像素加和，经过汇总激活输出为2048幅特征图，将这2048幅特征图构成的集合记为S₁₄，第四十一卷积层的卷积核大小为1×1、卷积核个数为512、步长为2，补零参数为“same”，第四十二卷积层的卷积核大小为3×3、卷积核个数为512、步长为1，补零参数为“same”，第四十三卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1，补零参数为“same”，第四十一激活层，第四十二激活层和第四十三激活层的激活方式均为“Relu”，第四跳层下采样卷积的卷积核为1×1，卷积核的个数2048，步长为2，补零参数为“same”；第十五残差网络块主要由第四十四卷积层、第四十四激活层、第四十五卷积层、第四十五激活层和第四十六卷积层依次连接组成，第十五残差网络块的输入同时与第四十六卷积层的输出进行像素的加和后输入到第四十六激活层，第四十六激活层的输出作为第十五残差网络块的输出。第十五残差网络块的输入是S₁₄中的2048幅特征图，经第十五残差网络块处理后输出2048幅特征图，将这2048幅特征图构成的集合记为S₁₅，第四十四卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第四十五卷积层的卷积核大小为3×3、卷积核个数为512、步长为1，补零参数为“same”，第是四十六卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1，补零参数为“same”，第四十四激活层，第四十五激活层和第四十六激活层的激活方式均为“Relu”；第十六残差块由第四十七卷积层、第四十七激活层、第四十八卷积层、第四十八激活层、和第四十九卷积层、第四十九激活层组成。第十六残差网络块的结构与第十五残差网络块的结构相同。第十六残差网络块的输入是S₁₅中的2048幅特征图，经第十六残差网络块处理后输出2048幅特征图，将这2048幅特征图构成的集合记为S₁₆，同时作为第5神经网络块的输出记为R₅。第四十七卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第四十八卷积层的卷积核大小为3×3、卷积核个数为512、步长为1，补零参数为“same”，第四十九卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1，补零参数为“same”，第四十七激活层，第四十八激活层和第四十九激活层的激活方式均为“Relu”。R₅中的每幅特征图的宽度为

高度为

对于第六神经网络块，其主要由依次设置的第五十卷积层(Convolution，Conv)、第五十激活层(Activation，Act)、第二最大池化层(Maxpooling，Pool)组成；第六神经网络块的输入端接收单通道热力图(Thermal)单通道，第六神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为T₁。其中，第五十卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数均3，第五十激活层激活方式均为“Relu”，第二最大池化层的池化尺寸(pool_size)为2，T₁中的每幅特征图的宽度为

高度为

对于第七神经网络块，其主要由依次设置的第十七残差网络块、第十八残差网络块和第十九残差网络块组成；第七神经网络块的输入端接收T₁中的所有特征图，第七神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为T₂；其中，第十七残差网络块包括左、右两分支以及汇总激活，左分支主要由第五十一卷积层、第五十一激活层、第五十二卷积层、第五十二激活层和第五十三卷积层依次连接组成，右分支包括第五跳层下采样卷积，汇总激活包括第五十三激活层，第十七残差网络块的输入分别输入左分支和右分支，第五十三卷积层和第五跳层下采样卷积的输出先进行像素的加和后共同输入第五十三激活层，第五十三激活层的输出为第十七残差网络块的输出。第十七残差网络块的输入是T₁中的64幅特征图，分别经过左右两个分支，做它们的像素加和，再经过汇总激活输出为256幅特征图，将这256幅特征图构成的集合记为L₁，第五十一卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”，第五十二卷积层的卷积核大小为3×3、卷积核个数为64、步长为1，补零参数为“same”，第五十三卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第五十一激活层，第五十二激活层和第五十三激活层的激活方式均为“Relu”，第五跳层下采样卷积的卷积核为1×1，卷积核的个数256，步长为1，补零参数为“same”；第十八残差块主要由第五十四卷积层、第五十四激活层、第五十五卷积层、第五十五激活层和第五十六卷积层依次连接组成，第十八残差网络块的输入同时与第五十六卷积层的输出进行像素的加和后输入到第五十六激活层，第五十六激活层的输出作为第十八残差网络块的输出。第十八残差网络块的输入是L₁中的256幅特征图，经第十八残差网络块处理后输出256幅特征图，将这256幅特征图构成的集合记为L₂，第五十四卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”，第五十五卷积层的卷积核大小为3×3、卷积核个数为64、步长为1，补零参数为“same”，第五十六卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第五十四激活层，第五十五激活层和第五十六激活层的激活方式均为“Relu”；第十九残差块主要由第五十七卷积层、第五十七激活层、第五十八卷积层、第五十八激活层和第五十九卷积层依次连接组成，第十九残差网络块的输入同时与第五十九卷积层的输出进行像素的加和后输入到第五十九激活层，第五十九激活层的输出作为第十九残差网络块的输出。第十九残差网络块的输入是L₂中的256幅特征图，经第十九残差网络块处理后输出256幅特征图，将这256幅特征图构成的集合记为L₃，同时作为第7神经网络块的输出记为T₂。第五十七卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”，第五十八卷积层的卷积核大小为3×3、卷积核个数为64、步长为1，补零参数为“same”，第五十九卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第五十七激活层，第五十八激活层和第五十九激活层的激活方式均为“Relu”。T₂中的每幅特征图的宽度为

高度为

对于第八神经网络块，其主要由依次设置的第二十残差网络块、第二十一残差网络块、第二十二残差网络块和第二十三残差网络块组成；第八神经网络块的输入端接收T₂中的所有特征图，第八神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为T₃；其中，第二十残差块主要由左、右两分支以及汇总激活组成，左分支主要由第六十卷积层、第六十激活层、第六十一卷积层、第六十一激活层和第六十二卷积层依次连接组成，右分支包括第六跳层下采样卷积，汇总激活包括第六十二激活层，第二十残差网络块的输入分别输入左分支和右分支，第六十二卷积层和第六跳层下采样卷积的输出先进行像素的加和后共同输入第六十二激活层，第六十二激活层的输出为第二十残差网络块的输出。第二十残差网络块的输入是T₂中的256幅特征图，分别经过左右两个分支，做它们的像素加和，再经过汇总激活输出为512幅特征图，将这512幅特征图构成的集合记为L₄，第六十卷积层的卷积核大小为1×1、卷积核个数为128、步长为2，补零参数为“same”，第六十一卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第六十二卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第六十激活层，第六十一激活层和第六十二激活层的激活方式均为“Relu”，第六跳层下采样卷积的卷积核为1×1，卷积核的个数512，步长为2，补零参数为“same”。第二十一残差块主要由第六十三卷积层、第六十三激活层、第六十四卷积层、第六十四激活层和第六十五卷积层依次连接组成，第二十一残差网络块的输入同时与第六十五卷积层的输出进行像素的加和后输入到第六十五激活层，第六十五激活层的输出作为第二十一残差网络块的输出。第二十一残差网络块的输入是L₄中的512幅特征图，经第二十一残差网络块处理后输出512幅特征图，将这512幅特征图构成的集合记为L₅。第六十三卷积层的卷积核大小为1×1、卷积核个数为128、步长为1，补零参数为“same”，第六十四卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第六十五卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第六十三激活层，第六十四激活层和第六十五激活层的激活方式均为“Relu”；第二十二残差网络块包括第六十六卷积层、第六十六激活层、第六十七卷积层、第六十七激活层、第六十八卷积层和第六十八激活层。第二十二残差网络块的输入是L₅中的512幅特征图，经第六残差网络块处理后输出512幅特征图，将这512幅特征图构成的集合记为L₆。第六十六卷积层的卷积核大小为1×1、卷积核个数为128、步长为1，补零参数为“same”，第六十七卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第六十八卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第六十六激活层，第六十七激活层和第六十八激活层的激活方式均为“Relu”；第二十三残差块包括第六十九卷积层、第六十九激活层、第七十卷积层、第七十激活层、第七十一卷积层、第七十一激活层。第二十三残差网络块的输入是L₆中的512幅特征图，经第二十三残差网络块处理后输出512幅特征图，将这512幅特征图构成的集合记为L₇，同时作为第八神经网络块的输出记为T₃。第六十九卷积层的卷积核大小为1×1、卷积核个数为128、步长为1，补零参数为“same”，第七十卷积层的卷积核大小为3×3、卷积核个数为128、步长为1，补零参数为“same”，第七十一卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第六十九激活层，第七十激活层和第七十一激活层的激活方式均为“Relu”。T₃中的每幅特征图的宽度为

高度为

对于第九神经网络块，其主要由依次设置的第二十四残差网络块、第二十五残差网络块、第二十六残差网络块、第二十七残差网络块、第二十八残差网络块和第二十九残差网络块组成；第九神经网络块的输入端接收T₃中的所有特征图，第九神经网络块的输出端输出1024幅特征图，将1024幅特征图构成的集合记为T₄；其中，第二十四残差网络块包括左、右两分支以及汇总激活，左分支主要由第七十二卷积层、第七十二激活层、第七十三卷积层、第七十三激活层和第七十四卷积层组成，右分支包括第七跳层下采样卷积，汇总激活包括第七十四激活层，第二十四残差网络块的输入分别输入左分支和右分支，第七十四卷积层和第七跳层下采样卷积的输出先进行像素的加和后共同输入第七十四激活层，第七十四激活层的输出为第二十四残差网络块的输出。第二十四残差网络块的输入是T₃中的512幅特征图，分别经过左右两个分支，做它们的像素加和，再经过汇总激活输出为1024幅特征图，将这1024幅特征图构成的集合记为L₈，第七十二卷积层的卷积核大小为1×1、卷积核个数为256、步长为2，补零参数为“same”，第七十三卷积层的卷积核大小为3×3、卷积核个数为256、步长为1，补零参数为“same”，第七十四卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1，补零参数为“same”，第七十二激活层，第七十三激活层和第七十四激活层的激活方式均为“Relu”，第七跳层下采样卷积的卷积核为1×1，卷积核的个数1024，步长为2，补零参数为“same”；第二十五、二十六、二十七、二十八、二十九残差网络块的结构相同，以第二十五残差网络块为例，第二十五残差块将L₈中的1024幅特征图作为输入，最后输出为1024幅特征图，将这1024幅特征图构成的集合记为L₉。第二十五残差网络块主要由第七十五卷积层、第七十五激活层、第七十六卷积层、第七十六激活层和第七十七卷积层依次连接构成，第二十五残差网络块的输入同时与第七十七卷积层的输出进行像素的加和后输入到第七十七激活层，第七十七激活层的输出作为第二十五残差网络块的输出。第七十五卷积层的卷积核大小为1×1、卷积核个数为256、步长为1，补零参数为“same”，第七十六卷积层的卷积核大小为3×3、卷积核个数为256、步长为1，补零参数为“same”，第七十七卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1，补零参数为“same”，第七十五激活层，第七十六激活层和第七十七激活层的激活方式均为“Relu”。以此类推，第二十六、二十七、二十八、二十九残差块的输出分别为L₁₀、L₁₁、L₁₂、L₁₃，其中L₁₃又作为第九神经网络块的输出，记为T₄。T₄中的每幅特征图的宽度为

高度为

对于第十神经网络块，其主要由依次设置的第三十残差网络块、第三十一残差网络块和第三十二残差网络块组成；第十神经网络块的输入端接收T₄中的所有特征图，第十神经网络块的输出端输出2048幅特征图，将2048幅特征图构成的集合记为T₅；其中，第三十残差网络块包括左、右两分支以及汇总激活，左分支主要由第九十卷积层、第九十激活层、第九十一卷积层、第九十一激活层和第九十二卷积层依次连接组成，右分支包括第八跳层下采样卷积，汇总激活包括第九十二激活层，第三十残差网络块的输入分别输入左分支和右分支，第九十二卷积层和第一跳层下采样卷积的输出先进行像素的加和后共同输入第九十二激活层，第九十二激活层的输出为第三十残差网络块的输出。第三十残差网络块的输入是T₄中的1024幅特征图，分别经过左右两个分支，做它们的像素和，再经过汇总激活输出为2048幅特征图，将这2048幅特征图构成的集合记为L₁₄，第九十卷积层的卷积核大小为1×1、卷积核个数为512、步长为2，补零参数为“same”，第九十一卷积层的卷积核大小为3×3、卷积核个数为512、步长为1，补零参数为“same”，第九十二卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1，补零参数为“same”，第九十激活层，第九十一激活层和第九十二激活层的激活方式均为“Relu”，第八跳层下采样卷积的卷积核为1×1，卷积核的个数2048，步长为2，补零参数为“same”；第三十一残差块主要由第九十三卷积层、第九十三激活层、第九十四卷积层、第九十四激活层和第九十五卷积层依次连接构成，第三十一残差网络块的输入同时与第九十五卷积层的输出进行像素的加和后输入到第九十五激活层，第九十五激活层的输出作为第三十一残差网络块的输出。第三十一残差网络块的输入是L₁₄中的2048幅特征图，经第十五残差网络块处理后输出2048幅特征图，将这2048幅特征图构成的集合记为L₁₅，第九十三卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第九十四卷积层的卷积核大小为3×3、卷积核个数为512、步长为1，补零参数为“same”，第九十五卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1，补零参数为“same”，第九十三激活层，第九十四激活层和第九十五激活层的激活方式均为“Relu”；第三十二残差块主要由第九十六卷积层、第九十六激活层、第九十七卷积层、第九十七激活层和第九十八卷积层依次连接构成，第三十二残差网络块的输入同时与第九十八卷积层的输出进行像素的加和后输入到第九十八激活层，第九十八激活层的输出作为第三十二残差网络块的输出。第三十二残差网络块的输入是L₁₅中的2048幅特征图，经第三十二残差网络块处理后输出2048幅特征图，将这2048幅特征图构成的集合记为L₁₆，同时作为第十神经网络块的输出记为T₅。第九十六卷积层的卷积核大小为1×1、卷积核个数为512、步长为1，补零参数为“same”，第九十七卷积层的卷积核大小为3×3、卷积核个数为512、步长为1，补零参数为“same”，第九十八卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1，补零参数为“same”，第九十六激活层，第九十七激活层和第九十八激活层的激活方式均为“Relu”。T₅中的每幅特征图的宽度为

高度为

对于第一卷积块，主要由依次设置的第九十九卷积层、第九十九激活层、第三最大池化层组成。将单通道的热力图(Thermal)通过HHA编码方式处理成三通道并与原始的道路场景图像(RGB)三通道叠加，形成的六通道的彩色热力图像(RT)作为第一卷积块的输入，输出为64幅特征图，记为RT₁。第九十九卷积层的卷积核大小为7×7、卷积核的个数为64、步长为2、补零参数为“same”；第九十九激活层的激活方式为“Relu”。第三最大池化层的池化尺寸为2。RT₁中每幅特征图的宽度为

高度为

对于第二卷积块，主要由依次设置的第一百卷积层、第一百激活层、第一百零一卷积层、第一百零一激活层、第一百零二卷积层、第一百零二激活层、第一百零三卷积层、第一百零三激活层依次连接组成。第二卷积块的输入端接受RT₁中的64幅特征图，经过第二卷积块处理，输出64幅特征图，记为RT₂。第一百卷积层、第一百零一卷积层、第一百零二卷积层、第一百零三卷积层的卷积核大小均为3×3、卷积核的个数均为64、步长均为1、补零参数均为“same”；第一百激活层、第一百零一激活层、第一百零二激活层、第一百零三激活层的激活方式均为“Relu”。RT₂中每幅特征图的宽度为

高度为

对于第一联合金字塔上采样模块JPU1(Joint Pyramid Upsampling)，将第三神经网络块的输出R₃、第四个神经网络块的输出R₄、第五神经网络块的输出R₅作为第一联合金字塔上采样模块JPU1的输入，经过第一联合金字塔上采样模块JPU1，输出512幅特征图，将它们的集合记为JPU₁。第一联合金字塔上采样模块JPU1包括第一上采样层、第一金字塔卷积层、第一JPU输出层，第一上采样层、第一金字塔卷积层和第一JPU输出层依次连接，结构如图2所示。其中，第一上采样层的输入分别为R₅中的2048幅特征图，R₄中的1028幅特征图、R₃中的512幅特征图，输出为1536(512+512+512)幅特征图，记为J_1u。第一上采样层包括第一百零四卷积层、第一百零四激活层、第一百零五卷积层、第一百零五激活层、第一百零六卷积层、第一百零六激活层、第一双线性插值层和第二双线性插值层，第一百零四卷积层、第一百零四激活层和第一双线性插值层依次连接，第一百零五卷积层、第一百零五激活层和第二双线性插值层依次连接，第一百零六卷积层和第一百零六激活层依次连接，第三神经网络块的输出输入到第一百零六卷积层，第四神经网络块的输出输入到第一百零五卷积层，第五神经网络块的输出输入到第一百零四卷积层，第一百零六激活层、第一双线性插值层和第二双线性插值层的输出进行通道的叠加后输出到第一金字塔卷积层；第一百零四、第一百零五、第一百零六卷积层的卷积核的个数均为512，卷积核的大小均为3×3，步长均为1，补零参数均为“same”；第一百零四、第一百零五、第一百零六激活层的激活方式均为“Relu”；第一双线性插值的插值参数为4，第二双线性插值的差值参数为2。J_1u中每幅特征图的宽为

高为

第一金字塔卷积层以J_1u作为输入，输出2048(512+512+512+512)幅特征图，记为J_1p。第一金字塔卷积层包括四个金字塔子卷积层，四个金字塔子卷积层并联设置，四个金字塔子卷积层分别为第一百零七卷积层与第一百零七激活层、第一百零八卷积层与第一百零八激活层、第一百零九卷积层与第一百零九激活层、第一百一十卷积层与第一百一十激活层依次连接，第一上采样层的输出分别输入到各个金字塔子卷积层，各个金字塔子卷积层的输出进行通道的叠加后输出到第一JPU输出层。第一百六七、第一百零八、第一百零九、第一百一十卷积层的卷积核的大小均为3×3，卷积核的个数均为512个，步长均为1，补零参数均为“same”，不同的是它们的膨胀因子(dilation，默认为1)分别为1、2、4、8。第一百六七、第一百零八、第一百零九、第一百一十激活层的激活方式为“Relu”。第一JPU输出层的输入为J_1p中的2048幅特征图，输出为512幅特征图，记为JPU₁。第一JPU输出层主要由第一百一十一卷积层和第一百一十一激活层依次连接构成，第一百一十一激活层的输出作为第一联合金字塔上采样模块JPU1的输出。第一百一十一卷积层的卷积核的大小均为3×3，卷积核的个数均为512个，步长均为1，补零参数均为“same”。第一百一十一激活层的激活方式为“Relu”。JPU₁中每幅特征图的宽为

高为

对于第二联合金字塔上采样模块JPU2(Joint Pyramid Upsampling)，将第八神经网络块的输出T₃、第九神经网络块的输出T₄、第十神经网络块的输出T₅作为第二联合金字塔上采样模块JPU2的输入，第二联合金字塔上采样模块JPU2输出512幅特征图，将512幅特征图的集合记为JPU₂。第二联合金字塔上采样模块JPU2主要由第二上采样层、第二金字塔卷积层、第二JPU输出层依次连接构成，结构如图2所示。其中，第二上采样层的输入分别为T₅中的2048幅特征图，T₄中的1028幅特征图、T₃中的512幅特征图，输出为1536(512+512+512)幅特征图，记为J_2u。第二上采样层包括第一百一十二卷积层、第一百一十二激活层、第一百一十三卷积层、第一百一十三激活层、第一百一十四卷积层、第一百一十四激活层、第三双线性插值层和第四双线性插值层，第一百一十二卷积层、第一百一十二激活层和第三双线性插值层依次连接，第一百一十三卷积层、第一百一十三激活层和第四双线性插值层依次连接，第一百一十四卷积层和第一百一十四激活层依次连接，第八神经网络块的输出输入到第一百一十四卷积层，第九神经网络块的输出输入到第一百一十三卷积层，第十神经网络块的输出输入到第一百一十二卷积层，第一百一十二激活层、第三双线性插值层和第四双线性插值层的输出进行通道的叠加后输出到第二金字塔卷积层。第一百一十二、第一百一十三、第一百一十四卷积层的卷积核的个数均为512，卷积核的大小均为3×3，步长均为1，补零参数均为“same”；第一百一十二、第一百一十三、第一百一十四激活层的激活方式均为“Relu”；第三双线性插值的插值参数为4，第四双线性插值的差值参数为2。J_2u中每幅特征图的宽为

高为

第二金字塔卷积层以J_2u作为输入，输出2048(512+512+512+512)幅特征图，记为J_2p。第二金字塔卷积层包括四个金字塔子卷积层，四个金字塔子卷积层并联设置，四个金字塔子卷积层分别为第一百一十五卷积层与第一百一十五激活层、第一百一十六卷积层与第一百一十六激活层、第一百一十七卷积层与第一百一十七激活层、第一百一十八卷积层与第一百一十八激活层依次连接，第二上采样层的输出分别输入到各个金字塔子卷积层，各个金字塔子卷积层的输出进行通道的叠加后输出到第二JPU输出层。第一百一十五、第一百一十六、第一百一十七、第一百一十八卷积层的卷积核的大小均为3×3，卷积核的个数均为512个，步长均为1，补零参数均为“same”，不同的是它们的膨胀因子(dilation，默认为1)分别为1、2、4、8。第一百一十五、第一百一十六、第一百一十七、第一百一十八激活层的激活方式为“Relu”。JPU输出层的输入为J_2p中的2048幅特征图，输出为512幅特征图，记为JPU₂。第二JPU输出层主要由第一百一十九卷积层和第一百一十九激活层依次连接组成，第一百一十九激活层的输出作为第二联合金字塔上采样模块JPU2的输出。第一百一十九卷积层的卷积核的大小均为3×3，卷积核的个数均为512个，步长均为1，补零参数均为“same”。第一百一十九激活层的激活方式为“Relu”。JPU₂中每幅特征图的宽为

高为

将JPU₁中的512幅特征图经过第五双线性插值层，插值参数为2，输出512幅特征图，记为JPU_r，将JPU₂中的512幅特征图经过第六双线性插值层，插值参数为2，输出512幅特征图，记为JPU_t。将JPU_r、JPU_t做像素加和，记为JPU。将JPU、第一神经网络块的输出R₁(64幅特征图)、第六神经网络块的输出T₁(64幅特征图)、第二卷积块的输出RT₂(64幅特征图)进行通道的叠加操作后输出704(512+64+64+64)幅特征图，记为F。JPU_r、JPU_t、JPU、R₁、T₁、RT₂、F中每幅特征图的宽度均为

高度均为

对于第三卷积块，主要由第一百一十九卷积层和第一百一十九激活层依次连接组成。第一百一十九卷积层的卷积核大小为3×3，卷积核个数为352个，步长为1，补零参数为“same”，扩张因子(dilation)为2。第一百一十九激活层的激活方式为“Relu”。第三卷积块的输入为F，经过第三卷积块输出352幅特征图，记为F₀。F₀中每幅特征图的宽度为

高度为

对于可分离上采样块SUB(Separable Upsampling Block)。其输入为F₀中的每幅特征图，经过可分离上采样块SUB的处理，输出176幅特征图，记为F₁。可分离上采样块SUB包括第一上采样块和第二上采样块；第一上采样块的输入作为可分离上采样块SUB的输入，第一上采样块和第二上采样块级联，第一上采样块的输出作为第二上采样块的输入，结构如图3所示。第一上采样块主要由第一百二十卷积层、第一百二十激活层、第一百二十一卷积层、第一百二十一激活层和第一百二十二卷积层依次连接构成，第三卷积块的输出输入第一百二十卷积层，第一百二十二卷积层的输出与第三卷积块的输出先进行像素的加和再输入到第一百二十二激活层。第一上采样块的输入为F₀中的每幅特征图，输出为352幅特征图，记为F_a，F_a中每幅特征图的宽度为

高度为

第一百二十卷积的卷积核大小为1×1，卷积核的个数为352，步长为1，补零参数为“same”；第一百二十一，第一百二十二卷积层的卷积核大小均为3×33×3，卷积核的个数均为352，步长均为1，补零参数均为“same”；第一百二十、第一百二十一，第一百二十二激活层的激活方式均为“ReLu”；第二上采样块主要由第一百二十三卷积层、第一百二十三激活层、第一百二十四卷积层、第一百二十四激活层和第一反卷积层依次连接构成，第一上采样块的输出输入到第二反卷积层，第二反卷积层与第一反卷积层的输出先进行像素的加和再输入到第一百二十五激活层，第一百二十五激活层的输出作为可分离上采样块SUB的输出。第二上采样块的输入为F_a中的每幅特征图，输出为176幅特征图，记为F₁。第一百二十三卷积层的卷积核大小为1×1，卷积核的个数为176，步长为1，补零参数为“same”；第一百二十四卷积层的卷积核大小为3×3，卷积核的个数为176，步长为1，补零参数为“same”；第一反卷积层、第二反卷积层的卷积核大小均为2×2，卷积核的个数均为176个，步长均为2，补零参数均为0(经过反卷积层尺寸扩大二倍)；第一百二十三，第一百二十四，第一百二十五激活层的激活方式均为“Relu”；第二上采样块的输出F₁中每幅特征图的宽度为

高度为

对于输出层，输入为F₁中的每幅特征图，经过输出层的处理，输出9幅与原始输入图像对应的语义分割预测图。输出层的结构与可分离上采样块SUB的结构相同，包括第三上采样块和第四上采样块；第三上采样块的输入作为输出层的输入，第三上采样块和第四上采样块级联，第三上采样块的输出作为第四上采样块的输入，结构如图3所示。第三上采样块主要由第一百二十五卷积层、第一百二十六激活层、第一百二十六卷积层、第一百二十七激活层和第一百二十七卷积层依次组成，可分离上采样块SUB的输出输入第一百二十五卷积层，第一百二十七卷积层的输出与可分离上采样块SUB的输出先进行像素的加和再输入到第一百二十八激活层。第一百二十五卷积的卷积核大小为1×1，卷积核的个数为176，步长为1，补零参数为“same”；第一百二十六，第一百二十七卷积层的卷积核大小均为3×3，卷积核的个数均为176，步长均为1，补零参数均为“same”；第一百二十六、第一百二十七，第一百二十八激活层的激活方式均为“ReLu”；第四上采样块主要由第一百二十八卷积层、第一百二十九激活层、第一百二十九卷积层、第一百三十激活层和第三反卷积层依次连接组成，第四上采样块的输出输入到第四反卷积层，第三反卷积层与第四反卷积层的输出先进行像素的加和再输入到第一百三十一激活层，第一百三十一激活层的输出作为输出层的输出。与可分离上采样块SUB不同的是，输出层输出为9幅与原始输入图像对应的语义分割预测图，即经过左右两分支，做左右两分支输出的像素加和操作后，再经过汇总激活层，汇总激活层输出为9幅特征图。第一百二十八卷积层的卷积核大小为1×1，卷积核的个数为9个，步长为1，补零参数为“same”；第一百二十九卷积层的卷积核大小为3×3，卷积核的个数为9个，步长为1，补零参数为“same”；第三反卷积层、第四反卷积层的卷积核大小均为2×2，卷积核的个数均为9个，步长均为2，补零参数均为0(经过反卷积层尺寸扩大二倍)；第一百二十九，第一百三十，第一百三十一激活层的激活方式均为“ReLu”；输出层输出与原始图相同尺寸特征图。

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合

与对应的语义分割标签图集

之间的损失函数值，将

与

之间的损失函数值记为

采用分类交叉熵(categoricalcrossentropy)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝500。

所述的测试阶段过程的具体步骤为：

步骤2_1：待语义分割的道路场景图像记为

其中，

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库InfRec500测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法使用的是Ha Qishen等人在MFNet中发布的公共数据集。由InfReCR500相机拍摄的图像分辨率为480×640，可以同时提供RGB和热成像，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。

表1 利用本发明方法在测试集上的评测结果

图4a给出了第1幅原始的道路场景图像；图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图5a给出了第2幅原始的道路场景图像；图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图6a给出了第3幅原始的道路场景图像；图6b给出了利用本发明方法对图6a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图7a给出了第4幅原始的道路场景图像；图7b给出了利用本发明方法对图7a所示的原始的道路场景图像进行预测，得到的预测语义分割图像。对比图4a和图4b，对比图5a和图5b，对比图6a和图6b，对比图7a和图7b，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种基于卷积神经网络的道路场景语义分割方法，其特征在于：包括训练阶段和测试阶段两个过程；

所述的训练阶段的具体步骤为：

步骤1_2：构建卷积神经网络：

步骤1_3：将训练集中原始的道路场景图像和对应的热力图、彩色热力图像输入到卷积神经网络的输入层中进行训练，训练得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，其中，V＞1，得到卷积神经网络分类训练模型，并总共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出最小的损失函数值，将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项；

所述的测试阶段的具体步骤为：

步骤2_1：待语义分割的道路场景图像记为

其中，

2.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法，其特征在于：所述的步骤1_1具体为：

原始的道路场景图像对应的热力图记为

将第q幅原始的道路场景图像对应的真实语义分割图像记为

表示第q幅热力图中坐标位置为(i,j)的像素点的像素值，

3.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法，其特征在于：所述的第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2)结构相同，均包括上采样层、金字塔卷积层、JPU输出层；上采样层、金字塔卷积层和JPU输出层依次连接，上采样层包括第一百零四卷积层、第一百零四激活层、第一百零五卷积层、第一百零五激活层、第一百零六卷积层、第一百零六激活层、第一双线性插值层和第二双线性插值层，第一百零四卷积层、第一百零四激活层和第一双线性插值层依次连接，第一百零五卷积层、第一百零五激活层和第二双线性插值层依次连接，第一百零六卷积层和第一百零六激活层依次连接，第三神经网络块的输出或者第八神经网络块的输出输入到第一百零六卷积层，第四神经网络块的输出或者第九神经网络块的输出输入到第一百零五卷积层，第五神经网络块的输出或者第十神经网络块的输出输入到第一百零四卷积层，第一百零六激活层、第一双线性插值层和第二双线性插值层的输出进行通道的叠加后输出到金字塔卷积层；金字塔卷积层包括四个金字塔子卷积层，四个金字塔子卷积层并联设置，上采样层的输出分别输入到各个金字塔子卷积层，各个金字塔子卷积层的输出进行通道的叠加后输出到JPU输出层，JPU输出层主要由第一百一十一卷积层和第一百一十一激活层依次连接构成，第一百一十一激活层的输出作为联合金字塔上采样模块的输出。

4.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法，其特征在于：所述的可分离上采样块(SUB)和输出层结构相同，均包括第一上采样块和第二上采样块；第一上采样块的输入作为可分离上采样块(SUB)的输入，第一上采样块和第二上采样块级联，第一上采样块主要由第一百二十卷积层、第一百二十激活层、第一百二十一卷积层、第一百二十一激活层和第一百二十二卷积层依次连接构成，第三卷积块的输出输入第一百二十卷积层，第一百二十二卷积层的输出与第三卷积块的输出先进行像素的加和再输入到第一百二十二激活层；第二上采样块主要由第一百二十三卷积层、第一百二十三激活层、第一百二十四卷积层、第一百二十四激活层和第一反卷积层依次连接构成，第一上采样块的输出输入到第二反卷积层，第二反卷积层与第一反卷积层的输出先进行像素的加和再输入到第一百二十五激活层，第一百二十五激活层的输出作为可分离上采样块(SUB)的输出。

5.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法，其特征在于：第一输入层中输入训练集中的原始的道路场景图像，第三输入层中输入对应的热力图，第二输入层中输入对应的彩色热力图像。