CN113781504A

CN113781504A - 一种基于边界引导的道路场景语义分割方法

Info

Publication number: CN113781504A
Application number: CN202111082517.6A
Authority: CN
Inventors: 周武杰; 董少华; 吴俊一; 许彩娥; 强芳芳; 邱薇薇
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-10

Abstract

本发明公开了一种基于边界引导的道路场景语义分割方法，涉及深度学习领域，具体步骤为：获取训练集，训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像；构建卷积神经网络；将训练集输入到卷积神经网络中进行训练，得到对应的语义分割预测图；语义分割预测图构成第一集合，真实语义分割图像处理成的独热编码图像构成第二集合，计算第一集合与第二集合之间的损失函数，得到卷积神经网络分类训练模型的最优权值矢量和偏置项，卷积神经网络分类训练模型训练完成；将待语义分割的道路场景图像输入卷积神经网络分类训练模型中，得到预测语义分割图像，优点是提高了RGB‑T道路图像的语义分割效率和准确度。

Description

一种基于边界引导的道路场景语义分割方法

技术领域

本发明涉及深度学习技术领域，更具体的说是涉及一种基于边界引导的道路场景语义分割方法。

背景技术

智能交通行业的兴起，使得语义分割在智能交通系统的应用越来越广泛，从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前，传统语义分割，主要主要依靠图像纹理、颜色以及其他一些简易的表层特征和外部结构特征进行图像分割，以此方式得到的分割结果相对粗陋，精度较低，而使用深度学习来对交通场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的道路场景语义分割方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性，从而会导致得到的图像的特征信息减少，最终导致还原的效果信息比较粗糙，分割精度低。因此，对本领域技术人员来说，如何在保证分割效率的同时提高分割精度是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于边界引导的道路场景语义分割方法，基于边界引导进行道路场景语义分割，其分割效率高，且分割准确度高。

为了实现上述目的，本发明采用如下技术方案：一方面，提供一种基于边界引导的道路场景语义分割方法，包括训练阶段和测试阶段，其特征在于，具体步骤为：

获取训练集，所述训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像；

构建卷积神经网络；

将所述训练集输入到所述卷积神经网络中进行训练，得到对应的语义分割预测图；

所述语义分割预测图构成第一集合，真实语义分割图像处理成的独热编码图像构成第二集合，计算所述第一集合与第二集合之间的损失函数，得到卷积神经网络分类训练模型的最优权值矢量和偏置项，所述卷积神经网络分类训练模型训练完成；

将待语义分割的道路场景图像输入所述卷积神经网络分类训练模型中，得到预测语义分割图像。

可选的，所述卷积神经网络包括10个编码模块、5个融合模块、1个高级语义模块、1个高级信息模块、4个解码融合模块；所述卷积神经网络中分为两支结构相同的编码流，RGB编码流包含5个编码模块，分别为依次连接的第一个编码模块、第二个编码模块、第三个编码模块、第四个编码模块、第五个编码模块、Thermal编码流包含5个编码模块，分别为依次连接的第六个编码模块、第七个编码模块、第八个编码模块、第九个编码模块、第十个编码模块；融合模块与编码模块相连，高级语义模块分别与第五个融合模块、第四个融合模块相连，高级信息模块与第五个融合模块相连，高级信息模块还与解码融合模块相连。

可选的，所述融合模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第一交融模块、空洞金字塔模块；第一特征图输入到所述第一卷积模块中得到第三特征图，第二特征图输入到所述第一卷积模块中得到第四特征图，将所述第三特征图和所述第四特征图进行相加操作，得到第五特征图，将所述第五特征图与所述第三特征图进行点乘操作得到第六特征图，将所述第五特征图与所述第四特征图进行点乘操作得到第七特征图，将所述第六特征图与所述第七特征图进行拼接操作得到第八特征图，将所述第八特征图输入到所述第二卷积模块中得到第九特征图，所述第九特征图输入到所述第一交融模块得到第十特征图，所述第十特征图输入到所述空洞金字塔模块得到第十一特征图，所述第十一特征图输入到所述第三卷积模块得到第十二特征图，所述第十二特征图输入到所述第四卷积模块得到第十三特征图。

可选的，所述高级语义模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块；输入图像经过32倍上采样得到第一特征图A，输入图像A经过16倍上采样得到第二特征图A，将第一特征图A与第二特征图A进行拼接操作得到第三特征图A，将第三特征图A输入到第一卷积模块得到第四特征图A，将第一特征图A、第二特征图A、第四特征图A进行求和操作得到第五特征图A，将第五特征图A输入到第二卷积模块中得到第六特征图A，将第一特征图A与第六特征图A进行点乘操作得到第七特征图A，将第七特征图A输入到第三卷积模块中得到第八特征图A，将网络的输入e输入到第四卷积模块中得到e^out，将第八特征图A与e^out进行点乘操作得到第九特征图A，将第八特征图A与第九特征图A进行求和操作得到输出Sem₁。

可选的，所述高级信息模块包括7个卷积模块；将特征图分别输入到第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块得到第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B，将第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B进行拼接操作得到第六特征图B，将第六特征图B输入到第六卷积模块得到第七特征图B，将第七特征图B与特征图进行求和得到第八特征图B，将第八特征图B输入到第七卷积模块中得到第九特征图B。

可选的，所述解码融合模块包括第一注意力模块、第一卷积模块、第二注意力模块、第二卷积模块、第三卷积模块、第四卷积模块；将图像分别输入到第一卷积模块和第二注意力模块，得到第一特征图C1、第一特征图C2，将第二图像输入到第一注意力模块，得到第一特征图C3，第一特征图C1与第一特征图C3进行点乘操作得到第二特征图C，第一特征图C1与第一特征图C2进行点乘操作得到第三特征图C，将第一特征图C1、第二特征图C、第三特征图C分别输入到第二卷积模块后进行求和操作，得到第四特征图C，将第四特征图C输入到第三卷积模块中得到第五特征图C，将第五特征图C输入到第四卷积模块得到第六特征图C并进行上采样操作。

可选的，将所述原始道路场景RGB图像、Thermal热红外图像分别使用sobel算法进行预处理，得到所述预处理后的边界图像。

另一方面，提供一种基于边界引导的道路场景语义分割系统，包括数据采集模块、神经网络构建模块、损失函数计算模块、预测模块；其中，

所述数据采集模块，用于采集数据样本，所述数据样本分为训练集与测试集；

所述神经网络构建模块，用于构建卷积神经网络模型，并将所述训练集输入到所述卷积神经网络中进行训练，得到对应的语义分割预测图；

所述损失函数计算模块，用于计算所述语义分割预测图构成的集合与真实语义分割图像处理成的独热编码图像集合之间的损失函数，得到卷积神经网络分类训练模型的最优权值矢量和偏置项；

所述预测模块，用于将所述测试集输入到所述卷积神经网络分类训练模型中，得到预测语义分割图像。

可选的，所述数据样本包括原始道路场景RGB图像和Thermal热红外图像；对所述数据样本通过sobel算法进行数据预处理，得到预处理后的边界图像。

最后，提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现基于边界引导的道路场景语义分割方法的步骤。

经由上述的技术方案可知，本发明公开提供了一种基于边界引导的道路场景语义分割方法，与现有技术相比，具有以下有益的技术效果：

1)本发明方法构建卷积神经网络，使用训练集中的道路场景RGBT图像和预处理之后的边界图像输入到卷积神经网络中进行训练，得到卷积神经网络分类训练模型；再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中，预测得到道路场景图像对应的预测语义分割图像，由于本发明方法在构建卷积神经网络时使用了新的融合方法，使网络可以更好的学习RGB，T信息和上一级的输出信息，充分利用了特征的信息，因此能够比较准确地描述道路场景中各种分类目标，从而有效地提高了道路场景图像的语义分割精确度。

2)本发明方法采用了边界引导的方式，对原始的RGBT数据集进行预处理得到边界图像，再将处理好的边界图像和RGBT信息一同输入到神经网络中，增加了边界细节信息，有效的提高了语义分割精度。

3)本发明方法设计了高级语义信息模块，利用了高级语义进行监督，进而在训练集和测试集上都获得了很好的分割效果。

4)本发明方法充分利用了边界细节信息，对输出的分割图像进行边界监督，使分割结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明方法的总体实现框图；

图2为融合模块FM的实现框图；

图3为高级语义模块SEM的实现框图；

图4为高级信息模块HL的实现框图；

图5为解码融合模块MF的实现框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1公开了一种基于边界引导的道路场景语义分割方法，本发明方法的实现框图如图1所示，

包括训练阶段和测试阶段，训练阶段的具体步骤为：

获取训练集，训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像；

构建卷积神经网络；

将训练集输入到卷积神经网络中进行训练，得到对应的语义分割预测图；

语义分割预测图构成第一集合，真实语义分割图像处理成的独热编码图像构成第二集合，计算第一集合与第二集合之间的损失函数，得到卷积神经网络分类训练模型的最优权值矢量和偏置项，卷积神经网络分类训练模型训练完成；

测试阶段的具体步骤为：

将待语义分割的道路场景图像输入卷积神经网络分类训练模型中，得到预测语义分割图像。

具体的，训练阶段过程的具体步骤为：

步骤1-0：将数据集中的RGB图像和Thermal热红外图像分别使用sobel算法进行数据预处理；将上述处理好的Numpy数组对应相加得到既包含RGB信息又包含Thermal信息的Numpy数组；利用PIL自带的numpy to image方法，将上面生成的Numpy数组转换成图片格式并且保留作为边界数据集。

步骤1-1：选取784幅原始的道路场景RGB图像、Thermal热红外图像、对应生成的边界数据集图像、以及对应的真实语义分割图像、真实的边界图像，构成训练集，将其中的原始图像集合记为{J(i,j)}，将与其原始图像对应的真实语义分割图像记为{J_true(i,j)}，然后采用现有的独热编码技术(one-hot)将将{J_true(i,j)}处理成9幅独热编码图像构成的集合记为J_true。其中原始图像的高为480，宽为640，1≤i≤640，1≤j≤480，J(i,j)表示{J(i,j)}中坐标位置为(i,j)的像素点的像素值，J_true(i,j)表示{J_true(i,j)}中坐标位置为(i,j)的像素点的像素值。

步骤1-2：构建卷积神经网络：卷积神经网络包括编码层和解码层两部分，分别对图像进行特征提取操作和上采样操作；

在编码阶段，因包含RGB(R，G，B三通道分量的彩色图像)和Thermal(单通道的热红外图像)两种不同模态的输入，网络分为两支结构相同的编码流，分别对输入的RGB和Thermal进行编码，主干网络都使用了ResNet-152。RGB编码流包含5个卷积块，分别为第1个编码模块，第2个编码模块，第3个编码模块，第4个编码模块，第5个编码模块。同样Thermal编码流也包含5个卷积块，分别为第6个编码模块，第7个编码模块，第8个编码模块，第9个编码模块，第10个编码模块。此外设计了用于生成高级信息的HL模块；用于融合RGB信息和Thermal信息的融合模块FM(包括五个FM模块，分别为FM1，FM2，FM3，FM4，FM5)；用于融合FM输出信息，HL输出信息和上一级输出信息的解码融合模块MF(包括四个MF模块，分别为MF1，MF2，MF3，MF4)；用于语义监督的高级语义模块SEM。

对于第1个编码模块，其由依次设置的第一卷积层(Convolution，Conv)，第一批量归一化层(BatchNorm)，第一激活层(Activation，Act)组成。其中第一卷积层采用卷积核(kernel_size)大小为7，步长(stride)为2，边缘填充(padding)为3，卷积核个数为64。第1个编码模块的输入端接收原始输入图像的RGB三通道分量，要求输入端接收的原始输入图像的宽度为W、高度为H。经过第一批量归一化层的归一化操作之后再经过第一激活层(激活方式为Relu)输出64幅输出特征图，将64副特征图构成的集合记为N₁；其中每幅特征图的宽度为

高度为

对于第2个编码模块，依次由1个下采样层和3个残差单元组成。其中，第1个下采样层所采用的是最大池化下采样，卷积核大小为3×3，步长为2，填充系数为1。对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为256。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为1；一层归一化层组成，输出通道数为256。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为256。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第2个编码模块的输入端接收N₁中的所有特征图，输出端输出256副特征图，将256副特征图构成的集合记为N₂，其中每幅特征图的宽度为

高度为

对于第3个编码模块，依次由8个残差单元组成。其中，对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为2；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为512。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为2；一层归一化层组成，输出通道数为512。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为512。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第3个编码模块的输入端接收N₂中的所有特征图，输出端输出512副特征图，将512副特征图构成的集合记为N₃，其中每幅特征图的宽度为

高度为

对于第4个编码模块，依次由36个残差单元组成。其中，对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为2；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为1024。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为2；一层归一化层组成，输出通道数为1024。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为1024。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第4个编码模块的输入端接收N₃中的所有特征图，输出端输出1024副特征图，将1024副特征图构成的集合记为N₄，其中每幅特征图的宽度为

高度为

对于第5个编码模块，依次由3个残差单元组成。其中，对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为2；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为2048。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为2；一层归一化层组成，输出通道数为2048。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为2048。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第5个编码模块的输入端接收N₄中的所有特征图，输出端输出2048副特征图，将2048副特征图构成的集合记为N₅，其中每幅特征图的宽度为

高度为

对于第6个编码模块，其由依次设置的第一卷积层(Convolution，Conv)，第一批量归一化层(BatchNorm)，第一激活层(Activation，Act)组成。其中第一卷积层采用卷积核(kernel_size)大小为7，步长(stride)为2，边缘填充(padding)为3，卷积核个数为64。第6个编码模块的输入端接收原始输入图像的Thermal单通道分量，要求输入端接收的原始输入图像的宽度为W、高度为H。经过第一批量归一化层的归一化操作之后再经过第一激活层(激活方式为Relu)输出64幅输出特征图，将64副特征图构成的集合记为N₆；其中每幅特征图的宽度为

高度为

对于第7个编码模块，依次由1个下采样层和3个残差单元组成。其中，第1个下采样层所采用的是最大池化下采样，卷积核大小为3×3，步长为2，填充系数为1。对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为256。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为1；一层归一化层组成，输出通道数为256。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为256。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第7个编码模块的输入端接收N₆中的所有特征图，输出端输出256副特征图，将256副特征图构成的集合记为N₇，其中每幅特征图的宽度为

高度为

对于第8个编码模块，依次由8个残差单元组成。其中，对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为2；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为512。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为2；一层归一化层组成，输出通道数为512。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为512。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第8个编码模块的输入端接收N₇中的所有特征图，输出端输出512副特征图，将512副特征图构成的集合记为N₈，其中每幅特征图的宽度为

高度为

对于第9个编码模块，依次由36个残差单元组成。其中，对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为2；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为1024。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为2；一层归一化层组成，输出通道数为1024。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为1024。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第9个编码模块的输入端接收N₈中的所有特征图，输出端输出1024副特征图，将1024副特征图构成的集合记为N₉，其中每幅特征图的宽度为

高度为

对于第10个编码模块，依次由3个残差单元组成。其中，对于第一个残差单元的主分支依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为2；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为2048。对于其捷径分支，则依次由一层卷积，卷积核大小为1，步长为2；一层归一化层组成，输出通道数为2048。对于其他残差单元，依次由第一卷积层，卷积核为1，步长为1；第一归一化层；第二卷积层，卷积核为3，步长为1；第二归一化层；第三卷积层，卷积核为1，步长为1；第三归一化层和第一激活层组成，输出通道数为2048。其捷径分支无其他操作，只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出。第10个编码模块的输入端接收N₉中的所有特征图，输出端输出2048副特征图，将2048副特征图构成的集合记为N₁₀，其中每幅特征图的宽度为

高度为

融合模块FM的实现框图如图2所示，对于第一个融合模块FM1，将第1个编码模块的RGB输出记为R₁，将第6个编码模块的Thermal输出记为T₁。将R₁和T₁分别依次输入到卷积核大小为1，步长为1，卷积核个数为64的第一卷积模块中，输出分别为

和T₁ ^out；将生成的

和T₁ ^out进行元素相加操作，得到输出f₁ ^out1；接着将f₁ ^out1和

进行点乘操作得到f₁ ^out2，将f₁ ^out1和T₁ ^out进行点乘操作得到f₁ ^out3；之后将f₁ ^out2和f₁ ^out3进行拼接操作得到f₁ ^out4；然后将f₁ ^out4输入到卷积核大小为1，步长为1，卷积核个数为64的第二卷积模块中得到f₁ ^out5；接着将f₁ ^out5输入到第一交融模块中得到f₁ ^out6，其中第一交融模块的主分支依次由第一卷积层，第一归一化层，第一激活层，第二卷积层，第二归一化层组成，其中第一卷积层、第二卷积层卷积核大小为3，步长为1，第一个交融模块的捷径分支无其他操作，只是单纯的输入数据的流动，最后的操作是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出；接着将上述生成的f₁ ^out6输入到空洞金字塔模块中得到f₁ ^out7，其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成，第一空洞卷积块的卷积核大小为3，步长为1，边缘填充为1，空洞率为1，卷积核个数为64，第二空洞卷积块的卷积核大小为3，步长为1，边缘填充为2，空洞率为2，卷积核个数为64，第三空洞卷积块的卷积核大小为3，步长为1，边缘填充为3，空洞率为3，卷积核个数为64，第四空洞卷积块的卷积核大小为3，步长为1，边缘填充为4，空洞率为4，卷积核个数为64，将上述f₁ ^out6经过四个不同空洞率的空洞卷积块得到的四个输出与f₁ ^out6进行拼接操作得到f₁ ^out7；接着将上述生成的f₁ ^out7输入到卷积核大小为3，步长为1，卷积核个数为64的第三卷积模块中得到输出f₁；将f₁ ^out7输入到第四卷积模块中得到输出b₁，其中第四卷积模块由卷积核大小为3，步长为1，卷积核个数为2的卷积层，归一化层和激活层组成。

将第一个融合模块FM1的输出b₁依次经过2倍双线性插值上采样，卷积核大小为1，步长为1，卷积核个数为2的第一卷积模块得到输出b₁ ¹；将b₁ ¹和网络的输入e进行点乘操作得到B₁。

对于第二个融合模块FM2，将第2个编码模块的RGB输出记为R₂，将第7个编码模块的Thermal输出记为T₂。将R₂和T₂分别依次输入到卷积核大小为1，步长为1，卷积核个数为64的第一卷积模块中，输出分别为

和

将生成的

和

进行元素相加操作，得到输出

接着将

和

进行点乘操作得到

将

和

进行点乘操作得到

之后将

和

进行拼接操作得到

然后将

输入到卷积核大小为1，步长为1，卷积核个数为64的第二卷积模块中得到

接着将

输入到第一交融模块中得到

其中第一交融模块的主分支依次由第一卷积层，第一归一化层，第一激活层，第二卷积层，第二归一化层组成，其中第一卷积层、第二卷积层卷积核大小为3，步长为1，第一个交融模块的捷径分支无其他操作，只是单纯的输入数据的流动，最后的操作是主分支与捷径分支进行Add操作，再经过Relu激活函数，得到最后输出；接着将上述生成的

输入到空洞金字塔模块中得到

其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成，第一空洞卷积块的卷积核大小为3，步长为1，边缘填充为1，空洞率为1，卷积核个数为64，第二空洞卷积块的卷积核大小为3，步长为1，边缘填充为2，空洞率为2，卷积核个数为64，第三空洞卷积块的卷积核大小为3，步长为1，边缘填充为3，空洞率为3，卷积核个数为64，第四空洞卷积块的卷积核大小为3，步长为1，边缘填充为4，空洞率为4，卷积核个数为64，将上述

经过四个不同空洞率的空洞卷积块得到的四个输出与

进行拼接操作得到

接着将上述生成的

输入到卷积核大小为3，步长为1，卷积核个数为64的第三卷积模块中得到输出f₂；将

输入到第四卷积模块中得到输出b₂，其中第四卷积模块由卷积核大小为3，步长为1，卷积核个数为2的卷积，归一化层和激活层组成。

将第二个融合模块FM2的输出b₂依次经过4倍双线性插值上采样，卷积核大小为1，步长为1，卷积核个数为2的第一卷积模块得到输出b₂ ¹；将b₂ ¹和网络的输入e进行点乘操作得到B₂。

对于第三个融合模块FM3，将第3个编码模块的RGB输出记为R₃，将第8个编码模块的Thermal输出记为T₃。将R₃和T₃分别依次输入到卷积核大小为1，步长为1，卷积核个数为64的第一卷积模块中，输出分别为

和

将生成的

和

进行元素相加操作，得到输出

接着将

和

进行点乘操作得到

将

和

进行点乘操作得到

之后将

和

进行拼接操作得到

然后将

接着将

输入到第一交融模块中得到

输入到空洞金字塔模块中得到

经过四个不同空洞率的空洞卷积块得到的四个输出与

进行拼接操作得到

接着将上述生成的

输入到卷积核大小为3，步长为1，卷积核个数为64的第三卷积模块中得到输出f₃；将

输入到第四卷积模块中得到输出b₃，其中第四卷积模块由卷积核大小为3，步长为1，卷积核个数为2的卷积，归一化层和激活层组成。

将第三个融合模块FM3的输出b₃依次经过8倍双线性插值上采样，卷积核大小为1，步长为1，卷积核个数为2的第一卷积模块得到输出b₃ ¹；将b₃ ¹和网络的输入e进行点乘操作得到B₃。

对于第四个融合模块FM4，将第4个编码模块的RGB输出记为R₄，将第9个编码模块的Thermal输出记为T₄。将R₄和T₄分别依次输入到卷积核大小为1，步长为1，卷积核个数为64的第一卷积模块中，输出分别为

和

将生成的

和

进行元素相加操作，得到输出

接着将

和

进行点乘操作得到

将

和

进行点乘操作得到

之后将

和

进行拼接操作得到

然后将

接着将

输入到第一交融模块中得到

输入到空洞金字塔模块中得到

经过四个不同空洞率的空洞卷积块得到的四个输出与

进行拼接操作得到

接着将上述生成的

输入到卷积核大小为3，步长为1，卷积核个数为64的第三卷积模块中得到输出f₄；将

输入到第四卷积模块中得到输出s₁，其中第四卷积模块由卷积核大小为3，步长为1，卷积核个数为9的卷积，归一化层和激活层组成。

对于第五个融合模块FM5，将第5个编码模块的RGB输出记为R₅，将第10个编码模块的Thermal输出记为T₅。将R₅和T₅分别依次输入到卷积核大小为1，步长为1，卷积核个数为64的第一卷积模块中，输出分别为

和

将生成的

和

进行元素相加操作，得到输出

接着将

和

进行点乘操作得到

将

和

进行点乘操作得到

之后将

和

进行拼接操作得到

然后将

接着将

输入到第一交融模块中得到

输入到空洞金字塔模块中得到

经过四个不同空洞率的空洞卷积块得到的四个输出与

进行拼接操作得到

接着将上述生成的

输入到卷积核大小为3，步长为1，卷积核个数为64的第三卷积模块中得到输出f₅；将

输入到第四卷积模块中得到输出s₂，其中第四卷积模块由卷积核大小为3，步长为1，卷积核个数为9的卷积，归一化层和激活层组成。

高级语义模块SEM的实现框图如图3所示，对于高级语义模块SEM，将上述第五个融合模块FM5的输出s₂经过32倍双线性插值上采样得到输出Sem¹，将上述第四个融合模块FM4的输出s₁经过16倍双线性插值上采样得到输出Sem²，然后将上述Sem¹，Sem²进行拼接操作得到输出Sem³；然后将Sem³输入到卷积核大小为1，步长为1，卷积核个数为9的第一卷积模块，得到输出Sem⁴；将上述Sem¹，Sem²，Sem⁴进行求和操作，得到输出Sem⁵；将上述Sem⁵输入到第二卷积模块中得到输出Sem⁶，其中第二卷积模块依次由卷积核大小为3，步长为1，填充系数为1，卷积核个数为9的卷积层，归一化层和激活层组成；然后将Sem⁶，Sem¹进行点乘操作，得到输出Sem⁷；然后将Sem⁷输入到卷积核大小为1，步长为1，卷积核个数为9的第三卷积模块，得到输出Sem⁸；然后将网络的输入e输入到卷积核大小为1，步长为1，卷积核个数为9的第四卷积模块，得到输出e^out；然后将Sem⁸，e^out进行点乘操作，得到输出Sem⁹；然后将Sem⁸和Sem⁹进行求和操作，得到输出Sem₁。

高级信息模块HL的实现框图如图4所示，对于高级信息模块HL，将上述第五个融合模块FM5的输出f₅分别输入到卷积核大小为1，步长为1，卷积核个数为64的第一卷积模块；卷积核大小为3，步长为1，填充系数为1，空洞率为1，卷积核个数为64的第二卷积模块；卷积核大小为3，步长为1，填充系数为2，空洞率为2，卷积核个数为64的第三卷积模块；卷积核大小为3，步长为1，填充系数为3，空洞率为3，卷积核个数为64的第四卷积模块；卷积核大小为3，步长为1，填充系数为4，空洞率为4，卷积核个数为64的第五卷积模块对应得到五个输出a¹，a²，a³，a⁴，a⁵；将上述五个输出a¹，a²，a³，a⁴，a⁵进行拼接操作得到输出a⁶；将上述a⁶输入到卷积核大小为1，步长为1，卷积核个数为64的第六卷积模块得到输出a⁷；将a⁷和f₅进行求和操作，得到输出a⁸；将a⁸输入到第七卷积模块得到输出a⁹，其中第七卷积模块依次由卷积核大小为3，步长为1，填充系数为1，卷积核个数为64的卷积层，归一化层和激活层组成。然后将上述输出a⁹经过2倍双线性插值上采样得到输出f^high，此时输出端输出64副特征图，特征图的大小变为原来的2倍，每幅特征图的宽度为

高度为

解码融合模块MF的实现框图如图5所示，对于第四个解码融合模块MF4，将高级信息模块HL的输出f^high输入到第一卷积模块得到输出out₄ ¹，其中第一卷积模块依次由卷积核大小为3，步长为1，填充系数为1，卷积核个数为64的卷积层，归一化层和激活层组成；将上述第四个融合模块FM4的输出f₄输入到第一注意力模块得到输出out₄ ²，其中第一注意力模块依次由全局最大池化层，第一个全连接层，第一个激活函数，第二个全连接层，第二个激活函数，第三个全连接层，Sigmoid函数和卷积核大小为1，步长为1的卷积组成；将高级信息模块HL的输出f^high输入到第二注意力模块得到输出out₄ ³，其中第二注意力模块与第一注意力模块完全相同；将上述out₄ ¹和out₄ ²进行点乘操作，得到输出out₄ ⁴；将上述out₄ ¹和out₄ ³进行点乘操作，得到输出out₄ ⁵；将out₄ ¹，out₄ ⁴，out₄ ⁵分别输入到卷积核大小为1，步长为1，卷积核个数为64的第二卷积模块，分别得到输出out₄ ⁶，out₄ ⁷，out₄ ⁸；将上述out₄ ⁶，out₄ ⁷，out₄ ⁸进行求和操作，得到输出out₄ ⁹；将上述输出out₄ ⁹输入到第三卷积模块得到输出out₄ ¹⁰，其中第三卷积模块的主分支依次由第一卷积层，第一归一化层，第一激活层，第二卷积层，第二归一化层组成，其中第一卷积层、第二卷积层卷积核大小为3，步长为1，第一个交融模块的捷径分支无其他操作，只是单纯的输入数据的流动，最后的操作是主分支与捷径分支进行Add操作，得到最后输出；将上述输出out₄ ¹⁰输入到卷积核大小为1，步长为1，卷积核个数为64的第四卷积模块得到最终的输出out₄ ¹¹。然后将上述输出out₄ ¹¹经过2倍双线性插值上采样得到输出out₄，此时输出端输出64副特征图，特征图的大小变为原来的2倍，每幅特征图的宽度为

高度为

对于第三个解码融合模块MF3，将上述第四个解码融合模块MF4的输出out₄输入到第一卷积模块得到输出out₃ ¹，其中第一卷积模块依次由卷积核大小为3，步长为1，填充系数为1，卷积核个数为64的卷积层，归一化层和激活层组成；将上述第三个融合模块FM3的输出f₃输入到第一注意力模块得到输出out₃ ²，其中第一注意力模块依次由全局最大池化层，第一个全连接层，第一个激活函数，第二个全连接层，第二个激活函数，第三个全连接层，Sigmoid函数和卷积核大小为1，步长为1的卷积组成；将高级信息模块HL的输出f^high经过2倍双线性插值上采样得到输出f^high3，此时输出端输出64副特征图，特征图的大小变为原来的2倍，每幅特征图的宽度为

高度为

将f^high3输入到第二注意力模块得到输出out₃ ³，其中第二注意力模块与第一注意力模块完全相同；将上述out₃ ¹和out₃ ²进行点乘操作，得到输出out₃ ⁴；将上述out₃ ¹和out₃ ³进行点乘操作，得到输出out₃ ⁵；将out₃ ¹，out₃ ⁴，out₃ ⁵分别输入到卷积核大小为1，步长为1，卷积核个数为64的第二卷积模块，分别得到输出out₃ ⁶，out₃ ⁷，out₃ ⁸；将上述out₃ ⁶，out₃ ⁷，out₃ ⁸进行求和操作，得到输出out₃ ⁹；将上述输出out₃ ⁹输入到第三卷积模块得到输出out₃ ¹⁰，其中第三卷积模块的主分支依次由第一卷积层，第一归一化层，第一激活层，第二卷积层，第二归一化层组成，其中第一卷积层、第二卷积层卷积核大小为3，步长为1，第一个交融模块的捷径分支无其他操作，只是单纯的输入数据的流动，最后的操作是主分支与捷径分支进行Add操作，得到最后输出；将上述输出out₃ ¹⁰输入到卷积核大小为1，步长为1，卷积核个数为64的第四卷积模块得到最终的输出out₃ ¹¹。然后将上述输出out₃ ¹¹经过2倍双线性插值上采样得到输出out₃，此时输出端输出64副特征图，特征图的大小变为原来的2倍，每幅特征图的宽度为

高度为

对于第二个解码融合模块MF2，将上述第三个解码融合模块MF3的输出out₃输入到第一卷积模块得到输出out₂ ¹，其中第一卷积模块依次由卷积核大小为3，步长为1，填充系数为1，卷积核个数为64的卷积层，归一化层和激活层组成；将上述第三个融合模块FM2的输出f₂输入到第一注意力模块得到输出out₂ ²，其中第一注意力模块依次由全局最大池化层，第一个全连接层，第一个激活函数，第二个全连接层，第二个激活函数，第三个全连接层，Sigmoid函数和卷积核大小为1，步长为1的卷积组成；将高级信息模块HL的输出f^high经过4倍双线性插值上采样得到输出f^high2，此时输出端输出64副特征图，特征图的大小变为原来的4倍，每幅特征图的宽度为

高度为

将f^high2输入到第二注意力模块得到输出out₂ ³，其中第二注意力模块与第一注意力模块完全相同；将上述out₂ ¹和out₂ ²进行点乘操作，得到输出out₂ ⁴；将上述out₂ ¹和out₂ ³进行点乘操作，得到输出out₂ ⁵；将out₂ ¹，out₂ ⁴，out₂ ⁵分别输入到卷积核大小为1，步长为1，卷积核个数为64的第二卷积模块，分别得到输出out₂ ⁶，out₂ ⁷，out₂ ⁸；将上述out₂ ⁶，out₂ ⁷，out₂ ⁸进行求和操作，得到输出out₂ ⁹；将上述输出out₂ ⁹输入到第三卷积模块得到输出out₂ ¹⁰，其中第三卷积模块的主分支依次由第一卷积层，第一归一化层，第一激活层，第二卷积层，第二归一化层组成，其中第一卷积层、第二卷积层卷积核大小为3，步长为1，第一个交融模块的捷径分支无其他操作，只是单纯的输入数据的流动，最后的操作是主分支与捷径分支进行Add操作，得到最后输出；将上述输出out₂ ¹⁰输入到卷积核大小为1，步长为1，卷积核个数为64的第四卷积模块得到最终的输出out₂ ¹¹。然后将上述输出out₂ ¹¹经过2倍双线性插值上采样得到输出out₂，此时输出端输出64副特征图，特征图的大小变为原来的2倍，每幅特征图的宽度为

高度为

对于第一个解码融合模块MF1，将上述第二个解码融合模块MF2的输出out₂输入到第一卷积模块得到输出out₁ ¹，其中第一卷积模块依次由卷积核大小为3，步长为1，填充系数为1，卷积核个数为64的卷积层，归一化层和激活层组成；将上述第三个融合模块FM1的输出f₁输入到第一注意力模块得到输出out₁ ²，其中第一注意力模块依次由全局最大池化层，第一个全连接层，第一个激活函数，第二个全连接层，第二个激活函数，第三个全连接层，Sigmoid函数和卷积核大小为1，步长为1的卷积组成；将高级信息模块HL的输出f^high经过8倍双线性插值上采样得到输出f^high1，此时输出端输出64副特征图，特征图的大小变为原来的8倍，每幅特征图的宽度为

高度为

将f^high1输入到第二注意力模块得到输出out₁ ³，其中第二注意力模块与第一注意力模块完全相同；将上述out₁ ¹和out₁ ²进行点乘操作，得到输出out₁ ⁴；将上述out₁ ¹和out₁ ³进行点乘操作，得到输出out₁ ⁵；将out₁ ¹，out₁ ⁴，out₁ ⁵分别输入到卷积核大小为1，步长为1，卷积核个数为64的第二卷积模块，分别得到输出out₁ ⁶，out₁ ⁷，out₁ ⁸；将上述out₁ ⁶，out₁ ⁷，out₁ ⁸进行求和操作，得到输出out₁ ⁹；将上述输出out₁ ⁹输入到第三卷积模块得到输出out₁ ¹⁰，其中第三卷积模块的主分支依次由第一卷积层，第一归一化层，第一激活层，第二卷积层，第二归一化层组成，其中第一卷积层、第二卷积层卷积核大小为3，步长为1，第一个交融模块的捷径分支无其他操作，只是单纯的输入数据的流动，最后的操作是主分支与捷径分支进行Add操作，得到最后输出；将上述输出out₁ ¹⁰输入到卷积核大小为1，步长为1，卷积核个数为64的第四卷积模块得到输出out₁ ¹¹。然后将上述输出out₁ ¹¹经过2倍双线性插值上采样得到输出out₁，此时输出端输出64副特征图，特征图的大小变为原来的2倍，每幅特征图的宽度为W、高度为H。

将第一个解码融合模块MF1的输出out₁输入到卷积核大小为1，步长为1，卷积核个数为9的第一卷积模块得到输出Sem₂ ¹；将网络的输入e输入到卷积核大小为1，步长为1，卷积核个数为9的第二卷积模块得到输出e₂ ¹；将Sem₂ ¹和e₂ ¹进行点乘操作，得到输出Sem₂ ²；将Sem₂ ¹和Sem₂ ²进行求和操作，得到最终的输出Sem₂。

步骤1_3：将训练集中的每幅原始的RGB彩色图像和Thermal热红外图像通过裁剪，明亮度方式进行数据增强之后作为初始输入图像，批次大小为4。输入到卷积神经网络中进行训练，得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图Sem₂，其集合记为J_pre1；此外，为了辅助训练，将网络的输出的对应原始大小的9幅高级语义预测图Sem₁，对应原始大小的9幅边界预测图B₁，对应原始大小的9幅边界预测图B₂，对应原始大小的9幅边界预测图B₃，将其构成的集合依次记为J_pre2，J_pre3，J_pre4，J_pre5。

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值，将J_prei与J_true之间的损失函数值记为Lossi(J_prei，J_true)，其中i＝1,2,3,4,5。Lossi(J_prei，J_true)采用交叉熵(CrossEntropyLoss)获得，最后对这五个预测图集合的损失函数值之和作为最终损失值。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，直到神经网络收敛达到饱和，即训练损失值波动很难下降，验证损失也几乎降至最小，此时得到卷积神经网络分类训练模型，接着将此时得到的网络权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项；在本实施例中，选取V＝300。

测试阶段过程的具体步骤为：

步骤2_1：取393幅原始的RGB彩色图像和Thermal热红外图像以及相应的边界数据集图像，真实语义分割图像，真实的边界图像作为测试集。令

表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值。

步骤2_2：将

的R通道分量、G通道分量和B通道分量及其对应的热红外图像输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行了实验。

使用基于Python的深度学习库Pytorch搭建卷积神经网络架构。采用道路场景图像数据库MFNET RGB-T Dataset的测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果。利用评估语义分割方法的4个常用客观参量作为评价指标，即类别精确度(Class Acurracy，Acc)、平均类别准确率(Mean Class Acurracy，mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersection over Union，IoU)，分割图像与标签图像交集与并集的平均比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对道路场景图像数据库MFNET RGB-T Dataset的测试集中的每幅道路场景图像进行预测，得到每幅道路场景图像对应的预测语义分割图像，反映本发明方法语义分割效果的类别精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1所列。

表1

从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。

本发明实施例2提供一种基于边界引导的道路场景语义分割系统，包括数据采集模块、神经网络构建模块、损失函数计算模块、预测模块；其中，

数据采集模块，用于采集数据样本，数据样本分为训练集与测试集；

神经网络构建模块，用于构建卷积神经网络模型，并将训练集输入到卷积神经网络中进行训练，得到对应的语义分割预测图；

损失函数计算模块，用于计算语义分割预测图构成的集合与真实语义分割图像处理成的独热编码图像集合之间的损失函数，得到卷积神经网络分类训练模型的最优权值矢量和偏置项；

预测模块，用于将测试集输入到卷积神经网络分类训练模型中，得到预测语义分割图像。

数据样本包括原始道路场景RGB图像和Thermal热红外图像、对数据样本通过sobel算法进行数据预处理，得到预处理后的边界图像。

最后，还提供一种计算机存储介质，计算机存储介质上存储有计算机程序，计算机程序被处理器执行时实现基于边界引导的道路场景语义分割方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于边界引导的道路场景语义分割方法，其特征在于，具体步骤包括如下：

构建卷积神经网络；

2.根据权利要求1所述的一种基于边界引导的道路场景语义分割方法，其特征在于，所述卷积神经网络包括10个编码模块、5个融合模块、1个高级语义模块、1个高级信息模块、4个解码融合模块；所述卷积神经网络中分为两支结构相同的编码流，RGB编码流包含5个编码模块，分别为依次连接的第一个编码模块、第二个编码模块、第三个编码模块、第四个编码模块、第五个编码模块、Thermal编码流包含5个编码模块，分别为依次连接的第六个编码模块、第七个编码模块、第八个编码模块、第九个编码模块、第十个编码模块；融合模块与编码模块相连，高级语义模块分别与第五个融合模块、第四个融合模块相连，高级信息模块与第五个融合模块相连，高级信息模块还与解码融合模块相连。

3.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法，其特征在于，所述融合模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第一交融模块、空洞金字塔模块；第一特征图输入到所述第一卷积模块中得到第三特征图，第二特征图输入到所述第一卷积模块中得到第四特征图，将所述第三特征图和所述第四特征图进行相加操作，得到第五特征图，将所述第五特征图与所述第三特征图进行点乘操作得到第六特征图，将所述第五特征图与所述第四特征图进行点乘操作得到第七特征图，将所述第六特征图与所述第七特征图进行拼接操作得到第八特征图，将所述第八特征图输入到所述第二卷积模块中得到第九特征图，所述第九特征图输入到所述第一交融模块得到第十特征图，所述第十特征图输入到所述空洞金字塔模块得到第十一特征图，所述第十一特征图输入到所述第三卷积模块得到第十二特征图，所述第十二特征图输入到所述第四卷积模块得到第十三特征图。

4.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法，其特征在于，所述高级语义模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块；输入图像经过32倍上采样得到第一特征图A，输入图像A经过16倍上采样得到第二特征图A，将第一特征图A与第二特征图A进行拼接操作得到第三特征图A，将第三特征图A输入到第一卷积模块得到第四特征图A，将第一特征图A、第二特征图A、第四特征图A进行求和操作得到第五特征图A，将第五特征图A输入到第二卷积模块中得到第六特征图A，将第一特征图A与第六特征图A进行点乘操作得到第七特征图A，将第七特征图A输入到第三卷积模块中得到第八特征图A，将网络的输入e输入到第四卷积模块中得到e^out，将第八特征图A与e^out进行点乘操作得到第九特征图A，将第八特征图A与第九特征图A进行求和操作得到输出Sem₁。

5.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法，其特征在于，所述高级信息模块包括7个卷积模块；将特征图分别输入到第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块得到第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B，将第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B进行拼接操作得到第六特征图B，将第六特征图B输入到第六卷积模块得到第七特征图B，将第七特征图B与特征图进行求和得到第八特征图B，将第八特征图B输入到第七卷积模块中得到第九特征图B。

6.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法，其特征在于，所述解码融合模块包括第一注意力模块、第一卷积模块、第二注意力模块、第二卷积模块、第三卷积模块、第四卷积模块；将图像分别输入到第一卷积模块和第二注意力模块，得到第一特征图C1、第一特征图C2，将第二图像输入到第一注意力模块，得到第一特征图C3，第一特征图C1与第一特征图C3进行点乘操作得到第二特征图C，第一特征图C1与第一特征图C2进行点乘操作得到第三特征图C，将第一特征图C1、第二特征图C、第三特征图C分别输入到第二卷积模块后进行求和操作，得到第四特征图C，将第四特征图C输入到第三卷积模块中得到第五特征图C，将第五特征图C输入到第四卷积模块得到第六特征图C并进行上采样操作。

7.根据权利要求1所述的一种基于边界引导的道路场景语义分割方法，其特征在于，将所述原始道路场景RGB图像、Thermal热红外图像分别使用sobel算法进行预处理，得到所述预处理后的边界图像。