CN112991364A

CN112991364A - 基于卷积神经网络跨模态融合的道路场景语义分割方法

Info

Publication number: CN112991364A
Application number: CN202110308057.8A
Authority: CN
Inventors: 周武杰; 刘劲夫; 叶宁; 雷景生; 万健; 钱小鸿; 甘兴利
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-18

Abstract

本发明公开了一种基于卷积神经网络跨模态融合的道路场景语义分割方法，涉及深度学习的技术领域。本发明在训练阶段，构建卷积神经网络，其隐层包括两个初始神经网络块、八个残差神经网络块、两个融合块、三个解码块；使用原始的道路场景图像输入到卷积神经网络中进行训练，得到对应的三组预测图，分别为9幅语义分割预测图、两幅前景背景预测图、两幅边界预原测图；再分别计算这三组预测图构成的集合与对应的语义分割标签图集之间的损失函数值，将三个损失函数值相加得到最终的损失函数，通过训练获得卷积神经网络分类训练模型的最优权值矢量和偏置项。本发明提高了道路场景图像的语义分割效率，并且提升了准确度。

Description

基于卷积神经网络跨模态融合的道路场景语义分割方法

技术领域

本发明涉及深度学习领域，更具体的说是涉及一种基于卷积神经网络跨模态融合的道路场景语义分割方法。

背景技术

智能交通行业的兴起，使得语义分割在智能交通系统中有着越来越多的应用，从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前，最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上，用于检测和识别特定物体，如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现，而使用深度学习来对交通场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的道路场景语义分割方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性，从而会导致得到的图像的特征信息减少，最终导致还原的效果信息比较粗糙，分割精度低。

发明内容

有鉴于此，本发明提供了提供一种基于卷积神经网络的道路场景语义分割方法，其分割效率高，且分割准确度高。

为了实现上述目的，本发明采用如下技术方案：

一种基于卷积神经网络跨模态融合的道路场景语义分割方法，包含以下步骤：

选取多幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，由所述多幅原始的道路场景图像和所述每幅原始的道路场景图像对应的标签图构成训练集；

构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络；

将所述训练集输入到所述卷积神经网络中进行训练，得到所述训练集中的每幅原始的道路场景图对应的预测图；

获取所述预测图的加和损失函数值；

多次对神经网络进行训练得到卷积神经网络分类训练模型。

优选的，所述标签图包括热力图、彩色热力图像、语义分割标签图、前景标签图和边界标签图。

优选的，所述预测图包括语义分割预测图、前景背景预测图和边界预测图。

优选的，所述加和损失函数值的获取如下：

利用Lovász-Softmax损失函数计算分割标签图的损失函数值，利用分类交叉熵计算前景背景标签图的损失函数值和边界标签图的损失函数值，分割标签图的损失函数值，前景背景标签图的损失函数值和边界标签图的损失函数值相加获得加和损失函数值。

优选的，构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络的具体过程如下：

第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接，第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接，第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入，第一融合块的输出记为第一侧边输出，第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入，第二融合块的输出记为第二侧边输出，将第二残差神经网络块和第六残差神经网络块的输出做元素的加和，记为第三侧边输出，将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出，将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出；

将经过第三过渡层的所述第五侧边输出作为第一解码块的输入，所述第一解码块的输出与经过第二过渡层的所述第四侧边输出的元素加和作为第二解码块的输入，所述第二解码块的输出与经过第一过渡层的所述第三侧边输出的元素加和作为第三解码块的输入，将所述第三解码块的输出记为指导特征，将所述指导特征进行二倍双线性插值作为第一输出层的输入；

将经过第一过渡层的所述第三侧边输出进行双线性插值，分辨率变为两倍后与所述第二侧边输出元素相加，将所得加和与所述指导特征进行元素相乘，将所得乘积经过二倍双线性插值，将经过插值后的特征作为第二输出层的输入；

将所述第一侧边输出与经过二倍双线性插值处理过的所述指导特征进行元素相乘，将所得乘积作为第三输出层的输入；

所述第一输入层中输入训练集中的原始的道路场景图像，所述第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图，第二输入层输出原始的道路场景图像对应的热力图像。

优选的，跨模态融合和注意力机制优化通过融合块实现，所述融合块具体连接关系如下：

第一输入端后依次连接最大值选择层和第一卷积层，记输出为A，第二输入端与A进行像素加和，记输出为a，第二输入端与a做像素乘积，记输出为B，A与B做像素加和得到C，C输入第二卷积层得到D，所述第二卷积层后依次连接最大值池化层和第三卷积层，所述第三卷积层的输出与D做像素乘积得到输出。

优选的，恢复分辨率和增强语义信息通过解码块实现，所述解码块的具有连接关系如下：

输入像素经过三个卷积层后与所述输入像素做像素加和并输入到上采样层中，得到输出。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于卷积神经网络跨模态融合的道路场景语义分割方法，具有以下有益效果：

1)发明方法构建了卷积神经网络，采用了彩色图，热力图双流输入的结构，利用了热力图在极端光照条件下对彩色图的补充，增强了提取特征的鲁棒性。同时本发明方法采用优化策略，利用具有丰富语义信息的高级特征来优化指导低级特征。双流的编码结构和优化策略显著提高了语义分割的准确率。

2)本发明方法采用合理设计的融合模块，充分利用了RGB彩色信息与热力信息的优势互补性，不仅充分地融合了跨模态的特征，而且通过注意力机制优化和增强了融合特征。

3)本发明方法设计简单有效的解码块，在恢复分辨率的同时，保留并增强了高级语义信息。

4)本发明方法采用语义分割、前景背景分割、边界分割三种标签同时监督和优化我们所提出的神经网络，进而在训练集与测试集上都能得到较好效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的整体结构示意图；

图2附图为本发明的融合块结构示意图；

图3附图为本发明的解码块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的步骤1_1具体为：

选取Q幅最初的道路场景图像以及每幅原始的道路场景图像对应的真实语义分割图像，其中第q幅最初的道路场景图像记为

将第q幅原始的道路场景图像对应的真实语义分割图像记为

最初的道路场景图像对应的热力图通过HHA编码方式处理成三通道记为

将第q幅原始的道路场景图像对应的真实语义分割图像

处理成9幅类标签图像，将真实语义分割图像处理成的9幅类标签图像构成的集合作为语义分割标签图记为

将

中非背景类别设置为1，背景类别设置为0，以此生成区分前景背景的两幅前景标签图，记为

在

上使用5×5大小的滑动窗口，对区域类别进行判断，如果滑动窗口区域内语义类别不同，则判断窗口中心位置为边界，标签设为1，否则为非边界，标签设为0，以此方法得到两幅边界标签图，记为

重复以上三个操作Q次，由Q幅原始的道路场景图像、相对应的热力图、语义分割标签、前景标签、边界标签构成训练集；其中，如取Q＝784，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示原始的道路场景图象的宽度，H表示原始的道路场景图象的高度，其中取值W＝480、H＝640，i、j分别表示坐标位置为(i,j)的像素点的横纵坐标，

表示第q幅原始的道路场景图像中坐标位置为(i,j)的像素点的像素值，

表示第q幅热力图中坐标位置为(i,j)的像素点的像素值，

表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值，

表示真实前景背景图像中坐标位置为(i,j)的像素点的像素值，

表示真实边界图像中坐标位置为(i,j)的像素点的像素值。具体实施中，原始的道路场景图像直接选用道路场景图像数据InfRecR500训练集中的784幅图像。

步骤1_2：构建卷积神经网络：

卷积神经网络包括两个输入层、隐层和三个输出层；隐层包括第一初始神经网络块、第二初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块、第四残差神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块、第八残差神经网络块、第一融合块、第二融合块、第一过渡块、第二过渡块、第三过渡块、第一解码块、第二解码块、第三解码块；第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接，第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接，第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入，第一融合块的输出记为第一侧边输出，第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入，第二融合块的输出记为第二侧边输出，将第二残差神经网络块和第六残差神经网络块的输出做元素的加和，记为第三侧边输出，将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出，将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出；

所述第一输入层中输入训练集中的原始的道路场景图像，所述第一输出层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图。

第一输入层中输入训练集中的原始的道路场景图像，第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图，第二输入层输出原始的道路场景图像对应的热力图像。其中要求输入层的输入端接收的原始的道路场景图像的宽度为W、高度为H。

对于隐层，第一初始神经网络块主要由第一卷积层(Convolution，Conv)和第一激活层(Activation，Act)相连接构成；第一初始神经网络块的输入端接收R通道、G通道、B通道三个通道分量，第一初始神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为I₁。其中，第一卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数为3，第一激活层激活方式均为“Relu”，I₁中的每幅特征图的宽度为

高度为

对于第一残差神经网络块，其主要由第一最大池化层(Maxpooling，Pool)、ResNet50第一残差层相连接组成；第一残差神经网络块的输入端接收I₁中的所有特征图，第一残差神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为R₁；其中，第一最大池化层的池化尺寸(pool_size)为2，经过第一最大池化层，输出64幅特征图，将这64幅特征图的集合记为P₁；ResNet50第一残差层结构与已经公开的常用神经网络架构ResNet50中的层1(Layer1)结构相同，其输入为P₁中所有特征图，ResNet50第一残差层输出端输出256幅特征图，它们的集合即为R₁；R₁中每幅特征图的宽度为

高度为

对于第二残差神经网络块，其主要由ResNet50第二残差层组成；第二残差神经网络块的输入端接收R₁中的所有特征图，第二残差神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为R₂；其中，ResNet50第二残差层结构与已经公开的常用神经网络架构ResNet50中的层2(Layer2)结构相同，其输入为R₁中所有特征图，ResNet50第二残差层输出端输出512幅特征图，它们的集合即为R₂。R₂中的每幅特征图的宽度为

高度为

对于第三残差神经网络块，其主要由ResNet50第三残差层组成；第三残差神经网络块的输入端接收R₂中的所有特征图，第三残差神经网络块的输出端输出1024幅特征图，将1024幅特征图构成的集合记为R₃；其中，ResNet50第三残差层结构与已经公开的常用神经网络架构ResNet50中的层3(Layer3)结构相同，其输入为R₂中所有特征图，ResNet50第三残差层输出端输出1024幅特征图，它们的集合即为R₃。R₃中的每幅特征图的宽度为

高度为

对于第四残差神经网络块，其主要由ResNet50第四残差层组成；第四残差神经网络块的输入端接收R₃中的所有特征图，第四残差神经网络块的输出端输出2048幅特征图，将2048幅特征图构成的集合记为R₄；其中，ResNet50第四残差层结构与已经公开的常用神经网络架构ResNet50中的层4(Layer4)结构相同，其输入为R₃中所有特征图，ResNet50第四残差层输出端输出2048幅特征图，它们的集合即为R₄。R₄中的每幅特征图的宽度为

高度为

对于第二初始神经网络块，其主要由第二卷积层(Convolution，Conv)和第二激活层(Activation，Act)相连接构成；第二初始神经网络块的输入端接收三通道热力图(Thermal)，第二初始神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为I₂。其中，第二卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数为3，第二激活层激活方式均为“Relu”，I₂中的每幅特征图的宽度为

高度为

对于第五残差神经网络块，其主要由第二最大池化层(Maxpooling，Pool)、ResNet50第一残差层相连接组成；第五残差神经网络块的输入端接收I₂中的所有特征图，第五残差神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为T₁；其中，第二最大池化层的池化尺寸(pool_size)为2，经过第二最大池化层，输出64幅特征图，将这64幅特征图的集合记为P₂；ResNet50第一残差层结构与已经公开的常用神经网络架构ResNet50中的层1(Layer1)结构相同，其输入为P₂中所有特征图，ResNet50第一残差层输出端输出256幅特征图，它们的集合即为T₁；T₁中每幅特征图的宽度为

高度为

对于第六残差神经网络块，其主要由ResNet50第二残差层组成；第六残差神经网络块的输入端接收T₁中的所有特征图，第六残差神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为T₂；其中，ResNet50第二残差层结构与已经公开的常用神经网络架构ResNet50中的层2(Layer2)结构相同，其输入为T₁中所有特征图，ResNet50第二残差层输出端输出512幅特征图，它们的集合即为T₂。T₂中的每幅特征图的宽度为

高度为

对于第七残差神经网络块，其主要由ResNet50第三残差层组成；第七残差神经网络块的输入端接收T₂中的所有特征图，第七残差神经网络块的输出端输出1024幅特征图，将1024幅特征图构成的集合记为T₃；其中，ResNet50第三残差层结构与已经公开的常用神经网络架构ResNet50中的层3(Layer3)结构相同，其输入为T₂中所有特征图，ResNet50第三残差层输出端输出1024幅特征图，它们的集合即为T₃。T₃中的每幅特征图的宽度为

高度为

对于第八残差神经网络块，其主要由ResNet50第四残差层组成；第八残差神经网络块的输入端接收T₃中的所有特征图，第四残差神经网络块的输出端输出2048幅特征图，将2048幅特征图构成的集合记为T₄；其中，ResNet50第四残差层结构与已经公开的常用神经网络架构ResNet50中的层4(Layer4)结构相同，其输入为T₃中所有特征图，ResNet50第四残差层输出端输出2048幅特征图，它们的集合即为T₄。T₄中的每幅特征图的宽度为

高度为

对于第一融合块，其由第一最大值选择层、第三卷积层、第四卷积层、第一自适应最大池化层、第五卷积层按照图2所示结构连接起来组成。第一融合块的输入分别为第一初始神经网络块的输出I₁、第二初始神经网络块的输出I₂、第一融合块输出64幅特征图，记为第一侧边输出S₁。其中，第一最大值选择层，对于每个位置沿通道方向选择像素最大值，生成单通道映射图M₁。第一自适应最大池化层参数为1，输出为64幅特征图，宽度为1，高度为1；第三卷积层卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为1、补零(padding)参数为3；第四卷积层、第五卷积层卷积核大小(kernel_size)均为为1×1、卷积核个数(filters)均为64、步长均(stride)为1、补零(padding)参数均为0；具体地说，先将第二初始神经网络块的输出I₂中的每幅特征图输入到第一最大选择层，输出1幅映射图M₁，将M₁输入第三卷积层，输出64幅特征图，记为A₁。将I₁与A₁中每幅特征图相加，再经过Sigmoid激活函数，得到64幅特征图，记为a₁。将I₁中的每幅特征图与a₁中每幅特征图进行元素相乘得到64幅特征图，记为B₁。将A₁、B₁中每幅特征图相加得到64幅特征图，记为C₁。将C₁中每幅特征图输入第四卷积层，输出64幅特征图，记为D₁。将D₁中的每幅特征图依次通过第一自适应最大池化层、第五卷积层、Sigmoid激活函数，得到64个通道权重，将它们的集合记为W_c1。将D₁中的64幅特征图分别与64个对应通道权重相乘，得到通道加权的64幅特征图，记为S₁。S₁中的每幅特征图的宽度为

高度为

对于第二融合块，其结构与第一融合块相似。由第二最大值选择层、第六卷积层、第七卷积层、第二自适应最大池化层、第八卷积层按照图2所示结构连接起来组成。第二融合块的输入分别为第一残差神经网络块的输出R₁、第五残差神经网络块的输出T₁、第二融合块输出64幅特征图，记为第二侧边输出S₂。其中，第二最大值选择层，对于每个位置沿通道方向选择像素最大值，生成单通道映射图M₂。第二自适应最大池化层参数为1，输出为64幅特征图，宽度为1，高度为1；第六卷积层卷积核大小(kernel_size)为7×7、卷积核个数(filters)为256、步长(stride)为1、补零(padding)参数为3；第七卷积层、第八卷积层卷积核大小(kernel_size)均为为1×1、卷积核个数(filters)均为64、步长均(stride)为1、补零(padding)参数均为0；具体地说，先将第五残差神经网络块的输出T₁中的每幅特征图输入到第二最大选择层，输出1幅映射图M₂，将M₂输入第六卷积层，输出64幅特征图，记为A₂。将R₁与A₂中每幅特征图相加，再经过Sigmoid激活函数，得到64幅特征图，记为a₂。将R₁中的每幅特征图与a₂中每幅特征图进行元素相乘得到64幅特征图，记为B₂。将A₂、B₂中每幅特征图相加得到64幅特征图，记为C₂。将C₂中每幅特征图输入第七卷积层，输出64幅特征图，记为D₂。将D₂中的每幅特征图依次通过第二自适应最大池化层、第八卷积层、Sigmoid激活函数，得到64个通道权重，将它们的集合记为W_c2。将D₂中的64幅特征图分别与64个对应通道权重相乘，得到通道加权的64幅特征图，记为S₂。S₂中的每幅特征图的宽度为

高度为

对于第一过渡块，其由第九卷积层组成。第一过渡块接收第二残差神经网络块与第六残差神经网络块的输出元素的加和，输出为64幅特征图，将它们的集合记为第三侧边输出S₃。第九卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”。S₃中每幅特征图的宽度为

高度为

对于第二过渡块，其由第十卷积层组成。第二过渡块接收第三残差神经网络块与第七残差神经网络块的输出元素的加和，输出为64幅特征图，将它们的集合记为第四侧边输出S₄。第十卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”。S₄中每幅特征图的宽度为

高度为

对于第三过渡块，其由第十一卷积层组成。第三过渡块接收第四残差神经网络块与第八残差神经网络块的输出元素的加和，输出为64幅特征图，将它们的集合记为第五侧边输出S₅。第十一卷积层的卷积核大小为1×1、卷积核个数为64、步长为1，补零参数为“same”。S₅中每幅特征图的宽度为

高度为

对于第一解码块，如图3所示，其主要由第十二卷积层、第三激活层、第十三卷积层、第四激活层、第十四卷积层、第五激活层依次连接组成，其输入端接收第五侧边输出S₅中的每幅特征图，其输出端输出64幅特征图，记为D₁。其中第十二卷积层、第十三卷积层、第十四卷积层的结构相同，它们的卷积核大小均为3×3，卷积核个数均为64、步长均为1，补零参数均为“same”；第三激活层、第四激活层、第五激活层的激活方式均为“Relu”。第一解码块的输入与解码块中第十四卷积层的输出做元素的加和，将加和通过双线性插值扩大分辨率至二倍，所得64幅特征图的集合作为第一解码块的输出D₁。D₁中每幅特征图的宽度为

高度为

对于第二解码块，如图3所示其主要由第十五卷积层、第六激活层、第十六卷积层、第七激活层、第十七卷积层、第八激活层依次连接组成，其输入端接收第四侧边输出S₄中的每幅特征图与第一解码块输出D₁中每幅特征图的元素加和，其输出端输出64幅特征图，记为D₂。其中第十五卷积层、第十六卷积层、第十七卷积层的结构相同，它们的卷积核大小均为3×3，卷积核个数均为64、步长均为1，补零参数均为“same”；第六激活层、第七激活层、第八激活层的激活方式均为“Relu”。第二解码块的输入与解码块中第十七卷积层的输出做元素的加和，将加和通过双线性插值扩大分辨率至二倍，所得64幅特征图的集合作为第二解码块的输出D₂。D₂中每幅特征图的宽度为

高度为

对于第三解码块，如图3所示，其主要由第十八卷积层、第九激活层、第十九卷积层、第十激活层、第二十卷积层、第十一激活层依次连接组成，其输入端接收第三侧边输出S₃中的每幅特征图，其输出端输出64幅特征图，记为D₃。其中第十八卷积层、第十九卷积层、第二十卷积层的结构相同，它们的卷积核大小均为3×3，卷积核个数均为64、步长均为1，补零参数均为“same”；第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。第三解码块的输入与解码块中第二十卷积层的输出做元素的加和，将加和通过双线性插值扩大分辨率至二倍，所得64幅特征图的集合作为第三解码块的输出D₃。D₃中每幅特征图的宽度为

高度为

将D₃中的每幅特征图经过双线性插值，分辨率扩大为原来的二倍，将放大后的64幅特征图的集合记为X₁，X₁中每幅特征图的宽度为

高度为

对于第一输出层，输入端接收X₁中的每幅特征图，经过输出层的处理，输出9幅与原始输入图像对应的语义分割预测图。第一输出层由第二十一卷积层和一个二倍上采样层组成。其中，第二十一卷积层输出层的卷积核大小为1×1、卷积核个数为9、步长为1，补零参数为“same”；二倍上采样层采用双线性插值方法输出与原始图相同尺寸特征图。

将第三侧边输出S₃，经过过双线性插值，分辨率扩大为原来的二倍，将放大后的64幅特征图的集合记为S_3up，S_3up中每幅特征图的宽度为

高度为

将S_3up中的每幅特征图与第二侧边输出S₂中的每幅特征图元素相加，得到64幅特征图，它们的集合记为J，将J中的每幅特征图与第三解码块的输出D₃中的每幅特征图元素相乘，得到64幅特征图，它们的集合记为J_m，将J_m中每幅特征图经过过双线性插值，分辨率扩大为原来的二倍，放大后的64幅特征图的集合记为X₂，X₂中每幅特征图的宽度为

高度为

对于第二输出层，输入端接收X₂中的每幅特征图，经过输出层的处理，输出2幅与原始输入图像对应的前景背景预测图。第二输出层由第二十二卷积层和一个二倍上采样层组成。其中，第二十二卷积层输出层的卷积核大小为1×1、卷积核个数为2、步长为1，补零参数为“same”；二倍上采样层采用双线性插值方法输出与原始图相同尺寸特征图。

将第三解码块的输出D₃中的每幅特征图经过双线性插值，分辨率扩大为原来的二倍，将放大后的64幅特征图的集合记为D_3up，D_3up中每幅特征图的宽度为

高度为

将第一侧边输出S₂中的每幅特征图与D_3up中的每幅特征图做元素相乘，得到64幅特征图，将它们的集合记为X₃，X₃中每幅特征图的宽度为

高度为

对于第三输出层，输入端接收X₃中的每幅特征图，经过输出层的处理，输出2幅与原始输入图像对应的边界预测图。第三输出层由第二十三卷积层和一个二倍上采样层组成。其中，第二十三卷积层输出层的卷积核大小为1×1、卷积核个数为2、步长为1，补零参数为“same”；二倍上采样层采用双线性插值方法输出与原始图相同尺寸特征图。

步骤1_3：将训练集中原始的道路场景图像和对应的热力图输入到卷积神经网络的输入层中进行训练：由第一输出层得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图，将与原始的道路场景图像对应的9幅语义分割预测图构成的语义分割预测图集合记为

由第二输出层得到训练集中的每幅原始的道路场景图像对应的2幅前景背景预测图，将与原始的道路场景图像对应的2幅前景背景预测图构成的前景背景预测图集合记为

由第三输出层得到训练集中的每幅原始的道路场景图像对应的2幅边界预测图，将与原始的道路场景图像对应的2幅边界预测图构成的边界预测图集合记为

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合

与对应的语义分割标签图集

之间的损失函数值，将

与

之间的损失函数值记为

采用Lovász-Softmax损失函数获得；计算训练集中的每幅原始的道路场景图像对应的2幅前景背景预测图构成的集合

与对应的语义分割标签图集

之间的损失函数值，将

与

之间的损失函数值记为

采用分类交叉熵(categoricalcrossentropy)获得。计算训练集中的每幅原始的道路场景图像对应的2幅边界预测图构成的集合

与对应的语义分割标签图集

之间的损失函数值，将

与

之间的损失函数值记为

采用分类交叉熵(categorical crossentropy)获得；将第q幅图在训练中获得的损失函数记为Loss^q，

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝500。

所述的测试阶段过程的具体步骤为：

步骤2_1：待语义分割的道路场景图像记为

其中，1≤i'≤W'，1≤j'≤H'，W'表示待语义分割的道路场景图像的宽度，H'表示待语义分割的道路场景图像的高度，i'、j'分别表示坐标位置为(i',j')的像素点的横纵坐标，

表示待语义分割的道路场景图像中坐标位置为(i',j')的像素点的像素值；将待语义分割的道路场景图像对应的待语义分割热力图记为

表示待语义分割热力图中坐标位置为(i',j')的像素点的像素值；

步骤2_2：将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第二输入层中，并利用最优权值矢量和最优偏置项进行预测，通过第一输出层得到待语义分割的道路场景图像对应的语义分割预测图像，记为

其中，

表示语义分割预测图像中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库InfRec500测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法使用的是Ha Qishen等人在MFNet中发布的公共数据集。由InfReCR500相机拍摄的图像分辨率为480×640，可以同时提供RGB和热成像，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，包含以下步骤：

获取所述预测图的加和损失函数值；

多次对神经网络进行训练得到卷积神经网络分类训练模型。

2.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，所述标签图包括热力图、彩色热力图像、语义分割标签图、前景标签图和边界标签图。

3.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，所述预测图包括语义分割预测图、前景背景预测图和边界预测图。

4.根据权利要求3所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，所述加和损失函数值的获取如下：

5.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络具体过程如下：

所述第一输入层中输入训练集中的原始的道路场景图像，所述第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图，所述第二输入层输出原始的道路场景图像对应的热力图像。

6.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，跨模态融合和注意力机制优化通过融合块实现，所述融合块具体连接关系如下：

7.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其特征在于，恢复分辨率和增强语义信息通过解码块实现，所述解码块的具有连接关系如下：