CN114693924A

CN114693924A - 一种基于多模型融合的道路场景语义分割方法

Info

Publication number: CN114693924A
Application number: CN202210246612.3A
Authority: CN
Inventors: 周宇宁; 赵万忠; 王春燕; 刘津强; 张自宇; 董坤; 楚明龙; 杨睿涵; 张文彬
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-07-01

Abstract

本发明公开了一种基于多模型融合的道路场景语义分割方法，步骤如下：搭建多分类模型及二分类模型；分别对所述多分类模型及二分类模型进行端到端训练，得到使损失函数最小的最优权重值；使用最优权重值对道路场景图像进行多分类预测及二分类预测，形成初步分割结果图；对二分类预测形成的初步分割结果图进行图像后处理；将多分类预测形成的初步分割结果图及图像处理后的分割结果图进行融合。本发明的多分类模型在原有的HRNet基础上在特征融合的部分添加了视觉注意力，使得有效的特征图获得更大的融合权重，无效或效果差的特征图获得更小的融合权重，提高了多分类模型的像素的表征能力，得到更好的分割结果。

Description

一种基于多模型融合的道路场景语义分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多模型融合的道路场景语义分割方法。

背景技术

语义分割是计算机视觉技术领域的一项重要任务，在语义分割任务中我们需要将输入图像输入分类为不同的语义可解释类别。

传统的语义分割通常采用SVM分类、结构化随机森林等方法。这些算法通常存在识别效率低下、准确率低以及鲁棒性较差等缺点。

随着深度学习越来越广泛的应用，基于卷积神经网络的端到端(end-to-end)训练的语义分割方法愈加普遍。使用深度学习方法对图像进行语义分割更加简便、快速，逐渐成为语义分割的主流方法。最初的深度学习方法应用于图像分割就是基于图像块的分类算法。但是这种算法中，全连接层(FC layer)限制了输入图像的大小。全卷积网络使得对任意大小的输入图像进行语义分割成为可能，现在被广泛采用并不断完善。

自动驾驶是语义分割的一项重要的应用领域。通过对图片进行像素级的分类，使计算机可以理解一张图片上的语义信息，如将图片中的路面、车辆、非机动车和行人相对应的像素进行区分，并归类为相应的标签类别。这些语义信息可以迁移到其他任务的算法中，如车道线检测，交通目标检测等，进行进一步的信息提取。

在自动驾驶场景下的语义分割任务的众多识别类别中，路面(road)是一个重要的类别。通过对路面部分的分割，计算机可以提取车辆可行使的区域，从而对车辆的行驶轨迹做出进一步规划。所以，在语义分割任务中，对路面这一类别的分类精度有着更高的要求。现有的道路场景语义分割方法大多对路面这一类别的分割效果不够精细，路面分割结果的联通性较差，并且对于非直线的路面分割效果表现不佳。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于多模型融合的道路场景语义分割方法，以解决现有技术中道路类别分割精度不足，分割结果连通性较差的问题。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于多模型融合的道路场景语义分割方法，步骤如下：

1)搭建多分类模型及二分类模型；

2)分别对所述多分类模型及二分类模型进行端到端训练，分别得到使损失函数最小的最优权重值；

3)使用最优权重值对道路场景图像进行多分类预测及二分类预测，形成初步分割结果图；

4)对步骤3)中二分类预测形成的初步分割结果图进行图像后处理；

5)将步骤3)中多分类预测形成的初步分割结果图及步骤4)中处理后的分割结果图进行融合。

进一步地，所述步骤1)具体包括：

11)基于改进的高分辨率网络搭建多分类模型；引入视觉注意力，多分类模型输出像素级别的标签图像，预测出像素的所属类别；

12)基于DeepLabV3+的编解码结构搭建二分类模型；所述二分类模型输出对道路类别的预测结果。

进一步地，所述步骤11)具体包括：

所述基于改进的高分辨率网络搭建的多分类模型：对原始的高分辨率网络的第2、3、4个子网络的最后一个特征融合单元进行去除；在每个特征融合单元引入视觉注意力；

所述原始的高分辨率网络中，包括4个并行的子网络，从左至右每个子网络中的特征图尺寸依次为上一个子网络的1/2，特征图的通道数为上一个子网络的2倍；每个子网络分别包含重复的多分辨率单元和特征融合单元；在每个多分辨率单元之前，有一个特征融合单元；所述多分辨率单元包括重复的4个卷积单元；所述特征融合单元包括上采样/下采样层和加法融合层；所述上采样/下采样层的输入端与上一层中每个子网络的多分辨率单元的输出端相连接，对输入的特征图进行相应尺度的上采样或下采样；

所述基于改进的高分辨率网络中各个子网络的最后一个特征融合单元增加转置卷积单元，引入视觉注意力，以提高多分类模型的检测精度和检测速度；对第2、3、4个子网络的最后一个特征融合单元进行去除，将第1个子网络的最后输出与转置卷积单元相连接，将特征图的通道数转换为对应语义分割类别数，并将特征图尺寸还原为与原始输入图片一致的尺寸；所述转置卷积单元包括卷积核大小为1×1，步长为1的转置卷积层和双线性插值上采样层；

在特征融合单元的输入端与上采样/下采样层之间，加入了视觉注意力，用于调整模型权重将视觉特征强化，将其他不重要的特征弱化，以提高模型的特征提取能力；所述视觉注意力具体为对特征融合单元所输入的尺寸为W×H×C特征图输入全局平均池化层，输出的尺寸为1x1xC数据再经过两个全连接层，最后经过Sigmoid函数将数据的值限制到[0，1]的区间范围，把这个值与原有的输入特征图的C个通道的数据相乘，作为下一级上采样/下采样层的输入数据。

进一步地，所述步骤12)具体包括：

基于deeplabv3+编解码结构搭建的二分类模型包括：编码器和解码器，所述编码器包括特征信息提取单元和空洞空间金字塔池化单元；所述空洞空间金字塔池化单元与特征信息提取单元相连接；所述解码器包括跳跃链接单元，提取并融合多尺度特征信息以及浅层特征信息作为二分类模型的输出，所述多尺度特征信息由空洞空间金字塔单元提取，所述浅层信息由特征信息提取单元的浅层部分提取；

所述特征信息提取单元基于轻量级网络ShuffleNetV2，由依次连接的卷积压缩单元、3个Shufflenet单元以及一个转置卷积单元组成；所述卷积压缩单元包括一个卷积核尺寸为3×3，步长为1的卷积层和一个池化核尺寸为3×3，步长为2的池化层，所述池化层对所述卷积层输出的特征信息进行一次下采样；每个Shufflenet单元均进行一次下采样；所述转置卷积单元由卷积核尺寸为1×1，步长为1的卷积层组成；

所述空洞空间金字塔池化单元由空洞比率依次为1、6、12、18的并联的空洞卷积层、一个全局平均池化层、上采样层以及拼接融合层组成，所述上采样层的输入端与全局平均池化层连接，进行双线性插值上采样，得到与所述空洞卷积层输出的特征信息尺寸相同的特征信息；所述拼接融合层的输入端分别与四个空洞卷积层的输出段、上采样层的输出端连接，将空洞卷积层和上采样层输出的特征信息进行拼接融合。

进一步地，所述跳跃链接单元包括：一个浅层转置卷积层、一个深层转置卷积单元以及融合单元；所述浅层转置卷积层的输入端与所述第一个Shufflenet单元的末尾连接，输出端与融合单元连接；所述深层转置卷积单元包括一个卷积核尺寸为1×1，步长为1的卷积层和一个双线性插值采样层，卷积层的输入端与空洞空间金字塔池化单元的末尾连接，双线性插值的输出端与融合单元连接；所述融合单元包括拼接融合层和双线性插值上采样层。

进一步地，所述步骤2)具体包括：

21)建立多分类模型和二分类模型的数据集，并对所述数据集进行数据增强；

22)利用增强后的数据集对搭建的多分类模型和二分类模型进行端到端的训练，获取使损失函数最小时的最优权重值。

进一步地，所述步骤21)具体包括：

采用cityscapes数据集，其中数据集包含34个类别，利用独热编码方法将真实语义分割图像转换为独热编码形式的真实语义分割图像，将原始图像和对应的真实语义分割图像备份作为多分类模型初始数据集，对所述多分类模型初始数据集进行数据增强，包括水平翻转、垂直翻转、放缩，作为多分类模型的数据集；

将上述操作中备份的多分类模型初始数据集中的真实语义分割图像转换为二分类真实语义分割图像，将道路类别设置为前景，将其他类别设置为背景；对转换后的图像数据进行阈值筛选，保留道路类别的像素面积占比大于一定比例的图片，将经过筛选后的真实语义分割图像及其对应原始图像作为二分类模型初始数据集；对所述二分类模型初始数据集进行数据增强，包括水平翻转、垂直翻转、放缩，作为二分类模型的数据集。

进一步地，所述步骤22)具体包括：

将多分类模型数据集中的原始图像输入多分类模型进行图像语义分割预测，得到多分类模型预测图像；将其与多分类模型数据集中的真实语义分割图像进行比较，通过损失函数计算得到预测值与真实值之间的损失值，根据计算得到的损失值，使用反向传播的梯度下降方法并利用Adam优化器迭代更新网络参数，每次迭代时利用余弦退火策略调整学习率，直到网络收敛或达到设定的迭代次数，最终得到使损失值最小的最优网络参数权重值；

其中，所述损失函数采用Softmax函数结合交叉熵损失函数，具体如下：

Softmax函数将K维实数向量压缩成范围[0-1]的新的K维实数向量，函数公式为：

式中，K为数据集类别数，z_c为多分类模型在第c个语义分割类别所在通道的预测值；

z_k为多分类模型在第k个语义分割类别所在通道的预测值，e为常数；

交叉熵损失函数的公式为：

式中，N为一个训练批次中的样本数量，M为语义分割类别的数量，y_i为真实语义分割图像的真实值，

为预测值，即多分类模型的预测值经过上述Softmax函数所得到的结果。

进一步地，所述步骤22)具体还包括：

将二分类模型数据集中的原始图像通过二分类模型的骨干网络ShuffleNetV2、空洞空间金字塔池化单元得到特征图，再经过编码器上采样及跳跃链接后进行语义分割预测，得到二分类模型预测图像；将其与二分类模型数据集中的真实语义分割图像进行比较，通过损失函数计算得到预测值与真实值之间的损失值，根据计算的损失值，使用反向传播的梯度下降方法并利用Adam优化器迭代更新网络参数，每次迭代时利用余弦退火策略调整学习率，直到网络收敛或达到设定的迭代次数，最终得到使损失值最小的最优网络参数权重值；

其中，所述损失函数采用Sigmoid函数结合二分类交叉熵损失函数：

Sigmoid函数将输出映射到[0,1]的区间之内，Sigmoid函数的公式为：

式中，x为二分类模型输出的预测值；

二分类交叉熵损失函数的公式为：

式中，N为一个训练批次中的样本数量，w为超参数，y_n为真实语义分割图像的真实值，x_n为二分类模型的预测值经过上述sigmoid函数得到的数值。

进一步地，所述步骤3)具体包括：

31)将步骤2)中的到的多分类模型最优权重值加载到多分类模型，将待检测的道路场景图像输入到多分类模型，经过神经网络进行语义分割，得到多分类预测图像；利用Argmax函数将所述多分类预测图像转换为单通道的多分类预测图像；

32)将步骤2)中的到的二分类模型最优权重值加载到二分类模型，将待检测的道路场景图像输入到二分类模型，经过神经网络进行语义分割，得到二分类预测图像。

进一步地，所述步骤4)具体包括：

41)利用opencv库中的morphologyEx函数对步骤3)输出的二分类预测图片进行闭运算，连接断裂处；利用opencv库中的medianBlur函数对上述操作处理结果进行中值滤波，去除毛刺；

42)利用opencv库的findContours函数提取出步骤41)输出的轮廓信息；通过设置轮廓的面积和长度阈值筛选孤立像素团，对小于阈值的孤立像素团进行去除；

43)对步骤42)输出的图片中的道路类别的点集进行提取；利用opencv库中的morphologyEx函数对提取的点集进行闭运算；对于上述运算输出结果，利用skeletonize函数提取出道路类别的骨架；利用opencv库中的morphologyEx函数对提取出的骨架膨胀腐蚀运算，保证连通的同时不会过度超出原始的二分类模型预测区域。

进一步地，所述步骤5)具体包括：

将步骤4)中得到的图像后处理的二分类预测结果与步骤3)得到多分类模型预测结果中的对应道路类别的像素进行融合，得到融合预测结果；

融合预测结果计算公式如下：

式中，

为多分类模型的预测结果，

为步骤4)得到的图像后处理的二分类模型的预测结果。

本发明的有益效果：

本发明利用集成学习，将不同模型的预测结果进行融合，相较于其他道路场景的语义分割模型提升了道路类别的识别精度，同时提高了道路分割结果的连通性，具体表现为几个方面：

(1)本发明的多分类模型在原有的HRNet基础上在特征融合的部分添加了视觉注意力(SEAttention)，使得有效的特征图获得更大的融合权重，无效或效果差的特征图获得更小的融合权重，提高了多分类模型的像素的表征能力，得到更好的分割结果。

(2)本发明利用二分类模型去解决道路场景语义分割中道路类别识别精度和识别结果连通性的问题，二分类模型网络基于轻量化的ShffleNetV2搭建，提高了模型的运算速度。

(3)本发明通过多分类模型与二分类模型相结合，将预测结果融合，二分类网络针对道路这一类别进行针对性训练，识别的准确率更高，通过网络集成预测提高了网络模型在道路场景下对路面类别的识别准确性和鲁棒性。

(4)本发明在二分类神经网络预测之后增加了后处理环节，进一步增加了对道路这一类别识别结果的连通性，同时进一步提高了识别的准确率和边缘精度。

附图说明

图1为本发明方法的流程图。

图2为原始高分辨率网络HRNet网络结构图。

图3为本发明改进HRNet网络结构图。

图4为本发明的多分类模型中视觉注意力结构图。

图5为本发明的二分类模型网络结构图。

图6为本发明的图像后处理流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种基于多模型融合的道路场景语义分割方法，步骤如下：

1)搭建多分类模型及二分类模型；具体包括：

11)基于改进的高分辨率网络(HRNet)搭建多分类模型；引入视觉注意力，多分类模型输出像素级别的标签图像，预测出像素的所属类别；

其中，所述步骤11)具体包括：

所述基于改进的高分辨率网络搭建的多分类模型：对原始的高分辨率网络的第2、3、4个子网络的最后一个特征融合单元进行去除；在每个特征融合单元引入视觉注意力(SEAttention)；

如图2所示，所述原始的高分辨率网络中，包括4个并行的子网络，从左至右每个子网络中的特征图尺寸依次为上一个子网络的1/2，特征图的通道数为上一个子网络的2倍；每个子网络分别包含重复的多分辨率单元和特征融合单元；在每个多分辨率单元之前，有一个特征融合单元；所述多分辨率单元包括重复的4个卷积单元；所述特征融合单元包括上采样/下采样层和加法融合层；所述上采样/下采样层的输入端与上一层中每个子网络的多分辨率单元的输出端相连接，对输入的特征图进行相应尺度的上采样或下采样；

所述基于改进的高分辨率网络中各个子网络的最后一个特征融合单元增加转置卷积单元，引入视觉注意力，以提高多分类模型的检测精度和检测速度；如图3所示，对第2、3、4个子网络的最后一个特征融合单元进行去除，将第1个子网络的最后输出与转置卷积单元相连接，将特征图的通道数转换为对应语义分割类别数，并将特征图尺寸还原为与原始输入图片一致的尺寸；所述转置卷积单元包括卷积核大小为1×1，步长为1的转置卷积层和双线性插值上采样层；

如图4所示，在特征融合单元的输入端与上采样/下采样层之间，加入了视觉注意力，用于调整模型权重将视觉特征强化，将其他不重要的特征弱化，以提高模型的特征提取能力；所述视觉注意力具体为对特征融合单元所输入的尺寸为W×H×C特征图输入全局平均池化层(Global Average Pooling Layer)，输出的尺寸为1x1xC数据再经过两个全连接层(FClayer)，最后经过Sigmoid函数将数据的值限制到[0，1]的区间范围，把这个值与原有的输入特征图的C个通道的数据相乘，作为下一级上采样/下采样层的输入数据。

如图5所示，所述步骤12)具体包括：

基于deeplabv3+编解码结构搭建的二分类模型包括：编码器和解码器，所述编码器包括特征信息提取单元和空洞空间金字塔池化单元(ASPP)；所述空洞空间金字塔池化单元与特征信息提取单元相连接；所述解码器包括跳跃链接单元，提取并融合多尺度特征信息以及浅层特征信息作为二分类模型的输出，所述多尺度特征信息由空洞空间金字塔单元提取，所述浅层信息由特征信息提取单元的浅层部分提取；

所述跳跃链接单元包括：一个浅层转置卷积层、一个深层转置卷积单元以及融合单元；所述浅层转置卷积层的输入端与所述第一个Shufflenet单元的末尾连接，输出端与融合单元连接；所述深层转置卷积单元包括一个卷积核尺寸为1×1，步长为1的卷积层和一个双线性插值采样层，卷积层的输入端与空洞空间金字塔池化单元的末尾连接，双线性插值的输出端与融合单元连接；所述融合单元包括拼接融合层和双线性插值上采样层。

其中，所述步骤2)具体包括：

具体地，所述步骤21)具体包括：

采用cityscapes数据集，其中数据集包含34个类别，利用独热编码(one-hot)方法将真实语义分割图像转换为独热编码形式的真实语义分割图像，将原始图像和对应的真实语义分割图像备份作为多分类模型初始数据集，对所述多分类模型初始数据集进行数据增强，包括水平翻转、垂直翻转、放缩，作为多分类模型的数据集；

具体地，所述步骤22)具体包括：

其中，所述损失函数采用Softmax函数结合交叉熵损失函数(CrossentropyLoss)，具体如下：

交叉熵损失函数的公式为：

式中，N为一个训练批次中的样本数量，M为语义分割类别的数量，y_i为真实语义分割图像的真实值(ground truth)，

所述步骤22)具体还包括：

将二分类模型数据集中的原始图像通过二分类模型的骨干网络ShuffleNetV2、空洞空间金字塔池化单元(ASPP)得到特征图，再经过编码器上采样及跳跃链接后进行语义分割预测，得到二分类模型预测图像；将其与二分类模型数据集中的真实语义分割图像进行比较，通过损失函数计算得到预测值与真实值之间的损失值，根据计算的损失值，使用反向传播的梯度下降方法并利用Adam优化器迭代更新网络参数，每次迭代时利用余弦退火策略调整学习率，直到网络收敛或达到设定的迭代次数，最终得到使损失值最小的最优网络参数权重值；

式中，x为二分类模型输出的预测值；

二分类交叉熵损失函数的公式为：

5)将步骤3)中多分类预测形成的初步分割结果图及步骤4)中处理后的分割结果图进行融合；

具体地，将步骤4)中得到的图像后处理的二分类预测结果与步骤3)得到多分类模型预测结果中的对应道路类别的像素进行融合，得到融合预测结果；

融合预测结果计算公式如下：

式中，

为多分类模型的预测结果，

为步骤4)得到的图像后处理的二分类模型的预测结果。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于多模型融合的道路场景语义分割方法，其特征在于，步骤如下：

1)搭建多分类模型及二分类模型；

2.根据权利要求1所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求2所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤11)具体包括：

基于改进的高分辨率网络搭建的多分类模型：对原始的高分辨率网络的第2、3、4个子网络的最后一个特征融合单元进行去除；在每个特征融合单元引入视觉注意力；

原始的高分辨率网络中，包括4个并行的子网络，从左至右每个子网络中的特征图尺寸依次为上一个子网络的1/2，特征图的通道数为上一个子网络的2倍；每个子网络分别包含重复的多分辨率单元和特征融合单元；在每个多分辨率单元之前，有一个特征融合单元；所述多分辨率单元包括重复的4个卷积单元；所述特征融合单元包括上采样/下采样层和加法融合层；所述上采样/下采样层的输入端与上一层中每个子网络的多分辨率单元的输出端相连接，对输入的特征图进行相应尺度的上采样或下采样；

4.根据权利要求3所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤12)具体包括：

5.根据权利要求1所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤2)具体包括：

6.根据权利要求5所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤21)具体包括：

7.根据权利要求6所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤22)具体包括：

所述损失函数采用Softmax函数结合交叉熵损失函数，具体如下：

交叉熵损失函数的公式为：

8.根据权利要求7所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤22)具体还包括：

所述损失函数采用Sigmoid函数结合二分类交叉熵损失函数：

式中，x为二分类模型输出的预测值；

二分类交叉熵损失函数的公式为：

9.根据权利要求1所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤3)具体包括：

10.根据权利要求1所述的基于多模型融合的道路场景语义分割方法，其特征在于，所述步骤4)具体包括：