CN114419316A

CN114419316A - 基于空间金字塔池化的实时语义分割方法及系统

Info

Publication number: CN114419316A
Application number: CN202111655311.8A
Authority: CN
Inventors: 柯逍; 蒋培龙; 曾淦雄
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-29

Abstract

本发明涉及一种基于空间金字塔池化的实时语义分割方法及系统，该方法包括以下步骤：步骤S1：获取城市街景数据集Cityscapes并进行预处理；步骤S2：对步骤S1得到的数据集进行离线数据增强以增加数据集的多样性；步骤S3：构建基于空间金字塔池化的实时语义分割网络LSPPNet；步骤S4：利用步骤S2得到的数据集对LSPPNet神经网络模型进行训练；步骤S5：将自动驾驶场景中采集到的图像进行预处理，然后输入到LSPPNet神经网络模型，得到图像语义分割结果。该方法及系统有利于提高图像语义分割的准确性和时效性。

Description

基于空间金字塔池化的实时语义分割方法及系统

技术领域

本发明属于模式识别与计算机视觉领域，具体涉及一种基于空间金字塔池化的实时语义分割方法及系统。

背景技术

近年来由于计算机硬件的发展，特别是GPU计算能力的提升，大大的推动了人工智能的进步，同时也为计算机视觉的发展提供了很大的机遇，在计算机视觉任务中图像处理方向更是得到很大益处，其中包括目标检测任务，目标识别任务与目标跟踪任务和图像分割任务等。在这些方向中，图像分割的关键作用是对所给的图像数据进行检测分析，将图像中的物体进行识别，然后通过对图像中的目标与背景进行划分，达到一种分割效果。图像分割技术作为计算机视觉任务中一项基础的研究方向，其研究的成果为更多的计算机视觉任务奠定了基础，大量图像处理任务解决的前提都是处理好对图像分割的结果。在自动驾驶中，语义分割模型需要被部署到边缘设备，此时便要求模型在保持高性能的前提下，还能以较快的速度进行推理，如何在速度和性能两个指标上取得一个良好的折中是一个极具挑战性的问题。

发明内容

本发明的目的在于提供一种基于空间金字塔池化的实时语义分割方法及系统，该方法及系统有利于提高图像语义分割的准确性和时效性。

为实现上述目的，本发明采用的技术方案是：一种基于空间金字塔池化的实时语义分割方法，包括以下步骤：

步骤S1：获取城市街景数据集Cityscapes并进行预处理；

步骤S2：对步骤S1得到的数据集进行离线数据增强以增加数据集的多样性；

步骤S3：构建基于空间金字塔池化的实时语义分割网络LSPPNet；

步骤S4：利用步骤S2得到的数据集对LSPPNet神经网络模型进行训练；

步骤S5：将自动驾驶场景中采集到的图像进行预处理，然后输入到LSPPNet神经网络模型，得到图像语义分割结果。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：从开源数据集网站cityscapes-dataset.com下载gtFine_trainvaltest.zip标签数据压缩文件和leftImg8bit_trainvaltest.zip图像数据压缩文件；

步骤S12：将步骤S11得到的两个压缩文件进行解压，整理并删除与语义分割任务不相关的标签文件。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：对步骤S1所得数据集中所有图片进行翻转变换，对应的标签图像相应发生改变，将进行翻转变换的图片加入新的数据集中；

步骤S22：对步骤S1所得数据集中所有图片进行色彩抖动，对应的标签图像不发生改变，将进行颜色抖动的图片加入新的数据集中；

步骤S23：对步骤S1所得数据集中所有图片进行平移变换，对应的标签图像相应发生改变，将进行平移变换的图片加入新的数据集中；

步骤S24：对步骤S1所得数据集中所有图片进行对比度变换，对应的标签图像不发生改变，将进行对比度变换的图片加入新的数据集中；

步骤S25：对步骤S1所得数据集中所有图片进行尺度变换，对应的标签图像相应发生改变，将进行尺度变换的图片加入新的数据集中。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：采用ResNet-18作为LSPPNet的编码器，其中ResNet-18的瓶颈层对输入图像做4倍下采样，接着除了第一阶段外ResNet-18在接下来的三个阶段中都对图像进行2倍下采样；

步骤S32：ResNet-18的第一到第三阶段中通过跳跃连接保存下采样阶段的表示，并引入深监督模块对编码器的第四阶段输出的表示进行监督，减少编码阶段空间信息的丢失；

步骤S33：将编码器第四阶段的输出结果输入到轻量级金字塔池化模块LSPPM中，以得到具备丰富多尺度信息的表示；

步骤S34：将步骤S33得到的表示输入到级联的上采样路径中，结合步骤32的密集连接，利用快速上采样模块FUM对表示进行共计3次的2倍上采样，最终得到融合语义信息和空间信息的表示；

步骤S35：将步骤S34得到表示通过双线性插值算法进行8倍上采样，并通过一个1×1卷积输出预测结果。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：对步骤S3构建的LSPPNet神经网络模型进行训练，并设定初始参数如下：

初始学习率，即-learning rate：0.01；

权值衰减，即-weight decay：0.0005；

动量，即-momentum：0.9；

训练阶段采用多项式权值衰减作为学习率衰减策略，其中最小的学习率设置为0.0001，衰减因子设置为0.9，而批大小根据训练服务器显存大小而定；

步骤S42:模型最终损失函数为：

Loss_final＝Loss_main+α·Loss_aux

其中，Loss_final，Loss_main，Loss_aux分别表示模型的最终损失、主体损失和辅助损失，其中α为辅助损失的权重，设置为0.4，损失函数采用交叉信息熵；

步骤S43：训练阶段采用随机梯度下降方法作为优化器，计算卷积神经网络更新后的权重值、偏置值；

步骤S44：对部分训练样本进行随机透视变换，并对标签文件做出相应变换，然后加入到模型的训练样本中参与训练；

步骤S45：对部分训练样本进行随机位置的高斯模糊，相应标签文件不变，然后加入到模型的训练样本中参与训练；

步骤S46：迭代到160000次后停止训练，保存训练好的模型。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：在自动驾驶场景中通过车载摄像头采集图像数据作为输入；

步骤S52：将输入图像调整成2048×1024尺寸；

步骤S53：将步骤S52得到的图像通过LSPPNet神经网络模型得到预测结果图；

步骤S54：将步骤S53得到的预测结果图经过双线性插值算法缩放为原始输入尺寸，得到最终结果图。

本发明还提供了一种基于空间金字塔池化的实时语义分割系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：提供了一种基于空间金字塔池化的实时语义分割方法及系统，相较于传统方法，本发明能够有效地针对自动驾驶场景进行语义分割，提升了图像分割的效果，且在处理分辨率较高的图像数据，具有相对较优的速度，适合部署到性能受限的终端设备中。

附图说明

图1是本发明实施例的方法实现流程图；

图2是本发明实施例中网络结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于空间金字塔池化的实时语义分割方法，包括以下步骤：

步骤S1：获取城市街景数据集Cityscapes并进行预处理。

步骤S2：对步骤S1得到的数据集进行离线数据增强以增加数据集的多样性。

步骤S3：构建基于空间金字塔池化的实时语义分割网络LSPPNet。

步骤S4：利用步骤S2得到的数据集对LSPPNet神经网络模型进行训练。

在本实施例中，所述步骤S1具体包括以下步骤：

在本实施例中，所述步骤S2具体包括以下步骤：

在本实施例中，所述步骤S3具体包括以下步骤：

本实施例构建的网络结构如图2所示。

在本实施例中，所述步骤S4具体包括以下步骤：

初始学习率，即-learning rate：0.01；

权值衰减，即-weight decay：0.0005；

动量，即-momentum：0.9；

步骤S42:模型最终损失函数为：

Loss_final＝Loss_main+Loss_aux

步骤S46：迭代到160000次后停止训练，保存训练好的模型。

在本实施例中，所述步骤S5具体包括以下步骤：

步骤S52：将输入图像调整成2048×1024尺寸；

本实施例还提供了一种基于空间金字塔池化的实时语义分割系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于空间金字塔池化的实时语义分割方法，其特征在于，包括以下步骤：

步骤S1：获取城市街景数据集Cityscapes并进行预处理；

2.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S2具体包括以下步骤：

4.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S3具体包括以下步骤：

5.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S4具体包括以下步骤：

初始学习率，即-learning rate：0.01；

权值衰减，即-weight decay：0.0005；

动量，即-momentum：0.9；

步骤S42:模型最终损失函数为：

LosS_final＝Loss_main+α.Loss_aux

步骤S46：迭代到160000次后停止训练，保存训练好的模型。

6.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S5具体包括以下步骤：

步骤S52：将输入图像调整成2048×1024尺寸；

7.一种基于空间金字塔池化的实时语义分割系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。