CN116665153A

CN116665153A - 一种基于改进型Deeplabv3+网络模型的道路场景分割方法

Info

Publication number: CN116665153A
Application number: CN202310711740.5A
Authority: CN
Inventors: 梁秀波; 毕水秀; 王宏志
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-29

Abstract

本发明公开了一种基于改进型Deeplabv3+网络模型的道路场景分割方法，包括获取道路场景图像数据并进行预处理，生成标签图像；将预处理图像和标签图像组合，得到数据集并分为训练集、验证集和测试集；构建改进型Deeplabv3+网络模型；训练集和验证集用来训练改进型Deeplabv3+网络模型；将测试集的预处理图像输入训练好的模型，得到道路场景图像的分割结果。本发明采用四元数卷积取代二维卷积，提高网络的拟合能力，降低参数量；采用大卷积替换空洞卷积对空间金字塔池化模块进行重构，增加有效感受野并提高对待征信息的复用效率；在解码端引入编码端中降采样层输出的特征图和注意力机制模块，实现多尺度特征融合和细节感知；将模型的训练和推理解耦，减少计算量和内存消耗。

Description

一种基于改进型Deeplabv3+网络模型的道路场景分割方法

技术领域

本发明涉及语义分割技术领域，尤其涉及一种基于改进型Deeplabv3+网络的道路场景分割方法。

背景技术

城市道路图像语义分割是一种将图像中每个像素点根据其所属的类别划分为不同的颜色区域的技术，旨在更细致地理解图像语义，以便更好地进行道路交通管理、自动驾驶和智能交通等应用。传统的聚类分割算法难以对类别进行细分，从而无法获取有用的语义信息。现在常用的技术是使用深度学习模型，例如卷积神经网络可以通过学习大量的数据进行图像识别和分割，进而实现更精细的语义分割。例如，可以通过分割出道路区域，实现道路交通拥堵检测和智能路灯控制等功能，通过分割出车辆和行人等物体，实现交通违规检测和行人安全监测等功能。

DeepLabv3+是一种基于深度学习的语义分割模型，它采用了空洞卷积和多尺度融合等先进技术来处理不同尺度的图像，并且能够适应不同的数据集和任务。相较于其他模型，DeepLabv3+具有更高的准确率和精度，能够准确地识别出图像中的不同物体和区域。但在分割物体边界时，可能会出现不连续和分割错误的现象。为了解决这个问题，本发明以底层特征复用和捕获多尺度语义信息为出发点，对DeepLabv3+算法进行了改进。通过构建四元数卷积神经网络提取网络浅层细节信息，之后进行级联式特征融合，完成底层信息的复用，最终利用空间金字塔结构进一步获取多尺度特征信息，以达到更加准确的物体边界分割效果。

发明内容

本发明的目的在于针对现有技术中的不足，提供一种基于改进型Deeplabv3+网络的道路场景分割方法，可以有效的进行底层特征复用和捕获多尺度语义信息以达到更加准确的物体边界分割效果。

为达到上述目的，本发明是采用下述技术方案实现的：一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，包括以下步骤：

(1)获取道路场景图像数据；

(2)对所述道路场景图像数据进行预处理，根据预处理图像生成标签图像；将预处理图像和对应的标签图像按照一一对应的方式进行组合，得到数据集；将数据集分为训练集、验证集和测试集；

(3)引入四元数卷积来改进ConvNeXt网络；以Deeplabv3+网络为原型，将改进的ConvNeXt网络替换主干网络中的Xception网络，在解码端引入编码端中降采样层输出的特征图和注意力机制模块，构建改进型Deeplabv3+网络模型；

(4)所述训练集和验证集用来训练改进型Deeplabv3+网络模型；

(5)将所述测试集的预处理图像输入训练好的改进型Deeplabv3+网络模型，得到道路场景图像的分割结果。

进一步地，所述步骤(2)中，预处理包括尺寸调整、翻转、标准归一化和裁剪操作。

进一步地，所述步骤(2)中，生成标签图像的方法包括手工绘制、蒙版绘制、半自动标注和AI辅助标注。

进一步地，所述步骤(3)中，所述引入四元数卷积来改进ConvNeXt网络具体为：将ConvNeXt卷积层的卷积核表示为四元数形式，并使用四元数乘法来实现卷积操作，得到改进的ConvNeXt网络。

进一步地，所述步骤(3)中，还包括：采用大卷积替换空洞卷积对所述Deeplabv3+网络中的ASPP模块进行重构，得到RepASPP模块，所述RepASPP模块用于将改进型Deeplabv3+网络模型的训练和推理解耦。

进一步地，所述步骤(4)具体为：将所述训练集输入改进型Deeplabv3+网络模型，进行计算并得到预测结果；计算预测结果与标签图像之间的误差，并利用梯度优化算法减小误差，更新模型权重参数；通过迭代优化的过程，使得模型逐渐收敛。

进一步地，所述步骤(4)包括以下子步骤：

(4.1)使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化；

(4.2)将训练集中的预处理图像输入改进型Deeplabv3+网络模型，得到道路场景图像分割的预测结果；

(4.3)使用交叉熵损失函数计算预测结果与对应标签图像之间的误差；

(4.4)根据计算的误差，使用梯度下降算法来更新改进型Deeplabv3+网络的权重参数；

(4.5)重复步骤(4.2)-步骤(4.4)，每次迭代结束，使用验证集中的预处理图像对改进型Deeplabv3+网络模型进行评估，选择最优模型；直至迭代结束，保存训练好的模型。

本发明的有益效果是：

1、本发明采用四元数卷积取代二维卷积，提高网络的拟合能力，降低参数量；

2、本发明采用大卷积替换空洞卷积对空间金字塔池化模块进行重构，增加有效感受野并提高对待征信息的复用效率；

3、本发明在解码端引入编码端中降采样层输出的特征信息和注意力机制模块，以实现更好的多尺度特征融合和细节感知；

4、本发明使用结构重参数化技术，将模型的训练和推理解耦，减少计算量和内存消耗。

附图说明

图1是本发明实施例提供的改进型Deeplabv3+网络模型的道路场景分割方法的基本流程示意图；

图2是本发明实施例提供的改进型DeepLabV3+网络模型结构示意图；

图3是本发明实施例提供的改进空间金字塔池化模块示意图；

图4是本发明实施例提供的解耦训练与推理的架构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

如图1所示，是本发明实施例提供的一种改进型Deeplabv3+网络的道路场景分割方法的基本流程示意图，本发明的一种改进型Deeplabv3+网络的道路场景分割方法，包括以下步骤：

步骤1：获取道路场景图像数据；

在本实施例中，使用摄像头设备在实际道路场景中采集图像数据。将摄像头设备安装在采集平台上，例如车辆或移动机器人，确保传感器设备的正确安装并校准，以获取准确的图像数据。然后对传感器进行参数调整，包括曝光时间、焦距、视场角等，以确保采集到的图像质量符合要求。再根据所需的道路场景数据范围和覆盖面积，确定数据采集的位置和路径规划，可根据需要选择城市街道、乡村道路或高速公路等不同道路类型。摄像头设备将持续采集图像数据，将采集到的图像数据存储在适当的媒介中，例如硬盘、内存卡或云存储。并记录采集的相关信息，例如时间戳、位置信息和传感器参数等，以便后续处理和分析。最后，对采集的图像数据进行质量检查，包括图像清晰度、曝光度、遮挡情况等方面的评估。通过排除低质量或异常数据，确保采集到的图像数据具备可靠的质量特性。

步骤2：对所述道路场景图像数据进行预处理，根据预处理图像生成标签图像；其中生成标签图像的方法包括手工绘制、蒙版绘制、半自动标注和AI辅助标注；将预处理图像和对应的标签图像按照一一对应的方式进行组合，得到数据集；将数据集分为训练集、验证集和测试集；

在本实施例中，将步骤1采集到的道路场景图像进行尺寸调整，将其缩放为大小224×224×3的图像，这可以确保图像在后续处理和训练过程中的一致性；对调整过的道路场景图像使用transform模块进行随机翻转、标准归一化以及随机裁剪等操作进行预处理，增强模型的泛化能力；对预处理图像采用蒙版标注方法进行处理，标注出图像中各个区域的像素位置。也可以通过人工标注或者自动标注算法来实现。生成的标签图像与预处理图像尺寸相同，其中每个像素的取值表示该像素所属的类别；将预处理图像和对应的标签图像按照一一对应的方式进行组合，即每个预处理图像对应一个标签图像，这样就得到了数据集；将数据集中随机抽出60％的样本作为训练集，20％的样本作为验证集，剩下20％的样本作为测试集，得到训练样本和测试样本。

步骤3：引入了四元数卷积来改进ConvNeXt网络；以Deeplabv3+网络为原型，将改进的ConvNeXt网络替换主干网络中的Xception网络；在解码端引入编码端中降采样层输出的特征图和注意力机制模块，构建改进型Deeplabv3+网络模型；构建改进型Deeplabv3+网络模型还可以采用大卷积替换空洞卷积对空间金字塔池化(Atrous Spatial PyramidPooling，ASPP)模块进行重构，使用结构重参数化技术将训练与推理解耦；

请参见图2，图2是本发明实施例提供的改进型DeepLabV3+网络模型结构示意图。

(3.1)引入了四元数卷积来改进ConvNeXt网络；以Deeplabv3+网络为原型，将改进的ConvNeXt网络替换主干网络中的Xception网络。

本发明引入了四元数卷积来改进ConvNeXt网络，将ConvNeXt卷积层的卷积核表示为四元数形式，并使用四元数乘法来实现卷积操作，成功地将传统的二维卷积扩展到三维数据处理中。通过使用四元数卷积，不同训练目标的权重比例得到了优化，从而更好地适应各种训练目标的特征分布。将改进后的ConvNeXt网络替换主干网络中的Xception网络。改进后的ConvNeXt网络可以更好地提取和表示图像特征，从而增强了改进型Deeplabv3+网络模型在图像分割任务中的性能和效果。

如图2所示，改进型Deeplabv3+网络模型主要由Encoder，RepASPP和Decoder3个模块组成。

首先，给定一个输入图像，改进型Deeplabv3+网络模型采用改进的ConvNeXt网络作为编码器来提取层次特征。改进的ConvNeXt网络有5个降采样层，每个降采样层的步长为2，表示在每个降采样层之后，输入图像的尺寸会缩小1/2。经过第一个降采样层后，图像的尺寸变为输入图像的1/2，经过第二个降采样层后，图像的尺寸变为输入图像的1/4。由此，编码器输出的最终的特征图大小是输入图像的1/32，表示经过5个降采样层后，特征图的尺寸相对于输入图像的尺寸缩小了32倍。

然后，改进型Deeplabv3+网络模型采用RepASPP对随机依赖进行建模。RepASPP以编码器的输出特征作为输入，生成一个包含全局上下文信息的特征。

最后，改进型Deeplabv3+网络模型使用解码器逐步融合多层次特征并输出得到的图像。解码器由两个融合ECANet(Efficient Channel Attention Network)注意力机制模块和一个分割头组成。每个ECANet以2个特征作为输入，即由编码器各阶段提取的低级特征图，和由RepASPP或更深的融合模块生成的高级特征图。在分割头中执行Resize和Predict操作，将1/8个下采样特征的通道减少到类的数量。采用上采样操作将特征大小扩展到输入图像大小，并采用argmax操作预测每个像素的标签。

请参见图3，图3是本发明实施例提供的改进空间金字塔池化模块。

(3.2)采用大卷积替换空洞卷积对空间金字塔池化模块进行重构，以增加有效感受野并提高对待征信息的复用效率。具体的重构步骤如下：

(3.2.1)确定用于重构ASPP模块的大卷积核的尺寸。如图3所示，本发明实施例提出了使用大小为1、13、25和31的卷积核，这些卷积核的尺寸可以捕捉不同尺度的语义信息。

(3.2.2)将ASPP模块中原有的空洞卷积替换为使用大卷积核的新卷积核，得到RepASPP模块。相对于小卷积核和空洞卷积，大卷积核具有更大的有效感受野，更适用于捕捉形状偏差而非纹理偏差。

(3.3)在解码端引入编码端中降采样层输出的特征图和注意力机制模块，以实现更好的多尺度特征融合和细节感知。

为了更好的多尺度特征融合和细节感知，在解码端引入了编码端中降采样层输出的特征信息。编码器使用改进的ConvNeXt网络对输入图像进行特征提取，其中的降采样层通常会通过减小特征图的尺寸来增加感受野，并提取更高级别的语义信息。在这个过程中，由于尺度的变化，不同降采样层的输出特征图具有不同的空间分辨率和语义信息。在解码器的每个解卷积层后，将相应降采样层的特征图与解码器的特征图进行融合。解码器使用上采样和跳跃连接的方式将编码器的特征图恢复到原始图像尺寸，并进行语义分割预测。可以通过逐元素相加或逐元素拼接操作实现跳跃连接。

其中，为了更有效地利用编码端输出的特征图，在融合过程中使用了ECANet注意力机制模块，该模块通过一维卷积实现局部跨通道的交互作用，可以提取通道之间的依赖关系。该改进有助于网络更加专注于待检测目标，突出重要特征，并进一步提高网络模型在目标检测方面的准确性。

请参见图4，图4是本发明实施例提供的解耦的训练和推理架构图。

(3.4)使用结构重参数化技术，采用RepASPP模块将模型的训练和推理解耦。

如图4所示，RepASPP结构由一个通用的基础结构和一组可学习参数组成，基础结构包括特征融合的Concat操作和1x1卷积操作，在训练和推理时是共享的。在训练阶段，如图4中的A图所示，RepASPP使用标准的卷积计算，包括反向传播和参数更新，来训练可学习参数。而在推理阶段，如图4中的B图所示，RepASPP将四个并行的卷积层参数替换为一个固定的卷积核参数，极大地减少了计算量和内存消耗。

通过训练和推理的解耦，改进型Deeplabv3+网络模型在训练阶段能够充分利用反向传播和参数更新，提升了模型的表现力和性能。在推理阶段，通过使用固定的卷积核参数，大幅度降低了计算量和内存消耗，提高了推理的效率。这种解耦设计在训练和推理过程中针对不同的需求进行优化，既保证了模型的学习能力，又提升了实际应用时的计算效率。

步骤4：将所述训练集的预处理图像输入改进型Deeplabv3+网络模型，进行计算并得到预测结果；计算预测结果与标签图像之间的误差，并利用梯度优化算法减小误差，更新模型权重参数；通过迭代优化的过程，使得模型逐渐收敛；

模型训练具体过程如下：

(4.1)权重初始化：使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化。

(4.2)前向传播：将训练集中的预处理图像输入改进型Deeplabv3+网络模型，进行处理后得到图像分割的预测结果。预测结果与预处理图像尺寸相同，其中每个像素被分配了一个类别标签，表示该像素所属的类别。

(4.3)计算误差：使用交叉熵损失函数计算预测结果与标签图像之间的误差，改进型Deeplabv3+网络模型对第i个像素的预测概率为p_i，y_i为真实标签，交叉熵损失函数记为：

式中，∑表示对所有像素进行求和，y_i表示真实标签的one-hot编码(将属于该类别的位置设为1，其他位置设为0)，p_i表示模型对第i个像素的预测概率。

(4.4)反向传播：根据损失函数，使用链式法则计算损失对网络权重参数的梯度。网络模型的权重参数为ω，损失函数为，通过反向传播算法计算/>对ω的梯度的公式为：

式中，表示损失函数对预测结果p的梯度，/>表示预测结果p对权重参数ω的梯度。反向传播算法通过逐层反向传播，计算每层的梯度，并将梯度传递回网络的每个层。

(4.5)更新权重参数：根据计算的误差，使用梯度下降算法来更新网络模型的权重参数。网络模型的权重参数为ω，学习率为η，更新权重参数的公式记为：

其中，表示误差对权重参数的梯度，通过计算反向传播得到。

(4.6)重复步骤(4.2)-步骤(4.3)，在每个迭代结束后，使用验证集来评估模型在未见过的数据上的性能表现。根据在验证集上的性能，对模型进行调整和优化，比如调整超参数、修改模型结构等。确保模型在未见过的数据上的泛化能力，并防止过拟合。如果损失函数在连续若干次迭代中变化不大，即趋于稳定，可以认为模型已经收敛，模型停止训练。通过多次迭代优化，使得模型逐渐收敛，即不断减小预测结果与标签图像之间的误差，从而提高分割的准确性。

通过迭代优化的过程，使得模型逐渐收敛。本发明可以有效的进行底层特征复用和捕获多尺度语义信息以达到更加准确的物体边界分割效果。

步骤5：将所述测试集的预处理图像输入训练好的改进型Deeplabv3+网络模型，得到测试集图像预测的分割结果；将所得测试集图像预测结果与相应的标签图像进行比较，计算交并比指数(Intersection over Union，IoU)，将所有图像的IoU值求取平均值得到平均交并比指数(Mean Intersection over Union，mIoU)作为性能评估指标，以衡量改进型Deeplabv3+网络模型在道路场景图像分割任务上的准确性和效果。

计算交并比指数(IoU)的公式记为：

IoU＝TP/(TP+FP+FN)

式中，TP表示真正例(True Positive)，即预测为正类且与标签图像相应位置为正类的像素数量；FP表示假正例(False Positive)，即预测为正类但与标签图像相应位置为负类的像素数量；FN表示假负例(False Negative)，即预测为负类但与标签图像相应位置为正类的像素数量。

平均交并比指数(mIoU)计算公式记为：

mIoU＝(IoU1+IoU2+…+IoUn)/n

式中，IoU1，IoU2，…，IoUn表示每个图像的交并比指数(IoU)，n表示图像的总数量。mIoU的取值范围为0到1，数值越接近1表示改进型Deeplabv3+网络模型在道路场景图像分割任务上的准确性和效果越好。

本实施例提供的基于改进型Deeplabv3+网络模型的道路场景分割方法，所述方法为：利用摄像头设备在实际道路场景中采集图像数据；对采集的图像进行预处理操作，包括尺寸调整、随机翻转、标准归一化和随机裁剪操作；采用蒙版标注方法对预处理图像进行处理，标注出图像中各区域的像素位置，生成相应的标签图像；将预处理图像和对应的标签图像按照一一对应的方式进行组合，得到数据集；将数据集分为训练集和测试集；使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化；将训练集的预处理图像输入改进型Deeplabv3+网络模型，进行计算并得到预测结果；计算预测结果与标签图像之间的误差，并利用梯度优化算法减小误差，更新模型权重参数；通过迭代优化的过程，使得模型逐渐收敛；将测试集的预处理图像输入训练好的改进型Deeplabv3+网络，计算平均交并比指数性能评估指标，以衡量改进型Deeplabv3+网络在道路场景图像分割任务上的准确性和效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，包括以下步骤：

(1)获取道路场景图像数据；

(4)所述训练集和验证集用来训练改进型Deeplabv3+网络模型；

2.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，所述步骤(2)中，预处理包括尺寸调整、翻转、标准归一化和裁剪操作。

3.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，所述步骤(2)中，生成标签图像的方法包括手工绘制、蒙版绘制、半自动标注和AI辅助标注。

4.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，所述步骤(3)中，所述引入四元数卷积来改进ConvNeXt网络具体为：将ConvNeXt卷积层的卷积核表示为四元数形式，并使用四元数乘法来实现卷积操作，得到改进的ConvNeXt网络。

5.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，所述步骤(3)中，还包括：采用大卷积替换空洞卷积对所述Deeplabv3+网络中的ASPP模块进行重构，得到RepASPP模块，所述RepASPP模块用于将改进型Deeplabv3+网络模型的训练和推理解耦。

6.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法，其特征在于，所述步骤(4)具体为：将所述训练集输入改进型Deeplabv3+网络模型，进行计算并得到预测结果；计算预测结果与标签图像之间的误差，并利用梯度优化算法减小误差，更新模型权重参数；通过迭代优化的过程，使得模型逐渐收敛。

7.根据权利要求1或6所述的一种基于改进型Deeplabv3+网络的道路场景分割方法，其特征在于，所述步骤(4)包括以下子步骤：