CN116071715A

CN116071715A - 一种自动驾驶汽车实时语义分割模型构建方法

Info

Publication number: CN116071715A
Application number: CN202310003650.0A
Authority: CN
Inventors: 范佳琦; 高炳钊; 冉亚兵; 褚洪庆
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-05-05

Abstract

本发明涉及一种自动驾驶汽车实时语义分割模型构建方法，包括以下步骤：构建数据集，并将数据集划分为训练集、验证集和测试集；搭建卷积神经网络和transformer网络，并将二者相融合构成编码器中的一个特征提取阶段；重复堆叠四个相同的特征提取阶段，构成完整的编码器网络；搭建U型解码器网络，设计上采样模块；将编码器网络和解码器网络相结合，构成实时语义分割模型。同时构建教师网络，结合知识蒸馏策略，训练实时语义分割模型；将训练好的模型权重保存，并在数据集的验证集上对实时语义分割模型性能进行验证。与现有技术相比，本发明解决了实时语义分割中速度和精度不平衡的问题，得到兼顾速度和精度的实时语义分割模型。

Description

一种自动驾驶汽车实时语义分割模型构建方法

技术领域

本发明涉及自动驾驶车辆场景理解领域，尤其是涉及一种自动驾驶汽车实时语义分割模型构建方法。

背景技术

语义分割是计算机视觉中一项基本但关键的任务，它的目标是为图像中的每个像素预测一个特定的标签，便于更加全面充分地了解整个图像场景所包含的信息。许多基于深度学习的全卷积网络已经取得了很高的分割精度，但将其应用于自动驾驶车辆时依然存在着模型推理速度较慢的问题。因此构建一个满足实时性要求同时又有着较高分割精度的语义分割模型，对于交通场景解析有着极其重要的研究意义。

基于深度学习的语义分割网络主要包括两大类：第一类是基于纯卷积网络的，2015年Long等人提出的全卷积网络(fully convolutional network，FCN)是一种基于编-解码器的结构，基于此结构，后来出现了快速分割卷积网络、双分支语义网络和高效残差分解卷积网络等众多方法。这些方法堆叠大量复杂的卷积模块，大大提升了分割精度，同时卷积层参数较少，模型也十分地轻量。它们存在的缺点主要是卷积层的感受野较小，无法很好地提取到全局上下文信息，长距离上下文之间的依赖关系被忽略了，分割的准确度还不够高。第二类是基于纯transformer网络的，2021年Zheng等人提出分割transformer(segmentation transformer，SETR)模型，网络的输入是向量序列，若干个堆叠的自注意层构成了特征提取编码器，很好地学习到了全部上下文信息。这类网络有着比卷积网络更高的分割精度，但同时序列运算带来的大量计算负担也导致模型的推理速度很慢，无法满足交通场景实时分割的需求。

发明内容

本发明的目的是解决实时语义分割中速度和精度不平衡的问题，提供一种自动驾驶汽车实时语义分割模型构建方法。

本发明的目的可以通过以下技术方案来实现：

一种自动驾驶汽车实时语义分割模型构建方法，包括以下步骤：

构建数据集，并将所述数据集划分为训练集、验证集和测试集；

搭建卷积神经网络和transformer网络，并将二者相融合构成编码器中的一个特征提取阶段；

重复堆叠四个相同的特征提取阶段，构成完整的编码器网络；

搭建U型解码器网络，设计上采样模块；

将所述编码器网络和所述解码器网络相结合，构成实时语义分割模型。

进一步地，该方法还包括以下步骤：

构建教师网络，结合知识蒸馏策略，训练所述实时语义分割模型；

将训练好的模型权重保存，并在所述数据集的验证集上对实时语义分割模型性能进行验证。

进一步地，所述特征提取阶段包括降采样模块及特征提取模块；

所述降采样模块用于降低输入特征图的尺寸；

所述特征提取模块用于学习输入特征图所包含的特征信息。

进一步地，所述降采样模块包括卷积降采样层和序列化层。

进一步地，所述特征提取模块包括两个transformer层和两个卷积层；

所述transformer层用于提取输入图像的全局上下文信息；

所述卷积层用于提取输入图像的局部信息；

特征提取模块中表达式为：

其中，x表示降采样模块输出的序列，transformer₁和transformer₂分别表示两个transformer层操作，reshape表示将序列恢复为特征图的操作，

为经过两个transformer层后输出的特征图，cnn₁和cnn₂分别表示两个卷积网络层操作，

为经过两个卷积网络后输出的特征图，y表示当前特征提取阶段输出的特征图。

进一步地，所述transformer层包含两个正则化层LN、两个残差层、一个多头自注意层EMSA及一个前馈网络层FFN，特征提取过程如下：

其中，x为transformer层的输入序列，

为经过一个正则化层和一个多头自注意层后得到的输出序列，y为输入序列

经过一个正则化层和一个前馈网络层后得到的输出序列；

所述多头自注意层采用一个卷积降采样层降低中间计算向量的维度，进而减小整个多头自注意层的计算负担；

所述前馈网络层FFN包括卷积层、线性层和激活函数层。

进一步地，所述解码器网络包括两个上采样模块，所述上采样模块用于恢复特征图尺寸；

所述上采样模块包括一个深度卷积层、一个卷积核尺寸为1的卷积层和一个双线性插值上采样模块。

所述上采样模块具有自注意结构，以实现特征增强；

特征图经过上采样模块的表达式为：

K＝reshape(dsconv(x))

V＝reshape(dsconv(x))

其中，x为上采样模块的输入特征图，up_block表示上采样模块，

为经过上采样模块后的输出特征图，reshape表示将特征图转化为序列数据结构，Q为转化为序列后的特征矩阵，dsconv表示深度可分离卷积层；K、V为特征矩阵，厶为特征矩阵K的维度，softmax函数用于将输出结果归一化，linear为线性层，y为输出特征图。

进一步地，构建教师网络，结合知识蒸馏策略，训练所述实时语义分割模型，具体包括：

训练过程中，使用输出的软标签和数据集中真实标记的硬标签，基于实时语义分割模型预测得到的结果，分别计算软损失和硬损失，最小化总的损失函数，利用随机梯度下降法更新实时语义分割模型中的参数，完成模型训练过程；

所述损失函数包括实时语义分割模型预测结果和真实标签之间的损失值及实时语义分割模型预测结果和教师网络输出之间的损失值，损失函数定义如下：

Loss₁＝L_cE(ψ(p_s)，y)

Loss₂＝KL(ψ(p_s/τ)，ψ(p_t/τ))

Loss_total＝(1-α)·Loss₁+ατ2·Loss₂

其中，p_s为实时语义分割模型的预测结果，p_t是教师网络的预测结果，y为真实标记的结果，τ为蒸馏的温度，ψ代表softmax归一化指数函数，L_CE代表交叉熵损失函数，KL代表KL散度值，Loss₁代表实时语义分割模型预测结果与真实标签之间的损失值，Loss₂代表实时语义分割模型预测结果和教师网络输出之间的损失值，Loss_total代表模型训练过程中总的损失值，α为损失值平衡参数。

进一步地，所述实时语义分割模型训练过程中，其中所有参数采用Kaiming初始化的方法进行随机初始化，随后采用自适应矩估计优化器adam进行参数梯度计算和参数更新，参数更新的步长即学习率，学习率和迭代次数之间的关系如下：

其中，lr为当前学习率的值，base_lr为基准学习率，iter为当前的迭代次数，max_iters为最大迭代次数，power用于控制学习率变化曲线的形状。

进一步地，所述对实时语义分割模型性能进行验证，具体包括：

计算实时语义分割模型的4个评价指标：模型分割精度、分割速度、模型参数量和模型计算量；

对所述评价指标进行归一化处理，其表达式为：

其中，acc为各个模型的分割精度，acc_min为对比模型中分割精度的最小值，acc_max为对比模型中分割精度的最大值，

各个模型的分割精度归一化后的值；speed为各个模型的分割速度值，speed_min为对比模型中分割速度的最小值，speed_max为对比模型中分割速度的最大值，

各个模型的分割速度归一化后的值；param为各个模型的参数值，param_min为对比模型中模型参数的最小值，param_max为对比模型中速模型参数的最大值，

各个模型的参数归一化后的值；flops为各个模型的模型计算量值，

为对比模型中模型计算量的最小值，

为对比模型中模型计算量的最大值，

各个模型的模型计算量归一化后的值；

基于归一化后的评价指标，计算所述实时语义分割模型的综合评价指标，所述综合评价指标的表达式为：

其中，F_β为综合评价指标，β为超参数；F_β值越大，表示实时语义分割模型的性能越好。

与现有技术相比，本发明具有以下有益效果：

本发明通过将transformer和卷积网络融合，其特征提取结构能够更好地提取全局和局部上下文特征，解决了信息的长短距离依赖问题，更加符合人类视觉处理机制。同时，本发明引入知识蒸馏策略有利于搭建一个更加轻量化的网络结构，模型的参数量和计算量较小，便于模型在嵌入式设备或资源受限平台上的部署。本发明提出的网络结构在分割精度和效率上取得了很好的平衡，具有较强的鲁棒性，适用于自动驾驶车辆交通场景领域，同时也可推广到语义分割问题中，具有很好的实用性。

附图说明

图1为实时语义分割流程图；

图2为本发明的整体网络结构图；

图3为编码器中每个特征提取阶段的结构图；

图4为编码器中transformer层的结构图；

图5为编码器中卷积网络层的结构图；

图6为解码器中特征增强上采样模块的结构图；

图7为本发明方法在Cityscapes数据集上得到的分割效果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提出了一种基于transformer和卷积网络的实时语义分割模型构建方法，其算法实现流程图如图1所示，包括以下步骤：

搭建U型解码器网络，设计上采样模块；

将所述编码器网络和所述解码器网络相结合，构成实时语义分割模型；

具体实施时，包括以下步骤：

步骤1：本实施例使用Cityscapes作为数据集，其为一个城市道路场景理解数据集，官方发布的数据集包括5000张精细标注的图像，具体划分为2975张训练图像、500张验证图像和1525张测试图像。本实施例在模型训练过程中，同时使用训练数据集和验证数据集(共3475张图像)进行模型训练。该数据集中的图像分辨率为2048×1024，为了加快模型训练速度，本实施例在训练过程中将所有图像的分辨率均裁剪为1024×512。数据集标注过程中共标注了30个不同类别的目标物，包括汽车、行人和建筑物等，本实施例只挑选了其中19个类别的道路常见目标物进行训练。

步骤2：如图2所示，本实施例中的编码器由4个特征提取阶段组成，每个阶段的输入特征图，首先经过一个降采样模块，将特征图的宽度和高度值均降低为输入的一半，之后再经过一个特征提取阶段，用来学习该尺寸特征图所包含的特征信息。假设输入的彩色图像的高度值为h，宽度值为w，通道数为3，记作h×w×3，则经过阶段1后输出图像尺寸为h/4×w/4×32，经过阶段2后输出图像尺寸为h/8×w/8×64，经过阶段3后输出图像尺寸为h/16×w/16×160，经过阶段4后输出图像尺寸为h/32×w/32×256。

步骤3：如图3所示，为编码器中每个特征提取阶段的网络结构。对于每个特征提取阶段中的降采样模块，其主要作用是降低输入特征图的尺寸，组成上包括一个卷积降采样层和一个序列化层。首先，卷积降采样层根据降采样的数目不同具体包括两种，假设卷积核的尺寸为k，卷积核滑动步长为s，卷积核零补位数目为p。阶段1中的卷积降采样层将图像的宽度和高度值均降低为输入的1/4，该卷积层参数设置为k＝7，p＝4，s＝3；阶段2、阶段3核阶段4中的卷积降采样层均将图像的宽度和高度值均降低为输入的1/2，该卷积层的参数设置为k＝3，p＝2，s＝1。之后，序列化层将降采样后的特征图展平成序列形式，尺寸为N×D，N为序列的长度，D为序列的深度。展平后的向量序列可直接作为transformer层的输入。

步骤4：对于每个特征提取阶段中的特征提取模块，其主要作用是提取输入向量的特征，具体包括两个transformer层和两个卷积层串联。

其中，x表示降采样模块输出的序列，transformer₁和transformer₂分别为两个transformer层操作，reshape表示将序列恢复为特征图的操作，

为经过两个transformer层后输出的特征图，cnn₁和cnn₂分别为两个卷积网络层操作，

为经过两个卷积网络后输出的特征图，y表示该阶段输出的特征图。

本实施例中的特征提取网络在对输入图像进行特征提取的过程中，首先经过两个transformer层提取图像的全局上下文信息，之后再经过两个卷积网络提取局部信息，最后再将全局特征和局部特征相结合，得到了最终该特征提取阶段输出的特征图。这种将transformer和卷积网络相融合的特征提取方法和只使用transformer或只使用卷积网络相比，特征提取能力更强，虽然参数量有所增加，但可以通过选择轻量化的transformer层和卷积层解决。

步骤5：如图4所示，为每个特征提取阶段中的transformer层结构。每个transformer层包含两个正则化层LN、两个残差层、一个高效的多头自注意层EMSA、一个前馈网络层FFN，特征提取过程如下：

其中，x为transformer层的输入序列，

为经过一个正则化层和一个高效的多头自注意层后得到的输出序列，y为输入序列

经过一个正则化层和一个前馈网络层后得到的输出序列。高效的多头自注意力层采用一个卷积降采样层降低中间计算向量K和向量V的维度，进而减小整个自注意力层的计算负担，得到了一个更加轻量化的结构，适用于实时语义分割问题。前馈网络层主要由卷积层、线性层和激活函数层组成。

如图5所示，为每个特征提取阶段中的卷积网路层结构。核心结构是两个卷积层，卷积核大小为3，卷积核滑动步长为1，卷积核零补位数目为1，只起到提取图像特征的作用，不降低图像尺寸。

步骤6：本实施例中的解码器结构为一个逐级上采样的U型解码器，含有两个上采样模块，起到恢复特征图尺寸的作用，上采样后的特征图和编码器中相同尺寸的低层特征图通过一个元素相加操作融合到一起。本实施例中的上采样模块具有自注意结构，可以起到特征增强的作用，因此又称为特征增强上采样模块，具体结构如图6所示。

K＝reshape(dsconv(x)) (8)

V＝reshape(dsconv(x)) (9)

其中，x为该模块输入的特征图，up_block为一个简单的上采样模块，组成上包括一个深度卷积层、一个卷积核尺寸为1的卷积层和一个双线性插值上采样模块。

为上采样模块后的输出特征图，reshape表示将特征图转化为序列数据结构，Q为序列后的特征矩阵。dsconv表示深度可分离卷积层，即一个卷积核大小为3的深度卷积层和一个卷积核大小为1的普通卷积层。输入特征图分别经过两个深度可分离卷积层和序列化层后，分别得到特征矩阵K和V。三个不同的矩阵Q，K，V经过自注意层计算后，得到输出

在自注意层计算过程中，厶为矩阵K的维度，softmax函数将输出结果归一化。进一步将自注意力层计算得到的特征矩阵

经过线性层提取特征，并转化为图像结构，此时的特征图和输入特征图x相比，图像的宽度值和高度值都扩大了两倍。再经过一个残差层后，得到最终输出的尺寸增大的特征图y。

和简单的上采样模块相比，本实施例中的这种特征增强上采样模块借助于自注意力层，起到了特征增强的作用。例如阶段4输出的特征图，经过该模块增强特征后，与相同尺寸的阶段3输出的特征图相加；阶段3输出的特征图，经过该模块增强特征后，与相同尺寸的阶段2输出的特征图相加。这样，通过上采样操作，解码器中的输出特征图尺寸在逐级恢复，逐渐恢复为原始输入大小。

步骤7：搭建好编-解码器特征提取网络结构后，在模型的训练过程中，采用知识蒸馏策略，即找到一个训练好的且精度很高的模型作为教师网络，训练过程中，用其输出的软标签和数据集中真实标记的硬标签，分别和网络预测得到的结果计算软损失和硬损失，目标是最小化总的损失函数，利用随机梯度下降法更新网络中的参数，完成模型训练过程。

本实施例中选择的教师网络是精度很高的短期密集级联网络(Short-TermDenseConcatenate network，STDCNet)，这是一种基于卷积网络的特征提取结构，在开源数据集上的检测精度很高，同时模型参数量很大，适合作为教师网络训练得到一个更加轻量化的学生网络模型。如图2所示，在蒸馏学习过程中，损失函数由两部分组成，第一部分是网络预测结果和真实标签之间的损失值，第二部分是网络预测结果和教师网络输出之间的损失值。损失函数定义如下：

Loss₁＝L_CE(ψ(p_s)，y) (12)

Loss₂＝KL(ψ(p_s/τ)，ψ(p_t/τ)) (13)

Loss_total＝(1-α)·Loss₁+ατ²·Loss₂ (14)

其中，p_s是本实施例中网络模型的预测结果，p_t是教师网络的预测结果，y是真实标记的结果，τ是蒸馏的温度，ψ代表softmax归一化指数函数，L_CE代表交叉熵损失函数，KL代表KL散度值，Loss₁代表网络预测结果与真实标签之间的损失值，Loss₂代表网络预测结果和教师网络输出之间的损失值，Loss_total代表模型训练过程中总的损失值，参数α用来平衡这两个损失值。本实施例中，经过大量试验验证参数的取值，最终蒸馏温度τ取值为3.0，平衡参数α取值为0.1。

步骤8：模型训练过程中，所有参数采用“Kaiming初始化”的方法进行随机初始化，之后采用自适应矩估计优化器(adam)进行参数梯度计算和参数更新，参数更新的步长，即学习率，采用“poly”变化策略，学习率和迭代次数之间的关系如下：

其中，lr为当前学习率的值，base_lr为基准学习率，本实施例中取值为0.00006，iter为当前的迭代次数，max_iters为模型最大迭代次数，power用来控制学习率变化曲线的形状，本实施例中取值为0.9。在该种学习率变化方式中，学习率随迭代次数的增加不断下降，直到降低到0。

步骤9：模型训练结束后，所有训练好的参数值保存在一个.pth文件中。在模型验证过程中，调用这个.pth文件，将权重值赋值给模型的每一个函数层，之后将验证集图像输入到训练好参数的网络中，可以得到模型预测的分割效果图，如图7所示。图7(a)为验证集中的输入图像，图7(b)为数据集中标记的真实分割效果图，图7(c)为本实施例网络预测得到的分割效果图，从结果图可以看出，模型分割的精度较高，在自动驾驶等交通场景中具有一定的研究价值。

步骤10：计算模型的4个评价指标：模型分割精度(平均交并比mIoU)，分割速度(每秒分割的帧数FPS)，模型参数量(Params)和模型计算量(浮点运算次数FLOPs)。前两个指标在一定程度上存在着矛盾的关系，如果一个模型的精度很高，通常包含很复杂的结构，则其计算速度会很慢；反之，如果一个模型的计算速度很快，则通常是一些轻量化的结构设计，可能会损失掉一部分精度。而后两个指标没有这种矛盾关系，通常如果一个模型的参数量多，则模型所需的计算量也会很大。

对于若干个对比模型，本实施例中设计了一种新的评价指标综合了上述4个指标，首先，由于这4个指标的量纲不同，需要对所有对比模型的这4个指标值进行归一化处理，具体归一化方法如下：

其中，acc为各个模型的分割精度，acc_min为对比模型中精度的最小值，acc_max为对比模型中精度的最大值，

各个模型的精度归一化后的值。speed为各个模型的分割速度值，speed_min为对比模型中速度的最小值，speed_max为对比模型中速度的最大值，

各个模型的速度归一化后的值。param为各个模型的参数值，param_min为对比模型中模型参数的最小值，param_max为对比模型中速模型参数的最大值，

各个模型的参数归一化后的值。flops为各个模型的计算量值，

为对比模型中模型计算量的最小值，

为对比模型中模型计算量的最大值，

各个模型的计算量归一化后的值。

其次，对于归一化后的模型精度、速度、参数量和计算量，定义的综合评价指标如下所示：

其中，

为归一化后的模型精度值，

为归一化后的模型速度值，

为归一化后的模型参数值，

为归一化后的模型计算量。β为用来调节归一化的精度和归一化的速度之间重要程度的超参数，对于实时语义分割模型，模型的速度值通常较快，可以满足实时性的要求，故本实施例中认为此时分割的精度比速度更重要，β值取为0.5，即分割精度的重要程度是分割速度的2倍。此外，β的取值可以根据分割场景的不同进行变换，以适应不同的分割问题。F_β为本实施例中定义的综合评价指标，最大取值为1，该值越大，说明模型对于分割的精度、速度、参数量和计算量的平衡效果越好，模型的综合性能越好，考虑综合评价指标的计算结果，可将模型投入使用，或选择对模型进行重新训练以获取更好的性能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。