CN111639524A

CN111639524A - 一种自动驾驶图像语义分割优化方法

Info

Publication number: CN111639524A
Application number: CN202010311647.1A
Authority: CN
Inventors: 赖剑煌; 郭彤彤; 李中华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-09-08
Anticipated expiration: 2040-04-20
Also published as: CN111639524B

Abstract

本发明公开了一种自动驾驶图像语义分割优化方法，该方法设计了一种使用标签来辅助激活的AAM模块，通过分割标签对网络提取的特征进行修正，使得同类物体提取出来的特征具有近似相同的值。将AAM模块集成到分割模型的编码器与解码器中间，通过训练得到一个性能比基准模型更好的模型，称为教师网络；通过知识迁移将教师网络基于AAM模块的所学知识迁移到分割模型中，从而提升其分割性能。本发明能够很好地挖掘分割标签的信息来提高分割模型的性能，并且无需修改网络结构，具有很强的应用价值。

Description

一种自动驾驶图像语义分割优化方法

技术领域

本发明涉及自动驾驶以及图像语义分割领域，特别涉及一种自动驾驶图像语义分割优化方法。

背景技术

智能交通的感知任务最大的挑战在于需要处理的环境高度复杂。通过相机获取到的图像是非常丰富的多维信号，但是这些图像又需要极其复杂的算法来处理。传统的基于视觉的方法主要是开发特定的技术来检测交通中的组成成分，例如行人汽车交通灯等，通过深度学习把这些分类问题统一成一个简单的问题：语义分割。

语义分割是由粗略分类到精细分类这个问题的进化产物，要对每一个像素都进行一个类别预测。在深度学习中，需要设计网络来获取整张图片的语义及位置信息。可以概括为以下几种思路：Patch classification、全卷积、Encoder-Decoder架构(编码器-解码器架构)、空洞卷积。为了帮助网络提升他们的性能，挖掘更多的先验知识是一个很好的办法。应用过程中获取到的数据集一般都包括RGB原图像和对应的分割掩膜。在端到端的语义分割网络训练过程中，标签掩膜是整个网络的学习目标，最终通过计算网络得到的掩膜和标签之间的分类损失，利用优化器将其最小化来获得更高的分类精度。

在编码器-解码器架构方法中，编码器的目标是学习一张RGB原图的高层语义特征，去试图学习并激活整张图片中不同类别的目标，并将不同类别目标的激活值尽可能的区分开。可发现分割标签就是由0～类别数N区间内的数字组成。如果把这些数字想象成激活的不同程度，那这种信息就可以作为先验知识，来帮助提升整个网络的性能。

然而，在训练阶段使用已标注的分割标签作为网络输入能产生更优异的分类结果，但也会导致在测试阶段产生糟糕的分类，因为测试数据集的分割标签往往是不可得的。

为此，如何在保持实时的前提下提高分割精度，成为一个重要的研究内容。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种自动驾驶图像语义分割优化方法，该方法针对自动驾驶图像，深度挖掘分割标签信息，将标签信息协助语义分割，挖掘更多先验知识，帮助网络学习判别性信息及实现最大化的分割结果，在保持实时的前提下提高分割精度。

本发明的目的通过以下的技术方案实现：一种自动驾驶图像语义分割优化方法，包括步骤：

构建一教师-学生学习网络，其中教师网络是指编码器、AAM模块、解码器训练得到的分割模型，学生网络为仅包括编码器、解码器的基准模型，通过知识迁移将学习好的教师网络的知识迁移到学生网络，进而训练学生网络；

在训练教师网络过程中将AAM模块集成到基准模型的编码器和解码器中间，得到教师网络分割模型；

其中，AAM模块中没有可学习参数，其执行下述4个步骤：

将编码器输出的多通道高层语义特征图按通道的维度求平均，获得每个像素位置的平均特征值，进而得到单通道平均特征图；

将单通道平均特征图逐像素的和训练集分割标签相乘，得到单通道前辅助性特征激活图；所述训练集分割标签中属于不同的目标的像素有不同的激活等级；

将单通道前辅助性特征激活图与激活因子相乘，得到最终辅助性特征激活图；所述激活因子在训练过程中会随着训练次数的增加逐渐减小直至为零；

将最终辅助性特征激活图与多通道高层语义特征图相加，作为解码器的输入。

本发明在训练教师网络过程中，在编码器和解码器中间插入AAM模块，AAM模块将编码器高层语义特征和训练集分割标签作为输入，可以获取辅助性特征激活图，加大不同类目标的特征激活值距离，帮助网络提升分割性能。通过设置激活因子可以控制在训练后期降低训练集分割标签的参与，有助于网络自身的学习。本发明能够很好地挖掘分割标签的信息来提高分割模型的性能，并且无需修改网络结构，提升学生网络的分类性能，具有很强的应用价值。

优选的，AAM模块中激活因子的计算公式为：

其中t和max分别表示当前和最大的训练循环次数。

优选的，教师网络的分割损失采用多类交叉熵损失，每一个类别损失权重根据数据集提前计算，被忽视的类别的权重设为零，多类交叉熵损失计算公式如下：

其中，W×H表示图像的分辨率大小，q_i,j表示由网络预测的第i个像素属于第j类的概率，y_i,j代表对应的真值(Ground Truth)，ω_j表示第j类的权重，R表示从1到W×H的像素集合，K表示所有类别的集合。

更进一步的，用KL散度来约束教师网络和学生网络的输出概率分布距离，使得分布距离尽可能缩短。相比之下，这种经过进修的网络表现比原始的baseline(基准)分割网络性能更优。本发明学生网络的训练采用KL损失去迁移教师网络的知识，其表达式如下：

其中，W×H表示图像的分辨率大小，

表示由学生网络预测的第i个像素的类概率，

表示由教师网络预测的第i个像素的类概率，R表示从1到W×H的像素集合；

学生网络训练过程中总的损失函数表达为以下式子：

其中

是多类交叉熵损失，λ是一个超参数。

优选的，本发明中所述的基准模型包括但不限于：LEDNet,DFANet,SegNet,ENet,ESPNet,ERFNet,ICNet和CGNet；分割模型采用Adam优化器来训练。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明针对自动驾驶图像，提出了辅助性的激活模块AAM去挖掘训练集图像的分割标签潜在的信息，能够在保持实时的前提下提高分割精度。

2、本发明提出了一个新颖的工作机制，将AAM模块协助下的教师网络训练好的知识迁移到没有AAM模块的学生网络中去，这样可以很好地解决在测试阶段测试集缺乏分割标签参与网络输入导致的泛化能力不足的问题。值得注意的是教师网络和学生网络仅仅相差一个AAM模块。

3、本发明将未携带AAM模块的baseline分割网络作为学生网络。教师网络因为有了辅助性的激活模块的帮助，获得的知识更稳定。将它的知识迁移到学生网络中，让学生网络即使没有标签的额外协助也可以训练出好的参数，可提升性能。

附图说明

图1是本发明在八个分割网络上作用的实验结果。

图2是本发明提出的辅助性激活模块AAM的原理结构图。

图3是本发明完整的网络结构图。

图4是本发明在Cityscapes数据集上的实验结果图片效果。

图5是本发明在Camvid数据集上的实验结果图片效果。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明的重点在于如何保证网络实时的前提下挖掘训练集分割标签的信息来提高基准模型的分割性能，提出了一种自动驾驶图像语义分割优化方法，该方法的核心是在基准模型的编码器和解码器中间设置一个AAM模块，将训练集分割标签和编码器高层语义特征作为AAM模块的输入，通过AAM模块的处理得到辅助性的特征激活值，帮助网络提升分割性能。

进一步的，根据上述自动驾驶图像语义分割优化方法，本实施例构建图3所示的教师-学生学习网络，其中教师网络是指所述编码器、AAM模块、解码器训练得到的分割模型，学生网络为仅包括编码器、解码器的基准模型，通过知识迁移将学习好的教师网络的知识迁移到学生网络，进而训练学生网络。达到优化基准模型的目的。在实际应用中，该网络还可以应用到缺陷在线检测等要求实时进行语义分割的领域。

下面结合图1-5对本实施例方法及其效果进行详细说明。

如图3所示，在整个网络结构图中，编码器获取图像的高层语义特征图，得到目标在空间和语义上的信息，即目标激活图。高层特征图越能区分原图像中各个目标，解码器就能获得更好的语义分割掩膜。所以在训练过程中，在编码器和解码器中间插入AAM模块获取最终的辅助性特征激活图加大不同目标的特征激活值距离，优化高层特征图，可帮助网络提升分割性能。

AAM模块是挖掘并利用训练集分割标签的信息。正如图2所示，在训练阶段，AAM模块将编码器的高层特征图和训练集分割标签作为输入。执行下述4个步骤：

(1)将编码器输出的多通道高层语义特征图按通道的维度求平均，获得每个像素位置的平均特征值，进而得到单通道平均特征图。特征图分辨率不变，通道由C变为1。C表示高层语义特征图的通道数量。

(2)利用训练集分割标签的数值属性，属于不同的目标的像素有不同的激活等级，将单通道平均特征图逐像素的和训练集分割标签相乘，获得单通道前辅助性特征激活图。同一类别的目标辅助性激活程度相同，不同类别的目标辅助性激活程度就不同，可以拉大不同目标的特征值差异。

(3)设置一个激活因子α，激活因子在训练期间会逐渐降低，辅助性特征激活图也会逐渐减小，控制在训练后期降低训练集分割标签的参与，有助于网络自身的学习。其中的激活因子α为：

其中t和max分别表示当前和最大的训练循环次数。

然后，将单通道前辅助性特征激活图与激活因子相乘，得到最终辅助性特征激活图。

(4)将最终辅助性特征激活图通过传播机制与多通道高层语义特征图相加，作为解码器的输入。

如表1所示，将AAM模块集成到不同的教师网络上后，在训练集和测试集上得到分割结果，从该表数据可看到，尽管AAM模块的参与的确在训练阶段展示取得了较好的分割效果，但由于测试阶段，测试集的分割标签不能直接作为网络的输入，没有AAM的模块协助，未能产生好的分割效果。

表1不同教师网络在训练和测试集上的结果

Teacher	Training mIoU(％)	Validation mIoU(％)
			LEDNet*	91.4	23.2
DFANet*	90.3	53.0
			SegNet*	69.9	4.1
ENet*	88.2	37.1
			ESPNet*	88.5	35.3
ERFNet*	90.5	27.2
			ICNet*	82.9	55.6
CGNet*	83.9	60.6

由于在测试阶段，网络没有数据标签作为输入，在S1部分中提到的激活因子在一定程度上可以解决此泛化能力的问题，但起到的作用很小。循环学习的机制在图像分割上的作用远远比想象中的更加依赖于标签。这就导致在测试阶段，整个模型没有AAM模块的参与，将加深泛化差的问题。对于深度学习中的泛化能力问题，很多研究者已经提出像增加BN层或者数据增强的方式来解决，但是这些方法能力是非常有限的。

本实施例提出了一种解决泛化能力问题的方法LAFE，利用知识迁移，将有AAM模块参与的网络称为教师网络，将它获取的稳定的知识迁移到没有AAM模块参与的学生网络中，提升学生网络分割性能。

LAFE方法可以作用到已有的baseline(基准)分割模型中进行优化。这项技术仅仅涉及到训练过程，在测试阶段不改变baseline网络结构，不增加任何计算量。整个训练过程分为两个阶段：

a、利用AAM模块训练出教师网络。

在编码器-解码器架构中，编码器将输入图像经过多层卷积层以及下采样得到高层的语义特征图。高层特征图可以获取各类别目标的位置信息以及语义信息。随后解码器获取编码器学到的高层特征图，通过上采样等一系列操作得到最终的分割掩膜。AAM模块利用了训练集分割标签的阶梯状数值的表示，不仅仅辅助了每个目标中像素的分类，还加大不同目标之间的距离。在AAM模块中，分割标签的分辨率会与下采样和编码器得到的特征图分辨率一致。

AAM模块得到的单通道辅助性特征激活图将会被加到编码器高层特征图上，再传入给解码器解码。这种工作模式将表达为以下数学表达式：

a^l+1＝a¹+α(t)e (2)

其中a^l和a^l+1分别表示编码器的高层特征图以及将输入到解码器的特征图。本发明训练阶段的AAM模块并没有涉及学习参数，而且测试阶段没有增加计算量、没有改变网络模型。通过实验结果显示，挖掘训练集标签信息的AAM模块起到了非常重要的作用。

教师网络的分割损失采用了多类交叉熵损失。每一个类别损失权重都会根据数据集提前计算。被忽视的类别的权重设为零。多类交叉熵损失计算公式如下：

b、将学习好的教师网络的知识迁移到学生网络中，训练出优异的学生网络。

将训练集分割标签协助的、训练好的教师网络的知识迁移到学生网络中，提高网络泛化能力。知识迁移的过程中，所选定的教师网络参数将会是训练教师网络过程中性能最好的模型，辅助性激活因子也将是这个模型相应的因子值。学生网络的结构和教师网络的结构在训练时只相差AAM模块。在分类概率中，不正确的类别概率值也会说明很多关于模型是如何泛化的信息。类别分类概率作为软目标。在教师网络和学生网络之间，采用了KL散度来去度量两个网络的输出概率分布距离并尽可能缩短。LAFE是一个相对独立的方法，可以帮助已有的baseline分割网络提升性能。

学生网络的训练应用KL损失去迁移教师网络的知识。其表达式如下：

其中，W×H表示图像的分辨率大小，

表示由学生网络预测的第i个像素的类概率，

表示由教师网络预测的第i个像素的类概率。

学生网络训练过程中总的损失函数表达为以下式子：

其中

是多类交叉熵损失，λ是一个超参数，在实验中设为0.25。

本实施例使用了两个数据集Cityscapes和Camvid来验证LAFE技术的有效性。Cityscapes这个数据集主要是用来描述城市街道场景与理解。其中包括50个不同城市的街道场景的视频帧。本发明利用了5000个高质量的细标注标签。这个标签数据总共包括2975张训练图，500张验证图以及1525张测试图。

Camvid这个数据集是第一个收集目标类别语义标签的视频集。这个数据集总共包括有32个类别。实验仅用11个类别有精细像素级的标注。其他类别的目标将被忽视不参与到训练中。

本实施例选择了八个性能优异的baseline来作为被辅助对象，包括LEDNet,DFANet,SegNet,ENet,ESPNet,ERFNet,ICNet和CGNet。为了方便实验的进行，所有的分割网络都用Adam优化器来训练，优化器中的两个配置参数-指数衰减率β1和β2分别设为0.9和0.999。权重衰减系数设为0.0004。总训练次数300次。学习率最初定为0.0005。并且通过相乘

更新。两个数据集的图像分辨率分别为1024x512和480x360。在训练阶段应用了数据增强的方法其中包括随机平移0到2个像素、随机垂直反转。测试阶段没有应用增强数据。所有的实验都是在PyTorch框架上写的。并且使用3个GTX1080ti GPU。将baseline网络和利用LAFE进修的baseline两种模型得到的性能之间做了mIoU和category精确度比较。

在Cityscapes上的结果如下表数据所示，“+”表示本实施例方法处理后的模型。

表2在Cityscapes上不同网络的结果对比

每个模型的性能都以提高，分别产生了1.8、6.6、4.06、5，28、5.5、1.7、1.0的精确度的增益。说明知识迁移缓解了泛化差的问题。这些类别包括墙、栅栏、交通灯、交通标志、行人、卡车、公共汽车以及火车自行车。在原始网络中都表现极好的类别上一仍旧保持着高的性能。附图4是分割可视化结果，可以证明经过LAFE技术进修的baseline模型对所有的类别都有一致性的质量上的提高。

在Camvid上的结果如表3所示，其中“+”表示本实施例方法处理后的模型。

表3在Camvid上不同网络的结果对比

由于这个数据集存在某些类别的数据极其不平衡的缺陷，本实施例训练的分割网络可能在某些类别上会产生比较低的性能，比如栅栏。而在其它类别上，以及平均水平都做得很好。通过比较所有的实验，唯一的下降就是Segnet这个网络，分析该网络编码器下采样率16倍过低导致失去了更多的信息。图5显示了分割网络输出的可视化例子，这也证明了在质量上的提高。

本项发明提出了利用训练集分割标签来协助baseline分割网络提升性能。提出的LAFE方法通过知识迁移，将训练好的教师网络的知识去训练出一个更高性能的学生网络。该方法尝试着去挖掘更多先验知识，帮助网络学习判别性信息及实现最大化的分割结果。本实施例将LAFE方法应用到了八个语义分割的baseline网络结构中，在Cityscapes和Camvid的两个数据集上的实验都实现了分割精度上的极大提升，证明其有效性，而且测试阶段仍旧保留了原始的网络结构。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种自动驾驶图像语义分割优化方法，其特征在于，

其中，AAM模块中没有可学习参数，其执行下述4个步骤：

2.根据权利要求1所述的自动驾驶图像语义分割优化方法，其特征在于，AAM模块中激活因子的计算公式为：

其中t和max分别表示当前和最大的训练循环次数。

3.根据权利要求1所述的自动驾驶图像语义分割优化方法，其特征在于，教师网络的分割损失采用多类交叉熵损失，每一个类别损失权重根据数据集提前计算，被忽视的类别的权重设为零，多类交叉熵损失计算公式如下：

其中，W×H表示图像的分辨率大小，q_i,j表示由网络预测的第i个像素属于第j类的概率，y_i,j代表对应的真值，ω_j表示第j类的权重，R表示从1到W×H的像素集合，K表示所有类别的集合。

4.根据权利要求3所述的自动驾驶图像语义分割优化方法，其特征在于，学生网络的训练采用KL损失去迁移教师网络的知识，其表达式如下：

其中，W×H表示图像的分辨率大小，

表示由学生网络预测的第i个像素的类概率，

学生网络训练过程中总的损失函数表达为以下式子：

其中

是多类交叉熵损失，λ是一个超参数。

5.根据权利要求1所述的自动驾驶图像语义分割优化方法，其特征在于，所述的基准模型包括但不限于：LEDNet,DFANet,SegNet,ENet,ESPNet,ERFNet,ICNet和CGNet；分割模型采用Adam优化器来训练。