CN113158768A

CN113158768A - 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法

Info

Publication number: CN113158768A
Application number: CN202110234451.1A
Authority: CN
Inventors: 张荣辉; 吴月颖
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-07-23
Anticipated expiration: 2041-03-03
Also published as: CN113158768B

Abstract

本发明公开ResNeSt和自注意力蒸馏的智能车辆车道线检测方法，该方法基于深度学习，以卷积神经网络和编码‑解码框架为核心，设计了一个车道线检测网络；使用ResNeSt作为主干网络，并采用自注意力蒸馏技术，以增强网络的特征提取能力；利用传感器获取的图像作为输入，对输入图像进行预处理，以提高网络的速度和精度；网络设计了两个分支，利用二进制分支实现车道线的语义分割，利用嵌入分支实现车道线的实例分割，获取每一条车道线的实例。本发明的方法可在不同的因素影响下，提高车道线检测的准确性和鲁棒性，为驾驶员辅助系统和智能车辆系统提供更准确的感知信息。

Description

基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法

技术领域

本发明涉及智能车辆的车道线检测领域，特别是涉及基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法。

背景技术

随着智能车辆的快速发展，车道线检测在高级辅助驾驶系统和智能驾驶系统中起着至关重要的作用。环境感知是智能车辆系统的基础，是车辆进行后续决策、规划的前提。其中对道路进行感知的车道线检测是环境感知的重要组成部分，可靠的车道线检测能帮助后续的车道偏离和轨迹规划决策做出正确判断，让车辆正确地行驶在车道内，保障行车安全；而效果不佳的车道线检测则可能导致车辆在行驶过程中出现错误判断，影响车辆行驶安全。另一方面，由于车道线标记种类繁多，路况复杂多变，车道线标记固有的细长特征等诸多因素影响，车道线检测算法成为一项具有挑战性的任务。

目前的车道线检测方法大致可以分为两类：一类是基于传统的计算机视觉，另一类是基于深度学习的。基于传统视觉的车道线提取方法大多是通过对车道标线的边缘特征、颜色特征和几何特征的分析来提取车道线区域，这种方法在特定场景下可以很好地工作，但是需要手动调整滤波算子，当情况发生较大变化时，这些方法可能存在缺陷，严重影响识别精度；而基于深度学习的车道检测方法可以通过对特征的自动分析和学习来检测车道线，具有较好的鲁棒性，例如公开号为：CN111814623A、公开日为2020/10/23的中国专利：一种基于深度神经网络的车辆车道偏离视觉检测方法，该专利公布的检测方法基于神经网络进行识别，精度较高，但是环境复杂时，不能很好地识别输入的图片，存在较大误差，该神经网络模型存在一定的缺陷，因此，需要设计一种更精确识别的车辆车道线检测方法。

发明内容

本发明提供一种基于ResNeSt和自注意力蒸馏(Self Attention Distillation，SAD)的车道线检测方法。该方法可在不同的照明条件、道路上车辆的遮挡、道路上的其他标记等多种因素影响下，提高车道线检测的准确性和鲁棒性，为驾驶员辅助系统和智能车辆系统提供更准确的感知信息。

本发明的技术方案如下：

基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法，包括以下步骤：

S1、对训练图像进行预处理；

S2、制作训练集：

对每一张图像制作两个标签作为训练集的数据，其中一个作为训练二进制分支的真实标签，另一个作为训练嵌入分支的真实标签；

S3、将训练集的图像输入多分支卷积神经网络进行训练：

卷积神经网络设有编码-解码结构；编码器对训练数据进行编码，编码器中使用ResNeSt作为主干网络，并设有自注意力蒸馏路径；解码器对编码器输出的特征图进行反卷积，实现上采样和分类；解码器的最后一层，设有两个分支，分别为二进制分支和嵌入分支，利用二进制分支进行语义分割、嵌入分支进行实例分割，两个分支均使用卷积核为1×1的卷积层降低特征映射的维数，作为二进制分支和嵌入分支的输出；计算输出的特征图像与输入的真实标签之间的损失，然后使用梯度下降算法更新神经网络模型的参数，训练直至网络收敛；

S4、训练完毕后，将实际的道路图片输入多分支卷积神经网络，得到两个输出，一个是通过二进制分支进行语义分割后的输出，另一个是通过嵌入分支进行实例分割后的输出，之后进行后处理，如下：

得到语义分割的结果后，用语义分割的结果制作mask过滤掉嵌入分支输出中属于背景的部分，然后对其进行Meanshift聚类即得到属于不同车道线像素的聚类，获得真正的实例分割的结果；

得到实例分割的结果后，在拟合车道过程中，采用如下算法：

假设第i条车道的点集为A_i，而A_i中的点坐标为(x,y)，则有一系列的x(x₁,x₂,x₃,……,x_n)对应于相同的y值，然后对这些x计算平均值

得到：

由此得到点的坐标为

根据这一算法，得到每个车道的点集，最后通过三次样条插值得到最终的车道线检测结果输出。

进一步，步骤S3中，编码器和解码器都由五个Block组成，每个Block内包含若干层卷积。

进一步，对于编码器，使用ResNeSt作为主干网络，ResNeSt使用拆分注意力，将每个块的特征图沿通道维度分成若干组，每个组再拆分成若干个部分，再把每个部分经过不同的卷积，最后每个组的特征表达是其各个部分特征图的加权组合，权重根据全局信息选择。使用这样的拆分注意力块可以实现跨通道、跨组的特征融合，同时不会带来过多的计算。

进一步，步骤S3中，在编码器的Block3和Block4之间、以及Block4和Block5之间添加了两条自注意力蒸馏路径。

进一步，自注意力蒸馏的实现是通过从Block输出的特征图中提取注意力图，然后让低层的Block的注意力图学习高层Block的表达。

进一步，注意力图的提取实际为寻找一个通道上的映射函数，就是将一个通道数*高*宽的特征图映射为一个单通道的高*宽的特征图，其中映射函数为

得到的单通道的特征图就称为注意力图；其中C_m为第m个block输出的特征图的通道数，H_m为第m个block输出的特征图的高，W_m为第m个block输出的特征图的高；

映射函数通过计算通道上的值的统计信息来构造，进一步演变为下式：

其中，A_m为第m个block输出的特征图，A_mi为A_m在通道维度上的第i层；选择上式来提取注意力图，然后，对提取出的注意力图使用softmax，最后使用最小均值误差计算两个注意力图之间的损失。

进一步，对于解码器，解码器也包括5个Block，与编码器各Block的变换一一对应，实现特征映射的解码和上采样。

进一步，为了在解码时充分利用全局信息，解码器采用分割网络Unet提出的跳跃连接，它将编码对应层的输出和解码块的输出联合起来进行解码。

进一步，步骤S3中，特征图像与输入的真实标签之间的损失主要分三个部分；包括语义分割时的损失、实例分割时的损失、以及进行自注意力蒸馏时的损失；

对于语义分割时的损失，采用Dice Loss公式作为损失函数；

对于实例分割时的损失，采用pixel embedding的方法实现实例分割：

训练后，嵌入分支为每个像素输出一个3维向量，属于同一车道的向量之间的距离很小，不同车道线像素的向量之间的距离很大，所以使用修正后的损失函数，如下式：

式中，C表示聚类的个数，即车道线的条数；N_c为聚类C中的像素数量；μ_c为聚类C中的向量平均值；X_i为第i个像素的嵌入向量；δ_v为超参数，仅在向量与其聚类中心的距离大于δ_v时，才计算损失；δ_d为超参数，仅当聚类中心之间的距离小于δ_d时，才计算损失；[x]₊表示max(0，x)；下标A和B表示两个不同的车道线；

方差损失L_var将属于同一条车道线的像素点的嵌入向量拉向这条车道线向量的平均值，即让同一条车道线的像素之间的嵌入向量距离更近，形成一个聚类中心；

距离损失L_dist将聚类中心彼此推开，即让不同车道线的像素的向量之间的距离变大；

对于进行自注意力蒸馏时的损失，过程如下：

在通过自注意力蒸馏路径提取注意力图后，由于目标图比原始图小，所以要先对目标图进行上采样，然后对每个图执行softmax，然后计算两个注意力图之间的均方误差，自注意力蒸馏的损失函数公式如下：

Ψ(A_m)表示对特征图A_m进行注意力图提取、上采样和softmax操作；m为

第m个block输出的特征图，M为block的总数；

所以总的损失函数由以下三项组成：

L_total＝αL_bin+β(L_var+L_dist)+γL_SAD

L_bin是用Dice Loss公式计算的语义分割时的损失，参数α,β和γ平衡了各个损失的影响。

进一步，步骤S1中利用传感器获取的图像作为输入，训练图像的原始尺寸为1280×720，预处理时使用双线性插值将图像的尺寸下采样到512×288。

本发明的有益效果为：

本发明的方法基于深度学习，以卷积神经网络和编码-解码框架为核心，设计了一个车道线检测网络；使用ResNeSt作为主干网络，并采用自注意力蒸馏技术(SAD)，以增强网络的特征提取能力；利用传感器获取的图像作为输入，对输入图像进行预处理，以提高网络的速度和精度；网络设计了两个分支，利用二进制分支实现车道线的语义分割，利用嵌入分支实现车道线的实例分割，获取每一条车道线的实例。本发明的方法可在不同的照明条件、道路上车辆的遮挡、道路上的其他标记等多种因素影响下，提高车道线检测的准确性和鲁棒性，为驾驶员辅助系统和智能车辆系统提供更准确的感知信息。

附图说明

图1为本发明的方法流程示意图；

图2为神经网络的网络结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

实施例1：

如图1所示，基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法，包括以下步骤：

S1、对训练图像进行预处理；

利用传感器获取的图像作为输入，训练图像的原始尺寸为1280×720，预处理时使用双线性插值将图像的尺寸下采样到512×288；

S2、制作训练集：

使用深度学习训练网络的第一步是对训练数据进行读取，将其处理为输入网络的标准格式，并制作训练网络的ground truth；因为神经网络有两个分支，所以对每一张图像制作两个标签作为训练集的数据，其中一个作为训练二进制分支的真实标签，区分图像像素是属于车道线还是背景；另一个作为训练嵌入分支的真实标签，确定车道线像素属于哪条车道；

S3、将训练集的图像输入多分支卷积神经网络进行训练：

对数据图像及其标注信息处理完毕后，就可以获得处理好的训练集，进入网络模型的训练阶段；

该神经网络是一个多分支卷积神经网络，有两个输出，可以对行车图片同时进行语义分割和实例分割任务；语义分割是对行车图片实现像素级的处理，区分图像中的每一个像素点，得到车道线像素区域；同时，在语义分割的基础上，使用嵌入分支基于DeBrabandere等人提出的pixel embedding方法进行实例分割，得到不同车道线的实例；

S4、训练完毕后，将实际的道路图片输入多分支卷积神经网络，得到两个输出，一个是通过二进制分支进行语义分割后的输出，另一个是通过嵌入分支进行实例分割后的输出，之后进行后处理，后处理的作用是基于网络的输出结果获取实际车道线的位置，如下：

得到实例分割的结果后，在拟合车道过程中，由于最小二乘法计算量大，且拟合能力不强，所以拟合车道采用如下算法：

得到：

由此得到点的坐标为

参阅图2，在步骤S3中，编码器和解码器都由五个Block组成，每个Block内包含若干层卷积；并在编码器中加入了两条自注意力蒸馏路径(SAD path)来加强网络的特征学习，自注意力蒸馏是通过让网络的低层学习自身的高层表达来提高整体的特征表达能力，即使用自身的高层表达作为低层表达的标签，不需要添加额外的标签和外部监督。

对于编码器，该方法使用ResNeSt作为主干网络，ResNeSt使用拆分注意力，将每个块的特征图沿通道维度分成若干组，每个组再拆分成若干个部分，再把每个部分经过不同的卷积，最后每个组的特征表达是其各个部分特征图的加权组合，权重是根据全局信息选择的；使用这样的拆分注意力块可以实现跨通道、跨组的特征融合，同时不会带来过多的计算。编码器进行卷积操作，提取车道线的特征信息。经过预处理之后的图像以3*288*512(通道数*高*宽)的大小输入神经网络，编码器共包含五个block，每个Block内包含若干层卷积，经过编码器的每一个block，特征图的大小变小，通道数增加，以学习车道线的高维特征。

自注意力蒸馏允许模型从自身学习，并在没有任何额外的监督或标签的情况下获得实质性的改进。具体来说，从训练到合理水平的模型中提取的注意力图包含丰富的上下文信息。这些信息可以作为一种“免费”的监督；在训练过程中，使低层的网络模拟学习高层的表达，从而在促进低层网络的特征表达能力的同时，提高网络的整体的特征表达能力。

本发明在编码器的Block3和Block4之间、以及Block4和Block5之间添加了两条自注意力蒸馏路径(SAD path)，以进一步增强网络的特征表达能力，如图3所示。其中自注意力蒸馏的实现是通过从Block输出的特征图中提取注意力图，然后让低层的Block的注意力图学习高层Block的表达。

其中注意力图的提取实际为寻找一个通道上的映射函数，就是将一个通道数*高*宽的特征图映射为一个单通道的高*宽的特征图，其中映射函数为

其中，A_m为第m个block输出的特征图，A_mi为A_m在通道维度上的第i层；

选择上式来提取注意力图，然后，对提取出的注意力图使用softmax，最后使用最小均值误差计算两个注意力图之间的损失。

对于解码器，主要作用是对编码器输出的特征图进行反卷积，实现上采样和分类。解码器也包括5个Block，与编码器各Block的变换一一对应，实现特征映射的解码和上采样。为了在解码时充分利用全局信息，本发明采用Unet提出的跳跃连接，它将编码对应层的输出和解码块的输出联合起来进行解码。在解码器的最后一层，设计了两个分支，即二进制分支和嵌入分支；分别使用两个卷积核为1×1的卷积层来降低特征映射的维数，作为二进制分支和嵌入分支的输出。解码器进行反卷积操作，对编码器输出的特征进行逐层解码，特征图变大，通道数减少，实现特征图的上采样和像素分类。在解码器的最后一层分别用两个1*1的卷积层实现两个分支，二进制分支输出2*288*512大小的特征图，即为语义分割的结果；嵌入分支输出3*288*512大小的特征图。

步骤S3中，在训练阶段，需要计算网络的输出与输入的真实标签之间的损失，然后使用梯度下降算法更新网络模型的参数，训练直至网络收敛。特征图像与输入的真实标签之间的损失主要分三个部分，包括语义分割时的损失、实例分割时的损失、以及进行自注意力蒸馏时的损失；

由于图像中车道线像素的比例很小，会造成严重的样本不均衡，为了解决这个问题，对于语义分割时的损失，本发明采用Dice Loss公式作为损失函数；

训练后，嵌入分支为每个像素输出一个3维向量，属于同一车道的向量之间的距离很小，不同车道线像素的向量之间的距离很大，本发明使用经De Brabandere等人修正后的损失函数，如下式：

利用pixel embedding方法提出的损失函数训练后的网络，能够使同一条车道线的像素之间的嵌入向量的距离较小，而不同车道线像素之间的嵌入向量距离很大，这样就可以通过对嵌入向量进行密度聚类的实现不同车道线的像素分类，得到真正的实例分割结果。

对于进行自注意力蒸馏时的损失，过程如下：

第m个block输出的特征图，M为block的总数；

所以总的损失函数由以下三项组成：

L_total＝αL_bin+β(L_var+L_dist)+γL_SAD

本发明基于深度学习的车道检测方法可以通过对特征的自动分析和学习来检测车道，具有较好的鲁棒性。本发明的车道检测方法在识别精度上达到目前先进的性能，满足智能车辆自动驾驶对于感知信息需求。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法，其特征在于，包括以下步骤：

S1、对训练图像进行预处理；

S2、制作训练集：

S3、将训练集的图像输入多分支卷积神经网络进行训练：

假设第i条车道的点集为A_i，而A_i中的点坐标为(x，y)，则有一系列的x(x₁，x₂，x₃，......，x_n)对应于相同的y值，然后对这些x计算平均值

得到：

由此得到点的坐标为

2.根据权利要求1所述的智能车辆车道线检测方法，其特征在于，步骤S3中，编码器和解码器都由五个Block组成，每个Block内包含若干层卷积。

3.根据权利要求2所述的智能车辆车道线检测方法，其特征在于，对于编码器，使用ResNeSt作为主干网络，ResNeSt使用拆分注意力，将每个块的特征图沿通道维度分成若干组，每个组再拆分成若干个部分，再把每个部分经过不同的卷积，最后每个组的特征表达是其各个部分特征图的加权组合，权重根据全局信息选择。

4.根据权利要求2所述的智能车辆车道线检测方法，其特征在于，步骤S3中，在编码器的Block3和Block4之间、以及Block4和Block5之间添加了两条自注意力蒸馏路径。

5.根据权利要求4所述的智能车辆车道线检测方法，其特征在于，自注意力蒸馏的实现是通过从Block输出的特征图中提取注意力图，然后让低层的Block的注意力图学习高层Block的表达。

6.根据权利要求5所述的智能车辆车道线检测方法，其特征在于，注意力图的提取实际为寻找一个通道上的映射函数，就是将一个通道数*高*宽的特征图映射为一个单通道的高*宽的特征图，其中映射函数为

7.根据权利要求2所述的智能车辆车道线检测方法，其特征在于，对于解码器，解码器也包括5个Block，与编码器各Block的变换一一对应，实现特征映射的解码和上采样。

8.根据权利要求7所述的智能车辆车道线检测方法，其特征在于，解码器采用分割网络Unet提出的跳跃连接，它将编码对应层的输出和解码块的输出联合起来进行解码。

9.根据权利要求1所述的智能车辆车道线检测方法，其特征在于，步骤S3中，特征图像与输入的真实标签之间的损失主要分三个部分；包括语义分割时的损失、实例分割时的损失、以及进行自注意力蒸馏时的损失；

对于语义分割时的损失，采用Dice Loss公式作为损失函数；

对于进行自注意力蒸馏时的损失，过程如下：

Ψ(A_m)表示对特征图A_m进行注意力图提取、上采样和softmax操作；m为第m个block输出的特征图，M为block的总数；

所以总的损失函数由以下三项组成：

L_total＝αL_bin+β(L_var+L_dist)+γL_SAD

L_bin是用Dice Loss公式计算的语义分割时的损失，参数α，β和γ平衡了各个损失的影响。

10.根据权利要求1所述的智能车辆车道线检测方法，其特征在于，步骤S1中利用传感器获取的图像作为输入，训练图像的原始尺寸为1280×720，预处理时使用双线性插值将图像的尺寸下采样到512×288。