CN114926796A

CN114926796A - 一种基于新式混合注意力模块的弯道检测方法

Info

Publication number: CN114926796A
Application number: CN202210518040.XA
Authority: CN
Inventors: 张莹; 张露露; 孙月; 王玉
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-19

Abstract

本发明公开了一种基于新式混合注意力模块的弯道检测方法，包括以下步骤：先从安装在车辆中的前视摄像头获取输入图像，利用骨干网络ResNet34对输入图像进行特征提取，接着通过改进的Transformer模块，利用新式混合注意力模块学习全局和局部依赖，捕捉地平线附近的车道线，以帮助识别弯道结构，然后进一步地在损失函数中加入弯道结构约束条件实现弯道增强，最后输出车道线标记和置信度得分。本发明提出了一种由新型区间动态卷积和自注意力组成的新式混合注意力模块，直接建模局部依赖，提高算法的整体运行速度，高效学习全局和局部依赖，在不影响实时性的基础上，有效地推断出地平线附近的弯道结构，同时利用损失函数构建约束条件增强弯道结构，从而提高弯道的检测精度，本方法和其他算法相比不需要进行后处理，实时性较好。

Description

一种基于新式混合注意力模块的弯道检测方法

技术领域

本发明涉及智能汽车感知领域，尤其涉及一种基于新式混合注意力模块的弯道检测方法。

背景技术

随着智能驾驶技术的兴起，交通行业正朝着无人驾驶方向迅速发展，而发展方向的前提之一就是汽车能够自动识别道路中的各种元素，车道线作为道路交通中驾驶规则的重要表征之一，对于维护无人驾驶的安全性和准确性具有举足轻重的意义。

车道线检测作为无人驾驶的重要任务，能够为车辆提供可行驶区域的信息。在良好的道路条件下，车道线检测算法能够取得很好的效果，满足自动驾驶和高级驾驶辅助系统(advanced driving assistance system，ADAS)的功能需求。但实际的车道线检测任务面临着诸多难题：一是道路场景复杂，在车流量巨大的道路上，车道线会被车辆严重遮挡，这就要求检测算法能够解决遮挡问题；二是场景环境复杂，不同的光照亮度和恶劣的天气(如雪、雨、雾)带来的背景因素都会严重影响检测算法的精确度；三是真实道路场景中的车道线存在磨损、缺失等各种干扰条件，导致检测车道线的难度更高。这些难题引起了许多研究人员的兴趣，提出了很多的车道线检测算法，根据方法所使用的技术不同，大致可以分为两类：一类是基于传统图像处理技术的图像车道线检测方法，另一类是基于深度学习的图像车道线检测方法。

现有的算法已经实现对车道线进行精准检测且实时性较好，但它们大多数都是针对直线型车道线，如果前方出现曲率较大的车道线，则检测结果会出现较大的偏差。因此，提出一种能够快速且准确检测弯道结构的算法具有重要的实际应用价值。

发明内容

为了解决上述问题，本发明提出了一种基于新式混合注意力模块的弯道检测方法。

本发明的一种基于新式混合注意力模块的弯道检测方法，包括以下步骤：

S1、从安装在车辆中的前视摄像头获取输入图像；

进一步地，所述步骤S1中从车载视觉设备中获取采集的视频数据，再从所述视频数据中间隔相同的时间截取图像帧。

S2、采用残差网络ResNet34作为骨干网络，对输入图像进行特征提取；

S3、利用改进后的Transformer模块捕捉弯道结构；

进一步地，所述步骤S3具体包括以下步骤：

S31、骨干网络提取到特征图，然后依次通过编码器的新式混合注意力模块和前馈神经网络两个子层；

进一步地，所述步骤S31具体包括以下步骤：

S311、Transformer模块的编码器首先会对输入的特征图进行一个Embedding操作；

S312、Embedding结束后输入到编码层，同时输入的还有位置向量PositionalEncoding，因为位置向量中含有输入特征中每个部分的位置信息；然后一起送入新式混合注意力模块，对此向量分别进行卷积和自注意力运算，接着对结果进行连接，之后再送给前馈神经网络模块，该模块会对数据维度进行调整，得到的输出会输入到下一个编码器，循环6次。

S32、编码器输出后进入解码器的掩码多头注意力层、新式混合注意力模块和前馈神经网络，得到全局车道信息。

进一步地，所述步骤S32具体包括以下步骤：

S321、解码器接收到的编码信息，会直接输入到新式混合注意力模块；

S322、解码器对前一时刻的输出进行Embedding操作，同时还有位置向量Positional Encoding，一起进入新式混合注意力模块，再和编码器的结果一起进入前馈神经网络，循环3次。然后再进入有掩码多头注意力层的完整解码器结构，循环3次后输出一组浮点数组成的向量，线性层将这些向量投射到一个较大的对数向量中，然后softmax函数会将这些分数转换成概率，概率最高的作为车道线信息输出。

S4、在损失函数中加入弯道结构约束条件实现弯道增强；

进一步地，所述步骤S4具体包括以下步骤：

S41、对输入图像的长和宽进行均匀的划分，然后在弯曲车道线开始的位置上，确定前三行相邻行上车道点的位置坐标；

S42、在已经确定的三个车道点上画一条二次曲线，由于行方向上是均匀划分的，因此可以确定下一行上车道点的列坐标；

S43、通过求解二次曲线的曲率，则可以得到下一行上车道点的行坐标，即确定了下一行上车道线点所在的位置坐标。

S5、输出检测到的表示车道标记的多项式，以及多项式的域和每个车道的置信度得分。

进一步地，所述步骤S5中的全连接层会根据解码器输出的车道信息，得到检测出的车道线，还有每个车道标记估计、垂直偏移量和预测置信度得分；

本发明构建的弯道检测算法与现有的弯道检测方法相比具有竞争优势，从车载设备得到的视频数据中截取图像，然后直接输入到骨干网络进行特征提取，将原始Transformer中多余的自注意力头改成区间动态卷积，构成的新式混合注意力模块可以减少计算冗余，提高算法的运行速度，且有效地学习全局和局部上下文，以帮助识别地平线附近的弯道结构。同时在损失函数中使用二次多项式函数，利用弯道结构约束条件增强弯道。两者的结合可以很大程度上提高弯道检测的整体准确率，而且此算法不需要后处理即可获得车道估算值，大幅提升了算法的实时性。

附图说明

图1为实施例中的系统结构示意图；

图2为本发明的方法流程示意图；

图3为实施例中骨干网络ResNet34结构示意图；

图4为实施例中改进后Transformer模块的算法流程示意图；

图5为实施例中新式混合注意力模块结构示意图；

图6为实施例中弯道增强的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例。

目前的车道线检测算法种类繁多，在一般情况下都可以进行准确检测，但干扰因素较多时仍有误检漏检的情况，尤其是对弯道部分的车道线检测精度较低。针对此问题，本发明提出了一种基于新式混合注意力模块的弯道检测方法，此模型不仅准确且速度较快。整体网络系统结构图如图1所示，主要包括一个骨干网络、一个改进的Transformer模块和用来处理车道线标记和置信度得分的全连接层。

如图2所示，一种基于新式混合注意力模块的弯道检测方法，包括以下步骤：

S1、从安装在车辆中的前视摄像头获取输入图像；

车载视觉设备采集的是视频数据，本发明采取间隔相同的时间截取图像帧。

本实施例选取ResNet34作为骨干网络，因为通过对深度网络退化实验的结果进行分析，发现34层网络的效果比18层的更好，而且收敛速度更快，提取到的特征信息更加丰富，可以进一步提高检测准确率。骨干网络ResNet34结构示意图如图3所示，提取图像特征的具体步骤如下：

具体地，把截取的图像作为输入，经过7×7的卷积核，进行步长为2的卷积，再经过标准化BN和激活函数Relu，然后经过3×3的最大池化层进行步长为2的池化，输出的结果记为stage0_1，然后对stage0_1进行3×3步长为1的卷积，然后BN标准化，再Relu，再对结果进行一次3×3步长为1的卷积，此时的输出结果记为stage1_1_1，这时把得到的结果stage1_1_1与之前得到的结果stage0_1进行融合，再对融合之后的结果进行Relu，记为stage1_1_2,然后对stage1_1_2经过两次3×3的卷积，再使用BN，得到结果stage1_2_1，然后把之前得到的结果stage1_1_2和stage1_2_1进行融合，对融合的结果进行Relu，同理，对stage1的第三个BasicBlock进行同样的操作，得到融合的结果，再经过激活函数Relu，得到stage1_3_2。接下来的stage2、stage3和stage4都是一样的原理，stage4的最后输出结果大小为7×7,然后对该结果进行一次全局平均池化，将输出展平为一行后与1000个神经元做全连接，最后进行softmax函数得到提取的特征；

S3、利用改进后的Transformer模块捕捉弯道结构；

在目前的车道线检测算法中，大多数都是针对直线型的车道线，因为在车辆前视摄像头的范围中很少出现弯曲程度较大的弯道，一般是在不远处的前方存在小幅度的弯道。而Transformer模块能够很好的捕捉到地平线附近的弯道。

进一步地，Transformer模块是由编码器和解码器两部分组成，编码器负责把输入图像缩小为指定大小，对图像中包含的信息进行编码并提取特征图，然后解码器再把编码信息恢复到原始输入图像相同的大小。改进的Transformer模块的算法流程示意图如图4所示。左边部分是编码器结构，右边部分是解码器结构；

原始编码器是由6个相同的层组成的堆栈，每层都有两个子层，第一层是自注意力层，第二层是前馈神经网络，在两个子层的周围用残差结构进行连接，然后进行层归一化；

原始解码器也是由6个相同的层组成的堆栈，除了编码器中的两个子层，解码器还插入了第三个子层(掩码多头注意力层)，它在编码器的输出上执行多头注意，每个子层的周围也使用了残差连接和层归一化。

首先，出于对模型复杂度的考虑，本发明将原始Transformer解码器中的6层掩码多头注意力层减少为3层。在一项针对单个Transformer组件重要性的研究中，作者从两个方面来进行评估，一是对模型信息流的贡献程度，二是模块对参数的扰动表现出不同的鲁棒性。实验结果表明，Transformer中解码器的掩码多头注意力层是最不重要的结构，因此可以进行相应的模块剪枝，删掉相应模块使得模型的参数变小，减少计算冗余，提高算法的运行速度，而且剪枝后的模型有足够的能力去关注位置信息、全局环境和被遮挡的细节，达到和原始模型相应的效果甚至更好。

其次，本实施例将原始编解码结构中的自注意力层改为新式混合注意力模块，它集成了区间动态卷积和自注意力，可以更好的对全局和局部上下文建模，减少计算冗余，进一步提高算法的实时性。

因为有些自注意力头是多余的，所以引入区间动态卷积来减少头的数量。和传统的卷积模式相比，动态卷积可以根据特定输入生成卷积核参数，有利于捕捉输入的多样性。区间动态卷积首先利用空洞卷积收集输入信息，然后动态生成卷积核。根据局部上下文生成输入的局部关系，帮助卷积核更有效地学习局部依赖。为了使区间动态卷积与自注意力兼容，在输入上应用线性变换来生成查询Q和值V，并应用空洞卷积来生成基于区间的K_a，然后将查询Q和基于区间的K_a逐点相乘，其结果用于生成动态卷积核，则卷积核的生成公式为：

f(Q，K_a)＝softmax(W_f(Q⊙K_a))

其中f表示线性模型，W_f表示可学习权重，⊙表示逐点相乘。区间动态卷积的输出公式为：

其中i表示位置，k是卷积核的个数。之后再进行线性变换。

新式混合注意力模块结构图如图5所示，输入的嵌入首先被投影到一个较低维度的空间，然后通过自注意力模块，具体来说，在原本的自注意力模块中，维度为d的嵌入通过线性变换投影为Transformer结构中维度为d的查询、键和值，本实施例则将嵌入投影到d/γ维的空间中，将注意力头的数量减少为1/γ，γ>1为缩小比，这将极大减小自注意力内的计算代价，并迫使注意力头产生更紧凑有用的注意力信息。

新式混合注意力模块混用了区间动态卷积和自注意力，它们拥有相同的查询Q，但使用不同的键K来生成注意力图和卷积核，最后再使用拼接操作，新式混合注意力块的表达式为：

其中Cat表示连接操作，d表示输入的隐藏维度。

具体地，骨干网络提取到低分辨率的特征，然后通过压缩空间维度将其压缩成一个序列S，输入到编码器，同时对位置信息进行编码加入到输入向量中，使模型知道每个部分的位置信息，然后进入到编码器的新式混合注意力模块，分别进行基于区间的动态卷积和自注意力操作之后进行连接，输出结果再送入前馈网络对数据维度进行调整，最后将输出向上发送到下一个编码器，如此循环6次后输出。

解码器将编码器的输出设置为一个空矩阵，并直接一次解码所有曲线参数，同时引入一种学习车道嵌入算法，作为隐式学习全局车道信息的位置嵌入，然后直接送到新式混合注意力模块和前馈网络进行处理，循环3次后送到下一个解码器结构中，此次需要先通过掩码多头注意力层，利用掩码技术实现对未来信息的遮挡，再依次通过新式混合注意力模块和前馈网络层，输出结果再送到下一个解码器，循环3次后解码器堆栈输出一组浮点数组成的向量，线性层将这些向量投射到一个较大的对数向量中，然后softmax函数会将这些分数转换成概率，概率最高的作为车道线信息输出。

S4、在损失函数中加入弯道结构约束条件实现弯道增强；

本实施例在损失函数中引入弯道结构，能够对弯道进行增强，进一步提高弯道检测的准确率；

因为车道的连续性，从像素的角度考虑相邻行上的车道点是彼此靠近的。因此，根据前三行相邻行上车道点所在像素的曲线走向可以预测下一行上车道点的坐标。

根据图6进行分析，A、B、C三点的位置坐标可以在平面上画一条二次曲线，由于行方向上是均匀划分的，从而可以确定D点的列坐标，再根据二次曲线的曲率，则可以得到D点的行坐标，即确定了下一行上车道线点所在的位置坐标。

对于损失函数的设计具体步骤如下所示：

以图6的左下角为坐标轴原点，沿着底边向右为x轴,沿着图片最左边向上为y轴，则车道线所在的二次曲线可以表示为:

y＝ax²+bx+c

第i条车道线在第j行的概率公式如下：

Prob_i，j，k＝softmax(P_{i，j，1：w})(0≤i≤N，0≤j≤h)

其中将输入图像的高和宽均匀地分成w和h，N表示输入图像中的车道线数量。

第i条车道线在第j行的位置坐标的期望如下公式所示：

其中,Prob_i，j，k代表第i条车道在j行时车道线点在k位置的可能性，期望不仅可微还可以和其他约束条件一起使用，其次，这种情况下连续的车道线点为离散型随机变量；

进一步地，最后可得到引入弯道结构约束条件的损失函数为:

作为网络结构的最后一部分，全连接层会输出M_max个用多项式表示的候选车道标志和置信度得分；其中1，…，M_max用于预测车道标线，M_max+1项用于预测水平线的垂直位置，本发明的网络结构采用多项式表示车道线。对于每个输出j∈[1，M_max]，模型估计系数如下：

进一步地，其代表多项式为：

其中K为定义多项式阶数的参数，多项式的限制域是图像的高度，对于每个车道标志j，模型估计垂直偏移s_j和预测置信度得分c_j∈[0，1]。因此，本实施例的网络模型可以表示为：

其中I为输入图像，θ为模型参数，h为水平线的垂直位置。在推断过程中，只有车道标志候选的置信度得分大于或等于阈值才被认为是检测到的。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这种变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求及其等效物界定。

Claims

1.一种基于新式混合注意力模块的弯道检测方法，其特征在于，包括以下步骤：

S1、从安装在车辆中的前视摄像头获取输入图像；

S3、利用改进后的Transformer模块捕捉弯道结构；

S4、在损失函数中加入弯道结构约束条件实现弯道增强；

2.根据权利要求1所述，其特征在于，所述步骤S3中Transformer模块的改进包括：把多头自注意力层改为基于区间的动态卷积和自注意力相结合的新式混合注意力模块，用卷积直接建模局部依赖，减少某些只需要学习局部依赖的注意力头所带来的严重计算冗余，提高所提出模型的实时性。

3.根据权利要求1所述，其特征在于，所述步骤S3中Transformer模块的改进还包括：对Transformer解码器中的掩码多头注意力层进行模型剪枝，将原本的6层减少为3层，使得模型的参数变小，减少计算冗余，提高算法的运行速度，而且剪枝后的模型仍有足够的能力去关注位置信息、全局环境和被遮挡细节，达到和原始模型相应的效果甚至更好。

4.根据权利要求1所述，其特征在于，所述步骤S3中改进后的Transformer模块不仅可以减少计算冗余，而且能够更加高效地学习全局和局部上下文，以帮助推断被遮挡的部分，尤其是地平线附近曲率较大的车道线，所以此模块可以准确识别弯道结构。

5.根据权利要求1所述，其特征在于，所述步骤S4中利用已知的三个车道点确定一条二次曲线，通过求解二次曲线的曲率，得到下一个车道点的坐标方法，把此二次曲线函数作为弯道结构约束条件，以达到增强弯道结构的目的，并且结合改进后的Transformer模块，能够提高此模型的车道线检测准确率。