CN114973038A

CN114973038A - 一种基于transformer的机场跑道线检测方法

Info

Publication number: CN114973038A
Application number: CN202210699522.XA
Authority: CN
Inventors: 毕瑞星; 马钟
Original assignee: Xian Microelectronics Technology Institute
Current assignee: Xian Microelectronics Technology Institute
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-08-30

Abstract

本发明属于自动驾驶领域，具体涉及一种基于transformer的机场跑道线检测方法。本方法提出端到端方法，将跑道线输出为跑道形状模型的参数，通过transformer机制的构建网络模型学习丰富的上下文信息，得到跑道线模型参数，跑道线的形状是根据跑道结构和摄像头姿态决定的，与实际场景紧密联系，模型输出的参数有准确的物理解释。本发明首先建立机场跑道线数据集，包含了不同机场的无人机的起飞、降落视频序列，和跑道线标注文件，其次采用基于transformer的跑道线检测模型在跑道线训练集上训练，最后在跑道线测试集上完成推理测试。

Description

一种基于transformer的机场跑道线检测方法

技术领域

本发明属于自动驾驶领域，具体涉及一种基于transformer的机场跑道线检测方法。

背景技术

随着军用武器装备的智能化程度越来越高，无人机等飞行器自主飞行和自主着陆、图像导航的需求越来越高，而检测机场跑道线是无人机自主着陆过程中的关键技术，准确实时检测跑道线推动着无人机导航的发展。机场跑道线检测，旨在检测识别出跑道线的每条跑道线，一般的机场跑道由左右两边线和中线构成，机场检测一般检测出机场的区域和主方向即可，但跑道线检测是将每条跑道线均检测得到，确定每条跑道线的位置和方向。

机场跑道提供无人机起飞、着陆、滑跑，具有一定长度和宽度，并且有标识的铺筑路面，在图像中呈现边沿整齐、平直的区域。跑道线的显著特征有以下三点：

a.平行线特征，通常机场跑道的左右两条边线、中线，是平行的，在前视图像中，跑到线呈现梯形形状，在俯视鸟瞰图中呈现平行线。

b.梯度特征。通常情况下，在图像中，机场跑道线和周围背景灰度特征有较大差异，跑道线灰度值大于背景灰度，从机场一侧到另一侧，在有跑道中线情况下，灰度出现三次跃变。

c.结构特征，通常跑道以主跑道最长最宽、标志最多，多条跑道与主跑道交叉、平行，呈现“H”，“T”，“V”等形状。

机场跑道线检测大体分为传统的基于梯度的方法，和基于深度卷积神经网络的方法。传统基于梯度的方法大多采用霍夫变换直线检测、LSD直线检测、俯视变换、线拟合、平行透视灭点等检测方法。传统方法一种是通过边缘检测滤波等方式分割出车道线区域，结合霍夫变换、RANSAC等算法进行车道线检测。还有根据确定的投影变换，将前视图像转化为鸟瞰图，在图像上选择感兴趣区域，直线方法检测得到每条平行的跑道线，再反投影到原始图像上，该方法依赖固定的投影变换，当相机高度发生变化时，该方法失效。

另一种方法是在鸟瞰图上聚类得到线的集合，再通过最小二乘法拟合得到车道线的解析式，同样依赖固定的投影变换，对于无人机在空中起降的场景，高度时刻发生变换，该方法无法检测得到跑道线。这类算法需要人工手动去调滤波算子，根据算法所针对的跑道场景特点手动调节参数，工作量大且鲁棒性较差，当跑道环境出现明显变化时，跑道线的检测效果不佳。

基于深度学习的方法检测跑道线具有较高的精度，大体分为四类：

a，基于语义分割的方法

基于语义分割的跑道线检测分为两个步骤：特征提取和曲线拟合。代表方法由SCNN、SAD，CurveLanes-NAS等方法。此类方法大多数工作都是通过基于分割的模型来提取特征的，这些模型通常效率低下，因为分割方法是逐像素分类，需要对图像中每个像素进行分类，这种非常密集的运算导致跑道线检测速度缓慢。实际上，跑道线占图像的比例很小，分割方法不适用快速的跑道线检测。并且，分割方法得到的线条存在毛刺边缘，线条断裂，难以满足实际场景的要求。另外，分割方法遇到局部感受野问题，分割结果一般由全卷积得到，而卷积是局部的特征提取，每个像素的感受野有限，尤其是语义线检测，需要对全局的特征具有感知能力，才能实现跑道线的定位。分割步骤不提供跑道标记，必须对分割图进行后处理才能输出跑道线。这两个步骤的过程可能会忽略全局信息，当缺少视觉提示时(如在强烈的阴影和遮挡中)，该方法可能失效。

b，基于锚的方法

锚方法类似目标检测Yolov3或SSD一阶段模型，将跑道线作为锚样本，提取特征，并与一系列注意力机制提取全局特征结合，当跑道线被遮挡或强烈阴影下，需要全局的信息处理，组合的特征传递到全连接层，预测最终的跑道。

c，基于行分类方法

行分类方法将图像划分为网格线，对每一行，网络模型预测最有可能的单元格包含车道标记。由于每行只选择一个单元格，图像中的每个可能的车道都重复行预测过程。此类方法有UFAST、E2E-LMD，IntRA-KD等。

跑道线是一种细长的形态结构，需要强大的高低层次特征融合，来同时获取全局的空间结构关系，和细节处的定位精度。跑道线的形态有很多不确定性，比如被遮挡，磨损，以及路面变化时本身的不连续性，需要网络针对这些情况有较强的推测能力。在无人机起降过程中，跑道线检测涉及相机和跑道相对运动，相机的高度和视角不是固定的，无法采用车道线检测方法，单一的投影不能将前视图转化成鸟瞰图，不能利用跑道线平行的约束，无法进一步检测跑道线。

发明内容

本发明提出一种基于transformer的机场跑道线检测方法，以解决现有的分割方法精度低，泛化能力差的问题。

为达上述目的，本发明提出技术方案如下：

一种基于transformer的机场跑道线检测方法，包括：

S1：利用无人机记录多个机场的图像数据，并基于采集到的数据建立数据集；

S2：使用labelme软件分别对数据集中的图像上标注左边线、右边线、中线，每个标注格式为json文件，每条线分别用起点和终点的坐标记录；

编写python脚本，将json格式端点表示的数据转化成Tusimple行采样点形式数据；

S3：主干网络将S2中得到的Tusimple行采样点形式数据输入到transformer网络中，由transformer网络预测跑道线，获得基于transformer的预测跑道线。

优选的，所述S3中利用transformer网络预测跑道线具体流程为：

假设机场的车道线没有弯曲，在机场跑道线检测方法中，将跑道线曲线拟合成一次曲线，如下：

X＝aY+b (9)

(X,Y)表示地平面上的点；

图像坐标与真实场景的坐标对应关系为：

(u,v)是图像中的像素点；

将(2)代入(1)中得到：

f_u和f_v分别代表横向焦距和纵向焦距；

光轴平行于地平面时，用

简化上式，得到从道路投影到像平面上的曲线为:u＝a′+b′·v (12)

这里a′,b′是组合参数和相机内外参数；

一个光轴与地平面成θ角的倾斜相机，投影变换为：

将公式(6)代入公式(4)中，从平行像平面到倾斜像面转换的曲线为:

f表示焦距，(u’,v’)表示投影的相应位置；

将参数与俯仰角φ相结合，用

b″′＝b′·f·tanθ简化公式(7)，倾斜摄像机平面的曲线为:

u′＝a′+b″·v′-b″′ (16)

引入跑道线起止偏移量m和n来参数化各跑道线；m表示跑道线底端距离图像底边的距离，n表示跑道线顶端距离图像顶边的距离；

第t车道的输出被重新参数化为g_t：

g_t＝(a′,b_t″,b_t″′,m_t,n_t)

其中b_t″,b_t″′,表示的是偏移项，m_t,n_t而表示上下界限。

优选的，常量a',b″′包含不同的物理参数。

优选的，相机的横向焦距与纵向焦距相同：f＝f_u＝f_v。

优选的，当θ＝0时：

优选的，所有跑道共享同一个a'。

优选的，由FFNs网络确定不同车道的b″_t,b″′_t,m_t,n_t。

优选的，还包括：

S4：预测跑道线端点与真实跑道端点距离设为d，将d与预设阈值进行对比，d超过阈值则认为预测错误，d在阈值以内认为预测正确；

输出预测正确的步骤S3获得的基于transformer的预测跑道线。

优选的，预设阈值为20像素。

优选的，所述S1利用无人机记录多个机场的图像数据的步骤中，选择两个机场，一个机场包含了起飞和降落视频序列，另一个机场包含了顶端和低端的起飞与降落视频，共六段视频序列，3800张图像。

本发明的有益之处在于：

通过transformer自注意力机制和提取时序信息，对非局部交互信息进行建模，捕获现场的跑道线结构和全局上下文信息，实时检测机场跑道线，实现低空和地面上均能检测每条机场跑道线，进一步确定航向角，辅助无人机实现自主飞行和起降。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为实际跑道与预测跑道的端点距离示意图；

图2为跑道线底端距离图像底边的距离和跑道线顶端距离图像顶边的距离的示意图。

图3跑道线检测算法的框图结构和数据流程；

图4为transformer的原理图。

图5为自注意力机制的计算过程。

图6为本发明流程图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

实施例1：

请参阅图6所示，本发明提供一种基于transformer的机场跑道线检测方法，具体步骤为：

S1：建立数据集；

S2：标记数据集中的图像；

S3：预测跑道线；

S4：对预测结果进行处理和评判。

其具体步骤如下：

图像数据的筛选和整理

通过无人机飞行，记录无人机视角的视频片段，包含了两个机场，其中一个机场包含了起飞和降落视频序列，另一个机场包含了顶端的起飞与降落视频，还有该机场的底端的起飞和降落视频，共六段视频序列，3800张图像。

图像数据标注

跑道线线数据集标注机场跑道的线，包含左边线、右边线、中线，其中视野中横向线、标记线、辅助线等线段不作标注。

使用labelme软件分别标注左边线、右边线、中线，用l，r，m代表类别，每个标注格式为json文件，每条线分别用起点和终点的坐标记录。

仿照Tusimple数据集标注，将json格式端点表示的数据转化成Tusimple行采样点形式数据，为此编写python脚本，将labelme标注的格式转化成Tusimple格式的标注数据。

准确度定义

跑道线检测的准确度定义为线端点距离及面积是否超过阈值。本方法采用端点距离方法，阈值定义为20像素，超过阈值则认为预测错误，在阈值以内认为预测正确。

如图1所示，预测的跑道线端点与真实跑道端点距离设为d，d小于阈值表示检测正确，反之表示检测错误。

跑道线预测方法

机场跑道线一般为直线，假设机场的车道线没有弯曲，在机场跑道线检测方法中，将跑道线曲线拟合成一次曲线，如下：

X＝aY+b (17)

(X,Y)表示地平面上的点；

图像坐标与真实场景的坐标对应关系为：

(u,v)是图像中的像素点；

将(2)代入(1)中得到：

当光轴平行于地平面时，用

简化上式，得到从道路投影到像平面上的曲线为:u＝a′+b′·v (20)

这里a′,b′是组合参数和相机内外参数；

对于一般的镜头而言，横向焦距与纵向焦距相同，故f＝f_u＝f_v；

对于一个光轴与地平面成θ角的倾斜相机，投影变换为：

这里f表示焦距，(u’,v’)表示投影的相应位置；当θ＝0时，将公式(7)简化为公式(4)；

将参数与俯仰角φ相结合，用

b″′＝b′·f·tanθ简化公式(7)，倾斜摄像机平面的曲线为:

u′＝a′+b″·v′-b″′ (24)

由于常量a′,b″′包含不同的物理参数，故没有结合成一项；

此外，还引入了跑道线起止偏移量m和n来参数化各跑道线。这两个参数提供了基本的定位信息来描述跑道线的上下边界。如图2所示，m表示跑道线底端距离图像底边的距离，n表示跑道线顶端距离图像顶边的距离。在真实的道路条件下，跑道通常时平行的；因此，从左到右跑道的斜率相等，因此a′将被所有车道共享，他们作为车道线的0次项的系数，只有常数项不同；如公式1所示；

在真实的道路条件下，跑道通常时平行的。因此，从左到右跑道的斜率相等，因此a′作为车道线的0次项的系数，被所有车道共享。如公式1所示。

因此，第t车道的输出被重新参数化为g_t：

g_t＝(a′,b_t″,b_t″′,m_t,n_t)

每个车道仅在偏差项和上下边界上有所不同。最后由FFNs网络确定不同车道的b″_t,b″′_t,m_t,n_t。其中b″_t,b″′_t,表示的是偏移项，m_t,n_t而表示上下界限。

算法架构

算法的架构由三部分组成，如图3所示，算法架构由一个主干网络、一个简化的transformer网络、多个用于参数预测的前馈网络(FFNs)和匹配损失函数组成。

主干网络负责提取地分辨率的特征，其输出作为Tranformer网络的输入。Tranformer网络的作用是用自注意力机制在低分辨率特征中试图建立特征与跑道线解析参数之间的联系。而损失函数是衡量预测的跑道线与实际标注的跑道线之间的差值。

本方法的处理流程是输入图像，主干网络提取低分辨率的特征，维度为H×W×C，将其扁平化为一个序列S，维度为(H×W)×C，其中通道数C，长度H×W。

S和位置嵌入Ep输入到Transformer编码器中，输出一个表示序列Se。解码器通过参加初始查询序列Sq和位置嵌入E_LL，计算Se和Ep的交互作用关注相关特征，生成输出序列Sd。最后，多个前馈网络FFN直接预测输出跑道参数。跑道参数描述跑道的图像坐标，与真实标注的跑道坐标，输入到匹配损失函数中，计算二者差值。

主干网络，采用残差网络resnet18，主干网利用输入图像作为输入，提取低分辨率特征，对高分辨率车道空间表示进行编码。

编码器有两个按顺序连接的标准层。它们分别由一个注意模块和一个前馈层组成，如图4所示。在图3中，输入S表示抽象空间序列，Ep表示绝对位置的正弦嵌入，用于编码位置信息。

编码器执行的点乘如下式：

自注意模块中的Q,K,V表示对每个输入行进行线性变换的查询、键和值序列，图5所示。A代表测量非局部交互的注意力图谱，以捕捉纤细的结构加上全局的上下文，O表示自我注意力的输出。通过FNNs、层归一化残差连接得到编码器输出序列Se。

解码器也有两个标准层。如图4所示，与编码器不同的是，每层都插入一个期望编码器的输出注意模块，使编码器能够对包含空间信息的特征执行注意机制，从而与最相关的特征元素相关联。Tranformer转移groundtruth位置，作为解码器的输入，使其每次并行输出序列中的每个元素。在跑道检测任务中，将输入的Sq设置为一个空的N×C矩阵，并直接一次解码所有的曲线参数。N表示跑道线的个数。此外，引入了一种N×C的学习跑道嵌入ELL，作为位置嵌入来隐式学习全局跑道信息。注意机制的工作原理与公式(9)相同，像编码器中的方式一样依次得到形状为N×C的解码序列Sd。

前馈网络FFNs用于预测曲线参数,分为三个模块。单个线运算作直接将Sd映射为N×2，接着softmax层对其进行最后一维运算，得到预测标签(i＝1,..N)(背景或跑道)。同时，具有Relu激活的3层感知器将Sd映射为N×4，其中维4表示4组特定路径参数。另一个3层感知器将一个特征投影到N×1，得到1个共享参数。

损失函数

匈牙利拟合损失在预测参数和跑道真值之间进行匹配，采用匈牙利算法有效地解决了匹配问题，然后利用匹配结果来优化特定跑道的回归损失。该损失包含了了双向匹配和回归损失方法，在预测和真实标注之间应用了双向匹配，以确保一对一的无序赋值，使模型能够消除显式的非极大抑制过程。回归损失将每条跑道线与真实跑道的差别达到最小。

发明的效果

本发明方法将跑道检测输出重构为跑道形状模型的参数，用非局部构件构建的网络，加强对全局上下文和跑道细长结构的学习。每条跑道的输出是一组参数，该参数通过从道路结构和摄像机姿势中得出的明确数学公式来逼近跑道标记。该方法对道路结构和摄像机的姿势进行了建模。这些输出参数具有明确的物理含义，并不是简单的多项式系数，更贴近真实的场景。同时，本发明受到自然语言处理模型采用变换块来明确建模语言序列中的长程依赖关系的启发，开发了一个基于transformer的网络，该网络概括了任意一对视觉特征的信息，使其能够捕捉跑道的长细结构和全局上下文。此外，本发明方法的整个架构一次性预测输出所有提出的参数，并采用交叉熵损失进行端到端训练。该损失函数在预测和真实标注之间应用了双向匹配，以确保一对一的无序赋值，使模型能够消除显式的非极大抑制过程。

表1展示了四个场景的跑道线检测精度，起飞阶段的跑道检测精度略高于下落阶段，原因是起飞阶段较降落阶段飞机平稳。

表1跑道线检测精度

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。