CN115049130B

CN115049130B - 一种基于时空金字塔的自动驾驶轨迹预测方法

Info

Publication number: CN115049130B
Application number: CN202210695491.0A
Authority: CN
Inventors: 刘期烈; 邹建宏; 方阳; 刘倩; 崔一辉; 孙开伟; 李贝; 吕明
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-06-04
Anticipated expiration: 2042-06-20
Also published as: CN115049130A

Abstract

本发明涉及轨迹预测技术领域，尤其是涉及一种基于时空金字塔的自动驾驶轨迹预测方法,包括对自动驾驶车辆所载传感器收集的雷达点云数据进行预处理，得到BEV图；提取自动驾驶车辆行驶道路的卫星图像，获取局部路径图；构建基于时空金字塔transformer的神经网络模型；将BEV图与局部路径图进行整合，将整合结果输入到神经网络模型进行处理，得到自动驾驶车辆的轨迹与交通参与者的分类结果；本发明在时空金字塔网络模型的基础上添加Transformer机制，利用Transformer机制的简单性使空间交互和上下文信息可以很容易地合并到输入嵌入中，而不增加模型的复杂性，并且提升模型的预测精度。

Description

一种基于时空金字塔的自动驾驶轨迹预测方法

技术领域

本发明涉及轨迹预测技术领域，尤其是涉及一种基于时空金字塔的自动驾驶轨迹预测方法。

背景技术

轨迹预测是通过传感器收集的车辆历史轨迹数据预测车辆将来一小段时间内的运动轨迹。传统的轨迹预测算法一般假设车辆的速度和方向是恒定的，使用动态和运动学模型进行轨迹预测，如今则通过各种神经网络提取重要的数据特征，将不同的特征进行融合后带入长时间序列运算中，以获得更准确的预测效果。

目前的轨迹预测方法主要分为两类：意图模型和交互感知模型。意图模型首先将车的轨迹分成一系列的簇，每一簇对应一个典型的运动模式；其次对意图进行评估，最后执行预测。意图模型对时间具有定性约束，但是在车辆非常多的情况，不能应用到其它拓扑结构的道路。针对意图模型存在的车辆数量约束问题，交互感知模型将目标车辆及其周围车辆的轨迹历史以及车道结构作为输入，然后将置信度值分配给不同的机动类别，并根据它们预测未来运动的多模态分布。从结果来看，交互感知模型比意图模型的预测更加稳定，且不受限于车辆的数量问题，还能够有效地处理长序列训练过程中的梯度消失问题。比如LSTM(long-short term memory，长短期记忆网络)作为改进后的循环神经网络，通过将遗忘门值选择在[0,1]之间，让梯度能够很好的在LSTM中传递，很大程度上减轻了梯度消失发生的概率。

但是上述基于交互感知模型的单元结构相对单一，不能对数据的多种特征进行提取融合。本发明的目的就是要解决数据的多种特征提取融合问题，输出交通参与者的类别，同时进一步提高轨迹预测的精度。

发明内容

为解决上述问题，本发明提供了一种基于时空金字塔的自动驾驶轨迹预测方法，包括以下步骤：

S1.对自动驾驶车辆所载传感器收集的雷达点云数据进行预处理，得到BEV图；

S2.提取自动驾驶车辆行驶道路的卫星图像，获取局部路径图；

S3.构建基于时空金字塔transformer的神经网络模型；

S4.将BEV图与局部路径图进行整合，将整合结果输入到神经网络模型进行处理，得到自动驾驶车辆的轨迹与交通参与者的分类结果。

进一步的，将雷达点云数据量化为规则体素并形成三维体素格，采用二进制状态表示每个体素格的占用情况，将三维体素格的高度维数对应于二维伪图像的图像通道，从而将三维的雷达点云数据转换为二维伪图像，即所需的BEV图。

进一步的，步骤S2获取局部路径图的过程为：

S11.获取自动驾驶车辆行驶道路对应的谷歌卫星图像，连接谷歌卫星图像中的道路交叉口点与急转弯点构造稀疏全局图；

S12.在稀疏全局图中的每条边上应用线性插值创建稠密的局部路径图；

S13.将稠密的局部路径图投影到具有固定宽度的虚拟路径的激光雷达BEV图上，将接收投影后的激光雷达BEV图转换为二进制图像得到局部路径图。

进一步的，通过CNN网络对BEV图与局部路径图进行整合，得到语义分割图像的过程为：

S21.将鸟瞰图与局部路径图输入到CNN网络的卷积层学习深层抽象特征，局部路径图被用作地面真实值；

S22.将深层抽象特征进行归一化处理，得到归一化特征；

S23.通过ReLU激活函数对归一化特征进行非线性变换；

S24.通过最大池化对非线性变换后的归一化特征进行降采样，提取区域显著性特征；

S25.判断是否得到深层次语义特征，若是，则执行步骤S26，若不是，则将步骤S21中的输入替换为步骤24提取的区域显著性特征，返回步骤S21；

S26.利用双线性插值对深层次语义特征进行上采样；上采样后接入一个分类层识别像素点，识别完成后输出语义分割图像。

进一步的，将鸟瞰图与局部路径图的深层抽象特征进行归一化处理表示为：

其中，c表示输入特征，μ是c的均值，σ²是c的方差，γ是可学习的缩放因子，β是可学习的平移因子。

进一步的，采用神经网络模型处理BEV图与局部路径图整合得到的语义分割图像，得到自动驾驶车辆的轨迹与交通参与者的分类结果的过程包括：

S31.采用第一组合块处理语义分割图像得到第一时空特征图，采用第二组合块处理第一时空特征图得到第二时空特征图，采用第三组合块处理第二时空特征图得到第三时空特征图，采用第四组合块处理第三时空特征图得到第四时空特征图；

S32.将第四时空特征图分别输入到Transformer路径点特征编码器和Transformer路径点位置编码器，输出对应的路径点嵌入和路径点位置嵌入；

S33.将路径点嵌入和路径点位置嵌入输入Transformer编码器；

S34.将Transformer编码器的输出和路径点位置嵌入输入Transformer解码器，输出有序的路径点嵌入；

S35.将反卷积后的第四时空特征图与第三时空特征图融合得到第一融合特征图，将第一融合特征图送入第一特征解码器，将第一特征解码器的输出反卷积后与第二时空特征图融合得到第二融合特征图，将第二融合特征图送入第二特征解码器，将第二特征解码器的输出反卷积后与第一时空特征图融合得到第三融合特征图，将第三融合特征图送入第三特征解码器，将第三特征解码器的输出反卷积后与语义分割图像融合得到第四融合特征图，将第四融合特征图送入第四特征解码器；

S36.通过插值法将第四特征解码器的输出与有序的路径点嵌入结合，得到自动驾驶车辆的轨迹与交通参与者的分类结果。

进一步的，步骤S32中采用Transformer路径点特征编码器得到路径点嵌入的过程为：

S101.将第四时空特征图输入Transformer路径点特征编码器中的第一卷积层，得到第一特征图；

S102.将第四时空特征图输入Transformer路径点特征编码器中的第二卷积层，得到道路分割掩码；

S103.将道路分割掩码输入Transformer路径点特征编码器中的第三卷积层，得到第二特征图；

S104.采用对应元素相加法，将第一特征图与第二特征图相加得到路径点嵌入；

采用Transformer路径点位置特征编码器得到路径点位置嵌入的过程为：

S201.将第四时空特征图输入Transformer路径点位置特征编码器中的第一卷积层，将其输出送入softmax层得到路径点热图；

S202.将路径点热图输入Transformer路径点位置特征编码器中的第二卷积层，得到路径点位置嵌入。

进一步的，步骤S31中的每一个组合块结构相同，包括一个时空卷积层和一个时间池化层，时空卷积层以分层方式沿空间维度和时间维度来提取特征，在空间维度，以2的比例步长来计算不同尺度上的特征图，得到不同尺度的空间特征；在时间维度，每次时间卷积后以1/2的比例逐步降低时间分辨率，得到不同尺度的时间特征。

本发明的有益效果：

本发明在时空金字塔网络模型的基础上添加Transformer机制，利用Transformer机制的简单性使空间交互和上下文信息可以很容易地合并到输入嵌入中，而不增加模型的复杂性，并且提升模型的预测精度。同时，Transformer机制采用位置编码，将输入嵌入与位置编码向量连接起来，使得即使在长时间序列输入的情况下仍能实现计算并行性，减少了模型训练所需要的时间。

本发明将Transformer建模的位置关系特征与时空金字塔网络结合在一起，既考虑了周围交通参与者相互之间的影响，又可以对交通参与者进行类别预测和轨迹预测，减少运动不确定性对轨迹预测的影响。

本发明在训练集上不局限于常见的雷达点云数据，添加了自动驾驶车辆行驶道路的局部路径数据，利用CNN对其进行图像语义分割后，使得训练集包含的内容更加丰富，以此有效增强训练效果，提高了训练后模型的可靠度。

附图说明

图1为本发明的基于时空金字塔Transformer网络的自动驾驶轨迹预测流程图；

图2为本发明的基于时空金字塔Transformer网络的自动驾驶轨迹预测模型框架图；

图3为本发明的CNN网络进行图像语义分割算法的流程图；

图4为本发明的时空金字塔网络构架图；

图5为本发明的Transformer机制的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于时空金字塔的自动驾驶轨迹预测方法，如图1所示，包括以下步骤：

S3.构建基于时空金字塔transformer的神经网络模型；

在一实施例中，采用如图2所示的网络模型实现自动驾驶车辆的轨迹预测，具体包括：

STEP1、采用自动驾驶车辆中安装的传感器收集雷达点云数据，并对其进行离散化和同步化得到BEV图；

具体地，雷达点云数据是三维的雷达点云图像，本实施例中将三维的雷达点云图像量化为规则体素并形成三维体素格，采用二进制状态来表示每个三维体素格的占用情况，并且将三维体素格的高度维数对应于二维伪图像的图像通道数，从而将三维的雷达点云图像转换为二维伪图像，即所需的BEV图。

STEP2、提取自动驾驶车辆行驶道路的卫星图像，获取局部路径图；

具体地，获取自动驾驶车辆行驶道路对应的谷歌卫星图像，连接谷歌卫星图像中的道路交叉口点与急转弯点构造稀疏全局图；在稀疏全局图中的每条边上应用线性插值创建稠密的局部路径图；将稠密的局部路径图投影到具有固定宽度的虚拟路径的激光雷达BEV图上，将接收投影后的激光雷达BEV图转换为二进制图像得到局部路径图。

STEP3、将BEV图与局部路径图输入CNN网络进行处理，得到语义分割图像，其中局部路径图被用作地面真实值；

具体地，CNN网络如图3所示，处理过程包括：

S21.将鸟瞰图与局部路径图输入到CNN网络的卷积层学习深层抽象特征；其中，卷积层的计算公式为：

f(a)＝∑θa+b

其中，θ表示卷积核的权值，a表示输入特征，b表示偏置值；

S22.将深层抽象特征输入批规则化层进行归一化处理，得到归一化特征；其中，归一化计算过程为：

其中，c表示输入特征，μ是c的均值，σ²是c的方差，γ是可学习的缩放因子，β是可学习的平移因子；

S23.通过激活函数层的ReLU激活函数对归一化特征进行非线性变换；

S24.通过最大值池化层对非线性变换后的归一化特征进行降采样，提取区域显著性特征；

S25.将步骤S21中的输入替换为步骤24提取的区域显著性特征，返回步骤S21；

S26.经过多次的21-S25，得到深层次语义特征，利用双线性插值对深层次语义特征进行上采样；

S27.上采样后接入一个分类层识别像素点，识别完成后输出语义分割图像，其中，识别分类过程表示为：

其中，N表示需要分类的种类，表示像素点/>属于第i类的概率。

STEP4、将语义分割图像输入基于时空金字塔transformer的神经网络模型，得到自动驾驶车辆的轨迹交通参与者的分类结果。

具体地，时空金字塔Transformer的神经网络模型框架图如图2所示，包括4个连续的组合块、4个连续的特征融合块、一个Transformer路径点特征编码器、一个Transformer路径点位置特征编码器、一个Transformer编码器和一个Transformer解码器，其中Transformer机制输出矩阵的具体计算公式为：

便于计算，Q、K、V分别表示Query、Key、Value的矩阵，输入Query的维度d_q，Key的维度d_k，Value维度为d_v，其中输出矩阵维度为

具体地，如图2、4所示，每一个组合块结构相同，包括一个时空卷积层和一个时间池化层，4个组合块的处理过程为：采用第一组合块处理语义分割图像(输入：T×C×H×W)得到第一时空特征图采用第二组合块处理第一时空特征图得到第二时空特征图采用第三组合块处理第二时空特征图得到第三时空特征图/>采用第四组合块处理第三时空特征图得到第四时空特征图/>

得到第四时空特征图后分为两个分支同时进行，其中一个分支如图4所示，将反卷积后的第四时空特征图与第三时空特征图融合得到第一融合特征图，将第一融合特征图送入第一特征解码器，将第一特征解码器的输出反卷积后与第二时空特征图融合得到第二融合特征图，将第二融合特征图送入第二特征解码器，将第二特征解码器的输出/>反卷积后与第一时空特征图融合得到第三融合特征图，将第三融合特征图送入第三特征解码器，将第三特征解码器的输出/>反卷积后与语义分割图像融合得到第四融合特征图，将第四融合特征图送入第四特征解码器，输出1×C×H×W；

另一个分支如图2所示，将第四时空特征图分别输入到Transformer路径点特征编码器和Transformer路径点位置编码器，输出对应的路径点嵌入和路径点位置嵌入；接着将路径点嵌入和路径点位置嵌入输入Transformer编码器；然后将Transformer编码器的输出和路径点位置嵌入输入Transformer解码器，输出有序的路径点嵌入。

通过插值法将第四特征解码器的输出与有序的路径点嵌入结合，得到自动驾驶车辆的轨迹与交通参与者的分类结果，即种类识别、轨迹预测和状态估计三部分，种类识别是识别交通参与者，通过不同颜色进行区分，比如蓝色：背景；紫色：车辆；黑色：行人；绿色：自行车；红色：其他，预测交通参与者的类别是使输出结果的内容更加丰富，可以用到无人驾驶系统中的避障系统中，也是为整个无人驾驶系统提供辅助作用；轨迹预测是得到目标自动驾驶车辆未来一段时间的预测轨迹，状态估计是用来判断目标自动驾驶车辆是处于静止状态还是运动状态，通过状态判断结果抑制轨迹预测的抖动，因为即使是背景物体也可能有微小运动，状态估计可以设置阈值来使背景物体为静态，从而提高预测轨迹的精度。

具体地，采用Transformer路径点特征编码器得到路径点嵌入的过程为：

S102.将第四时空特征输入Transformer路径点特征编码器中的第二卷积层，得到道路分割掩码；

其中，特征图的尺寸表示为H_output×W_output×C_output，每一个变量的计算公式为：

C_output＝K

H_input为输入特征图的高，W_input为输入特征图的宽，K为卷积层输出通道数，F为卷积层卷积核的边长，S为卷积过程中的步幅，P为补零的行数和列数；

S201.将第四时空特征输入Transformer路径点位置特征编码器中的第一卷积层，将其输出送入softmax层得到路径点热图；

S202.将路径点热图输入将第四时空特征输入Transformer路径点位置特征编码器中的第二卷积层，得到路径点位置嵌入，路径点位置嵌入的计算过程为：

其中，pos表示位置索引，i表示维度索引，d_model表示输入维度。

具体地，Transformer编码器和Transformer解码器的结构如图5所示，左半部分为Transformer编码器，路径点嵌入和路径点位置嵌入作为输入，将其送入多头注意力机制，将多头注意力机制的输出与输入相加并归一化，将归一化结果送入前向网络，将前向网络的输出与归一化结果相加并归一化；右半部分为Transformer解码器，将路径点位置嵌入输入掩码多头注意力机制，将掩码多头注意力机制的输出与路径点位置嵌入相加并归一化，将归一化结果与Transformer编码器的输出一起送入多头注意力机制，将多头注意力机制的结果送入前向网络，将前向网络的输出与多头注意力机制的结果相加并归一化，得到有序的路径点嵌入。

本实施例应用上述技术方案，其主要过程包括：

1、训练集数据扩充

将传感器采集到的激光雷达数据作为自动驾驶系统的输入并输出控制信号，该过程虽然不需要详细的一一映射过程，且有利于自动驾驶系统做出快速反应，但是缺乏解释能力与可验证的鲁棒性。本发明通过CNN将添加的自动驾驶车辆行驶道路的局部路径数据与处理后的激光雷达数据进行图像语义分割，可以克服这一缺点，而且使得训练集包含的内容更加丰富，有效增强了训练效果，使得训练后的模型更加可靠。

2、Transformer机制优化时空金字塔网络

由于Transformer机制可以有效地对位置关系进行建模，弥补了时空金字塔缺少的位置特征，所以本发明在时空金字塔网络的基础上添加了Transformer机制，在提高模型精度的同时减小了模型训练所需要的时间。其中，时空金字塔网络构架图如图4所示。Transformer机制可以对位置关系进行建模的原因是采用了位置编码，将输入嵌入与位置编码向量连接起来。

综上所述，本发明额外添加局部路径图，通过CNN将BEV地图与局部路径图进行图像语义分割增加了输入的可解释性与鲁棒性，且使得训练集包含的内容更加丰富，有效增强了训练效果，使得训练后的模型更加可靠；

本发明基于时空金字塔Transformer的神经网络模型，通过Transformer机制提取轨迹数据中显著的位置特征，对时空金字塔网络进行了更细致的优化。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于时空金字塔的自动驾驶轨迹预测方法，其特征在于，包括以下步骤：

步骤S2获取局部路径图的过程为：

S13.将稠密的局部路径图投影到具有固定宽度的虚拟路径的激光雷达BEV图上，将接收投影后的激光雷达BEV图转换为二进制图像得到局部路径图；

S3.构建基于时空金字塔transformer的神经网络模型；

S4.将BEV图与局部路径图进行整合，将整合结果输入到神经网络模型进行处理，得到自动驾驶车辆的轨迹与交通参与者的分类结果；

通过CNN网络对BEV图与局部路径图进行整合，得到语义分割图像的过程为：

S21.将鸟瞰图与局部路径图输入到CNN网络的卷积层学习深层抽象特征，其中局部路径图被用作地面真实值；

S22.将深层抽象特征进行归一化处理，得到归一化特征；

S23.通过ReLU激活函数对归一化特征进行非线性变换；

S26.利用双线性插值对深层次语义特征进行上采样；上采样后接入一个分类层识别像素点，识别完成后输出语义分割图像；

将鸟瞰图与局部路径图的深层抽象特征进行归一化处理表示为：

采用神经网络模型处理BEV图与局部路径图整合得到的语义分割图像，得到自动驾驶车辆的轨迹与交通参与者的分类结果的过程包括：

S33.将路径点嵌入和路径点位置嵌入输入Transformer编码器；

S36.通过插值法将第四特征解码器的输出与有序的路径点嵌入结合，得到自动驾驶车辆的轨迹与交通参与者的分类结果；

步骤S32中采用Transformer路径点特征编码器得到路径点嵌入的过程为：

步骤S32中采用Transformer路径点位置特征编码器得到路径点位置嵌入的过程为：

2.根据权利要求1所述的一种基于时空金字塔的自动驾驶轨迹预测方法，其特征在于，将雷达点云数据量化为规则体素并形成三维体素格，采用二进制状态表示每个体素格的占用情况，将三维体素格的高度维数对应于二维伪图像的图像通道，从而将三维的雷达点云数据转换为二维伪图像，即所需的BEV图。

3.根据权利要求1所述的一种基于时空金字塔的自动驾驶轨迹预测方法，其特征在于，步骤S31中的每一个组合块结构相同，包括一个时空卷积层和一个时间池化层，时空卷积层以分层方式沿空间维度和时间维度来提取特征，在空间维度，以2的比例步长来计算不同尺度上的特征图，得到不同尺度的空间特征；在时间维度，每次时间卷积后以1/2的比例逐步降低时间分辨率，得到不同尺度的时间特征。