CN116503446A

CN116503446A - 目标驱动和分布热力图输出的多模态车辆轨迹预测方法

Info

Publication number: CN116503446A
Application number: CN202310462698.8A
Authority: CN
Inventors: 李巍华; 龚国铮
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-28

Abstract

本发明公开了目标驱动和分布热力图输出的多模态车辆轨迹预测方法，包括：构建包含高精度地图数据的轨迹数据集；将轨迹预测任务分解为目标点预测和轨迹回归两个阶段；构建目标点预测网络编码器，分别对历史运动和栅格化地图进行特征提取；将所提取的特征通过多阶段注意力机制进行融合交互；将融合特征通过基于转置卷积的解码器，得到目标点热力图分布；依据数据集内的轨迹数据，对目标点预测网络训练，并设置超参数和训练策略；完成目标点预测网络的训练后，使用采样算法从热力图采样多个目标点以对应现实中的不同模态；搭建轨迹回归网络，以所采样的目标点和融合特征作为输入；训练轨迹回归网络，本发明能够提升轨迹预测模型的场景覆盖率。

Description

目标驱动和分布热力图输出的多模态车辆轨迹预测方法

技术领域

本发明属于智能驾驶感知技术领域，涉及一种轨迹预测方法，具体涉及一种目标驱动和分布热力图输出的多模态车辆轨迹预测方法。

背景技术

自动驾驶技术对于提高交通安全和效率，促进汽车产业创新和升级，满足消费者出行需求具有重大意义。轨迹预测模块是自动驾驶系统的重要组成部分，能够帮助自动驾驶车辆提前了解周围交通参与者的未来状态，做出安全和合理的决策和规划。如果失去预测模块，环境感知只能获取周围环境的当前状态，仅仅关注当前状态是不够安全的，特别是在高交互场景(如繁忙的十字路口)。

因为涉及因果推断，预测问题是困难的，未来结果往往面临巨大的解空间，自然语言处理领域通过在海量数据上训练大模型以覆盖多个可行解。自动驾驶领域没有如此海量的数据，同时因为实时性要求限制了模型规模，但是，汽车行驶具有规则性，道路内车辆大多遵循交通规则，沿指定车道线行驶，同时汽车的航向、速度等状态量会遵循车辆动力学约束，不会短时间内发生突变，特定的结构和行为缩小了轨迹预测问题的求解空间，使其不像自然语言处理需要海量数据以覆盖解空间。

轨迹预测涉及自车与其余交通参与者，自车作为驾驶主体对其余交通参与者进行预测。由于车辆彼此会产生大量信息交互，因此需要建立有效的方法建模交互。高精度地图(High Definition Map,HD Map)包含大量影响汽车行驶的数据，比如车道线、车道边界、可行驶区域、人行横道等，对轨迹预测具有重大意义。目前，轨迹预测仍面临巨大挑战，主要的困难包括：1)交通参与者的交互。道路内并非只有一辆车在行驶，繁忙的路段甚至有数十辆车，车辆间的不同行为会引发不同结果，比如前车减速会导致跟随车的减速或超车行为，准确的预测需要准确的交互建模；2)高精度地图信息的利用。高精度地图包含大量有用信息，对于约束汽车行为，引导汽车走向具有重要作用，比如在交叉口放置让路标志可以完全改变接近车辆的行为，在模型中融入高精度地图信息也成为一项挑战；3)预测轨迹本质上是多模态的。行驶到十字路口的汽车，未来不是唯一的，可能包含直行、转弯、变道等多种行为，预测模型需要生成多种可能的结果，并输出每种结果的概率或置信度。因此，有必要提出一种有效的多模态预测方法，考虑多种特征的交互。(Multimodal TrajectoryPredictions for Autonomous Driving using Deep Convolutional Networks)(Socialgan:Socially acceptable trajectories with generative adversarial networks)(GRIP:Graph-based Interaction-aware Trajectory Prediction)现有方法大多缺乏特征的交互建模，或者未考虑高精度地图信息的影响，严重限制了轨迹预测的性能。同时，某些方法未考虑多模态预测的影响，导致预测结果缺乏多样性。

发明内容

为了解决上述技术问题，本发明提出一种目标驱动和分布热力图输出的多模态车辆轨迹预测方法，能够提升轨迹预测模型的场景覆盖率，并使预测轨迹符合交通规则和人类驾驶行为。

本发明至少通过如下技术方案之一实现。

目标驱动和分布热力图输出的多模态车辆轨迹预测方法，包括以下步骤：

(1)选取自动驾驶汽车周围一车辆作为预测主体，并采集预测主体的轨迹数据，通过目标跟踪模块采集周围车辆的行驶轨迹，并记录每个交通参与者的类型，将所采集的轨迹按照时间戳切分成长度为T_obs的历史轨迹和长度为T_pred的未来轨迹，以预测主体的未来轨迹作为预测任务的真实标签；

(2)对所采集的轨迹进行数据清洗，挖掘相应的预测场景，将所采集的轨迹划分为训练、验证和测试集；

(3)预处理行驶轨迹和高精度地图数据：将预测主体和周围车辆的信息表示到运动向量内，将高精度地图信息表示到特定尺寸的栅格图内，作为轨迹预测任务已知的道路信息；

(4)将轨迹预测任务分解为目标点预测和轨迹回归两个阶段，以对应现实驾驶过程中的动机不确定性和运动不确定性；

(5)搭建目标点预测网络对未来轨迹末端点进行预测，定义损失函数引导目标点预测网络训练；

(6)完成目标点预测网络的训练后，通过不同策略的从目标点预测网络得到不相似的多模态目标点；

(7)基于目标点和上下文信息，搭建轨迹回归网络完成轨迹回归。

进一步地，对于每个预测场景，以预测主体为原点，以预测主体最后一个观测时刻的朝向为x轴，将所有轨迹数据的位置转化到坐标系内。

进一步地，运动向量包括交通参与者的类型、历史轨迹坐标和时间间隔；时间间隔通过当前时刻与上一时刻的差值表示；栅格化地图内包括车道中心线数据、车道边界和可行驶区域信息，其中，车道中心线数据占据3个通道，用HSV编码表示，H是色调，取值范围为0°～360°；S是饱和度，取值范围为0～1；V是明度；车道边界和可行驶区域数据占据1个通道，如果某个位置有数据，那么对应位置的像素值设置为255，否则为0。

进一步地，搭建目标点预测网络以及训练包括以下步骤：

1)假设目标点分布服从二维离散分布，利用深度神经网络进行拟合，称网络输出结果为分布热力图；以编码器-解码器为基础架构搭建目标点预测网络：

a.基于U-LSTM的运动特征编码器：轨迹历史数据首先通过一维卷积块进行融合，接着通过U-LSTM进行二次融合，输出特定维度的特征向量；

b.基于Swin Transformer的地图特征编码器：通过Swin Transformer提取栅格化地图特征，以获得更大的感受野；

c.基于多阶段注意力机制的特征融合模块：通过注意力机制融合历史运动和高精度地图特征，并显式加入相对距离信息作为补充，实现特征表达能力的增强；

d.基于转置卷积的解码器：通过转置卷积块对特征图进行上采样，上采样至原栅格化地图尺寸后，将原始高精度地图拼接到特征图上，以补偿下采样过程中丢失的信息，最后通过卷积块使通道数降为1，并通过Sigmoid函数约束每个像素输出在[0,1]范围内；

2)通过逐像素焦点损失(pixel-wise focal loss)进行网络训练，真实分布Y为以真实目标点为中心的二维高斯分布，设输出热力图上(i,j)位置的值为真实分布上(i,j)位置的值为Y_ij，则损失函数表示如下：

其中，为真实分布Y与输出热力图分布/>的损失函数；/>为输出热力图第i行第j列的值；Y_ij为真实分布上第i行第j列的值；H、W分别为热力图高度和宽度；β为权重系数；

3)使用步骤(3)中已处理好的数据对目标点预测网络训练，设置超参数和训练策略，通过验证集选择训练效果最好的模型网络，在测试集中进行性能评估。

进一步地，在解码器每一个转置卷积块的输出上，通过辅助的转置卷积块还原回原图尺寸，将通道数转换为1，接着通过Sigmoid函数输出热力图分布，并通过逐像素焦点损失监督学习，总损失函数将包含通过多层转置卷积块后的输出损失和转置卷积块内的辅助损失，如下式所示：

其中，是第l个转置卷积块的输出，α是用于平衡两个损失的超参数，用于控制辅助损失前的系数。

进一步地，所述基于U-LSTM的运动特征编码器是改进的长短时记忆网络(LongShort-Term Memory,LSTM)结构，首先进行反向LSTM过程获取未来信息，再将其输出传递到正向LSTM。

进一步地，所述基于Swin Transformer的地图特征编码器，包含3个阶段，每个阶段对图像完成一次下采样，每个阶段包括两个Swin Transformer块。

进一步地，采用MR(Miss Rate)采样算法和FDE(Final Displacement Error)采样算法从目标点预测网络得到不相似的多模态目标点；

MR采样算法包括以下步骤：

使用MR采样算法得到的K个目标点作为初始目标点：迭代地选择最大概率积分值的区域，在选择相应区域后，将区域内所有位置的概率值设置为0，并将区域中心作为预测目标点，循环此过程K次，即可得到K个目标点即预测模态；

FDE采样算法使用MR采样算法得到的K个目标点作为初始目标点，并迭代优化得到多模态目标点，主要包括以下步骤：

计算热力图上位置x_i和中心点的距离/>其中下标i表示第i个位置；

然后假设位置x_i最近的中心点为计算每个点x_i和距离最近中心点/>的距离m_i；

对第k个中心点筛选出a米范围内的邻域点，并进行加权平均，得到新的中心点坐标，并进入下一轮迭代，加权平均的权重为/>与/>的乘积，其中p_i为位置x_i在热力图上的概率，循环上述过程L次，即得到更加准确的采样目标点。

进一步地，轨迹回归网络包括以下模块：

融合信息池化层：通过全局平均池化将目标点预测网络的中间层特征展平成一维向量，并与目标点特征进行拼接，其中，目标点预测网络的中间层特征是指场景输入通过U-LSTM、Swin Transformer和多阶段注意力机制后的输出特征图，包含丰富的道路结构信息：

线性残差块：包括全连接层、层归一化层和ReLU激活函数，对输入维度进行多层级的变换。

进一步地，基于目标点和上下文信息的轨迹回归网络通过Huber Loss训练轨迹回归网络，Huber Loss用表示，损失函数表示为：

其中，表示轨迹预测模型输出预测的坐标点，包括x和y坐标；/>表示真实坐标点；/>为t时刻所预测的坐标x_F,t和真实的坐标/>之间的Huber损失；/>为t时刻所预测的坐标y_F,t和真实的坐标/>之间的Huber损失；总共有T_pred个预测时刻，变量/>与变量y的Huber损失定义如下：

其中，δ为损失中的超参数。

本发明所述的一种目标驱动和分布热力图输出的多模态车辆轨迹预测方法，与现有技术相比具有如下有益效果：

1.本发明提出的目标驱动的多模态车辆轨迹预测框架，将轨迹预测分解为两个阶段：1)目标点预测；2)基于目标点的轨迹回归。这种分解存在现实依据，目标点预测对应动机的不确定性，对行为意图建模；轨迹回归对应运动的不确定性，考虑了车辆运动控制过程中的误差。因此，该框架提供了一定的可解释性。

2.本发明提出的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，可通过热力图输出，有效建模目标点分布，从而降低轨迹丢失率(Miss Rate,MR)。丢失率是一项重要的轨迹预测评价指标，表示多模态预测轨迹均偏离真实轨迹的场景占比，相比于最终位移误差，现实中往往比较关注丢失率，因为丢失率更能体现预测模型在复杂多变的现实场景中的泛化能力，降低丢失率可以提高场景覆盖率，从而在现实场景中具有更大的优势。

3.本发明在目标点预测阶段提出的基于Swin Transformer的地图特征编码器，通过移动窗口的注意力机制扩大图像的感受野，有效结合了路网信息，提升了目标点预测的性能，且通过轻量化的配置，缩小了模型的体积，为实车应用提供了保障。

4.本发明在目标点预测阶段提出的基于多阶段注意力机制的特征融合模块，有效解决了车辆轨迹预测过程中的特征交互问题，使特征彼此融合不再相互独立，从而提升模型的表达能力。融合过程中首先建模地图信息和代理的交互，因为车道线对代理运动具有引导性，且车道边界能够约束代理的运动范围，因此通过交叉注意力机制使代理感知到地图信息。接着建模代理彼此的交互，考虑到代理也能通过其他代理的行为推断车道信息，因此通过自注意力机制实现代理彼此特征的融合。

5.本发明在A2A特征融合模块，显式引入了相对距离信息，构建了其余代理与目标代理的相对距离特征，并融入注意力机制模块，使相对距离的影响更加显著，进一步提升轨迹预测的性能。人类驾驶过程中，也倾向于优先考虑近距离车辆的影响，赋予近距离车辆更大的权重，考虑相对距离信息也符合驾驶经验。

6.本发明提出的基于pixel-wise focal loss的热力图输出损失，将focal loss拓展到密集型预测任务内，可有效解决模型训练时正负样本不平衡的问题。损失不仅可解决样本不平衡问题，而且可解决难样本问题，增大预测不佳的像素在损失中的占比。对于真实目标点所在位置，权重系数β强迫该位置预测值接近正式值，保证了热力图输出对目标点准确的覆盖。

7.本发明提出的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，在训练阶段，除了使用pixel-wise focal loss进行监督训练外，还设置了辅助任务，在解码器每一个转置卷积块的输出上，通过辅助的转置卷积块还原回原图尺寸，将通道数转换为1，接着通过Sigmoid函数输出热力图分布，并通过pixel-wise focal loss监督学习。这有利于强迫解码器每一层特征都包含能够恢复真实分布的信息，提升模型的训练速度，改进模型的性能。

8.本发明提出的基于目标点和上下文信息的轨迹回归网络，考虑了目标点已知后，车-车交互和地图信息对预测轨迹的影响，输入包含了融合特征和采样得到的目标点信息，使预测的轨迹更加合理。融合特征由目标点预测网络的编码器产生，为了不影响目标点预测网络，冻结目标点预测网络的参数，以实现目标点预测和轨迹回归的解耦合。

附图说明

图1为本发明一种目标驱动和分布热力图输出的多模态车辆轨迹预测方法的流程图；

图2为本发明方法的基于热力图输出的目标点预测网络模型架构图；

图3为本发明实施例的基于U-LSTM的运动特征编码器结构图；

图4为本发明实施例的U-LSTM结构图；

图5为本发明实施例的基于Swin Transformer的地图特征编码器结构图；

图6为本发明实施例的M2A过程示意图；

图7为本发明实施例的A2A过程示意图；

图8为本发明实施例的注意力层结构图；

图9为本发明实施例的转置卷积块结构图；

图10为本发明实施例的测试集定性结果图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及具体实施步骤，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，包括：构建包含高精度地图数据的轨迹数据集；将所有数据点转换到以预测目标为原点的坐标系内，并将高精度地图信息转化为栅格化地图；将轨迹预测任务分解为目标点预测和轨迹回归两个阶段；构建目标点预测网络编码器，分别对历史运动和栅格化地图进行特征提取；将所提取的特征通过多阶段注意力机制进行融合交互；将融合特征通过基于转置卷积的解码器，得到目标点热力图分布；依据数据集内的轨迹数据，使用pixel-wise focal loss对目标点预测网络训练，并设置合适的超参数和训练策略；完成目标点预测网络的训练后，使用特定采样算法从热力图采样多个目标点以对应现实中的不同模态；搭建轨迹回归网络，由残差连接块构成，以所采样的目标点和融合特征作为输入；利用Huber Loss训练轨迹回归网络；设定合适的超参数和训练策略训练轨迹回归网络。

本实施例中，将交通参与者统称为代理(Agent)，选取自动驾驶汽车周围一辆感兴趣的车辆作为预测主体，称该车辆为目标代理(Target Agent)。如图1所示的目标驱动的多模态车辆轨迹预测框架，具体包括以下步骤：

(1)选取自动驾驶汽车周围一辆感兴趣的车辆作为预测主体，并采集预测主体的轨迹数据，通过目标跟踪模块采集周围交通参与者的行驶轨迹，并记录每个交通参与者的类型(比如车辆、行人、自行车等)，通过高精度地图获取路网信息，并结合所有交通参与者的位置、速度等历史运动信息构建轨迹预测任务，预测目标代理的未来轨迹。将所采集的轨迹按照时间戳切分成长度为T_obs的历史轨迹和长度为T_pred的未来轨迹，以目标代理的未来轨迹为预测任务的真实标签。

(2)对所采集的轨迹集进行数据清洗，挖掘有趣的预测场景，包括：a)十字路口；b)左转或右转；c)转向相邻车道；d)在密集交通中的车辆。将所采集的轨迹集划分为训练、验证和测试集。对于每个预测场景，只考虑目标代理周围100米范围内交通参与者的影响。代理的位置以坐标点表示，坐标系以目标代理为原点，以目标代理最后一个观测时刻的朝向为x轴，将所有代理的位置转化到所定义的坐标系内。

作为一种优选的实施例，针对步骤(1)和步骤(2)中的数据采集和清洗过程，将直接使用大型公开轨迹预测数据集Argoverse的数据。Argoverse数据集主要采集自匹兹堡和迈阿密，包含30多万目标代理的轨迹和丰富的语义地图数据，语义地图覆盖达290公里，最终收集了324,557个5秒序列，采样频率固定为10Hz。针对所采集的5秒序列构建预测任务，设置T_obs＝2，T_pred＝3。为评估多模态预测的性能，单个场景将考虑K个输出轨迹，本实施例以K＝6为例，也对应了Argoverse的标准。对于324,557个序列，205,942个被划分为训练集，39,472个被划分为验证集，78,143个被划分为测试集。为了保证数据的差异性，训练、验证和测试集取自城市中不相交的部分，即每个城市的大约1/8和1/4分别作为验证和测试数据。

对每个场景中的轨迹数据和路网数据进行坐标系转化，以目标代理为坐标原点，目标代理最后一个观测时刻的朝向为x轴，将所有数据转化到所定义的坐标系内。

(3)预处理行驶轨迹和高精度地图数据，将目标代理和其余交通参与者的信息表示到特定长度的向量内，运动向量包括交通参与者的类型、历史轨迹坐标和时间间隔等特征，时间间隔通过当前时刻与上一时刻的差值表示。将高精度地图信息表示到特定尺寸的栅格图内，栅格化地图内包含车道中心线数据、车道边界和可行驶区域等信息，其中，车道中心线数据占据3个通道，用HSV编码表示，以考虑中心线的有向性，在HSV表示中，H是色调(Hue)，取值范围为0°～360°，刚好对应中心线的方向角；S是饱和度(Saturation)，取值范围为0～1，取其值为1；V是明度(Value)，取其值为1。车道边界和可行驶区域数据占据1个通道，如果某个位置有数据，那么对应位置的像素值设置为255，否则为0。

(4)将轨迹预测任务分解为目标点预测和轨迹回归两个阶段，以对应现实驾驶过程中的动机不确定性和运动不确定性。目标点预测对未来轨迹最后一个时刻的坐标点进行预测；轨迹回归以所预测的目标点为条件，对预测轨迹进行回归补全。

(5)针对目标点预测阶段，基于热力图输出的目标点预测方法，假设目标点分布服从二维离散分布，搭建了一个基于分布热力图的目标点预测网络拟合该分布，目标点预测网络以编码器-解码器为基础架构，结构如图2所示，包括以下模块：

a.基于U-LSTM的运动特征编码器：运动历史数据首先通过一维卷积块Conv1dBlock进行融合，接着通过U-LSTM进行二次融合，输出特定维度的特征向量，结构如图3所示，Conv1dBlock由卷积核大小为5×5的一维卷积Conv1d，批归一化层(BatchNormalization,BN)和修正线性单元ReLU(Rectified Linear Unit)组成。U-LSTM是一种改进的长短时记忆结构，结构如图4所示。首先进行反向LSTM过程获取未来信息，再将其输出传递到正向LSTM，以达到积累信息的效果，同时有助于正向过程了解哪部分信息在未来会有用。

b.基于Swin Transformer的地图特征编码器：通过轻量化配置的SwinTransformer提取栅格化地图特征，包含3个阶段，每个阶段对图像完成一次下采样，内部包含2个Swin Transformer块，如图5所示。块切分(Patch Partition)操作将输入数据切分成块；线性嵌入层(Linear Embedding)对切分后的块进行维度变换；Swin Transformer块进一步提取特征，其不改变特征维度；下采样过程由块合并(Patch Merging)操作完成。考虑到同一车道位于栅格化地图的不同位置时，将起到不同作用，因此显式引入位置坐标是有益的，通过参考坐标卷积在栅格化地图通道维度拼接坐标信息来表示每个像素的坐标值，以获得更大的感受野。

c.基于多阶段注意力机制的特征融合模块：通过M2A(Map to Agent)提取地图特征在不同代理的显著部分，将场景内所有交通参与者的特征向量作为注意力机制的查询(Q)，将经特征提取后的栅格化地图特征作为键(K)和值(V)，Q、K、V均通过卷积核大小为1×1的二维卷积Conv2d得到，M2A过程示意图如图6所示。接着，将M2A的输出通过A2A(Agent toAgent)实现代理彼此的信息交互，将场景内所有交通参与者的特征向量作为查询(Q)、键(K)和值(V)，整个过程相当于计算自注意力机制，A2A过程示意图如图7所示。通过M2A(Mapto Agent)、A2A(Agent to Agent)等注意力机制模块融合历史运动和高精度地图特征，并显式加入相对距离信息作为补充，实现特征表达能力的增强。

考虑到A2A后需要显式考虑相对距离信息，因此将目标代理和其余交通参与者的相对距离信息通过多层感知机后，拼接到通过A2A交互的特征向量内，再以目标代理作为查询(Q)，其余交通参与者作为键(K)和值(V)，计算交叉注意力。

作为一种优选的实施例，上述注意力机制都是多头注意力机制，头数设置为4。目标点预测网络结构还包含层归一化(LayerNorm)、多层感知机(Multiple Perceptron,MLP)等模块和残差结构，如图8所示。

d.基于转置卷积的解码器：通过转置卷积块对特征图进行上采样，转置卷积块包含转置卷积、BN和ReLU层，所用卷积核大小为4×4，填充参数padding为1，步长stride为2，以实现上采样的效果，结构如图9所示。上采样至原栅格化地图尺寸后，将原始高精度地图拼接到特征图上，以补偿下采样过程中丢失的信息，如图2右侧解码器所示。最后通过卷积块使通道数降为1，并通过Sigmoid函数约束每个像素输出在[0,1]范围内。

定义focal loss(pixel-wise focal loss)损失训练目标点预测网络，假设真实分布Y为以真实目标点为中心的二维高斯分布，设输出热力图上(i,j)位置的值为真实分布上(i,j)位置的值为Y_ij，损失函数可表示如下：

其中，为真实分布Y与输出热力图分布/>的损失函数；/>为输出热力图第i行第j列的值；Y_ij为真实分布上第i行第j列的值；β为权重系数；二维高斯分布的方差设为4像素；H、W分别为热力图的高度和宽度。乘项/>可解决难样本问题，增大预测不佳的像素在损失中的占比。对于真实目标点所在位置(Y_ij＝1)，权重系数β强迫该位置预测值接近正式值。对于其余位置，乘项(1-Y_ij)⁴可减小Y_ij中接近1取值位置的损失占比，防止模型被过度约束。

引入辅助任务以提升模型性能，在解码器每一个转置卷积块的输出上，通过辅助的转置卷积块还原回原图尺寸，将通道数转换为1，接着通过Sigmoid函数输出热力图分布，并通过pixel-wise focal loss监督学习。总损失函数将包含通过多层转置卷积块后的输出损失和转置卷积块内的辅助损失，如下式所示：

其中，是第l个转置卷积块的输出，从靠近编码器开始编号，一共有4个转置卷积块；Y为真实分布；/>为预测热力图分布。α是用于平衡两个损失的超参数，用于控制辅助损失前的系数，为使接近输出端的损失具有更高的权重，系数按指数形式衰减。

(6)训练目标点预测网络，使用初始学习率为0.001的Adam优化器训练网络，批大小为32，总共训练了20个epochs。为了稳定训练，训练初期学习率采用warm up策略调整，从一个较小的学习率线性增长为初始学习率，设定在第800次迭代时达到初始学习率。此外，在第3、6、9和13个epoch将学习率减半。对于pixel-wise focal loss中的权重β，在前16个epoch将其设置为1000，后4个epoch设置为1。为了增强模型的鲁棒性，以0.2的概率改变栅格化地图的通道数据，实现数据增强。通过以下方式改变通道数据：1)随机mask掉3个随机通道50％的像素；2)给3个随机通道数据加入均值为0.05，标准差为0.05二维高斯噪声；3)给3个随机通道加入椒盐噪声；4)随机选取1个通道填充0；5)随机选取1个通道填充标准高斯分布数值。在训练过程中，通过验证集选择预测指标最好的网络作为最终网络模型，在测试集中进行性能评估。

(7)在完成目标点预测网络的训练后，使用两种采样算法在分布热力图采样，分别考虑了不同的指标，一种是考虑(Miss Rate,MR)的MR采样算法，另一种是考虑最终位移误差(Final Displacement Error,的FDE采样算法。算法流程如下表所示：

表1MR采样算法

MR采样算法迭代地从半径为R的圆域内选择最大概率积分值的区域，在选择了相应区域后，将区域内所有x的概率值设置为0，并将区域中心作为预测目标点。将区域内点的概率值设为0可以有效保证采样点之间的间距，提升轨迹多样性。在实现过程中，为了提升运算效率，将区域当成方形区域处理而不是圆域，区域内概率的求和可以看成卷积运算，因此使用卷积核参数固定(固定为1)的卷积层对热力图进行处理，并借助深度学习框架加速运算。

表2FDE采样算法

FDE采样算法流程如上表所示，其原理受KMeans聚类算法的启发，每个采样得到的目标点都存在一个邻域，邻域内每个点都有各自的坐标和概率值，因此可通过对邻域内点进行加权使采样目标点更精确。首先，FDE采样算法使用MR采样的结果，初始化K个中心点；接着，对每个中心点，筛选出3m范围内的邻域点，流程中的是指示函数，在条件满足时函数输出1，否则输出0；最后，对邻域内所有点进行加权求和作为新的中心点，并进入下一轮迭代。邻域内每个点的权重不单单与其概率相关，还与它和中心点的距离相关，距离越大则权重越小。

(8)基于目标点和上下文信息，搭建轨迹回归网络完成轨迹回归，包括以下模块：

a.融合信息池化层：通过全局平均池化(Global Average Pooling,GAP)将目标点预测网络的中间层特征展平成一维向量，并与目标点特征进行拼接。

b.线性残差块：由全连接层，层归一化层(LayerNorm)和ReLU激活函数构成，对输入维度进行多层级的变换。

通过Huber Loss训练轨迹回归网络，Huber Loss用表示，损失函数可表示为：

其中，δ为损失中的超参数。

使用初始学习率为0.001的Adam优化器训练轨迹回归网络，批大小为32，总共训练了10个epochs，在第5个epoch将学习率调整为0.0001。目标点预测网络的中间层特征仅作为输入，训练过程中不会将梯度回传至已经训练好的目标点预测网络。

使用Argoverse广泛使用的评价指标进行模型评估，综合考虑了模型的单模态和多模态预测性能，主要包括以下指标：

最小最终位移误差(Minimum Final Displacement Error,minFDE)：最佳预测轨迹的端点与真实轨迹端点之间的L2距离，多模态预测情况下最佳轨迹是指具有最小端点误差的轨迹。

最小平均位移误差(Minimum Average Displacement Error,minADE)：最佳预测轨迹与真实轨迹之间的平均L2距离，多模态预测情况下最佳轨迹是指具有最小端点误差的轨迹。

丢失率(Miss Rate,MR)：根据端点误差，预测轨迹均不在真实轨迹2米以内的场景数量。

p-minADE：类似于minADE，区别是考虑了概率的影响，在minADE基础上加上min(-log(p),-log(0.05))，其中p对应于最佳预测轨迹的概率。

p-minFDE：类似于minFDE，区别是考虑了概率的影响，在minFDE基础上加上min(-log(p),-log(0.05))，其中p对应于最佳预测轨迹的概率。

1.预测方法定量比较

基于以上指标，在Argoverse测试集上将所提方法与以下基线模型进行比较。遵循Argoverse数据集的约定，实验将包含单模态K＝1和多模态K＝6的预测结果。

Argo-CV：物理学预测模型，通过观测时域T_obs内的坐标点，计算不同的平均速度，并假定在预测时域内保持常速行驶。

Argo-NN+map：加权近邻回归模型，通过依据向量化地图信息的近邻查询得到未来轨迹。

Argo-LSTM+map：基于LSTM编码器-解码器架构的预测模型，输入包含运动历史数据和向量化地图信息。

uulm-mrm：基于栅格化地图的方法，通过CNN骨干网络提取地图特征，并拼接状态特征，通过回归头直接产生多模态轨迹及其置信度，通过赢家通吃损失训练。

MotionCNN：基于栅格化地图的方法，显式将运动历史加入到栅格化地图内，并通过预训练CNN骨干网络直接产生多模态轨迹及其置信度。

TNT：一种分阶段轨迹预测方法，将目标点预测和轨迹回归实现在同一网络内，以端到端的方式产生多模态轨迹。

Multi-Fused Heatmap Output for Motion Prediction(MF-Heat)：本发明所提出的目标驱动和分布热力图输出的多模态车辆轨迹预测方法。

表3Argoverse测试集结果比较(K＝1)，MR以百分比的形式表示，加粗代表最好的结果

表4Argoverse测试集结果比较(K＝6)，‘－’代表未检索到相关结果

方法	minADE	minFDE	p-minADE	p-minFDE	MR
						Argo-CV	3.39	7.57	5.18	9.36	81.68
Argo-NN+map	2.08	4.03	3.87	5.82	58.21
						Argo-LSTM+map	2.34	5.44	4.14	7.23	69.16
TNT	0.94	1.54	2.73	3.33	13.30
						uulm-mrm	0.94	1.55	－	－	21.79
MotionCNN	1.00	1.60	2.67	3.26	21.75
						MF-Heat(FDE)	0.90	1.36	2.76	3.22	13.15
MF-Heat(MR)	0.93	1.48	2.47	3.02	11.32

实验结果如表3和表4所示。从表中可看出，K＝1时MF-Heat方法效果优异，与同类型方法相比性能突出，也比同为目标驱动的TNT方法具有更好的效果。K＝6时使用MR采样算法的MF-Heat在考虑概率的p-minADE和p-minFDE指标上取得了最佳的性能，这说明MF-Heat预测的高概率轨迹普遍具有较小的位移误差。此外，在minADE上也领先于同类型的方法。MR是评价预测性能的一个重要指标，它反映了轨迹的覆盖率，MR越低，意味着预测的轨迹能更好地覆盖真实的场景。MR采样的MF-Heat方法在MR指标上表现优异，大幅超过其余对比方法。

FDE采样的MF-Heat方法通过牺牲MR换取更低的minFDE，实验中设置迭代参数L＝4，结果显示，该方法minFDE达到了最佳的性能，大幅超越同类型的方法，在MR上上升了约2％，但仍领先于其余对比方法，表明场景覆盖率的牺牲较小。

2.消融实验

为了分析不同模块和不同超参数设置对MF-Heat的影响，进行了消融实验，并在验证集上进行结果分析。为了分析网络架构中不同组件的影响，将MF-Heat按模块进行拆分，并对每个模块进行评估。此外，还探讨了提取栅格化地图特征的骨干网络对结果的影响，通过将Swin Transformer换成ResNet50来进行比较。在损失计算模块，超参数β和辅助损失都会对模型训练造成影响，分别评估其影响。

1)模块消融

表5不同模块消融实验结果，’－’代表模型不收敛

对不同模块进行消融，使用MR算法对热力图进行采样，结果如表5所示。在不进入栅格化高精度地图时，不管是使用双向LSTM还是U-LSTM，模型均不收敛，说明目标分布热力图强依赖于栅格化地图。单独编码高精度地图和运动历史时，U-LSTM方法比双向LSTM方法效果更好，证明了U-LSTM模块对运动历史特征提取的有效性。在U-LSTM和Map的基础上增加车辆间的注意力模块A2A，模型效果变化不大，说明预测结果对车-车交互依赖不强，与数据集的场景分布有关。增加注意力模块M2A显著提升了模型效果，说明代理特征通过地图进行了增强，证明了地图与代理信息交互的必要性。在所有模块中，缺少M2A或A2A模块都会使模型效果大幅下降，堆叠注意力机制模块能够增强模型的表征能力，但也要互相协调才能发挥最佳效果。

2)骨干网络

表6不同骨干网络下的实验结果

对比不同骨干网络在目标点预测上的效果，结果如表6所示。ResNet50在目标点预测网络上，效果仍然与Swin Transformer有较大差距，进一步说明Swin Transformer在栅格化地图特征提取上的优越性。

3)损失函数中β的影响

对于目标点所在真实位置(i^target,j^target)，计算损失时需要乘上系数β，为研究β取值对结果的影响，设定三种取值方式进行对比：Ⅰ)β＝1000；Ⅱ)β＝1；Ⅲ)β在训练前期为1000，在训练后期为1。实验结果如表7所示。

表7不同β取值下的实验结果

由结果可看出，β为1000时，模型主要关注真实目标点所在位置，预测结果集中但不够准确，对于真实位置给与了过度惩罚。β为1时，模型效果有所改善，但仍然不如先设置为1000，后设置为1的结果。先将β设置为1000，等价于给模型施加了目标点所在区域的先验，在训练前期先着重关注真实目标点所在区域，而不是单个点。在训练后期，由于β的过度惩罚，使得高概率区域较大，因此需要调整β，降低某些位置的概率，使得采样算法能够采样到理想的结果。

4)辅助损失的影响

表8辅助损失消融实验结果

为了评估辅助损失的作用，进行了消融实验，并在表8中展示了使用和不使用辅助损失的结果对比。从表中可以看出，加入辅助损失后，各指标都得到了改善。这说明辅助损失能够有效拉近解码器每层特征的距离，从而提升模型的整体性能。

3.测试集结果定性分析

对Argoverse测试集结果进行可视化分析，因为测试集中无法获取真实轨迹，因此仅对预测轨迹进行定性的合理化分析，结果如图10的a、b所示。

由图中可看出，测试集上的多模态预测轨迹基本符合人类常识，满足车辆动力学和道路规则的约束。不管是位于直道上还是弯道路口，本发明所提方法均对合理的驾驶行为进行了有效覆盖，比如，预测目标在路口处时，根据意图的不同，会产生直行或转弯的行为，对于类似的多模态行为，MF-Heat均产生了合理的预测，且赋予了不同的置信度。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，对于每个预测场景，以预测主体为原点，以预测主体最后一个观测时刻的朝向为x轴，将所有轨迹数据的位置转化到坐标系内。

3.根据权利要求1所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，运动向量包括交通参与者的类型、历史轨迹坐标和时间间隔；时间间隔通过当前时刻与上一时刻的差值表示；栅格化地图内包括车道中心线数据、车道边界和可行驶区域信息，其中，车道中心线数据占据3个通道，用HSV编码表示，H是色调，取值范围为0°～360°；S是饱和度，取值范围为0～1；V是明度；车道边界和可行驶区域数据占据1个通道，如果某个位置有数据，那么对应位置的像素值设置为255，否则为0。

4.根据权利要求1所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，搭建目标点预测网络以及训练包括以下步骤：

2)通过逐像素焦点损失进行网络训练，真实分布Y为以真实目标点为中心的二维高斯分布，设输出热力图上(i,j)位置的值为真实分布上(i,j)位置的值为Y_ij，则损失函数表示如下：

5.根据权利要求4所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，在解码器每一个转置卷积块的输出上，通过辅助的转置卷积块还原回原图尺寸，将通道数转换为1，接着通过Sigmoid函数输出热力图分布，并通过逐像素焦点损失监督学习，总损失函数将包含通过多层转置卷积块后的输出损失和转置卷积块内的辅助损失，如下式所示：

6.根据权利要求4所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，所述基于U-LSTM的运动特征编码器是改进的长短时记忆网络，首先进行反向LSTM过程获取未来信息，再将其输出传递到正向LSTM。

7.根据权利要求4所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，所述基于Swin Transformer的地图特征编码器，包含3个阶段，每个阶段对图像完成一次下采样，每个阶段包括两个Swin Transformer块。

8.根据权利要求1所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，采用MR采样算法和FDE采样算法从目标点预测网络得到不相似的多模态目标点；

MR采样算法包括以下步骤：

迭代地选择最大概率积分值的区域，在选择相应区域后，将区域内所有位置的概率值设置为0，并将区域中心作为预测目标点，循环此过程K次，即可得到K个目标点即预测模态；

计算热力图上位置x_i和第k个中心点的距离/>其中下标i表示第i个位置；

假设位置x_i最近的中心点为计算每个点x_i和距离最近中心点/>的距离m_i；

对第k个中心点筛选出a米范围内的邻域点，并进行加权平均，得到新的中心点坐标，并进入下一轮迭代，加权平均的权重为/>与/>的乘积，其中p_i为位置x_i在热力图上的概率；

循环上述过程L次，从而得到更加准确的采样目标点。

9.根据权利要求1～8任一项所述的目标驱动和分布热力图输出的多模态车辆轨迹预测方法，其特征在于，轨迹回归网络包括以下模块：

融合信息池化层：通过全局平均池化将目标点预测网络的中间层特征展平成一维向量，并与目标点特征进行拼接，其中，目标点预测网络的中间层特征是指场景输入通过U-LSTM、Swin Transformer和多阶段注意力机制后的输出特征图，包含丰富的道路结构信息；

10.根据权利要求9所述的目标驱动的多模态车辆轨迹预测框架，其特征在于，基于目标点和上下文信息的轨迹回归网络通过Huber Loss训练轨迹回归网络，Huber Loss用表示，损失函数表示为：

其中，δ为损失中的超参数。