CN116182875A

CN116182875A - 一种基于图神经网络的临时道路路径规划方法及系统

Info

Publication number: CN116182875A
Application number: CN202310134442.4A
Authority: CN
Inventors: 王立勇; 苏清华; 谢敏
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-30

Abstract

本发明涉及一种基于图神经网络的临时道路路径规划方法及系统，其包括：以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。本发明能实现路径规划，减少传统模块化方法中的误差累计，提高临时道路下路径规划的准确度；可以在无人车辆路径规划领域中应用。

Description

一种基于图神经网络的临时道路路径规划方法及系统

技术领域

本发明涉及一种无人车辆路径规划技术领域，特别是关于一种基于图神经网络(Transformer网络)的临时道路路径规划方法及系统。

背景技术

智能化的车辆又称为自动驾驶或无人驾驶车辆，不仅可以改变传统的以驾驶员为核心的汽车操纵方式，而且有可能大幅降低人为因素造成的交通安全事故。从实现过程上，自动驾驶技术可以分为两大类，一类是基于模块化的方法，这类方法将从传感器输入到执行器输出的中间过程构造成多个独立的子模块，如感知、规划与决策、控制等。这种方法的主要优势是可解释性，即构造具有可解释性的中间表示，因此在出现故障或系统行为异常的情况下，可以识别出发生故障的模块。另一类是基于端到端的方法，这类方法是指从感知的输入直接映射到驾驶的行为。与传统的模块化方法相比，端到端方法的优点是结构简单，不需要进行特征设计和选择，以及摄像机校准和参数的手动调整，并且由于该类方法依赖于从大量数据中学习优化的目标函数，因此针对现实世界发生的不可预测的变化更具有鲁棒性。研究人员在研究端到端自动驾驶模型时往往以航路点、代价图、运动参数或驾驶动作等模式作为输出，其中航路点和代价图等是高层次的输出模式，而自动驾驶的控制需要运动参数或驾驶动作，如转向、加速和减速等低层次的输出模式，因此仍然需要将这些输出通过可训练的网络模型或控制器模块转换为低级的运动参数和驾驶动作才能实现对车辆的控制。

根据深度神经网络模型学习的原理不同，端到端的无人驾驶决策控制方法通常可分为强化学习和模仿学习两种。强化学习通过智能体与环境的不断交互来获取稳健的驾驶策略，依靠构建适当的奖励函数来评价智能体的行为，并给出相应的奖惩信号，从而不断调整和改进网络参数，使累积奖励最大化，最终实现面向任务的控制策略学习。当有关的学习控制任务缺乏先验知识和设计奖励函数的理论指导时，由于缺乏科学合理的奖惩和评价信号，强化学习方法往往很难达到预期的性能。因为最初的原始模型策略没有目标任务的知识，所以学习一个基本的策略需要花费大量的时间。例如，在OPENAI的“捉迷藏”训练游戏中，基于强化学习方法的无人驾驶控制决策方法需要数以百万计的试错驾驶场景。而在无人驾驶研究中，由于初始的学习试错场景需要极其高昂的代价，在现实道路上是无法承担的。由于试错与时间成本，现有的方法很少有从零开始使用强化学习来进行高保真自动驾驶训练的研究。

模仿学习是一种模仿专家驾驶行为的监督学习方法，通过专家驾驶的演示来学习专家驾驶的策略。这些演示可以是在现实世界或者仿真模拟器离获得，由一系列观察状态和相应的专家控制信息组成。基于模仿学习的端到端无人驾驶控制系统中的观察状态主要由摄像头、GPS、激光雷达等传感器收集，控制信息则为在同一时刻专家驾驶时的油门、方向盘和刹车等信息，通过深度学习的训练，可得出优秀的专家驾驶决策。只使用一种模态数据会使得感知模块单一，收集的原始驾驶数据缺乏代表性，导致产生误差累积且无法消除。

发明内容

针对上述问题，本发明的目的是提供一种基于图神经网络的临时道路路径规划方法及系统，其能实现路径规划，减少传统模块化方法中的误差累计，提高临时道路下路径规划的准确度。

为实现上述目的，第一方面，本发明采取的技术方案为：一种基于图神经网络的临时道路路径规划方法，其包括：以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。

进一步，所述提取图像特征并识别出道路可行驶区域，包括：

采用STDC中的方法对BiSeNet进行改进，共用Spatial Path和Context Path低层的网络参数；

以改进的BiSeNet网络模型进行图像特征提取模块，实现实时道路语义分割；

采用拉普拉斯算子对提取的图像计算细节特征；

采用Detail Loss作为图像特征提取模块的损失函数，以增强细小目标的识别；

对图像特征提取模块进行预训练，完成图像特征提取，并在图像特征提取模块增加额外的语义分割预测网络，以识别出临时道路下的可行驶区域。

进一步，所述提取BEV视角下的点云特征，包括：

基于Voxel-Base方法构建点云特征提取模块；

针对临时道路场景，采用PointPillar中的方法对点云特征提取模块进行改进：划分区域时不对z轴进行划分，提取点云特征。

进一步，所述采用PointPillar中的方法对点云特征提取模块进行改进，包括：

在一个Pillar中单个点云定义为多维的增广向量，提取的Pillar维度为(D,P,N)，P为设定的采集Pillar总数，N为划分的Pillar中采集的点，D为Pillar中点的维度；

从划分的区域提取Pillar然后卷积得到一个(C,P,N)的向量，在N个维度上提供max操作得到维度为(C,P)的向量，输出Pseudo image，其中，C为输出的特征图通道数目；

对Pseudo image进行特征提取，通过逐步的下采样和卷积提取Pseudo image的全局特征，并通过反卷积操作获得局部特征和精细纹理特征，最后拼接全局和局部特征，得到点云特征提取模块的输出。

进一步，所述进行多模态数据融合后得到BEV语义地图和路点信息，包括：

基于改进的Transformer模块对多模态数据特征进行融合：在图像特征和点云特征进入Transformer模块之前，分别将图像特征和点云特征进行卷积后，与时序编码和传感器序号编码相加，经改进的Transformer模块处理后得到语义地图和路点信息；

其中，语义地图为矩阵，矩阵中不同值区分可行驶区域和障碍物；路点信息为路径信息的中间编码，能将其解码为路径。

进一步，所述改进Transformer模块，包括Encoder和Decoder；

Encoder部分由Multi-Head Attention以及前馈网络组成，Decoder相比Encoder多了一个Masked Multi-Head Attention模块；

Masked Multi-Head Attention模块相比Multi-Head Attention模块多了一层掩码，以使当前处理的数据只能看到之前时刻的序列数据，Encoder模块的数据通过传递K向量和V向量给Decoder模块提供全局的注意力机制，加上Masked Multi-Head Attention模块输出的Q向量，融合计算注意力机制作为最后的输出。

进一步，所述根据BEV语义地图、路点信息与车辆状态数据得到预测路径，包括：采用GRU构建预测网络，以BEV语义地图、路点信息、车速和车辆转角作为GRU的输入，输出预测路径，预测路径在BEV视角下用k个坐标点表示，输出维度为(k,2)。

第二方面，本发明采取的技术方案为：一种基于图神经网络的临时道路路径规划系统，其包括：第一处理模块，以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；第二处理模块，以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；预测模块，将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。

第三方面，本发明采取的技术方案为：一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

第四方面，本发明采取的技术方案为：一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明采用基于端到端方法实现路径规划，减少传统模块化方法中的误差累计，提高临时道路下路径规划的准确度。

2、本发明采用基于图像语义分割的道路检测任务来辅助训练图像提取模块，提高端到端模型收敛速度，提高算法在不同环境下的部署速度。与现有的其他端到端模型相比，本发明的模型在临时道路下运行速度更快，准确度更高。

附图说明

图1是本发明一实施例中基于端到端模型的临时道路路径规划方法流程图；

图2是本发明一实施例中端到端模型结构示意图；

图3是本发明一实施例中BiSeNet示意图；

图4是本发明一实施例中ARM模块示意图；

图5是本发明一实施例中FFM模块示意图；

图6是本发明一实施例中图像特征提取模块网络示意图；

图7是本发明一实施例中Voxel-Base点云处理方法示意图；

图8是本发明一实施例中PointPillar处理点云示意图；

图9是本发明一实施例中点云特征提取模块网络示意图；

图10是本发明一实施例中Transformer示意图；

图11是本发明一实施例中融合模块示意图；

图12是本发明一实施例中GRU示意图；

图13是本发明一实施例中预测模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

端到端(End-to-End)是深度学习中的一个概念，在自动驾驶领域端到端方法是指直接将车身视觉传感器等采集到的信号，比如路灯信号、有没有行人等，输入到一个统一的神经网络系统，系统直接输出与控制密切相关的指标，诸如方向盘转弯角度、油门幅度等汽车下一步应做的动作。端到端建立从输入感知到输出控制的端到端控制模型，可将场景环境感知、目标识别和规划决策等多种驾驶子任务统一到深度神经网络中，直接将感知信息映射为油门、方向盘和制动等控制信息，完成从认知到控制决策的统一。端到端的方式无需进行模块拆分，可简化特征工程繁琐的任务步骤，使自动驾驶系统的结构更加简单、高效。这种端到端方法非常强大。通过最少的训练数据，系统可以学习在有或没有车道标记的道路上以及高速公路上行驶。与显式分解问题(例如，车道标记检测，路径规划和控制)相比，端到端系统能够同时优化所有处理步骤。

针对现有路径规划算法准确性不高，无法在真实的道路上行驶，且可靠性较低；算法移植到陌生环境难度大，且准确率和可靠性不高等问题，且不同模态的数据之间能够相互补充，本发明提供一种基于图神经网络的临时道路路径规划方法及系统，其包括：以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。本发明能实现路径规划，减少传统模块化方法中的误差累计，提高临时道路下路径规划的准确度。

在本发明的一个实施例中，提供一种基于图神经网络的临时道路路径规划方法。本实施例中，采用深度学习模型以3个不同安装角度的RGB单目相机、32线激光雷达、霍尔车速传感器和车辆转角传感器的数据为输入，实现临时道路实时路径规划和控制。如图1、图2所示，该方法包括以下步骤：

1)以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；

2)以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；

3)将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。

上述步骤1)中，图像特征提取模块以3路彩色图像数据为输入，提取图像特征并识别出道路可行驶区域。图像特征提取模块对图像进行特征提取。为了增加模块的可解释性，使用图像语义分割任务对图像特征提取模块进行预训练，并增加一个语义分割预测网络用于图像语义分割任务。

具体的，提取图像特征并识别出道路可行驶区域，包括以下步骤：

1.1)临时道路场景专注于可行驶区域，因此图像特征提取模块基于BiSeNet进行构建对其进行改进，采用STDC(Short-Term Dense Concatenate Network，短期密集级联网络)中的方法对BiSeNet进行改进，改进后的网络示意如图6所示，改进的BiSeNet简化了Spatial Path，共用Spatial Path和Context Path低层的网络参数；

1.2)以改进的BiSeNet网络模型进行图像特征提取模块，实现实时道路语义分割；

其中，如图3所示，为原始的BiSeNet网络示意图。BiSeNet中使用两条分支来处理图像，一条为空间细节分支(Spatial Path)，可以提取丰富的空间信息和细节信息，另一条为上下文分支(Context Path)，可以提供较大的感受野。其中conv为卷积层，bn为BatchNormalization(批标准化)层，relu为RELU激活层。8x Upsampling为8倍上采样，使得输出的图像尺寸使之和输入的尺寸一致，Downsampling表示下采样操作。图3中的ARM(Attention Refinement Module)为注意改进模块，FFM(Feature Fusion Module)为特征融合模块，结构分别如图4、图5所示。

ARM模块由global pool层、1x1 conv层、batch normal层和sigmoid层组成的分支计算注意力参数，再和原分支相乘得到输出。FFM模块作用为融合上下文信息和空间细节信息，该模块先连接输入的两组数据，经过一组conv+bn+relu操作后使用类似ARM的注意力机制，最后通过向量相加形成一个残差结构。

1.3)采用拉普拉斯算子对提取的图像计算细节特征；

拉普拉斯核定义如下：

用不同步长的Laplacian卷积对图像语义标签图像进行计算，然后通过上采样操作恢复尺寸，最后用1x1卷积得到细节特征。图6中的S＝1表示卷积使用的步长为1，2x表示2倍上采样操作，8x Upsampling为FFM模块后的8倍上采样。图6中的feature output为模块输出，图像特征提取模块输出为维度为(C,H/32,W/32)的特征图，W，H为原始图像的宽和高，C为输出的特征图通道数目，取值为512。

1.4)采用Detail Loss作为图像特征提取模块的损失函数，以增强细小目标的识别；

Detail loss表达式如式(2)所示：

L_detail(p_d,g_d)＝L_dice(p_d,g_d)+L_bce(p_d,g_d) (2)

其中p_d为预测的结构，g_d为标签，Detail loss由两部分组成L_dice和L_bce。L_dice为Dice损失函数，使用Dice系数来计算Dice损失函数，Dice系数是一种集合相似度度量函数，通常用于计算两个样本的相似度，L_dice的表达式为：

其中∈为平滑系数，H、W分别为图像的高、宽，p_d ⁱ表示输出图像的第i个预测值，g_d ⁱ表示目标图像的第i个标签值。

L_bce为Binary Cross Entropy函数，其表达式为：

其中，NUM表示总样本数，σ(x)为Sigmoid激活函数：

其中，x为激活函数的输入值。

1.5)对图像特征提取模块进行预训练，完成图像特征提取，并在图像特征提取模块增加额外的语义分割预测网络，以识别出临时道路下的可行驶区域。

在本实施例中，使用现有的公开数据采集对图像特征提取模块进行预训练。为了识别率，在临时道路数据提取图像边缘信息时，仅提取可行驶区域的边缘信息作为计算Detail Loss的标签。

上述步骤2)中，以32线机械式激光雷达点云数据为输入，输出BEV(Bird EyeView，鸟瞰视角)视角下的特征图。图像特征提取的信息缺少空间信息，点云特征提取以激光雷达采集的数据作为输入，机械式激光雷达可以获取360度的点云数据，从而获取周围环境的空间信息，和图像信息形成互补。

具体的，提取BEV视角下的点云特征，包括以下步骤：

2.1)基于Voxel-Base方法构建点云特征提取模块；

由于临时道路场景结构相对简单，为保证无人驾驶运动中实时处理的要求，将使用的Voxel-Base方法对点云进行处理，Voxel-Base方法示意图如图7所示。Voxel-Base方法先对点云划分体素区域，按照区域对点云进行分组。对每个体素区域内采样t个点，采样得到点集

其中p_i为点集中的第i个点，x_i，y_i，z_i，为p_i点的三维空间坐标值，r_i为p_i点的反射率，上标T表示矩阵转置操作，/>

表示n维实数集；对每个点进行如下操作：

2.1.1)将点p_i和该体素区域内所有点的均值(v_x,v_y,v_z)组合成[x_i,y_i,z_i,r_i,v_x,v_y,v_z]作为VFE-Layer层的输入，即Point-wise Input。v_x,v_y,v_z分别为体素区域内所有点的三维坐标值的均值。

2.1.2)Point-wise Input通过RULE激活函数和Batch Normalization运算的全连接网络，获得每一个点的特征，即Point-wise Feature。

2.1.3)对Point-wise Feature进行逐点max-pool运算，获得局部聚合特征，即Locally Aggregated Feature。

2.1.4)逐点连接Point-wise Feature和Locally Aggregated Feature,获取逐点连接特征，即Point-wise concatenated Feature。

2.2)针对临时道路场景，采用PointPillar中的方法对点云特征提取模块进行改进：划分区域时不对z轴进行划分，提取点云特征。

原始的Voxel-Base方法对整个3D空间进行划分，针对本研究的道路场景，实际的点云可能会非常稀疏，故使用Voxel的改进版PointPillar中的方法：划分区域时不对z轴进行划分。PointPillar中对点云处理如图8所示。

其中，采用PointPillar中的方法对点云特征提取模块进行改进，包括以下步骤：

2.2.1)在一个Pillar中单个点云定义为多维的增广向量，提取的Pillar维度为(D,P,N)，P为设定的采集Pillar总数，N为划分的Pillar中采集的点，D为Pillar中点的维度；

在本实施例中，维度D为9，定义如下：

Pillar＝[x,y,z,r,x_c,y_c,z_c,x_p,y_p] (6)

其中x，y，z是物理位置，r是点云反射率，下标c是指代一个Pillar的质心，x_c，y_c，z_c为相对质心的偏移量下标p指代Pillar的物理中心，x_p，y_p同样为相对质心的偏移量。

2.2.2)从划分的区域提取Pillar然后卷积得到一个(C,P,N)的向量，在N个维度上提供max操作得到维度为(C,P)的向量，输出Pseudo image(伪图像)，其中，C为输出的特征图通道数目；

2.2.3)对Pseudo image进行特征提取，通过逐步的下采样和卷积提取Pseudoimage的全局特征，并通过反卷积操作获得局部特征和精细纹理特征，最后拼接全局和局部特征，得到点云特征提取模块的输出；

在本实施例中，整个点云特征提取模块网络示意图如图9所示。图9中PillarFeature Net为图8所示的点云处理，输出为Pseudo image，维度为(C,H,W)。然后对Pseudoimage进行特征提取，通过逐步的下采样和卷积提取Pseudo image的全局特征，并提供上采样等反卷积操作获得局部特征和精细纹理特征，最后拼接(concat)全局和局部特征输出最后的特征。最终的feature output(输出特征)为维度为(C_out,H_out,W_out)的特征图，其中C_out设定为256，输出的高和宽H_out,W_out与图像特征提取模块的输出一致。

上述步骤3)中，端到端模型使用两种模态的数据作为输入：图像和点云。不同的模态数据之间可以互补，增加模型的可靠性，但是不同模态数据之间数据结构差异较大，需要采用数据融合来融合这些多模态数据。为了增加模型的可解释性以及加快收敛，和图像特征提取类似，采用BEV语义地图来辅助训练融合模块。融合模块的目标为：以图像特征和点云特征，能够输出BEV语义地图和预测模块的输入。

具体的，进行多模态数据融合后得到BEV语义地图和路点信息，包括：

基于改进的Transformer模块对多模态数据特征进行融合：在图像特征和点云特征进入Transformer模块之前，分别将图像特征和点云特征进行卷积后，与时序编码和传感器序号编码相加，经改进的Transformer模块处理后得到语义地图和路点信息。

其中，语义地图为矩阵，矩阵中不同值区分可行驶区域和障碍物，在本实施例中，语义地图为16x16的矩阵。路点信息为路径信息的中间编码，能将其解码为路径。

在本实施例中，原始Transformer模块示意图如图10所示。改进Transformer模块，包括Encoder和Decoder。Encoder部分由Multi-Head Attention(多头注意力模块)以及前馈网络组成，Decoder和Encoder类似，Decoder相比Encoder多了一个Masked Multi-HeadAttention模块；Masked Multi-Head Attention模块相比Multi-Head Attention模块多了一层掩码，以使当前处理的数据只能看到之前时刻的序列数据，Encoder模块的数据通过传递K向量和V向量给Decoder模块提供全局的注意力机制，加上Masked Multi-HeadAttention模块输出的Q向量，融合计算注意力机制作为最后的输出。

其中，Multi-Head Attention为多头注意力模块，由多个自注意力机制组成，注意力机制的表达式为：

Q＝XW^Q,K＝XW^K,V＝XW^V (8)

其中X为输入，W^Q，W^K，W^V分别为注意力模块的权重。多头注意力通过多个不同的线性变换对Query、Key和Value进行映射；然后，将不同的Attention拼接起来：

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^O (9)

式中，W^O表示模块的输出权重，head_n表示第n个多个注意力输出。

针对临时道路，端到端模型输出的是预测的轨迹，为了增加模型的可读性，融合模块除了输出路点信息，还额外输出语义地图，如图11所示。先使用1x1卷积将图像特征提取模块和点云特征提取模块的输出通道统一为n，n设定为1。

上述步骤3)中，输出的预测路径具有较强的时序性，因此使用循环神经网络构建预测网络，采用GRU(Gated Recurrent Unit，门控循环单元)构建预测网络的模型，输出的预测轨迹为一串BEV视角下以车辆为原点的二维坐标点。

根据BEV语义地图、路点信息与车辆状态数据得到预测路径，具体为：采用GRU构建预测网络，以BEV语义地图、路点信息、车速和车辆转角作为GRU的输入，输出预测路径，预测路径在BEV视角下用k个坐标点表示，输出维度为(k，2)。其中，车辆前进速度和转向角度分别从车辆的霍尔车速传感器和转角传感器获取。

其中，GRU的结构示意图如图12所示。GRU中使用上一个传输下来的状态h_t-1和当前输入x_t来计算，GRU包含两个门，重置门r_t和更新门z_t。

r_t＝σ(x_tW_xr+h_t-1W_hr+b_r) (11)

z_t＝σ(x_tW_xz+h_t-1W_hz+b_z) (12)

其中W_xr，W_xz，W_hr，W_hz为权重参数，b_r，b_z为偏置，σ为Sigmoid函数。GRU用重置门和更新门更新内置状态ht：

h_t＝(1-z_t)⊙h_t-₁+z_t⊙h′ (13)

h′＝tanh(x_tW_hx+r_t⊙h_t-1W_hh+b_h) (14)

其中⊙表示逐元素相乘，W_hx，W_hh为权重参数，b_h为偏置，tanh为激活函数：

预测模块的结构如图13所示。以多模态数据融合模块的路点信息输出、车速和车辆转角为输入作为GRU的输入，输出预测路径。预测路径在BEV视角下用k个坐标点表示，输出维度为(k，2)。图13中的MLP(Multilayer Perceptron，多层感知机)为两层神经元构成的感知机，将车速和车辆转角转变为维度为(k，2)的向量。预测路径每个坐标点物理间隔为1米，预测路径所在的坐标系以车辆为原点，车辆正前方为x轴正方向，车辆左侧为y轴正方向。

上述各实施例中，还包括采用实车数据对端到端路径规划模型进行微调的步骤，并采用实验车辆进行验证。其中，采集实车数据包括以下步骤：

(1)将所需的3个RGB摄像头、32线机械式激光雷达、霍尔车速传感器和转角传感器安装到实验车辆上，并布置好临时道路。

其中，3个摄像头在实验车辆的安装角度为正前方，正前方左偏60度和正前方右偏60度，激光雷达安装到实验车辆上方。并布置好临时道路。

(2)控制实验车辆在临时道路行进，并收集传感器的数据。

训练和验证基于Transformer网络的端到端路径规划模型具体为：采用Cityscapes，Nuscenes等公开数据集对图像特征提取、点云特征提取、多模态数据融合和预测路径进行预训练。模型的训练需要大量数据，考虑到在实际部署模型时，实车采集提供的场景数据可能不足以训练模型，故使用公开数据集对模型进行预训练。

预训练结束后，将模型训练的学习率调低至1e^-5，使用实车数据对整个端到端路径规划模型再次训练。在实验车辆上部署端到端路径规划模型，验证模型的准确性。

在本发明的一个实施例中，提供一种基于图神经网络的临时道路路径规划系统，其包括：

第一处理模块，以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；

第二处理模块，以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；

预测模块，将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。

上述第一处理模块中，提取图像特征并识别出道路可行驶区域，包括：

采用拉普拉斯算子对提取的图像计算细节特征；

上述第二处理模块中，提取BEV视角下的点云特征，包括：

基于Voxel-Base方法构建点云特征提取模块；

其中，采用PointPillar中的方法对点云特征提取模块进行改进，包括：

上述预测模块中，进行多模态数据融合后得到BEV语义地图和路点信息，包括：

其中，改进Transformer模块，包括Encoder和Decoder；Encoder部分由Multi-HeadAttention以及前馈网络组成，Decoder相比Encoder多了一个Masked Multi-HeadAttention模块；Masked Multi-Head Attention模块相比Multi-Head Attention模块多了一层掩码，以使当前处理的数据只能看到之前时刻的序列数据，Encoder模块的数据通过传递K向量和V向量给Decoder模块提供全局的注意力机制，加上Masked Multi-HeadAttention模块输出的Q向量，融合计算注意力机制作为最后的输出。

上述预测模块中，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，包括：采用GRU构建预测网络，以BEV语义地图、路点信息、车速和车辆转角作为GRU的输入，输出预测路径，预测路径在BEV视角下用k个坐标点表示，输出维度为(k,2)。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

在本发明一实施例中提供一种计算设备，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种基于图神经网络的临时道路路径规划方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图神经网络的临时道路路径规划方法，其特征在于，包括：

以车辆上图像采集设备实时采集到的彩色图像数据为输入，提取图像特征并识别出道路可行驶区域；

以车辆上激光雷达实时采集的点云数据为输入，提取BEV视角下的点云特征，获取周围环境的空间信息，与提取的图像特征形成互补；

将提取的图像特征和点云特征输入预先建立的端到端模型，进行多模态数据融合后得到BEV语义地图和路点信息，根据BEV语义地图、路点信息与车辆状态数据得到预测路径，完成路径规划。

2.如权利要求1所述基于图神经网络的临时道路路径规划方法，其特征在于，所述提取图像特征并识别出道路可行驶区域，包括：

采用拉普拉斯算子对提取的图像计算细节特征；

3.如权利要求1所述基于图神经网络的临时道路路径规划方法，其特征在于，所述提取BEV视角下的点云特征，包括：

基于Voxel-Base方法构建点云特征提取模块；

4.如权利要求3所述基于图神经网络的临时道路路径规划方法，其特征在于，所述采用PointPillar中的方法对点云特征提取模块进行改进，包括：

5.如权利要求1所述基于图神经网络的临时道路路径规划方法，其特征在于，所述进行多模态数据融合后得到BEV语义地图和路点信息，包括：

6.如权利要求5所述基于图神经网络的临时道路路径规划方法，其特征在于，所述改进Transformer模块，包括Encoder和Decoder；

7.如权利要求1所述基于图神经网络的临时道路路径规划方法，其特征在于，所述根据BEV语义地图、路点信息与车辆状态数据得到预测路径，包括：

采用GRU构建预测网络，以BEV语义地图、路点信息、车速和车辆转角作为GRU的输入，输出预测路径，预测路径在BEV视角下用k个坐标点表示，输出维度为(k,2)。

8.一种基于图神经网络的临时道路路径规划系统，其特征在于，包括：

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。