CN118194969A

CN118194969A - 一种用于自动驾驶汽车的道路场景理解方法

Info

Publication number: CN118194969A
Application number: CN202410593410.5A
Authority: CN
Inventors: 陈品同; 严锦杰; 李贺; 周昭高; 余荣
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2024-05-14
Filing date: 2024-05-14
Publication date: 2024-06-14

Abstract

本发明涉及自动驾驶技术领域，具体公开了一种用于自动驾驶汽车的道路场景理解方法，方法包括数据收集、特征提取、构建强化学习模型、模型训练和测试与评估，本方案利用多层感知器、代理网络分别提取路口的高清地图数据的地图特征、自动驾驶车辆运动数据的车辆运动特征，利用融合网络融合地图特征和车辆运动特征，更全面地理解交通流中的动态行为，提高自动驾驶系统在动态交通环境中的实时决策能力；结合优先级经验回放和双延迟深度确定性策略梯度技术训练自动驾驶车辆在交叉路口的导航策略，提高学习效率，解决稀疏奖励问题，提升自动驾驶车辆在不同交叉路口场景中的泛化能力。

Description

一种用于自动驾驶汽车的道路场景理解方法

技术领域

本发明涉及自动驾驶技术领域，具体是指一种用于自动驾驶汽车的道路场景理解方法。

背景技术

自动驾驶技术是现代交通领域的一项前沿技术，它通过车载感知系统、决策算法和控制系统实现车辆的自主导航，尽管自动驾驶在特定场景下已取得显著进展，但在复杂交通路口的驾驶策略学习方面，仍面临诸多挑战。传统的道路场景特征提取方法没有充分利用高清地图中提供的车道信息、车辆交互信息，无法有效捕捉地图中的复杂拓扑特征，导致自动驾驶车辆在复杂交通路口决策能力较差；在交叉路口导航任务中，传统的强化学习算法面临稀疏奖励问题，使得学习过程缓慢且不稳定，导致自动驾驶车辆在不同交叉路口场景中的泛化能力较差。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了一种用于自动驾驶汽车的道路场景理解方法，针对传统的道路场景特征提取方法没有充分利用高清地图中提供的车道信息、车辆交互信息，无法有效捕捉地图中的复杂拓扑特征，导致自动驾驶车辆在复杂交通路口决策能力较差的问题，本方案利用多层感知器、代理网络分别提取路口的高清地图数据的地图特征、自动驾驶车辆运动数据的车辆运动特征，利用融合网络融合地图特征和车辆运动特征，更全面地理解交通流中的动态行为，提高自动驾驶系统在动态交通环境中的实时决策能力；针对在交叉路口导航任务中，传统的强化学习算法面临稀疏奖励问题，使得学习过程缓慢且不稳定，导致自动驾驶车辆在不同交叉路口场景中的泛化能力较差的问题，本方案结合优先级经验回放和双延迟深度确定性策略梯度技术训练自动驾驶车辆在交叉路口的导航策略，提高学习效率，解决稀疏奖励问题，提升自动驾驶车辆在不同交叉路口场景中的泛化能力。

本发明采取的技术方案如下：本发明提供的一种用于自动驾驶汽车的道路场景理解方法，该方法包括以下步骤：

步骤S1：数据收集，收集路口的高清地图数据、自动驾驶车辆运动数据、使用CARLA模拟器构建仿真环境的环境数据；

步骤S2：特征提取，通过多层感知器、代理网络分别提取路口的高清地图数据的地图特征、自动驾驶车辆运动数据的车辆运动特征，利用融合网络融合地图特征和车辆运动特征，得到融合特征；

步骤S3：构建强化学习模型，通过状态空间将地图特征和车辆运动特征结合起来，设计动作空间规划自动驾驶车辆在交叉路口的纵向速度，设计奖励函数激励安全、高效的驾驶行为；

步骤S4：模型训练，结合优先级经验回放和双延迟深度确定性策略梯度技术训练自动驾驶车辆在交叉路口的导航策略；

步骤S5：测试与评估，利用环境数据测试强化学习模型性能，采用成功率、碰撞率、通行效率作为评价指标。

进一步地，在步骤S1中，数据收集，具体包括以下步骤：

步骤S11：收集路口的高清地图数据，使用OpenDRIVE格式收集路口的高清地图数据，包括车道中心线、连接关系；

步骤S12：收集车辆运动数据，记录车辆的位置、速度、加速度、航向角；

步骤S13：使用CARLA模拟器构建路口场景，记录交通流量、车辆行为。

进一步地，在步骤S2中，特征提取，具体包括以下步骤：

步骤S21：利用多层感知器从路口的高清地图数据中提取车道节点的位置特征、形状特征，得到地图特征，步骤如下：

步骤S211：基于所有车道节点构建一个无向图，表示车道节点，表示车道节点之间的边，定义驾驶车道上的车道节点为：

；

式中，表示第个车道节点，表示定义的含义，、分别表示第个车道节点起点和终点的鸟瞰图坐标；

步骤S212：定义第个车道节点的位置特征为，所用公式如下：

；

所有车道节点的位置由表示，其中是可观测到的自动驾驶车辆的节点数量；

步骤S213：用表示第个车道节点的形状特征，所用公式如下：

；

所有车道节点的形状特征记为；

步骤S214：使用多层感知器参数化车道节点的位置特征和形状特征，所用公式如下：

；

式中，表示使用多层感知器参数化后的车道节点特征，表示多层感知器，、分别表示形状和位置；

步骤S215：利用扩张卷积操作捕捉不同距离范围内的依赖关系，所用公式如下：

；

式中，表示输出特征，表示车道节点特征，表示用于车道节点自身特征的权重矩阵，表示邻接矩阵，表示不同方向的权重矩阵，是扩张尺寸，表示前驱节点的次矩阵幂，表示后继节点的次矩阵幂，、分别表示车道的四种连接类型中的前驱、后继、左侧和右侧节点，、分别表示与前驱节点和后继节点相关的权重矩阵，表示扩张尺寸的数量；

步骤S22：利用代理网络提取和编码自动驾驶车辆运动数据，得到车辆运动特征，包括以下步骤：

步骤S221：使用自动驾驶车辆运动数据作为代理网络的输入，在感知范围内选择辆车用于状态表示，并为每辆车提取运动状态；

步骤S222：对于每辆车提取其位置、行驶速度和方向数据作为动力学信息，利用多层感知器将动力学信息转换为相应的特征表示；

步骤S23：特征融合，利用融合网络融合地图特征和车辆运动特征，得到融合特征，包括以下步骤：

步骤S231：融合网络包含两种类型的融合模块，分别是RA模块和AA模块，RA模块负责将地图特征与车辆运动特征结合起来，AA模块是RA模块的后续模块，负责捕捉车辆之间的复杂交互；

步骤S232：在RA模块和AA模块中，使用空间注意力机制通过学习权重参数来动态调整地图特征和车辆运动特征的重要性；

步骤S233：通过多层感知器对车辆的位置信息进行编码，生成车辆节点特征；

步骤S234：对于每个车辆节点，聚合车辆节点特征以及其邻近车辆节点的特征；

步骤S235：通过学习权重参数来调整车辆节点特征以及其邻近车辆节点的特征的融合，以优化融合网络的决策性能，输出融合特征。

进一步地，在步骤S3中，构建强化学习模型，具体包括以下步骤：

步骤S31：问题定义，将自动驾驶车辆在交叉路口的导航问题定义为一个马尔可夫决策过程，包括状态空间、动作空间、奖励函数；

步骤S32：定义状态空间，将地图特征和车辆运动特征作为状态空间的组成部分，由于车辆运动特征是从世界坐标系中提取的，需要转换到自我车辆坐标系，便于后续处理，包括以下步骤：

步骤S321：定义自我车辆为自动驾驶车辆，定义环境车辆为除自我车辆之外，周围环境中的其他车辆；

步骤S322：计算环境车辆相对于自我车辆的位置和速度，所用公式如下：

；

式中，表示环境车辆相对于自我车辆的位置，表示环境车辆相对于自我车辆的速度，和分别表示环境车辆和自我车辆在世界坐标系中的位置，和分别表示环境车辆和自我车辆在世界坐标系中的速度；

步骤S323：将环境车辆相对于自我车辆的位置和速度从世界坐标系转换到自我车辆坐标系中，所用公式如下：

；

式中，和分别表示环境车辆相对于自我车辆在自我车辆坐标系的位置向量和速度向量，表示从世界坐标系到自我车辆坐标系的变换矩阵，表示自我车辆的偏航角；

步骤S324：定义，，表示环境车辆在自我车辆坐标系的位置坐标，表示环境车辆在自我车辆坐标系的位置坐标的转置矩阵，表示环境车辆在自我车辆坐标系的速度向量，得到环境车辆的运动向量为，表示环境车辆的偏航角，自我车辆的运动向量为，表示自我车辆的速度向量；

步骤S33：定义动作空间，确定自动驾驶车辆在每个时间步的执行动作，步骤如下：

步骤S331：强化学习模型只确定自动驾驶车辆的纵向速度规划，横向控制由PID控制器生成；

步骤S332：策略网络输出动作向量，通过计算自动驾驶车辆的归一化目标速度，将归一化目标速度映射到期望的区间内；

步骤S333：利用纵向PID控制器将归一化目标速度转换为自动驾驶车辆的控制命令；

步骤S34：定义奖励函数，设计奖励函数以激励安全、高效的驾驶行为；

步骤S341：奖励函数分为两部分：一部分是针对关键事件的奖励，另一部分是每个时间步的奖励，针对关键事件的奖励函数为：

；

式中，表示针对关键事件的奖励；

步骤S342：计算每个时间步的奖励函数，所用公式如下：

；

式中，表示每个时间步的奖励，表示单次训练的最大时间限制。

进一步地，在步骤S4中，模型训练，具体包括以下步骤：

步骤S41：初始化，设置延迟步数为、回放缓冲区大小为、批量大小为，初始化评价网络，包括：评价网络1、评价网络2和行动网络，以及随机参数、、，初始化目标评价网络1、目标评价网络2、目标行动网络，初始化优先回放缓冲区；

步骤S42：在个时间步内，通过行动网络选择带有探索噪声的动作，所用公式如下：

；

式中，表示探索噪声，表示带有探索噪声的行动网络的动作，表示行动网络的状态，表示行动网络；

步骤S43：将经验元组存储在优先回放缓冲区中，表示时刻的状态，表示时刻的行动，表示时刻的奖励，表示时刻的状态，并设置最大优先级，表示经验的优先级；

步骤S44：从优先回放缓冲区中按优先级抽取一批经验，对于每个经验，计算经验被采样的概率，所用公式如下：

；

式中，表示经验被采样的概率，表示经验的优先级，是控制优先级采样强度的参数；

计算重要性采样权重，所用公式如下：

；

式中，表示重要性采样权重，表示超参数；

步骤S45：计算时序误差，所用公式如下：

；

式中，表示经验的时序误差，表示经验在时刻的奖励，表示折扣因子，表示目标评价网络1，表示评价网络1，表示目标行动网络，表示经验在时刻的状态，表示经验在时刻的行动，表示经验在时刻的状态；

更新优先级，所用公式如下：

；

式中，表示更新后的优先级；

步骤S46：更新评价网络1、评价网络2，所用公式如下：

；

式中，表示裁剪操作，表示均值为0、方差为的正态分布，表示裁剪范围的最小值，表示裁剪范围的最大值，表示估计的目标价值，表示目标行动网络中带有探索噪声的动作，表示评价网络参数，表示评价网络；

步骤S47：如果，使用确定性策略梯度更新参数，更新目标评价网络1、目标评价网络2和目标行动网络，所用公式如下：

；

式中，、分别表示目标评价网络参数、目标行动网络参数，表示行动网络参数，表示软更新系数。

进一步地，在步骤S5中，测试与评估，具体为：在CARLA模拟器中测试强化学习模型的性能，评估其在不同路口场景下的泛化能力，使用成功率、碰撞率、通行效率作为评价指标。

采用上述方案本发明取得的有益效果如下：

（1）针对传统的道路场景特征提取方法没有充分利用高清地图中提供的车道信息、车辆交互信息，无法有效捕捉地图中的复杂拓扑特征，导致自动驾驶车辆在复杂交通路口决策能力较差的问题，本方案利用多层感知器、代理网络，分别提取高清地图数据的地图特征、车辆运动特征，利用融合网络融合地图特征和车辆运动特征，更全面地理解交通流中的动态行为，提高自动驾驶系统在动态交通环境中的实时决策能力。

（2）针对在交叉路口导航任务中，传统的强化学习算法面临稀疏奖励问题，使得学习过程缓慢且不稳定，导致自动驾驶车辆在不同交叉路口场景中的泛化能力较差的问题，本方案结合优先级经验回放和双延迟深度确定性策略梯度技术训练自动驾驶车辆在交叉路口的导航策略，提高学习效率，解决稀疏奖励问题，提升自动驾驶车辆在不同交叉路口场景中的泛化能力。

附图说明

图1为本发明提供的一种用于自动驾驶汽车的道路场景理解方法的流程示意图；

图2为本发明提供的步骤S4模型训练的数据传输和参数传输的示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，参阅图1，本发明提供的一种用于自动驾驶汽车的道路场景理解方法，该方法包括以下步骤：

实施例二，参阅图1，该实施例基于上述实施例，在步骤S1中，数据收集，具体包括以下步骤：

实施例三，参阅图1，该实施例基于上述实施例，在步骤S2中，特征提取，具体包括以下步骤：

；

步骤S212：定义第个车道节点的位置特征为，所用公式如下：

；

步骤S213：用表示第个车道节点的形状特征，所用公式如下：

；

所有车道节点的形状特征记为；

；

针对传统的道路场景特征提取方法没有充分利用高清地图中提供的车道信息、车辆交互信息，无法有效捕捉地图中的复杂拓扑特征，导致自动驾驶车辆在复杂交通路口决策能力较差的问题，本方案利用多层感知器、代理网络，分别提取高清地图数据的地图特征、车辆运动特征，利用融合网络融合地图特征和车辆运动特征，更全面地理解交通流中的动态行为，提高自动驾驶系统在动态交通环境中的实时决策能力。

实施例四，参阅图1，该实施例基于上述实施例，在步骤S3中，构建强化学习模型，具体包括以下步骤：

；

式中，表示针对关键事件的奖励；

步骤S342：计算每个时间步的奖励函数，所用公式如下：

；

实施例五，参阅图1和图2，该实施例基于上述实施例，在步骤S4中，模型训练，具体包括以下步骤：

；

计算重要性采样权重，所用公式如下：

；

式中，表示重要性采样权重，表示超参数；

步骤S45：计算时序误差，所用公式如下：

；

更新优先级，所用公式如下：

；

式中，表示更新后的优先级；

步骤S46：更新评价网络1、评价网络2，所用公式如下：

；

针对在交叉路口导航任务中，传统的强化学习算法面临稀疏奖励问题，使得学习过程缓慢且不稳定，导致自动驾驶车辆在不同交叉路口场景中的泛化能力较差的问题，本方案结合优先级经验回放和双延迟深度确定性策略梯度技术训练自动驾驶车辆在交叉路口的导航策略，提高学习效率，解决稀疏奖励问题，提升自动驾驶车辆在不同交叉路口场景中的泛化能力。

实施例六，该实施例基于上述实施例，实验环境为CPU：Intel Xeon(R) CPU E5-2620 v4， GPU：NVIDIA GeForce RTX 2080ti，系统内存：128 GB，操作系统：Ubuntu 16.04LTS。

实施例七，该实施例基于上述实施例，在步骤S5中，从CARLA模拟器中提取地图信息，为获得完整的节点连接关系，必须获取感知范围内的所有节点，CARLA地图的基础由OpenDRIVE格式表示，该格式提供了相邻车道中心线之间的关系，包括车道前驱和后继之间存在的连接关系；

感知节点是通过选择位于车辆前方最近的200个节点，并每隔3米进行一次定位来识别的，车道节点是从交叉口周围所有道路中按接近顺序提取的，以确保覆盖整个交叉口区域，感知节点之间的连接关系通过两种方式建立。首先，沿着车道中心线检索特定车道内的节点，其次，基于从OpenDRIVE地图获得的车道连接关系，将不同车道之间的节点连接起来，并且可以确定特定车道的第一个和最后一个节点与相邻车道的节点之间的连接关系，并将其扩展到邻接矩阵中。对于邻接矩阵，大部分数据都是零，非零元素主要位于对角线附近，因此，为了降低计算负担，在实际实验中使用稀疏矩阵的表示法；

在确定可检测环境车辆数量时，不仅应关注自我车辆的运动，还应考虑场景中的其他车辆，如果感知到的车辆数量太少，将导致感知领域缩小，使得代理无法完全感知周围车辆的运动，如果可感知的车辆数量过多，则会带来沉重的计算负担，并对算法训练也构成挑战，设定可感知的最大车辆数量为20。

实施例八，该实施例基于上述实施例，在步骤S5中，在CARLA模拟器中，环境车辆是自主的，并由内置的Autopilot代理控制，这种自主控制系统提供了一套可配置的参数，用于定制车辆的行为，在CARLA中环境车辆的目的地是随机确定的，用户可以为交通流设置随机种子，在训练过程中持续循环0到9之间的随机种子值，以获得多样化的交通流行为，CARLA中的交通流行为考虑的参数包括速度限制和碰撞检测概率，所有环境车辆的速度设定为50公里每小时，环境车辆尽可能快地行驶，但不超过速度限制，碰撞检测概率表示环境车辆在模拟中不向自我车辆让路的概率，启用所有环境车辆之间的完全车辆检测，以避免碰撞。碰撞检测概率在训练开始时设为0.5，表明每个环境车辆有50%的机会避免与自我车辆发生碰撞，碰撞检测概率的值随着训练次数线性增加，经过2000次代理训练后，碰撞检测概率调整到0.95，这表明环境车辆检测到与自我车辆发生碰撞的可能性极小，为强化学习过程创造了最具挑战性的情况，在测试阶段，碰撞检测概率始终被设定为0.95，以确保进行稳健的评估。

实施例九，该实施例基于上述实施例，评价网络、行动网络、代理网络的结构如下：

评价网络的结构包括：输入层、三个全连接层：维度分别为256、256、128、输出层；

行动网络的结构包括：输入层、隐藏层、输出层，隐藏层由两个全连接层组成，维度分别为128、256，两个全连接层使用Tanh激活函数；

代理网络由全连接层组成，维度为128。

实施例十，该实施例基于上述实施例，在步骤S23中，以RA模块为例进行说明，给定一个代理节点，聚合该代理节点特征以及其邻近车辆节点的特征，所用公式如下：

；

式中，表示代理节点与车道节点之间的相对位置差异，表示第个代理节点融合后的特征表示，是与代理节点自身特征相关的权重矩阵，、表示在注意力机制中用于特征转换的权重矩阵，是层归一化和ReLU的组合，表示第个车道节点的位置，通过公式来计算，代理节点的位置使用车辆的鸟瞰图坐标来计算，和分别表示代理节点和车道节点的位置信息经过MLP编码后的特征；

邻近车辆节点指的是距离第个代理节点小于特定阈值的车道节点，表示为，表示邻近车辆节点的总数，RA模块和AA模块的阈值分别设置为6米和100米，RA模块和AA模块都包含两个残差块，每个残差块由一个包含空间注意力层和线性层的堆叠组成，每个残差块还包括一个残差连接，所有层产生128个输出特征通道。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种用于自动驾驶汽车的道路场景理解方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种用于自动驾驶汽车的道路场景理解方法，其特征在于：在步骤S2中，所述特征提取，包括以下步骤：

步骤S21：利用多层感知器从路口的高清地图数据中提取车道节点的位置特征、形状特征，得到地图特征；

步骤S22：利用代理网络提取和编码自动驾驶车辆运动数据，得到车辆运动特征；

步骤S23：特征融合，利用融合网络融合地图特征和车辆运动特征，得到融合特征。

3.根据权利要求2所述的一种用于自动驾驶汽车的道路场景理解方法，其特征在于：在步骤S21中，所述利用多层感知器从路口的高清地图数据中提取车道节点的位置特征、形状特征，得到地图特征，包括以下步骤：

步骤S211：基于所有车道节点构建无向图，定义驾驶车道上的车道节点；

步骤S212：计算车道节点的位置特征；

步骤S213：计算车道节点的形状特征；

步骤S214：使用多层感知器参数化车道节点的位置特征和形状特征，得到车道节点特征；

；

式中，表示输出特征，/>表示车道节点特征，/>表示用于车道节点自身特征的权重矩阵，/>表示邻接矩阵，/>表示不同方向的权重矩阵，/>是扩张尺寸，/>表示前驱节点的/>次矩阵幂，/>表示后继节点的/>次矩阵幂，/>、/>分别表示车道的四种连接类型中的前驱、后继、左侧和右侧节点，/>、/>分别表示与前驱节点和后继节点相关的权重矩阵，/>表示扩张尺寸的数量。

4.根据权利要求1所述的一种用于自动驾驶汽车的道路场景理解方法，其特征在于：在步骤S3中，所述构建强化学习模型，包括以下步骤：

步骤S31：问题定义，将自动驾驶车辆在交叉路口的导航问题定义为马尔可夫决策过程，包括状态空间、动作空间、奖励函数；

步骤S32：定义状态空间，将地图特征和车辆运动特征作为状态空间的组成部分；

步骤S33：定义动作空间，确定自动驾驶车辆在每个时间步的执行动作；

步骤S34：定义奖励函数，设计奖励函数以激励安全、高效的驾驶行为。

5.根据权利要求1所述的一种用于自动驾驶汽车的道路场景理解方法，其特征在于：在步骤S4中，所述模型训练，包括以下步骤：

步骤S41：初始化，设置延迟步数为、回放缓冲区大小为/>、批量大小为/>，初始化评价网络1、评价网络2、行动网络，初始化目标评价网络1、目标评价网络2、目标行动网络，初始化优先回放缓冲区/>；

；

式中，表示探索噪声，/>表示带有探索噪声的行动网络的动作，/>表示行动网络的状态，表示行动网络；

步骤S43：将经验元组存储在优先回放缓冲区/>中，/>表示/>时刻的状态，/>表示/>时刻的行动，/>表示/>时刻的奖励，/>表示/>时刻的状态，并设置最大优先级；

步骤S44：从优先回放缓冲区中按优先级抽取一批经验，对于每个经验，计算重要性采样权重；

步骤S45：计算时序误差，并利用时序误差的绝对值更新优先级；

步骤S46：更新评价网络1、评价网络2，所用公式如下：

；

式中，表示估计的目标价值，/>表示评价网络参数，/>表示评价网络，/>表示重要性采样权重；

步骤S47：如果，使用确定性策略梯度更新参数/>，更新目标评价网络1、目标评价网络2和目标行动网络，所用公式如下：

；

式中，、/>分别表示目标评价网络参数、目标行动网络参数，/>表示行动网络参数，/>表示软更新系数。