CN114954498A

CN114954498A - 基于模仿学习初始化的强化学习换道行为规划方法及系统

Info

Publication number: CN114954498A
Application number: CN202210602932.8A
Authority: CN
Inventors: 郑南宁; 史佳敏; 张唐一可; 詹钧翔; 沈艳晴; 辛景民; 陈仕韬
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-30

Abstract

本发明提出了一种基于模仿学习初始化的强化学习换道行为规划方法及系统，通过将周围车辆的变形位姿和模糊速度通过渐变色映射到栅格图上，并将具有清晰信息的交通规则和道路状况使用向量表示，将两者连接输入模仿学习DAgger网络，使自动驾驶车辆学会遵守交通规则和基本的换道决策；再利用强化学习优化模仿学习换道机制，使其适应模仿学习数据集中没有的极端和未知交通场景；可以从车辆相互作用的驱动机制和环境中学习潜在的换道驾驶机制，简化人工驾驶建模，对变道场景的动态变化具有良好的适应性，对变道任务采用动态混合奖励机制；引入一种基于模仿学习的强化学习初始化方法，解决稀疏奖励下强化学习学习效率低的问题，只需要少量的场景数据。

Description

基于模仿学习初始化的强化学习换道行为规划方法及系统

技术领域

本发明属于自动驾驶行为规划领域，具体涉及基于模仿学习初始化的强化学习换道行为规划方法及系统。

背景技术

在传统的自动驾驶系统中，自动驾驶车辆接收感知模块解析出的周围环境信息，做出合理的行为规划，如换道时，选择左转、右转等，再由运动规划产生相应的运动轨迹，以此完成特定的驾驶任务。其中，在复杂和高度动态化的交通环境中，自动驾驶车辆需要考虑交通规则、周围交通参与者和道路状况来做出安全可靠的决策，这一直都是一个挑战。

而目前的决策模型主要分为三类：基于启发式的规则枚举决策模型、基于最优化理论的决策模型和基于学习的决策模型。基于启发式的决策模型，看似可以很好的描述类人的决策过程，但由于交通场景的动态性和不确定性，很难创建全面覆盖所有交通场景的规则库。基于最优化理论的决策模型，考虑车辆动力学模型和优化约束，通过优化目标函数，生成舒适安全的可行驶轨迹。但需要交通场景和车辆模型的精确建模，且优化时间短，面对复杂长视觉导航任务无法做出更加长远的最优全局决策。在基于学习的决策模型，模仿学习根据高质量和大规模的人类专家决策数据，学习到安全可靠的驾驶策略；强化学习使自动驾驶车辆在与环境交互过程中通过学习策略以达到回报最大化或实现特定目标，对未知场景表现出更好的泛化性。然而，原始的基于强化学习的方法在训练早期随机初始化策略，使得策略难以在初始环境中获得有利的奖励。此外，庞大的搜索空间和稀疏的奖励空间大大减慢了学习速度。

发明内容

为了解决现有技术中存在的问题，本发明提供基于模仿学习初始化的强化学习换道行为规划方法，通过从专家的演示中学习，缓解了强化学习初始化的低效率，快速获得与专家水平一致的行为规划能力，与仅使用模仿学习的方法相比，强化学习和模仿学习的结合还保留了强化学习与环境交互中适应的能力，以应对演示数据未涵盖的不可预测和极端情况；在分层行为规划和运动规划框架下完成，设计行为规划以实现更好的决策。至于运动规划部分，采用了先进的算法来保证框架的整体性能。

为了实现上述目的，本发明采用的技术方案是：一种基于模仿学习初始化的强化学习换道行为规划方法，包括以下步骤：

S1，构建引入周围车辆模糊速度和变形位姿的栅格图M_t，将交通规则和道路状况信息合并使用向量V_t表示；

S2，使用模仿学习初始化换道决策行为规划π_b，将所述栅格图M_t和所述向量V_t连接输入模仿学习DAgger网络，输出车辆的高级决策；

S3，初始化PPO算法中Actor网络，通过SUMO仿真场景进行交互收集多组驾驶轨迹数据，在混合奖励机制的作用下，PPO算法优化换道决策行为规划，得到优化后的高级决策b_k；

所述混合奖励机制根据所选择的策略，自动触发对应的奖励函数；具体为，基于换道驾驶任务，将t时刻自动驾驶车辆和交通状况的状态定义为状态s_t，由行为规划π根据s_t，得到决策命令u_t，强化学习换道决策行为规划采取u_t，过渡到t+1时刻状态s_t+1，并得到奖励r_t，以此累积到换道决策行为规划完成特定任务，而行为规划π必须调整自己的网络参数θ，得到长期的收益Q(s_t，b_t)，

基于强化学习PPO算法进行行为规划π，输入强化学习换道决策行为规划的状态信息，将输出b_k∈{left_change，keep，right_change，speedup，speeddown}定义为高级决策，如果b_k与道路信息冲突，则由行为规划π重新决策；其中，将时间线划分成多个固定的时间段，在每个时间段[t_k，t_k+1]中，b_k将维持不变，时间跨度比控制命令长，将[t_k，t_k+1]时间段中的控制命令累积奖励代替

时的决策奖励。

S1中构建引入周围车辆模糊速度和变形位姿的栅格图M_t具体如下：

周围交通参与者的位姿信息为：多个距离传感器的信息整合到以自动驾驶车辆为中心的周围交通参与者的位置信息的栅格地图中，在每个栅格中，如果有交通参与者对象存在，其值为1，否则为0；

周围交通参与者的速度信息为：参考自动驾驶车辆的实时速度和理想线速度，将周围交通车辆速度分为7个模糊集合：{NB，NM，NS，Z，PS，PM，PB}，并将所述7个模糊集合以渐变色形式显示投射到栅格地图M_t，统一表示周围交通车辆的位姿信息和速度信息。

S1中引入周围车辆时，考虑前后80米传感器范围内的所有车辆；对栅格地图进行改进，将弯道栅格地图统一变形为直道。

S1中从高精地图的道路轮廓和信息图层，提取道路轮廓和道路方向，根据线路标识和自动驾驶车辆当前的定位信息，使自动驾驶车辆学会跟踪车道线，再从高精地图中提取当前的道路信息。

S2输出的高级决策包括左变道行为、右变道行为、加速行为、匀速行为或减速行为。

所述PPO算法包括Actor网络和Critic网络，Actor网络和Critic网络除了输出不同，其余结构相同；输入为周围交通参与者的模糊速度和变形位姿的栅格图、交通规则和道路方向的向量；栅格图经过3个卷积层处理，再由一个全连接网络平坦化，交通规则和道路方向的向量分别通过全连接网络处理；Actor网络和Critic网络连接并经过2个全连接网络输出，Actor网络最后经过SoftMax函数归一化输出高级决策行为，Critic网络最后一层是直接输出一个value值。

另一方面，本发明提供一种基于模仿学习初始化的强化学习换道行为规划方法系统，包括预处理模块、初始化模块以及优化模块，优化模块中引入奖励单元；

预处理模块用于构建引入周围车辆模糊速度和变形位姿的栅格图M_t，将交通规则和道路状况信息合并使用向量V_t表示；

初始化模块用于使用模仿学习初始化换道决策行为规划π_b，将所述栅格图M_t和所述向量V_t连接输入模仿学习DAgger网络，输出车辆的高级决策；

优化模块用于初始化PPO算法中Actor网络，基于SUMO仿真场景进行交互收集多组驾驶轨迹数据，在混合奖励机制的作用下，PPO算法优化换道决策行为规划，得到优化后的高级决策b_k；

奖励单元中混合奖励机制混合奖励机制根据所选择的策略，自动触发对应的奖励函数；具体为，基于换道驾驶任务，将t时刻自动驾驶车辆和交通状况的状态定义为状态s_t，由换道策略π根据s_t，得到决策命令u_t，强化学习换道决策行为规划采取u_t，过渡到t+1时刻状态s_t+1，并得到奖励r_t，以此累积到换道决策行为规划完成特定任务，而换道决策行为规划必须调整换道策略π，得到长期的收益R_t

时的决策奖励。

还提供一种自动驾驶车辆，基于本发明所述方法进行换道决策行为规划。

本发明还提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算可执行程序时能实现本发明所述基于模仿学习初始化的强化学习换道行为规划方法。

同时提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于模仿学习初始化的强化学习换道行为规划方法。

与现有技术相比，本发明至少具有以下有益效果：

强化学习方法用于训练车道变换以学习分层行为规划和运动规划框架中的行为规划，能考虑交通规则、周围交通参与者和道路状况，显示展现战术性能决策；模仿学习DAgger初始化换道行为规划，使其学会遵守交通规则和基本决策，如遵守红绿灯、车道跟踪等。再使用强化学习PPO微调换道行为规划，使其针对真实世界中难以模拟的数据进行训练，学会更精细的决策；构造的混合奖励机制，有效评估行为规划和运动规划不同层次状态-动作对的奖励，根据所选择的策略，算法决会自动触发对应的奖励函数，有利于奖励的多样性和动态性；同时，当且仅当整个任务和分层结构中的子目标都被完成时，才会出现有利于选项和行动的积极奖励，为了防止策略网络出现偷懒情况，有时候一味的积极奖励，会抑制策略网络的探索欲望；可以有效地评估不同层级的性能，使用运动规划的成本分配代替行为规划的奖励，确保最终学习到的策略是HBMP的最优解；强化学习PPO网络利用混合奖励机制优化训练模仿学习初始化后的换道行为规划，使本发明对于未知和极端场景具有更好的泛化性。而且引入模糊技术的状态空间，通过对周围车辆速度的模糊处理，并模糊化的速度与车辆的姿态投影到栅格图上，加快换道决策行为规划的学习速度，显著提高换道决策行为规划性能；在仿真平台SUMO上使用模仿学习训练自动驾驶车辆学习遵守交通规则和基本的换道决策，再使用强化学习训练复杂的换道决策。

附图说明

图1为一种基于模仿学习初始化的强化学习换道行为规划方法流程图。

图2为一种引入周围车辆模糊速度和变形位姿的栅格图。

图3为引入周围车辆模糊速度后自动驾驶车辆速度随时间的变化示意图。

图4为变形周围车辆位姿后奖励随时间的变化示意图。

图5为PPO(Proximal Policy Optimization)算法的Actor-Critic网络结构示意图。

图6为模仿学习初始化后换道行为机制碰撞率随时间的变化示意图。

图7为分层行为规划和运动规划框架示意图。

图8为混合奖励机制示意图。

图9为强化学习优化训练过程中加入变形位姿、模糊速度和混合奖励机制的奖励随训练轮数变化示意图。

具体实施方式

下面结合附图和具体实施对本申请的示范性实例进行详细阐明，其中包括本申请实施例的各种细节以助于理解。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图1是本发明基于模仿学习初始化的强化学习换道行为规划方法流程图，本发明适用于复杂和高度动态化的交通环境，通过将周围车辆的变形位姿和模糊速度通过渐变色映射到栅格图上，并将具有清晰信息的交通规则和道路状况使用向量表示，将两者连接输入模仿学习DAgger网络，使自动驾驶车辆学会遵守交通规则和基本的换道决策。再利用强化学习优化模仿学习换道决策行为规划，使其适应模仿学习数据集中没有的极端和未知交通场景。以上训练过程皆是在仿真平台SUMO中进行。最后，在另一个仿真平台CARLA上测试优化后的换道机制，验证本发明跨平台的鲁棒性。

本发明所述方法包括以下步骤：

S1：构建引入周围车辆模糊速度和变形位姿的栅格图，将交通规则、道路状况信息使用向量统一表示，具体如下：

为了描述周围的交通参与者，本发明考虑了前后80米传感器范围内的所有车辆。用以下特征来描述：

1)周围交通参与者的位姿信息。将多个距离传感器的信息整合到以自动驾驶车辆为中心的周围交通参与者的位置信息的栅格地图中。在每个栅格中，如果有交通参与者对象存在，其值为1，否则为0。此外，本发明对栅格图进行改进，将弯道栅格图统一变形为直道，则训练时可以统一使用直道数据训练，参考图2。

2)周围交通参与者的速度信息：在实际的交通驾驶中，人类实际上无法精确感知周围车辆的速度信息，只知道快、慢、差不多等模糊的概念，可以做出变道的决定。参考自动驾驶车辆的实时速度和理想线速度，将周围交通车辆速度分为7个模糊集合：{NB，NM，NS，Z，PS，PM，PB}，并将所述7个模糊集合以渐变色形式显示投射到栅格地图M_t，统一表示周围交通车辆的位姿信息和速度信息。

从高精地图的道路轮廓和信息图层，提取道路轮廓和道路方向，根据线路标识和自动驾驶车辆当前的定位信息，从高精地图的道路轮廓图层中，获取当前道路轮廓，使自动驾驶车辆学会跟踪车道线，再从高精地图中提取当前的道路信息。

对于固定清晰的交通规则和高精地图提供的道路状况，道路状况和交通规则分别用向量V_t表示，具体如下：

1)左侧车道、当前车道和右侧车道的存在和方向，左道是否可以左转、左道是否可以直行、当前车道是否存在、右车道是否可以右转、右车道是否可以直行分别定义为[e_l，d_l，d_c，e_r，d_r]，使用向量编码车道存在状态和方向，确保自动驾驶车辆进行正确的车道变换。

2)交通灯的状态，绿灯、黄灯、红灯分别定义为[l_g，l_y，l_r]，确保自动驾驶车辆遵守交通灯规则。

如图3所示，对比单纯考虑周围交通参与车辆的位姿信息来说，加入模糊初始化速度在保证提高平均行驶速度的同时，减少了换道次数。原因在于只考虑位姿信息时，无论前车速度快慢，行为决策都会执行同一个战术，即使前车速度远高于自动驾驶车辆的理想线速度，也很有可能执行换道决策，这是没有必要的。引入周围交通参与者的速度，可以避免这种情况，但是这会扩大状态空间。因为一旦前车速度超过自动驾驶车辆的理想车速，应该统一归为一种情况，即没有必要进行换道的，为此，本发明模糊化周围交通车辆速度，精简状态空间，加速行为策略的学习速率。

本发明创建一个全程直行三车道，即无拐弯道路的训练场景，训练行为规划π_d′；再创建一个圆形三车道，即保证车道一直为弧形。将训练好的行为规划π_d′直接运用在弧形车道上，从图4发现行为决策表现依旧良好，和直行车道上表现基本持平。原因在于本发明裁剪了顺着弯道方向的栅格图，转换为直道栅格图，而并非平面栅格图，表现了状态空间的鲁棒性。

S2构建强化学习算法PPO的网络结构，具体如下：PPO算法是一个目前非常流行的单智能体强化学习算法，采用了经典的Actor-Critic架构；Actor和Critic具有相同的输入状态和网络结构，不同的是Actor使用策略函数负责和环境交互并生成离散的高级换道决策。而Critic使用价值函数负责评估换道决策的价值，并指导Actor下一阶段的动作，其中网络的输入是集成周围交通参与者位置信息和速度信息的变形栅格图M_t和包含交通规则和道路信息的向量V_t。

PPO算法的网络结构如图5所示。交通规则和道路信息向量由两个全连接层处理，并与M_t维度保持一致。变形栅格图由三个卷积层和一个全连接层处理，两者最后进行连接处理，输入最终的全连接层，Softmax在输出层之后使用，除了最后一层没有分配Softmax之外，Critic具有相同的体系结构，Actor网络最后经过SoftMax函数归一化输出高级决策行为，Critic网络最后一层是直接输出一个value值。

具体的，输入为周围交通参与者的模糊速度和变形位姿的栅格图(大小为3*84*84)、交通规则和道路方向的向量(大小为1*8)；栅格图经过3个分别是2*84*84、32*39*39、32*7*7的卷积层处理，再由一个128的全连接网络平坦化；而交通规则和道路方向的向量通过32、64的全连接网络处理；可以看到两者连接并经过2个分别是128、64的全连接网络输出；Actor网络最后经过SoftMax函数归一化输出高级决策行为；Critic网络最后一层是直接输出一个value值。

S3：模仿学习DAgger初始化换道决策行为规划，具体如下：

本发明的训练策略是先使用模仿学习初始化换道决策行为规划π_b，使其学会遵守交通规则和基本决策，如遵守红绿灯、车道跟踪等。再使用强化学习PPO微调换道决策行为规划，使其针对真实世界中难以模拟的数据进行训练，学会更精细的决策。本发明使用事件级模拟器SUMO，该模拟器无需进行运动规划，只需提供决策结果，即左转、右转、直行等，会自动在较短的时间内完成换道，本发明使用DAgger来训练模仿学习换道决策行为规划的损失，式(1)中，b_k是专家数据提供的换道决策行为。

最后，图6为模仿学习初始化后换道行为机制碰撞率随时间的变化。训练初期，大概率α选择专家决策，导致超高奖励。随着训练轮数上升，α降低，由模型做行为决策，回报下跌。训练后期，奖励逐渐稳定至初始专家决策水平，说明了模仿学习预训练的收敛性。本发明使用训练好的模型初始化强化学习中的参与者网络。在图6中，本发明将使用模仿学习初始化的策略网络和随机初始化的策略网络进行对比。发现模仿学习初始化的行为规划，在训练开始时碰撞迅速减少，并且始终低于随机初始化的行为规划器。

S4：构造混合奖励机制，具体如下：

基于换道驾驶任务，将t时刻自动驾驶车辆和交通状况的状态定义为状态s_t，由换道策略π根据s_t，得到决策命令u_t，如公式(2)，

u_t＝π(s_t) (2)

强化学习换道决策行为规划采取u_t，过渡到t+1时刻状态s_t+1，并得到奖励r_t，以此累积到换道决策行为规划完成特定任务，而换道决策行为规划必须调整换道策略π，得到长期的收益R_t，如公式(3)，

其中，∑_t:0...T-1γ^tr_t部分记录了强化学习换道决策行为规划在时间[0，T-1)内状态轨迹的累积奖励，γ^Tr_T代表结束时刻T的奖励，其中，γ为衰减因子。一般来说，r_T是根据强化学习换道决策行为规划是否达到目的地来判罚，r_t是根据强化学习换道决策行为规划在轨迹行驶中是否违反交通规则、消耗时间或性能提升进行判罚。从公式(3)中可以看出，这种奖励设计明显只在结束时刻提供了极其稀疏的指导，使得多次训练得到相似的结果，导致行为策略的学习效率低下，只学会了有限的战术决策。即使在基于显式语义对象的传统方法中，搜索也不是很有效。

为了解决该问题，将驾驶任务分层建模引入运动规划，只做高级决策来限制搜索空间。使用强化学习PPO算法作为分层行为规划和运动规划框架(HBMP)中的行为规划π，输入强化学习换道决策行为规划的状态信息，将输出b_k∈{left_change，keep，right_change，speedup，speeddown}定义为高级行为，如果b_k与道路信息冲突，则由行为规划π重新决策。其中，将时间线划分成多个固定的时间段，在每个时间段[t_k，t_k+1]中，b_k将维持不变，时间跨度比控制命令长，本发明将[t_k，t_k+1]时间段中的控制命令累积奖励代替

时的决策奖励，会使奖励动态化和多样化，从而解决稀疏奖励问题。如图7所示，然后，本发明将(3)式划分为：

为了更加清晰，本发明定义一个策略网络b_k＝π_b(s_t)，则将公式(4)简化，如下：

与没有明确分层行为的原始公式(3)相比，自动驾驶HBMP公式(5)类似于因式分解。由行为规划接受自动驾驶车辆的状态信息，输出高级决策，再进行轨迹的运动规划，减少了搜索空间；比同时规划运动和目标车道更简单。

本发明提出一种混合奖励机制，有效评估行为规划和运动规划不同层次状态-动作对的奖励。1)根据所选择的策略，算法决会自动触发对应的奖励函数，有利于奖励的多样性和动态性；2)同时，当且仅当整个任务和分层结构中的子目标都被完成时，才会出现有利于选项和行动的积极奖励，为了防止策略网络出现偷懒情况，有时候一味的积极奖励，会抑制策略网络的探索欲望，图8展示了混合奖励机制。

从图9可以看出，本发明训练一个从感官数据直接映射到低维控制命令速度的策略网络π_d′，采用公式(3)发现，因为稀疏，策略网络虽然保证了安全性，但只学会了路径跟踪，作为中间策划者的战术决策并没有显示表现出来。使用公式(5)训练HBMP中的分层行为规划π_d，从图9可以看出来π_d上升速度和上限均高于π_d′，这是因为混合奖励机制使奖励多样化和动态化，显示展示了战术决策。

S5：强化学习PPO利用混合奖励机制优化训练模仿学习初始化后的换道决策行为规划，具体细节如下：

在SUMO上，利用模仿学习DAgger算法对换道决策行为规划进行初始化，然后再使用强化学习PPO算法进行优化。本发明比较了HBMP结构与其他两个基准决策模型之一的性能：基于IDM的决策模型、基于MPC的决策模型。基于IDM的代理是采用的是SUMO环境提供的基于规则的换道决策。本发明合理设置IDM模型的内部参数，避免苛刻的规则(例如从不从右侧超车，对其他车辆过于谦让)，以确保没有任何内部约束阻止自动驾驶车辆达到理想车速。而基于MPC的决策模型，考虑纵向制动安全距离与换道安全距离，建立安全车距模型判断车辆行驶状态，从而作为换道预警决策策略的指标。最后，HBMP结构从高级行为中进行选择：保持车道、左车道变换和右车道变换。为了确保两种典型决策模型与HBMP的训练方式一致，本发明使用相同的奖励功能和相同的输入状态。在评估过程中，所有决策模型都根据相同的标准获得奖励。它们只是在行动/选项选择策略上有所不同。如下所示，可以看出HBMP结构的碰撞率、平均行驶车速明显优于其他两种决策模型。

为了模拟现实场景，本发明在CARLA上建造了一个拥有各种交通场景的小镇，其中包括带红绿灯的十字路口、多车道、存在行人等情况。在DAgger中，专家决策的概率为α，模型决策的概率为1-α。开始时，α＝0.98，经过4000次训练，α逐渐将为0。其中，PPO算法的细节如下：

本发明在CARLA上测试本发明的模型，为与SUMO的交通场景对应，本发明选择地图Town3测试模型，该模型具有更丰富的道路轮廓，例如多车道。对于每一轮测试，自动驾驶车辆的起始位置和目标终点是在车道上随机生成的。A*全局规划算法用于规划全球路线作为参考。一旦达到目标或违反交通规则，一轮测试结束。

基于以上步骤，仿真场景的具体参数如下：

最后的测试结果如下表所示：

本发明基于模仿学习初始化的高效强化学习换道决策行为规划算法具体如下：

本发明通过从专家的演示中学习，缓解了强化学习初始化的低效率，快速获得与专家水平一致的行为规划能力。与仅使用模仿学习的方法相比，强化学习和模仿学习的结合还保留了强化学习与环境交互中适应的能力，以应对演示数据未涵盖的不可预测和极端情况。

根据自动驾驶规划任务的特点，提出了多项改进。本发明在分层行为规划和运动规划框架(HBMP)下完成，设计行为规划以实现更好的决策。至于运动规划部分，采用先进的算法来保证框架的整体性能。自动驾驶汽车首先对多车道交通场景进行行为规划，例如左转、直行等，然后运动规划将使用决策设计最优路径结果。在SUMO上的比较实验结果证明了本发明方法的有效性。此外，在CARLA上测试没有微调的SUMO换道机制，验证了本发明在不同平台上的鲁棒性。

在一种可能的情况下，一种自动驾驶车辆，能够基于本发明所述强化学习换道决策行为规划方法进行换道决策行为规划。

本发明还可以提供一种基于模仿学习初始化的强化学习换道行为规划方法系统，包括预处理模块、初始化模块以及优化模块，优化模块中引入奖励单元；

时的决策奖励。

本发明还可以提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述基于模仿学习初始化的强化学习换道行为规划方法。

另一方面，本发明提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于模仿学习初始化的强化学习换道行为规划方法。

所述计算机设备可以采用车载计算机、笔记本电脑、桌面型计算机或工作站。

处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是车载电脑、笔记本电脑、桌面型计算机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

Claims

1.一种基于模仿学习初始化的强化学习换道行为规划方法，其特征在于，包括以下步骤：

时的决策奖励。

2.根据权利要求1所述的方法，其特征在于，S1中构建引入周围车辆模糊速度和变形位姿的栅格图M_t具体如下：

3.根据权利要求2所述的方法，其特征在于，S1中引入周围车辆时，考虑前后80米传感器范围内的所有车辆；对栅格地图进行改进，将弯道栅格地图统一变形为直道。

4.根据权利要求1所述的方法，其特征在于，S1中从高精地图的道路轮廓和信息图层，提取道路轮廓和道路方向，根据线路标识和自动驾驶车辆当前的定位信息，使自动驾驶车辆学会跟踪车道线，再从高精地图中提取当前的道路信息。

5.根据权利要求1所述的方法，其特征在于，S2输出的高级决策包括左变道行为、右变道行为、加速行为、匀速行为或减速行为。

6.根据权利要求1所述的方法，其特征在于，所述PPO算法包括Actor网络和Critic网络，Actor网络和Critic网络除了输出不同，其余结构相同；输入为周围交通参与者的模糊速度和变形位姿的栅格图、交通规则和道路方向的向量；栅格图经过3个卷积层处理，再由一个全连接网络平坦化，交通规则和道路方向的向量分别通过全连接网络处理；Actor网络和Critic网络连接并经过2个全连接网络输出，Actor网络最后经过SoftMax函数归一化输出高级决策行为，Critic网络最后一层是直接输出一个value值。

7.一种基于模仿学习初始化的强化学习换道行为规划方法系统，其特征在于，包括预处理模块、初始化模块以及优化模块，优化模块中引入奖励单元；

时的决策奖励。

8.一种自动驾驶车辆，其特征在于，基于权利要求1～6中任一项所述方法进行换道决策行为规划。

9.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现权利要求1～6中任一项所述基于模仿学习初始化的强化学习换道行为规划方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现如权利要求1～6中任一项所述的基于模仿学习初始化的强化学习换道行为规划方法。