CN116620264A

CN116620264A - 基于多智能体强化学习的泊车任务分配与轨迹规划系统

Info

Publication number: CN116620264A
Application number: CN202310523373.6A
Authority: CN
Inventors: 王美玲; 陈思园; 宋文杰; 候鸣妤; 王凯
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-08-22

Abstract

本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，包括车位分配子系统和轨迹规划子系统，车辆进去停车场环境后接入车位分配子系统，支持多车同时分配对应的停车位，从而避免车辆在进入后寻找车位的时间，提升泊车效率和安全性；在车位分配子系统进行车位分配时，将任务分配的需求体现在奖励值设计中，同时设计最短路径奖励以及周围车位占据影响奖励，并考虑车辆泊车轨迹长度和泊车后周围环境阻塞的影响情况；对于轨迹规划子系统，在获取最优轨迹时，将车辆当前位置与距离最近的障碍物之间的距离作为考虑因素之一，进一步优化轨迹的碰撞场景，在符合动力学约束的前提下，既保证了决策的智能性，又确保了驾驶的安全性。

Description

基于多智能体强化学习的泊车任务分配与轨迹规划系统

技术领域

本发明属于智能车辆技术领域，尤其涉及一种基于多智能体强化学习的泊车任务分配与轨迹规划系统。

背景技术

自动驾驶汽车(Autonomous Vehicle)已有数十年的研究历史，能够代替人类完成高密度长周期、大流量等复杂场景下的繁琐作业，具备较高的社会经济价值。自动驾驶多智能体泊车技术可以实现多辆车在一个停车区域内同时进行泊车操作，相比传统的单个车辆逐一停放，可以更快速和高效地完成泊车，减少车辆等待时间和拥堵情况。通过自动驾驶多智能体泊车技术，可以更好地利用停车场内的停车资源，尤其在高峰时段，可以更有效地分配停车位，避免停车位浪费和拥堵情况，优化停车场资源。同时避免由于人为因素造成的停车事故，如刮蹭、碰撞等，提高停车安全性。自动驾驶泊车技术需要车辆之间进行高度的协作和交互，这对自动驾驶技术的发展也具有重要推动作用，促进自动驾驶技术的进一步成熟和普及。

基于传统路径搜索的车辆任务分配和轨迹规划方法，是基于占据栅格地图进行搜索。其计算复杂地与地图尺寸和分辨率相关，在处理大尺度场景存在实时性不足等问题，因此实际运用场景受限。现有自主泊车辅助系统(Automated Valet Parking，AVP)是基于单一智能体的轨迹规划方法，仅考虑自身车辆的运动状态，因此无法优化全局泊车位分配和轨迹规划的最优性。在处理多车轨迹之间的冲突问题上，单一智能体缺乏全局信息，对于冲突的处理存在局限性。随着人工智能与机器学习的发展，强化学习也逐渐被应用于自动驾驶任务中，由于其不依赖于提前标注的数据集，因此拥有较强的泛化能力，可以更有效地解决环境中存在的特殊情况，但通常是针对单车智能，没有充分挖掘强化学习在多智能体领域的优势。

发明内容

为解决上述问题，本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，能够大大提升泊车效率和安全性。

一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，包括由智能停车场运行的车位分配子系统和由车辆运行的轨迹规划子系统；

所述车位分配子系统采用基于强化学习的PPO网络为进入智能停车场的各车辆同时分配停车位，其中，在分配停车位时，优先选取车辆泊车轨迹长度越短、泊车后周围车位的占据越少的停车位；

各车辆的轨迹规划子系统接收车位分配子系统给出的停车位信息后，采用改进型MAPPO网络获取自身从当前位置到指定停车位的最优路径，其中，最优路径由车辆执行两步以上的动作来实现，在选取当前步的动作时，优先选取使得车辆当前位置与指定停车位之间的距离越小、车辆当前位置与预先规划的参考路径之间的偏差越小、车辆当前位置与距离最近的障碍物之间的距离越大的动作。

进一步地，所述改进型MAPPO网络由动作网络、评价网络以及约束价值网络构成，且改进型MAPPO网络获取任意一个车辆的最优路径的任意一步动作的方法为：

S1：将环境信息作为当前车辆i的动作网络的观测输入，得到当前车辆i在当前第k步对应的动作，其中，环境信息包括当前车辆i的运动状态s_vi＝[x,y,v_x,v_y,sinθ,cosθ]，当前车辆i对应的指定停车位状态goal_i＝[x,y,0,0,sinθ,cosθ]，以及当前车辆i周围距离最近的6辆车的运动状态：surr_ve＝[x,y,v_x,v_y,sinθ,cosθ],(e＝0,1,2,3,4,5)，[x,y]表示各车辆位于泊车环境坐标系下的坐标，[v_x,v_y]表示各车辆沿x,y轴方向的速度，[sinθ,cosθ]表示各车辆航向角的正弦值、余弦值；同时，动作包括当前车辆i的方向角度和加速度；

S2：获取当前车辆i在当前第k步的奖励R_ik＝R_goal+R_ref，其中，R_goal表示当前车辆i的当前位置与指定停车位之间的距离，R_ref表示当前车辆i的当前位置与预先规划的参考路径之间的偏差；

S3：将所有车辆在当前第k步的动作和奖励作为当前车辆i的评价网络的输入，得到当前车辆i的评价网络的优势函数估计值并基于优势函数估计值/>构建评价网络的损失函数L_vi：

其中，表示当前车辆i的评价网络采用贝尔曼方程对所有车辆在当前第k步的奖励进行计算得到的长期奖励，/>表示当前车辆i的评价网络对所有车辆在当前第k步的动作作出的动作价值函数估计值，/>表示期望；

S4：将所有车辆在当前第k步的动作和当前车辆i的障碍物碰撞代价作为当前车辆i的约束价值网络的输入，得到当前车辆i的约束价值网络的优势函数估计值并基于优势函数估计值/>构建约束价值网络的损失函数L_vci：

其中，表示根据当前车辆i的障碍物碰撞代价得到的约束代价估计值；

S5：根据优势函数估计值和优势函数估计值/>构建混合优势函数/>

其中，λ为设定权重；

S6：根据混合优势函数构建当前车辆i的动作网络的损失函数L^CLIP：

其中，r_ti表示当前车辆i在当前第k步所采用的动作对应的概率和第k-1步所采用的动作对应的概率的比值，∈为设定的更新变化量，clip()表示裁剪函数，min()表示取最小值；

S7：基于动作网络、评价网络以及约束价值网络的损失函数对改进型MAPPO网络进行更新，然后基于更新后的改进型MAPPO网络重复步骤S1～S7，直到各损失函数均收敛或达到设定的重复次数，得到当前车辆i在当前第k步的最终动作。

进一步地，当前车辆i的障碍物碰撞代价Cost_dis的计算方法为：

其中，D_min为当前车辆i与距离最近的障碍物之间的距离，Γ_d为设定的最大碰撞距离阈值，k_pre为当前第k步之前已经计算的总历史步数，ζ为设定的步数权重。

进一步地，当前车辆i与指定停车位之间的距离R_goal的计算方法为：

R_goal＝1-||s_vi-goal_i||/d_max

其中，d_max表示设定的最大距离；

当前车辆i与预先规划的参考路径之间的偏差R_ref的计算方法为：

R_ref＝1-D_vi(s_vi,Path_i)/D_max

其中，D_vi()表示当前车辆i的当前位置偏离预先规划的参考路径的距离，D_max为设定的最大偏离距离，Path_i为基于已知地图，采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径。

进一步地，所述PPO网络的训练方法为：

A0：初始化待分配车辆序列，List_v＝{0,1,2,…,i-1,i,i+1,…,m}，m表示待分配停车位的车辆数；

A1：将停车场环境信息作为PPO网络的观测输入，得到为各车辆分配的停车位编号p_i；

A2：针对当前待分配的车辆i和车辆i对应的停车位p_i，计算奖励值R_i，其中，如果所分配的停车位p_i已经被占据，则奖励值R_i＝-1，否则奖励值计算如下：

R_i＝R_path-i+R_global-i

其中，R_path-i为车辆i的路径奖励，R_global-i为车辆i的全局奖励，且路径奖励R_path-i的计算方法为：

R_path-i＝-Path_i/MaxPath

其中，Path_i为基于已知地图，采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径，MaxPath表示已知地图中的最长路径预设值；

全局奖励R_global-i的计算方法为：

其中，P_l表示车辆i对应的停车位p_i周围的五个停车位，l＝0,…,4，w_{i_l}表示车辆i对应的停车位p_i周围的五个停车位的占据权值，如果P_l被占据，则P_l＝0，否则P_l＝1；

A3：令i＝i+1，重复执行步骤A2，直到获取全部车辆的奖励值；

A4：根据各车辆对应的奖励值R_i的总和∑R_i构建均方差损失函数，再根据均方差损失函数更新PPO网络；

A5：采用更新后的PPO网络重新执行步骤A1～A5，直到达到设定的重复次数，得到最终的用于停车位分配的PPO网络。

进一步地，作为PPO网络观测输入的停车场环境信息包括车辆运动状态信息和车位占据状态信息，其中，车辆运动状态信息包括各车辆位于泊车环境坐标系下的坐标[x,y]，各车辆沿x,y轴方向的速度[v_x,v_y]，各车辆的航向角正弦值、余弦值[sinθ,cosθ]，且车位占据状态信息表示如下：

[P₀,P₁,…,P_n,…,P_N]

其中，N为停车位总数，若车位P_n被占据，则P_n＝1，否则P_n＝0。

有益效果：

1、本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，包括车位分配子系统和轨迹规划子系统，车辆进去停车场环境后接入车位分配子系统，支持多车同时分配对应的停车位，从而避免车辆在进入后寻找车位的时间，提升泊车效率和安全性；在车位分配子系统进行车位分配时，将任务分配的需求体现在奖励值设计中，同时设计最短路径奖励以及周围车位占据影响奖励，并考虑车辆泊车轨迹长度和泊车后周围环境阻塞的影响情况；对于轨迹规划子系统，在获取最优轨迹时，将车辆当前位置与距离最近的障碍物之间的距离作为考虑因素之一，进一步优化轨迹的碰撞场景，在符合动力学约束的前提下，既保证了决策的智能性，又确保了驾驶的安全性。

2、本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，在原有MAPPO网络设计中，增加碰撞约束价值网络，以此提升轨迹安全约束，由此可见，本发明在符合动力学约束的前提下，既保证了决策的智能性，又确保了驾驶的安全性；同时，本发明还综合考量在泊车场景中车辆观测受限的情况，将泊车轨迹规划建模为部分可观察马尔可夫决策过程，利用全局观测评估各车辆轨迹动作价值，优化轨迹动作。

3、本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，在获取最优轨迹时，对于车辆单步奖励值R_ik的计算，将基于A*算法预先规划的参考路径引入到单步奖励奖励函数的设计中，能够加速训练网络的收敛。

附图说明

图1为本发明泊车场景图；

图2为本发明系统方案框图；

图3为本发明泊车分配流程图；

图4为本发明停车分配子系统周围车辆加权特征提取网络框图；

图5为本发明泊车位分配权值设计图；

图6为本发明改进型MAPPO网络框图；

图7为本发明泊车路径规划流程图；

图8为本发明轨迹规划效果图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，在泊车场景中，可以通过多智能体强化学习解决传统方法对于地图的限制，协调多智能体泊车位分配，处理多车轨迹冲突，最大化提升泊车效率与安全性。基于此，本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，如图2所示，包括由智能停车场运行的车位分配子系统和由车辆运行的轨迹规划子系统。

所述车位分配子系统采用基于强化学习的PPO网络为进入智能停车场的各车辆同时分配停车位，其中，在分配停车位时，优先选取车辆泊车轨迹长度越短、泊车后周围车位的占据越少的停车位。

也就是说，本发明包含两大部分，一是，基于强化学习的多车车位分配子系统；二是，基于冲突约束的多智能体轨迹规划子系统。两个子系统分别依托两种主体，基于强化学习的多车车位分配子系统由智能停车场运行，对进入停车场环境的车辆进行车位分配；基于冲突约束的多智能体轨迹规划子系统位于车端，车辆接收到智能停车场所下发的泊车位，主动规划安全轨迹进行泊车。两部分子系统可独立训练部署。

下面首先详细介绍基于强化学习的多车车位分配子系统中PPO网络的训练方法，如图3所示，具体包括以下步骤：

A1：将停车场环境信息作为PPO网络的观测输入，得到为各车辆分配的停车位编号p_i；其中，m辆待分配车辆列表表示为：List_v＝{s₀,s₁,s₂,…,s_i-1,s_i,s_i+1,…,s_m}，其中s_i为车辆i的运动状态，特征表示为[x,y,v_x,v_y,sinθ,cosθ]，分别代表车辆位于泊车环境坐标系下的[x,y]坐标，沿x,y轴方向的速度[v_x,v_y]，航向角正弦余弦值[sinθ,cosθ]。假设停车场内共N个停车位，车位位置固定，n个车位占据情况为[P₀,P₁,…,P_n,…,P_N]。若车位P_n被占据，则P_n＝1，否则P_n＝0，由此环境信息作为观测输入包括以上两部分：车辆运动状态信息，车位占据状态信息。需要说明的是，在计算观测信息特征时，可以采用图4所示的任务分配系统周围车辆加权特征提取网络，对主车周围车辆的特征，与主车状态进行加权处理，获取加权特征，以此增加网络的可扩展性，应对不同数量的车辆场景。

R_i＝R_path-i+R_global-i，即路径奖励与全局奖励之和

R_path-i＝-Path_i/MaxPath

其中，Path_i为基于已知地图，采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径，MaxPath表示已知地图中的最长路径预设值，目的是为了归一化R_path-i，路径奖励值表示期望为车辆i分配越近的路线则奖励越高；

通过分析目标车位p_i周围五个车位占据情况，得到全局奖励R_global-i的计算方法如下：

其中，P_l表示车辆i对应的停车位p_i周围的五个停车位，l＝0,…,4，w_{i_l}表示车辆i对应的停车位p_i周围的五个停车位的占据权值，如图5所示，如果P_l被占据，则P_l＝0，否则P_l＝1；该全局奖励R_global-i设置期望车位分配子系统为车辆i分配周围车位占据情况尽量少的车位，以减少局部拥堵情况。

进一步地，对于车辆i，将第i辆车的运动状态调整至队列首位，调整所有动态障碍物观测为：{s_i,s_i+1,…,s_m,s₀,s₁,s₂,…,s_i-1}，作为当前的观测信息。在对当前车辆i和周围障碍物车辆进行特征提取过程中，采用注意力加权机制，对比其他障碍物车辆与主车的运动状态，学习障碍物对于当前车辆i的影响权重，以此加权处理多个障碍物的影响，减小网络结构，并且应对扩展性问题。

在车位分配的基础上，再利用基于冲突消解的轨迹规划子系统获取车辆到达指定停车位的最优路径。因此，下面详细介绍轨迹规划子系统中的改进型MAPPO网络如何获取最优路径。如图6所示，所述改进型MAPPO网络由动作网络、评价网络以及约束价值网络构成，且改进型MAPPO网络获取任意一个车辆的最优路径的任意一步动作的方法如图7所示：

S1：针对多个待泊入车辆，将环境信息作为当前车辆i的动作网络的观测输入，得到当前车辆i在当前第k步对应的动作，其中，环境信息包括当前车辆i的运动状态s_vi＝[x,y,v_x,v_y,sinθ,cosθ]，当前车辆i对应的指定停车位状态goal_i＝[x,y,0,0,sinθ,cosθ]，以及当前车辆i周围距离最近的6辆车的运动状态：surr_ve＝[x,y,v_x,v_y,sinθ,cosθ],(e＝0,1,2,3,4,5)，[x,y]表示各车辆位于泊车环境坐标系下的坐标，[v_x,v_y]表示各车辆沿x,y轴方向的速度，[sinθ,cosθ]表示各车辆航向角的正弦值、余弦值；同时，动作包括当前车辆i的方向角度和加速度[θ,a]，其中角度限制为加速度限制为[-5m/s²,5m/s²]。

S2：获取当前车辆i在当前第k步的奖励R_ik＝R_goal+R_ref，其中，R_goal表示当前车辆i的当前位置与指定停车位之间的距离，R_ref表示当前车辆i的当前位置与预先规划的参考路径之间的偏差；R_goal表示当前车辆i越靠近指定停车位，获得的奖励值R_ik越高，R_ref表示当前车辆i偏离A*算法得到的参考路径的惩罚。

当前车辆i与指定停车位之间的距离R_goal的计算方法为：

R_goal＝1-||s_vi-goal_i||/d_max

其中，d_max表示设定的最大距离，用于归一化R_goal；

需要说明的是，由于泊车场环境内，车辆轨迹具有一致性，因此为加速训练网路的收敛，本发明将参考轨迹引入到奖励函数的设计中，引导车辆进行轨迹规划，本发明提供的当前车辆i与预先规划的参考路径之间的偏差R_ref的计算方法如下：

R_ref＝1-D_vi(s_vi,Path_i)/D_max

其中，D_vi()表示当前车辆i的当前位置偏离预先规划的参考路径的距离，D_max为设定的最大偏离距离，用于归一化R_ref，Path_i为基于已知地图，采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径。

需要说明的是，评价网络的输入包括了多个车辆的整体观测，由此能够全面地衡量各个车辆的动作价值。

其中，表示根据当前车辆i的障碍物碰撞代价Cost_dis得到的约束代价估计值；其中，障碍物碰撞代价Cost_dis的计算方法如下：

其中，D_min为当前车辆i与距离最近的障碍物之间的距离，Γ_d为设定的最大碰撞距离阈值，k_pre为当前第k步之前已经计算的总历史步数，ζ为设定的步数权重。由此可见，障碍物碰撞代价Cost_dis整体描述为主车距离障碍物的碰撞距离约束，距离越近，代价越高。

其中，λ为设定权重；

其中，r_ti表示当前车辆i在当前第k步所采用的动作对应的概率和第k-1步所采用的动作对应的概率的比值，∈为设定的更新变化量，clip()表示裁剪函数，min()表示取最小值；需要说明的是，裁剪函数的存在可以限制当前第k步所采用的动作的变化范围，保证动作更新的稳定性。

需要说明的是，基于损失函数对改进型MAPPO网络进行更新时，可以使用梯度下降或其他优化方法来求解。

如图8所示，为本发明轨迹规划效果图；由此可见，本发明首先提供一种基于强化学习的多车车位分配子系统，该子系统依托于智能停车场，车辆进去停车场环境后接入子系统，支持多车同时分配对应的停车位，从而避免车辆在进入后寻找车位的时间，提升泊车效率和安全性。其次，本发明提供一种基于强化学习的多车车位分配子系统，将任务分配的需求体现在reward设计中，同时设计最短路径奖励以及周围车位占据影响奖励。同时考虑车辆泊车轨迹长度和泊车后周围环境阻塞的影响情况。最后，本发明在建立上述车位分配子系统后，提供一种基于冲突约束的多智能体轨迹规划子系统，该子系统基于多车多目标同时规划多车无碰撞轨迹。在原有MAPPO网络设计中，增加碰撞约束价值网络，以此提升轨迹安全约束，轨迹碰撞场景，在符合动力学约束的前提下，既保证了决策的智能性，又确保了驾驶的安全性。综合考量在泊车场景中车辆观测受限的情况，将泊车轨迹规划建模为部分可观察马尔可夫决策过程，利用全局观测评估各车辆轨迹动作价值，优化轨迹动作。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，其特征在于，包括由智能停车场运行的车位分配子系统和由车辆运行的轨迹规划子系统；

2.如权利要求1所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，其特征在于，所述改进型MAPPO网络由动作网络、评价网络以及约束价值网络构成，且改进型MAPPO网络获取任意一个车辆的最优路径的任意一步动作的方法为：

其中，λ为设定权重；

3.如权利要求2所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，其特征在于，当前车辆i的障碍物碰撞代价Cost_dis的计算方法为：

4.如权利要求2所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，其特征在于，当前车辆i与指定停车位之间的距离R_goal的计算方法为：

R_goal＝1-||s_vi-goal_i||/d_max

其中，d_max表示设定的最大距离；

R_ref＝1-D_vi(s_vi,Path_i)/D_max

5.如权利要求1～4任一权利要求所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，其特征在于，所述PPO网络的训练方法为：

R_i＝R_path-i+R_global-i

R_path-i＝-Path_i/MaxPath

全局奖励R_global-i的计算方法为：

6.如权利要求5所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统，其特征在于，作为PPO网络观测输入的停车场环境信息包括车辆运动状态信息和车位占据状态信息，其中，车辆运动状态信息包括各车辆位于泊车环境坐标系下的坐标[x,y]，各车辆沿x,y轴方向的速度[v_x,v_y]，各车辆的航向角正弦值、余弦值[sinθ,cosθ]，且车位占据状态信息表示如下：

[P₀,P₁,…,P_n,…,P_N]