CN116620264A - 基于多智能体强化学习的泊车任务分配与轨迹规划系统 - Google Patents
基于多智能体强化学习的泊车任务分配与轨迹规划系统 Download PDFInfo
- Publication number
- CN116620264A CN116620264A CN202310523373.6A CN202310523373A CN116620264A CN 116620264 A CN116620264 A CN 116620264A CN 202310523373 A CN202310523373 A CN 202310523373A CN 116620264 A CN116620264 A CN 116620264A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- parking
- current
- network
- parking space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 16
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 3
- 239000010931 gold Substances 0.000 claims description 3
- 229910052737 gold Inorganic materials 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 8
- 230000000903 blocking effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/06—Automatic manoeuvring for parking
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/14—Traffic control systems for road vehicles indicating individual free spaces in parking areas
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2556/00—Input parameters relating to data
- B60W2556/45—External transmission of data to or from the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,包括车位分配子系统和轨迹规划子系统,车辆进去停车场环境后接入车位分配子系统,支持多车同时分配对应的停车位,从而避免车辆在进入后寻找车位的时间,提升泊车效率和安全性;在车位分配子系统进行车位分配时,将任务分配的需求体现在奖励值设计中,同时设计最短路径奖励以及周围车位占据影响奖励,并考虑车辆泊车轨迹长度和泊车后周围环境阻塞的影响情况;对于轨迹规划子系统,在获取最优轨迹时,将车辆当前位置与距离最近的障碍物之间的距离作为考虑因素之一,进一步优化轨迹的碰撞场景,在符合动力学约束的前提下,既保证了决策的智能性,又确保了驾驶的安全性。
Description
技术领域
本发明属于智能车辆技术领域,尤其涉及一种基于多智能体强化学习的泊车任务分配与轨迹规划系统。
背景技术
自动驾驶汽车(Autonomous Vehicle)已有数十年的研究历史,能够代替人类完成高密度长周期、大流量等复杂场景下的繁琐作业,具备较高的社会经济价值。自动驾驶多智能体泊车技术可以实现多辆车在一个停车区域内同时进行泊车操作,相比传统的单个车辆逐一停放,可以更快速和高效地完成泊车,减少车辆等待时间和拥堵情况。通过自动驾驶多智能体泊车技术,可以更好地利用停车场内的停车资源,尤其在高峰时段,可以更有效地分配停车位,避免停车位浪费和拥堵情况,优化停车场资源。同时避免由于人为因素造成的停车事故,如刮蹭、碰撞等,提高停车安全性。自动驾驶泊车技术需要车辆之间进行高度的协作和交互,这对自动驾驶技术的发展也具有重要推动作用,促进自动驾驶技术的进一步成熟和普及。
基于传统路径搜索的车辆任务分配和轨迹规划方法,是基于占据栅格地图进行搜索。其计算复杂地与地图尺寸和分辨率相关,在处理大尺度场景存在实时性不足等问题,因此实际运用场景受限。现有自主泊车辅助系统(Automated Valet Parking,AVP)是基于单一智能体的轨迹规划方法,仅考虑自身车辆的运动状态,因此无法优化全局泊车位分配和轨迹规划的最优性。在处理多车轨迹之间的冲突问题上,单一智能体缺乏全局信息,对于冲突的处理存在局限性。随着人工智能与机器学习的发展,强化学习也逐渐被应用于自动驾驶任务中,由于其不依赖于提前标注的数据集,因此拥有较强的泛化能力,可以更有效地解决环境中存在的特殊情况,但通常是针对单车智能,没有充分挖掘强化学习在多智能体领域的优势。
发明内容
为解决上述问题,本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,能够大大提升泊车效率和安全性。
一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,包括由智能停车场运行的车位分配子系统和由车辆运行的轨迹规划子系统;
所述车位分配子系统采用基于强化学习的PPO网络为进入智能停车场的各车辆同时分配停车位,其中,在分配停车位时,优先选取车辆泊车轨迹长度越短、泊车后周围车位的占据越少的停车位;
各车辆的轨迹规划子系统接收车位分配子系统给出的停车位信息后,采用改进型MAPPO网络获取自身从当前位置到指定停车位的最优路径,其中,最优路径由车辆执行两步以上的动作来实现,在选取当前步的动作时,优先选取使得车辆当前位置与指定停车位之间的距离越小、车辆当前位置与预先规划的参考路径之间的偏差越小、车辆当前位置与距离最近的障碍物之间的距离越大的动作。
进一步地,所述改进型MAPPO网络由动作网络、评价网络以及约束价值网络构成,且改进型MAPPO网络获取任意一个车辆的最优路径的任意一步动作的方法为:
S1:将环境信息作为当前车辆i的动作网络的观测输入,得到当前车辆i在当前第k步对应的动作,其中,环境信息包括当前车辆i的运动状态svi=[x,y,vx,vy,sinθ,cosθ],当前车辆i对应的指定停车位状态goali=[x,y,0,0,sinθ,cosθ],以及当前车辆i周围距离最近的6辆车的运动状态:surrve=[x,y,vx,vy,sinθ,cosθ],(e=0,1,2,3,4,5),[x,y]表示各车辆位于泊车环境坐标系下的坐标,[vx,vy]表示各车辆沿x,y轴方向的速度,[sinθ,cosθ]表示各车辆航向角的正弦值、余弦值;同时,动作包括当前车辆i的方向角度和加速度;
S2:获取当前车辆i在当前第k步的奖励Rik=Rgoal+Rref,其中,Rgoal表示当前车辆i的当前位置与指定停车位之间的距离,Rref表示当前车辆i的当前位置与预先规划的参考路径之间的偏差;
S3:将所有车辆在当前第k步的动作和奖励作为当前车辆i的评价网络的输入,得到当前车辆i的评价网络的优势函数估计值并基于优势函数估计值/>构建评价网络的损失函数Lvi:
其中,表示当前车辆i的评价网络采用贝尔曼方程对所有车辆在当前第k步的奖励进行计算得到的长期奖励,/>表示当前车辆i的评价网络对所有车辆在当前第k步的动作作出的动作价值函数估计值,/>表示期望;
S4:将所有车辆在当前第k步的动作和当前车辆i的障碍物碰撞代价作为当前车辆i的约束价值网络的输入,得到当前车辆i的约束价值网络的优势函数估计值并基于优势函数估计值/>构建约束价值网络的损失函数Lvci:
其中,表示根据当前车辆i的障碍物碰撞代价得到的约束代价估计值;
S5:根据优势函数估计值和优势函数估计值/>构建混合优势函数/>
其中,λ为设定权重;
S6:根据混合优势函数构建当前车辆i的动作网络的损失函数LCLIP:
其中,rti表示当前车辆i在当前第k步所采用的动作对应的概率和第k-1步所采用的动作对应的概率的比值,∈为设定的更新变化量,clip()表示裁剪函数,min()表示取最小值;
S7:基于动作网络、评价网络以及约束价值网络的损失函数对改进型MAPPO网络进行更新,然后基于更新后的改进型MAPPO网络重复步骤S1~S7,直到各损失函数均收敛或达到设定的重复次数,得到当前车辆i在当前第k步的最终动作。
进一步地,当前车辆i的障碍物碰撞代价Costdis的计算方法为:
其中,Dmin为当前车辆i与距离最近的障碍物之间的距离,Γd为设定的最大碰撞距离阈值,kpre为当前第k步之前已经计算的总历史步数,ζ为设定的步数权重。
进一步地,当前车辆i与指定停车位之间的距离Rgoal的计算方法为:
Rgoal=1-||svi-goali||/dmax
其中,dmax表示设定的最大距离;
当前车辆i与预先规划的参考路径之间的偏差Rref的计算方法为:
Rref=1-Dvi(svi,Pathi)/Dmax
其中,Dvi()表示当前车辆i的当前位置偏离预先规划的参考路径的距离,Dmax为设定的最大偏离距离,Pathi为基于已知地图,采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径。
进一步地,所述PPO网络的训练方法为:
A0:初始化待分配车辆序列,Listv={0,1,2,…,i-1,i,i+1,…,m},m表示待分配停车位的车辆数;
A1:将停车场环境信息作为PPO网络的观测输入,得到为各车辆分配的停车位编号pi;
A2:针对当前待分配的车辆i和车辆i对应的停车位pi,计算奖励值Ri,其中,如果所分配的停车位pi已经被占据,则奖励值Ri=-1,否则奖励值计算如下:
Ri=Rpath-i+Rglobal-i
其中,Rpath-i为车辆i的路径奖励,Rglobal-i为车辆i的全局奖励,且路径奖励Rpath-i的计算方法为:
Rpath-i=-Pathi/MaxPath
其中,Pathi为基于已知地图,采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径,MaxPath表示已知地图中的最长路径预设值;
全局奖励Rglobal-i的计算方法为:
其中,Pl表示车辆i对应的停车位pi周围的五个停车位,l=0,…,4,wi_l表示车辆i对应的停车位pi周围的五个停车位的占据权值,如果Pl被占据,则Pl=0,否则Pl=1;
A3:令i=i+1,重复执行步骤A2,直到获取全部车辆的奖励值;
A4:根据各车辆对应的奖励值Ri的总和∑Ri构建均方差损失函数,再根据均方差损失函数更新PPO网络;
A5:采用更新后的PPO网络重新执行步骤A1~A5,直到达到设定的重复次数,得到最终的用于停车位分配的PPO网络。
进一步地,作为PPO网络观测输入的停车场环境信息包括车辆运动状态信息和车位占据状态信息,其中,车辆运动状态信息包括各车辆位于泊车环境坐标系下的坐标[x,y],各车辆沿x,y轴方向的速度[vx,vy],各车辆的航向角正弦值、余弦值[sinθ,cosθ],且车位占据状态信息表示如下:
[P0,P1,…,Pn,…,PN]
其中,N为停车位总数,若车位Pn被占据,则Pn=1,否则Pn=0。
有益效果:
1、本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,包括车位分配子系统和轨迹规划子系统,车辆进去停车场环境后接入车位分配子系统,支持多车同时分配对应的停车位,从而避免车辆在进入后寻找车位的时间,提升泊车效率和安全性;在车位分配子系统进行车位分配时,将任务分配的需求体现在奖励值设计中,同时设计最短路径奖励以及周围车位占据影响奖励,并考虑车辆泊车轨迹长度和泊车后周围环境阻塞的影响情况;对于轨迹规划子系统,在获取最优轨迹时,将车辆当前位置与距离最近的障碍物之间的距离作为考虑因素之一,进一步优化轨迹的碰撞场景,在符合动力学约束的前提下,既保证了决策的智能性,又确保了驾驶的安全性。
2、本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,在原有MAPPO网络设计中,增加碰撞约束价值网络,以此提升轨迹安全约束,由此可见,本发明在符合动力学约束的前提下,既保证了决策的智能性,又确保了驾驶的安全性;同时,本发明还综合考量在泊车场景中车辆观测受限的情况,将泊车轨迹规划建模为部分可观察马尔可夫决策过程,利用全局观测评估各车辆轨迹动作价值,优化轨迹动作。
3、本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,在获取最优轨迹时,对于车辆单步奖励值Rik的计算,将基于A*算法预先规划的参考路径引入到单步奖励奖励函数的设计中,能够加速训练网络的收敛。
附图说明
图1为本发明泊车场景图;
图2为本发明系统方案框图;
图3为本发明泊车分配流程图;
图4为本发明停车分配子系统周围车辆加权特征提取网络框图;
图5为本发明泊车位分配权值设计图;
图6为本发明改进型MAPPO网络框图;
图7为本发明泊车路径规划流程图;
图8为本发明轨迹规划效果图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,在泊车场景中,可以通过多智能体强化学习解决传统方法对于地图的限制,协调多智能体泊车位分配,处理多车轨迹冲突,最大化提升泊车效率与安全性。基于此,本发明提供一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,如图2所示,包括由智能停车场运行的车位分配子系统和由车辆运行的轨迹规划子系统。
所述车位分配子系统采用基于强化学习的PPO网络为进入智能停车场的各车辆同时分配停车位,其中,在分配停车位时,优先选取车辆泊车轨迹长度越短、泊车后周围车位的占据越少的停车位。
各车辆的轨迹规划子系统接收车位分配子系统给出的停车位信息后,采用改进型MAPPO网络获取自身从当前位置到指定停车位的最优路径,其中,最优路径由车辆执行两步以上的动作来实现,在选取当前步的动作时,优先选取使得车辆当前位置与指定停车位之间的距离越小、车辆当前位置与预先规划的参考路径之间的偏差越小、车辆当前位置与距离最近的障碍物之间的距离越大的动作。
也就是说,本发明包含两大部分,一是,基于强化学习的多车车位分配子系统;二是,基于冲突约束的多智能体轨迹规划子系统。两个子系统分别依托两种主体,基于强化学习的多车车位分配子系统由智能停车场运行,对进入停车场环境的车辆进行车位分配;基于冲突约束的多智能体轨迹规划子系统位于车端,车辆接收到智能停车场所下发的泊车位,主动规划安全轨迹进行泊车。两部分子系统可独立训练部署。
下面首先详细介绍基于强化学习的多车车位分配子系统中PPO网络的训练方法,如图3所示,具体包括以下步骤:
A0:初始化待分配车辆序列,Listv={0,1,2,…,i-1,i,i+1,…,m},m表示待分配停车位的车辆数;
A1:将停车场环境信息作为PPO网络的观测输入,得到为各车辆分配的停车位编号pi;其中,m辆待分配车辆列表表示为:Listv={s0,s1,s2,…,si-1,si,si+1,…,sm},其中si为车辆i的运动状态,特征表示为[x,y,vx,vy,sinθ,cosθ],分别代表车辆位于泊车环境坐标系下的[x,y]坐标,沿x,y轴方向的速度[vx,vy],航向角正弦余弦值[sinθ,cosθ]。假设停车场内共N个停车位,车位位置固定,n个车位占据情况为[P0,P1,…,Pn,…,PN]。若车位Pn被占据,则Pn=1,否则Pn=0,由此环境信息作为观测输入包括以上两部分:车辆运动状态信息,车位占据状态信息。需要说明的是,在计算观测信息特征时,可以采用图4所示的任务分配系统周围车辆加权特征提取网络,对主车周围车辆的特征,与主车状态进行加权处理,获取加权特征,以此增加网络的可扩展性,应对不同数量的车辆场景。
A2:针对当前待分配的车辆i和车辆i对应的停车位pi,计算奖励值Ri,其中,如果所分配的停车位pi已经被占据,则奖励值Ri=-1,否则奖励值计算如下:
Ri=Rpath-i+Rglobal-i,即路径奖励与全局奖励之和
其中,Rpath-i为车辆i的路径奖励,Rglobal-i为车辆i的全局奖励,且路径奖励Rpath-i的计算方法为:
Rpath-i=-Pathi/MaxPath
其中,Pathi为基于已知地图,采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径,MaxPath表示已知地图中的最长路径预设值,目的是为了归一化Rpath-i,路径奖励值表示期望为车辆i分配越近的路线则奖励越高;
通过分析目标车位pi周围五个车位占据情况,得到全局奖励Rglobal-i的计算方法如下:
其中,Pl表示车辆i对应的停车位pi周围的五个停车位,l=0,…,4,wi_l表示车辆i对应的停车位pi周围的五个停车位的占据权值,如图5所示,如果Pl被占据,则Pl=0,否则Pl=1;该全局奖励Rglobal-i设置期望车位分配子系统为车辆i分配周围车位占据情况尽量少的车位,以减少局部拥堵情况。
A3:令i=i+1,重复执行步骤A2,直到获取全部车辆的奖励值;
A4:根据各车辆对应的奖励值Ri的总和∑Ri构建均方差损失函数,再根据均方差损失函数更新PPO网络;
A5:采用更新后的PPO网络重新执行步骤A1~A5,直到达到设定的重复次数,得到最终的用于停车位分配的PPO网络。
进一步地,对于车辆i,将第i辆车的运动状态调整至队列首位,调整所有动态障碍物观测为:{si,si+1,…,sm,s0,s1,s2,…,si-1},作为当前的观测信息。在对当前车辆i和周围障碍物车辆进行特征提取过程中,采用注意力加权机制,对比其他障碍物车辆与主车的运动状态,学习障碍物对于当前车辆i的影响权重,以此加权处理多个障碍物的影响,减小网络结构,并且应对扩展性问题。
在车位分配的基础上,再利用基于冲突消解的轨迹规划子系统获取车辆到达指定停车位的最优路径。因此,下面详细介绍轨迹规划子系统中的改进型MAPPO网络如何获取最优路径。如图6所示,所述改进型MAPPO网络由动作网络、评价网络以及约束价值网络构成,且改进型MAPPO网络获取任意一个车辆的最优路径的任意一步动作的方法如图7所示:
S1:针对多个待泊入车辆,将环境信息作为当前车辆i的动作网络的观测输入,得到当前车辆i在当前第k步对应的动作,其中,环境信息包括当前车辆i的运动状态svi=[x,y,vx,vy,sinθ,cosθ],当前车辆i对应的指定停车位状态goali=[x,y,0,0,sinθ,cosθ],以及当前车辆i周围距离最近的6辆车的运动状态:surrve=[x,y,vx,vy,sinθ,cosθ],(e=0,1,2,3,4,5),[x,y]表示各车辆位于泊车环境坐标系下的坐标,[vx,vy]表示各车辆沿x,y轴方向的速度,[sinθ,cosθ]表示各车辆航向角的正弦值、余弦值;同时,动作包括当前车辆i的方向角度和加速度[θ,a],其中角度限制为加速度限制为[-5m/s2,5m/s2]。
S2:获取当前车辆i在当前第k步的奖励Rik=Rgoal+Rref,其中,Rgoal表示当前车辆i的当前位置与指定停车位之间的距离,Rref表示当前车辆i的当前位置与预先规划的参考路径之间的偏差;Rgoal表示当前车辆i越靠近指定停车位,获得的奖励值Rik越高,Rref表示当前车辆i偏离A*算法得到的参考路径的惩罚。
当前车辆i与指定停车位之间的距离Rgoal的计算方法为:
Rgoal=1-||svi-goali||/dmax
其中,dmax表示设定的最大距离,用于归一化Rgoal;
需要说明的是,由于泊车场环境内,车辆轨迹具有一致性,因此为加速训练网路的收敛,本发明将参考轨迹引入到奖励函数的设计中,引导车辆进行轨迹规划,本发明提供的当前车辆i与预先规划的参考路径之间的偏差Rref的计算方法如下:
Rref=1-Dvi(svi,Pathi)/Dmax
其中,Dvi()表示当前车辆i的当前位置偏离预先规划的参考路径的距离,Dmax为设定的最大偏离距离,用于归一化Rref,Pathi为基于已知地图,采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径。
S3:将所有车辆在当前第k步的动作和奖励作为当前车辆i的评价网络的输入,得到当前车辆i的评价网络的优势函数估计值并基于优势函数估计值/>构建评价网络的损失函数Lvi:
其中,表示当前车辆i的评价网络采用贝尔曼方程对所有车辆在当前第k步的奖励进行计算得到的长期奖励,/>表示当前车辆i的评价网络对所有车辆在当前第k步的动作作出的动作价值函数估计值,/>表示期望;
需要说明的是,评价网络的输入包括了多个车辆的整体观测,由此能够全面地衡量各个车辆的动作价值。
S4:将所有车辆在当前第k步的动作和当前车辆i的障碍物碰撞代价作为当前车辆i的约束价值网络的输入,得到当前车辆i的约束价值网络的优势函数估计值并基于优势函数估计值/>构建约束价值网络的损失函数Lvci:
其中,表示根据当前车辆i的障碍物碰撞代价Costdis得到的约束代价估计值;其中,障碍物碰撞代价Costdis的计算方法如下:
其中,Dmin为当前车辆i与距离最近的障碍物之间的距离,Γd为设定的最大碰撞距离阈值,kpre为当前第k步之前已经计算的总历史步数,ζ为设定的步数权重。由此可见,障碍物碰撞代价Costdis整体描述为主车距离障碍物的碰撞距离约束,距离越近,代价越高。
S5:根据优势函数估计值和优势函数估计值/>构建混合优势函数/>
其中,λ为设定权重;
S6:根据混合优势函数构建当前车辆i的动作网络的损失函数LCLIP:
其中,rti表示当前车辆i在当前第k步所采用的动作对应的概率和第k-1步所采用的动作对应的概率的比值,∈为设定的更新变化量,clip()表示裁剪函数,min()表示取最小值;需要说明的是,裁剪函数的存在可以限制当前第k步所采用的动作的变化范围,保证动作更新的稳定性。
S7:基于动作网络、评价网络以及约束价值网络的损失函数对改进型MAPPO网络进行更新,然后基于更新后的改进型MAPPO网络重复步骤S1~S7,直到各损失函数均收敛或达到设定的重复次数,得到当前车辆i在当前第k步的最终动作。
需要说明的是,基于损失函数对改进型MAPPO网络进行更新时,可以使用梯度下降或其他优化方法来求解。
如图8所示,为本发明轨迹规划效果图;由此可见,本发明首先提供一种基于强化学习的多车车位分配子系统,该子系统依托于智能停车场,车辆进去停车场环境后接入子系统,支持多车同时分配对应的停车位,从而避免车辆在进入后寻找车位的时间,提升泊车效率和安全性。其次,本发明提供一种基于强化学习的多车车位分配子系统,将任务分配的需求体现在reward设计中,同时设计最短路径奖励以及周围车位占据影响奖励。同时考虑车辆泊车轨迹长度和泊车后周围环境阻塞的影响情况。最后,本发明在建立上述车位分配子系统后,提供一种基于冲突约束的多智能体轨迹规划子系统,该子系统基于多车多目标同时规划多车无碰撞轨迹。在原有MAPPO网络设计中,增加碰撞约束价值网络,以此提升轨迹安全约束,轨迹碰撞场景,在符合动力学约束的前提下,既保证了决策的智能性,又确保了驾驶的安全性。综合考量在泊车场景中车辆观测受限的情况,将泊车轨迹规划建模为部分可观察马尔可夫决策过程,利用全局观测评估各车辆轨迹动作价值,优化轨迹动作。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (6)
1.一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,其特征在于,包括由智能停车场运行的车位分配子系统和由车辆运行的轨迹规划子系统;
所述车位分配子系统采用基于强化学习的PPO网络为进入智能停车场的各车辆同时分配停车位,其中,在分配停车位时,优先选取车辆泊车轨迹长度越短、泊车后周围车位的占据越少的停车位;
各车辆的轨迹规划子系统接收车位分配子系统给出的停车位信息后,采用改进型MAPPO网络获取自身从当前位置到指定停车位的最优路径,其中,最优路径由车辆执行两步以上的动作来实现,在选取当前步的动作时,优先选取使得车辆当前位置与指定停车位之间的距离越小、车辆当前位置与预先规划的参考路径之间的偏差越小、车辆当前位置与距离最近的障碍物之间的距离越大的动作。
2.如权利要求1所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,其特征在于,所述改进型MAPPO网络由动作网络、评价网络以及约束价值网络构成,且改进型MAPPO网络获取任意一个车辆的最优路径的任意一步动作的方法为:
S1:将环境信息作为当前车辆i的动作网络的观测输入,得到当前车辆i在当前第k步对应的动作,其中,环境信息包括当前车辆i的运动状态svi=[x,y,vx,vy,sinθ,cosθ],当前车辆i对应的指定停车位状态goali=[x,y,0,0,sinθ,cosθ],以及当前车辆i周围距离最近的6辆车的运动状态:surrve=[x,y,vx,vy,sinθ,cosθ],(e=0,1,2,3,4,5),[x,y]表示各车辆位于泊车环境坐标系下的坐标,[vx,vy]表示各车辆沿x,y轴方向的速度,[sinθ,cosθ]表示各车辆航向角的正弦值、余弦值;同时,动作包括当前车辆i的方向角度和加速度;
S2:获取当前车辆i在当前第k步的奖励Rik=Rgoal+Rref,其中,Rgoal表示当前车辆i的当前位置与指定停车位之间的距离,Rref表示当前车辆i的当前位置与预先规划的参考路径之间的偏差;
S3:将所有车辆在当前第k步的动作和奖励作为当前车辆i的评价网络的输入,得到当前车辆i的评价网络的优势函数估计值并基于优势函数估计值/>构建评价网络的损失函数Lvi:
其中,表示当前车辆i的评价网络采用贝尔曼方程对所有车辆在当前第k步的奖励进行计算得到的长期奖励,/>表示当前车辆i的评价网络对所有车辆在当前第k步的动作作出的动作价值函数估计值,/>表示期望;
S4:将所有车辆在当前第k步的动作和当前车辆i的障碍物碰撞代价作为当前车辆i的约束价值网络的输入,得到当前车辆i的约束价值网络的优势函数估计值并基于优势函数估计值/>构建约束价值网络的损失函数Lvci:
其中,表示根据当前车辆i的障碍物碰撞代价得到的约束代价估计值;
S5:根据优势函数估计值和优势函数估计值/>构建混合优势函数/>
其中,λ为设定权重;
S6:根据混合优势函数构建当前车辆i的动作网络的损失函数LCLIP:
其中,rti表示当前车辆i在当前第k步所采用的动作对应的概率和第k-1步所采用的动作对应的概率的比值,∈为设定的更新变化量,clip()表示裁剪函数,min()表示取最小值;
S7:基于动作网络、评价网络以及约束价值网络的损失函数对改进型MAPPO网络进行更新,然后基于更新后的改进型MAPPO网络重复步骤S1~S7,直到各损失函数均收敛或达到设定的重复次数,得到当前车辆i在当前第k步的最终动作。
3.如权利要求2所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,其特征在于,当前车辆i的障碍物碰撞代价Costdis的计算方法为:
其中,Dmin为当前车辆i与距离最近的障碍物之间的距离,Γd为设定的最大碰撞距离阈值,kpre为当前第k步之前已经计算的总历史步数,ζ为设定的步数权重。
4.如权利要求2所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,其特征在于,当前车辆i与指定停车位之间的距离Rgoal的计算方法为:
Rgoal=1-||svi-goali||/dmax
其中,dmax表示设定的最大距离;
当前车辆i与预先规划的参考路径之间的偏差Rref的计算方法为:
Rref=1-Dvi(svi,Pathi)/Dmax
其中,Dvi()表示当前车辆i的当前位置偏离预先规划的参考路径的距离,Dmax为设定的最大偏离距离,Pathi为基于已知地图,采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径。
5.如权利要求1~4任一权利要求所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,其特征在于,所述PPO网络的训练方法为:
A0:初始化待分配车辆序列,Listv={0,1,2,…,i-1,i,i+1,…,m},m表示待分配停车位的车辆数;
A1:将停车场环境信息作为PPO网络的观测输入,得到为各车辆分配的停车位编号pi;
A2:针对当前待分配的车辆i和车辆i对应的停车位pi,计算奖励值Ri,其中,如果所分配的停车位pi已经被占据,则奖励值Ri=-1,否则奖励值计算如下:
Ri=Rpath-i+Rglobal-i
其中,Rpath-i为车辆i的路径奖励,Rglobal-i为车辆i的全局奖励,且路径奖励Rpath-i的计算方法为:
Rpath-i=-Pathi/MaxPath
其中,Pathi为基于已知地图,采用A*算法搜索得到的由当前车辆i的当前位置到达指定停车位的无障碍物路径,MaxPath表示已知地图中的最长路径预设值;
全局奖励Rglobal-i的计算方法为:
其中,Pl表示车辆i对应的停车位pi周围的五个停车位,l=0,…,4,wi_l表示车辆i对应的停车位pi周围的五个停车位的占据权值,如果Pl被占据,则Pl=0,否则Pl=1;
A3:令i=i+1,重复执行步骤A2,直到获取全部车辆的奖励值;
A4:根据各车辆对应的奖励值Ri的总和∑Ri构建均方差损失函数,再根据均方差损失函数更新PPO网络;
A5:采用更新后的PPO网络重新执行步骤A1~A5,直到达到设定的重复次数,得到最终的用于停车位分配的PPO网络。
6.如权利要求5所述的一种基于多智能体强化学习的泊车任务分配与轨迹规划系统,其特征在于,作为PPO网络观测输入的停车场环境信息包括车辆运动状态信息和车位占据状态信息,其中,车辆运动状态信息包括各车辆位于泊车环境坐标系下的坐标[x,y],各车辆沿x,y轴方向的速度[vx,vy],各车辆的航向角正弦值、余弦值[sinθ,cosθ],且车位占据状态信息表示如下:
[P0,P1,…,Pn,…,PN]
其中,N为停车位总数,若车位Pn被占据,则Pn=1,否则Pn=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310523373.6A CN116620264A (zh) | 2023-05-10 | 2023-05-10 | 基于多智能体强化学习的泊车任务分配与轨迹规划系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310523373.6A CN116620264A (zh) | 2023-05-10 | 2023-05-10 | 基于多智能体强化学习的泊车任务分配与轨迹规划系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116620264A true CN116620264A (zh) | 2023-08-22 |
Family
ID=87620500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310523373.6A Pending CN116620264A (zh) | 2023-05-10 | 2023-05-10 | 基于多智能体强化学习的泊车任务分配与轨迹规划系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116620264A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117416342A (zh) * | 2023-12-18 | 2024-01-19 | 上海伯镭智能科技有限公司 | 一种无人驾驶车辆的智能泊车方法 |
CN117572876A (zh) * | 2024-01-15 | 2024-02-20 | 湖南大学 | 一种基于依赖关系的多智能体避碰控制方法 |
CN117933096A (zh) * | 2024-03-21 | 2024-04-26 | 山东省科学院自动化研究所 | 一种无人驾驶对抗测试场景生成方法及系统 |
-
2023
- 2023-05-10 CN CN202310523373.6A patent/CN116620264A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117416342A (zh) * | 2023-12-18 | 2024-01-19 | 上海伯镭智能科技有限公司 | 一种无人驾驶车辆的智能泊车方法 |
CN117416342B (zh) * | 2023-12-18 | 2024-03-08 | 上海伯镭智能科技有限公司 | 一种无人驾驶车辆的智能泊车方法 |
CN117572876A (zh) * | 2024-01-15 | 2024-02-20 | 湖南大学 | 一种基于依赖关系的多智能体避碰控制方法 |
CN117572876B (zh) * | 2024-01-15 | 2024-04-12 | 湖南大学 | 一种基于依赖关系的多智能体避碰控制方法 |
CN117933096A (zh) * | 2024-03-21 | 2024-04-26 | 山东省科学院自动化研究所 | 一种无人驾驶对抗测试场景生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116620264A (zh) | 基于多智能体强化学习的泊车任务分配与轨迹规划系统 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN110745136B (zh) | 一种驾驶自适应控制方法 | |
CN111474926B (zh) | 一种基于多agv时间窗路径优化算法的废烟回收方法 | |
CN112162555B (zh) | 混合车队中基于强化学习控制策略的车辆控制方法 | |
CN109791409B (zh) | 自主车辆的运动控制决策 | |
CN111267830B (zh) | 一种混合动力公交车能量管理方法、设备和存储介质 | |
CN113255998B (zh) | 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 | |
CN112833903B (zh) | 一种轨迹预测方法、装置、设备和计算机可读存储介质 | |
CN114919578B (zh) | 智能车行为决策方法、规划方法、系统及存储介质 | |
CN113720346B (zh) | 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统 | |
CN111645673B (zh) | 一种基于深度强化学习的自动泊车方法 | |
CN113532443B (zh) | 路径规划方法、装置、电子设备及介质 | |
CN112967516B (zh) | 快速停车场端关键参数与整车匹配全局动态路径规划方法 | |
CN112068515A (zh) | 一种基于深度强化学习的全自动停车场调度方法 | |
CN117636661B (zh) | 一种无信号交叉口完全自主交通流通行控制方法 | |
CN114879687A (zh) | 一种用于无人物流车的智能控制方法 | |
CN117252318A (zh) | 一种智能网联汽车群机协同拼车调度方法及系统 | |
CN114644018A (zh) | 一种基于博弈论的自动驾驶车辆人车交互决策规划方法 | |
CN116659501A (zh) | 数据处理方法、装置和车辆 | |
CN113140108B (zh) | 一种网联智能交通系统中的云端交通态势预测方法 | |
CN116822362B (zh) | 一种基于粒子群算法的无人机无冲突四维航迹规划方法 | |
CN115840454B (zh) | 非结构化道路冲突区域的多车轨迹协同规划方法及装置 | |
Li et al. | Reinforcement learning based lane change decision-making with imaginary sampling | |
CN115909778B (zh) | 一种无信号交叉口自动驾驶汽车通行协同决策控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |