CN113255998A - 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 - Google Patents

基于多智能体强化学习的高速道路无人驾驶车辆编队方法 Download PDF

Info

Publication number
CN113255998A
CN113255998A CN202110568447.9A CN202110568447A CN113255998A CN 113255998 A CN113255998 A CN 113255998A CN 202110568447 A CN202110568447 A CN 202110568447A CN 113255998 A CN113255998 A CN 113255998A
Authority
CN
China
Prior art keywords
vehicle
unmanned
unmanned vehicle
action
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110568447.9A
Other languages
English (en)
Other versions
CN113255998B (zh
Inventor
王美玲
陈思园
宋文杰
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110568447.9A priority Critical patent/CN113255998B/zh
Publication of CN113255998A publication Critical patent/CN113255998A/zh
Application granted granted Critical
Publication of CN113255998B publication Critical patent/CN113255998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,把车辆编队问题看作是一个多智能体协作问题,每辆车都有独立决策的能力,能够实现安全快速行驶的前提下灵活编队,即在车流量大时安全避障,不必保持队形,在车流量小时恢复队形;从图像输入直接映射到车辆控制量的端到端方式由于动作搜索空间大从而训练难度大,因此本发明仅使用多智能体强化学习方法习得换道策略,再结合S‑T图轨迹优化方法,计算出精确控制量,增加了控制约束,尊崇运动学原理,有安全保障,符合人类驾驶习惯。

Description

基于多智能体强化学习的高速道路无人驾驶车辆编队方法
技术领域
本发明属于智能车辆技术领域,尤其涉及一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法。
背景技术
自动驾驶汽车(Autonomous Vehicle)已有数十年的研究历史,能够代替人类完成高密度长周期、大流量等复杂场景下的繁琐作业,具备较高的社会经济价值。高速道路具备拓扑结构清晰、交通规则已知、限制条件明确、相对封闭等特点,是自动驾驶落地的典型场景。其中,智能物流车辆的编队是一个值得研究的重点难题,这对降低油耗、提升车队运行效率、减少交通拥堵等方面有重要作用。然而对于高速结构化道路上的编队任务仍然存在着诸多问题。首先,高速道路动态车辆运动状态复杂,车辆编队协同难度大;其次,车辆感知受限,编队系统稳定性差;第三,固定的编队模式使系统灵活度不够,对周围车辆影响较大。
基于传统控制的编队方法需要进行复杂的控制器设计,系统级的控制方式对单个车辆的稳定性要求高,如果编队行驶过程中有车辆发生故障则需手动更改控制程序,面对复杂多变的高速道路场景,固定的控制模式也会损失系统灵活性和对环境变化的适应性。强化学习是机器学习随着人工智能与机器学习的发展,强化学习也逐渐被应用于自动驾驶任务中,但通常是针对单车智能,没有充分挖掘强化学习在多智能体领域的优势。强化学习不依赖于提前标注的数据集,因此拥有较强的泛化能力,可以更有效地解决环境中存在的特殊情况。多智能体强化学习近年来也取得了长足进步,在虚拟游戏以及多机器人协作领域持续深入发展。
发明内容
为解决上述问题,本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,结合多智能体强化学习Q-MIX网络和传统优化方法,使每辆车都有独立决策的能力,能够实现安全快速行驶的前提下灵活编队。
一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,获取环境信息作为观测输入训练好的Q-MIX网络中,得到各无人车的动作决策,实现编队,其中,Q-MIX网络的训练方法包括以下步骤:
S1:初始化训练环境;
S2:将训练环境的环境信息作为观测输入Q-MIX网络,得到各无人车的动作决策;
S3:根据各无人车的动作决策进行航迹规划,使得各无人车执行所述动作决策中的指定动作,并得到各无人车执行指定动作后对应的奖励值Ri,其中, i=1,2,...,N,N为无人车的数量,奖励值Ri的计算方法为:判断任意两个无人车之间的距离是否大于设定阈值或者发生碰撞,若为是,则各无人车对应的奖励值 Ri=-1,并重新执行步骤S1~S3;若为否,则各无人车对应的奖励值 Ri=Rvelo-i+Rlnchan-i+Rcor-i,并进入步骤S4,其中:
Figure RE-GDA0003156592840000021
Figure RE-GDA0003156592840000022
Figure RE-GDA0003156592840000031
其中,Rvelo-i为加速因子,Rlnchan-i为平稳行驶因子,Rcor-i为协同因子,vi为第i 个无人车的速度,
Figure RE-GDA0003156592840000032
为所有无人车的平均速度,vmax为所有无人车中的最大速度,α、β、γ均为设定比例系数,si,i+1和di,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人车的横向位移和纵向位移,si-1,i和di-1,i分别为当前编队中排在第i个无人车前面的无人车相对于第i个无人车的横向位移和纵向位移;
S4:根据各无人车对应的奖励值Ri的和值∑Ri构建均方差损失函数,再根据均方差损失函数更新Q-MIX网络;
S5:采用更新后的Q-MIX网络重新执行步骤S1~S3,直到达到设定的重复次数,得到最终的Q-MIX网络。
进一步地,所述由环境信息作为的观测包括局部观测和全局观测,其中,所述局部观测的获取方式为:
分别将各无人车作为主车执行以下步骤,得到各无人车对应的局部观测:
在Frenet坐标系下,获取主车的位置信息;
将主车设定范围内的区域作为局部地图,并对局部地图进行栅格化;
获取当前时刻主车的局部地图内其他无人车相对于主车的距离和速度;
根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的局部地图中的位置;
根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的局部地图中的位置,获取局部地图各栅格的占据概率,并将局部地图各栅格的占据概率作为主车对应的局部观测;
所述全局观测的获取方式为:
将处于编队中心的任意一个无人车作为主车;
在Frenet坐标系下,获取主车的位置信息;
将主车设定范围内的区域作为全局地图,并对全局地图进行栅格化;其中,全局地图的范围大于局部地图的范围;
获取当前时刻主车的全局地图内其他无人车相对于主车的距离和速度;
根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的全局地图中的位置;
根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的全局地图中的位置,获取全局地图各栅格的占据概率,并将全局地图各栅格的占据概率作为主车对应的全局观测。
进一步地,当栅格被主车占据时,该栅格对应的占据概率为0.8,当栅格被其他无人车占据时,该栅格对应的占据概率为主车与该栅格上的无人车之间的安全碰撞时间,当栅格未被占据时,该栅格对应的占据概率为1。
进一步地,所述Q-MIX网络由Q网络和MIX网络级联而成,同时,各无人车的动作决策的获取方式具体为:
将各无人车对应的局部观测作为Q网络的输入,得到各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值;
将全局观测和各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值作为MIX网络的输入,得到各无人车在当前全局观测下的对应的最优联合动作价值,并将该最优联合动作价值对应的各无人车的联合动作组合作为所述动作决策。
进一步地,局部地图的范围是主车的前60m、后20m以及左右4m所围成的区域,全局地图的范围是主车的前50m、后50m以及左右4m所围成的区域。
进一步地,所述根据各无人车的动作决策进行航迹规划,使得各无人车执行所述动作决策中的指定动作具体为:
通过S-T图优化方法求解各无人车的纵向加速度;
采用比例控制器模型获取各无人车的航向;
通过控制无人车的纵向加速度和航向的使得无人车执行指定动作。
有益效果:
1、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,把车辆编队问题看作是一个多智能体协作问题,每辆车都有独立决策的能力,能够实现安全快速行驶的前提下灵活编队,即在车流量大时安全避障,不必保持队形,在车流量小时恢复队形;从图像输入直接映射到车辆控制量的端到端方式由于动作搜索空间大从而训练难度大,因此本发明仅使用多智能体强化学习方法习得换道策略,再结合S-T图轨迹优化方法,计算出精确控制量,增加了控制约束,尊崇运动学原理,有安全保障,符合人类驾驶习惯。
2、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,将编队需求体现在奖励值reward中,即将奖励值分为评价车辆是否快速平稳行驶的部分和促进车辆协同编队行驶的部分,相比传统方法对于编队车辆相对位置的硬约束,强化学习方法所得到的策略对于车辆相对位置是软约束,能够更加灵活地行驶,增强了编队系统的稳定性与容错性。
3、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,通过利用多智能体强化学习Q-MIX网络和传统优化方法相结合,对高速道路智能编队车辆决策控制方法进行研究,在符合动力学约束的前提下,既保证了决策的智能性,又确保了驾驶的安全性。
4、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,综合考量在高速行驶中的车辆观测受限的情况,将编队问题建模为部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,缩写: POMDP),符合实际情况。
附图说明
图1为本发明编队方法的流程图;
图2为本发明Q-MIX网络输入的车体坐标系局部观测图;
图3为本发明多智能体强化学习决策与控制方法示意图;
图4为本发明的方案框图;
图5为本发明实验环境示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一
如图1所示,本发明涉及一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,获取环境信息作为观测输入训练好的Q-MIX网络中,得到各无人车的动作决策,实现编队,其中,Q-MIX网络的训练方法包括以下步骤:
S1:初始化训练环境。
S2:将训练环境的环境信息作为观测输入Q-MIX网络,得到各无人车的动作决策,也即得到面对当前场景每辆无人车采取的决策策略,其中分为:向左换道、车道保持、向右换道。
进一步地,所述由环境信息作为的观测包括局部观测和全局观测,其中,所述局部观测的获取方式为:
分别将各无人车作为主车执行以下步骤,得到各无人车对应的局部观测:
在Frenet坐标系下,获取主车的位置信息;将主车设定范围内的区域作为局部地图,例如将主车的前60m、后20m以及左右4m所围成的区域作为局部地图,并对局部地图进行栅格化,且如图2所示,栅格地图的分辨率为(1m, 4m),其中横向的分辨率恰好是一个车道的宽度;获取当前时刻主车的局部地图内其他无人车相对于主车的距离和速度;根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的局部地图中的位置;根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的局部地图中的位置,获取局部地图各栅格的占据概率,并将局部地图各栅格的占据概率作为主车对应的局部观测。
需要说明的是,本发明要在Frenet坐标系下获取各无人车的位置信息,首先要根据全局路径给出的参考线和高精度地图,将高速车道所在的笛卡尔坐标系转化为Frenet坐标系,具体为:使用变量s和d描述车辆在道路上的位置。该s坐标表示沿道路的纵向位移。d坐标表示道路上的横向位移。
也就是说,在所建立的Frenet坐标系下,对于执行编队任务中每一辆车,选取前、后方一定距离作为构建局部观测的纵向距离范围,横向观测范围为当前车道与左右相邻车道,将本车位置(sfego,dfego),局部地图范围内其他编队车辆 (sfi,dfi)(i=1,2,...,N,i≠ego)及环境车辆的位置信息(sej,dej)(j=1,2,...n,用占据栅格显示。
所述全局观测的获取方式为:
将处于编队中心的任意一个无人车作为主车;在Frenet坐标系下,获取主车的位置信息;将主车设定范围内的区域作为全局地图,并对全局地图进行栅格化;其中,全局地图的范围大于局部地图的范围,例如将主车的前50m、后 50m以及左右4m所围成的区域作为全局地图;获取当前时刻主车的全局地图内其他无人车相对于主车的距离和速度;根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的全局地图中的位置;根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的全局地图中的位置,获取全局地图各栅格的占据概率,并将全局地图各栅格的占据概率作为主车对应的全局观测。
需要说明的是,当栅格被主车占据时,该栅格对应的占据概率为0.8,当栅格被其他无人车占据时,该栅格对应的占据概率为主车与该栅格上的无人车之间的安全碰撞时间ttc(time to collision),当栅格未被占据时,该栅格对应的占据概率为1。同时,主车可以通过本身自带的组合导航及视觉导航系统感知其周围的其他无人车辆。此外,由于各局部地图是以主车前60m、后20m以及左右 4m所围成的区域构建的,因此主车在局部地图中的位置是不变的。
进一步地,所述Q-MIX网络由Q网络和MIX网络级联而成,其中,Q网络可以采用DRQN网络;同时,各无人车的动作决策的获取方式具体为:将各无人车对应的局部观测作为Q网络的输入,得到各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值;将全局观测和各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值作为MIX网络的输入,得到各无人车在当前全局观测下的对应的最优联合动作价值,并将该最优联合动作价值对应的各无人车的联合动作组合作为所述动作决策。
S3:根据各无人车的动作决策进行航迹规划,使得各无人车执行所述动作决策中的指定动作,并得到各无人车执行指定动作后对应的奖励值Ri,其中, i=1,2,...,N,N为无人车的数量,奖励值Ri的计算方法为:判断任意两个无人车之间的距离是否大于设定阈值或者发生碰撞,若为是,则各无人车对应的奖励值 Ri=-1,并重新执行步骤S1~S3;若为否,则各无人车对应的奖励值 Ri=Rvelo-i+Rlnchan-i+Rcor-i,并进入步骤S4,其中:
Figure RE-GDA0003156592840000091
Figure RE-GDA0003156592840000092
Figure RE-GDA0003156592840000093
其中,Rvelo-i为加速因子,Rlnchan-i为平稳行驶因子,Rcor-i为协同因子,vi为第i 个无人车的速度,
Figure RE-GDA0003156592840000094
为所有无人车的平均速度,vmax为所有无人车中的最大速度,α、β、γ均为设定比例系数,si,i+1和di,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人车的横向位移和纵向位移,si-1,i和di-1,i分别为当前编队中排在第i个无人车前面的无人车相对于第i个无人车的横向位移和纵向位移。
需要说明的是,让各无人车执行所述动作决策中的指定动作的具体方法为:
通过S-T图优化方法求解各无人车的纵向加速度;采用比例控制器模型获取各无人车的航向;通过控制无人车的纵向加速度和航向的使得无人车执行指定动作。
也就是说,对于纵向控制,利用S-T图优化方法求解加速度,设定约束条件,优化目标为累积加加速度最小:
Figure RE-GDA0003156592840000101
其中μ∈{S,T}表示曲线分为S、T两个维度,S表示位移,T表示采样时间, f(t)表示曲线拟合模型。
对于横向控制,采用比例控制器模型,将计算出的横向速度转换为航向参考。
S4:根据各无人车对应的奖励值Ri的和值∑Ri构建均方差损失函数,再根据均方差损失函数更新Q-MIX网络。
S5:采用更新后的Q-MIX网络重新执行步骤S1~S3,直到达到设定的重复次数,得到最终的Q-MIX网络。
也就是说,本发明将所有编队的无人车辆对应的局部观测合起来作为Q网络的输入,得到各编队无人车辆在当前局部观测下的可能产生的各个动作(如左换道、右换道、直行)对应的估计动作价值(即执行某个动作的概率),将全局观测和计算出来的估计动作价值作为MIX网络的输入,得到各编队无人车辆在当前全局观测下的产生的联合动作对应的联合动作价值。然后各编队无人车辆安装所述最优联合动作组合规定的动作进行动作,执行动作后,重新获取各编队无人车辆的局部观测和全局观测,重复上述过程,又完成一次迭代,直到达到设定的迭代上限次数,得到最终的Q-MIX网络。
进一步地,假设Q-MIX网络的网络参数为θ,其代表网络的权值和偏置,则最终损失函数定义为均方误差损失函数:
Figure RE-GDA0003156592840000111
其中,Qtot是联合动作价值,
Figure RE-GDA0003156592840000112
是总和∑Ri代入贝尔曼公式后算出来的值, m为计算均方误差损失函数时所采用的数据片段长度。
计算损失函数的梯度,根据梯度下降法优化Q-MIX网络的参数(网络的权重和偏置),其中,更新Q-MIX网络参数的方式沿用DQN思想,定义两个相同结构的网络Target-Q和Q(s,a):
Figure RE-GDA0003156592840000113
其中,
Figure RE-GDA0003156592840000114
表示Target-Q目标网络。
由此可见,如图3所示,本发明把车辆编队问题看作是一个多智能体协作问题,每辆车都有独立决策的能力,能够实现安全快速行驶的前提下灵活编队,即在车流量大时安全避障,不必保持队形,在车流量小时恢复队形。从图像输入直接映射到车辆控制量的端到端方式由于动作搜索空间大从而训练难度大,因此本发明仅使用多智能体强化学习方法习得换道策略,再结合S-T图轨迹优化方法,计算出精确控制量。该方法增加了控制约束,尊崇运动学原理,有安全保障,符合人类驾驶习惯。
实施例二
本实施案例提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队决策方法,方法框架如图4所示。该方法将决策控制分为两部分,第一部分将环境信息作为观测输入到QMIX网络,输出每辆编队车辆当前的决策(向左换道、车道保持、向右换道),第二部分为根据决策信息,进行轨迹规划,并计算出控制量(加速度、方向)。车辆执行该动作得到的奖励即为QMIX的奖励值。经过训练,即可得到在高速场景的智能车辆编队决策模型。也就是说,本发明是在车联网的基础上,通过强化学习训练出一套高速道路智能车辆编队的决策和控制策略。本发明采用高速模拟环境作为仿真环境。
步骤S1、如图5所示,本案例中,智能车辆的驾驶环境为同方向的四车道环境,并且可获得智能车辆周围车辆的运动信息。局部观测选取主车前方60m 后方20m作为限制范围,并在地图中划分为3车道。全局观测选取中间车辆前方50m与后方50m作为限制,并完整保留4车道。
步骤S2、分别将每辆车的局部观测作为输入,输入到DRQN网络中。建立两个结构相同参数不同的网络,即“当前值网络”和“目标值网络”。“当前值网络”参数进行实时更新,“目标值网络”参数在每隔N步进行“当前值网络”参数的拷贝。
设置“记忆回放单元”,随机抽取其中的经历进行训练,这种做法打断了训练样本之间的相关性,符合神经网络样本数据的分布假设。
步骤S3、得到每辆车的决策信息后,横向控制利用比例控制器,计算出角加速度,纵向控制假设优化的位移-时间模型为一个三阶贝塞尔曲线,在S-T图中优化四个控制点:
Figure RE-GDA0003156592840000121
Figure RE-GDA0003156592840000122
二次优化的目标函数为:最小化加加速度平方的积分,以确保轨迹的平稳:
Figure RE-GDA0003156592840000131
设计约束条件如下:
等式约束,包括初始时刻的位置、速度约束,终止时刻的位置约束。在S 维度上对初始时刻的位置和速度约束,终止时刻的位置进行约束,在T维度上,对位置和速度进行约束:
PS0=s0;PS3=s3
PT0=0;PT3=1
n·(PSi-PSi-1)=v0,i=1,n=3
n·(PTi-PTi-1)=1,i=[1,2,3],n=3
其中下标0表示起点,3表示终点。
不等式约束,包括控制点的位置约束、速度约束和加速度约束。不等式约束是优化器求解的核心,可以在保证安全的前提下求出最平滑的轨线。
Straj1(PTi)-PSi>ssafe
PSi-Straj2(PTi)>ssafe
Figure RE-GDA0003156592840000132
Figure RE-GDA0003156592840000133
其中ssafe表示前后车安全距离阈值,Straj1(t)、Straj2(t)表示前后车轨迹,
Figure RE-GDA0003156592840000134
分别表示最大减、加速度,
Figure RE-GDA0003156592840000135
表示最大速度。
步骤S4、执行上述控制量,设计reward函数,计算奖励值,用于网络的训练。
在本案例中定义长时间车间距大于50则为编队失败,发生碰撞或编队失败:
R=-1
否则,对于每一辆车reward函数设计分为两部分,首先是评价车辆是否快速平稳行驶的部分:
Rvelo=rvelo(vi-20)i=[1,2]
Figure RE-GDA0003156592840000141
Figure RE-GDA0003156592840000142
其次是促进车辆协同编队行驶的部分:
Figure RE-GDA0003156592840000143
其中α、β、γ为设定参数,可根据任务需求自行调节,最终 R=Rvelo+Rlnchan+Rcor
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,其特征在于,获取环境信息作为观测输入训练好的Q-MIX网络中,得到各无人车的动作决策,实现编队,其中,Q-MIX网络的训练方法包括以下步骤:
S1:初始化训练环境;
S2:将训练环境的环境信息作为观测输入Q-MIX网络,得到各无人车的动作决策;
S3:根据各无人车的动作决策进行航迹规划,使得各无人车执行所述动作决策中的指定动作,并得到各无人车执行指定动作后对应的奖励值Ri,其中,i=1,2,...,N,N为无人车的数量,奖励值Ri的计算方法为:判断任意两个无人车之间的距离是否大于设定阈值或者发生碰撞,若为是,则各无人车对应的奖励值Ri=-1,并重新执行步骤S1~S3;若为否,则各无人车对应的奖励值Ri=Rvelo-i+Rlnchan-i+Rcor-i,并进入步骤S4,其中:
Figure FDA0003081681340000011
Figure FDA0003081681340000012
Figure FDA0003081681340000013
其中,Rvelo-i为加速因子,Rlnchan-i为平稳行驶因子,Rcor-i为协同因子,vi为第i个无人车的速度,v为所有无人车的平均速度,vmax为所有无人车中的最大速度,α、β、γ均为设定比例系数,si,i+1和di,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人车的横向位移和纵向位移,si-1,i和di-1,i分别为当前编队中排在第i个无人车前面的无人车相对于第i个无人车的横向位移和纵向位移;
S4:根据各无人车对应的奖励值Ri的和值∑Ri构建均方差损失函数,再根据均方差损失函数更新Q-MIX网络;
S5:采用更新后的Q-MIX网络重新执行步骤S1~S3,直到达到设定的重复次数,得到最终的Q-MIX网络。
2.如权利要求1所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,其特征在于,所述由环境信息作为的观测包括局部观测和全局观测,其中,所述局部观测的获取方式为:
分别将各无人车作为主车执行以下步骤,得到各无人车对应的局部观测:
在Frenet坐标系下,获取主车的位置信息;
将主车设定范围内的区域作为局部地图,并对局部地图进行栅格化;
获取当前时刻主车的局部地图内其他无人车相对于主车的距离和速度;
根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的局部地图中的位置;
根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的局部地图中的位置,获取局部地图各栅格的占据概率,并将局部地图各栅格的占据概率作为主车对应的局部观测;
所述全局观测的获取方式为:
将处于编队中心的任意一个无人车作为主车;
在Frenet坐标系下,获取主车的位置信息;
将主车设定范围内的区域作为全局地图,并对全局地图进行栅格化;其中,全局地图的范围大于局部地图的范围;
获取当前时刻主车的全局地图内其他无人车相对于主车的距离和速度;
根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的全局地图中的位置;
根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的全局地图中的位置,获取全局地图各栅格的占据概率,并将全局地图各栅格的占据概率作为主车对应的全局观测。
3.如权利要求2所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,其特征在于,当栅格被主车占据时,该栅格对应的占据概率为0.8,当栅格被其他无人车占据时,该栅格对应的占据概率为主车与该栅格上的无人车之间的安全碰撞时间,当栅格未被占据时,该栅格对应的占据概率为1。
4.如权利要求2所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,其特征在于,所述Q-MIX网络由Q网络和MIX网络级联而成,同时,各无人车的动作决策的获取方式具体为:
将各无人车对应的局部观测作为Q网络的输入,得到各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值;
将全局观测和各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值作为MIX网络的输入,得到各无人车在当前全局观测下的对应的最优联合动作价值,并将该最优联合动作价值对应的各无人车的联合动作组合作为所述动作决策。
5.如权利要求1-4任一权利要求所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,其特征在于,局部地图的范围是主车的前60m、后20m以及左右4m所围成的区域,全局地图的范围是主车的前50m、后50m以及左右4m所围成的区域。
6.如权利要求1-4任一权利要求所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法,其特征在于,所述根据各无人车的动作决策进行航迹规划,使得各无人车执行所述动作决策中的指定动作具体为:
通过S-T图优化方法求解各无人车的纵向加速度;
采用比例控制器模型获取各无人车的航向;
通过控制无人车的纵向加速度和航向的使得无人车执行指定动作。
CN202110568447.9A 2021-05-25 2021-05-25 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 Active CN113255998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110568447.9A CN113255998B (zh) 2021-05-25 2021-05-25 基于多智能体强化学习的高速道路无人驾驶车辆编队方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110568447.9A CN113255998B (zh) 2021-05-25 2021-05-25 基于多智能体强化学习的高速道路无人驾驶车辆编队方法

Publications (2)

Publication Number Publication Date
CN113255998A true CN113255998A (zh) 2021-08-13
CN113255998B CN113255998B (zh) 2022-06-03

Family

ID=77184282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110568447.9A Active CN113255998B (zh) 2021-05-25 2021-05-25 基于多智能体强化学习的高速道路无人驾驶车辆编队方法

Country Status (1)

Country Link
CN (1) CN113255998B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237242A (zh) * 2021-12-14 2022-03-25 北京云迹科技股份有限公司 基于光学编码器对机器人进行控制的方法及装置
CN116820138A (zh) * 2023-08-28 2023-09-29 中国人民解放军军事科学院系统工程研究院 一种基于编队行驶的控制器智能决策方法及系统
CN116841208A (zh) * 2023-08-30 2023-10-03 白杨时代(北京)科技有限公司 一种无人水下航行器编队控制模拟方法、系统和设备
CN116902006A (zh) * 2023-08-29 2023-10-20 酷哇科技有限公司 基于策略约束通信的强化学习多车协同系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112348201A (zh) * 2020-11-11 2021-02-09 扬州大学 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法
US20210116935A1 (en) * 2019-10-17 2021-04-22 Mitsubishi Electric Research Laboratories, Inc. Direct and Indirect Control of Mixed-Automata Vehicle Platoon

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
US20210116935A1 (en) * 2019-10-17 2021-04-22 Mitsubishi Electric Research Laboratories, Inc. Direct and Indirect Control of Mixed-Automata Vehicle Platoon
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112348201A (zh) * 2020-11-11 2021-02-09 扬州大学 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹雷 等: "多智能体深度强化学习研究综述", 《计算机工程与应用》 *
王树凤等: "基于人工势场和虚拟领航者的智能车辆编队控制", 《上海交通大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237242A (zh) * 2021-12-14 2022-03-25 北京云迹科技股份有限公司 基于光学编码器对机器人进行控制的方法及装置
CN114237242B (zh) * 2021-12-14 2024-02-23 北京云迹科技股份有限公司 基于光学编码器对机器人进行控制的方法及装置
CN116820138A (zh) * 2023-08-28 2023-09-29 中国人民解放军军事科学院系统工程研究院 一种基于编队行驶的控制器智能决策方法及系统
CN116820138B (zh) * 2023-08-28 2024-04-12 中国人民解放军军事科学院系统工程研究院 一种基于编队行驶的控制器智能决策方法及系统
CN116902006A (zh) * 2023-08-29 2023-10-20 酷哇科技有限公司 基于策略约束通信的强化学习多车协同系统及方法
CN116841208A (zh) * 2023-08-30 2023-10-03 白杨时代(北京)科技有限公司 一种无人水下航行器编队控制模拟方法、系统和设备

Also Published As

Publication number Publication date
CN113255998B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
US11726477B2 (en) Methods and systems for trajectory forecasting with recurrent neural networks using inertial behavioral rollout
Zhang et al. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning
JP7287707B2 (ja) 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
CN113291308B (zh) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法
CN112212872B (zh) 基于激光雷达和导航地图的端到端自动驾驶方法及系统
KR20210074366A (ko) 자율주행 차량 계획 및 예측
CN111338340A (zh) 基于模型预测的无人驾驶汽车局部路径规划方法
CN114407931A (zh) 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN111473794B (zh) 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN114013443A (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
Yu et al. Autonomous overtaking decision making of driverless bus based on deep Q-learning method
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
CN114228690A (zh) 一种基于ddpg和迭代控制的自动驾驶车辆侧倾控制方法
Ren et al. Self-learned intelligence for integrated decision and control of automated vehicles at signalized intersections
CN114442630A (zh) 一种基于强化学习和模型预测的智能车规划控制方法
CN114715193A (zh) 一种实时轨迹规划方法及系统
Siboo et al. An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving
CN113460091B (zh) 一种无保护十字路口无人车滚动优化决策方法
CN115140048A (zh) 一种自动驾驶行为决策与轨迹规划模型与方法
CN114779764A (zh) 基于行车风险分析的车辆强化学习运动规划方法
Yang et al. Deep Reinforcement Learning Lane-Changing Decision Algorithm for Intelligent Vehicles Combining LSTM Trajectory Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant