CN110969848A - 一种对向双车道下基于强化学习的自动驾驶超车决策方法 - Google Patents

一种对向双车道下基于强化学习的自动驾驶超车决策方法 Download PDF

Info

Publication number
CN110969848A
CN110969848A CN201911173951.8A CN201911173951A CN110969848A CN 110969848 A CN110969848 A CN 110969848A CN 201911173951 A CN201911173951 A CN 201911173951A CN 110969848 A CN110969848 A CN 110969848A
Authority
CN
China
Prior art keywords
decision
traffic state
vehicle
driving action
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911173951.8A
Other languages
English (en)
Other versions
CN110969848B (zh
Inventor
裴晓飞
莫烁杰
徐杰
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201911173951.8A priority Critical patent/CN110969848B/zh
Publication of CN110969848A publication Critical patent/CN110969848A/zh
Application granted granted Critical
Publication of CN110969848B publication Critical patent/CN110969848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/167Driving aids for lane monitoring, lane changing, e.g. blind spot detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法,包括以下步骤:通过传感器采集自动驾驶车辆的交通状态;将采集到的交通状态输入到经过训练的决策模型中;决策模型依据输入信息从其动作空间中选择相应的驾驶动作指令并输出,经本次驾驶动作后自动驾驶车辆形成新的交通状态;通过奖励函数计算本次驾驶动作的奖励值,并将原交通状态、驾驶动作、奖励值和新的交通状态作为转移样本存入经验回放池中;计算决策模型的损失函数值,并依据转移样本和损失函数值优化决策模型参数;重复以上步骤,直至自动驾驶结束。保证自动驾驶车辆超车决策过程的安全性和舒适性,通过强化学习决策方法,提高了决策的拟人性和鲁棒性。

Description

一种对向双车道下基于强化学习的自动驾驶超车决策方法
技术领域
本发明涉及自动驾驶技术领域,具体涉及一种对向双车道下基于强化学习的自动驾驶超车决策方法。
背景技术
自动驾驶车辆系统一般采取分层结构,由环境感知、决策规划、车辆控制三个模块组成。环境感知模块检测交通环境中的障碍物信息,同时生成环境地图,以确定可行驶区域。决策规划模块相当于车辆的大脑。决策模块负责分解产生自动驾驶车辆各种离散的驾驶任务,例如超车,巡航,避撞,加减速跟车等宏观的动作指令。一旦确定出当前的驾驶任务后,在其基础上规划连续的车辆行驶轨迹。底层的车辆控制输出方向盘转角、节气门开度和制动压力,以跟踪期望的路径和速度。
一种安全有效的决策方法可以大大提高自动驾驶车辆的安全性以及舒适性。目前自动驾驶车辆决策方法多采用基于规则的方法,其中最为典型的算法是有限状态机法。该类方法通过针对可能会出现的场景,建立一一对应的规则,逻辑清晰,结构简单明确,得到了广泛的应用。但是该方法同样存在着显而易见的局限性:无法应对不确定的场景。由于现实环境的高度复杂性以及不确定性,无法对所有可能出现的场景建立相对应的规则。而基于学习的方法,通过大量与不同环境的交互,可以学习到不同场景下最合适的驾驶策略,让智能体自己处理复杂情况。
强化学习是一种正在快速发展的具有巨大潜力的机器学习方法,能够很好地解决序贯决策问题,在众多领域中已有广泛的应用。强化学习方法是一种试错学习,通过一系列与环境的交互,根据奖励来调整动作策略,从而实现学习的目的。并且它不需要建立模型,这一点极大地简化了自动驾驶系统的设计。不需要模型也意味着该方法的适应性比较好。本发明拟将其用于对向双车道环境下的自动驾驶超车决策方法中。对向双车道环境常见于我国省道,乡村公路和西部山路,是我国一种典型的交通路况。特别是当前方为一辆慢速的大货车时,后方车辆往往倾向于超车,若不具备超车条件,常常会使后方积压形成一长串车队列。此外,换道超车行为需要对车辆横纵向进行综合决策,是一种较为复杂的驾驶行为。超车行为相对车道保持需要考虑更多因素,包括交通规则、道路信息等,加大了换道超车决策的难度。因此,该交通环境下的超车决策相比简单的高速公路环境更加复杂,基于传统的状态机方法会无法应对环境中的不确定因素,同时状态机会显得异常臃肿,状态之间也容易出现重叠,出现转移错误。
发明内容
本发明要解决的技术问题是,针对现有技术存在的上述缺陷,提供了一种对向双车道下基于强化学习的自动驾驶超车决策方法,保证自动驾驶车辆超车决策过程的安全性和舒适性,通过强化学习决策方法,提高了决策的拟人性和鲁棒性。
本发明为解决上述技术问题所采用的技术方案是:
一种对向双车道下基于强化学习的自动驾驶超车决策方法,包括以下步骤:
1)通过传感器实时采集自动驾驶车辆的交通状态s;
2)将采集到的交通状态s输入到经过训练的决策模型中;
3)决策模型依据输入信息从其动作空间中选择相应的驾驶动作a指令并输出,经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’;
4)通过奖励函数计算本次驾驶动作的奖励值r,并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s,a,r,s’)存入经验回放池中;
5)计算决策模型的损失函数值,并依据转移样本和损失函数值优化决策模型参数;
6)重复步骤1)~5),直至自动驾驶结束。
按照上述技术方案,所述的步骤2),训练决策模型的具体过程包括以下步骤:
S1对决策模型进行离线仿真训练;
S2利用离线训练好的决策模型进行实车推理决策。
按照上述技术方案,基于强化学习的决策方法分为两步:离线仿真训练,在线实车推理。离线训练过程中需要奖励函数与经验回放池,一次次迭代计算中使得深度强化学习决策模型收敛。实车中使用训练好的模型在线推理,根据传感器获得的交通信息直接获得对应的最优动作。
按照上述技术方案,在所述的步骤S1中,对决策模型进行离线仿真训练均在仿真系统中完成,具体过程包括如下步骤:
S1-1将预先采集或模拟的交通状态信息批量存入经验回放池中;
S1-2从经验回放池中采集交通状态s输入至决策模型中;
S1-3决策模型依据输入的交通状态s输出驾驶动作a指令,经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’;
S1-4通过奖励函数计算本次驾驶动作的奖励值r,并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s,a,r,s’)存入经验回放池中;
S1-5计算决策模型的损失函数值;
S1-6重复步骤S1-2~步骤S1-5,设计合适的损失函数,采用批量梯度下降的方法对决策模型神经网络参数进行训练,直至损失函数批量梯度下降至相应值,通过一次次迭代计算中使决策模型收敛并更新决策模型的参数;
S1-7重复步骤S1-2~S1-6,直至在仿真系统中自动驾驶车辆完成超车或撞车;
S1-8重复步骤S1-2~S1-7,直到决策模型的策略稳定,即自动驾驶汽车在训练过程中可以很好的完成超车决策。
进一步地,决策模型的策略稳定的衡量标准包括:1.平均累计折扣奖励不再上升;2.安全超车率达到90%以上。
按照上述技术方案,在所述的S2中利用离线训练好的决策模型进行实车推理决策的具体过程为:是将离线训练好的决策模型当作一个近似决策函数f(s),输入当前车辆状态s,即可输出当前最优动作a,即a=f(s)。在该过程中不再对神经网络参数进行调整。
按照上述技术方案,深度强化学习决策模型中包含深度神经网络,在离线模拟器中训练的过程中,主要利用梯度下降的方法对神经网络参数进行调整,直到算法收敛,即安全超车率高于90%。
按照上述技术方案,在所述的步骤1)中,自动驾驶车辆的交通状态包括自动驾驶车辆自身速度和坐标以及周围车辆相对信息。
按照上述技术方案,所述的周围车辆相对信息包括自动驾驶车辆与前车和对向旁车之间的相对车速和相对车距。
按照上述技术方案,在所述的步骤3)中,动作空间中包括多个驾驶动作指令,分别为换道指令、匀速指令、避撞指令、减速指令和加速指令。
按照上述技术方案,在所述的步骤3)中,决策模型本次决策的驾驶动作指令与下一循环决策的驾驶动作指令之间的间隔时间t为0.1s。
按照上述技术方案,决策模型包括两个深度神经网络,分别为主神经网络和目标神经网络,主神经网络用于选择驾驶动作指令,目标神经网络用于评估驾驶动作指令;
所述的步骤5)中,损失函数为
Figure BDA0002289480390000031
其中,y为主神经网络和目标神经网络的时间差分误差,s为交通状态,a*为主神经网络选择的驾驶动作指令,主神经网络参数θ,Q函数即为Q(s,a*)简称为Q函数,是驾驶动作值函数,代表在交通状态s下,采用a*这个驾驶动作后的期望奖励,这个值越大,说明在该交通状态s下采取该驾驶动作奖励越大;Q(s,a*,θ)是指参数为θ的神经网络产生的近似Q函数。
按照上述技术方案,Q(s,a*,θ)中,θ表示神经网络的参数集(不止一个),由于连续空间下,交通状态-驾驶动作对无穷,所以通过神经网络近似逼近Q函数。
按照上述技术方案,主网络和目标网络的时间差分误差
y=r+γmaxQ(s′,a*;θ-)
其中,r为本次驾驶动作的奖励值r,θ-=为目标神经网络参数,γ为折扣因子,一般γ的取值范围为0.9~0.99;s’为下一交通状态;xQ(s′,a*;θ-)是利用参数为θ-的目标神经网络近似逼近的Q函数,用来计算下一状态s’下采用动作a*的近似Q函数值。
进一步地,s’表示下一状态,由于采用贝尔曼方程来迭代计算Q函数,即使用下一状态的Q函数+奖励r来近似表达d当前Q函数值。
进一步地,在所述的步骤S1-6中具体的迭代计算过程如下,{s1,a1,s2,,a2,s3,……}表示马尔可夫状态动作链,即交通状态s1下采取驾驶动作a1,交通状态会转移至下一交通状态s2,而交通状态s2下采取动作a2,交通状态转移至再下一次交通状态s3。下面是贝尔曼迭代计算公式,计算上述状态动作链中状态的Q函数值:
Qs1=r1+γQs2 (1)
Qs2=r2+γQs3 (2)
将(2)中Qs2带入(1)式,可以得到
Figure BDA0002289480390000041
依次迭代使用后续Q函数值来计算Qs1后,可以发现离当前状态越远的Q函数,其前面γ系数次数越高。当γ<1时,高次项γnQs(n+1)≈0,即离当前状态越远,其Q函数对当前交通状态的值函数计算影响越小。
按照上述技术方案,在所述的步骤4)中,奖励函数包括四个相关项,分别是目标相关项,安全相关项,速度相关项和碰撞相关项,其中,目标相关项在超车成功时给予较大的奖励;安全相关项在车辆处于对向车道时会给予负的奖励,从而避免出现车辆长时间占据对向车道的情况;速度相关项用于实现更快的超车;碰撞相关项是基于碰撞时间余量(TTC)的分段函数,碰撞时间余量(TTC)越小奖励越小。
按照上述技术方案,奖励函数为四个相关项作为相应的加权系数的线性加权,加权系数在决策模型的训练过程中合理调整,直到强化学习DDQN算法能够产生合理有效的策略;在离线训练中,通过与基于规则的IDM(Intelligent Driver Model)驾驶模型进行对比,以安全性、舒适性、行车效率、超车率作为评价指标。决策切换与风险值与交通规则有关,在每次决策过程中,都会根据环境信息计算TTC,THW等风险值,当高于一定阈值后,采用基于有限状态机的决策方法。或者当采用基于强化学习方法获得的策略违反交通规则,则采用基于有限状态机的决策方法。
按照上述技术方案,经验回放池中收集有大量对向双车道环境下的交通信息数据样本,通过从经验回放池中采集样本对决策模型进行训练,决策模型通过深度强化学习算法进行训练,在训练过程中,通过使用优先回放采样批量交通信息样本进行神经网络训练,利用主网络和目标网络的差值计算时间差分中的决策模型的损失函数,并用批量梯度下降法将损失函数值降低至指定值,从而优化神经网络参数,同时合理调整奖励函数的相关项加权系数,最终获得优化的决策模型。
按照上述技术方案,主网络和目标网络具有相同结构,均包括一层输入层、三层全连接神经网络和一层输出层,三层全连接神经网络的神经元数量分别为100,100和5个。
按照上述技术方案,在所述的步骤S1-6中,损失函数通过mini-batch批量梯度下降进行训练,提高训练效率。
本发明具有以下有益效果:
1.本发明保证自动驾驶车辆超车决策过程的安全性和舒适性,通过强化学习的决策模型形成的强化学习决策方法,提高了决策的拟人性和鲁棒性。
2.通过两个深度神经网络,分别用于选择动作和评估动作,解决过估计问题,避免由于每次都用最大的下一状态的值函数估计当前状态,造成当前状态的值函数相比真值偏大,提高了决策合理性和准确性。
附图说明
图1是本发明实施例中对向双车道超车环境的示意图;
图2是本发明实施例中对向双车道下基于强化学习的自动驾驶超车决策方法的结构框图;
图3是本发明实施例中决策模型的示意图;
图4是本发明实施例中主网络和目标网络的结构示意图;
图中,1-自动驾驶车辆,2-前车,3-旁车。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
参照图1~图4所示,本发明提供的一个实施例中的一种对向双车道下基于强化学习的自动驾驶超车决策方法,包括以下步骤:
1)通过传感器实时采集自动驾驶车辆的交通状态s;
2)将采集到的交通状态s输入到经过训练的决策模型中;
3)决策模型依据输入信息从其动作空间中选择相应的驾驶动作a指令并输出,经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’;
4)通过奖励函数计算本次驾驶动作的奖励值r,并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s,a,r,s’)存入经验回放池中;
5)计算决策模型的损失函数值,并依据转移样本和损失函数值优化决策模型参数;
6)重复步骤1)~5),直至自动驾驶结束。
进一步地,所述的步骤2),训练决策模型的具体过程包括以下步骤:
S1对决策模型进行离线仿真训练;
S2利用离线训练好的决策模型进行实车推理决策。
进一步地,基于强化学习的决策方法分为两步:离线仿真训练,在线实车推理。离线训练过程中需要奖励函数与经验回放池,一次次迭代计算中使得深度强化学习决策模型收敛。实车中使用训练好的模型在线推理,根据传感器获得的交通信息直接获得对应的最优动作。
进一步地,在所述的步骤S1中,对决策模型进行离线仿真训练均在仿真系统中完成,具体过程包括如下步骤:
S1-1将预先采集或模拟的交通状态信息批量存入经验回放池中;
S1-2从经验回放池中采集交通状态s输入至决策模型中;
S1-3决策模型依据输入的交通状态s输出驾驶动作a指令,经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’;
S1-4通过奖励函数计算本次驾驶动作的奖励值r,并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s,a,r,s’)存入经验回放池中;
S1-5计算决策模型的损失函数值;
S1-6重复步骤S1-2~步骤S1-5,设计合适的损失函数,采用批量梯度下降的方法对决策模型神经网络参数进行训练,直至损失函数批量梯度下降至相应值,通过一次次迭代计算中使决策模型收敛并更新决策模型的参数;
S1-7重复步骤S1-2~S1-6,直至在仿真系统中自动驾驶车辆完成超车或撞车;
S1-8重复步骤S1-2~S1-7,直到决策模型的策略稳定,即自动驾驶汽车在训练过程中可以很好的完成超车决策。
进一步地,决策模型的策略稳定的衡量标准包括:1.平均累计折扣奖励不再上升;2.安全超车率达到90%以上。
进一步地,在所述的S2中利用离线训练好的决策模型进行实车推理决策的具体过程为:是将离线训练好的决策模型当作一个近似决策函数f(s),输入当前车辆状态s,即可输出当前最优动作a,即a=f(s)。在该过程中不再对神经网络参数进行调整。
进一步地,深度强化学习决策模型中包含深度神经网络,在离线模拟器中训练的过程中,主要利用梯度下降的方法对神经网络参数进行调整,直到算法收敛,即安全超车率高于90%。
进一步地,在所述的步骤1)中,自动驾驶车辆的交通状态包括自动驾驶车辆自身速度和坐标以及周围车辆相对信息。
进一步地,所述的周围车辆相对信息包括自动驾驶车辆与前车和对向旁车之间的相对车速和相对车距。
进一步地,在所述的步骤3)中,动作空间中包括多个驾驶动作指令,分别为换道指令、匀速指令、避撞指令、减速指令和加速指令。
进一步地,在所述的步骤3)中,决策模型本次决策的驾驶动作指令与下一循环决策的驾驶动作指令之间的间隔时间t为0.1s。
进一步地,决策模型包括两个深度神经网络,分别为主神经网络和目标神经网络,主神经网络用于选择驾驶动作指令,目标神经网络用于评估驾驶动作指令;
所述的步骤5)中,损失函数为
Figure BDA0002289480390000071
其中,y为主神经网络和目标神经网络的时间差分误差,s为交通状态,a*为主神经网络选择的驾驶动作指令,主神经网络参数θ,
Q函数即为Q(s,a*)简称为Q函数,是驾驶动作值函数,代表在交通状态s下,采用a*这个驾驶动作后的期望奖励,这个值越大,说明在该交通状态s下采取该驾驶动作奖励越大;Q(s,a*,θ)是指参数为θ的神经网络产生的近似Q函数。
进一步地,Q(s,a*,θ)中,θ表示神经网络的参数集(不止一个),由于连续空间下,交通状态-驾驶动作对无穷,所以通过神经网络近似逼近Q函数。
进一步地,主网络和目标网络的时间差分误差
y=r+γmaxQ(s′,a*;θ-)
其中,r为本次驾驶动作的奖励值r,θ-=为目标神经网络参数,γ为折扣因子,一般γ的取值范围为0.9~0.99;s’为下一交通状态;xQ(s′,a*;θ-)是利用参数为θ-=的目标神经网络近似逼近的Q函数,用来计算下一状态s’下采用动作a*的近似Q函数值。
进一步地,s’表示下一状态,由于采用贝尔曼方程来迭代计算Q函数,即使用下一状态的Q函数+奖励r来近似表达d当前Q函数值。
进一步地,在所述的步骤S1-6中具体的迭代计算过程如下,{s0,a0,s1,a1,r1,s2,a2,r2,s3,a3,r3,……}定义马尔可夫决策模型的轨迹,即环境由初始状态s0根据给定策略π(a|s)转移到后续状态过程中所有动作、状态、奖励的集合。下面是贝尔曼迭代计算公式,计算上述状态动作链中状态的Q函数值:
Q(s1,a1)=r1+γQ(s2,a2) (1)
Q(s2,a2)=r2+γQ(s3,a3) (2)
将(2)中Q(s2,a2)中带入(1)式,可以得到
Figure BDA0002289480390000081
依次迭代使用后续Q函数值来计算Qs1后,可以发现离当前状态越远的Q函数,其前面γ系数次数越高。当γ<1时,高次项γnQ(sn+1,an+1)≈0,即离当前状态越远,其Q函数对当前交通状态的值函数计算影响越小。
进一步地,在所述的步骤4)中,奖励函数包括四个相关项,分别是目标相关项,安全相关项,速度相关项和碰撞相关项,其中,目标相关项在超车成功时给予较大的奖励;安全相关项在车辆处于对向车道时会给予负的奖励,从而避免出现车辆长时间占据对向车道的情况;速度相关项用于实现更快的超车;碰撞相关项是基于碰撞时间余量(TTC)的分段函数,碰撞时间余量(TTC)越小奖励越小。
进一步地,奖励函数为四个相关项作为相应的加权系数的线性加权,加权系数在决策模型的训练过程中合理调整,直到强化学习DDQN算法能够产生合理有效的策略;在离线训练中,通过与基于规则的IDM(Intelligent Driver Model)驾驶模型进行对比,以安全性、舒适性、行车效率、超车率作为评价指标。决策切换与风险值与交通规则有关,在每次决策过程中,都会根据环境信息计算TTC,THW等风险值,当高于一定阈值后,采用基于有限状态机的决策方法。或者当采用基于强化学习方法获得的策略违反交通规则,则采用基于有限状态机的决策方法。
进一步地,经验回放池中收集有大量对向双车道环境下的交通信息数据样本,通过从经验回放池中采集样本对决策模型进行训练,决策模型通过深度强化学习算法进行训练,在训练过程中,通过使用优先回放采样批量交通信息样本进行神经网络训练,利用主网络和目标网络的差值计算时间差分中的决策模型的损失函数,并用批量梯度下降法将损失函数值降低至相应值,从而优化神经网络参数,同时合理调整奖励函数的相关项加权系数,最终获得优化的决策模型。
进一步地,主网络和目标网络具有相同结构,均包括一层输入层、三层全连接神经网络和一层输出层,三层全连接神经网络的神经元数量分别为100,100和5个。
进一步地,在所述的步骤S1-6中,损失函数通过mini-batch批量梯度下降进行训练,提高训练效率。
进一步地,上面所述的决策融合过程包含了基于强化学习的超车决策和传统的基于规则的决策方法。基于规则的决策方法采用有限状态机法,根据实际感知传感器输入的状态量和经验设定好的门限值进行比较,在五种动作指令间(换道、匀速、避撞、减速和加速)展开切换,通过双模式决策融合系统,实现在强化学习部分失效的情况下(例如大数据训练不完备,违反交通规则,感知信息缺失),利用基于规则的决策作为安全备份和有力补充。
本发明的工作原理:
下面将结合附图对本发明技术方案的实施例进行详细的描述,包含前车,对向来车,及自动驾驶汽车在内的对向双车道环境如图1所示。本发明提供了一种在此环境下基于强化学习的自动驾驶汽车超车决策方法,其总体结构框图如图2所示,具体包括:
1.对向双车道环境包括了自动驾驶汽车,同车道内慢速的前车及旁车道中由对向迎面驶来的旁车。预先通过自车传感器和环境感知传感器采集大量的真实交通信息用于强化学习中的训练过程。这些信息包括自动驾驶汽车的车速及位置坐标,与前车和对向旁车之间的相对车速和相对车距等,将其作为状态空间输入到强化学习的马尔科夫决策模型中。强化学习的动作空间设置为换道命令,匀速行驶,避撞,减速和加速共五种指令。强化学习的奖励函数参考了安全性、舒适性、超车效率等决策因素,由四个函数加权而成。强化学习训练完成后,可用于自动驾驶汽车在对向双车道环境下的超车决策,并与传统基于规则的决策模块经过融合后,从换道、匀速、避撞、减速和加速等五种宏观驾驶行为中确定一种当前最为合理的指令最终输出给规划及控制模块。
2.采用一种基于DDQN算法的强化学习决策方法。DDQN通过将深度学习与强化学习结合,是一种处理高维连续空间问题的算法。使用深度神经网络近似逼近值函数,以状态量作为输入,直接输出各个动作的值函数,然后根据值函数选择最佳的动作。在DDQN中包含两个深度神经网络:主网络和目标网络,分别用于选择动作和评估动作,解决过估计问题,避免由于每次都用最大的下一状态的值函数估计当前状态,造成当前状态的值函数相比真值偏大。用DDQN算法控制的自动驾驶车辆通过与环境的交互,产生一系列转移样本(s,a,r,s′),其中s为当前状态,a为驾驶动作,采取动作后转移到下一状态s’,r为在状态s时采取动作a后获得的奖励,然后将该转移数据保存至经验回放池D中。经验回放池存储之前已经经历过的状态动作以及奖励,利用回放池可以打破数据之间的关联性,让神经网络训练变得稳定。在强化学习训练过程中,通过优先回放采样批量数据样本,利用主网络和目标网络的差值计算损失函数,并用批量梯度下降法来调整网络参数。普通的梯度下降方法都是对一个数据进行梯度下降,如果一个训练集有1000个数据,那么要梯度下降调整神经网络参数1000次;如果采用mini-batch方法,选择批量样本大小为50个,即一次性选择50个数据进行批量梯度下降,那么训练1000个数据只要20次,因此大大提高训练效率。
3.根据图4主网络与目标网络采用了相同结构:3层全连接神经网络,三层网络的神经元数量分别为100,100和5个。训练过程中输入状态量大小为14,最后一层的神经网络采用线性激活,输出离散的五个动作指令(换道、匀速、避撞、减速和加速),然后根据贪心策略选择相应的动作。贪心策略每次会直接选择使值函数最大的动作。在贪心算法中,设置初始探索率为1,在五十万步后衰减到0.1,即以0.1的概率采用随机动作,其余则是根据值函数选择使得奖励最大的动作。根据图3,其主要步骤为:
步骤1:随机初始化主网络参数θ,并令目标网络参数θ-=θ;
步骤2:根据环境确定初始状态s0,包括自身速度、坐标以及周围车辆相对信息;
步骤3a:初始驾驶决策根据贪心策略获得a~π(s),即以ε的概率随机选择一个驾驶动作,以1-ε的概率选择使得值函数最大的动作a=argmaxQ(s,a;θ);
步骤3b:根据动作a控制自动驾驶车辆,获得下一状态s′,同时根据奖励函数R(s,a)计算奖励r,并将样本(s,a,r,s′)存入经验回放池;
步骤3c:在经验池D中以优先回放的方法采样mini-batch组样本;
步骤3d:计算时间差分误差y,y=r+γmaxQ(s′,a*;θ-),其中a*根据主网络选择,a*=argmaxQ(s′,a;θ);
步骤3e:计算损失函数,
Figure BDA0002289480390000111
步骤3f:对损失函数进行批量梯度下降,更新主网络参数θ;
步骤3g:根据主网络参数θ对目标网络参数θ-进行软更新;
步骤4:重复上述步骤3过程,直到自动驾驶车辆在训练中撞车或者完成超车;
步骤5:重复上述步骤2、3、4直到策略稳定,即自动驾驶汽车在训练过程中可以很好的完成超车决策。
4.强化学习中智能体会根据奖励函数的反馈对策略进行调整。所以本次为了实现安全、高效的超车行为,将奖励函数分为了以下4个部分,分别是目标相关项,安全相关项,速度相关项和碰撞相关项。其中,目标相关项在超车成功时给予较大的奖励;安全相关项在车辆处于对向车道时会给予负的奖励,从而避免出现车辆长时间占据对向车道的情况;速度相关项用于实现更快的超车;碰撞相关项是基于碰撞时间余量(TTC)的分段函数,TTC越小奖励越小。最终的奖励函数为上述几个部分加权求和,如公式3所示。加权系数需要在训练过程中合理调整,直到强化学习DDQN算法能够产生合理有效的策略。当α4相对比较大的时候,通过强化学习得到的策略对相对比较保守,会倾向于保持较大的安全距离。
R=α1Rvelocity2Rovertake3Ropposite4Rcollision (3)
4.最终结合上述的强化学习的超车决策和传统的基于规则的决策方法,形成了双模式决策融合系统。基于规则的决策方法采用有限状态机法,根据实际感知传感器输入的状态量和经验设定好的门限值进行比较,在五种动作指令间(换道、匀速、避撞、减速和加速)展开切换。通过基于规则的决策方法对强化学习DDQN的决策结果进行校验。如果两者相同,则直接将动作指令传给后面的规划控制层。如果两者不同,则在以下三种情况下优先选择基于规则的决策结果,包括:感知信息超出了训练数据的范围以外,实际感知信息缺失,和强化学习作出的结果违反了交通规则。因此双模式的决策融合相比单独的强化学习决策方法,使得决策系统更具有合理性和鲁棒性。
以上的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等效变化,仍属本发明的保护范围。

Claims (10)

1.一种对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,包括以下步骤:
1)通过传感器采集自动驾驶车辆的交通状态s;
2)将采集到的交通状态s输入到经过训练的决策模型中;
3)决策模型依据输入信息从其动作空间中选择相应的驾驶动作a指令并输出,经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’;
4)通过奖励函数计算本次驾驶动作的奖励值r,并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s,a,r,s’)存入经验回放池中;
5)计算决策模型的损失函数值,并依据转移样本和损失函数值优化决策模型参数;
6)重复步骤1)~5),直至自动驾驶结束。
2.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,所述的步骤2),训练决策模型的具体过程包括以下步骤:
S1对决策模型进行离线仿真训练;
S2利用离线训练好的决策模型进行实车推理决策。
3.根据权利要求2所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,在所述的步骤S1中,对决策模型进行离线仿真训练均在仿真系统中完成,具体过程包括如下步骤:
S1-1将预先采集或模拟的交通状态信息批量存入经验回放池中;
S1-2从经验回放池中采集交通状态s输入至决策模型中;
S1-3决策模型依据输入的交通状态s输出驾驶动作a指令,经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’;
S1-4通过奖励函数计算本次驾驶动作的奖励值r,并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s,a,r,s’)存入经验回放池中;
S1-5计算决策模型的损失函数值;
S1-6重复步骤S1-2~步骤S1-5,采用批量梯度下降的方法对决策模型神经网络参数进行训练,通过一次次迭代计算中使决策模型收敛并更新决策模型的参数;
S1-7重复步骤S1-2~S1-6,直至在仿真系统中自动驾驶车辆完成超车或撞车;
S1-8重复步骤S1-2~S1-7,直到决策模型的策略稳定,即自动驾驶汽车在训练过程中可以很好的完成超车决策。
4.根据权利要求3所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,在所述的S2中利用离线训练好的决策模型进行实车推理决策的具体过程为:是将离线训练好的决策模型当作一个近似决策函数f(s),输入当前车辆状态s,即可输出当前最优动作a,即a=f(s)。在该过程中不再对神经网络参数进行调整。
5.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,在所述的步骤1)中,自动驾驶车辆的交通状态包括自动驾驶车辆自身速度和坐标以及周围车辆相对信息。
6.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,在所述的步骤3)中,动作空间中包括多个驾驶动作指令,分别为换道指令、匀速指令、避撞指令、减速指令和加速指令。
7.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,在所述的步骤3)中,决策模型本次决策的驾驶动作指令与下一循环决策的驾驶动作指令之间的间隔时间t为0.1s。
8.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,决策模型包括两个深度神经网络,分别为主神经网络和目标神经网络,主神经网络用于选择驾驶动作指令,目标神经网络用于评估驾驶动作指令;
所述的步骤5)中,损失函数为
Figure FDA0002289480380000021
其中,y为主神经网络和目标神经网络的时间差分误差,s为交通状态,a*为主神经网络选择的驾驶动作指令,主神经网络参数θ,Q函数即为Q(s,a*)简称为Q函数,是驾驶动作值函数,代表在交通状态s下,采用a*这个驾驶动作后的期望奖励,这个值越大,说明在该交通状态s下采取该驾驶动作奖励越大;Q(s,a*,θ)是指参数为θ的神经网络产生的近似Q函数。
9.根据权利要求8所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,主网络和目标网络的时间差分误差
y=r+γmaxQ(s′,a*;θ-)
其中,r为本次驾驶动作的奖励值r,θ-=为目标神经网络参数,γ为折扣因子;s’为下一交通状态;xQ(s′,a*;θ-)是利用参数为θ-的目标神经网络近似逼近的Q函数,用来计算下一状态s’下采用动作a*的近似Q函数值。
10.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法,其特征在于,在所述的步骤4)中,奖励函数包括四个相关项,分别是目标相关项,安全相关项,速度相关项和碰撞相关项,其中,目标相关项在超车成功时给予较大的奖励;安全相关项在车辆处于对向车道时会给予负的奖励,从而避免出现车辆长时间占据对向车道的情况;速度相关项用于实现更快的超车;碰撞相关项是基于碰撞时间余量(TTC)的分段函数,碰撞时间余量(TTC)越小奖励越小。
CN201911173951.8A 2019-11-26 2019-11-26 一种对向双车道下基于强化学习的自动驾驶超车决策方法 Active CN110969848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911173951.8A CN110969848B (zh) 2019-11-26 2019-11-26 一种对向双车道下基于强化学习的自动驾驶超车决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911173951.8A CN110969848B (zh) 2019-11-26 2019-11-26 一种对向双车道下基于强化学习的自动驾驶超车决策方法

Publications (2)

Publication Number Publication Date
CN110969848A true CN110969848A (zh) 2020-04-07
CN110969848B CN110969848B (zh) 2022-06-17

Family

ID=70031722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911173951.8A Active CN110969848B (zh) 2019-11-26 2019-11-26 一种对向双车道下基于强化学习的自动驾驶超车决策方法

Country Status (1)

Country Link
CN (1) CN110969848B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN111619624A (zh) * 2020-06-01 2020-09-04 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112052956A (zh) * 2020-07-16 2020-12-08 山东派蒙机电技术有限公司 一种强化车辆执行最佳动作的训练方法
CN112348198A (zh) * 2020-10-30 2021-02-09 上海对外经贸大学 一种人机混合决策的机器行为在冲突中的协调方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112418237A (zh) * 2020-12-07 2021-02-26 苏州挚途科技有限公司 车辆驾驶决策方法、装置及电子设备
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN112904852A (zh) * 2021-01-18 2021-06-04 国汽智控(北京)科技有限公司 一种自动驾驶控制方法、装置及电子设备
CN112925210A (zh) * 2021-05-11 2021-06-08 北京三快在线科技有限公司 一种模型训练和控制无人设备的方法及装置
CN113060160A (zh) * 2021-04-21 2021-07-02 深圳大学 自动驾驶控制方法及装置
CN113160562A (zh) * 2021-03-30 2021-07-23 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113253739A (zh) * 2021-06-24 2021-08-13 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN113359771A (zh) * 2021-07-06 2021-09-07 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113682312A (zh) * 2021-09-23 2021-11-23 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统
CN113743468A (zh) * 2021-08-03 2021-12-03 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及系统
CN113734170A (zh) * 2021-08-19 2021-12-03 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113753049A (zh) * 2021-11-10 2021-12-07 北京理工大学 基于社会偏好的自动驾驶超车决策确定方法及系统
CN113928321A (zh) * 2021-11-24 2022-01-14 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN114153199A (zh) * 2020-08-18 2022-03-08 大众汽车股份公司 用于支持运输工具或机器人的机动动作规划的方法和设备
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN115027500A (zh) * 2022-06-30 2022-09-09 智道网联科技(北京)有限公司 用于无人驾驶车辆的决策规划方法、装置及电子设备、存储介质
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN116540602A (zh) * 2023-04-28 2023-08-04 金陵科技学院 一种基于路段安全级别dqn的车辆无人驾驶方法
CN116880218A (zh) * 2023-09-06 2023-10-13 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN117348415A (zh) * 2023-11-08 2024-01-05 重庆邮电大学 一种基于有限状态机的自动驾驶决策方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106627582A (zh) * 2016-12-09 2017-05-10 重庆长安汽车股份有限公司 单车道自动驾驶超越相邻车道车辆的路径规划系统及方法
CN106874597A (zh) * 2017-02-16 2017-06-20 北理慧动(常熟)车辆科技有限公司 一种应用于自动驾驶车辆的高速公路超车行为决策方法
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
US20170286860A1 (en) * 2016-03-29 2017-10-05 Microsoft Corporation Multiple-action computational model training and operation
CN107464433A (zh) * 2017-07-12 2017-12-12 武汉理工大学 用于高速公路出口的减速引导系统
US9956956B2 (en) * 2016-01-11 2018-05-01 Denso Corporation Adaptive driving system
CN108205922A (zh) * 2016-12-19 2018-06-26 乐视汽车(北京)有限公司 一种自动驾驶决策方法及系统
CN109345832A (zh) * 2018-11-13 2019-02-15 上海应用技术大学 一种基于深度递归神经网络的城市道路超车预测方法
CN109752952A (zh) * 2017-11-08 2019-05-14 华为技术有限公司 一种获取多维随机分布及强化控制器的方法和装置
CN110406530A (zh) * 2019-07-02 2019-11-05 宁波吉利汽车研究开发有限公司 一种自动驾驶方法、装置、设备和车辆

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9956956B2 (en) * 2016-01-11 2018-05-01 Denso Corporation Adaptive driving system
US20170286860A1 (en) * 2016-03-29 2017-10-05 Microsoft Corporation Multiple-action computational model training and operation
CN106627582A (zh) * 2016-12-09 2017-05-10 重庆长安汽车股份有限公司 单车道自动驾驶超越相邻车道车辆的路径规划系统及方法
CN108205922A (zh) * 2016-12-19 2018-06-26 乐视汽车(北京)有限公司 一种自动驾驶决策方法及系统
CN106874597A (zh) * 2017-02-16 2017-06-20 北理慧动(常熟)车辆科技有限公司 一种应用于自动驾驶车辆的高速公路超车行为决策方法
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN107464433A (zh) * 2017-07-12 2017-12-12 武汉理工大学 用于高速公路出口的减速引导系统
CN109752952A (zh) * 2017-11-08 2019-05-14 华为技术有限公司 一种获取多维随机分布及强化控制器的方法和装置
CN109345832A (zh) * 2018-11-13 2019-02-15 上海应用技术大学 一种基于深度递归神经网络的城市道路超车预测方法
CN110406530A (zh) * 2019-07-02 2019-11-05 宁波吉利汽车研究开发有限公司 一种自动驾驶方法、装置、设备和车辆

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
方川: "基于深度强化学习的无人驾驶车道保持决策的研究", 《中国优秀博硕士学位论文全文数据库(硕士)》, 15 July 2019 (2019-07-15) *
鲍实等: "基于深度增强学习的无人车汇流决策方法", 《电子测量技术》 *
鲍实等: "基于深度增强学习的无人车汇流决策方法", 《电子测量技术》, no. 19, 31 October 2018 (2018-10-31), pages 44 - 49 *

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111619624A (zh) * 2020-06-01 2020-09-04 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN111369181B (zh) * 2020-06-01 2020-09-29 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和装置
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111845741B (zh) * 2020-06-28 2021-08-03 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN112052956B (zh) * 2020-07-16 2021-12-17 山东派蒙机电技术有限公司 一种强化车辆执行最佳动作的训练方法
CN112052956A (zh) * 2020-07-16 2020-12-08 山东派蒙机电技术有限公司 一种强化车辆执行最佳动作的训练方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN111985614B (zh) * 2020-07-23 2023-03-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111898211B (zh) * 2020-08-07 2022-11-01 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN114153199A (zh) * 2020-08-18 2022-03-08 大众汽车股份公司 用于支持运输工具或机器人的机动动作规划的方法和设备
CN112348198A (zh) * 2020-10-30 2021-02-09 上海对外经贸大学 一种人机混合决策的机器行为在冲突中的协调方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112418237A (zh) * 2020-12-07 2021-02-26 苏州挚途科技有限公司 车辆驾驶决策方法、装置及电子设备
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112633474B (zh) * 2020-12-20 2022-04-05 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112904852A (zh) * 2021-01-18 2021-06-04 国汽智控(北京)科技有限公司 一种自动驾驶控制方法、装置及电子设备
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113160562A (zh) * 2021-03-30 2021-07-23 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113160562B (zh) * 2021-03-30 2022-04-22 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113060160A (zh) * 2021-04-21 2021-07-02 深圳大学 自动驾驶控制方法及装置
CN112925210A (zh) * 2021-05-11 2021-06-08 北京三快在线科技有限公司 一种模型训练和控制无人设备的方法及装置
CN112925210B (zh) * 2021-05-11 2021-09-07 北京三快在线科技有限公司 一种模型训练和控制无人设备的方法及装置
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN113253739B (zh) * 2021-06-24 2021-11-02 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法
CN113253739A (zh) * 2021-06-24 2021-08-13 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法
CN113359771A (zh) * 2021-07-06 2021-09-07 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113743468A (zh) * 2021-08-03 2021-12-03 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及系统
CN113743468B (zh) * 2021-08-03 2023-10-10 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及系统
CN113743469B (zh) * 2021-08-04 2024-05-28 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113561986B (zh) * 2021-08-18 2024-03-15 武汉理工大学 自动驾驶汽车决策方法及装置
CN113734170A (zh) * 2021-08-19 2021-12-03 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113734170B (zh) * 2021-08-19 2023-10-24 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113682312A (zh) * 2021-09-23 2021-11-23 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统
CN113753049A (zh) * 2021-11-10 2021-12-07 北京理工大学 基于社会偏好的自动驾驶超车决策确定方法及系统
CN113928321A (zh) * 2021-11-24 2022-01-14 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN113928321B (zh) * 2021-11-24 2022-08-26 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN115027500A (zh) * 2022-06-30 2022-09-09 智道网联科技(北京)有限公司 用于无人驾驶车辆的决策规划方法、装置及电子设备、存储介质
WO2024001393A1 (zh) * 2022-06-30 2024-01-04 智道网联科技(北京)有限公司 用于无人驾驶车辆的决策规划方法、装置及电子设备、存储介质
CN115027500B (zh) * 2022-06-30 2024-05-14 智道网联科技(北京)有限公司 用于无人驾驶车辆的决策规划方法、装置及电子设备、存储介质
CN115542915B (zh) * 2022-10-08 2023-10-31 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN116540602A (zh) * 2023-04-28 2023-08-04 金陵科技学院 一种基于路段安全级别dqn的车辆无人驾驶方法
CN116540602B (zh) * 2023-04-28 2024-02-23 金陵科技学院 一种基于路段安全级别dqn的车辆无人驾驶方法
CN116880218A (zh) * 2023-09-06 2023-10-13 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN116880218B (zh) * 2023-09-06 2023-12-19 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN117348415A (zh) * 2023-11-08 2024-01-05 重庆邮电大学 一种基于有限状态机的自动驾驶决策方法
CN117348415B (zh) * 2023-11-08 2024-06-04 重庆邮电大学 一种基于有限状态机的自动驾驶决策方法

Also Published As

Publication number Publication date
CN110969848B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
Wang et al. Harmonious lane changing via deep reinforcement learning
CN113805572B (zh) 运动规划的方法与装置
Huang et al. Personalized trajectory planning and control of lane-change maneuvers for autonomous driving
Zhang et al. Adaptive decision-making for automated vehicles under roundabout scenarios using optimization embedded reinforcement learning
Lu et al. Learning driver-specific behavior for overtaking: A combined learning framework
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
Wang et al. Cooperative lane changing via deep reinforcement learning
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
Qiao et al. Behavior planning at urban intersections through hierarchical reinforcement learning
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
Zhang et al. Structured road-oriented motion planning and tracking framework for active collision avoidance of autonomous vehicles
Guan et al. Learn collision-free self-driving skills at urban intersections with model-based reinforcement learning
Al-Sharman et al. Self-learned autonomous driving at unsignalized intersections: A hierarchical reinforced learning approach for feasible decision-making
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN112835362B (zh) 一种自动变道规划方法及装置、电子设备和存储介质
Jiang et al. Path tracking control based on Deep reinforcement learning in Autonomous driving
Yuan et al. Evolutionary decision-making and planning for autonomous driving based on safe and rational exploration and exploitation
Shi et al. Efficient Lane-changing Behavior Planning via Reinforcement Learning with Imitation Learning Initialization
CN117227758A (zh) 多层次人类智能增强的自动驾驶车辆决策控制方法及系统
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
Chen et al. Decision making for overtaking of unmanned vehicle based on deep Q-learning
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant