CN112406867A - 基于强化学习和避让策略的应急车辆混合换道决策方法 - Google Patents

基于强化学习和避让策略的应急车辆混合换道决策方法 Download PDF

Info

Publication number
CN112406867A
CN112406867A CN202011299719.1A CN202011299719A CN112406867A CN 112406867 A CN112406867 A CN 112406867A CN 202011299719 A CN202011299719 A CN 202011299719A CN 112406867 A CN112406867 A CN 112406867A
Authority
CN
China
Prior art keywords
network
planned
icev
vehicle
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011299719.1A
Other languages
English (en)
Other versions
CN112406867B (zh
Inventor
胡坚明
牛浩懿
裴欣
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011299719.1A priority Critical patent/CN112406867B/zh
Publication of CN112406867A publication Critical patent/CN112406867A/zh
Application granted granted Critical
Publication of CN112406867B publication Critical patent/CN112406867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于强化学习和避让策略的应急车辆混合换道决策方法,包括:确定优化路段以及待规划ICCV和ICEV的执行策略;对待规划ICEV的DQN网络进行初始化;基于待规划ICEV及其六个邻居车辆的状态信息以及其前车的避让策略执行情况,得到DQN网络的状态空间;基于DQN网络的状态空间得到输出值,基于输出值得到初步决策以及动作空间;建立动作选择屏障,对得到的初步决策进行验证和选择,直到从输出值或动作空间中最终选出的动作满足交通规则和道路物理结构;定义奖励函数,用于对该动作所对应的总奖励进行计算;对DQN网络进行训练,得到训练好的DQN网络。本发明可以广泛应用于道路换道决策控制领域。

Description

基于强化学习和避让策略的应急车辆混合换道决策方法
技术领域
本发明属于道路换道决策控制领域,尤其涉及一种基于强化学习和避让策略的应急车辆混合换道决策方法。
背景技术
目前,减少应急车辆响应时间的相关研究大都集中在路线优化和交通信号灯的控制上,试图从宏观调度的角度去解决问题,比如:Dijkstra算法、蚁群算法(ACA)、A*和混合蛙跳算法(SFLA)。但是,这些宏观方法并没有充分利用实时交通数据,很少有对自动驾驶应急车辆进行微观控制的,也几乎没有考虑对正常交通流的影响,并且忽视了直道上响应时间的延迟。
此外,少部分研究提到了在直道上对应急车辆自动驾驶进行微观控制的确定性算法,比如一系列的跟驰换道策略,包括了一些针对性的避让策略,但是与深度强化学习获得的策略相比它们更难泛化到各种不同的交通场景,而且在探索更快的速度方面不见得是最优的。
发明内容
针对上述问题,本发明的目的是提供一种基于强化学习和避让策略的应急车辆混合换道决策方法,该方法通过将确定性避让策略的稳定性和深度强化学习的探索性和泛化能力相融合,使得两种策略取长补短,能够缩短任何直道环境中应急车辆的响应时间,为应急车辆提出一种省时、实时、数据利用率高的微观直道决策方法,该方法需要在完全自动驾驶的交通流中实施。
为实现上述目的,本发明采取以下技术方案:一种基于强化学习和避让策略的应急车辆混合换道决策方法,其包括以下步骤:
(1)确定优化路段,并对优化路段上待规划ICCV和ICEV的运行策略进行规划;其中,待规划ICCV利用基于规则的避让策略,待规划ICEV利用基于DQN网络的混合换道策略;
(2)对待规划ICEV的DQN网络进行初始化;
(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况,得到待规划ICEV的DQN网络的状态空间;
(4)将步骤(3)得到的DQN网络的状态空间作为输入量输入初始化后的DQN网络,得到t时刻的输出值Q,并基于输出值Q得到初步决策以及动作空间;
(5)建立动作选择屏障,用于以探索系数∈对步骤(4)得到的初步决策进行验证和选择,直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构;
(6)定义奖励函数,用于对步骤(5)中得到的动作所对应的总奖励Rt进行计算;
(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数,对步骤(2)中初始化的DQN网络进行训练,得到训练好的DQN网络,对优化路段上的待规划ICEV的混合换道进行决策。
进一步地,所述步骤(2)中,对待规划ICEV的DQN网络进行初始化的方法,包括以下步骤:
(2.1)初始化待规划ICEV的DQN网络的记忆池
Figure BDA0002786457840000023
该记忆池
Figure BDA0002786457840000022
能够容纳N条记录,每条记录(Ot,At,Rt,Ot+1)包含了现态状态空间、所做动作、奖励值和次态状态空间的信息;
(2.2)初始化待规划ICEV的DQN网络中的估计网络结构及其神经网络权重参数;
(2.3)初始化待规划ICEV的DQN网络中的目标网络,使其与估计网络的结构和神经网络权重都相同;
(2.4)设定路段的训练时间。
进一步地,所述步骤(3)中,待规划ICEV的DQN网络的状态空间的获得方法,包括以下步骤:
(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身的状态信息进行整合,得到状态空间的基本信息;
(3.2)根据待规划ICEV的当前速度与其最大速度,得到状态空间的速度附加项;
(3.3)根据待规划ICEV是否存在前车,定义优先区间的长度;
(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况,并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息,得到待规划ICEV的DQN网络的状态空间。
进一步地,所述步骤(3.1)中,得到的状态空间的基本信息为:
Neighbors=<<Presenceleader,vleader,yleader-yego>,...<Presencefollower,vfollower,yfollower-yego>,<LaneIndexego,vego,Distance2go>>
其中,Presence代表该位置的邻居车辆是否存在,若存在赋以1,否则赋为0,Presence的下标包括leader、follower、leftleader、leftfollower、right leader、和rightfollower;v则代表了在Presence为1的情况下对应车辆的纵向速度,v的下标包括leader、follower、leftleader、leftfollower、right leader、rightfollower和ego;而y-yego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离,用对应车辆的纵向距离y减去应急车厢的纵向距离yego计算得到,y的下标包括leader、follower、leftleader、leftfollower、right leader和rightfollower;LaneIndexego代表应急车辆的车道编号;Distance2goal代表应急车辆与路段出口的距离。
进一步地,所述步骤(3.2)中,得到的速度附加项为:
Auxilliary Features=<<Presenceleaderleader,vleaderleader,yleaderleader-yego>,<Presenceleftleaderleader,vleftleaderleader,yleftleaderleader-yego>,<Presencerightleaderleader,vrightleaderleader,yrightleaderleader-yego>>
式中,Presenceleaderleader、Presenceleftleaderleader和Presencerightleaderleader分别代表左前车的前车、右前车的前车以及前车的前车是否存在,若存在赋以1,否则赋为0;vleaderleader、vleftleaderleader和vrightleaderleader分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度;yleaderleader-yego、yleftleaderleader-yego和yrightleaderleader-yego分别代表对应车辆与应急车辆的纵向距离。
进一步地,所述步骤(3.3)中,优先区间的长度为:
Figure BDA0002786457840000031
其中,vleader和vego分别是前车和应急车辆的速度,而
Figure BDA0002786457840000033
Figure BDA0002786457840000034
分别为应急车辆和普通车辆的最大制动/启动加速度。
进一步地,所述步骤(2.4)中,得到的DQN网络的状态空间为:
Figure BDA0002786457840000032
式中,State Space为DQN网络的状态空间,Neighbors Features为状态空间的基本信息;Auxilliary Features为速度附加项;Avoiding Deny为避让策略执行情况参数。
进一步地,所述步骤(4)中,初始化DQN网络中,其目标网络和估计网络结构相同,均包括输入层、第一层、第二层和输出层;所述输入层包括31个神经元,所述第一层包括20个神经元,所述第二层包括10个神经元;且
所述第一层神经元X1的值为:
X1=W0Leaky-ReLU(X0)+B1
其中,W0为输入层与第一层之间的权重,Leaky_ReLU为激活函数,X0为31个神经元构成的输入向量;B1为第一层的偏置;且Leaky_ReLU函数为:
Leaky_ReLU(x)=max(0.2x,x)
所述第二层神经元X2的值为:
X2=W1Leaky_ReLU(X1)+B2
其中,W1为第一层与第二层之间的权重,B2为第二层的偏置;
所述输出层的值为:
Q=Softmax(W2X2)
其中,Q为动作空间
Figure BDA0002786457840000048
中每个动作的Q值经过softmax函数运算构成的5维向量;W2为第二层与输出层之间的权重;W2X2=[z1,z2,z3,z4,z5],zi为第二层输出分别对应于动作空间
Figure BDA0002786457840000047
中五个动作的值,i=1,2,3,4,5,且Softmax函数定义为:
Figure BDA0002786457840000041
Figure BDA0002786457840000049
Figure BDA00027864578400000410
其中,At为从这5个Q值中选取最大值对应的动作,也即初步决策。
进一步地,所述步骤(6)中,总奖励Rt的计算公式为:
Rt=rcol+rv+rlc+rcor
式中,rcol为安全驾驶的距离奖励;rv为瞬时速度奖励;rlc为平均换道次数奖励;rcor为整体通行效率奖励;各奖励值的计算公式分别为:
Figure BDA0002786457840000042
Figure BDA0002786457840000043
Figure BDA0002786457840000044
Figure BDA0002786457840000045
式中,n为应急车辆同车道上的待规划ICCV总数;vi是这n辆车中离待规划ICEV最近的第i辆待规划ICCV的速度,
Figure BDA0002786457840000046
是第i辆待规划ICCV的最大速度;dtotal为路段整体长度,即从上一个交叉口到下一个交叉口的距离;vmax、vmin分别为该路段上应急车辆的最大速度和最小速度。
进一步地,所述步骤(7)中,DQN网络的训练方法为:
(7.1)在记忆池
Figure BDA00027864578400000411
中随机取出最小训练批数量的状态转移记录(Ot,At,Rt,Ot+1);
(7.2)根据估计网络计算得到输出值Q,:
Q=Q(Ot,At;θ)
其中,Ot是t时刻的状态空间观测值,At为这一时刻智能体选择的动作,θ为估计网络的网络参数;
(7.3)根据目标网络计算得到输出Q′:
Figure BDA0002786457840000051
其中,γ为折扣因子,Rt为t时刻获得的即时奖励,Ot+1是t+1时刻的状态空间观测值,At+1为t+1时刻智能体选择的动作,θ-为目标网络的网络参数:
(7.4)经过预设训练迭代轮数
Figure BDA0002786457840000054
后,将目标网络的网络参数都赋值给估计网络,其中迭代轮数
Figure BDA0002786457840000055
根据实际情况而定:
θ←θ-
(7.5)计算损失函数时利用Huber Loss函数,即:
Figure BDA0002786457840000052
(7.6)利用梯度下降法对目标网络的网络参数进行更新,其中,α为学习率:
Figure BDA0002786457840000056
(7.7)重复步骤(7.1)~(7.6),循环训练,其中,每次训练时探索系数∈逐次从0.9降到0.1为止,同时在梯度下降法中用到的Adam优化器中对学习率α进行设置,使其不断衰减,也即学习率α:
Figure BDA0002786457840000053
其中,decay_rate为衰减率,global-step为训练总轮数,decay_steps为已经衰减的轮数。
本发明由于采取以上技术方案,其具有以下优点:
1)本发明待规划DQN网络的输入量为紧密的状态空间,提高了强化学习算法的数据利用率,节约了算力,也提升了DQN网络模型对道路拓扑结构的泛化能力。首先,该状态空间以几乎最少的数据,描述了应急车辆六个方向上邻居车辆存不存在、速度和相对距离的关系。其次,这种状态空间的数据组织形式相比传统的占据矩阵更能适应不同的道路拓扑结构,不仅可以在直道上应用,甚至可以在弯道、匝道甚至环岛等单向车流的承载路段上得到施展。
2)本发明在安全性和运输效率两方面采用连续奖励函数,代替了传统的离散稀疏奖励,更有效地刺激智能体学习;同时在奖励函数的设置方面,增加了对于整体交通流通行效率的考虑,将前车速度根据与本车的距离进行指数衰减加权平均作为奖励。
3)本发明将应急车辆的速度作为影响视野的因素,由此在观测值中引入速度适应项,构造了一种柔性可变的状态空间。应急车辆的速度越快,就会向状态空间补充附加项,这里采用自然语言处理中常用的神经网络输入层可变方式,即确定一个输入神经元数量的最大值,缺则补零。
4)本发明将确定性避让策略与深度强化学习方法进行有机结合,取长补短,最终的模型兼具稳定性与探索性。确定性避让策略的泛化能力差,无法适应复杂的交通场景,需要深度强化学习算法注入探索的能力,尽可能地在不同的交通场景中发现最优驾驶策略。但确定性避让策略的稳定性是深度强化学习无法比拟的,在初期实验中,确定性避让策略在稀疏车流下呈现出了良好的效果,而在相对饱和的正常车流下深度强化学习可以通过强大的探索能力,勇敢地自主换道,本发明使得两者相互补充,达到一个更好的驾驶效果。
综上,本发明可以广泛应用于道路换道决策控制领域。
附图说明
图1a和图1b分别是本发明由近邻车辆组成的紧密状态空间的基本部分的抽象模型和现实模型;
图2是本发明状态空间中的速度附加项;
图3是本发明算法流程框架;
图4是本发明中DQN方法的损失函数收敛性;
图5是本发明中DQN、DQN+避让策略混合算法在运行效率上的收敛性;
图6是没有考虑前方整体通行效率的混合策略遇到的局部堵塞现象。
图7是不同交通流密度下,考虑前方整体通行效率的合作式混合策略与没有考虑前方整体通行效率的混合策略对正常交通秩序的影响,其中深色和浅色轨迹分别代表ICEV和ICCV的时间距离关系。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明致力于把前车避让策略的执行情况与深度强化学习联系在一起,形成具有稳定性和探索能力的应急车辆路段换道跟驰方法。以深度强化学习中的DeepQ-Network为理论基础,将状态空间定义为由六个邻居车辆的是否在位、速度和与应急车辆的垂直距离,以及自车的速度、车道、离出口距离共同组成的向量,并在这个向量上创新性地加上了前车(leader car)的避让策略执行情况;将动作空间划分为:无操作、左侧换道、右侧换道、以预设加速度加速一个时间步长、以预设加速度减速一个时间步长;奖励函数从三个方面:安全性、运输效率、轨迹光滑程度来考虑,在安全性和运输效率两方面上使用连续的奖励函数,解决稀疏奖励的问题;为了防止连续奖励函数导致奖励值积累过多,从而造成的梯度爆炸的风险,本发明中的损失函数采用Huber Loss。具体的,包括以下步骤:
(1)如图1a和图1b所示,以典型的单向三车道2000米直道为优化路段,对该优化路段上的智能网联普通车辆和应急车辆的运行策略进行规划,其中,待规划智能网联普通车辆(ICCV)利用基于规则的避让策略,待规划智能网联应急车辆(ICEV)利用基于DQN网络的换道策略。
(2)对待规划的ICEV的DQN网络进行初始化。
具体的,包括以下步骤:
(2.1)初始化待规划ICEV的DQN网络中容量为N的记忆池(Replay Memory
Figure BDA0002786457840000072
),该记忆池
Figure BDA0002786457840000071
中可以容纳N条记录,每条记录(Ot,At,Rt,Ot+1)包含了现态状态空间、所做动作、奖励值和次态状态空间的信息。
(2.2)初始化待规划ICEV的DQN网络中的Evaluate Net(估计网络)神经网络权重参数为θ。
(2.3)初始化待规划ICEV的DQN网络中与Evaluate Net的结构和神经网络权重都相同的Target Net(目标网络)。
(2.4)设定路段的训练时间。
(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况,得到待规划ICEV的DQN网络的状态空间,用于对每一时刻待规划ICEV所处的环境进行感知。
具体的,包括以下步骤:
(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身(以下简称本车)的状态信息进行整合,得到DQN网络的状态空间的基本信息。
其中,本发明将待规划ICEV的六个邻居车辆分别定义为:左边车道离本车最近的前车(简称左前车Left Leader,下同)、左边车道离本车最近的后车(简称左后车LeftFollower)、右边车道离本车最近的前车(简称右前车Right Leader)、右边车道离本车最近的后车(简称右后车Right Follower)、离本车最近的前车(简称前车Leader)、离本车最近的后车(简称后车Follower),六个邻居车辆的状态信息包括:存在与否(Presence)、速度(Velocity)和相对自车的纵向距离(Distance2ego:y-yego);本车的状态信息包括:速度(Ego Velocity)、车道编号(Lane Index)、与路段出口的距离(Distance2goal)。
得到的状态空间的基本信息为:
Neighbors=<<Presenceleader,vleader,yleader-yego>,...<Presencefollower,vfollower,yfollower-yego>,<LaneIndexego,vego,Distance2goal>> (1)
其中,Presence代表该位置的邻居车辆是否存在,若存在赋以1,否则赋为0,Presence的下标包括leader、follower、leftleader、leftfollower、right leader、和rightfollower;v则代表了在Presence为1的情况下对应车辆的纵向速度,v的下标包括leader、follower、leftleader、leftfollower、right leader、rightfollower和ego;而y-yego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离(用对应车辆的纵向距离y减去应急车厢的纵向距离yego来计算),y的下标包括leader、follower、leftleader、left follower、right leader和right follower;LaneIndexego代表应急车辆的车道编号;Distance2goal代表应急车辆与路段出口的距离。
(3.2)如图2所示,根据待规划ICEV的当前速度与其最大速度,为定义的状态空间增加速度适应项,得到状态空间的速度附加项。
应急车辆的视野会随着速度的增快而扩大,因此,当应急车辆速度大于其最大速度的一半
Figure BDA0002786457840000081
时,状态空间中需加入左前车的前车(Left Leader Leader)、右前车的前车(Right Leader Leader)和前车的前车(Leader Leader)三个位置的车辆状态信息,包括存在与否Presence、速度Velocity和相对自车的纵向距离Distance2ego:y-yego,构成状态空间的速度附加项,如式(2):
Auxilliary Features=<<Presenceleaderleader,vleaderleader,yleaderleader-yego>,<Presenceleftleaderleader,vleftleaderleader,yleitleaderleader-yego>,<Presencerightleaderleader,vrightleaderleader,yrightleaderleader-yego>> (2)
其中,Presenceleaderleader、Presenceleftleaderleader和Presencerightleaderleader分别代表左前车的前车、右前车的前车以及前车的前车是否存在,若存在赋以1,否则赋为0;vleaderleader、vleftleaderleader和vrightleaderleader分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度;yleaderleader-yego、yleftleaderleader-yego和yrightleaderleader-yego分别代表对应车辆与应急车辆的纵向距离。
当应急车辆的当前速度不及其最大速度一半时,则将式(2)中对于左前车的前车(Left Leader Leader)、右前车的前车(Right Leader Leader)和前车的前车(LeaderLeader)三个位置的车辆状态信息置为0。
(3.3)根据待规划ICEV是否存在前车,定义优先区间的长度。
如果待规划ICEV存在前车,即Presenceleader=1,且vleader>vego,则定义优先区间的长度为:
Figure BDA0002786457840000091
其中,vleader和vego分别是前车和应急车辆的速度,而
Figure BDA0002786457840000095
Figure BDA0002786457840000096
分别为应急车辆(ICEV)和普通车辆(ICCV)的最大制动/启动加速度。
凡是在本车同车道的前方优先区间PriorityDistance距离内,将执行避让策略,也就是能换道优先换道,由于安全距离等因素的限制无法换道则加速;若前车执行了避让策略,则待规划ICEV将不能选择换道或者减速。
(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况,并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息,得到待规划ICEV的DQN网络完整的状态空间。
在一个时间步长后,如果前一时刻的前车执行了加速或者换道动作,则认为它服从了避让策略,将Avoiding Deny赋值为1,否则为0;将这个代表着避让策略执行情况的参数引入状态空间,与式(1)和式(2)中的部分状态信息共同构成了完整的DQN网络的状态空间,也即DQN网络的输入为:
Figure BDA0002786457840000092
(4)将步骤(3)得到的DQN网络完整的状态空间作为输入量输入DQN网络,得到t时刻的输出值Q,并从输出值Q中选取最大值将其对应的动作At作为初步决策。其中,DQN网络的输出值Q构成了动作空间
Figure BDA0002786457840000094
该动作空间
Figure BDA0002786457840000093
包括以3m/s2的加速度加速一个时间步长、以3m/s2的加速度减速一个时间步长、左侧换道、右侧换道、无操作5个动作。
本发明中设计的待规划ICEV的DQN目标网络和估计网络包括输入层、第一层、第二层和输出层。其中,输入层包括31个神经元,第一层和第二层分别包括20、10个神经元。表示状态空间的31维向量作为DQN网络输入层的31个神经元输入,以全连接的方式与第一层的20个神经元连接,则共有620条边,每条边上对应的权重wij表示输入层的第i个神经元与第一层的第j个神经元相连接的权重,同理任意两层之间的连接权重都可以采用权重的矩阵W表示(W∈Rm×n),其中m表示前一层的神经元个数,n表示下一层的神经元个数,也即权重矩阵W为:
Figure BDA0002786457840000101
且对于每一层的每一神经元均设置有偏置量bi,每一层的偏置量可以采用向量B表示(B∈RK),K表示当前层神经元的个数:
B=[b1…bk] (6)
令输入的31个神经元整体为向量X0,通过激活函数Leaky-ReLU函数,以全连接的方式连接至第一层的20个神经元上,输入层与第一层之间的权重为W0,第一层的偏置为B1,则第一层神经元X1的值为:
X1=W0Leaky_ReLU(X0)+B1 (7)
第一层神经元的值再通过Leaky_ReLU函数,以全连接的方式连接至第二层的10个神经元上,则第二层神经元X2的值为:
X2=W1Leaky_ReLU(X1)+B2 (8)
其中,W1为第一层与第二层之间的权重,B2为第二层的偏置,Leaky-ReLU函数为:
Leaky-ReLU(x)=max(0.2x,x) (9)
第二层的神经元以全连接的方式,通过Softmax函数连接至输出层的5维向量Q:
Q=Softmax(W2X2) (10)
其中,Q为动作空间
Figure BDA0002786457840000105
中每个动作的Q值经过softmax函数运算构成的5维向量;W2为第二层与输出层之间的权重;W2X2=[z1,z2,z3,z4,z5],zi为第二层输出分别对应于动作空间
Figure BDA0002786457840000106
中五个动作的值,i=1,2,3,4,5。
式(10)中,Softmax函数定义为:
Figure BDA0002786457840000102
Figure BDA0002786457840000103
Figure BDA0002786457840000104
其中,At为从这5个Q值中选取最大值并将其对应的动作作为初步决策。
(5)建立动作选择屏障,用于对步骤(4)得到的初步决策At进行验证和选择,直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构。
如图3所示,由于选出来的初步决策At可能会违反交通规则或者超出道路物理界限,因此要加上一道动作选择屏障(Rule-mask)作为先验知识,即如果ICEV向不存在的车道换道或者将速度加大规定最大速度以上,抑或是减速减到负数,都将重新从输出值Q中选择动作:
Figure BDA0002786457840000111
Figure BDA0002786457840000112
其中,∈为探索系数,选择动作时有1-∈的概率从输出值Q中选择,有∈的概率从动作空间进行随机选择。循环选择动作,直到最终选出的动作At满足交通规则和道路物理结构;如式5,
Figure BDA0002786457840000113
是原动作空间
Figure BDA0002786457840000114
除去被Rule-mask排除的动作后可选择的动作空间。
(6)定义奖励函数,用于对步骤(5)中得到的t时刻的动作所对应的总奖励Rt进行计算。
由于跟驰模型Krauss-β和换道模型LC2013(都是已有的完备模型,这里不再展开细讲)对待规划ICEV进行安全保护,所以做出的动作未必是DQN网络选出来的动作(如图3),所以只有真正服从了DQN网络的选择而没有被内置模型屏蔽掉的动作,即只有obey=1的动作才参与学习,也就是这样的动作才能分配奖励函数,否则将给出零奖励。奖励函数的设置主要从三方面考虑:安全性、运输效率、和轨迹光滑程度(又称乘客舒适性);这三个方面分别由这三个指标衡量:安全驾驶的距离、瞬时速度、平均换道次数,分别对应着rcol,rv和rlc的三种奖励。
其中,在安全性和通行效率方面采用了连续奖励函数,克服了稀疏奖励的低效性:安全性的奖励与安全驾驶距离dsurvive成正比如式(16),即安全驾驶距离越长得到的奖励越高;运输效率的奖励与当前的速度vcurrent成正比如式(17),即瞬时速度越快则得到的奖励越高。在轨迹光滑程度上,对车辆在达到最大速度时的换道行为施以负的奖励如式(18),因为本发明认为无法追求更大速度的换道动作是无意义行为,这样有利于模型收敛。
Figure BDA0002786457840000115
Figure BDA0002786457840000121
Figure BDA0002786457840000122
其中,rcol为安全驾驶的距离奖励;rv为瞬时速度奖励;rlc为平均换道次数奖励;dtotal为路段整体长度,即从上一个交叉口到下一个交叉口的距离;vmax、vmin分别为该路段上应急车辆的最大速度和最小速度。
除此之外经过实验发现,为了防止ICEV过多换道对ICCV交通流产生巨大扰动反而使得ICEV通行效率降低的情况出现,还需要附加一个表征整体通行效率的奖励rcor如式(19)来抑制ICEV对ICCV的过度竞争和车道侵占,提高ICEV的利他性反而会提高整体通行效率,从而避免随之带来的局部堵塞,ICEV的旅途时间也会缩短。整个式(19)是对每一辆同车道前车的速度进行纵向间距的衰减指数加权(离待规划ICEV越近的ICCV的速度权重越大,在奖励中占比越大),再归一化的过程。以上所有奖励的总和才是t时刻交互一次得到的总奖励Rt如式(20):
Figure BDA0002786457840000123
Rt=rcol+rv+rlc+rcor (20)
其中,n为应急车辆同车道上的ICCV总数;vi是这n辆车中离待规划ICEV最近的第i辆ICCV的速度,
Figure BDA0002786457840000124
是第i辆ICCV的最大速度。
(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数,对已经初始化的DQN网络进行训练,得到训练好的DQN网络,用于对优化路段上的待规划ICEV的混合换道进行决策。
其中,DQN网络的训练方法为:
(7.1)在记忆池
Figure BDA0002786457840000126
中随机取出最小训练批数量(mini-batch)的状态转移记录(Ot,At,Rt,Ot+1)。
(7.2)根据图3中的估计网络(Evaluate Net)计算得到输出值Q,计算公式为:
Q=Q(Ot,At;θ) (21)
其中,Ot是t时刻的状态空间观测值,At为t时刻智能体选择的动作,θ为EvaluateNet的神经网络权重参数。
(7.3)根据目标网络(Target Net)如式(22)计算得到输出Q′,计算公式为:
Figure BDA0002786457840000125
其中,γ为折扣因子,Rt为t时刻获得的即时奖励,Ot+1是t+1时刻的状态空间观测值,At+1为t+1时刻智能体选择的动作,θ-为Target Net的网络参数。
(7.4)经过预设的训练迭代轮数
Figure BDA0002786457840000134
后,将目标网络的参数都赋值给估计网络,其中,训练迭代轮数
Figure BDA0002786457840000135
根据实际情况而定:
θ←θ-(23)
(7.5)在计算损失函数时利用如式(24)所示的Huber Loss函数,来解决奖励值密集累积可能导致的梯度爆炸问题:
Figure BDA0002786457840000131
(7.6)利用梯度下降法(技术已经公开的方法,细节不再赘述)对目标网络的网络参数进行更新:
Figure BDA0002786457840000133
其中,α为学习率。
(7.7)循环训练。其中,每次训练时探索系数∈都将下降,从0.9降到0.1为止;同时在梯度下降法中用到的Adam优化器中设置不断衰减的学习率α,以使其在能收敛的同时又不落入局部最优。
Figure BDA0002786457840000132
其中,decay-rate为衰减率,global_step为训练总轮数,decay_steps为已经衰减的轮数。
实施例一
下面通过具体实例详细说明本发明在智能网联应急车辆路段决策方面的效果:
1、首先,算法的强化学习部分得到了很好的收敛效果如图4所示,描述了损失函数值在近200000步的训练后趋于零的效果显著;
2、在训练过程中监测DQN策略和“DQN+避让”混合策略的速度收敛性如图5所示,都可以收敛到比基线(默认跟驰模型:图中虚线所示)更低的通行时间;
3、本来应该混合策略应该更稳定,但是如图5可以看出并不是这样,往往会出现如图6所示的场景,即由于ICEV大量的换道导致前车不断执行避让动作,是的前方交通流混乱无序,反而形成了局部的堵塞,抑制了ICEV加速,所以ICEV需要调整学习策略,考虑前车通行效率,得到了本发明最终的算法如表1所示:“DQN+避让策略(考虑前方交通效率)”。
4、在0.5veh/s、1veh/s、1.5veh/s的ICCV车流下,分别对基线(默认跟驰算法Krauss-β)、DQN、避让策略、DQN+避让策略的混合策略和考虑前方交通情况的DQN+避让策略混合策略:
(1)从安全性的角度看,含有本发明中提出的DQN部分的实验均取得了远低于确定性算法的事故率;
(2)再从运行速度的角度看,单独的DQN算法不及单独的避让策略,而DQN+避让策略的混合策略也不比单独的避让策略有优势;然而本发明中考虑前方交通效率的混合策略则取得了更快的速度;在图7中体现了这种考虑前方整体通行效率的合作式混合策略与没有考虑前方整体通行效率的混合策略对正常交通秩序的影响,均可以明显看出改进后具有合作倾向的混合策略会更少地侵占ICCV的道路通行权,所有图线更加均匀稳定,整体交通流更有秩序,最后在表1中反映为换道频率的降低和响应时间的缩短。
(3)从换道频次(轨迹光滑程度、乘客舒适度)来看,本发明的方法克服了DQN中无意义换道地倾向;
(4)从不同的交通流量来看,在相比在高交通流下(如:1veh/s、1.5veh/s),正常流量下(0.5veh/s)本发明的效果更加出色;
表1.实验效果对比
Figure BDA0002786457840000141
Figure BDA0002786457840000151
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,包括以下步骤:
(1)确定优化路段,并对优化路段上待规划ICCV和ICEV的运行策略进行规划;其中,待规划ICCV利用基于规则的避让策略,待规划ICEV利用基于DQN网络的混合换道策略;
(2)对待规划ICEV的DQN网络进行初始化;
(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况,得到待规划ICEV的DQN网络的状态空间;
(4)将步骤(3)得到的DQN网络的状态空间作为输入量输入初始化后的DQN网络,得到t时刻的输出值Q,并基于输出值Q得到初步决策以及动作空间;
(5)建立动作选择屏障,用于以探索系数∈对步骤(4)得到的初步决策进行验证和选择,直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构;
(6)定义奖励函数,用于对步骤(5)中得到的动作所对应的总奖励Rt进行计算;
(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数,对步骤(2)中初始化的DQN网络进行训练,得到训练好的DQN网络,对优化路段上的待规划ICEV的混合换道进行决策。
2.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(2)中,对待规划ICEV的DQN网络进行初始化的方法,包括以下步骤:
(2.1)初始化待规划ICEV的DQN网络的记忆池
Figure FDA0002786457830000012
该记忆池
Figure FDA0002786457830000011
能够容纳N条记录,每条记录(Ot,At,Rt,Ot+1)包含了现态状态空间、所做动作、奖励值和次态状态空间的信息;
(2.2)初始化待规划ICEV的DQN网络中的估计网络的结构及其神经网络权重参数;
(2.3)初始化待规划ICEV的DQN网络中的目标网络,使其与估计网络的结构和神经网络权重都相同;
(2.4)设定路段的训练时间。
3.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3)中,待规划ICEV的DQN网络的状态空间的获得方法,包括以下步骤:
(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身的状态信息进行整合,得到状态空间的基本信息;
(3.2)根据待规划ICEV的当前速度与其最大速度,得到状态空间的速度附加项;
(3.3)根据待规划ICEV是否存在前车,定义优先区间的长度;
(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况,并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息,得到待规划ICEV的DQN网络的状态空间。
4.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3.1)中,得到的状态空间的基本信息为:
Neighbors=<<Presenceleader,vleader,yleader-yego>,...<Presencefollower,vfollower,yfollower-yego>,<LaneIndexego,vego,Distance2go>>
其中,Presence代表该位置的邻居车辆是否存在,若存在赋以1,否则赋为0,Presence的下标包括leader、follower、left leader、left follower、right leader、和rightfollower;v则代表了在Presence为1的情况下对应车辆的纵向速度,v的下标包括leader、follower、left leader、left follower、right leader、right follower和ego;而y-yego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离,用对应车辆的纵向距离y减去应急车厢的纵向距离yego计算得到,y的下标包括leader、follower、left leader、left follower、right leader和right follower;LaneIndexego代表应急车辆的车道编号;Distance2goal代表应急车辆与路段出口的距离。
5.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3.2)中,得到的速度附加项为:
Auxilliary Features=<<Presenceleaderleader,vleaderleader,yleaderleader-yego>,<Presenceleftleaderleader,vleftleaderleader,yleitleaderleader-yego>,<Presencerightleaderleader,vrightleaderleader,yrightleaderleader-yego>>
式中,Presenceleaderleader、Presenceleftleaderleader和Presencerightleaderleader分别代表左前车的前车、右前车的前车以及前车的前车是否存在,若存在赋以1,否则赋为0;vleaderleader、vleftleaderleader和vrightleaderleader分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度;yleaderleader-yego、yleftleaderleader-yego和yrightleaderleader-yego分别代表对应车辆与应急车辆的纵向距离。
6.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3.3)中,优先区间的长度为:
Figure FDA0002786457830000031
其中,vleader和vego分别是前车和应急车辆的速度,而
Figure FDA0002786457830000035
Figure FDA0002786457830000036
分别为应急车辆和普通车辆的最大制动/启动加速度。
7.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(2.4)中,得到的DQN网络的状态空间为:
Figure FDA0002786457830000032
式中,State Space为DQN网络的状态空间,Neighbors Features为状态空间的基本信息;Auxilliary Features为速度附加项;Avoiding Deny为避让策略执行情况参数。
8.如权利要求2所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(4)中,初始化DQN网络中,其目标网络和估计网络结构相同,均包括输入层、第一层、第二层和输出层;所述输入层包括31个神经元,所述第一层包括20个神经元,所述第二层包括10个神经元;且
所述第一层神经元X1的值为:
X1=W0Leaky_ReLU(X0)+B1
其中,W0为输入层与第一层之间的权重,Leaky_ReLU为激活函数,X0为31个神经元构成的输入向量;B1为第一层的偏置;且Leaky_ReLU函数为:
Leaky_ReLU(x)=max(0.2x,x)
所述第二层神经元X2的值为:
X2=W1Leaky_ReLU(X1)+B2
其中,W1为第一层与第二层之间的权重,B2为第二层的偏置;
所述输出层的值为:
Q=Softmax(W2X2)
其中,Q为动作空间
Figure FDA0002786457830000037
中每个动作的Q值经过softmax函数运算构成的5维向量;W2为第二层与输出层之间的权重;W2X2=[z1,z2,z3,z4,z5],zi为第二层输出分别对应于动作空间
Figure FDA0002786457830000038
中五个动作的值,i=1,2,3,4,5,且Softmax函数定义为:
Figure FDA0002786457830000033
Figure FDA0002786457830000034
Figure FDA0002786457830000041
其中,At为从这5个Q值中选取最大值对应的动作,也即初步决策。
9.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(6)中,总奖励Rt的计算公式为:
Rt=rcol+rv+rlc+rcor
式中,rcol为安全驾驶的距离奖励;rv为瞬时速度奖励;rlc为平均换道次数奖励;rcor为整体通行效率奖励;各奖励值的计算公式分别为:
Figure FDA0002786457830000042
Figure FDA0002786457830000043
Figure FDA0002786457830000044
Figure FDA0002786457830000045
式中,n为应急车辆同车道上的待规划ICCV总数;vi是这n辆车中离待规划ICEV最近的第i辆待规划ICCV的速度,
Figure FDA0002786457830000046
是第i辆待规划ICCV的最大速度;dtotal为路段整体长度,即从上一个交叉口到下一个交叉口的距离;vmax、vmin分别为该路段上应急车辆的最大速度和最小速度。
10.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(7)中,DQN网络的训练方法为:
(7.1)在记忆池
Figure FDA0002786457830000048
中随机取出最小训练批数量的状态转移记录(Ot,At,Rt,Ot+1);
(7.2)根据估计网络计算得到输出值Q,:
Q=Q(Ot,At;θ)
其中,Ot是t时刻的状态空间观测值,At为这一时刻智能体选择的动作,θ为估计网络的网络参数;
(7.3)根据目标网络计算得到输出Q′:
Figure FDA0002786457830000047
其中,γ为折扣因子,Rt为t时刻获得的即时奖励,Ot+1是t+1时刻的状态空间观测值,At+1为t+1时刻智能体选择的动作,θ-为目标网络的网络参数:
(7.4)经过预设训练迭代轮数
Figure FDA0002786457830000049
后,将目标网络的网络参数都赋值给估计网络,其中迭代轮数
Figure FDA00027864578300000410
根据实际情况而定:
θ←θ-
(7.5)计算损失函数时利用Huber Loss函数,即:
Figure FDA0002786457830000051
(7.6)利用梯度下降法对目标网络的网络参数进行更新,其中,α为学习率:
Figure FDA0002786457830000052
(7.7)重复步骤(7.1)~(7.6),循环训练,其中,每次训练时探索系数∈逐次从0.9降到0.1为止,同时在梯度下降法中用到的Adam优化器中对学习率进行设置,使其不断衰减,也即学习率α为:
Figure FDA0002786457830000053
其中,decay_rate为衰减率,global_step为训练总轮数,decay_steps为已经衰减的轮数。
CN202011299719.1A 2020-11-19 2020-11-19 基于强化学习和避让策略的应急车辆混合换道决策方法 Active CN112406867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011299719.1A CN112406867B (zh) 2020-11-19 2020-11-19 基于强化学习和避让策略的应急车辆混合换道决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011299719.1A CN112406867B (zh) 2020-11-19 2020-11-19 基于强化学习和避让策略的应急车辆混合换道决策方法

Publications (2)

Publication Number Publication Date
CN112406867A true CN112406867A (zh) 2021-02-26
CN112406867B CN112406867B (zh) 2021-12-28

Family

ID=74774140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011299719.1A Active CN112406867B (zh) 2020-11-19 2020-11-19 基于强化学习和避让策略的应急车辆混合换道决策方法

Country Status (1)

Country Link
CN (1) CN112406867B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113128770A (zh) * 2021-04-23 2021-07-16 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113299078A (zh) * 2021-03-29 2021-08-24 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113306558A (zh) * 2021-07-30 2021-08-27 北京理工大学 一种基于换道交互意图的换道决策方法及系统
CN113324556A (zh) * 2021-06-04 2021-08-31 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113581182A (zh) * 2021-09-07 2021-11-02 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN113928321A (zh) * 2021-11-24 2022-01-14 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN114056328A (zh) * 2021-11-01 2022-02-18 中国电子科技南湖研究院 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
CN114360290A (zh) * 2021-12-08 2022-04-15 四川智慧高速科技有限公司 一种基于强化学习的交叉口前车辆群体车道选择方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
EP3629105A1 (en) * 2018-09-27 2020-04-01 Bayerische Motoren Werke Aktiengesellschaft High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111301419A (zh) * 2018-12-12 2020-06-19 威斯通全球技术公司 用于sae 4级自动化车道变更的基于强化学习的方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3629105A1 (en) * 2018-09-27 2020-04-01 Bayerische Motoren Werke Aktiengesellschaft High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning
CN111301419A (zh) * 2018-12-12 2020-06-19 威斯通全球技术公司 用于sae 4级自动化车道变更的基于强化学习的方法
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NIU HAOYI等: "Tactical Decision Making for Emergency Vehicles Based on A Combinational Learning Method", 《ARXIV》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113299078B (zh) * 2021-03-29 2022-04-08 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113299078A (zh) * 2021-03-29 2021-08-24 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113128770B (zh) * 2021-04-23 2022-08-09 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113128770A (zh) * 2021-04-23 2021-07-16 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113324556B (zh) * 2021-06-04 2024-03-26 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113324556A (zh) * 2021-06-04 2021-08-31 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113306558A (zh) * 2021-07-30 2021-08-27 北京理工大学 一种基于换道交互意图的换道决策方法及系统
CN113581182A (zh) * 2021-09-07 2021-11-02 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN113581182B (zh) * 2021-09-07 2024-04-19 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN114056328A (zh) * 2021-11-01 2022-02-18 中国电子科技南湖研究院 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
CN114056328B (zh) * 2021-11-01 2024-04-26 中国电子科技南湖研究院 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
CN113928321A (zh) * 2021-11-24 2022-01-14 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN113928321B (zh) * 2021-11-24 2022-08-26 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN114360290B (zh) * 2021-12-08 2023-07-28 四川智慧高速科技有限公司 一种基于强化学习的交叉口前车辆群体车道选择方法
CN114360290A (zh) * 2021-12-08 2022-04-15 四川智慧高速科技有限公司 一种基于强化学习的交叉口前车辆群体车道选择方法

Also Published As

Publication number Publication date
CN112406867B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN112406867B (zh) 基于强化学习和避让策略的应急车辆混合换道决策方法
CN111081065B (zh) 路段混行条件下的智能车辆协同换道决策模型
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
Zhang et al. Reinforcement learning-based motion planning for automatic parking system
CN103324085B (zh) 基于监督式强化学习的最优控制方法
CN114013443A (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN113253739A (zh) 一种用于高速公路的驾驶行为决策方法
WO2022252457A1 (zh) 一种自动驾驶控制方法、装置、设备及可读存储介质
CN112918486B (zh) 一种时空行为决策及轨迹规划系统及方法
CN115826581A (zh) 一种模糊控制与强化学习结合的移动机器人路径规划算法
CN113581182A (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN113120003B (zh) 无人驾驶车辆运动行为决策方法
Yildirim et al. Prediction based decision making for autonomous highway driving
Fu et al. Cooperative decision-making of multiple autonomous vehicles in a connected mixed traffic environment: A coalition game-based model
CN116674529A (zh) 非结构化场景自动驾驶车辆的泊车路径规划及泊车方法
CN116224996A (zh) 一种基于对抗强化学习的自动驾驶优化控制方法
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
Jafari et al. CHAMP: Integrated Logic with Reinforcement Learning for Hybrid Decision Making for Autonomous Vehicle Planning
Elallid et al. Vehicles control: Collision avoidance using federated deep reinforcement learning
Gu et al. Mandatory Lane-Changing Decision-Making in Dense Traffic for Autonomous Vehicles based on Deep Reinforcement Learning
CN116540602B (zh) 一种基于路段安全级别dqn的车辆无人驾驶方法
CN117057431A (zh) 一种冰雪环境人车决策一致性评估方法
CN114613170B (zh) 一种基于强化学习的交通信号灯路口协调控制方法
CN116884238A (zh) 基于强化学习的智能车辆高速公路匝道汇入决策方法
Wang et al. A Game-Theory and Risk-Field Based Automated Vehicle Motion Planning Method for Mixed Traffic Environments at Uncontrolled Intersections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant