CN112406867A - 基于强化学习和避让策略的应急车辆混合换道决策方法 - Google Patents
基于强化学习和避让策略的应急车辆混合换道决策方法 Download PDFInfo
- Publication number
- CN112406867A CN112406867A CN202011299719.1A CN202011299719A CN112406867A CN 112406867 A CN112406867 A CN 112406867A CN 202011299719 A CN202011299719 A CN 202011299719A CN 112406867 A CN112406867 A CN 112406867A
- Authority
- CN
- China
- Prior art keywords
- network
- planned
- icev
- vehicle
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 230000008859 change Effects 0.000 title claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000004888 barrier function Effects 0.000 claims abstract description 8
- 210000002569 neuron Anatomy 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000013486 operation strategy Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 7
- 238000002156 mixing Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 210000002364 input neuron Anatomy 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013383 initial experiment Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于强化学习和避让策略的应急车辆混合换道决策方法,包括:确定优化路段以及待规划ICCV和ICEV的执行策略;对待规划ICEV的DQN网络进行初始化;基于待规划ICEV及其六个邻居车辆的状态信息以及其前车的避让策略执行情况,得到DQN网络的状态空间;基于DQN网络的状态空间得到输出值,基于输出值得到初步决策以及动作空间;建立动作选择屏障,对得到的初步决策进行验证和选择,直到从输出值或动作空间中最终选出的动作满足交通规则和道路物理结构;定义奖励函数,用于对该动作所对应的总奖励进行计算;对DQN网络进行训练,得到训练好的DQN网络。本发明可以广泛应用于道路换道决策控制领域。
Description
技术领域
本发明属于道路换道决策控制领域,尤其涉及一种基于强化学习和避让策略的应急车辆混合换道决策方法。
背景技术
目前,减少应急车辆响应时间的相关研究大都集中在路线优化和交通信号灯的控制上,试图从宏观调度的角度去解决问题,比如:Dijkstra算法、蚁群算法(ACA)、A*和混合蛙跳算法(SFLA)。但是,这些宏观方法并没有充分利用实时交通数据,很少有对自动驾驶应急车辆进行微观控制的,也几乎没有考虑对正常交通流的影响,并且忽视了直道上响应时间的延迟。
此外,少部分研究提到了在直道上对应急车辆自动驾驶进行微观控制的确定性算法,比如一系列的跟驰换道策略,包括了一些针对性的避让策略,但是与深度强化学习获得的策略相比它们更难泛化到各种不同的交通场景,而且在探索更快的速度方面不见得是最优的。
发明内容
针对上述问题,本发明的目的是提供一种基于强化学习和避让策略的应急车辆混合换道决策方法,该方法通过将确定性避让策略的稳定性和深度强化学习的探索性和泛化能力相融合,使得两种策略取长补短,能够缩短任何直道环境中应急车辆的响应时间,为应急车辆提出一种省时、实时、数据利用率高的微观直道决策方法,该方法需要在完全自动驾驶的交通流中实施。
为实现上述目的,本发明采取以下技术方案:一种基于强化学习和避让策略的应急车辆混合换道决策方法,其包括以下步骤:
(1)确定优化路段,并对优化路段上待规划ICCV和ICEV的运行策略进行规划;其中,待规划ICCV利用基于规则的避让策略,待规划ICEV利用基于DQN网络的混合换道策略;
(2)对待规划ICEV的DQN网络进行初始化;
(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况,得到待规划ICEV的DQN网络的状态空间;
(4)将步骤(3)得到的DQN网络的状态空间作为输入量输入初始化后的DQN网络,得到t时刻的输出值Q,并基于输出值Q得到初步决策以及动作空间;
(5)建立动作选择屏障,用于以探索系数∈对步骤(4)得到的初步决策进行验证和选择,直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构;
(6)定义奖励函数,用于对步骤(5)中得到的动作所对应的总奖励Rt进行计算;
(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数,对步骤(2)中初始化的DQN网络进行训练,得到训练好的DQN网络,对优化路段上的待规划ICEV的混合换道进行决策。
进一步地,所述步骤(2)中,对待规划ICEV的DQN网络进行初始化的方法,包括以下步骤:
(2.2)初始化待规划ICEV的DQN网络中的估计网络结构及其神经网络权重参数;
(2.3)初始化待规划ICEV的DQN网络中的目标网络,使其与估计网络的结构和神经网络权重都相同;
(2.4)设定路段的训练时间。
进一步地,所述步骤(3)中,待规划ICEV的DQN网络的状态空间的获得方法,包括以下步骤:
(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身的状态信息进行整合,得到状态空间的基本信息;
(3.2)根据待规划ICEV的当前速度与其最大速度,得到状态空间的速度附加项;
(3.3)根据待规划ICEV是否存在前车,定义优先区间的长度;
(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况,并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息,得到待规划ICEV的DQN网络的状态空间。
进一步地,所述步骤(3.1)中,得到的状态空间的基本信息为:
Neighbors=<<Presenceleader,vleader,yleader-yego>,...<Presencefollower,vfollower,yfollower-yego>,<LaneIndexego,vego,Distance2go>>
其中,Presence代表该位置的邻居车辆是否存在,若存在赋以1,否则赋为0,Presence的下标包括leader、follower、leftleader、leftfollower、right leader、和rightfollower;v则代表了在Presence为1的情况下对应车辆的纵向速度,v的下标包括leader、follower、leftleader、leftfollower、right leader、rightfollower和ego;而y-yego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离,用对应车辆的纵向距离y减去应急车厢的纵向距离yego计算得到,y的下标包括leader、follower、leftleader、leftfollower、right leader和rightfollower;LaneIndexego代表应急车辆的车道编号;Distance2goal代表应急车辆与路段出口的距离。
进一步地,所述步骤(3.2)中,得到的速度附加项为:
Auxilliary Features=<<Presenceleaderleader,vleaderleader,yleaderleader-yego>,<Presenceleftleaderleader,vleftleaderleader,yleftleaderleader-yego>,<Presencerightleaderleader,vrightleaderleader,yrightleaderleader-yego>>
式中,Presenceleaderleader、Presenceleftleaderleader和Presencerightleaderleader分别代表左前车的前车、右前车的前车以及前车的前车是否存在,若存在赋以1,否则赋为0;vleaderleader、vleftleaderleader和vrightleaderleader分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度;yleaderleader-yego、yleftleaderleader-yego和yrightleaderleader-yego分别代表对应车辆与应急车辆的纵向距离。
进一步地,所述步骤(3.3)中,优先区间的长度为:
进一步地,所述步骤(2.4)中,得到的DQN网络的状态空间为:
式中,State Space为DQN网络的状态空间,Neighbors Features为状态空间的基本信息;Auxilliary Features为速度附加项;Avoiding Deny为避让策略执行情况参数。
进一步地,所述步骤(4)中,初始化DQN网络中,其目标网络和估计网络结构相同,均包括输入层、第一层、第二层和输出层;所述输入层包括31个神经元,所述第一层包括20个神经元,所述第二层包括10个神经元;且
所述第一层神经元X1的值为:
X1=W0Leaky-ReLU(X0)+B1
其中,W0为输入层与第一层之间的权重,Leaky_ReLU为激活函数,X0为31个神经元构成的输入向量;B1为第一层的偏置;且Leaky_ReLU函数为:
Leaky_ReLU(x)=max(0.2x,x)
所述第二层神经元X2的值为:
X2=W1Leaky_ReLU(X1)+B2
其中,W1为第一层与第二层之间的权重,B2为第二层的偏置;
所述输出层的值为:
Q=Softmax(W2X2)
其中,Q为动作空间中每个动作的Q值经过softmax函数运算构成的5维向量;W2为第二层与输出层之间的权重;W2X2=[z1,z2,z3,z4,z5],zi为第二层输出分别对应于动作空间中五个动作的值,i=1,2,3,4,5,且Softmax函数定义为:
其中,At为从这5个Q值中选取最大值对应的动作,也即初步决策。
进一步地,所述步骤(6)中,总奖励Rt的计算公式为:
Rt=rcol+rv+rlc+rcor
式中,rcol为安全驾驶的距离奖励;rv为瞬时速度奖励;rlc为平均换道次数奖励;rcor为整体通行效率奖励;各奖励值的计算公式分别为:
式中,n为应急车辆同车道上的待规划ICCV总数;vi是这n辆车中离待规划ICEV最近的第i辆待规划ICCV的速度,是第i辆待规划ICCV的最大速度;dtotal为路段整体长度,即从上一个交叉口到下一个交叉口的距离;vmax、vmin分别为该路段上应急车辆的最大速度和最小速度。
进一步地,所述步骤(7)中,DQN网络的训练方法为:
(7.2)根据估计网络计算得到输出值Q,:
Q=Q(Ot,At;θ)
其中,Ot是t时刻的状态空间观测值,At为这一时刻智能体选择的动作,θ为估计网络的网络参数;
(7.3)根据目标网络计算得到输出Q′:
其中,γ为折扣因子,Rt为t时刻获得的即时奖励,Ot+1是t+1时刻的状态空间观测值,At+1为t+1时刻智能体选择的动作,θ-为目标网络的网络参数:
θ←θ-
(7.5)计算损失函数时利用Huber Loss函数,即:
(7.6)利用梯度下降法对目标网络的网络参数进行更新,其中,α为学习率:
(7.7)重复步骤(7.1)~(7.6),循环训练,其中,每次训练时探索系数∈逐次从0.9降到0.1为止,同时在梯度下降法中用到的Adam优化器中对学习率α进行设置,使其不断衰减,也即学习率α:
其中,decay_rate为衰减率,global-step为训练总轮数,decay_steps为已经衰减的轮数。
本发明由于采取以上技术方案,其具有以下优点:
1)本发明待规划DQN网络的输入量为紧密的状态空间,提高了强化学习算法的数据利用率,节约了算力,也提升了DQN网络模型对道路拓扑结构的泛化能力。首先,该状态空间以几乎最少的数据,描述了应急车辆六个方向上邻居车辆存不存在、速度和相对距离的关系。其次,这种状态空间的数据组织形式相比传统的占据矩阵更能适应不同的道路拓扑结构,不仅可以在直道上应用,甚至可以在弯道、匝道甚至环岛等单向车流的承载路段上得到施展。
2)本发明在安全性和运输效率两方面采用连续奖励函数,代替了传统的离散稀疏奖励,更有效地刺激智能体学习;同时在奖励函数的设置方面,增加了对于整体交通流通行效率的考虑,将前车速度根据与本车的距离进行指数衰减加权平均作为奖励。
3)本发明将应急车辆的速度作为影响视野的因素,由此在观测值中引入速度适应项,构造了一种柔性可变的状态空间。应急车辆的速度越快,就会向状态空间补充附加项,这里采用自然语言处理中常用的神经网络输入层可变方式,即确定一个输入神经元数量的最大值,缺则补零。
4)本发明将确定性避让策略与深度强化学习方法进行有机结合,取长补短,最终的模型兼具稳定性与探索性。确定性避让策略的泛化能力差,无法适应复杂的交通场景,需要深度强化学习算法注入探索的能力,尽可能地在不同的交通场景中发现最优驾驶策略。但确定性避让策略的稳定性是深度强化学习无法比拟的,在初期实验中,确定性避让策略在稀疏车流下呈现出了良好的效果,而在相对饱和的正常车流下深度强化学习可以通过强大的探索能力,勇敢地自主换道,本发明使得两者相互补充,达到一个更好的驾驶效果。
综上,本发明可以广泛应用于道路换道决策控制领域。
附图说明
图1a和图1b分别是本发明由近邻车辆组成的紧密状态空间的基本部分的抽象模型和现实模型;
图2是本发明状态空间中的速度附加项;
图3是本发明算法流程框架;
图4是本发明中DQN方法的损失函数收敛性;
图5是本发明中DQN、DQN+避让策略混合算法在运行效率上的收敛性;
图6是没有考虑前方整体通行效率的混合策略遇到的局部堵塞现象。
图7是不同交通流密度下,考虑前方整体通行效率的合作式混合策略与没有考虑前方整体通行效率的混合策略对正常交通秩序的影响,其中深色和浅色轨迹分别代表ICEV和ICCV的时间距离关系。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明致力于把前车避让策略的执行情况与深度强化学习联系在一起,形成具有稳定性和探索能力的应急车辆路段换道跟驰方法。以深度强化学习中的DeepQ-Network为理论基础,将状态空间定义为由六个邻居车辆的是否在位、速度和与应急车辆的垂直距离,以及自车的速度、车道、离出口距离共同组成的向量,并在这个向量上创新性地加上了前车(leader car)的避让策略执行情况;将动作空间划分为:无操作、左侧换道、右侧换道、以预设加速度加速一个时间步长、以预设加速度减速一个时间步长;奖励函数从三个方面:安全性、运输效率、轨迹光滑程度来考虑,在安全性和运输效率两方面上使用连续的奖励函数,解决稀疏奖励的问题;为了防止连续奖励函数导致奖励值积累过多,从而造成的梯度爆炸的风险,本发明中的损失函数采用Huber Loss。具体的,包括以下步骤:
(1)如图1a和图1b所示,以典型的单向三车道2000米直道为优化路段,对该优化路段上的智能网联普通车辆和应急车辆的运行策略进行规划,其中,待规划智能网联普通车辆(ICCV)利用基于规则的避让策略,待规划智能网联应急车辆(ICEV)利用基于DQN网络的换道策略。
(2)对待规划的ICEV的DQN网络进行初始化。
具体的,包括以下步骤:
(2.1)初始化待规划ICEV的DQN网络中容量为N的记忆池(Replay Memory),该记忆池中可以容纳N条记录,每条记录(Ot,At,Rt,Ot+1)包含了现态状态空间、所做动作、奖励值和次态状态空间的信息。
(2.2)初始化待规划ICEV的DQN网络中的Evaluate Net(估计网络)神经网络权重参数为θ。
(2.3)初始化待规划ICEV的DQN网络中与Evaluate Net的结构和神经网络权重都相同的Target Net(目标网络)。
(2.4)设定路段的训练时间。
(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况,得到待规划ICEV的DQN网络的状态空间,用于对每一时刻待规划ICEV所处的环境进行感知。
具体的,包括以下步骤:
(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身(以下简称本车)的状态信息进行整合,得到DQN网络的状态空间的基本信息。
其中,本发明将待规划ICEV的六个邻居车辆分别定义为:左边车道离本车最近的前车(简称左前车Left Leader,下同)、左边车道离本车最近的后车(简称左后车LeftFollower)、右边车道离本车最近的前车(简称右前车Right Leader)、右边车道离本车最近的后车(简称右后车Right Follower)、离本车最近的前车(简称前车Leader)、离本车最近的后车(简称后车Follower),六个邻居车辆的状态信息包括:存在与否(Presence)、速度(Velocity)和相对自车的纵向距离(Distance2ego:y-yego);本车的状态信息包括:速度(Ego Velocity)、车道编号(Lane Index)、与路段出口的距离(Distance2goal)。
得到的状态空间的基本信息为:
Neighbors=<<Presenceleader,vleader,yleader-yego>,...<Presencefollower,vfollower,yfollower-yego>,<LaneIndexego,vego,Distance2goal>> (1)
其中,Presence代表该位置的邻居车辆是否存在,若存在赋以1,否则赋为0,Presence的下标包括leader、follower、leftleader、leftfollower、right leader、和rightfollower;v则代表了在Presence为1的情况下对应车辆的纵向速度,v的下标包括leader、follower、leftleader、leftfollower、right leader、rightfollower和ego;而y-yego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离(用对应车辆的纵向距离y减去应急车厢的纵向距离yego来计算),y的下标包括leader、follower、leftleader、left follower、right leader和right follower;LaneIndexego代表应急车辆的车道编号;Distance2goal代表应急车辆与路段出口的距离。
(3.2)如图2所示,根据待规划ICEV的当前速度与其最大速度,为定义的状态空间增加速度适应项,得到状态空间的速度附加项。
应急车辆的视野会随着速度的增快而扩大,因此,当应急车辆速度大于其最大速度的一半时,状态空间中需加入左前车的前车(Left Leader Leader)、右前车的前车(Right Leader Leader)和前车的前车(Leader Leader)三个位置的车辆状态信息,包括存在与否Presence、速度Velocity和相对自车的纵向距离Distance2ego:y-yego,构成状态空间的速度附加项,如式(2):
Auxilliary Features=<<Presenceleaderleader,vleaderleader,yleaderleader-yego>,<Presenceleftleaderleader,vleftleaderleader,yleitleaderleader-yego>,<Presencerightleaderleader,vrightleaderleader,yrightleaderleader-yego>> (2)
其中,Presenceleaderleader、Presenceleftleaderleader和Presencerightleaderleader分别代表左前车的前车、右前车的前车以及前车的前车是否存在,若存在赋以1,否则赋为0;vleaderleader、vleftleaderleader和vrightleaderleader分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度;yleaderleader-yego、yleftleaderleader-yego和yrightleaderleader-yego分别代表对应车辆与应急车辆的纵向距离。
当应急车辆的当前速度不及其最大速度一半时,则将式(2)中对于左前车的前车(Left Leader Leader)、右前车的前车(Right Leader Leader)和前车的前车(LeaderLeader)三个位置的车辆状态信息置为0。
(3.3)根据待规划ICEV是否存在前车,定义优先区间的长度。
如果待规划ICEV存在前车,即Presenceleader=1,且vleader>vego,则定义优先区间的长度为:
凡是在本车同车道的前方优先区间PriorityDistance距离内,将执行避让策略,也就是能换道优先换道,由于安全距离等因素的限制无法换道则加速;若前车执行了避让策略,则待规划ICEV将不能选择换道或者减速。
(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况,并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息,得到待规划ICEV的DQN网络完整的状态空间。
在一个时间步长后,如果前一时刻的前车执行了加速或者换道动作,则认为它服从了避让策略,将Avoiding Deny赋值为1,否则为0;将这个代表着避让策略执行情况的参数引入状态空间,与式(1)和式(2)中的部分状态信息共同构成了完整的DQN网络的状态空间,也即DQN网络的输入为:
(4)将步骤(3)得到的DQN网络完整的状态空间作为输入量输入DQN网络,得到t时刻的输出值Q,并从输出值Q中选取最大值将其对应的动作At作为初步决策。其中,DQN网络的输出值Q构成了动作空间该动作空间包括以3m/s2的加速度加速一个时间步长、以3m/s2的加速度减速一个时间步长、左侧换道、右侧换道、无操作5个动作。
本发明中设计的待规划ICEV的DQN目标网络和估计网络包括输入层、第一层、第二层和输出层。其中,输入层包括31个神经元,第一层和第二层分别包括20、10个神经元。表示状态空间的31维向量作为DQN网络输入层的31个神经元输入,以全连接的方式与第一层的20个神经元连接,则共有620条边,每条边上对应的权重wij表示输入层的第i个神经元与第一层的第j个神经元相连接的权重,同理任意两层之间的连接权重都可以采用权重的矩阵W表示(W∈Rm×n),其中m表示前一层的神经元个数,n表示下一层的神经元个数,也即权重矩阵W为:
且对于每一层的每一神经元均设置有偏置量bi,每一层的偏置量可以采用向量B表示(B∈RK),K表示当前层神经元的个数:
B=[b1…bk] (6)
令输入的31个神经元整体为向量X0,通过激活函数Leaky-ReLU函数,以全连接的方式连接至第一层的20个神经元上,输入层与第一层之间的权重为W0,第一层的偏置为B1,则第一层神经元X1的值为:
X1=W0Leaky_ReLU(X0)+B1 (7)
第一层神经元的值再通过Leaky_ReLU函数,以全连接的方式连接至第二层的10个神经元上,则第二层神经元X2的值为:
X2=W1Leaky_ReLU(X1)+B2 (8)
其中,W1为第一层与第二层之间的权重,B2为第二层的偏置,Leaky-ReLU函数为:
Leaky-ReLU(x)=max(0.2x,x) (9)
第二层的神经元以全连接的方式,通过Softmax函数连接至输出层的5维向量Q:
Q=Softmax(W2X2) (10)
其中,Q为动作空间中每个动作的Q值经过softmax函数运算构成的5维向量;W2为第二层与输出层之间的权重;W2X2=[z1,z2,z3,z4,z5],zi为第二层输出分别对应于动作空间中五个动作的值,i=1,2,3,4,5。
式(10)中,Softmax函数定义为:
其中,At为从这5个Q值中选取最大值并将其对应的动作作为初步决策。
(5)建立动作选择屏障,用于对步骤(4)得到的初步决策At进行验证和选择,直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构。
如图3所示,由于选出来的初步决策At可能会违反交通规则或者超出道路物理界限,因此要加上一道动作选择屏障(Rule-mask)作为先验知识,即如果ICEV向不存在的车道换道或者将速度加大规定最大速度以上,抑或是减速减到负数,都将重新从输出值Q中选择动作:
其中,∈为探索系数,选择动作时有1-∈的概率从输出值Q中选择,有∈的概率从动作空间进行随机选择。循环选择动作,直到最终选出的动作At满足交通规则和道路物理结构;如式5,是原动作空间除去被Rule-mask排除的动作后可选择的动作空间。
(6)定义奖励函数,用于对步骤(5)中得到的t时刻的动作所对应的总奖励Rt进行计算。
由于跟驰模型Krauss-β和换道模型LC2013(都是已有的完备模型,这里不再展开细讲)对待规划ICEV进行安全保护,所以做出的动作未必是DQN网络选出来的动作(如图3),所以只有真正服从了DQN网络的选择而没有被内置模型屏蔽掉的动作,即只有obey=1的动作才参与学习,也就是这样的动作才能分配奖励函数,否则将给出零奖励。奖励函数的设置主要从三方面考虑:安全性、运输效率、和轨迹光滑程度(又称乘客舒适性);这三个方面分别由这三个指标衡量:安全驾驶的距离、瞬时速度、平均换道次数,分别对应着rcol,rv和rlc的三种奖励。
其中,在安全性和通行效率方面采用了连续奖励函数,克服了稀疏奖励的低效性:安全性的奖励与安全驾驶距离dsurvive成正比如式(16),即安全驾驶距离越长得到的奖励越高;运输效率的奖励与当前的速度vcurrent成正比如式(17),即瞬时速度越快则得到的奖励越高。在轨迹光滑程度上,对车辆在达到最大速度时的换道行为施以负的奖励如式(18),因为本发明认为无法追求更大速度的换道动作是无意义行为,这样有利于模型收敛。
其中,rcol为安全驾驶的距离奖励;rv为瞬时速度奖励;rlc为平均换道次数奖励;dtotal为路段整体长度,即从上一个交叉口到下一个交叉口的距离;vmax、vmin分别为该路段上应急车辆的最大速度和最小速度。
除此之外经过实验发现,为了防止ICEV过多换道对ICCV交通流产生巨大扰动反而使得ICEV通行效率降低的情况出现,还需要附加一个表征整体通行效率的奖励rcor如式(19)来抑制ICEV对ICCV的过度竞争和车道侵占,提高ICEV的利他性反而会提高整体通行效率,从而避免随之带来的局部堵塞,ICEV的旅途时间也会缩短。整个式(19)是对每一辆同车道前车的速度进行纵向间距的衰减指数加权(离待规划ICEV越近的ICCV的速度权重越大,在奖励中占比越大),再归一化的过程。以上所有奖励的总和才是t时刻交互一次得到的总奖励Rt如式(20):
Rt=rcol+rv+rlc+rcor (20)
(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数,对已经初始化的DQN网络进行训练,得到训练好的DQN网络,用于对优化路段上的待规划ICEV的混合换道进行决策。
其中,DQN网络的训练方法为:
(7.2)根据图3中的估计网络(Evaluate Net)计算得到输出值Q,计算公式为:
Q=Q(Ot,At;θ) (21)
其中,Ot是t时刻的状态空间观测值,At为t时刻智能体选择的动作,θ为EvaluateNet的神经网络权重参数。
(7.3)根据目标网络(Target Net)如式(22)计算得到输出Q′,计算公式为:
其中,γ为折扣因子,Rt为t时刻获得的即时奖励,Ot+1是t+1时刻的状态空间观测值,At+1为t+1时刻智能体选择的动作,θ-为Target Net的网络参数。
θ←θ-(23)
(7.5)在计算损失函数时利用如式(24)所示的Huber Loss函数,来解决奖励值密集累积可能导致的梯度爆炸问题:
(7.6)利用梯度下降法(技术已经公开的方法,细节不再赘述)对目标网络的网络参数进行更新:
其中,α为学习率。
(7.7)循环训练。其中,每次训练时探索系数∈都将下降,从0.9降到0.1为止;同时在梯度下降法中用到的Adam优化器中设置不断衰减的学习率α,以使其在能收敛的同时又不落入局部最优。
其中,decay-rate为衰减率,global_step为训练总轮数,decay_steps为已经衰减的轮数。
实施例一
下面通过具体实例详细说明本发明在智能网联应急车辆路段决策方面的效果:
1、首先,算法的强化学习部分得到了很好的收敛效果如图4所示,描述了损失函数值在近200000步的训练后趋于零的效果显著;
2、在训练过程中监测DQN策略和“DQN+避让”混合策略的速度收敛性如图5所示,都可以收敛到比基线(默认跟驰模型:图中虚线所示)更低的通行时间;
3、本来应该混合策略应该更稳定,但是如图5可以看出并不是这样,往往会出现如图6所示的场景,即由于ICEV大量的换道导致前车不断执行避让动作,是的前方交通流混乱无序,反而形成了局部的堵塞,抑制了ICEV加速,所以ICEV需要调整学习策略,考虑前车通行效率,得到了本发明最终的算法如表1所示:“DQN+避让策略(考虑前方交通效率)”。
4、在0.5veh/s、1veh/s、1.5veh/s的ICCV车流下,分别对基线(默认跟驰算法Krauss-β)、DQN、避让策略、DQN+避让策略的混合策略和考虑前方交通情况的DQN+避让策略混合策略:
(1)从安全性的角度看,含有本发明中提出的DQN部分的实验均取得了远低于确定性算法的事故率;
(2)再从运行速度的角度看,单独的DQN算法不及单独的避让策略,而DQN+避让策略的混合策略也不比单独的避让策略有优势;然而本发明中考虑前方交通效率的混合策略则取得了更快的速度;在图7中体现了这种考虑前方整体通行效率的合作式混合策略与没有考虑前方整体通行效率的混合策略对正常交通秩序的影响,均可以明显看出改进后具有合作倾向的混合策略会更少地侵占ICCV的道路通行权,所有图线更加均匀稳定,整体交通流更有秩序,最后在表1中反映为换道频率的降低和响应时间的缩短。
(3)从换道频次(轨迹光滑程度、乘客舒适度)来看,本发明的方法克服了DQN中无意义换道地倾向;
(4)从不同的交通流量来看,在相比在高交通流下(如:1veh/s、1.5veh/s),正常流量下(0.5veh/s)本发明的效果更加出色;
表1.实验效果对比
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,包括以下步骤:
(1)确定优化路段,并对优化路段上待规划ICCV和ICEV的运行策略进行规划;其中,待规划ICCV利用基于规则的避让策略,待规划ICEV利用基于DQN网络的混合换道策略;
(2)对待规划ICEV的DQN网络进行初始化;
(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况,得到待规划ICEV的DQN网络的状态空间;
(4)将步骤(3)得到的DQN网络的状态空间作为输入量输入初始化后的DQN网络,得到t时刻的输出值Q,并基于输出值Q得到初步决策以及动作空间;
(5)建立动作选择屏障,用于以探索系数∈对步骤(4)得到的初步决策进行验证和选择,直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构;
(6)定义奖励函数,用于对步骤(5)中得到的动作所对应的总奖励Rt进行计算;
(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数,对步骤(2)中初始化的DQN网络进行训练,得到训练好的DQN网络,对优化路段上的待规划ICEV的混合换道进行决策。
3.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3)中,待规划ICEV的DQN网络的状态空间的获得方法,包括以下步骤:
(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身的状态信息进行整合,得到状态空间的基本信息;
(3.2)根据待规划ICEV的当前速度与其最大速度,得到状态空间的速度附加项;
(3.3)根据待规划ICEV是否存在前车,定义优先区间的长度;
(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况,并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息,得到待规划ICEV的DQN网络的状态空间。
4.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3.1)中,得到的状态空间的基本信息为:
Neighbors=<<Presenceleader,vleader,yleader-yego>,...<Presencefollower,vfollower,yfollower-yego>,<LaneIndexego,vego,Distance2go>>
其中,Presence代表该位置的邻居车辆是否存在,若存在赋以1,否则赋为0,Presence的下标包括leader、follower、left leader、left follower、right leader、和rightfollower;v则代表了在Presence为1的情况下对应车辆的纵向速度,v的下标包括leader、follower、left leader、left follower、right leader、right follower和ego;而y-yego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离,用对应车辆的纵向距离y减去应急车厢的纵向距离yego计算得到,y的下标包括leader、follower、left leader、left follower、right leader和right follower;LaneIndexego代表应急车辆的车道编号;Distance2goal代表应急车辆与路段出口的距离。
5.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(3.2)中,得到的速度附加项为:
Auxilliary Features=<<Presenceleaderleader,vleaderleader,yleaderleader-yego>,<Presenceleftleaderleader,vleftleaderleader,yleitleaderleader-yego>,<Presencerightleaderleader,vrightleaderleader,yrightleaderleader-yego>>
式中,Presenceleaderleader、Presenceleftleaderleader和Presencerightleaderleader分别代表左前车的前车、右前车的前车以及前车的前车是否存在,若存在赋以1,否则赋为0;vleaderleader、vleftleaderleader和vrightleaderleader分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度;yleaderleader-yego、yleftleaderleader-yego和yrightleaderleader-yego分别代表对应车辆与应急车辆的纵向距离。
8.如权利要求2所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(4)中,初始化DQN网络中,其目标网络和估计网络结构相同,均包括输入层、第一层、第二层和输出层;所述输入层包括31个神经元,所述第一层包括20个神经元,所述第二层包括10个神经元;且
所述第一层神经元X1的值为:
X1=W0Leaky_ReLU(X0)+B1
其中,W0为输入层与第一层之间的权重,Leaky_ReLU为激活函数,X0为31个神经元构成的输入向量;B1为第一层的偏置;且Leaky_ReLU函数为:
Leaky_ReLU(x)=max(0.2x,x)
所述第二层神经元X2的值为:
X2=W1Leaky_ReLU(X1)+B2
其中,W1为第一层与第二层之间的权重,B2为第二层的偏置;
所述输出层的值为:
Q=Softmax(W2X2)
其中,Q为动作空间中每个动作的Q值经过softmax函数运算构成的5维向量;W2为第二层与输出层之间的权重;W2X2=[z1,z2,z3,z4,z5],zi为第二层输出分别对应于动作空间中五个动作的值,i=1,2,3,4,5,且Softmax函数定义为:
其中,At为从这5个Q值中选取最大值对应的动作,也即初步决策。
10.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法,其特征在于,所述步骤(7)中,DQN网络的训练方法为:
(7.2)根据估计网络计算得到输出值Q,:
Q=Q(Ot,At;θ)
其中,Ot是t时刻的状态空间观测值,At为这一时刻智能体选择的动作,θ为估计网络的网络参数;
(7.3)根据目标网络计算得到输出Q′:
其中,γ为折扣因子,Rt为t时刻获得的即时奖励,Ot+1是t+1时刻的状态空间观测值,At+1为t+1时刻智能体选择的动作,θ-为目标网络的网络参数:
θ←θ-
(7.5)计算损失函数时利用Huber Loss函数,即:
(7.6)利用梯度下降法对目标网络的网络参数进行更新,其中,α为学习率:
(7.7)重复步骤(7.1)~(7.6),循环训练,其中,每次训练时探索系数∈逐次从0.9降到0.1为止,同时在梯度下降法中用到的Adam优化器中对学习率进行设置,使其不断衰减,也即学习率α为:
其中,decay_rate为衰减率,global_step为训练总轮数,decay_steps为已经衰减的轮数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299719.1A CN112406867B (zh) | 2020-11-19 | 2020-11-19 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299719.1A CN112406867B (zh) | 2020-11-19 | 2020-11-19 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112406867A true CN112406867A (zh) | 2021-02-26 |
CN112406867B CN112406867B (zh) | 2021-12-28 |
Family
ID=74774140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011299719.1A Active CN112406867B (zh) | 2020-11-19 | 2020-11-19 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112406867B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861269A (zh) * | 2021-03-11 | 2021-05-28 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN113128770A (zh) * | 2021-04-23 | 2021-07-16 | 新疆大学 | 基于dqn的不确定车间环境下物料配送实时优化方法 |
CN113299078A (zh) * | 2021-03-29 | 2021-08-24 | 东南大学 | 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置 |
CN113306558A (zh) * | 2021-07-30 | 2021-08-27 | 北京理工大学 | 一种基于换道交互意图的换道决策方法及系统 |
CN113324556A (zh) * | 2021-06-04 | 2021-08-31 | 苏州智加科技有限公司 | 基于车路协同强化学习的路径规划方法及装置、应用系统 |
CN113581182A (zh) * | 2021-09-07 | 2021-11-02 | 上海交通大学 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
CN113928321A (zh) * | 2021-11-24 | 2022-01-14 | 北京联合大学 | 一种基于端到端的深度强化学习换道决策方法和装置 |
CN114056328A (zh) * | 2021-11-01 | 2022-02-18 | 中国电子科技南湖研究院 | 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统 |
CN114360290A (zh) * | 2021-12-08 | 2022-04-15 | 四川智慧高速科技有限公司 | 一种基于强化学习的交叉口前车辆群体车道选择方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN110745136A (zh) * | 2019-09-20 | 2020-02-04 | 中国科学技术大学 | 一种驾驶自适应控制方法 |
EP3629105A1 (en) * | 2018-09-27 | 2020-04-01 | Bayerische Motoren Werke Aktiengesellschaft | High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning |
CN110956851A (zh) * | 2019-12-02 | 2020-04-03 | 清华大学 | 一种智能网联汽车协同调度换道方法 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111275249A (zh) * | 2020-01-15 | 2020-06-12 | 吉利汽车研究院(宁波)有限公司 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
CN111301419A (zh) * | 2018-12-12 | 2020-06-19 | 威斯通全球技术公司 | 用于sae 4级自动化车道变更的基于强化学习的方法 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
-
2020
- 2020-11-19 CN CN202011299719.1A patent/CN112406867B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3629105A1 (en) * | 2018-09-27 | 2020-04-01 | Bayerische Motoren Werke Aktiengesellschaft | High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning |
CN111301419A (zh) * | 2018-12-12 | 2020-06-19 | 威斯通全球技术公司 | 用于sae 4级自动化车道变更的基于强化学习的方法 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN110745136A (zh) * | 2019-09-20 | 2020-02-04 | 中国科学技术大学 | 一种驾驶自适应控制方法 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN110956851A (zh) * | 2019-12-02 | 2020-04-03 | 清华大学 | 一种智能网联汽车协同调度换道方法 |
CN111275249A (zh) * | 2020-01-15 | 2020-06-12 | 吉利汽车研究院(宁波)有限公司 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
Non-Patent Citations (1)
Title |
---|
NIU HAOYI等: "Tactical Decision Making for Emergency Vehicles Based on A Combinational Learning Method", 《ARXIV》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861269A (zh) * | 2021-03-11 | 2021-05-28 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN112861269B (zh) * | 2021-03-11 | 2022-08-30 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN113299078B (zh) * | 2021-03-29 | 2022-04-08 | 东南大学 | 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置 |
CN113299078A (zh) * | 2021-03-29 | 2021-08-24 | 东南大学 | 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置 |
CN113128770B (zh) * | 2021-04-23 | 2022-08-09 | 新疆大学 | 基于dqn的不确定车间环境下物料配送实时优化方法 |
CN113128770A (zh) * | 2021-04-23 | 2021-07-16 | 新疆大学 | 基于dqn的不确定车间环境下物料配送实时优化方法 |
CN113324556B (zh) * | 2021-06-04 | 2024-03-26 | 苏州智加科技有限公司 | 基于车路协同强化学习的路径规划方法及装置、应用系统 |
CN113324556A (zh) * | 2021-06-04 | 2021-08-31 | 苏州智加科技有限公司 | 基于车路协同强化学习的路径规划方法及装置、应用系统 |
CN113306558A (zh) * | 2021-07-30 | 2021-08-27 | 北京理工大学 | 一种基于换道交互意图的换道决策方法及系统 |
CN113581182A (zh) * | 2021-09-07 | 2021-11-02 | 上海交通大学 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
CN113581182B (zh) * | 2021-09-07 | 2024-04-19 | 上海交通大学 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
CN114056328A (zh) * | 2021-11-01 | 2022-02-18 | 中国电子科技南湖研究院 | 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统 |
CN114056328B (zh) * | 2021-11-01 | 2024-04-26 | 中国电子科技南湖研究院 | 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统 |
CN113928321A (zh) * | 2021-11-24 | 2022-01-14 | 北京联合大学 | 一种基于端到端的深度强化学习换道决策方法和装置 |
CN113928321B (zh) * | 2021-11-24 | 2022-08-26 | 北京联合大学 | 一种基于端到端的深度强化学习换道决策方法和装置 |
CN114360290B (zh) * | 2021-12-08 | 2023-07-28 | 四川智慧高速科技有限公司 | 一种基于强化学习的交叉口前车辆群体车道选择方法 |
CN114360290A (zh) * | 2021-12-08 | 2022-04-15 | 四川智慧高速科技有限公司 | 一种基于强化学习的交叉口前车辆群体车道选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112406867B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112406867B (zh) | 基于强化学习和避让策略的应急车辆混合换道决策方法 | |
CN111081065B (zh) | 路段混行条件下的智能车辆协同换道决策模型 | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
Zhang et al. | Reinforcement learning-based motion planning for automatic parking system | |
CN103324085B (zh) | 基于监督式强化学习的最优控制方法 | |
CN114013443A (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN113253739A (zh) | 一种用于高速公路的驾驶行为决策方法 | |
WO2022252457A1 (zh) | 一种自动驾驶控制方法、装置、设备及可读存储介质 | |
CN112918486B (zh) | 一种时空行为决策及轨迹规划系统及方法 | |
CN115826581A (zh) | 一种模糊控制与强化学习结合的移动机器人路径规划算法 | |
CN113581182A (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
CN113120003B (zh) | 无人驾驶车辆运动行为决策方法 | |
Yildirim et al. | Prediction based decision making for autonomous highway driving | |
Fu et al. | Cooperative decision-making of multiple autonomous vehicles in a connected mixed traffic environment: A coalition game-based model | |
CN116674529A (zh) | 非结构化场景自动驾驶车辆的泊车路径规划及泊车方法 | |
CN116224996A (zh) | 一种基于对抗强化学习的自动驾驶优化控制方法 | |
Yang et al. | Decision-making in autonomous driving by reinforcement learning combined with planning & control | |
Jafari et al. | CHAMP: Integrated Logic with Reinforcement Learning for Hybrid Decision Making for Autonomous Vehicle Planning | |
Elallid et al. | Vehicles control: Collision avoidance using federated deep reinforcement learning | |
Gu et al. | Mandatory Lane-Changing Decision-Making in Dense Traffic for Autonomous Vehicles based on Deep Reinforcement Learning | |
CN116540602B (zh) | 一种基于路段安全级别dqn的车辆无人驾驶方法 | |
CN117057431A (zh) | 一种冰雪环境人车决策一致性评估方法 | |
CN114613170B (zh) | 一种基于强化学习的交通信号灯路口协调控制方法 | |
CN116884238A (zh) | 基于强化学习的智能车辆高速公路匝道汇入决策方法 | |
Wang et al. | A Game-Theory and Risk-Field Based Automated Vehicle Motion Planning Method for Mixed Traffic Environments at Uncontrolled Intersections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |