CN115257745A - 一种基于规则融合强化学习的自动驾驶换道决策控制方法 - Google Patents
一种基于规则融合强化学习的自动驾驶换道决策控制方法 Download PDFInfo
- Publication number
- CN115257745A CN115257745A CN202210863035.2A CN202210863035A CN115257745A CN 115257745 A CN115257745 A CN 115257745A CN 202210863035 A CN202210863035 A CN 202210863035A CN 115257745 A CN115257745 A CN 115257745A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- decision
- lane change
- lane
- automatic driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008859 change Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 71
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 25
- 230000006399 behavior Effects 0.000 claims abstract description 22
- 238000013135 deep learning Methods 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000003860 storage Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 5
- 230000001133 acceleration Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000036544 posture Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012502 risk assessment Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000010923 batch production Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0097—Predicting future conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0098—Details of control systems ensuring comfort, safety or stability not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0011—Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0027—Planning or execution of driving tasks using trajectory prediction for other traffic participants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0043—Signal treatments, identification of variables or parameters, parameter estimation or state estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于规则融合强化学习的自动驾驶换道决策控制方法,包括:建立他车纵向运动控制模型及横向行为决策模型;配置高速公路驾驶环境,筛除不合理车流场景,构建自动驾驶决策训练场景;建立驾驶行为观测的状态空间、动作空间;搭建用于策略更新的深度学习网络;设计换道决策风险评估方法,建立决策的安全性评判机制;设置奖励函数;将安全性评判机制引入基于DDQN的深度学习网络;基于自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,训练后的模型用于自动驾驶换道决策。与现有技术相比,本发明在换道场景中具有更高的决策任务成功率、行驶效率以及安全性。
Description
技术领域
本发明涉及自动驾驶控制技术领域,尤其是涉及一种基于规则融合强化学习的自动驾驶换道决策控制方法。
背景技术
随着当前汽车、计算机、雷达、视觉传感器、测绘、机器人等技术的飞速发展与密切融合,自动驾驶技术的优势越发明显。在自动驾驶领域,当前广泛应用的决策技术路线主要分为两类,一种是基于人为制定先验规则,另一种是采用深度学习类数据驱动的方法。
其中,基于规则的决策方法在出现问题时可以反向追溯,找到导致错误产生的规则机理或者相应参数,具有可解释性的优点,而且执行结果稳定、可预见性强。然而在实际交通场景中,自动驾驶汽车所面临的决策工况往往是复杂多变的,基于规则的方法难以适应,这也使得基于数据驱动的方法逐渐成为决策方法研究的重点。
目前,在数据驱动中,基于深度学习的数据驱动方法主要分为监督学习与深度强化学习,强化学习由智能体在仿真环境中自由试错来采集,决策结果的好坏通过决策执行后环境状态的变化、以奖励函数的形式给予评价,因此其数据来源于智能体与环境的真实互动结果,决策数据的覆盖范围更广,决策数据的标签更加真实客观。但是深度学习类数据驱动方法往往依赖于深度神经网络,其可解释性差,遇到问题难以溯源;另外神经网络更新实际是一个迭代优化进行函数逼近的过程,即使在损失函数收敛后深度神经网络仍有可能做出不合理甚至危险的动作。
综上可知,基于深度强化学习的决策方法尽管场景适应性强,但仍存在可靠性问题,因而,对于自动驾驶汽车而言,亟需一个能兼顾安全可靠、可解释性强与场景适应性好的驾驶决策控制方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于规则融合强化学习的自动驾驶换道决策控制方法,通过将深度强化学习在训练过程中与基于规则的决策方法相结合,以提高自动驾驶车辆在复杂换道场景中决策结果的可靠性与安全性。
本发明的目的可以通过以下技术方案来实现:一种基于规则融合强化学习的自动驾驶换道决策控制方法,包括以下步骤:
S1、建立他车的纵向运动控制模型及横向行为决策模型;
S2、配置高速公路驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策训练场景的构建;
S3、基于马尔科夫决策模型,建立驾驶行为观测的状态空间、动作空间;基于DDQN(Double Deep Q Network,双深度Q网络)算法,搭建用于策略更新的深度学习网络;
S4、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
S5、考虑安全性评判结果,设置奖励函数;
将安全性评判机制引入基于DDQN的深度学习网络;
基于构建的自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,得到训练后的模型,即作为自动驾驶换道决策模型;
S6、利用自动驾驶换道决策模型,输出得到自动驾驶车辆的实际换道决策结果;根据换道决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
进一步地,所述步骤S1中纵向运动控制模型具体是基于IDM(Intelligent DriverModel,智能驱动模型)建立,所述纵向运动控制模型的运动控制行为包括他车的加速度;
所述步骤S1中横向行为决策模型具体是基于MOBIL(Minimizing OverallBraking Induced by Lane changes,最小化变道引起的总制动)算法建立,所述横向行为决策模型的横向决策行为包括车道保持与换道。
进一步地,所述步骤S2中高速公路驾驶环境包括场景车道数、每条车道宽度、道路总长度、每条车道限速、他车数量、他车初始化所在车道集合、他车各车辆初始速度、他车初始纵向位置集合以及纵向运动控制模型的速度膨胀系数;
所述步骤S2中不合理的车流场景包括:自车在最左车道时取消左换道,在最右车道时取消右换道;
自车车速达到最大限速时取消加速动作,达到最低限速时取消减速动作;
自车与前车车距小于预设的参考跟车距离,则取消加速指令。
进一步地,所述步骤S3中状态空间包括自车状态信息,以及与自车在曲线坐标系下相距最近的4辆他车的相关状态信息;所述自车状态信息包括一个恒置为1 的是否存在的标志位、自车沿参考路纵向坐标s0、所处的道路曲线坐标系横向偏移量l0、自车沿参考路和垂直参考路速度分量v0x和v0y;
所述4辆他车的相关状态信息包括一个是否存在的标志位(存在为1,否则为 0)、相对自车沿参考路方向的曲线距离Δs、相对自车垂直于参考路曲线方向的距离Δl、沿参考路曲线方向的相对速度Δvs、垂直参考路曲线方向的相对速度Δvl;
所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策,共包含5种离散决策:左换道、右换道、加速、减速以及不换道也不加减速的IDLE (怠速)。
进一步地,所述步骤S3中搭建深度学习网络的具体过程为:
首先搭建深度学习网络结构,总结构为一个25*256*256*5的全连接神经网络,具体层次及设置为:
输入层接收的观测信息为25*1的向量;
中间设置两个隐藏层每层包含有256个神经元;
输出层输出信息为5*1;
激活函数采用ReLU,并设置学习率;
之后设定网络相关配置如下:
设置网络的决策周期;
设置各动作采样概率,使得奖励值高的动作采样概率随探索次数的增加而增高;
采用均方差(MSE,Mean-Squared Loss)计算损失函数;
采用Adam作优化器。
进一步地,所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞概率进行评估,设轨迹上共有N个轨迹点,对轨迹上t时刻点Tuncertain[t]高斯分布进行X次采样,获取X个该车辆在第t时刻的可能位置与姿态,若与规划轨迹Tplan[t] 发生重叠,则计数1次碰撞,否则不计数;
设定Ic为判断自车与他车是否碰撞的函数:
使用碰撞采样数与总采样数X之比,以作为自车与该辆车在t时刻的碰撞概率Pcoll,即表示碰撞概率,计算如下:
其中,Sself为自车规划轨迹在t时刻的位姿矩形框,Sother为第i次采样得到的周围车的位姿矩形框;
所述步骤S4中安全性评判机制具体是根据碰撞概率峰值、峰值时间倒数、高风险轨迹点个数这三个安全性指标进行综合评判,通过对所述三个安全性指标进行归一化处理,计算得到综合换道风险值,若所述综合换道风险值大于设定的换道风险阈值,则判定为危险动作,否则为安全动作。
进一步地,所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本交通礼仪奖励,其中,效率奖励具体为:当自动驾驶车辆与他车发生碰撞时给予负奖励,同时将环境终止重置;
安全性奖励具体为:当被判定为危险动作时给予负奖励;
交通礼仪奖励具体为:对车辆驶离最左侧车道给予正奖励。
进一步地,所述步骤S5具体包括以下步骤:
S51、分别设置效率奖励、安全性奖励以及基本交通礼仪奖励,将效率奖励、安全性奖励以及基本交通礼仪奖励进行求和计算,并对求和结果进行归一化处理,得到奖励函数;
S52、根据安全性评判结果,结合自动驾驶决策训练场景进行融合训练,针对安全性评判结果综合风险大于设定综合危险阈值的危险决策进行修正;
S53、设置两个存储经验池,以更新模型中目标价值网络的参数,所述两个存储经验池包括安全经验池和危险经验池;
S54、采用贝尔曼方程计算采样数据目标价值;
S55、计算损失函数梯度,更新主价值网络,每Ntarg步更新目标价值网络参数为θtarg。
进一步地,所述步骤S52中对危险决策进行修正的策略具体为:
如果判断为危险的动作是左换道或右换道动作,则
如果判断为危险的动作不是加速、匀速、减速动作,则
进一步地,所述步骤S53具体包括以下步骤:
S531、在危险动作修正后,设置两个存储经验池,以对安全与危险动作经验分别进行存储:
在危险动作经验池中,给予(s,a)动作状态对一个固定惩罚rdangerous,存入状态转移信息(s,a,*,rdangerous);
在安全经验池中,计算奖励r,存入状态转移信息(s,a,s′,r);
S532、当安全经验池和危险经验池收集到设定数量的数据后,采用定比例随机采样的方式进行经验回放:
采样轨迹长度为Nt,安全经验采样比例为k时,从安全经验池中随机抽取kNt个状态转移信息;从危险经验池中随机抽取(1-k)Nt个状态转移系信息;之后将两批数据组合起来作为批处理计算损失函数的对象。
与现有技术相比,本发明提出一种基于规则融合强化学习的自动驾驶换道决策控制方法,将深度强化学习在训练过程中与基于规则的决策方法相结合,并引入安全性评判机制,相比于传统强化学习方法,本发明训练出的决策模型具有更优的性能,既能够应对处理高维复杂交通场景,同时也保证了决策结果具有较强的可靠性,有效提升自动驾驶车辆的换道精准性。
本发明在进行基于规则融合的强化学习决策训练过程中,一方面基于建立的安全性评判机制来设定奖励函数,使获得的累计决策奖励更高,另一方面通过修正决策出的危险动作,并并设置两个存储经验池分别储存安全和危险的状态动作对,以更新模型中目标价值网络的参数,由此保证平均换道风险值更低。使得本发明在训练过程奖励上升速度、收敛值以及安全性指标均优于传统学习方法,在换道场景中具有更高的决策任务成功率、行驶效率以及安全性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中构建自动驾驶换道决策模型的过程示意图;
图3为实施例中高速四车道换道场景图;
图4为深度学习网络结构图;
图5为实施例中基于规则融合强化学习的自动驾驶换道决策方法的模型训练过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于规则融合强化学习的自动驾驶换道决策控制方法,包括以下步骤:
S1、建立他车的纵向运动控制模型及横向行为决策模型;
S2、配置高速公路驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策训练场景的构建;
S3、基于马尔科夫决策模型,建立驾驶行为观测的状态空间、动作空间;基于DDQN算法,搭建用于策略更新的深度学习网络;
S4、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
S5、考虑安全性评判结果,设置奖励函数;
将安全性评判机制引入基于DDQN的深度学习网络;
基于构建的自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,得到训练后的模型,即作为自动驾驶换道决策模型;
S6、利用自动驾驶换道决策模型,输出得到自动驾驶车辆的实际换道决策结果;根据换道决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
本实施例应用上述技术方案,在构建自动驾驶换道决策模型时,如图2所示,主要包括:
一、建立他车的纵向运动控制模型及横向行为决策模型;
具体包括:
11)基于IDM模型建立他车加速度的纵向行为,首先计算此刻自车与前车距离的参考值:
其中,d0为预设的期望跟车距离,T为预设的期望车头时距,a为最大舒适加速度,b为最大舒适减速度,Δv为自车与前车速度差值;
再根据前方是否有车辆计算加速度:
111)若无前车,则他车加速度为
其中,v0为他车目标速度;
112)若有前车,则他车加速度为
其中,d为自车当前与前车的实际距离;
12)基于MOBIL算法,建立包括车道保持与换道的横向行为;
其中,ac为自车与当前车道前车的纵向加速度,an为目标车道后车与前车纵向加速度,ao为当前车道后方车辆与自车的跟车加速度,为换道成功后自车与目标车道前车的跟车加速度,为目标车道后车与自车的跟车加速度,为当前车道后车与当前车道前车跟车加速度,p为前礼让系数。
二、配置高速公路、低速城区两种驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策仿真场景的构建;
具体为:
21)配置高速公路场景,场景车道数nlane,每条车道宽度w,道路总长度l,及每条车道限速设置,本实施例中,场景车道数nlane为4,每条车道宽度w为4m,道路总长度l为1000m,每条车道限速设置为vmin=20m/s,vmax=30m/s,配置后场景如图3所示,图3中他车从左至右依次进行初始化;
211)设置他车数量n;
其中,dmin为最小跟车距离,本实施例中取参考车辆间距Δsinit作为最小跟车距离;dactual为实际相邻车辆平均跟车距离;
212)采用包含车道数的整数集合内均匀分布方法,设置n个他车初始化所在车道集合{lane_indexinit}n,本实施例中满足[1,2,3,4]整数集合的均匀分布;
213)设置n个他车各车辆初始速度{vinit}n,以当前道路限速的0.8倍为均值、 0.7倍限速为方差高斯分布,随机采样生成初始速度,即满足方程式:
vinit~N(0.8vmax,(0.7vmax)2)
214)生成n个他车的初始纵向位置集合{sinit}n;
基于Δsinit计算他车的初始生成位置:sinit=smax+Δsinit;
215)在给定范围内随机生成IDM控制模型的速度膨胀系数ξ,本实施例中给定范围为[3.5,4.5];
22)加入感知范围及感知噪声,模拟自动驾驶车辆在现实道路的有限感知;
在车辆坐标系中,x方向感知范围为车后20m到车前70m,y方向感知范围为车左侧20m到车右侧20m;
具体计算中,首先设定协方差矩阵Σ为3×3的对称矩阵:
从而得到X的高斯概率密度函数为:
23)筛除不合理的车流场景;
筛除如下车流场景:自车在最左车道时取消左换道,在最右车道时取消右换道;自车车速达到最大限速时取消加速动作,达到最低限速时取消减速动作;自车与前车车距小于参考跟车距离d*,则取消加速指令。
三、基于马尔科夫决策模型建立驾驶行为观测的状态空间、动作空间,基于 DDQN算法搭建用于策略更新的深度学习网络;
31)设定观测的状态空间;
状态空间包括自车以及与自车在曲线坐标系下相距最近的4辆车的相关状态信息;
311)自车状态信息包括一个恒置为1的是否存在的标志位,自车沿参考路纵向坐标s0,所处的道路曲线坐标系横向偏移量l0,自车沿参考路和垂直参考路速度分量v0x和v0y;
312)4辆他车的信息包括一个是否存在的标志位,存在为1,否则为0;相对自车沿参考路方向的曲线距离Δs,相对自车垂直于参考路曲线方向的距离Δl,沿参考路曲线方向的相对速度Δvs,垂直参考路曲线方向的相对速度Δvl;
所得观测的状态矩阵表达式为:
313)对观测矩阵内的位置量Δs与速度量Δv分别进行归一化处理,将归一化的观测矩阵压缩为网络可接受的一维输入向量si nput:
对位置量Δs归一化:
其中,Δsmax、Δsmin分别为位置量归一化的上下限,满足Δsmin=-5vmax;
对速度量Δv归一化:
其中,Δvmax、Δvmin分别为速度量归一化的上下限,满足Δvmin=-2vmax以及Δvmax=2vmax;
最终网络接收的一维观测信息:
32)设定动作空间;
决策网络模型的5种离散决策,分为目标车道lanetarget的离散决策与目标速度vtarget的离散决策,具体设计如下:
321)目标车道lanetarget的离散决策分为左换道,右换道以及不换道,车道标号沿行驶方向从左至右依次增大,本实施例中,车道标号沿行驶方向从左至右依次为 0-3:
其中,lanecurrent表示自动驾驶车辆当前所处车道序号,lanemax表示最大车道序号,clip(·)表示截断函数,限制超出[0,lanemax]范围的序号;
322)目标速度vtarget的离散决策主要决定车辆的纵向行为,包括加速和减速动作;对应的目标车速可分为加速、减速以及匀速:
其中,vcurrent表示当前自车车速,Δvacc为加速指令发出后目标速度增量,Δvdec为减速指令发出后目标速度减少的量;
323)结合上述离散决策结果,将决策动作集合分为以下5类:
左换道,右换道,加速,减速以及不换道也不加减速的IDLE;
33)搭建并配置基于DDQN的深度学习网络;
331)搭建的网络结构:
总结构为一个25*256*256*5的全连接神经网络,具体层次及设置为:
输入层接收的观测信息为25*1的向量;
中间设置两个隐藏层每层包含有256个神经元;
输出层输出信息为5*1;
激活函数采用ReLU,设置学习率,本实施例设置学习率为0.2;
设定后的网络结构如图4所示;
332)设定网络相关配置如下:
设置网络的决策周期;
设置各动作采样概率,使得奖励值高的动作采样概率随探索次数的增加而增高,首先判断动作a是否是Q值,网络所判断出的Q值最高的动作amax=argmaxaQ(s,a),进而进行如下对应计算:
其中,ε从1开始随着探索次数增加逐渐下降,计算方法如下式所示:
其中,|A|为离散决策动作数量,εinitial为1,εfinal设为0,time为决策次数,tau 为衰减系数;
采用均方差(MSE,Mean-Squared Loss)计算损失函数,本实施例使用的函数表达式为:||yj-Q(s,a;θ)||2;
采用Adam作优化器。
四、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
41)进行他车轨迹融合预测;
411)基于行为模型预测他车轨迹;
对目标车道中心线上纵向离散规划终点,使用五次多项式曲线生成换道轨迹簇,通过路径评价函数选取出最优路径Tman;
在规划路径对相应曲线距离进行插值操作,得到他车在未来t时刻所处的位置(xman(t),yman(t));
基于行为模型的预测轨迹Tman={(xman(t),yman(t))};
412)基于运动学模型预测他车轨迹;
使用运动学模型:
分为ω=0时与ω≠0时两种情况,计算车辆未来时刻t的位置(x(t),y(t));
当ω≠0时:
由此得到基于运动学模型的预测轨迹Tmdl={(xmdl(t),ymdl(t))};
413)使用三次曲线将Tmdl与Tman融合,得到融合预测轨迹,本实施例使用三次曲线w(t)=a3t3+a2t2+a1t+a0将Tmdl与Tman融合,得到融合预测轨迹:
Tfin(t)=w(t)·Tmdl(t)+(1-w(t))·Tman(t)
42)确定预测轨迹的不确定性;
43)设计评估方法,基于自车与他车的碰撞概率Pcoll,以对换道决策的风险进行评估;
431)设轨迹上共有N个轨迹点,对轨迹上t时刻点Tuncertain[t]高斯分布进行X 次采样,获取X个该车辆在第t时刻的可能位置与姿态,若与规划轨迹Tplan[t]重叠,则计数1次碰撞,否则不计数;
设定判断自车与他车是否碰撞的函数Ic,Ic输出布尔值:
使用碰撞采样数与总采样数X之比作为自车与该辆车在t时刻的碰撞概率Pcoll,以表示碰撞风险,计算如下:
其中Sself为自车规划轨迹在t时刻的位姿矩形框,Sother为第i次采样得到的周围车的位姿矩形框;
44)基于计算的换道决策风险,建立决策的安全性评判机制;
具体为,计算换道轨迹综合碰撞概率,选取碰撞概率峰值、峰值时间倒数、高风险轨迹点个数等指标进行综合评判;
441)综合碰撞概率Pi由i时刻自车轨迹点上的与所有其他车辆碰撞概率求和得到:
其中,pij为i时刻自车与周围第j辆车的碰撞概率,对其排序得到序列pij ordered;
442)选取安全性的指标,计算综合换道风险,以进行安全性评判;安全性的指标选取高风险轨迹点个数CHR,碰撞概率峰值Cp及峰值时间倒数CTTP,其中,CHR表示车辆换道决策轨迹的每一点的碰撞风险值P0大于阈值的个数;
Cp=min(max(P1,P2,…PI-1,PI),1),I表示预测轨迹上轨迹点个数,Pi表示各个时刻的综合碰撞概率;
峰值时间倒数CTTP=1/TP,其中,TP为碰撞峰值时间TTP;
对上述3个安全性指标进行归一化处理,计算综合换道风险risk,如果该风险大于0.5则判定为危险动作,否则为安全动作,本实施例中,CHR归一化范围为[0,20], Cp为[0,1],CTTP为[0.05,20],计算综合换道风险risk如下:
如果该风险大于0.5则判定为危险动作,否则为安全动作。
五、考虑安全性评判结果,设置奖励函数;
51)设定奖励函数;
从效率、安全性以及基本交通礼仪来进行奖励设置;
511)设置效率奖励refficiency;
当自动驾驶车辆与他车发生碰撞时给予较大负奖励,同时将环境终止重置;
其中kspeed是折扣系数;
512)设置安全性奖励rsafe,分为危险动作与非危险动作,判断为危险动作时给予负奖励rdangerous;
rdangerous是对危险动作的负奖励;
513)设置交通礼仪奖励rrule,对车辆驶离最左侧车道给予一个微小的奖励:
514)归一化计算最终的奖励;
最终奖励为三项奖励之和,并对其求和结果进行归一化处理得到最终奖励:
六、将步骤四的安全性评判机制引入基于DDQN的深度学习网络,基于步骤二搭建的场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,更新模型中目标价值网络的参数,训练后的模型用于自动驾驶换道决策;
图5以流程图的形式展示了整个基于规则融合强化学习的自动驾驶换道决策方法的训练流程,具体步骤为:
61)基于步骤四中安全性评判的结果,对综合风险大于0.5的危险决策进行修正,不修正综合风险小于或等于0.5的决策;
62)基于步骤二搭建的场景进行融合训练,修正决策出的危险动作;
621)在高速四车道换道场景中训练模型,设定V/C,他车车速为V0 m/s,自车车速Vem/s,本实施例中,设定V/C=1.0,他车车速为Vo∈[20,30]m/s,自车车速Ve∈[20,30]m/s,训练至实现累计奖励收敛;
622)建立横向危险动作修正机制:
如果判断为危险的动作是左换道或右换道动作,则有
623)建立纵向危险动作修正机制:
如果判断为危险的动作不是加速、匀速、减速动作,则有
63)设置两个存储经验池,更新模型中目标价值网络的参数;
631)在危险动作修正后,对安全与危险动作经验设置两个经验池分别存储;
在危险动作经验池中,给予(s,a)动作状态对一个固定惩罚rdangerous,存入状态转移信息(s,a,*,rdangerous);
在安全经验池中,计算奖励r,存入状态转移信息(s,a,s′,r);
632)当安全经验池和危险经验池收集到足够数量的数据后,采用定比例随机采样的方式进行经验回放;
具体为,采样轨迹长度为Nt,安全经验采样比例为k时,从安全经验池中随机抽取kNt个状态转移信息,从危险经验池中随机抽取(1-k)Nt个状态转移系信息,将两批数据组合起来作为批处理计算损失函数的对象;
633)应用贝尔曼方程计算采样数据目标价值,具体计算式为:
634)计算损失函数梯度,更新主价值网络,每Ntarg步更新目标价值网络参数为θtarg。
综上所述,本技术方案将深度强化学习在训练过程中与基于规则的决策方法相结合,引入安全性评判机制,由此训练出的决策模型可靠性更强、获得的累计决策奖励更高、平均换道风险值更低,能够同时兼顾安全可靠、可解释性强与复杂交通场景适应性好的优点。
Claims (10)
1.一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,包括以下步骤:
S1、建立他车的纵向运动控制模型及横向行为决策模型;
S2、配置高速公路驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策训练场景的构建;
S3、基于马尔科夫决策模型,建立驾驶行为观测的状态空间、动作空间;基于DDQN算法,搭建用于策略更新的深度学习网络;
S4、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
S5、考虑安全性评判结果,设置奖励函数;
将安全性评判机制引入基于DDQN的深度学习网络;
基于构建的自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,得到训练后的模型,即作为自动驾驶换道决策模型;
S6、利用自动驾驶换道决策模型,输出得到自动驾驶车辆的实际换道决策结果;根据换道决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
2.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S1中纵向运动控制模型具体是基于IDM建立,所述纵向运动控制模型的运动控制行为包括他车的加速度;
所述步骤S1中横向行为决策模型具体是基于MOBIL算法建立,所述横向行为决策模型的横向决策行为包括车道保持与换道。
3.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S2中高速公路驾驶环境包括场景车道数、每条车道宽度、道路总长度、每条车道限速、他车数量、他车初始化所在车道集合、他车各车辆初始速度、他车初始纵向位置集合以及纵向运动控制模型的速度膨胀系数;
所述步骤S2中不合理的车流场景包括:自车在最左车道时取消左换道,在最右车道时取消右换道;
自车车速达到最大限速时取消加速动作,达到最低限速时取消减速动作;
自车与前车车距小于预设的参考跟车距离,则取消加速指令。
4.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S3中状态空间包括自车状态信息,以及与自车在曲线坐标系下相距最近的4辆他车的相关状态信息;所述自车状态信息包括一个恒置为1的是否存在的标志位、自车沿参考路纵向坐标s0、所处的道路曲线坐标系横向偏移量l0、自车沿参考路和垂直参考路速度分量v0x和v0y;
所述4辆他车的相关状态信息包括一个是否存在的标志位:存在为1,否则为0;相对自车沿参考路方向的曲线距离Δs;相对自车垂直于参考路曲线方向的距离Δl;沿参考路曲线方向的相对速度Δvs;垂直参考路曲线方向的相对速度Δvl;
所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策,共包含5种离散决策:左换道、右换道、加速、减速以及不换道也不加减速的IDLE。
5.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S3中搭建深度学习网络的具体过程为:
首先搭建深度学习网络结构,总结构为一个25*256*256*5的全连接神经网络,具体层次及设置为:
输入层接收的观测信息为25*1的向量;
中间设置两个隐藏层每层包含有256个神经元;
输出层输出信息为5*1;
激活函数采用ReLU,并设置学习率;
之后设定网络相关配置如下:
设置网络的决策周期;
设置各动作采样概率,使得奖励值高的动作采样概率随探索次数的增加而增高;
采用均方差计算损失函数;
采用Adam作优化器。
6.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞概率进行评估,设轨迹上共有N个轨迹点,对轨迹上t时刻点Tuncertain[t]高斯分布进行X次采样,获取X个该车辆在第t时刻的可能位置与姿态,若与规划轨迹Tplan[t]发生重叠,则计数1次碰撞,否则不计数;
设定Ic为判断自车与他车是否碰撞的函数:
使用碰撞采样数与总采样数X之比,以作为自车与该辆车在t时刻的碰撞概率Pcoll,即表示碰撞概率,计算如下:
其中,Sself为自车规划轨迹在t时刻的位姿矩形框,Sother为第i次采样得到的周围车的位姿矩形框;
所述步骤S4中安全性评判机制具体是根据碰撞概率峰值、峰值时间倒数、高风险轨迹点个数这三个安全性指标进行综合评判,通过对所述三个安全性指标进行归一化处理,计算得到综合换道风险值,若所述综合换道风险值大于设定的换道风险阈值,则判定为危险动作,否则为安全动作。
7.根据权利要求6所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本交通礼仪奖励,其中,效率奖励具体为:当自动驾驶车辆与他车发生碰撞时给予负奖励,同时将环境终止重置;
安全性奖励具体为:当被判定为危险动作时给予负奖励;
交通礼仪奖励具体为:对车辆驶离最左侧车道给予正奖励。
8.根据权利要求7所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、分别设置效率奖励、安全性奖励以及基本交通礼仪奖励,将效率奖励、安全性奖励以及基本交通礼仪奖励进行求和计算,并对求和结果进行归一化处理,得到奖励函数;
S52、根据安全性评判结果,结合自动驾驶决策训练场景进行融合训练,针对安全性评判结果综合风险大于设定综合危险阈值的危险决策进行修正;
S53、设置两个存储经验池,以更新模型中目标价值网络的参数,所述两个存储经验池包括安全经验池和危险经验池;
S54、采用贝尔曼方程计算采样数据目标价值;
S55、计算损失函数梯度,更新主价值网络,每Ntarg步更新目标价值网络参数为θtarg。
10.根据权利要求8所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S53具体包括以下步骤:
S531、在危险动作修正后,设置两个存储经验池,以对安全与危险动作经验分别进行存储:
在危险动作经验池中,给予(s,a)动作状态对一个固定惩罚rdangerous,存入状态转移信息(s,a,*,rdangerous);
在安全经验池中,计算奖励r,存入状态转移信息(s,a,s′,r);
S532、当安全经验池和危险经验池收集到设定数量的数据后,采用定比例随机采样的方式进行经验回放:
采样轨迹长度为Nt,安全经验采样比例为k时,从安全经验池中随机抽取kNt个状态转移信息;从危险经验池中随机抽取(1-k)Nt个状态转移系信息;之后将两批数据组合起来作为批处理计算损失函数的对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210863035.2A CN115257745A (zh) | 2022-07-21 | 2022-07-21 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210863035.2A CN115257745A (zh) | 2022-07-21 | 2022-07-21 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115257745A true CN115257745A (zh) | 2022-11-01 |
Family
ID=83766260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210863035.2A Pending CN115257745A (zh) | 2022-07-21 | 2022-07-21 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115257745A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822659A (zh) * | 2023-08-31 | 2023-09-29 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN117162086A (zh) * | 2023-08-07 | 2023-12-05 | 南京云创大数据科技股份有限公司 | 一种用于机械臂目标寻找的训练方法、方法及训练系统 |
CN117275240A (zh) * | 2023-11-21 | 2023-12-22 | 之江实验室 | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
CN117348415A (zh) * | 2023-11-08 | 2024-01-05 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
CN117601904A (zh) * | 2024-01-22 | 2024-02-27 | 中国第一汽车股份有限公司 | 车辆行驶轨迹的规划方法、装置、车辆及存储介质 |
CN117863948A (zh) * | 2024-01-17 | 2024-04-12 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
-
2022
- 2022-07-21 CN CN202210863035.2A patent/CN115257745A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117162086A (zh) * | 2023-08-07 | 2023-12-05 | 南京云创大数据科技股份有限公司 | 一种用于机械臂目标寻找的训练方法、方法及训练系统 |
CN116822659A (zh) * | 2023-08-31 | 2023-09-29 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
CN116822659B (zh) * | 2023-08-31 | 2024-01-23 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
CN116946162B (zh) * | 2023-09-19 | 2023-12-15 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN117348415A (zh) * | 2023-11-08 | 2024-01-05 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
CN117348415B (zh) * | 2023-11-08 | 2024-06-04 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
CN117275240A (zh) * | 2023-11-21 | 2023-12-22 | 之江实验室 | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
CN117275240B (zh) * | 2023-11-21 | 2024-02-20 | 之江实验室 | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
CN117863948A (zh) * | 2024-01-17 | 2024-04-12 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
CN117863948B (zh) * | 2024-01-17 | 2024-06-11 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
CN117601904A (zh) * | 2024-01-22 | 2024-02-27 | 中国第一汽车股份有限公司 | 车辆行驶轨迹的规划方法、装置、车辆及存储介质 |
CN117601904B (zh) * | 2024-01-22 | 2024-05-14 | 中国第一汽车股份有限公司 | 车辆行驶轨迹的规划方法、装置、车辆及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115257745A (zh) | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 | |
CN110297494B (zh) | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 | |
CN110758382B (zh) | 一种基于驾驶意图的周围车辆运动状态预测系统及方法 | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN112356830B (zh) | 一种基于模型强化学习的智能泊车方法 | |
CN112907967B (zh) | 一种基于不完全信息博弈的智能车换道决策方法 | |
CN110969848A (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN114312830B (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN111222630A (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN112249008B (zh) | 针对复杂动态环境的无人驾驶汽车预警方法 | |
CN112622932A (zh) | 一种基于势能场启发式搜索的自动驾驶换道轨迹规划算法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
CN113255998B (zh) | 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 | |
CN114153213A (zh) | 一种基于路径规划的深度强化学习智能车行为决策方法 | |
CN115257746A (zh) | 一种考虑不确定性的自动驾驶汽车换道决策控制方法 | |
Wei et al. | Game theoretic merging behavior control for autonomous vehicle at highway on-ramp | |
Meghjani et al. | Context and intention aware planning for urban driving | |
Muzahid et al. | Deep reinforcement learning-based driving strategy for avoidance of chain collisions and its safety efficiency analysis in autonomous vehicles | |
Sun et al. | Human-like highway trajectory modeling based on inverse reinforcement learning | |
Chen et al. | Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization | |
CN117325865A (zh) | 一种lstm轨迹预测的智能车辆换道决策方法及系统 | |
CN116486356A (zh) | 一种基于自适应学习技术的狭窄场景轨迹生成方法 | |
CN111824182A (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |