CN115257745A - 一种基于规则融合强化学习的自动驾驶换道决策控制方法 - Google Patents

一种基于规则融合强化学习的自动驾驶换道决策控制方法 Download PDF

Info

Publication number
CN115257745A
CN115257745A CN202210863035.2A CN202210863035A CN115257745A CN 115257745 A CN115257745 A CN 115257745A CN 202210863035 A CN202210863035 A CN 202210863035A CN 115257745 A CN115257745 A CN 115257745A
Authority
CN
China
Prior art keywords
vehicle
decision
lane change
lane
automatic driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210863035.2A
Other languages
English (en)
Inventor
熊璐
李拙人
杨若霖
徐浦航
冷搏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210863035.2A priority Critical patent/CN115257745A/zh
Publication of CN115257745A publication Critical patent/CN115257745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于规则融合强化学习的自动驾驶换道决策控制方法,包括:建立他车纵向运动控制模型及横向行为决策模型;配置高速公路驾驶环境,筛除不合理车流场景,构建自动驾驶决策训练场景;建立驾驶行为观测的状态空间、动作空间;搭建用于策略更新的深度学习网络;设计换道决策风险评估方法,建立决策的安全性评判机制;设置奖励函数;将安全性评判机制引入基于DDQN的深度学习网络;基于自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,训练后的模型用于自动驾驶换道决策。与现有技术相比,本发明在换道场景中具有更高的决策任务成功率、行驶效率以及安全性。

Description

一种基于规则融合强化学习的自动驾驶换道决策控制方法
技术领域
本发明涉及自动驾驶控制技术领域,尤其是涉及一种基于规则融合强化学习的自动驾驶换道决策控制方法。
背景技术
随着当前汽车、计算机、雷达、视觉传感器、测绘、机器人等技术的飞速发展与密切融合,自动驾驶技术的优势越发明显。在自动驾驶领域,当前广泛应用的决策技术路线主要分为两类,一种是基于人为制定先验规则,另一种是采用深度学习类数据驱动的方法。
其中,基于规则的决策方法在出现问题时可以反向追溯,找到导致错误产生的规则机理或者相应参数,具有可解释性的优点,而且执行结果稳定、可预见性强。然而在实际交通场景中,自动驾驶汽车所面临的决策工况往往是复杂多变的,基于规则的方法难以适应,这也使得基于数据驱动的方法逐渐成为决策方法研究的重点。
目前,在数据驱动中,基于深度学习的数据驱动方法主要分为监督学习与深度强化学习,强化学习由智能体在仿真环境中自由试错来采集,决策结果的好坏通过决策执行后环境状态的变化、以奖励函数的形式给予评价,因此其数据来源于智能体与环境的真实互动结果,决策数据的覆盖范围更广,决策数据的标签更加真实客观。但是深度学习类数据驱动方法往往依赖于深度神经网络,其可解释性差,遇到问题难以溯源;另外神经网络更新实际是一个迭代优化进行函数逼近的过程,即使在损失函数收敛后深度神经网络仍有可能做出不合理甚至危险的动作。
综上可知,基于深度强化学习的决策方法尽管场景适应性强,但仍存在可靠性问题,因而,对于自动驾驶汽车而言,亟需一个能兼顾安全可靠、可解释性强与场景适应性好的驾驶决策控制方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于规则融合强化学习的自动驾驶换道决策控制方法,通过将深度强化学习在训练过程中与基于规则的决策方法相结合,以提高自动驾驶车辆在复杂换道场景中决策结果的可靠性与安全性。
本发明的目的可以通过以下技术方案来实现:一种基于规则融合强化学习的自动驾驶换道决策控制方法,包括以下步骤:
S1、建立他车的纵向运动控制模型及横向行为决策模型;
S2、配置高速公路驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策训练场景的构建;
S3、基于马尔科夫决策模型,建立驾驶行为观测的状态空间、动作空间;基于DDQN(Double Deep Q Network,双深度Q网络)算法,搭建用于策略更新的深度学习网络;
S4、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
S5、考虑安全性评判结果,设置奖励函数;
将安全性评判机制引入基于DDQN的深度学习网络;
基于构建的自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,得到训练后的模型,即作为自动驾驶换道决策模型;
S6、利用自动驾驶换道决策模型,输出得到自动驾驶车辆的实际换道决策结果;根据换道决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
进一步地,所述步骤S1中纵向运动控制模型具体是基于IDM(Intelligent DriverModel,智能驱动模型)建立,所述纵向运动控制模型的运动控制行为包括他车的加速度;
所述步骤S1中横向行为决策模型具体是基于MOBIL(Minimizing OverallBraking Induced by Lane changes,最小化变道引起的总制动)算法建立,所述横向行为决策模型的横向决策行为包括车道保持与换道。
进一步地,所述步骤S2中高速公路驾驶环境包括场景车道数、每条车道宽度、道路总长度、每条车道限速、他车数量、他车初始化所在车道集合、他车各车辆初始速度、他车初始纵向位置集合以及纵向运动控制模型的速度膨胀系数;
所述步骤S2中不合理的车流场景包括:自车在最左车道时取消左换道,在最右车道时取消右换道;
自车车速达到最大限速时取消加速动作,达到最低限速时取消减速动作;
自车与前车车距小于预设的参考跟车距离,则取消加速指令。
进一步地,所述步骤S3中状态空间包括自车状态信息,以及与自车在曲线坐标系下相距最近的4辆他车的相关状态信息;所述自车状态信息包括一个恒置为1 的是否存在的标志位、自车沿参考路纵向坐标s0、所处的道路曲线坐标系横向偏移量l0、自车沿参考路和垂直参考路速度分量v0x和v0y
所述4辆他车的相关状态信息包括一个是否存在的标志位(存在为1,否则为 0)、相对自车沿参考路方向的曲线距离Δs、相对自车垂直于参考路曲线方向的距离Δl、沿参考路曲线方向的相对速度Δvs、垂直参考路曲线方向的相对速度Δvl
所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策,共包含5种离散决策:左换道、右换道、加速、减速以及不换道也不加减速的IDLE (怠速)。
进一步地,所述步骤S3中搭建深度学习网络的具体过程为:
首先搭建深度学习网络结构,总结构为一个25*256*256*5的全连接神经网络,具体层次及设置为:
输入层接收的观测信息为25*1的向量;
中间设置两个隐藏层每层包含有256个神经元;
输出层输出信息为5*1;
激活函数采用ReLU,并设置学习率;
之后设定网络相关配置如下:
设置网络的决策周期;
设置各动作采样概率,使得奖励值高的动作采样概率随探索次数的增加而增高;
采用均方差(MSE,Mean-Squared Loss)计算损失函数;
采用Adam作优化器。
进一步地,所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞概率进行评估,设轨迹上共有N个轨迹点,对轨迹上t时刻点Tuncertain[t]高斯分布进行X次采样,获取X个该车辆在第t时刻的可能位置与姿态,若与规划轨迹Tplan[t] 发生重叠,则计数1次碰撞,否则不计数;
设定Ic为判断自车与他车是否碰撞的函数:
Figure BDA0003757422550000041
使用碰撞采样数与总采样数X之比,以作为自车与该辆车在t时刻的碰撞概率Pcoll,即表示碰撞概率,计算如下:
Figure BDA0003757422550000042
其中,Sself为自车规划轨迹在t时刻的位姿矩形框,Sother为第i次采样得到的周围车的位姿矩形框;
所述步骤S4中安全性评判机制具体是根据碰撞概率峰值、峰值时间倒数、高风险轨迹点个数这三个安全性指标进行综合评判,通过对所述三个安全性指标进行归一化处理,计算得到综合换道风险值,若所述综合换道风险值大于设定的换道风险阈值,则判定为危险动作,否则为安全动作。
进一步地,所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本交通礼仪奖励,其中,效率奖励具体为:当自动驾驶车辆与他车发生碰撞时给予负奖励,同时将环境终止重置;
安全性奖励具体为:当被判定为危险动作时给予负奖励;
交通礼仪奖励具体为:对车辆驶离最左侧车道给予正奖励。
进一步地,所述步骤S5具体包括以下步骤:
S51、分别设置效率奖励、安全性奖励以及基本交通礼仪奖励,将效率奖励、安全性奖励以及基本交通礼仪奖励进行求和计算,并对求和结果进行归一化处理,得到奖励函数;
S52、根据安全性评判结果,结合自动驾驶决策训练场景进行融合训练,针对安全性评判结果综合风险大于设定综合危险阈值的危险决策进行修正;
S53、设置两个存储经验池,以更新模型中目标价值网络的参数,所述两个存储经验池包括安全经验池和危险经验池;
S54、采用贝尔曼方程计算采样数据目标价值;
S55、计算损失函数梯度,更新主价值网络,每Ntarg步更新目标价值网络参数为θtarg
进一步地,所述步骤S52中对危险决策进行修正的策略具体为:
如果判断为危险的动作是左换道或右换道动作,则
Figure BDA0003757422550000051
如果判断为危险的动作不是加速、匀速、减速动作,则
Figure BDA0003757422550000052
进一步地,所述步骤S53具体包括以下步骤:
S531、在危险动作修正后,设置两个存储经验池,以对安全与危险动作经验分别进行存储:
在危险动作经验池中,给予(s,a)动作状态对一个固定惩罚rdangerous,存入状态转移信息(s,a,*,rdangerous);
在安全经验池中,计算奖励r,存入状态转移信息(s,a,s′,r);
S532、当安全经验池和危险经验池收集到设定数量的数据后,采用定比例随机采样的方式进行经验回放:
采样轨迹长度为Nt,安全经验采样比例为k时,从安全经验池中随机抽取kNt个状态转移信息;从危险经验池中随机抽取(1-k)Nt个状态转移系信息;之后将两批数据组合起来作为批处理计算损失函数的对象。
与现有技术相比,本发明提出一种基于规则融合强化学习的自动驾驶换道决策控制方法,将深度强化学习在训练过程中与基于规则的决策方法相结合,并引入安全性评判机制,相比于传统强化学习方法,本发明训练出的决策模型具有更优的性能,既能够应对处理高维复杂交通场景,同时也保证了决策结果具有较强的可靠性,有效提升自动驾驶车辆的换道精准性。
本发明在进行基于规则融合的强化学习决策训练过程中,一方面基于建立的安全性评判机制来设定奖励函数,使获得的累计决策奖励更高,另一方面通过修正决策出的危险动作,并并设置两个存储经验池分别储存安全和危险的状态动作对,以更新模型中目标价值网络的参数,由此保证平均换道风险值更低。使得本发明在训练过程奖励上升速度、收敛值以及安全性指标均优于传统学习方法,在换道场景中具有更高的决策任务成功率、行驶效率以及安全性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中构建自动驾驶换道决策模型的过程示意图;
图3为实施例中高速四车道换道场景图;
图4为深度学习网络结构图;
图5为实施例中基于规则融合强化学习的自动驾驶换道决策方法的模型训练过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于规则融合强化学习的自动驾驶换道决策控制方法,包括以下步骤:
S1、建立他车的纵向运动控制模型及横向行为决策模型;
S2、配置高速公路驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策训练场景的构建;
S3、基于马尔科夫决策模型,建立驾驶行为观测的状态空间、动作空间;基于DDQN算法,搭建用于策略更新的深度学习网络;
S4、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
S5、考虑安全性评判结果,设置奖励函数;
将安全性评判机制引入基于DDQN的深度学习网络;
基于构建的自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,得到训练后的模型,即作为自动驾驶换道决策模型;
S6、利用自动驾驶换道决策模型,输出得到自动驾驶车辆的实际换道决策结果;根据换道决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
本实施例应用上述技术方案,在构建自动驾驶换道决策模型时,如图2所示,主要包括:
一、建立他车的纵向运动控制模型及横向行为决策模型;
具体包括:
11)基于IDM模型建立他车加速度的纵向行为,首先计算此刻自车与前车距离的参考值:
Figure BDA0003757422550000071
其中,d0为预设的期望跟车距离,T为预设的期望车头时距,a为最大舒适加速度,b为最大舒适减速度,Δv为自车与前车速度差值;
再根据前方是否有车辆计算加速度:
111)若无前车,则他车加速度为
Figure BDA0003757422550000072
其中,v0为他车目标速度;
112)若有前车,则他车加速度为
Figure BDA0003757422550000073
其中,d为自车当前与前车的实际距离;
12)基于MOBIL算法,建立包括车道保持与换道的横向行为;
121)若
Figure BDA0003757422550000074
则车道保持;
其中,
Figure BDA0003757422550000075
为目标车道后车所需采取的加速度,bsafe为后方车辆在正常情况下所能采取的最大刹车加速度;
122)设定p为礼让系数,若
Figure BDA0003757422550000076
则换道;
其中,ac为自车与当前车道前车的纵向加速度,an为目标车道后车与前车纵向加速度,ao为当前车道后方车辆与自车的跟车加速度,
Figure BDA0003757422550000077
为换道成功后自车与目标车道前车的跟车加速度,
Figure BDA0003757422550000078
为目标车道后车与自车的跟车加速度,
Figure BDA0003757422550000079
为当前车道后车与当前车道前车跟车加速度,p为前礼让系数。
二、配置高速公路、低速城区两种驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策仿真场景的构建;
具体为:
21)配置高速公路场景,场景车道数nlane,每条车道宽度w,道路总长度l,及每条车道限速设置,本实施例中,场景车道数nlane为4,每条车道宽度w为4m,道路总长度l为1000m,每条车道限速设置为vmin=20m/s,vmax=30m/s,配置后场景如图3所示,图3中他车从左至右依次进行初始化;
211)设置他车数量n;
设定交通饱和度
Figure BDA0003757422550000081
计算道路可容纳车辆数为
Figure BDA0003757422550000082
其中,dmin为最小跟车距离,本实施例中取参考车辆间距Δsinit作为最小跟车距离;dactual为实际相邻车辆平均跟车距离;
212)采用包含车道数的整数集合内均匀分布方法,设置n个他车初始化所在车道集合{lane_indexinit}n,本实施例中满足[1,2,3,4]整数集合的均匀分布;
213)设置n个他车各车辆初始速度{vinit}n,以当前道路限速的0.8倍为均值、 0.7倍限速为方差高斯分布,随机采样生成初始速度,即满足方程式:
vinit~N(0.8vmax,(0.7vmax)2)
214)生成n个他车的初始纵向位置集合{sinit}n
首先计算参考车辆间距
Figure BDA0003757422550000083
smax为目前最靠右侧的交通参与车辆的纵向位置;
基于Δsinit计算他车的初始生成位置:sinit=smax+Δsinit
215)在给定范围内随机生成IDM控制模型的速度膨胀系数ξ,本实施例中给定范围为[3.5,4.5];
22)加入感知范围及感知噪声,模拟自动驾驶车辆在现实道路的有限感知;
在车辆坐标系中,x方向感知范围为车后20m到车前70m,y方向感知范围为车左侧20m到车右侧20m;
将感知的不确定性误差视为一个三维的高斯分布,以观测状态量
Figure BDA0003757422550000084
来表示自车感知获得的某他车在自车直角坐标系内的相对位置和航向角;
具体计算中,首先设定协方差矩阵Σ为3×3的对称矩阵:
Figure BDA0003757422550000085
其中,σx、σy
Figure BDA0003757422550000086
分别是三个变量分布的标准差,ρxy
Figure BDA0003757422550000087
Figure BDA0003757422550000088
分别是三个变量间的互相关系数;
从而得到X的高斯概率密度函数为:
Figure BDA0003757422550000091
初始观测状态量
Figure BDA0003757422550000092
由Σ为协方差、其他车辆位姿真实值
Figure BDA0003757422550000093
为均值的三维高斯分布采样得到;
23)筛除不合理的车流场景;
筛除如下车流场景:自车在最左车道时取消左换道,在最右车道时取消右换道;自车车速达到最大限速时取消加速动作,达到最低限速时取消减速动作;自车与前车车距小于参考跟车距离d*,则取消加速指令。
三、基于马尔科夫决策模型建立驾驶行为观测的状态空间、动作空间,基于 DDQN算法搭建用于策略更新的深度学习网络;
31)设定观测的状态空间;
状态空间包括自车以及与自车在曲线坐标系下相距最近的4辆车的相关状态信息;
311)自车状态信息包括一个恒置为1的是否存在的标志位,自车沿参考路纵向坐标s0,所处的道路曲线坐标系横向偏移量l0,自车沿参考路和垂直参考路速度分量v0x和v0y
312)4辆他车的信息包括一个是否存在的标志位,存在为1,否则为0;相对自车沿参考路方向的曲线距离Δs,相对自车垂直于参考路曲线方向的距离Δl,沿参考路曲线方向的相对速度Δvs,垂直参考路曲线方向的相对速度Δvl
所得观测的状态矩阵表达式为:
Figure BDA0003757422550000094
313)对观测矩阵内的位置量Δs与速度量Δv分别进行归一化处理,将归一化的观测矩阵压缩为网络可接受的一维输入向量si nput
对位置量Δs归一化:
Figure BDA0003757422550000095
其中,Δsmax、Δsmin分别为位置量归一化的上下限,满足Δsmin=-5vmax
对速度量Δv归一化:
Figure BDA0003757422550000101
其中,Δvmax、Δvmin分别为速度量归一化的上下限,满足Δvmin=-2vmax以及Δvmax=2vmax
最终网络接收的一维观测信息:
Figure BDA0003757422550000102
32)设定动作空间;
决策网络模型的5种离散决策,分为目标车道lanetarget的离散决策与目标速度vtarget的离散决策,具体设计如下:
321)目标车道lanetarget的离散决策分为左换道,右换道以及不换道,车道标号沿行驶方向从左至右依次增大,本实施例中,车道标号沿行驶方向从左至右依次为 0-3:
Figure BDA0003757422550000103
其中,lanecurrent表示自动驾驶车辆当前所处车道序号,lanemax表示最大车道序号,clip(·)表示截断函数,限制超出[0,lanemax]范围的序号;
322)目标速度vtarget的离散决策主要决定车辆的纵向行为,包括加速和减速动作;对应的目标车速可分为加速、减速以及匀速:
Figure BDA0003757422550000104
其中,vcurrent表示当前自车车速,Δvacc为加速指令发出后目标速度增量,Δvdec为减速指令发出后目标速度减少的量;
323)结合上述离散决策结果,将决策动作集合分为以下5类:
左换道,右换道,加速,减速以及不换道也不加减速的IDLE;
33)搭建并配置基于DDQN的深度学习网络;
331)搭建的网络结构:
总结构为一个25*256*256*5的全连接神经网络,具体层次及设置为:
输入层接收的观测信息为25*1的向量;
中间设置两个隐藏层每层包含有256个神经元;
输出层输出信息为5*1;
激活函数采用ReLU,设置学习率,本实施例设置学习率为0.2;
设定后的网络结构如图4所示;
332)设定网络相关配置如下:
设置网络的决策周期;
设置各动作采样概率,使得奖励值高的动作采样概率随探索次数的增加而增高,首先判断动作a是否是Q值,网络所判断出的Q值最高的动作amax=argmaxaQ(s,a),进而进行如下对应计算:
Figure BDA0003757422550000111
其中,ε从1开始随着探索次数增加逐渐下降,计算方法如下式所示:
Figure BDA0003757422550000112
其中,|A|为离散决策动作数量,εinitial为1,εfinal设为0,time为决策次数,tau 为衰减系数;
采用均方差(MSE,Mean-Squared Loss)计算损失函数,本实施例使用的函数表达式为:||yj-Q(s,a;θ)||2
采用Adam作优化器。
四、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
41)进行他车轨迹融合预测;
411)基于行为模型预测他车轨迹;
对目标车道中心线上纵向离散规划终点,使用五次多项式曲线生成换道轨迹簇,通过路径评价函数选取出最优路径Tman
在规划路径对相应曲线距离进行插值操作,得到他车在未来t时刻所处的位置(xman(t),yman(t));
基于行为模型的预测轨迹Tman={(xman(t),yman(t))};
412)基于运动学模型预测他车轨迹;
使用运动学模型:
Figure BDA0003757422550000121
分为ω=0时与ω≠0时两种情况,计算车辆未来时刻t的位置(x(t),y(t));
当ω≠0时:
Figure BDA0003757422550000122
其中
Figure BDA0003757422550000123
为当前时刻车辆初始位置与初始航向角;
由此得到基于运动学模型的预测轨迹Tmdl={(xmdl(t),ymdl(t))};
413)使用三次曲线将Tmdl与Tman融合,得到融合预测轨迹,本实施例使用三次曲线w(t)=a3t3+a2t2+a1t+a0将Tmdl与Tman融合,得到融合预测轨迹:
Tfin(t)=w(t)·Tmdl(t)+(1-w(t))·Tman(t)
42)确定预测轨迹的不确定性;
421)使用高斯分布对他车横坐标x、纵坐标y、航向角
Figure BDA0003757422550000124
的不确定性进行描述:
Figure BDA0003757422550000125
43)设计评估方法,基于自车与他车的碰撞概率Pcoll,以对换道决策的风险进行评估;
431)设轨迹上共有N个轨迹点,对轨迹上t时刻点Tuncertain[t]高斯分布进行X 次采样,获取X个该车辆在第t时刻的可能位置与姿态,若与规划轨迹Tplan[t]重叠,则计数1次碰撞,否则不计数;
设定判断自车与他车是否碰撞的函数Ic,Ic输出布尔值:
Figure BDA0003757422550000126
使用碰撞采样数与总采样数X之比作为自车与该辆车在t时刻的碰撞概率Pcoll,以表示碰撞风险,计算如下:
Figure BDA0003757422550000131
其中Sself为自车规划轨迹在t时刻的位姿矩形框,Sother为第i次采样得到的周围车的位姿矩形框;
44)基于计算的换道决策风险,建立决策的安全性评判机制;
具体为,计算换道轨迹综合碰撞概率,选取碰撞概率峰值、峰值时间倒数、高风险轨迹点个数等指标进行综合评判;
441)综合碰撞概率Pi由i时刻自车轨迹点上的与所有其他车辆碰撞概率求和得到:
Figure BDA0003757422550000132
其中,pij为i时刻自车与周围第j辆车的碰撞概率,对其排序得到序列pij ordered
442)选取安全性的指标,计算综合换道风险,以进行安全性评判;安全性的指标选取高风险轨迹点个数CHR,碰撞概率峰值Cp及峰值时间倒数CTTP,其中,CHR表示车辆换道决策轨迹的每一点的碰撞风险值P0大于阈值的个数;
Cp=min(max(P1,P2,…PI-1,PI),1),I表示预测轨迹上轨迹点个数,Pi表示各个时刻的综合碰撞概率;
峰值时间倒数CTTP=1/TP,其中,TP为碰撞峰值时间TTP;
对上述3个安全性指标进行归一化处理,计算综合换道风险risk,如果该风险大于0.5则判定为危险动作,否则为安全动作,本实施例中,CHR归一化范围为[0,20], Cp为[0,1],CTTP为[0.05,20],计算综合换道风险risk如下:
Figure BDA0003757422550000133
如果该风险大于0.5则判定为危险动作,否则为安全动作。
五、考虑安全性评判结果,设置奖励函数;
51)设定奖励函数;
从效率、安全性以及基本交通礼仪来进行奖励设置;
511)设置效率奖励refficiency
当自动驾驶车辆与他车发生碰撞时给予较大负奖励,同时将环境终止重置;
计算式为:
Figure BDA0003757422550000134
其中kspeed是折扣系数;
512)设置安全性奖励rsafe,分为危险动作与非危险动作,判断为危险动作时给予负奖励rdangerous
计算式为:
Figure BDA0003757422550000141
rdangerous是对危险动作的负奖励;
513)设置交通礼仪奖励rrule,对车辆驶离最左侧车道给予一个微小的奖励:
Figure BDA0003757422550000142
514)归一化计算最终的奖励;
最终奖励为三项奖励之和,并对其求和结果进行归一化处理得到最终奖励:
Figure BDA0003757422550000143
六、将步骤四的安全性评判机制引入基于DDQN的深度学习网络,基于步骤二搭建的场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,更新模型中目标价值网络的参数,训练后的模型用于自动驾驶换道决策;
图5以流程图的形式展示了整个基于规则融合强化学习的自动驾驶换道决策方法的训练流程,具体步骤为:
61)基于步骤四中安全性评判的结果,对综合风险大于0.5的危险决策进行修正,不修正综合风险小于或等于0.5的决策;
62)基于步骤二搭建的场景进行融合训练,修正决策出的危险动作;
621)在高速四车道换道场景中训练模型,设定V/C,他车车速为V0 m/s,自车车速Vem/s,本实施例中,设定V/C=1.0,他车车速为Vo∈[20,30]m/s,自车车速Ve∈[20,30]m/s,训练至实现累计奖励收敛;
622)建立横向危险动作修正机制:
如果判断为危险的动作是左换道或右换道动作,则有
Figure BDA0003757422550000144
623)建立纵向危险动作修正机制:
如果判断为危险的动作不是加速、匀速、减速动作,则有
Figure BDA0003757422550000151
63)设置两个存储经验池,更新模型中目标价值网络的参数;
631)在危险动作修正后,对安全与危险动作经验设置两个经验池分别存储;
在危险动作经验池中,给予(s,a)动作状态对一个固定惩罚rdangerous,存入状态转移信息(s,a,*,rdangerous);
在安全经验池中,计算奖励r,存入状态转移信息(s,a,s′,r);
632)当安全经验池和危险经验池收集到足够数量的数据后,采用定比例随机采样的方式进行经验回放;
具体为,采样轨迹长度为Nt,安全经验采样比例为k时,从安全经验池中随机抽取kNt个状态转移信息,从危险经验池中随机抽取(1-k)Nt个状态转移系信息,将两批数据组合起来作为批处理计算损失函数的对象;
633)应用贝尔曼方程计算采样数据目标价值,具体计算式为:
Figure BDA0003757422550000152
634)计算损失函数梯度,更新主价值网络,每Ntarg步更新目标价值网络参数为θtarg
综上所述,本技术方案将深度强化学习在训练过程中与基于规则的决策方法相结合,引入安全性评判机制,由此训练出的决策模型可靠性更强、获得的累计决策奖励更高、平均换道风险值更低,能够同时兼顾安全可靠、可解释性强与复杂交通场景适应性好的优点。

Claims (10)

1.一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,包括以下步骤:
S1、建立他车的纵向运动控制模型及横向行为决策模型;
S2、配置高速公路驾驶环境,加入自车的感知范围及感知噪声,筛除不合理的车流场景,完成结构化道路的自动驾驶决策训练场景的构建;
S3、基于马尔科夫决策模型,建立驾驶行为观测的状态空间、动作空间;基于DDQN算法,搭建用于策略更新的深度学习网络;
S4、计算他车预测轨迹及其不确定性,设计换道决策风险的评估方法,进而建立决策的安全性评判机制;
S5、考虑安全性评判结果,设置奖励函数;
将安全性评判机制引入基于DDQN的深度学习网络;
基于构建的自动驾驶决策训练场景进行融合训练,修正决策出的危险动作,并设置两个存储经验池,结合奖励函数更新模型中目标价值网络的参数,得到训练后的模型,即作为自动驾驶换道决策模型;
S6、利用自动驾驶换道决策模型,输出得到自动驾驶车辆的实际换道决策结果;根据换道决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
2.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S1中纵向运动控制模型具体是基于IDM建立,所述纵向运动控制模型的运动控制行为包括他车的加速度;
所述步骤S1中横向行为决策模型具体是基于MOBIL算法建立,所述横向行为决策模型的横向决策行为包括车道保持与换道。
3.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S2中高速公路驾驶环境包括场景车道数、每条车道宽度、道路总长度、每条车道限速、他车数量、他车初始化所在车道集合、他车各车辆初始速度、他车初始纵向位置集合以及纵向运动控制模型的速度膨胀系数;
所述步骤S2中不合理的车流场景包括:自车在最左车道时取消左换道,在最右车道时取消右换道;
自车车速达到最大限速时取消加速动作,达到最低限速时取消减速动作;
自车与前车车距小于预设的参考跟车距离,则取消加速指令。
4.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S3中状态空间包括自车状态信息,以及与自车在曲线坐标系下相距最近的4辆他车的相关状态信息;所述自车状态信息包括一个恒置为1的是否存在的标志位、自车沿参考路纵向坐标s0、所处的道路曲线坐标系横向偏移量l0、自车沿参考路和垂直参考路速度分量v0x和v0y
所述4辆他车的相关状态信息包括一个是否存在的标志位:存在为1,否则为0;相对自车沿参考路方向的曲线距离Δs;相对自车垂直于参考路曲线方向的距离Δl;沿参考路曲线方向的相对速度Δvs;垂直参考路曲线方向的相对速度Δvl
所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策,共包含5种离散决策:左换道、右换道、加速、减速以及不换道也不加减速的IDLE。
5.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S3中搭建深度学习网络的具体过程为:
首先搭建深度学习网络结构,总结构为一个25*256*256*5的全连接神经网络,具体层次及设置为:
输入层接收的观测信息为25*1的向量;
中间设置两个隐藏层每层包含有256个神经元;
输出层输出信息为5*1;
激活函数采用ReLU,并设置学习率;
之后设定网络相关配置如下:
设置网络的决策周期;
设置各动作采样概率,使得奖励值高的动作采样概率随探索次数的增加而增高;
采用均方差计算损失函数;
采用Adam作优化器。
6.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞概率进行评估,设轨迹上共有N个轨迹点,对轨迹上t时刻点Tuncertain[t]高斯分布进行X次采样,获取X个该车辆在第t时刻的可能位置与姿态,若与规划轨迹Tplan[t]发生重叠,则计数1次碰撞,否则不计数;
设定Ic为判断自车与他车是否碰撞的函数:
Figure FDA0003757422540000031
使用碰撞采样数与总采样数X之比,以作为自车与该辆车在t时刻的碰撞概率Pcoll,即表示碰撞概率,计算如下:
Figure FDA0003757422540000032
其中,Sself为自车规划轨迹在t时刻的位姿矩形框,Sother为第i次采样得到的周围车的位姿矩形框;
所述步骤S4中安全性评判机制具体是根据碰撞概率峰值、峰值时间倒数、高风险轨迹点个数这三个安全性指标进行综合评判,通过对所述三个安全性指标进行归一化处理,计算得到综合换道风险值,若所述综合换道风险值大于设定的换道风险阈值,则判定为危险动作,否则为安全动作。
7.根据权利要求6所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本交通礼仪奖励,其中,效率奖励具体为:当自动驾驶车辆与他车发生碰撞时给予负奖励,同时将环境终止重置;
安全性奖励具体为:当被判定为危险动作时给予负奖励;
交通礼仪奖励具体为:对车辆驶离最左侧车道给予正奖励。
8.根据权利要求7所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、分别设置效率奖励、安全性奖励以及基本交通礼仪奖励,将效率奖励、安全性奖励以及基本交通礼仪奖励进行求和计算,并对求和结果进行归一化处理,得到奖励函数;
S52、根据安全性评判结果,结合自动驾驶决策训练场景进行融合训练,针对安全性评判结果综合风险大于设定综合危险阈值的危险决策进行修正;
S53、设置两个存储经验池,以更新模型中目标价值网络的参数,所述两个存储经验池包括安全经验池和危险经验池;
S54、采用贝尔曼方程计算采样数据目标价值;
S55、计算损失函数梯度,更新主价值网络,每Ntarg步更新目标价值网络参数为θtarg
9.根据权利要求8所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S52中对危险决策进行修正的策略具体为:
如果判断为危险的动作是左换道或右换道动作,则
Figure FDA0003757422540000041
如果判断为危险的动作不是加速、匀速、减速动作,则
Figure FDA0003757422540000042
10.根据权利要求8所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法,其特征在于,所述步骤S53具体包括以下步骤:
S531、在危险动作修正后,设置两个存储经验池,以对安全与危险动作经验分别进行存储:
在危险动作经验池中,给予(s,a)动作状态对一个固定惩罚rdangerous,存入状态转移信息(s,a,*,rdangerous);
在安全经验池中,计算奖励r,存入状态转移信息(s,a,s′,r);
S532、当安全经验池和危险经验池收集到设定数量的数据后,采用定比例随机采样的方式进行经验回放:
采样轨迹长度为Nt,安全经验采样比例为k时,从安全经验池中随机抽取kNt个状态转移信息;从危险经验池中随机抽取(1-k)Nt个状态转移系信息;之后将两批数据组合起来作为批处理计算损失函数的对象。
CN202210863035.2A 2022-07-21 2022-07-21 一种基于规则融合强化学习的自动驾驶换道决策控制方法 Pending CN115257745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210863035.2A CN115257745A (zh) 2022-07-21 2022-07-21 一种基于规则融合强化学习的自动驾驶换道决策控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210863035.2A CN115257745A (zh) 2022-07-21 2022-07-21 一种基于规则融合强化学习的自动驾驶换道决策控制方法

Publications (1)

Publication Number Publication Date
CN115257745A true CN115257745A (zh) 2022-11-01

Family

ID=83766260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210863035.2A Pending CN115257745A (zh) 2022-07-21 2022-07-21 一种基于规则融合强化学习的自动驾驶换道决策控制方法

Country Status (1)

Country Link
CN (1) CN115257745A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822659A (zh) * 2023-08-31 2023-09-29 浪潮(北京)电子信息产业有限公司 自动驾驶运动技能学习方法、系统、设备及计算机介质
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN117162086A (zh) * 2023-08-07 2023-12-05 南京云创大数据科技股份有限公司 一种用于机械臂目标寻找的训练方法、方法及训练系统
CN117275240A (zh) * 2023-11-21 2023-12-22 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN117348415A (zh) * 2023-11-08 2024-01-05 重庆邮电大学 一种基于有限状态机的自动驾驶决策方法
CN117601904A (zh) * 2024-01-22 2024-02-27 中国第一汽车股份有限公司 车辆行驶轨迹的规划方法、装置、车辆及存储介质
CN117863948A (zh) * 2024-01-17 2024-04-12 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117162086A (zh) * 2023-08-07 2023-12-05 南京云创大数据科技股份有限公司 一种用于机械臂目标寻找的训练方法、方法及训练系统
CN116822659A (zh) * 2023-08-31 2023-09-29 浪潮(北京)电子信息产业有限公司 自动驾驶运动技能学习方法、系统、设备及计算机介质
CN116822659B (zh) * 2023-08-31 2024-01-23 浪潮(北京)电子信息产业有限公司 自动驾驶运动技能学习方法、系统、设备及计算机介质
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN117348415A (zh) * 2023-11-08 2024-01-05 重庆邮电大学 一种基于有限状态机的自动驾驶决策方法
CN117348415B (zh) * 2023-11-08 2024-06-04 重庆邮电大学 一种基于有限状态机的自动驾驶决策方法
CN117275240A (zh) * 2023-11-21 2023-12-22 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN117275240B (zh) * 2023-11-21 2024-02-20 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN117863948A (zh) * 2024-01-17 2024-04-12 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置
CN117863948B (zh) * 2024-01-17 2024-06-11 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置
CN117601904A (zh) * 2024-01-22 2024-02-27 中国第一汽车股份有限公司 车辆行驶轨迹的规划方法、装置、车辆及存储介质
CN117601904B (zh) * 2024-01-22 2024-05-14 中国第一汽车股份有限公司 车辆行驶轨迹的规划方法、装置、车辆及存储介质

Similar Documents

Publication Publication Date Title
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN110758382B (zh) 一种基于驾驶意图的周围车辆运动状态预测系统及方法
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN112907967B (zh) 一种基于不完全信息博弈的智能车换道决策方法
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN111222630A (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN112622932A (zh) 一种基于势能场启发式搜索的自动驾驶换道轨迹规划算法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
Wei et al. Game theoretic merging behavior control for autonomous vehicle at highway on-ramp
Meghjani et al. Context and intention aware planning for urban driving
Muzahid et al. Deep reinforcement learning-based driving strategy for avoidance of chain collisions and its safety efficiency analysis in autonomous vehicles
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
CN117325865A (zh) 一种lstm轨迹预测的智能车辆换道决策方法及系统
CN116486356A (zh) 一种基于自适应学习技术的狭窄场景轨迹生成方法
CN111824182A (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination