CN114580302A - 基于最大熵强化学习的自动驾驶汽车决策规划方法 - Google Patents

基于最大熵强化学习的自动驾驶汽车决策规划方法 Download PDF

Info

Publication number
CN114580302A
CN114580302A CN202210261432.2A CN202210261432A CN114580302A CN 114580302 A CN114580302 A CN 114580302A CN 202210261432 A CN202210261432 A CN 202210261432A CN 114580302 A CN114580302 A CN 114580302A
Authority
CN
China
Prior art keywords
vehicle
model
function
reinforcement learning
maximum entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210261432.2A
Other languages
English (en)
Inventor
唐小林
黄冰
刘腾
杨丰阁
杨凯
李佳承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210261432.2A priority Critical patent/CN114580302A/zh
Publication of CN114580302A publication Critical patent/CN114580302A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/80Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
    • Y02T10/84Data processing systems or methods, management, administration

Abstract

本发明涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法,属于自动驾驶汽车领域。该方法包括:S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;S3:训练基于最大熵强化学习的决策规划模型。本发明利用最大熵强化学习提高了自动驾驶汽车的高速公路决策规划策略的最优性与稳定性。

Description

基于最大熵强化学习的自动驾驶汽车决策规划方法
技术领域
本发明属于自动驾驶汽车领域,涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法。
背景技术
驾驶员操作不当已经成为交通系统中影响安全的主要因素。作为智能交通运输系统的一环,在改善交通安全方面有着巨大潜力的自动驾驶技术,引起了国内外研究人员的重视。
由于同时涉及横向与纵向运动,车辆换道行为风险较高、逻辑复杂。当前的决策规划方法主要分为基于规则的、基于优化的与基于学习的。基于规则的方法受限于人工设计的、僵化的规则,换道策略过于保守,并且只适用于特定场景。基于优化的方法将换道决策规划问题看作一个有约束的非线性、非凸优化问题。由于该优化问题求解难度高,该类方法难以满足实时性要求。基于学习的方法可利用驾驶数据,自动生成具有泛化性的驾驶经验,有适应各种场景的潜力。但当前基于学习的决策规划方法的数据利用率与稳定性不足。同时,驾驶数据采集成本高、采集风险大,并且数据难以体现环境车辆与目标车辆间的交互。
因此,需要一种新的自动驾驶汽车高速公路决策规划方法来解决以上问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,通过仿真训练环境提供的交互性训练数据,提高基于学习的方法的数据利用率、最优性和稳定。
为达到上述目的,本发明提供如下技术方案:
一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,具体包括以下步骤:
S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;
S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;
S3:训练基于最大熵强化学习的决策规划模型。
进一步,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:
S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;状态空间表示环境中可能出现的全部状态。状态是目标车辆对环境的观测,最大熵强化学习模型将获得的状态作为决策规划的基础。
S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动;动作空间表示最大熵强化学习模型可采取的动作。
S13:构建奖励函数R:奖励函数是安全指标rsafe、高效指标rspeed、舒适指标rcomfort和合规指标rrule四个指标的加权求和,即:
r=k1rsafe+k2rspeed+k3rcomfort+k4rrule
其中,k1、k2、k3、k4为各项的权重,安全指标rsafe要求目标车辆未发生碰撞或者驶向道路外,高效指标rspeed要求目标车辆的行驶速度接近期望速度,舒适指标rcomfort要求车辆的侧向加速度较小,合规指标rrule鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;
S14:给定策略函数π的结构:使用多层感知机拟合策略函数π,其中;策略函数表示状态与动作间的映射关系;
S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Qtar-1、Qtar-2均由相同结构的多层感知机拟合;目标评价函数的作用是提高模型的数据利用率,使用两对评价函数与目标评价函数是为了提高模型的稳定性。评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。
进一步,步骤S2中,构建具有交互性的高速公路仿真训练场景,具体包括以下步骤:
S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:
Figure BDA0003550280490000021
Figure BDA0003550280490000022
其中,x、y、
Figure BDA0003550280490000023
v分别是车辆的纵向位置、横向位置、横摆角以及速度,x’、y’、
Figure BDA0003550280490000024
v’分别是纵向位置、横向位置、横摆角以及速度的一阶导数,a是加速度,lr、lf是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角,δ是转向角;
S22:搭建基于规则的环境车辆决策规划模型:为了使环境车辆能对环境的变化主动做出反应,从而使仿真环境具有交互性,赋予环境车辆一种基于规则的智能决策规划模型;
S23:随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。
进一步,步骤S3中,训练基于最大熵强化学习的决策规划模型,具体包括:模型初始化,生成交互式训练数据,更新评价模型、策略函数和温度系数,测试模型性能。
进一步,步骤S3中,训练最大熵强化学习模型,具体包括以下步骤:
S31:初始化最大熵强化学习的决策规划模型,包括模型的超参数、策略函数与评价函数;
S32:在仿真训练环境中加入目标车辆,生成交互性的训练数据(st,at,rt,st+1),;将训练数据添加至数据库;
S33:从数据库中提取训练数据,以梯度下降法分别更新评价模型的两个评价函数,下降梯度为:
Figure BDA0003550280490000031
Figure BDA0003550280490000032
其中,M是采样的样本数,|M|表示样本集合的大小,st、at、rt分别是车辆在t时刻所处的状态、采取的动作、获得的奖励,Qi是第i个评价函数,θi是评价函数Qi的参数,y(·)是对评价函数值的预测,Qtar-j是第j个目标函数,π(·|st)表示策略函数,
Figure BDA0003550280490000033
是在下一时刻的状态st+1下,根据策略函数采样的下一时刻的行为;α是温度系数;γ是折扣因子;
S34:以梯度下降法更新策略函数,下降梯度为:
Figure BDA0003550280490000034
其中,ψ是策略函数的参数,
Figure BDA0003550280490000035
是在下一时刻的状态st+1下,根据策略函数采样的下一时刻的行为;
S35:以梯度下降法更新温度系数,下降梯度为:
Figure BDA0003550280490000036
其中,α是温度系数,H0为目标熵值;
S36:分别更新评价模型的两个目标评价函数:
θtar,i=ρθtar,i+(1-ρ)θi,for i=1,2
其中,ρ为软更新系数,θtar,i是目标函数Qtar-i的参数,θi是评价函数Qi的参数;
S37:迭代更新最大熵强化学习模型:最大熵强化学习模型收敛后,测试最大熵强化学习模型,若不满足期望,则优化最大熵强化学习模型的超参数和奖励函数,并返回至步骤S31。
本发明的有益效果在于:
1)本发明设计了一种具有交互特性的仿真训练环境,使训练数据更符合真实交通场景特征,有利于提高最大熵强化学习模型在真实交通场景中的决策规划性能。
2)本发明设计了一种基于最大熵强化学习的决策规划模型,有利于提高模型的数据利用率、最优性与稳定性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于最大熵强化学习的自动驾驶汽车决策规划方法的逻辑结构图;
图2为最大熵强化学习决策规划模型结构示意图;
图3为仿真训练环境示意图;
图4为最大熵强化学习决策规划模型训练过程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,本发明提供了一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法。考虑到现实交通环境中车辆间的交互行为,因此提供一种交互性的仿真训练环境,用于提供交互性训练数据。同时,考虑到自动驾驶车辆决策规划问题对稳定性与行驶效率的要求,提出一种稳定性更好、行驶效率更高、样本利用率更高的基于最大熵强化学习的决策规划方法。该方法具体包括以下步骤:
步骤S1:构建最大熵强化学习模型,如图2所示,具体包括以下步骤:
S11:搭建状态空间S:状态空间包括目标车辆的位置、速度,一定范围内的环境车辆相对目标车辆的相对位置、相对速度,即
S=(Se,Si)
Figure BDA0003550280490000051
Figure BDA0003550280490000052
-l<Δxie<L,i≤4,i∈N
其中,Se指目标车辆,Si指环境车辆,[-l,L]指目标车辆的观测范围,x,y是车辆的纵向、横向位置,vx,vy是车辆的纵向、横向速度,
Figure BDA0003550280490000056
指航向角。
S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动,即A=(a,δ),s.t.a∈[-4,4]m/s2,δ∈[-0.1,0.1]rad。
S13:构建奖励函数R:奖励函数从安全、高效、舒适三个方面对最大熵强化学习模型采取的动作进行评估。安全指标要求目标车辆未发生碰撞或者驶出道路:
Figure BDA0003550280490000053
其中,k1为一个惩罚值,c=1指发生碰撞或者驶出道路。
高效指标要求目标车辆的行驶速度接近期望速度,但不能超出期望速度区间:
Figure BDA0003550280490000054
其中,[vmin,vmax]指期望的速度区间,ve指本车的速度。
舒适指标要求目标车辆以较小的侧向加速度行驶:
Figure BDA0003550280490000055
此外,目标车辆应尽可能的跟随车道中心线,并在高速公路的最左侧车道行驶:
rrule=k4.1lind+k4.2dl
其中,lind指目标车辆所在车道的编号,dl指目标车辆与所在车道的中心线的距离。
最终,奖励函数为r=k1rsafe+k2rspeed+k3rcomfort+k4rrule,其中k1,k2,k3,k4为各项的权重。
S14:给定策略函数π的结构:规定策略函数遵循高斯分布,并使用多层感知机πφ拟合该高斯分布。多层感知机为含两个隐含层的全连接神经网络,每个隐含层的神经元个数为128。
S15:给定评价函数Q的结构:评价模型包括两个评价函数Q1、Q2与两个目标评价函数Qtar-1、Qtar-2。两对评价函数与目标评价函数均由含两个隐含层的全连接神经网络构成,每个隐含层的神经元个数为128。
步骤S2:构建交互性训练环境,如图3所示,具体包括以下步骤:
S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:
Figure BDA0003550280490000061
Figure BDA0003550280490000062
其中,x、y、
Figure BDA0003550280490000063
v分别是车辆的纵向位置、横向位置、横摆角以及速度,lr、lf是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角。
S22:搭建基于规则的环境车辆决策规划模型:为了使环境车辆能对环境的变化主动做出反应,从而使仿真环境具有交互性,赋予环境车辆基于规则的决策规划模型。其中,构建环境车辆决策规划模型,具体包括以下步骤:
S221:环境车辆的决策规划模型根据前车信息,输出加速度指令a:
Figure BDA0003550280490000064
ddes=d0+v·(T0+0.1·Δv)
其中,amax为最大加速度,v为车辆纵向速度,vdes为车辆纵向期望速度,m为加速度参数,ddes为车辆纵向期望距离,d0为车辆纵向最小距离,T0为车辆最小碰撞时间,Δv为与前车的相对速度。
S222:环境车辆的决策规划模型通过评估各个车道,输出满足安全与收益指标的车道作为目标车道:
Figure BDA0003550280490000071
其中,V0指该决策规划模型控制的车辆,V1指当前车道上的后车,V2指期望车道上的后车,Δa指加速度变化量。
S223:环境车辆的决策规划模型根据目标车道,输出转向角指令δ:
Figure BDA0003550280490000072
Figure BDA0003550280490000073
其中,l指V0的长度,wr指期望的横摆角速度,
Figure BDA0003550280490000074
指横摆角,Δdlat指与目标车道的横向距离。
S23:随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。
步骤S3:训练最大熵强化学习模型,如图4所示,具体包括以下步骤:
S31:初始化最大熵强化学习模型,包括模型的超参数,策略函数与评价函数。
S32:在仿真训练环境中加入目标车辆,生成交互性的训练数据(st,at,rt,st+1);将训练数据添加至数据库。
S33:从数据库中提取训练数据,以梯度下降法分别更新评价模型的两个评价函数,下降梯度为:
Figure BDA0003550280490000075
Figure BDA0003550280490000076
其中,M是采样的样本数,|M|表示样本集合的大小,
Figure BDA0003550280490000077
是在下一时刻的状态st+1下,根据策略采样的下一时刻的行为;st为车辆在t时刻在状态空间S中的取值。θi是评价函数Qi的参数。α是温度系数,用来权衡最大熵强化学习模型对奖励与熵的偏好。
S34:以梯度下降法更新策略函数,下降梯度为:
Figure BDA0003550280490000081
其中,ψ是策略函数的参数。
S35:以梯度下降法更新温度系数,下降梯度为:
Figure BDA0003550280490000082
其中,α是温度系数,H0为目标熵值。
S36:分别更新评价模型的两个目标评价函数:
θtar,i=ρθtar,i+(1-ρ)θi,for i=1,2
其中,ρ为软更新系数,θtar,i是目标函数Qtar-i的参数,θi是评价函数Qi的参数。
S37:迭代更新最大熵强化学习模型:最大熵强化学习模型收敛后,测试最大熵强化学习模型,若不满足期望,则优化最大熵强化学习模型的超参数和奖励函数中的权重,并返回至步骤S31。最终模型的超参数如表1所示。
表1模型的超参数取值
超参数名称
学习率 0.0005
折扣因子γ 0.9
软更新系数ρ 0.02
回忆库容量 1000000
最小训练样本 256
目标熵值H<sub>0</sub> -2
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,该方法具体包括以下步骤:
S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;
S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;
S3:训练基于最大熵强化学习的决策规划模型。
2.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:
S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;
S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动;
S13:构建奖励函数R:奖励函数是安全指标rsafe、高效指标rspeed、舒适指标rcomfort和合规指标rrule四个指标的加权求和,即:
r=k1rsafe+k2rspeed+k3rcomfort+k4rrule
其中,k1、k2、k3、k4为各项的权重,安全指标rsafe要求目标车辆未发生碰撞或者驶向道路外,高效指标rspeed要求目标车辆的行驶速度接近期望速度,舒适指标rcomfort要求车辆的侧向加速度较小,合规指标rrule鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;
S14:给定策略函数π的结构:使用多层感知机拟合策略函数π;策略函数表示状态与动作间的映射关系;
S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Qtar-1、Qtar-2均由相同结构的多层感知机拟合;评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。
3.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S2中,构建具有交互性的高速公路仿真训练场景,具体包括以下步骤:
S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:
Figure FDA0003550280480000021
Figure FDA0003550280480000022
其中,x、y、
Figure FDA0003550280480000023
v分别是车辆的纵向位置、横向位置、横摆角以及速度,x’、y’、
Figure FDA0003550280480000024
v’分别是纵向位置、横向位置、横摆角以及速度的一阶导数,a是加速度,lr、lf是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角,δ是转向角;
S22:搭建基于规则的环境车辆决策规划模型;
S23:随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。
4.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,训练基于最大熵强化学习的决策规划模型,具体包括:模型初始化,生成交互式训练数据,更新评价模型、策略函数和温度系数,测试模型性能。
5.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,以梯度下降法分别更新评价模型的两个评价函数,下降梯度为:
Figure FDA0003550280480000025
Figure FDA0003550280480000026
其中,M是样本集合,|M|表示样本集合的大小,st、at、rt分别是车辆在t时刻所处的状态、采取的动作、获得的奖励,Qi是第i个评价函数,θi是评价函数Qi的参数,Qtar-j是第j个目标函数,y(·)是对评价函数值的预测,π(·|st)表示策略函数,
Figure FDA0003550280480000027
是在下一时刻的状态st+1下,根据策略函数采样的下一时刻的行为;α是温度系数;γ是折扣因子。
6.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,以梯度下降法更新策略函数,下降梯度为:
Figure FDA0003550280480000028
其中,M是样本集合,|M|表示样本集合的大小,st是车辆在t时刻所处的状态,Qtar-j是目标函数,π(·|st)表示策略函数,ψ是策略函数的参数,
Figure FDA0003550280480000029
是在下一时刻的状态st+1下,根据策略函数采样的下一时刻的行为;α是温度系数。
7.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,以梯度下降法更新温度系数,下降梯度为:
Figure FDA0003550280480000031
其中,α是温度系数,M是样本集合,st、at分别是车辆在t时刻所处的状态、采取的动作,π(·|st)表示策略函数,H0为目标熵值。
8.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,分别更新评价模型的两个目标评价函数:
θtar,i=ρθtar,i+(1-ρ)θi,for i=1,2
其中,ρ为软更新系数,θtar,i是目标函数Qtar-i的参数,θi是评价函数Qi的参数。
CN202210261432.2A 2022-03-16 2022-03-16 基于最大熵强化学习的自动驾驶汽车决策规划方法 Pending CN114580302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210261432.2A CN114580302A (zh) 2022-03-16 2022-03-16 基于最大熵强化学习的自动驾驶汽车决策规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210261432.2A CN114580302A (zh) 2022-03-16 2022-03-16 基于最大熵强化学习的自动驾驶汽车决策规划方法

Publications (1)

Publication Number Publication Date
CN114580302A true CN114580302A (zh) 2022-06-03

Family

ID=81780798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210261432.2A Pending CN114580302A (zh) 2022-03-16 2022-03-16 基于最大熵强化学习的自动驾驶汽车决策规划方法

Country Status (1)

Country Link
CN (1) CN114580302A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115790608A (zh) * 2023-01-31 2023-03-14 天津大学 基于强化学习的auv路径规划算法及装置
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备
CN115951881A (zh) * 2022-12-30 2023-04-11 北京理工大学 一种基于sumo的多智能体强化学习自主开发接口

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372822A1 (en) * 2019-01-14 2020-11-26 Polixir Technologies Limited Training system for autonomous driving control policy
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372822A1 (en) * 2019-01-14 2020-11-26 Polixir Technologies Limited Training system for autonomous driving control policy
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐小林等: "Highway Decision-Making and Motion Planning for Autonomous Driving via Soft Actor-Critic", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115202341B (zh) * 2022-06-16 2023-11-03 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115951881A (zh) * 2022-12-30 2023-04-11 北京理工大学 一种基于sumo的多智能体强化学习自主开发接口
CN115951881B (zh) * 2022-12-30 2023-09-05 北京理工大学 一种基于sumo的多智能体强化学习自主开发接口
CN115790608A (zh) * 2023-01-31 2023-03-14 天津大学 基于强化学习的auv路径规划算法及装置
CN115790608B (zh) * 2023-01-31 2023-05-30 天津大学 基于强化学习的auv路径规划算法及装置
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN114580302A (zh) 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
Huang et al. Personalized trajectory planning and control of lane-change maneuvers for autonomous driving
CN111222630B (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN112622886B (zh) 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
Nie et al. Real-time dynamic predictive cruise control for enhancing eco-driving of electric vehicles, considering traffic constraints and signal phase and timing (SPaT) information, using artificial-neural-network-based energy consumption model
CN106990714A (zh) 基于深度学习的适配控制方法与装置
CN111959492B (zh) 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN110304074A (zh) 一种基于分层状态机的混合式驾驶方法
CN110956851B (zh) 一种智能网联汽车协同调度换道方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN112249008A (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN116432448B (zh) 基于智能网联车和驾驶员遵从度的可变限速优化方法
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
CN113386790A (zh) 一种面向跨海大桥路况的自动驾驶决策方法
CN116564095A (zh) 基于cps的重点车辆高速公路隧道预测巡航云控制方法
He et al. Multi-objective longitudinal decision-making for autonomous electric vehicle: a entropy-constrained reinforcement learning approach
Lin et al. Adaptive prediction-based control for an ecological cruise control system on curved and hilly roads
Zhao et al. Imitation of real lane-change decisions using reinforcement learning
CN114148349B (zh) 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
Zhang et al. Simulation research on driving behaviour of autonomous vehicles on expressway ramp under the background of vehicle-road coordination
Chen et al. Decision making for overtaking of unmanned vehicle based on deep Q-learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220603

RJ01 Rejection of invention patent application after publication