CN114580302A - 基于最大熵强化学习的自动驾驶汽车决策规划方法 - Google Patents
基于最大熵强化学习的自动驾驶汽车决策规划方法 Download PDFInfo
- Publication number
- CN114580302A CN114580302A CN202210261432.2A CN202210261432A CN114580302A CN 114580302 A CN114580302 A CN 114580302A CN 202210261432 A CN202210261432 A CN 202210261432A CN 114580302 A CN114580302 A CN 114580302A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- model
- function
- reinforcement learning
- maximum entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000002452 interceptive effect Effects 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 18
- 230000007613 environmental effect Effects 0.000 claims abstract description 18
- 238000013210 evaluation model Methods 0.000 claims abstract description 17
- 238000004088 simulation Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims description 35
- 230000001133 acceleration Effects 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/80—Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
- Y02T10/84—Data processing systems or methods, management, administration
Abstract
本发明涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法,属于自动驾驶汽车领域。该方法包括:S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;S3:训练基于最大熵强化学习的决策规划模型。本发明利用最大熵强化学习提高了自动驾驶汽车的高速公路决策规划策略的最优性与稳定性。
Description
技术领域
本发明属于自动驾驶汽车领域,涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法。
背景技术
驾驶员操作不当已经成为交通系统中影响安全的主要因素。作为智能交通运输系统的一环,在改善交通安全方面有着巨大潜力的自动驾驶技术,引起了国内外研究人员的重视。
由于同时涉及横向与纵向运动,车辆换道行为风险较高、逻辑复杂。当前的决策规划方法主要分为基于规则的、基于优化的与基于学习的。基于规则的方法受限于人工设计的、僵化的规则,换道策略过于保守,并且只适用于特定场景。基于优化的方法将换道决策规划问题看作一个有约束的非线性、非凸优化问题。由于该优化问题求解难度高,该类方法难以满足实时性要求。基于学习的方法可利用驾驶数据,自动生成具有泛化性的驾驶经验,有适应各种场景的潜力。但当前基于学习的决策规划方法的数据利用率与稳定性不足。同时,驾驶数据采集成本高、采集风险大,并且数据难以体现环境车辆与目标车辆间的交互。
因此,需要一种新的自动驾驶汽车高速公路决策规划方法来解决以上问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,通过仿真训练环境提供的交互性训练数据,提高基于学习的方法的数据利用率、最优性和稳定。
为达到上述目的,本发明提供如下技术方案:
一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,具体包括以下步骤:
S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;
S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;
S3:训练基于最大熵强化学习的决策规划模型。
进一步,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:
S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;状态空间表示环境中可能出现的全部状态。状态是目标车辆对环境的观测,最大熵强化学习模型将获得的状态作为决策规划的基础。
S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动;动作空间表示最大熵强化学习模型可采取的动作。
S13:构建奖励函数R:奖励函数是安全指标rsafe、高效指标rspeed、舒适指标rcomfort和合规指标rrule四个指标的加权求和,即:
r=k1rsafe+k2rspeed+k3rcomfort+k4rrule
其中,k1、k2、k3、k4为各项的权重,安全指标rsafe要求目标车辆未发生碰撞或者驶向道路外,高效指标rspeed要求目标车辆的行驶速度接近期望速度,舒适指标rcomfort要求车辆的侧向加速度较小,合规指标rrule鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;
S14:给定策略函数π的结构:使用多层感知机拟合策略函数π,其中;策略函数表示状态与动作间的映射关系;
S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Qtar-1、Qtar-2均由相同结构的多层感知机拟合;目标评价函数的作用是提高模型的数据利用率,使用两对评价函数与目标评价函数是为了提高模型的稳定性。评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。
进一步,步骤S2中,构建具有交互性的高速公路仿真训练场景,具体包括以下步骤:
S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:
其中,x、y、v分别是车辆的纵向位置、横向位置、横摆角以及速度,x’、y’、v’分别是纵向位置、横向位置、横摆角以及速度的一阶导数,a是加速度,lr、lf是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角,δ是转向角;
S22:搭建基于规则的环境车辆决策规划模型:为了使环境车辆能对环境的变化主动做出反应,从而使仿真环境具有交互性,赋予环境车辆一种基于规则的智能决策规划模型;
S23:随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。
进一步,步骤S3中,训练基于最大熵强化学习的决策规划模型,具体包括:模型初始化,生成交互式训练数据,更新评价模型、策略函数和温度系数,测试模型性能。
进一步,步骤S3中,训练最大熵强化学习模型,具体包括以下步骤:
S31:初始化最大熵强化学习的决策规划模型,包括模型的超参数、策略函数与评价函数;
S32:在仿真训练环境中加入目标车辆,生成交互性的训练数据(st,at,rt,st+1),;将训练数据添加至数据库;
S33:从数据库中提取训练数据,以梯度下降法分别更新评价模型的两个评价函数,下降梯度为:
其中,M是采样的样本数,|M|表示样本集合的大小,st、at、rt分别是车辆在t时刻所处的状态、采取的动作、获得的奖励,Qi是第i个评价函数,θi是评价函数Qi的参数,y(·)是对评价函数值的预测,Qtar-j是第j个目标函数,π(·|st)表示策略函数,是在下一时刻的状态st+1下,根据策略函数采样的下一时刻的行为;α是温度系数;γ是折扣因子;
S34:以梯度下降法更新策略函数,下降梯度为:
S35:以梯度下降法更新温度系数,下降梯度为:
其中,α是温度系数,H0为目标熵值;
S36:分别更新评价模型的两个目标评价函数:
θtar,i=ρθtar,i+(1-ρ)θi,for i=1,2
其中,ρ为软更新系数,θtar,i是目标函数Qtar-i的参数,θi是评价函数Qi的参数;
S37:迭代更新最大熵强化学习模型:最大熵强化学习模型收敛后,测试最大熵强化学习模型,若不满足期望,则优化最大熵强化学习模型的超参数和奖励函数,并返回至步骤S31。
本发明的有益效果在于:
1)本发明设计了一种具有交互特性的仿真训练环境,使训练数据更符合真实交通场景特征,有利于提高最大熵强化学习模型在真实交通场景中的决策规划性能。
2)本发明设计了一种基于最大熵强化学习的决策规划模型,有利于提高模型的数据利用率、最优性与稳定性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于最大熵强化学习的自动驾驶汽车决策规划方法的逻辑结构图;
图2为最大熵强化学习决策规划模型结构示意图;
图3为仿真训练环境示意图;
图4为最大熵强化学习决策规划模型训练过程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,本发明提供了一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法。考虑到现实交通环境中车辆间的交互行为,因此提供一种交互性的仿真训练环境,用于提供交互性训练数据。同时,考虑到自动驾驶车辆决策规划问题对稳定性与行驶效率的要求,提出一种稳定性更好、行驶效率更高、样本利用率更高的基于最大熵强化学习的决策规划方法。该方法具体包括以下步骤:
步骤S1:构建最大熵强化学习模型,如图2所示,具体包括以下步骤:
S11:搭建状态空间S:状态空间包括目标车辆的位置、速度,一定范围内的环境车辆相对目标车辆的相对位置、相对速度,即
S=(Se,Si)
-l<Δxie<L,i≤4,i∈N
S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动,即A=(a,δ),s.t.a∈[-4,4]m/s2,δ∈[-0.1,0.1]rad。
S13:构建奖励函数R:奖励函数从安全、高效、舒适三个方面对最大熵强化学习模型采取的动作进行评估。安全指标要求目标车辆未发生碰撞或者驶出道路:
其中,k1为一个惩罚值,c=1指发生碰撞或者驶出道路。
高效指标要求目标车辆的行驶速度接近期望速度,但不能超出期望速度区间:
其中,[vmin,vmax]指期望的速度区间,ve指本车的速度。
舒适指标要求目标车辆以较小的侧向加速度行驶:
此外,目标车辆应尽可能的跟随车道中心线,并在高速公路的最左侧车道行驶:
rrule=k4.1lind+k4.2dl
其中,lind指目标车辆所在车道的编号,dl指目标车辆与所在车道的中心线的距离。
最终,奖励函数为r=k1rsafe+k2rspeed+k3rcomfort+k4rrule,其中k1,k2,k3,k4为各项的权重。
S14:给定策略函数π的结构:规定策略函数遵循高斯分布,并使用多层感知机πφ拟合该高斯分布。多层感知机为含两个隐含层的全连接神经网络,每个隐含层的神经元个数为128。
S15:给定评价函数Q的结构:评价模型包括两个评价函数Q1、Q2与两个目标评价函数Qtar-1、Qtar-2。两对评价函数与目标评价函数均由含两个隐含层的全连接神经网络构成,每个隐含层的神经元个数为128。
步骤S2:构建交互性训练环境,如图3所示,具体包括以下步骤:
S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:
S22:搭建基于规则的环境车辆决策规划模型:为了使环境车辆能对环境的变化主动做出反应,从而使仿真环境具有交互性,赋予环境车辆基于规则的决策规划模型。其中,构建环境车辆决策规划模型,具体包括以下步骤:
S221:环境车辆的决策规划模型根据前车信息,输出加速度指令a:
ddes=d0+v·(T0+0.1·Δv)
其中,amax为最大加速度,v为车辆纵向速度,vdes为车辆纵向期望速度,m为加速度参数,ddes为车辆纵向期望距离,d0为车辆纵向最小距离,T0为车辆最小碰撞时间,Δv为与前车的相对速度。
S222:环境车辆的决策规划模型通过评估各个车道,输出满足安全与收益指标的车道作为目标车道:
其中,V0指该决策规划模型控制的车辆,V1指当前车道上的后车,V2指期望车道上的后车,Δa指加速度变化量。
S223:环境车辆的决策规划模型根据目标车道,输出转向角指令δ:
S23:随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。
步骤S3:训练最大熵强化学习模型,如图4所示,具体包括以下步骤:
S31:初始化最大熵强化学习模型,包括模型的超参数,策略函数与评价函数。
S32:在仿真训练环境中加入目标车辆,生成交互性的训练数据(st,at,rt,st+1);将训练数据添加至数据库。
S33:从数据库中提取训练数据,以梯度下降法分别更新评价模型的两个评价函数,下降梯度为:
其中,M是采样的样本数,|M|表示样本集合的大小,是在下一时刻的状态st+1下,根据策略采样的下一时刻的行为;st为车辆在t时刻在状态空间S中的取值。θi是评价函数Qi的参数。α是温度系数,用来权衡最大熵强化学习模型对奖励与熵的偏好。
S34:以梯度下降法更新策略函数,下降梯度为:
其中,ψ是策略函数的参数。
S35:以梯度下降法更新温度系数,下降梯度为:
其中,α是温度系数,H0为目标熵值。
S36:分别更新评价模型的两个目标评价函数:
θtar,i=ρθtar,i+(1-ρ)θi,for i=1,2
其中,ρ为软更新系数,θtar,i是目标函数Qtar-i的参数,θi是评价函数Qi的参数。
S37:迭代更新最大熵强化学习模型:最大熵强化学习模型收敛后,测试最大熵强化学习模型,若不满足期望,则优化最大熵强化学习模型的超参数和奖励函数中的权重,并返回至步骤S31。最终模型的超参数如表1所示。
表1模型的超参数取值
超参数名称 | 值 |
学习率 | 0.0005 |
折扣因子γ | 0.9 |
软更新系数ρ | 0.02 |
回忆库容量 | 1000000 |
最小训练样本 | 256 |
目标熵值H<sub>0</sub> | -2 |
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,该方法具体包括以下步骤:
S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;
S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;
S3:训练基于最大熵强化学习的决策规划模型。
2.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:
S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;
S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动;
S13:构建奖励函数R:奖励函数是安全指标rsafe、高效指标rspeed、舒适指标rcomfort和合规指标rrule四个指标的加权求和,即:
r=k1rsafe+k2rspeed+k3rcomfort+k4rrule
其中,k1、k2、k3、k4为各项的权重,安全指标rsafe要求目标车辆未发生碰撞或者驶向道路外,高效指标rspeed要求目标车辆的行驶速度接近期望速度,舒适指标rcomfort要求车辆的侧向加速度较小,合规指标rrule鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;
S14:给定策略函数π的结构:使用多层感知机拟合策略函数π;策略函数表示状态与动作间的映射关系;
S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Qtar-1、Qtar-2均由相同结构的多层感知机拟合;评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。
4.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,训练基于最大熵强化学习的决策规划模型,具体包括:模型初始化,生成交互式训练数据,更新评价模型、策略函数和温度系数,测试模型性能。
8.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S3中,分别更新评价模型的两个目标评价函数:
θtar,i=ρθtar,i+(1-ρ)θi,for i=1,2
其中,ρ为软更新系数,θtar,i是目标函数Qtar-i的参数,θi是评价函数Qi的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210261432.2A CN114580302A (zh) | 2022-03-16 | 2022-03-16 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210261432.2A CN114580302A (zh) | 2022-03-16 | 2022-03-16 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580302A true CN114580302A (zh) | 2022-06-03 |
Family
ID=81780798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210261432.2A Pending CN114580302A (zh) | 2022-03-16 | 2022-03-16 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580302A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115202341A (zh) * | 2022-06-16 | 2022-10-18 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN115790608A (zh) * | 2023-01-31 | 2023-03-14 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
CN115841163A (zh) * | 2023-02-20 | 2023-03-24 | 浙江吉利控股集团有限公司 | 一种模型预测控制mpc的训练方法、装置及电子设备 |
CN115951881A (zh) * | 2022-12-30 | 2023-04-11 | 北京理工大学 | 一种基于sumo的多智能体强化学习自主开发接口 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372822A1 (en) * | 2019-01-14 | 2020-11-26 | Polixir Technologies Limited | Training system for autonomous driving control policy |
CN113276852A (zh) * | 2021-04-08 | 2021-08-20 | 南京大学 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
-
2022
- 2022-03-16 CN CN202210261432.2A patent/CN114580302A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372822A1 (en) * | 2019-01-14 | 2020-11-26 | Polixir Technologies Limited | Training system for autonomous driving control policy |
CN113276852A (zh) * | 2021-04-08 | 2021-08-20 | 南京大学 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
Non-Patent Citations (1)
Title |
---|
唐小林等: "Highway Decision-Making and Motion Planning for Autonomous Driving via Soft Actor-Critic", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115202341A (zh) * | 2022-06-16 | 2022-10-18 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN115202341B (zh) * | 2022-06-16 | 2023-11-03 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN115951881A (zh) * | 2022-12-30 | 2023-04-11 | 北京理工大学 | 一种基于sumo的多智能体强化学习自主开发接口 |
CN115951881B (zh) * | 2022-12-30 | 2023-09-05 | 北京理工大学 | 一种基于sumo的多智能体强化学习自主开发接口 |
CN115790608A (zh) * | 2023-01-31 | 2023-03-14 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
CN115790608B (zh) * | 2023-01-31 | 2023-05-30 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
CN115841163A (zh) * | 2023-02-20 | 2023-03-24 | 浙江吉利控股集团有限公司 | 一种模型预测控制mpc的训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114580302A (zh) | 基于最大熵强化学习的自动驾驶汽车决策规划方法 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Huang et al. | Personalized trajectory planning and control of lane-change maneuvers for autonomous driving | |
CN111222630B (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
CN112622886B (zh) | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 | |
Nie et al. | Real-time dynamic predictive cruise control for enhancing eco-driving of electric vehicles, considering traffic constraints and signal phase and timing (SPaT) information, using artificial-neural-network-based energy consumption model | |
CN106990714A (zh) | 基于深度学习的适配控制方法与装置 | |
CN111959492B (zh) | 一种网联环境下考虑换道行为的hev能量管理分层控制方法 | |
CN110304074A (zh) | 一种基于分层状态机的混合式驾驶方法 | |
CN110956851B (zh) | 一种智能网联汽车协同调度换道方法 | |
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN114564016A (zh) | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 | |
CN111824182B (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN112249008A (zh) | 针对复杂动态环境的无人驾驶汽车预警方法 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
CN116432448B (zh) | 基于智能网联车和驾驶员遵从度的可变限速优化方法 | |
CN115257789A (zh) | 城市低速环境下的营运车辆侧向防撞驾驶决策方法 | |
CN113386790A (zh) | 一种面向跨海大桥路况的自动驾驶决策方法 | |
CN116564095A (zh) | 基于cps的重点车辆高速公路隧道预测巡航云控制方法 | |
He et al. | Multi-objective longitudinal decision-making for autonomous electric vehicle: a entropy-constrained reinforcement learning approach | |
Lin et al. | Adaptive prediction-based control for an ecological cruise control system on curved and hilly roads | |
Zhao et al. | Imitation of real lane-change decisions using reinforcement learning | |
CN114148349B (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
Zhang et al. | Simulation research on driving behaviour of autonomous vehicles on expressway ramp under the background of vehicle-road coordination | |
Chen et al. | Decision making for overtaking of unmanned vehicle based on deep Q-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220603 |
|
RJ01 | Rejection of invention patent application after publication |