CN116476825B - 一种基于安全可信强化学习的自动驾驶车道保持控制方法 - Google Patents
一种基于安全可信强化学习的自动驾驶车道保持控制方法 Download PDFInfo
- Publication number
- CN116476825B CN116476825B CN202310565136.6A CN202310565136A CN116476825B CN 116476825 B CN116476825 B CN 116476825B CN 202310565136 A CN202310565136 A CN 202310565136A CN 116476825 B CN116476825 B CN 116476825B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- lane keeping
- reinforcement learning
- safety
- safe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 51
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000005484 gravity Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000011217 control strategy Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 10
- 238000001914 filtration Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0098—Details of control systems ensuring comfort, safety or stability not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0043—Signal treatments, identification of variables or parameters, parameter estimation or state estimation
- B60W2050/0052—Filtering, filters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本发明涉及一种基于安全可信强化学习的自动驾驶车道保持控制方法,应用了基于表演者‑评论家的强化学习(Reinforcement Learning,RL)算法和模型预测控制(Model Predictive Control,MPC)方法。考虑到自动驾驶决策控制系统对自主车辆运动规划的安全性和高性能的迫切需求,以及强化学习等学习型控制方法无法时刻保障安全动作的制约,训练了基于SAC算法的智能体,以实现车道保持场景下车辆的高性能连续运动,并减少动作幅度和避免在外侧车道上行驶,最终实现学习算法的收敛。同时,为确保作出安全可信的动作,建立了有关车道保持的安全约束,结合定义在预测时域的安全过滤器实现了安全动作的保障。与现有技术相比,本发明具有安全可信性强、可行性高等优点。
Description
技术领域
本发明涉及自动驾驶技术和人工智能领域,尤其是涉及一种基于安全可信强化学习的自动驾驶车道保持控制方法。
背景技术
随着自动驾驶技术的深入研究,车道保持系统可评估决策和运动规划的能力和性能,以提供更安全的出行方式,该系统在所需动作平稳的情况下,通常仍需通过驾驶员警告和主动干预来提高安全性。在此过程中,需要控制系统做出关键决策并采取相应的动作,以同时响应安全性、驾乘舒适性等多目标。解决该问题的难点在于:需要在考虑各类因素(如本车和周车的状态,交通流量等)的情况下,生成安全合理的操作。
目前针对车道保持系统的优化方法有两种:1)基于模型的优化方法。其根据动态模型、目标函数和优化求解方法来生成决策动作,例如动态规划、MPC、线性二次调节器等。然而,这些方法依赖于设计复杂交互场景的模型,优化难度很大。2)基于数据的优化方法,一般是利用深度强化学习算法在与环境交互方面的优势,来辅助车道保持系统,但是随机动作探索后得出的动作往往无法保证满足安全要求,这阻碍了其在自动驾驶等安全关键系统中的大规模应用。
发明内容
本发明的目的是为了提供一种基于安全可信强化学习的自动驾驶车道保持控制方法,提高自动驾驶车辆行驶的安全性。
本发明的目的可以通过以下技术方案来实现:
一种基于安全可信强化学习的自动驾驶车道保持控制方法,包括以下步骤:
S1、获取道路轨迹和车辆运行状态数据;
S2、构建基于SAC(Soft Actor Critic)算法的车道保持强化学习模型,以道路轨迹和车辆运行状态数据作为输入,在奖励函数中引导智能体完成解决车道保持任务,训练智能体,得到使得奖励函数收敛的策略神经网络,输出动作,并作为安全过滤器的参考输入;
S3、构建基于模型预测控制的安全过滤器,结合数据驱动和模型驱动的优化方法,建立基于动作和安全约束的优化问题并进行求解,生成经过安全过滤后的车道保持动作;
S4、建立车辆运动学模型,以安全过滤器的输出作为车辆运动学模型的安全控制输入,同时,根据车辆运动学模型的输出更新车辆运动状态并返回步骤S2,持续更新安全控制输入,实现车道保持控制。
进一步的,所述SAC算法的目标是最大化累积的预期累积奖励,同时,鼓励策略选择更加随机。
进一步的,所述SAC算法的训练目标中包括动作熵项,目标函数为:
其中,r(st,at)是通过在状态st中采取行动at而获得的奖励,α是控制熵项的相对重要性的加权因子,X被假设为随机策略,其概率密度函数是p,H(X)是策略分布的熵,π表示控制策略。
进一步的,所述SAC算法的状态值函数和动作值函数为:
Vsoft(st)=Eπ[Qsoft(st,at)-αlogπ(at|st)]
其中,γ是折扣因子,E表示期望。
进一步的,根据SAC算法的状态值函数和动作值函数,Soft策略评估最终收敛到Soft策略函数,通过智能体在Soft策略评估和Soft策略提升之间迭代地交替,使得策略收敛到满足SAC训练目标的最优策略。
进一步的,所述车道保持强化学习模型包括表示价值函数的两个Qsoft神经网络和两个与之对应的目标Qsoft神经网络,其对应参数分别为ω1和ω2,Qsoft神经网络的第一层具有4个单元,第二层具有256个隐藏单元,第三层的输出作为状态-动作的评估值;还包括表示策略函数的πθ神经网络,参数为θ,其第一层具有3个单元,第二层有256个隐藏单元,第三层输出动作分布的均值和标准差。
进一步的,所述车道保持强化学习模型中,状态-动作价值网络的损失函数为:
其中,rt是策略在过去收集的奖励,Qw、Vw表示目标Qsoft神经网络的状态值函数和动作值函数。
进一步的,所述车道保持强化学习模型中,策略网络的损失函数通过重新参数化连续动作空间中SAC算法的高斯分布均值和标准差得到:
其中,εi~N是噪声随机变量,fθ(εt;st)表示从高斯分布采样的动作。
进一步的,所述安全过滤器中优化问题的目标函数旨在最小化作为预测时域N中第一元素的输入序列u0|k和SAC算法输入uRL(k)之间的差值,通过对车道保持问题的分析,将安全任务定义为在内侧车道上行驶,即如果车辆驶离内侧车道并朝向外侧车道移动,则可能存在危险风险,将优化问题表示为:
|d|≤dmax
其中,x1=X、x2=Y、x3=ψ是状态信号,分别表示X轴上的状态位置、Y轴上的位置和偏航角;u0|k=δ是控制信号,表示转向角;质心侧偏角β与控制信号之间的关系由车辆运动学模型确定;uRL是已训练好的强化学习模型中策略网络输出的动作;V为车辆的速度;lf、lr分别表示车辆重心与前、后轴的距离;安全条件设置为:|d|≤dmax,d为车辆距内侧车道中心线的距离,dmax是预设的使车辆保持在内侧车道上的最大值。
进一步的,所述车辆运动学模型使用简化的自行车运动学模型构建:
其中,车辆重心在绝对坐标系中的位置由X和Y表示,lf和lr表示车辆重心分别到前、后轴的距离,V为车辆速度,解耦成纵向分量和横向分量表示为Vx和Vy,表示车辆在其惯性坐标系下的速度,ψ为车辆的横摆角;
则车辆运动学模型的五个状态变量分别是X、Y、Vx、Vy、ψ,两个控制输入变量是油门开度α和方向盘转向角δ,β表示车辆质心处的侧偏角,其与方向盘转向角δ的关系为:
自动驾驶车辆的车道保持重点主要在于车辆的横向运动,以使其能够跟踪车道中心线,因此,假设车辆的速度V保持恒定,车辆的动力学模型被简化为:
其中,状态变量是X、Y、ψ,控制输入变量是δ。
与现有技术相比,本发明具有以下有益效果:
本发明在自动驾驶车道保持控制系统中采用安全可信强化学习训练智能体连续动作,并引入预测过滤器进行安全验证,提高了控制系统动作的安全性,确保了数据驱动方法在自动驾驶领域应用的安全可信性。其中,安全可信强化学习方法是基于SAC算法和车道保持任务的奖励函数进行训练的,改善了车辆在连续动作下的整体性能;安全过滤框架是基于预测过滤方法求解带安全约束的优化问题,有效保证了车道保持任务中的安全性。
附图说明
图1为本发明的方法流程示意图;
图2为一种实施例中的车辆的简化运动学模型;
图3为一种实施例中的车道保持场景赛道环境图;
图4为一种实施例中连续动作空间下训练得的奖励曲线和平滑奖励曲线;
图5为一种实施例中强化学习和本发明方法的轨迹仿真结果;
图6为一种实施例中实例中控制信号的对比图;
图7为一种实施例中实例中安全约束的对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
为了确保自动驾驶车道保持控制系统可作出安全可信的动作,解决强化学习动作通过随机探索而得故无法保证安全的问题,本发明提出一种安全可信强化学习的自动驾驶车道保持控制方法,主要包括基于Soft Actor Critic(SAC)算法的车道保持智能体和基于模型预测控制的安全过滤框架。基于SAC算法的车道保持智能体通过在奖励函数中引导智能体完成解决车道保持任务,最终获得使奖励收敛的策略神经网络,并改善车辆在连续动作下的整体性能。基于模型预测控制的安全过滤框架结合了数据驱动和模型驱动的优化方法,通过带安全约束的优化问题求解,有效地保证了车道保持任务中的安全性。最终,简化了车辆动力学模型并在赛道仿真环境下验证,其仿真结果中包括运行轨迹、控制信号和是否违反安全约束的行为,验证了该安全可信控制框架在自动驾驶车辆车道保持过程中的有效性。
具体的,本实施例提供一种基于安全可信强化学习的自动驾驶车道保持控制方法,如图1所示,其控制过程可以描述为:利用已训练收敛的RL策略(本实施例训练的是策略神经网络),生成动作uk RL作为安全可信控制框架的参考。安全可信控制框架中的预测安全过滤器被优化以减少基于学习的动作信号的误差,同时还将考虑来自车辆动力学模型的状态xk和安全约束g(xk,uk)。具体包括以下步骤:
S1、获取道路轨迹和车辆运行状态数据。
S2、构建基于SAC算法的车道保持强化学习模型,以道路轨迹和车辆运行状态数据作为输入,在奖励函数中引导智能体完成解决车道保持任务,训练智能体,得到使得奖励函数收敛的策略神经网络,输出动作,并作为安全过滤器的参考输入。
马尔可夫决策过程是强化学习中用于描述环境的常用框架,它由五元组组成,包括当前状态St、动作At、奖励Rt、状态转换和下一状态St+1,智能体通过与环境的交互来积累经验数据。在当前状态St中,智能体根据其策略π执行动作At,并且状态从St转换到St+1,其中奖励Rt向智能体提供反馈。基于经验数据,智能体优化其策略,以得到最大化的累积奖励。
在滚动时域控制框架下,智能体采用当前优化动作序列的第一项作为控制信号,环境发生状态转移,从而形成闭环控制。
Soft Actor Critic算法属于最大熵RL,其目的是最大化累积的预期累积奖励,同时还鼓励策略更加随机。为了实现这一点,动作熵项被添加到训练目标中,这鼓励智能体探索在当前状态下选择不太频繁被选择到的动作,因此Soft Actor Critic算法的目标函数可以改写如下:
其中,r(st,at)是通过在状态st中采取行动at而获得的奖励,α是控制熵项的相对重要性的加权因子,X被假设为随机策略,其概率密度函数是p,H(X)是策略分布的熵,π表示控制策略。
根据Soft贝尔曼方程,最大熵RL的状态值函数和动作值函数如下:
Vsoft(st)=Eπ[Qsoft(st,at)-αlogπ(at|st)] (4)
其中,γ是折扣因子,E表示期望。
根据等式(3)(4),Soft策略评估最终可以收敛到Soft策略函数。因此,通过智能体在Soft策略评估和Soft策略提升之间迭代地交替,策略可收敛到满足最大熵RL目标的最优策略。
为了实现SoftActor Critic算法,利用表示价值函数的两个Qsoft神经网络和两个目标Qsoft神经网络(其参数为ω1和ω2),其第一层具有4个单元,第二层中具有256个隐藏单元,第三层中输出作为状态-动作的评估值。此外,还包括表示策略函数的πθ神经网络,参数为θ,其第一层有3个单元,第二层有256个隐藏单元,第三层输出动作分布的均值和标准差。对于状态-动作价值网络的损失函数定义如下:
其中,rt是策略在过去收集的奖励,Qw、Vw表示目标Qsoft神经网络的状态值函数和动作值函数。为了提高训练稳定性,使用两个目标网络Qω-神经网络,与两个Q神经网络相对应。
对于策略网络的损失函数,需要重新参数化连续动作空间中Soft Actor Critic算法的高斯分布均值和标准差。考虑高斯分布的一般形式,重写策略网络的损失函数如下:
其中,εi~N是噪声随机变量,fθ(εt;st)表示从高斯分布采样的动作。
S3、构建基于模型预测控制的安全过滤器,结合数据驱动和模型驱动的优化方法,建立基于动作和安全约束的优化问题并进行求解,生成经过安全过滤后的车道保持动作。
本实施例设计了模型预测安全过滤器来解决采用RL策略安全可信性不足的问题。
该优化问题的目标函数旨在最小化作为预测时域N中第一元素的输入序列u0|k和SAC算法输入uRL(k)之间的差值,通过对车道保持问题的分析,可将安全任务定义为在内侧车道上行驶,即如果车辆驶离内侧车道并朝向外侧车道移动,则可能存在危险风险,将优化问题表示为:
其中,x1=X、x2=Y、x3=ψ是状态信号,分别表示X轴上的状态位置、Y轴上的位置和偏航角;u0|k=δ是控制信号,表示转向角;质心侧偏角β与控制信号之间的关系由车辆运动学模型确定;uRL是已训练好的强化学习模型中策略网络输出的动作;V为车辆的速度;lf、lr分别表示车辆重心与前、后轴的距离;安全条件设置为:|d|≤dmax,d为车辆距内侧车道中心线的距离,dmax是预设的使车辆保持在内侧车道上的最大值。
车道保持系统中安全可信控制框架(该框架的算法如表1所示)的实施过程为:在每次运行开始时初始化环境和本车状态,在优化的每个步骤中,RL策略通过将当前状态馈送到经过良好训练的策略神经网络以生成动作。随后,RL动作和安全约束被输入到优化求解器中,生成经过安全过滤后的车道保持动作。最后,将来自过滤器的安全控制信号应用于环境以更新本车状态。
具体的,如表1所示,首先初始化算法的最大迭代轮数,并将训练好的SAC策略神经网络和安全约束作为输入,然后在赛道的动态环境下初始化并获得车辆的初始状态,对于每个环境步,进行以下环节:从训练好的SAC策略神经网络中采样输出RL动作,将RL动作和安全约束作为求解器的输入,利用求解器进行数值求解,安全过滤器将输出安全的MPC动作,车辆执行安全的MPC动作,并在动态环境中转移到下一个状态,循环上述环节。
表1
另外,值得注意的是,优化问题中的控制命令uRL是连续值信号,并且每0.1秒更新一次,而在每个时间步长计算命令所需的RL中的计算时间大约为0.001秒,优化问题的预测范围为2秒,最大迭代限制为1000,可接受的偏差为0.01。
S4、建立车辆运动学模型,以安全过滤器的输出作为车辆运动学模型的安全控制输入,同时,根据车辆运动学模型的输出更新车辆运动状态并返回步骤S2,持续更新安全控制输入,实现车道保持控制。
如图2所示,使用简化的自行车运动学模型,其足以清楚地描述学习控制框架所需的运动学机理及安全指标表达,该模型可以表示为:
其中,车辆重心在绝对坐标系中的位置由X和Y表示,lf和lr表示车辆重心分别到前、后轴的距离,V为车辆速度,解耦成纵向分量和横向分量表示为Vx和Vy,表示车辆在其惯性坐标系下的速度,ψ为车辆的横摆角。
则车辆运动学模型的五个状态变量分别是X、Y、Vx、Vy、ψ,两个控制输入变量是油门开度α和方向盘转向角δ,β表示车辆质心处的侧偏角,其与方向盘转向角δ的关系为:
由于自动驾驶车辆的车道保持系统重点主要在于车辆的横向运动,以使其能够跟踪车道中心线,因此,假设车辆的速度保持恒定,车辆的动力学模型可以简化如下:
其中,车辆V的速度是恒定的,状态变量是X、Y、ψ,控制输入变量是δ。
如图3所示,本实施例提供了一个在双赛道场景中车道保持的案例,并在安全可信控制框架的基础上定义了车辆的安全运动域。
在Soft Actor Critic算法的训练过程中,车道保持赛道环境被定义为一个由弯道和直道组成的闭环赛道,当时间步数达到200步或本车驶离道路时,一次训练循环结束。在每一次训练循环的开始,本车的初始位置将会随机分配,用于训练的奖励函数考虑了轨迹跟随、动作幅度减少和避免在外部道路上驾驶,其公式如下:
其中,d是距内部轨道的中心线的距离,uRL是动作,Noffroad表示车辆驶离道路,a、b、c分别是三项的加权因子。
Soft Actor Critic策略在50000个训练步骤之后实现收敛,其在收敛阶段期间奖励的波动主要是由于驾驶场景的不确定性,算法在连续动作空间下训练得的奖励曲线和平滑奖励曲线如图4所示。
在仿真验证过程中,进行了100次单圈测试,即使RL智能体在训练期间已经收敛,但仍有3次因车辆驶离道路而导致的测试失败,8次因在外侧赛道行驶导致违反安全约束,这是由于智能体动作采样是基于分布采样而导致的。而安全可信控制框架在优化过程中考虑了安全约束,将永远不会导致驶离道路或在外侧赛道行驶,实现了100%的安全率。示例轨迹在图5中示出,其中点虚线表示单纯RL轨迹,划线虚线表示安全可信控制框架轨迹。可以看出,两个控制器都准确且平滑地操纵车辆。然而,在时间步50、75、100处,RL智能体在外车道上驾驶,违反了安全约束,而安全可信控制器仍然遵守安全约束。
图6和图7展示了在上述同一测试中使用两种控制器的控制信号和安全约束,其中控制信号-转向角曲线如图6所示,距内侧车道中心线的距离如图7所示。值得注意的是,安全可信控制框架能生成更平滑的控制信号,并且当违反安全约束时(在时间步50、75和100),能相应地调整控制信号。总体来说,在安全可信控制框架下到内测赛道中心线的距离总是在安全约束范围内(安全约束由虚线展示),而单纯RL控制器可能超过安全约束。因此,上述轨迹、控制信号和安全约束的结果曲线可以证明此安全可信控制框架的有效性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,包括以下步骤:
S1、获取道路轨迹和车辆运行状态数据;
S2、构建基于SAC算法的车道保持强化学习模型,以道路轨迹和车辆运行状态数据作为输入,在奖励函数中引导智能体完成解决车道保持任务,训练智能体,得到使得奖励函数收敛的策略神经网络,输出动作,并作为安全过滤器的参考输入;
S3、构建基于模型预测控制的安全过滤器,结合数据驱动和模型驱动的优化方法,建立基于动作和安全约束的优化问题并进行求解,生成经过过滤后的车道保持安全动作;
S4、建立车辆运动学模型,以安全过滤器的输出作为车辆运动学模型的安全控制输入,同时,根据车辆运动学模型的输出更新车辆运动状态并返回步骤S2,持续更新安全控制输入,实现车道保持控制;
所述安全过滤器中优化问题的目标函数旨在最小化作为预测时域N中第一元素的输入序列u0|k和SAC算法输入uRL(k)之间的差值,通过对车道保持问题的分析,将安全任务定义为在内侧车道上行驶,即如果车辆驶离内侧车道并朝向外侧车道移动,则可能存在危险风险,将优化问题表示为:
|d|≤dmax
其中,x1=X、x2=Y、x3=ψ是状态信号,分别表示X轴上的状态位置、Y轴上的位置和偏航角;u0|k=δ是控制信号,表示转向角;质心侧偏角β与控制信号之间的关系由车辆运动学模型确定;uRL是已训练好的强化学习模型中策略网络输出的动作;V为车辆的速度;lf、lr分别表示车辆重心与前、后轴的距离;安全条件设置为:|d|≤dmax,d为车辆距内侧车道中心线的距离,dmax是预设的使车辆保持在内侧车道上的最大值。
2.根据权利要求1所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述SAC算法的目标是最大化累积的预期累积奖励,同时,鼓励策略选择更加随机。
3.根据权利要求2所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述SAC算法的训练目标中包括动作熵项,目标函数为:
其中,r(st,at)是通过在状态st中采取行动at而获得的奖励,α是控制熵项的相对重要性的加权因子,X被假设为随机策略,其概率密度函数是p,H(X)是策略分布的熵,π表示控制策略。
4.根据权利要求3所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述SAC算法的状态值函数和动作值函数为:
Vsoft(st)=Eπ[Qsoft(st,at)-αlogπ(at,st)]
其中,γ是折扣因子,E表示期望。
5.根据权利要求1所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,根据SAC算法的状态值函数和动作值函数,Soft策略评估最终收敛到Soft策略函数,通过智能体在Soft策略评估和Soft策略提升之间迭代地交替,使得策略收敛到满足SAC训练目标的最优策略。
6.根据权利要求4所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述车道保持强化学习模型包括表示价值函数的两个Qsoft神经网络和两个与之对应的目标Qsoft神经网络,其对应参数分别为ω1和ω2,Qsoft神经网络的第一层具有4个单元,第二层具有256个隐藏单元,第三层的输出作为状态-动作的评估值;还包括表示策略函数的πθ神经网络,参数为θ,其第一层具有3个单元,第二层有256个隐藏单元,第三层输出动作分布的均值和标准差。
7.根据权利要求6所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述车道保持强化学习模型中,状态-动作价值网络的损失函数为:
其中,rt是策略在过去收集的奖励,Qw、Vw表示目标Qsoft神经网络的状态值函数和动作值函数。
8.根据权利要求7所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述车道保持强化学习模型中,策略网络的损失函数通过重新参数化连续动作空间中SAC算法的高斯分布均值和标准差得到:
其中,εi~N是噪声随机变量,fθ(εt;st)表示从高斯分布采样的动作。
9.根据权利要求1所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法,其特征在于,所述车辆运动学模型使用简化的自行车运动学模型构建:
其中,车辆重心在绝对坐标系中的位置由X和Y表示,lf和lr表示车辆重心分别到前、后轴的距离,V为车辆速度,解耦成纵向分量和横向分量表示为Vx和Vy,表示车辆在其惯性坐标系下的速度,ψ为车辆的横摆角;
则车辆运动学模型的五个状态变量分别是X、Y、Vx、Vy、ψ,两个控制输入变量是油门开度α和方向盘转向角δ,β表示车辆质心处的侧偏角,其与方向盘转向角δ的关系为:
自动驾驶车辆的车道保持重点主要在于车辆的横向运动,以使其能够跟踪车道中心线,因此,假设车辆的速度V保持恒定,车辆的动力学模型被简化为:
其中,状态变量是X、Y、ψ,控制输入变量是δ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565136.6A CN116476825B (zh) | 2023-05-19 | 2023-05-19 | 一种基于安全可信强化学习的自动驾驶车道保持控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565136.6A CN116476825B (zh) | 2023-05-19 | 2023-05-19 | 一种基于安全可信强化学习的自动驾驶车道保持控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116476825A CN116476825A (zh) | 2023-07-25 |
CN116476825B true CN116476825B (zh) | 2024-02-27 |
Family
ID=87217853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310565136.6A Active CN116476825B (zh) | 2023-05-19 | 2023-05-19 | 一种基于安全可信强化学习的自动驾驶车道保持控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116476825B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822618A (zh) * | 2023-08-30 | 2023-09-29 | 北京汉勃科技有限公司 | 基于动态噪声网络的深度强化学习探索方法及组件 |
CN116822659B (zh) * | 2023-08-31 | 2024-01-23 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110568760A (zh) * | 2019-10-08 | 2019-12-13 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制系统及方法 |
CN112046484A (zh) * | 2020-09-21 | 2020-12-08 | 吉林大学 | 一种基于q学习的车辆变道超车路径规划方法 |
CN112193280A (zh) * | 2020-12-04 | 2021-01-08 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 |
CN113386790A (zh) * | 2021-06-09 | 2021-09-14 | 扬州大学 | 一种面向跨海大桥路况的自动驾驶决策方法 |
CN114644017A (zh) * | 2022-05-06 | 2022-06-21 | 重庆大学 | 一种实现自动驾驶车辆安全决策控制的方法 |
CN114895697A (zh) * | 2022-05-27 | 2022-08-12 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
WO2022197252A1 (en) * | 2021-03-17 | 2022-09-22 | Nanyang Technological University | Autonomous driving methods and systems |
-
2023
- 2023-05-19 CN CN202310565136.6A patent/CN116476825B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110568760A (zh) * | 2019-10-08 | 2019-12-13 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制系统及方法 |
CN112046484A (zh) * | 2020-09-21 | 2020-12-08 | 吉林大学 | 一种基于q学习的车辆变道超车路径规划方法 |
CN112193280A (zh) * | 2020-12-04 | 2021-01-08 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
WO2022197252A1 (en) * | 2021-03-17 | 2022-09-22 | Nanyang Technological University | Autonomous driving methods and systems |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 |
CN113386790A (zh) * | 2021-06-09 | 2021-09-14 | 扬州大学 | 一种面向跨海大桥路况的自动驾驶决策方法 |
CN114644017A (zh) * | 2022-05-06 | 2022-06-21 | 重庆大学 | 一种实现自动驾驶车辆安全决策控制的方法 |
CN114895697A (zh) * | 2022-05-27 | 2022-08-12 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
Non-Patent Citations (1)
Title |
---|
基于深度强化学习的车辆跟驰控制;陈虹等;《中国公路学报》;第第32卷卷(第第6期期);53-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116476825A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116476825B (zh) | 一种基于安全可信强化学习的自动驾驶车道保持控制方法 | |
Liu et al. | Improved deep reinforcement learning with expert demonstrations for urban autonomous driving | |
CN110969848A (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Hartmann et al. | Deep reinforcement learning for time optimal velocity control using prior knowledge | |
Hou et al. | Autonomous driving at the handling limit using residual reinforcement learning | |
Wang et al. | Lane keeping assist for an autonomous vehicle based on deep reinforcement learning | |
CN115202341B (zh) | 一种自动驾驶车辆横向运动控制方法及系统 | |
CN114355897B (zh) | 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 | |
Zhao et al. | Indirect shared control strategy for human-machine cooperative driving on hazardous curvy roads | |
CN116486356A (zh) | 一种基于自适应学习技术的狭窄场景轨迹生成方法 | |
Yuan et al. | Evolutionary decision-making and planning for autonomous driving based on safe and rational exploration and exploitation | |
Lu et al. | Event-Triggered Parallel Control Using Deep Reinforcement Learning With Application to Comfortable Autonomous Driving | |
Yuan et al. | Evolutionary Decision-Making and Planning for Autonomous Driving: A Hybrid Augmented Intelligence Framework | |
CN117302208A (zh) | 一种基于风险态势感知约束策略优化的车道保持辅助方法 | |
CN116872971A (zh) | 一种基于人机协同增强的自动驾驶控制决策方法及系统 | |
Xie et al. | A model predictive control trajectory tracking lateral controller for autonomous vehicles combined with deep deterministic policy gradient | |
Kong et al. | Constrained policy optimization algorithm for autonomous driving via reinforcement learning | |
Wang et al. | An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle | |
Wan et al. | Lane-changing tracking control of automated vehicle platoon based on ma-ddpg and adaptive mpc | |
Wang et al. | Learning autonomous race driving with action mapping reinforcement learning | |
Liu et al. | Automatic Tracking Control Strategy of Autonomous Trains Considering Speed Restrictions: Using the Improved Offline Deep Reinforcement Learning Method | |
Liao et al. | Integration of Decision-Making and Motion Planning for Autonomous Driving Based on Double-Layer Reinforcement Learning Framework | |
Tong et al. | Multi-policy Soft Actor-Critic Reinforcement Learning for Autonomous Racing | |
Cheng et al. | Lane-keeping Control of Autonomous Vehicles Using Reinforcement Learning and Predictive Safety Filter | |
CN118850115A (zh) | 一种车辆人机协同驾驶方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |