CN115016278A - 一种基于blf-srl的自动驾驶控制方法 - Google Patents

一种基于blf-srl的自动驾驶控制方法 Download PDF

Info

Publication number
CN115016278A
CN115016278A CN202210712700.8A CN202210712700A CN115016278A CN 115016278 A CN115016278 A CN 115016278A CN 202210712700 A CN202210712700 A CN 202210712700A CN 115016278 A CN115016278 A CN 115016278A
Authority
CN
China
Prior art keywords
sub
optimal
subsystem
actor
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210712700.8A
Other languages
English (en)
Inventor
高炳钊
张羽翔
程一帆
褚洪庆
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210712700.8A priority Critical patent/CN115016278A/zh
Publication of CN115016278A publication Critical patent/CN115016278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于BLF‑SRL的自动驾驶控制方法,该方法包括以下步骤:步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。与现有技术相比,本发明具有实现自动驾驶控制系统在强化学习过程中的安全保证等优点。

Description

一种基于BLF-SRL的自动驾驶控制方法
技术领域
本发明涉及自动驾驶控制系统领域,尤其是涉及一种基于BLF-SRL的自动驾驶控制方法。
背景技术
强化学习领域已经历了一定时期的研究,起初多是基于离散状态与动作的表格学习,而涉及到连续状态与动作空间的学习方法,形成的高维空间会引起维数灾难,通常需要借助函数逼近方法表征状态值函数与状态动作值函数,随着深度学习技术的发展,基于深度神经网络的强大函数逼近能力,深度强化学习在策略游戏及控制上得到应用与发展,陆续提出了DQN和DDPG等算法,并得到了有效验证,由于自动驾驶车辆需要面对复杂动态环境以及多场景泛化和交互特性,现有研究广泛应用可交互反馈的强化学习进行决策控制。
但自动驾驶控制系统是一类具有安全关键(Safety-Critical,SC)特性的系统,现有的强化学习方法在自适应交互行为决策方面存在困难、运动控制系统在变化工况下的安全及自适应性能也难以保证,因此需要提出一种解决强化学习基于试错的方式存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效以及学习过程中的安全性难以保证等问题的方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于BLF-SRL的自动驾驶控制方法。
本发明的目的可以通过以下技术方案来实现:
一种基于BLF-SRL的自动驾驶控制方法,该方法包括以下步骤:
步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;
步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;
步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
所述的步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤:
步骤101:将严格反馈形式的非线性系统重建为误差系统;
步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律;
步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件;
步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化。
所述的子系统包括z1子系统、zi(i=2,...,n-1)子系统和zn子系统。
所述的步骤101中,严格反馈形式的非线性系统为:
Figure BDA0003707453960000021
其中,fj(j=1,2,...,n)和gj(j=1,2,...,n)分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,
Figure BDA0003707453960000022
为状态变量,
Figure BDA0003707453960000023
为状态向量,
Figure BDA0003707453960000024
为控制输入,
Figure BDA0003707453960000025
为系统输出;
为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αi(i=1,...,n-1),定义误差状态z1=x1-yd和zi=xii-1(i=2,...,n),将待优化的非线性系统重新建立为误差系统:
Figure BDA0003707453960000026
其中,zj(j=1,2,...,n)为第j个子系统的误差状态,fj(j=1,2,...,n)和gj(j=1,2,...,n)分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,yd为系统期望输出;
误差系统呈现级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量
Figure BDA0003707453960000027
和自由状态变量
Figure BDA0003707453960000028
其中,ns为保证连续性的分段点,进而将学习问题描述为:
在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure BDA0003707453960000031
内,其中,
Figure BDA0003707453960000032
为正常数。
所述的步骤102中,采用反步优化方法和BLF分别设计每个子系统的优化控制律的过程具体为:
基于反步优化方法在每个子系统中采用强化学习的Actor-Critic框架,分别定义为Sub-Actor和Sub-Critic,对于待约束状态变量
Figure BDA0003707453960000033
所在的反步子系统,基于障碍李雅普诺夫函数设计虚拟控制量;对于自由状态变量
Figure BDA0003707453960000034
所在的反步子系统,基于二次型李雅普诺夫函数进行虚拟控制或系统控制输入设计。
所述的步骤103中,根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件的过程具体为:
分别将Sub-Actor和Sub-Critic分解为BLF/QLF项和采用独立的神经网络逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件。
所述的步骤102~104中,对于z1子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义z1子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在z1子系统中引入待优化的虚拟控制,定义z1子系统的最优性能指标函数为:
Figure BDA0003707453960000035
其中,
Figure BDA0003707453960000036
为z1子系统的最优性能指标函数,
Figure BDA0003707453960000037
为代价函数,
Figure BDA0003707453960000038
为最优虚拟控制,κ1s和κ1c分别为权重系数,相应的HJB方程
Figure BDA0003707453960000039
的表达式为:
Figure BDA00037074539600000310
其中,
Figure BDA00037074539600000311
表示最优性能指标函数对z1求偏导,f1和g1分别为建立待优化的非线性系统所需的模型;
由于
Figure BDA00037074539600000312
成立且有唯一解,通过求解
Figure BDA00037074539600000313
得到最优虚拟控制
Figure BDA00037074539600000314
为:
Figure BDA00037074539600000315
将最优虚拟控制
Figure BDA00037074539600000316
分解设计为:
Figure BDA0003707453960000041
其中,
Figure BDA0003707453960000042
为待学习的未知连续函数,κ1为一个正常数,由分解设计后的最优虚拟控制
Figure BDA0003707453960000043
可得最优性能指标函数的偏导数
Figure BDA0003707453960000044
的表达式为:
Figure BDA0003707453960000045
在z1子系统中,最优性能指标函数的偏导数
Figure BDA0003707453960000046
和最优虚拟控制
Figure BDA0003707453960000047
均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制
Figure BDA0003707453960000048
和最优性能指标函数的偏导数
Figure BDA0003707453960000049
得到其估计值
Figure BDA00037074539600000410
Figure BDA00037074539600000411
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure BDA00037074539600000412
为最优虚拟控制的估计值,定义为Sub-Actor a1
Figure BDA00037074539600000413
为最优性能指标函数的偏导数
Figure BDA00037074539600000414
的估计值,定义为Sub-Criticc1
由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数
Figure BDA00037074539600000415
和最优虚拟控制
Figure BDA00037074539600000416
中的未知项,打破最优性能指标函数的偏导数
Figure BDA00037074539600000417
与最优虚拟控制
Figure BDA00037074539600000418
之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值
Figure BDA00037074539600000419
Figure BDA00037074539600000420
最终两者逐步满足相关关系
Figure BDA00037074539600000421
进而得到系统的优化控制;
最优虚拟控制
Figure BDA00037074539600000422
的估计值
Figure BDA00037074539600000423
的表达式为:
Figure BDA00037074539600000424
其中,
Figure BDA00037074539600000425
为Sub-Actor NN的期望输出;
最优性能指标函数的偏导数
Figure BDA00037074539600000426
的估计值
Figure BDA00037074539600000427
的表达式为:
Figure BDA00037074539600000428
其中,
Figure BDA00037074539600000429
是Sub-Critic NN的期望输出;
将最优虚拟控制
Figure BDA00037074539600000430
的估计值
Figure BDA00037074539600000431
的表达式和最优性能指标函数的偏导数
Figure BDA00037074539600000432
的估计值
Figure BDA00037074539600000433
的表达式代入HJB方程
Figure BDA00037074539600000434
中,进而得到HJB方程的估计值
Figure BDA00037074539600000435
的表达式为:
Figure BDA00037074539600000436
获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为:
Figure BDA0003707453960000051
在Sub-Criticc1中,进行当前虚拟控制
Figure BDA0003707453960000052
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure BDA0003707453960000053
达到最优值,即
Figure BDA0003707453960000054
在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure BDA0003707453960000055
的表达式为:
Figure BDA0003707453960000056
Sub-Critic NN和Sub-Actor NN更新方程的表达式分别为:
Figure BDA0003707453960000057
Figure BDA0003707453960000058
其中,
Figure BDA0003707453960000059
为Sub-Critic NN更新方程所需的误差变量,
Figure BDA00037074539600000510
为Sub-Actor NN更新方程所需的误差变量,
Figure BDA00037074539600000511
Figure BDA00037074539600000512
分别为Sub-Critic NN和Sub-Actor NN的学习率;
最终,在z1子系统中,对最优虚拟控制
Figure BDA00037074539600000513
和最优性能指标函数的偏导数
Figure BDA00037074539600000514
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-ActorNN进行迭代学习,以满足贝尔曼最优性条件。
所述的步骤102~104中,对于zi子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zi子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在zi子系统中引入待优化的虚拟控制αi,其最优值为
Figure BDA00037074539600000515
定义最优性能指标函数为:
Figure BDA00037074539600000516
其中,
Figure BDA00037074539600000517
为代价函数,κis和κic分别为权重系数,相应的HJB方程
Figure BDA00037074539600000518
的表达式为:
Figure BDA00037074539600000519
其中,
Figure BDA0003707453960000061
表示最优性能指标函数对zi求偏导,通过求解
Figure BDA0003707453960000062
得到最优虚拟控制
Figure BDA0003707453960000063
的表达式为:
Figure BDA0003707453960000064
将最优虚拟控制
Figure BDA0003707453960000065
分解设计为:
Figure BDA0003707453960000066
其中,κi为一个正常数,
Figure BDA0003707453960000067
为待学习的未知连续函数,
Figure BDA0003707453960000068
为对虚拟控制变量
Figure BDA0003707453960000069
的估计值
Figure BDA00037074539600000610
求导,αi,aux为辅助的虚拟控制变量,其表达式为:
Figure BDA00037074539600000611
其中,
Figure BDA00037074539600000612
为zi-1子系统对应的Sub-Actor NN的期望输出,
Figure BDA00037074539600000613
Figure BDA00037074539600000614
分别为对应zi和zi-1子系统的待标定系数,ns为保证连续性的分段点,
Figure BDA00037074539600000615
表示最优虚拟控制
Figure BDA00037074539600000616
的代价函数;
由分解后的最优虚拟控制
Figure BDA00037074539600000617
得到最优性能指标函数的偏导数
Figure BDA00037074539600000618
的表达式为:
Figure BDA00037074539600000619
zi子系统与z1子系统类似,
Figure BDA00037074539600000620
Figure BDA00037074539600000621
中的不确定项分别采用独立的神经网络近似,根据分解后的最优虚拟控制
Figure BDA00037074539600000622
和最优性能指标函数的偏导数
Figure BDA00037074539600000623
得到其估计值
Figure BDA00037074539600000624
Figure BDA00037074539600000625
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure BDA00037074539600000626
为虚拟控制变量
Figure BDA00037074539600000627
的估计值,定义为Sub-Actorai
Figure BDA00037074539600000628
为最优性能指标函数的偏导数
Figure BDA00037074539600000629
的估计值,定义为Sub-Criticci
虚拟控制变量
Figure BDA00037074539600000630
的估计值
Figure BDA00037074539600000631
的表达式为:
Figure BDA00037074539600000632
其中,
Figure BDA00037074539600000633
为Sub-Actor NN的期望输出;
最优性能指标函数的偏导数
Figure BDA00037074539600000634
的估计值
Figure BDA00037074539600000635
的表达式为:
Figure BDA0003707453960000071
其中,
Figure BDA0003707453960000072
为Sub-Critic NN的期望输出;
将虚拟控制变量
Figure BDA0003707453960000073
的估计值
Figure BDA0003707453960000074
的表达式和最优性能指标函数的偏导数
Figure BDA0003707453960000075
的估计值
Figure BDA0003707453960000076
的表达式代入最优性能指标函数的偏导数
Figure BDA0003707453960000077
的估计值
Figure BDA0003707453960000078
的表达式,进而得到HJB方程的估计值
Figure BDA0003707453960000079
的表达式为:
Figure BDA00037074539600000710
获取在zi子系统中的贝尔曼最优性条件,在zi子系统中的贝尔曼最优性条件的表达式为:
Figure BDA00037074539600000711
zi子系统的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticci中,进行当前虚拟控制
Figure BDA00037074539600000712
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure BDA00037074539600000713
达到最优值,即
Figure BDA00037074539600000714
在Sub-Actorai中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure BDA00037074539600000715
的表达式为:
Figure BDA00037074539600000716
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
Figure BDA00037074539600000717
Figure BDA00037074539600000718
其中,
Figure BDA00037074539600000719
为Sub-Critic NN更新方程所需的误差变量,
Figure BDA00037074539600000720
为Sub-Actor NN更新方程所需的误差变量,
Figure BDA00037074539600000721
Figure BDA00037074539600000722
分别为Sub-Critic NN和Sub-Actor NN的学习率;
在zi子系统中,对最优虚拟控制
Figure BDA00037074539600000723
和最优性能指标函数的偏导数
Figure BDA00037074539600000724
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
所述的步骤102~104中,对于zn子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zn子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在zn子系统中,优化系统控制输入u,其最优值为u*,定义zn子系统的最优性能指标函数的表达式为:
Figure BDA0003707453960000081
其中,
Figure BDA0003707453960000082
为zn子系统的最优性能指标函数,
Figure BDA0003707453960000083
为代价函数,κns和κnc均为权重系数,相应的HJB方程
Figure BDA0003707453960000084
的表达式为:
Figure BDA0003707453960000085
其中,
Figure BDA0003707453960000086
表示最优性能指标函数对zn求偏导,最优系统控制输入u*通过求解
Figure BDA0003707453960000087
得到:
Figure BDA0003707453960000088
将最优系统控制输入u*分解为:
Figure BDA0003707453960000089
其中,
Figure BDA00037074539600000810
为待学习的未知连续函数,κn为一个正常数,αn,aux为辅助的虚拟控制变量,其表达式为:
Figure BDA00037074539600000811
其中,
Figure BDA00037074539600000812
为zn-1子系统对应的Sub-Actor NN的期望输出,
Figure BDA00037074539600000813
Figure BDA00037074539600000814
分别为对应zn和zn-1子系统的待标定系数,ns为保证连续性的分段点;
由分解后的最优系统控制输入u*得到最优性能指标函数的偏导数
Figure BDA00037074539600000815
的表达式为:
Figure BDA00037074539600000816
在zn子系统中,与z1子系统和zi子系统类似,最优性能指标函数的偏导数
Figure BDA00037074539600000817
和最优系统控制输入u*中的不确定项分别采用独立的神经网络近似,由分解后的最优系统控制输入u*和最优性能指标函数的偏导数
Figure BDA00037074539600000818
得到最优系统控制输入u*和最优性能指标函数的偏导数
Figure BDA00037074539600000819
的估计值
Figure BDA00037074539600000820
Figure BDA00037074539600000821
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure BDA0003707453960000091
为最优系统控制输入的估计值,定义为Sub-Actorai
Figure BDA0003707453960000092
为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci
最优系统控制输入u*的估计值
Figure BDA0003707453960000093
的表达式为:
Figure BDA0003707453960000094
其中,
Figure BDA0003707453960000095
为Sub-actor NN的期望输出;
最优性能指标函数的偏导数
Figure BDA0003707453960000096
的估计值
Figure BDA0003707453960000097
的表达式为:
Figure BDA0003707453960000098
其中,
Figure BDA0003707453960000099
为Sub-critic NN的期望输出;
将最优系统控制输入u*的估计值
Figure BDA00037074539600000910
的表达式和最优性能指标函数的偏导数
Figure BDA00037074539600000911
的估计值
Figure BDA00037074539600000912
的表达式代入HJB方程
Figure BDA00037074539600000913
进而得到HJB方程的估计值
Figure BDA00037074539600000914
的表达式为:
Figure BDA00037074539600000915
获取zn子系统中的贝尔曼最优性条件,zn子系统中的贝尔曼最优性条件的表达式为:
Figure BDA00037074539600000916
zn子系统中的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticcn中,进行当前系统控制输入
Figure BDA00037074539600000917
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure BDA00037074539600000918
达到最优值,即
Figure BDA00037074539600000919
在Sub-Actoran中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure BDA00037074539600000920
Figure BDA00037074539600000921
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
Figure BDA00037074539600000922
Figure BDA00037074539600000923
其中,
Figure BDA00037074539600000924
为Sub-Critic NN更新方程所需的误差变量,
Figure BDA00037074539600000925
为Sub-Actor NN更新方程所需的误差变量,
Figure BDA0003707453960000101
Figure BDA0003707453960000102
分别为Sub-Critic NN和Sub-Actor NN的学习率;
在zn子系统中,对最优系统控制输入
Figure BDA0003707453960000103
和最优性能指标函数的偏导数
Figure BDA0003707453960000104
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-ActorNN进行迭代学习,最终满足贝尔曼最优性条件。
所述的步骤2中,针对四轮驱动的自动驾驶车辆建立自动驾驶车辆的运动学模型和动力学模型,并假设自动驾驶车辆的纵向车速不变,将自动驾驶控制系统建模为严格反馈形式的非线性系统:
Figure BDA0003707453960000105
Figure BDA0003707453960000106
其中,f1、g1、f2和g2均为建立二阶严格反馈形式的运动控制系统所需的模型,
Figure BDA0003707453960000107
表示车辆的侧向位置和航向角,
Figure BDA0003707453960000108
表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力可以通过轮内电机进行独立控制,进而产生附加横摆力矩,Mz:=(Fx,fr-Fx,fl)d/2+(Fx,rr-Fx,rl)d/2为附加横摆力矩,d为两轮间距离,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力;
建立严格反馈形式的控制器模型(运动控制系统)时采用了线性轮胎力模型,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,造成模型fi和gi与真实系统的动力学模型fi p
Figure BDA0003707453960000109
之间存在模型失配,真实系统的轮胎力的表达式为:
Figure BDA00037074539600001010
其中,
Figure BDA00037074539600001011
为真实系统的轮胎力,Fy,·为控制器模型中的轮胎力,β为关系系数。
与现有技术相比,本发明具有以如下有益效果:
本发明针对变化场景工况下强化学习对模型参数变化学习自适应的需求,构建基于障碍李雅普诺夫函数的安全强化学习算法,即在完善反步优化控制方法的基础上基于模型建立了可分层学习的架构,通过引入障碍李雅普诺夫函数考虑约束条件,设计了可自适应学习的安全控制律解析形式和辅助函数,推导了学习部分更新方程,并将基于障碍李雅普诺夫函数的安全强化学习算法应用于自动驾驶控制系统,通过持续影响整个学习控制过程中的安全性能,实现自动驾驶控制系统在学习过程中的安全保证,以解决强化学习基于试错的方式存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效以及学习过程中的安全性难以保证等方面的问题。
附图说明
图1为本发明的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
为了解决强化学习基于试错的方式存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效以及学习过程中的安全性难以保证等方面的问题,本发明针对不确定性情况下,典型SC系统在学习全过程中的状态约束需求难以始终满足的难题,本发明提出了基于障碍李雅普诺夫函数的安全强化学习算法(BLF-SRL),其特点为可以在学习过程中将部分状态变量约束在设计的约束区域中,因为障碍李雅普诺夫函数方法是一种约束控制方法,其基本原理是当变量趋近区域边界时,李雅普诺夫函数的值趋于无穷大,从而保证变量的约束,通过将障碍李雅普诺夫函数与已被广泛应用于非线性系统的反步控制相结合,可使得自动驾驶控制这类SC系统的响应速度加快、对系统不确定和外部干扰的鲁棒性提高。
如图1所示,本发明提出了一种安全强化学习自动驾驶控制方法,通过反步优化、自适应动态规划和障碍李雅普诺夫函数的理论方法,建立具备解析形式的分层安全控制律以及自适应学习方程,以解决现有强化学习方法学习过程缺乏安全保证的综合问题,该方法包括以下步骤:
步骤1:获取基于障碍李雅普诺夫函数的安全强化学习算法(BLF-SRL);
步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;
步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
如图1所示,图1中的OC为贝尔曼最优性条件,PE为策略评估。PI为策略改进,在步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤:
步骤101:将严格反馈形式的非线性系统重建为误差系统;
步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律;
步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件;
步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化。
即将严格反馈形式的非线性系统重建为误差系统,采用反步优化方法和BLF分别设计z1子系统、zi(i=2,...,n-1)子系统和zn子系统的优化控制律,并分别定义z1子系统、zi(i=2,...,n-1)子系统和zn子系统的贝尔曼最优条件,进而设计误差更新信号。
在步骤101中,严格反馈形式的非线性系统为:
Figure BDA0003707453960000121
其中,
Figure BDA0003707453960000122
为状态变量,
Figure BDA0003707453960000123
为状态向量,
Figure BDA0003707453960000124
为控制输入,
Figure BDA0003707453960000125
为系统输出;
为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αi(i=1,...,n-1),定义误差状态z1=x1-yd和zi=xii-1(i=2,...,n),将待优化的非线性系统重新建立为误差系统:
Figure BDA0003707453960000126
整个待优化的非线性系统呈现级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量
Figure BDA0003707453960000127
和自由状态变量
Figure BDA0003707453960000128
因此将学习问题描述为:在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure BDA0003707453960000129
内,其中
Figure BDA00037074539600001210
为正常数。
在步骤102中,采用反步优化方法和BLF设计优化控制律,采用反步优化方法在每个反步子系统中采用强化学习的Actor-Critic框架,分别定义为Sub-Actor和Sub-Critic,对于待约束状态变量
Figure BDA00037074539600001211
所在的反步子系统,基于障碍李雅普诺夫函数(BLF)设计虚拟控制量;对于自由状态变量
Figure BDA00037074539600001212
所在的反步子系统,基于二次型李雅普诺夫函数(QLF)进行虚拟控制或系统控制输入设计);
在步骤103中,分别将Sub-Actor和Sub-Critic分解为BLF/QLF项和采用独立的神经网络(NN)逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件;
在步骤102~104中,采用反步优化方法和BLF分别设计z1子系统、zi(i=2,...,n-1)子系统和zn子系统的优化控制律,并分别定义z1子系统、zi(i=2,...,n-1)子系统和zn子系统的贝尔曼最优条件,进而设计误差更新信号的具体过程为:
在z1子系统中引入待优化的虚拟控制,定义最优性能指标函数为:
Figure BDA0003707453960000131
其中,
Figure BDA0003707453960000132
为最优性能指标函数,
Figure BDA0003707453960000133
为代价函数,
Figure BDA0003707453960000134
为最优虚拟控制,κ1s和κ1c分别为权重系数,相应的HJB方程
Figure BDA0003707453960000135
的表达式为:
Figure BDA0003707453960000136
其中,
Figure BDA0003707453960000137
表示最优性能指标函数对z1求偏导,f1和g1分别为建立待优化的非线性系统所需的模型;
由于
Figure BDA0003707453960000138
成立且有唯一解,通过求解
Figure BDA0003707453960000139
得到最优虚拟控制
Figure BDA00037074539600001310
为:
Figure BDA00037074539600001311
将最优虚拟控制
Figure BDA00037074539600001312
分解设计为:
Figure BDA00037074539600001313
其中,
Figure BDA00037074539600001314
为待学习的未知连续函数,κ1为一个正常数,由分解设计后的最优虚拟控制
Figure BDA00037074539600001315
可得最优性能指标函数的偏导数
Figure BDA00037074539600001316
的表达式为:
Figure BDA00037074539600001317
在z1子系统中,最优性能指标函数的偏导数
Figure BDA00037074539600001318
和最优虚拟控制
Figure BDA00037074539600001319
均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制
Figure BDA00037074539600001320
和最优性能指标函数的偏导数
Figure BDA00037074539600001321
得到其估计值
Figure BDA00037074539600001322
Figure BDA00037074539600001323
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure BDA0003707453960000141
为最优虚拟控制的估计值,定义为Sub-Actor a1
Figure BDA0003707453960000142
为最优性能指标函数的偏导数
Figure BDA0003707453960000143
的估计值,定义为Sub-Criticc1
由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数
Figure BDA0003707453960000144
和最优虚拟控制
Figure BDA0003707453960000145
中的未知项,打破最优性能指标函数的偏导数
Figure BDA0003707453960000146
与最优虚拟控制
Figure BDA0003707453960000147
之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值
Figure BDA0003707453960000148
Figure BDA0003707453960000149
最终两者逐步满足相关关系
Figure BDA00037074539600001410
进而得到系统的优化控制;
最优虚拟控制
Figure BDA00037074539600001411
的估计值
Figure BDA00037074539600001412
的表达式为:
Figure BDA00037074539600001413
其中,
Figure BDA00037074539600001414
为Sub-Actor NN的期望输出;
最优性能指标函数的偏导数
Figure BDA00037074539600001415
的估计值
Figure BDA00037074539600001416
Figure BDA00037074539600001417
Figure BDA00037074539600001418
其中,
Figure BDA00037074539600001419
是Sub-Critic NN的期望输出;
将最优虚拟控制
Figure BDA00037074539600001420
的估计值
Figure BDA00037074539600001421
的表达式和最优性能指标函数的偏导数
Figure BDA00037074539600001422
的估计值
Figure BDA00037074539600001423
的表达式代入HJB方程
Figure BDA00037074539600001424
中,进而得到HJB方程的估计值
Figure BDA00037074539600001425
的表达式为:
Figure BDA00037074539600001426
获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为:
Figure BDA00037074539600001427
在Sub-Criticc1中,进行当前虚拟控制
Figure BDA00037074539600001428
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure BDA00037074539600001429
达到最优值,即
Figure BDA00037074539600001430
在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure BDA00037074539600001431
的表达式为:
Figure BDA00037074539600001432
Sub-Critic NN和Sub-Actor NN更新方程的表达式分别为:
Figure BDA0003707453960000151
Figure BDA0003707453960000152
其中,
Figure BDA0003707453960000153
为Sub-Critic NN更新方程所需的误差变量,
Figure BDA0003707453960000154
为Sub-Actor NN更新方程所需的误差变量,
Figure BDA0003707453960000155
Figure BDA0003707453960000156
分别为Sub-Critic NN和Sub-Actor NN的学习率;
最终,在z1子系统中,对最优虚拟控制
Figure BDA0003707453960000157
和最优性能指标函数的偏导数
Figure BDA0003707453960000158
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-ActorNN进行迭代学习,以满足贝尔曼最优性条件。
同理,在zi子系统中引入待优化的虚拟控制αi,其最优值为
Figure BDA0003707453960000159
定义最优性能指标函数为:
Figure BDA00037074539600001510
其中,
Figure BDA00037074539600001511
为代价函数,κis和κic分别为权重系数,相应的HJB方程
Figure BDA00037074539600001512
表示为:
Figure BDA00037074539600001513
其中,
Figure BDA00037074539600001514
表示最优性能指标函数对zi求偏导,通过求解
Figure BDA00037074539600001515
得到最优虚拟控制
Figure BDA00037074539600001516
Figure BDA00037074539600001517
将最优虚拟控制
Figure BDA00037074539600001518
分解得到:
Figure BDA00037074539600001519
其中,κi为一个正常数,
Figure BDA00037074539600001520
为待学习的未知连续函数,αi,aux为辅助的虚拟控制变量,其表达式为:
Figure BDA00037074539600001521
其中,
Figure BDA0003707453960000161
Figure BDA0003707453960000162
分别为对应zi和zi-1子系统的待标定系数,ns为保证连续性的分段点;
由分解后的最优虚拟控制
Figure BDA0003707453960000163
得到最优性能指标函数的偏导数
Figure BDA0003707453960000164
的表达式为:
Figure BDA0003707453960000165
在zi子系统中,与z1子系统类似,
Figure BDA0003707453960000166
Figure BDA0003707453960000167
中的不确定项分别采用独立的神经网络近似,根据分解后的最优虚拟控制
Figure BDA0003707453960000168
和最优性能指标函数的偏导数
Figure BDA0003707453960000169
得到其估计值
Figure BDA00037074539600001610
Figure BDA00037074539600001611
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure BDA00037074539600001612
为虚拟控制变量
Figure BDA00037074539600001613
的估计值,定义为Sub-Actorai
Figure BDA00037074539600001614
为最优性能指标函数的偏导数
Figure BDA00037074539600001615
的估计值,定义为Sub-Criticci
虚拟控制变量
Figure BDA00037074539600001616
的估计值
Figure BDA00037074539600001617
的表达式为:
Figure BDA00037074539600001618
其中,
Figure BDA00037074539600001619
为Sub-Actor NN的期望输出;
最优性能指标函数的偏导数
Figure BDA00037074539600001620
的估计值
Figure BDA00037074539600001621
的表达式为:
Figure BDA00037074539600001622
其中,
Figure BDA00037074539600001623
为Sub-Critic NN的期望输出。
将虚拟控制变量
Figure BDA00037074539600001624
的估计值
Figure BDA00037074539600001625
的表达式和最优性能指标函数的偏导数
Figure BDA00037074539600001626
的估计值
Figure BDA00037074539600001627
的表达式代入最优性能指标函数的偏导数
Figure BDA00037074539600001628
的估计值
Figure BDA00037074539600001629
的表达式,进而得到HJB方程的估计值
Figure BDA00037074539600001630
的表达式为:
Figure BDA00037074539600001631
获取在zi子系统中的贝尔曼最优性条件,在zi子系统中的贝尔曼最优性条件的表达式为:
Figure BDA00037074539600001632
zi子系统的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticci中,进行当前虚拟控制
Figure BDA00037074539600001633
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure BDA00037074539600001634
达到最优值,即
Figure BDA00037074539600001635
在Sub-Actorai中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure BDA0003707453960000171
Figure BDA0003707453960000172
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
Figure BDA0003707453960000173
Figure BDA0003707453960000174
其中,
Figure BDA0003707453960000175
Figure BDA0003707453960000176
分别为Sub-Critic NN和Sub-Actor NN的学习率。
基于以上分析推导得到结论:
在zi子系统中,对最优虚拟控制
Figure BDA0003707453960000177
和最优性能指标函数的偏导数
Figure BDA0003707453960000178
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
同理,在zn子系统中,优化系统控制输入u,其最优值为u*,定义zn子系统的最优性能指标函数的偏导数的表达式为:
Figure BDA0003707453960000179
其中,
Figure BDA00037074539600001710
为代价函数,κns和κnc均为权重系数,相应的HJB方程
Figure BDA00037074539600001711
的表达式为:
Figure BDA00037074539600001712
其中,
Figure BDA00037074539600001713
表示最优性能指标函数的偏导数对zn求偏导,最优系统控制输入u*通过求解
Figure BDA00037074539600001714
得到:
Figure BDA00037074539600001715
将最优系统控制输入u*分解为:
Figure BDA00037074539600001716
其中,
Figure BDA00037074539600001717
为待学习的未知连续函数,κn为一个正常数,αn,aux为辅助的虚拟控制变量,其表达式为:
Figure BDA00037074539600001718
由分解后的最优系统控制输入u*得到最优性能指标函数的偏导数
Figure BDA00037074539600001719
的表达式为:
Figure BDA0003707453960000181
在zn子系统中,与z1和zi子系统类似,最优性能指标函数的偏导数
Figure BDA0003707453960000182
和最优系统控制输入u*中的不确定项分别采用独立的神经网络近似,由分解后的最优系统控制输入u*和最优性能指标函数的偏导数
Figure BDA0003707453960000183
得到最优系统控制输入u*和最优性能指标函数的偏导数
Figure BDA0003707453960000184
的估计值
Figure BDA0003707453960000185
Figure BDA0003707453960000186
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure BDA0003707453960000187
为最优系统控制输入的估计值,定义为Sub-Actorai
Figure BDA0003707453960000188
为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci
最优系统控制输入u*的估计值
Figure BDA0003707453960000189
的表达式为:
Figure BDA00037074539600001810
其中,
Figure BDA00037074539600001811
为Sub-actor NN的期望输出;
最优性能指标函数的偏导数
Figure BDA00037074539600001812
的估计值
Figure BDA00037074539600001813
的表达式为:
Figure BDA00037074539600001814
其中,
Figure BDA00037074539600001815
为Sub-critic NN的期望输出;
将最优系统控制输入u*的估计值
Figure BDA00037074539600001816
的表达式和最优性能指标函数的偏导数
Figure BDA00037074539600001817
的估计值
Figure BDA00037074539600001818
的表达式代入HJB方程
Figure BDA00037074539600001819
进而得到HJB方程的估计值
Figure BDA00037074539600001820
的表达式为:
Figure BDA00037074539600001821
获取zn子系统中的贝尔曼最优性条件,zn子系统中的贝尔曼最优性条件的表达式为:
Figure BDA00037074539600001822
与上述类似,zn子系统中的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticcn中,进行当前系统控制输入
Figure BDA00037074539600001823
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure BDA00037074539600001824
达到最优值,即
Figure BDA00037074539600001825
在Sub-Actoran中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure BDA00037074539600001826
Figure BDA0003707453960000191
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
Figure BDA0003707453960000192
Figure BDA0003707453960000193
其中,
Figure BDA0003707453960000194
Figure BDA0003707453960000195
分别为Sub-Critic NN和Sub-Actor NN的学习率。
基于以上分析推导得到结论:在zn子系统中,对最优系统控制输入
Figure BDA0003707453960000196
和最优性能指标函数的偏导数
Figure BDA0003707453960000197
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
综上所述,将严格反馈形式的非线性系统重构为误差系统,经过上述推导,虚拟控制和系统控制输入通过Actor-Critic框架迭代优化满足每个子系统中的贝尔曼最优性条件,进而保证系统的安全和优化控制性能要求。
在步骤2中,针对四轮驱动的自动驾驶车辆建立自动驾驶车辆的运动学模型和动力学模型,并假设自动驾驶车辆的纵向车速不变,将自动驾驶控制系统(一类具有安全关键特性的系统)建模为严格反馈形式的非线性系统,严格反馈形式的非线性系统的表达式为:
Figure BDA0003707453960000198
Figure BDA0003707453960000199
其中,f1、g1、f2和g2均为建立二阶严格反馈形式的运动控制系统所需的模型,
Figure BDA00037074539600001910
表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力可以通过轮内电机进行独立控制,进而产生附加横摆力矩,Mz:=(Fx,fr-Fx,fl)d/2+(Fx,rr-Fx,rl)d/2为附加横摆力矩,d为两轮间距离,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力;
建立严格反馈形式的控制器模型(运动控制系统)时采用了线性轮胎力模型,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,造成模型fi和gi与真实系统的动力学模型fi p
Figure BDA00037074539600001911
之间存在模型失配,真实系统的轮胎力的表达式为:
Figure BDA00037074539600001912
其中,
Figure BDA00037074539600001913
为真实系统的轮胎力,Fy,·为控制器模型中的轮胎力,β为关系系数。
基于建立的自动驾驶控制系统设计消融试验:
基于障碍李雅普诺夫函数的安全强化学习算法(BLF-SRL)主要通过两个部分提升性能:采用基于BLF的反步优化方法分解优化控制,从而保证学习更新过程中系统部分状态约束的安全性(记为消融A)以及在每个反步子系统中根据贝尔曼最优性条件推导得到误差信号(记为消融B),消融A特指将zi子系统中的αi,aux设置为0,消融B特指不使用更新误差信号,如表1和表2所示的多种实验工况下消融实验的实验设置和实验结果:
表1#D实验工况下消融实验的实验设置和实验结果表
Figure BDA0003707453960000201
#D实验工况的设置分别为:
#D1:β=1,δ=0
#D2:β~N(1,0.8),δ=0.4
#D3:β~N(1,0.4),δ=0.4
#D4:β~N(1.2,0.6),δ=0.4
#D5:
Figure BDA0003707453960000202
#D6:
Figure BDA0003707453960000203
其中,β为真实系统轮胎力与制器模型轮胎力的比例系数,考虑的系统不确定性是被控对象与模型间的参数不匹配导致的模型失配情况,在本实施例中,仿真中设置的参数β的边界为[1-δ,1+δ],δ为边界参数,
Figure BDA0003707453960000204
为由Fiala公式定义的轮胎力。
表2#E实验工况下消融实验的实验设置和实验结果表
Figure BDA0003707453960000205
Figure BDA0003707453960000211
#E实验工况的设置分别为:
#E1:β=1,δ=0
#E2:β~N(1,0.4),δ=0.4
#E3:β~N(1,0.8),δ=0.4;
#E4:
Figure BDA0003707453960000212
表1中记录的是20次重复仿真下状态变量
Figure BDA0003707453960000213
Figure BDA0003707453960000214
超出安全区域的概率,其中消融A部分是保证学习期间安全的主要部分,因此,采用BLF-SRL方法以及消融B部分都能保证状态变量
Figure BDA0003707453960000215
Figure BDA0003707453960000216
约束在设计的安全区域中,同时,从表1中也可以看出,状态变量
Figure BDA0003707453960000217
Figure BDA0003707453960000218
超出设计的安全区域仅发生在消融A或者消融AB部分中。
表2中记录的是5次重复实验下,整个仿真过程中HJB方程估计值
Figure BDA0003707453960000219
的最大值、最小值、平均值和标准差的平均值,
Figure BDA00037074539600002110
Figure BDA00037074539600002111
分别为y轴方向的位移yG的HJB方程估计值、航向角
Figure BDA00037074539600002112
对应的HJB方程估计值、y轴方向的速度vy的HJB方程估计值以及横摆角速度ωr对应的HJB方程估计值,如表2所示,所有HJB函数估计值的最小值都保留在一个小范围内,而当B部分被消融时,HJB函数估计值的最大值和平均值都大幅增加,因此表明没有B部分时,HJB函数的估计值只能在控制下最终收敛到0,而采用B部分进行学习更新时,HJB函数的估计值能够在每个时刻随着学习更新逐渐收敛到0。
如图1所示的BLF-SRL算法控制框图,将严格反馈形式的非线性系统重建为误差系统,再采用反步优化方法和BLF设计优化控制律,进一步定义子系统的贝尔曼最优条件,最后设计更新信号,其中,OC为贝尔曼最优性条件,PE为策略评估,PI为策略改进。
本发明基于模型建立分层学习架构,引入障碍李雅普诺夫函数考虑约束条件,设计可自适应学习的安全控制律解析形式和辅助函数,推导学习部分更新方程,以实现整体系统控制的优化,并建立基于此方法的自动驾驶控制系统,通过消融试验验证该方法能够保证学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于BLF-SRL的自动驾驶控制方法,其特征在于,该方法包括以下步骤:
步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;
步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;
步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
2.根据权利要求1所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤:
步骤101:将严格反馈形式的非线性系统重建为误差系统;
步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律;
步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件;
步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化。
3.根据权利要求2所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的子系统包括z1子系统、zi(i=2,...,n-1)子系统和zn子系统。
4.根据权利要求3所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤101中,严格反馈形式的非线性系统为:
Figure FDA0003707453950000011
其中,fj(j=1,2,...,n)和gj(j=1,2,...,n)分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,
Figure FDA0003707453950000012
为状态变量,
Figure FDA0003707453950000013
为状态向量,
Figure FDA0003707453950000014
为控制输入,
Figure FDA0003707453950000015
为系统输出;
为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αi(i=1,...,n-1),定义误差状态z1=x1-yd和zi=xii-1(i=2,...,n),将待优化的非线性系统重新建立为误差系统:
Figure FDA0003707453950000021
其中,zj(j=1,2,...,n)为第j个子系统的误差状态,fj(j=1,2,...,n)和gj(j=1,2,...,n)分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,yd为系统期望输出;
误差系统呈现级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量
Figure FDA0003707453950000022
和自由状态变量
Figure FDA0003707453950000023
其中,ns为保证连续性的分段点,进而将学习问题描述为:
在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure FDA0003707453950000024
内,其中,
Figure FDA0003707453950000025
为正常数。
5.根据权利要求4所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102中,采用反步优化方法和BLF分别设计每个子系统的优化控制律的过程具体为:
基于反步优化方法在每个子系统中采用强化学习的Actor-Critic框架,分别定义为Sub-Actor和Sub-Critic,对于待约束状态变量
Figure FDA0003707453950000026
所在的反步子系统,基于障碍李雅普诺夫函数设计虚拟控制量;对于自由状态变量
Figure FDA0003707453950000027
所在的反步子系统,基于二次型李雅普诺夫函数进行虚拟控制或系统控制输入设计。
6.根据权利要求4所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤103中,根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件的过程具体为:
分别将Sub-Actor和Sub-Critic分解为BLF/QLF项和采用独立的神经网络逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件。
7.根据权利要求6所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102~104中,对于z1子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义z1子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在z1子系统中引入待优化的虚拟控制,定义z1子系统的最优性能指标函数为:
Figure FDA0003707453950000031
其中,
Figure FDA0003707453950000032
为z1子系统的最优性能指标函数,
Figure FDA0003707453950000033
为代价函数,
Figure FDA0003707453950000034
为最优虚拟控制,κ1s和κ1c分别为权重系数,相应的HJB方程
Figure FDA0003707453950000035
的表达式为:
Figure FDA0003707453950000036
其中,
Figure FDA0003707453950000037
表示最优性能指标函数对z1求偏导,f1和g1分别为建立待优化的非线性系统所需的模型;
由于
Figure FDA0003707453950000038
成立且有唯一解,通过求解
Figure FDA0003707453950000039
得到最优虚拟控制
Figure FDA00037074539500000310
为:
Figure FDA00037074539500000311
将最优虚拟控制
Figure FDA00037074539500000312
分解设计为:
Figure FDA00037074539500000313
其中,
Figure FDA00037074539500000314
为待学习的未知连续函数,κ1为一个正常数,由分解设计后的最优虚拟控制
Figure FDA00037074539500000315
可得最优性能指标函数的偏导数
Figure FDA00037074539500000316
的表达式为:
Figure FDA00037074539500000317
在z1子系统中,最优性能指标函数的偏导数
Figure FDA00037074539500000318
和最优虚拟控制
Figure FDA00037074539500000319
均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制
Figure FDA00037074539500000320
和最优性能指标函数的偏导数
Figure FDA00037074539500000321
得到其估计值
Figure FDA00037074539500000322
Figure FDA00037074539500000323
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure FDA00037074539500000324
为最优虚拟控制的估计值,定义为Sub-Actor a1
Figure FDA00037074539500000325
为最优性能指标函数的偏导数
Figure FDA00037074539500000326
的估计值,定义为Sub-Critic c1
由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数
Figure FDA00037074539500000327
和最优虚拟控制
Figure FDA00037074539500000328
中的未知项,打破最优性能指标函数的偏导数
Figure FDA00037074539500000329
与最优虚拟控制
Figure FDA00037074539500000330
之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值
Figure FDA00037074539500000331
Figure FDA00037074539500000332
最终两者逐步满足相关关系
Figure FDA00037074539500000333
进而得到系统的优化控制;
最优虚拟控制
Figure FDA0003707453950000041
的估计值
Figure FDA0003707453950000042
的表达式为:
Figure FDA0003707453950000043
其中,
Figure FDA0003707453950000044
为Sub-Actor NN的期望输出;
最优性能指标函数的偏导数
Figure FDA0003707453950000045
的估计值
Figure FDA0003707453950000046
的表达式为:
Figure FDA0003707453950000047
其中,
Figure FDA0003707453950000048
是Sub-Critic NN的期望输出;
将最优虚拟控制
Figure FDA0003707453950000049
的估计值
Figure FDA00037074539500000410
的表达式和最优性能指标函数的偏导数
Figure FDA00037074539500000411
的估计值
Figure FDA00037074539500000412
的表达式代入HJB方程
Figure FDA00037074539500000413
中,进而得到HJB方程的估计值
Figure FDA00037074539500000414
的表达式为:
Figure FDA00037074539500000415
获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为:
Figure FDA00037074539500000416
在Sub-Criticc1中,进行当前虚拟控制
Figure FDA00037074539500000417
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure FDA00037074539500000418
达到最优值,即
Figure FDA00037074539500000419
在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure FDA00037074539500000420
的表达式为:
Figure FDA00037074539500000421
Sub-Critic NN和Sub-Actor NN更新方程的表达式分别为:
Figure FDA00037074539500000422
Figure FDA00037074539500000423
其中,
Figure FDA00037074539500000424
为Sub-Critic NN更新方程所需的误差变量,
Figure FDA00037074539500000425
为Sub-Actor NN更新方程所需的误差变量,
Figure FDA00037074539500000426
Figure FDA00037074539500000427
分别为Sub-Critic NN和Sub-Actor NN的学习率;
最终,在z1子系统中,对最优虚拟控制
Figure FDA0003707453950000051
和最优性能指标函数的偏导数
Figure FDA0003707453950000052
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,以满足贝尔曼最优性条件。
8.根据权利要求7所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102~104中,对于zi子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zi子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在zi子系统中引入待优化的虚拟控制αi,其最优值为
Figure FDA0003707453950000053
定义最优性能指标函数为:
Figure FDA0003707453950000054
其中,
Figure FDA0003707453950000055
为代价函数,κis和κic分别为权重系数,相应的HJB方程
Figure FDA0003707453950000056
的表达式为:
Figure FDA0003707453950000057
其中,
Figure FDA0003707453950000058
表示最优性能指标函数对zi求偏导,通过求解
Figure FDA0003707453950000059
得到最优虚拟控制
Figure FDA00037074539500000510
的表达式为:
Figure FDA00037074539500000511
将最优虚拟控制
Figure FDA00037074539500000512
分解设计为:
Figure FDA00037074539500000513
其中,κi为一个正常数,
Figure FDA00037074539500000514
为待学习的未知连续函数,
Figure FDA00037074539500000515
为对虚拟控制变量
Figure FDA00037074539500000516
的估计值
Figure FDA00037074539500000517
求导,αi,aux为辅助的虚拟控制变量,其表达式为:
Figure FDA00037074539500000518
其中,
Figure FDA00037074539500000519
为zi-1子系统对应的Sub-Actor NN的期望输出,
Figure FDA00037074539500000520
Figure FDA00037074539500000521
分别为对应zi和zi-1子系统的待标定系数,ns为保证连续性的分段点,
Figure FDA00037074539500000522
表示最优虚拟控制
Figure FDA00037074539500000523
的代价函数;
由分解后的最优虚拟控制
Figure FDA0003707453950000061
得到最优性能指标函数的偏导数
Figure FDA0003707453950000062
的表达式为:
Figure FDA0003707453950000063
zi子系统与z1子系统类似,
Figure FDA0003707453950000064
Figure FDA0003707453950000065
中的不确定项分别采用独立的神经网络近似,根据分解后的最优虚拟控制
Figure FDA0003707453950000066
和最优性能指标函数的偏导数
Figure FDA0003707453950000067
得到其估计值
Figure FDA0003707453950000068
Figure FDA0003707453950000069
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure FDA00037074539500000610
为虚拟控制变量
Figure FDA00037074539500000611
的估计值,定义为Sub-Actorai
Figure FDA00037074539500000612
为最优性能指标函数的偏导数
Figure FDA00037074539500000613
的估计值,定义为Sub-Criticci
虚拟控制变量
Figure FDA00037074539500000614
的估计值
Figure FDA00037074539500000615
的表达式为:
Figure FDA00037074539500000616
其中,
Figure FDA00037074539500000617
为Sub-Actor NN的期望输出;
最优性能指标函数的偏导数
Figure FDA00037074539500000618
的估计值
Figure FDA00037074539500000619
的表达式为:
Figure FDA00037074539500000620
其中,
Figure FDA00037074539500000621
为Sub-Critic NN的期望输出;
将虚拟控制变量
Figure FDA00037074539500000622
的估计值
Figure FDA00037074539500000623
的表达式和最优性能指标函数的偏导数
Figure FDA00037074539500000624
的估计值
Figure FDA00037074539500000625
的表达式代入最优性能指标函数的偏导数
Figure FDA00037074539500000626
的估计值
Figure FDA00037074539500000627
的表达式,进而得到HJB方程的估计值
Figure FDA00037074539500000628
的表达式为:
Figure FDA00037074539500000629
获取在zi子系统中的贝尔曼最优性条件,在zi子系统中的贝尔曼最优性条件的表达式为:
Figure FDA00037074539500000630
zi子系统的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticci中,进行当前虚拟控制
Figure FDA00037074539500000631
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure FDA00037074539500000632
达到最优值,即
Figure FDA00037074539500000633
在Sub-Actorai中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure FDA00037074539500000634
的表达式为:
Figure FDA0003707453950000071
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
Figure FDA0003707453950000072
Figure FDA0003707453950000073
其中,
Figure FDA0003707453950000074
为Sub-Critic NN更新方程所需的误差变量,
Figure FDA0003707453950000075
为Sub-Actor NN更新方程所需的误差变量,
Figure FDA0003707453950000076
Figure FDA0003707453950000077
分别为Sub-Critic NN和Sub-Actor NN的学习率;
在zi子系统中,对最优虚拟控制
Figure FDA0003707453950000078
和最优性能指标函数的偏导数
Figure FDA0003707453950000079
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
9.根据权利要求8所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102~104中,对于zn子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zn子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在zn子系统中,优化系统控制输入u,其最优值为u*,定义zn子系统的最优性能指标函数的表达式为:
Figure FDA00037074539500000710
其中,
Figure FDA00037074539500000711
为zn子系统的最优性能指标函数,
Figure FDA00037074539500000712
为代价函数,κns和κnc均为权重系数,相应的HJB方程
Figure FDA00037074539500000713
的表达式为:
Figure FDA00037074539500000714
其中,
Figure FDA00037074539500000715
表示最优性能指标函数对zn求偏导,最优系统控制输入u*通过求解
Figure FDA00037074539500000716
得到:
Figure FDA00037074539500000717
将最优系统控制输入u*分解为:
Figure FDA00037074539500000718
其中,
Figure FDA00037074539500000719
为待学习的未知连续函数,κn为一个正常数,αn,aux为辅助的虚拟控制变量,其表达式为:
Figure FDA0003707453950000081
其中,
Figure FDA0003707453950000082
为zn-1子系统对应的Sub-Actor NN的期望输出,
Figure FDA0003707453950000083
Figure FDA0003707453950000084
分别为对应zn和zn-1子系统的待标定系数,ns为保证连续性的分段点;
由分解后的最优系统控制输入u*得到最优性能指标函数的偏导数
Figure FDA0003707453950000085
的表达式为:
Figure FDA0003707453950000086
在zn子系统中,与z1子系统和zi子系统类似,最优性能指标函数的偏导数
Figure FDA0003707453950000087
和最优系统控制输入u*中的不确定项分别采用独立的神经网络近似,由分解后的最优系统控制输入u*和最优性能指标函数的偏导数
Figure FDA0003707453950000088
得到最优系统控制输入u*和最优性能指标函数的偏导数
Figure FDA0003707453950000089
的估计值
Figure FDA00037074539500000810
Figure FDA00037074539500000811
随后在Actor-Critic框架下,进行策略评估和策略改进,
Figure FDA00037074539500000812
为最优系统控制输入的估计值,定义为Sub-Actorai
Figure FDA00037074539500000813
为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci
最优系统控制输入u*的估计值
Figure FDA00037074539500000814
的表达式为:
Figure FDA00037074539500000815
其中,
Figure FDA00037074539500000816
为Sub-actor NN的期望输出;
最优性能指标函数的偏导数
Figure FDA00037074539500000817
的估计值
Figure FDA00037074539500000818
的表达式为:
Figure FDA00037074539500000819
其中,
Figure FDA00037074539500000820
为Sub-critic NN的期望输出;
将最优系统控制输入u*的估计值
Figure FDA00037074539500000821
的表达式和最优性能指标函数的偏导数
Figure FDA00037074539500000822
的估计值
Figure FDA00037074539500000823
的表达式代入HJB方程
Figure FDA00037074539500000824
进而得到HJB方程的估计值
Figure FDA00037074539500000825
的表达式为:
Figure FDA00037074539500000826
获取zn子系统中的贝尔曼最优性条件,zn子系统中的贝尔曼最优性条件的表达式为:
Figure FDA0003707453950000091
zn子系统中的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticcn中,进行当前系统控制输入
Figure FDA0003707453950000092
的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值
Figure FDA0003707453950000093
达到最优值,即
Figure FDA0003707453950000094
在Sub-Actoran中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
定义贝尔曼残差
Figure FDA0003707453950000095
Figure FDA0003707453950000096
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
Figure FDA0003707453950000097
Figure FDA0003707453950000098
其中,
Figure FDA0003707453950000099
为Sub-Critic NN更新方程所需的误差变量,
Figure FDA00037074539500000910
为Sub-Actor NN更新方程所需的误差变量,
Figure FDA00037074539500000911
Figure FDA00037074539500000912
分别为Sub-Critic NN和Sub-Actor NN的学习率;
在zn子系统中,对最优系统控制输入
Figure FDA00037074539500000913
和最优性能指标函数的偏导数
Figure FDA00037074539500000914
进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
10.根据权利要求1所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤2中,针对四轮驱动的自动驾驶车辆建立自动驾驶车辆的运动学模型和动力学模型,并假设自动驾驶车辆的纵向车速不变,将自动驾驶控制系统建模为严格反馈形式的非线性系统:
Figure FDA00037074539500000915
Figure FDA00037074539500000916
其中,f1、g1、f2和g2均为建立二阶严格反馈形式的运动控制系统所需的模型,
Figure FDA00037074539500000917
表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力可以通过轮内电机进行独立控制,进而产生附加横摆力矩,Mz:=(Fx,fr-Fx,fl)d/2+(Fx,rr-Fx,rl)d/2为附加横摆力矩,d为两轮间距离,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力;
建立严格反馈形式的控制器模型(运动控制系统)时采用了线性轮胎力模型,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,造成模型fi和gi与真实系统的动力学模型fi p
Figure FDA0003707453950000101
之间存在模型失配,真实系统的轮胎力的表达式为:
Figure FDA0003707453950000102
(·)∈{fl,fr,rl,rr}
其中,
Figure FDA0003707453950000103
为真实系统的轮胎力,Fy,·为控制器模型中的轮胎力,β为关系系数。
CN202210712700.8A 2022-06-22 2022-06-22 一种基于blf-srl的自动驾驶控制方法 Pending CN115016278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210712700.8A CN115016278A (zh) 2022-06-22 2022-06-22 一种基于blf-srl的自动驾驶控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210712700.8A CN115016278A (zh) 2022-06-22 2022-06-22 一种基于blf-srl的自动驾驶控制方法

Publications (1)

Publication Number Publication Date
CN115016278A true CN115016278A (zh) 2022-09-06

Family

ID=83076075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210712700.8A Pending CN115016278A (zh) 2022-06-22 2022-06-22 一种基于blf-srl的自动驾驶控制方法

Country Status (1)

Country Link
CN (1) CN115016278A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
WO2024114458A1 (zh) * 2022-12-02 2024-06-06 中国科学院深圳先进技术研究院 基于李雅普诺夫神经网络的无人系统控制方法及控制系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111231956A (zh) * 2020-02-26 2020-06-05 江苏大学 一种车辆定速巡航系统加速度约束控制算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111231956A (zh) * 2020-02-26 2020-06-05 江苏大学 一种车辆定速巡航系统加速度约束控制算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUXIANG ZHANG 等: "Barrier Lyapunov Function-Based Safe Reinforcement Learning Algorithm for Autonomous Vehicles with System Uncertainty", 《2021 THE 21ST INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS (ICCAS 2021)》, 15 October 2021 (2021-10-15), pages 1592 - 1598, XP034060527, DOI: 10.23919/ICCAS52745.2021.9649902 *
沈智鹏;毕艳楠;王宇;郭晨;: "输入输出受限船舶的轨迹跟踪自适应递归滑模控制", 控制理论与应用, no. 06, 15 June 2020 (2020-06-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115202341B (zh) * 2022-06-16 2023-11-03 同济大学 一种自动驾驶车辆横向运动控制方法及系统
WO2024114458A1 (zh) * 2022-12-02 2024-06-06 中国科学院深圳先进技术研究院 基于李雅普诺夫神经网络的无人系统控制方法及控制系统

Similar Documents

Publication Publication Date Title
Shan et al. A reinforcement learning-based adaptive path tracking approach for autonomous driving
CN107561942B (zh) 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
CN115016278A (zh) 一种基于blf-srl的自动驾驶控制方法
Ma et al. Direct yaw-moment control of electric vehicles based on adaptive sliding mode
Zhang et al. Barrier Lyapunov function-based safe reinforcement learning for autonomous vehicles with optimized backstepping
Chen et al. Hierarchical adaptive path-tracking control for autonomous vehicles
CN111055921B (zh) 一种基于数据驱动的四轮转向模型预测控制方法
CN112389436A (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
CN112666833A (zh) 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法
CN115202341B (zh) 一种自动驾驶车辆横向运动控制方法及系统
Liang et al. A robust dynamic game-based control framework for integrated torque vectoring and active front-wheel steering system
Chen et al. RHONN-modeling-based predictive safety assessment and torque vectoring for holistic stabilization of electrified vehicles
Wang et al. Flatness-based model predictive control for autonomous vehicle trajectory tracking
Sousa et al. Nonlinear tire model approximation using machine learning for efficient model predictive control
CN116184835A (zh) 考虑输入时延与速度时变的无人驾驶车辆跟踪控制方法
Júnior et al. Vehicle stability upper-level-controller based on parameterized model predictive control
CN114906128A (zh) 一种基于mcts算法的自动泊车运动规划方法
Zhang et al. Event-Triggered Adaptive Fuzzy Approach-based Lateral Motion Control for Autonomous Vehicles
CN111736598B (zh) 基于自适应神经网络的收获机路径跟踪控制方法和系统
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
Lacevic et al. Evolutionary design of fuzzy logic based position controller for mobile robot
Omatu et al. PID control of speed and torque of electric vehicle
CN116185012A (zh) 一种自动驾驶车辆自适应避障方法
CN116279409A (zh) 一种四轮独立驱动与转向电动汽车的协同控制方法
Hu et al. Robust tube-based model predictive control for autonomous vehicle path tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination