CN115016278A - 一种基于blf-srl的自动驾驶控制方法 - Google Patents
一种基于blf-srl的自动驾驶控制方法 Download PDFInfo
- Publication number
- CN115016278A CN115016278A CN202210712700.8A CN202210712700A CN115016278A CN 115016278 A CN115016278 A CN 115016278A CN 202210712700 A CN202210712700 A CN 202210712700A CN 115016278 A CN115016278 A CN 115016278A
- Authority
- CN
- China
- Prior art keywords
- sub
- optimal
- subsystem
- actor
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000006870 function Effects 0.000 claims abstract description 108
- 230000008569 process Effects 0.000 claims abstract description 36
- 230000002787 reinforcement Effects 0.000 claims abstract description 28
- 230000004888 barrier function Effects 0.000 claims abstract description 22
- 230000014509 gene expression Effects 0.000 claims description 84
- 238000013528 artificial neural network Methods 0.000 claims description 56
- 238000011156 evaluation Methods 0.000 claims description 38
- 238000005457 optimization Methods 0.000 claims description 38
- 230000006872 improvement Effects 0.000 claims description 29
- 238000013461 design Methods 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 238000009795 derivation Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000002679 ablation Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于BLF‑SRL的自动驾驶控制方法,该方法包括以下步骤:步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。与现有技术相比,本发明具有实现自动驾驶控制系统在强化学习过程中的安全保证等优点。
Description
技术领域
本发明涉及自动驾驶控制系统领域,尤其是涉及一种基于BLF-SRL的自动驾驶控制方法。
背景技术
强化学习领域已经历了一定时期的研究,起初多是基于离散状态与动作的表格学习,而涉及到连续状态与动作空间的学习方法,形成的高维空间会引起维数灾难,通常需要借助函数逼近方法表征状态值函数与状态动作值函数,随着深度学习技术的发展,基于深度神经网络的强大函数逼近能力,深度强化学习在策略游戏及控制上得到应用与发展,陆续提出了DQN和DDPG等算法,并得到了有效验证,由于自动驾驶车辆需要面对复杂动态环境以及多场景泛化和交互特性,现有研究广泛应用可交互反馈的强化学习进行决策控制。
但自动驾驶控制系统是一类具有安全关键(Safety-Critical,SC)特性的系统,现有的强化学习方法在自适应交互行为决策方面存在困难、运动控制系统在变化工况下的安全及自适应性能也难以保证,因此需要提出一种解决强化学习基于试错的方式存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效以及学习过程中的安全性难以保证等问题的方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于BLF-SRL的自动驾驶控制方法。
本发明的目的可以通过以下技术方案来实现:
一种基于BLF-SRL的自动驾驶控制方法,该方法包括以下步骤:
步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;
步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;
步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
所述的步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤:
步骤101:将严格反馈形式的非线性系统重建为误差系统;
步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律;
步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件;
步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化。
所述的子系统包括z1子系统、zi(i=2,...,n-1)子系统和zn子系统。
所述的步骤101中,严格反馈形式的非线性系统为:
为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αi(i=1,...,n-1),定义误差状态z1=x1-yd和zi=xi-αi-1(i=2,...,n),将待优化的非线性系统重新建立为误差系统:
其中,zj(j=1,2,...,n)为第j个子系统的误差状态,fj(j=1,2,...,n)和gj(j=1,2,...,n)分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,yd为系统期望输出;
误差系统呈现级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由状态变量其中,ns为保证连续性的分段点,进而将学习问题描述为:
所述的步骤102中,采用反步优化方法和BLF分别设计每个子系统的优化控制律的过程具体为:
基于反步优化方法在每个子系统中采用强化学习的Actor-Critic框架,分别定义为Sub-Actor和Sub-Critic,对于待约束状态变量所在的反步子系统,基于障碍李雅普诺夫函数设计虚拟控制量;对于自由状态变量所在的反步子系统,基于二次型李雅普诺夫函数进行虚拟控制或系统控制输入设计。
所述的步骤103中,根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件的过程具体为:
分别将Sub-Actor和Sub-Critic分解为BLF/QLF项和采用独立的神经网络逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件。
所述的步骤102~104中,对于z1子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义z1子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在z1子系统中引入待优化的虚拟控制,定义z1子系统的最优性能指标函数为:
在z1子系统中,最优性能指标函数的偏导数和最优虚拟控制均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优虚拟控制的估计值,定义为Sub-Actor a1,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticc1;
由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数和最优虚拟控制中的未知项,打破最优性能指标函数的偏导数与最优虚拟控制之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系进而得到系统的优化控制;
获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为:
在Sub-Criticc1中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN更新方程的表达式分别为:
最终,在z1子系统中,对最优虚拟控制和最优性能指标函数的偏导数进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-ActorNN进行迭代学习,以满足贝尔曼最优性条件。
所述的步骤102~104中,对于zi子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zi子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
zi子系统与z1子系统类似,和中的不确定项分别采用独立的神经网络近似,根据分解后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为虚拟控制变量的估计值,定义为Sub-Actorai,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci;
获取在zi子系统中的贝尔曼最优性条件,在zi子系统中的贝尔曼最优性条件的表达式为:
zi子系统的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticci中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actorai中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
在zi子系统中,对最优虚拟控制和最优性能指标函数的偏导数进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
所述的步骤102~104中,对于zn子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zn子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在zn子系统中,优化系统控制输入u,其最优值为u*,定义zn子系统的最优性能指标函数的表达式为:
将最优系统控制输入u*分解为:
在zn子系统中,与z1子系统和zi子系统类似,最优性能指标函数的偏导数和最优系统控制输入u*中的不确定项分别采用独立的神经网络近似,由分解后的最优系统控制输入u*和最优性能指标函数的偏导数得到最优系统控制输入u*和最优性能指标函数的偏导数的估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优系统控制输入的估计值,定义为Sub-Actorai,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci;
获取zn子系统中的贝尔曼最优性条件,zn子系统中的贝尔曼最优性条件的表达式为:
zn子系统中的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticcn中,进行当前系统控制输入的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actoran中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
在zn子系统中,对最优系统控制输入和最优性能指标函数的偏导数进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-ActorNN进行迭代学习,最终满足贝尔曼最优性条件。
所述的步骤2中,针对四轮驱动的自动驾驶车辆建立自动驾驶车辆的运动学模型和动力学模型,并假设自动驾驶车辆的纵向车速不变,将自动驾驶控制系统建模为严格反馈形式的非线性系统:
其中,f1、g1、f2和g2均为建立二阶严格反馈形式的运动控制系统所需的模型,表示车辆的侧向位置和航向角,表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力可以通过轮内电机进行独立控制,进而产生附加横摆力矩,Mz:=(Fx,fr-Fx,fl)d/2+(Fx,rr-Fx,rl)d/2为附加横摆力矩,d为两轮间距离,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力;
建立严格反馈形式的控制器模型(运动控制系统)时采用了线性轮胎力模型,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,造成模型fi和gi与真实系统的动力学模型fi p和之间存在模型失配,真实系统的轮胎力的表达式为:
与现有技术相比,本发明具有以如下有益效果:
本发明针对变化场景工况下强化学习对模型参数变化学习自适应的需求,构建基于障碍李雅普诺夫函数的安全强化学习算法,即在完善反步优化控制方法的基础上基于模型建立了可分层学习的架构,通过引入障碍李雅普诺夫函数考虑约束条件,设计了可自适应学习的安全控制律解析形式和辅助函数,推导了学习部分更新方程,并将基于障碍李雅普诺夫函数的安全强化学习算法应用于自动驾驶控制系统,通过持续影响整个学习控制过程中的安全性能,实现自动驾驶控制系统在学习过程中的安全保证,以解决强化学习基于试错的方式存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效以及学习过程中的安全性难以保证等方面的问题。
附图说明
图1为本发明的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
为了解决强化学习基于试错的方式存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效以及学习过程中的安全性难以保证等方面的问题,本发明针对不确定性情况下,典型SC系统在学习全过程中的状态约束需求难以始终满足的难题,本发明提出了基于障碍李雅普诺夫函数的安全强化学习算法(BLF-SRL),其特点为可以在学习过程中将部分状态变量约束在设计的约束区域中,因为障碍李雅普诺夫函数方法是一种约束控制方法,其基本原理是当变量趋近区域边界时,李雅普诺夫函数的值趋于无穷大,从而保证变量的约束,通过将障碍李雅普诺夫函数与已被广泛应用于非线性系统的反步控制相结合,可使得自动驾驶控制这类SC系统的响应速度加快、对系统不确定和外部干扰的鲁棒性提高。
如图1所示,本发明提出了一种安全强化学习自动驾驶控制方法,通过反步优化、自适应动态规划和障碍李雅普诺夫函数的理论方法,建立具备解析形式的分层安全控制律以及自适应学习方程,以解决现有强化学习方法学习过程缺乏安全保证的综合问题,该方法包括以下步骤:
步骤1:获取基于障碍李雅普诺夫函数的安全强化学习算法(BLF-SRL);
步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;
步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
如图1所示,图1中的OC为贝尔曼最优性条件,PE为策略评估。PI为策略改进,在步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤:
步骤101:将严格反馈形式的非线性系统重建为误差系统;
步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律;
步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件;
步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化。
即将严格反馈形式的非线性系统重建为误差系统,采用反步优化方法和BLF分别设计z1子系统、zi(i=2,...,n-1)子系统和zn子系统的优化控制律,并分别定义z1子系统、zi(i=2,...,n-1)子系统和zn子系统的贝尔曼最优条件,进而设计误差更新信号。
在步骤101中,严格反馈形式的非线性系统为:
为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αi(i=1,...,n-1),定义误差状态z1=x1-yd和zi=xi-αi-1(i=2,...,n),将待优化的非线性系统重新建立为误差系统:
整个待优化的非线性系统呈现级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由状态变量因此将学习问题描述为:在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域内,其中为正常数。
在步骤102中,采用反步优化方法和BLF设计优化控制律,采用反步优化方法在每个反步子系统中采用强化学习的Actor-Critic框架,分别定义为Sub-Actor和Sub-Critic,对于待约束状态变量所在的反步子系统,基于障碍李雅普诺夫函数(BLF)设计虚拟控制量;对于自由状态变量所在的反步子系统,基于二次型李雅普诺夫函数(QLF)进行虚拟控制或系统控制输入设计);
在步骤103中,分别将Sub-Actor和Sub-Critic分解为BLF/QLF项和采用独立的神经网络(NN)逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件;
在步骤102~104中,采用反步优化方法和BLF分别设计z1子系统、zi(i=2,...,n-1)子系统和zn子系统的优化控制律,并分别定义z1子系统、zi(i=2,...,n-1)子系统和zn子系统的贝尔曼最优条件,进而设计误差更新信号的具体过程为:
在z1子系统中引入待优化的虚拟控制,定义最优性能指标函数为:
在z1子系统中,最优性能指标函数的偏导数和最优虚拟控制均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优虚拟控制的估计值,定义为Sub-Actor a1,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticc1;
由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数和最优虚拟控制中的未知项,打破最优性能指标函数的偏导数与最优虚拟控制之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系进而得到系统的优化控制;
获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为:
在Sub-Criticc1中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN更新方程的表达式分别为:
最终,在z1子系统中,对最优虚拟控制和最优性能指标函数的偏导数进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-ActorNN进行迭代学习,以满足贝尔曼最优性条件。
在zi子系统中,与z1子系统类似,和中的不确定项分别采用独立的神经网络近似,根据分解后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为虚拟控制变量的估计值,定义为Sub-Actorai,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci;
获取在zi子系统中的贝尔曼最优性条件,在zi子系统中的贝尔曼最优性条件的表达式为:
zi子系统的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticci中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actorai中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
基于以上分析推导得到结论:
在zi子系统中,对最优虚拟控制和最优性能指标函数的偏导数进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
同理,在zn子系统中,优化系统控制输入u,其最优值为u*,定义zn子系统的最优性能指标函数的偏导数的表达式为:
将最优系统控制输入u*分解为:
在zn子系统中,与z1和zi子系统类似,最优性能指标函数的偏导数和最优系统控制输入u*中的不确定项分别采用独立的神经网络近似,由分解后的最优系统控制输入u*和最优性能指标函数的偏导数得到最优系统控制输入u*和最优性能指标函数的偏导数的估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优系统控制输入的估计值,定义为Sub-Actorai,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci;
获取zn子系统中的贝尔曼最优性条件,zn子系统中的贝尔曼最优性条件的表达式为:
与上述类似,zn子系统中的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticcn中,进行当前系统控制输入的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actoran中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
基于以上分析推导得到结论:在zn子系统中,对最优系统控制输入和最优性能指标函数的偏导数进行估计,进一步通过Sub-Critic NN和Sub-Actor NN的更新方程对Sub-Critic NN和Sub-Actor NN进行迭代学习,最终满足贝尔曼最优性条件。
综上所述,将严格反馈形式的非线性系统重构为误差系统,经过上述推导,虚拟控制和系统控制输入通过Actor-Critic框架迭代优化满足每个子系统中的贝尔曼最优性条件,进而保证系统的安全和优化控制性能要求。
在步骤2中,针对四轮驱动的自动驾驶车辆建立自动驾驶车辆的运动学模型和动力学模型,并假设自动驾驶车辆的纵向车速不变,将自动驾驶控制系统(一类具有安全关键特性的系统)建模为严格反馈形式的非线性系统,严格反馈形式的非线性系统的表达式为:
其中,f1、g1、f2和g2均为建立二阶严格反馈形式的运动控制系统所需的模型,表示车辆的侧向位置和航向角,v=[vy,ωr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力可以通过轮内电机进行独立控制,进而产生附加横摆力矩,Mz:=(Fx,fr-Fx,fl)d/2+(Fx,rr-Fx,rl)d/2为附加横摆力矩,d为两轮间距离,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力;
建立严格反馈形式的控制器模型(运动控制系统)时采用了线性轮胎力模型,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,造成模型fi和gi与真实系统的动力学模型fi p和之间存在模型失配,真实系统的轮胎力的表达式为:
基于建立的自动驾驶控制系统设计消融试验:
基于障碍李雅普诺夫函数的安全强化学习算法(BLF-SRL)主要通过两个部分提升性能:采用基于BLF的反步优化方法分解优化控制,从而保证学习更新过程中系统部分状态约束的安全性(记为消融A)以及在每个反步子系统中根据贝尔曼最优性条件推导得到误差信号(记为消融B),消融A特指将zi子系统中的αi,aux设置为0,消融B特指不使用更新误差信号,如表1和表2所示的多种实验工况下消融实验的实验设置和实验结果:
表1#D实验工况下消融实验的实验设置和实验结果表
#D实验工况的设置分别为:
#D1:β=1,δ=0
#D2:β~N(1,0.8),δ=0.4
#D3:β~N(1,0.4),δ=0.4
#D4:β~N(1.2,0.6),δ=0.4
其中,β为真实系统轮胎力与制器模型轮胎力的比例系数,考虑的系统不确定性是被控对象与模型间的参数不匹配导致的模型失配情况,在本实施例中,仿真中设置的参数β的边界为[1-δ,1+δ],δ为边界参数,为由Fiala公式定义的轮胎力。
表2#E实验工况下消融实验的实验设置和实验结果表
#E实验工况的设置分别为:
#E1:β=1,δ=0
#E2:β~N(1,0.4),δ=0.4
#E3:β~N(1,0.8),δ=0.4;
表1中记录的是20次重复仿真下状态变量和超出安全区域的概率,其中消融A部分是保证学习期间安全的主要部分,因此,采用BLF-SRL方法以及消融B部分都能保证状态变量和约束在设计的安全区域中,同时,从表1中也可以看出,状态变量和超出设计的安全区域仅发生在消融A或者消融AB部分中。
表2中记录的是5次重复实验下,整个仿真过程中HJB方程估计值的最大值、最小值、平均值和标准差的平均值, 分别为y轴方向的位移yG的HJB方程估计值、航向角对应的HJB方程估计值、y轴方向的速度vy的HJB方程估计值以及横摆角速度ωr对应的HJB方程估计值,如表2所示,所有HJB函数估计值的最小值都保留在一个小范围内,而当B部分被消融时,HJB函数估计值的最大值和平均值都大幅增加,因此表明没有B部分时,HJB函数的估计值只能在控制下最终收敛到0,而采用B部分进行学习更新时,HJB函数的估计值能够在每个时刻随着学习更新逐渐收敛到0。
如图1所示的BLF-SRL算法控制框图,将严格反馈形式的非线性系统重建为误差系统,再采用反步优化方法和BLF设计优化控制律,进一步定义子系统的贝尔曼最优条件,最后设计更新信号,其中,OC为贝尔曼最优性条件,PE为策略评估,PI为策略改进。
本发明基于模型建立分层学习架构,引入障碍李雅普诺夫函数考虑约束条件,设计可自适应学习的安全控制律解析形式和辅助函数,推导学习部分更新方程,以实现整体系统控制的优化,并建立基于此方法的自动驾驶控制系统,通过消融试验验证该方法能够保证学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于BLF-SRL的自动驾驶控制方法,其特征在于,该方法包括以下步骤:
步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;
步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;
步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。
2.根据权利要求1所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤:
步骤101:将严格反馈形式的非线性系统重建为误差系统;
步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律;
步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件;
步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化。
3.根据权利要求2所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的子系统包括z1子系统、zi(i=2,...,n-1)子系统和zn子系统。
4.根据权利要求3所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤101中,严格反馈形式的非线性系统为:
为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αi(i=1,...,n-1),定义误差状态z1=x1-yd和zi=xi-αi-1(i=2,...,n),将待优化的非线性系统重新建立为误差系统:
其中,zj(j=1,2,...,n)为第j个子系统的误差状态,fj(j=1,2,...,n)和gj(j=1,2,...,n)分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,yd为系统期望输出;
误差系统呈现级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由状态变量其中,ns为保证连续性的分段点,进而将学习问题描述为:
6.根据权利要求4所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤103中,根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件的过程具体为:
分别将Sub-Actor和Sub-Critic分解为BLF/QLF项和采用独立的神经网络逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件。
7.根据权利要求6所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102~104中,对于z1子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义z1子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在z1子系统中引入待优化的虚拟控制,定义z1子系统的最优性能指标函数为:
在z1子系统中,最优性能指标函数的偏导数和最优虚拟控制均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优虚拟控制的估计值,定义为Sub-Actor a1,为最优性能指标函数的偏导数的估计值,定义为Sub-Critic c1;
由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数和最优虚拟控制中的未知项,打破最优性能指标函数的偏导数与最优虚拟控制之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系进而得到系统的优化控制;
获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为:
在Sub-Criticc1中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN更新方程的表达式分别为:
8.根据权利要求7所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102~104中,对于zi子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zi子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
zi子系统与z1子系统类似,和中的不确定项分别采用独立的神经网络近似,根据分解后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为虚拟控制变量的估计值,定义为Sub-Actorai,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci;
获取在zi子系统中的贝尔曼最优性条件,在zi子系统中的贝尔曼最优性条件的表达式为:
zi子系统的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticci中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actorai中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
9.根据权利要求8所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤102~104中,对于zn子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义zn子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为:
在zn子系统中,优化系统控制输入u,其最优值为u*,定义zn子系统的最优性能指标函数的表达式为:
将最优系统控制输入u*分解为:
在zn子系统中,与z1子系统和zi子系统类似,最优性能指标函数的偏导数和最优系统控制输入u*中的不确定项分别采用独立的神经网络近似,由分解后的最优系统控制输入u*和最优性能指标函数的偏导数得到最优系统控制输入u*和最优性能指标函数的偏导数的估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优系统控制输入的估计值,定义为Sub-Actorai,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticci;
获取zn子系统中的贝尔曼最优性条件,zn子系统中的贝尔曼最优性条件的表达式为:
zn子系统中的贝尔曼最优性条件在Actor-Critic框架下通过策略评估和策略改进迭代计算达到,在Sub-Criticcn中,进行当前系统控制输入的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actoran中,采用Critic策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件;
Sub-Critic NN和Sub-Actor NN的更新方程分别为:
10.根据权利要求1所述的一种基于BLF-SRL的自动驾驶控制方法,其特征在于,所述的步骤2中,针对四轮驱动的自动驾驶车辆建立自动驾驶车辆的运动学模型和动力学模型,并假设自动驾驶车辆的纵向车速不变,将自动驾驶控制系统建模为严格反馈形式的非线性系统:
其中,f1、g1、f2和g2均为建立二阶严格反馈形式的运动控制系统所需的模型,表示车辆的侧向位置和航向角,v=[vy,ωr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力可以通过轮内电机进行独立控制,进而产生附加横摆力矩,Mz:=(Fx,fr-Fx,fl)d/2+(Fx,rr-Fx,rl)d/2为附加横摆力矩,d为两轮间距离,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力;
建立严格反馈形式的控制器模型(运动控制系统)时采用了线性轮胎力模型,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,造成模型fi和gi与真实系统的动力学模型fi p和之间存在模型失配,真实系统的轮胎力的表达式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210712700.8A CN115016278A (zh) | 2022-06-22 | 2022-06-22 | 一种基于blf-srl的自动驾驶控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210712700.8A CN115016278A (zh) | 2022-06-22 | 2022-06-22 | 一种基于blf-srl的自动驾驶控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115016278A true CN115016278A (zh) | 2022-09-06 |
Family
ID=83076075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210712700.8A Pending CN115016278A (zh) | 2022-06-22 | 2022-06-22 | 一种基于blf-srl的自动驾驶控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115016278A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115202341A (zh) * | 2022-06-16 | 2022-10-18 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
WO2024114458A1 (zh) * | 2022-12-02 | 2024-06-06 | 中国科学院深圳先进技术研究院 | 基于李雅普诺夫神经网络的无人系统控制方法及控制系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111231956A (zh) * | 2020-02-26 | 2020-06-05 | 江苏大学 | 一种车辆定速巡航系统加速度约束控制算法 |
-
2022
- 2022-06-22 CN CN202210712700.8A patent/CN115016278A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111231956A (zh) * | 2020-02-26 | 2020-06-05 | 江苏大学 | 一种车辆定速巡航系统加速度约束控制算法 |
Non-Patent Citations (2)
Title |
---|
YUXIANG ZHANG 等: "Barrier Lyapunov Function-Based Safe Reinforcement Learning Algorithm for Autonomous Vehicles with System Uncertainty", 《2021 THE 21ST INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS (ICCAS 2021)》, 15 October 2021 (2021-10-15), pages 1592 - 1598, XP034060527, DOI: 10.23919/ICCAS52745.2021.9649902 * |
沈智鹏;毕艳楠;王宇;郭晨;: "输入输出受限船舶的轨迹跟踪自适应递归滑模控制", 控制理论与应用, no. 06, 15 June 2020 (2020-06-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115202341A (zh) * | 2022-06-16 | 2022-10-18 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN115202341B (zh) * | 2022-06-16 | 2023-11-03 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
WO2024114458A1 (zh) * | 2022-12-02 | 2024-06-06 | 中国科学院深圳先进技术研究院 | 基于李雅普诺夫神经网络的无人系统控制方法及控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shan et al. | A reinforcement learning-based adaptive path tracking approach for autonomous driving | |
CN107561942B (zh) | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 | |
CN115016278A (zh) | 一种基于blf-srl的自动驾驶控制方法 | |
Ma et al. | Direct yaw-moment control of electric vehicles based on adaptive sliding mode | |
Zhang et al. | Barrier Lyapunov function-based safe reinforcement learning for autonomous vehicles with optimized backstepping | |
Chen et al. | Hierarchical adaptive path-tracking control for autonomous vehicles | |
CN111055921B (zh) | 一种基于数据驱动的四轮转向模型预测控制方法 | |
CN112389436A (zh) | 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法 | |
CN112666833A (zh) | 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法 | |
CN115202341B (zh) | 一种自动驾驶车辆横向运动控制方法及系统 | |
Liang et al. | A robust dynamic game-based control framework for integrated torque vectoring and active front-wheel steering system | |
Chen et al. | RHONN-modeling-based predictive safety assessment and torque vectoring for holistic stabilization of electrified vehicles | |
Wang et al. | Flatness-based model predictive control for autonomous vehicle trajectory tracking | |
Sousa et al. | Nonlinear tire model approximation using machine learning for efficient model predictive control | |
CN116184835A (zh) | 考虑输入时延与速度时变的无人驾驶车辆跟踪控制方法 | |
Júnior et al. | Vehicle stability upper-level-controller based on parameterized model predictive control | |
CN114906128A (zh) | 一种基于mcts算法的自动泊车运动规划方法 | |
Zhang et al. | Event-Triggered Adaptive Fuzzy Approach-based Lateral Motion Control for Autonomous Vehicles | |
CN111736598B (zh) | 基于自适应神经网络的收获机路径跟踪控制方法和系统 | |
CN113033902A (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
Lacevic et al. | Evolutionary design of fuzzy logic based position controller for mobile robot | |
Omatu et al. | PID control of speed and torque of electric vehicle | |
CN116185012A (zh) | 一种自动驾驶车辆自适应避障方法 | |
CN116279409A (zh) | 一种四轮独立驱动与转向电动汽车的协同控制方法 | |
Hu et al. | Robust tube-based model predictive control for autonomous vehicle path tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |