CN115202341A - 一种自动驾驶车辆横向运动控制方法及系统 - Google Patents

一种自动驾驶车辆横向运动控制方法及系统 Download PDF

Info

Publication number
CN115202341A
CN115202341A CN202210686595.5A CN202210686595A CN115202341A CN 115202341 A CN115202341 A CN 115202341A CN 202210686595 A CN202210686595 A CN 202210686595A CN 115202341 A CN115202341 A CN 115202341A
Authority
CN
China
Prior art keywords
model
vehicle
motion control
lateral
front wheel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210686595.5A
Other languages
English (en)
Other versions
CN115202341B (zh
Inventor
程一帆
高炳钊
张羽翔
褚洪庆
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210686595.5A priority Critical patent/CN115202341B/zh
Publication of CN115202341A publication Critical patent/CN115202341A/zh
Application granted granted Critical
Publication of CN115202341B publication Critical patent/CN115202341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Steering Control In Accordance With Driving Conditions (AREA)

Abstract

本发明涉及一种自动驾驶车辆横向运动控制方法,该方法包括以下步骤:步骤1:建立自动驾驶车辆的横向运动控制模型;步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;步骤5:强化学习算法模块采用BLF‑SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。与现有技术相比,本发明具有使车辆横向运动控制在变化场景工况中具备安全控制性能以及对于场景工况变化引起的模型参数变化具有学习自适应性能等优点。

Description

一种自动驾驶车辆横向运动控制方法及系统
技术领域
本发明涉及自动驾驶车辆运动控制领域,尤其是涉及一种自动驾驶车辆横向运动控制方法及系统。
背景技术
自动驾驶车辆的运动控制系统是典型的安全关键(Safety-Critical,SC)系统,在其面对复杂动态驾驶场景进行决策和控制时,存在决策问题抽象和运动控制系统具备强非线性等特征。强化学习是典型的一类可不基于模型的交互学习类算法,其基本特点是采用试错机制,基于与环境在线交互得到的评价和反馈信号通过最大化未来回报以实现序列学习。由于其可交互特点,强化学习能够有效通过环境反馈信息学习系统控制策略,被广泛认为是实现智能决策和控制,使其具备持续自学习能力进而增强系统性能的有效方法。
尽管强化学习具备交互性学习以及无模型学习优势,其在自动驾驶车辆的广泛应用仍存在一定限制,主要原因可归纳为两点:
1、自动驾驶车辆控制系统涉及严格安全性;而强化学习采用的基于试错学习的方式,存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效、学习过程中的安全性难以保证等方面的问题;
2、自动驾驶车辆的行驶环境复杂多变,在建模过程中会不可避免地引入模型不确定性,使得系统状态进入非安全区域,导致运动失稳和控制失效,如何解决动态场景运动控制的工况适应性问题是另一个挑战。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种自动驾驶车辆横向运动控制系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种自动驾驶车辆横向运动控制方法,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;
步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
所述的步骤1中,建立自动驾驶车辆的横向运动控制模型的过程具体为:
步骤101:获取四轮驱动车辆的动力学模型;
步骤102:忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型;
步骤103:对横向轮胎力采用线性轮胎力模型进行简化,最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。
所述的步骤101中,四轮驱动车辆的运动学模型的表达式为:
Figure BDA0003698181380000021
Figure BDA0003698181380000022
Figure BDA0003698181380000023
其中,xG和yG分别为全局坐标系中x方向和y方向的坐标,vx和vy分别为车辆坐标系中x方向和y方向的速度,
Figure BDA0003698181380000024
为全局坐标系中的航向角,ωr为横摆角速度。
所述的步骤102中,横向运动控制模型的表达式为:
Figure BDA0003698181380000025
Figure BDA0003698181380000026
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力。
所述的步骤103中,横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
Figure BDA0003698181380000031
Figure BDA0003698181380000032
Figure BDA0003698181380000033
Figure BDA0003698181380000034
其中,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于前轮转角δf和横摆角速度ωr小,对进行动力学模型简化,简化后的四轮驱动车辆的动力学模型为:
Figure BDA0003698181380000035
Figure BDA0003698181380000036
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力;
若纵向车速不变,考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为:
Figure BDA0003698181380000041
Figure BDA0003698181380000042
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型,
Figure BDA0003698181380000043
表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
Figure BDA0003698181380000044
定义二阶严格反馈形式的横向运动控制模型时所需的模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
Figure BDA0003698181380000045
Figure BDA0003698181380000046
Figure BDA0003698181380000047
Figure BDA0003698181380000048
其中,C1、C2、C3、C4、C5和C6分别为模型参数。
所述的步骤4中,实际车辆中的轮胎具有非线性特性,受到不同工况的影响,模型fi和gi与真实系统的动力学模型fi p
Figure BDA0003698181380000049
之间存在参数不匹配的系统不确定性,进而造成模型参数失配,令真实系统的轮胎的作用力为:
Figure BDA0003698181380000051
其中,
Figure BDA0003698181380000052
为真实系统的轮胎的作用力,β为真实系统的轮胎的作用力
Figure BDA0003698181380000053
与轮胎的作用力Fy,(·)之间的关系系数;
模型fi和gi与真实系统的动力学模型fi p
Figure BDA0003698181380000054
之间的关系表达式为:
Figure BDA0003698181380000055
Figure BDA0003698181380000056
其中,
Figure BDA0003698181380000057
Figure BDA0003698181380000058
分别为真实系统的动力学模型,βf为真实系统的动力学模型
Figure BDA0003698181380000059
和模型f2之间的关系系数,βg为真实系统的动力学模型
Figure BDA00036981813800000510
和模型g2之间的关系系数;
且模型fi和gi的参数Ci与真实系统的动力学模型fi p
Figure BDA00036981813800000511
中的参数
Figure BDA00036981813800000512
之间的关系表达式为:
Figure BDA00036981813800000513
所述的步骤5中,强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为:
针对二阶严格反馈形式下的非线性系统,即二阶严格反馈形式下的横向运动控制模型,引入待优化的虚拟控制αi(i=1,...,n-1)并定义误差z1=x1-yd,zi=xii-1(i=2,...,n),以优化系统控制达到系统期望输出,并建立级联结构的系统模型,即将待优化的非线性系统重新建立为:
Figure BDA00036981813800000514
其中,
Figure BDA00036981813800000515
为状态变量的导数,αi(i=1,...,n-1)为每i个虚拟控制,
Figure BDA00036981813800000516
为控制输入,yd为系统期望输出;
通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量
Figure BDA00036981813800000517
和自由变量
Figure BDA00036981813800000518
将学习问题描述为在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure BDA00036981813800000519
其中,
Figure BDA00036981813800000520
为正常数;
对于z1子系统,引入待优化的虚拟控制,定义最优性能指标函数为:
Figure BDA00036981813800000521
其中,
Figure BDA0003698181380000061
为最优性能指标函数,
Figure BDA0003698181380000062
为最优虚拟控制,
Figure BDA0003698181380000063
为代价函数,κ1s和κ1c分别为权重系数,对应的HJB方程
Figure BDA0003698181380000064
为:
Figure BDA0003698181380000065
其中,
Figure BDA0003698181380000066
表示最优性能指标函数对z1子系统求偏导;
最优虚拟控制
Figure BDA0003698181380000067
通过求解
Figure BDA0003698181380000068
并分解得到:
Figure BDA0003698181380000069
其中,
Figure BDA00036981813800000610
为待学习的未知连续函数,κ1为一个正常数;
由级联结构的系统模型将最优性能指标函数表示为:
Figure BDA00036981813800000611
最优性能指标函数
Figure BDA00036981813800000612
和最优虚拟控制
Figure BDA00036981813800000613
的不确定性项采用独立的神经网络逼近得到最优性能指标函数
Figure BDA00036981813800000614
和最优虚拟控制
Figure BDA00036981813800000615
的估计值
Figure BDA00036981813800000616
Figure BDA00036981813800000617
在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值
Figure BDA00036981813800000618
为Sub-Actora1,将最优虚拟控制估计值
Figure BDA00036981813800000619
定义为Sub-Criticc1,打破最优性能指标函数
Figure BDA00036981813800000620
和最优虚拟控制
Figure BDA00036981813800000621
之间的相关性,以迭代得到其数值解,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值
Figure BDA00036981813800000622
Figure BDA00036981813800000623
最终两者逐步满足相关关系,通过BLF-SRL算法进而得到子系统的优化控制;
同理,zi,i=2,...,n子系统与z1子系统相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值,利用强化学习的Actor-Critic框架迭代更新估计值,训练出子系统的优化控制量;
最终在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure BDA00036981813800000624
内,其中
Figure BDA00036981813800000625
为正常数。
所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,Sub-Actor和Sub-Critic神经网络结构包括:
第一个隐藏层:以ReLU作为激活数;
第二个隐藏层:以ReLU作为激活函数;
输出层:以tanh作为激活函数;
所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法,其损失函数为均方误差,当训练集的MSE小于设定值时,停止学习,批训练集数设为prac。
一种实现所述自动驾驶车辆横向运动控制方法的系统,该系统包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,所述的感知传感器用以将获取的环境信息传输至横向运动控制模型,所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块,所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型,所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块,以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。
所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。
与现有技术相比,本发明具有以如下有益效果:
本发明面向场景工况变化导致的模型不确定性,针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求,设计了具备解析形式的安全强化学习算法,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,且对于场景工况变化引起的模型参数变化具有学习自适应性能。
附图说明
图1为本发明的结构示意图。
图2为四轮驱动车辆结构图。
图3为C1和C2仿真工况下状态变量
Figure BDA0003698181380000071
的状态轨迹图。
图4为C1和C2仿真工况下状态变量
Figure BDA0003698181380000072
的状态轨迹图。
图5为C3~6仿真工况下状态变量
Figure BDA0003698181380000073
的状态轨迹图。
图6为C4~6仿真工况下状态变量
Figure BDA0003698181380000074
的状态轨迹图。
图7为C4~6仿真工况下系统状态侧向位置yG曲线图。
图8为C4~6仿真工况下状态变量
Figure BDA0003698181380000075
的状态轨迹图。
图9为BLF-SRL方法下z1子系统中HJB方程的估计值曲线图。
图10为OBSC方法下z2子系统中HJB方程的估计值曲线图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供了一种考虑学习全过程安全性能的自动驾驶车辆横向运动控制系统,考虑到自动驾驶车辆运动控制系统为典型的安全关键(Safety-Critical,SC)系统,需要时刻保证控制过程中的安全约束,该系统面向场景工况变化导致的模型不确定性,针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求,设计了具备解析形式的安全强化学习算法,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。
如图1所示,该系统包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,横向运动控制模型所需的环境信息由感知传感器输入,所需的车辆状态参数由车载传感通讯输入,强化学习算法模块所需的模型参数失配以及安全性约束和驾驶场景变化分别由横向运动控制模型和感知模块输入,自动驾驶车辆的横向运动控制模型通过分析四轮驱动车辆的运动学过程,忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,并对横向轮胎力使用线性轮胎力模型进行简化,最终将自动驾驶车辆横向运动模型描述为BLF-SRL算法所需的二阶严格反馈形式,自动驾驶车辆横向运动的轨迹跟踪和优化问题通过BLF-SRL算法进行控制,通过与传统OBSC算法的对比可验证算法有效性。
本发明还提供了一种自动驾驶车辆横向运动控制系统的方法,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:感知传感器将获取的环境信息传输至横向运动控制模型,将获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:车载传感通讯模块将获取的车辆状态参数传输至横向运动控制模型;
步骤4:横向运动控制模型获取模型参数失配并将其传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
在步骤1中,建立四轮驱动车辆的横向运动控制模型的过程具体为:
四轮驱动车辆的运动学模型为:
Figure BDA0003698181380000091
Figure BDA0003698181380000092
Figure BDA0003698181380000093
其中,xG和yG分别为全局坐标系中x方向和y方向的坐标,vx和vy分别为车辆坐标系中x方向和y方向的速度,
Figure BDA0003698181380000094
为全局坐标系中的航向角,ωr为横摆角速度;
考虑车辆的纵向、横向和横摆动力学特性,忽略车辆的俯仰和侧倾动力学特性,得到的四轮驱动车辆的动力学模型:
Figure BDA0003698181380000095
Figure BDA0003698181380000096
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力;
横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
Figure BDA0003698181380000097
Figure BDA0003698181380000098
Figure BDA0003698181380000101
Figure BDA0003698181380000102
其中,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于δf和ωr较小,对sinδf、cosδf
Figure BDA0003698181380000103
进行简化,因此,简化后的四轮车辆的动力学模型为:
Figure BDA0003698181380000104
Figure BDA0003698181380000105
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮、右后轮的横向轮胎力;
若纵向车速不变,将考虑单车的运动控制问题的四轮车辆的横向运动控制模型写成二阶严格反馈形式:
Figure BDA0003698181380000106
Figure BDA0003698181380000107
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的矩阵(模型),
Figure BDA0003698181380000108
表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
Figure BDA0003698181380000109
模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
Figure BDA00036981813800001010
Figure BDA0003698181380000111
Figure BDA0003698181380000112
Figure BDA0003698181380000113
采用线性轮胎力模型建立二阶严格反馈形式的横向运动控制模型,以在线性区域保持较高的精度,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,因此,模型fi和gi与真实系统的动力学模型fi p
Figure BDA0003698181380000114
之间存在参数不匹配的系统不确定性,进而造成模型失配,令被控对象的轮胎力为
Figure BDA0003698181380000115
真实系统的动力学模型fi p
Figure BDA0003698181380000116
中的参数
Figure BDA0003698181380000117
与模型fi和gi的参数Ci的关系为
Figure BDA0003698181380000118
模型fi和gi与真实系统的动力学模型fi p
Figure BDA0003698181380000119
之间的关系表达式为:
Figure BDA00036981813800001110
Figure BDA00036981813800001111
其中,
Figure BDA00036981813800001112
Figure BDA00036981813800001113
分别为真实系统的动力学模型,βf为真实系统的动力学模型
Figure BDA00036981813800001114
和模型f2之间的关系系数,βg为真实系统的动力学模型
Figure BDA00036981813800001115
和模型g2之间的关系系数;
对于自动驾驶横向运动的轨迹跟踪和优化问题,采用BLF-SRL算法提升安全性和自适,针对二阶严格反馈形式下的横向运动控制模型(非线性系统),为了优化系统控制达到系统期望输出,引入待优化虚拟控制并定义误差,将待优化的非线性系统重新建立为:
Figure BDA0003698181380000121
系统模型呈级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量
Figure BDA0003698181380000122
和自由变量
Figure BDA0003698181380000123
并将学习问题描述为:在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure BDA0003698181380000124
其中,
Figure BDA0003698181380000125
为正常数。
以z1子系统为例,引入待优化的虚拟控制,定义最优性能指标函数为:
Figure BDA0003698181380000126
其中,
Figure BDA0003698181380000127
为最优性能指标函数,
Figure BDA0003698181380000128
为代价函数,κ1s和κ1c分别为权重系数,对应的HJB方程
Figure BDA0003698181380000129
为:
Figure BDA00036981813800001210
其中,
Figure BDA00036981813800001211
表示最优性能指标函数对z1子系统求偏导;
最优虚拟控制
Figure BDA00036981813800001212
通过求解
Figure BDA00036981813800001213
并分解设计得到:
Figure BDA00036981813800001214
其中,
Figure BDA00036981813800001215
为待学习的未知连续函数,κ1为一个正常数;
由级联结构的系统模型,将最优性能指标函数表示为:
Figure BDA00036981813800001216
最优性能指标函数
Figure BDA00036981813800001217
和最优虚拟控制
Figure BDA00036981813800001218
的不确定性项使用独立的神经网络逼近得到最优性能指标函数
Figure BDA00036981813800001219
和最优虚拟控制
Figure BDA00036981813800001220
的估计值
Figure BDA00036981813800001221
Figure BDA00036981813800001222
在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值
Figure BDA00036981813800001223
为Sub-Actora1,将最优虚拟控制估计值
Figure BDA00036981813800001224
定义为Sub-Criticc1,为了迭代得到其数值解,可先打破最优性能指标函数
Figure BDA00036981813800001225
和最优虚拟控制
Figure BDA00036981813800001226
之间的相关性,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值
Figure BDA00036981813800001227
Figure BDA00036981813800001228
最终两者逐步满足相关关系,通过BLF-SRL算法进而得到系统的优化控制。
强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,包括:
第一个隐藏层由400个神经元组成,以ReLU作为激活数;
第二个隐藏层由300个神经元组成,以ReLU作为激活函数;
输出层使用tanh作为激活函数。
Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam,学习率为10-5;损失函数为均方误差(Mean-Square Error,MSE),当训练集的MSE小于10-4时,停止学习;批训练集数为64。
下面基于本发明提出的BLF-SRL算法对自动驾驶横向运动的轨迹跟踪和优化问题进行描述并验证:
在自动驾驶车辆横向跟踪控制问题中,令受约束的状态变量为
Figure BDA0003698181380000131
Figure BDA0003698181380000132
且在学习过程中保持在安全区域内,即
Figure BDA0003698181380000133
其中,
Figure BDA0003698181380000134
yG
Figure BDA0003698181380000135
的参考信号的表达式为:
Figure BDA0003698181380000136
Figure BDA0003698181380000137
其中,
Figure BDA0003698181380000138
为t时刻全局坐标系中y方向的坐标yG的参考信号,
Figure BDA0003698181380000139
为t时刻全局坐标系中的航向角
Figure BDA00036981813800001310
的参考信号,y0为yG的初始信号,vx为车辆坐标系中x方向的速度,ω0为初始角速度,在本实施例中,y0=4m,ω0=0.4πrad/s;
令β代表系统不确定性参数,表示被控对象与模型间的参数不匹配导致的模型失配情况,系统不确定性参数β的界为[1-δ,1+δ],本实例中,各个工况的设置分别为:
确定性工况C1的设置为系统不确定性参数β=1,界中的参数δ=0;
随机不确定性工况C2的设置为系统不确定性参数β从高斯分布N(1,σ2)中选取。
考虑被控对象使用比线性轮胎模型更精确的Fiala轮胎模型
Figure BDA00036981813800001311
标记为不确定性工况C4、C5和C6,确定性工况C3等同于确定性工况C1,在控制器设计中,采用相同的控制参数,分别为κ1=[2,4]T,κ2=[1,3]T,k1s=k1c=k2s=[1,1]T,k2c=[1,10-5]T
对于工况C1和C2分别使用传统OBSC方法和BLF-SRL方法的结构如图3~4所示,其中工况C2中,参数β从高斯分布N(1,0.8)中选取,并重复多次计算标准差,随机情况下仿真结果的标准差越大,则图中曲线的颜色区域越大,在工况C1中,两种方法控制下状态变量
Figure BDA0003698181380000141
Figure BDA0003698181380000142
的状态轨迹全部约束在预先设计的安全区域内,表明控制器参数选取合适。而在不确定性工况C2下,通过状态变量
Figure BDA0003698181380000143
Figure BDA0003698181380000144
的状态轨迹可见,使用OBSC方法控制的部分状态轨迹超出了预先设计的安全区域,而使用BLF-SRL方法控制的状态轨迹较小并且始终全部保持在预先设计的安全区域内。
对于不确定性工况C4、C5和C6,界中的参数δ分别设置为0.1、0.2和0.4,将BLF-SRL方法与OBSC和OBSC结合控制障碍函数的附加安全控制器的性能进行比较,结果如图5~图8所示,其中,图5为状态变量
Figure BDA0003698181380000145
的状态轨迹,图6为状态变量
Figure BDA0003698181380000146
的状态轨迹,图7和图8为参考信号
Figure BDA0003698181380000147
Figure BDA0003698181380000148
的状态轨迹,根据结果可得,OBSC方法的状态变量
Figure BDA0003698181380000149
的状态轨迹超出了安全区域,而BLF-SRL和OBSC结合控制障碍函数的附加安全控制器的状态变量
Figure BDA00036981813800001410
的状态轨迹保持在预先设计的安全区域内。两者的区别在于,所提出的BLF-SRL通过反步优化方法将BLF相关控制项对系统的控制虚拟、实际控制进行设计,从而影响整个优化学习期间的控制,在理论上可以保证状态变量在学习期间约束在设计的安全区域内并且永远不会超出该区域,在整个优化学习过程中逐渐远离安全边界。
在自动驾驶车辆的横向运动轨迹优化问题中,将yG
Figure BDA00036981813800001411
的参考信号设定为
Figure BDA00036981813800001412
Figure BDA00036981813800001413
性能指标函数考虑跟踪性能与控制输入,控制输入在学习过程中满足安全约束并最终迭代学习满足贝尔曼最优性条件。在优化问题中需要考虑控制输入的增量Δu,同时,不同的反步子系统中使用不同的参数设计策略:在z1运动学层中,控制输入的权重远大于状态变量,优化得到的车辆轨迹更加平滑且震荡减少;在z2动力学层中,状态变量与控制变量的权重相当,以保证跟踪性能,控制参数分别设计为分别为κ1=[0.5,0.5]T,κ2=[2,2]T,k1s的初始值为[0.001,0.01]T,并在每个时刻增加[0.01,0.1]T,直至达到[5,4]T,k1c=[5,1.5]T,k2s=[1,1]T,k2c=[1,10-8]T
Figure BDA00036981813800001414
其他条件保持不变。
将BLF-SRL方法与OBSC方法进行比较,如图9~10所示,分别展示了z1和z2子系统中HJB方程
Figure BDA00036981813800001415
Figure BDA00036981813800001416
的估值曲线,其中,
Figure BDA00036981813800001417
Figure BDA00036981813800001418
分别为y轴方向的位移yG的HJB方程估计值、航向角
Figure BDA00036981813800001419
对应的HJB方程估计值、y轴方向的速度vy的HJB方程估计值以及横摆角速度ωr对应的HJB方程估计值,如图9和图10中的(a)~(b)所示,虽然两种方法最终都达到了期望的轨迹,但BLF-SRL的控制输入更优且更小,如图9和图10中的(c)~(d)所示,使用BLF-SRL和原始OBSC学习后的控制输入得到了优化,并且比初始策略更温和,但OBSC方法的HJB函数估计值只能在控制下最终收敛到0,而BLF-SRL方法的HJB函数估计值可以在每个控制时刻随着学习更新逐渐收敛到0,即可通过迭代更新,最终满足贝尔曼最优性方程。
本发明通过利用车载传感器信号和控制器(由自动驾驶车辆横向运动模型和强化学习算法模块组成),基于自动驾驶车辆横向运动模型,推导具备解析形式的分层安全控制律和安全强化学习算法,并分别设计确定性工况和不确定性随机工况,以有效验证算法应用的工况适应性,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种自动驾驶车辆横向运动控制方法,其特征在于,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;
步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
2.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤1中,建立自动驾驶车辆的横向运动控制模型的过程具体为:
步骤101:获取四轮驱动车辆的动力学模型;
步骤102:忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型;
步骤103:对横向轮胎力采用线性轮胎力模型进行简化,最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。
3.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤101中,四轮驱动车辆的运动学模型的表达式为:
Figure FDA0003698181370000011
Figure FDA0003698181370000012
Figure FDA0003698181370000013
其中,xG和yG分别为全局坐标系中x方向和y方向的坐标,vx和vy分别为车辆坐标系中x方向和y方向的速度,
Figure FDA0003698181370000014
为全局坐标系中的航向角,ωr为横摆角速度。
4.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤102中,横向运动控制模型的表达式为:
Figure FDA0003698181370000015
Figure FDA0003698181370000021
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力。
5.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤103中,横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
Figure FDA0003698181370000022
Figure FDA0003698181370000023
Figure FDA0003698181370000024
Figure FDA0003698181370000025
其中,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于前轮转角δf和横摆角速度ωr小,对进行动力学模型简化,简化后的四轮驱动车辆的动力学模型为:
Figure FDA0003698181370000031
Figure FDA0003698181370000032
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力;
若纵向车速不变,考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为:
Figure FDA0003698181370000033
Figure FDA0003698181370000034
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型,
Figure FDA0003698181370000035
表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
Figure FDA0003698181370000036
定义二阶严格反馈形式的横向运动控制模型时所需的模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
Figure FDA0003698181370000037
Figure FDA0003698181370000038
Figure FDA0003698181370000039
Figure FDA0003698181370000041
其中,C1、C2、C3、C4、C5和C6分别为模型参数。
6.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤4中,实际车辆中的轮胎具有非线性特性,受到不同工况的影响,模型fi和gi与真实系统的动力学模型fi p
Figure FDA0003698181370000042
之间存在参数不匹配的系统不确定性,进而造成模型参数失配,令真实系统的轮胎的作用力为:
Figure FDA0003698181370000043
其中,
Figure FDA0003698181370000044
为真实系统的轮胎的作用力,β为真实系统的轮胎的作用力
Figure FDA0003698181370000045
与轮胎的作用力Fy,(·)之间的关系系数;
模型fi和gi与真实系统的动力学模型fi p
Figure FDA0003698181370000046
之间的关系表达式为:
Figure FDA0003698181370000047
Figure FDA0003698181370000048
其中,
Figure FDA0003698181370000049
Figure FDA00036981813700000410
分别为真实系统的动力学模型,βf为真实系统的动力学模型
Figure FDA00036981813700000411
和模型f2之间的关系系数,βg为真实系统的动力学模型
Figure FDA00036981813700000412
和模型g2之间的关系系数;
且模型fi和gi的参数Ci与真实系统的动力学模型fi p
Figure FDA00036981813700000413
中的参数
Figure FDA00036981813700000414
之间的关系表达式为:
Figure FDA00036981813700000415
7.根据权利要求6所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤5中,强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为:
针对二阶严格反馈形式下的非线性系统,即二阶严格反馈形式下的横向运动控制模型,引入待优化的虚拟控制αi(i=1,...,n-1)并定义误差z1=x1-yd,zi=xii-1(i=2,...,n),以优化系统控制达到系统期望输出,并建立级联结构的系统模型,即将待优化的非线性系统重新建立为:
Figure FDA0003698181370000051
其中,
Figure FDA0003698181370000052
为状态变量的导数,αi(i=1,...,n-1)为每i个虚拟控制,
Figure FDA0003698181370000053
为控制输入,yd为系统期望输出;
通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量
Figure FDA0003698181370000054
和自由变量
Figure FDA0003698181370000055
将学习问题描述为在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure FDA0003698181370000056
其中,
Figure FDA0003698181370000057
为正常数;
对于z1子系统,引入待优化的虚拟控制,定义最优性能指标函数为:
Figure FDA0003698181370000058
其中,
Figure FDA0003698181370000059
为最优性能指标函数,
Figure FDA00036981813700000510
为最优虚拟控制,
Figure FDA00036981813700000511
为代价函数,κ1s和κ1c分别为权重系数,对应的HJB方程
Figure FDA00036981813700000512
为:
Figure FDA00036981813700000513
其中,
Figure FDA00036981813700000514
表示最优性能指标函数对z1子系统求偏导;
最优虚拟控制
Figure FDA00036981813700000515
通过求解
Figure FDA00036981813700000516
并分解得到:
Figure FDA00036981813700000517
其中,
Figure FDA00036981813700000518
为待学习的未知连续函数,κ1为一个正常数;
由级联结构的系统模型将最优性能指标函数表示为:
Figure FDA00036981813700000519
最优性能指标函数
Figure FDA00036981813700000520
和最优虚拟控制
Figure FDA00036981813700000521
的不确定性项采用独立的神经网络逼近得到最优性能指标函数
Figure FDA00036981813700000522
和最优虚拟控制
Figure FDA00036981813700000523
的估计值
Figure FDA00036981813700000524
Figure FDA00036981813700000525
在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值
Figure FDA00036981813700000526
为Sub-Actor a1,将最优虚拟控制估计值
Figure FDA00036981813700000527
定义为Sub-Criticc1,打破最优性能指标函数
Figure FDA00036981813700000528
和最优虚拟控制
Figure FDA00036981813700000529
之间的相关性,以迭代得到其数值解,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值
Figure FDA00036981813700000530
Figure FDA00036981813700000531
最终两者逐步满足相关关系,通过BLF-SRL算法进而得到子系统的优化控制;
同理,zi,i=2,...,n子系统与z1子系统相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值,利用强化学习的Actor-Critic框架迭代更新估计值,训练出子系统的优化控制量;
最终在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域
Figure FDA0003698181370000061
内,其中
Figure FDA0003698181370000062
为正常数。
8.根据权利要求7所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,Sub-Actor和Sub-Critic神经网络结构包括:
第一个隐藏层:以ReLU作为激活数;
第二个隐藏层:以ReLU作为激活函数;
输出层:以tanh作为激活函数;
所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法,其损失函数为均方误差,当训练集的MSE小于设定值时,停止学习,批训练集数设为prac。
9.一种实现如权利要求1~8任一项所述自动驾驶车辆横向运动控制方法的系统,其特征在于,该系统包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,所述的感知传感器用以将获取的环境信息传输至横向运动控制模型,所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块,所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型,所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块,以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。
10.根据权利要求9所述的一种系统,其特征在于,所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。
CN202210686595.5A 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统 Active CN115202341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210686595.5A CN115202341B (zh) 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210686595.5A CN115202341B (zh) 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统

Publications (2)

Publication Number Publication Date
CN115202341A true CN115202341A (zh) 2022-10-18
CN115202341B CN115202341B (zh) 2023-11-03

Family

ID=83576407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210686595.5A Active CN115202341B (zh) 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统

Country Status (1)

Country Link
CN (1) CN115202341B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116588119A (zh) * 2023-05-30 2023-08-15 同济大学 一种基于轮胎模型参数自适应的车辆状态估计方法
CN117911414A (zh) * 2024-03-20 2024-04-19 安徽大学 一种基于强化学习的自动驾驶汽车运动控制方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN112896170A (zh) * 2021-01-30 2021-06-04 同济大学 一种车路协同环境下的自动驾驶横向控制方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN114162110A (zh) * 2021-11-26 2022-03-11 华南理工大学 一种无人驾驶车辆的横向稳定性控制方法
US20220143823A1 (en) * 2019-03-13 2022-05-12 Meidensha Corporation Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot
CN114564016A (zh) * 2022-02-24 2022-05-31 江苏大学 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115016278A (zh) * 2022-06-22 2022-09-06 同济大学 一种基于blf-srl的自动驾驶控制方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220143823A1 (en) * 2019-03-13 2022-05-12 Meidensha Corporation Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN112896170A (zh) * 2021-01-30 2021-06-04 同济大学 一种车路协同环境下的自动驾驶横向控制方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN114162110A (zh) * 2021-11-26 2022-03-11 华南理工大学 一种无人驾驶车辆的横向稳定性控制方法
CN114564016A (zh) * 2022-02-24 2022-05-31 江苏大学 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115016278A (zh) * 2022-06-22 2022-09-06 同济大学 一种基于blf-srl的自动驾驶控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YUXIANG ZHANG 等: "Barrier Lyapunov Function-Based Safe Reinforcement Learning Algorithm for Autonomous Vehicles with System Uncertainty", 《2021 THE 21ST INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS》 *
ZHANG, YUXIANG 等: "Adaptive Safe Reinforcement Learning With Full-State Constraints and Constrained Adaptation for Autonomous Vehicles", 《IEEE》 *
ZHANG, YUXIANG 等: "Barrier Lyapunov Function-Based Safe Reinforcement Learning for Autonomous Vehicles With Optimized Backstepping", 《IEEE》 *
张羽翔 等: "基于参数描述的换道场景自动驾驶精确决策学习", 《同济 大 学 学报(自然科学版)》 *
阮政委: "基于智能切换机制的非线性系统自适应容错控制方法研究", 《CNKI》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116588119A (zh) * 2023-05-30 2023-08-15 同济大学 一种基于轮胎模型参数自适应的车辆状态估计方法
CN117911414A (zh) * 2024-03-20 2024-04-19 安徽大学 一种基于强化学习的自动驾驶汽车运动控制方法

Also Published As

Publication number Publication date
CN115202341B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111890951B (zh) 智能电动汽车轨迹跟踪与运动控制方法
CN107561942B (zh) 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
CN115202341A (zh) 一种自动驾驶车辆横向运动控制方法及系统
Cai et al. Implementation and development of a trajectory tracking control system for intelligent vehicle
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
CN108791491A (zh) 一种基于自评价学习的车辆侧向跟踪控制方法
CN110162046A (zh) 基于事件触发型模型预测控制的无人车路径跟随方法
CN112666833A (zh) 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法
CN113911106B (zh) 基于博弈论的商用车横向轨迹跟随与稳定性协同控制方法
Wu et al. Steering and braking game control architecture based minimax robust stability control for emergency avoidance of autonomous vehicles
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
CN112578672A (zh) 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
CN114684199A (zh) 一种机理分析-数据驱动的车辆动力学串联混合模型、智能汽车轨迹跟踪控制方法及控制器
Viadero-Monasterio et al. Event-triggered robust path tracking control considering roll stability under network-induced delays for autonomous vehicles
Niasar et al. Yaw moment control via emotional adaptive neuro-fuzzy controller for independent rear wheel drives of an electric vehicle
Sousa et al. Nonlinear tire model approximation using machine learning for efficient model predictive control
Bárdos et al. Implementation and experimental evaluation of a MIMO drifting controller on a test vehicle
CN114987537A (zh) 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制系统与方法
CN113885548B (zh) 一种多四旋翼无人机输出约束状态一致博弈控制器
CN116184835A (zh) 考虑输入时延与速度时变的无人驾驶车辆跟踪控制方法
Mok et al. A post impact stability control for four hub-motor independent-drive electric vehicles
Zhang et al. Real-time nonlinear predictive controller design for drive-by-wire vehicle lateral stability with dynamic boundary conditions
CN114906128A (zh) 一种基于mcts算法的自动泊车运动规划方法
Shen et al. Stability and Maneuverability Guaranteed Torque Distribution Strategy of ddev in handling limit: a novel lstm-lmi approach
CN115016278A (zh) 一种基于blf-srl的自动驾驶控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant