CN115202341B - 一种自动驾驶车辆横向运动控制方法及系统 - Google Patents

一种自动驾驶车辆横向运动控制方法及系统 Download PDF

Info

Publication number
CN115202341B
CN115202341B CN202210686595.5A CN202210686595A CN115202341B CN 115202341 B CN115202341 B CN 115202341B CN 202210686595 A CN202210686595 A CN 202210686595A CN 115202341 B CN115202341 B CN 115202341B
Authority
CN
China
Prior art keywords
model
vehicle
motion control
control
tire
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210686595.5A
Other languages
English (en)
Other versions
CN115202341A (zh
Inventor
程一帆
高炳钊
张羽翔
褚洪庆
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210686595.5A priority Critical patent/CN115202341B/zh
Publication of CN115202341A publication Critical patent/CN115202341A/zh
Application granted granted Critical
Publication of CN115202341B publication Critical patent/CN115202341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Steering Control In Accordance With Driving Conditions (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种自动驾驶车辆横向运动控制方法,该方法包括以下步骤:步骤1:建立自动驾驶车辆的横向运动控制模型;步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;步骤5:强化学习算法模块采用BLF‑SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。与现有技术相比,本发明具有使车辆横向运动控制在变化场景工况中具备安全控制性能以及对于场景工况变化引起的模型参数变化具有学习自适应性能等优点。

Description

一种自动驾驶车辆横向运动控制方法及系统
技术领域
本发明涉及自动驾驶车辆运动控制领域,尤其是涉及一种自动驾驶车辆横向运动控制方法及系统。
背景技术
自动驾驶车辆的运动控制系统是典型的安全关键(Safety-Critical,SC)系统,在其面对复杂动态驾驶场景进行决策和控制时,存在决策问题抽象和运动控制系统具备强非线性等特征。强化学习是典型的一类可不基于模型的交互学习类算法,其基本特点是采用试错机制,基于与环境在线交互得到的评价和反馈信号通过最大化未来回报以实现序列学习。由于其可交互特点,强化学习能够有效通过环境反馈信息学习系统控制策略,被广泛认为是实现智能决策和控制,使其具备持续自学习能力进而增强系统性能的有效方法。
尽管强化学习具备交互性学习以及无模型学习优势,其在自动驾驶车辆的广泛应用仍存在一定限制,主要原因可归纳为两点:
1、自动驾驶车辆控制系统涉及严格安全性;而强化学习采用的基于试错学习的方式,存在数据依赖强、在线学习效率低、基于非平稳环境的学习容易失效、学习过程中的安全性难以保证等方面的问题;
2、自动驾驶车辆的行驶环境复杂多变,在建模过程中会不可避免地引入模型不确定性,使得系统状态进入非安全区域,导致运动失稳和控制失效,如何解决动态场景运动控制的工况适应性问题是另一个挑战。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种自动驾驶车辆横向运动控制系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种自动驾驶车辆横向运动控制方法,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;
步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
所述的步骤1中,建立自动驾驶车辆的横向运动控制模型的过程具体为:
步骤101:获取四轮驱动车辆的动力学模型;
步骤102:忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型;
步骤103:对横向轮胎力采用线性轮胎力模型进行简化,最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。
所述的步骤101中,四轮驱动车辆的运动学模型的表达式为:
其中,xG和yG分别为全局坐标系中x方向和y方向的坐标,vx和vy分别为车辆坐标系中x方向和y方向的速度,为全局坐标系中的航向角,ωr为横摆角速度。
所述的步骤102中,横向运动控制模型的表达式为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力。
所述的步骤103中,横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
其中,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于前轮转角δf和横摆角速度ωr小,对进行动力学模型简化,简化后的四轮驱动车辆的动力学模型为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力;
若纵向车速不变,考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为:
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型,表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
定义二阶严格反馈形式的横向运动控制模型时所需的模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
其中,C1、C2、C3、C4、C5和C6分别为模型参数。
所述的步骤4中,实际车辆中的轮胎具有非线性特性,受到不同工况的影响,模型fi和gi与真实系统的动力学模型fi p之间存在参数不匹配的系统不确定性,进而造成模型参数失配,令真实系统的轮胎的作用力为:
其中,为真实系统的轮胎的作用力,β为真实系统的轮胎的作用力/>与轮胎的作用力Fy,(·)之间的关系系数;
模型fi和gi与真实系统的动力学模型fi p之间的关系表达式为:
其中,和/>分别为真实系统的动力学模型,βf为真实系统的动力学模型/>和模型f2之间的关系系数,βg为真实系统的动力学模型/>和模型g2之间的关系系数;
且模型fi和gi的参数Ci与真实系统的动力学模型fi p中的参数/>之间的关系表达式为:
所述的步骤5中,强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为:
针对二阶严格反馈形式下的非线性系统,即二阶严格反馈形式下的横向运动控制模型,引入待优化的虚拟控制αi(i=1,...,n-1)并定义误差z1=x1-yd,zi=xii-1(i=2,...,n),以优化系统控制达到系统期望输出,并建立级联结构的系统模型,即将待优化的非线性系统重新建立为:
其中,为状态变量的导数,αi(i=1,...,n-1)为每i个虚拟控制,/>为控制输入,yd为系统期望输出;
通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由变量将学习问题描述为在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域/>其中,/>为正常数;
对于z1子系统,引入待优化的虚拟控制,定义最优性能指标函数为:
其中,为最优性能指标函数,/>为最优虚拟控制,/>为代价函数,κ1s和κ1c分别为权重系数,对应的HJB方程/>为:
其中,表示最优性能指标函数对z1子系统求偏导;
最优虚拟控制通过求解/>并分解得到:
其中,为待学习的未知连续函数,κ1为一个正常数;
由级联结构的系统模型将最优性能指标函数表示为:
最优性能指标函数和最优虚拟控制/>的不确定性项采用独立的神经网络逼近得到最优性能指标函数/>和最优虚拟控制/>的估计值/>和/>在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值/>为Sub-Actora1,将最优虚拟控制估计值/>定义为Sub-Criticc1,打破最优性能指标函数/>和最优虚拟控制/>之间的相关性,以迭代得到其数值解,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值/>和/>最终两者逐步满足相关关系,通过BLF-SRL算法进而得到子系统的优化控制;
同理,zi,i=2,...,n子系统与z1子系统相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值,利用强化学习的Actor-Critic框架迭代更新估计值,训练出子系统的优化控制量;
最终在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域内,其中/>为正常数。
所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,Sub-Actor和Sub-Critic神经网络结构包括:
第一个隐藏层:以ReLU作为激活数;
第二个隐藏层:以ReLU作为激活函数;
输出层:以tanh作为激活函数;
所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法,其损失函数为均方误差,当训练集的MSE小于设定值时,停止学习,批训练集数设为prac。
一种实现所述自动驾驶车辆横向运动控制方法的系统,该系统包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,所述的感知传感器用以将获取的环境信息传输至横向运动控制模型,所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块,所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型,所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块,以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。
所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。
与现有技术相比,本发明具有以如下有益效果:
本发明面向场景工况变化导致的模型不确定性,针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求,设计了具备解析形式的安全强化学习算法,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,且对于场景工况变化引起的模型参数变化具有学习自适应性能。
附图说明
图1为本发明的结构示意图。
图2为四轮驱动车辆结构图。
图3为C1和C2仿真工况下状态变量的状态轨迹图。
图4为C1和C2仿真工况下状态变量的状态轨迹图。
图5为C3~6仿真工况下状态变量的状态轨迹图。
图6为C4~6仿真工况下状态变量的状态轨迹图。
图7为C4~6仿真工况下系统状态侧向位置yG曲线图。
图8为C4~6仿真工况下状态变量的状态轨迹图。
图9为BLF-SRL方法下z1子系统中HJB方程的估计值曲线图。
图10为OBSC方法下z2子系统中HJB方程的估计值曲线图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供了一种考虑学习全过程安全性能的自动驾驶车辆横向运动控制系统,考虑到自动驾驶车辆运动控制系统为典型的安全关键(Safety-Critical,SC)系统,需要时刻保证控制过程中的安全约束,该系统面向场景工况变化导致的模型不确定性,针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求,设计了具备解析形式的安全强化学习算法,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。
如图1所示,该系统包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,横向运动控制模型所需的环境信息由感知传感器输入,所需的车辆状态参数由车载传感通讯输入,强化学习算法模块所需的模型参数失配以及安全性约束和驾驶场景变化分别由横向运动控制模型和感知模块输入,自动驾驶车辆的横向运动控制模型通过分析四轮驱动车辆的运动学过程,忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,并对横向轮胎力使用线性轮胎力模型进行简化,最终将自动驾驶车辆横向运动模型描述为BLF-SRL算法所需的二阶严格反馈形式,自动驾驶车辆横向运动的轨迹跟踪和优化问题通过BLF-SRL算法进行控制,通过与传统OBSC算法的对比可验证算法有效性。
本发明还提供了一种自动驾驶车辆横向运动控制系统的方法,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:感知传感器将获取的环境信息传输至横向运动控制模型,将获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:车载传感通讯模块将获取的车辆状态参数传输至横向运动控制模型;
步骤4:横向运动控制模型获取模型参数失配并将其传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
在步骤1中,建立四轮驱动车辆的横向运动控制模型的过程具体为:
四轮驱动车辆的运动学模型为:
其中,xG和yG分别为全局坐标系中x方向和y方向的坐标,vx和vy分别为车辆坐标系中x方向和y方向的速度,为全局坐标系中的航向角,ωr为横摆角速度;
考虑车辆的纵向、横向和横摆动力学特性,忽略车辆的俯仰和侧倾动力学特性,得到的四轮驱动车辆的动力学模型:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力;
横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
其中,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于δf和ωr较小,对sinδf、cosδf进行简化,因此,简化后的四轮车辆的动力学模型为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮、右后轮的横向轮胎力;
若纵向车速不变,将考虑单车的运动控制问题的四轮车辆的横向运动控制模型写成二阶严格反馈形式:
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的矩阵(模型),表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
采用线性轮胎力模型建立二阶严格反馈形式的横向运动控制模型,以在线性区域保持较高的精度,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,因此,模型fi和gi与真实系统的动力学模型fi p之间存在参数不匹配的系统不确定性,进而造成模型失配,令被控对象的轮胎力为/>真实系统的动力学模型fi p和/>中的参数/>与模型fi和gi的参数Ci的关系为/>模型fi和gi与真实系统的动力学模型fi p和/>之间的关系表达式为:
其中,和/>分别为真实系统的动力学模型,βf为真实系统的动力学模型/>和模型f2之间的关系系数,βg为真实系统的动力学模型/>和模型g2之间的关系系数;
对于自动驾驶横向运动的轨迹跟踪和优化问题,采用BLF-SRL算法提升安全性和自适,针对二阶严格反馈形式下的横向运动控制模型(非线性系统),为了优化系统控制达到系统期望输出,引入待优化虚拟控制并定义误差,将待优化的非线性系统重新建立为:
系统模型呈级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由变量/>并将学习问题描述为:在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域/>其中,/>为正常数。
以z1子系统为例,引入待优化的虚拟控制,定义最优性能指标函数为:
其中,为最优性能指标函数,/>为代价函数,κ1s和κ1c分别为权重系数,对应的HJB方程/>为:
/>
其中,表示最优性能指标函数对z1子系统求偏导;
最优虚拟控制通过求解/>并分解设计得到:
其中,为待学习的未知连续函数,κ1为一个正常数;
由级联结构的系统模型,将最优性能指标函数表示为:
最优性能指标函数和最优虚拟控制/>的不确定性项使用独立的神经网络逼近得到最优性能指标函数/>和最优虚拟控制/>的估计值/>和/>在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值/>为Sub-Actora1,将最优虚拟控制估计值/>定义为Sub-Criticc1,为了迭代得到其数值解,可先打破最优性能指标函数/>和最优虚拟控制/>之间的相关性,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值/>和/>最终两者逐步满足相关关系,通过BLF-SRL算法进而得到系统的优化控制。
强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,包括:
第一个隐藏层由400个神经元组成,以ReLU作为激活数;
第二个隐藏层由300个神经元组成,以ReLU作为激活函数;
输出层使用tanh作为激活函数。
Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam,学习率为10-5;损失函数为均方误差(Mean-Square Error,MSE),当训练集的MSE小于10-4时,停止学习;批训练集数为64。
下面基于本发明提出的BLF-SRL算法对自动驾驶横向运动的轨迹跟踪和优化问题进行描述并验证:
在自动驾驶车辆横向跟踪控制问题中,令受约束的状态变量为且在学习过程中保持在安全区域内,即/>其中,yG和/>的参考信号的表达式为:
/>
其中,为t时刻全局坐标系中y方向的坐标yG的参考信号,/>为t时刻全局坐标系中的航向角/>的参考信号,y0为yG的初始信号,vx为车辆坐标系中x方向的速度,ω0为初始角速度,在本实施例中,y0=4m,ω0=0.4πrad/s;
令β代表系统不确定性参数,表示被控对象与模型间的参数不匹配导致的模型失配情况,系统不确定性参数β的界为[1-δ,1+δ],本实例中,各个工况的设置分别为:
确定性工况C1的设置为系统不确定性参数β=1,界中的参数δ=0;
随机不确定性工况C2的设置为系统不确定性参数β从高斯分布N(1,σ2)中选取。
考虑被控对象使用比线性轮胎模型更精确的Fiala轮胎模型标记为不确定性工况C4、C5和C6,确定性工况C3等同于确定性工况C1,在控制器设计中,采用相同的控制参数,分别为κ1=[2,4]T,κ2=[1,3]T,k1s=k1c=k2s=[1,1]T,k2c=[1,10-5]T
对于工况C1和C2分别使用传统OBSC方法和BLF-SRL方法的结构如图3~4所示,其中工况C2中,参数β从高斯分布N(1,0.8)中选取,并重复多次计算标准差,随机情况下仿真结果的标准差越大,则图中曲线的颜色区域越大,在工况C1中,两种方法控制下状态变量和/>的状态轨迹全部约束在预先设计的安全区域内,表明控制器参数选取合适。而在不确定性工况C2下,通过状态变量/>和/>的状态轨迹可见,使用OBSC方法控制的部分状态轨迹超出了预先设计的安全区域,而使用BLF-SRL方法控制的状态轨迹较小并且始终全部保持在预先设计的安全区域内。
对于不确定性工况C4、C5和C6,界中的参数δ分别设置为0.1、0.2和0.4,将BLF-SRL方法与OBSC和OBSC结合控制障碍函数的附加安全控制器的性能进行比较,结果如图5~图8所示,其中,图5为状态变量的状态轨迹,图6为状态变量/>的状态轨迹,图7和图8为参考信号/>和/>的状态轨迹,根据结果可得,OBSC方法的状态变量/>的状态轨迹超出了安全区域,而BLF-SRL和OBSC结合控制障碍函数的附加安全控制器的状态变量/>的状态轨迹保持在预先设计的安全区域内。两者的区别在于,所提出的BLF-SRL通过反步优化方法将BLF相关控制项对系统的控制虚拟、实际控制进行设计,从而影响整个优化学习期间的控制,在理论上可以保证状态变量在学习期间约束在设计的安全区域内并且永远不会超出该区域,在整个优化学习过程中逐渐远离安全边界。
在自动驾驶车辆的横向运动轨迹优化问题中,将yG的参考信号设定为和/>性能指标函数考虑跟踪性能与控制输入,控制输入在学习过程中满足安全约束并最终迭代学习满足贝尔曼最优性条件。在优化问题中需要考虑控制输入的增量Δu,同时,不同的反步子系统中使用不同的参数设计策略:在z1运动学层中,控制输入的权重远大于状态变量,优化得到的车辆轨迹更加平滑且震荡减少;在z2动力学层中,状态变量与控制变量的权重相当,以保证跟踪性能,控制参数分别设计为分别为κ1=[0.5,0.5]T,κ2=[2,2]T,k1s的初始值为[0.001,0.01]T,并在每个时刻增加[0.01,0.1]T,直至达到[5,4]T,k1c=[5,1.5]T,k2s=[1,1]T,k2c=[1,10-8]T,/>其他条件保持不变。
将BLF-SRL方法与OBSC方法进行比较,如图9~10所示,分别展示了z1和z2子系统中HJB方程和/>的估值曲线,其中,/> 分别为y轴方向的位移yG的HJB方程估计值、航向角/>对应的HJB方程估计值、y轴方向的速度vy的HJB方程估计值以及横摆角速度ωr对应的HJB方程估计值,如图9和图10中的(a)~(b)所示,虽然两种方法最终都达到了期望的轨迹,但BLF-SRL的控制输入更优且更小,如图9和图10中的(c)~(d)所示,使用BLF-SRL和原始OBSC学习后的控制输入得到了优化,并且比初始策略更温和,但OBSC方法的HJB函数估计值只能在控制下最终收敛到0,而BLF-SRL方法的HJB函数估计值可以在每个控制时刻随着学习更新逐渐收敛到0,即可通过迭代更新,最终满足贝尔曼最优性方程。
本发明通过利用车载传感器信号和控制器(由自动驾驶车辆横向运动模型和强化学习算法模块组成),基于自动驾驶车辆横向运动模型,推导具备解析形式的分层安全控制律和安全强化学习算法,并分别设计确定性工况和不确定性随机工况,以有效验证算法应用的工况适应性,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种自动驾驶车辆横向运动控制方法,其特征在于,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;
步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化;
所述的步骤4中,实际车辆中的轮胎具有非线性特性,受到不同工况的影响,模型fi和gi与真实系统的动力学模型fi p之间存在参数不匹配的系统不确定性,进而造成模型参数失配,令真实系统的轮胎的作用力为:
其中,为真实系统的轮胎的作用力,β为真实系统的轮胎的作用力/>与轮胎的作用力Fy,(·)之间的关系系数;
模型fi和gi与真实系统的动力学模型fi p之间的关系表达式为:
其中,和/>分别为真实系统的动力学模型,βf为真实系统的动力学模型/>和模型f2之间的关系系数,βg为真实系统的动力学模型/>和模型g2之间的关系系数;
且模型fi和gi的参数Ci与真实系统的动力学模型fi p中的参数/>之间的关系表达式为:
所述的步骤5中,强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为:
针对二阶严格反馈形式下的非线性系统,即二阶严格反馈形式下的横向运动控制模型,引入待优化的虚拟控制αi(i=1,...,n-1)并定义误差z1=x1-yd,zi=xii-1(i=2,...,n),以优化系统控制达到系统期望输出,并建立级联结构的系统模型,即将待优化的非线性系统重新建立为:
其中,为状态变量的导数,αi(i=1,...,n-1)为第i个虚拟控制,/>为控制输入,yd为系统期望输出;
通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化系统的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由变量将学习问题描述为在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时,待约束状态变量zi,(i=1,...,ns)始终保持在设计的安全区域/>其中,/>为正常数;
对于z1子系统,引入待优化的虚拟控制,定义最优性能指标函数为:
其中,为最优性能指标函数,/>为最优虚拟控制,/>为代价函数,κ1s和κ1c分别为权重系数,对应的HJB方程/>为:
其中,表示最优性能指标函数对z1子系统求偏导;
最优虚拟控制通过求解/>并分解得到:
其中,为待学习的未知连续函数,κ1为一个正常数;
由级联结构的系统模型将最优性能指标函数表示为:
最优性能指标函数和最优虚拟控制/>的不确定性项采用独立的神经网络逼近得到最优性能指标函数/>和最优虚拟控制/>的估计值/>和/>在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值/>为Sub-Actora1,将最优虚拟控制估计值/>定义为Sub-Criticc1,打破最优性能指标函数/>和最优虚拟控制/>之间的相关性,以迭代得到其数值解,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值/>和/>最终两者逐步满足相关关系,通过BLF-SRL算法进而得到子系统的优化控制;
同理,zi,i=2,...,n子系统与z1子系统相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值,利用强化学习的Actor-Critic框架迭代更新估计值,训练出子系统的优化控制量;
最终在整个学习过程中,优化系统控制,跟踪系统期望输出yd的同时,待约束状态变量zi,(i=1,...,ns)始终保持在设计的安全区域内,其中/>为正常数。
2.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤1中,建立自动驾驶车辆的横向运动控制模型的过程具体为:
步骤101:获取四轮驱动车辆的动力学模型;
步骤102:忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型;
步骤103:对横向轮胎力采用线性轮胎力模型进行简化,最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。
3.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤101中,四轮驱动车辆的运动学模型的表达式为:
其中,xG和yG分别为全局坐标系中x方向和y方向的坐标,vx和vy分别为车辆坐标系中x方向和y方向的速度,为全局坐标系中的航向角,ωr为横摆角速度。
4.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤102中,横向运动控制模型的表达式为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力。
5.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤103中,横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
其中,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于前轮转角δf和横摆角速度ωr小,对进行动力学模型简化,简化后的四轮驱动车辆的动力学模型为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力;
若纵向车速不变,考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为:
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型,表示车辆的侧向位置和航向角,v=[vyr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
定义二阶严格反馈形式的横向运动控制模型时所需的模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
其中,C1、C2、C3、C4、C5和C6分别为模型参数。
6.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,Sub-Actor和Sub-Critic神经网络结构包括:
第一个隐藏层:以ReLU作为激活函数;
第二个隐藏层:以ReLU作为激活函数;
输出层:以tanh作为激活函数;
所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法,其损失函数为均方误差,当训练集的MSE小于设定值时,停止学习,批训练集数设为prac。
7.一种实现如权利要求1~6任一项所述自动驾驶车辆横向运动控制方法的系统,其特征在于,该系统包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,所述的感知传感器用以将获取的环境信息传输至横向运动控制模型,所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块,所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型,所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块,以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。
8.根据权利要求7所述的一种系统,其特征在于,所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。
CN202210686595.5A 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统 Active CN115202341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210686595.5A CN115202341B (zh) 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210686595.5A CN115202341B (zh) 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统

Publications (2)

Publication Number Publication Date
CN115202341A CN115202341A (zh) 2022-10-18
CN115202341B true CN115202341B (zh) 2023-11-03

Family

ID=83576407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210686595.5A Active CN115202341B (zh) 2022-06-16 2022-06-16 一种自动驾驶车辆横向运动控制方法及系统

Country Status (1)

Country Link
CN (1) CN115202341B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116588119A (zh) * 2023-05-30 2023-08-15 同济大学 一种基于轮胎模型参数自适应的车辆状态估计方法
CN117911414A (zh) * 2024-03-20 2024-04-19 安徽大学 一种基于强化学习的自动驾驶汽车运动控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN112896170A (zh) * 2021-01-30 2021-06-04 同济大学 一种车路协同环境下的自动驾驶横向控制方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN114162110A (zh) * 2021-11-26 2022-03-11 华南理工大学 一种无人驾驶车辆的横向稳定性控制方法
CN114564016A (zh) * 2022-02-24 2022-05-31 江苏大学 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115016278A (zh) * 2022-06-22 2022-09-06 同济大学 一种基于blf-srl的自动驾驶控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020148593A (ja) * 2019-03-13 2020-09-17 株式会社明電舎 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN112896170A (zh) * 2021-01-30 2021-06-04 同济大学 一种车路协同环境下的自动驾驶横向控制方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN114162110A (zh) * 2021-11-26 2022-03-11 华南理工大学 一种无人驾驶车辆的横向稳定性控制方法
CN114564016A (zh) * 2022-02-24 2022-05-31 江苏大学 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115016278A (zh) * 2022-06-22 2022-09-06 同济大学 一种基于blf-srl的自动驾驶控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adaptive Safe Reinforcement Learning With Full-State Constraints and Constrained Adaptation for Autonomous Vehicles;Zhang, Yuxiang 等;《IEEE》;全文 *
Barrier Lyapunov Function-Based Safe Reinforcement Learning Algorithm for Autonomous Vehicles with System Uncertainty;Yuxiang Zhang 等;《2021 The 21st International Conference on Control, Automation and Systems》;全文 *
Barrier Lyapunov Function-Based Safe Reinforcement Learning for Autonomous Vehicles With Optimized Backstepping;Zhang, Yuxiang 等;《IEEE》;全文 *
基于参数描述的换道场景自动驾驶精确决策学习;张羽翔 等;《同济 大 学 学报(自然科学版)》;全文 *
基于智能切换机制的非线性系统自适应容错控制方法研究;阮政委;《CNKI》;全文 *

Also Published As

Publication number Publication date
CN115202341A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115202341B (zh) 一种自动驾驶车辆横向运动控制方法及系统
CN107561942B (zh) 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
Awad et al. Model predictive control with fuzzy logic switching for path tracking of autonomous vehicles
CN114510063B (zh) 一种无人履带车辆及其轨迹跟踪控制方法和系统
CN113126623B (zh) 一种考虑输入饱和的自适应动态滑模自动驾驶车辆路径跟踪控制方法
CN112666833A (zh) 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法
CN112947469A (zh) 汽车换道轨迹规划与动态轨迹跟踪控制方法
CN116476825B (zh) 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN114684199A (zh) 一种机理分析-数据驱动的车辆动力学串联混合模型、智能汽车轨迹跟踪控制方法及控制器
CN113885548B (zh) 一种多四旋翼无人机输出约束状态一致博弈控制器
CN116184835A (zh) 考虑输入时延与速度时变的无人驾驶车辆跟踪控制方法
Fröhlich et al. Contextual tuning of model predictive control for autonomous racing
Zhang et al. Real-time nonlinear predictive controller design for drive-by-wire vehicle lateral stability with dynamic boundary conditions
Fröhlich et al. Model learning and contextual controller tuning for autonomous racing
Sousa et al. Nonlinear tire model approximation using machine learning for efficient model predictive control
CN114906128A (zh) 一种基于mcts算法的自动泊车运动规划方法
CN108776432A (zh) 基于网络的机场跑道检测机器人预测控制方法
Jiang et al. Learning based predictive error estimation and compensator design for autonomous vehicle path tracking
CN115016278A (zh) 一种基于blf-srl的自动驾驶控制方法
Huang et al. Cascade optimization control of unmanned vehicle path tracking under harsh driving conditions
CN114347031A (zh) 一种考虑时变时滞的移动机械臂避碰控制方法及装置
CN114415522B (zh) 一种履带车辆平台路径跟踪控制方法及系统
Koysuren et al. Online Parameter Estimation using Physics-Informed Deep Learning for Vehicle Stability Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant