CN112685835A - 车辆自主驾驶的弹性事件触发控制方法及系统 - Google Patents
车辆自主驾驶的弹性事件触发控制方法及系统 Download PDFInfo
- Publication number
- CN112685835A CN112685835A CN202011638550.8A CN202011638550A CN112685835A CN 112685835 A CN112685835 A CN 112685835A CN 202011638550 A CN202011638550 A CN 202011638550A CN 112685835 A CN112685835 A CN 112685835A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- event
- elastic
- control
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/80—Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
- Y02T10/84—Data processing systems or methods, management, administration
Landscapes
- Feedback Control In General (AREA)
Abstract
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种车辆自主驾驶的弹性事件触发控制方法及系统。
背景技术
随着物联网、人工智能(Artificial Intelligence,AI)和新能源技术的飞速发展,汽车智能的新时代悄然来临。自Alpha-Go算法在人机游戏中击败人类冠军之后,基于强化学习(Reinforcement Learning,RL)或自适应动态规划(Adaptive/ApproximateDynamic Programming,ADP)方法的AI技术最近引起了科学技术领域工程师和学者的关注。这是因为RL和ADP方法具有求解最优控制的能力,可以在稳定成本的同时最大化或最小化成本函数,这两种方法在自动驾驶汽车中得到了很好的应用,但其仍处于起步阶段,许多关键的控制问题在自动驾驶汽车上还远远不够完善。
一般来说,驾驶过程中的能量消耗是决定自动驾驶车辆主要性能的关键因素,车辆行驶过程中能量消耗小的控制方法一般分为两类:最优控制方法和事件触发控制方法。最优控制方法,给出性能指标的最大值或最小值,最优控制满足数学偏微分方程。事件触发控制方法可以降低驾驶过程中控制操作的成本,事件触发机制可以通过降低数据采样频率来优化控制成本。然而,基于最优性原理,最优控制满足数学偏微分方程,该方程难以用解析方法直接求解;基于事件触发机制,开发了许多事件驱动的结构和方法,但在这一阶段,没有根据事件采样过程进一步分析最优代价函数。
发明内容
本发明的目的在于克服现有技术存在的缺陷,解决车辆行驶过程中能量消耗的控制问题。
为实现以上目的,一方面,采用一种车辆自主驾驶的弹性事件触发控制方法,包括如下步骤:
S1、设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略,其中s(t)为自动驾驶系统的误差状态,表示V(s(t))对系统状态s(t)的偏导数,V★(s(t))是最优成本函数,tanh(·)为双曲正切函数,λ=diag(λ1,λ2)>0为控制饱和向量,λ1,λ2为两个输入的饱和值,R=diag(R1,R2)>0是正定矩阵,R1,R2是正常数,gT(s(t))表示输入动态方程,i为迭代次数,为总迭代次数;
S2、在时间t∈[zi,zi+1)时,对于事件触发弹性控制下的跟踪误差动态使用事件触发弹性最优控制策略,判断在任意时间t时的系统状态s(t)是否满足触发条件若是执行步骤S3,若否执行步骤S4,其中, ρmin(·)表示矩阵的最小特征值,为正常数,sT(t,zi)为事先由人工设计的触发阈值函数,表示由积分正定函数设计的效应函数,v为积分变量;
S3、将时间t∈[zi+1,zi+2)时的事件触发弹性最优控制策略更新为μ★(t,zi+1),以对自动驾驶系统进行控制;
S4、不更新状态;
S6、结束。
进一步地,在所述设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前,还包括:
通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。
进一步地,在所述设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前,还包括:
对自动驾驶车辆系统进行建模,包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程;
根据被控车辆的自由车身图和跟踪误差方程,构建不确定攻击信号下的跟踪误差动态其中||g(s(t))||≠0对所有s(t),u(t)=μ(t)+ur(t)+β(t)是实际运行在车辆上的系统输入,μ(t)表示弹性跟踪控制策略,ur(t)=[wr(t),vr(t)]T为参考策略,α(t)=[αx(t),αy(t),αθ(t)]T和β(t)=[β1(t),β2(t)]T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号,αx(t),αy(t),αθ(t),β1(t),β2(t)分别为系统状态和控制输入中相应的不确定信号,为车辆的部分动态方程,vr(t)是车辆的固定纵向速度,wr(t)是偏航角速度,θe(t)是航向误差;
进一步地,所述事件触发弹性最优控制策略的反馈控制参数的迭代学习过程还包括:
采用最小二乘法对策略评价的权值参数进行更新。
进一步地,所述常规运动学方程为:
其中,x(t)是在惯性参考系下车辆的质量中心的水平位置,y(t)是车辆的垂直位置,θ(t)是车辆的方向,vx(t)代表了车辆固定框架质心的纵向速度,wx(t)表示偏航角速度,dr是质量中心到汽车后轴的直接距离;
所述参考动力学方程根据期望参考轨迹由车辆的固定纵向速度vr(t)和偏航角速度wr(t)生成,所述参考动力学方程为:
其中,xr(t)、yr(t)、θr(t)分别表示期望的水平位置、垂直位置和车辆的方向;
另一方面,采用一种车辆自主驾驶的弹性事件触发控制系统,包括事件触发弹性最优控制策略设置模块、第一判断模块、第一执行模块、第二判断模块和第二执行模块,其中:
表示V(s(t))对系统状态s(t)的偏导数,V★(s(t))是最优成本函数,tanh(·)为双曲正切函数,λ=diag(λ1,λ2)>0为控制饱和向量,λ1,λ2为两个输入的饱和值,R=diag(R1,R2)>0是正定矩阵,R1,R2是正常数,gT(s(t))表示输入动态方程,i为迭代次数,为总迭代次数;
第一判断模块用于在时间t∈[zi,zi+1)时,对于事件触发弹性控制下的跟踪误差动态使用事件触发弹性最优控制策略,判断在任意时间t时的系统状态s(t)是否满足触发条件其中, ρmin(·)表示矩阵的最小特征值,为正常数,sT(t,zi)为事先由人工设计的触发阈值函数,表示由积分正定函数设计的效应函数,v为积分变量;
策略更新模块用于在第一判断模块输出结果为是时,将时间t∈[zi+1,zi+2)时的事件触发弹性最优控制策略更新为μ★(t,zi+1),以对自动驾驶系统进行控制,以及用于在第一判断模块输出结果为否时,不更新状态;
第二执行模块用于在第二判断模块输出结果为是时启动第一判断模块,以及用于在第二判断模块输出结果为否时结束对车辆的控制。
进一步地,还包括迭代模块,其用于通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。
进一步地,还包括跟踪误差动态计算模块,其包括建模单元、跟踪误差动态计算单元和误差动态改写单元;
建模单元用于对自动驾驶车辆系统进行建模,包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程;
跟踪误差动态计算单元用于根据被控车辆的自由车身图和跟踪误差方程,构建不确定攻击信号下的跟踪误差动态 其中||g(s(t))||≠0对所有s(t),u(t)=μ(t)+ur(t)+β(t)是实际运行在车辆上的系统输入,μ(t)表示弹性跟踪控制策略,ur(t)=[wr(t),vr(t)]T为参考策略,α(t)=[αx(t),αy(t),αθ(t)]T和β(t)=[β1(t),β2(t)]T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号,αx(t),αy(t),αθ(t),β1(t),β2(t)分别为系统状态和控制输入中相应的不确定信号,为车辆的部分动态方程,vr(t)是车辆的固定纵向速度,wr(t)是偏航角速度,θe(t)是航向误差;
另一方面,采用一种计算机可读存储设备,所述存储设备存储有计算机程序,所述计算机程序被执行时实现上述车辆自主驾驶的弹性事件触发控制方法。
与现有技术相比,本发明存在以下技术效果:本发明针对自动驾驶车辆开发了自适应弹性事件触发控制算法,有效平衡了行驶过程中调节车辆控制的频率/变化,结合事件触发采样机制和迭代单评判ADP框架,减少了驾驶控制过程的能量和资源消耗。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1为一种车辆自主驾驶的弹性事件触发控制方法的流程图;
图2为RWDA车辆的自由体图和跟踪轨迹示意图;
图3为在不确定的DoS攻击信号下的自动驾驶系统结构图;
图4为事件触发弹性最优控制机制的结构示意图;
图6为本发明两辆自动驾驶车辆行驶轨迹的X-Y图;
图7为本发明触发条件和采样周期的演变仿真图;
图8为本发明事件和时间驱动的车辆控制输入仿真图;
图9为不确定攻击信号下自动驾驶系统的跟踪误差轨迹仿真图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种车辆自主驾驶的弹性事件触发控制方法,包括如下步骤:
S1、设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略,其中s(t)为自动驾驶系统的误差状态,表示V(s(t))对系统状态s(t)的偏导数,V★(s(t))是最优成本函数,tanh(·)为双曲正切函数,λ=diag(λ1,λ2)>0为控制饱和向量,λ1,λ2为两个输入的饱和值,R=diag(R1,R2)>0是正定矩阵,R1,R2是正常数,gT(s(t))表示输入动态方程,i为迭代次数,为总迭代次数;
S2、在时间t∈[zi,zi+1)时,对于事件触发弹性控制下的跟踪误差动态使用事件触发弹性最优控制策略,判断在任意时间t时的系统状态s(t)是否满足触发条件若是执行步骤S3,若否执行步骤S4,其中, ρmin(·)表示矩阵的最小特征值,Q是效应函数,为正常数,是s(t)的一次求导,sT(t,zi)为事先由人工设计的触发阈值函数,表示由积分正定函数设计的效应函数,v为积分变量;
S3、将时间t∈[zi+1,zi+2)时的事件触发弹性最优控制策略更新为μ★(t,zi+1),以对自动驾驶系统进行控制;
S4、不更新状态;
S6、结束。
本实施例提出了事件触发弹性最优控制策略有效平衡了行驶过程中调节车辆控制的频率/变化:(a)在车辆的紧急跟踪阶段,误差状态s(t)是非常大的,而触发条件、更短的时间间隔和事件驱动的控制可以使车辆跟踪所需的参考速度更快。(b)在车辆的稳态跟踪阶段,误差状态s(t)可以在一段较小的范围内,从而在较长的时间间隔内触发条件,使控制可以保持不变,即车辆系统不需要改变操作。与传统的基于时间的驾驶方式相比,事件触发机制可以大大降低车辆物理运行中的能量和资源,而本实施例中通过特定的事件触发采样机制,通过采样间隔分析时间触发过程下的代价函数,可以在自动驾驶车辆的跟踪和方便之间取得很好的平衡。
进一步地,在结合事件触发采样机制和自适应动态规划方法,设计了本实施例给出的RWDA车辆的自适应弹性事件触发控制方法之前,还包括:(1)自动驾驶车辆系统的动态建模与自动驾驶中的弹性控制;(2)利用单评判ADP框架设计RWDA车辆的弹性控制方案,进行事件触发弹性控制与采样机构稳定性分析设计,分为具有饱和界的事件触发弹性最优控制和事件触发最优控制。
(1)自动驾驶车辆系统的动态建模与自动驾驶中的弹性控制:
(1-1)自动驾驶车辆系统的动态建模:
以典型的后轮驱动自主车为例,对自动驾驶车辆系统进行动态建模如下:
推导出自主车的常规运动学方程为:
其中,x(t)是在惯性参考系下车辆的质量中心的水平位置,y(t)是车辆的垂直位置,θ(t)是它的方向,分别是x(t)、y(t)、θ(t)的一次导数,vx(t)代表了车辆固定框架质心的纵向速度,wx(t)表示质心处惯性参考系下的实际坐标系下的偏航角速度(绕Z轴,垂直于X-Y平面),dr是质量中心到汽车后轴的直接距离。
为使RWDA车辆遵循期望轨迹,假设期望参考轨迹由车辆的固定纵向速度vr(t)和偏航角速度wr(t)生成,参考动力学可表示为:
在车辆的局部坐标系中,我们定义水平位置误差为xe(t),垂直位置误差为ye(t),航向误差为θe(t),则车辆在自动驾驶过程中的跟踪误差方程为:
(1-2)自动驾驶中的弹性控制:
如图2所示,给出了RWDA车辆的自由体图和跟踪轨迹,其中各车轮上的反作用力在其中轴处相加,并给出了参考路径,根据被控车辆的自由车身图和跟踪误差方程,给出不确定攻击信号下的跟踪误差动力学方程如下:
对于标称RWDA车辆系统,跟踪误差动态可推导为:
其中:
s(t)=[xe(t),ye(t),θe(t)]T;
wr(t)是期望的参考轨迹下的偏航角速度,对跟踪误差动态方程(4)的证明如下:
其次,对于跟踪误差ye,存在:
最后,根据方程(1)和方程(2)的动力学特性,可以直接推导出跟踪误差动态微分方程θe(t):
因此有:
在自主驾驶和运行过程中,RWDA车辆的跟踪误差动态(4)通常受到不确定的攻击信号,其中DoS攻击通过通信网络注入跟踪动态,信号流如图3所示。
因此,RWDA车辆的通用自动驾驶系统可以改写为:
其中,||g(s(t))||≠0对所有s(t),u(t)=μ(t)+ur(t)+β(t)是实际运行在车辆上的系统输入,μ(t)表示事件触发弹性最优控制策略,ur(t)=[wr(t),vr(t)]T为参考策略,α(t)=[αx(t),αy(t),αθ(t)]T和β(t)=[β1(t),β2(t)]T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号。
在跟踪驾驶过程中,采用参考策略ur(t)保持车辆给定的跟踪轨迹,采用事件触发弹性最优控制策略μ★(t,zi)减少跟踪误差,克服不确定性信号。
需要说明的是,本实施例中假设传感器和执行器攻击信号是状态相关的,对所有t≥0,可以将其参数化为和 和W(t)是未知的时变矩阵,满足||W(t)||2≤b2,常数b1,b2>0,是一个未知且有界的非线性函数。
(2)为了稳定DoS攻击下的跟踪误差动态(10),利用单评判ADP框架设计了RWDA车辆的弹性控制方案,分为具有饱和界的事件触发弹性最优控制和事件触发最优控制:
(2-1)具有饱和界的事件触发弹性最优控制:
针对RWDA车辆的跟踪误差动力学问题,考虑了通信网络中的不确定攻击信号,进一步将跟踪误差动态(10)改写为:
如上所述,参考策略ur(t)是根据期望的参考来给出的,在驱动系统中通常将期望的参考设置为期望的参考。此外,在传统的跟踪控制问题中,将弹性跟踪控制策略μ(t)设计为一种事件驱动的反馈控制策略,给出了一种新的事件触发跟踪控制方案:
通过这种方式,将事件触发反馈控制设计为时刻t∈[zi,zi+1)的μ(t,zi)=μ(t,s(zi)),其中s(zi)为时刻zi的状态,零阶保持器可以使控制在时刻zi的每个时刻保持连续。
设系统状态s(t)为事件触发状态,则根据事件触发机制,定义事件触发条件如下:
其中,zi为t时刻的最新触发时刻,sT(t,zi)为触发阈值。事件触发状态满足:
s(t)=s(zi)-e(t) (13)
定义系统动态(11)的无穷域积分性能指标:
其中,μ(t,zi)=[μ1(t,zi),μ2(t,zi)]T是RWDA车辆的控制矢量,λ=diag(λ1,λ2)>0为控制向量,tanh-T(·)=[tanh-1(·)]T,v=[v1,v2]T,R=diag(R1,R2)>0是正定矩阵。
将系统(11)的状态反馈控制策略μ(t,zi)称为一个容许弹性控制,如果控制μ(t,zi)基于事件触发更新机制,能稳定系统动态到它的稳定点,并能使无穷域积分性能指标J(s(0))对于任何初始状态s(0)有界。
利用容许事件触发弹性控制,得到[t,+∞)中的代价函数为:
其中,时间t∈[zi,zi+1)。
为了计算最优控制,可以得到哈密顿函数为:
其满足下面的HJB方程:
注意,在一般的时间驱动最优控制中,HJB方程需要一直保持成立,控制策略μ(t)随着时间的变化而调整:随着系统状态s(t)进行同步。在事件驱动最优控制中,控制策略只在某个触发时刻更新,但系统的状态和动态是实时更新的。那么,在特定的事件触发采样机制下,只需要在每个触发瞬间保持HJB方程。
引理1:通过在成本函数中使用被积函数U(μ(τ,zi)),事件驱动的弹性最优控制在任何时间t∈[zi,zi+1)可以得到形式:
证明:根据贝尔曼最优性原理,对HJB式(19)在t=zi时刻对控制进行求导,有:
这表明:
因此,事件触发弹性最优控制可计算为:
那么,在t时刻的最优代价函数可以进一步表示为:
(2-2)事件触发最优控制设计及稳定性分析:
基于事件触发采样机制,将开发驱动RWDA车辆跟踪所需参考轨迹的事件触发最优控制策略μ★(t,zi)。事件触发弹性最优控制体系结构如图4所示,事件触发条件设计如下:
引理2。设μ★(s(t))为t时刻最优状态反馈控制策略:
证明:考虑连续、单调且有界的双曲正切函数tanh(·),其导数满足tanh′(·)=1-tanh2(·)。因此,根据双曲正切函数的性质,存在
证明。首先,我们考虑带有事件触发机构(26)的车辆跟踪误差动态。
让我们选择带有事件触发弹性最优控制μ★(t,zi)的代价函数V★(s(t))作为李雅普诺夫函数,计算其关于时间的导数有:
如前所述,当使用时间驱动最优控制μ★(t)时,HJB方程始终成立,因此,有:
将HJB方程(28)插入式(27)中,由引理2可知:
其次,我们证明了在车辆控制过程中严格排除了齐诺行为。
反证法。假设汽车发生了齐诺行为。此外,在不丧失一般性的前提下,假设跟踪系统(11)表现出齐诺行为。然后,有一个有限的时间T>0,使zi≤T和要制造矛盾,我们首先要发现对于任何有一个正整数εi>0,使得zi+εi≤zi+1。考虑函数(29),当事件被触发时:
当时刻t=zi时,得到||s(t)-s(zi)||=0(项sT(t,zi)被强制为0),误差状态s(t)变化下降为
之后,随着误差s(t)的变化,当时间t∈[zi,zi+1),有:
说明在时间区间t∈[zi,zi+1)内从0增加到||g(t)||2+U(μ★(t))+ρmin(Q)||s(t)||2>0再次触发条件(26)。我们知道,有一项,||g(t)||≥1>0;因此,必须存在一个时间间隔εi>0,使得zi+εi≤zi+1。因此,这与T是有限时间矛盾。
进一步地,在上述步骤S1:在所述设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前,还包括:
通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。
首先,基于高阶逼近定理设计了单评判网络来逼近最优代价函数,以获得控制参数:
其中是权向量,n是激活函数的数量,为独立的激活函数向量,ε(t)为近似误差,满足||ε(t)||≤εc,当激活函数数目n足够大时,εc可以是任意小的正常数。根据逼近定理,可以保证当n→∞时,使ε(t)→0。此外,在单网络框架中,还使用网络来调整控制策略。让V(k)(s(t))=w(k)TΦ(s(t))作为V★(s(t))的k次近似值对应的权重向量的转置。
进一步地,所述事件触发弹性最优控制策略的反馈控制参数的迭代学习过程还包括:
采用最小二乘法更新策略评价的权值参数为:
接下来,假设选择的激活函数n足够大,我们将用下面的定理对自适应弹性事件触发算法所示的学习过程进行收敛性分析:
定理3。假设控制策略μ(k)(t)更新根据方程(34),通过求解方程(33)获得成本函数V(k)(s(t)),其边界条件V(k)(0)=0,其中0为零向量,k=0,1,…,和最优成本函数V★(s(t))≥0在有效域Ω(s)上是平滑的。然后,序列{V(k)(s(t)),k=0,1,…}是单调非递增的,即V★(s(t))≤V(k+1)(s(t))≤V(k)(s(t))对所有s(t)∈Ω(s)。
通过使用优化控制μ(k)(t):
此外:
当k→+∞对于任意状态s(t)∈Ω(s)。
根据策略评价方程,有:
和
使得公式(37)变为:
根据定义(15),利用式(34),可以得到:
可以进一步导出为:
根据第一积分中值定理,有:
V(k+1)(s(t))-V(k)(s(t))≤0 (43)
根据最优成本函数的定义,有:
V★(s(t))≤V(k+1)(s(t))≤V(k)(s(t)) (44)
对于任意状态s(t)∈Ω(s),表示序列{V(k)(s(t)),k=0,1,…}是单调无递增的。
其次,由于Ω(s)是一个紧集,根据迪尼定理,单调非递增序列{V(k)(s(t)),k=0,1,…},将一致点态收敛到最优代价函数V★(s(t)),即随着k→+∞,V(k)(s(t))→V★(s(t))。
最后,由最优代价函数可知,在迭代学习过程中,控制序列{μ(k)(t),k=0,1,…}随着k→+∞时,一致收敛为μ(k)(s(t))→μ★(s(t))。
另一实施例公开了一种车辆自主驾驶的弹性事件触发控制系统,包括事件触发弹性最优控制策略设置模块、第一判断模块、第一执行模块、第二判断模块和第二执行模块,其中:
事件触发弹性最优控制策略设置模块用于设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略,其中s(t)为自动驾驶系统状态,表示V(s(t))对系统状态s(t)的偏导数,V★(s(t))是最优成本函数,tanh(·)为双曲正切函数,λ=diag(λ1,λ2)>0为控制饱和向量,λ1,λ2为两个输入的饱和值,R=diag(R1,R2)>0是正定矩阵,R1,R2是正常数,gT(s(t))表示输入动态方程,i为迭代次数,为总迭代次数;
第一判断模块用于在时间t∈[zi,zi+1)时,对于事件触发弹性控制下的跟踪误差动态使用事件触发弹性最优控制策略,判断在任意时间t时的系统状态s(t)是否满足触发条件其中, ρmin(·)表示矩阵的最小特征值,为正常数,sT(t,zi)为事先由人工设计的触发阈值函数,表示由积分正定函数设计的效应函数,v为积分变量;
策略更新模块用于在第一判断模块输出结果为是时,将时间t∈[zi+1,zi+2)时的事件触发弹性最优控制策略更新为μ★(t,zi+1),以对自动驾驶系统进行控制,以及用于在第一判断模块输出结果为否时,不更新状态;
第二执行模块用于在第二判断模块输出结果为是时启动第一判断模块,以及用于在第二判断模块输出结果为否时结束对车辆的控制。
进一步地,还包括迭代模块,其用于通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。
进一步地,还包括跟踪误差动态计算模块,其包括建模单元、跟踪误差动态计算单元和误差动态改写单元;
建模单元用于对自动驾驶车辆系统进行建模,包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程;
跟踪误差动态计算单元用于根据被控车辆的自由车身图和跟踪误差方程,构建不确定攻击信号下的跟踪误差动态 其中||g(s(t))||≠0对所有s(t),u(t)=μ(t)+ur(t)+β(t)是实际运行在车辆上的系统输入,μ(t)表示弹性跟踪控制策略,ur(t)=[wr(t),vr(t)]T为参考策略,α(t)=[αx(t),αy(t),αθ(t)]T和β(t)=[β1(t),β2(t)]T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号,αx(t),αy(t),αθ(t),β1(t),β2(t)分别为系统状态和控制输入中相应的不确定信号,为车辆的部分动态方程,vr(t)是车辆的固定纵向速度,wr(t)是偏航角速度,θe(t)是航向误差;
本实施例还另外公开了一种计算机可读存储设备,所述存储设备存储有计算机程序,所述计算机程序被执行时实现上述车辆自主驾驶的弹性事件触发控制方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
下面进行仿真示例。
将我们的方法应用到一个模拟的自动驾驶系统(10)的车辆,其中给定RWDA车辆的动态函数成为:
其中:
s(t)=[xe(t),ye(t),θe(t)]T,
σ(t)=α(t)+g(t)β(t),dr=1.2(m)为车辆质心到后轴的直接距离,λ=diag(λ1,λ2)>0为控制向量的饱和界矩阵,λ1=λ2=2,进行传感器攻击的不确定信号为α(t)=-(0.75+0.15sin(2.5t)),t≥0,执行器攻击的信号β(t)=[1,1]T0.005cos(2.5t)+[0.1cos(2t),0.5sin(t)]T0.2sin(xe(t))cos(ye(t)),t≥0。
选择期望参考轨迹的初始系统状态为[xr(0),yr(0),θr(0)]T=[0,0,0]T,选择参考控制策略ur(t)中所要求的纵向速度和偏航角速度为vr(t)=0.5(m/s),wr(t)=0(rad/s)。代价函数(23)中的参数取γ=2,效用函数中的正定矩阵为Q=diag(20,20,20)和R=diag(1,1)。选取近似代价函数的神经网络中的激活函数向量为: 初始的权值向量为然后,权值向量的演化如图5所示,其中参数在学习过程中收敛。
验证所设计的弹性事件触发控制方案的有效性,我们模拟两个RWDA车辆自主驾驶系统在不同初始系统状态,选择两辆车的初始状态为[-1.2,1.2,0.5]T和[1.2,-1.2,-0.5]T。驾驶轨迹的X-Y图如图6所示,在图中我们发现,尽管执行器和传感器出现不确定攻击信号,但在提出的事件触发控制方法下,两辆自动驾驶车辆被驱动接近期望轨迹。
此外,图6还展示了设计的事件触发控制的优势,采样机制相应的事件触发演化过程如图7所示,其中触发函数和sT(t,zi)由条件(26)给出。设计算法的采样周期如图6所示,显示了每个采样瞬间,当触发事件(26)时,触发函数sT(t,zi)将按要求被强制为零。
考虑事件触发控制策略,该策略是根据事件触发条件(26)和获得的权向量参数确定的。图8显示了自动驾驶车辆在驾驶过程中接收到的事件驱动控制输入,其中包含事件驱动弹性跟踪控制策略μ(t,zi)和参考策略ur(t)。当参考策略为ur(t)=[0,0.5]T时,对得到的车辆控制输入进行约束,并在所有时间内满足饱和约束条件u1(t,zi)∈[-2,2]和u2(t,zi)∈[-1.5,2.5]。此外,事件触发控制轨迹和时间驱动控制轨迹的对比也在图8中清晰地展示出来,在车辆运行过程中,采用设计的事件触发方法的车辆控制变化/调整时间比时间驱动方法要小得多。
此外,第一辆车的跟踪误差轨迹呈现在图9中,可以发现,自主驾驶系统在提出了弹性预测的跟踪控制下,虽然有不确定攻击发生在执行器和传感器信号,跟踪误差很快接近零的附近邻域,证明了该设计方法的有效性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种车辆自主驾驶的弹性事件触发控制方法,其特征在于,包括:
S1、设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略,其中s(t)为自动驾驶系统的误差状态,表示V(s(t))对系统状态s(t)的偏导数,V★(s(t))是最优成本函数,tanh(·)为双曲正切函数,λ=diag(λ1,λ2)>0为控制饱和向量,λ1,λ2为两个输入的饱和值,R=diag(R1,R2)>0是正定矩阵,R1,R2是正常数,gT(s(t))表示输入动态方程,i为迭代次数,为总迭代次数;
S2、在时间t∈[zi,zi+1)时,对于事件触发弹性控制下的跟踪误差动态使用事件触发弹性最优控制策略,判断在任意时间t时的系统状态s(t)是否满足触发条件若是执行步骤S3,若否执行步骤S4,其中, ρmin(·)表示矩阵的最小特征值,Q是成本函数中给定的正定矩阵,为正常数,sT(t,zi)为事先由人工设计的触发阈值函数,表示由积分正定函数设计的效应函数,v为积分变量;
S3、将时间t∈[zi+1,zi+2)时的事件触发弹性最优控制策略更新为μ★(t,zi+1),以对自动驾驶系统进行控制;
S4、不更新状态;
S6、结束。
2.如权利要求1所述的车辆自主驾驶的弹性事件触发控制方法,其特征在于,在所述设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前,还包括:
通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。
3.如权利要求1所述的车辆自主驾驶的弹性事件触发控制方法,其特征在于,在所述设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前,还包括:
对自动驾驶车辆系统进行建模,包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程;
根据被控车辆的自由车身图和跟踪误差方程,构建不确定攻击信号下的跟踪误差动态其中||g(s(t))||≠0对所有s(t),u(t)=μ(t)+ur(t)+β(t)是实际运行在车辆上的系统输入,μ(t)表示弹性跟踪控制策略,ur(t)=[wr(t),vr(t)]T为参考策略,α(t)=[αx(t),αy(t),αθ(t)]T和β(t)=[β1(t),β2(t)]T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号,αx(t),αy(t),αθ(t),β1(t),β2(t)分别为系统状态和控制输入中相应的不确定信号,为车辆的部分动态方程,vr(t)是车辆的固定纵向速度,wr(t)是偏航角速度,θe(t)是航向误差;
4.如权利要求2所述的车辆自主驾驶的弹性事件触发控制方法,其特征在于,所述事件触发弹性最优控制策略的反馈控制参数的迭代学习过程还包括:
采用最小二乘法对策略评价的权值参数进行更新。
5.如权利要求3所述的车辆自主驾驶的弹性事件触发控制方法,其特征在于,所述车辆的常规运动学方程为:其中,x(t)是在惯性参考系下车辆的质量中心的水平位置,y(t)是车辆的垂直位置,Θ(t)是车辆的方向,vx(t)代表了车辆固定框架质心的纵向速度,wx(t)表示偏航角速度,dr是质量中心到汽车后轴的直接距离;
所述参考动力学方程根据期望参考轨迹由车辆的固定纵向速度vr(t)和偏航角速度wr(t)生成,所述参考动力学方程为:
其中,xr(t)、yr(t)、θr(t)分别表示期望的水平位置、垂直位置和车辆的方向;
6.一种车辆自主驾驶的弹性事件触发控制系统,其特征在于,包括事件触发弹性最优控制策略设置模块、第一判断模块、第一执行模块、第二判断模块和第二执行模块,其中:
事件触发弹性最优控制策略设置模块用于设置μ★(t,zi)为自动驾驶系统在t时刻的事件触发弹性最优控制策略,其中s(t)为自动驾驶系统状态,表示V(s(t))对系统状态s(t)的偏导数,V★(s(t))是最优成本函数,tanh(·)为双曲正切函数,λ=diag(λ1,λ2)>0为控制饱和向量,λ1,λ2为两个输入的饱和值,R=diag(R1,R2)>0是正定矩阵,R1,R2是正常数,gT(s(t))表示输入动态方程,i为迭代次数,为总迭代次数;
第一判断模块用于在时间t∈[zi,zi+1)时,对于事件触发弹性控制下的跟踪误差动态使用事件触发弹性最优控制策略,判断在任意时间t时的系统状态s(t)是否满足触发条件其中, 表示矩阵的最小特征值,为正常数,sT(t,zi)为事先由人工设计的触发阈值函数,表示由积分正定函数设计的效应函数,v为积分变量;
策略更新模块用于在第一判断模块输出结果为是时,将时间t∈[zi+1,zi+2)时的事件触发弹性最优控制策略更新为μ★(t,zi+1),以对自动驾驶系统进行控制,以及用于在第一判断模块输出结果为否时,不更新状态;
第二执行模块用于在第二判断模块输出结果为是时启动第一判断模块,以及用于在第二判断模块输出结果为否时结束对车辆的控制。
7.如权利要求6所述的车辆自主驾驶的弹性事件触发控制系统,其特征在于,还包括迭代模块,其用于通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。
8.如权利要求6所述的车辆自主驾驶的弹性事件触发控制系统,其特征在于,还包括跟踪误差动态计算模块,其包括建模单元、跟踪误差动态计算单元和误差动态改写单元;
建模单元用于对自动驾驶车辆系统进行建模,包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程;
跟踪误差动态计算单元用于根据被控车辆的自由车身图和跟踪误差方程,构建不确定攻击信号下的跟踪误差动态 其中||g(s(t))||≠0对所有s(t),u(t)=μ(t)+ur(t)+β(t)是实际运行在车辆上的系统输入,μ(t)表示弹性跟踪控制策略,ur(t)=[wr(t),vr(t)]T为参考策略,α(t)=[αx(t),αy(t),αθ(t)]T和β(t)=[β1(t),β2(t)]T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号,αx(t),αy(t),αθ(t),β1(t),β2(t)分别为系统状态和控制输入中相应的不确定信号,为车辆的部分动态方程,vr(t)是车辆的固定纵向速度,wr(t)是偏航角速度,θe(t)是航向误差;
9.一种计算机可读存储设备,所述存储设备存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1~5任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638550.8A CN112685835B (zh) | 2020-12-31 | 2020-12-31 | 车辆自主驾驶的弹性事件触发控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638550.8A CN112685835B (zh) | 2020-12-31 | 2020-12-31 | 车辆自主驾驶的弹性事件触发控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112685835A true CN112685835A (zh) | 2021-04-20 |
CN112685835B CN112685835B (zh) | 2022-08-19 |
Family
ID=75456554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011638550.8A Active CN112685835B (zh) | 2020-12-31 | 2020-12-31 | 车辆自主驾驶的弹性事件触发控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685835B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113759979A (zh) * | 2021-09-23 | 2021-12-07 | 天津大学 | 基于事件驱动的无人机吊挂系统在线轨迹规划方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669479A (zh) * | 2018-10-22 | 2019-04-23 | 安徽大学 | 一种基于事件触发的移动机器人轨迹跟踪控制方法 |
CN110162046A (zh) * | 2019-05-21 | 2019-08-23 | 同济人工智能研究院(苏州)有限公司 | 基于事件触发型模型预测控制的无人车路径跟随方法 |
CN111708277A (zh) * | 2020-05-29 | 2020-09-25 | 中国科学技术大学 | 一种自适应时域的事件触发模型预测控制方法 |
CN111812973A (zh) * | 2020-05-21 | 2020-10-23 | 天津大学 | 一种离散时间非线性系统的事件触发优化控制方法 |
-
2020
- 2020-12-31 CN CN202011638550.8A patent/CN112685835B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669479A (zh) * | 2018-10-22 | 2019-04-23 | 安徽大学 | 一种基于事件触发的移动机器人轨迹跟踪控制方法 |
CN110162046A (zh) * | 2019-05-21 | 2019-08-23 | 同济人工智能研究院(苏州)有限公司 | 基于事件触发型模型预测控制的无人车路径跟随方法 |
CN111812973A (zh) * | 2020-05-21 | 2020-10-23 | 天津大学 | 一种离散时间非线性系统的事件触发优化控制方法 |
CN111708277A (zh) * | 2020-05-29 | 2020-09-25 | 中国科学技术大学 | 一种自适应时域的事件触发模型预测控制方法 |
Non-Patent Citations (7)
Title |
---|
AMIR AMINI等: "Resilient Event-Triggered Consensus with Exponential Convergence in Multi-agent Systems", 《2018 ANNUAL AMERICAN CONTROL CONFERENCE (ACC)》 * |
HUANHUAN YUAN等: "Resilient strategy design for cyber-physical system under DoS attack over a multi-channel framework", 《INFORMATION SCIENCES》 * |
KUN ZHANG等: "Near-Optimal Output Tracking Controller Design for Nonlinear Systems Using an Event-Driven ADP Approach", 《NEUROCOMPUTING》 * |
LU DONG等: "Event-Triggered Adaptive Dynamic Programming for Continuous-Time Systems With Control Constraints", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
VIGNESH NARAYANAN等: "Event-Driven Off-Policy Reinforcement Learning for Control of Interconnected Systems", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
刘等: "网络随机系统的最优事件触发控制", 《电光与控制》 * |
董璐: "基于事件触发自适应动态规划的最优控制方法研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113759979A (zh) * | 2021-09-23 | 2021-12-07 | 天津大学 | 基于事件驱动的无人机吊挂系统在线轨迹规划方法 |
CN113759979B (zh) * | 2021-09-23 | 2023-11-21 | 天津大学 | 基于事件驱动的无人机吊挂系统在线轨迹规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112685835B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112698572B (zh) | 一种基于强化学习的结构振动控制方法、介质及设备 | |
CN110347155B (zh) | 一种智能车辆自动驾驶控制方法及系统 | |
CN103336435B (zh) | 微陀螺仪基于角速度估计的自适应模糊滑模控制方法 | |
CN111812973B (zh) | 一种离散时间非线性系统的事件触发优化控制方法 | |
Shou et al. | Finite‐time formation control and obstacle avoidance of multi‐agent system with application | |
CN112506045A (zh) | 非标准型离散时间非线性系统的自适应控制方法及系统 | |
Shao et al. | Input-and-measurement event-triggered control for flexible air-breathing hypersonic vehicles with asymmetric partial-state constraints | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
CN112685835B (zh) | 车辆自主驾驶的弹性事件触发控制方法及系统 | |
Shao et al. | Low-frequency learning quantized control for MEMS gyroscopes accounting for full-state constraints | |
Dang et al. | Event-triggered model predictive control with deep reinforcement learning for autonomous driving | |
Liu et al. | Antisaturation fixed-time attitude tracking control based low-computation learning for uncertain quadrotor UAVs with external disturbances | |
Mon et al. | Hierarchical fuzzy sliding-mode control | |
An et al. | Neural adaptive control of air-breathing hypersonic vehicles robust to actuator dynamics | |
Kim et al. | TOAST: Trajectory Optimization and Simultaneous Tracking Using Shared Neural Network Dynamics | |
Zhang et al. | Adaptive event based predictive lateral following control for unmanned ground vehicle system | |
Song et al. | Adaptive dynamic event-triggered control for constrained modular reconfigurable robot | |
Piccinini et al. | A physics-driven artificial agent for online time-optimal vehicle motion planning and control | |
CN113022247A (zh) | 主动车辆悬架系统自适应固定时间事件触发模糊控制方法 | |
Fu et al. | Adaptive optimal control of unknown nonlinear systems with different time scales | |
Shi et al. | Neural adaptive appointed-time control for flexible air-breathing hypersonic vehicles: an event-triggered case | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
CN114200830B (zh) | 一种多智能体一致性强化学习控制方法 | |
CN114779641A (zh) | 基于新航向误差定义的环境自适应mpc路径追踪控制方法 | |
CN114545979B (zh) | 一种基于强化学习的飞行器智能滑模编队控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |