CN112685835A

CN112685835A - 车辆自主驾驶的弹性事件触发控制方法及系统

Info

Publication number: CN112685835A
Application number: CN202011638550.8A
Authority: CN
Inventors: 张纪峰; 张坤; 康宇; 赵延龙; 吕文君
Original assignee: University of Science and Technology of China USTC; Academy of Mathematics and Systems Science of CAS
Current assignee: University of Science and Technology of China USTC; Academy of Mathematics and Systems Science of CAS
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-20
Anticipated expiration: 2040-12-31
Also published as: CN112685835B

Abstract

本发明公开了一种车辆自主驾驶的弹性事件触发控制方法及系统，属于计算机应用技术领域，包括：设置μ^★(t，z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略；在时间t∈[z_i，z_i+1)时，对于事件触发弹性控制下的跟踪误差动态

使用事件触发弹性最优控制策略μ^★(t，z_i)进行跟踪控制；在触发瞬间t＝z_i+1时，系统状态s(t)满足触发条件，此时将事件触发弹性最优控制策略更新为μ^★(t，z_i+1)，以对自动驾驶系统进行控制。本发明针对自动驾驶车辆开发的自适应弹性事件触发控制算法，有效平衡了行驶过程中调节车辆控制的频率/变化。

Description

车辆自主驾驶的弹性事件触发控制方法及系统

技术领域

本发明涉及计算机应用技术领域，特别涉及一种车辆自主驾驶的弹性事件触发控制方法及系统。

背景技术

随着物联网、人工智能(Artificial Intelligence，AI)和新能源技术的飞速发展，汽车智能的新时代悄然来临。自Alpha-Go算法在人机游戏中击败人类冠军之后，基于强化学习(Reinforcement Learning，RL)或自适应动态规划(Adaptive/ApproximateDynamic Programming，ADP)方法的AI技术最近引起了科学技术领域工程师和学者的关注。这是因为RL和ADP方法具有求解最优控制的能力，可以在稳定成本的同时最大化或最小化成本函数，这两种方法在自动驾驶汽车中得到了很好的应用，但其仍处于起步阶段，许多关键的控制问题在自动驾驶汽车上还远远不够完善。

一般来说，驾驶过程中的能量消耗是决定自动驾驶车辆主要性能的关键因素，车辆行驶过程中能量消耗小的控制方法一般分为两类：最优控制方法和事件触发控制方法。最优控制方法，给出性能指标的最大值或最小值，最优控制满足数学偏微分方程。事件触发控制方法可以降低驾驶过程中控制操作的成本，事件触发机制可以通过降低数据采样频率来优化控制成本。然而，基于最优性原理，最优控制满足数学偏微分方程，该方程难以用解析方法直接求解；基于事件触发机制，开发了许多事件驱动的结构和方法，但在这一阶段，没有根据事件采样过程进一步分析最优代价函数。

发明内容

本发明的目的在于克服现有技术存在的缺陷，解决车辆行驶过程中能量消耗的控制问题。

为实现以上目的，一方面，采用一种车辆自主驾驶的弹性事件触发控制方法，包括如下步骤：

S1、设置μ^★(t,z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略，其中

s(t)为自动驾驶系统的误差状态，

表示V(s(t))对系统状态s(t)的偏导数，V^★(s(t))是最优成本函数，tanh(·)为双曲正切函数，λ＝diag(λ₁,λ₂)>0为控制饱和向量，λ₁，λ₂为两个输入的饱和值，R＝diag(R₁,R₂)>0是正定矩阵，R₁,R₂是正常数，g^T(s(t))表示输入动态方程，

i为迭代次数，

为总迭代次数；

S2、在时间t∈[z_i,z_i+1)时，对于事件触发弹性控制下的跟踪误差动态

使用事件触发弹性最优控制策略，判断在任意时间t时的系统状态s(t)是否满足触发条件

若是执行步骤S3，若否执行步骤S4，其中，

ρ_min(·)表示矩阵的最小特征值，

为正常数，s_T(t,z_i)为事先由人工设计的触发阈值函数，

表示由积分正定函数设计的效应函数，v为积分变量；

S3、将时间t∈[z_i+1,z_i+2)时的事件触发弹性最优控制策略更新为μ^★(t,z_i+1)，以对自动驾驶系统进行控制；

S4、不更新状态；

S5、设置i＝i+1，并判断是否满足

若是则执行步骤S2，若否则执行步骤S6；

S6、结束。

进一步地，在所述设置μ^★(t,z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前，还包括：

通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。

对自动驾驶车辆系统进行建模，包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程；

根据被控车辆的自由车身图和跟踪误差方程，构建不确定攻击信号下的跟踪误差动态

其中||g(s(t))||≠0对所有s(t)，u(t)＝μ(t)+u_r(t)+β(t)是实际运行在车辆上的系统输入，μ(t)表示弹性跟踪控制策略，u_r(t)＝[w_r(t),v_r(t)]^T为参考策略，α(t)＝[α_x(t),α_y(t),α_θ(t)]^T和β(t)＝[β₁(t),β₂(t)]^T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号，α_x(t),α_y(t),α_θ(t),β₁(t),β₂(t)分别为系统状态和控制输入中相应的不确定信号，

为车辆的部分动态方程，v_r(t)是车辆的固定纵向速度，w_r(t)是偏航角速度，θ_e(t)是航向误差；

将跟踪误差动态

的形式改写为

其中

为期望动态部分，σ(t)＝α(t)+g(t)β(t)为总体攻击信号。

进一步地，所述事件触发弹性最优控制策略的反馈控制参数的迭代学习过程还包括：

采用最小二乘法对策略评价的权值参数进行更新。

进一步地，所述常规运动学方程为：

其中，x(t)是在惯性参考系下车辆的质量中心的水平位置，y(t)是车辆的垂直位置，θ(t)是车辆的方向，v_x(t)代表了车辆固定框架质心的纵向速度，w_x(t)表示偏航角速度，d_r是质量中心到汽车后轴的直接距离；

所述参考动力学方程根据期望参考轨迹由车辆的固定纵向速度v_r(t)和偏航角速度w_r(t)生成，所述参考动力学方程为：

其中，x_r(t)、y_r(t)、θ_r(t)分别表示期望的水平位置、垂直位置和车辆的方向；

所述跟踪误差方程为

其中，水平位置误差为x_e(t)，垂直位置误差为y_e(t)，航向误差为θ_e(t)。

另一方面，采用一种车辆自主驾驶的弹性事件触发控制系统，包括事件触发弹性最优控制策略设置模块、第一判断模块、第一执行模块、第二判断模块和第二执行模块，其中：

事件触发弹性最优控制策略设置模块用于设置μ^★(t,z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略，其中

s(t)为自动驾驶系统状态，

表示V(s(t))对系统状态s(t)的偏导数，V^★(s(t))是最优成本函数，tanh(·)为双曲正切函数，λ＝diag(λ₁,λ₂)>0为控制饱和向量，λ₁,λ₂为两个输入的饱和值，R＝diag(R₁,R₂)>0是正定矩阵，R₁,R₂是正常数，g^T(s(t))表示输入动态方程，

i为迭代次数，

为总迭代次数；

第一判断模块用于在时间t∈[z_i,z_i+1)时，对于事件触发弹性控制下的跟踪误差动态

其中，

ρ_min(·)表示矩阵的最小特征值，

为正常数，s_T(t,z_i)为事先由人工设计的触发阈值函数，

表示由积分正定函数设计的效应函数，v为积分变量；

策略更新模块用于在第一判断模块输出结果为是时，将时间t∈[z_i+1,z_i+2)时的事件触发弹性最优控制策略更新为μ^★(t,z_i+1)，以对自动驾驶系统进行控制，以及用于在第一判断模块输出结果为否时，不更新状态；

第二判断模块用于设置i＝i+1，并判断是否满足

第二执行模块用于在第二判断模块输出结果为是时启动第一判断模块，以及用于在第二判断模块输出结果为否时结束对车辆的控制。

进一步地，还包括迭代模块，其用于通过迭代学习得到所述事件触发弹性最优控制策略的反馈控制参数。

进一步地，还包括跟踪误差动态计算模块，其包括建模单元、跟踪误差动态计算单元和误差动态改写单元；

建模单元用于对自动驾驶车辆系统进行建模，包括构建车辆的常规运动学方程、参考动力学方程和跟踪误差方程；

跟踪误差动态计算单元用于根据被控车辆的自由车身图和跟踪误差方程，构建不确定攻击信号下的跟踪误差动态

误差动态改写单元用于将跟踪误差动态

的形式改写为

其中

为期望动态部分，σ(t)＝α(t)+g(t)β(t)为总体攻击信号。

另一方面，采用一种计算机可读存储设备，所述存储设备存储有计算机程序，所述计算机程序被执行时实现上述车辆自主驾驶的弹性事件触发控制方法。

与现有技术相比，本发明存在以下技术效果：本发明针对自动驾驶车辆开发了自适应弹性事件触发控制算法，有效平衡了行驶过程中调节车辆控制的频率/变化，结合事件触发采样机制和迭代单评判ADP框架，减少了驾驶控制过程的能量和资源消耗。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1为一种车辆自主驾驶的弹性事件触发控制方法的流程图；

图2为RWDA车辆的自由体图和跟踪轨迹示意图；

图3为在不确定的DoS攻击信号下的自动驾驶系统结构图；

图4为事件触发弹性最优控制机制的结构示意图；

图5为本发明权向量

中参数的演化的仿真图；

图6为本发明两辆自动驾驶车辆行驶轨迹的X-Y图；

图7为本发明触发条件和采样周期的演变仿真图；

图8为本发明事件和时间驱动的车辆控制输入仿真图；

图9为不确定攻击信号下自动驾驶系统的跟踪误差轨迹仿真图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种车辆自主驾驶的弹性事件触发控制方法，包括如下步骤：

s(t)为自动驾驶系统的误差状态，

i为迭代次数，

为总迭代次数；

若是执行步骤S3，若否执行步骤S4，其中，

ρ_min(·)表示矩阵的最小特征值，Q是效应函数，

为正常数，

是s(t)的一次求导，s_T(t,z_i)为事先由人工设计的触发阈值函数，

表示由积分正定函数设计的效应函数，v为积分变量；

S4、不更新状态；

S5、设置i＝i+1，并判断是否满足

若是则执行步骤S2，若否则执行步骤S6；

S6、结束。

本实施例提出了事件触发弹性最优控制策略有效平衡了行驶过程中调节车辆控制的频率/变化：(a)在车辆的紧急跟踪阶段，误差状态s(t)是非常大的，而触发条件、更短的时间间隔和事件驱动的控制可以使车辆跟踪所需的参考速度更快。(b)在车辆的稳态跟踪阶段，误差状态s(t)可以在一段较小的范围内，从而在较长的时间间隔内触发条件，使控制可以保持不变，即车辆系统不需要改变操作。与传统的基于时间的驾驶方式相比，事件触发机制可以大大降低车辆物理运行中的能量和资源，而本实施例中通过特定的事件触发采样机制，通过采样间隔分析时间触发过程下的代价函数，可以在自动驾驶车辆的跟踪和方便之间取得很好的平衡。

进一步地，在结合事件触发采样机制和自适应动态规划方法，设计了本实施例给出的RWDA车辆的自适应弹性事件触发控制方法之前，还包括：(1)自动驾驶车辆系统的动态建模与自动驾驶中的弹性控制；(2)利用单评判ADP框架设计RWDA车辆的弹性控制方案，进行事件触发弹性控制与采样机构稳定性分析设计，分为具有饱和界的事件触发弹性最优控制和事件触发最优控制。

(1)自动驾驶车辆系统的动态建模与自动驾驶中的弹性控制：

(1-1)自动驾驶车辆系统的动态建模：

以典型的后轮驱动自主车为例，对自动驾驶车辆系统进行动态建模如下：

推导出自主车的常规运动学方程为：

其中，x(t)是在惯性参考系下车辆的质量中心的水平位置，y(t)是车辆的垂直位置，θ(t)是它的方向，

分别是x(t)、y(t)、θ(t)的一次导数，v_x(t)代表了车辆固定框架质心的纵向速度，w_x(t)表示质心处惯性参考系下的实际坐标系下的偏航角速度(绕Z轴，垂直于X-Y平面)，d_r是质量中心到汽车后轴的直接距离。

为使RWDA车辆遵循期望轨迹，假设期望参考轨迹由车辆的固定纵向速度v_r(t)和偏航角速度w_r(t)生成，参考动力学可表示为：

其中，x_r(t)、y_r(t)、θ_r(t)分别表示期望的水平位置、垂直位置和车辆的方向，

分别是x_r(t)、y_r(t)、θ_r(t)的一次求导。

在车辆的局部坐标系中，我们定义水平位置误差为x_e(t)，垂直位置误差为y_e(t)，航向误差为θ_e(t)，则车辆在自动驾驶过程中的跟踪误差方程为：

(1-2)自动驾驶中的弹性控制：

如图2所示，给出了RWDA车辆的自由体图和跟踪轨迹，其中各车轮上的反作用力在其中轴处相加，并给出了参考路径，根据被控车辆的自由车身图和跟踪误差方程，给出不确定攻击信号下的跟踪误差动力学方程如下：

对于标称RWDA车辆系统，跟踪误差动态可推导为：

其中：

s(t)＝[x_e(t)，y_e(t)，θ_e(t)]^T；

w_r(t)是期望的参考轨迹下的偏航角速度，对跟踪误差动态方程(4)的证明如下：

首先，基于跟踪误差方程(3)，利用车辆动态方程(1)和参考动态方程(2)，得到误差动态

由RWDA车辆的自由车身图和建模过程可知，

从而得到：

其次，对于跟踪误差y_e，存在：

最后，根据方程(1)和方程(2)的动力学特性，可以直接推导出跟踪误差动态微分方程θ_e(t):

因此有：

在自主驾驶和运行过程中，RWDA车辆的跟踪误差动态(4)通常受到不确定的攻击信号，其中DoS攻击通过通信网络注入跟踪动态，信号流如图3所示。

因此，RWDA车辆的通用自动驾驶系统可以改写为：

其中，||g(s(t))||≠0对所有s(t)，u(t)＝μ(t)+u_r(t)+β(t)是实际运行在车辆上的系统输入，μ(t)表示事件触发弹性最优控制策略，u_r(t)＝[w_r(t),v_r(t)]^T为参考策略，α(t)＝[α_x(t),α_y(t),α_θ(t)]^T和β(t)＝[β₁(t),β₂(t)]^T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号。

在跟踪驾驶过程中，采用参考策略u_r(t)保持车辆给定的跟踪轨迹，采用事件触发弹性最优控制策略μ^★(t,z_i)减少跟踪误差，克服不确定性信号。

需要说明的是，本实施例中假设传感器和执行器攻击信号是状态相关的，对所有t≥0，可以将其参数化为

和

和W(t)是未知的时变矩阵，满足

||W(t)||₂≤b₂,常数b₁,b₂>0，

是一个未知且有界的非线性函数。

(2)为了稳定DoS攻击下的跟踪误差动态(10)，利用单评判ADP框架设计了RWDA车辆的弹性控制方案，分为具有饱和界的事件触发弹性最优控制和事件触发最优控制：

(2-1)具有饱和界的事件触发弹性最优控制：

针对RWDA车辆的跟踪误差动力学问题，考虑了通信网络中的不确定攻击信号，进一步将跟踪误差动态(10)改写为：

其中，

为期望动态部分，σ(t)＝α(t)+g(t)β(t)为总体攻击信号。基于上述假设，可以得到||σ(t)||≤γ||g(t)||，常数γ>1。

如上所述，参考策略u_r(t)是根据期望的参考来给出的，在驱动系统中通常将期望的参考设置为期望的参考。此外，在传统的跟踪控制问题中，将弹性跟踪控制策略μ(t)设计为一种事件驱动的反馈控制策略，给出了一种新的事件触发跟踪控制方案：

考虑通信网络中信息传输的过程，建立了事件触发采样机制，其单调递增的时间序列为

其中z₀＝0，控制策略中的系统状态在每次触发时更新。

通过这种方式，将事件触发反馈控制设计为时刻t∈[z_i,z_i+1)的μ(t,z_i)＝μ(t,s(z_i))，其中s(z_i)为时刻z_i的状态，零阶保持器可以使控制在时刻z_i的每个时刻保持连续。

设系统状态s(t)为事件触发状态，则根据事件触发机制，定义事件触发条件如下：

其中，z_i为t时刻的最新触发时刻，s_T(t,z_i)为触发阈值。事件触发状态满足：

s(t)＝s(z_i)-e(t) (13)

其中，

为触发状态误差。此时，事件触发控制策略变为μ(t,z_i)＝μ(s(t)+e(t))。

定义系统动态(11)的无穷域积分性能指标：

其中，

为折现因子，选择二次形式

的效用函数

为正定函数，效用函数U(μ(τ,z_i))由被积正定函数设计：

其中，μ(t,z_i)＝[μ₁(t,z_i),μ₂(t,z_i)]^T是RWDA车辆的控制矢量，λ＝diag(λ₁,λ₂)>0为控制向量，tanh^-T(·)＝[tanh^-1(·)]^T，v＝[v₁,v₂]^T，R＝diag(R₁,R₂)>0是正定矩阵。

将系统(11)的状态反馈控制策略μ(t,z_i)称为一个容许弹性控制,如果控制μ(t,z_i)基于事件触发更新机制，能稳定系统动态到它的稳定点，并能使无穷域积分性能指标J(s(0))对于任何初始状态s(0)有界。

利用容许事件触发弹性控制，得到[t,+∞)中的代价函数为：

其中，时间t∈[z_i,z_i+1)。

为了计算最优控制，可以得到哈密顿函数为：

其中，

是常数，

表示V(s(t))对状态s(t)的偏导数。

在事件触发采样机制下，每个触发瞬间t＝z_i,

的最优代价函数为：

其满足下面的HJB方程：

注意，在一般的时间驱动最优控制中，HJB方程需要一直保持成立，控制策略μ(t)随着时间的变化而调整：随着系统状态s(t)进行同步。在事件驱动最优控制中，控制策略只在某个触发时刻更新，但系统的状态和动态是实时更新的。那么，在特定的事件触发采样机制下，只需要在每个触发瞬间保持HJB方程。

引理1：通过在成本函数中使用被积函数U(μ(τ,z_i))，事件驱动的弹性最优控制在任何时间t∈[z_i,z_i+1)可以得到形式：

其中，

控制策略是有界的

证明：根据贝尔曼最优性原理，对HJB式(19)在t＝z_i时刻对控制进行求导，有：

这表明：

因此，事件触发弹性最优控制可计算为:

对任意时刻t∈[z_i,z_i+1)，约束为

那么，在t时刻的最优代价函数可以进一步表示为：

(2-2)事件触发最优控制设计及稳定性分析：

基于事件触发采样机制，将开发驱动RWDA车辆跟踪所需参考轨迹的事件触发最优控制策略μ^★(t,z_i)。事件触发弹性最优控制体系结构如图4所示，事件触发条件设计如下：

引理2。设μ^★(s(t))为t时刻最优状态反馈控制策略：

然后有

其中z_i是一个任意触发瞬间，

是常数。

证明：考虑连续、单调且有界的双曲正切函数tanh(·)，其导数满足tanh′(·)＝1-tanh²(·)。因此，根据双曲正切函数的性质，存在

对于一些正的常数

这表明

定理2。考虑自动驾驶系统和事件触发采样机制，当任意时刻t∈[z_i,z_i+1],

的事件触发条件时，跟踪动态(11)在事件触发弹性最优控制μ^★(t,z_i)下渐近稳定：

其中，

和ρ_min(·)表示矩阵的最小特征值，此外，齐诺(Zeno)行为被严格排除在车辆控制过程之外。

证明。首先，我们考虑带有事件触发机构(26)的车辆跟踪误差动态。

让我们选择带有事件触发弹性最优控制μ^★(t,z_i)的代价函数V^★(s(t))作为李雅普诺夫函数，计算其关于时间的导数有：

如前所述，当使用时间驱动最优控制μ^★(t)时，HJB方程始终成立，因此，有：

请注意，折现系数

且可选为

根据车辆系统(11)，有min(||g(t)||²)≥1。

将HJB方程(28)插入式(27)中，由引理2可知：

则可以发现，当事件触发条件(26)保持时，对所有时间t∈[z_i,z_i+1),

其次，我们证明了在车辆控制过程中严格排除了齐诺行为。

反证法。假设汽车发生了齐诺行为。此外，在不丧失一般性的前提下，假设跟踪系统(11)表现出齐诺行为。然后，有一个有限的时间T>0，使z_i≤T和

要制造矛盾，我们首先要发现对于任何

有一个正整数ε_i>0，使得z_i+ε_i≤z_i+1。考虑函数(29)，当事件被触发时：

当时刻t＝z_i时，得到||s(t)-s(z_i)||＝0(项s_T(t,z_i)被强制为0)，误差状态s(t)变化下降为

之后，随着误差s(t)的变化，当时间t∈[z_i,z_i+1)，有：

说明在时间区间t∈[z_i,z_i+1)内

从0增加到||g(t)||²+U(μ^★(t))+ρ_min(Q)||s(t)||²>0再次触发条件(26)。我们知道，有一项，||g(t)||≥1>0；因此，必须存在一个时间间隔ε_i>0，使得z_i+ε_i≤z_i+1。因此，

这与T是有限时间矛盾。

进一步地，在上述步骤S1：在所述设置μ^★(t,z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前，还包括：

首先，基于高阶逼近定理设计了单评判网络来逼近最优代价函数，以获得控制参数：

其中

是权向量，n是激活函数的数量，

为独立的激活函数向量，ε(t)为近似误差，满足||ε(t)||≤ε_c，当激活函数数目n足够大时，ε_c可以是任意小的正常数。根据逼近定理，可以保证当n→∞时，使ε(t)→0。此外，在单网络框架中，还使用网络来调整控制策略。让V^(k)(s(t))＝w^(k)TΦ(s(t))作为V^★(s(t))的k次近似值对应的权重向量的转置。

采用最小二乘法更新策略评价的权值参数为：

其中，

可解为

除此之外，它还有

如果生成的数据使

满秩方阵。

接下来，假设选择的激活函数n足够大，我们将用下面的定理对自适应弹性事件触发算法所示的学习过程进行收敛性分析：

定理3。假设控制策略μ^(k)(t)更新根据方程(34)，通过求解方程(33)获得成本函数V^(k)(s(t))，其边界条件V^(k)(0)＝0，其中0为零向量，k＝0,1,…，和最优成本函数V^★(s(t))≥0在有效域Ω(s)上是平滑的。然后,序列{V^(k)(s(t)),k＝0,1,…}是单调非递增的,即V^★(s(t))≤V^(k+1)(s(t))≤V^(k)(s(t))对所有s(t)∈Ω(s)。

解决

的贝尔曼方程：

通过使用优化控制μ^(k)(t)：

此外：

当k→+∞对于任意状态s(t)∈Ω(s)。

证明：首先，考虑成本函数V^(k+1)(s(t))和V^(k)(s(t))在控制系统动态μ^(k+1)(s(t)),

时的差异，得到：

根据策略评价方程，有：

和

使得公式(37)变为：

根据定义(15)，利用式(34)，可以得到：

可以进一步导出为：

根据第一积分中值定理，有：

其中

的元素在μ^(k)和μ^(k+1)对应的元素之间。由于tanh^-1(·)函数是一个单调递增函数，因此生成：

在函数

和[·]_i表示一个向量的第i个元素。因此,有

V^(k+1)(s(t))-V^(k)(s(t))≤0 (43)

根据最优成本函数的定义，有：

V^★(s(t))≤V^(k+1)(s(t))≤V^(k)(s(t)) (44)

对于任意状态s(t)∈Ω(s)，表示序列{V^(k)(s(t)),k＝0,1,…}是单调无递增的。

其次，由于Ω(s)是一个紧集，根据迪尼定理，单调非递增序列{V^(k)(s(t)),k＝0,1,…}，将一致点态收敛到最优代价函数V^★(s(t))，即随着k→+∞，V^(k)(s(t))→V^★(s(t))。

最后，由最优代价函数可知，在迭代学习过程中，控制序列{μ^(k)(t),k＝0,1,…}随着k→+∞时，一致收敛为μ^(k)(s(t))→μ^★(s(t))。

另一实施例公开了一种车辆自主驾驶的弹性事件触发控制系统，包括事件触发弹性最优控制策略设置模块、第一判断模块、第一执行模块、第二判断模块和第二执行模块，其中：

s(t)为自动驾驶系统状态，

i为迭代次数，

为总迭代次数；

其中，

ρ_min(·)表示矩阵的最小特征值，

为正常数，s_T(t,z_i)为事先由人工设计的触发阈值函数，

表示由积分正定函数设计的效应函数，v为积分变量；

第二判断模块用于设置i＝i+1，并判断是否满足

误差动态改写单元用于将跟踪误差动态

的形式改写为

其中

为期望动态部分，σ(t)＝α(t)+g(t)β(t)为总体攻击信号。

本实施例还另外公开了一种计算机可读存储设备，所述存储设备存储有计算机程序，所述计算机程序被执行时实现上述车辆自主驾驶的弹性事件触发控制方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

下面进行仿真示例。

将我们的方法应用到一个模拟的自动驾驶系统(10)的车辆，其中给定RWDA车辆的动态函数成为：

其中：

s(t)＝[x_e(t),y_e(t),θ_e(t)]^T，

σ(t)＝α(t)+g(t)β(t),d_r＝1.2(m)为车辆质心到后轴的直接距离，λ＝diag(λ₁,λ₂)>0为控制向量的饱和界矩阵，λ₁＝λ₂＝2，进行传感器攻击的不确定信号为α(t)＝-(0.75+0.15sin(2.5t)),t≥0，执行器攻击的信号β(t)＝[1,1]^T0.005cos(2.5t)+[0.1cos(2t),0.5sin(t)]^T0.2sin(x_e(t))cos(y_e(t)),t≥0。

选择期望参考轨迹的初始系统状态为[x_r(0),y_r(0),θ_r(0)]^T＝[0,0,0]^T，选择参考控制策略u_r(t)中所要求的纵向速度和偏航角速度为v_r(t)＝0.5(m/s)，w_r(t)＝0(rad/s)。代价函数(23)中的参数取γ＝2,

效用函数中的正定矩阵为Q＝diag(20,20,20)和R＝diag(1,1)。选取近似代价函数的神经网络中的激活函数向量为：

初始的权值向量为

然后，权值向量的演化如图5所示，其中参数在学习过程中收敛。

验证所设计的弹性事件触发控制方案的有效性，我们模拟两个RWDA车辆自主驾驶系统在不同初始系统状态，选择两辆车的初始状态为[-1.2,1.2,0.5]^T和[1.2,-1.2,-0.5]^T。驾驶轨迹的X-Y图如图6所示，在图中我们发现，尽管执行器和传感器出现不确定攻击信号，但在提出的事件触发控制方法下，两辆自动驾驶车辆被驱动接近期望轨迹。

此外，图6还展示了设计的事件触发控制的优势，采样机制相应的事件触发演化过程如图7所示，其中触发函数

和s_T(t,z_i)由条件(26)给出。设计算法的采样周期如图6所示，显示了每个采样瞬间，当触发事件(26)时，触发函数s_T(t,z_i)将按要求被强制为零。

考虑事件触发控制策略，该策略是根据事件触发条件(26)和获得的权向量参数确定的。图8显示了自动驾驶车辆在驾驶过程中接收到的事件驱动控制输入，其中包含事件驱动弹性跟踪控制策略μ(t,z_i)和参考策略u_r(t)。当参考策略为u_r(t)＝[0,0.5]^T时，对得到的车辆控制输入进行约束，并在所有时间内满足饱和约束条件u₁(t,z_i)∈[-2,2]和u₂(t,z_i)∈[-1.5,2.5]。此外，事件触发控制轨迹和时间驱动控制轨迹的对比也在图8中清晰地展示出来，在车辆运行过程中，采用设计的事件触发方法的车辆控制变化/调整时间比时间驱动方法要小得多。

此外，第一辆车的跟踪误差轨迹呈现在图9中，可以发现，自主驾驶系统在提出了弹性预测的跟踪控制下，虽然有不确定攻击发生在执行器和传感器信号，跟踪误差很快接近零的附近邻域，证明了该设计方法的有效性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种车辆自主驾驶的弹性事件触发控制方法，其特征在于，包括：

S1、设置μ^★(t，z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略，其中

s(t)为自动驾驶系统的误差状态，

表示V(s(t))对系统状态s(t)的偏导数，V^★(s(t))是最优成本函数，tanh(·)为双曲正切函数，λ＝diag(λ₁，λ₂)＞0为控制饱和向量，λ₁，λ₂为两个输入的饱和值，R＝diag(R₁，R₂)＞0是正定矩阵，R₁，R₂是正常数，g^T(s(t))表示输入动态方程，

i为迭代次数，

为总迭代次数；

S2、在时间t∈[z_i，z_i+1)时，对于事件触发弹性控制下的跟踪误差动态

若是执行步骤S3，若否执行步骤S4，其中，

ρ_min(·)表示矩阵的最小特征值，Q是成本函数中给定的正定矩阵，

为正常数，s_T(t，z_i)为事先由人工设计的触发阈值函数，

表示由积分正定函数设计的效应函数，v为积分变量；

S3、将时间t∈[z_i+1，z_i+2)时的事件触发弹性最优控制策略更新为μ^★(t，z_i+1)，以对自动驾驶系统进行控制；

S4、不更新状态；

S5、设置i＝i+1，并判断是否满足

若是则执行步骤S2，若否则执行步骤S6；

S6、结束。

2.如权利要求1所述的车辆自主驾驶的弹性事件触发控制方法，其特征在于，在所述设置μ^★(t，z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前，还包括：

3.如权利要求1所述的车辆自主驾驶的弹性事件触发控制方法，其特征在于，在所述设置μ^★(t，z_i)为自动驾驶系统在t时刻的事件触发弹性最优控制策略之前，还包括：

其中||g(s(t))||≠0对所有s(t)，u(t)＝μ(t)+u_r(t)+β(t)是实际运行在车辆上的系统输入，μ(t)表示弹性跟踪控制策略，u_r(t)＝[w_r(t)，v_r(t)]^T为参考策略，α(t)＝[α_x(t)，α_y(t)，α_θ(t)]^T和β(t)＝[β₁(t)，β₂(t)]^T分别表示跟踪动态函数中传感器和执行器攻击的不确定信号，α_x(t)，α_y(t)，α_θ(t)，β₁(t)，β₂(t)分别为系统状态和控制输入中相应的不确定信号，