CN111812973B

CN111812973B - 一种离散时间非线性系统的事件触发优化控制方法

Info

Publication number: CN111812973B
Application number: CN202010434040.2A
Authority: CN
Inventors: 穆朝絮; 廖凯举; 孙长银
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2022-02-22
Anticipated expiration: 2040-05-21
Also published as: CN111812973A

Abstract

本发明针对带有控制约束的离散时间非线性系统，公开了一种离散时间非线性系统的事件触发优化控制方法，在本发明中，引入了一个非二次型性能指标函数以应对控制约束问题，给出了一个事件触发条件并证明了该条件下系统的稳定性，设计了一个模型网络用于识别系统动态以降低算法对系统信息的依赖。算法实现采用GDHP技术，设计了一个评价网络用于近似HJB方程的代价函数及其偏导数信息，一个执行网络用于迭代求解近似最优控制律，这种评价‑执行结构避免了直接求解系统的HJB方程；此外，采用事件触发的方式对系统进行控制决策能够有效减少计算量，节约系统计算资源。

Description

一种离散时间非线性系统的事件触发优化控制方法

技术领域

本发明涉及离散时间非线性系统的事件触发控制技术领域，更具体地，涉及考虑控制约束问题下的离散时间非线性系统的自适应事件触发优化控制方法。

背景技术

最优控制是根据被控对象的动态特征选取一个容许的控制律，实现系统性能指标最优化的一个重要分析标准。实际上，人们在分析问题、综合决策过程中，都需要一个标准去衡量整个过程是否达到最优。最优控制问题其本质是一变分学问题，主要方法包括：经典变分理论、极小值原理以及动态规划。其中，动态规划方法综合了经典变分理论和极小值原理的优点，不仅能够处理控制约束问题，而且也适用于带有闭集约束条件的控制系统。它的主要思想是根据系统的初值以及最优目标函数，获得系统的动态规划方程，以使系统达到整体最优。动态规划方法通过将多步最优控制问题简化成多个一步最优控制问题，大大简化了最优控制决策的求解过程。但是，动态规划也存在一定的缺陷。随着系统复杂度的增加，动态规划方法所需的计算量以及数据存储量将会迅速增长，导致“维数灾难”问题。此外，非线性系统的Hamilton-Jacobi-Bellman(HJB)方程通常是偏差分或偏微分方程，利用动态规划很难求解该复杂系统的最优控制解。本发明采用自适应动态规划(Adaptive dynamic programming，ADP)方法弥补了动态规划方法的缺陷，通过函数近似结构(如神经网络)逼近系统的性能指标函数，以获得系统的近似最优控制律。

在控制系统领域，多数研究采用周期性采样方法以保证系统稳定，并获得令人满意的控制效果。然而，从资源利用效率的角度出发，这种采样方式有时是不可取的。比如，系统在理想状态下运行或者系统达到稳定状态时，周期采样会增加系统计算负担，造成不必要的资源浪费。在网络控制系统中，周期采样不仅会造成计算成本的浪费，还会加重对网络带宽的影响。事件触发控制是一种能够在保证系统控制性能前提下，节约系统资源、提高资源利用的非周期控制方法。不同于传统的时间触发控制，事件触发控制方法的信号采样取决于某个事件的发生情况，而不是按照时间进行周期性的采样。现实应用中，系统动态往往由于各种原因而不易或者不能获取，这种情况导致了一些需要系统动态信息的方法不能得以实施。此外，饱和是实际控制系统中普遍存在的现象，在大多数执行器中都是不可避免的。为了更高效的求解离散时间非线性系统的最优控制，本发明将事件触发控制策略与迭代ADP算法结合起来，设计了一种考虑执行器饱和的事件触发ADP优化控制策略，并通过一个模型网络结构降低了对系统动态的依赖。

发明内容

本发明讨论了一类带有控制约束的离散时间非线性系统的事件触发优化控制问题，通过引入一个非二次型指标函数解决了执行器饱和问题，并设计了一个模型网络用于识别系统动态信息。该算法的具体实现采用ADP方法中的全局二次启发式动态规划(Globalized Dual Heuristic Programming,GDHP)结构，该结构采用一个评价网络用于近似代价函数及其偏导数信息，一个执行网络用于近似最优控制律，从而避免了传统动态规划方法的“维数灾难”问题。

本发明提出的控制方法是用来解决离散非线性系统的事件触发控制问题的，研究系统能否在保证系统控制性能的情况，通过事件触发控制方法减少计算量，从而降低系统资源损耗。解决带有执行器饱和约束的离散非线性系统在动态未知情况下的控制问题，是符合控制技术的应用需求和发展趋势的。

针对一类具有控制约束的离散时间非线性系统的事件触发控制问题，本发明首先给出了一个非二次型指标函数来应对控制约束问题，并给出了事件触发控制下的系统方程。针对事件触发控制系统，给出了一个触发条件以及该条件下系统的稳定性分析，设计了基于 GDHP结构的事件触发优化控制算法，这种非周期采样的控制方法能够大大减少算法计算量。通过对现有文献和技术的全面检索，并未发现类似的技术方案。

本发明的技术方案为：

一种离散时间非线性系统的事件触发优化控制方法，其特征在于:

构建含有控制约束的离散时间非线性事件触发控制系统；

根据事件触发控制系统设定事件触发条件；

构建求解离散非线性事件触发控制系统的触发控制器，该触发器还包括：

--用于学习系统动态信息的模型网络；

--用于学习代价函数

及其偏导数

信息的评价网络；

--用于获得近似最优控制律

的执行网络；

--用于计算触发误差和触发阈值之间关系的传感器；

--用于保持非采样状态下的控制律的零阶保持器。

所述模型网络的输出为：

其中：x_k表示系统状态输入，

是由神经网络获得的近似控制律，ψ(·)为激活函数，ω_m和ν_m分别为模型网络输入层到隐含层和隐含层到输出层的权值矩阵。

所述评价网络的输出为：

其中：ω_c和ν_c分别为评价网络输入层到隐含层和隐含层到输出层的权值矩阵。

所述执行网络的输出为

其中：ω_a和ν_a分别为执行网络输入层到隐含层和隐含层到输出层的权值矩阵。

总体而言，本发明与现有研究相比，具有以下有益效果：

(1)构造了离散非线性系统的事件触发控制系统，并充分考虑了控制约束问题，给出了该约束条件下系统的触发条件以及相应的收敛性证明。在触发控制系统的基础上，设计了迭代ADP算法求解系统的最优控制问题，该算法避免了直接求解系统的哈密顿-雅可比- 贝尔曼方程。本发明采用一个模型网络预先识别系统的动态信息，降低了算法对系统信息的依赖。

(2)本发明的算法实现依赖于GDHP技术，通过评价—执行网络结构学习系统性能指标函数及系统最优控制律。在该结构中，执行网络只有在触发条件被满足时才会进行更新，否则，控制律将由一个零阶保持器保持不变。与传统时间触发控制相比，事件触发控制能够在保持系统控制性能前提下，减少计算量、节约计算资源。

附图说明

图1是算法实现过程的结构框图；

图2是GDHP结构中评价网络和执行网络的权值更新图；

图3是传统GDHP方法和事件触发控制方法下的系统状态轨迹图；

图4是传统GDHP方法和事件触发控制方法下的控制律轨迹图；

图5是事件触发误差和触发阈值之间的关系图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例子仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施的具有控制约束的离散时间非线性事件触发控制方法包括如下步骤：

步骤(1)：构造离散时间非线性事件触发控制系统，并引入一个非二次型函数以解决控制约束问题；

步骤(2)：针对事件触发控制系统，设计了一个事件触发条件，并证明了该条件下系统是渐近稳定的；

步骤(3)：设计基于GDHP技术的事件触发控制器，在该控制器中设置了一个传感器用于计算事件触发误差，一个零阶保持器用于保持非采样状态下的控制律，并通过GDHP 结构获得系统近似最优控制律。

步骤(1)涉及目标问题转化，即系统转化问题，将一般离散非线性系统的最优控制问题转化为事件触发最优控制问题。

步骤(1)进一步包括下述步骤：

(1-1)考虑一类离散时间非线性仿射系统如下：

x_k+1＝f(x_k)+g(x_k)u_k， (1)

其中

是状态向量，

是控制输入向量。对于任意x_k，f(x_k):

在f(0)＝0处是可微的，g(x_k):

是非奇异的。假设系统 (1)是可控的，并且f+gu在包含原点的

集合上是Lipschitz连续的。我们定义控制约束下的控制向量为

其中

是第i个执行器的饱和边界。

是由

给定的常数对角矩阵。

(1-2)在事件触发控制中，设采样时刻为

则该时刻的反馈控制律为

此外，定义事件触发误差为

其中x_k表示当前时刻的状态，

表示采样时刻的状态，则反馈控制律u_k可以重新表示为

u_k＝μ(e_k+x_k). (4)

那么，事件触发控制下系统(1)可以表示为

x_k+1＝f(x_k)+g(x_k)μ(e_k+x_k). (5)

(1-3)一般的离散时间最优控制问题的目标是找出控制律u_k，使得以下无限域代价函数最小：

其中U(x_j,μ(e_j+x_j))为效用函数，

为了解决控制约束问题，系统效用函数采用非二次型形式如下

其中

表示一个满足

的有界的一对一函数，Q和R是具有适当维度的正定矩阵。为了方便计算，将

用U_k表示。

基于Bellman最优性原理，我们可以得到最优代价函数V^*(x_k)为

由于控制律u_k满足最优控制的一阶必要条件，则对于k∈[k_i,k_i+1)，i＝0,1,2…，可以得到最优控制律为

步骤(2)设计事件触发控制系统的触发条件，并给出该条件下系统的稳定性证明。

步骤(2)进一步包括下述步骤：

(2-1)如果控制律u_k对于

是连续的，并且能够稳定系统(5)，定义u_k关于(6)是可允许的，如果x_k＝0，则u_k＝0，对于

V(x₀)是有限的。为了便于分析，根据系统(5)，我们讨论常数对角饱和界矩阵

并令m＝1，则有

并且存在

假设1：存在正常数L、L₁、L₂、α、β，一个连续可微函数V:

以及类 κ_∞函数α₁、α₂，使得

||f(x_k-e_k)||≤L₁||e_k||+L₂||x_k||, (10)

||g(x_k-e_k)||≤L₁||e_k||+L₂||x_k||, (11)

V(x_k+1)-V(x_k)≤-αV(x_k)+β||e_k||， (13)

应该注意的是，若(12)和(13)成立，函数V是一个输入-状态稳定的李亚普诺夫函数。

(2-2)根据式(3)，系统(5)的事件触发误差e_k+1满足

||e_k+1||≤||x_k+1||, (16)

其中k∈[k_i,k_i+1)。根据假设1，将(3)和(5)带入(16)，可得

然后，式(17)可以扩展为

令

求解(18)可以得到

将(19)作为事件触发条件，有

(2-3)在事件触发条件(20)下，系统(5)是渐近稳定的，证明如下。

定义1：如果

对于k∈[k_i,k_i+1)，i＝0,1,2…，函数V(x_k)满足

其中ε∈(0,1)，那么在假设1条件下事件触发控制系统(5)是渐近稳定的。

证明：根据假设1中的(12)和(14)，可以得到

然后，结合(13)和(19),我们有

根据(22)和(24)，为简化计算，定义

则，式(23)可以重写为

将(25)进一步扩展，可以得到

求解公式(26)，可以得到

根据式(21),有

简便起见，我们定义

则，(28)可重写为

V(x_k)≤S(x_k). (30)

然后，我们可以得到S(x_k)的一阶差分方程为

将(12)带入(31)，可得

ΔS≤-εα·α₁(x||k_i||)＜0. (32)

证明完毕。

步骤(3)基于GHDP技术的事件触发控制器设计。

步骤(3)进一步包括下述步骤：

(3-1)为了求解离散非线性事件触发控制系统(5)的HJB，我们设计了基于GDHP 结构的事件触发控制器如图1所示。可以看出，该控制器设计了三个神经网络来学习系统信息，分别是模型网络、批评网络和行动网络。其中，模型网络用于近似系统动态，评价网络用于学习系统代价函数及其偏导数信息，执行网络用于获得近似最优控制律。此外，设计了一个传感器用于计算触发误差和触发阈值之间的关系，一个零阶保持器用于维持控制律

在非采样期间k_i≤k≤k_i+1的控制律不变。

(3-2)下面给出基于GDHP结构的事件触发控制方法的具体实施过程。首先，用ν表示输入层到隐含层的权值矩阵，用ω表示隐含层到输出层的权值矩阵，N_m为隐含层神经元数目。此外，x_k表示系统状态输入，

表示系统控制律，

是由神经网络获得的近似控制律。为了减少对系统信息的依赖性，我们设计了一个模型网络用于估计系统状态信息。根据x_k和

模型网络的输出为

其中

是激活函数，形式为

模型网络的误差函数为

最小化目标函数为

根据梯度下降法，模型网络的权值更新为

其中ξ_m为学习率。模型网络训练结束后，保持其最终权值不变，对评价网络和执行网络进行训练。

(3-3)评价网络的设计是用于学习代价函数V(x_k)及其偏导数信息

的，为简便起见，将

记作λ(x_k)，即

因此，评价网络的输出由两部分组成，分别为

评价网络的目标函数为

定义误差函数为

那么，评价网络的最小化目标函数可以写成

其中，0≤γ≤1用于调整HDP和DHP在GDHP中的权重。同样地，评价网络的权值也采用梯度下降法进行更新，如下

其中

ξ_c＞0为学习率。

(3-4)根据采样状态

可以得到执行网络的输出为

给出的系统目标控制律为

因此，我们可以得到误差函数e_ak和目标误差函数E_ak如下

执行网络的权值更新律为

其中ξ_a＞0为学习率。

为了使本领域人员更好地理解本发明，下面结合具体实施例，对本发明的离散时间非线性系统的事件触发控制方法进行详细说明。

仿真中采用一个质量弹簧阻尼器系统，其系统动态函数如下所示：

其中M＝1kg为物体质量，K_s1为线性弹簧常数，b＝3N·s/m为由减震器引起的对运动的阻力。采用采样周期Δt＝0.01s对系统函数进行离散化，得到的离散时间系统如下:

设置初始状态x₀＝[-1,1]以及约束边界|u|≤0.03。效用函数采用式(7)形式，设置R＝1、 Q＝I₂，其中I₂为表示一个二维单位矩阵。根据(20)，选择

可以得到触发阈值为

模型网络、评价网络和执行网络的结构分别设计为3-8-2,2-8-3和2-8-1。模型网络的权值在[-0.1,0.1]之间随机产生，其学习率为ξ_m＝0.1。在[-1,1]中随机选取500组数据对模型网络进行训练，经过充分训练后，保持最终权值不变。评价网络和执行网络的学习率分别为ξ_c＝0.01和ξ_a＝0.1，调节参数选取γ＝0.5，两个网络的初始权值在[-0.5,0.5]区间内随机产生。每个网络训练100次迭代，每次迭代4000个训练步骤，其权值收敛过程如图2所示。

作为比较，未考虑控制约束问题的传统GDHP方法也被应用于该实例，并保持所有结构参数与事件触发GDHP方法一致。选取500个时间步骤内的系统状态轨迹进行分析，如图3所示。从图中可以看出，在两种控制方法下的状态轨迹是相似的。系统状态的相关控制律轨迹如图4所示，可以看出事件触发控制方法较好地解决了控制约束问题。此外，事件触发误差||e_k||和触发阈值e_T之间的关系在图5中给出。在本例中，传统的GDHP方法需要计算500个状态的控制律，而事件触发GDHP方法只需要计算56个状态的控制律，减少了90.4％的计算资源。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。