CN111812973B - 一种离散时间非线性系统的事件触发优化控制方法 - Google Patents

一种离散时间非线性系统的事件触发优化控制方法 Download PDF

Info

Publication number
CN111812973B
CN111812973B CN202010434040.2A CN202010434040A CN111812973B CN 111812973 B CN111812973 B CN 111812973B CN 202010434040 A CN202010434040 A CN 202010434040A CN 111812973 B CN111812973 B CN 111812973B
Authority
CN
China
Prior art keywords
control
network
event trigger
event
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010434040.2A
Other languages
English (en)
Other versions
CN111812973A (zh
Inventor
穆朝絮
廖凯举
孙长银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010434040.2A priority Critical patent/CN111812973B/zh
Publication of CN111812973A publication Critical patent/CN111812973A/zh
Application granted granted Critical
Publication of CN111812973B publication Critical patent/CN111812973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明针对带有控制约束的离散时间非线性系统,公开了一种离散时间非线性系统的事件触发优化控制方法,在本发明中,引入了一个非二次型性能指标函数以应对控制约束问题,给出了一个事件触发条件并证明了该条件下系统的稳定性,设计了一个模型网络用于识别系统动态以降低算法对系统信息的依赖。算法实现采用GDHP技术,设计了一个评价网络用于近似HJB方程的代价函数及其偏导数信息,一个执行网络用于迭代求解近似最优控制律,这种评价‑执行结构避免了直接求解系统的HJB方程;此外,采用事件触发的方式对系统进行控制决策能够有效减少计算量,节约系统计算资源。

Description

一种离散时间非线性系统的事件触发优化控制方法
技术领域
本发明涉及离散时间非线性系统的事件触发控制技术领域,更具体地,涉及考虑控制 约束问题下的离散时间非线性系统的自适应事件触发优化控制方法。
背景技术
最优控制是根据被控对象的动态特征选取一个容许的控制律,实现系统性能指标最优 化的一个重要分析标准。实际上,人们在分析问题、综合决策过程中,都需要一个标准去 衡量整个过程是否达到最优。最优控制问题其本质是一变分学问题,主要方法包括:经典 变分理论、极小值原理以及动态规划。其中,动态规划方法综合了经典变分理论和极小值 原理的优点,不仅能够处理控制约束问题,而且也适用于带有闭集约束条件的控制系统。 它的主要思想是根据系统的初值以及最优目标函数,获得系统的动态规划方程,以使系统 达到整体最优。动态规划方法通过将多步最优控制问题简化成多个一步最优控制问题,大 大简化了最优控制决策的求解过程。但是,动态规划也存在一定的缺陷。随着系统复杂度 的增加,动态规划方法所需的计算量以及数据存储量将会迅速增长,导致“维数灾难”问 题。此外,非线性系统的Hamilton-Jacobi-Bellman(HJB)方程通常是偏差分或偏微分方程, 利用动态规划很难求解该复杂系统的最优控制解。本发明采用自适应动态规划(Adaptive dynamic programming,ADP)方法弥补了动态规划方法的缺陷,通过函数近似结构(如神 经网络)逼近系统的性能指标函数,以获得系统的近似最优控制律。
在控制系统领域,多数研究采用周期性采样方法以保证系统稳定,并获得令人满意的 控制效果。然而,从资源利用效率的角度出发,这种采样方式有时是不可取的。比如,系 统在理想状态下运行或者系统达到稳定状态时,周期采样会增加系统计算负担,造成不必 要的资源浪费。在网络控制系统中,周期采样不仅会造成计算成本的浪费,还会加重对网 络带宽的影响。事件触发控制是一种能够在保证系统控制性能前提下,节约系统资源、提 高资源利用的非周期控制方法。不同于传统的时间触发控制,事件触发控制方法的信号采 样取决于某个事件的发生情况,而不是按照时间进行周期性的采样。现实应用中,系统动 态往往由于各种原因而不易或者不能获取,这种情况导致了一些需要系统动态信息的方法 不能得以实施。此外,饱和是实际控制系统中普遍存在的现象,在大多数执行器中都是不 可避免的。为了更高效的求解离散时间非线性系统的最优控制,本发明将事件触发控制策 略与迭代ADP算法结合起来,设计了一种考虑执行器饱和的事件触发ADP优化控制策略, 并通过一个模型网络结构降低了对系统动态的依赖。
发明内容
本发明讨论了一类带有控制约束的离散时间非线性系统的事件触发优化控制问题,通 过引入一个非二次型指标函数解决了执行器饱和问题,并设计了一个模型网络用于识别系 统动态信息。该算法的具体实现采用ADP方法中的全局二次启发式动态规划(Globalized Dual Heuristic Programming,GDHP)结构,该结构采用一个评价网络用于近似代价函数及其 偏导数信息,一个执行网络用于近似最优控制律,从而避免了传统动态规划方法的“维数 灾难”问题。
本发明提出的控制方法是用来解决离散非线性系统的事件触发控制问题的,研究系统 能否在保证系统控制性能的情况,通过事件触发控制方法减少计算量,从而降低系统资源 损耗。解决带有执行器饱和约束的离散非线性系统在动态未知情况下的控制问题,是符合 控制技术的应用需求和发展趋势的。
针对一类具有控制约束的离散时间非线性系统的事件触发控制问题,本发明首先给出 了一个非二次型指标函数来应对控制约束问题,并给出了事件触发控制下的系统方程。针 对事件触发控制系统,给出了一个触发条件以及该条件下系统的稳定性分析,设计了基于 GDHP结构的事件触发优化控制算法,这种非周期采样的控制方法能够大大减少算法计算 量。通过对现有文献和技术的全面检索,并未发现类似的技术方案。
本发明的技术方案为:
一种离散时间非线性系统的事件触发优化控制方法,其特征在于:
构建含有控制约束的离散时间非线性事件触发控制系统;
根据事件触发控制系统设定事件触发条件;
构建求解离散非线性事件触发控制系统的触发控制器,该触发器还包括:
--用于学习系统动态信息的模型网络;
--用于学习代价函数
Figure RE-GDA0002666605820000031
及其偏导数
Figure RE-GDA0002666605820000032
信息的评价网络;
--用于获得近似最优控制律
Figure RE-GDA0002666605820000033
的执行网络;
--用于计算触发误差和触发阈值之间关系的传感器;
--用于保持非采样状态下的控制律的零阶保持器。
所述模型网络的输出为:
Figure RE-GDA0002666605820000034
其中:xk表示系统状态输入,
Figure RE-GDA0002666605820000035
是由神经网络获得的近似控制律,ψ(·)为激活函数,ωm和νm分别为模型网络输入层到隐含层和隐含层到输出层的权值矩阵。
所述评价网络的输出为:
Figure RE-GDA0002666605820000036
Figure RE-GDA0002666605820000037
其中:ωc和νc分别为评价网络输入层到隐含层和隐含层到输出层的权值矩阵。
所述执行网络的输出为
Figure RE-GDA0002666605820000038
其中:ωa和νa分别为执行网络输入层到隐含层和隐含层到输出层的权值矩阵。
总体而言,本发明与现有研究相比,具有以下有益效果:
(1)构造了离散非线性系统的事件触发控制系统,并充分考虑了控制约束问题,给出 了该约束条件下系统的触发条件以及相应的收敛性证明。在触发控制系统的基础上,设计 了迭代ADP算法求解系统的最优控制问题,该算法避免了直接求解系统的哈密顿-雅可比- 贝尔曼方程。本发明采用一个模型网络预先识别系统的动态信息,降低了算法对系统信息 的依赖。
(2)本发明的算法实现依赖于GDHP技术,通过评价—执行网络结构学习系统性能指 标函数及系统最优控制律。在该结构中,执行网络只有在触发条件被满足时才会进行更新, 否则,控制律将由一个零阶保持器保持不变。与传统时间触发控制相比,事件触发控制能 够在保持系统控制性能前提下,减少计算量、节约计算资源。
附图说明
图1是算法实现过程的结构框图;
图2是GDHP结构中评价网络和执行网络的权值更新图;
图3是传统GDHP方法和事件触发控制方法下的系统状态轨迹图;
图4是传统GDHP方法和事件触发控制方法下的控制律轨迹图;
图5是事件触发误差和触发阈值之间的关系图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本 发明进行进一步详细说明。应当理解,此处所描述的具体实施例子仅仅用以解释本发明, 并不用于限定本发明。此外,下面所描述的本发明实施方式中所涉及到的技术特征只要彼 此之间未构成冲突就可以相互组合。
本发明实施的具有控制约束的离散时间非线性事件触发控制方法包括如下步骤:
步骤(1):构造离散时间非线性事件触发控制系统,并引入一个非二次型函数以解决 控制约束问题;
步骤(2):针对事件触发控制系统,设计了一个事件触发条件,并证明了该条件下系 统是渐近稳定的;
步骤(3):设计基于GDHP技术的事件触发控制器,在该控制器中设置了一个传感器用于计算事件触发误差,一个零阶保持器用于保持非采样状态下的控制律,并通过GDHP 结构获得系统近似最优控制律。
步骤(1)涉及目标问题转化,即系统转化问题,将一般离散非线性系统的最优控制问 题转化为事件触发最优控制问题。
步骤(1)进一步包括下述步骤:
(1-1)考虑一类离散时间非线性仿射系统如下:
xk+1=f(xk)+g(xk)uk, (1)
其中
Figure RE-RE-GDA0002666605820000051
是状态向量,
Figure RE-RE-GDA0002666605820000052
是控制输入向量。对于 任意xk,f(xk):
Figure RE-RE-GDA0002666605820000053
在f(0)=0处是可微的,g(xk):
Figure RE-RE-GDA0002666605820000054
是非奇异的。假设系统 (1)是可控的,并且f+gu在包含原点的
Figure RE-RE-GDA0002666605820000055
集合上是Lipschitz连续的。我们定义控制约 束下的控制向量为
Figure RE-RE-GDA0002666605820000056
其中
Figure RE-RE-GDA0002666605820000057
是第i个 执行器的饱和边界。
Figure RE-RE-GDA0002666605820000058
是由
Figure RE-RE-GDA0002666605820000059
给定的常数对角矩阵。
(1-2)在事件触发控制中,设采样时刻为
Figure RE-GDA00026666058200000510
则该时刻的反馈控制律为
Figure RE-GDA00026666058200000511
此外,定义事件触发误差为
Figure RE-GDA00026666058200000512
其中xk表示当前时刻的状态,
Figure RE-GDA00026666058200000513
表示采样时刻的状态,则反馈控制律uk可以重新表示为
uk=μ(ek+xk). (4)
那么,事件触发控制下系统(1)可以表示为
xk+1=f(xk)+g(xk)μ(ek+xk). (5)
(1-3)一般的离散时间最优控制问题的目标是找出控制律uk,使得以下无限域代价函 数最小:
Figure RE-GDA00026666058200000514
其中U(xj,μ(ej+xj))为效用函数,
Figure RE-GDA00026666058200000515
为了解决控制约束问题,系统效用函 数采用非二次型形式如下
Figure RE-GDA0002666605820000061
其中
Figure RE-GDA0002666605820000062
表示一个满足
Figure RE-GDA0002666605820000063
的有界的一对一函数,Q和R是具有适当维度 的正定矩阵。为了方便计算,将
Figure RE-GDA0002666605820000064
用Uk表示。
基于Bellman最优性原理,我们可以得到最优代价函数V*(xk)为
Figure RE-GDA0002666605820000065
由于控制律uk满足最优控制的一阶必要条件,则对于k∈[ki,ki+1),i=0,1,2…,可以得到最 优控制律为
Figure RE-GDA0002666605820000066
步骤(2)设计事件触发控制系统的触发条件,并给出该条件下系统的稳定性证明。
步骤(2)进一步包括下述步骤:
(2-1)如果控制律uk对于
Figure RE-GDA0002666605820000067
是连续的,并且能够稳定系统(5),定义uk关于(6)是可允许的,如果xk=0,则uk=0,对于
Figure RE-GDA0002666605820000068
V(x0)是有限的。为了便于分析,根据 系统(5),我们讨论常数对角饱和界矩阵
Figure RE-GDA0002666605820000069
并令m=1,则有
Figure RE-GDA00026666058200000610
并且存在
Figure RE-GDA00026666058200000611
假设1:存在正常数L、L1、L2、α、β,一个连续可微函数V:
Figure RE-GDA00026666058200000612
以及类 κ函数α1、α2,使得
||f(xk-ek)||≤L1||ek||+L2||xk||, (10)
||g(xk-ek)||≤L1||ek||+L2||xk||, (11)
Figure RE-GDA00026666058200000613
V(xk+1)-V(xk)≤-αV(xk)+β||ek||, (13)
Figure RE-GDA00026666058200000614
应该注意的是,若(12)和(13)成立,函数V是一个输入-状态稳定的李亚普诺夫函数。
(2-2)根据式(3),系统(5)的事件触发误差ek+1满足
Figure RE-GDA0002666605820000071
||ek+1||≤||xk+1||, (16)
其中k∈[ki,ki+1)。根据假设1,将(3)和(5)带入(16),可得
Figure RE-GDA0002666605820000072
然后,式(17)可以扩展为
Figure RE-GDA0002666605820000073
Figure RE-GDA0002666605820000074
求解(18)可以得到
Figure RE-GDA0002666605820000075
将(19)作为事件触发条件,有
Figure RE-GDA0002666605820000076
(2-3)在事件触发条件(20)下,系统(5)是渐近稳定的,证明如下。
定义1:如果
Figure RE-GDA0002666605820000077
对于k∈[ki,ki+1),i=0,1,2…,函数V(xk)满足
Figure RE-GDA0002666605820000078
其中ε∈(0,1),那么在假设1条件下事件触发控制系统(5)是渐近稳定的。
证明:根据假设1中的(12)和(14),可以得到
Figure RE-GDA0002666605820000079
然后,结合(13)和(19),我们有
Figure RE-GDA00026666058200000710
根据(22)和(24),为简化计算,定义
Figure RE-GDA0002666605820000081
则,式(23)可以重写为
Figure RE-GDA0002666605820000082
将(25)进一步扩展,可以得到
Figure RE-GDA0002666605820000083
求解公式(26),可以得到
Figure RE-GDA0002666605820000084
根据式(21),有
Figure RE-GDA0002666605820000085
简便起见,我们定义
Figure RE-GDA0002666605820000086
则,(28)可重写为
V(xk)≤S(xk). (30)
然后,我们可以得到S(xk)的一阶差分方程为
Figure RE-GDA0002666605820000087
将(12)带入(31),可得
ΔS≤-εα·α1(x||ki||)<0. (32)
证明完毕。
步骤(3)基于GHDP技术的事件触发控制器设计。
步骤(3)进一步包括下述步骤:
(3-1)为了求解离散非线性事件触发控制系统(5)的HJB,我们设计了基于GDHP 结构的事件触发控制器如图1所示。可以看出,该控制器设计了三个神经网络来学习系统 信息,分别是模型网络、批评网络和行动网络。其中,模型网络用于近似系统动态,评价 网络用于学习系统代价函数及其偏导数信息,执行网络用于获得近似最优控制律。此外, 设计了一个传感器用于计算触发误差和触发阈值之间的关系,一个零阶保持器用于维持控 制律
Figure RE-GDA0002666605820000091
在非采样期间ki≤k≤ki+1的控制律不变。
(3-2)下面给出基于GDHP结构的事件触发控制方法的具体实施过程。首先,用ν表示输入层到隐含层的权值矩阵,用ω表示隐含层到输出层的权值矩阵,Nm为隐含层神经元数目。此外,xk表示系统状态输入,
Figure RE-GDA0002666605820000092
表示系统控制律,
Figure RE-GDA0002666605820000093
是由神经网络获得的近 似控制律。为了减少对系统信息的依赖性,我们设计了一个模型网络用于估计系统状态信息。根据xk
Figure RE-GDA0002666605820000094
模型网络的输出为
Figure RE-GDA0002666605820000095
其中
Figure RE-GDA0002666605820000096
是激活函数,形式为
Figure RE-GDA0002666605820000097
模型网络的误差函数为
Figure RE-GDA0002666605820000098
最小化目标函数为
Figure RE-GDA0002666605820000099
根据梯度下降法,模型网络的权值更新为
Figure RE-GDA00026666058200000910
Figure RE-GDA00026666058200000911
其中ξm为学习率。模型网络训练结束后,保持其最终权值不变,对评价网络和执行网络进 行训练。
(3-3)评价网络的设计是用于学习代价函数V(xk)及其偏导数信息
Figure RE-GDA00026666058200000912
的,为简便 起见,将
Figure RE-GDA00026666058200000913
记作λ(xk),即
Figure RE-GDA00026666058200000914
因此,评价网络的输出由两部分组成,分别为
Figure RE-GDA0002666605820000101
Figure RE-GDA0002666605820000102
评价网络的目标函数为
Figure RE-GDA0002666605820000103
Figure RE-GDA0002666605820000104
定义误差函数为
Figure RE-GDA0002666605820000105
Figure RE-GDA0002666605820000106
那么,评价网络的最小化目标函数可以写成
Figure RE-GDA0002666605820000107
其中,0≤γ≤1用于调整HDP和DHP在GDHP中的权重。同样地,评价网络的权值也采用 梯度下降法进行更新,如下
Figure RE-GDA0002666605820000108
Figure RE-GDA0002666605820000109
其中
Figure RE-GDA00026666058200001010
ξc>0为学习率。
(3-4)根据采样状态
Figure RE-GDA00026666058200001011
可以得到执行网络的输出为
Figure RE-GDA00026666058200001012
给出的系统目标控制律为
Figure RE-GDA00026666058200001013
因此,我们可以得到误差函数eak和目标误差函数Eak如下
Figure RE-GDA00026666058200001014
Figure RE-GDA0002666605820000111
执行网络的权值更新律为
Figure RE-GDA0002666605820000112
Figure RE-GDA0002666605820000113
其中ξa>0为学习率。
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的离散时间非 线性系统的事件触发控制方法进行详细说明。
仿真中采用一个质量弹簧阻尼器系统,其系统动态函数如下所示:
Figure RE-RE-GDA0002666605820000114
其中M=1kg为物体质量,Ks1为线性弹簧常数,b=3N·s/m为由减震器引起的对运动的 阻力。采用采样周期Δt=0.01s对系统函数进行离散化,得到的离散时间系统如下:
Figure RE-GDA0002666605820000115
设置初始状态x0=[-1,1]以及约束边界|u|≤0.03。效用函数采用式(7)形式,设置R=1、 Q=I2,其中I2为表示一个二维单位矩阵。根据(20),选择
Figure RE-GDA0002666605820000116
可以得到触发 阈值为
Figure RE-GDA0002666605820000117
模型网络、评价网络和执行网络的结构分别设计为3-8-2,2-8-3和2-8-1。模型网络的权 值在[-0.1,0.1]之间随机产生,其学习率为ξm=0.1。在[-1,1]中随机选取500组数据对模型 网络进行训练,经过充分训练后,保持最终权值不变。评价网络和执行网络的学习率分别 为ξc=0.01和ξa=0.1,调节参数选取γ=0.5,两个网络的初始权值在[-0.5,0.5]区间内随机 产生。每个网络训练100次迭代,每次迭代4000个训练步骤,其权值收敛过程如图2所示。
作为比较,未考虑控制约束问题的传统GDHP方法也被应用于该实例,并保持所有结 构参数与事件触发GDHP方法一致。选取500个时间步骤内的系统状态轨迹进行分析,如图3所示。从图中可以看出,在两种控制方法下的状态轨迹是相似的。系统状态的相关控 制律轨迹如图4所示,可以看出事件触发控制方法较好地解决了控制约束问题。此外,事 件触发误差||ek||和触发阈值eT之间的关系在图5中给出。在本例中,传统的GDHP方法需 要计算500个状态的控制律,而事件触发GDHP方法只需要计算56个状态的控制律,减少 了90.4%的计算资源。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技 术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的 精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种离散时间非线性系统的事件触发优化控制方法,其特征在于:
构建含有控制约束的离散时间非线性事件触发控制系统;
根据事件触发控制系统设定事件触发条件;
构建求解离散非线性事件触发控制系统的触发控制器,该触发控制器还包括:
--用于学习系统动态信息的模型网络;
--用于学习代价函数
Figure FDA0003407771590000011
及其偏导数
Figure FDA0003407771590000012
信息的评价网络;
--用于获得近似最优控制律
Figure FDA0003407771590000013
的执行网络;
--用于计算触发误差和触发阈值之间关系的传感器;
--用于保持非采样状态下的控制律的零阶保持器:其中:
所述非线性事件触发控制系统为:
(1-1)一类离散时间非线性仿射系统如下:
xk+1=f(xk)+g(xk)uk, (1)
其中
Figure FDA0003407771590000014
是状态向量,
Figure FDA0003407771590000015
是控制输入向量;对于任意
Figure FDA00034077715900000117
在f(0)=0处是可微的,
Figure FDA0003407771590000017
是非奇异的;系统(1)是可控的,并且f+gu在包含原点的
Figure FDA0003407771590000018
集合上是Lipschitz连续的,约束下的控制量
Figure FDA0003407771590000019
其中:
Figure FDA00034077715900000110
是第i个执行器的饱和边界;
Figure FDA00034077715900000111
是由
Figure FDA00034077715900000112
给定的常数对角矩阵;
(1-2)在事件触发控制中,设采样时刻为
Figure FDA00034077715900000113
则该时刻的反馈控制律为
Figure FDA00034077715900000114
此外,定义事件触发误为
Figure FDA00034077715900000115
其中xk表示当前时刻的状态,
Figure FDA00034077715900000116
表示采样时刻的状态,则反馈控制律uk可以重新表示为
uk=μ(ek+xk) (4)
那么,事件触发控制下系统(1)可以表示为
xk+1=f(xk)+g(xk)μ(ek+xk) (5)
(1-3)离散时间最优控制问题的目标是找出控制律uk,使得以下无限域代价函数最小:
Figure FDA0003407771590000021
其中U(xj,μ(ej+xj))为效用函数,
Figure FDA0003407771590000022
为了解决控制约束问题,系统效用函数采用非二次型形式如下
Figure FDA0003407771590000023
其中
Figure FDA0003407771590000024
表示一个满足
Figure FDA0003407771590000025
的有界的一对一函数,Q和R是具有适当维度的正定矩阵;为了方便计算,将
Figure FDA0003407771590000026
用Uk表示;其中:
基于Bellman最优性原理获得最优代价函数V*(xk)为
Figure FDA0003407771590000027
由于控制律uk满足最优控制的一阶必要条件,则对于k∈[ki,ki+1),i=0,1,2…,可以得到最优控制律为
Figure FDA0003407771590000028
根据事件触发控制系统设定事件触发条件为:
Figure FDA0003407771590000029
2.根据权利要求1所述的一种离散时间非线性系统的事件触发优化控制方法,其特征在于:所述模型网络的输出为:
Figure FDA00034077715900000210
其中:xk表示系统状态输入,
Figure FDA00034077715900000211
是由神经网络获得的近似控制律,ψ(·)为激活函数,ωm和νm分别为模型网络输入层到隐含层和隐含层到输出层的权值矩阵;其中:根据梯度下降法,模型网络的权值更新为:
Figure FDA0003407771590000031
Figure FDA0003407771590000032
其中ξm为学习率;模型网络训练结束后,保持其最终权值不变,对评价网络和执行网络进行训练。
3.根据权利要求1所述的一种离散时间非线性系统的事件触发优化控制方法,其特征在于:所述评价网络的输出为:
Figure FDA0003407771590000033
Figure FDA0003407771590000034
其中:ωc和νc分别为评价网络输入层到隐含层和隐含层到输出层的权值矩阵;
其中:评价网络的权值也采用梯度下降法进行更新,如下:
Figure FDA0003407771590000035
Figure FDA0003407771590000036
其中:
Figure FDA0003407771590000037
ξc>0为学习率。
4.根据权利要求1所述的一种离散时间非线性系统的事件触发优化控制方法,其特征在于:执行网络的输出为
Figure FDA0003407771590000038
其中:ωa和νa分别为执行网络输入层到隐含层和隐含层到输出层的权值矩阵,其中:
执行网络的权值更新律为
Figure FDA0003407771590000039
Figure FDA00034077715900000310
其中ξa>0为学习率。
CN202010434040.2A 2020-05-21 2020-05-21 一种离散时间非线性系统的事件触发优化控制方法 Active CN111812973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434040.2A CN111812973B (zh) 2020-05-21 2020-05-21 一种离散时间非线性系统的事件触发优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434040.2A CN111812973B (zh) 2020-05-21 2020-05-21 一种离散时间非线性系统的事件触发优化控制方法

Publications (2)

Publication Number Publication Date
CN111812973A CN111812973A (zh) 2020-10-23
CN111812973B true CN111812973B (zh) 2022-02-22

Family

ID=72847707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434040.2A Active CN111812973B (zh) 2020-05-21 2020-05-21 一种离散时间非线性系统的事件触发优化控制方法

Country Status (1)

Country Link
CN (1) CN111812973B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485099B (zh) * 2020-12-31 2023-09-22 中国电子科技集团公司信息科学研究院 一种非线性离散时间系统的在线学习控制方法
CN112685835B (zh) * 2020-12-31 2022-08-19 中国科学院数学与系统科学研究院 车辆自主驾驶的弹性事件触发控制方法及系统
CN113110059B (zh) * 2021-04-26 2022-04-19 杭州电子科技大学 基于事件触发的单连杆机械臂系统实际跟踪的控制方法
CN114115376B (zh) * 2021-11-22 2023-05-12 江苏科技大学 基于事件触发的神经网络预测串级温度控制系统及其方法
CN114993108B (zh) * 2022-05-17 2023-04-28 南京航空航天大学 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法

Also Published As

Publication number Publication date
CN111812973A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111812973B (zh) 一种离散时间非线性系统的事件触发优化控制方法
CN109683477B (zh) 一种随机多智能体系统有限时间控制器的设计方法及系统
CN108828949B (zh) 一种基于自适应动态规划的分布式最优协同容错控制方法
Hou et al. An iterative learning approach for density control of freeway traffic flow via ramp metering
Senan et al. Decentralized event-triggered synchronization of uncertain Markovian jumping neutral-type neural networks with mixed delays
Szanto et al. Event-sampled direct adaptive NN output-and state-feedback control of uncertain strict-feedback system
CN112698572B (zh) 一种基于强化学习的结构振动控制方法、介质及设备
Howell et al. Continuous action reinforcement learning automata and their application to adaptive digital filter design
Saifia et al. Robust H∞ static output‐feedback control for discrete‐time fuzzy systems with actuator saturation via fuzzy Lyapunov functions
Sakthivel et al. Synchronization of complex dynamical networks with random coupling delay and actuator faults
Wang et al. A novel triggering condition of event‐triggered control based on heuristic dynamic programming for discrete‐time systems
Zhao et al. Goal representation adaptive critic design for discrete-time uncertain systems subjected to input constraints: The event-triggered case
CN114118375A (zh) 一种基于时序图Transformer的连续动态网络表征学习方法
Zhang et al. Unified adaptive event‐triggered control of uncertain multi‐input multi‐output nonlinear systems with dynamic and static constraints
Ebrahimi et al. Observer‐based controller design for uncertain disturbed Takagi‐Sugeno fuzzy systems: a fuzzy wavelet neural network approach
CN117574310A (zh) 基于多任务深度学习的建筑中央空调负荷预测方法及系统
Rao et al. Optimal control of nonlinear system based on deterministic policy gradient with eligibility traces
Yao et al. Event-triggered finite-time adaptive fuzzy tracking control for stochastic nontriangular structure nonlinear systems
CN112685835B (zh) 车辆自主驾驶的弹性事件触发控制方法及系统
CN101567838A (zh) 一种函数链神经网络的自校正方法
CN104537224A (zh) 基于自适应学习算法的多状态系统可靠性分析方法及系统
Zhao et al. A comparative study of surrogate modeling of nonlinear dynamic systems
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
Fuentes et al. Neural numerical modeling for uncertain distributed parameter systems
Rafik et al. Learning and Predictive Energy Consumption Model based on LSTM recursive neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant