CN111812973B - 一种离散时间非线性系统的事件触发优化控制方法 - Google Patents
一种离散时间非线性系统的事件触发优化控制方法 Download PDFInfo
- Publication number
- CN111812973B CN111812973B CN202010434040.2A CN202010434040A CN111812973B CN 111812973 B CN111812973 B CN 111812973B CN 202010434040 A CN202010434040 A CN 202010434040A CN 111812973 B CN111812973 B CN 111812973B
- Authority
- CN
- China
- Prior art keywords
- control
- network
- event trigger
- event
- trigger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明针对带有控制约束的离散时间非线性系统,公开了一种离散时间非线性系统的事件触发优化控制方法,在本发明中,引入了一个非二次型性能指标函数以应对控制约束问题,给出了一个事件触发条件并证明了该条件下系统的稳定性,设计了一个模型网络用于识别系统动态以降低算法对系统信息的依赖。算法实现采用GDHP技术,设计了一个评价网络用于近似HJB方程的代价函数及其偏导数信息,一个执行网络用于迭代求解近似最优控制律,这种评价‑执行结构避免了直接求解系统的HJB方程;此外,采用事件触发的方式对系统进行控制决策能够有效减少计算量,节约系统计算资源。
Description
技术领域
本发明涉及离散时间非线性系统的事件触发控制技术领域,更具体地,涉及考虑控制 约束问题下的离散时间非线性系统的自适应事件触发优化控制方法。
背景技术
最优控制是根据被控对象的动态特征选取一个容许的控制律,实现系统性能指标最优 化的一个重要分析标准。实际上,人们在分析问题、综合决策过程中,都需要一个标准去 衡量整个过程是否达到最优。最优控制问题其本质是一变分学问题,主要方法包括:经典 变分理论、极小值原理以及动态规划。其中,动态规划方法综合了经典变分理论和极小值 原理的优点,不仅能够处理控制约束问题,而且也适用于带有闭集约束条件的控制系统。 它的主要思想是根据系统的初值以及最优目标函数,获得系统的动态规划方程,以使系统 达到整体最优。动态规划方法通过将多步最优控制问题简化成多个一步最优控制问题,大 大简化了最优控制决策的求解过程。但是,动态规划也存在一定的缺陷。随着系统复杂度 的增加,动态规划方法所需的计算量以及数据存储量将会迅速增长,导致“维数灾难”问 题。此外,非线性系统的Hamilton-Jacobi-Bellman(HJB)方程通常是偏差分或偏微分方程, 利用动态规划很难求解该复杂系统的最优控制解。本发明采用自适应动态规划(Adaptive dynamic programming,ADP)方法弥补了动态规划方法的缺陷,通过函数近似结构(如神 经网络)逼近系统的性能指标函数,以获得系统的近似最优控制律。
在控制系统领域,多数研究采用周期性采样方法以保证系统稳定,并获得令人满意的 控制效果。然而,从资源利用效率的角度出发,这种采样方式有时是不可取的。比如,系 统在理想状态下运行或者系统达到稳定状态时,周期采样会增加系统计算负担,造成不必 要的资源浪费。在网络控制系统中,周期采样不仅会造成计算成本的浪费,还会加重对网 络带宽的影响。事件触发控制是一种能够在保证系统控制性能前提下,节约系统资源、提 高资源利用的非周期控制方法。不同于传统的时间触发控制,事件触发控制方法的信号采 样取决于某个事件的发生情况,而不是按照时间进行周期性的采样。现实应用中,系统动 态往往由于各种原因而不易或者不能获取,这种情况导致了一些需要系统动态信息的方法 不能得以实施。此外,饱和是实际控制系统中普遍存在的现象,在大多数执行器中都是不 可避免的。为了更高效的求解离散时间非线性系统的最优控制,本发明将事件触发控制策 略与迭代ADP算法结合起来,设计了一种考虑执行器饱和的事件触发ADP优化控制策略, 并通过一个模型网络结构降低了对系统动态的依赖。
发明内容
本发明讨论了一类带有控制约束的离散时间非线性系统的事件触发优化控制问题,通 过引入一个非二次型指标函数解决了执行器饱和问题,并设计了一个模型网络用于识别系 统动态信息。该算法的具体实现采用ADP方法中的全局二次启发式动态规划(Globalized Dual Heuristic Programming,GDHP)结构,该结构采用一个评价网络用于近似代价函数及其 偏导数信息,一个执行网络用于近似最优控制律,从而避免了传统动态规划方法的“维数 灾难”问题。
本发明提出的控制方法是用来解决离散非线性系统的事件触发控制问题的,研究系统 能否在保证系统控制性能的情况,通过事件触发控制方法减少计算量,从而降低系统资源 损耗。解决带有执行器饱和约束的离散非线性系统在动态未知情况下的控制问题,是符合 控制技术的应用需求和发展趋势的。
针对一类具有控制约束的离散时间非线性系统的事件触发控制问题,本发明首先给出 了一个非二次型指标函数来应对控制约束问题,并给出了事件触发控制下的系统方程。针 对事件触发控制系统,给出了一个触发条件以及该条件下系统的稳定性分析,设计了基于 GDHP结构的事件触发优化控制算法,这种非周期采样的控制方法能够大大减少算法计算 量。通过对现有文献和技术的全面检索,并未发现类似的技术方案。
本发明的技术方案为:
一种离散时间非线性系统的事件触发优化控制方法,其特征在于:
构建含有控制约束的离散时间非线性事件触发控制系统;
根据事件触发控制系统设定事件触发条件;
构建求解离散非线性事件触发控制系统的触发控制器,该触发器还包括:
--用于学习系统动态信息的模型网络;
--用于计算触发误差和触发阈值之间关系的传感器;
--用于保持非采样状态下的控制律的零阶保持器。
所述模型网络的输出为:
所述评价网络的输出为:
其中:ωc和νc分别为评价网络输入层到隐含层和隐含层到输出层的权值矩阵。
所述执行网络的输出为
其中:ωa和νa分别为执行网络输入层到隐含层和隐含层到输出层的权值矩阵。
总体而言,本发明与现有研究相比,具有以下有益效果:
(1)构造了离散非线性系统的事件触发控制系统,并充分考虑了控制约束问题,给出 了该约束条件下系统的触发条件以及相应的收敛性证明。在触发控制系统的基础上,设计 了迭代ADP算法求解系统的最优控制问题,该算法避免了直接求解系统的哈密顿-雅可比- 贝尔曼方程。本发明采用一个模型网络预先识别系统的动态信息,降低了算法对系统信息 的依赖。
(2)本发明的算法实现依赖于GDHP技术,通过评价—执行网络结构学习系统性能指 标函数及系统最优控制律。在该结构中,执行网络只有在触发条件被满足时才会进行更新, 否则,控制律将由一个零阶保持器保持不变。与传统时间触发控制相比,事件触发控制能 够在保持系统控制性能前提下,减少计算量、节约计算资源。
附图说明
图1是算法实现过程的结构框图;
图2是GDHP结构中评价网络和执行网络的权值更新图;
图3是传统GDHP方法和事件触发控制方法下的系统状态轨迹图;
图4是传统GDHP方法和事件触发控制方法下的控制律轨迹图;
图5是事件触发误差和触发阈值之间的关系图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本 发明进行进一步详细说明。应当理解,此处所描述的具体实施例子仅仅用以解释本发明, 并不用于限定本发明。此外,下面所描述的本发明实施方式中所涉及到的技术特征只要彼 此之间未构成冲突就可以相互组合。
本发明实施的具有控制约束的离散时间非线性事件触发控制方法包括如下步骤:
步骤(1):构造离散时间非线性事件触发控制系统,并引入一个非二次型函数以解决 控制约束问题;
步骤(2):针对事件触发控制系统,设计了一个事件触发条件,并证明了该条件下系 统是渐近稳定的;
步骤(3):设计基于GDHP技术的事件触发控制器,在该控制器中设置了一个传感器用于计算事件触发误差,一个零阶保持器用于保持非采样状态下的控制律,并通过GDHP 结构获得系统近似最优控制律。
步骤(1)涉及目标问题转化,即系统转化问题,将一般离散非线性系统的最优控制问 题转化为事件触发最优控制问题。
步骤(1)进一步包括下述步骤:
(1-1)考虑一类离散时间非线性仿射系统如下:
xk+1=f(xk)+g(xk)uk, (1)
其中是状态向量,是控制输入向量。对于 任意xk,f(xk):在f(0)=0处是可微的,g(xk):是非奇异的。假设系统 (1)是可控的,并且f+gu在包含原点的集合上是Lipschitz连续的。我们定义控制约 束下的控制向量为其中是第i个 执行器的饱和边界。是由给定的常数对角矩阵。
此外,定义事件触发误差为
uk=μ(ek+xk). (4)
那么,事件触发控制下系统(1)可以表示为
xk+1=f(xk)+g(xk)μ(ek+xk). (5)
(1-3)一般的离散时间最优控制问题的目标是找出控制律uk,使得以下无限域代价函 数最小:
基于Bellman最优性原理,我们可以得到最优代价函数V*(xk)为
由于控制律uk满足最优控制的一阶必要条件,则对于k∈[ki,ki+1),i=0,1,2…,可以得到最 优控制律为
步骤(2)设计事件触发控制系统的触发条件,并给出该条件下系统的稳定性证明。
步骤(2)进一步包括下述步骤:
(2-1)如果控制律uk对于是连续的,并且能够稳定系统(5),定义uk关于(6)是可允许的,如果xk=0,则uk=0,对于V(x0)是有限的。为了便于分析,根据 系统(5),我们讨论常数对角饱和界矩阵并令m=1,则有并且存在
||f(xk-ek)||≤L1||ek||+L2||xk||, (10)
||g(xk-ek)||≤L1||ek||+L2||xk||, (11)
V(xk+1)-V(xk)≤-αV(xk)+β||ek||, (13)
应该注意的是,若(12)和(13)成立,函数V是一个输入-状态稳定的李亚普诺夫函数。
(2-2)根据式(3),系统(5)的事件触发误差ek+1满足
||ek+1||≤||xk+1||, (16)
其中k∈[ki,ki+1)。根据假设1,将(3)和(5)带入(16),可得
然后,式(17)可以扩展为
将(19)作为事件触发条件,有
(2-3)在事件触发条件(20)下,系统(5)是渐近稳定的,证明如下。
其中ε∈(0,1),那么在假设1条件下事件触发控制系统(5)是渐近稳定的。
证明:根据假设1中的(12)和(14),可以得到
然后,结合(13)和(19),我们有
根据(22)和(24),为简化计算,定义
则,式(23)可以重写为
将(25)进一步扩展,可以得到
求解公式(26),可以得到
根据式(21),有
简便起见,我们定义
则,(28)可重写为
V(xk)≤S(xk). (30)
然后,我们可以得到S(xk)的一阶差分方程为
将(12)带入(31),可得
ΔS≤-εα·α1(x||ki||)<0. (32)
证明完毕。
步骤(3)基于GHDP技术的事件触发控制器设计。
步骤(3)进一步包括下述步骤:
(3-1)为了求解离散非线性事件触发控制系统(5)的HJB,我们设计了基于GDHP 结构的事件触发控制器如图1所示。可以看出,该控制器设计了三个神经网络来学习系统 信息,分别是模型网络、批评网络和行动网络。其中,模型网络用于近似系统动态,评价 网络用于学习系统代价函数及其偏导数信息,执行网络用于获得近似最优控制律。此外, 设计了一个传感器用于计算触发误差和触发阈值之间的关系,一个零阶保持器用于维持控 制律在非采样期间ki≤k≤ki+1的控制律不变。
(3-2)下面给出基于GDHP结构的事件触发控制方法的具体实施过程。首先,用ν表示输入层到隐含层的权值矩阵,用ω表示隐含层到输出层的权值矩阵,Nm为隐含层神经元数目。此外,xk表示系统状态输入,表示系统控制律,是由神经网络获得的近 似控制律。为了减少对系统信息的依赖性,我们设计了一个模型网络用于估计系统状态信息。根据xk和模型网络的输出为
模型网络的误差函数为
最小化目标函数为
根据梯度下降法,模型网络的权值更新为
其中ξm为学习率。模型网络训练结束后,保持其最终权值不变,对评价网络和执行网络进 行训练。
评价网络的目标函数为
定义误差函数为
那么,评价网络的最小化目标函数可以写成
其中,0≤γ≤1用于调整HDP和DHP在GDHP中的权重。同样地,评价网络的权值也采用 梯度下降法进行更新,如下
给出的系统目标控制律为
因此,我们可以得到误差函数eak和目标误差函数Eak如下
执行网络的权值更新律为
其中ξa>0为学习率。
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的离散时间非 线性系统的事件触发控制方法进行详细说明。
仿真中采用一个质量弹簧阻尼器系统,其系统动态函数如下所示:
其中M=1kg为物体质量,Ks1为线性弹簧常数,b=3N·s/m为由减震器引起的对运动的 阻力。采用采样周期Δt=0.01s对系统函数进行离散化,得到的离散时间系统如下:
模型网络、评价网络和执行网络的结构分别设计为3-8-2,2-8-3和2-8-1。模型网络的权 值在[-0.1,0.1]之间随机产生,其学习率为ξm=0.1。在[-1,1]中随机选取500组数据对模型 网络进行训练,经过充分训练后,保持最终权值不变。评价网络和执行网络的学习率分别 为ξc=0.01和ξa=0.1,调节参数选取γ=0.5,两个网络的初始权值在[-0.5,0.5]区间内随机 产生。每个网络训练100次迭代,每次迭代4000个训练步骤,其权值收敛过程如图2所示。
作为比较,未考虑控制约束问题的传统GDHP方法也被应用于该实例,并保持所有结 构参数与事件触发GDHP方法一致。选取500个时间步骤内的系统状态轨迹进行分析,如图3所示。从图中可以看出,在两种控制方法下的状态轨迹是相似的。系统状态的相关控 制律轨迹如图4所示,可以看出事件触发控制方法较好地解决了控制约束问题。此外,事 件触发误差||ek||和触发阈值eT之间的关系在图5中给出。在本例中,传统的GDHP方法需 要计算500个状态的控制律,而事件触发GDHP方法只需要计算56个状态的控制律,减少 了90.4%的计算资源。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技 术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的 精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种离散时间非线性系统的事件触发优化控制方法,其特征在于:
构建含有控制约束的离散时间非线性事件触发控制系统;
根据事件触发控制系统设定事件触发条件;
构建求解离散非线性事件触发控制系统的触发控制器,该触发控制器还包括:
--用于学习系统动态信息的模型网络;
--用于计算触发误差和触发阈值之间关系的传感器;
--用于保持非采样状态下的控制律的零阶保持器:其中:
所述非线性事件触发控制系统为:
(1-1)一类离散时间非线性仿射系统如下:
xk+1=f(xk)+g(xk)uk, (1)
其中是状态向量,是控制输入向量;对于任意在f(0)=0处是可微的,是非奇异的;系统(1)是可控的,并且f+gu在包含原点的集合上是Lipschitz连续的,约束下的控制量其中:是第i个执行器的饱和边界;是由给定的常数对角矩阵;
此外,定义事件触发误为
uk=μ(ek+xk) (4)
那么,事件触发控制下系统(1)可以表示为
xk+1=f(xk)+g(xk)μ(ek+xk) (5)
(1-3)离散时间最优控制问题的目标是找出控制律uk,使得以下无限域代价函数最小:
基于Bellman最优性原理获得最优代价函数V*(xk)为
由于控制律uk满足最优控制的一阶必要条件,则对于k∈[ki,ki+1),i=0,1,2…,可以得到最优控制律为
根据事件触发控制系统设定事件触发条件为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434040.2A CN111812973B (zh) | 2020-05-21 | 2020-05-21 | 一种离散时间非线性系统的事件触发优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434040.2A CN111812973B (zh) | 2020-05-21 | 2020-05-21 | 一种离散时间非线性系统的事件触发优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111812973A CN111812973A (zh) | 2020-10-23 |
CN111812973B true CN111812973B (zh) | 2022-02-22 |
Family
ID=72847707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010434040.2A Active CN111812973B (zh) | 2020-05-21 | 2020-05-21 | 一种离散时间非线性系统的事件触发优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111812973B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485099B (zh) * | 2020-12-31 | 2023-09-22 | 中国电子科技集团公司信息科学研究院 | 一种非线性离散时间系统的在线学习控制方法 |
CN112685835B (zh) * | 2020-12-31 | 2022-08-19 | 中国科学院数学与系统科学研究院 | 车辆自主驾驶的弹性事件触发控制方法及系统 |
CN113110059B (zh) * | 2021-04-26 | 2022-04-19 | 杭州电子科技大学 | 基于事件触发的单连杆机械臂系统实际跟踪的控制方法 |
CN114115376B (zh) * | 2021-11-22 | 2023-05-12 | 江苏科技大学 | 基于事件触发的神经网络预测串级温度控制系统及其方法 |
CN114993108B (zh) * | 2022-05-17 | 2023-04-28 | 南京航空航天大学 | 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法 |
-
2020
- 2020-05-21 CN CN202010434040.2A patent/CN111812973B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111812973A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111812973B (zh) | 一种离散时间非线性系统的事件触发优化控制方法 | |
CN109683477B (zh) | 一种随机多智能体系统有限时间控制器的设计方法及系统 | |
CN108828949B (zh) | 一种基于自适应动态规划的分布式最优协同容错控制方法 | |
Hou et al. | An iterative learning approach for density control of freeway traffic flow via ramp metering | |
Senan et al. | Decentralized event-triggered synchronization of uncertain Markovian jumping neutral-type neural networks with mixed delays | |
Szanto et al. | Event-sampled direct adaptive NN output-and state-feedback control of uncertain strict-feedback system | |
CN112698572B (zh) | 一种基于强化学习的结构振动控制方法、介质及设备 | |
Howell et al. | Continuous action reinforcement learning automata and their application to adaptive digital filter design | |
Saifia et al. | Robust H∞ static output‐feedback control for discrete‐time fuzzy systems with actuator saturation via fuzzy Lyapunov functions | |
Sakthivel et al. | Synchronization of complex dynamical networks with random coupling delay and actuator faults | |
Wang et al. | A novel triggering condition of event‐triggered control based on heuristic dynamic programming for discrete‐time systems | |
Zhao et al. | Goal representation adaptive critic design for discrete-time uncertain systems subjected to input constraints: The event-triggered case | |
CN114118375A (zh) | 一种基于时序图Transformer的连续动态网络表征学习方法 | |
Zhang et al. | Unified adaptive event‐triggered control of uncertain multi‐input multi‐output nonlinear systems with dynamic and static constraints | |
Ebrahimi et al. | Observer‐based controller design for uncertain disturbed Takagi‐Sugeno fuzzy systems: a fuzzy wavelet neural network approach | |
CN117574310A (zh) | 基于多任务深度学习的建筑中央空调负荷预测方法及系统 | |
Rao et al. | Optimal control of nonlinear system based on deterministic policy gradient with eligibility traces | |
Yao et al. | Event-triggered finite-time adaptive fuzzy tracking control for stochastic nontriangular structure nonlinear systems | |
CN112685835B (zh) | 车辆自主驾驶的弹性事件触发控制方法及系统 | |
CN101567838A (zh) | 一种函数链神经网络的自校正方法 | |
CN104537224A (zh) | 基于自适应学习算法的多状态系统可靠性分析方法及系统 | |
Zhao et al. | A comparative study of surrogate modeling of nonlinear dynamic systems | |
CN114755926A (zh) | 一种基于强化学习的多智能体系统最优一致性的控制方法 | |
Fuentes et al. | Neural numerical modeling for uncertain distributed parameter systems | |
Rafik et al. | Learning and Predictive Energy Consumption Model based on LSTM recursive neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |