CN109932905A - 一种基于非策略的观测器状态反馈的优化控制方法 - Google Patents
一种基于非策略的观测器状态反馈的优化控制方法 Download PDFInfo
- Publication number
- CN109932905A CN109932905A CN201910176776.1A CN201910176776A CN109932905A CN 109932905 A CN109932905 A CN 109932905A CN 201910176776 A CN201910176776 A CN 201910176776A CN 109932905 A CN109932905 A CN 109932905A
- Authority
- CN
- China
- Prior art keywords
- observer
- strategy
- optimal
- state
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 71
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 238000000926 separation method Methods 0.000 claims abstract description 7
- 230000003190 augmentative effect Effects 0.000 claims abstract description 5
- 238000013461 design Methods 0.000 claims description 30
- 238000005259 measurement Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 11
- 230000003542 behavioural effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 3
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000032361 posttranscriptional gene silencing Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Abstract
一种基于非策略的观测器状态反馈的优化控制方法,涉及一种优化控制方法,本发明优化具有未知参数的线性离散系统的控制性能。首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统,定义性能优化指标;然后,基于分离原理,动态规划和学习方法,给出一种具有未知模型参数的非策略学习算法,并设计近似最优观测器,设计近似最优控制器,进而得到完全利用可测量的系统输出和控制输入数据的非策略
Description
技术领域
本发明涉及一种优化控制方法,特别是涉及一种基于非策略的观测器状态反馈的优化控制方法。
背景技术
根据系统的外部变量(输入变量和输出变量)的实测值得出状态变量估计值的一类动态系统,称为状态重构器。60年代初期,为了对控制系统实现状态反馈或其他需要,D.G.吕恩伯格、R.W.巴斯和J.E.贝特朗等人提出状态观测器的概念和构造方法,通过重构的途径解决了状态的不能直接测量的问题。构成状态观测器的方法依需要的不同而有差别。最简单的是开环状态观测器,开环观测器对外界干扰的抗干扰性和对参数变动的灵敏度都很差,采用闭环方式构成的状态观测器能克服开环状态观测器的缺点。
目前状态观测器设计普遍采用依赖系统模型信息的方法,系统模型存在未知参数,完全利用可测量数据的状态观测器设计目前还未见报道。
强化学习(Reinforcement Learning, RL)是一种从环境状态到动作映射的学习,并期望动作从环境中获得的累积奖赏最大。从20世纪80年代末开始,随着对强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用日益开展起来,强化学习成为目前机器学习领域的研究热点之一。
近年来在工程应用、模式识别、图像处理、网络优化等领域都得到广泛应用。
根据目标策略和行为策略是否一致,将强化学习分为策略(On-policy)学习和非策略(Off-Policy)学习。如果在学习过程中,动作选择的行为策略和学习改进的目标策略一致,该方法就被称为策略学习,如Sarsa学习,否则被称为非策略学习,如非策略Q-学习。采用强化学习方法,不依赖系统模型参数信息,完全利用数据学习状态反馈控制策略,优化控制系统性能的研究成果很多,如研究线性系统最优二次调节、最优跟踪控制、 控制等。这些方法都假定系统的状态可以测量,然而控制系统的实际应用中,系统的状态可能不是物理量不能直接测量,就是测量的成本非常高。那么,在这种情况系统,无法使用基于可测量的状态信息学习得到最优控制器,并且设计的状态反馈控制器无法实现对系统控制和优化。对于具有未知参数的系统状态反馈最优控制,且系统状态不能直接测量的问题,目前还没有充分研究。利用系统当前和过去的可测输出和输入数据估计当前系统状态,给出基于强化学习方法的近似最优控制策略。此种方法对于高阶系统而言,计算复杂,且需要存储大量系统当前和过去的输出和输入数据。
发明内容
本发明的目的在于提供一种基于非策略的观测器状态反馈的优化控制方法,本发明给出了基于观测器状态反馈的控制器增益和状态观测器增益方法,不需要系统模型参数完全已知,利用可测的当前时刻输出和输入数据,优化控制系统性能。
本发明的目的是通过以下技术方案实现的:
一种基于非策略的观测器状态反馈的优化控制方法,所述方法包括以下控制设计:
首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统,定义性能优化指标;然后,基于分离原理,动态规划和Q学习方法,给出一种具有未知模型参数的非策略Q学习算法,并设计近似最优观测器,设计近似最优控制器,进而得到完全利用可测量的系统输出和控制输入数据的非策略Q学习算法,实现基于观测器状态反馈的系统优化控制策略;构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统,包括基于观测器状态反馈的线性离散系统最优控制,考虑具有未知模型参数的线性离散系统的状态方程;鉴于实际控制系统状态很难直接测量或者只能测量部分状态信息,加上测量成本高,所以设计全维状态观测器;定义性能优化指标包括在系统模型含有未知参数的情况下,利用可测数据设计,保证闭环系统稳定,并且优化性能指标;设计近似最优观测器包括依赖模型的最优观测器设计以及最优观测器非策略Q-学习算法设计;最优控制器设计包括根据分离定理,控制器增益矩阵要保证镇定,并且优化问题1中性能指标;在系统矩阵存在参数未知的情况下采用算法4能够利用可测的系统输入、输出数据和观测器状态可以学习最优控制器增益和最优观测器增益,实现基于观测器状态反馈的优化控制。
所述的一种基于非策略的观测器状态反馈的优化控制方法,所述优观测器设计先给出基于系统模型的最优观测器策略,进而得到不用系统矩阵的数据驱动的最优观测器策略设计方法。
所述的一种基于非策略的观测器状态反馈的优化控制方法,所述问题1为最优控制问题表述为:。
所述的一种基于非策略的观测器状态反馈的优化控制方法,所述算法4为基于非策略Q-学习方式的最优状态估计反馈控制器设计算法。
本发明的优点与效果是:
本发明针对系统状态不能直接测量或者测量成本高的控制系统,并且系统矩阵存在未知参数的情况下,提出一种基于非策略Q学习方法的观测器状态反馈的优化控制策略。首先,对于具有未知参数的线性离散系统,定义基于观测器状态反馈的优化问题;然后利用分离原理、动态规划和Q学习算法,提出非策略Q学习算法。在系统矩阵中存在未知参数的情况下,利用可测数据,学习最优观测器增益和最优控制器增益。仿真结果也验证了所提出的方法的有效性。
附图说明
图1为迭代矩阵和观测器增益迭代矩阵敛过程图;
图2 迭代矩阵和控制器增益迭代矩阵收敛过程图;
图3 系统响应曲线图;
图4 最优控制律和观测器策略图。
具体实施方式
下面结合附图所示实施例对本发明进行详细说明。
1.本发明基于观测器状态反馈的线性离散系统最优控制,考虑如下具有未知模型参数的线性离散系统的状态方程:
其中,和分别为被控状态,控制输入和控制输出。为适维矩阵,为采样时刻,为未知参数或未知向量。假设能控,能观。
鉴于实际控制系统状态很难直接测量或者只能测量部分状态信息,加上测量成本高,所以设计如下全维状态观测器:
其中,为的重构状态或估计状态,是观测器输出,是观测器的增益矩阵。定义实际状态和状态估计值之差为误差向量:
得到误差向量的动态方程:
选用基于观测器状态的静态反馈控制器:
控制器(5)的目标是最小化如下二次性能指标:
其中,和分别为半正定和正定矩阵。如此,本发明关注的最优控制问题可以表述为:
问题1
满足:(1), (4) 和(5)
令,由式(1),(4) 和(5),得到如下闭环增广控制系统:
从式(8)可知,闭环系统的极点是由的特征值确定的,可以分别设计和从而配置闭环系统的极点。因此,对于优化问题1,分离定理成立。
注1:配置特征值的方法有很多,如极点配置,李雅普诺夫方法等。本发明在系统模型含有未知参数的情况下,如何完全利用可测数据分别设计与,保证闭环系统稳定,并且优化性能指标(7)。
2.最优观测器设计,给出不利用被控系统和观测器系统矩阵的最优观测器非策略Q-学习算法,学习最优观测器。引入观测器策略,定义如下优化问题:
问题2
满足
如下先给出基于系统模型的最优观测器策略,进而得到不用系统矩阵的数据驱动的最优观测器策略设计方法。设计的最优观测器策略不仅要保证观测器误差收敛到零,并且优化性能指标(9)。
2.1 依赖模型的最优观测器设计
根据性能指标(9),定义最优值函数和最优函数为:
其中。得到最优值函数和最优函数的关系为:
对于优化问题2,如果观测器策略为,那么值函数和函数可以表示成如下二次型:
和
其中
基于动态规划,由式(12)得到基于函数的贝尔曼(Bellman) 方程如下:
根据实现最优性能的必要条件,由可以得到:
其中
将式(19)代入到式(18),可以得到代数黎卡提方程,
为求解式(21)中函数矩阵,给出如下算法。
算法1:基于模型的策略迭代算法
1. 初始化:给定保证估计误差稳定的观测器增益,令为迭代指标;
2. 策略评估:通过式(22)求解数迭代矩阵
3. 策略更新:
4. 如果,算法停止;否则令,回到步骤2。
注2:已经证明和,(其中为式(21)的解)。从算法1可知,学习函数矩阵要求系统矩阵和精确已知,然而实际控制系统模型中含有未知参数,那么算法1无法执行。完全利用可测数据,针对具有未知参数的系统,设计最优观测器是本发明研究的目的。下一小节给出一种非策略的-学习算法,在系统矩阵中含有未知参数的情况下,学习得到近似最优观测器增益。
2.2 最优观测器非策略-学习算法设计
将引入两种操作,第一种是定义一个与最优函数矩阵相关的虚拟函数矩阵
另一种操作是在系统(4)引入一个辅助变量,得到
其中,用于产生系统数据,称为行为策略,是目标策略,目的是收敛到最优观测器策略。
由式(16)和式(24),得到
沿着系统轨迹(25),结合式(22)和式(26),得到
令,改写式(27)为
其中
由式(26),改写式(23)为:
定理1:如果矩阵可逆,那么存在唯一矩阵, 满足
和(27),使得(30) 收敛到最优观测器策略,即。
证:首先,证明如果矩阵是迭代方程(27)的解,那么由式(31)得到的矩阵满足式(22)成立。已知和的动态(25),如果矩阵是迭代方程(27)的解,那么保证如下式子成立:
由引理1中的式(17)和式(32),由式(31)定义的矩阵保证式(22)成立。接下来,我们证明式(27)存在唯一的解。假设式(27)存在两个不同的解和,那么由式(31)我们能得到矩阵和,其中,既然矩阵可逆,那么有和
如果矩阵和矩阵相同,那么矩阵和矩阵相等,所以矩阵和矩阵不相等。然而,式(22)有唯一解,所以根据反证法,原假设式(27)存在两个不同的解和不成立。由式(30),有
证毕。
注3:定理1要求即使矩阵中含有未知参数,要能够判断是否可逆。
算法2:非策略-学习算法
1. 数据收集: 给定保证估计误差稳定的行为策略,收集数据,存储到样本集合和;
2. 初始化:给定初始观测器增益, 保证估计误差系统(4)稳定。令;
3. 执行学习:用最小二乘法估计式(28)中虚拟函数矩阵,然后利用式(30)更新观测器增益;
4. 如果,停止算法,否则令,回到步骤3。
注4:使用算法2,可以通过非策略-学习方法很容易地学习最优观测器增益,算法2最重要的优点是它独立于系统矩阵,不要求系统矩阵完全已知。另外,矩阵的引入使得仅利用可测的输入和输出数据来学习最优观测器增益成为可能。
3.最优控制器设计
根据分离定理,控制器增益矩阵要保证镇定,并且优化问题1中性能指标(7)。因而,给出如下优化问题:
问题3
满足
改写问题3为:
满足式(34)。其中。
根据性能指标(35),定义最优值函数和最优函数为:
得到最优值函数和最优函数的关系为:
对于可镇定的控制策略, 最优值函数和最优函数可以表示为如下二次型
其中,
在系统矩阵含有未知参数的情况下,下面将给出求解问题3的不要求系统矩阵完全已知的策略-学习算法和非策略-学习算法。
3.1 策略学习算法设计
采用动态规划方法,由式(36)和式(37),得到基于最优函数的贝尔曼方程:
根据实现最优性能的必要条件,执行得到
算法3给出求解式(43)中最优函数矩阵的方法,注意到此方法不需要系统矩阵已知。
算法3:依赖策略的迭代算法
1. 初始化:给定可镇定控制器增益矩阵,令为迭代指标;
2. 策略评估:既然,并且由(43)可以得到式(46)。由式(46)求解最优函数迭代矩阵:
其中,
。
3. 策略更新:
4. 如果停止迭代;否则回到步骤2,继续执行算法。
注5:执行算法3,有且。但是,算法3要求系统添加探测噪声,以便满足持续激励条件。采用策略-学习算法3,如果系统加入探测噪声,式(46)的解可能会有偏差。而非策略-学习算法,即使系统加入探测噪声,也会学习得到无偏解。因此,4.2节给出非策略-学习算法,以便找到最优控制器增益。
3.2 非策略-学习方法
在系统(34)中引入辅助控制策略,有
其中,为用于产生系统数据的行为策略,为目标策略,设计的算法目标是当时,收敛到。沿着系统(48)的轨迹,有:
由式(41),(42),(46),式(49)改写为:
进而有,
进一步处理,有:
式(52)可以改写为:
其中,
注6:如果是式(46)的解当且仅当是式(53)的解。[16, 20, 21]已经给出这一结论的证明。
注7:利用最小二乘法求解式(53)中最优函数迭代矩阵时,需要利用行为控制策略产生的状态数据。然而,状态数据不可测量。由于本发明采用非策略-学习算法,可以取可镇定的观测器行为策略和控制器行为控制策略作用系统(1)和(2),通过比较和,当接近时,用代替 ,求解式(53),得到最优函数迭代矩阵,进而得到控制器增益。
结合算法2和3,给出算法4,得到近似最优控制器增益矩阵。
算法4:基于非策略-学习方式的最优状态估计反馈控制器设计算法
1. 选取行为控制策略和行为观测器策略作用系统,收集数据和;
2. 给定初始观测器增益和可镇定控制器增益,令;
3. 执行算法2中第3步骤,得到虚拟函数迭代矩阵和观测器策略增益;
4. 用代替 (前提是接近 ),利用式(53)计算函数迭代矩阵,计算。如果,停止迭代;否则令回到步骤3。
执行算法4,如果足够小,迭代指数足够大,无限接近, 无限接近。对于具有未知参数的离散线性系统,算法4完全利用可测的输入、输出,状态观测器状态学习最优观测器增益,最优控制器增益。并且,如果系统矩阵完全未知,但是能够实际应用判断系统的能控性和能观性,并且能保证矩阵可逆,算法4仍然适用。
4.仿真结果(Simulation results)
考虑如下具有未知参数的开环不稳定系统:
其中,参数,假设未知。系统能控、能观。选取。
a) 基于模型求最优观测器策略和控制器策略
,对于优化问题2,用Matlab 软件中"dare"命令可以计算获得最优函数矩阵:
由式(24) 计算得到:
由式(19) 计算最优观测器增益为:
对于优化问题3,用Matlab 软件中"dare"命令可以计算获得最优函数矩阵:
最优控制器增益为
b) 模型参数未知情况下,求最优观测器和控制器策略
给定观测器增益矩阵初始值为:
和控制器增益矩阵初始值为:
执行算法4,如图1所示,迭代矩阵和观测器增益迭代矩阵收敛过程;
经过10次策略迭代,观测器最优函数迭代矩阵和迭代增益矩阵分别收敛到最优和。
图2给出控制器最优函数迭代矩阵收敛到最优和控制器增益收敛到的曲线。迭代矩阵和控制器增益迭代矩阵收敛过程。
图3分别给出采用非策略-学习得到的最优控制律和观测器下系统的状态曲线;图4最优控制律和观测器策略;观测器状态曲线和观测器误差曲线。可以看出,观测器较好地估计了系统的状态。表1给出最优控制器和一般可镇定控制器下系统性能比较。
表1 性能比较
由表1可知,在系统矩阵存在参数未知的情况下采用算法4能够利用可测的系统输入、输出数据和观测器状态可以学习最优控制器增益和最优观测器增益,实现基于观测器状态反馈的优化控制。
Claims (4)
1.一种基于非策略的观测器状态反馈的优化控制方法,其特征在于,所述方法包括以下控制过程:
首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统,定义性能优化指标;然后,基于分离原理,动态规划和学习方法,给出一种具有未知模型参数的非策略学习算法,并设计近似最优观测器,设计近似最优控制器,进而得到完全利用可测量的系统输出和控制输入数据的非策略学习算法,实现基于观测器状态反馈的系统优化控制策略;构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统,包括基于观测器状态反馈的线性离散系统最优控制,考虑具有未知模型参数的线性离散系统的状态方程;鉴于实际控制系统状态很难直接测量或者只能测量部分状态信息,加上测量成本高,所以设计全维状态观测器;定义性能优化指标包括在系统模型含有未知参数的情况下,利用可测数据设计,保证闭环系统稳定,并且优化性能指标;设计近似最优观测器包括依赖模型的最优观测器设计以及最优观测器非策略-学习算法设计;最优控制器设计包括根据分离定理,控制器增益矩阵要保证镇定,并且优化问题1中性能指标;在系统矩阵存在参数未知的情况下采用算法4能够利用可测的系统输入、输出数据和观测器状态可以学习最优控制器增益和最优观测器增益,实现基于观测器状态反馈的优化控制。
2.根据权利要求1所述的一种基于非策略的观测器状态反馈的优化控制方法,其特征在于,所述优观测器设计先给出基于系统模型的最优观测器策略,进而得到不用系统矩阵的数据驱动的最优观测器策略设计方法。
3.根据权利要求1所述的一种基于非策略的观测器状态反馈的优化控制方法,其特征在于,所述问题1为最优控制问题表述为:
。
4.根据权利要求1所述的一种基于非策略的观测器状态反馈的优化控制方法,其特征在于,所述算法4为基于非策略Q-学习方式的最优状态估计反馈控制器设计算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910176776.1A CN109932905B (zh) | 2019-03-08 | 2019-03-08 | 一种基于非策略的观测器状态反馈的优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910176776.1A CN109932905B (zh) | 2019-03-08 | 2019-03-08 | 一种基于非策略的观测器状态反馈的优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109932905A true CN109932905A (zh) | 2019-06-25 |
CN109932905B CN109932905B (zh) | 2021-11-09 |
Family
ID=66986606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910176776.1A Active CN109932905B (zh) | 2019-03-08 | 2019-03-08 | 一种基于非策略的观测器状态反馈的优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109932905B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110703600A (zh) * | 2019-09-20 | 2020-01-17 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 基于离散时间观测状态的离散反馈控制器设计方法、设备及存储介质 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN111273543A (zh) * | 2020-02-15 | 2020-06-12 | 西北工业大学 | 一种基于策略迭代的pid优化控制方法 |
CN112130451A (zh) * | 2020-09-23 | 2020-12-25 | 兰州理工大学 | 一种矿山充填浆料浓度高精度控制方法 |
CN112859604A (zh) * | 2021-01-11 | 2021-05-28 | 辽宁石油化工大学 | 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法 |
CN113325804A (zh) * | 2021-06-08 | 2021-08-31 | 中国科学院数学与系统科学研究院 | 一种运动控制系统的q学习扩张状态观测器设计方法 |
CN113608437A (zh) * | 2021-07-15 | 2021-11-05 | 山东科技大学 | 具有丢包和多时滞的网络控制系统的最优控制研究方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503244A (zh) * | 2014-12-29 | 2015-04-08 | 中国科学技术大学 | 基于非重复性扰动观测器的精密定位选择性ilc系统及方法 |
US20160357166A1 (en) * | 2015-06-03 | 2016-12-08 | Honeywell Spol. S.R.O. | Gray box model estimation for process controller |
CN107479384A (zh) * | 2017-09-05 | 2017-12-15 | 西北工业大学 | 高超声速飞行器神经网络复合学习非反步控制方法 |
CN108762087A (zh) * | 2018-06-19 | 2018-11-06 | 华北水利水电大学 | 一种线性离散周期系统的鲁棒全维状态观测器设计方法 |
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
CN109375514A (zh) * | 2018-11-30 | 2019-02-22 | 沈阳航空航天大学 | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 |
-
2019
- 2019-03-08 CN CN201910176776.1A patent/CN109932905B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503244A (zh) * | 2014-12-29 | 2015-04-08 | 中国科学技术大学 | 基于非重复性扰动观测器的精密定位选择性ilc系统及方法 |
US20160357166A1 (en) * | 2015-06-03 | 2016-12-08 | Honeywell Spol. S.R.O. | Gray box model estimation for process controller |
CN107479384A (zh) * | 2017-09-05 | 2017-12-15 | 西北工业大学 | 高超声速飞行器神经网络复合学习非反步控制方法 |
CN108762087A (zh) * | 2018-06-19 | 2018-11-06 | 华北水利水电大学 | 一种线性离散周期系统的鲁棒全维状态观测器设计方法 |
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
CN109375514A (zh) * | 2018-11-30 | 2019-02-22 | 沈阳航空航天大学 | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 |
Non-Patent Citations (3)
Title |
---|
BAHARE KIUMARSI ET AL.: "Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input–Output Measured Data", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
康军 等: "具有状态观测器的网络化控制系统的设计", 《控制与决策》 * |
李金娜 等: "数据驱动的工业过程运行优化控制", 《控制理论与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110703600A (zh) * | 2019-09-20 | 2020-01-17 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 基于离散时间观测状态的离散反馈控制器设计方法、设备及存储介质 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN110782011B (zh) * | 2019-10-21 | 2023-11-24 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN111273543A (zh) * | 2020-02-15 | 2020-06-12 | 西北工业大学 | 一种基于策略迭代的pid优化控制方法 |
CN111273543B (zh) * | 2020-02-15 | 2022-10-04 | 西北工业大学 | 一种基于策略迭代的pid优化控制方法 |
CN112130451A (zh) * | 2020-09-23 | 2020-12-25 | 兰州理工大学 | 一种矿山充填浆料浓度高精度控制方法 |
CN112130451B (zh) * | 2020-09-23 | 2021-07-23 | 兰州理工大学 | 一种矿山充填浆料浓度高精度控制方法 |
CN112859604A (zh) * | 2021-01-11 | 2021-05-28 | 辽宁石油化工大学 | 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法 |
CN113325804A (zh) * | 2021-06-08 | 2021-08-31 | 中国科学院数学与系统科学研究院 | 一种运动控制系统的q学习扩张状态观测器设计方法 |
CN113325804B (zh) * | 2021-06-08 | 2022-03-29 | 中国科学院数学与系统科学研究院 | 一种运动控制系统的q学习扩张状态观测器设计方法 |
CN113608437A (zh) * | 2021-07-15 | 2021-11-05 | 山东科技大学 | 具有丢包和多时滞的网络控制系统的最优控制研究方法 |
CN113608437B (zh) * | 2021-07-15 | 2023-11-03 | 临沂大学 | 具有丢包和多时滞的网络控制系统的最优控制研究方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109932905B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109932905A (zh) | 一种基于非策略的观测器状态反馈的优化控制方法 | |
Djordjevic et al. | Data-driven control of hydraulic servo actuator based on adaptive dynamic programming. | |
Xu et al. | Adaptive observer based data-driven control for nonlinear discrete-time processes | |
Wang et al. | Data-based adaptive critic designs for nonlinear robust optimal control with uncertain dynamics | |
CN105260786B (zh) | 一种电力推进系统仿真可信度评估模型综合优化方法 | |
Raol et al. | Modelling and parameter estimation of dynamic systems | |
Wei et al. | Neural-network-based adaptive optimal tracking control scheme for discrete-time nonlinear systems with approximation errors | |
CN108153153A (zh) | 一种学习变阻抗控制系统及控制方法 | |
CN103646278B (zh) | 基于自适应策略的粒子群算法在机器人路径规划中的应用 | |
CN110083064A (zh) | 一种基于非策略q-学习的网络最优跟踪控制方法 | |
CN104539601B (zh) | 动态网络攻击过程可靠性分析方法及系统 | |
CN110083063A (zh) | 一种基于非策略q学习的多个体优化控制方法 | |
Putra et al. | Estimation of parameters in the SIR epidemic model using particle swarm optimization | |
CN108121215A (zh) | 基于全回路重构仿真的工业控制回路性能评价方法及装置 | |
CN111106772A (zh) | 一种包含参数跟踪的感应电机状态强跟踪滤波估计方法 | |
CN108460462A (zh) | 一种基于区间参数优化的区间神经网络学习方法 | |
Liang et al. | Data-driven bipartite formation for a class of nonlinear MIMO multiagent systems | |
Kim et al. | On improving the robustness of reinforcement learning-based controllers using disturbance observer | |
CN106054606A (zh) | 基于级联观测器的无模型控制方法 | |
CN107168066A (zh) | 一种温室环境自适应控制方法 | |
CN111539508B (zh) | 基于改进灰狼算法的发电机励磁系统参数辨识算法 | |
Borja et al. | Shaping the energy of port-Hamiltonian systems without solving PDE's | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
Cheng et al. | Artificial bee colony algorithm-based multiple-source localization method for wireless sensor network | |
Liu et al. | Stochastic nonholonomic source seeking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190625 Assignee: Liaoning Hengyi special material Co.,Ltd. Assignor: Liaoming Petrochemical University Contract record no.: X2023210000276 Denomination of invention: An Optimal Control Method Based on Non Policy Observer State Feedback Granted publication date: 20211109 License type: Common License Record date: 20231130 |