CN110083064A - 一种基于非策略q-学习的网络最优跟踪控制方法 - Google Patents
一种基于非策略q-学习的网络最优跟踪控制方法 Download PDFInfo
- Publication number
- CN110083064A CN110083064A CN201910352958.XA CN201910352958A CN110083064A CN 110083064 A CN110083064 A CN 110083064A CN 201910352958 A CN201910352958 A CN 201910352958A CN 110083064 A CN110083064 A CN 110083064A
- Authority
- CN
- China
- Prior art keywords
- strategy
- network
- packet loss
- learning
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000004891 communication Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004088 simulation Methods 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000011217 control strategy Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 6
- 229940088594 vitamin Drugs 0.000 description 6
- 229930003231 vitamin Natural products 0.000 description 6
- 235000013343 vitamin Nutrition 0.000 description 6
- 239000011782 vitamin Substances 0.000 description 6
- 150000003722 vitamin derivatives Chemical class 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000287196 Asthenes Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于非策略Q‑学习的网络最优跟踪控制方法,涉及一种网络跟踪控制方法,本发明针对具有数据包丢失的网络化控制系统跟踪控制问题,提出了一种新的非策略Q‑学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标。本发明不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q‑函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。
Description
技术领域
本发明涉及一种网络跟踪控制方法,特别是涉及一种基于非策略Q-学习的网络最优跟踪控制方法。
背景技术
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致,将强化学习分为策略(On-policy)学习和非策略(Off-Policy)学习。如果在学习过程中,动作选择的行为策略和学习改进的目标策略一致,该方法就被称为策略学习,否则被称为非策略学习。
非策略强化学习相比于策略学习具有一些优势,并且具有预期的特性:(a)它解决了探索-开发的困境。系统采用任意行为策略来保证数据的充分挖掘,而实际学习的是最优开发策略或目标策略;(b)通常需要探测噪声来保证持续激励(PE)条件,非策略强化学习能保证贝尔曼方程解的无偏性。对于最优控制问题。目前应用Q-学习算法取得了很多研究成果,但是采用非策略Q-学习研究最优化控制还处于初级阶段。采用非策略Q-学习算法解决离散系统控制,给出仿射非线性系统交错非策略Q-学习迭代算法,自适应批判Q-学习算法,学习最优控制策略。
随着信息技术、网络技术和计算机技术的飞速发展,基于网络的控制系统已经成为自动化领域一个重要控制技术,网络控制系统的研究也是近年来自动控制领域的研究热点。对于具有数据包丢失的网络控制系统,现有的控制和优化方法主要采用基于模型的控制策略,要求系统模型参数已知,采用确定的、鲁棒或者随机控制方法镇定系统,并优化系统性能。
系统模型参数未知,并且信息传输存在数据丢失,这些给最优控制器设计带来挑战。执行自适应Q-学习算法时,不要求系统模型参数已知,需要利用可测的控制输入,状态信息学习最优控制策略。由于网络传输中存在数据丢失,当前的数据信息无法获得,提出Smith预测补偿,设计策略Q-学习算法找到最优跟踪控制器增益。然而,采用非策略Q-学习方法,补偿数据包丢失,在系统模型参数未知的情况下,解决最优跟踪控制问题还未得到研究,这是本发明研究的动机。
发明内容
本发明的目的在于提供一种基于非策略Q-学习的网络最优跟踪控制方法,本发明给出具有丢包补偿的网络控制系统非策略Q-学习方法,设计一种在线性离散网络控制系统的动力学方程未知的情况下,给出近似最优跟踪控制策略,优化网络控制系统性能。
本发明的目的是通过以下技术方案实现的:
一种基于非策略Q-学习的网络最优跟踪控制方法,所述方法利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标;首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;融合动态规划和强化学习方法,提出一种非策略Q-学习算法;此算法在系统动态未知的情况下,利用可测数据学习最优控制器增益矩阵;仿真结果表明,该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能;
该方法的运行过程包括以下:
1)具有丢包补偿的优化问题描述线性二次跟踪(LQT)问题和网络诱导丢包的模型;其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化;
2) 基于非策略Q学习方法求解优化;其中包括策略Q-学习算法设计、非策略 Q-学习算法设计;
3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
所述的一种基于非策略Q-学习的网络最优跟踪控制方法,所述Smith预测器,构建如下基于预测器估计的系统状态的反馈控制器
。
本发明的优点与效果是:
本发明不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。
附图说明
图1具有反馈丢包的网络控制系统;
图2学习过程中收敛到最优值;
图3学习过程中收敛到最优值;
图4 非策略Q-学习算法的输出跟踪轨迹;
图5非策略Q-学习算法的控制输入轨迹;
图6随机丢包顺序;
图7非策略Q-学习算法的输出跟踪轨迹;
图8非策略Q-学习算法的控制输入轨迹;
图9随机丢包顺序。
具体实施方式
下面结合实施例对本发明进行详细说明。
1.具有丢包补偿的优化
本发明介绍线性二次跟踪(LQT)问题和网络诱导丢包的模型,阐述具有数据包丢失的网络控制系统二次跟踪问题。
考虑如下线性离散系统
其中,是被控对象状态,为维,是被控输入,为维,是被控输出,为维。分别为和维。
参考信号如下
(2)
其中,是参考输入,为维,为维。在这个跟踪问题中,想要系统(1)中的输出跟踪参考输入。
令,由式(1)和式(2),得到如下增广系统
(3)
其中,。
1.1构建丢包补偿的Smith预测器
如图1所示,测量状态并通过通信网络传递给控制器,控制器利用获得的系统状态信息计算控制输入。假定状态信息是通过单个数据包传输的,某些数据包在传输中不可避免地丢失,称为网络诱导型的丢包。为控制器端接收的系统状态,其表达式为
其中,为发生的连续丢包数,为最大连续丢包数。
由式(1),得到
在使用TCP或UDP协议的情况下,丢包数是已知的。
当,
当,
当,
由式(5),构建如下Smith预测器,
其中,
注1:在时刻是已知的。
由于引入Smith预测器(9),本发明可以构建如下基于预测器估计的系统状态的反馈控制器
1.2具有丢包补偿的优化
本发明设计控制器(11),最小化如下性能指标,实现系统以最优的方式跟踪参考输入。
其中,是一个折现因子。如果参考信号发生器(2)是稳定的,则可以选择。如果(2)是不稳定的,例如跟踪一个单位步长,那么就需要。事实上,一旦选择了这个折现因子,这样便是稳定的。
由式(3),(9)和式(11),给出具有丢包补偿的网络控制系统线性二次跟踪控制(LQT)问题:
注2:在Smith预测器的帮助下,此时的LQT问题可以获取当前系统状态。
2.基于非策略Q学习方法求解优化
本发明解决存在丢包的离散网络系统LQT问题的非策略Q-学习方法。在现有文献的基础上引入了作为Q-函数矩阵设计了策略Q-学习算法,以便获取不依赖模型的控制器方案。然后又在此基础上,引入行为控制器,结合基于Q-函数的贝尔曼方程,提出了一种非策略Q-学习算法。
使用增广系统(3),网络诱导型丢包线性二次跟踪(丢包LQT)问题性能指数为
其中,。
令,则
由式(14),定义值函数和Q-函数分别为
给出如下引理,目的是提出非策略Q-学习算法。
引理1:对于系统(3),定义的Q-函数(17),可以表示成如下二次型
其中。
基于动态规划,得到基于Q-函数的贝尔曼方程
根据最优性的必要条件,令,可得最优控制输入
由(11)可知
注3:由于系统模型参数未知,所以矩阵也未知,控制器无法计算。不同于现有文献,在下文Q-学习算法中引入矩阵,以便获取不依赖模型,完全数据驱动的控制器学习算法。
2.1 策略Q-学习算法设计
由Smith预测器(9),Q-函数可以改写成
其中,
那么,贝尔曼方程(19)可以改写为
根据最优性必要条件,由,得到
定理1:贝尔曼方程(24)有唯一解,且式(25)等价于式(20)。
证明:假设贝尔曼方程(24)有两个不同的解,有
和
其中,。因为矩阵为行满秩,所以矩阵可逆。由于,所以。那么式(19)存在两个不同解,然而对于优化问题(13),贝尔曼方程(19)有唯一的解,产生矛盾。原假设式(24)有两个不同的解和不成立。因而式(24)有唯一的解。
将式(23)展开
其中,。
所以,式(25)等价于式(20)。证明完毕。
为了求解式(24)中的Q-函数矩阵,给出算法1。
算法1:策略Q-学习算法
1.初始化:给定稳定控制器增益,并设,其中表示迭代系数;
2.通过求解Q-函数矩阵进行策略评估:
3. 策略更新:
4. 如果(是一个很小的正数),便可以停止策略迭代
注4:在算法1中加入探测噪声会引起矩阵的偏差,导致最优跟踪控制器增益不准确。本发明通过研究非策略学习方法,学习最优跟踪控制器,解出无偏的Q-函数矩阵。因此给出非策略Q-学习算法2。
注5:迭代矩阵收敛于式(24)中解,证明类似现有文献,略。
2.2非策略 Q-学习算法设计
引入目标控制策略到系统动态中,得到式(32),其中是行为控制策略,为目标控制策略。
结合(32),利用(29),有
其中,
进一步整理,可将(33)写成
其中,
由式(35)中的,和,可得控制器迭代增益矩阵
算法2:非策略Q-学习算法
1.数据收集:选择可镇定的行为控制策略作用于被控系统,收集系统数据,并将它们储存于样本集和中;
2. 初始化:选择一个控制器增益,并设定,其中代表迭代系数。
3. 执行Q-学习:通过使用递归最小二乘(RLS)或批最小二乘(BLS)方法,计算, , ,并且由式(36)计算;
4. 如果(是一个很小的正数),便可以停止策略迭代,此时已找到最优控制策略。否则的话,便令,并重复步骤3。
注6:式(35)迭代矩阵等价于式(29)中迭代矩阵,证明类似现有文献。由于式(29)中收敛式(24)的解,那么有。
注7:既然非策略强化学习方法在控制输入加入探测噪声时,仍然保证贝尔曼方程解的无偏性,本发明不同于现有文献采用的策略Q-学习算法。本发明给出非策略Q-学习算法学习基于Smith预测器的最优状态反馈控制律学习算法。
4. 仿真实验
通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
首先,考虑如下的开环不稳定系统
参考信号发生器为
选择,并且连续反馈丢包的最大数目为。此时,丢包Smith预测器矩阵为
此时,最优Q-函数矩阵和最优跟踪制器增益可以分别从(18)和(21)中得到。
然后执行算法2,经过十次迭代,算法收敛得到最优Q-函数矩阵和最优控制器增益。
图2和图3分别展示了在学习过程中,收敛到最优值的过程。
图4和图5分别展示了非策略Q-学习算法的输出跟踪轨迹和控制输入轨迹。仿真表明,在网络最大丢包数为1的情况下,采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制,系统跟踪性能较好。
图6为最大连续丢包数时的随机丢包顺序。接下来考虑最大连续丢包数为时,执行算法2经过10次迭代得到最优Q-函数矩阵和最优控制器增益。
图7-9分别给出系统在网络最大丢包数为2时,利用算法2得到的近似最优控制作用下,系统的输出跟踪曲线、控制输入曲线和网络丢包情况。仿真表明,在网络最大丢包数为2的情况下,采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制,系统输出能够跟踪参考输入,但随着网络性能变差,跟踪性能受到一定程度影响。
Claims (2)
1.一种基于非策略Q-学习的网络最优跟踪控制方法,其特征在于,所述方法利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标;首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;融合动态规划和强化学习方法,提出一种非策略Q-学习算法;此算法在系统动态未知的情况下,利用可测数据学习最优控制器增益矩阵;仿真结果表明,该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能;
该方法的运行过程包括以下:
1)具有丢包补偿的优化问题描述线性二次跟踪(LQT)问题和网络诱导丢包的模型;其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化;
2) 基于非策略Q学习方法求解优化;其中包括策略Q-学习算法设计、非策略 Q-学习算法设计;
3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
2.根据权利要求1所述的一种基于非策略Q-学习的网络最优跟踪控制方法,其特征在于,所述Smith预测器(9),构建如下基于预测器估计的系统状态的反馈控制器
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910352958.XA CN110083064B (zh) | 2019-04-29 | 2019-04-29 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910352958.XA CN110083064B (zh) | 2019-04-29 | 2019-04-29 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083064A true CN110083064A (zh) | 2019-08-02 |
CN110083064B CN110083064B (zh) | 2022-02-15 |
Family
ID=67417661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910352958.XA Active CN110083064B (zh) | 2019-04-29 | 2019-04-29 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083064B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN111585822A (zh) * | 2020-05-18 | 2020-08-25 | 青岛科技大学 | 一种网络系统中数据丢包的提升模型预测补偿方法 |
CN111770546A (zh) * | 2020-06-28 | 2020-10-13 | 江西理工大学 | 一种基于q学习的容迟网络随机网络编码策略 |
CN112859604A (zh) * | 2021-01-11 | 2021-05-28 | 辽宁石油化工大学 | 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法 |
CN112925203A (zh) * | 2021-01-21 | 2021-06-08 | 深圳翱诺科技有限公司 | 一种基于加强学习的最优跟踪控制算法 |
CN113515044A (zh) * | 2021-07-02 | 2021-10-19 | 北京理工大学 | 一种轮式移动机器人的基于学习预测跟踪控制方法及装置 |
CN114200834A (zh) * | 2021-11-30 | 2022-03-18 | 辽宁石油化工大学 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
CN114237184A (zh) * | 2021-12-20 | 2022-03-25 | 杭州电子科技大学 | 一种工业过程的优化学习控制性能提升方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843037A (zh) * | 2016-04-11 | 2016-08-10 | 中国科学院自动化研究所 | 基于q学习的智能楼宇温度控制方法 |
CN108112082A (zh) * | 2017-12-18 | 2018-06-01 | 北京工业大学 | 一种基于无状态q学习的无线网络分布式自主资源分配方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109375514A (zh) * | 2018-11-30 | 2019-02-22 | 沈阳航空航天大学 | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 |
-
2019
- 2019-04-29 CN CN201910352958.XA patent/CN110083064B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843037A (zh) * | 2016-04-11 | 2016-08-10 | 中国科学院自动化研究所 | 基于q学习的智能楼宇温度控制方法 |
CN108112082A (zh) * | 2017-12-18 | 2018-06-01 | 北京工业大学 | 一种基于无状态q学习的无线网络分布式自主资源分配方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109375514A (zh) * | 2018-11-30 | 2019-02-22 | 沈阳航空航天大学 | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 |
Non-Patent Citations (2)
Title |
---|
CHAO-RAN WANG等: "Off-Policy Reinforcement Learning for Optimal Preview Tracking Control of Linear Discrete-Time systems with unknown dynamics", 《2018 CHINESE AUTOMATION CONGRESS (CAC)》 * |
YI JIANG: "Tracking Control for LinearDiscrete-Time Networked Control Systems With Unknown Dynamics and Dropout", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN110782011B (zh) * | 2019-10-21 | 2023-11-24 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN111585822A (zh) * | 2020-05-18 | 2020-08-25 | 青岛科技大学 | 一种网络系统中数据丢包的提升模型预测补偿方法 |
CN111770546A (zh) * | 2020-06-28 | 2020-10-13 | 江西理工大学 | 一种基于q学习的容迟网络随机网络编码策略 |
CN111770546B (zh) * | 2020-06-28 | 2022-09-16 | 江西理工大学 | 一种基于q学习的容迟网络随机网络编码方法 |
CN112859604A (zh) * | 2021-01-11 | 2021-05-28 | 辽宁石油化工大学 | 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法 |
CN112925203A (zh) * | 2021-01-21 | 2021-06-08 | 深圳翱诺科技有限公司 | 一种基于加强学习的最优跟踪控制算法 |
CN113515044A (zh) * | 2021-07-02 | 2021-10-19 | 北京理工大学 | 一种轮式移动机器人的基于学习预测跟踪控制方法及装置 |
CN113515044B (zh) * | 2021-07-02 | 2022-08-26 | 北京理工大学 | 一种轮式移动机器人的基于学习预测跟踪控制方法及装置 |
CN114200834A (zh) * | 2021-11-30 | 2022-03-18 | 辽宁石油化工大学 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
CN114237184A (zh) * | 2021-12-20 | 2022-03-25 | 杭州电子科技大学 | 一种工业过程的优化学习控制性能提升方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110083064B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083064B (zh) | 一种基于非策略q-学习的网络最优跟踪控制方法 | |
Zou et al. | Constrained predictive control synthesis for quantized systems with Markovian data loss | |
Kiumarsi et al. | Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics | |
CN109932905B (zh) | 一种基于非策略的观测器状态反馈的优化控制方法 | |
Pérez-González et al. | Modeling of a greenhouse prototype using PSO and differential evolution algorithms based on a real-time LabView™ application | |
CN110083063B (zh) | 一种基于非策略q学习的多个体优化控制方法 | |
JP2022544474A (ja) | 技術システムのための改善された機械学習 | |
Lian et al. | Integrated sliding mode control and neural networks based packet disordering prediction for nonlinear networked control systems | |
CN104317195B (zh) | 一种基于改进极限学习机的非线性逆模型控制方法 | |
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
Huo et al. | Encoding–decoding mechanism-based finite-level quantized iterative learning control with random data dropouts | |
Huang et al. | Repeated anticipatory network traffic control using iterative optimization accounting for model bias correction | |
Vafashoar et al. | Reinforcement learning in learning automata and cellular learning automata via multiple reinforcement signals | |
CN117787186A (zh) | 基于分层强化学习的多目标芯片布局优化方法 | |
Rostampour et al. | Distributed stochastic model predictive control synthesis for large-scale uncertain linear systems | |
Yin et al. | Security data-driven iterative learning control for unknown nonlinear systems with hybrid attacks and fading measurements | |
Hu et al. | On consensus performance of nonlinear multi-agent systems with hybrid control | |
Zhang et al. | Data-driven control of consensus tracking for discrete-time multi-agent systems | |
Hager et al. | Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design | |
Shi et al. | A new approach to feedback feed-forward iterative learning control with random packet dropouts | |
Huang et al. | Off-policy reinforcement learning for tracking control of discrete-time Markov jump linear systems with completely unknown dynamics | |
Kamalapurkar | Model-based reinforcement learning for online approximate optimal control | |
Yan et al. | High‐order leader‐follower tracking control under limited information availability | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
Fagan et al. | Dynamic multi-agent reinforcement learning for control optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190802 Assignee: Liaoning Hengyi special material Co.,Ltd. Assignor: Liaoming Petrochemical University Contract record no.: X2023210000276 Denomination of invention: A Network Optimal Tracking Control Method Based on Non Policy Q-Learning Granted publication date: 20220215 License type: Common License Record date: 20231130 |