CN110083064B - 一种基于非策略q-学习的网络最优跟踪控制方法 - Google Patents

一种基于非策略q-学习的网络最优跟踪控制方法 Download PDF

Info

Publication number
CN110083064B
CN110083064B CN201910352958.XA CN201910352958A CN110083064B CN 110083064 B CN110083064 B CN 110083064B CN 201910352958 A CN201910352958 A CN 201910352958A CN 110083064 B CN110083064 B CN 110083064B
Authority
CN
China
Prior art keywords
strategy
learning
packet loss
network
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910352958.XA
Other languages
English (en)
Other versions
CN110083064A (zh
Inventor
李金娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN201910352958.XA priority Critical patent/CN110083064B/zh
Publication of CN110083064A publication Critical patent/CN110083064A/zh
Application granted granted Critical
Publication of CN110083064B publication Critical patent/CN110083064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于非策略Q‑学习的网络最优跟踪控制方法,涉及一种网络跟踪控制方法,本发明针对具有数据包丢失的网络化控制系统跟踪控制问题,提出了一种新的非策略Q‑学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标。本发明不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q‑函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。

Description

一种基于非策略Q-学习的网络最优跟踪控制方法
技术领域
本发明涉及一种网络跟踪控制方法,特别是涉及一种基于非策略Q-学习的网络最优跟踪控制方法。
背景技术
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致,将强化学习分为策略(On-policy)学习和非策略(Off-Policy)学习。如果在学习过程中,动作选择的行为策略和学习改进的目标策略一致,该方法就被称为策略学习,否则被称为非策略学习。
非策略强化学习相比于策略学习具有一些优势,并且具有预期的特性:(a)它解决了探索-开发的困境。系统采用任意行为策略来保证数据的充分挖掘,而实际学习的是最优开发策略或目标策略;(b)通常需要探测噪声来保证持续激励(PE)条件,非策略强化学习能保证贝尔曼方程解的无偏性。对于最优控制问题。目前应用Q-学习算法取得了很多研究成果,但是采用非策略Q-学习研究最优化控制还处于初级阶段。采用非策略Q-学习算法解决离散系统
Figure 406185DEST_PATH_IMAGE001
控制,给出仿射非线性系统交错非策略Q-学习迭代算法,自适应批判Q-学习算法,学习最优控制策略。
随着信息技术、网络技术和计算机技术的飞速发展,基于网络的控制系统已经成为自动化领域一个重要控制技术,网络控制系统的研究也是近年来自动控制领域的研究热点。对于具有数据包丢失的网络控制系统,现有的控制和优化方法主要采用基于模型的控制策略,要求系统模型参数已知,采用确定的、鲁棒或者随机控制方法镇定系统,并优化系统性能。
系统模型参数未知,并且信息传输存在数据丢失,这些给最优控制器设计带来挑战。执行自适应Q-学习算法时,不要求系统模型参数已知,需要利用可测的控制输入,状态信息学习最优控制策略。由于网络传输中存在数据丢失,当前的数据信息无法获得,提出Smith预测补偿,设计策略Q-学习算法找到最优跟踪控制器增益。然而,采用非策略Q-学习方法,补偿数据包丢失,在系统模型参数未知的情况下,解决最优跟踪控制问题还未得到研究,这是本发明研究的动机。
发明内容
本发明的目的在于提供一种基于非策略Q-学习的网络最优跟踪控制方法,本发明给出具有丢包补偿的网络控制系统非策略Q-学习方法,设计一种在线性离散网络控制系统的动力学方程未知的情况下,给出近似最优跟踪控制策略,优化网络控制系统性能。
本发明的目的是通过以下技术方案实现的:
一种基于非策略Q-学习的网络最优跟踪控制方法,所述方法利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标;首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;融合动态规划和强化学习方法,提出一种非策略Q-学习算法;此算法在系统动态未知的情况下,利用可测数据学习最优控制器增益矩阵;仿真结果表明,该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能;
该方法的运行过程包括以下:
1)具有丢包补偿的优化问题描述线性二次跟踪(LQT)问题和网络诱导丢包的模型;其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化;
2) 基于非策略Q学习方法求解优化;其中包括策略Q-学习算法设计、非策略 Q-学习算法设计;
3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
所述的一种基于非策略Q-学习的网络最优跟踪控制方法,所述Smith预测器,构建如下基于预测器估计的系统状态的反馈控制器
Figure 323326DEST_PATH_IMAGE002
本发明的优点与效果是:
本发明不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。
附图说明
图1具有反馈丢包的网络控制系统;
图2学习过程中
Figure 165380DEST_PATH_IMAGE003
收敛到最优值
Figure 872174DEST_PATH_IMAGE004
图3学习过程中
Figure 686546DEST_PATH_IMAGE005
收敛到最优值
Figure 571325DEST_PATH_IMAGE006
图4 非策略Q-学习算法的输出跟踪轨迹;
图5非策略Q-学习算法的控制输入轨迹;
图6随机丢包顺序;
图7非策略Q-学习算法的输出跟踪轨迹;
图8非策略Q-学习算法的控制输入轨迹;
图9随机丢包顺序。
具体实施方式
下面结合实施例对本发明进行详细说明。
1.具有丢包补偿的优化
本发明介绍线性二次跟踪(LQT)问题和网络诱导丢包的模型,阐述具有数据包丢失的网络控制系统二次跟踪问题。
考虑如下线性离散系统
Figure 838358DEST_PATH_IMAGE007
Figure 850308DEST_PATH_IMAGE008
其中,
Figure 519187DEST_PATH_IMAGE009
是被控对象状态,为
Figure 574867DEST_PATH_IMAGE010
维,
Figure 329197DEST_PATH_IMAGE011
是被控输入,为
Figure 380723DEST_PATH_IMAGE012
维,
Figure 904108DEST_PATH_IMAGE013
是被控输出,为
Figure 396269DEST_PATH_IMAGE014
维。
Figure 637895DEST_PATH_IMAGE015
分别为
Figure 726068DEST_PATH_IMAGE016
Figure 369538DEST_PATH_IMAGE017
维。
参考信号如下
Figure 767022DEST_PATH_IMAGE018
(2)
其中,
Figure 807528DEST_PATH_IMAGE019
是参考输入,为
Figure 886342DEST_PATH_IMAGE020
维,
Figure 446637DEST_PATH_IMAGE021
Figure 218284DEST_PATH_IMAGE022
维。在这个跟踪问题中,想要系统(1)中的输出
Figure 981971DEST_PATH_IMAGE023
跟踪参考输入
Figure 864477DEST_PATH_IMAGE024
Figure 279278DEST_PATH_IMAGE025
,由式(1)和式(2),得到如下增广系统
Figure 221826DEST_PATH_IMAGE026
(3)
其中,
Figure 991853DEST_PATH_IMAGE027
1.1构建丢包补偿的Smith预测器
如图1所示,测量状态
Figure 412470DEST_PATH_IMAGE028
并通过通信网络传递给控制器,控制器利用获得的系统状态信息计算控制输入
Figure 947356DEST_PATH_IMAGE029
。假定状态信息是通过单个数据包传输的,某些数据包在传输中不可避免地丢失,称为网络诱导型的丢包。
Figure 60806DEST_PATH_IMAGE030
为控制器端接收的系统状态,其表达式为
Figure 799086DEST_PATH_IMAGE031
其中,
Figure 23394DEST_PATH_IMAGE032
为发生的连续丢包数,
Figure 458792DEST_PATH_IMAGE033
为最大连续丢包数。
由式(1),得到
Figure 805460DEST_PATH_IMAGE034
在使用TCP或UDP协议的情况下,丢包数
Figure 217986DEST_PATH_IMAGE035
是已知的。
Figure 59035DEST_PATH_IMAGE036
Figure 302934DEST_PATH_IMAGE037
Figure 492607DEST_PATH_IMAGE038
Figure 514134DEST_PATH_IMAGE039
Figure 80245DEST_PATH_IMAGE040
Figure 194962DEST_PATH_IMAGE042
由式(5),构建如下Smith预测器,
Figure 555536DEST_PATH_IMAGE043
其中,
Figure 4972DEST_PATH_IMAGE044
注1:
Figure 374774DEST_PATH_IMAGE045
Figure 579884DEST_PATH_IMAGE046
时刻是已知的。
由于引入Smith预测器(9),本发明可以构建如下基于预测器估计的系统状态的反馈控制器
Figure 376938DEST_PATH_IMAGE047
1.2具有丢包补偿的优化
本发明设计控制器(11),最小化如下性能指标,实现系统以最优的方式跟踪参考输入。
Figure 48091DEST_PATH_IMAGE048
其中,
Figure 221583DEST_PATH_IMAGE049
是一个折现因子。如果参考信号发生器(2)是稳定的,则可以选择
Figure 45314DEST_PATH_IMAGE050
。如果(2)是不稳定的,例如跟踪一个单位步长,那么就需要
Figure 13270DEST_PATH_IMAGE051
。事实上,一旦选择了这个折现因子,这样
Figure 171719DEST_PATH_IMAGE052
便是稳定的。
由式(3),(9)和式(11),给出具有丢包补偿的网络控制系统线性二次跟踪控制(LQT)问题:
Figure 194907DEST_PATH_IMAGE053
注2:在Smith预测器的帮助下,此时的LQT问题可以获取当前系统状态。
2.基于非策略Q学习方法求解优化
本发明解决存在丢包的离散网络系统LQT问题的非策略Q-学习方法。在现有文献的基础上引入了
Figure 60095DEST_PATH_IMAGE054
作为Q-函数矩阵设计了策略Q-学习算法,以便获取不依赖模型的控制器方案。然后又在此基础上,引入行为控制器,结合基于Q-函数的贝尔曼方程,提出了一种非策略Q-学习算法。
使用增广系统(3),网络诱导型丢包线性二次跟踪(丢包LQT)问题性能指数为
Figure 74319DEST_PATH_IMAGE055
其中,
Figure 657747DEST_PATH_IMAGE056
Figure 969779DEST_PATH_IMAGE057
,则
Figure 955053DEST_PATH_IMAGE058
由式(14),定义值函数和Q-函数分别为
Figure 573466DEST_PATH_IMAGE059
给出如下引理,目的是提出非策略Q-学习算法。
引理1:对于系统(3),定义的Q-函数(17),可以表示成如下二次型
Figure 644191DEST_PATH_IMAGE060
其中
Figure 759914DEST_PATH_IMAGE061
基于动态规划,得到基于Q-函数的贝尔曼方程
Figure 599694DEST_PATH_IMAGE062
根据最优性的必要条件,令
Figure 893403DEST_PATH_IMAGE063
,可得最优控制输入
Figure 185844DEST_PATH_IMAGE064
由(11)可知
Figure 105259DEST_PATH_IMAGE065
注3:由于系统模型参数
Figure 799545DEST_PATH_IMAGE066
未知,所以矩阵
Figure 762691DEST_PATH_IMAGE067
也未知,控制器无法计算
Figure 808008DEST_PATH_IMAGE068
。不同于现有文献,在下文Q-学习算法中引入矩阵
Figure 265534DEST_PATH_IMAGE069
,以便获取不依赖模型,完全数据驱动的控制器学习算法。
2.1 策略Q-学习算法设计
由Smith预测器(9),Q-函数可以改写成
Figure 814327DEST_PATH_IMAGE070
其中,
Figure 715418DEST_PATH_IMAGE071
那么,贝尔曼方程(19)可以改写为
Figure 44768DEST_PATH_IMAGE072
根据最优性必要条件,由
Figure 243668DEST_PATH_IMAGE073
,得到
Figure 961482DEST_PATH_IMAGE074
定理1:贝尔曼方程(24)有唯一解
Figure 220425DEST_PATH_IMAGE075
,且式(25)等价于式(20)。
证明:假设贝尔曼方程(24)有两个不同的解
Figure 37071DEST_PATH_IMAGE076
,有
Figure 774083DEST_PATH_IMAGE077
Figure 110517DEST_PATH_IMAGE078
其中,
Figure 540362DEST_PATH_IMAGE079
。因为矩阵
Figure 578725DEST_PATH_IMAGE080
为行满秩,所以矩阵
Figure 119428DEST_PATH_IMAGE081
可逆。由于
Figure 74483DEST_PATH_IMAGE082
,所以
Figure 409649DEST_PATH_IMAGE083
。那么式(19)存在两个不同解,然而对于优化问题(13),贝尔曼方程(19)有唯一的解
Figure 200888DEST_PATH_IMAGE084
,产生矛盾。原假设式(24)有两个不同的解
Figure 279702DEST_PATH_IMAGE085
Figure 590729DEST_PATH_IMAGE086
不成立。因而式(24)有唯一的解
Figure 96797DEST_PATH_IMAGE087
将式(23)展开
Figure 375331DEST_PATH_IMAGE088
其中,
Figure 257837DEST_PATH_IMAGE089
所以,式(25)等价于式(20)。证明完毕。
为了求解式(24)中的Q-函数矩阵
Figure 918976DEST_PATH_IMAGE090
,给出算法1。
算法1:策略Q-学习算法
1.初始化:给定稳定控制器增益
Figure 861524DEST_PATH_IMAGE091
,并设
Figure 361775DEST_PATH_IMAGE092
,其中
Figure 782392DEST_PATH_IMAGE093
表示迭代系数;
2.通过求解Q-函数矩阵
Figure 68011DEST_PATH_IMAGE094
进行策略评估:
Figure 915882DEST_PATH_IMAGE095
3. 策略更新:
Figure 215014DEST_PATH_IMAGE096
4. 如果
Figure 501638DEST_PATH_IMAGE097
Figure 828715DEST_PATH_IMAGE098
是一个很小的正数),便可以停止策略迭代
注4:在算法1中加入探测噪声会引起矩阵
Figure 926115DEST_PATH_IMAGE099
的偏差,导致最优跟踪控制器增益不准确。本发明通过研究非策略学习方法,学习最优跟踪控制器
Figure 400958DEST_PATH_IMAGE100
,解出无偏的Q-函数矩阵
Figure 163378DEST_PATH_IMAGE101
。因此给出非策略Q-学习算法2。
注5:迭代矩阵
Figure 659475DEST_PATH_IMAGE102
收敛于式(24)中解
Figure 114727DEST_PATH_IMAGE103
,证明类似现有文献,略。
2.2非策略 Q-学习算法设计
引入目标控制策略到系统动态中,得到式(32),其中
Figure 76867DEST_PATH_IMAGE104
是行为控制策略,
Figure 642977DEST_PATH_IMAGE105
为目标控制策略。
Figure 492116DEST_PATH_IMAGE106
结合(32),利用(29)
Figure 118269DEST_PATH_IMAGE107
其中,
Figure 567705DEST_PATH_IMAGE108
进一步整理,可将(33)写成
Figure 671927DEST_PATH_IMAGE109
其中,
Figure 139687DEST_PATH_IMAGE110
由式(35)中的
Figure 936741DEST_PATH_IMAGE111
Figure 607894DEST_PATH_IMAGE112
Figure 781386DEST_PATH_IMAGE113
,可得控制器迭代增益矩阵
Figure 605117DEST_PATH_IMAGE114
算法2:非策略Q-学习算法
1.数据收集:选择可镇定的行为控制策略
Figure 573073DEST_PATH_IMAGE115
作用于被控系统,收集系统数据
Figure 731522DEST_PATH_IMAGE116
,并将它们储存于样本集
Figure 509639DEST_PATH_IMAGE117
Figure 640406DEST_PATH_IMAGE118
中;
2. 初始化:选择一个控制器增益
Figure 841580DEST_PATH_IMAGE119
,并设定
Figure 425008DEST_PATH_IMAGE120
,其中
Figure 550090DEST_PATH_IMAGE121
代表迭代系数。
3. 执行Q-学习:通过使用递归最小二乘(RLS)或批最小二乘(BLS)方法,计算
Figure 846948DEST_PATH_IMAGE122
,
Figure 156707DEST_PATH_IMAGE123
,
Figure 289748DEST_PATH_IMAGE124
,并且由式(36)计算
Figure 343155DEST_PATH_IMAGE125
4. 如果
Figure 995984DEST_PATH_IMAGE126
Figure 476644DEST_PATH_IMAGE127
是一个很小的正数),便可以停止策略迭代,此时已找到最优控制策略。否则的话,便令
Figure 831402DEST_PATH_IMAGE128
,并重复步骤3。
注6:式(35)迭代矩阵
Figure 688499DEST_PATH_IMAGE129
等价于式(29)中迭代矩阵
Figure 697300DEST_PATH_IMAGE130
,证明类似现有文献。由于式(29)中
Figure 286544DEST_PATH_IMAGE131
收敛式(24)的解
Figure 643445DEST_PATH_IMAGE132
,那么有
Figure 38655DEST_PATH_IMAGE133
注7:既然非策略强化学习方法在控制输入加入探测噪声时,仍然保证贝尔曼方程解的无偏性,本发明不同于现有文献采用的策略Q-学习算法。本发明给出非策略Q-学习算法学习基于Smith预测器的最优状态反馈控制律学习算法。
4. 仿真实验
通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
首先,考虑如下的开环不稳定系统
Figure 649764DEST_PATH_IMAGE134
参考信号发生器为
Figure 737806DEST_PATH_IMAGE135
选择
Figure 817889DEST_PATH_IMAGE136
,并且连续反馈丢包的最大数目为
Figure 751210DEST_PATH_IMAGE137
。此时,丢包Smith预测器矩阵为
Figure 482405DEST_PATH_IMAGE138
此时,最优Q-函数矩阵
Figure 741348DEST_PATH_IMAGE139
和最优跟踪制器增益
Figure 538753DEST_PATH_IMAGE140
可以分别从(18)和(21)中得到。
Figure 603661DEST_PATH_IMAGE141
Figure 127047DEST_PATH_IMAGE142
然后执行算法2,经过十次迭代,算法收敛得到最优Q-函数矩阵和最优控制器增益。
Figure 104361DEST_PATH_IMAGE143
图2和图3分别展示了在学习过程中,
Figure 408303DEST_PATH_IMAGE144
收敛到最优值
Figure 949006DEST_PATH_IMAGE145
的过程。
图4和图5分别展示了非策略Q-学习算法的输出跟踪轨迹和控制输入轨迹。仿真表明,在网络最大丢包数为1的情况下,采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制,系统跟踪性能较好。
图6为最大连续丢包数
Figure 638482DEST_PATH_IMAGE146
时的随机丢包顺序。接下来考虑最大连续丢包数为
Figure 239228DEST_PATH_IMAGE147
时,执行算法2经过10次迭代得到最优Q-函数矩阵和最优控制器增益。
Figure 764887DEST_PATH_IMAGE148
Figure 109281DEST_PATH_IMAGE149
图7-9分别给出系统在网络最大丢包数为2时,利用算法2得到的近似最优控制作用下,系统的输出跟踪曲线、控制输入曲线和网络丢包情况。仿真表明,在网络最大丢包数为2的情况下,采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制,系统输出能够跟踪参考输入,但随着网络性能变差,跟踪性能受到一定程度影响。

Claims (2)

1.一种基于非策略Q-学习的网络最优跟踪控制方法,其特征在于,所述方法利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标;首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;融合动态规划和强化学习方法,提出一种非策略Q-学习算法;此算法在系统动态未知的情况下,利用可测数据学习最优控制器增益矩阵;仿真结果表明,该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能;
该方法的运行过程包括以下:
1)具有丢包补偿的优化问题描述线性二次跟踪(LQT)问题和网络诱导丢包的模型;其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化;
2) 基于非策略Q学习方法求解优化;其中包括策略Q-学习算法设计、非策略 Q-学习算法设计;
3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性;
所述的非策略 Q-学习算法设计:
引入目标控制策略到系统动态中,得到(32),其中
Figure DEST_PATH_IMAGE002
是行为控制策略,
Figure DEST_PATH_IMAGE004
为目标控制策略;
Figure DEST_PATH_IMAGE006
(32)
结合(32),利用(29),有
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
(33)
其中,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
为丢包数,
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
分别为
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
维;
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
(34)
其中式(29)为:
Figure DEST_PATH_IMAGE042
进一步整理,可将(33)写成
Figure DEST_PATH_IMAGE044
其中,
Figure DEST_PATH_IMAGE046
由式(35)中的
Figure DEST_PATH_IMAGE048
,
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
,可得控制器迭代增益矩阵
Figure DEST_PATH_IMAGE054
所述的非策略Q-学习算法:
1)数据收集:选择可镇定的行为控制策略
Figure DEST_PATH_IMAGE056
作用于被控系统,收集系统数据
Figure DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE060
,并将它们储存于样本集
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
中;
2)初始化:选择一个控制器增益
Figure DEST_PATH_IMAGE066
,并设定
Figure DEST_PATH_IMAGE068
,其中
Figure DEST_PATH_IMAGE070
代表迭代系数;
3)执行Q-学习:通过使用递归最小二乘(RLS)或批最小二乘(BLS)方法,计算
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE076
,并且由式
Figure DEST_PATH_IMAGE078
计算
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
4)如果
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
是一个很小的正数,便可以停止策略迭代,此时已找到最优控制策略;否则的话,便令
Figure DEST_PATH_IMAGE088
,并重复步骤3;
其中
Figure DEST_PATH_IMAGE090
是被控对象状态,
Figure DEST_PATH_IMAGE092
是参考输入;
Figure DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE096
为矩阵
Figure DEST_PATH_IMAGE098
的子块,
Figure DEST_PATH_IMAGE100
为矩阵
Figure DEST_PATH_IMAGE102
构成的列向量。
2.根据权利要求1所述的一种基于非策略Q-学习的网络最优跟踪控制方法,其特征在于,所述Smith预测器(9),构建如下基于预测器估计的系统状态的反馈控制器
Figure DEST_PATH_IMAGE104
CN201910352958.XA 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法 Active CN110083064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910352958.XA CN110083064B (zh) 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910352958.XA CN110083064B (zh) 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法

Publications (2)

Publication Number Publication Date
CN110083064A CN110083064A (zh) 2019-08-02
CN110083064B true CN110083064B (zh) 2022-02-15

Family

ID=67417661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910352958.XA Active CN110083064B (zh) 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN110083064B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782011B (zh) * 2019-10-21 2023-11-24 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法
CN111585822A (zh) * 2020-05-18 2020-08-25 青岛科技大学 一种网络系统中数据丢包的提升模型预测补偿方法
CN111770546B (zh) * 2020-06-28 2022-09-16 江西理工大学 一种基于q学习的容迟网络随机网络编码方法
CN112859604B (zh) * 2021-01-11 2022-10-14 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法
CN112925203A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 一种基于加强学习的最优跟踪控制算法
CN113515044B (zh) * 2021-07-02 2022-08-26 北京理工大学 一种轮式移动机器人的基于学习预测跟踪控制方法及装置
CN114200834B (zh) * 2021-11-30 2023-06-30 辽宁石油化工大学 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN114237184A (zh) * 2021-12-20 2022-03-25 杭州电子科技大学 一种工业过程的优化学习控制性能提升方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843037B (zh) * 2016-04-11 2019-05-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN108112082B (zh) * 2017-12-18 2021-05-25 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法

Also Published As

Publication number Publication date
CN110083064A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083064B (zh) 一种基于非策略q-学习的网络最优跟踪控制方法
Zhang et al. Adaptive resilient event-triggered control design of autonomous vehicles with an iterative single critic learning framework
Zou et al. Constrained predictive control synthesis for quantized systems with Markovian data loss
Pawlowski et al. Improving feedforward disturbance compensation capabilities in generalized predictive control
CN109932905B (zh) 一种基于非策略的观测器状态反馈的优化控制方法
CN110083063B (zh) 一种基于非策略q学习的多个体优化控制方法
CN104317195B (zh) 一种基于改进极限学习机的非线性逆模型控制方法
JP2022544474A (ja) 技術システムのための改善された機械学習
Huo et al. Encoding–decoding mechanism-based finite-level quantized iterative learning control with random data dropouts
Lian et al. Integrated sliding mode control and neural networks based packet disordering prediction for nonlinear networked control systems
Wang et al. Command filter based adaptive control of asymmetric output-constrained switched stochastic nonlinear systems
Schwedersky et al. Nonlinear model predictive control algorithm with iterative nonlinear prediction and linearization for long short-term memory network models
Kukker et al. Genetic algorithm-optimized fuzzy lyapunov reinforcement learning for nonlinear systems
CN115179295B (zh) 一种多欧拉-拉格朗日系统鲁棒二分一致性跟踪控制方法
Liang et al. Data-driven bipartite formation for a class of nonlinear MIMO multiagent systems
CN104639293B (zh) 网络化控制系统丢包补偿装置及方法
Qi et al. Data-driven event-triggered control for switched systems based on neural network disturbance compensation
Hu et al. On consensus performance of nonlinear multi-agent systems with hybrid control
Zhang et al. Composite adaptive NN learning and control for discrete-time nonlinear uncertain systems in normal form
Rostampour et al. Distributed stochastic model predictive control synthesis for large-scale uncertain linear systems
Chen et al. Indirect iterative learning control for robot manipulator with non‐Gaussian disturbances
Shi et al. A new approach to feedback feed-forward iterative learning control with random packet dropouts
Zhang et al. Data-driven control of consensus tracking for discrete-time multi-agent systems
Huang et al. Off-policy reinforcement learning for tracking control of discrete-time Markov jump linear systems with completely unknown dynamics
Wang et al. Distributed model free adaptive fault-tolerant consensus tracking control for multiagent systems with actuator faults

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190802

Assignee: Liaoning Hengyi special material Co.,Ltd.

Assignor: Liaoming Petrochemical University

Contract record no.: X2023210000276

Denomination of invention: A Network Optimal Tracking Control Method Based on Non Policy Q-Learning

Granted publication date: 20220215

License type: Common License

Record date: 20231130