CN110083064A - 一种基于非策略q-学习的网络最优跟踪控制方法 - Google Patents

一种基于非策略q-学习的网络最优跟踪控制方法 Download PDF

Info

Publication number
CN110083064A
CN110083064A CN201910352958.XA CN201910352958A CN110083064A CN 110083064 A CN110083064 A CN 110083064A CN 201910352958 A CN201910352958 A CN 201910352958A CN 110083064 A CN110083064 A CN 110083064A
Authority
CN
China
Prior art keywords
strategy
network
data
learning
study
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910352958.XA
Other languages
English (en)
Other versions
CN110083064B (zh
Inventor
李金娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN201910352958.XA priority Critical patent/CN110083064B/zh
Publication of CN110083064A publication Critical patent/CN110083064A/zh
Application granted granted Critical
Publication of CN110083064B publication Critical patent/CN110083064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于非策略Q‑学习的网络最优跟踪控制方法,涉及一种网络跟踪控制方法,本发明针对具有数据包丢失的网络化控制系统跟踪控制问题,提出了一种新的非策略Q‑学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标。本发明不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q‑函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。

Description

一种基于非策略Q-学习的网络最优跟踪控制方法
技术领域
本发明涉及一种网络跟踪控制方法,特别是涉及一种基于非策略Q-学习的网络最优跟踪控制方法。
背景技术
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致,将强化学习分为策略(On-policy)学习和非策略(Off-Policy)学习。如果在学习过程中,动作选择的行为策略和学习改进的目标策略一致,该方法就被称为策略学习,否则被称为非策略学习。
非策略强化学习相比于策略学习具有一些优势,并且具有预期的特性:(a)它解决了探索-开发的困境。系统采用任意行为策略来保证数据的充分挖掘,而实际学习的是最优开发策略或目标策略;(b)通常需要探测噪声来保证持续激励(PE)条件,非策略强化学习能保证贝尔曼方程解的无偏性。对于最优控制问题。目前应用Q-学习算法取得了很多研究成果,但是采用非策略Q-学习研究最优化控制还处于初级阶段。采用非策略Q-学习算法解决离散系统控制,给出仿射非线性系统交错非策略Q-学习迭代算法,自适应批判Q-学习算法,学习最优控制策略。
随着信息技术、网络技术和计算机技术的飞速发展,基于网络的控制系统已经成为自动化领域一个重要控制技术,网络控制系统的研究也是近年来自动控制领域的研究热点。对于具有数据包丢失的网络控制系统,现有的控制和优化方法主要采用基于模型的控制策略,要求系统模型参数已知,采用确定的、鲁棒或者随机控制方法镇定系统,并优化系统性能。
系统模型参数未知,并且信息传输存在数据丢失,这些给最优控制器设计带来挑战。执行自适应Q-学习算法时,不要求系统模型参数已知,需要利用可测的控制输入,状态信息学习最优控制策略。由于网络传输中存在数据丢失,当前的数据信息无法获得,提出Smith预测补偿,设计策略Q-学习算法找到最优跟踪控制器增益。然而,采用非策略Q-学习方法,补偿数据包丢失,在系统模型参数未知的情况下,解决最优跟踪控制问题还未得到研究,这是本发明研究的动机。
发明内容
本发明的目的在于提供一种基于非策略Q-学习的网络最优跟踪控制方法,本发明给出具有丢包补偿的网络控制系统非策略Q-学习方法,设计一种在线性离散网络控制系统的动力学方程未知的情况下,给出近似最优跟踪控制策略,优化网络控制系统性能。
本发明的目的是通过以下技术方案实现的:
一种基于非策略Q-学习的网络最优跟踪控制方法,所述方法利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标;首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;融合动态规划和强化学习方法,提出一种非策略Q-学习算法;此算法在系统动态未知的情况下,利用可测数据学习最优控制器增益矩阵;仿真结果表明,该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能;
该方法的运行过程包括以下:
1)具有丢包补偿的优化问题描述线性二次跟踪(LQT)问题和网络诱导丢包的模型;其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化;
2) 基于非策略Q学习方法求解优化;其中包括策略Q-学习算法设计、非策略 Q-学习算法设计;
3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
所述的一种基于非策略Q-学习的网络最优跟踪控制方法,所述Smith预测器,构建如下基于预测器估计的系统状态的反馈控制器
本发明的优点与效果是:
本发明不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。
附图说明
图1具有反馈丢包的网络控制系统;
图2学习过程中收敛到最优值
图3学习过程中收敛到最优值
图4 非策略Q-学习算法的输出跟踪轨迹;
图5非策略Q-学习算法的控制输入轨迹;
图6随机丢包顺序;
图7非策略Q-学习算法的输出跟踪轨迹;
图8非策略Q-学习算法的控制输入轨迹;
图9随机丢包顺序。
具体实施方式
下面结合实施例对本发明进行详细说明。
1.具有丢包补偿的优化
本发明介绍线性二次跟踪(LQT)问题和网络诱导丢包的模型,阐述具有数据包丢失的网络控制系统二次跟踪问题。
考虑如下线性离散系统
其中,是被控对象状态,为维,是被控输入,为维,是被控输出,为维。分别为维。
参考信号如下
(2)
其中,是参考输入,为维,维。在这个跟踪问题中,想要系统(1)中的输出跟踪参考输入
,由式(1)和式(2),得到如下增广系统
(3)
其中,
1.1构建丢包补偿的Smith预测器
如图1所示,测量状态并通过通信网络传递给控制器,控制器利用获得的系统状态信息计算控制输入。假定状态信息是通过单个数据包传输的,某些数据包在传输中不可避免地丢失,称为网络诱导型的丢包。为控制器端接收的系统状态,其表达式为
其中,为发生的连续丢包数,为最大连续丢包数。
由式(1),得到
在使用TCP或UDP协议的情况下,丢包数是已知的。
由式(5),构建如下Smith预测器,
其中,
注1:时刻是已知的。
由于引入Smith预测器(9),本发明可以构建如下基于预测器估计的系统状态的反馈控制器
1.2具有丢包补偿的优化
本发明设计控制器(11),最小化如下性能指标,实现系统以最优的方式跟踪参考输入。
其中,是一个折现因子。如果参考信号发生器(2)是稳定的,则可以选择。如果(2)是不稳定的,例如跟踪一个单位步长,那么就需要。事实上,一旦选择了这个折现因子,这样便是稳定的。
由式(3),(9)和式(11),给出具有丢包补偿的网络控制系统线性二次跟踪控制(LQT)问题:
注2:在Smith预测器的帮助下,此时的LQT问题可以获取当前系统状态。
2.基于非策略Q学习方法求解优化
本发明解决存在丢包的离散网络系统LQT问题的非策略Q-学习方法。在现有文献的基础上引入了作为Q-函数矩阵设计了策略Q-学习算法,以便获取不依赖模型的控制器方案。然后又在此基础上,引入行为控制器,结合基于Q-函数的贝尔曼方程,提出了一种非策略Q-学习算法。
使用增广系统(3),网络诱导型丢包线性二次跟踪(丢包LQT)问题性能指数为
其中,
,则
由式(14),定义值函数和Q-函数分别为
给出如下引理,目的是提出非策略Q-学习算法。
引理1:对于系统(3),定义的Q-函数(17),可以表示成如下二次型
其中
基于动态规划,得到基于Q-函数的贝尔曼方程
根据最优性的必要条件,令,可得最优控制输入
由(11)可知
注3:由于系统模型参数未知,所以矩阵也未知,控制器无法计算。不同于现有文献,在下文Q-学习算法中引入矩阵,以便获取不依赖模型,完全数据驱动的控制器学习算法。
2.1 策略Q-学习算法设计
由Smith预测器(9),Q-函数可以改写成
其中,
那么,贝尔曼方程(19)可以改写为
根据最优性必要条件,由,得到
定理1:贝尔曼方程(24)有唯一解,且式(25)等价于式(20)。
证明:假设贝尔曼方程(24)有两个不同的解,有
其中,。因为矩阵为行满秩,所以矩阵可逆。由于,所以。那么式(19)存在两个不同解,然而对于优化问题(13),贝尔曼方程(19)有唯一的解,产生矛盾。原假设式(24)有两个不同的解不成立。因而式(24)有唯一的解
将式(23)展开
其中,
所以,式(25)等价于式(20)。证明完毕。
为了求解式(24)中的Q-函数矩阵,给出算法1。
算法1:策略Q-学习算法
1.初始化:给定稳定控制器增益,并设,其中表示迭代系数;
2.通过求解Q-函数矩阵进行策略评估:
3. 策略更新:
4. 如果是一个很小的正数),便可以停止策略迭代
注4:在算法1中加入探测噪声会引起矩阵的偏差,导致最优跟踪控制器增益不准确。本发明通过研究非策略学习方法,学习最优跟踪控制器,解出无偏的Q-函数矩阵。因此给出非策略Q-学习算法2。
注5:迭代矩阵收敛于式(24)中解,证明类似现有文献,略。
2.2非策略 Q-学习算法设计
引入目标控制策略到系统动态中,得到式(32),其中是行为控制策略,为目标控制策略。
结合(32),利用(29)
其中,
进一步整理,可将(33)写成
其中,
由式(35)中的,可得控制器迭代增益矩阵
算法2:非策略Q-学习算法
1.数据收集:选择可镇定的行为控制策略作用于被控系统,收集系统数据,并将它们储存于样本集中;
2. 初始化:选择一个控制器增益,并设定,其中代表迭代系数。
3. 执行Q-学习:通过使用递归最小二乘(RLS)或批最小二乘(BLS)方法,计算, , ,并且由式(36)计算
4. 如果是一个很小的正数),便可以停止策略迭代,此时已找到最优控制策略。否则的话,便令,并重复步骤3。
注6:式(35)迭代矩阵等价于式(29)中迭代矩阵,证明类似现有文献。由于式(29)中收敛式(24)的解,那么有
注7:既然非策略强化学习方法在控制输入加入探测噪声时,仍然保证贝尔曼方程解的无偏性,本发明不同于现有文献采用的策略Q-学习算法。本发明给出非策略Q-学习算法学习基于Smith预测器的最优状态反馈控制律学习算法。
4. 仿真实验
通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
首先,考虑如下的开环不稳定系统
参考信号发生器为
选择,并且连续反馈丢包的最大数目为。此时,丢包Smith预测器矩阵为
此时,最优Q-函数矩阵和最优跟踪制器增益可以分别从(18)和(21)中得到。
然后执行算法2,经过十次迭代,算法收敛得到最优Q-函数矩阵和最优控制器增益。
图2和图3分别展示了在学习过程中,收敛到最优值的过程。
图4和图5分别展示了非策略Q-学习算法的输出跟踪轨迹和控制输入轨迹。仿真表明,在网络最大丢包数为1的情况下,采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制,系统跟踪性能较好。
图6为最大连续丢包数时的随机丢包顺序。接下来考虑最大连续丢包数为时,执行算法2经过10次迭代得到最优Q-函数矩阵和最优控制器增益。
图7-9分别给出系统在网络最大丢包数为2时,利用算法2得到的近似最优控制作用下,系统的输出跟踪曲线、控制输入曲线和网络丢包情况。仿真表明,在网络最大丢包数为2的情况下,采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制,系统输出能够跟踪参考输入,但随着网络性能变差,跟踪性能受到一定程度影响。

Claims (2)

1.一种基于非策略Q-学习的网络最优跟踪控制方法,其特征在于,所述方法利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标;首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;融合动态规划和强化学习方法,提出一种非策略Q-学习算法;此算法在系统动态未知的情况下,利用可测数据学习最优控制器增益矩阵;仿真结果表明,该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能;
该方法的运行过程包括以下:
1)具有丢包补偿的优化问题描述线性二次跟踪(LQT)问题和网络诱导丢包的模型;其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化;
2) 基于非策略Q学习方法求解优化;其中包括策略Q-学习算法设计、非策略 Q-学习算法设计;
3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。
2.根据权利要求1所述的一种基于非策略Q-学习的网络最优跟踪控制方法,其特征在于,所述Smith预测器(9),构建如下基于预测器估计的系统状态的反馈控制器
CN201910352958.XA 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法 Active CN110083064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910352958.XA CN110083064B (zh) 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910352958.XA CN110083064B (zh) 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法

Publications (2)

Publication Number Publication Date
CN110083064A true CN110083064A (zh) 2019-08-02
CN110083064B CN110083064B (zh) 2022-02-15

Family

ID=67417661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910352958.XA Active CN110083064B (zh) 2019-04-29 2019-04-29 一种基于非策略q-学习的网络最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN110083064B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782011A (zh) * 2019-10-21 2020-02-11 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法
CN111585822A (zh) * 2020-05-18 2020-08-25 青岛科技大学 一种网络系统中数据丢包的提升模型预测补偿方法
CN111770546A (zh) * 2020-06-28 2020-10-13 江西理工大学 一种基于q学习的容迟网络随机网络编码策略
CN112859604A (zh) * 2021-01-11 2021-05-28 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法
CN112925203A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 一种基于加强学习的最优跟踪控制算法
CN113515044A (zh) * 2021-07-02 2021-10-19 北京理工大学 一种轮式移动机器人的基于学习预测跟踪控制方法及装置
CN114200834A (zh) * 2021-11-30 2022-03-18 辽宁石油化工大学 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN114237184A (zh) * 2021-12-20 2022-03-25 杭州电子科技大学 一种工业过程的优化学习控制性能提升方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843037A (zh) * 2016-04-11 2016-08-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN108112082A (zh) * 2017-12-18 2018-06-01 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843037A (zh) * 2016-04-11 2016-08-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN108112082A (zh) * 2017-12-18 2018-06-01 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO-RAN WANG等: "Off-Policy Reinforcement Learning for Optimal Preview Tracking Control of Linear Discrete-Time systems with unknown dynamics", 《2018 CHINESE AUTOMATION CONGRESS (CAC)》 *
YI JIANG: "Tracking Control for LinearDiscrete-Time Networked Control Systems With Unknown Dynamics and Dropout", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782011A (zh) * 2019-10-21 2020-02-11 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法
CN110782011B (zh) * 2019-10-21 2023-11-24 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法
CN111585822A (zh) * 2020-05-18 2020-08-25 青岛科技大学 一种网络系统中数据丢包的提升模型预测补偿方法
CN111770546A (zh) * 2020-06-28 2020-10-13 江西理工大学 一种基于q学习的容迟网络随机网络编码策略
CN111770546B (zh) * 2020-06-28 2022-09-16 江西理工大学 一种基于q学习的容迟网络随机网络编码方法
CN112859604A (zh) * 2021-01-11 2021-05-28 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法
CN112925203A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 一种基于加强学习的最优跟踪控制算法
CN113515044A (zh) * 2021-07-02 2021-10-19 北京理工大学 一种轮式移动机器人的基于学习预测跟踪控制方法及装置
CN113515044B (zh) * 2021-07-02 2022-08-26 北京理工大学 一种轮式移动机器人的基于学习预测跟踪控制方法及装置
CN114200834A (zh) * 2021-11-30 2022-03-18 辽宁石油化工大学 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN114237184A (zh) * 2021-12-20 2022-03-25 杭州电子科技大学 一种工业过程的优化学习控制性能提升方法

Also Published As

Publication number Publication date
CN110083064B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN110083064A (zh) 一种基于非策略q-学习的网络最优跟踪控制方法
Zhang et al. Adaptive resilient event-triggered control design of autonomous vehicles with an iterative single critic learning framework
Li et al. Off-policy interleaved $ Q $-learning: Optimal control for affine nonlinear discrete-time systems
Mohammadi et al. A modified crow search algorithm (MCSA) for solving economic load dispatch problem
Sokolov et al. Complete stability analysis of a heuristic approximate dynamic programming control design
Lian et al. Integrated sliding mode control and neural networks based packet disordering prediction for nonlinear networked control systems
CN104317195B (zh) 一种基于改进极限学习机的非线性逆模型控制方法
CN109932905B (zh) 一种基于非策略的观测器状态反馈的优化控制方法
CN104539601B (zh) 动态网络攻击过程可靠性分析方法及系统
Younesi et al. Application of reinforcement learning for generating optimal control signal to the IPFC for damping of low‐frequency oscillations
CN103399488B (zh) 基于自学习的多模型控制方法
Liang et al. Data-driven bipartite formation for a class of nonlinear MIMO multiagent systems
Schwedersky et al. Nonlinear model predictive control algorithm with iterative nonlinear prediction and linearization for long short-term memory network models
Lian et al. Sliding mode control and sampling rate strategy for Networked control systems with packet disordering via Markov chain prediction
Sun et al. Mode-dependent dynamic output feedback H∞ control of networked systems with Markovian jump delay via generalized integral inequalities
Hager et al. Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design
Zhao et al. Data driven distributed bipartite consensus tracking for nonlinear multiagent systems via iterative learning control
Song et al. A comprehensive evaluation and comparison of enhanced learning methods
CN107168066A (zh) 一种温室环境自适应控制方法
CN106371321A (zh) 一种焦化炉炉膛压力系统模糊网络优化pid控制方法
Yuan et al. Multi‐tasking optimal control of networked control systems: A delta operator approach
Emamzadeh et al. Fuzzy-based interaction prediction approach for hierarchical control of large-scale systems
Ge et al. A cooperative framework of learning automata and its application in tutorial-like system
Wang et al. Learning automata based cooperative student-team in tutorial-like system
Fagan et al. Dynamic multi-agent reinforcement learning for control optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190802

Assignee: Liaoning Hengyi special material Co.,Ltd.

Assignor: Liaoming Petrochemical University

Contract record no.: X2023210000276

Denomination of invention: A Network Optimal Tracking Control Method Based on Non Policy Q-Learning

Granted publication date: 20220215

License type: Common License

Record date: 20231130