CN110083064A

CN110083064A - 一种基于非策略q-学习的网络最优跟踪控制方法

Info

Publication number: CN110083064A
Application number: CN201910352958.XA
Authority: CN
Inventors: 李金娜
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-02
Anticipated expiration: 2039-04-29
Also published as: CN110083064B

Abstract

一种基于非策略Q‑学习的网络最优跟踪控制方法，涉及一种网络跟踪控制方法，本发明针对具有数据包丢失的网络化控制系统跟踪控制问题，提出了一种新的非策略Q‑学习方法，完全利用可测数据，在系统模型参数未知并且网络通信存在数据丢失的情况下，实现系统以近似最优的方式跟踪目标。本发明不要求系统模型参数已知，利用网络控制系统可测数据，学习基于预测器状态反馈的最优跟踪控制策略；并且该算法能够保证基于Q‑函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。

Description

一种基于非策略Q-学习的网络最优跟踪控制方法

技术领域

本发明涉及一种网络跟踪控制方法，特别是涉及一种基于非策略Q-学习的网络最优跟踪控制方法。

背景技术

强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致，将强化学习分为策略（On-policy）学习和非策略（Off-Policy）学习。如果在学习过程中，动作选择的行为策略和学习改进的目标策略一致，该方法就被称为策略学习，否则被称为非策略学习。

非策略强化学习相比于策略学习具有一些优势，并且具有预期的特性：(a)它解决了探索-开发的困境。系统采用任意行为策略来保证数据的充分挖掘，而实际学习的是最优开发策略或目标策略；(b)通常需要探测噪声来保证持续激励(PE)条件，非策略强化学习能保证贝尔曼方程解的无偏性。对于最优控制问题。目前应用Q-学习算法取得了很多研究成果，但是采用非策略Q-学习研究最优化控制还处于初级阶段。采用非策略Q-学习算法解决离散系统控制，给出仿射非线性系统交错非策略Q-学习迭代算法，自适应批判Q-学习算法，学习最优控制策略。

随着信息技术、网络技术和计算机技术的飞速发展，基于网络的控制系统已经成为自动化领域一个重要控制技术，网络控制系统的研究也是近年来自动控制领域的研究热点。对于具有数据包丢失的网络控制系统，现有的控制和优化方法主要采用基于模型的控制策略，要求系统模型参数已知，采用确定的、鲁棒或者随机控制方法镇定系统，并优化系统性能。

系统模型参数未知，并且信息传输存在数据丢失，这些给最优控制器设计带来挑战。执行自适应Q-学习算法时，不要求系统模型参数已知，需要利用可测的控制输入，状态信息学习最优控制策略。由于网络传输中存在数据丢失，当前的数据信息无法获得，提出Smith预测补偿，设计策略Q-学习算法找到最优跟踪控制器增益。然而，采用非策略Q-学习方法，补偿数据包丢失，在系统模型参数未知的情况下，解决最优跟踪控制问题还未得到研究，这是本发明研究的动机。

发明内容

本发明的目的在于提供一种基于非策略Q-学习的网络最优跟踪控制方法，本发明给出具有丢包补偿的网络控制系统非策略Q-学习方法，设计一种在线性离散网络控制系统的动力学方程未知的情况下，给出近似最优跟踪控制策略，优化网络控制系统性能。

本发明的目的是通过以下技术方案实现的：

一种基于非策略Q-学习的网络最优跟踪控制方法，所述方法利用可测数据，在系统模型参数未知并且网络通信存在数据丢失的情况下，实现系统以近似最优的方式跟踪目标；首先，刻画具有数据包丢失的网络控制系统，提出线性离散网络控制系统跟踪控制问题；然后，设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响，构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题；融合动态规划和强化学习方法，提出一种非策略Q-学习算法；此算法在系统动态未知的情况下，利用可测数据学习最优控制器增益矩阵；仿真结果表明，该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能；

该方法的运行过程包括以下：

1）具有丢包补偿的优化问题描述线性二次跟踪（LQT）问题和网络诱导丢包的模型；其中包括构建丢包补偿的Smith预测器、具有丢包补偿的优化；

2) 基于非策略Q学习方法求解优化；其中包括策略Q-学习算法设计、非策略 Q-学习算法设计；

3) 通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。

所述的一种基于非策略Q-学习的网络最优跟踪控制方法，所述Smith预测器，构建如下基于预测器估计的系统状态的反馈控制器

。

本发明的优点与效果是：

本发明不要求系统模型参数已知，利用网络控制系统可测数据，学习基于预测器状态反馈的最优跟踪控制策略；并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性。仿真验证所提方法的有效性。

附图说明

图1具有反馈丢包的网络控制系统；

图2学习过程中收敛到最优值；

图3学习过程中收敛到最优值；

图4 非策略Q-学习算法的输出跟踪轨迹；

图5非策略Q-学习算法的控制输入轨迹；

图6随机丢包顺序；

图7非策略Q-学习算法的输出跟踪轨迹；

图8非策略Q-学习算法的控制输入轨迹；

图9随机丢包顺序。

具体实施方式

下面结合实施例对本发明进行详细说明。

1.具有丢包补偿的优化

本发明介绍线性二次跟踪（LQT）问题和网络诱导丢包的模型，阐述具有数据包丢失的网络控制系统二次跟踪问题。

考虑如下线性离散系统

其中，是被控对象状态，为维，是被控输入，为维，是被控输出，为维。分别为和维。

参考信号如下

(2)

其中，是参考输入，为维，为维。在这个跟踪问题中，想要系统(1)中的输出跟踪参考输入。

令，由式(1)和式(2)，得到如下增广系统

(3)

其中，。

1.1构建丢包补偿的Smith预测器

如图1所示，测量状态并通过通信网络传递给控制器，控制器利用获得的系统状态信息计算控制输入。假定状态信息是通过单个数据包传输的，某些数据包在传输中不可避免地丢失，称为网络诱导型的丢包。为控制器端接收的系统状态，其表达式为

其中，为发生的连续丢包数，为最大连续丢包数。

由式(1)，得到

在使用TCP或UDP协议的情况下，丢包数是已知的。

当，

由式(5)，构建如下Smith预测器，

其中，

注1：在时刻是已知的。

由于引入Smith预测器(9)，本发明可以构建如下基于预测器估计的系统状态的反馈控制器

1.2具有丢包补偿的优化

本发明设计控制器(11)，最小化如下性能指标，实现系统以最优的方式跟踪参考输入。

其中，是一个折现因子。如果参考信号发生器(2)是稳定的，则可以选择。如果(2)是不稳定的，例如跟踪一个单位步长，那么就需要。事实上，一旦选择了这个折现因子，这样便是稳定的。

由式(3)，(9)和式(11)，给出具有丢包补偿的网络控制系统线性二次跟踪控制（LQT）问题：

注2：在Smith预测器的帮助下，此时的LQT问题可以获取当前系统状态。

2.基于非策略Q学习方法求解优化

本发明解决存在丢包的离散网络系统LQT问题的非策略Q-学习方法。在现有文献的基础上引入了作为Q-函数矩阵设计了策略Q-学习算法，以便获取不依赖模型的控制器方案。然后又在此基础上，引入行为控制器，结合基于Q-函数的贝尔曼方程，提出了一种非策略Q-学习算法。

使用增广系统(3)，网络诱导型丢包线性二次跟踪（丢包LQT）问题性能指数为

其中，。

令，则

由式(14)，定义值函数和Q-函数分别为

给出如下引理，目的是提出非策略Q-学习算法。

引理1：对于系统(3)，定义的Q-函数(17),可以表示成如下二次型

其中。

基于动态规划，得到基于Q-函数的贝尔曼方程

根据最优性的必要条件，令，可得最优控制输入

由(11)可知

注3：由于系统模型参数未知，所以矩阵也未知，控制器无法计算。不同于现有文献，在下文Q-学习算法中引入矩阵，以便获取不依赖模型，完全数据驱动的控制器学习算法。

2.1 策略Q-学习算法设计

由Smith预测器(9)，Q-函数可以改写成

其中，

那么，贝尔曼方程(19)可以改写为

根据最优性必要条件，由，得到

定理1:贝尔曼方程(24)有唯一解，且式(25)等价于式(20)。

证明：假设贝尔曼方程(24)有两个不同的解，有

和

其中，。因为矩阵为行满秩，所以矩阵可逆。由于，所以。那么式(19)存在两个不同解，然而对于优化问题(13)，贝尔曼方程(19)有唯一的解，产生矛盾。原假设式(24)有两个不同的解和不成立。因而式(24)有唯一的解。

将式(23)展开

其中，。

所以，式(25)等价于式(20)。证明完毕。

为了求解式(24)中的Q-函数矩阵，给出算法1。

算法1：策略Q-学习算法

1.初始化：给定稳定控制器增益，并设，其中表示迭代系数；

2.通过求解Q-函数矩阵进行策略评估：

3. 策略更新：

4. 如果（是一个很小的正数），便可以停止策略迭代

注4：在算法1中加入探测噪声会引起矩阵的偏差，导致最优跟踪控制器增益不准确。本发明通过研究非策略学习方法，学习最优跟踪控制器，解出无偏的Q-函数矩阵。因此给出非策略Q-学习算法2。

注5：迭代矩阵收敛于式(24)中解，证明类似现有文献，略。

2.2非策略 Q-学习算法设计

引入目标控制策略到系统动态中，得到式(32)，其中是行为控制策略，为目标控制策略。

结合(32)，利用(29)，有

其中，

进一步整理，可将(33)写成

其中，

由式(35)中的，和，可得控制器迭代增益矩阵

算法2：非策略Q-学习算法

1.数据收集：选择可镇定的行为控制策略作用于被控系统，收集系统数据，并将它们储存于样本集和中；

2. 初始化：选择一个控制器增益，并设定，其中代表迭代系数。

3. 执行Q-学习：通过使用递归最小二乘(RLS)或批最小二乘(BLS)方法，计算, , ,并且由式(36)计算；

4. 如果（是一个很小的正数），便可以停止策略迭代，此时已找到最优控制策略。否则的话，便令，并重复步骤3。

注6：式(35)迭代矩阵等价于式(29)中迭代矩阵，证明类似现有文献。由于式(29)中收敛式(24)的解，那么有。

注7：既然非策略强化学习方法在控制输入加入探测噪声时，仍然保证贝尔曼方程解的无偏性，本发明不同于现有文献采用的策略Q-学习算法。本发明给出非策略Q-学习算法学习基于Smith预测器的最优状态反馈控制律学习算法。

4. 仿真实验

通过仿真验证了在发生随机有界丢包情况下非策略Q-学习算法的有效性。

首先，考虑如下的开环不稳定系统

参考信号发生器为

选择，并且连续反馈丢包的最大数目为。此时，丢包Smith预测器矩阵为

此时，最优Q-函数矩阵和最优跟踪制器增益可以分别从(18)和(21)中得到。

然后执行算法2，经过十次迭代，算法收敛得到最优Q-函数矩阵和最优控制器增益。

图2和图3分别展示了在学习过程中，收敛到最优值的过程。

图4和图5分别展示了非策略Q-学习算法的输出跟踪轨迹和控制输入轨迹。仿真表明，在网络最大丢包数为1的情况下，采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制，系统跟踪性能较好。

图6为最大连续丢包数时的随机丢包顺序。接下来考虑最大连续丢包数为时，执行算法2经过10次迭代得到最优Q-函数矩阵和最优控制器增益。

图7-9分别给出系统在网络最大丢包数为2时，利用算法2得到的近似最优控制作用下，系统的输出跟踪曲线、控制输入曲线和网络丢包情况。仿真表明，在网络最大丢包数为2的情况下，采用本发明不依赖模型的具有Smith预测器的状态反馈最优控制，系统输出能够跟踪参考输入，但随着网络性能变差，跟踪性能受到一定程度影响。

Claims

1.一种基于非策略Q-学习的网络最优跟踪控制方法，其特征在于，所述方法利用可测数据，在系统模型参数未知并且网络通信存在数据丢失的情况下，实现系统以近似最优的方式跟踪目标；首先，刻画具有数据包丢失的网络控制系统，提出线性离散网络控制系统跟踪控制问题；然后，设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响，构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题；融合动态规划和强化学习方法，提出一种非策略Q-学习算法；此算法在系统动态未知的情况下，利用可测数据学习最优控制器增益矩阵；仿真结果表明，该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能；

该方法的运行过程包括以下：

2.根据权利要求1所述的一种基于非策略Q-学习的网络最优跟踪控制方法，其特征在于，所述Smith预测器(9)，构建如下基于预测器估计的系统状态的反馈控制器

。