CN112445131A

CN112445131A - 一种线性系统自适应最优跟踪控制方法

Info

Publication number: CN112445131A
Application number: CN201910818741.3A
Authority: CN
Inventors: 穆朝絮; 赵倩; 孙长银
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-05

Abstract

本发明公开了一种线性系统自适应最优跟踪控制方法，首先将系统的跟踪控制转化为增广系统的稳定性控制，然后针对增广系统，引入Q函数重构系统性能指标函数，建立基于控制依赖二次启发式规划的系统目标方程；再设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B，对系统进行辨识；在模型网络辨识器的基础上，构建基于控制依赖二次启发式规划的Q‑learning算法，迭代获得系统的近似最优控制律。本发明在系统动态未知的情况下求解的最优控制，这使得系统的最优跟踪问题在未知精确系统模型情况下也能被解决，且有效提高了最优控制的精准度。

Description

一种线性系统自适应最优跟踪控制方法

技术领域

本发明涉及线性离散系统的最优跟踪控制技术领域，更具体地，涉及一种线性系统自适应最优跟踪控制方法。

背景技术

对于线性离散系统，跟踪控制是一种常见的控制问题。系统的跟踪控制往往要求达到最优，即不仅要求使系统稳定，使其完成跟踪上参考系统的目的，还应该使系统的性能指标函数达到最小化，即达到最优跟踪控制。现实应用中，系统动态往往由于各种原因而不易或者不能获取，这种情况导致了一些需要系统动态信息的方法不能得以实施，于是必须设计出一种无模型最优控制算法来解决此棘手问题。

强化学习，又称再励学习，是机器学习方法之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习方法是最优控制的重要方法。策略迭代和值迭代是强化学习里常用的两种学习算法。强化学习可以解决不同的最优控制问题，例如具有约束控制的最优稳定控制，具有时间延迟的最优控制，最优跟踪控制，最优一致性控制，以及零和和非零和博弈的最优控制等。

动态规划是求解最优控制问题的有效工具。在动态规划中，哈密顿-雅可比-贝尔曼方程因为存在维数灾问题。很难直接求解。Werbos首先提出了基于动态规划的自适应动态规划方法，其主要思想是利用一个函数近似结构，例如神经网络、模糊模型、多项式等，来估计系统的代价函数，用于按时间正向求解动态规划问题。自适应动态规划是强化学习中的重要方法之一。在自适应动态规划中，控制依赖启发式动态规划和控制依赖二次启发式规划分别是估计系统代价函数和其梯度的方法。Q-learning，亦称控制依赖启发式动态规划，用于估计任何策略的Q函数的方法，最优或非最优，是一种无模型强化学习算法,其不需要系统的信息便能求取最优控制，Q-learning应用广泛，例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。神经网络，是使用最广泛的机器学习算法。神经网络是一种模仿生物神经网络的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络可以用来解决各种问题，包括自然语言处理、视觉识别、回归、分类问题。自适应动态规划方法通常由神经网络实现，利用神经网络和自适应动态规划相结合的方法是一种解决最优控制的重要方法。

发明内容

本发明为解决现有技术的不足，提供了一种线性系统自适应最优跟踪控制方法，在系统动态未知的情况下，能使系统输出有效地跟踪参考系统输出。

本发明是通过以下技术方案实现的：

一种线性系统自适应最优跟踪控制方法，其特征在于，包括如下步骤：

步骤(1)：将系统的跟踪控制转化为增广系统的稳定性控制；

步骤(2)：针对增广系统，引入Q函数重构系统性能指标函数，建立基于控制依赖二次启发式规划的系统目标方程；

步骤(3)：设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B，对系统进行辨识；

步骤(4)：在模型网络辨识器的基础上，构建基于控制依赖二次启发式规划的Q-learning算法，迭代获得系统的近似最优控制律

在上述技术方案中，步骤(1)包括下述步骤：

(1-1)线性离散系统的系统动态如下：

其中

表示系统当前时刻的状态向量，

表示系统下一时刻的状态向量，

表示系统的控制向量，

是系统的输出，

是常数矩阵，假设(A,B)是可控的，(A,C)是可观测的；

期望的参考系统的轨迹动态如下：

其中是

是系统当前时刻的动态，

是系统下一时刻的动态，

是系统的输出，

和

是常数矩阵；

(1-2)构造增广系统，使原系统的跟踪控制问题转化为增广系统的镇定控制问题；基于控制系统的式(1)和参考系统的式(2)，增广系统定义为

当前时刻的增广状态X(k)和系统矩阵A₁，B₁，C₁为

其中

是增广系统下一时刻的状态，

是增广系统的输出；

(1-3)定义如下的性能指标函数：

其中0＜γ≤1是折扣因子，U_i是时刻i的效应函数，

和

分别是半正定对称权重矩阵和正定对称权重矩阵，代价函数(6)可以表示为

其中

性能指标函数(7)可以重新表示为

其中U(X(k),u(k))＝X^T(k)Q₁X(k)+u^T(k)Ru(k)为时刻k的效应函数；

(1-4)由式(3)和式(7)可以得知，最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题，最优控制可以通过状态反馈实现。控制形式如下：

u(k)＝-KX(k).(10)

其中K为反馈增益矩阵。由代价函数(7)，可以推导出

将式(10)代入式(3)中，推导出下式

X(k+1)＝(A₁-B₁K)X(k)＝K₁X(k),(12)

其中K₁＝A₁-B₁K。将式(12)代入式(11)中，可以得到性能指标函数关于增广状态X(k)的二次型形式

其中

(1-5)结合公式(9)和(13)，得到增广系统的贝尔曼方程表示如下

X^T(k)PX(k)＝X^T(k)Q₁X(k)+u^T(k)Ru(k)+γX^T(k+1)PX(k+1).(14)

其中P是核对称矩阵；

定义哈密尔顿方程如下：

通过下式计算

可以获得最优控制为

其中

将式(3)和式(17)代入式(14)中，可以获得增广代数黎卡提方程

根据式(17)和式(18)，最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的，因此通过(18)直接计算P是困难的，而且需要系统动态的信息。

在上述技术方案中，步骤(2)进一步包括下述步骤：

(2-1)基于贝尔曼方程(14)，离散Q函数被定义如下：

Q(X(k),u(k))＝X^T(k)Q₁X(k)+u^T(k)Ru(k)+γX^T(k+1)PX(k+1).(19)

代入增广系统(3)，(19)写作：

简化公式(20)，定义

其中

核矩阵H满足H＝H^T；

(2-2)计算如下方程

通过(22)，计算出最优控制

代入公式(20)中H_uX，H_uu，控制u(k)形式如下

其中

(2-3)基于公式(14)和(19)，Q函数重新表示为

Q(X(k),u(k))＝X^T(k)Q₁X(k)+u^T(k)Ru(k)+γQ(X(k+1),u(k+1))，(25)

其中u(k+1)＝-KX(k+1)；

在控制依赖二次启发式规划中，对Q函数的梯度进行建模和估计，通过取(25)的梯度并利用公式(3)、(21)、(23)，得到Q函数相对于X(k)和u(k)的梯度：

将(26)和(27)合并为

其中，

根据(21)，有如下推导

(2-4)结合式(28)和(29)，控制依赖二次启发式规划中Q函数的梯度方程，即目标方程表示为

在上述技术方案中，步骤(3)进一步包括以下步骤：

(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入，模型网络的输出是时间步长为k+1的系统状态x(k+1)，基于神经网络的通用逼近理论，时间步长为k+1的系统状态x(k+1)由下式拟合：

其中

是输入向量，

和

是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m)，隐层神经元个数为l_m，输出层神经元个数为n。

是激活函数。ε(k)是重构误差，表示模型网络对受控系统的近似程度。

(3-2)模型网络的输出近似为

其中，

是重构的在k+1时刻的系统状态。

和

是估计的权重矩阵，被训练接近最优权重ω_m1和ω_m2；

(3-3)模型网络的辨识误差

定义为

更新模型网络中的权重以最小化辨识误差的二次形式E_m(k)

基于梯度下降法和链式法则更新模型网络的输入层-隐层权重：

基于梯度下降法和链式法则更新模型网络的隐层-输出层权重：

其中β＞0是模型网络的学习率。经过充分的训练阶段后，权重保持不变；

(3-4)当神经网络训练完成时，可以获得最终收敛权重，此时，模型网络表示如下：

其中

和

为系统矩阵A和B的估计。分别取(39)关于状态x(k)和控制u(k)的偏导数，得到

和

公式(40)和(41)重构了系统矩阵A和B，假设输入层-隐层的权重被随机初始化并且保持不变，根据神经网络的通用逼近定理，如果隐层神经元的数量足够大，则近似误差可以任意小。

在上述技术方案中，步骤(4)进一步包括下述步骤：

(4-1)用

和

代替A和B，式(3)则可以重新表示为

其中

因此，目标方程(30)替换为

其中

(4-2)采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律；

步骤1)初始化：给定一个初始稳定控制策略K⁰，令j＝0，其中j表示迭代步数，设置最大训练循环步数N；

步骤2)策略估计：计算核心矩阵H^j+1

步骤3)策略更新：

其中，

步骤4)当j＝N停止迭代过程，获得近似最优控制律u^j(k)，否则增加迭代步数j＝j+1并转到步骤2)；

策略迭代需要持续激励条件，

其中δ为持续激励，为算法迭代过程中真正的系统控制，持续激励条件确保了充分探索状态空间；

通过沿着模型网络获取的系统轨迹的数据对

和

最小二乘法方法实施如下定义

其中

公式(44)转化为

如果Ξ(k)满足满秩条件，则由(49)，H计算为

本发明的优点和有益效果为：

(1)设计了模型网络辨识器，利用获取的系统数据对系统动态进行辨识，考虑到现实应用中许多系统模型难以或不能获取的情况，此方法能使系统动态在未知情况下，进一步设计需要的最优控制器实现系统要求的最优控制目标，有效提高了一些最优设计算法的应用范围问题。

(2)在训练完成的模型网络辨识器的基础上，设计了一种基于控制依赖二次启发式规划的策略迭代Q-learning算法，并采用最小二乘法迭代地在线获得最优控制律，达到最优跟踪目标。采用最小二乘法的优点是得到的控制律是解析解，和用神经网络实现算法相比，不会产生额外的近似误差，大大提高了结果的准确性。

附图说明

图1是针对策略迭代算法实现过程的简单控制结构图；

图2是模型网络的隐层-输出层权重矩阵ω_m2中第八隐层节点到第一输出层节点的权值收敛图；

图3是核矩阵H收敛到最优H^*的迭代过程图；

图4是反馈增益矩阵K收敛到最优K^*的迭代过程图；

图5是系统目标函数Ξ(k)的变化曲线图；

图6是系统输出y(k)跟踪参考系统输出s(k)的轨迹图；

图7是系统输出和参考系统输出的跟踪误差y(k)-s(k)的轨迹图；

图8是系统控制u(k)的轨迹图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

一种线性系统自适应最优跟踪控制方法，包括如下步骤：

步骤(1)：将系统的跟踪控制转化为增广系统的稳定性控制，即将线性二次型跟踪问题转化为线性二次型调节问题，并定义性能指标函数；

下面具体详述以上各个步骤：

步骤(1)涉及目标问题转化，即系统转化问题，将系统的跟踪控制转化为增广系统的稳定性控制，并定义性能指标函数，得到贝尔曼方程和增广代数黎卡提方程。步骤(1)进一步包括下述步骤：

(1-1)线性离散系统的系统动态如下：

其中

表示系统当前时刻的状态向量，

表示系统下一时刻的状态向量，

表示系统的控制向量，

是系统的输出。

是常数矩阵。假设(A,B)是可控的，(A,C)是可观测的。

期望的参考系统的轨迹动态如下：

其中是

是系统当前时刻的动态，

是系统下一时刻的动态，

是系统的输出，

和

是常数矩阵。

(1-2)构造增广系统，使原系统的跟踪控制问题转化为增广系统的镇定控制问题。基于控制系统(1)和参考系统(2)，增广系统定义为

当前时刻的增广状态X(k)和系统矩阵A₁，B₁，C₁为

其中

是增广系统下一时刻的状态，

是增广系统的输出。

(1-3)定义如下的性能指标函数：

其中0＜γ≤1是折扣因子。U_i是时刻i的效应函数，

和

分别是半正定对称权重矩阵和正定对称权重矩阵。代价函数(6)可以表示为

其中

性能指标函数(7)可以重新表示为

其中U(X(k),u(k))＝X^T(k)Q₁X(k)+u^T(k)Ru(k)为时刻k的效应函数。

(1-4)由(3)和(7)可以得知，最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题，最优控制可以通过状态反馈实现。控制形式如下：

u(k)＝-KX(k).(10)

其中K为反馈增益矩阵。由代价函数(7)，可以推导出

将(10)代入(3)中，推导出下式

X(k+1)＝(A₁-B₁K)X(k)＝K₁X(k),(12)

其中K₁＝A₁-B₁K。将(12)代入(11)中，可以得到性能指标函数关于增广状态X(k)的二次型形式

其中

(1-5)结合公式(9)和(13)，得到增广系统的贝尔曼方程表示如下

X^T(k)PX(k)＝X^T(k)Q₁X(k)+u^T(k)Ru(k)+γX^T(k+1)PX(k+1).(14)

其中P是核对称矩阵。

定义哈密尔顿方程如下

通过下式计算

可以获得最优控制为

其中

将式(3)和式(17)代入式(14)中，可以获得增广代数黎卡提方程

步骤(2)由于设定系统动态信息未知，且根据步骤(1)中的代数黎卡提方程求解最优控制困难，则针对增广系统，采用Q函数重构性能指标函数，并建立基于控制依赖二次启发式规划的系统目标方程。

步骤(2)进一步包括下述步骤：

(2-1)基于贝尔曼方程(14)，离散Q函数被定义如下：

Q(X(k),u(k))＝X^T(k)Q₁X(k)+u^T(k)Ru(k)+γX^T(k+1)PX(k+1).(19)

代入增广系统(3)，(19)写作

简化公式(20)，定义

其中

核矩阵H满足H＝H^T。

(2-2)计算如下方程

通过(22)，计算出最优控制

代入公式(20)中H_uX，H_uu，控制u(k)形式如下

其中

(2-3)基于公式(14)和(19)，Q函数重新表示为

Q(X(k),u(k))＝X^T(k)Q₁X(k)+u^T(k)Ru(k)+γQ(X(k+1),u(k+1))，(25)

其中u(k+1)＝-KX(k+1)。

在控制依赖二次启发式规划中，对Q函数的梯度进行建模和估计。通过取(25)的梯度并利用公式(3)、(21)、(23)，得到Q函数相对于X(k)和u(k)的梯度：

将(26)和(27)合并为

其中，

根据(21)，有如下推导

(2-4)结合(28)和(29)，控制依赖二次启发式规划中Q函数的梯度方程，即目标方程表示为

步骤(3)设计三层模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B，对系统进行辨识，进而估计Q函数梯度方程(30)中的A₁和B₁。步骤如下：

(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入，模型网络的输出是时间步长为k+1的系统状态x(k+1)。基于神经网络的通用逼近理论，时间步长为k+1的系统状态x(k+1)由下式拟合：

其中z(k)＝[x^T(k) u^T(k)]^T是输入向量，

和

(3-2)模型网络的输出近似为

其中，

是重构的在k+1时刻的系统状态。

和

是估计的权重矩阵，被训练接近最优权重ω_m1和ω_m2。

(3-3)模型网络的辨识误差

定义为

更新模型网络中的权重以最小化辨识误差的二次形式E_m(k)

其中β＞0是模型网络的学习率。经过充分的训练阶段后，权重保持不变。

其中

和

和

公式(40)和(41)重构了系统矩阵A和B。假设输入层-隐层的权重被随机初始化并且保持不变。根据神经网络的通用逼近定理，如果隐层神经元的数量足够大，则近似误差可以任意小。

步骤(4)在模型网络辨识器的基础上，构建基于控制依赖二次启发式规划的Q-learning算法，迭代获得系统的近似最优控制律

主要包括以下步骤：

(4-1)用

和

代替A和B，(3)则可以重新表示为

其中

因此，目标方程(30)替换为

其中

(4-2)可以采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律。

步骤1)初始化：给定一个初始稳定控制策略K⁰，令j＝0，其中j表示迭代步数，设置最大训练循环步数N。

步骤2)策略估计：计算核心矩阵H^j+1

步骤3)策略更新：

其中，

步骤4)当j＝N停止迭代过程，获得近似最优控制律u^j(k)，否则增加迭代步数j＝j+1并转到步骤2)。

以上步骤的策略迭代是基于系统数据采用最小二乘法执行的，不需要任何系统动态知识。策略迭代需要持续激励条件，

其中δ为持续激励，为算法迭代过程中真正的系统控制。持续激励条件确保了充分探索状态空间。

通过沿着模型网络获取的系统轨迹的数据对

和

最小二乘法方法实施如下定义

其中

公式(44)转化为

如果Ξ(k)满足满秩条件，则由(49)，H计算为

图1是针对策略迭代算法实现过程的简单控制结构图。

为了使本领域人员更好地理解本发明，下面结合具体实施例，对本发明的线性系统自适应最优跟踪控制方法进行详细说明。

仿真中采用如下线性离散二阶系统：

参考系统如下：

其中

和

分别是系统的状态向量和控制变量。通过解增广代数黎卡提方程(18)，得到的P^*为

针对二阶系统(51)和参考轨迹(52)执行基于控制依赖二次启发式规划的策略迭代Q-learning算法。两个系统的初始值为

X(0)＝[0.2 -0.2 -0.2 0.2]^T,#

#

K⁰＝[-0.2330 -0.2909 0.1466 -0.2098].#

根据P^*和Q函数的定义(20)，H^*计算为

使用最优控制增益

K^*计算为

K^*＝[-0.1074 0.0578 -0.3192 -0.0190].#

性能指标函数(6)中的参数选择为，R＝1，Q＝30，γ＝0.6。使用一个结构为3-8-2的三层前馈神经网络构建模型网络，其中3，8，2分别是输入层，隐层和输出层的神经元个数。在时间步长k＝0时应用Q-learning算法。神经网络的输入层-隐层权重向量ω_m1和隐层-输出层权重向量ω_m2在[-0.1,0.1]中随机初始化。激活函数选为φ(·)＝tanh(·)。选择模型网络的学习率为β＝0.01，选择1000个测量的状态-控制对[x(k),u(k)]数据样本用于训练模型神经网络。训练过程完成后，权重向量在后续过程中保持不变。图2中描述了随着迭代步骤增加，模型网络中从八个隐层节点到第一输出层节点的权重轨迹收敛。通过最小化模型网络误差函数的二次形式来更新权重。由图中结果可知神经网络权重从[-0.1,0.1]中的随机值开始，并在若干迭代步骤之后收敛。

为了解决线性二次型跟踪问题，将训练好的模型网络应用到Q-learning算法中。为了确保学习过程中的持续激励条件，将包括不同频率的正弦曲线的探测信号添加到系统输入。探测信号选为

δ＝a(0.5sin(2k)²cos(10.1k)+0.9sin(1.1k)²cos(4k)+0.3sin(2k)²cos(7k)

+0.3sin(10k)³+0.7sin(3k)³cos(4k)+0.3sin(3k)cos(1.2k)²

+0.4sin(1.1k)²+0.5cos(2.4k)sin(8k)²+0.3sin(k)cos(0.8k)²

+0.3sin(4k)³+0.4cos(2k)sin(5k)⁴+0.3sin(10k)³),

其中a选为0.0097。最大迭代次数设置为N＝200。在控制律的每次迭代过程中，收集5个数据样本用来执行最小二乘法。从图3可以看出，所提出的算法最小化了目标函数(44)，其实现过程仅基于系统数据，证明了算法的有效性。经过14次迭代，H和K收敛到

和

K＝[-0.1075 0.0579 -0.3188 -0.0189].

图4和图5描述了最优H^*矩阵与迭代的H矩阵之间差的范数，最佳控制增益K^*与迭代的控制增益矩阵K之差的范数。根据图4和图5，以及得到的矩阵H^*，K^*，H，K，可以知道，随着迭代步长的增加，H和K会收敛到H^*，K^*。图6描述了输出y(k)跟踪参考轨迹s(k)的过程，这验证了算法的稳定性。跟踪误差曲线如图7所示。可以观察到最终误差曲线在0周围波动，表现为正弦形式，误差值很小。控制曲线如图8所示。所有仿真结果表明，利用算法，可以保证在未知系统动力学条件下获得最优控制，最小化代价函数，使系统(51)的输出很好地跟踪参考系统(52)。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。