CN109932905A

CN109932905A - 一种基于非策略的观测器状态反馈的优化控制方法

Info

Publication number: CN109932905A
Application number: CN201910176776.1A
Authority: CN
Inventors: 李金娜
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2019-06-25
Anticipated expiration: 2039-03-08
Also published as: CN109932905B

Abstract

一种基于非策略的观测器状态反馈的优化控制方法，涉及一种优化控制方法，本发明优化具有未知参数的线性离散系统的控制性能。首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统，定义性能优化指标；然后，基于分离原理，动态规划和学习方法，给出一种具有未知模型参数的非策略学习算法，并设计近似最优观测器，设计近似最优控制器，进而得到完全利用可测量的系统输出和控制输入数据的非策略

Description

一种基于非策略的观测器状态反馈的优化控制方法

技术领域

本发明涉及一种优化控制方法，特别是涉及一种基于非策略的观测器状态反馈的优化控制方法。

背景技术

根据系统的外部变量（输入变量和输出变量）的实测值得出状态变量估计值的一类动态系统，称为状态重构器。60年代初期，为了对控制系统实现状态反馈或其他需要，D.G.吕恩伯格、R.W.巴斯和J.E.贝特朗等人提出状态观测器的概念和构造方法，通过重构的途径解决了状态的不能直接测量的问题。构成状态观测器的方法依需要的不同而有差别。最简单的是开环状态观测器，开环观测器对外界干扰的抗干扰性和对参数变动的灵敏度都很差，采用闭环方式构成的状态观测器能克服开环状态观测器的缺点。

目前状态观测器设计普遍采用依赖系统模型信息的方法，系统模型存在未知参数，完全利用可测量数据的状态观测器设计目前还未见报道。

强化学习（Reinforcement Learning, RL）是一种从环境状态到动作映射的学习，并期望动作从环境中获得的累积奖赏最大。从20世纪80年代末开始，随着对强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，强化学习成为目前机器学习领域的研究热点之一。

近年来在工程应用、模式识别、图像处理、网络优化等领域都得到广泛应用。

根据目标策略和行为策略是否一致，将强化学习分为策略（On-policy）学习和非策略（Off-Policy）学习。如果在学习过程中，动作选择的行为策略和学习改进的目标策略一致，该方法就被称为策略学习，如Sarsa学习，否则被称为非策略学习，如非策略Q-学习。采用强化学习方法，不依赖系统模型参数信息，完全利用数据学习状态反馈控制策略，优化控制系统性能的研究成果很多，如研究线性系统最优二次调节、最优跟踪控制、控制等。这些方法都假定系统的状态可以测量，然而控制系统的实际应用中，系统的状态可能不是物理量不能直接测量，就是测量的成本非常高。那么，在这种情况系统，无法使用基于可测量的状态信息学习得到最优控制器，并且设计的状态反馈控制器无法实现对系统控制和优化。对于具有未知参数的系统状态反馈最优控制，且系统状态不能直接测量的问题，目前还没有充分研究。利用系统当前和过去的可测输出和输入数据估计当前系统状态，给出基于强化学习方法的近似最优控制策略。此种方法对于高阶系统而言，计算复杂，且需要存储大量系统当前和过去的输出和输入数据。

发明内容

本发明的目的在于提供一种基于非策略的观测器状态反馈的优化控制方法，本发明给出了基于观测器状态反馈的控制器增益和状态观测器增益方法，不需要系统模型参数完全已知，利用可测的当前时刻输出和输入数据，优化控制系统性能。

本发明的目的是通过以下技术方案实现的：

一种基于非策略的观测器状态反馈的优化控制方法，所述方法包括以下控制设计：

首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统，定义性能优化指标；然后，基于分离原理，动态规划和Q学习方法，给出一种具有未知模型参数的非策略Q学习算法，并设计近似最优观测器，设计近似最优控制器，进而得到完全利用可测量的系统输出和控制输入数据的非策略Q学习算法，实现基于观测器状态反馈的系统优化控制策略；构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统，包括基于观测器状态反馈的线性离散系统最优控制，考虑具有未知模型参数的线性离散系统的状态方程；鉴于实际控制系统状态很难直接测量或者只能测量部分状态信息，加上测量成本高，所以设计全维状态观测器；定义性能优化指标包括在系统模型含有未知参数的情况下，利用可测数据设计，保证闭环系统稳定，并且优化性能指标；设计近似最优观测器包括依赖模型的最优观测器设计以及最优观测器非策略Q-学习算法设计；最优控制器设计包括根据分离定理，控制器增益矩阵要保证镇定，并且优化问题1中性能指标；在系统矩阵存在参数未知的情况下采用算法4能够利用可测的系统输入、输出数据和观测器状态可以学习最优控制器增益和最优观测器增益，实现基于观测器状态反馈的优化控制。

所述的一种基于非策略的观测器状态反馈的优化控制方法，所述优观测器设计先给出基于系统模型的最优观测器策略，进而得到不用系统矩阵的数据驱动的最优观测器策略设计方法。

所述的一种基于非策略的观测器状态反馈的优化控制方法，所述问题1为最优控制问题表述为：。

所述的一种基于非策略的观测器状态反馈的优化控制方法，所述算法4为基于非策略Q-学习方式的最优状态估计反馈控制器设计算法。

本发明的优点与效果是：

本发明针对系统状态不能直接测量或者测量成本高的控制系统，并且系统矩阵存在未知参数的情况下，提出一种基于非策略Q学习方法的观测器状态反馈的优化控制策略。首先，对于具有未知参数的线性离散系统，定义基于观测器状态反馈的优化问题；然后利用分离原理、动态规划和Q学习算法，提出非策略Q学习算法。在系统矩阵中存在未知参数的情况下，利用可测数据，学习最优观测器增益和最优控制器增益。仿真结果也验证了所提出的方法的有效性。

附图说明

图1为迭代矩阵和观测器增益迭代矩阵敛过程图；

图2 迭代矩阵和控制器增益迭代矩阵收敛过程图；

图3 系统响应曲线图；

图4 最优控制律和观测器策略图。

具体实施方式

下面结合附图所示实施例对本发明进行详细说明。

1.本发明基于观测器状态反馈的线性离散系统最优控制，考虑如下具有未知模型参数的线性离散系统的状态方程：

其中，和分别为被控状态，控制输入和控制输出。为适维矩阵，为采样时刻，为未知参数或未知向量。假设能控，能观。

鉴于实际控制系统状态很难直接测量或者只能测量部分状态信息，加上测量成本高，所以设计如下全维状态观测器：

其中，为的重构状态或估计状态，是观测器输出，是观测器的增益矩阵。定义实际状态和状态估计值之差为误差向量：

得到误差向量的动态方程：

选用基于观测器状态的静态反馈控制器：

控制器（5）的目标是最小化如下二次性能指标：

其中，和分别为半正定和正定矩阵。如此，本发明关注的最优控制问题可以表述为：

问题1

满足：（1）, （4）和（5）

令，由式（1），（4）和（5），得到如下闭环增广控制系统：

从式（8）可知，闭环系统的极点是由的特征值确定的，可以分别设计和从而配置闭环系统的极点。因此，对于优化问题1，分离定理成立。

注1：配置特征值的方法有很多，如极点配置，李雅普诺夫方法等。本发明在系统模型含有未知参数的情况下，如何完全利用可测数据分别设计与，保证闭环系统稳定，并且优化性能指标（7）。

2.最优观测器设计，给出不利用被控系统和观测器系统矩阵的最优观测器非策略Q-学习算法，学习最优观测器。引入观测器策略，定义如下优化问题：

问题2

满足

如下先给出基于系统模型的最优观测器策略，进而得到不用系统矩阵的数据驱动的最优观测器策略设计方法。设计的最优观测器策略不仅要保证观测器误差收敛到零，并且优化性能指标（9）。

2.1 依赖模型的最优观测器设计

根据性能指标（9），定义最优值函数和最优函数为：

其中。得到最优值函数和最优函数的关系为：

对于优化问题2，如果观测器策略为，那么值函数和函数可以表示成如下二次型：

和

其中

基于动态规划，由式（12）得到基于函数的贝尔曼(Bellman) 方程如下：

根据实现最优性能的必要条件，由可以得到：

其中

将式（19）代入到式（18）,可以得到代数黎卡提方程，

为求解式（21）中函数矩阵，给出如下算法。

算法1:基于模型的策略迭代算法

1. 初始化:给定保证估计误差稳定的观测器增益，令为迭代指标；

2. 策略评估：通过式（22）求解数迭代矩阵

3. 策略更新:

4. 如果，算法停止；否则令，回到步骤2。

注2：已经证明和，（其中为式（21）的解）。从算法1可知,学习函数矩阵要求系统矩阵和精确已知，然而实际控制系统模型中含有未知参数，那么算法1无法执行。完全利用可测数据，针对具有未知参数的系统，设计最优观测器是本发明研究的目的。下一小节给出一种非策略的-学习算法，在系统矩阵中含有未知参数的情况下，学习得到近似最优观测器增益。

2.2 最优观测器非策略-学习算法设计

将引入两种操作，第一种是定义一个与最优函数矩阵相关的虚拟函数矩阵

另一种操作是在系统（4）引入一个辅助变量，得到

其中，用于产生系统数据，称为行为策略，是目标策略，目的是收敛到最优观测器策略。

由式（16）和式（24），得到

沿着系统轨迹（25），结合式（22）和式（26），得到

令，改写式（27）为

其中

由式（26）,改写式（23）为：

定理1：如果矩阵可逆,那么存在唯一矩阵, 满足

和（27），使得（30）收敛到最优观测器策略，即。

证：首先，证明如果矩阵是迭代方程（27）的解，那么由式（31）得到的矩阵满足式（22）成立。已知和的动态（25），如果矩阵是迭代方程（27）的解，那么保证如下式子成立：

由引理1中的式（17）和式（32）,由式（31）定义的矩阵保证式（22）成立。接下来，我们证明式（27）存在唯一的解。假设式（27）存在两个不同的解和，那么由式（31）我们能得到矩阵和，其中，既然矩阵可逆，那么有和

如果矩阵和矩阵相同，那么矩阵和矩阵相等，所以矩阵和矩阵不相等。然而，式（22）有唯一解，所以根据反证法，原假设式（27）存在两个不同的解和不成立。由式（30），有

证毕。

注3：定理1要求即使矩阵中含有未知参数，要能够判断是否可逆。

算法2:非策略-学习算法

1. 数据收集: 给定保证估计误差稳定的行为策略，收集数据，存储到样本集合和；

2. 初始化：给定初始观测器增益, 保证估计误差系统（4）稳定。令；

3. 执行学习：用最小二乘法估计式（28）中虚拟函数矩阵，然后利用式（30）更新观测器增益；

4. 如果,停止算法，否则令，回到步骤3。

注4：使用算法2，可以通过非策略-学习方法很容易地学习最优观测器增益，算法2最重要的优点是它独立于系统矩阵，不要求系统矩阵完全已知。另外，矩阵的引入使得仅利用可测的输入和输出数据来学习最优观测器增益成为可能。

3.最优控制器设计

根据分离定理，控制器增益矩阵要保证镇定，并且优化问题1中性能指标（7）。因而，给出如下优化问题：

问题3

满足

改写问题3为：

满足式（34）。其中。

根据性能指标（35），定义最优值函数和最优函数为：

得到最优值函数和最优函数的关系为：

对于可镇定的控制策略, 最优值函数和最优函数可以表示为如下二次型

其中，

在系统矩阵含有未知参数的情况下，下面将给出求解问题3的不要求系统矩阵完全已知的策略-学习算法和非策略-学习算法。

3.1 策略学习算法设计

采用动态规划方法，由式（36）和式（37），得到基于最优函数的贝尔曼方程：

根据实现最优性能的必要条件，执行得到

算法3给出求解式（43）中最优函数矩阵的方法，注意到此方法不需要系统矩阵已知。

算法3:依赖策略的迭代算法

1. 初始化：给定可镇定控制器增益矩阵，令为迭代指标；

2. 策略评估：既然，并且由（43）可以得到式（46）。由式（46）求解最优函数迭代矩阵：

其中，

。

3. 策略更新：

4. 如果停止迭代；否则回到步骤2，继续执行算法。

注5：执行算法3，有且。但是，算法3要求系统添加探测噪声，以便满足持续激励条件。采用策略-学习算法3，如果系统加入探测噪声，式（46）的解可能会有偏差。而非策略-学习算法，即使系统加入探测噪声，也会学习得到无偏解。因此，4.2节给出非策略-学习算法，以便找到最优控制器增益。

3.2 非策略-学习方法

在系统（34）中引入辅助控制策略，有

其中，为用于产生系统数据的行为策略，为目标策略，设计的算法目标是当时，收敛到。沿着系统（48）的轨迹，有：

由式（41），（42），（46），式（49）改写为：

进而有，

进一步处理，有：

式（52）可以改写为：

其中，

注6：如果是式（46）的解当且仅当是式（53）的解。[16, 20, 21]已经给出这一结论的证明。

注7：利用最小二乘法求解式（53）中最优函数迭代矩阵时，需要利用行为控制策略产生的状态数据。然而，状态数据不可测量。由于本发明采用非策略-学习算法，可以取可镇定的观测器行为策略和控制器行为控制策略作用系统（1）和（2），通过比较和，当接近时，用代替，求解式（53），得到最优函数迭代矩阵，进而得到控制器增益。

结合算法2和3，给出算法4，得到近似最优控制器增益矩阵。

算法4：基于非策略-学习方式的最优状态估计反馈控制器设计算法

1. 选取行为控制策略和行为观测器策略作用系统，收集数据和；

2. 给定初始观测器增益和可镇定控制器增益,令;

3. 执行算法2中第3步骤，得到虚拟函数迭代矩阵和观测器策略增益；

4. 用代替（前提是接近），利用式（53）计算函数迭代矩阵，计算。如果，停止迭代；否则令回到步骤3。

执行算法4，如果足够小，迭代指数足够大，无限接近, 无限接近。对于具有未知参数的离散线性系统，算法4完全利用可测的输入、输出，状态观测器状态学习最优观测器增益，最优控制器增益。并且，如果系统矩阵完全未知，但是能够实际应用判断系统的能控性和能观性，并且能保证矩阵可逆，算法4仍然适用。

4.仿真结果(Simulation results)

考虑如下具有未知参数的开环不稳定系统：

其中，参数，假设未知。系统能控、能观。选取。

a) 基于模型求最优观测器策略和控制器策略

，对于优化问题2，用Matlab 软件中"dare"命令可以计算获得最优函数矩阵：

由式(24) 计算得到：

由式(19) 计算最优观测器增益为：

对于优化问题3，用Matlab 软件中"dare"命令可以计算获得最优函数矩阵：

最优控制器增益为

b) 模型参数未知情况下，求最优观测器和控制器策略

给定观测器增益矩阵初始值为：

和控制器增益矩阵初始值为：

执行算法4，如图1所示，迭代矩阵和观测器增益迭代矩阵收敛过程；

经过10次策略迭代，观测器最优函数迭代矩阵和迭代增益矩阵分别收敛到最优和。

图2给出控制器最优函数迭代矩阵收敛到最优和控制器增益收敛到的曲线。迭代矩阵和控制器增益迭代矩阵收敛过程。

图3分别给出采用非策略-学习得到的最优控制律和观测器下系统的状态曲线；图4最优控制律和观测器策略；观测器状态曲线和观测器误差曲线。可以看出，观测器较好地估计了系统的状态。表1给出最优控制器和一般可镇定控制器下系统性能比较。

表1 性能比较

由表1可知，在系统矩阵存在参数未知的情况下采用算法4能够利用可测的系统输入、输出数据和观测器状态可以学习最优控制器增益和最优观测器增益，实现基于观测器状态反馈的优化控制。

Claims

1.一种基于非策略的观测器状态反馈的优化控制方法，其特征在于，所述方法包括以下控制过程：

首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统，定义性能优化指标；然后，基于分离原理，动态规划和学习方法，给出一种具有未知模型参数的非策略学习算法，并设计近似最优观测器，设计近似最优控制器，进而得到完全利用可测量的系统输出和控制输入数据的非策略学习算法，实现基于观测器状态反馈的系统优化控制策略；构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统，包括基于观测器状态反馈的线性离散系统最优控制，考虑具有未知模型参数的线性离散系统的状态方程；鉴于实际控制系统状态很难直接测量或者只能测量部分状态信息，加上测量成本高，所以设计全维状态观测器；定义性能优化指标包括在系统模型含有未知参数的情况下，利用可测数据设计，保证闭环系统稳定，并且优化性能指标；设计近似最优观测器包括依赖模型的最优观测器设计以及最优观测器非策略-学习算法设计；最优控制器设计包括根据分离定理，控制器增益矩阵要保证镇定，并且优化问题1中性能指标；在系统矩阵存在参数未知的情况下采用算法4能够利用可测的系统输入、输出数据和观测器状态可以学习最优控制器增益和最优观测器增益，实现基于观测器状态反馈的优化控制。

2.根据权利要求1所述的一种基于非策略的观测器状态反馈的优化控制方法，其特征在于，所述优观测器设计先给出基于系统模型的最优观测器策略，进而得到不用系统矩阵的数据驱动的最优观测器策略设计方法。

3.根据权利要求1所述的一种基于非策略的观测器状态反馈的优化控制方法，其特征在于，所述问题1为最优控制问题表述为：

。

4.根据权利要求1所述的一种基于非策略的观测器状态反馈的优化控制方法，其特征在于，所述算法4为基于非策略Q-学习方式的最优状态估计反馈控制器设计算法。