CN112149361A

CN112149361A - 一种线性系统自适应最优控制方法和装置

Info

Publication number: CN112149361A
Application number: CN202011078377.0A
Authority: CN
Inventors: 秦家虎; 李曼; 万艳妮; 马麒超
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2020-12-29
Anticipated expiration: 2040-10-10

Abstract

本发明公开了一种线性系统自适应最优控制方法和装置，方法包括：构建具有领导者和跟随者的两输入线性系统；设计两输入线性系统每个参与者的目标函数；构建最优目标函数和最优控制策略满足的方程；设计值迭代强化学习算法计算最优目标函数和最优控制策略；利用最小二乘法，给出强化学习算法的一种实现；基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象，以及实际系统的精确的动力学模型通常难以获取的难题，通过充分利用系统的输入输出信息设计控制策略，能够在参与者具有不平等地位的情况下实现自适应最优控制。

Description

一种线性系统自适应最优控制方法和装置

技术领域

本发明涉及线性系统控制技术领域，尤其涉及一种线性系统自适应最优控制方法和装置。

背景技术

自然界及人类社会中的系统的一个重要特征是包含多个决策者。决策者通常具有自私属性，即试图采取能够使自身性能指标最优的策略。策略设计的一个有效的工具是博弈论。在大多数已有的工作中，通常考虑所有的参与者的行为是同时的，即，考虑所有参与者处于平等的地位且同时决定各自的策略。然而，在很多实际场景中，某些个体可能比其他参与者掌握更多的信息，且能够优先采取行动。比如，在电力系统中，分布式能源站首先决定电价并主导市场，而消费者随后决定自己的能源消耗量。

斯塔克伯格博弈被广泛用来建模和研究这种分层决策问题。在斯塔克伯格博弈中，通常具有两个参与者：领导者和跟随者。领导者在考虑跟随者可能的合理响应的情况下优先决定自己的策略，而跟随者在观察到领导者的策略后，据此采取对自己最有利的策略。因此，斯塔克伯格博弈通常被描述为一个具有分层且耦合结构的双层优化问题。

在实际系统如电力系统、机器人系统中，博弈参与者的状态通常满足一个动态方程。为了研究方便，该动态方程可以考虑线性形式。当考虑博弈参与者的状态满足一个线性动态方程约束时，斯塔克伯格博弈问题的解满足一组耦合的非线性偏微分方程(PDEs)，即Hamilton-Jacobi-Bellman(HJB)方程。众所周知，我们几乎不可能给出耦合PDEs的解析解，而且估计PDEs的解也是非常困难的。目前已有的方法大多依赖于精确的、完整的系统动力学方程的信息，而这一信息在实际应有中通常难以获取。

因此，如何合理的建模参与者之间的分层决策关系，如何充分利用系统与环境的交互，设计不依赖于完整的系统动力学模型信息的控制器是亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种线性系统自适应最优控制方法，基于斯塔克伯格博弈，能够充分考虑实际应用中决策的参与者具有不平等地位的现象，以及解决实际系统的精确的动力学模型通常难以获取的难题。

本发明提供了一种线性系统自适应最优控制方法，包括：

构建具有领导者和跟随者的两输入线性系统；

设计所述两输入线性系统每个参与者的目标函数；

构建最优目标函数和最优控制策略满足的方程；

设计值迭代强化学习算法计算最优目标函数和最优控制策略；

利用最小二乘法，给出强化学习算法的一种实现；

基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。

优选地，所述构建具有领导者和跟随者的两输入线性系统，包括：

构建具有两个输入的线性系统；

将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。

优选地，所述设计所述两输入线性系统每个参与者的目标函数，包括：

基于领导者和跟随者的决策顺序，设计关于系统状态和控制输入的成本函数；

给出相应的值函数。

优选地，所述构建最优目标函数和最优控制策略满足的方程，包括：

构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程；

构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。

优选地，设计值迭代强化学习算法计算最优目标函数和最优控制策略，包括：

参数初始化；

基于领导者最优控制策略满足的积分贝尔曼方程，更新领导者值函数；

基于领导者最优控制策略和当前值函数，更新领导者控制策略；

基于跟随者最优控制策略满足的积分贝尔曼方程，更新跟随者值函数；

基于跟随者最优控制策略和当前值函数，更新跟随者控制策略；

如果相邻两步迭代所得值函数之差满足期望的阈值，则停止算法，否则返回基于领导者最优控制策略满足的积分贝尔曼方程，更新领导者值函数。

优选地，所述利用最小二乘法，给出强化学习算法的一种实现，包括：

根据当前迭代步骤的值函数，构建基于积分贝尔曼方程的残差方程；

利用最小二乘法最小化残差方程中的残差，得到值函数参数向量的更新率；

给出强化学习算法的一种实现。

优选地，所述给出强化学习算法的一种实现，包括：

参数初始化；

基于一组系统输入输出数据，更新领导者值函数的参数向量；

更新领导者控制策略；

基于一组系统输入输出数据，更新跟随者值函数的参数向量；

更新跟随者控制策略；

如果相邻两步迭代所得参数向量之差满足期望的阈值，则停止算法，否则返回基于一组系统输入输出数据，更新领导者值函数的参数向量。

一种线性系统自适应最优控制装置，包括：

第一构建模块，用于构建具有领导者和跟随者的两输入线性系统；

第一设计模块，用于设计所述两输入线性系统每个参与者的目标函数；

第二构建模块，用于构建最优目标函数和最优控制策略满足的方程；

第二设计模块，用于设计值迭代强化学习算法计算最优目标函数和最优控制策略；

给出模块，用于利用最小二乘法，给出强化学习算法的一种实现；

控制模块，用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。

优选地，所述第一构建模块具体用于：

构建具有两个输入的线性系统；

优选地，所述第一设计模块具体用于：

给出相应的值函数。

优选地，所述第二构建模块具体用于：

优选地，所述第二设计模块具体用于：

参数初始化；

优选地，所述给出模块具体用于：

给出强化学习算法的一种实现。

优选地，所述给出模块在执行给出强化学习算法的一种实现时，具体用于：

参数初始化；

更新领导者控制策略；

更新跟随者控制策略；

综上所述，本发明公开了一种线性系统自适应最优控制方法，当需要对线性系统进行自适应最优控制时，首先构建具有领导者和跟随者的两输入线性系统，然后设计两输入线性系统每个参与者的目标函数，构建最优目标函数和最优控制策略满足的方程，设计值迭代强化学习算法计算最优目标函数和最优控制策略；利用最小二乘法，给出强化学习算法的一种实现，基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明基于斯塔克伯格博弈，能够充分考虑实际应用中决策的参与者具有不平等地位的现象，以及解决实际系统的精确的动力学模型通常难以获取的难题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种线性系统自适应最优控制方法实施例的流程图；

图2为本发明公开的一种领导者的值函数参数向量演化示意图；

图3为本发明公开的一种跟随者的值函数参数向量演化示意图；

图4为本发明公开的一种线性系统的状态演化示意图；

图5为本发明公开的一种线性系统自适应最优控制装置实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种线性系统自适应最优控制方法实施例的流程图，所述方法可以包括以下步骤：

S101、构建具有领导者和跟随者的两输入线性系统；

当需要对线性系统进行自适应最优控制时，首先构建具有领导者和跟随者的两输入线性系统。

具体的，首先构建具有两个输入的线性系统；

考虑能够建模成如下具有两个输入的一般线性系统：

其中，x∈Rⁿ表示系统状态，u₁,u₂∈R^p表示系统控制输入，A∈R^n×n和B∈R^n×p表示系统矩阵。为了便于将线性系统的控制问题建模成博弈问题研究，本发明考虑上述系统控制中具有两个决策参与者，其策略分别为u₁和u₂。

然后，将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。

根据决策的参与者的性质，将其分别建模为领导者和跟随者。领导者优先采取行动，并有能力预测另一参与者可能采取的行动；跟随者观察到领导者的行动后随之采取对自己最有利的动作。

S102、设计两输入线性系统每个参与者的目标函数；

具体的，首先考虑领导者和跟随者的决策顺序，设计关于系统状态和控制输入的成本函数：

其中，r_i(x(t),u₁(t),u₂(t))＝x^T(t)Q_ix(t)+(u_i(t)+θ_iu_j(t))^TR_i(u_i(t)+θ_iu_j(t))，i,j＝1,2，i≠j，t₀表示初始时刻，Q_i≥0，R_i>0，θ_i∈(0,1)，

是能观的。

然后，给出相应的值函数(即，目标函数)，决策者i的值函数定义为：

V_i(x(t))＝∫_t ^∞r_i(x(τ),u₁(τ),u₂(τ))dτ

S103、构建最优目标函数和最优控制策略满足的方程；

具体的，首先构建跟随者最优目标函数和最优控制策略满足的方程；

按照自下而上的原则，首先对跟随者进行分析。用

表示第i个参与者的最优值函数，

表示第i个参与者的最优控制策略。跟随者的最优值函数表示为

其中，

为半正定矩阵，且

满足如下积分贝尔曼方程：

对于任意给定的领导者策略u₁，跟随者的最优响应策略为：

其中，

和

分别表示领导者和跟随者的最优控制策略。

然后，构建领导者最优目标函数和最优控制策略满足的方程；

领导者的最优值函数为

其中，

为半正定矩阵，且

满足如下积分贝尔曼方程：

考虑到领导者能够预测跟随者的最优响应策略的形式，将上述分析得到的

代入到领导者的值函数中，分析可得，领导者的最优控制策略为：

S104、设计值迭代强化学习算法计算最优目标函数和最优控制策略；

然后，设计值迭代强化学习算法计算步骤S103中推导的最优值函数和最优控制策略。

具体的，首先初始化

i＝1,2，s＝0表示迭代步数，ε>0表示期望的近似精度；

然后，更新领导者值函数：

然后，更新领导者控制策略：

然后，更新跟随者值函数：

然后，更新跟随者值控制策略：

然后，如果

i＝1,2，则停止算法；否则令s＝s+1，并返回更新领导者值函数。

S105、利用最小二乘法，给出强化学习算法的一种实现；

然后，利用最小二乘法，给出步骤S104中强化学习算法的一种实现。

具体的，首先构建基于积分贝尔曼方程的残差方程；为了便于表示，首先将用

代替上述算法中的

其中，

为值函数权重向量，通过将

中的元素按列排列得到，

由x(t)的二次型得到，其排列顺序与

中的元素对应。基于此，可以得到如下残差方程：

其中：

然后，利用最小二乘法最小化上述残差方程中的残差，得到值函数参数向量

的更新率，为：

其中：

t₁,…,t_M为M个采样时刻。

然后，给出步骤S104中强化学习算法的一种实现；

具体的，首先初始化

i＝1,2，s＝0表示迭代步数，ε>0表示期望的近似精度；

然后，更新领导者的值函数参数向量：

将系统运行一段时间，采样M组系统数据(x_i(t_k),x_i(t_k+Δt),u_i(t_k),u_i(t_k+Δt))，i＝1,2，k＝1,…,M，Δt表示采样时间间隔，通过下式更新领导者权重：

然后，更新领导者控制策略：

其中，

表示

关于x的梯度；

然后，更新跟随者的值函数参数向量：

将系统运行一段时间，采样M组系统数据(x_i(t_k),x_i(t_k+Δt),u_i(t_k),u_i(t_k+Δt))，i＝1,2，k＝1,…,M，Δt表示采样时间间隔，通过下式更新跟随者权重：

然后，更新跟随者者控制策略：

然后，如果

i＝1,2，则停止算法；否则令s＝s+1，并返回更新领导者的值函数参数向量。

S106、基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。

最后，用步骤S105所确定的控制器实现自适应最优控制。

下面通过一个具体实施例对本发明的技术方案进一步说明：

考虑具有二阶动力学的地面移动机器人系统，其动力学为：

其中，s∈R表示机器人的位置，v∈R表示机器人的速度，u₁∈R表示领导者的控制输入(控制策略)，u₂∈R表示跟随者的控制输入(控制策略)。

将机器人的速度和位置选为状态变量，即，x＝[s,v]^T，则上述二阶动力学系统可以写成如下具有两个输入的一般线性系统的形式：

其中，

性能指标中的参数为：

R₁＝0.5，R₂＝2，θ₁＝0.1，θ₂＝0.2。

领导者和跟随者的值函数参数向量演化分别如图2和图3所示，系统的状态演化如图4所示。

综上所述，本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象，以及实际系统的精确的动力学模型通常难以获取的难题，通过充分利用系统的输入输出信息设计控制策略，能够在参与者具有不平等地位的情况下实现自适应最优控制。

如图5所示，为本发明公开的一种线性系统自适应最优控制装置实施例的结构示意图，所述装置可以包括：

第一构建模块501，用于构建具有领导者和跟随者的两输入线性系统；

第一设计模块502，用于设计所述两输入线性系统每个参与者的目标函数；

第二构建模块503，用于构建最优目标函数和最优控制策略满足的方程；

第二设计模块504，用于设计值迭代强化学习算法计算最优目标函数和最优控制策略；

给出模块505，用于利用最小二乘法，给出强化学习算法的一种实现；

控制模块506，用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。

本实施例公开的线性系统自适应最优控制装置的工作原理与上述线性系统自适应最优控制方法的工作原理相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种线性系统自适应最优控制方法，其特征在于，包括：

构建具有领导者和跟随者的两输入线性系统；

设计所述两输入线性系统每个参与者的目标函数；

构建最优目标函数和最优控制策略满足的方程；

利用最小二乘法，给出强化学习算法的一种实现；

2.根据权利要求1所述的方法，其特征在于，所述构建具有领导者和跟随者的两输入线性系统，包括：

构建具有两个输入的线性系统；

3.根据权利要求2所述的方法，其特征在于，所述设计所述两输入线性系统每个参与者的目标函数，包括：

给出相应的值函数。

4.根据权利要求3所述的方法，其特征在于，所述构建最优目标函数和最优控制策略满足的方程，包括：

5.根据权利要求4所述的方法，其特征在于，设计值迭代强化学习算法计算最优目标函数和最优控制策略，包括：

参数初始化；

6.根据权利要求5所述的方法，其特征在于，所述利用最小二乘法，给出强化学习算法的一种实现，包括：

给出强化学习算法的一种实现。

7.根据权利要求6所述的方法，其特征在于，所述给出强化学习算法的一种实现，包括：

参数初始化；

更新领导者控制策略；

更新跟随者控制策略；

8.一种线性系统自适应最优控制装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一构建模块具体用于：

构建具有两个输入的线性系统；

10.根据权利要求9所述的装置，其特征在于，所述第一设计模块具体用于：

给出相应的值函数。

11.根据权利要求10所述的装置，其特征在于，所述第二构建模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述第二设计模块具体用于：

参数初始化；

13.根据权利要求12所述的装置，其特征在于，所述给出模块具体用于：

给出强化学习算法的一种实现。

14.根据权利要求13所述的装置，其特征在于，所述给出模块在执行给出强化学习算法的一种实现时，具体用于：

参数初始化；

更新领导者控制策略；

更新跟随者控制策略；