CN111722531B - 一种切换线性系统在线无模型最优控制方法 - Google Patents

一种切换线性系统在线无模型最优控制方法 Download PDF

Info

Publication number
CN111722531B
CN111722531B CN202010397545.6A CN202010397545A CN111722531B CN 111722531 B CN111722531 B CN 111722531B CN 202010397545 A CN202010397545 A CN 202010397545A CN 111722531 B CN111722531 B CN 111722531B
Authority
CN
China
Prior art keywords
function
formula
equation
optimal control
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010397545.6A
Other languages
English (en)
Other versions
CN111722531A (zh
Inventor
穆朝絮
周友宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010397545.6A priority Critical patent/CN111722531B/zh
Publication of CN111722531A publication Critical patent/CN111722531A/zh
Application granted granted Critical
Publication of CN111722531B publication Critical patent/CN111722531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种切换线性系统在线无模型最优控制方法,考虑现实中难以获取准确动态模型的大系统和系统动态完全未知的情况,针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;引入Q函数,基于Q函数重构上述的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;依据推导出的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q‑learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。本发明提供的设计方案在求解过程中不需要任何系统动态模型的信息,为求解模型未知切换系统最优控制问题提供了新的思路。

Description

一种切换线性系统在线无模型最优控制方法
技术领域
本发明涉及切换线性系统的最优跟踪控制技术领域,更具体地,涉及一种离散时间切换线性系统最优控制的策略迭代Q-learning方法。
背景技术
切换系统是一类特殊的混合系统,它由多个子系统组成,并且在任何时候都只能激活一个系统。切换信号的作用是确定每个时刻被激活的个子系统。切换系统的最佳控制涉及找到最优切换顺序,子系统之间的最优切换时刻以及每个子系统的最优连续控制输入,它们之间是紧密耦合的。在实际物理系统中,系统动态模型往往由于各种原因不易或者不能获取,因此,基于系统动态模型的方法不能得以实施。除此之外,在现实应用中,切换系统的切换序列和切换时刻往往是已知的,只有子系统控制器需要根据系统性能指标进行设计。本发明从切换系统最优控制出发,在已知切换信号作用,系统动态模型未知的情况下,研究切换子系统最优控制器设计问题,是符合切换系统控制技术的应用和发展趋势的。
强化学习,又称再励学习,是机器学习方法之一,强化学习已经被广泛用于求解最优控制问题。强化学习通过描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化数值奖励或实现特定目标的问题。这里的奖励值可以被视为最优控制框架中的代价函数。总体思路是使用参数化函数表示值函数或控制策略,并基于从真实系统的模拟器或真实系统本身收集到的数据更新这些参数。强化学习可以解决不同的最优控制问题,例如具有约束控制的最优稳定控制,具有时间延迟的最优控制,最优跟踪控制,最优一致性控制,以及零和和非零和博弈的最优控制等。策略迭代和值迭代是强化学习里常用的两种学习算法。Q-learning,亦称控制依赖启发式动态规划,用于估计任何策略Q函数的方法,最优或非最优,是一种无模型强化学习算法,其不需要系统的信息便能求取最优控制,Q-learning应用广泛,例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。神经网络,是使用最广泛的机器学习算法。
发明内容
针对上述现有技术,本发明提出一种切换线性系统在线无模型最优控制方法。在系统动态未知的情况下,设计基于策略迭代的Q-learning算法,算法执行过程中利用最小二乘法,以在线的方式迭代求解子系统最优控制器。过程中不需要任何系统模型信息,仅依靠系统动态轨迹数据。
为了解决上述技术问题,本发明提出的一种切换线性系统在线无模型最优控制方法,主要包括:针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;引入Q函数,基于Q函数重构上述的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;依据推导出的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。
进一步讲,本发明所述的切换线性系统在线无模型最优控制方法,其中,给出子系统最优控制求解方法的具体步骤如下:
步骤1-1、离散时间切换线性系统的系统动态如下:
Figure BDA0002488148300000021
式(1)中,
Figure BDA0002488148300000022
表示系统当前时刻的状态向量,
Figure BDA0002488148300000023
表示系统下一时刻的状态向量,
Figure BDA0002488148300000024
表示系统的控制向量;v(k)∈I={1,2,...,M}是切换信号,其决定在任意时刻
Figure BDA0002488148300000025
哪个子系统被激活;
Figure BDA0002488148300000026
是具有合适维度的常数矩阵;
步骤1-2、定义离散时间切换线性系统代价函数为:
Figure BDA0002488148300000027
式(2)中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k) (3)
式(3)中,
Figure BDA0002488148300000028
u(k)∈Rm,v(k)∈I,Qv(k)是n×n维半正定对称矩阵,Rv(k)是m×m维正定对称矩阵;
步骤1-3、给定固定的混合控制(u(k),v(k)),切换系统的值函数定义为:
Figure BDA0002488148300000029
式(4)写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1))) (6)
通过式(6)等号两边对u(k)求偏导并令其等于0,即
Figure BDA00024881483000000210
求得最优控制的表达式为
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1))) (7)
步骤1-4、切换系统的子系统均为线性系统,并且效应函数为二次形式;值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性;假设子系统i在时间段内[kl,kl+1)被激活,则子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k) (8)
式(8)中,Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:
Figure BDA0002488148300000031
在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k) (10)
相应的最优控制增益矩阵Ki为:
Figure BDA0002488148300000032
本发明所述的切换线性系统在线无模型最优控制方法,其中,推导Q函数贝尔曼方程并给出最优控制表达式的具体步骤如下:
步骤2-1、基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (12)
通过式(5)和式(12),得:
Q(x(k),u(k),v(k))=V(x(k)) (13)
假设在时间段[kl,kl+1)内,子系统i被激活,基于贝尔曼方程(5),在时间段[kl,kl+1)内,离散时间切换线性系统Q函数写成如下形式:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+Q(x(k+1),u(k+1),v(k+1)) (14)
步骤2-2、利用式(1),将式(14)转化为:
Figure BDA0002488148300000033
定义:
Figure BDA0002488148300000041
式(16)中,核矩阵Hi满足
Figure BDA0002488148300000042
步骤2-3、在时间段[kl,kl+1)内,最优控制u*(k)满足的条件通过式(16)对u(k)求偏导,并令其等于0得到,即
Figure BDA0002488148300000043
根据式(17),得到最优控制输入u(k)为:
Figure BDA0002488148300000044
依据式(15)和式(20),式(18)求得的控制输入满足
Figure BDA0002488148300000045
步骤2-4、定义,
Figure BDA0002488148300000046
式(16)的另一种形式
Figure BDA0002488148300000047
依据式(21),Q函数贝尔曼方程式(14)表示为
XT(k)HiX(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (22)
式(22)中,X(k+1)=[x(k+1) u(k+1)]T,u(k+1)=Kix(k+1)。
本发明所述的切换线性系统在线无模型最优控制方法,其中,求解每个子系统的最优控制的具体步骤如下:
步骤3-1、基于式(16)和式(18),采用策略迭代实现Q-learning算法;
步骤3-2、利用获取的系统状态轨迹数据组,采用策略迭代并结合最小二乘法实时更新Hi;定义:
Ξ(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (25)
式(25)重新写为
XT(k)HiX(k)=Ξ(k) (26)
式(21)重新写成另一种形式
Figure BDA0002488148300000051
式(27)中,vec(·)是矩阵函数,返回以Kronecker乘积二次多项式为基向量元素的列向量;假设X(k)的维数为p,则式(26)中的
Figure BDA0002488148300000052
为如下形式:
Figure BDA0002488148300000053
式(27)中,hi=w(H),其中w(·)作用于p维矩阵的矢量函数,输出为p*(p+1)/2×1维列向量;w(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列;
结合式(26)和式(27),得
Figure BDA0002488148300000054
如果矩阵Ξ(k)满秩,直接通过最小二乘法求解出来,即:
Figure BDA0002488148300000055
设u(k)=Kix(k)+δ,其中δ为持续激励,随着时间步长的增加,持续激励衰减为零。
上述步骤3-1采用策略迭代实现Q-learning算法的具体步骤如下:
步骤1)初始化:对每个子系统i,给定初始稳定容许控制策略,令r=0,其中r表示迭代步数,设置最大迭代步数为Nmax
步骤2)策略评估:在子系统i激活期间,根据系统轨迹和容许控制u(k)求解核矩阵
Figure BDA0002488148300000056
Figure BDA0002488148300000057
步骤3)策略更新:
Figure BDA0002488148300000058
步骤4)停止条件:当时停止r=Nmax,获取每个子系统相对应的近似最优反馈增益矩阵Ki,否则增加迭代步数r=r+1,并转到步骤2)。
与现有技术相比,本发明的有益效果是:
(1)考虑到现实应用中许多系统模型难以或不能获取的情况,设计了基于策略迭代的Q-learning算法。本发明控制方法中涉及到的算法是一种无模型算法,不需要系统的模型信息,基于系统数据实现。
(2)在控制方法实现过程中采用最小二乘法,直接得到的控制律是解析解,和用神经网络实现算法相比,不会产生额外的近似误差,大大提高了结果的准确性。
附图说明
图1是本发明中设计基于策略迭代的Q-learning算法的流程图;
图2是切换信号;
图3是每个子系统的最优
Figure BDA0002488148300000062
和计算出的Hi矩阵之差的范数;
图4切换系统在学习过程中的动态响应;
图5显示了系统在求得的最优控制器作用下的状态响应。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
本发明提出的控制方法是解决离散时间切换线性系统的最优控制问题,在已知切换信号的前提下,研究在切换系统模型未知的情况下,能否根据性能指标求解子系统控制器。解决离散时间切换线性系统在系统模型未知情况下的最优控制问题,是符合切换系统控制技术的应用需求和发展趋势的。
关于离散时间切换线性系统最优控制问题,本发明在假设切换系统模型未知的情况下,设计基于策略迭代的Q-learning算法,并利用最小二乘法基于系统动态轨迹数据以在线的方式迭代求解子系统最优控制。通过对现有文献和技术的全面检索,并未发现类似的技术方案。
本发明实施的一种在已知切换信号作用下切换系统最优控制方法包括如下步骤:
步骤(1):针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数;
步骤(2):引入Q函数,基于Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;
步骤(3):依据步骤(3)中的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。
本发明中,步骤(1)针对离散时间切换线性系统,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;具体包括下述步骤:
(1-1)离散时间切换线性系统的系统动态如下:
Figure BDA0002488148300000061
其中
Figure BDA0002488148300000071
表示系统当前时刻的状态向量,
Figure BDA0002488148300000072
表示系统下一时刻的状态向量,
Figure BDA0002488148300000073
表示系统的控制向量。v(k)∈I={1,2,...,M}是切换信号,其决定在任意时刻
Figure BDA0002488148300000074
哪个子系统被激活。
Figure BDA0002488148300000075
是具有合适维度的常数矩阵。
在本发明中,假设基于时间切换的子系统之间的切换仅由v(k)决定,且没有代价。两次切换之间的时间间隔足够大,也就是说,当所有子系统都稳定时,切换信号可以确保切换系统稳定。k+表示切换发生后的时间,因此对于任何k,有v(k+)=v(k+1)。假设每个子系统(Ai,Bi)是可控制的,连续状态x(k)是完全可观的。
(1-2)定义离散时间切换线性系统代价函数为:
Figure BDA0002488148300000076
其中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k) (3)
其中
Figure BDA0002488148300000077
u(k)∈Rm,v(k)∈I,Qv(k)是n×n维半正定对称矩阵,Rv(k)是m×m维正定对称矩阵。
本发明中,假设切换信号已知,即不考虑切换信号作用。切换系统最优控制问题就转化为确定与代价函数相关的一系列连续控制输入u(k)。
(1-3)给定固定的混合控制(u(k),v(k)),切换系统的值函数可以定义为:
Figure BDA0002488148300000078
值函数(4)可以进一步写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1))) (6)
通过式(6)等号两边对u(k)求偏导并令其等于0,即
Figure BDA0002488148300000079
可求得最优控制的表达式为
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1))) (7)
(1-4)这里切换系统的子系统都是线性系统,并且效应函数为二次形式。值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性。假设子系统i在时间段内[kl,kl+1)被激活,那么子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k) (8)
其中Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:
Figure BDA0002488148300000081
在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k) (10)
相应的最优控制增益矩阵Ki为:
Figure BDA0002488148300000082
本发明中,步骤(2)对于动态模型完全未知的系统或者难以建模的大规模系统,由于无法获得准确的系统动态模型,难以根据步骤(1)中的代数黎卡提方程求解最优控制。因此,基于步骤(1)引入Q函数,使用Q函数重构步骤(1)中的代价函数,推导Q函数贝尔曼方程并求解最优控制。对于任意子系统i,如果控制策略u(k)不仅稳定系统而且保证代价函数(9)有限,则称其为容许的。具体包括下述步骤:
(2-1)基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (12)
通过式(5)和(12),可得:
Q(x(k),u(k),v(k))=V(x(k)) (13)
假设在时间段[kl,kl+1)内,子系统i被激活,基于贝尔曼方程(5),在时间段[kl,kl+1)内,离散时间切换线性系统Q函数进一步可以写成如下形式:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+Q(x(k+1),u(k+1),v(k+1)) (14)
(2-2)利用系统动态模型信息(1),式(14)可以转化为:
Figure BDA0002488148300000083
定义:
Figure BDA0002488148300000091
其中核矩阵Hi满足
Figure BDA0002488148300000092
(2-3)在时间段[kl,kl+1)内,最优控制u*(k)满足的条件可以通过Q函数(16)对u(k)求偏导,并令其等于0得到,即
Figure BDA0002488148300000093
根据式(17),可以得到最优控制输入u(k)为:
Figure BDA0002488148300000094
依据式(15)和式(20),式(18)求得的控制输入满足
Figure BDA0002488148300000095
具有和步骤(1)中相同的形式。
(2-4)定义,
Figure BDA0002488148300000096
那么式(16)可以另一种形式
Figure BDA0002488148300000097
依据式(21),Q函数贝尔曼方程式(14)重新表示为
XT(k)HiX(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (22)
其中X(k+1)=[x(k+1) u(k+1)]T,u(k+1)=Kix(k+1)。
本发明中,步骤(3)根据步骤(2)中的Q函数贝尔曼方程(22)及最优控制(18)中的形式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制输入。步骤(3)具体包括下述步骤:
(3-1)基于式(16)和(18),采用策略迭代实现Q-learning算法,如下所述。
步骤1)初始化:对每个子系统i,给定初始稳定容许控制策略。令r=0,其中r表示迭代步数,设置最大迭代步数为Nmax
步骤2)策略评估:在子系统i激活期间,根据系统轨迹和容许控制u(k)求解核矩阵
Figure BDA0002488148300000098
Figure BDA0002488148300000099
步骤3)策略更新
Figure BDA0002488148300000101
步骤4)停止条件:当时停止r=Nmax,获取每个子系统相对应的近似最优反馈增益矩阵Ki,否则增加迭代步数r=r+1,并转到步骤2)。
(3-2)使用Q函数贝尔曼方程进行策略迭代无需任何系统模型信息。利用获取的系统状态轨迹数据组,采用策略迭代并结合最小二乘法实时更新Hi。定义:
Ξ(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (25)
式(25)可以重新写为
XT(k)HiX(k)=Ξ(k) (26)
因此,式(21)可以重新写成另一种形式
Figure BDA0002488148300000102
其中vec(·)是矩阵函数,返回以Kronecker乘积二次多项式为基向量元素的列向量。假设X(k)的维数为p,则式(26)中的
Figure BDA0002488148300000103
为如下形式:
Figure BDA0002488148300000104
式(27)中hi=w(H),其中w(·)作用于p维矩阵的矢量函数,输出为p*(p+1)/2×1维列向量。w(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为
Figure BDA0002488148300000107
α和β分别表示矩阵Hi的行和列。这意味着Hi是一个具有p*(p+1)/2个独立元素的维p对称矩阵,。因此,仅需要获取p*(p+1)/2个数据,就可以求解Hi
结合式(26)和(27),可得
Figure BDA0002488148300000105
如果矩阵Ξ(k)满秩,可以直接通过最小二乘法求解出来,即:
Figure BDA0002488148300000106
策略迭代算法需要持续激发条件。设u(k)=Kix(k)+δ,其中δ为持续激励,在训练过程中将其用作系统的真实控制输入,以确保充分探索状态空间。随着时间步长的增加,持续激励衰减为零。基于Q-learning的切换线性系统算法流程图如图1所示。
实施例:
考虑如下离散时间切换线性系统
Figure BDA0002488148300000111
其中v(k)={1,2},系统矩阵为:
Figure BDA0002488148300000112
针对本系统的代价函数,选取相应的权重矩阵为Q1=Q2=I2×2,R1=R2=1。可以通过代数黎卡提方程式(9)获得如下每个子系统的最优矩阵
Figure BDA0002488148300000113
Figure BDA0002488148300000114
相应的最优控制增益矩阵为
Figure BDA0002488148300000115
应用获得的
Figure BDA0002488148300000116
矩阵,系统动态模型信息和式(15)、式(16)中关于Q函数的定义,就可以获得相应的最优
Figure BDA0002488148300000117
矩阵为:
Figure BDA0002488148300000118
下面使用步骤(3)中确立的Q-learning策略迭代算法应用于解决该具有两个子系统的离散时间切换线性系统的最优控制问题。假设子系统的动态模型Ai和Bi完全未知。为了演示该算法,随机给出每个子系统的初始核矩阵Hi,但是必须保证通过式(18)求得的子系统控制输入是容许的。最大迭代周期设置为Nmax=50,并且在此迭代过程中,每收集6个数据样本执行一次最小二乘法。通过向控制输入中添加由不同频率的正弦波组成的探测噪声,以保证持续激励的可靠性。初始条件设置为x(0)=[1 -0.5]T,v(0)=1,切换信号如图2所示。
图3给出了每个子系统的最优
Figure BDA0002488148300000119
和计算出的Hi矩阵之差的范数。5次迭代后核矩阵Hi收敛为:
Figure BDA00024881483000001110
通过式(18)可以计算出响应的控制增益矩阵为K1=[0.5084 0.]3,K2=[-0.35660.9919]。随着算法运行迭代步数进一步增加,
Figure BDA0002488148300000121
和Hi之差的范数逐渐趋于0。图4所示为切换系统在学习过程中的动态响应。可以看到在经过700个时间步长后撤掉了持续激励,此后,切换系统的状态收敛到0。图5显示了系统在求得的最优控制器作用下的状态响应。所有结果都证明了在无需准确系统模型的情况下,所提出的基于Q-learning策略迭代算法对求解切换信号已知的切换系统最优控制的有效性。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (2)

1.一种切换线性系统在线无模型最优控制方法,其特征在于,包括如下步骤:
步骤一、针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;
步骤二、引入Q函数,基于Q函数重构步骤一中的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;
步骤三、依据步骤二中的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制;
步骤一的具体步骤如下:
步骤1-1、离散时间切换线性系统的系统动态如下:
Figure FDA0003382523200000011
式(1)中,
Figure FDA0003382523200000012
表示系统当前时刻的状态向量,
Figure FDA0003382523200000013
表示系统下一时刻的状态向量,
Figure FDA0003382523200000014
表示系统的控制向量;v(k)∈I={1,2,...,M}是切换信号,其决定在任意时刻
Figure FDA0003382523200000015
哪个子系统被激活;
Figure FDA0003382523200000016
是具有合适维度的常数矩阵;
步骤1-2、定义离散时间切换线性系统代价函数为:
Figure FDA0003382523200000017
式(2)中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k) (3)
式(3)中,
Figure FDA0003382523200000018
u(k)∈Rm,v(k)∈I,Qv(k)是n×n维半正定对称矩阵,Rv(k)是m×m维正定对称矩阵;
步骤1-3、给定固定的混合控制(u(k),v(k)),切换系统的值函数定义为:
Figure FDA0003382523200000019
式(4)写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1))) (6)
通过式(6)等号两边对u(k)求偏导并令其等于0,即
Figure FDA00033825232000000110
求得最优控制的表达式为
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1))) (7)
步骤1-4、切换系统的子系统均为线性系统,并且效应函数为二次形式;值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性;假设子系统i在时间段内[kl,kl+1)被激活,则子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k) (8)
式(8)中,Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:
Figure FDA0003382523200000021
在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k) (10)
相应的最优控制增益矩阵Ki为:
Figure FDA0003382523200000022
步骤二的具体步骤如下:
步骤2-1、基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (12)
通过式(5)和式(12),得:
Q(x(k),u(k),v(k))=V(x(k)) (13)
假设在时间段[kl,kl+1)内,子系统i被激活,基于贝尔曼方程(5),在时间段[kl,kl+1)内,离散时间切换线性系统Q函数写成如下形式:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+Q(x(k+1),u(k+1),v(k+1)) (14)
步骤2-2、利用式(1),将式(14)转化为:
Figure FDA0003382523200000023
定义:
Figure FDA0003382523200000031
式(16)中,核矩阵Hi满足
Figure FDA0003382523200000032
步骤2-3、在时间段[kl,kl+1)内,最优控制u*(k)满足的条件通过式(16)对u(k)求偏导,并令其等于0得到,即
Figure FDA0003382523200000033
根据式(17),得到最优控制输入u(k)为:
Figure FDA0003382523200000034
依据式(15)和式(20),式(18)求得的控制输入满足
Figure FDA0003382523200000035
步骤2-4、定义,
Figure FDA0003382523200000036
式(16)的另一种形式
Figure FDA0003382523200000037
依据式(21),Q函数贝尔曼方程式(14)表示为
XT(k)HiX(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (22)
式(22)中,X(k+1)=[x(k+1) u(k+1)]T,u(k+1)=Kix(k+1);
步骤三的具体步骤如下:
步骤3-1、基于式(16)和式(18),采用策略迭代实现Q-learning算法;
步骤3-2、利用获取的系统状态轨迹数据组,采用策略迭代并结合最小二乘法实时更新Hi;定义:
Ξ(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (25)
式(25)重新写为
XT(k)HiX(k)=Ξ(k) (26)
式(21)重新写成另一种形式
Figure FDA0003382523200000041
式(27)中,vec(·)是矩阵函数,返回以Kronecker乘积二次多项式为基向量元素的列向量;假设X(k)的维数为p,则式(26)中的
Figure FDA0003382523200000042
为如下形式:
Figure FDA0003382523200000043
式(27)中,hi=w(H),其中w(·)作用于p维矩阵的矢量函数,输出为p*(p+1)/2×1维列向量;w(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列;
结合式(26)和式(27),得
Figure FDA0003382523200000044
如果矩阵Ξ(k)满秩,直接通过最小二乘法求解出来,即:
Figure FDA0003382523200000045
设u(k)=Kix(k)+δ,其中δ为持续激励,随着时间步长的增加,持续激励衰减为零。
2.根据权利要求1所述的切换线性系统在线无模型最优控制方法,其特征在于,步骤3-1采用策略迭代实现Q-learning算法的具体步骤如下:
步骤1)初始化:对每个子系统i,给定初始稳定容许控制策略,令r=0,其中r表示迭代步数,设置最大迭代步数为Nmax
步骤2)策略评估:在子系统i激活期间,根据系统轨迹和容许控制u(k)求解核矩阵
Figure FDA0003382523200000046
Figure FDA0003382523200000047
步骤3)策略更新:
Figure FDA0003382523200000048
步骤4)停止条件:当时停止r=Nmax,获取每个子系统相对应的近似最优反馈增益矩阵Ki,否则增加迭代步数r=r+1,并转到步骤2)。
CN202010397545.6A 2020-05-12 2020-05-12 一种切换线性系统在线无模型最优控制方法 Active CN111722531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397545.6A CN111722531B (zh) 2020-05-12 2020-05-12 一种切换线性系统在线无模型最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397545.6A CN111722531B (zh) 2020-05-12 2020-05-12 一种切换线性系统在线无模型最优控制方法

Publications (2)

Publication Number Publication Date
CN111722531A CN111722531A (zh) 2020-09-29
CN111722531B true CN111722531B (zh) 2022-02-22

Family

ID=72564380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397545.6A Active CN111722531B (zh) 2020-05-12 2020-05-12 一种切换线性系统在线无模型最优控制方法

Country Status (1)

Country Link
CN (1) CN111722531B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112987564A (zh) * 2021-02-02 2021-06-18 浙江工业大学 一种基于策略迭代的伺服电机自适应智能控制方法
CN112947078A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种基于值迭代的伺服电机智能优化控制方法
CN112947084B (zh) * 2021-02-08 2022-09-23 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN113290554B (zh) * 2021-04-28 2022-06-17 浙江工业大学 一种基于值迭代的Baxter机械臂智能优化控制方法
CN113910241B (zh) * 2021-11-11 2023-09-22 白城师范学院 一种多人零和博弈可重构机器人最优控制方法及系统
CN115016286B (zh) * 2022-07-01 2024-11-01 天津大学 非线性工业系统数据驱动强化学习鲁棒控制方法
CN116859745B (zh) * 2023-08-03 2024-05-31 江南大学 基于偏差评价机制的跳变系统无模型博弈控制的设计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262235A (zh) * 2019-06-18 2019-09-20 北京理工大学 一种切换系统的无模型最优切换方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262235A (zh) * 2019-06-18 2019-09-20 北京理工大学 一种切换系统的无模型最优切换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
On Model-free Reinforcement Learning for Switched Linear Systems: A Subspace Clustering Approach;Hao Li等;《2018 56th Annual Allerton Conference on Communication, Control, and Computing》;20190207;II. PROBLEM FORMULATION,III. MODEL-FREE REINFORCEMENT LEARNING SOLUTION,III. MODEL-FREE REINFORCEMENT LEARNING SOLUTION *
Q-learning solution for optimal consensus control of discrete-time multiagent systems using reinforcement learning;Chaoxu Mu等;《Journal of the Franklin Institute》;20190619;. Q-learning algorithm for the consensus control of multiagent systems *

Also Published As

Publication number Publication date
CN111722531A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111722531B (zh) 一种切换线性系统在线无模型最优控制方法
Yang et al. Data efficient reinforcement learning for legged robots
Wakitani et al. Design and application of a database-driven PID controller with data-driven updating algorithm
WO2021029802A1 (en) Improved machine learning for technical systems
de Jesús Rubio Adaptive least square control in discrete time of robotic arms
CN104199294A (zh) 电机伺服系统双神经网络摩擦补偿和有限时间协同控制方法
JP7497516B2 (ja) 等式制約を代数モデルに課すための射影方法
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Kuo et al. Model predictive control based on a Takagi–Sugeno fuzzy model for nonlinear systems
Li et al. Neural input selection—A fast model-based approach
Vinogradska et al. Numerical quadrature for probabilistic policy search
Ribeiro A tutorial on reinforcement learning techniques
Fang et al. Convergence of regularized particle filters for stochastic reaction networks
Ben Halima Abid et al. An Improved Method for Stochastic Nonlinear System’s Identification Using Fuzzy‐Type Output‐Error Autoregressive Hammerstein–Wiener Model Based on Gradient Algorithm, Multi‐Innovation, and Data Filtering Techniques
Kuure-Kinsey et al. Computationally efficient neural predictive control based on a feedforward architecture
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及系统
Jia et al. Data-driven active flutter control of airfoil with input constraints based on adaptive dynamic programming method
Wu et al. Adaptive prescribed performance control for nonlinear pure-feedback systems: a scalarly virtual parameter adaptation approach
Okadome et al. Adaptive LSH based on the particle swarm method with the attractor selection model for fast approximation of Gaussian process regression
CN113219842A (zh) 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质
JP7181585B2 (ja) 学習システム、学習方法、およびプログラム
Megherbi et al. Cooperative evolution grey wolf optimizer algorithm for the identification of the LuGre friction model in the cart motion of an inverted pendulum system
Aprasoff et al. Correlations in state space can cause sub-optimal adaptation of optimal feedback control models
CN111880414A (zh) 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法
Song et al. Analysis and design of a linear input/output data-based predictive control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant