CN111722531B - 一种切换线性系统在线无模型最优控制方法 - Google Patents
一种切换线性系统在线无模型最优控制方法 Download PDFInfo
- Publication number
- CN111722531B CN111722531B CN202010397545.6A CN202010397545A CN111722531B CN 111722531 B CN111722531 B CN 111722531B CN 202010397545 A CN202010397545 A CN 202010397545A CN 111722531 B CN111722531 B CN 111722531B
- Authority
- CN
- China
- Prior art keywords
- function
- formula
- equation
- optimal control
- subsystem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种切换线性系统在线无模型最优控制方法,考虑现实中难以获取准确动态模型的大系统和系统动态完全未知的情况,针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;引入Q函数,基于Q函数重构上述的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;依据推导出的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q‑learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。本发明提供的设计方案在求解过程中不需要任何系统动态模型的信息,为求解模型未知切换系统最优控制问题提供了新的思路。
Description
技术领域
本发明涉及切换线性系统的最优跟踪控制技术领域,更具体地,涉及一种离散时间切换线性系统最优控制的策略迭代Q-learning方法。
背景技术
切换系统是一类特殊的混合系统,它由多个子系统组成,并且在任何时候都只能激活一个系统。切换信号的作用是确定每个时刻被激活的个子系统。切换系统的最佳控制涉及找到最优切换顺序,子系统之间的最优切换时刻以及每个子系统的最优连续控制输入,它们之间是紧密耦合的。在实际物理系统中,系统动态模型往往由于各种原因不易或者不能获取,因此,基于系统动态模型的方法不能得以实施。除此之外,在现实应用中,切换系统的切换序列和切换时刻往往是已知的,只有子系统控制器需要根据系统性能指标进行设计。本发明从切换系统最优控制出发,在已知切换信号作用,系统动态模型未知的情况下,研究切换子系统最优控制器设计问题,是符合切换系统控制技术的应用和发展趋势的。
强化学习,又称再励学习,是机器学习方法之一,强化学习已经被广泛用于求解最优控制问题。强化学习通过描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化数值奖励或实现特定目标的问题。这里的奖励值可以被视为最优控制框架中的代价函数。总体思路是使用参数化函数表示值函数或控制策略,并基于从真实系统的模拟器或真实系统本身收集到的数据更新这些参数。强化学习可以解决不同的最优控制问题,例如具有约束控制的最优稳定控制,具有时间延迟的最优控制,最优跟踪控制,最优一致性控制,以及零和和非零和博弈的最优控制等。策略迭代和值迭代是强化学习里常用的两种学习算法。Q-learning,亦称控制依赖启发式动态规划,用于估计任何策略Q函数的方法,最优或非最优,是一种无模型强化学习算法,其不需要系统的信息便能求取最优控制,Q-learning应用广泛,例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。神经网络,是使用最广泛的机器学习算法。
发明内容
针对上述现有技术,本发明提出一种切换线性系统在线无模型最优控制方法。在系统动态未知的情况下,设计基于策略迭代的Q-learning算法,算法执行过程中利用最小二乘法,以在线的方式迭代求解子系统最优控制器。过程中不需要任何系统模型信息,仅依靠系统动态轨迹数据。
为了解决上述技术问题,本发明提出的一种切换线性系统在线无模型最优控制方法,主要包括:针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;引入Q函数,基于Q函数重构上述的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;依据推导出的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。
进一步讲,本发明所述的切换线性系统在线无模型最优控制方法,其中,给出子系统最优控制求解方法的具体步骤如下:
步骤1-1、离散时间切换线性系统的系统动态如下:
步骤1-2、定义离散时间切换线性系统代价函数为:
式(2)中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k) (3)
步骤1-3、给定固定的混合控制(u(k),v(k)),切换系统的值函数定义为:
式(4)写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1))) (6)
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1))) (7)
步骤1-4、切换系统的子系统均为线性系统,并且效应函数为二次形式;值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性;假设子系统i在时间段内[kl,kl+1)被激活,则子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k) (8)
式(8)中,Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:
在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k) (10)
相应的最优控制增益矩阵Ki为:
本发明所述的切换线性系统在线无模型最优控制方法,其中,推导Q函数贝尔曼方程并给出最优控制表达式的具体步骤如下:
步骤2-1、基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (12)
通过式(5)和式(12),得:
Q(x(k),u(k),v(k))=V(x(k)) (13)
假设在时间段[kl,kl+1)内,子系统i被激活,基于贝尔曼方程(5),在时间段[kl,kl+1)内,离散时间切换线性系统Q函数写成如下形式:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+Q(x(k+1),u(k+1),v(k+1)) (14)
步骤2-2、利用式(1),将式(14)转化为:
定义:
步骤2-3、在时间段[kl,kl+1)内,最优控制u*(k)满足的条件通过式(16)对u(k)求偏导,并令其等于0得到,即
根据式(17),得到最优控制输入u(k)为:
依据式(15)和式(20),式(18)求得的控制输入满足
依据式(21),Q函数贝尔曼方程式(14)表示为
XT(k)HiX(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (22)
式(22)中,X(k+1)=[x(k+1) u(k+1)]T,u(k+1)=Kix(k+1)。
本发明所述的切换线性系统在线无模型最优控制方法,其中,求解每个子系统的最优控制的具体步骤如下:
步骤3-1、基于式(16)和式(18),采用策略迭代实现Q-learning算法;
步骤3-2、利用获取的系统状态轨迹数据组,采用策略迭代并结合最小二乘法实时更新Hi;定义:
Ξ(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (25)
式(25)重新写为
XT(k)HiX(k)=Ξ(k) (26)
式(21)重新写成另一种形式
式(27)中,hi=w(H),其中w(·)作用于p维矩阵的矢量函数,输出为p*(p+1)/2×1维列向量;w(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列;
结合式(26)和式(27),得
如果矩阵Ξ(k)满秩,直接通过最小二乘法求解出来,即:
设u(k)=Kix(k)+δ,其中δ为持续激励,随着时间步长的增加,持续激励衰减为零。
上述步骤3-1采用策略迭代实现Q-learning算法的具体步骤如下:
步骤1)初始化:对每个子系统i,给定初始稳定容许控制策略,令r=0,其中r表示迭代步数,设置最大迭代步数为Nmax;
步骤3)策略更新:
步骤4)停止条件:当时停止r=Nmax,获取每个子系统相对应的近似最优反馈增益矩阵Ki,否则增加迭代步数r=r+1,并转到步骤2)。
与现有技术相比,本发明的有益效果是:
(1)考虑到现实应用中许多系统模型难以或不能获取的情况,设计了基于策略迭代的Q-learning算法。本发明控制方法中涉及到的算法是一种无模型算法,不需要系统的模型信息,基于系统数据实现。
(2)在控制方法实现过程中采用最小二乘法,直接得到的控制律是解析解,和用神经网络实现算法相比,不会产生额外的近似误差,大大提高了结果的准确性。
附图说明
图1是本发明中设计基于策略迭代的Q-learning算法的流程图;
图2是切换信号;
图4切换系统在学习过程中的动态响应;
图5显示了系统在求得的最优控制器作用下的状态响应。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
本发明提出的控制方法是解决离散时间切换线性系统的最优控制问题,在已知切换信号的前提下,研究在切换系统模型未知的情况下,能否根据性能指标求解子系统控制器。解决离散时间切换线性系统在系统模型未知情况下的最优控制问题,是符合切换系统控制技术的应用需求和发展趋势的。
关于离散时间切换线性系统最优控制问题,本发明在假设切换系统模型未知的情况下,设计基于策略迭代的Q-learning算法,并利用最小二乘法基于系统动态轨迹数据以在线的方式迭代求解子系统最优控制。通过对现有文献和技术的全面检索,并未发现类似的技术方案。
本发明实施的一种在已知切换信号作用下切换系统最优控制方法包括如下步骤:
步骤(1):针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数;
步骤(2):引入Q函数,基于Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;
步骤(3):依据步骤(3)中的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。
本发明中,步骤(1)针对离散时间切换线性系统,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;具体包括下述步骤:
(1-1)离散时间切换线性系统的系统动态如下:
在本发明中,假设基于时间切换的子系统之间的切换仅由v(k)决定,且没有代价。两次切换之间的时间间隔足够大,也就是说,当所有子系统都稳定时,切换信号可以确保切换系统稳定。k+表示切换发生后的时间,因此对于任何k,有v(k+)=v(k+1)。假设每个子系统(Ai,Bi)是可控制的,连续状态x(k)是完全可观的。
(1-2)定义离散时间切换线性系统代价函数为:
其中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k) (3)
本发明中,假设切换信号已知,即不考虑切换信号作用。切换系统最优控制问题就转化为确定与代价函数相关的一系列连续控制输入u(k)。
(1-3)给定固定的混合控制(u(k),v(k)),切换系统的值函数可以定义为:
值函数(4)可以进一步写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1))) (6)
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1))) (7)
(1-4)这里切换系统的子系统都是线性系统,并且效应函数为二次形式。值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性。假设子系统i在时间段内[kl,kl+1)被激活,那么子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k) (8)
其中Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:
在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k) (10)
相应的最优控制增益矩阵Ki为:
本发明中,步骤(2)对于动态模型完全未知的系统或者难以建模的大规模系统,由于无法获得准确的系统动态模型,难以根据步骤(1)中的代数黎卡提方程求解最优控制。因此,基于步骤(1)引入Q函数,使用Q函数重构步骤(1)中的代价函数,推导Q函数贝尔曼方程并求解最优控制。对于任意子系统i,如果控制策略u(k)不仅稳定系统而且保证代价函数(9)有限,则称其为容许的。具体包括下述步骤:
(2-1)基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (12)
通过式(5)和(12),可得:
Q(x(k),u(k),v(k))=V(x(k)) (13)
假设在时间段[kl,kl+1)内,子系统i被激活,基于贝尔曼方程(5),在时间段[kl,kl+1)内,离散时间切换线性系统Q函数进一步可以写成如下形式:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+Q(x(k+1),u(k+1),v(k+1)) (14)
(2-2)利用系统动态模型信息(1),式(14)可以转化为:
定义:
(2-3)在时间段[kl,kl+1)内,最优控制u*(k)满足的条件可以通过Q函数(16)对u(k)求偏导,并令其等于0得到,即
根据式(17),可以得到最优控制输入u(k)为:
依据式(15)和式(20),式(18)求得的控制输入满足
具有和步骤(1)中相同的形式。
依据式(21),Q函数贝尔曼方程式(14)重新表示为
XT(k)HiX(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (22)
其中X(k+1)=[x(k+1) u(k+1)]T,u(k+1)=Kix(k+1)。
本发明中,步骤(3)根据步骤(2)中的Q函数贝尔曼方程(22)及最优控制(18)中的形式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制输入。步骤(3)具体包括下述步骤:
(3-1)基于式(16)和(18),采用策略迭代实现Q-learning算法,如下所述。
步骤1)初始化:对每个子系统i,给定初始稳定容许控制策略。令r=0,其中r表示迭代步数,设置最大迭代步数为Nmax。
步骤3)策略更新
步骤4)停止条件:当时停止r=Nmax,获取每个子系统相对应的近似最优反馈增益矩阵Ki,否则增加迭代步数r=r+1,并转到步骤2)。
(3-2)使用Q函数贝尔曼方程进行策略迭代无需任何系统模型信息。利用获取的系统状态轨迹数据组,采用策略迭代并结合最小二乘法实时更新Hi。定义:
Ξ(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (25)
式(25)可以重新写为
XT(k)HiX(k)=Ξ(k) (26)
因此,式(21)可以重新写成另一种形式
式(27)中hi=w(H),其中w(·)作用于p维矩阵的矢量函数,输出为p*(p+1)/2×1维列向量。w(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为α和β分别表示矩阵Hi的行和列。这意味着Hi是一个具有p*(p+1)/2个独立元素的维p对称矩阵,。因此,仅需要获取p*(p+1)/2个数据,就可以求解Hi。
结合式(26)和(27),可得
如果矩阵Ξ(k)满秩,可以直接通过最小二乘法求解出来,即:
策略迭代算法需要持续激发条件。设u(k)=Kix(k)+δ,其中δ为持续激励,在训练过程中将其用作系统的真实控制输入,以确保充分探索状态空间。随着时间步长的增加,持续激励衰减为零。基于Q-learning的切换线性系统算法流程图如图1所示。
实施例:
考虑如下离散时间切换线性系统
其中v(k)={1,2},系统矩阵为:
下面使用步骤(3)中确立的Q-learning策略迭代算法应用于解决该具有两个子系统的离散时间切换线性系统的最优控制问题。假设子系统的动态模型Ai和Bi完全未知。为了演示该算法,随机给出每个子系统的初始核矩阵Hi,但是必须保证通过式(18)求得的子系统控制输入是容许的。最大迭代周期设置为Nmax=50,并且在此迭代过程中,每收集6个数据样本执行一次最小二乘法。通过向控制输入中添加由不同频率的正弦波组成的探测噪声,以保证持续激励的可靠性。初始条件设置为x(0)=[1 -0.5]T,v(0)=1,切换信号如图2所示。
通过式(18)可以计算出响应的控制增益矩阵为K1=[0.5084 0.]3,K2=[-0.35660.9919]。随着算法运行迭代步数进一步增加,和Hi之差的范数逐渐趋于0。图4所示为切换系统在学习过程中的动态响应。可以看到在经过700个时间步长后撤掉了持续激励,此后,切换系统的状态收敛到0。图5显示了系统在求得的最优控制器作用下的状态响应。所有结果都证明了在无需准确系统模型的情况下,所提出的基于Q-learning策略迭代算法对求解切换信号已知的切换系统最优控制的有效性。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。
Claims (2)
1.一种切换线性系统在线无模型最优控制方法,其特征在于,包括如下步骤:
步骤一、针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;
步骤二、引入Q函数,基于Q函数重构步骤一中的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;
步骤三、依据步骤二中的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制;
步骤一的具体步骤如下:
步骤1-1、离散时间切换线性系统的系统动态如下:
步骤1-2、定义离散时间切换线性系统代价函数为:
式(2)中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k) (3)
步骤1-3、给定固定的混合控制(u(k),v(k)),切换系统的值函数定义为:
式(4)写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1))) (6)
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1))) (7)
步骤1-4、切换系统的子系统均为线性系统,并且效应函数为二次形式;值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性;假设子系统i在时间段内[kl,kl+1)被激活,则子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k) (8)
式(8)中,Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:
在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k) (10)
相应的最优控制增益矩阵Ki为:
步骤二的具体步骤如下:
步骤2-1、基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1)) (12)
通过式(5)和式(12),得:
Q(x(k),u(k),v(k))=V(x(k)) (13)
假设在时间段[kl,kl+1)内,子系统i被激活,基于贝尔曼方程(5),在时间段[kl,kl+1)内,离散时间切换线性系统Q函数写成如下形式:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+Q(x(k+1),u(k+1),v(k+1)) (14)
步骤2-2、利用式(1),将式(14)转化为:
定义:
步骤2-3、在时间段[kl,kl+1)内,最优控制u*(k)满足的条件通过式(16)对u(k)求偏导,并令其等于0得到,即
根据式(17),得到最优控制输入u(k)为:
依据式(15)和式(20),式(18)求得的控制输入满足
依据式(21),Q函数贝尔曼方程式(14)表示为
XT(k)HiX(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (22)
式(22)中,X(k+1)=[x(k+1) u(k+1)]T,u(k+1)=Kix(k+1);
步骤三的具体步骤如下:
步骤3-1、基于式(16)和式(18),采用策略迭代实现Q-learning算法;
步骤3-2、利用获取的系统状态轨迹数据组,采用策略迭代并结合最小二乘法实时更新Hi;定义:
Ξ(k)=xT(k)Qix(k)+uTRiu(k)+XT(k+1)HiX(k+1) (25)
式(25)重新写为
XT(k)HiX(k)=Ξ(k) (26)
式(21)重新写成另一种形式
式(27)中,hi=w(H),其中w(·)作用于p维矩阵的矢量函数,输出为p*(p+1)/2×1维列向量;w(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列;
结合式(26)和式(27),得
如果矩阵Ξ(k)满秩,直接通过最小二乘法求解出来,即:
设u(k)=Kix(k)+δ,其中δ为持续激励,随着时间步长的增加,持续激励衰减为零。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397545.6A CN111722531B (zh) | 2020-05-12 | 2020-05-12 | 一种切换线性系统在线无模型最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397545.6A CN111722531B (zh) | 2020-05-12 | 2020-05-12 | 一种切换线性系统在线无模型最优控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111722531A CN111722531A (zh) | 2020-09-29 |
CN111722531B true CN111722531B (zh) | 2022-02-22 |
Family
ID=72564380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010397545.6A Active CN111722531B (zh) | 2020-05-12 | 2020-05-12 | 一种切换线性系统在线无模型最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111722531B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112987564A (zh) * | 2021-02-02 | 2021-06-18 | 浙江工业大学 | 一种基于策略迭代的伺服电机自适应智能控制方法 |
CN112947078A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种基于值迭代的伺服电机智能优化控制方法 |
CN112947084B (zh) * | 2021-02-08 | 2022-09-23 | 重庆大学 | 一种基于强化学习的模型未知多智能体一致性控制方法 |
CN113290554B (zh) * | 2021-04-28 | 2022-06-17 | 浙江工业大学 | 一种基于值迭代的Baxter机械臂智能优化控制方法 |
CN113910241B (zh) * | 2021-11-11 | 2023-09-22 | 白城师范学院 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
CN115016286B (zh) * | 2022-07-01 | 2024-11-01 | 天津大学 | 非线性工业系统数据驱动强化学习鲁棒控制方法 |
CN116859745B (zh) * | 2023-08-03 | 2024-05-31 | 江南大学 | 基于偏差评价机制的跳变系统无模型博弈控制的设计方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110262235A (zh) * | 2019-06-18 | 2019-09-20 | 北京理工大学 | 一种切换系统的无模型最优切换方法 |
-
2020
- 2020-05-12 CN CN202010397545.6A patent/CN111722531B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110262235A (zh) * | 2019-06-18 | 2019-09-20 | 北京理工大学 | 一种切换系统的无模型最优切换方法 |
Non-Patent Citations (2)
Title |
---|
On Model-free Reinforcement Learning for Switched Linear Systems: A Subspace Clustering Approach;Hao Li等;《2018 56th Annual Allerton Conference on Communication, Control, and Computing》;20190207;II. PROBLEM FORMULATION,III. MODEL-FREE REINFORCEMENT LEARNING SOLUTION,III. MODEL-FREE REINFORCEMENT LEARNING SOLUTION * |
Q-learning solution for optimal consensus control of discrete-time multiagent systems using reinforcement learning;Chaoxu Mu等;《Journal of the Franklin Institute》;20190619;. Q-learning algorithm for the consensus control of multiagent systems * |
Also Published As
Publication number | Publication date |
---|---|
CN111722531A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111722531B (zh) | 一种切换线性系统在线无模型最优控制方法 | |
Yang et al. | Data efficient reinforcement learning for legged robots | |
Wakitani et al. | Design and application of a database-driven PID controller with data-driven updating algorithm | |
WO2021029802A1 (en) | Improved machine learning for technical systems | |
de Jesús Rubio | Adaptive least square control in discrete time of robotic arms | |
CN104199294A (zh) | 电机伺服系统双神经网络摩擦补偿和有限时间协同控制方法 | |
JP7497516B2 (ja) | 等式制約を代数モデルに課すための射影方法 | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
Kuo et al. | Model predictive control based on a Takagi–Sugeno fuzzy model for nonlinear systems | |
Li et al. | Neural input selection—A fast model-based approach | |
Vinogradska et al. | Numerical quadrature for probabilistic policy search | |
Ribeiro | A tutorial on reinforcement learning techniques | |
Fang et al. | Convergence of regularized particle filters for stochastic reaction networks | |
Ben Halima Abid et al. | An Improved Method for Stochastic Nonlinear System’s Identification Using Fuzzy‐Type Output‐Error Autoregressive Hammerstein–Wiener Model Based on Gradient Algorithm, Multi‐Innovation, and Data Filtering Techniques | |
Kuure-Kinsey et al. | Computationally efficient neural predictive control based on a feedforward architecture | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及系统 | |
Jia et al. | Data-driven active flutter control of airfoil with input constraints based on adaptive dynamic programming method | |
Wu et al. | Adaptive prescribed performance control for nonlinear pure-feedback systems: a scalarly virtual parameter adaptation approach | |
Okadome et al. | Adaptive LSH based on the particle swarm method with the attractor selection model for fast approximation of Gaussian process regression | |
CN113219842A (zh) | 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质 | |
JP7181585B2 (ja) | 学習システム、学習方法、およびプログラム | |
Megherbi et al. | Cooperative evolution grey wolf optimizer algorithm for the identification of the LuGre friction model in the cart motion of an inverted pendulum system | |
Aprasoff et al. | Correlations in state space can cause sub-optimal adaptation of optimal feedback control models | |
CN111880414A (zh) | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 | |
Song et al. | Analysis and design of a linear input/output data-based predictive control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |