CN111880414A - 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 - Google Patents

一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 Download PDF

Info

Publication number
CN111880414A
CN111880414A CN202010840032.8A CN202010840032A CN111880414A CN 111880414 A CN111880414 A CN 111880414A CN 202010840032 A CN202010840032 A CN 202010840032A CN 111880414 A CN111880414 A CN 111880414A
Authority
CN
China
Prior art keywords
control
robust
uncertainty
control strategy
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010840032.8A
Other languages
English (en)
Other versions
CN111880414B (zh
Inventor
李金娜
肖振飞
王佳琦
王春彦
闫立鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN202010840032.8A priority Critical patent/CN111880414B/zh
Publication of CN111880414A publication Critical patent/CN111880414A/zh
Application granted granted Critical
Publication of CN111880414B publication Critical patent/CN111880414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,属于工业控制技术领域,包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找一致最终有界(UUB)稳定性的鲁棒控制策略。本发明通过建立一种简化哈密顿‑雅可比贝尔曼(HJB)方程来求解DT仿射非线性系统的鲁棒控制器,在未知结构匹配不确定性和非结构匹配不确定性的适用性意义上更具一般性。

Description

一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适 应交错强化学习方法
技术领域
本发明属于工业控制技术领域,具体涉及一种基于匹配或不匹配不确定性的不确定仿射非线性离散时间(DT)仿射非线性系统的自适应交错强化学习方。
背景技术
虽然在鲁棒控制领域已经有了大量的研究成果,但从离散时间采样的角度设计非线性系统的鲁棒控制器仍然是一个值得研究的问题。上述关于鲁棒控制的结果仅适用于连续时间线性或非线性系统。由于离散时间控制器具有可以用现代嵌入式硬件直接以数字形式实现的重要优点,那么如何直接在离散时间内为系统,特别是非线性DT系统设计鲁棒控制器就自然而然地提出了一个问题。DT系统与连续时间系统的本质差异对解决这一问题提出了挑战,而DT系统的非线性特性又会使其变得更加复杂。利用求解广义HJB方程的思想,提出了一种具有匹配不确定性的DT非线性系统的鲁棒控制策略。应该关注的包括两个方面。其一是针对DT非线性系统在自适应动态规划ADP结构下的鲁棒控制方法,该方法既适用于匹配的未知不确定性,也适用于不匹配的未知不确定性。另一种是在求解优化问题时,用简化的HJB方程代替Generalized Hamilton-Jacobi-Bellman(GHJB)方程,使得DT仿射非线性系统的鲁棒控制器可以用交错RL方法学习,计算量较小。
发明内容
本发明涉及一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,是一种针对非线性离散系统在自适应动态规划结构下的鲁棒控制方法。该方法既适用于结构匹配的未知确定性,也适用于非结构匹配的未知确定性。在用ADP方法求解优化问题时,提出一种简化的HJB方程使得离散仿射非线性系统的鲁棒控制器可以用交错RL方法学习。
本发明的目的是通过以下技术方案实现的:
一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略;
所述步骤(1)分为三个阶段:1)鲁棒控制问题;2)增广效用函数的标准系统的最优控制问题;3)设计鲁棒控制器:
阶段1)鲁棒控制问题具体为:建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题,基于给出假设和定义,跟踪关注鲁棒控制问题;DT仿射非线性系统(1)描述为:
xk+1=f(xk)+g(xk)uk+Δf(xk) (1)
其中xk∈Rn和uk∈Rm分别为状态和控制输入,Δf(xk)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)=0,这里,一般不确定性的一种形式的
Figure BDA0002641119130000021
对系统(1),D(xk)是一个有界函数,其中
Figure BDA0002641119130000022
是一个未知项被
Figure BDA0002641119130000023
界定,h(xk)∈Rm×n是已知的函数矩阵;
阶段2)最优控制的优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略,然后找出系统的鲁棒控制与相应标准系统的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器通过最优控制的方法;具体为:
关于系统(1)的标称系统(2),
xk+1=f(xk)+g(xk)uk (2)
假设,对于系统(2),希望找到控制律uk使下面的特定性能指标最小化:
Figure BDA0002641119130000026
其中r(xk,uk)称为效用函数
Figure BDA0002641119130000025
最优控制策略uk针对系统(2)最小化性能指标(3)可以通过求解下面的HJB方程得到:
Figure BDA0002641119130000031
其中
Figure BDA0002641119130000032
得到最优控制律为
Figure BDA0002641119130000033
其中
Figure BDA0002641119130000034
和V*(xk)被称为最优值函数,其定义是
Figure BDA0002641119130000035
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
对于系统(2),如果假设1成立,则控制策略
Figure BDA0002641119130000036
保证系统(1)具有匹配不确定性
Figure BDA0002641119130000037
鲁棒稳定,且在集合Ω上存在一个正定且二次连续可微的函数V*(xk),如果β(xk)设为:
Figure BDA0002641119130000038
简化后的HJB方程成立。
Figure BDA0002641119130000039
其中,
Figure BDA00026411191300000310
代表Hessian矩阵,定义为
Figure BDA00026411191300000311
满足(8)的函数V*(xk)是名义系统(2)优化问题的最优值函数;
利用满足(8)的最优值函数V*(xk),在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点xk+1的泰勒级数展开式:
Figure BDA0002641119130000041
其中,
Figure BDA0002641119130000042
为梯度向量,定义
Figure BDA0002641119130000043
和(5),利用
Figure BDA0002641119130000044
(a和b是具有适当维数的向量)的事实产生;
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略分别使用基于Value函数近似的带误差的神经网络(NNs)来表示,给出近似策略迭代方法,估计最右控制性;
2)分析算法的收敛性:分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差尽可能小,采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交织RL方法,在本方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止;
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差;
具体为:用于强化控制策略的交错式RL;
提出交错的RL方法逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB;平滑值函数和控制策略分别使用基于Value函数近似的带误差的NNs来表示为:
Figure BDA0002641119130000045
Figure BDA0002641119130000046
分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;具体地说,在每个迭代i处,NN被表示为:
Figure BDA0002641119130000047
因此
Figure BDA0002641119130000051
并且在每次迭代i时,控制策略由下式给出:
Figure BDA0002641119130000052
其中ωci(k)和ωai(k)是
Figure BDA0002641119130000053
Figure BDA0002641119130000054
的近似值,
Figure BDA0002641119130000055
Figure BDA0002641119130000056
被选为常数向量,ωci(k)是通过使用梯度下降算法来实现的,方法是最小化近似误差;
Figure BDA0002641119130000057
Figure BDA0002641119130000058
式中,
Figure BDA0002641119130000059
同样权重ωai(k)可以通过以下形式训练:
Figure BDA00026411191300000510
其中la表示学习率,近似误差eai(k)定义为:
Figure BDA00026411191300000511
其中xk+1是由最后一个时间步长k的
Figure BDA00026411191300000512
产生的,如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小,采用在时间步长k处的权重ωci(k)和权重ωai(k)的交织单步更新,从而开发出以下交错RL算法;
不确定系统的交错RL方法:
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0,给定初始状态x1和x2
Ⅱ.交错迭代:给定权重υc和υa,初始化评论者NN和执行者NN的权重ωci(k)和ωai(k),并设置初始学习率lc和la;根据(7)更新权重ωci(k);根据(8)更新权重ωai(k);
如果不满足
Figure BDA00026411191300000513
Figure BDA00026411191300000514
则进行i的迭代
Ⅲ.设置ωc(k)=ωci(k)和ωa(k)=ωai(k),得到
Figure BDA0002641119130000061
它应用于标称系统作为输入以产生数据xk+1和xk+2
Ⅳ.||ωa(k)-ωa(k-1)||≤ε,||ωc(k)-ωc(k-1)||≤ε进行下一步;否则进行k的迭代并返回步骤Ⅱ;
Ⅴ.得到
Figure BDA0002641119130000062
Figure BDA0002641119130000063
的近似值ωc(k)和ωa(k),从而得到uk的近似值
Figure BDA0002641119130000064
权重ωci(k)和ωai(k)与迭代指数i交错训练,直到在每个时间步长收敛为止,得到控制动作并行为系统(2)用于下次生成新数据。
进一步地,所述阶段1)给出假设和定义具体为:
假设1:系统(1)无漂移,即f(0)=0,g(0)=0,f(xk)∈Rn,g(xk)∈Rn假定有界,且f(xk)+g(xk)uk在包含原点的
Figure BDA0002641119130000065
上是连续的;
定义1:如果存在一种控制策略uk,该策略下系统(1)对于所有不确定性Δf(xk)渐近稳定,则系统(1)称为鲁棒可稳定,该控制策略uk称为鲁棒控制器;
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集xk∈Ω上的||xk||≤M。
进一步地,还包括证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性;对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
进一步地,所述证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性的具体步骤如下:
①收敛性验证:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
首先简化的HJB方程的解作为Lyapunov函数候选,其后进行泰勒展开,
Figure BDA0002641119130000071
则V(xk+1)-V(xk)<0即表明本方法所学习的控制策略
Figure BDA0002641119130000072
保证系统的轨迹为UUB。
进一步地,所述方法实现后,采用学习到的鲁棒控制策略的近似值作为系统的控制行为,以容忍不确定性。
本发明的优点与效果是:本发明提出的方法的主要优点是首次建立了一种简化的HJB方程,用于求解DT仿射非线性系统的鲁棒控制器,在未知匹配不确定性和非匹配不确定性的适用性意义上更具一般性。此外,本发明还对所设计的控制器下的交错RL方法的收敛性和有界不确定闭环系统的UUB稳定性进行了严格的证明。这种方法的提出,从长远来看,可以保证工业上的系统高效,稳定的运行,从而提高了效率。
附图说明
图1为不确定性交错RL方法框图;
图2为批判者NN和行为者NN的权重演变;
图3为案例模拟中评论家和演员NN的权重的训练结果。
具体实施方式
一种基于匹配或不匹配不确定性DT仿射非线性系统的自适应交错强化学习方法,通过选择合适的效用函数,将鲁棒控制问题转化为标准系统的最优控制问题,在求解简化的HJB方程时,在每个时间步交替实施性能评估和控制策略更新,结合神经网络逼近,从而保证DT仿射非线性系统的一致最终有界(UUB)稳定性,允许所有未知有界不确定性的实现。对所提出的交错RL方法的收敛性和不确定系统的UUB稳定性进行了严格的理论证明;具体步骤如下:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件。(2)提出结合神经网络逼近的交错RL来寻找UUB稳定性意义下的鲁棒控制策略。(3)证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性。对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
所述步骤(1)分为三个阶段:1)鲁棒控制问题2)增广效用函数的标准系统的最优控制问题3)鲁棒控制器设计。
阶段2)优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略。然后找出系统(1)的鲁棒控制与相应标准系统(2)的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器可以通过最优控制的方法。
阶段3)基于阶段2获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中。所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统(1)的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略可以确保系统(1)对于不确定性系统的所有可能实现的稳定性。
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略可以分别使用基于Value函数近似的带误差的神经网络(NNs)来表示。给出近似策略迭代方法,估计最右控制性。
2)分析收敛性:由于交错RL具有折衷系统的方法和控制更新的收敛速度的能力,因此与标准策略迭代(PI)和值迭代(VI)RLS不同,分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得我们可以任意接近简化的HJB方程的解。如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小。采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交织RL方法。在方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止。
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差。
所述步骤(3)具体步骤如下:
①神经网络权的收敛性:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
首先简化的HJB方程的解作为Lyapunov函数候选,其后进行泰勒展开,
Figure BDA0002641119130000091
则V(xk+1)-V(xk)<0即表明方法所学习的控制策略
Figure BDA0002641119130000092
可以保证系统(1)的轨迹为UUB。
所述步骤③具体步骤如下:
①通过三个案例说明提出的交错RL方法的有效性。
一是使用具有匹配不确定性的扭摆系统来检查所开发的方法的性能;二是具有匹配不确定性的仿射非线性系统;最后是使用具有不匹配不确定性的仿射非线性系统来展示其有效性。
②在仿真平台上进行数据挖掘和优化控制方法的验证。
在本发明中,通过集成动态规划,Lyapunov理论和泰勒级数展开式给出了简化的HJB方程,从而解决该问题使控制器能够保证仿射非线性DT系统的UUB稳定性受到未知匹配和不匹配不确定性的影响。逐次交错地执行值函数逼近和控制策略更新,并在每个时间步使用迭代索引来逐次逼近简化的HJB方程的解,从而得出控制器,在该控制器下,具有匹配和不匹配不确定性的DT仿射非线性系统可以是UUB。提出了针对一般DT仿射非线性系统的鲁棒控制方法的系统推导和分析。对于不考虑不确定性的线性二次调节,所提出的交错式RL方法可以学习近似最优控制器,否则它是一种能够保证DT仿射非线性系统为UUB的控制器。仿真结果证明了该方法的有效。
一、鲁棒控制问题
建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题。此外,还给出了一些假设和定义,以便更容易地跟踪关注的鲁棒控制问题。考虑描述为的DT仿射非线性系统(1):
xk+1=f(xk)+g(xk)uk+Δf(xk) (1)
其中xk∈Rn和uk∈Rm分别为状态和控制输入,Δf(xk)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)=0,这里,一般不确定性的一种形式的
Figure BDA0002641119130000101
对系统(1),D(xk)是一个有界函数,其中
Figure BDA0002641119130000102
是一个未知项被
Figure BDA0002641119130000103
界定,h(xk)∈Rm×n是已知的函数矩阵;
假设1:系统(1)无漂移,即f(0)=0,g(0)=0,f(xk)∈Rn,g(xk)∈Rn假定有界,且f(xk)+g(xk)uk在包含原点的
Figure BDA0002641119130000104
上是连续的。
定义1:如果存在一种控制策略uk,该策略下系统(1)对于所有不确定性Δf(xk)渐近稳定,则系统(1)称为鲁棒可稳定,该控制策略uk称为鲁棒控制器。
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集xk∈Ω上的||xk||≤M。
二、鲁棒控制器设计及简化HJB方程推导
具增广效用函数的标称系统的最优控制问题,分别推导了允许匹配不确定性和不匹配不确定性的DT仿射非线性系统鲁棒稳定性的两个充分条件。在推导过程中,给出了简化的HJB方程。
关于系统(1)的标称系统(2),
xk+1=f(xk)+g(xk)uk (2)
假设,对于系统(2),希望找到控制律uk使下面的特定性能指标最小化
Figure BDA0002641119130000105
其中r(xk,uk)称为效用函数
Figure BDA0002641119130000106
最优控制策略uk针对系统(2)最小化性能指标(3)可以通过求解下面的HJB方程得到
Figure BDA0002641119130000107
其中
Figure BDA0002641119130000108
得到最优控制律为
Figure BDA0002641119130000109
其中
Figure BDA00026411191300001010
和V*(xk)被称为最优值函数,其定义是
Figure BDA0002641119130000111
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
对于系统(2),如果假设1成立,则控制策略
Figure BDA0002641119130000112
保证系统(1)具有匹配不确定性
Figure BDA0002641119130000113
鲁棒稳定,且在集合Ω上存在一个正定且二次连续可微的函数V*(xk),如果β(xk)设为:
Figure BDA0002641119130000114
简化后的HJB方程成立
Figure BDA0002641119130000115
其中,
Figure BDA0002641119130000116
代表Hessian矩阵,定义为
Figure BDA0002641119130000117
满足(8)的函数V*(xk)是名义系统(2)优化问题的最优值函数;
利用满足(8)的最优值函数V*(xk),在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点xk+1的泰勒级数展开式:
Figure BDA0002641119130000118
其中,
Figure BDA0002641119130000119
为梯度向量,定义
Figure BDA00026411191300001110
这表明V*(xk)可以是系统(1)的Lyapunov函数候选者,并且(5)中的控制策略可以确保系统(1)对于不确定性Δf(xk)的所有可能实现都是稳定的根据李雅普诺夫稳定性理论。在展开关于操作点的最优值函数时,高阶项已被忽略。此外,考虑泰勒级数展开的高阶项V*(xk)可能会以增加计算量为代价提高近似精度,因此应从实际实现的角度来权衡精度和计算复杂度。
将定理1的结果扩展到系统(1)具有无与伦比的不确定性的鲁棒稳定性。定理2:对于系统(2),若假设1成立则需将γ(xk)设置为:
Figure BDA0002641119130000121
Ω上存在一个正定的两次连续可微函数,V(xk)满足以下简化的HJB方程:
Figure BDA0002641119130000122
则控制策略uk确保具有不匹配不确定性
Figure BDA0002641119130000123
的系统(1)鲁棒稳定,
Figure BDA0002641119130000124
控制策略uk可以保证不确定系统(1)的稳定性。将由(14)导出的函数V(xk)视为李雅普诺夫函数候选,在运算点xk+1沿系统(1)的轨迹进行泰勒展开,有
Figure BDA0002641119130000125
这表明系统(1)对于限制在范围内的不确定性的所有可能实现是稳定的。
三、用于强化控制策略的交错式RL
开发一种交错的RL来逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB。众所周知,平滑值函数V(xk)和控制策略uk可以分别使用基于Value函数近似的带误差的NNs来表示为:
Figure BDA0002641119130000126
Figure BDA0002641119130000127
在每个迭代i处,NN被表示为:
Figure BDA0002641119130000128
因此
Figure BDA0002641119130000131
并且在每次迭代i时,uk由下式给出:
Figure BDA0002641119130000132
其中ωci(k)和ωai(k)分别是
Figure BDA0002641119130000133
Figure BDA0002641119130000134
的近似值。在这里,
Figure BDA0002641119130000135
Figure BDA0002641119130000136
被选为常数向量。
ωci(k)是通过使用梯度下降来实现的,方法是最小化近似误差。
Figure BDA0002641119130000137
Figure BDA0002641119130000138
Figure BDA0002641119130000139
Figure BDA00026411191300001310
式中,
Figure BDA00026411191300001311
同样权重ωai(k)可以如下训练:
Figure BDA00026411191300001312
其中la表示学习率,近似误差eai(k)定义为
Figure BDA00026411191300001313
其中xk+1是由最后一个时间步长k的
Figure BDA00026411191300001314
产生的。如果增加批判者神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小。现在将采用在时间步长k处的权重ωci(k)和ωai(k)的交错单步更新,从而开发出以下交错RL。
四、不确定系统的交错RL方法
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0。给定初始状态x1和x2
Ⅱ.交错迭代:给定权重υc和υa,初始化评论者NN和执行者NN的权重ωci(k)和ωai(k),并设置初始学习率lc和la;根据(7)更新权重ωci(k);根据(8)更新权重ωai(k)。
如果不满足
Figure BDA0002641119130000141
Figure BDA0002641119130000142
则进行i的迭代
Ⅲ.设置ωc(k)=ωci(k)和ωa(k)=ωai(k)。可以得到
Figure BDA0002641119130000143
它应用于标称系统(2)作为输入以产生数据xk+1和xk+2
Ⅳ.||ωa(k)-ωa(k-1)||≤ε,||ωc(k)-ωc(k-1)||≤ε进行下一步;否则进行k的迭代并返回步骤2;
Ⅴ.得到
Figure BDA0002641119130000144
Figure BDA0002641119130000145
的近似值ωc(k)和ωa(k),从而可以得到uk的近似值
Figure BDA0002641119130000146
在本方法中,权重ωci(k)和ωai(k)将与迭代指数i交错训练,直到在每个时间步长收敛为止,此时可以得到控制动作并行为系统(2)用于下次生成新数据。从这个意义上讲,方法实际上是交错的RL,而不是策略迭代(PI)或值迭代(VI)。
注意,在所示的时间步长k处,使用执行者NN估计控制策略可以成功地克服由于未来状态不可用而造成的困难。
方法实现后,将采用学习到的鲁棒控制策略的近似值作为系统(1)的控制行为,以容忍不确定性。为了消除在大多数实际工业中非常常见的死区、间隙、饱和执行器非线性对系统性能甚至稳定性的负面影响,可以用类在效用函数中增加一个非二次泛函,这样即使对于不确定系统(1),也可以处理这些非线性控制约束。
五、理论分析
在这一部分中,对方法1的收敛性和不确定系统的UUB稳定性进行了全面的分析。
假设迭代值函数Vi(xk)的值可以精确地表示为,
Figure BDA0002641119130000147
其中,
Figure BDA0002641119130000148
是权重向量,εci(xk)表示重建误差。
Figure BDA0002641119130000149
的实际值应该具有如下精确表达式:
Figure BDA00026411191300001410
其中
Figure BDA0002641119130000151
是权重向量,εai(xk)表示重建误差。
给出了下面的定理,以证明方法1学习的权重ωc(k)和
Figure BDA0002641119130000152
是有界的。
定理3:对于系统(2),权重ωci(k)根据获得的近似控制策略
Figure BDA0002641119130000153
进行更新。然后,当i和k足够大时,存在满足λω>0和λμ>0,
Figure BDA0002641119130000154
Figure BDA0002641119130000155
根据定理3,通过实现方法1,经过i和k的迭代,可以得到控制策略
Figure BDA0002641119130000156
和近似值函数
Figure BDA0002641119130000157
需要指出的是,控制策略
Figure BDA0002641119130000158
是的uk近似值,并且界λμ取决于评论者和参与者NNS的神经元数量、学习率和初始权重。进一步可以证明
Figure BDA0002641119130000159
可以保证不确定系统(1)的UUB稳定性。
定理4:在学习控制策略
Figure BDA00026411191300001510
方法1下,不确定闭环系统(1)的动力学是UUB。证明:在学习的控制策略下系统(1)的动力学为
Figure BDA00026411191300001511
选择简化的HJB方程的解V(xk)作为Lyapunov函数候选,有
Figure BDA00026411191300001512
此外,将(45)改写为使用泰勒级数展开式
Figure BDA00026411191300001513
其中ωk+1=f(xk)+(uk)Tuk
而后,可推导出
Figure BDA00026411191300001514
因此,如果
Figure BDA00026411191300001515
则V(xk+1)-V(xk)<0。这表明方法1所学习的控制策略
Figure BDA00026411191300001516
可以保证系统(1)的轨迹为UUB。
六、案例模拟
通过代表性的例子说明了所提出的交错RL的有效性。
例:通过使用具有匹配不确定性的扭摆系统来检查所开发的方法1的性能。扭转摆的动力学描述如下:
Figure BDA0002641119130000161
其中,角度θ和角速度ω被视为系统状态。参数J,M,l,fd分别表示旋转惯性,质量,摆杆的长度和摩擦系数,如果采样周期选择为Δt=0.1s,则可以将系统离散化为以下形式:
xk+1=f(xk)+g(xk)(uk+psin(x1(k))x2(k)) (34)
其中p∈[-10,10]是未知的有界参数,
通过使用具有匹配不确定性的倒立摆系统来检查所开发的方法的性能。在实现方法之前,将批判网络和行为者网络的结构分别设置。选择Q=diag(1,1)和NNs激活函数σ(·)=tanh(·)。让评论网和行动网的学习率分别为0.1和0.3。在这个例子中,我们发现在计算机仿真中,对于批判神经网络和演员神经网络,在隐含层中选择8个神经元和2个神经元可以得到令人满意的结果。
选择探测噪声为ek=0.2rand(1,1),以满足持续激励条件。实现方法产生图2(a)和图2(a)的训练结果,表明了这些权重的收敛性。为了验证学习控制策略的有效性,我们假设p=10。选择初始状态x0=[0.3,0.3]T,图3(a)显示了学习控制策略下的系统状态轨迹,图3(b)表明方法学习的控制策略可以保证系统即使在系统存在不确定性的情况下也是稳定的。
综上,本发明以具有匹配不确定性的倒立摆系统为例,来检验本发明提出的方法的性能。仿真结果表明了学习的控制策略的有效性和可行性以及系统即使在不确定性的情况下,系统仍然能够保持稳定。因此,这种方法的提出,从长远来看,可以保证工业上的系统高效,稳定的运行,从而提高了效率。

Claims (5)

1.一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略;
所述步骤(1)分为三个阶段:1)鲁棒控制问题;2)增广效用函数的标准系统的最优控制问题;3)设计鲁棒控制器:
阶段1)鲁棒控制问题具体为:建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题,基于给出假设和定义,跟踪关注鲁棒控制问题;DT仿射非线性系统(1)描述为:
xk+1=f(xk)+g(xk)uk+Δf(xk) (1)
其中xk∈Rn和uk∈Rm分别为状态和控制输入,Δf(xk)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)=0,这里,一般不确定性的一种形式的
Figure FDA0002641119120000011
对系统(1),D(xk)是一个有界函数,其中
Figure FDA0002641119120000012
是一个未知项被
Figure FDA0002641119120000013
界定,h(xk)∈Rm×n是已知的函数矩阵;
阶段2)最优控制的优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略,然后找出系统的鲁棒控制与相应标准系统的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器通过最优控制的方法;具体为:
关于系统(1)的标称系统(2),
xk+1=f(xk)+g(xk)uk (2)
假设,对于系统(2),希望找到控制律uk使下面的特定性能指标最小化
Figure FDA0002641119120000014
其中r(xk,uk)称为效用函数
Figure FDA0002641119120000015
最优控制策略uk针对系统(2)最小化性能指标(3)可以通过求解下面的HJB方程得到
Figure FDA0002641119120000021
其中
Figure FDA0002641119120000022
得到最优控制律为
Figure FDA0002641119120000023
其中
Figure FDA0002641119120000024
和V*(xk)被称为最优值函数,其定义是
Figure FDA0002641119120000025
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
对于系统(2),如果假设1成立,则控制策略
Figure FDA0002641119120000026
保证系统(1)具有匹配不确定性
Figure FDA0002641119120000027
鲁棒稳定,且在集合Ω上存在一个正定且二次连续可微的函数V*(xk),如果β(xk)设为:
Figure FDA0002641119120000028
简化后的HJB方程成立;
Figure FDA0002641119120000029
其中,
Figure FDA00026411191200000210
代表Hessian矩阵,定义为
Figure FDA00026411191200000211
满足(8)的函数V*(xk)是名义系统(2)优化问题的最优值函数;
利用满足(8)的最优值函数V*(xk),在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点xk+1的泰勒级数展开式:
Figure FDA0002641119120000031
其中,
Figure FDA0002641119120000032
为梯度向量,定义
Figure FDA0002641119120000033
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略分别使用基于Value函数近似的带误差的神经网络(NNs)来表示,给出近似策略迭代方法,估计最右控制性;
2)分析算法的收敛性:分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差尽可能小,采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交错RL方法,在本方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止;
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差;
具体为:用于强化控制策略的交错式RL;
提出交错的RL方法逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB;平滑值函数和控制策略分别使用基于Value函数近似的带误差的NNs来表示为:
Figure FDA0002641119120000034
Figure FDA0002641119120000035
分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;具体地说,在每个迭代i处,NN被表示为:
Figure FDA0002641119120000036
因此
Figure FDA0002641119120000041
并且在每次迭代i时,控制策略由下式给出:
Figure FDA0002641119120000042
其中ωci(k)和ωai(k)是
Figure FDA0002641119120000043
Figure FDA0002641119120000044
的近似值,
Figure FDA0002641119120000045
Figure FDA0002641119120000046
被选为常数向量,ωci(k)是通过使用梯度下降算法来实现的,方法是最小化近似误差;
Figure FDA0002641119120000047
Figure FDA0002641119120000048
式中,
Figure FDA0002641119120000049
同样权重ωai(k)可以通过以下形式训练:
Figure FDA00026411191200000410
其中la表示学习率,近似误差eai(k)定义为:
Figure FDA00026411191200000411
其中xk+1是由最后一个时间步长k的
Figure FDA00026411191200000412
产生的,如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小,采用在时间步长k处的权重ωci(k)和权重ωai(k)的交错单步更新,从而开发出以下交错RL算法;
不确定系统的交错RL方法:
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0,给定初始状态x1和x2
Ⅱ.交错迭代:给定权重υc和υa,初始化评论者NN和执行者NN的权重ωci(k)和ωai(k),并设置初始学习率lc和la;根据(7)更新权重ωci(k);根据(8)更新权重ωai(k);
如果不满足
Figure FDA00026411191200000413
Figure FDA00026411191200000414
则进行i的迭代
Ⅲ.设置ωc(k)=ωci(k)和ωa(k)=ωai(k),得到
Figure FDA00026411191200000415
它应用于标称系统作为输入以产生数据xk+1和xk+2
Ⅳ.||ωa(k)-ωa(k-1)||≤ε,||ωc(k)-ωc(k-1)||≤ε进行下一步;否则进行k的迭代并返回步骤Ⅱ;
Ⅴ.得到
Figure FDA0002641119120000051
Figure FDA0002641119120000052
的近似值ωc(k)和ωa(k),从而得到uk的近似值
Figure FDA0002641119120000053
权重ωci(k)和ωai(k)与迭代指数i交错训练,直到在每个时间步长收敛为止,得到控制动作并行为系统(2)用于下次生成新数据。
2.根据权利要求1所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:所述阶段1)给出假设和定义具体为:
假设1:系统(1)无漂移,即f(0)=0,g(0)=0,f(xk)∈Rn,g(xk)∈Rn假定有界,且f(xk)+g(xk)uk在包含原点的
Figure FDA0002641119120000054
上是连续的;
定义1:如果存在一种控制策略uk,该策略下系统(1)对于所有不确定性Δf(xk)渐近稳定,则系统(1)称为鲁棒可稳定,该控制策略uk称为鲁棒控制器;
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集xk∈Ω上的||xk||≤M。
3.根据权利要求1所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:还包括证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性;对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
4.根据权利要求3所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:所述证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性的具体步骤如下:
①收敛性验证:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
首先简化的HJB方程的解作为Lyapunov函数候选,其后进行泰勒展开,
Figure FDA0002641119120000061
则V(xk+1)-V(xk)<0即表明本方法所学习的控制策略
Figure FDA0002641119120000062
保证系保证系统的轨迹为UUB。
5.根据权利要求1所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:所述方法实现后,采用学习到的鲁棒控制策略的近似值作为系统的控制行为,以容忍不确定性。
CN202010840032.8A 2020-08-20 2020-08-20 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 Active CN111880414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840032.8A CN111880414B (zh) 2020-08-20 2020-08-20 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840032.8A CN111880414B (zh) 2020-08-20 2020-08-20 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法

Publications (2)

Publication Number Publication Date
CN111880414A true CN111880414A (zh) 2020-11-03
CN111880414B CN111880414B (zh) 2022-11-01

Family

ID=73203985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840032.8A Active CN111880414B (zh) 2020-08-20 2020-08-20 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法

Country Status (1)

Country Link
CN (1) CN111880414B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965368A (zh) * 2021-01-19 2021-06-15 云南卫士盾科技有限公司 stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN110609525A (zh) * 2019-08-20 2019-12-24 南京航空航天大学 一种基于在线adp的非线性时滞系统最优控制方法
CN110782011A (zh) * 2019-10-21 2020-02-11 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN110609525A (zh) * 2019-08-20 2019-12-24 南京航空航天大学 一种基于在线adp的非线性时滞系统最优控制方法
CN110782011A (zh) * 2019-10-21 2020-02-11 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINNA LI等: "Off-Policy Interleaved Q -Learning: Optimal Control for Affine Nonlinear Discrete-Time Systems", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS 》 *
张莉等: "基于强化学习的无模型离散时间系统H-∞静态输出反馈问题", 《第30届中国过程控制会议》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965368A (zh) * 2021-01-19 2021-06-15 云南卫士盾科技有限公司 stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法
CN112965368B (zh) * 2021-01-19 2022-07-26 云南卫士盾科技有限公司 stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法

Also Published As

Publication number Publication date
CN111880414B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Ławryńczuk A family of model predictive control algorithms with artificial neural networks
Kulikov et al. Accurate cubature and extended Kalman filtering methods for estimating continuous-time nonlinear stochastic systems with discrete measurements
Xiao et al. Online optimal control of unknown discrete-time nonlinear systems by using time-based adaptive dynamic programming
Xiong et al. Neural network model-based on-line re-optimisation control of fed-batch processes using a modified iterative dynamic programming algorithm
CN111459051A (zh) 一种带扰动观测器的离散终端滑模无模型控制方法
CN112904728A (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN108762072B (zh) 基于核范数子空间法和增广向量法的预测控制方法
CN111722531A (zh) 一种切换线性系统在线无模型最优控制方法
Yan et al. Error bound analysis of $ Q $-function for discounted optimal control problems with policy iteration
Mu et al. An ADDHP-based Q-learning algorithm for optimal tracking control of linear discrete-time systems with unknown dynamics
Zhao et al. Goal representation adaptive critic design for discrete-time uncertain systems subjected to input constraints: The event-triggered case
Ahmadi et al. Control-oriented learning of Lagrangian and Hamiltonian systems
CN111880414B (zh) 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法
Vrabie Online adaptive optimal control for continuous-time systems
CN114740710A (zh) 一种随机非线性多智能体的强化学习优化编队控制方法
Chen et al. Novel adaptive neural networks control with event-triggered for uncertain nonlinear system
Yu et al. Safe model-based reinforcement learning with an uncertainty-aware reachability certificate
Song et al. Adaptive dynamic event-triggered control for constrained modular reconfigurable robot
Eade Gauss-newton/levenberg-marquardt optimization
CN114200830A (zh) 一种多智能体一致性强化学习控制方法
CN114428460A (zh) 一种数据驱动的动态内模控制技术
Colombo et al. Variational integrators for non-autonomous systems with applications to stabilization of multi-agent formations
Torres et al. Towards benchmarking of state estimators for multibody dynamics
Wang et al. Novel optimal trajectory tracking for nonlinear affine systems with an advanced critic learning structure
Ellinas et al. Correctness Verification of Neural Networks Approximating Differential Equations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201103

Assignee: Liaoning Hengyi special material Co.,Ltd.

Assignor: Liaoming Petrochemical University

Contract record no.: X2023210000276

Denomination of invention: An adaptive interleaving reinforcement learning method for DT affine nonlinear systems based on matching or mismatch uncertainty

Granted publication date: 20221101

License type: Common License

Record date: 20231130

EE01 Entry into force of recordation of patent licensing contract