CN117193001B

CN117193001B - 一种基于积分强化学习的双曲趋近律滑模控制方法

Info

Publication number: CN117193001B
Application number: CN202311241270.7A
Authority: CN
Inventors: 孙兴建; 顾豪杰; 谢辉; 秦秋月; 顾菊平; 张新松; 史珉; 陈楠
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-04-09
Anticipated expiration: 2043-09-25
Also published as: CN117193001A

Abstract

本发明提供了一种基于积分强化学习的双曲趋近律滑模控制方法，属于柔性机械臂滑模控制技术领域。解决了柔性机械臂系统滑模控制过程中存在的抖振及最优控制的技术问题。其技术方案为：包括以下步骤：S1、根据SMC理论，建立积分切换函数，SMC与强化学习结合的控制框架；S2、设计SMC中的状态反馈项，利用IRL方法求解状态反馈控制增益；S3、采用DHRL方法，减少SMC中由于高频切换项引起的系统抖振。S4、通过柔性机械臂系统验证DHRL的无抖振特性和控制方法的有效性。本发明的有益效果为：本发明实现对柔性机械臂系统的快速鲁棒控制，且能够大大提高柔性机械臂滑模控制系统的收敛速度，并降低控制系统抖振。

Description

一种基于积分强化学习的双曲趋近律滑模控制方法

技术领域

本发明涉及柔性机械臂滑模控制技术领域，尤其涉及一种基于积分强化学习的双曲趋近律滑模控制方法。

背景技术

在过去的几十年里，复杂非线性系统的控制系统分析和综述引起了广泛的关注。在这一领域已经取得了相当显著的成就，包括模糊逻辑控制、神经网络(NN)控制、自适应反步设计等。此外，还开发了以线性子系统的加权和与模糊规则相联系表示的Takagi-Sugeno(T-S)模糊控制系统，经典的线性系统理论可用于分析复杂的非线性系统和设计控制器，简化了系统分析和综合过程。文献《A novel Takagi-Sugeno-based robust adaptive fuzzysliding-mode controller》(C.L.Hwang,IEEE Transac-tions on Fuzzy Systems,vol.12,no.5,pp.676–687,2004)用基于“IF-THEN”规则的线性状态空间子系统逼近了一类非线性动态系统，并提出了一种基于线性系统理论和并行分布式补偿(PDC)概念的鲁棒自适应模糊控制方法。于是，稳定性分析应用于具有时变时滞的正T-S模糊系统，第一次建立了一个充要必要条件。文献《New results on hessian matrices and stabilization forstochastic T–S models via line integral》(S.Zhou,Y.Han,and B.Zhang,Automatica,vol.142,p.110337,2022)通过线积分方法发现了随机T-S模糊系统稳定性的一些新成果。在过去的十年里，T-S模糊控制方法也取得了相当好的成果，并在实际工程系统中广泛应用。

为了实现非线性系统对外部扰动和参数变化的快速收敛和较强的鲁棒性，提出了滑模控制(SMC)技术，并已成为控制领域中非常著名的鲁棒控制策略。特别是近年来，将神经网络和模糊控制相结合，提出了一种神经/模糊SMC方法来解决复杂非线性系统的控制问题。例如，文献《Adaptive sliding mode control of dynamic systems using doubleloop recurrent neural net-work structure》(J.Fei and C.Lu,IEEE Transactions onNeural Networks and Learning Systems,vol.29,no.4,pp.1275–1286,2018)提出了一种双环递归神经网络形式的自适应滑模控制器，以保证闭环动态系统的稳定性。文献《Robustfuzzy-fractional-order nonsingular ter-minal sliding-mode control of LCL-typegrid-connected converters》(B.Long,P.J.Lu,K.T.Chong,J.Rodriguez,andJ.M.Guerrero,IEEE Transactions on Industrial Electronics,vol.69,no.6,pp.5854–5866,2022)通过设计模糊分数阶非奇异终端滑模控制器，解决了并网变换器系统的鲁棒控制问题。考虑到奇异矩阵和状态相关投影矩阵，文献《SMC design for robuststabilization of nonlinear markovian jump singu-lar systems》(Y.Wang,Y.Xia,H.Shen,and P.Zhou,IEEE Transactions on Automatic Control,vol.63,no.1,pp.219–224,2018)研究了非线性马尔可夫跳跃奇异系统的积分型模糊SMC问题。在上述研究中，滑模控制器通常被视为反馈控制项和高频切换控制项的组合。众所周知，在SMC系统中，高频切换控制方案引起的抖振现象是不可避免的，严重降低了控制系统的性能。为了克服或削弱系统抖振的影响，已有一些有效的方法，例如趋近律、边界层、高阶SMC等。其中，趋近律方法由于其简单的设计过程和对控制系统保持较强鲁棒性而被广泛使用。然而，系统的抖振并不能被有效地消除。

此外，滑模控制器中的反馈控制项通常是基于滑模动力学设计的。近年来，强化学习算法引起了学术界和工业界的极大关注。强化学习的目的是通过与外部环境的交互来设计优化的控制策略，可以避免传统动态规划中维度的变化。因此，关于复杂非线性系统的一些强化学习的结果已经被提出，以稳定具有最佳性能的控制系统。文献《Reinforcement-learning-based robust controller design for continuous-time uncertainnonlinear systems subject to input con-straints》(D.Liu,X.Y ang,D.Wang,andQ.Wei,IEEE Transactions on Cybernetics,vol.45,no.7,pp.1372–1385,2015)为一类具有输入饱和的非线性系统提出了一种基于强化学习的稳定控制器。文献《Robust forma-tion control for cooperative underactuated quadrotors via reinforcementlearning》(W.Zhao,H.Liu,and F.L.Lewis,IEEE Transactions on Neural Networks andLearning Systems,vol.32,no.10,pp.4577–4587,2021)通过强化学习的鲁棒编队控制方法分析和设计了受未知非线性动力学和扰动影响的四旋翼机控制系统。然而，在上述强化学习过程中，要求解代数Riccati方程，必须准确地知道受控非线性系统的所有信息。由于系统信息无法准确测量，上述基于强化学习的控制方法将失效。为了放宽系统信息的严格约束，文献《Adaptive suboptimal output-feedback control for linear systemsusing integral reinforcement learn-ing》(L.M.Zhu,H.Modares,G.O.Peen,F.L.Lewis,and B.Y ue,IEEE Transactions on Control Systems Technology,vol.23,no.1,pp.264–273,2015)提出了一种积分强化学习(IRL)算法来寻找部分未知连续时间线性系统的最优状态反馈控制器。文献《Tracking con-trol optimization scheme for a classof partially unknown fuzzy systems by using integral reinforcement learningarchitecture》(K.Zhang,H.Zhang,Y.Mu,and S.Sun,Applied Mathematics andComputation,vol.359,pp.344–356,2019)将IRL技术应用于T-S模糊系统以求解控制增益。到目前为止，针对线性系统提出了基于强化学习的SMC算法，而针对被T-S模糊模型描述的复杂非线性系统基于IRL的SMC研究较少。

发明内容

本发明是针对柔性机械臂系统，为解决部分系统参数未知及存在外部扰动的非线性柔性机械臂系统控制的技术问题，而设计的一种基于积分强化学习的双曲趋近律滑模控制方法。

为了实现上述发明目的，本发明采用技术方案具体为：一种基于积分强化学习的双曲趋近律滑模控制方法，包括以下步骤：

S1、考虑一种具有外部扰动的非线性柔性机械臂系统，建立Takagi-Sugeno(T-S)模糊模型，提出双曲正切函数和反双曲正弦函数相结合的DHRL方法，消除SMC系统抖振；

S2、基于步骤S1所提出的DHRL方法，通过定理证明采用DHRL方法后，SMC系统的无抖振特性；

S3、基于步骤S2所证明的基于DHRL的SMC无抖振特性系统，考虑步骤1所建立的T-S模糊系统，定义积分切换函数，设计SMC控制器，同时论证滑模面的可到达性；

S4、基于步骤S3所设计的基于DHRL的SMC控制器，建立基于IRL的SMC控制框架，根据PDC概念设计SMC状态反馈项，利用IRL求解状态反馈控制增益，使控制增益摆脱对精确系统动力学的依赖，并使得柔性机械臂系统渐进稳定性。

进一步的作为本发明的优选技术方案，所述S1包括如下步骤：

考虑一种具有外部扰动适应性的非线性柔性机械臂系统，T-S模糊模型定义如下

式中，和/>分别为系统状态和控制输入，η₁(t),…,η_p(t)是模糊规则i中服从模糊集M_1i,…,M_pi的已知前提变量，其中i＝1,2,…,r；r是模糊规则的个数；和/>是系统矩阵，f(t)是未知匹配的外部扰动，并且系统的不确定性满足以下条件

||f(t)||≤γ₁+γ₂||x(t)||+γ₃||u(t)|| (8)

式中，γ₁＞0,γ₂＞0,0≤γ₃＜1；

通过解模糊过程，可以得到最终的T-S模糊系统如下

式中，h_i(η(t))是如下定义的模糊规则i的隶属函数

其中，μ_Mij(η(t)是η_j(t)在M_ij中的隶属度。根据T-S模糊集合理论，可以得到进一步可得

本发明的目的是设计一种SMC方案，以使上述系统(3)稳定并具有最佳控制性能。

基于SMC理论，可以将SMC过程分为两个阶段。在状态轨迹到达滑模面S＝{x(t):s(t)＝0}之前，SMC系统处于具有快速收敛性能的趋近阶段。由于系统状态轨迹被驱动到滑模面上，SMC系统处于滑动阶段，并沿着滑模面收敛到平衡点。在这两个阶段，闭环系统的稳定性都可以通过滑模控制器的反馈控制项来保证，而收敛速度和系统抖振则由滑模控制器的切换控制项来决定，而切换控制项取决于趋近律。为了消除抖振，将双曲正切函数tanh()与反双曲正弦函数asinh()相结合的DHRL slaw如下所示。

slaw＝-λ₁tanh(αs(t))-λ₂|s(t)|asinh(βs^q(t)) (12)

式中，λ₁＞0、λ₂＞0、α＞0、β＞0、q≥1。s(t)是滑模面的切换函数，双曲正切函数定义为表示反双曲正弦函数。为了简洁起见，函数或变量·(t)缩写为·(例如x(t)缩写为x，s(t)缩写为s等)。基于上述描述，本发明目的是在子系统矩阵A_i未知的情况下，为式可以表示为式(3)的一类柔性机械臂系统设计一种基于积分强化学习的无抖振SMC算法。

进一步的作为本发明的优选技术方案，所述S2包括如下步骤：

给出以下定理来保证基于DHRL的SMC系统的无抖振特性。

定理1，对于一个预定义的切换函数s，如果存在一组实数λ₁＞0、λ₂＞0、α＞0和q≥1，使得以下不等式成立

(λ₁α+λ₂q)t_s＜1 (13)

那么，系统的抖振可以被消除，并且系统状态平稳地收敛到平衡点。

证明：将方程(6)从t到t+t_s两边积分，其中得出

式(8)可以重写成

函数h(s)关于s的偏导数可以计算为

(1)当s＞0，可得

式(10)可改为

定义一个与s相关的函数G(s)，其偏导数如下

当s＞0时，是基于(7)的递减函数，则/>进而使得因此对所有的s∈(0,s^*]都满足又因为h(0)＝0，所以h(s)＝s(t+t_s)≥h(0)＝0。当s＞0时，tanh(αs)＞0、|s|asinh(βs^q)＞0，/>所以切换函数s渐进收敛于零，这表明一旦系统状态处于φ＝(0,s^*]范围内，系统状态轨迹都可被驱动到滑模面上并平稳地收敛到平衡点，同时消除了SMC系统的抖振。

(2)当s＜0时，通过定义相同的h(s)、G(s)函数可以得到相同的结论。

(3)当s＝0时，可以得到

对于所有的t，s≡0，因此，系统状态轨迹可以被驱动到平衡点上。证明结束。

进一步的作为本发明的优选技术方案，所述S3包括如下步骤：

考虑T-S非线性模糊系统，给出一下积分切换函数以获得SMC方案

式中，G∈R^m×n由设计者定义，GB是可逆矩阵，v是滑模控制器的状态反馈项，K_i是取决于下面最优控制算法的控制器增益，在不损失一般性的情况下，矩阵G可以被设计为GB＝I_m，其中I_m是m维的单位矩阵，于是可以得到如下切换函数的时间导数

根据SMC理论，具有以下等效控制律u_eq

u_eq＝v-f (23)

结合式(2)f和式(6)DHRL slaw中的约束条件，提出以下SMC方案

u＝v-(γ₁+γ₂||x||+γ₃||u||+1)×(λ₁tanh(αs)+λ₂|s|asinh(βs^q)) (24)

通过以下定理来证明所设计SMC滑模面的可达性。

定理2，对于一个给定的T-S模糊系统，在式(18)的SMC方案下，系统状态轨迹可被驱动到滑模面S＝{x:s＝0}的边界层切换函数s已经在式(15)中定义。

证明：选择以下李雅普诺夫函数

对V₁求时间的导数，根据式(16)可得

结合式(18)可得

式中，M＝γ₁+γ₂||x(t)||+γ₃||u(t)||为||f||的上确界。由定理1可得，g₁(s)＝sign(s)-λ₁tanh(αs)-λ₂|s|asinh(βs^q)是区间(-∞,0)∪(0,+∞)上关于s的单调递减函数。显然，

(1)当时

g₁(s)≤1-1-λ₂δasinh(βδ^q)＝-λ₂δasinh(βδ^q)＜0 (28)

由此可见

(2)当时，类比上式可以得到g₁(s)＞0以及

根据SMC理论，存在一个t^*，使得对于所有t≥t^*，当系统状态远离滑模面时，它们可以在有限时间内被驱动到边界层，证明结束。

进一步的作为本发明的优选技术方案，所述S4包括如下步骤：

一旦系统状态轨迹被驱动到滑模面上，SMC系统就处于滑动阶段，并满足以下滑模动力学。

式(25)中的系统状态等同于T-S模糊系统(3)中的状态。状态反馈控制项的形式如下

它是基于PDC概念设计的，并使滑模动力学(25)渐近稳定。考虑具有无限时域最优控制问题的以下性能指标。

式中，在PDC概念的基础上，规则i中的性能指标可以表示为

式中，v_i为规则i中满足/>的控制方案。于是总体模糊性能指标表示如下

式(27)中的性能指标可改写为

式中，根据最优控制理论，可利用正定二次函数将性能J_i和J重写成J_i＝x^TP_ix和J＝x^TPx，/>显然，/>由于P和P_i是对称正定矩阵，可获得一个新矩阵M_i＝PP_i ^-1＞0，使得M_iP_i＝P，于是可以找到一组参数k_i＞0使得

J＝x^TPx＝x^TM_iP_ix＝k_ix^TP_ix＝k_iJ_i (37)

为了基于Bellman原理设计最优控制v^*，即最小化性能指标(27)也可以根据式(31)将规则i中性能指标/>最小化。然后可以计算以下代数Riccati方程(ARE)，其中，v_i＝K_ix。

并且最佳状态反馈增益K_i可以根据以下等式来计算。

K_i＝-R^-1B^TP_i ^* (39)

ARE可以改写如下

在算法1中描述了传统的策略迭代算法，以解决在规则i下具有已知系统矩阵A_i和B的ARE。

在传统策略迭代步骤(35)中，必须假设系统矩阵A_i和B的所有信息都是已知的，这表明传统策略迭代算法1只能应用于具有已知的确定的系统参数的一类非线性系统。然而，对于由T-S模糊系统(3)表示的柔性机械臂非线性系统，大部分情况下时无法精确地测量所有的系统信息的。因此，需要设计具有部分未知系统信息的非线性系统的控制器。

为了消除算法1中的假设，采用了IRL方法，使得系统矩阵A_i和B的部分信息允许未知，并且保证了滑模动力学(25)的稳定性。在下文中，给出了第i个性能指标J_i的导数。

将式(37)两边按照t到t+Δt积分，Δt＞0，可得

式(38)等效于ARE(32)，并且不再需要子系统矩阵A_i。因此对于部分未知的T-S模糊系统，设计了如下IRL算法。

通过以下定理证明具有由IRL算法2求解的状态反馈项(26)的滑模动力学(25)有渐近稳定性。

定理3，考虑具有部分未知矩阵A_i和B的滑模动力学(25)以及(27)中定义的性能指标J＝x^TPx，如果存在一组适当的参数k_i＞0且由IRL算法2设计的状态反馈控制项(26)，则系统(25)是渐近稳定的。

证明：定义李雅普诺夫函数为V₂＝x^TPx＝J，并取其对时间的导数如下

与式(31)的分析类似，还有一组参数使得以下方程成立

式中，式(42)可以改写为

结合式(33)-(34)可得

证明结束。

与现有技术相比，本发明的技术效果为：

(1)本发明提出了一种柔性机械臂系统基于积分强化学习的鲁棒控制方法，有效提高了柔性机械臂系统的抗扰能力，实现了柔性机械臂系统的快速鲁棒控制。

(2)(1)本发明提出了一种基于双曲趋近律的滑模控制器设计方法，针对控制器的切换增益，设计双曲趋近律函数，使切换增益根据运动状态自动调节，从而使柔性机械臂系统能够在克服干扰作用的同时，消除滑模控制的抖振。

(3)本发明通过设计的基于积分强化学习的最优滑模控制框架，能够突破系统参数必须已知的约束，结合积分强化学习算法搭建了最优滑模控制器设计框架，实现了对柔性机械臂系统的最优鲁棒控制，减小了外界未知扰动对系统的影响，进一步提高了系统的鲁棒性。

附图说明

图1为本发明中柔性机械臂基于积分强化学习和双曲趋近律的滑模控制流程图。

图2为本发明中式(46)所示具有双曲趋近律的切换函数s(t)在不同初始值下随时间变化轨迹的直接示意图；

图3为本发明中式(46)-(49)所示不同趋近律下的趋近速度的对比示意图；

图4为本发明中式(46)-(49)所示不同趋近律下系统状态x₁的轨迹对比示意图；

图5为本发明中式(46)-(49)所示不同趋近律下系统状态x₂的轨迹对比示意图；

图6为本发明中柔性机械臂系统结构示意图。

图7为本发明中控制器(61)下的系统状态x(t)的轨迹直接示意图；

图8为本发明中用于说明控制器(61)效果的基于恒速趋近律的系统状态x(t)的轨迹直接示意图；

图9为本发明中双曲趋近和恒定速率趋近律下基于IRL的控制信号u(t)的对比示意图；

图10为基于双曲趋近和恒速趋近律的切换函数曲线对比示意图；

图11为本发明中学习过程中矩阵P₁中各参数演变的直接示意图；

图12为本发明中学习过程中矩阵P₂中各参数演变的直接示意图。

具体实施方式

下面结合附图详细的描述本发明的作进一步的解释说明，以使本领域的技术人员可以更深入地理解本发明并能够实施，但下面通过参考实例仅用于解释本发明，不作为本发明的限定。

实施例1

参见图1至图11，本实施例提供了一种基于积分强化学习的双曲趋近律滑模控制方法，包括以下步骤：

S1、考虑一种具有外部扰动的非线性柔性机械臂系统，建立Takagi-Sugeno(T-S)模糊模型。提出双曲正切函数和反双曲正弦函数相结合的DHRL方法，消除SMC系统抖振；

S4、基于步骤S3所设计的基于DHRL的SMC控制器，建立基于IRL的SMC控制框架。根据PDC概念设计SMC状态反馈项，利用IRL求解状态反馈控制增益，使控制增益摆脱对精确系统动力学的依赖，并使得柔性机械臂系统渐进稳定性。

具体地，所述S1包括如下步骤：

式中，和/>分别为系统状态和控制输入，η₁(t),…,η_p(t)是模糊规则i中服从模糊集M_1i,…,M_pi的已知前提变量，其中i＝1,2,…,r；r是模糊规则的个数；和/>是系统矩阵。f(t)是未知匹配的外部扰动，并且系统的不确定性满足以下条件

||f(t)||≤γ₁+γ₂||x(t)||+γ₃||u(t)|| (48)

式中，γ₁＞0,γ₂＞0,0≤γ₃＜1。

通过解模糊过程，可以得到最终的T-S模糊系统如下

式中，h_i(η(t))是如下定义的模糊规则i的隶属函数

其中，是η_j(t)在M_ij中的隶属度。根据T-S模糊集合理论，可以得到进一步可得

基于SMC理论，可以将SMC过程分为两个阶段。在状态轨迹到达滑模面S＝{x(t):s(t)＝0}之前，SMC系统处于具有快速收敛性能的趋近阶段。由于系统状态轨迹被驱动到滑模面上，SMC系统处于滑动阶段，并沿着滑模面收敛到平衡点。在这两个阶段，闭环系统的稳定性都可以通过滑模控制器的反馈控制项来保证，而收敛速度和系统抖振则由滑模控制器的切换控制项来决定，而切换控制项取决于趋近律。为了消除抖振，将双曲正切函数tanh(·)与反双曲正弦函数asinh(·)相结合的DHRL slaw如下所示。

slaw＝-λ₁ tanh(αs(t))-λ₂|s(t)|asinh(βs^q(t)) (52)

式中，λ₁＞0、λ₂＞0、α＞0、β＞0、q≥1。s(t)是滑模面的切换函数，双曲正切函数定义为表示反双曲正弦函数。为了简洁起见，函数或变量·(t)缩写为·(例如x(t)缩写为x，s(t)缩写为s等)。基于上述描述，本发明目的是在子系统矩阵A_i未知的情况下，为式可以表示为式(3)的一类柔性机械臂系统设计一种基于积分强化学习的无抖振SMC算法。/>

具体地，所述S2包括如下步骤：

给出以下定理来保证基于DHRL的SMC系统的无抖振特性。

(λ₁α+λ₂q)t_s＜1 (53)

证明：将方程(6)从t到t+t_s两边积分，其中得出

式(8)可以重写成

函数h(s)关于s的偏导数可以计算为

(1)当s＞0，可得

式(10)可改为

定义一个与s相关的函数G(s)，其偏导数如下

当s＞0时，是基于(7)的递减函数，则/>进而使得因此对所有的s∈(0,s^*]都满足又因为h(0)＝0，所以h(s)＝s(t+t_s)≥h(0)＝0。当s＞0时，tanh(αs)＞0、|s|asinh(βs^q)＞0，/>所以切换函数s渐进收敛于零，这表明一旦系统状态处于φ＝(0,s^*]范围内，系统状态轨迹都可被驱动到滑模面上并平稳地收敛到平衡点，同时消除了SMC系统的抖振。/>

(3)当s＝0时，可以得到

具体地，所述S3包括如下步骤：

式中，G∈R^m×n由设计者定义，GB是可逆矩阵，v是滑模控制器的状态反馈项，K_i是取决于下面最优控制算法的控制器增益。在不损失一般性的情况下，矩阵G可以被设计为GB＝I_m，其中I_m是m维的单位矩阵，于是可以得到如下切换函数的时间导数

根据SMC理论，具有以下等效控制律u_eq

u_eq＝v-f (63)

结合式(2)f和式(6)DHRL slaw中的约束条件，提出以下SMC方案

u＝v-(γ₁+γ₂||x||+γ₃||u||+1)×(λ₁tanh(αs)+λ₂|s|asinh(βs^q)) (64)

通过以下定理来证明所设计SMC滑模面的可达性。

定理2，对于一个给定的T-S模糊系统，在式(18)的SMC方案下，系统状态轨迹可被驱动到滑模面S＝{x:s＝0}的边界层(切换函数s已经在式(15)中定义)。

证明：选择以下李雅普诺夫函数

对V₁求时间的导数，根据式(16)可得

结合式(18)可得

(1)当时

g₁(s)≤1-1-λ₂δasinh(βδ^q)＝-λ₂δasinh(βδ^q)＜0 (68)

由此可见

(2)当时，类比上式可以得到g₁(s)＞0以及

根据SMC理论，存在一个t^*，使得对于所有t≥t^*，当系统状态远离滑模面时，它们可以在有限时间内被驱动到边界层。证明结束。

具体地，所述S4包括如下步骤：

式中，在PDC概念的基础上，规则i中的性能指标可以表示为

式(27)中的性能指标可改写为

J＝x^TPx＝x^TM_iP_ix＝k_ix^TP_ix＝k_iJ_i (77)

并且最佳状态反馈增益K_i可以根据以下等式来计算。

K_i＝-R^-1B^TP_i ^* (79)

ARE可以改写如下

将式(37)两边按照t到t+Δt积分，Δt＞0，可得

与式(31)的分析类似，还有一组参数使得以下方程成立

式中，式(42)可以改写为

结合式(33)-(34)可得

证明结束。

本发明提出的基于积分强化学习的柔性机械臂系统双曲趋近律滑模控制方法通过MATLAB进行仿真实验。

1、在不同初始条件下，利用DHRL的切换函数s均可渐进收敛到零

定义DHRL的参数为λ₁＝5、λ₂＝3、α＝2、β＝2、q＝7，DHRL定义如下

slaw＝-5tanh(2s(t))-3|s(t)|asinh(2s⁷(t)) (46)

轨迹如图2所示，初始值s(0)＝10、s(0)＝-10s(0)＝0，显然无论s＞0、s＜0、s＝0，切换函数s都渐近收敛于零。

为了比较不同趋近律的收敛速度，给出了以下传统趋近律。

(1)恒速趋近律

(2)比例速率趋近律

(3)功率速率趋近律

在趋近律(46)-(49)下的滑模面轨迹如图3所示。从图3可以看出，当s(t)是一个大值时，趋近律(46)的速度比趋近律(47)-(49)的速度快。因此，在趋近律(46)下，系统状态接近滑模面的速率比其他趋近律更快。当s(t)是小值时，到趋近律(46)的速度比趋近律(47)-(49)的速度慢，这意味着在趋近律(46)下系统状态接近滑模面的速率慢。也就是说，在趋近律(46)下，收敛时间更短，系统抖振更小。进一步给出了一个简单的线性系统来验证上述结论。

设置系统(50)可改写为

式中，||f(t)||≤5，为了设计系统(51)的SMC方案，给出了以下切换函数

/>

式中，G＝[0 1]，控制增益K可以计算为从而得到系统(51)的SMC方案如下

u(t)＝Kx(t)+(5+1)slaw (53)

式中slaw可以在(46)-(49)中选择。然后，具有不同趋近律的控制器(53)下的系统状态轨迹如图4-5所示。很明显，系统(51)在(46)中的趋近律slaw下的收敛时间比在(47)-(49)中的收敛时间短。特别是，与其他趋近律相比，趋近律(46)是无抖振的。因此，验证了DHRL(6)的优点和有效性。

2、验证IRL算法2求解的SMC方案有效性

考虑图6所示的柔性机械臂，动力学方程可以表示为

式中，J_l,θ_l,M分别为连杆的惯性、角位置和质量，J_m,θ_m分别为电机的惯性和角位置，u为控制系统的输入转矩，g为重力常数，K为关节弹簧刚度系数，l为从连杆中心到关节轴线的长度，F为转子摩擦系数，表示外部扰动，其中，将状态参数定义为x₁(t)＝θ_l、/>x₃(t)＝θ_m、/>柔性机械臂系统(54)可描述为

式中，其中， ||f(t)||≤2+2||x(t)||、/>根据式(1)-(5)和x₁(t)∈[-π/2,π/2]，可得以下T-S模糊模型来近似非线性系统(55)

规则1：IF x₁(t)≈0THEN

规则2：IFTHEN

/>

式中，其中，系统参数设置如下：M＝0.02kg、K＝0.06N·m/rad、l＝1m、J_l＝J_m＝1kg·m²、g＝9.81m/s²、F＝0.008N·m·s/rad。隶属函数从而T-S模糊系统可以表示如下

其中：

B＝[0 00 1]^T

假定正定矩阵R＝1、初始条件为G＝[0 0 0 1]。如果系统矩阵A₁、A₂中的参数φ₂-φ₄是未知的，则系统(58)是本发明所考虑的部分未知非线性系统。基于IRL和DHRL的SMC方案下系统状态轨迹如图7所示。在学习过程中，收敛的正定矩阵P₁、P₂最终解如式(59)所示，学习过程如图11-12所示。

状态反馈控制增益计算如下

如图9所示，控制器设计为

如果将趋近律选择为恒定速率趋近律-0.01sign(s(t))，而不是本方案提出的双曲趋近律-(5tanh(2s(t))+3|s(t)|asinh(2s(t)⁷))，则最终SMC方案如下

SMC控制方案(62)下的系统轨迹如图8所示，从中可以看出，出现了抖振现象。此外，图10中绘制了具有双曲趋近和恒速趋近律的滑模面。图7-10显示控制信号(62)中存在抖振现象，而控制信号(61)中没有出现抖振现象。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于积分强化学习的双曲趋近律滑模控制方法，其特征在于，包括以下步骤：

S1、考虑一种具有外部扰动的非线性柔性机械臂系统，建立Takagi-Sugeno模糊模型，提出双曲正切函数和反双曲正弦函数相结合的DHRL方法，消除SMC系统抖振；

所述步骤S1包括如下步骤：

针对非线性柔性机械臂系统，考虑外部扰动因素的影响，建立如下Takagi-Sugeno模糊模型：

式中，和/>分别为系统状态和控制输入，η₁(t),…,η_p(t)是模糊规则i中服从模糊集M_1i,…,M_pi的已知前提变量，其中i＝1,2,…,r；r是模糊规则的个数，和/>是系统矩阵，f(t)是未知匹配的外部扰动，并且系统的不确定性满足以下条件

||f(t)||≤γ₁+γ₂||x(t)||+γ₃||u(t)|| (2)

式中，γ₁＞0,γ₂＞0,0≤γ₃＜1；

通过解模糊过程，得到最终的T-S模糊系统如下

式中，h_i(η(t))是如下定义的模糊规则i的隶属函数

其中，μ_Mij(η(t))是η_j(t)在M_ij中的隶属度，根据Takagi-Sugeno模糊集合理论，得出

为了消除抖振，将双曲正切函数tanh(·)与反双曲正弦函数asinh(·)相结合，设计DHRL slaw如下，

slaw＝-λ₁tanh(αs(t))-λ₂|s(t)|asinh(βs^q(t)) (6)

式中，λ₁＞0、λ₂＞0、α＞0、β＞0、q≥1，s(t)是滑模面的切换函数，双曲正切函数定义为表示反双曲正弦函数；

S2、基于步骤S1所提出的DHRL方法，考虑步骤S1所建立的Takagi-Sugeno模糊模型，定义积分切换函数，设计SMC控制器，保证滑模面的可到达性；

所述S2包括如下步骤：

考虑Takagi-Sugeno非线性模糊系统，设计以下积分切换函数以获得SMC方案

式中，G∈R^m×n是切换函数矩阵，通过GB为可逆矩阵进行设计，v是滑模控制器的状态反馈项，K_i是取决于下面最优控制算法的控制器增益，在不损失一般性的情况下，矩阵G被设计为GB＝I_m，其中I_m是m维的单位矩阵，结合式(2)f和式(6)DHRL slaw中的约束条件，提出以下SMC方案

u＝v-(γ₁+γ₂||x||+γ₃||u||+1)×(λ₁tanh(αs)+λ₂|s|asinh(βs^q)) (8)

根据SMC理论，存在一个t^*，使得对于所有t≥t^*，当系统状态远离滑模面时，它们在有限时间内被驱动到边界层；

S3、基于步骤S2所设计的基于DHRL的SMC控制器，建立基于IRL的SMC控制框架，设计SMC状态反馈项；

所述S3包括如下步骤：

当系统状态轨迹被驱动到滑模面时，SMC系统处于滑动阶段，并满足以下滑模动力学，

式(9)中的系统状态等同于Takagi-Sugeno模糊系统(3)中的状态，状态反馈控制项的形式如下

式中，

在传统强化学习中，通过迭代过程寻找最优控制增益K_i时，必须满足系统矩阵A_i和B的所有信息都是已知的，对于由T-S模糊系统(3)表示的柔性机械臂非线性系统；

本方法设计了IRL算法，使得系统矩阵A_i和B的部分信息是允许未知的，并且保证了滑模动力学(9)的稳定性；

IRL算法步骤如下：

根据Lyapunov稳定性理论，得到由IRL算法2求解的状态反馈项(10)的滑模动力学(9)是渐近稳定性，基于IRL算法的柔性机械臂滑模控制系统是渐近稳定的，并且保证控制系统满足鲁棒性和无抖振特性。