CN115922706A

CN115922706A - 基于评价网络的柔性空间机械臂控制方法、设备及介质

Info

Publication number: CN115922706A
Application number: CN202211499668.6A
Authority: CN
Inventors: 雷荣华; 雷波; 吴鑫
Original assignee: Hunan University of Technology; Changsha University of Science and Technology
Current assignee: Hunan University of Technology; Changsha University of Science and Technology
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-04-07

Abstract

本公开实施例中提供了一种基于评价网络的柔性空间机械臂控制方法、设备及介质，属于控制技术领域，具体包括：结合假设模态法与拉格朗日方程，推导柔性空间机械臂系统的动力学模型；结合奇异摄动理论解构动力学模型，得到慢时变子系统的动力学微分方程和快时变子系统的动力学微分方程；慢时变子系统基于评价网络设计自适应轨迹跟踪最优控制器；快时变子系统基于模糊逻辑设计抑振控制器；根据慢时变子系统基于评价网络的自适应轨迹跟踪最优控制器和快时变子系统的模糊控制器构成混合控制方案，得到柔性空间机械臂系统的总控制输入。通过本公开的方案，简化了控制器结果，提高了控制效率、控制精准度和适应性。

Description

基于评价网络的柔性空间机械臂控制方法、设备及介质

技术领域

本公开实施例涉及控制技术领域，尤其涉及一种基于评价网络的柔性空间机械臂控制方法、设备及介质。

背景技术

目前，空间机器人是由自由漂浮基座及机械臂组成的特殊航天器，多应用于空间站组装建造与运行维护，承担舱段转位与对接、舱外设备安装与维护、航天器燃料加注、悬停飞行器捕获、失效卫星修复、平台载荷照料等空间任务。近年来，随着空间任务朝着多样化、精细化和智能化方向发展，空间机器人的结构与材质有了较大的优化与升级。由于设计与制造等原因，细长轻质的空间机械臂存在固有柔性，并呈现出低刚度、小阻尼等特点，很容易在外部载荷的冲击下产生较大的振动。并且由于空间环境中空气极为稀薄，柔性臂杆的振动极难自行衰减，从而对空间机械臂的操控精度与稳定度造成极大影响。

柔性空间机械臂系统是一类高维度、强耦合、强时变的非线性系统，其载体姿态运动与机械臂关节运动之间存在互相干扰，从而给空间机器人的动力学建模与控制方法设计带来较大困难。传统的基于精确动力学模型的控制方法未考虑系统参数的时变特性，难以取得满意的控制效果；此外，这些控制方法通常采用集中式控制策略，控制器结构较为复杂，从而消耗较多的星载计算资源。

可见，亟需一种简单高效、适应性强的基于评价网络的柔性空间机械臂控制方法。

发明内容

有鉴于此，本公开实施例提供一种基于评价网络的柔性空间机械臂控制方法、设备及介质，至少部分解决现有技术中存在控制效率、便捷性和适应性较差的问题。

第一方面，本公开实施例提供了一种基于评价网络的柔性空间机械臂控制方法，包括：

步骤1，结合假设模态法与拉格朗日方程，推导柔性空间机械臂系统的动力学模型；

步骤2，结合奇异摄动理论解构动力学模型，得到慢时变子系统的动力学微分方程和快时变子系统的动力学微分方程；

步骤3，慢时变子系统基于评价网络设计自适应轨迹跟踪最优控制器；

步骤4，快时变子系统基于模糊逻辑设计抑振控制器；

步骤5，根据慢时变子系统基于评价网络的自适应轨迹跟踪最优控制器和快时变子系统的模糊控制器构成混合控制方案，得到柔性空间机械臂系统的总控制输入。

根据本公开实施例的一种具体实现方式，所述动力学模型的表达式为

其中，

为系统正定惯性矩阵；

为系统包含科里奥利力与离心力的向量，q_s＝[θ₀,θ₁,θ₂]^T为系统的刚性坐标变量；q_f＝[δ₁₁,δ₁₂,δ₂₁,δ₂₂]^T为系统的柔性坐标变量，K_f＝diag(k₁₁,k₁₂,k₂₁,k₂₂)为柔性臂杆的刚度矩阵，

u＝[u₀,u₁,u₂]^T为系统的控制力矩。

根据本公开实施例的一种具体实现方式，所述步骤2具体包括：

结合奇异摄动理论，定义柔性臂杆的刚度矩阵K_f中较小元素为k_min、奇异摄动因子为ε＝(1/k_min)^1/2，并引入状态变量ξ_f和K_ε(ε²ξ_f＝q_f,K_ε＝ε²K_f)，由此推导慢时变子系统的动力学微分方程为

其中，

为当ε＝0时与{··}相对应的量，

为慢时变子系统的控制力矩；

定义快变时标t_f(εt_f＝t-t₀)与边界层修正项

和

由此推导快时变子系统的动力学微分方程为

其中，

u_f为快时变子系统的控制力矩。

根据本公开实施例的一种具体实现方式，所述步骤3具体包括：

根据分散原理可将慢时变子系统分解为三个交联子系统并采用分散RBF神经网络对其进行模型重构与状态辨识，得到分散神经网络状态观测器；

根据分散神经网络状态观测器得到辨识后的二阶子系统并设计其实际局部名义控制输入和实际局部反馈控制输入，并添加鲁棒控制项；

根据实际局部名义控制输入、实际局部反馈控制输入和鲁棒控制项构建自适应轨迹跟踪最优控制器。

根据本公开实施例的一种具体实现方式，所述分散神经网络状态观测器的表达式为

其中，

和

分别为未知非线性项F_i(x_i,x_jd)和g_i(x_i)的神经网络估计值，k_i1与k_i2为观测器增益；

所述自适应轨迹跟踪最优控制器的表达式为

其中，

为实际局部名义控制输入，

为实际局部反馈控制输入，

为鲁棒控制项。

根据本公开实施例的一种具体实现方式，所述步骤4具体包括：

确定快时变子系统二阶子系统抑振控制器的输入变量为δ_ij和

输出变量为u_fij，对输入变量分别进行模糊化处理和模糊推理，输出变量经过解模糊化处理和增益操作，得到快时变子系统的模糊抑振控制器的表达式为

u_f＝-K_f2[u_f11,u_f12,u_f21,u_f22]^T

其中，K_f2∈R^3×4为控制增益矩阵。

第二方面，本公开实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的基于评价网络的柔性空间机械臂控制方法。

第三方面，本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的基于评价网络的柔性空间机械臂控制方法。

第四方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的基于评价网络的柔性空间机械臂控制方法。

本公开实施例中的基于评价网络的柔性空间机械臂控制方案，包括：步骤1，结合假设模态法与拉格朗日方程，推导柔性空间机械臂系统的动力学模型；步骤2，结合奇异摄动理论解构动力学模型，得到慢时变子系统的动力学微分方程和快时变子系统的动力学微分方程；步骤3，慢时变子系统基于评价网络设计自适应轨迹跟踪最优控制器；步骤4，快时变子系统基于模糊逻辑设计抑振控制器；步骤5，根据慢时变子系统基于评价网络的自适应轨迹跟踪最优控制器和快时变子系统的模糊控制器构成混合控制方案，得到柔性空间机械臂系统的总控制输入。

本公开实施例的有益效果为：通过本公开的方案，通过拉格朗日法对柔性空间机械臂系统进行动力学建模，然后基于奇异摄动法将系统分解为表征刚性运动的慢时变子系统和表征柔性振动的快时变子系统。对于慢时变子系统，利用分散神经网络重构其动力学模型并识别其状态变量，结合评价网络与性能指标函数设计一种自适应轨迹跟踪最优控制器；对于快时变子系统，基于模糊逻辑思想设计一种主动抑振控制器。本发明可有效简化控制器结构并提升模型训练速度，在无需获取模型精确动力学参数条件下即可实现对柔性空间机械臂的高精度、高稳定度快速控制，具有较高的工程应用潜力。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种基于评价网络的柔性空间机械臂控制方法的流程示意图；

图2为本公开实施例提供的一种柔性空间机械臂的平面结构示意图；

图3为本公开实施例提供的一种慢时变子系统二阶子系统的控制结构示意图；

图4为本公开实施例提供的一种输入变量和输出变量的隶属度函数曲线图；

图5为本公开实施例提供的一种快时变子系统模糊控制器结构示意图；

图6为本公开实施例提供的一种基于评价网络的柔性空间机械臂控制方法的控制系统结构示意图；

图7为本公开实施例提供的一种基于评价网络的柔性空间机械臂控制方法求解流程图；

图8为本公开实施例提供的电子设备示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种基于评价网络的柔性空间机械臂控制方法，所述方法可以应用于空间机器人等场景的柔性空间机械臂控制过程中。

参见图1，为本公开实施例提供的一种基于评价网络的柔性空间机械臂控制方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

进一步的，所述动力学模型的表达式为

其中，

为系统正定惯性矩阵；

u＝[u₀,u₁,u₂]^T为系统的控制力矩。

具体实施时，如图2所示，本发明的控制对象为柔性空间机械臂系统，其由一个自由漂浮的载体基座B₀、一个柔性臂(简支梁)B₁、一个柔性臂(悬臂梁)B₂、两个关节电机组成。其中，载体通过喷气装置调节其位姿，柔性臂通过关节电机控制其臂杆关节旋转。载体姿态角为θ₀，中心转动惯量为J₀，载体质心与与柔性臂B₁旋转中心之间的距离为d₀；柔性臂B_i(i＝1,2)的线密度、轴向长度和截面抗弯刚度分别为ρ_i、l_i和EI_i；OXY为世界坐标系，o_ix_iy_i(i＝0,1,2)为分体B_i的局部坐标系。此系统的基座运动与机械臂运动之间存在动力学耦合作用，解决此问题是后续控制器设计的前提。

本发明一种基于评价网络的柔性空间机械臂控制方法及设备实现过程中的关键处理方法及步骤如下：

柔性空间机械臂动力学模型

结合假设模态法与拉格朗日方程，可以推导出柔性空间机械臂系统的动力学微分方程为

其中，

为系统正定惯性矩阵；

为系统包含科里奥利力与离心力的向量；q_s＝[θ₀,θ₁,θ₂]^T为系统的刚性坐标变量；q_f＝[δ₁₁,δ₁₂,δ₂₁,δ₂₂]^T为系统的广义坐标变量；K_f＝diag(k₁₁,k₁₂,k₂₁,k₂₂)为柔性臂杆的刚度矩阵，

u＝[u₀,u₁,u₂]^T为系统的控制力矩。

在上述实施例的基础上，所述步骤2具体包括：

其中，

为当ε＝0时与{··}相对应的量，

为慢时变子系统的控制力矩；

定义快变时标t_f(εt_f＝t-t₀)与边界层修正项

和

由此推导快时变子系统的动力学微分方程为

其中，

u_f为快时变子系统的控制力矩。

具体实施时，如图3所示，本发明采用奇异摄动技术，将高维、复杂的柔性空间机械臂系统解构为表征不同运动方式的两个子系统，对系统刚性运动与柔性振动进行分离。针对慢时变子系统，采用分散策略得到二阶子系统模型，据此利用RBF神经网络对其进行模型重构及状态变量识别；接着为重构的二阶子系统设计一种基于评价网络的自适应轨迹跟踪最优控制方法，该方法控制结构简单、鲁棒性强，在无需建立执行网络和获取精确动力学参数及状态变量的条件下，仅依靠单一的评价网络即可实现即可实现柔性空间机械臂高精度、快速跟踪控制。基于评价网络的自适应轨迹跟踪最优控制方法设计的关键问题在于如何处理各个二阶子系统的交联项对控制系统稳定性的影响。

结合奇异摄动理论，可定义柔性臂杆的刚度矩阵K_f中较小元素为k_min、奇异摄动因子为ε＝(1/k_min)^1/2，并引入状态变量ξ_f和K_ε(ε²ξ_f＝q_f,K_ε＝ε²K_f)，由此可推导出慢时变子系统的动力学微分方程为

其中，

为当ε＝0时与{··}相对应的量，

为慢时变子系统的控制力矩。

定义快变时标t_f(εt_f＝t-t₀)与边界层修正项

和

由此可推导出快时变子系统的动力学微分方程为

其中，

u_f为快时变子系统的控制力矩。

综上，慢时变子系统模型(2)与快时变子系统模型(3)组成了柔性空间机械臂系统的奇异摄动模型。

在上述实施例的基础上，所述步骤3具体包括：

进一步的，所述分散神经网络状态观测器的表达式为

其中，

和

所述自适应轨迹跟踪最优控制器的表达式为

其中，

为实际局部名义控制输入，

为实际局部反馈控制输入，

为鲁棒控制项。

自适应动态规划方法近年来逐渐被应用到复杂非线性系统的控制当中。该方法的控制结构主要包括动态模型、评价函数和执行函数，可以利用神经网络来逼近这几个部分，进而分别得到动态系统、最优性能指标函数和最优控制器。评价网络和执行网络结合起来就组成一个智能体。执行函数在作用完动态模型之后，就会根据外部环境(或者被控对象)在不同阶段产生的奖励或者惩罚反作用于评价函数。智能体的主要控制目标就是通过不断迭代学习，以获取一个合适的控制策略，使获得的奖励(或者惩罚)的总值达到最优。为了进一步简化控制器结构，本发明在利用分散神经网络对柔性空间机械臂慢时变子系统进行模型重构与状态识别的基础上，提出了一种基于评价网络的自适应轨迹跟踪最优控制方法，在无需建立执行网络和获取精确动力学参数及状态变量的条件下，仅依靠单一的评价网络即可实现对柔性空间机械臂的高精度、高精度、快速跟踪控制，易于工程实现。

具体实施时，慢时变子系统基于评价网络的自适应轨迹跟踪最优控制器设计过程可以如下所示：

3.1慢时变子系统基于分散RBF神经网络的模型重构与状态识别

为实现对分体B_i(i＝0,1,2)的单独控制，根据分散原理可将慢时变子系统(2)分解为如下三个交联子系统

其中，q_si、

与

分别为向量q_s、

与

的第i(i＝1,2,3)个元素；

与

分别为矩阵

与

的第ij个元素。

为了方便后续控制器设计，定义状态变量

式(4)可改写为如下状态方程

其中，

分散控制的难点主要在于处理二阶子系统的交联项，由于柔性空间机械臂是一个高维度、强耦合、强时变非线性系统，其二阶子系统S_i的耦合交联项h_i(x)包含其余二阶子系统的信息。为解决此问题，将其他二阶子系统的信息由对应的期望值代替，此时交联项h_i(x)可以描述为

h_i(x)＝h_i(x_i,x_jd)+Δh_i(x,x_jd) (7)

其中，x_jd(j＝1,2,3)为其他二阶子系统的期望信息，Δh_i(x,x_jd)＝h_i(x)-h_i(x_i,x_jd)为替代误差，于是二阶子系统S_i(6)可表示为

其中，F_i(x_i,x_jd)＝f_i(x_i)+h_i(x_i,x_jd)为连续Lipschitz函数。

根据替代原理，替代误差Δh_i(x,x_jd)满足Lipschitz有界条件，即

其中，d_ij≥0为Lipschitz常数，E_j＝x_j-x_jd。

通过替换后的交联项h_i(x_i,x_jd)仍然难以显式表达出来，并且非线性项F_i(x_i,x_jd)及非线性项g_i(x_i)也是时变未知的。由于RBF神经网络对于连续非线性函数具有较强的逼近精度与较快的逼近速度，故利用分散RBF神经网络对二阶子系统包含h_i(x_i,x_jd)的非线性项F_i(x_i,x_jd)及非线性项g_i(x_i)分别进行逼近，从而解决了交联项的干扰问题，并实现无需慢变子系统精确参数的最优控制。

基于上述的分析，采用分散RBF神经网络对二阶子系统(8)进行模型重构与状态辨识，设计如下分散神经网络状态观测器

其中，

F_i(x_i,x_jd)，g_i(x_i)，k_i1，k_i2为观测器增益。

定义观测误差

结合式(8)与(10)可得

定义未知非线性项F_i(x_i,x_jd)及g_i(x_i)的理想神经网络逼近分别为

其中，W_if和W_ig为理想权值，Φ(·)为神经网络基函数，ε_if和ε_ig为估计误差。

定义未知非线性项F_i(x_i,x_jd)和g_i(x_i)的神经网络估计值分别为

其中，定义

和

分别为理想权值W_if和W_ig的估计值。

结合式(12)—(15)，得到

其中，

和

为神经网络权值逼近误差，

与

为神经网络基函数的逼近误差，具体表述如下

定义神经网络最小估计误差为

权值

和

更新律分别设计为

其中，η_if和η_ig均为正常数。

假设1神经网络的最小估计误差ω_i满足以下有界条件

||ω_i||≤z_i1 (23)

其中，κ₁为未知正常数。

定理1对于二阶子系统(8)，若设计形如式(21)和(22)的权值更新律，则分散神经网络状态观测器(10)可保证估计误差e_io最终一致有界收敛。

证明：选取如下的Lyapunov函数

将V_i1对时间t求导，可得

根据假设1，并结合式(21)与(22)，式(25)可改写为

由式(26)可知，当e_i2o处于集合

之外，且满足k_i1≥1/2与k_i2≥1/2时，

因此，根据Lyapunov稳定性定理可知，此时可保证估计误差e_io将保持最终一致有界收敛。至此，定理1证毕。

3.2慢时变子系统基于评价网络的自适应轨迹跟踪最优控制器设计

假设2期望轨迹q_id二阶可微，且满足以下有界条件。

其中，为q_iA未知正常数。

定义轨迹跟踪误差及其导数分别为

e_i＝x_i-x_id(28)

其中，x_id为期望轨迹。

为了实现二阶子系统的分散最优控制，定义性能指标函数为

其中，

为效应函数，Z_i(0,0)＝0，且对全部的e_i和u_ie都满足

Q_i∈R^2×2与R_i∈R^3×3为正定矩阵。

为局部反馈控制力矩，

为局部的名义控制力矩。

由于最优跟踪控制问题求解需要全部二阶子系统的信息，根据式(8)可得局部的名义控制输入

为

其中，x_d＝[x_1d,x_2d,x_3d]^T，

的广义逆，且满足

(I∈R^3×3为单位矩阵)。

定义1考虑到二阶子系统(8)，对于

若存在某个容许控制输入

且该控制输入在Ω_i上连续，同时满足

则

能确保二阶子系统(8)在紧集Ω_i∈R³上收敛，并且性能指标函数是有限的。

对于二阶子系统(4)任意的容许控制

如果性能指标函数

满足连续可微条件，则式(32)的无穷小形式可表示为

其中，V_i(0)＝0，▽V_i(e_i)为V_i(e_i)相对于e_i的偏导数，即

基于上述条件，可定义如下哈密顿函数

则可得到如下最优性能指标函数

且

满足

其中，

若V_i ^*(e_i)存在且连续可微，则理想的局部反馈控制输入为

因此，二阶子系统(8)的理想分散控制输入为

结合分散状态观测器(10)以及定理1，可得辨识后的二阶子系统为

其中，

为分散状态观测器的控制输入。

根据式(31)，则二阶子系统(8)的实际局部名义控制输入为

定义评价网络的理想输出为

其中，

为评价网络理想权值，l_i为隐含层神经元个数，σ_ic(e_i)为神经网络激活函数，ε_ic为评价网络的逼近误差。

则V_i(e_i)的梯度可表示为

其中，

和

分别表示激活函数和评价网络函数逼近误差的梯度。

结合式(33)和式(43)，得到

因此，二阶子系统(8)的局部哈密顿函数可以表示为

其中，e_icH为神经网络对评价网络的逼近误差。

定义

为权值W_ic的估计值，则该二阶子系统评价网络的实际输出为

则

的梯度为

因此，式(44)的近似值可表示为

定义

考虑到训练过程中需要满足如下最小化性能准则

根据梯度下降法，设计权值更新律为

其中，α_ic＞0为二阶子系统评价网络的学习率。

定义权值估计误差为

联立式(44)、式(47)和式(50)，得到

据此设计权值估计误差的更新律为

因此，结合式(37)和式(42)，可得二阶子系统(8)的理想局部反馈控制输入为

根据二阶子系统识别后的非线性项(15)与评价网络的实际输出(45)，其实际局部反馈控制输入为

定理2对于二阶子系统(8)，若评价网络的权值更新律设计为式(49)，则权值误差

最终一致有界收敛。

证明：定义如下的Lyapunov函数

将V_i2(t)求时间t导，并考虑式(52)，可得

在此假设||θ_i||≤θ_iM，不难发现

在集合

以外，

由此可得，权值近似误差满足最终一致有界收敛。由此，定理4.2证毕。

图5为二阶子系统(8)的控制结构示意图。

基于上述的分析可知，二阶子系统控制输入(31)与(40)以及控制输入(37)与(54)之间存在神经网络逼近误差，故其会对二阶子系统的跟踪性能产生不利影响。因此，采用如下的鲁棒控制项对逼近误差进行补偿

其中，sgn(e_i)＝[sgn(e_i1),sgn(e_i2),sgn(e_i3)]^T，

为整体逼近误差上界

的估计值，且其自适应更新律设计如下

其中，

为正常数。

由此可知，二阶子系统(8)的分散控制器

主要由局部名义控制输入(40)、局部反馈控制输入(54)以及鲁棒控制项(57)组成，即

定理3对于二阶子系统(8)与局部性能指标函数(41)，若设计形如(59)的分散控制器，则该二阶子系统的跟踪误差可渐近收敛至零。

证明：定义如下的Lyapunov函数

将V_i3对时间t求导，并结合式(33)，可得

考虑到F_i(·)为Lipschitz函数，则存在L_if＞0，使得||F_i(x_i,x_jd)-F_i(x_d)||≤L_if||e_i||。根据假设2可知

并定义

及

则式(61)可改写为

令

为整体逼近误差且满足

则式(62)变为

将式(57)与式(58)代入式(63)，得到

因此，若正定矩阵Q_i与R_i满足以下条件

则可得

根据Lyapunov稳定性定理可知二阶子系统的轨迹跟踪误差可渐近收敛至零。至此，定理3证毕。

慢时变子系统二阶子系统的控制结构如图3所示。

步骤4，快时变子系统基于模糊逻辑设计抑振控制器；

在上述实施例的基础上，所述步骤4具体包括：

u_f＝-K_f2[u_f11,u_f12,u_f21,u_f22]^T

其中，K_f2∈R^3×4为控制增益矩阵。

具体实施时，如图4和图5所示，本发明基于模糊逻辑理论为快变子系统设计了抑振控制器，使得在无需获取模型参数的情况下即可实现对柔性臂杆振动的主动抑制，提升系统操控稳定度。模糊控制模块的具体构成源自工业过程控制策略，模糊控制器由模糊化接口、推理机以及解(逆)模糊化接口构成；其中推理机由知识库和规则库构成。模糊化接口的功能是将实际的确定值转化为一个由模糊语言描述的模糊向量；推理机中的知识库是所有输入变量和输出变量的隶属度向量值，规则库是行业专家凭借经验推理得出的语言规则；解模糊化接口的功能是将模糊向量转化为具有清晰形式的输出量的接口。

首先，确定快时变子系统二阶子系统抑振控制器的输入变量为δ_ij和

输出变量为u_fij；在每个输入变量δ_ij和

和输出变量u_fij上均设立由7个模糊语言变量组成的集合：{负大(LN)，负中(MN)，负小(SN)，零(ZE)，正小(SP)，正中(MP)，正大(LP)}，

每个语言词集的隶属度函数均采用等腰三角形函数，如图4所示。

模糊控制规则如表1所示，共49条。

表1

基于Mamdani的max-min合成法对上述变量进行模糊推理，然后结合面积重心法将模糊量转化为可以驱动快时变子系统的清晰量。

将快时变子系统二阶子系统的输出经过增益处理，得到快时变子系统的模糊抑振控制器的表达式为

u_f＝-K_f2[u_f11,u_f12,u_f21,u_f22]^T (66)

其中，K_f2∈R^3×4为控制增益矩阵。

快时变子系统模糊控制器结构如图5所示。

本发明对柔性空间机械臂的慢时变子系统与快时变子系统分别利用RBF神经网络与模糊逻辑理论进行建模与控制，从而不依赖于具体的模型参数，增强了控制方法的鲁棒性，可有效减弱外部干扰和时变参数对控制精度的影响，同时提升系统操控稳定度。

具体实施时，慢时变子系统基于评价网络的自适应轨迹跟踪最优控制器u和快时变子系统的模糊控制器u_f构成混合控制方案，最终得到系统总的控制输入u。柔性空间机械臂采用混合控制方案实现载体姿态镇定、关节轨迹跟踪控制及柔性臂杆振动的主动抑制。

同时，本公开实施例还公开了基于评价网络的柔性空间机械臂控制方法软件设计过程，本发明控制对象柔性空间机械臂系统的物理参数如表2所示

<![CDATA[m0]]>

<![CDATA[ρ1]]>

<![CDATA[ρ2]]>

<![CDATA[d1]]>

<![CDATA[l1]]>

<![CDATA[l2]]>

<![CDATA[J0]]>

<![CDATA[EI1]]>

<![CDATA[EI2]]>

40kg

1.8kg/m

1.2kg/m

1m

3m

<![CDATA[34kg·m2]]>

<![CDATA[50N·m2]]>

表2

一种基于评价网络的柔性空间机械臂控制方法软件采用Matlab语言进行编写，生成.m文件，基于评价网络的柔性空间机械臂控制方法的控制系统结构如图6所示。首先，程序初始配置，给定状态变量初始值y(0)、运行时间T和求解步长dt；其次，指定初始时刻t＝0、y(t)＝y(0)及期望轨迹；接着，更新柔性空间机械臂系统的动力学矩阵；然后，更新刚性运动子系统模型重构结果与状态观测器估计结果；根据前两步的结果，更新自适应评价网络最优控制器与主动模糊抑振控制器的输出结果，并据此求解系统的动力学矩阵的刚性状态变量与柔性状态变量；再次，利用四阶龙哥-库塔法进行一次积分得到y(t+dt)；根据上一步结果，进行运行时间判定：若t＜T，执行第(2)步；否则执行第(8)步；将状态数据y(t)及其它数据存放到指定文件进行输出；最后，仿真终止。一种基于评价网络的柔性空间机械臂控制方法的控制参数如表3所示，上述方法的控制求解流程如图7所示。

表3

通过点击“开始(run)”按钮，系统即可运行，首先将柔性空间机械臂系统通解构为不同时间尺度下的两个子系统，然后分别为其设计控制器。当启动基于评价网络的混合控制器时，可实现载体姿态镇定及关节轨迹跟踪，以及柔性臂杆弹性振动的主动抑制。仿真结果可采用Word、Excel和LaTeX等文件进行保存。

本实施例提供的基于评价网络的柔性空间机械臂控制方法，通过采用奇异摄动技术，将高维、复杂的柔性空间机械臂系统解构为表征不同运动方式的两个子系统，消除了系统的动力学耦合效应；采用分散控制策略，仅利用慢时变子系统关节模块的自身信息，即可实现对每个二阶子系统的独立控制，从而可以简化了控制器结构，节省有限的星载计算资源；利用分散RBF神经网络重构了柔性空间机械臂的慢时变子系统的模型并识别了其状态变量，使得后续的控制方法不依赖于具体的模型参数及状态变量，增强了控制方法的鲁棒性，可有效减弱外部干扰和时变参数对控制精度的影响；采用模糊逻辑理论对柔性空间机械臂的快时变子系统进行建模与控制，使得无需获取快时变子系统的模型参数即可实现对柔性臂杆振动的主动抑制，提升系统操控稳定度；对于慢时变子系统的神经网络重构模型，本发明在传统ADP方法的基础上提出了一种基于评价网络的自适应轨迹跟踪最优控制方法，在无需建立执行网络的条件下，仅依靠单一的评价网络即可实现即可实现柔性空间机械臂高精度、快速跟踪控制，从而进一步简化了控制器的结构。

参见图8，本公开实施例还提供了一种电子设备80，该电子设备包括：至少一个处理器以及与该至少一个处理器通信连接的存储器。其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中的基于评价网络的柔性空间机械臂控制方法。

本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述方法实施例中的基于评价网络的柔性空间机械臂控制方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述方法实施例中的基于评价网络的柔性空间机械臂控制方法。

下面参考图8，其示出了适于用来实现本公开实施例的电子设备80的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备80可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有电子设备80操作所需的各种程序和数据。处理装置801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备80与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备80，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备可以执行上述方法实施例的相关步骤。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备可以执行上述方法实施例的相关步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。