CN111496792A

CN111496792A - 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统

Info

Publication number: CN111496792A
Application number: CN202010345703.3A
Authority: CN
Inventors: 孙亮; 曹胜杰
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-07
Anticipated expiration: 2040-04-27
Also published as: CN111496792B

Abstract

本发明提供一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统，该方法包括：获取机械臂的期望轨迹，并通过机械臂传感器获取机械臂的状态数据；根据获取的状态数据，采用强化学习控制算法抑制机械臂的模型不确定性；设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应；设计非奇异快速终端滑模控制器，使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域，实现对机械臂输入饱和固定时间期望轨迹跟踪控制。本发明方法具有对模型不确定性的在线学习能力，使得机械臂可以准确且快速地跟踪轨迹。

Description

一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统

技术领域

本发明涉及机械臂轨迹跟踪技术领域，特别是指一种基于强化学习的机械臂输入饱和固定时间轨迹跟踪控制方法及系统。

背景技术

机械臂在军事、制造业、医疗环境等危险环境领域有着广泛的应用，机械臂的轨迹跟踪控制技术一直是研究的热门方向之一，机械臂按照提前设定的关节轨迹进行运动是实现这些复杂任务的关键；然而，由于动力学模型不确定性，耦合效应以及外部未知干扰问题，使得机械臂准确且快速地跟踪轨迹十分困难。

近年来出现了许多轨迹跟踪控制方法，包括PID控制、自适应控制、非线性控制等。但是，现有的这些轨迹跟踪控制方法并不能克服动力学模型不确定性，耦合效应以及外部未知干扰因素所导致的机械臂轨迹跟踪控制不够准确、快速的问题；因此，迫切需要探索一种有效的机械臂轨迹跟踪控制技术。

发明内容

本发明要解决的技术问题是提供一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统，以至少部分解决现有的轨迹跟踪控制方法所存在的上述问题。

为解决上述技术问题，本发明提供如下技术方案：

一种机械臂输入饱和固定时间轨迹跟踪控制方法，所述方法包括：

获取机械臂的期望轨迹，并通过机械臂传感器获取机械臂的状态数据；

根据获取的状态数据，采用强化学习控制算法抑制机械臂的模型不确定性；

设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应；

设计非奇异快速终端滑模控制器，使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域，实现对机械臂输入饱和固定时间期望轨迹跟踪控制。

进一步地，所述状态数据包括机械臂关节的位置和机械臂关节的速度。

进一步地，所述采用强化学习控制算法抑制机械臂的模型不确定性，包括：

基于机械臂的动力学模型，采用径向基函数神经网络进行最优权值的估计，设计Actor神经网络生成强化学习控制策略；设计Critic神经网络用于评估执行成本，并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。

进一步地，所述机械臂的动力学模型建立如下：

式中，

以及

表示广义机械臂关节位置坐标、速度以及加速度；

是惯性矩阵，式中名义惯性矩阵M₀(q)是对称正定的，M_Δ(q)表示未知部分，

表示离心科氏力项，

表示重力项，

表示未知且有界的外部干扰，

表示关节控制输入力矩；

动力学模型公式(1)表示为：

式中，

是由外部扰动和参数不确定性组成的机械系统的复合扰动；

分别定义x₁(t)＝q(t)、

将式(2)改写为：

考虑到关节力矩饱和问题，控制输入力矩τ(t)表示为：

式中，τ_H>τ_L是已知的控制输入受限值，则控制输入重新表示为：

τ(t)＝τ₀(t)+τ_Δ(t) (5)

式中，τ₀(t)表示名义上设计的部分，未知部分τ_Δ(t)表示如下：

且假设

是一个未知常量。

进一步地，所述设计非奇异快速终端滑模控制器，包括：

定义系统的跟踪误差：

将式(2)代入到式(7)中得到误差系统如下：

式中，τ₀表示待设计的控制输入指令，τ_Δ表示执行器饱和溢出效应；

采用一种新的非奇异固定时间快速滑动模态变量：

式中

为对角矩阵，

i＝1，2,…,n表示为：

式中，α>0，β>0，k>1，v₁>1，p,g是正的标量，且满足gk>1，1/v₁<pk<1，控制器设计为：

式中

是对角矩阵，

i＝1，2，…,n表示为：

v₄>1，v₂v4<1，v₃v₄>1，σ₁，σ₂为两个正常数，K_s＝diag{k_s1,k_s2,…,k_sn}是对角正定矩阵，其中，k_si>0，i＝1，2，…,n，ζ是抗饱和补偿器的状态，l是复合干扰。

进一步地，所述非线性抗饱和补偿器设计为：

式中，ζ是抗饱和补偿器的系统状态，

进一步地，所述Actor神经网络的设计如下：

采用执行神经网络来估计未知信息，因此，控制器设计为：

式中，f_NN是RBFNN的输出向量，用于近似复合干扰l，表示为：

式中，w_ai＝[w_ai1,w_ai2,…,w_aim]^T为权值向量，

为RBFNN的输入向量，σ_ai(z_ai)为高斯函数；

瞬时近似误差表示为：

式中，

然后将该误差设计为：

式中，I_d(t)＝0，表示期望的理想成本，k_I表示正常数；

将人工神经网络的权值更新律设计为；

式中，E_a＝ln(cosh e_a)，δ_a>0为执行神经网络的学习率；

应用参数投影算法，设计一个常数向量

使其满足

将基于投影的神经网络权值更新律设计为：

式中，

进一步地，所述Critic神经网络设计如下：

定义Critic神经网络为

且估计值为

其中，

为最优权重向量，

为估计权重向量，o为隐含层神经元个数，σ_c(e₁)为高斯径向基函数，ε_c为逼近偏差；

代价函数表示为：

式中，

ψ是可调常数，常数ψ→∞时，代价函数为：

式中，

表示e₁的梯度；

根据梯度下降法，Critic神经网络的权值更新律设计为：

式中，

将(19)代入到(21)中得到：

式中，

常数δ_c>0代表评价神经网络的学习率；

采用参数投影算法保证了评价神经网络权向量的有界性；设计一个常数向量

使其满足

(i＝1,2,…，l)，基于投影的评价神经网络权值更新律设计为：

式中，

相应地，为解决上述技术问题，本发明还提供如下技术方案：

一种机械臂输入饱和固定时间轨迹跟踪控制系统，所述系统包括：

机械臂期望轨迹及状态数据获取模块，用于获取机械臂的期望轨迹，并通过机械臂传感器获取机械臂的状态数据；

强化学习控制模块，用于根据获取的状态数据，采用强化学习控制算法抑制机械臂的模型不确定性；

非线性抗饱和补偿器设计模块，用于设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应；

非奇异快速终端滑模控制器，用于设计非奇异快速终端滑模控制器，使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域，实现对机械臂输入饱和固定时间期望轨迹跟踪控制。

进一步地，所述强化学习控制模块具体用：

本发明的上述技术方案的有益效果如下：

本发明的机械臂输入饱和固定时间轨迹跟踪控制方法考虑到机械臂动力学模型的不确定性，设计了一种计算简单的强化学习方法，可赋予控制器对模型不确定性的在线学习能力。设计的强化学习控制算法采用径向基函数神经网络来实现，其中Actor神经网络用于生成控制策略，Critic神经网络用于评估执行成本。考虑到控制力矩的输入饱和现象，设计了一种非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应，并且为了使轨迹跟踪误差在固定时间内收敛到原点小邻域内，设计了一种新的非奇异快速终端滑模控制器，保证跟踪误差的收敛时间不依赖于初始误差大小，并给出了收敛时间上界的估计。

附图说明

图1为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法流程图；

图2为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节位置的跟踪性能示意图；

图3为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节位置的跟踪误差示意图；

图4为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节速度的跟踪性能示意图；

图5为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节速度的跟踪误差示意图；

图6为本发明提供的控制器输入力矩示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

第一实施例

首先，需要说明的是，人工神经网络具有仅利用先验的输入-输出信息来映射输入输出关系的能力，由于神经网络具有良好的函数逼近能力，因此被广泛用于不确定非线性系统的控制设计。

基于径向基函数神经网络(RBFNN)的方法在一定条件下对非线性函数进行任意精度的逼近是可行的。如果没有或只有相对有限的系统动力学知识，它能够有效地构建一个控制器实现任务控制。工程中有结合滑模控制、动态表面控制、阻抗控制、模糊逻辑控制等智能控制方法的大量实例。

强化学习与监督学习不同，它是一种从环境中获取训练信息的学习方法，是一种评价信号而不是误差信号。Actor-Critic提供了一个经典的强化学习框架，Actor神经网络生成策略用于产生执行器的输入，Critic神经网络用于评估执行成本，以确定情况是好于预期还是差于预期，并定义一个值用来衡量。然后，Actor神经网络根据Critic神经网络的评价修改其控制策略。通过这些步骤，代价函数将收敛到全局最优。

基于上述，请参阅图1至图6，本实施例提供一种机械臂输入饱和固定时间轨迹跟踪控制方法，所述机械臂输入饱和固定时间轨迹跟踪控制方法包括：

S101，获取机械臂的期望轨迹，并通过机械臂传感器获取机械臂的状态数据；其中，状态数据包括机械臂关节的位置和机械臂关节的速度；

S102，根据获取的状态数据，基于机械臂的动力学模型，采用强化学习控制算法抑制机械臂的模型不确定性；

需要说明的是，本实施例基于机械臂的动力学模型，采用径向基函数神经网络进行最优权值的估计，设计Actor神经网络生成强化学习控制策略；设计Critic神经网络用于评估执行成本，并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。由于强化学习神经网络具有很好的学习系统不确定性的能力，因此可对系统不确定性保持良好的逼近能力。

S103，设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应；以克服控制输入饱和问题；

S104，设计非奇异快速终端滑模控制器，使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域，实现对机械臂输入饱和固定时间轨迹跟踪控制。

本实施例定义跟踪误差并建立机械臂轨迹跟踪误差动力学模型，接着定义滑模变量并建立滑模变量的动力学，然后采用滑模变量设计固定时间控制器。

其中，机械臂的动力学模型建立如下：

式中，

以及

表示广义机械臂关节位置坐标、速度以及加速度；

表示离心科氏力项，

表示重力项，

表示未知且有界的外部干扰，

表示关节控制输入力矩；

动力学模型公式(1)可以写成：

式中，

是由外部扰动和参数不确定性组成的机械系统的复合扰动；

分别定义x₁(t)＝q(t)、

将式(2)可以改写为：

考虑到关节力矩饱和问题，控制输入力矩τ(t)可以表示为：

式中，τ_H>τ_L是已知的控制输入受限值，则控制输入可以重新表示为：

τ(t)＝τ₀(t)+τ_Δ(t) (5)

式中，τ₀(t)表示名义上设计的部分，未知部分τ_Δ(t)可以表示如下：

且假设

是一个未知常量。

定义系统的跟踪误差：

将式(2)代入到式(7)中得到误差系统如下：

A、非奇异快速终端滑模控制器和非线性抗饱和补偿器设计如下：

为了保证e₁和e₂在与初始状态无关的固定时间T_s内收敛到原点小邻域，采用了一种新的非奇异固定时间快速滑动模态变量：

式中

为对角矩阵，

i＝1，2，…，n表示为：

式中，α>0，β>0，k>1，v₁>1，p，g是正的标量，且满足gk>1，1/v₁<pk<1；

s的时间导数是：

式中，

是对角矩阵，

i＝1，2，…，n表示如下：

如果所有的动力学已知，那么τ_eq可以设计为：

式中，v₄>1，v₂v4<1，v₃v₄>1，σ₁，σ₂为两个正常数，K_s＝diag{k_s1,k_s2,…,k_sn}是对角正定矩阵，其中，k_si>0,i＝1,2,…,n，ζ是抗饱和补偿器的状态，l是复合干扰。

非线性抗饱和补偿器的更新率可以设计为：

式中，ζ是抗饱和补偿器的系统状态，

为处理模型中的复合干扰，在Lyapunov稳定性理论框架下，基于径向基神经网络分别设计一个用于评估成本的评价网络(Critic)和一个用于生成强化学习控制输入的执行网络(Actor)。具体如下：

B、执行网络(Actor)的设计如下：

在实际应用中，复合扰动l是未知的，这里采用了执行神经网络来估计未知信息。因此，控制器设计为：

式中，f_NN是RBFNN的输出向量，用于近似复合干扰l，表示为：

式中，w_ai＝[w_ai1,w_ai2,…,w_aim]^T为权值向量，

为RBFNN的输入向量，σ_ai(z_ai)为高斯函数；

瞬时近似误差可以表示为：

式中，

然后将该误差设计为：

式中，I_d(t)＝0，表示期望的理想成本，k_I表示正常数；

将人工神经网络的权值更新律设计为；

式中，E_a＝ln(cosh e_a)，δ_a>0为执行神经网络的学习率；

应用参数投影算法，设计一个常数向量

使其满足

(i＝1，2，…,m)；

将基于投影的神经网络权值更新律设计为：

式中，

C、评价(Critic)神经网络的设计如下：

定义Critic神经网络为

且估计值为

其中，

为最优权重向量，

代价函数表示为：

式中，

ψ是可调常数，常数ψ→∞时，代价函数可以近似为：

式中，

表示e₁的梯度；

根据梯度下降法，评价(Critic)神经网络的权值更新律可以设计为：

式中，

将(21)代入到(23)中得到：

式中，

常数δ_c>0代表评价神经网络的学习率；

使其满足

(i＝1，2，…,l)，基于投影的评价神经网络权值更新律设计为：

式中，

D、稳定性分析

为了证明参数

的有界性，候选李雅普诺夫参数如下：

根据基于投影算法的权值更新律，有两种情况需要考虑：

情况一：若

则：

情况二：若

则：

只要

是满足的，那么权值更新律总可以保证

与评价神经网络相似，执行神经网络的候选李雅普诺夫函数如下：

使用相同的分析方法，权值更新律总可以保证

i＝1,2,…,n。

选择一个候选的李雅普诺夫函数如下：

将(8)和(15)代入(11)，则闭环系统可以表示为：

式中，

是RBFNN的估计值与最优值之间的估计误差，即

式中，ε_i,(i＝1，2,…,n)表示近似误差。

将(31)和(14)代入，则V(t)的导数为：

根据杨氏不等式，有：

式中，

类似地有

将(34)和(35)代入到(33)中得：

选择合适的参数确保

且(K_s-K_M-K_ε)≥0，则可以得到：

将(19)和(24)代入(37)可得：

式中，

引理1存在y_i∈R,i＝1,2,…,n,0<r₁≤1,r₂>1，满足以下条件：

根据引理1，式(39)可以化简为：

式中，

σ₅＝min{σ₁，σ₃,1}，σ₆＝min{σ₂,σ₄,1}

引理2考虑以下非线性系统：

x(0)＝x₀，f(0)＝0，

假设存在一个正定的标量函数V(x):

满足：

式中，α,β,p,q,k是正的参数，且pk<1,qk>1。则系统可以在固定时间T内收敛到原点邻域Ω内，其中：

且收敛时间T为T≤1/(α^kθ^k(1-pk))+1/(β^kθ^k(qk-1))，0<θ<1 (45)

根据引理2可知，本实施例设计的控制器可以使系统误差在固定时间收敛到原点小邻域内。

计算机数值仿真中采用了双连杆刚性机械臂验证所提出控制器的有效性，系统结构框图如图1所示。定义x₁＝[x₁₁,x₁₂]^T作为机械臂的关节角度，然后给出两连杆机器人数学模型中的相关矩阵：

式中

p₃＝m₂l₁l_c2,p₄＝m₁l_c2+m₂l₁,p₅＝m₂l_c2；m_i和l_i分别是连杆i的质量和长度，m₁＝2.00(kg),m₂＝0.85(kg)，l₁＝0.35(m),l₂＝0.31(m)；I_i是连杆i的转动惯量，

l_ci是第i个连杆的质心；g＝9.8(m/s²)。

机器人的初始位置和速度为：

x₁₁(0)＝x₁₂(0)＝1.5(rad)，x₂₁(0)＝x₂₂(0)＝0(rad/s)

设置的期望轨迹为：

x_d＝[0.1sin(0.5t)+cos(0.5t)，0.1cos(t)+cos(t)]^T

式中，t∈[0,t_m]，t_m＝10(s)

扰动转矩为：

d(t)＝[0.1sin(0.5t)+0.25cos(0.5t),0.25sin(0.5t)+0.1sin(0.5t)]^T

饱和受限参数设置为：

τ_H＝5，τ_L＝-5。

控制器参数设置为：α＝0.7，β＝1，p＝0.5，

v₁＝2，

v₄＝2，K_s＝1000，K_ζ＝1，k_I＝1，δ_a＝0.0005，δ_c＝0.001。

本实施例的机械臂输入饱和固定时间轨迹跟踪控制方法的仿真结果如图2-6所示，其中图2和图3表明两连杆刚性机械臂关节角位置可以高精度快速稳定地跟踪上期望关节角轨迹；图4和图5表明关节角速度也可以高精度快速稳定地跟踪上期望关节角速度；图6表明所提出的控制信号保持有界且始终满足执行器饱和受限要求。仿真结果表明所提出的控制方法是可行有效的。

综上，本实施例提供了一种轨迹跟踪控制方法，考虑到机械臂动力学模型的不确定性，设计了一种计算简单的强化学习方法，能够赋予控制器对模型不确定性的在线学习能力。设计的强化学习控制算法采用径向基函数神经网络来实现，其中Actor神经网络用于生成控制策略，Critic神经网络用于评估执行成本。考虑到控制力矩的输入饱和现象，设计了一种非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应，并且为了使轨迹跟踪误差在固定时间内收敛到原点小邻域内，设计了一种新的非奇异快速终端滑模控制器，保证跟踪误差的收敛时间不依赖于初始误差大小，并给出了收敛时间上界的估计。

第二实施例

本实施例提供一种机械臂输入饱和固定时间轨迹跟踪控制系统，其包括：

本实施例的机械臂输入饱和固定时间轨迹跟踪控制系统与第一实施例的机械臂输入饱和固定时间轨迹跟踪控制方法相对应；其中，该机械臂输入饱和固定时间轨迹跟踪控制系统中的各功能模块所实现的功能与上述机械臂输入饱和固定时间轨迹跟踪控制方法中的各流程步骤相对应；故，在此，不再赘述。

此外，需要说明的是，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需说明的是，以上所述是本发明的优选实施方式，应当指出，尽管已描述了本发明的优选实施例，但对于本领域普通技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。