CN111618864B

CN111618864B - 基于自适应神经网络的机器人模型预测控制方法

Info

Publication number: CN111618864B
Application number: CN202010698815.7A
Authority: CN
Inventors: 康二龙; 高洁; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2021-04-23
Anticipated expiration: 2040-07-20
Also published as: CN111618864A

Abstract

本发明属于智能机器人控制、时变非线性系统控制领域，具体涉及一种基于自适应神经网络的机器人模型预测控制方法、系统、装置，旨在解决存在模型不确定性以及输入约束的情况下，机械臂的最优跟踪控制问题。本系统方法包括：计算跟踪误差；通过动作网络获取预测控制率，并更新动作‑评价网络的权重值；判断i是否大于设定的预测时长，若是，则判断动作‑执行网络权重变化是否满足阈值或迭代次数大于最大迭代次数，若是，则通过动作网络计算机械臂t_k‑t_k+1时刻的实际控制率，作用于机械臂，否则通过预构建的预测模型获取t_k+i+1时刻的跟踪误差，并循环获取预测控制率；循环生成实际控制率，直至机械臂到达设定的目标位置。本发明提高了机器人模型预测控制的性能。

Description

基于自适应神经网络的机器人模型预测控制方法

技术领域

本发明属于智能机器人控制、时变非线性系统控制领域，具体涉及一种基于自适应神经网络的机器人模型预测控制方法、系统、装置。

背景技术

模型预测控制是一种有效的最优控制策略。机器人的模型预测控制是机器人应用领域的一个复杂问题，一方面由于机器人结构的高耦合性和复杂性，导致实际机器人系统动态存在大量的不确定性，如严格的非线性、未知的环境、未知的系统参数等；另一方面由于机器人的系统特性，对模型预测控制求解的实时性提出较高要求。

针对系统动态存在不确定性的问题，传统解决方法主要包括：(1)对于已知或部分已知的系统动态，将其表达为带有扰动的标称系统，利用标称系统动态构造预测模型，通过鲁棒模型预测控制、Tube-模型预测控制、最大-最小模型预测控制或者扰动观测器等方法补偿扰动。然而此类方法需要明确已知的标称系统动态，对系统动态完全未知的机器人系统来说难度较大；(2)利用神经网络、模糊网络等方法构造预测模型。然而多数此类模型都需要进行离线训练或者预训练，不适合在线解决机器人系统不确定性带来的控制难题；(3)结合自适应神经网络与模型预测控制的方法。然而现有此类方法未针对机器人系统，不适合时变、耦合的，实时性要求高的机器人动态系统。因此设计合适的预测模型，在线补偿机器人系统动态的不确定性，需要新的技术方法。

针对模型预测控制的实时性求解问题，传统解决方法主要包括：(1)直接利用现有的优化计算工具求解；(2)针对非线性系统，建立线性化模型，通过线性优化算法，如线性二次调节器(LQR)和线性矩阵不等式(LMI)等求解；(3)利用智能算法，如遗传算法，粒子群算法等求解；(4)利用神经网络，通过神经动力学优化的方式求解；(5)利用基于自适应动态规划的方法求解。但基于在线估计的预测模型求解优化问题的方法，并在最优控制性能和系统稳定性间取得平衡，仍然值得深入研究。因此，设计新的机器人模型预测控制方法，对于提高系统不确定性的在线估计性能，提高实时控制能力，实现最优控制性能与系统稳定性的平衡具有重要意义。

发明内容

为了解决现有技术中的上述问题，即为了解决现有针对机器人系统的模型预测控制方法无法在线拟合不确定性并有效求解优化问题，实现最优性与稳定性的平衡，导致机器人控制性能较差的问题，本发明第一方面，提出了一种基于自适应神经网络的机器人模型预测控制方法，该方法包括：

步骤S10，获取机械臂t_k时刻的实际位置、实际速度以及期望位置、期望速度，计算跟踪误差；并初始化i为0、n_R为1；其中，i、n_R为自然数；

步骤S20，对预构建的动作-评价网络中的动作网络，基于t_k+i时刻的跟踪误差，结合其t_k+i-1时刻的权重值，通过其获取t_k+i-t_k+i+1时刻的控制率，作为预测控制率，并更新动作-评价网络的权重值；

步骤S30，判断i是否大于设定的预测时长，若是，则执行步骤S40，否则基于所述预测控制率，结合t_k+i时刻的跟踪误差，通过预构建的预测模型获取t_k+i+1时刻的跟踪误差，并令i＝i+1，跳转步骤S20；

步骤S40，判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者n_R大于设定的最大迭代次数，若是，则执行步骤S50，否则令n_R＝n_R+1，i＝0，跳转步骤S20；所述权重变化为更新后的权重值与更新前的权重值的差；

步骤S50，基于更新的权重值，结合t_k时刻的跟踪误差，通过所述动作网络计算机械臂t_k-t_k+1时刻的实际控制率，作用于机械臂；

步骤S60，令k＝k+1，循环执行步骤S10-步骤S50，直至机械臂到达设定的目标位置；

所述预测模型、所述动作-评价网络基于径向基神经网络构建。

在一些优选的实施方式中，所述预测模型为基于机械臂的跟踪误差的动态特性构建的模型，该模型其获取跟踪误差的方法为：

其中，

表示t_k时刻的一阶跟踪误差、二阶跟踪误差，

表示t_k时刻的一阶跟踪误差动态、二阶跟踪误差动态，

表示预测模型的激活函数，q_d表示期望轨迹，L表示正整数，

表示预测模型的权重值，

表示t_k时刻的跟踪误差的估计偏差，τ表示预测控制率，z⁺表示增广误差，

表示t_k时刻的左侧逼近，K₁表示预设的虚拟变量参数。

在一些优选的实施方式中，所述动作网络其获取控制率的方法为：

其中，

表示当前时刻的控制率，t表示时间段，

表示哈密尔顿函数，

表示跟踪误差，

表示哈密尔顿函数中控制率的参数项，

表示动作网络的权重值，

表示动作网络的激活函数，λ表示输入约束上限值，R表示损失函数参数，

表示预测模型参数，(·)^T表示转置。

在一些优选的实施方式中，所述动作网络其权重值更新方法为：

其中，

表示动作网络的更新变化率，α_a＞0表示动作网络预设的学习率，

Ξ²(·)定义为一种运算，分别对每个(·)中的元素求平方，sech表示双曲正割函数，k_a、k_p表示动作网络预设的学习参数，

表示评价网络的权重值。

在一些优选的实施方式中，所述评价网络其计算最优损失的方法为：

其中，

表示评价网络的权重值，

表示评价网络获取的最优损失值。

在一些优选的实施方式中，所述评价网络其权重值的更新方法为：

其中，α_c＞0表示评价网络预设的学习率，k_s＞0,k_p＞0表示评价网络预设的学习参数，

表示评价网络的权重更新率，

表示估计哈密尔顿函数的误差，

本发明的第二方面，提出了一种基于自适应神经网络的机器人模型预测控制系统，该系统包括位置获取模块、预测控制率获取模块、跟踪误差预测模块、内循环模块、实际控制率获取模块、外循环模块；

所述位置获取模块，配置为获取机械臂t_k时刻的实际位置、实际速度以及期望位置、期望速度，计算跟踪误差；并初始化i为0、n_R为1；其中，i、n_R为自然数；

所述预测控制率获取模块，配置为对预构建的动作-评价网络中的动作网络，基于t_k+i时刻的跟踪误差，结合其t_k+i-1时刻的权重值，通过其获取t_k+i-t_k+i+1时刻的控制率，作为预测控制率，并更新动作-评价网络的权重值；

所述跟踪误差预测模块，配置为判断i是否大于设定的预测时长，若是，则执行内循环模块，否则基于所述预测控制率，结合t_k+i时刻的跟踪误差，通过预构建的预测模型获取t_k+i+1时刻的跟踪误差，并令i＝i+1，跳转预测控制率获取模块；

所述内循环模块，配置为判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者n_R大于设定的最大迭代次数，若是，则执行步骤实际控制率获取模块，否则令n_R＝n_R+1，i＝0，跳转预测控制率获取模块；

所述实际控制率获取模块，配置为基于更新的权重值，结合t_k时刻的跟踪误差，通过所述动作网络计算机械臂t_k-t_k+1时刻的实际控制率，作用于机械臂；

所述外循环模块，配置为令k＝k+1，循环执行位置获取模块-实际控制率获取模块，直至机械臂到达设定的目标位置；

本发明的有益效果：

本发明提高了机器人模型预测控制的性能。本发明在模型预测控制框架下设计了两组基于径向基神经网络的自适应神经网络，即跟踪误差预测的预测模型、动作-评价网络，其中第一组用于在线学习和补偿模型的不确定性，第二组用于有效的求解模型预测控制所包含的优化问题，得出所需的控制率，通过在线学习率的设置，在最优跟踪性能和闭环系统稳定性间取得平衡。

同时，通过构建关于实际跟踪误差、预测跟踪误差、预测偏差以及神经网络权值偏差的李亚普诺夫函数，通过李亚普诺夫稳定性定理，结合数学归纳法，得到满足闭环系统渐进稳定的参数条件，保证了闭环系统稳定性。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于自适应神经网络的机器人模型预测控制方法的流程示意图；

图2是本发明一种实施例的基于自适应神经网络的机器人模型预测控制系统的框架示意图；

图3是本发明一种实施例的基于自适应神经网络的机器人模型预测控制方法的控制框图；

图4是本发明一种实施例的最优控制序列求解的算法流程图；

图5是本发明一种实施例的基于自适应神经网络的机械臂模型预测控制算法流程图；

图6是本发明一种实施例的PD控制的跟踪效果图；

图7是本发明一种实施例的PD控制的输入力矩图；

图8是本发明一种实施例的基于自适应神经网络的模型预测控制的跟踪效果图；

图9是本发明一种实施例的基于自适应神经网络的模型预测控制的输入力矩图；

图10是本发明一种实施例约束模型预测控制跟踪效果图；

图11是本发明一种实施例约束模型预测控制的输入力矩图；

图12是本发明一种实施例的三种控制策略下机械臂关节角1的跟踪误差对比图；

图13是本发明一种实施例的三种控制策略下机械臂关节角2的跟踪误差对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的基于自适应神经网络的机器人模型预测控制方法，如图1所示，包括以下步骤：

为了更清晰地对本发明基于自适应神经网络的机器人模型预测控制方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

下文优选实施例中，先对预测模型、动作-评价网络的构建进行详述，再对基于自适应神经网络的机器人模型预测控制方法获取实际控制率控制机械臂进行详述。

1、预测模型、动作-评价网络的构建

步骤A100，建立机械臂系统的动力学模型

在本实施例中，具有n个自由度的机械臂系统的动力学模型如公式(1)所示：

其中，

分别表示机械臂关节角位置、速度和加速度，

表示对称正定的惯性矩阵，

和

分别表示关节空间的科氏力以及重力矩阵，

表示输入控制力矩。一般来说，机器人系统存在输入约束。在本文中，输入约束表达如式(2)所示：

|τ_i(t)|≤λ,i＝1,2,...,n (2)

其中，λ表示输入约束阈值，t表示时间，i表示输入维数，为自然数。

控制器设计目标是在满足输入约束(2)的情况下，设计合适的控制率，使得机器人关节角位置q能够以最优形式跟踪期望轨迹q_d(t)＝[q_d1(t),q_d2(t),...,q_dn(t)]^T，q_dn(t)表示期望轨迹第n维度的分量，T表示预设的预测时长(或时域)。

步骤A200，根据跟踪误差，构建跟踪误差动态特性数学模型；

在本实施例中，跟踪误差包括一阶跟踪误差、二阶跟踪误差。根据一阶误差可以计算出二阶跟踪误差以及虚拟变量。为达到上述的控制器的目标，定义一阶、二阶跟踪误差及虚拟变量如公式(3)(4)(5):

z₁＝q_d-q (3)

其中，z₁表示一阶跟踪误差，z₂表示二阶跟踪误差，α₁表示虚拟变量，

表示一阶跟踪误差的动态特性，K₁表示预设的虚拟变量参数。

根据上述公式，机械臂的跟踪动态误差动态特性如公式(6)(7)所示：

其中，

表示跟踪误差，

表示增广跟踪误差，

g(z₁,q_d)＝-M^-1(q)。

假设τ是满足输入约束的可行输入，跟踪误差系统动态即公式(6)(7)可由神经网络(径向基神经网络)表示，如公式(8)(9)所示：

其中，

ξ_f、ξ_g表示神经网络估计偏差，ξ_m＝ξ_f+ξ_gτ表示总体神经网络估计误差，

表示神经网络(径向基神经网络)激活函数。在本发明中，激活函数优选为高斯函数。

假设1：最优神经网络权重值

和

激活函数

和

以及估计误差ξ_m在满足输入约束条件下均有界，即存在w_f0＞0,w_g0＞0,

ξ_m0＞0，满足

||ξ_m||≤ξ_m0，其中参数中的0下标表示参数的上界值。

步骤A300，建立机器人系统跟踪误差动态特性的预测模型，并建立神经网络权重值自适应更新率；

在本实施例中，定义{t_k},k＝0,1,.....为模型预测控制的求解时间序列，其中t₀＝0，t_k+1-t_k＝Δt，结合t_k时刻实际误差与预测误差的估计偏差，构建机器人系统跟踪误差动态特性的预测模型，如公式(10)(11)：

其中，L表示正整数，

表示t_k时刻的跟踪误差的估计偏差，

表示的一阶跟踪误差动态、二阶跟踪误差动态，即跟踪误差的动态分量，

和

分别是

和

的近似值。

定义

在t_k时刻根据实际跟踪误差z(t_k)，更新预测误差值

如公式(12)所示：

在t_k+1时刻更新神经网络权重值

和

其更新率设计为：

其中，α_f＞0，α_g＞0表示学习速率，k_f＞0，k_g＞0用于提高神经网络(预测模型)学习的鲁棒性，

(·)_l＝(·)(t_l)，Δt_l＝t_l+1-t_l，t_N＝t_k+1。

由假设1，易得在输入满足约束的条件下，Θ_fk和Θ_gk均有界，即存在θ_f0＞0，θ_g0＞0，满足||Θ_fk||≤θ_f0，||Θ_gk||≤θ_g0。

神经网络权重值

和

保持为常数，并且预测跟踪误差满足：

步骤A400，基于机器人系统跟踪误差动态特性的预测模型，构建基于神经网络的动作-评价网络及其自适应更新率；

在本实施例中，动作-评价网络基于径向基神经网络构建。

基于预测模型，对于时间s∈[t_k,t_k+T)，T为预设的预测时长(或时域)，模型预测控制构造如式(16)所示：

其中，

分别表示以预测误差

和输入

为自变量的正定函数，

表示终端惩罚。

根据最优控制理论，t∈[t_k,t_k+T)，模型预测控制损失函数

定义为：

其中，

Q₁和

代表正定对称矩阵，

β(·)＝tanh(·)，R＝diag(r₁,...,r_n)，v表示积分变量，r₁......r_n表示对角矩阵R对角线元素值，

定义为如上积分函数形式，以确保求解得到控制率满足输入约束。

表示终端惩罚，可被视为从t_k+T时刻到无穷时域的最优损失函数估计。假定损失函数是光滑函数。则最优损失函数可用神经网络表达如公式(18)所示：

其中，ξ_c是神经网络估计误差，

表示神经网络(径向基神经网络)激活函数，在本文中选择高斯函数作为激活函数。定义终端惩罚为

则最优损失函数的梯度表示为：

假设2：动作-评价网络的最优权重值W^*，激活函数

及其梯度

估计误差ξ_c及其梯度▽₁ξ_c,▽₂ξ_c均有界，即存在w_c0＞0,

ξ_c0＞0,ξ_d1c0＞0,ξ_d2c0＞0，满足||W^*||≤w_c0,

||ξ_c||≤ξ_c0,||▽₁ξ_c||≤ξ_d1c0,||▽₂ξ_c||≤ξ_d2c0。

根据最优控制理论，哈密尔顿函数可表达如公式(20)所示：

其中，

表示哈密尔顿函数中控制率的参数项。

则

最优控制策略可根据式(21)(22)计算：

将公式(21)代入

可得公式(23)：

其中，

Ξ²(·)定义为一种运算，分别对每个(·)中的元素求平方。

将(21)(23)代入到(20)中，得到的最优哈密尔顿函数：

其中，

为了保持最优的跟踪性能及预测系统的稳定性，同时充分利用预测模型的先验知识，设计了激活函数相同但是权重不同的动作-评价网络，分别用来近似最优控制策略(21)以及损失函数(18)。评价网络定义为：

其中，

表示损失函数中W^*的近似，终端惩罚表示为

动作网络定义为：

基于动作网络，最优控制率可近似表示为：

其中，

为控制率中W^*的近似。动作-评价网络的估计误差可定义为

将(25)(26)代入(20)，可得估计哈密尔顿函数以及估计哈密尔顿函数误差分别如公式(27)(28)所示：

其中，

公式(28)中的非线性项

可通过泰勒展开，变换为线性项加高阶项误差的形式，如式(29)所示：

其中，

向量A以及误差项ε_o均有界，即存在A_max＞0，ε_o0＞0，使得||A||≤A_max，||ε_o||≤ε_o0，

将公式(29)代入公式(28)中可得：

为了使结果收敛到最优或次优解，同时保持预测系统的稳定性，设计评价网络更新率

为：

其中，

α_c＞0表示评价网络预设的学习率，k_s＞0,k_p＞0表示评价网络预设的学习参数。归一化信号

有界，即存在w_max∈(0,1)，满足

公式(31)中第一项用于使哈密尔顿函数估计误差

收敛到零，其他项用于保证预测系统的稳定性。

设计动作网络权重值

的自适应更新率

为：

其中，

α_a＞0为动作网络权重值预设的学习率，k_a＞0为动作网络权重值预设的学习参数。

步骤A500，基于构建的动作-评价网络，通过迭代计算的方法计算[t_k,t_k+T)时间内的最优控制序列，并将[t_k,t_k+1)时间段内的控制序列值作用于实际机械臂系统。

在本实施例中，求取[t_k,t_k+T)时间内的最优控制序列如图4和图5所示，其中，图4为基于动作-评价网络，计算[t_k,t_k+T)时间内控制序列的算法流程图，图5为机械臂模型预测控制算法流程图。具体如下：

步骤A501，先初始化预测模型的权重值(即网络初值)、学习率、学习参数、预测的时域(即预测时长)、求解时间间隔、机器人(或机械臂)的期望轨迹等；初始化动作-评价网络的权重值(即网络初值)、学习率、学习参数、权重收敛阈值、最大迭代次数等；获得机械臂初始位置，设置算法开始时间，q₁(0)、q₂(0)表示机械臂的初始位置，t₀表示算法开始时间为0。

步骤A502，当前时刻为t_k时刻时，计算当前时刻实际跟踪误差，并用其初始化t_k时刻预测误差。基于预测跟踪误差，通过动作网络计算(t_k,t_k+1)时刻的控制率，作为预测控制率；计算哈密尔顿函数估计值，更新动作-评价网络的权重值；将预测控制率作用于预测模型，获取t_k+1时刻的预测跟踪误差，通过动作网络计算(t_k+1,t_k+2)时刻的控制率，作为预测控制率，并循环直至达到预测的时长t_k+T；否则执行步骤A504。

步骤A503，判断动作-评价网络权重更新量，即图4中的v(图4中

表示更新前的权重值)是否满足小于等于收敛阈值，若是，则执行步骤A504，否则循环执行步骤A502直到循环次数达到最大迭代次数N_R，然后执行步骤A504。

步骤A504，基于实际跟踪误差，通过更新后的动作网络计算(t_k,t_k+1)时刻的控制率，作用于机械臂系统。获取t_k+1时刻机械臂的实际位置(关节角)以及角速度，计算实际跟踪误差；当前时刻为t_k+1时刻时，根据实际跟踪误差和预测跟踪误差的偏差，更新预测模型的权重值(具体可参考上文中的预测模型的更新步骤)。

步骤A505，循环步骤A502-步骤A504，直至机械臂到达设定的目标位置。

基于步骤A100-步骤A500，构建本发明基于自适应神经网络的机器人模型预测控制方法的控制框图，如图3所示，s表示微分计算，For表示循环；基于神经网络的预测模型即根据公式(10)(11)构建预测模型；基于神经网络的模型预测控制算法即通过迭代计算的方法计算[t_k,t_k+T)时间内的最优控制序列；机器人系统即为公式(1)所示的动态系统。

其中，图3中基于神经网络的预测模型用于预测跟踪误差求解，如步骤A502所述，其输入为期望位置q_d，期望速度

t_k时刻跟踪误差z_1k、z_2k及预测控制率

输出为预测跟踪误差

预测模型神经网络权值

基于神经网络的模型预测控制算法如步骤A501-A503所述。其输入为基于神经网络的预测模型输出，输出为[t_k,t_k+T)时间内的预测控制率。机器人系统其输入为(t_k,t_k+1)时刻的实际控制率，输出为机器人实际位置q、实际速度

并反馈到实际跟踪误差求解进行循环，如步骤A505所述

步骤A600，模型预测控制器的性能及分析

关于系统稳定性的判别，本发明通过构建关于实际跟踪误差、预测跟踪误差、预测偏差以及神经网络权重值偏差的李亚普诺夫函数，根据李雅普诺夫稳定性定理，结合数学归纳法，得到满足系统渐进稳定的参数条件。

首先考虑预测偏差以及预测系统网络权重值偏差的收敛性。在输入满足约束的情况下，在t_k时根据公式(13)(14)以及(12)分别更新预测模型神经网络的权重以及预测跟踪误差，则预测偏差

和神经网络的权重估计误差

保持一致最终有界，如果如下条件可以满足：

K₁-1＞0

1-L²Δt＞0

下面对上述描述展开证明：

构造离散李雅普诺夫函数，如公式(33)所示：

离散李雅普诺夫函数其一阶差分可表达为：

ΔV_mk＝ΔV_mz+ΔV_mf+ΔV_mg (34)

根据积分第一中值定理，以及积分近似求解方法，

可转化为：

其中，Θ_fk，Θ_gk定义如步骤A300所述，

为有界量，即存在

满足

将(36)(38)代入(35)中，可得：

代入预测模型神经网络权重值更新率，可将公式(34)中第二项、第三项表达成：

将上述第二项、第三项代入(34)中，可得：

其中，

κ₁＝1-L²Δt，

κ＝min(κ₁,κ₂,α_fκ₂,α_gκ₃)。条件κ₁＞0，κ₂＞0，κ₃＞0，κ₄＞0满足，因此状态估计误差

和神经网络权重误差

将保持一致最终有界。

进一步我们可以得出状态估计误差

渐进收敛到紧凑集，

其中

接下来证明预测跟踪误差

以及动作-评价网络权重值误差

在t∈[t_k,t_k+T)时满足一致最终有界。首先考虑如下条件成立：

预测系统(6)(7)在最优控制策略(21)下渐进稳定。定义李雅普诺夫函数

则存在正数Π₁,Π₂满足：

在本发明提出的动作-评价求解网络得出的控制策略下，在时间段t∈[t_k,t_k+T)内机器人系统预测跟踪误差

以及动作-评价网络权重值误差

满足一致最终有界，如果如下条件满足：

δ＞0

其中，

分别表示矩阵Q₁、Q₂、M_w最小特征值，其中

下面展开证明：

定义李雅普诺夫函数为：

对李雅普诺夫函数进行求导，可得：

公式(41)第一项可以表达为：

(42)中非线性项

可通过泰勒展开：

其中，

表示高阶项。由前述分析可知，

(表示跟踪误差动态预测模型的输入增益)和

(表示泰勒展开高阶项)均有界，即存在

o₁₀＞0,满足

因此公式(42)可表达为：

其中，

公式(41)中第二项可表达为：

其中，

是半正定对称矩阵。泰勒展开同样被应用于式(44)。

考虑到动作-评价网络中评价网络权重值更新率(31)，则公式(41)中第三项可以表达为：

其中，

表示有界半正定对称矩阵。

其中，

根据前述预测偏差以及预测系统网络权重值偏差的收敛性证明，可知参数

有界，即存在

满足

综上，公式(41)中第三项可表达为：

其中

考虑到动作-评价网络中动作网络权重值更新率(32)，则公式(41)中第四项可以表达为：

其中，

因此，公式(41)可表达为：

其中，

由前述条件可得，参数满足

δ＞0，

和

因此对于t∈[t_k,t_k+T)，预测跟踪误差

和动作-评价网络权重误差

保持一致最终有界。

值得注意的是，对于t∈[t_k,t_k+T)，本发明提出的动作-评价求解网络迭代地求解模型预测控制问题。每一次迭代的预测误差初始值(从实际系统获取)，

的更新率和

的计算方式保持不变，神经网络权重值

及

的初始值从上一次迭代过程获得。因此在每一次迭代过程中公式(46)均成立。故本文提出的模型预测控制求解算法可以保持预测跟踪误差

和神经网络权重误差

一致最终有界，同时使控制率

以及神经网络权重

稳定地收敛至次优值。

最后对整体闭环系统的稳定性进行说明。首先对于t∈[t_k,t_k+1)，定义

然后定义闭环系统增广状态量

ψ中包含系统所有的连续和离散变量。则对于具有输入约束(2)的机器人系统(1)，根据本发明给出的基于自适应神经网络的模型预测跟踪控制策略，系统增广状态ψ保持最终一致有界，即机器人跟踪误差z、预测跟踪误差

状态估计误差

及神经网络权重误差

保持最终一致有界，如果满足前述所有条件。

下面对上述描述进行证明：

定义李雅普诺夫函数为：

其中，

根据前述说明，可得估计偏差

以及预测模型神经网络权重误差

保持一致最终有界，V_mk(t)满足

对于预测跟踪误差

以及动作-评价网络权重误差

通过数学归纳法证明其在整个控制周期保持最终一致有界。

首先，对于k＝0,t∈(t₀,t₁)，式(47)两边同乘

并积分：

在t₁时刻，预测跟踪误差

通过

进行修订。为求解

假设如下条件成立：函数

是利普西斯连续性映射，满足

考虑到

可得：

根据前述说明，可得

有界，即存在σ_Δ＞0，σ_z＞0，满足

则(50)可表达为：

其中，

其次，对于k＝1，t∈(t₁,t₂)，与第一步类似，可得：

假设对于t∈(t_k,t_k+1)，k＝1,2...,有如下条件成立：

则对于t∈(t_k+1,t_k+2)，可以求得：

考虑到

则对于任意t＞0，下式成立：

根据公式(58)，可以得到

满足

其中

考虑机器人实际跟踪误差z，对于

可得：

其中，

值得注意的是，

与

有相同的收敛性。因此易得

根据以上分析，可以得出

整体系统的稳定性得证。

控制器性能分析：

为了验证所设计的模型预测控制器的性能及有效性，本发明基于MATLAB软件完成了二自由度机械臂的系统仿真验证，仿真过程说明如下：

首先考虑公式(1)所述的机械臂动力学系统，其参数矩阵M(q)、

G(q)分别定义为：

其中，

p₃＝m₂l₁l_c2，p₄＝m₁l_c2+m₂l₁，p₅＝m₂l_c2。参数取值为：转动惯量I₁＝61.25×10^-3kgm²；连杆2质量m₂＝0.85kg，转动惯量I₂＝20.42×10^- ³kgm²，连杆1质量m₁＝2.0kg，长度l₁＝0.35m，质心位置l_c1＝0.175m，长度l₂＝0.31m，质心位置l_c2＝0.155m。

机器人系统输入约束表达为|τ_i(t)|≤12,i＝1,2。期望轨迹表示为

(3)式中虚拟变量参数取值为K₁＝3。系统初始状态值表示为

为更好的说明本发明方法的有效性，将本方法与PD控制器、约束模型预测控制器进行对比。

PD控制方法：控制器设计为τ_PD＝Kz₂。考虑误差z₂定义，控制器可表达为

控制增益设置为K＝3。PD控制下跟踪效果及输入力矩(单位为Nm)分别见附图6和7。由图可得在所采用的控制增益下，机械臂关节角(单位为弧度rad)在不同的仿真时间(单位为秒sec)下存在明显的跟踪误差，特别是关节角1的跟踪误差。

基于自适应神经网络的模型预测控制方法：在本发明所提出的基于自适应神经网络的模型预测控制方法中，利用两组神经网络分别进行系统不确定性的在线估计和优化问题的有效求解。在预测模型中，分别采用含有64个和36个隐含层节点的神经网络拟合

和

其激活函数

和

的中心点分别设置为：[-2,2]×[-1,1]×[-1.6,1.6]×[-1.6,1.6]、[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1.6,1.6]×[-1.6,1.6]×[0]×[0]×[0]×[0]，方差设置为25。考虑到g(z₁,q_d)为负定对称矩阵，故其拟合神经网络可设置为

模型预测控制求解间隔设置为Δt＝0.01，预测模型参数L设置为L＝0.45。

在动作-评价求解网络中，模型预测控制损失函数参数选择为：Q₂＝diag(1,1),

Q₁＝diag(100,100)。预测时域选择为T＝0.02s。采用含有81个隐含层节点的神经网络作为动作-评价网络，其激活函数

中心点设置为[-2,0,2]×[-1,0,1]×[-1,0,1]×[-1,0,1]，方差设置为25。在本发明设计的控制策略下跟踪效果及输入力矩分别见附图8和9。由图可得本发明控制策略控制效果更优，同时可以满足输入约束。

约束模型预测控制方法：为说明本发明方法的有效性，约束模型预测控制损失函数参数Q₁,Q₂,R选择与前述相同参数。终端惩罚项

选择为二次型

其中Q＝diag(Q₁,Q₂)。考虑到模型不确定性，在构建预测模型时认为连杆质量存在0.005kg误差，连杆长度存在0.0005m误差。优化问题采用Gurobi求解器求解。

约束模型预测控制策略下跟踪效果及输入力矩分别见附图10和11。三种控制策略下的跟踪误差对比见图12、13。从图像分析，可得由于模型不确定性影响，约束模型预测控制策略下机械臂关节角存在较明显的跟踪误差。由于连杆2质量小于连杆1质量，相同量级的质量误差对关节角2的跟踪效果影响更大。而在本发明控制策略下，机械臂能较快并且稳定地跟踪上期望轨迹，同时能保证输入力矩满足输入约束。

2、基于自适应神经网络的机器人模型预测控制方法

步骤S10，获取机械臂t_k时刻的实际位置、实际速度以及期望位置、期望速度，计算跟踪误差；并初始化i为0、n_R为1；其中，i、n_R为自然数。

在本实施例中，先计算机械臂的跟踪误差，如上述步骤A502。

步骤S20，对预构建的动作-评价网络中的动作网络，基于t_k+i时刻的跟踪误差，结合其t_k+i-1时刻的权重值，通过其获取t_k+i-t_k+i+1时刻的控制率，作为预测控制率，并更新动作-评价网络的权重值。

在本实施例中，基于上一时刻的动作网络的权重值，结合当前时刻的跟踪误差，通过动作网络计算当前时刻至下一时刻的控制率，并更新动作网络的权重值。在本发明中，为了进一步提高控制率的准确性，一般第一次获取的控制率不直接应用于机械臂，如上述步骤A502。

在本实施例中，循环预测设定的预测时长T内的控制率，并更新动作网络的权重值。

步骤S40，判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者n_R大于设定的最大迭代次数，若是，则执行步骤S50，否则令n_R＝n_R+1，i＝0，跳转步骤S20；所述权重变化为更新后的权重值与更新前的权重值的差。

在本实施例中，迭代求解最优控制率，如上述步骤A503；

步骤S50，基于更新的权重值，结合t_k时刻的位置误差，通过所述动作网络计算机械臂t_k-t_k+1时刻的实际控制率，作用于机械臂。

在本实施例中，基于更新后的动作网络，获取其更新的权重值，结合t_k时刻的跟踪误差，通过所述动作网络计算机械臂t_k-t_k+1时刻的实际控制率，作用于机械臂。如上述步骤A504。

步骤S60，令k＝k+1，循环执行步骤S10-步骤S50，直至机械臂到达设定的目标位置。

在本实施例中，循环获取机器臂从起始位置至目标位置的实际控制率，并作用于机械臂，直至到达设定的目标位置。

本发明第二实施例的一种基于自适应神经网络的机器人模型预测控制系统，如图2所示，包括：位置获取模块100、预测控制率获取模块200、跟踪误差预测模块300、内循环模块400、实际控制率获取模块500、外循环模块600；

所述位置获取模块100，配置为获取机械臂t_k时刻的实际位置、实际速度以及期望位置、期望速度，计算跟踪误差；并初始化i为0、n_R为1；其中，i、n_R为自然数；

所述预测控制率获取模块200，配置为对预构建的动作-评价网络中的动作网络，基于t_k+i时刻的跟踪误差，结合其t_k+i-1时刻的权重值，通过其获取t_k+i-t_k+i+1时刻的控制率，作为预测控制率，并更新动作-评价网络的权重值；

所述跟踪误差预测模块300，配置为判断i是否大于设定的预测时长，若是，则执行内循环模块，否则基于所述预测控制率，结合t_k+i时刻的跟踪误差，通过预构建的预测模型获取t_k+i+1时刻的跟踪误差，并令i＝i+1，跳转预测控制率获取模块200；

所述内循环模块400，配置为判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者n_R大于设定的最大迭代次数，若是，则执行步骤实际控制率获取模块500，否则令n_R＝n_R+1，i＝0，跳转预测控制率获取模块200；

所述实际控制率获取模块500，配置为基于更新的权重值，结合t_k时刻的跟踪误差，通过所述动作网络计算机械臂t_k-t_k+1时刻的实际控制率，作用于机械臂；

所述外循环模块600，配置为令k＝k+1，循环执行位置获取模块-实际控制率获取模块，直至机械臂到达设定的目标位置；所述预测模型、所述动作-评价网络基于径向基神经网络构建。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于自适应神经网络的机器人模型预测控制系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或步骤再分解或组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于自适应神经网络的机器人模型预测控制方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于自适应神经网络的机器人模型预测控制方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。