CN111618864B - 基于自适应神经网络的机器人模型预测控制方法 - Google Patents

基于自适应神经网络的机器人模型预测控制方法 Download PDF

Info

Publication number
CN111618864B
CN111618864B CN202010698815.7A CN202010698815A CN111618864B CN 111618864 B CN111618864 B CN 111618864B CN 202010698815 A CN202010698815 A CN 202010698815A CN 111618864 B CN111618864 B CN 111618864B
Authority
CN
China
Prior art keywords
network
tracking error
prediction
action
control rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010698815.7A
Other languages
English (en)
Other versions
CN111618864A (zh
Inventor
康二龙
高洁
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010698815.7A priority Critical patent/CN111618864B/zh
Publication of CN111618864A publication Critical patent/CN111618864A/zh
Application granted granted Critical
Publication of CN111618864B publication Critical patent/CN111618864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis

Abstract

本发明属于智能机器人控制、时变非线性系统控制领域,具体涉及一种基于自适应神经网络的机器人模型预测控制方法、系统、装置,旨在解决存在模型不确定性以及输入约束的情况下,机械臂的最优跟踪控制问题。本系统方法包括:计算跟踪误差;通过动作网络获取预测控制率,并更新动作‑评价网络的权重值;判断i是否大于设定的预测时长,若是,则判断动作‑执行网络权重变化是否满足阈值或迭代次数大于最大迭代次数,若是,则通过动作网络计算机械臂tk‑tk+1时刻的实际控制率,作用于机械臂,否则通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并循环获取预测控制率;循环生成实际控制率,直至机械臂到达设定的目标位置。本发明提高了机器人模型预测控制的性能。

Description

基于自适应神经网络的机器人模型预测控制方法
技术领域
本发明属于智能机器人控制、时变非线性系统控制领域,具体涉及一种基于自适应神经网络的机器人模型预测控制方法、系统、装置。
背景技术
模型预测控制是一种有效的最优控制策略。机器人的模型预测控制是机器人应用领域的一个复杂问题,一方面由于机器人结构的高耦合性和复杂性,导致实际机器人系统动态存在大量的不确定性,如严格的非线性、未知的环境、未知的系统参数等;另一方面由于机器人的系统特性,对模型预测控制求解的实时性提出较高要求。
针对系统动态存在不确定性的问题,传统解决方法主要包括:(1)对于已知或部分已知的系统动态,将其表达为带有扰动的标称系统,利用标称系统动态构造预测模型,通过鲁棒模型预测控制、Tube-模型预测控制、最大-最小模型预测控制或者扰动观测器等方法补偿扰动。然而此类方法需要明确已知的标称系统动态,对系统动态完全未知的机器人系统来说难度较大;(2)利用神经网络、模糊网络等方法构造预测模型。然而多数此类模型都需要进行离线训练或者预训练,不适合在线解决机器人系统不确定性带来的控制难题;(3)结合自适应神经网络与模型预测控制的方法。然而现有此类方法未针对机器人系统,不适合时变、耦合的,实时性要求高的机器人动态系统。因此设计合适的预测模型,在线补偿机器人系统动态的不确定性,需要新的技术方法。
针对模型预测控制的实时性求解问题,传统解决方法主要包括:(1)直接利用现有的优化计算工具求解;(2)针对非线性系统,建立线性化模型,通过线性优化算法,如线性二次调节器(LQR)和线性矩阵不等式(LMI)等求解;(3)利用智能算法,如遗传算法,粒子群算法等求解;(4)利用神经网络,通过神经动力学优化的方式求解;(5)利用基于自适应动态规划的方法求解。但基于在线估计的预测模型求解优化问题的方法,并在最优控制性能和系统稳定性间取得平衡,仍然值得深入研究。因此,设计新的机器人模型预测控制方法,对于提高系统不确定性的在线估计性能,提高实时控制能力,实现最优控制性能与系统稳定性的平衡具有重要意义。
发明内容
为了解决现有技术中的上述问题,即为了解决现有针对机器人系统的模型预测控制方法无法在线拟合不确定性并有效求解优化问题,实现最优性与稳定性的平衡,导致机器人控制性能较差的问题,本发明第一方面,提出了一种基于自适应神经网络的机器人模型预测控制方法,该方法包括:
步骤S10,获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数;
步骤S20,对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值;
步骤S30,判断i是否大于设定的预测时长,若是,则执行步骤S40,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转步骤S20;
步骤S40,判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR大于设定的最大迭代次数,若是,则执行步骤S50,否则令nR=nR+1,i=0,跳转步骤S20;所述权重变化为更新后的权重值与更新前的权重值的差;
步骤S50,基于更新的权重值,结合tk时刻的跟踪误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂;
步骤S60,令k=k+1,循环执行步骤S10-步骤S50,直至机械臂到达设定的目标位置;
所述预测模型、所述动作-评价网络基于径向基神经网络构建。
在一些优选的实施方式中,所述预测模型为基于机械臂的跟踪误差的动态特性构建的模型,该模型其获取跟踪误差的方法为:
Figure BDA0002592247580000031
Figure BDA0002592247580000032
其中,
Figure BDA0002592247580000033
表示tk时刻的一阶跟踪误差、二阶跟踪误差,
Figure BDA0002592247580000034
Figure BDA0002592247580000035
表示tk时刻的一阶跟踪误差动态、二阶跟踪误差动态,
Figure BDA0002592247580000036
表示预测模型的激活函数,qd表示期望轨迹,L表示正整数,
Figure BDA0002592247580000037
表示预测模型的权重值,
Figure BDA0002592247580000038
表示tk时刻的跟踪误差的估计偏差,τ表示预测控制率,z+表示增广误差,
Figure BDA0002592247580000039
表示tk时刻的左侧逼近,K1表示预设的虚拟变量参数。
在一些优选的实施方式中,所述动作网络其获取控制率的方法为:
Figure BDA00025922475800000310
Figure BDA00025922475800000311
Figure BDA00025922475800000312
其中,
Figure BDA00025922475800000313
表示当前时刻的控制率,t表示时间段,
Figure BDA00025922475800000314
表示哈密尔顿函数,
Figure BDA00025922475800000315
表示跟踪误差,
Figure BDA00025922475800000316
表示哈密尔顿函数中控制率的参数项,
Figure BDA0002592247580000041
表示动作网络的权重值,
Figure BDA0002592247580000042
表示动作网络的激活函数,λ表示输入约束上限值,R表示损失函数参数,
Figure BDA0002592247580000043
表示预测模型参数,(·)T表示转置。
在一些优选的实施方式中,所述动作网络其权重值更新方法为:
Figure BDA0002592247580000044
其中,
Figure BDA0002592247580000045
表示动作网络的更新变化率,αa>0表示动作网络预设的学习率,
Figure BDA0002592247580000046
Ξ2(·)定义为一种运算,分别对每个(·)中的元素求平方,sech表示双曲正割函数,ka、kp表示动作网络预设的学习参数,
Figure BDA0002592247580000047
表示评价网络的权重值。
在一些优选的实施方式中,所述评价网络其计算最优损失的方法为:
Figure BDA0002592247580000048
其中,
Figure BDA0002592247580000049
表示评价网络的权重值,
Figure BDA00025922475800000410
表示评价网络获取的最优损失值。
在一些优选的实施方式中,所述评价网络其权重值的更新方法为:
Figure BDA00025922475800000411
其中,αc>0表示评价网络预设的学习率,ks>0,kp>0表示评价网络预设的学习参数,
Figure BDA00025922475800000412
表示评价网络的权重更新率,
Figure BDA00025922475800000413
Figure BDA00025922475800000414
表示估计哈密尔顿函数的误差,
Figure BDA00025922475800000415
Figure BDA00025922475800000416
本发明的第二方面,提出了一种基于自适应神经网络的机器人模型预测控制系统,该系统包括位置获取模块、预测控制率获取模块、跟踪误差预测模块、内循环模块、实际控制率获取模块、外循环模块;
所述位置获取模块,配置为获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数;
所述预测控制率获取模块,配置为对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值;
所述跟踪误差预测模块,配置为判断i是否大于设定的预测时长,若是,则执行内循环模块,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转预测控制率获取模块;
所述内循环模块,配置为判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR大于设定的最大迭代次数,若是,则执行步骤实际控制率获取模块,否则令nR=nR+1,i=0,跳转预测控制率获取模块;
所述实际控制率获取模块,配置为基于更新的权重值,结合tk时刻的跟踪误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂;
所述外循环模块,配置为令k=k+1,循环执行位置获取模块-实际控制率获取模块,直至机械臂到达设定的目标位置;
所述预测模型、所述动作-评价网络基于径向基神经网络构建。
本发明的有益效果:
本发明提高了机器人模型预测控制的性能。本发明在模型预测控制框架下设计了两组基于径向基神经网络的自适应神经网络,即跟踪误差预测的预测模型、动作-评价网络,其中第一组用于在线学习和补偿模型的不确定性,第二组用于有效的求解模型预测控制所包含的优化问题,得出所需的控制率,通过在线学习率的设置,在最优跟踪性能和闭环系统稳定性间取得平衡。
同时,通过构建关于实际跟踪误差、预测跟踪误差、预测偏差以及神经网络权值偏差的李亚普诺夫函数,通过李亚普诺夫稳定性定理,结合数学归纳法,得到满足闭环系统渐进稳定的参数条件,保证了闭环系统稳定性。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于自适应神经网络的机器人模型预测控制方法的流程示意图;
图2是本发明一种实施例的基于自适应神经网络的机器人模型预测控制系统的框架示意图;
图3是本发明一种实施例的基于自适应神经网络的机器人模型预测控制方法的控制框图;
图4是本发明一种实施例的最优控制序列求解的算法流程图;
图5是本发明一种实施例的基于自适应神经网络的机械臂模型预测控制算法流程图;
图6是本发明一种实施例的PD控制的跟踪效果图;
图7是本发明一种实施例的PD控制的输入力矩图;
图8是本发明一种实施例的基于自适应神经网络的模型预测控制的跟踪效果图;
图9是本发明一种实施例的基于自适应神经网络的模型预测控制的输入力矩图;
图10是本发明一种实施例约束模型预测控制跟踪效果图;
图11是本发明一种实施例约束模型预测控制的输入力矩图;
图12是本发明一种实施例的三种控制策略下机械臂关节角1的跟踪误差对比图;
图13是本发明一种实施例的三种控制策略下机械臂关节角2的跟踪误差对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于自适应神经网络的机器人模型预测控制方法,如图1所示,包括以下步骤:
步骤S10,获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数;
步骤S20,对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值;
步骤S30,判断i是否大于设定的预测时长,若是,则执行步骤S40,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转步骤S20;
步骤S40,判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR大于设定的最大迭代次数,若是,则执行步骤S50,否则令nR=nR+1,i=0,跳转步骤S20;所述权重变化为更新后的权重值与更新前的权重值的差;
步骤S50,基于更新的权重值,结合tk时刻的跟踪误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂;
步骤S60,令k=k+1,循环执行步骤S10-步骤S50,直至机械臂到达设定的目标位置;
所述预测模型、所述动作-评价网络基于径向基神经网络构建。
为了更清晰地对本发明基于自适应神经网络的机器人模型预测控制方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
下文优选实施例中,先对预测模型、动作-评价网络的构建进行详述,再对基于自适应神经网络的机器人模型预测控制方法获取实际控制率控制机械臂进行详述。
1、预测模型、动作-评价网络的构建
步骤A100,建立机械臂系统的动力学模型
在本实施例中,具有n个自由度的机械臂系统的动力学模型如公式(1)所示:
Figure BDA0002592247580000081
其中,
Figure BDA0002592247580000091
分别表示机械臂关节角位置、速度和加速度,
Figure BDA0002592247580000092
表示对称正定的惯性矩阵,
Figure BDA0002592247580000093
Figure BDA0002592247580000094
分别表示关节空间的科氏力以及重力矩阵,
Figure BDA0002592247580000095
表示输入控制力矩。一般来说,机器人系统存在输入约束。在本文中,输入约束表达如式(2)所示:
i(t)|≤λ,i=1,2,...,n (2)
其中,λ表示输入约束阈值,t表示时间,i表示输入维数,为自然数。
控制器设计目标是在满足输入约束(2)的情况下,设计合适的控制率,使得机器人关节角位置q能够以最优形式跟踪期望轨迹qd(t)=[qd1(t),qd2(t),...,qdn(t)]T,qdn(t)表示期望轨迹第n维度的分量,T表示预设的预测时长(或时域)。
步骤A200,根据跟踪误差,构建跟踪误差动态特性数学模型;
在本实施例中,跟踪误差包括一阶跟踪误差、二阶跟踪误差。根据一阶误差可以计算出二阶跟踪误差以及虚拟变量。为达到上述的控制器的目标,定义一阶、二阶跟踪误差及虚拟变量如公式(3)(4)(5):
z1=qd-q (3)
Figure BDA0002592247580000096
Figure BDA0002592247580000097
其中,z1表示一阶跟踪误差,z2表示二阶跟踪误差,α1表示虚拟变量,
Figure BDA0002592247580000098
表示一阶跟踪误差的动态特性,K1表示预设的虚拟变量参数。
根据上述公式,机械臂的跟踪动态误差动态特性如公式(6)(7)所示:
Figure BDA0002592247580000099
Figure BDA00025922475800000910
其中,
Figure BDA00025922475800000911
表示跟踪误差,
Figure BDA00025922475800000912
表示增广跟踪误差,
Figure BDA00025922475800000913
g(z1,qd)=-M-1(q)。
假设τ是满足输入约束的可行输入,跟踪误差系统动态即公式(6)(7)可由神经网络(径向基神经网络)表示,如公式(8)(9)所示:
Figure BDA0002592247580000101
Figure BDA0002592247580000102
其中,
Figure BDA0002592247580000103
ξf、ξg表示神经网络估计偏差,ξm=ξfgτ表示总体神经网络估计误差,
Figure BDA0002592247580000104
Figure BDA0002592247580000105
表示神经网络(径向基神经网络)激活函数。在本发明中,激活函数优选为高斯函数。
假设1:最优神经网络权重值
Figure BDA0002592247580000106
Figure BDA0002592247580000107
激活函数
Figure BDA0002592247580000108
Figure BDA0002592247580000109
以及估计误差ξm在满足输入约束条件下均有界,即存在wf0>0,wg0>0,
Figure BDA00025922475800001010
ξm0>0,满足
Figure BDA00025922475800001011
Figure BDA00025922475800001012
||ξm||≤ξm0,其中参数中的0下标表示参数的上界值。
步骤A300,建立机器人系统跟踪误差动态特性的预测模型,并建立神经网络权重值自适应更新率;
在本实施例中,定义{tk},k=0,1,.....为模型预测控制的求解时间序列,其中t0=0,tk+1-tk=Δt,结合tk时刻实际误差与预测误差的估计偏差,构建机器人系统跟踪误差动态特性的预测模型,如公式(10)(11):
Figure BDA00025922475800001013
Figure BDA00025922475800001014
其中,L表示正整数,
Figure BDA00025922475800001015
表示tk时刻的跟踪误差的估计偏差,
Figure BDA00025922475800001016
表示的一阶跟踪误差动态、二阶跟踪误差动态,即跟踪误差的动态分量,
Figure BDA00025922475800001017
Figure BDA00025922475800001018
分别是
Figure BDA00025922475800001019
Figure BDA00025922475800001020
的近似值。
定义
Figure BDA0002592247580000111
在tk时刻根据实际跟踪误差z(tk),更新预测误差值
Figure BDA0002592247580000112
如公式(12)所示:
Figure BDA0002592247580000113
在tk+1时刻更新神经网络权重值
Figure BDA0002592247580000114
Figure BDA0002592247580000115
其更新率设计为:
Figure BDA0002592247580000116
Figure BDA0002592247580000117
其中,αf>0,αg>0表示学习速率,kf>0,kg>0用于提高神经网络(预测模型)学习的鲁棒性,
Figure BDA0002592247580000118
(·)l=(·)(tl),Δtl=tl+1-tl,tN=tk+1
由假设1,易得在输入满足约束的条件下,Θfk和Θgk均有界,即存在θf0>0,θg0>0,满足||Θfk||≤θf0,||Θgk||≤θg0
Figure BDA0002592247580000119
神经网络权重值
Figure BDA00025922475800001110
Figure BDA00025922475800001111
保持为常数,并且预测跟踪误差满足:
Figure BDA00025922475800001112
步骤A400,基于机器人系统跟踪误差动态特性的预测模型,构建基于神经网络的动作-评价网络及其自适应更新率;
在本实施例中,动作-评价网络基于径向基神经网络构建。
基于预测模型,对于时间s∈[tk,tk+T),T为预设的预测时长(或时域),模型预测控制构造如式(16)所示:
Figure BDA00025922475800001113
Figure BDA00025922475800001114
其中,
Figure BDA0002592247580000121
Figure BDA0002592247580000122
分别表示以预测误差
Figure BDA0002592247580000123
和输入
Figure BDA0002592247580000124
为自变量的正定函数,
Figure BDA0002592247580000125
表示终端惩罚。
根据最优控制理论,t∈[tk,tk+T),模型预测控制损失函数
Figure BDA0002592247580000126
定义为:
Figure BDA0002592247580000127
其中,
Figure BDA0002592247580000128
Q1
Figure BDA0002592247580000129
代表正定对称矩阵,
Figure BDA00025922475800001210
β(·)=tanh(·),R=diag(r1,...,rn),v表示积分变量,r1......rn表示对角矩阵R对角线元素值,
Figure BDA00025922475800001211
定义为如上积分函数形式,以确保求解得到控制率满足输入约束。
Figure BDA00025922475800001212
表示终端惩罚,可被视为从tk+T时刻到无穷时域的最优损失函数估计。假定损失函数是光滑函数。则最优损失函数可用神经网络表达如公式(18)所示:
Figure BDA00025922475800001213
其中,ξc是神经网络估计误差,
Figure BDA00025922475800001214
表示神经网络(径向基神经网络)激活函数,在本文中选择高斯函数作为激活函数。定义终端惩罚为
Figure BDA00025922475800001215
则最优损失函数的梯度表示为:
Figure BDA00025922475800001216
假设2:动作-评价网络的最优权重值W*,激活函数
Figure BDA00025922475800001217
及其梯度
Figure BDA00025922475800001218
估计误差ξc及其梯度▽1ξc,▽2ξc均有界,即存在wc0>0,
Figure BDA00025922475800001219
ξc0>0,ξd1c0>0,ξd2c0>0,满足||W*||≤wc0,
Figure BDA00025922475800001220
||ξc||≤ξc0,||▽1ξc||≤ξd1c0,||▽2ξc||≤ξd2c0
根据最优控制理论,哈密尔顿函数可表达如公式(20)所示:
Figure BDA00025922475800001221
其中,
Figure BDA00025922475800001222
表示哈密尔顿函数中控制率的参数项。
Figure BDA0002592247580000131
最优控制策略可根据式(21)(22)计算:
Figure BDA0002592247580000132
Figure BDA0002592247580000133
将公式(21)代入
Figure BDA0002592247580000134
可得公式(23):
Figure BDA0002592247580000135
其中,
Figure BDA0002592247580000136
Ξ2(·)定义为一种运算,分别对每个(·)中的元素求平方。
将(21)(23)代入到(20)中,得到的最优哈密尔顿函数:
Figure BDA0002592247580000137
其中,
Figure BDA0002592247580000138
Figure BDA0002592247580000139
为了保持最优的跟踪性能及预测系统的稳定性,同时充分利用预测模型的先验知识,设计了激活函数相同但是权重不同的动作-评价网络,分别用来近似最优控制策略(21)以及损失函数(18)。评价网络定义为:
Figure BDA00025922475800001310
其中,
Figure BDA00025922475800001311
表示损失函数中W*的近似,终端惩罚表示为
Figure BDA00025922475800001312
动作网络定义为:
Figure BDA00025922475800001313
基于动作网络,最优控制率可近似表示为:
Figure BDA00025922475800001314
其中,
Figure BDA0002592247580000141
Figure BDA0002592247580000142
为控制率中W*的近似。动作-评价网络的估计误差可定义为
Figure BDA0002592247580000143
将(25)(26)代入(20),可得估计哈密尔顿函数以及估计哈密尔顿函数误差分别如公式(27)(28)所示:
Figure BDA0002592247580000144
Figure BDA0002592247580000145
其中,
Figure BDA0002592247580000146
公式(28)中的非线性项
Figure BDA0002592247580000147
可通过泰勒展开,变换为线性项加高阶项误差的形式,如式(29)所示:
Figure BDA0002592247580000148
其中,
Figure BDA0002592247580000149
向量A以及误差项εo均有界,即存在Amax>0,εo0>0,使得||A||≤Amax,||εo||≤εo0
Figure BDA00025922475800001414
将公式(29)代入公式(28)中可得:
Figure BDA00025922475800001411
为了使结果收敛到最优或次优解,同时保持预测系统的稳定性,设计评价网络更新率
Figure BDA00025922475800001412
为:
Figure BDA00025922475800001413
其中,
Figure BDA0002592247580000151
αc>0表示评价网络预设的学习率,ks>0,kp>0表示评价网络预设的学习参数。归一化信号
Figure BDA0002592247580000152
有界,即存在wmax∈(0,1),满足
Figure BDA0002592247580000153
公式(31)中第一项用于使哈密尔顿函数估计误差
Figure BDA0002592247580000154
收敛到零,其他项用于保证预测系统的稳定性。
设计动作网络权重值
Figure BDA0002592247580000155
的自适应更新率
Figure BDA0002592247580000156
为:
Figure BDA0002592247580000157
其中,
Figure BDA0002592247580000158
αa>0为动作网络权重值预设的学习率,ka>0为动作网络权重值预设的学习参数。
步骤A500,基于构建的动作-评价网络,通过迭代计算的方法计算[tk,tk+T)时间内的最优控制序列,并将[tk,tk+1)时间段内的控制序列值作用于实际机械臂系统。
在本实施例中,求取[tk,tk+T)时间内的最优控制序列如图4和图5所示,其中,图4为基于动作-评价网络,计算[tk,tk+T)时间内控制序列的算法流程图,图5为机械臂模型预测控制算法流程图。具体如下:
步骤A501,先初始化预测模型的权重值(即网络初值)、学习率、学习参数、预测的时域(即预测时长)、求解时间间隔、机器人(或机械臂)的期望轨迹等;初始化动作-评价网络的权重值(即网络初值)、学习率、学习参数、权重收敛阈值、最大迭代次数等;获得机械臂初始位置,设置算法开始时间,q1(0)、q2(0)表示机械臂的初始位置,t0表示算法开始时间为0。
步骤A502,当前时刻为tk时刻时,计算当前时刻实际跟踪误差,并用其初始化tk时刻预测误差。基于预测跟踪误差,通过动作网络计算(tk,tk+1)时刻的控制率,作为预测控制率;计算哈密尔顿函数估计值,更新动作-评价网络的权重值;将预测控制率作用于预测模型,获取tk+1时刻的预测跟踪误差,通过动作网络计算(tk+1,tk+2)时刻的控制率,作为预测控制率,并循环直至达到预测的时长tk+T;否则执行步骤A504。
步骤A503,判断动作-评价网络权重更新量,即图4中的v(图4中
Figure BDA0002592247580000161
表示更新前的权重值)是否满足小于等于收敛阈值,若是,则执行步骤A504,否则循环执行步骤A502直到循环次数达到最大迭代次数NR,然后执行步骤A504。
步骤A504,基于实际跟踪误差,通过更新后的动作网络计算(tk,tk+1)时刻的控制率,作用于机械臂系统。获取tk+1时刻机械臂的实际位置(关节角)以及角速度,计算实际跟踪误差;当前时刻为tk+1时刻时,根据实际跟踪误差和预测跟踪误差的偏差,更新预测模型的权重值(具体可参考上文中的预测模型的更新步骤)。
步骤A505,循环步骤A502-步骤A504,直至机械臂到达设定的目标位置。
基于步骤A100-步骤A500,构建本发明基于自适应神经网络的机器人模型预测控制方法的控制框图,如图3所示,s表示微分计算,For表示循环;基于神经网络的预测模型即根据公式(10)(11)构建预测模型;基于神经网络的模型预测控制算法即通过迭代计算的方法计算[tk,tk+T)时间内的最优控制序列;机器人系统即为公式(1)所示的动态系统。
其中,图3中基于神经网络的预测模型用于预测跟踪误差求解,如步骤A502所述,其输入为期望位置qd,期望速度
Figure BDA0002592247580000162
tk时刻跟踪误差z1k、z2k及预测控制率
Figure BDA0002592247580000163
输出为预测跟踪误差
Figure BDA0002592247580000164
预测模型神经网络权值
Figure BDA0002592247580000165
基于神经网络的模型预测控制算法如步骤A501-A503所述。其输入为基于神经网络的预测模型输出,输出为[tk,tk+T)时间内的预测控制率。机器人系统其输入为(tk,tk+1)时刻的实际控制率,输出为机器人实际位置q、实际速度
Figure BDA0002592247580000171
并反馈到实际跟踪误差求解进行循环,如步骤A505所述
步骤A600,模型预测控制器的性能及分析
关于系统稳定性的判别,本发明通过构建关于实际跟踪误差、预测跟踪误差、预测偏差以及神经网络权重值偏差的李亚普诺夫函数,根据李雅普诺夫稳定性定理,结合数学归纳法,得到满足系统渐进稳定的参数条件。
首先考虑预测偏差以及预测系统网络权重值偏差的收敛性。在输入满足约束的情况下,在tk时根据公式(13)(14)以及(12)分别更新预测模型神经网络的权重以及预测跟踪误差,则预测偏差
Figure BDA0002592247580000172
和神经网络的权重估计误差
Figure BDA0002592247580000173
保持一致最终有界,如果如下条件可以满足:
K1-1>0
1-L2Δt>0
Figure BDA0002592247580000174
Figure BDA0002592247580000175
Figure BDA0002592247580000176
下面对上述描述展开证明:
构造离散李雅普诺夫函数,如公式(33)所示:
Figure BDA0002592247580000177
离散李雅普诺夫函数其一阶差分可表达为:
ΔVmk=ΔVmz+ΔVmf+ΔVmg (34)
Figure BDA0002592247580000178
Figure BDA0002592247580000179
Figure BDA0002592247580000181
根据积分第一中值定理,以及积分近似求解方法,
Figure BDA0002592247580000182
可转化为:
Figure BDA0002592247580000183
其中,Θfk,Θgk定义如步骤A300所述,
Figure BDA0002592247580000184
为有界量,即存在
Figure BDA00025922475800001810
满足
Figure BDA0002592247580000185
将(36)(38)代入(35)中,可得:
Figure BDA0002592247580000186
代入预测模型神经网络权重值更新率,可将公式(34)中第二项、第三项表达成:
Figure BDA0002592247580000187
Figure BDA0002592247580000188
将上述第二项、第三项代入(34)中,可得:
Figure BDA0002592247580000189
其中,
Figure BDA0002592247580000191
κ1=1-L2Δt,
Figure BDA0002592247580000192
Figure BDA0002592247580000193
κ=min(κ12fκ2gκ3)。条件κ1>0,κ2>0,κ3>0,κ4>0满足,因此状态估计误差
Figure BDA0002592247580000194
和神经网络权重误差
Figure BDA0002592247580000195
将保持一致最终有界。
进一步我们可以得出状态估计误差
Figure BDA0002592247580000196
渐进收敛到紧凑集,
Figure BDA0002592247580000197
其中
Figure BDA0002592247580000198
接下来证明预测跟踪误差
Figure BDA0002592247580000199
以及动作-评价网络权重值误差
Figure BDA00025922475800001921
Figure BDA00025922475800001922
在t∈[tk,tk+T)时满足一致最终有界。首先考虑如下条件成立:
预测系统(6)(7)在最优控制策略(21)下渐进稳定。定义李雅普诺夫函数
Figure BDA00025922475800001911
则存在正数Π12满足:
Figure BDA00025922475800001912
在本发明提出的动作-评价求解网络得出的控制策略下,在时间段t∈[tk,tk+T)内机器人系统预测跟踪误差
Figure BDA00025922475800001913
以及动作-评价网络权重值误差
Figure BDA00025922475800001914
满足一致最终有界,如果如下条件满足:
Figure BDA00025922475800001915
Figure BDA00025922475800001916
Figure BDA00025922475800001917
Figure BDA00025922475800001918
δ>0
其中,
Figure BDA00025922475800001919
分别表示矩阵Q1、Q2、Mw最小特征值,其中
Figure BDA00025922475800001920
下面展开证明:
定义李雅普诺夫函数为:
Figure BDA0002592247580000201
对李雅普诺夫函数进行求导,可得:
Figure BDA0002592247580000202
公式(41)第一项可以表达为:
Figure BDA0002592247580000203
(42)中非线性项
Figure BDA0002592247580000204
可通过泰勒展开:
Figure BDA0002592247580000205
其中,
Figure BDA0002592247580000206
Figure BDA0002592247580000207
表示高阶项。由前述分析可知,
Figure BDA0002592247580000208
(表示跟踪误差动态预测模型的输入增益)和
Figure BDA0002592247580000209
(表示泰勒展开高阶项)均有界,即存在
Figure BDA00025922475800002010
o10>0,满足
Figure BDA00025922475800002011
因此公式(42)可表达为:
Figure BDA00025922475800002012
其中,
Figure BDA00025922475800002013
公式(41)中第二项可表达为:
Figure BDA00025922475800002014
其中,
Figure BDA0002592247580000211
Figure BDA0002592247580000212
是半正定对称矩阵。泰勒展开同样被应用于式(44)。
考虑到动作-评价网络中评价网络权重值更新率(31),则公式(41)中第三项可以表达为:
Figure BDA0002592247580000213
Figure BDA0002592247580000214
其中,
Figure BDA0002592247580000215
表示有界半正定对称矩阵。
Figure BDA0002592247580000216
其中,
Figure BDA0002592247580000217
根据前述预测偏差以及预测系统网络权重值偏差的收敛性证明,可知参数
Figure BDA0002592247580000218
有界,即存在
Figure BDA0002592247580000219
满足
Figure BDA00025922475800002110
Figure BDA00025922475800002111
综上,公式(41)中第三项可表达为:
Figure BDA00025922475800002112
其中
Figure BDA00025922475800002113
考虑到动作-评价网络中动作网络权重值更新率(32),则公式(41)中第四项可以表达为:
Figure BDA0002592247580000221
其中,
Figure BDA0002592247580000222
因此,公式(41)可表达为:
Figure BDA0002592247580000223
其中,
Figure BDA0002592247580000224
Figure BDA0002592247580000225
Figure BDA0002592247580000226
由前述条件可得,参数满足
Figure BDA0002592247580000227
δ>0,
Figure BDA0002592247580000228
Figure BDA0002592247580000229
因此对于t∈[tk,tk+T),预测跟踪误差
Figure BDA00025922475800002210
和动作-评价网络权重误差
Figure BDA00025922475800002211
保持一致最终有界。
值得注意的是,对于t∈[tk,tk+T),本发明提出的动作-评价求解网络迭代地求解模型预测控制问题。每一次迭代的预测误差初始值(从实际系统获取),
Figure BDA00025922475800002212
的更新率和
Figure BDA00025922475800002213
的计算方式保持不变,神经网络权重值
Figure BDA00025922475800002214
Figure BDA00025922475800002215
的初始值从上一次迭代过程获得。因此在每一次迭代过程中公式(46)均成立。故本文提出的模型预测控制求解算法可以保持预测跟踪误差
Figure BDA00025922475800002216
和神经网络权重误差
Figure BDA00025922475800002217
一致最终有界,同时使控制率
Figure BDA00025922475800002218
以及神经网络权重
Figure BDA00025922475800002219
稳定地收敛至次优值。
最后对整体闭环系统的稳定性进行说明。首先对于t∈[tk,tk+1),定义
Figure BDA00025922475800002220
然后定义闭环系统增广状态量
Figure BDA00025922475800002221
ψ中包含系统所有的连续和离散变量。则对于具有输入约束(2)的机器人系统(1),根据本发明给出的基于自适应神经网络的模型预测跟踪控制策略,系统增广状态ψ保持最终一致有界,即机器人跟踪误差z、预测跟踪误差
Figure BDA0002592247580000231
状态估计误差
Figure BDA0002592247580000232
及神经网络权重误差
Figure BDA0002592247580000233
保持最终一致有界,如果满足前述所有条件。
下面对上述描述进行证明:
定义李雅普诺夫函数为:
Figure BDA0002592247580000234
其中,
Figure BDA0002592247580000235
根据前述说明,可得估计偏差
Figure BDA0002592247580000236
以及预测模型神经网络权重误差
Figure BDA0002592247580000237
保持一致最终有界,Vmk(t)满足
Figure BDA0002592247580000238
对于预测跟踪误差
Figure BDA00025922475800002323
以及动作-评价网络权重误差
Figure BDA0002592247580000239
通过数学归纳法证明其在整个控制周期保持最终一致有界。
首先,对于k=0,t∈(t0,t1),式(47)两边同乘
Figure BDA00025922475800002310
并积分:
Figure BDA00025922475800002311
在t1时刻,预测跟踪误差
Figure BDA00025922475800002312
通过
Figure BDA00025922475800002313
进行修订。为求解
Figure BDA00025922475800002314
假设如下条件成立:函数
Figure BDA00025922475800002315
是利普西斯连续性映射,满足
Figure BDA00025922475800002316
考虑到
Figure BDA00025922475800002317
可得:
Figure BDA00025922475800002318
根据前述说明,可得
Figure BDA00025922475800002319
Figure BDA00025922475800002320
有界,即存在σΔ>0,σz>0,满足
Figure BDA00025922475800002321
则(50)可表达为:
Figure BDA00025922475800002322
其中,
Figure BDA0002592247580000241
其次,对于k=1,t∈(t1,t2),与第一步类似,可得:
Figure BDA0002592247580000242
Figure BDA0002592247580000243
假设对于t∈(tk,tk+1),k=1,2...,有如下条件成立:
Figure BDA0002592247580000244
Figure BDA0002592247580000245
则对于t∈(tk+1,tk+2),可以求得:
Figure BDA0002592247580000246
Figure BDA0002592247580000247
考虑到
Figure BDA0002592247580000248
则对于任意t>0,下式成立:
Figure BDA0002592247580000249
根据公式(58),可以得到
Figure BDA00025922475800002410
满足
Figure BDA00025922475800002411
其中
Figure BDA00025922475800002412
考虑机器人实际跟踪误差z,对于
Figure BDA00025922475800002413
可得:
Figure BDA00025922475800002414
其中,
Figure BDA0002592247580000251
值得注意的是,
Figure BDA0002592247580000252
Figure BDA0002592247580000253
有相同的收敛性。因此易得
Figure BDA0002592247580000254
根据以上分析,可以得出
Figure BDA0002592247580000255
整体系统的稳定性得证。
控制器性能分析:
为了验证所设计的模型预测控制器的性能及有效性,本发明基于MATLAB软件完成了二自由度机械臂的系统仿真验证,仿真过程说明如下:
首先考虑公式(1)所述的机械臂动力学系统,其参数矩阵M(q)、
Figure BDA0002592247580000256
G(q)分别定义为:
Figure BDA0002592247580000257
Figure BDA0002592247580000258
Figure BDA0002592247580000259
其中,
Figure BDA00025922475800002510
p3=m2l1lc2,p4=m1lc2+m2l1,p5=m2lc2。参数取值为:转动惯量I1=61.25×10-3kgm2;连杆2质量m2=0.85kg,转动惯量I2=20.42×10- 3kgm2,连杆1质量m1=2.0kg,长度l1=0.35m,质心位置lc1=0.175m,长度l2=0.31m,质心位置lc2=0.155m。
机器人系统输入约束表达为|τi(t)|≤12,i=1,2。期望轨迹表示为
Figure BDA00025922475800002511
(3)式中虚拟变量参数取值为K1=3。系统初始状态值表示为
Figure BDA00025922475800002512
为更好的说明本发明方法的有效性,将本方法与PD控制器、约束模型预测控制器进行对比。
PD控制方法:控制器设计为τPD=Kz2。考虑误差z2定义,控制器可表达为
Figure BDA0002592247580000261
控制增益设置为K=3。PD控制下跟踪效果及输入力矩(单位为Nm)分别见附图6和7。由图可得在所采用的控制增益下,机械臂关节角(单位为弧度rad)在不同的仿真时间(单位为秒sec)下存在明显的跟踪误差,特别是关节角1的跟踪误差。
基于自适应神经网络的模型预测控制方法:在本发明所提出的基于自适应神经网络的模型预测控制方法中,利用两组神经网络分别进行系统不确定性的在线估计和优化问题的有效求解。在预测模型中,分别采用含有64个和36个隐含层节点的神经网络拟合
Figure BDA0002592247580000262
Figure BDA0002592247580000263
其激活函数
Figure BDA0002592247580000264
Figure BDA0002592247580000265
的中心点分别设置为:[-2,2]×[-1,1]×[-1.6,1.6]×[-1.6,1.6]、[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1.6,1.6]×[-1.6,1.6]×[0]×[0]×[0]×[0],方差设置为25。考虑到g(z1,qd)为负定对称矩阵,故其拟合神经网络可设置为
Figure BDA0002592247580000266
模型预测控制求解间隔设置为Δt=0.01,预测模型参数L设置为L=0.45。
在动作-评价求解网络中,模型预测控制损失函数参数选择为:Q2=diag(1,1),
Figure BDA0002592247580000267
Q1=diag(100,100)。预测时域选择为T=0.02s。采用含有81个隐含层节点的神经网络作为动作-评价网络,其激活函数
Figure BDA0002592247580000268
中心点设置为[-2,0,2]×[-1,0,1]×[-1,0,1]×[-1,0,1],方差设置为25。在本发明设计的控制策略下跟踪效果及输入力矩分别见附图8和9。由图可得本发明控制策略控制效果更优,同时可以满足输入约束。
约束模型预测控制方法:为说明本发明方法的有效性,约束模型预测控制损失函数参数Q1,Q2,R选择与前述相同参数。终端惩罚项
Figure BDA0002592247580000269
选择为二次型
Figure BDA00025922475800002610
其中Q=diag(Q1,Q2)。考虑到模型不确定性,在构建预测模型时认为连杆质量存在0.005kg误差,连杆长度存在0.0005m误差。优化问题采用Gurobi求解器求解。
约束模型预测控制策略下跟踪效果及输入力矩分别见附图10和11。三种控制策略下的跟踪误差对比见图12、13。从图像分析,可得由于模型不确定性影响,约束模型预测控制策略下机械臂关节角存在较明显的跟踪误差。由于连杆2质量小于连杆1质量,相同量级的质量误差对关节角2的跟踪效果影响更大。而在本发明控制策略下,机械臂能较快并且稳定地跟踪上期望轨迹,同时能保证输入力矩满足输入约束。
2、基于自适应神经网络的机器人模型预测控制方法
步骤S10,获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数。
在本实施例中,先计算机械臂的跟踪误差,如上述步骤A502。
步骤S20,对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值。
在本实施例中,基于上一时刻的动作网络的权重值,结合当前时刻的跟踪误差,通过动作网络计算当前时刻至下一时刻的控制率,并更新动作网络的权重值。在本发明中,为了进一步提高控制率的准确性,一般第一次获取的控制率不直接应用于机械臂,如上述步骤A502。
步骤S30,判断i是否大于设定的预测时长,若是,则执行步骤S40,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转步骤S20;
在本实施例中,循环预测设定的预测时长T内的控制率,并更新动作网络的权重值。
步骤S40,判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR大于设定的最大迭代次数,若是,则执行步骤S50,否则令nR=nR+1,i=0,跳转步骤S20;所述权重变化为更新后的权重值与更新前的权重值的差。
步骤S40,判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR大于设定的最大迭代次数,若是,则执行步骤S50,否则令nR=nR+1,i=0,跳转步骤S20;所述权重变化为更新后的权重值与更新前的权重值的差。
在本实施例中,迭代求解最优控制率,如上述步骤A503;
步骤S50,基于更新的权重值,结合tk时刻的位置误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂。
在本实施例中,基于更新后的动作网络,获取其更新的权重值,结合tk时刻的跟踪误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂。如上述步骤A504。
步骤S60,令k=k+1,循环执行步骤S10-步骤S50,直至机械臂到达设定的目标位置。
在本实施例中,循环获取机器臂从起始位置至目标位置的实际控制率,并作用于机械臂,直至到达设定的目标位置。
本发明第二实施例的一种基于自适应神经网络的机器人模型预测控制系统,如图2所示,包括:位置获取模块100、预测控制率获取模块200、跟踪误差预测模块300、内循环模块400、实际控制率获取模块500、外循环模块600;
所述位置获取模块100,配置为获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数;
所述预测控制率获取模块200,配置为对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值;
所述跟踪误差预测模块300,配置为判断i是否大于设定的预测时长,若是,则执行内循环模块,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转预测控制率获取模块200;
所述内循环模块400,配置为判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR大于设定的最大迭代次数,若是,则执行步骤实际控制率获取模块500,否则令nR=nR+1,i=0,跳转预测控制率获取模块200;
所述实际控制率获取模块500,配置为基于更新的权重值,结合tk时刻的跟踪误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂;
所述外循环模块600,配置为令k=k+1,循环执行位置获取模块-实际控制率获取模块,直至机械臂到达设定的目标位置;所述预测模型、所述动作-评价网络基于径向基神经网络构建。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于自适应神经网络的机器人模型预测控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或步骤再分解或组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于自适应神经网络的机器人模型预测控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于自适应神经网络的机器人模型预测控制方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于自适应神经网络的机器人模型预测控制方法,其特征在于,该方法包括:
步骤S10,获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数;
步骤S20,对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值;
步骤S30,判断i是否大于设定的预测时长,若是,则执行步骤S40,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转步骤S20;
步骤S40,判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR是否 大于设定的最大迭代次数,若是,则执行步骤S50,否则令nR=nR+1,i=0,跳转步骤S20;所述权重变化为更新后的权重值与更新前的权重值的差;
步骤S50,基于更新的权重值,结合tk时刻的位置误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂;
步骤S60,令k=k+1,循环执行步骤S10-步骤S50,直至机械臂到达设定的目标位置;
所述预测模型、所述动作-评价网络基于径向基神经网络构建。
2.根据权利要求1所述的基于自适应神经网络的机器人模型预测控制方法,其特征在于,所述预测模型为基于机械臂的跟踪误差的动态特性构建的模型,该模型其获取跟踪误差的方法为:
Figure FDA0002592247570000011
Figure FDA0002592247570000021
其中,
Figure FDA0002592247570000022
表示tk时刻的一阶跟踪误差、二阶跟踪误差,
Figure FDA0002592247570000023
表示tk+1时刻的一阶跟踪误差动态、二阶跟踪误差动态,
Figure FDA0002592247570000024
Figure FDA0002592247570000025
Figure FDA0002592247570000026
表示预测模型的激活函数,qd表示期望轨迹,L表示正整数,
Figure FDA0002592247570000027
表示预测模型的权重值,
Figure FDA0002592247570000028
表示tk时刻的跟踪误差的估计偏差,τ表示预测控制率,z+表示增广误差,
Figure FDA0002592247570000029
表示tk时刻的左侧逼近,K1表示预设的虚拟变量参数。
3.根据权利要求2所述的基于自适应神经网络的机器人模型预测控制方法,其特征在于,所述动作网络其获取控制率的方法为:
Figure FDA00025922475700000210
Figure FDA00025922475700000211
Figure FDA00025922475700000212
其中,
Figure FDA00025922475700000213
表示当前时刻的控制率,t表示时间段,
Figure FDA00025922475700000214
表示哈密尔顿函数,
Figure FDA00025922475700000215
表示跟踪误差,
Figure FDA00025922475700000216
表示哈密尔顿函数中控制率的参数项,
Figure FDA00025922475700000217
表示动作网络的权重值,
Figure FDA00025922475700000218
表示动作网络的激活函数,λ表示输入约束上限值,R表示损失函数参数,
Figure FDA00025922475700000219
表示预测模型参数,(·)T表示转置。
4.根据权利要求3所述的基于自适应神经网络的机器人模型预测控制方法,其特征在于,所述动作网络其权重值更新方法为:
Figure FDA00025922475700000220
其中,
Figure FDA00025922475700000221
表示动作网络的更新变化率,αa>0表示动作网络预设的学习率,
Figure FDA00025922475700000222
Ξ2(·)定义为一种运算,分别对每个(·)中的元素求平方,sech表示双曲正割函数,ka、kp表示动作网络预设的学习参数,
Figure FDA0002592247570000031
表示评价网络的权重值。
5.根据权利要求4所述的基于自适应神经网络的机器人模型预测控制方法,其特征在于,所述评价网络其计算最优损失的方法为:
Figure FDA0002592247570000032
其中,
Figure FDA0002592247570000033
表示评价网络的权重值,
Figure FDA0002592247570000034
表示评价网络获取的最优损失值。
6.根据权利要求5所述的基于自适应神经网络的机器人模型预测控制方法,其特征在于,所述评价网络其权重值的更新方法为:
Figure FDA0002592247570000035
其中,αc>0表示评价网络预设的学习率,ks>0,kp>0表示评价网络预设的学习参数,
Figure FDA0002592247570000036
表示评价网络的权重更新率,
Figure FDA0002592247570000037
Figure FDA0002592247570000038
表示估计哈密尔顿函数的误差,
Figure FDA0002592247570000039
7.一种基于自适应神经网络的机器人模型预测控制系统,其特征在于,该系统包括:位置获取模块、预测控制率获取模块、跟踪误差预测模块、内循环模块、实际控制率获取模块、外循环模块;
所述位置获取模块,配置为获取机械臂tk时刻的实际位置、实际速度以及期望位置、期望速度,计算跟踪误差;并初始化i为0、nR为1;其中,i、nR为自然数;
所述预测控制率获取模块,配置为对预构建的动作-评价网络中的动作网络,基于tk+i时刻的跟踪误差,结合其tk+i-1时刻的权重值,通过其获取tk+i-tk+i+1时刻的控制率,作为预测控制率,并更新动作-评价网络的权重值;
所述跟踪误差预测模块,配置为判断i是否大于设定的预测时长,若是,则执行内循环模块,否则基于所述预测控制率,结合tk+i时刻的跟踪误差,通过预构建的预测模型获取tk+i+1时刻的跟踪误差,并令i=i+1,跳转预测控制率获取模块;
所述内循环模块,配置为判断动作网络、评价网络权重变化的和是否小于等于设定阈值或者nR是否 大于设定的最大迭代次数,若是,则执行步骤实际控制率获取模块,否则令nR=nR+1,i=0,跳转预测控制率获取模块;
所述实际控制率获取模块,配置为基于更新的权重值,结合tk时刻的跟踪误差,通过所述动作网络计算机械臂tk-tk+1时刻的实际控制率,作用于机械臂;
所述外循环模块,配置为令k=k+1,循环执行位置获取模块-实际控制率获取模块,直至机械臂到达设定的目标位置;
所述预测模型、所述动作-评价网络基于径向基神经网络构建。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-6任一项所述的基于自适应神经网络的机器人模型预测控制方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于自适应神经网络的机器人模型预测控制方法。
CN202010698815.7A 2020-07-20 2020-07-20 基于自适应神经网络的机器人模型预测控制方法 Active CN111618864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010698815.7A CN111618864B (zh) 2020-07-20 2020-07-20 基于自适应神经网络的机器人模型预测控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010698815.7A CN111618864B (zh) 2020-07-20 2020-07-20 基于自适应神经网络的机器人模型预测控制方法

Publications (2)

Publication Number Publication Date
CN111618864A CN111618864A (zh) 2020-09-04
CN111618864B true CN111618864B (zh) 2021-04-23

Family

ID=72256808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010698815.7A Active CN111618864B (zh) 2020-07-20 2020-07-20 基于自适应神经网络的机器人模型预测控制方法

Country Status (1)

Country Link
CN (1) CN111618864B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327938B (zh) * 2020-10-13 2021-11-02 华中科技大学 一种基于数据驱动的机器人近零跟随误差控制方法
CN112650056B (zh) * 2020-10-14 2022-04-01 中国海洋大学 海洋平台的减振控制律确定方法、装置、设备及存储介质
CN112455460B (zh) * 2020-12-07 2022-05-03 安徽江淮汽车集团股份有限公司 车辆控制方法、装置、设备及存储介质
CN112775976B (zh) * 2021-02-05 2022-05-10 深圳市优必选科技股份有限公司 任务执行控制方法、装置、控制设备及可读存储介质
CN113093548A (zh) * 2021-04-07 2021-07-09 安徽大学 基于事件触发机制的移动机器人轨迹跟踪最优控制方法
CN113103237B (zh) * 2021-04-25 2022-10-04 长春工业大学 一种面向未知环境约束的可重构机械臂控制方法及系统
CN113778117B (zh) * 2021-09-06 2023-04-07 中国科学院数学与系统科学研究院 一种针对飞机纵向最优路径规划的初值智能选取多阶段伪谱法
CN113805585B (zh) * 2021-09-07 2023-03-21 中国地质大学(武汉) 一种复杂约束下的移动机器人跟踪控制方法
CN114378812B (zh) * 2021-12-13 2023-09-05 扬州大学 一种基于离散递归神经网络模型的并联机械臂预测控制方法
CN114489010A (zh) * 2022-01-25 2022-05-13 佛山智能装备技术研究院 一种adrc扩张观测器状态观测误差实时预测方法及系统
CN114310914A (zh) * 2022-02-15 2022-04-12 南开大学 多自由度机械臂模糊自适应迭代轨迹跟踪控制方法及系统
CN115648227B (zh) * 2022-12-27 2023-03-31 珞石(北京)科技有限公司 一种机器人运动轨迹神经网络模糊控制优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107053176A (zh) * 2017-04-09 2017-08-18 北京工业大学 一种六自由度机器人末端空间曲线轨迹的误差建模方法
CN108214476A (zh) * 2017-12-28 2018-06-29 北京航空航天大学 基于改进型径向基神经网络的机械臂绝对定位精度标定方法
CN109031947A (zh) * 2018-06-19 2018-12-18 哈尔滨理工大学 基于径向基神经网络的轨迹跟踪控制及方法
CN109465825A (zh) * 2018-11-09 2019-03-15 广东工业大学 机械臂柔性关节的rbf神经网络自适应动态面控制方法
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10953548B2 (en) * 2018-07-19 2021-03-23 International Business Machines Corporation Perform peg-in-hole task with unknown tilt

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107053176A (zh) * 2017-04-09 2017-08-18 北京工业大学 一种六自由度机器人末端空间曲线轨迹的误差建模方法
CN108214476A (zh) * 2017-12-28 2018-06-29 北京航空航天大学 基于改进型径向基神经网络的机械臂绝对定位精度标定方法
CN109031947A (zh) * 2018-06-19 2018-12-18 哈尔滨理工大学 基于径向基神经网络的轨迹跟踪控制及方法
CN109465825A (zh) * 2018-11-09 2019-03-15 广东工业大学 机械臂柔性关节的rbf神经网络自适应动态面控制方法
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Also Published As

Publication number Publication date
CN111618864A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111618864B (zh) 基于自适应神经网络的机器人模型预测控制方法
Heydari et al. Finite-horizon control-constrained nonlinear optimal control using single network adaptive critics
Szollosi et al. Influence of the tensor product model representation of qLPV models on the feasibility of linear matrix inequality
Liu et al. A boundedness result for the direct heuristic dynamic programming
Xu et al. Minimal-learning-parameter technique based adaptive neural control of hypersonic flight dynamics without back-stepping
Heydari et al. Fixed-final-time optimal tracking control of input-affine nonlinear systems
CN112207834B (zh) 一种基于干扰观测器的机器人关节系统控制方法及系统
Liu et al. Dual heuristic programming for optimal control of continuous-time nonlinear systems using single echo state network
Kirkpatrick et al. Aircraft system identification using artificial neural networks
Castañeda et al. Decentralized neural identifier and control for nonlinear systems based on extended Kalman filter
CN112077839A (zh) 一种机械臂的运动控制方法及装置
Hooshmandi et al. Robust sampled‐data control of non‐linear LPV systems: time‐dependent functional approach
Rath et al. A robust model predictive path following controller for an autonomous underwater vehicle
Sakr et al. Improving the performance of networked control systems with time delay and data dropouts based on fuzzy model predictive control
Kosmatopoulos Control of unknown nonlinear systems with efficient transient performance using concurrent exploitation and exploration
Nakamura-Zimmerer et al. A causality-free neural network method for high-dimensional Hamilton-Jacobi-Bellman equations
Wang et al. Sim2sim evaluation of a novel data-efficient differentiable physics engine for tensegrity robots
Yao et al. Toward reliable designs of data-driven reinforcement learning tracking control for Euler–Lagrange systems
Hager et al. Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design
Li et al. State observer-based fuzzy echo state network sliding mode control for uncertain strict-feedback chaotic systems without backstepping
JP7357813B2 (ja) データ駆動型モデル適応を用いる制御のための装置および方法
Zhou et al. Launch vehicle adaptive flight control with incremental model based heuristic dynamic programming
Dutta et al. Nonlinear disturbance observer‐based adaptive feedback linearized model predictive controller design for a class of nonlinear systems
CN115562345A (zh) 一种基于深度强化学习的无人机侦测轨迹规划方法
Singh et al. Adaptive control for non-linear systems using artificial neural network and its application applied on inverted pendulum

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant