CN114367980A

CN114367980A - 基于确定学习的封闭机器人速度补偿跟踪控制方法、存储介质及机器人

Info

Publication number: CN114367980A
Application number: CN202111562537.3A
Authority: CN
Inventors: 王敏; 林梓欣; 曾宇鹏; 戴诗陆
Original assignee: Foshan Newhinken Intelligent Technology Co ltd; South China University of Technology SCUT
Current assignee: Foshan Newhinken Intelligent Technology Co ltd; South China University of Technology SCUT
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-19
Anticipated expiration: 2041-12-20
Also published as: CN114367980B

Abstract

本发明公开了一种基于确定学习的封闭机器人速度补偿跟踪控制方法、存储介质及机器人，该控制方法具体步骤包括：建立具有内部速度PI控制器的封闭机器人动力学模型和期望的关节周期轨迹；设计自适应神经网络速度补偿控制指令，并利用确定学习理论获取经验知识；基于所获经验知识设计常值神经网络速度补偿控制指令。本发明所设计方法不仅实现了神经网络控制智能算法在具有未知动态封闭机器人系统上的应用，而且基于确定学习理论设计的常值神经网络速度补偿控制指令，使得机器人能够从复杂工作任务中获取和利用经验知识，并在执行重复任务时节省在线计算资源和提升暂态跟踪性能。

Description

基于确定学习的封闭机器人速度补偿跟踪控制方法、存储介质及机器人

技术领域

本发明涉及机器人的智能跟踪控制的技术领域，具体涉及一种基于确定学习的封闭机器人速度补偿跟踪控制方法、存储介质及机器人。

背景技术

机器人作为一种涉及机械、控制等众多领域的高精技术产品，对工业生产起到了巨大的推动作用，常用于抓取、搬运等机械式的工作任务中，但是当前市面上的大多数工业机器人为封闭系统，出于使用安全、商业隐私等原因，不给予开放力矩控制接口，用户一般只能对关节(执行器)位置和速度进行设置，而传统工业机器人的内部控制以速度PI控制或位置PID控制为主要形式。机器人控制系统由于非线性环节、环境动态变化、零部件老化等因素的存在，导致工业机器人的精确建模较为困难，给机械臂的控制器和控制参数设计带来了挑战，为了克服建模不确定性问题和提高控制精度，现阶段通常运用自适应神经网络控制算法对机器人进行动力学控制，然而由于工业机器人的封闭性，自适应神经网络控制算法的实验与应用困难，这也导致多数算法实验以数值仿真为主，存在一定的局限性，算法控制性能说服力不足。此外，在传统的自适应神经网络控制中，无论任务是否相同或相似，每次控制都需要重复进行自适应训练，浪费大量在线调节时间和计算资源，并且存在自适应控制初期暂态效果较差的问题。21世纪来，确定学习理论的提出和发展解决了上述传统自适应神经网络控制中存在的问题，实现了在非线性系统的自适应控制过程中对未知动态经验知识的获取、存储和再利用，避免了在相同或相似控制任务下神经网络的无意义重复训练，同时提高了暂态阶段的控制性能。

因此，结合外环速度补偿思想和确定学习理论，设计适用于封闭机器人的速度补偿控制指令，促使封闭机器人可以在稳定的控制过程中获取、存储动态信息知识，对具有封闭结构的工业机器人的高性能控制问题以及确定学习理论的应用实验多样化具有重要意义。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于确定学习的封闭机器人速度补偿跟踪控制方法、存储介质及机器人，该方法针对自适应神经网络控制算法无法在封闭机器人系统中应用的问题，该方法利用外环速度补偿思想，在封闭机器人内部速度控制器为PI控制器的前提下，结合李雅普诺夫稳定性理论进行自适应神经网络速度补偿控制指令和神经网络权值估计值更新率的设计；针对传统自适应神经网络控制中存在的执行相同或相似的控制任务时神经网络权值仍需重复训练的问题，该方法利用确定学习理论，将收敛后的神经网络权值作为对未知动态学习后获得的经验知识进行保存，当机器人再次执行相同或相似任务时，可以直接调用经验知识实现再利用。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种基于确定学习的封闭机器人速度补偿跟踪控制方法，包括下述步骤：

S1、建立具有内部速度PI控制器的封闭机器人动力学模型和期望的关节周期轨迹；

S2、结合李雅普诺夫稳定性理论设计自适应神经网络速度补偿控制指令，并利用确定学习理论将收敛后的神经网络权值估计值

保存为常值权值

即获取经验知识：

设计自适应神经网络速度补偿控制指令：

其中，α₁为封闭机器人系统虚拟控制器，

为输入封闭机器人系统的速度补偿控制指令，

为封闭机器人的期望关节速度轨迹，

为神经网络权值估计值，S(Z)＝[s₁(||Z-θ₁||),…,s_N(||Z-θ_N)||]^T为神经网络高斯型径向基函数,s_j(||Z-θ_j||)＝exp(-||Z-θ_j||²/η_j ²)，j＝1,…,N，θ_j为中心点，η_j为宽度，N为神经网络布点数，

为神经网络的输入，x₁为封闭机器人的关节角位置向量，x₂为封闭机器人的关节角速度向量，q_c为补偿后的位置补偿控制指令，可通过对

积分得到，

为虚拟控制器α₁的导数，c₁为α₁中设计的正常数控制增益，c₂为

中设计的正常数控制增益,z₁,z₂为控制器设计过程中的中间误差变量；

构造神经网络权值估计值

的更新率为：

其中，Γ为神经网络权值估计值更新率的增益项，σ为神经网络权值估计值更新率的设计常数；

S3、利用常值权值

设计常值神经网络速度补偿控制指令：

优选的，步骤S1中，所述PI控制器具体为：

其中，K_p为比例系数，K_i为积分系数，均为对角正定矩阵且未知。

优选的，步骤S1中，所述封闭机器人动力学模型，具体为：

将其化为状态空间表达式：

其中，M(x₁)为封闭机器人的未知惯性矩阵，该矩阵对称且一致正定，

为封闭机器人的未知科氏力和离心力矩阵，G(x₁)为封闭机器人的未知重力向量，u为封闭机器人内部速度PI控制器，K为封闭机器人系统内部的控制增益，是一个未知常值对角正定矩阵。

优选的，步骤S1中，所述关节周期轨迹，具体为：

其中，x_d1为封闭机器人期望的关节角位置周期轨迹，x_d2为封闭机器人期望的关节角速度周期轨迹，f(x_d1,x_d2)为给定的连续函数。

优选的，步骤S2中，利用确定学习理论将收敛后的神经网络权值估计值

保存为常值权值

具体为：

其中，t_b＞t_a＞T，代表权值收敛后的一段时间，T为收敛时间。

优选的，步骤S2中，所述控制器设计过程中的中间误差变量z₁,z₂为：

z₁＝x₁-x_d1

z₂＝x₂-α₁

本发明另一方面提供了一种基于确定学习的封闭机器人速度补偿跟踪控制系统，应用于所述的基于确定学习的封闭机器人速度补偿跟踪控制方法，包括模型构建模块、经验知识获取模块和补偿模块；

所述模型构建模块，用于建立具有内部速度PI控制器的封闭机器人动力学模型和期望的关节周期轨迹；

所述经验知识获取模块，用于结合李雅普诺夫稳定性理论设计自适应神经网络速度补偿控制指令，并利用确定学习理论将收敛后的神经网络权值估计值

保存为常值权值

即获取经验知识：

设计自适应神经网络速度补偿控制指令：

其中，α₁为封闭机器人系统虚拟控制器，

为输入封闭机器人系统的速度补偿控制指令，

为封闭机器人的期望关节速度轨迹，

积分得到，

构造神经网络权值估计值

的更新率为：

其中，Γ为神经网络权值估计更新率的增益项，σ为神经网络权值估计值更新率的设计常数；

所述补偿模块，用于利用常值权值

设计常值神经网络速度补偿控制指令：

本发明由一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于确定学习的封闭机器人速度补偿跟踪控制方法。

本发明再一方面提供了一种机器人，所述机器人包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于确定学习的封闭机器人速度补偿跟踪控制方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明利用外环速度补偿思想，在机器人内部速度控制器为未知参数PI控制器以及机器人动力学参数未知的前提下，实现了封闭机器人的自适应神经网络控制；

2、本发明利用确定学习理论，实现了封闭机器人在自适应神经网络控制过程中对机器人系统内部未知动态的学习，并且通过存储收敛后神经网络权值的方式实现对经验知识的再利用，避免了执行相同或相似任务时，神经网络权值的重复训练问题；

3、本发明利用确定学习理论将学习后得到的常值神经网络权值代替原有神经网络权值估计值，在自适应神经网络速度补偿控制指令的基础上构建了常值神经网络速度补偿控制指令，除去了权值更新环节，在降低计算时间和硬件消耗的同时提升了暂态跟踪性能，可更好实现神经网络控制算法在封闭机器人上的应用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于确定学习的封闭机器人速度补偿跟踪控制系统的流程图。

图2为本发明实施例V-rep平台UR5机器人控制关节示意图。

图3为本发明实施例自适应控制阶段机器人关节的轨迹跟踪图。

图4为本发明实施例自适应控制阶段机器人关节的轨迹跟踪误差图。

图5为本发明实施例自适应控制阶段机器人控制系统神经网络权值范数收敛图。

图6为本发明实施例自适应控制阶段机器人关节的速度补偿指令输入变化曲线图。

图7为本发明实施例学习控制阶段机器人关节的轨迹跟踪图。

图8为本发明实施例学习控制阶段机器人关节的轨迹跟踪误差图。

图9是本发明实施例基于确定学习的封闭机器人速度补偿跟踪控制系统的方框图。

图10是本发明实施例计算机可读存储介质的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1所示，本实施例提供了一种基于确定学习的封闭机器人速度补偿跟踪控制方法，以双连杆刚性关节机器人为例对所述方法进行详细说明，其详细实施过程包括：

步骤1、建立具有内部速度PI控制器的封闭机器人动力学模型和期望的关节周期轨迹；

封闭机器人内部速度PI控制器为：

其中，

和q_c分别是补偿后的速度补偿控制指令和位置补偿控制指令，q_c可通过对

积分得到；x₁＝[q₁,q₂]^T为封闭机器人的关节角位置向量；

为封闭机器人的关节角位置向量，K_p为比例系数，K_i为积分系数，均为对角正定矩阵且未知。

基于上述内部速度PI控制器建立双连杆封闭机器人的动力学模型：

为封闭机器人的未知科氏力和离心力矩阵，G(x₁)为封闭机器人的未知重力向量，K为封闭机器人系统内部的控制增益，是一个未知常值对角正定矩阵。

进一步的，本实施例在V-rep仿真软件上实现，选取实验平台为UR5机器人，控制对象为机器人第二、第三关节，系统内部控制器参数以及动力学均未知。

UR5机器人的期望关节周期轨迹为：

其中，x_d1＝[q_d1,q_d2]^T为封闭机器人期望的关节角位置周期轨迹，x_d2为封闭机器人期望的关节角速度周期轨迹，f(x_d1,x_d2)为给定的连续函数。

更进一步的，本实例中选取的期望周期轨迹为：

x_d1＝[0.5sin(0.5t),0.5sin(0.5t)]^T

步骤2中，结合李雅普诺夫稳定性理论设计自适应神经网络速度补偿控制指令，并利用确定学习理论将收敛后的神经网络权值估计值

保存为常值权值

即获取经验知识，具体为：

首先定义封闭机器人的关节位置x₁和参考轨迹之间x_d1的跟踪误差为：

z₁＝x₁-x_d1

设计虚拟控制器α₁：

其中，c₁为虚拟控制器α₁的正设计参数；

定义封闭机器人的关节速度x₂和虚拟控制器α₁的误差为：

z₂＝x₂-α₁·

设计自适应神经网络速度补偿控制指令为：

其中，

为神经网络权值估计值，S(Z)＝[s₁(||Z-θ₁||),…,s_N(||Z-θ_N)||]^T为神经网络高斯型径向基函数，s_j(||Z-θ_j||)＝exp(-||Z-θ_j||²/η_j ²)，j＝1,…,N，θ_j为中心点，η_j为宽度，N为神经网络布点数，

为神经网络的输入，

为虚拟控制器α₁的导数，c₂为速度补偿控制指令

中设计的正常数控制增益。

所选取的神经网络权值估计值更新率为：

其中，Γ为神经网络权值估计值更新率的增益项，σ为神经网络权值估计值更新率的设计常数。

进一步的，各状态初始值及控制参数设置如下：x₁和x₂初始值为

x₂＝[0,0]^T；q_c初始值为q_c＝[0,0]^T；神经网络初始值为

神经网络节点数为N＝3⁸＝6561，中心点均匀分布在

[-0.5，0.5]×[-0.5，0.5]×[-0.3，0.3]×[-0.3，0.3]×[-1.4，-0.4]×[-0.5，0.5]×[-0.2，0.2]×[-0.2，0.2]上，节点宽度为η＝[η₁,η₂,η₃,η₄,η₅,η₆,η₇,η₈]^T＝[0.625,0.625,0.375,0.375,0.625,0.625,0.25,0.25]^T，Γ＝0.03，σ＝0.0003；控制器参数为c₁＝0.9，c₂＝0.03。

获取稳定后的权值为

其中，t_b＞t_a＞T，代表权值收敛后的一段时间，T为收敛时间。本实例中T＝300,t_a＝350，t_b＝400。

步骤3、利用常值权值

设计常值神经网络速度补偿控制指令，具体为：

在本实施例中，学习控制阶段各状态初始值及控制器参数设置与自适应神经网络控制阶段一致。

仿真采样步长设置为0.01s，自适应神经网络控制阶段仿真时长为400s，学习控制阶段仿真时常为100s。图2为V-rep平台UR5机器人示意图，其中j₁和j₂分别为UR5机器人的第二和第三关节，作为本实施例中双连杆刚性关节机器人的关节1和关节2，且关节1的初始位置未与期望轨迹初始位置重合，其余关节均处于锁定状态。

图3为UR5机器人自适应控制阶段关节的轨迹跟踪图；图4为UR5机器人自适应控制阶段关节的轨迹跟踪误差图，由图可知，自适应神经网络控制的暂态性能较差，经过40s后控制过程基本稳定，控制100s后两关节的跟踪误差均在±0.02rad左右。

图5为UR5机械臂自适应控制阶段系统神经网络权值范数收敛图，从图中可以看出神经网络权值能实现较好收敛，实现对未知动态的学习。

图6为UR5机器人自适应控制阶段关节速度补偿指令输入变化曲线图，从图中可以看出控制输入信号变化光滑连续，暂态震动过程短，保证了系统稳定性。

图7为UR5机器人学习控制阶段的轨迹跟踪图；图8为UR5机器人学习控制阶段的轨迹跟踪误差图；结合图7、8可得出，机器人关节的角度跟踪误差在4s左右就收敛到了0的小邻域内，两关节的跟踪误差均在±0.01rad左右，与自适应神经网络控制相比具有更好的暂态性能。

本发明所设计方法不仅实现了神经网络控制智能算法在具有未知动态封闭机器人系统上的应用，而且基于确定学习理论设计的常值神经网络速度补偿控制指令，使得机器人能够从复杂工作任务中获取和利用经验知识，并在执行重复任务时节省在线计算资源和提升暂态跟踪性能。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于确定学习的封闭机器人速度补偿跟踪控制方法相同的思想，本发明还提供基于确定学习的封闭机器人速度补偿跟踪控制系统，该系统可用于执行上述基于确定学习的封闭机器人速度补偿跟踪控制方法。为了便于说明，基于确定学习的封闭机器人速度补偿跟踪控制系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图9所示，在本申请的另一个实施例中，提供了一种基于确定学习的封闭机器人速度补偿跟踪控制系统100，该系统包括模型构建模块101、经验知识获取模块102和补偿模块103；

所述模型构建模块101，用于建立具有内部速度PI控制器的封闭机器人动力学模型和期望的关节周期轨迹；

所述经验知识获取模块102，用于结合李雅普诺夫稳定性理论设计自适应神经网络速度补偿控制指令，并利用确定学习理论将收敛后的神经网络权值估计值

保存为常值权值

即获取经验知识：

设计自适应神经网络速度补偿控制指令：

其中，α₁为封闭机器人系统虚拟控制器，

为输入封闭机器人系统的速度补偿控制指令，

为封闭机器人的期望关节速度轨迹，

积分得到，

构造神经网络权值估计值

的更新率为：

所述补偿模块103，用于利用常值权值

设计常值神经网络速度补偿控制指令：

需要说明的是，本发明的基于确定学习的封闭机器人速度补偿跟踪控制系统与本发明的基于确定学习的封闭机器人速度补偿跟踪控制方法一一对应，在上述基于确定学习的封闭机器人速度补偿跟踪控制方法的实施例阐述的技术特征及其有益效果均适用于基于确定学习的封闭机器人速度补偿跟踪控制系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于确定学习的封闭机器人速度补偿跟踪控制系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于确定学习的封闭机器人速度补偿跟踪控制系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图10所示，在一个实施例中，提供了一种计算机可读存储介质200，存储有程序于存储器201中，所述程序被处理器202执行时，实现所述的基于确定学习的封闭机器人速度补偿跟踪控制方法，具体为：

保存为常值权值

即获取经验知识：

设计自适应神经网络速度补偿控制指令：

其中，α₁为封闭机器人系统虚拟控制器，

为输入封闭机器人系统的速度补偿控制指令，

为封闭机器人的期望关节速度轨迹，

积分得到，

构造神经网络权值估计值

的更新率为：

S3、利用常值权值

设计常值神经网络速度补偿控制指令：

在本申请的另一个实施例中，还提供了一种机器人，所述机器人包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。