CN114800489B

CN114800489B - 基于确定学习与复合学习联合的机械臂柔顺控制方法、存储介质及机器人

Info

Publication number: CN114800489B
Application number: CN202210280461.3A
Authority: CN
Inventors: 王敏; 曾宇鹏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2023-06-20
Anticipated expiration: 2042-03-22
Also published as: CN114800489A

Abstract

本发明公开了基于确定学习与复合学习联合的机械臂柔顺控制方法、存储介质及机器人，方法包括：首先，根据实时交互任务的跟踪误差，设计二阶阻抗模模型中的阻尼系数、刚度系数的调节策略，然后在机械臂与环境交互力回归的情况下，基于复合学习理论设计自适应神经网络阻抗控制器，最后，利用确定学习理论获取经验知识，设计常值神经网络阻抗控制器，实现机械臂的柔顺控制，保证机械臂末端动态响应遵循期望阻抗模型。本发明设计的方法不仅有效加速了神经网络对系统未知动态的学习，解决了带有未知动态的机械臂与环境交互时的安全柔顺控制，而且在保证系统稳定的前提下提高了机械臂的顺应性和适应性，减小了运动冲击。

Description

基于确定学习与复合学习联合的机械臂柔顺控制方法、存储介质及机器人

技术领域

本发明涉及机械臂变阻抗柔顺控制的技术领域，具体涉及一种基于确定学习与复合学习联合的机械臂柔顺控制方法、存储介质及机器人。

背景技术

随着工业自动化进程的不断推进以及“工业4.0”概念的普及，机械臂在各行各业已获得广泛运用。与此同时，机械臂需应对的环境也日趋复杂，已广泛应用到非结构环境下的接触操作任务场合，如机械臂打磨、装配作业、康复医疗作业、人机协同作业等，如何让机械臂安全高效快速地完成复杂控制任务，精确控制不同环境下的接触力，是当前机械臂柔顺控制面临的新挑战。在柔顺控制算法中，阻抗控制由于具有抗扰动能力强以及易于机械臂进行力控等特点得到了广泛关注，传统机械臂通常根据控制任务以及交互环境的需要确定阻抗参数，惯性、阻尼和刚度系数根据经验以固定值的形式手动确定，缺乏灵活性，难以实现复杂环境下的交互控制任务。注意到，机械臂系统由于摩擦、阻尼等因素而存在建模不确定性，影响机械臂的控制性能，但是传统的自适应神经网络控制器对机械臂执行相同或相似控制任务时需要在线调整权值来重新辨识未知动态，使得控制方案占用计算资源大、耗时长，不易实施，并且传统自适应神经网络权值的学习主要根据系统跟踪误差调整学习，并未考虑对神经网络的历史经验充分利用，导致神经网络学习需要足够的时间才能满足期望的控制性能。因此，针对重复的交互控制任务场景，期望设计一个可根据交互环境动态调整期望阻抗参数且具备快速学习能力的实时柔顺控制算法。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种确定学习与复合学习联合的机械臂柔顺控制方法。针对传统固定阻抗系数而使得柔顺控制缺乏灵活自主性的不足，本发明利用系统的跟踪误差，动态调节阻抗模型的阻尼和刚度系数，提高了机械臂与环境的交互性能，针对具有未知动态的机械臂系统，本发明利用确定学习理论，实现对存在建模不确定性的机械臂动态准确辨识，在神经网络学习过程中引入复合学习理论，利用未知动态学习的历史信息加速学习速度并提升学习能力，减少神经网络的学习时间，当神经网络权值收敛后将其存储为经验知识，当机械臂重复执行相同或相似任务时，可以直接调用经验知识进行高性能控制，避免重复训练神经网络。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了基于确定学习与复合学习联合的机械臂柔顺控制方法，包括下述步骤：

S1、构建机械臂运动学模型，利用机械臂的运动学模型构建基于任务空间的机械臂动力学模型；

S2、基于机械臂运动学模型和机械臂动力学模型，建立期望的任务空间回归轨迹模型，并根据交互环境的需要建立期望阻抗模型，所述期望阻抗模型的结构如下：

其中，M_m、B_m(t)、K_m(t)为期望阻抗模型的惯性、时变阻尼和时变刚度系数，

x分别为机械臂末端加速度、速度和位置，/>

x_d分别为机械臂末端的期望加速度、期望速度、期望位置，f_e为机械臂末端与环境交互的作用力；

定义机械臂末端的跟踪误差e(t)为：

e(t)＝x-x_d

定义机械臂末端的速度跟踪误差

为：

设计时变阻尼系数B_m(t)与时变刚度系数K_m(t)调节策略分别为：

B_m(t)＝B₀-αf(e(t))

K_m(t)＝K₀+βf(e(t))

其中，B₀为时变阻尼系数B_m(t)的正偏置系数，K₀为时变刚度系数K_m(t)的正偏置系数，α、β分别为阻尼变化系数和刚度变化系数，f(·)为连续光滑的非线性函数；

S3、基于复合学习理论设计自适应神经网络阻抗控制器，具体为：

定义辅助变量f_eu(t)：

定义辅助误差z为：

其中，

定义辅助变量ξ₁为：

定义辅助变量ξ₂为：

为实现辅助误差动态

的估计，构建如下二阶滤波器：

其中，r₁、r₂分别是z、

的估计值，ω为自然频率，ν为正的阻尼比系数，/>

和/>

分别为r₁和r₂的一阶导数，表示二阶滤波器的动态；

二阶滤波器的初始条件满足：

构造预测误差η为：

其中，

为理想神经网络权值的估计值，P和Q的定义如下：

其中，t为神经网络训练时间，ρ为遗忘因子，S(ψ)为以

为输入的径向基函数，k_a为自适应神经网络阻抗控制器设计的增益参数；

设计自适应神经网络阻抗控制器为：

其中，Γ为神经网络学习率，λ_w为正增益常数；

S4、利用确定学习理论获取经验知识，并设计常值神经网络阻抗控制器，实现机械臂的柔顺控制，保证机械臂末端动态响应遵循期望阻抗模型，具体为：

在自适应神经网络阻抗控制后闭环系统一致收敛的时间段[t₁,t₂]内，常值神经网络权值

通过以下公式获得：

利用获取的经验权值，设计常值神经网络阻抗控制器：

其中，k_l为常值神经网络控制器设计的增益参数。

作为优选的技术方案，步骤S1中，所述构建机械臂的运动学模型为：

正运动学表示机械臂从关节空间到任务空间的映射：

x＝T(q)

其中，x＝[p_x,p_y,p_z]^T为机械臂末端在任务空间的位置，q＝[q₁,q₂,…,q_n]^T为机械臂在关节空间的角位移，T(·)为正运动学映射关系；

机械臂末端速度与关节速度的关系表示为：

其中，

为机械臂末端在任务空间的速度，J为机械臂系统的雅可比矩阵，/>

为机械臂在关节空间的角速度。

作为优选的技术方案，步骤S1中，所述利用机械臂的运动学模型构建基于任务空间的机械臂动力学模型，具体为：

基于拉格朗日方程的机械臂在关节空间的动力学模型为：

其中，q＝[q₁,q₂,…,q_n]^T、

分别为机械臂关节角位移和关节角速度，n对应着机械臂的关节数，M_q(q)为机械臂的惯性矩阵，/>

为向心力矩阵，G_q(q)为重力项，τ_q为控制力矩；

结合建立的机械臂运动学模型，基于任务空间的机械臂动力学模型为：

作为优选的技术方案，任务空间下的动力学模型参数与关节空间动力学模型参数的转换关系如下：

M(q)＝J^-TM_q(q)J^-1

G(q)＝J^-TG_q(q)

其中，

为机械臂在关节空间的角速度。

作为优选的技术方案，步骤S2中，所述期望的任务空间回归轨迹模型为：

其中，

为机械臂末端在任务空间下的期望回归轨迹，/>

为给定的连续函数，/>

分别表示三维任务空间的位移。

作为优选的技术方案，步骤S2中，M_m＝1；

B_m(t)＝6-3arctan(80e(t))；

K_m(t)＝10+6arctan(80e(t))。

本发明另一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于确定学习与复合学习联合的机械臂柔顺控制方法。

本发明又一方面提供了一种机器人，所述机器人包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于确定学习与复合学习联合的机械臂柔顺控制方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明利用外环速度补偿思想，在机器人内部速度控制器为未知参数PI控制器以及机器人动力学参数未知的前提下，实现了封闭机器人的自适应神经网络控制；

2、本发明利用确定学习理论，实现了封闭机器人在自适应神经网络控制过程中对机器人系统内部未知动态的学习，并且通过存储收敛后神经网络权值的方式实现对经验知识的再利用，避免了执行相同或相似任务时，神经网络权值的重复训练问题；

3、本发明利用确定学习理论将学习后得到的常值神经网络权值代替原有神经网络权值估计值，在自适应神经网络速度补偿控制指令的基础上构建了常值神经网络速度补偿控制指令，除去了权值更新环节，在降低计算时间和硬件消耗的同时提升了暂态跟踪性能，可更好实现神经网络控制算法在封闭机器人上的应用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于确定学习与复合学习联合的机械臂柔顺控制方法流程图。

图2为本实施例双连杆机械臂系统场景图。

图3为本实施例神经网络权值范数收敛图。

图4为本发明实施例机械臂末端轨迹跟踪曲线图。

图5为本发明实施例机械臂末端与环境交互的接触力曲线图。

图6为本发明实施例机械臂末端轨迹跟踪误差变化曲线图。

图7为本发明实施例机械臂动力学系统表现的辅助阻抗误差变量曲线图。

图8为本发明实施例神经网络对未知动态的学习曲线。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1所示，本实施例基于确定学习与复合学习联合的机械臂柔顺控制方法，首先，根据实时交互任务的跟踪误差，设计二阶阻抗模模型中的阻尼系数、刚度系数的调节策略，然后在机械臂与环境交互力回归的情况下，基于复合学习理论设计自适应神经网络阻抗控制器，最后，利用确定学习理论获取经验知识，设计常值神经网络阻抗控制器，实现机械臂的柔顺控制，保证机械臂末端动态响应遵循期望阻抗模型。所述机械臂柔顺控制方法具体步骤如下：

S1、本实施例中选取的机械臂如图2所示，根据机械臂结构建立机械臂的运动学模型，具体如下：

正运动学表示机械臂从关节空间到任务空间的映射：

x＝T(q)

其中，x＝[p_x,p_y,p_z]^T为机械臂末端在任务空间的位置，q＝[q₁,q₂]^T为机械臂在关节空间的角位移，q₁和q₂分别为关节1和关节2的角位置，T(·)为正运动学映射关系；

进一步的，机械臂末端速度与关节速度的关系可表示为：

其中，

为机械臂在关节空间的角速度，/>

和/>

分别为关节1和关节2的角速度。

根据机械臂的机械臂结构，机械臂的正运动学模型为：

其中，l₁＝1m和l₂＝1m分别为连杆1和连杆2的长度，机械臂系统的雅可比矩阵为：

建立任务空间下的机械臂动力学模型：

基于拉格朗日方程的机械臂在关节空间的动力学模型为：

其中，M_q(q)为机械臂的惯性矩阵，

为向心力矩阵，G_q(q)为重力项，τ_q为控制力矩，f_e为机械臂末端与环境交互产生的接触力。

更进一步的，结合步骤S1建立的机械臂运动学模型，基于任务空间的机械臂动力学模型为：

任务空间下的动力学模型参数与关节空间动力学模型参数的转换关系如下：

M(q)＝J^-TM_q(q)J^-1

G(q)＝J^-TG_q(q)

在一个具体的实施方式中，选取的双连杆刚性机械臂模型的相关参数分别为：

其中，p₁＝2.16，p₁＝0.92，p₁＝1.13，p₁＝4.25，p₁＝1.75，g＝9.8。

S2、建立期望的任务空间回归轨迹模型为：

其中，

为机械臂末端在任务空间下的期望回归轨迹，/>

和/>

分别为机械臂末端的期望加速度和期望速度，/>

为给定的连续函数，/>

分别表示三维任务空间的位移；

在一个具体的实施方式中，选取的期望轨迹为：

根据交互环境的需要建立期望阻抗模型，其结构如下：

x分别为机械臂末端加速度、速度和位置，f_e为机械臂末端与环境交互的作用力；

定义机械臂末端的跟踪误差e(t)为

e(t)＝x-x_d

定义机械臂末端的速度跟踪误差

为

设计时变阻尼系数B_m(t)与时变刚度系数K_m(t)调节策略分别为

B_m(t)＝B₀-αf(e(t))

K_m(t)＝K₀+βf(e(t))

其中，B₀为时变阻尼系数B_m(t)的正偏置系数，K₀为时变刚度系数K_m(t)的正偏置系数，α、β分别为阻尼变化系数和刚度变化系数，f(·)为连续光滑的非线性函数。

本实施例中选取的阻抗参数如下：

M_m＝1

B_m(t)＝6-3arctan(80e(t))

K_m(t)＝10+6arctan(80e(t))

S3、基于复合学习理论设计自适应神经网络阻抗控制器：

定义辅助变量f_eu(t)

定义辅助误差z为

其中，

定义辅助变量ξ₁为

定义辅助变量ξ₂为

为实现辅助误差动态

的估计，构建如下二阶滤波器：

其中，r₁、r₂分别是z、

的估计值，ω＝50为自然频率，ν＝1为正的阻尼比系数，，/>

和/>

分别为r₁和r₂的一阶导数，表示二阶滤波器的动态；

二阶滤波器的初始条件满足

本实施例中选取的机械臂末端与环境接触力为：

构造预测误差η为

其中，

为理想神经网络权值的估计值，P和Q的定义如下：

其中，t＝100为神经网络训练时间，ρ＝2为遗忘因子，S(ψ)为以

为输入的径向基函数，k_a＝110为自适应神经网络阻抗控制器设计的增益参数；

设计自适应神经网络阻抗控制器为：

其中，Γ＝20为神经网络学习率，λ_w＝4为正增益常数；

S4、基于确定学习理论获取经验知识，并设计常值神经网络阻抗控制器：

通过以下公式获得：

利用获取的经验权值，设计常值神经网络阻抗控制器：

其中，k_l＝80为常值神经网络控制器设计的增益参数

本实施例中，ξ和

初始值为ξ(0)＝[0.85,1.1]^T、/>

中心点均匀分布在[0.6,1.4]×[0.6,1.4]×[-0.2,0.4]×[-0.2,0.4]×[-1,0.5]×[-0.4,0.4]×[-0.4,0.4]×[-0.4,0.4]上，宽度为[0.5,0.5,0.375,0.375,0.9375,0.5,0.5,0.5]^T。

采用本实施例中的参数，在MATLAB仿真环境下可获得图3至图8的结果。神经网络权值的收敛如图3所示，表明在重复任务下，权值可收敛至常值附近。机械臂末端的轨迹跟踪如图4所示，机械臂末端与环境接触的交互力如图5所示，机械臂末端的跟踪误差如图6所示，机械臂动力学系统表现的辅助阻抗误差变化如图7所示。图6-图7可表明本发明利用经验知识实现良好的暂态控制性能，实现高性能的柔顺控制，图8为神经网络对机械臂系统未知动态的逼近效果，表明利用神经网络实现了对未知动态的学习。

本发明设计的方法不仅有效加速了神经网络对系统未知动态的学习，解决了带有未知动态的机械臂与环境交互时的安全柔顺控制，而且在保证系统稳定的前提下提高了机械臂的顺应性和适应性，减小了运动冲击。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于确定学习的封闭机器人速度补偿跟踪控制方法相同的思想，本发明还提供基于确定学习的封闭机器人速度补偿跟踪控制系统，该系统可用于执行上述基于确定学习的封闭机器人速度补偿跟踪控制方法。为了便于说明，基于确定学习的封闭机器人速度补偿跟踪控制系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在另一个实施例中，提供了一种计算机可读存储介质，存储有程序于存储器中，所述程序被处理器执行时，实现所述的基于确定学习与复合学习联合的机械臂柔顺控制方法，具体为：

x分别为机械臂末端加速度、速度和位置，/>

定义机械臂末端的跟踪误差e(t)为：

e(t)＝x-x_d

定义机械臂末端的速度跟踪误差

为：

B_m(t)＝B₀-αf(e(t))

K_m(t)＝K₀+βf(e(t))

定义辅助变量f_eu(t)：

定义辅助误差z为：

其中，

定义辅助变量ξ₁为：

定义辅助变量ξ₂为：

为实现辅助误差动态

的估计，构建如下二阶滤波器：

其中，r₁、r₂分别是z、

的估计值，ω为自然频率，ν为正的阻尼比系数，/>

和/>

分别为r₁和r₂的一阶导数，表示二阶滤波器的动态；

二阶滤波器的初始条件满足：

构造预测误差η为：

其中，

为理想神经网络权值的估计值，P和Q的定义如下：

其中，t为神经网络训练时间，ρ为遗忘因子，S(ψ)为以

设计自适应神经网络阻抗控制器为：

其中，Γ为神经网络学习率，λ_w为正增益常数；

通过以下公式获得：

利用获取的经验权值，设计常值神经网络阻抗控制器：

其中，k_l为常值神经网络控制器设计的增益参数。

在另一个实施例中，还提供了一种机器人，所述机器人包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。