CN113977580A

CN113977580A - 基于动态运动原语和自适应控制的机械臂模仿学习方法

Info

Publication number: CN113977580A
Application number: CN202111274511.9A
Authority: CN
Inventors: 张文安; 高伟展; 刘安东; 付明磊; 徐建明; 杨旭升
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28
Anticipated expiration: 2041-10-29
Also published as: CN113977580B

Abstract

本发明公开了基于动态运动原语和自适应控制的机械臂模仿学习方法,包括以下步骤：1)机械臂拖动示教；2)动态运动原语建模动作；3)动态运动原语模型泛化；4)控制机械臂完成动作复现，本发明提供了一种机械臂模仿学习方法，其可以有效简化机器人技能学习过程。

Description

基于动态运动原语和自适应控制的机械臂模仿学习方法

技术领域

本发明涉及机械臂的技能学习技术领域，具体涉及一种基于动态运动原语和自适应控制的机械臂模仿学习方法。

背景技术

近年来，机器人逐渐被应用到人类的日常生活中，比如家庭服务、照顾老人以及医疗服务等。但这也就要求机器人具有更高的智能，能通过学习技能来完成更为复杂的任务，而模仿学习就是一种简化机器人技能学习的有效方法，其可以避免复杂的手动编程。

模仿学习一般包含演示、学习和复现三个阶段。演示阶段一般由示教人员拖动机械臂完成任务，同时记录下动作特征的数据；学习阶段主要是对动作特征进行建模，得到动作的模型；复现阶段则是将学习到的动作模型用于控制机械臂复现动作。

在研究过程中发现现有的模仿学习，只对动作的轨迹进行建模，但机械臂在完成任务的过程中往往需要抓取或者向外施加力等，而这会影响轨迹的跟踪效果；机械臂的力矩控制需要考虑机械臂的动力学模型，而模型的精度影响控制的效果；另外如何控制机械臂安全的执行任务，这涉及到系统的稳定性。

发明内容

鉴于上述现有技术的不足，本发明提供了一种基于动态运动原语和自适应控制的机械臂模仿学习方法，能够让机械臂更好的进行模仿学习。

为实现上述目标，本发明提供了如下技术方案：

基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，包括以下步骤：

1)拖动示教：通过拖动机械臂完成所需的任务，在拖动的过程中记录机械臂关节位置、速度、加速度和机械臂外部负载力矩，通过重复N_d次该示教过程，得到示教动作的数据集；

2)动作建模：得到多次示教的动作数据集后，对轨迹特征和负载力矩特征进行建模，用于生成动作序列控制机械臂复现动作；

3)动作泛化：考虑到动作需要泛化，在得到模型后，通过参数来调整生成动作的轨迹，泛化出所需的动作；然后通过泛化后的模型生成位置、速度、加速度和负载力矩控制量，同时机械臂反馈位置、速度和力矩到动态运动原语模型中，用于生成下一周期的动作序列；

4)动作复现，通过自适应神经网络控制器控制机械臂复现建模的动作。

进一步的，所述的步骤2)具体为：

2.1)将示教动作数据分离为轨迹特征和负载力矩特征；

2.2)通过引入高斯混合模型和高斯混合回归的动态运动原语对轨迹特征进行建模；

2.3)通过结合径向基神经网络的动态运动原语对负载力矩特征进行建模。

进一步的，所述步骤2)中：针对示教数据中的轨迹特征，将高斯混合模型和高斯混合回归应用于动态运动原语中，从而使动态运动原语能从多组示教轨迹中建模轨迹特征，其建模过程如下：

a)对于采集的多组示教轨迹数据集

其中θ_k,n、

分别是t时刻的位置、速度、加速度，通过动态运动原语模型从示教轨迹数据集中得到强迫项数据集{(x_k,f_k,n)|k＝1,2,…,T；n＝1,2,…,N_d}，其中

x_k为系统

上的等时间间隔采样，τ_s为系统的相位参数用于控制系统状态的持续时间，T和N_d分别为单条轨迹的最大采样次数和示教轨迹条数，α_z和β_z为正常数，通常选取β_z＝α_z/4使得系统达到临界阻尼，x为相位系统的状态，α_x用于调节相位系统的收敛速度；

b)为对数据集进行高斯混合模型建模，高斯混合模型联合概率密度函数定义如下：

其中，

μ_x,k和μ_f,k是第k个高斯分布的相位和强迫项均值，

Σ_x,k、Σ_xf,k、Σ_fx,k、Σ_f,k是第k个高斯分布的相位与强迫项的方差以及其之间的协方差方差，N(·)是高斯概率分布，α_k≥0是权重，

K是高斯基的总个数，

和

表示的是第K个高斯基分布的均值和方差；为获得初始高斯混合模型参数，对数据集进行K-means聚类，即

其中，x＝[x_k,f_k,n]^T，m_k是集合D_k的均值，把数据集分成K个部分D＝{D₁,D₂,…,D_k}后，初始参数为

D_i为第i个部分所有点的集合；

c)通过EM算法求取最优参数π_k＝(α_k,μ_k,Σ_k)，得到最终的高斯混合模型；

d)通过高斯混合回归估计真实的f(x)，即

其中

N(x；μ_x,k,Σ_x,k)为由数据集中获取的均值和方差组成的高斯分布，然后在等时间间隔选取高斯基中心位置的情况下，利用局部线性回归求取动态运动原语高斯基权重，即可得到动态运动原语参数模型。

进一步的，所述步骤2)中：针对示教数据中的外部负载力矩特征，将神经网络应用到动态运动原语的强迫项拟合中，使改进后的动态运动原语不仅能从多示教轨迹中建模动作，而且具有更高的动作建模精度，其建模过程步骤如下：

e)对于采集的负载力矩{τ_t,n|t＝1,2,…,T；n＝1,2,…,N_d}，其中τ_t,n是t时刻的负载力矩，通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(x_k,F_n(x_k))|k＝1,2,…,T；n＝1,2,…,N_d}，其中：

利用径向基神经网络拟合该数据，通过梯度下降的方式得到最优权重，即:

其中R^N是N维实数向量张成的空间，Ω_x为x的取值空间，S(x)为径向基函数神经网络，其可以由以下径向基函数组成：

F(x)即强迫项数据集，x为相位系统的状态，c_i为高斯基函数的中心位置，σ_i为高斯基函数的方差；

f)将得到的网络参数

用于生成强迫项函数f(x)＝F(x)x(τ_g-τ₀)，其中τ_g和τ₀分别为力矩目标值和力矩初始值，即可得到负载力矩的参数模型。

进一步的，所述步骤2)中：为使动态运动原语能从多示教轨迹中建模动作，将高斯混合模型和高斯混合回归应用于动态运动原语中，动态运动原语模型表示如下：

其中，

为机械臂的关节位置，g为目标位置，τ_s为时间常数，α_z和β_z是正常数，w_i为权重参数，y₀为系统初始状态，N为高斯基总个数，c_i为高斯基中心位置，s_i是高斯基的方差，x为相位系统的状态。

进一步的，所述步骤3)中在完成对示教动作的建模后，对于新的相似任务，为了通过较少的示教过程完成该类的任务，通过泛化动态运动原语中的目标位置，即通过修改动态运动原语中的目标位置g，其具体步骤如下：

g)从示教轨迹中可以得到物块放置的期望位置的关节角度x_g′；

h)利用机器人运动求解器TRAC-IK工具包，将θ_g和由相机测量得到的新放置目标位置x_g'传入到TRAC-IK求解器中，得到新的关节期望角度θ_g′；

i)将得到的新关节期望角度θ_g′传入动态运动原语模型的g中；

j)在泛化目标位置时，在修改了目标位置后产生了新的泛化轨迹，但由于轨迹的拉伸会产生机械臂不可执行的速度，为此，将动态运动原语生成的运动速度v与相位系统中的τ参数通过式子

τ(0)＝τ₀相耦合，其中σ(v)＝[σ₁(v₁),…,σ_n(v_n)]^T，

M_i为归一化后的关节速度最大值，v_i为关节的速度，通过这一方法，可以调整每一个动作的持续时间，从而调整动态运动原语模型，使其产生的速度可以被限制到机械臂的可执行范围内，γ₀，γ₁用于调节势场函数的形状；

k)通过上述运动原语模型生成动作和力矩序列，以控制机械臂收敛到新的期望目标，从而可用少量的示教动作，来完成更多的类似任务。

进一步的，所述步骤4)中：在动作复现中，在跟踪关节轨迹的同时补偿了外部负载力矩，设计了如下控制律：

其中，τ_dmp是对负载力矩的建模结果，K_p，K_d为控制器的比例和微分增益，

为动态运动原语生成的关节期望角度，q，

为机械臂当前的关节位置和速度，e和

是轨迹跟踪误差和速度误差，径向基神经网络参数

其中

和

是神经网络的权重矩阵，H_m，C_m，G_m是机械臂模型参数，径向基函数矩阵S_H(q)，

S_G(q)，N是径向基神经网络的节点个数，在神经网络权重按如下式子更新时：

其中，

而Γ_H，Γ_C，Γ_G，ρ_H，ρ_C,ρ_G用于调整神经网络权重的跟新速率；该控制律能保证整个机器人技能学习系统的稳定性，且通过神经网络对动力学参数的误差进行补偿，从而能在一定程度上保证操作者和机械臂安全以及提升了机械臂的控制精度。

本发明的有益效果如下：

1)降低了部署难度：机械臂通过模仿学习的方式学习技能，而不再是复杂的手动编程，可以简化对于不同任务的部署复杂度，增强了系统对应场景和操作目标的泛化性能。

2)将原有的模仿学习方法进行了扩展，不仅仅对动作的轨迹进行模仿，还对负载力矩进行了模仿，使其可执行更多的任务。

3)系统具有稳定性，能在一定程度上保证人员和机械臂的安全。

附图说明

图1是本发明的整体流程示意图；

图2是本发明的动态运动原语模型框架示意图；

图3是本发明控制器的框图。

具体实施方式

为使本发明的上述目的、特点和优点更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。

一种基于动态运动原语和自适应控制的机械臂模仿学习方法，所述的模仿学习方法包括以下步骤：

步骤1：拖动示教，示教人员通过拖动机械臂完成所需的任务，在拖动的过程中记录关节位置、速度、加速度和机械臂外部负载力矩，通过重复N_d次该示教过程，得到示教动作的数据集；

步骤2：动作建模，得到多次示教得到的动作数据集后，对轨迹特征和负载力矩特征进行建模，用于生成动作序列控制机械臂复现动作；

步骤3：动作泛化，考虑到动作需要泛化，在得到模型后，通过参数来调整生成动作的轨迹，泛化出所需的动作；然后通过泛化后的模型生成位置、速度、加速度和负载力矩控制量，同时机械臂反馈位置、速度和力矩到动态运动原语模型中，用于生成下一周期的动作序列；

步骤4：动作复现，通过自适应神经网络控制器控制机械臂复现建模的动作。

所述机械臂的模仿学习方法中，所述步骤2具体为：

步骤2-1：将示教动作数据分离为轨迹特征和负载力矩特征；

步骤2-2：通过引入高斯混合模型和高斯混合回归的动态运动原语对轨迹特征进行建模；

步骤2-3：通过结合径向基神经网络的动态运动原语对负载力矩特征进行建模；

所述步骤2-2中，为使动态运动原语能从多示教轨迹中建模动作，将高斯混合模型和高斯混合回归应用于动态运动原语中，动态运动原语模型表示如下：

其中，

为机械臂的关节位置，g为目标位置，τ_s为时间常数，α_z和β_z是正常数，通常选取β_z＝α_z/4，使得式(1)中的弹簧阻尼系统达到临界阻尼。

针对示教的数据集

其中θ_t,n，

是t时刻的位置，速度，加速度，通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(x_k,f_k,n)|k＝1,2,…,T；n＝1,2,…,N_d}，其中

x_k为系统

上的等时间间隔采样；对数据集进行高斯混合模型建模，高斯混合模型联合概率密度函数定义如下：

其中，

N(·)是高斯概率分布，α_k≥0是权重，

K是高斯基的个数，

和

表示的是第K个高斯基分布的均值和方差。为获得初始高斯混合模型模型参数，对数据集进行K-means聚类，即

其中，x＝[x_k,f_k,n]^T，m_k是集合D_k的均值，把数据集分成K个部分D＝{D₁,D₂,…,D_k}后，初始的参数为

通过EM(Expectation-Maximum)算法求取最优参数π_k＝(α_k,μ_k,Σ_k)，得到最终的高斯混合模型模型。通过高斯混合回归估计真实的f(x)，即

其中

然后在等时间间隔选取高斯基中心位置的情况下，利用局部线性回归求取动态运动原语高斯基权重，即可得到想要的动态运动原语参数模型。

所述步骤2-3中，将神经网络应用于动态运动原语的强迫项拟合中，使改进后的动态运动原语能不仅能从多示教轨迹中建模动作，而且具有更高的动作建模精度，但是这也导致需要更多的计算量，其具体步骤如下：

1)对于采集的负载力矩数据{τ_t,n|t＝1,2,…,T；n＝1,2,…,N_d}，其中τ_t,n是t时刻的负载力矩，通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(x_k,F_n(x_k))|k＝1,2,…,T；n＝1,2,…,N_d}，其中：

2)将得到的网络参数

用于生成强迫项函数f(x)＝F(x)x(g-τ₀)，即可得到负载力矩的参数模型。

所述步骤3中，在完成对示教动作的建模后，对于新的相似任务，为了通过较少的示教过程完成该类的任务，可以通过泛化动态运动原语中的目标位置，即通过修改动态运动原语中的目标位置g，其具体步骤如下：

1)从示教轨迹中可以得到物块放置的期望位置的关节角度g；

2)利用TRAC-IK机器人运动求解器，将θ_g和由相机测量得到的新放置目标位置x_g'传入到TRAC-IK求解器中，得到新的关节期望角度θ_g′；

3)将得到的新关节期望角度θ_g′传入动态运动原语模型的g中：

4)在泛化目标位置时，在修改了目标位置后产生了新的泛化轨迹，但由于轨迹的拉伸等会产生机械臂不可执行的速度，为此，将动态运动原语生成的运动速度v与相位系统中的τ参数通过式子

τ(0)＝τ₀相耦合，其中σ(v)＝[σ₁(v₁),…,σ_n(v_n)]^T，

M_i为归一化后的关节速度最大值，v_i为关节的速度，通过这一方法，可以调整每一个动作的持续时间，从而调整动态运动原语模型，使其产生的速度可以被限制到机械臂的可执行范围内；

5)通过上述运动原语模型生成动作和力矩序列，以控制机械臂收敛到新的期望目标，从而可用少量的示教动作，来完成更多的类似任务。

所述步骤4中，在动作复现中，定义具有外部负载力矩的n连杆刚性机械臂动力学模型：

其中，

为关节位移量，

为关节的力矩，τ_p为机械臂的外部负载力矩。矩阵

是机械臂的惯性矩阵，

是向心力矩和科里奥利力矩，

包含了重力项和其他力。

为了在跟踪关节轨迹的同时补偿了外部负载力矩，设计了如下控制律：

其中τ_dmp是对负载力矩的建模结果，e是轨迹跟踪误差，

和

是神经网络的权重矩阵，H_m，C_m，G_m是机械臂模型参数，径向基函数矩阵S_H(θ)，

S_G(θ)，N是径向基神经网络的节点个数。

将(8)代入机械臂的动力学方程(7)中可得：

定义估计误差

得到如下加速度误差：

其中ε_dmp为力矩量的建模误差，然后选取如下Lypunov函数：

V＝V₁+V₂ (12)

其中：

其中Γ_H ^-1,Γ_C ^-1,Γ_G ^-1是正定矩阵，对V₁求导可得：

令

将式(9)代入式(11)可得：

是一个反对称矩阵，式(14)可转换为：

对V₂求导可得：

根据式(13)，并结合

结合迹运算Tr(·)可得如下式子：

其中神经网络的权值更新如下：

将式(18)代入式(17)可得：

根据杨氏不等式和

可得：

其中，

其中，K_F是||ε_r||的上界，因此使得

成立的条件为：

由此可知

会收敛到一个不变集:

可得考虑机械臂动力学模型(7)，在给定的有界的q_d和

下，控制律(8)和神经网络权重更新律(18)将保证闭环系统的稳定性。

根据上述分析得到基于动态运动原语的机械臂模仿学习方法的过程为：

S1：示教人员拖动机械臂得到动作轨迹和负载力矩的示教数据集

S2：分别用两种方法对动作轨迹和力矩建模，然后将两部分动态运动原语通过相位系统结合在一起，便于泛化处理；

S3：根据任务需求对动态运动原语模型进行泛化，包括期望位置的泛化和动作执行速度的泛化；

S4：利用动态运动原语生成关节轨迹、速度、加速度和负载力矩控制量，结合式(8)(18)得到控制律，用于控制机械臂复现动作，同时机械臂反馈实时关节位置、速度、加速度到动态运动原语模型中，用于生成新的控制序列。

实施例：

本实例公开了一种基于动态运动原语和自适应控制的机械臂模仿学习方法，其系统包括Franka EmikaPanda机械臂，相机，物块等。

具体的，设计了一个用Panda机械臂到指定位置夹取物块，并搬运物块的任务；

S1：将机械臂和物块安装在同一个平面上，操作人员拖动机械臂，将其末端移植物块处，并控制爪子闭合夹取物块，搬运至指定目标位置，这一过程中，记录机械臂的关节信息和负载力矩数据

S2：将关节位置、速度、加速度用动态运动原语进行建模，对负载力矩采用动态运动原语建模，并通过相位系统将两者结合到一起，便于泛化的使用如图2；

S3：还原物块位置，并小范围移动物块位置，相机测取物块的位置，传递给机械臂的控制器，然后对动态运动原语模型进行泛化；

S4：读取机械当前关节状态

结合动态运动原语模型生成控制序列

结合(8)(10)式得出控制量，用于机械臂的控制，之后重复该步。

Claims

1.基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，所述的步骤2)具体为：

2.1)将示教动作数据分离为轨迹特征和负载力矩特征；

3.根据权利要求2所述的基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，所述步骤2)中：针对示教数据中的轨迹特征，将高斯混合模型和高斯混合回归应用于动态运动原语中，从而使动态运动原语能从多组示教轨迹中建模轨迹特征，其建模过程如下：

a)对于采集的多组示教轨迹数据集

其中θ_k,n、

分别是k时刻的位置、速度、加速度，通过动态运动原语模型从示教轨迹数据集中得到强迫项数据集{(x_k,f_k,n)|k＝1,2,…,T；n＝1,2,…,N_d}，其中

x_k为系统

模型联合概率密度函数定义如下：

其中，

μ_x,k和μ_f,k是第k个高斯分布的相位和强迫项均值，

Σ_x,k、Σ_xf,k、Σ_fx,k、Σ_f,k是第k个高斯分布的相位与强迫项的方差以及其之间的协方差，N(·)是高斯概率分布，α_k≥0是权重，

K是高斯基的总个数，

和

D_i为第i个部分所有点的集合；

d)通过高斯混合回归估计真实的f(x)，即

其中

4.根据如权利要求2所述的基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，所述步骤2)中：针对示教数据中的外部负载力矩特征，将神经网络应用到动态运动原语的强迫项拟合中，使改进后的动态运动原语不仅能从多示教轨迹中建模动作，而且具有更高的动作建模精度，其建模过程步骤如下：

其中R^N是N维实数向量张成的空间，Ω_x为x的取值空间，S(x)为径向基函数神经网络，其可以由以下高斯基函数组成：

f)将得到的网络参数

5.根据权利要求2所述的基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，所述步骤2)中：为使动态运动原语能从多示教轨迹中建模动作，将高斯混合模型和高斯混合回归应用于动态运动原语中，动态运动原语模型表示如下：

其中，

6.根据如权利要求1所述的基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，所述步骤3)中在完成对示教动作的建模后，对于新的相似任务，为了通过较少的示教过程完成该类的任务，通过泛化动态运动原语中的目标位置，即通过修改动态运动原语中的目标位置g，其具体步骤如下：

g)从示教轨迹中可以得到物块放置的期望位置的关节角度θ_g；

h)利用机器人运动求解器TRAC-IK工具包，将关节期望角θ_g和由相机测量得到的空间坐标系下新的放置目标位置x_g'传入到TRAC-IK求解器中，得到新的关节期望角度θ_g′；

τ(0)＝τ₀相耦合，其中σ(v)＝[σ₁(v₁),…,σ_n(v_n)]^T，

7.根据如权利要求1所述的基于动态运动原语和自适应控制的机械臂模仿学习方法，其特征在于，所述步骤4)中：在动作复现中，在跟踪关节轨迹的同时补偿了外部负载力矩，设计了如下控制律：

为动态运动原语生成的关节期望角度，q，

为机械臂当前的关节位置和速度，e和

是轨迹跟踪误差和速度误差，径向基神经网络参数

其中

和

其中，