CN113977580A - 基于动态运动原语和自适应控制的机械臂模仿学习方法 - Google Patents

基于动态运动原语和自适应控制的机械臂模仿学习方法 Download PDF

Info

Publication number
CN113977580A
CN113977580A CN202111274511.9A CN202111274511A CN113977580A CN 113977580 A CN113977580 A CN 113977580A CN 202111274511 A CN202111274511 A CN 202111274511A CN 113977580 A CN113977580 A CN 113977580A
Authority
CN
China
Prior art keywords
dynamic motion
model
mechanical arm
teaching
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111274511.9A
Other languages
English (en)
Other versions
CN113977580B (zh
Inventor
张文安
高伟展
刘安东
付明磊
徐建明
杨旭升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111274511.9A priority Critical patent/CN113977580B/zh
Publication of CN113977580A publication Critical patent/CN113977580A/zh
Application granted granted Critical
Publication of CN113977580B publication Critical patent/CN113977580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1651Programme controls characterised by the control loop acceleration, rate control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了基于动态运动原语和自适应控制的机械臂模仿学习方法,包括以下步骤:1)机械臂拖动示教;2)动态运动原语建模动作;3)动态运动原语模型泛化;4)控制机械臂完成动作复现,本发明提供了一种机械臂模仿学习方法,其可以有效简化机器人技能学习过程。

Description

基于动态运动原语和自适应控制的机械臂模仿学习方法
技术领域
本发明涉及机械臂的技能学习技术领域,具体涉及一种基于动态运动原语和自适应控制的机械臂模仿学习方法。
背景技术
近年来,机器人逐渐被应用到人类的日常生活中,比如家庭服务、照顾老人以及医疗服务等。但这也就要求机器人具有更高的智能,能通过学习技能来完成更为复杂的任务,而模仿学习就是一种简化机器人技能学习的有效方法,其可以避免复杂的手动编程。
模仿学习一般包含演示、学习和复现三个阶段。演示阶段一般由示教人员拖动机械臂完成任务,同时记录下动作特征的数据;学习阶段主要是对动作特征进行建模,得到动作的模型;复现阶段则是将学习到的动作模型用于控制机械臂复现动作。
在研究过程中发现现有的模仿学习,只对动作的轨迹进行建模,但机械臂在完成任务的过程中往往需要抓取或者向外施加力等,而这会影响轨迹的跟踪效果;机械臂的力矩控制需要考虑机械臂的动力学模型,而模型的精度影响控制的效果;另外如何控制机械臂安全的执行任务,这涉及到系统的稳定性。
发明内容
鉴于上述现有技术的不足,本发明提供了一种基于动态运动原语和自适应控制的机械臂模仿学习方法,能够让机械臂更好的进行模仿学习。
为实现上述目标,本发明提供了如下技术方案:
基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,包括以下步骤:
1)拖动示教:通过拖动机械臂完成所需的任务,在拖动的过程中记录机械臂关节位置、速度、加速度和机械臂外部负载力矩,通过重复Nd次该示教过程,得到示教动作的数据集;
2)动作建模:得到多次示教的动作数据集后,对轨迹特征和负载力矩特征进行建模,用于生成动作序列控制机械臂复现动作;
3)动作泛化:考虑到动作需要泛化,在得到模型后,通过参数来调整生成动作的轨迹,泛化出所需的动作;然后通过泛化后的模型生成位置、速度、加速度和负载力矩控制量,同时机械臂反馈位置、速度和力矩到动态运动原语模型中,用于生成下一周期的动作序列;
4)动作复现,通过自适应神经网络控制器控制机械臂复现建模的动作。
进一步的,所述的步骤2)具体为:
2.1)将示教动作数据分离为轨迹特征和负载力矩特征;
2.2)通过引入高斯混合模型和高斯混合回归的动态运动原语对轨迹特征进行建模;
2.3)通过结合径向基神经网络的动态运动原语对负载力矩特征进行建模。
进一步的,所述步骤2)中:针对示教数据中的轨迹特征,将高斯混合模型和高斯混合回归应用于动态运动原语中,从而使动态运动原语能从多组示教轨迹中建模轨迹特征,其建模过程如下:
a)对于采集的多组示教轨迹数据集
Figure BDA0003328956060000021
其中θk,n
Figure BDA0003328956060000022
分别是t时刻的位置、速度、加速度,通过动态运动原语模型从示教轨迹数据集中得到强迫项数据集{(xk,fk,n)|k=1,2,…,T;n=1,2,…,Nd},其中
Figure BDA0003328956060000023
xk为系统
Figure BDA0003328956060000024
上的等时间间隔采样,τs为系统的相位参数用于控制系统状态的持续时间,T和Nd分别为单条轨迹的最大采样次数和示教轨迹条数,αz和βz为正常数,通常选取βz=αz/4使得系统达到临界阻尼,x为相位系统的状态,αx用于调节相位系统的收敛速度;
b)为对数据集进行高斯混合模型建模,高斯混合模型联合概率密度函数定义如下:
Figure BDA0003328956060000025
其中,
Figure BDA0003328956060000026
μx,k和μf,k是第k个高斯分布的相位和强迫项均值,
Figure BDA0003328956060000027
Σx,k、Σxf,k、Σfx,k、Σf,k是第k个高斯分布的相位与强迫项的方差以及其之间的协方差方差,N(·)是高斯概率分布,αk≥0是权重,
Figure BDA0003328956060000031
K是高斯基的总个数,
Figure BDA0003328956060000032
Figure BDA0003328956060000033
表示的是第K个高斯基分布的均值和方差;为获得初始高斯混合模型参数,对数据集进行K-means聚类,即
Figure BDA0003328956060000034
其中,x=[xk,fk,n]T,mk是集合Dk的均值,把数据集分成K个部分D={D1,D2,…,Dk}后,初始参数为
Figure BDA0003328956060000035
Di为第i个部分所有点的集合;
c)通过EM算法求取最优参数πk=(αkkk),得到最终的高斯混合模型;
d)通过高斯混合回归估计真实的f(x),即
Figure BDA0003328956060000036
其中
Figure BDA0003328956060000037
N(x;μx,kx,k)为由数据集中获取的均值和方差组成的高斯分布,然后在等时间间隔选取高斯基中心位置的情况下,利用局部线性回归求取动态运动原语高斯基权重,即可得到动态运动原语参数模型。
进一步的,所述步骤2)中:针对示教数据中的外部负载力矩特征,将神经网络应用到动态运动原语的强迫项拟合中,使改进后的动态运动原语不仅能从多示教轨迹中建模动作,而且具有更高的动作建模精度,其建模过程步骤如下:
e)对于采集的负载力矩{τt,n|t=1,2,…,T;n=1,2,…,Nd},其中τt,n是t时刻的负载力矩,通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(xk,Fn(xk))|k=1,2,…,T;n=1,2,…,Nd},其中:
Figure BDA0003328956060000038
利用径向基神经网络拟合该数据,通过梯度下降的方式得到最优权重,即:
Figure BDA0003328956060000039
其中RN是N维实数向量张成的空间,Ωx为x的取值空间,S(x)为径向基函数神经网络,其可以由以下径向基函数组成:
Figure BDA0003328956060000041
F(x)即强迫项数据集,x为相位系统的状态,ci为高斯基函数的中心位置,σi为高斯基函数的方差;
f)将得到的网络参数
Figure BDA0003328956060000042
用于生成强迫项函数f(x)=F(x)x(τg0),其中τg和τ0分别为力矩目标值和力矩初始值,即可得到负载力矩的参数模型。
进一步的,所述步骤2)中:为使动态运动原语能从多示教轨迹中建模动作,将高斯混合模型和高斯混合回归应用于动态运动原语中,动态运动原语模型表示如下:
Figure BDA0003328956060000043
Figure BDA0003328956060000044
Figure BDA0003328956060000045
Figure BDA0003328956060000046
Figure BDA0003328956060000047
其中,
Figure BDA0003328956060000048
为机械臂的关节位置,g为目标位置,τs为时间常数,αz和βz是正常数,wi为权重参数,y0为系统初始状态,N为高斯基总个数,ci为高斯基中心位置,si是高斯基的方差,x为相位系统的状态。
进一步的,所述步骤3)中在完成对示教动作的建模后,对于新的相似任务,为了通过较少的示教过程完成该类的任务,通过泛化动态运动原语中的目标位置,即通过修改动态运动原语中的目标位置g,其具体步骤如下:
g)从示教轨迹中可以得到物块放置的期望位置的关节角度xg′
h)利用机器人运动求解器TRAC-IK工具包,将θg和由相机测量得到的新放置目标位置xg'传入到TRAC-IK求解器中,得到新的关节期望角度θg′
i)将得到的新关节期望角度θg′传入动态运动原语模型的g中;
j)在泛化目标位置时,在修改了目标位置后产生了新的泛化轨迹,但由于轨迹的拉伸会产生机械臂不可执行的速度,为此,将动态运动原语生成的运动速度v与相位系统中的τ参数通过式子
Figure BDA0003328956060000049
τ(0)=τ0相耦合,其中σ(v)=[σ1(v1),…,σn(vn)]T
Figure BDA0003328956060000051
Mi为归一化后的关节速度最大值,vi为关节的速度,通过这一方法,可以调整每一个动作的持续时间,从而调整动态运动原语模型,使其产生的速度可以被限制到机械臂的可执行范围内,γ0,γ1用于调节势场函数的形状;
k)通过上述运动原语模型生成动作和力矩序列,以控制机械臂收敛到新的期望目标,从而可用少量的示教动作,来完成更多的类似任务。
进一步的,所述步骤4)中:在动作复现中,在跟踪关节轨迹的同时补偿了外部负载力矩,设计了如下控制律:
Figure BDA0003328956060000052
其中,τdmp是对负载力矩的建模结果,Kp,Kd为控制器的比例和微分增益,
Figure BDA0003328956060000053
Figure BDA0003328956060000054
为动态运动原语生成的关节期望角度,q,
Figure BDA0003328956060000055
为机械臂当前的关节位置和速度,e和
Figure BDA0003328956060000056
是轨迹跟踪误差和速度误差,径向基神经网络参数
Figure BDA0003328956060000057
Figure BDA0003328956060000058
其中
Figure BDA0003328956060000059
Figure BDA00033289560600000510
是神经网络的权重矩阵,Hm,Cm,Gm是机械臂模型参数,径向基函数矩阵SH(q),
Figure BDA00033289560600000511
SG(q),N是径向基神经网络的节点个数,在神经网络权重按如下式子更新时:
Figure BDA00033289560600000512
其中,
Figure BDA00033289560600000513
而ΓH,ΓC,ΓG,ρH,ρCG用于调整神经网络权重的跟新速率;该控制律能保证整个机器人技能学习系统的稳定性,且通过神经网络对动力学参数的误差进行补偿,从而能在一定程度上保证操作者和机械臂安全以及提升了机械臂的控制精度。
本发明的有益效果如下:
1)降低了部署难度:机械臂通过模仿学习的方式学习技能,而不再是复杂的手动编程,可以简化对于不同任务的部署复杂度,增强了系统对应场景和操作目标的泛化性能。
2)将原有的模仿学习方法进行了扩展,不仅仅对动作的轨迹进行模仿,还对负载力矩进行了模仿,使其可执行更多的任务。
3)系统具有稳定性,能在一定程度上保证人员和机械臂的安全。
附图说明
图1是本发明的整体流程示意图;
图2是本发明的动态运动原语模型框架示意图;
图3是本发明控制器的框图。
具体实施方式
为使本发明的上述目的、特点和优点更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
一种基于动态运动原语和自适应控制的机械臂模仿学习方法,所述的模仿学习方法包括以下步骤:
步骤1:拖动示教,示教人员通过拖动机械臂完成所需的任务,在拖动的过程中记录关节位置、速度、加速度和机械臂外部负载力矩,通过重复Nd次该示教过程,得到示教动作的数据集;
步骤2:动作建模,得到多次示教得到的动作数据集后,对轨迹特征和负载力矩特征进行建模,用于生成动作序列控制机械臂复现动作;
步骤3:动作泛化,考虑到动作需要泛化,在得到模型后,通过参数来调整生成动作的轨迹,泛化出所需的动作;然后通过泛化后的模型生成位置、速度、加速度和负载力矩控制量,同时机械臂反馈位置、速度和力矩到动态运动原语模型中,用于生成下一周期的动作序列;
步骤4:动作复现,通过自适应神经网络控制器控制机械臂复现建模的动作。
所述机械臂的模仿学习方法中,所述步骤2具体为:
步骤2-1:将示教动作数据分离为轨迹特征和负载力矩特征;
步骤2-2:通过引入高斯混合模型和高斯混合回归的动态运动原语对轨迹特征进行建模;
步骤2-3:通过结合径向基神经网络的动态运动原语对负载力矩特征进行建模;
所述步骤2-2中,为使动态运动原语能从多示教轨迹中建模动作,将高斯混合模型和高斯混合回归应用于动态运动原语中,动态运动原语模型表示如下:
Figure BDA0003328956060000061
Figure BDA0003328956060000062
Figure BDA0003328956060000063
Figure BDA0003328956060000064
Figure BDA0003328956060000065
其中,
Figure BDA0003328956060000066
为机械臂的关节位置,g为目标位置,τs为时间常数,αz和βz是正常数,通常选取βz=αz/4,使得式(1)中的弹簧阻尼系统达到临界阻尼。
针对示教的数据集
Figure BDA0003328956060000067
其中θt,n
Figure BDA0003328956060000068
是t时刻的位置,速度,加速度,通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(xk,fk,n)|k=1,2,…,T;n=1,2,…,Nd},其中
Figure BDA0003328956060000071
xk为系统
Figure BDA0003328956060000072
上的等时间间隔采样;对数据集进行高斯混合模型建模,高斯混合模型联合概率密度函数定义如下:
Figure BDA0003328956060000073
其中,
Figure BDA0003328956060000074
N(·)是高斯概率分布,αk≥0是权重,
Figure BDA0003328956060000075
K是高斯基的个数,
Figure BDA0003328956060000076
Figure BDA0003328956060000077
表示的是第K个高斯基分布的均值和方差。为获得初始高斯混合模型模型参数,对数据集进行K-means聚类,即
Figure BDA0003328956060000078
其中,x=[xk,fk,n]T,mk是集合Dk的均值,把数据集分成K个部分D={D1,D2,…,Dk}后,初始的参数为
Figure BDA0003328956060000079
通过EM(Expectation-Maximum)算法求取最优参数πk=(αkkk),得到最终的高斯混合模型模型。通过高斯混合回归估计真实的f(x),即
Figure BDA00033289560600000710
其中
Figure BDA00033289560600000711
然后在等时间间隔选取高斯基中心位置的情况下,利用局部线性回归求取动态运动原语高斯基权重,即可得到想要的动态运动原语参数模型。
所述步骤2-3中,将神经网络应用于动态运动原语的强迫项拟合中,使改进后的动态运动原语能不仅能从多示教轨迹中建模动作,而且具有更高的动作建模精度,但是这也导致需要更多的计算量,其具体步骤如下:
1)对于采集的负载力矩数据{τt,n|t=1,2,…,T;n=1,2,…,Nd},其中τt,n是t时刻的负载力矩,通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(xk,Fn(xk))|k=1,2,…,T;n=1,2,…,Nd},其中:
Figure BDA00033289560600000712
利用径向基神经网络拟合该数据,通过梯度下降的方式得到最优权重,即:
Figure BDA00033289560600000713
2)将得到的网络参数
Figure BDA00033289560600000714
用于生成强迫项函数f(x)=F(x)x(g-τ0),即可得到负载力矩的参数模型。
所述步骤3中,在完成对示教动作的建模后,对于新的相似任务,为了通过较少的示教过程完成该类的任务,可以通过泛化动态运动原语中的目标位置,即通过修改动态运动原语中的目标位置g,其具体步骤如下:
1)从示教轨迹中可以得到物块放置的期望位置的关节角度g;
2)利用TRAC-IK机器人运动求解器,将θg和由相机测量得到的新放置目标位置xg'传入到TRAC-IK求解器中,得到新的关节期望角度θg′
3)将得到的新关节期望角度θg′传入动态运动原语模型的g中:
4)在泛化目标位置时,在修改了目标位置后产生了新的泛化轨迹,但由于轨迹的拉伸等会产生机械臂不可执行的速度,为此,将动态运动原语生成的运动速度v与相位系统中的τ参数通过式子
Figure BDA0003328956060000081
τ(0)=τ0相耦合,其中σ(v)=[σ1(v1),…,σn(vn)]T
Figure BDA0003328956060000082
Mi为归一化后的关节速度最大值,vi为关节的速度,通过这一方法,可以调整每一个动作的持续时间,从而调整动态运动原语模型,使其产生的速度可以被限制到机械臂的可执行范围内;
5)通过上述运动原语模型生成动作和力矩序列,以控制机械臂收敛到新的期望目标,从而可用少量的示教动作,来完成更多的类似任务。
所述步骤4中,在动作复现中,定义具有外部负载力矩的n连杆刚性机械臂动力学模型:
Figure BDA0003328956060000083
其中,
Figure BDA0003328956060000084
为关节位移量,
Figure BDA0003328956060000085
为关节的力矩,τp为机械臂的外部负载力矩。矩阵
Figure BDA0003328956060000086
是机械臂的惯性矩阵,
Figure BDA0003328956060000087
是向心力矩和科里奥利力矩,
Figure BDA0003328956060000088
包含了重力项和其他力。
为了在跟踪关节轨迹的同时补偿了外部负载力矩,设计了如下控制律:
Figure BDA0003328956060000089
其中τdmp是对负载力矩的建模结果,e是轨迹跟踪误差,
Figure BDA00033289560600000810
Figure BDA00033289560600000811
Figure BDA00033289560600000812
是神经网络的权重矩阵,Hm,Cm,Gm是机械臂模型参数,径向基函数矩阵SH(θ),
Figure BDA00033289560600000813
SG(θ),N是径向基神经网络的节点个数。
将(8)代入机械臂的动力学方程(7)中可得:
Figure BDA00033289560600000814
定义估计误差
Figure BDA00033289560600000815
Figure BDA00033289560600000816
得到如下加速度误差:
Figure BDA00033289560600000817
其中εdmp为力矩量的建模误差,然后选取如下Lypunov函数:
V=V1+V2 (12)
其中:
Figure BDA00033289560600000818
Figure BDA0003328956060000091
其中ΓH -1C -1G -1是正定矩阵,对V1求导可得:
Figure BDA0003328956060000092
Figure BDA0003328956060000093
将式(9)代入式(11)可得:
Figure BDA0003328956060000094
Figure BDA0003328956060000095
是一个反对称矩阵,式(14)可转换为:
Figure BDA0003328956060000096
对V2求导可得:
Figure BDA0003328956060000097
根据式(13),并结合
Figure BDA0003328956060000098
结合迹运算Tr(·)可得如下式子:
Figure BDA0003328956060000099
其中神经网络的权值更新如下:
Figure BDA00033289560600000910
将式(18)代入式(17)可得:
Figure BDA00033289560600000911
根据杨氏不等式和
Figure BDA00033289560600000912
可得:
Figure BDA00033289560600000913
其中,
Figure BDA00033289560600000914
其中,KF是||εr||的上界,因此使得
Figure BDA00033289560600000915
成立的条件为:
Figure BDA00033289560600000916
由此可知
Figure BDA00033289560600000917
会收敛到一个不变集:
Figure BDA00033289560600000918
可得考虑机械臂动力学模型(7),在给定的有界的qd
Figure BDA00033289560600000919
下,控制律(8)和神经网络权重更新律(18)将保证闭环系统的稳定性。
根据上述分析得到基于动态运动原语的机械臂模仿学习方法的过程为:
S1:示教人员拖动机械臂得到动作轨迹和负载力矩的示教数据集
Figure BDA0003328956060000101
S2:分别用两种方法对动作轨迹和力矩建模,然后将两部分动态运动原语通过相位系统结合在一起,便于泛化处理;
S3:根据任务需求对动态运动原语模型进行泛化,包括期望位置的泛化和动作执行速度的泛化;
S4:利用动态运动原语生成关节轨迹、速度、加速度和负载力矩控制量,结合式(8)(18)得到控制律,用于控制机械臂复现动作,同时机械臂反馈实时关节位置、速度、加速度到动态运动原语模型中,用于生成新的控制序列。
实施例:
本实例公开了一种基于动态运动原语和自适应控制的机械臂模仿学习方法,其系统包括Franka EmikaPanda机械臂,相机,物块等。
具体的,设计了一个用Panda机械臂到指定位置夹取物块,并搬运物块的任务;
S1:将机械臂和物块安装在同一个平面上,操作人员拖动机械臂,将其末端移植物块处,并控制爪子闭合夹取物块,搬运至指定目标位置,这一过程中,记录机械臂的关节信息和负载力矩数据
Figure BDA0003328956060000102
S2:将关节位置、速度、加速度用动态运动原语进行建模,对负载力矩采用动态运动原语建模,并通过相位系统将两者结合到一起,便于泛化的使用如图2;
S3:还原物块位置,并小范围移动物块位置,相机测取物块的位置,传递给机械臂的控制器,然后对动态运动原语模型进行泛化;
S4:读取机械当前关节状态
Figure BDA0003328956060000103
结合动态运动原语模型生成控制序列
Figure BDA0003328956060000104
结合(8)(10)式得出控制量,用于机械臂的控制,之后重复该步。

Claims (7)

1.基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,包括以下步骤:
1)拖动示教:通过拖动机械臂完成所需的任务,在拖动的过程中记录机械臂关节位置、速度、加速度和机械臂外部负载力矩,通过重复Nd次该示教过程,得到示教动作的数据集;
2)动作建模:得到多次示教的动作数据集后,对轨迹特征和负载力矩特征进行建模,用于生成动作序列控制机械臂复现动作;
3)动作泛化:考虑到动作需要泛化,在得到模型后,通过参数来调整生成动作的轨迹,泛化出所需的动作;然后通过泛化后的模型生成位置、速度、加速度和负载力矩控制量,同时机械臂反馈位置、速度和力矩到动态运动原语模型中,用于生成下一周期的动作序列;
4)动作复现,通过自适应神经网络控制器控制机械臂复现建模的动作。
2.根据权利要求1所述的基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,所述的步骤2)具体为:
2.1)将示教动作数据分离为轨迹特征和负载力矩特征;
2.2)通过引入高斯混合模型和高斯混合回归的动态运动原语对轨迹特征进行建模;
2.3)通过结合径向基神经网络的动态运动原语对负载力矩特征进行建模。
3.根据权利要求2所述的基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,所述步骤2)中:针对示教数据中的轨迹特征,将高斯混合模型和高斯混合回归应用于动态运动原语中,从而使动态运动原语能从多组示教轨迹中建模轨迹特征,其建模过程如下:
a)对于采集的多组示教轨迹数据集
Figure FDA0003328956050000011
其中θk,n
Figure FDA0003328956050000012
分别是k时刻的位置、速度、加速度,通过动态运动原语模型从示教轨迹数据集中得到强迫项数据集{(xk,fk,n)|k=1,2,…,T;n=1,2,…,Nd},其中
Figure FDA0003328956050000013
xk为系统
Figure FDA0003328956050000014
上的等时间间隔采样,τs为系统的相位参数用于控制系统状态的持续时间,T和Nd分别为单条轨迹的最大采样次数和示教轨迹条数,αz和βz为正常数,通常选取βz=αz/4使得系统达到临界阻尼,x为相位系统的状态,αx用于调节相位系统的收敛速度;
模型联合概率密度函数定义如下:
Figure FDA0003328956050000015
其中,
Figure FDA0003328956050000016
μx,k和μf,k是第k个高斯分布的相位和强迫项均值,
Figure FDA0003328956050000017
Σx,k、Σxf,k、Σfx,k、Σf,k是第k个高斯分布的相位与强迫项的方差以及其之间的协方差,N(·)是高斯概率分布,αk≥0是权重,
Figure FDA0003328956050000021
K是高斯基的总个数,
Figure FDA0003328956050000022
Figure FDA0003328956050000023
表示的是第K个高斯基分布的均值和方差;为获得初始高斯混合模型参数,对数据集进行K-means聚类,即
Figure FDA0003328956050000024
其中,x=[xk,fk,n]T,mk是集合Dk的均值,把数据集分成K个部分D={D1,D2,…,Dk}后,初始参数为
Figure FDA0003328956050000025
Di为第i个部分所有点的集合;
c)通过EM算法求取最优参数πk=(αkkk),得到最终的高斯混合模型;
d)通过高斯混合回归估计真实的f(x),即
Figure FDA0003328956050000026
其中
Figure FDA0003328956050000027
N(x;μx,kx,k)为由数据集中获取的均值和方差组成的高斯分布,然后在等时间间隔选取高斯基中心位置的情况下,利用局部线性回归求取动态运动原语高斯基权重,即可得到动态运动原语参数模型。
4.根据如权利要求2所述的基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,所述步骤2)中:针对示教数据中的外部负载力矩特征,将神经网络应用到动态运动原语的强迫项拟合中,使改进后的动态运动原语不仅能从多示教轨迹中建模动作,而且具有更高的动作建模精度,其建模过程步骤如下:
e)对于采集的负载力矩{τt,n|t=1,2,…,T;n=1,2,…,Nd},其中τt,n是t时刻的负载力矩,通过动态运动原语模型分解出其中的强迫项得到强迫项的数据集{(xk,Fn(xk))|k=1,2,…,T;n=1,2,…,Nd},其中:
Figure FDA0003328956050000028
利用径向基神经网络拟合该数据,通过梯度下降的方式得到最优权重,即:
Figure FDA0003328956050000029
其中RN是N维实数向量张成的空间,Ωx为x的取值空间,S(x)为径向基函数神经网络,其可以由以下高斯基函数组成:
Figure FDA00033289560500000210
F(x)即强迫项数据集,x为相位系统的状态,ci为高斯基函数的中心位置,σi为高斯基函数的方差;
f)将得到的网络参数
Figure FDA00033289560500000211
用于生成强迫项函数f(x)=F(x)x(τg0),其中τg和τ0分别为力矩目标值和力矩初始值,即可得到负载力矩的参数模型。
5.根据权利要求2所述的基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,所述步骤2)中:为使动态运动原语能从多示教轨迹中建模动作,将高斯混合模型和高斯混合回归应用于动态运动原语中,动态运动原语模型表示如下:
Figure FDA0003328956050000031
Figure FDA0003328956050000032
Figure FDA0003328956050000033
Figure FDA0003328956050000034
Figure FDA0003328956050000035
其中,
Figure FDA0003328956050000036
为机械臂的关节位置,g为目标位置,τs为时间常数,αz和βz是正常数,wi为权重参数,y0为系统初始状态,N为高斯基总个数,ci为高斯基中心位置,si是高斯基的方差,x为相位系统的状态。
6.根据如权利要求1所述的基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,所述步骤3)中在完成对示教动作的建模后,对于新的相似任务,为了通过较少的示教过程完成该类的任务,通过泛化动态运动原语中的目标位置,即通过修改动态运动原语中的目标位置g,其具体步骤如下:
g)从示教轨迹中可以得到物块放置的期望位置的关节角度θg
h)利用机器人运动求解器TRAC-IK工具包,将关节期望角θg和由相机测量得到的空间坐标系下新的放置目标位置xg'传入到TRAC-IK求解器中,得到新的关节期望角度θg′
i)将得到的新关节期望角度θg′传入动态运动原语模型的g中;
j)在泛化目标位置时,在修改了目标位置后产生了新的泛化轨迹,但由于轨迹的拉伸会产生机械臂不可执行的速度,为此,将动态运动原语生成的运动速度v与相位系统中的τ参数通过式子
Figure FDA0003328956050000037
τ(0)=τ0相耦合,其中σ(v)=[σ1(v1),…,σn(vn)]T
Figure FDA0003328956050000038
Mi为归一化后的关节速度最大值,vi为关节的速度,通过这一方法,可以调整每一个动作的持续时间,从而调整动态运动原语模型,使其产生的速度可以被限制到机械臂的可执行范围内,γ0,γ1用于调节势场函数的形状;
k)通过上述运动原语模型生成动作和力矩序列,以控制机械臂收敛到新的期望目标,从而可用少量的示教动作,来完成更多的类似任务。
7.根据如权利要求1所述的基于动态运动原语和自适应控制的机械臂模仿学习方法,其特征在于,所述步骤4)中:在动作复现中,在跟踪关节轨迹的同时补偿了外部负载力矩,设计了如下控制律:
Figure FDA0003328956050000039
其中,τdmp是对负载力矩的建模结果,Kp,Kd为控制器的比例和微分增益,
Figure FDA00033289560500000310
为动态运动原语生成的关节期望角度,q,
Figure FDA00033289560500000311
为机械臂当前的关节位置和速度,e和
Figure FDA00033289560500000312
是轨迹跟踪误差和速度误差,径向基神经网络参数
Figure FDA0003328956050000041
Figure FDA0003328956050000042
其中
Figure FDA0003328956050000043
Figure FDA0003328956050000044
是神经网络的权重矩阵,Hm,Cm,Gm是机械臂模型参数,径向基函数矩阵SH(q),
Figure FDA0003328956050000045
SG(q),N是径向基神经网络的节点个数,在神经网络权重按如下式子更新时:
Figure FDA0003328956050000046
其中,
Figure FDA0003328956050000047
而ΓH,ΓC,ΓG,ρH,ρCG用于调整神经网络权重的跟新速率;该控制律能保证整个机器人技能学习系统的稳定性,且通过神经网络对动力学参数的误差进行补偿,从而能在一定程度上保证操作者和机械臂安全以及提升了机械臂的控制精度。
CN202111274511.9A 2021-10-29 2021-10-29 基于动态运动原语和自适应控制的机械臂模仿学习方法 Active CN113977580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111274511.9A CN113977580B (zh) 2021-10-29 2021-10-29 基于动态运动原语和自适应控制的机械臂模仿学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111274511.9A CN113977580B (zh) 2021-10-29 2021-10-29 基于动态运动原语和自适应控制的机械臂模仿学习方法

Publications (2)

Publication Number Publication Date
CN113977580A true CN113977580A (zh) 2022-01-28
CN113977580B CN113977580B (zh) 2023-06-27

Family

ID=79744628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111274511.9A Active CN113977580B (zh) 2021-10-29 2021-10-29 基于动态运动原语和自适应控制的机械臂模仿学习方法

Country Status (1)

Country Link
CN (1) CN113977580B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114683287A (zh) * 2022-04-25 2022-07-01 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109108942A (zh) * 2018-09-11 2019-01-01 武汉科技大学 基于视觉实时示教与自适应dmps的机械臂运动控制方法和系统
CN109108978A (zh) * 2018-09-11 2019-01-01 武汉科技大学 基于学习泛化机制的三自由度空间机械臂运动规划方法
CN110561421A (zh) * 2019-08-09 2019-12-13 哈尔滨工业大学(深圳) 机械臂间接拖动示教方法及装置
US20200189099A1 (en) * 2017-09-15 2020-06-18 Google Llc Improvements related to generating a robot control policy from demonstrations collected via kinesthetic teaching of a robot
CN113043251A (zh) * 2021-04-23 2021-06-29 江苏理工学院 一种机器人示教再现轨迹学习方法
CN113070878A (zh) * 2021-03-26 2021-07-06 中国科学院深圳先进技术研究院 基于脉冲神经网络的机器人控制方法、机器人及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200189099A1 (en) * 2017-09-15 2020-06-18 Google Llc Improvements related to generating a robot control policy from demonstrations collected via kinesthetic teaching of a robot
CN109108942A (zh) * 2018-09-11 2019-01-01 武汉科技大学 基于视觉实时示教与自适应dmps的机械臂运动控制方法和系统
CN109108978A (zh) * 2018-09-11 2019-01-01 武汉科技大学 基于学习泛化机制的三自由度空间机械臂运动规划方法
CN110561421A (zh) * 2019-08-09 2019-12-13 哈尔滨工业大学(深圳) 机械臂间接拖动示教方法及装置
CN113070878A (zh) * 2021-03-26 2021-07-06 中国科学院深圳先进技术研究院 基于脉冲神经网络的机器人控制方法、机器人及存储介质
CN113043251A (zh) * 2021-04-23 2021-06-29 江苏理工学院 一种机器人示教再现轨迹学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WENAN ZHANG等: "Networked Fusion Kalman Filtering With Multiple Uncertainties", 《IEEE TRANSACTIONS ON AEROSPACE AND ELECTRONIC SYSTEMS》 *
WENAN ZHANG等: "Networked Fusion Kalman Filtering With Multiple Uncertainties", 《IEEE TRANSACTIONS ON AEROSPACE AND ELECTRONIC SYSTEMS》, 31 July 2015 (2015-07-31) *
周忠祥等: "机器人演示编程技术的研究进展", 《自动化博览》 *
周忠祥等: "机器人演示编程技术的研究进展", 《自动化博览》, no. 06, 15 June 2020 (2020-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114683287A (zh) * 2022-04-25 2022-07-01 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法
CN114683287B (zh) * 2022-04-25 2023-10-20 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法

Also Published As

Publication number Publication date
CN113977580B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
Yang et al. Robot learning system based on adaptive neural control and dynamic movement primitives
CN108115681B (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Köker et al. A study of neural network based inverse kinematics solution for a three-joint robot
Peters et al. Towards motor skill learning for robotics
CN109702740B (zh) 机器人柔顺性控制方法、装置、设备及存储介质
KR101577711B1 (ko) 시간 및 공간적 관계를 이용한 작업 솜씨 학습 방법
Fanger et al. Gaussian processes for dynamic movement primitives with application in knowledge-based cooperation
Chen et al. Robot learning from multiple demonstrations with dynamic movement primitive
KR101819323B1 (ko) 모사학습 및 행동 조합에 기반한 로봇의 작업 행동궤적 생성 방법 및 그 장치
CN111638654A (zh) 一种故障自适应的运载火箭智能控制半实物仿真方法
JP2000347708A (ja) ニューラルネットよる動的システムの制御方法及び装置及びニューラルネットよる動的システムの制御プログラムを格納した記憶媒体
CN113977580A (zh) 基于动态运动原语和自适应控制的机械臂模仿学习方法
Duan et al. Sequential learning unification controller from human demonstrations for robotic compliant manipulation
CN116627157B (zh) 一种运载火箭的运行控制方法、装置及设备
Li et al. Hierarchical optimal control of redundant biomechanical systems
Wang et al. Machine learning for soft robot sensing and control: A tutorial study
CN116141314A (zh) 基于射影几何代数的机器人动力学参数辨识方法及系统
Artale et al. An integrated system for UAV control using a neural network implemented in a prototyping board
CN112276947B (zh) 一种机器人动作模仿方法、装置、设备及存储介质
Caggiano et al. A biomimetic approach to mobility distribution for a human-like redundant arm
KR20130067345A (ko) 작업 솜씨를 학습하는 방법 및 이를 이용한 로봇
CN112800546A (zh) 一种火箭垂直回收状态可控性分析方法和装置
Radak et al. Lightweight generator of synthetic imu sensor data for accurate ahrs analysis
Lundell Dynamic movement primitives and reinforcement learning for adapting a learned skill
Du et al. AeroBotSim: A High-Photo-Fidelity Simulator for Heterogeneous Aerial Systems Under Physical Interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant