CN114952849A - 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法 - Google Patents

一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法 Download PDF

Info

Publication number
CN114952849A
CN114952849A CN202210621679.0A CN202210621679A CN114952849A CN 114952849 A CN114952849 A CN 114952849A CN 202210621679 A CN202210621679 A CN 202210621679A CN 114952849 A CN114952849 A CN 114952849A
Authority
CN
China
Prior art keywords
mechanical arm
joint
moment
control
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210621679.0A
Other languages
English (en)
Other versions
CN114952849B (zh
Inventor
方梓仰
王进
张海运
李小飞
翟安邦
陆国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd
Zhejiang University ZJU
Original Assignee
Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd, Zhejiang University ZJU filed Critical Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd
Priority to CN202210621679.0A priority Critical patent/CN114952849B/zh
Publication of CN114952849A publication Critical patent/CN114952849A/zh
Application granted granted Critical
Publication of CN114952849B publication Critical patent/CN114952849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1633Programme controls characterised by the control loop compliant, force, torque control, e.g. combined with position control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1648Programme controls characterised by the control loop non-linear control combined or not with linear control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明属于机器人控制技术领域,公开了一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法.该方法可在被控系统中存在动力学不确定性、未建模非线性因素、参数摄动和未知外部干扰等条件下,能够自主准确跟踪参考轨迹,并自适应减小轨迹误差以实现提高轨迹跟踪精度。本发明运用了动力学前馈控制和人工蜂群算法对动力学参数进行辨识补偿作为控制方法的基础,通过二者的融合,加之针对未建模的非线性因素、外部干扰等偏差的强化学习TD3补偿算法,实现了控制方法和控制器的设计。该控制方法能对不同结构参数机械臂的动力学不确定性所产生的轨迹误差进行自适应反馈调整和补偿,有效提高轨迹跟踪精度和性能。

Description

一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制 器设计方法
技术领域
本发明属于机器人控制技术领域,涉及一种提高机械臂轨迹跟踪精度的控制方法,尤其涉及一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法。
背景技术
机械臂广泛部署于智能制造的各个环节,特别是在协作搬运、激光焊接,抛光打磨以及高精度的加工等领域。由于机械臂刚性、电机力矩有限、电机响应速度有限,使得加装负载运动后产生偏差,并且安装后的真机动力学参数与名义值有偏差,导致输出力矩值不足以执行相应的轨迹。这些因素使得机械臂无法满足高精度任务的需求。传统工厂中的采用部分轨迹降低机械臂运行速度,如包裹的搬运与摆放。任务过程中设置多个停止点位来进行误差修正,如智能工厂中工件的夹取与安装,使得机械臂部分运行轨迹能满足任务需求。但低速运行以及运行中设置暂停点位使得机械臂的工作效率大打折扣,不能完全发挥机械臂的优势。因此为保证机械臂运行轨迹逼近于规划轨迹,需要对机器人轨迹误差补偿算法进行研究。
目前常用的轨迹跟踪误差补偿算法,存在以下的不足:采用PID控制线性组合误差收敛较慢、抗干扰能力差,即使参数经过精心调节,仍难以精准整定且轨迹精度易受到外部扰动影响。采用动力学前馈控制无法应对非模型偏差。采用强化学习进行力矩环对机械臂控制,学习周期较长,训练过程不可控,存在损坏机械臂的情况,无法应对未知的复杂环境,结果不镇定。
发明内容
本发明的目的在于针对机械臂在运动过程中由于模型参数偏差、非线性扰动等造成轨迹跟踪精度不足的情况,提供一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,该方法可得到一种强化学习TD3与动力学前馈结合的最优控制器来确保轨迹跟踪和误差收敛的精度,同时也提高同步控制性能。
为实现上述目的,本发明提供了如下的技术方案:
根据本发明的一种具体实例,一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,所述控制方法包含以下几个步骤:
A.动力学参数辨识模型构建
构建机械臂动力学参数辨识模型,通过设计的激励轨迹,采集机械臂运动信息与已知的动力学模型方程相结合,计算出对应的偏差;
B.基于人工蜂群算法动力学参数辨识
针对机械臂动力学模型参数的辨识,求解过程通过人工蜂群算法循环迭代更新,找到满足的“蜜源”,即找到满足精度的解,最小化偏差e,从而得到机械臂的真实动力学参数;
C.设计动力学前馈控制器
通过建立动态的惯量模型,给出系统内部控制所需的控制量,减小目标关节角度与实际关节角度的偏差,减小位置误差;
D.对未建模的误差采用强化学习TD3进一步补偿。
进一步的,步骤A具体为:
采用牛顿-欧拉迭代构建机械臂动力学参数辨识模型:
Figure BDA0003674877120000021
公式(1)中,q是机械臂关节角度,
Figure BDA0003674877120000022
为关节角速度,
Figure BDA0003674877120000023
为关节角加速度,τ是各个关节轴驱动力矩,D(q)是对称正定的n×n质量矩阵,
Figure BDA0003674877120000024
是科里奥利和离心力向量,维度为n×1,G(q)是包含重力矩的向量;Fcv为摩擦力项,具体展开为:
Figure BDA0003674877120000025
公式(2)中Fcv为摩擦力,fc是库伦摩擦力矩,fv是粘性摩擦系数,sign为符号函数;通过公式(1)对串联机械臂进行递推,得到机械臂动力学模型;然后,通过设计的激励轨迹,采集到机械臂的各个关节力矩、关节角度、角速度、角加速度信息和已知的动力学模型方程相结合,计算出对应的偏差:
Figure BDA0003674877120000026
公式(3)中e代表理论值和真实值的偏差;τt为通过公式(1)计算得出的关节力矩,Ft为传感器采集到的各个关节力矩信息,m代表关节轴数,n代表采样数量;wi为第i关节轴力矩残差的权重。
进一步的,步骤B具体为:
针对机械臂动力学模型参数的辨识,求解过程可以通过人工蜂群算法循环迭代更新,找到满足的“蜜源”,即找到满足精度的解;要求解的m个动力学参数,如下:
X=[x1,x2,…,xm] (4)
其中,x代表动力学模型中待辨识的参数,第n次迭代求解得到的第i个蜜源表达为:
Figure BDA0003674877120000031
对第i个蜜源在搜索约束的范围内,进行随机初始化:
Xi=Xmin+rand(0,1)(Xmax-Xmin) (6)
公式(6)中rand(0,1)表示生成范围为[0 1]的随机数,Xmax为辨识参数上限, Xmin为辨识参数下限,Xi为第i次搜索初始化值;然后,蜜蜂更新蜜源的位置信息:
vij=xij+δ(xij-xkj) (7)
式中,v代表更新的位置,j∈{1,2,3...,m-1,m}代表更新的是第几个参数,i和 k代表第几次更新,但i≠k,δ∈[-1,1],δ(xij-xkj)表示扰动大小;当新的蜜源Vi带入公式(3)的求解小于Xi时,其中Vi=[vi1,vi2,…,vim],采用贪心的方法用Vi替代Xi
所有的引领蜂根据公式(7)更新后,跟随蜂按照引领蜂提供的蜜源信息,进行更新,经过迭代,如果蜜源Xi达到阈值但没找到更好的蜜源,则Xi将会被放弃,并将引领蜂转换为侦查蜂。最终,判断求得的解是否满足终止条件,或者是否达到了迭代的上限。
通过人工蜂群算法对参数进行辨识,最小化偏差e,从而得到机械臂的真实动力学参数。
进一步的,步骤C具体为:
采集关节角度、角速度和加速度,通过公式(1)和B中计算出的真机模型参数,计算得到动力学力矩τd,然后采用双环PID控制,其中内环的控制律为:
Figure BDA0003674877120000041
Figure BDA0003674877120000042
其中
Figure BDA0003674877120000043
为目标关节角速度,
Figure BDA0003674877120000044
为机械臂真实关节角速度,
Figure BDA0003674877120000045
为两者偏差值,
Figure BDA0003674877120000046
为比例控制,TI为积分控制参数,
Figure BDA0003674877120000047
为微分控制参数;
外环的控制律为:
Figure BDA0003674877120000048
e(t)=qd-q (11)
其中qd为目标关节角度,q为机械臂真实关节角度,e为两者偏差值,KP为比例控制,TI为积分控制参数,TD为微分控制参数;
前馈控制的控制律为:
τ=τPIDd (12)
其中τ为动力学前馈输出力矩,τPID为双环PID力矩,τd为动力学参数辨识后计算出的动力学力矩。
进一步的,步骤D具体为:
构建机械臂输入输出模型:
xt+1=f(xtt) (13)
式中f函数代表机械臂非线性动力系统,t时刻输入为关节力矩τt
Figure BDA0003674877120000049
xt为t时刻机械臂状态,xt+1为t+1时刻机械臂状态,智能体输出为关节力矩值。
TD3智能体输出值,通过力矩的形式补偿到各个关节:
Figure BDA00036748771200000410
式中t为第t时刻,τt为t时刻的力矩,h(Δθ,t)为原始的机械臂控制算法,Δθ为目标角度和真实角度差值,θr为真实角度值,
Figure BDA0003674877120000051
为真实角速度。原始的机械臂控制算法中各轴相互立,各轴误差不对其他的轴输出力矩产生影响。a为智能体补偿的力矩值,
Figure BDA0003674877120000052
TD3的观测状态为:
Figure BDA0003674877120000053
式中θr是t时刻关节角的真实值,
Figure BDA0003674877120000054
为关节的真实角速度,θn为t时刻关节的目标值θr,
Figure BDA0003674877120000055
观测值包含当前时刻各个目标关节的角度。针对非线性轨迹误差系统f(xtt),TD3可以不基于数学模型学习补偿参数值,以达到最优控制的目标。
结合公式(12)和公式(14)得,机械臂控制系统力矩输出为:
τ=τPIDd+a (16)
本发明的有益效果是:
本发明的方法运用动力学前馈控制和人工蜂群算法对动力学参数进行辨识补偿,通过二者的融合,加之针对未建模的非线性因素、外部干扰等偏差的强化学习TD3补偿算法,实现了控制方法和控制器的设计。运用人工蜂群算法与动力学前馈相融合,人工蜂群算法具有离线辨识动力学参数能力,能够不断迭代获得趋近于真机的动力学模型参数。动力学前馈采用辨识后的动力学参数能够计算出各轴所需力矩大小。采用强化学习TD3算法能够在很短时间内补偿不确定性、参数摄动和干扰,将被控系统轨迹跟踪误差收敛到期望值(域)附近,有效提高了轨迹跟踪精度和性能。该控制方法能对不同结构参数机械臂的动力学不确定性所产生的轨迹误差进行自适应反馈调整和补偿,同时也提高了同步控制性能。
附图说明
附图1是本发明的控制方法的应用示意图
附图2是本发明的控制效果示意图。
附图3是本发明的人工蜂群算法动力学参数辨识流程示意图。
具体实施方式
下面结合附图和具体实施步骤对本发明的技术方案做进一步详细的说明。
一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,所述控制方法包含以下几个步骤:
A.动力学参数辨识模型构建。采用牛顿-欧拉迭代构建机械臂动力学参数辨识模型:
Figure BDA0003674877120000061
公式(1)中,q是机械臂关节角度,
Figure BDA0003674877120000062
为关节角速度,
Figure BDA0003674877120000063
为关节角加速度,τ是各个关节轴驱动力矩,D(q)是对称正定的n×n质量矩阵,
Figure BDA0003674877120000064
是科里奥利和离心力向量,维度为n×1,G(q)是包含重力矩的向量;Fcv为摩擦力项,具体展开为:
Figure BDA0003674877120000065
公式(2)中Fcv为摩擦力,fc是库伦摩擦力矩,fv是粘性摩擦系数,sign为符号函数;通过公式(1)对串联机械臂进行递推,得到机械臂动力学模型;然后,通过设计的激励轨迹,采集到机械臂的各个关节力矩、关节角度、角速度、角加速度信息和已知的动力学模型方程相结合,计算出对应的偏差:
Figure BDA0003674877120000066
公式(3)中e代表理论值和真实值的偏差;τt为通过公式(1)计算得出的关节力矩,Ft为传感器采集到的各个关节力矩信息,m代表关节轴数,n代表采样数量;wi为第i关节轴力矩残差的权重。
B.基于人工蜂群算法动力学参数辨识。针对机械臂动力学模型参数的辨识,求解过程可以通过人工蜂群算法循环迭代更新,找到满足的“蜜源”,即找到满足精度的解;要求解的m个动力学参数,如下:
X=[x1,x2,…,xm] (20)
其中,x代表动力学模型中待辨识的参数,第n次迭代求解得到的第i个蜜源表达为:
Figure BDA0003674877120000071
对第i个蜜源在搜索约束的范围内,进行随机初始化:
Xi=Xmin+rand(0,1)(Xmax-Xmin) (22)
公式(6)中rand(0,1)表示生成范围为[0 1]的随机数,Xmax为辨识参数上限, Xmin为辨识参数下限,Xi为第i次搜索初始化值;然后,蜜蜂更新蜜源的位置信息:
vij=xij+δ(xij-xkj) (23)
式中,v代表更新的位置,j∈{1,2,3...,m-1,m}代表更新的是第几个参数,i和 k代表第几次更新,但i≠k,δ∈[-1,1],δ(xij-xkj)表示扰动大小;当新的蜜源Vi带入公式(3)的求解小于Xi时,其中Vi=[vi1,vi2,…,vim],采用贪心的方法用Vi替代Xi
所有的引领蜂根据公式(7)更新后,跟随蜂按照引领蜂提供的蜜源信息,进行更新,经过迭代,如果蜜源Xi达到阈值但没找到更好的蜜源,则Xi将会被放弃,并将引领蜂转换为侦查蜂。最终,判断求得的解是否满足终止条件,或者是否达到了迭代的上限。人工蜂群算法动力学参数辨识流程如图3所示。
通过人工蜂群算法对参数进行辨识,最小化偏差e,从而得到机械臂的真实动力学参数。
C.设计动力学前馈控制器。动力学前馈控制可以加快关节误差的收敛速度,改进机械臂动态响应特性,进而提高轨迹跟踪精度,实现高速高精度的运动控制。前馈控制的原理是通过建立动态的惯量模型,给出系统内部控制所需的控制量,进而减小目标关节角度与实际关节角度的偏差,减小位置误差,提高轨迹跟踪的精度。
针对动力学前馈控制,采集关节角度、角速度和加速度,通过公式(1)和B 中计算出的真机模型参数,计算得到动力学力矩τd,然后采用双环PID控制,其中内环的控制律为:
Figure BDA0003674877120000072
Figure BDA0003674877120000081
其中
Figure BDA0003674877120000082
为目标关节角速度,
Figure BDA0003674877120000083
为机械臂真实关节角速度,
Figure BDA0003674877120000084
为两者偏差值,
Figure BDA0003674877120000085
为比例控制,TI为积分控制参数,
Figure BDA0003674877120000086
为微分控制参数;
外环的控制律为:
Figure BDA0003674877120000087
e(t)=qd-q (27)
其中qd为目标关节角度,q为机械臂真实关节角度,e为两者偏差值,KP为比例控制,TI为积分控制参数,TD为微分控制参数;
前馈控制的控制律为:
τ=τPIDd (28)
其中τ为动力学前馈输出力矩,τPID为双环PID力矩,τd为动力学参数辨识后计算出的动力学力矩。
D.对未建模的误差采用强化学习TD3进一步补偿。
构建机械臂输入输出模型:
xt+1=f(xtt) (29)
式中f函数代表机械臂非线性动力系统,t时刻输入为关节力矩τt
Figure BDA0003674877120000088
xt为t时刻机械臂状态,xt+1为t+1时刻机械臂状态,智能体输出为关节力矩值。
TD3智能体输出值,通过力矩的形式补偿到各个关节:
Figure BDA0003674877120000089
式中t为第t时刻,τt为t时刻的力矩,h(Δθ,t)为原始的机械臂控制算法,Δθ为目标角度和真实角度差值,θr为真实角度值,
Figure BDA00036748771200000810
为真实角速度。原始的机械臂控制算法中各轴相互立,各轴误差不对其他的轴输出力矩产生影响。a为智能体补偿的力矩值,
Figure BDA00036748771200000811
TD3的观测状态为:
Figure BDA0003674877120000091
式中θr是t时刻关节角的真实值,
Figure BDA0003674877120000092
为关节的真实角速度,θn为t时刻关节的目标值θr,
Figure BDA0003674877120000093
观测值包含当前时刻各个目标关节的角度。针对非线性轨迹误差系统f(xtt),TD3可以不基于数学模型学习补偿参数值,以达到最优控制的目标。
结合公式(12)和公式(14)得,机械臂控制系统力矩输出为:
τ=τPIDd+a (32)
以六自由度机械臂的轨迹跟踪控制器设计为例,参照图1,选取人工蜂群算法补偿后的动力学前馈控制与双环PID作为主控制系统、采用强化学习TD3 算法对非模型偏差进行补偿,作为辅助控制系统。
基于牛顿-欧拉动力学系统,采用人工蜂群算法进行动力学参数辨识:
其中,针对牛顿-欧拉法建立的动力学模型,要对模型参数进行辨识;在本案例中,六自由度机械臂,辨识项为:
各关节质量:
[m1 m2 m3 m4 m5 m6] (33)
各个关节的质心位置:
Figure BDA0003674877120000094
惯性张量:
Figure BDA0003674877120000101
其中第i轴的质心惯性张量Ici,表示为:
Figure BDA0003674877120000102
各个关节的摩擦系数。其中包含粘滞摩擦和库伦摩擦:
fv=[fv1 fv2 fv3 fv4 fv5 fv6] (37)
fC=[fC1 fC2 fC3 fC4 fC5 fC6] (38)
通过辨识出以上参数,采用公式计算出前馈输出力矩。
双环PID系统与TD3控制系统:
每个轴分别部署双环PID系统,分别进行参数的调整和控制。使得各轴角度跟踪误差能够收敛。然后对机械臂添加TD3强化学习系统进行训练,TD3算法对力矩环进行控制,通过力矩补偿加速误差收敛,提高轨迹跟踪精度。其中智能体观测值为各轴真实角度、角速度、目标角度、目标角速度。评价函数为各轴角度偏差(负值)乘以权重值。目标为使得评价函数计算值趋近于零。
图2证明了该控制算法能有效对目标轨迹进行跟踪。这说明了本方法能够有效解决机械臂轨迹跟踪精度不足的情况,控制稳定性、鲁棒性、快速性和实时性都比较突出。

Claims (5)

1.一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,其特征在于,主要包含以下几个步骤:
A.动力学参数辨识模型构建
构建机械臂动力学参数辨识模型,通过设计的激励轨迹,采集机械臂运动信息与已知的动力学模型方程相结合,计算出对应的偏差;
B.基于人工蜂群算法动力学参数辨识
针对机械臂动力学模型参数的辨识,求解过程通过人工蜂群算法循环迭代更新,找到满足的“蜜源”,即找到满足精度的解,最小化偏差e,从而得到机械臂的真实动力学参数;
C.设计动力学前馈控制器
通过建立动态的惯量模型,给出系统内部控制所需的控制量,减小目标关节角度与实际关节角度的偏差,减小位置误差;
D.对未建模的误差采用强化学习TD3进一步补偿。
2.如权利要求1所述的一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,其特征在于,步骤A具体为:
采用牛顿-欧拉迭代构建机械臂动力学参数辨识模型:
Figure FDA0003674877110000011
公式(1)中,q是机械臂关节角度,
Figure FDA0003674877110000012
为关节角速度,
Figure FDA0003674877110000013
为关节角加速度,τ是各个关节轴驱动力矩,D(q)是对称正定的n×n质量矩阵,
Figure FDA0003674877110000014
是科里奥利和离心力向量,维度为n×1,G(q)是包含重力矩的向量;Fcv为摩擦力项,具体展开为:
Figure FDA0003674877110000015
公式(2)中Fcv为摩擦力,fc是库伦摩擦力矩,fv是粘性摩擦系数,sign为符号函数;通过公式(1)对串联机械臂进行递推,得到机械臂动力学模型;然后,通过设计的激励轨迹,采集到机械臂的各个关节力矩、关节角度、角速度、角加速度信息和已知的动力学模型方程相结合,计算出对应的偏差:
Figure FDA0003674877110000016
公式(3)中e代表理论值和真实值的偏差;τt为通过公式(1)计算得出的关节力矩,Ft为传感器采集到的各个关节力矩信息,m代表关节轴数,n代表采样数量;wi为第i关节轴力矩残差的权重。
3.如权利要求2所述的一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,其特征在于,步骤B具体为:
针对机械臂动力学模型参数的辨识,求解过程可以通过人工蜂群算法循环迭代更新,找到满足的“蜜源”,即找到满足精度的解;要求解的m个动力学参数,如下:
X=[x1,x2,…,xm] (4)
其中,x代表动力学模型中待辨识的参数,第n次迭代求解得到的第i个蜜源表达为:
Figure FDA0003674877110000021
对第i个蜜源在搜索约束的范围内,进行随机初始化:
Xi=Xmin+rand(0,1)(Xmax-Xmin) (6)
公式(6)中rand(0,1)表示生成范围为[01]的随机数,Xmax为辨识参数上限,Xmin为辨识参数下限,Xi为第i次搜索初始化值;然后,蜜蜂更新蜜源的位置信息:
vij=xij+δ(xij-xkj) (7)
式中,v代表更新的位置,j∈{1,2,3...,m-1,m}代表更新的是第几个参数,i和k代表第几次更新,但i≠k,δ∈[-1,1],δ(xij-xkj)表示扰动大小;当新的蜜源Vi带入公式(3)的求解小于Xi时,其中Vi=[vi1,vi2,…,vim],采用贪心的方法用Vi替代Xi
所有的引领蜂根据公式(7)更新后,跟随蜂按照引领蜂提供的蜜源信息,进行更新,经过迭代,如果蜜源Xi达到阈值但没找到更好的蜜源,则Xi将会被放弃,并将引领蜂转换为侦查蜂。最终,判断求得的解是否满足终止条件,或者是否达到了迭代的上限。
通过人工蜂群算法对参数进行辨识,最小化偏差e,从而得到机械臂的真实动力学参数。
4.如权利要求3所述的一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,其特征在于,步骤C具体为:
采集关节角度、角速度和加速度,通过公式(1)和B中计算出的真机模型参数,计算得到动力学力矩τd,然后采用双环PID控制,其中内环的控制律为:
Figure FDA0003674877110000031
Figure FDA0003674877110000032
其中
Figure FDA0003674877110000033
为目标关节角速度,
Figure FDA0003674877110000034
为机械臂真实关节角速度,
Figure FDA0003674877110000035
为两者偏差值,
Figure FDA0003674877110000039
为比例控制,TI为积分控制参数,
Figure FDA0003674877110000036
为微分控制参数;
外环的控制律为:
Figure FDA0003674877110000037
e(t)=qd-q (11)
其中qd为目标关节角度,q为机械臂真实关节角度,e为两者偏差值,KP为比例控制,TI为积分控制参数,TD为微分控制参数;
前馈控制的控制律为:
τ=τPIDd (12)
其中τ为动力学前馈输出力矩,τPID为双环PID力矩,τd为动力学参数辨识后计算出的动力学力矩。
5.如权利要求4所述的一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法,其特征在于,步骤D具体为:
构建机械臂输入输出模型:
xt+1=f(xtt) (13)
式中f函数代表机械臂非线性动力系统,t时刻输入为关节力矩τt
Figure FDA0003674877110000038
xt为t时刻机械臂状态,xt+1为t+1时刻机械臂状态,智能体输出为关节力矩值。
TD3智能体输出值,通过力矩的形式补偿到各个关节:
Figure FDA0003674877110000041
式中t为第t时刻,τt为t时刻的力矩,h(Δθ,t)为原始的机械臂控制算法,Δθ为目标角度和真实角度差值,θr为真实角度值,
Figure FDA0003674877110000042
为真实角速度。原始的机械臂控制算法中各轴相互立,各轴误差不对其他的轴输出力矩产生影响。a为智能体补偿的力矩值,
Figure FDA0003674877110000043
TD3的观测状态为:
Figure FDA0003674877110000044
式中θr是t时刻关节角的真实值,
Figure FDA0003674877110000045
为关节的真实角速度,θn为t时刻关节的目标值θr,
Figure FDA0003674877110000046
Figure FDA0003674877110000047
观测值包含当前时刻各个目标关节的角度。针对非线性轨迹误差系统f(xtt),TD3可以不基于数学模型学习补偿参数值,以达到最优控制的目标。
结合公式(12)和公式(14)得,机械臂控制系统力矩输出为:
τ=τPIDd+a (16)。
CN202210621679.0A 2022-06-01 2022-06-01 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法 Active CN114952849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210621679.0A CN114952849B (zh) 2022-06-01 2022-06-01 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210621679.0A CN114952849B (zh) 2022-06-01 2022-06-01 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法

Publications (2)

Publication Number Publication Date
CN114952849A true CN114952849A (zh) 2022-08-30
CN114952849B CN114952849B (zh) 2023-05-16

Family

ID=82960174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210621679.0A Active CN114952849B (zh) 2022-06-01 2022-06-01 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法

Country Status (1)

Country Link
CN (1) CN114952849B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117584137A (zh) * 2024-01-18 2024-02-23 浙江大学 面向随机工况的液压机械臂带载模型在线修正方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319144A (zh) * 2018-02-21 2018-07-24 湘潭大学 一种机器人轨迹跟踪控制方法及系统
CN108717492A (zh) * 2018-05-18 2018-10-30 浙江工业大学 基于改进的人工蜂群算法的机械臂动力学模型辨识方法
US20210107142A1 (en) * 2018-02-27 2021-04-15 Siemens Aktiengesellschaft Reinforcement learning for contact-rich tasks in automation systems
CN113134837A (zh) * 2021-04-16 2021-07-20 浙江大学 一种基于六自由度串联机械臂提高绝对定位精度的方法
CN113510709A (zh) * 2021-07-28 2021-10-19 北京航空航天大学 基于深度强化学习的工业机器人位姿精度在线补偿方法
CN114265318A (zh) * 2022-03-02 2022-04-01 北京航空航天大学 一种基于滑模控制和模糊算法的协作机器人轨迹跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319144A (zh) * 2018-02-21 2018-07-24 湘潭大学 一种机器人轨迹跟踪控制方法及系统
US20210107142A1 (en) * 2018-02-27 2021-04-15 Siemens Aktiengesellschaft Reinforcement learning for contact-rich tasks in automation systems
CN108717492A (zh) * 2018-05-18 2018-10-30 浙江工业大学 基于改进的人工蜂群算法的机械臂动力学模型辨识方法
CN113134837A (zh) * 2021-04-16 2021-07-20 浙江大学 一种基于六自由度串联机械臂提高绝对定位精度的方法
CN113510709A (zh) * 2021-07-28 2021-10-19 北京航空航天大学 基于深度强化学习的工业机器人位姿精度在线补偿方法
CN114265318A (zh) * 2022-03-02 2022-04-01 北京航空航天大学 一种基于滑模控制和模糊算法的协作机器人轨迹跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117584137A (zh) * 2024-01-18 2024-02-23 浙江大学 面向随机工况的液压机械臂带载模型在线修正方法及系统
CN117584137B (zh) * 2024-01-18 2024-03-26 浙江大学 面向随机工况的液压机械臂带载模型在线修正方法及系统

Also Published As

Publication number Publication date
CN114952849B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111546315B (zh) 一种基于人机协作的机器人柔顺示教及再现方法
CN109176525A (zh) 一种基于rbf的移动机械手自适应控制方法
CN111185907B (zh) 一种作业型飞行机器人抓取后的位姿稳定控制方法
Polverini et al. Sensorless and constraint based peg-in-hole task execution with a dual-arm robot
CN108908332A (zh) 超冗余柔性机器人的控制方法及系统、计算机存储介质
CN114952849B (zh) 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法
CN114942593A (zh) 一种基于干扰观测器补偿的机械臂自适应滑模控制方法
Lai et al. Image dynamics-based visual servo control for unmanned aerial manipulatorl with a virtual camera
CN108693776A (zh) 一种三自由度Delta并联机器人的鲁棒控制方法
Xue et al. Stewart-inspired vibration isolation control for a wheel-legged robot via variable target force impedance control
CN108227493A (zh) 一种机器人轨迹跟踪方法
WO2023165174A1 (zh) 构建机器人的控制器的方法、机器人的运动控制方法、装置以及机器人
Yang et al. Multi-degree-of-freedom joint nonlinear motion control with considering the friction effect
CN209942765U (zh) 一种自适应神经网络自动猫道
Ruan et al. Fuzzy PID control for a cubic robot balancing on its corner
Ren et al. An adaptive robust control for trajectory tracking of a robotic manipulator system
Meng-han et al. RBF neural network PID trajectory tracking based on 6-PSS parallel robot
She et al. A rewinding approach to motion planning for acrobot based on virtual friction
Duan et al. Variable structure control with feedforward compensator for robot manipulators subject to load uncertainties
Hao et al. Stewart-Inspired Posture Control for a UAV Undertaking Platform Based on Dynamic Model Predictive Control
Yang et al. Tracking control of wheeled mobile robot based on RBF network supervisory control
CN110244703A (zh) 一种具有外部干扰和数据异常的移动机器人预测控制方法
Zhu et al. A leader-follower trajectory planning approach for cooperative robotic system in automated fiber placement
Jiao et al. Autonomous aerial manipulation using a hexacopter equipped with a robotic arm
Chuang et al. Automatic vision-based optical fiber alignment using multirate technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant