CN113199477B - 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法 - Google Patents

一种基于强化学习的Baxter机械臂轨迹跟踪控制方法 Download PDF

Info

Publication number
CN113199477B
CN113199477B CN202110475789.6A CN202110475789A CN113199477B CN 113199477 B CN113199477 B CN 113199477B CN 202110475789 A CN202110475789 A CN 202110475789A CN 113199477 B CN113199477 B CN 113199477B
Authority
CN
China
Prior art keywords
mechanical arm
matrix
vector
equation
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110475789.6A
Other languages
English (en)
Other versions
CN113199477A (zh
Inventor
夏振浩
朱俊威
张恒
董子源
王波
顾曹源
梁朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110475789.6A priority Critical patent/CN113199477B/zh
Publication of CN113199477A publication Critical patent/CN113199477A/zh
Application granted granted Critical
Publication of CN113199477B publication Critical patent/CN113199477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1651Programme controls characterised by the control loop acceleration, rate control

Abstract

一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,首先对Baxter机械臂前三个关节进行系统辨识,确定其连续时间的状态空间方程并将之离散化,得到离散的状态空间模型,该步骤仅用于在仿真时获取机器人前三个关节下一时刻的位置和速度跟踪误差;首先给定机械臂前三个关节一个初始状态,按照固定的采样时间测量并记录三个关节下一时刻的位置和速度跟踪误差,对采集到的位置和速度信息预处理之后使用递归的最小二乘法计算最优控制策略所对应的权值矩阵H,最后根据权值矩阵计算出下一时刻的最优反馈控制。本发明自动适应模型改变带来的模型误差,提高机器人在日常使用中的准确性。

Description

一种基于强化学习的Baxter机械臂轨迹跟踪控制方法
技术领域
本发明属于机械臂智能控制领域,具体提供一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,这种方法能够在机械臂模型未知的情况下,通过强化学习策略迭代的方法计算出最优的控制策略,减小轨迹跟踪误差,从而最小化机器人系统的损失函数。
背景技术
近年来,强化学习理论在机器人控制领域得到了广泛的关注和研究。工业机械臂作为工业生产中常见的工具被大量地运用于自动生产线中。如何把强化学习理论应用到工业机械臂的运动控制中,令其具有一定的自主学习的能力,对扩大机械臂的应用场合,降低机械臂的操作难度具有重大意义。机器人在日常使用过程中一定会发生磨损现象,机器人的系统模型也由此发生改变,这就需要不断进行校正,通过自我学习,机器人可以自动补偿磨损带来的误差,提高机器人在日常使用中的准确性,降低机器人的操作难度。同时,机器人需要对动态变化的环境做出反应,也就是说,机器人需要学习如何最佳地适应不确定的和不可预见的变化,这就可以扩大机器人的应用范围。因此,将强化学习理论应用到机械臂的运动控制中,使机器人具备一定的自主学习能力对机器人未来的发展及应用具有深远的意义。
针对解决最优反馈控制问题,传统的技术方法是首先对系统进行模型辨识,得到系统的模型,进而设计最优反馈控制器,传统的控制器有H控制器,或者通过解线性矩阵不等式来求得系统的可行解。但是,传统的技术存在着局限性,这种局限性是由于实际系统存在不确定性导致的,包括系统模型的不确定性以及系统外部的扰动。使用传统的方法时,系统的模型是必需的,并且模型的精度直接影响控制的准确性,即使模型可用,基于该模型获得的状态反馈控制器也仅适用于真实系统动力学的近似模型。除此之外,时变系统最优控制运用到实际系统中操作困难,成本代价高,性能一般,实际的使用价值底,因而通过数据驱动的方法,使用系统的输入输出数据来计算系统的最优控制显的很有必要。
发明内容
为了克服现有技术的不足,本发明专利所考虑的具体对象为Baxter机械臂,为了可以自动适应模型改变带来的模型误差,提高机器人在日常使用中的准确性,本发明提供了一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,具体地说,本发明提供的方法是一种基于策略迭代的无模型的算法来解决非线性、时变系统的自适应最优控制问题,在机械臂模型完全未知的情况下在线自动更新反馈控制增益,最小化系统的损失函数。
本发明为解决上述技术问题提供了如下技术方案:
一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,包括以下步骤:
步骤1),对Baxter机械臂前三个关节进行模型辨识,确定机械臂的动力学方程,通过系统辨识获得的动力学方程仅用于在仿真时获取机械臂前三个关节的位置和速度跟踪误差,n自由度刚性机械臂的连续时间动力学模型由式(1)所表示
Figure BDA0003047047050000021
其中
Figure BDA0003047047050000022
表示关节的位置,
Figure BDA0003047047050000023
Figure BDA0003047047050000024
分别代表关节的速度和加速度信息,
Figure BDA0003047047050000025
是关节的转矩向量,
Figure BDA0003047047050000026
是对称正定的惯性矩阵;向量
Figure BDA0003047047050000027
包含了机械臂的科氏力,摩擦力以及重力项;向量
Figure BDA0003047047050000028
包含了系统的不确定性:参数的不确定性、低速摩擦、连杆柔性以及关节齿轮系的低频电磁干扰和反向间隙;
步骤2),建立机械臂的状态空间方程并离散化,过程如下:
机械臂的状态变量表示为一个(2n×1)的向量
Figure BDA0003047047050000029
则机械臂的状态空间方程表示为
Figure BDA00030470470500000210
其中u=τ是输入转矩向量,y是输出向量;矩阵Ac和Bc定义如下
Figure BDA00030470470500000211
其中On表示(n×n)的零矩阵,In表示(n×n)的单位矩阵,式(3)中的其他两项分别为
Figure BDA00030470470500000212
Figure BDA00030470470500000213
其中0n表示为(n×1)的零向量;
假设输出变量在固定的采样时间T内进行测量,且输入扭矩在每个时间间隔内保持不变,因此,将连续的机械臂模型转化为离散的模型;
Figure BDA0003047047050000031
其中
Figure BDA0003047047050000032
h=Thc,B=TBc
Figure BDA0003047047050000033
εd1和εd2是离散化连续时间机械臂产生的误差,C是输出矩阵;
步骤3),基于强化学习中策略迭代方法设计自适应反馈控制器,从机械臂中采集当前机械臂前三个关节的位置和速度跟踪误差,根据历史的输入输出信息计算出最优的状态反馈控制增益,过程如下:
根据式(7)所描述的机器人状态空间方程,机器人的二次性能指数表示为
Figure BDA0003047047050000034
其中γ是折扣因子,取值范围为(0,1]之间,Ru=Ru T>0,Qy=Qy T≥0分别是输入输出的权值矩阵,通过最小化系统的性能指数可以找到最优的状态反馈增益,这个最优化问题等价于求解线性二次调节器LQR问题,在求解动态规划问题时,需要知道系统的状态空间方程,为了避免在求解过程中使用系统的参数矩阵,采用了策略迭代的方法,根据系统的输入输出数据计算出最优的反馈控制策略。策略迭代过程中的贝尔曼方程为
Figure BDA0003047047050000035
式(9)左边是机械臂包含动作的价值函数,其中H是一个正定矩阵,通过使用最小二乘法可将H矩阵计算出来,然后根据式(10)进行策略的更新
Fj+1=-(Huu j+1)-1Hux j+1 (10)
其中
Figure BDA0003047047050000036
这两个矩阵从H矩阵中得到,其在H中的形式为
Figure BDA0003047047050000037
进一步,所述方法还包括以下步骤:
步骤4),在仿真软件中进行调试,验证本策略迭代算法的可行性,过程如下:
4.1)首先对机械臂进行初始化,选择一个初始的状态反馈增益F0,和初始的黎卡提方程解矩阵H0,且初始的状态反馈增益并不要求保证机械臂是稳定的,H是一个对称的矩阵,含有(n+ku)(n+ku+1)个未知的参数,其中ku是输入u的个数,n是机械臂系统状态的个数;
4.2)根据采集到机械臂前三个关节的位置和速度跟踪误差,通过最小二乘法计算
Figure BDA00030470470500000411
向量和H矩阵,过程如下:
将机器人系统k时刻的价值函数
Figure BDA0003047047050000041
表示为
Figure BDA0003047047050000042
的形式,其中
Figure BDA0003047047050000043
表示的是时刻
Figure BDA0003047047050000044
向量Kronecker积二次多项式的基向量,向量中元素为{xi(k)xj(k)}i=1,n;j=i,n,{xi(k)u(k)}i=1,n;,{u(k)u(k)},
Figure BDA0003047047050000045
其中vec(.)是作用于对称矩阵的向量值矩阵函数,通过堆叠对称矩阵对角线和上三角部分的元素返回列向量,其中非对角线元素取为2Hij
认为最优的控制策略为μi(x(k)),使用递归的最小二乘法去获得对应的权值矩阵
Figure BDA0003047047050000046
给定初始常数矩阵
Figure BDA0003047047050000047
以及初始的黎卡提方程解矩阵
Figure BDA0003047047050000048
其中β是一个较大的常数,递归的最小二乘算法如下
Figure BDA0003047047050000049
其中j表示第j次对
Figure BDA00030470470500000410
的估计,k和j会随着时间序列的增加而递增;
4.3)计算得到估计的Hj+1矩阵之后,根据式(10)计算新的最优状态反馈控制增益Fj+1
4.4)判断||hj+1-hj||F向量是否小于阈值ε,如果||hi+1-hi||F<ε则停止更新策略,反之则继续进行策略迭代,更新下一个控制策略。
本发明的有益效果为:自动适应模型改变带来的模型误差,提高机器人在日常使用中的准确性。
附图说明
图1是策略迭代算法流程图;
图2是机械臂前三个关节的状态变化仿真图;
图3是机械臂关节状态的权值矩阵H参数变化仿真图;
图4是机械臂的状态反馈增益K1变化图;
图5是机械臂的状态反馈增益K2变化图;
图6是机械臂的状态反馈增益K3变化图;
图7是机械臂的输入关节转矩图;
图8是机械臂自适应控制下系统损失函数变化图。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面结合附图和仿真实验对本发明的技术方案作进一步描述。
参照图1~图8,一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,首先对Baxter机械臂前三个关节进行系统辨识,确定其连续时间的状态空间方程并将之离散化,得到离散的状态空间模型,该步骤仅用于在仿真时获取机器人前三个关节下一时刻的位置和速度跟踪误差;首先给定机械臂前三个关节一个初始状态,按照固定的采样时间测量并记录三个关节下一时刻的位置和速度跟踪误差,对采集到的位置和速度信息预处理之后使用递归的最小二乘法计算最优控制策略所对应的权值矩阵H,最后根据权值矩阵计算出下一时刻的最优反馈控制。
本发明的基于策略迭代的Baxter机械臂自适应最优控制方法,包括以下步骤:
1)对机械臂进行模型辨识得到系统的动力学方程;
2)将机械臂的动力学方程转化为连续的状态空间方程并离散化;
3)基于强化学习策略迭代算法设计机械臂自适应最优控制器;
4)通过仿真平台进行仿真实验,验证算法的可行性。
进一步,所述步骤1)中,对Baxter机械臂前三个关节进行模型辨识,确定机械臂的动力学方程。通过系统辨识获得的动力学方程仅用于在仿真时获取机械臂前三个关节的位置和速度状态。n自由度刚性机械臂的连续时间动力学模型由式(1)所表示
Figure BDA0003047047050000051
其中
Figure BDA0003047047050000052
表示关节的位置,
Figure BDA0003047047050000053
Figure BDA0003047047050000054
分别代表关节的速度和加速度信息,
Figure BDA0003047047050000055
是关节的转矩向量,
Figure BDA0003047047050000056
是对称正定的惯性矩阵;向量
Figure BDA0003047047050000058
包含了机械臂的科氏力,摩擦力以及重力项;向量
Figure BDA0003047047050000057
包含了系统的不确定性:参数的不确定性、低速摩擦、连杆柔性以及关节齿轮系的低频电磁干扰和反向间隙;
步骤2),建立机械臂的状态空间方程并离散化,过程如下:
机械臂的状态变量表示为一个(6×1)的向量
Figure BDA0003047047050000061
则机械臂的状态空间方程表示为
Figure BDA0003047047050000062
其中u=τ是输入转矩向量,y是输出向量;矩阵Ac和Bc定义如下
Figure BDA0003047047050000063
式(3)中的其他两项分别为
Figure BDA0003047047050000064
Figure BDA0003047047050000065
其中O3表示为(3×3)的零矩阵,03表示为(3×1)的零向量;
假设采样时间T=0.016s,输出变量在固定的采样时间T内进行测量,且输入扭矩在每个时间间隔内保持不变,因此,故将连续的机械臂模型转化为离散的模型;
x(k+1)=Ax(k)+h(x(k))+B(x(k))u(k)+η(k,x(k),u(k)) (7)
其中
Figure BDA0003047047050000071
Figure BDA0003047047050000072
步骤3),基于强化学习中策略迭代方法设计自适应反馈控制器,从机械臂中采集当前机械臂前三个关节的位置和速度跟踪误差,根据历史的输入输出信息计算出最优的状态反馈控制增益,过程如下:
根据式(7)所描述的机械臂状态空间方程,机械臂的二次性能指数表示为
Figure BDA0003047047050000073
其中γ是折扣因子,取值为1,Ru=Ru T>0,Qy=Qy T≥0分别是输入输出的权值矩阵,通过最小化系统的性能指数可以找到最优的状态反馈增益,这个最优化问题等价于求解线性二次调节器(LQR)问题,在求解动态规划问题时,需要知道系统的状态空间方程,为了避免在求解过程中使用系统的参数矩阵,采用了策略迭代的方法,根据系统的输入输出数据计算出最优的反馈控制策略,在策略迭代过程中的贝尔曼方程为
Figure BDA0003047047050000074
其中
Figure BDA0003047047050000075
式(9)左边是机械臂包含动作的价值函数,其中H是一个正定矩阵,通过使用最小二乘法将H矩阵计算出来,然后根据式(10)进行策略的更新
Fj+1=-(Huu j+1)-1Hux j+1 (10)
其中
Figure BDA0003047047050000081
这两个矩阵从H矩阵中得到;
Figure BDA0003047047050000082
步骤4),在仿真软件中进行调试,验证本策略迭代算法的可行性,过程如下:
4.1)首先对机械臂进行初始化,初始状态为[5 6 7 8 9 10]T,选择一个初始的状态反馈增益F0=O3×6,和初始的黎卡提方程解矩阵H0=O9×9,且初始的状态反馈增益并不要求保证机械臂是稳定的。H是一个对称的矩阵,含有(n+ku)(n+ku+1)=(9×10)/2=45个未知的参数,其中ku是输入u的个数,n是机械臂状态的个数;
4.2)采集到机械臂前三个关节的位置和速度跟踪误差,并通过最小二乘法计算
Figure BDA0003047047050000083
向量和H矩阵,过程如下:
将机械臂k时刻的价值函数
Figure BDA0003047047050000084
表示为
Figure BDA0003047047050000085
的形式,其中
Figure BDA0003047047050000086
表示的是时刻
Figure BDA0003047047050000087
向量Kronecker积二次多项式的基向量,向量中元素为{xi(k)xj(k)}i=1,n;j=i,n,{xi(k)u(k)}i=1,n;,{u(k)u(k)},
Figure BDA0003047047050000088
其中vec(.)是作用于对称矩阵的向量值矩阵函数,通过堆叠对称矩阵对角线和上三角部分的元素返回列向量,其中非对角线元素取为2Hij
认为最优的控制策略为μi(x(k)),使用递归的最小二乘法去获得对应的权值矩阵
Figure BDA0003047047050000089
给定初始常数矩阵
Figure BDA00030470470500000810
以及初始的黎卡提方程解矩阵
Figure BDA00030470470500000811
其中β是一个较大的常数,递归的最小二乘算法如下
Figure BDA00030470470500000812
其中j表示第j次对
Figure BDA00030470470500000813
的估计,k和j会随着时间序列的增加而递增,β取值100;
4.3)计算得到估计的Hj+1矩阵之后,根据式(10)计算新的最优状态反馈控制增益Fj+1
4.4)判断||hj+1-hj||F向量是否小于阈值ε=0.01,如果||hi+1-hi||F<ε则停止更新策略,反之则继续进行策略迭代,更新下一个控制策略。
从实验结果可以看出,本发明能够在没有给定机械臂初始反馈控制增益的情况下,系统能够自动更新到最佳的反馈控制增益,并得到最小的损失函数,因为反馈控制增益的更新只与输入输出数据有关,所以当系统的模型参数发生改变时,自适应控制器仍能得到最优的反馈控制增益,从而提高了机械臂在使用过程中的稳定性。从实际的能量损耗方面看,自适应反馈控制下的能够在最小化能量损耗的情况下保证系统性能最优。自适应反馈控制的这种优势对实际的工业机械臂控制具有重要的意义。
以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。

Claims (2)

1.一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:
步骤1),对Baxter机械臂前三个关节进行模型辨识,确定机械臂的动力学方程,通过系统辨识获得的动力学方程仅用于在仿真时获取机械臂前三个关节的位置和速度跟踪误差,n自由度刚性机械臂的连续时间动力学模型由式(1)所表示
Figure FDA0003512743880000011
其中
Figure FDA0003512743880000012
表示关节的位置,
Figure FDA0003512743880000013
Figure FDA0003512743880000014
分别代表关节的速度和加速度信息,
Figure FDA0003512743880000015
是关节的转矩向量,
Figure FDA0003512743880000016
是对称正定的惯性矩阵;向量
Figure FDA0003512743880000017
包含了机械臂的科氏力,摩擦力以及重力项;向量
Figure FDA0003512743880000018
包含了系统的不确定性:参数的不确定性、低速摩擦、连杆柔性以及关节齿轮系的低频电磁干扰和反向间隙;
步骤2),建立机械臂的状态空间方程并离散化,过程如下:
机械臂的状态变量表示为一个(2n×1)的向量
Figure FDA0003512743880000019
则机械臂的状态空间方程表示为
Figure FDA00035127438800000110
其中u=τ是输入转矩向量,y是输出向量;矩阵Ac和Bc定义如下
Figure FDA00035127438800000111
其中On表示(n×n)的零矩阵,In表示(n×n)的单位矩阵,式(3)中的其他两项分别为
Figure FDA00035127438800000112
Figure FDA0003512743880000021
其中0n表示为(n×1)的零向量;
假设输出变量在固定的采样时间T内进行测量,且输入扭矩在每个时间间隔内保持不变,因此,将连续的机械臂模型转化为离散的模型;
Figure FDA0003512743880000022
其中
Figure FDA0003512743880000023
h=Thc,B=TBc
Figure FDA0003512743880000024
εd1和εd2是离散化连续时间机械臂产生的误差,C是输出矩阵;
步骤3),基于强化学习中策略迭代方法设计自适应反馈控制器,从机械臂中采集当前机械臂前三个关节的位置和速度跟踪误差,根据历史的输入输出信息计算出最优的状态反馈控制增益,过程如下:
根据式(7)所描述的机器人状态空间方程,机器人的二次性能指数表示为
Figure FDA0003512743880000025
其中γ是折扣因子,取值范围为(0,1]之间,Ru=Ru T>0,Qy=Qy T≥0分别是输入输出的权值矩阵,通过最小化系统的性能指数可以找到最优的状态反馈增益,这个最优化问题等价于求解线性二次调节器LQR问题,在求解动态规划问题时,需要知道系统的状态空间方程,为了避免在求解过程中使用系统的参数矩阵,采用了策略迭代的方法,根据系统的输入输出数据计算出最优的反馈控制策略,策略迭代过程中的贝尔曼方程为
Figure FDA0003512743880000026
式(9)左边是机械臂包含动作的价值函数,其中H是一个正定矩阵,通过使用最小二乘法可将H矩阵计算出来,然后根据式(10)进行策略的更新
Fj+1=-(Huu j+1)-1Hux j+1 (10)
其中
Figure FDA0003512743880000031
这两个矩阵从H矩阵中得到,其在H中的形式为
Figure FDA0003512743880000032
2.如权利要求1所述的一种基于强化学习的Baxter机械臂轨迹跟踪控制方法,其特征在于,所述方法还包括以下步骤:
步骤4),在仿真软件中进行调试,验证本策略迭代算法的可行性,过程如下:
4.1)首先对机械臂进行初始化,选择一个初始的状态反馈增益F0,和初始的黎卡提方程解矩阵H0,且初始的状态反馈增益并不要求保证机械臂是稳定的,H是一个对称的矩阵,含有(n+ku)(n+ku+1)个未知的参数,其中ku是输入u的个数,n是机械臂系统状态的个数;
4.2)根据采集到机械臂前三个关节的位置和速度跟踪误差,通过最小二乘法计算
Figure FDA00035127438800000313
向量和H矩阵,过程如下:
将机器人系统k时刻的价值函数
Figure FDA0003512743880000033
表示为
Figure FDA0003512743880000034
的形式,其中
Figure FDA0003512743880000035
表示向量
Figure FDA0003512743880000036
在k时刻的Kronecker积二次多项式的基向量,向量中元素为{xi(k)xj(k)}i=1,n;j=i,n,{xi(k)u(k)}i=1,n;,{u(k)u(k)},
Figure FDA0003512743880000037
其中vec(.)是作用于对称矩阵的向量值矩阵函数,通过堆叠对称矩阵对角线和上三角部分的元素返回列向量,其中非对角线元素取为2Hij
认为最优的控制策略为μi(x(k)),使用递归的最小二乘法去获得对应的权值矩阵
Figure FDA0003512743880000038
给定初始常数矩阵
Figure FDA0003512743880000039
以及初始的黎卡提方程解矩阵
Figure FDA00035127438800000310
其中β是一个常数,递归的最小二乘算法如下
Figure FDA00035127438800000311
其中j表示第j次对
Figure FDA00035127438800000312
的估计,k和j会随着时间序列的增加而递增;
4.3)计算得到估计的Hj+1矩阵之后,根据式(10)计算新的最优状态反馈控制增益Fj+1
4.4)判断||hj+1-hj||F向量是否小于阈值ε,如果||hi+1-hi||F<ε则停止更新策略,反之则继续进行策略迭代,更新下一个控制策略。
CN202110475789.6A 2021-04-29 2021-04-29 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法 Active CN113199477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475789.6A CN113199477B (zh) 2021-04-29 2021-04-29 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475789.6A CN113199477B (zh) 2021-04-29 2021-04-29 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法

Publications (2)

Publication Number Publication Date
CN113199477A CN113199477A (zh) 2021-08-03
CN113199477B true CN113199477B (zh) 2022-06-17

Family

ID=77029428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475789.6A Active CN113199477B (zh) 2021-04-29 2021-04-29 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法

Country Status (1)

Country Link
CN (1) CN113199477B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114536338B (zh) * 2022-03-03 2023-09-26 深圳亿嘉和科技研发有限公司 一种液压机械臂的控制方法
CN117532623B (zh) * 2024-01-10 2024-03-29 南京鼎臻自动化科技有限公司 一种机械臂外力矩估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109927032A (zh) * 2019-03-28 2019-06-25 东南大学 一种基于高阶滑模观测器的机械臂轨迹跟踪控制方法
CN110262255A (zh) * 2019-07-16 2019-09-20 东南大学 一种基于自适应终端滑模控制器的机械臂轨迹跟踪控制方法
CN110303471A (zh) * 2018-03-27 2019-10-08 清华大学 助力外骨骼控制系统及控制方法
CN111496792A (zh) * 2020-04-27 2020-08-07 北京科技大学 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统
CN111522435A (zh) * 2020-02-21 2020-08-11 浙江工业大学 一种基于表面肌电信号的机械臂交互方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110303471A (zh) * 2018-03-27 2019-10-08 清华大学 助力外骨骼控制系统及控制方法
CN109927032A (zh) * 2019-03-28 2019-06-25 东南大学 一种基于高阶滑模观测器的机械臂轨迹跟踪控制方法
CN110262255A (zh) * 2019-07-16 2019-09-20 东南大学 一种基于自适应终端滑模控制器的机械臂轨迹跟踪控制方法
CN111522435A (zh) * 2020-02-21 2020-08-11 浙江工业大学 一种基于表面肌电信号的机械臂交互方法
CN111496792A (zh) * 2020-04-27 2020-08-07 北京科技大学 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统

Also Published As

Publication number Publication date
CN113199477A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN110275436B (zh) 一种多单臂机械手的rbf神经网络自适应控制方法
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN113199477B (zh) 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法
Qi et al. Stable indirect adaptive control based on discrete-time T–S fuzzy model
CN110450156A (zh) 多自由度机械臂系统自适应模糊控制器的优化设计方法
CN108555914B (zh) 一种基于腱驱动灵巧手的dnn神经网络自适应控制方法
CN112338913B (zh) 一种多关节柔性机械臂的轨迹跟踪控制方法及系统
CN109352656B (zh) 一种具有时变输出约束的多关节机械臂控制方法
Khemaissia et al. Neuro-adaptive control of robotic manipulators
CN116460860A (zh) 一种基于模型的机器人离线强化学习控制方法
Tao et al. Application of neural network with real-time training to robust position/force control of multiple robots
Stulp et al. Reinforcement learning of impedance control in stochastic force fields
Jiang et al. Learning based predictive error estimation and compensator design for autonomous vehicle path tracking
Shafei et al. Trajectory tracking of an uncertain wheeled mobile robotic manipulator with a hybrid control approach
CN115284276A (zh) 基于长短期记忆网络的机器人关节力矩控制方法
Casalino et al. Learning of movements in robotic manipulators
Li et al. Manipulator Motion Planning based on Actor-Critic Reinforcement Learning
CN117572810B (zh) 一种基于控制障碍函数的机械臂安全协同控制系统
Sąsiadek et al. Direct fuzzy adaptive control and nonparametric identification of robot manipulator with elastic joints
Shen et al. Motion control of manipulator based on KQ algorithm
CN117656059A (zh) 自适应变阻抗控制方法和装置、电子设备及存储介质
Tang et al. Trajectory Tracking of Industrial Robot Based on PDAG Algorithm
Dai et al. Non-Singular Terminal Sliding Mode Control Based on Finite-Time Extended State Observer for Robotic Systems
CN114952825A (zh) 一种实现拉格朗日系统群体共识的方法、设备及存储介质
Zeng et al. A Novel Uncalibrated Visual Servoing Controller Baesd on Model-Free Adaptive Control Method with Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant