CN113370205A - 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 - Google Patents
一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 Download PDFInfo
- Publication number
- CN113370205A CN113370205A CN202110499083.3A CN202110499083A CN113370205A CN 113370205 A CN113370205 A CN 113370205A CN 202110499083 A CN202110499083 A CN 202110499083A CN 113370205 A CN113370205 A CN 113370205A
- Authority
- CN
- China
- Prior art keywords
- strategy
- mechanical arm
- neural network
- cost function
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,包括以下步骤:1)建立一个机械臂动力学方程;2)初始化系统的状态变量,并给定初始策略;3)利用强化学习策略迭代的方法更新权值,求取最优策略;4)引入神经网络算法并利用最小二乘的收敛性计算权值;5)停止策略更新。本发明提供一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,保证了较好的控制效果。
Description
技术领域
本发明属于控制技术领域,具体提供一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,保证了较好的智能控制效果。
背景技术
生产中工业机械臂为企业提供了有力的装备力量,并且随着形式各异的机械臂相继问世,针对其控制问题的研究也得到了相关科研人员的关注。
机械臂动力学方程呈非线性,现有控制方法大多基于模型,虽然很多反馈线性方法在移动机器人控制中得到了广泛的应用,包括精确反馈线性化、近似反馈线性化和伪线性化等,但是经过线性化后得到的模型仍不能完全替代非线性机器人模型,并且采用线性化进行移动机器人建模十分困难,可行性不高。
发明内容
为了克服现有技术的不足,本发明提供一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,保证了较好的控制效果。
本发明为解决上述技术问题提供了如下技术方案:
一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,包括以下步骤:
1)建立一个非线性机械臂动力学方程:
2)初始化系统的状态,并给定初始策略u0
u0=[u1,u2,u3] (3)
其中u1,u2,u3分别是三个机械臂关节的控制量;
3)利用强化学习策略迭代的方法更新权值,求取最优策略,过程如下:
考虑在一定采样周期内从系统获得的数据进行模拟,利用每次迭代,进行更新所需要的权值ωL,从而求解最优的价值函数,策略迭代包括策略评估和策略改进两个步骤;
3.1)策略评估:
策略评估是在当前策略下计算出下一时刻的状态值,每一次策略评估都是一个迭代计算过程,即每次进行策略评估时,需要基于前一个策略的价值函数开始计算;
定义价值函数V:
其中x,u分别表示系统状态变量和控制策略,s是积分微元,t为当前时刻时间,r(x,u)表示一个积分强化项:
r(x,u)=Q(x)+uTRu (5)
与控制策略相关联的价值函数定义:
其中i表示迭代的次数,u(i)是第i次迭代的控制策略;T为一个时间间隔;3.2)策略改进:
策略改进就是根据策略评估计算的状态值对策略进行改进,计算出新的策略;根据已经求解了与控制策略i相关联的成本函数Vu(i),执行策略更新步骤,因此,策略更新方法是:
最后得到:
其中L是神经网络结构的神经元参数,Φ是神经网络系统中定义的参数,ωL u(i)是其权值矩阵,步骤(4)给出其定义;
4)引入神经网络算法并利用最小二乘的收敛性计算权值,过程如下:
在最小二乘意义下,确定逼近成本函数Vu L的神经网络的参数;
定义:
Φ=<[φL(x(t+T))-φL(x(t))],[φL(x(t+T))-φL(x(t))]T> (9)
其中x(t)是t时刻下的状态,φL(x(t))是t时刻神经网络结构中的激活函数;
神经网络结构逼近下的价值函数:
VL u(i)(x)=(ωL u(i))φL(x) (10)
其中
5)停止策略更新
策略迭代一致的收敛性,最终收敛于初始轨迹上的收敛解.当两个连续步骤中的价值函数误差小于给定的阈值ε,需要再次调整神经网络的参数;
本发明的技术构思为:机器学习中自适应动态非线性优化方法适应于复杂系统的控制设计,其采用函数近似方法来近似出价值函数,有最小二乘法、投影算法等方法。自适应控制的基本思想是通过不断地监测被控对象,根据其变化来调整控制参数,从而实现机械臂的智能化控制。
基于数据驱动方法,采用函数近似方法来近似出价值函数,利用最小二乘法估计权值并且使用机器学习中强化学习策略迭代的方法在线更新策略,并将其应用于机械臂。
实验所用机器人平台为Baxter机器人,Baxter机器人是美国Rethink robotics公司研发的一款双臂机器人,其单机械臂是一种具有七自由度的冗余柔性关节机械臂。通过移动底座支撑机器人本体,机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用.柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器.手臂前后端通过26W和63W伺服电机驱动,通过14bit编码器实现关节角度的读取。Baxter机器人为基于ROS(Robot operating system)操作系统的开源机器人,通过Linux平台运行,用户可通过网络与机器人内部计算机互联读取信息或发送指令,或通SSH(Secureshell)远程控制在内部计算机运行相关程序.利用Baxter相关的SDK(Softwaredevelopment kit),通过ROS的API(Application programming interface)可以实现对Baxter机器人的信息读取与实时控制.Baxter中的SDK可以提供相关函数接口与重要工具:如Gazebo仿真器及Moveit移动软件包等.Baxter机器人在力矩控制模式下,还需设置补偿力矩以抵消机械臂重力和关节支撑弹簧形变带来的影响。
与一般系统相比而言,机械臂系统有以下两点主要区别,
一:对于机械臂系统而言,其被控对象就是其系统本身并且该系统并不是一个与外界封闭的独立系统而是一个开放的需要与外界环境进行信息交互的系统;
二:外界环境并不是稳定的而是处于不断变换发展的状态之中,以上两点大大加重了机械臂控制问题的复杂程度。因此,只有在解决上面这两个问题的基础之上,才能保证对于移动机器人的准确控制。
本发明提供了一种基于Baxter机械臂的策略迭代智能化控制方法,初始化系统状态变量,确定一个初始控制策略;利用最小二乘法收敛性对权值矩阵进行估计;通过强化学习中策略迭代的方法对权值进行更新,该方法的控制效果可以满足实际应用的要求。
本发明的有益效果为:基于数据驱动的方式,保证了较好的控制效果。
附图说明
图1是Baxter机械臂控制平台结构示意图;
图2是基于Baxter机械臂自适应控制的价值函数变化图;
图3是基于神经网络的参数收敛变化图;
图4是三关节Baxter机械臂自适应控制策略变化图;
图5是三关节Baxter机械臂控制效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面结合附图和实际实验对本发明的技术方案作进一步描述。
参照图1~图5,一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,对确定的机械臂动力学模型,利用最小二乘法的收敛性估计权值;并通过引入神经网络和强化学习中策略迭代的方法更新控制器的权值,求解最优的价值函数。
本实施例的基于机器学习的Baxter机械臂轨迹跟踪控制方法,包括以下步骤:
1)建立一个机械臂动力学方程;
2)初始化系统的状态变量,并给定初始策略;
3)利用强化学习策略迭代的方法更新权值,求取最优策略;
4)引入神经网络算法并利用最小二乘的收敛性计算权值;
5)停止策略更新。
所述步骤1)中,建立一个机械臂动力学模型:
所述步骤2)中,初始化系统的状态,并给定初始策略u0
u0=[u1,u2,u3] (2)
其中u1,u2,u3分别是三个机械臂关节的控制量;
所述步骤3)的过程如下:
考虑在一定采样周期内从系统获得的数据进行模拟,利用每次迭代,进行更新所需要的权值ωL,从而求解最优的价值函数,策略迭代包括策略评估和策略改进两个步骤;
3.1)策略评估:
策略评估是在当前策略下计算出下一时刻的状态值,每一次策略评估都是一个迭代计算过程,即每次进行策略评估时,需要基于前一个策略的价值函数开始计算,这通常会显著提高策略评估的收敛速度;
定义价值函数:
r(x,u)表示一个积分强化项:
r(x,u)=Q(x)+uTRu (4)
与控制策略相关联的成本函数看成:
3.2)策略改进:
策略改进就是根据策略评估计算的状态值对策略进行改进,计算出新的策略,
根据已经求解了与控制策略i相关联的成本函数Vu L,执行策略更新步骤,因此,策略更新方法是:
最后得到:
所述步骤4)的过程如下:
在最小二乘意义下,确定逼近成本函数Vu L的神经网络的参数;
定义:
Φ=<[φL(x(t+T))-φL(x(t))],[φL(x(t+T))-φL(x(t))]T> (8)
其中L是神经网络结构的神经元参数,φL(x)是神经网络结构中的激活函数;
神经网络结构逼近下的价值函数:
VL u(i)(x)=(ωL u(i))φL(x) (9)
调整价值函数逼近的参数ωL,使目标最小化,得到:
所述步骤5)的过程为:策略迭代具有一致的收敛性,最终收敛于初始轨迹上的收敛解。当两个连续步骤中的价值函数误差小于给定的阈值ε,需要再次调整神经网络的参数;
本实施例中,一种基于Baxter机械臂的策略迭代智能化控制方法,如下所示:
其中,x1=[q1,q2,q3],q,分别表示机械臂角度,角速度,角加速度向量Mj(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,Gj(q)表示机械臂重力矩向量,τ表示机械臂控制力矩向量,τd表示外部环境的未知扰动力矩向量;
本实施例中,初始化系统的状态变量x1=[0.5,0,0.1],x2=[0.1,0.2,0.1],并给定一个初始策略:
u0=[0.5*sin(1*t),1*cos(1*t),0.7*sin(1*t)]'
进一步,利用最小二乘法的收敛性估计权值,过程如下:
采样时间T设为0.001s,即使用每0.001s从系统获得的数据进行模拟。对于每次迭代,考虑沿轨迹测量的2个数据,进行更新所需要的权值ωL,轨迹的初始值在Ω=(-1,1)内选取。
在Ω上的成本函数近似为:
VL u(i)(x)=(WL u(i))TφL(x)
神经元L取值21,并且权值矩阵ωL以及激活函数选取为:
ω21 u(i)=[ω1 u(i) ... ω21 u(i)]T
φ{t+1}=[x1(t+1)*x1(t+1)x1(t+1)*x2(t+1)x1(t+1)...x6(t+1)*x6(t+1)]';
计算出ωL:
最终:
ωL=[0.019,0.024,0.01,0.16,0.07,0.04,0.02,0,0.32,0.13,0.07,-5.49,0,0,0,-1.2,-0.3,0,0,0.05,0.07]'
在每个迭代步骤中,使用2个数据点求解ωL,即在Ω=(-1,1)轨迹的上测量两个点;在每个时间间隔内(T=0.001s),使用与当前控制策略相关联的测量成本函数、该间隔结束时的系统状态测得下一个数据点;这样,在每0.002s,价值函数被求解并执行策略更新。
从实践结果(图3-图5)可以看出,在经过几个迭代步骤之后,神经网络参数达到最优,机械臂的角度位置和角速度1s内均收敛,其控制效果可以满足预期的要求。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
Claims (1)
1.一种基于机器学习的Baxter机械臂轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:
1)建立一个非线性机械臂动力学方程:
2)初始化系统的状态,并给定初始策略u0
u0=[u1,u2,u3] (3)
其中u1,u2,u3分别是三个机械臂关节的控制量;
3)利用强化学习策略迭代的方法更新权值,求取最优策略,过程如下:
考虑在一定采样周期内从系统获得的数据进行模拟,利用每次迭代,进行更新所需要的权值ωL,从而求解最优的价值函数,策略迭代包括策略评估和策略改进两个步骤;
3.1)策略评估:
策略评估是在当前策略下计算出下一时刻的状态值,每一次策略评估都是一个迭代计算过程,即每次进行策略评估时,需要基于前一个策略的价值函数开始计算;
定义价值函数V:
其中x,u分别表示系统状态变量和控制策略,s是积分微元,t为当前时刻时间,r(x,u)表示一个积分强化项:
r(x,u)=Q(x)+uTRu (5)
与控制策略相关联的价值函数定义:
其中i表示迭代的次数,u(i)是第i次迭代的控制策略;T为一个时间间隔;
3.2)策略改进:
策略改进就是根据策略评估计算的状态值对策略进行改进,计算出新的策略;根据已经求解了与控制策略i相关联的成本函数Vu(i),执行策略更新步骤,因此,策略更新方法是:
最后得到:
其中L是神经网络结构的神经元参数,Φ是神经网络系统中定义的参数,ωL u(i)是其权值矩阵,步骤(4)给出其定义;
4)引入神经网络算法并利用最小二乘的收敛性计算权值,过程如下:
在最小二乘意义下,确定逼近成本函数Vu L的神经网络的参数;
定义:
Φ=<[φL(x(t+T))-φL(x(t))],[φL(x(t+T))-φL(x(t))]T> (9)
其中x(t)是t时刻下的状态,φL(x(t))是t时刻神经网络结构中的激活函数;
神经网络结构逼近下的价值函数:
VL u(i)(x)=(ωL u(i))φL(x) (10)
其中
5)停止策略更新
策略迭代一致的收敛性,最终收敛于初始轨迹上的收敛解.当两个连续步骤中的价值函数误差小于给定的阈值ε,需要再次调整神经网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110499083.3A CN113370205B (zh) | 2021-05-08 | 2021-05-08 | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110499083.3A CN113370205B (zh) | 2021-05-08 | 2021-05-08 | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113370205A true CN113370205A (zh) | 2021-09-10 |
CN113370205B CN113370205B (zh) | 2022-06-17 |
Family
ID=77570803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110499083.3A Active CN113370205B (zh) | 2021-05-08 | 2021-05-08 | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113370205B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114469642A (zh) * | 2022-01-20 | 2022-05-13 | 深圳华鹊景医疗科技有限公司 | 康复机器人控制方法、装置及康复机器人 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406085A (zh) * | 2016-03-15 | 2017-02-15 | 吉林大学 | 基于跨尺度模型的空间机械臂轨迹跟踪控制方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
US20200250573A1 (en) * | 2019-02-05 | 2020-08-06 | International Business Machines Corporation | Implementing a computer system task involving nonstationary streaming time-series data based on a bias-variance-based adaptive learning rate |
CN111496792A (zh) * | 2020-04-27 | 2020-08-07 | 北京科技大学 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
CN111522243A (zh) * | 2020-05-20 | 2020-08-11 | 河北工业大学 | 一种五自由度上肢外骨骼系统鲁棒迭代学习控制策略 |
-
2021
- 2021-05-08 CN CN202110499083.3A patent/CN113370205B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406085A (zh) * | 2016-03-15 | 2017-02-15 | 吉林大学 | 基于跨尺度模型的空间机械臂轨迹跟踪控制方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
US20200250573A1 (en) * | 2019-02-05 | 2020-08-06 | International Business Machines Corporation | Implementing a computer system task involving nonstationary streaming time-series data based on a bias-variance-based adaptive learning rate |
CN111496792A (zh) * | 2020-04-27 | 2020-08-07 | 北京科技大学 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
CN111522243A (zh) * | 2020-05-20 | 2020-08-11 | 河北工业大学 | 一种五自由度上肢外骨骼系统鲁棒迭代学习控制策略 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114469642A (zh) * | 2022-01-20 | 2022-05-13 | 深圳华鹊景医疗科技有限公司 | 康复机器人控制方法、装置及康复机器人 |
Also Published As
Publication number | Publication date |
---|---|
CN113370205B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107490965B (zh) | 一种空间自由漂浮机械臂的多约束轨迹规划方法 | |
CN110202574B (zh) | 基于环境刚度估计的机器人自适应混合阻抗/导纳控制方法 | |
WO2022166328A1 (zh) | 任务执行控制方法、装置、控制设备及可读存储介质 | |
CN112904728B (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN110238839B (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN111702767A (zh) | 一种基于反演模糊自适应的机械手阻抗控制方法 | |
Dong et al. | Physical human–robot interaction force control method based on adaptive variable impedance | |
Fang et al. | Skill learning for human-robot interaction using wearable device | |
CN115464659B (zh) | 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 | |
CN115890735B (zh) | 机械臂系统、机械臂及其控制方法、控制器和存储介质 | |
CN115990888B (zh) | 一种具有死区和时变约束功能的机械臂控制方法 | |
CN116460860B (zh) | 一种基于模型的机器人离线强化学习控制方法 | |
CN113370205B (zh) | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 | |
Han et al. | Modified dynamic movement primitives: robot trajectory planning and force control under curved surface constraints | |
Mazare et al. | Adaptive variable impedance control for a modular soft robot manipulator in configuration space | |
CN113070878A (zh) | 基于脉冲神经网络的机器人控制方法、机器人及存储介质 | |
Gibet et al. | A self-organized model for the control, planning and learning of nonlinear multi-dimensional systems using a sensory feedback | |
CN112947430B (zh) | 一种移动机器人的智能轨迹跟踪控制方法 | |
CN113721626A (zh) | 一种制动盘补偿累计误差的机器人轨迹规划方法 | |
Zhu et al. | A new reinforcement learning fault-tolerant tracking control method with application to baxter robot | |
Huang et al. | Control of a piecewise constant curvature continuum manipulator via policy search method | |
Nagata et al. | Adaptive learning with large variability of teaching signals for neural networks and its application to motion control of an industrial robot | |
CN113352320B (zh) | 一种基于Q学习的Baxter机械臂智能优化控制方法 | |
CN115344047A (zh) | 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法 | |
CN114840947A (zh) | 一种带约束的三自由度机械臂动力学模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |