CN113370205A

CN113370205A - 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法

Info

Publication number: CN113370205A
Application number: CN202110499083.3A
Authority: CN
Inventors: 董子源; 朱俊威; 王波; 夏振浩; 张恒; 董建伟; 吴珺; 杨冰冰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-09-10
Anticipated expiration: 2041-05-08
Also published as: CN113370205B

Abstract

一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，包括以下步骤：1)建立一个机械臂动力学方程；2)初始化系统的状态变量，并给定初始策略；3)利用强化学习策略迭代的方法更新权值，求取最优策略；4)引入神经网络算法并利用最小二乘的收敛性计算权值；5)停止策略更新。本发明提供一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，保证了较好的控制效果。

Description

一种基于机器学习的Baxter机械臂轨迹跟踪控制方法

技术领域

本发明属于控制技术领域，具体提供一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，保证了较好的智能控制效果。

背景技术

生产中工业机械臂为企业提供了有力的装备力量，并且随着形式各异的机械臂相继问世，针对其控制问题的研究也得到了相关科研人员的关注。

机械臂动力学方程呈非线性，现有控制方法大多基于模型，虽然很多反馈线性方法在移动机器人控制中得到了广泛的应用，包括精确反馈线性化、近似反馈线性化和伪线性化等，但是经过线性化后得到的模型仍不能完全替代非线性机器人模型，并且采用线性化进行移动机器人建模十分困难，可行性不高。

发明内容

为了克服现有技术的不足，本发明提供一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，保证了较好的控制效果。

本发明为解决上述技术问题提供了如下技术方案：

一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，包括以下步骤：

1)建立一个非线性机械臂动力学方程：

其中q,

分别表示机械臂角度，角速度，角加速度，向量M_j(q)表示机械臂惯性矩阵，

表示机械臂科氏力矩向量,G_j(q)表示机械臂重力矩向量，τ表示机械臂控制力矩向量，τ_d表示外部环境的未知扰动力矩向量；

设计三关节机械臂动力学模型控制器，考虑机器人动力学模型已知，定义x₁＝[q₁,q₂,q₃],

分别表示三个机械臂关节的角度和角速度，将式(1)转化成如下状态空间形式：

2)初始化系统的状态，并给定初始策略u₀

u₀＝[u₁,u₂,u₃] (3)

其中u₁,u₂,u₃分别是三个机械臂关节的控制量；

3)利用强化学习策略迭代的方法更新权值，求取最优策略，过程如下：

考虑在一定采样周期内从系统获得的数据进行模拟，利用每次迭代，进行更新所需要的权值ω_L，从而求解最优的价值函数，策略迭代包括策略评估和策略改进两个步骤；

3.1)策略评估：

策略评估是在当前策略下计算出下一时刻的状态值，每一次策略评估都是一个迭代计算过程，即每次进行策略评估时，需要基于前一个策略的价值函数开始计算；

定义价值函数V：

其中x,u分别表示系统状态变量和控制策略，s是积分微元，t为当前时刻时间，r(x,u)表示一个积分强化项：

r(x,u)＝Q(x)+u^TRu (5)

其中Q(x)是一个包含状态信息的正定矩阵，

Q(x)＞0，并且只有在x＝0时，Q(x)＝0

与控制策略相关联的价值函数定义：

其中i表示迭代的次数，u⁽ⁱ⁾是第i次迭代的控制策略；T为一个时间间隔；3.2)策略改进：

策略改进就是根据策略评估计算的状态值对策略进行改进，计算出新的策略；根据已经求解了与控制策略i相关联的成本函数V^u(i)，执行策略更新步骤，因此，策略更新方法是：

其中R是单位矩阵，g(x)是包含输入信息的函数，

是对成本函数V的梯度求导；

最后得到：

其中L是神经网络结构的神经元参数，Φ是神经网络系统中定义的参数，ω_L ^u(i)是其权值矩阵，步骤(4)给出其定义；

4)引入神经网络算法并利用最小二乘的收敛性计算权值，过程如下：

在最小二乘意义下，确定逼近成本函数V^u _L的神经网络的参数；

定义：

Φ＝<[φ_L(x(t+T))-φ_L(x(t))],[φ_L(x(t+T))-φ_L(x(t))]^T> (9)

其中x(t)是t时刻下的状态，φ_L(x(t))是t时刻神经网络结构中的激活函数；

神经网络结构逼近下的价值函数：

V_L ^u(i)(x)＝(ω_L ^u(i))φ_L(x) (10)

其中

5)停止策略更新

策略迭代一致的收敛性，最终收敛于初始轨迹上的收敛解.当两个连续步骤中的价值函数误差小于给定的阈值ε，需要再次调整神经网络的参数；

本发明的技术构思为：机器学习中自适应动态非线性优化方法适应于复杂系统的控制设计，其采用函数近似方法来近似出价值函数，有最小二乘法、投影算法等方法。自适应控制的基本思想是通过不断地监测被控对象，根据其变化来调整控制参数，从而实现机械臂的智能化控制。

基于数据驱动方法，采用函数近似方法来近似出价值函数，利用最小二乘法估计权值并且使用机器学习中强化学习策略迭代的方法在线更新策略，并将其应用于机械臂。

实验所用机器人平台为Baxter机器人，Baxter机器人是美国Rethink robotics公司研发的一款双臂机器人，其单机械臂是一种具有七自由度的冗余柔性关节机械臂。通过移动底座支撑机器人本体,机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用.柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器.手臂前后端通过26W和63W伺服电机驱动，通过14bit编码器实现关节角度的读取。Baxter机器人为基于ROS(Robot operating system)操作系统的开源机器人,通过Linux平台运行,用户可通过网络与机器人内部计算机互联读取信息或发送指令,或通SSH(Secureshell)远程控制在内部计算机运行相关程序.利用Baxter相关的SDK(Softwaredevelopment kit),通过ROS的API(Application programming interface)可以实现对Baxter机器人的信息读取与实时控制.Baxter中的SDK可以提供相关函数接口与重要工具:如Gazebo仿真器及Moveit移动软件包等.Baxter机器人在力矩控制模式下,还需设置补偿力矩以抵消机械臂重力和关节支撑弹簧形变带来的影响。

与一般系统相比而言，机械臂系统有以下两点主要区别，

一：对于机械臂系统而言，其被控对象就是其系统本身并且该系统并不是一个与外界封闭的独立系统而是一个开放的需要与外界环境进行信息交互的系统；

二：外界环境并不是稳定的而是处于不断变换发展的状态之中，以上两点大大加重了机械臂控制问题的复杂程度。因此，只有在解决上面这两个问题的基础之上，才能保证对于移动机器人的准确控制。

本发明提供了一种基于Baxter机械臂的策略迭代智能化控制方法，初始化系统状态变量，确定一个初始控制策略；利用最小二乘法收敛性对权值矩阵进行估计；通过强化学习中策略迭代的方法对权值进行更新，该方法的控制效果可以满足实际应用的要求。

本发明的有益效果为：基于数据驱动的方式，保证了较好的控制效果。

附图说明

图1是Baxter机械臂控制平台结构示意图；

图2是基于Baxter机械臂自适应控制的价值函数变化图；

图3是基于神经网络的参数收敛变化图；

图4是三关节Baxter机械臂自适应控制策略变化图；

图5是三关节Baxter机械臂控制效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面结合附图和实际实验对本发明的技术方案作进一步描述。

参照图1～图5，一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，对确定的机械臂动力学模型，利用最小二乘法的收敛性估计权值；并通过引入神经网络和强化学习中策略迭代的方法更新控制器的权值，求解最优的价值函数。

本实施例的基于机器学习的Baxter机械臂轨迹跟踪控制方法，包括以下步骤：

1)建立一个机械臂动力学方程；

2)初始化系统的状态变量，并给定初始策略；

3)利用强化学习策略迭代的方法更新权值，求取最优策略；

4)引入神经网络算法并利用最小二乘的收敛性计算权值；

5)停止策略更新。

所述步骤1)中，建立一个机械臂动力学模型：

其中q,

分别表示机械臂角度，角速度，角加速度向量M_j(q)表示机械臂惯性矩阵，

所述步骤2)中，初始化系统的状态，并给定初始策略u₀

u₀＝[u₁,u₂,u₃] (2)

其中u₁,u₂,u₃分别是三个机械臂关节的控制量；

所述步骤3)的过程如下：

3.1)策略评估：

策略评估是在当前策略下计算出下一时刻的状态值，每一次策略评估都是一个迭代计算过程，即每次进行策略评估时，需要基于前一个策略的价值函数开始计算，这通常会显著提高策略评估的收敛速度；

定义价值函数：

r(x,u)表示一个积分强化项：

r(x,u)＝Q(x)+u^TRu (4)

其中Q(x)是一个正定矩阵，

Q(x)＞0，并且只有在x＝0时，Q(x)＝0

与控制策略相关联的成本函数看成：

3.2)策略改进：

策略改进就是根据策略评估计算的状态值对策略进行改进，计算出新的策略，

根据已经求解了与控制策略i相关联的成本函数V^u _L，执行策略更新步骤，因此，策略更新方法是：

最后得到：

所述步骤4)的过程如下：

定义：

Φ＝<[φ_L(x(t+T))-φ_L(x(t))],[φ_L(x(t+T))-φ_L(x(t))]^T> (8)

其中L是神经网络结构的神经元参数，φ_L(x)是神经网络结构中的激活函数；

神经网络结构逼近下的价值函数：

V_L ^u(i)(x)＝(ω_L ^u(i))φ_L(x) (9)

调整价值函数逼近的参数ω_L，使目标最小化，得到：

所述步骤5)的过程为：策略迭代具有一致的收敛性，最终收敛于初始轨迹上的收敛解。当两个连续步骤中的价值函数误差小于给定的阈值ε，需要再次调整神经网络的参数；

本实施例中，一种基于Baxter机械臂的策略迭代智能化控制方法，如下所示：

其中，x₁＝[q₁,q₂,q₃]，

q,

本实施例中，初始化系统的状态变量x₁＝[0.5,0,0.1],x₂＝[0.1,0.2,0.1]，并给定一个初始策略：

u₀＝[0.5*sin(1*t),1*cos(1*t),0.7*sin(1*t)]'

进一步，利用最小二乘法的收敛性估计权值，过程如下：

采样时间T设为0.001s，即使用每0.001s从系统获得的数据进行模拟。对于每次迭代，考虑沿轨迹测量的2个数据，进行更新所需要的权值ω_L，轨迹的初始值在Ω＝(-1，1)内选取。

在Ω上的成本函数近似为：

V_L ^u(i)(x)＝(W_L ^u(i))^Tφ_L(x)

神经元L取值21，并且权值矩阵ω_L以及激活函数选取为：

ω₂₁ ^u(i)＝[ω₁ ^u(i) ... ω₂₁ ^u(i)]^T

φ{t+1}＝[x1(t+1)*x1(t+1)x1(t+1)*x2(t+1)x1(t+1)...x6(t+1)*x6(t+1)]'；

计算出ω_L：

最终：

ω_L＝[0.019,0.024,0.01,0.16,0.07，0.04，0.02，0，0.32，0.13，0.07，-5.49，0，0，0，-1.2，-0.3，0，0，0.05，0.07]'

在每个迭代步骤中，使用2个数据点求解ω_L，即在Ω＝(-1，1)轨迹的上测量两个点；在每个时间间隔内(T＝0.001s)，使用与当前控制策略相关联的测量成本函数、该间隔结束时的系统状态测得下一个数据点；这样，在每0.002s，价值函数被求解并执行策略更新。

从实践结果(图3-图5)可以看出，在经过几个迭代步骤之后，神经网络参数达到最优，机械臂的角度位置和角速度1s内均收敛，其控制效果可以满足预期的要求。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于机器学习的Baxter机械臂轨迹跟踪控制方法，其特征在于，所述方法包括以下步骤：

1)建立一个非线性机械臂动力学方程：

其中q,

2)初始化系统的状态，并给定初始策略u₀

u₀＝[u₁,u₂,u₃] (3)

其中u₁,u₂,u₃分别是三个机械臂关节的控制量；

3.1)策略评估：

定义价值函数V：

r(x,u)＝Q(x)+u^TRu (5)

其中Q(x)是一个包含状态信息的正定矩阵，

并且只有在x＝0时，Q(x)＝0

与控制策略相关联的价值函数定义：

其中i表示迭代的次数，u⁽ⁱ⁾是第i次迭代的控制策略；T为一个时间间隔；

3.2)策略改进：

其中R是单位矩阵，g(x)是包含输入信息的函数，

是对成本函数V的梯度求导；

最后得到：

定义：

Φ＝<[φ_L(x(t+T))-φ_L(x(t))],[φ_L(x(t+T))-φ_L(x(t))]^T> (9)

神经网络结构逼近下的价值函数：

V_L ^u(i)(x)＝(ω_L ^u(i))φ_L(x) (10)

其中

5)停止策略更新

策略迭代一致的收敛性，最终收敛于初始轨迹上的收敛解.当两个连续步骤中的价值函数误差小于给定的阈值ε，需要再次调整神经网络的参数。