CN113352320A

CN113352320A - 一种基于Q学习的Baxter机械臂智能优化控制方法

Info

Publication number: CN113352320A
Application number: CN202110508608.5A
Authority: CN
Inventors: 张恒; 朱俊威; 夏振浩; 王波; 董子源; 杨豫鹏; 王琪
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-09-07
Anticipated expiration: 2041-05-11
Also published as: CN113352320B

Abstract

一种基于Q学习的Baxter机械臂智能优化控制方法，包括以下步骤：步骤1)建立一个非线性机械臂动力学方程；2)Q‑learning算法设计。本发明采用基于数据驱动的控制算法，并不需要系统模型，它通过系统以往的历史数据构造出近似的模型来逼近真实情况，在误差允许的范围内，单从结果上和精确的模型是等效的。

Description

一种基于Q学习的Baxter机械臂智能优化控制方法

技术领域

本发明属于控制技术领域，具体提供了一种基于Q学习的Baxter机械臂智能优化控制方法，是一种智能控制方法。

背景技术

在现代科技飞速发展的今天，机械臂以其小巧灵活，操作简单，灵活多样等特点，始终处于科技的前沿，一直引领着高新技术的方向。随着人工智能和计算机大数据时代的到来，人类总是期望机械臂能够具有更加强大的自主化能力，以代替我们在更多的邻域完成更加复杂危险的操作任务，为实现这一目标，其核心技术就是需要机械臂具有优良的运动规划能力，使机械臂在无人干扰的条件下也可以在未知的环境中有目的，准确高效的工作。

机械臂动力学方程是非线性，现有的控制方法大多数是基于模型，如pid控制、模糊控制、滑模变结构控制等，虽然很多线性方法在机器人控制中得到广泛应用，但经过线性化的模型与机器人的实际模型仍然有差别，并且经过线性化对机器人建模十分困难，当模型不精确时，甚至可能起反作用。

发明内容

为了克服现有技术的不足，本发明提供了一种基于Q学习的智能优化控制方法，它是一种基于数据驱动的控制算法，并不需要系统模型，它通过系统以往的历史数据构造出近似的模型来逼近真实情况，在误差允许的范围内，单从结果上和精确的模型是等效的。实验结果验证了该方法的有效性。

本发明为解决上述技术问题提供了如下技术方案：

一种基于Q学习的Baxter机械臂智能优化控制方法，包括以下步骤：

步骤1)建立一个非线性机械臂动力学方程：

其中q,

分别表示机械臂角度，角速度，角加速度，向量M(q)表示机械臂惯性矩阵，

表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量，τ(k)表示第k步的机械臂控制力矩向量，

表示模型不确定性,u(k)表示第k步的控制策略；

考虑机器人动力学模型已知，定义

为便于分析，将式(1)转化成如下状态空间模型：

y(k)＝x(k)

其中

x(k)是第k步的状态，y(k)是第k步的系统输出，

O_3×3表示3行3列的零矩阵，I_3×3表示3行3列的单位矩阵，n(x₁,x₂)表示采点个数，-M^-1(x₁)表示惯性矩阵的逆矩阵。

步骤2)Q-learning算法设计，过程如下:

定义一个基于稳定策略u(0)的Q函数

Q^u(0)(x(k),u(k))＝c(x(k),u(k))+γV^u(x(k+1)) (3)

其中V^u(0)(x(k+1))是第k+1步系统价值函数，

x(k+1)是第k+1步的状态，

c(x(k),u(k))＝U^TRU+y^T(k)Q^u(0)(x(k),u(k))y(k)

γ是折扣因子,R和U是系统加权矩阵，一旦可以使用数据识别Q^u(0)(x(k),u(k))，那么根据式(4)，得到改进的策略u(x(k))：

在LQR情况下，Q函数(3)在稳定策略u(x(k))＝f*x(k)下显式表示为式(5)

其中P是黎卡提方程解，H^u是在控制策略u(x(k))下系统内核矩阵，

是内核矩阵里面的分块矩阵，基于(4)，改进策略u(x(k))的状态反馈增益f由式(6)得：

计算Q-函数和改进策略的过程是交替进行的，那么对于LQR情形，策略保证收敛到最优策略；对改进的策略u(x(k))评估，其核心是确定H^u；

将式(5)代入式(3)中，得到temporal difference误差，

其中

表示Kronecker内积操作，vec(·)是一种矢量化操作，从(7)可以看出，通过使用可用数据x(k),u(k)和x(k+1)最小化TD误差来识别H，这是一个线性回归问题，采用随机梯度下降SGD或递推最小二乘LS方法解决所述线性回归问题。

进一步，考虑到一个应用的目标策略u(x(k))，使用递归LS方法来识别相应的H^u，对于某些大常数β和

给定初始值

递推关系如下所示：

其中，i和j表示循环次数，I是单位矩阵，

表示第j次的内核矩阵，

表示第j+1次的内核矩阵，

表示第i次下的第j次的矩阵，

表示第i次下的第j+1次的矩阵；

选择目标策略加上白噪声或简单白噪声之和作为行为策略u(x(k))，由于H是具有(n+k)(n+k+1)/2个未知参数的对称矩阵，因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。

本发明提供了一种基于Q学习的智能优化控制方法，具体地说，先定义一个Q函数，然后建立temporal difference(TD)误差方程，H矩阵是TD误差方程里面的一个矩阵，可以通过使用可用数据x(k),u(k)和x(k+1)来最小化TD误差来识别，误差收敛之后，H矩阵就可以确定，通过H矩阵可以确定反馈增益，从而得到最优控制策略。

实验所用机器人平台为Baxter机器人，Baxter机器人是美国Rethink robotics公司研发的一款双臂机器人，其单机械臂是一种具有七自由度的冗余柔性关节机械臂。通过移动底座支撑机器人本体,机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用.柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器.手臂前后端通过26W和63W伺服电机驱动，通过14bit编码器实现关节角度的读取。Baxter机器人为基于ROS(Robot operating system)操作系统的开源机器人,通过Linux平台运行,用户可通过网络与机器人内部计算机互联读取信息或发送指令,或通SSH远程控制在内部计算机运行相关程序.利用Baxter相关的SDK(Software development kit),通过ROS的API(Application programming interface)可以实现对Baxter机器人的信息读取与实时控制.Baxter中的SDK可以提供相关函数接口与重要工具:如Gazebo仿真器及Moveit移动软件包等.Baxter机器人在力矩控制模式下,还需设置补偿力矩以抵消机械臂重力和关节支撑弹簧形变带来的影响。

附图说明

图1是Q-learning算法流程图。

图2是反馈增益变化图。

图3是机械臂价值函数变化图。

图4是机械臂控制效果图。

具体实施方式

以下结合附图详细说明和陈述了本发明的实施方式，但并不局限于上述方式。在本领域的技术人员所具备的知识范围内，只要以本发明的构思为基础，还可以做出多种变化和改进。

参照图1～图4，一种基于Q学习的Baxter机械臂智能优化控制方法，所述方法包括以下步骤：

步骤1)建立一个非线性机械臂动力学方程：

其中q,

表示模型不确定性,u(k)表示第k步的控制策略；

考虑机器人动力学模型已知，定义

为便于分析，将式(1)转化成如下状态空间模型：

y(k)＝x(k)

其中

x(k)是第k步的状态，y(k)是第k步的系统输出，O_3×3表示3行3列的零矩阵，I_3×3表示3行3列的单位矩阵，n(x₁,x₂)表示采点个数，-M^-1(x₁)表示惯性矩阵的逆矩阵；

步骤2)Q-learning算法设计，过程如下；

定义一个基于稳定策略u(0)的Q函数

Q^u(0)(x(k),u(k))＝c(x(k),u(k))+γV^u(x(k+1)) (3)

其中V^u(0)(x(k+1))是第k+1步系统价值函数，

x(k+1)是第k+1步的状态，

c(x(k),u(k))＝U^TRU+y^T(k)Q^u(0)(x(k),u(k))y(k)

将式(5)代入式(3)中，得到temporal difference误差，

其中

给定初始值

递推关系如下所示：

其中，i和j表示循环次数，I是单位矩阵，

表示第j次的内核矩阵，

表示第j+1次的内核矩阵，

表示第i次下的第j次的矩阵，

表示第i次下的第j+1次的矩阵；

选择目标策略加上白噪声或简单白噪声之和作为行为策略u(x(k))，由于H是具有(n+k)(n+k+1)/2个未知参数的矩阵，因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。

本实施例的基于Q学习的智能优化控制方法，有别于基于价值的方法，基于Q学习的强化学习方法直接尝试优化策略函数实现跟踪。对于已知的机械臂系统，通过可用数据x(k),u(k)和x(k+1)用递推最小二乘(LS)方法最小化TD误差来识别H。直到H收敛后，通过H矩阵可以求得反馈增益f,从而可以得到跟新的策略，循环以上步骤可得到最优控制策略。包括以下步骤：

1)机械臂运动模型及平台介绍

2)Q-learning算法设计

进一步，所述步骤1)，实验所用机器人平台为Baxter机器人，其单机械臂是一种具有七自由度的冗余柔性关节机械臂。机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用.柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器.手臂前后端通过26W和63W伺服电机驱动，通过14bit编码器实现关节角度的读取。

由(2)已知系统的状态空间模型

y(k)＝x(k)

初始化x＝[0,0,0,0,0,0]，u＝[1,1,1]；

进一步，所述步骤2)中，由于H是具有(n+k)(n+k+1)/2个未知参数的矩阵，因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。通过(2)和(6)可以得到可用数据x(k),u(k)和x(k+1)，通过可用数据x(k),u(k)和x(k+1)用递推最小二乘(LS)方法最小化TD误差来识别H，当H收敛后,更新一次f,循环上述步骤直到f收敛结束循环，最终得到

从实验结果可以看出，基于Q学习的智能优化控制方法对其运动轨迹有着良好控制效果。

以上结合附图详细说明和陈述了本发明的实施方式，但并不局限于上述方式。在本领域的技术人员所具备的知识范围内，只要以本发明的构思为基础，还可以做出多种变化和改进。