CN113352320A - 一种基于Q学习的Baxter机械臂智能优化控制方法 - Google Patents
一种基于Q学习的Baxter机械臂智能优化控制方法 Download PDFInfo
- Publication number
- CN113352320A CN113352320A CN202110508608.5A CN202110508608A CN113352320A CN 113352320 A CN113352320 A CN 113352320A CN 202110508608 A CN202110508608 A CN 202110508608A CN 113352320 A CN113352320 A CN 113352320A
- Authority
- CN
- China
- Prior art keywords
- representing
- matrix
- strategy
- mechanical arm
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于Q学习的Baxter机械臂智能优化控制方法,包括以下步骤:步骤1)建立一个非线性机械臂动力学方程;2)Q‑learning算法设计。本发明采用基于数据驱动的控制算法,并不需要系统模型,它通过系统以往的历史数据构造出近似的模型来逼近真实情况,在误差允许的范围内,单从结果上和精确的模型是等效的。
Description
技术领域
本发明属于控制技术领域,具体提供了一种基于Q学习的Baxter机械臂智能优化控制方法,是一种智能控制方法。
背景技术
在现代科技飞速发展的今天,机械臂以其小巧灵活,操作简单,灵活多样等特点,始终处于科技的前沿,一直引领着高新技术的方向。随着人工智能和计算机大数据时代的到来,人类总是期望机械臂能够具有更加强大的自主化能力,以代替我们在更多的邻域完成更加复杂危险的操作任务,为实现这一目标,其核心技术就是需要机械臂具有优良的运动规划能力,使机械臂在无人干扰的条件下也可以在未知的环境中有目的,准确高效的工作。
机械臂动力学方程是非线性,现有的控制方法大多数是基于模型,如pid控制、模糊控制、滑模变结构控制等,虽然很多线性方法在机器人控制中得到广泛应用,但经过线性化的模型与机器人的实际模型仍然有差别,并且经过线性化对机器人建模十分困难,当模型不精确时,甚至可能起反作用。
发明内容
为了克服现有技术的不足,本发明提供了一种基于Q学习的智能优化控制方法,它是一种基于数据驱动的控制算法,并不需要系统模型,它通过系统以往的历史数据构造出近似的模型来逼近真实情况,在误差允许的范围内,单从结果上和精确的模型是等效的。实验结果验证了该方法的有效性。
本发明为解决上述技术问题提供了如下技术方案:
一种基于Q学习的Baxter机械臂智能优化控制方法,包括以下步骤:
步骤1)建立一个非线性机械臂动力学方程:
其中q,分别表示机械臂角度,角速度,角加速度,向量M(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量,τ(k)表示第k步的机械臂控制力矩向量,表示模型不确定性,u(k)表示第k步的控制策略;
y(k)=x(k)
x(k)是第k步的状态,y(k)是第k步的系统输出,
O3×3表示3行3列的零矩阵,I3×3表示3行3列的单位矩阵,n(x1,x2)表示采点个数,-M-1(x1)表示惯性矩阵的逆矩阵。
步骤2)Q-learning算法设计,过程如下:
定义一个基于稳定策略u(0)的Q函数
Qu(0)(x(k),u(k))=c(x(k),u(k))+γVu(x(k+1)) (3)
其中Vu(0)(x(k+1))是第k+1步系统价值函数,
x(k+1)是第k+1步的状态,
c(x(k),u(k))=UTRU+yT(k)Qu(0)(x(k),u(k))y(k)
γ是折扣因子,R和U是系统加权矩阵,一旦可以使用数据识别Qu(0)(x(k),u(k)),那么根据式(4),得到改进的策略u(x(k)):
在LQR情况下,Q函数(3)在稳定策略u(x(k))=f*x(k)下显式表示为式(5)
计算Q-函数和改进策略的过程是交替进行的,那么对于LQR情形,策略保证收敛到最优策略;对改进的策略u(x(k))评估,其核心是确定Hu;
将式(5)代入式(3)中,得到temporal difference误差,
其中 表示Kronecker内积操作,vec(·)是一种矢量化操作,从(7)可以看出,通过使用可用数据x(k),u(k)和x(k+1)最小化TD误差来识别H,这是一个线性回归问题,采用随机梯度下降SGD或递推最小二乘LS方法解决所述线性回归问题。
选择目标策略加上白噪声或简单白噪声之和作为行为策略u(x(k)),由于H是具有(n+k)(n+k+1)/2个未知参数的对称矩阵,因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。
本发明提供了一种基于Q学习的智能优化控制方法,具体地说,先定义一个Q函数,然后建立temporal difference(TD)误差方程,H矩阵是TD误差方程里面的一个矩阵,可以通过使用可用数据x(k),u(k)和x(k+1)来最小化TD误差来识别,误差收敛之后,H矩阵就可以确定,通过H矩阵可以确定反馈增益,从而得到最优控制策略。
实验所用机器人平台为Baxter机器人,Baxter机器人是美国Rethink robotics公司研发的一款双臂机器人,其单机械臂是一种具有七自由度的冗余柔性关节机械臂。通过移动底座支撑机器人本体,机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用.柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器.手臂前后端通过26W和63W伺服电机驱动,通过14bit编码器实现关节角度的读取。Baxter机器人为基于ROS(Robot operating system)操作系统的开源机器人,通过Linux平台运行,用户可通过网络与机器人内部计算机互联读取信息或发送指令,或通SSH远程控制在内部计算机运行相关程序.利用Baxter相关的SDK(Software development kit),通过ROS的API(Application programming interface)可以实现对Baxter机器人的信息读取与实时控制.Baxter中的SDK可以提供相关函数接口与重要工具:如Gazebo仿真器及Moveit移动软件包等.Baxter机器人在力矩控制模式下,还需设置补偿力矩以抵消机械臂重力和关节支撑弹簧形变带来的影响。
附图说明
图1是Q-learning算法流程图。
图2是反馈增益变化图。
图3是机械臂价值函数变化图。
图4是机械臂控制效果图。
具体实施方式
以下结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
参照图1~图4,一种基于Q学习的Baxter机械臂智能优化控制方法,所述方法包括以下步骤:
步骤1)建立一个非线性机械臂动力学方程:
其中q,分别表示机械臂角度,角速度,角加速度,向量M(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量,τ(k)表示第k步的机械臂控制力矩向量,表示模型不确定性,u(k)表示第k步的控制策略;
y(k)=x(k)
x(k)是第k步的状态,y(k)是第k步的系统输出,O3×3表示3行3列的零矩阵,I3×3表示3行3列的单位矩阵,n(x1,x2)表示采点个数,-M-1(x1)表示惯性矩阵的逆矩阵;
步骤2)Q-learning算法设计,过程如下;
定义一个基于稳定策略u(0)的Q函数
Qu(0)(x(k),u(k))=c(x(k),u(k))+γVu(x(k+1)) (3)
其中Vu(0)(x(k+1))是第k+1步系统价值函数,
x(k+1)是第k+1步的状态,
c(x(k),u(k))=UTRU+yT(k)Qu(0)(x(k),u(k))y(k)
γ是折扣因子,R和U是系统加权矩阵,一旦可以使用数据识别Qu(0)(x(k),u(k)),那么根据式(4),得到改进的策略u(x(k)):
在LQR情况下,Q函数(3)在稳定策略u(x(k))=f*x(k)下显式表示为式(5)
计算Q-函数和改进策略的过程是交替进行的,那么对于LQR情形,策略保证收敛到最优策略;对改进的策略u(x(k))评估,其核心是确定Hu;
将式(5)代入式(3)中,得到temporal difference误差,
其中 表示Kronecker内积操作,vec(·)是一种矢量化操作,从(7)可以看出,通过使用可用数据x(k),u(k)和x(k+1)最小化TD误差来识别H,这是一个线性回归问题,采用随机梯度下降SGD或递推最小二乘LS方法解决所述线性回归问题。
选择目标策略加上白噪声或简单白噪声之和作为行为策略u(x(k)),由于H是具有(n+k)(n+k+1)/2个未知参数的矩阵,因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。
本实施例的基于Q学习的智能优化控制方法,有别于基于价值的方法,基于Q学习的强化学习方法直接尝试优化策略函数实现跟踪。对于已知的机械臂系统,通过可用数据x(k),u(k)和x(k+1)用递推最小二乘(LS)方法最小化TD误差来识别H。直到H收敛后,通过H矩阵可以求得反馈增益f,从而可以得到跟新的策略,循环以上步骤可得到最优控制策略。包括以下步骤:
1)机械臂运动模型及平台介绍
2)Q-learning算法设计
进一步,所述步骤1),实验所用机器人平台为Baxter机器人,其单机械臂是一种具有七自由度的冗余柔性关节机械臂。机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用.柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器.手臂前后端通过26W和63W伺服电机驱动,通过14bit编码器实现关节角度的读取。
由(2)已知系统的状态空间模型
y(k)=x(k)
初始化x=[0,0,0,0,0,0],u=[1,1,1];
进一步,所述步骤2)中,由于H是具有(n+k)(n+k+1)/2个未知参数的矩阵,因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。通过(2)和(6)可以得到可用数据x(k),u(k)和x(k+1),通过可用数据x(k),u(k)和x(k+1)用递推最小二乘(LS)方法最小化TD误差来识别H,当H收敛后,更新一次f,循环上述步骤直到f收敛结束循环,最终得到
从实验结果可以看出,基于Q学习的智能优化控制方法对其运动轨迹有着良好控制效果。
以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
Claims (2)
1.一种基于Q学习的Baxter机械臂智能优化控制方法,其特征在于,所述方法包括以下步骤:
步骤1)建立一个非线性机械臂动力学方程:
其中q,分别表示机械臂角度,角速度,角加速度,向量M(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量,τ(k)表示第k步的机械臂控制力矩向量,表示模型不确定性,u(k)表示第k步的控制策略;
y(k)=x(k)
x(k)是第k步的状态,y(k)是第k步的系统输出,
O3×3表示3行3列的零矩阵,I3×3表示3行3列的单位矩阵,n(x1,x2)表示采点个数,-M-1(x1)表示惯性矩阵的逆矩阵。
步骤2)Q-learning算法设计,过程如下:
定义一个基于稳定策略u(0)的Q函数
Qu(0)(x(k),u(k))=c(x(k),u(k))+γVu(x(k+1)) (3)
其中Vu(0)(x(k+1))是第k+1步系统价值函数,
x(k+1)是第k+1步的状态,
c(x(k),u(k))=UTRU+yT(k)Qu(0)(x(k),u(k))y(k)
γ是折扣因子,R和U是系统加权矩阵,一旦可以使用数据识别Qu(0)(x(k),u(k)),那么根据式(4),得到改进的策略u(x(k)):
在LQR情况下,Q函数(3)在稳定策略u(x(k))=f*x(k)下显式表示为式(5)
计算Q-函数和改进策略的过程是交替进行的,那么对于LQR情形,策略保证收敛到最优策略;对改进的策略的u(x(k))评估,其核心是确定Hu;
将式(5)代入式(3)中,得到temporal difference误差,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110508608.5A CN113352320B (zh) | 2021-05-11 | 2021-05-11 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110508608.5A CN113352320B (zh) | 2021-05-11 | 2021-05-11 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113352320A true CN113352320A (zh) | 2021-09-07 |
CN113352320B CN113352320B (zh) | 2022-06-17 |
Family
ID=77526149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110508608.5A Active CN113352320B (zh) | 2021-05-11 | 2021-05-11 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113352320B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063438A (zh) * | 2021-11-12 | 2022-02-18 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109605365A (zh) * | 2018-10-30 | 2019-04-12 | 大连理工大学 | 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法 |
CN111496792A (zh) * | 2020-04-27 | 2020-08-07 | 北京科技大学 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
CN112202848A (zh) * | 2020-09-15 | 2021-01-08 | 中国科学院计算技术研究所 | 基于深度强化学习的无人系统网络自适应路由方法和系统 |
CN112571420A (zh) * | 2020-12-21 | 2021-03-30 | 西北工业大学 | 一种未知参数下的双功能模型预测控制方法 |
-
2021
- 2021-05-11 CN CN202110508608.5A patent/CN113352320B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109605365A (zh) * | 2018-10-30 | 2019-04-12 | 大连理工大学 | 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法 |
CN111496792A (zh) * | 2020-04-27 | 2020-08-07 | 北京科技大学 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
CN112202848A (zh) * | 2020-09-15 | 2021-01-08 | 中国科学院计算技术研究所 | 基于深度强化学习的无人系统网络自适应路由方法和系统 |
CN112571420A (zh) * | 2020-12-21 | 2021-03-30 | 西北工业大学 | 一种未知参数下的双功能模型预测控制方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063438A (zh) * | 2021-11-12 | 2022-02-18 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
CN114063438B (zh) * | 2021-11-12 | 2023-09-22 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113352320B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | Robot manipulator control using neural networks: A survey | |
Jiang et al. | A two-level approach for solving the inverse kinematics of an extensible soft arm considering viscoelastic behavior | |
CN110355751B (zh) | 控制装置和机器学习装置 | |
CN110682286B (zh) | 一种协作机器人实时避障方法 | |
CN111546315B (zh) | 一种基于人机协作的机器人柔顺示教及再现方法 | |
CN114761966A (zh) | 用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法 | |
CN112743541B (zh) | 一种无力/力矩传感器机械臂软浮动控制方法 | |
Tian et al. | Constrained motion control of flexible robot manipulators based on recurrent neural networks | |
CN111702767A (zh) | 一种基于反演模糊自适应的机械手阻抗控制方法 | |
CN114102600B (zh) | 一种多空间融合的人机技能迁移与参数补偿方法及系统 | |
KR20220155921A (ko) | 로봇 디바이스를 제어하기 위한 방법 | |
Mazare et al. | Adaptive variable impedance control for a modular soft robot manipulator in configuration space | |
CN113352320B (zh) | 一种基于Q学习的Baxter机械臂智能优化控制方法 | |
CN113103262A (zh) | 机器人控制装置和用于控制机器人的方法 | |
CN113370205B (zh) | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 | |
CN115344047A (zh) | 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法 | |
Harokopos | Optimal learning control of mechanical manipulators in repetitive motions | |
CN113290554B (zh) | 一种基于值迭代的Baxter机械臂智能优化控制方法 | |
Iqbal et al. | Arm-manipulator coordination for load sharing using predictive control | |
Lu et al. | A novel steering control for real autonomous vehicles via PI adaptive dynamic programming | |
Koditschek | Automatic planning and control of robot natural motion via feedback | |
CN113325711B (zh) | 一种用于柔性机械臂预定精度定位的智能控制方法 | |
US12038727B2 (en) | System for performing a task according to a reference trajectory | |
Hu et al. | Dynamic linear predictive optimization of flexible robot profiling MFA model | |
CN117260701A (zh) | 训练机器学习模型以实现控制规则的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |