CN109605365A

CN109605365A - 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法

Info

Publication number: CN109605365A
Application number: CN201811333587.2A
Authority: CN
Inventors: 邬树楠; 刘帅; 吴志刚; 初未萌; 王恩美
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-10-30
Filing date: 2018-11-09
Publication date: 2019-04-12
Also published as: CN110340888A

Abstract

本发明公开了一种空间机器人机械臂抓捕控制系统，包括内、外两个回路；在外回路中，系统通过PD控制器实现抓捕过程中空间机器人机械臂基座平台的姿态稳定；在内回路中，系统通过基于强化学习的强化学习控制系统控制机械臂实现对非合作目标的抓捕机动。本发明还进一步的公开了一种用于控制系统内回路中机械臂强化学习控制系统的强化学习方法，以及空间机器人机械臂抓捕控制系统的空间机器人动力学建模方法。本发明相比PD控制，强化学习RL控制下的基座平台姿态扰动更小，机械臂末端运动过程更平稳，控制精度更高，且使强化学习RL控制下的机械臂运动灵活性好，更具有自主智能性。

Description

一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法

技术领域

本发明涉机器人控制领域，尤其涉及一种空间机器人机械臂抓捕控制系统及方法。

背景技术

近年来，越来越多的卫星被发射升空，尽管卫星任务失败大部分是因为运载火箭发射失败，但在轨故障也是影响卫星任务失败的重要原因，还有许多卫星因为燃料耗尽或电力供应不足而无法继续完成工作，严重影响卫星的使用寿命。由于恶劣的太空环境对于宇航员舱外作业有着较大风险，而空间机器人完全可以替代人类完成这些舱外空间作业，可广泛应用于在轨维修、燃料加注与在轨组装等多方面的在轨服务任务中，已成为多个国家的研究热点。机械臂与基座平台组成高度耦合的动力学系统，机械臂的运动会影响空间机器人基座平台的姿态稳定，这些问题都对空间机器人的在轨稳定控制提出了较大的挑战，关系到在轨服务任务的成功与否。本发明专利提出一种智能控制方法对空间机器人进行控制。

许多学者提出了针对空间机器人系统稳定控制的方法。有针对空间机器人基座平台可控的情况设计了自适应控制方法，并在关节空间中对机械臂控制进行了仿真计算。有提出了带扰动观测器的鲁棒控制策略，将模型的不确定性与外界的干扰集中在一起，在机械臂的每个关节处设计了扰动观测器，结合PD控制完成对机械臂的控制。有提出了自适应神经网络控制方法,对不确定部分用神经网络近似，并证明了系统的稳定性。有将H∞控制与神经网络结合在一起，对自由漂浮空间机器人的操作手进行了控制，并考虑了模型的不确定性与外界的扰动。有在进行空间机器人抓捕漂浮目标的研究中，引入末端装置抓取目标时的碰撞模型，提出了"动态抓取域"用于机械臂抓取目标时的控制,同时应用关节主动阻尼控制,以减小抓取碰撞激振对空间机器人冲击的影响。有针对载体位置、姿态均不受控并具有有界外部扰动的漂浮基柔性两杆空间机械臂振动进行了不主动抑制的全局鲁棒Terminal滑模控制。有在自由漂浮空间机器人系统中，考虑基座平台的反作用干扰，对机械臂运动进行了轨迹优化。有通过估计机械臂产生的角动量，然后对基座平台姿态进行补偿控制，对机械臂运动与基座平台姿态进行了协调控制。有提出在自由漂浮基下，由空间机械臂自身的控制实现机械臂与基座平台协调运动的方法。有考虑反应轮的方面来重新描述自由飞行空间机器人的动力学方程，应用一种新的自适应变结构控制方法实现了受系统不确定性影响的空间机器人鲁棒协调控制器。有针对空间机械手轨迹跟踪问题，使用分散递推控制策略，设计了分散鲁棒控制器。

空间机械臂的运动与基座平台的运动相互耦合，为提高机械臂抓捕的精度与稳定度，需要同时控制机械臂和基座平台的运动。此外，机械臂的运动导致系统的动力学参数发生变化，因此抓捕过程中的空间机器人是一个时变的非线性耦合系统。传统的控制器需要已知空间机器人系统精确的动力学模型，且并没有考虑目标的非合作特性。

发明内容

针对上述问题，本发明提出了一种基于强化学习的空间机械手臂抓捕控制系统，该控制系统包括内、外两个回路，在外回路中，通过PD控制器保证抓捕过程中空间机器人基座平台的姿态稳定；在内回路中，通过基于强化学习的机械臂运动控制器以实现对非合作目标的抓捕机动。本发明还进一步提出了一种基于强化学习空间机械臂抓捕控制方法，通过与外界环境的交互中学习得到控制律，提高空间机器人系统在轨工作的自主性。

本发明的技术方案是这样实现的：

一种空间机器人机械臂抓捕控制系统，所述控制系统包括内、外两个回路；在外回路中，系统通过PD控制器实现抓捕过程中空间机器人机械臂基座平台的姿态稳定；在内回路中，系统通过基于强化学习的机械臂运动控制器实现对非合作目标的抓捕机动。

一种用于上述控制系统内回路中，机械臂运动控制器的强化学习方法，通过将机械臂的末端位置作为操作手位置，将机械臂末端位置误差E_c、速度误差作为运动控制器的输入，并通过强化学习由运动控制器输出空间机械臂控制力矩T_q，从而实现对机械臂的运动控制，其中：

E_c＝X_d-X (9)

式(9)、(10)中，X_d为机械臂末端期望位置。

进一步的，所述方法中采用模糊理论对连续变化量进行模糊化处理，将连续变化的量变为有限的状态量s，在模糊推理系统中，采用高斯隶属度函数统一对机械臂末端位置与速度进行模糊化处理，如式(11)所示：

式(11)中，l为输入变量的模糊层数，这里l＝1,2,3，即将输入变量模糊处理为3层，y为输入变量，即y^l为每层模糊层的中心值，y^l(i)＝m(i)+n(i)*(l-1)，σ控制高斯隶属度函数的“宽度”，由于输入变量的模糊级别分为3级，则模糊规则L总共为9条，{a₁,a₂,......,a_j}是与每条模糊规则所匹配的控制输出集合，控制输出划分为模糊集{NB,N,Z,P,PB}，其中，NB,N,Z,P,PB分别代表负大、负、零、正、正大5个模糊级别，即j＝5。

进一步的，设计其中的模糊规则如下：

如果y(1)、y(2)满足第p条模糊规则L_p，那么a＝a₁，Q(p,1)，

或者a＝a₂，Q(p,2)……或者a＝a_j，Q(p,j)，

每一条模糊规则权重υ_p可由输入变量机械臂末端位置误差E_c、速度误差E_c的模糊隶属度相乘得到，公式如下:

υ_p＝Z(y(1))*Z(y(2)) (12)。

进一步的，所述强化学习的更新步骤如下：

在每一条的模糊规则中，选取Q表中所对应一行中使得Q值最小的控制输出作为最优输出，根据每一条模糊规则中的最优输出去模糊化计算,得到连续性机械臂控制力矩：

在强化学习过程中，每一次训练迭代计算中除了最优控制力矩，还可采用贪心算法选择控制力矩作为实际的输出力矩，具体步骤如式(15)、(16)所示，

同理，通过去模糊计算可得此时的Q值：

在施加机械臂控制力矩后，使机械臂末端位置由状态s到达状态s',在状态s'时，使用最优控制力矩代替实际控制力矩此时的目标Q值为：

计算成本函数r，机械臂末端X距离目标位置点X_d越远，成本越大，并考虑机械臂末端的速度与目标位置点之间的速度差，将成本函数定义为：

可得到Q值的更新公式：

经过强化学习的训练过程，使Q表中的值不断更新收敛，最后稳定到最优Q值，并进一步由运动控制器输出相应的空间机械臂控制力矩T_q，

一种用于上述控制系统的空间机器人动力学建模方法，包括以下步骤：

S1，将空间机器人的可控基座平台与机器人的机械臂看作一个多体链，由n+1个刚体和n个关节组成，n个关节从1到n分别进行编号，q＝(q₁,q₂,...q_n)^T用来表示这些关节转动的角度，θ_B＝(θ_x,θ_y,θ_z)^T用来表示基座平台的姿态角，x_B＝(x_Bx,x_By,x_Bz)^T用来表示基座平台的轨道位置；

S2，将轨道坐标系作为惯性坐标系∑_I，以空间机器人质心为原点；定义基座平台坐标系∑_B，以基座平台质心为原点；坐标系∑_B的ox轴与空间机器人轴对称轴重合，稳定状态下指向前进方向，oy轴垂直于纵对称面，oz轴与其它两轴互补成右旋坐标系；所述基座平台与空间机器人固联，R_i与r_i分别表示惯性坐标系∑_I与基座平台坐标系∑_B下第i个连杆质心的位置矢量，

R_i＝r_i+R_B， (1)

其中，R_B表示惯性空间坐标系∑_I下基座平台质心的位置矢量；V_i和Ω_i分别表示惯性坐标系∑_I下第i个刚体的线速度与角速度，v_i和ω_i分别表示基座平台坐标系∑_B下第i个刚体的线速度与角速度，由此可以得到：

V_i＝v_i+V_B+Ω_B×r_i (2)

Ω_i＝ω_i+Ω_B (3)

上式(2)、(3)中的V_B与Ω_B分别表示惯性坐标系∑_I下基座平台质心的线速度与角速度，同时，可将基座平台坐标系∑_B下基座平台质心的线速度v_i与角速度ω_i表示为：

上式(4)与式(5)中，J_Li与J_Ai分别是第i个连杆的雅克比矩阵J_i的线性部分与角度部分。

进一步的，所述建模方法中在惯性坐标系∑_I下，空间机器人的动能主要由基座平台动能与机械臂动能组成，其中每部分动能又由平动动能与转动动能两部分组成，可写为：

式(6)中，为一个对称矩阵，其中，x＝[x_B,θ_B,q]^T，

进一步的，所述建模方法中对空间机器人机械臂的运动控制与基座平台的姿态稳定控制不考虑基座平台的轨道运动，并忽略空间机器人的重力势能，采用拉格朗日方法得到空间机器人系统动力学方程：

式(7)中，φ＝[θ_B q]^T，T＝[T_B T_q]^T，T_B为空间机器人的姿态控制力矩，T_q为机械臂的控制力矩，τ为干扰力矩，可得机械臂末端的位置为：

X＝Tran(θ_B)R(q) (8)

式(8)中，Tran(θ_B)是从基座平台坐标系∑_B到惯性坐标系∑_I的坐标转换矩阵，与基座平台姿态角θ_B有关，R(q)表示基座坐标系∑_I下机械臂末端位置矢量，与机械臂各个关节处的转角、连杆尺寸大小有关。

本发明的有益效果在于：

1、如图4所示，相比PD控制，强化学习RL控制下的基座平台姿态扰动更小，机械臂末端运动过程更平稳，控制精度更高。

2、如图5所示，针对抓捕目标的非合作特性，相比PD控制，强化学习RL控制下的机械臂运动灵活性好，更具有自主智能性。

附图说明

图1为本发明空间机器人机械臂抓捕控制系统工作框图；

图2为本发明空间机器人机械臂抓捕控制系统强化学习过程图；

图3为本发明空间机器人机械臂抓捕控制系统结构示意图；

图4为PD控制与RL控制下，空间机器人基座平台z方向姿态角比较图；

图5为PD控制与RL控制下，空间机器人机械臂末端轨迹比较图。

图中包括：100外回路，101PD控制器，102基座平台，200内回路，201强化学习控制系统，202机械臂。

具体实施方式

下面结合附图详述本发明具体实施方式：

如图1所示，一种空间机器人机械臂抓捕控制系统，所述控制系统包括内、外两个回路；在外回路100中，系统通过PD控制器101实现抓捕过程中空间机器人机械臂基座平台102的姿态稳定；在内回路200中，系统通过基于强化学习的强化学习控制系统201控制机械臂202实现对非合作目标的抓捕机动。

如图2所示，一种用于上述机械臂抓捕控制系统内回路中机械臂强化学习控制系统的强化学习方法，通过将机械臂的末端位置作为操作手位置，将机械臂末端位置误差E_c、速度误差作为运动控制器的输入，并通过强化学习由运动控制器输出空间机械臂控制力矩T_q，从而实现对机械臂的运动控制，其中：

E_c＝X_d-X (9)

式(9)、(10)中，X_d为机械臂末端期望位置。

进一步的，所述强化学习方法中采用模糊理论对连续变化量进行模糊化处理，将连续变化的量变为有限的状态量s，在模糊推理系统中，采用高斯隶属度函数统一对机械臂末端位置与速度进行模糊化处理，如式(11)所示：

进一步的，在所述强化学习方法中设计其中的模糊规则如下：

如果y(1)、y(2)满足第p条模糊规则L_p，那么a＝a₁，Q(p,1)，

或者a＝a₂，Q(p,2)……或者a＝a_j，Q(p,j)，

υ_p＝Z(y(1))*Z(y(2)) (12)。

进一步的，所述强化学习方法中所述强化学习的更新步骤如下：

同理，通过去模糊计算可得此时的Q值：

可得到Q值的更新公式：

一种用于上述空间机器人机械臂抓捕控制系统的空间机器人动力学建模方法，所述空间机器人机械模型如图3所示，所述建模步骤如下：

S1，将空间机器人的可控基座平台203与机器人的机械臂202看作一个多体链，由n+1个刚体和n个关节组成，n个关节从1到n分别进行编号，q＝(q₁,q₂,...q_n)^T用来表示这些关节转动的角度，θ_B＝(θ_x,θ_y,θ_z)^T用来表示基座平台的姿态角，x_B＝(x_Bx,x_By,x_Bz)^T用来表示基座平台203的轨道位置；

R_i＝r_i+R_B， (1)

V_i＝v_i+V_B+Ω_B×r_i (2)

Ω_i＝ω_i+Ω_B (3)

上式(2)、(3)中的V_B与Ω_B分别表示惯性坐标系∑_I下基座平台质心的线速度与角速度，同时，可将基座平台坐标系∑_B下基座平台质心的线速度vi与角速度ωi表示为：

式(6)中，为一个对称矩阵，其中，x＝[x_B,θ_B,q]^T，

进一步的，所述建模方法中对空间机器人机械臂202的运动控制与基座平台102的姿态稳定控制不考虑基座平台的轨道运动，并忽略空间机器人的重力势能，采用拉格朗日方法得到空间机器人系统动力学方程：

X＝Tran(θ_B)R(q) (8)

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种空间机器人机械臂抓捕控制系统，其特征在于：所述控制系统包括内、外两个回路；在外回路中，系统通过PD控制器实现抓捕过程中空间机器人机械臂基座平台的姿态稳定；在内回路中，系统通过基于强化学习的强化学习控制系统控制机械臂实现对非合作目标的抓捕机动。

2.一种用于权利要求1所述控制系统内回路中，机械臂强化学习控制系统的强化学习方法，其特征在于：通过将机械臂的末端位置作为操作手位置，将机械臂末端位置误差E_c、速度误差作为运动控制器的输入，并通过强化学习由运动控制器输出空间机械臂控制力矩T_q，从而实现对机械臂的运动控制，其中：

E_c＝X_d-X (9)

式(9)、(10)中，X_d为机械臂末端期望位置。

3.根据权利要求2所述的强化学习方法，其特征在于：所述方法中采用模糊理论对连续变化量进行模糊化处理，将连续变化的量变为有限的状态量s，在模糊推理系统中，采用高斯隶属度函数统一对机械臂末端位置与速度进行模糊化处理，如式(11)所示：

4.根据权利要求3所述的强化学习方法，其特征在于：设计其中的模糊规则如下：

如果y(1)、y(2)满足第p条模糊规则L_p，那么a＝a₁，Q(p,1)，

或者a＝a₂，Q(p,2)……或者a＝a_j，Q(p,j)，

υ_p＝Z(y(1))*Z(y(2)) (12)。

5.根据权利要求2、3或4所述的强化学习方法，其特征在于：所述强化学习的更新步骤如下：

同理，通过去模糊计算可得此时的Q值：

可得到Q值的更新公式：

6.一种用于权利要求1所述空间机器人机械臂抓捕控制系统的空间机器人动力学建模方法，其特征在于，包括以下步骤：

R_i＝r_i+R_B， (1)

V_i＝v_i+V_B+Ω_B×r_i (2)

Ω_i＝ω_i+Ω_B (3)

7.根据权利要求6所述的建模方法，其特征在于：在惯性坐标系∑_I下，空间机器人的动能主要由基座平台动能与机械臂动能组成，其中每部分动能又由平动动能与转动动能两部分组成，可写为：

式(6)中，为一个对称矩阵，其中，x＝[x_B,θ_B,q]^T，

8.根据权利要求6或7所述的建模方法，其特征在于：对空间机器人机械臂的运动控制与基座平台的姿态稳定控制不考虑基座平台的轨道运动，并忽略空间机器人的重力势能，采用拉格朗日方法得到空间机器人系统动力学方程：

X＝Tran(θ_B)R(q) (8)