CN109760046A

CN109760046A - 基于强化学习的空间机器人捕获翻滚目标运动规划方法

Info

Publication number: CN109760046A
Application number: CN201811611279.1A
Authority: CN
Inventors: 王明明; 弓铎; 罗建军; 袁建平; 朱战霞
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-17

Abstract

本发明涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，包括设计了用以学习训练的智能体状态与动作具体形式，与到达任务的奖励函数；基于优先回放的DDPG算法改进；应用改进的DDPG算法进行抓捕任务的训练过程。本发明的有益效果是，不再需要对空间机器人与非合作环境进行精确建模，仅在观测特定状态的情况下进行智能算法的学习训练，即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声，使得机器人可以智能、自主地抓捕目标。

Description

基于强化学习的空间机器人捕获翻滚目标运动规划方法

技术领域

本发明属于空间机器人运动规划方法，涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法。

背景技术

得益于空间机器人的灵活性、可重用性、多功能性等特点，使用其对日益增多的空间失效卫星进行在轨抓捕有着十分重要的应用前景。现有的方法通常将空间机器人抓捕非合作目标的任务分为抓捕前与抓捕后两阶段，对于抓捕前的机械臂轨迹规划问题，常见的要求包括机械臂对基座的姿态无扰、避奇异、及抓捕时末端碰撞力不能过大等。轨迹规划过程中，需要考虑非合作目标的最优抓捕点与抓捕时机、机械臂自身初始构型、机械臂关节电机驱动力等约束条件。见文献：Kawamoto S.,Nishida S.,and Kibe S.Research on aSpace Debris Removal System.NAL Res Prog(National Aerospace Lab.Japan),Vol.2002/2003,2003，pp.84-87.

已有的研究已经完成了通过辨识非合作目标的运动参数，实现机械臂对基座无扰的机械臂抓捕非合作目标的轨迹规划，然而如何在对非合作目标的观测信息有噪声、不能完全观测全局信息、机械臂建模有误差、输入变量存在不确定性的情况下，在不首先辨识非合作目标的运动参数的情况下，直接面向抓捕任务，自主智能地实现满足多目标抓捕任务的机械臂的轨迹规划，这对智能算法的轨迹规划实现提出了需求。强化学习算法在地面机器人运动规划问题中已经有了一些应用，由于机器人系统连续空间的特性，表格型强化学习不再适用。Depraetere.B等使用引入自然Actor-Critic算法的策略迭代方法控制机械臂完成羽毛球的击球动作，其中评价网络部分使用时间微分法，见文献：Depraetere,B.,Liu,M.,Pinte,G.,Grondman,I.,Babuˇska,R.:Comparison of model-free and model-basedmethods for time optimal hit control of a badminton robot.Mechatronics 24(8),1021–1030(2014)。LSTD-Q(λ)算法，T.Lillicrap等提出了用于连续控制问题的深度强化学习算法，见文献：T.Lillicrap,J.Hunt,A.Pritzel,N.Heess,T.Erez,Y.Tassa,D.Silver,and D.Wierstra.Continuous control with deep reinforcement learning.InProc.ofICLR,2016。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，采用深度确定性策略梯度算法，引入优先回放的算法改进，针对空间机器人抓捕非合作目标的运动规划进行学习训练与决策求解。针对未来空间机器人在轨服务翻滚目标任务，用于在无模型的情况下，空间机器人智能、自主地抓捕目标。

技术方案

一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，其特征在于步骤如下：

步骤1、设计智能体状态与动作具体形式，设计奖励函数：

动作具体形式：

其中：τ_n为各关节的控制输入；

智能体的状态量为：

其中：机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮，其位置与姿态

连续的奖励函数设置：r＝-||p_e-p_t||-||τ||²；

步骤2、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程：

以初始状态为s₀，以DDPG决策器的初始参数为θ₀，在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作s_t+1与当前奖励值R_t，存入记忆库并标记其优先级；进行一段时间的数据收集后，根据优先回放概率抽取记忆用以神经网络的训练；计算DDPG的策略梯度：

根据公式进行神经网络权重参数的更新，不断重复上述过程，直至训练收敛，最终收敛的网络权重参数即对应着最优策略。

所述步骤2计算DDPG的策略梯度的计算过程：记忆库大小为N，抽取记忆数量k，每一幕实验步数T：

0：初始化网络参数，初始化记忆库

1：for t＝1 to T,do:

2：执行策略，记录记忆数据<s_t,a_t,r_t,s_t+1>，记忆库数据容量n＝n+1；

3：记录其被抽取概率

4：if n＞N,do:

5：for j＝1 to K,do:

6：根据概率抽取记忆

7：计算权重参数

8：更新TD误差

9：更新其对应的抽取概率p_j←δ_j

10：end for.

11：end if.

12：end for.。

有益效果

本发明提出的一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，包括设计了用以学习训练的智能体状态与动作具体形式，与到达任务的奖励函数；基于优先回放的DDPG算法改进；应用改进的DDPG算法进行抓捕任务的训练过程；最后以实例验证了本发明提出的方法的有效性。

本发明的有益效果是，不再需要对空间机器人与非合作环境进行精确建模，仅在观测特定状态的情况下进行智能算法的学习训练，即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声，使得机器人可以智能、自主地抓捕目标。

附图说明

图1：空间机器人抓捕过程演示

图2：空间机器人抓捕曲线

图3：观测存在噪声时抓捕曲线

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明实施例包括设计了用以学习训练的智能体状态与动作具体形式，与到达任务的奖励函数；基于优先回放的DDPG算法改进；应用改进的DDPG算法进行抓捕任务的训练过程；最后以实例验证了本发明提出的方法的有效性。该发明的实施主要包括以下三个步骤：

步骤一、设计智能体状态与动作具体形式，设计奖励函数。

应用强化学习方法对空间机器人抓捕非合作目标运动规划问题进行策略学习与求解，首先需要以马尔可夫决策过程的形式描述机器人与任务环境。确定智能体的状态S、动作A与其到达任务对应的奖励函数R是强化学习求解的前提与关键。考虑空间机器人前向动力学，即：s_t+1＝forward(a_t,s_t,Δt)。

对于到达任务的运动规划，智能体需要决策的动作为各关节的控制输入，即：

而根据特征工程，用以学习训练的状态量设计应该能全面表达学习的任务并考虑影响任务的根本因素。故对于到达任务，首要应考虑机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮，其位置与姿态对到达任务由直接影响。综上考虑，智能体的状态量为：

强化学习通过智能体与环境的交互来学习，其中环境对智能体策略的评价即奖励函数的设计直径影响强化学习算法的收敛，对于到达任务此类连续状态、动作空间问题，离散的奖励函数设置会造成稀疏问题，降低学习效率。故考虑到达任务，使用连续的奖励函数设置，即：

r＝-||p_e-p_t||-||τ||² (3)

步骤二、基于优先回放的DDPG改进算法设计

由于空间机器人抓捕非合作目标的运动规划问题属于连续控制问题，并且动作、状态空间较大，故采用基于策略迭代的深度确定性策略梯度算法进行最优策略的学习与求解。深度确定性策略梯度算法(DDPG)基于Actor-Critic结构并单独设置了评价网络与目标网络，同时为进一步打破神经网络训练数据相关性引入了记忆库的设计。

然而鉴于空间抓捕任务的特殊性，需要空间机器人通过尽可能少的训练次数进行最优策略的学习。这对DDPG的数据高效性提出了需求。DDPG算法中，过大的记忆库容量和随机抽取记忆的方式会导致训练效率低下，智能体的学习训练不能抽取到有效的记忆数据。为改进这一问题，采取基于优先回放的算法改进，即不再随机抽取记忆，而是根据不同重要性有侧重地抽取表现较好的记忆数据。为定量化衡量数据优先级，采用TD误差定义：

其对应的采样概率为：

其中，为了在引入优先回放后，仍不改变记忆数据原有的分布情况，引入重要性采样系数(IS-Weights)：

表1表示了优先回放的算法流程。

表1优先回放算法流程

步骤三、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程

根据步骤一对具体空间机器人进行建模，其初始状态为s₀，步骤二中DDPG决策器的初始参数为θ₀，在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作s_t+1与当前奖励值R_t，存入记忆库并标记其优先级。进行一段时间的数据收集后，根据优先回放概率抽取记忆用以神经网络的训练。计算DDPG的策略梯度：

根据公式(7)进行神经网络权重参数的更新，不断重复上述过程，直至训练收敛，最终收敛的网络权重参数即对应着最优策略。

表2 7DOF空间机器人系统的运动学及动力学参数

对表1中的7DOF空间机械臂进行抓捕任务运动规划，其中抓捕目标为带有章动的自旋目标，其章动角速率为1.6°/s，自旋角速率5°/s，若存在观测误差时，其观测噪声服从高斯分布，即ε～N(0,0.01²)。图2与图3分别为在有噪声与无噪声情况下通过强化学习算法学习到的运动规划结果，图1为该抓捕过程的仿真展示。

Claims

1.一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，其特征在于步骤如下：