CN112269390A

CN112269390A - 考虑弹跳的小天体表面定点附着轨迹规划方法

Info

Publication number: CN112269390A
Application number: CN202011099994.9A
Authority: CN
Inventors: 梁子璇; 吕畅; 崔平远; 朱圣英; 徐瑞
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-26
Anticipated expiration: 2040-10-15
Also published as: CN112269390B

Abstract

本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法，属于深空探测技术领域。本发明实现方法为：使用深度确定性策略梯度算法，根据探测器初始状态的可行空间训练智能体，进而对探测器的碰撞前的姿态信息进行规划；为了降低训练难度，将定点附着任务分为接近段和制动段两个阶段分别训练智能体；根据探测器当前的状态，使用训练好的智能体给出探测器每次碰撞前的姿态信息，并使用滑模控制方法求解控制力矩，使得探测器碰撞前的姿态调整到期望值，从而使探测器实现期望的弹跳轨迹，完成探测器到小天体表面目标点的精确附着。本发明通过对探测器与小天体表面碰撞前的姿态序列进行规划，解决小天体表面精确附着的弹跳轨迹规划问题。

Description

考虑弹跳的小天体表面定点附着轨迹规划方法

技术领域

本发明涉及一种轨迹规划方法，尤其涉及小天体表面定点附着的弹跳轨迹规划方法，属于深空探测技术领域。

背景技术

随着航天技术的发展，小天体探测成为航天领域的热点。为了获得小天体的精确数据，开发利用小天体资源，需要进行表面附着探测。在探测器着陆末段，若预测到存在位置偏差，则需调整运动轨迹来精确到达目标位置。在小天体弱引力的物理环境下，着陆轨迹易发生反弹，但利用反弹也可以实现小天体表面的弹跳移动。若能利用弹跳轨迹修正末段位置偏差，则将大幅提升小天体附着精度和探测任务的灵活性。如何针对不确定初始条件规划弱引力下的弹跳轨迹，则是实现精确附着的关键。

在已发展的小天体表面跳跃式探测器移动轨迹规划中，先技术(参见郭林杰.基于深度强化学习的跳跃式小行星探测器规划策略研究[D].2019.)使用强化学习算法，规划碰撞时探测器的姿态和角速度，使探测器通过连续跳跃的方式进行远距离转移。但该技术存在不足，一方面，探测器在目标点处存在水平速度，无法实现附着到目标点的要求；另一方面，所规划的轨迹缺少内环控制，没有在内环使用控制力矩对规划好的姿态和角速度进行跟踪。为了完成探测器精确附着到目标位置的任务，需要将终端速度约束与内环控制考虑在内，设计一种小天体表面定点附着的弹跳轨迹规划方法。

发明内容

针对弱引力小天体表面的附着轨迹规划问题，本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法要解决的问题是：考虑探测器弹跳运动，通过对探测器与小天体表面碰撞前的姿态序列进行规划，实现探测器到小天体表面目标点的精确附着。

本发明是通过下述技术方案实现的。

本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法，使用深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法，根据探测器初始状态的可行空间训练智能体(Agent)，进而对探测器的碰撞前的姿态信息进行规划；为了降低训练难度，将定点附着任务分为接近段和制动段两个阶段分别训练智能体：在接近段，探测器由初始位置向目标点运动，到达目标点附近同时将水平速度降低到一定范围；在制动段，探测器在目标点附近以弹跳方式进行制动，在消除剩余水平速度的同时将探测器的位置控制在一定范围内；根据探测器当前的状态，使用训练好的智能体给出探测器每次碰撞前的姿态信息，并使用滑模控制方法求解控制力矩，使得探测器碰撞前的姿态调整到期望值，从而使探测器实现期望的弹跳轨迹。

本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法，包括如下步骤：

步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段，针对每一阶段探测器碰撞前的姿态和角速度，采用深度确定性策略梯度算法，选取状态空间与动作空间，搭建探测器弹跳运动神经网络模型。

步骤一的具体实现方法为：

探测器的动力学方程如下：

其中，m为探测器质量，g为小天体重力加速度，(x,y)为探测器位置，I为探测器转动惯量，2l为探测器边长，α为探测器的姿态角，ω为探测器的角速度，F_t为地面对探测器水平方向向作用力，F_n为地面对探测器竖直方向作用力，T_c为探测器控制力矩。

通过对探测器动力学方程的分析可知，探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的；由连续碰撞模型可知，探测器所受的水平方向力F_t和竖直方向力F_n是由碰撞时探测器的姿态角α和角速度ω决定的。因此，使用深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法时，状态空间s选取为探测器的位置r和速度v，动作空间a选取为探测器碰撞时的姿态角α和角速度ω。在一次跳跃过程中，探测器在空中的位置和速度信息总量是不发生变化的，因此状态空间简化为碰撞前探测器达到的最高点位置信息(x_h,y_h)和水平速度信息v_xh。

s＝(x_h,y_h,v_xh) (2)

a＝(α,ω) (3)

搭建两组神经网络用于两阶段智能体A₁和A₂的训练；两组神经网络结构相同，包含Actor网络和Critic网络。

Actor网络用于根据当前状态选取执行的动作，包含两个隐藏层和一个输出层；Critic网络用于根据状态和动作来评估选取的动作，包含两个隐藏层和一个输出层，Actor网络给出的动作在第二个隐藏层处加入Critic网络。

步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求，分别设计奖赏函数，选取合适的训练参数进行模型训练和仿真测试，得到两个阶段的智能体A₁和A₂，用于给出两阶段姿态序列。

步骤二的具体实现方法为：

步骤2.1针对接近段设计奖赏函数，训练得到智能体A₁，用于给出第一阶段姿态序列。

探测器在接近段由初始位置向目标点运动，直到探测器跳跃最高点的水平位置x在目标点x_f附近范围[x_f-Δx₁,x_f+Δx₁]内，同时水平速度大小降低到[0,v₁]内；

接近段探测器由初始位置向目标点运动，到达目标点附近同时将水平速度降低到一定范围，因此结束条件为：在一定弹跳次数内探测器跳跃最高点水平位置达到目标范围，即

|x-x_f|≤Δx₁ (4)

其中，x为探测器当前跳跃最高点水平位置。

接近段结束时，奖赏值设计方法为：完成任务时给予一个大值奖赏，同时对完成任务时的水平速度进行评估，速度越小，给予越大的奖赏，速度过大则给予负值奖赏，接近段结束奖赏值R为

其中，x和v_x分别为完成任务时跳跃最高点的位置横坐标和水平速度，R₁和R₂分别为评估位置和速度的大值奖赏。

此外，接近段过程中，考虑以下三个因素赋予奖赏值：

1)弹跳次数：设置每步的过程奖赏为负值，期望智能体通过最少的动作次数完成任务，同时该奖赏值与探测器与目标点当前的水平距离相关，距离越远，惩罚越大。每步的奖赏值为

其中，x_k为碰撞前探测器最高点位置横坐标，R₀为一个较小的正值，p为参数。

2)弹跳运动方向：若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反，则碰撞结果是探测器朝向目标点运动。运动方向奖赏值为

R＝-q·sgn(x_k+1-x_f)·sgn(v_x,k+1) (7)

其中，x_k+1和v_x,k+1分别为碰撞后探测器跳跃最高点的位置横坐标和水平速度，q为参数。

3)速度约束：如果在碰撞后速度过大，超过小天体表面的逃逸速度，则给出一个负值奖赏。

根据接近段奖赏函数，选取合适的训练参数进行模型训练和仿真测试，得到智能体A₁。

步骤2.2针对制动段设计奖赏函数，训练得到智能体A₂，用于给出第二阶段姿态序列。

探测器在制动段由目标点附近位置开始运动，直到探测器跳跃最高点的水平速度降低到v_f，同时水平位置在[x_f-Δx₂,x_f+Δx₂]内。

制动段探测器在目标点附近以弹跳方式进行制动，在消除剩余水平速度的同时将探测器的位置控制在一定范围内，因此结束条件为：在一定弹跳次数内探测器跳跃最高点水平速度减小到v_f，即

|v_x|≤v_f (8)

其中，v_x探测器当前跳跃最高点水平速度。

制动段结束时，奖赏值设计方法为：完成任务时给予一个大值奖赏，同时要对完成任务时的水平位置进行评估，探测器到目标点水平距离越小，给予越大的奖赏，距离过大则给予负值奖赏，制动段结束奖赏值为：

其中，x和v_x分别为完成任务时跳跃最高点的位置横坐标和水平速度，R₃和R₄分别为评估速度和位置的大值奖赏。

此外，制动段过程中，考虑以下三个因素赋予奖赏值：

1)弹跳次数：设置每步的过程奖赏为负值，期望智能体通过最少的动作次数完成任务，同时该奖赏值与探测器当前的水平速度相关，速度越大，惩罚越大。

每步的奖赏值为

R＝-R₀-p·|v_x,k| (10)

其中，v_x,k为探测器当前的水平速度。

R＝-q·sgn(x_k+1-x_f)·sgn(v_x,k+1) (11)

3)高度约束：如果在碰撞后跳跃最高点过高，则给出一个负值奖赏。

根据制动段奖赏函数，选取合适的训练参数进行模型训练和仿真测试，得到智能体A₂。

步骤三、智能体A₁和A₂基于探测器当前的状态，给出探测器每次碰撞前的姿态信息，在此基础上，设计滑模面，使用滑模控制方法求解控制力矩，使得探测器碰撞前的姿态调整到期望值，从而使探测器实现期望的弹跳轨迹，完成探测器到小天体表面目标点的精确附着。

步骤三的具体实现方法为：

在一次跳跃中，智能体由碰撞前最高点的状态可以给出本次碰撞点处探测器的姿态角α_p和角速度ω_p。从碰撞前最高点到碰撞点过程中，使用二阶滑模控制调整探测器姿态，使其在碰撞点处达到智能体给出的姿态角和角速度。

根据公式(12)计算出碰撞点探测器的质心高度y_p：

探测器在空中做自由落体运动，因此可以由最高点高度y_h和碰撞点高度y_p计算出最高点到碰撞点的时间t_p：

定义一阶滑模面s₁：

s₁＝α-α_p-ω_p(t-t_p) (14)

其中，α为当前时刻姿态角；

对s₁求一阶偏导得：

其中，ω为当前时刻角速度；

定义二阶滑模面s₂：

其中，Λ为参数；

对s₂求一阶偏导得：

定义s₂的趋近律如下：

其中，k为参数，sat(s)为饱和函数：

由姿态动力学方程可得，碰撞前的控制力矩T_c1为

在碰撞结束后，使用一阶滑模控制，将姿态角稳定在固定值0°，以便于下次碰撞前的姿态控制。定义滑模面s₃及其趋近律如下：

s₃＝α+ω (21)

其中，k₁和k₂为参数；

由姿态动力学方程可得，碰撞后控制力矩T_c2为

T_c2＝I·[k₁·s₃+k₂·sat(s₃)-ω] (23)

通过滑模控制使碰撞时探测器姿态调整为智能体给出的姿态值，从而使探测器能按照深度确定性策略梯度DDPG算法规划的方式进行跳跃，实现探测器到小天体表面目标点的精确附着。

有益效果：

1、本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法，使用深度确定性策略梯度算法，根据探测器初始状态的可行空间训练智能体(Agent)，进而对探测器的碰撞前的姿态信息进行规划，通过将定点附着任务分为接近段和制动段两个阶段分别训练智能体，降低训练难度，进而提高轨迹规划效率。

2、本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法，将定点附着任务分为接近段和制动段两个阶段分别训练智能体：在接近段，探测器由初始位置向目标点运动，到达目标点附近同时将水平速度降低到一定范围；在制动段，探测器在目标点附近以弹跳方式进行制动，在消除剩余水平速度的同时将探测器的位置控制在一定范围内；使用训练好的智能体给出探测器每次碰撞前的姿态信息，并设计滑模控制方法求解控制力矩，使得探测器碰撞前的姿态调整到期望值，从而使探测器实现期望的弹跳轨迹，完成探测器到小天体表面目标点的精确附着。

附图说明

图1为考虑弹跳的小天体表面定点附着轨迹规划方法流程图；

图2为弱引力小天体表面定点附着探测器2D受力分析；

图3为弱引力小天体表面定点附着探测器运动轨迹；

图4为弱引力小天体表面定点附着探测器水平速度曲线；

图5为弱引力小天体表面定点附着探测器姿态和角速度曲线。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合一个实施例和相应附图对发明内容做进一步说明。

探测器质量m为3kg，小天体重力加速度g为0.001m/s²，探测器转动惯量I为0.04kg·m，探测器边长2l为0.4m，探测器初始位置为(0,10)，初始水平速度为0.15m/s²，初始竖直速度为0，目标点水平位置x_f为100m。

如图1所示，本实施例公开的考虑弹跳的小天体表面定点附着轨迹规划方法，具体实现步骤如下：

步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段，针对每一阶段探测器碰撞前的姿态和角速度，采用深度确定性策略梯度算法，选取状态空间与动作空间，搭建神经网络模型。

步骤一的具体实现方法为：

探测器碰撞过程受力分析如图2所示，其动力学方程如下：

其中，(x,y)为探测器位置，α为探测器的姿态角，ω为探测器的角速度，F_t为地面对探测器水平方向向作用力，F_n为地面对探测器竖直方向作用力，F_t和F_n是由碰撞时探测器的姿态角α和角速度ω决定的，T_c为探测器控制力矩。

使用DDPG算法，状态空间s选取为探测器的位置r和速度v，动作空间a选取为探测器碰撞时的姿态角α和角速度ω。在一次跳跃过程中，探测器在空中的位置和速度信息总量是不发生变化的，为简化状态空间，提高神经网络训练效率，将状态空间选取为碰撞前探测器达到的最高点位置信息(x_h,y_h)和水平速度信息v_xh。

s＝(x_h,y_h,v_xh) (25)

a＝(α,ω) (26)

步骤二的具体实现方法为：

步骤2.1针对接近段设计奖赏函数，训练得到智能体A₁。

探测器在接近段由初始位置向目标点运动，直到探测器跳跃最高点的水平位置x在目标点x_f附近范围[x_f-Δx₁,x_f+Δx₁]内，同时水平速度大小降低到[0,v₁]内，其中，Δx₁＝10m，v₁＝0.1m/s。

接近段探测器由初始位置向目标点运动，到达目标点附近同时将水平速度降低到一定范围。接近段结束条件为：在一定弹跳次数内探测器跳跃最高点水平位置达到目标范围，即

|x-x_f|≤Δx₁ (27)

其中，x为探测器当前跳跃最高点水平位置。

接近段结束时，奖赏值R为

其中，x和v_x分别为完成任务时跳跃最高点的位置横坐标和水平速度。

接近段每步奖赏值为

其中，x_k为碰撞前探测器最高点位置横坐标。

接近段弹跳运动方向奖赏值为

R＝-10·sgn(x_k+1-x_f)·sgn(v_x,k+1) (30)

其中，x_k+1和v_x,k+1分别为碰撞后探测器跳跃最高点的位置横坐标和水平速度。

速度约束：如果在碰撞后速度过大，超过了小天体表面的逃逸速度，则给出一个负值奖赏。

步骤2.2针对制动段设计奖赏函数，训练得到智能体A₂

探测器在制动段由目标点附近位置开始运动，直到探测器跳跃最高点的水平速度降低到v_f，同时水平位置在[x_f-Δx₂,x_f+Δx₂]内，其中，Δx₂＝5m，v_f＝0.03m/s。

制动段探测器在目标点附近以弹跳方式进行制动，在消除剩余水平速度的同时将探测器的位置控制在一定范围内。制动段结束条件为：在一定弹跳次数内探测器跳跃最高点水平速度减小到v_f，即

|v_x|≤v_f (31)

其中，v_x探测器当前跳跃最高点水平速度。

制动段结束时，奖赏值为

制动段每步的奖赏值为

R＝-1-100·|v_x,k| (33)

其中，v_x,k为探测器当前的水平速度。

制动段弹跳运动方向奖赏值为

R＝-10·sgn(x_k+1-x_f)·sgn(v_x,k+1) (34)

高度约束：如果在碰撞后跳跃最高点过高，则给出一个负值奖赏。

步骤三的具体实现方法为：

根据公式(35)计算出碰撞点探测器的质心高度y_p：

探测器在空中做自由落体运动，由最高点高度y_h和碰撞点高度y_p计算出最高点到碰撞点的时间t_p：

定义一阶滑模面s₁：

s₁＝α-α_p-ω_p(t-t_p) (37)

其中，α为当前时刻姿态角；

对s₁求一阶偏导得：

其中，ω为当前时刻角速度；

定义二阶滑模面s₂：

其中，Λ为参数；

对s₂求一阶偏导得：

定义s₂的趋近律如下：

其中，k为参数，sat(s)为饱和函数：

由姿态动力学方程可得，碰撞前控制力矩T_c1为

s₃＝α+ω (44)

其中，k₁和k₂为参数；

由姿态动力学方程得，碰撞后控制力矩T_c2为

T_c2＝I·[k₁·s₃+k₂·sat(s₃)-ω] (46)

通过滑模控制使碰撞时探测器姿态调整为智能体给出的姿态值，从而使探测器能按照深度确定性策略梯度DDPG算法规划的方式进行跳跃，实现探测器到小天体表面目标点的精确附着。图3为探测器的运动轨迹，探测器经过连续跳跃最终达到目标位置附近；图4为探测器水平速度曲线，探测器通过碰撞调整其水平速度，到达目标位置附近时水平速度减小到0附近；图5为探测器姿态角和角速度曲线，通过滑模控制方法，探测器将碰撞前姿态角和角速度调整为智能体给出的期望值，完成探测器到小天体表面目标点的精确附着。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.考虑弹跳的小天体表面定点附着轨迹规划方法，其特征在于：包括如下步骤，

步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段，针对每一阶段探测器碰撞前的姿态和角速度，采用深度确定性策略梯度算法，选取状态空间与动作空间，搭建探测器弹跳运动神经网络模型；

步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求，分别设计奖赏函数，选取合适的训练参数进行模型训练和仿真测试，得到两个阶段的智能体A₁和A₂，用于给出两阶段姿态序列；

2.如权利要求1所述的考虑弹跳的小天体表面定点附着轨迹规划方法，其特征在于：步骤一的具体实现方法为，

探测器的动力学方程如下：

其中，m为探测器质量，g为小天体重力加速度，(x,y)为探测器位置，I为探测器转动惯量，2l为探测器边长，α为探测器的姿态角，ω为探测器的角速度，F_t为地面对探测器水平方向向作用力，F_n为地面对探测器竖直方向作用力，T_c为探测器控制力矩；

通过对探测器动力学方程的分析可知，探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的；由连续碰撞模型可知，探测器所受的水平方向力F_t和竖直方向力F_n是由碰撞时探测器的姿态角α和角速度ω决定的；因此，使用深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)算法时，状态空间s选取为探测器的位置r和速度v，动作空间a选取为探测器碰撞时的姿态角α和角速度ω；在一次跳跃过程中，探测器在空中的位置和速度信息总量是不发生变化的，因此状态空间简化为碰撞前探测器达到的最高点位置信息(x_h,y_h)和水平速度信息v_xh；

s＝(x_h,y_h,v_xh) (2)

a＝(α,ω) (3)

搭建两组神经网络用于两阶段智能体A₁和A₂的训练；两组神经网络结构相同，包含Actor网络和Critic网络；

3.如权利要求2所述的考虑弹跳的小天体表面定点附着轨迹规划方法，其特征在于：步骤二的具体实现方法为，

步骤2.1针对接近段设计奖赏函数，训练得到智能体A₁，用于给出第一阶段姿态序列；

接近段探测器由初始位置向目标点运动，到达目标点附近同时将水平速度降低到一定范围，因此结束条件为：在一定跳跃次数内探测器跳跃最高点水平位置达到目标范围，即

|x-x_f|≤Δx₁ (4)

其中，x为探测器当前跳跃最高点水平位置；