CN112269390A - 考虑弹跳的小天体表面定点附着轨迹规划方法 - Google Patents

考虑弹跳的小天体表面定点附着轨迹规划方法 Download PDF

Info

Publication number
CN112269390A
CN112269390A CN202011099994.9A CN202011099994A CN112269390A CN 112269390 A CN112269390 A CN 112269390A CN 202011099994 A CN202011099994 A CN 202011099994A CN 112269390 A CN112269390 A CN 112269390A
Authority
CN
China
Prior art keywords
detector
collision
horizontal
reward
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011099994.9A
Other languages
English (en)
Other versions
CN112269390B (zh
Inventor
梁子璇
吕畅
崔平远
朱圣英
徐瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011099994.9A priority Critical patent/CN112269390B/zh
Publication of CN112269390A publication Critical patent/CN112269390A/zh
Application granted granted Critical
Publication of CN112269390B publication Critical patent/CN112269390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法,属于深空探测技术领域。本发明实现方法为:使用深度确定性策略梯度算法,根据探测器初始状态的可行空间训练智能体,进而对探测器的碰撞前的姿态信息进行规划;为了降低训练难度,将定点附着任务分为接近段和制动段两个阶段分别训练智能体;根据探测器当前的状态,使用训练好的智能体给出探测器每次碰撞前的姿态信息,并使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。本发明通过对探测器与小天体表面碰撞前的姿态序列进行规划,解决小天体表面精确附着的弹跳轨迹规划问题。

Description

考虑弹跳的小天体表面定点附着轨迹规划方法
技术领域
本发明涉及一种轨迹规划方法,尤其涉及小天体表面定点附着的弹跳轨迹规划方法,属于深空探测技术领域。
背景技术
随着航天技术的发展,小天体探测成为航天领域的热点。为了获得小天体的精确数据,开发利用小天体资源,需要进行表面附着探测。在探测器着陆末段,若预测到存在位置偏差,则需调整运动轨迹来精确到达目标位置。在小天体弱引力的物理环境下,着陆轨迹易发生反弹,但利用反弹也可以实现小天体表面的弹跳移动。若能利用弹跳轨迹修正末段位置偏差,则将大幅提升小天体附着精度和探测任务的灵活性。如何针对不确定初始条件规划弱引力下的弹跳轨迹,则是实现精确附着的关键。
在已发展的小天体表面跳跃式探测器移动轨迹规划中,先技术(参见郭林杰.基于深度强化学习的跳跃式小行星探测器规划策略研究[D].2019.)使用强化学习算法,规划碰撞时探测器的姿态和角速度,使探测器通过连续跳跃的方式进行远距离转移。但该技术存在不足,一方面,探测器在目标点处存在水平速度,无法实现附着到目标点的要求;另一方面,所规划的轨迹缺少内环控制,没有在内环使用控制力矩对规划好的姿态和角速度进行跟踪。为了完成探测器精确附着到目标位置的任务,需要将终端速度约束与内环控制考虑在内,设计一种小天体表面定点附着的弹跳轨迹规划方法。
发明内容
针对弱引力小天体表面的附着轨迹规划问题,本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法要解决的问题是:考虑探测器弹跳运动,通过对探测器与小天体表面碰撞前的姿态序列进行规划,实现探测器到小天体表面目标点的精确附着。
本发明是通过下述技术方案实现的。
本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法,使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,根据探测器初始状态的可行空间训练智能体(Agent),进而对探测器的碰撞前的姿态信息进行规划;为了降低训练难度,将定点附着任务分为接近段和制动段两个阶段分别训练智能体:在接近段,探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围;在制动段,探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内;根据探测器当前的状态,使用训练好的智能体给出探测器每次碰撞前的姿态信息,并使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹。
本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法,包括如下步骤:
步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段,针对每一阶段探测器碰撞前的姿态和角速度,采用深度确定性策略梯度算法,选取状态空间与动作空间,搭建探测器弹跳运动神经网络模型。
步骤一的具体实现方法为:
探测器的动力学方程如下:
Figure BDA0002725009970000021
其中,m为探测器质量,g为小天体重力加速度,(x,y)为探测器位置,I为探测器转动惯量,2l为探测器边长,α为探测器的姿态角,ω为探测器的角速度,Ft为地面对探测器水平方向向作用力,Fn为地面对探测器竖直方向作用力,Tc为探测器控制力矩。
通过对探测器动力学方程的分析可知,探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的;由连续碰撞模型可知,探测器所受的水平方向力Ft和竖直方向力Fn是由碰撞时探测器的姿态角α和角速度ω决定的。因此,使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法时,状态空间s选取为探测器的位置r和速度v,动作空间a选取为探测器碰撞时的姿态角α和角速度ω。在一次跳跃过程中,探测器在空中的位置和速度信息总量是不发生变化的,因此状态空间简化为碰撞前探测器达到的最高点位置信息(xh,yh)和水平速度信息vxh
s=(xh,yh,vxh) (2)
a=(α,ω) (3)
搭建两组神经网络用于两阶段智能体A1和A2的训练;两组神经网络结构相同,包含Actor网络和Critic网络。
Actor网络用于根据当前状态选取执行的动作,包含两个隐藏层和一个输出层;Critic网络用于根据状态和动作来评估选取的动作,包含两个隐藏层和一个输出层,Actor网络给出的动作在第二个隐藏层处加入Critic网络。
步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求,分别设计奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到两个阶段的智能体A1和A2,用于给出两阶段姿态序列。
步骤二的具体实现方法为:
步骤2.1针对接近段设计奖赏函数,训练得到智能体A1,用于给出第一阶段姿态序列。
探测器在接近段由初始位置向目标点运动,直到探测器跳跃最高点的水平位置x在目标点xf附近范围[xf-Δx1,xf+Δx1]内,同时水平速度大小降低到[0,v1]内;
接近段探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围,因此结束条件为:在一定弹跳次数内探测器跳跃最高点水平位置达到目标范围,即
|x-xf|≤Δx1 (4)
其中,x为探测器当前跳跃最高点水平位置。
接近段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时对完成任务时的水平速度进行评估,速度越小,给予越大的奖赏,速度过大则给予负值奖赏,接近段结束奖赏值R为
Figure BDA0002725009970000031
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度,R1和R2分别为评估位置和速度的大值奖赏。
此外,接近段过程中,考虑以下三个因素赋予奖赏值:
1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器与目标点当前的水平距离相关,距离越远,惩罚越大。每步的奖赏值为
Figure BDA0002725009970000041
其中,xk为碰撞前探测器最高点位置横坐标,R0为一个较小的正值,p为参数。
2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动。运动方向奖赏值为
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (7)
其中,xk+1和vx,k+1分别为碰撞后探测器跳跃最高点的位置横坐标和水平速度,q为参数。
3)速度约束:如果在碰撞后速度过大,超过小天体表面的逃逸速度,则给出一个负值奖赏。
根据接近段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A1
步骤2.2针对制动段设计奖赏函数,训练得到智能体A2,用于给出第二阶段姿态序列。
探测器在制动段由目标点附近位置开始运动,直到探测器跳跃最高点的水平速度降低到vf,同时水平位置在[xf-Δx2,xf+Δx2]内。
制动段探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内,因此结束条件为:在一定弹跳次数内探测器跳跃最高点水平速度减小到vf,即
|vx|≤vf (8)
其中,vx探测器当前跳跃最高点水平速度。
制动段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时要对完成任务时的水平位置进行评估,探测器到目标点水平距离越小,给予越大的奖赏,距离过大则给予负值奖赏,制动段结束奖赏值为:
Figure BDA0002725009970000042
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度,R3和R4分别为评估速度和位置的大值奖赏。
此外,制动段过程中,考虑以下三个因素赋予奖赏值:
1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器当前的水平速度相关,速度越大,惩罚越大。
每步的奖赏值为
R=-R0-p·|vx,k| (10)
其中,vx,k为探测器当前的水平速度。
2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动。运动方向奖赏值为
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (11)
3)高度约束:如果在碰撞后跳跃最高点过高,则给出一个负值奖赏。
根据制动段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A2
步骤三、智能体A1和A2基于探测器当前的状态,给出探测器每次碰撞前的姿态信息,在此基础上,设计滑模面,使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。
步骤三的具体实现方法为:
在一次跳跃中,智能体由碰撞前最高点的状态可以给出本次碰撞点处探测器的姿态角αp和角速度ωp。从碰撞前最高点到碰撞点过程中,使用二阶滑模控制调整探测器姿态,使其在碰撞点处达到智能体给出的姿态角和角速度。
根据公式(12)计算出碰撞点探测器的质心高度yp
Figure BDA0002725009970000051
探测器在空中做自由落体运动,因此可以由最高点高度yh和碰撞点高度yp计算出最高点到碰撞点的时间tp
Figure BDA0002725009970000052
定义一阶滑模面s1
s1=α-αpp(t-tp) (14)
其中,α为当前时刻姿态角;
对s1求一阶偏导得:
Figure BDA0002725009970000061
其中,ω为当前时刻角速度;
定义二阶滑模面s2
Figure BDA0002725009970000062
其中,Λ为参数;
对s2求一阶偏导得:
Figure BDA0002725009970000063
定义s2的趋近律如下:
Figure BDA0002725009970000064
其中,k为参数,sat(s)为饱和函数:
Figure BDA0002725009970000065
由姿态动力学方程可得,碰撞前的控制力矩Tc1
Figure BDA0002725009970000066
在碰撞结束后,使用一阶滑模控制,将姿态角稳定在固定值0°,以便于下次碰撞前的姿态控制。定义滑模面s3及其趋近律如下:
s3=α+ω (21)
Figure BDA0002725009970000067
其中,k1和k2为参数;
由姿态动力学方程可得,碰撞后控制力矩Tc2
Tc2=I·[k1·s3+k2·sat(s3)-ω] (23)
通过滑模控制使碰撞时探测器姿态调整为智能体给出的姿态值,从而使探测器能按照深度确定性策略梯度DDPG算法规划的方式进行跳跃,实现探测器到小天体表面目标点的精确附着。
有益效果:
1、本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法,使用深度确定性策略梯度算法,根据探测器初始状态的可行空间训练智能体(Agent),进而对探测器的碰撞前的姿态信息进行规划,通过将定点附着任务分为接近段和制动段两个阶段分别训练智能体,降低训练难度,进而提高轨迹规划效率。
2、本发明公开的考虑弹跳的小天体表面定点附着轨迹规划方法,将定点附着任务分为接近段和制动段两个阶段分别训练智能体:在接近段,探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围;在制动段,探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内;使用训练好的智能体给出探测器每次碰撞前的姿态信息,并设计滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。
附图说明
图1为考虑弹跳的小天体表面定点附着轨迹规划方法流程图;
图2为弱引力小天体表面定点附着探测器2D受力分析;
图3为弱引力小天体表面定点附着探测器运动轨迹;
图4为弱引力小天体表面定点附着探测器水平速度曲线;
图5为弱引力小天体表面定点附着探测器姿态和角速度曲线。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合一个实施例和相应附图对发明内容做进一步说明。
探测器质量m为3kg,小天体重力加速度g为0.001m/s2,探测器转动惯量I为0.04kg·m,探测器边长2l为0.4m,探测器初始位置为(0,10),初始水平速度为0.15m/s2,初始竖直速度为0,目标点水平位置xf为100m。
如图1所示,本实施例公开的考虑弹跳的小天体表面定点附着轨迹规划方法,具体实现步骤如下:
步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段,针对每一阶段探测器碰撞前的姿态和角速度,采用深度确定性策略梯度算法,选取状态空间与动作空间,搭建神经网络模型。
步骤一的具体实现方法为:
探测器碰撞过程受力分析如图2所示,其动力学方程如下:
Figure BDA0002725009970000081
其中,(x,y)为探测器位置,α为探测器的姿态角,ω为探测器的角速度,Ft为地面对探测器水平方向向作用力,Fn为地面对探测器竖直方向作用力,Ft和Fn是由碰撞时探测器的姿态角α和角速度ω决定的,Tc为探测器控制力矩。
使用DDPG算法,状态空间s选取为探测器的位置r和速度v,动作空间a选取为探测器碰撞时的姿态角α和角速度ω。在一次跳跃过程中,探测器在空中的位置和速度信息总量是不发生变化的,为简化状态空间,提高神经网络训练效率,将状态空间选取为碰撞前探测器达到的最高点位置信息(xh,yh)和水平速度信息vxh
s=(xh,yh,vxh) (25)
a=(α,ω) (26)
搭建两组神经网络用于两阶段智能体A1和A2的训练;两组神经网络结构相同,包含Actor网络和Critic网络。
Actor网络用于根据当前状态选取执行的动作,包含两个隐藏层和一个输出层;Critic网络用于根据状态和动作来评估选取的动作,包含两个隐藏层和一个输出层,Actor网络给出的动作在第二个隐藏层处加入Critic网络。
步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求,分别设计奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到两个阶段的智能体A1和A2,用于给出两阶段姿态序列。
步骤二的具体实现方法为:
步骤2.1针对接近段设计奖赏函数,训练得到智能体A1
探测器在接近段由初始位置向目标点运动,直到探测器跳跃最高点的水平位置x在目标点xf附近范围[xf-Δx1,xf+Δx1]内,同时水平速度大小降低到[0,v1]内,其中,Δx1=10m,v1=0.1m/s。
接近段探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围。接近段结束条件为:在一定弹跳次数内探测器跳跃最高点水平位置达到目标范围,即
|x-xf|≤Δx1 (27)
其中,x为探测器当前跳跃最高点水平位置。
接近段结束时,奖赏值R为
Figure BDA0002725009970000091
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度。
接近段每步奖赏值为
Figure BDA0002725009970000092
其中,xk为碰撞前探测器最高点位置横坐标。
接近段弹跳运动方向奖赏值为
R=-10·sgn(xk+1-xf)·sgn(vx,k+1) (30)
其中,xk+1和vx,k+1分别为碰撞后探测器跳跃最高点的位置横坐标和水平速度。
速度约束:如果在碰撞后速度过大,超过了小天体表面的逃逸速度,则给出一个负值奖赏。
根据接近段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A1
步骤2.2针对制动段设计奖赏函数,训练得到智能体A2
探测器在制动段由目标点附近位置开始运动,直到探测器跳跃最高点的水平速度降低到vf,同时水平位置在[xf-Δx2,xf+Δx2]内,其中,Δx2=5m,vf=0.03m/s。
制动段探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内。制动段结束条件为:在一定弹跳次数内探测器跳跃最高点水平速度减小到vf,即
|vx|≤vf (31)
其中,vx探测器当前跳跃最高点水平速度。
制动段结束时,奖赏值为
Figure BDA0002725009970000101
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度。
制动段每步的奖赏值为
R=-1-100·|vx,k| (33)
其中,vx,k为探测器当前的水平速度。
制动段弹跳运动方向奖赏值为
R=-10·sgn(xk+1-xf)·sgn(vx,k+1) (34)
高度约束:如果在碰撞后跳跃最高点过高,则给出一个负值奖赏。
根据制动段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A2
步骤三、智能体A1和A2基于探测器当前的状态,给出探测器每次碰撞前的姿态信息,在此基础上,设计滑模面,使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。
步骤三的具体实现方法为:
在一次跳跃中,智能体由碰撞前最高点的状态可以给出本次碰撞点处探测器的姿态角αp和角速度ωp。从碰撞前最高点到碰撞点过程中,使用二阶滑模控制调整探测器姿态,使其在碰撞点处达到智能体给出的姿态角和角速度。
根据公式(35)计算出碰撞点探测器的质心高度yp
Figure BDA0002725009970000102
探测器在空中做自由落体运动,由最高点高度yh和碰撞点高度yp计算出最高点到碰撞点的时间tp
Figure BDA0002725009970000103
定义一阶滑模面s1
s1=α-αpp(t-tp) (37)
其中,α为当前时刻姿态角;
对s1求一阶偏导得:
Figure BDA0002725009970000111
其中,ω为当前时刻角速度;
定义二阶滑模面s2
Figure BDA0002725009970000112
其中,Λ为参数;
对s2求一阶偏导得:
Figure BDA0002725009970000113
定义s2的趋近律如下:
Figure BDA0002725009970000114
其中,k为参数,sat(s)为饱和函数:
Figure BDA0002725009970000115
由姿态动力学方程可得,碰撞前控制力矩Tc1
Figure BDA0002725009970000116
在碰撞结束后,使用一阶滑模控制,将姿态角稳定在固定值0°,以便于下次碰撞前的姿态控制。定义滑模面s3及其趋近律如下:
s3=α+ω (44)
Figure BDA0002725009970000117
其中,k1和k2为参数;
由姿态动力学方程得,碰撞后控制力矩Tc2
Tc2=I·[k1·s3+k2·sat(s3)-ω] (46)
通过滑模控制使碰撞时探测器姿态调整为智能体给出的姿态值,从而使探测器能按照深度确定性策略梯度DDPG算法规划的方式进行跳跃,实现探测器到小天体表面目标点的精确附着。图3为探测器的运动轨迹,探测器经过连续跳跃最终达到目标位置附近;图4为探测器水平速度曲线,探测器通过碰撞调整其水平速度,到达目标位置附近时水平速度减小到0附近;图5为探测器姿态角和角速度曲线,通过滑模控制方法,探测器将碰撞前姿态角和角速度调整为智能体给出的期望值,完成探测器到小天体表面目标点的精确附着。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:包括如下步骤,
步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段,针对每一阶段探测器碰撞前的姿态和角速度,采用深度确定性策略梯度算法,选取状态空间与动作空间,搭建探测器弹跳运动神经网络模型;
步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求,分别设计奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到两个阶段的智能体A1和A2,用于给出两阶段姿态序列;
步骤三、智能体A1和A2基于探测器当前的状态,给出探测器每次碰撞前的姿态信息,在此基础上,设计滑模面,使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。
2.如权利要求1所述的考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:步骤一的具体实现方法为,
探测器的动力学方程如下:
Figure FDA0002725009960000011
其中,m为探测器质量,g为小天体重力加速度,(x,y)为探测器位置,I为探测器转动惯量,2l为探测器边长,α为探测器的姿态角,ω为探测器的角速度,Ft为地面对探测器水平方向向作用力,Fn为地面对探测器竖直方向作用力,Tc为探测器控制力矩;
通过对探测器动力学方程的分析可知,探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的;由连续碰撞模型可知,探测器所受的水平方向力Ft和竖直方向力Fn是由碰撞时探测器的姿态角α和角速度ω决定的;因此,使用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法时,状态空间s选取为探测器的位置r和速度v,动作空间a选取为探测器碰撞时的姿态角α和角速度ω;在一次跳跃过程中,探测器在空中的位置和速度信息总量是不发生变化的,因此状态空间简化为碰撞前探测器达到的最高点位置信息(xh,yh)和水平速度信息vxh
s=(xh,yh,vxh) (2)
a=(α,ω) (3)
搭建两组神经网络用于两阶段智能体A1和A2的训练;两组神经网络结构相同,包含Actor网络和Critic网络;
Actor网络用于根据当前状态选取执行的动作,包含两个隐藏层和一个输出层;Critic网络用于根据状态和动作来评估选取的动作,包含两个隐藏层和一个输出层,Actor网络给出的动作在第二个隐藏层处加入Critic网络。
3.如权利要求2所述的考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:步骤二的具体实现方法为,
步骤2.1针对接近段设计奖赏函数,训练得到智能体A1,用于给出第一阶段姿态序列;
探测器在接近段由初始位置向目标点运动,直到探测器跳跃最高点的水平位置x在目标点xf附近范围[xf-Δx1,xf+Δx1]内,同时水平速度大小降低到[0,v1]内;
接近段探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围,因此结束条件为:在一定跳跃次数内探测器跳跃最高点水平位置达到目标范围,即
|x-xf|≤Δx1 (4)
其中,x为探测器当前跳跃最高点水平位置;
接近段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时对完成任务时的水平速度进行评估,速度越小,给予越大的奖赏,速度过大则给予负值奖赏,接近段结束奖赏值R为
Figure FDA0002725009960000021
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度,R1和R2分别为评估位置和速度的大值奖赏;
此外,接近段过程中,考虑以下三个因素赋予奖赏值:
1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器与目标点当前的水平距离相关,距离越远,惩罚越大;每步的奖赏值为
Figure FDA0002725009960000022
其中,xk为碰撞前探测器最高点位置横坐标,R0为一个较小的正值,p为参数;
2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动;运动方向奖赏值为
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (7)
其中,xk+1和vx,k+1分别为碰撞后探测器跳跃最高点的位置横坐标和水平速度,q为参数;
速度约束:如果在碰撞后速度过大,超过小天体表面的逃逸速度,则给出一个负值奖赏;
根据接近段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A1
步骤2.2针对制动段设计奖赏函数,训练得到智能体A2,用于给出第二阶段姿态序列;
探测器在制动段由目标点附近位置开始运动,直到探测器跳跃最高点的水平速度降低到vf,同时水平位置在[xf-Δx2,xf+Δx2]内;
制动段探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内,因此结束条件为:在一定跳跃次数内探测器跳跃最高点水平速度减小到vf,即
|vx|≤vf (8)
其中,vx探测器当前跳跃最高点水平速度;
制动段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时要对完成任务时的水平位置进行评估,探测器到目标点水平距离越小,给予越大的奖赏,距离过大则给予负值奖赏,制动段结束奖赏值为:
Figure FDA0002725009960000031
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度,R3和R4分别为评估速度和位置的大值奖赏;
此外,制动段段过程中,考虑以下三个因素赋予奖赏值:
1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器当前的水平速度相关,速度越大,惩罚越大;每步的奖赏值为
R=-R0-p·|vx,k| (10)
其中,vx,k为探测器当前的水平速度;
2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动;运动方向奖赏值为
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (11)
3)高度约束:如果在碰撞后跳跃最高点过高,则给出一个负值奖赏;
根据制动段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A2
4.如权利要求3所述的考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:步骤三的具体实现方法为,
在一次跳跃中,智能体由碰撞前最高点的状态可以给出本次碰撞点处探测器的姿态角αp和角速度ωp;从碰撞前最高点到碰撞点过程中,使用二阶滑模控制调整探测器姿态,使其在碰撞点处达到智能体给出的姿态角和角速度;
根据公式(12)计算出碰撞点探测器的质心高度yp
Figure FDA0002725009960000041
探测器在空中做自由落体运动,因此可以由最高点高度yh和碰撞点高度yp计算出最高点到碰撞点的时间tp
Figure FDA0002725009960000042
定义一阶滑模面s1
s1=α-αpp(t-tp) (14)
其中,α为当前时刻姿态角;
对s1求一阶偏导得:
Figure FDA0002725009960000043
其中,ω为当前时刻角速度;
定义二阶滑模面s2
Figure FDA0002725009960000044
其中,Λ为参数;
对s2求一阶偏导得:
Figure FDA0002725009960000045
定义s2的趋近律如下:
Figure FDA0002725009960000046
其中,k为参数,sat(s)为饱和函数:
Figure FDA0002725009960000047
由姿态动力学方程可得,碰撞前的控制力矩Tc1
Figure FDA0002725009960000048
在碰撞结束后,使用一阶滑模控制,将姿态角稳定在固定值0°,以便于下次碰撞前的姿态控制;定义滑模面s3及其趋近律如下:
s3=α+ω (21)
Figure FDA0002725009960000051
其中,k1和k2为参数;
由姿态动力学方程可得,碰撞后控制力矩Tc2
Tc2=I·[k1·s3+k2·sat(s3)-ω] (23)
通过滑模控制使碰撞时探测器姿态调整为智能体给出的姿态值,从而使探测器能按照深度确定性策略梯度DDPG算法规划的方式进行跳跃,实现探测器到小天体表面目标点的精确附着。
CN202011099994.9A 2020-10-15 2020-10-15 考虑弹跳的小天体表面定点附着轨迹规划方法 Active CN112269390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011099994.9A CN112269390B (zh) 2020-10-15 2020-10-15 考虑弹跳的小天体表面定点附着轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011099994.9A CN112269390B (zh) 2020-10-15 2020-10-15 考虑弹跳的小天体表面定点附着轨迹规划方法

Publications (2)

Publication Number Publication Date
CN112269390A true CN112269390A (zh) 2021-01-26
CN112269390B CN112269390B (zh) 2021-09-21

Family

ID=74337206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011099994.9A Active CN112269390B (zh) 2020-10-15 2020-10-15 考虑弹跳的小天体表面定点附着轨迹规划方法

Country Status (1)

Country Link
CN (1) CN112269390B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947533A (zh) * 2021-04-14 2021-06-11 北京理工大学 复杂小天体表面移动序列轨迹规划方法
CN113110557A (zh) * 2021-05-07 2021-07-13 北京理工大学 小行星着陆末段弹跳移动制导方法
CN113110559A (zh) * 2021-05-13 2021-07-13 北京理工大学 一种小天体表面弹跳运动最优控制方法
CN113393495A (zh) * 2021-06-21 2021-09-14 暨南大学 基于强化学习的高空抛物轨迹识别方法
CN113741193A (zh) * 2021-09-06 2021-12-03 北京理工大学 弱引力小天体表面弹跳轨迹修正控制方法
CN115309057A (zh) * 2022-09-05 2022-11-08 北京理工大学 行星表面复杂地形区安全着陆制导方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102167166A (zh) * 2011-03-31 2011-08-31 哈尔滨工业大学 小星体着陆器附着机构
CN102890506A (zh) * 2011-07-19 2013-01-23 北京理工大学 一种基于约束规划的小天体接近段制导控制方法
CN103863579A (zh) * 2014-03-31 2014-06-18 北京控制工程研究所 一种深空探测返回过程的预测校正制导方法
WO2015031699A2 (en) * 2013-08-28 2015-03-05 Moon Express, Inc. System and method for multi-role planetary lander and ascent spacecraft
CN105739537A (zh) * 2016-03-29 2016-07-06 北京理工大学 一种小天体表面附着运动主动控制方法
CN105867395A (zh) * 2015-12-28 2016-08-17 北京理工大学 一种基于滑膜控制的深空探测器约束姿态机动规划方法
CN105929835A (zh) * 2016-04-19 2016-09-07 北京理工大学 一种小行星附着轨迹抗差优化方法
CN107202584A (zh) * 2017-07-06 2017-09-26 北京理工大学 一种行星精确着陆抗扰制导方法
CN107340716A (zh) * 2017-07-06 2017-11-10 北京理工大学 一种行星着陆动力下降几何凸轨迹制导方法
CN110309627A (zh) * 2019-08-12 2019-10-08 北京理工大学 小天体表面弹跳移动的可达区获取方法
JP2020032874A (ja) * 2018-08-30 2020-03-05 国立研究開発法人宇宙航空研究開発機構 人工衛星の位置・姿勢制御システム及び人工衛星の位置・姿勢制御方式
CN110901961A (zh) * 2019-12-13 2020-03-24 中国科学院沈阳自动化研究所 一种小行星探测器着陆减振附着机构
CN111766883A (zh) * 2020-07-06 2020-10-13 北京理工大学 小天体协同附着鲁棒避障控制方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102167166A (zh) * 2011-03-31 2011-08-31 哈尔滨工业大学 小星体着陆器附着机构
CN102890506A (zh) * 2011-07-19 2013-01-23 北京理工大学 一种基于约束规划的小天体接近段制导控制方法
WO2015031699A2 (en) * 2013-08-28 2015-03-05 Moon Express, Inc. System and method for multi-role planetary lander and ascent spacecraft
CN103863579A (zh) * 2014-03-31 2014-06-18 北京控制工程研究所 一种深空探测返回过程的预测校正制导方法
CN105867395A (zh) * 2015-12-28 2016-08-17 北京理工大学 一种基于滑膜控制的深空探测器约束姿态机动规划方法
CN105739537A (zh) * 2016-03-29 2016-07-06 北京理工大学 一种小天体表面附着运动主动控制方法
CN105929835A (zh) * 2016-04-19 2016-09-07 北京理工大学 一种小行星附着轨迹抗差优化方法
CN107202584A (zh) * 2017-07-06 2017-09-26 北京理工大学 一种行星精确着陆抗扰制导方法
CN107340716A (zh) * 2017-07-06 2017-11-10 北京理工大学 一种行星着陆动力下降几何凸轨迹制导方法
JP2020032874A (ja) * 2018-08-30 2020-03-05 国立研究開発法人宇宙航空研究開発機構 人工衛星の位置・姿勢制御システム及び人工衛星の位置・姿勢制御方式
CN110309627A (zh) * 2019-08-12 2019-10-08 北京理工大学 小天体表面弹跳移动的可达区获取方法
CN110901961A (zh) * 2019-12-13 2020-03-24 中国科学院沈阳自动化研究所 一种小行星探测器着陆减振附着机构
CN111766883A (zh) * 2020-07-06 2020-10-13 北京理工大学 小天体协同附着鲁棒避障控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANXUN JIANG: "Path planning for asteroid hopping rovers with pre-trained deep reinforcement learning architectures", 《ACTA ASTRONAUTICA》 *
PINGYUAN CUI: "Intelligent landing strategy for the small bodies: from passive bounce to active trajectory control", 《ACTA ASTRONAUTICA》 *
王飞: "小行星跳跃探测器着陆跳跃运动仿真研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
郭林杰: "基于深度强化学习的跳跃式小行星探测器规划策略研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947533A (zh) * 2021-04-14 2021-06-11 北京理工大学 复杂小天体表面移动序列轨迹规划方法
CN112947533B (zh) * 2021-04-14 2022-03-22 北京理工大学 复杂小天体表面移动序列轨迹规划方法
CN113110557A (zh) * 2021-05-07 2021-07-13 北京理工大学 小行星着陆末段弹跳移动制导方法
CN113110557B (zh) * 2021-05-07 2022-02-15 北京理工大学 小行星着陆末段弹跳移动制导方法
CN113110559A (zh) * 2021-05-13 2021-07-13 北京理工大学 一种小天体表面弹跳运动最优控制方法
CN113110559B (zh) * 2021-05-13 2022-03-18 北京理工大学 一种小天体表面弹跳运动最优控制方法
CN113393495A (zh) * 2021-06-21 2021-09-14 暨南大学 基于强化学习的高空抛物轨迹识别方法
CN113393495B (zh) * 2021-06-21 2022-02-01 暨南大学 基于强化学习的高空抛物轨迹识别方法
CN113741193A (zh) * 2021-09-06 2021-12-03 北京理工大学 弱引力小天体表面弹跳轨迹修正控制方法
CN113741193B (zh) * 2021-09-06 2024-02-27 北京理工大学 弱引力小天体表面弹跳轨迹修正控制方法
CN115309057A (zh) * 2022-09-05 2022-11-08 北京理工大学 行星表面复杂地形区安全着陆制导方法
CN115309057B (zh) * 2022-09-05 2023-08-11 北京理工大学 行星表面复杂地形区安全着陆制导方法

Also Published As

Publication number Publication date
CN112269390B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN112269390B (zh) 考虑弹跳的小天体表面定点附着轨迹规划方法
CN109343341B (zh) 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN113479347B (zh) 一种火箭垂直回收着陆段轨迹控制方法
CN107544262B (zh) 一种运载火箭自适应精确回收控制方法
CN111538241B (zh) 一种平流层飞艇水平轨迹智能控制方法
CN102880052A (zh) 基于时标功能分解的高超声速飞行器执行器饱和控制方法
CN113467241B (zh) 凸曲率着陆轨迹燃耗优化方法
CN104777844A (zh) 一种高超声速临近空间飞行器航迹跟踪方法
CN110329547B (zh) 基于速度增量走廊的小天体高速撞击末制导方法
CN109407688B (zh) 一种垂直起降火箭在线轨迹规划的质心运动解耦方法
CN105260508A (zh) 一种空投物最佳投放点预测方法
CN111625989A (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN109375515A (zh) 一种垂直起降火箭在线轨迹规划的动力学特性在线辨识方法
CN107515533A (zh) 一种用于列车ato系统的鲁棒非奇异终端滑模控制方法
CN114370793A (zh) 一种火箭子级返回与垂直着陆制导方法
CN117289709A (zh) 基于深度强化学习的高超声速变外形飞行器姿态控制方法
CN116068894A (zh) 基于双层强化学习的火箭回收制导方法
Wang et al. Deep learning based missile trajectory prediction
CN116360258A (zh) 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法
CN113821057A (zh) 一种基于强化学习的行星软着陆控制方法及系统和存储介质
CN114348021A (zh) 基于强化学习的车辆自主极限驾驶规划控制方法及系统
CN113110557B (zh) 小行星着陆末段弹跳移动制导方法
Cheng et al. Cross-cycle iterative unmanned aerial vehicle reentry guidance based on reinforcement learning
CN114104339B (zh) 基于降落伞落点离线分析的火星着陆器降落伞规避方法
CN117170230B (zh) 一种垂直起降无人机群多模态轨迹生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant