CN116125811A - 基于近端策略优化的航天器多空间碎片避撞自主决策方法 - Google Patents
基于近端策略优化的航天器多空间碎片避撞自主决策方法 Download PDFInfo
- Publication number
- CN116125811A CN116125811A CN202310103998.7A CN202310103998A CN116125811A CN 116125811 A CN116125811 A CN 116125811A CN 202310103998 A CN202310103998 A CN 202310103998A CN 116125811 A CN116125811 A CN 116125811A
- Authority
- CN
- China
- Prior art keywords
- spacecraft
- space
- collision
- collision avoidance
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000012634 fragment Substances 0.000 title claims abstract description 38
- 238000005457 optimization Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000004088 simulation Methods 0.000 claims abstract description 34
- 238000013178 mathematical model Methods 0.000 claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 206010048669 Terminal state Diseases 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000005265 energy consumption Methods 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 3
- 239000010763 heavy fuel oil Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 230000007480 spreading Effects 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了基于近端策略优化的航天器多空间碎片避撞自主决策方法,所述方法包括以下步骤:步骤一:根据地心惯性坐标系下构建航天器的空间动力学模型;步骤二:根据航天器与空间碎片轨道动力学构建碰撞概率数学模型;步骤三:基于碰撞时间的空间碎片仿真参数生成;步骤四:对碰撞概率与能量损耗构建奖励函数数学模型;步骤五所述航天器避撞自主决策训练系统是在当前状态下选择最优动作,通过连续决策使得航天器能够以最佳状态成功规避空间碎片;步骤六:离线训练航天器避撞自主决策模型;步骤七:训练好的航天器避撞自主决策模型应用于在线航天器多个空间碎片避撞场景中;本发明以减少生成最优规避机动的时间消耗,提升航空器的能源利用率。
Description
技术领域
本发明涉及航天器避撞领域,具体涉及基于近端策略优化的航天器多空间碎片避撞自主决策方法。
背景技术
随着全球航天事业快速发展,世界范围内卫星发射次数也是逐年攀升,全世界先后有超过三十多个国家和地区相继进行了发射任务。进入21世纪,出于国家军事战略安全的需要,世界各国进行卫星发射的任务越来越紧迫,发射活动也愈发频繁。然而由于宇宙空间资源的有限,特别是近地空间以及地球同步轨道空间的有限性,导致地球附近的空间碎片数量迅速攀升,这些无效载荷严重污染了地球周围的空间环境,对在轨航天器的安全运行、卫星任务执行以及火箭发射的窗口期都产生了广泛且严重影响。现有的空间碎片避撞问题研究多是基于简化的相对运动学模型,并且采用离线的数学优化方法得出最优机动量。但传统的高斯伪谱法、遗传算法等求解速度无法满足航天器在轨实时避障决策需求,工程上也很难为空间飞行器提供瞬时大推力,所以有必要对有限推力空间飞行器在轨实时自主避障机动决策进行研究。
因此,设计一种基于近端策略优化的航天器多空间碎片避撞自主决策方法能够实现自主规避,并且能够有效的降低机动决策时间,优化机动能耗。
发明内容
本发明的目的是提供一种基于近端策略优化的航天器多空间碎片避撞自主决策方法,本发明解决了现有航天器空间碎片规避问题计算效率低、无法自主规避等问题;本发明主要通过构建航天器与空间碎片轨道动力学模型、设计碰撞概率计算模块、生成空间碎片仿真参数等步骤实现离线训练,使用神经网络实现在线决策;通过仿真案例验证,证明该方法对航天器计算资源使用较少,有效降低规避决策时间,具备实时决策能力,并且提升了航天器对多空间碎片的规避成功率与能源利用效率。
以减少生成最优规避机动的时间消耗,提升航空器的能源利用率。
本发明采用以下技术方案:
一种基于近端策略优化的航天器多空间碎片避撞自主决策方法,所述方法包括以下步骤:
步骤一:根据地心惯性坐标系下构建航天器的空间动力学模型为:
其中,r是航天器空间位置矢量;μ为地球引力常数,其值为3.986×105km3/s2;ft为发动机推力加速度矢量,本发明中采用脉冲机动方式,机动总量设置为Fmax;fp是作用在航天器上的J2摄动加速度矢量;
步骤二:根据航天器与空间碎片轨道动力学构建碰撞概率数学模型;
步骤三:基于碰撞时间的空间碎片仿真参数生成;
步骤四:对碰撞概率与能量损耗构建奖励函数数学模型;
步骤五:根据近端策略优化算法建立航天器避撞自主决策训练系统;
所述航天器避撞自主决策训练系统是在当前状态下选择最优动作,通过连续决策使得航天器能够以最佳状态成功规避空间碎片;
步骤六:将步骤一、步骤二、步骤三和步骤四中所建立的模型应用在步骤五系统中,离线训练航天器避撞自主决策系统;
步骤七:将步骤六中训练好的航天器避撞自主决策系统应用于在线航天器多个空间碎片避撞场景中,得到成功的自主规避的优化机动轨迹。
进一步,所述步骤二构建碰撞概率数学模型,其具体过程为:
在每个时间步长中获取当前时刻的航天器和空间碎片在地心坐标系下的位置和速度;
根据轨道动力学方程向前传播得到航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度;
将航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度转换为在相对坐标系下得到相对位置和相对速度,计算两者的联合位置误差协方差;
选取二维高斯概率密度函数的无穷级数首项作为概率积分的近似按照如下公式计算出在最接近时刻的碰撞概率数学模型Pc;
其中,μx和μy分别为航天器与空间碎片在相遇坐标系下x轴和y轴坐标,σx和σy分别为航天器与空间碎片在相遇坐标系下x轴和y轴上的联合位置误差标准差,rA为航天器与空间碎片半径之和。
进一步,所述步骤三基于碰撞时间的空间碎片仿真参数生成,其具体过程为:
根据航天器初始时刻的状态进行一定时间的轨道传播获得空间碎片碰撞时间tc;
根据空间碎片碰撞时间tc时刻航天器的位置Rs和速度Vs,加入一定的随机扰动Rε和Vε;
根据空间碎片向前传播tc秒获得空间碎片的初始位置Rd和速度Vd。
进一步,所述步骤四基于碰撞概率与能量损耗的奖励函数数学模型为:
其中,rp为碰撞概率的奖励值,Psum为多个空间碎片的总的碰撞概率,其计算公式为Pi为单个空间碎片的碰撞概率;rc为能量损耗奖励,Fmax为总能量值,Fac为累计能量消耗值,Fsc为单次机动能量消耗值,Fsmax为单次机动最大能量消耗值;rs为步长奖励;rt为终端条件奖励,tstep为环境步数,collflag为碰撞发生标志位。
进一步,所述步骤五建立航天器避撞自主决策训练系统,其具体过程为:
501、将航天器避撞决策过程建模为马尔科夫决策过程模型,所述航天器避撞决策过程模型包括:状态集、动作集、状态转移方程、奖励函数数学模型和折扣因子;
所述状态集由二十六个变量组成,包括一个航天器与三个空间碎片通过所述航天器的空间动力学模型生成在地心坐标系下的相对三维位置坐标和三维速度值、航天器的剩余燃料值;
通过所述碰撞概率数学模型得到的航天器与三个空间碎片在最接近时刻的相对距离、碰撞概率和总碰撞概率;
所述动作集由三个变量组成,包括航天器在地心坐标系下的x方向脉冲机动值、y方向脉冲机动值、z方向脉冲机动值;
所述状态转移方程是基于航天器的空间动力学模型,即当输入一个动作后,状态会以100%的概率按照轨道动力学方程转移到下一状态;
所述奖励函数数学模型,其中总奖励值分别由碰撞概率奖励值rp、能量损耗奖励值rc、步长奖励值rs、终端条件奖励值rt组成;
折扣因子设置为0.95;
502、采用近端策略优化算法对航天器避撞模型进行训练建立航天器避撞自主决策训练系统;其中:
所述航天器避撞自主决策训练系统包括Critic网络和Actor网络组成;所述Actor网络用于输出航天器的机动值,所述Critic网络用于评价当前状态的好坏程度;所述Actor网络和所述Critic网络不断的与前四个步骤组成的仿真环境互动,收集经验样本,通过经验样本进一步的训练更新Actor网络和Critic网络参数;
所述航天器避撞自主决策训练系统在训练初期首先初始化Actor网络和Critic网络参数,初始化经验池空间,其中经验池的每组数据Dt={st,st+1,at,rt}为当前状态st,新状态st+1,当前机动值at以及当前奖励值rt;
对初始化航天器与空间碎片的状态s0,并将该状态输入给Actor网络和Critic网络;Actor网络根据输入状态输出机动值a0,Critic网络根据输入状态输出评价值;
所述航天器避撞自主决策训练系统将Actor网络输出的机动值带入碰撞概率数学模型到中得到新的状态,并且通过步骤四的奖励函数数学模型得到该机动值的回报值r0;
经验池存储上述数据;
所述航天器避撞自主决策训练系统进一步判断新状态是否到达终端状态,即发生碰撞、能量耗尽、仿真回合结束这三种状态;如果未到达终端状态,则Actor网络与Critic网络继续与环境做互动;如果达到终端状态,则需要重新初始化航天器与空间碎片的状态。
所述航天器避撞自主决策训练系统判断经验池的数量,如果达到经验池的数量,则通过算法更新Actor网络与Critic网络,否则系统继续收集数据。
在训练时,根据近端策略优化算法算法对Actor和Critic网络进行更新;
对更新过Actor和Critic网络之后清空经验池;
系统判断是否到达最大训练回合,如果到达则停止训练,否则继续训练。
进一步,所述Actor和Critic网络均采用全连接神经网络模型:
所述Critic网络,设计一个全连接神经网络,输入层的节点数等于状态集的变量数,即输入变量为二十六个状态变量;输出层的节点数为一个评价值,该评价值用来评判当前状态的好坏。隐含层的层数与节点数可自行定义,此处设计三层隐含层,每层节点数依次为256、128、128,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络;
所述Actor网络,设计一个全连接神经网络,网络输入变量为二十六个状态变量,具有两个隐藏层,隐藏层节点分别为256和128,输出为三个方向的脉冲机动均值和标准差,对其进行概率采样可得到实际脉冲机动值,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络。
本发明的有益效果是:
本发明解决了现有航天器空间碎片规避问题计算效率低、无法自主规避等问题。本发明的目的在于提供一种能够离线训练并且在线决策的避撞方法,主要通过构建航天器与空间碎片轨道动力学模型、设计碰撞概率计算模块、生成空间碎片仿真参数等步骤实现离线训练,使用神经网络实现在线决策。该方法对航天器计算资源使用较少,有效降低规避决策时间,具备实时决策能力,提升了航天器对多空间碎片的规避成功率与能源利用效率。
附图说明
图1是碰撞概率计算流程图。
图2是航天器避撞自主决策训练流程图。
图3是航天器避撞自主决策系统训练结果图。
图4是仿真案例机动结果图。
图5是仿真案例脱靶距离变化结果图。
图6是仿真案例碰撞概率变化结果图。
图7是百次仿真机动增量和奖励值关系图。
具体实施方式
下面结合附图对本发明实施例做进一步的说明。
具体实施方式一:本发明提供了一种基于近端策略优化的航天器多空间碎片避撞自主决策方法,包括以下步骤:
步骤一:构建航天器与空间碎片轨道动力学模型;
步骤二:设计碰撞概率计算模块;
步骤三:基于碰撞时间的空间碎片仿真参数生成;
步骤四:基于碰撞概率与能量损耗的奖励函数设计;
步骤五:根据近端策略优化算法建立航天器避撞自主决策训练系统;
步骤六:将步骤一、步骤二、步骤三和步骤四中所建立的模型应用在步骤五系统中,离线训练航天器避撞自主决策模型;
步骤七:将步骤六中训练好的航天器避撞自主决策模型应用于在线航天器多个空间碎片避撞场景中,得到成功的自主规避的优化机动轨迹。
本发明主要分为两个阶段:离线训练和在线决策。通过动力学模型生成大量不同的仿真数据离线训练近端策略优化算法,最终得到训练好的神经网络模型。利用训练好的神经网络模型即可实现在线实施自主规避决策,有效提高避撞成功率。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一构建航天器与空间碎片轨道动力学模型,其具体过程为:
首先,本方法基于J2000地心惯性坐标系建立了航天器、空间碎片轨道动力学方程,该方法可以直接使用空间位置和速度来描述空间物体在轨状态,可以更为直观和简便的在自学习系统中进行运算,进而提高系统的解算速度。在地心惯性坐标系下,航天器的空间动力学模型为:
其中,r是航天器空间位置矢量;μ为地球引力常数,其值为3.986×105km3/s2;ft为发动机推力加速度矢量,本发明中采用脉冲机动方式,机动总量设置为Fmax;fp是作用在航天器上的J2摄动加速度矢量,具体表达式为:
其中,x,y,z分别为航天器位置矢量沿J2000坐标系坐标轴的分量,fpx,fpz,fpz为摄动加速度沿三维坐标轴的分量,Re为地球半径,其值为6378.137km,J2=1.08262668×10-3。
由于航天器附近的空间碎片轨道高度与航天器的轨道高度近似,因此空间碎片的轨道运动学方程与航天器轨道动力学方程一致。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二设计碰撞概率计算模块,其具体过程为:
针对卫星碰撞风险评估问题,目前受到广泛认可的是通过碰撞概率估计的方式对卫星与空间目标的碰撞风险进行评估分析。则三维高斯概率密度函数表达式为:
其中,tTCA为两个空间物体最接近时刻,Crr(tTCA)为两者联合位置误差协方差,S(tTCA)为两者的相对位置。则将该式在联合包络球所经过的空间区域进行积分,可以得到相遇时刻的碰撞概率为:
针对上式的积分运算耗时较大问题,考虑到空间物体相对速度较大,因此可以将空间物体视为线性的相对运动,则基于此假设可以将计算碰撞概率的问题转化为计算二维概率密度函数在圆域内的积分问题,碰撞概率计算公式可以简化为:
其中,μx和μy分别为航天器与空间碎片在相遇坐标系下x轴和y轴坐标,σx和σy分别为航天器与空间碎片在相遇坐标系下x轴和y轴上的联合位置误差标准差,rA为航天器与空间碎片半径之和。
根据前人的工作,上式可以取无穷级数首项作为概率积分的近似,具体表达式为:
以上即为碰撞概率的计算公式,则以碰撞概率做为碰撞预警的流程图如图1所示。
在每个时间步长中,系统首先获取当前时刻的航天器和空间碎片在地心坐标系下的位置和速度,然后根据轨道动力学方程向前传播得到航天器与空间碎片最接近时刻(TCA)以及在最接进时刻的位置和速度,然后将其转换为在相对坐标系(NTW)下得到相对位置和相对速度,并计算两者的联合位置误差协方差,最后根据式(6)计算出在最接近时刻的碰撞概率。
根据已有的研究成果,航天器的碰撞规避阈值通常分为三种情况:当碰撞概率达到10-4时为危险概率阈值,此时航天器必须要做出相应的规避机动;当碰撞概率达到10-5时为临近危险概率阈值,此时需要进行碰撞预警,并对危险目标做进一步的追踪和分析;当实施规避机机动策略后,需要使得航天器与空间碎片在最接近时刻的碰撞概率小于10-7。本方法将10-4作为危险碰撞概率阈值,当计算出的碰撞概率超过该阈值时表明需要做规避机动。
具体实施方式四:本实施方式与具体实施方式三不同的是:所述步骤三基于碰撞时间的空间碎片仿真参数生成,其具体过程为:
本方法采用强化学习作为规避机动的优化工具,因此需要对强化学习算法做离线训练。为了能够生成大量的仿真场景,本部分设计了相应的空间碎片参数生成方法。
本方法在训练时航天器的轨道参数固定,其余三个空间碎片在每个训练回合随机生成。在初始时刻,得到航天器的状态,并对其进行一定时间的轨道传播,系统随机选择一个时间作为碰撞时间tc,然后根据tc时刻航天器的位置Rs和速度Vs,加入一定的随机扰动Rε和Vε。在此基础上,随机生成一个轨道倾角得到空间碎片的位置R′d和速度Vd′,最后将空间碎片向前传播tc秒后得到空间碎片的初始位置和速度Rd和速度Vd。
基于这种方式可以在每个训练回合生成不同的空间碎片,一方面保证了训练样本的多样性,另一方面也提高了强化学习的适用性。相对于传统的寻优算法,通过基于数据训练的强化学习能够具有更好的泛化性能。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤四基于碰撞概率与能量损耗的奖励函数设计,其具体过程为:
作为航天器避撞问题,首先要解决的就是成功规避空间碎片,以保证航天器的正常在轨服务。其次就是要在成功规避的前提下尽量减小能量损耗(即减少速度增量),则将碰撞概率和能量消耗作为两个优化指标,对其进行奖励函数设计,具体设计结果如下:
其中,rp为碰撞概率的奖励值,Psum为多个空间碎片的总的碰撞概率,其计算公式为Pi为单个空间碎片的碰撞概率;rc为能量损耗奖励,Fmax为总能量值,Fac为累计能量消耗值,Fsc为单次机动能量消耗值,Fsmax为单次机动最大能量消耗值;rs为步长奖励;rt为终端条件奖励,tstep为环境步数,collflag为碰撞发生标志位。
上述定义的奖励函数充分考虑了规避任务和能量优化指标,同时便于强化学习算法的学习。其中,为了让智能体学会规避空间碎片,设置了rp奖励值。当Psum>10-4时,rp为负奖励;当Psum<10-4时,rp为正奖励以此来鼓励智能体向正确规避空间碎片的方向学习。在规避空间碎片的同时,也需要优化能量损耗,因此设置rc奖励值,其中包含了累计能量损耗和单次机动损耗。当Psum>10-4时,rc整体负奖励值整体较小,鼓励智能体大胆的去规避机动,但是当Psum<10-4时,智能体不应该再做额外的机动动作,以此减小能量损耗,因此在这种情况下rc将获得较大的负奖励。同时为了鼓励智能体向仿真终端时刻运行,特地设置时间步长奖励rs,随着智能体运行时间越长获得奖励越大。rt为系统终端条件奖励值,当航天器与空间碎片发生碰撞或者能量耗尽时判断该回合结束,给予负奖励;当航天器成功规避并运行到仿真终端时刻时给予较大的正奖励。
具体实施方式六:本实施方式与具体实施方式五不同的是:所述步骤五基于强化学习理论建立航天器避撞自主决策训练系统,其具体过程为:
强化学习领域最具代表性的为行动者评论家(Actor-Critic)算法架构。其核心是通过“行动者”产生动作策略,然后通过“评论家”对当前策略进行评价,指导动作策略的调整。该框架衍生出包含置信域策略优化算法(TRPO)、近端策略优化算法(PPO)、深度确定性策略梯度算法(DDPG)等在内的众多算法。其中PPO算法以其易于实现,性能较优等优点脱颖而出,因此本方法采用PPO作为航天器避撞算法。
航天器避撞自主决策训练系统的目的是在当前状态下选择最优动作,通过连续决策使得航天器能够以最佳状态成功规避空间碎片,这个过程满足随机序贯决策特征。
将航天器避撞决策过程建模为马尔科夫决策过程模型,该马尔科夫决策过程模型包括:状态集、动作集、状态转移方程、奖励函数和折扣因子;
其中,所述状态集由二十六个变量组成,包括一个航天器与三个空间碎片通过所述航天器的空间动力学模型生成在地心坐标系下的相对三维位置坐标和三维速度值、航天器的剩余燃料值;通过所述碰撞概率数学模型得到的航天器与三个空间碎片在最接近时刻的相对距离、碰撞概率和总碰撞概率;
状态转移方程采用轨道动力学方程(1),即当输入一个动作后,状态会以100%的概率按照轨道动力学方程转移到下一状态。
奖励函数即为步骤四设计的奖励函数,其中总奖励值分别由碰撞概率奖励值rp、能量损耗奖励值rc、步长奖励值rs、终端条件奖励值rt组成。
折扣因子设置为0.95。
通过以上五个内容即可构成训练系统的整个决策更新过程。
航天器避撞自主决策训练系统使用PPO算法作为训练算法,其由一个Critic网络和一个Actor网络组成。Actor网络用于输出航天器的机动值,Critic网络用于评价当前状态的好坏程度。Actor网络和Critic网络不断的与前四个步骤组成的仿真环境互动,收集经验样本,通过经验样本进一步的训练更新Actor网络和Critic网络参数。
航天器避撞自主决策训练系统流程图如图2所示,在训练初期首先初始化Actor网络和Critic网络参数,初始化经验池空间,其中经验池的每组数据Dt={st,st+1,at,rt}为当前状态st,新状态st+1,当前机动值at以及当前奖励值rt;
在每个仿真回合中首先初始化航天器与空间碎片的状态s0,并将该状态输入给Actor网络和Critic网络。Actor网络根据输入状态输出机动值a0,Critic网络根据输入状态输出评价值;
系统将Actor网络输出的机动值带入到轨道动力学方程中得到新的状态,并且通过步骤四的奖励函数得到该机动值的回报值r0;
将该组数据存储到经验池;
系统进一步判断新状态是否到达终端状态,即发生碰撞、能量耗尽、仿真回合结束这三种状态。如果未到达终端状态,则Actor网络与Critic网络继续与环境做互动;如果达到终端状态,则需要重新初始化航天器与空间碎片的状态。
系统判断经验池的数量,如果达到经验池的数量,则通过PPO算法更新Actor网络与Critic网络,否则系统继续收集数据。
因为自主决策训练系统的训练目标是:得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的Actor网络参数。其中,参数θ为Actor网络逼近的策略函数,期望误差用于更新Critic网络参数。则PPO算法更新Actor网络与Critic网络的方式具体如下:
本方法定义Actor网络损失函数为Lactor(θ),其具体表达式为:
其中,为新旧策略的概率比值,πθ(at∣st)是以参数θ表示的在状态st条件下选择动作at的概率;是以参数θold表示的在状态st条件下选择动作at的概率,θold为θ的历史值,在经过一定步数的训练后将θ的数值传递给θold。为优势函数,其表征当前动作at相较于策略πθ的优势。
Lcritic(θ)表示状态st对应的真实价值函数与估计值的差值,用于更新Critic网络参数。由于st对应的价值函数Vπ(st)未知,一般采用神经网络对其估计,其可以表示为神经网络权值参数θ的函数,即对于某一条轨迹,状态st处的真实价值函数可由下式估算得到:
则价值函数的损失函数可表示为:
则最大总期望收益J(θ)和最小期望误差L(θ)表示为:
以上则为更新Actor和Critic网络损失函数的相应推导。在训练时,利用梯度下降法对Actor和Critic网络进行更新;
在更新过Actor和Critic网络之后清空经验池;
系统判断是否到达最大训练回合,如果到达则停止训练,否则继续训练。
具体实施方式七:本实施方式与具体实施方式六不同的是:所述Actor网络和Critic网络均采用全连接神经网络模型:
针对Critic网络,设计一个全连接神经网络,输入层的节点数等于状态集的变量数,即输入变量为二十六个状态变量;输出层的节点数为一个评价值,该评价值用来评判当前状态的好坏。隐含层的层数与节点数可自行定义,此处设计三层隐含层,每层节点数依次为256、128、128,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络。
针对Actor网络,设计一个全连接神经网络,网络输入变量为二十六个状态变量,具有两个隐藏层,隐藏层节点分别为256和128,输出为三个方向的脉冲机动均值和标准差,对其进行概率采样可得到实际脉冲机动值,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络。
为方便描述步骤六训练过程,设计如下仿真场景:
本仿真场景考虑三个空间碎片的避撞问题,在初始时刻,航天器的轨道参数设定为[6868.76,-1801.98,-3153.79,0.20,7.62,0.13](位置km,速度km/s);根据步骤四,可以通过设定碰撞时间来生成空间碎片的轨道参数,于是设定生成三个空间碎片的相关参数如表1所示:
表1空间碎片生成相关参数范围
编号 | 碰撞时间 | 轨道倾角 |
空间碎片1 | 6500s~6600s | 35°~55° |
空间碎片2 | 7000s~7100s | 50°~70° |
空间碎片3 | 7500s~7600s | 260°~280° |
除此之外,设定位置Rs和速度Vs加入的标准差分别为0.00005和0.00001。
设定航天器半径为100m,三个空间碎片半径为0.1m;设定航天器每回合最大机动增量为1m/s,单次机动单个方向最大机动增量为0.03m/s;设定航天器和空间碎片在x轴、y轴和z轴上的位置不确定性协方差为[200,200,200,300,300,300](单位m)。运动学仿真步长设置为200s,每回合仿真周期为9000s。强化学习算法训练超参数如表2所示:
表2强化学习算法超参数设定
采用以下实施例验证本发明的有益效果:
实施例一:
1)实验环境
采用步骤五中描述的仿真实验环境
2)实验结果分析
通过本发明步骤六训练得到如图3所示的平均回报曲线,由图3中可以看出,本发明所提出的训练算法在2000回合附近开始收敛;
为了直观展示训练结果,选定一个仿真案例,其中空间碎片1轨道参数设定为[5456.76,883.44,-4080.35,1.36,6.90,3.01](位置km,速度km/s),空间碎片2轨道参数设定为[3458.48,288.65,-5930.48,0.36,7.58,0.58],空间碎片3轨道参数设定为[1486.74,-2978.73,-6015.82,-3.09,5.90,3.67]。由图4可以看出,航天器主要做了四次机动即可成功规避三个空间碎片,总机动增量为0.2245m/s。图4和图5显示了航天器机动后的脱靶距离和碰撞概率的变化情况,在四次机动后,碰撞概率均降到10-7,同时仿真机动决策时间为1.2s,证明了本发明的有效性和快速性。
为验证算法鲁棒性,取训练好的网络进行100次规避机动仿真,得到如图7所示百次仿真测试规避机动增量和奖励值的散点图。从散点图可以看出,本发明所述方法最终规避成功率为100%,百次仿真测试机动增量均值为0.2186m/s,说明本算法具有较好的鲁棒性,能够大幅度提高航天器的避撞能力。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述方法包括以下步骤:
步骤一:根据地心惯性坐标系下构建航天器的空间动力学模型为:
其中,r是航天器空间位置矢量;μ为地球引力常数,其值为3.986×105km3/s2;ft为发动机推力加速度矢量,本发明中采用脉冲机动方式,机动总量设置为Fmax;fp是作用在航天器上的J2摄动加速度矢量;
步骤二:根据航天器与空间碎片轨道动力学构建碰撞概率数学模型;
步骤三:基于碰撞时间的空间碎片仿真参数生成;
步骤四:对碰撞概率与能量损耗构建奖励函数数学模型;
步骤五:根据近端策略优化算法建立航天器避撞自主决策训练系统;
所述航天器避撞自主决策训练系统是在当前状态下选择最优动作,通过连续决策使得航天器能够以最佳状态成功规避空间碎片;
步骤六:将步骤一、步骤二、步骤三和步骤四中所建立的模型应用在步骤五系统中,离线训练航天器避撞自主决策系统;
步骤七:将步骤六中训练好的航天器避撞自主决策系统应用于在线航天器多个空间碎片避撞场景中,得到成功的自主规避的优化机动轨迹。
2.根据权利要求1所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述步骤二构建碰撞概率数学模型,其具体过程为:
在每个时间步长中获取当前时刻的航天器和空间碎片在地心坐标系下的位置和速度;
根据轨道动力学方程向前传播得到航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度;
将航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度转换为在相对坐标系下得到相对位置和相对速度,计算两者的联合位置误差协方差;
选取二维高斯概率密度函数的无穷级数首项作为概率积分的近似按照如下公式计算出在最接近时刻的碰撞概率数学模型Pc;
其中,μx和μy分别为航天器与空间碎片在相遇坐标系下x轴和y轴坐标,σx和σy分别为航天器与空间碎片在相遇坐标系下x轴和y轴上的联合位置误差标准差,rA为航天器与空间碎片半径之和。
5.根据权利要求1所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述步骤五建立航天器避撞自主决策训练系统,其具体过程为:
501、将航天器避撞决策过程建模为马尔科夫决策过程模型,所述航天器避撞决策过程模型包括:状态集、动作集、状态转移方程、奖励函数数学模型和折扣因子;
所述状态集由二十六个变量组成,包括一个航天器与三个空间碎片通过所述航天器的空间动力学模型生成在地心坐标系下的相对三维位置坐标和三维速度值、航天器的剩余燃料值;
通过所述碰撞概率数学模型得到的航天器与三个空间碎片在最接近时刻的相对距离、碰撞概率和总碰撞概率;
所述动作集由三个变量组成,包括航天器在地心坐标系下的x方向脉冲机动值、y方向脉冲机动值、z方向脉冲机动值;
所述状态转移方程是基于航天器的空间动力学模型,即当输入一个动作后,状态会以100%的概率按照轨道动力学方程转移到下一状态;
所述奖励函数数学模型,其中总奖励值分别由碰撞概率奖励值rp、能量损耗奖励值rc、步长奖励值rs、终端条件奖励值rt组成;
折扣因子设置为0.95;
502、采用近端策略优化算法对航天器避撞模型进行训练建立航天器避撞自主决策训练系统;其中:
所述航天器避撞自主决策训练系统包括Critic网络和Actor网络组成;所述Actor网络用于输出航天器的机动值,所述Critic网络用于评价当前状态的好坏程度;所述Actor网络和所述Critic网络不断的与前四个步骤组成的仿真环境互动,收集经验样本,通过经验样本进一步的训练更新Actor网络和Critic网络参数;
所述航天器避撞自主决策训练系统在训练初期首先初始化Actor网络和Critic网络参数,初始化经验池空间,其中经验池的每组数据Dt={st,st+1,at,rt}为当前状态st,新状态st+1,当前机动值at以及当前奖励值rt;
对初始化航天器与空间碎片的状态s0,并将该状态输入给Actor网络和Critic网络;Actor网络根据输入状态输出机动值a0,Critic网络根据输入状态输出评价值;
所述航天器避撞自主决策训练系统将Actor网络输出的机动值带入碰撞概率数学模型到中得到新的状态,并且通过步骤四的奖励函数数学模型得到该机动值的回报值r0;
经验池存储上述数据;
所述航天器避撞自主决策训练系统进一步判断新状态是否到达终端状态,即发生碰撞、能量耗尽、仿真回合结束这三种状态;如果未到达终端状态,则Actor网络与Critic网络继续与环境做互动;如果达到终端状态,则需要重新初始化航天器与空间碎片的状态。
所述航天器避撞自主决策训练系统判断经验池的数量,如果达到经验池的数量,则通过算法更新Actor网络与Critic网络,否则系统继续收集数据。
在训练时,根据近端策略优化算法对Actor和Critic网络进行更新;
更新过Actor和Critic网络之后清空经验池;
系统判断是否到达最大训练回合,如果到达则停止训练,否则继续训练。
6.根据权利要求5所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述Actor和Critic网络均采用全连接神经网络模型:
所述Critic网络,设计一个全连接神经网络,输入层的节点数等于状态集的变量数,即输入变量为二十六个状态变量;输出层的节点数为一个评价值,该评价值用来评判当前状态的好坏。隐含层的层数与节点数可自行定义,此处设计三层隐含层,每层节点数依次为256、128、128,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络;
所述Actor网络,设计一个全连接神经网络,网络输入变量为二十六个状态变量,具有两个隐藏层,隐藏层节点分别为256和128,输出为三个方向的脉冲机动均值和标准差,对其进行概率采样可得到实际脉冲机动值,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310103998.7A CN116125811A (zh) | 2023-02-13 | 2023-02-13 | 基于近端策略优化的航天器多空间碎片避撞自主决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310103998.7A CN116125811A (zh) | 2023-02-13 | 2023-02-13 | 基于近端策略优化的航天器多空间碎片避撞自主决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116125811A true CN116125811A (zh) | 2023-05-16 |
Family
ID=86300832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310103998.7A Pending CN116125811A (zh) | 2023-02-13 | 2023-02-13 | 基于近端策略优化的航天器多空间碎片避撞自主决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116125811A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578109A (zh) * | 2023-06-05 | 2023-08-11 | 北京控制工程研究所 | 一种航天器的应急规避机动控制方法及装置 |
CN116736729A (zh) * | 2023-08-14 | 2023-09-12 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN117311374A (zh) * | 2023-09-08 | 2023-12-29 | 厦门渊亭信息科技有限公司 | 一种基于强化学习的飞行器控制方法、终端设备及介质 |
-
2023
- 2023-02-13 CN CN202310103998.7A patent/CN116125811A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578109A (zh) * | 2023-06-05 | 2023-08-11 | 北京控制工程研究所 | 一种航天器的应急规避机动控制方法及装置 |
CN116578109B (zh) * | 2023-06-05 | 2023-11-21 | 北京控制工程研究所 | 一种航天器的应急规避机动控制方法及装置 |
CN116736729A (zh) * | 2023-08-14 | 2023-09-12 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN116736729B (zh) * | 2023-08-14 | 2023-10-27 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN117311374A (zh) * | 2023-09-08 | 2023-12-29 | 厦门渊亭信息科技有限公司 | 一种基于强化学习的飞行器控制方法、终端设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN116125811A (zh) | 基于近端策略优化的航天器多空间碎片避撞自主决策方法 | |
CN102402712B (zh) | 基于神经网络的机器人强化学习初始化方法 | |
CN102819264B (zh) | 移动机器人路径规划q学习初始化方法 | |
CN112947562A (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN112001120B (zh) | 一种基于强化学习的航天器对多拦截器自主规避机动方法 | |
CN114253296B (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN102269593A (zh) | 基于模糊虚拟力的无人机航路规划方法 | |
CN114077258B (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN115493597B (zh) | 一种基于sac算法的auv路径规划控制方法 | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN114791743A (zh) | 一种考虑通信时延的无人机集群协同航迹规划方法 | |
CN114415730B (zh) | 航天器逃逸轨迹智能规划方法 | |
CN115755598A (zh) | 一种智能航天器集群分布式模型预测路径规划方法 | |
CN117590867A (zh) | 基于深度强化学习的水下自主航行器接驳控制方法和系统 | |
Gan et al. | Multi-usv cooperative chasing strategy based on obstacles assistance and deep reinforcement learning | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Nazmy et al. | Shielded deep reinforcement learning for multi-sensor spacecraft imaging | |
Hu et al. | Densely rewarded reinforcement learning for robust low-thrust trajectory optimization | |
CN114326826B (zh) | 多无人机队形变换方法及系统 | |
CN116702903A (zh) | 一种基于深度强化学习的航天器集群博弈智能决策方法 | |
CN117972901A (zh) | 基于安全强化学习的航天器可变数量空间碎片避撞自主决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |