CN112001120B - 一种基于强化学习的航天器对多拦截器自主规避机动方法 - Google Patents
一种基于强化学习的航天器对多拦截器自主规避机动方法 Download PDFInfo
- Publication number
- CN112001120B CN112001120B CN202010857495.5A CN202010857495A CN112001120B CN 112001120 B CN112001120 B CN 112001120B CN 202010857495 A CN202010857495 A CN 202010857495A CN 112001120 B CN112001120 B CN 112001120B
- Authority
- CN
- China
- Prior art keywords
- spacecraft
- interceptor
- agent
- engine
- autonomous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 21
- 239000003795 chemical substances by application Substances 0.000 claims description 51
- 230000009471 action Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 230000003111 delayed effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 239000000463 material Substances 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000003380 propellant Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于强化学习的航天器对多拦截器自主规避机动方法,它属于反拦截技术领域。本发明解决了现有航天器程序式机动对多拦截器规避成功率低的问题。本发明提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法,由两个部分组成,分别为离线训练系统和在线决策网络,其对航天器自身计算资源使用较少,具备实时决策能力,提升了航天器对多拦截器的规避成功率。当航天器采用本发明所述自主规避机动方法时规避机动平均成功率为49%,规避成功率提高了29%。该方法能够有效降低规避过程中发动机开关时间,使用能量更为节省。本发明可以应用于航天器对多拦截器的自主规避。
Description
技术领域
本发明属于反拦截技术领域,具体涉及一种基于强化学习的航天器对多拦截器自主规避机动方法。
背景技术
国外早在上世纪70年代就已经展开了机动规避技术研究,多是基于简化运动模型进行分析,并且仅对特殊轨迹点设计机动规避策略。国内早期研究集中在仿真建模方向,基于运动学约束建立了大量拦截器规避仿真系统。在此基础上有学者提出了基于微分对策的机动规避策略、基于最优控制的脉冲规避策略等方法,这些方法均为数学模型基础上的离线规划方法,不具备自主性。航天器在轨运行期间使用上述方法预先规划规避路径,然后利用程序式机动方式实现运动轨迹改变,但此类程序式机动对多拦截器规避成功率较低。
发明内容
本发明的目的是为了解决现有航天器程序式机动对多拦截器规避成功率低的问题,而提出了一种基于强化学习的航天器对多拦截器自主规避机动方法。
本发明为解决上述技术问题采取的技术方案是:一种基于强化学习的航天器对多拦截器自主规避机动方法,该方法包括以下步骤:
步骤一:分别建立航天器和拦截器的空间动力学模型;
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。
本发明的有益效果是:
本发明的目的在于提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法,由两个部分组成,分别为离线训练系统和在线决策网络,其对航天器自身计算资源使用较少,具备实时决策能力,提升了航天器对多拦截器的规避成功率。
本发明实验采用不同导引系数拦截器对航天器进行拦截,最终实验得到:当航天器采用随机机动策略时规避机动平均成功率为20%,当航天器采用本发明所述自主规避机动方法时规避机动平均成功率为49%,规避成功率提高了29%。该方法能够有效降低规避过程中发动机开关时间,使用能量更为节省。
附图说明
图1是自学习训练系统运行的流程图;
图2是每个智能体拥有的两个Actor网络和两个Critic网络的网络结构图;
图3是平均回报值训练曲线图;
图4是每100次规避机动成功次数曲线图;
图5是五千回合发动机开关曲线图;
图6是一万回合发动机开关曲线图。
具体实施方式
具体实施方式一:本实施方式所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,该方法具体通过以下步骤实现:
步骤一:分别建立航天器和拦截器的空间动力学模型;
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。
本发明利用仿真系统自动生成实验数据,该方法利用大量仿真案例训练深度神经网络以提高规避成功率。主规避机动方法有两个阶段:训练和决策。训练过程中会进行大量计算操作,需要离线进行。决策过程资源消耗率小,利用训练好的深度神经网络即可在线实施自主规避机动决策。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一分别建立航天器和拦截器的空间动力学模型,其具体过程为:
在地心惯性坐标系下,航天器的空间动力学模型为:
其中,为航天器的空间位置矢量,rM为对应的标量,mM为航天器的瞬时质量,TM为航天器发动机合推力大小,为航天器发动机合推力方向单位矢量,μ是地球引力常数,取值3.986×105km3/s2;为的二阶导数,为摄动加速度矢量,本发明中设为常值;
航天器的质量变化率为:
在地心惯性坐标系下,拦截器的空间动力学模型为:
拦截器的质量变化率为:
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二中,根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型,其具体过程为:
根据步骤一建立的航天器和拦截器的空间动力学模型,得到航天器与拦截器的相对运动模型为:
为了简化计算,仅以最大弹目视线角与饱和机动过载为约束,不考虑噪声等扰动问题。将(5)式沿弹目视线方向和垂直弹目视线方向进行分解得到:
式中,rrel为航天器与拦截器的相对距离,为rrel的一阶导数,vrel为航天器与拦截器的相对速度,为vrel的一阶导数,q为弹目视线角,为弹目视线角速率,为弹目视线角加速度,下标r,θ分别代表沿弹目视线方向分量和垂直弹目视线方向分量;
其中,k为比例导引系数。
为了扩大样本算例,本发明在仿真中随机选取[3,5]范围内导引系数。
具体实施方式四:本实施方式与具体实施方式三不同的是:所述分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型,其具体过程为:
自主规避机动智能体决策的目的是在当前状态下选择最优动作,通过一系列连续决策可以使系统达到最终理想状态,过程满足随机序贯决策特征。
将航天器规避机动决策过程看作引入了动作和奖励的马尔科夫过程,利用五元组(S,A,T,p,γ)描述,其中S是过程演化的状态空间,A是动作集合,T是时间步骤集合,p为转移概率函数,γ为状态转换的回报函数;
对于本发明中多智能体系统:
在每一决策时刻t,有限动作空间得到的一步状态转移概率矩阵Pt为:
其中,sN为第N个智能体当前时刻状态,N代表智能体的总个数,本发明中N=4,第N个智能体执行动作{aN,1,...,aN,M}后进入新状态s'N,M为可选动作总数;si为第i个智能体当前时刻状态,i=1,2,…,N,ai,j为第i个智能体可选的第j个动作,j=1,2,…,M,pi(s′i|si,ai,j)代表第i个智能体执行动作ai,j到达新状态s′i的概率;
回报矩阵Rt和总回报值V(s)分别为:
其中:γi(si,ai,j)为第i个智能体在当前状态si执行动作ai,j的回报值,i=1,2,…,N;
定义确定性策略π为状态到动作的映射函数,即:
其中:πi(si)为在当前状态si执行动作ai,j的策略。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤四根据强化学习理论建立多智能体自主决策训练系统,其具体过程为:
多智能体协同自主规避机动决策训练系统的目的是通过自学习找到最优策略π*,使得总回报值最高;
本发明强化学习训练系统中,网络结构如图2所示,每个智能体各自拥有两个Actor网络和两个Critic网络,其中ActorO网络和CriticO网络用于与环境交互产生经验样本,ActorT网络和CriticT网络用于优化策略梯度并重复训练经验样本,训练获得的ActorT网络即为最优策略的逼近网络;
多智能体自主决策训练系统的训练目标是:得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的ActorT网络参数:
θ=argmaxJ(θ)
其中,J(θi)为第i个智能体的期望收益,L(θi)为第i个智能体的期望误差,θ={θ1,...,θN},θ1为得到的第1个智能体的ActorT网络参数;用参数θ={θ1,...,θN}分别建立神经网络逼近各策略函数;其中,期望误差用于更新Critic网络参数;
对于特定策略π,总回报函数满足贝尔曼方程递归性:
其中,是折扣因子,s∈S,a∈A分别为状态和动作的简化表示,Vπ(s)为当前状态s在特定策略π下的总回报值,上式表明通过状态递归可以唯一确定Vπ(s)值,且该值仅与给定策略相对应;Vπ(s')为下一状态s'在特定策略π下的总回报值;
将策略π扩展为N个智能体的策略集合π={π1,...,πN};
建立经验池D={s,s',a1,...,a4,Rt}用于记录优秀案例。定期抽取经验池中案例训练ActorO和CriticO网络使其更快收敛于最优。
在训练过程中因为每个Critic将全局状态和所有智能体的动作都用于总期望收益更新,所以第i个智能体最终得到的最优策略与其余智能体策略是相关联的,因此训练结果具有协同效果。图1为自学习训练系统运行的流程图。
为了提高算法执行效率,本发明设计了以最近弹目距离dT和突防机动总时间tp为相关参数的回报函数:
其中,将距离压缩成与时间接近数量级,2m是拦截器有效碰撞范围。
具体实施方式六:本实施方式与具体实施方式五不同的是:所述Actor网络和CriticT网络均采用全连接网络模型;
每个Actor网络有4*6个输入节点,分别对应于四个拦截器的相对位置矢量和相对速度矢量;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,对应于航天器发动机开关状态;
每个Critic网络有4*6+N+1个输入节点,除了四个拦截器的相对位置矢量和相对速度矢量外,还加入了N个智能体的动作信息和一个当前联合动作回报值;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,产生评价值。
步骤五的具体过程为:
操作系统环境为Windows10 x64,使用软件工具包版本为TensorFlow 2.1.0。硬件信息为Intel i5-9600K、GTX1060、DDR4 16GB、240GB SSD。网络训练环境是基于Python3.7参照建立的动力学模型搭建而成。仿真验证和数据处理均在Matlab 2018b环境下实现。
为方便描述训练过程,设计如下仿真场景:初始时刻1枚航天器和4枚拦截器均处于无控状态,且不受外力影响。航天器与多拦截器几何形心的距离约为200km,在算例中用J2000惯性坐标系设定航天器初始参数为[1394.643,6895.102,3388.151,-6.684,0.113,2.520](位置km,速度km/s);设定多拦截器中心初始参数为[1199.390,6911.160,3429.923,5.517,-0.889,-0.0904](位置km,速度km/s)。由于训练过程中使用相对位置和速度作为输入,所以训练成型的突防决策网络对空间位置初值具有普遍适用性。
设定每个拦截器质量为5kg,其中装载推进剂1kg,四台“十字布局”轨控发动机每台推力为138N,比冲2760m/s,最大初速为8km/s。多拦截器在同时拦截场景下以半径为1km分布,序列拦截场景下初速度方向不同导致拦截时刻差异。航天器初始质量为380kg,其中推进剂质量为80kg,脉冲发动机推力8200N,比冲2050m/s。运动学仿真步长设置为0.1s。设定最大训练回合数为1万次。
采用以下实施例验证本发明的有益效果:
实施例一:
1)实验环境
采用步骤五中描述仿真实验环境。
2)实验结果及分析
通过本发明步骤五训练得到如图3所示的平均回报曲线,由图3中可以看出,本发明所提出的协同训练算法在4000回合附近开始收敛;
为验证算法有效性,取每100回合训练所得网络进行规避机动决策仿真,使用随机开启单一发动机的机动策略模仿传统程序式方法做规避对比算法。得到如图4所示百次规避成功次数与训练回合数关系曲线。从曲线可以看出,本发明所述方法最终规避成功率约为49%,相比随机机动规避方法(成功率约为20%)的规避成功率提高了29%。说明本算法能够大幅度提高航天器的对多拦截器的规避能力。
为了直观展示训练结果,分别使用5千和1万回合训练成型的ActorT决策网络进行同一场景下规避机动仿真,得到如图5和图6所示的发动机开关曲线。特别说明,为了结果信息便于查看,将发动机开关阶跃曲线峰值进行错位调整,同时将3、4号发动机开关数值取反。由图5和图6中可以看出,随着训练回合数的增加,规避机动智能体学会了推迟初始机动时刻,同时大量减少了发动机开关次数。证明了本发明的有效性。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (5)
1.一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,该方法包括以下步骤:
步骤一:分别建立航天器和拦截器的空间动力学模型;其具体过程为:
在地心惯性坐标系下,航天器的空间动力学模型为:
航天器的质量变化率为:
在地心惯性坐标系下,拦截器的空间动力学模型为:
拦截器的质量变化率为:
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。
2.根据权利要求1所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述步骤二中,根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型,其具体过程为:
根据步骤一建立的航天器和拦截器的空间动力学模型,得到航天器与拦截器的相对运动模型为:
将(5)式沿弹目视线方向和垂直弹目视线方向进行分解得到:
式中,rrel为航天器与拦截器的相对距离,为rrel的一阶导数,vrel为航天器与拦截器的相对速度,为vrel的一阶导数,q为弹目视线角,为弹目视线角速率,为弹目视线角加速度,下标r,θ分别代表沿弹目视线方向分量和垂直弹目视线方向分量;
其中,k为比例导引系数。
3.根据权利要求2所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型,其具体过程为:
将航天器规避机动决策过程看作引入了动作和奖励的马尔科夫过程,利用五元组(S,A,T,p,γ)描述,其中S是过程演化的状态空间,A是动作集合,T是时间步骤集合,p为转移概率函数,γ为状态转换的回报函数;
在每一决策时刻t,有限动作空间得到的一步状态转移概率矩阵Pt为:
其中,sN为第N个智能体当前时刻状态,N代表智能体的总个数,第N个智能体执行动作{aN,1,...,aN,M}后进入新状态s′N,M为可选动作总数;si为第i个智能体当前时刻状态,i=1,2,…,N,ai,j为第i个智能体可选的第j个动作,j=1,2,…,M,pi(s′i|si,ai,j)代表第i个智能体执行动作ai,j到达新状态s′i的概率;
回报矩阵Rt和总回报值V(s)分别为:
其中:γi(si,ai,j)为第i个智能体在当前状态si执行动作ai,j的回报值,i=1,2,…,N;
定义确定性策略π为状态到动作的映射函数,即:
其中:πi(si)为在当前状态si执行动作ai,j的策略。
4.根据权利要求3所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述步骤四根据强化学习理论建立多智能体自主决策训练系统,其具体过程为:
每个智能体各自拥有两个Actor网络和两个Critic网络,其中ActorO网络和CriticO网络用于与环境交互产生经验样本,ActorT网络和CriticT网络用于优化策略梯度并重复训练经验样本,训练获得的ActorT网络即为最优策略的逼近网络;
多智能体自主决策训练系统的训练目标是:得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的ActorT网络参数:
其中,J(θi)为第i个智能体的期望收益,L(θi)为第i个智能体的期望误差,θ={θ1,...,θN},θ1为得到的第1个智能体的ActorT网络参数;
对于特定策略π,总回报函数满足贝尔曼方程递归性:
将策略π扩展为N个智能体的策略集合π={π1,...,πN};
其中,策略π'i是第i个智能体的延迟目标策略;Vi π'是包含了全局信息的延迟回报函数。
5.根据权利要求4所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述Actor网络和CriticT网络均采用全连接网络模型;
每个Actor网络有4*6个输入节点,分别对应于四个拦截器的相对位置矢量和相对速度矢量;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,对应于航天器发动机开关状态;
每个Critic网络有4*6+N+1个输入节点,除了四个拦截器的相对位置矢量和相对速度矢量外,还加入了N个智能体的动作信息和一个当前联合动作回报值;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,产生评价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857495.5A CN112001120B (zh) | 2020-08-24 | 2020-08-24 | 一种基于强化学习的航天器对多拦截器自主规避机动方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857495.5A CN112001120B (zh) | 2020-08-24 | 2020-08-24 | 一种基于强化学习的航天器对多拦截器自主规避机动方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001120A CN112001120A (zh) | 2020-11-27 |
CN112001120B true CN112001120B (zh) | 2022-03-01 |
Family
ID=73470277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010857495.5A Active CN112001120B (zh) | 2020-08-24 | 2020-08-24 | 一种基于强化学习的航天器对多拦截器自主规避机动方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001120B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113353289B (zh) * | 2021-04-25 | 2022-12-13 | 北京控制工程研究所 | 面向空间博弈的自主驱离方法、装置和存储介质 |
CN113485117B (zh) * | 2021-07-28 | 2024-03-15 | 沈阳航空航天大学 | 基于输入输出信息的航空发动机多变量强化学习控制方法 |
CN117755521B (zh) * | 2023-04-17 | 2024-09-20 | 哈尔滨工业大学 | 一种拦截随机机动目标航天器的深度强化学习制导律 |
CN118192263A (zh) * | 2024-04-22 | 2024-06-14 | 北京航空航天大学 | 一种基于安全强化学习的航天器交会对接控制方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519958A (zh) * | 2018-02-05 | 2018-09-11 | 中国人民解放军国防科技大学 | 一种解析构造航天器追逃界栅和判断捕获逃逸区域的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8436283B1 (en) * | 2008-07-11 | 2013-05-07 | Davidson Technologies Inc. | System and method for guiding and controlling a missile using high order sliding mode control |
-
2020
- 2020-08-24 CN CN202010857495.5A patent/CN112001120B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519958A (zh) * | 2018-02-05 | 2018-09-11 | 中国人民解放军国防科技大学 | 一种解析构造航天器追逃界栅和判断捕获逃逸区域的方法 |
Non-Patent Citations (2)
Title |
---|
天基发射远程拦截组合机动路径规划;闫循良等;《固体火箭技术》;20130415(第02期);全文 * |
航天器远程最优拦截方法研究;符俊等;《固体火箭技术》;20111215(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001120A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001120B (zh) | 一种基于强化学习的航天器对多拦截器自主规避机动方法 | |
CN111413966B (zh) | 一种递进式模型预测无人驾驶规划跟踪协同控制方法 | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN113093802A (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN114415730B (zh) | 航天器逃逸轨迹智能规划方法 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN118170167B (zh) | 一种航天器多脉冲追击轨道智能优化方法 | |
CN116243727A (zh) | 一种渐进式深度强化学习的无人载具对抗与避障方法 | |
CN115542733A (zh) | 基于深度强化学习的自适应动态窗口法 | |
CN115098939A (zh) | 一种航天器脉冲机动鲁棒追击方法 | |
CN116991067A (zh) | 一种脉冲式轨道追逃拦协同博弈智能决策控制方法 | |
Yang et al. | Impact time control guidance law with time-varying velocity based on deep reinforcement learning | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Sun et al. | Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments | |
Zhang et al. | Situational continuity-based air combat autonomous maneuvering decision-making | |
Li et al. | Improved Q-learning based route planning method for UAVs in unknown environment | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
Wu et al. | Multi-phase trajectory optimization for an aerial-aquatic vehicle considering the influence of navigation error | |
Li et al. | Path planning and obstacle avoidance control of UUV based on an enhanced A* algorithm and MPC in dynamic environment | |
CN116449714B (zh) | 一种多航天器追捕博弈轨道控制方法 | |
CN111007848A (zh) | 一种基于有界空间的多智能体协同作业控制方法 | |
CN115320890A (zh) | 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 | |
Zhang et al. | DRL-based target interception strategy design for an underactuated USV without obstacle collision | |
CN111552317A (zh) | 一种多航天器四维协同轨迹确定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |