CN112001120B - 一种基于强化学习的航天器对多拦截器自主规避机动方法 - Google Patents

一种基于强化学习的航天器对多拦截器自主规避机动方法 Download PDF

Info

Publication number
CN112001120B
CN112001120B CN202010857495.5A CN202010857495A CN112001120B CN 112001120 B CN112001120 B CN 112001120B CN 202010857495 A CN202010857495 A CN 202010857495A CN 112001120 B CN112001120 B CN 112001120B
Authority
CN
China
Prior art keywords
spacecraft
interceptor
agent
engine
autonomous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010857495.5A
Other languages
English (en)
Other versions
CN112001120A (zh
Inventor
白成超
郭继峰
郑红星
赵毓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010857495.5A priority Critical patent/CN112001120B/zh
Publication of CN112001120A publication Critical patent/CN112001120A/zh
Application granted granted Critical
Publication of CN112001120B publication Critical patent/CN112001120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于强化学习的航天器对多拦截器自主规避机动方法,它属于反拦截技术领域。本发明解决了现有航天器程序式机动对多拦截器规避成功率低的问题。本发明提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法,由两个部分组成,分别为离线训练系统和在线决策网络,其对航天器自身计算资源使用较少,具备实时决策能力,提升了航天器对多拦截器的规避成功率。当航天器采用本发明所述自主规避机动方法时规避机动平均成功率为49%,规避成功率提高了29%。该方法能够有效降低规避过程中发动机开关时间,使用能量更为节省。本发明可以应用于航天器对多拦截器的自主规避。

Description

一种基于强化学习的航天器对多拦截器自主规避机动方法
技术领域
本发明属于反拦截技术领域,具体涉及一种基于强化学习的航天器对多拦截器自主规避机动方法。
背景技术
国外早在上世纪70年代就已经展开了机动规避技术研究,多是基于简化运动模型进行分析,并且仅对特殊轨迹点设计机动规避策略。国内早期研究集中在仿真建模方向,基于运动学约束建立了大量拦截器规避仿真系统。在此基础上有学者提出了基于微分对策的机动规避策略、基于最优控制的脉冲规避策略等方法,这些方法均为数学模型基础上的离线规划方法,不具备自主性。航天器在轨运行期间使用上述方法预先规划规避路径,然后利用程序式机动方式实现运动轨迹改变,但此类程序式机动对多拦截器规避成功率较低。
发明内容
本发明的目的是为了解决现有航天器程序式机动对多拦截器规避成功率低的问题,而提出了一种基于强化学习的航天器对多拦截器自主规避机动方法。
本发明为解决上述技术问题采取的技术方案是:一种基于强化学习的航天器对多拦截器自主规避机动方法,该方法包括以下步骤:
步骤一:分别建立航天器和拦截器的空间动力学模型;
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。
本发明的有益效果是:
本发明的目的在于提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法,由两个部分组成,分别为离线训练系统和在线决策网络,其对航天器自身计算资源使用较少,具备实时决策能力,提升了航天器对多拦截器的规避成功率。
本发明实验采用不同导引系数拦截器对航天器进行拦截,最终实验得到:当航天器采用随机机动策略时规避机动平均成功率为20%,当航天器采用本发明所述自主规避机动方法时规避机动平均成功率为49%,规避成功率提高了29%。该方法能够有效降低规避过程中发动机开关时间,使用能量更为节省。
附图说明
图1是自学习训练系统运行的流程图;
图2是每个智能体拥有的两个Actor网络和两个Critic网络的网络结构图;
图3是平均回报值训练曲线图;
图4是每100次规避机动成功次数曲线图;
图5是五千回合发动机开关曲线图;
图6是一万回合发动机开关曲线图。
具体实施方式
具体实施方式一:本实施方式所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,该方法具体通过以下步骤实现:
步骤一:分别建立航天器和拦截器的空间动力学模型;
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。
本发明利用仿真系统自动生成实验数据,该方法利用大量仿真案例训练深度神经网络以提高规避成功率。主规避机动方法有两个阶段:训练和决策。训练过程中会进行大量计算操作,需要离线进行。决策过程资源消耗率小,利用训练好的深度神经网络即可在线实施自主规避机动决策。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一分别建立航天器和拦截器的空间动力学模型,其具体过程为:
在地心惯性坐标系下,航天器的空间动力学模型为:
Figure BDA0002646942150000031
其中,
Figure BDA0002646942150000032
为航天器的空间位置矢量,rM
Figure BDA0002646942150000033
对应的标量,mM为航天器的瞬时质量,TM为航天器发动机合推力大小,
Figure BDA0002646942150000034
为航天器发动机合推力方向单位矢量,μ是地球引力常数,取值3.986×105km3/s2
Figure BDA0002646942150000035
Figure BDA0002646942150000036
的二阶导数,
Figure BDA0002646942150000037
为摄动加速度矢量,本发明中设为常值;
航天器的质量变化率为:
Figure BDA0002646942150000038
其中,
Figure BDA0002646942150000039
为航天器质量变化率,Isp,M为航天器发动机比冲,g0为重力加速度常数,取值9.80m/s2
在地心惯性坐标系下,拦截器的空间动力学模型为:
Figure BDA00026469421500000310
其中,
Figure BDA00026469421500000311
为拦截器的空间位置矢量,rI
Figure BDA00026469421500000312
对应的标量,mI为拦截器的瞬时质量,TI为拦截器发动机合推力大小,
Figure BDA00026469421500000313
为拦截器发动机合推力方向单位矢量,
Figure BDA00026469421500000314
Figure BDA00026469421500000315
的二阶导数;
拦截器的质量变化率为:
Figure BDA00026469421500000316
其中,
Figure BDA00026469421500000317
为拦截器质量变化率,Isp,I为拦截器发动机比冲。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二中,根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型,其具体过程为:
根据步骤一建立的航天器和拦截器的空间动力学模型,得到航天器与拦截器的相对运动模型为:
Figure BDA0002646942150000041
其中,
Figure BDA0002646942150000042
为航天器发动机合推力矢量,
Figure BDA0002646942150000043
为拦截器发动机合推力矢量;
为了简化计算,仅以最大弹目视线角与饱和机动过载为约束,不考虑噪声等扰动问题。将(5)式沿弹目视线方向和垂直弹目视线方向进行分解得到:
Figure BDA0002646942150000044
式中,rrel为航天器与拦截器的相对距离,
Figure BDA0002646942150000045
为rrel的一阶导数,vrel为航天器与拦截器的相对速度,
Figure BDA0002646942150000046
为vrel的一阶导数,q为弹目视线角,
Figure BDA0002646942150000047
为弹目视线角速率,
Figure BDA0002646942150000048
为弹目视线角加速度,下标r,θ分别代表沿弹目视线方向分量和垂直弹目视线方向分量;
真比例导引的指令加速度a垂直于弹目视线方向,a与相对速度vrel和弹目视线角速率
Figure BDA0002646942150000049
成正比,即有:
Figure BDA00026469421500000410
其中,k为比例导引系数。
为了扩大样本算例,本发明在仿真中随机选取[3,5]范围内导引系数。
具体实施方式四:本实施方式与具体实施方式三不同的是:所述分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型,其具体过程为:
自主规避机动智能体决策的目的是在当前状态下选择最优动作,通过一系列连续决策可以使系统达到最终理想状态,过程满足随机序贯决策特征。
将航天器规避机动决策过程看作引入了动作和奖励的马尔科夫过程,利用五元组(S,A,T,p,γ)描述,其中S是过程演化的状态空间,A是动作集合,T是时间步骤集合,p为转移概率函数,γ为状态转换的回报函数;
对于本发明中多智能体系统:
在每一决策时刻t,有限动作空间得到的一步状态转移概率矩阵Pt为:
Figure BDA0002646942150000051
Figure BDA0002646942150000052
其中,sN为第N个智能体当前时刻状态,N代表智能体的总个数,本发明中N=4,第N个智能体执行动作{aN,1,...,aN,M}后进入新状态s'N,M为可选动作总数;si为第i个智能体当前时刻状态,i=1,2,…,N,ai,j为第i个智能体可选的第j个动作,j=1,2,…,M,pi(s′i|si,ai,j)代表第i个智能体执行动作ai,j到达新状态s′i的概率;
回报矩阵Rt和总回报值V(s)分别为:
Figure BDA0002646942150000053
Figure BDA0002646942150000054
其中:γi(si,ai,j)为第i个智能体在当前状态si执行动作ai,j的回报值,i=1,2,…,N;
定义确定性策略π为状态到动作的映射函数,即:
Figure BDA0002646942150000055
其中:πi(si)为在当前状态si执行动作ai,j的策略。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤四根据强化学习理论建立多智能体自主决策训练系统,其具体过程为:
多智能体协同自主规避机动决策训练系统的目的是通过自学习找到最优策略π*,使得总回报值最高;
本发明强化学习训练系统中,网络结构如图2所示,每个智能体各自拥有两个Actor网络和两个Critic网络,其中ActorO网络和CriticO网络用于与环境交互产生经验样本,ActorT网络和CriticT网络用于优化策略梯度并重复训练经验样本,训练获得的ActorT网络即为最优策略的逼近网络;
多智能体自主决策训练系统的训练目标是:得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的ActorT网络参数:
Figure BDA0002646942150000061
Figure BDA0002646942150000062
θ=argmaxJ(θ)
其中,J(θi)为第i个智能体的期望收益,L(θi)为第i个智能体的期望误差,θ={θ1,...,θN},θ1为得到的第1个智能体的ActorT网络参数;用参数θ={θ1,...,θN}分别建立神经网络逼近各策略函数;其中,期望误差用于更新Critic网络参数;
对于特定策略π,总回报函数满足贝尔曼方程递归性:
Figure BDA0002646942150000063
其中,
Figure BDA0002646942150000064
是折扣因子,
Figure BDA0002646942150000065
s∈S,a∈A分别为状态和动作的简化表示,Vπ(s)为当前状态s在特定策略π下的总回报值,上式表明通过状态递归可以唯一确定Vπ(s)值,且该值仅与给定策略相对应;Vπ(s')为下一状态s'在特定策略π下的总回报值;
将策略π扩展为N个智能体的策略集合π={π1,...,πN};
由式(12)给出第i个智能体的期望收益J(θi)与期望收益梯度
Figure BDA0002646942150000066
Figure BDA0002646942150000067
式中,πi是第i个智能体的即时策略,利用ActorO网络逼近;
Figure BDA0002646942150000068
是包含了全局信息的回报函数,利用CriticO网络逼近;获得梯度后采用Adam优化器进行网络参数更新。
Figure BDA0002646942150000069
的期望误差用下式更新:
Figure BDA00026469421500000610
其中,策略π'i是第i个智能体的延迟目标策略;
Figure BDA0002646942150000071
是包含了全局信息的延迟回报函数。
建立经验池D={s,s',a1,...,a4,Rt}用于记录优秀案例。定期抽取经验池中案例训练ActorO和CriticO网络使其更快收敛于最优。
在训练过程中因为每个Critic将全局状态和所有智能体的动作都用于总期望收益更新,所以第i个智能体最终得到的最优策略与其余智能体策略是相关联的,因此训练结果具有协同效果。图1为自学习训练系统运行的流程图。
为了提高算法执行效率,本发明设计了以最近弹目距离dT和突防机动总时间tp为相关参数的回报函数:
Figure BDA0002646942150000072
其中,将距离压缩成与时间接近数量级,2m是拦截器有效碰撞范围。
具体实施方式六:本实施方式与具体实施方式五不同的是:所述Actor网络和CriticT网络均采用全连接网络模型;
每个Actor网络有4*6个输入节点,分别对应于四个拦截器的相对位置矢量和相对速度矢量;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,对应于航天器发动机开关状态;
每个Critic网络有4*6+N+1个输入节点,除了四个拦截器的相对位置矢量和相对速度矢量外,还加入了N个智能体的动作信息和一个当前联合动作回报值;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,产生评价值。
步骤五的具体过程为:
操作系统环境为Windows10 x64,使用软件工具包版本为TensorFlow 2.1.0。硬件信息为Intel i5-9600K、GTX1060、DDR4 16GB、240GB SSD。网络训练环境是基于Python3.7参照建立的动力学模型搭建而成。仿真验证和数据处理均在Matlab 2018b环境下实现。
为方便描述训练过程,设计如下仿真场景:初始时刻1枚航天器和4枚拦截器均处于无控状态,且不受外力影响。航天器与多拦截器几何形心的距离约为200km,在算例中用J2000惯性坐标系设定航天器初始参数为[1394.643,6895.102,3388.151,-6.684,0.113,2.520](位置km,速度km/s);设定多拦截器中心初始参数为[1199.390,6911.160,3429.923,5.517,-0.889,-0.0904](位置km,速度km/s)。由于训练过程中使用相对位置和速度作为输入,所以训练成型的突防决策网络对空间位置初值具有普遍适用性。
设定每个拦截器质量为5kg,其中装载推进剂1kg,四台“十字布局”轨控发动机每台推力为138N,比冲2760m/s,最大初速为8km/s。多拦截器在同时拦截场景下以半径为1km分布,序列拦截场景下初速度方向不同导致拦截时刻差异。航天器初始质量为380kg,其中推进剂质量为80kg,脉冲发动机推力8200N,比冲2050m/s。运动学仿真步长设置为0.1s。设定最大训练回合数为1万次。
采用以下实施例验证本发明的有益效果:
实施例一:
1)实验环境
采用步骤五中描述仿真实验环境。
2)实验结果及分析
通过本发明步骤五训练得到如图3所示的平均回报曲线,由图3中可以看出,本发明所提出的协同训练算法在4000回合附近开始收敛;
为验证算法有效性,取每100回合训练所得网络进行规避机动决策仿真,使用随机开启单一发动机的机动策略模仿传统程序式方法做规避对比算法。得到如图4所示百次规避成功次数与训练回合数关系曲线。从曲线可以看出,本发明所述方法最终规避成功率约为49%,相比随机机动规避方法(成功率约为20%)的规避成功率提高了29%。说明本算法能够大幅度提高航天器的对多拦截器的规避能力。
为了直观展示训练结果,分别使用5千和1万回合训练成型的ActorT决策网络进行同一场景下规避机动仿真,得到如图5和图6所示的发动机开关曲线。特别说明,为了结果信息便于查看,将发动机开关阶跃曲线峰值进行错位调整,同时将3、4号发动机开关数值取反。由图5和图6中可以看出,随着训练回合数的增加,规避机动智能体学会了推迟初始机动时刻,同时大量减少了发动机开关次数。证明了本发明的有效性。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (5)

1.一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,该方法包括以下步骤:
步骤一:分别建立航天器和拦截器的空间动力学模型;其具体过程为:
在地心惯性坐标系下,航天器的空间动力学模型为:
Figure FDA0003377053020000011
其中,
Figure FDA0003377053020000012
为航天器的空间位置矢量,rM
Figure FDA0003377053020000013
对应的标量,mM为航天器的瞬时质量,TM为航天器发动机合推力大小,
Figure FDA0003377053020000014
为航天器发动机合推力方向单位矢量,μ是地球引力常数,
Figure FDA0003377053020000015
Figure FDA0003377053020000016
的二阶导数,
Figure FDA0003377053020000017
为摄动加速度矢量;
航天器的质量变化率为:
Figure FDA0003377053020000018
其中,
Figure FDA0003377053020000019
为航天器质量变化率,Isp,M为航天器发动机比冲,g0为重力加速度常数;
在地心惯性坐标系下,拦截器的空间动力学模型为:
Figure FDA00033770530200000110
其中,
Figure FDA00033770530200000111
为拦截器的空间位置矢量,rI
Figure FDA00033770530200000112
对应的标量,mI为拦截器的瞬时质量,TI为拦截器发动机合推力大小,
Figure FDA00033770530200000113
为拦截器发动机合推力方向单位矢量,
Figure FDA00033770530200000114
Figure FDA00033770530200000115
的二阶导数;
拦截器的质量变化率为:
Figure FDA00033770530200000116
其中,
Figure FDA00033770530200000117
为拦截器质量变化率,Isp,I为拦截器发动机比冲;
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。
2.根据权利要求1所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述步骤二中,根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型,其具体过程为:
根据步骤一建立的航天器和拦截器的空间动力学模型,得到航天器与拦截器的相对运动模型为:
Figure FDA0003377053020000021
其中,
Figure FDA0003377053020000022
为航天器发动机合推力矢量,
Figure FDA0003377053020000023
为拦截器发动机合推力矢量;
将(5)式沿弹目视线方向和垂直弹目视线方向进行分解得到:
Figure FDA0003377053020000024
式中,rrel为航天器与拦截器的相对距离,
Figure FDA0003377053020000025
为rrel的一阶导数,vrel为航天器与拦截器的相对速度,
Figure FDA0003377053020000026
为vrel的一阶导数,q为弹目视线角,
Figure FDA0003377053020000027
为弹目视线角速率,
Figure FDA0003377053020000028
为弹目视线角加速度,下标r,θ分别代表沿弹目视线方向分量和垂直弹目视线方向分量;
真比例导引的指令加速度a垂直于弹目视线方向,a与相对速度vrel和弹目视线角速率
Figure FDA0003377053020000029
成正比,即有:
Figure FDA00033770530200000210
其中,k为比例导引系数。
3.根据权利要求2所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型,其具体过程为:
将航天器规避机动决策过程看作引入了动作和奖励的马尔科夫过程,利用五元组(S,A,T,p,γ)描述,其中S是过程演化的状态空间,A是动作集合,T是时间步骤集合,p为转移概率函数,γ为状态转换的回报函数;
在每一决策时刻t,有限动作空间得到的一步状态转移概率矩阵Pt为:
Figure FDA0003377053020000031
其中,sN为第N个智能体当前时刻状态,N代表智能体的总个数,第N个智能体执行动作{aN,1,...,aN,M}后进入新状态s′N,M为可选动作总数;si为第i个智能体当前时刻状态,i=1,2,…,N,ai,j为第i个智能体可选的第j个动作,j=1,2,…,M,pi(s′i|si,ai,j)代表第i个智能体执行动作ai,j到达新状态s′i的概率;
回报矩阵Rt和总回报值V(s)分别为:
Figure FDA0003377053020000032
其中:γi(si,ai,j)为第i个智能体在当前状态si执行动作ai,j的回报值,i=1,2,…,N;
定义确定性策略π为状态到动作的映射函数,即:
Figure FDA0003377053020000033
其中:πi(si)为在当前状态si执行动作ai,j的策略。
4.根据权利要求3所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述步骤四根据强化学习理论建立多智能体自主决策训练系统,其具体过程为:
每个智能体各自拥有两个Actor网络和两个Critic网络,其中ActorO网络和CriticO网络用于与环境交互产生经验样本,ActorT网络和CriticT网络用于优化策略梯度并重复训练经验样本,训练获得的ActorT网络即为最优策略的逼近网络;
多智能体自主决策训练系统的训练目标是:得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的ActorT网络参数:
Figure FDA0003377053020000041
其中,J(θi)为第i个智能体的期望收益,L(θi)为第i个智能体的期望误差,θ={θ1,...,θN},θ1为得到的第1个智能体的ActorT网络参数;
对于特定策略π,总回报函数满足贝尔曼方程递归性:
Figure FDA0003377053020000042
其中,
Figure FDA0003377053020000043
是折扣因子,
Figure FDA0003377053020000044
s∈S,a∈A分别为状态和动作的简化表示,Vπ(s)为当前状态s在特定策略π下的总回报值,Vπ(s')为下一状态s'在特定策略π下的总回报值;
将策略π扩展为N个智能体的策略集合π={π1,...,πN};
由式(12)给出第i个智能体的期望收益J(θi)与期望收益梯度
Figure FDA0003377053020000045
Figure FDA0003377053020000046
式中,πi是第i个智能体的即时策略,
Figure FDA0003377053020000047
是包含了全局信息的回报函数,
Figure FDA0003377053020000048
的期望误差用下式更新:
Figure FDA0003377053020000049
其中,策略π'i是第i个智能体的延迟目标策略;Vi π'是包含了全局信息的延迟回报函数。
5.根据权利要求4所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述Actor网络和CriticT网络均采用全连接网络模型;
每个Actor网络有4*6个输入节点,分别对应于四个拦截器的相对位置矢量和相对速度矢量;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,对应于航天器发动机开关状态;
每个Critic网络有4*6+N+1个输入节点,除了四个拦截器的相对位置矢量和相对速度矢量外,还加入了N个智能体的动作信息和一个当前联合动作回报值;两个隐层各64个节点,激活函数为sigmoid函数;输出层为单节点,产生评价值。
CN202010857495.5A 2020-08-24 2020-08-24 一种基于强化学习的航天器对多拦截器自主规避机动方法 Active CN112001120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010857495.5A CN112001120B (zh) 2020-08-24 2020-08-24 一种基于强化学习的航天器对多拦截器自主规避机动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010857495.5A CN112001120B (zh) 2020-08-24 2020-08-24 一种基于强化学习的航天器对多拦截器自主规避机动方法

Publications (2)

Publication Number Publication Date
CN112001120A CN112001120A (zh) 2020-11-27
CN112001120B true CN112001120B (zh) 2022-03-01

Family

ID=73470277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010857495.5A Active CN112001120B (zh) 2020-08-24 2020-08-24 一种基于强化学习的航天器对多拦截器自主规避机动方法

Country Status (1)

Country Link
CN (1) CN112001120B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113353289B (zh) * 2021-04-25 2022-12-13 北京控制工程研究所 面向空间博弈的自主驱离方法、装置和存储介质
CN113485117B (zh) * 2021-07-28 2024-03-15 沈阳航空航天大学 基于输入输出信息的航空发动机多变量强化学习控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519958A (zh) * 2018-02-05 2018-09-11 中国人民解放军国防科技大学 一种解析构造航天器追逃界栅和判断捕获逃逸区域的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8436283B1 (en) * 2008-07-11 2013-05-07 Davidson Technologies Inc. System and method for guiding and controlling a missile using high order sliding mode control

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519958A (zh) * 2018-02-05 2018-09-11 中国人民解放军国防科技大学 一种解析构造航天器追逃界栅和判断捕获逃逸区域的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
天基发射远程拦截组合机动路径规划;闫循良等;《固体火箭技术》;20130415(第02期);全文 *
航天器远程最优拦截方法研究;符俊等;《固体火箭技术》;20111215(第06期);全文 *

Also Published As

Publication number Publication date
CN112001120A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN113093802A (zh) 一种基于深度强化学习的无人机机动决策方法
CN112001120B (zh) 一种基于强化学习的航天器对多拦截器自主规避机动方法
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN114415730B (zh) 航天器逃逸轨迹智能规划方法
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
CN116125811A (zh) 基于近端策略优化的航天器多空间碎片避撞自主决策方法
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
CN113156954A (zh) 一种基于增强学习的多智能体集群避障方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
Wang et al. Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Wu et al. Multi-phase trajectory optimization for an aerial-aquatic vehicle considering the influence of navigation error
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN116449714B (zh) 一种多航天器追捕博弈轨道控制方法
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
CN115320890A (zh) 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
CN113050420B (zh) 基于s面控制和td3的auv路径跟踪方法及系统
Yang et al. Impact time control guidance law with time-varying velocity based on deep reinforcement learning
Zhang et al. DRL-based target interception strategy design for an underactuated USV without obstacle collision
CN111552317A (zh) 一种多航天器四维协同轨迹确定方法
Zhao et al. Reinforcement learning based spacecraft autonomous evasive maneuvers method against multi-interceptors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant