CN116430900B - 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 - Google Patents
基于深度强化学习的高超声速弹头的博弈轨迹规划方法 Download PDFInfo
- Publication number
- CN116430900B CN116430900B CN202310491577.6A CN202310491577A CN116430900B CN 116430900 B CN116430900 B CN 116430900B CN 202310491577 A CN202310491577 A CN 202310491577A CN 116430900 B CN116430900 B CN 116430900B
- Authority
- CN
- China
- Prior art keywords
- warhead
- speed
- specifically
- expression
- hypersonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 60
- 230000009471 action Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 39
- 239000000446 fuel Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 claims description 3
- 230000007123 defense Effects 0.000 description 8
- 230000002265 prevention Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000370685 Arge Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/107—Simultaneous control of position or course in three dimensions specially adapted for missiles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法,包括以下步骤:S1、建立高超声速弹头的飞行模型;S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。本发明为了满足高速弹头决策的准确性、实时性和有效性,设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略,开展轨迹规划博弈决策模型抽象及策略训练,实现在线轨迹规划方法。
Description
技术领域
本发明属于导弹航迹规划领域,具体涉及基于深度强化学习的高超声速弹头的博弈轨迹规划方法。
背景技术
高速弹头作为高超声速飞行器的战斗部,其接近于战斗机的外形,在再入大气层后有独特的气动性能。随着高速弹头的不断发展,针对各类高超声速的新技术也不断涌现,所以研究高速弹头的博弈轨迹规划策略刻不容缓。
高速弹头的突防博弈场景有着典型的“信息-物理”分层特征,在弹头突防完成后,由于偏离了原本规划的轨迹,因此需要重新快速规划轨迹,以评估是否仍有不偏离预定目标的能力。随着任务环境的愈加复杂和多维化,高速弹头的拦截和逃逸策略都在从传统博弈转向智能博弈。强化学习方法是一种基于数据的智能学习控制方法,可以通过与环境不断交互来学习策略,根据双方的状态进行决策,因此在复杂任务环境中具有一定的优势。实现高速弹头高胜率博弈轨迹的高效规划,对于推进智能化作战和提高高速弹头作战能效具有重要的理论研究价值和实践意义。
目前,在研究突防策略时,较新颖的为使用微分对策来研究突防策略,微分对策是指两个飞行器或多个飞行器均能在已知情况下实现各自最优目标的对策过程,以达到脱靶量最大最小的目的。目前已有的微分对策研究包括在二维线性化运动条件下研究了躲避比例引导弹的最佳机动策略、有末端路径角约束和具有多个拦截器的最佳机动策略等。
微分对策制导一般很难获得解析解,求其数值解更依靠于大量弹载计算机资源,同时对探测设备的精准探测也有一定要求,而且该方法针对确定性问题的求解,逃逸方飞行器均不能根据战场环境的变化智能自主地做出决策,面对复杂多变且具有不确定信息较多的对抗场景则具有一定局限性。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法解决了现有微分对策进行高速弹头博弈轨迹规划成功率低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法,包括以下步骤:
S1、建立高超声速弹头的飞行模型;
S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;
S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;
S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;
S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。
进一步地:所述S1包括以下分步骤:
S11、基于在位置坐标系下的高超声速弹头,建立面向制导算法的高速弹头质心动力学方程;
S12、求解高速弹头质心动力学方程,并对求解结果进行无量纲处理,得到飞行模型;
S13、根据飞行模型设置状态控制量和约束条件,完成高超声速弹头的飞行模型的建立。
进一步地:所述S12中,飞行模型的表达式具体为:
式中,r为地心距矢量,θ为经度,φ为纬度,V为飞行速度,γ为航迹角,ψ为航向角,σ为倾侧角,Ω为地球自转角速度,R0为地球半径,R0=6378km,g0为重力加速度,g0=9.81m/s2,为r的一阶导数,/>为θ的一阶导数,/>为φ的一阶导数,/>为V的一阶导数,/>为γ的一阶导数,/>为ψ的一阶导数。
进一步地:所述S13中,状态控制量包括状态变量和控制变量,所述状态变量[r,θ,φ,V,γ,ψ,α,σ]T和控制变量的取值具体为:
式中,α为攻角,为攻角的变化率,/>为倾侧角的变化率;
所述约束条件包括过载约束、动压约束和气动热约束;
所述过载约束的表达式具体为下式:
式中,n为高速弹头飞行过程中的过载,L为升力,D为阻力,nmax为最大过载,m为质量;
所述动压约束的表达式具体为下式:
式中,qmax为动压最大值,q为动压,ρ为当地的大气密度;
所述气动热约束的表达式具体为下式:
式中,为热流,/>为热流最大值,kQ为第一参数,kQ=110310/(RN 0.5ρ0 0.5V1 3.15),ρ0为海平面大气密度,V1为第一宇宙速度,RN为飞行器驻点曲率半径。
进一步地:所述S2包括以下分步骤:
S21、建立高速弹头轨迹规划的控制方程;
S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解,在满足状态变量和控制变量取值的约束下对轨迹进行规划,得到最短飞行时间下的控制方程,并将其作为高速弹头轨迹规划的最优控制方程。
进一步地:所述S21中,高速弹头轨迹规划的控制方程的表达式具体为:
式中,tf为飞行时间,t0为初始时间,τ为时域变换后的时间、τ0为时域变换后的初始时间、τf为时域变换后的飞行时间;
所述变换轨迹规划问题时域定义为:
式中,t1为时域变换前的时间;
所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为:
J=ktf+(k-1)vf
式中,vf为打击速度,k为常系数。
进一步地:所述S3中,高速弹头博弈策略包括:建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。
进一步地:所述S3中,高速弹头机动模型action的表达式具体为:
action=[action1,action2,action3]
式中,action1为对攻角进行调整,action2为对侧滑角进行调整,action3为是否开启发动机,其表达式具体为:
action1=[-3,-1,0,1,3]
action2=[-3,-1,0,1,3]
action3=[0,20]
所述拦截器行为模型的导引方程具体为下式:
式中,为拦截器矢量转动的角速度,k1为比例导引系数,/>为目标视线的转动角速度;
所述分析相对运动态势的方法为计算的态势信息,计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为:
式中,(xr、yr、zr)为高速弹头的坐标,(xb、yb、zb)为拦截器的坐标,R为高速弹头与拦截器的距离,Δx为高速弹头与拦截器的x轴坐标差值,Δy为高速弹头与拦截器的y轴坐标差值,Δz为高速弹头与拦截器的z轴坐标差值,vr为高速弹头的速度,vb为拦截器的速度,Δv为高速弹头与拦截器的速度差值;
所述奖励函数包括第一~第六奖励子函数;
所述第一奖励子函数reward的表达式具体为:
式中,C为开启发动机的最多次数,h为高速弹头的飞行高度,hmin为最低飞行高度,fuel1为消耗第一拦截器的燃料质量,fuel2为消耗第二拦截器的燃料质量,time为开发动机的次数,distance为高速弹头与拦截器之间的相对距离;
所述第二奖励子函数rewardfinal的表达式具体为:
式中,vfinal为规划出的飞行轨迹的终端速度值;
所述第三奖励子函数rewardfail1的表达式具体为:
rewardfail1=-100000+(fuel1+fuel2)/120
所述第四奖励子函数rewardfail2的表达式具体为:
rewardfail2=-1000+(fuel1+fuel2)/120
所述第五奖励子函数rewardfail3的表达式具体为:
rewardfail3=-500+(fuel1+fuel2)/120
所述第六奖励子函数reward5的表达式具体为:
reward5=v/100
式中,v为高速弹头的飞行速度;
所述设置深度强化学习算法的网络参数的方法具体为:
设置网络的输入层包括18个节点;
设置网络的隐含层包括线性变换层和100个节点,激活函数为Leaky ReLU;
设置网络的输出层包括线性变换层和1个节点;
设置网络的经验回放池容量为5000,设置网络的批量训练样本容量为128,设置网络的学习率为0.01;
所述观测噪声参数的表达式具体为:
X=x1+o(x1)
其中,X表示对方获取到的姿态信息,x1为真实的姿态信息,o(x1)为该项信息的对应随机误差小量。
进一步地:所述S4中,通过DQN算法训练神经网络的方法具体为:
S41、设置损失函数;
S42、生成数据样本;
S43、根据数据样本计算损失函数;
S44、根据损失函数对神经网络参数进行梯度下降直至收敛,得到训练好的神经网络。
进一步地:所述S42中,数据样本包括若干组数据对;
所述S43中,计算损失函数的表达式具体为:
式中,为第t次迭代的价值函数,n1为数据对的组数,θ2为网络参数,qπk(st,at)为不动点迭代目标,其表达式具体为:
式中,为用于计算不动点迭代的参数,{st,at,r(st,at),st+1}为一组数据对,st,at,r(st,at),st+1均为数据对中的数据,/>为第t+1次迭代的价值函数。
本发明的有益效果为:
(1)本发明提供的基于深度强化学习的高超声速弹头的博弈轨迹规划方法为了满足高速弹头高胜率博弈决策的准确性、实时性和有效性,设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略,信息层根据突防弹和拦截弹的态势信息产生机动策略,物理层根据突防弹动力学进行轨迹规划和执行,将高速弹头的高速弹头博弈策略建模为马尔可夫决策过程,建立包含点火机动和姿态调整的高速弹头机动模型和拦截器行为模型,基于深度强化学习在未知环境下决策出最优策略,开展轨迹规划博弈决策模型抽象及策略训练,实现高胜率博弈的在线轨迹规划方法。
(2)本发明将高速弹头视为智能体进行深度强化学习训练,在仿真环境中对每个算例都进行了3000次的突防对抗,而随着训练的进行,高速弹头轨迹规划成功的概率逐渐增加并保持稳定,可以认为是在这种场景下的最佳概率,在不断迭代计算后,DQN算法下的成功突防概率达到了20%,相较于传统轨迹规划方法,可以更好的完成任务,实现高速弹头机动策略的高效执行。
(3)本发明创新性地将DQN算法加以改进应用在高超声速导弹轨迹规划中,探索系统离散决策和连续控制的耦合机理,开展攻防博弈决策模型的抽象及策略训练,构建智能突防策略,实现动态对抗条件下的灵活高效轨迹规划。
附图说明
图1为本发明的基于深度强化学习的高超声速弹头的博弈轨迹规划方法流程图。
图2为本发明的DQN算法结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,基于深度强化学习的高超声速弹头的博弈轨迹规划方法,包括以下步骤:
S1、建立高超声速弹头的飞行模型;
S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;
S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;
S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;
S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。
所述S1包括以下分步骤:
S11、基于在位置坐标系下的高超声速弹头,建立面向制导算法的高速弹头质心动力学方程;
S12、求解高速弹头质心动力学方程,并对求解结果进行无量纲处理,得到飞行模型;
S13、根据飞行模型设置状态控制量和约束条件,完成高超声速弹头的飞行模型的建立。
所述S12中,飞行模型的表达式具体为:
式中,r为地心距矢量,θ为经度,φ为纬度,V为飞行速度,γ为航迹角,ψ为航向角,σ为倾侧角,Ω为地球自转角速度,R0为地球半径,R0=6378km,g0为重力加速度,g0=9.81m/s2,为r的一阶导数,/>为θ的一阶导数,/>为φ的一阶导数,/>为V的一阶导数,/>为γ的一阶导数,/>为ψ的一阶导数。
获得飞行模型的原理具体为:
建立面向制导算法的三自由度质点运动方程,所述高速弹头质心动力学方程的表达式具体为下式:
求解上式,由于地球扁率引起的摄动力较小,因此忽略地球扁率引起的摄动力得到下式:
为减小求解过程中的数据规模,提高计算效率,对上式进行无量纲处理,得到飞行模型的表达式。
所述S13中,状态控制量包括状态变量和控制变量,所述状态变量[r,θ,φ,V,γ,ψ,α,σ]T和控制变量的取值具体为:
式中,α为攻角,为攻角的变化率,/>为倾侧角的变化率;
在高速弹头飞行过程中,需要考虑高速弹头本身的飞行性能约束,将状态变量和控制变量需在一定范围内。
所述约束条件包括过载约束、动压约束和气动热约束;
所述过载约束的表达式具体为下式:
式中,n为高速弹头飞行过程中的过载,L为升力,D为阻力,nmax为最大过载,m为质量;
所述动压约束的表达式具体为下式:
式中,qmax为动压最大值,q为动压,ρ为当地的大气密度;
所述气动热约束的表达式具体为下式:
式中,为热流,/>为热流最大值,kQ为第一参数,kQ=110310/(RN 0.5ρ0 0.5V1 3.15),ρ0为海平面大气密度,V1为第一宇宙速度,RN为飞行器驻点曲率半径。
所述S2包括以下分步骤:
S21、建立高速弹头轨迹规划的控制方程;
S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解,在满足状态变量和控制变量取值的约束下对轨迹进行规划,得到最短飞行时间下的控制方程,并将其作为高速弹头轨迹规划的最优控制方程。
所述S21中,高速弹头轨迹规划的控制方程的表达式具体为:
式中,tf为飞行时间,t0为初始时间,τ为时域变换后的时间、τ0为时域变换后的初始时间、σx为时域变换后的飞行时间;
所述变换轨迹规划问题时域定义为:
式中,t1为时域变换前的时间;
所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为:
J=ktf+(k-1)vf
式中,vf为打击速度,k为常系数。
得到高速弹头轨迹规划的控制方程的原理具体为:
建立高速弹头轨迹规划的状态方程,其表达式具体为下式:
设置初始和终端条件,所述初始条件和终端条件的表达式具体为:
[r(0),θ(0),φ(0),V(0),γ(0),ψ(0),α(0),σ(0)]=[r0,θ0,φ0,V0,γ0,ψ0,α0,σ0][r(tf),θ(tf),φ(tf),V(tf),γ(tf),ψ(tf),α(tf),σ(tf)]
=[rf,θf,φf,Vf,γf,ψf,αf,σf]
约束条件为下式:
目标函数为下式:
J=k1tf+(k-1)vf
根据高斯伪谱法即可得到高速弹头轨迹规划的控制方程。
在本实施例中,采用MATLAB2020b的GPOPS II工具包进行编程仿真,即可对控制方程进行求解。
所述S3中,高速弹头博弈策略包括:建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。
所述S3中,高速弹头机动模型action的表达式具体为:
action=[action1,action2,action3]
式中,action1为对攻角进行调整,action2为对侧滑角进行调整,action3为是否开启发动机,其表达式具体为:
action1=[-3,-1,0,1,3]
action2=[-3,-1,0,1,3]
action3=[0,20]
所述拦截器行为模型的导引方程具体为下式:
式中,为拦截器矢量转动的角速度,k1为比例导引系数,/>为目标视线的转动角速度;
所述分析相对运动态势的方法为计算的态势信息,计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为:
式中,(xr、yr、zr)为高速弹头的坐标,(xb、yb、zb)为拦截器的坐标,R为高速弹头与拦截器的距离,Δx为高速弹头与拦截器的x轴坐标差值,Δy为高速弹头与拦截器的y轴坐标差值,Δz为高速弹头与拦截器的z轴坐标差值,vr为高速弹头的速度,vb为拦截器的速度,Δv为高速弹头与拦截器的速度差值;
所述奖励函数包括第一~第六奖励子函数;
奖励函数设置是整个深度强化学习的关键,其目的是为了实现高速弹头躲避拦截器并打击目标的目的,同时避免高速弹头在飞行过程中做出一些超出实际情况的动作。
所述第一奖励子函数reward的表达式具体为:
式中,C为开启发动机的最多次数,h为高速弹头的飞行高度,hmin为最低飞行高度,fuel1为消耗第一拦截器的燃料质量,fuel2为消耗第二拦截器的燃料质量,time为开发动机的次数,distance为高速弹头与拦截器之间的相对距离;
所述第二奖励子函数rewardfinal的表达式具体为:
式中,vfinal为规划出的飞行轨迹的终端速度值;
所述第三奖励子函数rewardfail1的表达式具体为:
rewardfail1=-100000+(fuel1+fuel2)/120
所述第四奖励子函数rewardfail2的表达式具体为:
rewardfail2=-1000+(fuel1+fuel2)/120
所述第五奖励子函数rewardfail3的表达式具体为:
rewardfail3=-500+(fuel1+fuel2)/120
所述第六奖励子函数reward5的表达式具体为:
reward5=v/100
式中,v为高速弹头的飞行速度;
所述设置深度强化学习算法的网络参数的方法具体为:
设置网络的输入层包括18个节点;
设置网络的隐含层包括线性变换层和100个节点,激活函数为Leaky ReLU;
设置网络的输出层包括线性变换层和1个节点;
设置网络的经验回放池容量为5000,设置网络的批量训练样本容量为128,设置网络的学习率为0.01;
所述网络参数的设置具体如表1所示:
表1网络参数
所述观测噪声参数的表达式具体为:
X=x1+o(x1)
其中,X表示对方获取到的姿态信息,x1为真实的姿态信息,o(x1)为该项信息的对应随机误差小量。
在实际对抗过程中,由于观测误差,因此不能够准确地获得双方的姿态信息,会存在一些干扰,因此本发明在真实数据后增加了一部分随机误差小量的观测噪声参数,是使真实数据更加贴近真实环境。
如图2所示,所述S4中,通过DQN算法训练神经网络的方法具体为:
S41、设置损失函数;
S42、生成数据样本;
S43、根据数据样本计算损失函数;
S44、根据损失函数对神经网络参数进行梯度下降直至收敛,得到训练好的神经网络。
所述S42中,数据样本包括若干组数据对,数据样本从经验回放缓存器中采样。
所述S43中,计算损失函数的表达式具体为:
式中,为第t次迭代的价值函数,n1为数据对的组数,θ2为网络参数,/>为不动点迭代目标,其表达式具体为:
式中,为用于计算不动点迭代的参数,{st,at,r(st,at),st+1}为一组数据对,st,at,r(st,at),st+1均为数据对中的数据,/>为第t+1次迭代的价值函数。
所述S44中,基于损失函数对网络参数θ2进行梯度下降直至收敛,为了使参数快速收敛,在原神经网络的基础上引入一个目标网络,其网络结构相同。与原神经网络不同的是,目标网络每次迭代都会更新,但目标网络每隔一段时间才会更新;
此外,原神经网络和目标网络是通过ε-greedypolicies算法进行迭代更新的,在大于ε的时候选择最优策略进行迭代更新,否则就随机选择策略进行迭代更新;
其中,随机选择策略的表达式π(a|s)具体为:
式中,|A|为所有可能的动作数量,Qπ(s,a)为用于迭代网络参数的第一价值函数,maxQπ(s,a)为最优动作价值函数、a为高速弹头在当前状态下可以做出的动作决策,ε为ε-greedy policies算法的参数,ε∈(0,1)。
最优策略的表达式π*(a|s)具体为:
式中,argEa~π(.|s)Q*(s,a)、分别表示最优状态价值函数对应的动作决策和最优动作价值函数对应的动作决策;
所述S4中,DQN算法还根据神经网络进行仿真训练,其方法具体为:
在开始每一轮训练时,高速弹头首先按照预定轨迹飞行,通过实时计算两者之间的距离从而判断是否进行突防,当两者间的距离大于某个阈值时,高速弹头按规划轨道飞行;而当两者间的距离小于某个阈值后,高速弹头使用深度强化学习进行突防博弈。突防是否成功也是通过计算两者的实时距离来判定的,当高速弹头在拦截弹的轨迹范围时,则突防失败,进行下一次训练;突防成功后开始规划到目标点的新轨迹,通过计算达到目的地用时来判断是否完成任务,当达到目的地用时小于阈值时可认为任务成功实施;否则认为打击失败。经过DQN算法不断迭代计算得到训练好的神经网络。
本发明的有益效果为:本发明提供的基于深度强化学习的高超声速弹头的博弈轨迹规划方法为了满足高速弹头高胜率博弈决策的准确性、实时性和有效性,设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略,信息层根据突防弹和拦截弹的态势信息产生机动策略,物理层根据突防弹动力学进行轨迹规划和执行,将高速弹头的高速弹头博弈策略建模为马尔可夫决策过程,建立包含点火机动和姿态调整的高速弹头机动模型和拦截器行为模型,基于深度强化学习在未知环境下决策出最优策略,开展轨迹规划博弈决策模型抽象及策略训练,实现高胜率博弈的在线轨迹规划。
本发明将高速弹头视为智能体进行深度强化学习训练,在仿真环境中对每个算例都进行了3000次的突防对抗,而随着训练的进行,高速弹头轨迹规划成功的概率逐渐增加并保持稳定,可以认为是在这种场景下的最佳概率,在不断迭代计算后,DQN算法下的成功突防概率达到了20%,相较于传统轨迹规划方法,可以更好的完成任务,实现高速弹头机动策略的高效执行。
本发明创新性地将DQN算法加以改进应用在高超声速导弹轨迹规划中,探索系统离散决策和连续控制的耦合机理,开展攻防博弈决策模型的抽象及策略训练,构建智能突防策略,实现动态对抗条件下的灵活高效轨迹规划。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (8)
1.一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,包括以下步骤:
S1、建立高超声速弹头的飞行模型;
S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;
S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;
S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;
S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划;
所述S3中,高速弹头博弈策略包括:建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数;
所述S3中,高速弹头机动模型action的表达式具体为:
action=[action1,action2,action3]
式中,action1为对攻角进行调整,action2为对侧滑角进行调整,action3为是否开启发动机,其表达式具体为:
action1=[-3,-1,0,1,3]
action2=[-3,-1,0,1,3]
action3=[0,20]
所述拦截器行为模型的导引方程具体为下式:
式中,为拦截器矢量转动的角速度,k1为比例导引系数,/>为目标视线的转动角速度;
所述分析相对运动态势的方法为计算的态势信息,计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为:
式中,(xr、yr、zr)为高速弹头的坐标,(xb、yb、zb)为拦截器的坐标,R为高速弹头与拦截器的距离,Δx为高速弹头与拦截器的x轴坐标差值,Δy为高速弹头与拦截器的y轴坐标差值,Δz为高速弹头与拦截器的z轴坐标差值,vr为高速弹头的速度,vb为拦截器的速度,Δv为高速弹头与拦截器的速度差值;
所述奖励函数包括第一~第六奖励子函数;
所述第一奖励子函数reward的表达式具体为:
式中,C为开启发动机的最多次数,h为高速弹头的飞行高度,hmin为最低飞行高度,fuel1为消耗第一拦截器的燃料质量,fuel2为消耗第二拦截器的燃料质量,time为开发动机的次数,distance为高速弹头与拦截器之间的相对距离;
所述第二奖励子函数rewardfinal的表达式具体为:
式中,vfinal为规划出的飞行轨迹的终端速度值;
所述第三奖励子函数rewardfail1的表达式具体为:
rewardfail1=-100000+(fuel1+fuel2)/120
所述第四奖励子函数rewardfail2的表达式具体为:
rewardfail2=-1000+(fuel1+fuel2)/120
所述第五奖励子函数rewardfail3的表达式具体为:
rewardfail3=-500+(fuel1+fuel2)/120
所述第六奖励子函数reward5的表达式具体为:
reward5=v/100
式中,v为高速弹头的飞行速度;
所述设置深度强化学习算法的网络参数的方法具体为:
设置网络的输入层包括18个节点;
设置网络的隐含层包括线性变换层和100个节点,激活函数为Leaky ReLU;
设置网络的输出层包括线性变换层和1个节点;
设置网络的经验回放池容量为5000,设置网络的批量训练样本容量为128,设置网络的学习率为0.01;
所述观测噪声参数的表达式具体为:
X=x1+o(x1)
其中,X表示对方获取到的姿态信息,x1为真实的姿态信息,o(x1)为该项信息的对应随机误差小量。
2.根据权利要求1所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S1包括以下分步骤:
S11、基于在位置坐标系下的高超声速弹头,建立面向制导算法的高速弹头质心动力学方程;
S12、求解高速弹头质心动力学方程,并对求解结果进行无量纲处理,得到飞行模型;
S13、根据飞行模型设置状态控制量和约束条件,完成高超声速弹头的飞行模型的建立。
3.根据权利要求2所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S12中,飞行模型的表达式具体为:
式中,r为地心距矢量,θ为经度,φ为纬度,V为飞行速度,γ为航迹角,ψ为航向角,σ为倾侧角,Ω为地球自转角速度,为r的一阶导数,/>为θ的一阶导数,/>为φ的一阶导数,/>为V的一阶导数,/>为γ的一阶导数,/>为ψ的一阶导数。
4.根据权利要求3所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S13中,状态控制量包括状态变量和控制变量,所述状态变量[r,θ,φ,V,γ,ψ,α,σ]T和控制变量的取值具体为:
式中,α为攻角,为攻角的变化率,/>为倾侧角的变化率;
所述约束条件包括过载约束、动压约束和气动热约束;
所述过载约束的表达式具体为下式:
式中,n为高速弹头飞行过程中的过载,L为升力,D为阻力,nmax为最大过载,m为质量,g0为重力加速度,g0=9.81m/s2;
所述动压约束的表达式具体为下式:
式中,qmax为动压最大值,q为动压,ρ为当地的大气密度;
所述气动热约束的表达式具体为下式:
式中,为热流,/>为热流最大值,kQ为第一参数,kQ=110310/(RN 0.5ρ0 0.5V1 3.15),ρ0为海平面大气密度,V1为第一宇宙速度,RN为飞行器驻点曲率半径。
5.根据权利要求4所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S2包括以下分步骤:
S21、建立高速弹头轨迹规划的控制方程;
S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解,在满足状态变量和控制变量取值的约束下对轨迹进行规划,得到最短飞行时间下的控制方程,并将其作为高速弹头轨迹规划的最优控制方程。
6.根据权利要求5所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S21中,高速弹头轨迹规划的控制方程的表达式具体为:
式中,tf为飞行时间,t0为初始时间,τ为时域变换后的时间、τ0为时域变换后的初始时间、τf为时域变换后的飞行时间;
变换轨迹规划问题时域定义为:
式中,t1为时域变换前的时间;
所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为:
J=ktf+(k-1)vf
式中,vf为打击速度,k为常系数。
7.根据权利要求1所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S4中,通过DQN算法训练神经网络的方法具体为:
S41、设置损失函数;
S42、生成数据样本;
S43、根据数据样本计算损失函数;
S44、根据损失函数对神经网络参数进行梯度下降直至收敛,得到训练好的神经网络。
8.根据权利要求7所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S42中,数据样本包括若干组数据对;
所述S43中,计算损失函数的表达式具体为:
式中,为第t次迭代的价值函数,n1为数据对的组数,θ2为网络参数,为不动点迭代目标,其表达式具体为:
式中,为用于计算不动点迭代的参数,{st,at,r(st,at),st+1}为一组数据对,st,at,r(st,at),st+1均为数据对中的数据,/>为第t+1次迭代的价值函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491577.6A CN116430900B (zh) | 2023-05-04 | 2023-05-04 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491577.6A CN116430900B (zh) | 2023-05-04 | 2023-05-04 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116430900A CN116430900A (zh) | 2023-07-14 |
CN116430900B true CN116430900B (zh) | 2023-12-05 |
Family
ID=87087286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310491577.6A Active CN116430900B (zh) | 2023-05-04 | 2023-05-04 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116430900B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118466207A (zh) * | 2024-05-21 | 2024-08-09 | 哈尔滨工业大学 | 一种基于深度强化学习的反坦克导弹三维轨迹规划方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217041A (zh) * | 2013-05-29 | 2014-12-17 | 北京航空航天大学 | 一种多约束在线高斯伪谱末制导方法 |
CN109858106A (zh) * | 2019-01-11 | 2019-06-07 | 南京航空航天大学 | 基于高斯伪谱法的飞行器小翼伸缩量优化方法 |
CN111897214A (zh) * | 2020-06-24 | 2020-11-06 | 哈尔滨工业大学 | 一种基于序列凸优化的高超声速飞行器轨迹规划方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN113050686A (zh) * | 2021-03-19 | 2021-06-29 | 北京航空航天大学 | 一种基于深度强化学习的作战策略优化方法及系统 |
CN114253296A (zh) * | 2021-12-22 | 2022-03-29 | 中国人民解放军国防科技大学 | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 |
CN114485676A (zh) * | 2022-02-18 | 2022-05-13 | 四川大学 | 一种分布式飞行雷达平台的航迹规划方法 |
CN114675545A (zh) * | 2022-05-26 | 2022-06-28 | 中国人民解放军火箭军工程大学 | 一种基于强化学习的高超声速飞行器再入协同制导方法 |
CN115357051A (zh) * | 2022-10-18 | 2022-11-18 | 北京理工大学 | 变形与机动一体化的规避与突防方法 |
CN115903887A (zh) * | 2022-11-09 | 2023-04-04 | 北京九天翱翔科技有限公司 | 一种基于强化学习的高超声速飞行器轨迹规划方法 |
-
2023
- 2023-05-04 CN CN202310491577.6A patent/CN116430900B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217041A (zh) * | 2013-05-29 | 2014-12-17 | 北京航空航天大学 | 一种多约束在线高斯伪谱末制导方法 |
CN109858106A (zh) * | 2019-01-11 | 2019-06-07 | 南京航空航天大学 | 基于高斯伪谱法的飞行器小翼伸缩量优化方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN111897214A (zh) * | 2020-06-24 | 2020-11-06 | 哈尔滨工业大学 | 一种基于序列凸优化的高超声速飞行器轨迹规划方法 |
CN113050686A (zh) * | 2021-03-19 | 2021-06-29 | 北京航空航天大学 | 一种基于深度强化学习的作战策略优化方法及系统 |
CN114253296A (zh) * | 2021-12-22 | 2022-03-29 | 中国人民解放军国防科技大学 | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 |
CN114485676A (zh) * | 2022-02-18 | 2022-05-13 | 四川大学 | 一种分布式飞行雷达平台的航迹规划方法 |
CN114675545A (zh) * | 2022-05-26 | 2022-06-28 | 中国人民解放军火箭军工程大学 | 一种基于强化学习的高超声速飞行器再入协同制导方法 |
CN115357051A (zh) * | 2022-10-18 | 2022-11-18 | 北京理工大学 | 变形与机动一体化的规避与突防方法 |
CN115903887A (zh) * | 2022-11-09 | 2023-04-04 | 北京九天翱翔科技有限公司 | 一种基于强化学习的高超声速飞行器轨迹规划方法 |
Non-Patent Citations (3)
Title |
---|
Avoidance of no-fly zone for Hypersonic Vehicle based on Adaptice Radau Pseudospectral Method;Ruocen Tian 等;2022 7th International Conference on Intelligent Computing and Signal Processing (ICSP);全文 * |
基于深度强化学习的空战博弈决策研究;马文;中国优秀硕士学位论文全文数据库社会科学Ⅰ辑(第02期);全文 * |
面向雷达目标检测性能的多弹协同航迹规划;姚瑞琦 等;战术导弹技术(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116430900A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN111381600B (zh) | 一种基于粒子群算法的uuv路径规划方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
Sharma et al. | Adaptive, integrated guidance and control for missile interceptors | |
CN116430900B (zh) | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 | |
Bai et al. | UAV maneuvering decision-making algorithm based on twin delayed deep deterministic policy gradient algorithm | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN112506218B (zh) | 一种基于轨迹智能预测的再入飞行器任意禁飞区绕飞方法 | |
CN110673488A (zh) | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 | |
Lee et al. | Autonomous control of combat unmanned aerial vehicles to evade surface-to-air missiles using deep reinforcement learning | |
CN115033024A (zh) | 基于攻击时间和角度共同约束的多导弹三维协同制导方法 | |
CN112327926B (zh) | 一种无人机编队的自适应滑模控制方法 | |
CN114519292A (zh) | 基于深度强化学习的空空导弹越肩发射制导律设计方法 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN114020021A (zh) | 一种多导弹分布式协同制导律的设计方法及系统 | |
CN113625569A (zh) | 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
Zhuang et al. | Optimization of high-speed fixed-wing UAV penetration strategy based on deep reinforcement learning | |
CN115098939A (zh) | 一种航天器脉冲机动鲁棒追击方法 | |
Shi et al. | Cooperative prediction guidance law in target-attacker-defender scenario | |
CN115357051B (zh) | 变形与机动一体化的规避与突防方法 | |
CN115046433B (zh) | 基于深度强化学习的飞行器时间协同制导方法 | |
CN114815878A (zh) | 基于实时优化和深度学习的高超声速飞行器协同制导方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |