CN116430900A - 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 - Google Patents

基于深度强化学习的高超声速弹头的博弈轨迹规划方法 Download PDF

Info

Publication number
CN116430900A
CN116430900A CN202310491577.6A CN202310491577A CN116430900A CN 116430900 A CN116430900 A CN 116430900A CN 202310491577 A CN202310491577 A CN 202310491577A CN 116430900 A CN116430900 A CN 116430900A
Authority
CN
China
Prior art keywords
warhead
speed
specifically
hypersonic
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310491577.6A
Other languages
English (en)
Other versions
CN116430900B (zh
Inventor
江秀强
李靖惠
王可蕾
蔡鑫宇
季袁冬
钟苏川
孙国皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310491577.6A priority Critical patent/CN116430900B/zh
Publication of CN116430900A publication Critical patent/CN116430900A/zh
Application granted granted Critical
Publication of CN116430900B publication Critical patent/CN116430900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法,包括以下步骤:S1、建立高超声速弹头的飞行模型;S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。本发明为了满足高速弹头决策的准确性、实时性和有效性,设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略,开展轨迹规划博弈决策模型抽象及策略训练,实现在线轨迹规划方法。

Description

基于深度强化学习的高超声速弹头的博弈轨迹规划方法
技术领域
本发明属于导弹航迹规划领域,具体涉及基于深度强化学习的高超声速弹头的博弈轨迹规划方法。
背景技术
高速弹头作为高超声速飞行器的战斗部,其接近于战斗机的外形,在再入大气层后有独特的气动性能。随着高速弹头的不断发展,针对各类高超声速的新技术也不断涌现,所以研究高速弹头的博弈轨迹规划策略刻不容缓。
高速弹头的突防博弈场景有着典型的“信息-物理”分层特征,在弹头突防完成后,由于偏离了原本规划的轨迹,因此需要重新快速规划轨迹,以评估是否仍有不偏离预定目标的能力。随着任务环境的愈加复杂和多维化,高速弹头的拦截和逃逸策略都在从传统博弈转向智能博弈。强化学习方法是一种基于数据的智能学习控制方法,可以通过与环境不断交互来学习策略,根据双方的状态进行决策,因此在复杂任务环境中具有一定的优势。实现高速弹头高胜率博弈轨迹的高效规划,对于推进智能化作战和提高高速弹头作战能效具有重要的理论研究价值和实践意义。
目前,在研究突防策略时,较新颖的为使用微分对策来研究突防策略,微分对策是指两个飞行器或多个飞行器均能在已知情况下实现各自最优目标的对策过程,以达到脱靶量最大最小的目的。目前已有的微分对策研究包括在二维线性化运动条件下研究了躲避比例引导弹的最佳机动策略、有末端路径角约束和具有多个拦截器的最佳机动策略等。
微分对策制导一般很难获得解析解,求其数值解更依靠于大量弹载计算机资源,同时对探测设备的精准探测也有一定要求,而且该方法针对确定性问题的求解,逃逸方飞行器均不能根据战场环境的变化智能自主地做出决策,面对复杂多变且具有不确定信息较多的对抗场景则具有一定局限性。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法解决了现有微分对策进行高速弹头博弈轨迹规划成功率低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法,包括以下步骤:
S1、建立高超声速弹头的飞行模型;
S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;
S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;
S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;
S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。
进一步地:所述S1包括以下分步骤:
S11、基于在位置坐标系下的高超声速弹头,建立面向制导算法的高速弹头质心动力学方程;
S12、求解高速弹头质心动力学方程,并对求解结果进行无量纲处理,得到飞行模型;
S13、根据飞行模型设置状态控制量和约束条件,完成高超声速弹头的飞行模型的建立。
进一步地:所述S12中,飞行模型的表达式具体为:
Figure BDA0004210567070000031
式中,r为地心距矢量,θ为经度,φ为纬度,V为飞行速度,γ为航迹角,ψ为航向角,σ为倾侧角,Ω为地球自转角速度,R0为地球半径,R0=6378km,g0为重力加速度,g0=9.81m/s2
Figure BDA00042105670700000313
为r的一阶导数,/>
Figure BDA0004210567070000032
为θ的一阶导数,/>
Figure BDA0004210567070000033
为φ的一阶导数,/>
Figure BDA0004210567070000034
为V的一阶导数,/>
Figure BDA0004210567070000035
为γ的一阶导数,/>
Figure BDA0004210567070000036
为ψ的一阶导数。
进一步地:所述S13中,状态控制量包括状态变量和控制变量,所述状态变量[r,θ,φ,V,γ,ψ,α,σ]T和控制变量
Figure BDA0004210567070000037
的取值具体为:
Figure BDA0004210567070000038
Figure BDA0004210567070000039
式中,α为攻角,
Figure BDA00042105670700000310
为攻角的变化率,/>
Figure BDA00042105670700000311
为倾侧角的变化率;
所述约束条件包括过载约束、动压约束和气动热约束;
所述过载约束的表达式具体为下式:
Figure BDA00042105670700000312
式中,n为高速弹头飞行过程中的过载,L为升力,D为阻力,nmax为最大过载,m为质量;
所述动压约束的表达式具体为下式:
Figure BDA0004210567070000041
式中,qmax为动压最大值,q为动压,ρ为当地的大气密度;
所述气动热约束的表达式具体为下式:
Figure BDA0004210567070000042
式中,
Figure BDA0004210567070000043
为热流,/>
Figure BDA0004210567070000044
为热流最大值,kQ为第一参数,kQ=110310/(RN 0.5ρ0 0.5V1 3.15),ρ0为海平面大气密度,V1为第一宇宙速度,RN为飞行器驻点曲率半径。
进一步地:所述S2包括以下分步骤:
S21、建立高速弹头轨迹规划的控制方程;
S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解,在满足状态变量和控制变量取值的约束下对轨迹进行规划,得到最短飞行时间下的控制方程,并将其作为高速弹头轨迹规划的最优控制方程。
进一步地:所述S21中,高速弹头轨迹规划的控制方程
Figure BDA0004210567070000046
的表达式具体为:
Figure BDA0004210567070000045
式中,tf为飞行时间,t0为初始时间,τ为时域变换后的时间、τ0为时域变换后的初始时间、τf为时域变换后的飞行时间;
所述变换轨迹规划问题时域定义为:
Figure BDA0004210567070000051
式中,t1为时域变换前的时间;
所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为:
J=ktf+(k-1)vf
式中,vf为打击速度,k为常系数。
进一步地:所述S3中,高速弹头博弈策略包括:建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。
进一步地:所述S3中,高速弹头机动模型action的表达式具体为:
action=[action1,action2,action3]
式中,action1为对攻角进行调整,action2为对侧滑角进行调整,action3为是否开启发动机,其表达式具体为:
action1=[-3,-1,0,1,3]
action2=[-3,-1,0,1,3]
action3=[0,20]
所述拦截器行为模型的导引方程具体为下式:
Figure BDA0004210567070000052
式中,
Figure BDA0004210567070000053
为拦截器矢量转动的角速度,k1为比例导引系数,/>
Figure BDA0004210567070000054
为目标视线的转动角速度;
所述分析相对运动态势的方法为计算的态势信息,计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为:
Figure BDA0004210567070000061
式中,(xr、yr、zr)为高速弹头的坐标,(xb、yb、zb)为拦截器的坐标,R为高速弹头与拦截器的距离,Δx为高速弹头与拦截器的x轴坐标差值,Δy为高速弹头与拦截器的y轴坐标差值,Δz为高速弹头与拦截器的z轴坐标差值,vr为高速弹头的速度,vb为拦截器的速度,Δv为高速弹头与拦截器的速度差值;
所述奖励函数包括第一~第六奖励子函数;
所述第一奖励子函数reward的表达式具体为:
Figure BDA0004210567070000062
式中,C为开启发动机的最多次数,h为高速弹头的飞行高度,hmin为最低飞行高度,fuel1为消耗第一拦截器的燃料质量,fuel2为消耗第二拦截器的燃料质量,time为开发动机的次数,distance为高速弹头与拦截器之间的相对距离;
所述第二奖励子函数rewardfinal的表达式具体为:
Figure BDA0004210567070000063
式中,vfinal为规划出的飞行轨迹的终端速度值;
所述第三奖励子函数rewardfail1的表达式具体为:
rewardfail1=-100000+(fuel1+fuel2)/120
所述第四奖励子函数rewardfail2的表达式具体为:
rewardfail2=-1000+(fuel1+fuel2)/120
所述第五奖励子函数rewardfail3的表达式具体为:
rewardfail3=-500+(fuel1+fuel2)/120
所述第六奖励子函数reward5的表达式具体为:
reward5=v/100
式中,v为高速弹头的飞行速度;
所述设置深度强化学习算法的网络参数的方法具体为:
设置网络的输入层包括18个节点;
设置网络的隐含层包括线性变换层和100个节点,激活函数为Leaky ReLU;
设置网络的输出层包括线性变换层和1个节点;
设置网络的经验回放池容量为5000,设置网络的批量训练样本容量为128,设置网络的学习率为0.01;
所述观测噪声参数的表达式具体为:
X=x1+o(x1)
其中,X表示对方获取到的姿态信息,x1为真实的姿态信息,o(x1)为该项信息的对应随机误差小量。
进一步地:所述S4中,通过DQN算法训练神经网络的方法具体为:
S41、设置损失函数;
S42、生成数据样本;
S43、根据数据样本计算损失函数;
S44、根据损失函数对神经网络参数进行梯度下降直至收敛,得到训练好的神经网络。
进一步地:所述S42中,数据样本包括若干组数据对;
所述S43中,计算损失函数的表达式具体为:
Figure BDA0004210567070000081
式中,
Figure BDA0004210567070000082
为第t次迭代的价值函数,n1为数据对的组数,θ2为网络参数,qπk(st,at)为不动点迭代目标,其表达式具体为:
Figure BDA0004210567070000083
式中,
Figure BDA0004210567070000084
为用于计算不动点迭代的参数,{st,at,r(st,at),st+1}为一组数据对,st,at,r(st,at),st+1均为数据对中的数据,/>
Figure BDA0004210567070000085
为第t+1次迭代的价值函数。
本发明的有益效果为:
(1)本发明提供的基于深度强化学习的高超声速弹头的博弈轨迹规划方法为了满足高速弹头高胜率博弈决策的准确性、实时性和有效性,设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略,信息层根据突防弹和拦截弹的态势信息产生机动策略,物理层根据突防弹动力学进行轨迹规划和执行,将高速弹头的高速弹头博弈策略建模为马尔可夫决策过程,建立包含点火机动和姿态调整的高速弹头机动模型和拦截器行为模型,基于深度强化学习在未知环境下决策出最优策略,开展轨迹规划博弈决策模型抽象及策略训练,实现高胜率博弈的在线轨迹规划方法。
(2)本发明将高速弹头视为智能体进行深度强化学习训练,在仿真环境中对每个算例都进行了3000次的突防对抗,而随着训练的进行,高速弹头轨迹规划成功的概率逐渐增加并保持稳定,可以认为是在这种场景下的最佳概率,在不断迭代计算后,DQN算法下的成功突防概率达到了20%,相较于传统轨迹规划方法,可以更好的完成任务,实现高速弹头机动策略的高效执行。
(3)本发明创新性地将DQN算法加以改进应用在高超声速导弹轨迹规划中,探索系统离散决策和连续控制的耦合机理,开展攻防博弈决策模型的抽象及策略训练,构建智能突防策略,实现动态对抗条件下的灵活高效轨迹规划。
附图说明
图1为本发明的基于深度强化学习的高超声速弹头的博弈轨迹规划方法流程图。
图2为本发明的DQN算法结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,基于深度强化学习的高超声速弹头的博弈轨迹规划方法,包括以下步骤:
S1、建立高超声速弹头的飞行模型;
S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;
S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;
S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;
S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。
所述S1包括以下分步骤:
S11、基于在位置坐标系下的高超声速弹头,建立面向制导算法的高速弹头质心动力学方程;
S12、求解高速弹头质心动力学方程,并对求解结果进行无量纲处理,得到飞行模型;
S13、根据飞行模型设置状态控制量和约束条件,完成高超声速弹头的飞行模型的建立。
所述S12中,飞行模型的表达式具体为:
Figure BDA0004210567070000101
式中,r为地心距矢量,θ为经度,φ为纬度,V为飞行速度,γ为航迹角,ψ为航向角,σ为倾侧角,Ω为地球自转角速度,R0为地球半径,R0=6378km,g0为重力加速度,g0=9.81m/s2
Figure BDA0004210567070000102
为r的一阶导数,/>
Figure BDA0004210567070000103
为θ的一阶导数,/>
Figure BDA0004210567070000104
为φ的一阶导数,/>
Figure BDA0004210567070000105
为V的一阶导数,/>
Figure BDA0004210567070000106
为γ的一阶导数,/>
Figure BDA0004210567070000107
为ψ的一阶导数。
获得飞行模型的原理具体为:
建立面向制导算法的三自由度质点运动方程,所述高速弹头质心动力学方程的表达式具体为下式:
Figure BDA0004210567070000108
Figure BDA0004210567070000111
求解上式,由于地球扁率引起的摄动力较小,因此忽略地球扁率引起的摄动力得到下式:
Figure BDA0004210567070000112
为减小求解过程中的数据规模,提高计算效率,对上式进行无量纲处理,得到飞行模型的表达式。
所述S13中,状态控制量包括状态变量和控制变量,所述状态变量[r,θ,φ,V,γ,ψ,α,σ]T和控制变量
Figure BDA0004210567070000113
的取值具体为:
Figure BDA0004210567070000114
Figure BDA0004210567070000115
式中,α为攻角,
Figure BDA0004210567070000116
为攻角的变化率,/>
Figure BDA0004210567070000117
为倾侧角的变化率;
在高速弹头飞行过程中,需要考虑高速弹头本身的飞行性能约束,将状态变量和控制变量需在一定范围内。
所述约束条件包括过载约束、动压约束和气动热约束;
所述过载约束的表达式具体为下式:
Figure BDA0004210567070000118
式中,n为高速弹头飞行过程中的过载,L为升力,D为阻力,nmax为最大过载,m为质量;
所述动压约束的表达式具体为下式:
Figure BDA0004210567070000121
式中,qmax为动压最大值,q为动压,ρ为当地的大气密度;
所述气动热约束的表达式具体为下式:
Figure BDA0004210567070000122
式中,
Figure BDA0004210567070000123
为热流,/>
Figure BDA0004210567070000124
为热流最大值,kQ为第一参数,kQ=110310/(RN 0.5ρ0 0.5V1 3.15),ρ0为海平面大气密度,V1为第一宇宙速度,RN为飞行器驻点曲率半径。
所述S2包括以下分步骤:
S21、建立高速弹头轨迹规划的控制方程;
S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解,在满足状态变量和控制变量取值的约束下对轨迹进行规划,得到最短飞行时间下的控制方程,并将其作为高速弹头轨迹规划的最优控制方程。
所述S21中,高速弹头轨迹规划的控制方程
Figure BDA0004210567070000125
的表达式具体为:
Figure BDA0004210567070000126
式中,tf为飞行时间,t0为初始时间,τ为时域变换后的时间、τ0为时域变换后的初始时间、σx为时域变换后的飞行时间;
所述变换轨迹规划问题时域定义为:
Figure BDA0004210567070000131
式中,t1为时域变换前的时间;
所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为:
J=ktf+(k-1)vf
式中,vf为打击速度,k为常系数。
得到高速弹头轨迹规划的控制方程的原理具体为:
建立高速弹头轨迹规划的状态方程,其表达式具体为下式:
Figure BDA0004210567070000132
设置初始和终端条件,所述初始条件和终端条件的表达式具体为:
[r(0),θ(0),φ(0),V(0),γ(0),ψ(0),α(0),σ(0)]=[r0,θ0,φ0,V0,γ0,ψ0,α0,σ0][r(tf),θ(tf),φ(tf),V(tf),γ(tf),ψ(tf),α(tf),σ(tf)]
=[rf,θf,φf,Vf,γf,ψf,αf,σf]
约束条件为下式:
Figure BDA0004210567070000133
Figure BDA0004210567070000141
Figure BDA0004210567070000142
目标函数为下式:
J=k1tf+(k-1)vf
根据高斯伪谱法即可得到高速弹头轨迹规划的控制方程。
在本实施例中,采用MATLAB2020b的GPOPS II工具包进行编程仿真,即可对控制方程进行求解。
所述S3中,高速弹头博弈策略包括:建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。
所述S3中,高速弹头机动模型action的表达式具体为:
action=[action1,action2,action3]
式中,action1为对攻角进行调整,action2为对侧滑角进行调整,action3为是否开启发动机,其表达式具体为:
action1=[-3,-1,0,1,3]
action2=[-3,-1,0,1,3]
action3=[0,20]
所述拦截器行为模型的导引方程具体为下式:
Figure BDA0004210567070000143
式中,
Figure BDA0004210567070000144
为拦截器矢量转动的角速度,k1为比例导引系数,/>
Figure BDA0004210567070000145
为目标视线的转动角速度;
所述分析相对运动态势的方法为计算的态势信息,计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为:
Figure BDA0004210567070000151
式中,(xr、yr、zr)为高速弹头的坐标,(xb、yb、zb)为拦截器的坐标,R为高速弹头与拦截器的距离,Δx为高速弹头与拦截器的x轴坐标差值,Δy为高速弹头与拦截器的y轴坐标差值,Δz为高速弹头与拦截器的z轴坐标差值,vr为高速弹头的速度,vb为拦截器的速度,Δv为高速弹头与拦截器的速度差值;
所述奖励函数包括第一~第六奖励子函数;
奖励函数设置是整个深度强化学习的关键,其目的是为了实现高速弹头躲避拦截器并打击目标的目的,同时避免高速弹头在飞行过程中做出一些超出实际情况的动作。
所述第一奖励子函数reward的表达式具体为:
Figure BDA0004210567070000152
式中,C为开启发动机的最多次数,h为高速弹头的飞行高度,hmin为最低飞行高度,fuel1为消耗第一拦截器的燃料质量,fuel2为消耗第二拦截器的燃料质量,time为开发动机的次数,distance为高速弹头与拦截器之间的相对距离;
所述第二奖励子函数rewardfinal的表达式具体为:
Figure BDA0004210567070000153
式中,vfinal为规划出的飞行轨迹的终端速度值;
所述第三奖励子函数rewardfail1的表达式具体为:
rewardfail1=-100000+(fuel1+fuel2)/120
所述第四奖励子函数rewardfail2的表达式具体为:
rewardfail2=-1000+(fuel1+fuel2)/120
所述第五奖励子函数rewardfail3的表达式具体为:
rewardfail3=-500+(fuel1+fuel2)/120
所述第六奖励子函数reward5的表达式具体为:
reward5=v/100
式中,v为高速弹头的飞行速度;
所述设置深度强化学习算法的网络参数的方法具体为:
设置网络的输入层包括18个节点;
设置网络的隐含层包括线性变换层和100个节点,激活函数为Leaky ReLU;
设置网络的输出层包括线性变换层和1个节点;
设置网络的经验回放池容量为5000,设置网络的批量训练样本容量为128,设置网络的学习率为0.01;
所述网络参数的设置具体如表1所示:
表1网络参数
Figure BDA0004210567070000161
所述观测噪声参数的表达式具体为:
X=x1+o(x1)
其中,X表示对方获取到的姿态信息,x1为真实的姿态信息,o(x1)为该项信息的对应随机误差小量。
在实际对抗过程中,由于观测误差,因此不能够准确地获得双方的姿态信息,会存在一些干扰,因此本发明在真实数据后增加了一部分随机误差小量的观测噪声参数,是使真实数据更加贴近真实环境。
如图2所示,所述S4中,通过DQN算法训练神经网络的方法具体为:
S41、设置损失函数;
S42、生成数据样本;
S43、根据数据样本计算损失函数;
S44、根据损失函数对神经网络参数进行梯度下降直至收敛,得到训练好的神经网络。
所述S42中,数据样本包括若干组数据对,数据样本从经验回放缓存器中采样。
所述S43中,计算损失函数的表达式具体为:
Figure BDA0004210567070000171
式中,
Figure BDA0004210567070000172
为第t次迭代的价值函数,n1为数据对的组数,θ2为网络参数,/>
Figure BDA0004210567070000176
为不动点迭代目标,其表达式具体为:
Figure BDA0004210567070000173
式中,
Figure BDA0004210567070000174
为用于计算不动点迭代的参数,{st,at,r(st,at),st+1}为一组数据对,st,at,r(st,at),st+1均为数据对中的数据,/>
Figure BDA0004210567070000175
为第t+1次迭代的价值函数。
所述S44中,基于损失函数对网络参数θ2进行梯度下降直至收敛,为了使参数快速收敛,在原神经网络的基础上引入一个目标网络,其网络结构相同。与原神经网络不同的是,目标网络每次迭代都会更新,但目标网络每隔一段时间才会更新;
此外,原神经网络和目标网络是通过ε-greedypolicies算法进行迭代更新的,在大于ε的时候选择最优策略进行迭代更新,否则就随机选择策略进行迭代更新;
其中,随机选择策略的表达式π(a|s)具体为:
Figure BDA0004210567070000181
式中,|A|为所有可能的动作数量,Qπ(s,a)为用于迭代网络参数的第一价值函数,maxQπ(s,a)为最优动作价值函数、a为高速弹头在当前状态下可以做出的动作决策,ε为ε-greedy policies算法的参数,ε∈(0,1)。
最优策略的表达式π*(a|s)具体为:
Figure BDA0004210567070000182
式中,argEa~π(.|s)Q*(s,a)、
Figure BDA0004210567070000183
分别表示最优状态价值函数对应的动作决策和最优动作价值函数对应的动作决策;
所述S4中,DQN算法还根据神经网络进行仿真训练,其方法具体为:
在开始每一轮训练时,高速弹头首先按照预定轨迹飞行,通过实时计算两者之间的距离从而判断是否进行突防,当两者间的距离大于某个阈值时,高速弹头按规划轨道飞行;而当两者间的距离小于某个阈值后,高速弹头使用深度强化学习进行突防博弈。突防是否成功也是通过计算两者的实时距离来判定的,当高速弹头在拦截弹的轨迹范围时,则突防失败,进行下一次训练;突防成功后开始规划到目标点的新轨迹,通过计算达到目的地用时来判断是否完成任务,当达到目的地用时小于阈值时可认为任务成功实施;否则认为打击失败。经过DQN算法不断迭代计算得到训练好的神经网络。
本发明的有益效果为:本发明提供的基于深度强化学习的高超声速弹头的博弈轨迹规划方法为了满足高速弹头高胜率博弈决策的准确性、实时性和有效性,设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略,信息层根据突防弹和拦截弹的态势信息产生机动策略,物理层根据突防弹动力学进行轨迹规划和执行,将高速弹头的高速弹头博弈策略建模为马尔可夫决策过程,建立包含点火机动和姿态调整的高速弹头机动模型和拦截器行为模型,基于深度强化学习在未知环境下决策出最优策略,开展轨迹规划博弈决策模型抽象及策略训练,实现高胜率博弈的在线轨迹规划。
本发明将高速弹头视为智能体进行深度强化学习训练,在仿真环境中对每个算例都进行了3000次的突防对抗,而随着训练的进行,高速弹头轨迹规划成功的概率逐渐增加并保持稳定,可以认为是在这种场景下的最佳概率,在不断迭代计算后,DQN算法下的成功突防概率达到了20%,相较于传统轨迹规划方法,可以更好的完成任务,实现高速弹头机动策略的高效执行。
本发明创新性地将DQN算法加以改进应用在高超声速导弹轨迹规划中,探索系统离散决策和连续控制的耦合机理,开展攻防博弈决策模型的抽象及策略训练,构建智能突防策略,实现动态对抗条件下的灵活高效轨迹规划。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (10)

1.一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,包括以下步骤:
S1、建立高超声速弹头的飞行模型;
S2、基于飞行模型,通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程;
S3、基于高速弹头轨迹规划的最优控制方程,建立高速弹头博弈策略;
S4、基于高速弹头博弈策略,通过DQN算法训练神经网络,获得训练好的神经网络;
S5、通过训练好的神经网络对高超声速弹头进行轨迹规划,完成高超声速弹头的博弈轨迹规划。
2.根据权利要求1所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S1包括以下分步骤:
S11、基于在位置坐标系下的高超声速弹头,建立面向制导算法的高速弹头质心动力学方程;
S12、求解高速弹头质心动力学方程,并对求解结果进行无量纲处理,得到飞行模型;
S13、根据飞行模型设置状态控制量和约束条件,完成高超声速弹头的飞行模型的建立。
3.根据权利要求2所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S12中,飞行模型的表达式具体为:
Figure FDA0004210567060000021
式中,r为地心距矢量,θ为经度,φ为纬度,V为飞行速度,γ为航迹角,ψ为航向角,σ为倾侧角,Ω为地球自转角速度,R0为地球半径,R0=6378km,g0为重力加速度,g0=9.81m/s2
Figure FDA0004210567060000022
为r的一阶导数,/>
Figure FDA0004210567060000023
为θ的一阶导数,/>
Figure FDA0004210567060000024
为φ的一阶导数,/>
Figure FDA0004210567060000025
为V的一阶导数,/>
Figure FDA0004210567060000026
为γ的一阶导数,/>
Figure FDA0004210567060000027
为ψ的一阶导数。
4.根据权利要求3所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S13中,状态控制量包括状态变量和控制变量,所述状态变量[r,θ,φ,V,γ,ψ,α,σ]T和控制变量
Figure FDA0004210567060000028
的取值具体为:
Figure FDA0004210567060000029
Figure FDA00042105670600000210
式中,α为攻角,
Figure FDA00042105670600000211
为攻角的变化率,/>
Figure FDA00042105670600000212
为倾侧角的变化率;
所述约束条件包括过载约束、动压约束和气动热约束;
所述过载约束的表达式具体为下式:
Figure FDA00042105670600000213
式中,n为高速弹头飞行过程中的过载,L为升力,D为阻力,nmax为最大过载,m为质量;
所述动压约束的表达式具体为下式:
Figure FDA0004210567060000031
式中,qmax为动压最大值,q为动压,ρ为当地的大气密度;
所述气动热约束的表达式具体为下式:
Figure FDA0004210567060000032
式中,
Figure FDA0004210567060000033
为热流,/>
Figure FDA0004210567060000034
为热流最大值,kQ为第一参数,kQ=110310/(RN 0.5ρ0 0.5V1 3.15),ρ0为海平面大气密度,V1为第一宇宙速度,RN为飞行器驻点曲率半径。
5.根据权利要求4所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S2包括以下分步骤:
S21、建立高速弹头轨迹规划的控制方程;
S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解,在满足状态变量和控制变量取值的约束下对轨迹进行规划,得到最短飞行时间下的控制方程,并将其作为高速弹头轨迹规划的最优控制方程。
6.根据权利要求5所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S21中,高速弹头轨迹规划的控制方程
Figure FDA0004210567060000035
的表达式具体为:
Figure FDA0004210567060000041
式中,tf为飞行时间,t0为初始时间,τ为时域变换后的时间、τ0为时域变换后的初始时间、τf为时域变换后的飞行时间;
所述变换轨迹规划问题时域定义为:
Figure FDA0004210567060000042
式中,t1为时域变换前的时间;
所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为:
J=ktf+(k-1)vf
式中,vf为打击速度,k为常系数。
7.根据权利要求1所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S3中,高速弹头博弈策略包括:建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。
8.根据权利要求7所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S3中,高速弹头机动模型action的表达式具体为:
action=[action1,action2,action3]
式中,action1为对攻角进行调整,action2为对侧滑角进行调整,action3为是否开启发动机,其表达式具体为:
action1=[-3,-1,0,1,3]
action2=[-3,-1,0,1,3]
action3=[0,20]
所述拦截器行为模型的导引方程具体为下式:
Figure FDA0004210567060000053
式中,
Figure FDA0004210567060000054
为拦截器矢量转动的角速度,k1为比例导引系数,/>
Figure FDA0004210567060000055
为目标视线的转动角速度;
所述分析相对运动态势的方法为计算的态势信息,计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为:
Figure FDA0004210567060000051
式中,(xr、yr、zr)为高速弹头的坐标,(xb、yb、zb)为拦截器的坐标,R为高速弹头与拦截器的距离,Δx为高速弹头与拦截器的x轴坐标差值,Δy为高速弹头与拦截器的y轴坐标差值,Δz为高速弹头与拦截器的z轴坐标差值,vr为高速弹头的速度,vb为拦截器的速度,Δv为高速弹头与拦截器的速度差值;
所述奖励函数包括第一~第六奖励子函数;
所述第一奖励子函数reward的表达式具体为:
Figure FDA0004210567060000052
式中,C为开启发动机的最多次数,h为高速弹头的飞行高度,hmin为最低飞行高度,fuel1为消耗第一拦截器的燃料质量,fuel2为消耗第二拦截器的燃料质量,time为开发动机的次数,distance为高速弹头与拦截器之间的相对距离;
所述第二奖励子函数rewardfinal的表达式具体为:
Figure FDA0004210567060000061
式中,vfinal为规划出的飞行轨迹的终端速度值;
所述第三奖励子函数rewardfail1的表达式具体为:
rewardfail1=-100000+(fuel1+fuel2)/120
所述第四奖励子函数rewardfail2的表达式具体为:
rewardfail2=-1000+(fuel1+fuel2)/120
所述第五奖励子函数rewardfail3的表达式具体为:
rewardfail3=-500+(fuel1+fuel2)/120
所述第六奖励子函数reward5的表达式具体为:
reward5=v/100
式中,v为高速弹头的飞行速度;
所述设置深度强化学习算法的网络参数的方法具体为:
设置网络的输入层包括18个节点;
设置网络的隐含层包括线性变换层和100个节点,激活函数为Leaky ReLU;
设置网络的输出层包括线性变换层和1个节点;
设置网络的经验回放池容量为5000,设置网络的批量训练样本容量为128,设置网络的学习率为0.01;
所述观测噪声参数的表达式具体为:
X=x1+o(x1)
其中,X表示对方获取到的姿态信息,x1为真实的姿态信息,o(x1)为该项信息的对应随机误差小量。
9.根据权利要求8所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S4中,通过DQN算法训练神经网络的方法具体为:
S41、设置损失函数;
S42、生成数据样本;
S43、根据数据样本计算损失函数;
S44、根据损失函数对神经网络参数进行梯度下降直至收敛,得到训练好的神经网络。
10.根据权利要求9所述的基于深度强化学习的高超声速弹头的博弈轨迹规划方法,其特征在于,所述S42中,数据样本包括若干组数据对;
所述S43中,计算损失函数的表达式具体为:
Figure FDA0004210567060000071
式中,
Figure FDA0004210567060000072
为第t次迭代的价值函数,n1为数据对的组数,θ2为网络参数,
Figure FDA0004210567060000073
为不动点迭代目标,其表达式具体为:
Figure FDA0004210567060000074
式中,
Figure FDA0004210567060000075
为用于计算不动点迭代的参数,{st,at,r(st,at),st+1}为一组数据对,st,at,r(st,at),st+1均为数据对中的数据,/>
Figure FDA0004210567060000076
为第t+1次迭代的价值函数。
CN202310491577.6A 2023-05-04 2023-05-04 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 Active CN116430900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310491577.6A CN116430900B (zh) 2023-05-04 2023-05-04 基于深度强化学习的高超声速弹头的博弈轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310491577.6A CN116430900B (zh) 2023-05-04 2023-05-04 基于深度强化学习的高超声速弹头的博弈轨迹规划方法

Publications (2)

Publication Number Publication Date
CN116430900A true CN116430900A (zh) 2023-07-14
CN116430900B CN116430900B (zh) 2023-12-05

Family

ID=87087286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310491577.6A Active CN116430900B (zh) 2023-05-04 2023-05-04 基于深度强化学习的高超声速弹头的博弈轨迹规划方法

Country Status (1)

Country Link
CN (1) CN116430900B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118466207A (zh) * 2024-05-21 2024-08-09 哈尔滨工业大学 一种基于深度强化学习的反坦克导弹三维轨迹规划方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217041A (zh) * 2013-05-29 2014-12-17 北京航空航天大学 一种多约束在线高斯伪谱末制导方法
CN109858106A (zh) * 2019-01-11 2019-06-07 南京航空航天大学 基于高斯伪谱法的飞行器小翼伸缩量优化方法
CN111897214A (zh) * 2020-06-24 2020-11-06 哈尔滨工业大学 一种基于序列凸优化的高超声速飞行器轨迹规划方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN113050686A (zh) * 2021-03-19 2021-06-29 北京航空航天大学 一种基于深度强化学习的作战策略优化方法及系统
CN114253296A (zh) * 2021-12-22 2022-03-29 中国人民解放军国防科技大学 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN114485676A (zh) * 2022-02-18 2022-05-13 四川大学 一种分布式飞行雷达平台的航迹规划方法
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115357051A (zh) * 2022-10-18 2022-11-18 北京理工大学 变形与机动一体化的规避与突防方法
CN115903887A (zh) * 2022-11-09 2023-04-04 北京九天翱翔科技有限公司 一种基于强化学习的高超声速飞行器轨迹规划方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217041A (zh) * 2013-05-29 2014-12-17 北京航空航天大学 一种多约束在线高斯伪谱末制导方法
CN109858106A (zh) * 2019-01-11 2019-06-07 南京航空航天大学 基于高斯伪谱法的飞行器小翼伸缩量优化方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN111897214A (zh) * 2020-06-24 2020-11-06 哈尔滨工业大学 一种基于序列凸优化的高超声速飞行器轨迹规划方法
CN113050686A (zh) * 2021-03-19 2021-06-29 北京航空航天大学 一种基于深度强化学习的作战策略优化方法及系统
CN114253296A (zh) * 2021-12-22 2022-03-29 中国人民解放军国防科技大学 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN114485676A (zh) * 2022-02-18 2022-05-13 四川大学 一种分布式飞行雷达平台的航迹规划方法
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115357051A (zh) * 2022-10-18 2022-11-18 北京理工大学 变形与机动一体化的规避与突防方法
CN115903887A (zh) * 2022-11-09 2023-04-04 北京九天翱翔科技有限公司 一种基于强化学习的高超声速飞行器轨迹规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUOCEN TIAN 等: "Avoidance of no-fly zone for Hypersonic Vehicle based on Adaptice Radau Pseudospectral Method", 2022 7TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND SIGNAL PROCESSING (ICSP) *
姚瑞琦 等: "面向雷达目标检测性能的多弹协同航迹规划", 战术导弹技术, no. 4 *
马文: "基于深度强化学习的空战博弈决策研究", 中国优秀硕士学位论文全文数据库社会科学Ⅰ辑, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118466207A (zh) * 2024-05-21 2024-08-09 哈尔滨工业大学 一种基于深度强化学习的反坦克导弹三维轨迹规划方法

Also Published As

Publication number Publication date
CN116430900B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
Sharma et al. Adaptive, integrated guidance and control for missile interceptors
CN116430900B (zh) 基于深度强化学习的高超声速弹头的博弈轨迹规划方法
Bai et al. UAV maneuvering decision-making algorithm based on twin delayed deep deterministic policy gradient algorithm
CN112506218B (zh) 一种基于轨迹智能预测的再入飞行器任意禁飞区绕飞方法
CN110412874A (zh) 针对机动目标和时延通信的多导弹协同制导律设计方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
Lee et al. Autonomous control of combat unmanned aerial vehicles to evade surface-to-air missiles using deep reinforcement learning
CN110673488A (zh) 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法
CN115033024A (zh) 基于攻击时间和角度共同约束的多导弹三维协同制导方法
CN114020021A (zh) 一种多导弹分布式协同制导律的设计方法及系统
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
Zhuang et al. Optimization of high-speed fixed-wing UAV penetration strategy based on deep reinforcement learning
CN114153143A (zh) 一种导弹非奇异固定时间滑模制导律的设计方法
Shi et al. Cooperative prediction guidance law in target-attacker-defender scenario
CN115357051B (zh) 变形与机动一体化的规避与突防方法
Minglang et al. Maneuvering decision in short range air combat for unmanned combat aerial vehicles
CN114610057B (zh) 一种高马赫飞行器机动突防策略设计方法
CN115046433B (zh) 基于深度强化学习的飞行器时间协同制导方法
Wang et al. An Autonomous Attack Decision-Making Method Based on Hierarchical Virtual Bayesian Reinforcement Learning
Fan et al. Two‐Loop Acceleration Autopilot Design and Analysis Based on TD3 Strategy
Xue et al. Research on Ballistic Planning Method Based on Improved DDPG Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant