CN115657711A - 一种基于深度强化学习的高超声速飞行器规避制导方法 - Google Patents

一种基于深度强化学习的高超声速飞行器规避制导方法 Download PDF

Info

Publication number
CN115657711A
CN115657711A CN202211227304.2A CN202211227304A CN115657711A CN 115657711 A CN115657711 A CN 115657711A CN 202211227304 A CN202211227304 A CN 202211227304A CN 115657711 A CN115657711 A CN 115657711A
Authority
CN
China
Prior art keywords
aircraft
guidance
representing
constraint
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211227304.2A
Other languages
English (en)
Other versions
CN115657711B (zh
Inventor
王宏伦
武天才
李娜
刘一恒
任斌
杨志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211227304.2A priority Critical patent/CN115657711B/zh
Publication of CN115657711A publication Critical patent/CN115657711A/zh
Application granted granted Critical
Publication of CN115657711B publication Critical patent/CN115657711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明一种基于深度强化学习的高超声速飞行器规避制导方法,属于飞行器导航、制导与控制领域;具体为:针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程,以及该方程需要满足的再入飞行约束;然后,建立满足再入飞行约束的纵向和侧向制导方法;最后,将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化侧向制导方法中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。本发明通过采用深度强化学习方法进行算法参数的在线优化,提升了飞行器在不同飞行环境中的规避性能和自适应能力。

Description

一种基于深度强化学习的高超声速飞行器规避制导方法
技术领域
本发明属于飞行器导航、制导与控制领域,具体涉及一种基于深度强化学习的高超声速飞行器规避制导方法。
背景技术
高超声速再入飞行器因其航程远、速度快和机动灵活的特性而备受关注,已成为二十一世纪各国军事竞争的焦点。再入制导算法的作用是在满足多个约束条件的同时,将飞行器从初始再入点导引至末制导或终端区域能量管理段,对完成飞行任务起到至关重要的作用。近年来,随着飞行任务和飞行环境的日益复杂,对再入制导算法也提出了更严苛的要求。此外,由于政治敏感区域的存在和各国反导系统的发展,禁飞区的规避问题也应在制导算法设计中予以考虑。
对于飞行器的再入制导问题而言,制导方法一般由纵向和侧向制导两部分构成。其中,纵向制导用于倾侧角幅值和攻角的求取来满足飞行器的航程要求;侧向制导用于倾侧角符号的求取来满足飞行器的横侧向精度要求。因此,在侧向制导方法设计中增加有关禁飞区的规避逻辑,通过飞行器的横侧向机动来避开禁飞区,成为一种可行的禁飞区规避实现方法。
目前,研究人员通过离线设置参考航路点、动态调整航向角误差走廊、人工势场等方法进行侧向规避制导逻辑的设计。但是,这些方法存在需提前已知禁飞区信息、或无法同时考虑多个禁飞区、或算法适应能力较差等缺点。此外,高超声速飞行器再入过程中高度、速度变化范围较大,飞行器的气动特性和机动能力差异巨大;整个飞行过程中禁飞区分布复杂,甚至存在需在线探测的禁飞区;这些因素也导致目前规避制导算法仍存在规避性能较差的缺点。
因此,如何设计有效的规避制导方法,在不影响飞行器终端任务完成能力的前提下,实现对禁飞区的有效规避,成为学者们亟待解决的问题。
发明内容
本发明为了突破现有高超声速飞行器规避制导方法存在的规避性能差、自适应能力差等缺点,结合新一代人工智能的最新研究成果,提出一种基于深度强化学习的高超声速飞行器规避制导方法。
具体包括以下步骤:
步骤一、针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程;
运动方程计算公式如下:
Figure BDA0003880142390000021
Figure BDA0003880142390000022
Figure BDA0003880142390000023
Figure BDA0003880142390000024
Figure BDA0003880142390000025
Figure BDA0003880142390000026
fV,fθ,
Figure BDA0003880142390000027
分别定义如下:
Figure BDA0003880142390000028
Figure BDA0003880142390000029
Figure BDA00038801423900000210
其中,r表示地心与飞行器质心之间的距离,V表示飞行器的速度,θ表示飞行器的弹道倾角,λ和φ分别表示经度和纬度,ψs表示飞行器的航向角,m表示飞行器的质量,g表示重力加速度,ωe表示地球自转角速率,L和D分别表示飞行器的升力和阻力,γs表示飞行器的倾侧角,也是再入制导中的唯一控制量。
步骤二、建立三自由度方程质点运动方程需要满足的再入飞行约束;
再入飞行约束包括过程约束、终端约束和禁飞区约束。
过程约束包括:热流密度约束
Figure BDA00038801423900000211
动压约束Q、过载约束n和准平衡滑翔约束;
表示如下:
Figure BDA00038801423900000212
Q=0.5ρV2≤Qmax (11)
Figure BDA00038801423900000213
Lcosγs/(mV)+(V/r-g/V)=0 (13)
其中,KQ为与飞行器相关的常值参数,ρ表示大气密度,
Figure BDA00038801423900000214
Qmax和nmax分别为热流密度约束、动压约束和过载约束的最大幅值。
终端约束包括终端高度、速度、经度和纬度约束;表示如下:
r(ef)=rf,V(ef)=Vf,λ(ef)=λf,φ(ef)=φf (14)
其中,rf,Vfff分别为飞行器给定的终端高度、速度、经度和纬度,ef=1/rf-Vf 2/2表示给定的终端能量。
禁飞区约束采用标准凸多面体进行建模,表示如下:
Figure BDA0003880142390000031
其中,
Figure BDA0003880142390000032
表示飞行器当前的经度、纬度和归一化的高度;
Figure BDA0003880142390000033
表示禁飞区地面中心的经度、纬度和归一化的高度;a,b,c和p,q,r均为大于零的数;
Γ(P)=1表示飞行器在禁飞区包络表面,Γ(P)>1表示禁飞区包络外部区域,Γ(P)<1表示禁飞区包络内部区域。
步骤三、建立三自由度质点运动方程以及满足再入飞行约束的纵向制导方法;
纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取;具体为:
步骤301、在每个制导周期内,给定一个初始倾侧角γs,i的幅值。
步骤302、从飞行器当前状态对运动方程进行积分,以飞行器能量e达到给定终端能量ef为停止条件,进行飞行器终端状态的预测;得到给定倾侧角幅值|γs,i|作用下,飞行器的待飞航程偏差fi(|γs,i|);
计算公式为:
Figure BDA0003880142390000034
其中,Spt,togo表示飞行器当前位置与预测的终端位置的星下点圆弧长度,
Figure BDA0003880142390000035
表示飞行器当前位置与给定的终端位置的星下点圆弧长度;表示如下:
Spt,togo=arccos(sinφsinφpt+cosφcosφptcos(λpt-λ)) (17)
Figure BDA0003880142390000036
其中,λptpt表示预测的飞行器终端的经度与纬度;
步骤303、由割线法快速求解当前制导周期内,使待飞航程偏差fi(|γs,i|)为零的倾侧角幅值;
具体计算公式如下:
Figure BDA0003880142390000037
其中,i表示当前制导周期内的割线法迭代次数。
步骤304、借助准平衡滑翔约束,对热流密度约束、动压约束和过载约束进行转化,得到飞行器倾侧角的幅值约束|γs|max
具体表达如下:
Figure BDA0003880142390000038
其中,
Figure BDA0003880142390000041
分别表示由热流密度约束、动压约束和过载约束转化得到的倾侧角的幅值约束。
步骤四、建立三自由度质点运动方程以及满足再入飞行约束的侧向制导方法;
侧向制导采用扰动流体算法进行期望航向角的求取,然后结合航向角误差走廊,进行倾侧角符号的求取。
具体步骤如下:
步骤401,以汇流作为初始流场,其流速u(P)定义为:
Figure BDA0003880142390000042
式中,飞行器的速度V表示汇流速率;
Figure BDA0003880142390000043
Figure BDA00038801423900000412
表示飞行器给定的归一化高度;d(P,Pf)表示飞行器当前位置P与给定终端位置Pf的欧式距离。
步骤402,假设环境中有K个禁飞区,将禁飞区对初始流场的扰动影响用扰动矩阵M(P)量化表示:
Figure BDA0003880142390000044
其中,Mk(P)为第k个禁飞区的扰动矩阵,ωk(P)表示第k个禁飞区的权重系数。
第k个禁飞区的扰动矩阵Mk(P)定义为:
Figure BDA0003880142390000045
其中,I表示单位矩阵,nk(P)表示第k个禁飞区的径向法向量,Γk(P)表示第k个禁飞区的约束函数,σk表示切向反应系数,tk(P)=Rkt′k(P),t′k(P)=[cosθk sinθk 0]T,θk∈[-π,π]为切向方向系数;Rk表示坐标旋转矩阵。
切向反应系数σk决定了飞行器的规避时机,值越大,规避禁飞区的时机越早;切向方向系数θk决定了飞行器遇到禁飞区后的规避方向。
步骤403,利用扰动矩阵
Figure BDA0003880142390000046
修正初始流场流速,得到扰动流场流速
Figure BDA0003880142390000047
Figure BDA0003880142390000048
步骤404,根据扰动流场流速
Figure BDA0003880142390000049
计算下一时刻飞行器的位置:
Figure BDA00038801423900000410
其中,
Figure BDA00038801423900000411
分别表示下一制导周期飞行器的经度、纬度和归一化的高度,ΔT表示制导周期。
步骤405,根据飞行器当前时刻的位置和下一时刻的位置,得出期望的航向角,进一步计算航向角误差Δψ;
期望的航向角ψN表示如下:
Figure BDA0003880142390000051
则可得航向角误差Δψ,表示如下:
Δψ=ψsN (27)
步骤406,根据航向角误差走廊,求得当前时刻的侧向制导指令,即倾侧角的符号。
Figure BDA0003880142390000052
其中,sgn(|γs,i|)表示当前时刻的倾侧角的符号,sgn(|γs,i-1|)表示上一制导时刻的倾侧角的符号,Δψup,Δψdown分别表示航向角误差走廊的上界与下界。
步骤五、将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化优化切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
具体步骤如下:
首先,分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体;
构建的深度强化学习PPO智能体,包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建。
PPO智能体所观测的输入设计为:
s=[r,λ,φ,V,θ,ψs,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK,Δλf,Δφf] (29)
其中,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK表示飞行器当前位置和第k个禁飞区中心的经纬度之差,K表示禁飞区的个数,Δλf,Δφf表示飞行器与终端位置的经纬度之差。
PPO智能体的动作输出设计为:
a=[σk θk] (30)
PPO智能体的奖励函数设计为:
r=r11(P))+…+rkk(P))+…+rKK(P))+rff(P)) (31)
其中,r11(P)),…,rkk(P)),…,rKK(P))表示与禁飞区相关的奖励函数,rff(P))表示与终端位置相关的奖励函数,Γk(P)表示飞行器到第k个禁飞区的距离,Γf(P)表示飞行器和终端位置的距离。
奖励函数项rkk(P))设计如下:
Figure BDA0003880142390000061
其中,RC表示禁飞区半径,-1000为强奖励项,
Figure BDA0003880142390000062
为弱激励项,引导飞行器远离禁飞区。
奖励函数项rff(P))设计如下:
Figure BDA0003880142390000063
其中,Rf表示终端位置半径,1000为强奖励项,-Γf(P)为弱激励项,引导飞行器向终端位置飞行。
PPO智能体的网络结构搭建:PPO智能体包括1个策略网络和1个评价网络,均采用深度全连接网络进行构建。
然后,在所构建的训练环境和智能体的基础上,进行深度强化学习PPO算法的充分迭代,得到训练好的策略网络。
策略网络根据观测到的飞行器当前状态进行计算,在线输出侧向制导中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
本发明的优点在于:
(1)一种基于深度强化学习的高超声速飞行器规避制导方法,通过采用扰动流体算法进行侧向规避制导逻辑设计,具有可以综合考虑所有已知禁飞区影响的优势;
(2)一种基于深度强化学习的高超声速飞行器规避制导方法,通过采用深度强化学习方法进行算法参数的在线优化,提升了飞行器在不同飞行环境中的规避性能和自适应能力;
(3)一种基于深度强化学习的高超声速飞行器规避制导方法,其侧向制导算法部分可以与其他多种纵向制导方法进行结合,具有极强的可拓展性。
附图说明
图1为本发明一种基于深度强化学习的高超声速飞行器规避制导方法的流程图;
图2为本发明一种基于深度强化学习的高超声速飞行器规避制导方法的总体框架图;
图3为本发明深度强化学习的训练结构图;
图4为本发明深度强化学习智能体的网络结构图;
图5为本发明与航向角误差走廊动态调整、人工势场方法的规避效果对比图;
图6为本发明与航向角误差走廊动态调整、人工势场方法的制导指令对比图;
图7为本发明深度强化学习输出的扰动流体算法参数曲线图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图和实施例对本发明作进一步的详细描述。
如图1和图2所示,具体描述如下:
步骤一、针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程;
考虑地球曲率和自转角速率,高超声速再入飞行器的三自由度质点运动方程计算公式如下:
Figure BDA00038801423900000710
Figure BDA0003880142390000071
Figure BDA0003880142390000072
Figure BDA0003880142390000073
Figure BDA0003880142390000074
Figure BDA0003880142390000075
fV,fθ,
Figure BDA0003880142390000076
分别定义如下:
Figure BDA0003880142390000077
fθ=2ωeVcosφsinψse 2rcosφ(cosθcosφ+sinθcosψssinφ) (8)
Figure BDA0003880142390000078
其中,r表示地心与飞行器质心之间的距离(地心距),V表示飞行器的速度,θ表示飞行器的弹道倾角,λ和φ分别表示经度和纬度,ψs表示飞行器的航向角,m表示飞行器的质量,g表示重力加速度,g=μ/r2,μ表示地球引力常数;ωe表示地球自转角速率,L和D分别表示飞行器的升力和阻力,L=QSCL和D=QSCD,Q表示动压,S表示飞行器的参考面积,CL和CD分别表示升力和阻力系数,γs表示飞行器的倾侧角,也是再入制导中的唯一控制量。
步骤二、建立三自由度方程质点运动方程需要满足的再入飞行约束;
考虑禁飞区规避的再入制导问题,其再入飞行约束包括过程约束、终端约束和禁飞区约束。
过程约束包括:热流密度约束
Figure BDA0003880142390000079
动压约束Q、过载约束n和准平衡滑翔约束;
表示如下:
Figure BDA0003880142390000081
Q=0.5ρV2≤Qmax (11)
Figure BDA0003880142390000082
Lcosγs/(mV)+(V/r-g/V)=0 (13)
其中,KQ为与飞行器相关的常值参数,ρ表示大气密度,
Figure BDA0003880142390000083
Qmax和nmax分别为热流密度约束、动压约束和过载约束的最大幅值,由飞行器本身的结构和材料所决定。
终端约束包括终端高度、速度、经度和纬度约束;定义能量e=1/r-V2/2作为自变量,则终端约束表示如下:
r(ef)=rf,V(ef)=Vf,λ(ef)=λf,φ(ef)=φf (14)
其中,rf,Vfff分别为飞行器给定的终端高度、速度、经度和纬度,ef=1/rf-Vf 2/2表示给定的终端能量。
禁飞区是指飞行轨迹不能从其上方经过的区域,一般采用无限高的圆柱模型来描述禁飞区约束,本发明为方便所提制导方法设计,采用标准凸多面体进行禁飞区约束建模:
Figure BDA0003880142390000084
其中,
Figure BDA0003880142390000085
表示飞行器当前的经度、纬度和归一化的高度;
Figure BDA0003880142390000086
表示禁飞区地面中心的经度、纬度和归一化的高度;由于经度、纬度单位均为弧度,飞行器高度单位为m,为减轻因数值大小差异过大造成的对模型的影响,将高度进行归一化处理
Figure BDA0003880142390000087
R0表示地球半径。
a,b,c和p,q,r均为大于零的数;它们分别决定了禁飞区的覆盖范围与形状,选取p=q=1,r>1,a=b=Rc,c取较大的数即可表示禁飞区为无限高的圆柱,Rc表示禁飞区的半径。
Γ(P)=1表示飞行器在禁飞区包络表面,Γ(P)>1表示禁飞区包络外部区域,Γ(P)<1表示禁飞区包络内部区域。
步骤三、建立三自由度质点运动方程以及满足再入飞行约束的纵向制导方法;
纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取;具体为:
步骤301、在每个制导周期内,给定一个初始倾侧角γs,i的幅值。
步骤302、从飞行器当前状态对运动方程进行积分,以飞行器能量e达到给定终端能量ef为停止条件,进行飞行器终端状态的预测;得到给定倾侧角幅值|γs,i|作用下,飞行器的待飞航程偏差fi(|γs,i|);
计算公式为:
Figure BDA0003880142390000091
其中,Spt,togo表示飞行器当前位置与预测的终端位置的星下点圆弧长度,
Figure BDA0003880142390000092
表示飞行器当前位置与给定的终端位置的星下点圆弧长度;表示如下:
Spt,togo=arccos(sinφsinφpt+cosφcosφptcos(λpt-λ)) (17)
Figure BDA0003880142390000093
其中,λ,φ表示飞行器当前的经度与纬度,λptpt表示预测的飞行器终端的经度与纬度;λff表示给定的飞行器终端的经度与纬度。
步骤303、由割线法快速求解当前制导周期内,使待飞航程偏差fi(|γs,i|)为零的倾侧角幅值;
具体计算公式如下:
Figure BDA0003880142390000094
其中,i表示当前制导周期内的割线法迭代次数;由此,即可求得当前制导周期内倾侧角的幅值。
步骤304、借助准平衡滑翔约束,对热流密度约束、动压约束和过载约束进行转化,得到飞行器倾侧角的幅值约束|γs|max
具体表达如下:
Figure BDA0003880142390000095
其中,
Figure BDA0003880142390000096
分别表示由热流密度约束、动压约束和过载约束转化得到的倾侧角的幅值约束。
步骤四、建立三自由度质点运动方程以及满足再入飞行约束的侧向制导方法;
本发明采用扰动流体算法进行侧向制导指令的求取,扰动流体算法提取了自然界流水避石现象,与飞行器规避禁飞区问题有相似之处。当河流中没有石头时(飞行过程中没有需要躲避的禁飞区),笔直的流水可看作初始流场,水流沿初始流场由当前位置向终端位置流去;当河流中存在石头时(飞行过程中存在需要躲避的禁飞区),绕过石头的流水可等效为扰动流场,水流沿扰动流场由当前位置向终端位置流去。
侧向制导采用扰动流体算法进行期望航向角的求取,然后结合航向角误差走廊,进行倾侧角符号的求取。
具体步骤如下:
步骤401,以汇流作为初始流场,其流速u(P)定义为:
Figure BDA0003880142390000101
式中,V表示汇流速率,即飞行器速度;
Figure BDA0003880142390000102
λf,φf
Figure BDA0003880142390000103
分别表示飞行器给定的终端经度、纬度和归一化的高度;λ,φ,
Figure BDA0003880142390000104
表示飞行器当前的经度、纬度和归一化的高度;d(P,Pf)表示飞行器当前位置P与给定终端位置Pf的欧式距离:
Figure BDA0003880142390000105
当环境中不存在禁飞区时,u(P)即可作为飞行器的飞行速度。
步骤402,假设环境中有K个禁飞区,将禁飞区对初始流场的扰动影响用扰动矩阵M(P)量化表示:
Figure BDA0003880142390000106
其中,Mk(P)为第k个禁飞区的扰动矩阵,ωk(P)表示第k个禁飞区的权重系数。
第k个禁飞区的扰动矩阵Mk(P)定义为:
Figure BDA0003880142390000107
其中,I表示单位矩阵,nk(P)表示第k个禁飞区的径向法向量,Γk(P)表示第k个禁飞区的约束函数,σk表示切向反应系数,tk(P)=Rkt′k(P),t′k(P)=[cosθk sinθk 0]T,θk∈[-π,π]为切向方向系数,表示任意切向量与向量tk,1(P)的夹角,tk,1(P)和tk,2(P)为与第k个禁飞区径向法向量nk(P)垂直的切平面S上,所互相垂直的两个切向量;
tk,1(P)定义为:
Figure BDA0003880142390000108
tk,2(P)定义为:
Figure BDA0003880142390000109
Rk表示由tk,1(P)作为x′轴,tk,2(P)作为y′轴,nk(P)作为z′轴所建立的坐标系o′-x′y′z′和地面坐标系间的坐标旋转矩阵。
第k个禁飞区的权重系数ωk(P)主要取决于飞行器与禁飞区包络表面的距离,通常距离越大权重系数越小,定义如下:
Figure BDA00038801423900001010
其中,Γi(P)禁飞区约束函数;由于
Figure BDA00038801423900001011
因此对权重系数进一步处理如下:
Figure BDA0003880142390000111
切向反应系数σk决定了飞行器的规避时机,值越大,规避禁飞区的时机越早;切向方向系数θk决定了飞行器遇到禁飞区后的规避方向。
步骤403,利用扰动矩阵
Figure BDA0003880142390000112
修正初始流场流速,得到扰动流场流速
Figure BDA0003880142390000113
Figure BDA0003880142390000114
步骤404,根据扰动流场流速
Figure BDA0003880142390000115
计算下一时刻飞行器的位置:
Figure BDA0003880142390000116
其中,
Figure BDA0003880142390000117
分别表示下一制导周期飞行器的经度、纬度和归一化的高度,ΔT表示制导周期。
步骤405,根据飞行器当前时刻的位置和下一时刻的位置,得出期望的航向角,进一步计算当前时刻的航向角误差Δψ;
期望的航向角ψN表示如下:
Figure BDA0003880142390000118
则可得航向角误差Δψ,表示如下:
Δψ=ψsN (30)
步骤406,根据航向角误差走廊,求得当前时刻的侧向制导指令,即倾侧角的符号。
Figure BDA0003880142390000119
其中,sgn(|γs,i|)表示当前时刻的倾侧角的符号,sgn(|γs,i-1|)表示上一制导时刻的倾侧角的符号,Δψup,Δψdown分别表示航向角误差走廊的上界与下界。
步骤五、将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化优化切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
扰动流体算法中,决定飞行器规避成功与否以及规避性能的两个关键算法参数是:切向反应系数σk和切向方向系数θk
由于在再入过程中高度、速度变化范围较大,飞行器的气动特性和机动能力差异巨大,因此,需要根据实际情况通过人工经验选取或采用优化策略来调整反应系数σk和方向系数θk,提升规避的性能。
本发明采用近端策略优化(Proximal Policy Optimization,PPO)深度强化学习算法进行智能体训练,以根据飞行器当前状态,进行扰动流体算法中的切向反应系数σk和切向方向系数θk的在线优化,提升飞行器在不同飞行环境中的规避性能和自适应能力。
具体步骤如下:
首先,分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体;
根据飞行器运动方程和再入飞行约束模型,以及高超声速飞行器再入规避制导方法进行深度强化学习的训练环境的构建,如图3所示。
构建的深度强化学习PPO智能体,包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建。
PPO智能体所观测的输入设计为:
s=[r,λ,φ,V,θ,ψs,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK,Δλf,Δφf] (32)
其中,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK表示飞行器当前位置和第k个禁飞区中心的经纬度之差,K表示禁飞区的个数,r,λ,φ,V,θ,ψs表示飞行器当前的飞行状态,Δλf,Δφf表示飞行器与终端位置的经纬度之差。
PPO智能体的动作输出设计为:
a=[σk θk] (33)
σkk分别为扰动流体算法中的参数。
PPO智能体的奖励函数设计为:
r=r11(P))+…+rkk(P))+…+rKK(P))+rff(P)) (34)
其中,r11(P)),…,rkk(P)),…,rKK(P))表示与禁飞区相关的奖励函数,rff(P))表示与终端位置相关的奖励函数,Γk(P)表示飞行器到第k个禁飞区的距离,Γf(P)表示飞行器和终端位置的距离。
奖励函数项rkk(P))设计如下:
Figure BDA0003880142390000121
其中,RC表示禁飞区半径,-1000为强奖励项,
Figure BDA0003880142390000122
为弱激励项,引导飞行器远离禁飞区。
奖励函数项rff(P))设计如下:
Figure BDA0003880142390000131
其中,Rf表示终端位置半径,1000为强奖励项,-Γf(P)为弱激励项,引导飞行器向终端位置飞行。
PPO智能体的网络结构搭建:PPO智能体包括1个策略网络和1个评价网络,均采用深度全连接网络进行构建,如图4所示。
然后,在所构建的训练环境和智能体的基础上,进行深度强化学习PPO算法的充分迭代,得到训练好的策略网络。
深度强化学习PPO算法流程如下所示:
(1)利用随机参数θ和θold初始化策略网络πθ和旧策略网络
Figure BDA0003880142390000132
然后在每个训练回合中进行如下循环:
(2)初始化训练环境,执行策略πθ(a|s),交互获得整个训练回合的数据时间序列Rt,t=1,2,…,T;
(3)根据获得的数据时间序列Rt计算优势函数
Figure BDA0003880142390000133
(4)对数据时间序列进行采样,然后计算目标函数
Figure BDA0003880142390000134
关于的θ梯度,进行参数θ的更新;
(5)将更新后的参数θ复制给旧策略网络θold
将该训练好的策略网络与侧向制导及纵向制导结合,得到基于深度强化学习的高超声速飞行器规避制导方法;策略网络根据观测到的飞行器当前状态进行计算,在线输出侧向制导中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
实施例:
为检验本发明一种基于深度强化学习的高超声速飞行器规避制导方法的有效性,以通用航天器为实施例,进行仿真验证。
飞行器初始状态设置为:
h0=80km,V0=7.1km/s,λ0=10°,φ0=-20°,θ0=-1°,ψs,0=45°。路径约束的限幅值设置为:
Figure BDA0003880142390000135
qmax=200kPa,nmax=4.5。
飞行器终端状态设置为:hf=20km,Vf=1.8km/s,λ0=90°,φ0=30°。
本发明所提规避制导方法与航向角误差走廊动态调整、人工势场方法的规避效果对比如图5所示,在复杂禁飞区分布的再入制导飞行场景中,在航向角误差走廊动态调整、人工势场方法作用下,飞行器均进入禁飞区,导致任务失败;只有在本发明所提规避制导方法作用下,飞行器可以成功规避所有禁飞区,成功抵达目标终端位置。
本发明所提规避制导方法与航向角误差走廊动态调整、人工势场方法的制导指令对比如图6所示,在飞行器规避性能提升的同时,本发明所提规避制导方法的倾侧角翻转次数并无明显提升,具有较强的易实现性。
图7给出了本发明深度强化学习输出的扰动流体算法参数曲线图,在整个飞行过程中,由于飞行器高度、速度变化范围巨大,导致飞行器气动特性和机动能力的变化也较为明显,深度强化学习可以根据当前状态进行算法参数的在线优化,以提升本发明所提规避制导算法的规避性能和自适应能力。
综合上述对实施例的仿真验证,证明了本发明一种基于深度强化学习的高超声速飞行器规避制导方法的有效性。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (5)

1.一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,具体包括以下步骤:
首先、针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程;
运动方程计算公式如下:
Figure FDA0003880142380000011
Figure FDA0003880142380000012
Figure FDA0003880142380000013
Figure FDA0003880142380000014
Figure FDA0003880142380000015
Figure FDA0003880142380000016
fV,fθ,fψs分别定义如下:
fV=ωe 2rcosφ(sinθcosφ-cosθsinφcosψs) (7)
fθ=2ωeVcosφsinψse 2rcosφ(cosθcosφ+sinθcosψssinφ) (8)
Figure FDA0003880142380000017
其中,r表示地心与飞行器质心之间的距离,V表示飞行器的速度,θ表示飞行器的弹道倾角,λ和φ分别表示经度和纬度,ψs表示飞行器的航向角,m表示飞行器的质量,g表示重力加速度,ωe表示地球自转角速率,L和D分别表示飞行器的升力和阻力,γs表示飞行器的倾侧角,也是再入制导中的唯一控制量;
然后、建立三自由度方程质点运动方程需要满足的再入飞行约束;并进一步分别建立三自由度质点运动方程以及满足再入飞行约束的纵向和侧向制导方法;
纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取;侧向制导采用扰动流体算法进行期望航向角的求取,然后结合航向角误差走廊,进行倾侧角符号的求取;
最后、将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化优化切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
2.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述再入飞行约束包括过程约束、终端约束和禁飞区约束;
过程约束包括:热流密度约束
Figure FDA0003880142380000018
动压约束Q、过载约束n和准平衡滑翔约束;
表示如下:
Figure FDA0003880142380000021
Q=0.5ρV2≤Qmax (11)
Figure FDA0003880142380000022
Lcosγs/(mV)+(V/r-g/V)=0 (13)
其中,KQ为与飞行器相关的常值参数,ρ表示大气密度,
Figure FDA0003880142380000023
Qmax和nmax分别为热流密度约束、动压约束和过载约束的最大幅值;
终端约束包括终端高度、速度、经度和纬度约束;表示如下:
r(ef)=rf,V(ef)=Vf,λ(ef)=λf,φ(ef)=φf (14)
其中,rf,Vfff分别为飞行器给定的终端高度、速度、经度和纬度,ef=1/rf-Vf 2/2表示给定的终端能量;
禁飞区约束采用标准凸多面体进行建模,表示如下:
Figure FDA0003880142380000024
其中,
Figure FDA0003880142380000025
表示飞行器当前的经度、纬度和归一化的高度;
Figure FDA0003880142380000026
表示禁飞区地面中心的经度、纬度和归一化的高度;a,b,c和p,q,r均为大于零的数;
Γ(P)=1表示飞行器在禁飞区包络表面,Γ(P)>1表示禁飞区包络外部区域,Γ(P)<1表示禁飞区包络内部区域。
3.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述纵向制导求取倾侧角幅值,具体为:
步骤301、在每个制导周期内,给定一个初始倾侧角γs,i的幅值;
步骤302、从飞行器当前状态对运动方程进行积分,以飞行器能量e达到给定终端能量ef为停止条件,进行飞行器终端状态的预测;得到给定倾侧角幅值|γs,i|作用下,飞行器的待飞航程偏差fi(|γs,i|);
计算公式为:
Figure FDA0003880142380000027
其中,Spt,togo表示飞行器当前位置与预测的终端位置的星下点圆弧长度,
Figure FDA0003880142380000028
表示飞行器当前位置与给定的终端位置的星下点圆弧长度;表示如下:
Spt,togo=arccos(sinφsinφpt+cosφcosφptcos(λpt-λ)) (17)
Figure FDA0003880142380000029
其中,λptpt表示预测的飞行器终端的经度与纬度;
步骤303、由割线法快速求解当前制导周期内,使待飞航程偏差fi(|γs,i|)为零的倾侧角幅值;
具体计算公式如下:
Figure FDA0003880142380000031
其中,i表示当前制导周期内的割线法迭代次数;
步骤304、借助准平衡滑翔约束,对热流密度约束、动压约束和过载约束进行转化,得到飞行器倾侧角的幅值约束|γs|max
具体表达如下:
Figure FDA0003880142380000032
其中,
Figure FDA0003880142380000033
γs,max_Qs,max_n分别表示由热流密度约束、动压约束和过载约束转化得到的倾侧角的幅值约束。
4.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述侧向制导取倾侧角符号,具体为:
步骤401,以汇流作为初始流场,其流速u(P)定义为:
Figure FDA0003880142380000034
式中,飞行器的速度V表示汇流速率;
Figure FDA0003880142380000035
Figure FDA0003880142380000036
表示飞行器给定的归一化高度;d(P,Pf)表示飞行器当前位置P与给定终端位置Pf的欧式距离;
步骤402,假设环境中有K个禁飞区,将禁飞区对初始流场的扰动影响用扰动矩阵
Figure FDA0003880142380000037
量化表示:
Figure FDA0003880142380000038
其中,Mk(P)为第k个禁飞区的扰动矩阵,ωk(P)表示第k个禁飞区的权重系数;
第k个禁飞区的扰动矩阵Mk(P)定义为:
Figure FDA0003880142380000039
其中,I表示单位矩阵,nk(P)表示第k个禁飞区的径向法向量,Γk(P)表示第k个禁飞区的约束函数,σk表示切向反应系数,tk(P)=Rkt′k(P),t′k(P)=[cosθk sinθk 0]T,θk∈[-π,π]为切向方向系数;Rk表示坐标旋转矩阵;
切向反应系数σk决定了飞行器的规避时机,值越大,规避禁飞区的时机越早;切向方向系数θk决定了飞行器遇到禁飞区后的规避方向;
步骤403,利用扰动矩阵
Figure FDA00038801423800000310
修正初始流场流速,得到扰动流场流速
Figure FDA00038801423800000311
Figure FDA00038801423800000312
步骤404,根据扰动流场流速
Figure FDA0003880142380000041
计算下一时刻飞行器的位置:
Figure FDA0003880142380000042
其中,λt+1t+1,
Figure FDA0003880142380000043
分别表示下一制导周期飞行器的经度、纬度和归一化的高度,ΔT表示制导周期;
步骤405,根据飞行器当前时刻的位置和下一时刻的位置,得出期望的航向角,进一步计算航向角误差Δψ;
期望的航向角ψN表示如下:
Figure FDA0003880142380000044
则可得航向角误差Δψ,表示如下:
Δψ=ψsN (27)
步骤406,根据航向角误差走廊,求得当前时刻的侧向制导指令,即倾侧角的符号;
Figure FDA0003880142380000045
其中,sgn(|γs,i|)表示当前时刻的倾侧角的符号,sgn(|γs,i-1|)表示上一制导时刻的倾侧角的符号,Δψup,Δψdown分别表示航向角误差走廊的上界与下界。
5.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述深度强化学习算法与纵向制导和侧向制导相结合,在线优化优化切向反应系数σk和切向方向系数θk,具体为具体步骤如下:
首先,分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体;
构建的深度强化学习PPO智能体,包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建;
PPO智能体所观测的输入设计为:
s=[r,λ,φ,V,θ,ψs,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK,Δλf,Δφf] (29)
其中,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK表示飞行器当前位置和第k个禁飞区中心的经纬度之差,K表示禁飞区的个数,Δλf,Δφf表示飞行器与终端位置的经纬度之差;
PPO智能体的动作输出设计为:
a=[σk θk] (30)
PPO智能体的奖励函数设计为:
r=r11(P))+…+rkk(P))+…+rKK(P))+rff(P)) (31)
其中,r11(P)),…,rkk(P)),…,rKK(P))表示与禁飞区相关的奖励函数,rff(P))表示与终端位置相关的奖励函数,Γk(P)表示飞行器到第k个禁飞区的距离,Γf(P)表示飞行器和终端位置的距离;
奖励函数项rkk(P))设计如下:
Figure FDA0003880142380000051
其中,RC表示禁飞区半径,-1000为强奖励项,
Figure FDA0003880142380000052
为弱激励项,引导飞行器远离禁飞区;
奖励函数项rff(P))设计如下:
Figure FDA0003880142380000053
其中,Rf表示终端位置半径,1000为强奖励项,-Γf(P)为弱激励项,引导飞行器向终端位置飞行;
PPO智能体的网络结构搭建:PPO智能体包括1个策略网络和1个评价网络,均采用深度全连接网络进行构建;
然后,在所构建的训练环境和智能体的基础上,进行深度强化学习PPO算法的充分迭代,得到训练好的策略网络;
策略网络根据观测到的飞行器当前状态进行计算,在线输出侧向制导中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
CN202211227304.2A 2022-10-09 2022-10-09 一种基于深度强化学习的高超声速飞行器规避制导方法 Active CN115657711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211227304.2A CN115657711B (zh) 2022-10-09 2022-10-09 一种基于深度强化学习的高超声速飞行器规避制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211227304.2A CN115657711B (zh) 2022-10-09 2022-10-09 一种基于深度强化学习的高超声速飞行器规避制导方法

Publications (2)

Publication Number Publication Date
CN115657711A true CN115657711A (zh) 2023-01-31
CN115657711B CN115657711B (zh) 2024-07-05

Family

ID=84988195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211227304.2A Active CN115657711B (zh) 2022-10-09 2022-10-09 一种基于深度强化学习的高超声速飞行器规避制导方法

Country Status (1)

Country Link
CN (1) CN115657711B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115951585A (zh) * 2023-03-08 2023-04-11 中南大学 基于深度神经网络的高超声速飞行器再入制导方法
CN116039959A (zh) * 2023-02-13 2023-05-02 北京控制工程研究所 一种空间飞行器的规避机动控制方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256061A (zh) * 2020-10-30 2021-01-22 北京航空航天大学 复杂环境及任务约束下的高超声速飞行器再入制导方法
US20210181768A1 (en) * 2019-10-29 2021-06-17 Loon Llc Controllers for Lighter-Than-Air (LTA) Vehicles Using Deep Reinforcement Learning
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113741522A (zh) * 2021-09-03 2021-12-03 北京航空航天大学 一种基于无人机协同对峙监视的有害物扩散源搜索方法
CN115129088A (zh) * 2022-08-26 2022-09-30 中国人民解放军国防科技大学 基于频谱地图的无人机轨迹规划和避障方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210181768A1 (en) * 2019-10-29 2021-06-17 Loon Llc Controllers for Lighter-Than-Air (LTA) Vehicles Using Deep Reinforcement Learning
CN112256061A (zh) * 2020-10-30 2021-01-22 北京航空航天大学 复杂环境及任务约束下的高超声速飞行器再入制导方法
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113741522A (zh) * 2021-09-03 2021-12-03 北京航空航天大学 一种基于无人机协同对峙监视的有害物扩散源搜索方法
CN115129088A (zh) * 2022-08-26 2022-09-30 中国人民解放军国防科技大学 基于频谱地图的无人机轨迹规划和避障方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余跃;王宏伦;: "基于深度学习的高超声速飞行器再入预测校正容错制导", 兵工学报, no. 04, 15 April 2020 (2020-04-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116039959A (zh) * 2023-02-13 2023-05-02 北京控制工程研究所 一种空间飞行器的规避机动控制方法及装置
CN116039959B (zh) * 2023-02-13 2023-08-15 北京控制工程研究所 一种空间飞行器的规避机动控制方法及装置
CN115951585A (zh) * 2023-03-08 2023-04-11 中南大学 基于深度神经网络的高超声速飞行器再入制导方法
CN115951585B (zh) * 2023-03-08 2023-06-02 中南大学 基于深度神经网络的高超声速飞行器再入制导方法

Also Published As

Publication number Publication date
CN115657711B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
US20210164783A1 (en) Method for directly planning reentry trajectory in height-velocity profile
Jiang et al. UAV path planning and collision avoidance in 3D environments based on POMPD and improved grey wolf optimizer
CN115657711A (zh) 一种基于深度强化学习的高超声速飞行器规避制导方法
Han et al. Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles
Li et al. Stochastic gradient particle swarm optimization based entry trajectory rapid planning for hypersonic glide vehicles
Karimi et al. Optimal maneuver-based motion planning over terrain and threats using a dynamic hybrid PSO algorithm
Sebbane Lighter than air robots: guidance and control of autonomous airships
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN113065709B (zh) 一种基于强化学习的跨域异构集群路径规划方法
CN114840020A (zh) 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法
CN110908407B (zh) 一种rlv再入热流率跟踪的改进预测制导方法
CN111924139B (zh) 基于膨胀预警区的小天体着陆避障常推力控制方法
CN113093790B (zh) 一种基于解析模型的飞行器再入滑翔轨迹规划方法
Yu et al. Analytical entry guidance for no-fly-zone avoidance
Wu et al. An adaptive reentry guidance method considering the influence of blackout zone
CN115454115A (zh) 基于混合灰狼-粒子群算法的旋翼无人机路径规划方法
CN114003052B (zh) 一种基于动态补偿系统的固定翼无人机纵向运动鲁棒自适应控制方法
Chen et al. An improved spherical vector and truncated mean stabilization based bat algorithm for uav path planning
CN113093789B (zh) 一种基于路径点优选的飞行器禁飞区规避轨迹规划方法
CN115542746B (zh) 高超声速飞行器的能量管控再入制导方法及装置
CN117313233A (zh) 基于神经网络的助推滑翔飞行器发射诸元解算方法
Gao Autonomous soaring and surveillance in wind fields with an unmanned aerial vehicle
Wang et al. Entry guidance command generation for hypersonic glide vehicles under threats and multiple constraints
Chen et al. A Two‐Stage Method for UCAV TF/TA Path Planning Based on Approximate Dynamic Programming
Zhang et al. Integration of path planning and following control for the stratospheric airship with forecasted wind field data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant