CN115657711A - 一种基于深度强化学习的高超声速飞行器规避制导方法 - Google Patents
一种基于深度强化学习的高超声速飞行器规避制导方法 Download PDFInfo
- Publication number
- CN115657711A CN115657711A CN202211227304.2A CN202211227304A CN115657711A CN 115657711 A CN115657711 A CN 115657711A CN 202211227304 A CN202211227304 A CN 202211227304A CN 115657711 A CN115657711 A CN 115657711A
- Authority
- CN
- China
- Prior art keywords
- aircraft
- guidance
- representing
- constraint
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000002787 reinforcement Effects 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000002245 particle Substances 0.000 claims abstract description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013461 design Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- 239000012530 fluid Substances 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 241000838698 Togo Species 0.000 claims description 6
- 230000004907 flux Effects 0.000 claims description 6
- 206010048669 Terminal state Diseases 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000004575 stone Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明一种基于深度强化学习的高超声速飞行器规避制导方法,属于飞行器导航、制导与控制领域;具体为:针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程,以及该方程需要满足的再入飞行约束;然后,建立满足再入飞行约束的纵向和侧向制导方法;最后,将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化侧向制导方法中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。本发明通过采用深度强化学习方法进行算法参数的在线优化,提升了飞行器在不同飞行环境中的规避性能和自适应能力。
Description
技术领域
本发明属于飞行器导航、制导与控制领域,具体涉及一种基于深度强化学习的高超声速飞行器规避制导方法。
背景技术
高超声速再入飞行器因其航程远、速度快和机动灵活的特性而备受关注,已成为二十一世纪各国军事竞争的焦点。再入制导算法的作用是在满足多个约束条件的同时,将飞行器从初始再入点导引至末制导或终端区域能量管理段,对完成飞行任务起到至关重要的作用。近年来,随着飞行任务和飞行环境的日益复杂,对再入制导算法也提出了更严苛的要求。此外,由于政治敏感区域的存在和各国反导系统的发展,禁飞区的规避问题也应在制导算法设计中予以考虑。
对于飞行器的再入制导问题而言,制导方法一般由纵向和侧向制导两部分构成。其中,纵向制导用于倾侧角幅值和攻角的求取来满足飞行器的航程要求;侧向制导用于倾侧角符号的求取来满足飞行器的横侧向精度要求。因此,在侧向制导方法设计中增加有关禁飞区的规避逻辑,通过飞行器的横侧向机动来避开禁飞区,成为一种可行的禁飞区规避实现方法。
目前,研究人员通过离线设置参考航路点、动态调整航向角误差走廊、人工势场等方法进行侧向规避制导逻辑的设计。但是,这些方法存在需提前已知禁飞区信息、或无法同时考虑多个禁飞区、或算法适应能力较差等缺点。此外,高超声速飞行器再入过程中高度、速度变化范围较大,飞行器的气动特性和机动能力差异巨大;整个飞行过程中禁飞区分布复杂,甚至存在需在线探测的禁飞区;这些因素也导致目前规避制导算法仍存在规避性能较差的缺点。
因此,如何设计有效的规避制导方法,在不影响飞行器终端任务完成能力的前提下,实现对禁飞区的有效规避,成为学者们亟待解决的问题。
发明内容
本发明为了突破现有高超声速飞行器规避制导方法存在的规避性能差、自适应能力差等缺点,结合新一代人工智能的最新研究成果,提出一种基于深度强化学习的高超声速飞行器规避制导方法。
具体包括以下步骤:
步骤一、针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程;
运动方程计算公式如下:
其中,r表示地心与飞行器质心之间的距离,V表示飞行器的速度,θ表示飞行器的弹道倾角,λ和φ分别表示经度和纬度,ψs表示飞行器的航向角,m表示飞行器的质量,g表示重力加速度,ωe表示地球自转角速率,L和D分别表示飞行器的升力和阻力,γs表示飞行器的倾侧角,也是再入制导中的唯一控制量。
步骤二、建立三自由度方程质点运动方程需要满足的再入飞行约束;
再入飞行约束包括过程约束、终端约束和禁飞区约束。
表示如下:
Q=0.5ρV2≤Qmax (11)
Lcosγs/(mV)+(V/r-g/V)=0 (13)
终端约束包括终端高度、速度、经度和纬度约束;表示如下:
r(ef)=rf,V(ef)=Vf,λ(ef)=λf,φ(ef)=φf (14)
其中,rf,Vf,λf,φf分别为飞行器给定的终端高度、速度、经度和纬度,ef=1/rf-Vf 2/2表示给定的终端能量。
禁飞区约束采用标准凸多面体进行建模,表示如下:
Γ(P)=1表示飞行器在禁飞区包络表面,Γ(P)>1表示禁飞区包络外部区域,Γ(P)<1表示禁飞区包络内部区域。
步骤三、建立三自由度质点运动方程以及满足再入飞行约束的纵向制导方法;
纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取;具体为:
步骤301、在每个制导周期内,给定一个初始倾侧角γs,i的幅值。
步骤302、从飞行器当前状态对运动方程进行积分,以飞行器能量e达到给定终端能量ef为停止条件,进行飞行器终端状态的预测;得到给定倾侧角幅值|γs,i|作用下,飞行器的待飞航程偏差fi(|γs,i|);
计算公式为:
Spt,togo=arccos(sinφsinφpt+cosφcosφptcos(λpt-λ)) (17)
其中,λpt,φpt表示预测的飞行器终端的经度与纬度;
步骤303、由割线法快速求解当前制导周期内,使待飞航程偏差fi(|γs,i|)为零的倾侧角幅值;
具体计算公式如下:
其中,i表示当前制导周期内的割线法迭代次数。
步骤304、借助准平衡滑翔约束,对热流密度约束、动压约束和过载约束进行转化,得到飞行器倾侧角的幅值约束|γs|max;
具体表达如下:
步骤四、建立三自由度质点运动方程以及满足再入飞行约束的侧向制导方法;
侧向制导采用扰动流体算法进行期望航向角的求取,然后结合航向角误差走廊,进行倾侧角符号的求取。
具体步骤如下:
步骤401,以汇流作为初始流场,其流速u(P)定义为:
步骤402,假设环境中有K个禁飞区,将禁飞区对初始流场的扰动影响用扰动矩阵M(P)量化表示:
其中,Mk(P)为第k个禁飞区的扰动矩阵,ωk(P)表示第k个禁飞区的权重系数。
第k个禁飞区的扰动矩阵Mk(P)定义为:
其中,I表示单位矩阵,nk(P)表示第k个禁飞区的径向法向量,Γk(P)表示第k个禁飞区的约束函数,σk表示切向反应系数,tk(P)=Rkt′k(P),t′k(P)=[cosθk sinθk 0]T,θk∈[-π,π]为切向方向系数;Rk表示坐标旋转矩阵。
切向反应系数σk决定了飞行器的规避时机,值越大,规避禁飞区的时机越早;切向方向系数θk决定了飞行器遇到禁飞区后的规避方向。
步骤405,根据飞行器当前时刻的位置和下一时刻的位置,得出期望的航向角,进一步计算航向角误差Δψ;
期望的航向角ψN表示如下:
则可得航向角误差Δψ,表示如下:
Δψ=ψs-ψN (27)
步骤406,根据航向角误差走廊,求得当前时刻的侧向制导指令,即倾侧角的符号。
其中,sgn(|γs,i|)表示当前时刻的倾侧角的符号,sgn(|γs,i-1|)表示上一制导时刻的倾侧角的符号,Δψup,Δψdown分别表示航向角误差走廊的上界与下界。
步骤五、将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化优化切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
具体步骤如下:
首先,分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体;
构建的深度强化学习PPO智能体,包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建。
PPO智能体所观测的输入设计为:
s=[r,λ,φ,V,θ,ψs,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK,Δλf,Δφf] (29)
其中,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK表示飞行器当前位置和第k个禁飞区中心的经纬度之差,K表示禁飞区的个数,Δλf,Δφf表示飞行器与终端位置的经纬度之差。
PPO智能体的动作输出设计为:
a=[σk θk] (30)
PPO智能体的奖励函数设计为:
r=r1(Γ1(P))+…+rk(Γk(P))+…+rK(ΓK(P))+rf(Γf(P)) (31)
其中,r1(Γ1(P)),…,rk(Γk(P)),…,rK(ΓK(P))表示与禁飞区相关的奖励函数,rf(Γf(P))表示与终端位置相关的奖励函数,Γk(P)表示飞行器到第k个禁飞区的距离,Γf(P)表示飞行器和终端位置的距离。
奖励函数项rk(Γk(P))设计如下:
奖励函数项rf(Γf(P))设计如下:
其中,Rf表示终端位置半径,1000为强奖励项,-Γf(P)为弱激励项,引导飞行器向终端位置飞行。
PPO智能体的网络结构搭建:PPO智能体包括1个策略网络和1个评价网络,均采用深度全连接网络进行构建。
然后,在所构建的训练环境和智能体的基础上,进行深度强化学习PPO算法的充分迭代,得到训练好的策略网络。
策略网络根据观测到的飞行器当前状态进行计算,在线输出侧向制导中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
本发明的优点在于:
(1)一种基于深度强化学习的高超声速飞行器规避制导方法,通过采用扰动流体算法进行侧向规避制导逻辑设计,具有可以综合考虑所有已知禁飞区影响的优势;
(2)一种基于深度强化学习的高超声速飞行器规避制导方法,通过采用深度强化学习方法进行算法参数的在线优化,提升了飞行器在不同飞行环境中的规避性能和自适应能力;
(3)一种基于深度强化学习的高超声速飞行器规避制导方法,其侧向制导算法部分可以与其他多种纵向制导方法进行结合,具有极强的可拓展性。
附图说明
图1为本发明一种基于深度强化学习的高超声速飞行器规避制导方法的流程图;
图2为本发明一种基于深度强化学习的高超声速飞行器规避制导方法的总体框架图;
图3为本发明深度强化学习的训练结构图;
图4为本发明深度强化学习智能体的网络结构图;
图5为本发明与航向角误差走廊动态调整、人工势场方法的规避效果对比图;
图6为本发明与航向角误差走廊动态调整、人工势场方法的制导指令对比图;
图7为本发明深度强化学习输出的扰动流体算法参数曲线图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图和实施例对本发明作进一步的详细描述。
如图1和图2所示,具体描述如下:
步骤一、针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程;
考虑地球曲率和自转角速率,高超声速再入飞行器的三自由度质点运动方程计算公式如下:
fθ=2ωeVcosφsinψs+ωe 2rcosφ(cosθcosφ+sinθcosψssinφ) (8)
其中,r表示地心与飞行器质心之间的距离(地心距),V表示飞行器的速度,θ表示飞行器的弹道倾角,λ和φ分别表示经度和纬度,ψs表示飞行器的航向角,m表示飞行器的质量,g表示重力加速度,g=μ/r2,μ表示地球引力常数;ωe表示地球自转角速率,L和D分别表示飞行器的升力和阻力,L=QSCL和D=QSCD,Q表示动压,S表示飞行器的参考面积,CL和CD分别表示升力和阻力系数,γs表示飞行器的倾侧角,也是再入制导中的唯一控制量。
步骤二、建立三自由度方程质点运动方程需要满足的再入飞行约束;
考虑禁飞区规避的再入制导问题,其再入飞行约束包括过程约束、终端约束和禁飞区约束。
表示如下:
Q=0.5ρV2≤Qmax (11)
Lcosγs/(mV)+(V/r-g/V)=0 (13)
终端约束包括终端高度、速度、经度和纬度约束;定义能量e=1/r-V2/2作为自变量,则终端约束表示如下:
r(ef)=rf,V(ef)=Vf,λ(ef)=λf,φ(ef)=φf (14)
其中,rf,Vf,λf,φf分别为飞行器给定的终端高度、速度、经度和纬度,ef=1/rf-Vf 2/2表示给定的终端能量。
禁飞区是指飞行轨迹不能从其上方经过的区域,一般采用无限高的圆柱模型来描述禁飞区约束,本发明为方便所提制导方法设计,采用标准凸多面体进行禁飞区约束建模:
其中,表示飞行器当前的经度、纬度和归一化的高度;表示禁飞区地面中心的经度、纬度和归一化的高度;由于经度、纬度单位均为弧度,飞行器高度单位为m,为减轻因数值大小差异过大造成的对模型的影响,将高度进行归一化处理R0表示地球半径。
a,b,c和p,q,r均为大于零的数;它们分别决定了禁飞区的覆盖范围与形状,选取p=q=1,r>1,a=b=Rc,c取较大的数即可表示禁飞区为无限高的圆柱,Rc表示禁飞区的半径。
Γ(P)=1表示飞行器在禁飞区包络表面,Γ(P)>1表示禁飞区包络外部区域,Γ(P)<1表示禁飞区包络内部区域。
步骤三、建立三自由度质点运动方程以及满足再入飞行约束的纵向制导方法;
纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取;具体为:
步骤301、在每个制导周期内,给定一个初始倾侧角γs,i的幅值。
步骤302、从飞行器当前状态对运动方程进行积分,以飞行器能量e达到给定终端能量ef为停止条件,进行飞行器终端状态的预测;得到给定倾侧角幅值|γs,i|作用下,飞行器的待飞航程偏差fi(|γs,i|);
计算公式为:
Spt,togo=arccos(sinφsinφpt+cosφcosφptcos(λpt-λ)) (17)
其中,λ,φ表示飞行器当前的经度与纬度,λpt,φpt表示预测的飞行器终端的经度与纬度;λf,φf表示给定的飞行器终端的经度与纬度。
步骤303、由割线法快速求解当前制导周期内,使待飞航程偏差fi(|γs,i|)为零的倾侧角幅值;
具体计算公式如下:
其中,i表示当前制导周期内的割线法迭代次数;由此,即可求得当前制导周期内倾侧角的幅值。
步骤304、借助准平衡滑翔约束,对热流密度约束、动压约束和过载约束进行转化,得到飞行器倾侧角的幅值约束|γs|max;
具体表达如下:
步骤四、建立三自由度质点运动方程以及满足再入飞行约束的侧向制导方法;
本发明采用扰动流体算法进行侧向制导指令的求取,扰动流体算法提取了自然界流水避石现象,与飞行器规避禁飞区问题有相似之处。当河流中没有石头时(飞行过程中没有需要躲避的禁飞区),笔直的流水可看作初始流场,水流沿初始流场由当前位置向终端位置流去;当河流中存在石头时(飞行过程中存在需要躲避的禁飞区),绕过石头的流水可等效为扰动流场,水流沿扰动流场由当前位置向终端位置流去。
侧向制导采用扰动流体算法进行期望航向角的求取,然后结合航向角误差走廊,进行倾侧角符号的求取。
具体步骤如下:
步骤401,以汇流作为初始流场,其流速u(P)定义为:
式中,V表示汇流速率,即飞行器速度;λf,φf,分别表示飞行器给定的终端经度、纬度和归一化的高度;λ,φ,表示飞行器当前的经度、纬度和归一化的高度;d(P,Pf)表示飞行器当前位置P与给定终端位置Pf的欧式距离:
当环境中不存在禁飞区时,u(P)即可作为飞行器的飞行速度。
步骤402,假设环境中有K个禁飞区,将禁飞区对初始流场的扰动影响用扰动矩阵M(P)量化表示:
其中,Mk(P)为第k个禁飞区的扰动矩阵,ωk(P)表示第k个禁飞区的权重系数。
第k个禁飞区的扰动矩阵Mk(P)定义为:
其中,I表示单位矩阵,nk(P)表示第k个禁飞区的径向法向量,Γk(P)表示第k个禁飞区的约束函数,σk表示切向反应系数,tk(P)=Rkt′k(P),t′k(P)=[cosθk sinθk 0]T,θk∈[-π,π]为切向方向系数,表示任意切向量与向量tk,1(P)的夹角,tk,1(P)和tk,2(P)为与第k个禁飞区径向法向量nk(P)垂直的切平面S上,所互相垂直的两个切向量;
tk,2(P)定义为:
Rk表示由tk,1(P)作为x′轴,tk,2(P)作为y′轴,nk(P)作为z′轴所建立的坐标系o′-x′y′z′和地面坐标系间的坐标旋转矩阵。
第k个禁飞区的权重系数ωk(P)主要取决于飞行器与禁飞区包络表面的距离,通常距离越大权重系数越小,定义如下:
切向反应系数σk决定了飞行器的规避时机,值越大,规避禁飞区的时机越早;切向方向系数θk决定了飞行器遇到禁飞区后的规避方向。
步骤405,根据飞行器当前时刻的位置和下一时刻的位置,得出期望的航向角,进一步计算当前时刻的航向角误差Δψ;
期望的航向角ψN表示如下:
则可得航向角误差Δψ,表示如下:
Δψ=ψs-ψN (30)
步骤406,根据航向角误差走廊,求得当前时刻的侧向制导指令,即倾侧角的符号。
其中,sgn(|γs,i|)表示当前时刻的倾侧角的符号,sgn(|γs,i-1|)表示上一制导时刻的倾侧角的符号,Δψup,Δψdown分别表示航向角误差走廊的上界与下界。
步骤五、将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化优化切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
扰动流体算法中,决定飞行器规避成功与否以及规避性能的两个关键算法参数是:切向反应系数σk和切向方向系数θk。
由于在再入过程中高度、速度变化范围较大,飞行器的气动特性和机动能力差异巨大,因此,需要根据实际情况通过人工经验选取或采用优化策略来调整反应系数σk和方向系数θk,提升规避的性能。
本发明采用近端策略优化(Proximal Policy Optimization,PPO)深度强化学习算法进行智能体训练,以根据飞行器当前状态,进行扰动流体算法中的切向反应系数σk和切向方向系数θk的在线优化,提升飞行器在不同飞行环境中的规避性能和自适应能力。
具体步骤如下:
首先,分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体;
根据飞行器运动方程和再入飞行约束模型,以及高超声速飞行器再入规避制导方法进行深度强化学习的训练环境的构建,如图3所示。
构建的深度强化学习PPO智能体,包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建。
PPO智能体所观测的输入设计为:
s=[r,λ,φ,V,θ,ψs,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK,Δλf,Δφf] (32)
其中,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK表示飞行器当前位置和第k个禁飞区中心的经纬度之差,K表示禁飞区的个数,r,λ,φ,V,θ,ψs表示飞行器当前的飞行状态,Δλf,Δφf表示飞行器与终端位置的经纬度之差。
PPO智能体的动作输出设计为:
a=[σk θk] (33)
σk,θk分别为扰动流体算法中的参数。
PPO智能体的奖励函数设计为:
r=r1(Γ1(P))+…+rk(Γk(P))+…+rK(ΓK(P))+rf(Γf(P)) (34)
其中,r1(Γ1(P)),…,rk(Γk(P)),…,rK(ΓK(P))表示与禁飞区相关的奖励函数,rf(Γf(P))表示与终端位置相关的奖励函数,Γk(P)表示飞行器到第k个禁飞区的距离,Γf(P)表示飞行器和终端位置的距离。
奖励函数项rk(Γk(P))设计如下:
奖励函数项rf(Γf(P))设计如下:
其中,Rf表示终端位置半径,1000为强奖励项,-Γf(P)为弱激励项,引导飞行器向终端位置飞行。
PPO智能体的网络结构搭建:PPO智能体包括1个策略网络和1个评价网络,均采用深度全连接网络进行构建,如图4所示。
然后,在所构建的训练环境和智能体的基础上,进行深度强化学习PPO算法的充分迭代,得到训练好的策略网络。
深度强化学习PPO算法流程如下所示:
然后在每个训练回合中进行如下循环:
(2)初始化训练环境,执行策略πθ(a|s),交互获得整个训练回合的数据时间序列Rt,t=1,2,…,T;
(5)将更新后的参数θ复制给旧策略网络θold。
将该训练好的策略网络与侧向制导及纵向制导结合,得到基于深度强化学习的高超声速飞行器规避制导方法;策略网络根据观测到的飞行器当前状态进行计算,在线输出侧向制导中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
实施例:
为检验本发明一种基于深度强化学习的高超声速飞行器规避制导方法的有效性,以通用航天器为实施例,进行仿真验证。
飞行器初始状态设置为:
飞行器终端状态设置为:hf=20km,Vf=1.8km/s,λ0=90°,φ0=30°。
本发明所提规避制导方法与航向角误差走廊动态调整、人工势场方法的规避效果对比如图5所示,在复杂禁飞区分布的再入制导飞行场景中,在航向角误差走廊动态调整、人工势场方法作用下,飞行器均进入禁飞区,导致任务失败;只有在本发明所提规避制导方法作用下,飞行器可以成功规避所有禁飞区,成功抵达目标终端位置。
本发明所提规避制导方法与航向角误差走廊动态调整、人工势场方法的制导指令对比如图6所示,在飞行器规避性能提升的同时,本发明所提规避制导方法的倾侧角翻转次数并无明显提升,具有较强的易实现性。
图7给出了本发明深度强化学习输出的扰动流体算法参数曲线图,在整个飞行过程中,由于飞行器高度、速度变化范围巨大,导致飞行器气动特性和机动能力的变化也较为明显,深度强化学习可以根据当前状态进行算法参数的在线优化,以提升本发明所提规避制导算法的规避性能和自适应能力。
综合上述对实施例的仿真验证,证明了本发明一种基于深度强化学习的高超声速飞行器规避制导方法的有效性。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (5)
1.一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,具体包括以下步骤:
首先、针对高超声速再入飞行器,建立面向制导算法的三自由度质点运动方程;
运动方程计算公式如下:
fV,fθ,fψs分别定义如下:
fV=ωe 2rcosφ(sinθcosφ-cosθsinφcosψs) (7)
fθ=2ωeVcosφsinψs+ωe 2rcosφ(cosθcosφ+sinθcosψssinφ) (8)
其中,r表示地心与飞行器质心之间的距离,V表示飞行器的速度,θ表示飞行器的弹道倾角,λ和φ分别表示经度和纬度,ψs表示飞行器的航向角,m表示飞行器的质量,g表示重力加速度,ωe表示地球自转角速率,L和D分别表示飞行器的升力和阻力,γs表示飞行器的倾侧角,也是再入制导中的唯一控制量;
然后、建立三自由度方程质点运动方程需要满足的再入飞行约束;并进一步分别建立三自由度质点运动方程以及满足再入飞行约束的纵向和侧向制导方法;
纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取;侧向制导采用扰动流体算法进行期望航向角的求取,然后结合航向角误差走廊,进行倾侧角符号的求取;
最后、将深度强化学习算法与纵向制导和侧向制导相结合,进行智能体训练,在线优化优化切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
2.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述再入飞行约束包括过程约束、终端约束和禁飞区约束;
表示如下:
Q=0.5ρV2≤Qmax (11)
Lcosγs/(mV)+(V/r-g/V)=0 (13)
终端约束包括终端高度、速度、经度和纬度约束;表示如下:
r(ef)=rf,V(ef)=Vf,λ(ef)=λf,φ(ef)=φf (14)
其中,rf,Vf,λf,φf分别为飞行器给定的终端高度、速度、经度和纬度,ef=1/rf-Vf 2/2表示给定的终端能量;
禁飞区约束采用标准凸多面体进行建模,表示如下:
Γ(P)=1表示飞行器在禁飞区包络表面,Γ(P)>1表示禁飞区包络外部区域,Γ(P)<1表示禁飞区包络内部区域。
3.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述纵向制导求取倾侧角幅值,具体为:
步骤301、在每个制导周期内,给定一个初始倾侧角γs,i的幅值;
步骤302、从飞行器当前状态对运动方程进行积分,以飞行器能量e达到给定终端能量ef为停止条件,进行飞行器终端状态的预测;得到给定倾侧角幅值|γs,i|作用下,飞行器的待飞航程偏差fi(|γs,i|);
计算公式为:
Spt,togo=arccos(sinφsinφpt+cosφcosφptcos(λpt-λ)) (17)
其中,λpt,φpt表示预测的飞行器终端的经度与纬度;
步骤303、由割线法快速求解当前制导周期内,使待飞航程偏差fi(|γs,i|)为零的倾侧角幅值;
具体计算公式如下:
其中,i表示当前制导周期内的割线法迭代次数;
步骤304、借助准平衡滑翔约束,对热流密度约束、动压约束和过载约束进行转化,得到飞行器倾侧角的幅值约束|γs|max;
具体表达如下:
4.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述侧向制导取倾侧角符号,具体为:
步骤401,以汇流作为初始流场,其流速u(P)定义为:
其中,Mk(P)为第k个禁飞区的扰动矩阵,ωk(P)表示第k个禁飞区的权重系数;
第k个禁飞区的扰动矩阵Mk(P)定义为:
其中,I表示单位矩阵,nk(P)表示第k个禁飞区的径向法向量,Γk(P)表示第k个禁飞区的约束函数,σk表示切向反应系数,tk(P)=Rkt′k(P),t′k(P)=[cosθk sinθk 0]T,θk∈[-π,π]为切向方向系数;Rk表示坐标旋转矩阵;
切向反应系数σk决定了飞行器的规避时机,值越大,规避禁飞区的时机越早;切向方向系数θk决定了飞行器遇到禁飞区后的规避方向;
步骤405,根据飞行器当前时刻的位置和下一时刻的位置,得出期望的航向角,进一步计算航向角误差Δψ;
期望的航向角ψN表示如下:
则可得航向角误差Δψ,表示如下:
Δψ=ψs-ψN (27)
步骤406,根据航向角误差走廊,求得当前时刻的侧向制导指令,即倾侧角的符号;
其中,sgn(|γs,i|)表示当前时刻的倾侧角的符号,sgn(|γs,i-1|)表示上一制导时刻的倾侧角的符号,Δψup,Δψdown分别表示航向角误差走廊的上界与下界。
5.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法,其特征在于,所述深度强化学习算法与纵向制导和侧向制导相结合,在线优化优化切向反应系数σk和切向方向系数θk,具体为具体步骤如下:
首先,分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体;
构建的深度强化学习PPO智能体,包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建;
PPO智能体所观测的输入设计为:
s=[r,λ,φ,V,θ,ψs,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK,Δλf,Δφf] (29)
其中,Δλ1,Δφ1,…,Δλk,Δφk,…,ΔλK,ΔφK表示飞行器当前位置和第k个禁飞区中心的经纬度之差,K表示禁飞区的个数,Δλf,Δφf表示飞行器与终端位置的经纬度之差;
PPO智能体的动作输出设计为:
a=[σk θk] (30)
PPO智能体的奖励函数设计为:
r=r1(Γ1(P))+…+rk(Γk(P))+…+rK(ΓK(P))+rf(Γf(P)) (31)
其中,r1(Γ1(P)),…,rk(Γk(P)),…,rK(ΓK(P))表示与禁飞区相关的奖励函数,rf(Γf(P))表示与终端位置相关的奖励函数,Γk(P)表示飞行器到第k个禁飞区的距离,Γf(P)表示飞行器和终端位置的距离;
奖励函数项rk(Γk(P))设计如下:
奖励函数项rf(Γf(P))设计如下:
其中,Rf表示终端位置半径,1000为强奖励项,-Γf(P)为弱激励项,引导飞行器向终端位置飞行;
PPO智能体的网络结构搭建:PPO智能体包括1个策略网络和1个评价网络,均采用深度全连接网络进行构建;
然后,在所构建的训练环境和智能体的基础上,进行深度强化学习PPO算法的充分迭代,得到训练好的策略网络;
策略网络根据观测到的飞行器当前状态进行计算,在线输出侧向制导中的切向反应系数σk和切向方向系数θk,提高飞行器在不同飞行环境中的规避性能和自适应能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211227304.2A CN115657711B (zh) | 2022-10-09 | 2022-10-09 | 一种基于深度强化学习的高超声速飞行器规避制导方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211227304.2A CN115657711B (zh) | 2022-10-09 | 2022-10-09 | 一种基于深度强化学习的高超声速飞行器规避制导方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115657711A true CN115657711A (zh) | 2023-01-31 |
CN115657711B CN115657711B (zh) | 2024-07-05 |
Family
ID=84988195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211227304.2A Active CN115657711B (zh) | 2022-10-09 | 2022-10-09 | 一种基于深度强化学习的高超声速飞行器规避制导方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115657711B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115951585A (zh) * | 2023-03-08 | 2023-04-11 | 中南大学 | 基于深度神经网络的高超声速飞行器再入制导方法 |
CN116039959A (zh) * | 2023-02-13 | 2023-05-02 | 北京控制工程研究所 | 一种空间飞行器的规避机动控制方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256061A (zh) * | 2020-10-30 | 2021-01-22 | 北京航空航天大学 | 复杂环境及任务约束下的高超声速飞行器再入制导方法 |
US20210181768A1 (en) * | 2019-10-29 | 2021-06-17 | Loon Llc | Controllers for Lighter-Than-Air (LTA) Vehicles Using Deep Reinforcement Learning |
CN113031642A (zh) * | 2021-05-24 | 2021-06-25 | 北京航空航天大学 | 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统 |
CN113741522A (zh) * | 2021-09-03 | 2021-12-03 | 北京航空航天大学 | 一种基于无人机协同对峙监视的有害物扩散源搜索方法 |
CN115129088A (zh) * | 2022-08-26 | 2022-09-30 | 中国人民解放军国防科技大学 | 基于频谱地图的无人机轨迹规划和避障方法及系统 |
-
2022
- 2022-10-09 CN CN202211227304.2A patent/CN115657711B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210181768A1 (en) * | 2019-10-29 | 2021-06-17 | Loon Llc | Controllers for Lighter-Than-Air (LTA) Vehicles Using Deep Reinforcement Learning |
CN112256061A (zh) * | 2020-10-30 | 2021-01-22 | 北京航空航天大学 | 复杂环境及任务约束下的高超声速飞行器再入制导方法 |
CN113031642A (zh) * | 2021-05-24 | 2021-06-25 | 北京航空航天大学 | 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统 |
CN113741522A (zh) * | 2021-09-03 | 2021-12-03 | 北京航空航天大学 | 一种基于无人机协同对峙监视的有害物扩散源搜索方法 |
CN115129088A (zh) * | 2022-08-26 | 2022-09-30 | 中国人民解放军国防科技大学 | 基于频谱地图的无人机轨迹规划和避障方法及系统 |
Non-Patent Citations (1)
Title |
---|
余跃;王宏伦;: "基于深度学习的高超声速飞行器再入预测校正容错制导", 兵工学报, no. 04, 15 April 2020 (2020-04-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116039959A (zh) * | 2023-02-13 | 2023-05-02 | 北京控制工程研究所 | 一种空间飞行器的规避机动控制方法及装置 |
CN116039959B (zh) * | 2023-02-13 | 2023-08-15 | 北京控制工程研究所 | 一种空间飞行器的规避机动控制方法及装置 |
CN115951585A (zh) * | 2023-03-08 | 2023-04-11 | 中南大学 | 基于深度神经网络的高超声速飞行器再入制导方法 |
CN115951585B (zh) * | 2023-03-08 | 2023-06-02 | 中南大学 | 基于深度神经网络的高超声速飞行器再入制导方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115657711B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210164783A1 (en) | Method for directly planning reentry trajectory in height-velocity profile | |
Jiang et al. | UAV path planning and collision avoidance in 3D environments based on POMPD and improved grey wolf optimizer | |
CN115657711A (zh) | 一种基于深度强化学习的高超声速飞行器规避制导方法 | |
Han et al. | Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles | |
Li et al. | Stochastic gradient particle swarm optimization based entry trajectory rapid planning for hypersonic glide vehicles | |
Karimi et al. | Optimal maneuver-based motion planning over terrain and threats using a dynamic hybrid PSO algorithm | |
Sebbane | Lighter than air robots: guidance and control of autonomous airships | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN113065709B (zh) | 一种基于强化学习的跨域异构集群路径规划方法 | |
CN114840020A (zh) | 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法 | |
CN110908407B (zh) | 一种rlv再入热流率跟踪的改进预测制导方法 | |
CN111924139B (zh) | 基于膨胀预警区的小天体着陆避障常推力控制方法 | |
CN113093790B (zh) | 一种基于解析模型的飞行器再入滑翔轨迹规划方法 | |
Yu et al. | Analytical entry guidance for no-fly-zone avoidance | |
Wu et al. | An adaptive reentry guidance method considering the influence of blackout zone | |
CN115454115A (zh) | 基于混合灰狼-粒子群算法的旋翼无人机路径规划方法 | |
CN114003052B (zh) | 一种基于动态补偿系统的固定翼无人机纵向运动鲁棒自适应控制方法 | |
Chen et al. | An improved spherical vector and truncated mean stabilization based bat algorithm for uav path planning | |
CN113093789B (zh) | 一种基于路径点优选的飞行器禁飞区规避轨迹规划方法 | |
CN115542746B (zh) | 高超声速飞行器的能量管控再入制导方法及装置 | |
CN117313233A (zh) | 基于神经网络的助推滑翔飞行器发射诸元解算方法 | |
Gao | Autonomous soaring and surveillance in wind fields with an unmanned aerial vehicle | |
Wang et al. | Entry guidance command generation for hypersonic glide vehicles under threats and multiple constraints | |
Chen et al. | A Two‐Stage Method for UCAV TF/TA Path Planning Based on Approximate Dynamic Programming | |
Zhang et al. | Integration of path planning and following control for the stratospheric airship with forecasted wind field data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |