CN112947592A - 一种基于强化学习的再入飞行器轨迹规划方法 - Google Patents

一种基于强化学习的再入飞行器轨迹规划方法 Download PDF

Info

Publication number
CN112947592A
CN112947592A CN202110339389.2A CN202110339389A CN112947592A CN 112947592 A CN112947592 A CN 112947592A CN 202110339389 A CN202110339389 A CN 202110339389A CN 112947592 A CN112947592 A CN 112947592A
Authority
CN
China
Prior art keywords
aircraft
fly zone
state quantity
target point
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110339389.2A
Other languages
English (en)
Other versions
CN112947592B (zh
Inventor
张冉
侯忻宜
李惠峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110339389.2A priority Critical patent/CN112947592B/zh
Publication of CN112947592A publication Critical patent/CN112947592A/zh
Application granted granted Critical
Publication of CN112947592B publication Critical patent/CN112947592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其具体步骤如下:步骤一、建立飞行器运动模型;步骤二、设置该方法的状态量,设计奖励函数;步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略。通过以上步骤,本发明解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务;本发明所述方法科学,工艺性好,具有广阔推广应用价值。

Description

一种基于强化学习的再入飞行器轨迹规划方法
技术领域
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,属于航空航天技术中的轨迹规划领域。
背景技术
高超声速飞行器再入轨迹规划是一个多约束、强非线性的最优控制问题,目前应用最为广泛的是数值解法。但由于问题的高度复杂性,采用离散化和参数寻优的算法需要进行大量的迭代计算,在现有的计算资源条件下求解耗时较长。而高超声速飞行器作为一种快速有效的打击武器,在实际应用时会面临复杂的战场条件,如禁飞区突防、拦截、任务变更重构等,因此有必要对飞行器进行智能轨迹规划算法研究,使得飞行器具有实时进行自主轨迹重规划的能力,以应对瞬息万变的战场环境。考虑采用强化学习算法进行自主轨迹规划,是因为强化学习具有离线探索环境,在线给出策略的能力。通过离线进行大量的仿真,得到一套具有适应任务环境的动作选择策略,在具体应用时,只需知道当前状态即可得到合适的动作,从而使得飞行器得到可行的轨迹。
综上所述,智能轨迹规划方法相比于传统数值优化方法,具有快速性和应对突发情况的优势。本发明基于强化学习算法,对高超声速再入飞行器进行轨迹规划。该方法具有一定独创性。
发明内容
(一)本发明的目的
本发明的目的是提供一种基于强化学习的再入飞行器智能轨迹规划方法,用以实现飞行器的禁飞区规避和目标到达任务,解决初始状态偏差和禁飞区变更的问题。
(二)技术方案
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其具体步骤如下:
步骤一、建立飞行器运动模型;
根据再入飞行器的动力学特性,在仿真软件中建立质心运动方程,设置禁飞区和目标点位置,选取控制量;
步骤二、设置该方法的状态量,设计奖励函数;
根据飞行器当前位置和禁飞区以及目标点的位置,设计飞行器反馈给强化学习的状态量,由状态量的值设计奖励函数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;
将步骤二中的状态量作为强化学习的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得期望回报最大化;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略;
将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
通过以上步骤,本发明解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务。
其中,在步骤一中所述的“建立飞行器运动模型”,其具体作法如下:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
Figure BDA0002998752820000031
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由该方法策略给出,变化区间设置为[σminmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为x=[r,θ,φ,V,γ,ψ],控制量为u=σ。
其中,在步骤二中所述的“强化学习”,是指强化学习方法中的近端策略优化方法,通过在策略空间直接进行策略搜索来得到最佳策略,采用基于梯度优化的方法直接对策略进行寻优,此为公知技术;
其中,在步骤二中所述的“设置该方法的状态量”,是指通过飞行器当前的飞行状态量值,推导得到的当前位置与禁飞区和目标点的相对位置关系,其具体作法如下:
飞行器位置示意图如图2所示,将禁飞区和目标点表示在经纬度图中;飞行器当前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为
Figure BDA0002998752820000032
与飞行器当前航向角ψ(与正北方向夹角)之差为
Figure BDA0002998752820000033
沿着飞行器速度轴,当禁飞区在飞行器左边时,
Figure BDA0002998752820000034
为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈给强化学习的状态量设定为ΔR=OA-rzone
Figure BDA0002998752820000035
OT,其中rzone为以弧度表示的禁飞区半径;
其中,在步骤二中所述的“设计奖励函数”,是指由环境反馈给该方法的状态量表示的函数,可称之为奖励信号或强化信号,飞行器根据当前状态做出动作之后,环境会反馈一个奖励,用来更新网络参数,其具体作法如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径(弧度表示)之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (2)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数。
其中,在步骤三中所述的“交互训练”,是指强化学习方法根据当前状态量输出动作,飞行器执行此动作后进入下一状态,得到相应奖励,更新网络参数,然后不断重复以上过程,直到达到设定的训练次数,此为公知技术。
其中,在步骤四中所述的“神经网络模型”,是指拟合得到的输入输出间的函数关系,通过近端策略优化方法对其权重进行调整,为公知技术;
其中,在步骤四中所述的“计算控制策略”,其具体作法如下:
经过若干次和环境的交互训练,得到可用的策略网络模型,对该网络进行评估;将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算控制量的变化策略,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络中,计算控制量,进行飞行器的运动仿真。
(三)本发明的优点及功效
本发明的优点及功效在于:
(1)本发明提出了一种基于强化学习的再入飞行器轨迹规划方法,解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务;
(2)本发明所述方法科学,工艺性好,具有广阔推广应用价值。
附图说明
图1是本发明所述方法流程图。
图2是飞行器位置示意图。
图3是飞行器奖励函数随训练次数变化图。
图4是经度-纬度曲线图。
图5是高度-时间曲线图。
图6是速度-时间曲线图。
图7是更改初始条件后的经度-纬度曲线图。
图8是更改禁飞区位置后的经度-纬度曲线图。
图中序号、符号、代号说明如下:
图2中,OE为地球中心,T为目标点,飞行器当前位置为O,和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为
Figure BDA0002998752820000051
飞行器当前航向角为ψ(与正北方向夹角);飞行器速度矢量为v,rzone为以弧度表示的禁飞区半径;
具体实施方式
下面将结合附图和实施案例对本发明作进一步的详细说明。
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其流程图如图1所示,它包括以下几个步骤:
步骤一、建立飞行器运动模型:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
Figure BDA0002998752820000061
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由该方法策略给出,变化区间设置为[σminmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为x=[r,θ,φ,V,γ,ψ],控制量为u=σ;
升力和阻力表达式如下:
Figure BDA0002998752820000062
其中升力系数CL和阻力系数CD是关于攻角α和马赫数Ma的函数,S为飞行器的参考面积,ρ为大气密度,根据标准大气表拟合得到的公式,由当前飞行高度计算得到;
飞行器在再入过程中可能会遇到由于军事和地理因素所产生的禁飞区,此时轨迹规划必须考虑对禁飞区的规避,确保飞行器能够安全地飞抵目标点;将禁飞区视为无限高的圆柱形状,用经度θc和纬度φc表示禁飞区的圆心位置,d表示半径,禁飞区不等式约束如下:
(θ-θc)2+(φ-φc)2≥d2 (5)
其中θc和φc分别为禁飞区圆心的经度和纬度,d为禁飞区半径,以弧度为单位;目标点经纬度表示为(θTT);
步骤二、设置该方法的状态量,设计奖励函数:
飞行器位置示意图如图2所示,将禁飞区和目标点表示在经纬度图中;飞行器当前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为
Figure BDA0002998752820000071
与飞行器当前航向角ψ(与正北方向夹角)之差为
Figure BDA0002998752820000072
沿着飞行器速度轴,当禁飞区在飞行器左边时,
Figure BDA0002998752820000073
为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈的状态量设定为ΔR=OA-rzone
Figure BDA0002998752820000074
OT,其中rzone为以弧度表示的禁飞区半径;
奖励函数的设置如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径(弧度表示)之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (6)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练:
建立神经网络模型,将步骤二中的状态量ΔR、
Figure BDA0002998752820000075
和OT作为网络的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得该方法最大化期望回报;
近端策略优化方法采用两个分布,并引入相对熵保证两个分布之间的差值较小;策略接受状态,输出动作概率分布,在动作概率分布中采样动作,执行动作,得到回报,跳到下一个状态;策略收集到数据并进行学习,然后更新策略;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略:
经过若干次和环境的交互训练,得到可用的策略网络模型,对该网络进行评估;将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络中,计算控制量,进行飞行器的运动仿真。
仿真案例:
本案例仅作为方法演示,并非实际飞行任务;仿真平台为基于OPENAI公司的开源强化学习标准程序Baselines的改进版Stable Baselines,开发语言为python3.6,飞行器运动环境在MATLAB2018b中编写,对飞行器的禁飞区规避和目标到达任务进行训练,飞行器再入初始高度为80公里,初始速度为6000米每秒,初始经度为0度,初始纬度为0度,初始飞行路径角为0度,初始航向角为40度;设置三个禁飞区,其经纬度分别为(24°,20°)、(65°,37°)和(40°,40°),禁飞区半径为0.0471弧度;
经过2000000次和环境的交互训练,得到可用的策略网络模型,对该网络进行评估;图3为奖励函数值随训练步数的变化情况,在训练次数达到1800000时,奖励函数值趋于收敛;将训练完成的网络用于飞行器运动仿真模型中,图4为经度-纬度曲线图;图5为高度-时间曲线图,图6为速度-时间曲线图,图7为初始高度和飞行路径角分别改为75公里和0.5度时,用神经网络输出的控制策略进行飞行仿真,得到的经度-纬度曲线;图8为禁飞区位置改为(24°,30°)、(75°,37°)和(40°,40°)时,用神经网络输出的控制策略进行飞行仿真,得到的经度-纬度曲线;
仿真案例验证了本发明一种基于强化学习的再入飞行器轨迹规划方法能够实现飞行器的禁飞区规避和目标到达任务,并且适用于飞行器初始状态偏差和禁飞区变更的情况。

Claims (4)

1.一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:其具体步骤如下:
步骤一、建立飞行器运动模型;
根据再入飞行器的动力学特性,在仿真软件中建立质心运动方程,设置禁飞区和目标点位置,选取控制量;
步骤二、设置该方法的状态量,设计奖励函数;
根据飞行器当前位置和禁飞区以及目标点的位置,设计飞行器反馈给强化学习的状态量,由状态量的值设计奖励函数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;
将步骤二中的状态量作为强化学习的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得期望回报最大化;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略;
将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点。
2.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤一中所述的“建立飞行器运动模型”,其具体作法如下:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
Figure FDA0002998752810000021
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由算法策略给出,变化区间设置为[σminmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为
x=[r,θ,φ,V,γ,ψ],控制量为u=σ。
3.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤二中所述的“设置该方法的状态量”,是指通过飞行器当前的飞行状态量值,推导得到的当前位置与禁飞区和目标点的相对位置关系,其具体作法如下:
前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为
Figure FDA0002998752810000022
与飞行器当前航向角ψ即与正北方向夹角之差为
Figure FDA0002998752810000023
沿着飞行器速度轴,当禁飞区在飞行器左边时,
Figure FDA0002998752810000024
为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈给强化学习的状态量设定为
Figure FDA0002998752810000025
OT,其中rzone为以弧度表示的禁飞区半径;
其中,在步骤二中所述的“设计奖励函数”,是指由环境反馈给该方法的状态量表示的函数,能称之为奖励信号及强化信号,飞行器根据当前状态做出动作之后,环境会反馈一个奖励,用来更新网络参数,其具体作法如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (2)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数。
4.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤四中所述的“计算控制策略”,其具体作法如下:
经过多次和环境的交互训练,得到能用的策略网络模型,对该网络进行评估;将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算控制量的变化策略,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络中,计算控制量,进行飞行器的运动仿真。
CN202110339389.2A 2021-03-30 2021-03-30 一种基于强化学习的再入飞行器轨迹规划方法 Active CN112947592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110339389.2A CN112947592B (zh) 2021-03-30 2021-03-30 一种基于强化学习的再入飞行器轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110339389.2A CN112947592B (zh) 2021-03-30 2021-03-30 一种基于强化学习的再入飞行器轨迹规划方法

Publications (2)

Publication Number Publication Date
CN112947592A true CN112947592A (zh) 2021-06-11
CN112947592B CN112947592B (zh) 2022-06-10

Family

ID=76230505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110339389.2A Active CN112947592B (zh) 2021-03-30 2021-03-30 一种基于强化学习的再入飞行器轨迹规划方法

Country Status (1)

Country Link
CN (1) CN112947592B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504723A (zh) * 2021-07-05 2021-10-15 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113671825A (zh) * 2021-07-07 2021-11-19 西北工业大学 一种基于强化学习的机动智能决策规避导弹方法
CN114115350A (zh) * 2021-12-02 2022-03-01 清华大学 飞行器的控制方法、装置及设备
CN114253296A (zh) * 2021-12-22 2022-03-29 中国人民解放军国防科技大学 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN114371724A (zh) * 2021-12-03 2022-04-19 中国人民解放军海军航空大学 一种飞行器的避障方法及系统
CN115220478A (zh) * 2022-08-16 2022-10-21 哈尔滨逐宇航天科技有限责任公司 一种基于集群进化强化学习的飞行器路径规划方法
CN115328196A (zh) * 2022-08-05 2022-11-11 北京航空航天大学 一种基于学习的飞行器实时航路点决策-轨迹规划方法
CN116307331A (zh) * 2023-05-15 2023-06-23 北京航空航天大学 航空器轨迹的规划方法
CN115220478B (zh) * 2022-08-16 2024-05-31 哈尔滨逐宇航天科技有限责任公司 一种基于集群进化强化学习的飞行器路径规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928329A (zh) * 2019-12-24 2020-03-27 北京空间技术研制试验中心 一种基于深度q学习算法的多飞行器航迹规划方法
CN111783358A (zh) * 2020-07-02 2020-10-16 哈尔滨工业大学 一种基于贝叶斯估计的高超速飞行器长期轨迹预报方法
US20200363813A1 (en) * 2019-05-15 2020-11-19 Baidu Usa Llc Online agent using reinforcement learning to plan an open space trajectory for autonomous vehicles
CN112162567A (zh) * 2020-09-09 2021-01-01 北京航空航天大学 一种适用于飞行器在线禁飞区规避制导方法
CN112256061A (zh) * 2020-10-30 2021-01-22 北京航空航天大学 复杂环境及任务约束下的高超声速飞行器再入制导方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200363813A1 (en) * 2019-05-15 2020-11-19 Baidu Usa Llc Online agent using reinforcement learning to plan an open space trajectory for autonomous vehicles
CN110928329A (zh) * 2019-12-24 2020-03-27 北京空间技术研制试验中心 一种基于深度q学习算法的多飞行器航迹规划方法
CN111783358A (zh) * 2020-07-02 2020-10-16 哈尔滨工业大学 一种基于贝叶斯估计的高超速飞行器长期轨迹预报方法
CN112162567A (zh) * 2020-09-09 2021-01-01 北京航空航天大学 一种适用于飞行器在线禁飞区规避制导方法
CN112256061A (zh) * 2020-10-30 2021-01-22 北京航空航天大学 复杂环境及任务约束下的高超声速飞行器再入制导方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504723A (zh) * 2021-07-05 2021-10-15 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113504723B (zh) * 2021-07-05 2023-11-28 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113671825B (zh) * 2021-07-07 2023-09-08 西北工业大学 一种基于强化学习的机动智能决策规避导弹方法
CN113671825A (zh) * 2021-07-07 2021-11-19 西北工业大学 一种基于强化学习的机动智能决策规避导弹方法
CN114115350A (zh) * 2021-12-02 2022-03-01 清华大学 飞行器的控制方法、装置及设备
CN114115350B (zh) * 2021-12-02 2024-05-10 清华大学 飞行器的控制方法、装置及设备
CN114371724A (zh) * 2021-12-03 2022-04-19 中国人民解放军海军航空大学 一种飞行器的避障方法及系统
CN114253296A (zh) * 2021-12-22 2022-03-29 中国人民解放军国防科技大学 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN114253296B (zh) * 2021-12-22 2024-06-07 中国人民解放军国防科技大学 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN115328196A (zh) * 2022-08-05 2022-11-11 北京航空航天大学 一种基于学习的飞行器实时航路点决策-轨迹规划方法
CN115220478A (zh) * 2022-08-16 2022-10-21 哈尔滨逐宇航天科技有限责任公司 一种基于集群进化强化学习的飞行器路径规划方法
CN115220478B (zh) * 2022-08-16 2024-05-31 哈尔滨逐宇航天科技有限责任公司 一种基于集群进化强化学习的飞行器路径规划方法
CN116307331B (zh) * 2023-05-15 2023-08-04 北京航空航天大学 航空器轨迹的规划方法
CN116307331A (zh) * 2023-05-15 2023-06-23 北京航空航天大学 航空器轨迹的规划方法

Also Published As

Publication number Publication date
CN112947592B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
US11727812B2 (en) Airplane flight path planning method and device based on the pigeon-inspired optimization
CN111351488B (zh) 飞行器智能轨迹重构再入制导方法
Duan et al. Imperialist competitive algorithm optimized artificial neural networks for UCAV global path planning
Li et al. Stochastic gradient particle swarm optimization based entry trajectory rapid planning for hypersonic glide vehicles
CN113093802A (zh) 一种基于深度强化学习的无人机机动决策方法
Li et al. A Multi-UCAV cooperative occupation method based on weapon engagement zones for beyond-visual-range air combat
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
US20210325891A1 (en) Graph construction and execution ml techniques
CN114840020A (zh) 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法
CN113126643A (zh) 一种高超声速飞行器智能鲁棒再入制导方法及系统
CN112824998A (zh) 马尔可夫决策过程的多无人机协同航路规划方法和装置
CN113467241A (zh) 凸曲率着陆轨迹燃耗优化方法
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
Lei et al. Moving time UCAV maneuver decision based on the dynamic relational weight algorithm and trajectory prediction
Wu et al. Multi-phase trajectory optimization for an aerial-aquatic vehicle considering the influence of navigation error
Tan et al. Trajectory prediction of flying vehicles based on deep learning methods
Wei et al. Multi-UAVs cooperative reconnaissance task allocation under heterogeneous target values
Wu et al. Learning-based interfered fluid avoidance guidance for hypersonic reentry vehicles with multiple constraints
Han et al. Ground threat prediction-based path planning of unmanned autonomous helicopter using hybrid enhanced artificial bee colony algorithm
Zhang et al. Enhancing the take-off performance of hypersonic vehicles using the improved chimp optimisation algorithm
Kang et al. Air-to-air combat tactical decision method based on SIRMs fuzzy logic and improved genetic algorithm
Minglang et al. Maneuvering decision in short range air combat for unmanned combat aerial vehicles
Yang et al. Autonomous control of UAV trajectory based on RHC-Radau method in complex penetration combat environment
Li et al. A path planning for one UAV based on geometric algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant