CN114253296A - 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 - Google Patents

高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 Download PDF

Info

Publication number
CN114253296A
CN114253296A CN202111580724.4A CN202111580724A CN114253296A CN 114253296 A CN114253296 A CN 114253296A CN 202111580724 A CN202111580724 A CN 202111580724A CN 114253296 A CN114253296 A CN 114253296A
Authority
CN
China
Prior art keywords
hypersonic
network
aircraft
hypersonic aircraft
aerocraft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111580724.4A
Other languages
English (en)
Inventor
王鹏
鲍存余
何睿智
汤国建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111580724.4A priority Critical patent/CN114253296A/zh
Publication of CN114253296A publication Critical patent/CN114253296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

高超声速飞行器机载轨迹规划方法、装置、飞行器及介质,将高超声速飞行器的再入滑翔段运动方程作为其轨迹规划问题的训练环境;构建所述轨迹规划问题的状态空间和策略动作空间、环境动态转移函数、奖励函数以及折扣因子;利用深度强化学习算法对所述轨迹规划问题的神经网络进行训练。将飞行过程中获得的状态空间输入到训练好的Actor网络,获得策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。本发明利用人工智能算法在实现了高超声速飞行器滑翔段机载实时轨迹规划,提高了飞行器的任务适应能力,有效解决高超声速变形飞行器再如滑翔飞行的轨迹在线规划困难的问题。

Description

高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
技术领域
本发明属于飞行器控制技术领域,特别涉及一种高超声速飞行器机载轨迹规划方法、装置、飞行器及介质。
背景技术
高超声速滑翔飞行器的再入滑翔段的轨迹在线生成任务是在考虑复杂非线性、强耦合的动力学特性、强不确定的飞行环境和满足多约束限制的情况下,实时输出指令引导飞行器从当前位置精确飞抵预设目标区域。滑翔段轨迹效果不仅决定了飞行器能否在飞向目标区域,同时还影响俯冲段起始点的飞行状态。在传统的飞行器的轨迹规划中,假设飞行器的初始状态已知,并预先得到最优轨迹。然而,在高超声速滑翔实际飞行中,由于飞行不确定性和外部干扰,这一假设很难成立,这意味着再入滑翔段的初始状态可能偏离规定的起点。因此研究一种新型高效、稳定、计算量小的机载在线轨迹规划方法,从扰动初始状态自主生成最优轨迹,以保证更高的自主性、鲁棒性和实时性,具有重要意义。
近几年,随着RL、深度学习为代表的人工智能算法的发展,也为探索高超声速飞行器智能化飞行控制技术提供了新的技术方向。深度学习中的深度神经网络(DNN)在理论上可以无限逼近任何非线性系统,因此不仅可以用来学习最优控制问题的输入/输出映射,同时可以极高的精度学习优化模型的基本原理。强化学习被认为是设计智能系统的核心技术之一,通过赋予智能体自监督学习能力以及运用“尝试-试错”与平衡“探索与利用”等机制,实现智能体与环境的不断交互,根据环境给出的奖励或惩罚反馈,改进行动策略。相比于最优控制方法,尽管强化学习算法在训练时呈现出很高的计算成本,但它们在部署时以比最优控制低得多的计算成本实现了类似于最优控制的性能,同时还提出了一个更通用的设计框架。
强化学习本质上解决的是一个序贯决策问题,而高超声速飞行器在线轨迹规划正是根据当前状态实时解算最优控制量,因此,原理上强化学习是在线轨迹规划的有效技术途径。
发明内容
针对现有技术中高超声速飞行器再入滑翔段的轨迹规划问题,本发明的目的是提供一种高超声速飞行器机载轨迹规划方法、装置、飞行器及介质。本发明通过利用人工智能中的强化学习算法对高超声速飞行器再入滑翔段的轨迹进行机载在线规划,使得高超声速飞行器能够很好地实现再入飞行的任务需求。
为实现上述技术目的,本发明提出的技术方案为:
一方面,本发明提供一种高超声速飞行器机载轨迹规划方法,包括:
将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境;
构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角;
设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子;
构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络;
在飞行过程中,将高超声速飞行器的状态空间输入到训练好的Actor网络,获得高超声速飞行器的策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
另一方面,本发明提供一种高超声速飞行器机载轨迹规划装置,包括:
第一模块,用于构建训练环境,将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境;
第二模块,用于构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角;
第三模块,用于设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子;
第四模块,用于构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络;
第五模块,用于将高超声速飞行器飞行过程中获取的实时状态空间输入到训练好的Actor网络,获得高超声速飞行器的策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
另一方面,本发明提供一种高超声速飞行器,包括机体与设在机体内的机载电路板,所述机载电路板上设有处理器与存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述高超声速飞行器机载轨迹规划方法的步骤。
再一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述高超声速飞行器机载轨迹规划方法的步骤。
与现有技术相比,本发明的优点在于:
本发明针对高超声速飞行器再入滑翔段的轨迹规划问题,以DNN为模型,基于强化学习的ODPDAC算法,设置以目标终端精度最高为导向的奖励函数,通过端对端学习得到一个满足实时轨迹规划要求的机载轨迹生成网络,该网络可以直接根据在线观测的运动状态空间实时输出轨迹控制指令。该方法适用于高超声速飞行器再入滑翔段飞行任务的完成,工程应用意义重大,有效解决高超声速飞行器再入滑翔段的机载轨迹生成问题,同时保证了控制生成实现的实时性,具有实时机载高精度轨迹规划能力。
附图说明
图1是本发明一实施例的控制流程示意图;
图2是本发明一实施例中采用的ODPDAC算法结构示意图;
图3是本发明一实施例中强化学习终端奖励值随训练回合的变化曲线图;
图4是本发明一实施例中强化学习终端位置偏差随训练回合的变化曲线图;
图5是本发明一实施例中强化学习终端高度偏差随训练回合的变化曲线图;
图6是本发明一实施例中再入滑翔段飞行三维轨迹曲线图;
图7是本发明一实施例中再入滑翔段飞行高度经度、纬度变化曲线图;
图8是本发明一实施例中再入滑翔段飞行速度、速度倾角、航迹偏航角变化曲线图;
图9是本发明一实施例中再入滑翔段飞行热流密度、动压、过载变化曲线图;
图10是本发明一实施例中再入滑翔段飞行控制量倾侧角的变化曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
参照图1,本发明一实施例中,提供一种高超声速飞行器机载轨迹规划方法,包括:
将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境;
构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角;
设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子;
构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络;
在飞行过程中,将高超声速飞行器的状态空间输入到训练好的Actor网络,获得高超声速飞行器的策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
本发明可以广泛适用于现有的各种高超声速飞行器。不失一般性,在本发明一实施例中,选取的高超声速飞行器为已公开的Common Aero Vehicle(CAV-H)飞行器,其高超声速飞行器的再入滑翔段运动方程如下式所示:
Figure BDA0003425964200000051
式中:r、λ、φ、V、θ、σ分别高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,υ是高超声速飞行器的倾侧角;g=μ/r2为地球引力加速度,其中μ为地球引力常数;L、D分别为高超声速飞行器的升力和阻力加速度大小;地球旋转对应的哥氏加速度项Cσ、Cθ以及牵连加速度项
Figure BDA0003425964200000052
Figure BDA0003425964200000054
Figure BDA0003425964200000053
分别为:
Figure BDA0003425964200000061
式中ωe为地球旋转角速度,已知量。
L、D的表达式如下:
Figure BDA0003425964200000062
上式中,M为高超声速飞行器的质量;Sr为高超声速飞行器的参考面积,已知量;CL、CD分别为高超声速飞行器的升力系数和阻力系数,两者都是关于攻角α和马赫数Ma的函数,已知量;
Figure BDA0003425964200000063
为动压,其中ρ为大气密度,已知量。
对于不同的高超声速飞行器,其再入滑翔段运动方程有差别。但是本案的方法广泛适应于各种高超声速飞行器。对于高超声速飞行器,构建其对应的再入滑翔段运动方程,简记为:
Figure BDA0003425964200000064
结合高超声速飞行器的再入滑翔段运动方程,将高超声速飞行器再入滑翔段的轨迹规划问题表述如下:
P0:min J
Figure BDA0003425964200000065
选取飞行器落点和期望目标点相对距离最小为目标函数。
Figure BDA0003425964200000071
其中,λf为飞行器落点经度,φf为飞行器落点纬度,rf为飞行器落点地心距。
Figure BDA0003425964200000072
为期望目标点经度,
Figure BDA0003425964200000073
为期望目标点纬度,
Figure BDA0003425964200000074
为期望目标点地心距,等价于期望目标点高度。C1和C2均为权重系数,已知量。
Figure BDA0003425964200000075
是高超声速飞行器的再入滑翔段运动方程的形式简化。
Figure BDA0003425964200000076
qmaxnmax分别为热流密度
Figure BDA0003425964200000077
动压q和过载n的最大约束值,均为已知量。
Figure BDA0003425964200000078
式中,kQ为热流密度常数,已知量。
对于攻角α,本领域技术人员可以根据实际情况进行设计。在本发明一优选实施例中,设计如下:
Figure BDA0003425964200000079
Lcosσ+(V2-1/r)(1/r)=0是准平衡滑翔条件,作为软约束在高超声速飞行器再入滑翔段的轨迹规划问题之中。x(t0)=x0,x(tf)=xf表示高超声速飞行器再入滑翔段的轨迹规划问题的边界条件约束,分别为飞行器起点和终点状态约束。J为目标函数。高超声速飞行器的倾侧角υ作为控制量a,即:
a=υ
对高超声速飞行器的倾侧角的幅值|υ|和变化率的幅值
Figure BDA00034259642000000710
加以约束如下:
Figure BDA00034259642000000711
式中,υmax
Figure BDA00034259642000000712
分别为高超声速飞行器的倾侧角的幅值|υ|和变化率的幅值
Figure BDA0003425964200000083
的最大约束值,已知量。
本发明中将高超声速飞行器再入滑翔段的轨迹规划问题,转化为面向强化学习的马尔可夫过程进行描述。马尔可夫过程一般由五个元素组成,分别为(S,A,P,R,γ),其中,S和A分别是智能体的状态空间和策略动作空间,P是环境动态转移函数,R是奖励函数,γ是折扣因子。
本发明中的智能体为高超声速飞行器,将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境。
构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角。
环境动态转移函数P=1。
由于高超声速飞行器再入滑翔段过程中所处约束条件复杂,为了实现轨迹规划终端偏差最小,可设置奖励函数如下:
Figure BDA0003425964200000081
其中,H(n-nmax)、
Figure BDA0003425964200000084
、H(q-qmax)表示为H(x)的形式,H(x)为如下的heaviside阶跃函数:
Figure BDA0003425964200000082
Figure BDA0003425964200000088
qmax nmax分别为热流密度约束
Figure BDA0003425964200000085
、动压约束q和过载约束n的最大约束值,均为已知量;奖励函数中,
Figure BDA0003425964200000087
为速度倾角的变化率,
Figure BDA0003425964200000086
的绝对值越大,表示高度振荡越剧烈,受到的惩罚越大;Sf、hf分别为高超声速飞行器落点和期望目标点的距离偏差以及高度偏差,Sr、hr分别为奖励函数中的归一化常数,均为给定值;ΔSf、Δhf分别为高超声速飞行器落点和期望目标点的位置误差、高超声速飞行器落点和期望目标点的高度误差。
折扣因子γ选择一个小于1的较大数值,本发明一优选实施例中,γ为0.9975。
本发明构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络。其中深度强化学习算法选择离线深度策略确定性AC算法(ODPDAC)对建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络进行学习训练,算法结构如图2所示,分别用DNN逼近行为值函数Q(s,a)(Critic网络)和策略网络μ(a|s)(Actor网络)进行“端对端”学习。Q(s,a|θQ)表示利用Critic网络逼近的行为值函数,μ(s|θμ)表示利用Actor网络逼近的策略函数,其中θμ表示Actor网络μ的网络参数,θQ表示Critic网络Q的网络参数。
具体地,训练流程如下:
S1:随机初始化Actor网络与Critic网络的网络参数;
S2:初始化高斯噪声分布G与高超声速飞行器的状态空间;
S3:获取当前时刻高超声速飞行器的状态空间s,输入到Actor网络得到当前时刻的策略动作空间a,根据所述高超声速飞行器的再入滑翔段运动方程获得动作选择后下一时刻高超声速飞行器的状态空间s',并根据所述奖赏函数得到当前奖赏值R,将一组样本(s,a,R,s′)存入到经验池D中;
S4:判断经验池D是否已满,若不满,则将下一时刻高超声速飞行器的状态空间s'作为当前时刻高超声速飞行器的状态空间s,重复执行步骤S2;若经验池D已满,从经验池D中随机抽取N个样本(si,ai,Ri,s′i),i=1,2,…N;si,ai,Ri,s′i分别代表第i个样本对应的当前时刻高超声速飞行器的状态空间、当前时刻的策略动作空间、当前奖赏值以及下一时刻高超声速飞行器的状态空间;
S5:获取各样本的行为值函数Qi(si,aiQ)与TD目标值yi,计算损失函数E;
S6:通过最小化损失函数E,更新Critic网络的网络参数θQ;然后计算行为值函数Qi(si,aiQ)相对于ai的梯度并结合Actor网络中ai相对于网络参数θμ的梯度,按照梯度上升法更新Actor网络的网络参数θμ
S7:判断当前高超声速飞行器机载轨迹是否结束,若结束,则重复进行步骤S2至S6,否则,重复步骤S3至S6,直至满足预设的迭代收敛条件,得到训练好的Actor网络。
作为优选实施方式,S5中,将样本的si与ai输入到Critic网络计算得到行为值函数Qi(si,ai|θQ),将样本的s′i输入到Actor网络计算得到a′i=μ(s′iμ),将样本的s′i与a′i输入到Critic网络计算得到行为值函数Q′i(s′i,a′iQ),再结合Ri,代入到以下公式计算得到TD目标值yi
yi=Ri+γQ(s′i,μ(s′iμ)|θQ),i=1,2,...,N
在获取N个样本的行为值函数Qi(si,aiQ)与TD目标值yi之后,按照以下公式计算损失函数E:
Figure BDA0003425964200000101
S6中,通过最小化损失函数E,训练更新Critic网络的网络参数θQ;然后计算行为值函数Qi(si,aiQ)相对于ai的梯度
Figure BDA0003425964200000102
结合Actor网络中ai相对于网络参数θμ的梯度
Figure BDA0003425964200000103
按照梯度上升法得到Actor网络的参数更新值
Figure BDA0003425964200000111
可以理解,迭代收敛条件是指预先设置的模型计算约束条件,用于约束整个模型进行性能计算的过程趋向收敛,以使模型能够输出满足条件的结果。实际应用中,本领域技术人员也可基于现有技术、本领域的惯用技术手段或者公知常识,设定迭代收敛条件,通过判断是否满足迭代收敛条件(如迭代次数是否达到设定的最大值)判断网络训练是否结束,若结束,则保存输出所述神经网络参数;否则继续迭代。
当利用深度强化学习算法对所述神经网络训练完成之后,将实时采集到的高超声速飞行器的状态空间实时输入到训练好的Actor网络,将直接通过内部计算获得最佳的策略动作空间,使高超声速飞行器按照策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
在本发明一实施例中提供一种高超声速飞行器飞行过程中的轨迹规划方法,包括以下步骤:
(1)初始化高超声速飞行器的状态空间、目标与威胁区、飞行轨迹;
(2)取当前时刻高超声速飞行器的状态空间s,输入上述实施例中提供的训练好的Actor网络,得到当前时刻的策略动作空间a以及下一时刻高超声速飞行器的状态空间s';
(3)用下一时刻高超声速飞行器的状态空间s'替换当前时刻高超声速飞行器的状态空间s;
(4)判断当前轨迹是否结束,若结束,则保存当前完整飞行航迹,验证高超声速飞行器是否将按照指令飞行至预定的目标区域,完成了再入滑翔段飞行任务;否则,重复步骤(2)-(4)。
在本发明一实施例中,提供一种高超声速飞行器机载轨迹规划装置,包括:
第一模块,用于构建训练环境,将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境;
第二模块,用于构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角;
第三模块,用于设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子;
第四模块,用于构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络;
第五模块,用于将高超声速飞行器飞行过程中获取的实时状态空间输入到训练好的Actor网络,获得高超声速飞行器的策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
上述各模块功能的实现方法,可以采用前述各实施例中相同的方法实现,在此不再赘述。
在本发明一实施例中,提供一种高超声速飞行器,包括机体与设在机体内的机载电路板,所述机载电路板上设有处理器与存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述高超声速飞行器机载轨迹规划方法的步骤。
在本发明一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述高超声速飞行器机载轨迹规划方法的步骤。
下面对本发明上述实施例提供的高超声速飞行器机载轨迹规划方法进行仿真验证:
仿真算例:
为了验证述上述实施例提供的高超声速飞行器机载轨迹规划方法的有效性,对模型进行数值仿真。高超声速飞行器再入滑翔段的初始条件和终端条件设置如表1所示,主要约束设置如表2所示。
表1初始条件和终端条件
Figure BDA0003425964200000131
表2其它约束条件取值
Figure BDA0003425964200000132
ODPDAC包含两个DNN,Actor网络与Critic网络,Actor网络与Critic网络结构设计如表3所示,网络结构参数如表4所示。
表3 AC网络结构参数设置
Figure BDA0003425964200000141
表4神经网络其他超参数设置
Figure BDA0003425964200000142
仿真结果如图3-图10所示。
在经过3500个回合的“端对端”强化学习训练,飞行器轨迹规划任务所得到的终端奖励值、终端位置偏差以及高度偏差随着训练回合数的变化如图3-图5所示。其中图3是本仿真实例中强化学习终端奖励值随训练回合的变化曲线图;图4是本仿真实例中强化学习终端位置偏差随训练回合的变化曲线图;图5是本仿真实例中强化学习终端高度偏差随训练回合的变化曲线图。
在训练过程中,随着训练回合的增加,强化学习的终端奖励也逐渐增加,初始阶段,探索值较大,策略优化程度较小,因此初始学习阶段的奖励值较小,奖励值震荡情况明显;而随着强化学习对策略的不断优化,奖励值也逐渐增大,在前1000回合的训练中,奖励值快速增加,策略得到快速优化;在训练回合达到2500次之后,强化学习的奖励值逐渐收敛到较大值,在训练末期,飞行器轨迹规划任务的强化学习奖励最大值达到了46.63,终端距离偏差以及终端高度偏差都收敛到一个较小的值,分别为21.41km和45.4m。
为了验证经过强化学习训练所得到的策略网络的有效性,如图1所示,将训练好的策略网络代入高超声速飞行器的动力学模型中,进行再入滑翔段轨迹实时规划的计算仿真,所得到的再入滑翔段飞行轨迹和飞行状态变化结果如图6-图10所示。其中图6是本仿真实例中再入滑翔段飞行三维轨迹曲线图;图7是本仿真实例中再入滑翔段飞行高度经度、纬度变化曲线图;图8是本仿真实例中再入滑翔段飞行速度、速度倾角、航迹偏航角变化曲线图;图9是本仿真实例中再入滑翔段飞行热流密度、动压、过载变化曲线图;图10是本仿真实例中再入滑翔段飞行控制量倾侧角的变化曲线图。
由图6至图7可知,经过强化学习优化后的策略网络,可以完成滑翔段的实时在线轨迹生成,飞行器可以达到预定的位置及高度范围内,满足终端位置及高度要求。由图8可知,飞行器速度全程缓慢减小,变化趋势平缓,无急剧变化及震荡等情况,最终减小至规定的截止速度。速度倾角全程保持在0附近,除初始下降段由于升力不足导致的速度倾角变化较为剧烈之外,进入滑翔段交班点后速度倾角几乎全保持在负值,保证了飞行高度的单调下降,且滑翔段速度倾角的绝对值大多保持0.5°以内,从而使得飞行高度的震荡情况大大改善。航迹偏航角全程缓慢变化,无震荡情况出现,保证了飞行方向不会产生频繁地改变。由图9可知,飞行全程的热流密度、动压以及法向过载全程均保持在最大约束值以下,满足约束要求。由图10显示了强化学习训练的策略网络在飞行过程中输出的控制量倾侧角的变化,相比于预训练策略网络的输出结果,该控制量曲线有所改进,提升了轨迹规划的效果及奖励值。运用强化学习优化后的策略网络进行滑翔段轨迹规划的终端位置及最大约束值如表5所示:
表5终端状态偏差及最大约束值
Figure BDA0003425964200000161
由表5可知,滑翔段轨迹全程满足约束条件,且终端状态的位置偏差仅有21.58km,说明强化学习的奖励设置有效,训练过程中,策略网络按照奖励设置的目标导向对进行了优化,显著提升了策略网络用于轨迹规划时的效果,且策略网络在仿真过程中运算时间极短,产生控制量是近实时生成的,因此可用于高超声速飞行器滑翔段机载实时轨迹规划。
为了更好地实现高超声速飞行器在再入滑翔段的飞行任务,本发明基于强化学习算法,设计了一个适用于高超声速飞行器再入滑翔段的轨迹进行机载在线规划的方法,以DNN为模型,基于强化学习的ODPDAC算法,设置以终端精度最高为导向的奖励函数,通过端对端学习得到一个满足实时轨迹规划要求的机载轨迹生成器,提高了飞行器的任务适应能力,验证了方法在再入滑翔段进行机载轨迹生成的有效性。本发明提供了一个强化学习的人工智能算法在飞行控制上应用的新视角,将有助于高超声速飞行器智能化控制的发展。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.高超声速飞行器机载轨迹规划方法,其特征在于,包括:
将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境;
构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角;
设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子;
构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络;
在飞行过程中,将高超声速飞行器的状态空间输入到训练好的Actor网络,获得高超声速飞行器的策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
2.根据权利要求1所述的高超声速飞行器机载轨迹规划方法,其特征在于,高超声速飞行器的再入滑翔段运动方程,为:
Figure FDA0003425964190000011
式中:r、λ、φ、V、θ、σ分别高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,υ是高超声速飞行器的倾侧角;g=μ/r2为地球引力加速度,其中μ为地球引力常数;L、D分别为高超声速飞行器的升力和阻力加速度大小;地球旋转对应的哥氏加速度项Cσ、Cθ以及牵连加速度项
Figure FDA0003425964190000021
Figure FDA0003425964190000022
Figure FDA0003425964190000023
分别为:
Figure FDA0003425964190000024
式中ωe为地球旋转角速度,已知量。
3.根据权利要求2所述的高超声速飞行器机载轨迹规划方法,其特征在于,所述环境动态转移函数P=1,折扣因子γ小于1。
4.根据权利要求3所述的高超声速飞行器机载轨迹规划方法,其特征在于,折扣因子γ取值为0.9975。
5.根据权利要求1、2、3或4所述的高超声速飞行器机载轨迹规划方法,其特征在于,奖励函数如下:
Figure FDA0003425964190000025
其中,H(n-nmax)、
Figure FDA0003425964190000026
H(q-qmax)表示为H(x)的形式,H(x)为如下的heaviside阶跃函数:
Figure FDA0003425964190000027
Figure FDA0003425964190000028
qmax nmax分别为热流密度约束
Figure FDA0003425964190000029
动压约束q和过载约束n的最大约束值,均为已知量;奖励函数中,
Figure FDA00034259641900000210
为速度倾角的变化率,
Figure FDA00034259641900000211
的绝对值越大,表示高度振荡越剧烈,受到的惩罚越大;Sf、hf分别为高超声速飞行器落点和期望目标点的距离偏差以及高度偏差,Sr、hr分别为奖励函数中的归一化常数,均为给定值;ΔSf、Δhf分别为高超声速飞行器落点和期望目标点的位置误差、高超声速飞行器落点和期望目标点的高度误差。
6.根据权利要求5所述的高超声速飞行器机载轨迹规划方法,其特征在于,利用深度强化学习算法对所述神经网络进行训练,包括:
S1:随机初始化Actor网络与Critic网络的网络参数;
S2:初始化高斯噪声分布G与高超声速飞行器的状态空间;
S3:获取当前时刻高超声速飞行器的状态空间s,输入到Actor网络得到当前时刻的策略动作空间a,根据所述高超声速飞行器的再入滑翔段运动方程获得动作选择后下一时刻高超声速飞行器的状态空间s',并根据所述奖赏函数得到当前奖赏值R,将一组样本(s,a,R,s′)存入到经验池D中,
S4:判断经验池D是否已满,若不满,则将下一时刻高超声速飞行器的状态空间s'作为当前时刻高超声速飞行器的状态空间s,重复执行步骤S2;若经验池D已满,从经验池D中随机抽取N个样本(si,ai,Ri,s′i),i=1,2,…N;si,ai,Ri,s′i分别代表第i个样本对应的当前时刻高超声速飞行器的状态空间、当前时刻的策略动作空间、当前奖赏值以及下一时刻高超声速飞行器的状态空间;
S5:获取各样本的行为值函数Qi(si,aiQ)与TD目标值yi,计算损失函数E;
S6:通过最小化损失函数E,更新Critic网络的网络参数θQ;然后计算行为值函数Qi(si,aiQ)相对于ai的梯度并结合Actor网络中ai相对于网络参数θμ的梯度,按照梯度上升法更新Actor网络的网络参数θμ
S7:判断当前高超声速飞行器机载轨迹是否结束,若结束,则重复进行步骤S2至S6,否则,重复步骤S3至S6,直至满足迭代收敛条件,得到训练好的Actor网络。
7.根据权利要求6所述的高超声速飞行器机载轨迹规划方法,其特征在于,S5中,将样本的si与ai输入到Critic网络计算得到行为值函数Qi(si,aiQ),将样本的s′i输入到Actor网络计算得到a′i=μ(s′iμ),将样本的s′i与a′i输入到Critic网络计算得到行为值函数Q′i(s′i,a′iQ),再结合Ri,代入到以下公式计算得到TD目标值yi
yi=Ri+γQ(s′i,μ(s′iμ)|θQ),i=1,2,...,N
损失函数E:
Figure FDA0003425964190000041
8.高超声速飞行器机载轨迹规划装置,其特征在于,包括:
第一模块,用于构建训练环境,将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境;
第二模块,用于构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间,状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角,策略动作空间为高超声速飞行器的倾侧角;
第三模块,用于设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子;
第四模块,用于构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络,神经网络包括Actor网络与Critic网络,利用深度强化学习算法对所述神经网络进行训练,得到训练好的Actor网络;
第五模块,用于将高超声速飞行器飞行过程中获取的实时状态空间输入到训练好的Actor网络,获得高超声速飞行器的策略动作空间,使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域,完成再入滑翔段飞行任务。
9.一种高超声速飞行器,包括机体与设在机体内的机载电路板,所述机载电路板上设有处理器与存储器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1中所述高超声速飞行器机载轨迹规划方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1中所述高超声速飞行器机载轨迹规划方法的步骤。
CN202111580724.4A 2021-12-22 2021-12-22 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 Pending CN114253296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111580724.4A CN114253296A (zh) 2021-12-22 2021-12-22 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111580724.4A CN114253296A (zh) 2021-12-22 2021-12-22 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质

Publications (1)

Publication Number Publication Date
CN114253296A true CN114253296A (zh) 2022-03-29

Family

ID=80794286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111580724.4A Pending CN114253296A (zh) 2021-12-22 2021-12-22 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质

Country Status (1)

Country Link
CN (1) CN114253296A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115357051A (zh) * 2022-10-18 2022-11-18 北京理工大学 变形与机动一体化的规避与突防方法
CN115981149A (zh) * 2022-12-09 2023-04-18 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN116307331A (zh) * 2023-05-15 2023-06-23 北京航空航天大学 航空器轨迹的规划方法
CN116430900A (zh) * 2023-05-04 2023-07-14 四川大学 基于深度强化学习的高超声速弹头的博弈轨迹规划方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN114675545B (zh) * 2022-05-26 2022-08-23 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115357051A (zh) * 2022-10-18 2022-11-18 北京理工大学 变形与机动一体化的规避与突防方法
CN115981149A (zh) * 2022-12-09 2023-04-18 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN115981149B (zh) * 2022-12-09 2024-01-09 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN116430900A (zh) * 2023-05-04 2023-07-14 四川大学 基于深度强化学习的高超声速弹头的博弈轨迹规划方法
CN116430900B (zh) * 2023-05-04 2023-12-05 四川大学 基于深度强化学习的高超声速弹头的博弈轨迹规划方法
CN116307331A (zh) * 2023-05-15 2023-06-23 北京航空航天大学 航空器轨迹的规划方法
CN116307331B (zh) * 2023-05-15 2023-08-04 北京航空航天大学 航空器轨迹的规划方法

Similar Documents

Publication Publication Date Title
CN114253296A (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN109343341B (zh) 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN112198870B (zh) 基于ddqn的无人机自主引导机动决策方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN108958275B (zh) 一种刚柔液耦合系统姿态控制器和机动路径联合优化方法
CN111351488A (zh) 飞行器智能轨迹重构再入制导方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN114840020A (zh) 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法
Grande et al. Experimental validation of Bayesian nonparametric adaptive control using Gaussian processes
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN108958274B (zh) 一种基于pso的刚柔液耦合系统姿态机动路径规划方法
CN112859889A (zh) 基于自适应动态规划的自主式水下机器人控制方法和系统
Wu et al. Improved reinforcement learning using stability augmentation with application to quadrotor attitude control
Zhang et al. UAV path planning based on receding horizon control with adaptive strategy
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
Fletcher et al. Improvements in learning to control perched landings
Zang et al. A machine learning enhanced algorithm for the optimal landing problem
Roy Robust controller for vertical-longitudinal-lateral dynamics control of small helicopter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination