CN115828631A - 一种基于近端策略优化算法的飞机失速改出方法 - Google Patents

一种基于近端策略优化算法的飞机失速改出方法 Download PDF

Info

Publication number
CN115828631A
CN115828631A CN202211692807.7A CN202211692807A CN115828631A CN 115828631 A CN115828631 A CN 115828631A CN 202211692807 A CN202211692807 A CN 202211692807A CN 115828631 A CN115828631 A CN 115828631A
Authority
CN
China
Prior art keywords
airplane
stall
value
optimization algorithm
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211692807.7A
Other languages
English (en)
Inventor
王君秋
谭健美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Aeronautical Est
Original Assignee
Chinese Aeronautical Est
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Aeronautical Est filed Critical Chinese Aeronautical Est
Priority to CN202211692807.7A priority Critical patent/CN115828631A/zh
Publication of CN115828631A publication Critical patent/CN115828631A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于航空技术领域,涉及一种基于近端策略优化算法的飞机失速改出方法。本发明通过运行飞行模拟器,采集飞机的不同轨迹,基于改进的近端策略优化的智能体利用飞机的飞行轨迹进行控制策略学习,飞机的状态参数通过UDP协议传输给智能体;智能体的控制策略通过UDP传输给飞行模拟器,采用贝塔分布计算贝塔分布参数的比值,从而为训练规划提供帮助,设计了平滑的飞机失速改出奖励函数提高系统训练效率,最后,结合自适应学习率,充分利用飞行轨迹的样本效率,提高系统的学习能力。

Description

一种基于近端策略优化算法的飞机失速改出方法
技术领域
本发明属于航空技术领域,涉及基于深度强化学习进行飞机失速改出,特别涉及一种基于近端策略优化算法的飞机失速改出方法。
背景技术
飞机在飞行过程中通过与空气的相对运动获得升力。空气气流相对平滑地流过机翼,形成升力。飞机平飞时的升力与重力形成平衡力。飞机飞行速度直接影响升力系数。随着速度降低,飞机升力系数急速下降。飞机迎角及飞行高度也与升力系数相关。随着飞机迎角逐渐增加,飞机的升力系数随之增加。但是,当迎角超过某个给定的迎角值时,空气在机翼附近的流动不再平滑,空气在边界层与上翼表面开始过早分离。当迎角继续升高时,升力系数突然降低,从而飞机升力亦突然降低,升力与重力不能达成平衡,飞机高度急剧下降。当迎角足够高的情况下,飞机可能在任何速度和高度情况下失速。因此,飞机失速的最重要影响因素是迎角。不同类型的飞机由于翼型不同、控制面不同,可能有不同的失速迎角。
失速改出的主要目标是降低飞机迎角,在尽可能短的时间内获得安全的飞行速度。
飞机的失速改出是一个连续控制问题,强化学习方法正是一个解决连续决策问题良好方案,以飞机失速时的初状态作为强化学习网络的环境初始化之后第一个状态,然后以强化学习网络的输出值(即动作值)作为飞机控制杆的控制量,飞机获得新的控制量后对当前状态进行更新并获得新的状态,此时环境会根据飞机的新状态对这次控制决策给出一个奖励值,随后以该新状态作为强化学习网络的下一个输入值,如此每一次循环,飞机将完成识别当前状态,执行控制指令,到达下一状态,获取奖励值这一完整流程,强化学习网络的目的即是让每一轮中飞机获得的累计奖励值达到最大,只需要设计出合理的奖励函数,就可以引导网络做出有利于失速改出的决策,如此,便用强化学习手段实现了飞机失速改出的目的。
文献采用深度确定性策略梯度算法进行失速改出,文献采用双延迟深度确定性策略梯度算法进行失速改出。深度确定性策略梯度、双延迟深度确定性策略梯度等算法属于离轨学习范畴。这些可以将样本存储在重放缓冲区中来解决高样本复杂性的问题,该缓冲区允许重复使用数据来计算多个策略更新。重用样本的能力提高了学习速度。然而,这种重用过程可能导致数据的分布偏离当前策略生成的分布。这种分布偏移使策略方法中使用的标准性能保证无效,并可能导致训练过程不稳定。基于离轨学习算法的学习效率与理论分析结果相差较远。文献采用深度确定性策略梯度算法实际上没有解决失速改出问题,他们实际增加了模仿学习的环节才可以进行失速改出。而文献采用了双阶段的双延迟深度确定性策略梯度算法进行策略改出,其设定非常复杂,获得策略的泛化能力也不能保证。
近端策略优化深度强化学习算法属于在轨学习范畴。近端策略优化使用当前策略生成的样本对网络参数进行更新,此种途径能够在理论上保证策略训练的稳定性。然而,由于近端策略优化的在轨学习属性,在强化学习过程中具有高方差性质,需要采集大量飞行轨迹才能应对高方差的问题。因此,传统的近端策略优化的样本复杂性较高,学习过程相对缓慢。
发明内容
本发明的主要目的:为解决上述问题提出一种基于近端策略优化算法的飞机失速改出方法。
本发明技术方案,一种基于近端策略优化算法的飞机失速改出方法,具体包括以下步骤:
步骤1、输入智能体的初始参数:根据飞机失速条件,使得飞机进入失速状态;同时,设置初始参数,近端策略优化算法采用actor-critic框架,分别对actor网络及critic网络进行初始化,网络初始化均采用正交初始化;学习率设定为lrate=0.00003;自适应系数初始化设定为ladaptive=0.01。
步骤2、智能体基于改进的贝塔分布为飞行模拟器生成策略;
步骤3、基于智能体提供的控制策略,飞行模拟器得到不同的飞行轨迹,飞行轨迹存储到轨迹储存池中;
步骤4、计算智能体的优势估计值函数;
步骤5、基于轨迹再入和值函数估计结果,进行近端策略优化;
步骤6、利用梯度下降方法拟合值函数;
步骤7、根据轨迹重用情况对学习率进行更新;
步骤8、基于不同飞行策略获得的飞行轨迹,循环进行学习,并判断飞机是否从失速中改出;改出条件为飞机迎角6°>αA>3°;俯仰角5°>θA>3°;滚转角1°>φA>-1°。
所述步骤2改进的贝塔分布为πk=π(θk),通过πk=π(θk)采集相应轨迹Dk=τi
所述步骤3智能体提供的控制策略为:
Figure SMS_1
其中Γ(·)是伽马函数,随机变量x服从参数为α,β的贝塔分布。
所述步骤4计算智能体的优势估计值函数具体为:
Figure SMS_2
其中
Figure SMS_3
利用广义优势估计器获得的值函数取值;V(st)是在状态st时的值函数。
所述步骤5基于轨迹再入和值函数估计结合的方法:
Figure SMS_4
其中0<λ<1是超参数;
Figure SMS_5
是值函数在t时刻取值;参数k控制估计量更大的偏差-方差权衡,更大的值导致估计量更接近经验回报,并且具有更少的偏差和更大的方差。
所述步骤5进行近端策略优化的方法为Adam(Adaptive Moment Estimation)优化算法。Adam优化算法对参数使用相同的学习率,并随着学习的进行而独立地适应。
所述步骤6利用梯度下降方法拟合值函数,具体为:
Figure SMS_6
其中|Dk|为轨迹的数目;T为智能体与飞行模拟器的交互次数;Vφ为值函数在状态st时的取值;
Figure SMS_7
为进入状态st时的预期奖励。
所述步骤7根据轨迹重用情况对学习率进行更新具体为:
Figure SMS_8
其中lrate为学习率的初始化值;labaptive为自适应系数;δd为轨迹间距离;∈i为关于轨迹距离的阈值,设定为0.6。
所述轨迹重用情况为:基于步骤7中的学习率更新结果,在步骤7中的优化过程中使用更新过的学习率。
所述步骤8循环进行学习的方法为:根据改出条件判断飞机是否从失速中改出,如果满足改出条件,智能体获得此轮学习的最大奖励值1。
本发明的有益效果:本发明通过运行飞行模拟器,采集飞机的不同轨迹,基于改进的近端策略优化的智能体利用飞机的飞行轨迹进行控制策略学习,飞机的状态参数通过UDP协议传输给智能体;智能体的控制策略通过UDP传输给飞行模拟器,采用贝塔分布计算贝塔分布参数的比值,从而为训练规划提供帮助,设计了平滑的飞机失速改出奖励函数提高系统训练效率,最后,结合自适应学习率,充分利用飞行轨迹的样本效率,提高系统的学习能力;近端策略优化算法输出随机策略,传统上采用高斯分布学习途径。由于飞机控制舵面的控制范围被限制在一定区间,而高斯分布在负无穷大至正无穷大都有概率分布存在,本申请采用计算分布参数比值的贝塔分布;结合自适应学习率,充分利用飞行轨迹的样本效率,提高系统的学习能力。
附图说明
图1是飞机失速改出系统的示意图。
图2是改进的近端策略优化算法的框图。
具体实施方式
下面结合附图对本发明进一步说明:
本发明整个强化学习系统环境由一组由飞机提供的状态S、一组智能体为飞机提供的动作A、描述整个系统初始状态分布为p(si),奖励函数为
Figure SMS_9
其中
Figure SMS_10
为回报。转移概率为p(st+1|st,at),折扣因子γ∈[0,1],用于控制回报在不同步长中的奖励折扣。
智能体的策略π是从状态到动作分布的映射。每一训练都从对初始样本s0进行采样开始。在每个时间步t,智能代理基于当前状态产生一个动作:at~π(·|st)。随即,智能代理获得奖励rt=r(st,at),以及环境的新状态st+1,st+1是从分布p(·|st,at)中采样。未来奖励的折扣总和,也称为回报,定义为
Figure SMS_11
智能代理的目标是最大化其预期回报
Figure SMS_12
其中的期望依据动态响应取代初始状态分布、策略和环境转换。
根据上述动态,Q函数或动作-值函数定义为
Figure SMS_13
V函数(或状态-值函数定义为
Aπ(st,at)=Qπ(st,at)-Vπ(st)(3)
此函数为优势函数,用于表示在此处的动作at比相较于策略π在状态st中采取的平均行动的优劣。
广义优势函数估计拓展了优势函数。令V是某个策略的值函数的逼近器,即,V≈Vπ,则
Figure SMS_14
此函数为k步回报估计量。参数k控制估计量更大的偏差-方差权衡。更大的值导致估计量更接近经验回报,并且具有更少的偏差和更大的方差。广义的优势估计器(GAE)[2]是下面结合多步返回的方法
Figure SMS_15
其中0<λ<1是超参数。优势可以用下式估计:
Figure SMS_16
可以在线性时间内为在一个情节中遇到的所有状态计算此估计器的值。
训练过程中,首先利用飞行模拟器对多种高度、速度条件下的飞机失速情况进行仿真。通过改变升降舵控制参数增加飞机迎角,当飞机迎角大于临界迎角时,飞机进入失速状态。如果在飞机失速情况下不进行有效控制,飞机将不断下降,高度不断降低。同时,由于不对称的气流影响,飞机还可能进入更危险的尾旋状态。
改进的近端策略优化算法接收飞行模拟器中飞机的状态,通过策略网络计算相应的控制策略,通过UDP网络协议传输给飞行模拟器中的飞机。飞机根据改进的近端策略优化提供的策略进行相应控制,通过对不同控制策略的探索和利用,获得有效的飞机失速改出策略。
图1中表示了飞机失速改出系统。通过运行飞行模拟器,可以采集飞机的不同轨迹。基于改进的近端策略优化的智能体利用飞机的飞行轨迹进行控制策略学习。飞机的状态参数通过UDP协议传输给智能体;智能体的控制策略通过UDP传输给飞行模拟器。
在飞机失速改出的初始化阶段,飞机通过控制升降舵增加飞机迎角,随后进入失速状态。智能体通过贝塔策略输出控制指令给飞行模拟器,并计算飞行过程中的奖励函数及其他参数。
图2中是改进的近端策略优化深度强化学习算法。算法框架主要由初始化和学习过程组成。学习过程是改进的近端策略优化算法的主体。
在改进的近端策略优化的初始化中,需要对网络参数、值参数、学习率、自适应系数、策略参数等进行初始化。
近端策略优化采用critic-actor框架。其中critic网络可采用5层结构,在其激活层使用双曲正切函数;actor网络采用4层结构,其中第1层和第2层为全连接网络,第3层和第4层分别输出贝塔分布的阿尔法和贝塔参数,激活层采用双曲正切函数。
critic网络和actor网络的初始化采用正交初始化。这种初始化方式有利于函数进行学习。初始化环境后控制网络所接受到的第一个状态量为初始状态。下表列出了训练中的部分初始条件,其余条件可根据给出的条件和飞机失速时自身状态计算得到。
在训练的初始化阶段,飞机各状态的初始设置为:
迎角 αA 3°~6°
俯仰角 θA 3°~5°
滚转角 φA -1°~1°
在飞机平飞时,控制升降舵,增加飞机迎角,直至迎角大于临界迎角,飞机进入失速状态。智能体通过探索和利用获得有效的改出策略。
飞机飞行状态空间设置
在飞机失速改出的PPO强化学习过程中,强化学习状态空间的变量由10个飞机飞行状态量构成:空速VA、迎角αA、侧滑角βA、滚转角φA、俯仰角θA、偏航角ψA、滚转角速度pA、俯仰角速度qA、偏航角速度rA、垂直速度Vh。
在强化学习的网络训练过程中,状态信息被表征为一个10维向量:
(VA,αA,βA,φA,θA,ψA,pA,qA,rA,VhA)(7)
其中,空速V为飞机和空气相对的速度,也是空速表上显示的速度;迎角αA为速度矢量在纵向对称面上的投影,与机体纵轴之间夹角,投影位于机体坐标轴下面为正;侧滑角βA为速度矢量与飞机对称平面间的夹角,投影在飞机对称平面右侧为正;滚转角φA为机体坐标系z轴与通过x轴的铅锤面的夹角,向右滚转为正;俯仰角θA为机体坐标系x轴与地平面的夹角,抬头为正;偏航角ψA为机体坐标系x轴在地平面的投影与地面xg轴间的夹角,右偏为正;滚转角速度pA为机体坐标系相对于地面坐标系的转动角速度在x轴的投影,与x轴同向为正;俯仰角速度qA为机体坐标系相对于地面坐标系的转动角速度在y轴的投影,与y轴同向为正;偏航角速度rA为机体坐标系相对于地面坐标系的转动角速度在z轴的投影,与z轴同向为正;垂直速度Vh为飞机垂直于地面的速度,向上为正。
基于贝塔分布的动作构建
在失速改出场景下,动作控制由三个分量组成,其中包括升降舵操作,用于控制飞机的俯仰机动,动作范围为[-1,1];副翼操纵用于控制飞机的横滚机动,动作范围[-1,1];油门杆操作,控制飞机油门动力[0,1]。上述动作在归一化动作空间。算法计算获得归一化动作或,需要进一步根据实际舵面控制参数进行控制面转换,获得实际舵面控制角度。
在随机策略算法中,传统的动作生成途径通过高斯分布完成。由于高斯分布采样方便、参数明确、梯度计算容易,因此,高斯分布作为连续控制的随机策略已经得到了很好的研究和普遍使用。高斯分布成为随机动作空间采用首要选择。然而,在大多数连续控制强化学习应用中,由于物理限制,行动只能在某个有限的区间内取值。在飞机失速改出过程中,各个控制舵面都存在实际的约束条件,与高斯分布假设从负无穷大到正无穷大都存在动作采样的可能存在实际矛盾。这就引入了由边界效应引起的不可忽视的偏差。由于这种误差的存在,学习得到的策略可能与实际需要的策略存在不同。
为了解决这一问题,可以采用贝塔分布进行采样[2,3,4]。贝塔分布的表达能力很强,同时,贝塔分布可以利用两个容易解释的参数。贝塔描述了对每次试验成功概率的初始信念。
尽管利用贝塔分布可以部分解决高斯分布存在的问题,但是,直接采用贝塔分布还存在费舍尔信息矩阵与实际方差的分布不同,从而影响学习过程[3,4]。针对这一问题,本发明利用退火算法。在近端策略梯度学习的初期,策略的不确定性较大,因此,贝塔分布的范围应该较广,从而增加策略的探索能力。当随机策略达到一定程度时,需要在已知策略附近更多地进行利用。为此,本发明引入退火参数控制贝塔分布的参数学习过程。
贝塔概率分布可以用两个参数α,β描述:
Figure SMS_17
其中Γ(·)是伽马函数,随机变量x服从参数为α,β的贝塔分布。贝塔概率分布的期望值为:
Figure SMS_18
方差为:
Figure SMS_19
在近端策略优化过程中,本发明引入α,β的比例参数作为学习过程中的退火参数。在近端策略优化初期,希望算法更多地进行探索,因此,可以使得α,β更接近。在学习策略过程中,参数不断优化,需要更多地进行策略利用,可以使得α,β相差更多。这里定义:
Figure SMS_20
其中εbeta为小实数,这里定义为0.001。
Figure SMS_21
是α,β的差别。在学习过程中,利用
Figure SMS_22
控制学习的速率。
奖励函数构建
奖励函数主要反映智能代理的目标。在这里智能代理的目标是将处于失速状态的飞机从此种状态中改出。考虑失速改出的起始状态s0、采取的行动s0、结果状态send和其它随机变量的组合。这些是考虑奖励函数设置的依据。这些数据使得智能体与环境交互形成马尔可夫决策过程(MDP)。
在飞机失速改出过程中,应针对希望完成的事件和希望避免的事件进行分析。从中抽取系统状态与事件之间的关系,进行奖励函数设置。
针对飞机失速改出,PPO强化学习奖励函数的设计目的是引导网络做出最优决策,从而控制飞机完成改出。实际训练中,将针对空速V、迎角α、侧滑角β、滚转角φ、俯仰角θ、偏航角ψ、滚转角速度pA、俯仰角速度qA、偏航角速度rA、垂直速度Vh等10个变量进行设计。
奖励函数应设计为一系列与状态变量有关的函数。为了使目标网络更容易收敛,与各状态变量相关的奖励函数应是统一的,奖励函数的形式如下:
Figure SMS_23
其中
Figure SMS_24
其中
Figure SMS_25
是状态当前观测值;
Figure SMS_26
为此状态的控制目标值;bi为调整参数;i为相应状态的编码。
根据公式(1)中的奖励函数设置,当前飞机的状态观测量与目标状态值越接近,此观测量获得的奖励值越大。同时,奖励值的变化从整体而言是平滑的,而且在目标值附近时函数值二次导数增加很快,这可以促进近端优化算法在目标值附近决策时可以获取较大的奖励差值,使网络较易收敛至最优点。公式(2)可以通过调整bi来改变正向动作奖励。正向动作奖励是指若当前决策使得该状态分量比上一次决策更接近目标值,则获得正值的奖励,否则获得负值的惩罚,这会引导智能体在每一次决策中趋向于做出当前状态下的正向决策。在该奖励函数中,通过调整放缩系数bi,可以改变曲线与x轴的交点;而通过调整交点位置,可以在一点程度上代替正向动作奖励,同时又避免了正向动作奖励在目标值附近振荡的缺点。经实验证明,当交点为(40,0)左右时,可以获得最优的训练效果,此时对应的放缩系数取值为bi=0.02。
公式(1)还将奖励值归一到[-1,1]。奖励值归一化有利于减少因各个奖励的标量值不同对总体奖励的影响。同时也更加方便对不同参数的奖励设置不同的权重,设置更加明确的奖励函数和权重。
总奖励为各状态分量相关奖励的加权和:
Figure SMS_27
其中wi是第i个状态分量的权重。在实际训练过程中,各项权重将根据训练的不同阶段进行调整。实际训练中,空速VA、迎角αA、侧滑角βA、滚转角φA、俯仰角θA、偏航角ψA、滚转角速度pA、俯仰角速度qA、偏航角速度rA、垂直速度Vh等10个状态变量进行计算。随后,将各训练轮次的奖励函数取值进行叠加,得到最终的奖励函数取值。
值函数估计:
根据均方误差,利用回归分析拟合值函数,(通常利用梯度下降算法)
Figure SMS_28
飞行轨迹重新训练
飞行轨迹重新训练在图2中简称为轨迹重入。主要解决传统近端策略优化的轨迹使用效率较低的问题。
传统近端策略优化算法可以采用固定的学习率。如果用于强化学习的飞行轨迹非常丰富,使用较小的学习率,近端策略优化在整个强化学习过程保持相对稳定的策略更新。然而,由于高方差是强化学习中的面临的重要问题,特别是对于近端策略优化这种在轨学习途径而言,更是如此。优化目标成为真实目标的准确估计量一般需要更多的飞行轨迹。
在本实施例中,强化学习算法的初始学习率可确定为0.00003。近端策略优化算法在更新中使用剪裁机制。当策略更新的学习率极小时,学习率仅仅近似约束相应策略改进下限中的惩罚项。因为每个概率比都从裁剪范围的中心开始,剪裁机制在每次策略更新开始时都没有影响。本发明采用的贝塔分布策略actor可以保证剪裁机制和高斯分布策略一样,从中心开始。如果学习率太大,则策略更新的初始梯度步骤可能会导致概率比远远超出剪裁范围。此外,概率比对梯度更新的敏感性可能会随着训练的进行而变化,这表明学习率可能需要随时间变化,以便裁剪机制在整个训练过程中近似地强制实施总变化距离信任区域。
在确定初始学习率后,在强化学习过程中,基于样本的估计来近似感兴趣的预期总变差。如果估计的总变异距离δd>>∈i,学习率将会自适应降低。在本实施例中,降低的如果估计的总变差δd<<∈i,我们会提高学习率。这种方法将PPO的实施与算法所基于的政策改进下限更紧密地联系起来。此外,自适应学习率可防止可能导致不稳定的大型策略更新,同时在策略更新小时提高学习速度。
根据轨迹重用情况对学习率进行更新具体为:
Figure SMS_29
其中lrate为学习率的初始化值;ladaptive为自适应系数;δd为轨迹间距离;∈i为关于轨迹距离的阈值,设定为0.6。
训练结束
达到最大控制输出步数:一轮内循环中飞机控制步数达到给定数量(由超参数max_step指定)后将自动结束本轮循环,若最后一个状态仍未达到失速改出标准,则将此次控制视为改出失败。
达到给定失速改出成功条件:一轮内循环中若控制输出步数未达到最大执行步数且飞机状态达到给定的失速改出成功状态值,则将此次控制视为改出成功。
飞机控制改出成功各参数的设置为:
迎角 αA 3°~6°
俯仰角 θA 3°~5°
滚转角 φA -1°~1°。

Claims (10)

1.一种基于近端策略优化算法的飞机失速改出方法,其特征在于:具体包括以下步骤:
步骤1、输入智能体的初始参数:根据飞机失速条件,使得飞机进入失速状态;同时,设置初始参数,近端策略优化算法采用actor-critic框架,分别对actor网络及critic网络进行初始化,网络初始化均采用正交初始化;学习率设定为lrate=0.00003;自适应系数初始化设定为ladaptive=0.01。
步骤2、智能体基于改进的贝塔分布为飞行模拟器生成策略;
步骤3、基于智能体提供的控制策略,飞行模拟器得到不同的飞行轨迹,飞行轨迹存储到轨迹储存池中;
步骤4、计算智能体的优势估计值函数;
步骤5、基于轨迹再入和值函数估计结果,进行近端策略优化;
步骤6、利用梯度下降方法拟合值函数;
步骤7、根据轨迹重用情况对学习率进行更新;
步骤8、基于不同飞行策略获得的飞行轨迹,循环进行学习,并判断飞机是否从失速中改出;改出条件为飞机迎角6°>αA>3°;俯仰角5°>θA>3°;滚转角1°>φA>-1°
2.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤2改进的贝塔分布为πk=π(θk),通过πk=π(θk)采集相应轨迹Dk=τi
3.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤3智能体提供的控制策略为:
Figure FDA0004021968310000011
其中F(·)是伽马函数,随机变量x服从参数为α,β的贝塔分布。
4.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤4计算智能体的优势估计值函数具体为:
Figure FDA0004021968310000021
其中
Figure FDA0004021968310000022
利用广义优势估计器获得的值函数取值;V(st)是在状态st时的值函数。
5.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤5基于轨迹再入和值函数估计结合的方法:
Figure FDA0004021968310000023
其中0<λ<1是超参数;
Figure FDA0004021968310000024
是值函数在t时刻取值;参数k控制估计量更大的偏差-方差权衡,更大的值导致估计量更接近经验回报,并且具有更少的偏差和更大的方差。
6.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤5进行近端策略优化的方法为Adam(Adaptive Moment Estimation)优化算法。Adam优化算法对参数使用相同的学习率,并随着学习的进行而独立地适应。
7.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤6利用梯度下降方法拟合值函数,具体为:
Figure FDA0004021968310000025
其中|Dk|为轨迹的数目;T为智能体与飞行模拟器的交互次数;Vφ为值函数在状态st时的取值;
Figure FDA0004021968310000026
为进入状态st时的预期奖励。
8.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤7根据轨迹重用情况对学习率进行更新具体为:
Figure FDA0004021968310000027
其中lrate为学习率的初始化值;ladaptive为自适应系数;δd为轨迹间距离;∈i为关于轨迹距离的阈值,设定为0.6。
9.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述轨迹重用情况为:基于步骤7中的学习率更新结果,在步骤7中的优化过程中使用更新过的学习率。
10.如权利要求1所述的基于近端策略优化算法的飞机失速改出方法,其特征在于,所述步骤8循环进行学习的方法为:根据改出条件判断飞机是否从失速中改出,如果满足改出条件,智能体获得此轮学习的最大奖励值1。
CN202211692807.7A 2022-12-28 2022-12-28 一种基于近端策略优化算法的飞机失速改出方法 Pending CN115828631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211692807.7A CN115828631A (zh) 2022-12-28 2022-12-28 一种基于近端策略优化算法的飞机失速改出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211692807.7A CN115828631A (zh) 2022-12-28 2022-12-28 一种基于近端策略优化算法的飞机失速改出方法

Publications (1)

Publication Number Publication Date
CN115828631A true CN115828631A (zh) 2023-03-21

Family

ID=85518819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211692807.7A Pending CN115828631A (zh) 2022-12-28 2022-12-28 一种基于近端策略优化算法的飞机失速改出方法

Country Status (1)

Country Link
CN (1) CN115828631A (zh)

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN107300925B (zh) 基于改进鱼群算法的四旋翼无人机姿控参数整定方法
CN106483852B (zh) 一种基于Q-Learning算法和神经网络的平流层飞艇控制方法
Waldock et al. Learning to perform a perched landing on the ground using deep reinforcement learning
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN110442129A (zh) 一种多智能体编队的控制方法和系统
CN114675673B (zh) 一种空中动目标追踪方法及系统
CN109375642B (zh) 一种无人机节能控制方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN114967713B (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
Huang et al. Attitude control of fixed-wing UAV based on DDQN
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
Chemori et al. A prediction‐based nonlinear controller for stabilization of a non‐minimum phase PVTOL aircraft
CN114237268A (zh) 一种基于深度强化学习的无人机强鲁棒姿态控制方法
Fletcher et al. Improvements in learning to control perched landings
CN115828631A (zh) 一种基于近端策略优化算法的飞机失速改出方法
CN116699994A (zh) 一种基于强化学习的飞行器控制方法
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
CN117970952B (zh) 无人机机动策略离线建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination