CN114200950A - 一种飞行姿态控制方法 - Google Patents

一种飞行姿态控制方法 Download PDF

Info

Publication number
CN114200950A
CN114200950A CN202111248696.6A CN202111248696A CN114200950A CN 114200950 A CN114200950 A CN 114200950A CN 202111248696 A CN202111248696 A CN 202111248696A CN 114200950 A CN114200950 A CN 114200950A
Authority
CN
China
Prior art keywords
learning
attitude control
deflection angle
flight attitude
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111248696.6A
Other languages
English (en)
Other versions
CN114200950B (zh
Inventor
王昭磊
路坤锋
禹春梅
柳嘉润
巩庆海
黄旭
胡瑞光
骆无意
李�杰
翟雯婧
王露荻
魏晓丹
林玉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Automatic Control Research Institute
Original Assignee
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Automatic Control Research Institute filed Critical Beijing Aerospace Automatic Control Research Institute
Priority to CN202111248696.6A priority Critical patent/CN114200950B/zh
Publication of CN114200950A publication Critical patent/CN114200950A/zh
Application granted granted Critical
Publication of CN114200950B publication Critical patent/CN114200950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了飞行姿态控制方法,属于机器学习技术领域,方法包括:构建飞行姿态控制律的学习所需的探索环境;根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。

Description

一种飞行姿态控制方法
技术领域
本发明涉及机器学习技术领域,尤其涉及一种飞行姿态控制方法。
背景技术
航天智能自主系统从上世纪90年代就被提出,但在智能自主飞行技术方面的研究成果尚不多见,新型结合人工智能算法的制导控制技术的发展较为缓慢。而航天飞行任务呈现愈发复杂的趋势,突发情况更加多样,难度越发增加,地面通过高昂费用建立的数学模型越来越难以与真实飞行环境相一致,即天地不一致问题变得更加突出。传统依赖精确数学模型的经典飞行控制算法,往往需要复杂的建模、简化和分析过程,高度依赖于设计人员的设计经验,设计过程复杂,设计周期长,且在面对飞行环境不确定性时往往无法有效实现灵活的自主控制。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种飞行姿态控制方法,解决了传统设计方法高度依赖于飞行器对象的精确数学模型、设计过程复杂、高度依赖于设计人员经验、控制效果受飞行环境不确定性影响较大的问题。
本发明实施例提供了一种飞行姿态控制方法,包括:
构建飞行姿态控制律的学习所需的探索环境;
根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;
将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;
构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;
对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。
进一步地,所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子;相应的,所述模型系数包括气动力合力和气动力矩的合力矩,所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数;所述气动力系数和气动力矩系数由如下7维插值计算得到:
Figure BDA0003321684120000021
其中,CA、CN、CS为所述气动力系数,Cmx、Cmy、Cmz为所述气动力矩系数;插值自变量为高度H,空速u,攻角α,侧滑角β,俯仰舵偏角
Figure BDA0003321684120000022
偏航舵偏角δψ以及滚转舵偏角δγ,通过对插值自变量注入随机不确定性影响因子,实现在飞行器模型的模型系数中引入随机不确定性影响因子。
进一步地,所述飞行器模型为六自由度模型;相应的,所述构建飞行姿态控制律的学习所需的探索环境,包括:
根据如下表达式构建所述探索环境:
Figure BDA0003321684120000031
其中,x,y,H代表位置信息,vxd,vyd,vzd代表地面坐标系下速度,
Figure BDA0003321684120000032
为姿态角,ωx,ωy,ωz为姿态角速度,p为发动机推力,mg为重力,m为质量,Tt→d代表从机体系到地面坐标系的转换矩阵;
c1~c9为和转动质量相关的系数,记Ix,Iy,Iz分别为绕飞行器机体轴的转动惯量,Ixz为xz平面内的惯性积,则有
Figure BDA0003321684120000033
Figure BDA0003321684120000034
FA=-qSrefCA,FS=qSrefCS,FN=-qSrefCN
Mx=qSrefLrefCmx,My=qSrefLrefCmy,Mz=qSrefLrefCmz
其中,q为大气密度,Sref为参考气动面积,Lref为参考气动长度。
进一步地,所述输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果;所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角,以及理论滚转舵偏角;相应的,所述对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果,包括:
根据如下公式计算所述限幅结果:
对于动作幅值限幅:
Figure BDA0003321684120000041
对于变化速率限幅:
Figure BDA0003321684120000042
其中,k表示第k个控制周期,
Figure BDA0003321684120000043
为第k个控制周期的俯仰舵偏角,δψ(k)为第k个控制周期的偏航舵偏角,δγ(k)为第k个控制周期的滚转舵偏角,
Figure BDA0003321684120000044
为第k个控制周期的理论俯仰舵偏角,aψ(k)为第k个控制周期的理论偏航舵偏角,aγ(k)为第k个控制周期的理论滚转舵偏角,
Figure BDA0003321684120000045
分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值,
Figure BDA0003321684120000046
分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值,
Figure BDA0003321684120000047
分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率,
Figure BDA0003321684120000048
为单位时间间隔。
进一步地,所述构建奖励回报单元,包括:
当前时刻奖励通过如下二次型表示:
Figure BDA0003321684120000049
且有
Figure BDA00033216841200000410
其中,r*t为在t时刻的当前时刻奖励,
Figure BDA0003321684120000051
为总奖励,*表示通配符,可通配
Figure BDA0003321684120000052
中的任意一个,
Figure BDA0003321684120000053
为姿态角,s*t为系统状态,包括姿态角误差、姿态角速度误差以及姿态角度误差积分,ut为控制量,包括理论舵偏角,Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵,
Figure BDA0003321684120000054
为学习算法的折扣因子。
进一步地,所述飞行姿态控制方法还包括:
可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值,保证系统状态和控制量均满足要求;
当连续完成预设次数的控制目标时给出额外的完成任务奖励,引导优先完成任务。
进一步地,所述对所述飞行姿态控制律进行学习,包括:
随机初始化评价用神经网络和控制用神经网络;
初始化经验回放池,开辟内存缓冲区,设置大小为nR
初始化探索环境,初始化随机噪声,之后循环进行数据采样和神经网络学习;
开展M次独立的试验,对所述飞行姿态控制律进行学习。
进一步地,所述开展M次独立的试验,对所述飞行姿态控制律进行学习,包括:
每次试验步骤如下:
a)提取初始化输入状态s1
b)若当前时刻t小于等于最大学习时长T,则执行步骤c),否则结束本次试验,开展下一次试验;
c)根据初始化输入状态s1利用控制用神经网络μ(stμ)产生t时刻动作为at=μ(stμ)+Nt,Nt为t时刻的随机噪声用于增加学习样本的多样性,记Ninit为初始时刻噪声大小,且Nt随着训练过程逐步变小,满足:
Nt=0.995*Nt
d)对得到的动作指令at进行动作限幅,并应用在探索环境上,根据模型特性积分得到当前时刻奖励rt和下一时刻的状态st+1,且rt满足
Figure BDA0003321684120000061
且若连续完成预设次数的控制目标,令rt=rgoal=100;
记st[0]为状态向量st的第1个元素,则控制目标完成标志为:
Figure BDA0003321684120000062
e)将数据对(st,at,rt,st+1)存储在经验回放池RP中,若经验回放池RP已存满nR个数据对,则执行步骤f)开始学习,否则跳回步骤c);
f)从经验回放池RP中随机采样N个数据对
Figure BDA0003321684120000063
g)令
Figure BDA0003321684120000064
按下式计算评价用神经网络损失:
Figure BDA0003321684120000065
h)使用Adam梯度下降优化算法更新评价用神经网络参数θQ,优化目标为使损失L最小,梯度下降的学习率为λ、
Figure BDA0003321684120000066
为学习算法的折扣因子,N为数据采样总数;
i)按下式计算采样数据对的梯度:
Figure BDA0003321684120000067
j)根据计算得到目标函数梯度
Figure BDA0003321684120000068
使用Adam梯度下降优化算法更新控制用神经网络参数θμ
k)采用软更新方式,更新目标网络参数,即有:
Figure BDA0003321684120000071
进一步地,所述空速
Figure BDA0003321684120000072
相关分量通过如下公式得到:
Figure BDA0003321684120000073
其中,vxd,vyd,vzd代表地面坐标系下速度,
Figure BDA0003321684120000074
为姿态角。
进一步地,所述攻角α和侧滑角β分别根据如下公式计算得到:
α=tan-1(uzt,uxt),β=sin-1(uyt,u)
其中,α∈[-π,π],β∈[-π,π],tan-1()是值域定义在[-π,π]之间的反正切函数。
与现有技术相比,本发明至少可实现如下有益效果之一:
本发明提供的飞行姿态控制方法,构建飞行姿态控制律的学习所需的探索环境,根据探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建飞行姿态控制律的学习所需的输入信号,将舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境,构建奖励回报单元,反馈当前时刻奖励至飞行姿态控制律,通过最大化总奖励优化飞行姿态控制律的学习,对飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制;无需依赖于飞行器对象的精确数学模型、无需依赖设计人员经验、控制效果受飞行环境不确定性影响较小。
针对无法获得准确数学模型或建模费用高昂的一类飞行器,控制律通过训练学习得到,控制律无需任何模型的先验知识,降低了对设计人员经验的依赖,克服了传统控制律设计过程环节众多的问题,实现了端到端的拟人化姿态控制律设计。
将舵机动态特性限幅环节直接引入控制律神经网络训练过程,保证了学习得到的控制律输出指令平滑连续,有效抑制了强化学习中由于引入探索噪声和学习过程不稳定导致的控制输出抖动问题。
LQR二次型的即时奖励,能够通过调节Q、R矩阵来改变回报函数输出分值,保证系统状态和控制量均满足要求,符合经典的最优控制理论。同时,给出额外的完成任务大额奖励,能够引导学习过程快速收敛。
建立的六自由度模型仅用来构建深度强化学习训练学习时所需的探索环境,并在训练过程中引入不同程度的随机不确定性,提高了学习得到控制律对飞行环境不确定性的适应能力。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例中的飞行姿态控制方法流程图;
图2为本发明实施例中的飞行姿态控制方法结构示意图;
图3为本发明实施例中的控制律神经网络结构示意图;
图4为本发明实施例中的控制用神经网络说明示意图;
图5为本发明实施例中的评价用神经网络说明示意图;
图6为本发明实施例中的飞行器俯仰通道响应曲线示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种飞行姿态控制方法,流程图如图1所示,包括以下步骤:
步骤S1:构建飞行姿态控制律的学习所需的探索环境;所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子;基于深度强化学习的端到端飞行姿态控制律,通过不断与环境交互来完成控制律的学习,为此采用六自由度模型来构建控制律学习所需的探索环境,并对模型系数引入不同程度的随机不确定性,来提高学习得到控制律对飞行环境不确定性的适应能力。
进一步地,所述模型系数包括气动力合力和气动力矩的合力矩,所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数;所述气动力系数和气动力矩系数由如下7维插值计算得到:
Figure BDA0003321684120000091
其中,CA、CN、CS为所述气动力系数,Cmx、Cmy、Cmz为所述气动力矩系数;插值自变量为高度H,空速u,攻角α,侧滑角β,俯仰舵偏角
Figure BDA0003321684120000092
偏航舵偏角δψ以及滚转舵偏角δγ,通过对插值自变量注入随机不确定性影响因子,实现在飞行器模型的模型系数中引入随机不确定性影响因子,通过对插值数据注入不同程度的随机特性来增加飞行环境的不确定性。
进一步地,飞行器模型为六自由度模型,相应的,所述构建飞行姿态控制律的学习所需的探索环境,包括:
根据如下表达式构建所述探索环境:
Figure BDA0003321684120000101
Figure BDA0003321684120000102
Figure BDA0003321684120000103
Figure BDA0003321684120000104
其中,x,y,H代表位置信息,vxd,vyd,vzd代表地面坐标系下速度,
Figure BDA0003321684120000105
为姿态角,ωx,ωy,ωz为姿态角速度,p为发动机推力,mg为重力,m为质量,Tt→d代表从机体系到地面坐标系的转换矩阵;
c1~c9为和转动质量相关的系数,记Ix,Iy,Iz分别为绕飞行器机体轴的转动惯量,Ixz为xz平面内的惯性积,则有
Figure BDA0003321684120000106
Figure BDA0003321684120000107
FA=-qSrefCA,FS=qSrefCS,FN=-qSrefCN
Mx=qSrefLrefCmx,My=qSrefLrefCmy,Mz=qSrefLrefCmz
其中,q为大气密度,Sref为参考气动面积,Lref为参考气动长度。
六自由度模型具体可以为六自由度非线性模型;具体可以在北东地坐标系下构建探索环境。
进一步地,所述空速
Figure BDA0003321684120000111
相关分量通过如下公式得到:
Figure BDA0003321684120000112
其中,vxd,vyd,vzd代表地面坐标系下速度,
Figure BDA0003321684120000113
为姿态角。
进一步地,所述攻角α和侧滑角β分别根据如下公式计算得到:
α=tan-1(uzt,uxt),β=sin-1(uyt,u)
其中,α∈[-π,π],β∈[-π,π],tan-1()是值域定义在[-π,π]之间的反正切函数。
步骤S2:根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;所述输入信号包括姿态角误差、姿态角速度误差以及姿态角度误差积分。
如图2所示,针对飞行姿态控制律设计问题,通过传感器测量获得步骤S1中输出的姿态角
Figure BDA0003321684120000114
和姿态角速度ωx,ωy,ωz,同时根据飞行器制导单元得到期望姿态角
Figure BDA0003321684120000115
则飞行姿态控制律t时刻的输入信号姿态角误差
Figure BDA0003321684120000116
姿态角速度误差
Figure BDA0003321684120000117
以及姿态角度误差积分
Figure BDA0003321684120000118
分别如下式所示:
Figure BDA0003321684120000119
Figure BDA00033216841200001110
Figure BDA00033216841200001111
则有,俯仰通道状态信号为
Figure BDA00033216841200001112
偏航通道状态信号为
Figure BDA00033216841200001113
滚转通道状态信号为
Figure BDA0003321684120000121
步骤S3:将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;所述输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果;所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角,以及理论滚转舵偏角。
进一步地,所述对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果,包括:
根据如下公式计算所述限幅结果:
对于动作幅值限幅:
Figure BDA0003321684120000122
对于变化速率限幅:
Figure BDA0003321684120000123
其中,k表示第k个控制周期,
Figure BDA0003321684120000124
为第k个控制周期的俯仰舵偏角,δψ(k)为第k个控制周期的偏航舵偏角,δγ(k)为第k个控制周期的滚转舵偏角,
Figure BDA0003321684120000125
为第k个控制周期的理论俯仰舵偏角,aψ(k)为第k个控制周期的理论偏航舵偏角,aγ(k)为第k个控制周期的理论滚转舵偏角,
Figure BDA0003321684120000126
分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值,
Figure BDA0003321684120000127
分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值,
Figure BDA0003321684120000128
分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率,
Figure BDA0003321684120000131
为单位时间间隔。
Figure BDA0003321684120000132
可选为20°,
Figure BDA0003321684120000133
可选为-20°,
Figure BDA0003321684120000134
可选为165°/s。
将t时刻的输入状态信号送入飞行姿态控制律,即可得到t时刻的舵机理论输出指令,即理论俯仰舵偏角
Figure BDA0003321684120000135
理论偏航舵偏角aψ以及理论滚转舵偏角aγ,即有
Figure BDA0003321684120000136
其中,
Figure BDA0003321684120000137
为训练学习得到的飞行姿态控制律,而为保证舵机能够正确响应控制指令,对控制指令进行动作幅值和变化速率的限幅,可参照上述说明。
步骤S4:构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习。
进一步地,所述构建奖励回报单元,包括:
当前时刻奖励通过如下二次型表示:
Figure BDA0003321684120000138
且有
Figure BDA0003321684120000139
其中,r*t为在t时刻的当前时刻奖励,
Figure BDA00033216841200001310
为总奖励,*表示通配符,可通配
Figure BDA00033216841200001311
中的任意一个,
Figure BDA00033216841200001312
为姿态角,s*t为系统状态,包括姿态角误差、姿态角速度误差以及姿态角度误差积分,ut为控制量,包括理论舵偏角,Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵,
Figure BDA00033216841200001313
为学习算法的折扣因子。当前时刻奖励的设置决定了训练学习是否能够收敛,
Figure BDA0003321684120000141
来平衡当前时刻奖励r*t和总奖励
Figure BDA0003321684120000142
进一步地,所述飞行姿态控制方法还包括:
可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值,保证系统状态和控制量均满足要求;
当连续完成预设次数的控制目标时给出额外的完成任务奖励,引导优先完成任务。额外的完成任务奖励,例如可以为rgoal=100。
步骤S5:对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。
飞行姿态控制律
Figure BDA0003321684120000143
需要经过训练学习才能完成相应的控制任务,如图3所示,给出了Actor-Critic式训练结构和训练方法。为方便描述,下面使用输入状态s和动作a代替s*和a*
Figure BDA0003321684120000144
则训练过程可做如下具体说明:
进一步地,所述对所述飞行姿态控制律进行学习,包括:
随机初始化评价用神经网络和控制用神经网络;随机初始化评价用神经网络Q(s,a|θQ),输入参数为状态s和动作指令a,输出为控制效果评分,网络参数为θQ,神经网络采样全连接网络,激活函数为非线性激活函数;
初始化控制用神经网络μ(s|θμ),输入参数为状态s,输出为动作指令a,网络参数为θQ,神经网络采样全连接网络,激活函数为非线性激活函数;
同时,分别复制1个目标网络Q′(s,a|θQ)和μ′(s|θμ),且初始权重满足θQ′←θQ,θμ′←θμ
初始化经验回放池,开辟内存缓冲区,设置大小为nR
初始化探索环境,初始化随机噪声,之后循环进行数据采样和神经网络学习;
开展M次独立的试验,对所述飞行姿态控制律进行学习。
进一步地,所述开展M次独立的试验,对所述飞行姿态控制律进行学习,包括:
每次试验步骤如下:
a)提取初始化输入状态s1
b)若当前时刻t小于等于最大学习时长T,则执行步骤c),否则结束本次试验,开展下一次试验;当前时刻的初始值可选为0,每次循环计算时进行累加,例如计算一次时当前时刻为10ms,与T进行比较,根据比较结果执行后续步骤;
再计算一次时当前时刻为20ms,与T进行比较,根据比较结果执行后续步骤;T可选为100s。
c)根据初始化输入状态s1,s1利用控制用神经网络μ(stμ)产生t时刻动作为at=μ(stμ)+Nt,Nt为t时刻的随机噪声用于增加学习样本的多样性,记Ninit为初始时刻噪声大小,且Nt随着训练过程逐步变小,满足:
Nt=0.995*Nt
d)对得到的动作指令at进行动作限幅,并应用在探索环境上,根据模型特性积分得到当前时刻奖励rt和下一时刻的状态st+1,且rt满足
Figure BDA0003321684120000151
且若连续完成预设次数的控制目标,令rt=rgoal=100;
记st[0]为状态向量st的第1个元素,则控制目标完成标志为:
Figure BDA0003321684120000161
e)将数据对(st,at,rt,st+1)存储在经验回放池RP中,若经验回放池RP已存满nR个数据对,则执行步骤f)开始学习,否则跳回步骤c);
f)从经验回放池RP中随机采样N个数据对
Figure BDA0003321684120000162
g)令
Figure BDA0003321684120000163
按下式计算评价用神经网络损失:
Figure BDA0003321684120000164
h)使用Adam梯度下降优化算法更新评价用神经网络参数θQ,优化目标为使损失L最小,梯度下降的学习率为λ、
Figure BDA0003321684120000165
为学习算法的折扣因子,N为数据采样总数;
i)按下式计算采样数据对的梯度:
Figure BDA0003321684120000166
j)根据计算得到目标函数梯度
Figure BDA0003321684120000167
使用Adam梯度下降优化算法更新控制用神经网络参数θμ
k)采用软更新方式,更新目标网络参数,即有:
Figure BDA0003321684120000168
在完成飞行姿态控制律的学习之后,还可以进一步进行飞行姿态控制律的使用,控制用神经网络能够完成期望的控制任务,因此,提取控制用网络μ(s|θμ)并复制给相应的控制律网络
Figure BDA0003321684120000169
而在实际使用时,根据姿态角误差、姿态角速度误差以及姿态角度误差积分得到输入状态
Figure BDA00033216841200001610
sψ(k),sγ(k),分别送入控制律网络
Figure BDA00033216841200001611
即可输出舵机理论输出指令
Figure BDA0003321684120000171
aψ,aγ,之后经过动作限幅即得到实际使用的舵机控制指令,实现飞行器的端到端拟人化姿态控制。
结合具体实施例说明如下:
为验证本发明提出的拟人化端到端飞行姿态控制律设计方法的合理性以及所得到控制律的有效性,在Python环境下对其进行数值仿真。考虑到飞行器俯仰、偏航、滚转三个通道设计过程相同,下面以俯仰通道的设计过程为例,给出具体的实施例。
控制用神经网络和评价用神经网络的超参数设置分别如图4和图5所示,由于俯仰通道控制律输入状态维数为3,输出动作维数为1,采用双隐层各128个神经元的全连接网络作为控制用神经网络,非线性激活函数为tanh函数;而评价用神经网络的输入为4维,输出为1维,采用全连接网络结构,双隐层神经元数量分别设置为300个和128个,非线性激活函数为relu函数。
优选的,本发明中以俯仰角误差,角速度误差以及角度误差积分作为输入,动作为俯仰角偏转角,因此输入为3维,输出为1维。不失一般性,神经网络输入输出可以针对具体控制问题的输入维数和动作变量输出维数进行适应性改变,且前向全连接网络隐层神经元数量可根据控制任务复杂度适当调整。
此外,学习训练相关超参数设置如下表1所示,此部分超参数与学习效果相关,且对于同一类控制问题无需大幅调整。
表1本发明中学习相关超参数设置情况
Figure BDA0003321684120000172
Figure BDA0003321684120000181
本发明中根据LQR最优控制原则,针对俯仰通道姿态控制器设计奖设置励值QR阵如下所示:
Figure BDA0003321684120000182
可见采用正定加权形式,奖励为俯仰角跟踪误差、角速率误差以及动作幅值的加权和,而角度跟踪误差为首要考虑的因素。
此外,本发明实施例所用训练设备参数如下:
1)CPU为单块6核的
‘Intel(R)_Core(TM)_i7-8700K_CPU_@_3.70GHz’
2)GPU为2块‘NVIDIA GeForce GTX 1080Ti’卡,内存为2块‘KingstonKHX2400C15/16G’
3)训练框架为Python 3.7.1+Tensorflow 2.1.0
给定状态初始值为角度和角速率均为0,即
Figure BDA0003321684120000183
目标跟踪值角度和角速率分别设置为
Figure BDA0003321684120000184
经过约40次训练可以实现算法的收敛,实现预定的跟踪效果。而在在线使用时,如图6所示,最上方图的纵坐标phi为
Figure BDA0003321684120000185
中间图的纵坐标wy为ωy,最下方图的纵坐标deltap为俯仰舵偏角
Figure BDA0003321684120000186
给定时变的跟踪目标,实现了高精度的跟踪控制效果,稳态误差快速收敛为0,所需的舵偏角平滑可行,即在未训练的目标跟踪值情况下具有良好的泛化效果和适应性。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种飞行姿态控制方法,其特征在于,包括:
构建飞行姿态控制律的学习所需的探索环境;
根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;
将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;
构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;
对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。
2.根据权利要求1所述的飞行姿态控制方法,其特征在于,所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子;相应的,所述模型系数包括气动力合力和气动力矩的合力矩,所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数;所述气动力系数和气动力矩系数由如下7维插值计算得到:
Figure FDA0003321684110000011
其中,CA、CN、CS为所述气动力系数,Cmx、Cmy、Cmz为所述气动力矩系数;插值自变量为高度H,空速u,攻角α,侧滑角β,俯仰舵偏角
Figure FDA0003321684110000012
偏航舵偏角δψ以及滚转舵偏角δγ,通过对插值自变量注入随机不确定性影响因子,实现在飞行器模型的模型系数中引入随机不确定性影响因子。
3.根据权利要求2所述的飞行姿态控制方法,其特征在于,所述飞行器模型为六自由度模型;相应的,所述构建飞行姿态控制律的学习所需的探索环境,包括:
根据如下表达式构建所述探索环境:
Figure FDA0003321684110000021
其中,x,y,H代表位置信息,vxd,vyd,vzd代表地面坐标系下速度,
Figure FDA0003321684110000022
ψ,γ为姿态角,ωxyz为姿态角速度,p为发动机推力,mg为重力,m为质量,Tt→d代表从机体系到地面坐标系的转换矩阵;
c1~c9为和转动质量相关的系数,记Ix,Iy,Iz分别为绕飞行器机体轴的转动惯量,Ixz为xz平面内的惯性积,则有
Figure FDA0003321684110000023
Figure FDA0003321684110000024
FA=-qSrefCA,FS=qSrefCS,FN=-qSrefCN
Mx=qSrefLrefCmx,My=qSrefLrefCmy,Mz=qSrefLrefCmz
其中,q为大气密度,Sref为参考气动面积,Lref为参考气动长度。
4.根据权利要求1所述的飞行姿态控制方法,其特征在于,所述舵机限幅单元的输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果;所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角,以及理论滚转舵偏角;根据如下公式计算所述限幅结果:
对于动作幅值限幅:
Figure FDA0003321684110000031
对于变化速率限幅:
Figure FDA0003321684110000032
其中,k表示第k个控制周期,
Figure FDA0003321684110000033
为第k个控制周期的俯仰舵偏角,δψ(k)为第k个控制周期的偏航舵偏角,δγ(k)为第k个控制周期的滚转舵偏角,
Figure FDA0003321684110000034
为第k个控制周期的理论俯仰舵偏角,aψ(k)为第k个控制周期的理论偏航舵偏角,aγ(k)为第k个控制周期的理论滚转舵偏角,
Figure FDA0003321684110000035
分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值,
Figure FDA0003321684110000036
分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值,
Figure FDA0003321684110000037
分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率,
Figure FDA0003321684110000038
为单位时间间隔。
5.根据权利要求1所述的飞行姿态控制方法,其特征在于,所述构建奖励回报单元,包括:
当前时刻奖励通过如下二次型表示:
Figure FDA0003321684110000041
且有
Figure FDA0003321684110000042
其中,r*t为在t时刻的当前时刻奖励,
Figure FDA0003321684110000043
为总奖励,*表示通配符,可通配
Figure FDA0003321684110000044
ψ,γ中的任意一个,
Figure FDA0003321684110000045
ψ,γ为姿态角,s*t为系统状态,包括姿态角误差、姿态角速度误差以及姿态角度误差积分,ut为控制量,包括理论舵偏角,Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵,
Figure FDA0003321684110000046
为学习算法的折扣因子。
6.根据权利要求5所述的飞行姿态控制方法,其特征在于,所述飞行姿态控制方法还包括:
可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值,保证系统状态和控制量均满足要求;
当连续完成预设次数的控制目标时给出额外的完成任务奖励,引导优先完成任务。
7.根据权利要求1所述的飞行姿态控制方法,其特征在于,所述对所述飞行姿态控制律进行学习,包括:
随机初始化评价用神经网络和控制用神经网络;
初始化经验回放池,开辟内存缓冲区,设置大小为nR
初始化探索环境,初始化随机噪声,之后循环进行数据采样和神经网络学习;
开展M次独立的试验,对所述飞行姿态控制律进行学习。
8.根据权利要求7所述的飞行姿态控制方法,其特征在于,所述开展M次独立的试验,对所述飞行姿态控制律进行学习,包括:
每次试验步骤如下:
a)提取初始化输入状态s1
b)若当前时刻t小于等于最大学习时长T,则执行步骤c),否则结束本次试验,开展下一次试验;
c)根据初始化输入状态s1利用控制用神经网络μ(stμ)产生t时刻动作为at=μ(stμ)+Nt,Nt为t时刻的随机噪声用于增加学习样本的多样性,记Ninit为初始时刻噪声大小,且Nt随着训练过程逐步变小,满足:
Nt=0.995*Nt
d)对得到的动作指令at进行动作限幅,并应用在探索环境上,根据模型特性积分得到当前时刻奖励rt和下一时刻的状态st+1,且rt满足
Figure FDA0003321684110000051
且若连续完成预设次数的控制目标,令rt=rgoal=100;
记st[0]为状态向量st的第1个元素,则控制目标完成标志为:
Figure FDA0003321684110000052
e)将数据对(st,at,rt,st+1)存储在经验回放池RP中,若经验回放池RP已存满nR个数据对,则执行步骤f)开始学习,否则跳回步骤c);
f)从经验回放池RP中随机采样N个数据对
Figure FDA0003321684110000053
g)令
Figure FDA0003321684110000054
按下式计算评价用神经网络损失:
Figure FDA0003321684110000055
h)使用Adam梯度下降优化算法更新评价用神经网络参数θQ,优化目标为使损失L最小,梯度下降的学习率为λ、
Figure FDA0003321684110000056
为学习算法的折扣因子,N为数据采样总数;
i)按下式计算采样数据对的梯度:
Figure FDA0003321684110000061
j)根据计算得到目标函数梯度
Figure FDA0003321684110000062
使用Adam梯度下降优化算法更新控制用神经网络参数θμ
k)采用软更新方式,更新目标网络参数,即有:
Figure FDA0003321684110000066
9.根据权利要求2所述的飞行姿态控制方法,其特征在于,所述空速
Figure FDA0003321684110000063
相关分量通过如下公式得到:
Figure FDA0003321684110000064
其中,vxd,vyd,vzd代表地面坐标系下速度,
Figure FDA0003321684110000065
ψ,γ为姿态角。
10.根据权利要求9所述的飞行姿态控制方法,其特征在于,所述攻角α和侧滑角β分别根据如下公式计算得到:
α=tan-1(uzt,uxt),β=sin-1(uyt,u)
其中,α∈[-π,π],β∈[-π,π],tan-1()是值域定义在[-π,π]之间的反正切函数。
CN202111248696.6A 2021-10-26 2021-10-26 一种飞行姿态控制方法 Active CN114200950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111248696.6A CN114200950B (zh) 2021-10-26 2021-10-26 一种飞行姿态控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111248696.6A CN114200950B (zh) 2021-10-26 2021-10-26 一种飞行姿态控制方法

Publications (2)

Publication Number Publication Date
CN114200950A true CN114200950A (zh) 2022-03-18
CN114200950B CN114200950B (zh) 2023-06-02

Family

ID=80646308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111248696.6A Active CN114200950B (zh) 2021-10-26 2021-10-26 一种飞行姿态控制方法

Country Status (1)

Country Link
CN (1) CN114200950B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268276A (zh) * 2022-09-26 2022-11-01 北京航天自动控制研究所 一种基于梯度下降的制导参数在线修正方法及系统
CN117289709A (zh) * 2023-09-12 2023-12-26 中南大学 基于深度强化学习的高超声速变外形飞行器姿态控制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880060A (zh) * 2012-10-25 2013-01-16 北京理工大学 再入飞行器自适应指数时变滑模姿态控制方法
CN102929283A (zh) * 2012-11-07 2013-02-13 北京理工大学 基于sdre的再入飞行器自适应最优滑模姿态控制方法
CN107491081A (zh) * 2017-07-12 2017-12-19 西北工业大学 一种抗干扰四旋翼无人机姿态控制方法
CN109270947A (zh) * 2018-12-13 2019-01-25 北京航空航天大学 倾转旋翼无人机飞行控制系统
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110554707A (zh) * 2019-10-17 2019-12-10 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN112394645A (zh) * 2021-01-20 2021-02-23 中国人民解放军国防科技大学 一种航天器姿态跟踪的神经网络反步滑模控制方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880060A (zh) * 2012-10-25 2013-01-16 北京理工大学 再入飞行器自适应指数时变滑模姿态控制方法
CN102929283A (zh) * 2012-11-07 2013-02-13 北京理工大学 基于sdre的再入飞行器自适应最优滑模姿态控制方法
CN107491081A (zh) * 2017-07-12 2017-12-19 西北工业大学 一种抗干扰四旋翼无人机姿态控制方法
CN109270947A (zh) * 2018-12-13 2019-01-25 北京航空航天大学 倾转旋翼无人机飞行控制系统
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110554707A (zh) * 2019-10-17 2019-12-10 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN112394645A (zh) * 2021-01-20 2021-02-23 中国人民解放军国防科技大学 一种航天器姿态跟踪的神经网络反步滑模控制方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268276A (zh) * 2022-09-26 2022-11-01 北京航天自动控制研究所 一种基于梯度下降的制导参数在线修正方法及系统
CN115268276B (zh) * 2022-09-26 2023-02-03 北京航天自动控制研究所 一种基于梯度下降的制导参数在线修正方法及系统
CN117289709A (zh) * 2023-09-12 2023-12-26 中南大学 基于深度强化学习的高超声速变外形飞行器姿态控制方法

Also Published As

Publication number Publication date
CN114200950B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Punjani et al. Deep learning helicopter dynamics models
CN114200950A (zh) 一种飞行姿态控制方法
Lin Adaptive critic autopilot design of bank-to-turn missiles using fuzzy basis function networks
CN110806759A (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
Roudbari et al. Intelligent modeling and identification of aircraft nonlinear flight
Abrougui et al. Modeling, parameter identification, guidance and control of an unmanned surface vehicle with experimental results
CN108983605A (zh) 一种基于深度强化学习进行流体导向的刚体控制的方法
CN114967713B (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN113377121A (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
Goecks et al. Control of morphing wing shapes with deep reinforcement learning
Cao et al. System identification method based on interpretable machine learning for unknown aircraft dynamics
CN111830848A (zh) 一种无人机超机动飞行性能仿真训练系统及方法
CN111273677A (zh) 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN113419424A (zh) 减少过估计的模型化强化学习机器人控制方法及系统
CN117289709A (zh) 基于深度强化学习的高超声速变外形飞行器姿态控制方法
CN117215197A (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
Milovanović et al. Adaptive control of nonlinear MIMO system with orthogonal endocrine intelligent controller
CN113821057B (zh) 一种基于强化学习的行星软着陆控制方法及系统和存储介质
Priandana et al. Development of self-organizing maps neural networks based control system for a boat model
CN114840928B (zh) 一种基于深度学习的水下航行器集群运动仿真方法
CN114489095A (zh) 一种应用于变体飞行器的类脑脉冲神经网络控制方法
Wang et al. Attitude controller design based on deep reinforcement learning for low-cost aircraft
Aronsen Path planning and obstacle avoidance for marine vessels using the deep deterministic policy gradient method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant