CN114200950B - 一种飞行姿态控制方法 - Google Patents
一种飞行姿态控制方法 Download PDFInfo
- Publication number
- CN114200950B CN114200950B CN202111248696.6A CN202111248696A CN114200950B CN 114200950 B CN114200950 B CN 114200950B CN 202111248696 A CN202111248696 A CN 202111248696A CN 114200950 B CN114200950 B CN 114200950B
- Authority
- CN
- China
- Prior art keywords
- learning
- deflection angle
- rudder deflection
- control law
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 230000009471 action Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 238000005096 rolling process Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- NCGICGYLBXGBGN-UHFFFAOYSA-N 3-morpholin-4-yl-1-oxa-3-azonia-2-azanidacyclopent-3-en-5-imine;hydrochloride Chemical compound Cl.[N-]1OC(=N)C=[N+]1N1CCOCC1 NCGICGYLBXGBGN-UHFFFAOYSA-N 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000012938 design process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013178 mathematical model Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了飞行姿态控制方法,属于机器学习技术领域,方法包括:构建飞行姿态控制律的学习所需的探索环境;根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种飞行姿态控制方法。
背景技术
航天智能自主系统从上世纪90年代就被提出,但在智能自主飞行技术方面的研究成果尚不多见,新型结合人工智能算法的制导控制技术的发展较为缓慢。而航天飞行任务呈现愈发复杂的趋势,突发情况更加多样,难度越发增加,地面通过高昂费用建立的数学模型越来越难以与真实飞行环境相一致,即天地不一致问题变得更加突出。传统依赖精确数学模型的经典飞行控制算法,往往需要复杂的建模、简化和分析过程,高度依赖于设计人员的设计经验,设计过程复杂,设计周期长,且在面对飞行环境不确定性时往往无法有效实现灵活的自主控制。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种飞行姿态控制方法,解决了传统设计方法高度依赖于飞行器对象的精确数学模型、设计过程复杂、高度依赖于设计人员经验、控制效果受飞行环境不确定性影响较大的问题。
本发明实施例提供了一种飞行姿态控制方法,包括:
构建飞行姿态控制律的学习所需的探索环境;
根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;
将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;
构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;
对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。
进一步地,所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子;相应的,所述模型系数包括气动力合力和气动力矩的合力矩,所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数;所述气动力系数和气动力矩系数由如下7维插值计算得到:
其中,CA、CN、CS为所述气动力系数,Cmx、Cmy、Cmz为所述气动力矩系数;插值自变量为高度H,空速u,攻角α,侧滑角β,俯仰舵偏角偏航舵偏角δψ以及滚转舵偏角δγ,通过对插值自变量注入随机不确定性影响因子,实现在飞行器模型的模型系数中引入随机不确定性影响因子。
进一步地,所述飞行器模型为六自由度模型;相应的,所述构建飞行姿态控制律的学习所需的探索环境,包括:
根据如下表达式构建所述探索环境:
c1~c9为和转动质量相关的系数,记Ix,Iy,Iz分别为绕飞行器机体轴的转动惯量,Ixz为xz平面内的惯性积,则有
FA=-qSrefCA,FS=qSrefCS,FN=-qSrefCN
Mx=qSrefLrefCmx,My=qSrefLrefCmy,Mz=qSrefLrefCmz
其中,q为大气密度,Sref为参考气动面积,Lref为参考气动长度。
进一步地,所述输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果;所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角,以及理论滚转舵偏角;相应的,所述对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果,包括:
根据如下公式计算所述限幅结果:
对于动作幅值限幅:
对于变化速率限幅:
其中,k表示第k个控制周期,为第k个控制周期的俯仰舵偏角,δψ(k)为第k个控制周期的偏航舵偏角,δγ(k)为第k个控制周期的滚转舵偏角,为第k个控制周期的理论俯仰舵偏角,aψ(k)为第k个控制周期的理论偏航舵偏角,aγ(k)为第k个控制周期的理论滚转舵偏角,分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值,分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值,分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率,为单位时间间隔。
进一步地,所述构建奖励回报单元,包括:
当前时刻奖励通过如下二次型表示:
且有
其中,r*t为在t时刻的当前时刻奖励,为总奖励,*表示通配符,可通配中的任意一个,为姿态角,s*t为系统状态,包括姿态角误差、姿态角速度误差以及姿态角度误差积分,ut为控制量,包括理论舵偏角,Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵,为学习算法的折扣因子。
进一步地,所述飞行姿态控制方法还包括:
可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值,保证系统状态和控制量均满足要求;
当连续完成预设次数的控制目标时给出额外的完成任务奖励,引导优先完成任务。
进一步地,所述对所述飞行姿态控制律进行学习,包括:
随机初始化评价用神经网络和控制用神经网络;
初始化经验回放池,开辟内存缓冲区,设置大小为nR;
初始化探索环境,初始化随机噪声,之后循环进行数据采样和神经网络学习;
开展M次独立的试验,对所述飞行姿态控制律进行学习。
进一步地,所述开展M次独立的试验,对所述飞行姿态控制律进行学习,包括:
每次试验步骤如下:
a)提取初始化输入状态s1;
b)若当前时刻t小于等于最大学习时长T,则执行步骤c),否则结束本次试验,开展下一次试验;
c)根据初始化输入状态s1利用控制用神经网络μ(st|θμ)产生t时刻动作为at=μ(st|θμ)+Nt,Nt为t时刻的随机噪声用于增加学习样本的多样性,记Ninit为初始时刻噪声大小,且Nt随着训练过程逐步变小,满足:
Nt=0.995*Nt;
d)对得到的动作指令at进行动作限幅,并应用在探索环境上,根据模型特性积分得到当前时刻奖励rt和下一时刻的状态st+1,且rt满足
且若连续完成预设次数的控制目标,令rt=rgoal=100;
记st[0]为状态向量st的第1个元素,则控制目标完成标志为:
e)将数据对(st,at,rt,st+1)存储在经验回放池RP中,若经验回放池RP已存满nR个数据对,则执行步骤f)开始学习,否则跳回步骤c);
i)按下式计算采样数据对的梯度:
k)采用软更新方式,更新目标网络参数,即有:
进一步地,所述攻角α和侧滑角β分别根据如下公式计算得到:
α=tan-1(uzt,uxt),β=sin-1(uyt,u)
其中,α∈[-π,π],β∈[-π,π],tan-1()是值域定义在[-π,π]之间的反正切函数。
与现有技术相比,本发明至少可实现如下有益效果之一:
本发明提供的飞行姿态控制方法,构建飞行姿态控制律的学习所需的探索环境,根据探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建飞行姿态控制律的学习所需的输入信号,将舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境,构建奖励回报单元,反馈当前时刻奖励至飞行姿态控制律,通过最大化总奖励优化飞行姿态控制律的学习,对飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制;无需依赖于飞行器对象的精确数学模型、无需依赖设计人员经验、控制效果受飞行环境不确定性影响较小。
针对无法获得准确数学模型或建模费用高昂的一类飞行器,控制律通过训练学习得到,控制律无需任何模型的先验知识,降低了对设计人员经验的依赖,克服了传统控制律设计过程环节众多的问题,实现了端到端的拟人化姿态控制律设计。
将舵机动态特性限幅环节直接引入控制律神经网络训练过程,保证了学习得到的控制律输出指令平滑连续,有效抑制了强化学习中由于引入探索噪声和学习过程不稳定导致的控制输出抖动问题。
LQR二次型的即时奖励,能够通过调节Q、R矩阵来改变回报函数输出分值,保证系统状态和控制量均满足要求,符合经典的最优控制理论。同时,给出额外的完成任务大额奖励,能够引导学习过程快速收敛。
建立的六自由度模型仅用来构建深度强化学习训练学习时所需的探索环境,并在训练过程中引入不同程度的随机不确定性,提高了学习得到控制律对飞行环境不确定性的适应能力。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例中的飞行姿态控制方法流程图;
图2为本发明实施例中的飞行姿态控制方法结构示意图;
图3为本发明实施例中的控制律神经网络结构示意图;
图4为本发明实施例中的控制用神经网络说明示意图;
图5为本发明实施例中的评价用神经网络说明示意图;
图6为本发明实施例中的飞行器俯仰通道响应曲线示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种飞行姿态控制方法,流程图如图1所示,包括以下步骤:
步骤S1:构建飞行姿态控制律的学习所需的探索环境;所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子;基于深度强化学习的端到端飞行姿态控制律,通过不断与环境交互来完成控制律的学习,为此采用六自由度模型来构建控制律学习所需的探索环境,并对模型系数引入不同程度的随机不确定性,来提高学习得到控制律对飞行环境不确定性的适应能力。
进一步地,所述模型系数包括气动力合力和气动力矩的合力矩,所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数;所述气动力系数和气动力矩系数由如下7维插值计算得到:
其中,CA、CN、CS为所述气动力系数,Cmx、Cmy、Cmz为所述气动力矩系数;插值自变量为高度H,空速u,攻角α,侧滑角β,俯仰舵偏角偏航舵偏角δψ以及滚转舵偏角δγ,通过对插值自变量注入随机不确定性影响因子,实现在飞行器模型的模型系数中引入随机不确定性影响因子,通过对插值数据注入不同程度的随机特性来增加飞行环境的不确定性。
进一步地,飞行器模型为六自由度模型,相应的,所述构建飞行姿态控制律的学习所需的探索环境,包括:
根据如下表达式构建所述探索环境:
c1~c9为和转动质量相关的系数,记Ix,Iy,Iz分别为绕飞行器机体轴的转动惯量,Ixz为xz平面内的惯性积,则有
FA=-qSrefCA,FS=qSrefCS,FN=-qSrefCN
Mx=qSrefLrefCmx,My=qSrefLrefCmy,Mz=qSrefLrefCmz
其中,q为大气密度,Sref为参考气动面积,Lref为参考气动长度。
六自由度模型具体可以为六自由度非线性模型;具体可以在北东地坐标系下构建探索环境。
进一步地,所述攻角α和侧滑角β分别根据如下公式计算得到:
α=tan-1(uzt,uxt),β=sin-1(uyt,u)
其中,α∈[-π,π],β∈[-π,π],tan-1()是值域定义在[-π,π]之间的反正切函数。
步骤S2:根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;所述输入信号包括姿态角误差、姿态角速度误差以及姿态角度误差积分。
如图2所示,针对飞行姿态控制律设计问题,通过传感器测量获得步骤S1中输出的姿态角和姿态角速度ωx,ωy,ωz,同时根据飞行器制导单元得到期望姿态角则飞行姿态控制律t时刻的输入信号姿态角误差姿态角速度误差以及姿态角度误差积分分别如下式所示:
步骤S3:将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;所述输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果;所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角,以及理论滚转舵偏角。
进一步地,所述对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果,包括:
根据如下公式计算所述限幅结果:
对于动作幅值限幅:
对于变化速率限幅:
其中,k表示第k个控制周期,为第k个控制周期的俯仰舵偏角,δψ(k)为第k个控制周期的偏航舵偏角,δγ(k)为第k个控制周期的滚转舵偏角,为第k个控制周期的理论俯仰舵偏角,aψ(k)为第k个控制周期的理论偏航舵偏角,aγ(k)为第k个控制周期的理论滚转舵偏角,分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值,分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值,分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率,为单位时间间隔。可选为20°,可选为-20°,可选为165°/s。
步骤S4:构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习。
进一步地,所述构建奖励回报单元,包括:
当前时刻奖励通过如下二次型表示:
且有
其中,r*t为在t时刻的当前时刻奖励,为总奖励,*表示通配符,可通配中的任意一个,为姿态角,s*t为系统状态,包括姿态角误差、姿态角速度误差以及姿态角度误差积分,ut为控制量,包括理论舵偏角,Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵,为学习算法的折扣因子。当前时刻奖励的设置决定了训练学习是否能够收敛,来平衡当前时刻奖励r*t和总奖励
进一步地,所述飞行姿态控制方法还包括:
可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值,保证系统状态和控制量均满足要求;
当连续完成预设次数的控制目标时给出额外的完成任务奖励,引导优先完成任务。额外的完成任务奖励,例如可以为rgoal=100。
步骤S5:对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。
飞行姿态控制律需要经过训练学习才能完成相应的控制任务,如图3所示,给出了Actor-Critic式训练结构和训练方法。为方便描述,下面使用输入状态s和动作a代替s*和a*,则训练过程可做如下具体说明:
进一步地,所述对所述飞行姿态控制律进行学习,包括:
随机初始化评价用神经网络和控制用神经网络;随机初始化评价用神经网络Q(s,a|θQ),输入参数为状态s和动作指令a,输出为控制效果评分,网络参数为θQ,神经网络采样全连接网络,激活函数为非线性激活函数;
初始化控制用神经网络μ(s|θμ),输入参数为状态s,输出为动作指令a,网络参数为θQ,神经网络采样全连接网络,激活函数为非线性激活函数;
同时,分别复制1个目标网络Q′(s,a|θQ)和μ′(s|θμ),且初始权重满足θQ′←θQ,θμ′←θμ。
初始化经验回放池,开辟内存缓冲区,设置大小为nR;
初始化探索环境,初始化随机噪声,之后循环进行数据采样和神经网络学习;
开展M次独立的试验,对所述飞行姿态控制律进行学习。
进一步地,所述开展M次独立的试验,对所述飞行姿态控制律进行学习,包括:
每次试验步骤如下:
a)提取初始化输入状态s1;
b)若当前时刻t小于等于最大学习时长T,则执行步骤c),否则结束本次试验,开展下一次试验;当前时刻的初始值可选为0,每次循环计算时进行累加,例如计算一次时当前时刻为10ms,与T进行比较,根据比较结果执行后续步骤;
再计算一次时当前时刻为20ms,与T进行比较,根据比较结果执行后续步骤;T可选为100s。
c)根据初始化输入状态s1,s1利用控制用神经网络μ(st|θμ)产生t时刻动作为at=μ(st|θμ)+Nt,Nt为t时刻的随机噪声用于增加学习样本的多样性,记Ninit为初始时刻噪声大小,且Nt随着训练过程逐步变小,满足:
Nt=0.995*Nt;
d)对得到的动作指令at进行动作限幅,并应用在探索环境上,根据模型特性积分得到当前时刻奖励rt和下一时刻的状态st+1,且rt满足
且若连续完成预设次数的控制目标,令rt=rgoal=100;
记st[0]为状态向量st的第1个元素,则控制目标完成标志为:
e)将数据对(st,at,rt,st+1)存储在经验回放池RP中,若经验回放池RP已存满nR个数据对,则执行步骤f)开始学习,否则跳回步骤c);
i)按下式计算采样数据对的梯度:
k)采用软更新方式,更新目标网络参数,即有:
在完成飞行姿态控制律的学习之后,还可以进一步进行飞行姿态控制律的使用,控制用神经网络能够完成期望的控制任务,因此,提取控制用网络μ(s|θμ)并复制给相应的控制律网络而在实际使用时,根据姿态角误差、姿态角速度误差以及姿态角度误差积分得到输入状态sψ(k),sγ(k),分别送入控制律网络即可输出舵机理论输出指令aψ,aγ,之后经过动作限幅即得到实际使用的舵机控制指令,实现飞行器的端到端拟人化姿态控制。
结合具体实施例说明如下:
为验证本发明提出的拟人化端到端飞行姿态控制律设计方法的合理性以及所得到控制律的有效性,在Python环境下对其进行数值仿真。考虑到飞行器俯仰、偏航、滚转三个通道设计过程相同,下面以俯仰通道的设计过程为例,给出具体的实施例。
控制用神经网络和评价用神经网络的超参数设置分别如图4和图5所示,由于俯仰通道控制律输入状态维数为3,输出动作维数为1,采用双隐层各128个神经元的全连接网络作为控制用神经网络,非线性激活函数为tanh函数;而评价用神经网络的输入为4维,输出为1维,采用全连接网络结构,双隐层神经元数量分别设置为300个和128个,非线性激活函数为relu函数。
优选的,本发明中以俯仰角误差,角速度误差以及角度误差积分作为输入,动作为俯仰角偏转角,因此输入为3维,输出为1维。不失一般性,神经网络输入输出可以针对具体控制问题的输入维数和动作变量输出维数进行适应性改变,且前向全连接网络隐层神经元数量可根据控制任务复杂度适当调整。
此外,学习训练相关超参数设置如下表1所示,此部分超参数与学习效果相关,且对于同一类控制问题无需大幅调整。
表1本发明中学习相关超参数设置情况
本发明中根据LQR最优控制原则,针对俯仰通道姿态控制器设计奖设置励值QR阵如下所示:
可见采用正定加权形式,奖励为俯仰角跟踪误差、角速率误差以及动作幅值的加权和,而角度跟踪误差为首要考虑的因素。
此外,本发明实施例所用训练设备参数如下:
1)CPU为单块6核的
‘Intel(R)_Core(TM)_i7-8700K_CPU_@_3.70GHz’
2)GPU为2块‘NVIDIA GeForce GTX 1080Ti’卡,内存为2块‘KingstonKHX2400C15/16G’
3)训练框架为Python 3.7.1+Tensorflow 2.1.0
给定状态初始值为角度和角速率均为0,即目标跟踪值角度和角速率分别设置为经过约40次训练可以实现算法的收敛,实现预定的跟踪效果。而在在线使用时,如图6所示,最上方图的纵坐标phi为中间图的纵坐标wy为ωy,最下方图的纵坐标deltap为俯仰舵偏角给定时变的跟踪目标,实现了高精度的跟踪控制效果,稳态误差快速收敛为0,所需的舵偏角平滑可行,即在未训练的目标跟踪值情况下具有良好的泛化效果和适应性。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种飞行姿态控制方法,其特征在于,包括:
构建飞行姿态控制律的学习所需的探索环境;
根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;
将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;
构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;
对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制;所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子;相应的,所述模型系数包括气动力合力和气动力矩的合力矩,所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数;所述气动力系数和气动力矩系数由如下7维插值计算得到:
其中,CA、CN、CS为所述气动力系数,Cmx、Cmy、Cmz为所述气动力矩系数;插值自变量为高度H,空速u,攻角α,侧滑角β,俯仰舵偏角偏航舵偏角δψ以及滚转舵偏角δγ,通过对插值自变量注入随机不确定性影响因子,实现在飞行器模型的模型系数中引入随机不确定性影响因子;所述飞行器模型为六自由度模型;相应的,所述构建飞行姿态控制律的学习所需的探索环境,包括:
根据如下表达式构建所述探索环境:
其中,x,y,H代表位置信息,vxd,vyd,vzd代表地面坐标系下速度,ψ,γ为姿态角,ωx,ωy,ωz为姿态角速度,p为发动机推力,mg为重力,m为质量,Tt→d代表从机体系到地面坐标系的转换矩阵;
c1~c9为和转动质量相关的系数,记Ix,Iy,Iz分别为绕飞行器机体轴的转动惯量,Ixz为xz平面内的惯性积,则有
FA=-qSrefCA,FS=qSrefCS,FN=-qSrefCN
Mx=qSrefLrefCmx,My=qSrefLrefCmy,Mz=qSrefLrefCmz
其中,q为大气密度,Sref为参考气动面积,Lref为参考气动长度;所述舵机限幅单元的输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅,得到的限幅结果;所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角,以及理论滚转舵偏角;根据如下公式计算所述限幅结果:
对于动作幅值限幅:
对于变化速率限幅:
其中,k表示第k个控制周期,为第k个控制周期的俯仰舵偏角,δψ(k)为第k个控制周期的偏航舵偏角,δγ(k)为第k个控制周期的滚转舵偏角,为第k个控制周期的理论俯仰舵偏角,aψ(k)为第k个控制周期的理论偏航舵偏角,aγ(k)为第k个控制周期的理论滚转舵偏角,分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值,分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值,分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率,为单位时间间隔;所述构建奖励回报单元,包括:
当前时刻奖励通过如下二次型表示:
且有
其中,r*t为在t时刻的当前时刻奖励,为总奖励,*表示通配符,可通配ψ,γ中的任意一个,ψ,γ为姿态角,s*t为系统状态,包括姿态角误差、姿态角速度误差以及姿态角度误差积分,ut为控制量,包括理论舵偏角,Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵,k为学习算法的折扣因子;所述飞行姿态控制方法还包括:
可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值,保证系统状态和控制量均满足要求;
当连续完成预设次数的控制目标时给出额外的完成任务奖励,引导优先完成任务;所述对所述飞行姿态控制律进行学习,包括:
随机初始化评价用神经网络和控制用神经网络;
初始化经验回放池,开辟内存缓冲区,设置大小为nR;
初始化探索环境,初始化随机噪声,之后循环进行数据采样和神经网络学习;
开展M次独立的试验,对所述飞行姿态控制律进行学习;所述开展M次独立的试验,对所述飞行姿态控制律进行学习,包括:
每次试验步骤如下:
a)提取初始化输入状态s1;
b)若当前时刻t小于等于最大学习时长T,则执行步骤c),否则结束本次试验,开展下一次试验;
c)根据初始化输入状态s1利用控制用神经网络μ(st|θμ)产生t时刻动作为at=μ(st|θμ)+Nt,Nt为t时刻的随机噪声用于增加学习样本的多样性,记Ninit为初始时刻噪声大小,且Nt随着训练过程逐步变小,满足:
Nt=0.995*Nt;
d)对得到的动作指令at进行动作限幅,并应用在探索环境上,根据模型特性积分得到当前时刻奖励rt和下一时刻的状态st+1,且rt满足
且若连续完成预设次数的控制目标,令rt=rgoal=100;
记st[0]为状态向量st的第1个元素,则控制目标完成标志为:
e)将数据对(st,at,rt,st+1)存储在经验回放池RP中,若经验回放池RP已存满nR个数据对,则执行步骤f)开始学习,否则跳回步骤c);
i)按下式计算采样数据对的梯度:
k)采用软更新方式,更新目标网络参数,即有:
α=tan-1(uzt,uxt),β=sin-1(uyt,u)
其中,α∈[-π,π],β∈[-π,π],tan-1()是值域定义在[-π,π]之间的反正切函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111248696.6A CN114200950B (zh) | 2021-10-26 | 2021-10-26 | 一种飞行姿态控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111248696.6A CN114200950B (zh) | 2021-10-26 | 2021-10-26 | 一种飞行姿态控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114200950A CN114200950A (zh) | 2022-03-18 |
CN114200950B true CN114200950B (zh) | 2023-06-02 |
Family
ID=80646308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111248696.6A Active CN114200950B (zh) | 2021-10-26 | 2021-10-26 | 一种飞行姿态控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114200950B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115268276B (zh) * | 2022-09-26 | 2023-02-03 | 北京航天自动控制研究所 | 一种基于梯度下降的制导参数在线修正方法及系统 |
CN117289709B (zh) * | 2023-09-12 | 2024-06-28 | 中南大学 | 基于深度强化学习的高超声速变外形飞行器姿态控制方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880060B (zh) * | 2012-10-25 | 2014-09-10 | 北京理工大学 | 再入飞行器自适应指数时变滑模姿态控制方法 |
CN102929283B (zh) * | 2012-11-07 | 2015-02-11 | 北京理工大学 | 基于sdre的再入飞行器自适应最优滑模姿态控制方法 |
CN107491081B (zh) * | 2017-07-12 | 2020-10-27 | 西北工业大学 | 一种抗干扰四旋翼无人机姿态控制方法 |
CN109270947B (zh) * | 2018-12-13 | 2020-07-10 | 北京航空航天大学 | 倾转旋翼无人机飞行控制系统 |
CN110488861B (zh) * | 2019-07-30 | 2020-08-28 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110554707B (zh) * | 2019-10-17 | 2022-09-30 | 陕西师范大学 | 一种飞行器姿态控制回路的q学习自动调参方法 |
CN111123963B (zh) * | 2019-12-19 | 2021-06-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
CN111694365B (zh) * | 2020-07-01 | 2021-04-20 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
CN112394645B (zh) * | 2021-01-20 | 2021-04-16 | 中国人民解放军国防科技大学 | 一种航天器姿态跟踪的神经网络反步滑模控制方法和系统 |
-
2021
- 2021-10-26 CN CN202111248696.6A patent/CN114200950B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114200950A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114200950B (zh) | 一种飞行姿态控制方法 | |
Punjani et al. | Deep learning helicopter dynamics models | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN108115681B (zh) | 机器人的模仿学习方法、装置、机器人及存储介质 | |
Lin | Adaptive critic autopilot design of bank-to-turn missiles using fuzzy basis function networks | |
WO2020024172A1 (zh) | 多状态连续动作空间的合作式方法及系统 | |
CN111240344B (zh) | 基于强化学习技术的自主水下机器人无模型控制方法 | |
CN112462792A (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
Liu et al. | Novel docking controller for autonomous aerial refueling with probe direct control and learning-based preview method | |
CN113377121A (zh) | 一种基于深度强化学习的飞行器智能抗扰动控制方法 | |
CN111273677A (zh) | 一种基于强化学习技术的自主水下机器人速度和艏向控制方法 | |
CN115990888B (zh) | 一种具有死区和时变约束功能的机械臂控制方法 | |
CN114967713B (zh) | 基于强化学习的水下航行器浮力离散变化下的控制方法 | |
Chen et al. | Deep feature representation based imitation learning for autonomous helicopter aerobatics | |
Goecks et al. | Control of morphing wing shapes with deep reinforcement learning | |
CN114792028A (zh) | 基于物理的高性能仿生水下机器人仿真训练平台构建方法 | |
CN117289709B (zh) | 基于深度强化学习的高超声速变外形飞行器姿态控制方法 | |
Song et al. | Surface path tracking method of autonomous surface underwater vehicle based on deep reinforcement learning | |
Dracopoulos et al. | Adaptive neuro-genetic control of chaos applied to the attitude control problem | |
Zhen et al. | Aircraft control method based on deep reinforcement learning | |
CN113821057B (zh) | 一种基于强化学习的行星软着陆控制方法及系统和存储介质 | |
Priandana et al. | Development of self-organizing maps neural networks based control system for a boat model | |
Wang et al. | Attitude controller design based on deep reinforcement learning for low-cost aircraft | |
CN114489095A (zh) | 一种应用于变体飞行器的类脑脉冲神经网络控制方法 | |
Zhao et al. | Consciousness neural network for path tracking control of floating objects at sea |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |