CN113377121B - 一种基于深度强化学习的飞行器智能抗扰动控制方法 - Google Patents

一种基于深度强化学习的飞行器智能抗扰动控制方法 Download PDF

Info

Publication number
CN113377121B
CN113377121B CN202110750860.7A CN202110750860A CN113377121B CN 113377121 B CN113377121 B CN 113377121B CN 202110750860 A CN202110750860 A CN 202110750860A CN 113377121 B CN113377121 B CN 113377121B
Authority
CN
China
Prior art keywords
network
aircraft
control
action
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110750860.7A
Other languages
English (en)
Other versions
CN113377121A (zh
Inventor
王宏伦
刘一恒
武天才
李娜
詹韬
浑陆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing Institute of Control and Electronic Technology
Original Assignee
Beihang University
Beijing Institute of Control and Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Beijing Institute of Control and Electronic Technology filed Critical Beihang University
Publication of CN113377121A publication Critical patent/CN113377121A/zh
Application granted granted Critical
Publication of CN113377121B publication Critical patent/CN113377121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • G05D1/0816Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
    • G05D1/0833Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using limited authority control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的飞行器智能抗扰动控制方法,属于飞行器导航、制导与控制技术领域。在传统非线性抗扰动控制器的基础上,结合参考观测器网络和深度强化学习方法,构成总体智能控制框架。然后对参考观测器网络进行训练,使参考观测器网络能够建立飞行器精确逆动力学模型,进而产生前馈控制输入;同时利用深度强化学习TD3算法与传统非线性抗扰动控制器结合,使用TD3实时调整抗扰动控制器的控制增益参数,构成总体控制框架中的反馈控制输入。前馈控制与反馈控制相结合,得到飞行器智能抗扰动控制律。本发明提升控制性能以及适应性和鲁棒性,并对多类型飞行器具有普适性。

Description

一种基于深度强化学习的飞行器智能抗扰动控制方法
技术领域
本发明属于飞行器导航、制导与控制技术领域,具体涉及一种基于深度强化学习的飞行器智能抗扰动控制方法。
背景技术
飞行器(flight vehicle)是指在大气层内或大气层外空间(太空)飞行的器械,可以分为航空器、航天器、火箭和导弹等几种类别,近年来广泛应用于军用和民用领域。为了准确地完成日益复杂化、多样化、精准化的飞行任务,如何设计具有优异控制表现的姿态控制系统,一直是学者们亟待解决的问题。
对于飞行器姿态系统中存在的强非线性、强耦合性、参数不确定性、参数时变性和存在外界干扰等问题,非线性抗扰动控制方法(例如自抗扰控制(ADRC)和基于干扰观测器的控制方法(DOBC))受到了研究人员的青睐。
然而,这类传统的控制方法对于复杂环境和不确定性等问题难以避免地存在适应性较低和鲁棒性较差的缺点。
发明内容
本发明为了弥补传统抗扰动控制方法适应性较低和鲁棒性较差的缺点,进一步提高在强非线性、强耦合性、参数不确定性、参数时变性和存在外界干扰等问题存在时的控制性能,提出了一种基于深度强化学习的飞行器智能抗扰动控制方法。
所述的基于深度强化学习的飞行器智能抗扰动控制方法,具体包括如下步骤:
步骤一、针对通用飞行器建立六状态角运动非线性动力学方程组,并改写为仿射非线性形式;
仿射非线性形式的六状态角运动动力学方程组为:
Figure BDA0003146210670000011
式中,Ω表示飞行器的姿态角,ω表示飞行器的角速度;fs表示姿态角环的系数矩阵,ff表示角速率环的系数矩阵;gs表示姿态角环的控制矩阵,gf表示角速率环的控制矩阵;δ表示控制舵面;
Figure BDA0003146210670000012
表示姿态角环的复合干扰,
Figure BDA0003146210670000013
表示角速率环的复合干扰。
步骤二、根据仿射非线性形式的六状态角运动动力学方程,构建具有通用形式的传统非线性抗扰动控制器的控制律;
传统非线性抗扰动控制律为:
Figure BDA0003146210670000021
式中,ω*为角速率环的期望指令,δc为控制舵面的期望指令,
Figure BDA0003146210670000022
表示姿态角环期望指令的微分,
Figure BDA0003146210670000023
表示角速率环期望指令的微分;KΩ表示矩阵形式的姿态角环控制增益系数,Kω表示矩阵形式的角速率环控制增益参数;eΩ表示姿态角环的跟踪误差;eω表示角速率环跟踪误差;
Figure BDA0003146210670000024
表示对姿态角环的复合干扰的估计值,
Figure BDA0003146210670000025
表示对角速率环的复合干扰的估计值;
步骤三、利用传统非线性抗扰动控制器,结合参考观测器网络和深度强化学习方法构建总体智能控制框架;
所述的总体智能控制框架由:参考观测器网络和使用深度强化学习方法智能调整控制增益参数的传统非线性抗扰动控制器构成。
步骤四、利用传统非线性抗扰动控制器进行大量飞行仿真,将仿真数据作为训练样本对参考观测器网络进行训练,并不断迭代更新,获取最终参考观测器网络参数;
训练样本的生成过程为:通过在飞行包线内随机给定期望输出,在可行域内随机施加内扰和外扰,使用传统非线性抗扰动控制器控制飞行器模型跟踪期望输出,并采集该过程中的飞行器模型输出和控制输入数据作为训练样本。
所述参考观测器网络的结构具体为:
X1,X2,...,Xn为输入序列,Y1,Y2,...,Yn为输出序列,BiLSTM由正向和反向的多层LSTM组成,将正向和反向的多层LSTM输出hfn,hbn进行拼接,最终经由全连接层FC得到输出序列;
对参考观测器网络进行训练具体为:
步骤401,将飞行器模型输出样本数据作为参考观测器网络的输入序列,经由正向和反向的多层LSTM输出hfn,hbn进行拼接,再经过全连接层FC得到参考观测器网络输出,即飞行器的控制输入数据。
步骤402,计算参考观测器网络的输出与样本中飞行器模型的控制输入之间的均方误差,作为参考观测器网络的损失函数;
步骤403,采用Adam优化器根据损失函数计算梯度来更新参考观测器网络参数。
步骤404,参数更新后的参考观测器网络进行下一次训练迭代,直至得到一个能够产生精确前馈控制输入的参考观测器网络。
步骤五、将训练好的参考观测器网络作为前馈的方式应用到总体智能控制框架中,在传统非线性抗扰动控制器的基础上进行深度强化学习,得到飞行器智能抗扰动控制律,实现飞行器智能抗扰动控制。
所述的深度强化学习采用的是TD3算法,TD3算法包括6个神经网络,具体为:1个动作现实网络、1个动作目标网络、2个评价现实网络和2个评价目标网络;其中动作现实网络和动作目标网络构成动作网络,2个评价现实网络和2个评价目标网络构成2套评价网络;
深度强化学习的具体流程如下:
步骤501,动作现实网络根据从飞行器仿真环境得到的状态选择一个动作输出,并与噪声叠加,最终得到动作ωt下达给飞行器仿真环境执行,返回奖励rt和新的状态xt+1
ωt=A(xtA)+πt (4)
其中,ωt为最终飞行器仿真环境执行的动作,即与噪声叠加后的控制输入;A代表动作现实网络,λA为动作现实网络的参数,xt为当前飞行器的飞行状态,πt为随机噪声。
步骤502,将状态转换过程中的状态xt、动作ωt、奖励rt和新的状态xt+1存入经验存储中。
步骤503,动作网络和评价网络分别从经验存储中采样N个状态转换过程数据,并利用动作目标网络和2个评价目标网络计算转换过程数据的期望Q值,选择其中的最小值作为最终的期望Q值;
评价网络采样时利用n-step采样机制,即一次采样n个连续的状态转换过程。
期望Q值Qj *的计算公式为:
Figure BDA0003146210670000031
其中,n为n-step采样的步数;C′j表示第j个评价目标网络,j=1,2;A′表示动作目标网络;
Figure BDA0003146210670000032
为第j个评价目标网络的参数,λA′为动作目标网络的参数;γ是奖励衰减系数。xt+n表示第t+n时刻的状态。
步骤504,分别计算最终的期望Q值与两个评价现实网络输出的Q值之差,得到两个代价函数Lj,对评价现实网络的参数
Figure BDA0003146210670000033
进行更新。
代价函数Lj为:
Figure BDA0003146210670000034
其中,Cj表示第j个评价现实网络,xi表示第i个样本的状态,ωi表示第i个样本的动作。
使用Adam优化器对评价现实网络的参数
Figure BDA0003146210670000035
进行更新。
步骤505,通过评价现实网络C1计算动作现实网络性能指标的梯度,对动作现实网络A的参数λA进行更新;
性能指标的梯度计算公式为:
Figure BDA0003146210670000041
其中,J表示性能指标,J对动作现实网络A的梯度为
Figure BDA0003146210670000042
评价现实网络C1对控制输入u的梯度为
Figure BDA0003146210670000043
动作现实网络A对其参数λA的梯度为
Figure BDA0003146210670000044
在TD3中,对动作网络参数的更新使用Adam优化器,并采用延迟更新的策略。
步骤506,用评价现实网络更新的参数
Figure BDA0003146210670000045
和动作现实网络更新的参数λA渐变更新目标网络的参数;
渐变更新目标网络的计算公式为:
Figure BDA0003146210670000046
其中,τ是现实网络的渐变更新系数。
步骤507,重复迭代步骤501-506,不断更新评价现实网络和目标网络的参数,得到训练好的动作现实网络;
步骤508、利用训练好的动作现实网络实时智能调整控制增益参数,以优化反馈误差项,同时结合参考观测器网络产生的前馈控制输入,得到飞行器智能抗扰动控制律。
飞行器智能抗扰动控制律具体表达式如下:
Figure BDA0003146210670000047
其中,e=[eΩ,eω],N1(X,e)为深度强化学习实时输出的姿态角环控制增益参数,N2(X,e)为深度强化学习实时输出的角速率环控制增益参数;X为飞行器状态向量,ωrefref为参考观测器网络输出。
本发明的优点在于:
(1)一种基于深度强化学习的飞行器智能抗扰动控制方法,引入基于深度学习的参考观测器网络和基于深度强化学习的智能反馈误差项,提升了传统非线性抗扰动控制方法的控制性能以及适应性和鲁棒性;
(2)一种基于深度强化学习的飞行器智能抗扰动控制方法,不受具体控制方法限制,可以以各类抗扰动控制方法为基础,提升控制性能,具有易实现和拓展性;
(3)一种基于深度强化学习的飞行器智能抗扰动控制方法,适用于多类和多种气动外形的飞行器,具有普适性。
附图说明
图1是本发明一种基于深度强化学习的飞行器智能抗扰动控制方法的整体流程图;
图2是本发明一种基于深度强化学习的飞行器智能抗扰动控制框架的架构示意图;
图3是本发明中参考观测器网络的结构示意图;
图4是本发明中参考观测器网络的样本生成方法流程示意图;
图5是本发明中参考观测器网络的训练方法示意图;
图6是本发明中深度强化学习方法的网络结构示意图;
图7是本发明中参考观测器网络输出与传统非线性抗扰动控制方法的控制量对比图;其中,图7(a)为对副翼的输出对比和预测偏差,图7(b)为对方向舵的输出对比和预测偏差,图7(c)为对升降舵的输出对比和预测偏差;
图8是本发明中智能抗扰动控制方法与传统非线性抗扰动控制方法的跟踪效果对比图;其中,图8(a)为攻角α的跟踪效果对比以及跟踪误差,图8(b)为侧滑角β的跟踪效果对比以及跟踪误差,图8(c)为倾侧角γs的跟踪效果对比以及跟踪误差;
图9是本发明中深度强化学习方法智能控制器参数曲线图;其中,图9(a)为姿态角环的控制增益参数曲线,图9(b)为角速率环的控制增益参数曲线。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图和实施例对本发明作进一步的详细描述。
本发明所提出的基于深度强化学习的飞行器智能抗扰动控制方法,是在传统非线性抗扰动控制方法的基础上,结合新一代人工智能的最新研究成果,通过基于深度学习的参考观测器网络产生前馈输入与基于深度强化学习智能调整增益参数的反馈输入相结合的二元智能控制结构。
本发明以传统的抗扰动控制框架为基础,通过深度强化学习方法对反馈误差项进行调整优化,以进一步提高控制器在强非线性、强耦合性、参数不确定性、参数时变性和存在外界干扰等问题作用下的跟踪控制性能,对实现飞行器姿态角的抗扰动高精度跟踪控制具有重要的意义。
一种基于深度强化学习的飞行器智能抗扰动控制方法,如图1所示,具体步骤如下:
步骤一、针对通用飞行器建立六状态角运动非线性动力学方程组,并基于时标分离原理和奇异摄动理论,将其改写为利于控制器设计的姿态角和角速率分环的仿射非线性形式;
具体步骤如下:
步骤101,在假设飞行器是一理想刚体,且忽略地球曲率和旋转的条件下,通用飞行器六状态角运动非线性动力学方程组可写为如下形式:
Figure BDA0003146210670000061
Figure BDA0003146210670000062
α表示攻角,β表示侧滑角,γs表示倾侧角;wx表示滚转角速率,wy表示侧滑角速率,wz表示俯仰角速率;
Figure BDA0003146210670000063
分别表示α,β,γs和wx,wy,wz的微分,所列写的方程组就是飞行器六状态角运动非线性动力学微分方程组。
m表示飞行器质量;g表示飞行器所在位置的重力加速度;θ表示飞行器的弹道倾角;S表示飞行器的参考面积;δx表示副翼偏角,δy表示方向舵偏角,δz表示升降舵偏角;L表示飞行器所受升力,Z表示飞行器所受侧力;V表示飞行器速度;Ix,Iy,Iz表示x、y、z三轴转动惯量;
Figure BDA0003146210670000064
表示飞行器所受动压;ρ表示大气密度;l表示平均气动弦长;b表示翼展;
Figure BDA0003146210670000065
表示由侧滑角引起的滚转力矩系数、
Figure BDA0003146210670000066
表示由滚转角速率引起的滚转力矩系数、
Figure BDA0003146210670000067
表示由偏航角速率引起的滚转力矩系数、
Figure BDA0003146210670000068
表示由副翼引起的滚转力矩系数、
Figure BDA0003146210670000069
表示由方向舵引起的滚转力矩系数、
Figure BDA00031462106700000610
表示由侧滑角引起的偏航力矩系数、
Figure BDA00031462106700000611
表示由滚转角速率引起的偏航力矩系数、
Figure BDA00031462106700000612
表示由偏航角速率引起的偏航力矩系数、
Figure BDA00031462106700000613
表示由副翼引起的偏航力矩系数、
Figure BDA00031462106700000614
表示由方向舵引起的偏航力矩系数、Cmz,α表示由攻角引起的俯仰力矩系数、
Figure BDA00031462106700000615
表示由俯仰角速率引起的俯仰力矩系数、
Figure BDA00031462106700000616
表示由升降舵引起的俯仰力矩系数。
步骤102,基于时标分离原理和奇异摄动理论,充分考虑模型参数不确定性和存在外界干扰,将六状态角运动非线性动力学方程组改写为利于控制器设计的仿射非线性形式;
时标分离原理指的是按照被控变量对控制输入量响应快慢的特点,将它们分成不同的组,然后进行分组控制,以简化控制系统设计任务。
奇异摄动理论是用来近似求解微分方程的重要数学方法之一,利用系统状态变量在时间尺度上的差别,把单个高阶系统解的计算降阶为两个或多个低阶系统的求解。
仿射非线性形式的六状态角运动动力学方程组为:
Figure BDA0003146210670000071
式中,
Figure BDA0003146210670000072
表示
Figure BDA0003146210670000073
Figure BDA0003146210670000074
表示
Figure BDA0003146210670000075
Figure BDA0003146210670000076
Figure BDA0003146210670000077
表示Ω和ω的微分;飞行器的姿态角Ω=[α,β,γs]T,飞行器的角速度ω=[wx,wy,wz]T,控制舵面δ=[δxyz]T
Figure BDA0003146210670000078
表示姿态角环的复合干扰,
Figure BDA0003146210670000079
表示角速率环的复合干扰;fs表示姿态环的系数矩阵,ff表示角速率环的系数矩阵;gs表示姿态环的控制矩阵,gf表示角速率环的控制矩阵,形式如下:
Figure BDA0003146210670000081
Figure BDA0003146210670000082
Figure BDA0003146210670000083
Figure BDA0003146210670000084
Figure BDA0003146210670000085
Figure BDA0003146210670000086
其中,Δfs,ΔgsΔff,Δgf表示模型参数不确定性,ds,df表示未知外界扰动。
步骤二、在自抗扰控制和基于干扰观测器控制方法的基础上,根据仿射非线性形式的飞行器六状态角运动非线性动力学方程,构建传统非线性抗扰动控制器的控制律;
传统非线性抗扰动控制律为:
Figure BDA0003146210670000087
式中,ω*为角速率环的期望指令,δc表示控制舵面的期望指令;eΩ=Ω*-Ω表示姿态角环跟踪误差,Ω*表示姿态角环期望指令;eω=ω*-ω表示角速率环跟踪误差;
Figure BDA0003146210670000088
表示对姿态角环的复合干扰的估计值,
Figure BDA0003146210670000089
表示对角速率环的复合干扰的估计值;KΩ=diag{k1,k1,k1}表示控制器姿态角环增益参数矩阵,k1表示姿态环的控制增益参数;Kω=diag{k2,k2,k2}表示控制器角速率环控制增益参数的矩阵,k2表示角速率环的控制增益参数;gs -1、gf -1分别表示矩阵gs、gf的逆矩阵;gs T表示矩阵gs的转置矩阵;
Figure BDA0003146210670000091
分别表示姿态角环和角速率环期望指令的微分信号;
基于自抗扰ADRC理论,由下述形式的线性扩张观测器(LESO)获得复合干扰的估计值为:
Figure BDA0003146210670000092
式中,姿态角环复合干扰的估计值
Figure BDA0003146210670000093
角速率环复合干扰的估计值
Figure BDA0003146210670000094
Figure BDA0003146210670000095
表示姿态角的估计值,
Figure BDA0003146210670000096
表示角速率的估计值;
Figure BDA0003146210670000097
表示姿态角的估计误差,
Figure BDA0003146210670000098
表示角速率的估计误差。L1i=diag{l1i,l1i,l1i}为姿态角环的观测增益矩阵,L2i=diag{l2i,l2i,l2i}为角速率环的观测增益矩阵,i=1,2。
Figure BDA00031462106700000911
分别表示姿态角和角速率的估计值的微分;
Figure BDA00031462106700000910
分别表示姿态角环和角速率环复合干扰的微分。
步骤三、在传统非线性抗扰动控制器的基础上,结合参考观测器网络和深度强化学习方法,构成总体智能控制框架。
总体智能控制框架,如图2所示,包括参考观测器网络,和使用深度强化学习方法智能调整控制增益参数的传统非线性抗扰动控制器。其中参考观测器网络用于产生前馈控制输入,传统非线性抗扰动控制器用于产生反馈控制输入。
首先,将对飞行器的期望飞行轨迹指令输入参考观测器网络,参考观测器网络给出前馈控制输入;根据当前飞行器状态以及跟踪参考指令的误差,通过深度强化学习算法实时智能调整控制增益参数,优化反馈误差项,结合传统非线性抗扰动控制器,给出反馈控制输入;
然后,将经过前馈控制和反馈控制调整后的控制指令输出给飞行器,使飞行器在有外界扰动的情况下能够按照期望轨迹飞行。
步骤四、利用传统非线性抗扰动控制器进行大量飞行仿真,并将仿真数据作为训练样本进行参考观测器网络训练,并不断迭代更新,获取最终参考观测器网络参数。
具体如下:
参考观测器网络的结构如图3所示,X1,X2,...,Xn表示输入序列,Y1,Y2,...,Yn为输出序列,BiLSTM(Bi-directional Long ShortTerm Memory,双向长短时记忆网络)由正向和反向的多层LSTM组成,将正向和反向的多层LSTM输出hf,hb进行拼接,最终经由全连接层FC得到输出序列;
样本生成的方式如图4所示,具体如下:以传统非线性抗扰动控制器为基础,在飞行包线内随机给定期望输出,在可行域内随机施加内扰和外扰,使用传统非线性抗扰动控制器控制飞行器模型跟踪期望输出,并采集该过程中的飞行器模型输出和控制输入数据作为训练样本。
对参考观测器网络进行训练,如图5所示,具体为:
步骤401,将飞行器模型输出样本数据作为参考观测器网络的输入序列,经由正向和反向的多层LSTM输出hfn,hbn进行拼接,再经过全连接层FC得到参考观测器网络输出,即飞行器的控制输入数据。
为了防止过拟合,训练时在参考观测器网络各个LSTM层之间加入Dropout层来减轻各个节点之间的依赖关系。
步骤402,计算参考观测器网络的输出与飞行器模型的控制输入样本数据之间的均方误差,作为参考观测器网络的损失函数;
步骤403,采用Adam优化器根据损失函数计算梯度来更新参考观测器网络参数。
步骤404,参数更新后的参考观测器网络进行下一次训练迭代,直至得到一个能够产生精确前馈控制输入的参考观测器网络,并利用未经训练的样本对参考观测器网络的性能进行测试,完成训练。
步骤五、将训练好的参考观测器网络作为前馈的方式应用到总体智能控制框架中,并在传统非线性抗扰动控制器的基础上进行深度强化学习,得到飞行器智能抗扰动控制律,实现飞行器智能抗扰动控制。
深度强化学习采用双延迟深度确定性策略梯度(Twin Delayed DeepDeterministic Policy Gradient,TD3)算法,并将n-step采样算法与其进行结合,以提高收敛速度。TD3算法的网络结构如图6所示,一共使用了6个神经网络,分别为动作现实网络、动作目标网络、2个评价现实网络和2个评价目标网络。
TD3算法的流程如下:
步骤501,动作现实网络根据从飞行器仿真环境得到的状态选择一个动作输出,并与噪声叠加,增加探索性,最终得到的动作ωt下达给飞行器仿真环境执行,返回奖励rt和新的状态xt+1
ωt=A(xtA)+πt (6)
其中,ωt为最终飞行器仿真环境执行的动作,即与噪声叠加后的控制输入,A代表动作现实网络,λA为动作现实网络的参数,xt为当前飞行器飞行状态,πt为随机噪声。
在动作中加入噪声是TD3采用的动作目标网络光滑正则化策略。
步骤502,将状态转换过程中的状态xt、动作ωt、奖励rt和新的状态xt+1存入经验存储中。
步骤503,动作网络和评价网络分别从经验存储中采样N个状态转换过程数据,作为动作网络和评价网络训练的一个小批量数据。
评价网络采样时采用n-step采样机制,即一次采样n个连续的状态转换过程,提高评价网络的收敛性。
步骤504,对采样的小批量数据利用动作目标网络和2个评价目标网络计算期望Q值,这样可以切断相关性,提高收敛性,从所有的期望Q值中取最小值作为最终的期望Q值。
期望Q值的计算公式为:
Figure BDA0003146210670000111
其中,Q*表示期望Q值,n为n-step采样的步数,C′j表示第j个评价目标网络,j=1,2;A′表示动作目标网络,
Figure BDA0003146210670000112
为第j个评价目标网络的参数,λA′为动作目标网络的参数,γ是奖励衰减系数。rt表示t时刻的奖励,γn表示奖励衰减系数的n次方,xt+n表示第t+n时刻的状态。
步骤505,分别计算最终的期望Q值与两个评价现实网络输出的Q值之差,得到两个代价函数Lj,对评价现实网络的参数
Figure BDA0003146210670000113
进行更新。
代价函数Lj由下式计算:
Figure BDA0003146210670000114
其中,Cj表示第j个评价现实网络,xi表示第i个样本的状态,ωi表示第i个样本的动作。
评价现实网络的梯度可由代价函数计算。
利用代价函数和Adam优化器对评价现实网络的参数进行更新。
步骤506,通过评价现实网络C1计算动作现实网络性能指标的梯度,对动作现实网络A的参数λA进行更新;
性能指标的梯度计算公式为:
Figure BDA0003146210670000115
其中,J表示性能指标。J对动作现实网络A的梯度
Figure BDA0003146210670000116
由评价现实网络C1对控制输入u的梯度
Figure BDA0003146210670000117
点乘动作现实网络A对其参数λA的梯度
Figure BDA0003146210670000118
得到。
动作现实网络的目标是使评价网络的输出Q值增大,得到可以获得更多奖励的策略,所以,动作现实网络的梯度通过评价现实网络的梯度计算。
通过性能指标的梯度计算公式,并使用Adam优化器对动作现实网络的参数λA进行更新。在TD3中,对动作网络采用延迟更新的策略,即每隔几个循环才更新一次,提高更新的准确性。
步骤507,用现实网络的参数渐变更新目标网络的参数。
渐变更新目标网络的计算公式为:
Figure BDA0003146210670000121
其中,τ是渐变更新系数。
步骤508,重复迭代步骤501-506,不断更新现实网络和目标网络的参数,可以得到训练好的动作现实网络,将其与传统抗扰动控制器结合,实现实时智能调整控制增益参数的目的。
上述训练好的动作现实网络与传统抗扰动控制方法结合产生更优的反馈误差项。
步骤509、利用训练好的动作现实网络实时智能调整控制增益参数,以优化反馈误差项,同时结合参考观测器网络产生的前馈控制输入,得到飞行器智能抗扰动控制律。
飞行器智能抗扰动控制律的形式如下:
Figure BDA0003146210670000122
其中,e=[eΩ,eω],N1(X,e)为深度强化学习实时输出的姿态角环控制增益参数,N2(X,e)为深度强化学习实时输出的角速率环控制增益参数,即[N1(X,e),N2(X,e)]=A([X,e]|λA);X为飞行器状态向量,eΩ,eω为跟踪误差向量,ωrefref为参考观测器网络输出;
Figure BDA0003146210670000123
仍由LESO进行估计,但由于参考观测器网络的加入,式(5)所示LESO构造形式修正为如下所示形式:
Figure BDA0003146210670000124
实施例
为检验本发明一种基于深度强化学习的飞行器智能抗扰动控制方法的有效性与较传统非线性抗扰动控制方法的优越性,以某型轴对称飞行器为实施例,进行仿真验证。
在该实施例中,控制器参数选取:k1=5,k2=20,l11=40,l12=400,l21=60,l22=900。
依据本发明的具体实施步骤,本发明所提参考观测器网络输出与原传统非线性抗扰动控制方法的控制量对比如图7所示,参考观测器网络预测的输出和采用传统抗扰动控制方法的实际控制输出几乎一致,其中,如图7(a)和图7(b)所示,对副翼和方向舵的预测精度最高,预测误差在±0.02°以内;如图7(c)所示,对于升降舵而言,除去初始时刻的较大偏差,预测误差区间也处于±0.15°以内,验证了本发明中参考观测器网络预测控制输入的有效性。
本发明智能抗扰动控制方法与传统非线性抗扰动控制方法的跟踪效果对比如图8所示,通过对姿态角三通道的跟踪效果对比,由图8(a)、图8(b)以及图8(c)可以看出,本发明提出的智能控制方法体现出更佳的控制效果。
本发明提出的深度强化学习方法智能控制器参数曲线图如图9所示,图9(a)所示为深度强化学习方法实时调整姿态角环增益参数,图9(b)所示为深度强化学习方法实时调整角速率环增益参数,由两个曲线图可以看出,本发明应用智能控制器能取得更佳的控制效果。
综合上述对实施例的仿真验证,证明了本发明一种基于学习的飞行器智能抗扰动控制方法的有效性。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (6)

1.一种基于深度强化学习的飞行器智能抗扰动控制方法,其特征在于,
针对通用飞行器,通过对六状态角运动非线性动力学方程组进行改写,构建传统非线性抗扰动控制器的控制律,并结合参考观测器网络和深度强化学习方法,构成总体智能控制框架;
通过训练样本,对参考观测器网络进行训练,使参考观测器网络能够产生精确的前馈控制输入;同时深度强化学习方法采用TD3算法,实现实时智能调整控制增益参数,优化反馈误差项;
最后在总体智能控制框架下,将经过前馈控制和反馈误差项后的控制指令输出给飞行器,得到飞行器的智能抗扰动控制律,使飞行器在有外界扰动的情况下能够按照期望轨迹飞行;
公式如下:
Figure FDA0003598058450000011
其中,ω*为角速率环的期望指令,δc为控制舵面的期望指令;gs表示姿态角环的控制矩阵,gf表示角速率环的控制矩阵;fs表示姿态角环的系数矩阵,ff表示角速率环的系数矩阵;
Figure FDA0003598058450000012
表示姿态角环期望指令的微分,
Figure FDA0003598058450000013
表示角速率环期望指令的微分;e=[eΩ,eω],N1(X,e)为深度强化学习实时输出的姿态角环控制增益参数,N2(X,e)为深度强化学习实时输出的角速率环控制增益参数;eΩ表示姿态角环的跟踪误差;eω表示角速率环跟踪误差;
Figure FDA0003598058450000014
表示对姿态角环的复合干扰的估计值,
Figure FDA0003598058450000015
表示对角速率环的复合干扰的估计值;gs T表示矩阵gs的转置矩阵;Ω表示姿态角;X为飞行器状态向量;ωrefref为参考观测器网络输出;
总体智能控制框架包括参考观测器网络,和使用深度强化学习方法智能调整控制增益参数的传统非线性抗扰动控制器;其中参考观测器网络用于产生前馈控制输入,传统非线性抗扰动控制器用于产生反馈控制输入;
首先,将对飞行器的期望飞行轨迹指令输入参考观测器网络,参考观测器网络给出前馈控制输入;根据当前飞行器状态以及跟踪参考指令的误差,通过深度强化学习算法实时智能调整控制增益参数,优化反馈误差项,结合传统非线性抗扰动控制器,给出反馈控制输入;
然后,将经过前馈控制和反馈控制调整后的控制指令输出给飞行器,使飞行器在有外界扰动的情况下能够按照期望轨迹飞行。
2.根据权利要求1所述的一种基于深度强化学习的飞行器智能抗扰动控制方法,其特征在于,所述的参考观测器网络的结构为:X1,X2,...,Xn为输入序列,Y1,Y2,...,Yn为输出序列,BiLSTM由正向和反向的多层LSTM组成,将正向和反向的多层LSTM输出hfn,hbn进行拼接,最终经由全连接层FC得到输出序列。
3.根据权利要求1所述的一种基于深度强化学习的飞行器智能抗扰动控制方法,其特征在于,所述的训练样本的生成过程为:
通过在飞行包线内随机给定期望输出,在可行域内随机施加内扰和外扰,使用传统非线性抗扰动控制器控制飞行器模型跟踪期望输出,并采集该过程中的飞行器模型输出和控制输入数据作为训练样本。
4.根据权利要求1所述的一种基于深度强化学习的飞行器智能抗扰动控制方法,其特征在于,所述的对参考观测器网络进行训练,具体过程为:
步骤401,将飞行器模型输出样本数据作为参考观测器网络的输入序列,经由正向和反向的多层LSTM输出hfn,hbn进行拼接,再经过全连接层FC得到参考观测器网络输出;
步骤402,计算参考观测器网络的输出与训练样本中的飞行器模型的控制输入数据之间的均方误差,作为参考观测器网络的损失函数;
步骤403,采用Adam优化器根据损失函数计算梯度来更新参考观测器网络参数;
步骤404,参数更新后的参考观测器网络进行下一次训练迭代,直至得到一个能够产生精确前馈控制输入的参考观测器网络。
5.根据权利要求1所述的一种基于深度强化学习的飞行器智能抗扰动控制方法,其特征在于,深度强化学习TD3算法包括6个神经网络,具体为:1个动作现实网络、1个动作目标网络、2个评价现实网络和2个评价目标网络;其中动作现实网络和动作目标网络构成动作网络,2个评价现实网络和2个评价目标网络构成2套评价网络。
6.根据权利要求1所述的一种基于深度强化学习的飞行器智能抗扰动控制方法,其特征在于,深度强化学习TD3算法的具体流程为:
步骤501,动作现实网络根据从飞行器仿真环境得到的状态选择一个动作输出,并与噪声叠加,最终得到动作ωt下达给飞行器仿真环境执行,返回奖励rt和新的状态xt+1
ωt=A(xtA)+πt (4)
其中,ωt为最终飞行器仿真环境执行的动作,即与噪声叠加后的控制输入;A代表动作现实网络,λA为动作现实网络的参数,xt为当前飞行器的期望姿态和飞行状态,πt为随机噪声;
步骤502,将状态转换过程中的状态xt、动作ωt、奖励rt和新的状态xt+1存入经验存储中;
步骤503,动作网络和评价网络分别从经验存储中采样N个状态转换过程数据,并利用动作目标网络和2个评价目标网络计算转换过程数据的期望Q值,选择其中的最小值作为最终的期望Q值;
评价网络采样时利用n-step采样机制,即一次采样N个连续的状态转换过程;
期望Q值Qj *的计算公式为:
Figure FDA0003598058450000031
其中,n为n-step采样的步数;C′j表示第j个评价目标网络,j=1,2;A′表示动作目标网络;
Figure FDA00035980584500000310
为第j个评价目标网络的参数,λA′为动作目标网络的参数;γ是奖励衰减系数;xt+n表示第t+n时刻的状态;
步骤504,分别计算最终的期望Q值与两个评价现实网络输出的Q值之差,得到两个代价函数Lj,对评价现实网络的参数
Figure FDA0003598058450000032
进行更新;
代价函数Lj为:
Figure FDA0003598058450000033
其中,Cj表示第j个评价现实网络,xi表示第i个样本的状态;
使用Adam优化器对评价现实网络的参数
Figure FDA0003598058450000034
进行更新;
步骤505,通过评价现实网络C1计算动作现实网络性能指标的梯度,对动作现实网络A的参数λA进行更新;
性能指标的梯度计算公式为:
Figure FDA0003598058450000035
其中,J表示性能指标,J对动作现实网络A的梯度为
Figure FDA0003598058450000036
评价现实网络C1对控制输入u的梯度为
Figure FDA0003598058450000037
动作现实网络A对其参数λA的梯度为
Figure FDA0003598058450000038
在TD3中,对动作网络参数的更新使用Adam优化器,并采用延迟更新的策略;
步骤506,用现实网络更新的参数渐变更新目标网络的参数;
渐变更新目标网络的计算公式为:
Figure FDA0003598058450000039
其中,τ是现实网络的渐变更新系数;
步骤507,重复步骤501~506进行迭代,不断更新现实网络和目标网络的参数,得到训练好的动作现实网络;
步骤508、利用训练好的动作现实网络实时智能调整控制增益参数,以优化反馈误差项,同时结合参考观测器网络产生的前馈控制输入,得到飞行器智能抗扰动控制律。
CN202110750860.7A 2020-07-02 2021-07-02 一种基于深度强化学习的飞行器智能抗扰动控制方法 Active CN113377121B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010634532 2020-07-02
CN2020106345326 2020-07-02

Publications (2)

Publication Number Publication Date
CN113377121A CN113377121A (zh) 2021-09-10
CN113377121B true CN113377121B (zh) 2022-06-07

Family

ID=77580723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110750860.7A Active CN113377121B (zh) 2020-07-02 2021-07-02 一种基于深度强化学习的飞行器智能抗扰动控制方法

Country Status (1)

Country Link
CN (1) CN113377121B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489107B (zh) * 2022-01-29 2022-10-25 哈尔滨逐宇航天科技有限责任公司 一种飞行器双延迟深度确定性策略梯度姿态控制方法
CN114578838B (zh) * 2022-03-01 2022-09-16 哈尔滨逐宇航天科技有限责任公司 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法
CN114675545B (zh) * 2022-05-26 2022-08-23 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN117289709A (zh) * 2023-09-12 2023-12-26 中南大学 基于深度强化学习的高超声速变外形飞行器姿态控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9671789B1 (en) * 2016-05-10 2017-06-06 Beihang University Method and system for anti-disturbance composite on-line guidance for atmosphere-entering phase of a Mars lander
CN106873611A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多通道线性自抗扰控制器的设计方法
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN109725644A (zh) * 2019-01-22 2019-05-07 湖南云顶智能科技有限公司 一种高超声速飞行器线性优化控制方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9671789B1 (en) * 2016-05-10 2017-06-06 Beihang University Method and system for anti-disturbance composite on-line guidance for atmosphere-entering phase of a Mars lander
CN106873611A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多通道线性自抗扰控制器的设计方法
CN109725644A (zh) * 2019-01-22 2019-05-07 湖南云顶智能科技有限公司 一种高超声速飞行器线性优化控制方法
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法

Also Published As

Publication number Publication date
CN113377121A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113377121B (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
Han et al. Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles
CN112987567B (zh) 非线性系统的固定时间自适应神经网络滑模控制方法
CN105607473B (zh) 小型无人直升机的姿态误差快速收敛自适应控制方法
CN111240345B (zh) 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN108445766A (zh) 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN112462792B (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
CN107479384A (zh) 高超声速飞行器神经网络复合学习非反步控制方法
CN111538241B (zh) 一种平流层飞艇水平轨迹智能控制方法
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
CN111240344B (zh) 基于强化学习技术的自主水下机器人无模型控制方法
CN113759979B (zh) 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN106681345A (zh) 基于人群搜索算法的无人机自抗扰控制方法
Jin et al. Neural network based adaptive fuzzy PID-type sliding mode attitude control for a reentry vehicle
CN112327926B (zh) 一种无人机编队的自适应滑模控制方法
McFarland et al. Neural networks and adaptive nonlinear control of agile antiair missiles
Bialy et al. An adaptive backstepping controller for a hypersonic air-breathing missile
Peng et al. Online integral reinforcement learning control for an uncertain highly flexible aircraft using state and output feedback
CN115220467A (zh) 一种基于神经网络增量动态逆的飞翼飞行器姿态控制方法
Xu et al. Predefined-time hierarchical coordinated neural control for hypersonic reentry vehicle
Li et al. Optimized neural network based sliding mode control for quadrotors with disturbances
CN108459611B (zh) 一种近空间飞行器的姿态跟踪控制方法
CN114237268A (zh) 一种基于深度强化学习的无人机强鲁棒姿态控制方法
CN117289709A (zh) 基于深度强化学习的高超声速变外形飞行器姿态控制方法
CN116300468A (zh) 一种基于神经网络类机理建模的导弹制导控制一体化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant