CN116360497B - 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 - Google Patents

一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 Download PDF

Info

Publication number
CN116360497B
CN116360497B CN202310411334.7A CN202310411334A CN116360497B CN 116360497 B CN116360497 B CN 116360497B CN 202310411334 A CN202310411334 A CN 202310411334A CN 116360497 B CN116360497 B CN 116360497B
Authority
CN
China
Prior art keywords
airship
optimal control
stratospheric
model
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310411334.7A
Other languages
English (en)
Other versions
CN116360497A (zh
Inventor
黄琰婷
张雅滨
韩红桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202310411334.7A priority Critical patent/CN116360497B/zh
Publication of CN116360497A publication Critical patent/CN116360497A/zh
Application granted granted Critical
Publication of CN116360497B publication Critical patent/CN116360497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其具体步骤如下:建立平流层飞艇六自由度运动学和动力学模型,并将其表示为状态空间方程形式。给定期望轨迹计算期望位置和当前位置之间的误差,获得无约束的位置跟踪误差动力学模型。利用critic网络估计最优性能函数与最优控制量,以最小化估计误差为目标,获得基于最优控制输入量。获得对模型中的不确定项的估计补偿量,结合最优控制输入量与估计补偿量,获得鲁棒最优控制律。结合动力系统布局对合力和合力矩进行控制解算,得到螺旋桨转速,实现平流层飞艇自主跟踪期望轨迹。通过基于级联滤波的估计器有效抑制了未知的建模误差和外界干扰对系统的影响,控制器具有较高鲁棒性。

Description

一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法
技术领域
本发明提供一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,它提供一种考虑外界干扰、位置受限、控制能量消耗的平流层飞艇轨迹跟踪新控制方法,属于自动控制技术领域。
背景技术
平流层飞艇是一种飞行在海拔高度为20-30km的平流层空间的无人浮空飞行器,对于深空探测、对地观测和通信服务领域具有独特的应用价值。在深空探测方面,平流层飞艇可以在广泛的波长范围内提供类似卫星平台的观测条件。在对地观测方面,相比于飞机和卫星平台,平流层飞艇可提供更高的分辨率和更持久的观测。在通信服务方面,平流层飞艇可以作为小型通讯基站提供高速通信服务。
近年来,随着平流层飞艇科技制造技术不断发展,平流层飞艇已由研制试飞阶段逐渐走向落地应用阶段。长时稳定的驻空飞行能力是平流层飞艇实现大规模应用的前提。在驻空飞行过程中,需要充分考虑并处理飞行期间受到的多种约束问题,以增强其“驻空生存”、“广域覆盖”能力。平流层飞艇飞行控制约束主要来自于两个方面:与其他分系统耦合特性导致的控制能力约束、飞行环境与任务需求所带来位置约束。一方面,为了提高飞艇有效载荷,其自身结构与能源分系统需进行轻量化设计,在储能电池容量与动力系统能力约束下,平流层飞艇飞行时应尽可能减少能源消耗与执行机构损耗;另一方面,作为高空任务平台,在驻空飞行任务过程中,其位置需要保持在一定范围内。因此需要提出一个能够降低动力系统损耗、保证位置满足约束的平流层飞艇轨迹跟踪控制方法。
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”把以上问题作为切入点,而提出的有针对性的,解决位置受限、动力系统能源消耗限制、外界干扰下的平流层飞艇轨迹跟踪的控制理论。首先,建立具有位置约束的平流层飞艇动力学模型,设计罚函数进行状态转换,将具有约束的动力学模型转换为无约束动力学模型;然后,基于强化学习求解最优控制律,使跟踪全过程轨迹跟踪累计误差和控制能量消耗均最小;同时,设计了一种级联滤波干扰估计器,用于估计未知动力学与外界干扰。最后,通过李雅普诺夫稳定性分析以及模拟仿真验证,证明所设计的控制方法能够在满足位置约束的条件下,以低控制能耗实现对期望轨迹的高精度跟踪。
发明内容
(1)目的:本发明的目的在于提供一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,控制工程师可以在结合实际参数整定,按照该方法实现平流层飞艇位置受限轨迹跟踪最优控制,同时对建模不确定性和外界干扰具有一定的鲁棒性。
(2)技术方案:本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,其主要内容及步骤是:首先,建立平流层飞艇在考虑位置约束和外界干扰时的六自由度全驱动运动模型,利用罚函数状态转换,将具有约束的动力学模型转换为无约束模型;然后针对无约束模型进行鲁棒最优控制律设计,通过强化学习估计获得最优控制律,通过强化学习避免最优控制中复杂的Hamilton-Jacobi-Bellman,HJB方程求解过程,使累计控制输入和跟踪误差最小;通过级联滤波干扰观测器估计未知的建模误差和外界干扰,使控制器具有鲁棒性。在实际应用中,将导航载荷所测量的平流层飞艇的当前位置、姿态、速度等状态量输入控制器中,获得到平流层飞艇轨迹跟踪任务中所需的合力和合力矩,再通过控制解算得到动力系统的螺旋桨转速,从而使平流层飞艇具有自主轨迹跟踪能力。
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,其具体步骤如下:
步骤一 运动学和动力学模型构建:根据平流层飞艇总体布局与气动外形,采用Newton-Euler法,对平流层飞艇飞行过程进行受力分析,建立平流层飞艇六自由度运动学和动力学模型,并将其表示为状态空间方程形式。
步骤二 位置约束状态转换:考虑实际飞行中的位置约束要求,建立位置约束数学模型。给定期望轨迹,计算期望位置和当前位置之间的误差,结合位置约束设计罚函数对位置跟踪误差进行状态转换,获得无约束的位置跟踪误差动力学模型。
步骤三 位置跟踪最优控制设计:根据步骤二获得的跟踪误差动力学模型,不考虑外界干扰设计最优控制律。利用critic网络估计最优性能函数与最优控制量,以最小化估计误差为目标,设计critic网络的权重自适应更新率,获得基于最优控制输入量。
步骤四 位置跟踪鲁棒最优控制设计:根据步骤二获得的跟踪误差动力学模型,基于级联滤波设计干扰观测器,获得对模型中的不确定项的估计补偿量,结合步骤三设计的最优控制输入量与估计补偿量,获得鲁棒最优控制律,从而得到平流层飞艇动力系统所需提供的合力。
步骤五 姿态跟踪鲁棒最优控制设计:将步骤四设计的鲁棒最优控制方法应用于姿态跟踪环,获得平流层飞艇动力系统所需提供的合力矩。在实际应用中,可结合动力系统布局对合力和合力矩进行控制解算,得到螺旋桨转速,实现平流层飞艇自主跟踪期望轨迹。
其中,在步骤一中所述的运动学和动力学模型构建过程如下:
平流层飞艇由椭球形氦气囊体、尾翼、推进系统和吊舱组成,如图1所示。该构型下的平流层飞艇为全驱动动力系统,即平流层飞艇的六自由度状态量可由六个独立控制量分别控制。具体而言,囊体前部的四组主推螺旋桨可在垂直方向转动,用于提供飞艇飞行所需主推力及姿态调节所需力矩,囊体头部的调姿装置可在水平方向摆动,提供飞艇航向调节所需力矩。
为建立平流层飞艇运动模型,首先定义如下坐标系:Fe={Oe,xe,ye,ze}为惯性坐标系,原点Oe为地面观测点,Oexe沿正北方向,Oexe沿正东方向,Oeze垂直地面向下;Fc={Oc,xc,yc,zc}为艇体坐标系,原点Oc为飞艇囊体的浮心,Ocxc沿飞艇的对称面向前,Ocyc垂直于飞艇对称面向右,Oczc垂直于Ocxcyc平面向下。
平流层飞艇的运动学模型为
其中,p=(x,y,z)T为表示在惯性坐标系Fe下的飞艇位置矢量,Θ=(φ,θ,ψ)T为飞艇姿态角矢量,V=(u,v,w)T为表示在艇体坐标系Fc下的飞艇地速矢量,Ω=(p,q,r)T为表示在艇体坐标系Fc下的飞艇姿态角速度矢量,R为艇体坐标系到惯性坐标系的旋转矩阵,表示为:
K为姿态转换矩阵,表示为:
平流层飞艇的动力学模型为
其中,m为飞艇重量,rc=[xc,yc,zc]T为飞艇质心到体心的矢径,Ic=diag{Ix,Iy,Iz}为飞艇惯性张量矩阵。G=RT[0,0,mg]T为体坐标系下的重力,g为重力加速度;MG为因飞艇质心和浮心分离产生的重力矩,表示为
为体坐标系下的浮力,ρ为飞艇所在高度的大气密度,/>为飞艇总体积;由于飞艇所受浮力作用于浮心,则飞艇所受浮力矩为/>和/> 分别为飞艇所受的附加惯性力和其对于浮心产生的力矩,ma=diag{α123}和Ia=diag{α456}分别为附加质量矩阵和附加惯量矩阵,αi,i=1,2,…,6为附加惯性系数,可通过分析椭球在势流场中的力学特性得到;FA和MA分别为飞艇所受气动力和气动力矩,表示为
Va为飞艇空速,为参考面积,L为囊体直径,ρVa 2/2为动压,α为迎角,β为侧滑角,Cx(α,β,q,r)为飞艇阻力系数,Cy(β,p,r)为飞艇侧力系数,Cz(α,p,q)为飞艇升力系数,/>为飞艇滚转力矩系数,/>为飞艇俯仰力矩系数,/>为飞艇偏航力矩系数;FT=[FTx,FTy,FTz]T和MT=[MTx,MTy,MTz]T分别为飞艇所受主动控制力和主动控制力矩;FD和MD分别为由外界风扰、系统参数不确定项与囊体形变等造成的动力学效应组成的未知等效力和力矩。
整合平流层飞艇的运动学模型和动力学模型,可将平流层飞艇运动模型分为位置环运动模型和姿态环运动模型。位置环运动模型可表示为
姿态环运动模型可表示为
其中,B0=χ11 -1,/> B2=χ22 -1,χ11=diag{m+α1,m+α2,m+α3},χ22=diag{Ix4,Iy5,Iz6},
在步骤二中所述的位置约束状态转换过程如下:
定义飞艇飞行期望轨迹为pd=[xd,yd,zd]T,位置跟踪误差为根据飞艇飞行过程中的任务要求,位置跟踪误差需满足限制要求为/> 其中h为约束上限,将其设定为一个可以根据任务要求调整的正常数。
为满足位置跟踪误差约束,引入状态转换方法,定义如下新的状态量:
其中,kp为一个正常数。由该公式可以看出,若位置跟踪误差的初始值满足限制要求,即只要ξ为有界的,则可以保证/>并且当ξ=0时,/>
因此,可以将具有约束限制的位置误差动力学方程转换为新的状态误差动力学方程:
其中,为单位矩阵, B1=RB0
定义则状态误差动力学方程可写为:
其中,B=[03×3,B1],U=FT+FD
在步骤三中所述的位置跟踪最优控制设计过程如下:
定义性能指标函数为
其中,rx和ru均为正常数,/>为控制输入上限。
接下来需设计最优控制律U*(t),使得性能函数指标值最小,即优化目标为
对J*求导,可获得Hamilton-Jacobi-Bellman(HJB)方程为
两边都对U*求导,可得到最优控制律为
由于最优性能指标值难以以解析形式表示,利用自适应critic神经网络学习的方式逼近数值解。构建具有lp个神经元的critic网络,估计最优性能指标值,表示为
J1 *=wc Tχ(X)+εc
其中,为critic网络权重,χ(X)为激活函数,/>为激活函数相对于X的导数,εc为神经网络估计误差,/>为估计误差相对于X的导数。则最优性能指标和最优控制量可写为
对应的HJB方程为
则HJB误差为
求导,可得
定义设计如下辅助系统
其中,为辅助系统状态量; 为正常数,满足kp1<kp2
为最大程度利用历史信息,选择tp时刻对应的辅助系统状态量和/>用于critic网络权重更新。其中,/>表示x的最小特征值。
设计critic网络权重更新公式为
其中,rp>0,δp>0为学习率,为单位矩阵,ρp为切换函数,定义为
该切换函数的设计是为了避免控制量初始值不可行。
因此,位置跟踪最优控制律设计为
在步骤四中所述的位置跟踪鲁棒最优控制设计过程如下:
根据U=FT+FD,步骤三中已得到最优U的表达式,为获得飞艇动力系统所需提供的主动控制力FT,需对未知项FD进行估计。设计基于级联滤波的估计器为
其中,为FD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,位置跟踪鲁棒最优控制律设计为
在步骤五中所述的姿态跟踪鲁棒最优控制设计过程如下:
定义飞艇飞行期望姿态为姿态跟踪误差为/>因此,姿态误差动力学模型可写为
其中,
定义则上述姿态误差动力学模型可改写为:
其中,Ba=[03×3,B2],M=MT+MD
定义性能指标函数为
其中,ra和rm均为正常数,/>为控制输入的限制值。
接下来需设计最优控制律M*(t),使得性能函数指标值最小,即优化目标为
由于最优性能指标值难以以解析形式表示,利用自适应critic神经网络学习的方式逼近数值解。构建具有la个神经元的critic网络,估计最优性能指标值,表示为
其中,为critic网络权重估计值,χ(Xa)为激活函数。最优控制律可表示为
其中,为激活函数相对于Xa的导数。critic网络估计权重更新公式为
其中,rw>0,δa>0为学习率,ρa为切换函数,定义为
和/>为ta时刻对应的辅助系统状态量Ma和Pa,即/>ta=argmaxs∈[0,t] λ(Ma(s))。辅助系统如下所示:
其中,为辅助系统状态量; 为正常数,满足
为估计未知项MD,设计基于级联滤波的估计器为
其中,为MD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,姿态跟踪鲁棒最优控制律设计为
(3)优点及效果:
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,与现有技术比,其优点是:
1)本方法能够有效解决平流层飞艇位置受限控制问题,通过基于罚函数的状态转换方法,将受限控制问题转换为非受限控制问题,保证在跟踪控制过程中平流层飞艇位置始终在预定约束下,从而满足飞行任务要求;
2)本方法设计了一种基于强化学习的最优控制方法,避免了传统最优控制中HJB方程的复杂求解过程,可使累计控制输入和跟踪误差最小,能够有效减少动力系统能源消耗;
3)本方法中设计了一种新的基于历史信息的critic网络权重更新策略,该更新策略无需满足一般强化学习控制中所需的持续激励条件,实用性更高;
4)本方法通过基于级联滤波的估计器有效抑制了未知的建模误差和外界干扰对系统的影响,控制器具有较高鲁棒性。
附图说明
图1为本发明平流层飞艇构型及坐标系示意图;
符号说明如下:
p,p=(x,y,z)T为飞艇在惯性坐标系下的当前位置;
Θ,Θ=(φ,θ,ψ)T为飞艇的当前姿态角;
V,V=(u,v,w)T为飞艇在艇体坐标系下的当前地速;
Ω,Ω=(p,q,r)T为飞艇在艇体坐标系下的姿态角速度;
R,艇体坐标系到惯性坐标系的旋转矩阵;
K,姿态转换矩阵;
m,飞艇质量;
ma,ma=diag{α123}飞艇附加质量矩阵;
Ia,Ia=diag{α456}飞艇附加惯量矩阵;
αi,(i=1,2,…,6)飞艇附加惯性系数;
rc,rc=[xc,yc,zc]T飞艇质心到体心的矢径;
Ic,Ic=diag{Ix,Iy,Iz}飞艇惯性张量矩阵;
g,重力加速度;
rc,rc=[xc,yc,zc]T飞艇质心到体心的矢径;
ρ,飞艇所在高度的大气密度;
飞艇总体积;
S,参考面积;
L,飞艇囊体直径;
α,飞艇飞行迎角;
α,飞艇飞行侧滑角;
Va,飞艇飞行空速;
Cx,飞艇阻力系数;
Cy,飞艇侧力系数;
Cz,飞艇升力系数;
Cl,飞艇滚转力矩系数;
Cm,飞艇俯仰力矩系数;
Cn,飞艇偏航力矩系数;
G,G=RT[0,0,mg]T飞艇所受重力在艇体坐标系下的表示;
B,飞艇所受浮力在艇体坐标系下的表示;
MG,飞艇所受重力矩;
MB,飞艇所受浮力矩;
Fa,飞艇所受附加惯性力;
Ma,飞艇所受附加惯性力对于浮心产生的力矩;
FT,FT=[FTx,FTy,FTz]T飞艇所受主动控制力;
MT,MT=[MTx,MTy,MTz]T飞艇所受主动控制力矩;
FD,飞艇所受未知等效力;
MD,飞艇所受未知等效力矩;
pd,pd=[xd,yd,zd]T为飞艇在惯性坐标系下的期望位置;
为飞艇位置跟踪误差;
h,为飞艇位置跟踪约束上限;
位置环控制系数;
rx,ru,rpp,位置环神经网络学习系数;
lp,la,神经元个数;
wc,wa,神经网络权重系数;
神经网络权重系数估计值;
χ(·),神经网络激活函数;
神经网络激活函数的导数;
εca,神经网络估计误差;
神经网络估计误差的导数;
Mp,Pp,辅助系统状态量;
ρp,切换函数;
位置环控制输入上限;
为飞艇期望姿态;
为飞艇姿态跟踪误差;
姿态环控制系数;
ra,rm,rwa,姿态环神经网络学习系数;
姿态环控制输入上限;
I3,三维单位矩阵;
具体实施方式
下面对本发明中的各部分设计方法作进一步的说明:
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,其具体步骤如下:
步骤一:运动学和动力学模型构建
定义平流层飞艇运动状态量:p=(x,y,z)T为表示在惯性坐标系Fe下的飞艇位置矢量,Θ=(φ,θ,ψ)T为飞艇姿态角矢量,V=(u,v,w)T为表示在艇体坐标系Fc下的飞艇地速矢量,Ω=(p,q,r)T为表示在艇体坐标系Fc下的飞艇姿态角速度矢量。
根据坐标系变换和牛顿-欧拉方程,建立平流层飞艇的运动学模型和动力学模型,并将其整合为位置环运动模型和姿态环运动模型。位置环运动模型可表示为
姿态环运动模型可表示为
其中,R为艇体坐标系到惯性坐标系的旋转矩阵,K为姿态转换矩阵,FD和MD分别为由外界风扰、系统参数不确定项与囊体形变等造成的动力学效应组成的未知等效力和力矩, B0=χ11 -1,/> B2=χ22 -1,χ11=diag{m+α1,m+α2,m+α3},χ22=diag{Ix4,Iy5,Iz6},
/>
步骤二:位置约束状态转换
给定飞艇飞行期望轨迹为pd=[xd,yd,zd]T,求得位置跟踪误差为根据飞艇飞行过程中的任务要求,位置跟踪误差需满足限制要求为 其中h为约束上限,将其设定为一个可以根据任务要求调整的正常数。为满足位置跟踪误差约束,引入状态转换方法,定义如下新的状态量:
其中,kp为一个正常数。由该公式可以看出,若位置跟踪误差的初始值满足限制要求,即只要ξ为有界的,则可以保证/>并且当ξ=0时,/>
因此,可以将具有约束限制的位置误差动力学方程转换为新的状态误差动力学方程:
其中, 为单位矩阵, B1=RB0
定义则状态误差动力学方程可写为:
其中,B=[03×3,B1],U=FT+FD
步骤三:位置跟踪最优控制设计
针对步骤二所获得的状态误差动力学方程,设计如下最优控制律
其中,为激活函数的导数,/>为critic网络权重估计值,该值通过如下自适应更新律获得
其中,rp>0,δp>0为学习率,为单位矩阵,/>为控制输入上限,ρp为切换函数,定义为/>
和/>为tp时刻对应的辅助系统状态量Mp和Pp,即/>tp=argmaxs∈[0,t] λ(Mp(s))。辅助系统如下所示:
其中, 为正常数,满足kp1<kp2;/> rx和ru均为正常数。
步骤四:位置跟踪鲁棒最优控制设计
根据U=FT+FD,步骤三中已得到最优U的表达式,为获得飞艇动力系统所需提供的主动控制力FT,需对未知项FD进行估计。设计基于级联滤波的估计器为
其中,为FD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,位置跟踪鲁棒最优控制律设计为
步骤五:姿态跟踪鲁棒最优控制设计
定义飞艇飞行期望姿态为姿态跟踪误差为/>因此,姿态误差动力学模型可写为
其中,
定义则上述姿态误差动力学模型可改写为:
其中,Ba=[03×3,B2],M=MT+MD
针对以上姿态误差动力学方程,设计如下最优控制律
其中,为激活函数相对于Xa的导数,/>为控制输入的限制值,/>为critic网络权重估计值,该值通过如下自适应更新律获得
其中,rw>0,δa>0为学习率,ρa为切换函数,定义为
和/>为ta时刻对应的辅助系统状态量Ma和Pa,即/>ta=argmaxs∈[0,t] λ(Ma(s))。辅助系统如下所示:
其中,为辅助系统状态量;/> 为正常数,满足/> ra和rm均为正常数。
为估计未知项MD,设计基于级联滤波的估计器为
其中,为MD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,姿态跟踪鲁棒最优控制律设计为
/>

Claims (5)

1.一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于,该方法的具体步骤如下:
步骤一,运动学和动力学模型构建:根据平流层飞艇总体布局与气动外形,采用Newton-Euler法,对平流层飞艇飞行过程进行受力分析,建立平流层飞艇六自由度运动学和动力学模型,并将其表示为状态空间方程形式;
步骤二,位置约束状态转换:考虑实际飞行中的位置约束要求,建立位置约束数学模型;给定期望轨迹,计算期望位置和当前位置之间的误差,结合位置约束设计罚函数对位置跟踪误差进行状态转换,获得无约束的位置跟踪误差动力学模型;
步骤三,位置跟踪最优控制设计:根据步骤二获得的跟踪误差动力学模型,不考虑外界干扰设计最优控制律;利用critic网络估计最优性能函数与最优控制量,以最小化估计误差为目标,设计critic网络的权重自适应更新率,获得基于最优控制输入量;
步骤四,位置跟踪鲁棒最优控制设计:根据步骤二获得的跟踪误差动力学模型,基于级联滤波设计干扰观测器,获得对模型中的不确定项的估计补偿量,结合步骤三设计的最优控制输入量与估计补偿量,获得鲁棒最优控制律,从而得到平流层飞艇动力系统所需提供的合力;
步骤五,姿态跟踪鲁棒最优控制设计:将步骤四设计的鲁棒最优控制方法应用于姿态跟踪环,获得平流层飞艇动力系统所需提供的合力矩;在实际应用中,可结合动力系统布局对合力和合力矩进行控制解算,得到螺旋桨转速,实现平流层飞艇自主跟踪期望轨迹;
在步骤三中所述的位置跟踪最优控制设计,其设计步骤如下:
定义性能指标函数为
其中,rx和ru均为正常数,/>为控制输入上限;
接下来需设计最优控制律U*(t),使得性能函数指标值最小,即优化目标为
对J*求导,获得Hamilton-Jacobi-Bellman(HJB)方程为
两边都对U*求导,得到最优控制律为
利用自适应critic神经网络学习的方式逼近数值解;构建具有lp个神经元的critic网络,估计最优性能指标值,表示为J1 *=wc Tχ(X)+εc 其中,为critic网络权重向量,/>为激活函数向量,/>为激活函数相对于X的导数,εc为神经网络估计误差,/>为估计误差相对于X的导数;则最优性能指标和最优控制量为
对应的HJB方程为
则HJB误差为
求导,得
其中,⊙表示向量中对应元素相乘;定义 设计如下辅助系统
其中,为辅助系统状态量;/> kp1,kp2,/>为正常数,满足kp1<kp2
选择tp时刻对应的辅助系统状态量和/>用于critic网络权重更新;其中,tp=aegmaxs∈[0,t] λ(mp(s)),λ()表示求矩阵的最小特征值;
设计critic网络权重更新公式为
其中,rp>0,δp>0为学习率,为单位矩阵,ρp为切换函数,定义为
位置跟踪最优控制律设计为
2.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤一中所述的运动学和动力学模型构建,其步骤如下:
建立平流层飞艇运动模型,首先定义如下坐标系:Fe={Oe,xe,ye,ze}为惯性坐标系,原点Oe为地面观测点,Oexe为沿正北方向的坐标轴,Oeye为沿正东方向的坐标轴,Oeze为垂直地面向下的坐标轴;Fc={Oc,xc,yc,zc}为艇体坐标系,原点Oc为飞艇囊体的浮心,Ocxc为沿飞艇的对称面向前的坐标轴,Ocyc为垂直于飞艇对称面向右的坐标轴,Oczc为垂直于Ocxcyc平面向下的坐标轴;
平流层飞艇的运动学模型为
其中,p=(x,y,z)T为表示在惯性坐标系Fe下的飞艇位置矢量,x,y,z分别为飞艇位置投影在Oexe,Oeye,Oeze的轴向分量,Θ=(φ,θ,ψ)T为飞艇姿态角矢量,φ,θ,ψ分别为飞艇滚转角、俯仰角和偏航角,V=(u,v,w)T为表示在艇体坐标系Fc下的飞艇地速矢量,u,v,w分别为飞艇地速投影在Oexe,Oeye,Oeze的轴向分量,Ω=(p,q,r)T为表示在艇体坐标系Fc下的飞艇姿态角速度矢量,p,q,r分别为飞艇滚转角速度、俯仰角速度和偏航角速度,R为艇体坐标系到惯性坐标系的旋转矩阵,表示为:
K为姿态转换矩阵,表示为:
T为矩阵的转置符号;
平流层飞艇的动力学模型为
其中,m为飞艇重量,rc=[xc,yc,zc]T为飞艇质心到体心的矢径,xc,yc,zc分别为飞艇质心到体心的距离投影在Ocxc,Ocyc,Oczc轴向的分量,Ic=diag{Ix,Iy,Iz}为飞艇惯性张量矩阵,diag表示对角矩阵,Ix,Iy,Iz为飞艇惯性张量分量;G=RT[0,0,mg]T为体坐标系下的重力,g为重力加速度;MG为因飞艇质心和浮心分离产生的重力矩,表示为
为体坐标系下的浮力,ρ为飞艇所在高度的大气密度,/>为飞艇总体积;由于飞艇所受浮力作用于浮心,则飞艇所受浮力矩为MB=0;/> 分别为飞艇所受的附加惯性力和其对于浮心产生的力矩,ma=diag{α123}和Ia=diag{α456}分别为附加质量矩阵和附加惯量矩阵,αi,i=1,2,…,6为附加惯性系数,通过分析椭球在势流场中的力学特性得到;FA和MA分别为飞艇所受气动力和气动力矩,表示为
Va为飞艇空速合速,/>为参考面积,L为囊体直径,α为迎角,β为侧滑角,Cx(α,β,q,r)为飞艇阻力系数,Cy(β,p,r)为飞艇侧力系数,Cz(α,p,2)为飞艇升力系数,/>为飞艇滚转力矩系数,/>为飞艇俯仰力矩系数,/>为飞艇偏航力矩系数;FT=[FTx,FTy,FTz]T和MT=[MTx,MTy,MTz]T分别为飞艇所受主动控制力和主动控制力矩,FTx,FTy,FTz为主动控制力三维分量,MTx,MTy,MTz为主动控制力矩三维分量;FD和MB分别为由外界风扰、系统参数不确定项与囊体形变造成的动力学效应组成的未知等效力和力矩;
整合平流层飞艇的运动学模型和动力学模型,将平流层飞艇运动模型分为位置环运动模型和姿态环运动模型;位置环运动模型表示为
姿态环运动模型表示为
其中,B0=χ11 -1,/> B2=χ22 -1,χ11=diag{m+α1,m+α2,m+α3},χ22=diag{Ix4,Iy5,Iz6},
χ21=-χ12
3.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤二中所述的位置约束状态转换,其设计步骤如下:
定义飞艇飞行期望轨迹为pd=[xd,yd,zd]T,xd,yd,zd为期望轨迹投影在Oexe,Oeye,Oeze的轴向分量,位置跟踪误差为 为位置跟踪误差投影在Oexe,Oeye,Oeze的轴向分量;根据飞艇飞行过程中的任务要求,位置跟踪误差满足限制要求为其中h为约束上限,将其设定为一个根据任务要求调整的正常数,/>表示实数域;
为满足位置跟踪误差约束,引入状态转换方法,定义如下新的状态量:
其中,kp为一个正常数;若位置跟踪误差的初始值满足限制要求,即只要ξ为有界的,则保证/>并且当ξ(t)→0时,/>t0为初始时刻,t为当前时刻;
根据位置环运动模型(3)和状态转换公式(5),将具有约束限制的位置误差动力学方程表示为:
其中,为单位矩阵,/> B1=RB0
定义则状态误差动力学方程写为:
其中,B=[03×3,B1],U=FT+FD
4.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤四中所述的位置跟踪鲁棒最优控制设计,其设计步骤如下:
根据U=FT+FD,步骤三中已得到最优U的表达式,为获得飞艇动力系统所需提供的主动控制力FT,需对未知项FD进行估计;设计基于级联滤波的估计器为
其中,为FD的估计值,/>为以下滤波器的输出状态
其中,ζ1,ζ2为另一滤波器的输出
位置跟踪鲁棒最优控制律设计为
5.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤五中所述的姿态跟踪鲁棒最优控制设计,其设计步骤如下:
定义飞艇飞行期望姿态为 θdd分别为期望滚转角、期望俯仰角和期望偏航角,姿态跟踪误差为/> 分别为姿态跟踪误差的三维分量;根据姿态环运动模型(4),姿态误差动力学模型为
其中,
定义则上述姿态误差动力学模型(23)为:
其中,Ba=[03×3,B2],M=MT+MD
定义性能指标函数为
其中,ra和rm均为正常数,/>为控制输入的限制值;
接下来需设计最优控制律M*(t),使得性能函数指标值最小,即优化目标为
构建具有la个神经元的critic网络,估计最优性能指标值,表示为 其中,/>为critic网络权重估计值,/>为激活函数;最优控制律表示为
其中,为激活函数相对于Xa的导数;critic网络估计权重更新公式为
其中,rw>0,δa>0为学习率,ρa为切换函数,定义为
和/>为ta时刻对应的辅助系统状态量Ma和Pa,即/>ta=argmaxs∈[0,t] λ(Ma(s));辅助系统如下所示:
其中,为辅助系统状态量;/> ka1,ka2,/>为正常数,满足ka1<ka2;/>
为估计未知项MD,设计基于级联滤波的估计器为
其中,为MD的估计值,/>为以下滤波器的输出状态
其中,ζ3,ζ4为另一滤波器的输出
姿态跟踪鲁棒最优控制律设计为
CN202310411334.7A 2023-04-18 2023-04-18 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 Active CN116360497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310411334.7A CN116360497B (zh) 2023-04-18 2023-04-18 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310411334.7A CN116360497B (zh) 2023-04-18 2023-04-18 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法

Publications (2)

Publication Number Publication Date
CN116360497A CN116360497A (zh) 2023-06-30
CN116360497B true CN116360497B (zh) 2024-02-09

Family

ID=86911134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310411334.7A Active CN116360497B (zh) 2023-04-18 2023-04-18 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法

Country Status (1)

Country Link
CN (1) CN116360497B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700542A (zh) * 2016-03-30 2016-06-22 北京航空航天大学 一种基于矢量场制导和最小二乘法的平流层飞艇控制分配方法
CN110018687A (zh) * 2019-04-09 2019-07-16 大连海事大学 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN111596692A (zh) * 2020-06-09 2020-08-28 北京航空航天大学 一种平流层飞艇的环绕跟踪移动目标控制方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700542A (zh) * 2016-03-30 2016-06-22 北京航空航天大学 一种基于矢量场制导和最小二乘法的平流层飞艇控制分配方法
CN110018687A (zh) * 2019-04-09 2019-07-16 大连海事大学 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN111596692A (zh) * 2020-06-09 2020-08-28 北京航空航天大学 一种平流层飞艇的环绕跟踪移动目标控制方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于自适应动态规划的非线性鲁棒近似最优跟踪控制;洪成文;富月;;控制理论与应用(第09期);全文 *
平流层飞艇的建模与控制研究;姚舒雨;《《中国优秀硕士学位论文全文数据库》》;全文 *
平流层飞艇轨迹跟踪控制设计;郑泽伟;霍伟;;控制与决策(第10期);全文 *

Also Published As

Publication number Publication date
CN116360497A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Zheng et al. Adaptive fixed-time trajectory tracking control of a stratospheric airship
Geng et al. Cooperative transport of a slung load using load-leading control
Mueller et al. Development of an aerodynamic model and control law design for a high altitude airship
CN112241125B (zh) 一种基于微分平坦特性的无人机轨迹跟踪方法
Sebbane Lighter than air robots: guidance and control of autonomous airships
Zuo et al. Three-dimensional path-following backstepping control for an underactuated stratospheric airship
CN103488814A (zh) 一种适用于再入飞行器姿态控制的闭环仿真系统
Zhou et al. A unified control method for quadrotor tail-sitter uavs in all flight modes: Hover, transition, and level flight
Salazar-Cruz et al. Real-time stabilization of a small three-rotor aircraft
CN107491083B (zh) 一种基于饱和自适应滑模控制的四旋翼自主着船方法
Pshikhopov et al. Mathematical model of robot on base of airship
Zheng et al. Hovering control for a stratospheric airship in unknown wind
Bolandhemmat et al. Energy-optimized trajectory planning for High Altitude Long Endurance (HALE) aircraft
Moutinho Modeling and nonlinear control for airship autonomous flight
Hervas et al. Sliding mode control of fixed-wing uavs in windy environments
Panish et al. Transition trajectory optimization for a tiltwing VTOL aircraft with leading-edge fluid injection active flow control
Luo et al. Carrier-based aircraft precision landing using direct lift control based on incremental nonlinear dynamic inversion
CN116360497B (zh) 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法
Osborne Transitions between hover and level flight for a tailsitter UAV
CN116088549B (zh) 一种尾座式垂直起降无人机姿态控制方法
Zheng et al. Modeling and path-following control of a vector-driven stratospheric satellite
Lee et al. Matching trajectory optimization and nonlinear tracking control for HALE
Nemes Synopsis of soft computing techniques used in quadrotor UAV modelling and control
CN108733858B (zh) 应用于高空飞行器系统的建模方法和装置
Bestaoui et al. Some insight in path planning of small autonomous blimps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant