CN116360497B - 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 - Google Patents
一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 Download PDFInfo
- Publication number
- CN116360497B CN116360497B CN202310411334.7A CN202310411334A CN116360497B CN 116360497 B CN116360497 B CN 116360497B CN 202310411334 A CN202310411334 A CN 202310411334A CN 116360497 B CN116360497 B CN 116360497B
- Authority
- CN
- China
- Prior art keywords
- airship
- optimal control
- stratospheric
- model
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 29
- 238000013461 design Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000002775 capsule Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims 1
- 238000005265 energy consumption Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000012938 design process Methods 0.000 description 3
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 229910052734 helium Inorganic materials 0.000 description 1
- 239000001307 helium Substances 0.000 description 1
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000005437 stratosphere Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其具体步骤如下:建立平流层飞艇六自由度运动学和动力学模型,并将其表示为状态空间方程形式。给定期望轨迹计算期望位置和当前位置之间的误差,获得无约束的位置跟踪误差动力学模型。利用critic网络估计最优性能函数与最优控制量,以最小化估计误差为目标,获得基于最优控制输入量。获得对模型中的不确定项的估计补偿量,结合最优控制输入量与估计补偿量,获得鲁棒最优控制律。结合动力系统布局对合力和合力矩进行控制解算,得到螺旋桨转速,实现平流层飞艇自主跟踪期望轨迹。通过基于级联滤波的估计器有效抑制了未知的建模误差和外界干扰对系统的影响,控制器具有较高鲁棒性。
Description
技术领域
本发明提供一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,它提供一种考虑外界干扰、位置受限、控制能量消耗的平流层飞艇轨迹跟踪新控制方法,属于自动控制技术领域。
背景技术
平流层飞艇是一种飞行在海拔高度为20-30km的平流层空间的无人浮空飞行器,对于深空探测、对地观测和通信服务领域具有独特的应用价值。在深空探测方面,平流层飞艇可以在广泛的波长范围内提供类似卫星平台的观测条件。在对地观测方面,相比于飞机和卫星平台,平流层飞艇可提供更高的分辨率和更持久的观测。在通信服务方面,平流层飞艇可以作为小型通讯基站提供高速通信服务。
近年来,随着平流层飞艇科技制造技术不断发展,平流层飞艇已由研制试飞阶段逐渐走向落地应用阶段。长时稳定的驻空飞行能力是平流层飞艇实现大规模应用的前提。在驻空飞行过程中,需要充分考虑并处理飞行期间受到的多种约束问题,以增强其“驻空生存”、“广域覆盖”能力。平流层飞艇飞行控制约束主要来自于两个方面:与其他分系统耦合特性导致的控制能力约束、飞行环境与任务需求所带来位置约束。一方面,为了提高飞艇有效载荷,其自身结构与能源分系统需进行轻量化设计,在储能电池容量与动力系统能力约束下,平流层飞艇飞行时应尽可能减少能源消耗与执行机构损耗;另一方面,作为高空任务平台,在驻空飞行任务过程中,其位置需要保持在一定范围内。因此需要提出一个能够降低动力系统损耗、保证位置满足约束的平流层飞艇轨迹跟踪控制方法。
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”把以上问题作为切入点,而提出的有针对性的,解决位置受限、动力系统能源消耗限制、外界干扰下的平流层飞艇轨迹跟踪的控制理论。首先,建立具有位置约束的平流层飞艇动力学模型,设计罚函数进行状态转换,将具有约束的动力学模型转换为无约束动力学模型;然后,基于强化学习求解最优控制律,使跟踪全过程轨迹跟踪累计误差和控制能量消耗均最小;同时,设计了一种级联滤波干扰估计器,用于估计未知动力学与外界干扰。最后,通过李雅普诺夫稳定性分析以及模拟仿真验证,证明所设计的控制方法能够在满足位置约束的条件下,以低控制能耗实现对期望轨迹的高精度跟踪。
发明内容
(1)目的:本发明的目的在于提供一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,控制工程师可以在结合实际参数整定,按照该方法实现平流层飞艇位置受限轨迹跟踪最优控制,同时对建模不确定性和外界干扰具有一定的鲁棒性。
(2)技术方案:本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,其主要内容及步骤是:首先,建立平流层飞艇在考虑位置约束和外界干扰时的六自由度全驱动运动模型,利用罚函数状态转换,将具有约束的动力学模型转换为无约束模型;然后针对无约束模型进行鲁棒最优控制律设计,通过强化学习估计获得最优控制律,通过强化学习避免最优控制中复杂的Hamilton-Jacobi-Bellman,HJB方程求解过程,使累计控制输入和跟踪误差最小;通过级联滤波干扰观测器估计未知的建模误差和外界干扰,使控制器具有鲁棒性。在实际应用中,将导航载荷所测量的平流层飞艇的当前位置、姿态、速度等状态量输入控制器中,获得到平流层飞艇轨迹跟踪任务中所需的合力和合力矩,再通过控制解算得到动力系统的螺旋桨转速,从而使平流层飞艇具有自主轨迹跟踪能力。
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,其具体步骤如下:
步骤一 运动学和动力学模型构建:根据平流层飞艇总体布局与气动外形,采用Newton-Euler法,对平流层飞艇飞行过程进行受力分析,建立平流层飞艇六自由度运动学和动力学模型,并将其表示为状态空间方程形式。
步骤二 位置约束状态转换:考虑实际飞行中的位置约束要求,建立位置约束数学模型。给定期望轨迹,计算期望位置和当前位置之间的误差,结合位置约束设计罚函数对位置跟踪误差进行状态转换,获得无约束的位置跟踪误差动力学模型。
步骤三 位置跟踪最优控制设计:根据步骤二获得的跟踪误差动力学模型,不考虑外界干扰设计最优控制律。利用critic网络估计最优性能函数与最优控制量,以最小化估计误差为目标,设计critic网络的权重自适应更新率,获得基于最优控制输入量。
步骤四 位置跟踪鲁棒最优控制设计:根据步骤二获得的跟踪误差动力学模型,基于级联滤波设计干扰观测器,获得对模型中的不确定项的估计补偿量,结合步骤三设计的最优控制输入量与估计补偿量,获得鲁棒最优控制律,从而得到平流层飞艇动力系统所需提供的合力。
步骤五 姿态跟踪鲁棒最优控制设计:将步骤四设计的鲁棒最优控制方法应用于姿态跟踪环,获得平流层飞艇动力系统所需提供的合力矩。在实际应用中,可结合动力系统布局对合力和合力矩进行控制解算,得到螺旋桨转速,实现平流层飞艇自主跟踪期望轨迹。
其中,在步骤一中所述的运动学和动力学模型构建过程如下:
平流层飞艇由椭球形氦气囊体、尾翼、推进系统和吊舱组成,如图1所示。该构型下的平流层飞艇为全驱动动力系统,即平流层飞艇的六自由度状态量可由六个独立控制量分别控制。具体而言,囊体前部的四组主推螺旋桨可在垂直方向转动,用于提供飞艇飞行所需主推力及姿态调节所需力矩,囊体头部的调姿装置可在水平方向摆动,提供飞艇航向调节所需力矩。
为建立平流层飞艇运动模型,首先定义如下坐标系:Fe={Oe,xe,ye,ze}为惯性坐标系,原点Oe为地面观测点,Oexe沿正北方向,Oexe沿正东方向,Oeze垂直地面向下;Fc={Oc,xc,yc,zc}为艇体坐标系,原点Oc为飞艇囊体的浮心,Ocxc沿飞艇的对称面向前,Ocyc垂直于飞艇对称面向右,Oczc垂直于Ocxcyc平面向下。
平流层飞艇的运动学模型为
其中,p=(x,y,z)T为表示在惯性坐标系Fe下的飞艇位置矢量,Θ=(φ,θ,ψ)T为飞艇姿态角矢量,V=(u,v,w)T为表示在艇体坐标系Fc下的飞艇地速矢量,Ω=(p,q,r)T为表示在艇体坐标系Fc下的飞艇姿态角速度矢量,R为艇体坐标系到惯性坐标系的旋转矩阵,表示为:
K为姿态转换矩阵,表示为:
平流层飞艇的动力学模型为
其中,m为飞艇重量,rc=[xc,yc,zc]T为飞艇质心到体心的矢径,Ic=diag{Ix,Iy,Iz}为飞艇惯性张量矩阵。G=RT[0,0,mg]T为体坐标系下的重力,g为重力加速度;MG为因飞艇质心和浮心分离产生的重力矩,表示为
为体坐标系下的浮力,ρ为飞艇所在高度的大气密度,/>为飞艇总体积;由于飞艇所受浮力作用于浮心,则飞艇所受浮力矩为/>和/> 分别为飞艇所受的附加惯性力和其对于浮心产生的力矩,ma=diag{α1,α2,α3}和Ia=diag{α4,α5,α6}分别为附加质量矩阵和附加惯量矩阵,αi,i=1,2,…,6为附加惯性系数,可通过分析椭球在势流场中的力学特性得到;FA和MA分别为飞艇所受气动力和气动力矩,表示为
Va为飞艇空速,为参考面积,L为囊体直径,ρVa 2/2为动压,α为迎角,β为侧滑角,Cx(α,β,q,r)为飞艇阻力系数,Cy(β,p,r)为飞艇侧力系数,Cz(α,p,q)为飞艇升力系数,/>为飞艇滚转力矩系数,/>为飞艇俯仰力矩系数,/>为飞艇偏航力矩系数;FT=[FTx,FTy,FTz]T和MT=[MTx,MTy,MTz]T分别为飞艇所受主动控制力和主动控制力矩;FD和MD分别为由外界风扰、系统参数不确定项与囊体形变等造成的动力学效应组成的未知等效力和力矩。
整合平流层飞艇的运动学模型和动力学模型,可将平流层飞艇运动模型分为位置环运动模型和姿态环运动模型。位置环运动模型可表示为
姿态环运动模型可表示为
其中,B0=χ11 -1,/> B2=χ22 -1,χ11=diag{m+α1,m+α2,m+α3},χ22=diag{Ix+α4,Iy+α5,Iz+α6},
在步骤二中所述的位置约束状态转换过程如下:
定义飞艇飞行期望轨迹为pd=[xd,yd,zd]T,位置跟踪误差为根据飞艇飞行过程中的任务要求,位置跟踪误差需满足限制要求为/> 其中h为约束上限,将其设定为一个可以根据任务要求调整的正常数。
为满足位置跟踪误差约束,引入状态转换方法,定义如下新的状态量:
其中,kp为一个正常数。由该公式可以看出,若位置跟踪误差的初始值满足限制要求,即只要ξ为有界的,则可以保证/>并且当ξ=0时,/>
因此,可以将具有约束限制的位置误差动力学方程转换为新的状态误差动力学方程:
其中,为单位矩阵, B1=RB0。
定义则状态误差动力学方程可写为:
其中,B=[03×3,B1],U=FT+FD。
在步骤三中所述的位置跟踪最优控制设计过程如下:
定义性能指标函数为
其中,rx和ru均为正常数,/>为控制输入上限。
接下来需设计最优控制律U*(t),使得性能函数指标值最小,即优化目标为
对J*求导,可获得Hamilton-Jacobi-Bellman(HJB)方程为
两边都对U*求导,可得到最优控制律为
由于最优性能指标值难以以解析形式表示,利用自适应critic神经网络学习的方式逼近数值解。构建具有lp个神经元的critic网络,估计最优性能指标值,表示为
J1 *=wc Tχ(X)+εc
其中,为critic网络权重,χ(X)为激活函数,/>为激活函数相对于X的导数,εc为神经网络估计误差,/>为估计误差相对于X的导数。则最优性能指标和最优控制量可写为
对应的HJB方程为
则HJB误差为
对求导,可得
定义设计如下辅助系统
其中,为辅助系统状态量; 为正常数,满足kp1<kp2。
为最大程度利用历史信息,选择tp时刻对应的辅助系统状态量和/>用于critic网络权重更新。其中,/>表示x的最小特征值。
设计critic网络权重更新公式为
其中,rp>0,δp>0为学习率,为单位矩阵,ρp为切换函数,定义为
该切换函数的设计是为了避免控制量初始值不可行。
因此,位置跟踪最优控制律设计为
在步骤四中所述的位置跟踪鲁棒最优控制设计过程如下:
根据U=FT+FD,步骤三中已得到最优U的表达式,为获得飞艇动力系统所需提供的主动控制力FT,需对未知项FD进行估计。设计基于级联滤波的估计器为
其中,为FD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,位置跟踪鲁棒最优控制律设计为
在步骤五中所述的姿态跟踪鲁棒最优控制设计过程如下:
定义飞艇飞行期望姿态为姿态跟踪误差为/>因此,姿态误差动力学模型可写为
其中,
定义则上述姿态误差动力学模型可改写为:
其中,Ba=[03×3,B2],M=MT+MD。
定义性能指标函数为
其中,ra和rm均为正常数,/>为控制输入的限制值。
接下来需设计最优控制律M*(t),使得性能函数指标值最小,即优化目标为
由于最优性能指标值难以以解析形式表示,利用自适应critic神经网络学习的方式逼近数值解。构建具有la个神经元的critic网络,估计最优性能指标值,表示为
其中,为critic网络权重估计值,χ(Xa)为激活函数。最优控制律可表示为
其中,为激活函数相对于Xa的导数。critic网络估计权重更新公式为
其中,rw>0,δa>0为学习率,ρa为切换函数,定义为
和/>为ta时刻对应的辅助系统状态量Ma和Pa,即/>ta=argmaxs∈[0,t] λ(Ma(s))。辅助系统如下所示:
其中,为辅助系统状态量; 为正常数,满足
为估计未知项MD,设计基于级联滤波的估计器为
其中,为MD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,姿态跟踪鲁棒最优控制律设计为
(3)优点及效果:
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,与现有技术比,其优点是:
1)本方法能够有效解决平流层飞艇位置受限控制问题,通过基于罚函数的状态转换方法,将受限控制问题转换为非受限控制问题,保证在跟踪控制过程中平流层飞艇位置始终在预定约束下,从而满足飞行任务要求;
2)本方法设计了一种基于强化学习的最优控制方法,避免了传统最优控制中HJB方程的复杂求解过程,可使累计控制输入和跟踪误差最小,能够有效减少动力系统能源消耗;
3)本方法中设计了一种新的基于历史信息的critic网络权重更新策略,该更新策略无需满足一般强化学习控制中所需的持续激励条件,实用性更高;
4)本方法通过基于级联滤波的估计器有效抑制了未知的建模误差和外界干扰对系统的影响,控制器具有较高鲁棒性。
附图说明
图1为本发明平流层飞艇构型及坐标系示意图;
符号说明如下:
p,p=(x,y,z)T为飞艇在惯性坐标系下的当前位置;
Θ,Θ=(φ,θ,ψ)T为飞艇的当前姿态角;
V,V=(u,v,w)T为飞艇在艇体坐标系下的当前地速;
Ω,Ω=(p,q,r)T为飞艇在艇体坐标系下的姿态角速度;
R,艇体坐标系到惯性坐标系的旋转矩阵;
K,姿态转换矩阵;
m,飞艇质量;
ma,ma=diag{α1,α2,α3}飞艇附加质量矩阵;
Ia,Ia=diag{α4,α5,α6}飞艇附加惯量矩阵;
αi,(i=1,2,…,6)飞艇附加惯性系数;
rc,rc=[xc,yc,zc]T飞艇质心到体心的矢径;
Ic,Ic=diag{Ix,Iy,Iz}飞艇惯性张量矩阵;
g,重力加速度;
rc,rc=[xc,yc,zc]T飞艇质心到体心的矢径;
ρ,飞艇所在高度的大气密度;
飞艇总体积;
S,参考面积;
L,飞艇囊体直径;
α,飞艇飞行迎角;
α,飞艇飞行侧滑角;
Va,飞艇飞行空速;
Cx,飞艇阻力系数;
Cy,飞艇侧力系数;
Cz,飞艇升力系数;
Cl,飞艇滚转力矩系数;
Cm,飞艇俯仰力矩系数;
Cn,飞艇偏航力矩系数;
G,G=RT[0,0,mg]T飞艇所受重力在艇体坐标系下的表示;
B,飞艇所受浮力在艇体坐标系下的表示;
MG,飞艇所受重力矩;
MB,飞艇所受浮力矩;
Fa,飞艇所受附加惯性力;
Ma,飞艇所受附加惯性力对于浮心产生的力矩;
FT,FT=[FTx,FTy,FTz]T飞艇所受主动控制力;
MT,MT=[MTx,MTy,MTz]T飞艇所受主动控制力矩;
FD,飞艇所受未知等效力;
MD,飞艇所受未知等效力矩;
pd,pd=[xd,yd,zd]T为飞艇在惯性坐标系下的期望位置;
为飞艇位置跟踪误差;
h,为飞艇位置跟踪约束上限;
位置环控制系数;
rx,ru,rp,δp,位置环神经网络学习系数;
lp,la,神经元个数;
wc,wa,神经网络权重系数;
神经网络权重系数估计值;
χ(·),神经网络激活函数;
神经网络激活函数的导数;
εc,εa,神经网络估计误差;
神经网络估计误差的导数;
Mp,Pp,辅助系统状态量;
ρp,切换函数;
位置环控制输入上限;
为飞艇期望姿态;
为飞艇姿态跟踪误差;
姿态环控制系数;
ra,rm,rw,δa,姿态环神经网络学习系数;
姿态环控制输入上限;
I3,三维单位矩阵;
具体实施方式
下面对本发明中的各部分设计方法作进一步的说明:
本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”,其具体步骤如下:
步骤一:运动学和动力学模型构建
定义平流层飞艇运动状态量:p=(x,y,z)T为表示在惯性坐标系Fe下的飞艇位置矢量,Θ=(φ,θ,ψ)T为飞艇姿态角矢量,V=(u,v,w)T为表示在艇体坐标系Fc下的飞艇地速矢量,Ω=(p,q,r)T为表示在艇体坐标系Fc下的飞艇姿态角速度矢量。
根据坐标系变换和牛顿-欧拉方程,建立平流层飞艇的运动学模型和动力学模型,并将其整合为位置环运动模型和姿态环运动模型。位置环运动模型可表示为
姿态环运动模型可表示为
其中,R为艇体坐标系到惯性坐标系的旋转矩阵,K为姿态转换矩阵,FD和MD分别为由外界风扰、系统参数不确定项与囊体形变等造成的动力学效应组成的未知等效力和力矩, B0=χ11 -1,/> B2=χ22 -1,χ11=diag{m+α1,m+α2,m+α3},χ22=diag{Ix+α4,Iy+α5,Iz+α6},
/>
步骤二:位置约束状态转换
给定飞艇飞行期望轨迹为pd=[xd,yd,zd]T,求得位置跟踪误差为根据飞艇飞行过程中的任务要求,位置跟踪误差需满足限制要求为 其中h为约束上限,将其设定为一个可以根据任务要求调整的正常数。为满足位置跟踪误差约束,引入状态转换方法,定义如下新的状态量:
其中,kp为一个正常数。由该公式可以看出,若位置跟踪误差的初始值满足限制要求,即只要ξ为有界的,则可以保证/>并且当ξ=0时,/>
因此,可以将具有约束限制的位置误差动力学方程转换为新的状态误差动力学方程:
其中, 为单位矩阵, B1=RB0。
定义则状态误差动力学方程可写为:
其中,B=[03×3,B1],U=FT+FD。
步骤三:位置跟踪最优控制设计
针对步骤二所获得的状态误差动力学方程,设计如下最优控制律
其中,为激活函数的导数,/>为critic网络权重估计值,该值通过如下自适应更新律获得
其中,rp>0,δp>0为学习率,为单位矩阵,/>为控制输入上限,ρp为切换函数,定义为/>
和/>为tp时刻对应的辅助系统状态量Mp和Pp,即/>tp=argmaxs∈[0,t] λ(Mp(s))。辅助系统如下所示:
其中, 为正常数,满足kp1<kp2;/> rx和ru均为正常数。
步骤四:位置跟踪鲁棒最优控制设计
根据U=FT+FD,步骤三中已得到最优U的表达式,为获得飞艇动力系统所需提供的主动控制力FT,需对未知项FD进行估计。设计基于级联滤波的估计器为
其中,为FD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,位置跟踪鲁棒最优控制律设计为
步骤五:姿态跟踪鲁棒最优控制设计
定义飞艇飞行期望姿态为姿态跟踪误差为/>因此,姿态误差动力学模型可写为
其中,
定义则上述姿态误差动力学模型可改写为:
其中,Ba=[03×3,B2],M=MT+MD。
针对以上姿态误差动力学方程,设计如下最优控制律
其中,为激活函数相对于Xa的导数,/>为控制输入的限制值,/>为critic网络权重估计值,该值通过如下自适应更新律获得
其中,rw>0,δa>0为学习率,ρa为切换函数,定义为
和/>为ta时刻对应的辅助系统状态量Ma和Pa,即/>ta=argmaxs∈[0,t] λ(Ma(s))。辅助系统如下所示:
其中,为辅助系统状态量;/> 为正常数,满足/> ra和rm均为正常数。
为估计未知项MD,设计基于级联滤波的估计器为
其中,为MD的估计值,/>为以下滤波器的输出状态
其中, 为另一滤波器的输出
因此,姿态跟踪鲁棒最优控制律设计为
/>
Claims (5)
1.一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于,该方法的具体步骤如下:
步骤一,运动学和动力学模型构建:根据平流层飞艇总体布局与气动外形,采用Newton-Euler法,对平流层飞艇飞行过程进行受力分析,建立平流层飞艇六自由度运动学和动力学模型,并将其表示为状态空间方程形式;
步骤二,位置约束状态转换:考虑实际飞行中的位置约束要求,建立位置约束数学模型;给定期望轨迹,计算期望位置和当前位置之间的误差,结合位置约束设计罚函数对位置跟踪误差进行状态转换,获得无约束的位置跟踪误差动力学模型;
步骤三,位置跟踪最优控制设计:根据步骤二获得的跟踪误差动力学模型,不考虑外界干扰设计最优控制律;利用critic网络估计最优性能函数与最优控制量,以最小化估计误差为目标,设计critic网络的权重自适应更新率,获得基于最优控制输入量;
步骤四,位置跟踪鲁棒最优控制设计:根据步骤二获得的跟踪误差动力学模型,基于级联滤波设计干扰观测器,获得对模型中的不确定项的估计补偿量,结合步骤三设计的最优控制输入量与估计补偿量,获得鲁棒最优控制律,从而得到平流层飞艇动力系统所需提供的合力;
步骤五,姿态跟踪鲁棒最优控制设计:将步骤四设计的鲁棒最优控制方法应用于姿态跟踪环,获得平流层飞艇动力系统所需提供的合力矩;在实际应用中,可结合动力系统布局对合力和合力矩进行控制解算,得到螺旋桨转速,实现平流层飞艇自主跟踪期望轨迹;
在步骤三中所述的位置跟踪最优控制设计,其设计步骤如下:
定义性能指标函数为
其中,rx和ru均为正常数,/>为控制输入上限;
接下来需设计最优控制律U*(t),使得性能函数指标值最小,即优化目标为
对J*求导,获得Hamilton-Jacobi-Bellman(HJB)方程为
两边都对U*求导,得到最优控制律为
利用自适应critic神经网络学习的方式逼近数值解;构建具有lp个神经元的critic网络,估计最优性能指标值,表示为J1 *=wc Tχ(X)+εc, 其中,为critic网络权重向量,/>为激活函数向量,/>为激活函数相对于X的导数,εc为神经网络估计误差,/>为估计误差相对于X的导数;则最优性能指标和最优控制量为
对应的HJB方程为
则HJB误差为
对求导,得
其中,⊙表示向量中对应元素相乘;定义 设计如下辅助系统
其中,为辅助系统状态量;/> kp1,kp2,/>为正常数,满足kp1<kp2;
选择tp时刻对应的辅助系统状态量和/>用于critic网络权重更新;其中,tp=aegmaxs∈[0,t] λ(mp(s)),λ()表示求矩阵的最小特征值;
设计critic网络权重更新公式为
其中,rp>0,δp>0为学习率,为单位矩阵,ρp为切换函数,定义为
位置跟踪最优控制律设计为
2.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤一中所述的运动学和动力学模型构建,其步骤如下:
建立平流层飞艇运动模型,首先定义如下坐标系:Fe={Oe,xe,ye,ze}为惯性坐标系,原点Oe为地面观测点,Oexe为沿正北方向的坐标轴,Oeye为沿正东方向的坐标轴,Oeze为垂直地面向下的坐标轴;Fc={Oc,xc,yc,zc}为艇体坐标系,原点Oc为飞艇囊体的浮心,Ocxc为沿飞艇的对称面向前的坐标轴,Ocyc为垂直于飞艇对称面向右的坐标轴,Oczc为垂直于Ocxcyc平面向下的坐标轴;
平流层飞艇的运动学模型为
其中,p=(x,y,z)T为表示在惯性坐标系Fe下的飞艇位置矢量,x,y,z分别为飞艇位置投影在Oexe,Oeye,Oeze的轴向分量,Θ=(φ,θ,ψ)T为飞艇姿态角矢量,φ,θ,ψ分别为飞艇滚转角、俯仰角和偏航角,V=(u,v,w)T为表示在艇体坐标系Fc下的飞艇地速矢量,u,v,w分别为飞艇地速投影在Oexe,Oeye,Oeze的轴向分量,Ω=(p,q,r)T为表示在艇体坐标系Fc下的飞艇姿态角速度矢量,p,q,r分别为飞艇滚转角速度、俯仰角速度和偏航角速度,R为艇体坐标系到惯性坐标系的旋转矩阵,表示为:
K为姿态转换矩阵,表示为:
T为矩阵的转置符号;
平流层飞艇的动力学模型为
其中,m为飞艇重量,rc=[xc,yc,zc]T为飞艇质心到体心的矢径,xc,yc,zc分别为飞艇质心到体心的距离投影在Ocxc,Ocyc,Oczc轴向的分量,Ic=diag{Ix,Iy,Iz}为飞艇惯性张量矩阵,diag表示对角矩阵,Ix,Iy,Iz为飞艇惯性张量分量;G=RT[0,0,mg]T为体坐标系下的重力,g为重力加速度;MG为因飞艇质心和浮心分离产生的重力矩,表示为
为体坐标系下的浮力,ρ为飞艇所在高度的大气密度,/>为飞艇总体积;由于飞艇所受浮力作用于浮心,则飞艇所受浮力矩为MB=0;/> 和分别为飞艇所受的附加惯性力和其对于浮心产生的力矩,ma=diag{α1,α2,α3}和Ia=diag{α4,α5,α6}分别为附加质量矩阵和附加惯量矩阵,αi,i=1,2,…,6为附加惯性系数,通过分析椭球在势流场中的力学特性得到;FA和MA分别为飞艇所受气动力和气动力矩,表示为
Va为飞艇空速合速,/>为参考面积,L为囊体直径,α为迎角,β为侧滑角,Cx(α,β,q,r)为飞艇阻力系数,Cy(β,p,r)为飞艇侧力系数,Cz(α,p,2)为飞艇升力系数,/>为飞艇滚转力矩系数,/>为飞艇俯仰力矩系数,/>为飞艇偏航力矩系数;FT=[FTx,FTy,FTz]T和MT=[MTx,MTy,MTz]T分别为飞艇所受主动控制力和主动控制力矩,FTx,FTy,FTz为主动控制力三维分量,MTx,MTy,MTz为主动控制力矩三维分量;FD和MB分别为由外界风扰、系统参数不确定项与囊体形变造成的动力学效应组成的未知等效力和力矩;
整合平流层飞艇的运动学模型和动力学模型,将平流层飞艇运动模型分为位置环运动模型和姿态环运动模型;位置环运动模型表示为
姿态环运动模型表示为
其中,B0=χ11 -1,/> B2=χ22 -1,χ11=diag{m+α1,m+α2,m+α3},χ22=diag{Ix+α4,Iy+α5,Iz+α6},
χ21=-χ12,
3.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤二中所述的位置约束状态转换,其设计步骤如下:
定义飞艇飞行期望轨迹为pd=[xd,yd,zd]T,xd,yd,zd为期望轨迹投影在Oexe,Oeye,Oeze的轴向分量,位置跟踪误差为 为位置跟踪误差投影在Oexe,Oeye,Oeze的轴向分量;根据飞艇飞行过程中的任务要求,位置跟踪误差满足限制要求为其中h为约束上限,将其设定为一个根据任务要求调整的正常数,/>表示实数域;
为满足位置跟踪误差约束,引入状态转换方法,定义如下新的状态量:
其中,kp为一个正常数;若位置跟踪误差的初始值满足限制要求,即只要ξ为有界的,则保证/>并且当ξ(t)→0时,/>t0为初始时刻,t为当前时刻;
根据位置环运动模型(3)和状态转换公式(5),将具有约束限制的位置误差动力学方程表示为:
其中,为单位矩阵,/> B1=RB0;
定义则状态误差动力学方程写为:
其中,B=[03×3,B1],U=FT+FD。
4.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤四中所述的位置跟踪鲁棒最优控制设计,其设计步骤如下:
根据U=FT+FD,步骤三中已得到最优U的表达式,为获得飞艇动力系统所需提供的主动控制力FT,需对未知项FD进行估计;设计基于级联滤波的估计器为
其中,为FD的估计值,/>为以下滤波器的输出状态
其中,ζ1,ζ2为另一滤波器的输出
位置跟踪鲁棒最优控制律设计为
5.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法,其特征在于:在步骤五中所述的姿态跟踪鲁棒最优控制设计,其设计步骤如下:
定义飞艇飞行期望姿态为 θd,ψd分别为期望滚转角、期望俯仰角和期望偏航角,姿态跟踪误差为/> 分别为姿态跟踪误差的三维分量;根据姿态环运动模型(4),姿态误差动力学模型为
其中,
定义则上述姿态误差动力学模型(23)为:
其中,Ba=[03×3,B2],M=MT+MD;
定义性能指标函数为
其中,ra和rm均为正常数,/>为控制输入的限制值;
接下来需设计最优控制律M*(t),使得性能函数指标值最小,即优化目标为
构建具有la个神经元的critic网络,估计最优性能指标值,表示为 其中,/>为critic网络权重估计值,/>为激活函数;最优控制律表示为
其中,为激活函数相对于Xa的导数;critic网络估计权重更新公式为
其中,rw>0,δa>0为学习率,ρa为切换函数,定义为
和/>为ta时刻对应的辅助系统状态量Ma和Pa,即/>ta=argmaxs∈[0,t] λ(Ma(s));辅助系统如下所示:
其中,为辅助系统状态量;/> ka1,ka2,/>为正常数,满足ka1<ka2;/>
为估计未知项MD,设计基于级联滤波的估计器为
其中,为MD的估计值,/>为以下滤波器的输出状态
其中,ζ3,ζ4为另一滤波器的输出
姿态跟踪鲁棒最优控制律设计为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310411334.7A CN116360497B (zh) | 2023-04-18 | 2023-04-18 | 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310411334.7A CN116360497B (zh) | 2023-04-18 | 2023-04-18 | 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116360497A CN116360497A (zh) | 2023-06-30 |
CN116360497B true CN116360497B (zh) | 2024-02-09 |
Family
ID=86911134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310411334.7A Active CN116360497B (zh) | 2023-04-18 | 2023-04-18 | 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116360497B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105700542A (zh) * | 2016-03-30 | 2016-06-22 | 北京航空航天大学 | 一种基于矢量场制导和最小二乘法的平流层飞艇控制分配方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN111596692A (zh) * | 2020-06-09 | 2020-08-28 | 北京航空航天大学 | 一种平流层飞艇的环绕跟踪移动目标控制方法及系统 |
-
2023
- 2023-04-18 CN CN202310411334.7A patent/CN116360497B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105700542A (zh) * | 2016-03-30 | 2016-06-22 | 北京航空航天大学 | 一种基于矢量场制导和最小二乘法的平流层飞艇控制分配方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN111596692A (zh) * | 2020-06-09 | 2020-08-28 | 北京航空航天大学 | 一种平流层飞艇的环绕跟踪移动目标控制方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于自适应动态规划的非线性鲁棒近似最优跟踪控制;洪成文;富月;;控制理论与应用(第09期);全文 * |
平流层飞艇的建模与控制研究;姚舒雨;《《中国优秀硕士学位论文全文数据库》》;全文 * |
平流层飞艇轨迹跟踪控制设计;郑泽伟;霍伟;;控制与决策(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116360497A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Adaptive fixed-time trajectory tracking control of a stratospheric airship | |
Geng et al. | Cooperative transport of a slung load using load-leading control | |
Mueller et al. | Development of an aerodynamic model and control law design for a high altitude airship | |
CN112241125B (zh) | 一种基于微分平坦特性的无人机轨迹跟踪方法 | |
Sebbane | Lighter than air robots: guidance and control of autonomous airships | |
Zuo et al. | Three-dimensional path-following backstepping control for an underactuated stratospheric airship | |
CN103488814A (zh) | 一种适用于再入飞行器姿态控制的闭环仿真系统 | |
Zhou et al. | A unified control method for quadrotor tail-sitter uavs in all flight modes: Hover, transition, and level flight | |
Salazar-Cruz et al. | Real-time stabilization of a small three-rotor aircraft | |
CN107491083B (zh) | 一种基于饱和自适应滑模控制的四旋翼自主着船方法 | |
Pshikhopov et al. | Mathematical model of robot on base of airship | |
Zheng et al. | Hovering control for a stratospheric airship in unknown wind | |
Bolandhemmat et al. | Energy-optimized trajectory planning for High Altitude Long Endurance (HALE) aircraft | |
Moutinho | Modeling and nonlinear control for airship autonomous flight | |
Hervas et al. | Sliding mode control of fixed-wing uavs in windy environments | |
Panish et al. | Transition trajectory optimization for a tiltwing VTOL aircraft with leading-edge fluid injection active flow control | |
Luo et al. | Carrier-based aircraft precision landing using direct lift control based on incremental nonlinear dynamic inversion | |
CN116360497B (zh) | 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法 | |
Osborne | Transitions between hover and level flight for a tailsitter UAV | |
CN116088549B (zh) | 一种尾座式垂直起降无人机姿态控制方法 | |
Zheng et al. | Modeling and path-following control of a vector-driven stratospheric satellite | |
Lee et al. | Matching trajectory optimization and nonlinear tracking control for HALE | |
Nemes | Synopsis of soft computing techniques used in quadrotor UAV modelling and control | |
CN108733858B (zh) | 应用于高空飞行器系统的建模方法和装置 | |
Bestaoui et al. | Some insight in path planning of small autonomous blimps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |