CN114578838A - 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法 - Google Patents

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法 Download PDF

Info

Publication number
CN114578838A
CN114578838A CN202210194932.9A CN202210194932A CN114578838A CN 114578838 A CN114578838 A CN 114578838A CN 202210194932 A CN202210194932 A CN 202210194932A CN 114578838 A CN114578838 A CN 114578838A
Authority
CN
China
Prior art keywords
network
aircraft
critic
channel
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210194932.9A
Other languages
English (en)
Other versions
CN114578838B (zh
Inventor
韦常柱
浦甲伦
刘哲
朱光楠
徐世昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Zhuyu Aerospace Technology Co ltd
Original Assignee
Harbin Zhuyu Aerospace Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Zhuyu Aerospace Technology Co ltd filed Critical Harbin Zhuyu Aerospace Technology Co ltd
Priority to CN202210194932.9A priority Critical patent/CN114578838B/zh
Publication of CN114578838A publication Critical patent/CN114578838A/zh
Application granted granted Critical
Publication of CN114578838B publication Critical patent/CN114578838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Abstract

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,属于飞行器控制技术领域。方法如下:得到飞行器姿态控制模型;设计反馈控制律实现基本的姿态控制功能;构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,对智能体进行强化学习,使智能体可根据不同飞行环境,对反馈控制律参数进行自适应调节;将得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。本发明减小构型不同下姿态角指令差异对控制系统的影响;消除构型差异对模型的影响,提高控制系统的适应能力;提高控制系统适应构型差异的能力。

Description

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法
技术领域
本发明涉及一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,属于飞行器控制技术领域。
背景技术
传统飞行器的控制系统设计往往仅针对某种构型与飞行环境进行,在构型与飞行环境发生变化的条件下需要重新设计与调试,增加了设计工作量,因此需要开发一种能够适应于多种飞行器构型的控制方法。
发明内容
为解决背景技术中存在的问题,本发明提供一种适应多种构型飞行器的强化学习自抗扰姿态控制方法。
实现上述目的,本发明采取下述技术方案:一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,所述方法包括如下步骤:
S1:构建飞行器姿态动力学模型,采用输入-输出线性化方法得到飞行器姿态控制模型;
S2:对于飞行器俯仰通道、偏航通道以及滚转通道三个通道,分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出,设计反馈控制律实现基本的姿态控制功能;
S3:构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,利用Soft Actor-Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境,对S2中反馈控制律参数进行自适应调节;
S4:将S3中得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,利用Soft Actor-Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。
与现有技术相比,本发明的有益效果是:
本发明采用跟踪微分器对指令安排过渡过程,减小构型不同下,姿态角指令差异对控制系统的影响;将构型差异及飞行环境变化对控制系统的影响归结为总扰动,采用扩张状态观测器对其进行观测与补偿,从而消除构型差异对模型的影响,提高控制系统的适应能力;构建可调节控制系统参数的智能体,采用Soft Actor-Critic算法,充分利用不同构型的数据对智能体进行强化学习,训练智能体调节自抗扰控制参数,实现适应不同构型的姿态控制器设计,进一步提高控制系统适应构型差异的能力。
附图说明
图1是本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,所述方法包括如下步骤:
S1:构建飞行器姿态动力学模型,采用输入-输出线性化方法得到飞行器姿态控制模型;
S101:基于绕质心转动动力学和姿态运动学,构建飞行器姿态动力学模型如下:
Figure BDA0003526858350000031
式(1)中:
Figure BDA0003526858350000032
为Ω关于时间的一阶导数;
Figure BDA0003526858350000033
为飞行器的姿态角矢量;
Figure BDA0003526858350000034
为俯仰角;
ψ为偏航角;
γ为滚转角;
R为姿态转换矩阵,
Figure BDA0003526858350000035
Figure BDA0003526858350000036
为ω关于时间的一阶导数;
ω=[ωxyz]为飞行器的姿态角速度矢量;
ωx为滚转角速度;
ωy为偏航角速度;
ωz为俯仰角速度;
J为飞行器的转动惯量矩阵,且
Figure BDA0003526858350000037
Jxx为飞行器绕x轴的转动惯量;
Jyy为飞行器绕y轴的转动惯量;
Jzz为飞行器绕z轴的转动惯量;
Jxy,Jxz,Jyz为惯性积;
B1为控制力矩系数矩阵;
δ=[δxyz]表示控制输入量;
δx为副翼的偏转角;
δy为方向舵的偏转角;
δz为升降舵的偏转角;
d=[dx,dy,dz]为气动力矩与干扰力矩项;
dx为作用在滚转方向的气动力矩与干扰力矩项;
dy为作用在偏航方向的气动力矩与干扰力矩项;
dz为作用在俯仰方向的气动力矩与干扰力矩项;
S102:采用输入-输出线性化方法,对式(1)进行线性化,可得:
Figure BDA0003526858350000041
式(2)中:
Figure BDA0003526858350000042
为Ω关于时间的二阶导数;
Figure BDA0003526858350000043
为R关于时间的一阶导数;
S103:定义状态量
Figure BDA0003526858350000044
将式(2)转化为:
Figure BDA0003526858350000045
式(3)中:
u为控制量,且u=RJ-1B1δ=[ux,uy,uz];
ux为滚转方向控制量;
uy为偏航方向控制量;
uz为俯仰方向控制量;
Figure BDA0003526858350000051
为x1关于时间的一阶导数;
Figure BDA0003526858350000052
为x2关于时间的一阶导数;
H为总扰动,且
Figure BDA0003526858350000053
H1为滚转方向总扰动量;
H2为偏航方向总扰动量;
H3为俯仰方向总扰动量。
S2:对于飞行器俯仰通道、偏航通道以及滚转通道三个通道,分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出,设计反馈控制律实现基本的姿态控制功能;
S201:设定飞行器姿态角变化指令:
Ωc=[Ωczcyxz] (4)
式(4)中:
Ωcz为俯仰通道指令;
Ωcy为偏航通道指令;
Ωxz为滚转通道指令;
定义姿态角跟踪误差为:
Figure BDA0003526858350000054
式(5)中:
Figure BDA0003526858350000055
为俯仰角跟踪误差;
X为偏航角跟踪误差;
X为滚转角跟踪误差:
S202:设计仰通道的跟踪微分器如下:
Figure 100002_1
式(6)中:
r>0为速度因子;
h0>0为滤波因子;
a、a0、a1、a2、y、s、fh均为中间量;
sign(·)为符号函数;
v1z为跟踪微分器对俯仰通道指令Ωcz安排过渡过程后的输出值;
v2z为跟踪微分器对俯仰通道指令对时间一阶导数
Figure BDA0003526858350000062
的估计值;
偏航通道以及滚转通道所采用的跟踪微分器与俯仰通道形式相同,因此可得俯仰通道、偏航通道与滚转通道的跟踪微分器输出定义为 v1=[v1z,v1y,v1x],v2=[v2z,v2y,v2x];
S202设计俯仰通道的扩张状态观测器如下:
Figure BDA0003526858350000063
式(7)中:
χ1z为对
Figure BDA0003526858350000064
的估计;
χ2z为对
Figure BDA0003526858350000065
的估计;
χ3z为对H3的估计;
β010203均为扩张状态观测器的增益系数;
fez,fez1均为中间量;
ο>0为线性段的长度;
偏航通道以及滚转通道所采用的扩张状态观测器与俯仰通道形式相同,因此,俯仰通道、偏航通道与滚转通道的扩张状态观测器输出定义为χ1=[χ1z1y1x],χ2=[χ2z2y2x],χ3=[χ3z3y3x];
S203:设计俯仰通道的反馈控制律如下:
Figure BDA0003526858350000071
式(8)中:
λ1z2z均为中间量;
kp与kd为增益系数;
Figure BDA0003526858350000072
为控制输出;
偏航通道以及滚转通道所采用的反馈控制律形式与俯仰通道相同。
S3:构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,利用Soft Actor-Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境,对S2中反馈控制律参数进行自适应调节;
S301:初始化强化学习交互环境为第一类构型的飞行器,强化俯仰通道学习交互环境,包括:总观测量oT、动作量aT和奖励函数,具体如下:
1)每一个仿真时间步t的观测量为
Figure BDA0003526858350000073
其中:
Figure BDA0003526858350000074
为飞行器高度;
Ma为飞行器的马赫数:
总观测量oT={ot-3,ot-2,ot-1,ot};
需要说明的是,总观测量oT设计为连续4个仿真时间步观测量ot-3,ot-2,ot-1,ot的叠加,这种设计可以减小观测噪声对算法的影响,提高算法的稳定性;
2)动作量为aT={Δβ01,Δβ02,Δβ03,Δkp,Δkd},
其中:
β010203均为扩张状态观测器的增益系数;
Δkp,Δkd为反馈控制律中增益系数kp,kd的增量;
3)奖励函数定义为rT=r1+r2
其中:
r1为与姿态控制误差相关的损失函数,且
Figure BDA0003526858350000081
其中:κ12为损失函数的增益系数,且κ12均设定为负数,用来惩罚姿态角和角速率的控制误差;
r2为姿态控制误差小于0.1°时给予的正奖励,r2≥0;
Figure BDA0003526858350000082
则r2=P,
Figure BDA0003526858350000083
则r2=0,
其中:
ε1为理想的控制精度;
P为正奖励的设定值;
S302:强化学习中的智能体的三个神经网络,包括:Actor网络μθ(oT)、 Critic_1网络
Figure BDA0003526858350000084
以及Critic_2网络
Figure BDA0003526858350000085
其中:
Actor网络的输入为总观测量oT,输出为动作量aT
Critic_1网络以及Critic_2网络的输入均为总观测量oT和动作量aT,输出均为智能体采取动作量aT后所得到的累积奖励的期望值;
需要说明的是,Critic_2网络的引入可降低单一Critic网络对累积奖励的期望值的过度估计,从而提高算法的准确度;
设置Critic_1网络以及Critic_2网络的结构相同,随机初始化Actor 网络的参数θμ,Critic_1网络的参数
Figure BDA0003526858350000091
令Critic_2网络的参数
Figure BDA0003526858350000092
定义强化学习最大次数为Nmax,初始化强化学习次数Nstep=1;
S303:对于每一个仿真时间步t,采集飞行器俯仰角跟踪误差、俯仰角速度、高度及马赫数,计算每一个仿真时间步t的观测量
Figure BDA0003526858350000093
及总观测量oT;将总观测量oT输入Actor网络中,得到动作量 aT={Δβ01,Δβ02,Δβ03,Δkp,Δkd};根据动作量调节扩张状态观测器及反馈控制律的参数,仿真时间向前推进一步,得到下一个时间步的观测量oT+1,并根据S301 中定义计算奖励函数rT
S304:将总观测量oT,动作量aT,下一个时间步的观测量oT+1,奖励函数rT存入经验回放池
Figure BDA0003526858350000094
中;待经验回放池
Figure BDA0003526858350000095
中四元组数目达到100000个,转到 S305,否则继续进行S303;
S305:自经验回放池
Figure BDA0003526858350000096
中取出M个四元组,记为
Figure BDA0003526858350000097
以及
Figure BDA0003526858350000098
其中:1≤i≤M 为
Figure BDA0003526858350000099
中的第i个四元组;将
Figure BDA00035268583500000910
中下一个时间步的观测量oT+1输入Actor网络中,得Actor网络输出量
Figure BDA00035268583500000911
将下一个时间步的观测量oT+1与Actor网络输出量
Figure BDA00035268583500000912
分别输入Critic_1网络与Critic_2网络,得Critic_1网络输出量
Figure BDA00035268583500000913
Critic_2网络输出量
Figure BDA00035268583500000914
S306:计算
Figure BDA00035268583500000915
其中:y1为Actor网络的损失函数,y2为Critic_1网络及Critic_2网络的损失函数, min(Q1i,Q2i)为Q1i与Q2i的最小值,
Figure BDA00035268583500000916
为采用Actor网络时,输入为oT+1,输出为
Figure BDA0003526858350000101
的对数概率;α>0表示熵探索因子;
S307:以最小化
Figure BDA0003526858350000102
为目标,采用梯度下降方法更新Critic_1网络的参数
Figure BDA0003526858350000103
以最小化
Figure BDA0003526858350000104
为目标,采用梯度下降方法更新Critic_2 网络的参数
Figure BDA0003526858350000105
以最大化y1为目标,采用梯度上升方法更新Actor网络的参数θμ
S308:强化学习次数Nstep增加一次,若Nstep<Nmax返回S303,否则结束强化学习,保存Actor网络、Critic_1网络及Critic_2网络进入S4。
S4:将S3中得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,利用Soft Actor-Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。
S401:载入Actor网络、Critic_1网络及Critic_2网络,作为智能体初始值;
S402:初始化强化学习交互环境为第二类构型的飞行器,采用S303-S308 的方式进行Soft Actor-Critic强化学习,训练智能体;
S403:保存S402强化学习所得智能体,上述智能体可同时适应面对称构型与轴对称构型的飞行器,实现在不同飞行环境下对扩张状态观测器中增益系数及反馈控制律中增益系数的调节。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:所述方法包括如下步骤:
S1:构建飞行器姿态动力学模型,采用输入-输出线性化方法得到飞行器姿态控制模型;
S2:对于飞行器俯仰通道、偏航通道以及滚转通道三个通道,分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出,设计反馈控制律实现基本的姿态控制功能;
S3:构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,利用SoftActor-Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境,对S2中反馈控制律参数进行自适应调节;
S4:将S3中得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,利用SoftActor-Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。
2.根据权利要求1所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:S1所述包括如下步骤:
S101:基于绕质心转动动力学和姿态运动学,构建飞行器姿态动力学模型如下:
Figure FDA0003526858340000011
式(1)中:
Figure FDA0003526858340000012
为Ω关于时间的一阶导数;
Figure FDA0003526858340000013
为飞行器的姿态角矢量;
Figure FDA0003526858340000021
为俯仰角;
ψ为偏航角;
γ为滚转角;
R为姿态转换矩阵,
Figure FDA0003526858340000022
Figure FDA0003526858340000023
为ω关于时间的一阶导数;
ω=[ωxyz]为飞行器的姿态角速度矢量;
ωx为滚转角速度;
ωy为偏航角速度;
ωz为俯仰角速度;
J为飞行器的转动惯量矩阵,且
Figure FDA0003526858340000024
Jxx为飞行器绕x轴的转动惯量;
Jyy为飞行器绕y轴的转动惯量;
Jzz为飞行器绕z轴的转动惯量;
Jxy,Jxz,Jyz为惯性积;
B1为控制力矩系数矩阵;
δ=[δxyz]表示控制输入量;
δx为副翼的偏转角;
δy为方向舵的偏转角;
δz为升降舵的偏转角;
d=[dx,dy,dz]为气动力矩与干扰力矩项;
dx为作用在滚转方向的气动力矩与干扰力矩项;
dy为作用在偏航方向的气动力矩与干扰力矩项;
dz为作用在俯仰方向的气动力矩与干扰力矩项;
S102:采用输入-输出线性化方法,对式(1)进行线性化,可得:
Figure FDA0003526858340000031
式(2)中:
Figure FDA0003526858340000032
为Ω关于时间的二阶导数;
Figure FDA0003526858340000033
为R关于时间的一阶导数;
S103:定义状态量
Figure FDA0003526858340000034
将式(2)转化为:
Figure FDA0003526858340000035
式(3)中:
u为控制量,且u=RJ-1B1δ=[ux,uy,uz];
ux为滚转方向控制量;
uy为偏航方向控制量;
uz为俯仰方向控制量;
Figure FDA0003526858340000036
为x1关于时间的一阶导数;
Figure FDA0003526858340000037
为x2关于时间的一阶导数;
H为总扰动,且
Figure FDA0003526858340000038
H1为滚转方向总扰动量;
H2为偏航方向总扰动量;
H3为俯仰方向总扰动量。
3.根据权利要求2所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:所述S2包括如下步骤:
S201:设定飞行器姿态角变化指令:
Ωc=[Ωczcyxz] (4)
式(4)中:
Ωcz为俯仰通道指令;
Ωcy为偏航通道指令;
Ωxz为滚转通道指令;
定义姿态角跟踪误差为:
Figure FDA0003526858340000041
式(5)中:
Figure FDA0003526858340000042
为俯仰角跟踪误差;
Figure FDA0003526858340000043
为偏航角跟踪误差;
X为滚转角跟踪误差:
S202:设计仰通道的跟踪微分器如下:
Figure 1
式(6)中:
r>0为速度因子;
h0>0为滤波因子;
a、a0、a1、a2、y、s、fh均为中间量;
sign(·)为符号函数;
v1z为跟踪微分器对俯仰通道指令Ωcz安排过渡过程后的输出值;
v2z为跟踪微分器对俯仰通道指令对时间一阶导数
Figure FDA0003526858340000051
的估计值;
偏航通道以及滚转通道所采用的跟踪微分器与俯仰通道形式相同,因此可得俯仰通道、偏航通道与滚转通道的跟踪微分器输出定义为v1=[v1z,v1y,v1x],v2=[v2z,v2y,v2x];
S202设计俯仰通道的扩张状态观测器如下:
Figure FDA0003526858340000052
式(7)中:
χ1z为对
Figure FDA0003526858340000053
的估计;
χ2z为对
Figure FDA0003526858340000054
的估计;
χ3z为对H3的估计;
β010203均为扩张状态观测器的增益系数;
fez,fez1均为中间量;
ο>0为线性段的长度;
偏航通道以及滚转通道所采用的扩张状态观测器与俯仰通道形式相同,因此,俯仰通道、偏航通道与滚转通道的扩张状态观测器输出定义为χ1=[χ1z1y1x],χ2=[χ2z2y2x],χ3=[χ3z3y3x];
S203:设计俯仰通道的反馈控制律如下:
Figure FDA0003526858340000055
式(8)中:
λ1z2z均为中间量;
kp与kd为增益系数;
Figure FDA0003526858340000061
为控制输出;
偏航通道以及滚转通道所采用的反馈控制律形式与俯仰通道相同。
4.根据权利要求3所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:所述S3包括如下步骤:
S301:初始化强化学习交互环境为第一类构型的飞行器,强化俯仰通道学习交互环境,包括:总观测量oT、动作量aT和奖励函数,具体如下:
1)每一个仿真时间步t的观测量为
Figure FDA0003526858340000062
其中:
Figure FDA0003526858340000063
为飞行器高度;
Ma为飞行器的马赫数:
总观测量oT={ot-3,ot-2,ot-1,ot};
2)动作量为aT={Δβ01,Δβ02,Δβ03,Δkp,Δkd},
其中:
β010203均为扩张状态观测器的增益系数;
Δkp,Δkd为反馈控制律中增益系数kp,kd的增量;
3)奖励函数定义为rT=r1+r2
其中:
r1为与姿态控制误差相关的损失函数,且
Figure FDA0003526858340000064
其中:κ12为损失函数的增益系数,且κ12均设定为负数,用来惩罚姿态角和角速率的控制误差;
r2为姿态控制误差小于0.1°时给予的正奖励,r2≥0;
Figure FDA0003526858340000071
则r2=P,
Figure FDA0003526858340000072
则r2=0,
其中:
ε1为理想的控制精度;
P为正奖励的设定值;
S302:强化学习中的智能体的三个神经网络,包括:Actor网络μθ(oT)、Critic_1网络
Figure FDA0003526858340000073
以及Critic_2网络
Figure FDA0003526858340000074
其中:
Actor网络的输入为总观测量oT,输出为动作量aT
Critic_1网络以及Critic_2网络的输入均为总观测量oT和动作量aT,输出均为智能体采取动作量aT后所得到的累积奖励的期望值;
设置Critic_1网络以及Critic_2网络的结构相同,随机初始化Actor网络的参数θμ,Critic_1网络的参数
Figure FDA0003526858340000075
令Critic_2网络的参数
Figure FDA0003526858340000076
定义强化学习最大次数为Nmax,初始化强化学习次数Nstep=1;
S303:对于每一个仿真时间步t,采集飞行器俯仰角跟踪误差、俯仰角速度、高度及马赫数,计算每一个仿真时间步t的观测量
Figure FDA0003526858340000077
及总观测量oT;将总观测量oT输入Actor网络中,得到动作量aT={Δβ01,Δβ02,Δβ03,Δkp,Δkd};根据动作量调节扩张状态观测器及反馈控制律的参数,仿真时间向前推进一步,得到下一个时间步的观测量oT+1,并根据S301中定义计算奖励函数rT
S304:将总观测量oT,动作量aT,下一个时间步的观测量oT+1,奖励函数rT存入经验回放池
Figure FDA0003526858340000078
中;待经验回放池
Figure FDA0003526858340000079
中四元组数目达到100000个,转到S305,否则继续进行S303;
S305:自经验回放池
Figure FDA0003526858340000081
中取出M个四元组,记为B以及Bi,其中:1≤i≤M为B中的第i个四元组;将Bi中下一个时间步的观测量oT+1输入Actor网络中,得Actor网络输出量
Figure FDA0003526858340000082
将下一个时间步的观测量oT+1与Actor网络输出量
Figure FDA0003526858340000083
分别输入Critic_1网络与Critic_2网络,得Critic_1网络输出量
Figure FDA0003526858340000084
Critic_2网络输出量
Figure FDA0003526858340000085
S306:计算
Figure FDA0003526858340000086
其中:y1为Actor网络的损失函数,y2为Critic_1网络及Critic_2网络的损失函数,min(Q1i,Q2i)为Q1i与Q2i的最小值,
Figure FDA0003526858340000087
为采用Actor网络时,输入为oT+1,输出为
Figure FDA0003526858340000088
的对数概率;α>0表示熵探索因子;
S307:以最小化
Figure FDA0003526858340000089
为目标,采用梯度下降方法更新Critic_1网络的参数
Figure FDA00035268583400000810
以最小化
Figure FDA00035268583400000811
为目标,采用梯度下降方法更新Critic_2网络的参数
Figure FDA00035268583400000812
以最大化y1为目标,采用梯度上升方法更新Actor网络的参数θμ
S308:强化学习次数Nstep增加一次,若Nstep<Nmax返回S303,否则结束强化学习,保存Actor网络、Critic_1网络及Critic_2网络进入S4。
5.根据权利要求4所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:所述S4包括如下步骤:
S401:载入Actor网络、Critic_1网络及Critic_2网络,作为智能体初始值;
S402:初始化强化学习交互环境为第二类构型的飞行器,采用S303-S308 的方式进行Soft Actor-Critic强化学习,训练智能体;
S403:保存S402强化学习所得智能体,上述智能体可同时适应面对称构型与轴对称构型的飞行器,实现在不同飞行环境下对扩张状态观测器中增益系数及反馈控制律中增益系数的调节。
CN202210194932.9A 2022-03-01 2022-03-01 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法 Active CN114578838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210194932.9A CN114578838B (zh) 2022-03-01 2022-03-01 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210194932.9A CN114578838B (zh) 2022-03-01 2022-03-01 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法

Publications (2)

Publication Number Publication Date
CN114578838A true CN114578838A (zh) 2022-06-03
CN114578838B CN114578838B (zh) 2022-09-16

Family

ID=81772053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210194932.9A Active CN114578838B (zh) 2022-03-01 2022-03-01 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法

Country Status (1)

Country Link
CN (1) CN114578838B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105278545A (zh) * 2015-11-04 2016-01-27 北京航空航天大学 适用于高超声速机动飞行的自抗扰轨迹线性化控制方法
CN106873611A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多通道线性自抗扰控制器的设计方法
JP2018010671A (ja) * 2017-09-05 2018-01-18 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 航空機姿勢制御方法
CN110554707A (zh) * 2019-10-17 2019-12-10 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN112305920A (zh) * 2020-12-28 2021-02-02 南京理工大学 一种用于闭环射流摇滚抑制控制器设计的强化学习平台
CN112987559A (zh) * 2021-04-06 2021-06-18 广东英诺威盛科技有限公司 固定翼飞行器纵向通道控制方法及装置
CN113342025A (zh) * 2021-06-25 2021-09-03 南京航空航天大学 一种基于线性自抗扰控制的四旋翼无人机姿态控制方法
CN113377121A (zh) * 2020-07-02 2021-09-10 北京航空航天大学 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105278545A (zh) * 2015-11-04 2016-01-27 北京航空航天大学 适用于高超声速机动飞行的自抗扰轨迹线性化控制方法
CN106873611A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多通道线性自抗扰控制器的设计方法
JP2018010671A (ja) * 2017-09-05 2018-01-18 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 航空機姿勢制御方法
CN110554707A (zh) * 2019-10-17 2019-12-10 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN113377121A (zh) * 2020-07-02 2021-09-10 北京航空航天大学 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN112305920A (zh) * 2020-12-28 2021-02-02 南京理工大学 一种用于闭环射流摇滚抑制控制器设计的强化学习平台
CN112987559A (zh) * 2021-04-06 2021-06-18 广东英诺威盛科技有限公司 固定翼飞行器纵向通道控制方法及装置
CN113342025A (zh) * 2021-06-25 2021-09-03 南京航空航天大学 一种基于线性自抗扰控制的四旋翼无人机姿态控制方法
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANGZHU WEI 等: "Adaptive control for missile formation keeping under leader information unavailability", 《2013 10TH IEEE INTERNATIONAL CONFERENCE ON CONTROL AND AUTOMATION (ICCA)》 *
黄旭 等: "深度确定性策略梯度算法用于无人飞行器控制", 《航空学报》 *

Also Published As

Publication number Publication date
CN114578838B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
Cai et al. Disturbance suppression for quadrotor UAV using sliding-mode-observer-based equivalent-input-disturbance approach
CN110347170B (zh) 可重复使用运载器再入段鲁棒容错制导控制系统及工作方法
Kang et al. Deep convolutional identifier for dynamic modeling and adaptive control of unmanned helicopter
CN109062043B (zh) 考虑网络传输以及执行器饱和的航天器自抗扰控制方法
CN110320925B (zh) 基于高阶干扰观测器的四旋翼飞行器安全控制方法
CN108445766A (zh) 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN112346470A (zh) 一种基于改进自抗扰控制的四旋翼姿态控制方法
CN110058600B (zh) 三旋翼无人机舵机堵塞故障下位姿系统的容错控制方法
CN113485304B (zh) 一种基于深度学习故障诊断的飞行器分层容错控制方法
CN111650830A (zh) 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法
CN111026160A (zh) 一种四旋翼无人机轨迹跟踪控制方法
CN111198570B (zh) 一种基于固定时间微分器预测的抗时延高精度自抗扰姿态控制方法
CN110888447B (zh) 基于非线性pd双闭环控制的四旋翼3d路径跟踪方法
CN111290278A (zh) 一种基于预测滑模的高超声速飞行器鲁棒姿态控制方法
CN115220467A (zh) 一种基于神经网络增量动态逆的飞翼飞行器姿态控制方法
CN111522352A (zh) 多旋翼飞行器单参数自抗扰姿态控制器设计方法
CN109976364B (zh) 一种六旋翼飞行器姿态解耦控制方法
CN110377044B (zh) 一种无人直升机的有限时间高度和姿态跟踪控制方法
CN115556111A (zh) 基于变惯性参数建模的飞行机械臂耦合扰动控制方法
CN114578838B (zh) 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法
CN116755337A (zh) 基于长短时记忆神经网络线性自抗扰控制的高超声速飞行器容错控制方法
CN114995163B (zh) 一种无人机免疫控制方法
CN116360258A (zh) 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法
CN114578837A (zh) 一种考虑执行器故障的无人直升机主动容错抗干扰轨迹跟踪控制方法
CN112034872B (zh) 一种四旋翼无人机积分补偿确定性策略梯度控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant