CN110554707B - 一种飞行器姿态控制回路的q学习自动调参方法 - Google Patents

一种飞行器姿态控制回路的q学习自动调参方法 Download PDF

Info

Publication number
CN110554707B
CN110554707B CN201910989625.8A CN201910989625A CN110554707B CN 110554707 B CN110554707 B CN 110554707B CN 201910989625 A CN201910989625 A CN 201910989625A CN 110554707 B CN110554707 B CN 110554707B
Authority
CN
China
Prior art keywords
aircraft
learning
attitude
simulation experiment
act
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910989625.8A
Other languages
English (en)
Other versions
CN110554707A (zh
Inventor
陈森
白文艳
赵志良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Beijing Aerospace Automatic Control Research Institute
Original Assignee
Shaanxi Normal University
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University, Beijing Aerospace Automatic Control Research Institute filed Critical Shaanxi Normal University
Priority to CN201910989625.8A priority Critical patent/CN110554707B/zh
Publication of CN110554707A publication Critical patent/CN110554707A/zh
Application granted granted Critical
Publication of CN110554707B publication Critical patent/CN110554707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Abstract

本发明公开了一种飞行器姿态控制回路的Q学习自动调参方法,包括:建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;根据选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则更新学习经验Q值。本发明的方法,能够实现飞行器姿态控制参数自动调节。

Description

一种飞行器姿态控制回路的Q学习自动调参方法
技术领域
本发明属于飞行器姿态控制技术领域,涉及飞行器姿态控制器的参数调节领域,特别涉及一种飞行器姿态控制回路的Q学习自动调参方法。
背景技术
飞行器姿态角包括俯仰角、偏航角和滚转角,描述了飞行器与地面坐标系的相对姿态。飞行器姿态决定了飞行器的运动方向、飞行高度、飞行速度等物理状态。因此,姿态控制是飞行器控制中的核心环节。
飞行器姿态控制问题受到诸多未知的、非线性的因素影响,例如舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差、舵面控制输入延迟等。经过近几十年的研究,已有许多成熟的飞行器姿态控制器设计方法,包括定点线性化的比例-微分误差反馈控制方法、利用风动数据的动态逆控制方法、自抗扰控制方法、滑模控制方法等。然而,由于飞行器姿态控制问题中的诸多未知的、非线性的因素,并且不同飞行器的物理特性不同,导致这类未知非线性因素的影响不同。因此,针对特定的飞行器结构与气动数据,上述控制方法的控制器参数需要重新调节。这导致实际工程中需要耗费大量的人力与时间来重复参数调节过程。如何设计一种能够自动调节控制器参数的方法,节省飞行器姿态控制器参数调节的人力与时间成本,是飞行器控制工程中亟需解决的问题。
发明内容
本发明的目的在于提供一种飞行器姿态控制回路的Q学习自动调参方法,以解决上述存在的一个或多个技术问题。本发明的方法,能够实现飞行器姿态控制参数自动调节。
为达到上述目的,本发明采用以下技术方案:
本发明的一种飞行器姿态控制回路的Q学习自动调参方法,包括以下步骤:
步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;
步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;
步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;
步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;
步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。
本发明的进一步改进在于,步骤1中,建立的带有多种复杂非线性因素的飞行器姿态控制模型表达式为:
Figure BDA0002237817780000021
其中,θ(t)∈R为飞行器在t时刻的姿态角,ω(t)∈R为飞行器在t时刻的姿态角速度,b(t)∈R为飞行器在t时刻的舵面效率,δ(t)∈R为飞行器在t时刻的舵面角度,f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,θm(t)∈R为飞行器在t时刻的姿态角测量值,τ∈R为飞行器姿态角测量值的延迟,n∈R为飞行器姿态角测量值的噪声,sat(δ(t))为飞行器舵面角度的饱和环节;
sat(δ(t))表达式为:
Figure BDA0002237817780000022
其中,δmax∈R为飞行器舵面角度上界约束,δmin∈R为飞行器舵面角度下界约束。
本发明的进一步改进在于,步骤1中,设计的姿态控制器结构为:
δ(t)=fcm(t),θr(t),τ,δmaxmin,λ),
其中,fcmr,τ,δmaxmin,λ)∈R为已设计的舵面角度控制量,θr(t)∈R为飞行器在t时刻的姿态角参考信号,λ∈Rl为姿态控制器的待调节参数向量,l∈R为姿态控制器的待调节参数个数。
本发明的进一步改进在于,步骤2中,
设系统仿真实验运行时间区间为[0,T],其中T∈R为单次飞行器姿态控制仿真实验运行结束时间;选取特征时间点
Figure BDA0002237817780000031
其中it∈R为特征时间点的计数指标,Nt∈R为特征时间点的总个数,
Figure BDA0002237817780000032
为特征时间点;
根据第k次的飞行器姿态控制仿真实验结果,设计交互学习的环境状态S(k):
Figure BDA0002237817780000033
其中,k∈R为仿真实验次数计数指标,
Figure BDA0002237817780000034
为第k次仿真实验对应的Nt维环境状态,
Figure BDA0002237817780000035
为第k次仿真实验对应的第is维环境状态分量,is∈R为环境状态分量的计数指标,εθ∈R为可接受的姿态角跟踪误差范围;
设计的姿态控制器的待调节参数向量为λ=[λ1 … λl],共有l个待调节的分量;
设计2l+1个参数调整动作:
a动作ia(1≤ia≤l):
Figure BDA0002237817780000036
若iλ≠ia
b动作ia(l+1≤ia≤2l):
Figure BDA0002237817780000037
若iλ≠ia-l;
c动作2l+1:λ(k+1)=λ(k);
其中,ia∈R为参数调整动作计数指标,iλ∈R为姿态控制器待调节参数计数指标,
Figure BDA0002237817780000038
为第ia个姿态控制器待调节参数的调整变化值;
第k次的飞行器姿态控制仿真实验结果对应的学习奖励设计为跟踪误差累积平方值的倒数:
Figure BDA0002237817780000041
本发明的进一步改进在于,步骤3中,
学习经验Q值记为Q(S,act,k),其中Q(S,act,k)∈R为环境状态S、参数调整行动act、第k次的飞行器姿态控制仿真实验时对应的学习经验Q值;
在第k次的飞行器姿态控制仿真实验结束时,已知第k-1次参数调整动作act(k-1)与第k-1次飞行器姿态控制仿真实验时对应的环境状态S(k-1)学习经验Q值Q(S,act,k-1);根据步骤2,获得第k次环境状态S(k)与第k次学习奖励r(k);
更新学习经验Q值的步骤包括:
若S=S(k-1)且act=act(k-1),则
Figure BDA0002237817780000042
否则Q(S,act,k)=Q(S,act,k-1),
其中,αQ∈(0,1)为学习率,βQ∈(0,1)为预期收益比重,最大值
Figure BDA0002237817780000043
通过查询学习经验Q值Q(S(k),act,k-1)获得。
本发明的进一步改进在于,步骤4中,
当前飞行器仿真实验结果对应的环境状态为S=S(k),根据Q(S(k),act,k)的取值,获得优先行动集合:
Figure BDA0002237817780000044
其中,Ωact(k)表示第k次的飞行器姿态控制仿真实验后的优先行动集合;
当集合Ωact(k)中元素唯一时,选择参数调整行动满足Ωact(k)={act(k)};当集合Ωact(k)中元素不唯一时,按均匀概率在Ωact(k)中选择参数调整行动。
本发明的进一步改进在于,步骤3中,学习率αQ=0.9,预期收益比重βQ=0.9。
本发明的进一步改进在于,步骤5中若实验结果达成结束条件,则输出控制器参数具体包括:飞行器仿真实验的姿态角跟踪误差平方积分小于0.0005,则输出控制器参数。
本发明的进一步改进在于,姿态角跟踪误差维持在0.2度以内。
与现有技术相比,本发明具有以下有益效果:
本发明针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响,在已有控制器结构基础上,提供了一种自动调节控制器参数的Q学习方法。飞行器姿态控制目标是设计舵面角度,使得飞行器姿态角能够跟踪参考信号。飞行器姿态控制受到诸多未知的、非线性的因素影响,包括舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差和舵面控制输入延迟。同时,不同飞行器的物理特性不同,导致这些未知的、非线性的因素具有差异。目前已有的控制器参数不能适应该变化,需要人工进行重新调节,费时费力。本发明根据飞行器仿真实验结果,利用交互学习的方法,修正学习经验Q值,实现飞行器姿态控制参数自动调节。
本发明根据飞行器姿态控制仿真实验结果,设计环境状态、参数调整动作、学习奖励,更新学习经验Q值,从而选取参数调整动作,实现控制器参数自动调节,该方法可处理实际飞行器模型中带有的诸多未知的、非线性的因素。
本发明提出的参数自动调节方法仅依赖飞行器仿真实验结果与不断更新的学习经验Q值,不依赖飞行器建模中的诸多未知的、非线性的因素。因此,该发明方法具有泛化能力,即该方法能够适用于构型各异的飞行器姿态回路的控制参数调节。
本发明提出的参数自动调节方法,不仅可以获得满足实际工程需求的控制器参数,并且更新学习经验Q值。本次调参任务最终得到的学习经验Q值可以作为参数自动调节的历史经验,用于下一次的调参任务,加速飞行器姿态控制回路的参数调整。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种飞行器姿态控制回路的Q学习自动调参方法的流程示意图;
图2是本发明实施例中,初始控制器参数与自动调参获得控制器参数的姿态角闭环响应对比示意图;
图3是本发明实施例中,参数调节过程示意图;
图4是本发明实施例中,飞行器姿态角跟踪误差平方积分示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种飞行器姿态控制回路的Q学习自动调参方法,具体包括以下步骤:
步骤1,建立带有多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构。
建立带有多种复杂非线性因素的飞行器姿态控制模型,表达式为:
Figure BDA0002237817780000061
其中,θ(t)∈R为飞行器在t时刻的姿态角,ω(t)∈R为飞行器在t时刻的姿态角速度,b(t)∈R为飞行器在t时刻的舵面效率,δ(t)∈R为飞行器在t时刻的舵面角度,f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,θm(t)∈R为飞行器在t时刻的姿态角测量值,τ∈R为飞行器姿态角测量值的延迟,n∈R为飞行器姿态角测量值的噪声,sat(δ(t))为飞行器舵面角度的饱和环节。
sat(δ(t))表达式为:
Figure BDA0002237817780000071
其中,δmax∈R为飞行器舵面角度上界约束,δmin∈R为飞行器舵面角度下界约束。
设计的姿态控制器结构为:
δ(t)=fcm(t),θr(t),τ,δmaxmin,λ). (3)
其中,fcmr,τ,δmaxmin,λ)∈R为已设计的舵面角度控制量,θr(t)∈R为飞行器在t时刻的姿态角参考信号,λ∈Rl为姿态控制器的待调节参数向量,l∈R为姿态控制器的待调节参数个数。
步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励。
设系统仿真实验运行时间区间为[0,T],其中T∈R为单次飞行器姿态控制仿真实验运行结束时间。选取特征时间点
Figure BDA0002237817780000072
其中it∈R为特征时间点的计数指标,Nt∈R为特征时间点的总个数,
Figure BDA0002237817780000073
为特征时间点。
根据第k次的飞行器姿态控制仿真实验结果,设计交互学习的环境状态S(k):
Figure BDA0002237817780000074
其中,k∈R为仿真实验次数计数指标,
Figure BDA0002237817780000081
为第k次仿真实验对应的Nt维环境状态,
Figure BDA0002237817780000082
为第k次仿真实验对应的第is维环境状态分量,is∈R为环境状态分量的计数指标,εθ∈R为可接受的姿态角跟踪误差范围。
已设计的姿态控制器(2)的待调节参数向量为λ=[λ1 … λl],共有l个待调节的分量。设计2l+1个参数调整动作:
a.动作ia(1≤ia≤l):
Figure BDA0002237817780000083
若iλ≠ia
b.动作ia(l+1≤ia≤2l):
Figure BDA0002237817780000084
若iλ≠ia-l;
c.动作2l+1:λ(k+1)=λ(k);
其中,ia∈R为参数调整动作计数指标,iλ∈R为姿态控制器待调节参数计数指标,
Figure BDA0002237817780000085
为第ia个姿态控制器待调节参数的调整变化值。
第k次的飞行器姿态控制仿真实验结果对应的学习奖励设计为跟踪误差累积平方值的倒数:
Figure BDA0002237817780000086
步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值。
学习经验Q值记为Q(S,act,k),其中Q(S,act,k)∈R为环境状态S、参数调整行动act、第k次的飞行器姿态控制仿真实验时对应的学习经验Q值。
在第k次的飞行器姿态控制仿真实验结束时,已知第k-1次参数调整动作act(k-1)与第k-1次飞行器姿态控制仿真实验时对应的环境状态S(k-1)学习经验Q值Q(S,act,k-1)。同时,根据步骤2,可获得第k次环境状态S(k)与第k次学习奖励r(k)。
更新学习经验Q值:
若S=S(k-1)并且act=act(k-1),则
Figure BDA0002237817780000091
否则Q(S,act,k)=Q(S,act,k-1),
其中αQ∈(0,1)为学习率,βQ∈(0,1)为预期收益比重,公式(6)中的最大值
Figure BDA0002237817780000092
通过查询学习经验Q值Q(S(k),act,k-1)即可获得。
步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,来选择参数调节动作。
当前飞行器仿真实验结果对应的环境状态为S=S(k),根据Q(S(k),act,k)的取值,获得如下的优先行动集合:
Figure BDA0002237817780000093
其中Ωact(k)表示第k次的飞行器姿态控制仿真实验后的优先行动集合。
当集合Ωact(k)中元素唯一时,选择参数调整行动满足Ωact(k)={act(k)}。当集合Ωact(k)中元素不唯一时,按均匀概率在Ωact(k)中选择参数调整行动。
步骤5,根据选择的参数调节动作,执行飞行器姿态控制仿真实验。若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。
本发明针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响,在已有控制器结构基础上,发明了一种自动调节控制器参数的Q学习方法。本发明根据飞行器仿真实验结果,利用交互学习的方法,修正学习经验Q值,实现飞行器姿态控制参数自动调节。
符号说明
t:飞行器姿态控制系统的运行时间,t∈[0,∞);
R:所有实数组成的集合;
θ(t):飞行器在t时刻的姿态角,θ(t)∈R;
ω(t):飞行器在t时刻的姿态角速度,ω(t)∈R;
b(t):飞行器在t时刻的舵面效率,b(t)∈R;
δ(t):飞行器在t时刻的舵面角度,δ(t)∈R;
f(θ(t),ω(t),δ(t)):飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,f(θ(t),ω(t),δ(t))∈R;
θm(t)飞行器在t时刻的姿态角测量值,θm(t)∈R;
τ:飞行器姿态角测量值的延迟,τ∈R;
n:飞行器姿态角测量值的噪声,n∈R;
sat(δ(t)):飞行器舵面角度的饱和环节,sat(δ(t));
δmax:飞行器舵面角度上界约束,δmax∈R;
δmin:飞行器舵面角度下界约束,δmin∈R;
fcmr,τ,δmaxmin,λ):已设计的舵面角度控制量,fcmr,τ,δmaxmin,λ)∈R;
θr(t):飞行器在t时刻的姿态角参考信号,θr(t)∈R;
l:飞行器姿态控制器的待调节参数个数,l∈R;
λ:飞行器姿态控制器的待调节参数向量,λ∈Rl
iλ:飞行器姿态控制器待调节参数计数指标,iλ∈R;
Figure BDA0002237817780000101
第k次飞行器姿态控制仿真实验的控制器参数向量的第iλ个分量,
Figure BDA0002237817780000102
T:单次飞行器姿态控制仿真实验运行结束时间,T∈R;
it:特征时间点的计数指标,it∈R;
Nt:特征时间点的总个数,Nt∈R;
Figure BDA0002237817780000103
特征时间点,
Figure BDA0002237817780000104
k:飞行器姿态控制仿真实验次数计数指标,k∈R;
S(k):第k次仿真实验对应的Nt维环境状态,
Figure BDA0002237817780000105
is:环境状态分量的计数指标,is∈R;
Figure BDA0002237817780000111
第k次仿真实验对应的第is维环境状态分量,
Figure BDA0002237817780000112
εθ:可接受的姿态角跟踪误差范围,εθ∈R;
ia:参数调整动作计数指标,ia∈R;
Figure BDA0002237817780000113
第ia个姿态控制器待调节参数的调整变化值,
Figure BDA0002237817780000114
r(k):第k次的飞行器姿态控制仿真实验结果对应的学习奖励,r(k)∈R;
act(k):第k次的飞行器姿态控制仿真实验结束后,选取的参数调整动作编号,act(k)∈R;
Q(S,act,k):第k次的飞行器姿态控制仿真实验结束后,环境状态S、参数调整行动act对应的学习经验Q值,Q(S,act,k)∈R;
αQ:学习率,αQ∈(0,1);
βQ:预期收益比重,βQ∈(0,1);
act':参数调整动作编号,act'∈R;
Ωact(k):第k次的飞行器姿态控制仿真实验后的优先行动集合。
本发明根据飞行器姿态控制仿真实验结果,设计环境状态、参数调整动作、学习奖励,更新学习经验Q值,从而选取参数调整动作,实现控制器参数自动调节,该方法可处理实际飞行器模型中带有的诸多未知的、非线性的因素;本发明提出的参数自动调节方法仅依赖飞行器仿真实验结果与不断更新的学习经验Q值,不依赖飞行器建模中的诸多未知的、非线性的因素。因此,该发明方法具有泛化能力,即该方法能够适用于构型各异的飞行器姿态回路的控制参数调节;本发明提出的参数自动调节方法,不仅可以获得满足实际工程需求的控制器参数,并且更新学习经验Q值。本次调参任务最终得到的学习经验Q值可以作为参数自动调节的历史经验,用于下一次的调参任务,加速飞行器姿态控制回路的参数调整。
实验验证
本发明针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响,在已有控制器结构基础上,发明了一种自动调节控制器参数的Q学习方法。为了进一步研究本发明方法的适用性,为了检验本发明方法的适用性,进行飞行器滑翔段的俯仰角控制回路的参数调整实验。以下为本发明方法的具体实施步骤。
请参阅图1至图4,参数调整实验情景与基本参数:飞行器质量136817.8千克,纵向通道转动惯量7000000千克*米*米,相对舵面面积324.2米*米,相对舵面长度24米;飞行器滑翔段初始高度33000米,马赫数15,飞行总时长80秒;飞行器姿态角量测延迟0.04秒,姿态角量测噪声服从高斯分布N(0,0.04*π/180),舵面角度上界约束为25度,舵面角度下界约束为-25度。
具体实施步骤一:建立带有多种复杂非线性因素的飞行器姿态控制模型(1)。建立基于自抗扰控制的姿态控制器结构:
Figure BDA0002237817780000121
其中待调节的控制器参数向量为λ=[λ1 λ2 λ3],,H∈R为飞行器高度,V∈R为飞行器速度大小。
具体实施步骤二:设计特征时间点,t1=1秒,t2=20秒,t3=40秒,t4=60秒。针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态(4)、学习奖励(5)与参数调整动作:
动作ia(1≤ia≤3):
Figure BDA0002237817780000122
若iλ≠ia
动作ia(4≤ia≤6):
Figure BDA0002237817780000123
若iλ≠ia-3;
动作7:λ(k+1)=λ(k);
其中εθ=0.01,Δλ1=1,Δλ2=0.0035,Δλ3=0.2。
具体实施步骤三:根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态S、参数调整动作act、学习奖励r以及历史学习经验Q值,更新学习经验Q值:
若S=S(k-1)并且act=act(k-1),则
Figure BDA0002237817780000131
否则Q(S,act,k)=Q(S,act,k-1),
其中学习率αQ=0.9,预期收益比重βQ=0.9,公式(8)中的最大值
Figure BDA0002237817780000132
通过查询学习经验Q值Q(S(k),act,k-1)获得。
初始的学习经验Q值
Figure BDA0002237817780000133
初始的控制器参数[λ1(0) λ2(0)λ3(0)]=[30 0.035 5]。
具体实施步骤四:根据每一次飞行器仿真实验后更新的学习经验Q值Q(S(k),act,k),获得如下的优先行动集合:
Figure BDA0002237817780000134
当集合Ωact(k)中元素唯一时,选择参数调整行动满足Ωact(k)={act(k)}。当集合Ωact(k)中元素不唯一时,按均匀概率在Ωact(k)中选择参数调整行动。
具体实施步骤五:根据选择的参数调节动作act(k)来调整控制器参数,再执行飞行器姿态控制仿真实验。若本次飞行器仿真实验的姿态角跟踪误差平方积分小于0.0005,则输出控制器参数,否则,跳转至具体实施步骤三,更新学习经验Q值。
请参阅图2至图4,为了进一步研究本发明方法的适用性,为了检验本发明方法的适用性,进行飞行器滑翔段的俯仰角控制回路的参数调整实验,得到实验结果图(图2-图4)。图2是初始控制器参数与自动调参获得控制器参数的姿态角闭环响应图,图3是本发明方法参数调节过程图,图4是飞行器姿态角跟踪误差平方积分图。
图2中,采用初始控制器参数的飞行器姿态角闭环响应震荡现象明显,最大跟踪误差达到2.6度。同时,在本发明方法自动调整获得的控制器参数下,飞行器姿态角闭环响应品质优秀,姿态角跟踪误差维持在0.2度以内。本发明方法能够自动调节控制器参数,在复杂未知非线性飞行器对象下,满足高精度的工程需求。
通过图3可得控制器参数的自动调节过程。通过已设计的参数调整动作,每一次微调控制器参数,再根据调整后的仿真实验结果,迭代更新学习经验Q值,依据更新后的学习经验Q值来选择下一步的参数调整动作。最终,自动调节得到的控制器参数为[λ1(0) λ2(0)λ3(0)]=[20 0.042 3.4]。
图4展示了每一次飞行器仿真实验结果中的姿态角跟踪误差平方积分。前80次飞行器仿真实验的结果显示:姿态角跟踪误差平方积分值在上下波动。此阶段正是不断利用仿真实验结果,迭代更新学习经验Q值的过程。随后,随着控制器参数自动调整,姿态角跟踪误差平方积分快速下降,最终达到0.0004,满足飞行器姿态控制精度要求。
通过上述验证可明确得出,本发明实施例解决的技术问题是:针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响,在已有控制器结构基础上,发明了一种自动调节控制器参数的Q学习方法。飞行器姿态控制目标是设计舵面角度,使得飞行器姿态角能够跟踪参考信号。飞行器姿态控制受到诸多未知的、非线性的因素影响,包括舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差和舵面控制输入延迟。同时,不同飞行器的物理特性不同,导致这些未知的、非线性的因素具有差异。已有的控制器参数不能适应该变化,需要进行重新调节。本发明根据飞行器仿真实验结果,利用交互学习的方法,修正学习经验Q值,实现飞行器姿态控制参数自动调节。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (5)

1.一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,包括以下步骤:
步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;
步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;
步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;
步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;
步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值;
其中,步骤1中,建立的带有多种复杂非线性因素的飞行器姿态控制模型表达式为:
Figure FDA0003810016240000011
其中,θ(t)∈R为飞行器在t时刻的姿态角,ω(t)∈R为飞行器在t时刻的姿态角速度,b(t)∈R为飞行器在t时刻的舵面效率,δ(t)∈R为飞行器在t时刻的舵面角度,f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,θm(t)∈R为飞行器在t时刻的姿态角测量值,τ∈R为飞行器姿态角测量值的延迟,n∈R为飞行器姿态角测量值的噪声,sat(δ(t))为飞行器舵面角度的饱和环节;
sat(δ(t))表达式为:
Figure FDA0003810016240000012
其中,δmax∈R为飞行器舵面角度上界约束,δmin∈R为飞行器舵面角度下界约束;
步骤1中,设计的姿态控制器结构的整体表达式为:
δ(t)=fcm(t),θr(t),τ,δmaxmin,λ),
其中,δ(t)∈R为飞行器在t时刻的舵面角度,fcmr,τ,δmaxmin,λ)∈R为已设计的舵面角度控制量,θr(t)∈R为飞行器在t时刻的姿态角参考信号,λ∈Rl为姿态控制器的待调节参数向量,l∈R为姿态控制器的待调节参数个数;
步骤2中,设系统仿真实验运行时间区间为[0,T],其中T∈R为单次飞行器姿态控制仿真实验运行结束时间;选取特征时间点
Figure FDA0003810016240000021
其中it∈R为特征时间点的计数指标,Nt∈R为特征时间点的总个数,
Figure FDA0003810016240000022
为特征时间点;
根据第k次的飞行器姿态控制仿真实验结果,设计交互学习的环境状态S(k):
Figure FDA0003810016240000023
其中,k∈R为仿真实验次数计数指标,
Figure FDA0003810016240000024
为第k次仿真实验对应的Nt维环境状态,
Figure FDA0003810016240000025
为第k次仿真实验对应的第is维环境状态分量,is∈R为环境状态分量的计数指标,εθ∈R为可接受的姿态角跟踪误差范围;
设计的姿态控制器的待调节参数向量为λ=[λ1…λl],共有l个待调节的分量;
设计2l+1个参数调整动作:
a动作ia(1≤ia≤l):
Figure FDA0003810016240000026
若iλ≠ia
b动作ia(l+1≤ia≤2l):
Figure FDA0003810016240000027
若iλ≠ia-l;
c动作2l+1:λ(k+1)=λ(k);
其中,ia∈R为参数调整动作计数指标,iλ∈R为姿态控制器待调节参数计数指标,
Figure FDA0003810016240000028
为第ia个姿态控制器待调节参数的调整变化值;
第k次的飞行器姿态控制仿真实验结果对应的学习奖励设计为跟踪误差累积平方值的倒数:
Figure FDA0003810016240000031
步骤3中,学习经验Q值记为Q(S,act,k),其中Q(S,act,k)∈R为环境状态S、参数调整行动act、第k次的飞行器姿态控制仿真实验时对应的学习经验Q值;
在第k次的飞行器姿态控制仿真实验结束时,已知第k-1次参数调整动作act(k-1)与第k-1次飞行器姿态控制仿真实验时对应的环境状态S(k-1)学习经验Q值Q(S,act,k-1);根据步骤2,获得第k次环境状态S(k)与第k次学习奖励r(k);
更新学习经验Q值的步骤包括:
若S=S(k-1)且act=act(k-1),则
Figure FDA0003810016240000032
否则Q(S,act,k)=Q(S,act,k-1),
其中,αQ∈(0,1)为学习率,βQ∈(0,1)为预期收益比重,最大值
Figure FDA0003810016240000033
通过查询学习经验Q值Q(S(k),act,k-1)获得。
2.根据权利要求1所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤4中,
当前飞行器仿真实验结果对应的环境状态为S=S(k),根据Q(S(k),act,k)的取值,获得优先行动集合:
Figure FDA0003810016240000034
其中,Ωact(k)表示第k次的飞行器姿态控制仿真实验后的优先行动集合;
当集合Ωact(k)中元素唯一时,选择参数调整行动满足Ωact(k)={act(k)};当集合Ωact(k)中元素不唯一时,按均匀概率在Ωact(k)中选择参数调整行动。
3.根据权利要求1所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤3中,学习率αQ=0.9,预期收益比重βQ=0.9。
4.根据权利要求1至3中任一项所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤5中若实验结果达成结束条件,则输出控制器参数具体包括:飞行器仿真实验的姿态角跟踪误差平方积分小于0.0005,则输出控制器参数。
5.根据权利要求4所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,姿态角跟踪误差维持在0.2度以内。
CN201910989625.8A 2019-10-17 2019-10-17 一种飞行器姿态控制回路的q学习自动调参方法 Active CN110554707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910989625.8A CN110554707B (zh) 2019-10-17 2019-10-17 一种飞行器姿态控制回路的q学习自动调参方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989625.8A CN110554707B (zh) 2019-10-17 2019-10-17 一种飞行器姿态控制回路的q学习自动调参方法

Publications (2)

Publication Number Publication Date
CN110554707A CN110554707A (zh) 2019-12-10
CN110554707B true CN110554707B (zh) 2022-09-30

Family

ID=68743276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989625.8A Active CN110554707B (zh) 2019-10-17 2019-10-17 一种飞行器姿态控制回路的q学习自动调参方法

Country Status (1)

Country Link
CN (1) CN110554707B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114200950B (zh) * 2021-10-26 2023-06-02 北京航天自动控制研究所 一种飞行姿态控制方法
CN114578838B (zh) * 2022-03-01 2022-09-16 哈尔滨逐宇航天科技有限责任公司 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006320997A (ja) * 2005-05-18 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> ロボット行動選択装置及びロボット行動選択方法
EP3319016A1 (en) * 2016-11-04 2018-05-09 United Technologies Corporation Control systems using deep reinforcement learning
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108776483A (zh) * 2018-08-16 2018-11-09 圆通速递有限公司 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
CN109614631A (zh) * 2018-10-18 2019-04-12 清华大学 基于强化学习和迁移学习的飞行器全自动气动优化方法
JP2019096012A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 移動体制御方法及び移動体制御装置
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110297423A (zh) * 2019-05-27 2019-10-01 北京航天自动控制研究所 一种飞行器长期在轨多模智能集成系统
KR102032067B1 (ko) * 2018-12-05 2019-10-14 세종대학교산학협력단 강화학습 기반 무인 항공기 원격 제어 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844068B (zh) * 2016-06-16 2018-11-13 中国人民解放军国防科学技术大学 一种面向仿真的q学习攻击目标分配方法
US10929743B2 (en) * 2016-09-27 2021-02-23 Disney Enterprises, Inc. Learning to schedule control fragments for physics-based character simulation and robots using deep Q-learning
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN110007688B (zh) * 2019-04-25 2021-06-01 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006320997A (ja) * 2005-05-18 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> ロボット行動選択装置及びロボット行動選択方法
EP3319016A1 (en) * 2016-11-04 2018-05-09 United Technologies Corporation Control systems using deep reinforcement learning
JP2019096012A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 移動体制御方法及び移動体制御装置
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108776483A (zh) * 2018-08-16 2018-11-09 圆通速递有限公司 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
CN109614631A (zh) * 2018-10-18 2019-04-12 清华大学 基于强化学习和迁移学习的飞行器全自动气动优化方法
KR102032067B1 (ko) * 2018-12-05 2019-10-14 세종대학교산학협력단 강화학습 기반 무인 항공기 원격 제어 방법 및 장치
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110297423A (zh) * 2019-05-27 2019-10-01 北京航天自动控制研究所 一种飞行器长期在轨多模智能集成系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于 Q 学习的变体无人机控制系统设计;徐小野,等;《西北工业大学学报》;20120630;第340-344页 *
基于Q-学习的卫星姿态在线模糊神经网络控制;王华等;《北京理工大学学报》;20060328(第03期);第42-45页 *
基于RBF神经网络的Q学习飞行器隐蔽接敌策略;徐安等;《系统工程与电子技术》;20120131;第91-101页 *
基于神经网络Q- learning 算法的智能车路径规划;卫玉梁,等;《火力与指挥控制》;20190228;第46-49页 *

Also Published As

Publication number Publication date
CN110554707A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN103777641B (zh) 飞行器跟踪控制的复合自抗扰控制方法
CN107807663B (zh) 基于自适应控制的无人机编队保持控制方法
CN110456821B (zh) 基于动态触发机制的飞行器轨迹最优控制方法和系统
CN109976378B (zh) 风扰下无人机栖落机动的轨迹控制方法
CN109062055A (zh) 一种基于Back-stepping鲁棒自适应动态面的近空间飞行器控制系统
CN105607473B (zh) 小型无人直升机的姿态误差快速收敛自适应控制方法
CN108445766A (zh) 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN110554707B (zh) 一种飞行器姿态控制回路的q学习自动调参方法
CN106708082B (zh) 基于模糊控制的飞行器俯仰通道姿态指令快速跟踪方法
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
CN108594837A (zh) 基于pd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN109062040B (zh) 基于系统嵌套优化的预测pid方法
CN106681345A (zh) 基于人群搜索算法的无人机自抗扰控制方法
CN111898201A (zh) 一种空战模拟环境中的战斗机高精度自主攻击引导方法
CN107037727A (zh) 一种无人直升机大包线自适应增益调度方法
Dally et al. Soft actor-critic deep reinforcement learning for fault tolerant flight control
Ansari et al. Retrospective cost adaptive control of generic transport model under uncertainty and failure
CN114370793A (zh) 一种火箭子级返回与垂直着陆制导方法
CN114527795A (zh) 一种基于增量在线学习的飞行器智能控制方法
CN111007867B (zh) 一种可预设调整时间的高超声速飞行器姿态控制设计方法
Abdulla et al. Roll control system design using auto tuning LQR technique
CN116755323A (zh) 一种基于深度强化学习的多旋翼无人机pid自整定方法
CN107450313A (zh) 基于自适应控制的无人机自动驾驶仪控制系统
CN111679571B (zh) 一种低速飞艇的给定速度滑模自适应跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant