CN110554707B

CN110554707B - 一种飞行器姿态控制回路的q学习自动调参方法

Info

Publication number: CN110554707B
Application number: CN201910989625.8A
Authority: CN
Inventors: 陈森; 白文艳; 赵志良
Original assignee: Shaanxi Normal University; Beijing Aerospace Automatic Control Research Institute
Current assignee: Shaanxi Normal University; Beijing Aerospace Automatic Control Research Institute
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2022-09-30
Anticipated expiration: 2039-10-17
Also published as: CN110554707A

Abstract

本发明公开了一种飞行器姿态控制回路的Q学习自动调参方法，包括：建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构；针对每一次飞行器姿态控制仿真实验结果，设计交互学习的环境状态、参数调整动作与学习奖励；根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值，更新学习经验Q值；利用每一次飞行器仿真实验后更新的学习经验Q值，选择参数调节动作；根据选择的参数调节动作，执行飞行器姿态控制仿真实验；若实验结果达成结束条件，则输出控制器参数，否则更新学习经验Q值。本发明的方法，能够实现飞行器姿态控制参数自动调节。

Description

一种飞行器姿态控制回路的Q学习自动调参方法

技术领域

本发明属于飞行器姿态控制技术领域，涉及飞行器姿态控制器的参数调节领域，特别涉及一种飞行器姿态控制回路的Q学习自动调参方法。

背景技术

飞行器姿态角包括俯仰角、偏航角和滚转角，描述了飞行器与地面坐标系的相对姿态。飞行器姿态决定了飞行器的运动方向、飞行高度、飞行速度等物理状态。因此，姿态控制是飞行器控制中的核心环节。

飞行器姿态控制问题受到诸多未知的、非线性的因素影响，例如舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差、舵面控制输入延迟等。经过近几十年的研究，已有许多成熟的飞行器姿态控制器设计方法，包括定点线性化的比例-微分误差反馈控制方法、利用风动数据的动态逆控制方法、自抗扰控制方法、滑模控制方法等。然而，由于飞行器姿态控制问题中的诸多未知的、非线性的因素，并且不同飞行器的物理特性不同，导致这类未知非线性因素的影响不同。因此，针对特定的飞行器结构与气动数据，上述控制方法的控制器参数需要重新调节。这导致实际工程中需要耗费大量的人力与时间来重复参数调节过程。如何设计一种能够自动调节控制器参数的方法，节省飞行器姿态控制器参数调节的人力与时间成本，是飞行器控制工程中亟需解决的问题。

发明内容

本发明的目的在于提供一种飞行器姿态控制回路的Q学习自动调参方法，以解决上述存在的一个或多个技术问题。本发明的方法，能够实现飞行器姿态控制参数自动调节。

为达到上述目的，本发明采用以下技术方案：

本发明的一种飞行器姿态控制回路的Q学习自动调参方法，包括以下步骤：

步骤1，建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构；

步骤2，针对每一次飞行器姿态控制仿真实验结果，设计交互学习的环境状态、参数调整动作与学习奖励；

步骤3，根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值，更新学习经验Q值；

步骤4，利用每一次飞行器仿真实验后更新的学习经验Q值，选择参数调节动作；

步骤5，根据步骤4选择的参数调节动作，执行飞行器姿态控制仿真实验；若实验结果达成结束条件，则输出控制器参数，否则，跳转至步骤3，更新学习经验Q值。

本发明的进一步改进在于，步骤1中，建立的带有多种复杂非线性因素的飞行器姿态控制模型表达式为：

其中，θ(t)∈R为飞行器在t时刻的姿态角，ω(t)∈R为飞行器在t时刻的姿态角速度，b(t)∈R为飞行器在t时刻的舵面效率，δ(t)∈R为飞行器在t时刻的舵面角度，f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰，θ_m(t)∈R为飞行器在t时刻的姿态角测量值，τ∈R为飞行器姿态角测量值的延迟，n∈R为飞行器姿态角测量值的噪声，sat(δ(t))为飞行器舵面角度的饱和环节；

sat(δ(t))表达式为：

其中，δ_max∈R为飞行器舵面角度上界约束，δ_min∈R为飞行器舵面角度下界约束。

本发明的进一步改进在于，步骤1中，设计的姿态控制器结构为：

δ(t)＝f_c(θ_m(t),θ_r(t),τ,δ_max,δ_min,λ)，

其中，f_c(θ_m,θ_r,τ,δ_max,δ_min,λ)∈R为已设计的舵面角度控制量，θ_r(t)∈R为飞行器在t时刻的姿态角参考信号，λ∈R^l为姿态控制器的待调节参数向量，l∈R为姿态控制器的待调节参数个数。

本发明的进一步改进在于，步骤2中，

设系统仿真实验运行时间区间为[0,T]，其中T∈R为单次飞行器姿态控制仿真实验运行结束时间；选取特征时间点

其中i_t∈R为特征时间点的计数指标，N_t∈R为特征时间点的总个数，

为特征时间点；

根据第k次的飞行器姿态控制仿真实验结果，设计交互学习的环境状态S(k)：

其中，k∈R为仿真实验次数计数指标，

为第k次仿真实验对应的N_t维环境状态，

为第k次仿真实验对应的第i_s维环境状态分量，i_s∈R为环境状态分量的计数指标，ε_θ∈R为可接受的姿态角跟踪误差范围；

设计的姿态控制器的待调节参数向量为λ＝[λ₁ … λ_l]，共有l个待调节的分量；

设计2l+1个参数调整动作：

a动作i_a(1≤i_a≤l)：

若i_λ≠i_a；

b动作i_a(l+1≤i_a≤2l)：

若i_λ≠i_a-l；

c动作2l+1：λ(k+1)＝λ(k)；

其中，i_a∈R为参数调整动作计数指标，i_λ∈R为姿态控制器待调节参数计数指标，

为第i_a个姿态控制器待调节参数的调整变化值；

第k次的飞行器姿态控制仿真实验结果对应的学习奖励设计为跟踪误差累积平方值的倒数：

本发明的进一步改进在于，步骤3中，

学习经验Q值记为Q(S,act,k)，其中Q(S,act,k)∈R为环境状态S、参数调整行动act、第k次的飞行器姿态控制仿真实验时对应的学习经验Q值；

在第k次的飞行器姿态控制仿真实验结束时，已知第k-1次参数调整动作act(k-1)与第k-1次飞行器姿态控制仿真实验时对应的环境状态S(k-1)学习经验Q值Q(S,act,k-1)；根据步骤2，获得第k次环境状态S(k)与第k次学习奖励r(k)；

更新学习经验Q值的步骤包括：

若S＝S(k-1)且act＝act(k-1)，则

否则Q(S,act,k)＝Q(S,act,k-1),

其中，α_Q∈(0,1)为学习率，β_Q∈(0,1)为预期收益比重，最大值

通过查询学习经验Q值Q(S(k),act,k-1)获得。

本发明的进一步改进在于，步骤4中，

当前飞行器仿真实验结果对应的环境状态为S＝S(k)，根据Q(S(k),act,k)的取值，获得优先行动集合：

其中，Ω_act(k)表示第k次的飞行器姿态控制仿真实验后的优先行动集合；

当集合Ω_act(k)中元素唯一时，选择参数调整行动满足Ω_act(k)＝{act(k)}；当集合Ω_act(k)中元素不唯一时，按均匀概率在Ω_act(k)中选择参数调整行动。

本发明的进一步改进在于，步骤3中，学习率α_Q＝0.9，预期收益比重β_Q＝0.9。

本发明的进一步改进在于，步骤5中若实验结果达成结束条件，则输出控制器参数具体包括：飞行器仿真实验的姿态角跟踪误差平方积分小于0.0005，则输出控制器参数。

本发明的进一步改进在于，姿态角跟踪误差维持在0.2度以内。

与现有技术相比，本发明具有以下有益效果：

本发明针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响，在已有控制器结构基础上，提供了一种自动调节控制器参数的Q学习方法。飞行器姿态控制目标是设计舵面角度，使得飞行器姿态角能够跟踪参考信号。飞行器姿态控制受到诸多未知的、非线性的因素影响，包括舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差和舵面控制输入延迟。同时，不同飞行器的物理特性不同，导致这些未知的、非线性的因素具有差异。目前已有的控制器参数不能适应该变化，需要人工进行重新调节，费时费力。本发明根据飞行器仿真实验结果，利用交互学习的方法，修正学习经验Q值，实现飞行器姿态控制参数自动调节。

本发明根据飞行器姿态控制仿真实验结果，设计环境状态、参数调整动作、学习奖励，更新学习经验Q值，从而选取参数调整动作，实现控制器参数自动调节，该方法可处理实际飞行器模型中带有的诸多未知的、非线性的因素。

本发明提出的参数自动调节方法仅依赖飞行器仿真实验结果与不断更新的学习经验Q值，不依赖飞行器建模中的诸多未知的、非线性的因素。因此，该发明方法具有泛化能力，即该方法能够适用于构型各异的飞行器姿态回路的控制参数调节。

本发明提出的参数自动调节方法，不仅可以获得满足实际工程需求的控制器参数，并且更新学习经验Q值。本次调参任务最终得到的学习经验Q值可以作为参数自动调节的历史经验，用于下一次的调参任务，加速飞行器姿态控制回路的参数调整。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种飞行器姿态控制回路的Q学习自动调参方法的流程示意图；

图2是本发明实施例中，初始控制器参数与自动调参获得控制器参数的姿态角闭环响应对比示意图；

图3是本发明实施例中，参数调节过程示意图；

图4是本发明实施例中，飞行器姿态角跟踪误差平方积分示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种飞行器姿态控制回路的Q学习自动调参方法，具体包括以下步骤：

步骤1，建立带有多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构。

建立带有多种复杂非线性因素的飞行器姿态控制模型，表达式为：

其中，θ(t)∈R为飞行器在t时刻的姿态角，ω(t)∈R为飞行器在t时刻的姿态角速度，b(t)∈R为飞行器在t时刻的舵面效率，δ(t)∈R为飞行器在t时刻的舵面角度，f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰，θ_m(t)∈R为飞行器在t时刻的姿态角测量值，τ∈R为飞行器姿态角测量值的延迟，n∈R为飞行器姿态角测量值的噪声，sat(δ(t))为飞行器舵面角度的饱和环节。

sat(δ(t))表达式为：

设计的姿态控制器结构为：

δ(t)＝f_c(θ_m(t),θ_r(t),τ,δ_max,δ_min,λ). (3)

步骤2，针对每一次飞行器姿态控制仿真实验结果，设计交互学习的环境状态、参数调整动作与学习奖励。

设系统仿真实验运行时间区间为[0,T]，其中T∈R为单次飞行器姿态控制仿真实验运行结束时间。选取特征时间点

为特征时间点。

其中，k∈R为仿真实验次数计数指标，

为第k次仿真实验对应的N_t维环境状态，

为第k次仿真实验对应的第i_s维环境状态分量，i_s∈R为环境状态分量的计数指标，ε_θ∈R为可接受的姿态角跟踪误差范围。

已设计的姿态控制器(2)的待调节参数向量为λ＝[λ₁ … λ_l]，共有l个待调节的分量。设计2l+1个参数调整动作：

a.动作i_a(1≤i_a≤l)：

若i_λ≠i_a；

b.动作i_a(l+1≤i_a≤2l)：

若i_λ≠i_a-l；

c.动作2l+1：λ(k+1)＝λ(k)；

为第i_a个姿态控制器待调节参数的调整变化值。

步骤3，根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值，更新学习经验Q值。

学习经验Q值记为Q(S,act,k)，其中Q(S,act,k)∈R为环境状态S、参数调整行动act、第k次的飞行器姿态控制仿真实验时对应的学习经验Q值。

在第k次的飞行器姿态控制仿真实验结束时，已知第k-1次参数调整动作act(k-1)与第k-1次飞行器姿态控制仿真实验时对应的环境状态S(k-1)学习经验Q值Q(S,act,k-1)。同时，根据步骤2，可获得第k次环境状态S(k)与第k次学习奖励r(k)。

更新学习经验Q值：

若S＝S(k-1)并且act＝act(k-1)，则

否则Q(S,act,k)＝Q(S,act,k-1),

其中α_Q∈(0,1)为学习率，β_Q∈(0,1)为预期收益比重，公式(6)中的最大值

通过查询学习经验Q值Q(S(k),act,k-1)即可获得。

步骤4，利用每一次飞行器仿真实验后更新的学习经验Q值，来选择参数调节动作。

当前飞行器仿真实验结果对应的环境状态为S＝S(k)，根据Q(S(k),act,k)的取值，获得如下的优先行动集合：

其中Ω_act(k)表示第k次的飞行器姿态控制仿真实验后的优先行动集合。

当集合Ω_act(k)中元素唯一时，选择参数调整行动满足Ω_act(k)＝{act(k)}。当集合Ω_act(k)中元素不唯一时，按均匀概率在Ω_act(k)中选择参数调整行动。

步骤5，根据选择的参数调节动作，执行飞行器姿态控制仿真实验。若实验结果达成结束条件，则输出控制器参数，否则，跳转至步骤3，更新学习经验Q值。

本发明针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响，在已有控制器结构基础上，发明了一种自动调节控制器参数的Q学习方法。本发明根据飞行器仿真实验结果，利用交互学习的方法，修正学习经验Q值，实现飞行器姿态控制参数自动调节。

符号说明

t：飞行器姿态控制系统的运行时间，t∈[0,∞)；

R：所有实数组成的集合；

θ(t)：飞行器在t时刻的姿态角，θ(t)∈R；

ω(t)：飞行器在t时刻的姿态角速度，ω(t)∈R；

b(t)：飞行器在t时刻的舵面效率，b(t)∈R；

δ(t)：飞行器在t时刻的舵面角度，δ(t)∈R；

f(θ(t),ω(t),δ(t))：飞行器在t时刻受到的内部气动参数不确定性与外部风干扰，f(θ(t),ω(t),δ(t))∈R；

θ_m(t)飞行器在t时刻的姿态角测量值，θ_m(t)∈R；

τ：飞行器姿态角测量值的延迟，τ∈R；

n：飞行器姿态角测量值的噪声，n∈R；

sat(δ(t))：飞行器舵面角度的饱和环节，sat(δ(t))；

δ_max：飞行器舵面角度上界约束，δ_max∈R；

δ_min：飞行器舵面角度下界约束，δ_min∈R；

f_c(θ_m,θ_r,τ,δ_max,δ_min,λ)：已设计的舵面角度控制量，f_c(θ_m,θ_r,τ,δ_max,δ_min,λ)∈R；

θ_r(t)：飞行器在t时刻的姿态角参考信号，θ_r(t)∈R；

l：飞行器姿态控制器的待调节参数个数，l∈R；

λ：飞行器姿态控制器的待调节参数向量，λ∈R^l；

i_λ：飞行器姿态控制器待调节参数计数指标，i_λ∈R；

第k次飞行器姿态控制仿真实验的控制器参数向量的第i_λ个分量，

T：单次飞行器姿态控制仿真实验运行结束时间，T∈R；

i_t：特征时间点的计数指标，i_t∈R；

N_t：特征时间点的总个数，N_t∈R；

特征时间点，

k：飞行器姿态控制仿真实验次数计数指标，k∈R；

S(k)：第k次仿真实验对应的N_t维环境状态，

i_s：环境状态分量的计数指标，i_s∈R；

第k次仿真实验对应的第i_s维环境状态分量，

ε_θ：可接受的姿态角跟踪误差范围，ε_θ∈R；

i_a：参数调整动作计数指标，i_a∈R；

第i_a个姿态控制器待调节参数的调整变化值，

r(k)：第k次的飞行器姿态控制仿真实验结果对应的学习奖励，r(k)∈R；

act(k)：第k次的飞行器姿态控制仿真实验结束后，选取的参数调整动作编号，act(k)∈R；

Q(S,act,k)：第k次的飞行器姿态控制仿真实验结束后，环境状态S、参数调整行动act对应的学习经验Q值，Q(S,act,k)∈R；

α_Q：学习率，α_Q∈(0,1)；

β_Q：预期收益比重，β_Q∈(0,1)；

act'：参数调整动作编号，act'∈R；

Ω_act(k)：第k次的飞行器姿态控制仿真实验后的优先行动集合。

本发明根据飞行器姿态控制仿真实验结果，设计环境状态、参数调整动作、学习奖励，更新学习经验Q值，从而选取参数调整动作，实现控制器参数自动调节，该方法可处理实际飞行器模型中带有的诸多未知的、非线性的因素；本发明提出的参数自动调节方法仅依赖飞行器仿真实验结果与不断更新的学习经验Q值，不依赖飞行器建模中的诸多未知的、非线性的因素。因此，该发明方法具有泛化能力，即该方法能够适用于构型各异的飞行器姿态回路的控制参数调节；本发明提出的参数自动调节方法，不仅可以获得满足实际工程需求的控制器参数，并且更新学习经验Q值。本次调参任务最终得到的学习经验Q值可以作为参数自动调节的历史经验，用于下一次的调参任务，加速飞行器姿态控制回路的参数调整。

实验验证

本发明针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响，在已有控制器结构基础上，发明了一种自动调节控制器参数的Q学习方法。为了进一步研究本发明方法的适用性，为了检验本发明方法的适用性，进行飞行器滑翔段的俯仰角控制回路的参数调整实验。以下为本发明方法的具体实施步骤。

请参阅图1至图4，参数调整实验情景与基本参数：飞行器质量136817.8千克，纵向通道转动惯量7000000千克*米*米，相对舵面面积324.2米*米，相对舵面长度24米；飞行器滑翔段初始高度33000米，马赫数15，飞行总时长80秒；飞行器姿态角量测延迟0.04秒，姿态角量测噪声服从高斯分布N(0,0.04*π/180)，舵面角度上界约束为25度，舵面角度下界约束为-25度。

具体实施步骤一：建立带有多种复杂非线性因素的飞行器姿态控制模型(1)。建立基于自抗扰控制的姿态控制器结构：

其中待调节的控制器参数向量为λ＝[λ₁ λ₂ λ₃]，，H∈R为飞行器高度，V∈R为飞行器速度大小。

具体实施步骤二：设计特征时间点，t₁＝1秒，t₂＝20秒，t₃＝40秒，t₄＝60秒。针对每一次飞行器姿态控制仿真实验结果，设计交互学习的环境状态(4)、学习奖励(5)与参数调整动作：

动作i_a(1≤i_a≤3)：

若i_λ≠i_a；

动作i_a(4≤i_a≤6)：

若i_λ≠i_a-3；

动作7：λ(k+1)＝λ(k)；

其中ε_θ＝0.01，Δλ₁＝1，Δλ₂＝0.0035，Δλ₃＝0.2。

具体实施步骤三：根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态S、参数调整动作act、学习奖励r以及历史学习经验Q值，更新学习经验Q值：

若S＝S(k-1)并且act＝act(k-1)，则

否则Q(S,act,k)＝Q(S,act,k-1),

其中学习率α_Q＝0.9，预期收益比重β_Q＝0.9，公式(8)中的最大值

通过查询学习经验Q值Q(S(k),act,k-1)获得。

初始的学习经验Q值

初始的控制器参数[λ₁(0) λ₂(0)λ₃(0)]＝[30 0.035 5]。

具体实施步骤四：根据每一次飞行器仿真实验后更新的学习经验Q值Q(S(k),act,k)，获得如下的优先行动集合：

具体实施步骤五：根据选择的参数调节动作act(k)来调整控制器参数，再执行飞行器姿态控制仿真实验。若本次飞行器仿真实验的姿态角跟踪误差平方积分小于0.0005，则输出控制器参数，否则，跳转至具体实施步骤三，更新学习经验Q值。

请参阅图2至图4，为了进一步研究本发明方法的适用性，为了检验本发明方法的适用性，进行飞行器滑翔段的俯仰角控制回路的参数调整实验，得到实验结果图(图2-图4)。图2是初始控制器参数与自动调参获得控制器参数的姿态角闭环响应图，图3是本发明方法参数调节过程图，图4是飞行器姿态角跟踪误差平方积分图。

图2中，采用初始控制器参数的飞行器姿态角闭环响应震荡现象明显，最大跟踪误差达到2.6度。同时，在本发明方法自动调整获得的控制器参数下，飞行器姿态角闭环响应品质优秀，姿态角跟踪误差维持在0.2度以内。本发明方法能够自动调节控制器参数，在复杂未知非线性飞行器对象下，满足高精度的工程需求。

通过图3可得控制器参数的自动调节过程。通过已设计的参数调整动作，每一次微调控制器参数，再根据调整后的仿真实验结果，迭代更新学习经验Q值，依据更新后的学习经验Q值来选择下一步的参数调整动作。最终，自动调节得到的控制器参数为[λ₁(0) λ₂(0)λ₃(0)]＝[20 0.042 3.4]。

图4展示了每一次飞行器仿真实验结果中的姿态角跟踪误差平方积分。前80次飞行器仿真实验的结果显示：姿态角跟踪误差平方积分值在上下波动。此阶段正是不断利用仿真实验结果，迭代更新学习经验Q值的过程。随后，随着控制器参数自动调整，姿态角跟踪误差平方积分快速下降，最终达到0.0004，满足飞行器姿态控制精度要求。

通过上述验证可明确得出，本发明实施例解决的技术问题是：针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响，在已有控制器结构基础上，发明了一种自动调节控制器参数的Q学习方法。飞行器姿态控制目标是设计舵面角度，使得飞行器姿态角能够跟踪参考信号。飞行器姿态控制受到诸多未知的、非线性的因素影响，包括舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差和舵面控制输入延迟。同时，不同飞行器的物理特性不同，导致这些未知的、非线性的因素具有差异。已有的控制器参数不能适应该变化，需要进行重新调节。本发明根据飞行器仿真实验结果，利用交互学习的方法，修正学习经验Q值，实现飞行器姿态控制参数自动调节。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。