CN114545979A

CN114545979A - 一种基于强化学习的飞行器智能滑模编队控制方法

Info

Publication number: CN114545979A
Application number: CN202210262190.9A
Authority: CN
Inventors: 韦常柱; 浦甲伦; 朱光楠; 刘哲; 谢子涵
Original assignee: Harbin Zhuyu Aerospace Technology Co ltd
Current assignee: Harbin Zhuyu Aerospace Technology Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-05-27
Anticipated expiration: 2042-03-16
Also published as: CN114545979B

Abstract

一种基于强化学习的飞行器智能滑模编队控制方法，属于飞行器控制技术领域。方法如下：构建飞行器编队控制模型；设计飞行器滑模编队控制器；构建滑模编队控制器参数整定强化学习网络。本发明基于滑模控制理论设计飞行器编队控制方法，并采用强化学习方法在线调整滑模控制器参数整定使飞行器根据实时飞行状态选取合适的控制参数以提升控制性能，是一种强鲁棒、高自适应性的飞行器编队控制方法，可使飞行器集群在强干扰、高不确定性环境下满足编队控制精度，有效减弱了外部干扰对编队控制效果的影响，提高了控制器的鲁棒性，有效提高了飞行器编队控制器的环境适应能力。

Description

一种基于强化学习的飞行器智能滑模编队控制方法

技术领域

本发明涉及一种基于强化学习的飞行器智能滑模编队控制方法，属于飞行器控制技术领域。

背景技术

飞行器编队控制问题面临模型非线性强、干扰复杂等诸多困难，传统编队控制方法基于简化线性模型设计，且未考虑外部干扰补偿等问题，导致其鲁棒性和环境适应性差，无法满足实际工程应用的要求。因此，急需开发一种新的飞行器编队控制方法。

发明内容

为解决背景技术中存在的问题，本发明提供一种基于强化学习的飞行器智能滑模编队控制方法。

实现上述目的，本发明采取下述技术方案：一种基于强化学习的飞行器智能滑模编队控制方法，所述方法包括如下步骤：

S1：构建飞行器编队控制模型；

S2：设计飞行器滑模编队控制器；

S3：构建滑模编队控制器参数整定强化学习网络。

与现有技术相比，本发明的有益效果是：

本发明基于滑模控制理论设计飞行器编队控制方法，并采用强化学习方法在线调整滑模控制器参数整定使飞行器根据实时飞行状态选取合适的控制参数以提升控制性能，是一种强鲁棒、高自适应性的飞行器编队控制方法，可使飞行器集群在强干扰、高不确定性环境下满足编队控制精度，有效减弱了外部干扰对编队控制效果的影响，提高了控制器的鲁棒性，有效提高了飞行器编队控制器的环境适应能力。

附图说明

图1是本发明的流程图；

图2是强化学习网络架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于强化学习的飞行器智能滑模编队控制方法，所述方法包括如下步骤：

S1：构建飞行器编队控制模型；

S101：构建飞行器动力学模型如下：

式(0-1)中：

i为飞行器编号；

x_i为飞行器i的x轴位置坐标；

y_i为飞行器i的y轴位置坐标；

z_i为飞行器i的z轴位置坐标；

V_i为飞行器i的飞行速度；

θ_i为飞行器i飞行时的弹道倾角；

ψ_i为飞行器i飞行时的弹道偏角；

[T_xi T_yi T_zi]^T为飞行器的推力矢量；

T_xi为飞行器推力在速度坐标系x方向的分量；

T_yi为飞行器推力在速度坐标系y方向的分量；

T_zi为飞行器推力在速度坐标系z方向的分量；

A_xi为飞行器i飞行时的阻力；

A_yi为飞行器i飞行时的升力；

A_zi为飞行器i飞行时的侧向力；

m_i为飞行器i的质量；

g为重力加速度；

定义飞行器i的控制矢量为u_i＝[u_xi u_yi u_zi]^T，

其中：

u_xi为飞行器i的x方向的加速度，且

u_yi为飞行器i的y方向的加速度，且

u_zi为飞行器i的z方向的加速度，且

则式(0-1)可改写为如下的矩阵形式：

式(0-2)中：

p_i为飞行器i的位置矢量，且p_i＝[x_i y_i z_i]^T；

q_i为飞行器i的速度矢量，且q_i＝[V_icosθ_i cosψ_i V_isinθ_i -V_icosθ_i sinψ_i]^T；

Φ_i为飞行器i的状态转移矩阵，

且

g′＝[0 g 0]^T为重力矢量。

S102：定义飞行器i的集群协同位置误差e_pi以及速度误差e_qi分别如下：

式(0-3)中：

N为飞行器数量；

j为飞行器编号；

a_ij用于描述飞行器i与飞行器j之间的通信关系，且满足

p_i为飞行器i的位置矢量；

p_j为飞行器j的位置矢量；

为飞行器i相对于飞行器j的期望位置矢量；

Δ_i为飞行器i相对于虚拟领导者的期望相对位置矢量；

Δ_j为飞行器j相对于虚拟领导者的期望相对位置矢量；

a_i0用于描述飞行器i获取虚拟领导者的能力，且满足

p₀＝[x₀ y₀ z₀]^T为虚拟领导者的位置矢量和速度矢量；

x₀为虚拟领导者的x坐标；

y₀为虚拟领导者的y坐标；

z₀为虚拟领导者的z坐标；

q_i为飞行器i的速度矢量；

q_j为飞行器j的速度矢量；

q₀＝[v_x0 v_y0 v_z0]^T为虚拟领导者为预先设计的标称轨迹；

v_x0为虚拟领导者的x方向速度；

v_y0为虚拟领导者的y方向速度；

v_z0为虚拟领导者的z方向速度；

令e_p＝[e_p1 e_p2 … e_pN]^T，e_q＝[e_q1 e_q2 … e_qN]^T，

则根据式(0-3)可得各飞行器集群的位置误差e_p以及速度误差e_q的矩阵为：

式(0-4)中：

p为各飞行器位置矢量构成的矩阵；

q为各飞行器速度矢量构成的矩阵；

Δ为飞行器集群相对于虚拟领导者的期望相对位置矩阵，且Δ＝[Δ₁ Δ₂ …Δ_N]^T；

L为通信拓扑的拉普拉斯矩阵；

p₀为虚拟领导者的位置矢量和速度矢量，且p₀＝[x₀ y₀ z₀]^T；

表示张量积；

1_N为元素均为1的列向量；

A₀＝diag(a_i0)为描述无人机与虚拟领导者通信关系的矩阵；

q₀＝[v_x0 v_y0 v_z0]^T为虚拟领导者为预先设计的标称轨迹；

S103：根据式(0-2)，建立编队控制模型如下：

式(0-5)中：

Φ＝[Φ₁ Φ₂ … Φ_N]为由各飞行器状态转移矩阵构成的矩阵；

u＝[u₁ u₂ … u_N]^T为由各飞行器加速度矢量构成的矩阵；

L为通信拓扑的拉普拉斯矩阵；

A₀＝diag(a_i0)为描述无人机与虚拟领导者通信关系的矩阵；

u₀＝[u_x0 u_y0 u_z0]^T为虚拟领导者加速度矢量；

u_x0为虚拟领导者的x方向加速度；

u_y0为虚拟领导者的y方向加速度；

u_z0为虚拟领导者的z方向加速度；

表示张量积；

1_N为元素均为1的列向量。

S2：设计飞行器滑模编队控制器；

S201：选择滑模面矩阵

为：

式(0-6)中：

γ₁为滑模面参数，且γ₁＞1；

γ₂为滑模面参数，且0＜γ₂＜1；

k₁为滑模面参数，且k₁＞0；

k₂为滑模面参数，且k₂＞0；

S202：设计协同控制律u′，即：滑模编队控制器如下：

式(0-7)中：

Φ^-1为矩阵Φ的逆矩阵，且

⊙表示矩阵元素对应相乘；

k₃为趋近律参数，且k₃＞0；

γ₃为趋近律参数，且γ₃＞1；

γ₄为趋近律参数，且0＜γ₄＜1；

k₄为趋近律参数，且k₄＞0。

S3：构建滑模编队控制器参数整定强化学习网络。

S301：确定强化学习的状态、动作和回报；

S30101：选择状态空间为位置偏差和速度偏差；

S30102：选择动作为滑模控制器的参数，动作空间由控制参数的上下界组成；

S30103：回报函数包含编队位置、速度控制误差平方的相反数J₁作为惩罚如下：

J₁＝-a₁(e_p)²-a₂(e_q)² (0-8)

式(0-8)中：

a₁以及a₂均为权值系数；

为了使智能体实现能量最优编队控制，引入编队控制指令平方的相反数J₂作为惩罚如下：

J₂＝-a₃u′² (0-9)

式(0-9)中：

a₃为权值系数；

同时，在训练过程中引入约束，当编队控制误差、编队控制时间超过设定阈值，或控制量大于最大约束时，给予一个大的惩罚J₃＝-P，P＞＞0，

同时终止本次交互过程；

综上所述，强化学习的回报函数定义为

r＝J₁+J₂+J₃(0-10)。

S302：构建强化学习网络。

S30201：由于参数整定问题的状态空间、动作空间具有连续、高维的特点，在训练过程中采用基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的Actor-Critic强化学习框架；

Actor部分根据状态s_t进行决策输出动作μ(s_t)，Critic部分则根据状态s_t及动作a_t，估计Q值。

S30202：对于Actor-Critic强化学习框架的每一部分，分别设置两个结构相同但参数不同的神经网络，即：online network与target network；

且在训练过程中，智能体的online-actor神经网络生成控制参数，并添加动作噪声，完成对编队控制参数的调整；

S30203：飞行器基于调整后的控制律生成编队控制指令，并输入智能体运动模型中，得到智能体下一步状态及反映编队控制结果的位置误差、速度误差；

S30204：将状态转换过程信息，即原状态-动作-奖励-转换状态[s_t,a_t,r_t,s_t+1]存入经验池；

按照设定的训练频次，随机抽取经验池中的样本，训练online神经网络并对target神经网络参数进行软更新。

S30205：训练完毕后，提取智能体的online-actor网络参数并固定下来；在编队控制过程中根据当前状态，预测输出调整后控制器参数，飞行器即可根据控制律输出指令，进行编队控制。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于强化学习的飞行器智能滑模编队控制方法，其特征在于：所述方法包括如下步骤：

S1：构建飞行器编队控制模型；

S2：设计飞行器滑模编队控制器；

S3：构建滑模编队控制器参数整定强化学习网络。

2.根据权利要求1所述的一种基于强化学习的飞行器智能滑模编队控制方法，其特征在于：S1所述飞行器编队控制模型的构建过程如下：

S101：构建飞行器动力学模型如下：

式(0-1)中：

i为飞行器编号；

x_i为飞行器i的x轴位置坐标；

y_i为飞行器i的y轴位置坐标；

z_i为飞行器i的z轴位置坐标；

V_i为飞行器i的飞行速度；

θ_i为飞行器i飞行时的弹道倾角；

ψ_i为飞行器i飞行时的弹道偏角；

[T_xi T_yi T_zi]^T为飞行器的推力矢量；

T_xi为飞行器推力在速度坐标系x方向的分量；

T_yi为飞行器推力在速度坐标系y方向的分量；

T_zi为飞行器推力在速度坐标系z方向的分量；

A_xi为飞行器i飞行时的阻力；

A_yi为飞行器i飞行时的升力；

A_zi为飞行器i飞行时的侧向力；

m_i为飞行器i的质量；

g为重力加速度；

定义飞行器i的控制矢量为u_i＝[u_xi u_yi u_zi]^T，

其中：

u_xi为飞行器i的x方向的加速度，且

u_yi为飞行器i的y方向的加速度，且

u_zi为飞行器i的z方向的加速度，且

则式(0-1)可改写为如下的矩阵形式：

式(0-2)中：

p_i为飞行器i的位置矢量，且p_i＝[x_i y_i z_i]^T；

q_i为飞行器i的速度矢量，且q_i＝[V_icosθ_icosψ_i V_isinθ_i -V_icosθ_isinψ_i]^T；

Φ_i为飞行器i的状态转移矩阵，

且

g′＝[0 g 0]^T为重力矢量。

式(0-3)中：

N为飞行器数量；

j为飞行器编号；

a_ij用于描述飞行器i与飞行器j之间的通信关系，且满足

p_i为飞行器i的位置矢量；

p_j为飞行器j的位置矢量；

为飞行器i相对于飞行器j的期望位置矢量；

Δ_i为飞行器i相对于虚拟领导者的期望相对位置矢量；

Δ_j为飞行器j相对于虚拟领导者的期望相对位置矢量；

a_i0用于描述飞行器i获取虚拟领导者的能力，且满足

p₀＝[x₀ y₀ z₀]^T为虚拟领导者的位置矢量和速度矢量；

x₀为虚拟领导者的x坐标；

y₀为虚拟领导者的y坐标；

z₀为虚拟领导者的z坐标；

q_i为飞行器i的速度矢量；

q_j为飞行器j的速度矢量；

q₀＝[v_x0 v_y0 v_z0]^T为虚拟领导者为预先设计的标称轨迹；

v_x0为虚拟领导者的x方向速度；

v_y0为虚拟领导者的y方向速度；

v_z0为虚拟领导者的z方向速度；

令e_p＝[e_p1 e_p2 … e_pN]^T，e_q＝[e_q1 e_q2 … e_qN]^T，

式(0-4)中：

p为各飞行器位置矢量构成的矩阵；

q为各飞行器速度矢量构成的矩阵；

Δ为飞行器集群相对于虚拟领导者的期望相对位置矩阵，且Δ＝[Δ₁ Δ₂ … Δ_N]^T；

L为通信拓扑的拉普拉斯矩阵；

表示张量积；

1_N为元素均为1的列向量；

A₀＝diag(a_i0)为描述无人机与虚拟领导者通信关系的矩阵；

q₀＝[v_x0 v_y0 v_z0]^T为虚拟领导者为预先设计的标称轨迹；

S103：根据式(0-2)，建立编队控制模型如下：

式(0-5)中：

u＝[u₁ u₂ … u_N]^T为由各飞行器加速度矢量构成的矩阵；

L为通信拓扑的拉普拉斯矩阵；

A₀＝diag(a_i0)为描述无人机与虚拟领导者通信关系的矩阵；

u₀＝[u_x0 u_y0 u_z0]^T为虚拟领导者加速度矢量；

u_x0为虚拟领导者的x方向加速度；

u_y0为虚拟领导者的y方向加速度；

u_z0为虚拟领导者的z方向加速度；

表示张量积；

1_N为元素均为1的列向量。

3.根据权利要求2所述的一种基于强化学习的飞行器智能滑模编队控制方法，其特征在于：S2所述滑模编队控制器的设计过程如下：

S201：选择滑模面矩阵

为：

式(0-6)中：

γ₁为滑模面参数，且γ₁＞1；

γ₂为滑模面参数，且0＜γ₂＜1；

k₁为滑模面参数，且k₁＞0；

k₂为滑模面参数，且k₂＞0；

S202：设计协同控制律u′，即：滑模编队控制器如下：

式(0-7)中：

Φ^-1为矩阵Φ的逆矩阵，且

⊙表示矩阵元素对应相乘；

k₃为趋近律参数，且k₃＞0；

γ₃为趋近律参数，且γ₃＞1；

γ₄为趋近律参数，且0＜γ₄＜1；

k₄为趋近律参数，且k₄＞0。

4.根据权利要求3所述的一种基于强化学习的飞行器智能滑模编队控制方法，其特征在于：S3所述强化学习网络的构建方法如下：

S301：确定强化学习的状态、动作和回报；

S302：构建强化学习网络。

5.根据权利要求4所述的一种基于强化学习的飞行器智能滑模编队控制方法，其特征在于：所述S301包括如下步骤：

S30101：选择状态空间为位置偏差和速度偏差；

J₁＝-a₁(e_p)²-a₂(e_q)² (0-8)

式(0-8)中：

a₁以及a₂均为权值系数；

J₂＝-a₃u′² (0-9)

式(0-9)中：

a₃为权值系数；

同时终止本次交互过程；

综上所述，强化学习的回报函数定义为

r＝J₁+J₂+J₃ (0-10)。

6.根据权利要求5所述的一种基于强化学习的飞行器智能滑模编队控制方法，其特征在于：所述S302包括如下步骤：

S30201：采用基于深度确定性策略梯度的Actor-Critic强化学习框架；