CN115576353A

CN115576353A - 一种基于深度强化学习的飞行器编队控制方法

Info

Publication number: CN115576353A
Application number: CN202211288418.8A
Authority: CN
Inventors: 王晓芳; 尹依伊; 林海
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-06
Anticipated expiration: 2042-10-20
Also published as: CN115576353B

Abstract

本发明提供一种基于深度强化学习的飞行器编队控制方法，考虑环境对飞行器的随机扰动，建立了飞行器编队运动模型，然后将编队问题映射为马尔可夫决策过程，构建了深度强化学习网络对飞行器的编队行为进行学习，主要是依据飞行器执行动作后环境给于的反馈进行学习，因此经过多次的学习、探索，飞行器就能获得正确的编队控制动作，这种方法无需飞行器的精确数学模型，因此，在模型中存在环境随机干扰时也是可行、有效的；将编队形成过程划分为三段能够有效降低各阶段的状态空间维度，增加网络训练成功率；在训练得到基于强化学习的编队控制算法后，可适用于从弹从不同初始位置开始编队，而无需再进行网络训练，大大拓展了本编队控制器的应用范围。

Description

一种基于深度强化学习的飞行器编队控制方法

技术领域

本发明属于多飞行器协同制导与控制技术领域，具体涉及一种基于深度强化学习的飞行器编队控制方法。

背景技术

针对编队控制问题，目前的方法主要有基于PID控制的经典控制方法和基于滑模控制、反步法控制、动态面控制、预设性能控制等现代控制理论的控制方法。文献“DU J,LIUG,JIA T,et al..Design of formation controller based on bp neural network PIDcontrol”将BP神经网络与PID控制相结合，设计了自适应PID控制器，提高了编队收敛时间，具有更小的超调量和更强的抗扰动能力；

文献“李贺,王宁,薛皓原的水面无人艇领航—跟随固定时间编队控制”、文献“施文煜,梁霄,曲星儒等的基于RBF积分滑模的无人艇集群协同路径跟踪控制”以及文献“JIAZ,WANG L,YU J,et al.Distributed adaptive neural networks leader-followingformation control for quadrotors with directed switching topologies”均基于现代控制理论设计了控制器，其中前两篇文献基于滑模控制理论设计了编队控制器，针对存在扰动的情况。第一篇通过引入扰动观测器设计了具有一定鲁棒性的编队控制器；第二篇采用神经网络逼近非线性未知项，提高控制器的抗干扰能力；第三篇基于反步法与动态表面控制技术设计了编队控制器，并采用自适应神经网络状态观测器来逼近未知项；

文献“薛瑞彬,宋建梅,张民强的具有时延及联合连通拓扑的多飞行器分布式协同编队飞行控制研究”，文献“龚健,熊俊俏的基于模糊自适应的多无人机编队协同控制平台”以及文献“李小民,毛琼,甘勤涛等的有界变化时滞和联合连通拓扑条件下的分布式无人机编队飞行控制策略”采用一致性算法设计了编队控制器，其中，第二篇文献采取模糊逻辑系统逼近未知函数以提高控制精度，第三篇文献将通信拓扑的高维矩阵求解问题转化为若干个连通部分的低维矩阵求解问题，提高了算法的求解效率。文献“尹依伊,王晓芳,田震等的基于预设性能控制的多导弹编队方法”考虑多导弹在编队形成过程中的碰撞避免问题，基于预设性能控制理论设计了编队控制器。

复杂度日益提升的战场态势对多飞行器编队飞行的自主性与智能性提出更高要求，上述前七篇文献中，均没有考虑飞行器在编队形成过程中的碰撞避免问题，如果控制器的参数设置不合适，则在队形形成过程中，可能出现飞行器碰撞的情况。第八篇文献考虑了飞行器编队控制过程中的防碰撞问题，但是当飞行器的个数很多时，方法中避碰逻辑的设计将变得非常困难，同时该文献中也没有考虑环境对飞行器的干扰。

发明内容

有鉴于此，本发明的目的是提供一种基于深度强化学习的飞行器编队控制方法，可以实现编队的精确控制。

一种基于深度强化学习的飞行器编队控制方法，包括：

步骤1、建立编队控制的马尔可夫模型：

考虑环境中的随机干扰，建立用于描述编队运动的马尔可夫模型；定义联合状态S＝[x_i,z_i,V_fi,ψ_fi]；其中，x_i、z_i分别为跟随者i的x和z方向坐标；V_fi、ψ_fi分别为跟随者i的速度、速度偏角；V_L、ψ_L分别为领导者的速度、速度偏角；将跟随者的单位时间速度和速度偏角变化量△V_fi、△ψ_fi作为控制变量；确定△V_fi、△ψ_fi可变化的范围并离散化处理，得到联合动作空间A＝[△V_fi,△ψ_fi]；△V_fi＝[-u_V,0,+u_V]、△ψ_fi＝[-u_ψ,0,+u_ψ]，u_V>0、u_ψ>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值；

步骤2、基于深度强化学习的编队控制网络训练：

采用DQN算法，建立神经网络，设定神经网络的输入为联合状态与动作空间的各项参数，输出为联合状态、对应动作下的Q值；

将编队控制过程划分为编队初形成阶段、交接阶段以及保持阶段共三个阶段；通过获取每个阶段的样本，为每一个阶段训练一个对应的所述神经网络；在编队控制过程中，根据跟随者所在的阶段以及当前的联合状态，选择对应的神经网络输出的Q值最大的动作，并进行状态转移，得到下一时刻的联合状态，以此类推，控制跟随者从初始位置飞至期望位置。

进一步的，当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时，定义转换坐标系z′Ox′，然后进行坐标变换，使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同，再采用已训练好的神经网络对跟随者a进行编队控制，实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行，然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。

进一步的，定义邻近区域：神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域；当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时，在靠近所述邻近区域边界内侧设置一个临时期望位置，则跟随者a的初始位置到临时期望位置构成第一个飞行阶段，临时期望位置与期望位置构成第二个飞行阶段；对于第一个飞行阶段，采用初形成段的神经网络控制跟随者进入到所述邻近区域；对于第二个飞行阶段，分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制，实现编队飞行。

进一步的，当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时，通过多次设置临时期望位置，最终控制跟随者a进入到所述邻近区域。

较佳的，某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时，进行所述坐标变换的具体过程如下：

定义所述邻近区域的边长l₁、l₂满足：

式中，k₃为比例系数，且k₃>1；x₁、z₁分别为神经网络训练时定义的跟随者在x、z方向上的初始位置；hx₁、hz₁分别为神经网络训练时定义的跟随者在x、z方向上的期望位置；变换坐标系为原坐标系进行正交变换后的坐标系，其满足跟随者a在变换坐标系下的期望位置与跟随者a在神经网络训练时定义的原坐标系下的期望位置相同；为了使变换后的跟随者初始位置坐标位于变换坐标系z′Ox′内的邻近区域，定义跟随者a的初始位置在变换坐标系下的坐标为：

式中，x₂、z₂分别为跟随者a在x、z方向上的初始位置；hx′₂＝hx₁,hz′₂＝hz₁；为了使变换后的坐标系z′Ox′与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹，坐标系的变换满足正交变换关系：

式中，λ、n₁、n₂为正交变换参数，λ为旋转角度，n₁、n₂为平移量；

采用已训练好的神经网络求解初始位置为(x′₂,z′₂)、期望位置为(hx′₂,hz′₂)的跟随者a随时间变化的联合状态与动作，采用动作对跟随者a进行控制，实现在变换坐标系中从初始位置到期望位置的飞行，然后经过如下的坐标变换：

即可求得在原相对坐标系zOx下的飞行轨迹，即实现跟随者a从初始位置(x₂,z₂)飞至期望位置(hx₂,hz₂)；

当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时，实现编队飞行的具体过程如下：

若跟随者a的初始位置与期望位置满足：

|hx′₂-x′₂|≤2l₁-L₁ (13)

|hz′₂-z′₂|≤2l₁-L₁ (14)

则变换一次即可使临时期望位置位于所述邻近区域内，临时期望位置的设置方法为：

跟随者在临时变换坐标系z′_aOx′_a下的初始坐标为：

式中，hx_a2＝hx₁,hz_a2＝hz₁为临时变换坐标系下的期望位置；坐标系的变换满足正交变换关系为：

由于临时变换坐标系与变换坐标系可通过平移得到，因此λ_a＝0，直接根据式(17)反解得到平移坐标变换参数n_a1、n_a2。

较佳的，所述神经网络包括训练网络Q_net和目标网络Q_target；目标网络Q_target通过每隔设定时间拷贝训练网络Q_net获得；

在对编队初形成阶段、交接阶段以及保持阶段进行神经网络训练时，将每一阶段的训练过程分为观察期与探索期两个训练阶段；

对于观察期，将获得的跟随者的联合状态及动作作为目标网络Q_target的输入，输出Q值后，获得训练网络Q_net的期望输出，再根据跟随者的联合状态及动作得到训练网络的实际输出，由此得到一系列的样本，并存储；

对于探索期，获得新样本并存储的同时，利用已存储样本对训练网络进行更新。

较佳的，训练网络Q_net的期望输出的计算公式为：

式中，r为设定的回报函数值；γ为衰减值，

表示目标网络Q_target在输入为t+1时刻联合状态S_t+1，动作空间为A时，输出的最大Q值。

较佳的，回报函数r为：

式中，在编队控制过程的第n个阶段时，n＝1,2,3，C_xn、C_zn分别表示在第n个阶段由x方向位置误差、z方向位置误差引起的损失值，C_Vn、C_ψn分别表示在第n个阶段由速度、速度偏角误差引起的损失值，k_1n、k_2n为比例系数，C_nmax为第n个阶段最大位置误差损失值；参数C_xn、C_zn、C_Vn、C_ψn的解算方法为：

式中，hx_i、hz_i分别为跟随者i在n个阶段时x、z方向上的期望位置，L_n为设定的n个阶段的局部范围容忍长度，U_Vn、U_ψn为n个阶段跟随者速度、跟随者速度偏角的容忍范围。

较佳的，训练网络Q_net的实际输出为：输入为t+1时刻联合状态S_t+1，动作为A_t时输出的Q值；其中，A_t从动作空间A中按照如下公式进行选择：

式中，random A表示在联合动作空间中任意选取的动作；rand_t为t时刻在(0,1)范围内的随机数取值；S_t表示t时刻的联合状态；argmax_AQ_t(S_t,A)表示在联合状态S_t，动作空间A中的各个动作下，目标网络Q_target的最大输出，即Q值最大时对应的动作。

进一步的，还包括跟随者自主避碰方法，具体为：

跟随者在进行动作选择时，速度变化量按照Q值最大的原则选取，速度偏角变化量则在原来基础上同时考虑碰撞避免因素进行选择，具体为：

假设某跟随者与其他跟随者的最小距离为d；

情况1)、当跟随者间距离d小于初始规避距离d₁且

时，遍历速度偏角变化量△ψ_fi的可行动作，选择使d(t+1)最大的动作

作为速度偏角变化量取值；

情况2)、当跟随者间距离d小于紧急规避距离d₂且

时，速度偏角变化量取值为

设k_d>0为常值，且其求解公式为：

式中，△t为设定的仿真步长，V_fimax为允许的最大速度；a_zimax为跟随者的最大侧向加速度；当计算得到的k_d<1时，令k_d＝1；

情况3)、当不属于情况1)和情况2)时，取当前状态下Q值最大的动作中的速度偏角变化量。

本发明具有如下有益效果：

本发明提供一种基于深度强化学习的飞行器编队控制方法，考虑环境对飞行器的随机扰动，建立了飞行器编队运动模型，然后将编队问题映射为马尔可夫决策过程，构建了深度强化学习网络对飞行器的编队行为进行学习，主要是依据飞行器执行动作后环境给于的反馈(奖励或惩罚)进行学习，因此经过多次的学习、探索，飞行器就能获得正确的编队控制动作，这种方法无需飞行器的精确数学模型，因此，在模型中存在环境随机干扰时也是可行、有效的。

将编队形成过程划分为三段能够有效降低各阶段的状态空间维度，增加网络训练成功率。

在训练得到基于强化学习的编队控制算法后，可适用于从弹从不同初始位置开始编队，而无需再进行网络训练，并且给出了能够应用训练好的编队控制器的从弹坐标变换方法，大大拓展了本编队控制器的应用范围。

另外，本发明还设计了从弹自主避碰策略，即当存在碰撞风险时，给出了从弹的动作选择策略，可避免编队飞行过程中的碰撞。

附图说明

图1为本发明的编队变化过程示意图；

图2为本发明的DQN算法的结构；

图3为本发明的跟随者坐标变换示意图；

图4为本发明的临时期望位置示意图；

图5为本发明的规避距离示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

步骤1、建立编队控制的马尔可夫模型

假设各飞行器定高飞行且领导者飞行方向不变，同时考虑环境中的随机干扰，则编队运动模型为：

式中，x_i、z_i(i＝1,2,3…)分别为跟随者i在领导者弹道坐标系的坐标；V_fi、ψ_fi、V_L、ψ_L分别为跟随者i和领导者的速度、速度偏角；a_xi、a_zi分别为切向加速度和法向加速度；η_x、η_z为服从正态分布的随机扰动。

对于多导弹编队来讲，当跟随者到达队形要求的期望位置且与领导者的速度、弹道偏角保持一致时才形成期望编队，若将整个编队形成、保持过程看作一个整体来建立马尔可夫模型，则存在状态空间维度大、奖励稀疏等问题，强化学习中网络训练难度较大，因此，本发明将编队过程划分为编队初形成阶段、交接阶段以及保持阶段，在编队初形成阶段跟随者到达期望位置附近的局部范围内，在交接段跟随者在局部范围内调整位置，直至飞到期望位置的小邻域内且运动状态与领导者保持一致，在编队保持阶段跟随者在扰动存在的情况下通过微调控制量使其能够以一定的精度保持编队飞行，三个过程如附图1所示。

附图1中，圆圈代表初始位置，五角星代表期望位置，大方框区域为编队初形成阶段的期望局部范围，小方框区域为交接段的期望局部小邻域。将编队形成过程划分为三段能够有效降低各阶段的状态空间维度，增加网络训练成功率。

不失一般性，以一枚领导者、一枚跟随者的编队运动模型为例建立马尔科夫决策模型。建立马尔科夫决策模型需要对状态、动作以及回报函数进行设置。针对编队控制问题，状态的设置需要明确表示跟随者与领导者的相对位置关系以及相对运动关系，因此，根据式(1)中的编队控制模型，定义联合状态S＝[x_i,z_i,V_fi,ψ_fi]。将编队控制问题的控制量离散化构成离散的动作空间，式(1)中的控制量为切向加速度a_xi和法向加速度a_zi，但是若将加速度直接作为动作空间，对动作进行离散化处理后会出现动作空间范围过大的问题，因此，选择△V_fi、△ψ_fi作为控制量，离散化处理后的动作空间分别为△V_fi＝[-u_V,0,+u_V]、△ψ_fi＝[-u_ψ,0,+u_ψ]，u_V>0、u_ψ>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值。本编队控制问题中的联合动作空间为A＝[△V_fi,△ψ_fi]。

合理设置回报函数能够有效引导跟随者实现阶段目的，降低网络的训练难度。针对本发明的三段编队控制问题，设计回报函数r为：

式中，在第n(n＝1,2,3)个阶段时，C_xn、C_zn分别表示由x方向位置误差、z方向位置误差引起的损失值，C_Vn、C_ψn分别表示由速度、速度偏角误差引起的损失值，k_1n、k_2n为比例系数，C_nmax为最大位置误差损失值。参数C_xn、C_zn、C_Vn、C_ψn的解算方法为：

式中，hx_i、hz_i分别为跟随者i在x、z方向上的期望位置，L_n(n＝1,2,3)为设定的局部范围容忍长度，U_Vn、U_ψn为跟随者速度、跟随者速度偏角的容忍范围。此回报函数的设置，能够保证当无人机距离期望位置越近、速度大小与方向与领导者越接近时，其获得的回报越大，以此引导飞行器向期望位置飞行。由于飞行器逐渐靠近期望位置，因此需满足C_3max≤C_2max<C_1max，L₃≤L₂<L₁。

动作的选择策略采用改进的ε-贪婪策略。由于在训练初期跟随者对环境的认知较少，本发明将训练周期T_s引入动作选择策略中，使训练前期侧重探索性、训练后期侧重择优性，动作的选择策略为：

式中，random A表示在联合动作空间中任意选取的动作；rand_t为t时刻在(0,1)范围内的随机数取值；S_t表示t时刻的联合状态；argmax_AQ_t(S_t,A)表示在联合状态S_t，动作空间A中的各个动作下，DQN算法输出的最大输出，即Q值最大时对应的动作。

步骤2、基于深度强化学习的编队控制网络训练：

针对状态、动作空间维度大的马尔科夫决策问题，传统Q学习存在Q-table维数高、收敛慢等问题，本发明采用DQN(Deep Q Network)算法，通过神经网络模拟Q-table输出，从而提高求解效率。设定神经网络的输入为状态空间与动作空间的各项(x_i、z_i、V_fi、ψ_fi、△V_fi、△ψ_fi)，输出为对应状态、动作下的Q值。

DQN算法包括训练网络Q_net与目标网络Q_target，该双层网络结构可以提高网络训练的稳定性。训练网络Q_net的期望输出(Q值)的计算公式为：

式中，γ为衰减值，Q_target(S_t+1,A)表示目标网络Q_target在输入为S_t+1,A时，输出的最大Q值，目标网络Q_target通过每隔一个设定时间拷贝训练网络Q_net获得。

根据期望输出与实际输出求解损失函数值，进而对训练网络Q_net进行更新，定义损失函数的求解公式为：

上式中，Q_net(S_t+1,A_t)表示训练网络Q_net在输入为S_t+1,A_t时的实际输出的Q值。A_t根据公式(4)选择出来的。

为了使网络在训练前获得充足的样本，提高网络的训练效率，本发明将训练过程划分为观察期与探索期两部分。在观察期不对神经网络进行训练，初始化训练网络后通过跟随者与环境进行交互获取样本，即将获得的跟随者的联合状态及动作作为目标网络Q_target的输入，输出的Q值后，根据公式(5)获得训练网络Q_net的期望输出，再根据跟随者的联合状态及动作得到训练网络的实际输出，由此得到一系列的样本，将样本储藏在记忆回放矩阵中，直至记忆回放矩阵中有足够的样本数。训练关系示意图如附图2所示。

由于编队各阶段的阶段性目的不同，因此网络训练的终止条件有所区别，编队初形成段与交接段的终止条件为r＝0或达到单幕最大迭代数t_max，而由于保持段初始时r＝0，因此此阶段的终止条件为r＝0持续设定次数或达到单幕最大迭代数t_max。由于各阶段是依次训练的，因此下一阶段的初始位置由上一阶段终止时刻的位置决定，即编队交接段的初始位置为采用初形成段控制跟随者时该幕终止时刻的跟随者位置，编队保持段的初始位置同理可得。

各阶段基于DQN算法的编队控制算法步骤为：

(1)、随机初始化训练网络、记忆回放矩阵，转入步骤(2)。

(2)、初始化跟随者的初始位置、期望位置，转入步骤(3)。

(3)、观察期阶段跟随者根据当前状态S_t和式(4)的选择策略选择的动作A_t，转移至新的状态S_t+1，将获得的样本S_t、A_t及S_t+1存入记忆回放矩阵中，转入步骤(4)。

(4)、判断记忆回放矩阵中样本数目是否达到设定数目，若未达到终止条件则将状态S_t+1作为当前状态并返回步骤(3)，若达到则转步骤(5)。

(5)、进入探索期，此阶段开始对网络进行训练，转入步骤(6)。

(6)、探索期跟随者根据当前状态S_t和式(4)的选择策略选择的动作A_t，转移至新的状态S_t+1，将S_t、A_t及S_t+1存入记忆回放矩阵中。当迭代次数满足拷贝间隔时，将训练网络Q_net拷贝给目标网络Q_target。当迭代次数满足训练间隔时，根据式(6)计算损失函数，并基于自适应梯度下降法对训练Q_net进行更新。

(7)、根据跟随者状态判断是否达到该幕的终止条件，若未达到终止条件则将状态S_t+1作为当前状态并返回步骤(6)，若达到终止条件，完成迭代。

采用上述步骤分别对编队过程的三阶段网络进行训练，可得到三个阶段的控制网络，然后将其应用于跟随者的控制中。

步骤3、考虑飞行器不同初始位置的编队控制网络应用方法

依次根据编队初形成、编队交接及编队保持三个阶段的神经网络选取Q值最大的动作并进行状态转移，可使跟随者从初始位置飞至期望位置，并保持在期望位置的小领域内飞行。针对每一个不同初始位置、期望位置的跟随者，若都进行三个阶段的网络训练，则训练时间代价很高，因此，本发明设计位置变换法将现有网络应用于不同初始位置、期望位置的跟随者，从而提高DQN算法的编队控制效率。跟随者初始状态变化关系图如附图3所示。附图3中圆点和五角星分别为跟随者1的初始位置与期望位置，正方形、三角形分别为跟随者2的初始位置与期望位置。根据跟随者1的初始位置与期望位置进行三个阶段的训练，得到三个阶段的训练网络以及跟随者1的飞行轨迹。根据强化学习探索与择优相平衡的特点，跟随者1从初始位置到期望位置的飞行轨迹及其邻近区域内(即图中灰色区域代表的邻近区域)，各状态网络训练的更充分，当跟随者1的初始位置改变且仍位于跟随者1邻近区域内且期望位置不变时，可根据已训练好网络快速得到飞行轨迹。

情况1、当跟随者2的期望位置与跟随者1不同时，也无法直接采用已有训练网络，可定义一个新的坐标系，然后进行坐标变换，使变换后跟随者2的期望位置坐标与跟随者1在原坐标系zOx下的期望位置坐标相同，进而采用已训练好的网络。情况2、在情况1的基础上，当跟随者2的初始位置不在上述定义的邻近区域时，直接应用之前训练好的网络，会导致编队性能将比较差，可以通过设计临时期望位置控制其飞入图3中跟随者1的邻近区域内，再采用已有网络进行控制。

针对情况1，本发明采用的解决方案具体过程如下：

定义图中邻近区域的边长l₁、l₂满足：

式中，k₃为比例系数，且k₃>1。变换坐标系为原坐标系进行正交变换后的坐标系，其满足跟随者2在变换坐标系下的期望位置与跟随者1在原坐标系下的期望位置相同。为了使变换后的跟随者2初始位置坐标位于变换坐标系z′Ox′内的灰色区域，定义跟随者2的初始位置在变换坐标系下的坐标为：

式中，hx′₂＝hx₁,hz′₂＝hz₁。为了使变换后的坐标系z′Ox′与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹，坐标系的变换满足正交变换关系：

式中，λ、n₁、n₂为正交变换参数，λ为旋转角度，n₁、n₂为平移量。通过代入跟随者2在原坐标系zOx下的初始位置坐标(x₂,z₂)、期望位置坐标(hx₂,hz₂)以及坐标变换后的初始位置坐标(x′₂,z′₂)、期望位置(hx′₂,hz′₂)，即可通过求解方程组得到正交变换参数λ、n₁、n₂。

采用跟随者1的神经网络求解初始位置为(x′₂,z′₂)、期望位置为(hx′₂,hz′₂)的跟随者2随时间变化的联合状态S_t＝[x′₂(t),z′₂(t),V_f2(t),ψ_f2(t)]与联合动作A_t＝[△V_f2(t),△ψ_f2(t)]，采用联合动作A_t对跟随者2进行控制，则可实现在变换坐标系中从初始位置到期望位置的飞行，然后经过如下的坐标变换：

即可求得在原相对坐标系zOx下的飞行轨迹，即实现跟随者2从初始位置(x₂,z₂)飞至期望位置(hx₂,hz₂)。

针对情况2，本发明采用的解决方案具体过程如下：

若跟随者2初始位置位于图3中深灰色区域之外，即出现以下情况之一时：

|hx₂-x₂|≥k₃|hx₁-x₁| (11)

|hz₂-z₂|≥k₃|hz₁-z₁| (12)

根据已有的训练好的神经网络无法直接获得跟随者2的控制策略，可通过定义临时期望位置并采用初形成段网络控制跟随者2，引导其向深灰色区域内飞行。为了便于理解，本部分内容在变换坐标系z′Ox′下进行说明，如附图4所示。附图4中由于圆点表示的初始位置与五角星表示的期望位置之间的距离太大，导致超出了之前训练网络时的范围，因此，为了引导跟随者朝深灰色区域内飞行，当x方向的距离大于边长l₁时，设置临时期望位置hx′_a′2在深灰色区域的边界附近，并位于深灰色区域内侧，否则设置为初始位置与期望位置的中心，z方向同理，附图4中的临时期望位置如三角星所示。则可得到初始位置为(x′₂,z′₂)、期望位置为(hx′_a2,hz′_a2)和初始位置为(hx′_a2,hz′_a2)、期望位置为(hx′₂,hz′₂)的两个阶段；对于第一个阶段，采用初形成段的神经网络控制跟随者2进入到深灰色区域；对于第二个阶段则可以采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制，实现编队飞行。

由附图4可见，若跟随者2的初始位置与期望位置满足：

|hx′₂-x′₂|≤2l₁-L₁ (13)

|hz′₂-z′₂|≤2l₁-L₁ (14)

则变换一次即可使临时期望位置位于深灰色区域内，临时期望位置的设置方法为：

类似于式(8)，跟随者2在临时变换坐标系z′_aOx′_a下的初始坐标为：

式中，hx_a2＝hx₁,hz_a2＝hz₁为临时变换坐标系下的期望位置。坐标系的变换满足正交变换关系为：

由于临时变换坐标系与变换坐标系可通过平移得到，因此λ_a＝0，可直接根据式(17)反解得到平移坐标变换参数n_a1、n_a2。

若跟随者2的初始位置与期望位置出现以下情况之一时：

|hx′₂-x′₂|>2l₁-L₁ (18)

|hz′₂-z′₂|>2l₁-L₁ (19)

跟随者2无法通过叠加一次平移变换到达期望位置，此时可通过设置多个临时期望位置，通过叠加多次平移变换，使跟随者2依次到达各个临时期望位置附近，直至其进入深灰色区域内。

步骤4、跟随者自主避碰策略设计：

多飞行器在队形形成过程中，可能发生碰撞，以一枚跟随者为例说明避碰策略的设计。引入初始规避距离d₁及紧急规避距离d₂，d₁、d₂的关系如附图5所示。

某跟随者在进行动作选择时，△V_fi仍然按照Q值最大的原则选取，△ψ_fi则在原来基础上同时考虑碰撞避免因素进行选择。假设某跟随者与其他n个跟随者的距离为d¹,d²,...,dⁿ，则最小距离d＝min{d¹,d²,...,dⁿ}。

当跟随者间距离d小于初始规避距离d₁且

时，遍历△ψ_fi的可行动作，选择使d(t+1)最大的动作

作为速度偏角变化量取值；

当跟随者间距离d小于紧急规避距离d₂且

时，此时需要进行紧急避碰处理，速度偏角变化量取值为

为了方便，设k_d>0为常值，且其求解公式为：

式中，△t为设定的仿真步长，V_fimax为允许的最大速度；a_zimax为跟随者的最大侧向加速度，由式(20)求得的k_d决定了导弹以比小于或等于a_zimax的法向加速度飞行，同时考虑到紧急避碰要求，应有k_d≥1，因此，当式(20)计算得到的k_d<1时，令k_d＝1。其他情况，仍然取当前状态下Q值最大的动作。

综上，考虑飞行器间碰撞避免的速度偏角动作选择策略为：

所有跟随者均按照上述策略选取动作，即可实现在编队飞行过程中的碰撞避免。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的飞行器编队控制方法，其特征在于，包括：

步骤1、建立编队控制的马尔可夫模型：

步骤2、基于深度强化学习的编队控制网络训练：

2.如权利要求1所述的一种基于深度强化学习的飞行器编队控制方法，其特征在于，当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时，定义转换坐标系z′Ox′，然后进行坐标变换，使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同，再采用已训练好的神经网络对跟随者a进行编队控制，实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行，然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。

3.如权利要求2所述的一种基于深度强化学习的飞行器编队控制方法，其特征在于，定义邻近区域：神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域；当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时，在靠近所述邻近区域边界内侧设置一个临时期望位置，则跟随者a的初始位置到临时期望位置构成第一个飞行阶段，临时期望位置与期望位置构成第二个飞行阶段；对于第一个飞行阶段，采用初形成段的神经网络控制跟随者进入到所述邻近区域；对于第二个飞行阶段，分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制，实现编队飞行。

4.如权利要求3所述的一种基于深度强化学习的飞行器编队控制方法，其特征在于，当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时，通过多次设置临时期望位置，最终控制跟随者a进入到所述邻近区域。

5.如权利要求4所述的一种基于深度强化学习的飞行器编队控制方法，其特征在于，某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时，进行所述坐标变换的具体过程如下：

定义所述邻近区域的边长l₁、l₂满足：