CN114578860A

CN114578860A - 一种基于深度强化学习的大规模无人机集群飞行方法

Info

Publication number: CN114578860A
Application number: CN202210310624.8A
Authority: CN
Inventors: 王菖; 闫超; 相晓嘉; 李�杰; 周晗; 唐邓清; 赖俊
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-03

Abstract

本发明公开了一种基于深度强化学习的大规模无人机集群飞行方法，该方法将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模；构建基于执行器网络和评价器网络组成的课程强化学习框架，并在课程强化学习框架中设置基于注意力机制的群体恒定网络；根据课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略；根据当前课程的前一个课程中的每一架无人机的经验数据，更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本发明能够有效提高大规模无人机的学习和训练效率，有效避免大规模无人机集群飞行时发生碰撞，并具有强大的泛化能力。

Description

一种基于深度强化学习的大规模无人机集群飞行方法

技术领域

本发明涉及无人机技术领域，具体涉及一种基于深度强化学习的大规模无人机集群飞行方法。

背景技术

近年来，随着机器人技术、机器学习技术以及智能控制技术的不断发展，无人机自主控制技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点，在区域侦察、灾难搜救、边境管控等任务中得到了广泛的应用。上述任务通常需要通过多架无人机的协同配合来提高任务完成效率。然而，无人机群自主飞行与避障行为的获取难度与无人机的数量、任务复杂度都密切相关，仍然是一个极具挑战的理论难题。

传统的控制方法通常依赖于无人机平台和外界扰动的精确模型。但由于上述的精确模型具有复杂、时变和非线性的特点，并且受传感器误差、环境扰动等因素的影响，使得传统控制方法难以解决大规模无人机集群的控制问题。

近年来，强化学习方法在集群的自主控制问题中得到了初步应用。但是，由于固定翼无人机集群在实际应用中存在规模大、动态性强、训练时间长等挑战，现有的强化学习方法难以解决集群规模动态变化、任务复杂度不断提升的无人机集群防撞飞行控制问题。

发明内容

为解决现有技术中存在的问题，本发明提供一种基于深度强化学习的大规模无人机集群飞行方法，能够解决集群规模动态变化、任务复杂度不断提升的无人机集群防撞飞行控制问题，有效提高大规模无人机的学习和训练效率。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行方法，包括步骤：

将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模；

构建基于执行器网络和评价器网络组成的课程强化学习框架，并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络，所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合；

根据所述课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略；并根据当前课程的前一个课程中的每一架无人机的经验数据，更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。

与现有技术相比，本发明第一方面具有以下有益效果：

本方法将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模；使用课程强化学习框架依次对每个课程进行策略学习，该课程强化学习框架基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合，并在当前课程的前一个课程中学习所得控制策略的基础上，继续更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本方法通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合，能够对输入向量维度进行自适应动态调整以及允许加载之前的网络，通过课程强化学习框架有效提高大规模无人机的学习和训练效率，有效避免大规模无人机集群飞行时发生碰撞，并具有强大的泛化能力。

进一步，所述在所述课程强化学习框架中设置基于注意力机制的群体恒定网络，包括：

在所述执行器网络中，使用僚机i的观测向量

作为输入，动作

是僚机i的观测向量

的函数，其中，所述

表示僚机i的状态，所述

表示所述僚机i的邻居僚机j的状态，所述

表示长机的状态；

对所述僚机i的状态、所述邻居僚机j的状态和所述长机的状态进行编码，编码公式为：

其中，所述FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数，所述e_i表示僚机i的嵌入，所述e_j表示所述僚机i的邻居僚机j的嵌入，所述e_l表示长机的嵌入；

设计注意力嵌入模块，根据所述注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量c_i，所述c_i的计算公式为：

其中，所述Ν_i表示僚机i的邻居僚机的集合，所述ω_ij表示邻居僚机j对于以自我为中心的僚机i的重要性，所述ω_ij的计算公式为：

其中，所述Soft max(·)表示归一化指数函数，所述W_q表示需要学习的参数，所述

表示e_j的维数；

通过如下公式获得无人机的动作：

a_i＝MLP(e_i||c_i||e_l)

所述MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器，所述||表示级联操作符；

在所述评价器网络中，使用以自我为中心的状态

和联合动作a作为输入，计算僚机i的Q值为：

其中，所述

所述c_i＝∑_j∈I,j≠iω_ije_j，所述

所述

所述a_i表示僚机i的动作，所述

表示僚机j的状态，所述a_j表示僚机j的动作，所述a_l表示长机的动作。

进一步，所述根据每一架无人机的经验数据，更新执行器网络参数和评价器网络参数，包括：

计算所有无人机的平均梯度，用于更新所述执行器网络μ的参数θ^μ，所述平均梯度计算公式为：

其中，所述μ表示所述执行器网络，所述执行器网络的参数为θ^μ，所述Q表示所述评价器网络，所述评价器网络的参数为θ^Q，所述s表示系统状态向量，所述o表示观测向量，所述a表示联合动作，所述D表示所有无人机的经验回放缓存池，所述I表示所有无人机的集合，所述

表示以自我为中心的观测向量，所述

表示以自我为中心的状态，所述a＝(a₁,...,a_n)表示所有无人机的联合动作；

从所述经验回放缓存池中随机采样经验数据，用于更新所述评价器网络Q的参数θ^Q，所述评价器网络的计算公式为：

其中，目标Q值y_i的计算公式为

所述r表示所有无人机的回报值，所述s'表示下一时刻的系统状态向量，所述μ^-表示目标执行器网络，所述目标执行器网络的参数为

所述Q^-表示目标评价器网络，所述目标评价器网络的参数为

所述

表示目标评价器网络中以自我为中心的状态，所述a＝(a₁',...,a'_n)表示目标评价器网络中所有无人机的联合动作。

进一步，通过如下公式更新所述目标执行器网络的参数和所述目标评价器网络的参数：

进一步，通过如下方式建立所述以自我为中心的状态和所述自我为中心的观测向量：

建立僚机i以自我为中心的状态公式：

其中，所述P(·)表示变换函数，所述变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中，所述ξ_j:＝(x_j,y_j,ψ_j,φ_j,v_j)表示僚机j在全局坐标系中的状态，所述

表示僚机i的自我状态，僚机j在僚机i的坐标系中的坐标为

所述(x_j,y_j)表示僚机j的平面坐标，所述ψ_j表示僚机j的航向角，所述φ_j表示僚机j的滚转角，所述v_j表示僚机j的速度，所述

表示僚机j以自我为中心的状态系中的平面坐标，所述

表示僚机j以自我为中心的状态系中的航向，所述

表示僚机i以自我为中心的平面坐标，所述

表示僚机i以自我为中心的航向角；

建立僚机i以自我为中心的观测向量公式：

其中，所述o_i表示僚机i的观测向量。

进一步，所述根据所述课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略，包括如下步骤：

初始化K个课程，并随机初始化所述执行器网络的参数θ^μ和所述评价器网络的参数θ^Q；

确定课程编号k＝1,2,...,K的取值，从课程1到课程K，进行如下操作：

针对课程k,k>1，从课程k-1中初始化模型参数如下：

清空容量为N的经验回放缓存池D；

增加僚机的数量；

确定训练回合数e＝1,2,...,M，从训练回合数1到训练回合数M，进行如下操作：

随机初始化系统状态向量s←(ξ_l,ξ_f)；

获取初始观测向量o；

针对每个回合e，设定总时间步长N_s，从时间步长1到时间步长N_s，进行如下操作：

计算获得僚机i以自我为中心的观测向量

采用当前执行器网络μ和高斯随机探索策略Ν(0,σ²)，选择僚机i的动作值如下：

计算下一时刻僚机i的滚转角度值

和速度值

如下：

其中，所述

表示僚机i的滚动动作，所述

表示僚机i的速度动作，所述φ_i表示僚机i的当前滚转角，所述v_i表示僚机i的当前速度，所述[-r_bd,r_bd]表示下一时刻僚机i的滚转角的范围，所述v_max表示最大速度，所述v_min表示最小速度；

根据无人机动力学模型计算下一时刻的系统状态向量s'；

计算僚机i的即时回报值r_i，所述r_i计算公式为：

其中，所述

表示凝聚奖励，计算公式为

所述

表示分离奖励，计算公式为

所述ρ_i表示长机和僚机i之间的距离，所述R_a表示僚机i的警戒半径，所述Δψ_i表示长机和僚机i之间的航向差，所述ω₁和ω₂表示调谐参数，所述D_ij表示从僚机i到所述僚机i的第j个邻居的距离，常数P>>0，所述R_s表示僚机i的最小安全距离；

获取下一时刻的观测向量o'；

将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D；

若所述经验回放缓存池容量不足，则删除最旧的经验数据；

更新所述系统状态向量和所述观测向量的时间标签：s←s',o←o'；

从所述经验回放缓存池D中选取数量为N_b的经验数据，根据数量为N_b的经验数据更新所述执行器网络的参数

和所述评价器网络的参数

其中，所述目标执行器网络的参数

和所述目标评价器网络的参数

每经过c时间步长更新一次；

在所有课程学习完后，获得每一架无人机的飞行策略。

进一步，通过如下公式构建无人机动力学模型：

其中，所述(x,y)表示无人机的平面坐标，所述ψ表示航向角，所述φ表示滚转角，所述v表示无人机的速度，所述α_g表示重力加速度，干扰项η_x来自正态分布

干扰项η_y来自正态分布

干扰项η_ψ来自正态分布

所述f_φ(φ,φ_ref)表示滚转动力学，所述f_v(v,v_ref)表示速度动力学。

第二方面，本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行系统，包括：

课程划分单元，用于将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模；

学习框架构建单元，用于构建基于执行器网络和评价器网络组成的课程强化学习框架，并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络，所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合；

飞行策略计算单元，用于根据所述课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略；并根据当前课程的前一个课程中的每一架无人机的经验数据，更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。

与现有技术相比，本发明第二方面具有以下有益效果：

本系统通过多个课程划分单元将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模；通过课程强化学习框架构建单元构建基于执行器网络和评价器网络组成的课程强化学习框架，并在课程强化学习框架中设置基于注意力机制的群体恒定网络，基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合；通过飞行策略获取单元根据课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略；并在当前课程的前一个课程中学习所得控制策略的基础上，继续更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本系统通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合，能够对输入向量维度进行自适应动态调整以及允许加载之前的网络，通过课程强化学习框架有效提高大规模无人机的学习和训练效率，有效避免大规模无人机集群飞行时发生碰撞，并具有强大的泛化能力。

第三方面，本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上所述的一种基于深度强化学习的大规模无人机集群飞行方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上所述的一种基于深度强化学习的大规模无人机集群飞行方法。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例提供的一种基于深度强化学习的大规模无人机集群飞行方法的流程图；

图2为本发明一个实施例提供的课程迁移学习框架示意图；

图3为本发明一个实施例提供的基于注意力机制的群体恒定网络的结构图；

图4为本发明一个实施例提供的一种基于深度强化学习的大规模无人机集群飞行系统的结构图。

具体实施方式

下面将结合附图，对本公开实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。需要说明的是，在不冲突的情况下，本公开实施例及实施例中的特征可以相互组合。另外，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案，但其不能理解为对本公开保护范围的限制。

在本发明的描述中，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，强化学习方法在集群的自主控制问题中得到了初步应用。但是，由于固定翼无人机集群在实际应用中存在规模大、动态性强、训练时间长等挑战，现有的强化学习方法难以解决集群规模动态变化、任务复杂度不断提升的无人机集群避障飞行控制问题。

为解决上述问题，通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合，能够对输入向量维度进行自适应动态调整以及允许加载之前的网络，通过课程强化学习框架有效提高大规模无人机的学习和训练效率，有效避免大规模无人机集群飞行时发生碰撞，并具有强大的泛化能力。

参照图1至图3，本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行方法，包括步骤：

步骤S100、将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模。

具体的，将无人机集群防撞策略的学习过程依次划分为多个课程，使后一个课程的无人机集群规模大于前一个课程的无人机集群规模，通过不断增加无人机数量扩大无人机集群规模。

步骤S200、构建基于执行器网络和评价器网络组成的课程强化学习框架，并在课程强化学习框架中设置基于注意力机制的群体恒定网络，基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合。

具体的，首先，建立以自我为中心的表征，具体如下：

建立僚机i以自我为中心的状态公式：

其中，P(·)表示变换函数，变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中，ξ_j:＝(x_j,y_j,ψ_j,φ_j,v_j)表示僚机j在全局坐标系中的状态，

表示僚机i的自我状态，僚机j在僚机i的坐标系中的坐标为

表示僚机j的平面坐标，ψ_j表示僚机j的航向角，φ_j表示僚机j的滚转角，v_j表示僚机j的速度，

表示僚机j以自我为中心的状态系中的平面坐标，

表示僚机j以自我为中心的状态系中的航向，

表示僚机i以自我为中心的平面坐标，

表示僚机i以自我为中心的航向角；

建立僚机i以自我为中心的观测向量公式：

其中，o_i表示僚机i的观测向量。在执行器网络中，使用僚机i的观测向量

作为输入，动作

是僚机i的观测向量

的函数，其中，

表示僚机i的状态，

表示僚机i的邻居僚机j的状态，

表示长机的状态；

然后，构建基于注意力机制的群体恒定网络，具体如下：

在执行器网络中，使用僚机i的观测向量

作为输入，动作

是僚机i的观测向量

的函数，其中，

表示僚机i的状态，

表示僚机i的邻居僚机j的状态，

表示长机的状态；

对僚机i的状态、邻居僚机j的状态和长机的状态进行编码，编码公式为：

其中，FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数，e_i表示僚机i的嵌入，e_j表示僚机i的邻居僚机j的嵌入，e_l表示长机的嵌入；

设计注意力嵌入模块，根据注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量c_i，c_i的计算公式为：

其中，Ν_i表示僚机i的邻居僚机的集合，ω_ij表示邻居僚机j对于以自我为中心的僚机i的重要性，ω_ij的计算公式为：

其中，Softmax(·)表示归一化指数函数，W_q表示需要学习的参数，

表示e_j的维数；

通过如下公式获得无人机的动作：

a_i＝MLP(e_i||c_i||e_l)

MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器，||表示级联操作符；

在评价器网络中，使用以自我为中心的状态

和联合动作a作为输入，计算僚机i的Q值为：

其中，

c_i＝∑_j∈I,j≠iω_ije_j，

a_i表示僚机i的动作，

表示僚机j的状态，a_j表示僚机j的动作，a_l表示长机的动作。

本实施例中，图2中的APINet表示基于注意力机制的群体恒定网络，图3中DotProduct表示向量点积，Softmax表示归一化指数函数，Scaled-Dot Product表示缩放点积，Ego-Centric Representation表示以自我为中心的表征，Roll表示输出僚机i的滚动，Speed表示输出僚机i的速度，Attention表示注意力嵌入模块，Q-values表示输出僚机i的Q值，本实施例通过注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合，能够对输入向量维度进行自适应动态调整以及允许加载之前的网络。

步骤S300、根据课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略；并根据当前课程的前一个课程中的每一架无人机的经验数据，更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。

具体的，根据每一架无人机的经验数据，更新执行器网络参数和评价器网络参数，更新过程为：

计算所有无人机的平均梯度，用于更新执行器网络μ的参数θ^μ，平均梯度计算公式为：

其中，μ表示执行器网络，执行器网络的参数为θ^μ，Q表示评价器网络，评价器网络的参数为θ^Q，s表示系统状态向量，o表示观测向量，a表示联合动作，D表示所有无人机的经验回放缓存池，I表示所有无人机的集合，

表示以自我为中心的观测向量，

表示以自我为中心的状态，a＝(a₁,...,a_n)表示所有无人机的联合动作；

从经验回放缓存池中随机采样经验数据，用于更新评价器网络Q的参数θ^Q，评价器网络的计算公式为：

其中，目标Q值y_i的计算公式为

r表示所有无人机的回报值，s'表示下一时刻的系统状态向量，μ^-表示目标执行器网络，目标执行器网络的参数为

Q^-表示目标评价器网络，目标评价器网络的参数为

表示目标评价器网络中以自我为中心的状态，a＝(a₁',...,a'_n)表示目标评价器网络中所有无人机的联合动作。

通过如下公式更新目标执行器网络的参数和目标评价器网络的参数：

基于上述参数的更新方式，根据课程强化学习框架依次对每个课程进行策略学习和训练，得到每一架无人机的飞行策略，学习和训练过程包括步骤：

初始化K个课程，并随机初始化执行器网络的参数θ^μ和评价器网络的参数θ^Q；

确定课程编号k＝1,2,...,K的取值，从课程1到课程K，进行知识迁移操作：

针对课程k,k>1，从课程k-1中初始化模型参数如下：

清空容量为N的经验回放缓存池D；

增加僚机的数量；

确定训练回合数e＝1,2,...,M，从训练回合数1到训练回合数M，进行策略学习操作：

随机初始化系统状态向量s←(ξ_l,ξ_f)；

获取初始观测向量o；

计算获得僚机i以自我为中心的观测向量

计算下一时刻僚机i的滚转角度值

和速度值

如下：

其中，

表示僚机i的滚动动作，

表示僚机i的速度动作，φ_i表示僚机i的当前滚转角，v_i表示僚机i的当前速度，[-r_bd,r_bd]表示下一时刻僚机i的滚转角的范围，v_max表示最大速度，v_min表示最小速度；

根据无人机动力学模型计算下一时刻的系统状态向量s'；

计算僚机i的即时回报值r_i，r_i计算公式为：

其中，

表示凝聚奖励，计算公式为

表示分离奖励，计算公式为

ρ_i表示长机和僚机i之间的距离，R_a表示僚机i的警戒半径，Δψ_i表示长机和僚机i之间的航向差，ω₁和ω₂表示调谐参数，D_ij表示从僚机i到僚机i的第j个邻居的距离，常数P>>0，R_s表示僚机i的最小安全距离；

获取下一时刻的观测向量o'；

将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D；

若经验回放缓存池容量不足，则删除最旧的经验数据；

更新系统状态向量和观测向量的时间标签：s←s',o←o'；

从经验回放缓存池D中选取数量为N_b的经验数据，根据数量为N_b的经验数据更新执行器网络的参数

和评价器网络的参数

其中，目标执行器网络的参数

和目标评价器网络的参数

每经过c时间步长更新一次；

在所有课程学习完后，获得每一架无人机的飞行策略。

需要说明的是，N表示经验回放缓存池D的容量，N_b和c可以根据所需设定值，但N_b取值不会大于经验回放缓存池D的容量，c取值不会大于总时间步长。

在本发明实施例中，通过注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合，能够对输入向量维度进行自适应动态调整以及允许加载之前的网络，通过课程强化学习框架有效提高大规模无人机的学习和训练效率，有效避免大规模无人机集群飞行时发生碰撞，并具有强大的泛化能力。

参照图4，本发明实施例还提供了一种基于深度强化学习的大规模无人机集群飞行系统，包括：

学习框架构建单元，用于构建基于执行器网络和评价器网络组成的课程强化学习框架，并在课程强化学习框架中设置基于注意力机制的群体恒定网络，基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合；

飞行策略计算单元，用于根据课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略；并根据当前课程的前一个课程中的每一架无人机的经验数据，更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。

需要说明的是，由于本实施例中的一种基于深度强化学习的大规模无人机集群飞行系统与上述的一种基于深度强化学习的大规模无人机集群飞行方法基于相同的发明构思，因此，方法实施例中的相应内容同样适用于本系统实施例，此处不再详述。

本发明实施例还提供了一种基于深度强化学习的大规模无人机集群飞行设备，包括：至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的一种基于深度强化学习的大规模无人机集群飞行方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的一种基于深度强化学习的大规模无人机集群飞行方法，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，可使得上述一个或多个控制处理器执行上述方法实施例中的一种基于深度强化学习的大规模无人机集群飞行方法，例如，执行以上描述的图1中的方法步骤S100至S300的功能。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种基于深度强化学习的大规模无人机集群飞行方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于深度强化学习的大规模无人机集群飞行方法，其特征在于，所述在所述课程强化学习框架中设置基于注意力机制的群体恒定网络，包括：

在所述执行器网络中，使用僚机i的观测向量

作为输入，动作

是僚机i的观测向量

的函数，其中，所述

表示僚机i的状态，所述

表示所述僚机i的邻居僚机j的状态，所述

表示长机的状态；

其中，所述Softmax(·)表示归一化指数函数，所述W_q表示需要学习的参数，所述

表示e_j的维数；

通过如下公式获得无人机的动作：

a_i＝MLP(e_i||c_i||e_l)

在所述评价器网络中，使用以自我为中心的状态

和联合动作a作为输入，计算僚机i的Q值为：

其中，所述

所述c_i＝∑_j∈I,j≠iω_ije_j，所述

所述

所述a_i表示僚机i的动作，所述

3.根据权利要求2所述的基于深度强化学习的大规模无人机集群飞行方法，其特征在于，所述根据每一架无人机的经验数据，更新执行器网络参数和评价器网络参数，包括：

表示以自我为中心的观测向量，所述s～_i表示以自我为中心的状态，所述a＝(a₁,...,a_n)表示所有无人机的联合动作；

其中，目标Q值y_i的计算公式为

所述Q^-表示目标评价器网络，所述目标评价器网络的参数为

所述

表示目标评价器网络中以自我为中心的状态，所述a＝(a'₁,...,a'_n)表示目标评价器网络中所有无人机的联合动作。

4.根据权利要求3所述的基于深度强化学习的大规模无人机集群飞行方法，其特征在于，通过如下公式更新所述目标执行器网络的参数和所述目标评价器网络的参数：

5.根据权利要求4所述的基于深度强化学习的大规模无人机集群飞行方法，其特征在于，通过如下方式建立所述以自我为中心的状态和所述自我为中心的观测向量：

建立僚机i以自我为中心的状态公式：

表示僚机i的自我状态，僚机j在僚机i的坐标系中的坐标为

表示僚机j以自我为中心的状态系中的平面坐标，所述

表示僚机j以自我为中心的状态系中的航向，所述

表示僚机i以自我为中心的平面坐标，所述

表示僚机i以自我为中心的航向角；

建立僚机i以自我为中心的观测向量公式：

其中，所述o_i表示僚机i的观测向量。

6.根据权利要求5所述的基于深度强化学习的大规模无人机集群飞行方法，其特征在于，所述根据所述课程强化学习框架依次对每个课程进行策略学习，得到每一架无人机的飞行策略，包括如下步骤：

针对课程k,k>1，从课程k-1中初始化模型参数如下：

清空容量为N的经验回放缓存池D；

增加僚机的数量；

随机初始化系统状态向量s←(ξ_l,ξ_f)；

获取初始观测向量o；

计算获得僚机i以自我为中心的观测向量

计算下一时刻僚机i的滚转角度值

和速度值

如下：

其中，所述

表示僚机i的滚动动作，所述

根据无人机动力学模型计算下一时刻的系统状态向量s'；

计算僚机i的即时回报值r_i，所述r_i计算公式为：

其中，所述

表示凝聚奖励，计算公式为

所述

表示分离奖励，计算公式为

获取下一时刻的观测向量o'；

将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D；

若所述经验回放缓存池容量不足，则删除最旧的经验数据；

和所述评价器网络的参数

其中，所述目标执行器网络的参数

和所述目标评价器网络的参数

每经过c时间步长更新一次；

在所有课程学习完后，获得每一架无人机的飞行策略。

7.根据权利要求6所述的基于深度强化学习的大规模无人机集群飞行方法，其特征在于，通过如下公式构建无人机动力学模型：

干扰项η_y来自正态分布

干扰项η_ψ来自正态分布

8.一种基于深度强化学习的大规模无人机集群飞行系统，其特征在于，包括：

9.一种基于深度强化学习的大规模无人机集群飞行设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的一种基于深度强化学习的大规模无人机集群飞行方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的一种基于深度强化学习的大规模无人机集群飞行方法。