CN114942653B

CN114942653B - 无人集群飞行策略的确定方法、装置和电子设备

Info

Publication number: CN114942653B
Application number: CN202210881139.6A
Authority: CN
Inventors: 姚海鹏; 黄山; 吴巍; 买天乐; 忻向军; 张尼; 袁菀迈; 刘全占; 韩宝磊; 吴迪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-10-25
Anticipated expiration: 2042-07-26
Also published as: CN114942653A

Abstract

本发明提供了一种无人集群飞行策略的确定方法、装置和电子设备，涉及通信的技术领域，包括：获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；无人集群包括多个无人机基站；基于每个无人机基站的位置信息和所有地面用户的位置信息，确定每个无人机基站的状态信息；利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理，得到每个无人机基站的动作信息，以确定无人集群的飞行策略。目标混合网络模型为每个无人机基站都设有相应的单智能体网络模型，避免了环境非平稳的问题；目标混合网络模型基于联合动作价值函数进行训练，解决了动作空间维度爆炸的技术问题。

Description

无人集群飞行策略的确定方法、装置和电子设备

技术领域

本发明涉及通信的技术领域，尤其是涉及一种无人集群飞行策略的确定方法、装置和电子设备。

背景技术

得益于无人机（Unmanned Aerial Vehicle，UAV）的一些优点，例如很高的机动性、可按需部署、成本较低等，可以将其作为无人机基站（UAV Base Station，U-BS）与地面用户建立无线连接以提供通信服务，增强网络的覆盖范围以及数据传输性能。目前无人机基站辅助地面通信轨迹规划采用单智能体强化学习算法，但是，单智能体强化学习算法在解决多无人机协同问题时，会引起动作空间的维度爆炸与环境状态不平稳问题，增加了网络的收敛难度。也即，现有技术中无人集群飞行策略的确定方法存在耗时较长的技术问题。

发明内容

本发明的目的在于提供一种无人集群飞行策略的确定方法、装置和电子设备，以缓解了现有技术中无人集群飞行策略的确定方法存在的环境非平稳以及动作空间维度爆炸的技术问题。

第一方面，本发明提供一种无人集群飞行策略的确定方法，包括：获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；其中，所述无人集群包括多个无人机基站；基于每个所述无人机基站的位置信息和所有地面用户的位置信息，确定每个所述无人机基站的状态信息；利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理，得到每个所述无人机基站的动作信息；其中，所述目标混合网络模型中包括多个单智能体网络模型，所述单智能体网络模型与所述无人机基站一一对应，且所述目标混合网络模型是基于联合动作价值函数训练的，所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值；基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略。

在可选的实施方式中，基于每个所述无人机基站的位置信息和所有地面用户的位置信息，确定每个所述无人机基站的状态信息，包括：获取通信强度阈值和目标无人机基站的发射功率；其中，所述目标无人机基站表示所述无人集群中的任一无人机基站；基于所述目标无人机基站的位置信息与目标地面用户的位置信息，计算所述目标无人机基站与所述目标地面用户之间的距离；所述目标地面用户表示所述所有地面用户中的任一地面用户；基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值，确定所述目标无人机基站与所述目标地面用户的通信链接状态；基于所述目标无人机基站与所有地面用户的通信链接状态、所述目标无人机基站的位置信息和所有地面用户的位置信息确定所述目标无人机基站的状态信息。

在可选的实施方式中，基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值，确定所述目标无人机基站与所述目标地面用户的通信链接状态，包括：基于所述目标无人机基站与所述目标地面用户之间的距离，确定所述目标无人机基站与所述目标地面用户的信号传输损失；基于所述信号传输损失和所述发射功率确定所述目标地面用户的目标接收信号强度；基于所述目标接收信号强度和所述通信强度阈值确定所述目标无人机基站与所述目标地面用户的通信链接状态。

在可选的实施方式中，还包括：获取训练样本集合；其中，所述训练样本集合中包括多组训练样本，每组训练样本中包括：当前时刻无人集群的状态信息集合，当前时刻无人集群的动作集合，下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合；利用训练样本集合对初始混合网络模型进行训练，得到所述目标混合网络模型。

在可选的实施方式中，获取训练样本集合，包括：重复执行下述步骤，直至得到指定数量的训练样本：随机初始化所述目标区域的网络环境信息和所述目标区域内正常地面基站的训练通信吞吐量；其中，所述网络环境信息包括：当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息；基于所述网络环境信息确定当前时刻所述无人集群的状态信息集合；其中，所述状态信息集合为每个所述无人机基站的训练状态信息的集合；利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理，以确定使得无人机基站的动作价值函数值最大的目标动作，和所述目标动作下每个无人机基站在下一时刻的训练状态信息；基于所有无人机基站的目标动作确定当前时刻所述无人集群的动作集合，以及，基于所有无人机基站在下一时刻的训练状态信息确定下一时刻所述无人集群的状态信息集合；基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量。

在可选的实施方式中，所述网络环境信息包括还包括：当前时刻每个无人机基站的训练发射功率、所述无人机基站与地面用户之间的通信信道带宽和每个所述地面用户的高斯白噪声；基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量，包括：基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率，确定每个所述地面用户的目标接收信号强度集合；基于每个所述地面用户的目标接收信号强度集合、所述高斯白噪声和所述通信信道带宽，确定每个所述无人机基站与每个所述地面用户的无线传输速率；基于每个所述无人机基站与每个所述地面用户的无线传输速率和每个所述无人机基站与每个所述地面用户的通信链接状态，计算下一时刻所述无人集群的通信吞吐量；基于下一时刻所述无人集群的通信吞吐量和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量。

在可选的实施方式中，对初始混合网络模型进行训练的损失函数表示为：

；其中，

，

表示第i个训练样本中的通信吞吐量，

表示衰减因子，

表示第i个训练样本中下一时刻无人集群的状态信息集合对应的联合动作价值函数值，

表示第i个训练样本对应的联合动作价值函数训练值，k表示训练样本的总数。

第二方面，本发明提供一种无人集群飞行策略的确定装置，包括：第一获取模块，用于获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；其中，所述无人集群包括多个无人机基站；第一确定模块，用于基于每个所述无人机基站的位置信息和所有地面用户的位置信息，确定每个所述无人机基站的状态信息；处理模块，用于利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理，得到每个所述无人机基站的动作信息；其中，所述目标混合网络模型中包括多个单智能体网络模型，所述单智能体网络模型与所述无人机基站一一对应，且所述目标混合网络模型是基于联合动作价值函数训练的，所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值；第二确定模块，用于基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略。

第三方面，本发明提供一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的无人集群飞行策略的确定方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现前述实施方式中任一项所述的无人集群飞行策略的确定方法。

本发明提供了一种无人集群飞行策略的确定方法，包括：获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；其中，无人集群包括多个无人机基站；基于每个无人机基站的位置信息和所有地面用户的位置信息，确定每个无人机基站的状态信息；利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理，得到每个无人机基站的动作信息；其中，目标混合网络模型中包括多个单智能体网络模型，单智能体网络模型与无人机基站一一对应，且目标混合网络模型是基于联合动作价值函数训练的，联合动作价值函数用于表征所有无人机基站的联合动作价值；基于所有无人机基站的动作信息确定无人集群的飞行策略。

本发明提供的方法所使用的目标混合网络模型属于一种团队合作博弈模型，每个无人机基站都设有相应的单智能体网络模型，因此，每个单智能体网络模型只需维护自身的动作价值函数，从而避免了环境非平稳的问题；目标混合网络模型将所有单智能体网络模型的动作价值函数进行融合，并基于联合动作价值函数进行训练，因此可以有效地解决动作空间维度爆炸的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于无人机基站应急通信的UAV部署示意图；

图2为本发明实施例提供的一种无人集群飞行策略的确定方法的流程图；

图3为本发明实施例提供的一种目标混合网络模型的整体结构图；

图4为本发明实施例提供的一种单智能体强化学习算法在模型训练过程中的损失示意图；

图5为本发明实施例提供的一种本发明方法在模型训练过程中的损失示意图；

图6为本发明实施例提供的一种无人集群飞行策略的确定装置的功能模块图；

图7为本发明实施例提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

无人机基站被部署在一定高度的空中，相较于传统地面基站能够有更大的机会与地面用户建立视距链路连接（Line-of-Sight，LoS）。无人机基站有很多实际应用场景，例如在地面基站受损的灾害环境中提供稳定可靠的无线通信服务，以及在传统地面网络出现拥塞时作为辅助通信基站。

用于无人机基站应急通信的UAV部署如图1所示，在突发情况发生之前，用户是由地面基站（G-SB）提供通信服务的。一旦地面基站（G-SB）因为灾难而崩溃，它们就不能继续为用户（UEs）提供服务。此时，未损毁的基站将继续为用户提供通信服务，但由于部分地面基站无法正常工作导致覆盖范围减小，部分用户不能得到有效的通信服务，通过部署无人机基站来保证这部分用户可以得到通信服务。为此，无人机辅助通信的系统架构包括无人机基站、核心机房、地面基站、用户组成。无人机基站为用户提供通信服务建立通信链接，将数据信息通过无线链路传到未损毁的基站，未损毁的基站通过光纤链路传到远端的核心机房从而实现与外界的通信。云计算负责收集地面未损毁基站和无人机基站提供的算法训练数据进行模型训练，未损毁的地面基站和云服务器只存在单向链路（传输训练MDT（Minimization of Drive-tests，最小化路测）数据），无人机基站和云服务器之间是双工链路负责上传模型训练数据和下发无人机移动策略。

无人机基站辅助通信的相关研究可以通过移动性进行分类：1.无人机基站和用户都静止；2.无人机基站移动，用户静止；3.用户和无人机基站都移动。现有的相关研究很少考虑无人机基站和用户同时移动的场景，然而在现实应用场景中，地面用户的活动往往呈现动态性和随机性。地面用户持续移动且无人机基站的通信范围有限，可能降低移动地面用户与无人机基站间的无线通信速率，从而造成网络性能的损失。故在部署无人机基站的无线通信网络中考虑地面用户的移动是必要的。

得益于无人机的机动性和可控制特性，可以通过动态调整无人机的飞行距离和飞行方向角（即规划无人机的飞行路径）实时追踪移动地面用户，提高用户与无人机基站间的无线通信速率，增强无人机网络性能。在考虑地面用户移动的无人机网络中规划无人机基站飞行路径的挑战主要有两点：一是无人机的飞行距离和飞行方向角都是连续变量，在连续空间内寻找最优的飞行动作比较困难；二是在实时追踪持续移动的地面用户时，很难保持优化算法的较高性能。

目前无人机基站辅助地面通信轨迹规划采用单智能体强化学习算法，由于单智能体强化学习算法在解决多无人机协同问题时，会引起动作空间的维度爆炸与环境状态的不确定问题，增加了网络的收敛难度，进而导致无人集群飞行策略的确定需要消耗较长时间。有鉴于此，本发明实施例提供了一种无人集群飞行策略的确定方法，用以缓解上文中所提出的技术问题。

实施例一

图2为本发明实施例提供的一种无人集群飞行策略的确定方法的流程图，如图2所示，该方法具体包括如下步骤：

步骤S102，获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量。

具体的，为了确定无人集群的飞行策略，首先需要获取目标区域内无人集群的位置信息和所有地面用户的位置信息，其中，无人集群包括多个无人机基站，因此，无人集群的位置信息即所属于该无人集群的每一个无人机基站的位置信息。鉴于已经与地面基站建立通信连接的用户仅影响正常地面基站（也即，未损毁的基站）的通信吞吐量，且本发明研究的是无人机基站辅助通信的应用场景，因此，上述地面用户即为未能与正常地面基站建立通信连接的用户。

假定一个无人机基站有为地面用户提供网络通信服务的任务，该任务时长为T个时隙，每个时隙的时间间隔均相同。在任务初始时刻，每个基站无人机在随机位置起飞，并以固定高度H飞行，随后将根据本发明是实施例所提供的飞行策略不断调整自己的飞行轨迹，记无人机基站数量为F，其移动可以通过一个二元组

来表达其移动模型，其中

表示无人机基站的移动速度，

表示无人机基站的移动方向。由此可得无人机基站的位置更新公式如下：

（1），其中，t表示第t个时隙，△t为时隙的大小。因为无人机基站速度是变化的，所以用

标记t-1时刻无人机基站f的速度；f表示第f个无人机基站，公式（1）说明了无人机基站在t-1时刻到t时刻的位置变化，

表示无人机基站f在t时隙的位置信息。

若地面用户数量为N，地面用户可以通过一个二元组

来表达其移动模型，其中

表示用户的移动速度，

表示用户的移动方向。若每个人的移动速度相同，那么v是一个固定的常数值。由此可得，地面用户的位置更新公式如下：

（2）。

表示地面用户n在t时隙的位置信息。

本发明实施例考虑了地面基站与无人机基站共存，用户和无人机基站同时具有移动性的灾后场景，将正常地面基站提供的通信服务能力考虑进来，以降低无人机基站的能耗。因此，除了需要获取无人集群的位置信息和所有地面用户的位置信息之外，还需要获取正常地面基站的通信吞吐量。正常地面基站的吞吐量可由正常状态的地面基站通过MDT协议测量得到。

步骤S104，基于每个无人机基站的位置信息和所有地面用户的位置信息，确定每个无人机基站的状态信息。

在获取到每个无人机基站的位置信息以及每个地面用户的位置信息之后，根据当前情况下无人机基站与地面用户的位置信息，结合基站可为用户提供通信服务的条件，即可确定出每个无人机基站的状态信息。在无人机基站辅助通信场景中，无人机基站的飞行动作主要由地面用户的位置所决定。无人机需要尽可能为更多的地面用户提供无线通信服务且需要提高用户的无线传输速率。

因此，在本发明实施例中，无人机基站的状态信息考虑了基站无人机和地面用户之间的相对位置关系，无人机基站的状态信息使用

进行表示，其中，

表示t时隙下无人机基站f的状态信息，

表示t时隙下无人机基站f与地面用户n的通信链接状态，也即，地面用户n在t时隙内能否获得无人机基站f的通信服务，

，

表示t时隙下无人机基站f与地面用户n建立了通信链接，也即，t时隙无人机基站f为地面用户n提供通信服务；

表示t时隙下无人机基站f与地面用户n未建立通信链接，若

，则表示没有无人机基站和地面用户n建立通信链接；

表示当前时隙所有地面用户的位置信息的集合，

，N表示地面用户的总数；

表示当前时隙无人机基站f的位置信息。

步骤S106，利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理，得到每个无人机基站的动作信息。

步骤S108，基于所有无人机基站的动作信息确定无人集群的飞行策略。

在确定出无人集群中每个无人机基站的状态信息之后，本发明实施例利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理，从而确定出每个无人机基站的动作信息，进而确定出无人集群的飞行策略。无人机基站接收到相应的动作指令（携带动作信息）之后，即可根据动作指令对自身的飞行状态进行调整，上述动作信息包括：移动方向

和速度e。在本发明实施例中，无人机基站对于飞行状态的调整，也即，动作的执行是在一个时隙t内完成的，因此，无人机基站的速度决定了其移动的距离。其中，

，

表示当前时隙无人机基站f的飞行方向角；

，

表示当前时隙无人机基站f的飞行速度，

表示无人机基站在每个时隙能够飞行的最大速度。值得注意的是，如果

，则表示无人机基站f在当前时隙内保持悬停状态。

在本发明实施例中，目标混合网络模型中包括多个单智能体网络模型，单智能体网络模型与无人机基站一一对应，且目标混合网络模型是基于联合动作价值函数训练的，联合动作价值函数用于表征所有无人机基站的联合动作价值。

具体的，上述目标混合网络模型采用了基于动作价值函数的多智能体强化学习算法QMIX，也即，运用QMIX算法规划无人机基站的飞行路径，多个无人机基站对一片区域的用户提供通信服务是一个合作问题，QMIX采用联合动作价值函数的方法在解决这种团队合作问题有较好的性能表现。训练完成的QMIX模型（也即，目标混合网络模型）可以根据不同的地面用户位置直接计算出对应的无人机基站飞行策略。QMIX算法相较于传统启发式算法，能够避免在应对变化的地面用户位置时重新初始化和运行整个算法。

一个完全协作的多智能体任务可以用一个分布式部分可观测马尔可夫模型(Dec-POMDP)来表示。该模型由元组

组成，其中，S表示全局观察信息，

，

，

表示t时隙下QMIX智能体f环境的真实状态，也即，t时隙下无人机基站f的状态信息，F表示QMIX智能体的总数；r表示所有QMIX智能体获得奖励值总和；每个时间步长中的任一QMIX智能体

均会选择自己独立的动作

，由F个独立动作构成联合动作

，而环境则会根据状态转移函数

进行变化，所有智能体均共用同一个奖励函数

，其中γ为衰减因子γ∈[0,1)。一个QMIX算法全局最优解等于每一个QMIX智能体个体最优解集合，也即：

，其中，

表示在

状态下选择动作

获得的价值。

鉴于本发明实施例将每个QMIX智能体（也即，无人机基站）的动作价值函数融合，利用联合动作价值函数将多智能体的联合动作价值表征出来并指导训练，因此，本发明方法可以有效地解决单智能体强化学习算法在处理多无人机协同问题时存在的收敛速度慢和维度爆炸的技术问题。

本发明方法的目标是在无人集群（多个无人机基站）与地面基站共存的场景下，提高目标区域的通信吞吐量，也即，通信容量，进而提升所有地面用户的通信服务质量。因此，在本发明实施例定义目标混合网络模型（也即，QMIX模型）中的所有无人机基站（也即，QMIX智能体）在时隙t采取了动作

后得到的动作奖励为上述目标区域的通信吞吐量。也即，

，其中，奖励值

表示无人机辅助通信网络子在t时隙的通信吞吐量，该通信吞吐量由两部分组成，一部分是所有无人机基站为用户提供的通信服务（也即，通信吞吐量）

；另一部分是未损毁的地面基站为用户提供的通信服务

，也即，正常地面基站的通信吞吐量。

本发明方法将无人机辅助地面通信模型抽象成一个团队合作博弈模型，多个无人机基站合作实现目标区域的通信吞吐量最大。团队博弈中，每个单智能体网络模型只负责对一个无人机基站的状态信息进行处理，也即，每个单智能体网络模型只需要维护自身的动作价值函数，而且动作价值函数只取决于智能体当前的状态和动作，从而避免了考虑联合动作时的环境非平稳和维度爆炸问题。

本发明实施例所提供的方法，其执行主体为云服务器，因此，方法的实施流程可以理解为：无人机基站周期性地收集地面环境数据（地面用户位置），并将其发送给云服务器，然后由云服务器基于接收到的地面环境数据计算出每个时隙t无人机基站最优的飞行动作，并通过指令将动作信息发送给正在提供无线通信服务的无人机基站，无人机基站根据接收到的动作指令对其自身飞行状态做出相应的调整。

本发明实施例提供的方法所使用的目标混合网络模型属于一种团队合作博弈模型，每个无人机基站都设有相应的单智能体网络模型，因此，每个单智能体网络模型只需维护自身的动作价值函数，从而避免了环境非平稳的问题；目标混合网络模型将所有单智能体网络模型的动作价值函数进行融合，并基于联合动作价值函数进行训练，因此可以有效地解决动作空间维度爆炸的技术问题。

在一个可选的实施方式中，上述步骤S104，基于每个无人机基站的位置信息和所有地面用户的位置信息，确定每个无人机基站的状态信息，具体包括如下步骤：

步骤S1041，获取通信强度阈值和目标无人机基站的发射功率。

其中，目标无人机基站表示无人集群中的任一无人机基站；

步骤S1042，基于目标无人机基站的位置信息与目标地面用户的位置信息，计算目标无人机基站与目标地面用户之间的距离。

其中，目标地面用户表示所有地面用户中的任一地面用户。

根据上文中的描述可知，无人机基站f在t时隙的位置信息表示为

，地面用户n在t时隙的位置信息表示为

，因此，若目标无人机基站为f，目标地面用户为n，则根据距离算式可知，t时隙目标无人机基站f与目标地面用户n之间的距离可表示为：

。

步骤S1043，基于目标无人机基站与目标地面用户之间的距离、发射功率和通信强度阈值，确定目标无人机基站与目标地面用户的通信链接状态。

具体的，在已知目标无人机基站f的发射功率，以及目标无人机基站f与目标地面用户n之间的距离之后，根据距离即可推算出功率在该距离上的信号传输损失，进而可计算出目标无人机基站f在发射出功率之后，目标地面用户n实际接收的信号强度（也即，接收信号功率）

。

通信强度阈值

表示无人机基站可以和地面用户建立通信链接的最低信号强度要求，当目标无人机基站f提供给目标地面用户n实际接收的信号强度

大于通信强度阈值

时，目标无人机基站f和目标地面用户n建立通信链接，也即，目标无人机基站f为目标地面用户n提供通信服务。使用二进制变量

表示t时隙下目标无人机基站f与目标地面用户n的通信链接状态，

。也就是说，如果存在一个无人机基站f提供的用户实际接收强度

大于通信链接的最低信号强度要求

，即无人机基站f为地面用户n提供了通信服务，否则没有无人机基站为该地面用户提供通信服务。

步骤S1044，基于目标无人机基站与所有地面用户的通信链接状态、目标无人机基站的位置信息和所有地面用户的位置信息确定目标无人机基站的状态信息。

在一个可选的实施方式中，上述步骤S1043，基于目标无人机基站与目标地面用户之间的距离、发射功率和通信强度阈值，确定目标无人机基站与目标地面用户的通信链接状态，具体包括如下步骤：

步骤S10431，基于目标无人机基站与目标地面用户之间的距离，确定目标无人机基站与目标地面用户的信号传输损失。

无人机基站网络属于无线通信网络，在无线通信网络中，信号传输受到发射机和接收机之间传输环境的影响。由于无人机基站部署在空中，无人机基站和地面用户之间的信道是空对地信道。空对地信道直接影响了无人机基站网络的系统性能。因此，在研究无人机基站网络时，针对具体问题建立合适的信道模型十分重要。空对地信道受高度、环境、以及角度等的影响很大，目前已有许多的工作对空对地信道进行研究，针对不同的无人机部署高度、不同的遮挡物环境等进行建模。

在本发明实施例中，设定自由传输模型下，目标无人机基站f对目标地面用户n的视距链路损失为：

；目标无人机基站f对目标地面用户n的非视距链路损失为：

；其中，

表示目标无人机基站f与目标地面用户n之间信号传输的载波频率，

表示t时隙目标无人机基站f与目标地面用户n之间的距离，c表示光速，

表示第一预设常数，

表示第二预设常数。

由于地面用户的移动会改变信号传输的状态，当存在障碍物遮挡时，则选用非视距链路传输模型；当用户在较为空旷的地方时，则选用视距链路传输模型，因此，本发明实施例设定目标地面用户n和目标无人机基站f之间是视距链路传输的概率

为：

；非视距链路传输概率

为：

；其中，o和b是根据实际场景（例如城市，农村）确定的两个参数。

在计算出目标无人机基站f对目标地面用户n的视距链路损失

、非视距链路损失

、视距链路传输概率

和非视距链路传输概率

之后，利用算式

即可计算出目标无人机基站与目标地面用户的信号传输损失

。

步骤S10432，基于信号传输损失和发射功率确定目标地面用户的目标接收信号强度。

已知目标无人机基站的发射功率

，目标无人机基站与目标地面用户的信号传输损失

，那么目标地面用户实际接收的（目标无人机基站提供的）信号强度

，也即，目标地面用户n的目标接收信号强度

可通过算式进行计算：

。

步骤S10433，基于目标接收信号强度和通信强度阈值确定目标无人机基站与目标地面用户的通信链接状态。

如果目标接收信号强度

大于通信强度阈值

，则目标无人机基站与目标地面用户的通信链接状态

，否则，

。

上文中对如何确定无人集群的飞行策略，以及其中具体如何确定目标无人机基站的状态信息的方法进行了详细的描述，下面对如何得到目标混合网络模型的方法进行介绍。

在一个可选的实施方式中，本发明方法还包括如下步骤：

步骤S201，获取训练样本集合。

其中，训练样本集合中包括多组训练样本，每组训练样本中包括：当前时刻无人集群的状态信息集合，当前时刻无人集群的动作集合，下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合；

步骤S202，利用训练样本集合对初始混合网络模型进行训练，得到目标混合网络模型。

具体的，在本发明实施例中，对初始混合网络模型进行训练时，所使用的每组训练样本中需包括：当前时刻无人集群的状态信息集合s，当前时刻无人集群的动作集合

，下一时刻目标区域的通信吞吐量r和下一时刻无人集群的状态信息集合

。其中，无人集群的状态信息集合就是指所属于无人集群的多个无人机基站的状态信息的集合；无人集群的动作集合就是指所属于无人集群的多个无人机基站的动作的集合。

在一个可选的实施方式中，上述步骤S201，获取训练样本集合，具体包括如下内容：

重复执行下述步骤S2011-S2015，直至得到指定数量的训练样本：

步骤S2011，随机初始化目标区域的网络环境信息和目标区域内正常地面基站的训练通信吞吐量。

其中，网络环境信息包括：当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息。

步骤S2012，基于网络环境信息确定当前时刻无人集群的状态信息集合。

具体的，为了区分训练过程与应用过程，本发明实施例将训练样本中的数据都使用了定语“训练”进行区分，但是其物理含义是与上文中所介绍的含义相同的，因此，在通过初始化得到当前时刻所有地面用户的训练位置信息和无人集群的训练位置信息（也即，所属于无人集群的多个无人机基站的训练位置信息）之后，参考上文中步骤S104所描述的“基于每个无人机基站的位置信息和所有地面用户的位置信息，确定每个无人机基站的状态信息”的方法，即可确定出当前时刻无人集群的状态信息集合，其中，状态信息集合为每个无人机基站的训练状态信息的集合。

步骤S2013，利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理，以确定使得无人机基站的动作价值函数值最大的目标动作，和目标动作下每个无人机基站在下一时刻的训练状态信息。

图3为本发明实施例提供的目标混合网络模型的整体结构图，在本发明实施例中，初始混合网络模型中包括多个初始单智能体网络模型，且初始单智能体网络模型与所述无人机基站一一对应，因此，在得到每个无人机基站的训练状态信息之后，利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理，以确定使得无人机基站的动作价值函数值最大的目标动作。

深度动作价值学习网络（DQN）算法指在Q learning算法基础上将其动作价值函数由一个带参数

的深度神经网络来表示，本发明实施例中，单智能体网络模型为DQN网络，每个无人机基站的Q值神经网络函数可以描述为：

，其中，

表示无人机基站f的Q值网络参数，

是无人机基站f在t时刻的动作，

是无人机基站f在t时刻的状态，通过神经网络生成在

状态下执行

动作的期望回报价值。全局Q值函数可以表示为：

，其中，

，

表示混合网络参数。

在通过初始单智能体网络模型确定出可使得无人机基站的动作价值函数值最大的目标动作之后，结合当前时刻无人机基站的训练状态信息，即可得到目标动作下每个无人机基站在下一时刻的训练状态信息。

步骤S2014，基于所有无人机基站的目标动作确定当前时刻无人集群的动作集合，以及，基于所有无人机基站在下一时刻的训练状态信息确定下一时刻无人集群的状态信息集合。

步骤S2015，基于所有无人机基站在下一时刻的训练状态信息和正常地面基站的训练通信吞吐量，确定下一时刻目标区域的通信吞吐量。

通过上文中的介绍可知，目标区域的通信吞吐量由两部分组成，一部分是所有无人机基站（无人集群）的通信吞吐量

，另一部分是未损毁的地面基站（正常地面基站）的通信吞吐量

。在本发明实施例中，无人机基站的通信吞吐量可通过其下一时刻的训练状态信息进行计算。

在一个可选的实施方式中，网络环境信息包括还包括：当前时刻每个无人机基站的训练发射功率、无人机基站与地面用户之间的通信信道带宽和每个地面用户的高斯白噪声；

上述步骤S2015，基于所有无人机基站在下一时刻的训练状态信息和正常地面基站的训练通信吞吐量，确定下一时刻目标区域的通信吞吐量，具体包括如下步骤：

步骤S20151，基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率，确定每个地面用户的目标接收信号强度集合。

上文中步骤S1042，S10431-步骤S10432已经详细介绍了如何根据目标无人机基站的位置信息、目标地面用户的位置信息和目标无人机基站的发射功率计算目标地面用户的目标接收信号强度，具体可参考上文，此处不再赘述。

步骤S20152，基于每个地面用户的目标接收信号强度集合、高斯白噪声和通信信道带宽，确定每个无人机基站与每个地面用户的无线传输速率。

具体的，为了确定无人集群的通信吞吐量，首先需要计算出每个无人机基站与每个地面用户的无线传输速率，根据香农公式，t时隙目标地面用户n与无人机基站f之间的无线传输速率

（单位bit/s）表示为：

，其中，

表示目标无人机基站f和目标地面用户n之间的通信信道带宽，

表示信噪比，

，

表示目标地面用户n的高斯白噪声，

表示目标地面用户n的目标接收信号强度。

步骤S20153，基于每个无人机基站与每个地面用户的无线传输速率和每个无人机基站与每个地面用户的通信链接状态，计算下一时刻无人集群的通信吞吐量。

通过上文中的描述可知，无人机基站的训练状态信息中包括无人机基站与所有地面用户的通信链接状态，因此，在得到所有无人机基站在下一时刻的训练状态信息之后，即可从中获取每个无人机基站与所有地面用户的通信链接状态，在本发明实施例中，单时隙所有无人机基站的通信吞吐量通过以下算式计算：

。

步骤S20154，基于下一时刻无人集群的通信吞吐量和正常地面基站的训练通信吞吐量，确定下一时刻目标区域的通信吞吐量。

具体的，下一时刻目标区域的通信吞吐量为：

。本发明实施例的目标是最大化整个区域的通信吞吐量

，也即，

。

通过重复执行上述步骤S2011-S2015，即可得到指定数量的训练样本，本发明实施例将上述样本（历史经验）存储于过渡组

，其中，状态

是在状态s的情况下采取动作

得到的下一步状态，而r是状态s情况下采取动作

得到的奖励，在本发明实施例中，奖励即为下一时刻目标区域的通信吞吐量。通过采样上述历史经验并最小化时序差分（TD）误差的平方项，并利用下述损失函数学习得到网络参数。

在一个可选的实施方式中，对初始混合网络模型进行训练的损失函数表示为：

；其中，

，

表示第i个训练样本中的通信吞吐量，

表示衰减因子，

上文中所描述的得到目标混合网络模型的流程，可通过下述QMIX无人机基站辅助通信伪代码得到：

输入：无人机基站和地面用户位置；

输出：每一个智能体的移动动作；

初始化无人机基站和地面用户位置，无人机基站发射信号功率

，过渡组大小buff，无人机基站高度H，环境参数o，b，单智能体网络和混合网络参数

，最大迭代步数U，载波频率

For i=1,2,3,…,U

For i=1,2,3,…,buff，do：

计算每个无人机基站与地面用户的通信链接状态；

确定初始

，根据当前

为每一个无人机基站根据单智能体网络结构网络的输出选择动作

（选择Q值最大的动作）；

获取下一时刻状态

与奖励r；

得到的经验序列存入过渡组

；

End for

For i=1,2,3,…,buff：

根据当前状态

，单智能体网络为每一个无人机基站选择Q值最大的动作，这些动作组合成动作集

；

所有无人机基站的状态组成状态集合

，将

和

输入混合网络得到

；

在过渡组中找到相同状态

的样本

，得到r；

计算损失函数，根据策略梯度更新单智能体网络和混合网络参数

；

End for

目前无人机基站辅助地面通信轨迹规划采用单智能体强化学习算法如DQN，由于单智能体强化学习算法在解决多无人机协同问题时，会引起动作空间的维度爆炸与环境状态的不确定问题，增加了网络的收敛难度。针对上述问题，本发明中采用基于值函数的多智能体强化学习算法QMIX，将每个智能体的动作值函数融合，利用联合动作值函数将多智能体的联合动作价值表征出来并指导训练，解决了收敛速度慢，维度爆炸的问题。

除此之外，采用多智能体强化学习算法的一个难点时如何抽象问题的数学模型，本发明实施例将无人机辅助地面通信模型抽象成一个团队合作博弈模型，多个无人机基站合作实现区域的网络吞吐量最大。团队博弈中，每个智能体只需要维护自己的值函数，而且值函数只取决于当前的状态和动作，从而避免了考虑联合动作时的环境非平稳和维度爆炸问题。

最后，本发明实施例还考虑了地面基站和无人机基站共存，地面用户和无人机基站同时具有移动性的灾后场景，将未损毁的地面基站提供的通信服务能力考虑进模型，以降低无人机基站的能耗。

发明人对本发明实施例所提供的方法进行了对比验证，图4为单智能体强化学习算法在模型训练过程中的损失示意图，图5为本发明方法在模型训练过程中的损失示意图，从实验结果中可以看出QMIX算法（本发明方法）用于无人机辅助通信轨迹规划优化收敛速度远快于DQN，DQN这种单智能体强化学习算法引起动作空间的维度爆炸与环境状态的不确定问题，增加了网络的收敛难度。将无人机辅助通信抽象成一个团队合作问题，并采用多智能体强化学习算法QMIX解决了动作空间的维度爆炸与环境状态的不确定问题，使得算法收敛速度变快而且预测Q值与真实值的Loss损失更小。

实施例二

本发明实施例还提供了一种无人集群飞行策略的确定装置，该无人集群飞行策略的确定装置主要用于执行上述实施例一所提供的无人集群飞行策略的确定方法，以下对本发明实施例提供的无人集群飞行策略的确定装置做具体介绍。

图6是本发明实施例提供的一种无人集群飞行策略的确定装置的功能模块图，如图6所示，该装置主要包括：第一获取模块10，第一确定模块20，处理模块30，第二确定模块40，其中：

第一获取模块10，用于获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；其中，无人集群包括多个无人机基站。

第一确定模块20，用于基于每个无人机基站的位置信息和所有地面用户的位置信息，确定每个无人机基站的状态信息。

处理模块30，用于利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理，得到每个无人机基站的动作信息；其中，目标混合网络模型中包括多个单智能体网络模型，单智能体网络模型与无人机基站一一对应，且目标混合网络模型是基于联合动作价值函数训练的，联合动作价值函数用于表征所有无人机基站的联合动作价值。

第二确定模块40，用于基于所有无人机基站的动作信息确定无人集群的飞行策略。

本发明提供的无人集群飞行策略的确定装置所使用的目标混合网络模型属于一种团队合作博弈模型，每个无人机基站都设有相应的单智能体网络模型，因此，每个单智能体网络模型只需维护自身的动作价值函数，从而避免了环境非平稳的问题；目标混合网络模型将所有单智能体网络模型的动作价值函数进行融合，并基于联合动作价值函数进行训练，因此可以有效地解决动作空间维度爆炸的技术问题。

可选地，第一确定模块20，包括：

获取单元，用于获取通信强度阈值和目标无人机基站的发射功率；其中，目标无人机基站表示无人集群中的任一无人机基站。

计算单元，用于基于目标无人机基站的位置信息与目标地面用户的位置信息，计算目标无人机基站与目标地面用户之间的距离；目标地面用户表示所有地面用户中的任一地面用户。

第一确定单元，用于基于目标无人机基站与目标地面用户之间的距离、发射功率和通信强度阈值，确定目标无人机基站与目标地面用户的通信链接状态。

第二确定单元，用于基于目标无人机基站与所有地面用户的通信链接状态、目标无人机基站的位置信息和所有地面用户的位置信息确定目标无人机基站的状态信息。

可选地，第一确定单元具体用于：

基于目标无人机基站与目标地面用户之间的距离，确定目标无人机基站与目标地面用户的信号传输损失。

基于信号传输损失和发射功率确定目标地面用户的目标接收信号强度。

基于目标接收信号强度和通信强度阈值确定目标无人机基站与目标地面用户的通信链接状态。

可选地，该装置还包括：

第二获取模块，用于获取训练样本集合；其中，训练样本集合中包括多组训练样本，每组训练样本中包括：当前时刻无人集群的状态信息集合，当前时刻无人集群的动作集合，下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合。

训练模块，用于利用训练样本集合对初始混合网络模型进行训练，得到目标混合网络模型。

可选地，第二获取模块，包括：

重复执行单元，用于重复执行下述步骤A-E，直至得到指定数量的训练样本：

步骤A，随机初始化目标区域的网络环境信息和目标区域内正常地面基站的训练通信吞吐量；其中，网络环境信息包括：当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息。

步骤B，基于网络环境信息确定当前时刻无人集群的状态信息集合；其中，状态信息集合为每个无人机基站的训练状态信息的集合。

步骤C，利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理，以确定使得无人机基站的动作价值函数值最大的目标动作，和目标动作下每个无人机基站在下一时刻的训练状态信息。

步骤D，基于所有无人机基站的目标动作确定当前时刻无人集群的动作集合，以及，基于所有无人机基站在下一时刻的训练状态信息确定下一时刻无人集群的状态信息集合。

步骤E，基于所有无人机基站在下一时刻的训练状态信息和正常地面基站的训练通信吞吐量，确定下一时刻目标区域的通信吞吐量。

可选地，网络环境信息包括还包括：当前时刻每个无人机基站的训练发射功率、无人机基站与地面用户之间的通信信道带宽和每个地面用户的高斯白噪声；步骤E具体用于：

基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率，确定每个地面用户的目标接收信号强度集合。

基于每个地面用户的目标接收信号强度集合、高斯白噪声和通信信道带宽，确定每个无人机基站与每个地面用户的无线传输速率。

基于每个无人机基站与每个地面用户的无线传输速率和每个无人机基站与每个地面用户的通信链接状态，计算下一时刻无人集群的通信吞吐量。

基于下一时刻无人集群的通信吞吐量和正常地面基站的训练通信吞吐量，确定下一时刻目标区域的通信吞吐量。

可选地，对初始混合网络模型进行训练的损失函数表示为：

；其中，

，

表示第i个训练样本中的通信吞吐量，

表示衰减因子，

实施例三

参见图7，本发明实施例提供了一种电子设备，该电子设备包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口63（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的一种无人集群飞行策略的确定方法、装置和电子设备的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种无人集群飞行策略的确定方法，其特征在于，包括：

获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；其中，所述无人集群包括多个无人机基站；

基于每个所述无人机基站的位置信息和所有地面用户的位置信息，确定每个所述无人机基站的状态信息；

利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理，得到每个所述无人机基站的动作信息；其中，所述目标混合网络模型中包括多个单智能体网络模型，所述单智能体网络模型与所述无人机基站一一对应，且所述目标混合网络模型是基于联合动作价值函数训练的，所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值；

基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略；

还包括：

获取训练样本集合；其中，所述训练样本集合中包括多组训练样本，每组训练样本中包括：当前时刻无人集群的状态信息集合，当前时刻无人集群的动作集合，下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合；

利用训练样本集合对初始混合网络模型进行训练，得到所述目标混合网络模型；

其中，获取训练样本集合，包括：

重复执行下述步骤，直至得到指定数量的训练样本：

随机初始化所述目标区域的网络环境信息和所述目标区域内正常地面基站的训练通信吞吐量；其中，所述网络环境信息包括：当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息；

基于所述网络环境信息确定当前时刻所述无人集群的状态信息集合；其中，所述状态信息集合为每个所述无人机基站的训练状态信息的集合；

利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理，以确定使得无人机基站的动作价值函数值最大的目标动作，和所述目标动作下每个无人机基站在下一时刻的训练状态信息；

基于所有无人机基站的目标动作确定当前时刻所述无人集群的动作集合，以及，基于所有无人机基站在下一时刻的训练状态信息确定下一时刻所述无人集群的状态信息集合；

基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量；

其中，所述网络环境信息包括还包括：当前时刻每个无人机基站的训练发射功率、所述无人机基站与地面用户之间的通信信道带宽和每个所述地面用户的高斯白噪声；

基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量，包括：

基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率，确定每个所述地面用户的目标接收信号强度集合；

基于每个所述地面用户的目标接收信号强度集合、所述高斯白噪声和所述通信信道带宽，确定每个所述无人机基站与每个所述地面用户的无线传输速率；

基于每个所述无人机基站与每个所述地面用户的无线传输速率和每个所述无人机基站与每个所述地面用户的通信链接状态，计算下一时刻所述无人集群的通信吞吐量；

基于下一时刻所述无人集群的通信吞吐量和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量。

2.根据权利要求1所述的确定方法，其特征在于，基于每个所述无人机基站的位置信息和所有地面用户的位置信息，确定每个所述无人机基站的状态信息，包括：

获取通信强度阈值和目标无人机基站的发射功率；其中，所述目标无人机基站表示所述无人集群中的任一无人机基站；

基于所述目标无人机基站的位置信息与目标地面用户的位置信息，计算所述目标无人机基站与所述目标地面用户之间的距离；所述目标地面用户表示所述所有地面用户中的任一地面用户；

基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值，确定所述目标无人机基站与所述目标地面用户的通信链接状态；

基于所述目标无人机基站与所有地面用户的通信链接状态、所述目标无人机基站的位置信息和所有地面用户的位置信息确定所述目标无人机基站的状态信息。

3.根据权利要求2所述的确定方法，其特征在于，基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值，确定所述目标无人机基站与所述目标地面用户的通信链接状态，包括：

基于所述目标无人机基站与所述目标地面用户之间的距离，确定所述目标无人机基站与所述目标地面用户的信号传输损失；

基于所述信号传输损失和所述发射功率确定所述目标地面用户的目标接收信号强度；

基于所述目标接收信号强度和所述通信强度阈值确定所述目标无人机基站与所述目标地面用户的通信链接状态。

4.根据权利要求1所述的确定方法，其特征在于，对初始混合网络模型进行训练的损失函数表示为：

；其中，

，

表示第i个训练样本中的通信吞吐量，

表示衰减因子，

表示第i个训练样本对应的联合动作价值函数训练值，k表示训练样本的总数，

，

表示无人机基站f的Q值网络参数，F表示无人机基站数量，

表示混合网络参数。

5.一种无人集群飞行策略的确定装置，其特征在于，包括：

第一获取模块，用于获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量；其中，所述无人集群包括多个无人机基站；

第一确定模块，用于基于每个所述无人机基站的位置信息和所有地面用户的位置信息，确定每个所述无人机基站的状态信息；

处理模块，用于利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理，得到每个所述无人机基站的动作信息；其中，所述目标混合网络模型中包括多个单智能体网络模型，所述单智能体网络模型与所述无人机基站一一对应，且所述目标混合网络模型是基于联合动作价值函数训练的，所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值；

第二确定模块，用于基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略；

还包括：

第二获取模块，用于获取训练样本集合；其中，所述训练样本集合中包括多组训练样本，每组训练样本中包括：当前时刻无人集群的状态信息集合，当前时刻无人集群的动作集合，下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合；

训练模块，用于利用训练样本集合对初始混合网络模型进行训练，得到所述目标混合网络模型；

其中，第二获取模块，包括：

步骤A，随机初始化所述目标区域的网络环境信息和所述目标区域内正常地面基站的训练通信吞吐量；其中，所述网络环境信息包括：当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息；

步骤B，基于所述网络环境信息确定当前时刻所述无人集群的状态信息集合；其中，所述状态信息集合为每个所述无人机基站的训练状态信息的集合；

步骤C，利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理，以确定使得无人机基站的动作价值函数值最大的目标动作，和所述目标动作下每个无人机基站在下一时刻的训练状态信息；

步骤D，基于所有无人机基站的目标动作确定当前时刻所述无人集群的动作集合，以及，基于所有无人机基站在下一时刻的训练状态信息确定下一时刻所述无人集群的状态信息集合；

步骤E，基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量，确定下一时刻所述目标区域的通信吞吐量；

步骤E具体用于：

6.一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述的无人集群飞行策略的确定方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现上述权利要求1至4中任一项所述的无人集群飞行策略的确定方法。