CN116009590A

CN116009590A - 无人机网络分布式轨迹规划方法、系统、设备及介质

Info

Publication number: CN116009590A
Application number: CN202310080166.8A
Authority: CN
Inventors: 龚世民; 邓成诣; 王猛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-04-25
Anticipated expiration: 2043-02-01
Also published as: CN116009590B

Abstract

本发明提供的一种无人机网络分布式轨迹规划方法、系统、设备及介质，所述方法包括：以多无人机系统的数据传输能力最大为优化目标，构建所述多无人机系统的系统模型；获取观测信息、动作信息，并根据观测信息、动作信息创建奖励模型；根据所述多无人机系统的历史数据，预测所有无人机的下一时隙轨迹点，并将各无人机的下一时隙轨迹点输入贝叶斯预测模型，得到奖励信息；获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中预测最优动作。本发明可以减少无人机的能量消耗，提升系统的稳定性。

Description

无人机网络分布式轨迹规划方法、系统、设备及介质

技术领域

本发明涉及无人机技术领域，特别是涉及一种无人机网络分布式轨迹规划方法、系统、设备及介质。

背景技术

随着5G技术的发展，以往的低成本物联网传感设备已经很难满足数据传输中的服务质量要求。通过部署无人机辅助无线通信网络，可以摆脱地面复杂的信道条件对无线通信的影响，转而使用干扰少、衰减慢、实时性好的视距信道。

学者们通过联合优化无人机的轨迹和传输控制策略，为整个无线通信网络提供了更高的性能增益。进一步地，通过联合优化无人机的轨迹、能耗和服务时间，可以有效地降低传感数据的信息年龄。

现有技术采用的是无优化驱动的多智能体强化学习算法，由于无人机辅助无线通信问题具有高维性和较为复杂的观测、动作空间，现有技术普遍存在收敛速度慢的问题。现有技术中，无人机利用多跳信息或全局观测作为参考来做出动作决策，这消耗了无人机的机身存储空间，加大了无人机的通信成本和计算负担，进而增加了无人机的能耗。

发明内容

本发明的目的是提供一种无人机网络分布式轨迹规划方法、系统、设备及介质，以减少无人机的能量消耗，提升系统的稳定性。

为了实现上述目的，第一方面，本发明实施例提供了一种无人机网络分布式轨迹规划方法，所述方法包括：

以多无人机系统的数据传输能力最大为优化目标，构建所述多无人机系统的系统模型；

获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息，并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型；

根据所述多无人机系统的历史数据，预测所有无人机的下一时隙轨迹点，并将各无人机的下一时隙轨迹点输入贝叶斯预测模型，得到奖励信息；

获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中预测最优动作。

进一步地，所述构建所述多无人机系统的系统模型，包括：

对多无人机系统基础架构进行建模，所述多无人机系统基础架构包括一个基站与多个无人机的通信网络；

对多无人机网络成型进行建模，所述多无人机网络成型包括无人机直接连接到基站的连接以及无人机之间的连接；

对各通信信道进行建模，所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道；

对用户、无人机和基站的数据更新过程进行建模；

对公平性单元和无人机能耗单元进行建模，所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算，所述无人机能耗单元包括无人机的总能耗计算。

进一步地，所述系统模型中各无人机在观测空间中的观测信息包括无人机的位置、采集的数据量，无人机对其他无人机的部分观测和对所有无人机的状态和动作预测；

所述动作空间的动作信息包括无人机的飞行方向、飞行速度和多无人机网络成型策略；

所述奖励模型包括采集奖励、能耗奖励、传输奖励和碰撞惩罚。

进一步地，所述多无人机系统的系统模型包括如下约束：

无人机数据缓冲区的数据量小于或等于预设最大容量；

无人机的飞行速度小于或等于预设最大速度；

任意两架无人机之间的距离大于预设最小间距；

所述公平性单元中的公平因子大于预设阈值；

无人机在同一时隙只能向一架其他无人机或基站传输数据。

进一步地，所述时隙包括飞行子时隙、采集子时隙、传输子时隙和决策子时隙；

所述飞行子时隙为无人机从当前位置飞往下一位置的时隙；

所述采集子时隙为无人机进行数据采集的时隙；

所述传输子时隙为无人机向基站或其他无人机传输数据的时隙；

所述决策子时隙为无人机根据自身观测结果和基站预测结果决定当前时隙的执行策略。

进一步地，所述根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中确定最优动作，包括：

根据所述部分观测值以及贝叶斯模块预测的其他无人机动作生成当前无人机动作，并训练动作策略网络；

根据所述部分观测值，贝叶斯模块预测的其他无人机动作，以及动作策略网络输出的策略生成无人机当前策略的价值，并训练价值评估网络；

以所述奖励信息为目标，训练价值评估网络以评估动作策略网络；

以价值评估网络为目标训练动作策略网络以生成动作策略。

第二方面，本发明实施例提供了一种无人机网络分布式轨迹规划系统，所述系统包括：

系统模型构建模块，用于以多无人机系统的数据传输能力最大为优化目标，构建所述多无人机系统的系统模型；

奖励模型构建模块，获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息，并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型；

贝叶斯预测模块，用于根据所述多无人机系统的历史数据，预测所有无人机的当前时隙内的动作策略和轨迹点，并将预测的各无人机的轨迹点广播给所有无人机；

轨迹规划模块，用于获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中预测最优动作。

进一步地，所述系统模型构建模块包括：

基础架构建模模块，用于对多无人机系统基础架构进行建模，所述多无人机系统基础架构包括一个基站与多个无人机的通信网络；

网络成型建模模块，用于对多无人机网络成型进行建模，所述多无人机网络成型包括无人机直接连接到基站的连接以及无人机之间的连接；

通信信道建模模块，用于对各通信信道进行建模，所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道；

数据更新建模模块，用于对用户、无人机和基站的数据更新过程进行建模；

负载均衡建模模块，用于对公平性单元和无人机能耗单元进行建模，所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算，所述无人机能耗单元包括无人机的总能耗计算。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

附图说明

图1是本发明实施例一种无人机网络分布式轨迹规划方法的流程示意图；

图2是本发明实施例一种无人机网络分布式轨迹规划方法的系统模型示意图；

图3是本发明实施例一种无人机网络分布式轨迹规划方法的仿真模拟参数图；

图4是本发明实施例一种无人机网络分布式轨迹规划方法的算法流程图；

图5是本发明实施例一种无人机网络分布式轨迹规划方法部分可观测环境下整体奖励示意图；

图6是本发明实施例一种无人机网络分布式轨迹规划方法全局观测环境下算法性能示意图；

图7是本发明实施例一种无人机网络分布式轨迹规划方法一种用户分布下的无人机轨迹图；

图8是本发明实施例一种无人机网络分布式轨迹规划方法另一种用户分布下的无人机轨迹图；

图9是本发明实施例一种无人机网络分布式轨迹规划方法另一种用户分布下的网络成型图；

图10是本发明实施例一种无人机网络分布式轨迹规划方法另一种用户分布下的无人机数据负载；

图11是本发明实施例一种无人机网络分布式轨迹规划方法各无人机的数据负载变化图；

图12是本发明实施例一种无人机网络分布式轨迹规划方法各无人机的奖励变化图；

图13是本发明实施例一种无人机网络分布式轨迹规划方法各无人机位置的横坐标变化图；

图14是本发明实施例一种无人机网络分布式轨迹规划方法各无人机位置的纵坐标变化图；

图15是本发明实施例一种无人机网络分布式轨迹规划系统的系统框图；

图16是本发明实施例一种无人机网络分布式轨迹规划系统的系统模型构建模块的系统框图；

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一个实施例中，如图1所示，本发明提供了一种无人机网络分布式轨迹规划方法，所述方法包括：

S11、以多无人机系统的数据传输能力最大为优化目标，构建所述多无人机系统的系统模型；

构建所述多无人机系统的系统模型，包括：

对多无人机系统基础架构进行建模，所述多无人机系统基础架构包括一个基站与多个无人机的通信网络，如图2所示；

本实施例考虑具有一个基站(BS)和多个无人机(UAV)辅助的无线中继通信网络。其中，所有UAV被表示为N＝{1,2,...,N}，地面用户(GU)被表示为M＝{1,2,...,M}。UAV在每个时隙收集传感数据，并通过多跳网络将数据传输到BS。UAV的通信信道描述如下：

(1)GU-to-UAV(G2U信道)：G2U信道用于每架UAV在其信号覆盖范围内收集传感数据。由于GU到BS之间距离很远或有障碍物阻隔，所有传感数据将通过UAV来采集，UAV将以最大信噪比对GU进行数据采集。

(2)UAV-to-other(U2X信道)：U2X信道用于每架UAV通过多跳网络或直接将数据卸载到BS。UAV将选择其他UAV进行中继传输(U2U通信)或在信道条件良好的情况下直接将其数据卸载到BS(U2B通信)，不同信道上的数据速率取决于UAV的位置、发射功率和信道条件。

上述信道均可视为视距信道。

对多无人机网络成型进行建模，所述多无人机网络成型包括无人机与基站的连接以及无人机与其他无人机的连接组成的传输网络；

在本实施例中，每架UAV既可以直接连接到BS，也可以通过其他UAV的中继传输最终把数据传输至BS，U2U通信允许各UAV之间形成网络连接，各UAV可以根据自身数据传输的需要开启或关闭U2U连接，这就是多UAV的网络成型。在UAV的飞行过程中，网络成型也会随之发生动态变化。

为了方便公式表达，我们使用UAV-0表示BS，使用

来表示BS和所有UAV的集合。

使用二值矩阵

来表示U2B和U2U的网络成型策略，φ_i,j(t)＝1表示在t时隙UAV-i将数据传输至UAV-j。

为了避免不同链路之间的干扰，我们要求同一时隙内每架UAV只能向一架其他UAV或BS传输数据。因此，U2X数据链路受到以下限制：

Φ(t)即所有UAV在不同时隙的网络成型，需要根据UAV的实时轨迹进行调整。

假设所有的UAV都以固定高度H飞行。

UAV-i的轨迹可以定义为所有时隙UAV位置的集合，即L_i＝[l_i(t)]_t∈T。

UAV-i在t时隙的位置l_i(t)由三维坐标l_i(t)＝(x_i(t),y_i(t),h_i(t)＝H)组成，BS位于坐标原点，天线高度为H_b。

在t时隙，UAV-i向指定方向d_i(t)移动的速度v_i(t)受到以下限制：

v_i(t)≤v_max

UAV-i在下一时隙的位置为l_i(t+1)＝l_i(t)+v_i(t)d_i(t)

UAV-i与UAV-j之间的距离表示为d_i,j(t)＝||l_i(t)-l_j(t)||

将U2U通信链路视为视距链路，在t时隙，UAV-i向UAV-j传输信息，UAV-j的接收功率表示为

其中，p_i表示UAV-i的发射功率，β_i,j表示收发器和天线带来的恒定功率增益，

表示发送端和接收端之间的距离带来的路径损耗，α_u表示路径损耗常数。

如果UAV-m(m≠i)也在该时隙向UAV-j发送数据，对UAV-j产生的干扰表示为：

因此，从UAV-i向UAV-j传输数据的数据速率表示为：

其中，δ²表示噪声功率。

对用户、无人机和基站的数据更新过程进行建模；

UAV决定要采取的动作之后，其在飞行子时隙t_f中完成移动，并悬停在目标上空，以便在后续各子时隙进行数据的采集和传输。

UAV在采集子时隙t_s从GU处采集数据并保存在其数据缓冲区，数据缓冲区的最大容量为D_max，UAV-i从GU-m处采集的数据量为s_i(t)＝o_m,i(t)。

UAV的数据缓冲区将更新为D_i(t)＝D_i(t)+s_i(t)。

在传输子时隙t_o内，UAV将向其他UAV或直接向BS传输数据，因此UAV的数据缓冲区将更新为：

这里的[x]⁺表示取x与0两者之间的最大值；

其中，O_i(t)表示UAV输出的数据，具体表示为：

其中，o_i,0(t)表示UAV-i向BS传输的数据，

表示UAV-i向其他UAV传输的数据。

因此，BS收集到的数据将更新为：

各UAV的负载均衡有助于提升系统的稳定性，本实施例的首要目标是通过多UAV的网络成型和轨迹优化来最大化BS从GU处收集到的数据，因此可能出现部分UAV工作量远大于其他UAV的情形，本发明定义了公平因子来解决这个问题，公平因子F的定义如下：

若GU-m的数据在t时隙被采集，则将z_m,t置为1，否则将z_m,t置为0。

F的取值接近1时，各UAV负载均衡。

因为飞行子时隙的时长是固定的，故每架UAV的能耗主要取决于其飞行速度v_t。

使用e_i(t)来表示UAV-i在t时隙的飞行能耗，给定工作时间T，UAV-i的总能耗可以表示为：

其中，

表示UAV-i的总发射功率。

所述多无人机系统的系统模型包括如下约束：

无人机数据缓冲区的数据量小于或等于预设最大容量；

无人机的飞行速度小于或等于预设最大速度；

任意两架无人机之间的距离大于预设最小间距；

所述公平性单元中的公平因子大于预设阈值；

本实施例中有多个UAV协助GU到BS的数据传输，旨在通过多UAV的网络成型和轨迹优化以最大限度地提高系统的数据传输能力。

给定工作时间T，这一目标可以表示为：

同时，该优化问题还应满足上述步骤中提到的各约束：数据缓冲区的数据量不应超出最大容量D_max、这些数据最终应全部传输至BS端、UAV的飞行速度不应超出最大速度v_max、任意两架UAV的距离应始终大于d_min、公平因子F应大于阈值f_min以及前文所述U2X数据链路所受限制。

本实施例通过公平因子的设定，有利于提升系统的稳定性。

S12、获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息，并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型；

所述系统模型中各无人机在观测空间中的观测信息包括无人机的位置、采集的数据量，无人机对其他无人机的部分观测和对所有无人机的动作预测；

UAV的全局观测需要各UAV之间频繁通信，大大增加了UAV的数据负载和通信能耗。为解决该问题，本发明将上述系统模型中提出的优化问题重新表述为部分可观测马尔可夫决策过程(POMDP)。

部分可观测马尔可夫决策过程可以简单表述为三元组(O，A，R)。其中O和A分别代表观测空间和动作空间，R为奖励，是观测与动作

的函数。

其中o_i(t)表示UAV-i对于自身的观测，

表示UAV-i对其他UAV的综合观测。

UAV-i对自身的观测o_i(t)包括其自身的位置l_i(t)和采集的数据量s_i(t)，UAV-i对其他UAV的综合观测可表示为

其中，

是贝叶斯模块给出的对于UAV-j的贝叶斯预测，这部分在BS广播时被UAV-i获取；o_j(t)是UAV-j对自身的观测，若UAV-j与UAV-i建立了连接，那这一部分将在数据传输时被UAV-i获取。

显然，当其他UAV建立到UAV-i的通信链路并传输数据时，UAV-i可以从接收到的数据中获取UAV-j对其本身的观测，同时UAV-i可以获取贝叶斯模块对所有UAV下一步动作做出的预测，然后UAV-i综合以上信息来决定下一步动作。

动作a_t表示每个UAV的行动选取，即：

a_t＝(a₁(t),a₂(t),...,a_N(t))

其中，a_i(t)包括UAV-i的飞行方向d_i(t)、速度v_i(t)和网络成型策略Φ_i(t)＝{φ_i,j(t),j≠i,j∈N}。

奖励函数R给定了UAV到达不同状态的即时奖励，当UAV-i在t时隙的观测o_i(t)中采取了行动a_i(t)时，它可以获得的奖励为：

R_i＝R_i,c(t)+γ₁R_i,e(t)+γ₂R_i,d(t)-μR_i,p(t)

其中，UAV-i的奖励包括数据采集奖励R_i,c(t)＝s_i(t)、能耗奖励

传输奖励R_i,d(t)＝-D_i(t)和碰撞惩罚

其中，I(·)是指示函数，γ₁、γ₂与μ是权衡各奖励与惩罚的参数。

所述时隙包括飞行子时隙、采集子时隙、传输子时隙和决策子时隙；

所述飞行子时隙为无人机从当前位置飞往下一位置的时隙；

所述采集子时隙为无人机进行数据采集的时隙；

整个工作时间被划分为T个时隙，表示为T＝{1,2,...,T}，每个时隙又被划分为四个子时隙，对这四个子时隙的具体描述如下：

(1)在飞行子时隙t_f内，UAV按照选定的方向和速度，从当前位置飞往下一个位置。

(2)在采集子时隙t_s内，UAV悬停在采集目标上方，以最大信噪比对目标进行数据采集。

(3)在传输子时隙t_o内，UAV按照网络成型策略向其他UAV或BS传输数据，UAV的状态信息也将在这一阶段更新至BS。

(4)在决策子时隙t_d内，BS将预测各UAV的下一步行动，并将结果广播给各UAV，各UAV将结合自身的本地观测结果采取下一步行动。

通过上述部分可观测马尔可夫决策过程，便于后续过程中对于无人机系统优化问题的求解。

S13、根据所述多无人机系统的历史数据，预测所有无人机的下一时隙轨迹点，并将各无人机的下一时隙轨迹点输入所述奖励模型，得到奖励信息；

根据历史数据，使用贝叶斯优化预测所有无人机UAV-i对其他UAV的综合观测

获取UAV-i对其他UAV的综合观测

通过贝叶斯优化预测模块估计其他UAV在当前时刻的状态信息和观测值。

贝叶斯模块可根据历史数据预测UAV下一时隙的状态信息，包含轨迹点和数据采集量。

考虑到贝叶斯优化需要大量的先验历史数据，本实施例中将贝叶斯模块部署在BS处。

在每个时隙，BS记录每架UAV回传的局部观测和自身状态数据。通过对地面数据分布进行建模，BS可以预测UAV的下一个轨迹点l_i(t)的概率分布f_i(l_i(t))，表示为：

f_i:l_i(t)→s_i(t)+ε_i(t)

其中ε_i(t)是误差项，可以看作独立同分布的零均值高斯噪声。

D_i(t)包含UAV-i的历史轨迹点和历史数据采集量，表示为：

D_i(t)＝(l_i(τ),s_i(τ))_τ∈Ht

其中，H_t＝{t-t₀,...,t-1,t}表示过去的一组时隙。

根据贝叶斯定理可知：

P(f_i|D_i(t))＝P(D_i(t)|f_i)P(f_i)

而GU的空间分布和数据传输需求对于UAV是未知的，因此我们采用多变量高斯分布G来模拟先验分布P(f_i)，表示为：

f_i～G(μ_i(H_t),V_i(H_t))

其中，μ_i(H_t)是均值向量，

是协方差矩阵，v_τ,τ'是径向基核函数，它基于轨迹点l_i(t)到数据采集量s_i(t)的映射。

给定历史数据D_i(t)，可将后验数据更新为：

E_i,t(l_i)是t时隙UAV-i飞到轨迹点l_i时函数值f_i(l_i)的预期改进，表示为：

其中，

表示X的期望，

表示过去采样点的最大函数值。

我们可以通过最大化预期改进来预测UAV-i在下一时隙的轨迹点，表示为：

l_i(t+1)＝arg max E_i,t(l_i)

由此可以得到无人机UAV-i对其他UAV的综合观测

得到所有UAV的综合观测信息之后，BS会将结果广播给每架UAV，UAV将结合自身观测信息决定下一步动作。

S14、获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中确定最优动作。

所述根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中确定最优动作，包括：

以所述奖励信息为目标，训练价值评估网络使之能够预估动作策略网络的好坏。

以价值评估网络为目标训练动作策略网络使之能生成良好的动作策略。

给定信道条件、位置状态和GU的初始数据量，智能体将选定一个动作来最大化长期奖励。

本发明使用actor-critic网络结构来解决该连续控制问题。

使用actor网络

生成动作策略a_t，其中o_i(t)为自身观测信息，

为UAV-i对其他UAV的综合观测信息，θ_t是actor网络的参数。

使用critic网络

来评估策略的价值，其中o_i(t)为自身观测信息，

为UAV-i对其他UAV的综合观测信息，a_t表示每个UAV的行动选取，ω_t是critic网络的参数。

actor-critic网络的更新使用如下loss进行训练：

其中，p是采样空间，y_t＝R(t)+γQ_t+1。

由于动作空间大，计算复杂度高，本发明采用确定性策略梯度算法来简化计算，在每个状态下选择最大概率动作，策略梯度计算如下：

为了提高学习的稳定性，本发明使用了一个对偶网络结构，表示为目标网络Q'、U'和当前网络Q、U，目标值y_t由目标critic网络评估，

即：

其中参数ω'_t是当前critic网络对当前参数ω_t的延迟软更新，表示为：

ω'_t+1＝τω_t+(1-τ)ω'_t

其中，常数τ是平滑参数，目标actor网络的更新与之类似。

当前actor网络以综合观测

为输入，通过

生成产生确定性动作。

最后，actor-critic网络参数将更新为：

其中

α_θ与α_ω是参数更新的步长。

此处设置了基于确定性策略梯度算法的actor-critic网络，优化了计算过程，进一步节省了时间。

与现有技术相比，本申请使用贝叶斯优化驱动的深度强化学习，根据无人机的历史数据预测无人机的下一步动作，无人机综合自身的观测和贝叶斯预测的结果决定下一步动作，相比于传统无驱动模型，初期的探索过程更有效率，加快了算法收敛的速度，使系统投入实际使用成为可能。

同时，本申请使用部分可观测马尔可夫决策过程对多无人机的网络成型和轨迹优化进行建模，无人机在观测阶段仅能获取自身和向自身传输数据的无人机的状态信息，贝叶斯模块设定在基站处，采用集中式训练、分布式执行的方式运作系统。相比于传统的全局观测模型，无人机端的数据负载更少，计算负担更小，能量消耗也随之变少。

此外，本申请使用公平因子以衡量多无人机系统的公平性，使各无人机之间的数据负载均衡，部分满载的概率变小，整个系统的抗干扰能力变强，能及时应对突发状况或突然产生的大量数据，提升了系统的稳定性。

在一个具体的实施例中，考虑一个多无人机辅助通信系统。如图1所示，多个地面用户分布在2×2km²范围的区域内，多架无人机负责从地面的用户处收集所有传感数据，通过多无人机中继传输或直接传输将数据卸载至基站，其它参数详见图3.本发明对该系统进行了仿真实验，算法流程如图4，结果如下：

首先，我们评估了POMARL算法的收敛性和学习性能。如图5所示，我们的算法在部分观察环境下收敛速度快，获得的奖励高于传统MADDPG算法。MADDPG由于缺乏观察信息使收敛变得更加困难，因此，智能体无法学习到有效的协作策略，算法退化为多个独立的DDPG算法，不适合我们的场景。在图6中，我们展示了我们的算法在全局观察下的性能，实验表明我们的算法在全局观察环境下表现出与MADDPG相似的性能。

之后，我们对比了不同用户分布下的轨迹优化和网络成型。

如图7所示，几个地面用户在空间中分布不均，大部分地面用户集中在地图的左上角，少数用户分布在基站附近。在这种不平衡分布下，基于局部观察的智能体很容易忽略少数用户而提高自己获取的奖励，无法达成全局最优解。我们采取的策略是分工合作，UAV-1负责离基站近的用户，且作为UAV-2和UAV-3的中继节点，UAV-2和UAV-3则服务于左上角密集分布的地面用户。如图8所示，用户分布更加均匀，无人机将用户分为三部分分别进行服务。

在图9中，我们展示了第二种用户分布下不同轨迹点的网络成型策略。我们使用黑色实心点表示无人机正在与其他无人机进行数据传输。空心点表示无人机不参与中继传输，直接将数据卸载到基站。结果表明，当UAV-2和UAV-3远离基站时，它们会将UAV-1作为中继节点。UAV-2靠近基站时，会调整网络成型策略，直接向基站传输数据。每个无人机的数据缓冲区动态如图10所示。数据缓冲区的动态变化进一步说明了网络成型策略的调整。在初始阶段，UAV-3以高数据速率向UAV-1传输数据，这导致UAV-1的数据负载短暂增加。由于UAV-1离BS更近，它会以更高的速率将数据卸载到基站。最后，所有无人机的数据几乎同时传输完毕，这意味着多跳网络的传输能力得到了充分利用。

最后，我们比较了多无人机关键参数的变化。在图11中，我们可视化了每个无人机收集的数据量的动态变化。随着算法的迭代，无人机可以在相同的时间内收集更多的数据。在训练初期，由于地面用户分布不均，不同无人机采集的数据量差异很大。随着算法的迭代，各个无人机之间的数据变得更加平衡。在图12中，我们展示了每架无人机奖励的动态变化。显然，UAV-1获取的奖励比UAV-2和UAV-3更多，这是因为UAV-1离基站更近，可以在短时间内卸载更多数据。UAV-2和UAV-3的奖励接近，但随着算法的迭代，UAV-3获得的奖励变得更多，这是因为UAV-3的整体移动范围更小，因此相比于UAV-2消耗能量更少。在图13和图14中，我们可视化了无人机在x轴和y轴上的移动距离。在初始阶段，无人机通过大范围飞行来探索环境并进行试错，随着迭代的进行，无人机的运动策略逐渐稳定并进行小范围飞行。这种策略可以大大降低能耗，并以稳定的飞行轨迹获得更高的奖励。

基于上述一种无人机网络分布式轨迹规划方法，本发明还提供了一种无人机网络分布式轨迹规划系统，如图15所示，所述系统包括：

系统模型构建模块1，用于以多无人机系统的数据传输能力最大为优化目标，构建所述多无人机系统的系统模型；

奖励模型构建模块2，获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息，并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型；

贝叶斯预测模块3，用于根据所述多无人机系统的历史数据，预测所有无人机的下一时隙轨迹点，并将各无人机的下一时隙轨迹点输入所述奖励模型，得到奖励信息；

轨迹规划模块4，用于获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中确定最优动作。

如图16所示，系统模型构建模块1包括：

基础架构建模模块11，用于对多无人机系统基础架构进行建模，所述多无人机系统基础架构包括一个基站与多个无人机的通信网络；

网络成型建模模块12，用于对多无人机网络成型进行建模，所述多无人机网络成型包括无人机与基站的连接以及无人机与其他无人机的连接组成的传输网络；

通信信道建模模块13，用于对各通信信道进行建模，所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道；

数据更新建模模块14，用于对用户、无人机和基站的数据更新过程进行建模；

负载均衡建模模块15，用于对公平性单元和无人机能耗单元进行建模，所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算，所述无人机能耗单元包括无人机的总能耗计算。

关于一种无人机网络分布式轨迹规划系统的具体限定可以参见上文中对于一种无人机网络分布式轨迹规划方法的限定，在此不再赘述。上述系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

综上，本发明提供的一种分布式的轨迹优化和网络成型优化方法，通过自身的观测值和对其他无人机的观测预估值来为当前时隙的无人机做出动作策略，从而实现数据的采集和回传。本发明可以在在复杂的环境场景中分布式执行，大大降低无人机之间的通信成本，同时可以快速的实现部署工作，辅助地面用户卸载自身数据，降低了数据卸载成本。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种无人机网络分布式轨迹规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种无人机网络分布式轨迹规划方法，其特征在于，所述构建所述多无人机系统的系统模型，包括：

对用户、无人机和基站的数据更新过程进行建模；

3.根据权利要求2所述的一种无人机网络分布式轨迹规划方法，其特征在于，

所述系统模型中各无人机在观测空间中的观测信息包括无人机的位置、采集的数据量，无人机对其他无人机的部分观测和对所有无人机的状态和动作预测；

4.根据权利要求2所述的一种无人机网络分布式轨迹规划方法，其特征在于，所述多无人机系统的系统模型包括如下约束：

无人机数据缓冲区的数据量小于或等于预设最大容量；

无人机的飞行速度小于或等于预设最大速度；

任意两架无人机之间的距离大于预设最小间距；

所述公平性单元中的公平因子大于预设阈值；

无人机在同一时隙只能向一架其他无人机或基站传输数据。

5.根据权利要求4所述的一种无人机网络分布式轨迹规划方法，其特征在于，所述时隙包括飞行子时隙、采集子时隙、传输子时隙和决策子时隙；

所述飞行子时隙为无人机从当前位置飞往下一位置的时隙；

所述采集子时隙为无人机进行数据采集的时隙；

6.根据权利要求1所述的一种无人机网络分布式轨迹规划方法，其特征在于，根据所述部分观测值、奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息，从所述动作预测信息中确定最优动作，包括：

以价值评估网络为目标，训练动作策略网络以生成动作策略。

7.一种无人机网络分布式轨迹规划系统，其特征在于，所述系统包括：

8.根据权利要求7所述的，一种无人机网络分布式轨迹规划系统，其特征在于，所述系统模型构建模块包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一所述方法的步骤。