CN116700343A

CN116700343A - 一种无人机路径规划方法、设备和存储介质

Info

Publication number: CN116700343A
Application number: CN202310797497.3A
Authority: CN
Inventors: 于银辉; 孙德红; 何庆新; 郑新; 田子玉
Original assignee: Minnan University of Science and Technology
Current assignee: Minnan University of Science and Technology
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-05

Abstract

本申请提供了一种无人机路径规划方法、设备和存储介质，涉及无线通信技术领域。该方法包括：基于无线传感器网络WSN的信道模型，确定WSN的公平吞吐量，公平吞吐量指示传感器节点占用无线信道传输数据的公平性；基于公平吞吐量和无人机能耗模型，建立WSN的马尔可夫博弈模型；基于马尔可夫博弈模型，迭代训练MADDPG算法神经网络，以使公平吞吐量以及无人机的能耗满足优化目标；用训练得到的MADDPG算法神经网络，规划无人机的飞行路径。基于此，能够合理地规划无人机执行数据收集任务的飞行路径，在保证各个传感器节点之间的公平性的同时，有效地降低无人机的总能耗，大大提升数据收集任务的执行效率。

Description

一种无人机路径规划方法、设备和存储介质

技术领域

本申请涉及无线通信技术领域，特别涉及一种无人机路径规划方法、设备和存储介质。

背景技术

物联网(Internet of Things，IoT)可以实现大量不同、异构的终端系统之间的透明无缝集成，被认为是未来网络发展的关键技术。无线传感器网络(Wireless SensorNode，WSN)作为物联网的重要组成部分，主要负责将部署在监测区域的传感器节点通过无线网络连接起来，对传感器节点收集的数据进行数据汇总，以实现对环境状况的监测。无人机(Unmanned Aerial Vehicle，UAV)具备高机动性和良好的视距传输特性，逐渐应用于无线通信领域。无人机技术与通信网络相结合的方式，可以为WSN提供远距离高可靠的视距传输，因此，无人机能够可靠地协助WSN完成数据的收集和传输任务。

然而，在多个传感器节点共享有限的信道资源的场景下，对各个传感器节点进行数据收集的公平性以及无人机的能耗，成为了限制执行数据收集任务效率的关键因素。因此，如何合理地规划无人机的飞行路径，使得保证传感器节点之间的公平性的同时还能够降低无人机总能耗，是目前亟待解决的问题。

发明内容

本申请提供了一种无人机路径规划方法、设备、装置及存储介质，能够合理地规划无人机的飞行路径，在保障各个传感器节点之间公平性的同时，有效地降低无人机的总能耗。

为了实现上述目的，第一方面，本申请提供了一种基于多智能体强化学习的无人机路径规划方法，该方法包括：

步骤S1：基于无线传感器网络WSN的信道模型，确定WSN中传感器节点的公平吞吐量，所述信道模型用于表示所述WSN中无人机与传感器节点之间的无线信道，所述公平吞吐量指示传感器节点占用无线信道传输数据的公平性；

步骤S2：基于所述公平吞吐量和无人机能耗模型，建立所述WSN的马尔可夫博弈模型；

步骤S3：基于所述马尔可夫博弈模型，迭代训练多智能体深度确定性策略梯度MADDPG算法神经网络，以使所述公平吞吐量以及所述无人机的能耗满足优化目标；

步骤S4：基于训练得到的所述MADDPG算法神经网络，规划所述无人机的飞行路径。

在一种可能实施方式中，所述步骤S1包括：

基于所述信道模型，确定所述传感器节点的上行吞吐量；

基于所述上行吞吐量和所述WSN的公平性指标，确定所述公平吞吐量。

在一种可能实施方式中，所述WSN包括M个无人机和N个传感器节点，其中，无人机m与传感器节点n建立通信链路，所述信道模型表示为：无人机m与传感器节点n之间的无线通信链路信道功率增益；

所述基于所述信道模型，确定所述传感器节点的上行吞吐量，通过下述公式实现：

其中，为无人机m与传感器节点n间的信号干扰加噪声比SINR，/>为传感器节点n在t时隙的传输功率，/>表示 t 时隙无人机 m 与传感器节点 n 是否建立通信连接；/>为加性高斯白噪声，/>表示无人机m与节点n建立通信链路时受到其他传感器节点的干扰量；/>t时隙传感器节点n向无人机m上传数据的数据传输速率；/>表示无线信道的带宽；/>为t时隙传感器节点n的上行吞吐量，M和N为正整数。

在一种可能实施方式中，所述WSN包括M个无人机和N个传感器节点，其中，无人机m与传感器节点n建立通信链路；

所述基于所述上行吞吐量和所述WSN的公平性指标，确定所述公平吞吐量，通过下述公式实现：

其中，为t时隙传感器节点n的上行吞吐量；/>为Jain公平性指数；为公平吞吐量。

在一种可能实施方式中，所述步骤S2包括：

将每架无人机作为一个智能体，基于所述公平吞吐量和无人机能耗模型，定义每个智能体的状态空间、动作空间及奖励函数；

其中，t时隙所述智能体m的状态空间至少包括：智能体m当前水平位置和截止到t时隙所消耗的能量/>，所述/>基于所述无人机能耗模型确定；

t时隙所述智能体m的动作空间包括：无人机m的飞行速度/>和飞行偏航角/>；

t时隙所述智能体m的奖励函数至少包括：公平吞吐量最大化奖励和能耗最小奖励。

在一种可能实施方式中，所述状态空间还包括：智能体m的剩余飞行时间/>和节点通信调度/>；

所述奖励函数还包括：引导无人机尽快到达目的地奖励、边界惩罚和碰撞惩罚中至少一项；

所述节点通信调度定义为：

；

其中，为传感器节点通信范围可用半径，/>表示无人机m与传感器节点n之间的距离，H是无人机的固定飞行高度。

在一种可能实施方式中，无人机的任务飞行时长为T，无人机总飞行时间T离散得到K个时隙；所述优化目标表示为：

其中，是无人机m的飞行速度；/>是无人机m的飞行偏航角；t指示第t个时隙；/>为公平吞吐量；/>为截止到t时隙的无人机能耗。

在一种可能实施方式中，所述WSN中的每个传感器节点同时至多与一个无人机建立通信连接。

在一种可能实施方式中，所述MADDPG算法神经网络包括策略网络、目标策略网络、价值网络和目标价值网络，训练过程中，将每架无人机作为一个智能体，针对n个智能体；所述步骤S3包括：

步骤S31：对于每个训练回合，初始化探索噪声分布，获得每个智能体的初始状态；

步骤S32：将初始状态作为策略网络的输入，对于每个智能体，根据策略网络和所述探索噪声分布，得到输出的动作/>，其中，表示第g个智能体的策略；

步骤S33：执行动作得到奖励/>和下一状态观测值/>；

步骤S34：将n个智能体的联合状态观测、联合动作联合奖励/>和联合下一状态观测/>构成的预采样数据/>放入经验重放缓冲区；

其中表示n个智能体的状态观测值，/>表示所述n个智能体的动作；

基于中随机采样的数据进行训练，更新策略网络的策略参数：

；

基于损失函数，更新价值网络的价值参数：

其中，是损失函数；/>是所述策略网络的策略参数，/>表示价值函数，/>是所述价值网络的价值参数；

步骤S35：对于每个智能体g，更新目标策略网络和目标价值网络的参数：

其中，是软更新系数，/>是目标策略网络的参数；/>是目标价值网络的参数。

在一种可能实施方式中，在执行步骤S1之前，所述方法还包括：

基于所述WSN的系统模型和概率视距LoS模型，建立所述WSN的信道模型；

所述WSN包括M个无人机和N个传感器节点，所述信道模型所表示的无人机m与传感器节点n之间的无线通信链路信道功率增益为：

；

其中，表示：在t时隙，所述无人机m与所述传感器节点n之间存在LoS链路的概率，/>表示传感器节点n到无人机m的仰角，/>为参考距离为1米时的信道功率，/>表示无人机m与传感器节点n之间的距离，为路径损耗指数，M和N均为正整数。

第二方面，提供一种基于多智能体强化学习的无人机路径规划装置，该装置包括：

公平吞吐量模块，用于基于无线传感器网络WSN的信道模型，确定WSN中传感器节点的公平吞吐量，所述信道模型用于表示所述WSN中无人机与传感器节点之间的无线信道，所述公平吞吐量指示传感器节点占用无线信道传输数据的公平性；

建模模块，用于基于所述公平吞吐量和无人机能耗模型，建立所述WSN的马尔可夫博弈模型；

训练模块，用于基于所述马尔可夫博弈模型，迭代训练多智能体深度确定性策略梯度MADDPG算法神经网络，以使所述公平吞吐量以及所述无人机的能耗满足优化目标；

路径规划模块，用于基于训练得到的所述MADDPG算法神经网络，规划所述无人机的飞行路径。

第三方面，提供一种电子设备，该电子设备包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由处理器执行以实现如第一方面提供的基于多智能体强化学习的无人机路径规划方法。

第四方面，提供一种计算机可读存储介质，该存储介质中存储有至少一段程序，该至少一段程序由处理器执行以实现如第一方面提供的基于多智能体强化学习的无人机路径规划方法。

本申请提供的技术方案至少包括如下技术效果：

通过将公平吞吐量以及无人机能耗，作为无人机轨迹规划的策略优化目标，并采用MADDPG算法架构，以多智能体强化学习的模式来训练用于规划无人机集群路径的神经网络，从而得到能够兼顾强公平性和低能耗的飞行路径。因此，本申请的技术方案能够合理地规划无人机执行数据收集任务的飞行路径，在保证各个传感器节点之间的公平性的同时，有效地降低无人机的总能耗，大大提升数据收集任务的执行效率。

附图说明

图1是本申请实施例提供的一种无线传感器网络的系统模型的示意图；

图2是本申请实施例提供的一种基于多智能体强化学习的无人机路径规划方法的流程示意图；

图3是本申请实施例提供的一种DDPG算法的架构图；

图4是本申请实施例提供的一种MADDPG算法的架构图；

图5是本申请实施例提供的一种采用本申请算法确定的无人机飞行路径的示意图；

图6是本申请实施例提供的一种本申请算法与相关算法下节点通信范围对公平吞吐量的影响对比图；

图7是本申请实施例提供的一种本申请算法与相关算法下节点通信范围对无人机能耗的影响对比图；

图8是本申请实施例提供的一种基于多智能体强化学习的无人机路径规划装置的示意图；

图9是本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为进一步说明各实施例，本申请提供有附图。这些附图为本申请揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本申请的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本申请进一步说明。

相较于传统的地面基站和静态中继，无人机作为中继转发信息具有更高的机动性，其能够在环境恶劣、通信质量差、传输压力大的环境下实现远距离可靠数据传输。无人机采用“存储-携带-转发”的方式，可以有效可靠的协助无线传感器网络完成数据收集和传输任务。这样不仅扩大了数据传输的距离，同时缓解了传统多跳网络带来的干扰和衰减问题。

采用无人机辅助物联网无线传感器网络进行数据收集，有效克服了传统无线传感器网络传输范围受限问题，但也带来了新的问题：在多台无人机针对区域内多个传感器节点执行数据收集任务的场景下，无人机的调度和飞行路径规划需要考虑多个传感器节点间数据收集的公平性问题，但无人机的能量受限，为了考虑公平性而制定的飞行路径或调度策略，也必须考虑无人机的能耗问题。因此，如何平衡两者，确定出合理的无人机飞行路径，是目前亟待解决的问题。

有鉴于此，本申请提供了一种基于多智能体强化学习的无人机路径规划方法，能够有效解决上述问题。

首先，对本申请涉及的实施环境进行介绍。

图1为本申请提供的一种无线传感器网络的系统模型的示意图。图1示出了一个由多无人机辅助的物联网无线传感器网络（WSN）10，其中包括M个无人机11和N个传感器节点12(SNs)。各个传感器节点12分布在图示区域内，用于感知环境信息。

可选地，每个传感器节点均配备全向天线，用于将所缓存和/或收集的数据上传给无人机。

在一些可选实施例中，无人机在固定高度飞行，无人机的飞行时间受限，各个无人机从相同或不同的初始位置起飞，在完成数据收集任务后，飞往距离其最近的充电站13。

下面结合上述图1示出的无线传感器网络，对本申请的技术方案进行详细介绍。图2是本申请实施例提供的一种基于多智能体强化学习的无人机飞行路径规划方法的流程示意图，参考图2，本申请提供的技术方案包括下述步骤201至步骤205。

步骤201：基于无线传感器网络WSN的系统模型和概率视距LoS模型，建立WSN的信道模型。

本实施例中，首先基于WSN中无人机的初始位置、传感器节点和充电站的位置来进行数学建模，得到WSN的系统模型。该系统模型能够表示无线传感器网络的设备部署情况和数据收集任务的执行环境。

示例性的，无人机的任务飞行时长设置为T，无人机总飞行时间T被离散为K个长度为的时隙，即/>。无人机进入传感器节点的公共通信范围时，即可采用时分多址(Time Division Multiple Access, TDMA)的方式与传感器节点进行通信。

无人机用表示，传感器节点集合用/>表示。以三维笛卡尔坐标系为例，无人机m在t时隙的位置记为/>，将传感器节点n的坐标表示为/>。/>是无人机的固定飞行高度。

传感器节点n的通信范围可用半径为的圆形面积来表示（参考图1中用虚线表示的圆形区域），无人机m的起始位置和充电站的位置分别用/>和/>表示。

本申请实施例以无人机在飞行期间收集节点数据为例进行说明。当无人机通过某些节点的公共通信区域时，可以与传感器节点建立通信连接。在一些可能的实施方式中，本申请实施例的技术方案也能够应用在包括悬停场景的飞行任务中，本申请对此不作限定。

进一步的，即可基于系统模型和概率LoS模型，建立WSN的空-地信道模型。空-地信道模型用于表示WSN中无人机与传感器节点之间的无线信道。在本申请中，信道模型表示为：无人机m与节点n之间的无线通信链路信道功率增益。下面对信道建模的过程进行详细说明。

城市通信场景可以分为视距(Line-of-Sight, LoS)通信和非视距(Non-Line-of-Sight, NLoS)通信两种情况。二者的概率能够用概率LoS信道模型来表示。本申请采用概率LoS模型来对WSN进行信道建模，则能够充分考虑到障碍物遮挡等因素，使得本申请的技术方案具有更广阔的应用场景。

在概率LoS信道模型中，大尺度信道增益表示为：

(1)

其中，是在LoS情况下参考距离为1米（m）处的信道功率增益，/>是NLoS情况下的附加衰减因子，/>为路径损耗指数。节点与无人机间为LoS链路的概率可以表示为仰角的logistics函数：

(2)

其中a和b是与通信环境相关的参数，表示无人机与地面节点的仰角。因此，NLoS链路的概率可以采用/>得出。

因此，信道模型可以表示为：无人机m与节点n之间的无线通信链路信道功率增益：

(3)

其中，表示t时隙无人机m与节点n之间LoS链路的概率，/>表示节点n到无人机m的仰角，/>为参考距离为1m时的信道功率，/>表示无人机m与节点n之间的距离，/>表示路径损耗指数。进一步的，根据三角形的基本公式，/>、/>与/>计算公式如下所示。

(4)

(5)

(6)

其中H为无人机的固定飞行高度，为载波频率，/>为光速。

步骤202：基于无线传感器网络WSN的信道模型，确定WSN中传感器节点的公平吞吐量。

其中，信道模型用于表示WSN中无人机与传感器节点之间的无线信道，公平吞吐量指示传感器节点占用无线信道传输数据的公平性。

在一些实施例中，本步骤202包括下述步骤2-1和步骤2-2。

步骤2-1、基于信道模型，确定传感器节点的上行吞吐量。

为了更好的体现无人机之间的协作关系，本申请设置每个节点至多只能被一个无人机访问。示例性地，本申请采用二进制变量表示t时隙无人机m与节点n的连接关系，当/>时表示无人机m在传感器节点n的通信范围内，无人机m正在对传感器节点n提供数据收集服务，反之/>。

基于此，若某一传感器节点n被无人机m访问，则其他无人机不再为其提供收集服务。无人机与地面节点的连接关系与其飞行路径强相关，因此，多个无人机同时进入某未被服务的节点的通信范围内时，本申请可以保证距离节点最近的无人机优先为其提供数据收集服务。该约束条件表示如下：

(7)

进一步地，本申请还考虑了多无人机场景下无人机之间的碰撞问题，用表示无人机间的最小安全距离。示例性地，无人机间的距离约束可以表示为：

(8)

其中，是一个无人机的位置，/>是另一个无人机的位置。

本申请还考虑到多无人机场景下，无人机与传感器节点之间的通信连接受到其他无人机的干扰。在一些实施例中，无人机通过传感器节点的公共通信范围时，可以采用时分多址的方式与多个传感器节点同时建立通信连接。假设t时隙传感器节点n的传输功率用表示，若此时无人机m与传感器节点n建立通信链路，即/>时，无人机m与传感器节点n间的信号与干扰加噪声比(Signal to Interference plus Noise Ratio,SINR)可表示为：

(9)

其中，为加性高斯白噪声，/>表示无人机m与节点n建立通信链路时受到其他节点的干扰。用/>表示无线信道的带宽。

综上，t时隙传感器节点n向无人机m上传数据的数据传输速率可表示为：

(10)

t时隙传感器节点n的上行吞吐量可表示为：

(11)

步骤2-2、基于上行吞吐量和WSN的公平性指标，确定传感器节点的公平吞吐量。

本申请考虑传感器节点之间的公平性问题，引入了Jain公平性指数衡量节点之间的公平性，公平性指数表示如下：

(12)

根据柯西-施瓦茨不等式，可以得出。节点之间的吞吐量差异越大，公平指数/>越小，也即是，公平指数/>越大表示节点数据收集任务越公平。

本申请为了平衡系统总吞吐量与单个传感器节点之间的公平性，引入公平吞吐量这一概念，公平吞吐量定义为：

(13)

相关技术中，大多集中关注系统的总吞吐量，从而导致无人机频繁访问某些节点，而使其他节点的吞吐量很小。本申请所提出的公平吞吐量，结合了传感器节点的上行吞吐量和系统整体的公平性指标来计算，从而可以避免上述情况，实现更准确的公平性衡量。

在一些实施例中，在执行步骤203之前，对无人机的能耗进行建模，得到无人机能耗模型。在一种具体实现中，可以使用现有技术的无人机能耗模型。

在另一具体实现中，示例性地，本申请以旋翼无人机辅助物联网系统进行数据收集的场景为例（也可以是其他型号的无人机，本申请不局限于此）。旋翼无人机的飞行能耗通常与无人机的飞行状态、空气等因素有关，飞行速度为V的无人机其推进功耗可以建模为：

(14)

无人机的推进功耗包括叶片剖面功率、诱导功率和寄生功率，分别对应上式（13）中从左到右的三部分参数。其中，和/>是两个常数，分别代表无人机在悬停状态下的叶片剖面功率和诱导功率，/>表示旋翼桨叶的尖端速度，/>表示悬停时的平均动叶诱导速度，/>表示无人机机身阻力比，/>表示旋翼坚固程度，/>表示空气密度，/>表示旋翼盘体积。

因此，无人机m截止到t时隙已消耗的能量可以表示为(15)

其中，是无人机m在t时隙的飞行速度，/>是时隙长度。

步骤203：基于公平吞吐量和无人机能耗模型，建立WSN的马尔可夫博弈模型。

本申请将针对无人机飞行路径的优化问题，建模为马尔可夫决策过程的多智能体扩展，也即是，马尔可夫博弈模型。具体地，将每架无人机作为一个智能体，对每个智能体的状态空间、动作空间及奖励函数的定义如下：

（1）状态空间：t时隙智能体m的状态空间由智能体当前水平位置、截止到t时隙所消耗的能量/>、剩余飞行时间/>和节点通信调度/>组成，具体定义为：

(16)

其中，是第1个传感器节点的通信调度，/>是第N个传感器节点的通信调度。需要说明的是，/>并不等同于/>，/>是 n 取值为N 时的节点通信调度。

（2）动作空间：t时隙智能体m的动作空间由无人机m的飞行速度/>和飞行偏航角/>组成，具体定义为：

(17)

（3）奖励函数：t时隙智能体m的奖励函数由五部分组成：公平吞吐量最大化奖励、引导无人机尽快到达目的地奖励、能耗最小奖励、边界惩罚和碰撞惩罚，可以表示为：

(18)

其中，表示无人机m到距离其最近的充电站的水平距离，/>表示任务剩余时间，/>表示无人机m飞出边界的次数，/>表示无人机碰撞惩罚，/>、/>、/>和均为权重参数，在调整各项数值对奖励值影响的同时，也用于调整各项数值的数量级，例如，/>是/>的权重参数，/>是/>的权重参数，/>的数量级为/>，/>为/>，则/>和/>能够将/>和/>的数量级统一。

本申请的优化目标是联合优化多无人机的飞行速度和偏航角（组成飞行路径的参数），以在规定时间内完成所有传感器节点的数据收集任务，最大化总公平吞吐量并最小化无人机飞行能耗。优化目标可以建模为一个多目标优化问题，表述为：

其中，式(19a)表示无人机的初始状态和最终状态，式(19b)和(19c)分别表示无人机的飞行速度和偏航角限制，式(19d)表示每个节点最多只由一个无人机提供数据收集服务，式(19e)表示无人机之间的安全距离约束。

步骤204：基于马尔可夫博弈模型，迭代训练多智能体深度确定性策略梯度MADDPG算法神经网络，以使公平吞吐量以及无人机的能耗满足优化目标。

本申请在确定马尔可夫博弈过程后，即采用多智能体深度强化学习的方法，实现对无人机飞行路径的规划。

具体地，本申请采用MADDPG算法对无人机飞行路径进行自适应调节，MADDPG（Multi-Agent Deep Deterministic Policy Gradient，多智能体深度确定性策略梯度）算法是DDPG算法在多智能体上的延伸，用于解决连续动作空间的多智能体环境下的相关问题。

图3是本申请实施例提供的一种DDPG算法的架构图。参考图3，DDPG（deepdeterministic policy gradient，深度确定性策略梯度算法）算法是一种基于Actor-Critic（演员-批评家）框架的深度强化学习算法，是为了解决连续动作控制问题而提出的算法。DDPG的结构可以分为策略网络和价值网络两部分。为了打破训练数据的相关性并增加训练的稳定性，DDPG算法引入深度Q网络(Deep Q Network, DQN)的经验回放和双网络结构，其中经验回放表示将策略网络与环境交互生产生的多组经验数据样本存储到经验回放缓冲区中，抽取小批量数据(Mini-Batch)样本进行训练；双网络结构表示策略网络和价值网络分别具有各自的当前网络和目标网络。

图4是本申请实施例提供的一种MADDPG算法的架构图。参考图4，与DDPG类似，MADDPG中每个智能体同样具有四个神经网络，每个智能体的训练同单个DDPG算法的训练过程类似，Actor网络输入的是智能体的状态观测值，输出智能体在当前状态下执行的动作。与DDPG不同的是，MADDPG采用集中式训练、分布式执行的方法。在DDPG算法中，Critic的输入是一个状态-动作对信息来计算Q值（策略的价值），但在MADDPG中，每个智能体的Critic除了输入自身的状态-动作对以外，还加入了其他智能体的动作来决定当前做出的决策的Q值。因此，本申请采用MADDPG算法，能够有效地模拟多个无人机之间的协作和冲突关系，来制定合理的无人机飞行路径。

在本实施例中，MADDPG算法神经网络包括策略网络、目标策略网络、价值网络和目标价值网络，训练过程中，将每架无人机作为一个智能体。下面对本申请迭代训练MADDPG算法神经网络的流程进行原理性介绍，训练包括下述步骤a至步骤e。

步骤a：对于每个训练回合，初始化探索噪声分布，获得每个智能体的初始状态。

步骤b：将初始状态作为策略网络的输入，对于每个智能体，根据策略网络和该探索噪声分布，得到输出的动作/>，其中，/>表示第g个智能体的策略。

步骤c：执行动作得到奖励/>和下一状态观测值/>。

步骤d：将n个智能体的联合状态观测、联合动作、联合奖励/>和联合下一状态观测/>构成的“状态-动作-奖励”元组预采样数据/>放入经验重放缓冲区；其中，表示n个智能体的状态观测值，/>表示该n个智能体的动作。

基于从D中随机采样的数据进行神经网络训练，更新策略网络的策略参数。此过程可以表示为：

基于损失函数，更新价值网络的价值参数。此过程可以表示为：

其中，是损失函数；/>是该策略网络的策略参数，/>表示价值函数，/>是该价值网络的价值参数。

步骤e：对于每个智能体g，更新目标策略网络和目标价值网络的参数：

重复上述步骤a-步骤e所介绍的训练过程对网络进行训练，直至每一回合都达到最大步数T，或智能体到达指定位置，或当训练达到最大回合数M时，结束训练。

步骤205：基于训练得到的MADDPG算法神经网络，规划无人机的飞行路径。

本申请实施例，指示飞行路径的参数包括前述建模时的动作参数（飞行速度和偏航角）。另一些实施例中，在不同的建模坐标系下，指示飞行路径的参数还可以是其他参数，本申请不局限于此。

在本申请实施例中，可以通过下述两种方式来实现无人机路径的规划：

1、在线规划：将训练得到的MADDPG算法神经网络加载到无人机集群中；无人机根据实时获取的环境参数输入该神经网络，将该神经网络输出的动作参数（例如无人机的飞行速度和飞行偏航角/>），转换为对应的无人机控制指令，实时控制无人机轨迹。当然，无人机可以与其他无人机进行通信来获取所需的参数，例如，其他无人机的位置、任务执行情况等，本申请对此不作限定。

2、离线规划：将规划好的飞行路径相关参数加载到无人机中，无人机直接按照规划好的路径进行飞行。

图5是本申请实施例提供的一种采用本申请算法确定的无人机飞行路径的示意图。参见图5，初始位置分别为(0,0)和(400,0)的两架无人机的飞行路径均匀地经过沿途的传感器节点，最后飞往充电站。

本申请通过将公平吞吐量以及无人机能耗，作为无人机轨迹规划的策略优化目标，并采用MADDPG算法架构，以多智能体强化学习的模式来训练规划无人机集群飞行路径的神经网络，从而得到能够兼顾强公平性和低能耗的飞行路径。因此，本申请的技术方案能够合理地规划无人机执行数据收集任务的飞行路径，在保证各个传感器节点之间的公平性的同时，有效地降低无人机的总能耗，大大提升数据收集任务的执行效率。

下面通过一些附图，对本申请算法相对于相关技术所达到的显著进步效果进行说明。相关算法包括：DDPG、Greedy（贪婪算法）和FSMADDPG（固定速度MADDPG）。

图6是本申请实施例提供的一种本申请算法与相关算法下节点通信范围对公平吞吐量的影响对比图。如图6所示，本申请算法所达到的公平吞吐量大于相关算法，并随着通信范围变大而显著升高。

图7是本申请实施例提供的一种本申请算法与相关算法下节点通信范围对无人机能耗的影响对比图。如图7所示，本申请算法所实现的能耗，在大趋势上均小于相关算法的平均表现。

本申请还提供了一种基于多智能体强化学习的无人机路径规划装置的示意图，参考图8，该装置包括：

公平吞吐量模块801，用于基于无线传感器网络WSN的信道模型，确定WSN中传感器节点的公平吞吐量，所述信道模型用于表示所述WSN中无人机与传感器节点之间的无线信道，所述公平吞吐量指示传感器节点占用无线信道传输数据的公平性；

建模模块802，用于基于所述公平吞吐量和无人机能耗模型，建立所述WSN的马尔可夫博弈模型；

训练模块803，用于基于所述马尔可夫博弈模型，迭代训练多智能体深度确定性策略梯度MADDPG算法神经网络，以使所述公平吞吐量以及所述无人机的能耗满足优化目标；

路径规划模块804，用于基于训练得到的所述MADDPG算法神经网络，规划所述无人机的飞行路径。

在一种可能实施方式中，所述装置还包括：

信道建模模块，用于基于所述WSN的系统模型和概率视距LoS模型，建立所述WSN的信道模型；

；

需要说明的是，上述实施例提供的基于多智能体强化学习的无人机路径规划装置在实现相应步骤时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于多智能体强化学习的无人机路径规划装置与上述的基于多智能体强化学习的无人机路径规划方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个节点是指两个或两个以上的节点。

本申请提供的基于多智能体强化学习的无人机路径规划方法能够由电子设备执行。图9是本申请实施例提供的一种电子设备的硬件结构示意图，如图9所示，该电子设备包括处理器901、存储器902、总线903、以及存储在所述存储器902中并可在所述处理器901上运行的计算机程序，处理器901包括一个或一个以上处理核心，存储器902通过总线903与处理器901相连，存储器902用于存储程序指令，所述处理器执行所述计算机程序时实现本申请提供的上述方法实施例中的全部或部分步骤。

进一步地，作为一个可执行方案，上述电子设备可以是计算机单元，该计算机单元可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机单元可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述计算机单元的组成结构仅仅是计算机单元的示例，并不构成对计算机单元的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件。例如所述计算机单元还可以包括输入输出设备、网络接入设备、总线等，本申请实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital SignalProcessor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机单元的控制中心，利用各种接口和线路连接整个计算机单元的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机单元的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例上述方法的步骤。

所述计算机单元集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本申请，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本申请的精神和范围内，在形式上和细节上可以对本申请做出各种变化，均为本申请的保护范围。

Claims

1.一种无人机路径规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

基于所述信道模型，确定所述传感器节点的上行吞吐量；

3.根据权利要求2所述的方法，其特征在于，所述WSN包括M个无人机和N个传感器节点，其中，无人机m与传感器节点n建立通信链路，所述信道模型表示为：无人机m与传感器节点n之间的无线通信链路信道功率增益；

其中，/>为无人机m与传感器节点n间的信号干扰加噪声比SINR，/>为传感器节点n在t时隙的传输功率，/>表示t时隙无人机m与传感器节点n是否建立通信连接；/>为加性高斯白噪声，表示无人机m与节点n建立通信链路时受到其他传感器节点的干扰量；/>为t时隙传感器节点n向无人机m上传数据的数据传输速率；/>表示无线信道的带宽；/>为t时隙传感器节点n的上行吞吐量，M和N为正整数。

4.根据权利要求2所述的方法，其特征在于，所述WSN包括M个无人机和N个传感器节点，其中，无人机m与传感器节点n建立通信链路；

其中，/>为t时隙传感器节点n的上行吞吐量；/>为Jain公平性指数；/>为公平吞吐量。

5.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：

6.根据权利要求5所述的方法，其特征在于，所述状态空间还包括：智能体m的剩余飞行时间/>和节点通信调度/>；

所述节点通信调度定义为：；

7.根据权利要求1所述的方法，其特征在于，无人机的任务飞行时长为T，无人机总飞行时间T离散得到K个时隙；所述优化目标表示为：

其中，/>是无人机m的飞行速度；/>是无人机m的飞行偏航角；t指示第t个时隙；/>为公平吞吐量；/>截止到t时隙的无人机能耗。

8.根据权利要求1所述的方法，其特征在于，所述WSN中的每个传感器节点同时至多与一个无人机建立通信连接。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由处理器执行以实现如权利要求1至8任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器执行以实现如权利要求1至8任一所述的方法。