CN117553803A

CN117553803A - 一种基于深度强化学习的多无人机智能路径规划方法

Info

Publication number: CN117553803A
Application number: CN202410026065.7A
Authority: CN
Inventors: 孙璐; 乔丹霞; 万良田; 林云; 宁兆龙
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-13
Anticipated expiration: 2044-01-09
Also published as: CN117553803B

Abstract

本发明提供了一种基于深度强化学习的多无人机智能路径规划方法，涉及无人机移动边缘计算技术领域，包括如下步骤：S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架；S2、根据基本框架生成路径优化策略，所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划，在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间。本发明在传统的多智能体深度强化学习算法的基础上引入了无监督强化辅助学习算法的辅助奖励机制，在优化无人机消耗的能量和飞行时间的基础上对无人机的飞行路径进行规划，通过本系统提高无人机对任务的处理效率。

Description

一种基于深度强化学习的多无人机智能路径规划方法

技术领域

本发明涉及无人机移动边缘计算技术领域，具体而言，尤其涉及一种基于深度强化学习的多无人机智能路径规划方法。

背景技术

近年来，无人机（UAV）技术的迅猛发展和移动边缘计算（MEC）的兴起为各行各业带来了巨大的机遇和挑战。无人机作为一种具有自主飞行能力的航空器，具有灵活性、高效性和可部署性的优势，成为了许多应用领域的研究热点。移动边缘计算是一种将计算和存储资源推至网络边缘的新兴技术，将计算任务从云端延迟较高的数据中心转移到靠近终端用户的边缘服务器，实现更低的延迟和更高的数据处理效率。这种技术的兴起为无人机提供了更强大的计算和通信能力，使其能够在更复杂和智能化的环境下工作。因此，将无人机与移动边缘计算相结合，即UAV-MEC，成为了当前研究的热点之一。通过将计算、存储和通信能力推向无人机的边缘，可以实现更高效、更智能的无人机任务执行和数据处理。这对于无人机在物流、农业、城市规划、环境监测等领域的应用具有重要意义。

然而，UAV-MEC面临着许多挑战，首先是由于无人机的飞行时间有限，计算和通信任务会增加其能耗。因此如何减少无人机在空中的飞行时间和距离，从而降低能源消耗是一个需要深入研究的问题。其次路径规划是UAV-MEC系统中的关键问题之一，它涉及到如何在无人机飞行过程中选择最佳的路径，以达到最优的性能和效率。此外在无人机移动边缘计算中，单个无人机的续航时间、负载能力、运动速度等方面存在一定的限制，因此在某些复杂任务上多飞行器集体协作能够比单飞行器拥有更高的任务执行效率和容错性，可以提高探测范围和系统可靠性。在多无人机多用户的移动边缘计算系统中，如何规划无人机的飞行路径以及如何引导无人机之间相互协作来共同实现特定任务与目标是值得深入研究的问题。

传统的路径规划方法通常基于启发式算法，如A*算法和Myopic算法，它们通过搜索图中的节点和边来寻找最短路径。然而，这些方法在处理大规模问题和复杂环境时存在一些局限性。例如，当面临高维度状态空间和大规模图时，算法的搜索空间会急剧增加，导致计算复杂度的增加。与传统方法相比，机器学习和深度学习方法能够从大量的数据中进行学习和优化，具有更好的适应性和泛化能力。其中强化学习方法在路径规划领域取得了显著的进展，深度强化学习方法可以通过与环境的交互，通过奖励和惩罚机制来优化路径规划策略。这种方法可以通过反复迭代，逐步改进路径规划策略，从而获得更优的解决方案。

对于多无人机系统，由于环境中智能体的数量不止一个，将会导致智能体的策略更新可能会影响到其他智能体的环境状态，从而导致环境状态的变化。这种非静态性会给策略更新带来很大的挑战，需要采用更复杂的方法来进行策略更新和控制环境状态变化，同时这也将进一步加剧算法收敛困难的问题。并且环境反馈奖励大多为集体奖励，如果没有有效的奖励分配机制，就会导致训练后的智能体策略不稳定且低效。因此，基于辅助任务思想的路径规划方法应运而生。辅助任务是指在无人机飞行过程中，除了主要任务外，还可以执行一些附加的计算任务。它的核心思想是将路径规划问题转化为多个辅助任务，并通过解决这些辅助任务来优化路径规划结果，以提高系统的性能和效率。

发明内容

有鉴于此，本发明的目的在于提出一种基于深度强化学习的多无人机智能路径规划方法，以解决无人机移动边缘计算无法应用于多无人机系统的路径规划问题。

本发明采用的技术手段如下：

一种基于深度强化学习的多无人机智能路径规划方法，包括如下步骤：

S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架；

S2、根据基本框架生成路径优化策略，所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划，在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间。

进一步地，S1具体包括如下步骤：

S11、建立一个多无人机多用户的系统模型，无人机上装载边缘计算服务器，可以用于处理用户的任务，用户的位置是固定已知的，同时也具有一定的计算能力；每个用户都有自己的任务需求，需要将任务提交给无人机进行处理；

S12、在用户产生S11的需求后，无人机需要根据自己的服务范围，飞到用户附近，将用户纳入自己的通信范围，与用户进行通信处理用户的任务需求，在完成所有用户的任务后无人机返回出发点，合理规划无人机的路径，最小化无人机的任务完成时间，从而得到静态任务场景下无人机辅助移动边缘计算模型的基本框架。

进一步地，S2具体包括如下步骤：

S21、获取无人机当前位置的坐标信息，信道状态信息，对无人机的活动场所进行限制，训练无人机飞行不越界，输出无人机当前坐标；

S22、基于无人机当前坐标，通过距离奖励引导无人机飞向离自己最近的用户位置进行任务卸载，根据用户的任务量确定卸载比例；

S23、根据卸载比例对用户的任务进行卸载，在卸载后更新用户的任务列表，若所有用户的任务均已完成，无人机按照最近的路线返回起点，计算无人机飞行任务完成时间。

进一步地，S21具体包括如下步骤：

S211、设置多智能体深度强化学习算法的动作空间和状态空间，将无人机的初始坐标输入神经网络，经过神经网络训练得到无人机下一时隙的方向向量；

S212、将下一时隙的方向向量叠加至无人机的初始坐标中，得到无人机临时坐标，规定无人机的主要任务是学会不越界飞行，遍历无人机的动作，检查无人机是否有越界行为，若存在越界行为则修正轨迹并给予惩罚，循环S211，直至无人机学会在规定场所飞行，若不存在越界行为，则输出此时的无人机临时坐标作为无人机当前坐标。

进一步地，S22具体包括如下步骤：

S221、由无人机的状态空间获取无人机当前坐标，引入辅助奖励机制，当无人机离用户距离越近时给予的奖励越大，通过距离引导无人机飞向用户所在位置，与用户进行通信；

所述辅助奖励机制包括：以UNREAL算法为深度增强学习算法的辅助算法，引入距离引导无人机和用户通信的辅助奖励机制，在无人机飞行过程中寻找用户位置，与用户完成通信后无人机获得额外的奖励，大大降低神经网络的维度，从而更好地学习路径规划策略；

S222、用户的总数据量为，则在本地卸载的数据量为/>，卸载到无人机的数据量为/>，则本地卸载时延如下：

无人机卸载时延由上传时延和卸载时延两部分组成如下：

其中，为卸载比例，/>为用户装置处理1bit数据所需的CPU周期数，/>是本地的计算资源，/>是用户和无人机间的数据传输速率，/>是无人机处理1bit数据所需的CPU周期数，/>为无人机的计算资源；

S223、利用本地卸载时延和无人机卸载时延，在最小化通信时延的基础上得到卸载比例如下：

。

进一步地，S23具体包括如下步骤：

S231、无人机利用卸载比例与用户进行通信，无人机每完成一个用户的任务，给予完成任务的无人机一定的奖励；

S232、更新用户的任务列表，当所有用户的任务都被处理完成，无人机寻找最短的路径飞回起点，计算每个无人机完成飞行任务的时间，取消耗时间最长的无人机完成时间为系统完成任务的时间。

进一步地，S1所述移动边缘计算模型为由多个无人机节点组成的网络，每个无人机节点都能进行数据传输和计算任务；所有无人机从同一个起点出发处理用户任务，多个离线用户的任务量是一定的。

进一步地，S211所述多智能体深度强化学习算法包括：

以MADDPG作为多智能体深度强化学习算法，解决多智能体协同决策的问题，使用深度神经网络来近似智能体的策略和值函数，并使用经验回放和目标网络来训练智能体，通过最大化所有智能体的总体奖励来训练智能体的策略，实现协同决策，获取无人机下一时隙飞行的方向向量。

进一步地，所述MADDPG算法包括如下步骤：

定义无人机移动边缘计算的状态空间和动作空间，动作空间为无人机移动的方向向量，状态空间为无人机的坐标和步数；

确定无人机的奖励函数，无人机的奖励函数由四部分组成：电量损耗的负反馈奖励、越界的负反馈奖励、用户距离的反馈奖励、完成用户任务的正反馈奖励，其中无人机的越界奖励是最大的，一旦无人机有越界行为就会给予1000的负反馈奖励，电量损耗的负反馈奖励在无人机飞行过程中变化不大，距离产生的奖励远远大于电量的损耗奖励，完成用户任务的正反馈奖励由于次数有限，基本不影响无人机的飞行路线；

使用深度强化学习算法来训练智能体，在训练过程中，智能体通过与环境交互不断地学习和优化路径规划策略，以最小化路径长度并完成与用户的通信。

进一步地，所述深度强化学习算法采用的是Actor-Critic算法，Actor-Critic算法的网络结构包括一个Actor网络和一个Critic网络；

Actor网络的结构包括一个隐藏层和一个输出层，隐藏层有256个神经元，采用全连接网络的形式，提取输入状态的特征；输出层是一个概率分布层，根据无人机当前状态输出每个动作的概率，生成下一个时隙的动作；Critic网络也是一个隐藏层和一个输出层，Critic网络的输出层只有一个节点，表示当前状态-动作对的Q值，用于评估动作的价值。

较现有技术相比，本发明具有以下优点：

本发明利用机器学习和深度学习方法，通过训练模型来学习路径规划的策略。相比传统的规则和启发式方法，具有更强的适应性和泛化能力，能够根据不同环境和任务需求进行自适应调整，提高了路径规划的鲁棒性和灵活性。

本发明提供的统一多智能体深度确定性策略梯度，也称UN-MADDPG算法，将UNREAL算法的辅助奖励机制融入MADDPG算法，也称UN-MADDPG算法，大大降低了神经网络的维度，减少了多智能体深度强化学习过程中的不稳定性和收敛困难。这种算法在路径规划中可以更好地处理多智能体之间的协同问题，提高了路径规划的实时性和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基本框架图。

图2为本发明算法流程图。

图3为无人机数量为4，用户数量为12时，无人机的三维轨迹图。

图4为无人机数量为4，用户数量为12时，无人机的二维轨迹图。

图5为无人机数量为4，用户数量为12时，系统总能耗算法对比图。

图6为无人机数量为2时，无人机完成飞行任务时间的算法结果对比图。

图7为无人机数量为2时，算法训练消耗时间结果对比图。

图8为无人机数量为4时，无人机完成飞行任务时间的算法结果对比图。

图9为无人机数量为4时，算法训练消耗时间结果对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1和2所示，本发明提供了一种基于深度强化学习的多无人机智能路径规划方法，包括如下步骤：

S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架；移动边缘计算模型为由多个无人机节点组成的网络，每个无人机节点都能进行数据传输和计算任务；所有无人机从同一个起点出发处理用户任务，多个离线用户的任务量是一定的。

多智能体深度强化学习算法包括：以MADDPG作为多智能体深度强化学习算法，解决多智能体协同决策的问题，使用深度神经网络来近似智能体的策略和值函数，并使用经验回放和目标网络来训练智能体，通过最大化所有智能体的总体奖励来训练智能体的策略，实现协同决策，获取无人机下一时隙飞行的方向向量。

所述MADDPG算法包括如下步骤：

所述深度强化学习算法采用的是Actor-Critic算法，Actor-Critic算法的网络结构包括一个Actor网络和一个Critic网络；

无人机卸载时延由上传时延和卸载时延两部分组成如下：

。

本文提出的一种基于深度强化学习的多无人机智能路径规划方法，通过使用引入辅助奖励机制的多智能体深度确定性策略梯度算法(UN-MADDPG算法)，引入无监督强化和辅助学习的辅助奖励机制，以最小化无人机完成一次飞行任务的时间为优化目标。

本实施例在实际的任务场景中进行实验，分别在不同规模的无人机数量和用户数量下进行测试。本文的对比算法采用了深度确定性策略梯度算法（DDPG），多智能体深度确定性策略梯度算法（MADDPG）以及短视算法（Myopic）。

如图3所示，为无人机数量为4，用户数量为12，无人机经本算法训练后的三维轨迹图（无人机高度可变）。

如图4所示，为无人机数量为4，用户数量为12，无人机在二维平面的轨迹图。

如图5所示，为无人机数量为4，用户数量为12，相同评估次数下四种算法系统总能耗的对比图。

如图6所示，为无人机数量为2，相同评估次数下对应不同用户数量无人机完成一次飞行任务时间的四种算法结果对比图。

如图7所示，为无人机数量为2，相同评估次数下对应不同用户数量四种算法训练消耗时间结果对比图。

如图8所示，为无人机数量为4，相同评估次数下对应不同用户数量无人机完成一次飞行任务时间的四种算法结果对比图。

如图9所示，为无人机数量为4，相同评估次数下对应不同用户数量四种算法训练消耗时间结果对比图。

由图4和图5可以看出，UN-MADDPG算法可以大大减少系统的能耗，其原因是由于本算法可以帮助无人机更好地规划飞行路径。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度强化学习的多无人机智能路径规划方法，其特征在于，包括如下步骤：

S2、根据基本框架生成路径优化策略，所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划，在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间；

S212、将下一时隙的方向向量叠加至无人机的初始坐标中，得到无人机临时坐标，规定无人机的主要任务是学会不越界飞行，遍历无人机的动作，检查无人机是否有越界行为，若存在越界行为则修正轨迹并给予惩罚，循环S211，直至无人机学会在规定场所飞行，若不存在越界行为，则输出此时的无人机临时坐标作为无人机当前坐标；

2.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，S1具体包括如下步骤：

3.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，S22具体包括如下步骤：

无人机卸载时延由上传时延和卸载时延两部分组成如下：

。

4.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，S23具体包括如下步骤：

5.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，S1所述移动边缘计算模型为由多个无人机节点组成的网络，每个无人机节点都能进行数据传输和计算任务；所有无人机从同一个起点出发处理用户任务，多个离线用户的任务量是一定的。

6.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，S211所述多智能体深度强化学习算法包括：

7.根据权利要求6所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，所述MADDPG算法包括如下步骤：

8.根据权利要求7所述的基于深度强化学习的多无人机智能路径规划方法，其特征在于，所述深度强化学习算法采用的是Actor-Critic算法，Actor-Critic算法的网络结构包括一个Actor网络和一个Critic网络；