CN117553803A - 一种基于深度强化学习的多无人机智能路径规划方法 - Google Patents

一种基于深度强化学习的多无人机智能路径规划方法 Download PDF

Info

Publication number
CN117553803A
CN117553803A CN202410026065.7A CN202410026065A CN117553803A CN 117553803 A CN117553803 A CN 117553803A CN 202410026065 A CN202410026065 A CN 202410026065A CN 117553803 A CN117553803 A CN 117553803A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
user
task
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410026065.7A
Other languages
English (en)
Other versions
CN117553803B (zh
Inventor
孙璐
乔丹霞
万良田
林云
宁兆龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202410026065.7A priority Critical patent/CN117553803B/zh
Publication of CN117553803A publication Critical patent/CN117553803A/zh
Application granted granted Critical
Publication of CN117553803B publication Critical patent/CN117553803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于深度强化学习的多无人机智能路径规划方法,涉及无人机移动边缘计算技术领域,包括如下步骤:S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架;S2、根据基本框架生成路径优化策略,所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划,在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间。本发明在传统的多智能体深度强化学习算法的基础上引入了无监督强化辅助学习算法的辅助奖励机制,在优化无人机消耗的能量和飞行时间的基础上对无人机的飞行路径进行规划,通过本系统提高无人机对任务的处理效率。

Description

一种基于深度强化学习的多无人机智能路径规划方法
技术领域
本发明涉及无人机移动边缘计算技术领域,具体而言,尤其涉及一种基于深度强化学习的多无人机智能路径规划方法。
背景技术
近年来,无人机(UAV)技术的迅猛发展和移动边缘计算(MEC)的兴起为各行各业带来了巨大的机遇和挑战。无人机作为一种具有自主飞行能力的航空器,具有灵活性、高效性和可部署性的优势,成为了许多应用领域的研究热点。移动边缘计算是一种将计算和存储资源推至网络边缘的新兴技术,将计算任务从云端延迟较高的数据中心转移到靠近终端用户的边缘服务器,实现更低的延迟和更高的数据处理效率。这种技术的兴起为无人机提供了更强大的计算和通信能力,使其能够在更复杂和智能化的环境下工作。因此,将无人机与移动边缘计算相结合,即UAV-MEC,成为了当前研究的热点之一。通过将计算、存储和通信能力推向无人机的边缘,可以实现更高效、更智能的无人机任务执行和数据处理。这对于无人机在物流、农业、城市规划、环境监测等领域的应用具有重要意义。
然而,UAV-MEC面临着许多挑战,首先是由于无人机的飞行时间有限,计算和通信任务会增加其能耗。因此如何减少无人机在空中的飞行时间和距离,从而降低能源消耗是一个需要深入研究的问题。其次路径规划是UAV-MEC系统中的关键问题之一,它涉及到如何在无人机飞行过程中选择最佳的路径,以达到最优的性能和效率。此外在无人机移动边缘计算中,单个无人机的续航时间、负载能力、运动速度等方面存在一定的限制,因此在某些复杂任务上多飞行器集体协作能够比单飞行器拥有更高的任务执行效率和容错性,可以提高探测范围和系统可靠性 。在多无人机多用户的移动边缘计算系统中,如何规划无人机的飞行路径以及如何引导无人机之间相互协作来共同实现特定任务与目标是值得深入研究的问题。
传统的路径规划方法通常基于启发式算法,如A*算法和Myopic算法,它们通过搜索图中的节点和边来寻找最短路径。然而,这些方法在处理大规模问题和复杂环境时存在一些局限性。例如,当面临高维度状态空间和大规模图时,算法的搜索空间会急剧增加,导致计算复杂度的增加。与传统方法相比,机器学习和深度学习方法能够从大量的数据中进行学习和优化,具有更好的适应性和泛化能力。其中强化学习方法在路径规划领域取得了显著的进展,深度强化学习方法可以通过与环境的交互,通过奖励和惩罚机制来优化路径规划策略。这种方法可以通过反复迭代,逐步改进路径规划策略,从而获得更优的解决方案。
对于多无人机系统,由于环境中智能体的数量不止一个,将会导致智能体的策略更新可能会影响到其他智能体的环境状态,从而导致环境状态的变化。这种非静态性会给策略更新带来很大的挑战,需要采用更复杂的方法来进行策略更新和控制环境状态变化,同时这也将进一步加剧算法收敛困难的问题。并且环境反馈奖励大多为集体奖励,如果没有有效的奖励分配机制,就会导致训练后的智能体策略不稳定且低效。因此,基于辅助任务思想的路径规划方法应运而生。辅助任务是指在无人机飞行过程中,除了主要任务外,还可以执行一些附加的计算任务。它的核心思想是将路径规划问题转化为多个辅助任务,并通过解决这些辅助任务来优化路径规划结果,以提高系统的性能和效率。
发明内容
有鉴于此,本发明的目的在于提出一种基于深度强化学习的多无人机智能路径规划方法,以解决无人机移动边缘计算无法应用于多无人机系统的路径规划问题。
本发明采用的技术手段如下:
一种基于深度强化学习的多无人机智能路径规划方法,包括如下步骤:
S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架;
S2、根据基本框架生成路径优化策略,所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划,在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间。
进一步地,S1具体包括如下步骤:
S11、建立一个多无人机多用户的系统模型,无人机上装载边缘计算服务器,可以用于处理用户的任务,用户的位置是固定已知的,同时也具有一定的计算能力;每个用户都有自己的任务需求,需要将任务提交给无人机进行处理;
S12、在用户产生S11的需求后,无人机需要根据自己的服务范围,飞到用户附近,将用户纳入自己的通信范围,与用户进行通信处理用户的任务需求,在完成所有用户的任务后无人机返回出发点,合理规划无人机的路径,最小化无人机的任务完成时间,从而得到静态任务场景下无人机辅助移动边缘计算模型的基本框架。
进一步地,S2具体包括如下步骤:
S21、获取无人机当前位置的坐标信息,信道状态信息,对无人机的活动场所进行限制,训练无人机飞行不越界,输出无人机当前坐标;
S22、基于无人机当前坐标,通过距离奖励引导无人机飞向离自己最近的用户位置进行任务卸载,根据用户的任务量确定卸载比例;
S23、根据卸载比例对用户的任务进行卸载,在卸载后更新用户的任务列表,若所有用户的任务均已完成,无人机按照最近的路线返回起点,计算无人机飞行任务完成时间。
进一步地,S21具体包括如下步骤:
S211、设置多智能体深度强化学习算法的动作空间和状态空间,将无人机的初始坐标输入神经网络,经过神经网络训练得到无人机下一时隙的方向向量;
S212、将下一时隙的方向向量叠加至无人机的初始坐标中,得到无人机临时坐标,规定无人机的主要任务是学会不越界飞行,遍历无人机的动作,检查无人机是否有越界行为,若存在越界行为则修正轨迹并给予惩罚,循环S211,直至无人机学会在规定场所飞行,若不存在越界行为,则输出此时的无人机临时坐标作为无人机当前坐标。
进一步地,S22具体包括如下步骤:
S221、由无人机的状态空间获取无人机当前坐标,引入辅助奖励机制,当无人机离用户距离越近时给予的奖励越大,通过距离引导无人机飞向用户所在位置,与用户进行通信;
所述辅助奖励机制包括:以UNREAL算法为深度增强学习算法的辅助算法,引入距离引导无人机和用户通信的辅助奖励机制,在无人机飞行过程中寻找用户位置,与用户完成通信后无人机获得额外的奖励,大大降低神经网络的维度,从而更好地学习路径规划策略;
S222、用户的总数据量为,则在本地卸载的数据量为/>,卸载到无人机的数据量为/>,则本地卸载时延如下:
无人机卸载时延由上传时延和卸载时延两部分组成如下:
其中,为卸载比例,/>为用户装置处理1bit数据所需的CPU周期数,/>是本地的计算资源,/>是用户和无人机间的数据传输速率,/>是无人机处理1bit数据所需的CPU周期数,/>为无人机的计算资源;
S223、利用本地卸载时延和无人机卸载时延,在最小化通信时延的基础上得到卸载比例如下:
进一步地,S23具体包括如下步骤:
S231、无人机利用卸载比例与用户进行通信,无人机每完成一个用户的任务,给予完成任务的无人机一定的奖励;
S232、更新用户的任务列表,当所有用户的任务都被处理完成,无人机寻找最短的路径飞回起点,计算每个无人机完成飞行任务的时间,取消耗时间最长的无人机完成时间为系统完成任务的时间。
进一步地,S1所述移动边缘计算模型为由多个无人机节点组成的网络,每个无人机节点都能进行数据传输和计算任务;所有无人机从同一个起点出发处理用户任务,多个离线用户的任务量是一定的。
进一步地,S211所述多智能体深度强化学习算法包括:
以MADDPG作为多智能体深度强化学习算法,解决多智能体协同决策的问题,使用深度神经网络来近似智能体的策略和值函数,并使用经验回放和目标网络来训练智能体,通过最大化所有智能体的总体奖励来训练智能体的策略,实现协同决策,获取无人机下一时隙飞行的方向向量。
进一步地,所述MADDPG算法包括如下步骤:
定义无人机移动边缘计算的状态空间和动作空间,动作空间为无人机移动的方向向量,状态空间为无人机的坐标和步数;
确定无人机的奖励函数,无人机的奖励函数由四部分组成:电量损耗的负反馈奖励、越界的负反馈奖励、用户距离的反馈奖励、完成用户任务的正反馈奖励,其中无人机的越界奖励是最大的,一旦无人机有越界行为就会给予1000的负反馈奖励,电量损耗的负反馈奖励在无人机飞行过程中变化不大,距离产生的奖励远远大于电量的损耗奖励,完成用户任务的正反馈奖励由于次数有限,基本不影响无人机的飞行路线;
使用深度强化学习算法来训练智能体,在训练过程中,智能体通过与环境交互不断地学习和优化路径规划策略,以最小化路径长度并完成与用户的通信。
进一步地,所述深度强化学习算法采用的是Actor-Critic算法,Actor-Critic算法的网络结构包括一个Actor网络和一个Critic网络;
Actor网络的结构包括一个隐藏层和一个输出层,隐藏层有256个神经元,采用全连接网络的形式,提取输入状态的特征;输出层是一个概率分布层,根据无人机当前状态输出每个动作的概率,生成下一个时隙的动作;Critic网络也是一个隐藏层和一个输出层,Critic网络的输出层只有一个节点,表示当前状态-动作对的Q值,用于评估动作的价值。
较现有技术相比,本发明具有以下优点:
本发明利用机器学习和深度学习方法,通过训练模型来学习路径规划的策略。相比传统的规则和启发式方法,具有更强的适应性和泛化能力,能够根据不同环境和任务需求进行自适应调整,提高了路径规划的鲁棒性和灵活性。
本发明提供的统一多智能体深度确定性策略梯度,也称UN-MADDPG算法,将UNREAL算法的辅助奖励机制融入MADDPG算法,也称UN-MADDPG算法,大大降低了神经网络的维度,减少了多智能体深度强化学习过程中的不稳定性和收敛困难。这种算法在路径规划中可以更好地处理多智能体之间的协同问题,提高了路径规划的实时性和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基本框架图。
图2为本发明算法流程图。
图3为无人机数量为4,用户数量为12时,无人机的三维轨迹图。
图4为无人机数量为4,用户数量为12时,无人机的二维轨迹图。
图5为无人机数量为4,用户数量为12时,系统总能耗算法对比图。
图6为无人机数量为2时,无人机完成飞行任务时间的算法结果对比图。
图7为无人机数量为2时,算法训练消耗时间结果对比图。
图8为无人机数量为4时,无人机完成飞行任务时间的算法结果对比图。
图9为无人机数量为4时,算法训练消耗时间结果对比图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1和2所示,本发明提供了一种基于深度强化学习的多无人机智能路径规划方法,包括如下步骤:
S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架;移动边缘计算模型为由多个无人机节点组成的网络,每个无人机节点都能进行数据传输和计算任务;所有无人机从同一个起点出发处理用户任务,多个离线用户的任务量是一定的。
S11、建立一个多无人机多用户的系统模型,无人机上装载边缘计算服务器,可以用于处理用户的任务,用户的位置是固定已知的,同时也具有一定的计算能力;每个用户都有自己的任务需求,需要将任务提交给无人机进行处理;
S12、在用户产生S11的需求后,无人机需要根据自己的服务范围,飞到用户附近,将用户纳入自己的通信范围,与用户进行通信处理用户的任务需求,在完成所有用户的任务后无人机返回出发点,合理规划无人机的路径,最小化无人机的任务完成时间,从而得到静态任务场景下无人机辅助移动边缘计算模型的基本框架。
S2、根据基本框架生成路径优化策略,所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划,在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间。
S21、获取无人机当前位置的坐标信息,信道状态信息,对无人机的活动场所进行限制,训练无人机飞行不越界,输出无人机当前坐标;
S211、设置多智能体深度强化学习算法的动作空间和状态空间,将无人机的初始坐标输入神经网络,经过神经网络训练得到无人机下一时隙的方向向量;
多智能体深度强化学习算法包括:以MADDPG作为多智能体深度强化学习算法,解决多智能体协同决策的问题,使用深度神经网络来近似智能体的策略和值函数,并使用经验回放和目标网络来训练智能体,通过最大化所有智能体的总体奖励来训练智能体的策略,实现协同决策,获取无人机下一时隙飞行的方向向量。
所述MADDPG算法包括如下步骤:
定义无人机移动边缘计算的状态空间和动作空间,动作空间为无人机移动的方向向量,状态空间为无人机的坐标和步数;
确定无人机的奖励函数,无人机的奖励函数由四部分组成:电量损耗的负反馈奖励、越界的负反馈奖励、用户距离的反馈奖励、完成用户任务的正反馈奖励,其中无人机的越界奖励是最大的,一旦无人机有越界行为就会给予1000的负反馈奖励,电量损耗的负反馈奖励在无人机飞行过程中变化不大,距离产生的奖励远远大于电量的损耗奖励,完成用户任务的正反馈奖励由于次数有限,基本不影响无人机的飞行路线;
使用深度强化学习算法来训练智能体,在训练过程中,智能体通过与环境交互不断地学习和优化路径规划策略,以最小化路径长度并完成与用户的通信。
所述深度强化学习算法采用的是Actor-Critic算法,Actor-Critic算法的网络结构包括一个Actor网络和一个Critic网络;
Actor网络的结构包括一个隐藏层和一个输出层,隐藏层有256个神经元,采用全连接网络的形式,提取输入状态的特征;输出层是一个概率分布层,根据无人机当前状态输出每个动作的概率,生成下一个时隙的动作;Critic网络也是一个隐藏层和一个输出层,Critic网络的输出层只有一个节点,表示当前状态-动作对的Q值,用于评估动作的价值。
S212、将下一时隙的方向向量叠加至无人机的初始坐标中,得到无人机临时坐标,规定无人机的主要任务是学会不越界飞行,遍历无人机的动作,检查无人机是否有越界行为,若存在越界行为则修正轨迹并给予惩罚,循环S211,直至无人机学会在规定场所飞行,若不存在越界行为,则输出此时的无人机临时坐标作为无人机当前坐标。
S22、基于无人机当前坐标,通过距离奖励引导无人机飞向离自己最近的用户位置进行任务卸载,根据用户的任务量确定卸载比例;
S221、由无人机的状态空间获取无人机当前坐标,引入辅助奖励机制,当无人机离用户距离越近时给予的奖励越大,通过距离引导无人机飞向用户所在位置,与用户进行通信;
所述辅助奖励机制包括:以UNREAL算法为深度增强学习算法的辅助算法,引入距离引导无人机和用户通信的辅助奖励机制,在无人机飞行过程中寻找用户位置,与用户完成通信后无人机获得额外的奖励,大大降低神经网络的维度,从而更好地学习路径规划策略;
S222、用户的总数据量为,则在本地卸载的数据量为/>,卸载到无人机的数据量为/>,则本地卸载时延如下:
无人机卸载时延由上传时延和卸载时延两部分组成如下:
其中,为卸载比例,/>为用户装置处理1bit数据所需的CPU周期数,/>是本地的计算资源,/>是用户和无人机间的数据传输速率,/>是无人机处理1bit数据所需的CPU周期数,/>为无人机的计算资源;
S223、利用本地卸载时延和无人机卸载时延,在最小化通信时延的基础上得到卸载比例如下:
S23、根据卸载比例对用户的任务进行卸载,在卸载后更新用户的任务列表,若所有用户的任务均已完成,无人机按照最近的路线返回起点,计算无人机飞行任务完成时间。
S231、无人机利用卸载比例与用户进行通信,无人机每完成一个用户的任务,给予完成任务的无人机一定的奖励;
S232、更新用户的任务列表,当所有用户的任务都被处理完成,无人机寻找最短的路径飞回起点,计算每个无人机完成飞行任务的时间,取消耗时间最长的无人机完成时间为系统完成任务的时间。
本文提出的一种基于深度强化学习的多无人机智能路径规划方法,通过使用引入辅助奖励机制的多智能体深度确定性策略梯度算法(UN-MADDPG算法),引入无监督强化和辅助学习的辅助奖励机制,以最小化无人机完成一次飞行任务的时间为优化目标。
本实施例在实际的任务场景中进行实验,分别在不同规模的无人机数量和用户数量下进行测试。本文的对比算法采用了深度确定性策略梯度算法(DDPG),多智能体深度确定性策略梯度算法(MADDPG)以及短视算法(Myopic)。
如图3所示,为无人机数量为4,用户数量为12,无人机经本算法训练后的三维轨迹图(无人机高度可变)。
如图4所示,为无人机数量为4,用户数量为12,无人机在二维平面的轨迹图。
如图5所示,为无人机数量为4,用户数量为12,相同评估次数下四种算法系统总能耗的对比图。
如图6所示,为无人机数量为2,相同评估次数下对应不同用户数量无人机完成一次飞行任务时间的四种算法结果对比图。
如图7所示,为无人机数量为2,相同评估次数下对应不同用户数量四种算法训练消耗时间结果对比图。
如图8所示,为无人机数量为4,相同评估次数下对应不同用户数量无人机完成一次飞行任务时间的四种算法结果对比图。
如图9所示,为无人机数量为4,相同评估次数下对应不同用户数量四种算法训练消耗时间结果对比图。
由图4和图5可以看出,UN-MADDPG算法可以大大减少系统的能耗,其原因是由于本算法可以帮助无人机更好地规划飞行路径。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于深度强化学习的多无人机智能路径规划方法,其特征在于,包括如下步骤:
S1、建立静态任务场景下无人机辅助移动边缘计算模型的基本框架;
S2、根据基本框架生成路径优化策略,所述优化策略即利用引入辅助奖励机制的多智能体深度强化学习算法对基本框架的场景中的无人机进行任务分配和路径规划,在保证所有无人机的能量能够完成系统任务的前提下最小化无人机完成所有任务需要消耗的时间;
S21、获取无人机当前位置的坐标信息,信道状态信息,对无人机的活动场所进行限制,训练无人机飞行不越界,输出无人机当前坐标;
S211、设置多智能体深度强化学习算法的动作空间和状态空间,将无人机的初始坐标输入神经网络,经过神经网络训练得到无人机下一时隙的方向向量;
S212、将下一时隙的方向向量叠加至无人机的初始坐标中,得到无人机临时坐标,规定无人机的主要任务是学会不越界飞行,遍历无人机的动作,检查无人机是否有越界行为,若存在越界行为则修正轨迹并给予惩罚,循环S211,直至无人机学会在规定场所飞行,若不存在越界行为,则输出此时的无人机临时坐标作为无人机当前坐标;
S22、基于无人机当前坐标,通过距离奖励引导无人机飞向离自己最近的用户位置进行任务卸载,根据用户的任务量确定卸载比例;
S23、根据卸载比例对用户的任务进行卸载,在卸载后更新用户的任务列表,若所有用户的任务均已完成,无人机按照最近的路线返回起点,计算无人机飞行任务完成时间。
2.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,S1具体包括如下步骤:
S11、建立一个多无人机多用户的系统模型,无人机上装载边缘计算服务器,可以用于处理用户的任务,用户的位置是固定已知的,同时也具有一定的计算能力;每个用户都有自己的任务需求,需要将任务提交给无人机进行处理;
S12、在用户产生S11的需求后,无人机需要根据自己的服务范围,飞到用户附近,将用户纳入自己的通信范围,与用户进行通信处理用户的任务需求,在完成所有用户的任务后无人机返回出发点,合理规划无人机的路径,最小化无人机的任务完成时间,从而得到静态任务场景下无人机辅助移动边缘计算模型的基本框架。
3.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,S22具体包括如下步骤:
S221、由无人机的状态空间获取无人机当前坐标,引入辅助奖励机制,当无人机离用户距离越近时给予的奖励越大,通过距离引导无人机飞向用户所在位置,与用户进行通信;
所述辅助奖励机制包括:以UNREAL算法为深度增强学习算法的辅助算法,引入距离引导无人机和用户通信的辅助奖励机制,在无人机飞行过程中寻找用户位置,与用户完成通信后无人机获得额外的奖励,大大降低神经网络的维度,从而更好地学习路径规划策略;
S222、用户的总数据量为,则在本地卸载的数据量为/>,卸载到无人机的数据量为/>,则本地卸载时延如下:
无人机卸载时延由上传时延和卸载时延两部分组成如下:
其中,为卸载比例,/>为用户装置处理1bit数据所需的CPU周期数,/>是本地的计算资源,/>是用户和无人机间的数据传输速率,/>是无人机处理1bit数据所需的CPU周期数,/>为无人机的计算资源;
S223、利用本地卸载时延和无人机卸载时延,在最小化通信时延的基础上得到卸载比例如下:
4.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,S23具体包括如下步骤:
S231、无人机利用卸载比例与用户进行通信,无人机每完成一个用户的任务,给予完成任务的无人机一定的奖励;
S232、更新用户的任务列表,当所有用户的任务都被处理完成,无人机寻找最短的路径飞回起点,计算每个无人机完成飞行任务的时间,取消耗时间最长的无人机完成时间为系统完成任务的时间。
5.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,S1所述移动边缘计算模型为由多个无人机节点组成的网络,每个无人机节点都能进行数据传输和计算任务;所有无人机从同一个起点出发处理用户任务,多个离线用户的任务量是一定的。
6.根据权利要求1所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,S211所述多智能体深度强化学习算法包括:
以MADDPG作为多智能体深度强化学习算法,解决多智能体协同决策的问题,使用深度神经网络来近似智能体的策略和值函数,并使用经验回放和目标网络来训练智能体,通过最大化所有智能体的总体奖励来训练智能体的策略,实现协同决策,获取无人机下一时隙飞行的方向向量。
7.根据权利要求6所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,所述MADDPG算法包括如下步骤:
定义无人机移动边缘计算的状态空间和动作空间,动作空间为无人机移动的方向向量,状态空间为无人机的坐标和步数;
确定无人机的奖励函数,无人机的奖励函数由四部分组成:电量损耗的负反馈奖励、越界的负反馈奖励、用户距离的反馈奖励、完成用户任务的正反馈奖励,其中无人机的越界奖励是最大的,一旦无人机有越界行为就会给予1000的负反馈奖励,电量损耗的负反馈奖励在无人机飞行过程中变化不大,距离产生的奖励远远大于电量的损耗奖励,完成用户任务的正反馈奖励由于次数有限,基本不影响无人机的飞行路线;
使用深度强化学习算法来训练智能体,在训练过程中,智能体通过与环境交互不断地学习和优化路径规划策略,以最小化路径长度并完成与用户的通信。
8.根据权利要求7所述的基于深度强化学习的多无人机智能路径规划方法,其特征在于,所述深度强化学习算法采用的是Actor-Critic算法,Actor-Critic算法的网络结构包括一个Actor网络和一个Critic网络;
Actor网络的结构包括一个隐藏层和一个输出层,隐藏层有256个神经元,采用全连接网络的形式,提取输入状态的特征;输出层是一个概率分布层,根据无人机当前状态输出每个动作的概率,生成下一个时隙的动作;Critic网络也是一个隐藏层和一个输出层,Critic网络的输出层只有一个节点,表示当前状态-动作对的Q值,用于评估动作的价值。
CN202410026065.7A 2024-01-09 2024-01-09 一种基于深度强化学习的多无人机智能路径规划方法 Active CN117553803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410026065.7A CN117553803B (zh) 2024-01-09 2024-01-09 一种基于深度强化学习的多无人机智能路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410026065.7A CN117553803B (zh) 2024-01-09 2024-01-09 一种基于深度强化学习的多无人机智能路径规划方法

Publications (2)

Publication Number Publication Date
CN117553803A true CN117553803A (zh) 2024-02-13
CN117553803B CN117553803B (zh) 2024-03-19

Family

ID=89823397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410026065.7A Active CN117553803B (zh) 2024-01-09 2024-01-09 一种基于深度强化学习的多无人机智能路径规划方法

Country Status (1)

Country Link
CN (1) CN117553803B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140875B1 (en) * 2017-05-27 2018-11-27 Hefei University Of Technology Method and apparatus for joint optimization of multi-UAV task assignment and path planning
US20210158009A1 (en) * 2019-11-21 2021-05-27 Beihang University UAV Real-Time Path Planning Method for Urban Scene Reconstruction
CN113867934A (zh) * 2021-08-11 2021-12-31 杭州电子科技大学 一种无人机协助的多节点任务卸载调度的方法
CN114169234A (zh) * 2021-11-30 2022-03-11 广东工业大学 一种无人机辅助移动边缘计算的调度优化方法及系统
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114372612A (zh) * 2021-12-16 2022-04-19 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114423044A (zh) * 2022-01-17 2022-04-29 南京航空航天大学 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法
CN115640131A (zh) * 2022-10-28 2023-01-24 南京航空航天大学 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
CN115827108A (zh) * 2023-01-10 2023-03-21 天津工业大学 基于多目标深度强化学习的无人机边缘计算卸载方法
CN116310898A (zh) * 2023-02-28 2023-06-23 武汉理工大学 基于神经网络和惠更斯原理的林火蔓延预测方法和系统
CN116597155A (zh) * 2023-04-04 2023-08-15 武汉理工大学 基于多平台协同计算模式的林火蔓延预测方法和系统
CN116723548A (zh) * 2023-06-27 2023-09-08 湖南师范大学 一种基于深度强化学习的无人机辅助计算卸载方法
CN116828539A (zh) * 2023-07-20 2023-09-29 东南大学 基于深度强化学习的联合计算迁移和无人机轨迹优化方法
CN117149434A (zh) * 2023-09-14 2023-12-01 南京邮电大学 基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法
CN117236561A (zh) * 2023-10-08 2023-12-15 东南大学 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
KR102620284B1 (ko) * 2023-03-21 2023-12-29 주식회사 코드스토리 메타버스 기반 교육 플랫폼 서비스 제공 시스템

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140875B1 (en) * 2017-05-27 2018-11-27 Hefei University Of Technology Method and apparatus for joint optimization of multi-UAV task assignment and path planning
US20210158009A1 (en) * 2019-11-21 2021-05-27 Beihang University UAV Real-Time Path Planning Method for Urban Scene Reconstruction
CN113867934A (zh) * 2021-08-11 2021-12-31 杭州电子科技大学 一种无人机协助的多节点任务卸载调度的方法
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114169234A (zh) * 2021-11-30 2022-03-11 广东工业大学 一种无人机辅助移动边缘计算的调度优化方法及系统
CN114372612A (zh) * 2021-12-16 2022-04-19 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114423044A (zh) * 2022-01-17 2022-04-29 南京航空航天大学 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法
CN115640131A (zh) * 2022-10-28 2023-01-24 南京航空航天大学 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
CN115827108A (zh) * 2023-01-10 2023-03-21 天津工业大学 基于多目标深度强化学习的无人机边缘计算卸载方法
CN116310898A (zh) * 2023-02-28 2023-06-23 武汉理工大学 基于神经网络和惠更斯原理的林火蔓延预测方法和系统
KR102620284B1 (ko) * 2023-03-21 2023-12-29 주식회사 코드스토리 메타버스 기반 교육 플랫폼 서비스 제공 시스템
CN116597155A (zh) * 2023-04-04 2023-08-15 武汉理工大学 基于多平台协同计算模式的林火蔓延预测方法和系统
CN116723548A (zh) * 2023-06-27 2023-09-08 湖南师范大学 一种基于深度强化学习的无人机辅助计算卸载方法
CN116828539A (zh) * 2023-07-20 2023-09-29 东南大学 基于深度强化学习的联合计算迁移和无人机轨迹优化方法
CN117149434A (zh) * 2023-09-14 2023-12-01 南京邮电大学 基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法
CN117236561A (zh) * 2023-10-08 2023-12-15 东南大学 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JADERBERG M: "Reinforcement Learning with Unsupervised Auxiliary Tasks", ARXIV, 16 November 2016 (2016-11-16) *
曹润宇: "无人机辅助移动边缘计算中的计算卸载与资源分配研究", 《中国优秀硕士论文全文数据库(电子期刊)》, 15 April 2023 (2023-04-15) *

Also Published As

Publication number Publication date
CN117553803B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
Lei et al. Deep reinforcement learning for autonomous internet of things: Model, applications and challenges
Ye et al. Multi-UAV navigation for partially observable communication coverage by graph reinforcement learning
Jiang et al. Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration
CN110673649B (zh) 基于拓扑优化的时变信道下无人机编队一致性控制方法、系统、装置及存储介质
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
Wei et al. Computation offloading over multi-UAV MEC network: A distributed deep reinforcement learning approach
CN112784362A (zh) 一种用于无人机辅助边缘计算的混合优化方法及系统
Xu et al. A brief review of the intelligent algorithm for traveling salesman problem in UAV route planning
Qi et al. Vehicular edge computing via deep reinforcement learning
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
Wei et al. Joint UAV trajectory planning, DAG task scheduling, and service function deployment based on DRL in UAV-empowered edge computing
Li et al. Multi-robot path planning method based on prior knowledge and Q-learning algorithms
Zhao et al. Adaptive Swarm Intelligent Offloading Based on Digital Twin-assisted Prediction in VEC
Wang Reinforcement learning for combinatorial optimization
Lee Federated Reinforcement Learning‐Based UAV Swarm System for Aerial Remote Sensing
Han et al. Dynamic collaborative charging algorithm for mobile and static nodes in Industrial Internet of Things
CN117553803B (zh) 一种基于深度强化学习的多无人机智能路径规划方法
CN114916013B (zh) 基于车辆轨迹预测的边缘任务卸载时延优化方法、系统及介质
Ni et al. An Improved Cooperative Control Method for Hybrid Unmanned Aerial‐Ground System in Multitasks
CN115967430A (zh) 一种基于深度强化学习的成本最优空地网络任务卸载方法
Dong et al. Deep Progressive Reinforcement Learning-Based Flexible Resource Scheduling Framework for IRS and UAV-Assisted MEC System
Dong et al. Research on computing task allocation method based on multi-UAVs collaboration
Quan et al. Interpretable and Secure Trajectory Optimization for UAV-Assisted Communication
Shi et al. Deep reinforcement learning based computation offloading for mobility-aware edge computing
Zhao et al. A Levy Flight-Based Offloading Path Decision Scheme in VANET

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant