CN117055619A - 基于多智能体强化学习的无人机调度方法 - Google Patents

基于多智能体强化学习的无人机调度方法 Download PDF

Info

Publication number
CN117055619A
CN117055619A CN202311145550.8A CN202311145550A CN117055619A CN 117055619 A CN117055619 A CN 117055619A CN 202311145550 A CN202311145550 A CN 202311145550A CN 117055619 A CN117055619 A CN 117055619A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
task
internet
time slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311145550.8A
Other languages
English (en)
Inventor
李晓欢
夏雪
陈倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202311145550.8A priority Critical patent/CN117055619A/zh
Publication of CN117055619A publication Critical patent/CN117055619A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的无人机调度方法,包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的系统,所述方法包括如下步骤:首先从系统中获取环境信息;然后判断是否有物联网设备生成新的任务,若有:根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段,若没有:直接进入无人机调度决策阶段;在无人机调度决策阶段,无人机根据获取的环境信息使用MADDPG算法做出下一步运动状态决策;然后在下一个时隙中更新环境信息,重新执行以上步骤。这种方法以在多无人机随资源需求调度时确保整体性能的同时优化个体无人机的自主性与效率,提高系统效用和无人机能量效率。

Description

基于多智能体强化学习的无人机调度方法
技术领域
本发明涉及移动边缘计算、多智能体强化学习、无人机调度领域,具体是一种基于多智能体强化学习的无人机调度方法。
背景技术
随着无人机技术和移动边缘计算技术[1](mobile edge computing,简称MEC)的发展,将无人机与移动边缘计算相结合的研究已逐渐成为新的焦点[2,3]。无人机具有快速部署、灵活调度等优点,可以在短时间内为移动物联网设备(Mobile User Equipments,简称UEs)提供高效的计算服务,弥补了传统移动边缘计算需要依赖稳定且固定的基础设施例如微基站或者云数据中心不能灵活地移动或者重新配置的不足。然而,也带来了新的挑战,如何优化无人机的部署和调度,在满足服务需求的同时,尽可能提高无人机效能等问题仍需要进一步的研究和探讨。
多无人机系统可以通过无人机间的协同,增加计算和传输能力,但无人机之间的协同工作解决调度问题,需要进行更复杂的优化计算,集中式最优化算法是最常用的解决问题的方式之一[4,5]。然而,任务卸载和轨迹规划优化等问题往往具有高度的非凸性,这使得优化问题的复杂度很高,并且现实场景下全局信息一般又难以实时获取,传统的集中式优化方案并不完全适用。分布式方法可以允许无人机个体根据自身的局部信息做出决策,从而在一定程度上降低了对全局信息的依赖,更好地考虑和保障无人机个体的效益[6,7]。但是分布式方法往往忽视了无人机之间的协作,可能会降低整体的系统性能,并且需要大量的信息交换和计算资源,这在一些资源有限的场景下可能难以实现。并且相关研究缺乏对物联网设备移动性带来的资源需求改变情况的相关研究,导致多无人机协同为大规模移动UEs提供计算卸载时系统效用低、能耗高的问题仍没有得到有效解决。
发明内容
本发明的目的是针对以下两方面问题:1.现有的集中式或分布式方法在实际场景中存在缺陷,需要从无人机个体和全局视角进行最优决策;2.缺乏对物联网设备移动性带来的资源需求改变情况的相关研究,而提出一种基于多智能体强化学习的无人机位置调度方法。这种方法以在多无人机随资源需求调度时确保整体性能的同时优化个体无人机的自主性与效率,提高系统效用和无人机能量效率。
实现本发明目的是技术方案是:
基于多智能体强化学习的无人机调度方法,包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的系统,所述方法包括如下步骤:
首先从系统中获取环境信息,环境信息包括物联网设备位置信息、任务发布情况、无人机资源及位置信息;然后判断是否有物联网设备生成新的任务,若有:根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段,其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载,若没有:直接进入无人机调度决策阶段;在无人机调度决策阶段,无人机根据获取的环境信息使用MADDPG算法做出下一步运动状态决策;然后在下一个时隙中更新环境信息,重新执行基于新的环境信息判断是否有新的任务、为无人机分配任务、进行无人机调度决策,并使用MADDPG算法决定无人机的下一步运动状态的步骤;
以上过程即将无人机作为多智能体强化学习中的智能体,不断地在现实或模拟环境中进行交互,在时隙t,这些无人机获取环境信息,然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作,当这些动作被相应的无人机执行后,环境信息随之转变到时隙t+1的状态,并以奖励形式反馈,无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习,共同努力去了解环境的规律并获得策略的最优解;
具体步骤如下:
1)为使用多智能体强化学习解决无人机调度的决策问题,需要将该问题建模为马尔科夫决策过程(Markov Decision Process,简称MDP),该过程用元组<Γ,s,a,r,γ>表示,Γ为无人机集,s是所有无人机的状态空间,a为无人机的动作空间,r是无人机的奖励函数,γ为累计折扣奖励的衰减系数;
(1)状态空间
每个时隙t的状态空间st由K个物联网节点、J架无人机和环境共同决定,定义为:
st={lM(t),lU(t),R(t),o'(t)} (1)
其中,lU(t),R(t)分别代表t时隙的J架无人机的位置及其机载资源信息的集合,lM表示K个物联网节点位置信息集合,o'表示时隙t的所有任务请求信息;
(2)动作空间
时隙t每架无人机的动作空间a(t)均由无人机的飞行角度θ和飞行速度vU组成,表示为:
a(t)=(θ(t),vU(t)) (2)
(3)奖励函数
通过设置奖励促进无人机进行策略的学习,旨在快速应对物联网设备对无人机机载资源需求的变化,降低任务执行能耗,并提高系统效用,同时需要满足无人机运动约束条件;
(3.1)无人机j在空中飞行产生的能耗及悬停产生的能耗/>分别为,其中j∈J,j为正整数:
其中,Pf为飞行功率,为飞行距离,Ph为悬停功率,/>为悬停时间;
无人机j接收任务数据产生的通信能耗计算能耗/>分别为:
其中,无人机的接收功率为Pr,Pc表示无人机在执行任务时的CPU功率,为任务与无人机之间的卸载关系,/>为0表示没有卸载到该无人机为1表示卸载到该无人机,任务的数据量为pz,/>为上行数据速率,/>为无人机cpu计算频率,当所有UEs的计算任务完成后,无人机的总能耗为飞行能耗、悬停能耗、计算能耗和通信能耗之和,表示为:
(3.2)为了快速响应资源需求的变化,构建了一个任务热点地区模型,该模型根据物联网设备和无人机的位置分布进行网格化分隔,以研究任务需求与无人机资源的关系;令网格总数为V,无人机通信半径为r,通过判断无人机与网格之间的位置关系可计算无人机覆盖个数,覆盖其中一个网格wυ的无人机个数为bυ,网格wυ在时隙t的任务及资源信息表述为wυ={aυ,Iυ,lυ},aυ为单位时间网格的任务请求量,通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格,进一步通过物联网设备单位时间的任务请求量可得到单位时间网格的任务请求量;lυ为网格的位置,Iυ为单位网格任务资源比,定义为:
其中ω,ρ,χ是调节参数,且均为正数,将Iυ作为无人机调度的影响因素之一,时隙t中网格任务资源比的平衡情况Φhot,用标准差来表示为:
(3.3)为了均衡任务卸载增加任务处理量,引入了负载均衡模型,这一模型在提高系统的能耗效率和增加任务处理量方面具有明显的增益,它可以防止无人机过载,并均衡任务卸载,从而使能源得到更高效的利用,令无人机j的待处理任务所需CPU周期数αj作为评估无人机节点的负载均衡情况的参数,将时隙t中无人机j的负载级别定义为Lj(t)=ωαj(t),ω为折扣因子,时隙t中无人机系统的负载均衡等级Ψslb,用标准差来表示为:
为确保系统能高效地应对变化的资源需求、提高系统能量效率,构造以无人机总能耗Ej、任务完成数据量和系统负载均衡Ψslb、任务资源比Φhot参数为主要指标的奖励函数,表示为:
其中,η1、η2、η3均为折扣因子,Rpc(t)=σ1(t)+σ2(t)为无人机的运动约束惩罚,σ1是无人机在任务执行过程中不满足最小安全距离时得到一个相对较小的负反馈即惩罚,σ2是无人机在任务执行过程中超出运动范围时得到的惩罚;
2)步骤1)构建了基于多用户马尔可夫决策过程的模型,根据该模型输出无人机的运动决策,为求解基于多用户马尔可夫决策过程的模型并得到最优的飞行决策,根据设计的奖励机制,采用MADDPG算法不断训练无人机做出最优动作;
以上不仅建模了无人机的资源负载和系统资源需求的变化,还将基于多用户马尔可夫决策过程的模型中的平衡参数和能耗智能地融入奖励机制中,这种整合方法为无人机的决策网络提供了快速更新到最优参数的路径;
马尔可夫决策过程为智能体提供了一个决策框架,使其可以在不同的状态中采取动作,并从环境中获得相应的奖励。当这一决策过程涉及到多个智能体时,智能体们的动作选择会相互影响,使得问题的复杂性显著增加。MADDPG算法能够在集中式训练中考虑所有智能体的策略,但在分布式执行中,每个智能体只依赖自己的策略。因此,MADDPG算法可以有效地求解涉及多智能体的MDP模型。
MADDPG算法求解的详细过程如下:
1.初始化:为每个智能体初始化两个神经网络:一个Actor网络πi和一个Critic网络同时初始化对应的target网络,target网络初始权重与Actor和Critic网络函数相同。
2.策略执行:在给定的MDP状态s下,每个智能体使用MDP策略集合π={π1,...,πN}选择,动作策略参数为θ={θ11,...,θN}。
3.环境交互:智能体在环境中执行所选动作,接收环境反馈的下一个状态s'和奖励。
4.经验存储:将当前状态、动作、奖励和下一状态(s,a,r,s')存储在经验回放缓冲区中。
5.从缓冲区中采样:随机从经验回放缓冲区中抽取一批数据(si,ai,ri,si')进行学习。
6.更新Critic网络:对于每个智能体,利用其他智能体的策略和它们的目标网络计算预期的Q值。然后根据式计算实际的Q值和预期的Q值之间的误差,并按此误差更新评论家网络。
7.更新Actor网络:使用Q函数网络计算的Q值梯度来更新每个智能体的策略网络,期望奖励梯度为其中D为经验池。
8.软更新目标网络:以0.01-0.001的速率更新每个无人机的目标网络参数:
θ′i←τθi+(1-τ)θ′i;μ′i←τμi+(1-τ)μ′i
9.迭代优化:重复上述步骤2-8,直到达到预定的训练周期。
通过MADDPG算法求解过程,MADDPG算法在多智能体环境中有效地更新策略,寻找到在MDP模型中最优或接近最优的策略,这个策略即为最终的调度结果。
基于先前的创新模型与奖励机制,并利用MADDPG算法的集中式训练与分布式执行特性,无人机在集中式训练环境中,通过最大化累积奖励函数并确保算法收敛,从而确定其最佳的飞行角度与速度。在实际飞行中,无人机按照分布式执行策略,与环境交互,实时更新其感知信息。受益于任务热点地区模型和负载均衡模型的引导,无人机能够根据任务需求及自身的实时状况,动态且灵活地调整飞行策略。每次输出的动作,都指导无人机朝特定的方向以特定的速度飞行。串联这些连续的飞行指令,便形成了无人机的飞行路径。这一策略巧妙地将复杂的多无人机多任务协同工作简化为高效的飞行策略调整。
本技术方案的优点或有益效果:
本技术方案提出了一个在多无人机边缘计算网络中的位置调度策略框架。为了快速应对资源需求变化,构建了任务热点地区模型,根据物联网设备和无人机的位置分布进行网格化分隔,更好地理解任务需求与无人机资源之间的关系。此外,为了提高任务处理量,还引入了负载均衡模型,其目的在于防止无人机过载,均衡任务卸载,从而使能源得以更有效地利用。
位置调度算法采用了多智能体深度确定性策略梯度方法,同时考虑了无人机能耗、任务完成数据量和系统负载均衡、任务资源比状态。MADDPG算法以其集中式训练和分布式执行的特性,能够处理动态、非线性的环境,并在大规模状态和动作空间中进行高效的学习,寻找全局最优或接近全局最优的解,从而最大化系统效用和能量效率。
附图说明
图1为实施例系统的结构图;
图2为实施例中系统流程图;
图3为实施例中多智能体强化学习框架;
图4为实施例中MADDPG算法框架;
图5为实施例中奖励值随训练周期的变化图;
图6为实施例仿真场景中无人机的最佳位置图;
图7为实施例中系统效用随用户个数的变化图;
图8为实施例中能量效率随用户个数的变化图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
基于多智能体强化学习的无人机调度方法,包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的系统,如图1所示,所述方法包括如下步骤,如图2所示:
首先从系统中获取环境信息,环境信息包括物联网设备位置信息、任务发布情况、无人机资源及位置信息;然后判断是否有物联网设备生成新的任务,若有:根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段,其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载,若没有:直接进入无人机调度决策阶段;在无人机调度决策阶段,无人机根据获取的环境信息使用MADDPG算法做出下一步运动状态决策;然后在下一个时隙中更新环境信息,重新执行基于新的环境信息判断是否有新的任务、为无人机分配任务、进行无人机调度决策,并使用MADDPG算法决定无人机的下一步运动状态的步骤;
以上过程即将无人机作为多智能体强化学习中的智能体,如图3所示,不断地在现实或模拟环境中进行交互,在时隙t,这些无人机获取环境信息,然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作,当这些动作被相应的无人机执行后,环境信息随之转变到时隙t+1的状态,并以奖励形式反馈,无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习,共同努力去了解环境的规律并获得策略的最优解;
具体步骤如下:
1)为使用多智能体强化学习解决无人机调度的决策问题,需要将无人机调度问题建模为马尔科夫决策过程即MDP,该过程用元组<Γ,s,a,r,γ>表示,Γ为无人机集,s是所有无人机的状态空间,a为无人机的动作空间,r是无人机的奖励函数,γ为累计折扣奖励的衰减系数;
(1)状态空间
每个时隙t的状态空间st由K个物联网节点、J架无人机和环境共同决定,定义为:
st={lM(t),lU(t),R(t),o'(t)} (1)
其中,lU(t),R(t)分别代表时隙t的J架无人机的位置及其机载资源信息的集合,lM表示所有物联网节点位置信息集合,o'表示时隙t的所有任务请求信息;
(2)动作空间
时隙t每架无人机的动作空间a(t)均由无人机的飞行角度θ和飞行速度vU组成,表示为:
a(t)=(θ(t),vU(t)) (2)
(3)奖励函数
通过设置奖励促进无人机进行策略的学习,旨在快速应对物联网设备对无人机机载资源需求的变化,降低任务执行能耗,并提高系统效用,同时需要满足无人机运动约束条件;
(3.1)无人机j在空中飞行产生的能耗及悬停产生的能耗/>分别如公式(3)所示,其中j∈J,j为正整数:
其中,Pf为飞行功率,为飞行距离[8],Ph为悬停功率,/>为悬停时间;
无人机j接收任务数据产生的通信能耗计算能耗/>分别为:
其中,无人机的接收功率为Pr,Pc表示无人机在执行任务时的CPU功率,为任务与无人机之间的卸载关系,/>为0表示没有卸载到该无人机为1表示卸载到该无人机,任务的数据量为pz,/>为上行数据速率,/>为无人机cpu计算频率,当所有UEs的计算任务完成后,无人机的总能耗为飞行能耗、悬停能耗、计算能耗和通信能耗之和,表示为:
(3.2)为了快速响应资源需求的变化,构建了一个任务热点地区模型,该模型根据物联网设备和无人机的位置分布进行网格化分隔,以研究任务需求与无人机资源的关系;令网格总数为V,无人机通信半径为r,通过判断无人机与网格之间的位置关系可计算无人机覆盖个数,覆盖其中一个网格wυ的无人机个数为bυ,网格wυ在时隙t的任务及资源信息表述为wυ={aυ,Iυ,lυ,Gυ},aυ为单位时间网格的任务请求量,通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格,进一步通过物联网设备单位时间的任务请求量可得到单位时间网格的任务请求量;lυ为网格的位置,Iυ为单位网格任务资源比,定义为:
其中ω,ρ,χ是调节参数,且均为正数,将Iυ作为无人机调度的影响因素之一,时隙t中网格任务资源比的平衡情况Φhot,用标准差来表示为:
(3.3)为了均衡任务卸载增加任务处理量,引入了负载均衡模型,令无人机j的待处理任务所需CPU周期数αj作为评估无人机节点的负载均衡情况的参数,将时隙t中无人机j的负载级别定义为Lj(t)=ωαj(t),ω为折扣因子,时隙t中无人机系统的负载均衡等级Ψslb,用标准差来表示为:
为确保系统能高效地应对变化的资源需求、提高系统能量效率,构造以无人机总能耗Ej、任务完成数据量和系统负载均衡Ψslb、任务资源比Φhot参数为主要指标的奖励函数,表示为:
其中,η1、η2、η3均为折扣因子,Rpc(t)=σ1(t)+σ2(t)为无人机的运动约束惩罚,σ1是无人机在任务执行过程中不满足最小安全距离时得到一个相对较小的负反馈即惩罚,σ2是无人机在任务执行过程中超出运动范围时得到的惩罚;
2)步骤1)构建了基于多用户马尔可夫决策过程的模型,根据该模型输出无人机的运动决策,为求解基于多用户马尔可夫决策过程的模型并得到最优的飞行决策,根据设计的奖励机制,采用MADDPG算法不断训练无人机做出最优动作;
MADDPG算法框架如图4所示,求解的详细过程如下:
1.初始化:为每个智能体初始化两个神经网络:一个Actor网络πi和一个Critic网络同时初始化对应的target网络,target网络初始权重与Actor和Critic网络函数相同。
2.策略执行:在给定的MDP状态s下,每个智能体使用MDP策略集合π={π1,...,πN}选择,动作策略参数为θ={θ11,...,θN}。
3.环境交互:智能体在环境中执行所选动作,接收环境反馈的下一个状态s'和奖励。
4.经验存储:将当前状态、动作、奖励和下一状态(s,a,r,s')存储在经验回放缓冲区中。
5.从缓冲区中采样:随机从经验回放缓冲区中抽取一批数据(si,ai,ri,si')进行学习。
6.更新Critic网络:对于每个智能体,利用其他智能体的策略和它们的目标网络计算预期的Q值。然后根据式计算实际的Q值和预期的Q值之间的误差,并按此误差更新评论家网络。
7.更新Actor网络:使用Q函数网络计算的Q值梯度来更新每个智能体的策略网络,期望奖励梯度为其中D为经验池。
8.软更新目标网络:以0.01-0.001的速率更新每个无人机的目标网络参数:
θ′i←τθi+(1-τ)θ′i;μ′i←τμi+(1-τ)μ′i
9.迭代优化:重复上述步骤2-8,直到达到预定的训练周期。
通过MADDPG算法求解过程,MADDPG算法在多智能体环境中有效地更新策略,寻找到在MDP模型中最优或接近最优的策略,这个策略即为最终的调度结果。
下面以具体实例进行说明:
本例通过PyCharm环境、TensorFlow等工具包进行实验结果的仿真,评估了所提出的多无人机边缘计算网络中的调度策略和系统及相关算法的有效性。仿真中设置三维的实验场景地图,地图区域大小为1km*1km,无人机的飞行高度固定100m。任务区域内分布了100个物联网设备部署在随机位置并连续移动,5架搭载边缘服务器的无人机。在每个时隙中,物联网节点随机生成任务,概率为P∈[0.2,0.5],任务数据大小为1Mb-2Mb,无人机通信半径130m,无人机CPU频率2×109cycle/s,计算每字节数据所需CPU周期数500cycle/bit,带宽2MHz,总任务时长480s。
实验分别采用本例所提出的基于MADDPG的无人机调度算法与现有的IDDPG、IDQN算法对该场景中的多无人机进行调度训练,以提高系统效用和能量效率并降低任务卸载时的系统能耗。3种算法的平均奖励值如图5所示,三种算法所得到的方案均能够收敛,MADDPG算法的收敛速度略慢于两种对比算法但其获得的平均奖励值最高。这是由于本例在处理多智能体协作问题时,能够学习并优化每个智能体的策略,同时考虑自身动作和其他智能体的动作对全局奖励的影响,使得所有智能体能够共同达到一个更好的全局最优。因此本例在初始阶段的收敛速度相对较慢,但最终能够获得更高的平均奖励值。
图6展示了5架无人机在不同时隙所作出的运动决策,图6(a)为UEs=50的最佳位置图,图6(b)为UEs=100的最佳位置图,这包括下一步的方向选择以及根据用户分布进行位置部署后的最优位置、覆盖范围。通过观察图6中可以发现,无人机系统的位置尽可能地覆盖更多的物联网设备以达到任务资源比的平衡,使得系统能够提供更多的计算卸载服务、最大化系统效用和能量效率。
图7显示了MADDPG、IDDPG和IDQN三种策略在不同无人机数量(即3和5)下的系统效用。在用户数量从50增加到200的过程中,所有策略的系统效用都表现出增长的趋势,但增长率逐渐下降,这是由于随着用户数量的增加,系统压力增大,处理效率相应降低。但总的来说,更多的用户数量依然会带来更大的系统效用。比较不同的策略,MADDPG的表现最佳,其次是IDDPG,最后是IDQN。因为MADDPG采用了多智能体深度确定性策略梯度方法,引入了无人机负载均衡和任务资源比参数,从无人机和全局角度共同进行设置,能够迅速应对环境变化,使得其在多无人机环境中能更好地处理和优化任务。对于每种策略,使用更多的无人机能处理更多的任务,从而提高整体的系统效用。当用户数量在75-125之间时,本例的系统效用明显高于对比算法,并且随着无人机数量的增加,本例与对比算法在系统效用上的差距也随之加大。以上实验结果表明,在无人机数量和用户数量较多的环境下,选择MADDPG策略并使用更多的无人机能获得最高的系统效用。
能量效率代表了多无人机边缘计算系统的执行效率。通过比较在不同物联网节点数量下算法的能量效率进行评估。结果如图8所示,可以看出本例使用的MADDPG算法达到了最高的能量效率。这是因为在位置调度时同时考虑了无人机的效用和能耗以及最小化任务资源比的平衡参数来规划无人机的轨迹,从而提高了无人机的能量效率。
参考文献:
[1]唐清清,李斌.面向空天地一体化网络的移动边缘计算技术[J].无线电通信技术,2021,47(1):27-35.
[2]ZHANG T,XU Y,LOO J,et al.Joint computation and communicationdesign for UAV-assisted mobile edge computing in IoT[J].IEEE Transactions onIndustrial Informatics,2019,16(8):5505-5516.
[3]潘弘洋,刘昭,杨波,等.基于新一代通信技术的无人机系统群体智能方法综述[J].吉林大学学报(工学版),2023,53(3):629-642.
[4]YANG Z,PAN C,WANG K,et al.Energy efficient resource allocation inUAV-enabled mobile edge computing networks[J].IEEE Transactions on WirelessCommunications,2019,18(9):4576-4589.
[5]YANG L,YAO H,WANG J,et al.Multi-UAV-enabled load-balance mobile-edge computing for IoT networks[J].IEEE Internet of Things Journal,2020,7(8):6898-6908.
[6]CHEN X,BI Y,HAN G,et al.Distributed Computation Offloading andTrajectory Optimization in Multi-UAV-Enabled Edge Computing[J/OL].IEEEInternet of Things Journal,2022,9(20):20096-20110.DOI:10.1109/JIOT.2022.3175050.
[7]WEID,MA J,LUO L,et al.Computation offloading over multi-UAV MECnetwork:A distributed deep reinforcement learning approach[J].ComputerNetworks,2021,199∶108439.
[8]唐峯竹,李春海.基于无人机协同的多任务动态分配方法研究.航空航天科学与工程;自动化技术,硕士电子期刊2022年第02期.

Claims (1)

1.基于多智能体强化学习的无人机调度方法,其特征在于,包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的系统,所述方法包括如下步骤:
首先从系统中获取环境信息,环境信息包括物联网设备位置信息、任务发布情况、无人机资源及位置信息;然后判断是否有物联网设备生成新的任务,若有:根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段,其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载,若没有:直接进入无人机调度决策阶段;在无人机调度决策阶段,无人机根据获取的环境信息使用MADDPG算法做出下一步运动状态决策;然后在下一个时隙中更新环境信息,重新执行基于新的环境信息判断是否有新的任务、为无人机分配任务、进行无人机调度决策,并使用MADDPG算法决定无人机的下一步运动状态的步骤;
以上过程即将无人机作为多智能体强化学习中的智能体,不断地在现实或模拟环境中进行交互,在时隙t,这些无人机获取环境信息,然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作,当这些动作被相应的无人机执行后,环境信息随之转变到时隙t+1的状态,并以奖励形式反馈,无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习获得策略的最优解;
具体步骤如下:
1)为使用多智能体强化学习解决无人机调度的决策问题,需要将该问题建模为马尔科夫决策过程,该过程用元组<Γ,s,a,r,γ>表示,Γ为无人机集,s是所有无人机的状态空间,a为无人机的动作空间,r是无人机的奖励函数,γ为累计折扣奖励的衰减系数。
(1)状态空间
每个时隙t的状态空间st由K个物联网节点、J架无人机和环境共同决定,定义为:
st={lM(t),lU(t),R(t),o'(t)} (1)
其中,lU(t),R(t)分别代表时隙t的J架无人机的位置及其机载资源信息的集合,lM表示K个物联网节点位置信息集合,o'表示时隙t的所有任务请求信息;
(2)动作空间
时隙t每架无人机的动作空间a(t)均由无人机的飞行角度θ和飞行速度vU组成,表示为:
a(t)=(θ(t),vU(t)) (2)
(3)奖励函数
通过设置奖励促进无人机进行策略的学习,旨在快速应对物联网设备对无人机载资源需求的变化,降低任务执行能耗,并提高系统效用,同时需要满足无人机运动约束条件;
(3.1)无人机j在空中飞行产生的能耗及悬停产生的能耗/>分别为,其中j∈J,j为正整数:
其中,Pf为飞行功率,为飞行距离,Ph为悬停功率,/>为悬停时间;
无人机j接收任务数据产生的通信能耗计算能耗/>分别为:
其中,无人机的接收功率为Pr,Pc表示无人机在执行任务时的CPU功率,为任务与无人机之间的卸载关系,/>为0表示没有卸载到该无人机为1表示卸载到该无人机,任务的数据量为pz,/>为上行数据速率,/>为无人机cpu计算频率,当所有UEs的计算任务完成后,无人机的总能耗为飞行能耗、悬停能耗、计算能耗和通信能耗之和,表示为:
(3.2)为了快速响应资源需求的变化,构建了一个任务热点地区模型,该模型根据物联网设备和无人机的位置分布进行网格化分隔,以研究任务需求与无人机资源的关系;令网格总数为V,无人机通信半径为r,通过判断无人机与网格之间的位置关系可计算无人机覆盖个数,覆盖其中一个网格wυ的无人机个数为bυ,网格wυ在时隙t的任务及资源信息表述为wυ={aυ,Iυ,lυ},aυ为单位时间网格的任务请求量,通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格,进一步通过物联网设备单位时间的任务请求量可得到单位时间网格的任务请求量;lυ为网格的位置,Iυ为单位网格任务资源比,定义为:
其中ω,ρ,χ是调节参数,且均为正数,将Iυ作为无人机调度的影响因素之一,时隙t中网格任务资源比的平衡情况Фhot,用标准差来表示为:
(3.3)为了均衡任务卸载增加任务处理量,引入了负载均衡模型,令无人机j的待处理任务所需CPU周期数αj作为评估无人机节点的负载均衡情况的参数,将时隙t中无人机j的负载级别定义为Lj(t)=ωαj(t),ω为折扣因子,时隙t中无人机系统的负载均衡等级Ψslb,用标准差来表示为:
为确保系统能高效地应对变化的资源需求、提高系统能量效率,构造以无人机总能耗Ej、任务完成数据量和系统负载均衡Ψslb、任务资源比Фhot参数为主要指标的奖励函数,表示为:
其中,η1、η2、η3均为折扣因子,Rpc(t)=σ1(t)+σ2(t)为无人机的运动约束惩罚,σ1是无人机在任务执行过程中不满足最小安全距离时得到一个相对较小的负反馈即惩罚,σ2是无人机在任务执行过程中超出运动范围时得到的惩罚;
2)步骤1)构建了基于多用户马尔可夫决策过程的模型,根据该模型输出无人机的运动决策,为求解基于多用户马尔可夫决策过程的模型并得到最优的飞行决策,根据设计的奖励机制,采用MADDPG算法不断训练无人机做出最优动作;
MADDPG算法求解的详细过程如下:
1.初始化:为每个智能体初始化两个神经网络:一个Actor网络πi和一个Critic网络同时初始化对应的target网络,target网络初始权重与Actor和Critic网络函数相同;
2.策略执行:在给定的MDP状态s下,每个智能体使用MDP策略集合π={π1,...,πN}选择,动作策略参数为θ={θ1,...,θN};
3.环境交互:智能体在环境中执行所选动作,接收环境反馈的下一个状态s'和奖励;
4.经验存储:将当前状态、动作、奖励和下一状态(s,a,r,s')存储在经验回放缓冲区中;
5.从缓冲区中采样:随机从经验回放缓冲区中抽取一批数据(si,ai,ri,si')进行学习;
6.更新Critic网络:对于每个智能体,利用其他智能体的策略和它们的目标网络计算预期的Q值,然后根据式计算实际的Q值和预期的Q值之间的误差,并按此误差更新评论家网络;
7.更新Actor网络:使用Q函数网络计算的Q值梯度来更新每个智能体的策略网络,期望奖励梯度为其中D为经验池;
8.软更新目标网络:以0.01-0.001的速率更新每个无人机的目标网络参数:
θ′i←τθi+(1-τ)θ′i;μ′i←τμi+(1-τ)μ′i
9.迭代优化:重复上述步骤2-8,直到达到预定的训练周期。
通过MADDPG算法求解过程,MADDPG算法在多智能体环境中有效地更新策略,寻找到在MDP模型中最优或接近最优的无人机位置调度策略。
CN202311145550.8A 2023-09-06 2023-09-06 基于多智能体强化学习的无人机调度方法 Pending CN117055619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311145550.8A CN117055619A (zh) 2023-09-06 2023-09-06 基于多智能体强化学习的无人机调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311145550.8A CN117055619A (zh) 2023-09-06 2023-09-06 基于多智能体强化学习的无人机调度方法

Publications (1)

Publication Number Publication Date
CN117055619A true CN117055619A (zh) 2023-11-14

Family

ID=88660855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311145550.8A Pending CN117055619A (zh) 2023-09-06 2023-09-06 基于多智能体强化学习的无人机调度方法

Country Status (1)

Country Link
CN (1) CN117055619A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统
CN117748747A (zh) * 2024-02-21 2024-03-22 青岛哈尔滨工程大学创新发展中心 一种auv集群能源在线监测及管理系统以及方法
CN117993580A (zh) * 2024-04-03 2024-05-07 中国民航大学 一种基于多智能体协作的停机位分配方法、设备及介质
CN118365022A (zh) * 2024-03-25 2024-07-19 西南交通大学 基于多智能体强化学习算法的电梯疏散优化调度方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统
CN117748747A (zh) * 2024-02-21 2024-03-22 青岛哈尔滨工程大学创新发展中心 一种auv集群能源在线监测及管理系统以及方法
CN117748747B (zh) * 2024-02-21 2024-05-17 青岛哈尔滨工程大学创新发展中心 一种auv集群能源在线监测及管理系统以及方法
CN118365022A (zh) * 2024-03-25 2024-07-19 西南交通大学 基于多智能体强化学习算法的电梯疏散优化调度方法
CN117993580A (zh) * 2024-04-03 2024-05-07 中国民航大学 一种基于多智能体协作的停机位分配方法、设备及介质
CN117993580B (zh) * 2024-04-03 2024-06-21 中国民航大学 一种基于多智能体协作的停机位分配方法、设备及介质

Similar Documents

Publication Publication Date Title
CN117055619A (zh) 基于多智能体强化学习的无人机调度方法
Zhao et al. Multi-agent deep reinforcement learning for task offloading in UAV-assisted mobile edge computing
Zhu et al. Learning-based computation offloading approaches in UAVs-assisted edge computing
CN112351503B (zh) 基于任务预测的多无人机辅助边缘计算资源分配方法
Song et al. Evolutionary multi-objective reinforcement learning based trajectory control and task offloading in UAV-assisted mobile edge computing
CN113346944B (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN112911648A (zh) 一种空地结合的移动边缘计算卸载优化方法
Xu et al. Deep reinforcement learning approach for joint trajectory design in multi-UAV IoT networks
CN113543156A (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
Chen et al. Learning-based computation offloading for IoRT through Ka/Q-band satellite–terrestrial integrated networks
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
CN109922137A (zh) 无人机协助的计算迁移方法
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
CN113660681A (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
Tian et al. Service satisfaction-oriented task offloading and UAV scheduling in UAV-enabled MEC networks
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
Sha et al. DRL-based task offloading and resource allocation in multi-UAV-MEC network with SDN
Yan et al. Data offloading enabled by heterogeneous UAVs for IoT applications under uncertain environments
Wang et al. Curriculum reinforcement learning-based computation offloading approach in space-air-ground integrated network
CN116546559A (zh) 分布式多目标空地联合轨迹规划和卸载调度方法及系统
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
Yan et al. Energy Consumption Modeling and Optimization of UAV-Assisted MEC Networks Using Deep Reinforcement Learning
Lin et al. Deep reinforcement learning-based computation offloading for servicing dynamic demand in multi-UAV-assisted IoT network
Shi et al. A Deep Reinforcement Learning Based Approach for Optimizing Trajectory and Frequency in Energy Constrained Multi-UAV Assisted MEC System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination