CN115827108A - 基于多目标深度强化学习的无人机边缘计算卸载方法 - Google Patents

基于多目标深度强化学习的无人机边缘计算卸载方法 Download PDF

Info

Publication number
CN115827108A
CN115827108A CN202310034089.2A CN202310034089A CN115827108A CN 115827108 A CN115827108 A CN 115827108A CN 202310034089 A CN202310034089 A CN 202310034089A CN 115827108 A CN115827108 A CN 115827108A
Authority
CN
China
Prior art keywords
task
unmanned aerial
network
aerial vehicle
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310034089.2A
Other languages
English (en)
Other versions
CN115827108B (zh
Inventor
柴争义
刘旭
李亚伦
袁东
侯昊乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Polytechnic University
Original Assignee
Tianjin Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Polytechnic University filed Critical Tianjin Polytechnic University
Priority to CN202310034089.2A priority Critical patent/CN115827108B/zh
Publication of CN115827108A publication Critical patent/CN115827108A/zh
Application granted granted Critical
Publication of CN115827108B publication Critical patent/CN115827108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多目标深度强化学习的无人机边缘计算卸载方法,包括以下步骤:构建无人机‑移动边缘计算系统,采用深度强化学习的方法对无人机‑移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,初始化用户偏好空间;对深度强化学习中的Q网络和目标Q网络进行初始化;偏好经验池更新;选择当前状态下的动作,并执行动作得到向量值奖励和下一个状态;经验存储操作;经验样本训练:输出卸载决策。本发明将UAV‑MEC系统的COP建模为一个多目标马尔可夫决策过程,并采用多目标深度强化学习方法进行求解,得到满足用户需求的最优解,提高了求解效率和灵活性,可广泛用于对无人机边缘计算环境进行计算卸载。

Description

基于多目标深度强化学习的无人机边缘计算卸载方法
技术领域
本发明属于无人机技术领域,涉及无人机边缘计算,尤其是一种基于多目标深度强化学习的无人机边缘计算卸载方法。
背景技术
近年来,随着5G技术和物联网技术的发展,基于终端设备(Terminal Unit,TU)的计算密集型应用越来越多。但是,TU计算资源和电池容量有限,无法处理大量的计算密集型应用,而云端服务器距离TU较远,由其处理任务会造成较大的时延。多址边缘计算(multi-access edge computing,MEC)被认为是缓解TU计算资源不足并减小任务处理时延的一个有效途径。MEC服务器具有充足的计算资源,可以在距离TU更近的边缘处理计算密集型应用,从而减小TU的计算压力。用户可以选择将应用卸载到MEC服务器执行或本地TU执行,此类问题被称为计算卸载问题(Computation Offloading Problem,COP)。在本地执行虽会减少应用的时延,但是会导致较高的能耗,而卸载到MEC执行时虽会减小TU能耗却会增加应用时延,因此解决MEC中的COP受到了广泛的关注。此外,由于在复杂的环境下,如山区、战场和受灾区等,MEC基站无法对此类区域进行信号覆盖。
因此,具有高机动性的无人机(Unmanned Aerial Vehicle,UAV)辅助多址边缘计算系统(UAV-Assisted Multi-Access Edge Computing,UAV-MEC)被应用于此类问题。其中UAV搭载的边缘服务器可以扩大其通信覆盖范围,减小地域环境的约束,从而提高部署效率和用户服务质量。UAV-MEC具有灵活性高、覆盖范围广、响应更加迅速、成本低等优点。
针对UAV-MEC中计算卸载的研究,目前的方法主要包括基于传统的优化方法和基于机器学习的方法。传统的优化方法中主要利用凸优化、启发式算法和博弈论等方法来解决UAV-MEC的COP,上述方法在静态环境下可以取得较好的结果,但在动态环境下,特别是UAV快速移动时,算法需要重新开始执行,这会导致计算资源的浪费和较高的时延,因此,传统的优化方法难以满足用户的需求。
基于机器学习的方法可以在UAV-MEC环境中动态地调整卸载策略以适应环境的快速变化。由于深度强化学习可以实时与环境进行交互,因此,目前基于机器学习的计算卸载大多采用深度强化学习(Deep Reinforcement Learning,DRL)方法。但是,现有的DRLs方法在解决多目标问题时,大都采用将多目标加权转换为单个目标以获得线性标量奖励的方式来进行处理。由于在不同的时间,用户对于不同目标具有不同的偏好,很难确定合适的权重,因此这些方法的效果很难满足用户需求。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于多目标深度强化学习的无人机边缘计算卸载方法,解决现有UAV-MEC中计算卸载方法忽略用户对于不同目标的偏好变化问题,有效提高无人机边缘计算卸载性能。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于多目标深度强化学习的无人机边缘计算卸载方法,包括以下步骤:
步骤1、构建无人机-移动边缘计算系统,该无人机-移动边缘计算系统由F个终端设备和M架无人机组成,每个无人机搭载MEC服务器在固定区域内进行任务卸载,使用
Figure DEST_PATH_IMAGE001
表示第p个终端设备中的应用程序,p={1, 2, …,F},F表示终端设备的个数,
Figure 540204DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
表示为任务集,
Figure 817602DEST_PATH_IMAGE004
表示任务依赖约束,该无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型:
Figure DEST_PATH_IMAGE005
其中MUT MUE 分别表示总时延和总能耗,
Figure 923092DEST_PATH_IMAGE006
表示任务
Figure DEST_PATH_IMAGE007
在无人机执行完成并返回数据的完成时间,
Figure 842506DEST_PATH_IMAGE008
表示任务
Figure DEST_PATH_IMAGE009
在本地执行时的完成时间,其中q={1, 2 ,…, n},n是要卸载的应用
Figure 848377DEST_PATH_IMAGE010
中相关的密集型任务的个数,
Figure DEST_PATH_IMAGE011
表示任务
Figure 234359DEST_PATH_IMAGE009
的完成时间,如果
Figure 873151DEST_PATH_IMAGE009
在无人机上执行,则等于
Figure 737202DEST_PATH_IMAGE006
,否则等于
Figure 630203DEST_PATH_IMAGE008
Figure 187086DEST_PATH_IMAGE012
表示任务集
Figure DEST_PATH_IMAGE013
中最后一个任务的完成时间;
Figure 250857DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
分别表示任务在无人机执行和在本地执行的能耗,
Figure 501622DEST_PATH_IMAGE016
表示无人机的飞行能耗;
步骤2、采用深度强化学习的方法对无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,求解方法为:通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型,所构建的任务卸载模型表示为(S,A,r,Ψ,f),该任务卸载模型的目标是最大化向量值奖励r;其中S 表示状态空间;A表示动作空间;
Figure DEST_PATH_IMAGE017
是向量值奖励,
Figure 29555DEST_PATH_IMAGE018
Figure 757340DEST_PATH_IMAGE019
分别表示时延的奖励值和能耗的奖励值;Ψ是偏好空间,用于存储不同的偏好方案;
Figure DEST_PATH_IMAGE020
是任务卸载策略下的标量化函数, 其中
Figure 793560DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
是指当前偏好;
步骤3、为了求得最小化时延和能耗, 需初始化用户偏好空间:采用NBI法生成均匀分布的N个权重向量,从而为时延和能耗两目标分配当前用户偏好空间;
步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化:所述Q网络采用Double DQN与Dueling DQN相结合的方法,用来选择动作以及对步骤2建立的任务卸载模型进行训练优化;所述目标Q网络用于计算目标Q值,所述目标Q网络的网络参数每隔一段时间从当前Q网络复制过来;所述Q网络和目标Q网络的结构是完全相同的,均包括一个输入层、两个隐藏层以及一个输出层,其中第二个隐藏层通过Dueling DQN的方法将网络结构分为Value层和Advantage层;
步骤5、深度强化学习中的智能体与MEC环境开始交互,一方面智能体从MEC环境中获取当前状态,另一方面MEC环境通过智能体选择的动作返回当前奖励向量值和下一个状态,智能体从MEC环境中获得当前状态,并进行偏好经验池更新,所述偏好经验池更新的方法为:从偏好空间Ψ中选择当前偏好
Figure 858468DEST_PATH_IMAGE023
,并判断当前偏好
Figure 224596DEST_PATH_IMAGE023
是否在遇到的偏好经验池W中,如果不存在,则将当前偏好
Figure 654440DEST_PATH_IMAGE023
添加到偏好经验池W,否则利用当前迭代次数对偏好经验池W进行更新;
步骤6、深度强化学习中的智能体通过Q网络训练得到当前Q值,从动作空间A中选择当前状态s下的动作a,并执行动作得到向量值奖励r和下一个状态,所述动作空间A包括如下两个动作:在终端设备执行任务和卸载到无人机-移动边缘计算系统上执行任务;
步骤7、进行经验存储操作:将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态作为一条经验存入经验缓冲池Φ;
步骤8、进行经验样本训练:首先从经验缓冲池Φ中随机选择一部分作为经验样本;然后从偏好经验池W中利用非支配排序的方法选择经验偏好
Figure 364907DEST_PATH_IMAGE024
,通过Q网络和目标Q网络同时进行训练,旨在最大化向量值奖励,得到最优的卸载决策;在训练过程中,设Q网络的输入为当前状态s、经验偏好
Figure 233506DEST_PATH_IMAGE024
和当前偏好
Figure DEST_PATH_IMAGE025
,输出Q值,目标Q网络的输入为下一个状态s ´、经验偏好
Figure 424447DEST_PATH_IMAGE024
和当前偏好
Figure 494034DEST_PATH_IMAGE025
,输出目标Q值,利用下式计算损失函数L
Figure 550852DEST_PATH_IMAGE026
上式中,Q分别表示Q网络和目标Q网络得到的Q值和目标Q值,γ表示奖励折扣因子,是Q网络输出的下一个状态,
Figure DEST_PATH_IMAGE027
表示状态下,执行当前最优动作后的得到的最大Q值;
最后,利用损失函数值更新Q网络,每隔300代将Q网络参数同步给目标Q网络:
步骤9、判断Q网络训练是否结束,从而选择是否输出卸载决策,具体方法为:判断当前迭代是否达到最大迭代次数,是则输出最优卸载决策,其中最优卸载决策是指智能体执行动作a后得到的向量值奖励最大,否则转到步骤5。
进一步,所述任务依赖约束
Figure 629667DEST_PATH_IMAGE004
包括:
约束1:无人机只能在规定的矩形区域飞行,同时规定了t时隙水平方向范围和t时隙内飞行的最大距离;
约束2:任务执行时,必须保证其前面的任务已经全部执行完成;一方面,如果任务在无人机执行时,必须确保处理任务的输出数据已经完全传输到终端设备;另一方面,如果任务在本地终端设备执行时,其前面的任务必须全部执行完成;
约束3:在无人机执行任务时必须保证任务的输入数据已全部传输到无人机-移动边缘计算系统上,并保证其前面的任务全部执行完成。
进一步,所述步骤6的具体实现方法为:采用Double DQN方法选择动作a,利用两个动作价值函数确定动作a:一个用于估计动作,另一个估计该动作的价值,表示如下:
Figure 970387DEST_PATH_IMAGE028
其中s表示当前状态,a表示所执行的动作,
Figure 945296DEST_PATH_IMAGE025
表示用户当前偏好,
Figure DEST_PATH_IMAGE029
表示当前状态s下选择Q值最大的动作,rand是一个[0,1]的随机数,
Figure 958252DEST_PATH_IMAGE030
表示贪心概率,取值0.9;在当前状态s下执行动作a得到下一步的状态和向量值奖励r, 该向量值奖励r定义为:
Figure DEST_PATH_IMAGE031
其中
Figure 653806DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
分别表示第p个终端设备中应用程序的任务执行顺序中第q-1个和第q个任务,
Figure 68607DEST_PATH_IMAGE034
表示任务
Figure 11155DEST_PATH_IMAGE033
的完成时间,
Figure DEST_PATH_IMAGE035
表示t时隙任务的能耗,
Figure 760674DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
分别表示时延的奖励值和能耗的奖励值;T个时隙内的奖励值函数
Figure 243608DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
分别定义为:
Figure 263648DEST_PATH_IMAGE040
其中
Figure DEST_PATH_IMAGE041
表示奖励折扣因子,取值为0.99。
本发明的优点和积极效果是:
1、本发明将无人机-移动边缘计算系统(UAV-MEC系统)的COP建模为一个多目标马尔可夫决策过程,并采用多目标深度强化学习方法进行求解,从而得到最优的计算卸载策略,进而优化系统性能,能够满足用户的不断变换的偏好,得到满足用户需求的最优解,提高了求解效率和灵活性,可广泛用于对无人机边缘计算环境进行计算卸载。
2、本发明在UAV-MEC系统建模中加入了任务依赖约束,提高了计算资源的利用率。
3、本发明采用多目标强化学习方法解决无人机边缘计算卸载问题,寻求UAV-MEC中COP的最优卸载策略,使时延和能耗最小化,从而满足用户需求,提高UAV-MEC系统的优化效率。
4、本发明中将COP建模为多目标马尔可夫决策过程,与传统的马尔可夫决策过程不同,多目标马尔可夫决策过程中将奖励值拓展为向量值奖励,其中每一个元素对应一个目标,对多个目标进行同时优化,并动态调整权重以满足不同的用户偏好。
5、本发明采用动态的权重调整策略,利用Q网络对当前用户的偏好和之前的用户偏好同时进行训练优化,其中之前的用户偏好通过非支配排序的方法从偏好经验池中获取当前最好优的偏好,可以更好地维护先前学习的策略。
6、本发明采用Double DQN和Dueling DQN相结合的网络结构,通过Double DQN和Dueling DQN调整Q网络结构,提高算法效率。
附图说明
图1为本发明的无人机边缘计算卸载方法流程图;
图2为本发明的无人机边缘计算卸载方法原理图;
图3为本发明的网络结构图;
图4为本发明的不同任务数下获得的自适应误差;
图5a为本发明在任务数为20下获得的累积遗憾值;
图5b为本发明在任务数为30下获得的累积遗憾值;
图5c为本发明在任务数为40下获得的累积遗憾值;
图5d为本发明在任务数为50下获得的累积遗憾值。
具体实施方式
以下结合附图对本发明做进一步详述。
一种基于多目标深度强化学习的无人机边缘计算卸载方法,如图1及图2所示,包括以下步骤:
步骤1、构建无人机-移动边缘计算系统。
为了实现基于多目标深度强化学习的无人机边缘计算卸载功能,本步骤构建一个基于UAV辅助的MEC系统,其中每个UAV搭载MEC服务器,在固定区域内进行任务卸载。将COP(计算卸载问题)建模为一个多目标优化问题并加入了任务依赖约束,旨在同时最小化UAV-MEC系统的时延和能耗。
本步骤针对UAV-MEC环境中的多目标(时延和能耗)进行了建模,具体方法如下:
本发明考虑了一个由F个TUs和M架UAV组成的无人机-移动边缘计算系统(UAV-MEC系统),其中F={1,2,…,F},M={1,2,...,M},无人机在规定区域内飞行,在每个UAV上搭载计算资源丰富的MEC服务器,从而收集TUs中的计算密集型任务。TUs可以通过无线链路将计算密集型任务卸载到UAVs上执行。在每个TU中存在一个计算密集型应用,其中有n个相关的密集型任务。通过有向无环图(DAG)对应用进行建模,表示为
Figure 236152DEST_PATH_IMAGE042
,其中
Figure DEST_PATH_IMAGE043
表示为任务集,
Figure 467108DEST_PATH_IMAGE044
表示任务依赖约束。设
Figure DEST_PATH_IMAGE045
Figure 488153DEST_PATH_IMAGE046
分别表示直接前驱集和直接后继集,其中p={1,2,…,F},q={1,2,…,n}。
Figure DEST_PATH_IMAGE047
表示任务
Figure 628279DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
之间的依赖约束,其中
Figure 647050DEST_PATH_IMAGE050
是任务
Figure DEST_PATH_IMAGE051
的直接前驱,相应的
Figure 590736DEST_PATH_IMAGE052
是任务
Figure 461478DEST_PATH_IMAGE048
的直接后继,
Figure DEST_PATH_IMAGE053
是指在任务
Figure 377481DEST_PATH_IMAGE054
必须在
Figure 426208DEST_PATH_IMAGE048
完成后执行。应用中的每个任务被表示为一个三元组
Figure DEST_PATH_IMAGE055
,其中
Figure 139081DEST_PATH_IMAGE056
表示执行任务
Figure 908453DEST_PATH_IMAGE048
的CPU周期数,
Figure DEST_PATH_IMAGE057
Figure 6859DEST_PATH_IMAGE058
分别表示任务
Figure 898592DEST_PATH_IMAGE048
的输入数据和输出数据规模。每个计算密集型任务即可以选择在TU上执行,也可以卸载到任意UAV上执行。设
Figure DEST_PATH_IMAGE059
表示第p个终端设备
Figure 331716DEST_PATH_IMAGE060
中所有任务的执行位置集,其中
Figure DEST_PATH_IMAGE061
为任务
Figure 498255DEST_PATH_IMAGE048
的执行位置,如果
Figure 998638DEST_PATH_IMAGE062
,表示任务在
Figure 264534DEST_PATH_IMAGE060
上执行,否则
Figure 466846DEST_PATH_IMAGE048
卸载到第
Figure DEST_PATH_IMAGE063
个UAV执行。
下面分别对无人机的飞行模型、本地终端设备模型和无人机边缘计算模型进行说明。
无人机的飞行模型:假设UAV飞行在固定高度h,将整个任务收集过程分成T个时隙,其中T=F×n。设τ为时隙持续时长,T={1,2,...,T}为时隙集。设UAV在t时隙的水平坐标为
Figure 109179DEST_PATH_IMAGE064
。UAV在t+1时隙的水平坐标通过下面公式得到:
Figure DEST_PATH_IMAGE065
其中
Figure 431445DEST_PATH_IMAGE066
表示UAV在t时隙的水平方向,
Figure DEST_PATH_IMAGE067
表示UAV在t时隙的飞行距离,
Figure 196139DEST_PATH_IMAGE068
指的是UAV在每个时隙的最大飞行距离。假设UAV只能在边长为
Figure DEST_PATH_IMAGE069
Figure 902058DEST_PATH_IMAGE070
的矩形区域内移动。在UAV-MEC系统中无人机匀速飞行,其速度v=dt/τ,其推进功耗P(v)定义为:
Figure DEST_PATH_IMAGE071
其中
Figure 675979DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
分别表示悬停时的叶型功率和叶尖速度下的叶型功率,
Figure 858611DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE075
分别表示悬停时的诱导功率和平均诱导速度。因此,UAV在T时间内的总能耗
Figure 59785DEST_PATH_IMAGE076
定义为:
Figure DEST_PATH_IMAGE077
本地终端设备模型:假设任务
Figure 112054DEST_PATH_IMAGE048
通过无线信道卸载到无人机
Figure 971557DEST_PATH_IMAGE063
时的结束时间表示为
Figure 160093DEST_PATH_IMAGE078
,在UAV执行任务的结束时间为
Figure DEST_PATH_IMAGE079
以及返回
Figure 532169DEST_PATH_IMAGE048
输出数据的结束时间为
Figure 180056DEST_PATH_IMAGE080
。当任务
Figure 499042DEST_PATH_IMAGE048
在终端设备
Figure DEST_PATH_IMAGE081
执行时,其结束时间表示为
Figure 401139DEST_PATH_IMAGE082
,并设
Figure DEST_PATH_IMAGE083
。如果任务卸载到
Figure 429269DEST_PATH_IMAGE063
,则
Figure 456131DEST_PATH_IMAGE084
。值得注意的是,任务
Figure 313229DEST_PATH_IMAGE048
必须在直接前置任务集
Figure DEST_PATH_IMAGE085
内任务全部完成后才能执行,即
Figure 335411DEST_PATH_IMAGE048
在终端设备
Figure 829715DEST_PATH_IMAGE086
上执行的开始时间
Figure DEST_PATH_IMAGE087
为:
Figure 406190DEST_PATH_IMAGE088
任务
Figure 66979DEST_PATH_IMAGE048
在本地
Figure 350192DEST_PATH_IMAGE086
上执行时的时延
Figure DEST_PATH_IMAGE089
和能耗
Figure 720125DEST_PATH_IMAGE090
,分别定义为:
Figure DEST_PATH_IMAGE091
其中,
Figure 49475DEST_PATH_IMAGE092
表示执行
Figure 91118DEST_PATH_IMAGE048
的CPU周期数,
Figure DEST_PATH_IMAGE093
是指
Figure 494418DEST_PATH_IMAGE086
的计算能力,η是与芯片相关的常数。
无人机边缘计算模型:设传输任务
Figure 815678DEST_PATH_IMAGE048
到无人机
Figure 38849DEST_PATH_IMAGE063
的时间为
Figure 385648DEST_PATH_IMAGE094
,定义为:
Figure DEST_PATH_IMAGE095
其中
Figure 643454DEST_PATH_IMAGE096
表示任务
Figure 401194DEST_PATH_IMAGE048
输入数据大小,
Figure DEST_PATH_IMAGE097
表示t时隙上行链路的速率。其中
Figure 706403DEST_PATH_IMAGE097
定义为:
Figure 715947DEST_PATH_IMAGE098
其中
Figure DEST_PATH_IMAGE099
Figure 952893DEST_PATH_IMAGE100
分别表示信道带宽和噪声功率,
Figure DEST_PATH_IMAGE101
表示终端设备
Figure 366688DEST_PATH_IMAGE086
的发射功率,
Figure 298872DEST_PATH_IMAGE102
指的是t时隙
Figure DEST_PATH_IMAGE103
Figure 440004DEST_PATH_IMAGE063
直接的信道增益。值得注意的是,由于环境的时变性,每个时隙的无限信道质量会发生变化,导致信道传输速率可能会变化。另外,假设上行链路和下行链路的传输速率相同,相应的,传输任务
Figure 515145DEST_PATH_IMAGE048
Figure 552371DEST_PATH_IMAGE063
的能耗为
Figure 971851DEST_PATH_IMAGE104
。当任务
Figure 447832DEST_PATH_IMAGE048
卸载到
Figure 269157DEST_PATH_IMAGE063
后,
Figure 290334DEST_PATH_IMAGE063
立即开始调用计算资源执行任务。设执行任务
Figure 197110DEST_PATH_IMAGE048
的开始时间
Figure DEST_PATH_IMAGE105
,定义为:
Figure 742361DEST_PATH_IMAGE106
其中
Figure DEST_PATH_IMAGE107
Figure 260936DEST_PATH_IMAGE048
的直接前驱任务。设任务
Figure 577648DEST_PATH_IMAGE048
的执行时间为
Figure 96354DEST_PATH_IMAGE108
,其中
Figure DEST_PATH_IMAGE109
表示
Figure 133711DEST_PATH_IMAGE063
的计算能力。假设UAV上的边缘服务器有充足的计算资源,因此忽略任务在UAV执行时的能耗。当任务在UAV执行完成后,需要将输出数据返回到TU。通过下行链路传输任务
Figure 929629DEST_PATH_IMAGE048
的时延为
Figure 213979DEST_PATH_IMAGE110
定义为:
Figure DEST_PATH_IMAGE111
其中
Figure 688823DEST_PATH_IMAGE112
表示任务
Figure 293986DEST_PATH_IMAGE048
输出数据大小。相应的传输任务
Figure 944410DEST_PATH_IMAGE048
的能耗
Figure DEST_PATH_IMAGE113
Figure 461979DEST_PATH_IMAGE114
表示终端设备
Figure 361802DEST_PATH_IMAGE086
的接收功率。当
Figure 272120DEST_PATH_IMAGE086
将任务
Figure 42630DEST_PATH_IMAGE048
卸载到
Figure 996679DEST_PATH_IMAGE063
的总时延
Figure DEST_PATH_IMAGE115
和总能耗
Figure 852640DEST_PATH_IMAGE116
,分别定义为:
Figure DEST_PATH_IMAGE117
根据上述三个部分的模型,得到无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型,分别定义为:
Figure 539885DEST_PATH_IMAGE118
其中MUT MUE 分别表示总时延和总能耗,
Figure DEST_PATH_IMAGE119
表示任务
Figure 492798DEST_PATH_IMAGE120
在无人机执行完成并返回数据的完成时间,
Figure DEST_PATH_IMAGE121
表示任务
Figure 102902DEST_PATH_IMAGE122
在本地执行时的完成时间,其中q={1, 2 ,…, n},n是要卸载的应用
Figure 305213DEST_PATH_IMAGE001
中相关的密集型任务的个数,
Figure DEST_PATH_IMAGE123
表示任务
Figure 947547DEST_PATH_IMAGE122
的完成时间,如果
Figure 800971DEST_PATH_IMAGE122
在无人机上执行,则等于
Figure 972190DEST_PATH_IMAGE119
,否则等于
Figure 661797DEST_PATH_IMAGE121
Figure 842242DEST_PATH_IMAGE124
表示任务集
Figure 973010DEST_PATH_IMAGE003
中最后一个任务的完成时间;
Figure 456075DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE125
分别表示任务在无人机执行和在本地执行的能耗,
Figure 836240DEST_PATH_IMAGE016
表示无人机的飞行能耗。
总能耗MUE包括TU和UAV执行任务时的能耗和UAV飞行时的能耗。此外,在任务卸载过程中,我们还需遵循如下任务依赖约束
Figure 820377DEST_PATH_IMAGE004
约束1:无人机只能在规定的矩形区域飞行,同时规定了t时隙水平方向范围和t时隙内飞行的最大距离;
约束2:任务执行时,必须保证其前面的任务已经全部执行完成;一方面,如果任务在无人机执行时,必须确保处理任务的输出数据已经完全传输到终端设备;另一方面,如果任务在本地终端设备执行时,其前面的任务必须全部执行完成;
约束3:在无人机执行任务时必须保证任务的输入数据已全部传输到无人机-移动边缘计算系统上,并保证其前面的任务全部执行完成。
上述任务依赖约束可表示为:
Figure 805650DEST_PATH_IMAGE126
其中约束
Figure DEST_PATH_IMAGE127
表示UAV只能在边长为
Figure 426993DEST_PATH_IMAGE128
Figure DEST_PATH_IMAGE129
的矩形区域飞行,同时规定了t时隙水平方向范围和t时隙内飞行的最大距离。约束
Figure 294455DEST_PATH_IMAGE130
Figure DEST_PATH_IMAGE131
表示任务执行时,必须保证其直接前驱集已经全部执行完成。如果任务在UAV执行时,必须确保处理任务的输出数据已经完全传输到TU。否则任务在本地TU执行时,其直接前驱集必须全部执行完成。约束
Figure 957649DEST_PATH_IMAGE132
Figure DEST_PATH_IMAGE133
表示在UAV执行任务时必须保证其输入数据已全部传输完成以及其直接前驱任务全部执行完成。
步骤2、采用深度强化学习的方法对无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解。
本步骤的具体实现方法为:通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型,所构建的任务卸载模型表示为(S,A,r,Ψ,f),该任务卸载模型的目标是最大化向量值奖励r;其中S 表示状态空间;A表示动作空间;
Figure 859746DEST_PATH_IMAGE134
是向量值奖励,
Figure 543668DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE135
分别表示时延的奖励值和能耗的奖励值;Ψ是偏好空间,用于存储不同的偏好方案;
Figure 413273DEST_PATH_IMAGE136
是任务卸载策略下的标量化函数, 其中
Figure DEST_PATH_IMAGE137
Figure 863846DEST_PATH_IMAGE138
是指当前偏好,MUTMUE分别表示总时延和总能耗。
在本发明中,COP被定义为一个多目标问题,因此r表示为一个向量值奖励,每一个元素代表一个目标。
步骤3、为了求得最小化f,即最小化时延和能耗, 需初始化用户偏好空间,为时延和能耗两目标分配当前用户偏好(权重), 具体采用NBI(Normal Boundary Intersection)法生成均匀分布的N个权重向量。
步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化,为训练过程奠定基础。Q 网络部分采用了Double Deep Q Network(Double DQN) 和Dueling Deep Q Network(Dueling DQN)相结合的方法.Q网络用来选择动作以及对步骤2建立的任务卸载模型进行训练优化,目标Q网络用于计算目标Q值,目标Q网络的网络参数不需要迭代更新,而是每隔一段时间从当前Q网络复制过来,即延时更新,这样可以减少目标Q值和当前的Q值相关性。此外,Q网络和目标Q网络的结构是完全相同的,均包括一个输入层、两个隐藏层以及一个输出层,其中为了提高收敛效率和训练速度,本发明采用Dueling DQN的方法将第二个隐藏层的网络结构分为Value层和Advantage层。
步骤5、深度强化学习中的智能体与MEC环境开始交互(即训练过程开始),一方面智能体从环境中获取当前状态, 另一方面环境通过智能体选择的动作返回当前奖励向量值和下一个状态.智能体从环境中获得当前状态,并进行偏好经验池更新。其中偏好经验池的更新过程为:从偏好空间Ψ中选择当前偏好
Figure 26974DEST_PATH_IMAGE023
,并判断当前偏好
Figure 22743DEST_PATH_IMAGE023
是否在遇到的偏好经验池W中,如果不存在,则将当前偏好
Figure 271322DEST_PATH_IMAGE023
添加到偏好经验池W,否则利用当前迭代次数对偏好经验池W进行更新。
步骤6、首先智能体通过Q网络训练得到当前Q值,然后从动作空间A中选择当前状态下的动作,并执行动作得到向量值奖励和下一个状态,其中动作空间A中包括两个动作,即在终端设备执行任务和卸载到UAV-MEC上执行任务。
本步骤的具体实现方法为:采用Double DQN方法选择动作a,其中利用两个动作价值函数确定动作a:一个用于估计动作,另一个估计该动作的价值,表示如下:
Figure DEST_PATH_IMAGE139
其中s表示当前状态,a表示所执行的动作,
Figure 525585DEST_PATH_IMAGE140
表示用户当前偏好,
Figure DEST_PATH_IMAGE141
表示当前状态s下选择Q值最大的动作,rand是一个[0,1]的随机数,
Figure 645683DEST_PATH_IMAGE030
表示贪心概率,取值0.9;在当前状态s下执行动作a得到下一步的状态和向量值奖励r, 该向量值奖励r定义为:
Figure 671408DEST_PATH_IMAGE031
其中
Figure 531916DEST_PATH_IMAGE142
Figure 199658DEST_PATH_IMAGE033
分别表示第p个终端设备中应用程序的任务执行顺序中第q-1个和第q个任务,
Figure DEST_PATH_IMAGE143
表示任务
Figure 478324DEST_PATH_IMAGE033
的完成时间,
Figure 940529DEST_PATH_IMAGE035
表示t时隙任务的能耗,
Figure 288334DEST_PATH_IMAGE144
Figure 228608DEST_PATH_IMAGE037
分别表示时延的奖励值和能耗的奖励值。本发明旨在最小化时延和能耗,但为了保证奖励值最大, 取时延和能耗的相反数。T个时隙内的奖励值函数
Figure DEST_PATH_IMAGE145
Figure 63578DEST_PATH_IMAGE039
分别定义:
Figure 759001DEST_PATH_IMAGE146
其中
Figure DEST_PATH_IMAGE147
表示奖励折扣因子,取值为0.99。因此,最大化
Figure 62944DEST_PATH_IMAGE148
,就相当于最小化总时延和总能耗。
步骤7、经验存储操作:在智能体执行动作后,进行经验存储操作,将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态作为一条经验存入经验缓冲池Φ。
步骤8、为了提高训练效率,进行经验样本训练:从经验缓冲池Φ中随机选择一部分作为经验样本,然后从偏好经验池W中利用非支配排序的方法选择经验偏好
Figure 416696DEST_PATH_IMAGE024
,通过Q网络和目标Q网络同时进行训练,旨在最大化向量值奖励,得到最优的卸载决策。其中Q网络的输入为当前状态s、经验偏好
Figure 529008DEST_PATH_IMAGE024
和当前偏好
Figure 457650DEST_PATH_IMAGE025
,输出Q值,目标Q网络的输入为下一个状态s ´、经验偏好
Figure 452151DEST_PATH_IMAGE024
和当前偏好
Figure 999807DEST_PATH_IMAGE025
,输出目标Q值,利用Q网络和目标Q网络得到的Q值和目标Q值计算损失函数L,表示为:
Figure 340527DEST_PATH_IMAGE026
其中,Q分别表示Q网络和目标Q网络得到的Q值和目标Q值,γ表示奖励折扣因子,是Q网络输出的下一个状态,
Figure 581015DEST_PATH_IMAGE027
表示状态下,执行当前最优动作后的得到的最大Q值;
最后,利用损失函数值更新Q网络,每隔300代将Q网络参数同步给目标Q网络。
步骤9、判断训练是否结束,从而选择是否输出卸载决策。判断当前迭代是否达到最大迭代次数,是则输出最优卸载决策,其中最优卸载决策是指智能体执行动作a(本地设备执行或卸载到UAV-MEC执行)后得到的向量值奖励最大,否则转到步骤5。
下面通过仿真实验对本发明的效果进行验证:
1、实验条件:
在CPU为AMD R7 5800H、内存16G、Windows 10的系统上使用python TensorFlow2.2进行仿真。
2、实验内容及结果:
实验结果主要比较不同任务数下算法的自适应误差以及累积遗憾值。表1列出了四种实例下的任务数。
Figure DEST_PATH_IMAGE149
图4显示出四个不同实例下算法的自适应误差,自适应误差越小说明算法性能越好。从图中可以看出四种实例下,本发明都取得了最小值,说明本发明能够快速的调整目标权重以应对用户的偏好变化,从而满足用户需求。
图5a、图5b、图5c和图5d分别显示出四种不同实例下本发明的累积遗憾值,其中最大迭代次数为2000,并与现有的技术对比分析。可以看出,在四种实例下,本发明的累积遗憾值都小于现有的技术,说明本发明取得了更好的性能。
此外,本发明还实现了时延和能耗的最小化,实现了最大化效用,如表2和表3所示。
Figure 328392DEST_PATH_IMAGE150
Figure DEST_PATH_IMAGE151
表2和表3分别显示了四种不同实例下系统平均时延和系统平均能耗,从并与现有的技术进行了对比,可以看出本发明都取得了最优值。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (3)

1.一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:包括以下步骤:
步骤1、构建无人机-移动边缘计算系统,该无人机-移动边缘计算系统由F个终端设备和M架无人机组成,每个无人机搭载MEC服务器在固定区域内进行任务卸载,使用
Figure 562719DEST_PATH_IMAGE001
表示第p个终端设备中的应用程序,p={1, 2, …,F},F表示终端设备的个数,
Figure 508678DEST_PATH_IMAGE002
,其中
Figure 920068DEST_PATH_IMAGE003
表示为任务集,
Figure 200745DEST_PATH_IMAGE004
表示任务依赖约束,该无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型:
Figure 90204DEST_PATH_IMAGE005
其中MUT MUE 分别表示总时延和总能耗,
Figure 156249DEST_PATH_IMAGE006
表示任务
Figure 738540DEST_PATH_IMAGE007
在无人机执行完成并返回数据的完成时间,
Figure 7978DEST_PATH_IMAGE008
表示任务
Figure 701128DEST_PATH_IMAGE009
在本地执行时的完成时间,其中q={1, 2 ,…, n},n是要卸载的应用
Figure 90521DEST_PATH_IMAGE010
中相关的密集型任务的个数,
Figure 843713DEST_PATH_IMAGE011
表示任务
Figure 98983DEST_PATH_IMAGE009
的完成时间,如果
Figure 595824DEST_PATH_IMAGE009
在无人机上执行,则等于
Figure 370881DEST_PATH_IMAGE006
,否则等于
Figure 29396DEST_PATH_IMAGE008
Figure 194798DEST_PATH_IMAGE012
表示任务集
Figure 105116DEST_PATH_IMAGE003
中最后一个任务的完成时间;
Figure 875626DEST_PATH_IMAGE013
Figure 564097DEST_PATH_IMAGE014
分别表示任务在无人机执行和在本地执行的能耗,
Figure 420057DEST_PATH_IMAGE015
表示无人机的飞行能耗;
步骤2、采用深度强化学习的方法对无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,求解方法为:通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型,所构建的任务卸载模型表示为(S,A,r,Ψ,f),该任务卸载模型的目标是最大化向量值奖励r;其中S 表示状态空间;A表示动作空间;
Figure 650180DEST_PATH_IMAGE016
是向量值奖励,
Figure 9617DEST_PATH_IMAGE017
Figure 400147DEST_PATH_IMAGE018
分别表示时延的奖励值和能耗的奖励值;Ψ是偏好空间,用于存储不同的偏好方案;
Figure 274562DEST_PATH_IMAGE019
是任务卸载策略下的标量化函数, 其中
Figure 916896DEST_PATH_IMAGE020
Figure 271785DEST_PATH_IMAGE021
是指当前偏好;
步骤3、为了求得最小化时延和能耗, 需初始化用户偏好空间:采用NBI法生成均匀分布的N个权重向量,从而为时延和能耗两目标分配当前用户偏好空间;
步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化:所述Q网络采用DoubleDQN与Dueling DQN相结合的方法,用来选择动作以及对步骤2建立的任务卸载模型进行训练优化;所述目标Q网络用于计算目标Q值,所述目标Q网络的网络参数每隔一段时间从当前Q网络复制过来;所述Q网络和目标Q网络的结构是完全相同的,均包括一个输入层、两个隐藏层以及一个输出层,其中第二个隐藏层通过Dueling DQN的方法将网络结构分为Value层和Advantage层;
步骤5、深度强化学习中的智能体与MEC环境开始交互,一方面智能体从MEC环境中获取当前状态,另一方面MEC环境通过智能体选择的动作返回当前奖励向量值和下一个状态,智能体从MEC环境中获得当前状态,并进行偏好经验池更新,所述偏好经验池更新的方法为:从偏好空间Ψ中选择当前偏好
Figure 708583DEST_PATH_IMAGE022
,并判断当前偏好
Figure 398190DEST_PATH_IMAGE022
是否在遇到的偏好经验池W中,如果不存在,则将当前偏好
Figure 313056DEST_PATH_IMAGE022
添加到偏好经验池W,否则利用当前迭代次数对偏好经验池W进行更新;
步骤6、深度强化学习中的智能体通过Q网络训练得到当前Q值,从动作空间A中选择当前状态s下的动作a,并执行动作得到向量值奖励r和下一个状态,所述动作空间A包括如下两个动作:在终端设备执行任务和卸载到无人机-移动边缘计算系统上执行任务;
步骤7、进行经验存储操作:将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态作为一条经验存入经验缓冲池Φ;
步骤8、进行经验样本训练:首先从经验缓冲池Φ中随机选择一部分作为经验样本;然后从偏好经验池W中利用非支配排序的方法选择经验偏好
Figure 20987DEST_PATH_IMAGE023
,通过Q网络和目标Q网络同时进行训练,旨在最大化向量值奖励,得到最优的卸载决策;在训练过程中,设Q网络的输入为当前状态s、经验偏好
Figure 628686DEST_PATH_IMAGE024
和当前偏好
Figure 805589DEST_PATH_IMAGE025
,输出Q值,目标Q网络的输入为下一个状态、经验偏好
Figure 320884DEST_PATH_IMAGE024
和当前偏好
Figure 774999DEST_PATH_IMAGE025
,输出目标Q值,利用下式计算损失函数L
Figure 428966DEST_PATH_IMAGE026
上式中,Q分别表示Q网络和目标Q网络得到的Q值和目标Q值,γ表示奖励折扣因子,是Q网络输出的下一个状态,
Figure 968531DEST_PATH_IMAGE027
表示状态下,执行当前最优动作后的得到的最大Q值;
最后,利用损失函数值更新Q网络,每隔300代将Q网络参数同步给目标Q网络:
步骤9、判断Q网络训练是否结束,从而选择是否输出卸载决策,具体方法为:判断当前迭代是否达到最大迭代次数,是则输出最优卸载决策,其中最优卸载决策是指智能体执行动作a后得到的向量值奖励最大,否则转到步骤5。
2.根据权利要求1所述的一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:所述任务依赖约束
Figure 349834DEST_PATH_IMAGE004
包括:
约束1:无人机只能在规定的矩形区域飞行,同时规定了t时隙水平方向范围和t时隙内飞行的最大距离;
约束2:任务执行时,必须保证其前面的任务已经全部执行完成;一方面,如果任务在无人机执行时,必须确保处理任务的输出数据已经完全传输到终端设备;另一方面,如果任务在本地终端设备执行时,其前面的任务必须全部执行完成;
约束3:在无人机执行任务时必须保证任务的输入数据已全部传输到无人机-移动边缘计算系统上,并保证其前面的任务全部执行完成。
3.根据权利要求1所述的一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:所述步骤6的具体实现方法为:采用Double DQN方法选择动作a,利用两个动作价值函数确定动作a:一个用于估计动作,另一个估计该动作的价值,表示如下:
Figure 658456DEST_PATH_IMAGE028
其中s表示当前状态,a表示所执行的动作,
Figure 981859DEST_PATH_IMAGE025
表示用户当前偏好,
Figure 539879DEST_PATH_IMAGE029
表示当前状态s下选择Q值最大的动作,rand是一个[0,1]的随机数,
Figure 865818DEST_PATH_IMAGE030
表示贪心概率,取值0.9;在当前状态s下执行动作a得到下一步的状态和向量值奖励r, 该向量值奖励r定义为:
Figure 153580DEST_PATH_IMAGE031
其中
Figure 273983DEST_PATH_IMAGE032
Figure 397928DEST_PATH_IMAGE033
分别表示第p个终端设备中应用程序的任务执行顺序中第q-1个和第q个任务,
Figure 261978DEST_PATH_IMAGE034
表示任务
Figure 404247DEST_PATH_IMAGE033
的完成时间,
Figure 757868DEST_PATH_IMAGE035
表示t时隙任务的能耗,
Figure 493743DEST_PATH_IMAGE036
Figure 535386DEST_PATH_IMAGE037
分别表示时延的奖励值和能耗的奖励值;T个时隙内的奖励值函数
Figure 407527DEST_PATH_IMAGE038
Figure 994366DEST_PATH_IMAGE039
分别定义为:
Figure 217537DEST_PATH_IMAGE040
其中
Figure 298756DEST_PATH_IMAGE041
表示奖励折扣因子,取值为0.99。
CN202310034089.2A 2023-01-10 2023-01-10 基于多目标深度强化学习的无人机边缘计算卸载方法 Active CN115827108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310034089.2A CN115827108B (zh) 2023-01-10 2023-01-10 基于多目标深度强化学习的无人机边缘计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310034089.2A CN115827108B (zh) 2023-01-10 2023-01-10 基于多目标深度强化学习的无人机边缘计算卸载方法

Publications (2)

Publication Number Publication Date
CN115827108A true CN115827108A (zh) 2023-03-21
CN115827108B CN115827108B (zh) 2023-04-21

Family

ID=85520554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310034089.2A Active CN115827108B (zh) 2023-01-10 2023-01-10 基于多目标深度强化学习的无人机边缘计算卸载方法

Country Status (1)

Country Link
CN (1) CN115827108B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595575A (zh) * 2023-04-18 2023-08-15 广州大学 一种面向边缘智能控制器的依赖任务卸载和隐私保护方法
CN116781788A (zh) * 2023-08-24 2023-09-19 清华大学 服务决策方法以及服务决策装置
CN117553803A (zh) * 2024-01-09 2024-02-13 大连海事大学 一种基于深度强化学习的多无人机智能路径规划方法
CN117580105A (zh) * 2024-01-15 2024-02-20 南京信息工程大学 一种面向电网巡检的无人机任务卸载优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160525A (zh) * 2019-12-17 2020-05-15 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160525A (zh) * 2019-12-17 2020-05-15 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵睿: "基于深度强化学习的智能物联网移动边缘计算卸载策略研究" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595575A (zh) * 2023-04-18 2023-08-15 广州大学 一种面向边缘智能控制器的依赖任务卸载和隐私保护方法
CN116781788A (zh) * 2023-08-24 2023-09-19 清华大学 服务决策方法以及服务决策装置
CN116781788B (zh) * 2023-08-24 2023-11-17 清华大学 服务决策方法以及服务决策装置
CN117553803A (zh) * 2024-01-09 2024-02-13 大连海事大学 一种基于深度强化学习的多无人机智能路径规划方法
CN117553803B (zh) * 2024-01-09 2024-03-19 大连海事大学 一种基于深度强化学习的多无人机智能路径规划方法
CN117580105A (zh) * 2024-01-15 2024-02-20 南京信息工程大学 一种面向电网巡检的无人机任务卸载优化方法
CN117580105B (zh) * 2024-01-15 2024-04-19 南京信息工程大学 一种面向电网巡检的无人机任务卸载优化方法

Also Published As

Publication number Publication date
CN115827108B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN110377353B (zh) 计算任务卸载系统与方法
CN115827108B (zh) 基于多目标深度强化学习的无人机边缘计算卸载方法
CN112118287B (zh) 基于交替方向乘子算法与移动边缘计算的网络资源优化调度决策方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN108924936B (zh) 无人机辅助无线充电边缘计算网络的资源分配方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN112911648A (zh) 一种空地结合的移动边缘计算卸载优化方法
CN114169234A (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
CN113316169A (zh) 一种面向智慧港口的uav辅助通信能效优化方法及装置
Zhang et al. Efficient multitask scheduling for completion time minimization in UAV‐assisted Mobile edge computing
Sha et al. DRL-based task offloading and resource allocation in multi-UAV-MEC network with SDN
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、系统及设备
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
Wu et al. Deep reinforcement learning for computation offloading and resource allocation in satellite-terrestrial integrated networks
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
CN114928826A (zh) 一种软件定义车载任务卸载与资源分配的二阶段优化方法、控制器及决策方法
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
Yao et al. Performance Optimization in Serverless Edge Computing Environment using DRL-Based Function Offloading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant