CN111787509B - 边缘计算中基于强化学习的无人机任务卸载方法及系统 - Google Patents

边缘计算中基于强化学习的无人机任务卸载方法及系统 Download PDF

Info

Publication number
CN111787509B
CN111787509B CN202010675018.7A CN202010675018A CN111787509B CN 111787509 B CN111787509 B CN 111787509B CN 202010675018 A CN202010675018 A CN 202010675018A CN 111787509 B CN111787509 B CN 111787509B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
time
task
edge node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010675018.7A
Other languages
English (en)
Other versions
CN111787509A (zh
Inventor
邓晓衡
李君�
关培源
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010675018.7A priority Critical patent/CN111787509B/zh
Publication of CN111787509A publication Critical patent/CN111787509A/zh
Application granted granted Critical
Publication of CN111787509B publication Critical patent/CN111787509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Abstract

本发明提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,包括:步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型。本发明根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响,建立了基于边缘计算的无人机目标追踪的系统模型,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程,并基于强化学习中的Q学习设计求解算法,得出最佳的边缘节点选择方案和发射功率调整方案,实现任务卸载过程中能量开销和时间开销权衡的最小化。

Description

边缘计算中基于强化学习的无人机任务卸载方法及系统
技术领域
本发明涉及无人机目标追踪技术领域,特别涉及一种边缘计算中基于强化学习的无人机任务卸载方法及系统。
背景技术
由于无人机具有快速部署和鸟瞰视角的优点,无人机被广泛应用于农业、灾害感知、应急管理、边境管制、环境监测、数据收集、智能交通系统和人群监控等领域。本发明主要研究无人机在目标追踪场景中的应用,然而,和前面提到的无人机在其他领域的应用一样,依赖实时视频流和图像处理的决策应用往往会超过低成本无人机的本地数据处理能力,或者延长执行某个决策动作所需的时间。
为了解决这个问题,可以考虑无人机与边缘计算进行合作,实现从无人机到边缘节点的计算卸载。随着5G时代的到来,边缘计算作为一种新兴的计算模式,带来了高速率大带宽、低时延高可靠、低功耗大连接的网络环境,在边缘计算环境中,计算任务可以在接近数据源的计算资源上运行,它具有实时性、隐私保护和降低能耗等特点。
边缘计算中的任务卸载问题、无人机的卸载问题已经有很多相关研究,它们建议将无人机等资源受限设备的计算任务卸载到远程云或者边缘服务器进行处理,具体来说,有如下已有工作:1、使用基于cloudlet的基础设施来减少使用移动云计算时的功耗和网络延迟;2、重点从物理层安全方面考虑,研究无人机移动边缘计算系统的节能计算卸载技术;3.卸载无人机工作过程中繁重的计算任务,同时实现了能耗、时间延迟和计算成本之间的最佳折衷。在任务卸载方法选择方面,有工作建立了马尔可夫决策过程框架下的延迟最优计算任务卸载问题,并提出了有效的一维搜索算法来寻找最优解。
大部分已有的研究讨论了移动设备的任务是否需要卸载,以及在本地处理和卸载处理两种方式中如何做出选择的问题。但是这些边缘计算中卸载问题的研究没有考虑无人机目标追踪场景中最主要的特征:随着无人机的移动,无人机上产生的任务是移动的,无人机在追踪的过程中会飞出边缘节点的服务范围,所以无人机不能一直和一个边缘节点保持连接,而且无人机发射功率的调整,可以减少无人机数据传输过程中的能耗。
发明内容
本发明提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,其目的是为了解决为每个任务选择边缘节点以及调整无人机发射功率使得系统的能量开销和时间开销的权衡最优的问题。
为了达到上述目的,本发明的实施例提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,包括:
步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型;
步骤2,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程;
步骤3,基于强化学习中的Q学习设计求解算法,对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案。
其中,所述步骤1具体包括:
无人机在目标追踪过程中,将拍摄的视频任务卸载到地面边缘节点进行处理,研究无人机在时间T内的工作情况,假设无人机的飞行高度为H(m,无人机的飞行轨迹投影到地面上表示为q(t)∈R2×1,0≤t≤T,时间T被离散成M个时隙,即T=Mδt,其中,δt表示每个时隙的长度,无人机在一个时隙中位置认为是不变的,无人机的轨迹近似离散为一个集合Q={qm,1≤m≤M},其中,qm表示时隙m中无人机的位置,无人机在M个时隙产生的M个任务表示S{s1,s2,…,sM},其中,sm表示第M个任务的数据量大小,单位为bits。
其中,所述步骤1还包括:
假定在城市的一片区域里有k个边缘节点,用集合N{n1,n2,n3,…,nk}表示,ni表示第i个边缘节点,边缘节点ni的位置表示为wi∈R2×1,考虑到每个边缘节点的计算能力不同和无人机实时移动,无人机到边缘节点的通信距离为变化的,无人机到每个边缘节点的通信距离不同,无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同,假设在时隙m,将边缘节点ni选择为计算节点,如下所示:
Figure BDA0002583741910000031
其中,dm,i表示无人机与边缘节点ni之间的距离,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,wi∈R2×1,H表示表示无人机的飞行高度;
准静态块衰落信道遵循自由空间路径损耗模型,无人机和边缘节点之间的信道,如下所示:
Figure BDA0002583741910000032
其中,
Figure BDA0002583741910000033
表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示表示无人机的飞行高度。
其中,所述步骤1还包括:
假设发射功率在一个有限的状态空间Pn中调整选择,系统的通信速率R与发射功率和选择边缘节点有关,给定发射功率pm,i和无人机到边缘节点的距离dm,i,选择不同的边缘节点,无人机到边缘节点的距离不同,系统的通信速率如下所示:
Figure BDA0002583741910000034
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,单位为bps,pm,i表示在时隙m中无人机分配给节点ni的发射功率,B表示信道带宽,σ2表示高斯白噪声功率,
Figure BDA0002583741910000035
表示距离d0=1m时的信噪比,
Figure BDA0002583741910000036
表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示表示无人机的飞行高度。
其中,所述步骤1还包括:
在无人机进行目标追踪的过程中,无人机将视频任务卸载到边缘节点进行协同处理,无人机进行目标追踪过程的时间开销包括传输时间和计算时间,任务传输时间表示为:
Figure BDA0002583741910000041
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,pm,i表示在时隙m中无人机分配给节点ni的发射功率,dm,i表示无人机与边缘节点ni之间的距离,sm表示第M个任务的数据量大小,单位为bits;将任务sm卸载到边缘节点ni的计算时间为:
Figure BDA0002583741910000042
其中,sm表示第M个任务的数据量大小,w表示处理单位视频任务量需要的CPU周期,单位为周期数/比特,fi表示边缘节点ni的CPU时钟频率,单位为周期数/秒;
假设结果反馈时延是一个固定的很小的值,可以忽略不计,将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和,如下所示:
Figure BDA0002583741910000043
其中,
Figure BDA0002583741910000044
表示将任务sm卸载到边缘节点ni处理的总执行时间,
Figure BDA0002583741910000045
表示数据传输时间,
Figure BDA0002583741910000046
表示数据计算时间;
将从无人机卸载计算任务的能耗开销,如下所示:
Figure BDA0002583741910000047
其中,pm,i表示在时隙m中无人机分配给节点ni的发射功率,pidle表示空闲状态下的功率,
Figure BDA0002583741910000048
表示执行计算任务的能量开销,
Figure BDA0002583741910000049
Figure BDA00025837419100000410
分别表示数据传输时间和数据计算时间。
其中,所述步骤1还包括:
当无人机在时隙m连接的边缘节点与在上一个时隙m-1连接的边缘节点不同时,会带来额外的切换开销,包括能耗开销和时间开销,假设切换过程中的能耗开销,如下所示:
Figure BDA00025837419100000411
其中,1{Ω}表示指示函数,
Figure BDA0002583741910000051
表示每个时隙的能耗开销,
Figure BDA00025837419100000524
表示一次节点切换带来的能耗开销;
假设切换过程中的一次切换的时间开销,如下所示:
Figure BDA0002583741910000052
其中,1{Ω}表示指示函数,
Figure BDA0002583741910000053
表示每个时隙的时间开销,
Figure BDA00025837419100000523
表示一次节点切换带来的能耗开销;如果满足条件Ω,值为1,不满足条件Ω,值为0,j=max{l:nl∈N,l∈[1,k],l<i};
结合切换过程中的能耗开销和一次切换的时间开销,得出每个时隙m的总能量开销
Figure BDA0002583741910000054
如下所示:
Figure BDA0002583741910000055
其中,
Figure BDA0002583741910000056
表示每个时隙m的总能量开销,
Figure BDA0002583741910000057
表示执行计算任务的能量开销,
Figure BDA0002583741910000058
表示切换节点带来的能量开销;
得出每个时隙m的总时间开销
Figure BDA0002583741910000059
如下所示:
Figure BDA00025837419100000510
其中,
Figure BDA00025837419100000511
表示每个时隙m的总时间开销,
Figure BDA00025837419100000512
表示执行计算任务的时间开销,
Figure BDA00025837419100000513
表示切换节点带来的时间开销;
将每个时隙m的任务执行开销
Figure BDA00025837419100000514
定义为能量开销和时间开销的权重和,如下所示:
Figure BDA00025837419100000515
其中,
Figure BDA00025837419100000516
表示每个时隙m的任务执行开销,
Figure BDA00025837419100000517
表示每个时隙m的总能量开销,
Figure BDA00025837419100000518
表示每个时隙m的总时间开销,α表示传输能量消耗的相对权重,α≥0,β表示总延迟的相对权重,β≥0;
假设在时隙m选择边缘节点ni作为服务节点,决策变量xmi=1,时隙m不选择边缘节点ni作为服务节点,决策变量xmi=0,为联合优化无人机的传输功率和边缘节点的选择机制,最小化无人机能量开销与时间开销的权衡
Figure BDA00025837419100000519
优化问题如下所示:
Figure BDA00025837419100000520
其中,xmi表示决策变量,
Figure BDA00025837419100000521
是时隙m的总开销;
Figure BDA00025837419100000522
其中,xmi表示决策变量。
其中,所述步骤2具体包括:
无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行,系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成,将无人机在每个时隙m的状态表示为xm=(Nm-1,Am)∈X={1,2,…,k}×{qm,sm},其中,
Figure BDA0002583741910000061
动作空间由选择的执行任务的节点和无人机发射功率的大小构成,ym=(Nm,pm)∈Y={1,2,…,k}×{Pn},其中,Pn表示发射功率可能取值的集合,在每个时隙m开始时对状态xm的观测,无人机遵从静态控制决策
Figure BDA0002583741910000062
从动作空间中选择一个动作,其中,
Figure BDA0002583741910000063
表示卸载节点选择机制,
Figure BDA0002583741910000064
表示发射功率调整策略,
Figure BDA0002583741910000065
系统在一个状态(上一个任务所在执行节点、无人机位置和任务量大小)选择相应的动作(计算节点和发射功率)之后,按照动作转移的概率为1,系统的状态转移概率为1,给定一个决策
Figure BDA0002583741910000066
Figure BDA0002583741910000067
则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链,如下所示:
Figure BDA0002583741910000068
其中,所述步骤2还包括:
一个决策规则描述了一个特定时隙的状态进行动作选择的过程,如下所示:
Figure BDA0002583741910000069
其中,
Figure BDA00025837419100000610
表示在给定一个初始状态x1和策略
Figure BDA00025837419100000611
的情况下无人机的长期预期总开销,C(xm,ym)表示每个时隙的总开销,x1表示初始状态,
Figure BDA00025837419100000612
表示策略;x=(N,A),存在一个静态策略对所有策略来说是最优的;
设计一个最佳的控制策略
Figure BDA00025837419100000613
最佳的控制策略中建议采取的动作使得在当前阶段以及后续阶段产生的开销
Figure BDA00025837419100000614
最小,如下所示:
Figure BDA00025837419100000615
其中,
Figure BDA00025837419100000616
表示最佳的控制策略,将
Figure BDA00025837419100000617
作为最佳的状态-值函数,
Figure BDA00025837419100000618
其中,所述步骤3具体包括:
使用强化学习解决无人机目标追踪过程中的任务分配决策问题,将回报函数与需要优化的目标函数联系起来,根据优化目标为最小化总开销和强化学习的目标为最大化回报,将回报函数与原始的目标函数设置为负相关,如下所示:
R(x,y)=-C(x,y) (16)
其中,R(x,y)表示瞬时回报,x表示状态,y表示动作。
其中,所述步骤3还包括:
为限制动作空间的大小,在学习过程之前对于每个边缘节点,根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,采用Q-learning强化学习方法,每个状态-动作都有一个值Q(s,a),对于寻找最佳动作过程中的每一步,智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中,将每个状态-动作的值Q(s,a)视为长期回报的期望,Q(s,a)的更新公式如下所示:
Q(s,a)=r(s,a)+γ*maxQ(s',a') (17)
其中s,表示当前状态和动作,s',a'表示下一个时隙的状态和动作,γ表示学习率,0≤γ≤1;当γ趋于0,agent考虑当前的瞬时回报,当γ趋于1,agent关注未来的回报,对于寻找最佳动作过程中的每一步,迭代每个状态-动作的值Q(s,a)。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,综合考虑了无人机到边缘节点的距离、边缘节点处理能力,切换节点对任务完成时间和能耗的影响,建立了基于边缘计算的无人机目标追踪的系统模型,研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程,基于强化学习中的Q学习设计求解算法对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案,实现任务卸载过程中能量开销和时间开销权衡的最小化,提高无人机目标追踪系统的性能。
附图说明
图1为本发明的流程图;
图2为本发明的场景图;
图3为本发明的无人机路径与边缘节点分布图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的为每个任务选择边缘节点以及调整无人机发射功率使得系统的能量开销和时间开销的权衡最优的问题,提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统。
如图1至图3所示,本发明的实施例提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,包括:步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型;步骤2,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程;步骤3,基于强化学习中的Q学习设计求解算法,对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案。
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,研究边缘计算中无人机目标追踪的任务分配决策问题,视频任务从无人机卸载到地面边缘节点进行处理,然后反馈处理结果引导无人机实现成功追踪,综合考虑无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响等因素,建立基于边缘计算的无人机目标追踪的系统模型,将无人机目标追踪的任务分配决策问题建模成马尔可夫决策过程,并设计了基于Q学习的求解算法,得出最佳的边缘节点选择方案和发射功率调整方案,实现任务卸载过程中能量开销和时间开销权衡的最小化。
其中,所述步骤1具体包括:无人机在目标追踪过程中,将拍摄的视频任务卸载到地面边缘节点进行处理,研究无人机在时间T内的工作情况,假设无人机的飞行高度为H(m),无人机的飞行轨迹投影到地面上表示为q(t)∈R2×1,0≤t≤T,时间T被离散成M个时隙,即T=Mδt,其中,δt表示每个时隙的长度,无人机在一个时隙中位置认为是不变的,无人机的轨迹近似离散为一个集合Q={qm,1≤m≤M},其中,qm表示时隙m中无人机的位置,无人机在M个时隙产生的M个任务表示S{s1,s2,…,sM},其中,sm表示第M个任务的数据量大小,单位为bits。
其中,所述步骤1还包括:假定在城市的一片区域里有k个边缘节点,用集合N{n1,n2,n3,…,nk}表示,ni表示第i个边缘节点,边缘节点ni的位置表示为wi∈R2×1,考虑到每个边缘节点的计算能力不同和无人机实时移动,无人机到边缘节点的通信距离为变化的,无人机到每个边缘节点的通信距离不同,无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同,假设在时隙m,将边缘节点ni选择为计算节点,如下所示:
Figure BDA0002583741910000091
其中,dm,i表示无人机与边缘节点ni之间的距离,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,wi∈R2×1,H表示表示无人机的飞行高度;
准静态块衰落信道遵循自由空间路径损耗模型,无人机和边缘节点之间的信道,如下所示:
Figure BDA0002583741910000092
其中,
Figure BDA0002583741910000093
表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示表示无人机的飞行高度。
其中,所述步骤1还包括:假设发射功率在一个有限的状态空间Pn中调整选择,系统的通信速率R与发射功率和选择边缘节点有关,给定发射功率pm,i和无人机到边缘节点的距离dm,i,选择不同的边缘节点,无人机到边缘节点的距离不同,系统的通信速率如下所示:
Figure BDA0002583741910000094
Figure BDA0002583741910000101
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,单位为bps,pm,i表示在时隙m中无人机分配给节点ni的发射功率,B表示信道带宽,σ2表示高斯白噪声功率,
Figure BDA0002583741910000102
表示距离d0=1m时的信噪比,
Figure BDA0002583741910000103
表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示表示无人机的飞行高度。
其中,所述步骤1还包括:在无人机进行目标追踪的过程中,无人机将视频任务卸载到边缘节点进行协同处理,无人机进行目标追踪过程的时间开销包括传输时间和计算时间,任务传输时间表示为:
Figure BDA0002583741910000104
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,pm,i表示在时隙m中无人机分配给节点ni的发射功率,dm,i表示无人机与边缘节点ni之间的距离,sm表示第M个任务的数据量大小,单位为bits;将任务sm卸载到边缘节点ni的计算时间为:
Figure BDA0002583741910000105
其中,sm表示第M个任务的数据量大小,w表示处理单位视频任务量需要的CPU周期,单位为周期数/比特,fi表示边缘节点ni的CPU时钟频率,单位为周期数/秒;
假设结果反馈时延是一个固定的很小的值,可以忽略不计,将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和,如下所示:
Figure BDA0002583741910000106
其中,
Figure BDA0002583741910000107
表示将任务sm卸载到边缘节点ni处理的总执行时间,
Figure BDA0002583741910000108
表示数据传输时间,
Figure BDA0002583741910000109
表示数据计算时间;
将从无人机卸载计算任务的能耗开销,如下所示:
Figure BDA00025837419100001010
其中,pm,i表示在时隙m中无人机分配给节点ni的发射功率,pidle表示空闲状态下的功率,
Figure BDA00025837419100001011
表示执行计算任务的能量开销,
Figure BDA00025837419100001012
Figure BDA00025837419100001013
分别表示数据传输时间和数据计算时间。
其中,所述步骤1还包括:当无人机在时隙m连接的边缘节点与在上一个时隙m-1连接的边缘节点不同时,会带来额外的切换开销,包括能耗开销和时间开销,假设切换过程中的能耗开销,如下所示:
Figure BDA0002583741910000111
其中,1{Ω}表示指示函数,
Figure BDA0002583741910000112
表示每个时隙的能耗开销,
Figure BDA00025837419100001121
表示一次节点切换带来的能耗开销;
假设切换过程中的一次切换的时间开销,如下所示:
Figure BDA0002583741910000113
其中,1{Ω}表示指示函数,
Figure BDA0002583741910000114
表示每个时隙的时间开销,
Figure BDA00025837419100001122
表示一次节点切换带来的能耗开销;如果满足条件Ω,值为1,不满足条件Ω,值为0,j=max{l:nl∈N,l∈[1,k],l<i};
结合切换过程中的能耗开销和一次切换的时间开销,得出每个时隙m的总能量开销
Figure BDA0002583741910000115
如下所示:
Figure BDA0002583741910000116
其中,
Figure BDA0002583741910000117
表示每个时隙m的总能量开销,
Figure BDA0002583741910000118
表示执行计算任务的能量开销,
Figure BDA0002583741910000119
表示切换节点带来的能量开销;
得出每个时隙m的总时间开销
Figure BDA00025837419100001110
如下所示:
Figure BDA00025837419100001111
其中,
Figure BDA00025837419100001112
表示每个时隙m的总时间开销,
Figure BDA00025837419100001113
表示执行计算任务的时间开销,
Figure BDA00025837419100001114
表示切换节点带来的时间开销;
将每个时隙m的任务执行开销
Figure BDA00025837419100001115
定义为能量开销和时间开销的权重和,如下所示:
Figure BDA00025837419100001116
其中,
Figure BDA00025837419100001117
表示每个时隙m的任务执行开销,
Figure BDA00025837419100001118
表示每个时隙m的总能量开销,
Figure BDA00025837419100001119
表示每个时隙m的总时间开销,α表示传输能量消耗的相对权重,α≥0,β表示总延迟的相对权重,β≥0;
假设在时隙m选择边缘节点ni作为服务节点,决策变量xmi=1,时隙m不选择边缘节点ni作为服务节点,决策变量xmi=0,为联合优化无人机的传输功率和边缘节点的选择机制,最小化无人机能量开销与时间开销的权衡
Figure BDA00025837419100001120
优化问题如下所示:
Figure BDA0002583741910000121
其中,xmi表示决策变量,
Figure BDA0002583741910000122
是时隙m的总开销;
Figure BDA0002583741910000123
其中,xmi表示决策变量。
其中,所述步骤2具体包括:无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行,系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成,将无人机在每个时隙m的状态表示为xm=(Nm-1,Am)∈X{1,2,…,k}×{qm,sm},其中,
Figure BDA0002583741910000124
动作空间由选择的执行任务的节点和无人机发射功率的大小构成,ym=(Nm,pm)∈Y{1,2,…,k}×{Pn},其中,Pn表示发射功率可能取值的集合,在每个时隙m开始时对状态xm的观测,无人机遵从静态控制决策
Figure BDA0002583741910000125
从动作空间中选择一个动作,其中,
Figure BDA0002583741910000126
表示卸载节点选择机制,
Figure BDA0002583741910000127
表示发射功率调整策略,
Figure BDA0002583741910000128
系统在一个状态(上一个任务所在执行节点、无人机位置和任务量大小)选择相应的动作(计算节点和发射功率)之后,按照动作转移的概率为1,系统的状态转移概率为1,给定一个决策
Figure BDA0002583741910000129
则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链,如下所示:
Figure BDA00025837419100001210
其中,所述步骤2还包括:
一个决策规则描述了一个特定时隙的状态进行动作选择的过程,如下所示:
Figure BDA00025837419100001211
其中,
Figure BDA00025837419100001212
表示在给定一个初始状态x1和策略
Figure BDA00025837419100001213
的情况下无人机的长期预期总开销,C(xm,ym)表示每个时隙的总开销,x1表示初始状态,
Figure BDA00025837419100001214
表示策略;x=(N,A),存在一个静态策略对所有策略来说是最优的;
设计一个最佳的控制策略
Figure BDA00025837419100001215
最佳的控制策略中建议采取的动作使得在当前阶段以及后续阶段产生的开销
Figure BDA00025837419100001216
最小,如下所示:
Figure BDA00025837419100001217
其中,
Figure BDA0002583741910000131
表示最佳的控制策略,将
Figure BDA0002583741910000132
作为最佳的状态-值函数,
Figure BDA0002583741910000133
其中,所述步骤3具体包括:使用强化学习解决无人机目标追踪过程中的任务分配决策问题,将回报函数与需要优化的目标函数联系起来,根据优化目标为最小化总开销和强化学习的目标为最大化回报,将回报函数与原始的目标函数设置为负相关,如下所示:
R(x,y)=-C(x,y) (16)
其中,R(x,y)表示瞬时回报,x表示状态,y表示动作。
其中,所述步骤3还包括:为限制动作空间的大小,在学习过程之前对于每个边缘节点,根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,采用Q-learning强化学习方法,每个状态-动作都有一个值Q(s,a),对于寻找最佳动作过程中的每一步,智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中,将每个状态-动作的值Q(s,a)视为长期回报的期望,Q(s,a)的更新公式如下所示:
Q(s,a)=r(s,a)+γ*maxQ(s',a') (17)
其中s,表示当前状态和动作,s',a'表示下一个时隙的状态和动作,γ表示学习率,0≤1;当γ趋于0,agent考虑当前的瞬时回报,当γ趋于1,agent关注未来的回报,对于寻找最佳动作过程中的每一步,迭代每个状态-动作的值Q(s,a)。
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,在强化学习方法中有三个关键要素,即状态、动作、回报,回报:对于寻找最佳动作过程中的每一步来说,agent在状态x下,执行一个可能的动作y后,都会得到一个回报R(x,y),强化学习的目标就是获得最大的回报,一般来说,奖励函数应该与目标函数相关,使用强化学习解决无人机目标追踪过程中的任务分配决策问题,就必须将回报函数与要优化的目标函数联系起来,优化目标是最小化总开销,强化学习的目标是最大化回报,设置的回报函数应该与原始的目标函数成负相关,定义瞬时回报为R(x,y)=-C(x,y),表示加权总开销的相反数,得到最大的回报等同于获得了最小的加权总开销。随着系统规模的增大,卸载决策与无人机发射功率组成的动作的可能取值会急速增长,不利于算法的运行和收敛。为了限制动作空间的大小,在学习过程之前提出了一个预处理步骤,对于每个边缘节点,先根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,在下次迭代过程中就不会再选择这个动作,提高了效率。
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,考虑到无人机具有移动性,在复杂的电磁环境中,存在信道干扰,信道具有不稳定性,边缘节点的处理能力存在差异性,以及切换节点对任务完成时间和能耗的影响等问题,建立了基于边缘计算的无人机目标追踪的系统模型,研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程,并基于强化学习中的Q学习设计求解算法,得出最佳的边缘节点选择方案和发射功率调整方案,任务卸载过程中能量开销和时间开销权衡的最小化。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种边缘计算中基于强化学习的无人机任务卸载方法,其特征在于,包括:
步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型;
步骤2,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程;
步骤3,基于强化学习中的Q学习设计求解算法,对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案;
所述步骤1具体包括:
无人机在目标追踪过程中,将拍摄的视频任务卸载到地面边缘节点进行处理,研究无人机在时间T内的工作情况,假设无人机的飞行高度为H(m),无人机的飞行轨迹投影到地面上表示为q(t)∈R2×1,0≤t≤T,时间T被离散成M个时隙,即T=Mδt,其中,δt表示每个时隙的长度,无人机在一个时隙中位置认为是不变的,无人机的轨迹近似离散为一个集合Q={qm,1≤m≤M},其中,qm表示时隙m中无人机的位置,无人机在M个时隙产生的M个任务表示S={s1,s2,…,sM},其中,sm表示第m个任务的数据量大小,单位为bits,1≤m≤M;
所述步骤1还包括:
假定在城市的一片区域里有k个边缘节点,用集合N={n1,n2,n3,…,nk}表示,ni表示第i个边缘节点,i∈[1,k],边缘节点ni的位置表示为wi∈R2×1,考虑到每个边缘节点的计算能力不同和无人机实时移动,无人机到边缘节点的通信距离为变化的,无人机到每个边缘节点的通信距离不同,无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同,假设在时隙m,将边缘节点ni选择为计算节点,如下所示:
Figure FDA0003266019220000011
其中,dm,i表示无人机与边缘节点ni之间的距离,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,wi∈R2×1,H表示无人机的飞行高度;
准静态块衰落信道遵循自由空间路径损耗模型,无人机和边缘节点之间的信道,如下所示:
Figure FDA0003266019220000021
其中,
Figure FDA0003266019220000022
表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示无人机的飞行高度;
所述步骤1还包括:
假设发射功率在一个有限的状态空间Pn中调整选择,系统的通信速率R与发射功率和选择边缘节点有关,给定发射功率pm,i和无人机到边缘节点的距离dm,i,选择不同的边缘节点,无人机到边缘节点的距离不同,系统的通信速率如下所示:
Figure FDA0003266019220000023
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,单位为bps,pm,i表示在时隙m中无人机分配给节点ni的发射功率,B表示信道带宽,σ2表示高斯白噪声功率,
Figure FDA0003266019220000024
表示距离d0=1m时的信噪比,
Figure FDA0003266019220000025
表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示无人机的飞行高度;
所述步骤1还包括:
在无人机进行目标追踪的过程中,无人机将视频任务卸载到边缘节点进行协同处理,无人机进行目标追踪过程的时间开销包括传输时间和计算时间,任务传输时间表示为:
Figure FDA0003266019220000026
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,pm,i表示在时隙m中无人机分配给节点ni的发射功率,dm,i表示无人机与边缘节点ni之间的距离,sm表示第m个任务的数据量大小,单位为bits;将任务sm卸载到边缘节点ni的计算时间为:
Figure FDA0003266019220000031
其中,sm表示第m个任务的数据量大小,w表示处理单位视频任务量需要的CPU周期,单位为周期数/比特,fi表示边缘节点ni的CPU时钟频率,单位为周期数/秒;
假设结果反馈时延是一个固定的很小的值,可以忽略不计,将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和,如下所示:
Figure FDA0003266019220000032
其中,
Figure FDA0003266019220000033
表示将任务sm卸载到边缘节点ni处理的总执行时间,
Figure FDA0003266019220000034
表示数据传输时间,
Figure FDA0003266019220000035
表示数据计算时间;
将执行计算任务的能耗开销,如下所示:
Figure FDA0003266019220000036
其中,pm,i表示在时隙m中无人机分配给节点ni的发射功率,pidle表示空闲状态下的功率,
Figure FDA0003266019220000037
表示执行计算任务的能耗开销,
Figure FDA0003266019220000038
Figure FDA0003266019220000039
分别表示数据传输时间和数据计算时间;
所述步骤1还包括:
当无人机在时隙m连接的边缘节点ni与在上一个时隙m-1连接的边缘节点nj不同时,会带来额外的切换开销,包括能耗开销和时间开销,假设切换过程中每个时隙的能耗开销,如下所示:
Figure FDA00032660192200000310
其中,1{Ω}表示指示函数,Ω=<ni∈N>∩<nj∈N>∩<i≠j>,如果满足条件Ω,值为1,不满足条件Ω,值为0,j=max{l:nl∈N,l∈[1,k],l<i},nl表示第l个边缘节点,N表示k个边缘节点的集合,l表示边缘节点,
Figure FDA00032660192200000311
表示切换过程中每个时隙的能耗开销,
Figure FDA00032660192200000312
表示一次节点切换带来的能耗开销;
假设切换过程中的每个时隙的时间开销,如下所示:
Figure FDA00032660192200000313
其中,
Figure FDA00032660192200000314
表示切换过程中每个时隙的时间开销,
Figure FDA00032660192200000315
表示一次节点切换带来的时间开销;
结合执行计算任务的能耗开销和切换过程中每个时隙的能耗开销,得出每个时隙m的总能耗开销
Figure FDA0003266019220000041
如下所示:
Figure FDA0003266019220000042
其中,
Figure FDA0003266019220000043
表示每个时隙m的总能耗开销,
Figure FDA0003266019220000044
表示执行计算任务的能耗开销,
Figure FDA0003266019220000045
表示切换过程中每个时隙的能耗开销;
得出每个时隙m的总时间开销
Figure FDA0003266019220000046
如下所示:
Figure FDA0003266019220000047
其中,
Figure FDA0003266019220000048
表示每个时隙m的总时间开销,
Figure FDA0003266019220000049
表示执行计算任务的时间开销,
Figure FDA00032660192200000410
表示切换过程中每个时隙的时间开销;
将每个时隙m的任务执行开销
Figure FDA00032660192200000411
定义为能耗开销和时间开销的权重和,如下所示:
Figure FDA00032660192200000412
其中,
Figure FDA00032660192200000413
表示每个时隙m的任务执行开销,
Figure FDA00032660192200000414
表示每个时隙m的总能耗开销,
Figure FDA00032660192200000415
表示每个时隙m的总时间开销,α表示传输能量消耗的相对权重,α≥0,β表示总延迟的相对权重,β≥0;
假设在时隙m选择边缘节点ni作为服务节点,决策变量xmi=1,时隙m不选择边缘节点ni作为服务节点,决策变量xmi=0,为联合优化无人机的传输功率和边缘节点的选择机制,最小化无人机能耗开销与时间开销的权衡
Figure FDA00032660192200000416
优化问题如下所示:
Figure FDA00032660192200000417
其中,xmi表示决策变量,
Figure FDA00032660192200000418
是每个时隙m的任务执行开销;
Figure FDA00032660192200000419
其中,xmi表示决策变量。
2.根据权利要求1所述的边缘计算中基于强化学习的无人机任务卸载方法,其特征在于,所述步骤2具体包括:
无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行,系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成,将无人机在每个时隙m的状态表示为xm=(Nm-1,Am)∈X={1,2,…,k}×{qm,sm},其中,Am={qm,sm},动作空间由选择的执行任务的节点和无人机发射功率的大小构成,ym=(Nm,pm)∈Y={1,2,…,k}×{Pm},其中,Pm表示发射功率可能取值的集合,在每个时隙m开始时对状态xm的观测,无人机遵从静态控制决策
Figure FDA0003266019220000051
从动作空间中选择一个动作,其中,
Figure FDA0003266019220000052
表示卸载节点选择机制,
Figure FDA0003266019220000053
表示发射功率调整策略,
Figure FDA0003266019220000054
系统在一个状态选择相应的动作之后,其中,状态为上一个任务所在执行节点、无人机位置和任务量大小,相应的动作为计算节点和发射功率,按照动作转移的概率为1,系统的状态转移概率为1,给定一个决策
Figure FDA0003266019220000055
则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链,如下所示:
Figure FDA0003266019220000056
3.根据权利要求2所述的边缘计算中基于强化学习的无人机任务卸载方法,其特征在于,所述步骤2还包括:
一个决策规则描述了一个特定时隙的状态进行动作选择的过程,如下所示:
Figure FDA0003266019220000057
其中,
Figure FDA0003266019220000058
表示在给定一个初始状态x1和策略
Figure FDA0003266019220000059
的情况下无人机的长期预期总开销,C(xm,ym)表示每个时隙的总开销,x1表示初始状态,
Figure FDA00032660192200000510
表示策略;x=(NC,AC),C表示特定时隙,1≤C≤M,存在一个静态策略对所有策略来说是最优的,C(xm,ym)为
Figure FDA00032660192200000511
在强化学习中的函数表示,Eφ表示数学期望;
设计一个最佳的控制策略
Figure FDA00032660192200000512
最佳的控制策略中建议采取的动作使得在当前阶段以及后续阶段产生的开销
Figure FDA00032660192200000513
最小,如下所示:
Figure FDA00032660192200000514
其中,
Figure FDA00032660192200000515
表示最佳的控制策略,将
Figure FDA00032660192200000516
作为最佳的状态-值函数,
Figure FDA00032660192200000517
4.根据权利要求3所述的边缘计算中基于强化学习的无人机任务卸载方法,其特征在于,所述步骤3具体包括:
使用强化学习解决无人机目标追踪过程中的任务分配决策问题,将回报函数与需要优化的目标函数联系起来,根据优化目标为最小化总开销和强化学习的目标为最大化回报,将回报函数与原始的目标函数设置为负相关,如下所示:
R(x,y)=-C(x,y) (16)
其中,R(x,y)表示瞬时回报,x表示状态,y表示动作。
5.根据权利要求4所述的边缘计算中基于强化学习的无人机任务卸载方法,其特征在于,所述步骤3还包括:
为限制动作空间的大小,在学习过程之前对于每个边缘节点,根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,采用Q-learning强化学习方法,每个状态-动作都有一个值Q(s,a),对于寻找最佳动作过程中的每一步,智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中,将每个状态-动作的值Q(s,a)视为长期回报的期望,Q(s,a)的更新公式如下所示:
Q(s,a)=r(s,a)+γ*max Q(s′,a′) (17)
其中,s,a表示当前状态和动作,s′,a′表示下一个时隙的状态和动作,γ表示学习率,0≤γ≤1;当γ趋于0,agent考虑当前的瞬时回报,当γ趋于1,agent关注未来的回报,对于寻找最佳动作过程中的每一步,迭代每个状态-动作的值Q(s,a),r(s,a)表示回报。
CN202010675018.7A 2020-07-14 2020-07-14 边缘计算中基于强化学习的无人机任务卸载方法及系统 Active CN111787509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010675018.7A CN111787509B (zh) 2020-07-14 2020-07-14 边缘计算中基于强化学习的无人机任务卸载方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010675018.7A CN111787509B (zh) 2020-07-14 2020-07-14 边缘计算中基于强化学习的无人机任务卸载方法及系统

Publications (2)

Publication Number Publication Date
CN111787509A CN111787509A (zh) 2020-10-16
CN111787509B true CN111787509B (zh) 2021-11-02

Family

ID=72767761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010675018.7A Active CN111787509B (zh) 2020-07-14 2020-07-14 边缘计算中基于强化学习的无人机任务卸载方法及系统

Country Status (1)

Country Link
CN (1) CN111787509B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911648A (zh) * 2021-01-20 2021-06-04 长春工程学院 一种空地结合的移动边缘计算卸载优化方法
CN112929849B (zh) * 2021-01-27 2022-03-01 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN112911618B (zh) * 2021-01-29 2022-05-03 重庆邮电大学 一种基于资源退出场景的无人机服务器任务卸载调度方法
CN112835715B (zh) * 2021-02-01 2022-12-09 哈尔滨工业大学(深圳) 基于强化学习的无人机任务卸载策略的确定方法和装置
CN113242556B (zh) * 2021-06-04 2022-08-23 重庆邮电大学 一种基于差异化服务的无人机资源动态部署方法
CN113534829B (zh) * 2021-06-11 2024-04-05 南京邮电大学 一种基于边缘计算的无人机日常巡逻检测系统
CN113660508A (zh) * 2021-07-16 2021-11-16 国家石油天然气管网集团有限公司西气东输分公司 面向智能视频识别的多边缘计算设备协作任务分配算法
CN113626107B (zh) * 2021-08-20 2024-03-26 中南大学 移动计算卸载方法、系统及存储介质
CN114172558B (zh) * 2021-11-24 2024-01-19 上海大学 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
KR102639494B1 (ko) * 2021-12-21 2024-02-23 경희대학교 산학협력단 태스크 오프로딩을 지원하는 무인 항공기 및 방법
CN114520991B (zh) * 2022-01-27 2023-07-28 重庆邮电大学 基于无人机集群的边缘网络自适应部署方法
CN114546660A (zh) * 2022-03-01 2022-05-27 重庆邮电大学 一种多无人机协作边缘计算方法
CN114979135B (zh) * 2022-04-22 2023-05-12 福建师范大学 基于移动边缘计算的无人机飞行高度和任务分配控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109588059A (zh) * 2016-05-13 2019-04-05 瑞典爱立信有限公司 用于无线通信网络的网络架构、方法和设备
CN110553629A (zh) * 2019-09-20 2019-12-10 中南大学 一种基于边缘计算的无人机目标追踪功耗优化方法及系统
CN111405568A (zh) * 2020-03-19 2020-07-10 三峡大学 基于q学习的计算卸载和资源分配方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110113195B (zh) * 2019-04-26 2021-03-30 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
US11159408B2 (en) * 2019-06-25 2021-10-26 Intel Corporation Link performance prediction technologies
CN110536308A (zh) * 2019-08-07 2019-12-03 中科边缘智慧信息科技(苏州)有限公司 一种基于博弈的多节点计算卸载方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109588059A (zh) * 2016-05-13 2019-04-05 瑞典爱立信有限公司 用于无线通信网络的网络架构、方法和设备
CN110553629A (zh) * 2019-09-20 2019-12-10 中南大学 一种基于边缘计算的无人机目标追踪功耗优化方法及系统
CN111405568A (zh) * 2020-03-19 2020-07-10 三峡大学 基于q学习的计算卸载和资源分配方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cost-Effective Edge Server Placement in Wireless Metropolitan Area Networks;fengzeng yongzhengren xiaohengdeng;《sensors》;20181221;该论文全文 *
Optimized Computation Offloading Performance in Virtual Edge Computing Systems Via Deep Reinforcement Learning;Xianfu Chen;《IEEE INTERNET OF THINGS JOURNAL》;20190630;第4005-4018页 *
基于综合信任的边缘计算资源协同研究;邓晓衡;《计算机研究与发展》;20181231;第449-477页 *

Also Published As

Publication number Publication date
CN111787509A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111787509B (zh) 边缘计算中基于强化学习的无人机任务卸载方法及系统
CN110553629B (zh) 一种基于边缘计算的无人机目标追踪功耗优化方法及系统
CN115640131A (zh) 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN111935303A (zh) 空地一体化车联网中基于意图感知的任务卸载方法
CN113282352B (zh) 基于多无人机协同辅助边缘计算的节能卸载方法
Nguyen et al. DRL-based intelligent resource allocation for diverse QoS in 5G and toward 6G vehicular networks: a comprehensive survey
CN112929849B (zh) 一种基于强化学习的可靠车载边缘计算卸载方法
CN115190033B (zh) 一种基于强化学习的云边融合网络任务卸载方法
CN114169234A (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
CN116257335A (zh) 无人机辅助mec系统联合任务调度及运动轨迹优化方法
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、系统及设备
CN115002123A (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
Lin et al. Computing assistance from the sky: Decentralized computation efficiency optimization for air-ground integrated MEC networks
Wang et al. Digital twin-enabled computation offloading in UAV-assisted MEC emergency networks
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN116737391A (zh) 一种联邦模式下基于混合策略的边缘计算协作方法
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
CN115665869A (zh) 基于边缘计算和有向无环图的多用户协作平台及其方法
Zhu et al. Online Distributed Learning-Based Load-Aware Heterogeneous Vehicular Edge Computing
Huda et al. Transfer Learning Algorithms in Unmanned Aerial Vehicle Networks: A Comprehensive Review
Kumar et al. Proximal Policy Optimization based computations offloading for delay optimization in UAV-assisted mobile edge computing
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
Seid et al. HDFRL-empowered energy efficient resource allocation for aerial MEC-enabled smart city cyber physical system in 6G

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant