CN111787509A - 边缘计算中基于强化学习的无人机任务卸载方法及系统 - Google Patents
边缘计算中基于强化学习的无人机任务卸载方法及系统 Download PDFInfo
- Publication number
- CN111787509A CN111787509A CN202010675018.7A CN202010675018A CN111787509A CN 111787509 A CN111787509 A CN 111787509A CN 202010675018 A CN202010675018 A CN 202010675018A CN 111787509 A CN111787509 A CN 111787509A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- task
- time
- edge node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,包括:步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型。本发明根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响,建立了基于边缘计算的无人机目标追踪的系统模型,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程,并基于强化学习中的Q学习设计求解算法,得出最佳的边缘节点选择方案和发射功率调整方案,实现任务卸载过程中能量开销和时间开销权衡的最小化。
Description
技术领域
本发明涉及无人机目标追踪技术领域,特别涉及一种边缘计算中基于强化学习的无人机任务卸载方法及系统。
背景技术
由于无人机具有快速部署和鸟瞰视角的优点,无人机被广泛应用于农业、灾害感知、应急管理、边境管制、环境监测、数据收集、智能交通系统和人群监控等领域。本发明主要研究无人机在目标追踪场景中的应用,然而,和前面提到的无人机在其他领域的应用一样,依赖实时视频流和图像处理的决策应用往往会超过低成本无人机的本地数据处理能力,或者延长执行某个决策动作所需的时间。
为了解决这个问题,可以考虑无人机与边缘计算进行合作,实现从无人机到边缘节点的计算卸载。随着5G时代的到来,边缘计算作为一种新兴的计算模式,带来了高速率大带宽、低时延高可靠、低功耗大连接的网络环境,在边缘计算环境中,计算任务可以在接近数据源的计算资源上运行,它具有实时性、隐私保护和降低能耗等特点。
边缘计算中的任务卸载问题、无人机的卸载问题已经有很多相关研究,它们建议将无人机等资源受限设备的计算任务卸载到远程云或者边缘服务器进行处理,具体来说,有如下已有工作:1、使用基于cloudlet的基础设施来减少使用移动云计算时的功耗和网络延迟;2、重点从物理层安全方面考虑,研究无人机移动边缘计算系统的节能计算卸载技术;3.卸载无人机工作过程中繁重的计算任务,同时实现了能耗、时间延迟和计算成本之间的最佳折衷。在任务卸载方法选择方面,有工作建立了马尔可夫决策过程框架下的延迟最优计算任务卸载问题,并提出了有效的一维搜索算法来寻找最优解。
大部分已有的研究讨论了移动设备的任务是否需要卸载,以及在本地处理和卸载处理两种方式中如何做出选择的问题。但是这些边缘计算中卸载问题的研究没有考虑无人机目标追踪场景中最主要的特征:随着无人机的移动,无人机上产生的任务是移动的,无人机在追踪的过程中会飞出边缘节点的服务范围,所以无人机不能一直和一个边缘节点保持连接,而且无人机发射功率的调整,可以减少无人机数据传输过程中的能耗。
发明内容
本发明提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,其目的是为了解决为每个任务选择边缘节点以及调整无人机发射功率使得系统的能量开销和时间开销的权衡最优的问题。
为了达到上述目的,本发明的实施例提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,包括:
步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型;
步骤2,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程;
步骤3,基于强化学习中的Q学习设计求解算法,对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案。
其中,所述步骤1具体包括:
无人机在目标追踪过程中,将拍摄的视频任务卸载到地面边缘节点进行处理,研究无人机在时间T内的工作情况,假设无人机的飞行高度为H(m,无人机的飞行轨迹投影到地面上表示为q(t)∈R2×1,0≤t≤T,时间T被离散成M个时隙,即T=Mδt,其中,δt表示每个时隙的长度,无人机在一个时隙中位置认为是不变的,无人机的轨迹近似离散为一个集合Q={qm,1≤m≤M},其中,qm表示时隙m中无人机的位置,无人机在M个时隙产生的M个任务表示S{s1,s2,…,sM},其中,sm表示第M个任务的数据量大小,单位为bits。
其中,所述步骤1还包括:
假定在城市的一片区域里有k个边缘节点,用集合N{n1,n2,n3,…,nk}表示,ni表示第i个边缘节点,边缘节点ni的位置表示为wi∈R2×1,考虑到每个边缘节点的计算能力不同和无人机实时移动,无人机到边缘节点的通信距离为变化的,无人机到每个边缘节点的通信距离不同,无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同,假设在时隙m,将边缘节点ni选择为计算节点,如下所示:
其中,dm,i表示无人机与边缘节点ni之间的距离,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,wi∈R2×1,H表示表示无人机的飞行高度;
准静态块衰落信道遵循自由空间路径损耗模型,无人机和边缘节点之间的信道,如下所示:
其中,所述步骤1还包括:
假设发射功率在一个有限的状态空间Pn中调整选择,系统的通信速率R与发射功率和选择边缘节点有关,给定发射功率pm,i和无人机到边缘节点的距离dm,i,选择不同的边缘节点,无人机到边缘节点的距离不同,系统的通信速率如下所示:
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,单位为bps,pm,i表示在时隙m中无人机分配给节点ni的发射功率,B表示信道带宽,σ2表示高斯白噪声功率,表示距离d0=1m时的信噪比,表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示表示无人机的飞行高度。
其中,所述步骤1还包括:
在无人机进行目标追踪的过程中,无人机将视频任务卸载到边缘节点进行协同处理,无人机进行目标追踪过程的时间开销包括传输时间和计算时间,任务传输时间表示为:其中,Rm,i(pm,i,dm,i)表示系统的通信速率,pm,i表示在时隙m中无人机分配给节点ni的发射功率,dm,i表示无人机与边缘节点ni之间的距离,sm表示第M个任务的数据量大小,单位为bits;将任务sm卸载到边缘节点ni的计算时间为:其中,sm表示第M个任务的数据量大小,w表示处理单位视频任务量需要的CPU周期,单位为周期数/比特,fi表示边缘节点ni的CPU时钟频率,单位为周期数/秒;
假设结果反馈时延是一个固定的很小的值,可以忽略不计,将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和,如下所示:
将从无人机卸载计算任务的能耗开销,如下所示:
其中,所述步骤1还包括:
当无人机在时隙m连接的边缘节点与在上一个时隙m-1连接的边缘节点不同时,会带来额外的切换开销,包括能耗开销和时间开销,假设切换过程中的能耗开销,如下所示:
假设切换过程中的一次切换的时间开销,如下所示:
假设在时隙m选择边缘节点ni作为服务节点,决策变量xmi=1,时隙m不选择边缘节点ni作为服务节点,决策变量xmi=0,为联合优化无人机的传输功率和边缘节点的选择机制,最小化无人机能量开销与时间开销的权衡优化问题如下所示:
其中,xmi表示决策变量。
其中,所述步骤2具体包括:
无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行,系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成,将无人机在每个时隙m的状态表示为xm=(Nm-1,Am)∈X={1,2,…,k}×{qm,sm},其中,动作空间由选择的执行任务的节点和无人机发射功率的大小构成,ym=(Nm,pm)∈Y={1,2,…,k}×{Pn},其中,Pn表示发射功率可能取值的集合,在每个时隙m开始时对状态xm的观测,无人机遵从静态控制决策从动作空间中选择一个动作,其中,表示卸载节点选择机制,表示发射功率调整策略,系统在一个状态(上一个任务所在执行节点、无人机位置和任务量大小)选择相应的动作(计算节点和发射功率)之后,按照动作转移的概率为1,系统的状态转移概率为1,给定一个决策 则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链,如下所示:
其中,所述步骤2还包括:
一个决策规则描述了一个特定时隙的状态进行动作选择的过程,如下所示:
其中,所述步骤3具体包括:
使用强化学习解决无人机目标追踪过程中的任务分配决策问题,将回报函数与需要优化的目标函数联系起来,根据优化目标为最小化总开销和强化学习的目标为最大化回报,将回报函数与原始的目标函数设置为负相关,如下所示:
R(x,y)=-C(x,y) (16)
其中,R(x,y)表示瞬时回报,x表示状态,y表示动作。
其中,所述步骤3还包括:
为限制动作空间的大小,在学习过程之前对于每个边缘节点,根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,采用Q-learning强化学习方法,每个状态-动作都有一个值Q(s,a),对于寻找最佳动作过程中的每一步,智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中,将每个状态-动作的值Q(s,a)视为长期回报的期望,Q(s,a)的更新公式如下所示:
Q(s,a)=r(s,a)+γ*maxQ(s',a') (17)
其中s,表示当前状态和动作,s',a'表示下一个时隙的状态和动作,γ表示学习率,0≤γ≤1;当γ趋于0,agent考虑当前的瞬时回报,当γ趋于1,agent关注未来的回报,对于寻找最佳动作过程中的每一步,迭代每个状态-动作的值Q(s,a)。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,综合考虑了无人机到边缘节点的距离、边缘节点处理能力,切换节点对任务完成时间和能耗的影响,建立了基于边缘计算的无人机目标追踪的系统模型,研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程,基于强化学习中的Q学习设计求解算法对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案,实现任务卸载过程中能量开销和时间开销权衡的最小化,提高无人机目标追踪系统的性能。
附图说明
图1为本发明的流程图;
图2为本发明的场景图;
图3为本发明的无人机路径与边缘节点分布图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的为每个任务选择边缘节点以及调整无人机发射功率使得系统的能量开销和时间开销的权衡最优的问题,提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统。
如图1至图3所示,本发明的实施例提供了一种边缘计算中基于强化学习的无人机任务卸载方法及系统,包括:步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型;步骤2,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程;步骤3,基于强化学习中的Q学习设计求解算法,对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案。
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,研究边缘计算中无人机目标追踪的任务分配决策问题,视频任务从无人机卸载到地面边缘节点进行处理,然后反馈处理结果引导无人机实现成功追踪,综合考虑无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响等因素,建立基于边缘计算的无人机目标追踪的系统模型,将无人机目标追踪的任务分配决策问题建模成马尔可夫决策过程,并设计了基于Q学习的求解算法,得出最佳的边缘节点选择方案和发射功率调整方案,实现任务卸载过程中能量开销和时间开销权衡的最小化。
其中,所述步骤1具体包括:无人机在目标追踪过程中,将拍摄的视频任务卸载到地面边缘节点进行处理,研究无人机在时间T内的工作情况,假设无人机的飞行高度为H(m),无人机的飞行轨迹投影到地面上表示为q(t)∈R2×1,0≤t≤T,时间T被离散成M个时隙,即T=Mδt,其中,δt表示每个时隙的长度,无人机在一个时隙中位置认为是不变的,无人机的轨迹近似离散为一个集合Q={qm,1≤m≤M},其中,qm表示时隙m中无人机的位置,无人机在M个时隙产生的M个任务表示S{s1,s2,…,sM},其中,sm表示第M个任务的数据量大小,单位为bits。
其中,所述步骤1还包括:假定在城市的一片区域里有k个边缘节点,用集合N{n1,n2,n3,…,nk}表示,ni表示第i个边缘节点,边缘节点ni的位置表示为wi∈R2×1,考虑到每个边缘节点的计算能力不同和无人机实时移动,无人机到边缘节点的通信距离为变化的,无人机到每个边缘节点的通信距离不同,无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同,假设在时隙m,将边缘节点ni选择为计算节点,如下所示:
其中,dm,i表示无人机与边缘节点ni之间的距离,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,wi∈R2×1,H表示表示无人机的飞行高度;
准静态块衰落信道遵循自由空间路径损耗模型,无人机和边缘节点之间的信道,如下所示:
其中,所述步骤1还包括:假设发射功率在一个有限的状态空间Pn中调整选择,系统的通信速率R与发射功率和选择边缘节点有关,给定发射功率pm,i和无人机到边缘节点的距离dm,i,选择不同的边缘节点,无人机到边缘节点的距离不同,系统的通信速率如下所示:
其中,Rm,i(pm,i,dm,i)表示系统的通信速率,单位为bps,pm,i表示在时隙m中无人机分配给节点ni的发射功率,B表示信道带宽,σ2表示高斯白噪声功率,表示距离d0=1m时的信噪比,表示无人机和边缘节点之间的信道,β0表示参考距离d0=1m处的信道功率增益,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,H表示表示无人机的飞行高度。
其中,所述步骤1还包括:在无人机进行目标追踪的过程中,无人机将视频任务卸载到边缘节点进行协同处理,无人机进行目标追踪过程的时间开销包括传输时间和计算时间,任务传输时间表示为:其中,Rm,i(pm,i,dm,i)表示系统的通信速率,pm,i表示在时隙m中无人机分配给节点ni的发射功率,dm,i表示无人机与边缘节点ni之间的距离,sm表示第M个任务的数据量大小,单位为bits;将任务sm卸载到边缘节点ni的计算时间为:其中,sm表示第M个任务的数据量大小,w表示处理单位视频任务量需要的CPU周期,单位为周期数/比特,fi表示边缘节点ni的CPU时钟频率,单位为周期数/秒;
假设结果反馈时延是一个固定的很小的值,可以忽略不计,将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和,如下所示:
将从无人机卸载计算任务的能耗开销,如下所示:
其中,所述步骤1还包括:当无人机在时隙m连接的边缘节点与在上一个时隙m-1连接的边缘节点不同时,会带来额外的切换开销,包括能耗开销和时间开销,假设切换过程中的能耗开销,如下所示:
假设切换过程中的一次切换的时间开销,如下所示:
假设在时隙m选择边缘节点ni作为服务节点,决策变量xmi=1,时隙m不选择边缘节点ni作为服务节点,决策变量xmi=0,为联合优化无人机的传输功率和边缘节点的选择机制,最小化无人机能量开销与时间开销的权衡优化问题如下所示:
其中,xmi表示决策变量。
其中,所述步骤2具体包括:无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行,系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成,将无人机在每个时隙m的状态表示为xm=(Nm-1,Am)∈X{1,2,…,k}×{qm,sm},其中,动作空间由选择的执行任务的节点和无人机发射功率的大小构成,ym=(Nm,pm)∈Y{1,2,…,k}×{Pn},其中,Pn表示发射功率可能取值的集合,在每个时隙m开始时对状态xm的观测,无人机遵从静态控制决策从动作空间中选择一个动作,其中,表示卸载节点选择机制,表示发射功率调整策略,系统在一个状态(上一个任务所在执行节点、无人机位置和任务量大小)选择相应的动作(计算节点和发射功率)之后,按照动作转移的概率为1,系统的状态转移概率为1,给定一个决策则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链,如下所示:
其中,所述步骤2还包括:
一个决策规则描述了一个特定时隙的状态进行动作选择的过程,如下所示:
其中,所述步骤3具体包括:使用强化学习解决无人机目标追踪过程中的任务分配决策问题,将回报函数与需要优化的目标函数联系起来,根据优化目标为最小化总开销和强化学习的目标为最大化回报,将回报函数与原始的目标函数设置为负相关,如下所示:
R(x,y)=-C(x,y) (16)
其中,R(x,y)表示瞬时回报,x表示状态,y表示动作。
其中,所述步骤3还包括:为限制动作空间的大小,在学习过程之前对于每个边缘节点,根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,采用Q-learning强化学习方法,每个状态-动作都有一个值Q(s,a),对于寻找最佳动作过程中的每一步,智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中,将每个状态-动作的值Q(s,a)视为长期回报的期望,Q(s,a)的更新公式如下所示:
Q(s,a)=r(s,a)+γ*maxQ(s',a') (17)
其中s,表示当前状态和动作,s',a'表示下一个时隙的状态和动作,γ表示学习率,0≤1;当γ趋于0,agent考虑当前的瞬时回报,当γ趋于1,agent关注未来的回报,对于寻找最佳动作过程中的每一步,迭代每个状态-动作的值Q(s,a)。
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,在强化学习方法中有三个关键要素,即状态、动作、回报,回报:对于寻找最佳动作过程中的每一步来说,agent在状态x下,执行一个可能的动作y后,都会得到一个回报R(x,y),强化学习的目标就是获得最大的回报,一般来说,奖励函数应该与目标函数相关,使用强化学习解决无人机目标追踪过程中的任务分配决策问题,就必须将回报函数与要优化的目标函数联系起来,优化目标是最小化总开销,强化学习的目标是最大化回报,设置的回报函数应该与原始的目标函数成负相关,定义瞬时回报为R(x,y)=-C(x,y),表示加权总开销的相反数,得到最大的回报等同于获得了最小的加权总开销。随着系统规模的增大,卸载决策与无人机发射功率组成的动作的可能取值会急速增长,不利于算法的运行和收敛。为了限制动作空间的大小,在学习过程之前提出了一个预处理步骤,对于每个边缘节点,先根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,在下次迭代过程中就不会再选择这个动作,提高了效率。
本发明的上述实施例所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,考虑到无人机具有移动性,在复杂的电磁环境中,存在信道干扰,信道具有不稳定性,边缘节点的处理能力存在差异性,以及切换节点对任务完成时间和能耗的影响等问题,建立了基于边缘计算的无人机目标追踪的系统模型,研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程,并基于强化学习中的Q学习设计求解算法,得出最佳的边缘节点选择方案和发射功率调整方案,任务卸载过程中能量开销和时间开销权衡的最小化。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,包括:
步骤1,根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型;
步骤2,通过研究无人机目标追踪过程中的任务分配决策问题,将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程;
步骤3,基于强化学习中的Q学习设计求解算法,对无人机目标追踪过程中的任务分配决策问题进行求解,得出最佳的边缘节点选择方案和发射功率调整方案。
2.根据权利要求1所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤1具体包括:
无人机在目标追踪过程中,将拍摄的视频任务卸载到地面边缘节点进行处理,研究无人机在时间T内的工作情况,假设无人机的飞行高度为H(m),无人机的飞行轨迹投影到地面上表示为q(t)∈R2×1,0≤t≤T,时间T被离散成M个时隙,即T=Mδt,其中,δt表示每个时隙的长度,无人机在一个时隙中位置认为是不变的,无人机的轨迹近似离散为一个集合Q={qm,1≤m≤M},其中,qm表示时隙m中无人机的位置,无人机在M个时隙产生的M个任务表示S={s1,s2,…,sM},其中,sm表示第M个任务的数据量大小,单位为bits。
3.根据权利要求1所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤1还包括:
假定在城市的一片区域里有k个边缘节点,用集合N={n1,n2,n3,…,nk}表示,ni表示第i个边缘节点,边缘节点ni的位置表示为wi∈R2×1,考虑到每个边缘节点的计算能力不同和无人机实时移动,无人机到边缘节点的通信距离为变化的,无人机到每个边缘节点的通信距离不同,无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同,假设在时隙m,将边缘节点ni选择为计算节点,如下所示:
其中,dm,i表示无人机与边缘节点ni之间的距离,qm表示时隙m中无人机的位置,wi表示边缘节点ni的位置,wi∈R2×1,H表示表示无人机的飞行高度;
准静态块衰落信道遵循自由空间路径损耗模型,无人机和边缘节点之间的信道,如下所示:
4.根据权利要求3所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤1还包括:
假设发射功率在一个有限的状态空间Pn中调整选择,系统的通信速率R与发射功率和选择边缘节点有关,给定发射功率pm,i和无人机到边缘节点的距离dm,i,选择不同的边缘节点,无人机到边缘节点的距离不同,系统的通信速率如下所示:
5.根据权利要求4所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤1还包括:
在无人机进行目标追踪的过程中,无人机将视频任务卸载到边缘节点进行协同处理,无人机进行目标追踪过程的时间开销包括传输时间和计算时间,任务传输时间表示为:其中,Rm,i(pm,i,dm,i)表示系统的通信速率,pm,i表示在时隙m中无人机分配给节点ni的发射功率,dm,i表示无人机与边缘节点ni之间的距离,sm表示第M个任务的数据量大小,单位为bits;将任务sm卸载到边缘节点ni的计算时间为:其中,sm表示第M个任务的数据量大小,w表示处理单位视频任务量需要的CPU周期,单位为周期数/比特,fi表示边缘节点ni的CPU时钟频率,单位为周期数/秒;
假设结果反馈时延是一个固定的很小的值,可以忽略不计,将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和,如下所示:
将从无人机卸载计算任务的能耗开销,如下所示:
6.根据权利要求5所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤1还包括:
当无人机在时隙m连接的边缘节点与在上一个时隙m-1连接的边缘节点不同时,会带来额外的切换开销,包括能耗开销和时间开销,假设切换过程中的能耗开销,如下所示:
假设切换过程中的一次切换的时间开销,如下所示:
假设在时隙m选择边缘节点ni作为服务节点,决策变量xmi=1,时隙m不选择边缘节点ni作为服务节点,决策变量xmi=0,为联合优化无人机的传输功率和边缘节点的选择机制,最小化无人机能量开销与时间开销的权衡优化问题如下所示:
其中,xmi表示决策变量。
7.根据权利要求6所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤2具体包括:
无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行,系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成,将无人机在每个时隙m的状态表示为xm=(Nm-1,Am)∈X={1,2,…,k}×{qm,sm},其中,动作空间由选择的执行任务的节点和无人机发射功率的大小构成,ym=(Nm,pm)∈Y={1,2,…,k}×{Pn},其中,Pn表示发射功率可能取值的集合,在每个时隙m开始时对状态xm的观测,无人机遵从静态控制决策从动作空间中选择一个动作,其中,表示卸载节点选择机制,表示发射功率调整策略,系统在一个状态(上一个任务所在执行节点、无人机位置和任务量大小)选择相应的动作(计算节点和发射功率)之后,按照动作转移的概率为1,系统的状态转移概率为1,给定一个决策 则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链,如下所示:
9.根据权利要求8所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤3具体包括:
使用强化学习解决无人机目标追踪过程中的任务分配决策问题,将回报函数与需要优化的目标函数联系起来,根据优化目标为最小化总开销和强化学习的目标为最大化回报,将回报函数与原始的目标函数设置为负相关,如下所示:
R(x,y)=-C(x,y) (16)
其中,R(x,y)表示瞬时回报,x表示状态,y表示动作。
10.根据权利要求9所述的边缘计算中基于强化学习的无人机任务卸载方法及系统,其特征在于,所述步骤3还包括:
为限制动作空间的大小,在学习过程之前对于每个边缘节点,根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内,如果不满足条件,则在第一次选到这个边缘节点时,将与该边缘节点有关的动作的Q值设置为一个很小的值,采用Q-learning强化学习方法,每个状态-动作都有一个值Q(s,a),对于寻找最佳动作过程中的每一步,智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中,将每个状态-动作的值Q(s,a)视为长期回报的期望,Q(s,a)的更新公式如下所示:
Q(s,a)=r(s,a)+γ*maxQ(s',a') (17)
其中s,a表示当前状态和动作,s',a'表示下一个时隙的状态和动作,γ表示学习率,0≤γ≤1;当γ趋于0,agent考虑当前的瞬时回报,当γ趋于1,agent关注未来的回报,对于寻找最佳动作过程中的每一步,迭代每个状态-动作的值Q(s,a)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010675018.7A CN111787509B (zh) | 2020-07-14 | 2020-07-14 | 边缘计算中基于强化学习的无人机任务卸载方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010675018.7A CN111787509B (zh) | 2020-07-14 | 2020-07-14 | 边缘计算中基于强化学习的无人机任务卸载方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111787509A true CN111787509A (zh) | 2020-10-16 |
CN111787509B CN111787509B (zh) | 2021-11-02 |
Family
ID=72767761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010675018.7A Active CN111787509B (zh) | 2020-07-14 | 2020-07-14 | 边缘计算中基于强化学习的无人机任务卸载方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111787509B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835715A (zh) * | 2021-02-01 | 2021-05-25 | 哈尔滨工业大学(深圳) | 基于强化学习的无人机任务卸载策略的确定方法和装置 |
CN112911648A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种空地结合的移动边缘计算卸载优化方法 |
CN112911618A (zh) * | 2021-01-29 | 2021-06-04 | 重庆邮电大学 | 一种基于资源退出场景的无人机服务器任务卸载调度方法 |
CN112929849A (zh) * | 2021-01-27 | 2021-06-08 | 南京航空航天大学 | 一种基于强化学习的可靠车载边缘计算卸载方法 |
CN113242556A (zh) * | 2021-06-04 | 2021-08-10 | 重庆邮电大学 | 一种基于差异化服务的无人机资源动态部署方法 |
CN113534829A (zh) * | 2021-06-11 | 2021-10-22 | 南京邮电大学 | 一种基于边缘计算的无人机日常巡逻检测系统 |
CN113626107A (zh) * | 2021-08-20 | 2021-11-09 | 中南大学 | 移动计算卸载方法、系统及存储介质 |
CN113660508A (zh) * | 2021-07-16 | 2021-11-16 | 国家石油天然气管网集团有限公司西气东输分公司 | 面向智能视频识别的多边缘计算设备协作任务分配算法 |
CN114172558A (zh) * | 2021-11-24 | 2022-03-11 | 上海大学 | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 |
CN114520991A (zh) * | 2022-01-27 | 2022-05-20 | 重庆邮电大学 | 基于无人机集群的边缘网络自适应部署方法 |
CN114546660A (zh) * | 2022-03-01 | 2022-05-27 | 重庆邮电大学 | 一种多无人机协作边缘计算方法 |
CN114979135A (zh) * | 2022-04-22 | 2022-08-30 | 福建师范大学 | 基于移动边缘计算的无人机飞行高度和任务分配控制方法 |
KR20230094893A (ko) * | 2021-12-21 | 2023-06-28 | 경희대학교 산학협력단 | 태스크 오프로딩을 지원하는 무인 항공기 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109588059A (zh) * | 2016-05-13 | 2019-04-05 | 瑞典爱立信有限公司 | 用于无线通信网络的网络架构、方法和设备 |
CN110113195A (zh) * | 2019-04-26 | 2019-08-09 | 山西大学 | 一种移动边缘计算系统中联合卸载判决和资源分配的方法 |
US20190319868A1 (en) * | 2019-06-25 | 2019-10-17 | Intel Corporation | Link performance prediction technologies |
CN110536308A (zh) * | 2019-08-07 | 2019-12-03 | 中科边缘智慧信息科技(苏州)有限公司 | 一种基于博弈的多节点计算卸载方法 |
CN110553629A (zh) * | 2019-09-20 | 2019-12-10 | 中南大学 | 一种基于边缘计算的无人机目标追踪功耗优化方法及系统 |
CN111405568A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于q学习的计算卸载和资源分配方法及装置 |
-
2020
- 2020-07-14 CN CN202010675018.7A patent/CN111787509B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109588059A (zh) * | 2016-05-13 | 2019-04-05 | 瑞典爱立信有限公司 | 用于无线通信网络的网络架构、方法和设备 |
CN110113195A (zh) * | 2019-04-26 | 2019-08-09 | 山西大学 | 一种移动边缘计算系统中联合卸载判决和资源分配的方法 |
US20190319868A1 (en) * | 2019-06-25 | 2019-10-17 | Intel Corporation | Link performance prediction technologies |
CN110536308A (zh) * | 2019-08-07 | 2019-12-03 | 中科边缘智慧信息科技(苏州)有限公司 | 一种基于博弈的多节点计算卸载方法 |
CN110553629A (zh) * | 2019-09-20 | 2019-12-10 | 中南大学 | 一种基于边缘计算的无人机目标追踪功耗优化方法及系统 |
CN111405568A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于q学习的计算卸载和资源分配方法及装置 |
Non-Patent Citations (4)
Title |
---|
FENGZENG YONGZHENGREN XIAOHENGDENG: "Cost-Effective Edge Server Placement in Wireless Metropolitan Area Networks", 《SENSORS》 * |
XIANFU CHEN: "Optimized Computation Offloading Performance in Virtual Edge Computing Systems Via Deep Reinforcement Learning", 《IEEE INTERNET OF THINGS JOURNAL》 * |
ZHUFANG KUANG; GANG LIU; GONGQIANG LI;XIAOHENG DENG: "Energy Efficient Resource Allocation Algorithm in Energy Harvesting-Based D2D Heterogeneous Networks", 《IEEE INTERNET OF THINGS JOURNAL》 * |
邓晓衡: "基于综合信任的边缘计算资源协同研究", 《计算机研究与发展》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911648A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种空地结合的移动边缘计算卸载优化方法 |
CN112929849B (zh) * | 2021-01-27 | 2022-03-01 | 南京航空航天大学 | 一种基于强化学习的可靠车载边缘计算卸载方法 |
CN112929849A (zh) * | 2021-01-27 | 2021-06-08 | 南京航空航天大学 | 一种基于强化学习的可靠车载边缘计算卸载方法 |
CN112911618A (zh) * | 2021-01-29 | 2021-06-04 | 重庆邮电大学 | 一种基于资源退出场景的无人机服务器任务卸载调度方法 |
CN112911618B (zh) * | 2021-01-29 | 2022-05-03 | 重庆邮电大学 | 一种基于资源退出场景的无人机服务器任务卸载调度方法 |
CN112835715A (zh) * | 2021-02-01 | 2021-05-25 | 哈尔滨工业大学(深圳) | 基于强化学习的无人机任务卸载策略的确定方法和装置 |
CN113242556A (zh) * | 2021-06-04 | 2021-08-10 | 重庆邮电大学 | 一种基于差异化服务的无人机资源动态部署方法 |
CN113534829A (zh) * | 2021-06-11 | 2021-10-22 | 南京邮电大学 | 一种基于边缘计算的无人机日常巡逻检测系统 |
CN113534829B (zh) * | 2021-06-11 | 2024-04-05 | 南京邮电大学 | 一种基于边缘计算的无人机日常巡逻检测系统 |
CN113660508B (zh) * | 2021-07-16 | 2024-06-04 | 国家石油天然气管网集团有限公司西气东输分公司 | 面向智能视频识别的多边缘计算设备协作任务分配算法 |
CN113660508A (zh) * | 2021-07-16 | 2021-11-16 | 国家石油天然气管网集团有限公司西气东输分公司 | 面向智能视频识别的多边缘计算设备协作任务分配算法 |
CN113626107A (zh) * | 2021-08-20 | 2021-11-09 | 中南大学 | 移动计算卸载方法、系统及存储介质 |
CN113626107B (zh) * | 2021-08-20 | 2024-03-26 | 中南大学 | 移动计算卸载方法、系统及存储介质 |
CN114172558B (zh) * | 2021-11-24 | 2024-01-19 | 上海大学 | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 |
CN114172558A (zh) * | 2021-11-24 | 2022-03-11 | 上海大学 | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 |
KR102639494B1 (ko) | 2021-12-21 | 2024-02-23 | 경희대학교 산학협력단 | 태스크 오프로딩을 지원하는 무인 항공기 및 방법 |
KR20230094893A (ko) * | 2021-12-21 | 2023-06-28 | 경희대학교 산학협력단 | 태스크 오프로딩을 지원하는 무인 항공기 및 방법 |
WO2023120773A1 (ko) * | 2021-12-21 | 2023-06-29 | 경희대학교 산학협력단 | 태스크 오프로딩을 지원하는 무인 항공기 및 방법 |
CN114520991B (zh) * | 2022-01-27 | 2023-07-28 | 重庆邮电大学 | 基于无人机集群的边缘网络自适应部署方法 |
CN114520991A (zh) * | 2022-01-27 | 2022-05-20 | 重庆邮电大学 | 基于无人机集群的边缘网络自适应部署方法 |
CN114546660A (zh) * | 2022-03-01 | 2022-05-27 | 重庆邮电大学 | 一种多无人机协作边缘计算方法 |
CN114979135B (zh) * | 2022-04-22 | 2023-05-12 | 福建师范大学 | 基于移动边缘计算的无人机飞行高度和任务分配控制方法 |
CN114979135A (zh) * | 2022-04-22 | 2022-08-30 | 福建师范大学 | 基于移动边缘计算的无人机飞行高度和任务分配控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111787509B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111787509B (zh) | 边缘计算中基于强化学习的无人机任务卸载方法及系统 | |
CN110553629B (zh) | 一种基于边缘计算的无人机目标追踪功耗优化方法及系统 | |
CN114650567B (zh) | 一种无人机辅助v2i网络任务卸载方法 | |
CN113254188B (zh) | 调度优化方法和装置、电子设备及存储介质 | |
CN115640131A (zh) | 一种基于深度确定性策略梯度的无人机辅助计算迁移方法 | |
CN111935303A (zh) | 空地一体化车联网中基于意图感知的任务卸载方法 | |
CN112929849B (zh) | 一种基于强化学习的可靠车载边缘计算卸载方法 | |
CN114169234A (zh) | 一种无人机辅助移动边缘计算的调度优化方法及系统 | |
WO2022242468A1 (zh) | 任务卸载方法、调度优化方法和装置、电子设备及存储介质 | |
CN115190033B (zh) | 一种基于强化学习的云边融合网络任务卸载方法 | |
CN113282352A (zh) | 基于多无人机协同辅助边缘计算的节能卸载方法 | |
CN116257335A (zh) | 无人机辅助mec系统联合任务调度及运动轨迹优化方法 | |
CN116887355A (zh) | 一种多无人机公平协作和任务卸载优化方法及系统 | |
CN116436512A (zh) | 一种ris辅助通信的多目标优化方法、系统及设备 | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN115833907A (zh) | 多无人机辅助mec系统中联合轨迹、卸载和资源分配优化方法 | |
Lin et al. | Computing assistance from the sky: Decentralized computation efficiency optimization for air-ground integrated MEC networks | |
Wang et al. | Digital twin-enabled computation offloading in UAV-assisted MEC emergency networks | |
CN117580105A (zh) | 一种面向电网巡检的无人机任务卸载优化方法 | |
CN116208968B (zh) | 基于联邦学习的轨迹规划方法及装置 | |
CN116737391A (zh) | 一种联邦模式下基于混合策略的边缘计算协作方法 | |
CN111930435A (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN115580900A (zh) | 一种基于深度强化学习的无人机辅助协作式任务卸载方法 | |
CN113950059B (zh) | 一种无人机中继辅助用户任务卸载的方法及系统 | |
CN115129387A (zh) | 一种基于多策略自适应蝙蝠算法的计算卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |