CN115499441A - 超密集网络中基于深度强化学习的边缘计算任务卸载方法 - Google Patents

超密集网络中基于深度强化学习的边缘计算任务卸载方法 Download PDF

Info

Publication number
CN115499441A
CN115499441A CN202211124116.7A CN202211124116A CN115499441A CN 115499441 A CN115499441 A CN 115499441A CN 202211124116 A CN202211124116 A CN 202211124116A CN 115499441 A CN115499441 A CN 115499441A
Authority
CN
China
Prior art keywords
task
representing
reinforcement learning
communication base
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211124116.7A
Other languages
English (en)
Inventor
张茜
戚续博
张聪
崔勇
王洪格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyuan University of Technology
Original Assignee
Zhongyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyuan University of Technology filed Critical Zhongyuan University of Technology
Priority to CN202211124116.7A priority Critical patent/CN115499441A/zh
Publication of CN115499441A publication Critical patent/CN115499441A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,步骤为:构建超密集网络边缘计算模型的在线计算卸载问题;将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,得到每个时隙的任务卸载决策。本发明基于马尔科夫决策过程提出的策略可以长期最小化任务处理时延和能耗,基于优先级采样的任务卸载策略可以在动态的网络环境中作出累计奖励更大的决策,获得更好的系统性能。

Description

超密集网络中基于深度强化学习的边缘计算任务卸载方法
技术领域
本发明涉及移动边缘计算(Mobile Edge Computing,MEC)的技术领域,尤其涉及一种超密集网络中基于深度强化学习的边缘计算任务卸载方法。
背景技术
智能设备和以5G为代表的网络通信技术的快速发展,催生了一大批时延敏感型和计算密集型应用的诞生,包括AR和VR技术、无人驾驶、智慧医疗等。这类应用不仅对用户设备计算能力和存储空间要求更高,同时对网络时延要求更加苛刻。移动边缘计算(MobileEdge Computing)通过在更加靠近用户设备位置部署边缘服务器,将云计算的存储和计算能力边缘化,可以有效降低用户感知时延和设备能耗。此外,相比于远程云的数据传输,在更加靠近用户的位置进行数据处理,可以有效降低服务延迟,避免了远程数据传输可能带来的通信安全性,保证用户体验质量(QoE)。在超密集网络环境中,多个配备高性能服务器的小型蜂窝基站密集部署,这些服务器充当服务节点,提供存储和计算服务。然而,由于边缘服务器的可用资源有限,因此需要结合设备和当前网络环境设计一种高效的任务卸载方案,决定将计算任务放置在本地或是可连接服务器上进行计算,以最小化任务处理时延和设备能耗。
目前已有大量关于边缘计算任务卸载策略的研究,但是许多研究场景设定过于静态化,例如对用户随机移动性考虑不足、由于用户移动引起的基站信号覆盖范围变化带来的服务器切换问题以及用户设备资源可调节情况。Chen等推导了一个基于双深度Q网络的算法,通过考虑信道条件是时变的来找到一个最优策略,以最大化计算服务的长期效用。Xu等考虑了边缘服务器的计算能力是可以调整的,并且提出了一种有效的基于强化学习的资源管理算法,以最小化移动边缘计算的成本。但是以上研究并没有考虑用户的移动性,在他们的模型中用户始终处于静止的状态,这在现实生活中显然是不合实际的。Gao等共同考虑了接入网络和服务放置问题,设计了一个在线卸载框架,通过平衡接入延迟、通信延迟和服务迁移延迟来提高服务质量。Shen等提出一种非随机在线学习方法,解决了超密集网络的移动性问题,并最小化长期能耗。然而,这些研究主要关注设计以系统为中心的优化管理,其中调度程序具有全面的信息。现实应用中,由于网络的动态性、任务到达的不确定性和由于用户移动所带来的服务器切换,具体的信息是不可预知的。
基于以上分析,在超密集网络场景下,结合强化学习强大的环境交互和学习能力以及深度神经网络强大的表示能力,研究随机移动用户的任务卸载问题。
发明内容
针对现有任务卸载方法没有考虑用户的移动性和网络的动态性的技术问题,本发明提出一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,同时考虑用户移动性、通信网络时变特性、用户设备CPU频率可调节、服务器切换等因素,且可以有效减少任务总的处理时延和能耗,具有实时性。
为了达到上述目的,本发明的技术方案为:一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,其步骤如下:
步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题;
步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;
步骤三:初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;
步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;
步骤五:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的任务卸载决策。
所述步骤一种的本地计算模型的计算延迟
Figure BDA0003847623020000021
为:
Figure BDA0003847623020000022
本地计算模型的能耗
Figure BDA0003847623020000023
为:
Figure BDA0003847623020000024
其中,u是移动设备的有效开关电容,
Figure BDA0003847623020000025
表示移动设备的CPU频率,Ct为完成任务所需要的CPU周期数;
所述边缘计算模型包括设备上t时隙生成的任务ωt的计算延迟Lt、t时隙内的能量消耗Et和设备剩余能量
Figure BDA0003847623020000026
且任务ωt的计算延迟为:
Figure BDA0003847623020000027
其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0;
且t时隙内卸载决策
Figure BDA0003847623020000028
Figure BDA0003847623020000029
为时隙t内可用的通信基站的集合;N={1,2,3,…n}为通信基站的集合,n表示通信基站的总数;
Figure BDA0003847623020000031
为传输任务ωt的输入数据到第i个通信基站产生的延迟,It表示任务ωt的输入数据大小,
Figure BDA0003847623020000032
为设备与第i个通信基站之间的上行链路传输速率;
Figure BDA0003847623020000033
为第i个通信基站执行任务ωt产生的延迟;i∈{1,2,3,…n},fi表示在通信基站i附近配置的边缘服务器最大的CPU频率;
能量消耗为:
Figure BDA0003847623020000034
其中,
Figure BDA0003847623020000035
为设备传输任务ωt的输入数据到第i个通信基站产生的能量消耗;
剩余能量的更新公式为:
Figure BDA0003847623020000036
其中,
Figure BDA0003847623020000037
表示t时隙内设备剩余能量,
Figure BDA0003847623020000038
表示t+1时隙内设备剩余电量,Et表示t时隙内的能量消耗。
所述设备与第i个通信基站之间的上行链路传输速率
Figure BDA0003847623020000039
其中,Wi表示信道带宽,
Figure BDA00038476230200000310
表示t时隙上第i个通信基站的平均干扰功率,
Figure BDA00038476230200000311
表示移动设备与通信基站BSi间的信道增益,
Figure BDA00038476230200000312
为设备的发射功率。
所述设备传输任务ωt的输入数据到通信基站BSi产生的能量消耗
Figure BDA00038476230200000313
所述线计算卸载问题为:
Figure BDA00038476230200000314
s.t.
Figure BDA00038476230200000315
ot∈{0}∪kt,
Figure BDA00038476230200000316
Figure BDA00038476230200000317
其中,T表示总的时隙数,F表示可选择的本地设备CPU频率的集合。
所述步骤二中最优计算卸载控制策略的问题为:将计算卸载控制策略π:S→A定义为从状态St到动作at的映射,即π(St)=at;在状态St∈S下,根据给定的计算卸载控制策略π选择执行的动作
Figure BDA00038476230200000318
获得一个最优计算卸载控制策略π*,以最大化设备移动过程中获得的长期累积奖励:
Figure BDA00038476230200000319
s.t.
Figure BDA0003847623020000041
at∈At,
Figure BDA0003847623020000042
且即时奖励rt=ω1Lt2Et;其中,ω12分别为计算时延和能量消耗的权重系数;动作空间At=({0}*F∪kt*{0});γ表示奖励折损因子且γ∈{0,1}。
所述深度强化学习模型的训练方法为:
步骤1:根据当前时隙的系统状态,结合当前深度神经网络参数并使用ε-greedy贪婪策略决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励;
步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池;
步骤3:基于概率p(j)从求和树SumTree中采样样本,计算采样样本的TD误差和权重系数;
步骤4:根据TD误差和权重系数计算累积权重变化,迭代结束后,更新网络参数,重置权重变化;
步骤5:更新权重和目标Q网络参数,直到即时奖励完成收敛。
所述系统状态包括设备剩余电量、用户连接情况、设备与每个通信基站之间的信道增益、系统随机生成的具体待处理任务信息;系统状态用一个四元组
Figure BDA0003847623020000043
表示,其中,
Figure BDA0003847623020000044
表示设备剩余电量,σt表示用户的连接情况,
Figure BDA0003847623020000045
表示设备与通信基站之间的信道增益,
Figure BDA0003847623020000046
表示设备与第x个通信基站之间的信道增益;ψt表示具体的计算任务信息且ψt={It,Ct},It表示任务ωt的输入数据大小,Ct表示完成任务ωt所需要的CPU周期数;
对每个时隙t∈T,初始化状态S,得到状态向量φ(S);T为迭代轮数;在当前网络Q中输入状态向量φ(S),根据ε-greedy策略输出系统动作
Figure BDA0003847623020000047
ot表示t时隙内卸载决策,
Figure BDA0003847623020000048
表示设备的CPU频率;即时奖励rt为时延和能耗的线性函数:rt=ω1Lt2Et,其中,Lt表示设备上t时隙生成任务ωt的计算延迟,Et表示t时隙内的能量消耗,ω12分别为计算时延和能量消耗的权重系数。
所述概率
Figure BDA0003847623020000049
其中,pj和pi分别表示样本j和任意样本l的优先级,α为优先级指数;
优先级pj=|δj|+ε,其中,δj为样本j的TD误差,误差ε是一个非常小的正常数。
所述采样样本的权重系数为:
ωj=(O*p(j))/maxlωl
其中,ωj表示权重系数,O代表经验池大小,β表示非均匀概率补偿系数;
采样样本的TD误差为:δj=RjjQtarget(Sj,argmaxaQ(Sj,a))-Q(Sj-1,Aj-1);其中,Rj表示奖励,γj表示采样样本j的奖励折损因子,Qtarget表示目标网络,Q表示当前网络,Sj表示采样样本j的状态,a表示采取的动作,Aj-1表示采样样本j上一步采取的动作。
所述累积权重变化:
Figure BDA0003847623020000051
其中,
Figure BDA0003847623020000052
表示梯度下降更新参数;
迭代结束后,更新参数θ←θ+η*Δ,重置累积权重变化Δ=0。
所述步骤5中若T%C=1,更新目标网络参数Qtarget←θ,C为参数更新频率;
智能体在状态下选择动作获得奖励总和为:
Figure BDA0003847623020000053
上式中,奖励折扣因子γ∈[0,1],Rt+1为t时间步所获环境奖励值;
基于策略π,采用动作at,则状态st下动作价值函数为:Qπ(s,a)=Eπ[Gt|st=s,at=a],Eπ表示求s状态下根据策略π选择动作at以后,产生的累积奖励值的期望,Gt表示从时间t开始带折扣的奖励总和。
本发明的有益效果:本发明考虑到动态网络环境与用户移动性等不确定性因素,基于优先级采样改进的双DQN网络,在没有任何先知因素的条件下,首先将问题转化为马尔科夫决策过程,并设计状态空间、动作空间和奖励函数,同时优化设备CPU频率;将用户移动性和网络切换延迟考虑在内,将这两个影响用户卸载决策的关键因素加入状态向量,不同于现有的强化学习算法,在样本选择时按照随机采样的方式,考虑不同的样本重要性是不同的,因此通过计算TD误差,赋予不同经验样本以优先级,便于加快网络学习训练。实验结果表明,基于马尔科夫决策过程提出的策略可以长期最小化任务处理时延和能耗,基于优先级采样的任务卸载策略可以在动态的网络环境中作出累计奖励更大的决策,获得更好的系统性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明超密集网络边缘计算模型的示意图。
图3为本发明不同学习率下累计奖励的对比图。
图4为本发明不同大小优先级采样样本池中累计奖励的对比图。
图5为本发明不同缓冲区大小的累计奖励的对比图。
图6为三种方法的回报对比图。
图7为SumTree的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对边缘计算研究忽略通信网络时变特性以及用户移动性而导致的场景过于静态化的技术问题。考虑了一个具有多个基站的超密集网络环境中的边缘计算任务卸载场景,移动用户设备上连续生成待处理的异构计算任务,用户没有任何先验信息。为了解决这一问题,本发明提出一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,如图1所示,实施步骤如下:
步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题。
超密集网络边缘计算模型图如图2所示,一个移动设备MD(Mobile Device)用户在超密集网络环境中移动,运动过程中设备会不断地有异构计算任务生成,这意味着用户在移动过程中,一直有任务需要进行处理且时刻都处在蜂窝基站的信号覆盖范围内,但是由于用户的移动性,可能会造成信号基站的切换。用户运动轨迹周围密集部署的有通信基站BS,定义通信基站BS的集合N={1,2,3,…n},其中,n表示通信基站的总数。对于每一个通信基站BSi∈N,其中i∈{1,2,3,…n},附近都会部署一个边缘服务器为用户提供计算存储服务,且该服务器的计算能力足以完成不同时隙卸载到上面的用户任务。部署在通信基站BSi附近的边缘服务器最大的CPU频率记为fi,每个通信基站BS间通过光纤进行连接,为了便于描述边缘计算的在线任务卸载,将用户的通信时间离散为等间隔的时隙,记为Τ={1,2,3…t},其中,t表示时隙的总数。
使用一个二元组来描述时隙t移动设备上生成的任务,记为ωt={It,Ct},其中,It表示任务ωt的输入数据大小,Ct表示完成任务所需要的CPU周期数。对于任务的卸载情况,采用二进制的任务卸载策略,即用户可以选择将任务放在本地或者是卸载到移动设备MD目前可连接的基站附近配置的边缘服务器上进行处理,设备的计算能力和电量都是有限的。此外,假设移动设备MD的计算能力是可调节的,具体表现为设备CPU频率可调节,但是远远低于边缘服务器的计算能力;用户移动期间的总能耗不超过移动设备MD开始时设备电池剩余电量。
由于通信基站BS的信号覆盖范围有限以及用户移动的不确定性,因此在时隙t内仅有几个可用的通信基站BSs与移动设备MD相连,记为
Figure BDA00038476230200000710
而用户与通信基站BSi∈kt间的信道增益hi t是时变的且与二者之间的距离有关。为了方便起见,设定用户位置与无线信道条件在每个时隙内是不变的。为了最小化移动设备MD任务处理时延和系统能耗,用户需要在时隙t内及时作出卸载决策,使用ot来表示卸载决策,具体的:
Figure BDA0003847623020000071
如果在时隙t用户选择将任务在本地设备计算,即ot=0。用户可以进一步调节设备的CPU频率来节省能耗,设定有几个可以选择的离散等级,根据DVFS(动态电压与频率调节)技术来调整芯片电压。结合移动设备的CPU频率和完成任务所需要的CPU周期数,本地计算模型的计算延迟可以表示为:
Figure BDA0003847623020000072
相应地,根据移动设备选择的CPU频率和计算延迟
Figure BDA0003847623020000073
本地计算模型的能耗模型如下:
Figure BDA0003847623020000074
其中,u是有效开关电容,取决于设备的芯片结构。
Figure BDA0003847623020000075
表示设备的CPU频率。
如果用户在时隙t决定将任务ωt卸载到已经连接的通信基站BSi,即卸载决策(ot=i∈kt),任务ωt所需输入数据It的传输会产生一定的延迟和能耗,定义移动设备发射功率为
Figure BDA0003847623020000076
结合以上定义,移动设备MD和通信基站BSi之间的上行链路传输速率可以定义为:
Figure BDA0003847623020000077
其中,Wi表示信道带宽,
Figure BDA0003847623020000078
表示时隙t上第i个通信基站BSi的平均干扰功率,
Figure BDA0003847623020000079
表示移动设备与通信基站BSi间的信道增益。It表示任务ωt的输入数据大小,因此传输任务ωt的输入数据到通信基站BSi产生的延迟为:
Figure BDA0003847623020000081
由于任务在边缘服务器上处理完成以后,返回给移动设备的数据量远远小于输入的数据量,因此不考虑这部分时延。设备传输任务输入数据到通信基站BSi产生的能量消耗记为:
Figure BDA0003847623020000082
接收到任务ωt后,通信基站BSi执行任务ωt产生的延迟记为:
Figure BDA0003847623020000083
结合以上分析,任务ωt的计算延迟为:
Figure BDA0003847623020000084
其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0。除此之外,设备能量消耗记为:
Figure BDA0003847623020000085
设备电量的更新公式为:
Figure BDA0003847623020000086
其中,
Figure BDA0003847623020000087
表示t时刻的用户设备剩余电量,
Figure BDA0003847623020000088
表示t+1时刻设备剩余电量,Et表示t时隙内的电量消耗。
本发明考虑如下场景,一个移动设备用户在超密集网络中不断移动,且移动设备MD会持续生成异构计算任务,用户事先没有任何先知的信息,系统需要在每个时隙内为用户制定一个最佳的任务卸载策略,最小化总的任务完成时延和能耗。特别地,在每个时隙中,用户需要选择是否将任务通过通信基站BS卸载到边缘服务器执行。如果用户选择在本地执行计算任务,设备的CPU频率需要认真规划,否则就需要选择一个可连接的通信基站BS进行任务卸载,所研究的在线计算卸载问题描述如下:
Figure BDA0003847623020000089
s.t.
Figure BDA00038476230200000810
ot∈{0}∪kt,
Figure BDA00038476230200000811
Figure BDA00038476230200000812
其中,T表示总的时隙数。
该问题是一个耦合约束的多目标优化问题。在时延和能耗之间,有一个自然的平衡,即是否选择使用较大的CPU频率来减少任务完成时延,但是会消耗更大的能量。尽管长期以来边缘计算系统的所有特性是先验的(如用户轨迹、任务生成),但是由于边缘计算系统的NP难度,该问题仍然是难以解决的。特别地,用户的剩余电量、连接情况、随机移动性和网络动态变化都在模型的考虑范围内,由以上信息组合成的用户状态样本空间巨大。
步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题。
基于以上分析,结合神经网络强大的表示能力以及深度强化学习应对随机和动态环境的能力,本发明为了采用强化学习,首先将在线计算卸载问题重新定义为马尔科夫决策过程。
典型的马尔科夫决策过程由一个五元组表示,即<S,A,P,R,γ>,S表示状态空间,A表示动作空间,P表示状态转移概率,R表示智能体Agent采取行动之后环境给予的即时回馈,γ表示奖励折损因子且γ∈{0,1}。针对用户长期在线计算卸载决策的过程,将在线计算卸载问题重新定义为一个控制策略,首先定义MDP(Markov decision process)模型中各个参数的定义。
状态空间S中的每个状态由智能体从环境中观察到的一些信息组成,在MDP模型中,每个状态空间由四个元素组成,设备的剩余电量、用户的连接情况、设备与每个通信基站BS之间的信道增益以及具体的计算任务信息。在一个时隙t内,状态用一个向量进行表示,即
Figure BDA0003847623020000091
其中
Figure BDA0003847623020000092
表示可连接通信基站BS集合,同时这些通信基站BSs具有正的信道公益增率,而其他通信基站BSs的信道功率增益设置为零。其中,σt表示用户设备可连接的基站情况,ψt表示具体的计算任务信息且ψt={It,Ct},It表示任务ωt的输入数据大小,Ct表示完成任务所需要的CPU周期数。
Figure BDA0003847623020000093
表示设备与每个通信基站BS之间的信道增益,
Figure BDA0003847623020000094
其中di是用户设备和通信基站BSi之间的距离,β是路径损耗指数,设置为3。
Figure BDA0003847623020000095
Figure BDA0003847623020000096
的具体计算方式,只有当设备与服务器i可连接时才有信道增益值,通过公式
Figure BDA0003847623020000097
计算得到,否则为0。i与x相同,下标x表示边缘服务器的数量且等于基站的数量n。
动作空间:在每个时隙t内,用户需要去采取一个动作at∈At
Figure BDA0003847623020000098
包括任务卸载决策和调度的CPU频率。基于目前的状态St和动作,时隙t内可能的动作空间At=({0}*F∪kt*{0}),F表示可选择的本地设备CPU频率集合。值得说明的是,当用户在选择在本地计算时,传输功率为0,当用户选择在执行时,此时的CPU频率为0。
奖励函数:当用户在状态空间St下采取完动作at后,用户将会从环境中接收到一个奖励rt,为了最大化用户长期效益,节省资源和能耗,将奖励定义为:
rt=ω1Lt2Et (10)
其中,ω12分别为时延和能耗的权重,表示时延和能耗在用户考虑中的不同重要性。
根据上述MDP模型,可将在线计算卸载问题转化为寻找最优计算卸载控制策略的问题,使用户获得的长期折现累积报酬最大化。特别地,给出了控制策略的定义和重新制定的问题如下。
一种计算卸载控制策略π:S→A定义为从状态St到动作at的映射,即π(St)=at。特别的是,用户基于观察到的环境基础上,在状态
Figure BDA0003847623020000101
根据给定的计算卸载控制策略π选择执行的动作
Figure BDA0003847623020000102
用户旨在获得一个最优计算卸载控制策略π*,以最大化移动设备移动过程中获得的长期累积奖励,即:
Figure BDA0003847623020000103
s.t.
Figure BDA0003847623020000104
at∈At,
Figure BDA0003847623020000105
步骤三:初始化深度强化学习模型的深度Q网络中的当前网络和目标网络、经验池大小以及优先级。
深度Q网络DQN使用神经网络来近似逼近动作的值,有效避免了维数灾难,解决了Q-learning应对高维空间的局限性。在所提出的应用场景中,状态空间是无限的,因为设备的剩余电量、无线信道增益都在变化,产生的计算任务也是异构的。特别的,相比于原始的随机从经验池中随机抽取一批经验,本发明选用优先级采样的方式从经验池中选取样本来训练目标网络,一方面经验池的大小有限,为了避免有些重要的数据还未被利用就被丢弃,其次,可以提升训练速度。基于在线网络输出的估计动作值与目标网络输出的目标动作值之间的损失,可以学习更好的参数θ,利用参数θ异步更新目标网络的。经过几次新经验的训练,在线网络的性能将逐渐提高,并收敛到最优控制策略。
在从环境中观察到的当前状态St后,用户首先将其输入到在线网络。在线网络设计为具有两个隐藏层,采用全连接方式的神经网络。输入层的状态用一个向量
Figure BDA0003847623020000106
进行表示,每一个元素Qk表示在状态St下、采取动作ak的值,动作ak∈At=({0}*F∪kt*{0})。本发明还额外加入了Relu函数给每个隐藏层的节点,来近似状态和动作之间的非线性关系。通常,在线网络输出的具有最大值的动作会被用户选择执行。
输入系统场景初始化参数:当前网络Q,目标网络Qtarget,批量梯度下降的样本数k,目标网络Qtarget的参数更新频率C,指数α和β(指数α决定使用优先级的多少,当α=0时是均匀随机采样的情况),迭代轮数T,经验池大小O。初始化经验池
Figure BDA0003847623020000111
累计权重变化Δ=0,优先级p1=1。
步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型。
获取当前时隙的系统状态:包括设备的剩余电量、用户的连接情况、设备与每个通信基站BS(Base Station通信基站)之间的信道增益以及具体的计算任务信息。
将定义的系统状态输入至深度强化学习模型中,得到系统动作。系统动作即在每个时隙中,对于待处理的计算任务,系统选择将任务放置在设备本地进行处理或者是卸载到当前可连接的第i号服务器上。
所述深度强化学习模型的训练方法为:
步骤1:针对当前时隙观测到的系统状态,结合当前深度神经网络参数并使用ε-greedy贪婪策略(即每次都选取Q值最大的动作作为输出)决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励。
系统状态包括设备剩余电量、用户连接情况、设备与每个BS之间的信道增益、系统随机生成的具体待处理任务信息。系统状态用一个四元组
Figure BDA0003847623020000112
进行表示,其中,
Figure BDA0003847623020000113
表示设备剩余电量,σt表示用户的连接情况,σt={0,1,0,0,1…n},其中1表示可连接,0表示无法连接。
Figure BDA0003847623020000114
表示设备与每个通信基站BS之间的信道增益,ψt表示具体的计算任务信息,
对每个时隙t∈T,初始化状态S,得到状态向量φ(S)。
对于Episode(训练回合)中的每一步:
在当前网络Q中输入状态向量φ(S),根据ε-greedy策略(每次Q值最大的动作a,即argmax(Q(a,s)))输出动作值
Figure BDA0003847623020000115
执行动作at后,结合新的四元组数据信息,得到状态st+1,将四个数据封装成四元组,得到对应状态向量φ(St+1)、即时奖励rt以及终止变量is_end,变量累加与设定的循环次数比较得到终止变量is_end。
定义的即时奖励rt为时延和能耗的线性函数:rt=ω1Lt2Et,其中,ω12作为权重,数值取0-1之间的任意常数且ω12=1,表示时延和能耗在用户考虑中的不同重要性。
步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池。
将经验(φ(S),at,rt,φ(St+1),is_end)以最大优先级maxi<tpi存储于经验池
Figure BDA0003847623020000124
且St←St+1
从存储样本的特殊二叉树结构SumTree(数值父节点等于子节点的和)中基于概率
Figure BDA0003847623020000121
采样样本,其中,pj和pi分别表示样本j和任意样本l的优先级,α为优先级指数,α=0时为随机均匀采样。
步骤3:从SumTree中基于概率
Figure BDA0003847623020000122
采样样本。
SumTree表示求和树,是一种特殊的二叉树型存储结构,SumTree存储示意图如图7所示,从上往下一共有四层节点结构,最顶部的那个节点称之为根节点,最底层一行称之为叶子节点,中间两行称之为内部节点。父节点的值等于其子节点的值之和。所有经验样本的数据都是储存在叶子节点,不仅如此,叶子节点还会存储样本的优先级。除叶子节点外的所有节点都是不存储数据的,但是会保存下级的左右子节点优先级之和,并且把子节点优先级之和用数字显示出来。SumTree采样主要是根据优先级来对样本进行训练,优先级取决于时序差分(Temporal-Difference Learning,TD)误差的大小,TD误差的值越大说明神经网络的反向传播作用越强,样本被学习的重要性就越高,相应的优先级也越高,这些样本就会优先被训练。pj和pl分别表示经验样本j和任意样本l的优先级,对于pj有:
pj=|δj|+ε
上面式子中,误差ε是一个非常小的正常数,这样可保证优先级pj>0,而α为优先级指数,α=0时为随机均匀采样,l代表采样的批量数。
上面的采样机制会带来偏差,会使得系统不稳定,于是根据样本重要性权重来纠正偏差,计算权重系数:
ωj=(O*p(j))/maxlωl
其中,ωj表示权重系数,O代表经验池大小,β表示非均匀概率补偿系数。随着训练进程逐渐增加到1,当β=1时,就能完全补偿概率p(j)。
其中,采样样本的TD误差为:δj=RjjQtarget(Sj,argmaxaQ(Sj,a))-Q(Sj-1,Aj-1)。其中,Rj表示奖励,γj表示[0,1]之间的小数,Qtarget表示目标网络,Q表示当前网络,Sj表示j状态,a表示采取的动作,Aj-1表示j上一步采取的动作。
Agent在状态下选择动作获得奖励期望回报为:
Figure BDA0003847623020000123
上式中,折扣因子γ∈[0,1],Rt+1为t时间步所获环境奖励值。
基于策略π,采用动作at,则st状态下动作价值函数为:
Qπ(s,a)=Eπ[Gt|st=s,at=a]。
步骤4:累积权重变化:
Figure BDA0003847623020000131
迭代结束后,更新参数θ←θ+η*Δ,重置权重变化Δ=0。
其中,ωj表示权重系数,
Figure BDA0003847623020000132
表示梯度下降更新参数。
Figure BDA0003847623020000133
表示求解梯度,是一种快速求解函数极值的方法。在训练和优化智能系统时,梯度下降是一种重要的技术和基础,通过寻找最小值,控制方差,更新模型参数,最终使模型收敛。
步骤5:更新权重和目标Q网络参数,直到即时奖励完成收敛,模型训练完成。
若T%C=1,更新目标网络参数Qtarget←θ,直到St是终止状态,其中,St表示实验中设定的移动范围边界,当用户从出发点移动到范围边界时,视为终止状态。
步骤五:利用训练好的深度强化学习模型,输入模型参数、待处理任务数据以及网络参数,得到每个时隙的任务卸载决策at
仿真实验采用Torch 1.11.0版本,在PyCharm中构造仿真实验环境评估所提方法的性能,所有实验运行在Windows 10Intel Core i5 4210CPU和NVIDIA GTX 950显卡的计算机上。在仿真实验中,设定一个3km×2km的场景,设置3个异构的边缘服务器,每个服务器的计算能力服从[2,8]GHz间的均匀分布;用户任务在每个时间间隙随机生成,任务输入数据大小It∈[2,10]Mbits,完成任务所需要的CPU周期数Ct设置为7.3GHz/task,开关电容初始设置为:k=1*10-12。设定边缘服务器是非异构的,因此用户任务在不同服务器之间的切换延迟,统一设定为50ms。通过用户与基站之间的距离变化,来模拟用户的移动性和网络变化。信道功率增益被建模为
Figure BDA0003847623020000134
其中,di是移动设备和通信基站BSi之间的距离,β是路径损耗指数,设置为3。此外,认为不同通信基站BSs的信道带宽和平均干扰功率是相同的,分别设置为10MHz和2*10-13W。此外,根据随机游走模型生成用户移动性。对于用户的移动设备,认为有两个等级的CPU频率和发射功率。CPU频率的两个级别分别设置为1GHz和2GHz。延迟和时延的权重分别设置为ω1=0.5和ω2=0.5。
首先研究本发明BI_DDQN中不同参数对算法收敛的影响,包括学习率(learning-rate)、缓冲池(batch_size)大小、经验池(Memory_size)规模三个参数。实验过程中,记录训练中每个回合获得的累计奖励,然后对比不同参数下累计回合奖励,选择最优参数用于后续实验。图3展示了不同学习率对累计奖励的影响,由图3可知,learning_rate=0.01的参数设置,可以达到最好的训练效果,因此在之后的实验中设置学习率为0.01。图4展示了不同大小优先级采样样本池对累计回报的影响,可以看出在前100回合的训练中,对累计回报影响较大,因为初始时刻,不同优先级的样本对算法学习的重要性程度不同,对算法收敛的影响较大,这也是本发明选择基于优先级采样改进的DDQN算法来解决所提出的场景中任务卸载问题的重要原因;此外,合适的优先级采样batch_size会加速网络的训练。基于实验得到的数据,后续的实验中固定batch_size=32。图5展示了缓冲区大小对算法收敛性的影响,过小的缓冲区大小可能会导致重要的经验被丢弃,过大的缓冲区大小会导致样本优先级存储计算量过大,因此选择memory_size=5000用于后续实验。
为了评估本发明算法的有效性,对比两种基线算法:1)DQN:采用神经网络近似计算Q值,解决了Q-learning存在的维数灾难。Batch_size中样本的挑选,采用随机采样的方式进行2)WPS_DDQN(without piriority selection DDQN):对经验池中经验样本的选取采用随机选取的方式,没有按照比例优先级采样法进行挑选。如图6所示,该对比实验研究了用户的移动设备随机移动过程中,系统连续生成50个异构计算任务的情形。从图6中可以看出,在一千轮次的实验当中,本发明BI_DDQN方法的长期累积奖励相较于WPS_DDQN算法提高约32%,相比于DQN算法提高约57%,优于现存的两种基线算法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,其步骤如下:
步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题;
步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;
步骤三:初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;
步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;
步骤五:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的任务卸载决策。
2.根据权利要求1所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述步骤一种的本地计算模型的计算延迟
Figure FDA0003847623010000011
为:
Figure FDA0003847623010000012
本地计算模型的能耗
Figure FDA0003847623010000013
为:
Figure FDA0003847623010000014
其中,u是移动设备的有效开关电容,
Figure FDA0003847623010000015
表示移动设备的CPU频率,Ct为完成任务所需要的CPU周期数;
所述边缘计算模型包括设备上t时隙生成的任务ωt的计算延迟Lt、t时隙内的能量消耗Et和设备剩余能量
Figure FDA0003847623010000016
且任务ωt的计算延迟为:
Figure FDA0003847623010000017
其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0;
且t时隙内卸载决策
Figure FDA0003847623010000018
Figure FDA0003847623010000019
为时隙t内可用的通信基站的集合;N={1,2,3,…n}为通信基站的集合,n表示通信基站的总数;
Figure FDA00038476230100000110
为传输任务ωt的输入数据到第i个通信基站产生的延迟,It表示任务ωt的输入数据大小,
Figure FDA00038476230100000111
为设备与第i个通信基站之间的上行链路传输速率;
Figure FDA0003847623010000021
为第i个通信基站执行任务ωt产生的延迟;i∈{1,2,3,…n},fi表示在通信基站i附近配置的边缘服务器最大的CPU频率;
能量消耗为:
Figure FDA0003847623010000022
其中,
Figure FDA0003847623010000023
为设备传输任务ωt的输入数据到第i个通信基站产生的能量消耗;
剩余能量的更新公式为:
Figure FDA0003847623010000024
其中,
Figure FDA0003847623010000025
表示t时隙内设备剩余能量,
Figure FDA0003847623010000026
表示t+1时隙内设备剩余电量,Et表示t时隙内的能量消耗。
3.根据权利要求2所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述设备与第i个通信基站之间的上行链路传输速率
Figure FDA0003847623010000027
其中,Wi表示信道带宽,
Figure FDA0003847623010000028
表示t时隙上第i个通信基站的平均干扰功率,
Figure FDA0003847623010000029
表示移动设备与通信基站BSi间的信道增益,
Figure FDA00038476230100000210
为设备的发射功率;
所述设备传输任务ωt的输入数据到通信基站BSi产生的能量消耗
Figure FDA00038476230100000211
4.根据权利要求2或3所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述线计算卸载问题为:
Figure FDA00038476230100000212
Figure FDA00038476230100000213
Figure FDA00038476230100000214
Figure FDA00038476230100000215
其中,T表示总的时隙数,F表示可选择的本地设备CPU频率的集合。
5.根据权利要求4所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述步骤二中最优计算卸载控制策略的问题为:将计算卸载控制策略π:S→A定义为从状态St到动作at的映射,即π(St)=at;在状态St∈S下,根据给定的计算卸载控制策略π选择执行的动作
Figure FDA00038476230100000216
获得一个最优计算卸载控制策略π*,以最大化设备移动过程中获得的长期累积奖励:
Figure FDA00038476230100000217
Figure FDA0003847623010000031
Figure FDA0003847623010000032
且即时奖励rt=ω1Lt2Et;其中,ω12分别为计算时延和能量消耗的权重系数;动作空间At=({0}*F∪kt*{0});γ表示奖励折损因子且γ∈{0,1}。
6.根据权利要求3或5所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述深度强化学习模型的训练方法为:
步骤1:根据当前时隙的系统状态,结合当前深度神经网络参数并使用ε-greedy贪婪策略决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励;
步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池;
步骤3:基于概率p(j)从求和树SumTree中采样样本,计算采样样本的TD误差和权重系数;
步骤4:根据TD误差和权重系数计算累积权重变化,迭代结束后,更新网络参数,重置权重变化;
步骤5:更新权重和目标Q网络参数,直到即时奖励完成收敛。
7.根据权利要求6所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述系统状态包括设备剩余电量、用户连接情况、设备与每个通信基站之间的信道增益、系统随机生成的具体待处理任务信息;系统状态用一个四元组
Figure FDA0003847623010000033
表示,其中,
Figure FDA0003847623010000034
表示设备剩余电量,σt表示用户的连接情况,
Figure FDA0003847623010000035
表示设备与通信基站之间的信道增益,
Figure FDA0003847623010000036
表示设备与第x个通信基站之间的信道增益;ψt表示具体的计算任务信息且ψt={It,Ct},It表示任务ωt的输入数据大小,Ct表示完成任务ωt所需要的CPU周期数;
对每个时隙t∈T,初始化状态S,得到状态向量φ(S);T为迭代轮数;在当前网络Q中输入状态向量φ(S),根据ε-greedy策略输出系统动作
Figure FDA0003847623010000037
ot表示t时隙内卸载决策,
Figure FDA0003847623010000038
表示设备的CPU频率;即时奖励rt为时延和能耗的线性函数:rt=ω1Lt2Et,其中,Lt表示设备上t时隙生成任务ωt的计算延迟,Et表示t时隙内的能量消耗,ω12分别为计算时延和能量消耗的权重系数。
8.根据权利要求7所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述概率
Figure FDA0003847623010000039
其中,pj和pi分别表示样本j和任意样本l的优先级,α为优先级指数;
优先级pj=|δj|+ε,其中,δj为样本j的TD误差,误差ε是一个非常小的正常数。
9.根据权利要求8所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述采样样本的权重系数为:
ωj=(O*p(j))/maxlωl
其中,ωj表示权重系数,O代表经验池大小,β表示非均匀概率补偿系数;
采样样本的TD误差为:δj=RjjQtarget(Sj,argmaxaQ(Sj,a))-Q(Sj-1,Aj-1);其中,Rj表示奖励,γj表示采样样本j的奖励折损因子,Qtarget表示目标网络,Q表示当前网络,Sj表示采样样本j的状态,a表示采取的动作,Aj-1表示采样样本j上一步采取的动作;
所述累积权重变化:Δ←Δ+ωjj*▽θQ(Sj-1,Aj-1),其中,▽θ表示梯度下降更新参数;
迭代结束后,更新参数θ←θ+η*Δ,重置累积权重变化Δ=0。
10.根据权利要求9所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述步骤5中若T%C=1,更新目标网络参数Qtarget←θ,C为参数更新频率;
智能体在状态下选择动作获得奖励总和为:
Figure FDA0003847623010000041
上式中,奖励折扣因子γ∈[0,1],Rt+1为t时间步所获环境奖励值;
基于策略π,采用动作at,则状态st下动作价值函数为:Qπ(s,a)=Eπ[Gt|st=s,at=a],Eπ表示求s状态下根据策略π选择动作at以后,产生的累积奖励值的期望,Gt表示从时间t开始带折扣的奖励总和。
CN202211124116.7A 2022-09-15 2022-09-15 超密集网络中基于深度强化学习的边缘计算任务卸载方法 Pending CN115499441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211124116.7A CN115499441A (zh) 2022-09-15 2022-09-15 超密集网络中基于深度强化学习的边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211124116.7A CN115499441A (zh) 2022-09-15 2022-09-15 超密集网络中基于深度强化学习的边缘计算任务卸载方法

Publications (1)

Publication Number Publication Date
CN115499441A true CN115499441A (zh) 2022-12-20

Family

ID=84467877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211124116.7A Pending CN115499441A (zh) 2022-09-15 2022-09-15 超密集网络中基于深度强化学习的边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN115499441A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177275A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111970733A (zh) * 2020-08-04 2020-11-20 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN114641076A (zh) * 2022-03-25 2022-06-17 重庆邮电大学 一种超密集网络中基于动态用户满意度的边缘计算卸载方法
CN114885422A (zh) * 2022-03-25 2022-08-09 重庆邮电大学 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111970733A (zh) * 2020-08-04 2020-11-20 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN114641076A (zh) * 2022-03-25 2022-06-17 重庆邮电大学 一种超密集网络中基于动态用户满意度的边缘计算卸载方法
CN114885422A (zh) * 2022-03-25 2022-08-09 重庆邮电大学 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177275A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法
CN117177275B (zh) * 2023-11-03 2024-01-30 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法

Similar Documents

Publication Publication Date Title
CN112860350B (zh) 一种边缘计算中基于任务缓存的计算卸载方法
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN113573324B (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN112911648A (zh) 一种空地结合的移动边缘计算卸载优化方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
US11831708B2 (en) Distributed computation offloading method based on computation-network collaboration in stochastic network
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116156563A (zh) 基于数字孪生的异构任务与资源端边协同调度方法
CN114840021A (zh) 一种无人机收集数据的轨迹规划方法、装置、设备及介质
CN112667406A (zh) 一种云边融合异构网络中任务卸载与数据缓存方法
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
Zhang et al. A deep reinforcement learning approach for online computation offloading in mobile edge computing
CN115499441A (zh) 超密集网络中基于深度强化学习的边缘计算任务卸载方法
CN117608821A (zh) 确定计算任务卸载策略的方法、装置、设备及介质
CN116880923A (zh) 一种基于多智能体强化学习的动态任务卸载方法
CN116723548A (zh) 一种基于深度强化学习的无人机辅助计算卸载方法
CN114217881B (zh) 任务卸载方法及相关装置
CN116209084A (zh) 一种能量收集mec系统中任务卸载和资源分配方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN113835894B (zh) 一种基于双延迟深度确定性策略梯度的智能计算迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221220

RJ01 Rejection of invention patent application after publication