CN113342529A - 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法 - Google Patents

基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法 Download PDF

Info

Publication number
CN113342529A
CN113342529A CN202110679260.6A CN202110679260A CN113342529A CN 113342529 A CN113342529 A CN 113342529A CN 202110679260 A CN202110679260 A CN 202110679260A CN 113342529 A CN113342529 A CN 113342529A
Authority
CN
China
Prior art keywords
network
task
time
user equipment
time delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110679260.6A
Other languages
English (en)
Other versions
CN113342529B (zh
Inventor
吴少川
章王舜
李壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mechanical And Electrical Engineering General Design Department
Harbin Institute of Technology
Original Assignee
Beijing Mechanical And Electrical Engineering General Design Department
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mechanical And Electrical Engineering General Design Department, Harbin Institute of Technology filed Critical Beijing Mechanical And Electrical Engineering General Design Department
Priority to CN202110679260.6A priority Critical patent/CN113342529B/zh
Publication of CN113342529A publication Critical patent/CN113342529A/zh
Application granted granted Critical
Publication of CN113342529B publication Critical patent/CN113342529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0215Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法,方法包括:设置网络中CF‑MEC环境参数,确定用户设备UE与AP之间的数量关系;计算密集型任务的生成,使整个网络的时延tall最小化;定义动作、状态和奖励,训练深度Q网络,并保存网络模型;本发明的方法运行在和所有AP都相连的CPU上;并且在无小区大规模多天线架构中,每个AP都会将关于某个特定接收信号的局部软判决传输至CPU进行最终的综合判决,因此在CPU处可以获得全部的上行信号,同时在CPU处运行的本方法能够获得所有的卸载任务信息,并为它们一一选择合适的服务器来最优化整个网络所经历的卸载时延。

Description

基于强化学习的无小区大规模多天线架构下移动边缘计算卸 载方法
技术领域
本发明属于网络时延最小化领域,具体地,涉及基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法。
背景技术
无小区大规模多天线架构指的是这样一种架构:整个覆盖区域內的若干用户全部使用相同带宽且同时被区域內分散在各处的接入点(Access Point,AP)服务。而这些接入点之间通过前传回路和一个CPU相连。通过给每个AP配备一个计算能力稍强的服务器,每个用户都能够将计算密集型任务卸载到接入网一侧,从而减少传统云计算的传输时延并且增强了用户设备的计算能力和续航能力。这就是无小区大规模多天线架构下的移动边缘计算。
计算卸载指的是用户将计算密集型任务传输给一个指定的服务器进行计算并返回结果的过程。在移动边缘计算中,计算卸载方法始终都是重点关注对象。在CF-MEC场景中也不例外。现有文献在这一场景中,提及了一种被称为最小负载计算模型(Minimum LoadComputation Model)的分布式计算卸载方法。该方法出于网络可扩展性的考虑假设用户仅由一个以用户自身为原点,半径为一个固定值的圆內的AP所服务。用户产生的计算密集型任务也仅能卸载到由这个圆所圈定的AP所配备的服务器中。而负载指的是每个服务器维护的计算队列的长度。因此,在最小负载计算模型中,用户的卸载策略就是将任务卸载到这些限定AP对应的服务器中计算队列长度最短的一个服务器中。
但这种方法的问题在于用户设备的计算任务只能卸载到特定范围内的服务器中。在这个特定圆形区域之外的服务器没有得到利用。如果用户设备的卸载任务请求过于频繁的话,就会导致圆形区域內的服务器计算队列过长,而圆形区域外的服务器的计算队列长度却可能很短的情况。在这种情况下,如果能将计算任务转移到圆形区域外的闲置服务器中计算就能显著提高空闲资源的利用率,同时降低了计算任务不必要的等待时延,进而降低了用户进行计算卸载总共需要忍受的时延。而低时延一直都是计算卸载追求的目标之一,因此需要一种方法能够利用那些圆形区域外的等待时延更小的服务器。
发明内容
本发明在基于强化学习的计算卸载方法的基础上,利用最优序列决策的方式为网络中的每一个计算任务选择从全局的角度选择一个合适的AP服务器进行计算,进而提出了基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法。
本发明是通过以下方案实现的:
基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法:
所述方法具体包括以下步骤:
步骤一:设置网络中CF-MEC环境参数,确定用户设备UE与AP之间的数量关系;
步骤二:通过用户设备UE与AP之间的数量关系,计算密集型任务的生成,使整个网络的时延tall最小化;
步骤三:定义动作、状态和奖励,训练深度Q网络,并保存得到网络模型。
进一步地,在步骤一中:
所述CF-MEC环境参数包括:
将网络设置为一个D×D的正方形,所述网络的尺寸参数D,单位为m,系统带宽B,单位为Hz,网络中AP的数量为L个,网络中用户设备UE的数量为K个,用户设备UE限定的圆形服务区域的半径R,单位为m,AP的高度H和与AP连接的服务器的计算能力W,单位为GHz;
其中,L>>K且L/K>3。
进一步地,在步骤一中:
使用两个均匀随机数生成器分别生成L个随机数对作为AP的随机位置坐标,生成K个随机数对作为用户设备UE的随机位置坐标,计算各个用户设备UE到AP的平面距离,结合所述圆形服务区域的半径R,通过迭代方法和距离判断来确定实际服务每个用户设备UE的AP簇。
进一步地,在步骤二中:
任务参数包括任务的大小b,单位为Mb,任务的到达时刻tarrive,单位为s,产生该任务的用户设备UE编号I和CF-MEC网络的比特传输速率C,单位为bps;
所述密集型任务的平均间隔时间服从指数分布,每个用户设备UE产生的任务相互独立且参数的指数间隔相同;
所述密集型任务的生成过程中涉及到的参数包括:任务之间的平均间隔时间λ和总仿真时长T,单位为s。
进一步地,在步骤二中:
计算密集型任务的生成包括以下步骤:
步骤二一:生成和用户数量L个数相同的用户列表,所述用户列表分别对应不同编号I的用户设备UE;每个用户列表的计时器独立,且初始时刻均为0;
对任意一个用户列表,通过任务之间的平均时间间隔λ,任务的大小b,得到了下一个任务到达时刻tarrive,即:
tarrive=ttemp
其中ttemp是当前时刻;
将ttemp和tarrive信息添加进原用户列表中,重复这个过程直到计时器超过总仿真时长T为止;
在对任意一个用户列表完成步骤二一的操作后,对剩下的所有用户列表都执行相同的操作来完成用户计算任务的生成,得到所有用户的任务生成模型;
步骤二二:通过模拟网络负载的演化计算每个任务遭受的时延,通过计算使整个网络的时延tall最小化;
所述时延tall的计算由两部分组成:比特传输时延ttransmission和处理时延tprocess,即:
tall=ttransmission+tprocess
所述比特传输时延ttransmission的计算公式为:
Figure BDA0003121913460000031
所述处理时延tprocess由用户的计算任务在服务器计算队列中的等待时延twaiting和任务被计算所需的时间tcomputation构成,即:
tprocess=twaiting+tcomputation
所述等待时延twaiting通过计算任务的到达时刻之前,处理当前未被处理完的任务所需要的计算时间来确定;
所述计算时延tcomputation的计算公式为:
Figure BDA0003121913460000032
其中,ρ是计算每Mb数据需要的时钟频率,单位为Mb/GHz。
进一步地,在步骤三中:
所述深度Q网络需要控制的参数包括:动作空间的维度Naction,状态空间的维度Nstate,奖励折扣因子β,学习速率α,采取贪婪策略的概率Pε-greedy,更新目标网络的频率Nupdate,经验缓存的大小Nbuffer,采取贪婪策略概率的增长步进长度Nincrement,训练的幕数E以及整个网络中隐藏层的数量Nlayer
其中,奖励折扣因子β、学习速率α以及贪婪策略概率的增长步进长度Nincrement的取值都在0-1之间。
进一步地,在步骤三中:
所述动作为L的one-hot向量;
所述状态由所有AP服务器计算队列的队列长度,当前任务的大小b和到达时刻tarrive构成;
所述奖励为当前任务遭受的总时延tall的相反数,即-tall
开启深度Q网络的训练并保存得到网络模型。
本发明有益效果
(1)本发明决策的方式为网络中的每一个计算任务选择从全局的角度选择一个合适的AP服务器进行计算;通过强化学习方法为每一个卸载任务选择合适的卸载服务器对卸载任务进行计算,从而使整个网络中的时延最小化,提高网络的移动边缘计算的服务质量;
(2)本发明为了获取全局信息,方法本身运行在和所有AP都相连的CPU上;并且在在无小区大规模多天线架构中,每个AP都会将关于某个特定接收信号的局部软判决传输至CPU进行最终的综合判决,因此在CPU处可以获得全部的上行信号,同时在CPU处运行的本方法能够获得所有的卸载任务信息,并为它们一一选择合适的服务器来最优化整个网络所经历的卸载时延。
附图说明
图1为本发明的cost曲线图;
图2为本发明的平均时延性能比较图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1和图2;
基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法,将网络设置为一个D×D的正方形;
所述方法具体包括以下步骤:
步骤一:设置网络中CF-MEC环境参数,确定用户设备UE与AP之间的数量关系;
步骤二:通过用户设备UE与AP之间的数量关系,计算密集型任务的生成,使整个网络的时延tall最小化;
步骤三:定义动作、状态和奖励,训练深度Q网络,并保存得到网络模型。
在步骤一中:所述CF-MEC环境参数包括:
将网络设置为一个D×D的正方形,其中D为网络的尺寸参数,单位为m,系统带宽B,单位为Hz,网络中AP的数量为L个,网络中用户设备UE的数量为K个,用户设备UE限定的圆形服务区域的半径R,单位为m,AP的高度H和与AP连接的服务器的计算能力W,单位为GHz;
其中,为了符合Massive MIMO的范式,需要满足AP数量远大于用户数量,即L>>K且L/K>3;其余参数可按需求设置。
使用两个均匀随机数生成器分别生成L个随机数对作为AP的随机位置坐标,生成K个随机数对作为用户设备UE的随机位置坐标,计算各个用户设备UE到AP的平面距离,结合所述圆形服务区域的半径R,通过迭代方法和距离判断来确定实际服务每个用户设备UE的AP簇。
在步骤二中:同时由于计算任务需要通过无线信道进行传输,
任务参数包括任务的大小b(包括需要运行的程序和必要的数据),单位为Mb,任务的到达时刻tarrive,单位为s,产生该任务的用户设备UE编号I和CF-MEC网络的比特传输速率C,单位为bps;
这些参数一般都可以按照需求自行设置。不过需要注意网络的比特传输速率受制于系统带宽和整个网络的上行传输频谱效率。上行传输的频谱效率需要根据现有的研究结果合理取值。
鉴于排队论在网络容量分析中被广泛接受与使用,本发明使用了排队论中的常用的任务生成模型,即任务之间的平均间隔时间服从指数分布,网络中的每个用户都以相同参数的指数间隔时间独立产生各自的计算任务。
每个用户设备UE产生的任务相互独立且参数的指数间隔相同;
所述密集型任务的生成过程中涉及到的参数包括:任务之间的平均间隔时间λ和总仿真时长T,单位为s。
计算密集型任务的生成包括以下步骤:
步骤二一:生成和用户数量L个数相同的用户列表,所述用户列表分别对应不同编号I的用户设备UE;每个用户列表的计时器独立,且初始时刻均为0;
以第一个用户列表为例,通过指数分布随机数生成器产生距离下一个任务生成时刻的时间间隔λ,并使用一个均匀分布随机数生成器产生到达任务的大小b。同时将第一个用户列表的计时器加上这个指数时间间隔就得到了下一个任务到达时刻tarrive,即:
tarrive=ttemp
其中ttemp是当前时刻;
将ttemp和tarrive信息添加进原用户列表中,重复这个过程直到计时器超过总仿真时长T为止;
在对任意一个用户列表完成步骤二一的操作后,对剩下的所有用户列表都执行相同的操作来完成用户计算任务的生成,得到所有用户的任务生成模型;
步骤二二:通过模拟网络负载的演化计算每个任务遭受的时延,通过计算使整个网络的时延tall最小化;
所述时延tall的计算由两部分组成:比特传输时延ttransmission和处理时延tprocess,即:
tall=ttransmission+tprocess
每个用户产生的任务经过无线传输的耗时就是比特传输时延ttransmission的计算公式为:
Figure BDA0003121913460000061
所述处理时延tprocess由用户的计算任务在服务器计算队列中的等待时延twaiting和任务被计算所需的时间tcomputation构成,即:
tprocess=twaiting+tcomputation
所述等待时延twaiting通过计算任务的到达时刻之前,处理当前未被处理完的任务所需要的计算时间来确定;
所述计算时延tcomputation的计算公式为:
Figure BDA0003121913460000062
其中,ρ是计算每Mb数据需要的时钟频率,单位为Mb/GHz。
在步骤二中为每一个服务器维护了一个任务列表用于存储所有到达该服务器的任务信息。将任务信息中的产生时刻加上传输时延就得到了任务到达服务器的时刻tserver_arrive。然后通过将该计算服务器中第一个到达任务的到达时刻和当前任务的到达时刻之间的差值乘上
Figure BDA0003121913460000071
就能得到这段时间內被计算的任务数据大小。将这些已被计算的任务扣除,计算剩下的任务到当前任务之间需要的计算时间就能得出当前任务的等待时延。再将其加上计算当前任务所需的时间就能得到当前任务将要经历的处理时延。
在步骤三中:
所述深度Q网络需要控制的参数包括:动作空间的维度Naction,状态空间的维度Nstate,奖励折扣因子β,学习速率α,采取贪婪策略的概率Pε-greedy,更新目标网络的频率Nupdate,经验缓存的大小Nbuffer,采取贪婪策略概率的增长步进长度Nincrement,训练的幕数E以及整个网络中隐藏层的数量Nlayer
其中,奖励折扣因子β、学习速率α以及贪婪策略概率的增长步进长度Nincrement的取值都在0-1之间。其它数值可根据需要自行设置。
由于本方法运行在CPU处,它对每个任务都执行一个动作来决定任务的去向,因此所述动作为L的one-hot向量;其中为1的元素的索引就是方法为该任务选择的AP服务器的编号。
所述状态由所有AP服务器计算队列的队列长度,当前任务的大小b和到达时刻tarrive构成;
所述奖励为当前任务遭受的总时延tall的相反数,即-tall;这是由于强化学习的原则就是寻找最大化长期奖励和的策略,而本方法的目标是最小化时延和,于是在时延面前加上负号就能将最小化问题转化为符合强化学习框架的最大化问题。
在这之后,通过设定相关参数,开启深度Q网络的训练并保存得到网络模型即能够产生本方法。
在选定参数B=20MHz,D=2km,L=100,K=20,H=10m,W=5GHz,C=40Mbps,R从600m到1200m之间取值,步长为200m,λ从0.02s到0.18s之间取值,步长为0.04s,T=20s,b在2-5Mb之间均匀随机取值,Naction=100,Nstate=102,β=0.99,α=0.01,Pε-greedy=0.99,Nupdate=200,Nbuffer=500,Nincrement=0.00025,Nlayer=2,E=10以及ρ=0.297GHz/Mb之后。可以得到如图1和图2的cost曲线和平均时延性能比较图。
由图2可以看出,最下方采用了深度Q网络(DQN)方法的计算卸载方法能够显著降低整个网络中的平均时延,尤其对于平均任务到达间隔为0.02s这种计算任务频发的情况都能获得十分低的时延。
本方法在具体实施时需要先让模型在特定环境下训练至能够获得较理想性能,由此保存下来的神经网络模型参数就能获得类似上述比较图的效果。
以上对本发明所提出的基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法,进行了详细介绍,本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法,其特征在于:
所述方法具体包括以下步骤:
步骤一:设置网络中CF-MEC环境参数,确定用户设备UE与AP之间的数量关系;
步骤二:通过用户设备UE与AP之间的数量关系,计算密集型任务的生成,使整个网络的时延tall最小化;
步骤三:定义动作、状态和奖励,训练深度Q网络,并保存得到网络模型。
2.根据权利要求1所述方法,其特征在于:在步骤一中:
所述CF-MEC环境参数包括:
将网络设置为一个D×D的正方形,其中D为网络的尺寸参数,单位为m,系统带宽B,单位为Hz,网络中AP的数量为L个,网络中用户设备UE的数量为K个,用户设备UE限定的圆形服务区域的半径R,单位为m,AP的高度H和与AP连接的服务器的计算能力W,单位为GHz;
其中,L>>K且L/K>3。
3.根据权利要求2所述方法,其特征在于:在步骤一中:
使用两个均匀随机数生成器分别生成L个随机数对作为AP的随机位置坐标,生成K个随机数对作为用户设备UE的随机位置坐标,计算各个用户设备UE到AP的平面距离,结合所述圆形服务区域的半径R,通过迭代算法和距离判断来确定实际服务每个用户设备UE的AP簇。
4.根据权利要求3所述方法,其特征在于:在步骤二中:
任务参数包括任务的大小b,单位为Mb,任务的到达时刻tarrive,单位为s,产生该任务的用户设备UE编号I和CF-MEC网络的比特传输速率C,单位为bps;
所述密集型任务的平均间隔时间服从指数分布,每个用户设备UE产生的任务相互独立且参数的指数间隔相同;
所述密集型任务的生成过程中涉及到的参数包括:任务之间的平均间隔时间λ和总仿真时长T,单位为s。
5.根据权利要求4所述方法,其特征在于:在步骤二中:
计算密集型任务的生成包括以下步骤:
步骤二一:生成和用户数量L个数相同的用户列表,所述用户列表分别对应不同编号I的用户设备UE;每个用户列表的计时器独立,且初始时刻均为0;
对任意一个用户列表,通过任务之间的平均时间间隔λ,任务的大小b,得到了下一个任务到达时刻tarrive,即:
tarrive=ttemp
其中ttemp是当前时刻;
将ttemp和tarrive信息添加进原用户列表中,重复这个过程直到计时器超过总仿真时长T为止;
在对任意一个用户列表完成步骤二一的操作后,对剩下的所有用户列表都执行相同的操作来完成用户计算任务的生成,得到所有用户的任务生成模型;
步骤二二:通过模拟网络负载的演化计算每个任务遭受的时延,通过计算使整个网络的时延tall最小化;
所述时延tall的计算由两部分组成:比特传输时延ttransmission和处理时延tprocess,即:
tall=ttransmission+tprocess
所述比特传输时延ttransmission的计算公式为:
Figure FDA0003121913450000021
所述处理时延tprocess由用户的计算任务在服务器计算队列中的等待时延twaiting和任务被计算所需的时间tcomputation构成,即:
tprocess=twaiting+tcomputation
所述等待时延twaiting通过计算任务的到达时刻之前,处理当前未被处理完的任务所需要的计算时间来确定;
所述计算时延tcomputation的计算公式为:
Figure FDA0003121913450000022
其中,ρ是计算每Mb数据需要的时钟频率,单位为Mb/GHz。
6.根据权利要求5所述方法,其特征在于,在步骤三中:
所述深度Q网络需要控制的参数包括:动作空间的维度Naction,状态空间的维度Nstate,奖励折扣因子β,学习速率α,采取贪婪策略的概率Pε-greedy,更新目标网络的频率Nupdate,经验缓存的大小Nbuffer,采取贪婪策略概率的增长步进长度Nincrement,训练的幕数E以及整个网络中隐藏层的数量Nlayer
其中,奖励折扣因子β、学习速率α以及贪婪策略概率的增长步进长度Nincrement的取值都在0-1之间。
7.根据权利要求6所述方法,其特征在于:在步骤三中:
所述动作为L的one-hot向量;
所述状态由所有AP服务器计算队列的队列长度,当前任务的大小b和到达时刻tarrive构成;
所述奖励为当前任务遭受的总时延tall的相反数,即-tall
开启深度Q网络的训练并保存得到网络模型。
CN202110679260.6A 2021-06-18 2021-06-18 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法 Active CN113342529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110679260.6A CN113342529B (zh) 2021-06-18 2021-06-18 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110679260.6A CN113342529B (zh) 2021-06-18 2021-06-18 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法

Publications (2)

Publication Number Publication Date
CN113342529A true CN113342529A (zh) 2021-09-03
CN113342529B CN113342529B (zh) 2024-03-29

Family

ID=77477390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110679260.6A Active CN113342529B (zh) 2021-06-18 2021-06-18 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法

Country Status (1)

Country Link
CN (1) CN113342529B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035858A (zh) * 2021-10-27 2022-02-11 哈尔滨工业大学 基于深度强化学习的无小区大规模mimo下移动边缘计算的分布式计算卸载方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
EP3826368A1 (en) * 2019-11-19 2021-05-26 Commissariat à l'énergie atomique et aux énergies alternatives Energy efficient discontinuous mobile edge computing with quality of service guarantees

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3826368A1 (en) * 2019-11-19 2021-05-26 Commissariat à l'énergie atomique et aux énergies alternatives Energy efficient discontinuous mobile edge computing with quality of service guarantees
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07, 7 July 2020 (2020-07-07) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035858A (zh) * 2021-10-27 2022-02-11 哈尔滨工业大学 基于深度强化学习的无小区大规模mimo下移动边缘计算的分布式计算卸载方法
CN114035858B (zh) * 2021-10-27 2024-02-20 哈尔滨工业大学 基于深度强化学习的无小区大规模mimo下移动边缘计算的分布式计算卸载方法

Also Published As

Publication number Publication date
CN113342529B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN108809695B (zh) 一种面向移动边缘计算的分布上行链路卸载策略
CN110351754B (zh) 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN107708152B (zh) 异构蜂窝网络的任务卸载方法
Chen et al. Dynamic task software caching-assisted computation offloading for multi-access edge computing
Jiang et al. Research on new edge computing network architecture and task offloading strategy for Internet of Things
CN114938381A (zh) 一种基于深度强化学习的d2d-mec卸载方法、计算机程序产品
Nguyen et al. Deep reinforcement learning for collaborative offloading in heterogeneous edge networks
Gao et al. Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users
Liu et al. Mobility-aware task offloading and migration schemes in scns with mobile edge computing
Lei et al. Partially collaborative edge caching based on federated deep reinforcement learning
CN113342529B (zh) 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法
Luo et al. Joint game theory and greedy optimization scheme of computation offloading for UAV-aided network
CN114980160A (zh) 一种无人机辅助的太赫兹通信网络联合优化方法和装置
Zhang et al. On-device intelligence for 5g ran: Knowledge transfer and federated learning enabled ue-centric traffic steering
CN117354934A (zh) 一种多时隙mec系统双时间尺度任务卸载和资源分配方法
Fan et al. Service migration in mobile edge computing based on reinforcement learning
Yang et al. A resource allocation method based on the core server in the collaborative space for mobile edge computing
KR20240072551A (ko) 산업 사물 인터넷 환경에서 모바일 엣지 컴퓨팅에서의 리소스 할당을 기반으로 하는 에너지 소비와 지연 비용 최적화 방법 및 장치
Wan et al. Towards Big data processing in IoT: network management for online edge data processing
CN117460001B (zh) 一种车联网中基于先验知识驱动的主动缓存决策方法
CN118276986B (zh) 一种在多接入边缘计算中具有隐私保护的计算卸载方法
Qiu et al. Noncooperative resource optimization for NOMA based fog radio access network
Kong et al. Multi-uav cooperative computational delay and energy consumption modeling and ddpg optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant