CN113821346A - 基于深度强化学习的边缘计算中计算卸载与资源管理方法 - Google Patents
基于深度强化学习的边缘计算中计算卸载与资源管理方法 Download PDFInfo
- Publication number
- CN113821346A CN113821346A CN202111121919.2A CN202111121919A CN113821346A CN 113821346 A CN113821346 A CN 113821346A CN 202111121919 A CN202111121919 A CN 202111121919A CN 113821346 A CN113821346 A CN 113821346A
- Authority
- CN
- China
- Prior art keywords
- user
- representing
- edge
- task
- computation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 21
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000013468 resource allocation Methods 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims description 28
- 238000005265 energy consumption Methods 0.000 claims description 16
- 230000003247 decreasing effect Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 8
- 230000008439 repair process Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 19
- 230000008901 benefit Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,包括如下步骤:基于部分可观察马尔可夫决策过程构建边缘计算通信模型,包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;设置时隙长度,时间帧长度,初始化时隙和时间帧;边缘节点和用户分别利用部分可观察马尔可夫决策过程获取资源分配策略和任务卸载策略;根据任务卸载策略和资源分配策略利用参与者‑批评者模型对目标优化函数进行优化;根据优化后的目标优化函数将计算任务进行划分并处理。本发明解决了边缘设备与用户之间的不同利益追求,最大化地确保各自利益。
Description
技术领域
本发明属于边缘计算技术领域,具体涉及一种基于深度强化学习的边缘计算中计算卸载与资源管理方法。
背景技术
随着科学技术与工业生产能力的不断进步,移动设备的计算与通信能力不断提升,但各类崭新的移动应用也为移动设备提出了更高的业务需求。在一个多边缘多用户的集群中,用户可以选择将任务在本地进行计算或者卸载到边缘设备。为了响应对创新应用程序和用户体验日益增长的需求,计算卸载将计算密集型任务从用户迁移到边缘。边缘设备的计算能力一般强于用户,因此用户有可能通过卸载计算任务取得一些时延与功耗方面的好处。但是如果考虑到边缘可能分配给用户的计算资源过少或者选择卸载计算任务的用户过多造成的网络拥堵,卸载计算任务反而会损害用户的利益。因此用户需要决策是否卸载计算任务,通过哪个信道传输信息以及卸载到哪些边缘设备来最大化自身的利益。计算卸载作为一种具有前景的技术方法,可以帮助资源丰富的基础设施来增强用户设备,首先吸引了云计算领域的重要兴趣,然后在边缘计算中流行起来。边缘计算是云计算的一种发展,主张将集中的云资源推送到网络边缘,从处理延迟、能耗、节省带宽、数据隐私等方面得到好处。
从资源管理决策的角度来看,计算卸载解决了用户设备(以下简称用户)计算资源频繁短缺的问题,并提出了一种由边缘节点(以下简称边缘)制定的资源分配方案。由于单个边缘节点可能没有足够的资源,协同资源分配可以为用户提供服务,以维持服务性能,因此资源分配决策往往伴随着计算卸载决策一同产生。计算卸载与资源分配的联合决策构成了边缘计算中的一系列实际问题的基础,已有大量的论文与专利对这些问题进行了综合性的分析。实施集中决策控制是获得高质量解决方案的直接途径,它会面临理性遵从、用户隐私、决策可扩展性等方面的困境。另一方面,集中决策可能严重损害个体的理性,问题的复杂性逐渐超出传统方法的舒适区。因此,分布式决策方法是解决这一问题的一种有前途的方法。在此之上,已有的分布式工作认为将计算卸载和资源分配相结合能够进一步提高系统性能,但这往往无法通过优化单一类型的角色来实现,已有工作将综合计算卸载和资源分配问题建模为了非线性程序、stackelberg博弈、多时间尺度优化和markov决策过程,但是上述分布式决策的工作往往是从单一的关系来考虑问题。
基于学习的方法已经逐渐证明了它们在处理边缘计算中一些复杂的资源管理问题上的有效性,其中,多智能体深度强化学习(Multi-agent Deep ReinforcementLearning,MADRL)可以实现智能的分布式决策。然而,针对边缘计算中多个用户和多个边缘节点的计算卸载与资源管理问题,提出一种高效与定制化的方法仍然是一个悬而未决的问题,而这对于上述问题的解决具有较为深远的影响。另外,将多智能体学习应用到边缘计算的资源管理中,特别是扩展到多个决策者资源管理与计算卸载场景中,是近年研究者与工业界备受关注的问题。总的来说,一些已有的研究文献将多智能体学习应用到了协作、竞争或是混合的场景。然而,大多数论文(或专利)没有从边缘节点和用户双方角度去建立问题模型并求解。
发明内容
针对现有技术无法很好地确定资源分配与计算卸载决策的问题,本发明提出了一种基于深度强化学习的边缘计算中计算卸载与资源管理方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S3,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S4,获取每个边缘节点的总算力,边缘节点利用部分可观察马尔可夫决策过程获取资源分配策略;
S5,获取每个用户的计算任务、计算任务数据量和计算能力,用户利用部分可观察马尔可夫决策过程获取计算任务卸载策略;
S6,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S7,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S5,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S4,否则结束。
在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-∪2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
式中,代表笛卡尔积,是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,K表示用户的计算任务无线传输时的信道,f为资源分配策略。
边缘节点m在一个时隙内的效用Vm的计算公式如下:
效用Vm的约束条件为:
用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
式中,表示完成用户n计算任务用时最长的一个边缘节点所用时间,表示用户n的计算任务的无线传输时间,表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,表示边缘节点m处理用户n卸载的计算任务的执行时间,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率;
式中,pn表示用户n的无线传输功率。
在步骤S4中,所述资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm
表示边缘节点m的资源预算,资源预算fm的表达式为:
fm=[fm,t,fm,2,...,fm,n,...,fm,N]T;
资源预算fm的约束条件为:
本发明的有益效果:
本发明在强化学习算法的基础上将参与者-批评者模型与其相结合,对神经网络模型进行训练,边缘节点通过配置分配给每一个用户的计算资源,在最大化自己的特定利益的同时,解决了边缘设备与用户之间的不同利益追求,最大化了用户的自身利益。另外,在实际应用中,本发明可以做出合理的任务卸载与资源分配决策,减少计算任务的执行时间与用户的本地能源消耗,这对时延敏感型任务与能源受限的用户(如手机)具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为不同用户计算能力下用户和边缘节点的平均奖励。
图2为不同边缘节点计算能力下用户和边缘节点的平均奖励。
图3为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了应对终端设备处理能力不足、资源有限等问题,业界在移动边缘计算(MEC)中引入了计算卸载概念。边缘计算卸载即用户终端(UE)将计算任务卸载到MEC网络中,主要解决终端设备在资源存储、计算性能以及能效等方面的不足。计算卸载是MEC中的关键技术,主要包含卸载决策和资源分配两个部分,其通过有效的卸载决策和资源分配方案合理安排用户终端将计算任务卸载至MEC服务器,同时分配资源进行任务计算,以降低系统的时延和能耗。
一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,如图3所示,包括如下步骤:
S1,基于部分可观察马尔可夫决策过程(Partially Observable MarkovDecision Process,POMDP)构建边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
所述边缘计算通信模型设置在某一地理区域内,包括均为智能体的用户和边缘节点,用户采用表示地理区域内所有用户的集合,边缘节点采用表示地理区域内所有边缘节点的集合,用户与边缘节点之间基于OFDMA(Orthogonal Frequency Division MultipleAccess,正交频分多址)进行无线通信,不同的边缘节点之间通过光纤进行有线通信。用户n拥有一个密集型的计算任务要处理,每个边缘节点上均部署了一个用于论证用户n的计算能力的无线接入点,每个用户均通过无线通信与一个边缘节点上的无线接入点连接,该用户与其关联的无线接入点之间的距离为单跳,边缘节点通过有线光纤连接到其它边缘节点,且边缘节点之间有一个固定的时延其中,边缘节点和边缘节点若边缘节点m和边缘节点m′相同,则时延本实施例中,所述地理区域的范围为几百米;所述无线接入点为微型基站。
由于计算卸载决策和资源分配决策具有不同的时间敏感性,现将离散时间划分为两个时间尺度,并且假设场景是准静态的。每个时间尺度内包含τmax个时隙,每个时隙均包含τs个时间帧,在一个时间帧内边缘节点和用户的状态均保持不变,每个用户n均拥有固定数量的计算能力用于本地计算,边缘节点m分配给到用户n的计算资源用于服务。资源分配决策是指在每个时隙的开始处,每个边缘节点决定分配给每个用户的计算资源的数量。计算卸载决策是指每个用户在每一个时间帧中,都需要考虑是否卸载计算任务以及将计算任务卸载到哪些边缘节点。
所述计算任务表示为[Dn,Cn(x)],其中,Dn表示用户n通过无线链路卸载计算任务的数据量,Cn(x)是将用户n的计算任务划分为x个子任务时,每个子任务的平均处理周期,且x个子任务可以以平行且负载平衡的方式执行,其中, 表示一个计算任务中所包含最大子任务的数量,本实施例中,
所述基于OFDMA的无线通信考虑了多区域多用户的OFDMA网络的上行传输,OFDMA网络的频谱被划分为若干个信道,信道的集合采用 来表示。将an∈{0}∪K表示为用户n的信道决策,如果用户n的信道决策an=0,表示用户n决定不访问任何信道并在本地处理计算任务,否则用户n通过an∈{0}∪K信道连接至用户n的关联边缘节点ω(n),且关联边缘节点即为用户n直接关联到的边缘节点,所有用户的信道决策集合为a=[a1,a2,…an,...,aN]。
S2,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
所述目标优化函数为:
maxΛ(-U1,-U2,…,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
式中,代表笛卡尔积,是边缘节点m的资源分配策略f的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,且b=[b1,b2,...,bn,...,bN]。
所述边缘节点选择配置bn=[bn,t,bn,2,…,bn,m,...,bn,M]T,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率,若用户n决定将计算任务的计算转移到边缘节点m,则bn,m的值为1,否则为0。
本发明将每个时隙视为一个独立的边缘节点的决策过程,将每个时间帧视为用户独立决定是否卸载任务或卸载到哪些边缘节点的决策过程,目标优化函数综合考虑了用户的个体理性即每个用户都做出最小化处理自己计算任务的代价的决定、边缘节点的集体合理性即存在至少一个联合决策,其中每个边缘节点不能在减少另一个边缘节点效用的情况下提高其效用。这是一个高复杂度的多目标混合整数优化问题,一般为NP-hard问题,甚至不能保证存在一个稳定解。考虑到这种混合关系,专注于一个方面的优化可能会导致其他方面的性能下降。此外,由于通信延迟和用户隐私等原因,在层次结构中也很难实现信息完全的条件。
所述边缘节点m在一个时隙内的效用Vm的计算公式如下:
效用Vm的约束条件为:
式中,为递减函数,表示边缘节点m在第s时间帧的效用,表示用户n在第s时间帧的信道决策,表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
所述用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
用户n在一个时间帧内的本地计算成本的计算公式为:
式中,表示用户n处理计算任务的执行时间的权重因子,表示用户n处理计算任务的能量消耗的权重因子,且两个权重因子可以定量地反映用户n在不同条件下的需求偏好,确保了执行时间和能量消耗之间的权衡,表示用户n的本地计算成本,是指用户n本地处理计算任务时的成本也即信道决策an=0时的成本。
用户n在一个时间帧内的远程卸载成本的计算公式为:
式中,表示用户n的计算任务的无线传输时间,表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,表示边缘节点m处理用户n卸载的计算任务的执行时间,表示完成用户n计算任务用时最长的一个边缘节点所用时间,也就是用户n完成计算任务花费的时间。
所述无线传输速率Rn(a)通过香农定理得到,其计算公式为:
式中,W表示信道带宽,In表示用户n和无线接入点之间的干扰,gn表示用户n和关联边缘节点ω(n)上的无线接入点之间的信道增益,pn表示用户n的无线传输功率,σ2表示高斯噪声。
所述用户n和无线接入点之间的干扰In的计算公式为:
式中,pj表示用户j的无线传输功率,gj表示用户n和关联边缘节点ω(j)上的无线接入点之间的信道增益,aj表示用户j的信道决策,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
当用户n决定远程卸载它的计算任务时,计算任务将被卸载到一个或多个边缘节点。在确定边缘节点选择后,将用户n的计算任务划分为对应的若干个子任务后通过无线链路和有线链路传输到选中的边缘节点,然后将相应的子任务独立并行处理,待所有处理过程结束后得到任务结果。
S3,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S4,获取每个边缘节点的总算力,边缘节点利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略;
所述资源分配策略是指一个时隙内所有边缘节点的资源预算的集合,资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算。
所述资源预算fm是指边缘节点m分配给每个用户的计算资源的数量,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T;
资源预算的约束条件为:
S5,获取每个用户的计算任务、计算任务数据量和计算能力,用户利用部分可观察马尔可夫决策过程进行训练获取计算任务卸载策略;
所述POMDP可以表示为其中,包含环境中的所有状态, 包含N个用户智能体和M个边缘节点智能体的观测值,相当于用户和边缘节点的属性信息,用户的属性信息包括用户的计算任务、计算任务的数据量、用户的计算能力等,边缘节点的属性信息包括边缘节点的总算力、边缘节点分配给用户的处理速率等,是一组可能的行动,相当于资源分配策略和计算任务卸载策略。每一个智能体i根据一个以θi为参数的策略函数Pi:执行一个行动,且边缘节点智能体每τs步做出一个决策,在其它时间保持之前的决策,用户在每个时间帧s中都需要做出一个决策,即需要考虑是否卸载计算任务及卸载到哪些边缘节点。多智能体将联合决策传递到环境中,根据状态转移方程 输出一个新状态和一个立即的反馈ri:该反馈也即奖励由智能体i接收。每个智能体都致力于通过学习一项好的策略来最大化其预期的折扣未来奖励其中,γ是长期收益的折现因子,表示智能体i在t时刻的动作,i∈{1,2,…,M+N},st表示在决策时间t时刻环境的状态。
S6,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
在强化学习算法的基础上,针对每个边缘节点和每个用户分别设计了一个参与者-批评者模型,并分别使用gumble-softmax和argmax离散神经网络在训练和推理过程中的连续输出。在每个参与者-批评者模型中,有两种神经网络用于逼近行为者,用策略函数Pi表示相应的批评,用行动-价值函数Qi表示以最大化目标函数学习的目标是通过在梯度方向上调整参数来实现的,例如使J(θi)最大化的结果算法的梯度为:
式中,y表示目标Q值。
式中,P′i是参数为θ′i的策略函数,α′i是智能体i的下一个动作,Q′i是一个目标网络,该目标网络的参数使用Q′i的当前参数进行周期性更新,使训练更加稳定。就整体而言,最小化当前和目标动作状态函数之间的差异期望。
S7,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=S+1并返回步骤S5,否则判断时隙St是否小于时隙长度τmax,若是执行st=St+1并返回步骤S4,否则结束。
工业智能制造领域出于提升产品质量的需求,往往需要通过人工智能技术实现图像识别,缺陷探测,危险预警等任务。处于工业制造环境与成本的考虑,工厂往往无法将全部的大量的深度学习任务在本地完成计算,需要将任务部分卸载到云端。在拥有多个本地设备与云端设备联合计算的情况下,本发明可以更合理的分配计算任务,带来整体的效益提升,以下基于真实EUA数据集进行模拟评估:
仿真参数设置:考虑一个边长为300米的正方形区域,包括8个基站和42个移动设备。每个基站的覆盖半径在[100,150]米内随机生成,每个基站部署边缘服务器,提供资源支持计算卸载。在无线接入方面,设置用户设备的传输功率为0.1瓦特,通信信道的带宽为5mhz,信道数为5。所有信道的通信增益建模为独立的瑞利衰落,功率损耗系数为-4,背景噪声为-100dBm。在计算方面,用户设备的计算能力随机分配在[1,1.5]GHz,计算功率为1瓦特,边缘服务器的计算能力随机分配在[16,48]GHz。所有加权因子随机分布在[0,1]。对于计算任务,每个任务生成的数据大小在100~400kb之间,完成任务所需的CPU周期平均为1千兆周。每个用户在每一帧中生成任务的概率在0.4到0.8之间,并随着时间的推移而逐渐变化。
模式设置:对于每个学习智能体,采用了105个经验重放缓冲区,并选择了64个小批量进行训练。此外,使用ADAM作为优化器,参与者的学习率为10-3,批评家的学习率为10-4,折扣因子为0.95。为每种情况下的每个智能体训练了100次,每次有20个时隙和200时间帧,其中一半的时隙用于训练。为了在重放缓冲区中收集足够数量的样本进行学习,在第十次开始学习过程。
评估基线和度量:将本发明与以下三种基线方法进行比较。·Local:所有任务都在本地计算。·Direct:对于每个任务,用户有一半的机会本地处理任务,一半的机会通过随机访问通道将其任务卸载到连接的边缘服务器。每个边缘服务器将其资源平均分配给关联的用户。·Random随机:每个用户随机选择访问通道、任务划分策略和子任务卸载目的地,每个边缘服务器将自己的资源平均分配给可能申请资源的用户。·DDPG(DeepDeterministic Policy Gradient,深度确定性策略梯度):也即本发明,边缘服务器和用户设备都是通过DDPG来获得动作的。
如图1所示显示了不同用户计算能力下用户设备和边缘服务器的平均奖励,结果表明,基于强化学习的决策方法能够很好地解决复杂问题。图2所示是不同边缘计算能力下用户和边缘服务器的平均奖励。通过合理的参数设置,将边缘计算能力的参数控制在0.75~1.25倍之间。此外,边缘服务器的数量相对小于用户设备的数量,因此,增加边缘计算资源对系统的性能并没有明显的改善。然而,本发明在平均边缘奖励和平均用户奖励方面领先于其它3个基线。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S3,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S4,获取每个边缘节点的总算力,边缘节点利用部分可观察马尔可夫决策过程获取资源分配策略;
S5,获取每个用户的计算任务、计算任务数据量和计算能力,用户利用部分可观察马尔可夫决策过程获取计算任务卸载策略;
S6,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S7,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S5,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S4,否则结束。
2.根据权利要求1所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-U2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121919.2A CN113821346B (zh) | 2021-09-24 | 2021-09-24 | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121919.2A CN113821346B (zh) | 2021-09-24 | 2021-09-24 | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113821346A true CN113821346A (zh) | 2021-12-21 |
CN113821346B CN113821346B (zh) | 2023-09-05 |
Family
ID=78915356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111121919.2A Active CN113821346B (zh) | 2021-09-24 | 2021-09-24 | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821346B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002409A (zh) * | 2022-05-20 | 2022-09-02 | 天津大学 | 一种面向视频检测与追踪的动态任务调度方法 |
CN116009990A (zh) * | 2023-02-01 | 2023-04-25 | 天津大学 | 基于宽注意力机制的云边协同元强化学习计算卸载方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111586696A (zh) * | 2020-04-29 | 2020-08-25 | 重庆邮电大学 | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 |
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN113296845A (zh) * | 2021-06-03 | 2021-08-24 | 南京邮电大学 | 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法 |
-
2021
- 2021-09-24 CN CN202111121919.2A patent/CN113821346B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111586696A (zh) * | 2020-04-29 | 2020-08-25 | 重庆邮电大学 | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN113296845A (zh) * | 2021-06-03 | 2021-08-24 | 南京邮电大学 | 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法 |
Non-Patent Citations (1)
Title |
---|
张文献;杜永文;张希权: "面向多用户移动边缘计算轻量任务卸载优化", 小型微型计算机系统, no. 010, pages 2056 - 2061 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002409A (zh) * | 2022-05-20 | 2022-09-02 | 天津大学 | 一种面向视频检测与追踪的动态任务调度方法 |
CN115002409B (zh) * | 2022-05-20 | 2023-07-28 | 天津大学 | 一种面向视频检测与追踪的动态任务调度方法 |
CN116009990A (zh) * | 2023-02-01 | 2023-04-25 | 天津大学 | 基于宽注意力机制的云边协同元强化学习计算卸载方法 |
CN116009990B (zh) * | 2023-02-01 | 2024-03-29 | 天津大学 | 基于宽注意力机制的云边协同元强化学习计算卸载方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113821346B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Task allocation algorithm and optimization model on edge collaboration | |
Liu et al. | Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system | |
CN108809695B (zh) | 一种面向移动边缘计算的分布上行链路卸载策略 | |
Zou et al. | A3C-DO: A regional resource scheduling framework based on deep reinforcement learning in edge scenario | |
CN111445111B (zh) | 一种基于边缘协同的电力物联网任务分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN110971706B (zh) | Mec中近似最优化与基于强化学习的任务卸载方法 | |
Chen et al. | Multiuser computation offloading and resource allocation for cloud–edge heterogeneous network | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
Ren et al. | Collaborative edge computing and caching with deep reinforcement learning decision agents | |
CN114650228B (zh) | 一种异构网络中基于计算卸载的联邦学习调度方法 | |
CN113641504A (zh) | 用于提升多智能体强化学习边缘计算效果的信息交互方法 | |
CN113821346A (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
Huang et al. | Multi-agent reinforcement learning for cost-aware collaborative task execution in energy-harvesting D2D networks | |
Cha et al. | Fuzzy logic based client selection for federated learning in vehicular networks | |
Lan et al. | Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks | |
Huda et al. | Deep reinforcement learning-based computation offloading in uav swarm-enabled edge computing for surveillance applications | |
Wang et al. | Task allocation mechanism of power internet of things based on cooperative edge computing | |
Lin et al. | Deep reinforcement learning-based task scheduling and resource allocation for NOMA-MEC in Industrial Internet of Things | |
Yao et al. | Energy-aware task allocation for mobile IoT by online reinforcement learning | |
Heidarpour et al. | Soft actor–critic-based computation offloading in multiuser MEC-enabled IoT—a lifetime maximization perspective | |
Chen et al. | An intelligent task offloading algorithm (iTOA) for UAV network | |
Liu et al. | Learning-based multi-UAV assisted data acquisition and computation for information freshness in WPT enabled space-air-ground PIoT | |
CN117880122A (zh) | 一种基于madfpg的任务卸载和资源分配联合优化方法 | |
CN117749635A (zh) | 一种数字孪生使能的工业物联网资源分配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |