CN113612843B - 一种基于深度强化学习的mec任务卸载和资源分配方法 - Google Patents

一种基于深度强化学习的mec任务卸载和资源分配方法 Download PDF

Info

Publication number
CN113612843B
CN113612843B CN202110882738.5A CN202110882738A CN113612843B CN 113612843 B CN113612843 B CN 113612843B CN 202110882738 A CN202110882738 A CN 202110882738A CN 113612843 B CN113612843 B CN 113612843B
Authority
CN
China
Prior art keywords
unloading
task
resource allocation
mec
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110882738.5A
Other languages
English (en)
Other versions
CN113612843A (zh
Inventor
钱志鸿
张菁
王雪
向长波
张继真
谢明桐
刘水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Central China Technology Development Of Electric Power Co ltd
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110882738.5A priority Critical patent/CN113612843B/zh
Publication of CN113612843A publication Critical patent/CN113612843A/zh
Application granted granted Critical
Publication of CN113612843B publication Critical patent/CN113612843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/78Architectures of resource allocation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开的属于通信技术领域,具体为一种基于深度强化学习的MEC任务卸载和资源分配方法,包括以下步骤:S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;S2:针对三层的卸载场景,计算系统总体开销;S3:以最小化系统开销为优化目标,构建深度强化学习模型;S4:提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策。该基于深度强化学习的MEC任务卸载和资源分配方法,在保证满足不同用户服务质量需求的情况下不仅有效利用了系统的资源而且能帮助用户选择最优卸载策略以最小化系统开销。

Description

一种基于深度强化学习的MEC任务卸载和资源分配方法
技术领域
本发明涉及通信技术领域,具体为一种基于深度强化学习的MEC任务卸载和资源分配方法。
背景技术
随着无线通信技术的发展和智能终端的快速普及,移动网络实现了从低速2G时代迈向高速的5G时代,仅仅依靠云计算不足以实现5G计算和通信的毫秒级延迟。由此,移动边缘计算应运而生。而计算卸载技术作为移动边缘计算研究的关键技术,为未来通信毫秒级或更低的时延需求提供可能。云数据中心计算资源丰富,能飞速完成卸载任务;移动边缘计算中心距离终端近,计算能力强,能满足越来越强的低时延高数据需求;网络中的D2D通信技术能有效利用空闲的计算资源实现更灵活的任务卸载。因此,在网络构成越来越复杂的今天,考虑三层的卸载场景是很有现实意义的。而目前的研究多考虑全部卸载,随着移动边缘计算的发展,用户将更趋向于将任务部分卸载到不同设备或基站执行,进而提高执行性能降低任务开销。
与此同时,云端计算存储资源、MEC服务器计算存储资源、D2D设备计算存储资源与通信带宽资源都是有限的,在此场景下如何进行部分卸载决策与资源分配使得系统开销最小成为关键性问题。
发明内容
本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种基于深度强化学习的MEC任务卸载和资源分配方法,其包括以下步骤:
S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;
S2:针对三层的卸载场景,计算系统总体开销;
S3:以最小化系统开销为优化目标,构建深度强化学习模型;
S4:提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策。
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S1中,所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:
在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变;每个用户可以选择将其部分计算任务卸载到云服务器,余下的留在本地完成;或部分计算任务卸载到移动边缘计算服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以自己执行任务,上述执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行;
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1-αnnn,且满足
Figure BDA0003192656070000021
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S2中,所述计算系统总体开销具体步骤为:
在用户选择本地卸载时,设
Figure BDA0003192656070000031
为本地计算能力,kn是与设备有关的常量,计算能耗基本与CPU频率成正比;因此本地执行时间为
Figure BDA0003192656070000032
能耗为
Figure BDA0003192656070000033
当D2D卸载执行时,设
Figure BDA0003192656070000034
表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率;考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声;根据香农公式,上行速率为
Figure BDA0003192656070000035
其中,若αn>0则
Figure BDA0003192656070000036
取1;因此,传输时延为
Figure BDA0003192656070000037
传输能耗为
Figure BDA0003192656070000038
Figure BDA0003192656070000039
表示D2D的计算能力,则计算时延为
Figure BDA00031926560700000310
计算能耗为
Figure BDA00031926560700000311
kd是与硬件有关的常量;因此,D2D执行时间为
Figure BDA00031926560700000312
执行能耗为
Figure BDA00031926560700000313
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数
Figure BDA00031926560700000314
分配带宽为
Figure BDA00031926560700000315
满足
Figure BDA00031926560700000316
而MEC执行卸载时延可分为三部分,传输时延、等待时延和计算时延;传输时延为
Figure BDA00031926560700000317
其中
Figure BDA00031926560700000318
hn,m为设备n到MEC服务器的信道增益;设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率;队列中等待时间为
Figure BDA00031926560700000319
其中Nj为在第j个时隙内的全部任务数,Nj-L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数
Figure BDA00031926560700000320
任务的平均进入率
Figure BDA00031926560700000321
传输能耗为
Figure BDA00031926560700000322
计算时延为
Figure BDA00031926560700000323
计算能耗为
Figure BDA0003192656070000041
km是与硬件有关的常量;则
Figure BDA0003192656070000042
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到;忽略云端计算耗时,总时延即为传输时延加上Tcore;传输时延为
Figure BDA0003192656070000043
其中
Figure BDA0003192656070000044
hn,c为设n到云的信道增益,
Figure BDA0003192656070000045
为上行带宽;传输能耗为
Figure BDA0003192656070000046
因此云执行时总时延为
Figure BDA0003192656070000047
能耗为
Figure BDA0003192656070000048
综合考虑,设备的执行时延为
Figure BDA0003192656070000049
能耗为
Figure BDA00031926560700000410
目标函数为
Figure BDA00031926560700000411
Figure BDA00031926560700000412
Figure BDA00031926560700000413
分别代表用户n执行时间和能量消耗的权重系数。
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S3中,所述构建深度强化学习模型具体步骤为:
采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法;
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数;
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[FL(t),FD(t),D(t),FM(t)];其中
Figure BDA00031926560700000414
Figure BDA00031926560700000415
分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵;D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵;
Figure BDA00031926560700000416
和Dn(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小;FM(t)代表MEC服务器在决策时刻t的可用计算资源;
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决策;动作空间可定义为at∈At=[α(t),β(t),γ(t),FM(t),BM(t)];其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵;αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例;对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1);计算资源分配决策为
Figure BDA0003192656070000051
带宽资源分配决策为
Figure BDA0003192656070000052
其中,
Figure BDA0003192656070000053
Figure BDA0003192656070000054
分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽;
定义回报函数为
Figure BDA0003192656070000055
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和。
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S4中,所述提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络
Figure BDA0003192656070000056
参数分别为ψ和
Figure BDA0003192656070000057
此外,建立了两个状态动作值函数网络
Figure BDA0003192656070000058
参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的状态和动作的分布,软状态值函数的目标函数为
Figure BDA0003192656070000061
梯度可以用无偏估计量
Figure BDA0003192656070000062
来估计;通过梯度下降法更新网络参数ψ,使平方残差(值函数网络的估计值与真实值之间的偏差)最小;目标状态值函数网络
Figure BDA0003192656070000063
的参数
Figure BDA0003192656070000064
通过软更新方法进行更新,更新方式为
Figure BDA0003192656070000065
接下来训练状态动作值函数网络的参数θi,其目标函数为
Figure BDA0003192656070000066
其中JQi)同样采用随机梯度
Figure BDA0003192656070000067
来优化,使Bellman残差最小;更新过程中使用目标状态网络
Figure BDA0003192656070000068
以切断相关性;
步骤3:网络参数的梯度更新
采用梯度下降法,通过最小化期望KL散度来更新策略网络的参数φ(),策略网络的目标函数可表示为
Figure BDA0003192656070000069
用式
Figure BDA00031926560700000610
来近似梯度,通过随机梯度法下降法进行更新;
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。
与现有技术相比:
1、构建包括云服务器、移动边缘计算服务器与多终端设备的三层计算卸载与资源分配模型,将用户开销定义为不同用户对时延能耗敏感度加权和,并计算系统总体开销;
2、以最小化系统开销为优化目标,构建深度强化学习模型;
3、提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策;
该基于深度强化学习的MEC任务卸载和资源分配方法,在保证满足不同用户服务质量需求的情况下不仅有效利用了系统的资源而且能帮助用户选择最优卸载策略以最小化系统开销。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明实施例中的系统模型示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明提供一种基于深度强化学习的MEC任务卸载和资源分配方法,包括以下步骤:
S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数。
S2:针对三层的卸载场景,计算系统总体开销。
S3:以最小化系统开销为优化目标,构建深度强化学习模型。
S4:提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策。
在S1中,所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:
在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变。每个用户可以选择将其部分计算任务卸载到云,余下的留在本地完成;或部分计算任务卸载到MEC服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以完全自己执行任务。我们将这些执行选项称为云执行,MEC卸载执行,D2D卸载执行和本地执行。
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1-αnnn,且满足
Figure BDA0003192656070000081
在S2中,所述计算系统总体开销具体步骤为:
在用户选择本地卸载时,设fn L为本地计算能力(CPU频率/每秒CPU周期),kn是与设备有关的常量,计算能耗基本与CPU频率成正比;因此本地执行时间为
Figure BDA0003192656070000082
能耗为
Figure BDA0003192656070000083
当D2D卸载执行时,设
Figure BDA0003192656070000091
表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率。考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声。根据香农公式,上行速率为
Figure BDA0003192656070000092
其中,若αn>0则
Figure BDA0003192656070000093
取1。因此,传输时延为
Figure BDA0003192656070000094
传输能耗为
Figure BDA0003192656070000095
Figure BDA0003192656070000096
表示D2D的计算能力,则计算时延为
Figure BDA0003192656070000097
计算能耗为
Figure BDA0003192656070000098
kd是与硬件有关的常量。因此,D2D执行时间为
Figure BDA0003192656070000099
执行能耗为
Figure BDA00031926560700000910
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数
Figure BDA00031926560700000911
分配带宽为
Figure BDA00031926560700000912
满足
Figure BDA00031926560700000913
而MEC执行卸载时延可分为三部分,传输时延、等待时延和计算时延。传输时延为
Figure BDA00031926560700000914
其中
Figure BDA00031926560700000915
hn,m为设备n到MEC服务器的信道增益。设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率。队列中等待时间为
Figure BDA00031926560700000916
其中Nj为在第j个时隙内的全部任务数,Nj-L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数
Figure BDA00031926560700000917
任务的平均进入率
Figure BDA00031926560700000918
传输能耗为
Figure BDA00031926560700000919
计算时延为
Figure BDA00031926560700000920
计算能耗为
Figure BDA00031926560700000921
km是与硬件有关的常量。则
Figure BDA00031926560700000922
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到。考虑到远端云的计算资源较充足,故忽略云端计算耗时,总时延即为传输时延加上Tcore。传输时延为
Figure BDA0003192656070000101
其中
Figure BDA0003192656070000102
hn,c为设n到云的信道增益,
Figure BDA0003192656070000103
为上行带宽。传输能耗为
Figure BDA0003192656070000104
因此云执行时总时延为
Figure BDA0003192656070000105
能耗为
Figure BDA0003192656070000106
综合考虑,设备的执行时延为
Figure BDA0003192656070000107
能耗为
Figure BDA0003192656070000108
目标函数为
Figure BDA0003192656070000109
Figure BDA00031926560700001010
Figure BDA00031926560700001011
分别代表用户n执行时间和能量消耗的权重系数,当用户在对能量消耗或时延迟滞敏感等特定场景下灵活调度两个权值,可动态调整系统总开销。因此优化问题为在限制条件下最小化系统成本。
在S3中,所述构建深度强化学习模型具体步骤为:
考虑到终端密集与任务集密集的高维特性,拟采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法,通过最大熵可以提升策略学习的随机性,降低相关性,以使输出策略更趋近于最优,能够处理非常复杂且高维的任务。
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数。
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[FL(t),FD(t),D(t),FM(t)],其中
Figure BDA00031926560700001012
Figure BDA00031926560700001013
分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵。D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵。
Figure BDA00031926560700001014
和Dn(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小。FM(t)代表MEC服务器在决策时刻t的可用计算资源。
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决策。动作空间可定义为at∈At=[α(t),β(t),γ(t),FM(t),BM(t)],其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务比例矩阵。αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例。对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1)。
计算资源分配决策为
Figure BDA0003192656070000111
带宽资源分配决策为
Figure BDA0003192656070000112
其中,
Figure BDA0003192656070000113
Figure BDA0003192656070000114
分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽。
定义回报函数为
Figure BDA0003192656070000115
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和。
在S4中,所述提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络
Figure BDA0003192656070000116
参数分别为ψ和
Figure BDA0003192656070000117
此外,建立了两个状态动作值函数网络
Figure BDA0003192656070000118
参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的状态和动作的分布,软状态值函数的目标函数为
Figure BDA0003192656070000121
梯度可以用无偏估计量
Figure BDA0003192656070000122
来估计;通过梯度下降法更新网络参数ψ,使平方残差(值函数网络的估计值与真实值之间的偏差)最小;目标状态值函数网络
Figure BDA0003192656070000123
的参数
Figure BDA0003192656070000124
通过软更新方法进行更新,更新方式为
Figure BDA0003192656070000125
接下来训练状态动作值函数网络的参数θi,其目标函数为
Figure BDA0003192656070000126
其中
Figure BDA0003192656070000127
JQi)同样采用随机梯度
Figure BDA0003192656070000128
来优化,使Bellman残差最小;更新过程中使用目标状态网络
Figure BDA0003192656070000129
以切断相关性;
步骤3:网络参数的梯度更新
采用梯度下降法,通过最小化期望KL散度来更新策略网络的参数φ(),策略网络的目标函数可表示为
Figure BDA00031926560700001210
用式
Figure BDA00031926560700001211
来近似梯度,通过随机梯度法下降法进行更新;
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。

Claims (1)

1.一种基于深度强化学习的MEC任务卸载和资源分配方法,其特征在于,包括以下步骤:
S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;
所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:
在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变;每个用户可以选择将其部分计算任务卸载到云服务器,余下的留在本地完成;或部分计算任务卸载到移动边缘计算服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以自己执行任务,执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行;
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1-αnnn,且满足αnβnγn=0,
Figure FDA0003720598010000011
S2:针对三层的卸载场景,计算系统总体开销;
所述计算系统总体开销具体步骤为:
在用户选择本地卸载时,设
Figure FDA0003720598010000012
为本地计算能力,kn是与设备有关的常量,计算能耗基本与CPU频率成正比;因此本地执行时间为
Figure FDA0003720598010000013
能耗为
Figure FDA0003720598010000014
当D2D卸载执行时,设
Figure FDA0003720598010000015
表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率;考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声;根据香农公式,上行速率为
Figure FDA0003720598010000021
其中,若αn>0则
Figure FDA0003720598010000022
取1,因此,传输时延为
Figure FDA0003720598010000023
传输能耗为
Figure FDA0003720598010000024
Figure FDA0003720598010000025
表示D2D的计算能力,则计算时延为
Figure FDA0003720598010000026
计算能耗为
Figure FDA0003720598010000027
kd是与硬件有关的常量;因此,D2D执行时间为
Figure FDA0003720598010000028
执行能耗为
Figure FDA0003720598010000029
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数
Figure FDA00037205980100000210
分配带宽为
Figure FDA00037205980100000211
满足
Figure FDA00037205980100000212
而MEC执行卸载时延可分为三部分,传输时延、等待时延和计算时延;传输时延为
Figure FDA00037205980100000213
其中
Figure FDA00037205980100000214
hn,m为设备n到MEC服务器的信道增益;设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率;队列中等待时间为
Figure FDA00037205980100000215
其中Nj为在第j个时隙内的全部任务数,Nj-L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数
Figure FDA00037205980100000216
任务的平均进入率
Figure FDA00037205980100000217
传输能耗为
Figure FDA00037205980100000218
计算时延为
Figure FDA00037205980100000219
计算能耗为
Figure FDA00037205980100000220
km是与硬件有关的常量;则
Figure FDA00037205980100000221
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到;忽略云端计算耗时,总时延即为传输时延加上Tcore;传输时延为
Figure FDA0003720598010000031
其中
Figure FDA0003720598010000032
hn,c为设n到云的信道增益,
Figure FDA0003720598010000033
为上行带宽;传输能耗为
Figure FDA0003720598010000034
因此云执行时总时延为
Figure FDA0003720598010000035
能耗为
Figure FDA0003720598010000036
综合考虑,设备的执行时延为
Figure FDA0003720598010000037
能耗为
Figure FDA0003720598010000038
目标函数为
Figure FDA0003720598010000039
Figure FDA00037205980100000310
a,b∈(0,1)分别代表用户n执行时间和能量消耗的权重系数;
S3:以最小化系统开销为优化目标,构建深度强化学习模型;
所述构建深度强化学习模型具体步骤为:
采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法;
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数;
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[FL(t),FD(t),D(t),FM(t)];其中
Figure FDA00037205980100000311
Figure FDA00037205980100000312
分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵;D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵;
Figure FDA00037205980100000313
和Dn(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小;FM(t)代表MEC服务器在决策时刻t的可用计算资源;
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决策;动作空间可定义为at∈At=[α(t),β(t),γ(t),FM(t),BM(t)];其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵;αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例;对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1);计算资源分配决策为
Figure FDA0003720598010000041
带宽资源分配决策为
Figure FDA0003720598010000042
其中,
Figure FDA0003720598010000043
Figure FDA0003720598010000044
分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽;
定义回报函数为
Figure FDA0003720598010000045
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和;
S4:提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络
Figure FDA0003720598010000046
参数分别为ψ和
Figure FDA0003720598010000047
此外,建立了两个状态动作值函数网络
Figure FDA0003720598010000048
参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的状态和动作的分布,软状态值函数的目标函数为
Figure FDA0003720598010000049
梯度可以用无偏估计量
Figure FDA00037205980100000410
来估计;通过梯度下降法更新网络参数ψ,使平方残差即值函数网络的估计值与真实值之间的偏差最小;目标状态值函数网络
Figure FDA00037205980100000411
的参数
Figure FDA00037205980100000412
通过软更新方法进行更新,更新方式为
Figure FDA0003720598010000051
接下来训练状态动作值函数网络的参数θi,其目标函数为
Figure FDA0003720598010000052
其中JQi)同样采用随机梯度
Figure FDA0003720598010000053
来优化,使Bellman残差最小;更新过程中使用目标状态网络
Figure FDA0003720598010000054
以切断相关性;
步骤3:网络参数的梯度更新
采用梯度下降法,通过最小化期望KL散度来更新策略网络的参数φ(),策略网络的目标函数可表示为
Figure FDA0003720598010000055
用式
Figure FDA0003720598010000056
来近似梯度,通过随机梯度法下降法进行更新;
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。
CN202110882738.5A 2021-08-02 2021-08-02 一种基于深度强化学习的mec任务卸载和资源分配方法 Active CN113612843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110882738.5A CN113612843B (zh) 2021-08-02 2021-08-02 一种基于深度强化学习的mec任务卸载和资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110882738.5A CN113612843B (zh) 2021-08-02 2021-08-02 一种基于深度强化学习的mec任务卸载和资源分配方法

Publications (2)

Publication Number Publication Date
CN113612843A CN113612843A (zh) 2021-11-05
CN113612843B true CN113612843B (zh) 2022-08-30

Family

ID=78339107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110882738.5A Active CN113612843B (zh) 2021-08-02 2021-08-02 一种基于深度强化学习的mec任务卸载和资源分配方法

Country Status (1)

Country Link
CN (1) CN113612843B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114116209A (zh) * 2021-11-12 2022-03-01 中国人民解放军国防科技大学 基于深度强化学习的频谱地图构建与分发方法及系统
CN114116050A (zh) * 2021-11-16 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算的选择性卸载方法及系统
CN114116061B (zh) * 2021-11-26 2023-08-18 内蒙古大学 一种移动边缘计算环境下的工作流任务卸载方法及系统
CN114143317B (zh) * 2021-12-06 2022-10-18 云南大学 面向跨云层移动边缘计算的多优先级计算卸载策略优化方法
CN114138373B (zh) * 2021-12-07 2023-10-24 吉林大学 一种基于强化学习的边缘计算任务卸载方法
CN115250142B (zh) * 2021-12-31 2023-12-05 中国科学院上海微系统与信息技术研究所 一种基于深度强化学习的星地融合网络多节点计算资源分配方法
CN114390057B (zh) * 2022-01-13 2024-04-05 南昌工程学院 Mec环境下基于强化学习的多接口自适应数据卸载方法
CN114048689B (zh) * 2022-01-13 2022-04-15 南京信息工程大学 基于深度强化学习的多无人机空中充电和任务调度方法
CN114528042B (zh) * 2022-01-30 2023-04-21 南京信息工程大学 基于深度强化学习的节能型自动互联车辆服务卸载方法
CN114567895A (zh) * 2022-02-23 2022-05-31 重庆邮电大学 一种mec服务器集群的智能协同策略的实现方法
CN114340016B (zh) * 2022-03-16 2022-07-26 北京邮电大学 一种电网边缘计算卸载分配方法及系统
CN114640675B (zh) * 2022-03-21 2024-02-09 中国联合网络通信集团有限公司 一种卸载策略确定方法、装置、电子设备及存储介质
CN114706631B (zh) * 2022-04-22 2022-10-25 哈尔滨工业大学 基于深度q学习的移动边缘计算中卸载决策方法及系统
CN114884949B (zh) * 2022-05-07 2024-03-26 深圳泓越信息科技有限公司 基于maddpg算法的低轨卫星物联网任务卸载方法
CN114637608B (zh) * 2022-05-17 2022-09-16 之江实验室 一种计算任务分配和更新方法、终端及网络设备
CN115002409B (zh) * 2022-05-20 2023-07-28 天津大学 一种面向视频检测与追踪的动态任务调度方法
CN115086249B (zh) * 2022-05-23 2023-08-01 华东师范大学 一种基于深度强化学习的云数据中心资源分配方法
CN115016858B (zh) * 2022-05-24 2024-03-29 武汉大学 一种基于后决策状态深度强化学习的任务卸载方法
CN115002123B (zh) * 2022-05-25 2023-05-05 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
CN115134242B (zh) * 2022-06-27 2023-08-22 天津理工大学 一种基于深度强化学习策略的车载计算任务卸载方法
CN115134364B (zh) * 2022-06-28 2023-06-16 西华大学 基于o-ran物联网系统的节能计算卸载系统及方法
CN114938381B (zh) * 2022-06-30 2023-09-01 西安邮电大学 一种基于深度强化学习的d2d-mec卸载方法
CN115484314B (zh) * 2022-08-10 2024-04-02 重庆大学 一种移动边缘计算网络下推荐赋能的边缘缓存优化方法
CN116107734A (zh) * 2022-11-02 2023-05-12 贵州电网有限责任公司 一种混合供电场景下智能电网基站分布式资源分配方法
CN115562760B (zh) * 2022-11-22 2023-05-30 南京邮电大学 基于边缘计算节点打分表的深度学习模型分层卸载方法
CN115858048B (zh) * 2023-03-03 2023-04-25 成都信息工程大学 一种面向混合关键级任务动态到达边缘卸载方法
CN117155798B (zh) * 2023-03-13 2024-03-01 中国科学院沈阳自动化研究所 面向资源受限的云-边协同实时调度方法
CN116361009B (zh) * 2023-05-19 2023-11-10 南京邮电大学 一种mec计算卸载、资源分配及缓存联合优化方法
CN117032994A (zh) * 2023-10-07 2023-11-10 中国信息通信研究院 工业互联网系统的卸载分配决策确定方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
WO2021067140A1 (en) * 2019-10-04 2021-04-08 Intel Corporation Edge computing technologies for transport layer congestion control and point-of-presence optimizations based on extended in-advance quality of service notifications
CN113067873A (zh) * 2021-03-19 2021-07-02 北京邮电大学 基于深度强化学习的边云协同优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10440096B2 (en) * 2016-12-28 2019-10-08 Intel IP Corporation Application computation offloading for mobile edge computing
CN110413392B (zh) * 2019-07-25 2022-11-29 北京工业大学 一种移动边缘计算场景下制定单任务迁移策略的方法
CN112367353B (zh) * 2020-10-08 2021-11-05 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021067140A1 (en) * 2019-10-04 2021-04-08 Intel Corporation Edge computing technologies for transport layer congestion control and point-of-presence optimizations based on extended in-advance quality of service notifications
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN113067873A (zh) * 2021-03-19 2021-07-02 北京邮电大学 基于深度强化学习的边云协同优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint Channel and Power Allocation Based on Stackelberg for D2D Communications in Cellular Networks;Xin Wang,Zhihong Qian,Yuliang Cong,Xue Wang;《2020 IEEE Globecom Workshops》;20201211;全文 *
基于移动边缘计算的任务卸载策略研究;刘锐;《中国优秀硕士学位论文全文数据库》;20200331;全文 *

Also Published As

Publication number Publication date
CN113612843A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN113612843B (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
Chen et al. Energy-efficient task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge networks
CN109922479B (zh) 一种基于时延预估的计算任务卸载方法
CN111538587B (zh) 一种基于负载均衡的服务功能链重配置方法
CN111953758A (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN113286329B (zh) 基于移动边缘计算的通信和计算资源联合优化方法
CN111163143B (zh) 一种面向移动边缘计算的低时延任务卸载方法
CN112416603B (zh) 一种基于雾计算的联合优化系统和方法
CN112491957B (zh) 一种边缘网络环境下的分布式计算卸载方法及系统
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN114697333B (zh) 一种能量队列均衡的边缘计算方法
CN114938381B (zh) 一种基于深度强化学习的d2d-mec卸载方法
CN111511028B (zh) 一种多用户资源分配方法、装置、系统及存储介质
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN114706631B (zh) 基于深度q学习的移动边缘计算中卸载决策方法及系统
CN116233927A (zh) 一种在移动边缘计算中负载感知的计算卸载节能优化方法
CN117354934A (zh) 一种多时隙mec系统双时间尺度任务卸载和资源分配方法
CN112423320A (zh) 一种基于QoS和用户行为预测的多用户计算卸载方法
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN115499875A (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN114980160A (zh) 一种无人机辅助的太赫兹通信网络联合优化方法和装置
CN113452625A (zh) 基于深度强化学习的卸载调度与资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231213

Address after: No. 546, Luoyu Road, Hongshan District, Wuhan, Hubei Province, 430000

Patentee after: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co.,Ltd.

Address before: 130012 No. 2699 Qianjin Street, Jilin, Changchun

Patentee before: Jilin University