CN112911647A - 一种基于深度强化学习的计算卸载和资源分配方法 - Google Patents

一种基于深度强化学习的计算卸载和资源分配方法 Download PDF

Info

Publication number
CN112911647A
CN112911647A CN202110074232.1A CN202110074232A CN112911647A CN 112911647 A CN112911647 A CN 112911647A CN 202110074232 A CN202110074232 A CN 202110074232A CN 112911647 A CN112911647 A CN 112911647A
Authority
CN
China
Prior art keywords
resource allocation
reinforcement learning
deep reinforcement
task
allocation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110074232.1A
Other languages
English (en)
Inventor
柯洪昌
王慧
佘向飞
于萍
孔德刚
陈洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Institute of Applied Chemistry of CAS
Changchun Institute Technology
Original Assignee
Changchun Institute of Applied Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Institute of Applied Chemistry of CAS filed Critical Changchun Institute of Applied Chemistry of CAS
Priority to CN202110074232.1A priority Critical patent/CN112911647A/zh
Publication of CN112911647A publication Critical patent/CN112911647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于深度强化学习的计算卸载和资源分配方法,利用深度强化学习方法,即双深度Q学习方法去处理全局代价最小化问题,本发明方法在时变的通道状态和随机任务到达环境下,能够得到最优的计算卸载和资源分配策略,并且利用深度神经网络作为价值函数的优化器,能够降低高维状态空间引起的维度灾难和提高收敛速度。

Description

一种基于深度强化学习的计算卸载和资源分配方法
技术领域
本发明属于无线网络通信领域,尤其涉及一种基于深度强化学习的计算卸载和资源分配方法。
背景技术
随着无线网络技术的发展,尤其是5G的发展和6G的产生,在无线网络通信中,如何满足更高的通信和计算的服务质量(QoS)变得越来越重要。尽管无线设备(WD)的计算能力随着其处理器和制造工艺标准的提高而取得了长足进步,但是面对大量计算密集型或时延敏感型计算任务时,其处理能力仍不足以满足QoS。随着WD产生的计算数据呈指数级增长且具有严格的截止时间限制,WD的电池容量和资源限制仍然是瓶颈。因此,如何满足计算需求是一个关键挑战。在早期,利用具有大量计算资源的云计算技术是一种解决方案。早期,存在云计算中有一些关于计算任务卸载和资源分配的工作。但是,云计算服务器覆盖的区域很大,并且其位置与WD相距遥远,需要处理计算任务。这样,如何提高计算数据的传输时间和回程时间是一个亟待解决的难题。新兴的移动边缘计算(MEC)技术是云计算和雾计算的结合。通常,MEC位于更靠近WD的位置,并且具有比WD更大的计算能力。这样,MEC不仅可以解决云计算的传输时延问题,而且可以解决WD资源受限的问题。WD可以在截止期限约束下将计算任务与宏基站转移到MEC服务器。但是,在带宽资源约束下,应考虑MEC与WD之间的信道状态满足无线传输要求。当前,大部分基于MEC的计算卸载技术都采用二值卸载方案,即要么本地处理任务要么将任务卸载到MEC服务器上处理。当任务较大或可分时,二值卸载方案极大地降低了卸载效率,关于资源分配方案,大部分技术考虑了MEC服务器端有关计算资源的分配,但是很少有应用考虑了WD和MEC服务器之间的带宽资源分配,并且大部分关于资源分配的应用都是假设通道状态是固定的。但是在实际应用场景中,WD和MEC服务器之间的通道状态是时变的,并且WD产生的任务也是不固定的。
发明内容
考虑到时变的信道状态和随机到达的任务,本发明提出了一种基于深度强化学习的部分计算卸载和资源分配的优化方案,以共同优化延迟,能耗和带宽约束,获得最低的总成本。
为实现上述目的,本发明采用如下的技术方案:
一种基于深度强化学习的计算卸载和资源分配方法,包括以下步骤:
步骤1、初始化计算卸载模型,将周期e和时隙t设置为0;其中,所述计算卸载模型由多个无线设备、基站和移动边缘服务器组成,无线设备在每个时隙t内随机产生任务,将所述任务通过基站卸载到移动边缘服务器上执行;
步骤2、初始化主神经网络参数θ和目标神经网络参数θ’,初始化状态s;其中,所述状态s包括:每个时隙t内,每个无线设备与基站之间的时变通道状态、每个无线设备与基站之间的信噪比和无线设备产生的任务;
步骤3、智能体与环境做互动,根据贪婪策略执行动作a,获得奖励r,并收集下一状态s’;
步骤4、如果样本缓冲池溢出,则将四元组<s,a,r,s’>顺序存放入样本缓冲池M;否则,将<s,a,r,s’>随机存放入样本缓冲池,替换样本;
步骤5、随机从样本池中采样m个样本,进行训练;同时计算目标函数和损失函数;
步骤6、利用梯度下降法更新主网络参数θ,同时到达预设周期进行参数复制,即θ’←θ;
步骤7、如果得到最优策略且当前周期e小于最大周期Emax,则返回步骤1,并设置e←e+1;如果没有得到最优策略,则返回步骤2,并设置t←t+1。
进一步,步骤2中,所述时变通道状态Hm,w(t)采用如下公式表示:
Figure BDA0002906999520000031
其中,ρc为正则化的相关系数,t’为时间间隔,ec(t)为错误变量,服从均值为0的复高斯分布。
进一步,步骤2中,信噪比ζw(t)采用如下公式表示:
Figure BDA0002906999520000032
其中,Pm,w为无线设备与基站之间的传输功率,aw和hm,w分别是矩阵A和H的第w列,H是M×W通道矩阵,A是与H相关的迫零线性检测器矩阵。
进一步,步骤2中,WD产生的任务表示为:
Aw(t)≡(tsw(t),cw(t),Tw,max(t))
其中,tsw(t)是WD w的计算任务的输入大小,且计算任务的输入大小服从泊松分布,cw(t)是完成无线设备的计算任务所需的CPU周期数,并且Tw,max(t)是完成计算任务的截止日期。
进一步,步骤3中,所述每个时隙的动作a由两部分做出,即无线设备的任务卸载比例αw和资源分配比例βw,其范围为[0,1]。
进一步,奖励r为加权的全局代价的负值,定义为:
r=-C(t)=-ω1·Cd(t)-ω2·[Cm(t)+Cb(t)]-Pw
其中,Cd(t)为总延迟,Cm(t)为总能耗,Cb(t)为总的带宽代价,ω1、ω2为权重系数,满足ω12=1,Pw为无法在截止时间内完成任务的惩罚。
进一步,步骤5中,所述目标函数为:
y=r+maxγQ′(s′,argmaxQ(s′,a|θ),|θ′)
其中,Q(s,a)代表状态价值函数,为状态s下执行动作a得到的平均累积奖励,argmaxQ(s,a)为获得最大Q(s,a)时的动作a的值;
所述的损失函数为:
Figure BDA0002906999520000041
其中,
Figure BDA0002906999520000042
为期望值。
进一步,步骤6中,所述梯度下降法(LD)可表示为
Figure BDA0002906999520000051
即沿着主网络所有参数方向求导从而得到目标函数变化最大的方向。
进一步,步骤7中,所述最优策略π*为获得最大累积奖励时做选择的动作a,表示为
Figure BDA0002906999520000052
即获得最小加权的全局代价的计算卸载和资源分配策略。
进一步,所述随机采样是指在总长度为100000的缓冲池中选择随机索引的m的样本进行神经网络的输入。
本发明的基于深度强化学习的计算卸载和资源分配方法,目的是在时变的通道状态和随机任务到达环境下,得到最优的计算卸载和资源分配策略,以最小化加权的全局代价。本发明利用了一种深度强化学习方法,即双深度Q学习(Double Deep Q-Learning-DDQN)方法去处理全局代价最小化问题,本发明方法在没有任何通道状态、信噪比和到达的数据大小等先验知识条件下,能够得到最优的计算卸载和资源分配策略,并且利用深度神经网络作为价值函数的优化器,能够降低高维状态空间引起的维度灾难和提高收敛速度。
附图说明
图1为本发明实施例提供的多无线设备移动边缘计算网络模型示意图;
图2为本发明实施例提供的一种基于深度强化学习的计算卸载和资源分配方法示意图;
图3为本发明实施例提供的一种基于深度强化学习的计算卸载和资源分配方法对比效果示意图;
图4为本发明实施例提供的WD产生不同任务大小下各种算法对比示意图;
图5为本发明实施例提供的不同算法本地执行总延迟对比示意图;
图6为本发明实施例提供的不同算法计算卸载执行总延迟对比示意图;
图7为本发明实施例提供的不同算法计算卸载和资源分配总功耗对比示意图。
其中,1-WD1(无线设备1)、2-WD2(无线设备2)、3-WD3(无线设备2)、4-WD4(无线设备4)、5-WD5(无线设备5)、6-WD6(无线设备6)、7-BS(宏基站)、8-MEC服务器(移动边缘计算服务器)。
具体实施方式
本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法,用于具有多个WD和MEC服务器的通信系统。如图1所示,WD由智能电话、IoT节点或手表组成,并由MEC服务器覆盖;MEC服务器用于计算由WD生成的任务,并通过光纤链路连接到宏基站,以接收和发送计算任务。但是,WD的计算能力和电池电量有限,可能不足以进行任务计算。带有高性能处理器的MEC服务器位于WD的附近,因此只要在覆盖的通信区域内,MEC就可以充分利用WD来计算从WD卸载的任务。在设计的模型中,由WD连续产生的随机和计算密集型任务可以由宏基站通过高性能处理器部分本地执行或部分卸载到MEC。在不失一般性的前提下,令
Figure BDA0002906999520000071
表示WD集合,而m表示MEC服务器。然后,MEC系统中有W个WD,而MEC服务器m,宏基站m。然后,MEC服务器m具有任务缓冲区队列,用于存储从WD接收的计算数据。任务缓冲区队列的长度设置为Lm。本发明假设WD w具有要在MEC服务器m范围内处理的计算任务,并且该计算任务可以分为n个子任务。令
Figure BDA0002906999520000072
表示WD的子任务集,其中
Figure BDA0002906999520000073
Figure BDA0002906999520000074
子任务$n$可以在WD w本地执行,也可以卸载到MEC服务器m。
如图2所示,本发明实施例提供的一种基于深度强化学习的计算卸载和资源分配方法,包括如下步骤:
步骤1、初始化计算卸载模型,将周期e和时隙t设置为0
所述周期是指情景(Episode),即强化学习算法执行一轮,相对于深度学习中的一个批次;所述时隙指将连续的时间段分割成微小的离散时间间隔;计算卸载模型由多个无线设备(WD)、一个基站(BS)和一个移动边缘服务器(MEC server)组成,其中,WD在每个时隙t内随机产生任务,将所述任务通过BS卸载到MEC server上执行,WD和BS直接采样无线通信,BS和MEC直接距离很近,采样光纤通信。
步骤2、初始化神经网络的参数θ和θ’,初始化状态s
所述神经网络包含主网络、目标网络,θ为主网络参数,θ’为目标网络参数,这两个网络的结构和初始参数相同;所述的状态s包括三部分,即每个时隙t内,每个WD与BS之间的时变通道状态、每个WD与BS之间的信噪比和WD产生的任务,分别用Hm,w(t)、ζw(t)、和Aw(t)表示;
所述时变通道状态Hm,w(t)用如下公式表示:
Figure BDA0002906999520000081
其中,ρc为正则化的相关系数,t’为时间间隔,ec(t)为错误变量,服从均值为0的复高斯分布。
信噪比ζw(t)用如下公式表示:
Figure BDA0002906999520000082
其中,Pm,w为WD w与BS之间的传输功率,aw和hm,w分别是矩阵A和H的第w列,H是M×W通道矩阵,而A是与H相关的迫零线性检测器矩阵。
WD产生的任务表示为:
Aw(t)≡(tsw(t),cw(t),Tw,max(t))
其中,tsw(t)是WD w的计算任务的输入大小(以KB为单位),cw(t)是完成WD w的计算任务所需的CPU周期数,并且Tw,max(t)是完成计算任务的截止日期;计算任务的输入大小服从泊松分布。
步骤3、智能体与环境做互动,根据贪婪策略执行动作a,获得奖励r,并收集下一状态s’
所述智能体为无线设备,所述环境为所述计算卸载模型。下一状态s’为下一时隙的状态变量,形式与s相同。每个时隙的动作a由两部分做出,即WD w的任务卸载比例αw和资源分配比例βw,它们的范围为[0,1]。任务卸载比例αw决定了WD产生的资源需要卸载到MECserver的大小,资源分配比例βw决定了带宽分配比例,直接影响到数据传输速率和带宽代价。带宽分配比例越高,卸载任务的传输速率越快,延迟越小,但是带宽分配比例越高,带宽代价也越高,会影响全局代价。
奖励r为加权的全局代价的负值,定义为:
r=-C(t)=-ω1·Cd(t)-ω2·[Cm(t)+Cb(t)]-Pw
其中,Cd(t)为总延迟,Cm(t)为总能耗,Cb(t)为总的带宽代价,ω1、ω2为权重系数,满足ω12=1,Pw为无法在截止时间内完成任务的惩罚。
步骤4、判断样本缓冲池是否溢出
如果溢出,则将四元组<s,a,r,s’>顺序存放入样本缓冲池M;否则将<s,a,r,s’>随机存放入样本缓冲池,替换样本;其中,缓冲池为定义的存放<s,a,r,s’>四元组的数组或集合用M表示,总长度为100000,初始值设置为0。
步骤5、随机从样本池中采样m个样本,进行训练
所述m为最小批(mini-batch),即一次训练做采集的样本数,随机采样是指在总长度为100000的缓冲池中选择随机索引的m的样本进行神经网络的输入。
步骤6、计算目标函数和损失函数
所述目标函数为:
y=r+maxγQ′(s′,argmaxQ(s′,a|θ),|θ′)
其中,Q(s,a)代表状态价值函数,为状态s下执行动作a得到的平均累积奖励,argmaxQ(s,a)为获得最大Q(s,a)时的动作a的值。
所述的损失函数为:
Figure BDA0002906999520000101
其中,
Figure BDA0002906999520000102
为期望值。
步骤7、利用梯度下降法更新主网络的参数θ
所述梯度下降法(LD)可表示为
Figure BDA0002906999520000103
即沿着主网络所有参数方向求导从而得到目标函数变化最大的方向。
步骤8、到达预设周期进行参数复制,即θ’←θ
所述预设周期指为300,当每迭代到300轮后,将主网络的所有参数的值拷贝到对应的目标网络,作为目标网络所有参数值,达到定期更新替换的目的。
步骤9、如果得到最优策略,则判断当前周期e是否小于最大周期Emax,如果是,则返回步骤1,并设置e←e+1;如果没有得到最优策略,则返回步骤2,并设置t←t+1
所述最优策略用π*表示,指的是获得最大累积奖励时做选择的动作a,可表示为
Figure BDA0002906999520000104
即获得最大累积奖励(最小加权的全局代价)的计算卸载和资源分配策略。如果得到最优策略,则判断当前周期e是否小于最大周期Emax,如果没有得到,则返回(1),继续在当前周期e进行迭代处理。当满足e<Emax,则继续下一轮的迭代,直到e=Emax,执行结束。
本发明实施例假设在距MEC服务器100m的相等距离处散布W个WDs,并且MEC服务器通过光纤链路连接到宏基站。WD的数量为5,即W=5。每个WD的子任务数分为10个级别。时隙设置为t=1ms。此外,ρc=0.95,σ2=10-9.,cw(t)遵循1到8之间的均匀分布,基数为1.5*107,Tw,max=1ms。,pm,w=2W,Bm=5MHz。神经网络由一个输入层,两个完全连接的隐藏层和一个输出层构成。本发明提出方法的神经网络的部分超参数设置如下:将两个隐藏层中的神经元数分别设置为200和150。将的学习率设置为α=10-3。缓冲池的总大小为100000。将动作界限和状态界限分别设置为3、2。用于训练的最大情节Emax分别设置为1500。用于训练的时隙T的边界分别设置为300。最小批m的大小设置为64。复制到目标网络Cmax的频率设置为2048。无法在截止时间内完成任务的惩罚$P_w=10$。当调整系数的值设置为不同时,本发明实施例将描述提出方法的与其他方法的性能。如图3所示,给出了本发明提出方法与其他三种算法相比的平均累积奖励曲线。其他三种算法为贪婪策略,将全部卸载到MEC服务器和全部任务在本地WD端执行。为省略文字,本发明将本发明提出方法描述为(DRLPORA)、贪婪策略描述为(Greedy)、全部卸载到MEC服务器(AMEC)、全部任务在本地WD端执行(AWD)。平均累积奖励为本发明所述的加权总代价的负值平均累积奖励越大代表总代价越小,算法越优越。本发明将每个WD的到达计算任务的大小设置为5(服从possion分布)。为了平衡延迟,功耗和带宽的成本,将调整系数ω12设置为0.5。也就是说,总延迟的成本等于平均消耗能量和分配带宽的成本。DRLPORA的平均累积奖励高于其他三个算法。尽管在初始情节中DRLPORA的平均累积奖励并不高,但是通过训练过程,DRLPORA可以学习模拟环境的最佳策略。因此,由于学习分散,DRLPORA的性能优于Greedy,AMEC和AWD三种算法。Greedy算法选择通过本地执行或卸载来完成计算任务,以获得性能更好且稳定的最大累积奖励。AMEC算法将所有计算任务卸载到MEC服务器,并且不考虑计算任务的大小和带宽。由于计算任务的规模不是很大,带宽可以满足所有WD的要求,因此AMEC算法的性能不会受到太大影响。就AWD算法而言,对于所有WD而言,计算任务的规模太大,以致在截止期限约束下WD无法执行计算任务。由于无法完成任务而导致的罚款Pw太大,并且累积的奖励较少,这会影响AWD的性能。
如图4所示,本发明实施例将参数ω1设置为0.5。每个WD的总任务到达率的范围设置为[1.0,8.0]。因为DRLPORA能够学习到每个WD的部分计算卸载和资源分配的最佳策略。如图4所示,就平均累积奖励而言,无论到达计算任务的大小如何,DRLPORA的性能均优于其他算法。由于DRLPORA方法的神经网络的学习能力很强,所以随着任务到达率的提高,本发明提出的DRLPORA算法的性能要比其他算法好得多。
如图5所示,与其他算法相比,因为WD的处理能力比MEC服务器差很多,所以本发明实施例并没有列出AWD算法的曲线图。当Aw≥4时,大多数计算任务无法在本地执行。很容易知道,由于所有任务都已卸载到MEC服务器,因此AMEC算法的本地执行总延迟为0。DRLPORA和Greedy之间的性能差别不大。
如图6所示,就计算卸载的总延迟而言,由于所有任务都已卸载到MEC服务器,所以AMEC算法的总延迟最大。无论任务到达的大小为多少,DRLPORA的性能都优于Greedy算法,因为本发明提出的DRLPORA具有良好的学习处理能力。
如图7所示,尽管DRLPORA的总功耗性能比AMEC算法稍差,但是AMEC占用了MEC的更多资源。考虑到平均累积奖励r(加权总代价的负值),DRLPORA要大于Greedy和AMEC。因此,本发明提出的DRLPORA性能优于其他基线算法。
以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度强化学习的计算卸载和资源分配方法,其特征在于,包括以下步骤:
步骤1、初始化计算卸载模型,将周期e和时隙t设置为0;其中,所述计算卸载模型由多个无线设备、基站和移动边缘服务器组成,无线设备在每个时隙t内随机产生任务,将所述任务通过基站卸载到移动边缘服务器上执行;
步骤2、初始化主神经网络参数θ和目标神经网络参数θ’,初始化状态s;其中,所述状态s包括:每个时隙t内,每个无线设备与基站之间的时变通道状态、每个无线设备与基站之间的信噪比和无线设备产生的任务;
步骤3、智能体与环境做互动,根据贪婪策略执行动作a,获得奖励r,并收集下一状态s’;
步骤4、如果样本缓冲池溢出,则将四元组<s,a,r,s’>顺序存放入样本缓冲池M;否则,将<s,a,r,s’>随机存放入样本缓冲池,替换样本;
步骤5、随机从样本池中采样m个样本,进行训练;同时计算目标函数和损失函数;
步骤6、利用梯度下降法更新主网络参数θ,同时到达预设周期进行参数复制,即θ’←θ;
步骤7、如果得到最优策略且当前周期e小于最大周期Emax,则返回步骤1,并设置e←e+1;如果没有得到最优策略,则返回步骤2,并设置t←t+1。
2.如权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,所述时变通道状态Hm,w(t)采用如下公式表示:
Figure FDA0002906999510000021
其中,ρc为正则化的相关系数,t’为时间间隔,ec(t)为错误变量,服从均值为0的复高斯分布。
3.如权利要求2所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,信噪比ζw(t)采用如下公式表示:
Figure FDA0002906999510000022
其中,Pm,w为无线设备与基站之间的传输功率,aw和hm,w分别是矩阵A和H的第w列,H是M×W通道矩阵,A是与H相关的迫零线性检测器矩阵。
4.如权利要求3所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,WD产生的任务表示为:
Aw(t)≡(tsw(t),cw(t),Tw,max(t))
其中,tsw(t)是WD w的计算任务的输入大小,且计算任务的输入大小服从泊松分布,cw(t)是完成无线设备的计算任务所需的CPU周期数,并且Tw,max(t)是完成计算任务的截止日期。
5.如权利要求1或4所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤3中,所述每个时隙的动作a由两部分做出,即无线设备的任务卸载比例αw和资源分配比例βw,其范围为[0,1]。
6.如权利要求5所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,奖励r为加权的全局代价的负值,定义为:
r=-C(t)=-ω1·Cd(t)-ω2·[Cm(t)+Cb(t)]-Pw
其中,Cd(t)为总延迟,Cm(t)为总能耗,Cb(t)为总的带宽代价,ω1、ω2为权重系数,满足ω12=1,Pw为无法在截止时间内完成任务的惩罚。
7.如权利要求6所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤5中,所述目标函数为:
y=r+maxγQ′(s′,argmaxQ(s′,a|θ),|θ′)
其中,Q(s,a)代表状态价值函数,为状态s下执行动作a得到的平均累积奖励,argmaxQ(s,a)为获得最大Q(s,a)时的动作a的值;
所述的损失函数为:
Figure FDA0002906999510000031
其中,
Figure FDA0002906999510000032
为期望值。
8.如权利要求7所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤6中,所述梯度下降法(LD)可表示为▽θL,即沿着主网络所有参数方向求导从而得到目标函数变化最大的方向。
9.如权利要求8所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤7中,所述最优策略π*为获得最大累积奖励时做选择的动作a,表示为
Figure FDA0002906999510000041
即获得最小加权的全局代价的计算卸载和资源分配策略。
10.如权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤5中,所述随机采样是指在总长度为100000的缓冲池中选择随机索引的m的样本进行神经网络的输入。
CN202110074232.1A 2021-01-20 2021-01-20 一种基于深度强化学习的计算卸载和资源分配方法 Pending CN112911647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110074232.1A CN112911647A (zh) 2021-01-20 2021-01-20 一种基于深度强化学习的计算卸载和资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110074232.1A CN112911647A (zh) 2021-01-20 2021-01-20 一种基于深度强化学习的计算卸载和资源分配方法

Publications (1)

Publication Number Publication Date
CN112911647A true CN112911647A (zh) 2021-06-04

Family

ID=76116472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110074232.1A Pending CN112911647A (zh) 2021-01-20 2021-01-20 一种基于深度强化学习的计算卸载和资源分配方法

Country Status (1)

Country Link
CN (1) CN112911647A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573363A (zh) * 2021-07-27 2021-10-29 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN117528657A (zh) * 2024-01-04 2024-02-06 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONGCHANG KE: "Deep Reinforcement Learning-based Adaptive Computation Offloading for MEC in Heterogeneous Vehicular Networks", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
PENGFEI YAO: "Deep Reinforcement Learning Based Offloading Scheme for Mobile Edge Computing", 《2019 IEEE INTERNATIONAL CONFERENCE ON SMARTINTERNET OF THINGS(SMARTIOT)》 *
张 东: "基于深度强化学习的移动边缘卸载机制", 《舰船电子工程》 *
张文献: "面向多用户移动边缘计算轻量任务卸载优化", 《小型微型计算机系统》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573363A (zh) * 2021-07-27 2021-10-29 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113573363B (zh) * 2021-07-27 2024-01-23 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114490057B (zh) * 2022-01-24 2023-04-25 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN117528657A (zh) * 2024-01-04 2024-02-06 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117528657B (zh) * 2024-01-04 2024-03-19 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN112911647A (zh) 一种基于深度强化学习的计算卸载和资源分配方法
CN113950103B (zh) 一种移动边缘环境下多服务器完全计算卸载方法及系统
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113612843A (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
US11831708B2 (en) Distributed computation offloading method based on computation-network collaboration in stochastic network
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
US11784931B2 (en) Network burst load evacuation method for edge servers
CN114285853A (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN114760311A (zh) 一种面向移动边缘网络系统的优化服务缓存及计算卸载方法
CN116366576A (zh) 算力网络资源调度方法、装置、设备及介质
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN115190033A (zh) 一种基于强化学习的云边融合网络任务卸载方法
CN114449584B (zh) 基于深度强化学习的分布式计算卸载方法及装置
CN115408072A (zh) 基于深度强化学习的快速适应模型构建方法及相关装置
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN117579701A (zh) 一种移动边缘网络计算卸载方法及系统
CN114980160A (zh) 一种无人机辅助的太赫兹通信网络联合优化方法和装置
CN114698125A (zh) 移动边缘计算网络的计算卸载优化方法、装置及系统
CN113342529A (zh) 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法
CN116257361B (zh) 无人机辅助的易故障移动边缘计算资源调度优化方法
Vo et al. Reinforcement-Learning-Based Deadline Constrained Task Offloading Schema for Energy Saving in Vehicular Edge Computing System
CN117155798B (zh) 面向资源受限的云-边协同实时调度方法
Yang et al. Pruning-based Deep Reinforcement Learning for Task Offloading in End-Edge-Cloud Collaborative Mobile Edge Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604