CN111414252A - 一种基于深度强化学习的任务卸载方法 - Google Patents

一种基于深度强化学习的任务卸载方法 Download PDF

Info

Publication number
CN111414252A
CN111414252A CN202010190186.7A CN202010190186A CN111414252A CN 111414252 A CN111414252 A CN 111414252A CN 202010190186 A CN202010190186 A CN 202010190186A CN 111414252 A CN111414252 A CN 111414252A
Authority
CN
China
Prior art keywords
task
user
representing
indicating
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010190186.7A
Other languages
English (en)
Other versions
CN111414252B (zh
Inventor
温醒醒
夏士超
李云
黄鸿锐
苏开荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010190186.7A priority Critical patent/CN111414252B/zh
Publication of CN111414252A publication Critical patent/CN111414252A/zh
Application granted granted Critical
Publication of CN111414252B publication Critical patent/CN111414252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线通信技术领域,具体为一种移动边缘计算下基于深度强化学习的任务卸载方法,包括:根据移动用户到达的任务,建立一个队列模型来描述移动用户的任务卸载问题;根据任务卸载的目标服务器及任务量设定约束条件;在约束条件下,采用一种无模型的强化学习机制构建以最小化系统成本为目标的优化问题;利用深度强化学习DDPG进行求解最优卸载策略;根据本发明可以实现在不知道信道状态信息的情形下,通过探索和训练来自适应调整MEC系统的任务卸载策略,实现系统的卸载成本最小化,提升用户体验。

Description

一种基于深度强化学习的任务卸载方法
技术领域
本发明涉及无线通信技术领域,特别涉及一种基于深度强化学习的任务卸载方法。
背景技术
近年来,随着移动互联网和物联网(Internet of Things,IoT)的快速发展和融合,使数据流量和终端设备连接量呈指数式增加。据预测,全球移动数据流量与第四代移动通信(The Fourth Generation Mobile Communication,4G)相比增长了1000倍。面对如此大的挑战,未来无线网络需要足够的通信容量去承载和处理海量的无线设备连接和高速的数据传输。与此同时,随着4K/8K视频、虚拟现实(Virtual Reality,VR)/增强现实(Augmneted Realityz,AR)、工业物联网、车联网等新兴业务的涌现,第五代移动通信技术(The Fifth Generation Mobile Communication,5G)正在由今天的人互联网、物联网向万物互联演进,由此产生了未来通信系统的普遍性和包容性。这使得移动边缘计算(MobileEdge Computing,MEC)作为一种新兴和有前景的计算范式应运而生,将计算和存储资源部署网络边缘,有效提升了用户业务体验。
目前,越来越多的新兴移动用于受益于MEC技术。但是海量多元化设备接入物联网,使得数据量越来越大,对资源的要求越来越高,仅仅依靠单一的蜂窝网络接入方式提供服务使得资源的分配过程越来越复杂。目前,异构网络(Heterogeneous Networks,HetNets)密集化的部署方案是增强室内和边缘网络的覆盖范围的有效技术,因此在异构无线环境下通过MEC对网络资源分配是一种新的方法,一方面可以利用异构网络的多样性为移动用户提供更多的服务选择,另一方面可以为移动用户提供足够大的网络容量,实现低延迟的服务以及满意的用户体验。
但是现有的异构无线网络环境下MEC网络在确定任务卸载中没有考虑到任务卸载环境的复杂性,即请求任务的信息和网络状态往往都是动态变化的,这种动态特性会影响任务分配的成功率和效率;因此急需一种具有自适应性任务卸载策略,使得基于异构MEC网络中请求任务信息以及网络状态信息能够根据变化实时调整任务分配调度,使异构无线环境下的MEC系统能够工作在最佳的状态的方法。
发明内容
为解决以上现有技术问题,本发明提出了一种基于深度强化学习的任务卸载方法,该方法包括:根据获取的用户信息构建任务队列模型,根据任务队列模型得到用户的卸载任务量;设定任务卸载约束条件,根据任务卸载约束条件判断是否执行任务卸载以及卸载到本地或者卸载到基站;采用有限状态马尔可夫模型模确定系统的无线信道,通过信道的信噪比表征信道状态,根据信道状态确定任务卸载的传输成本;根据卸载的任务构建任务卸载系统模型,通过务卸载系统模型确定最小化系统成本的优化问题;采用DDPG模型求解最优的任务卸载及计算资源分配策略。
优选的,任务队列模型为:
Figure BDA0002415587180000021
优选的,设定的卸载约束条件包括:
Figure BDA0002415587180000022
Figure BDA0002415587180000023
Figure BDA0002415587180000024
优选的,通过信道的信噪比表征信道状态的过程包括:
将与每个基站相连的无线信道的SNR的值范围划分为{SNRn,n=1,2,...,d}d个非重叠等级,其中SNRn表示SNR的一个等级;用户j在时隙t随机选择的SNR的样本空间Ωj(t)表示为
Figure BDA0002415587180000025
所有用户在时隙t的样本空间的笛卡尔积为:
Figure BDA0002415587180000031
优选的,确定最小化系统成本的优化问题的过程包括:
确定用户j的计算决策
Figure BDA0002415587180000032
Figure BDA0002415587180000033
表示移动用户j选择模式i执行计算任务计算,
Figure BDA0002415587180000034
表示其他;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示SBS i执行计算任务;
根据计算决策、选择的计算模式以及用户信息确定卸载决策向量
Figure BDA0002415587180000035
计算每个用户j的卸载决策到目标服务器的任务量
Figure BDA0002415587180000036
其中
Figure BDA0002415587180000037
表示移动用户j在本地执行计算的任务量;根据任务量求出系统的通信成本和计算成本;对通信成本和计算成本进行优化,求出最小成本。
进一步的最小化系统成本为目标的优化问题为:
Figure BDA0002415587180000038
Figure BDA0002415587180000039
优选的,DDPG模型包括:系统状态空间
Figure BDA00024155871800000310
动作空间
Figure BDA00024155871800000311
系统奖赏函数
Figure BDA00024155871800000312
所述系统状态空间
Figure BDA00024155871800000313
包括:
s(t)=(SNR0(t),SNR1(t),...,SNRN(t),
Q1(t),...,QU(t))
所述动作空间
Figure BDA00024155871800000314
包括:
A(t)=(a1(t),a2(t),...,aj(t),...,aU(t),
b1(t),b2(t),...,bj(t),...,bU(t)
f1(t),f2(t),...,fj(t),...,fU(t))
所述系统奖赏函数
Figure BDA00024155871800000315
包括:
Figure BDA00024155871800000316
优选的,求解最优的任务卸载及计算资源分配策略的过程包括:在进行任务的卸载过程中每个状态-动作对对应相应的行动值函数,也称作Q函数,采用卷积神经网络对Q函数进行模拟,得到Q网络,其中Q网络的参数为
Figure BDA0002415587180000043
采用另一个卷积神经网络对策略π进行模拟,得到策略网络,其中策略网络的参数为
Figure BDA0002415587180000044
将获取的样本数据保存为四元组的形式(s(t),a(t),
Figure BDA0002415587180000045
s(t+1)),并存储到样本池;在样本池中随机抽取小批量样本数据对策略网络进行训练,计算参数
Figure BDA0002415587180000046
Figure BDA0002415587180000047
的最优解,得到最优的任务卸载;根据最优的的任务卸载分配资源。
本发明利用DDPG技术提出一种基于深度强化学习的任务卸载方法,使得MEC系统的任务卸载策略具有自适应性,解决了移动用户任务卸载的目标服务器及任务卸载量的问题,实现了系统成本的最小化,提升了用户体验。
附图说明
图1为本发明的系统模型图;
图2为本发明的流程示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例的基于深度强化学习的任务卸载方法系统模型图,假设异构(Macro-Small Cell)场景的MEC网络模型由一个宏基站(Macro Base Station,MBS)和N个小基站(Small celle Station,SBS)组成以及U个用户组成,SBSs和移动用户随机分布在MBS的覆盖范围内。为了表述方便,定义
Figure BDA0002415587180000041
Figure BDA0002415587180000042
分别表示系统内基站和用户的集合。特别地,当i=1表示MBS,i>1和j分别表示SBSi和用户j。网络运营商把MEC服务器部署在MBS和SBSs上,MEC服务器具有一定的计算和存储能力并且通过基站与移动用户建立连接。本发明考虑一个离散时系系统模型,其中连续时间被分成离散的时间段
Figure BDA0002415587180000051
并且每一个时间段的持续时间由函数τ定义。对于每个用户j都有一个计算密集型任务需要完成,且都有一个数据队列用于缓冲要卸载的任务。定义移动用户j新到达的任务为随机变量的集合
Figure BDA0002415587180000052
由于在单位时隙内任务到达是有限的,有
Figure BDA0002415587180000053
假设每个随机变量Aj(t)服从独立同分布,则单位时隙内任务的平均到达率为
Figure BDA0002415587180000054
一种基于深度强化学习的任务卸载方法,如图2所示,该方法包括:
步骤一:移动用户请求计算任务,根据移动用户请求计算的任务的属性,构建任务队列模型,得到移动用户的卸载任务量,任务队列模型用来描述移动用户的任务卸载问题。
所述任务队列模型为:
Figure BDA0002415587180000055
其中,Qj(t)、bj(t)、γj
Figure BDA0002415587180000056
分别表示移动用户j在时隙t的开始等待处理的任务量、移动用户j在时隙t卸载的任务量、移动用户j的计算密度、移动用户j的最大容忍计算时间。
Figure BDA0002415587180000057
表示所有移动用户在t时隙的开始队列挤压的集合,因此,有:
Figure BDA0002415587180000058
其中,Qi(t+1)表示用户i在t+1时隙的开始等待处理的任务量,Qi(t)表示用户i在时隙t的开始等待处理的任务量,bi(t)表示用户i的任务卸载量。Ai(t)表示在用户i在时隙t的开始到达的任务量,
Figure BDA0002415587180000059
表示在第t时隙用户的集合,
进一步地,移动用户j的稳定性约束表示如下:
Figure BDA0002415587180000061
其中,T表示时隙的长度,
Figure BDA0002415587180000062
表示系统平均队列长度,sup函数表示求最小上界的函数,Qj(t)表示用户j在时隙t的开始等待处理的任务量,
Figure BDA0002415587180000063
表示Qj(t)的期望值。
步骤二:根据移动用户是否卸载,以及卸载到哪来设定约束条件。确保一个用户的计算任务在单位时隙只能选择本地执行或者卸载到一个服务器上。
进一步的,所述约束条件包括:
Figure BDA0002415587180000064
Figure BDA0002415587180000065
Figure BDA0002415587180000066
其中,
Figure BDA0002415587180000067
表示移动用户j是否卸载以及卸载到哪,t表示时隙的索引,当
Figure BDA0002415587180000068
表示移动用户j选择模式i执行计算任务计算;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示通过SBSi执行计算任务,MBS表示宏基站,SBSi表示第i个小基站;bj(t)表示用户j的任务卸载量,
Figure BDA0002415587180000069
表示移动用户j的最大任务卸载量,
Figure BDA00024155871800000610
表示队列的稳定性,U表示用户数量。
步骤三:使用有限状态马尔可夫模型模拟无线信道,并用信道信噪比(Signal toNoise Ratio,SNR)来表征信道的状态。
进一步地,与每个基站相连的无线信道的SNR的值范围被划分为{SNRn,n=1,2,...,d}d个非重叠等级,其中SNRn表示SNR的一个等级。那么,用户j在时隙t随机可选的SNR的样本空间Ωj(t)可表示为
Figure BDA00024155871800000611
其中
Figure BDA00024155871800000612
表示在时隙t时用户j与基站i之间的SNR随机变量。基于此,所有用户在时隙t的样本空间的笛卡尔积为:
Figure BDA00024155871800000613
其中,SNR表示信道的信噪比,Ω(t)表示所有用户在时隙t的样本空间的笛卡尔积,Ωj(t)表示移动用户j在时隙的样本空间。
步骤四:建立任务卸载的系统模型,构建以最小化系统成本为目标的优化问题。
本发明定义用户j的计算决策为
Figure BDA0002415587180000071
它不仅表征用户是否卸载而表征着卸载到哪。具体来说,当
Figure BDA0002415587180000072
表示移动用户j选择模式i执行计算任务计算,
Figure BDA0002415587180000073
表示其他。i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示SBS i执行计算任务。因此我们有卸载决策向量
Figure BDA0002415587180000074
特别地,满足约束:
Figure BDA0002415587180000075
这表明一个用户只能一种计算模式。这里每个用户j具体决策卸载多少任务量到目标服务器用
Figure BDA0002415587180000076
表示,并用
Figure BDA0002415587180000077
表示移动用户j在本地执行计算的任务量。
其中,
Figure BDA0002415587180000078
表示用户数量,
Figure BDA0002415587180000079
表示移动用户j选择的计算任务,MBS表示宏基站,SBSi表示第i个小基站,u表示所有用户的集合,
Figure BDA00024155871800000710
表示所有基站的集合,
Figure BDA00024155871800000711
表示每个用户j具体决策卸载多少任务量。
在任卸载的过程中,所述任务卸载的系统模型包括:通信成本模型,计算成本模型。
进一步的,通信成本模型包括:
Figure BDA00024155871800000712
Figure BDA00024155871800000713
Figure BDA00024155871800000714
其中,
Figure BDA00024155871800000715
表示移动用户j在时隙t传输计算任务的通信成本,αi表示用户与基站i之间每单位时间的传输数据成本,
Figure BDA00024155871800000716
表示用户j到基站i的传输时延,
Figure BDA0002415587180000081
表示每个用户j具体决策卸载多少任务量,
Figure BDA0002415587180000082
表示用户j与基站i之间的传输速率,Bi表示基站i分配给用户的带宽,
Figure BDA0002415587180000083
表示在时隙t时用户j与基站i之间的SNR随机变量
所述计算成本模型包括本地计算和边缘计算两种模型,进一步的,本地计算模型包括:
Figure BDA0002415587180000084
Figure BDA0002415587180000085
其中,
Figure BDA0002415587180000086
表示用户j在时隙t本地计算消耗的能耗,
Figure BDA0002415587180000087
表示用户j本地计算每cpu频率消耗的能耗,
Figure BDA0002415587180000088
表示用户j本地计算执行的任务量,γj表示移动用户j的计算密度,
Figure BDA0002415587180000089
表示用户j在时隙t本地计算的时延,
Figure BDA00024155871800000810
表示用户j的计算能力。
进一步的,边缘计算模型包括:当用户j决定卸载时,计算任务将被传输到与MBS或SBSs相连的MEC服务器。然后MEC服务器代替用户j执行计算任务,用户j传输计算任务到基站i的时延和能量消耗分别为
Figure BDA00024155871800000811
以及
Figure BDA00024155871800000812
其中
Figure BDA00024155871800000813
表示用户j传输计算任务到基站i的时延,
Figure BDA00024155871800000814
表示用户j卸载到基站i的任务量,γj表示移动用户j的计算密度,
Figure BDA00024155871800000815
表示用户j传输计算任务到基站i的能耗,pj表示用户j的传输功率。
在异构无线网络中,考虑到MEC服务器的计算能力有限,本发明定义MEC服务器的计算容量为
Figure BDA00024155871800000816
使用
Figure BDA00024155871800000817
表示在时隙t时的计算资源分配向量集。其中
Figure BDA00024155871800000818
表示与MBS相连的MEC服务器在时隙t分配给用户j的计算资源,
Figure BDA0002415587180000091
表示与SBSi相连的MEC服务器在时隙t分配给用户j的计算资源。同时本发明定义计算资源分配集F满足以下约束:
Figure BDA0002415587180000092
其中
Figure BDA0002415587180000093
表示基站i分配给用户j的计算资源,
Figure BDA0002415587180000094
表示MEC服务器的计算容量。当
Figure BDA0002415587180000095
时,用户j边缘计算的时间
Figure BDA0002415587180000096
为:
Figure BDA0002415587180000097
其中
Figure BDA0002415587180000098
表示用户卸载到基站i的任务量,γj表示移动用户j的计算密度,其中
Figure BDA0002415587180000099
表示基站i分配给用户j的计算资源。进一步的,用户j任务卸载过程中的的计算成本和能量消耗可表示为:
Figure BDA00024155871800000910
Figure BDA00024155871800000911
其中
Figure BDA00024155871800000912
表示用户j任务卸载过程中的的计算成本,βi表示MECi每单位时间的计算成本,
Figure BDA00024155871800000913
表示用户j在基站i的计算的时间,
Figure BDA00024155871800000914
表示用户j卸载任务到MEC服务器i的过程中的能量消耗,表示用户j传输计算任务到基站i的能耗。进一步的,可得到用户j完成计算任务的时延可表示为:
Figure BDA00024155871800000915
其中Tj(t)为用户j完成计算任务的时延,
Figure BDA00024155871800000916
表示用户j选择计算的模式,
Figure BDA00024155871800000917
表示表示用户j在基站i的计算的时间,
Figure BDA00024155871800000918
表示用户j在本地执行计算,
Figure BDA00024155871800000919
表示用户j在本地计算的时间,
Figure BDA00024155871800000920
用户j卸载任务到基站i过程中的能量消耗,
Figure BDA00024155871800000921
表示本地执行过程中的能量消耗。
所述最小化系统时间平均成本开销为目标的优化问题包括:
Figure BDA00024155871800000922
Figure BDA0002415587180000101
其中,
Figure BDA0002415587180000102
表示用户j选择计算的模式,
Figure BDA0002415587180000103
表示用户j卸载任务到MEC服务器i的过程中的能量消耗,
Figure BDA0002415587180000104
表示移动用户j在时隙t传输计算任务的通信成本,
Figure BDA0002415587180000105
表示用户j任务卸载过程中的的计算成本,
Figure BDA0002415587180000106
表示本地执行过程中的能量消耗,
Figure BDA0002415587180000107
表示本地执行过程中的能量消耗。
Figure BDA0002415587180000108
表示系统时间平均成本开销,T表示时隙的总长度,sup函数为求最小上界的函数,
Figure BDA0002415587180000109
表示求期望,C(t)表示系统成本开销。
步骤五:采用DDPG模型,根据任务请求的随机性以及MEC网络的动态变化,求解最优的任务卸载及计算资源分配策略。
所述DDPG模型包括:系统状态空间
Figure BDA00024155871800001010
动作空间
Figure BDA00024155871800001011
系统奖赏函数
Figure BDA00024155871800001012
所述系统状态空间
Figure BDA00024155871800001013
包括:
s(t)=(SNR0(t),SNR1(t),...,SNRN(t),
Q1(t),...,QU(t))
其中
Figure BDA00024155871800001014
SNRi(t)表示基站i在时隙t的通信链路的SNR,Qi(t),表示移动用户j在时隙t的队列积压任务量。
所述动作空间
Figure BDA00024155871800001015
包括:
A(t)=(a1(t),a2(t),...,aj(t),...,aU(t),
b1(t),b2(t),...,bj(t),...,bU(t)
f1(t),f2(t),...,fj(t),...,fU(t))
其中
Figure BDA00024155871800001016
表示移动用户j选择计算的模式,
Figure BDA00024155871800001017
表示移动用户j选择模式i计算。bj(t)表示用户i在时间片t从队列中卸载的任务量,fj(t)表示分配给移动用户j的计算资源。
所述系统奖赏函数
Figure BDA00024155871800001018
包括:
Figure BDA00024155871800001019
其中,
Figure BDA00024155871800001020
表示用户j选择计算的模式,
Figure BDA00024155871800001021
表示用户j卸载任务到MEC服务器i的过程中的能量消耗,
Figure BDA0002415587180000111
表示移动用户j在时隙t传输计算任务的通信成本,
Figure BDA0002415587180000112
表示用户j任务卸载过程中的的计算成本,
Figure BDA0002415587180000113
表示本地执行过程中的能量消耗,
Figure BDA0002415587180000114
表示本地执行过程中的能量消耗。
进一步的,本发明将长期收益R(t)定义为:
Figure BDA0002415587180000115
其中γ表示折扣因子,是对未来奖励的衰减值,
Figure BDA0002415587180000116
表示系统的即使奖励。γ越大,意味着更新时对过去训练所得到的经验越重视,反之对当前的收益更重视。
进一步的,每一个状态-动作对都对应一个行动值函数(也称为Q-函数),用户可以根据Q值对任务卸载策略进行评估和改进,Q-函数定义为:在当前状态s(t)下采取动作a(t),并根据一定的策略π获得的累积奖励Qπ(s,a),基本方程表示如下:
Figure BDA0002415587180000117
其中
Figure BDA0002415587180000118
表示求期望,γ表示折扣因子。
本发明得到系统的系统状态,动作和奖赏函数表示后,利用深度强化学习DDPG进行求解。
Figure BDA0002415587180000119
Figure BDA0002415587180000121
即在DDPG模型中,使用一个卷积神经网络对上述Q-函数进行模拟,定义这个网络为Q网络,其参数为
Figure BDA0002415587180000123
同时再用一个参数为
Figure BDA0002415587180000124
的卷积神经网络对π函数进行模拟,得到策略网络,然后把用户与环境交互过程中获得的样本数据保存为一个四元组的形式
Figure BDA0002415587180000122
再将获得的样本数据存储到样本池,随后从样本池中随机抽取小批量样本数据对网络进行训练,寻找参数
Figure BDA0002415587180000125
Figure BDA0002415587180000126
的最优解。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的任务卸载方法,其特征在于:根据获取的用户信息构建任务队列模型,根据任务队列模型得到用户的卸载任务量;设定任务卸载约束条件,根据任务卸载约束条件判断是否执行任务卸载以及卸载到本地或者卸载到基站;采用有限状态马尔可夫模型模确定系统的无线信道,通过信道的信噪比表征信道状态,根据信道状态确定任务卸载的传输成本;构建任务卸载系统模型,通过任务卸载系统模型以及任务卸载的传输成本确定最小化系统成本的优化问题;采用DDPG模型求解最优的任务卸载和资源分配策略;
其中,MEC表示移边缘计算,DDPG表示深度强化学习模型。
2.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述任务队列模型Θi为:
Figure FDA0002415587170000011
其中,Qj(t)、bj(t)、γj
Figure FDA0002415587170000012
分别表示移动用户j在时隙t的开始等待处理的任务量、移动用户j在时隙t卸载的任务量、移动用户j的计算密度、移动用户j的最大容忍计算时间。
3.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述任务卸载约束条件包括:
Figure FDA0002415587170000013
Figure FDA0002415587170000014
Figure FDA0002415587170000015
其中,
Figure FDA0002415587170000016
表示移动用户j是否卸载以及卸载到哪,t表示时隙的索引,当
Figure FDA0002415587170000017
表示移动用户j选择模式i执行计算任务计算;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示通过SBSi执行计算任务,MBS表示宏基站,SBSi表示第i个小基站;bj(t)表示用户j的任务卸载量,
Figure FDA0002415587170000018
表示移动用户j的最大任务卸载量,
Figure FDA0002415587170000019
表示队列的稳定性,U表示用户数量。
4.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述通过信道的信噪比表征信道状态的过程包括:
将与每个基站相连的无线信道的SNR的值范围划分为d个非重叠等级,即{SNRn,n=1,2,...,d},其中SNRn表示SNR的一个等级;用户j在时隙t随机选择的SNR的样本空间Ωj(t)表示为
Figure FDA0002415587170000021
所有用户在时隙t的样本空间的笛卡尔积为:
Figure FDA0002415587170000022
其中,SNR表示信道的信噪比,Ω(t)表示所有用户在时隙t的样本空间的笛卡尔积,Ωj(t)表示移动用户j在时隙的样本空间。
5.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述确定最小化系统成本的优化问题的过程包括:
确定用户j的计算决策
Figure FDA0002415587170000023
Figure FDA0002415587170000024
表示移动用户j选择模式i执行计算任务,
Figure FDA0002415587170000025
表示其他;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示SBSi执行计算任务;
根据计算决策、选择的计算模式以及用户信息确定卸载决策向量
Figure FDA0002415587170000026
计算每个用户j的卸载决策到目标服务器的任务量
Figure FDA0002415587170000027
其中
Figure FDA0002415587170000028
表示移动用户j在本地执行计算的任务量;根据任务量求出系统的通信成本和计算成本;对通信成本和计算成本进行优化,求出最小成本;
其中,
Figure FDA0002415587170000029
表示用户数量,
Figure FDA00024155871700000210
表示移动用户j选择的计算任务,MBS表示宏基站,SBSi表示第i个小基站,
Figure FDA00024155871700000211
表示所有用户的集合,
Figure FDA00024155871700000212
表示所有基站的集合,
Figure FDA00024155871700000213
表示每个用户j具体决策卸载多少任务量。
6.根据权利要求5所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述获取通信成本的过程包括:
Figure FDA0002415587170000031
Figure FDA0002415587170000032
Figure FDA0002415587170000033
其中,
Figure FDA0002415587170000034
表示移动用户j在时隙t传输计算任务的通信成本,αi表示用户与基站i之间每单位时间的传输数据成本,
Figure FDA0002415587170000035
表示用户j到基站i的传输时延,
Figure FDA0002415587170000036
表示用户j与基站i之间的传输速率,Bi表示基站i分配给用户的带宽,
Figure FDA0002415587170000037
表示在时隙t时用户j与基站i之间的SNR随机变量。
7.根据权利要求5所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述本地计算包括:
Figure FDA0002415587170000038
Figure FDA0002415587170000039
其中,
Figure FDA00024155871700000310
表示用户j在时隙t本地计算消耗的能耗,
Figure FDA00024155871700000311
表示用户j本地计算每cpu频率消耗的能耗,
Figure FDA00024155871700000312
表示用户j本地计算执行的任务量,γj表示移动用户j的计算密度,
Figure FDA00024155871700000313
表示用户j在时隙t本地计算的时延,
Figure FDA00024155871700000314
表示用户j的计算能力;
所述边缘计算包括:计算用户传输计算任务到基站的时延
Figure FDA00024155871700000315
和能量消耗
Figure FDA00024155871700000316
用户的边缘计算时间为
Figure FDA00024155871700000317
则总的边缘计算时间为户传输计算任务到基站的时延与用户的边缘计算时间和;总的边缘计算消耗的能量为用户传输计算任务到基站的能量消耗与边缘计算的能量消耗的和。
8.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述最小化系统成本的优化问题为:
Figure FDA0002415587170000041
Figure FDA0002415587170000042
其中,
Figure FDA0002415587170000043
表示用户j选择计算的模式,
Figure FDA0002415587170000044
表示用户j卸载任务到MEC服务器i的过程中的能量消耗,
Figure FDA0002415587170000045
表示移动用户j在时隙t传输计算任务的通信成本,
Figure FDA0002415587170000046
表示用户j任务卸载过程中的的计算成本,
Figure FDA0002415587170000047
表示本地执行过程中的能量消耗,
Figure FDA0002415587170000048
表示系统时间平均成本开销,T表示时隙的总长度,sup函数为求最小上界的函数,
Figure FDA0002415587170000049
表示求期望,C(t)表示系统成本开销。
9.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述DDPG模型包括:系统状态空间
Figure FDA00024155871700000410
动作空间
Figure FDA00024155871700000411
系统奖赏函数
Figure FDA00024155871700000412
所述系统状态空间
Figure FDA00024155871700000413
包括:
s(t)=(SNR0(t),SNR1(t),...,SNRN(t),
Q1(t),...,QU(t))
其中,
Figure FDA00024155871700000414
SNRi(t)表示基站i在时隙t的通信链路的信噪比,Qi(t),表示移动用户j在时隙t的队列积压任务量;
所述动作空间
Figure FDA00024155871700000415
包括:
A(t)=(a1(t),a2(t),...,aj(t),...,aU(t),
b1(t),b2(t),...,bj(t),...,bU(t)
f1(t),f2(t),...,fj(t),...,fU(t))
其中
Figure FDA00024155871700000416
Figure FDA00024155871700000417
表示移动用户j选择计算的模式,
Figure FDA00024155871700000418
表示移动用户j选择模式i计算,bj(t)表示用户i在时间片t从队列中卸载的任务量,fj(t)表示分配给移动用户j的计算资源;
所述系统奖赏函数
Figure FDA00024155871700000419
包括:
Figure FDA00024155871700000420
其中,
Figure FDA00024155871700000421
表示用户j卸载任务到MEC服务器i的过程中的能量消耗,
Figure FDA00024155871700000422
表示移动用户j在时隙t传输计算任务的通信成本,
Figure FDA00024155871700000423
表示用户j任务卸载过程中的的计算成本,
Figure FDA0002415587170000051
表示本地执行过程中的能量消耗,
Figure FDA0002415587170000052
表示本地执行过程中的能量消耗。
10.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述求解最优的任务卸载及计算资源分配策略的过程包括:在进行任务的卸载过程中每个状态-动作对对应相应的行动值函数,也称作Q函数,采用卷积神经网络对Q函数进行模拟,得到Q网络,其中Q网络的参数为θμ;采用另一个卷积神经网络对策略π进行模拟,得到策略网络,其中策略网络的参数为θQ;将获取的样本数据保存为四元组的形式
Figure FDA0002415587170000053
并存储到样本池;在样本池中随机抽取小批量样本数据对策略网络进行训练,计算参数θμ和θQ的最优解,得到最优的任务卸载;根据最优的的任务卸载分配资源;
其中,s(t)表示系统当前的状态,a(t)表示采用的动作,
Figure FDA0002415587170000054
表示获得的奖赏,s(t+1)表示转移的下一个状态,θθ表示Q网络网络参数,θQ表示策略网络的参数。
CN202010190186.7A 2020-03-18 2020-03-18 一种基于深度强化学习的任务卸载方法 Active CN111414252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010190186.7A CN111414252B (zh) 2020-03-18 2020-03-18 一种基于深度强化学习的任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010190186.7A CN111414252B (zh) 2020-03-18 2020-03-18 一种基于深度强化学习的任务卸载方法

Publications (2)

Publication Number Publication Date
CN111414252A true CN111414252A (zh) 2020-07-14
CN111414252B CN111414252B (zh) 2022-10-18

Family

ID=71494437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010190186.7A Active CN111414252B (zh) 2020-03-18 2020-03-18 一种基于深度强化学习的任务卸载方法

Country Status (1)

Country Link
CN (1) CN111414252B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885155A (zh) * 2020-07-22 2020-11-03 大连理工大学 一种车联网资源融合的车载任务协作迁移方法
CN112039714A (zh) * 2020-11-05 2020-12-04 中国人民解放军国防科技大学 基于sla最小化跨站点数据分析成本的方法及装置
CN112148464A (zh) * 2020-10-30 2020-12-29 深圳供电局有限公司 一种移动边缘计算任务的卸载方法及系统
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112383931A (zh) * 2020-11-12 2021-02-19 东华大学 一种多用户移动边缘计算系统中最优化成本和时延方法
CN112579203A (zh) * 2020-12-23 2021-03-30 重庆邮电大学 异构边缘网络中基于服务器休眠的协同计算方法
CN112601256A (zh) * 2020-12-07 2021-04-02 广西师范大学 一种超密集网络中基于mec-sbs簇化的负载调度方法
CN112616152A (zh) * 2020-12-08 2021-04-06 重庆邮电大学 一种基于独立学习的移动边缘计算任务卸载方法
CN112689296A (zh) * 2020-12-14 2021-04-20 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112822234A (zh) * 2020-12-29 2021-05-18 华北电力大学 一种车联网中基于深度强化学习的任务卸载方法
CN112904890A (zh) * 2021-01-15 2021-06-04 北京国网富达科技发展有限责任公司 一种电力线路的无人机自动巡检系统及方法
CN113452625A (zh) * 2021-06-28 2021-09-28 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113573363A (zh) * 2021-07-27 2021-10-29 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113760511A (zh) * 2021-09-07 2021-12-07 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113810233A (zh) * 2021-09-17 2021-12-17 重庆邮电大学 一种在随机网络中基于算网协同的分布式计算卸载方法
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN114281528A (zh) * 2021-12-10 2022-04-05 重庆邮电大学 一种基于深度强化学习和异构Spark集群的节能调度方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
CN109947545A (zh) * 2019-03-11 2019-06-28 重庆邮电大学 一种基于用户移动性的任务卸载及迁移的决策方法
CN110351754A (zh) * 2019-07-15 2019-10-18 北京工业大学 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110427261A (zh) * 2019-08-12 2019-11-08 电子科技大学 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法
CN110493757A (zh) * 2019-09-29 2019-11-22 重庆大学 单服务器下降低系统能耗的移动边缘计算卸载方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
CN109947545A (zh) * 2019-03-11 2019-06-28 重庆邮电大学 一种基于用户移动性的任务卸载及迁移的决策方法
CN110351754A (zh) * 2019-07-15 2019-10-18 北京工业大学 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110427261A (zh) * 2019-08-12 2019-11-08 电子科技大学 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110493757A (zh) * 2019-09-29 2019-11-22 重庆大学 单服务器下降低系统能耗的移动边缘计算卸载方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUTONG XIE等: "Backscatter-Assisted Computation Offloading for Energy Harvesting IoT Devices via Policy-based Deep Reinforcement Learning", 《2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS WORKSHOPS IN CHINA》 *
薛宁等: "基于DRL的MEC任务卸载与资源调度方法", 《北京邮电大学学报》 *
袁友伟等: "面向边缘侧卸载优化的工作流动态关键路径调度算法", 《计算机集成制造系统》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885155A (zh) * 2020-07-22 2020-11-03 大连理工大学 一种车联网资源融合的车载任务协作迁移方法
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112148464A (zh) * 2020-10-30 2020-12-29 深圳供电局有限公司 一种移动边缘计算任务的卸载方法及系统
CN112148464B (zh) * 2020-10-30 2023-07-07 深圳供电局有限公司 一种移动边缘计算任务的卸载方法及系统
CN112039714A (zh) * 2020-11-05 2020-12-04 中国人民解放军国防科技大学 基于sla最小化跨站点数据分析成本的方法及装置
CN112383931A (zh) * 2020-11-12 2021-02-19 东华大学 一种多用户移动边缘计算系统中最优化成本和时延方法
CN112601256A (zh) * 2020-12-07 2021-04-02 广西师范大学 一种超密集网络中基于mec-sbs簇化的负载调度方法
CN112616152A (zh) * 2020-12-08 2021-04-06 重庆邮电大学 一种基于独立学习的移动边缘计算任务卸载方法
CN112616152B (zh) * 2020-12-08 2022-04-05 重庆邮电大学 一种基于独立学习的移动边缘计算任务卸载方法
CN112689296A (zh) * 2020-12-14 2021-04-20 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112689296B (zh) * 2020-12-14 2022-06-24 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112579203A (zh) * 2020-12-23 2021-03-30 重庆邮电大学 异构边缘网络中基于服务器休眠的协同计算方法
CN112822234A (zh) * 2020-12-29 2021-05-18 华北电力大学 一种车联网中基于深度强化学习的任务卸载方法
CN112904890A (zh) * 2021-01-15 2021-06-04 北京国网富达科技发展有限责任公司 一种电力线路的无人机自动巡检系统及方法
CN113452625A (zh) * 2021-06-28 2021-09-28 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113452625B (zh) * 2021-06-28 2022-04-15 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113573363A (zh) * 2021-07-27 2021-10-29 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113573363B (zh) * 2021-07-27 2024-01-23 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113612843B (zh) * 2021-08-02 2022-08-30 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113760511A (zh) * 2021-09-07 2021-12-07 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113760511B (zh) * 2021-09-07 2022-07-12 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113810233A (zh) * 2021-09-17 2021-12-17 重庆邮电大学 一种在随机网络中基于算网协同的分布式计算卸载方法
CN114281528A (zh) * 2021-12-10 2022-04-05 重庆邮电大学 一种基于深度强化学习和异构Spark集群的节能调度方法及系统

Also Published As

Publication number Publication date
CN111414252B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN109951821B (zh) 基于移动边缘计算的最小化车辆能耗任务卸载方案
CN110418416B (zh) 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
EP3605329A1 (en) Connected cache empowered edge cloud computing offloading
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN110098969B (zh) 一种面向物联网的雾计算任务卸载方法
Nassar et al. Reinforcement learning for adaptive resource allocation in fog RAN for IoT with heterogeneous latency requirements
CN109951869B (zh) 一种基于云雾混合计算的车联网资源分配方法
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
Huang et al. Vehicle speed aware computing task offloading and resource allocation based on multi-agent reinforcement learning in a vehicular edge computing network
CN112422644A (zh) 计算任务卸载方法及系统、电子设备和存储介质
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
CN111132074A (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN111988787B (zh) 一种任务的网络接入和服务放置位置选择方法及系统
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN113867843A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113411826A (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN115052262A (zh) 一种基于势博弈的车联网计算卸载与功率优化方法
CN115037751A (zh) 一种无人机辅助的异构车联网任务迁移与资源分配方法
CN117354934A (zh) 一种多时隙mec系统双时间尺度任务卸载和资源分配方法
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant