CN116390125A - 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 - Google Patents

一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 Download PDF

Info

Publication number
CN116390125A
CN116390125A CN202310342081.2A CN202310342081A CN116390125A CN 116390125 A CN116390125 A CN 116390125A CN 202310342081 A CN202310342081 A CN 202310342081A CN 116390125 A CN116390125 A CN 116390125A
Authority
CN
China
Prior art keywords
mid
representing
network
server
ddpg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310342081.2A
Other languages
English (en)
Inventor
胡晗
朱兴武
周福辉
吴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310342081.2A priority Critical patent/CN116390125A/zh
Publication of CN116390125A publication Critical patent/CN116390125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/25Manufacturing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y20/00Information sensed or collected by the things
    • G16Y20/30Information sensed or collected by the things relating to resources, e.g. consumed power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/535Allocation or scheduling criteria for wireless resources based on resource usage policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Manufacturing & Machinery (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于DDPG‑D3QN的工业物联网云边协同卸载及资源分配方法,步骤如下:构建云边协同系统模型;计算系统模型的总时延和总能耗;确定和推导优化目标方程;根据优化目标方程,确定状态空间、动作空间和奖励函数;引入决斗双深度网络,构建DDPG‑D3QN混合决策强化学习网络;结合云边协同系统模型,优化DDPG‑D3QN混合决策强化学习网络参数;根据优化后的DDPG‑D3QN混合决策强化学习网络,得到最优的云边协同卸载和资源分配方案。本发明利用确定性策略梯度和决斗双深度网络来改进DDPG‑D3QN混合决策深度强化学习网络,极大提高了算法的稳定性和收敛速度,有效降低了云边协同系统的服务成本。

Description

一种基于DDPG-D3QN的工业物联网云边协同卸载及资源分配 方法
技术领域
本发明属于无线通信技术领域,尤其涉及基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法。
背景技术
随着新兴物联网时代的加速到来以及5G无线技术的快速发展,MID(Mobile IoTDevices,移动物联网设备)对数据速率和体验质量的要求呈指数级增长。这给自身通信计算资源有限的MID带来了挑战。MEC(Mobile Edge Computing,移动边缘计算)被认为是一种关键技术。相比于集中式的云计算,MID可以将部分任务卸载到计算资源较高的MEC中进行处理,从而获得较高的计算效率、较低的服务时延和较少的能量消耗。尽管MEC服务器相比于物联网终端设备有较多的计算资源,但是它仍然遭受着资源限制的问题。因此,结合云计算的云边协同的计算架构被许多研究中应用于为MEC服务器提高计算能力和缓解计算负载。然而随着工业生产设备数量的增加,通信端的移动性不可预知,加大了云边协同卸载和系统资源分配的难度,也为移动终端管理、资源分配指标带来了挑战。
现有的云边协同卸载和资源分配的优化方案主要分为两类,基于传统优化理论的方法和基于智能算法的方法。传统优化方法,如基于凸优化理论的方法,通过多次迭代来最小化资源分配的成本。但是这些方法常需要经过复杂迭代,且只能得到近似最优解,很难获得最佳的长期策略。此外,还需要已知环境的统计信息,这些信息在实际云边协同系统中很难获取。
基于智能算法的方法,尤其是基于深度强化学习的方法因其可以解决未知环境统计信息下的动态决策问题而备受关注。Min.M等人在其发表的论文“Learning-BasedComputation Offloading for IoT Devices With Energy Harvesting”(IEEETransactions on Vehicular Technology.,vol.68,no.2,pp.1930–1941,2019)提出了一种基于深度Q学习的资源优化方案方案,以优化服务器选择和卸载率离散动作,但是这种方案无法处理连续动作。Chen Z等人在其发表的论文“Decentralized ComputationOffloading for Multi-User Mobile Edge Computing:ADeep Reinforcement LearningApproach”(EURASIP Journal on Wireless Communications and Networking.,vol.2020,no.1,pp.1–21,2020)中提出了一种基于深度确定性策略梯度的方案,以优化连续的本地执行和卸载的功率分配。然而,这些工作中采用的模型要么是离散动作空间,要么是连续动作空间,在多服务器多用户物联网网络中可能无法很好地执行任务计算卸载。事实上,在多服务器多用户物联网场景中,每个MID不仅要决定关联哪个MEC服务器然后进行部分卸载,还要决定如何分配计算和通信资源,其动作域通常包括混合动作,即离散和连续动作。Zhang J等人在其发表的论文“Dynamic computation offloading with energyharvesting devices:Ahybrid-decision-based deep reinforcement learningapproach”(IEEE Internet of Things Journal.,vol.69,no.10,pp.9303–9317,2020)中提出了一种混合DDPG-DQN解决方案被应用于解决MEC系统中的连续离散决策。然而,该方案中基于DQN改进的Critic架构经常存在过估计问题,从而导致稳定性差和收敛速度慢。因此,亟需开发新的混合决策强化学习方法来提高算法的稳定性和收敛速度,从而有效降低云边协同系统的服务成本。
发明内容
本发明所要解决的技术问题是:针对工业物联网云边协同卸载场景下的资源分配问题,提供了基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,通过引入DDPG-D3QN混合决策深度强化学习,利用确定性策略梯度和决斗双深度Q网络来改进强化学习结构,获得节能且低时延的资源优化分配策略。
本发明为解决上述技术问题采用以下技术方案:
本发明提出的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法包括如下步骤:
S1、构建云边协同系统模型。
S2、根据步骤S1的模型计算系统的总时延和总能耗。
S3、以最小化时延和能耗为目标,确定和推导优化目标方程。
S4、根据优化目标方程,确定状态空间、动作空间和奖励函数。
S5、引入决斗双深度Q网络,构建DDPG-D3QN混合决策强化学习网络。
S6、结合云边协同系统,优化DDPG-D3QN混合决策强化学习网络参数。
S7、根据优化后的DDPG-D3QN混合决策强化学习网络获得优化的解,得到最优的云边协同卸载和资源分配方案。
进一步,步骤S1中,云边协同系统模型包括一个云服务器和M个MEC服务器。其中MEC服务器集记作M={1,2,...,M},为N个资源受限的MID提供计算卸载服务;MID集记作N={1,2,...,N}。该模型采用时隙结构表示任务处理时间,每个时隙由一个长度为Tf符号的帧表示。
在时隙t的开始,每个MID会生成一个大小为Dn(t)的计算任务,对计算任务中的(1-αn(t))Dn(t)部分进行本地处理,剩余的αn(t)Dn(t)部分将卸载到所选的MEC服务器中进行处理,αn(t)∈[0,1]表示MIDn在时隙t决定的卸载率。若MEC服务器提供的计算性能不足,MID把所选的MEC服务器作为中继节点,将计算任务转移到计算性能更高的云服务器上进行处理。
进一步,步骤S2中计算系统模型的总时延和总能耗的具体步骤如下:
S201、在时隙t中,MIDn对(1-αn(t))Dn(t)比特的计算任务进行本地处理,此时的时延和能耗分别为:
Figure BDA0004158288630000031
Figure BDA0004158288630000032
其中,Ln表示处理一比特任务所需的CPU周期数,
Figure BDA0004158288630000033
表示MIDn的CPU周期频率,
Figure BDA0004158288630000034
表示MIDn分配的本地处理功率。
S202、在时隙t中,MIDn将剩余的计算任务卸载至MEC服务器m中,若所选的MEC服务器m与时隙t初始所选的服务器不同,造成的基站切换时延为:
Figure BDA0004158288630000035
其中,ψ表示发生一次基站切换的时间;mn(t)∈M表示MIDn在时隙t中所选的MEC服务器;ln(t)表示MIDn在时隙t初始所选的服务器;当条件Ω满足时,1{Ω}为1,否则为0。
S203、在时隙t中,MIDn采用NOMA技术将剩余的计算任务卸载至MEC服务器m,使得当多个MID同时关联同一个基站进行计算任务的传输时,所有MIDs共享同一个上行信道进行传输。为了区分叠加信号,采用连续干扰消除解码,先对用户信道质量较好的进行解码,并从接受信号中分离出来,从而不会干扰到信道质量较差的用户。MIDn和MEC服务器m之间的传输速率为:
Figure BDA0004158288630000041
其中,B表示系统带宽,
Figure BDA0004158288630000042
表示MIDn的传输功率,σ2表示加性噪声功率,
Figure BDA0004158288630000043
表示MID n和MEC服务器m之间的信道增益,/>
Figure BDA0004158288630000044
表示其他MID的信号干扰。
S204、MIDn将αn(t)Dn(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为:
Figure BDA0004158288630000045
Figure BDA0004158288630000046
S205、在时隙t中,MIDn在不同的服务器中处理卸载任务,所造成的时延不同,具体内容为:
(1)在MEC服务器m上处理卸载任务时,该服务器处理MIDn的αn(t)Dn(t)比特卸载任务造成的时延为:
Figure BDA0004158288630000047
其中,yn表示MEC服务器m分配给MIDn卸载任务的计算资源比例,fm表示MEC服务器m的CPU周期频率。
(2)在云服务器上处理卸载任务时,所选的MEC服务器m将作为一个中继节点执行,MIDn通过MEC服务器m处理卸载任务造成的时延为:
Figure BDA0004158288630000051
其中,Nm,c(t)表示将计算任务通过MEC服务器m卸载给云服务器进行处理的MID集合,fc表示云服务器的计算资源,
Figure BDA0004158288630000052
表示MEC服务器m和云服务器之间的传输速率。
S206、在时隙t中,MEC服务器m将处理结果下传到MIDn,其数据大小为
Figure BDA0004158288630000053
块长度为/>
Figure BDA0004158288630000054
下行链路的信噪比为/>
Figure BDA0004158288630000055
其中,/>
Figure BDA0004158288630000056
表示链路n的平均信噪比,/>
Figure BDA0004158288630000057
表示下行链路信道增益;MIDn解码错误概率为:
Figure BDA0004158288630000058
S207、通过结合切换时延、传输时延和处理时延,MID进行计算卸载的时延为:
Figure BDA0004158288630000059
S208、MIDn在时隙t的总延时和总能耗为:
Figure BDA00041582886300000510
Figure BDA00041582886300000511
进一步,步骤S3中,确定优化目标方程的具体步骤如下:
S301、在资源限制和QoS要求的约束下,通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配,以最小化处理时间、消耗能量的长期平均系统成本,具体内容为:
Figure BDA0004158288630000061
s.t.αn(t)∈[0,1],n∈N,t∈T
yn∈[0,1],n∈N
Figure BDA0004158288630000062
Figure BDA0004158288630000063
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
Figure BDA0004158288630000064
En(t)<bn(t)+en(t),n∈N,t∈T
Figure BDA0004158288630000065
其中,ω1和ω2是加权参数,用于权衡消耗的时间和能量;αn(t)表示MIDn的任务卸载率;yn表示MEC服务器m分配给MIDn卸载任务的计算资源比例;
Figure BDA0004158288630000066
表示MIDn分配的本地处理功率;/>
Figure BDA0004158288630000067
表示MIDn的最大处理功率;N表示MIDs集合;M表示MEC服务器集合;cn,m(t)=1表示MIDn将任务通过MEC服务器卸载到云服务器执行,否则表示MIDn在MEC服务器上执行;T*表示最大时延限制;
Figure BDA0004158288630000068
表示下行链路的误码率;εDL *表示最大误码率限制;bn(t)表示时隙t初始时MIDn的电池电量;en(t)表示在时隙t采集到的能量。
S302、由于MEC服务器上的计算资源分配只与MID的卸载决策相关,当MID做出卸载决策之后,服务器的计算资源分配的优化是独立的,因此,根据给定的卸载率αn(t)和服务器选择xn(t),求解最优MEC资源分配问题,具体内容为:
Figure BDA0004158288630000071
Figure BDA0004158288630000072
yn≥0,n∈N。
该问题是关于yn的凸函数,其拉格朗日函数为:
Figure BDA0004158288630000073
其中,un和z均为拉格朗日乘子,yn∈[0,1],
Figure BDA0004158288630000074
最优解yn *满足Karush-Kuhn-Tucker条件,因此可得到以下公式:
Figure BDA0004158288630000075
Figure BDA0004158288630000076
Figure BDA0004158288630000077
MEC服务器上计算资源的最优分配为:
Figure BDA0004158288630000078
S303、根据步骤S302中得到的MEC服务器计算资源最优分配,将原优化目标方程转换为以下内容:
Figure BDA0004158288630000081
s.t.αn(t)∈[0,1],n∈N,t∈T
Figure BDA0004158288630000082
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
Figure BDA0004158288630000083
En(t)<bn(t)+en(t),n∈N,t∈T
Figure BDA0004158288630000084
进一步,步骤S4中,确定的状态空间、动作空间和奖励函数分别为:
(1)状态空间表示为:
Figure BDA0004158288630000085
其中,Sn(t)表示MIDn在时隙t时的状态,包括MIDn的计算任务大小Dn(t)、当前电池电量bn(t)、收集到的能量en(t)、MIDn的初始关联基站ln(t)、上行信道增益
Figure BDA0004158288630000086
和下行信道增益/>
Figure BDA0004158288630000087
Figure BDA0004158288630000088
表示所有MID状态的集合。
(2)动作空间分为连续动作空间
Figure BDA0004158288630000089
和离散动作空间xn(t);其中αn(t)和/>
Figure BDA00041582886300000810
为连续值,分别表示MIDn的卸载率和本地执行功率;xn(t)∈X={1,2,...,m,...2M}为离散值,表示MIDn对服务器的选择,其中m表示第m种服务器。
(3)奖励函数包括四个部分,第一部分是归一化的时延,第二部分是归一化的能耗,这两者都直接反映了所提出框架的计算卸载性能;第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励,第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚;归一化的时延和能耗如下:
Figure BDA0004158288630000091
Figure BDA0004158288630000092
其中,TLocal、ELocal表示整个任务都在本地处理时的时延和能耗;在每个时隙内,当MID计算任务满足解码错误概率限制且其传输时延和处理时延满足任务时延条件约束时,则表示已成功处理MID计算任务,智能体将获得相应的奖励;若MID计算任务超过解码错误概率的限制,即MID的实际错误概率超过门限值,并且总处理时间不满足延迟约束,则认为计算任务处理超时,表示任务处理失败,智能体将受到相应的惩罚。
处理任务的奖励或惩罚如下:
Figure BDA0004158288630000093
其中,rn,s(t)表示MIDn在时隙t中处理任务获得的奖励或惩罚,Tn(t)表示MID n在时隙t中的总处理时间,T*表示总时延限制,
Figure BDA0004158288630000094
表示在时隙t中MIDn解码错误概率,/>
Figure BDA0004158288630000095
表示解码错误概率限制;
奖励函数具体内容如下:
Figure BDA0004158288630000096
其中,
Figure BDA0004158288630000097
为归一化时延,表示rn,s(t)处理任务获得的奖励;/>
Figure BDA0004158288630000098
为归一化能耗,表示rn,s(t)处理任务获得的惩罚;Pn(t)为计算任务丢包的惩罚。
进一步,步骤S5中,DDPG-D3QN混合决策强化学习网络是Actor-Critic架构的扩展,其中每个MID都有一个Actor网络,并共享一个具有公共信息的集中式Critic网络。Actor网络可根据观察到的状态决定连续动作,即任务卸载率和本地执行功率。集中式Critic网络由决斗Q网络和双深度Q网络组成,用于评估和更新Actor网络,并基于所有MID的状态和连续动作来确定离散动作,即MID与MEC服务器和云服务器的关联。
进一步,步骤S6中,优化DDPG-D3QN混合决策强化学习网络参数的具体步骤如下:
S601、训练回合ep初始化为0。
S602、ep回合中的时隙t初始化为0。
S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数。
S604、根据输入状态
Figure BDA0004158288630000101
每个MID利用自身的Actor网络遍历所有的离散动作,生成相应的连续动作集;/>
Figure BDA0004158288630000102
表示MIDn的Actor网络生成的连续动作集,其中un,m(t)表示MIDn在第m种离散动作下相应的连续动作,所有MID生成的连续动作集表示为/>
Figure BDA0004158288630000103
S605、根据输入状态
Figure BDA0004158288630000104
和所有MID生成的连续动作集/>
Figure BDA0004158288630000105
通过集中式Critic网络得到每个MID的Q值,为/>
Figure BDA0004158288630000106
根据动作价值函数获取最终的离散动作和连续动作,具体如下:
Figure BDA0004158288630000107
Figure BDA0004158288630000108
其中,Qn(·)表示MIDn的动作价值函数,xn(t)表示MIDn的离散动作,θ表示Critic网络的可训练参数,
Figure BDA0004158288630000109
表示MIDn在离散动作xn(t)下的连续动作。
S606、执行所有MID的连续动作和离散动作,获得奖励r(t)和下一状态S(t+1),将训练集
Figure BDA0004158288630000111
存储到经验池中。
S607、T为每个ep回合的总时隙数,若满足t<T,则t=t+1,并返回步骤S604,否则进入步骤S608。
S608、从经验池中随机抽取K个训练集,用当前Critic网络中的决斗Q网络估计每个MID的状态值函数
Figure BDA0004158288630000112
和动作优势函数/>
Figure BDA0004158288630000113
在最后一层进行聚合输出状态动作值函数:
Figure BDA0004158288630000114
所有MID的总状态动作价值函数如下:
Figure BDA0004158288630000115
其中,θ表示当前Critic网络中可训练参数。
S609、利用目标Critic网络基于双深度Q网络计算目标值,具体公式如下:
Figure BDA0004158288630000116
其中,Qn(·|θ-)表示目标Critic网络的动作价值函数,Qn(·|θ)表示当前Critic网络的动作价值函数。
通过最小化损失函数来更新当前Critic网络,损失函数如下:
Figure BDA0004158288630000117
S610、通过计算策略梯度更新当前每个Actor网络,梯度更新的公式如下:
Figure BDA0004158288630000118
其中,μn表示MIDn当前Actor网络的策略函数,
Figure BDA0004158288630000119
表示MIDn动作价值函数的最大值。
S611、采用软更新方式更新目标Critic网络和目标Actor网络,具体公式如下:
θ-←ηθ+(1-η)θ-,β-←ηβ+(1-η)β-
其中,η表示更新系数,θ表示当前Critic网络参数,θ-表示目标Critic网络参数,β表示当前Actor网络参数,β-表示目标Actor网络参数。
S612、判断当前训练回合ep是否达到最大训练回合数,若是,则优化结束,否则赋值ep=ep+1,并返回步骤S602,继续实行整套步骤流程。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明基于DDPG-D3QN混合决策强化学习的资源分配方法可同时提供连续和离散的动态决策,提高了在实际应用中的灵活性。且与传统强化学习方法相比,本方法有效地降低了云边协同系统的服务成本。
(2)本发明设计的DDPG-D3QN混合决策强化学习网络,提升了算法稳定性和收敛速度,为实际场景中的实时性需求提供了保障。
(3)本发明主要解决了当存在多MID设备、多基站、多MEC服务器以及单个云服务器的情况下,如何确定离散和连续决策共存的资源分配策略问题以及混合决策强化学习算法稳定性差和收敛速度慢问题。
附图说明
图1是本发明基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法的总体流程图。
图2是本发明的云边协同系统框架图。
图3是采用本发明的DDPG-D3QN混合决策强化学习网络的训练框架图。
图4是采用本发明和现有其他技术的训练收敛速度对比图。
图5是采用本发明和现有其他技术在不同平均任务大小下的时延和能耗对比。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。如图1所示,本发明基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法的总体流程图,具体步骤如下:
S1、构建云边协同系统模型,如图2所示,在本实施例中,构建的云边协同系统包含一个云服务器和3个MEC服务器,云服务器提供云计算,MEC服务器提供边缘计算服务。MEC服务器集记作M={1,2,3},为16个资源受限的MID提供计算卸载服务。MID集记作N={1,2,...,16},MID使用能量收集设备提供能量。系统采用时隙结构表示任务处理时间,每个时隙由一个帧长为600符号、每个符号5μs表示。在时隙t的开始,每个MID会生成一个大小为Dn(t)、单位为KBit的计算任务,然后将计算任务的(1-αn(t))Dn(t)部分进行本地处理,将剩余的αn(t)Dn(t)部分卸载到所选的MEC服务器进行处理,其中Dn(t)∈[1.5,4],αn(t)∈[0,1]表示MIDn在时隙t决定的卸载率。当MEC服务器提供的计算性能不足时,MID将所选的MEC服务器作为中继节点,将计算任务转移到计算性能更高的云服务器上进行处理。
S2、根据步骤S1的模型计算系统的总时延和总能耗,具体步骤如下:
S201、在时隙t中,MIDn对(1-αn(t))Dn(t)比特的计算任务进行本地处理,此时的时延和能耗分别为:
Figure BDA0004158288630000131
Figure BDA0004158288630000132
其中,Ln=800表示处理一比特任务所需的CPU周期数;
Figure BDA0004158288630000133
表示MIDn的CPU周期频率;/>
Figure BDA0004158288630000134
表示MID n分配的本地处理功率,其最大值为/>
Figure BDA0004158288630000135
S202、在时隙t中,MIDn将剩余的计算任务卸载至MEC服务器m中,若所选的MEC服务器m与时隙t初始所选的服务器不同,造成的基站切换时延为:
Figure BDA0004158288630000136
其中,ψ=1.5ms表示发生一次基站切换的时间;mn(t)∈{1,2,3}表示MIDn在时隙t中所选的MEC服务器;ln(t)∈{1,2,3}表示MIDn在时隙t初始所选的服务器;当条件Ω满足时,1{Ω}为1,否则为0。
S203、在时隙t中,MIDn采用NOMA技术将剩余的计算任务卸载至MEC服务器m,使得当多个MID同时关联同一个基站进行计算任务的传输时,所有MIDs共享同一个上行信道进行传输。为了区分叠加信号,采用连续干扰消除解码,先对用户信道质量较好的进行解码,并从接受信号中分离出来,从而不会干扰到信道质量较差的用户。MIDn和MEC服务器m之间的传输速率为:
Figure BDA0004158288630000141
其中,B表示系统带宽,为5MHz;
Figure BDA0004158288630000142
表示MIDn的传输功率,/>
Figure BDA0004158288630000143
σ2表示加性噪声功率,σ2=-114dBm;/>
Figure BDA0004158288630000144
表示MIDn和MEC服务器m之间的信道增益;
Figure BDA0004158288630000145
表示其他MID的信号干扰,其中/>
Figure BDA0004158288630000146
S204、MIDn将αn(t)Dn(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为:
Figure BDA0004158288630000147
Figure BDA0004158288630000148
S205、在时隙t中,MIDn在不同的服务器中处理卸载任务,所造成的时延不同,具体内容为:
(1)在MEC服务器m上处理卸载任务时,该服务器处理MIDn的αn(t)Dn(t)比特卸载任务造成的时延为:
Figure BDA0004158288630000151
其中,yn∈[0,1]表示MEC服务器m分配给MIDn卸载任务的计算资源比例;fm表示MEC服务器m的CPU周期频率,fm=10GHz。
(2)在云服务器上处理卸载任务时,所选的MEC服务器m将作为一个中继节点执行,MIDn通过MEC服务器m处理卸载任务造成的时延为:
Figure BDA0004158288630000152
其中,Nm,c(t)表示将计算任务通过MEC服务器m卸载给云服务器进行处理的MID集合;fc表示云服务器的计算资源,fc=100GHz;
Figure BDA0004158288630000153
表示MEC服务器m和云服务器之前的传输速率,/>
Figure BDA0004158288630000154
S206、在时隙t中,MEC服务器m将处理结果下传到MIDn,其数据大小为
Figure BDA0004158288630000155
块长度为/>
Figure BDA0004158288630000156
下行链路的信噪比为/>
Figure BDA0004158288630000157
其中,/>
Figure BDA0004158288630000158
表示链路n的平均信噪比,/>
Figure BDA0004158288630000159
表示下行链路信道增益;MIDn解码错误概率为:
Figure BDA00041582886300001510
S207、通过结合切换时延、传输时延和处理时延,MID进行计算卸载的时延为:
Figure BDA0004158288630000161
S208、MIDn在时隙t的总延时和总能耗为:
Figure BDA0004158288630000162
Figure BDA0004158288630000163
S3、以最小化时延和能耗为目标,确定和推导优化目标方程,具体步骤如下:
S301、在资源限制和QoS要求的约束下,通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配,以最小化处理时间、消耗能量的长期平均系统成本,具体内容为:
Figure BDA0004158288630000164
s.t.αn(t)∈[0,1],n∈N,t∈T
yn∈[0,1],n∈N
Figure BDA0004158288630000165
Figure BDA0004158288630000166
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
Figure BDA0004158288630000167
En(t)<bn(t)+en(t),n∈N,t∈T
Figure BDA0004158288630000168
其中,ω1=8和ω2=2是加权参数,用于权衡消耗的时间和能量;αn(t)∈[0,1]表示MIDn的任务卸载率;yn∈[0,1]表示MEC服务器m分配给MIDn卸载任务的计算资源比例;
Figure BDA0004158288630000171
表示MIDn分配的本地处理功率,其中最大功率/>
Figure BDA0004158288630000172
N={1,2,...,16}表示MIDs集合;M={1,2,3}表示MEC服务器集合;cn,m(t)∈{0,1}是MID选择云服务决策,cn,m(t)=1表示MIDn将任务通过MEC服务器卸载到云服务器执行,否则表示MIDn在MEC服务器上执行;T*=3ms表示最大时延限制;/>
Figure BDA0004158288630000173
表示下行链路的误码率;εDL *=10-4表示最大误码率限制;bn(t)表示时隙t初始时MIDn的电池电量;en(t)表示在时隙t采集到的能量。
S302、由于MEC服务器上的计算资源分配只与MID的卸载决策相关,当MID做出卸载决策之后,服务器的计算资源分配的优化是独立的,因此,根据给定的卸载率αn(t)∈[0,1]和服务器选择xn(t)∈M,求解最优MEC资源分配问题,具体内容为:
Figure BDA0004158288630000174
Figure BDA0004158288630000175
yn≥0,n∈N。
该问题是关于yn的凸函数,其拉格朗日函数为:
Figure BDA0004158288630000176
其中,un和z均为拉格朗日乘子,yn∈[0,1],
Figure BDA0004158288630000177
最优解/>
Figure BDA0004158288630000178
满足Karush-Kuhn-Tucker条件,因此可得到以下公式:
Figure BDA0004158288630000179
Figure BDA0004158288630000181
Figure BDA0004158288630000182
MEC服务器上计算资源的最优分配为:
Figure BDA0004158288630000183
S303、根据步骤S302中得到的MEC服务器计算资源最优分配,将原优化目标方程转换为以下内容:
Figure BDA0004158288630000184
s.t.αn(t)∈[0,1],n∈N,t∈T
Figure BDA0004158288630000185
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
Figure BDA0004158288630000186
En(t)<bn(t)+en(t),n∈N,t∈T
Figure BDA0004158288630000187
S4、根据优化目标方程,确定状态空间、动作空间和奖励函数,分别为:
(1)状态空间表示为:
Figure BDA0004158288630000188
其中,Sn(t)表示MID n在时隙t时的状态,包括MID n的计算任务大小Dn(t)∈[1.5,4]、当前电池电量bn(t)、收集到的能量en(t)、MIDn的初始关联基站ln(t)∈{1,2,3}、上行信道增益
Figure BDA0004158288630000191
和下行信道增益
Figure BDA0004158288630000192
表示所有MID状态的集合。
(2)动作空间分为连续动作空间
Figure BDA0004158288630000196
和离散动作空间xn(t);其中αn(t)和/>
Figure BDA0004158288630000197
为连续值,分别表示MIDn的卸载率和本地执行功率;xn(t)∈X={1,2,...,m,...2M}为离散值,表示MIDn对服务器的选择,m表示第m种服务器。
(3)奖励函数包括四个部分,第一部分是归一化的时延,第二部分是归一化的能耗,这两者都直接反映了所提出框架的计算卸载性能;第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励,第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚;归一化的时延和能耗如下:
Figure BDA0004158288630000193
Figure BDA0004158288630000194
其中,TLocal、ELocal表示整个任务都在本地处理时的时延和能耗;在每个时隙内,当MID计算任务满足解码错误概率限制且其传输时延和处理时延满足任务时延条件约束时,则表示已成功处理MID计算任务,智能体将获得相应的奖励;若MID计算任务超过解码错误概率的限制,即MID的实际错误概率超过门限值,并且总处理时间不满足延迟约束,则认为计算任务处理超时,表示任务处理失败,智能体将受到相应的惩罚。
处理任务的奖励或惩罚如下:
Figure BDA0004158288630000195
其中,rn,s(t)表示MIDn在时隙t中处理任务获得的奖励或惩罚,Tn(t)表示MID n在时隙t中的总处理时间,T*=3ms表示总时延限制,
Figure BDA0004158288630000201
表示在时隙t中MIDn解码错误概率,
Figure BDA0004158288630000202
表示解码错误概率限制;
奖励函数具体内容如下:
Figure BDA0004158288630000203
/>
其中,
Figure BDA0004158288630000204
为归一化时延,表示rn,s(t)处理任务获得的奖励;/>
Figure BDA0004158288630000205
为归一化能耗,表示rn,s(t)处理任务获得的惩罚;Pn(t)为计算任务丢包的惩罚。
S5、如图3所示,引入决斗双深度Q网络,构建DDPG-D3QN混合决策强化学习网络,该网络是Actor-Critic架构的扩展,其中每个MID都有一个Actor网络,并共享一个具有公共信息的集中式Critic网络。Actor网络根据观察到的状态决定其连续动作,即任务卸载率和本地执行功率。集中式Critic网络由决斗Q网络和双深度Q网络组成,用于评估和更新Actor网络,并基于所有MID的状态和连续动作来确定离散动作,即MID与MEC服务器和云服务器的关联。
S6、结合云边协同系统,优化DDPG-D3QN混合决策强化学习网络参数,具体步骤如下:
S601、训练回合ep初始化为0。
S602、ep回合中的时隙t初始化为0。
S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数。
S604、根据输入状态
Figure BDA0004158288630000206
每个MID利用自身的Actor网络遍历所有的离散动作,生成相应的连续动作集;/>
Figure BDA0004158288630000207
表示MID n的Actor网络生成的连续动作集,其中un,m(t)表示MIDn在第m种离散动作下相应的连续动作,所有MID生成的连续动作集表示为/>
Figure BDA0004158288630000208
S605、根据输入状态
Figure BDA0004158288630000209
和所有MID生成的连续动作集/>
Figure BDA00041582886300002010
通过集中式Critic网络得到每个MID的Q值,为/>
Figure BDA0004158288630000211
根据动作价值函数获取最终的离散动作和连续动作,具体如下:
Figure BDA0004158288630000212
Figure BDA0004158288630000213
其中,Qn(·)表示MIDn的动作价值函数,xn(t)表示MIDn的离散动作,θ表示Critic网络的可训练参数,
Figure BDA0004158288630000214
表示MIDn在离散动作xn(t)下的连续动作。
S606、执行所有MID的连续动作和离散动作,获得奖励r(t)和下一状态S(t+1),将训练集
Figure BDA0004158288630000215
存储到经验池中。
S607、T为每个ep回合的总时隙数,若满足t<T,则t=t+1,并返回步骤S604,否则进入步骤S608。
S608、从经验池中随机抽取K个训练集,用当前Critic网络中的决斗Q网络估计每个MID的状态值函数
Figure BDA0004158288630000216
和动作优势函数/>
Figure BDA0004158288630000217
在最后一层进行聚合输出状态动作值函数:/>
Figure BDA0004158288630000218
所有MID的总状态动作价值函数如下:
Figure BDA0004158288630000219
其中,θ表示当前Critic网络中可训练参数。
S609、利用目标Critic网络基于双深度Q网络计算目标值,具体公式如下:
Figure BDA0004158288630000221
其中,Qn(·|θ-)表示目标Critic网络的动作价值函数,Qn(·|θ-)表示当前Critic网络的动作价值函数。
通过最小化损失函数来更新当前Critic网络,损失函数如下:
Figure BDA0004158288630000222
S610、通过计算策略梯度更新当前每个Actor网络,梯度更新的公式如下:
Figure BDA0004158288630000223
其中,μn表示MIDn当前Actor网络的策略函数,
Figure BDA0004158288630000224
表示MIDn动作价值函数的最大值。
S611、采用软更新方式更新目标Critic网络和目标Actor网络,具体公式如下:
θ-←ηθ+(1-η)θ-,β-←ηβ+(1-η)β-
其中,η表示更新系数,θ表示当前Critic网络参数,θ-表示目标Critic网络参数,β表示当前Actor网络参数,β-表示目标Actor网络参数。
S612、判断当前训练回合ep是否达到最大训练回合数,若是,则优化结束,否则赋值ep=ep+1,并返回步骤S602,继续实行整套步骤流程。
S7、根据优化后的DDPG-D3QN混合决策强化学习网络获得优化的解,得到最优的云边协同卸载和资源分配方案。
图4是本发明的DDPG-D3QN强化学习算法与现有强化学习算法平均奖励方面的收敛性能对比图。图中的横坐标表示训练回合索引,纵坐标表示平均奖励。以正方形标示的折线表示本发明的DDPG-D3QN强化学习算法平均奖励曲线,以圆形标示的折线表示DDPG-DQN算法的平均奖励曲线,以正三角形标示的折线表示DQN算法的平均奖励曲线。
为了评估本发明中提出的基于云边协同系统中的DDPG-D3QN强化学习算法框架,首先将其与DDPG-DQN算法进行比较。对于每个智能体,将训练回合设置为1000,每个回合包含100个步。在每一步中,智能体都必须不断地做出决策,与环境进行交互,并基于环境反馈不断地更新网络模型。可以看出,本发明的DDPG-D3QN强化学习算法、DDPG-DQN算法和DQN算法的平均奖励随着训练次数的增加而不断上升,最终趋于收敛。这一趋势表明MID在没有任何先验知识的情况下仍然可以学习有效的策略。注意,本发明提出的DDPG-D3QN强化学习算法在380集后开始收敛,600集后逐渐趋于稳定,而DDPG-DQN算法在500集后开始收敛,900集后逐渐趋于稳定,结果表明,利用决斗双深度Q网络重新设计的Critic网络,所提出的算法具有较快的收敛速度和较好的稳定性能。而且,本发明提出的DDPG-D3QN强化学习算法的最终平均奖励高于DDPG-DQN,进一步验证了本发明强化学习算法的有效性。
图5的(a)和图5的(b)展示了不同算法下平均任务大小对平均延时和能耗的影响。图中横坐标表示平均任务大小,纵坐标表示平均时延和平均能耗。以菱形标示的折线表示本发明的DDPG-D3QN强化学习算法,以正三角标示的折线表示DDPG-DQN算法,以倒三角形标示的折线表示DQN算法。
当平均任务大小从1.5KBits变为4KBits时从DDPG-D3QN中学习策略的平均消耗时间增加48.41%,从DDPG-DQN学习策略的平均消耗能量增加89.13%。随着MID平均任务大小的增加,计算任务处理的延迟增加,同时需要更多的能量来满足其卸载性能,相应的能量消耗也随之增加。然而,与其他基准相比,本发明中提出的DDPG-D3QN强化学习算法保持了最低的时间和能量消耗。
综合上述仿真结果和分析,本发明所提出的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,具有更好的稳定性和更快的收敛性。同时在不同的任务到达率下,平均系统服务成本明显降低。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,包括如下步骤:
S1、构建云边协同系统模型;
S2、根据步骤S1的模型计算总时延和总能耗;
S3、以最小化时延和能耗为目标,确定和推导优化目标方程;
S4、根据优化目标方程,确定状态空间、动作空间和奖励函数;
S5、引入决斗双深度Q网络,构建DDPG-D3QN混合决策强化学习网络;
S6、结合云边协同系统,优化DDPG-D3QN混合决策强化学习网络参数;
S7、根据优化后的DDPG-D3QN混合决策强化学习网络,得到最优的云边协同卸载和资源分配方案。
2.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S1中,云边协同系统模型包括一个云服务器和M个MEC服务器,MEC服务器集为N个资源受限的MID提供计算卸载服务;该模型系采用时隙结构表示任务处理时间;
在时隙t的开始,每个MID生成一个大小为Dn(t)的计算任务,对计算任务中的(1-αn(t))Dn(t)部分进行本地处理,剩余的αn(t)Dn(t)部分将卸载到所选的MEC服务器中进行处理,αn(t)∈[0,1]表示MID n在时隙t决定的卸载率;若MEC服务器提供的计算性能不足,MID把所选的MEC服务器作为中继节点,将计算任务转移到计算性能更高的云服务器上进行处理。
3.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S2中,计算系统模型的总时延和总能耗的具体步骤如下:
S201、在时隙t中,MID n对(1-αn(t))Dn(t)比特的计算任务进行本地处理,此时的时延和能耗分别为:
Figure FDA0004158288610000011
Figure FDA0004158288610000012
其中,Ln表示处理一比特任务所需的CPU周期数,
Figure FDA0004158288610000021
表示MID n的CPU周期频率,/>
Figure FDA0004158288610000022
表示MID n分配的本地处理功率;
S202、在时隙t中,MID n将剩余的计算任务卸载至MEC服务器m中,若所选的MEC服务器m与时隙t初始所选的服务器不同,造成的基站切换时延为:
Figure FDA0004158288610000023
其中,ψ表示发生一次基站切换的时间;mn(t)∈M表示MID n在时隙t中所选的MEC服务器;ln(t)表示MID n在时隙t初始所选的服务器;当条件Ω满足时,1{Ω}为1,否则为0;
S203、在时隙t中,MID n采用NOMA技术将剩余的计算任务卸载至MEC服务器m,采用连续干扰消除解码,MID n和MEC服务器m之间的传输速率为:
Figure FDA0004158288610000024
其中,B表示系统带宽,
Figure FDA0004158288610000025
表示MID n的传输功率,σ2表示加性噪声功率,/>
Figure FDA0004158288610000026
表示MID n和MEC服务器m之间的信道增益,/>
Figure FDA0004158288610000027
表示其他MID的信号干扰;
S204、MID n将αn(t)Dn(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为:
Figure FDA0004158288610000028
Figure FDA0004158288610000029
S205、在时隙t中,MID n在不同的服务器中处理卸载任务时,所造成的时延分别为:
(1)在MEC服务器m上处理卸载任务时,该服务器处理MID n的卸载任务造成的时延为:
Figure FDA0004158288610000031
其中,yn表示MEC服务器m分配给MID n卸载任务的计算资源比例,fm表示MEC服务器m的CPU周期频率;
(2)在云服务器上处理卸载任务时,所选的MEC服务器m将作为一个中继节点执行,MIDn通过MEC服务器m处理卸载任务造成的时延为:
Figure FDA0004158288610000032
其中,Nm,c(t)表示将计算任务通过MEC服务器m卸载给云服务器进行处理的MID集合,fc表示云服务器的计算资源,
Figure FDA0004158288610000033
表示MEC服务器m和云服务器之间的传输速率;
S206、在时隙t中,MEC服务器m将处理结果下传到MID n,其数据大小为
Figure FDA0004158288610000034
块长度为/>
Figure FDA0004158288610000035
下行链路的信噪比为/>
Figure FDA0004158288610000036
其中,/>
Figure FDA0004158288610000037
表示链路n的平均信噪比,/>
Figure FDA0004158288610000038
表示下行链路信道增益;MID n解码错误概率为:
Figure FDA0004158288610000039
S207、通过结合切换时延、传输时延和处理时延,MID进行计算卸载的时延为:
Figure FDA0004158288610000041
S208、MID n在时隙t的总延时和总能耗为:
Figure FDA0004158288610000042
Figure FDA0004158288610000043
4.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S3中,确定优化目标方程的具体步骤如下:
S301、在资源限制和QoS要求的约束下,通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配,以最小化处理时间、消耗能量的长期平均系统成本,具体内容为:
P1:
Figure FDA0004158288610000044
s.t.αn(t)∈[0,1],n∈N,t∈T
yn∈[0,1],n∈N
Figure FDA0004158288610000045
Figure FDA0004158288610000046
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
Figure FDA0004158288610000047
En(t)<bn(t)+en(t),n∈N,t∈T
Figure FDA0004158288610000048
其中,ω1和ω2是加权参数,用于权衡消耗的时间和能量;αn(t)表示MID n的任务卸载率;yn表示MEC服务器m分配给MID n卸载任务的计算资源比例;
Figure FDA0004158288610000049
表示MID n分配的本地处理功率;/>
Figure FDA0004158288610000051
表示MID n的最大处理功率;N表示MIDs集合;M表示MEC服务器集合;cn,m(t)=1表示MID n将任务通过MEC服务器卸载到云服务器执行,否则表示MID n在MEC服务器上执行;T*表示最大时延限制;/>
Figure FDA00041582886100000510
表示下行链路的误码率;εDL *表示最大误码率限制;bn(t)表示时隙t初始时MID n的电池电量;en(t)表示在时隙t采集到的能量;
S302、根据给定的卸载率αn(t)和服务器选择xn(t),求解最优MEC资源分配问题,具体内容为:
P2:
Figure FDA0004158288610000053
Figure FDA0004158288610000054
yn≥0,n∈N;
该问题是关于yn的凸函数,其拉格朗日函数为:
Figure FDA0004158288610000055
其中,un和z均为拉格朗日乘子;yn∈[0,1],
Figure FDA0004158288610000056
最优解/>
Figure FDA0004158288610000057
满足Karush-Kuhn-Tucker条件,得到以下公式:
Figure FDA0004158288610000058
Figure FDA0004158288610000059
Figure FDA0004158288610000061
MEC服务器上计算资源的最优分配为:
Figure FDA0004158288610000062
S303、根据步骤S302中得到的MEC服务器计算资源最优分配,确定新的优化目标方程,具体内容为:
P3:
Figure FDA0004158288610000063
s.t.αn(t)∈[0,1],n∈N,t∈T
Figure FDA0004158288610000064
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
Figure FDA0004158288610000065
En(t)<bn(t)+en(t),n∈N,t∈T
Figure FDA0004158288610000066
5.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S4中,状态空间、动作空间和奖励函数分别为:
(1)状态空间表示为:
Figure FDA0004158288610000067
其中,Sn(t)表示MID n在时隙t时的状态,包括MID n的计算任务大小Dn(t)、当前电池电量bn(t)、收集到的能量en(t)、MID n的初始关联基站ln(t)、上行信道增益
Figure FDA0004158288610000071
和下行信道增益/>
Figure FDA0004158288610000072
表示所有MID状态的集合;
(2)动作空间分为连续动作空间
Figure FDA0004158288610000073
和离散动作空间xn(t);其中αn(t)和/>
Figure FDA0004158288610000074
为连续值,分别表示MID n的卸载率和本地执行功率;xn(t)∈X={1,2,...,m,...2M}为离散值,表示MID n对服务器的选择,其中m表示第m种服务器;
(3)奖励函数包括四个部分,第一部分是归一化的时延,第二部分是归一化的能耗,第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励,第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚;归一化的时延和能耗如下:
Figure FDA0004158288610000075
Figure FDA0004158288610000076
其中,TLocal、ELocal表示整个任务进行本地处理时的时延和能耗;
处理任务的奖励或惩罚如下:
Figure FDA0004158288610000077
其中,rn,s(t)表示MID n在时隙t中处理任务获得的奖励或惩罚,Tn(t)表示MID n在时隙t中的总处理时间,T*表示总时延限制,
Figure FDA0004158288610000078
表示在时隙t中MID n解码错误概率,/>
Figure FDA0004158288610000079
表示解码错误概率限制;
奖励函数具体内容如下:
Figure FDA0004158288610000081
其中,
Figure FDA0004158288610000082
为归一化时延,表示rn,s(t)处理任务获得的奖励;/>
Figure FDA0004158288610000083
为归一化能耗,表示rn,s(t)处理任务获得的惩罚;Pn(t)为计算任务丢包的惩罚。
6.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S5中,DDPG-D3QN混合决策强化学习网络是Actor-Critic架构的扩展,其中每个MID都有一个Actor网络,并共享一个具有公共信息的集中式Critic网络;Actor网络根据观察到的状态决定任务卸载率和本地执行功率;集中式Critic网络由决斗Q网络和双深度Q网络组成,用于评估和更新Actor网络,并基于所有MID的状态和连续动作来确定MID与MEC服务器和云服务器的关联。
7.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S6中,优化DDPG-D3QN混合决策强化学习网络参数的具体步骤如下:
S601、训练回合ep初始化为0;
S602、ep回合中的时隙t初始化为0;
S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数;
S604、根据输入状态
Figure FDA0004158288610000084
每个MID利用自身的Actor网络遍历所有的离散动作,生成相应的连续动作集;所有MID生成的连续动作集表示为/>
Figure FDA0004158288610000085
S605、根据输入状态
Figure FDA0004158288610000086
和所有MID生成的连续动作集/>
Figure FDA0004158288610000087
通过集中式Critic网络得到每个MID的Q值,为/>
Figure FDA0004158288610000088
根据动作价值函数获取最终的离散动作和连续动作,具体如下:
Figure FDA0004158288610000089
Figure FDA00041582886100000810
其中,Qn(·)表示MID n的动作价值函数,xn(t)表示MID n的离散动作,θ表示Critic网络的可训练参数,
Figure FDA0004158288610000091
表示MID n在离散动作xn(t)下的连续动作;
S606、执行所有MID的连续动作和离散动作,获得奖励r(t)和下一状态S(t+1),将训练集
Figure FDA0004158288610000092
存储到经验池中;
S607、T为每个ep回合的总时隙数,若满足t<T,则t=t+1,并返回步骤S604,否则进入步骤S608;
S608、从经验池中随机抽取K个训练集,用当前Critic网络中的决斗Q网络估计每个MID的状态值函数
Figure FDA0004158288610000093
和动作优势函数/>
Figure FDA0004158288610000094
在最后一层进行聚合输出状态动作值函数:
Figure FDA0004158288610000095
所有MID的总状态动作价值函数如下:
Figure FDA0004158288610000097
其中,θ表示当前Critic网络中可训练参数;
S609、利用目标Critic网络基于双深度Q网络计算目标值,具体公式如下:
Figure FDA0004158288610000098
其中,Qn(·|θ-)表示目标Critic网络的动作价值函数,Qn(·|θ)表示当前Critic网络的动作价值函数;
通过最小化损失函数来更新当前Critic网络,损失函数如下:
Figure FDA0004158288610000101
S610、通过计算策略梯度更新当前每个Actor网络,梯度更新的公式如下:
Figure FDA0004158288610000102
其中,μn表示MID n当前Actor网络的策略函数,
Figure FDA0004158288610000103
表示MID n动作价值函数的最大值;
S611、采用软更新方式更新目标Critic网络和目标Actor网络,具体公式如下:
θ-←ηθ+(1-η)θ-,β-←ηβ+(1-η)β-
其中,η表示更新系数,θ表示当前Critic网络参数,θ-表示目标Critic网络参数,β表示当前Actor网络参数,β-表示目标Actor网络参数;
S612、判断当前训练回合ep是否达到最大训练回合数,若是,则优化结束,否则赋值ep=ep+1,并返回步骤S602。
CN202310342081.2A 2023-04-03 2023-04-03 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 Pending CN116390125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310342081.2A CN116390125A (zh) 2023-04-03 2023-04-03 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310342081.2A CN116390125A (zh) 2023-04-03 2023-04-03 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法

Publications (1)

Publication Number Publication Date
CN116390125A true CN116390125A (zh) 2023-07-04

Family

ID=86978264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310342081.2A Pending CN116390125A (zh) 2023-04-03 2023-04-03 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法

Country Status (1)

Country Link
CN (1) CN116390125A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684925A (zh) * 2023-07-24 2023-09-01 南京图策信息科技有限公司 一种无人机搭载智能反射面安全移动边缘计算方法
CN117519995A (zh) * 2024-01-05 2024-02-06 中国人民解放军陆军指挥学院 一种星地网络移动边缘计算资源分配方法
CN117714446A (zh) * 2024-02-02 2024-03-15 南京信息工程大学 一种卫星云边协同计算的卸载方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684925A (zh) * 2023-07-24 2023-09-01 南京图策信息科技有限公司 一种无人机搭载智能反射面安全移动边缘计算方法
CN116684925B (zh) * 2023-07-24 2023-11-14 南京图策信息科技有限公司 一种无人机搭载智能反射面安全移动边缘计算方法
CN117519995A (zh) * 2024-01-05 2024-02-06 中国人民解放军陆军指挥学院 一种星地网络移动边缘计算资源分配方法
CN117519995B (zh) * 2024-01-05 2024-03-22 中国人民解放军陆军指挥学院 一种星地网络移动边缘计算资源分配方法
CN117714446A (zh) * 2024-02-02 2024-03-15 南京信息工程大学 一种卫星云边协同计算的卸载方法及装置
CN117714446B (zh) * 2024-02-02 2024-04-16 南京信息工程大学 一种卫星云边协同计算的卸载方法及装置

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN113612843B (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
Liu et al. A constrained reinforcement learning based approach for network slicing
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN111565380B (zh) 车联网中基于noma-mec混合卸载方法
CN114138373A (zh) 一种基于强化学习的边缘计算任务卸载方法
Jia et al. Learning-based queuing delay-aware task offloading in collaborative vehicular networks
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
Lin et al. Joint offloading decision and resource allocation for multiuser NOMA-MEC systems
CN114980039A (zh) D2d协作计算的mec系统中的随机任务调度和资源分配方法
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
CN116634500A (zh) 基于超图匹配计算与通信容量增强的d2d计算卸载方法
Yu et al. User-centric heterogeneous-action deep reinforcement learning for virtual reality in the metaverse over wireless networks
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN117354934A (zh) 一种多时隙mec系统双时间尺度任务卸载和资源分配方法
Yu et al. Virtual reality in metaverse over wireless networks with user-centered deep reinforcement learning
Mishra et al. Raddpg: Resource allocation in cognitive radio with deep reinforcement learning
CN113452625B (zh) 基于深度强化学习的卸载调度与资源分配方法
CN111813538B (zh) 一种边缘计算资源分配方法
CN117729571B (zh) 一种动态mec网络中迁移决策与资源分配的联合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination