CN116390125A - 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 - Google Patents
一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 Download PDFInfo
- Publication number
- CN116390125A CN116390125A CN202310342081.2A CN202310342081A CN116390125A CN 116390125 A CN116390125 A CN 116390125A CN 202310342081 A CN202310342081 A CN 202310342081A CN 116390125 A CN116390125 A CN 116390125A
- Authority
- CN
- China
- Prior art keywords
- mid
- representing
- network
- server
- ddpg
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013468 resource allocation Methods 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 82
- 230000006870 function Effects 0.000 claims abstract description 49
- 230000002787 reinforcement Effects 0.000 claims abstract description 42
- 238000005265 energy consumption Methods 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 67
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 4
- 206010042135 Stomatitis necrotising Diseases 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 201000008585 noma Diseases 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims 1
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000003306 harvesting Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- GEKLDGQKEZAPFZ-UHFFFAOYSA-N 2-(ethylamino)-1-(3-methylphenyl)propan-1-one Chemical compound CCNC(C)C(=O)C1=CC=CC(C)=C1 GEKLDGQKEZAPFZ-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/25—Manufacturing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/30—Information sensed or collected by the things relating to resources, e.g. consumed power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/535—Allocation or scheduling criteria for wireless resources based on resource usage policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/509—Offload
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Manufacturing & Machinery (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于DDPG‑D3QN的工业物联网云边协同卸载及资源分配方法,步骤如下:构建云边协同系统模型;计算系统模型的总时延和总能耗;确定和推导优化目标方程;根据优化目标方程,确定状态空间、动作空间和奖励函数;引入决斗双深度网络,构建DDPG‑D3QN混合决策强化学习网络;结合云边协同系统模型,优化DDPG‑D3QN混合决策强化学习网络参数;根据优化后的DDPG‑D3QN混合决策强化学习网络,得到最优的云边协同卸载和资源分配方案。本发明利用确定性策略梯度和决斗双深度网络来改进DDPG‑D3QN混合决策深度强化学习网络,极大提高了算法的稳定性和收敛速度,有效降低了云边协同系统的服务成本。
Description
技术领域
本发明属于无线通信技术领域,尤其涉及基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法。
背景技术
随着新兴物联网时代的加速到来以及5G无线技术的快速发展,MID(Mobile IoTDevices,移动物联网设备)对数据速率和体验质量的要求呈指数级增长。这给自身通信计算资源有限的MID带来了挑战。MEC(Mobile Edge Computing,移动边缘计算)被认为是一种关键技术。相比于集中式的云计算,MID可以将部分任务卸载到计算资源较高的MEC中进行处理,从而获得较高的计算效率、较低的服务时延和较少的能量消耗。尽管MEC服务器相比于物联网终端设备有较多的计算资源,但是它仍然遭受着资源限制的问题。因此,结合云计算的云边协同的计算架构被许多研究中应用于为MEC服务器提高计算能力和缓解计算负载。然而随着工业生产设备数量的增加,通信端的移动性不可预知,加大了云边协同卸载和系统资源分配的难度,也为移动终端管理、资源分配指标带来了挑战。
现有的云边协同卸载和资源分配的优化方案主要分为两类,基于传统优化理论的方法和基于智能算法的方法。传统优化方法,如基于凸优化理论的方法,通过多次迭代来最小化资源分配的成本。但是这些方法常需要经过复杂迭代,且只能得到近似最优解,很难获得最佳的长期策略。此外,还需要已知环境的统计信息,这些信息在实际云边协同系统中很难获取。
基于智能算法的方法,尤其是基于深度强化学习的方法因其可以解决未知环境统计信息下的动态决策问题而备受关注。Min.M等人在其发表的论文“Learning-BasedComputation Offloading for IoT Devices With Energy Harvesting”(IEEETransactions on Vehicular Technology.,vol.68,no.2,pp.1930–1941,2019)提出了一种基于深度Q学习的资源优化方案方案,以优化服务器选择和卸载率离散动作,但是这种方案无法处理连续动作。Chen Z等人在其发表的论文“Decentralized ComputationOffloading for Multi-User Mobile Edge Computing:ADeep Reinforcement LearningApproach”(EURASIP Journal on Wireless Communications and Networking.,vol.2020,no.1,pp.1–21,2020)中提出了一种基于深度确定性策略梯度的方案,以优化连续的本地执行和卸载的功率分配。然而,这些工作中采用的模型要么是离散动作空间,要么是连续动作空间,在多服务器多用户物联网网络中可能无法很好地执行任务计算卸载。事实上,在多服务器多用户物联网场景中,每个MID不仅要决定关联哪个MEC服务器然后进行部分卸载,还要决定如何分配计算和通信资源,其动作域通常包括混合动作,即离散和连续动作。Zhang J等人在其发表的论文“Dynamic computation offloading with energyharvesting devices:Ahybrid-decision-based deep reinforcement learningapproach”(IEEE Internet of Things Journal.,vol.69,no.10,pp.9303–9317,2020)中提出了一种混合DDPG-DQN解决方案被应用于解决MEC系统中的连续离散决策。然而,该方案中基于DQN改进的Critic架构经常存在过估计问题,从而导致稳定性差和收敛速度慢。因此,亟需开发新的混合决策强化学习方法来提高算法的稳定性和收敛速度,从而有效降低云边协同系统的服务成本。
发明内容
本发明所要解决的技术问题是:针对工业物联网云边协同卸载场景下的资源分配问题,提供了基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,通过引入DDPG-D3QN混合决策深度强化学习,利用确定性策略梯度和决斗双深度Q网络来改进强化学习结构,获得节能且低时延的资源优化分配策略。
本发明为解决上述技术问题采用以下技术方案:
本发明提出的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法包括如下步骤:
S1、构建云边协同系统模型。
S2、根据步骤S1的模型计算系统的总时延和总能耗。
S3、以最小化时延和能耗为目标,确定和推导优化目标方程。
S4、根据优化目标方程,确定状态空间、动作空间和奖励函数。
S5、引入决斗双深度Q网络,构建DDPG-D3QN混合决策强化学习网络。
S6、结合云边协同系统,优化DDPG-D3QN混合决策强化学习网络参数。
S7、根据优化后的DDPG-D3QN混合决策强化学习网络获得优化的解,得到最优的云边协同卸载和资源分配方案。
进一步,步骤S1中,云边协同系统模型包括一个云服务器和M个MEC服务器。其中MEC服务器集记作M={1,2,...,M},为N个资源受限的MID提供计算卸载服务;MID集记作N={1,2,...,N}。该模型采用时隙结构表示任务处理时间,每个时隙由一个长度为Tf符号的帧表示。
在时隙t的开始,每个MID会生成一个大小为Dn(t)的计算任务,对计算任务中的(1-αn(t))Dn(t)部分进行本地处理,剩余的αn(t)Dn(t)部分将卸载到所选的MEC服务器中进行处理,αn(t)∈[0,1]表示MIDn在时隙t决定的卸载率。若MEC服务器提供的计算性能不足,MID把所选的MEC服务器作为中继节点,将计算任务转移到计算性能更高的云服务器上进行处理。
进一步,步骤S2中计算系统模型的总时延和总能耗的具体步骤如下:
S201、在时隙t中,MIDn对(1-αn(t))Dn(t)比特的计算任务进行本地处理,此时的时延和能耗分别为:
S202、在时隙t中,MIDn将剩余的计算任务卸载至MEC服务器m中,若所选的MEC服务器m与时隙t初始所选的服务器不同,造成的基站切换时延为:
其中,ψ表示发生一次基站切换的时间;mn(t)∈M表示MIDn在时隙t中所选的MEC服务器;ln(t)表示MIDn在时隙t初始所选的服务器;当条件Ω满足时,1{Ω}为1,否则为0。
S203、在时隙t中,MIDn采用NOMA技术将剩余的计算任务卸载至MEC服务器m,使得当多个MID同时关联同一个基站进行计算任务的传输时,所有MIDs共享同一个上行信道进行传输。为了区分叠加信号,采用连续干扰消除解码,先对用户信道质量较好的进行解码,并从接受信号中分离出来,从而不会干扰到信道质量较差的用户。MIDn和MEC服务器m之间的传输速率为:
S204、MIDn将αn(t)Dn(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为:
S205、在时隙t中,MIDn在不同的服务器中处理卸载任务,所造成的时延不同,具体内容为:
(1)在MEC服务器m上处理卸载任务时,该服务器处理MIDn的αn(t)Dn(t)比特卸载任务造成的时延为:
其中,yn表示MEC服务器m分配给MIDn卸载任务的计算资源比例,fm表示MEC服务器m的CPU周期频率。
(2)在云服务器上处理卸载任务时,所选的MEC服务器m将作为一个中继节点执行,MIDn通过MEC服务器m处理卸载任务造成的时延为:
S207、通过结合切换时延、传输时延和处理时延,MID进行计算卸载的时延为:
S208、MIDn在时隙t的总延时和总能耗为:
进一步,步骤S3中,确定优化目标方程的具体步骤如下:
S301、在资源限制和QoS要求的约束下,通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配,以最小化处理时间、消耗能量的长期平均系统成本,具体内容为:
s.t.αn(t)∈[0,1],n∈N,t∈T
yn∈[0,1],n∈N
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
En(t)<bn(t)+en(t),n∈N,t∈T
其中,ω1和ω2是加权参数,用于权衡消耗的时间和能量;αn(t)表示MIDn的任务卸载率;yn表示MEC服务器m分配给MIDn卸载任务的计算资源比例;表示MIDn分配的本地处理功率;/>表示MIDn的最大处理功率;N表示MIDs集合;M表示MEC服务器集合;cn,m(t)=1表示MIDn将任务通过MEC服务器卸载到云服务器执行,否则表示MIDn在MEC服务器上执行;T*表示最大时延限制;
S302、由于MEC服务器上的计算资源分配只与MID的卸载决策相关,当MID做出卸载决策之后,服务器的计算资源分配的优化是独立的,因此,根据给定的卸载率αn(t)和服务器选择xn(t),求解最优MEC资源分配问题,具体内容为:
yn≥0,n∈N。
该问题是关于yn的凸函数,其拉格朗日函数为:
MEC服务器上计算资源的最优分配为:
S303、根据步骤S302中得到的MEC服务器计算资源最优分配,将原优化目标方程转换为以下内容:
s.t.αn(t)∈[0,1],n∈N,t∈T
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
En(t)<bn(t)+en(t),n∈N,t∈T
进一步,步骤S4中,确定的状态空间、动作空间和奖励函数分别为:
(1)状态空间表示为:
其中,Sn(t)表示MIDn在时隙t时的状态,包括MIDn的计算任务大小Dn(t)、当前电池电量bn(t)、收集到的能量en(t)、MIDn的初始关联基站ln(t)、上行信道增益和下行信道增益/> 表示所有MID状态的集合。
(2)动作空间分为连续动作空间和离散动作空间xn(t);其中αn(t)和/>为连续值,分别表示MIDn的卸载率和本地执行功率;xn(t)∈X={1,2,...,m,...2M}为离散值,表示MIDn对服务器的选择,其中m表示第m种服务器。
(3)奖励函数包括四个部分,第一部分是归一化的时延,第二部分是归一化的能耗,这两者都直接反映了所提出框架的计算卸载性能;第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励,第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚;归一化的时延和能耗如下:
其中,TLocal、ELocal表示整个任务都在本地处理时的时延和能耗;在每个时隙内,当MID计算任务满足解码错误概率限制且其传输时延和处理时延满足任务时延条件约束时,则表示已成功处理MID计算任务,智能体将获得相应的奖励;若MID计算任务超过解码错误概率的限制,即MID的实际错误概率超过门限值,并且总处理时间不满足延迟约束,则认为计算任务处理超时,表示任务处理失败,智能体将受到相应的惩罚。
处理任务的奖励或惩罚如下:
奖励函数具体内容如下:
进一步,步骤S5中,DDPG-D3QN混合决策强化学习网络是Actor-Critic架构的扩展,其中每个MID都有一个Actor网络,并共享一个具有公共信息的集中式Critic网络。Actor网络可根据观察到的状态决定连续动作,即任务卸载率和本地执行功率。集中式Critic网络由决斗Q网络和双深度Q网络组成,用于评估和更新Actor网络,并基于所有MID的状态和连续动作来确定离散动作,即MID与MEC服务器和云服务器的关联。
进一步,步骤S6中,优化DDPG-D3QN混合决策强化学习网络参数的具体步骤如下:
S601、训练回合ep初始化为0。
S602、ep回合中的时隙t初始化为0。
S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数。
S604、根据输入状态每个MID利用自身的Actor网络遍历所有的离散动作,生成相应的连续动作集;/>表示MIDn的Actor网络生成的连续动作集,其中un,m(t)表示MIDn在第m种离散动作下相应的连续动作,所有MID生成的连续动作集表示为/>
S607、T为每个ep回合的总时隙数,若满足t<T,则t=t+1,并返回步骤S604,否则进入步骤S608。
所有MID的总状态动作价值函数如下:
其中,θ表示当前Critic网络中可训练参数。
S609、利用目标Critic网络基于双深度Q网络计算目标值,具体公式如下:
其中,Qn(·|θ-)表示目标Critic网络的动作价值函数,Qn(·|θ)表示当前Critic网络的动作价值函数。
通过最小化损失函数来更新当前Critic网络,损失函数如下:
S610、通过计算策略梯度更新当前每个Actor网络,梯度更新的公式如下:
S611、采用软更新方式更新目标Critic网络和目标Actor网络,具体公式如下:
θ-←ηθ+(1-η)θ-,β-←ηβ+(1-η)β-
其中,η表示更新系数,θ表示当前Critic网络参数,θ-表示目标Critic网络参数,β表示当前Actor网络参数,β-表示目标Actor网络参数。
S612、判断当前训练回合ep是否达到最大训练回合数,若是,则优化结束,否则赋值ep=ep+1,并返回步骤S602,继续实行整套步骤流程。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明基于DDPG-D3QN混合决策强化学习的资源分配方法可同时提供连续和离散的动态决策,提高了在实际应用中的灵活性。且与传统强化学习方法相比,本方法有效地降低了云边协同系统的服务成本。
(2)本发明设计的DDPG-D3QN混合决策强化学习网络,提升了算法稳定性和收敛速度,为实际场景中的实时性需求提供了保障。
(3)本发明主要解决了当存在多MID设备、多基站、多MEC服务器以及单个云服务器的情况下,如何确定离散和连续决策共存的资源分配策略问题以及混合决策强化学习算法稳定性差和收敛速度慢问题。
附图说明
图1是本发明基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法的总体流程图。
图2是本发明的云边协同系统框架图。
图3是采用本发明的DDPG-D3QN混合决策强化学习网络的训练框架图。
图4是采用本发明和现有其他技术的训练收敛速度对比图。
图5是采用本发明和现有其他技术在不同平均任务大小下的时延和能耗对比。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。如图1所示,本发明基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法的总体流程图,具体步骤如下:
S1、构建云边协同系统模型,如图2所示,在本实施例中,构建的云边协同系统包含一个云服务器和3个MEC服务器,云服务器提供云计算,MEC服务器提供边缘计算服务。MEC服务器集记作M={1,2,3},为16个资源受限的MID提供计算卸载服务。MID集记作N={1,2,...,16},MID使用能量收集设备提供能量。系统采用时隙结构表示任务处理时间,每个时隙由一个帧长为600符号、每个符号5μs表示。在时隙t的开始,每个MID会生成一个大小为Dn(t)、单位为KBit的计算任务,然后将计算任务的(1-αn(t))Dn(t)部分进行本地处理,将剩余的αn(t)Dn(t)部分卸载到所选的MEC服务器进行处理,其中Dn(t)∈[1.5,4],αn(t)∈[0,1]表示MIDn在时隙t决定的卸载率。当MEC服务器提供的计算性能不足时,MID将所选的MEC服务器作为中继节点,将计算任务转移到计算性能更高的云服务器上进行处理。
S2、根据步骤S1的模型计算系统的总时延和总能耗,具体步骤如下:
S201、在时隙t中,MIDn对(1-αn(t))Dn(t)比特的计算任务进行本地处理,此时的时延和能耗分别为:
S202、在时隙t中,MIDn将剩余的计算任务卸载至MEC服务器m中,若所选的MEC服务器m与时隙t初始所选的服务器不同,造成的基站切换时延为:
其中,ψ=1.5ms表示发生一次基站切换的时间;mn(t)∈{1,2,3}表示MIDn在时隙t中所选的MEC服务器;ln(t)∈{1,2,3}表示MIDn在时隙t初始所选的服务器;当条件Ω满足时,1{Ω}为1,否则为0。
S203、在时隙t中,MIDn采用NOMA技术将剩余的计算任务卸载至MEC服务器m,使得当多个MID同时关联同一个基站进行计算任务的传输时,所有MIDs共享同一个上行信道进行传输。为了区分叠加信号,采用连续干扰消除解码,先对用户信道质量较好的进行解码,并从接受信号中分离出来,从而不会干扰到信道质量较差的用户。MIDn和MEC服务器m之间的传输速率为:
S204、MIDn将αn(t)Dn(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为:
S205、在时隙t中,MIDn在不同的服务器中处理卸载任务,所造成的时延不同,具体内容为:
(1)在MEC服务器m上处理卸载任务时,该服务器处理MIDn的αn(t)Dn(t)比特卸载任务造成的时延为:
其中,yn∈[0,1]表示MEC服务器m分配给MIDn卸载任务的计算资源比例;fm表示MEC服务器m的CPU周期频率,fm=10GHz。
(2)在云服务器上处理卸载任务时,所选的MEC服务器m将作为一个中继节点执行,MIDn通过MEC服务器m处理卸载任务造成的时延为:
S207、通过结合切换时延、传输时延和处理时延,MID进行计算卸载的时延为:
S208、MIDn在时隙t的总延时和总能耗为:
S3、以最小化时延和能耗为目标,确定和推导优化目标方程,具体步骤如下:
S301、在资源限制和QoS要求的约束下,通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配,以最小化处理时间、消耗能量的长期平均系统成本,具体内容为:
s.t.αn(t)∈[0,1],n∈N,t∈T
yn∈[0,1],n∈N
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
En(t)<bn(t)+en(t),n∈N,t∈T
其中,ω1=8和ω2=2是加权参数,用于权衡消耗的时间和能量;αn(t)∈[0,1]表示MIDn的任务卸载率;yn∈[0,1]表示MEC服务器m分配给MIDn卸载任务的计算资源比例;表示MIDn分配的本地处理功率,其中最大功率/>N={1,2,...,16}表示MIDs集合;M={1,2,3}表示MEC服务器集合;cn,m(t)∈{0,1}是MID选择云服务决策,cn,m(t)=1表示MIDn将任务通过MEC服务器卸载到云服务器执行,否则表示MIDn在MEC服务器上执行;T*=3ms表示最大时延限制;/>表示下行链路的误码率;εDL *=10-4表示最大误码率限制;bn(t)表示时隙t初始时MIDn的电池电量;en(t)表示在时隙t采集到的能量。
S302、由于MEC服务器上的计算资源分配只与MID的卸载决策相关,当MID做出卸载决策之后,服务器的计算资源分配的优化是独立的,因此,根据给定的卸载率αn(t)∈[0,1]和服务器选择xn(t)∈M,求解最优MEC资源分配问题,具体内容为:
yn≥0,n∈N。
该问题是关于yn的凸函数,其拉格朗日函数为:
MEC服务器上计算资源的最优分配为:
S303、根据步骤S302中得到的MEC服务器计算资源最优分配,将原优化目标方程转换为以下内容:
s.t.αn(t)∈[0,1],n∈N,t∈T
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
En(t)<bn(t)+en(t),n∈N,t∈T
S4、根据优化目标方程,确定状态空间、动作空间和奖励函数,分别为:
(1)状态空间表示为:
其中,Sn(t)表示MID n在时隙t时的状态,包括MID n的计算任务大小Dn(t)∈[1.5,4]、当前电池电量bn(t)、收集到的能量en(t)、MIDn的初始关联基站ln(t)∈{1,2,3}、上行信道增益和下行信道增益表示所有MID状态的集合。
(2)动作空间分为连续动作空间和离散动作空间xn(t);其中αn(t)和/>为连续值,分别表示MIDn的卸载率和本地执行功率;xn(t)∈X={1,2,...,m,...2M}为离散值,表示MIDn对服务器的选择,m表示第m种服务器。
(3)奖励函数包括四个部分,第一部分是归一化的时延,第二部分是归一化的能耗,这两者都直接反映了所提出框架的计算卸载性能;第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励,第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚;归一化的时延和能耗如下:
其中,TLocal、ELocal表示整个任务都在本地处理时的时延和能耗;在每个时隙内,当MID计算任务满足解码错误概率限制且其传输时延和处理时延满足任务时延条件约束时,则表示已成功处理MID计算任务,智能体将获得相应的奖励;若MID计算任务超过解码错误概率的限制,即MID的实际错误概率超过门限值,并且总处理时间不满足延迟约束,则认为计算任务处理超时,表示任务处理失败,智能体将受到相应的惩罚。
处理任务的奖励或惩罚如下:
其中,rn,s(t)表示MIDn在时隙t中处理任务获得的奖励或惩罚,Tn(t)表示MID n在时隙t中的总处理时间,T*=3ms表示总时延限制,表示在时隙t中MIDn解码错误概率,表示解码错误概率限制;
奖励函数具体内容如下:
S5、如图3所示,引入决斗双深度Q网络,构建DDPG-D3QN混合决策强化学习网络,该网络是Actor-Critic架构的扩展,其中每个MID都有一个Actor网络,并共享一个具有公共信息的集中式Critic网络。Actor网络根据观察到的状态决定其连续动作,即任务卸载率和本地执行功率。集中式Critic网络由决斗Q网络和双深度Q网络组成,用于评估和更新Actor网络,并基于所有MID的状态和连续动作来确定离散动作,即MID与MEC服务器和云服务器的关联。
S6、结合云边协同系统,优化DDPG-D3QN混合决策强化学习网络参数,具体步骤如下:
S601、训练回合ep初始化为0。
S602、ep回合中的时隙t初始化为0。
S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数。
S604、根据输入状态每个MID利用自身的Actor网络遍历所有的离散动作,生成相应的连续动作集;/>表示MID n的Actor网络生成的连续动作集,其中un,m(t)表示MIDn在第m种离散动作下相应的连续动作,所有MID生成的连续动作集表示为/>
S607、T为每个ep回合的总时隙数,若满足t<T,则t=t+1,并返回步骤S604,否则进入步骤S608。
所有MID的总状态动作价值函数如下:
其中,θ表示当前Critic网络中可训练参数。
S609、利用目标Critic网络基于双深度Q网络计算目标值,具体公式如下:
其中,Qn(·|θ-)表示目标Critic网络的动作价值函数,Qn(·|θ-)表示当前Critic网络的动作价值函数。
通过最小化损失函数来更新当前Critic网络,损失函数如下:
S610、通过计算策略梯度更新当前每个Actor网络,梯度更新的公式如下:
S611、采用软更新方式更新目标Critic网络和目标Actor网络,具体公式如下:
θ-←ηθ+(1-η)θ-,β-←ηβ+(1-η)β-
其中,η表示更新系数,θ表示当前Critic网络参数,θ-表示目标Critic网络参数,β表示当前Actor网络参数,β-表示目标Actor网络参数。
S612、判断当前训练回合ep是否达到最大训练回合数,若是,则优化结束,否则赋值ep=ep+1,并返回步骤S602,继续实行整套步骤流程。
S7、根据优化后的DDPG-D3QN混合决策强化学习网络获得优化的解,得到最优的云边协同卸载和资源分配方案。
图4是本发明的DDPG-D3QN强化学习算法与现有强化学习算法平均奖励方面的收敛性能对比图。图中的横坐标表示训练回合索引,纵坐标表示平均奖励。以正方形标示的折线表示本发明的DDPG-D3QN强化学习算法平均奖励曲线,以圆形标示的折线表示DDPG-DQN算法的平均奖励曲线,以正三角形标示的折线表示DQN算法的平均奖励曲线。
为了评估本发明中提出的基于云边协同系统中的DDPG-D3QN强化学习算法框架,首先将其与DDPG-DQN算法进行比较。对于每个智能体,将训练回合设置为1000,每个回合包含100个步。在每一步中,智能体都必须不断地做出决策,与环境进行交互,并基于环境反馈不断地更新网络模型。可以看出,本发明的DDPG-D3QN强化学习算法、DDPG-DQN算法和DQN算法的平均奖励随着训练次数的增加而不断上升,最终趋于收敛。这一趋势表明MID在没有任何先验知识的情况下仍然可以学习有效的策略。注意,本发明提出的DDPG-D3QN强化学习算法在380集后开始收敛,600集后逐渐趋于稳定,而DDPG-DQN算法在500集后开始收敛,900集后逐渐趋于稳定,结果表明,利用决斗双深度Q网络重新设计的Critic网络,所提出的算法具有较快的收敛速度和较好的稳定性能。而且,本发明提出的DDPG-D3QN强化学习算法的最终平均奖励高于DDPG-DQN,进一步验证了本发明强化学习算法的有效性。
图5的(a)和图5的(b)展示了不同算法下平均任务大小对平均延时和能耗的影响。图中横坐标表示平均任务大小,纵坐标表示平均时延和平均能耗。以菱形标示的折线表示本发明的DDPG-D3QN强化学习算法,以正三角标示的折线表示DDPG-DQN算法,以倒三角形标示的折线表示DQN算法。
当平均任务大小从1.5KBits变为4KBits时从DDPG-D3QN中学习策略的平均消耗时间增加48.41%,从DDPG-DQN学习策略的平均消耗能量增加89.13%。随着MID平均任务大小的增加,计算任务处理的延迟增加,同时需要更多的能量来满足其卸载性能,相应的能量消耗也随之增加。然而,与其他基准相比,本发明中提出的DDPG-D3QN强化学习算法保持了最低的时间和能量消耗。
综合上述仿真结果和分析,本发明所提出的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,具有更好的稳定性和更快的收敛性。同时在不同的任务到达率下,平均系统服务成本明显降低。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,包括如下步骤:
S1、构建云边协同系统模型;
S2、根据步骤S1的模型计算总时延和总能耗;
S3、以最小化时延和能耗为目标,确定和推导优化目标方程;
S4、根据优化目标方程,确定状态空间、动作空间和奖励函数;
S5、引入决斗双深度Q网络,构建DDPG-D3QN混合决策强化学习网络;
S6、结合云边协同系统,优化DDPG-D3QN混合决策强化学习网络参数;
S7、根据优化后的DDPG-D3QN混合决策强化学习网络,得到最优的云边协同卸载和资源分配方案。
2.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S1中,云边协同系统模型包括一个云服务器和M个MEC服务器,MEC服务器集为N个资源受限的MID提供计算卸载服务;该模型系采用时隙结构表示任务处理时间;
在时隙t的开始,每个MID生成一个大小为Dn(t)的计算任务,对计算任务中的(1-αn(t))Dn(t)部分进行本地处理,剩余的αn(t)Dn(t)部分将卸载到所选的MEC服务器中进行处理,αn(t)∈[0,1]表示MID n在时隙t决定的卸载率;若MEC服务器提供的计算性能不足,MID把所选的MEC服务器作为中继节点,将计算任务转移到计算性能更高的云服务器上进行处理。
3.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S2中,计算系统模型的总时延和总能耗的具体步骤如下:
S201、在时隙t中,MID n对(1-αn(t))Dn(t)比特的计算任务进行本地处理,此时的时延和能耗分别为:
S202、在时隙t中,MID n将剩余的计算任务卸载至MEC服务器m中,若所选的MEC服务器m与时隙t初始所选的服务器不同,造成的基站切换时延为:
其中,ψ表示发生一次基站切换的时间;mn(t)∈M表示MID n在时隙t中所选的MEC服务器;ln(t)表示MID n在时隙t初始所选的服务器;当条件Ω满足时,1{Ω}为1,否则为0;
S203、在时隙t中,MID n采用NOMA技术将剩余的计算任务卸载至MEC服务器m,采用连续干扰消除解码,MID n和MEC服务器m之间的传输速率为:
S204、MID n将αn(t)Dn(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为:
S205、在时隙t中,MID n在不同的服务器中处理卸载任务时,所造成的时延分别为:
(1)在MEC服务器m上处理卸载任务时,该服务器处理MID n的卸载任务造成的时延为:
其中,yn表示MEC服务器m分配给MID n卸载任务的计算资源比例,fm表示MEC服务器m的CPU周期频率;
(2)在云服务器上处理卸载任务时,所选的MEC服务器m将作为一个中继节点执行,MIDn通过MEC服务器m处理卸载任务造成的时延为:
S207、通过结合切换时延、传输时延和处理时延,MID进行计算卸载的时延为:
S208、MID n在时隙t的总延时和总能耗为:
4.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S3中,确定优化目标方程的具体步骤如下:
S301、在资源限制和QoS要求的约束下,通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配,以最小化处理时间、消耗能量的长期平均系统成本,具体内容为:
s.t.αn(t)∈[0,1],n∈N,t∈T
yn∈[0,1],n∈N
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
En(t)<bn(t)+en(t),n∈N,t∈T
其中,ω1和ω2是加权参数,用于权衡消耗的时间和能量;αn(t)表示MID n的任务卸载率;yn表示MEC服务器m分配给MID n卸载任务的计算资源比例;表示MID n分配的本地处理功率;/>表示MID n的最大处理功率;N表示MIDs集合;M表示MEC服务器集合;cn,m(t)=1表示MID n将任务通过MEC服务器卸载到云服务器执行,否则表示MID n在MEC服务器上执行;T*表示最大时延限制;/>表示下行链路的误码率;εDL *表示最大误码率限制;bn(t)表示时隙t初始时MID n的电池电量;en(t)表示在时隙t采集到的能量;
S302、根据给定的卸载率αn(t)和服务器选择xn(t),求解最优MEC资源分配问题,具体内容为:
yn≥0,n∈N;
该问题是关于yn的凸函数,其拉格朗日函数为:
MEC服务器上计算资源的最优分配为:
S303、根据步骤S302中得到的MEC服务器计算资源最优分配,确定新的优化目标方程,具体内容为:
s.t.αn(t)∈[0,1],n∈N,t∈T
mn(t)∈M
cn,m(t)∈{0,1},n∈N,m∈M,t∈T
Tn(t)<T*,n∈N,t∈T
En(t)<bn(t)+en(t),n∈N,t∈T
5.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S4中,状态空间、动作空间和奖励函数分别为:
(1)状态空间表示为:
其中,Sn(t)表示MID n在时隙t时的状态,包括MID n的计算任务大小Dn(t)、当前电池电量bn(t)、收集到的能量en(t)、MID n的初始关联基站ln(t)、上行信道增益和下行信道增益/>表示所有MID状态的集合;
(2)动作空间分为连续动作空间和离散动作空间xn(t);其中αn(t)和/>为连续值,分别表示MID n的卸载率和本地执行功率;xn(t)∈X={1,2,...,m,...2M}为离散值,表示MID n对服务器的选择,其中m表示第m种服务器;
(3)奖励函数包括四个部分,第一部分是归一化的时延,第二部分是归一化的能耗,第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励,第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚;归一化的时延和能耗如下:
其中,TLocal、ELocal表示整个任务进行本地处理时的时延和能耗;
处理任务的奖励或惩罚如下:
其中,rn,s(t)表示MID n在时隙t中处理任务获得的奖励或惩罚,Tn(t)表示MID n在时隙t中的总处理时间,T*表示总时延限制,表示在时隙t中MID n解码错误概率,/>表示解码错误概率限制;
奖励函数具体内容如下:
6.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S5中,DDPG-D3QN混合决策强化学习网络是Actor-Critic架构的扩展,其中每个MID都有一个Actor网络,并共享一个具有公共信息的集中式Critic网络;Actor网络根据观察到的状态决定任务卸载率和本地执行功率;集中式Critic网络由决斗Q网络和双深度Q网络组成,用于评估和更新Actor网络,并基于所有MID的状态和连续动作来确定MID与MEC服务器和云服务器的关联。
7.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法,其特征在于,步骤S6中,优化DDPG-D3QN混合决策强化学习网络参数的具体步骤如下:
S601、训练回合ep初始化为0;
S602、ep回合中的时隙t初始化为0;
S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数;
S607、T为每个ep回合的总时隙数,若满足t<T,则t=t+1,并返回步骤S604,否则进入步骤S608;
所有MID的总状态动作价值函数如下:
其中,θ表示当前Critic网络中可训练参数;
S609、利用目标Critic网络基于双深度Q网络计算目标值,具体公式如下:
其中,Qn(·|θ-)表示目标Critic网络的动作价值函数,Qn(·|θ)表示当前Critic网络的动作价值函数;
通过最小化损失函数来更新当前Critic网络,损失函数如下:
S610、通过计算策略梯度更新当前每个Actor网络,梯度更新的公式如下:
S611、采用软更新方式更新目标Critic网络和目标Actor网络,具体公式如下:
θ-←ηθ+(1-η)θ-,β-←ηβ+(1-η)β-
其中,η表示更新系数,θ表示当前Critic网络参数,θ-表示目标Critic网络参数,β表示当前Actor网络参数,β-表示目标Actor网络参数;
S612、判断当前训练回合ep是否达到最大训练回合数,若是,则优化结束,否则赋值ep=ep+1,并返回步骤S602。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310342081.2A CN116390125A (zh) | 2023-04-03 | 2023-04-03 | 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310342081.2A CN116390125A (zh) | 2023-04-03 | 2023-04-03 | 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116390125A true CN116390125A (zh) | 2023-07-04 |
Family
ID=86978264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310342081.2A Pending CN116390125A (zh) | 2023-04-03 | 2023-04-03 | 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116390125A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116684925A (zh) * | 2023-07-24 | 2023-09-01 | 南京图策信息科技有限公司 | 一种无人机搭载智能反射面安全移动边缘计算方法 |
CN117519995A (zh) * | 2024-01-05 | 2024-02-06 | 中国人民解放军陆军指挥学院 | 一种星地网络移动边缘计算资源分配方法 |
CN117714446A (zh) * | 2024-02-02 | 2024-03-15 | 南京信息工程大学 | 一种卫星云边协同计算的卸载方法及装置 |
-
2023
- 2023-04-03 CN CN202310342081.2A patent/CN116390125A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116684925A (zh) * | 2023-07-24 | 2023-09-01 | 南京图策信息科技有限公司 | 一种无人机搭载智能反射面安全移动边缘计算方法 |
CN116684925B (zh) * | 2023-07-24 | 2023-11-14 | 南京图策信息科技有限公司 | 一种无人机搭载智能反射面安全移动边缘计算方法 |
CN117519995A (zh) * | 2024-01-05 | 2024-02-06 | 中国人民解放军陆军指挥学院 | 一种星地网络移动边缘计算资源分配方法 |
CN117519995B (zh) * | 2024-01-05 | 2024-03-22 | 中国人民解放军陆军指挥学院 | 一种星地网络移动边缘计算资源分配方法 |
CN117714446A (zh) * | 2024-02-02 | 2024-03-15 | 南京信息工程大学 | 一种卫星云边协同计算的卸载方法及装置 |
CN117714446B (zh) * | 2024-02-02 | 2024-04-16 | 南京信息工程大学 | 一种卫星云边协同计算的卸载方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN113612843B (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN116390125A (zh) | 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 | |
CN111405568B (zh) | 基于q学习的计算卸载和资源分配方法及装置 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
CN111556572B (zh) | 一种基于强化学习的频谱资源和计算资源联合分配方法 | |
CN111711666B (zh) | 一种基于强化学习的车联网云计算资源优化方法 | |
Liu et al. | A constrained reinforcement learning based approach for network slicing | |
CN110753319B (zh) | 异构车联网中面向异质业务的分布式资源分配方法及系统 | |
CN111565380B (zh) | 车联网中基于noma-mec混合卸载方法 | |
CN114138373A (zh) | 一种基于强化学习的边缘计算任务卸载方法 | |
Jia et al. | Learning-based queuing delay-aware task offloading in collaborative vehicular networks | |
CN114860337B (zh) | 一种基于元强化学习算法的计算卸载方法 | |
Lin et al. | Joint offloading decision and resource allocation for multiuser NOMA-MEC systems | |
CN114980039A (zh) | D2d协作计算的mec系统中的随机任务调度和资源分配方法 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
CN116634500A (zh) | 基于超图匹配计算与通信容量增强的d2d计算卸载方法 | |
Yu et al. | User-centric heterogeneous-action deep reinforcement learning for virtual reality in the metaverse over wireless networks | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
CN117354934A (zh) | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 | |
Yu et al. | Virtual reality in metaverse over wireless networks with user-centered deep reinforcement learning | |
Mishra et al. | Raddpg: Resource allocation in cognitive radio with deep reinforcement learning | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 | |
CN111813538B (zh) | 一种边缘计算资源分配方法 | |
CN117729571B (zh) | 一种动态mec网络中迁移决策与资源分配的联合优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |