CN114449584A - 基于深度强化学习的分布式计算卸载方法及装置 - Google Patents

基于深度强化学习的分布式计算卸载方法及装置 Download PDF

Info

Publication number
CN114449584A
CN114449584A CN202210120047.6A CN202210120047A CN114449584A CN 114449584 A CN114449584 A CN 114449584A CN 202210120047 A CN202210120047 A CN 202210120047A CN 114449584 A CN114449584 A CN 114449584A
Authority
CN
China
Prior art keywords
calculation
unloading
computation
model
framework
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210120047.6A
Other languages
English (en)
Other versions
CN114449584B (zh
Inventor
陆绍飞
刘伸
杨贯中
李军义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210120047.6A priority Critical patent/CN114449584B/zh
Publication of CN114449584A publication Critical patent/CN114449584A/zh
Application granted granted Critical
Publication of CN114449584B publication Critical patent/CN114449584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请涉及一种基于深度强化学习的分布式计算卸载方法及装置。该方法:设置计算卸载框架,根据计算卸载框架建立通信模型和计算模型,通信模型用于计算终端设备的信号噪声干扰比,计算模型用于对终端设备进行本地计算和边缘计算,基于计算卸载框架、通信模型和计算模型,将计算卸载问题建模成马尔可夫决策过程,利用双Critic网络的深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解,得到卸载决策。由于利用双Critic网络的深度确定性策略梯度算法来进行优化迭代求解,双Critic网络分别进行拟合,降低单个Critic网络进行拟合的复杂性,提高Critic网络的收敛速度,从而大大提高模型整体的收敛速度。

Description

基于深度强化学习的分布式计算卸载方法及装置
技术领域
本申请涉及基于计算模型的移动边缘计算的计算卸载技术领域,尤其涉及一种基于深度强化学习的分布式计算卸载方法及装置。
背景技术
随着5G技术的快速发展,带动了物联网(Internet of Things,IOT)以及计算密集应用的发展,例如智能制造、虚拟现实、增强现实以及车联网等。
移动边缘计算(Mobile Edge Computing,MEC)作为5G背景下的核心技术。该技术可以在靠近用户场景一侧,通过无线通信的方式为计算任务与应用提供额外的弹性算力,能够有效减少计算任务的计算时延与代价,使得计算密集型任务在低算力设备上的运行成为可能。
移动边缘计算相对于云计算具有近距离、高节点密度的特性,其服务器通常为小型基站(Base Station,BS),可以直接部署在无线网络控制器上、蜂窝网络基站、无线接入点等位置。移动边缘计算节点与用户设备距离更近使得移动边缘计算具有低计算延迟等特点。此外,由于边缘计算节点相对于云计算,单个节点需要服务的用户数量相对较少,所以具有更强的隐私性与安全性。因此,移动边缘计算对于计算密集、时延敏感型应用以及局部IOT场景具有更好的适用性。
移动边缘计算中的计算卸载与资源分配问题是移动边缘计算在学术研究领域的一个核心研究课题。对于该问题的研究通常可以分为两个阶段:
1、计算卸载框架的设置。
目前的研究工作中,计算卸载框架所使用的主要包括多用户-单BS和多用户-多BS。基于多用户-单BS框架的研究主要关注于多用户向同一个基站进行计算卸载时,传输信号的干扰问题以及用户终端卸载决策问题,其中涉及时分多址(Time Division MultipleAccess,TDMA)、正交频分多址(Orthogonal FrequencyDivision Multiple Access,OFDMA)、非正交多址((Non-Orthogonal Multiple Access,NOMA)等通信相关技术,利用这类技术,对于多个用户通讯过程中的干扰进行计算。得到的信号噪声干扰比(Signal toInterference plus Noise Ratio,SINR)结果是影响系统计算卸载代价与卸载决策的关键因素。
基于多用户-多BS框架的研究主要关注于联合卸载决策与资源分配问题,这类框架中通常假设边缘服务器资源相对于云服务来说更加有限,具有更大的传输代价的云服务器将会参与到联合卸载决策与资源分配的过程中,卸载决策的过程除了需要确定各个终端设备卸载的任务量大小,边缘与云服务器分配给各个设备的计算资源大小需要同时被考虑。
2、计算卸载问题的定义与求解。
计算卸载问题的求解可以看作对于某一个优化目标的求解,由于该问题通常需要在大量约束与条件下求解,且其状态与决策空间具有高维度的特点,为NP-hard的混合整数非线性规划问题。因此对于计算卸载问题的求解也是该领域研究的一个主要问题,早期的求解方式通常是一些传统的非机器学习算法,包括量化设备的计算任务并通过设置阈值的方式进行卸载决策、贪心算法、遗传算法以及粒子集群算法等。
近年来,大量基于深度强化学习的计算卸载问题求解方案被提出,这些方法通常将计算卸载问题转化为一个马尔可夫决策过程完成求解。
目前被应用到计算卸载与资源分配问题的深度强化学习(Deep reinforcementlearning,DRL)算法包括深度Q网络(Deep Q Net,DQN)算法和深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法。基于这两个算法,部分研究针对计算卸载与资源分配问题进一步进行优化,如通过建立与求解部分观察马尔可夫决策过程的方式,保护用户未公开信息的同时进行计算卸载。在DDPG中加入注意力机制、在特征网络提取中加入长期记忆(Long short-term memory,LSTM)以及设计排序的经验回放池的方式加速和稳定模型训练的收敛。但上述方式还是无法有效地提高模型的收敛速度。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种基于深度强化学习的分布式计算卸载方法及装置,能够提高模型的收敛速度。
本申请的第一方面提供了一种基于深度强化学习的分布式计算卸载方法,包括:
设置计算卸载框架,其中所述计算卸载框架包括至少一个终端设备、至少一个基站;
根据所述计算卸载框架建立通信模型,其中所述通信模型用于计算所述终端设备的信号噪声干扰比;
根据所述计算卸载框架建立计算模型,其中所述计算模型用于对所述终端设备进行本地计算和边缘计算;
基于所述计算卸载框架、所述通信模型和所述计算模型,将计算卸载问题建模成马尔可夫决策过程;
构造出双Critic网络的深度确定性策略梯度算法,利用所述深度确定性策略梯度算法对所述马尔可夫决策过程进行优化迭代求解,得到卸载决策。
优选的,所述设置计算卸载框架,包括:
选用多个所述终端设备-单个所述基站的架构设置计算卸载框架,其中各所述终端设备均设有计算任务缓存池,各所述终端设备于每个时间片内均能独立决策卸载策略。
优选的,所述所述通信模型用于计算当前所述终端设备的信号噪声干扰比,包括:
所述通信模型采用迫零检测算法计算当前所述终端设备的信号噪声干扰比。
优选的,所述所述计算模型用于对所述终端设备进行本地计算和边缘计算,包括:
在单位时间片内计算所述终端设备执行本地计算时的任务量大小;
根据所述信号噪声干扰比和传输带宽计算所述终端设备执行边缘计算时的计算卸载任务量大小。
优选的,所述将计算卸载问题建模成马尔可夫决策过程,包括:
将计算卸载问题的各项参数和指标对应典型的马尔可夫决策过程的四元组进行建模,其中所述四元组包括系统的状态空间、动作空间、奖励函数以及状态转移。
优选的,所述构造出双Critic网络的深度确定性策略梯度算法,包括:
利用双Critic网络分别拟合所述奖励函数中的功率和缓存池计算任务队列两部分的Q值,构造出深度确定性策略梯度算法。
本申请的第二方面提供了一种基于深度强化学习的分布式计算卸载装置,包括:
设置模块,用于设置计算卸载框架,其中所述计算卸载框架包括至少一个终端设备、至少一个基站;
第一建立模块,用于根据所述计算卸载框架建立通信模型,其中所述通信模型用于计算所述终端设备的信号噪声干扰比;
第二建立模块,用于根据所述计算卸载框架建立计算模型,其中所述计算模型用于对所述终端设备进行本地计算和边缘计算;
建模模块,用于基于所述计算卸载框架、所述通信模型和所述计算模型,将计算卸载问题建模成马尔可夫决策过程;
迭代模块,用于构造出双Critic网络的深度确定性策略梯度算法,利用所述深度确定性策略梯度算法对所述马尔可夫决策过程进行优化迭代求解,得到卸载决策。
优选的,所述设置模块设置计算卸载框架,包括:
选用多个所述终端设备-单个所述基站的架构设置计算卸载框架,其中各所述终端设备均设有计算任务缓存池,各所述终端设备于每个时间片内均能独立决策卸载策略。
本申请的第三方面提供了一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的基于深度强化学习的分布式计算卸载方法。
本申请的第四方面提供了一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的基于深度强化学习的分布式计算卸载方法。
本申请提供的技术方案可以包括以下有益效果:
本申请的技术方案,设置计算卸载框架,根据计算卸载框架建立通信模型和计算模型,通信模型用于计算所述终端设备的信号噪声干扰比,计算模型用于对终端设备进行本地计算和边缘计算,基于计算卸载框架、通信模型和计算模型,将计算卸载问题建模成马尔可夫决策过程,利用双Critic网络的深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解,得到卸载决策。由于利用双Critic网络的深度确定性策略梯度算法来进行优化迭代求解,双Critic网络分别进行拟合,降低单个Critic网络进行拟合的复杂性,提高Critic网络的收敛速度,从而大大提高模型整体的收敛速度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的基于深度强化学习的分布式计算卸载方法的流程示意图;
图2是本申请实施例示出的计算卸载框架的结构示意图;
图3是本申请实施例示出的MDP模型与系统状态转移的示意图;
图4是本申请实施例示出的DC-DDPG模型的结构示意图;
图5是本申请实施例示出的基于深度强化学习的分布式计算卸载装置的结构示意图;
图6是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
目前相关技术中,关于计算卸载问题通常转化成一个马尔可夫决策求解的过程提出。采用深度Q网络算法和深度确定性策略梯度算法来进行迭代求解。但上述方式还是无法有效地提高模型的收敛速度且无法应对多优化目标的权衡问题。
因此,针对上述问题,本申请实施例提供了一种基于深度强化学习的分布式计算卸载方法及装置,能够提高模型的收敛速度。
以下结合附图详细说明本申请实施例的技术方案。
图1示出了本申请实施例中的一种基于深度强化学习的分布式计算卸载方法,包括如下步骤:
步骤S11、设置计算卸载框架,其中计算卸载框架包括至少一个终端设备、至少一个基站。
对于工业互联网智能制造场景下的边缘计算计算卸载框架,由于其终端设备集中性以及低移动性等特点,可以假设所有需要执行计算卸载的终端设备可以被一个边缘计算设备所覆盖。请参阅图2,计算卸载框架可以被建模为一个多个终端设备-单个基站(基站即BS,下同,基站包含边缘计算服务器)计算节点的双层模型,模型中的设备利用无线通信的方式完成通信。
计算卸载框架中的边缘计算服务器利用
Figure 392328DEST_PATH_IMAGE001
表示,假设其接收天线的数量为M。模型中有N个终端设备相对集中的分布,终端设备的集合可以表示为:
Figure 145521DEST_PATH_IMAGE002
对于
Figure 512042DEST_PATH_IMAGE003
中的每个终端设备,假设其具有一定的计算能力,并且具有将计算任务卸载至边缘计算服务器
Figure 743304DEST_PATH_IMAGE001
(边缘计算服务器
Figure 393728DEST_PATH_IMAGE001
又称边缘计算节点)的能力,每个时间片各个设备独立决策其卸载策略。每个终端设备都配备有一个计算任务缓冲池。
为了更好的执行计算卸载的任务,将计算卸载的过程在时间尺度上划分为多个等长的时间片,每个时间片的长度为τ,假设最长的时间为T,则利用
Figure 567089DEST_PATH_IMAGE004
表示当前时间片。等长时间片是系统状态改变以及卸载决策的最小单位,在每个时间片,模型中的各个终端计算设备会随机产生一定大小的计算任务
Figure 935753DEST_PATH_IMAGE005
,表示时间片t下,终端设备
Figure 236285DEST_PATH_IMAGE006
产生的计算任务的大小;此外,设备的计算任务缓冲池中会存在一定的在上一时间片未计算完毕的计算任务,将缓存池的任务大小记为
Figure 741215DEST_PATH_IMAGE007
,表示时间片t下,终端设备
Figure 836210DEST_PATH_IMAGE006
计算任务缓冲区的队列长度。
步骤S12、根据计算卸载框架建立通信模型,其中通信模型用于计算终端设备的信号噪声干扰比。
根据上述提出的多终端设备-单BS计算卸载框架,可以将当前场景下的计算卸载通信模型建立为多输入多输出( Multiple Input and Multiple Output,MIMO)模型。当N个终端设备同时与BS进行通信时,彼此之间存在频谱的混叠与干扰。因此,接收端采取不同的MIMO系统的检测算法,将会直接影响发射信号向量的估计值。
本发明中, BS采用ZF(迫零检测)算法进行接收端检测,ZF技术利用信道矩阵的加权矩阵乘以接收到的信号的方式将相互干扰的发送信号分开,实现分层检测,其中,信道矩阵
Figure 434114DEST_PATH_IMAGE008
可以具体表示为:
Figure 7178DEST_PATH_IMAGE009
(1)
矩阵中的每一元素
Figure 897774DEST_PATH_IMAGE010
表示终端设备
Figure 429249DEST_PATH_IMAGE006
在时间t向BS的第i个天线支路的复传输系数(i为大于或者等于1的正整数)。矩阵中的每一列都可以表示一台终端设备当前的信道增益状态,可以利用
Figure 506927DEST_PATH_IMAGE011
进行表示。
根据ZF准则,信道矩阵的加权矩阵
Figure 398528DEST_PATH_IMAGE012
可以具体表示为:
Figure 878051DEST_PATH_IMAGE013
(2)
其中
Figure 580428DEST_PATH_IMAGE014
表示埃米特转置操作。
Figure 145401DEST_PATH_IMAGE015
中的第n行表示在时间t,
Figure 811000DEST_PATH_IMAGE016
代表的是终端设备的数量,
Figure 410609DEST_PATH_IMAGE017
为天线的数量。BS用于检测终端设备n的信号,记为
Figure 18308DEST_PATH_IMAGE018
。对于终端设备
Figure 70577DEST_PATH_IMAGE006
而言,其发射信号在BS端接收信号的估计值为:
Figure 38402DEST_PATH_IMAGE019
(3)
其中
Figure 492517DEST_PATH_IMAGE020
表示BS端接收到的信号;
Figure 536697DEST_PATH_IMAGE021
表示参与空间复用的n个终端设备的数据;
Figure 341842DEST_PATH_IMAGE022
表示BS接收数据过程中的高斯白噪声。
此时差错性能与
Figure 129669DEST_PATH_IMAGE023
直接相关,ZF检测后的噪声功率可以利用
Figure 703870DEST_PATH_IMAGE024
进行表示,根据上述的推导。可知,在当前模型中,在t时刻,终端设备
Figure 918950DEST_PATH_IMAGE006
的信号噪声干扰比SINR可以表示为:
Figure 693615DEST_PATH_IMAGE025
(4)
公式(4)用于计算卸载过程中,终端设备与BS通信过程中传输速率的计算,并影响卸载决策过程中计算卸载的成本以及得到的奖励。
步骤S13、根据计算卸载框架建立计算模型,其中计算模型用于对终端设备进行本地计算和边缘计算。
请参阅图3,计算卸载过程中的计算主要分为本地计算与边缘计算,这两部分计算的任务量的大小主要取决于设备用于本地计算与计算卸载数据传输的功率的大小,基于动态电压频率调节技术,可以调整两部分功率的大小。
本地计算:
对于终端设备
Figure 285133DEST_PATH_IMAGE006
,假设其用于本地计算的功率大小为
Figure 713841DEST_PATH_IMAGE026
,其中
Figure 99823DEST_PATH_IMAGE027
表示终端设备
Figure 879560DEST_PATH_IMAGE006
可用于本地计算的最大功率。
根据动态电压频率调整技术,设备本地计算的CPU频率可以表示为
Figure 9190DEST_PATH_IMAGE028
。根据功率的取值范围,可知终端设备
Figure 292404DEST_PATH_IMAGE006
计算过程中CPU频率范围为
Figure 114866DEST_PATH_IMAGE029
。根据上述推论,单位时间片内,终端设备
Figure 100009DEST_PATH_IMAGE006
执行本地计算的任务量的大小为:
Figure 767750DEST_PATH_IMAGE030
(5)
其中
Figure 905471DEST_PATH_IMAGE031
表示终端设备
Figure 898834DEST_PATH_IMAGE006
运算单位bit数据所需的CPU周期数。
边缘计算:
基站的边缘计算服务器具有充足的算力,能够保证卸载至边缘计算设备的计算任务能够完成计算。由于计算得到的结果通常数据量很小,所以忽略计算结果回传的过程。
卸载计算的任务量的大小取决于计算数据上传的大小。计算终端设备
Figure 856426DEST_PATH_IMAGE006
卸载计算任务到基站的边缘计算服务器的大小可以写为
Figure 344170DEST_PATH_IMAGE032
(6)
其中
Figure 601976DEST_PATH_IMAGE033
表示终端设备
Figure 500662DEST_PATH_IMAGE006
的传输带宽,
Figure 211129DEST_PATH_IMAGE034
表示终端设备
Figure 486253DEST_PATH_IMAGE006
在时间t传输过程中的信号-噪声加干扰比值SINR,可由公式(4)得到。
完成步骤S12和步骤S13后,可以建立计算卸载问题模型。
每个终端设备独立执行计算卸载决策,所以对于各个终端设备,均进行独立的问题建模与卸载决策。该计算卸载问题模型的目标为最小化当前设备的能耗与计算任务计算量的加权和,其中能耗利用设备的本地计算与传输功率表示,计算任务计算量利用缓存池的任务量作为指标,选用该指标可以更好的适应不同任务到达率的情况下,功率与计算任务间的平衡关系。对于终端设备设备
Figure 332986DEST_PATH_IMAGE035
,可以将优化问题表示为:
Figure 651841DEST_PATH_IMAGE036
(7)
步骤S14、基于计算卸载框架、通信模型和计算模型,将计算卸载问题建模成马尔可夫决策过程。
使用深度强化学习(DRL)的方式最小化上述累计奖励,这一目标与马尔科夫决策过程(MDP)的目标是一致的。将一个基于深度强化学习求解的问题建模为MDP。计算卸载问题的各项参数和指标匹配对应典型的MDP的四元组
Figure 849604DEST_PATH_IMAGE037
,其中S表示系统环境状态的集合,A表示动作空间的集合,其在各个状态下,系统可能做出的决策。T表示转移函数,即在当前的状态下,执行某一动作后,系统状态的转移;R为奖励函数,定义了当前状态下,选择动作后得到的奖赏。
1)状态空间
在每一个时间片开始时,各个终端设备独立的感知自身的环境状态。各个终端的状态主要由通信相关状态以及计算任务相关状态组成,对于设备
Figure 928418DEST_PATH_IMAGE006
在时间t的系统状态可以具体表示为:
Figure 160817DEST_PATH_IMAGE038
(8)
其中
Figure 135726DEST_PATH_IMAGE039
表示终端设备
Figure 351944DEST_PATH_IMAGE006
在时间t-1的SINR;
Figure 968870DEST_PATH_IMAGE040
表示终端设备
Figure 543857DEST_PATH_IMAGE006
在时间t的信道增益矩阵;
Figure 955247DEST_PATH_IMAGE005
表示终端设备
Figure 127602DEST_PATH_IMAGE006
在时间t到达的计算任务量的大小;
Figure 548219DEST_PATH_IMAGE007
表示终端设备
Figure 489631DEST_PATH_IMAGE006
在时间t时计算任务缓存池的大小;
Figure 337501DEST_PATH_IMAGE041
表示终端设备
Figure 262732DEST_PATH_IMAGE006
计算单位bit任务所需的CPU周期数。
2)动作空间
终端设备在感知系统状态后,需要对于本地计算与卸载计算数据传输的功率进行决策,即系统做出的决策由本地计算的功率以及数据传输的功率两部分组成。对于终端设备
Figure 221460DEST_PATH_IMAGE006
在时间t的系统决策可以具体表示为:
Figure 532225DEST_PATH_IMAGE042
(9)
3)奖励函数
根据通信模型、计算模型、计算卸载问题模型,为了得到长时间尺度上本地计算与数据传输功率以及缓存池任务量大小之间的加权和。在某一状态下,决策后立即获得的奖励。对于终端设备
Figure 285417DEST_PATH_IMAGE006
在状态
Figure 166786DEST_PATH_IMAGE043
,选择
Figure 929205DEST_PATH_IMAGE044
后得到的即时奖励可以表示为:
Figure 845209DEST_PATH_IMAGE045
(10)
4)状态转移
在生成系统决策后,系统便会在当前时间片内,按照决策执行计算,并使得当前的系统状态发生改变,形成下一时间片的初始系统状态。系统状态的转变主要体现在两个方面:缓存池任务量大小以及信号增益向量。对于终端设备
Figure 34881DEST_PATH_IMAGE006
,在时间t+1时,其缓存池数据量的大小可以表示为:
Figure 669125DEST_PATH_IMAGE046
(11)
其中
Figure 720389DEST_PATH_IMAGE047
Figure 490899DEST_PATH_IMAGE048
分别表示本地计算与计算卸载所计算的bit数,
Figure 851473DEST_PATH_IMAGE049
Figure 707434DEST_PATH_IMAGE050
。此外,下一时间片的信道增益向量可由当前时间片的信道增益向量计算,可以表示为:
Figure 811656DEST_PATH_IMAGE051
(12)
其中
Figure 702251DEST_PATH_IMAGE052
表示终端设备
Figure 233727DEST_PATH_IMAGE006
与BS通信过程中,时间t与t+1之间正则化信道增益相关系数。
Figure 576984DEST_PATH_IMAGE053
表示误差向量,这一项与信道增益向量不相关。
本发明的分布式计算卸载与资源分配系统的目标是在较长时间尺度上,最小化计算成本以及缓存池队列长度的加权和,即最大化上述MDP模型的奖励和,可以表示为:
Figure 203006DEST_PATH_IMAGE054
(13)
其中
Figure 948108DEST_PATH_IMAGE055
为一个折扣因子,表示计算过程中对于未来收益的重视程度。
步骤S15、构造出双Critic网络的深度确定性策略梯度算法,利用深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解,得到卸载决策。
请参阅图4,本发明中提出的DC-DDPG算法主要参考深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),DDPG算法主要用于解决传统DQN算法无法处理高维度连续动作空间的问题。DDPG(Deep Deterministic Policy Gradient)由一个经验回放池以及两组Actor-Critic网络组成,经验回放池存储了agent与环境交互得到的转移样本,其中的每一项均由状态、选择的动作、奖励以及下一状态组成,需要进行训练时,就从回放池抽取一组采样结果进行训练,避免训练过程中的相关性问题。
DDPG中的第一个D表示Deep,由于DDPG是基于DPG网络得到的,这个Deep将DPG中的一组Actor-critic Net变为两组,分别称为Main Net以及Target Net。第二个D表示Deterministic,表示该模型为确定性策略。Actor Net和Critic Net均为DNN。Actor Net的主要作用是在当前观测状态下,生成动作空间即
Figure 650485DEST_PATH_IMAGE056
。Critic Net的主要作用是计算当前Q值,即
Figure 481037DEST_PATH_IMAGE057
,Main Net的主要作用是生成策略梯度。Target Net的主要作用是生产TD目标,结合Main Net生成TD误差,以此更新Critic Net。
本发明在DDPG算法的基础上,进一步将模型优化为适用于本发明研究问题的DRL算法。根据计算卸载问题模型可知,本发明中的奖励函数由衡量计算卸载代价的两部分参数加权所得,这两类参数直观来看相关性较低。若使用传统的DDPG算法求解本发明研究的决策问题,Critic Net可能会因为上述价值函数的特性,导致较慢的收敛速度进一步影响Actor Net及系统的整体收敛速度,此外Q值的预估同样会受到一定程度的影响。
1)DC-DDPG模型结构
该模型由两组Actor-dual Critic网络以及一个经验回放池组成。模型最大的特点利用双Critic网络分别逼近奖励函数中的功率以及缓存池计算任务队列大小两部分的Q值,相应的模型的经验回放池同样应该分别记录两部分的奖励值,可以表示为:
Figure 927062DEST_PATH_IMAGE058
其中,
Figure 792250DEST_PATH_IMAGE059
表示与系统功率相关的即时奖励;
Figure 665528DEST_PATH_IMAGE060
表示与缓存池大小相关的即时奖励。
2)算法训练与运行
Main Net是模型训练过程中的主体部分,Target Net主要用于辅助计算Q值,用于Main Critic Net的训练。Target Net定期通过从Main Net复制参数的方式进行更新。
Main Actor Net更新
Main Actor Net结构主要作用是基于当前状态选择动作,此外,为了增加学习过程中的随机性,增加学习的覆盖率,Main Actor Net在选择出动作后会增加随机的噪声N,Main Net的主要作用可以表示为:
Figure 465601DEST_PATH_IMAGE061
(14)
其中
Figure 449737DEST_PATH_IMAGE062
表示Main Actor Net的参数、
Figure 169431DEST_PATH_IMAGE063
表示终端设备
Figure 213611DEST_PATH_IMAGE006
在时间t由MainActor Net生成Action后增加的随机噪声。
Main Actor Net更新的策略梯度可由动作选择后计算得到的Q值梯度的期望表示,可以表示为:
Figure 18756DEST_PATH_IMAGE064
(15)
其中
Figure 806583DEST_PATH_IMAGE065
Figure 380784DEST_PATH_IMAGE066
分别表示Main Net用于拟合功率部分与缓存池任务队列长度这两部分Q值的网络参数,
Figure 579553DEST_PATH_IMAGE067
Figure 871994DEST_PATH_IMAGE068
基于上述的两个Main Critic Net计算得到的。由于本发明模型使用经验回放池的异步训练方式,所以每次训练时的将会从经验回放池抽取V组数据进行训练,假设数据对应的编号为{1、2、……、v}此时,上述梯度策略可以表示为:
Figure 197933DEST_PATH_IMAGE069
(16)
此时对于Main Actor Net的更新可以表示为:
Figure 892220DEST_PATH_IMAGE070
(17)
其中
Figure 278202DEST_PATH_IMAGE071
表示Main Actor Net的学习率。
Main Critic Net更新
本模型中的Main Net中使用了双Critic Net,双Critic Net虽然用于拟合两个不同部分的Q值,但其基本原理与训练过程一致,所以此处以表示功率相关Q值的Critic Net
Figure 792360DEST_PATH_IMAGE072
为例进行介绍。
理论上Q值函数可以定义为:
Figure 921990DEST_PATH_IMAGE073
Figure 470783DEST_PATH_IMAGE074
根据上述公式结合贝尔曼方程递推公式以及确定性策略的性质,可以将当前部分的Action-Value函数写为:
Figure 778398DEST_PATH_IMAGE075
(18)
对于Main Critic Net的更新主要在于不断的更新网络参数
Figure 779852DEST_PATH_IMAGE076
,从而减小预估Q值与目标Q值之间的差值,即最小化损失函数,当前与功率相关的Main Critic Net的损失函数可以定义为:
Figure 978753DEST_PATH_IMAGE077
(19)
其中
Figure 116473DEST_PATH_IMAGE078
表示与功率相关的目标Q值,可以表示为:
Figure 844257DEST_PATH_IMAGE079
(20)
其中
Figure 333008DEST_PATH_IMAGE080
表示Target Actor Net,
Figure 804440DEST_PATH_IMAGE081
表示与功率相关的Target Critic Net,
Figure 311514DEST_PATH_IMAGE082
为利用Target CriticNet
Figure 210200DEST_PATH_IMAGE083
计算得到的Q值。根据上述损失函数,可得损失函数的梯度公式为:
Figure 186246DEST_PATH_IMAGE084
(21)
由于当前模型的训练为通过抽取经验回放池中的采样数据的方式进行,类似于公式(16)的推导,可以将损失函数的梯度公式写为:
Figure 461370DEST_PATH_IMAGE085
(22)
因此可以将与功率相关的Main Critic Net的更新公式表示为:
Figure 573682DEST_PATH_IMAGE086
(23)
其中
Figure 908848DEST_PATH_IMAGE087
表示与功率相关的MainCriticNet更新时的学习率。
Target Net更新
本发明提出的算法基于DDPG进行优化与改进,该算法保持了与DDPG一致的TargetNet参数更新方式,即软更新。软更新利用Main Net参数与原本的Target Net参数实现更新,可以表示为:
Figure 106612DEST_PATH_IMAGE088
(24)
Figure 185426DEST_PATH_IMAGE089
(25)
Figure 417824DEST_PATH_IMAGE090
(26)
其中
Figure 236194DEST_PATH_IMAGE091
表示软更新系数,这一系数通常取值较小,通过软更新的方式虽然会减慢学习速度,但是可以保证稳定性。
本发明结合实际的工业互联网智能制造场景提出了适应的计算卸载框架,并利用双Critic网络的深度确定性策略梯度算法DC-DDPG实现卸载决策。通过DC-DDPG算法,利用双Critic Net分别拟合两部分Q值,从而降低单个Critic网络进行拟合的复杂性,提高Critic网络的收敛速度,从而使得算法整体具有更快的收敛速度。单Critic网络拟合Q值的复杂性的降低可以提高Q值逼近的精确度,从而进一步降低计算总代价。此外,根据需求的变更,在计算卸载的过程中可以需要对于功率、计算量两部分的权重进行调整。使用两个网络分别拟合加权连接的两个部分,在权重变化后,Critic网络无需重新进行训练,只需要让Actor网络继续学习即可再次使得网络再次达到收敛。
除上述的技术效果以外,本发明的技术方案在应对不同计算负载情况下的稳定性以及在高计算负载压力的情况下,更好的卸载决策效果。原因是由于其他深度强化学习算法,利用单个Critic网络拟合两部分Q值,而这两部分Q值前乘上的系数与权重会参与到训练的过程中,对于本方法设定的模型下,会导致训练过程中对于功率这一项的惩罚较大,导致功率始终保持在一个较低的范围,这一特点在计算负载较低时影响不大,但是随着计算负载的提高,功率无法适应性的提高将会导致任务缓存池的队列长度过大,即计算延迟过大,从而导致系统整体代价快速增加,性能下降。
为了更好地理解本申请的技术方案的技术效果,下面以具体测试实验来进行说明。
计算卸载框架中,设置有单个BS,系统设置三个终端设备进行实验测试。实验过程中的时间片间隔设置为τ=1ms。
通信模型相关的参数设置为,在每个运行阶段开始时,会随机初始化各个终端设备的信道增益矩阵为:
Figure 921253DEST_PATH_IMAGE092
其中
Figure 538179DEST_PATH_IMAGE093
表示信道损失常数,
Figure 890663DEST_PATH_IMAGE094
表示参考距离,
Figure 302053DEST_PATH_IMAGE095
表示终端设备与BS的距离,
Figure 474408DEST_PATH_IMAGE096
表示路径损耗指数。信道增益矩阵在后续时间片会根据公式(12)进行更新,时间片间信道增益的相关度系数设置为
Figure 895025DEST_PATH_IMAGE097
误差向量满足复杂高斯分布
Figure 85704DEST_PATH_IMAGE098
各个终端设备具有一个计算任务到达率
Figure 933574DEST_PATH_IMAGE099
,每个时间片随机到达的计算任务满足
Figure 593226DEST_PATH_IMAGE099
的泊松分布。计算每bit的计算任务所需的CPU周期数满足[200,500]之间的正态分布。各个终端设备计算的最高频率频为1.26GHz,即本地计算的最高功率为
Figure 551954DEST_PATH_IMAGE100
。此外用于通信的最高功率同样设置为
Figure 613451DEST_PATH_IMAGE101
,噪声功率设置为
Figure 366644DEST_PATH_IMAGE102
所有实验均运行在同一台MacBook Pro上,操作系统为macOS 11.5.2,处理器为2GHz 四核Intel Core i5,图形卡为Intel Iris Plus Graphics 1536 MB,内存16 GB 3733MHz LPDDR4X。运行环境利用Pycharm作为IDE,利用Python语言实现,Python版本为3.8,Tensorflow版本为2.5.0。
对于每个终端设备的Agent,其DC-DDPG网络中的Main Net以及Target Net中的6个DNN网络结构一致,为4层全连接层加两层隐藏层的神经网络,隐藏层的节点数分别为400、300,并使用Relu函数作为激活函数。输出层利用的一个sigmoid层设置输出的样式。Main Actor Net以及Main Critic Net的学习率分别设置为0.0001以及0.001。
对于Target Net,其软更新的更新系数设置为0.001。模型中经验回放池的容量设置为
Figure 513591DEST_PATH_IMAGE103
,学习过程中从经验回放池中采样的大小设置为V=16。实际实验过程中,由于功率相关部分奖励函数与计算任务量奖励函数间的数量级差距,结果会在原本的加权比例基础上,将功率相关价值函数扩大10倍。
实验中,参与对比的其他算法分别为:基于DQN算法的计算卸载,由于DQN需要使用离散的动作空间,所以会将
Figure 276011DEST_PATH_IMAGE104
Figure 942747DEST_PATH_IMAGE105
等比例离散化作为其动作空间。
基于DDPG算法的计算卸载,实验中,为了保证对比实验的公平性,所有的基于深度强化学习方法中使用的DNN网络具有相同的网络结构。对比实验具体设置如表1所示。
Figure 132419DEST_PATH_IMAGE106
表1 对比实验设置
实验结果评估
1)训练阶段
依照2中的实验设置,对于对应参数、算法的模型进行训练。根据模型训练过程中的奖励值可以看出,三种基于深度强化学习的算法其reward均随着迭代次数的增加而增大,表明了学习的有效性。从三种方法的收敛速度的对比结果可以看出,DC-DDPG与DQN在数据到达率较小
Figure 501084DEST_PATH_IMAGE107
的情况下具有近似的收敛速度,均可在较少的Episode内达到收敛,而DC-DDPG相对于DDPG具有明显更快收敛速度,且这一现象随着数据率的增大会更为明显。对于DQN算法而言,随着数据率到达率的增大,模型的训练过程中稳定下大大降低。
2)测试阶段
对于2中介绍的实验设置,利用对应的参数,算法在经过1000个Episode训练后的模型进行测试,测试过程利用100个Episode进行测试,每个Episode的最大时间长度T=500,测试得到的平均Reward结果如表2所示。
Figure 801615DEST_PATH_IMAGE108
表 2 对比实验结果
对比实验结果可以看出,本方法在不同数据到达率的设备上,均有着良好的卸载决策效果,可以有效的降低计算代价。当数据到达率
Figure 837704DEST_PATH_IMAGE109
较小时,其平均计算代价与其他深度强化学习算法得到的结果近似;随着数据到达率的提高,DC-DDPG算法的卸载决策效果优于其他深度强化学习算法,且这一优势随着数据到达率的提高,会变得更为显著。
总体来看,本发明提出的算法利用双Critic网络的方式对于Q值进行拟合,从而使得双Critic网络都可以更快、更精确的完成拟合,使得系统在更快收敛的同时,取得更好的卸载决策效果。
与前述应用功能实现方法实施例相对应,本申请还提供了一种压药参数的改良处理装置及相应的实施例。
图5示出的是本申请实施例中的一种基于深度强化学习的分布式计算卸载装置的结构示意图,该装置50包括设置模块510、第一建立模块520、第二建立模块530、建模模块540及迭代模块550。其中:
设置模块510用于设置计算卸载框架,其中计算卸载框架包括至少一个终端设备、至少一个基站。
具体地,设置模块510设置计算卸载框架时,一可选实施方式为:选用多个终端设备-单个基站的架构设置计算卸载框架,其中各终端设备均设有计算任务缓存池,各终端设备于每个时间片内均能独立决策卸载策略。
第一建立模块520用于根据计算卸载框架建立通信模型,其中通信模型用于计算终端设备的信号噪声干扰比。
第二建立模块530用于根据计算卸载框架建立计算模型,其中计算模型用于对终端设备进行本地计算和边缘计算。
建模模块540用于基于计算卸载框架、通信模型和计算模型,将计算卸载问题建模成马尔可夫决策过程。
迭代模块550用于构造出双Critic网络的深度确定性策略梯度算法,利用深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解,得到卸载决策。
本实施例的装置,设置模块510用于设置计算卸载框架,第一建立模块520用于根据计算卸载框架建立通信模型,第二建立模块530用于根据计算卸载框架建立计算模型,建模模块540用于基于计算卸载框架、通信模型和计算模型,将计算卸载问题建模成马尔可夫决策过程,迭代模块550构造出双Critic网络的深度确定性策略梯度算法,利用深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解,得到卸载决策。由于利用双Critic网络的深度确定性策略梯度算法来进行优化迭代求解,双Critic网络分别进行拟合,降低单个Critic网络进行拟合的复杂性,提高Critic网络的收敛速度,从而大大提高模型整体的收敛速度。
关于上述实施例中的装置,其中各个模块及单元执行操作的具体方式已经在有关该装置所对应的方法实施例中进行了详细描述,此处将不再做详细阐述说明。
请参阅图6,电子设备600包括处理器610和存储器620。
处理器610可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器620可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器610或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器620可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。存储器620上存储有可执行代码,当可执行代码被处理器610处理时,可以使处理器610执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种基于深度强化学习的分布式计算卸载方法,其特征在于,包括:
设置计算卸载框架,其中所述计算卸载框架包括至少一个终端设备、至少一个基站;
根据所述计算卸载框架建立通信模型,其中所述通信模型用于计算所述终端设备的信号噪声干扰比;
根据所述计算卸载框架建立计算模型,其中所述计算模型用于对所述终端设备进行本地计算和边缘计算;
基于所述计算卸载框架、所述通信模型和所述计算模型,将计算卸载问题建模成马尔可夫决策过程;
构造出双Critic网络的深度确定性策略梯度算法,利用所述深度确定性策略梯度算法对所述马尔可夫决策过程进行优化迭代求解,得到卸载决策。
2.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法,其特征在于,所述设置计算卸载框架,包括:
选用多个所述终端设备-单个所述基站的架构设置计算卸载框架,其中各所述终端设备均设有计算任务缓存池,各所述终端设备于每个时间片内均能独立决策卸载策略。
3.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法,其特征在于,所述所述通信模型用于计算当前所述终端设备的信号噪声干扰比,包括:
所述通信模型采用迫零检测算法计算当前所述终端设备的信号噪声干扰比。
4.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法,其特征在于,所述所述计算模型用于对所述终端设备进行本地计算和边缘计算,包括:
在单位时间片内计算所述终端设备执行本地计算时的任务量大小;
根据所述信号噪声干扰比和传输带宽计算所述终端设备执行边缘计算时的计算卸载任务量大小。
5.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法,其特征在于,所述将计算卸载问题建模成马尔可夫决策过程,包括:
将计算卸载问题的各项参数和指标对应典型的马尔可夫决策过程的四元组进行建模,其中所述四元组包括系统的状态空间、动作空间、奖励函数以及状态转移。
6.根据权利要求5所述的基于深度强化学习的分布式计算卸载方法,其特征在于,所述构造出双Critic网络的深度确定性策略梯度算法,包括:
利用双Critic网络分别拟合所述奖励函数中的功率和缓存池计算任务队列两部分的Q值,构造出深度确定性策略梯度算法。
7.一种基于深度强化学习的分布式计算卸载装置,其特征在于,包括:
设置模块,用于设置计算卸载框架,其中所述计算卸载框架包括至少一个终端设备、至少一个基站;
第一建立模块,用于根据所述计算卸载框架建立通信模型,其中所述通信模型用于计算所述终端设备的信号噪声干扰比;
第二建立模块,用于根据所述计算卸载框架建立计算模型,其中所述计算模型用于对所述终端设备进行本地计算和边缘计算;
建模模块,用于基于所述计算卸载框架、所述通信模型和所述计算模型,将计算卸载问题建模成马尔可夫决策过程;
迭代模块,用于构造出双Critic网络的深度确定性策略梯度算法,利用所述深度确定性策略梯度算法对所述马尔可夫决策过程进行优化迭代求解,得到卸载决策。
8.根据权利要求7所述的基于深度强化学习的分布式计算卸载装置,其特征在于,所述设置模块设置计算卸载框架,包括:
选用多个所述终端设备-单个所述基站的架构设置计算卸载框架,其中各所述终端设备均设有计算任务缓存池,各所述终端设备于每个时间片内均能独立决策卸载策略。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的基于深度强化学习的分布式计算卸载方法。
10.一种计算机可读存储介质,其特征在于,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的基于深度强化学习的分布式计算卸载方法。
CN202210120047.6A 2022-02-09 2022-02-09 基于深度强化学习的分布式计算卸载方法及装置 Active CN114449584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210120047.6A CN114449584B (zh) 2022-02-09 2022-02-09 基于深度强化学习的分布式计算卸载方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210120047.6A CN114449584B (zh) 2022-02-09 2022-02-09 基于深度强化学习的分布式计算卸载方法及装置

Publications (2)

Publication Number Publication Date
CN114449584A true CN114449584A (zh) 2022-05-06
CN114449584B CN114449584B (zh) 2024-06-28

Family

ID=81372241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210120047.6A Active CN114449584B (zh) 2022-02-09 2022-02-09 基于深度强化学习的分布式计算卸载方法及装置

Country Status (1)

Country Link
CN (1) CN114449584B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973673A (zh) * 2022-05-24 2022-08-30 华南理工大学 车路协同系统中结合noma和内容缓存的任务卸载方法
CN116346921A (zh) * 2023-03-29 2023-06-27 华能澜沧江水电股份有限公司 面向流域大坝安全管控的多服务器协同缓存更新方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113726894A (zh) * 2021-09-01 2021-11-30 福建师范大学 一种基于深度强化学习的多车应用计算卸载方法及终端
CN113760511A (zh) * 2021-09-07 2021-12-07 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113726894A (zh) * 2021-09-01 2021-11-30 福建师范大学 一种基于深度强化学习的多车应用计算卸载方法及终端
CN113760511A (zh) * 2021-09-07 2021-12-07 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHAOFEI LU: "A Reliable Data Compression Scheme in Sensor-Cloud Systems Based on Edge Computing", 《IEEE ACCESS》, 24 March 2021 (2021-03-24) *
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07, 7 July 2020 (2020-07-07) *
李季: "基于深度强化学习的移动边缘计算中的计算卸载与资源分配算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 September 2019 (2019-09-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973673A (zh) * 2022-05-24 2022-08-30 华南理工大学 车路协同系统中结合noma和内容缓存的任务卸载方法
CN114973673B (zh) * 2022-05-24 2023-07-18 华南理工大学 车路协同系统中结合noma和内容缓存的任务卸载方法
CN116346921A (zh) * 2023-03-29 2023-06-27 华能澜沧江水电股份有限公司 面向流域大坝安全管控的多服务器协同缓存更新方法和装置
CN116346921B (zh) * 2023-03-29 2024-06-11 华能澜沧江水电股份有限公司 面向流域大坝安全管控的多服务器协同缓存更新方法和装置

Also Published As

Publication number Publication date
CN114449584B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN111901862B (zh) 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN114449584B (zh) 基于深度强化学习的分布式计算卸载方法及装置
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN112261674A (zh) 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法
CN110531996B (zh) 一种多微云环境下基于粒子群优化的计算任务卸载方法
CN115827108B (zh) 基于多目标深度强化学习的无人机边缘计算卸载方法
CN114625504A (zh) 一种基于深度强化学习的车联网边缘计算服务迁移方法
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN116489712A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Jeong et al. Deep reinforcement learning-based task offloading decision in the time varying channel
Liu et al. Quantized reservoir computing for spectrum sensing with knowledge distillation
Chai et al. A dynamic queuing model based distributed task offloading algorithm using deep reinforcement learning in mobile edge computing
Zhou et al. DRL-Based Workload Allocation for Distributed Coded Machine Learning
CN117042184A (zh) 一种基于深度强化学习的计算卸载和资源分配方法
CN111813538A (zh) 一种边缘计算资源分配方法
CN116827515A (zh) 一种基于区块链和强化学习的雾计算系统性能优化算法
CN116647604A (zh) 一种边端协作场景中适应动态环境的算力资源调度方法
Ge et al. Mobile edge computing against smart attacks with deep reinforcement learning in cognitive MIMO IoT systems
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
Li et al. Piecewise-drl: Joint beamforming optimization for ris-assisted mu-miso communication system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant