CN113821346A - 基于深度强化学习的边缘计算中计算卸载与资源管理方法 - Google Patents

基于深度强化学习的边缘计算中计算卸载与资源管理方法 Download PDF

Info

Publication number
CN113821346A
CN113821346A CN202111121919.2A CN202111121919A CN113821346A CN 113821346 A CN113821346 A CN 113821346A CN 202111121919 A CN202111121919 A CN 202111121919A CN 113821346 A CN113821346 A CN 113821346A
Authority
CN
China
Prior art keywords
user
representing
edge
task
computation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111121919.2A
Other languages
English (en)
Other versions
CN113821346B (zh
Inventor
王晓飞
李沅泽
刘志成
赵云凤
宋金铎
仇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111121919.2A priority Critical patent/CN113821346B/zh
Publication of CN113821346A publication Critical patent/CN113821346A/zh
Application granted granted Critical
Publication of CN113821346B publication Critical patent/CN113821346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,包括如下步骤:基于部分可观察马尔可夫决策过程构建边缘计算通信模型,包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;设置时隙长度,时间帧长度,初始化时隙和时间帧;边缘节点和用户分别利用部分可观察马尔可夫决策过程获取资源分配策略和任务卸载策略;根据任务卸载策略和资源分配策略利用参与者‑批评者模型对目标优化函数进行优化;根据优化后的目标优化函数将计算任务进行划分并处理。本发明解决了边缘设备与用户之间的不同利益追求,最大化地确保各自利益。

Description

基于深度强化学习的边缘计算中计算卸载与资源管理方法
技术领域
本发明属于边缘计算技术领域,具体涉及一种基于深度强化学习的边缘计算中计算卸载与资源管理方法。
背景技术
随着科学技术与工业生产能力的不断进步,移动设备的计算与通信能力不断提升,但各类崭新的移动应用也为移动设备提出了更高的业务需求。在一个多边缘多用户的集群中,用户可以选择将任务在本地进行计算或者卸载到边缘设备。为了响应对创新应用程序和用户体验日益增长的需求,计算卸载将计算密集型任务从用户迁移到边缘。边缘设备的计算能力一般强于用户,因此用户有可能通过卸载计算任务取得一些时延与功耗方面的好处。但是如果考虑到边缘可能分配给用户的计算资源过少或者选择卸载计算任务的用户过多造成的网络拥堵,卸载计算任务反而会损害用户的利益。因此用户需要决策是否卸载计算任务,通过哪个信道传输信息以及卸载到哪些边缘设备来最大化自身的利益。计算卸载作为一种具有前景的技术方法,可以帮助资源丰富的基础设施来增强用户设备,首先吸引了云计算领域的重要兴趣,然后在边缘计算中流行起来。边缘计算是云计算的一种发展,主张将集中的云资源推送到网络边缘,从处理延迟、能耗、节省带宽、数据隐私等方面得到好处。
从资源管理决策的角度来看,计算卸载解决了用户设备(以下简称用户)计算资源频繁短缺的问题,并提出了一种由边缘节点(以下简称边缘)制定的资源分配方案。由于单个边缘节点可能没有足够的资源,协同资源分配可以为用户提供服务,以维持服务性能,因此资源分配决策往往伴随着计算卸载决策一同产生。计算卸载与资源分配的联合决策构成了边缘计算中的一系列实际问题的基础,已有大量的论文与专利对这些问题进行了综合性的分析。实施集中决策控制是获得高质量解决方案的直接途径,它会面临理性遵从、用户隐私、决策可扩展性等方面的困境。另一方面,集中决策可能严重损害个体的理性,问题的复杂性逐渐超出传统方法的舒适区。因此,分布式决策方法是解决这一问题的一种有前途的方法。在此之上,已有的分布式工作认为将计算卸载和资源分配相结合能够进一步提高系统性能,但这往往无法通过优化单一类型的角色来实现,已有工作将综合计算卸载和资源分配问题建模为了非线性程序、stackelberg博弈、多时间尺度优化和markov决策过程,但是上述分布式决策的工作往往是从单一的关系来考虑问题。
基于学习的方法已经逐渐证明了它们在处理边缘计算中一些复杂的资源管理问题上的有效性,其中,多智能体深度强化学习(Multi-agent Deep ReinforcementLearning,MADRL)可以实现智能的分布式决策。然而,针对边缘计算中多个用户和多个边缘节点的计算卸载与资源管理问题,提出一种高效与定制化的方法仍然是一个悬而未决的问题,而这对于上述问题的解决具有较为深远的影响。另外,将多智能体学习应用到边缘计算的资源管理中,特别是扩展到多个决策者资源管理与计算卸载场景中,是近年研究者与工业界备受关注的问题。总的来说,一些已有的研究文献将多智能体学习应用到了协作、竞争或是混合的场景。然而,大多数论文(或专利)没有从边缘节点和用户双方角度去建立问题模型并求解。
发明内容
针对现有技术无法很好地确定资源分配与计算卸载决策的问题,本发明提出了一种基于深度强化学习的边缘计算中计算卸载与资源管理方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S3,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S4,获取每个边缘节点的总算力,边缘节点利用部分可观察马尔可夫决策过程获取资源分配策略;
S5,获取每个用户的计算任务、计算任务数据量和计算能力,用户利用部分可观察马尔可夫决策过程获取计算任务卸载策略;
S6,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S7,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S5,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S4,否则结束。
在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-∪2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Figure BDA0003277309510000031
Figure BDA0003277309510000032
式中,
Figure BDA0003277309510000033
代表笛卡尔积,
Figure BDA0003277309510000034
是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=
Figure BDA0003277309510000035
其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,K表示用户的计算任务无线传输时的信道,f为资源分配策略。
边缘节点m在一个时隙内的效用Vm的计算公式如下:
Figure BDA0003277309510000036
效用Vm的约束条件为:
Figure BDA0003277309510000037
式中,
Figure BDA0003277309510000041
为递减函数,
Figure BDA0003277309510000042
表示边缘节点m在第s时间帧的效用,
Figure BDA0003277309510000043
表示用户n在第s时间帧的信道决策,
Figure BDA0003277309510000044
表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,
Figure BDA0003277309510000045
表示用户的集合,1{·}为指标函数。
所述递减函数
Figure BDA0003277309510000046
为单调递减函数,其公式为:
Figure BDA0003277309510000047
式中,
Figure BDA0003277309510000048
表示边缘节点m的权重因子,且
Figure BDA0003277309510000049
Figure BDA00032773095100000410
表示用户n在第s时间帧内完成计算任务远程卸载的需求时间,
Figure BDA00032773095100000411
表示用户n在第s时间帧本地处理计算任务的执行时间。
用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
Figure BDA00032773095100000412
式中,
Figure BDA00032773095100000413
表示用户n在第s时间帧的信道决策,
Figure BDA00032773095100000414
表示用户n在第s时间帧的本地计算成本,
Figure BDA00032773095100000415
表示用户n在第s时间帧的远程卸载成本,1{·}为指标函数;
用户n在一个时间帧内的本地计算成本
Figure BDA00032773095100000416
的计算公式为:
Figure BDA00032773095100000417
式中,
Figure BDA00032773095100000418
表示用户n处理计算任务的执行时间
Figure BDA00032773095100000419
的权重因子,
Figure BDA00032773095100000420
表示用户n处理计算任务的能量消耗
Figure BDA00032773095100000421
的权重因子;
用户n在一个时间帧内的远程卸载成本
Figure BDA00032773095100000422
的计算公式为:
Figure BDA00032773095100000423
式中,
Figure BDA00032773095100000424
表示用户n完成计算任务远程卸载的需求时间,
Figure BDA00032773095100000425
表示用户n的计算任务在整个传输过程中的能量消耗。
当用户n的计算任务本地处理时,执行时间
Figure BDA00032773095100000426
的计算公式为:
Figure BDA00032773095100000427
式中,Cn(1)表示将用户n的计算任务划分为一个子任务时的处理周期,
Figure BDA00032773095100000428
表示用户n的计算能力。
当用户n的计算任务本地处理时,能量消耗
Figure BDA0003277309510000051
的计算公式为:
Figure BDA0003277309510000052
式中,
Figure BDA0003277309510000053
表示用户n本地处理计算任务时的计算功率。
当用户n的计算任务远程卸载处理时,所述需求时间
Figure BDA0003277309510000054
的计算公式为:
Figure BDA0003277309510000055
式中,
Figure BDA0003277309510000056
表示完成用户n计算任务用时最长的一个边缘节点所用时间,
Figure BDA0003277309510000057
表示用户n的计算任务的无线传输时间,
Figure BDA0003277309510000058
表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,
Figure BDA0003277309510000059
表示边缘节点m处理用户n卸载的计算任务的执行时间,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率;
当用户n的计算任务远程卸载处理时,计算任务在整个传输过程中的能量消耗
Figure BDA00032773095100000510
的计算公式为:
Figure BDA00032773095100000511
式中,pn表示用户n的无线传输功率。
所述用户n的计算任务的无线传输时间
Figure BDA00032773095100000512
的计算公式为:
Figure BDA00032773095100000513
式中,Dn表示用户n通过信道卸载的计算任务的数据量,Rn(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率,
Figure BDA00032773095100000514
为修复值。
在步骤S4中,所述资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm
表示边缘节点m的资源预算,资源预算fm的表达式为:
fm=[fm,t,fm,2,...,fm,n,...,fm,N]T
资源预算fm的约束条件为:
Figure BDA00032773095100000515
Figure BDA00032773095100000516
式中,fm,n表示边缘节点m为与其相连的用户n所分配的算力,
Figure BDA00032773095100000517
表示边缘节点m的总算力,fm表示边缘节点m的资源预算,
Figure BDA00032773095100000518
表示边缘节点的集合,
Figure BDA0003277309510000061
表示用户的集合。
本发明的有益效果:
本发明在强化学习算法的基础上将参与者-批评者模型与其相结合,对神经网络模型进行训练,边缘节点通过配置分配给每一个用户的计算资源,在最大化自己的特定利益的同时,解决了边缘设备与用户之间的不同利益追求,最大化了用户的自身利益。另外,在实际应用中,本发明可以做出合理的任务卸载与资源分配决策,减少计算任务的执行时间与用户的本地能源消耗,这对时延敏感型任务与能源受限的用户(如手机)具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为不同用户计算能力下用户和边缘节点的平均奖励。
图2为不同边缘节点计算能力下用户和边缘节点的平均奖励。
图3为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了应对终端设备处理能力不足、资源有限等问题,业界在移动边缘计算(MEC)中引入了计算卸载概念。边缘计算卸载即用户终端(UE)将计算任务卸载到MEC网络中,主要解决终端设备在资源存储、计算性能以及能效等方面的不足。计算卸载是MEC中的关键技术,主要包含卸载决策和资源分配两个部分,其通过有效的卸载决策和资源分配方案合理安排用户终端将计算任务卸载至MEC服务器,同时分配资源进行任务计算,以降低系统的时延和能耗。
一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,如图3所示,包括如下步骤:
S1,基于部分可观察马尔可夫决策过程(Partially Observable MarkovDecision Process,POMDP)构建边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
所述边缘计算通信模型设置在某一地理区域内,包括均为智能体的用户和边缘节点,用户采用
Figure BDA0003277309510000071
表示地理区域内所有用户的集合,边缘节点采用
Figure BDA0003277309510000072
表示地理区域内所有边缘节点的集合,用户与边缘节点之间基于OFDMA(Orthogonal Frequency Division MultipleAccess,正交频分多址)进行无线通信,不同的边缘节点之间通过光纤进行有线通信。用户n拥有一个密集型的计算任务要处理,每个边缘节点上均部署了一个用于论证用户n的计算能力的无线接入点,每个用户均通过无线通信与一个边缘节点上的无线接入点连接,该用户与其关联的无线接入点之间的距离为单跳,边缘节点通过有线光纤连接到其它边缘节点,且边缘节点之间有一个固定的时延
Figure BDA0003277309510000073
其中,边缘节点
Figure BDA0003277309510000074
和边缘节点
Figure BDA0003277309510000075
若边缘节点m和边缘节点m′相同,则时延
Figure BDA0003277309510000076
本实施例中,所述地理区域的范围为几百米;所述无线接入点为微型基站。
由于计算卸载决策和资源分配决策具有不同的时间敏感性,现将离散时间划分为两个时间尺度,并且假设场景是准静态的。每个时间尺度内包含τmax个时隙,每个时隙均包含τs个时间帧,在一个时间帧内边缘节点和用户的状态均保持不变,每个用户n均拥有固定数量的计算能力
Figure BDA0003277309510000077
用于本地计算,边缘节点m分配给到用户n的计算资源
Figure BDA0003277309510000078
用于服务。资源分配决策是指在每个时隙的开始处,每个边缘节点决定分配给每个用户的计算资源的数量。计算卸载决策是指每个用户在每一个时间帧中,都需要考虑是否卸载计算任务以及将计算任务卸载到哪些边缘节点。
所述计算任务表示为[Dn,Cn(x)],其中,Dn表示用户n通过无线链路卸载计算任务的数据量,Cn(x)是将用户n的计算任务划分为x个子任务时,每个子任务的平均处理周期,且x个子任务可以以平行且负载平衡的方式执行,其中,
Figure BDA0003277309510000081
Figure BDA0003277309510000082
表示一个计算任务中所包含最大子任务的数量,本实施例中,
Figure BDA0003277309510000083
所述基于OFDMA的无线通信考虑了多区域多用户的OFDMA网络的上行传输,OFDMA网络的频谱被划分为若干个信道,信道的集合采用
Figure BDA0003277309510000084
Figure BDA0003277309510000085
来表示。将an∈{0}∪K表示为用户n的信道决策,如果用户n的信道决策an=0,表示用户n决定不访问任何信道并在本地处理计算任务,否则用户n通过an∈{0}∪K信道连接至用户n的关联边缘节点ω(n),且关联边缘节点
Figure BDA0003277309510000086
即为用户n直接关联到的边缘节点,所有用户的信道决策集合为a=[a1,a2,…an,...,aN]。
S2,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
所述目标优化函数为:
maxΛ(-U1,-U2,…,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Figure BDA0003277309510000087
Figure BDA0003277309510000088
式中,
Figure BDA0003277309510000089
代表笛卡尔积,
Figure BDA00032773095100000810
是边缘节点m的资源分配策略f的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=
Figure BDA00032773095100000811
其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,且b=[b1,b2,...,bn,...,bN]。
所述边缘节点选择配置bn=[bn,t,bn,2,…,bn,m,...,bn,M]T,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率,若用户n决定将计算任务的计算转移到边缘节点m,则bn,m的值为1,否则为0。
本发明将每个时隙视为一个独立的边缘节点的决策过程,将每个时间帧视为用户独立决定是否卸载任务或卸载到哪些边缘节点的决策过程,目标优化函数综合考虑了用户的个体理性即每个用户都做出最小化处理自己计算任务的代价的决定、边缘节点的集体合理性即存在至少一个联合决策,其中每个边缘节点不能在减少另一个边缘节点效用的情况下提高其效用。这是一个高复杂度的多目标混合整数优化问题,一般为NP-hard问题,甚至不能保证存在一个稳定解。考虑到这种混合关系,专注于一个方面的优化可能会导致其他方面的性能下降。此外,由于通信延迟和用户隐私等原因,在层次结构中也很难实现信息完全的条件。
所述边缘节点m在一个时隙内的效用Vm的计算公式如下:
Figure BDA0003277309510000091
效用Vm的约束条件为:
Figure BDA0003277309510000092
式中,
Figure BDA0003277309510000093
为递减函数,
Figure BDA0003277309510000094
表示边缘节点m在第s时间帧的效用,
Figure BDA0003277309510000095
表示用户n在第s时间帧的信道决策,
Figure BDA0003277309510000096
表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
所述递减函数
Figure BDA0003277309510000097
为平滑的、有界的单调递减函数,其公式为:
Figure BDA0003277309510000098
式中,
Figure BDA0003277309510000099
表示边缘节点m的权重因子,且
Figure BDA00032773095100000910
Figure BDA00032773095100000911
表示用户n在第s时间帧内完成计算任务远程卸载的需求时间,
Figure BDA00032773095100000912
表示用户n在第s时间帧本地处理计算任务的执行时间。
所述用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
Figure BDA0003277309510000101
式中,
Figure BDA0003277309510000102
表示用户n在第s时间帧的信道决策,
Figure BDA0003277309510000103
表示用户n在第s时间帧的本地计算成本,
Figure BDA0003277309510000104
表示用户n在第s时间帧的远程卸载成本。
用户n在一个时间帧内的本地计算成本的计算公式为:
Figure BDA0003277309510000105
式中,
Figure BDA0003277309510000106
表示用户n处理计算任务的执行时间
Figure BDA0003277309510000107
的权重因子,
Figure BDA0003277309510000108
表示用户n处理计算任务的能量消耗
Figure BDA0003277309510000109
的权重因子,且
Figure BDA00032773095100001010
两个权重因子可以定量地反映用户n在不同条件下的需求偏好,确保了执行时间和能量消耗之间的权衡,
Figure BDA00032773095100001011
表示用户n的本地计算成本,是指用户n本地处理计算任务时的成本也即信道决策an=0时的成本。
当用户n的计算任务本地处理时,执行时间
Figure BDA00032773095100001012
的计算公式为:
Figure BDA00032773095100001013
式中,Cn(1)表示将用户n的计算任务划分为一个子任务时的处理周期,
Figure BDA00032773095100001014
表示用户n的计算能力。
当用户n的计算任务本地处理时,能量消耗
Figure BDA00032773095100001015
的计算公式为:
Figure BDA00032773095100001016
式中,
Figure BDA00032773095100001017
表示用户n本地处理计算任务时的计算功率。
用户n在一个时间帧内的远程卸载成本的计算公式为:
Figure BDA00032773095100001018
式中,
Figure BDA00032773095100001019
表示用户n的远程卸载成本,是指用户n的计算任务通过远程卸载完成也即信道决策an>0时的成本,
Figure BDA00032773095100001020
表示用户n完成计算任务远程卸载的需求时间,
Figure BDA00032773095100001021
表示用户n的计算任务在整个传输过程中的能量消耗。
所述需求时间
Figure BDA0003277309510000111
是指计算任务在用户n和选择的边缘节点之间无线传输的无线传输时间、计算任务在边缘节点上处理的执行时间、计算任务在边缘节点之间有线传输的有线传输时间三者的加总,需求时间
Figure BDA0003277309510000112
的计算公式为:
Figure BDA0003277309510000113
式中,
Figure BDA0003277309510000114
表示用户n的计算任务的无线传输时间,
Figure BDA0003277309510000115
表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,
Figure BDA0003277309510000116
表示边缘节点m处理用户n卸载的计算任务的执行时间,
Figure BDA0003277309510000117
表示完成用户n计算任务用时最长的一个边缘节点所用时间,也就是用户n完成计算任务花费的时间。
所述无线传输时间
Figure BDA0003277309510000118
的计算公式为:
Figure BDA0003277309510000119
式中,Dn表示用户n通过信道卸载计算任务的数据量,Rn(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率,
Figure BDA00032773095100001110
为修复值,表示卸载用户n的当前计算任务失败。
所述无线传输速率Rn(a)通过香农定理得到,其计算公式为:
Figure BDA00032773095100001111
式中,W表示信道带宽,In表示用户n和无线接入点之间的干扰,gn表示用户n和关联边缘节点ω(n)上的无线接入点之间的信道增益,pn表示用户n的无线传输功率,σ2表示高斯噪声。
所述用户n和无线接入点之间的干扰In的计算公式为:
Figure BDA00032773095100001112
式中,pj表示用户j的无线传输功率,gj表示用户n和关联边缘节点ω(j)上的无线接入点之间的信道增益,aj表示用户j的信道决策,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
所述边缘节点m处理用户n卸载的计算任务的执行时间
Figure BDA00032773095100001113
的计算公式为:
Figure BDA0003277309510000121
式中,fn,m表示边缘节点m分配给用户n的算力,
Figure BDA0003277309510000122
表示将计算任务分配到所有被选择的边缘节点上时计算任务的计算量。
所述计算任务在整个传输过程中的能量消耗
Figure BDA0003277309510000123
的计算公式为:
Figure BDA0003277309510000124
当用户n决定远程卸载它的计算任务时,计算任务将被卸载到一个或多个边缘节点。在确定边缘节点选择后,将用户n的计算任务划分为对应的若干个子任务后通过无线链路和有线链路传输到选中的边缘节点,然后将相应的子任务独立并行处理,待所有处理过程结束后得到任务结果。
S3,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S4,获取每个边缘节点的总算力,边缘节点利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略;
所述资源分配策略是指一个时隙内所有边缘节点的资源预算的集合,资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算。
所述资源预算fm是指边缘节点m分配给每个用户的计算资源的数量,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T
资源预算的约束条件为:
Figure BDA0003277309510000125
Figure BDA0003277309510000126
式中,fm,n表示边缘节点m为与其相连的用户n所分配的算力,
Figure BDA0003277309510000127
表示边缘节点m的总算力,fm表示边缘节点m的资源预算。
S5,获取每个用户的计算任务、计算任务数据量和计算能力,用户利用部分可观察马尔可夫决策过程进行训练获取计算任务卸载策略;
所述POMDP可以表示为
Figure BDA0003277309510000131
其中,
Figure BDA0003277309510000132
包含环境中的所有状态,
Figure BDA0003277309510000133
Figure BDA0003277309510000134
包含N个用户智能体和M个边缘节点智能体的观测值,相当于用户和边缘节点的属性信息,用户的属性信息包括用户的计算任务、计算任务的数据量、用户的计算能力等,边缘节点的属性信息包括边缘节点的总算力、边缘节点分配给用户的处理速率等,
Figure BDA0003277309510000135
是一组可能的行动,相当于资源分配策略和计算任务卸载策略。每一个智能体i根据一个以θi为参数的策略函数Pi
Figure BDA0003277309510000136
执行一个行动,且边缘节点智能体每τs步做出一个决策,在其它时间保持之前的决策,用户在每个时间帧s中都需要做出一个决策,即需要考虑是否卸载计算任务及卸载到哪些边缘节点。多智能体将联合决策传递到环境中,根据状态转移方程
Figure BDA0003277309510000137
Figure BDA0003277309510000138
输出一个新状态
Figure BDA0003277309510000139
和一个立即的反馈ri
Figure BDA00032773095100001310
该反馈也即奖励由智能体i接收。每个智能体都致力于通过学习一项好的策略来最大化其预期的折扣未来奖励
Figure BDA00032773095100001311
其中,γ是长期收益的折现因子,
Figure BDA00032773095100001312
表示智能体i在t时刻的动作,i∈{1,2,…,M+N},st表示在决策时间t时刻环境的状态。
S6,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
在强化学习算法的基础上,针对每个边缘节点和每个用户分别设计了一个参与者-批评者模型,并分别使用gumble-softmax和argmax离散神经网络在训练和推理过程中的连续输出。在每个参与者-批评者模型中,有两种神经网络用于逼近行为者,用策略函数Pi表示相应的批评,用行动-价值函数Qi表示以最大化目标函数
Figure BDA00032773095100001313
学习的目标是通过在梯度方向上调整参数来实现的,例如
Figure BDA00032773095100001314
使J(θi)最大化的结果算法的梯度为:
Figure BDA00032773095100001315
式中,
Figure BDA00032773095100001316
是一个重放缓冲区,包含(oi,αi,ri,o′i)形式的转换。oi,αi,ri和o′i是智能体i在重放缓冲区
Figure BDA00032773095100001317
中的观测值、动作、奖励和下一个观测值,动作-价值函数Qi被更新为:
Figure BDA0003277309510000141
式中,y表示目标Q值。
Figure BDA0003277309510000142
式中,P′i是参数为θ′i的策略函数,α′i是智能体i的下一个动作,Q′i是一个目标网络,该目标网络的参数使用Q′i的当前参数进行周期性更新,使训练更加稳定。就整体而言,
Figure BDA0003277309510000143
最小化当前和目标动作状态函数之间的差异期望。
S7,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=S+1并返回步骤S5,否则判断时隙St是否小于时隙长度τmax,若是执行st=St+1并返回步骤S4,否则结束。
工业智能制造领域出于提升产品质量的需求,往往需要通过人工智能技术实现图像识别,缺陷探测,危险预警等任务。处于工业制造环境与成本的考虑,工厂往往无法将全部的大量的深度学习任务在本地完成计算,需要将任务部分卸载到云端。在拥有多个本地设备与云端设备联合计算的情况下,本发明可以更合理的分配计算任务,带来整体的效益提升,以下基于真实EUA数据集进行模拟评估:
仿真参数设置:考虑一个边长为300米的正方形区域,包括8个基站和42个移动设备。每个基站的覆盖半径在[100,150]米内随机生成,每个基站部署边缘服务器,提供资源支持计算卸载。在无线接入方面,设置用户设备的传输功率为0.1瓦特,通信信道的带宽为5mhz,信道数为5。所有信道的通信增益建模为独立的瑞利衰落,功率损耗系数为-4,背景噪声为-100dBm。在计算方面,用户设备的计算能力随机分配在[1,1.5]GHz,计算功率为1瓦特,边缘服务器的计算能力随机分配在[16,48]GHz。所有加权因子随机分布在[0,1]。对于计算任务,每个任务生成的数据大小在100~400kb之间,完成任务所需的CPU周期平均为1千兆周。每个用户在每一帧中生成任务的概率在0.4到0.8之间,并随着时间的推移而逐渐变化。
模式设置:对于每个学习智能体,采用了105个经验重放缓冲区,并选择了64个小批量进行训练。此外,使用ADAM作为优化器,参与者的学习率为10-3,批评家的学习率为10-4,折扣因子为0.95。为每种情况下的每个智能体训练了100次,每次有20个时隙和200时间帧,其中一半的时隙用于训练。为了在重放缓冲区中收集足够数量的样本进行学习,在第十次开始学习过程。
评估基线和度量:将本发明与以下三种基线方法进行比较。·Local:所有任务都在本地计算。·Direct:对于每个任务,用户有一半的机会本地处理任务,一半的机会通过随机访问通道将其任务卸载到连接的边缘服务器。每个边缘服务器将其资源平均分配给关联的用户。·Random随机:每个用户随机选择访问通道、任务划分策略和子任务卸载目的地,每个边缘服务器将自己的资源平均分配给可能申请资源的用户。·DDPG(DeepDeterministic Policy Gradient,深度确定性策略梯度):也即本发明,边缘服务器和用户设备都是通过DDPG来获得动作的。
如图1所示显示了不同用户计算能力下用户设备和边缘服务器的平均奖励,结果表明,基于强化学习的决策方法能够很好地解决复杂问题。图2所示是不同边缘计算能力下用户和边缘服务器的平均奖励。通过合理的参数设置,将边缘计算能力的参数控制在0.75~1.25倍之间。此外,边缘服务器的数量相对小于用户设备的数量,因此,增加边缘计算资源对系统的性能并没有明显的改善。然而,本发明在平均边缘奖励和平均用户奖励方面领先于其它3个基线。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S3,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S4,获取每个边缘节点的总算力,边缘节点利用部分可观察马尔可夫决策过程获取资源分配策略;
S5,获取每个用户的计算任务、计算任务数据量和计算能力,用户利用部分可观察马尔可夫决策过程获取计算任务卸载策略;
S6,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S7,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S5,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S4,否则结束。
2.根据权利要求1所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-U2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Figure FDA0003277309500000011
Figure FDA0003277309500000012
式中,
Figure FDA0003277309500000021
代表笛卡尔积,
Figure FDA0003277309500000022
是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策
Figure FDA0003277309500000023
Figure FDA0003277309500000024
其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,K表示用户的计算任务无线传输时的信道,f为资源分配策略。
3.根据权利要求2所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,边缘节点m在一个时隙内的效用Vm的计算公式如下:
Figure FDA0003277309500000025
效用Vm的约束条件为:
Figure FDA0003277309500000026
式中,
Figure FDA0003277309500000027
为递减函数,
Figure FDA0003277309500000028
表示边缘节点m在第s时间帧的效用,
Figure FDA0003277309500000029
表示用户n在第s时间帧的信道决策,
Figure FDA00032773095000000210
表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,
Figure FDA00032773095000000211
表示用户的集合,1{·}为指标函数。
4.根据权利要求3所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,所述递减函数
Figure FDA00032773095000000212
为单调递减函数,其公式为:
Figure FDA00032773095000000213
式中,
Figure FDA00032773095000000214
表示边缘节点m的权重因子,且
Figure FDA00032773095000000215
Figure FDA00032773095000000216
表示用户n在第s时间帧内完成计算任务远程卸载的需求时间,
Figure FDA00032773095000000217
表示用户n在第s时间帧本地处理计算任务的执行时间。
5.根据权利要求2所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
Figure FDA0003277309500000031
式中,
Figure FDA0003277309500000032
表示用户n在第s时间帧的信道决策,
Figure FDA0003277309500000033
表示用户n在第s时间帧的本地计算成本,
Figure FDA0003277309500000034
表示用户n在第s时间帧的远程卸载成本,1{·}为指标函数;
用户n在一个时间帧内的本地计算成本
Figure FDA0003277309500000035
的计算公式为:
Figure FDA0003277309500000036
式中,
Figure FDA0003277309500000037
表示用户n处理计算任务的执行时间
Figure FDA0003277309500000038
的权重因子,
Figure FDA0003277309500000039
表示用户n处理计算任务的能量消耗
Figure FDA00032773095000000310
的权重因子;
用户n在一个时间帧内的远程卸载成本
Figure FDA00032773095000000311
的计算公式为:
Figure FDA00032773095000000312
式中,
Figure FDA00032773095000000313
表示用户n完成计算任务远程卸载的需求时间,
Figure FDA00032773095000000314
表示用户n的计算任务在整个传输过程中的能量消耗。
6.根据权利要求5所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,当用户n的计算任务本地处理时,执行时间
Figure FDA00032773095000000321
的计算公式为:
Figure FDA00032773095000000315
式中,Cn(1)表示将用户n的计算任务划分为一个子任务时的处理周期,
Figure FDA00032773095000000316
表示用户n的计算能力。
当用户n的计算任务本地处理时,能量消耗
Figure FDA00032773095000000317
的计算公式为:
Figure FDA00032773095000000318
式中,
Figure FDA00032773095000000319
表示用户n本地处理计算任务时的计算功率。
7.根据权利要求5所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,当用户n的计算任务远程卸载处理时,所述需求时间
Figure FDA00032773095000000320
的计算公式为:
Figure FDA0003277309500000041
式中,
Figure FDA0003277309500000042
表示完成用户n计算任务用时最长的一个边缘节点所用时间,
Figure FDA0003277309500000043
表示用户n的计算任务的无线传输时间,
Figure FDA0003277309500000044
表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,
Figure FDA0003277309500000045
表示边缘节点m处理用户n卸载的计算任务的执行时间,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率;
当用户n的计算任务远程卸载处理时,计算任务在整个传输过程中的能量消耗
Figure FDA0003277309500000046
的计算公式为:
Figure FDA0003277309500000047
式中,pn表示用户n的无线传输功率。
8.根据权利要求7所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,所述用户n的计算任务的无线传输时间
Figure FDA0003277309500000048
的计算公式为:
Figure FDA0003277309500000049
式中,Dn表示用户n通过信道卸载的计算任务的数据量,Rn(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率,
Figure FDA00032773095000000410
为修复值。
9.根据权利要求1所述的基于深度强化学习的边缘计算中计算卸载与资源管理方法,其特征在于,在步骤S4中,所述资源分配策略表示为f=[ft,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算,资源预算fm的表达式为:
fm=[fm,t,fm,2,…,fm,n,…,fm,N]T
资源预算fm的约束条件为:
Figure FDA00032773095000000411
Figure FDA00032773095000000412
式中,fm,n表示边缘节点n为与其相连的用户n所分配的算力,
Figure FDA0003277309500000051
表示边缘节点m的总算力,fm表示边缘节点m的资源预算,
Figure FDA0003277309500000052
表示边缘节点的集合,
Figure FDA0003277309500000053
表示用户的集合。
CN202111121919.2A 2021-09-24 2021-09-24 基于深度强化学习的边缘计算中计算卸载与资源管理方法 Active CN113821346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111121919.2A CN113821346B (zh) 2021-09-24 2021-09-24 基于深度强化学习的边缘计算中计算卸载与资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111121919.2A CN113821346B (zh) 2021-09-24 2021-09-24 基于深度强化学习的边缘计算中计算卸载与资源管理方法

Publications (2)

Publication Number Publication Date
CN113821346A true CN113821346A (zh) 2021-12-21
CN113821346B CN113821346B (zh) 2023-09-05

Family

ID=78915356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111121919.2A Active CN113821346B (zh) 2021-09-24 2021-09-24 基于深度强化学习的边缘计算中计算卸载与资源管理方法

Country Status (1)

Country Link
CN (1) CN113821346B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002409A (zh) * 2022-05-20 2022-09-02 天津大学 一种面向视频检测与追踪的动态任务调度方法
CN116009990A (zh) * 2023-02-01 2023-04-25 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN113296845A (zh) * 2021-06-03 2021-08-24 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN113296845A (zh) * 2021-06-03 2021-08-24 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张文献;杜永文;张希权: "面向多用户移动边缘计算轻量任务卸载优化", 小型微型计算机系统, no. 010, pages 2056 - 2061 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002409A (zh) * 2022-05-20 2022-09-02 天津大学 一种面向视频检测与追踪的动态任务调度方法
CN115002409B (zh) * 2022-05-20 2023-07-28 天津大学 一种面向视频检测与追踪的动态任务调度方法
CN116009990A (zh) * 2023-02-01 2023-04-25 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN116009990B (zh) * 2023-02-01 2024-03-29 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法

Also Published As

Publication number Publication date
CN113821346B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Liu et al. Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system
CN108809695B (zh) 一种面向移动边缘计算的分布上行链路卸载策略
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
Zou et al. A3C-DO: A regional resource scheduling framework based on deep reinforcement learning in edge scenario
CN110971706B (zh) Mec中近似最优化与基于强化学习的任务卸载方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
Chen et al. Multiuser computation offloading and resource allocation for cloud–edge heterogeneous network
CN113641504A (zh) 用于提升多智能体强化学习边缘计算效果的信息交互方法
Ren et al. Collaborative edge computing and caching with deep reinforcement learning decision agents
CN113821346A (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114650228B (zh) 一种异构网络中基于计算卸载的联邦学习调度方法
Huang et al. Multi-agent reinforcement learning for cost-aware collaborative task execution in energy-harvesting D2D networks
Cha et al. Fuzzy logic based client selection for federated learning in vehicular networks
Tham et al. A load balancing scheme for sensing and analytics on a mobile edge computing network
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
Wang et al. Task allocation mechanism of power internet of things based on cooperative edge computing
Yao et al. Energy-aware task allocation for mobile IoT by online reinforcement learning
Lin et al. Deep reinforcement learning-based task scheduling and resource allocation for NOMA-MEC in Industrial Internet of Things
Huda et al. Deep reinforcement learning-based computation offloading in uav swarm-enabled edge computing for surveillance applications
Heidarpour et al. Soft actor–critic-based computation offloading in multiuser MEC-enabled IoT—a lifetime maximization perspective
Liu et al. Learning-based multi-UAV assisted data acquisition and computation for information freshness in WPT enabled space-air-ground PIoT
Chen et al. An intelligent task offloading algorithm (iTOA) for UAV network
CN113747450A (zh) 一种移动网络中业务部署方法、装置及电子设备
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant