CN113641504A - 用于提升多智能体强化学习边缘计算效果的信息交互方法 - Google Patents

用于提升多智能体强化学习边缘计算效果的信息交互方法 Download PDF

Info

Publication number
CN113641504A
CN113641504A CN202111123522.7A CN202111123522A CN113641504A CN 113641504 A CN113641504 A CN 113641504A CN 202111123522 A CN202111123522 A CN 202111123522A CN 113641504 A CN113641504 A CN 113641504A
Authority
CN
China
Prior art keywords
user
representing
task
edge
edge node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111123522.7A
Other languages
English (en)
Other versions
CN113641504B (zh
Inventor
刘志成
李沅泽
赵云凤
宋金铎
王晓飞
仇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111123522.7A priority Critical patent/CN113641504B/zh
Publication of CN113641504A publication Critical patent/CN113641504A/zh
Application granted granted Critical
Publication of CN113641504B publication Critical patent/CN113641504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种用于提升多智能体强化学习边缘计算效果的信息交互方法,包括如下步骤:构建基于部分可观察马尔可夫决策过程的边缘计算通信模型;在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;设置时隙长度,时间帧长度,初始化时隙和时间帧;获取边缘节点的资源分配策略,执行内存填充操作;用户执行内存读取和内存写入操作,同时获取每个用户的计算任务、计算任务数据量和计算能力,获取计算用户的任务卸载策略;利用参与者‑批评者模型对目标优化函数进行优化;对计算任务进行划分并处理。本发明可以使边缘节点和用户的决策效用最大化。

Description

用于提升多智能体强化学习边缘计算效果的信息交互方法
技术领域
本发明属于边缘计算技术领域,具体涉及一种用于提升多智能体强化学习边缘计算效果的信息交互方法。
背景技术
随着科学技术与工业生产能力的不断进步,移动设备的计算与通信能力不断提升,但各类崭新的移动应用也为移动设备提出了更高的业务需求。在一个多边缘多用户的集群中,用户可以选择将任务在本地进行计算或者卸载到边缘设备。为了响应对创新应用程序和用户体验日益增长的需求,计算卸载将计算密集型任务从用户迁移到边缘。边缘设备的计算能力一般强于用户,因此用户有可能通过卸载计算任务取得一些时延与功耗方面的好处。但是如果考虑到边缘可能分配给用户的计算资源过少或者选择卸载计算任务的用户过多造成的网络拥堵,卸载计算任务反而会损害用户的利益。因此用户需要决策是否卸载计算任务,通过哪个信道传输信息以及卸载到哪些边缘设备来最大化自身的利益。同时边缘设备与用户有着不同的利益追求,用户希望最大化自身利益,边缘设备通过配置分配给每一个用户的计算资源,来最大化自己的特定利益,但是边缘设备与用户、用户与用户之间缺少有效的信息交互,这为决策任务增加了困难。计算卸载作为一种具有前景的技术方法,可以帮助资源丰富的基础设施来增强用户设备,首先吸引了云计算领域的重要兴趣,然后在边缘计算中流行起来。边缘计算是云计算的一种发展,主张将集中的云资源推送到网络边缘,从处理延迟、能耗、节省带宽、数据隐私等方面得到好处。
从资源管理决策的角度来看,计算卸载解决了用户设备(以下简称用户)计算资源频繁短缺的问题,并提出了一种由边缘节点(以下简称边缘)制定的资源分配方案。由于单个边缘节点可能没有足够的资源,协同资源分配可以为用户提供服务,以维持服务性能,因此资源分配决策往往伴随着计算卸载决策一同产生。计算卸载与资源分配的联合决策构成了边缘计算中的一系列实际问题的基础,已有大量的论文与专利对这些问题进行了综合性的分析。实施集中决策控制是获得高质量解决方案的直接途径,它会面临理性遵从、用户隐私、决策可扩展性等方面的困境。另一方面,集中决策可能严重损害个体的理性,问题的复杂性逐渐超出传统方法的舒适区。因此,分布式决策方法是解决这一问题的一种有前途的方法。在此之上,已有的分布式工作认为将计算卸载和资源分配相结合能够进一步提高系统性能,但这往往无法通过优化单一类型的角色来实现,已有工作将综合计算卸载和资源分配问题建模为了非线性程序、stackelberg博弈、多时间尺度优化和markov决策过程,但是上述分布式决策的工作往往是从单一的关系来考虑问题,缺乏对不完全信息的关注。
因此,为了进一步协调计算卸载和资源分配,需要一种高效的协调机制来协调,以避免用户之间的竞争冲突,提高边缘的协作能力。近年来基于学习的方法已经逐渐证明了它们在处理边缘计算中一些复杂的资源管理问题上的有效性,其中,多智能体深度强化学习(Multi-agent Deep Reinforcement Learning,MADRL)可以实现智能的分布式决策。特别是,多智能体之间的显式信息交互,一些科研文献也将这种方法描述为“学习如何交流”,这被认为是一种有前途的方法来避免竞争冲突和促进合作行为。然而,针对边缘计算中多个用户和多个边缘节点的计算卸载与资源管理问题,提出一种高效与定制化的方法仍然是一个悬而未决的问题。另外,将多智能体学习应用到边缘计算的资源管理中,特别是扩展到多个决策者资源管理与计算卸载场景中,是近年研究者与工业界备受关注的问题。总的来说,一些已有的研究文献将多智能体学习应用到了协作、竞争或是混合的场景。然而,大多数论文(或专利)尚未发现(或保护)显式信息交互这一机制对提高系统性能的能力。
发明内容
针对现有技术中采用MADRL在资源管理与计算卸载时的性能较低问题,本发明提出了一种用于提升多智能体强化学习边缘计算效果的信息交互方法。
为解决以上技术问题,本发明所采用的技术方案如下:
一种用于提升多智能体强化学习边缘计算效果的信息交互方法,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;
S3,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S4,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S5,调用智能体获取每个边缘节点的内存、算力,利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略,同时执行内存填充操作;
S6,用户执行内存读取和内存写入操作,同时获取每个用户的计算任务的任务信息,利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略;
S7,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S8,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S6,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S5,否则结束。
在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-U2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Figure BDA0003277899950000031
Figure BDA0003277899950000032
式中,
Figure BDA0003277899950000033
代表笛卡尔积,
Figure BDA0003277899950000034
是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=
Figure BDA00032778999500000423
其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,K表示用户的计算任务无线传输时的信道,f为资源分配策略。
边缘节点m在一个时隙内的效用Vm的计算公式如下:
Figure BDA0003277899950000041
效用Vm的约束条件为:
Figure BDA0003277899950000042
式中,
Figure BDA0003277899950000043
为递减函数,
Figure BDA0003277899950000044
表示边缘节点m在第s时间帧的效用,
Figure BDA0003277899950000045
表示用户n在第s时间帧的信道决策,
Figure BDA0003277899950000046
表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,
Figure BDA0003277899950000047
表示用户的集合,1{·}为指标函数。
10.用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
Figure BDA0003277899950000048
式中,
Figure BDA0003277899950000049
表示用户n在第s时间帧的信道决策,
Figure BDA00032778999500000410
表示用户n在第s时间帧的本地计算成本,
Figure BDA00032778999500000411
表示用户n在第s时间帧的远程卸载成本,t{·}为指标函数;
用户n在一个时间帧内的本地计算成本
Figure BDA00032778999500000412
的计算公式为:
Figure BDA00032778999500000413
式中,
Figure BDA00032778999500000414
表示用户n处理计算任务的执行时间
Figure BDA00032778999500000415
的权重因子,
Figure BDA00032778999500000416
表示用户n处理计算任务的能量消耗
Figure BDA00032778999500000417
的权重因子;
用户n在一个时间帧内的远程卸载成本
Figure BDA00032778999500000418
的计算公式为:
Figure BDA00032778999500000419
式中,
Figure BDA00032778999500000420
表示用户n完成计算任务远程卸载的需求时间,
Figure BDA00032778999500000421
表示用户n的计算任务在整个传输过程中的能量消耗。
当用户n的计算任务本地处理时,执行时间
Figure BDA00032778999500000422
的计算公式为:
Figure BDA0003277899950000051
式中,Cn(t)表示将用户n的计算任务划分为一个子任务时的处理周期,
Figure BDA0003277899950000052
表示用户n的计算能力。
当用户n的计算任务本地处理时,能量消耗
Figure BDA0003277899950000053
的计算公式为:
Figure BDA0003277899950000054
式中,
Figure BDA0003277899950000055
表示用户n本地处理计算任务时的计算功率。
当用户n的计算任务远程卸载处理时,所述需求时间
Figure BDA0003277899950000056
的计算公式为:
Figure BDA0003277899950000057
式中,
Figure BDA0003277899950000058
表示完成用户n计算任务用时最长的一个边缘节点所用时间,
Figure BDA0003277899950000059
表示用户n的计算任务的无线传输时间,
Figure BDA00032778999500000510
表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,
Figure BDA00032778999500000511
表示边缘节点m处理用户n卸载的计算任务的执行时间,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率;
当用户n的计算任务远程卸载处理时,计算任务在整个传输过程中的能量消耗
Figure BDA00032778999500000512
的计算公式为:
Figure BDA00032778999500000513
式中,pn表示用户n的无线传输功率。
所述用户n的计算任务的无线传输时间
Figure BDA00032778999500000514
的计算公式为:
Figure BDA00032778999500000515
式中,Dn表示用户n通过信道卸载的计算任务的数据量,Rn(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率,
Figure BDA00032778999500000516
为修复值。
在步骤S4中,所述资源分配策略表示为f=[ft,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T
资源预算fm的约束条件为:
Figure BDA0003277899950000061
Figure BDA0003277899950000062
式中,fm,n表示边缘节点m为与其相连的用户n所分配的算力,
Figure BDA0003277899950000063
表示边缘节点m的总算力,fm表示边缘节点m的资源预算,
Figure BDA0003277899950000064
表示边缘节点的集合,
Figure BDA0003277899950000065
表示用户的集合。
在步骤S2中,所述内存写入操作的公式为:
Figure BDA0003277899950000066
内存写入操作公式的约束条件为:
Figure BDA0003277899950000067
式中,
Figure BDA0003277899950000068
表示共享内存空间中所存储信息向量的信息内容折扣的因子值,
Figure BDA0003277899950000069
表示用户n写入用户n的关联边缘节点ω(n)的信息向量在位置x处的值,
Figure BDA00032778999500000610
表示写入的信息向量在位置k处的值,
Figure BDA00032778999500000611
表示用户写入信息向量的长度,
Figure BDA00032778999500000612
表示共享内存空间中所存储的信息向量的行数。
本发明的有益效果:
本发明将部分可观察马尔可夫决策过程和参与者-批评者模型相结合能够显著提高MADRL在资源管理与计算卸载问题中的性能,能够有效减少计算任务完成时延,减少用户终端能量消耗,提升用户体验,对于时延敏感型任务的完成与提升能源受限的移动计算场景中的用户体验具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为边缘计算通信模型的示意图。
图2为每一时间帧下用户和边缘节点的奖励。
图3为不同用户计算能力下用户和边缘的平均奖励。
图4为卸载任务成功率的比较示意图。
图5为不同边缘计算能力下用户和边缘的平均奖励。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了应对终端设备处理能力不足、资源有限等问题,业界在移动边缘计算(MEC)中引入了计算卸载概念。边缘计算卸载即用户终端(UE)将计算任务卸载到MEC网络中,主要解决终端设备在资源存储、计算性能以及能效等方面的不足。计算卸载是MEC中的关键技术,主要包含卸载决策和资源分配两个部分,其通过有效的卸载决策和资源分配方案合理安排用户终端将计算任务卸载至MEC服务器,同时分配资源进行任务计算,以降低系统的时延和能耗。
一种用于提升多智能体强化学习边缘计算效果的信息交互方法,如图1所示,包括如下步骤:
S1,基于部分可观察马尔可夫决策过程(Partially Observable MarkovDecision Process,POMDP)构建边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
所述边缘计算通信模型设置在某一地理区域内,包括均为智能体的用户和边缘节点,用户采用
Figure BDA0003277899950000071
表示地理区域内所有用户的集合,边缘节点采用
Figure BDA0003277899950000072
表示地理区域内所有边缘节点的集合,用户与边缘节点之间基于OFDMA(Orthogonal Frequency Division MultipleAccess,正交频分多址)进行无线通信,不同的边缘节点之间通过光纤进行有线通信。用户n拥有一个密集型的计算任务要处理,每个边缘节点上均部署了一个用于论证用户n的计算能力的无线接入点,每个用户均通过无线通信与一个边缘节点上的无线接入点连接,该用户与其关联的无线接入点之间的距离为单跳,边缘节点通过有线光纤连接到其它边缘节点,且边缘节点之间有一个固定的时延
Figure BDA0003277899950000081
其中,边缘节点
Figure BDA0003277899950000082
和边缘节点
Figure BDA0003277899950000083
若边缘节点m和边缘节点m′相同,则时延
Figure BDA0003277899950000084
本实施例中,所述地理区域的范围为几百米;所述无线接入点为微型基站。
由于计算卸载决策和资源分配决策具有不同的时间敏感性,现将离散时间划分为两个时间尺度,并且假设场景是准静态的。每个时间尺度内包含τmax个时隙,每个时隙均包含τs个时间帧,在一个时间帧内边缘节点和用户的状态均保持不变,每个用户n均拥有固定数量的计算能力
Figure BDA0003277899950000085
用于本地计算,边缘节点m分配给到用户n的计算资源
Figure BDA0003277899950000086
用于服务。资源分配决策是指在每个时隙的开始处,每个边缘节点决定分配给每个用户的计算资源的数量。计算卸载决策是指每个用户在每一个时间帧中,都需要考虑是否卸载计算任务以及将计算任务卸载到哪些边缘节点。
所述计算任务表示为[Dn,Cn(x′)],其中,Dn表示用户n通过无线链路卸载计算任务的数据量,Cn(x′)是将用户n的计算任务划分为x′个子任务时,每个子任务的平均处理周期,且x′个子任务可以以平行且负载平衡的方式执行,其中,
Figure BDA0003277899950000087
Figure BDA0003277899950000088
表示一个计算任务中所包含最大子任务的数量,本实施例中,
Figure BDA0003277899950000089
所述基于OFDMA的无线通信考虑了多区域多用户的OFDMA网络的上行传输,OFDMA网络的频谱被划分为若干个信道,信道的集合采用
Figure BDA00032778999500000810
Figure BDA00032778999500000811
来表示。将an∈{0}∪K表示为用户n的信道决策,如果用户n的信道决策an=0,表示用户n决定不访问任何信道并在本地处理计算任务,否则用户n通过an∈{0}∪K信道连接至用户n的关联边缘节点ω(n),且关联边缘节点
Figure BDA00032778999500000812
即为用户n直接关联到的边缘节点,所有用户的信道决策集合为a=[a1,a2,…an,...,aN]。
S2,在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;
所述共享内存空间用于存储信息向量,为
Figure BDA0003277899950000091
存在于边缘节点m上,大小为
Figure BDA0003277899950000092
用于边缘节点和用户之间进行信息交互,信息可以为边缘节点算力的利用情况、用户任务的到达频率等有助于任务决策的信息,
Figure BDA0003277899950000093
表示共享内存空间中所存储信息向量的行数,
Figure BDA0003277899950000094
表示共享内存空间中所存储信息向量的列数。
内存读取操作:在采取动作之前,每个边缘节点可以访问自己的内存,得到一个长度为
Figure BDA0003277899950000095
的信息向量
Figure BDA0003277899950000096
每个用户也可以从与它相连的边缘节点的共享内存空间中获得一个信息向量
Figure BDA0003277899950000097
Figure BDA0003277899950000098
表示信息向量所有可能的取值。利用这个信息向量可以使每个智能体对整个系统有更多的感知,从而提高其决策能力。
内存填充操作:每个边缘节点在读取内存信息后,执行一个内存填充操作,同时进行资源决策重写内存内容,即生成
Figure BDA0003277899950000099
并使
Figure BDA00032778999500000910
其中
Figure BDA00032778999500000911
的长度与
Figure BDA00032778999500000912
的长度相等。
内存写入操作:在每一个时间帧中,每一个用户读取共享内存空间生成一个长度为
Figure BDA00032778999500000913
的信息向量
Figure BDA00032778999500000914
之后执行下面的计算:
Figure BDA00032778999500000915
Figure BDA00032778999500000916
式中,
Figure BDA00032778999500000917
表示共享内存空间中所存储的信息向量的信息内容折扣的因子值,
Figure BDA00032778999500000918
表示用户n写入关联边缘节点ω(n)的信息向量在位置x处的值,
Figure BDA00032778999500000919
表示写入信息向量在位置k处的值,
Figure BDA00032778999500000920
表示写入信息向量的长度。
本实施例中,现有信息内容折扣的因子值
Figure BDA00032778999500000921
Figure BDA00032778999500000922
Figure BDA00032778999500000923
Figure BDA00032778999500000924
S3,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
所述目标优化函数为:
maxΛ(-U1,-U2,…,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Figure BDA0003277899950000101
Figure BDA0003277899950000102
式中,
Figure BDA0003277899950000103
代表笛卡尔积,
Figure BDA0003277899950000104
是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=
Figure BDA0003277899950000107
其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,且b=[b1,b2,...,bn,...,bN]。
所述边缘节点选择配置bn=[bn,1,bn,2,…,bn,m,...,bn,M]T,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率,若用户n决定将计算任务的计算转移到边缘节点m,则bn,m的值为1,否则为0。
本发明将每个时隙视为一个独立的边缘节点的决策过程,将每个时间帧视为用户独立决定是否卸载任务或卸载到哪些边缘节点的决策过程,目标优化函数综合考虑了用户的个体理性即每个用户都做出最小化处理自己计算任务的代价的决定、边缘节点的集体合理性即存在至少一个联合决策,其中每个边缘节点不能在减少另一个边缘节点效用的情况下提高其效用。这是一个高复杂度的多目标混合整数优化问题,一般为NP-hard问题,甚至不能保证存在一个稳定解。考虑到这种混合关系,专注于一个方面的优化可能会导致其他方面的性能下降。此外,由于通信延迟和用户隐私等原因,在层次结构中也很难实现信息完全的条件。
所述边缘节点m在一个时隙内的效用Vm的计算公式如下:
Figure BDA0003277899950000105
效用Vm的约束条件为:
Figure BDA0003277899950000106
式中,
Figure BDA0003277899950000111
为递减函数,
Figure BDA0003277899950000112
表示边缘节点m在第s时间帧的效用,
Figure BDA0003277899950000113
表示用户n在第s时间帧的信道决策,
Figure BDA0003277899950000114
表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
所述递减函数
Figure BDA0003277899950000115
为平滑的、有界的单调递减函数,其公式为:
Figure BDA0003277899950000116
式中,
Figure BDA0003277899950000117
表示边缘节点m的权重因子,且
Figure BDA0003277899950000118
Figure BDA0003277899950000119
表示用户n在第s时间帧内完成计算任务远程卸载的需求时间,
Figure BDA00032778999500001110
表示用户n在第s时间帧本地处理计算任务的执行时间。
所述用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
Figure BDA00032778999500001111
式中,
Figure BDA00032778999500001112
表示用户n在第s时间帧的信道决策,
Figure BDA00032778999500001113
表示用户n在第s时间帧的本地计算成本,
Figure BDA00032778999500001114
表示用户n在第s时间帧的远程卸载成本。
用户n在一个时间帧内的本地计算成本的计算公式为:
Figure BDA00032778999500001115
式中,
Figure BDA00032778999500001116
表示用户n处理计算任务的执行时间
Figure BDA00032778999500001117
的权重因子,
Figure BDA00032778999500001118
表示用户n处理计算任务的能量消耗
Figure BDA00032778999500001119
的权重因子,且
Figure BDA00032778999500001120
两个权重因子可以定量地反映用户n在不同条件下的需求偏好,确保了执行时间和能量消耗之间的权衡,
Figure BDA00032778999500001121
表示用户n的本地计算成本,是指用户n本地处理计算任务时的成本也即信道决策an=0时的成本。
当用户n的计算任务本地处理时,执行时间
Figure BDA00032778999500001122
的计算公式为:
Figure BDA00032778999500001123
式中,Cn(1)表示将用户n的计算任务划分为一个子任务时的处理周期,
Figure BDA00032778999500001124
表示用户n的计算能力。
当用户n的计算任务本地处理时,能量消耗
Figure BDA00032778999500001125
的计算公式为:
Figure BDA0003277899950000121
式中,
Figure BDA0003277899950000122
表示用户n本地处理计算任务时的计算功率。
用户n在一个时间帧内的远程卸载成本的计算公式为:
Figure BDA0003277899950000123
式中,
Figure BDA0003277899950000124
表示用户n的远程卸载成本,是指用户n的计算任务通过远程卸载完成也即信道决策an>0时的成本,
Figure BDA0003277899950000125
表示用户n完成计算任务远程卸载的需求时间,
Figure BDA0003277899950000126
表示用户n的计算任务在整个传输过程中的能量消耗。
所述需求时间
Figure BDA0003277899950000127
是指计算任务在用户n和选择的边缘节点之间无线传输的无线传输时间、计算任务在边缘节点上处理的执行时间、计算任务在边缘节点之间有线传输的有线传输时间三者的加总,需求时间
Figure BDA0003277899950000128
的计算公式为:
Figure BDA0003277899950000129
式中,
Figure BDA00032778999500001210
表示完成用户n计算任务用时最长的一个边缘节点所用时间,也就是用户n完成计算任务花费的时间,
Figure BDA00032778999500001211
表示用户n的计算任务的无线传输时间,
Figure BDA00032778999500001212
表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,
Figure BDA00032778999500001213
表示边缘节点m处理用户n卸载的计算任务的执行时间。
所述无线传输时间
Figure BDA00032778999500001214
的计算公式为:
Figure BDA00032778999500001215
式中,Dn表示用户n通过信道卸载计算任务的数据量,Rn(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率,
Figure BDA00032778999500001216
为修复值,表示卸载用户n的当前计算任务失败。
所述无线传输速率Rn(a)通过香农定理得到,其计算公式为:
Figure BDA00032778999500001217
式中,W表示信道带宽,In表示用户n和无线接入点之间的干扰,gn表示用户n和关联边缘节点ω(n)上的无线接入点之间的信道增益,pn表示用户n的无线传输功率,σ2表示高斯噪声。
所述用户n和无线接入点之间的干扰In的计算公式为:
Figure BDA0003277899950000131
式中,oj表示用户j的无线传输功率,gj表示用户n和关联边缘节点ω(j)上的无线接入点之间的信道增益,aj表示用户j的信道决策,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
所述边缘节点m处理用户n卸载的计算任务的执行时间
Figure BDA0003277899950000132
的计算公式为:
Figure BDA0003277899950000133
式中,fn,m表示边缘节点m分配给用户n的算力,
Figure BDA0003277899950000134
表示将计算任务分配到所有被选择的边缘节点上时计算任务的计算量。
所述计算任务在整个传输过程中的能量消耗
Figure BDA0003277899950000135
的计算公式为:
Figure BDA0003277899950000136
当用户n决定远程卸载它的计算任务时,计算任务将被卸载到一个或多个边缘节点。在确定边缘节点选择后,将用户n的计算任务划分为对应的若干个子任务后通过无线链路和有线链路传输到选中的边缘节点,然后将相应的子任务独立并行处理,待所有处理过程结束后得到任务结果。
S4,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S5,调用智能体获取每个边缘节点的内存、算力,利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略,同时执行内存填充操作;
所述资源分配策略是指一个时隙内所有边缘节点的资源预算的集合,资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算。
所述资源预算fm是指边缘节点m分配给每个用户的计算资源的数量,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T
资源预算的约束条件为:
Figure BDA0003277899950000141
Figure BDA0003277899950000142
式中,fm,n表示边缘节点m为与其相连的用户n所分配的算力,
Figure BDA0003277899950000143
表示边缘节点m的总算力,fm表示边缘节点m的资源预算。
S6,用户执行内存读取和内存写入操作,同时获取每个用户的计算任务的任务信息,利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略;
所述POMDP可以表示为
Figure BDA0003277899950000144
其中,
Figure BDA0003277899950000145
包含环境中的所有状态包括但不限于用户的计算任务卸载策略,当前用户与边缘节点的资源占用情况,当前的网络拥塞情况,
Figure BDA0003277899950000146
包含N个用户智能体和M个边缘节点智能体的观测值,
Figure BDA0003277899950000147
是一组可能的行动,相当于资源分配策略和计算任务卸载策略。每一个智能体i根据一个以θi为参数的策略函数
Figure BDA0003277899950000148
执行一个行动,且边缘节点智能体每τs步做出一个决策,在其它时间保持之前的决策,用户在每个时间帧s中都需要做出一个决策,即需要考虑是否卸载计算任务及卸载到哪些边缘节点。多智能体将联合决策传递到环境中,根据状态转移方程
Figure BDA0003277899950000149
输出一个新状态
Figure BDA00032778999500001410
和一个立即的反馈
Figure BDA00032778999500001411
该反馈也即奖励由智能体i接收。每个智能体都致力于通过学习一项好的政策来最大化其预期的折扣未来奖励
Figure BDA00032778999500001412
Figure BDA00032778999500001413
其中,γ是长期收益的折现因子,
Figure BDA00032778999500001414
表示智能体i在t时刻的动作,i∈{1,2,…,M+N},st表示在t时刻环境的状态。
边缘节点的观测空间
Figure BDA00032778999500001415
是每个边缘节点m可能观测的空间,其中
Figure BDA00032778999500001416
是环境最初提供给边缘节点m的观测,
Figure BDA00032778999500001417
包含内存读取操作返回的所有可能值。观测
Figure BDA00032778999500001418
元素
Figure BDA00032778999500001419
是长度为
Figure BDA00032778999500001420
的向量,元素
Figure BDA00032778999500001421
是长度为
Figure BDA00032778999500001422
的向量,元素
Figure BDA00032778999500001423
是长度为
Figure BDA00032778999500001424
的向量。对于元素
Figure BDA00032778999500001425
和元素
Figure BDA00032778999500001426
满足以下条件时,元素值为1,不满足条件时值为0,第一个条件是向量索引为i′的用户是否在边缘节点m的无线接入点的覆盖范围内,第二个条件是具有向量索引i′的用户是否与边缘节点m直接相关,其中向量索引
Figure BDA0003277899950000151
为集合
Figure BDA0003277899950000152
中第i′大的值。元素
Figure BDA0003277899950000153
的值包括集合
Figure BDA0003277899950000154
中的每个用户在过去的
Figure BDA0003277899950000155
的时隙内将计算任务加载到边缘节点m的百分比,这些值在决策开始时在0到1之间随机生成。
用户的观测空间
Figure BDA0003277899950000156
是每个用户n可能观测到的空间,其中
Figure BDA0003277899950000157
为环境最初提供的观测值,
Figure BDA0003277899950000158
是通过用户n执行内存读取操作获得的,
Figure BDA0003277899950000159
是通过基于消息的协调机制获得的信息向量。
Figure BDA00032778999500001510
其中
Figure BDA00032778999500001511
表示任务信息
Figure BDA00032778999500001512
Figure BDA00032778999500001513
表示将用户n的计算任务划分为
Figure BDA00032778999500001514
个子任务时,每个子任务的平均处理周期,
Figure BDA00032778999500001515
是长度为
Figure BDA00032778999500001516
的向量,向量
Figure BDA00032778999500001517
是采用one-hot形式表示了子任务的数量。例如[0,0,0,0,0,0,0,0,0,1]代表这个计算任务有十个子任务。
边缘节点的动作空间
Figure BDA00032778999500001518
是每个边缘节点m的可能的动作,
Figure BDA00032778999500001519
包含了所有可能的资源分配策略。
Figure BDA00032778999500001520
包含了所有可能的内存信息向量,
Figure BDA00032778999500001521
包含了所有的发送信息向量也即是指边缘节点发送给用户的联合信息。资源分配策略
Figure BDA00032778999500001522
其中,
Figure BDA00032778999500001523
是一个从0到10的离散值,表示除关联用户之外的用户可用资源的数量。
Figure BDA00032778999500001524
是一个长度为
Figure BDA00032778999500001525
的向量,在其集合中为非直接相连用户打分以便选择用户去服务。
Figure BDA00032778999500001526
给出所选用户和相关用户所分配资源的比例值,其中每个值在1到3之间,表示分配给所选用户的资源比例。
用户的动作空间
Figure BDA00032778999500001527
是每个用户n的可能操作空间
Figure BDA00032778999500001528
Figure BDA00032778999500001529
是一个离散空间,表示用户n可能的信道选择。
Figure BDA00032778999500001530
也是一个离散的空间,它列举了所有组合表明集合
Figure BDA00032778999500001531
中可能的任务卸载策略。
Figure BDA00032778999500001532
表示用户n对于内存消息向量的所有可能的写入操作。
边缘节点和用户的奖励:un和vm分别作为用户n和边缘节点m的奖励。
所述基于消息的协调机制是针对边缘节点的决策所设计的一个额外的消息发送行动。即每个边缘节点需要去产生一个长度为
Figure BDA0003277899950000161
的信息向量
Figure BDA0003277899950000162
其中包括长度为
Figure BDA0003277899950000163
的公开信息与长度为
Figure BDA0003277899950000164
的私有信息。相应地,每个用户也将从集合
Figure BDA0003277899950000165
中的边缘节点收到一个长度为
Figure BDA0003277899950000166
的信息向量
Figure BDA0003277899950000167
所述消息发送行动过程为:每个边缘节点联合其公开信息和存在于集合
Figure BDA0003277899950000168
中的私有信息,联合后的消息分别发送给每个用户,每个用户可以从集合
Figure BDA0003277899950000169
中总共接收到
Figure BDA00032778999500001610
条信息,并根据发送边缘节点的索引对这些消息进行排序,将它们连接起来形成接收到的信息向量。
所述集合
Figure BDA00032778999500001611
与集合
Figure BDA00032778999500001612
的生成过程如下文所述:考虑到边缘节点和用户之间存在M×N个资源连接,当数量较大时,会严重影响状态和动作的维数。为了降低环境的维数,预设M个大小为
Figure BDA00032778999500001613
的集合,N个大小为
Figure BDA00032778999500001614
的集合,并保证
Figure BDA00032778999500001615
Figure BDA00032778999500001616
表示预设用户集合的大小,
Figure BDA00032778999500001617
表示预设边缘节点集合的大小。另定义了M个空集合
Figure BDA00032778999500001618
为了边缘节点和N个空集
Figure BDA00032778999500001619
为了用户。
集合
Figure BDA00032778999500001620
和集合
Figure BDA00032778999500001621
通过以下方法获得:
首先判断集合
Figure BDA00032778999500001622
的大小是否小于等于
Figure BDA00032778999500001623
集合
Figure BDA00032778999500001624
表示预设关联边缘节点集合。如果是,用户n被放入集和
Figure BDA00032778999500001625
关联边缘节点ω(n)被放入用户集合
Figure BDA00032778999500001626
根据用户集合
Figure BDA00032778999500001627
可以确认用户n的消息渠道。对于所有用户,设关联边缘节点ω(n)为m,当边缘关联节点集合
Figure BDA00032778999500001628
并且
Figure BDA00032778999500001629
时,
Figure BDA00032778999500001630
表示边缘节点m的集合,随机的选择用户n∈N并且边缘节点
Figure BDA00032778999500001631
执行上述两个操作直到
Figure BDA00032778999500001632
这样,每个用户n都有
Figure BDA00032778999500001633
个潜在资源提供者,其中大多数情况下包括了与其关联的边缘节点,所有边缘节点也得到了相同数量的用户去服务。
S7,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
在强化学习算法的基础上,针对每个边缘节点和每个用户分别设计了一个参与者-批评者模型,并分别使用gumble-softmax和argmax离散神经网络在训练和推理过程中的连续输出。在每个参与者-批评者模型中,有两种神经网络用于逼近行为者,用策略函数Pi表示相应的批评,用行动-价值函数Qi表示以最大化目标函数
Figure BDA0003277899950000171
学习的目标是通过在梯度方向上调整参数来实现的,例如
Figure BDA0003277899950000172
使J(θi)最大化的结果算法的梯度为:
Figure BDA0003277899950000173
式中,
Figure BDA0003277899950000174
是一个重放缓冲区,包含(oi,αi,ri,o′i)形式的转换。oi,αi,ri和o′i是智能体i在重放缓冲区
Figure BDA0003277899950000175
中的观测值、动作、奖励和下一个观测值,动作-价值函数Qi被更新为:
Figure BDA0003277899950000176
式中,y表示目标Q值。
Figure BDA0003277899950000178
式中,P′i是参数为θ′i的策略函数,α′i是智能体i的下一个动作,Q′i是一个目标网络,该目标网络的参数使用Q′i的当前参数进行周期性更新,使训练更加稳定。就整体而言,
Figure BDA0003277899950000177
最小化当前和目标动作状态函数之间的差异期望。
S8,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S5,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S4,否则结束。
工业智能制造领域出于提升产品质量的需求,往往需要通过人工智能技术实现图像识别,缺陷探测,危险预警等任务。处于工业制造环境与成本的考虑,工厂往往无法将全部的大量的深度学习任务在本地完成计算,需要将任务部分卸载到云端。在拥有多个本地设备与云端设备联合计算的情况下,本发明可以更合理的分配计算任务,带来整体的效益提升,以下基于真实EUA数据集进行模拟评估:
评价设置:考虑一个边长为300米的正方形区域,包括8个基站和42个移动设备。每个基站的覆盖半径在[100,150]米内随机生成,每个基站部署边缘服务器,提供资源支持计算卸载。在无线接入方面,设置用户设备的传输功率为0.1瓦特,通信信道的带宽为5mhz,信道数为5。所有信道的通信增益建模为独立的瑞利衰落,功率损耗系数为-4,背景噪声为-100dBm。在计算方面,用户设备的计算能力随机分配在[1,1.5]GHz,计算功率为1瓦特,边缘服务器的计算能力随机分配在[16,48]GHz。所有加权因子随机分布在[0,1]。对于计算任务,每个任务生成的数据大小在100~400kb之间,4成任务所需的CPU周期平均为1千兆周。每个用户在每一帧中生成任务的概率在0.4到0.8之间,并随着时间的推移而逐渐变化。
模式设置:对于每个学习智能体,采用了105个经验重放缓冲区,并选择了64个小批量进行训练。此外,使用ADAM作为优化器,参与者的学习率为10-3,批评家的学习率为10-4,折扣因子为0.95。为每种情况下的每个智能体训练了100次,每次有20个时隙和200时间帧,其中一半的时隙用于训练。为了在重放缓冲区中收集足够数量的样本进行学习,在第十次开始学习过程。
评估基线和度量:将本发明与以下四种基线方法进行比较。·Local:所有计算任务都在本地处理。·Direct:对于每个任务,用户有一半的机会执行本地处理,一半的机会通过随机访问通道将其任务卸载到连接的边缘服务器。每个边缘服务器将其资源平均分配给关联的用户。·Random随机:每个用户随机选择访问通道、任务划分策略和子任务卸载目的地,每个边缘服务器将自己的资源平均分配给可能申请资源的用户。·DDPG(DeepDeterministic Policy Gradient,深度确定性策略梯度):边缘服务器和用户都是通过DDPG来获得动作的。L6C:L6C即本发明,在DDPG的基础上加入了本发明所述的信息交互方法。
如图2所示展示了两种基于深度强化学习的学习方案在训练过程中的奖励,说明了本发明的积极作用。随着训练时间的增加,两种基于学习的方案首先做出随机决策,然后逐渐学习它们的行动模式,最后使奖励逐渐稳定。如图3所示显示了不同用户计算能力下用户和边缘的平均奖励。结果表明,基于学习的决策方法能够很好地解决复杂问题,本发明在平均用户奖励和平均边缘奖励方面都优于四种基线方法。
如图4所示显示了不同方案对卸载任务成功率的比较,所提出的框架也表现得很好。与DDPG相比,本发明的平均边缘奖励、平均用户奖励和卸载成功率分别提高了61.14%、7.31%和9.36%。此外,与Direct方法相比,L6C的卸载成功率提升了1.28%。
如图5所示,图(a)和图(b)分别是不同边缘计算能力下用户和边缘节点的平均奖励。通过合理的参数设置,将边缘计算能力的参数控制在0.75~1.25倍之间。此外,边缘节点的数量相对小于用户的数量。因此,增加系统的边缘计算资源对性能并没有明显的改善。然而,本发明在平均边缘奖励和平均用户奖励方面领先于其它4个基线。图(c)显示了边缘资源利用的变化情况,从图中可以看出基于学习的方法能够更好地利用边缘资源,本发明更是如此。与DDPG方案的边缘计算能力相比,本发明的平均边缘奖励、平均用户奖励和边缘资源利用率分别领先84.65%、15.51%和14.60%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;
S3,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S4,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S5,调用智能体获取每个边缘节点的内存、算力,利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略,同时执行内存填充操作;
S6,用户执行内存读取和内存写入操作,同时获取每个用户的计算任务的任务信息,利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略;
S7,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S8,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S6,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S5,否则结束。
2.根据权利要求1所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-U2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Figure FDA0003277899940000011
Figure FDA0003277899940000012
式中,
Figure FDA0003277899940000013
代表笛卡尔积,
Figure FDA0003277899940000014
是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=
Figure FDA00032778999400000219
其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,K表示用户的计算任务无线传输时的信道,f为资源分配策略。
3.根据权利要求2所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,边缘节点m在一个时隙内的效用Vm的计算公式如下:
Figure FDA0003277899940000021
效用Vm的约束条件为:
Figure FDA0003277899940000022
式中,
Figure FDA0003277899940000023
为递减函数,
Figure FDA0003277899940000024
表示边缘节点m在第s时间帧的效用,
Figure FDA0003277899940000025
表示用户n在第s时间帧的信道决策,
Figure FDA0003277899940000026
表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,
Figure FDA0003277899940000027
表示用户的集合,1{·}为指标函数。
4.根据权利要求2所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
Figure FDA0003277899940000028
式中,
Figure FDA0003277899940000029
表示用户n在第s时间帧的信道决策,
Figure FDA00032778999400000210
表示用户n在第s时间帧的本地计算成本,
Figure FDA00032778999400000211
表示用户n在第s时间帧的远程卸载成本,1{·}为指标函数;
用户n在一个时间帧内的本地计算成本
Figure FDA00032778999400000212
的计算公式为:
Figure FDA00032778999400000213
式中,
Figure FDA00032778999400000214
表示用户n处理计算任务的执行时间
Figure FDA00032778999400000215
的权重因子,
Figure FDA00032778999400000216
表示用户n处理计算任务的能量消耗
Figure FDA00032778999400000217
的权重因子;
用户n在一个时间帧内的远程卸载成本
Figure FDA00032778999400000218
的计算公式为:
Figure FDA0003277899940000031
式中,
Figure FDA0003277899940000032
表示用户n完成计算任务远程卸载的需求时间,
Figure FDA0003277899940000033
表示用户n的计算任务在整个传输过程中的能量消耗。
5.根据权利要求4所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,当用户n的计算任务本地处理时,执行时间
Figure FDA0003277899940000034
的计算公式为:
Figure FDA0003277899940000035
式中,Cn(1)表示将用户n的计算任务划分为一个子任务时的处理周期,
Figure FDA0003277899940000036
表示用户n的计算能力。
当用户n的计算任务本地处理时,能量消耗
Figure FDA0003277899940000037
的计算公式为:
Figure FDA0003277899940000038
式中,
Figure FDA0003277899940000039
表示用户n本地处理计算任务时的计算功率。
6.根据权利要求4所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,当用户n的计算任务远程卸载处理时,所述需求时间
Figure FDA00032778999400000310
的计算公式为:
Figure FDA00032778999400000311
式中,
Figure FDA00032778999400000312
表示完成用户n计算任务用时最长的一个边缘节点所用时间,
Figure FDA00032778999400000313
表示用户n的计算任务的无线传输时间,
Figure FDA00032778999400000314
表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,
Figure FDA00032778999400000315
表示边缘节点m处理用户n卸载的计算任务的执行时间,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率;
当用户n的计算任务远程卸载处理时,计算任务在整个传输过程中的能量消耗
Figure FDA00032778999400000316
的计算公式为:
Figure FDA00032778999400000317
式中,pn表示用户n的无线传输功率。
7.根据权利要求6所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,所述用户n的计算任务的无线传输时间
Figure FDA0003277899940000041
的计算公式为:
Figure FDA0003277899940000042
式中,Dn表示用户n通过信道卸载的计算任务的数据量,Rn(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率,
Figure FDA0003277899940000043
为修复值。
8.根据权利要求1所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,在步骤S4中,所述资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T
资源预算fm的约束条件为:
Figure FDA0003277899940000044
Figure FDA0003277899940000045
式中,fm,n表示边缘节点m为与其相连的用户n所分配的算力,
Figure FDA0003277899940000046
表示边缘节点m的总算力,fm表示边缘节点m的资源预算,
Figure FDA0003277899940000047
表示边缘节点的集合,
Figure FDA0003277899940000048
表示用户的集合。
9.根据权利要求1所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,在步骤S2中,所述内存写入操作的公式为:
Figure FDA0003277899940000049
内存写入操作公式的约束条件为:
Figure FDA00032778999400000410
式中,
Figure FDA00032778999400000411
表示共享内存空间中所存储信息向量的信息内容折扣的因子值,
Figure FDA00032778999400000412
表示用户n写入用户n的关联边缘节点ω(n)的信息向量在位置x处的值,
Figure FDA00032778999400000413
表示写入的信息向量在位置k处的值,
Figure FDA00032778999400000414
表示用户写入信息向量的长度,
Figure FDA0003277899940000051
表示共享内存空间中所存储的信息向量的行数。
CN202111123522.7A 2021-09-24 2021-09-24 用于提升多智能体强化学习边缘计算效果的信息交互方法 Active CN113641504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111123522.7A CN113641504B (zh) 2021-09-24 2021-09-24 用于提升多智能体强化学习边缘计算效果的信息交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111123522.7A CN113641504B (zh) 2021-09-24 2021-09-24 用于提升多智能体强化学习边缘计算效果的信息交互方法

Publications (2)

Publication Number Publication Date
CN113641504A true CN113641504A (zh) 2021-11-12
CN113641504B CN113641504B (zh) 2023-09-01

Family

ID=78426151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111123522.7A Active CN113641504B (zh) 2021-09-24 2021-09-24 用于提升多智能体强化学习边缘计算效果的信息交互方法

Country Status (1)

Country Link
CN (1) CN113641504B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301911A (zh) * 2021-12-17 2022-04-08 杭州谐云科技有限公司 一种基于边边协同的任务管理方法和系统
CN114866430A (zh) * 2022-03-29 2022-08-05 北京智芯微电子科技有限公司 边缘计算的算力预测方法、算力编排方法及系统
CN115016932A (zh) * 2022-05-13 2022-09-06 电子科技大学 一种基于嵌入式的分布式深度学习模型资源弹性调度方法
CN115640852A (zh) * 2022-09-09 2023-01-24 湖南工商大学 联邦学习参与节点选择优化方法、联邦学习方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082213A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communication operations using reinforcement learning
CN112134916A (zh) * 2020-07-21 2020-12-25 南京邮电大学 一种基于深度强化学习的云边协同计算迁移方法
CN112468568A (zh) * 2020-11-23 2021-03-09 南京信息工程大学滨江学院 一种移动边缘计算网络的任务中继卸载方法
US20210266834A1 (en) * 2020-02-25 2021-08-26 South China University Of Technology METHOD OF MULTI-ACCESS EDGE COMPUTING TASK OFFLOADING BASED ON D2D IN INTERNET OF VEHICLES (IoV) ENVIRONMENT

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082213A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communication operations using reinforcement learning
US20210266834A1 (en) * 2020-02-25 2021-08-26 South China University Of Technology METHOD OF MULTI-ACCESS EDGE COMPUTING TASK OFFLOADING BASED ON D2D IN INTERNET OF VEHICLES (IoV) ENVIRONMENT
CN112134916A (zh) * 2020-07-21 2020-12-25 南京邮电大学 一种基于深度强化学习的云边协同计算迁移方法
CN112468568A (zh) * 2020-11-23 2021-03-09 南京信息工程大学滨江学院 一种移动边缘计算网络的任务中继卸载方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘志成;韩溢文;沈仕浩;宋金铎;王晓飞;: "边缘计算和深度学习之间的交融", 自动化博览, no. 02 *
张文献;杜永文;张希权;: "面向多用户移动边缘计算轻量任务卸载优化", 小型微型计算机系统, no. 10 *
朱友康;乐光学;杨晓慧;刘建生;: "边缘计算迁移研究综述", 电信科学, no. 04 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301911A (zh) * 2021-12-17 2022-04-08 杭州谐云科技有限公司 一种基于边边协同的任务管理方法和系统
CN114301911B (zh) * 2021-12-17 2023-08-04 杭州谐云科技有限公司 一种基于边边协同的任务管理方法和系统
CN114866430A (zh) * 2022-03-29 2022-08-05 北京智芯微电子科技有限公司 边缘计算的算力预测方法、算力编排方法及系统
CN115016932A (zh) * 2022-05-13 2022-09-06 电子科技大学 一种基于嵌入式的分布式深度学习模型资源弹性调度方法
CN115640852A (zh) * 2022-09-09 2023-01-24 湖南工商大学 联邦学习参与节点选择优化方法、联邦学习方法及系统

Also Published As

Publication number Publication date
CN113641504B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
Nishio et al. Client selection for federated learning with heterogeneous resources in mobile edge
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
Deng et al. Task allocation algorithm and optimization model on edge collaboration
CN113641504A (zh) 用于提升多智能体强化学习边缘计算效果的信息交互方法
Zou et al. A3C-DO: A regional resource scheduling framework based on deep reinforcement learning in edge scenario
Vemireddy et al. Fuzzy reinforcement learning for energy efficient task offloading in vehicular fog computing
He et al. Edge-aided computing and transmission scheduling for LTE-U-enabled IoT
Nath et al. Multi-user multi-channel computation offloading and resource allocation for mobile edge computing
CN111475274A (zh) 云协同多任务调度方法及装置
Nomikos et al. A survey on reinforcement learning-aided caching in heterogeneous mobile edge networks
Khoramnejad et al. On joint offloading and resource allocation: A double deep q-network approach
Huang et al. Multi-agent reinforcement learning for cost-aware collaborative task execution in energy-harvesting D2D networks
Abbasi et al. Deep Reinforcement Learning for QoS provisioning at the MAC layer: A Survey
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
Sadiki et al. Deep reinforcement learning for the computation offloading in MIMO-based Edge Computing
CN114938372B (zh) 一种基于联邦学习的微网群请求动态迁移调度方法及装置
Yang et al. Cooperative task offloading for mobile edge computing based on multi-agent deep reinforcement learning
Li et al. Entropy-based reinforcement learning for computation offloading service in software-defined multi-access edge computing
Wang et al. Reinforcement learning-based optimization for mobile edge computing scheduling game
Chiang et al. Deep Q-learning-based dynamic network slicing and task offloading in edge network
Yao et al. Energy-aware task allocation for mobile IoT by online reinforcement learning
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
Qin et al. Dynamic IoT service placement based on shared parallel architecture in fog-cloud computing
CN115514769B (zh) 卫星弹性互联网资源调度方法、系统、计算机设备及介质
CN115550969A (zh) 一种基于动态规划和随机博弈的双层ran切片配置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant