CN113641504A - 用于提升多智能体强化学习边缘计算效果的信息交互方法 - Google Patents
用于提升多智能体强化学习边缘计算效果的信息交互方法 Download PDFInfo
- Publication number
- CN113641504A CN113641504A CN202111123522.7A CN202111123522A CN113641504A CN 113641504 A CN113641504 A CN 113641504A CN 202111123522 A CN202111123522 A CN 202111123522A CN 113641504 A CN113641504 A CN 113641504A
- Authority
- CN
- China
- Prior art keywords
- user
- representing
- task
- edge
- edge node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000003993 interaction Effects 0.000 title claims abstract description 22
- 230000002787 reinforcement Effects 0.000 title claims abstract description 19
- 230000000694 effects Effects 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000013468 resource allocation Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims abstract description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 38
- 230000005540 biological transmission Effects 0.000 claims description 28
- 238000005265 energy consumption Methods 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 230000008439 repair process Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 16
- 230000008901 benefit Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 239000000872 buffer Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种用于提升多智能体强化学习边缘计算效果的信息交互方法,包括如下步骤:构建基于部分可观察马尔可夫决策过程的边缘计算通信模型;在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;设置时隙长度,时间帧长度,初始化时隙和时间帧;获取边缘节点的资源分配策略,执行内存填充操作;用户执行内存读取和内存写入操作,同时获取每个用户的计算任务、计算任务数据量和计算能力,获取计算用户的任务卸载策略;利用参与者‑批评者模型对目标优化函数进行优化;对计算任务进行划分并处理。本发明可以使边缘节点和用户的决策效用最大化。
Description
技术领域
本发明属于边缘计算技术领域,具体涉及一种用于提升多智能体强化学习边缘计算效果的信息交互方法。
背景技术
随着科学技术与工业生产能力的不断进步,移动设备的计算与通信能力不断提升,但各类崭新的移动应用也为移动设备提出了更高的业务需求。在一个多边缘多用户的集群中,用户可以选择将任务在本地进行计算或者卸载到边缘设备。为了响应对创新应用程序和用户体验日益增长的需求,计算卸载将计算密集型任务从用户迁移到边缘。边缘设备的计算能力一般强于用户,因此用户有可能通过卸载计算任务取得一些时延与功耗方面的好处。但是如果考虑到边缘可能分配给用户的计算资源过少或者选择卸载计算任务的用户过多造成的网络拥堵,卸载计算任务反而会损害用户的利益。因此用户需要决策是否卸载计算任务,通过哪个信道传输信息以及卸载到哪些边缘设备来最大化自身的利益。同时边缘设备与用户有着不同的利益追求,用户希望最大化自身利益,边缘设备通过配置分配给每一个用户的计算资源,来最大化自己的特定利益,但是边缘设备与用户、用户与用户之间缺少有效的信息交互,这为决策任务增加了困难。计算卸载作为一种具有前景的技术方法,可以帮助资源丰富的基础设施来增强用户设备,首先吸引了云计算领域的重要兴趣,然后在边缘计算中流行起来。边缘计算是云计算的一种发展,主张将集中的云资源推送到网络边缘,从处理延迟、能耗、节省带宽、数据隐私等方面得到好处。
从资源管理决策的角度来看,计算卸载解决了用户设备(以下简称用户)计算资源频繁短缺的问题,并提出了一种由边缘节点(以下简称边缘)制定的资源分配方案。由于单个边缘节点可能没有足够的资源,协同资源分配可以为用户提供服务,以维持服务性能,因此资源分配决策往往伴随着计算卸载决策一同产生。计算卸载与资源分配的联合决策构成了边缘计算中的一系列实际问题的基础,已有大量的论文与专利对这些问题进行了综合性的分析。实施集中决策控制是获得高质量解决方案的直接途径,它会面临理性遵从、用户隐私、决策可扩展性等方面的困境。另一方面,集中决策可能严重损害个体的理性,问题的复杂性逐渐超出传统方法的舒适区。因此,分布式决策方法是解决这一问题的一种有前途的方法。在此之上,已有的分布式工作认为将计算卸载和资源分配相结合能够进一步提高系统性能,但这往往无法通过优化单一类型的角色来实现,已有工作将综合计算卸载和资源分配问题建模为了非线性程序、stackelberg博弈、多时间尺度优化和markov决策过程,但是上述分布式决策的工作往往是从单一的关系来考虑问题,缺乏对不完全信息的关注。
因此,为了进一步协调计算卸载和资源分配,需要一种高效的协调机制来协调,以避免用户之间的竞争冲突,提高边缘的协作能力。近年来基于学习的方法已经逐渐证明了它们在处理边缘计算中一些复杂的资源管理问题上的有效性,其中,多智能体深度强化学习(Multi-agent Deep Reinforcement Learning,MADRL)可以实现智能的分布式决策。特别是,多智能体之间的显式信息交互,一些科研文献也将这种方法描述为“学习如何交流”,这被认为是一种有前途的方法来避免竞争冲突和促进合作行为。然而,针对边缘计算中多个用户和多个边缘节点的计算卸载与资源管理问题,提出一种高效与定制化的方法仍然是一个悬而未决的问题。另外,将多智能体学习应用到边缘计算的资源管理中,特别是扩展到多个决策者资源管理与计算卸载场景中,是近年研究者与工业界备受关注的问题。总的来说,一些已有的研究文献将多智能体学习应用到了协作、竞争或是混合的场景。然而,大多数论文(或专利)尚未发现(或保护)显式信息交互这一机制对提高系统性能的能力。
发明内容
针对现有技术中采用MADRL在资源管理与计算卸载时的性能较低问题,本发明提出了一种用于提升多智能体强化学习边缘计算效果的信息交互方法。
为解决以上技术问题,本发明所采用的技术方案如下:
一种用于提升多智能体强化学习边缘计算效果的信息交互方法,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;
S3,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S4,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S5,调用智能体获取每个边缘节点的内存、算力,利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略,同时执行内存填充操作;
S6,用户执行内存读取和内存写入操作,同时获取每个用户的计算任务的任务信息,利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略;
S7,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S8,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S6,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S5,否则结束。
在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-U2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
式中,代表笛卡尔积,是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,K表示用户的计算任务无线传输时的信道,f为资源分配策略。
边缘节点m在一个时隙内的效用Vm的计算公式如下:
效用Vm的约束条件为:
10.用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
式中,表示完成用户n计算任务用时最长的一个边缘节点所用时间,表示用户n的计算任务的无线传输时间,表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,表示边缘节点m处理用户n卸载的计算任务的执行时间,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率;
式中,pn表示用户n的无线传输功率。
在步骤S4中,所述资源分配策略表示为f=[ft,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T;
资源预算fm的约束条件为:
在步骤S2中,所述内存写入操作的公式为:
内存写入操作公式的约束条件为:
式中,表示共享内存空间中所存储信息向量的信息内容折扣的因子值,表示用户n写入用户n的关联边缘节点ω(n)的信息向量在位置x处的值,表示写入的信息向量在位置k处的值,表示用户写入信息向量的长度,表示共享内存空间中所存储的信息向量的行数。
本发明的有益效果:
本发明将部分可观察马尔可夫决策过程和参与者-批评者模型相结合能够显著提高MADRL在资源管理与计算卸载问题中的性能,能够有效减少计算任务完成时延,减少用户终端能量消耗,提升用户体验,对于时延敏感型任务的完成与提升能源受限的移动计算场景中的用户体验具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为边缘计算通信模型的示意图。
图2为每一时间帧下用户和边缘节点的奖励。
图3为不同用户计算能力下用户和边缘的平均奖励。
图4为卸载任务成功率的比较示意图。
图5为不同边缘计算能力下用户和边缘的平均奖励。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了应对终端设备处理能力不足、资源有限等问题,业界在移动边缘计算(MEC)中引入了计算卸载概念。边缘计算卸载即用户终端(UE)将计算任务卸载到MEC网络中,主要解决终端设备在资源存储、计算性能以及能效等方面的不足。计算卸载是MEC中的关键技术,主要包含卸载决策和资源分配两个部分,其通过有效的卸载决策和资源分配方案合理安排用户终端将计算任务卸载至MEC服务器,同时分配资源进行任务计算,以降低系统的时延和能耗。
一种用于提升多智能体强化学习边缘计算效果的信息交互方法,如图1所示,包括如下步骤:
S1,基于部分可观察马尔可夫决策过程(Partially Observable MarkovDecision Process,POMDP)构建边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
所述边缘计算通信模型设置在某一地理区域内,包括均为智能体的用户和边缘节点,用户采用表示地理区域内所有用户的集合,边缘节点采用表示地理区域内所有边缘节点的集合,用户与边缘节点之间基于OFDMA(Orthogonal Frequency Division MultipleAccess,正交频分多址)进行无线通信,不同的边缘节点之间通过光纤进行有线通信。用户n拥有一个密集型的计算任务要处理,每个边缘节点上均部署了一个用于论证用户n的计算能力的无线接入点,每个用户均通过无线通信与一个边缘节点上的无线接入点连接,该用户与其关联的无线接入点之间的距离为单跳,边缘节点通过有线光纤连接到其它边缘节点,且边缘节点之间有一个固定的时延其中,边缘节点和边缘节点若边缘节点m和边缘节点m′相同,则时延本实施例中,所述地理区域的范围为几百米;所述无线接入点为微型基站。
由于计算卸载决策和资源分配决策具有不同的时间敏感性,现将离散时间划分为两个时间尺度,并且假设场景是准静态的。每个时间尺度内包含τmax个时隙,每个时隙均包含τs个时间帧,在一个时间帧内边缘节点和用户的状态均保持不变,每个用户n均拥有固定数量的计算能力用于本地计算,边缘节点m分配给到用户n的计算资源用于服务。资源分配决策是指在每个时隙的开始处,每个边缘节点决定分配给每个用户的计算资源的数量。计算卸载决策是指每个用户在每一个时间帧中,都需要考虑是否卸载计算任务以及将计算任务卸载到哪些边缘节点。
所述计算任务表示为[Dn,Cn(x′)],其中,Dn表示用户n通过无线链路卸载计算任务的数据量,Cn(x′)是将用户n的计算任务划分为x′个子任务时,每个子任务的平均处理周期,且x′个子任务可以以平行且负载平衡的方式执行,其中, 表示一个计算任务中所包含最大子任务的数量,本实施例中,
所述基于OFDMA的无线通信考虑了多区域多用户的OFDMA网络的上行传输,OFDMA网络的频谱被划分为若干个信道,信道的集合采用 来表示。将an∈{0}∪K表示为用户n的信道决策,如果用户n的信道决策an=0,表示用户n决定不访问任何信道并在本地处理计算任务,否则用户n通过an∈{0}∪K信道连接至用户n的关联边缘节点ω(n),且关联边缘节点即为用户n直接关联到的边缘节点,所有用户的信道决策集合为a=[a1,a2,…an,...,aN]。
S2,在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;
所述共享内存空间用于存储信息向量,为存在于边缘节点m上,大小为用于边缘节点和用户之间进行信息交互,信息可以为边缘节点算力的利用情况、用户任务的到达频率等有助于任务决策的信息,表示共享内存空间中所存储信息向量的行数,表示共享内存空间中所存储信息向量的列数。
内存读取操作:在采取动作之前,每个边缘节点可以访问自己的内存,得到一个长度为的信息向量每个用户也可以从与它相连的边缘节点的共享内存空间中获得一个信息向量 表示信息向量所有可能的取值。利用这个信息向量可以使每个智能体对整个系统有更多的感知,从而提高其决策能力。
S3,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
所述目标优化函数为:
maxΛ(-U1,-U2,…,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
式中,代表笛卡尔积,是边缘节点m的资源分配策略的所有可行解,Un表示用户n在一个时隙内处理计算任务的总成本,Vm表示边缘节点m在一个时隙内的效用,Λ表示τs个时间帧内的联合决策,联合决策Λ=其中,a[s]表示第s时间帧内所有用户的信道决策集合,b[s]表示第s时间帧内所有用户的边缘节点选择配置集合,且b=[b1,b2,...,bn,...,bN]。
所述边缘节点选择配置bn=[bn,1,bn,2,…,bn,m,...,bn,M]T,bn,m表示用户n将计算任务的计算转移到边缘节点m的概率,若用户n决定将计算任务的计算转移到边缘节点m,则bn,m的值为1,否则为0。
本发明将每个时隙视为一个独立的边缘节点的决策过程,将每个时间帧视为用户独立决定是否卸载任务或卸载到哪些边缘节点的决策过程,目标优化函数综合考虑了用户的个体理性即每个用户都做出最小化处理自己计算任务的代价的决定、边缘节点的集体合理性即存在至少一个联合决策,其中每个边缘节点不能在减少另一个边缘节点效用的情况下提高其效用。这是一个高复杂度的多目标混合整数优化问题,一般为NP-hard问题,甚至不能保证存在一个稳定解。考虑到这种混合关系,专注于一个方面的优化可能会导致其他方面的性能下降。此外,由于通信延迟和用户隐私等原因,在层次结构中也很难实现信息完全的条件。
所述边缘节点m在一个时隙内的效用Vm的计算公式如下:
效用Vm的约束条件为:
式中,为递减函数,表示边缘节点m在第s时间帧的效用,表示用户n在第s时间帧的信道决策,表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
所述用户n在一个时隙内处理计算任务的总成本Un的计算公式为:
用户n在一个时间帧内的本地计算成本的计算公式为:
式中,表示用户n处理计算任务的执行时间的权重因子,表示用户n处理计算任务的能量消耗的权重因子,且两个权重因子可以定量地反映用户n在不同条件下的需求偏好,确保了执行时间和能量消耗之间的权衡,表示用户n的本地计算成本,是指用户n本地处理计算任务时的成本也即信道决策an=0时的成本。
用户n在一个时间帧内的远程卸载成本的计算公式为:
式中,表示完成用户n计算任务用时最长的一个边缘节点所用时间,也就是用户n完成计算任务花费的时间,表示用户n的计算任务的无线传输时间,表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延,表示边缘节点m处理用户n卸载的计算任务的执行时间。
所述无线传输速率Rn(a)通过香农定理得到,其计算公式为:
式中,W表示信道带宽,In表示用户n和无线接入点之间的干扰,gn表示用户n和关联边缘节点ω(n)上的无线接入点之间的信道增益,pn表示用户n的无线传输功率,σ2表示高斯噪声。
所述用户n和无线接入点之间的干扰In的计算公式为:
式中,oj表示用户j的无线传输功率,gj表示用户n和关联边缘节点ω(j)上的无线接入点之间的信道增益,aj表示用户j的信道决策,1{·}为指标函数,如果指标函数对应的表达式为真则指标函数的值为1,否则其值为0。
当用户n决定远程卸载它的计算任务时,计算任务将被卸载到一个或多个边缘节点。在确定边缘节点选择后,将用户n的计算任务划分为对应的若干个子任务后通过无线链路和有线链路传输到选中的边缘节点,然后将相应的子任务独立并行处理,待所有处理过程结束后得到任务结果。
S4,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S5,调用智能体获取每个边缘节点的内存、算力,利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略,同时执行内存填充操作;
所述资源分配策略是指一个时隙内所有边缘节点的资源预算的集合,资源分配策略表示为f=[f1,f2,...,fm,...,fM],其中,fm表示边缘节点m的资源预算。
所述资源预算fm是指边缘节点m分配给每个用户的计算资源的数量,资源预算fm的表达式为:
fm=[fm,1,fm,2,...,fm,n,...,fm,N]T;
资源预算的约束条件为:
S6,用户执行内存读取和内存写入操作,同时获取每个用户的计算任务的任务信息,利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略;
所述POMDP可以表示为其中,包含环境中的所有状态包括但不限于用户的计算任务卸载策略,当前用户与边缘节点的资源占用情况,当前的网络拥塞情况,包含N个用户智能体和M个边缘节点智能体的观测值,是一组可能的行动,相当于资源分配策略和计算任务卸载策略。每一个智能体i根据一个以θi为参数的策略函数执行一个行动,且边缘节点智能体每τs步做出一个决策,在其它时间保持之前的决策,用户在每个时间帧s中都需要做出一个决策,即需要考虑是否卸载计算任务及卸载到哪些边缘节点。多智能体将联合决策传递到环境中,根据状态转移方程输出一个新状态和一个立即的反馈该反馈也即奖励由智能体i接收。每个智能体都致力于通过学习一项好的政策来最大化其预期的折扣未来奖励 其中,γ是长期收益的折现因子,表示智能体i在t时刻的动作,i∈{1,2,…,M+N},st表示在t时刻环境的状态。
边缘节点的观测空间是每个边缘节点m可能观测的空间,其中是环境最初提供给边缘节点m的观测,包含内存读取操作返回的所有可能值。观测元素是长度为的向量,元素是长度为的向量,元素是长度为的向量。对于元素和元素满足以下条件时,元素值为1,不满足条件时值为0,第一个条件是向量索引为i′的用户是否在边缘节点m的无线接入点的覆盖范围内,第二个条件是具有向量索引i′的用户是否与边缘节点m直接相关,其中向量索引为集合中第i′大的值。元素的值包括集合中的每个用户在过去的的时隙内将计算任务加载到边缘节点m的百分比,这些值在决策开始时在0到1之间随机生成。
用户的观测空间是每个用户n可能观测到的空间,其中为环境最初提供的观测值,是通过用户n执行内存读取操作获得的,是通过基于消息的协调机制获得的信息向量。其中表示任务信息 表示将用户n的计算任务划分为个子任务时,每个子任务的平均处理周期,是长度为的向量,向量是采用one-hot形式表示了子任务的数量。例如[0,0,0,0,0,0,0,0,0,1]代表这个计算任务有十个子任务。
边缘节点的动作空间是每个边缘节点m的可能的动作,包含了所有可能的资源分配策略。包含了所有可能的内存信息向量,包含了所有的发送信息向量也即是指边缘节点发送给用户的联合信息。资源分配策略其中,是一个从0到10的离散值,表示除关联用户之外的用户可用资源的数量。是一个长度为的向量,在其集合中为非直接相连用户打分以便选择用户去服务。给出所选用户和相关用户所分配资源的比例值,其中每个值在1到3之间,表示分配给所选用户的资源比例。
边缘节点和用户的奖励:un和vm分别作为用户n和边缘节点m的奖励。
所述基于消息的协调机制是针对边缘节点的决策所设计的一个额外的消息发送行动。即每个边缘节点需要去产生一个长度为的信息向量其中包括长度为的公开信息与长度为的私有信息。相应地,每个用户也将从集合中的边缘节点收到一个长度为的信息向量所述消息发送行动过程为:每个边缘节点联合其公开信息和存在于集合中的私有信息,联合后的消息分别发送给每个用户,每个用户可以从集合中总共接收到条信息,并根据发送边缘节点的索引对这些消息进行排序,将它们连接起来形成接收到的信息向量。
所述集合与集合的生成过程如下文所述:考虑到边缘节点和用户之间存在M×N个资源连接,当数量较大时,会严重影响状态和动作的维数。为了降低环境的维数,预设M个大小为的集合,N个大小为的集合,并保证 表示预设用户集合的大小,表示预设边缘节点集合的大小。另定义了M个空集合为了边缘节点和N个空集为了用户。
首先判断集合的大小是否小于等于集合表示预设关联边缘节点集合。如果是,用户n被放入集和关联边缘节点ω(n)被放入用户集合根据用户集合可以确认用户n的消息渠道。对于所有用户,设关联边缘节点ω(n)为m,当边缘关联节点集合并且时,表示边缘节点m的集合,随机的选择用户n∈N并且边缘节点执行上述两个操作直到这样,每个用户n都有个潜在资源提供者,其中大多数情况下包括了与其关联的边缘节点,所有边缘节点也得到了相同数量的用户去服务。
S7,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
在强化学习算法的基础上,针对每个边缘节点和每个用户分别设计了一个参与者-批评者模型,并分别使用gumble-softmax和argmax离散神经网络在训练和推理过程中的连续输出。在每个参与者-批评者模型中,有两种神经网络用于逼近行为者,用策略函数Pi表示相应的批评,用行动-价值函数Qi表示以最大化目标函数学习的目标是通过在梯度方向上调整参数来实现的,例如使J(θi)最大化的结果算法的梯度为:
式中,y表示目标Q值。
式中,P′i是参数为θ′i的策略函数,α′i是智能体i的下一个动作,Q′i是一个目标网络,该目标网络的参数使用Q′i的当前参数进行周期性更新,使训练更加稳定。就整体而言,最小化当前和目标动作状态函数之间的差异期望。
S8,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S5,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S4,否则结束。
工业智能制造领域出于提升产品质量的需求,往往需要通过人工智能技术实现图像识别,缺陷探测,危险预警等任务。处于工业制造环境与成本的考虑,工厂往往无法将全部的大量的深度学习任务在本地完成计算,需要将任务部分卸载到云端。在拥有多个本地设备与云端设备联合计算的情况下,本发明可以更合理的分配计算任务,带来整体的效益提升,以下基于真实EUA数据集进行模拟评估:
评价设置:考虑一个边长为300米的正方形区域,包括8个基站和42个移动设备。每个基站的覆盖半径在[100,150]米内随机生成,每个基站部署边缘服务器,提供资源支持计算卸载。在无线接入方面,设置用户设备的传输功率为0.1瓦特,通信信道的带宽为5mhz,信道数为5。所有信道的通信增益建模为独立的瑞利衰落,功率损耗系数为-4,背景噪声为-100dBm。在计算方面,用户设备的计算能力随机分配在[1,1.5]GHz,计算功率为1瓦特,边缘服务器的计算能力随机分配在[16,48]GHz。所有加权因子随机分布在[0,1]。对于计算任务,每个任务生成的数据大小在100~400kb之间,4成任务所需的CPU周期平均为1千兆周。每个用户在每一帧中生成任务的概率在0.4到0.8之间,并随着时间的推移而逐渐变化。
模式设置:对于每个学习智能体,采用了105个经验重放缓冲区,并选择了64个小批量进行训练。此外,使用ADAM作为优化器,参与者的学习率为10-3,批评家的学习率为10-4,折扣因子为0.95。为每种情况下的每个智能体训练了100次,每次有20个时隙和200时间帧,其中一半的时隙用于训练。为了在重放缓冲区中收集足够数量的样本进行学习,在第十次开始学习过程。
评估基线和度量:将本发明与以下四种基线方法进行比较。·Local:所有计算任务都在本地处理。·Direct:对于每个任务,用户有一半的机会执行本地处理,一半的机会通过随机访问通道将其任务卸载到连接的边缘服务器。每个边缘服务器将其资源平均分配给关联的用户。·Random随机:每个用户随机选择访问通道、任务划分策略和子任务卸载目的地,每个边缘服务器将自己的资源平均分配给可能申请资源的用户。·DDPG(DeepDeterministic Policy Gradient,深度确定性策略梯度):边缘服务器和用户都是通过DDPG来获得动作的。L6C:L6C即本发明,在DDPG的基础上加入了本发明所述的信息交互方法。
如图2所示展示了两种基于深度强化学习的学习方案在训练过程中的奖励,说明了本发明的积极作用。随着训练时间的增加,两种基于学习的方案首先做出随机决策,然后逐渐学习它们的行动模式,最后使奖励逐渐稳定。如图3所示显示了不同用户计算能力下用户和边缘的平均奖励。结果表明,基于学习的决策方法能够很好地解决复杂问题,本发明在平均用户奖励和平均边缘奖励方面都优于四种基线方法。
如图4所示显示了不同方案对卸载任务成功率的比较,所提出的框架也表现得很好。与DDPG相比,本发明的平均边缘奖励、平均用户奖励和卸载成功率分别提高了61.14%、7.31%和9.36%。此外,与Direct方法相比,L6C的卸载成功率提升了1.28%。
如图5所示,图(a)和图(b)分别是不同边缘计算能力下用户和边缘节点的平均奖励。通过合理的参数设置,将边缘计算能力的参数控制在0.75~1.25倍之间。此外,边缘节点的数量相对小于用户的数量。因此,增加系统的边缘计算资源对性能并没有明显的改善。然而,本发明在平均边缘奖励和平均用户奖励方面领先于其它4个基线。图(c)显示了边缘资源利用的变化情况,从图中可以看出基于学习的方法能够更好地利用边缘资源,本发明更是如此。与DDPG方案的边缘计算能力相比,本发明的平均边缘奖励、平均用户奖励和边缘资源利用率分别领先84.65%、15.51%和14.60%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,包括如下步骤:
S1,构建基于部分可观察马尔可夫决策过程的边缘计算通信模型,所述边缘计算通信模型包括M+N个智能体,M个智能体为边缘节点,N个智能体为用户;
S2,在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间;
S3,根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数;
S4,设置时隙长度τmax,时间帧长度τs,初始化时隙st=1和时间帧s=1;
S5,调用智能体获取每个边缘节点的内存、算力,利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略,同时执行内存填充操作;
S6,用户执行内存读取和内存写入操作,同时获取每个用户的计算任务的任务信息,利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略;
S7,根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化;
S8,根据优化后的目标优化函数将计算任务进行划分,划分后的子任务由本地直接处理或者远程卸载到边缘节点处理,待计算任务处理完成后判断时间帧s是否小于时间帧长度τs,若是执行s=s+1并返回步骤S6,否则判断时隙st是否小于时隙长度τmax,若是执行st=st+1并返回步骤S5,否则结束。
2.根据权利要求1所述的用于提升多智能体强化学习边缘计算效果的信息交互方法,其特征在于,在步骤S3中,所述目标优化函数的表达式为:
maxΛ(-U1,-U2,...,-Un,...,-UN,V1,V2,...,Vm,...,VM);
目标优化函数的约束条件为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111123522.7A CN113641504B (zh) | 2021-09-24 | 2021-09-24 | 用于提升多智能体强化学习边缘计算效果的信息交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111123522.7A CN113641504B (zh) | 2021-09-24 | 2021-09-24 | 用于提升多智能体强化学习边缘计算效果的信息交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641504A true CN113641504A (zh) | 2021-11-12 |
CN113641504B CN113641504B (zh) | 2023-09-01 |
Family
ID=78426151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111123522.7A Active CN113641504B (zh) | 2021-09-24 | 2021-09-24 | 用于提升多智能体强化学习边缘计算效果的信息交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641504B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301911A (zh) * | 2021-12-17 | 2022-04-08 | 杭州谐云科技有限公司 | 一种基于边边协同的任务管理方法和系统 |
CN114815755A (zh) * | 2022-05-25 | 2022-07-29 | 天津大学 | 基于智能协作推理的分布式实时智能监控系统的建立方法 |
CN114866430A (zh) * | 2022-03-29 | 2022-08-05 | 北京智芯微电子科技有限公司 | 边缘计算的算力预测方法、算力编排方法及系统 |
CN115016932A (zh) * | 2022-05-13 | 2022-09-06 | 电子科技大学 | 一种基于嵌入式的分布式深度学习模型资源弹性调度方法 |
CN115640852A (zh) * | 2022-09-09 | 2023-01-24 | 湖南工商大学 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082213A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | System and method for optimizing communication operations using reinforcement learning |
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN112468568A (zh) * | 2020-11-23 | 2021-03-09 | 南京信息工程大学滨江学院 | 一种移动边缘计算网络的任务中继卸载方法 |
US20210266834A1 (en) * | 2020-02-25 | 2021-08-26 | South China University Of Technology | METHOD OF MULTI-ACCESS EDGE COMPUTING TASK OFFLOADING BASED ON D2D IN INTERNET OF VEHICLES (IoV) ENVIRONMENT |
-
2021
- 2021-09-24 CN CN202111123522.7A patent/CN113641504B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082213A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | System and method for optimizing communication operations using reinforcement learning |
US20210266834A1 (en) * | 2020-02-25 | 2021-08-26 | South China University Of Technology | METHOD OF MULTI-ACCESS EDGE COMPUTING TASK OFFLOADING BASED ON D2D IN INTERNET OF VEHICLES (IoV) ENVIRONMENT |
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN112468568A (zh) * | 2020-11-23 | 2021-03-09 | 南京信息工程大学滨江学院 | 一种移动边缘计算网络的任务中继卸载方法 |
Non-Patent Citations (3)
Title |
---|
刘志成;韩溢文;沈仕浩;宋金铎;王晓飞;: "边缘计算和深度学习之间的交融", 自动化博览, no. 02 * |
张文献;杜永文;张希权;: "面向多用户移动边缘计算轻量任务卸载优化", 小型微型计算机系统, no. 10 * |
朱友康;乐光学;杨晓慧;刘建生;: "边缘计算迁移研究综述", 电信科学, no. 04 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301911A (zh) * | 2021-12-17 | 2022-04-08 | 杭州谐云科技有限公司 | 一种基于边边协同的任务管理方法和系统 |
CN114301911B (zh) * | 2021-12-17 | 2023-08-04 | 杭州谐云科技有限公司 | 一种基于边边协同的任务管理方法和系统 |
CN114866430A (zh) * | 2022-03-29 | 2022-08-05 | 北京智芯微电子科技有限公司 | 边缘计算的算力预测方法、算力编排方法及系统 |
CN115016932A (zh) * | 2022-05-13 | 2022-09-06 | 电子科技大学 | 一种基于嵌入式的分布式深度学习模型资源弹性调度方法 |
CN114815755A (zh) * | 2022-05-25 | 2022-07-29 | 天津大学 | 基于智能协作推理的分布式实时智能监控系统的建立方法 |
CN115640852A (zh) * | 2022-09-09 | 2023-01-24 | 湖南工商大学 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113641504B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445111B (zh) | 一种基于边缘协同的电力物联网任务分配方法 | |
Nishio et al. | Client selection for federated learning with heterogeneous resources in mobile edge | |
Deng et al. | Task allocation algorithm and optimization model on edge collaboration | |
Zou et al. | A3C-DO: A regional resource scheduling framework based on deep reinforcement learning in edge scenario | |
Vemireddy et al. | Fuzzy reinforcement learning for energy efficient task offloading in vehicular fog computing | |
CN113641504A (zh) | 用于提升多智能体强化学习边缘计算效果的信息交互方法 | |
He et al. | Edge-aided computing and transmission scheduling for LTE-U-enabled IoT | |
Nath et al. | Multi-user multi-channel computation offloading and resource allocation for mobile edge computing | |
Nomikos et al. | A survey on reinforcement learning-aided caching in heterogeneous mobile edge networks | |
CN111475274A (zh) | 云协同多任务调度方法及装置 | |
Huang et al. | Multi-agent reinforcement learning for cost-aware collaborative task execution in energy-harvesting D2D networks | |
Yang et al. | Cooperative task offloading for mobile edge computing based on multi-agent deep reinforcement learning | |
Khoramnejad et al. | On joint offloading and resource allocation: A double deep q-network approach | |
Abbasi et al. | Deep Reinforcement Learning for QoS provisioning at the MAC layer: A Survey | |
Huda et al. | Deep reinforcement learning-based computation offloading in uav swarm-enabled edge computing for surveillance applications | |
Sadiki et al. | Deep reinforcement learning for the computation offloading in MIMO-based Edge Computing | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
Chiang et al. | Deep Q-learning-based dynamic network slicing and task offloading in edge network | |
CN114938372B (zh) | 一种基于联邦学习的微网群请求动态迁移调度方法及装置 | |
Wang et al. | Reinforcement learning-based optimization for mobile edge computing scheduling game | |
Qin et al. | Dynamic IoT service placement based on shared parallel architecture in fog-cloud computing | |
Yao et al. | Energy-aware task allocation for mobile IoT by online reinforcement learning | |
CN113747450B (zh) | 一种移动网络中业务部署方法、装置及电子设备 | |
CN114116209A (zh) | 基于深度强化学习的频谱地图构建与分发方法及系统 | |
Li et al. | Energy–latency tradeoffs edge server selection and DQN-based resource allocation schemes in MEC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |