CN114172960A - 基于多智能体强化学习的效用感知的协作服务缓存方法 - Google Patents

基于多智能体强化学习的效用感知的协作服务缓存方法 Download PDF

Info

Publication number
CN114172960A
CN114172960A CN202111298648.8A CN202111298648A CN114172960A CN 114172960 A CN114172960 A CN 114172960A CN 202111298648 A CN202111298648 A CN 202111298648A CN 114172960 A CN114172960 A CN 114172960A
Authority
CN
China
Prior art keywords
service
enb
edge server
edge
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111298648.8A
Other languages
English (en)
Other versions
CN114172960B (zh
Inventor
黄彬彬
项媛媛
俞东进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111298648.8A priority Critical patent/CN114172960B/zh
Publication of CN114172960A publication Critical patent/CN114172960A/zh
Application granted granted Critical
Publication of CN114172960B publication Critical patent/CN114172960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的效用感知的协作服务缓存方法,本发明为了实现边缘计算环境中最小化应用服务供应商成本,并最大限度地减少服务延迟,首先将协作式服务缓存问题建模成一个多智能体联合多臂老虎机模型,之后提出了一个基于多智能体强化学习的效用感知的协作服务缓存方案。该方案能协调多个边缘服务器做出动态的联合缓存决策,目的是使整个系统的长期效用最大化。最后,将本发明提出的策略与其他策略在不同实验参数下进行对比,证明了本发明的有效性。

Description

基于多智能体强化学习的效用感知的协作服务缓存方法
技术领域
本发明涉及移动边缘计算领域,尤其涉及一种基于多智能体强化学习的效用感知的协作服务缓存方法。
背景技术
在边缘计算环境中,应用服务提供商可以租用边缘服务器的资源来缓存他们的服务项目,从而大大减少用户请求和核心网络流量的服务延迟。然而,应用服务提供商租用边缘服务器的资源会产生服务成本。因此,如何找到一个动态的服务缓存方法,使服务成本最小化,并最大限度地减少服务延迟,是一个关键问题。
发明内容
为了解决背景技术中存在的问题,本发明将多个边缘服务器相互协作来缓存服务项目,并将协作式服务缓存问题表述为一个多智能体联合多臂老虎机问题。
本发明具体采用的技术方案如下:
S1.建立系统模型:
本发明中提出的边缘系统由n个边缘服务器组成,这些边缘服务器通过局域网或有线网实现点对点连接,形成一个连接图G(eNB,E)。其中eNB={eNB1,...,eNBi,...,eNBn}表示n个边缘服务器的集合,这些边缘服务器通过核心网络连接到远程云。E={e(eNBi,eNBj)|eNBi,eNBj∈eNB}表示边的集合。若e(eNBi,eNBj)=1,表示边缘服务器eNBi和eNBj之间有一条直连的边。
每个边缘服务器eNBi有一个本地存储空间,其大小为Pi。定义服务供应商提供的服务项集合为
Figure BDA0003337590790000011
每个服务项目f的大小为Df。由于边缘服务器存储容量有限,故其只能缓存服务供应商提供的部分服务。边缘服务器之间可以共享缓存的服务项。这意味着当移动用户需要的服务项在本地边缘服务器上没有被缓存时,可以从其他缓存该服务项的边缘服务器上获取。如果所需的服务项没有缓存在任何可用的边缘服务器上,或者从边缘服务器获取所需服务项的时延比从远程云获取的时延长,那么可以从远程云获取服务项。
边缘系统采用了离散时间模型,并在逻辑上将时间范围划分为连续相等的多个时间片Tslot。时间片索引的集合可以用T={0,1,...,τ,...}来表示。在每个时间片τ,不同类型的服务项请求到达不同的边缘服务器。
假设每个边缘服务器eNBi的请求到达过程遵循泊松过程,请求达到预期速率为λi=E(ai(τ))。A(τ)=(a1(τ),...,ai(τ),...,an(τ))表示在时间片τ请求到达n个边缘服务器。设
Figure BDA0003337590790000021
表示在时间片τ向边缘服务器eNBi请求服务项f的次数,它是一个独立同分布的随机变量,其平均值为
Figure BDA0003337590790000022
B(τ)=
Figure BDA0003337590790000023
表示在时间片τ向n个边缘服务器请求服务项f的次数。
此外,每个边缘服务器eNBi对不同类型服务项的访问模式遵循Zipf的分布。因此,在时间片τ中对服务项f的请求期望次数
Figure BDA0003337590790000024
是请求到达期望次数λi的函数,即
Figure BDA0003337590790000025
其中
Figure BDA0003337590790000026
是服务项f在边缘服务器eNBi受欢迎的等级,γi是第i个边缘服务器的ZipF分布参数。
S2.建立多智能体联合多臂老虎机问题:将每个边缘服务器eNBi作为一个智能体,与系统环境进行交互。每个服务项f∈F作为多臂老虎机的一根拉杆。在每个时间片τ中,边缘服务器eNBi是否缓存服务项f∈F作为动作
Figure BDA0003337590790000027
如果
Figure BDA0003337590790000028
表示边缘服务器eNBi需要在时间片τ缓存服务项f。在不同的时间片,边缘服务器eNBi缓存服务项f获得的效用是不同的。基于这些历史效用值,可以计算出边缘服务器eNBi缓存服务项f获得的经验平均效用
Figure BDA0003337590790000029
每个边缘服务器eNBi可以同时缓存几个服务项。边缘服务器eNBi在时间片τ上对每个服务项f∈F的缓存动作被视为边缘服务器eNBi的超级动作。因此,每个边缘服务器eNBi的超级动作μi(τ)可以用
Figure BDA00033375907900000210
表示。
由于边缘服务器的存储容量有限,在每个时间片τ,边缘服务器eNBi上缓存的服务项大小不能超过边缘服务器的存储容量。这个约束条件可以用
Figure BDA00033375907900000211
来表示。
所有边缘服务器在时间片τ对服务项f∈F的缓存动作被视为一个联合动作,用
Figure BDA00033375907900000212
表示。
所有边缘服务器在时间片τ对所有服务项的缓存动作被视为联合超级动作,用μ(τ)=[μ1(τ),μ2(τ),...,μi(τ),...,μn(τ)]表示。
S3.定义效用函数:
为了使总的服务时延减少最大化和总的服务成本最小化,本发明将效用函数定义为服务时延减少和服务成本的加权和。由Δ(μ(τ))表示时间片τ中减少的总服务时延,C(μ(τ))表示在时间片τ中总的服务成本。
定义时间片τ中,做出联合超级动作μ(τ)的总效用U(μ(τ))=ω1Δ(μ(τ))-ω2C(μ(τ))。ω1和ω2分别是对应的加权系数。接下来将分别介绍如何计算时间片τ中减少的总服务时延和总服务成本。
S31.计算减少服务时延:
当请求的服务项在本地边缘服务器上没有缓存时,它们可以从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生传输时延。
边缘服务器eNBi在时间片τ中获取所请求的服务项f∈F的服务时延用
Figure BDA0003337590790000031
表示,其中
Figure BDA0003337590790000032
Figure BDA0003337590790000033
Figure BDA0003337590790000034
表示所需服务项f∈F在时间片τ-1中是否被缓存在边缘服务器eNBi上。当
Figure BDA0003337590790000035
时,表示所需的服务项f在时间片τ-1中没有被缓存在边缘服务器eNBi上。因此,当边缘服务器eNBi在时间片τ中需要服务项f时,它需要从其他边缘服务器或远程云中获取。
Figure BDA0003337590790000036
是边缘服务器eNBi在时间片τ中获得所需服务项f的最低时延。
Figure BDA0003337590790000037
是服务项f在边缘服务器eNBi和eNBj之间的传输时延。
Figure BDA0003337590790000038
是边缘服务器eNBi从远程云获取所需服务项f的传输时延。
在时间片τ中,由所有边缘服务器选择的联合动作μf的服务时延减少可以通过
Figure BDA0003337590790000039
计算。联合超级动作μ(τ)在时间片τ中的总服务时延减少可以通过Δ(μ(τ))=∑f∈FΔf计算。
S32.计算服务成本:服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成。服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销。服务迁移成本是衡量从远程云或其他边缘服务器获取服务的开销。QoS惩罚成本是由于服务响应时延超过了限制时间而产生的。
由C(μf(τ))表示所有边缘服务器在时间片τ中选择联合动作μf(τ)的服务成本。Csgf(τ))、Cmgf(τ))和Cplf(τ))分别表示联合动作μf(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本。将C(μf(τ))定义为Csgf(τ))、Cmgf(τ))和Cplf(τ))在时间片τ中的加权和,表示为C(μf(τ))=ω2Csgf(τ))+ω3Cmgf(τ))+ω4Cplf(τ))。所以在时间片τ中联合超级动作μ(τ)的总服务成本为C(μ(τ))=∑f∈FC(μf(τ))。
为了计算联合动作μf(τ)的服务成本和联合超级动作μ(τ)的总服务成本,本发明按如下方法进一步计算出服务缓存成本、服务迁移成本和服务惩罚成本。
S321.计算服务缓存成本:
为了减少服务的获取时延,可以在边缘服务器上缓存部分流行的服务项。由于应用服务提供商需要租用边缘服务器的存储资源来缓存服务项,这里引入了服务缓存成本,它可以根据应用服务提供商租用的存储空间的大小来计算得到。所有边缘服务器选择的联合动作μf(τ)的服务缓存成本Csgf(τ))可以通过
Figure BDA0003337590790000041
计算,其中csg是租用边缘服务器存储资源的单位成本。
S322.计算服务迁移成本:
当所需的服务项不在本地边缘服务器上缓存时,它们需要从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生服务迁移成本。使用ccs和css分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本。
在时间片τ中,如果边缘服务器eNBi从其他边缘服务器获取所需服务项
Figure BDA0003337590790000042
的传输时延高于从远程云获取,边缘服务器eNBi将直接从远程云获取服务项,请求的服务项来源被表示为
Figure BDA0003337590790000043
其中
Figure BDA0003337590790000044
表示边缘服务器eNBi从其他边缘服务器获取到所需的服务项。否则,边缘服务器eNBi从远程云获取所需的服务项。因此,由所有边缘服务器选择的联合动作μf(τ)的服务迁移成本Cmgf(τ))可以通过
Figure BDA0003337590790000045
Figure BDA0003337590790000046
计算。
S323.计算服务惩罚成本:
设获取所需服务项的时延约束是Lmax。当边缘服务器eNBi获取所需服务项的时延长于Lmax时,边缘服务器eNBi将受到服务质量惩罚。使用
Figure BDA0003337590790000047
表示边缘服务器eNBi在获取所需服务项
Figure BDA0003337590790000048
时是否受到服务质量惩罚。使用cp表示由QoS惩罚产生的单位成本。因此,所有边缘服务器选择的联合动作μf(τ)的QoS惩罚成本Cplf(τ))可以通过
Figure BDA0003337590790000051
计算,其中
Figure BDA0003337590790000052
Figure BDA00033375907900000510
S4.策略实现:基于以上描述,本发明提出的协作服务缓存问题可表述如下:
Maximize:U(μ(τ))
Figure BDA0003337590790000053
Figure BDA0003337590790000054
Figure BDA0003337590790000055
在该问题中,每个边缘服务器被视为一个智能体,并且多个边缘服务器相互协作,为用户请求提供服务。为了解决这个问题,本发明设计了基于多智能体强化学习的效用感知协作服务缓存(utility-aware collaborative service caching,UACSC)方案,以最大化整个系统的长期效用。
在多智能体协作系统中,每个智能体学习协调他们的动作选择并提高整个系统的效用。由于系统状态的变化可由动作空间表示,本发明使用无状态的Q-learning算法来解决协作服务缓存问题。在无状态Q-leaming算法中,在执行联合超级动作μ(τ)后,每个边缘服务器eNBi通过
Figure BDA00033375907900000511
Figure BDA00033375907900000512
更新其Q值。由于联合超级动作的动作空间是指数级的,为了减少Q-leaming的动作空间,本发明引入了联合动作学习者的CUCB算法,通过学习联合动作的期望奖励而非联合超级动作的期望奖励来获取最优的缓存策略。因此,对于每个边缘服务器eNBi
Figure BDA0003337590790000056
可以被
Figure BDA0003337590790000057
所取代。Q值
Figure BDA0003337590790000058
被定义为边缘服务器eNBi观察到的联合动作(μ1f,...,μif,...,μnf)的平均奖励。由Nifif)表示被边缘服务器eNBi选择动作μif的次数,Nijfjf)表示边缘服务器eNBi选择动作μjf被边缘服务器eNBj观察到的次数,Nif1f,...,μif,...,μnf)表示n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf)的次数,每个边缘服务器eNBj保存Nifif),Nijfjf)和Nif(bif)的计数。如果联合动作(μ1f,...,μif,...,μnf)被边缘服务器eNBi在时间片τ中观察到的n个边缘服务器选择,Q值
Figure BDA0003337590790000059
将被更新为
Figure BDA0003337590790000061
Figure BDA0003337590790000062
为了得到所有基础动作的Q值,每个边缘服务器eNBi假设其他每个边缘服务器eNBj将以概率Prijfjf)=Nijfjf)/T选择基础动作μjf。因此,边缘服务器eNBi评估联合动作(μ1f,...,μ(i-1)f,μ(i+1)f,...,μnf)被其他边缘服务器选择的概率为
Figure BDA0003337590790000063
选择基本动作μif的预期奖励可以通过
Figure BDA0003337590790000064
计算。
为了促进开发与探索,本发明采用了修改后的CUCB算法,根据内容流行度的类Zipf分布来调整Q值。调整后的Q值
Figure BDA0003337590790000065
可以通过
Figure BDA0003337590790000066
Figure BDA0003337590790000067
计算。其中
Figure BDA0003337590790000068
Υ是ZipF分布参数。当Υ大时,因子1/FΥ促进开发;当n大时,则促进探索。调整后的Q值
Figure BDA0003337590790000069
被输入到一个(α,β)-approximation oracle,以找到最佳的超级动作。由此,这个问题可以被转化为一个利益为
Figure BDA00033375907900000610
重量为Df的0-1背包问题。它可以被表述如下:
Figure BDA00033375907900000611
Figure BDA00033375907900000612
由于0-1背包问题是NP难问题,所以很难获取到最优超级动作。为了解决该问题,本发明采用了一种贪婪算法来寻找可行解,作为(α,β)-approximation oracle的输出。可行解
Figure BDA00033375907900000613
首先被初始化为μ′i=(0,...,0,...,0)。然后
Figure BDA00033375907900000614
的非递增顺序为缓存决策进行编号。具体来说,可以表示为
Figure BDA00033375907900000615
的值可由
Figure BDA00033375907900000616
计算。最优解的数值与贪婪近似解的数值之比可以用
Figure BDA00033375907900000617
表示,δ值估计小于或等于2。因此,超级动作μ′i的期望奖励至少是最优解期望奖励的1/2。因此,贪婪算法是一个(α,β)-approximation oracle,其中α=0.5,β=1。
作为优选,S1所述的边缘网络由8个边缘服务器组成,每台边缘服务器的存储容量在[20,60]GB之间。服务项个数为30,服务项大小在[10,30]GB之间。服务请求到达速率服从均值为100的泊松分布,边缘服务器的ZipF分布参数为0.7。
作为优选,S3中所述的任何两个边缘服务器之间的传输速率在[200,500]MB/s范围内变化。从远程云到边缘服务器传输服务项目的核心网络带宽是160Mbps。在边缘服务器上租用存储资源的单位成本为0.04。从远程云到边缘服务器的数据迁移的单位成本为0.08。边缘服务器之间的数据迁移的单位成本为0.05。服务延迟减少、服务缓存成本、服务迁移成本和服务惩罚成本的权重分别为ω1=0.003,ω2=10,ω3=1,ω4=0.2。
本发明研究了边缘计算环境中,多个边缘服务器相互协作来服务用户请求的问题。为了解决这个问题,提出了一个基于多智能体强化学习的效用感知的协作服务缓存方案。具体来说,本发明将协作服务缓存问题建模为一个多智能体联合多臂老虎机模型,将每个边缘服务器视为一个智能体,每个服务项视为一个臂,每个边缘服务器的缓存决策视为一个超级行动,并以服务延迟减少和服务成本的加权和作为效用函数,主要目标是使系统总效用最大化。
附图说明
图1为移动边缘计算环境中基于多智能体强化学习的效用感知的协作服务缓存方案的流程图;
图2为边缘协作服务缓存的系统模型图;
图3为基于多智能体强化学习的效用感知的协作服务缓存方案的奖励收敛图;
图4为本发明算法与IL和LFU算法在服务项个数变化下的对比图;
图5为本发明算法与IL和LFU算法在边缘服务器个数变化下的对比图;
图6为本发明算法与IL和LFU算法在边缘服务器存储能力变化下的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明包括以下步骤:
S1.建立系统模型:本发明中提出的边缘网络由n个边缘服务器组成,见图2,这些边缘服务器通过局域网或有线网实现点对点连接,形成一个连接图G(eNB,E)。其中eNB={eNB1,...,eNBi,...,eNBn}表示n个边缘服务器的集合,这些边缘服务器通过核心网络连接到远程云。E={e(eNBi,eNBj)|eNBi,eNBj∈eNB}表示边的集合。若e(eNBi,eNBj)=1,表示边缘服务器eNBi和eNBj之间有一条直连的边。
每个边缘服务器eNBi有一个本地存储空间,其大小为Pi。定义服务供应商提供的服务项集合为
Figure BDA0003337590790000088
每个服务项目f的大小为Df。由于边缘服务器存储容量有限,故其只能缓存服务供应商提供的部分服务。边缘服务器之间可以共享缓存的服务项。这意味着当移动用户需要的服务项在本地边缘服务器上没有被缓存时,可以从其他缓存该服务项的边缘服务器上获取。如果所需的服务项没有缓存在任何可用的边缘服务器上,或者从边缘服务器获取所需服务项的时延比从远程云获取的时延长,那么可以从远程云获取服务项。
在本发明的系统模型中采用了离散时间模型,并在逻辑上将时间范围划分为连续相等的多个时间片Tslot。时间片索引的集合可以用
Figure BDA0003337590790000081
来表示。在每个时间片τ,不同类型的服务项请求到达不同的边缘服务器。假设每个边缘服务器eNBi的请求到达过程遵循泊松过程,请求达到预期速率为λi=E(ai(τ))。A(τ)=(a1(τ),...,ai(τ),...,an(τ))表示在时间片τ请求到达n个边缘服务器。
Figure BDA0003337590790000082
表示在时间片τ向边缘服务器eNBi请求服务项f的次数,它是一个独立同分布的随机变量,其平均值为
Figure BDA0003337590790000083
Figure BDA0003337590790000084
表示在时间片τ向n个边缘服务器请求服务项f的次数。
此外,每个边缘服务器eNBi对不同类型服务项的访问模式遵循Zipf的分布。因此,在时间片τ中对服务项f的请求期望次数
Figure BDA0003337590790000085
是请求到达期望次数λi的函数,即
Figure BDA0003337590790000086
其中
Figure BDA0003337590790000087
是服务项f在边缘服务器eNBi受欢迎的等级,γi是第i个边缘服务器的ZipF分布参数。
S2.建立多智能体联合多臂老虎机问题:将每个边缘服务器eNBi作为一个智能体,与系统环境进行交互。每个服务项f∈F作为多臂老虎机的一根拉杆。在每个时间片τ中,边缘服务器eNBi是否缓存服务项f∈F作为动作
Figure BDA0003337590790000091
如果
Figure BDA0003337590790000092
表示边缘服务器eNBi需要在时间片τ缓存服务项f。在不同的时间片,边缘服务器eNBi缓存服务项f获得的效用是不同的。基于这些历史效用值,可以计算出边缘服务器eNBi缓存服务项f获得的经验平均效用
Figure BDA0003337590790000093
每个边缘服务器eNBi可以同时缓存几个服务项。
边缘服务器eNBi在时间片τ上对每个服务项f∈F的缓存动作被视为边缘服务器eNBi的超级动作。因此,每个边缘服务器eNBi的超级动作μi(τ)可以用
Figure BDA0003337590790000094
表示。由于边缘服务器的存储容量有限,在每个时间片τ,边缘服务器eNBi上缓存的服务项大小不能超过边缘服务器的存储容量。这个约束条件可以用
Figure BDA0003337590790000095
来表示。
所有边缘服务器在时间片τ对服务项f∈F的缓存动作被视为一个联合动作,用
Figure BDA0003337590790000096
表示。所有边缘服务器在时间片τ对所有服务项的缓存动作被视为联合超级动作,用μ(τ)=[μ1(τ),μ2(τ),...,μi(τ),...,μn(τ)]表示。
S3.定义效用函数:为了使总的服务时延减少最大化和总的服务成本最小化,本发明将效用函数定义为服务时延减少和服务成本的加权和。由Δ(μ(τ))表示时间片τ中减少的总服务时延,C(μ(τ))表示在时间片τ中总的服务成本。定义时间片τ中,做出联合超级动作μ(τ)的总效用U(μ(τ))=ω1Δ(μ(τ))-ω2C(μ(τ))。ω1和ω2分别是对应的加权系数。接下来将分别介绍如何计算时间片τ中减少的总服务时延和总服务成本。
S31.计算减少服务时延:
当请求的服务项在本地边缘服务器上没有缓存时,它们可以从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生传输时延。边缘服务器eNBi在时间片τ中获取所请求的服务项f∈F的服务时延用
Figure BDA0003337590790000097
表示,其中
Figure BDA0003337590790000098
Figure BDA0003337590790000099
Figure BDA00033375907900000910
表示所需服务项f∈F在时间片τ-1中是否被缓存在边缘服务器eNBi上。兰
Figure BDA00033375907900000911
时,表示所需的服务项f在时间片τ-1中没有被缓存在边缘服务器eNBi上。因此,当边缘服务器eNBi在时间片τ中需要服务项f时,它需要从其他边缘服务器或远程云中获取。
Figure BDA0003337590790000101
是边缘服务器eNBi在时间片τ中获得所需服务项f的最低时延。
Figure BDA0003337590790000102
是服务项f在边缘服务器eNBi和eNBj之间的传输时延。
Figure BDA0003337590790000103
是边缘服务器eNBi从远程云获取所需服务项f的传输时延。在时间片τ中,由所有边缘服务器选择的联合动作μf的服务时延减少可以通过
Figure BDA0003337590790000104
计算。联合超级动作μ(τ)在时间片τ中的总服务时延减少可以通过Δ(μ(τ))=∑f∈FΔf计算。
S32.计算服务成本:
服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成。服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销。服务迁移成本是衡量从远程云或其他边缘服务器获取服务的开销。QoS惩罚成本是由于服务响应时延超过了限制时间而产生的。
由C(μf(τ))表示所有边缘服务器在时间片τ中选择联合动作μf(τ)的服务成本。Csgf(τ))、Cmgf(τ))和Cplf(τ))分别表示联合动作μf(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本。将C(μf(τ))定义为Csgf(τ))、Cmgf(τ))和Cplf(τ))在时间片τ中的加权和,表示为C(μf(τ))=ω2Csgf(τ))+ω3Cmgf(v))+ω4Cplf(τ))。所以在时间片τ中联合超级动作μ(τ)的总服务成本为C(μ(τ))=∑f∈FC(μf(τ))。为了计算联合动作μf(τ)的服务成本和联合超级动作μ(τ)的总服务成本,本发明按如下方法进一步计算出服务缓存成本、服务迁移成本和服务惩罚成本。
S321.计算服务缓存成本:为了减少服务的获取时延,可以在边缘服务器上缓存部分流行的服务项。由于应用服务提供商需要租用边缘服务器的存储资源来缓存服务项,这里引入了服务缓存成本,它可以根据应用服务提供商租用的存储空间的大小来计算得到。所有边缘服务器选择的联合动作μf(τ)的服务缓存成本Csgf(τ))可以通过
Figure BDA0003337590790000105
计算,其中csg是租用边缘服务器存储资源的单位成本。
S322.计算服务迁移成本:当所需的服务项不在本地边缘服务器上缓存时,它们需要从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生服务迁移成本。使用ccs和css分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本。在时间片τ中,如果边缘服务器eNBi从其他边缘服务器获取所需服务项
Figure BDA0003337590790000111
的传输时延高于从远程云获取,边缘服务器eNBi将直接从远程云获取服务项,请求的服务项来源被表示为
Figure BDA0003337590790000112
Figure BDA0003337590790000113
其中
Figure BDA0003337590790000114
表示边缘服务器eNBi从其他边缘服务器获取到所需的服务项。否则,边缘服务器eNBi从远程云获取所需的服务项。因此,由所有边缘服务器选择的联合动作μf(τ)的服务迁移成本Cmgf(τ))可以通过
Figure BDA0003337590790000115
计算。
S323.计算服务惩罚成本:设获取所需服务项的时延约束是Lmax。当边缘服务器eNBi获取所需服务项的时延长于Lmax时,边缘服务器eNBi将受到服务质量惩罚。使用
Figure BDA00033375907900001113
表示边缘服务器eNBi在获取所需服务项
Figure BDA00033375907900001114
时是否受到服务质量惩罚。使用cp表示由QoS惩罚产生的单位成本。因此,所有边缘服务器选择的联合动作μf(τ)的QoS惩罚成本Cplf(τ))可以通过
Figure BDA0003337590790000116
计算,其中
Figure BDA0003337590790000117
S4.策略实现:基于以上描述,本发明提出的协作服务缓存问题可表述如下:
Maximize:U(μ(τ))
Figure BDA0003337590790000118
Figure BDA0003337590790000119
Figure BDA00033375907900001110
在该问题中,每个边缘服务器被视为一个智能体,并且多个边缘服务器相互协作,为用户请求提供服务。为了解决这个问题,本发明设计了基于多智能体强化学习的效用感知协作服务缓存(utility-aware collaborative service caching,UACSC)方案,以最大化整个系统的长期效用。在多智能体系统中,每个智能体学习协调他们的动作选择并提高整个系统的效用。由于系统状态的变化可由动作空间表示,本发明使用无状态的Q-learning算法来解决协作服务缓存问题。在无状态Q-learning算法中,在执行联合超级动作μ(τ)后,每个边缘服务器eNBi通过
Figure BDA00033375907900001111
Figure BDA00033375907900001112
更新其Q值。由于联合超级动作的动作空间是指数级的,为了减少Q-learning的动作空间,本发明引入了联合动作学习者的CUCB算法,通过学习联合动作的期望奖励而非联合超级动作的期望奖励来获取最优的缓存策略。因此,对于每个边缘服务器eNBi
Figure BDA0003337590790000121
可以被
Figure BDA0003337590790000122
所取代。Q值
Figure BDA0003337590790000123
被定义为边缘服务器eNBi观察到的联合动作(μ1f,...,μif,...,μnf)的平均奖励。由Nifif)表示被边缘服务器eNBi选择动作μif的次数,Nijfjf)表示边缘服务器eNBi选择动作μjf被边缘服务器eNBj观察到的次数,Nif1f,...,μif,...,μnf)表示n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf)的次数,每个边缘服务器eNBj保存Nifif),Nijfjf)和Nif(bif)的计数。如果联合动作(μ1f,...,μif,...,μnf)被边缘服务器eNBi在时间片τ中观察到的n个边缘服务器选择,Q值
Figure BDA0003337590790000124
将被更新为
Figure BDA0003337590790000125
为了得到所有基础动作的Q值,每个边缘服务器eNBi假设其他每个边缘服务器eNBj将以概率Prijfjf)=Nijfjf)/T选择基础动作μjf。因此,边缘服务器eNBi评估联合动作(μ1f,...,μ(i-1)f,μ(i+1)f,...,μnf)被其他边缘服务器选择的概率为
Figure BDA0003337590790000126
选择基本动作μif的预期奖励:
Figure BDA0003337590790000127
为了促进开发与探索,本发明采用了修改后的CUCB算法,根据内容流行度的类Zipf分布来调整Q值。调整后的Q值
Figure BDA0003337590790000128
可以通过
Figure BDA0003337590790000129
Figure BDA00033375907900001210
计算。其中
Figure BDA00033375907900001211
Υ是ZipF分布参数。当Υ大时,因子1/FΥ促进开发;当n大时,则促进探索。调整后的Q值
Figure BDA00033375907900001212
被输入到一个(α,β)-approximation oracle,以找到最佳的超级动作。由此,这个问题可以被转化为一个利益为
Figure BDA00033375907900001213
重量为Df的0-1背包问题。它可以被表述如下:
Figure BDA00033375907900001214
Figure BDA00033375907900001215
由于0-1背包问题是NP难问题,所以很难获取到最优超级动作。为了解决该问题,本发明采用了一种贪婪算法来寻找可行解,作为(α,β)-approximation oracle的输出。可行解
Figure BDA0003337590790000131
首先被初始化为μ′i=(0,...,0,...,0)。然后
Figure BDA0003337590790000132
Figure BDA0003337590790000133
的非递增顺序为缓存决策进行编号。具体来说,可以表示为
Figure BDA0003337590790000134
的值可由
Figure BDA0003337590790000135
计算。最优解的数值与贪婪近似解的数值之比可以用
Figure BDA0003337590790000136
表示,δ值估计小于或等于2。因此,超级动作μ′i的期望奖励至少是最优解期望奖励的1/2。因此,贪婪算法是一个(α,β)-approximation oracle,其中α=0.5,β=1。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。下面就对比算法的实施和实施结果进行展示:
本发明还实现了IL(Independent Learners)和LFU(Least Frequently Used)两个基线算法。其中IL算法将每个边缘服务器视为一个智能体,每个智能体独立学习自己的超级行动。LFU算法在边缘服务器中缓存最频繁被请求的服务项。并将这两个基线算法与UACSC策略进行对比,并且分别就服务项个数、边缘服务器个数和边缘服务器存储能力对奖励的影响进行评估。
图3中显示了UACSC策略在包含8个边缘服务器的边缘网络中,对30个服务项进行服务缓存的学习曲线。可以观察到随着学习时间的增加,奖励逐渐上升并趋于稳定。这一现象表明本发明提出的UACSC策略可以学习到一个较优的服务缓存策略,使得整个系统的长期效用最大化。
为了研究服务项个数变化对奖励的影响,将服务项个数分别设置为10、20、30、40。图4显示了在服务项个数变化时三种策略的奖励变化。从图中可以观察到三种策略随着服务项个数的增加,奖励下降。其原因在于服务项个数增多,使得服务请求种类增多,导致从云上请求服务的次数增加,节省时间下降。另外在三种策略中,随着服务个数的增加,总成本将会上升。其主要原因在于边缘网络中的存储能力不变,缓存成本的波动不大。但是从云上请求服务的次数增加,导致了迁移成本和惩罚成本的上升。最后,还可以观察得到在服务个数变化时,UACSC策略的奖励优于其他两种算法。
为了研究边缘服务器个数变化对奖励的影响,分别设置边缘服务器个数为6、7、8和9。图5显示了三种策略在边缘服务器个数变化时奖励的变化情况。从图中可以观察得到在三种策略中,奖励随着边缘服务器个数的增加总体呈增大趋势。其主要原因在于边缘服务器个数增加的同时,边缘网络中接受到的总的服务请求数会增加,使得总的节省时间上升。另外,边缘网络中服务器个数的增加,也将使得整个系统的存储能力上升,边缘服务器可以从其他边缘服务器上获取服务,这也将大大节省服务响应时间。但是服务成本随着边缘服务器个数的增加也在增加,这是因为系统的存储能力上升,将会导致更高的服务缓存成本,但是服务时延的减少带来的效用更大。最后,还可以观察到UACSC算法在边缘服务器个数变化时的奖励优于其他两种算法。
为了研究边缘服务器存储能力大小对奖励的影响,分别设置边缘服务器存储能力为40、45、50和55GB。图6显示了三种策略在边缘服务器存储能力变化时奖励的变化情况。从图中可以观察到随着边缘服务器存储能力的上升,三种策略的奖励也随之增大。其主要原因在于服务器存储能力上升,边缘网络中的存储能力上升,使得边缘网络中可以缓存更多的服务,减少了从云上请求服务的次数。虽然系统中总的存储能力提升将会产生更多的存储成本,但是服务时延的减少带来的效用更大。最后,也可以观察得到在边缘服务器存储能力变化时,UACSC算法的奖励优于其他两种算法。

Claims (4)

1.基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于该方法包括以下步骤:
S1.建立系统模型:
设边缘系统由n个边缘服务器组成,这些边缘服务器通过局域网连接,形成一个连接图G(eNB,E);其中eNB={eNB1,...,eNBi,...,eNBn}表示n个边缘服务器的集合,这些边缘服务器通过核心网络连接到远端云;E={e(eNBi,eNBj)|eNBi,eNBj∈eNB}表示边的集合;若e(eNBi,eNBj)=1,表示边缘服务器eNBi和eNBj之间有一条直连的边;每个边缘服务器eNBi的本地存储能力表示为Pi
定义服务供应商提供的服务项集合为
Figure FDA0003337590780000011
每个服务项
Figure FDA0003337590780000012
的大小为Df;边缘服务器之间可以共享缓存的服务项,即当移动用户所需的服务项没有在本地边缘服务器上缓存时,则可从其他缓存该服务项的边缘服务器上获取;如果所需的服务项没有缓存在任何边缘服务器,或者从边缘服务器获取所需服务项的时延比从远端云获取的时延长,那么从远端云获取服务项;
边缘系统采用离散时间模型,即将一个时间段在逻辑上划分为多个连续相等的时间片;这些时间片索引的集合用
Figure FDA0003337590780000013
来表示,每个时间片的大小为Tslot;在任意时间片τ内,不同类型的服务项请求分别到达不同的边缘服务器;假设在任意边缘服务器eNBi上,请求的到达过程服从参数为λi的泊松分布,其中参数λi=E(ai(τ));A(τ)=(a1(τ),...,ai(τ),...,an(τ))表示在时间片τ内到达n个边缘服务器的请求数;
Figure FDA0003337590780000014
表示在时间片τ内边缘服务器eNBi请求服务项
Figure FDA0003337590780000015
的次数,它是一个独立同分布的随机变量,其平均值为
Figure FDA0003337590780000016
表示在时间片τ内n个边缘服务器请求服务项
Figure FDA0003337590780000017
的次数;每个边缘服务器eNBi对不同类型服务项的请求服从参数为γi的Zipf分布;
S2.建立多智能体联合多臂老虎机问题:
将每个边缘服务器eNBi作为一个多臂老虎机,与系统环境进行交互;每个服务项
Figure FDA0003337590780000021
作为多臂老虎机的一根拉杆;在每个时间片τ中,边缘服务器eNBi是否缓存服务项
Figure FDA0003337590780000022
作为是否选中拉杆
Figure FDA0003337590780000023
的动作
Figure FDA0003337590780000024
如果
Figure FDA0003337590780000025
表示边缘服务器eNBi需要在时间片τ缓存服务项f;每个边缘服务器eNBi可以同时缓存多个服务项;
在时间片τ内,边缘服务器eNBi对每个服务项
Figure FDA0003337590780000026
的缓存动作被作为边缘服务器eNBi的超级动作;每个边缘服务器eNBi的超级动作表示为
Figure FDA0003337590780000027
Figure FDA0003337590780000028
在每个时间片τ,边缘服务器eNBi上缓存的所有服务项大小之和不能超过边缘服务器的存储能力Pi,该约束条件表示为
Figure FDA0003337590780000029
在时间片τ内,n个边缘服务器对服务项
Figure FDA00033375907800000210
的缓存动作作为一个联合动作
Figure FDA00033375907800000211
在时间片τ内,n个边缘服务器对所有服务项的缓存动作作为联合超级动作μ(τ)=[μ1(τ),μ2(τ),...,μi(τ),...,μn(τ)];
S3.定义效用函数:
将效用函数定义为服务时延减少和服务成本的加权和;在时间片τ中,边缘系统做出联合超级动作μ(τ)的总效用表示为U(μ(τ))=ω1Δ(μ(τ))-ω2C(μ(τ));其中ω1和ω2分别是服务时延减少和服务成本的权重系数,Δ(μ(τ))表示在时间片τ中服务时延减少,C(μ(τ))表示在时间片τ中的服务成本;
S31.计算服务时延减少:
当请求的服务项
Figure FDA00033375907800000212
在本地边缘服务器eNBi上没有缓存时,则从其他边缘服务器或远端云获取;在时间片τ中,边缘服务器eNBi获取服务项
Figure FDA00033375907800000213
的服务时延表示为:
Figure FDA00033375907800000214
其中
Figure FDA00033375907800000215
Figure FDA00033375907800000216
表示在时间片τ-1中服务项
Figure FDA00033375907800000217
是否被缓存在边缘服务器eNBi上;当
Figure FDA00033375907800000218
时,表示在时间片τ-1中,服务项f没有被缓存在边缘服务器eNBi上;
Figure FDA00033375907800000219
表示在时间片τ中边缘服务器eNBi获得服务项f的最小时延;
Figure FDA00033375907800000220
表示边缘服务器eNBi从边缘服务器eNBj获取服务项f的传输时延;
Figure FDA00033375907800000221
表示边缘服务器eNBi从远端云获取服务项f的传输时延;
在时间片τ中,所有边缘服务器选择联合动作μf的服务时延减少表示为
Figure FDA0003337590780000031
选择联合超级动作μ(τ)的总服务时延减少表示为Δ(μ(τ))=∑f∈FΔf
S32.计算服务成本:
服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成;服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销;服务迁移成本是衡量从远端云或其他边缘服务器获取服务的开销;QoS惩罚成本是由于服务响应时延超过了限制时间而产生的;
在时间片τ中,所有边缘服务器选择联合动作μf(τ)的服务成本为C(μf(τ));C(μf(τ))被定义为Csgf(τ))、Cmgf(τ))和Cplf(τ))的加权和,即C(μf(τ))=ω2Csgf(τ))+ω3Cmgf(τ))+ω4Cplf(τ)),其中Csgf(τ))、Cmgf(τ))和Cplf(τ))分别表示联合动作μf(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本;
在时间片τ中,所有边缘服务器选择联合超级动作μ(τ)的总服务成本为C(μ(τ))=∑f∈ FC(μf(τ));
S321.计算服务缓存成本:
所有边缘服务器选择联合动作μf(τ)的服务缓存成本Csgf(τ))通过
Figure FDA0003337590780000032
计算,其中csg是租用边缘服务器存储资源的单位成本;
S322.计算服务迁移成本:
ccs和css分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本;在时间片τ中,当边缘服务器eNBi从其他边缘服务器获取所需服务项
Figure FDA0003337590780000033
的传输时延高于远端云,边缘服务器eNBi将直接从远端云获取服务项
Figure FDA0003337590780000034
请求的服务项来源被表示为:
Figure FDA0003337590780000035
其中
Figure FDA0003337590780000036
表示边缘服务器eNBi从其他边缘服务器eNBj获取所需服务项
Figure FDA0003337590780000037
否则,边缘服务器eNBi从远端云获取所需的服务项
Figure FDA0003337590780000038
所有边缘服务器选择联合动作μf(τ)的服务迁移成本为
Figure FDA0003337590780000039
Figure FDA0003337590780000041
S323.计算服务惩罚成本:
获取服务项的时延约束为Lmax;当边缘服务器eNBi获取所需服务项
Figure FDA0003337590780000042
的时延大于Lmax时,边缘服务器eNBi将受到服务质量惩罚;使用
Figure FDA0003337590780000043
表示边缘服务器eNBi在获取所需服务项
Figure FDA0003337590780000044
时是否受到服务质量惩罚;cp表示服务质量惩罚的单位成本;
所有边缘服务器选择联合动作μf(τ)的服务质量惩罚成本为
Figure FDA0003337590780000045
Figure FDA0003337590780000046
其中
Figure FDA0003337590780000047
S4.将协作服务缓存问题表述如下:
Maximize:U(μ(τ))
Figure FDA0003337590780000048
Figure FDA0003337590780000049
Figure FDA00033375907800000410
采用无状态的Q-learning算法求解上述问题。
2.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于:所述无状态的Q-learning算法求解协作服务缓存问题,具体是:
步骤1:在时间片τ,边缘服务器eNBi观察到n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf),计算联合动作的
Figure FDA00033375907800000411
Figure FDA00033375907800000412
Figure FDA00033375907800000413
其中Nif1f,...,μif,...,μnf)表示n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf)的次数;
步骤2:每个边缘服务器eNBi假设其他边缘服务器eNBj以概率Prijfjf)=Nijfjf)/T选择基础动作μjf,其中Nijfjf)表示边缘服务器eNBi选择动作μjf被边缘服务器eNBj观察到的次数;边缘服务器eNBi评估其他边缘服务器选择联合动作(μ1f,...,μ(i-1)f,μ(i+1)f,...μnf)的概率为
Figure FDA0003337590780000051
边缘服务器eNBi选择基础动作μif
Figure FDA0003337590780000052
Figure FDA0003337590780000053
为:
Figure FDA0003337590780000054
步骤3:调整基础动作μif
Figure FDA0003337590780000055
值为
Figure FDA0003337590780000056
其中
Figure FDA0003337590780000057
Figure FDA0003337590780000058
γ是ZipF分布参数;
步骤4:将调整后的
Figure FDA0003337590780000059
Figure FDA00033375907800000510
输入到(α,β)-approximation oracle,转化该问题为一个利益为
Figure FDA00033375907800000511
重量为Df的0-1背包问题,即
Figure FDA00033375907800000512
Figure FDA00033375907800000513
步骤5:采用贪婪算法求解0-1背包问题的可行解
Figure FDA00033375907800000514
将其作为(α,β)-approximation oracle的输出。
3.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于:S1所述的边缘网络由8个边缘服务器组成,每台边缘服务器的存储容量在[20,60]GB之间;服务项个数为30,服务项大小在[10,30]GB之间;服务请求到达速率服从均值为100的泊松分布,边缘服务器的ZipF分布参数为0.7。
4.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于:S3中所述的任何两个边缘服务器之间的传输速率在[200,500]MB/s范围内变化;从远端云到边缘服务器传输服务项目的核心网络带宽是160Mbps;在边缘服务器上租用存储资源的单位成本为0.04;从远端云到边缘服务器的数据迁移的单位成本为0.08;边缘服务器之间的数据迁移的单位成本为0.05;服务延迟减少、服务缓存成本、服务迁移成本和服务惩罚成本的权重分别为ω1=0.003,ω2=10,ω3=1,ω4=0.2。
CN202111298648.8A 2021-11-04 2021-11-04 基于多智能体强化学习的效用感知的协作服务缓存方法 Active CN114172960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111298648.8A CN114172960B (zh) 2021-11-04 2021-11-04 基于多智能体强化学习的效用感知的协作服务缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111298648.8A CN114172960B (zh) 2021-11-04 2021-11-04 基于多智能体强化学习的效用感知的协作服务缓存方法

Publications (2)

Publication Number Publication Date
CN114172960A true CN114172960A (zh) 2022-03-11
CN114172960B CN114172960B (zh) 2024-02-02

Family

ID=80477973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111298648.8A Active CN114172960B (zh) 2021-11-04 2021-11-04 基于多智能体强化学习的效用感知的协作服务缓存方法

Country Status (1)

Country Link
CN (1) CN114172960B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN113110915A (zh) * 2021-04-06 2021-07-13 杭州电子科技大学 移动边缘计算环境中自主学习的服务缓存策略

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN113110915A (zh) * 2021-04-06 2021-07-13 杭州电子科技大学 移动边缘计算环境中自主学习的服务缓存策略

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07 *

Also Published As

Publication number Publication date
CN114172960B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN109684075B (zh) 一种基于边缘计算和云计算协同进行计算任务卸载的方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
He et al. QoE-driven content-centric caching with deep reinforcement learning in edge-enabled IoT
CN111258762B (zh) 一种动态周期的媒体服务器负载均衡算法
CN110417847B (zh) 无人机通信网络用户接入和内容缓存的方法及装置
CN112134916A (zh) 一种基于深度强化学习的云边协同计算迁移方法
US20190260845A1 (en) Caching method, system, device and readable storage media for edge computing
CN111694636B (zh) 一种面向边缘网络负载均衡的电力物联网容器迁移方法
CN113115368B (zh) 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN104821961B (zh) 一种基于节点社团重要度的icn缓存方法
CN107949038B (zh) 一种基于ahp和相似度的网络选择方法
CN108684046A (zh) 一种基于随机学习的接入网服务功能链部署方法
CN104507124A (zh) 一种基站缓存的管理方法及用户访问的处理方法
CN114328291A (zh) 一种工业互联网边缘服务缓存决策方法及系统
CN113873534A (zh) 一种雾计算中区块链协助的联邦学习主动内容缓存方法
CN112256413A (zh) 基于物联网的边缘计算任务的调度方法和装置
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN109951317B (zh) 一种基于用户驱动的流行度感知模型的缓存替换方法
Shi et al. Content caching policy for 5g network based on asynchronous advantage actor-critic method
CN114172960A (zh) 基于多智能体强化学习的效用感知的协作服务缓存方法
CN117499484A (zh) 一种基于深度强化学习的边缘缓存替换方法
CN113596138B (zh) 一种基于深度强化学习的异构信息中心网络缓存分配方法
CN108809728B (zh) 内容分发网络数据转发方法和内容分发网络数据转发系统
CN116362345A (zh) 基于多智能体强化学习和联邦学习的边缘缓存方法及系统
CN113110915A (zh) 移动边缘计算环境中自主学习的服务缓存策略

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant