CN114172960A - 基于多智能体强化学习的效用感知的协作服务缓存方法 - Google Patents
基于多智能体强化学习的效用感知的协作服务缓存方法 Download PDFInfo
- Publication number
- CN114172960A CN114172960A CN202111298648.8A CN202111298648A CN114172960A CN 114172960 A CN114172960 A CN 114172960A CN 202111298648 A CN202111298648 A CN 202111298648A CN 114172960 A CN114172960 A CN 114172960A
- Authority
- CN
- China
- Prior art keywords
- service
- enb
- edge server
- edge
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000002787 reinforcement Effects 0.000 title claims abstract description 14
- 230000008447 perception Effects 0.000 title claims abstract description 7
- 230000009471 action Effects 0.000 claims description 73
- 230000005012 migration Effects 0.000 claims description 26
- 238000013508 migration Methods 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 230000009916 joint effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000003139 buffering effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 abstract description 4
- 241000282376 Panthera tigris Species 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的效用感知的协作服务缓存方法,本发明为了实现边缘计算环境中最小化应用服务供应商成本,并最大限度地减少服务延迟,首先将协作式服务缓存问题建模成一个多智能体联合多臂老虎机模型,之后提出了一个基于多智能体强化学习的效用感知的协作服务缓存方案。该方案能协调多个边缘服务器做出动态的联合缓存决策,目的是使整个系统的长期效用最大化。最后,将本发明提出的策略与其他策略在不同实验参数下进行对比,证明了本发明的有效性。
Description
技术领域
本发明涉及移动边缘计算领域,尤其涉及一种基于多智能体强化学习的效用感知的协作服务缓存方法。
背景技术
在边缘计算环境中,应用服务提供商可以租用边缘服务器的资源来缓存他们的服务项目,从而大大减少用户请求和核心网络流量的服务延迟。然而,应用服务提供商租用边缘服务器的资源会产生服务成本。因此,如何找到一个动态的服务缓存方法,使服务成本最小化,并最大限度地减少服务延迟,是一个关键问题。
发明内容
为了解决背景技术中存在的问题,本发明将多个边缘服务器相互协作来缓存服务项目,并将协作式服务缓存问题表述为一个多智能体联合多臂老虎机问题。
本发明具体采用的技术方案如下:
S1.建立系统模型:
本发明中提出的边缘系统由n个边缘服务器组成,这些边缘服务器通过局域网或有线网实现点对点连接,形成一个连接图G(eNB,E)。其中eNB={eNB1,...,eNBi,...,eNBn}表示n个边缘服务器的集合,这些边缘服务器通过核心网络连接到远程云。E={e(eNBi,eNBj)|eNBi,eNBj∈eNB}表示边的集合。若e(eNBi,eNBj)=1,表示边缘服务器eNBi和eNBj之间有一条直连的边。
每个边缘服务器eNBi有一个本地存储空间,其大小为Pi。定义服务供应商提供的服务项集合为每个服务项目f的大小为Df。由于边缘服务器存储容量有限,故其只能缓存服务供应商提供的部分服务。边缘服务器之间可以共享缓存的服务项。这意味着当移动用户需要的服务项在本地边缘服务器上没有被缓存时,可以从其他缓存该服务项的边缘服务器上获取。如果所需的服务项没有缓存在任何可用的边缘服务器上,或者从边缘服务器获取所需服务项的时延比从远程云获取的时延长,那么可以从远程云获取服务项。
边缘系统采用了离散时间模型,并在逻辑上将时间范围划分为连续相等的多个时间片Tslot。时间片索引的集合可以用T={0,1,...,τ,...}来表示。在每个时间片τ,不同类型的服务项请求到达不同的边缘服务器。
假设每个边缘服务器eNBi的请求到达过程遵循泊松过程,请求达到预期速率为λi=E(ai(τ))。A(τ)=(a1(τ),...,ai(τ),...,an(τ))表示在时间片τ请求到达n个边缘服务器。设表示在时间片τ向边缘服务器eNBi请求服务项f的次数,它是一个独立同分布的随机变量,其平均值为B(τ)=表示在时间片τ向n个边缘服务器请求服务项f的次数。
此外,每个边缘服务器eNBi对不同类型服务项的访问模式遵循Zipf的分布。因此,在时间片τ中对服务项f的请求期望次数是请求到达期望次数λi的函数,即其中是服务项f在边缘服务器eNBi受欢迎的等级,γi是第i个边缘服务器的ZipF分布参数。
S2.建立多智能体联合多臂老虎机问题:将每个边缘服务器eNBi作为一个智能体,与系统环境进行交互。每个服务项f∈F作为多臂老虎机的一根拉杆。在每个时间片τ中,边缘服务器eNBi是否缓存服务项f∈F作为动作如果表示边缘服务器eNBi需要在时间片τ缓存服务项f。在不同的时间片,边缘服务器eNBi缓存服务项f获得的效用是不同的。基于这些历史效用值,可以计算出边缘服务器eNBi缓存服务项f获得的经验平均效用
每个边缘服务器eNBi可以同时缓存几个服务项。边缘服务器eNBi在时间片τ上对每个服务项f∈F的缓存动作被视为边缘服务器eNBi的超级动作。因此,每个边缘服务器eNBi的超级动作μi(τ)可以用表示。
所有边缘服务器在时间片τ对所有服务项的缓存动作被视为联合超级动作,用μ(τ)=[μ1(τ),μ2(τ),...,μi(τ),...,μn(τ)]表示。
S3.定义效用函数:
为了使总的服务时延减少最大化和总的服务成本最小化,本发明将效用函数定义为服务时延减少和服务成本的加权和。由Δ(μ(τ))表示时间片τ中减少的总服务时延,C(μ(τ))表示在时间片τ中总的服务成本。
定义时间片τ中,做出联合超级动作μ(τ)的总效用U(μ(τ))=ω1Δ(μ(τ))-ω2C(μ(τ))。ω1和ω2分别是对应的加权系数。接下来将分别介绍如何计算时间片τ中减少的总服务时延和总服务成本。
S31.计算减少服务时延:
当请求的服务项在本地边缘服务器上没有缓存时,它们可以从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生传输时延。
边缘服务器eNBi在时间片τ中获取所请求的服务项f∈F的服务时延用表示,其中 表示所需服务项f∈F在时间片τ-1中是否被缓存在边缘服务器eNBi上。当时,表示所需的服务项f在时间片τ-1中没有被缓存在边缘服务器eNBi上。因此,当边缘服务器eNBi在时间片τ中需要服务项f时,它需要从其他边缘服务器或远程云中获取。是边缘服务器eNBi在时间片τ中获得所需服务项f的最低时延。是服务项f在边缘服务器eNBi和eNBj之间的传输时延。是边缘服务器eNBi从远程云获取所需服务项f的传输时延。
S32.计算服务成本:服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成。服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销。服务迁移成本是衡量从远程云或其他边缘服务器获取服务的开销。QoS惩罚成本是由于服务响应时延超过了限制时间而产生的。
由C(μf(τ))表示所有边缘服务器在时间片τ中选择联合动作μf(τ)的服务成本。Csg(μf(τ))、Cmg(μf(τ))和Cpl(μf(τ))分别表示联合动作μf(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本。将C(μf(τ))定义为Csg(μf(τ))、Cmg(μf(τ))和Cpl(μf(τ))在时间片τ中的加权和,表示为C(μf(τ))=ω2Csg(μf(τ))+ω3Cmg(μf(τ))+ω4Cpl(μf(τ))。所以在时间片τ中联合超级动作μ(τ)的总服务成本为C(μ(τ))=∑f∈FC(μf(τ))。
为了计算联合动作μf(τ)的服务成本和联合超级动作μ(τ)的总服务成本,本发明按如下方法进一步计算出服务缓存成本、服务迁移成本和服务惩罚成本。
S321.计算服务缓存成本:
为了减少服务的获取时延,可以在边缘服务器上缓存部分流行的服务项。由于应用服务提供商需要租用边缘服务器的存储资源来缓存服务项,这里引入了服务缓存成本,它可以根据应用服务提供商租用的存储空间的大小来计算得到。所有边缘服务器选择的联合动作μf(τ)的服务缓存成本Csg(μf(τ))可以通过计算,其中csg是租用边缘服务器存储资源的单位成本。
S322.计算服务迁移成本:
当所需的服务项不在本地边缘服务器上缓存时,它们需要从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生服务迁移成本。使用ccs和css分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本。
在时间片τ中,如果边缘服务器eNBi从其他边缘服务器获取所需服务项的传输时延高于从远程云获取,边缘服务器eNBi将直接从远程云获取服务项,请求的服务项来源被表示为其中表示边缘服务器eNBi从其他边缘服务器获取到所需的服务项。否则,边缘服务器eNBi从远程云获取所需的服务项。因此,由所有边缘服务器选择的联合动作μf(τ)的服务迁移成本Cmg(μf(τ))可以通过 计算。
S323.计算服务惩罚成本:
设获取所需服务项的时延约束是Lmax。当边缘服务器eNBi获取所需服务项的时延长于Lmax时,边缘服务器eNBi将受到服务质量惩罚。使用表示边缘服务器eNBi在获取所需服务项时是否受到服务质量惩罚。使用cp表示由QoS惩罚产生的单位成本。因此,所有边缘服务器选择的联合动作μf(τ)的QoS惩罚成本Cpl(μf(τ))可以通过计算,其中
S4.策略实现:基于以上描述,本发明提出的协作服务缓存问题可表述如下:
Maximize:U(μ(τ))
在该问题中,每个边缘服务器被视为一个智能体,并且多个边缘服务器相互协作,为用户请求提供服务。为了解决这个问题,本发明设计了基于多智能体强化学习的效用感知协作服务缓存(utility-aware collaborative service caching,UACSC)方案,以最大化整个系统的长期效用。
在多智能体协作系统中,每个智能体学习协调他们的动作选择并提高整个系统的效用。由于系统状态的变化可由动作空间表示,本发明使用无状态的Q-learning算法来解决协作服务缓存问题。在无状态Q-leaming算法中,在执行联合超级动作μ(τ)后,每个边缘服务器eNBi通过 更新其Q值。由于联合超级动作的动作空间是指数级的,为了减少Q-leaming的动作空间,本发明引入了联合动作学习者的CUCB算法,通过学习联合动作的期望奖励而非联合超级动作的期望奖励来获取最优的缓存策略。因此,对于每个边缘服务器eNBi,可以被所取代。Q值被定义为边缘服务器eNBi观察到的联合动作(μ1f,...,μif,...,μnf)的平均奖励。由Nif(μif)表示被边缘服务器eNBi选择动作μif的次数,Nijf(μjf)表示边缘服务器eNBi选择动作μjf被边缘服务器eNBj观察到的次数,Nif(μ1f,...,μif,...,μnf)表示n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf)的次数,每个边缘服务器eNBj保存Nif(μif),Nijf(μjf)和Nif(bif)的计数。如果联合动作(μ1f,...,μif,...,μnf)被边缘服务器eNBi在时间片τ中观察到的n个边缘服务器选择,Q值将被更新为 为了得到所有基础动作的Q值,每个边缘服务器eNBi假设其他每个边缘服务器eNBj将以概率Prijf(μjf)=Nijf(μjf)/T选择基础动作μjf。因此,边缘服务器eNBi评估联合动作(μ1f,...,μ(i-1)f,μ(i+1)f,...,μnf)被其他边缘服务器选择的概率为选择基本动作μif的预期奖励可以通过计算。
为了促进开发与探索,本发明采用了修改后的CUCB算法,根据内容流行度的类Zipf分布来调整Q值。调整后的Q值可以通过 计算。其中Υ是ZipF分布参数。当Υ大时,因子1/FΥ促进开发;当n大时,则促进探索。调整后的Q值被输入到一个(α,β)-approximation oracle,以找到最佳的超级动作。由此,这个问题可以被转化为一个利益为重量为Df的0-1背包问题。它可以被表述如下:
由于0-1背包问题是NP难问题,所以很难获取到最优超级动作。为了解决该问题,本发明采用了一种贪婪算法来寻找可行解,作为(α,β)-approximation oracle的输出。可行解首先被初始化为μ′i=(0,...,0,...,0)。然后的非递增顺序为缓存决策进行编号。具体来说,可以表示为的值可由计算。最优解的数值与贪婪近似解的数值之比可以用表示,δ值估计小于或等于2。因此,超级动作μ′i的期望奖励至少是最优解期望奖励的1/2。因此,贪婪算法是一个(α,β)-approximation oracle,其中α=0.5,β=1。
作为优选,S1所述的边缘网络由8个边缘服务器组成,每台边缘服务器的存储容量在[20,60]GB之间。服务项个数为30,服务项大小在[10,30]GB之间。服务请求到达速率服从均值为100的泊松分布,边缘服务器的ZipF分布参数为0.7。
作为优选,S3中所述的任何两个边缘服务器之间的传输速率在[200,500]MB/s范围内变化。从远程云到边缘服务器传输服务项目的核心网络带宽是160Mbps。在边缘服务器上租用存储资源的单位成本为0.04。从远程云到边缘服务器的数据迁移的单位成本为0.08。边缘服务器之间的数据迁移的单位成本为0.05。服务延迟减少、服务缓存成本、服务迁移成本和服务惩罚成本的权重分别为ω1=0.003,ω2=10,ω3=1,ω4=0.2。
本发明研究了边缘计算环境中,多个边缘服务器相互协作来服务用户请求的问题。为了解决这个问题,提出了一个基于多智能体强化学习的效用感知的协作服务缓存方案。具体来说,本发明将协作服务缓存问题建模为一个多智能体联合多臂老虎机模型,将每个边缘服务器视为一个智能体,每个服务项视为一个臂,每个边缘服务器的缓存决策视为一个超级行动,并以服务延迟减少和服务成本的加权和作为效用函数,主要目标是使系统总效用最大化。
附图说明
图1为移动边缘计算环境中基于多智能体强化学习的效用感知的协作服务缓存方案的流程图;
图2为边缘协作服务缓存的系统模型图;
图3为基于多智能体强化学习的效用感知的协作服务缓存方案的奖励收敛图;
图4为本发明算法与IL和LFU算法在服务项个数变化下的对比图;
图5为本发明算法与IL和LFU算法在边缘服务器个数变化下的对比图;
图6为本发明算法与IL和LFU算法在边缘服务器存储能力变化下的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明包括以下步骤:
S1.建立系统模型:本发明中提出的边缘网络由n个边缘服务器组成,见图2,这些边缘服务器通过局域网或有线网实现点对点连接,形成一个连接图G(eNB,E)。其中eNB={eNB1,...,eNBi,...,eNBn}表示n个边缘服务器的集合,这些边缘服务器通过核心网络连接到远程云。E={e(eNBi,eNBj)|eNBi,eNBj∈eNB}表示边的集合。若e(eNBi,eNBj)=1,表示边缘服务器eNBi和eNBj之间有一条直连的边。
每个边缘服务器eNBi有一个本地存储空间,其大小为Pi。定义服务供应商提供的服务项集合为每个服务项目f的大小为Df。由于边缘服务器存储容量有限,故其只能缓存服务供应商提供的部分服务。边缘服务器之间可以共享缓存的服务项。这意味着当移动用户需要的服务项在本地边缘服务器上没有被缓存时,可以从其他缓存该服务项的边缘服务器上获取。如果所需的服务项没有缓存在任何可用的边缘服务器上,或者从边缘服务器获取所需服务项的时延比从远程云获取的时延长,那么可以从远程云获取服务项。
在本发明的系统模型中采用了离散时间模型,并在逻辑上将时间范围划分为连续相等的多个时间片Tslot。时间片索引的集合可以用来表示。在每个时间片τ,不同类型的服务项请求到达不同的边缘服务器。假设每个边缘服务器eNBi的请求到达过程遵循泊松过程,请求达到预期速率为λi=E(ai(τ))。A(τ)=(a1(τ),...,ai(τ),...,an(τ))表示在时间片τ请求到达n个边缘服务器。表示在时间片τ向边缘服务器eNBi请求服务项f的次数,它是一个独立同分布的随机变量,其平均值为 表示在时间片τ向n个边缘服务器请求服务项f的次数。
此外,每个边缘服务器eNBi对不同类型服务项的访问模式遵循Zipf的分布。因此,在时间片τ中对服务项f的请求期望次数是请求到达期望次数λi的函数,即其中是服务项f在边缘服务器eNBi受欢迎的等级,γi是第i个边缘服务器的ZipF分布参数。
S2.建立多智能体联合多臂老虎机问题:将每个边缘服务器eNBi作为一个智能体,与系统环境进行交互。每个服务项f∈F作为多臂老虎机的一根拉杆。在每个时间片τ中,边缘服务器eNBi是否缓存服务项f∈F作为动作如果表示边缘服务器eNBi需要在时间片τ缓存服务项f。在不同的时间片,边缘服务器eNBi缓存服务项f获得的效用是不同的。基于这些历史效用值,可以计算出边缘服务器eNBi缓存服务项f获得的经验平均效用每个边缘服务器eNBi可以同时缓存几个服务项。
边缘服务器eNBi在时间片τ上对每个服务项f∈F的缓存动作被视为边缘服务器eNBi的超级动作。因此,每个边缘服务器eNBi的超级动作μi(τ)可以用表示。由于边缘服务器的存储容量有限,在每个时间片τ,边缘服务器eNBi上缓存的服务项大小不能超过边缘服务器的存储容量。这个约束条件可以用来表示。
所有边缘服务器在时间片τ对服务项f∈F的缓存动作被视为一个联合动作,用表示。所有边缘服务器在时间片τ对所有服务项的缓存动作被视为联合超级动作,用μ(τ)=[μ1(τ),μ2(τ),...,μi(τ),...,μn(τ)]表示。
S3.定义效用函数:为了使总的服务时延减少最大化和总的服务成本最小化,本发明将效用函数定义为服务时延减少和服务成本的加权和。由Δ(μ(τ))表示时间片τ中减少的总服务时延,C(μ(τ))表示在时间片τ中总的服务成本。定义时间片τ中,做出联合超级动作μ(τ)的总效用U(μ(τ))=ω1Δ(μ(τ))-ω2C(μ(τ))。ω1和ω2分别是对应的加权系数。接下来将分别介绍如何计算时间片τ中减少的总服务时延和总服务成本。
S31.计算减少服务时延:
当请求的服务项在本地边缘服务器上没有缓存时,它们可以从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生传输时延。边缘服务器eNBi在时间片τ中获取所请求的服务项f∈F的服务时延用表示,其中 表示所需服务项f∈F在时间片τ-1中是否被缓存在边缘服务器eNBi上。兰时,表示所需的服务项f在时间片τ-1中没有被缓存在边缘服务器eNBi上。因此,当边缘服务器eNBi在时间片τ中需要服务项f时,它需要从其他边缘服务器或远程云中获取。是边缘服务器eNBi在时间片τ中获得所需服务项f的最低时延。是服务项f在边缘服务器eNBi和eNBj之间的传输时延。是边缘服务器eNBi从远程云获取所需服务项f的传输时延。在时间片τ中,由所有边缘服务器选择的联合动作μf的服务时延减少可以通过计算。联合超级动作μ(τ)在时间片τ中的总服务时延减少可以通过Δ(μ(τ))=∑f∈FΔf计算。
S32.计算服务成本:
服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成。服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销。服务迁移成本是衡量从远程云或其他边缘服务器获取服务的开销。QoS惩罚成本是由于服务响应时延超过了限制时间而产生的。
由C(μf(τ))表示所有边缘服务器在时间片τ中选择联合动作μf(τ)的服务成本。Csg(μf(τ))、Cmg(μf(τ))和Cpl(μf(τ))分别表示联合动作μf(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本。将C(μf(τ))定义为Csg(μf(τ))、Cmg(μf(τ))和Cpl(μf(τ))在时间片τ中的加权和,表示为C(μf(τ))=ω2Csg(μf(τ))+ω3Cmg(μf(v))+ω4Cpl(μf(τ))。所以在时间片τ中联合超级动作μ(τ)的总服务成本为C(μ(τ))=∑f∈FC(μf(τ))。为了计算联合动作μf(τ)的服务成本和联合超级动作μ(τ)的总服务成本,本发明按如下方法进一步计算出服务缓存成本、服务迁移成本和服务惩罚成本。
S321.计算服务缓存成本:为了减少服务的获取时延,可以在边缘服务器上缓存部分流行的服务项。由于应用服务提供商需要租用边缘服务器的存储资源来缓存服务项,这里引入了服务缓存成本,它可以根据应用服务提供商租用的存储空间的大小来计算得到。所有边缘服务器选择的联合动作μf(τ)的服务缓存成本Csg(μf(τ))可以通过计算,其中csg是租用边缘服务器存储资源的单位成本。
S322.计算服务迁移成本:当所需的服务项不在本地边缘服务器上缓存时,它们需要从其他边缘服务器或远程云中获取。然而,从其他边缘服务器或远程云获取所需的服务项会产生服务迁移成本。使用ccs和css分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本。在时间片τ中,如果边缘服务器eNBi从其他边缘服务器获取所需服务项的传输时延高于从远程云获取,边缘服务器eNBi将直接从远程云获取服务项,请求的服务项来源被表示为 其中表示边缘服务器eNBi从其他边缘服务器获取到所需的服务项。否则,边缘服务器eNBi从远程云获取所需的服务项。因此,由所有边缘服务器选择的联合动作μf(τ)的服务迁移成本Cmg(μf(τ))可以通过计算。
S323.计算服务惩罚成本:设获取所需服务项的时延约束是Lmax。当边缘服务器eNBi获取所需服务项的时延长于Lmax时,边缘服务器eNBi将受到服务质量惩罚。使用表示边缘服务器eNBi在获取所需服务项时是否受到服务质量惩罚。使用cp表示由QoS惩罚产生的单位成本。因此,所有边缘服务器选择的联合动作μf(τ)的QoS惩罚成本Cpl(μf(τ))可以通过计算,其中
S4.策略实现:基于以上描述,本发明提出的协作服务缓存问题可表述如下:
Maximize:U(μ(τ))
在该问题中,每个边缘服务器被视为一个智能体,并且多个边缘服务器相互协作,为用户请求提供服务。为了解决这个问题,本发明设计了基于多智能体强化学习的效用感知协作服务缓存(utility-aware collaborative service caching,UACSC)方案,以最大化整个系统的长期效用。在多智能体系统中,每个智能体学习协调他们的动作选择并提高整个系统的效用。由于系统状态的变化可由动作空间表示,本发明使用无状态的Q-learning算法来解决协作服务缓存问题。在无状态Q-learning算法中,在执行联合超级动作μ(τ)后,每个边缘服务器eNBi通过 更新其Q值。由于联合超级动作的动作空间是指数级的,为了减少Q-learning的动作空间,本发明引入了联合动作学习者的CUCB算法,通过学习联合动作的期望奖励而非联合超级动作的期望奖励来获取最优的缓存策略。因此,对于每个边缘服务器eNBi,可以被所取代。Q值被定义为边缘服务器eNBi观察到的联合动作(μ1f,...,μif,...,μnf)的平均奖励。由Nif(μif)表示被边缘服务器eNBi选择动作μif的次数,Nijf(μjf)表示边缘服务器eNBi选择动作μjf被边缘服务器eNBj观察到的次数,Nif(μ1f,...,μif,...,μnf)表示n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf)的次数,每个边缘服务器eNBj保存Nif(μif),Nijf(μjf)和Nif(bif)的计数。如果联合动作(μ1f,...,μif,...,μnf)被边缘服务器eNBi在时间片τ中观察到的n个边缘服务器选择,Q值将被更新为
为了得到所有基础动作的Q值,每个边缘服务器eNBi假设其他每个边缘服务器eNBj将以概率Prijf(μjf)=Nijf(μjf)/T选择基础动作μjf。因此,边缘服务器eNBi评估联合动作(μ1f,...,μ(i-1)f,μ(i+1)f,...,μnf)被其他边缘服务器选择的概率为选择基本动作μif的预期奖励:
为了促进开发与探索,本发明采用了修改后的CUCB算法,根据内容流行度的类Zipf分布来调整Q值。调整后的Q值可以通过 计算。其中Υ是ZipF分布参数。当Υ大时,因子1/FΥ促进开发;当n大时,则促进探索。调整后的Q值被输入到一个(α,β)-approximation oracle,以找到最佳的超级动作。由此,这个问题可以被转化为一个利益为重量为Df的0-1背包问题。它可以被表述如下:
由于0-1背包问题是NP难问题,所以很难获取到最优超级动作。为了解决该问题,本发明采用了一种贪婪算法来寻找可行解,作为(α,β)-approximation oracle的输出。可行解首先被初始化为μ′i=(0,...,0,...,0)。然后以的非递增顺序为缓存决策进行编号。具体来说,可以表示为的值可由计算。最优解的数值与贪婪近似解的数值之比可以用表示,δ值估计小于或等于2。因此,超级动作μ′i的期望奖励至少是最优解期望奖励的1/2。因此,贪婪算法是一个(α,β)-approximation oracle,其中α=0.5,β=1。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。下面就对比算法的实施和实施结果进行展示:
本发明还实现了IL(Independent Learners)和LFU(Least Frequently Used)两个基线算法。其中IL算法将每个边缘服务器视为一个智能体,每个智能体独立学习自己的超级行动。LFU算法在边缘服务器中缓存最频繁被请求的服务项。并将这两个基线算法与UACSC策略进行对比,并且分别就服务项个数、边缘服务器个数和边缘服务器存储能力对奖励的影响进行评估。
图3中显示了UACSC策略在包含8个边缘服务器的边缘网络中,对30个服务项进行服务缓存的学习曲线。可以观察到随着学习时间的增加,奖励逐渐上升并趋于稳定。这一现象表明本发明提出的UACSC策略可以学习到一个较优的服务缓存策略,使得整个系统的长期效用最大化。
为了研究服务项个数变化对奖励的影响,将服务项个数分别设置为10、20、30、40。图4显示了在服务项个数变化时三种策略的奖励变化。从图中可以观察到三种策略随着服务项个数的增加,奖励下降。其原因在于服务项个数增多,使得服务请求种类增多,导致从云上请求服务的次数增加,节省时间下降。另外在三种策略中,随着服务个数的增加,总成本将会上升。其主要原因在于边缘网络中的存储能力不变,缓存成本的波动不大。但是从云上请求服务的次数增加,导致了迁移成本和惩罚成本的上升。最后,还可以观察得到在服务个数变化时,UACSC策略的奖励优于其他两种算法。
为了研究边缘服务器个数变化对奖励的影响,分别设置边缘服务器个数为6、7、8和9。图5显示了三种策略在边缘服务器个数变化时奖励的变化情况。从图中可以观察得到在三种策略中,奖励随着边缘服务器个数的增加总体呈增大趋势。其主要原因在于边缘服务器个数增加的同时,边缘网络中接受到的总的服务请求数会增加,使得总的节省时间上升。另外,边缘网络中服务器个数的增加,也将使得整个系统的存储能力上升,边缘服务器可以从其他边缘服务器上获取服务,这也将大大节省服务响应时间。但是服务成本随着边缘服务器个数的增加也在增加,这是因为系统的存储能力上升,将会导致更高的服务缓存成本,但是服务时延的减少带来的效用更大。最后,还可以观察到UACSC算法在边缘服务器个数变化时的奖励优于其他两种算法。
为了研究边缘服务器存储能力大小对奖励的影响,分别设置边缘服务器存储能力为40、45、50和55GB。图6显示了三种策略在边缘服务器存储能力变化时奖励的变化情况。从图中可以观察到随着边缘服务器存储能力的上升,三种策略的奖励也随之增大。其主要原因在于服务器存储能力上升,边缘网络中的存储能力上升,使得边缘网络中可以缓存更多的服务,减少了从云上请求服务的次数。虽然系统中总的存储能力提升将会产生更多的存储成本,但是服务时延的减少带来的效用更大。最后,也可以观察得到在边缘服务器存储能力变化时,UACSC算法的奖励优于其他两种算法。
Claims (4)
1.基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于该方法包括以下步骤:
S1.建立系统模型:
设边缘系统由n个边缘服务器组成,这些边缘服务器通过局域网连接,形成一个连接图G(eNB,E);其中eNB={eNB1,...,eNBi,...,eNBn}表示n个边缘服务器的集合,这些边缘服务器通过核心网络连接到远端云;E={e(eNBi,eNBj)|eNBi,eNBj∈eNB}表示边的集合;若e(eNBi,eNBj)=1,表示边缘服务器eNBi和eNBj之间有一条直连的边;每个边缘服务器eNBi的本地存储能力表示为Pi;
定义服务供应商提供的服务项集合为每个服务项的大小为Df;边缘服务器之间可以共享缓存的服务项,即当移动用户所需的服务项没有在本地边缘服务器上缓存时,则可从其他缓存该服务项的边缘服务器上获取;如果所需的服务项没有缓存在任何边缘服务器,或者从边缘服务器获取所需服务项的时延比从远端云获取的时延长,那么从远端云获取服务项;
边缘系统采用离散时间模型,即将一个时间段在逻辑上划分为多个连续相等的时间片;这些时间片索引的集合用来表示,每个时间片的大小为Tslot;在任意时间片τ内,不同类型的服务项请求分别到达不同的边缘服务器;假设在任意边缘服务器eNBi上,请求的到达过程服从参数为λi的泊松分布,其中参数λi=E(ai(τ));A(τ)=(a1(τ),...,ai(τ),...,an(τ))表示在时间片τ内到达n个边缘服务器的请求数;
设表示在时间片τ内边缘服务器eNBi请求服务项的次数,它是一个独立同分布的随机变量,其平均值为表示在时间片τ内n个边缘服务器请求服务项的次数;每个边缘服务器eNBi对不同类型服务项的请求服从参数为γi的Zipf分布;
S2.建立多智能体联合多臂老虎机问题:
将每个边缘服务器eNBi作为一个多臂老虎机,与系统环境进行交互;每个服务项作为多臂老虎机的一根拉杆;在每个时间片τ中,边缘服务器eNBi是否缓存服务项作为是否选中拉杆的动作如果表示边缘服务器eNBi需要在时间片τ缓存服务项f;每个边缘服务器eNBi可以同时缓存多个服务项;
在时间片τ内,n个边缘服务器对所有服务项的缓存动作作为联合超级动作μ(τ)=[μ1(τ),μ2(τ),...,μi(τ),...,μn(τ)];
S3.定义效用函数:
将效用函数定义为服务时延减少和服务成本的加权和;在时间片τ中,边缘系统做出联合超级动作μ(τ)的总效用表示为U(μ(τ))=ω1Δ(μ(τ))-ω2C(μ(τ));其中ω1和ω2分别是服务时延减少和服务成本的权重系数,Δ(μ(τ))表示在时间片τ中服务时延减少,C(μ(τ))表示在时间片τ中的服务成本;
S31.计算服务时延减少:
其中 表示在时间片τ-1中服务项是否被缓存在边缘服务器eNBi上;当时,表示在时间片τ-1中,服务项f没有被缓存在边缘服务器eNBi上;表示在时间片τ中边缘服务器eNBi获得服务项f的最小时延;表示边缘服务器eNBi从边缘服务器eNBj获取服务项f的传输时延;表示边缘服务器eNBi从远端云获取服务项f的传输时延;
S32.计算服务成本:
服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成;服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销;服务迁移成本是衡量从远端云或其他边缘服务器获取服务的开销;QoS惩罚成本是由于服务响应时延超过了限制时间而产生的;
在时间片τ中,所有边缘服务器选择联合动作μf(τ)的服务成本为C(μf(τ));C(μf(τ))被定义为Csg(μf(τ))、Cmg(μf(τ))和Cpl(μf(τ))的加权和,即C(μf(τ))=ω2Csg(μf(τ))+ω3Cmg(μf(τ))+ω4Cpl(μf(τ)),其中Csg(μf(τ))、Cmg(μf(τ))和Cpl(μf(τ))分别表示联合动作μf(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本;
在时间片τ中,所有边缘服务器选择联合超级动作μ(τ)的总服务成本为C(μ(τ))=∑f∈ FC(μf(τ));
S321.计算服务缓存成本:
S322.计算服务迁移成本:
ccs和css分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本;在时间片τ中,当边缘服务器eNBi从其他边缘服务器获取所需服务项的传输时延高于远端云,边缘服务器eNBi将直接从远端云获取服务项请求的服务项来源被表示为:
S323.计算服务惩罚成本:
获取服务项的时延约束为Lmax;当边缘服务器eNBi获取所需服务项的时延大于Lmax时,边缘服务器eNBi将受到服务质量惩罚;使用表示边缘服务器eNBi在获取所需服务项时是否受到服务质量惩罚;cp表示服务质量惩罚的单位成本;
S4.将协作服务缓存问题表述如下:
Maximize:U(μ(τ))
采用无状态的Q-learning算法求解上述问题。
2.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于:所述无状态的Q-learning算法求解协作服务缓存问题,具体是:
其中Nif(μ1f,...,μif,...,μnf)表示n个边缘服务器选择联合动作(μ1f,...,μif,...,μnf)的次数;
步骤2:每个边缘服务器eNBi假设其他边缘服务器eNBj以概率Prijf(μjf)=Nijf(μjf)/T选择基础动作μjf,其中Nijf(μjf)表示边缘服务器eNBi选择动作μjf被边缘服务器eNBj观察到的次数;边缘服务器eNBi评估其他边缘服务器选择联合动作(μ1f,...,μ(i-1)f,μ(i+1)f,...μnf)的概率为边缘服务器eNBi选择基础动作μif的值为:
3.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于:S1所述的边缘网络由8个边缘服务器组成,每台边缘服务器的存储容量在[20,60]GB之间;服务项个数为30,服务项大小在[10,30]GB之间;服务请求到达速率服从均值为100的泊松分布,边缘服务器的ZipF分布参数为0.7。
4.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法,其特征在于:S3中所述的任何两个边缘服务器之间的传输速率在[200,500]MB/s范围内变化;从远端云到边缘服务器传输服务项目的核心网络带宽是160Mbps;在边缘服务器上租用存储资源的单位成本为0.04;从远端云到边缘服务器的数据迁移的单位成本为0.08;边缘服务器之间的数据迁移的单位成本为0.05;服务延迟减少、服务缓存成本、服务迁移成本和服务惩罚成本的权重分别为ω1=0.003,ω2=10,ω3=1,ω4=0.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111298648.8A CN114172960B (zh) | 2021-11-04 | 2021-11-04 | 基于多智能体强化学习的效用感知的协作服务缓存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111298648.8A CN114172960B (zh) | 2021-11-04 | 2021-11-04 | 基于多智能体强化学习的效用感知的协作服务缓存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114172960A true CN114172960A (zh) | 2022-03-11 |
CN114172960B CN114172960B (zh) | 2024-02-02 |
Family
ID=80477973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111298648.8A Active CN114172960B (zh) | 2021-11-04 | 2021-11-04 | 基于多智能体强化学习的效用感知的协作服务缓存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114172960B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN113110915A (zh) * | 2021-04-06 | 2021-07-13 | 杭州电子科技大学 | 移动边缘计算环境中自主学习的服务缓存策略 |
-
2021
- 2021-11-04 CN CN202111298648.8A patent/CN114172960B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN113110915A (zh) * | 2021-04-06 | 2021-07-13 | 杭州电子科技大学 | 移动边缘计算环境中自主学习的服务缓存策略 |
Non-Patent Citations (1)
Title |
---|
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07 * |
Also Published As
Publication number | Publication date |
---|---|
CN114172960B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684075B (zh) | 一种基于边缘计算和云计算协同进行计算任务卸载的方法 | |
CN112486690B (zh) | 一种适用于工业物联网的边缘计算资源分配方法 | |
He et al. | QoE-driven content-centric caching with deep reinforcement learning in edge-enabled IoT | |
CN111258762B (zh) | 一种动态周期的媒体服务器负载均衡算法 | |
CN110417847B (zh) | 无人机通信网络用户接入和内容缓存的方法及装置 | |
CN112134916A (zh) | 一种基于深度强化学习的云边协同计算迁移方法 | |
US20190260845A1 (en) | Caching method, system, device and readable storage media for edge computing | |
CN111694636B (zh) | 一种面向边缘网络负载均衡的电力物联网容器迁移方法 | |
CN113115368B (zh) | 基于深度强化学习的基站缓存替换方法、系统及存储介质 | |
CN104821961B (zh) | 一种基于节点社团重要度的icn缓存方法 | |
CN107949038B (zh) | 一种基于ahp和相似度的网络选择方法 | |
CN108684046A (zh) | 一种基于随机学习的接入网服务功能链部署方法 | |
CN104507124A (zh) | 一种基站缓存的管理方法及用户访问的处理方法 | |
CN114328291A (zh) | 一种工业互联网边缘服务缓存决策方法及系统 | |
CN113873534A (zh) | 一种雾计算中区块链协助的联邦学习主动内容缓存方法 | |
CN112256413A (zh) | 基于物联网的边缘计算任务的调度方法和装置 | |
CN116321307A (zh) | 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法 | |
CN109951317B (zh) | 一种基于用户驱动的流行度感知模型的缓存替换方法 | |
Shi et al. | Content caching policy for 5g network based on asynchronous advantage actor-critic method | |
CN114172960A (zh) | 基于多智能体强化学习的效用感知的协作服务缓存方法 | |
CN117499484A (zh) | 一种基于深度强化学习的边缘缓存替换方法 | |
CN113596138B (zh) | 一种基于深度强化学习的异构信息中心网络缓存分配方法 | |
CN108809728B (zh) | 内容分发网络数据转发方法和内容分发网络数据转发系统 | |
CN116362345A (zh) | 基于多智能体强化学习和联邦学习的边缘缓存方法及系统 | |
CN113110915A (zh) | 移动边缘计算环境中自主学习的服务缓存策略 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |