CN114172960A

CN114172960A - 基于多智能体强化学习的效用感知的协作服务缓存方法

Info

Publication number: CN114172960A
Application number: CN202111298648.8A
Authority: CN
Inventors: 黄彬彬; 项媛媛; 俞东进
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-11
Anticipated expiration: 2041-11-04
Also published as: CN114172960B

Abstract

本发明公开了一种基于多智能体强化学习的效用感知的协作服务缓存方法，本发明为了实现边缘计算环境中最小化应用服务供应商成本，并最大限度地减少服务延迟，首先将协作式服务缓存问题建模成一个多智能体联合多臂老虎机模型，之后提出了一个基于多智能体强化学习的效用感知的协作服务缓存方案。该方案能协调多个边缘服务器做出动态的联合缓存决策，目的是使整个系统的长期效用最大化。最后，将本发明提出的策略与其他策略在不同实验参数下进行对比，证明了本发明的有效性。

Description

基于多智能体强化学习的效用感知的协作服务缓存方法

技术领域

本发明涉及移动边缘计算领域，尤其涉及一种基于多智能体强化学习的效用感知的协作服务缓存方法。

背景技术

在边缘计算环境中，应用服务提供商可以租用边缘服务器的资源来缓存他们的服务项目，从而大大减少用户请求和核心网络流量的服务延迟。然而，应用服务提供商租用边缘服务器的资源会产生服务成本。因此，如何找到一个动态的服务缓存方法，使服务成本最小化，并最大限度地减少服务延迟，是一个关键问题。

发明内容

为了解决背景技术中存在的问题，本发明将多个边缘服务器相互协作来缓存服务项目，并将协作式服务缓存问题表述为一个多智能体联合多臂老虎机问题。

本发明具体采用的技术方案如下：

S1.建立系统模型：

本发明中提出的边缘系统由n个边缘服务器组成，这些边缘服务器通过局域网或有线网实现点对点连接，形成一个连接图G(eNB，E)。其中eNB＝{eNB₁，...，eNB_i，...，eNB_n}表示n个边缘服务器的集合，这些边缘服务器通过核心网络连接到远程云。E＝{e(eNB_i，eNB_j)|eNB_i，eNB_j∈eNB}表示边的集合。若e(eNB_i，eNB_j)＝1，表示边缘服务器eNB_i和eNB_j之间有一条直连的边。

每个边缘服务器eNB_i有一个本地存储空间，其大小为P_i。定义服务供应商提供的服务项集合为

每个服务项目f的大小为D_f。由于边缘服务器存储容量有限，故其只能缓存服务供应商提供的部分服务。边缘服务器之间可以共享缓存的服务项。这意味着当移动用户需要的服务项在本地边缘服务器上没有被缓存时，可以从其他缓存该服务项的边缘服务器上获取。如果所需的服务项没有缓存在任何可用的边缘服务器上，或者从边缘服务器获取所需服务项的时延比从远程云获取的时延长，那么可以从远程云获取服务项。

边缘系统采用了离散时间模型，并在逻辑上将时间范围划分为连续相等的多个时间片T_slot。时间片索引的集合可以用T＝{0，1，...，τ，...}来表示。在每个时间片τ，不同类型的服务项请求到达不同的边缘服务器。

假设每个边缘服务器eNB_i的请求到达过程遵循泊松过程，请求达到预期速率为λ_i＝E(a_i(τ))。A(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ))表示在时间片τ请求到达n个边缘服务器。设

表示在时间片τ向边缘服务器eNB_i请求服务项f的次数，它是一个独立同分布的随机变量，其平均值为

B(τ)＝

表示在时间片τ向n个边缘服务器请求服务项f的次数。

此外，每个边缘服务器eNB_i对不同类型服务项的访问模式遵循Zipf的分布。因此，在时间片τ中对服务项f的请求期望次数

是请求到达期望次数λ_i的函数，即

其中

是服务项f在边缘服务器eNB_i受欢迎的等级，γ_i是第i个边缘服务器的ZipF分布参数。

S2.建立多智能体联合多臂老虎机问题：将每个边缘服务器eNB_i作为一个智能体，与系统环境进行交互。每个服务项f∈F作为多臂老虎机的一根拉杆。在每个时间片τ中，边缘服务器eNB_i是否缓存服务项f∈F作为动作

如果

表示边缘服务器eNB_i需要在时间片τ缓存服务项f。在不同的时间片，边缘服务器eNB_i缓存服务项f获得的效用是不同的。基于这些历史效用值，可以计算出边缘服务器eNB_i缓存服务项f获得的经验平均效用

每个边缘服务器eNB_i可以同时缓存几个服务项。边缘服务器eNB_i在时间片τ上对每个服务项f∈F的缓存动作被视为边缘服务器eNB_i的超级动作。因此，每个边缘服务器eNB_i的超级动作μ_i(τ)可以用

表示。

由于边缘服务器的存储容量有限，在每个时间片τ，边缘服务器eNB_i上缓存的服务项大小不能超过边缘服务器的存储容量。这个约束条件可以用

来表示。

所有边缘服务器在时间片τ对服务项f∈F的缓存动作被视为一个联合动作，用

表示。

所有边缘服务器在时间片τ对所有服务项的缓存动作被视为联合超级动作，用μ(τ)＝[μ₁(τ)，μ₂(τ)，...，μ_i(τ)，...，μ_n(τ)]表示。

S3.定义效用函数：

为了使总的服务时延减少最大化和总的服务成本最小化，本发明将效用函数定义为服务时延减少和服务成本的加权和。由Δ(μ(τ))表示时间片τ中减少的总服务时延，C(μ(τ))表示在时间片τ中总的服务成本。

定义时间片τ中，做出联合超级动作μ(τ)的总效用U(μ(τ))＝ω₁Δ(μ(τ))-ω₂C(μ(τ))。ω₁和ω₂分别是对应的加权系数。接下来将分别介绍如何计算时间片τ中减少的总服务时延和总服务成本。

S31.计算减少服务时延：

当请求的服务项在本地边缘服务器上没有缓存时，它们可以从其他边缘服务器或远程云中获取。然而，从其他边缘服务器或远程云获取所需的服务项会产生传输时延。

边缘服务器eNB_i在时间片τ中获取所请求的服务项f∈F的服务时延用

表示，其中

表示所需服务项f∈F在时间片τ-1中是否被缓存在边缘服务器eNB_i上。当

时，表示所需的服务项f在时间片τ-1中没有被缓存在边缘服务器eNB_i上。因此，当边缘服务器eNB_i在时间片τ中需要服务项f时，它需要从其他边缘服务器或远程云中获取。

是边缘服务器eNB_i在时间片τ中获得所需服务项f的最低时延。

是服务项f在边缘服务器eNB_i和eNB_j之间的传输时延。

是边缘服务器eNB_i从远程云获取所需服务项f的传输时延。

在时间片τ中，由所有边缘服务器选择的联合动作μ^f的服务时延减少可以通过

计算。联合超级动作μ(τ)在时间片τ中的总服务时延减少可以通过Δ(μ(τ))＝∑_f∈FΔ^f计算。

S32.计算服务成本：服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成。服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销。服务迁移成本是衡量从远程云或其他边缘服务器获取服务的开销。QoS惩罚成本是由于服务响应时延超过了限制时间而产生的。

由C(μ^f(τ))表示所有边缘服务器在时间片τ中选择联合动作μ^f(τ)的服务成本。C_sg(μ^f(τ))、C_mg(μ^f(τ))和C_pl(μ^f(τ))分别表示联合动作μ^f(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本。将C(μ^f(τ))定义为C_sg(μ^f(τ))、C_mg(μ^f(τ))和C_pl(μ^f(τ))在时间片τ中的加权和，表示为C(μ^f(τ))＝ω₂C_sg(μ^f(τ))+ω₃C_mg(μ^f(τ))+ω₄C_pl(μ^f(τ))。所以在时间片τ中联合超级动作μ(τ)的总服务成本为C(μ(τ))＝∑_f∈FC(μ^f(τ))。

为了计算联合动作μ^f(τ)的服务成本和联合超级动作μ(τ)的总服务成本，本发明按如下方法进一步计算出服务缓存成本、服务迁移成本和服务惩罚成本。

S321.计算服务缓存成本：

为了减少服务的获取时延，可以在边缘服务器上缓存部分流行的服务项。由于应用服务提供商需要租用边缘服务器的存储资源来缓存服务项，这里引入了服务缓存成本，它可以根据应用服务提供商租用的存储空间的大小来计算得到。所有边缘服务器选择的联合动作μ^f(τ)的服务缓存成本C_sg(μ^f(τ))可以通过

计算，其中c_sg是租用边缘服务器存储资源的单位成本。

S322.计算服务迁移成本：

当所需的服务项不在本地边缘服务器上缓存时，它们需要从其他边缘服务器或远程云中获取。然而，从其他边缘服务器或远程云获取所需的服务项会产生服务迁移成本。使用c_cs和c_ss分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本。

在时间片τ中，如果边缘服务器eNB_i从其他边缘服务器获取所需服务项

的传输时延高于从远程云获取，边缘服务器eNB_i将直接从远程云获取服务项，请求的服务项来源被表示为

其中

表示边缘服务器eNB_i从其他边缘服务器获取到所需的服务项。否则，边缘服务器eNB_i从远程云获取所需的服务项。因此，由所有边缘服务器选择的联合动作μ^f(τ)的服务迁移成本C_mg(μ^f(τ))可以通过

计算。

S323.计算服务惩罚成本：

设获取所需服务项的时延约束是L_max。当边缘服务器eNB_i获取所需服务项的时延长于L_max时，边缘服务器eNB_i将受到服务质量惩罚。使用

表示边缘服务器eNB_i在获取所需服务项

时是否受到服务质量惩罚。使用c_p表示由QoS惩罚产生的单位成本。因此，所有边缘服务器选择的联合动作μ^f(τ)的QoS惩罚成本C_pl(μ^f(τ))可以通过

计算，其中

S4.策略实现：基于以上描述，本发明提出的协作服务缓存问题可表述如下：

Maximize：U(μ(τ))

在该问题中，每个边缘服务器被视为一个智能体，并且多个边缘服务器相互协作，为用户请求提供服务。为了解决这个问题，本发明设计了基于多智能体强化学习的效用感知协作服务缓存(utility-aware collaborative service caching，UACSC)方案，以最大化整个系统的长期效用。

在多智能体协作系统中，每个智能体学习协调他们的动作选择并提高整个系统的效用。由于系统状态的变化可由动作空间表示，本发明使用无状态的Q-learning算法来解决协作服务缓存问题。在无状态Q-leaming算法中，在执行联合超级动作μ(τ)后，每个边缘服务器eNB_i通过

更新其Q值。由于联合超级动作的动作空间是指数级的，为了减少Q-leaming的动作空间，本发明引入了联合动作学习者的CUCB算法，通过学习联合动作的期望奖励而非联合超级动作的期望奖励来获取最优的缓存策略。因此，对于每个边缘服务器eNB_i，

可以被

所取代。Q值

被定义为边缘服务器eNB_i观察到的联合动作(μ_1f，...，μ_if，...，μ_nf)的平均奖励。由N_if(μ_if)表示被边缘服务器eNB_i选择动作μ_if的次数，N_ijf(μ_jf)表示边缘服务器eNB_i选择动作μ_jf被边缘服务器eNB_j观察到的次数，N_if(μ_1f，...，μ_if，...，μ_nf)表示n个边缘服务器选择联合动作(μ_1f，...，μ_if，...，μ_nf)的次数，每个边缘服务器eNB_j保存N_if(μ_if)，N_ijf(μ_jf)和N_if(b_if)的计数。如果联合动作(μ_1f，...，μ_if，...，μ_nf)被边缘服务器eNB_i在时间片τ中观察到的n个边缘服务器选择，Q值

将被更新为

为了得到所有基础动作的Q值，每个边缘服务器eNB_i假设其他每个边缘服务器eNB_j将以概率Pr_ijf(μ_jf)＝N_ijf(μ_jf)/T选择基础动作μ_jf。因此，边缘服务器eNB_i评估联合动作(μ_1f，...，μ_(i-1)f，μ_(i+1)f，...，μ_nf)被其他边缘服务器选择的概率为

选择基本动作μ_if的预期奖励可以通过

计算。

为了促进开发与探索，本发明采用了修改后的CUCB算法，根据内容流行度的类Zipf分布来调整Q值。调整后的Q值

可以通过

计算。其中

Υ是ZipF分布参数。当Υ大时，因子1/F^Υ促进开发；当n大时，则促进探索。调整后的Q值

被输入到一个(α，β)-approximation oracle，以找到最佳的超级动作。由此，这个问题可以被转化为一个利益为

重量为D_f的0-1背包问题。它可以被表述如下：

由于0-1背包问题是NP难问题，所以很难获取到最优超级动作。为了解决该问题，本发明采用了一种贪婪算法来寻找可行解，作为(α，β)-approximation oracle的输出。可行解

首先被初始化为μ′_i＝(0，...，0，...，0)。然后

的非递增顺序为缓存决策进行编号。具体来说，可以表示为

的值可由

计算。最优解的数值与贪婪近似解的数值之比可以用

表示，δ值估计小于或等于2。因此，超级动作μ′_i的期望奖励至少是最优解期望奖励的1/2。因此，贪婪算法是一个(α，β)-approximation oracle，其中α＝0.5，β＝1。

作为优选，S1所述的边缘网络由8个边缘服务器组成，每台边缘服务器的存储容量在[20，60]GB之间。服务项个数为30，服务项大小在[10，30]GB之间。服务请求到达速率服从均值为100的泊松分布，边缘服务器的ZipF分布参数为0.7。

作为优选，S3中所述的任何两个边缘服务器之间的传输速率在[200，500]MB/s范围内变化。从远程云到边缘服务器传输服务项目的核心网络带宽是160Mbps。在边缘服务器上租用存储资源的单位成本为0.04。从远程云到边缘服务器的数据迁移的单位成本为0.08。边缘服务器之间的数据迁移的单位成本为0.05。服务延迟减少、服务缓存成本、服务迁移成本和服务惩罚成本的权重分别为ω₁＝0.003，ω₂＝10，ω₃＝1，ω₄＝0.2。

本发明研究了边缘计算环境中，多个边缘服务器相互协作来服务用户请求的问题。为了解决这个问题，提出了一个基于多智能体强化学习的效用感知的协作服务缓存方案。具体来说，本发明将协作服务缓存问题建模为一个多智能体联合多臂老虎机模型，将每个边缘服务器视为一个智能体，每个服务项视为一个臂，每个边缘服务器的缓存决策视为一个超级行动，并以服务延迟减少和服务成本的加权和作为效用函数，主要目标是使系统总效用最大化。

附图说明

图1为移动边缘计算环境中基于多智能体强化学习的效用感知的协作服务缓存方案的流程图；

图2为边缘协作服务缓存的系统模型图；

图3为基于多智能体强化学习的效用感知的协作服务缓存方案的奖励收敛图；

图4为本发明算法与IL和LFU算法在服务项个数变化下的对比图；

图5为本发明算法与IL和LFU算法在边缘服务器个数变化下的对比图；

图6为本发明算法与IL和LFU算法在边缘服务器存储能力变化下的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步详细说明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，本发明包括以下步骤：

S1.建立系统模型：本发明中提出的边缘网络由n个边缘服务器组成，见图2，这些边缘服务器通过局域网或有线网实现点对点连接，形成一个连接图G(eNB，E)。其中eNB＝{eNB₁，...，eNB_i，...，eNB_n}表示n个边缘服务器的集合，这些边缘服务器通过核心网络连接到远程云。E＝{e(eNB_i，eNB_j)|eNB_i，eNB_j∈eNB}表示边的集合。若e(eNB_i，eNB_j)＝1，表示边缘服务器eNB_i和eNB_j之间有一条直连的边。

在本发明的系统模型中采用了离散时间模型，并在逻辑上将时间范围划分为连续相等的多个时间片T_slot。时间片索引的集合可以用

来表示。在每个时间片τ，不同类型的服务项请求到达不同的边缘服务器。假设每个边缘服务器eNB_i的请求到达过程遵循泊松过程，请求达到预期速率为λ_i＝E(a_i(τ))。A(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ))表示在时间片τ请求到达n个边缘服务器。

表示在时间片τ向n个边缘服务器请求服务项f的次数。

是请求到达期望次数λ_i的函数，即

其中

如果

每个边缘服务器eNB_i可以同时缓存几个服务项。

边缘服务器eNB_i在时间片τ上对每个服务项f∈F的缓存动作被视为边缘服务器eNB_i的超级动作。因此，每个边缘服务器eNB_i的超级动作μi(τ)可以用

表示。由于边缘服务器的存储容量有限，在每个时间片τ，边缘服务器eNB_i上缓存的服务项大小不能超过边缘服务器的存储容量。这个约束条件可以用

来表示。

表示。所有边缘服务器在时间片τ对所有服务项的缓存动作被视为联合超级动作，用μ(τ)＝[μ1(τ)，μ2(τ)，...，μi(τ)，...，μn(τ)]表示。

S3.定义效用函数：为了使总的服务时延减少最大化和总的服务成本最小化，本发明将效用函数定义为服务时延减少和服务成本的加权和。由Δ(μ(τ))表示时间片τ中减少的总服务时延，C(μ(τ))表示在时间片τ中总的服务成本。定义时间片τ中，做出联合超级动作μ(τ)的总效用U(μ(τ))＝ω1Δ(μ(τ))-ω2C(μ(τ))。ω1和ω2分别是对应的加权系数。接下来将分别介绍如何计算时间片τ中减少的总服务时延和总服务成本。

S31.计算减少服务时延：

当请求的服务项在本地边缘服务器上没有缓存时，它们可以从其他边缘服务器或远程云中获取。然而，从其他边缘服务器或远程云获取所需的服务项会产生传输时延。边缘服务器eNB_i在时间片τ中获取所请求的服务项f∈F的服务时延用

表示，其中

表示所需服务项f∈F在时间片τ-1中是否被缓存在边缘服务器eNB_i上。兰

是服务项f在边缘服务器eNB_i和eNB_j之间的传输时延。

是边缘服务器eNB_i从远程云获取所需服务项f的传输时延。在时间片τ中，由所有边缘服务器选择的联合动作μ^f的服务时延减少可以通过

S32.计算服务成本：

服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成。服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销。服务迁移成本是衡量从远程云或其他边缘服务器获取服务的开销。QoS惩罚成本是由于服务响应时延超过了限制时间而产生的。

由C(μ^f(τ))表示所有边缘服务器在时间片τ中选择联合动作μ^f(τ)的服务成本。C_sg(μ^f(τ))、C_mg(μ^f(τ))和C_pl(μ^f(τ))分别表示联合动作μ^f(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本。将C(μ^f(τ))定义为C_sg(μ^f(τ))、C_mg(μ^f(τ))和C_pl(μ^f(τ))在时间片τ中的加权和，表示为C(μ^f(τ))＝ω₂C_sg(μ^f(τ))+ω₃C_mg(μ^f(v))+ω₄C_pl(μ^f(τ))。所以在时间片τ中联合超级动作μ(τ)的总服务成本为C(μ(τ))＝∑_f∈FC(μ^f(τ))。为了计算联合动作μ^f(τ)的服务成本和联合超级动作μ(τ)的总服务成本，本发明按如下方法进一步计算出服务缓存成本、服务迁移成本和服务惩罚成本。

S321.计算服务缓存成本：为了减少服务的获取时延，可以在边缘服务器上缓存部分流行的服务项。由于应用服务提供商需要租用边缘服务器的存储资源来缓存服务项，这里引入了服务缓存成本，它可以根据应用服务提供商租用的存储空间的大小来计算得到。所有边缘服务器选择的联合动作μ^f(τ)的服务缓存成本C_sg(μ^f(τ))可以通过

计算，其中c_sg是租用边缘服务器存储资源的单位成本。

S322.计算服务迁移成本：当所需的服务项不在本地边缘服务器上缓存时，它们需要从其他边缘服务器或远程云中获取。然而，从其他边缘服务器或远程云获取所需的服务项会产生服务迁移成本。使用c_cs和c_ss分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本。在时间片τ中，如果边缘服务器eNB_i从其他边缘服务器获取所需服务项

其中

计算。

S323.计算服务惩罚成本：设获取所需服务项的时延约束是L_max。当边缘服务器eNB_i获取所需服务项的时延长于L_max时，边缘服务器eNB_i将受到服务质量惩罚。使用

表示边缘服务器eNB_i在获取所需服务项

计算，其中

Maximize：U(μ(τ))

在该问题中，每个边缘服务器被视为一个智能体，并且多个边缘服务器相互协作，为用户请求提供服务。为了解决这个问题，本发明设计了基于多智能体强化学习的效用感知协作服务缓存(utility-aware collaborative service caching，UACSC)方案，以最大化整个系统的长期效用。在多智能体系统中，每个智能体学习协调他们的动作选择并提高整个系统的效用。由于系统状态的变化可由动作空间表示，本发明使用无状态的Q-learning算法来解决协作服务缓存问题。在无状态Q-learning算法中，在执行联合超级动作μ(τ)后，每个边缘服务器eNB_i通过

更新其Q值。由于联合超级动作的动作空间是指数级的，为了减少Q-learning的动作空间，本发明引入了联合动作学习者的CUCB算法，通过学习联合动作的期望奖励而非联合超级动作的期望奖励来获取最优的缓存策略。因此，对于每个边缘服务器eNB_i，

可以被

所取代。Q值

将被更新为

选择基本动作μ_if的预期奖励：

可以通过

计算。其中

重量为D_f的0-1背包问题。它可以被表述如下：

首先被初始化为μ′_i＝(0，...，0，...，0)。然后

以

的非递增顺序为缓存决策进行编号。具体来说，可以表示为

的值可由

计算。最优解的数值与贪婪近似解的数值之比可以用

实施例

本实施例步骤与具体实施方式相同，在此不再进行赘述。下面就对比算法的实施和实施结果进行展示：

本发明还实现了IL(Independent Learners)和LFU(Least Frequently Used)两个基线算法。其中IL算法将每个边缘服务器视为一个智能体，每个智能体独立学习自己的超级行动。LFU算法在边缘服务器中缓存最频繁被请求的服务项。并将这两个基线算法与UACSC策略进行对比，并且分别就服务项个数、边缘服务器个数和边缘服务器存储能力对奖励的影响进行评估。

图3中显示了UACSC策略在包含8个边缘服务器的边缘网络中，对30个服务项进行服务缓存的学习曲线。可以观察到随着学习时间的增加，奖励逐渐上升并趋于稳定。这一现象表明本发明提出的UACSC策略可以学习到一个较优的服务缓存策略，使得整个系统的长期效用最大化。

为了研究服务项个数变化对奖励的影响，将服务项个数分别设置为10、20、30、40。图4显示了在服务项个数变化时三种策略的奖励变化。从图中可以观察到三种策略随着服务项个数的增加，奖励下降。其原因在于服务项个数增多，使得服务请求种类增多，导致从云上请求服务的次数增加，节省时间下降。另外在三种策略中，随着服务个数的增加，总成本将会上升。其主要原因在于边缘网络中的存储能力不变，缓存成本的波动不大。但是从云上请求服务的次数增加，导致了迁移成本和惩罚成本的上升。最后，还可以观察得到在服务个数变化时，UACSC策略的奖励优于其他两种算法。

为了研究边缘服务器个数变化对奖励的影响，分别设置边缘服务器个数为6、7、8和9。图5显示了三种策略在边缘服务器个数变化时奖励的变化情况。从图中可以观察得到在三种策略中，奖励随着边缘服务器个数的增加总体呈增大趋势。其主要原因在于边缘服务器个数增加的同时，边缘网络中接受到的总的服务请求数会增加，使得总的节省时间上升。另外，边缘网络中服务器个数的增加，也将使得整个系统的存储能力上升，边缘服务器可以从其他边缘服务器上获取服务，这也将大大节省服务响应时间。但是服务成本随着边缘服务器个数的增加也在增加，这是因为系统的存储能力上升，将会导致更高的服务缓存成本，但是服务时延的减少带来的效用更大。最后，还可以观察到UACSC算法在边缘服务器个数变化时的奖励优于其他两种算法。

为了研究边缘服务器存储能力大小对奖励的影响，分别设置边缘服务器存储能力为40、45、50和55GB。图6显示了三种策略在边缘服务器存储能力变化时奖励的变化情况。从图中可以观察到随着边缘服务器存储能力的上升，三种策略的奖励也随之增大。其主要原因在于服务器存储能力上升，边缘网络中的存储能力上升，使得边缘网络中可以缓存更多的服务，减少了从云上请求服务的次数。虽然系统中总的存储能力提升将会产生更多的存储成本，但是服务时延的减少带来的效用更大。最后，也可以观察得到在边缘服务器存储能力变化时，UACSC算法的奖励优于其他两种算法。

Claims

1.基于多智能体强化学习的效用感知的协作服务缓存方法，其特征在于该方法包括以下步骤：

S1.建立系统模型：

设边缘系统由n个边缘服务器组成，这些边缘服务器通过局域网连接，形成一个连接图G(eNB，E)；其中eNB＝{eNB₁，...，eNB_i，...，eNB_n}表示n个边缘服务器的集合，这些边缘服务器通过核心网络连接到远端云；E＝{e(eNB_i，eNB_j)|eNB_i，eNB_j∈eNB}表示边的集合；若e(eNB_i，eNB_j)＝1，表示边缘服务器eNB_i和eNB_j之间有一条直连的边；每个边缘服务器eNB_i的本地存储能力表示为P_i；

定义服务供应商提供的服务项集合为

每个服务项

的大小为D_f；边缘服务器之间可以共享缓存的服务项，即当移动用户所需的服务项没有在本地边缘服务器上缓存时，则可从其他缓存该服务项的边缘服务器上获取；如果所需的服务项没有缓存在任何边缘服务器，或者从边缘服务器获取所需服务项的时延比从远端云获取的时延长，那么从远端云获取服务项；

边缘系统采用离散时间模型，即将一个时间段在逻辑上划分为多个连续相等的时间片；这些时间片索引的集合用

来表示，每个时间片的大小为T_slot；在任意时间片τ内，不同类型的服务项请求分别到达不同的边缘服务器；假设在任意边缘服务器eNB_i上，请求的到达过程服从参数为λ_i的泊松分布，其中参数λ_i＝E(a_i(τ))；A(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ))表示在时间片τ内到达n个边缘服务器的请求数；

设

表示在时间片τ内边缘服务器eNB_i请求服务项

的次数，它是一个独立同分布的随机变量，其平均值为

表示在时间片τ内n个边缘服务器请求服务项

的次数；每个边缘服务器eNB_i对不同类型服务项的请求服从参数为γ_i的Zipf分布；

S2.建立多智能体联合多臂老虎机问题：

将每个边缘服务器eNB_i作为一个多臂老虎机，与系统环境进行交互；每个服务项

作为多臂老虎机的一根拉杆；在每个时间片τ中，边缘服务器eNB_i是否缓存服务项

作为是否选中拉杆

的动作

如果

表示边缘服务器eNB_i需要在时间片τ缓存服务项f；每个边缘服务器eNB_i可以同时缓存多个服务项；

在时间片τ内，边缘服务器eNB_i对每个服务项

的缓存动作被作为边缘服务器eNB_i的超级动作；每个边缘服务器eNB_i的超级动作表示为

在每个时间片τ，边缘服务器eNB_i上缓存的所有服务项大小之和不能超过边缘服务器的存储能力P_i，该约束条件表示为

在时间片τ内，n个边缘服务器对服务项

的缓存动作作为一个联合动作

在时间片τ内，n个边缘服务器对所有服务项的缓存动作作为联合超级动作μ(τ)＝[μ₁(τ)，μ₂(τ)，...，μ_i(τ)，...，μ_n(τ)]；

S3.定义效用函数：

将效用函数定义为服务时延减少和服务成本的加权和；在时间片τ中，边缘系统做出联合超级动作μ(τ)的总效用表示为U(μ(τ))＝ω₁Δ(μ(τ))-ω₂C(μ(τ))；其中ω₁和ω₂分别是服务时延减少和服务成本的权重系数，Δ(μ(τ))表示在时间片τ中服务时延减少，C(μ(τ))表示在时间片τ中的服务成本；

S31.计算服务时延减少：

当请求的服务项

在本地边缘服务器eNB_i上没有缓存时，则从其他边缘服务器或远端云获取；在时间片τ中，边缘服务器eNB_i获取服务项

的服务时延表示为：

其中

表示在时间片τ-1中服务项

是否被缓存在边缘服务器eNB_i上；当

时，表示在时间片τ-1中，服务项f没有被缓存在边缘服务器eNB_i上；

表示在时间片τ中边缘服务器eNB_i获得服务项f的最小时延；

表示边缘服务器eNB_i从边缘服务器eNB_j获取服务项f的传输时延；

表示边缘服务器eNB_i从远端云获取服务项f的传输时延；

在时间片τ中，所有边缘服务器选择联合动作μ^f的服务时延减少表示为

选择联合超级动作μ(τ)的总服务时延减少表示为Δ(μ(τ))＝∑_f∈FΔ^f；

S32.计算服务成本：

服务成本由服务缓存成本、服务迁移成本和QoS惩罚成本组成；服务缓存成本是衡量在每个时间片租用边缘服务器的存储资源所产生的开销；服务迁移成本是衡量从远端云或其他边缘服务器获取服务的开销；QoS惩罚成本是由于服务响应时延超过了限制时间而产生的；

在时间片τ中，所有边缘服务器选择联合动作μ^f(τ)的服务成本为C(μ^f(τ))；C(μ^f(τ))被定义为C_sg(μ^f(τ))、C_mg(μ^f(τ))和C_pl(μ^f(τ))的加权和，即C(μ^f(τ))＝ω₂C_sg(μ^f(τ))+ω₃C_mg(μ^f(τ))+ω₄C_pl(μ^f(τ))，其中C_sg(μ^f(τ))、C_mg(μ^f(τ))和C_pl(μ^f(τ))分别表示联合动作μ^f(τ)的服务缓存成本、服务迁移成本和QoS惩罚成本；

在时间片τ中，所有边缘服务器选择联合超级动作μ(τ)的总服务成本为C(μ(τ))＝∑_f∈ _FC(μ^f(τ))；

S321.计算服务缓存成本：

所有边缘服务器选择联合动作μ^f(τ)的服务缓存成本C_sg(μ^f(τ))通过

计算，其中c_sg是租用边缘服务器存储资源的单位成本；

S322.计算服务迁移成本：

c_cs和c_ss分别表示从云到边缘服务器和边缘服务器之间数据传输的单位成本；在时间片τ中，当边缘服务器eNB_i从其他边缘服务器获取所需服务项

的传输时延高于远端云，边缘服务器eNB_i将直接从远端云获取服务项

请求的服务项来源被表示为：

其中

表示边缘服务器eNB_i从其他边缘服务器eNB_j获取所需服务项

否则，边缘服务器eNB_i从远端云获取所需的服务项

所有边缘服务器选择联合动作μ^f(τ)的服务迁移成本为

S323.计算服务惩罚成本：

获取服务项的时延约束为L_max；当边缘服务器eNB_i获取所需服务项

的时延大于L_max时，边缘服务器eNB_i将受到服务质量惩罚；使用

表示边缘服务器eNB_i在获取所需服务项

时是否受到服务质量惩罚；c_p表示服务质量惩罚的单位成本；

所有边缘服务器选择联合动作μ^f(τ)的服务质量惩罚成本为

其中

S4.将协作服务缓存问题表述如下：

Maximize：U(μ(τ))

采用无状态的Q-learning算法求解上述问题。

2.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法，其特征在于：所述无状态的Q-learning算法求解协作服务缓存问题，具体是：

步骤1：在时间片τ，边缘服务器eNB_i观察到n个边缘服务器选择联合动作(μ_1f，...，μ_if，...，μ_nf)，计算联合动作的

值

其中N_if(μ_1f，...，μ_if，...，μ_nf)表示n个边缘服务器选择联合动作(μ_1f，...，μ_if，...，μ_nf)的次数；

步骤2：每个边缘服务器eNB_i假设其他边缘服务器eNB_j以概率Pr_ijf(μ_jf)＝N_ijf(μ_jf)/T选择基础动作μ_jf，其中N_ijf(μ_jf)表示边缘服务器eNB_i选择动作μ_jf被边缘服务器eNB_j观察到的次数；边缘服务器eNB_i评估其他边缘服务器选择联合动作(μ_1f，...，μ_(i-1)f，μ_(i+1)f，...μ_nf)的概率为

边缘服务器eNB_i选择基础动作μ_if的

值

为：

步骤3：调整基础动作μ_if的

值为

其中

γ是ZipF分布参数；

步骤4：将调整后的

值

输入到(α，β)-approximation oracle，转化该问题为一个利益为

重量为D_f的0-1背包问题，即

步骤5：采用贪婪算法求解0-1背包问题的可行解

将其作为(α，β)-approximation oracle的输出。

3.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法，其特征在于：S1所述的边缘网络由8个边缘服务器组成，每台边缘服务器的存储容量在[20，60]GB之间；服务项个数为30，服务项大小在[10，30]GB之间；服务请求到达速率服从均值为100的泊松分布，边缘服务器的ZipF分布参数为0.7。

4.根据权利要求1所述的基于多智能体强化学习的效用感知的协作服务缓存方法，其特征在于：S3中所述的任何两个边缘服务器之间的传输速率在[200，500]MB/s范围内变化；从远端云到边缘服务器传输服务项目的核心网络带宽是160Mbps；在边缘服务器上租用存储资源的单位成本为0.04；从远端云到边缘服务器的数据迁移的单位成本为0.08；边缘服务器之间的数据迁移的单位成本为0.05；服务延迟减少、服务缓存成本、服务迁移成本和服务惩罚成本的权重分别为ω₁＝0.003，ω₂＝10，ω₃＝1，ω₄＝0.2。