CN113110915A

CN113110915A - 移动边缘计算环境中自主学习的服务缓存策略

Info

Publication number: CN113110915A
Application number: CN202110367411.4A
Authority: CN
Inventors: 黄彬彬; 项媛媛; 俞东进
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-13

Abstract

本发明公开了一种移动边缘计算环境中自主学习的服务缓存策略，本发明首先将多服务供应商在资源有限的移动边缘计算环境中的服务缓存问题建模成联合多臂老虎机问题。使用Q‑Learning算法来学习如何协调多主体系统中的缓存决策。将系统中每个主体视为独立的学习者，提出了自主学习的服务缓存策略（ILSCS），其目标是最小化服务供应商的社会成本。并且，将本发明提出的策略与其他策略在不同实验参数下进行对比，证明了本发明所提出的策略的有效性。

Description

移动边缘计算环境中自主学习的服务缓存策略

技术领域

本发明涉及移动边缘计算领域，尤其涉及一种自主学习的服务缓存策略。

背景技术

移动边缘计算(MEC)作为一种新型的计算模型，能够将存储资源和计算资源下沉到网络边缘。不仅能支持边缘服务器与用户之间进行高效的数据传输，还能为用户提供充足的计算资源，大大降低服务的响应时延和移动设备的能耗。但是，由于边缘网络中资源有限，使得针对边缘网络中服务的合理缓存日益重要。由于边缘网络中资源有限，网络服务供应商之间将会对资源进行争抢。需要根据服务缓存后服务的响应时延和服务的缓存成本对服务供应商的服务缓存位置进行决策。

发明内容

为了解决上述问题，本发明提供了一种自主学习的服务缓存策略。

本发明具体采用的技术方案如下：

S1.建立系统模型：

本发明中提出的边缘网络由n个边缘服务器eNB＝{eNB₁，...，eNB_i，...，eNB_n}和中心云CL组成。对于移动边缘服务器eNB_i，可由三元组eNB_i＝<C_i，B_i，S_i>表示，其中C_i表示边缘服务器的计算能力，B_i表示边缘服务器的带宽能力，S_i表示边缘服务器的存储能力。

根据大多数云平台的机制，会通过在服务器中创建虚拟机来实现服务供应商之间的资源共享。而且服务器通常会分配一定的带宽资源、计算资源和存储资源给创建出来的虚拟机。本发明考虑每个边缘服务器中创建了m个虚拟机，边缘服务器eNB_i中创建的虚拟机集合可以由VM_i＝{VM_i，1，...，VM_i，j，...，VM_i，m}表示。对于虚拟机VM_i，j，可用二元组VM_i，j＝<C_i，j，B_i，j>表示，其中C_i，j表示虚拟机的计算能力，B_i，j表示虚拟机的带宽能力。

S2.建立服务供应商模型：

移动边缘计算网络中存在K个网络服务供应商SP＝{SP₁，...，SP_k，...，SP_K}，每个服务供应商都为用户提供一项服务。供应商所提供的服务集合可以用SE＝{SE₁，...，SE_k，...，SE_K}表示。对于服务实例SE_k，可由二元组SE_k＝<W_k，D_k>表示，其中W_k表示执行服务的工作负载(MHZ)，D_k表示服务的数据尺寸(GB)。

每个服务都将被部署到中心云CL中，并且每个服务都会收到一组用户请求，需要由对应的服务实例进行处理并返回给用户。如果服务供应商将服务实例SE_k缓存到边缘服务器中，那么需要服务实例SE_k处理的用户请求将会被重定向到缓存其服务实例的边缘服务器中。否则，将由中心云CL中的原始服务实例来满足用户请求。这种将服务实例从中心云缓存至边缘服务器的行为称为服务缓存。

但是，服务缓存会增加服务供应商为用户提供服务的成本。为了降低成本，不同的服务供应商可将其服务缓存至同一个边缘服务器的不同虚拟机中，进行资源共享。此外，若服务供应商在某些时候不使用虚拟机，也可以选择与其他服务供应商共享虚拟机，从而进一步降低服务缓存的成本。

将在同一个边缘服务器中缓存服务实例的所有服务供应商集合称为联盟，并用g_i表示在边缘服务器eNB_i中的联盟。由于边缘服务器中的存储资源有限，所以联盟中所有服务实例的数据大小之和不能超过边缘服务器的存储空间，即

每个服务供应商可申请加入想加入的联盟，由联盟中的代理决定加入请求是否通过，若边缘服务器的存储空间不足，代理也可决定原联盟中成员的去留。同时，根据虚拟机上的资源情况，代理可以为服务供应商选择其服务实例在边缘服务器中缓存的位置。

S3.建立成本模型：边缘服务器为服务供应商缓存服务会产生各种资源使用的成本。具体来说，如果一个边缘服务器上缓存了多个服务实例，那么边缘服务器的使用成本将由缓存服务实例的服务供应商进行分摊。理想情况下，每个服务实例都是独占服务器中的某个虚拟机。但是为了进一步降低成本，服务供应商也可选择与其他服务供应商共享虚拟机。成本模型的建立，具体包含以下子步骤：

S31.定义默认成本：若服务实例独占虚拟机，那么其占用的资源即为虚拟机所能提供的计算资源与带宽资源。用

表示服务实例在边缘服务器eNB_i上使用单位计算资源的成本，

表示服务实例在边缘服务器eNB_i上使用单位带宽资源的成本。那么服务实例独占虚拟机VM_i，j的使用成本为

将其称为默认成本。

S32.定义联盟成本：若服务供应商按照某种规则在边缘服务器中组建成联盟。那么边缘服务器上的计算资源和带宽资源将由联盟中的服务供应商共享。若服务供应商SP_k加入联盟g_i，并将其服务实例缓存在虚拟机VM_i，j上，那么它将付出的使用成本为

其中

表示联盟中所有服务供应商的默认成本之和，

表示使用边缘服务器eNB_i的成本。将加入联盟服务供应商所付出的成本称为联盟成本。

S4.建立效用模型：将服务响应时延定义为服务执行时间和数据传输时间之和。由于请求对应服务的用户群体所在位置不同和执行服务所需要的计算资源不同，导致中心云中不同的服务实例处理服务的响应时延不一致。

将由中心云CL中的原始服务实例SE_k处理用户请求的服务响应时延表示为

对于在边缘服务器中缓存了服务实例的服务供应商，同样由于请求服务的用户群体所在位置的不同和边缘服务器所在位置的不同，使得用户与边缘服务器之间的数据传输时间存在差异，使用

表示用户向边缘服务器eNB_i请求服务SE_k的数据传输时间。

另外，用户请求服务SE_k的服务执行时间可由

计算得出。为了方便起见，使用

表示用户向虚拟机VM_i，j请求由服务实例SE_k所提供服务的请求时延。由于中心云通常位于偏远地区，用户向边缘服务器中缓存的服务实例请求服务的服务响应时延会远小于向中心云上的原始服务实例请求服务的服务响应时延，即

另外，由于请求不同服务的用户群体对于服务响应时延的敏感程度不一致，令v_k表示服务供应商SP_k对于服务响应时延的重视程度。

基于以上描述，可以得到服务供应商独享虚拟机的的默认效用

和服务供应商加入联盟获得的合作效用

虽然服务供应商可能可以争取到使其默认效用达到最大的虚拟机进行服务实例的缓存，但是如果在其他的边缘服务器中，可以通过与其他服务供应商共享虚拟机来获取更大的效用，那么服务供应商可能更愿意将其服务实例缓存至能让其获取更大效用的边缘服务器上。用u_i，j，k表示服务供应商加入联盟g_i获得的额外效用

其中

为服务供应商SP_k能获取到的最大默认效用。考虑到每个服务供应商在独享虚拟机的情况下有一个默认的资源使用成本c_i’，j’，那么p_k，l(g_i)-v_k·d_{i’，j’，k}+v_k·d_i，j，k可以体现服务协作的成本，将之称为协作成本，表示为

然后将所有服务供应商的协作成本之和表示为社会成本。

S5.自主学习的服务缓存策略：需要定义缓存问题的动作空间和奖励函数，然后详细介绍解决服务缓存问题的ILSCS策略，具体包含以下子步骤：

S51.定义动作空间和奖励函数：将每次学习时，系统的动作a(τ)定义为：a(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ)，其中a_i(τ)＝(a_i，1，1(τ)，...，a_i，j，k(τ)，...，a_n，m，K(τ))表示边缘服务器eNB_i上服务供应商缓存服务实例的情况。a_i，j，k(τ)表示在第τ次学习时，服务实例SE_k是否被缓存到边缘服务器eNB_i的虚拟机VM_i，j上，a_i，j，k(τ)＝1说明服务SE_k在第τ次学习时，被缓存到边缘服务器eNB_i的虚拟机VM_i，j上；a_i，j，k(τ)＝0说明服务SE_k在第τ次学习时，未被缓存到边缘服务器eNB_i的虚拟机VM_i，j上。

但是如此简单的定义动作空间没有考虑到动作空间大小的问题，所有边缘服务器的代理对所有服务实例做出的服务缓存动作组合而成的超级动作a(τ)，其数量是指数级的。因此，Q-Learning算法需要经过指数级的步数来经历所有动作，从而学习到做出动作得到的Q值，这显然是不可行的。因此需要通过基础动作的预期奖励得到超级动作的预期奖励，将动作空间的大小减少到基础动作空间的大小。本发明中的基础动作也就是a_i，j，k(τ)，这也意味着只需要学习得到每个边缘服务器的代理对每个服务实例做出的缓存动作的预期奖励。对于Q值的计算，同样需要用基本动作的Q值Q_i，j，k(a_i，j，k)代替超级动作的Q值Q(a)。更准确来说，Q_i，j，k(a_i，j，k)被定义为由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k得到的平均预期奖励。

Q_i，j，k(a_i，j，k)具体的更新方程为

(R_i，j，k(τ)-Q_i，j，k(a_i，j，k))，其中C_i，j，k(a_i，j，k)表示由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k的次数。R_i，j，k(τ)表示在第τ次学习时，边缘服务器eNB_i的代理对服务实例SE_k做出的缓存动作获得的奖励。并令Q_i，j，k＝Q_i，j，k(1)-Q_i，j，k(0)来说明由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k得到的平均预期奖励。由于a_i，j，k＝0时，R_i，j，k(τ)＝0，使得Q_i，j，k(0)＝0，所以Q_i，j，k＝Q_i，j，k(1)。另外，定义奖励函数

即所有服务供应商协作成本总和的相反值即社会成本的相反值。

S52.策略实现：基于以上描述，可将求解最优超级动作a^*的问题转化为如下问题：

Minimize：

Subject to：

a_i，j，k∈{0，1}

为了解决这个NP难问题，本发明选择使用贪婪算法来解决，获取近似最优解。首先计算Q_i，j，k/D_k，其中i＝1，2，...，n，j＝1，2，...，m，k＝1，2，...，K。然后按照非递增顺序对Q_i，j，k/D_k进行排序，在保证解可行的前提下，根据Q_i，j，k/D_k的大小执行相应的服务缓存动作。具体来说，Q_i，j，k/D_k对应的服务缓存动作为将服务实例SE_k缓存至虚拟机VM_i，j中。另外，对于排序后处于后10％的Q_i，j，k/D_k，使用epsilon-greedy算法，以ε的概率执行Q_i，j，k/D_k所对应的动作，以1-ε的概率为服务供应商随机选择服务实例缓存的位置。最后，为了保证服务供应商尽可能参与联盟以减少资源使用成本，让未加入联盟的服务供应商选择能使其协作成本最小的边缘服务器进行服务缓存。

作为优选，S1所述的边缘服务器个数为50，每台边缘服务器的计算能力在[8000，16000]MHz之间，带宽容量在[100，1000]Mbps之间，存储容量在[200，300]GB之间。边缘服务器中的虚拟机的计算能力在[4000，8000]MHz之间，带宽容量在[10，100]Mbps之间。

作为优选，S2中所述的服务供应商个数为80，每个服务提供商提供的服务数据大小在[30，50]GB之间取值，服务执行所需的计算资源设置为[50，100]MHz，服务提供商对服务请求延迟的重视程度v_k取值在[100，150]之间。

作为优选，S3中所述的服务商在边缘服务器中使用单位计算资源和单位带宽资源的成本分别设定为[$0.15，$0.22]和[$0.05，$0.12]。

作为优选，S4中所述的用户从中心云获取服务的服务响应时延设置为50-100ms，缓存服务的边缘服务器与用户之间的传输时延设置为5-20ms。

本发明将多个服务供应商在资源有限的边缘服务器上的服务缓存问题建模为联合多臂老虎机问题，提出了自主学习的服务缓存策略ILSCS。使用Q-Learning算法，使每个边缘服务器自主学习缓存不同服务获取的预期奖励，根据服务缓存获取的奖励值和服务实例的来协调边缘服务器的服务缓存。ILSCS策略的主要目标为最小化服务供应商的社会成本。

附图说明

图1为本发明移动边缘计算环境中自主学习的服务缓存策略的流程图；

图2为移动边缘计算环境下服务缓存的架构图；

图3为自主学习服务缓存策略收敛图；

图4为本发明算法与MDU和MCS算法在服务供应商个数变化下的对比图；

图5为本发明算法与MDU和MCS算法在边缘服务器个数变化下的对比图；

图6为本发明算法与MDU和MCS算法在服务实例大小变化下的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步详细说明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1和图2所示，本发明的一种移动边缘计算环境中的自主学习的服务缓存策略，包括以下步骤：

S1.建立系统模型：本发明中提出的边缘网络由n个边缘服务器eNB＝{eNB₁，...，eNB_i，...，eNB_n}和中心云CL组成。对于移动边缘服务器eNB_i，可由三元组eNB_i＝<C_i，B_i，S_i>表示，其中C_i表示边缘服务器的计算能力，B_i表示边缘服务器的带宽能力，S_i表示边缘服务器的存储能力。

S2.建立服务供应商模型：移动边缘计算网络中存在K个网络服务供应商SP＝{SP₁，...，SP_k，...，SP_K}，每个服务供应商都为用户提供一项服务。供应商所提供的服务集合可以用SE＝{SE₁，...，SE_k，...，SE_K}表示。对于服务实例SE_k，可由二元组SE_k＝<W_k，D_k>表示，其中W_k表示执行服务的工作负载(MHZ)，D_k表示服务的数据尺寸(GB)。每个服务都将被部署到中心云CL中，并且每个服务都会收到一组用户请求，需要由对应的服务实例进行处理并返回给用户。如果服务供应商将服务实例SE_k缓存到边缘服务器中，那么需要服务实例SE_k处理的用户请求将会被重定向到缓存其服务实例的边缘服务器中。否则，将由中心云CL中的原始服务实例来满足用户请求。这种将服务实例从中心云缓存至边缘服务器的行为称为服务缓存。但是，服务缓存会增加服务供应商为用户提供服务的成本。为了降低成本，不同的服务供应商可将其服务缓存至同一个边缘服务器的不同虚拟机中，进行资源共享。此外，若服务供应商在某些时候不使用虚拟机，也可以选择与其他服务供应商共享虚拟机，从而进一步降低服务缓存的成本。将在同一个边缘服务器中缓存服务实例的所有服务供应商集合称为联盟，并用g_i表示在边缘服务器eNB_i中的联盟。由于边缘服务器中的存储资源有限，所以联盟中所有服务实例的数据大小之和不能超过边缘服务器的存储空间，即

将其称为默认成本。

其中

表示联盟中所有服务供应商的默认成本之和，

S4.建立效用模型：将服务响应时延定义为服务执行时间和数据传输时间之和。由于请求对应服务的用户群体所在位置不同和执行服务所需要的计算资源不同，导致中心云中不同的服务实例处理服务的响应时延不一致。将由中心云CL中的原始服务实例SE_k处理用户请求的服务响应时延表示为

表示用户向边缘服务器eNB_i请求服务SE_k的数据传输时间。另外，用户请求服务SE_k的服务执行时间可由

计算得出。为了方便起见，使用

另外，由于请求不同服务的用户群体对于服务响应时延的敏感程度不一致，令v_k表示服务供应商SP_k对于服务响应时延的重视程度。基于以上描述，可以得到服务供应商独享虚拟机的的默认效用

和服务供应商加入联盟获得的合作效用

其中

然后将所有服务供应商的协作成本之和表示为社会成本。

S51.定义动作空间和奖励函数：将每次学习时，系统的动作a(τ)定义为：a(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ)，其中a_i(τ)＝(a_i，1，1(τ)，...，a_i，j，k(τ)，...，a_n，m，K(τ))表示边缘服务器eNB_i上服务供应商缓存服务实例的情况。a_i，j，k(τ)表示在第τ次学习时，服务实例SE_k是否被缓存到边缘服务器eNB_i的虚拟机VM_i，j上，a_i，j，k(τ)＝1说明服务SE_k在第τ次学习时，被缓存到边缘服务器eNB_i的虚拟机VM_i，j上；a_i，j，k(τ)＝0说明服务SE_k在第τ次学习时，未被缓存到边缘服务器eNB_i的虚拟机VM_i，j上。但是如此简单的定义动作空间没有考虑到动作空间大小的问题，所有边缘服务器的代理对所有服务实例做出的服务缓存动作组合而成的超级动作a(τ)，其数量是指数级的。因此，Q-Learning算法需要经过指数级的步数来经历所有动作，从而学习到做出动作得到的Q值，这显然是不可行的。因此需要通过基础动作的预期奖励得到超级动作的预期奖励，将动作空间的大小减少到基础动作空间的大小。本发明中的基础动作也就是a_i，j，k(τ)，这也意味着只需要学习得到每个边缘服务器的代理对每个服务实例做出的缓存动作的预期奖励。对于Q值的计算，同样需要用基本动作的Q值Q_i，j，k(a_i，j，k)代替超级动作的Q值Q(a)。更准确来说，Q_i，j，k(a_i，j，k)被定义为由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k得到的平均预期奖励。Q_i，j，k(a_i，j，k)具体的更新方程为

其中C_i，j，k(a_i，j，k)表示由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k的次数。R_i，j，k(τ)表示在第τ次学习时，边缘服务器eNB_i的代理对服务实例SE_k做出的缓存动作获得的奖励。并令Q_i，j，k＝Q_i，j，k(1)-Q_i，j，k(0)来说明由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k得到的平均预期奖励。由于a_i，j，k＝0时，R_i，j，k(τ)＝0，使得Q_i，j，k(0)＝0，所以Q_i，j，k＝Q_i，j，k(1)。另外，定义奖励函数

Minimize：

Subject to：

a_i，j，k∈{0，1}

实施例

本实施例步骤与具体实施方式相同，在此不再进行赘述。下面就对比算法的实施和实施结果进行展示：

本发明实现了MDU(max default utility)和MCS(max coalition size)两个基线算法。其中MDU算法中服务供应商选择能使其默认效用最大的虚拟机进行服务缓存，MCS算法中服务供应商选择联盟成员最多的边缘服务器进行实例缓存。并将这两个基线算法与ILSCS策略进行对比，并且分别就边缘服务器个数、服务供应商个数和服务实例大小对社会成本的影响进行评估。

图3中显示了ILSCS策略在包含50个边缘服务器的边缘网络中，对80个服务供应商提供的服务进行服务缓存的学习曲线。可以观察到随着学习时间的增加，社会成本逐渐下降并趋于稳定。这一现象表明本发明提出的ILSCS策略可以学习到一个较优的服务缓存策略，使得服务供应商的社会成本降低。

为了研究边缘服务器个数变化对社会成本的影响，将边缘服务器个数分别设置为20、35、50、65、80。图4显示了在边缘服务器个数变化时的社会成本。从图中可以观察到在MDU和ILSCS算法中，随着边缘服务器个数的增加，社会成本呈下降趋势。其原因在于可供服务供应商选择服务缓存的边缘服务器个数增加，服务供应商更有可能选择到性能好或者更适合自己的边缘服务器来进行服务缓存，降低了服务供应商之间资源争抢的可能性。而MCS算法仅根据联盟的规模来选择边缘服务器，边缘服务器的性能等因素并不会影响其选择，所以在图中可以观察到边缘服务器个数的变化与社会成本并无明显联系。此外，还可以观察到ILSCS策略的社会成本优于其他两种算法。

为了研究服务供应商个数变化对社会成本的影响，分别设置服务供应商个数为40、60、80、100和120。图5显示了ILSCS、MDU和MCS三种算法在服务供应商个数变化时的社会成本。可以观察到随着服务供应商的个数增多，社会成本也会随之增大。其主要原因在于社会成本为所有服务供应商协同成本之和，服务供应商个数增多，所有服务供应商的协同成本之和也就随之增大。而且，从图中还可以观察得到，虽然三种算法中的社会成本都呈上升趋势，但是ILSCS算法中社会成本的上升趋势相比于其他两种算法来说较为平缓，这个现象说明ILSCS算法能在服务供应商个数变化时仍能获取到较优的缓存策略使得社会成本相对较低。

为了研究服务实例大小对社会成本的影响，分别设置服务实例大小为30、40、50、60和70GB。图6显示了ILSCS、MDU和MCS算法在服务实例大小变化时的社会成本。从图中可以观察得到，在ILSCS和MCS算法中，社会成本随着服务大小的增加也逐渐增大。其主要原因在于服务大小增加，边缘服务器中能缓存的服务实例数量下降，边缘服务器中的联盟规模减小，联盟中的成员所需要付出的联盟成本也就相应增加，导致社会成本的增大。对于MDU算法，服务大小与社会成本之间没有存在明显联系，其原因在于服务大小的变化主要影响到边缘服务器中联盟的规模，而MDU算法中服务供应商选择边缘服务器时并不考虑边缘服务器中联盟的规模，也就不会使得服务供应商的协作成本随着服务实例大小的变化而变化。

Claims

1.一种移动边缘计算环境中自主学习的服务缓存策略，其特征在于该方法包括以下步骤：

S1.建立系统模型：

设边缘网络由n个边缘服务器eNB＝{eNB₁，...，eNB_i，...，eNB_n}和中心云CL组成；对于移动边缘服务器eNB_i，可由三元组eNB_i＝<C_i，B_i，S_i>表示，其中C_i表示边缘服务器的计算能力，B_i表示边缘服务器的带宽能力，S_i表示边缘服务器的存储能力；

考虑每个边缘服务器中创建m个虚拟机，边缘服务器eNB_i中创建的虚拟机集合由VM_i＝{VM_i，1，...，VM_i，j，...，VM_i，m}表示；

对于虚拟机VM_i，j，可用二元组VM_i，j＝《C_i，j，B_i，j>表示，其中C_i，j表示虚拟机的计算能力，B_i，j表示虚拟机的带宽能力；

S2.建立服务供应商模型：

设移动边缘计算网络中存在K个网络服务供应商SP＝{SP₁，...，SP_k，...，SP_K}，每个服务供应商都为用户提供一项服务；供应商所提供的服务集合用SE＝{SE₁，...，SE_k，...，SE_K}表示；对于服务实例SE_k，由二元组SE_k＝〈W_k，D_k>表示，其中W_k表示执行服务的工作负载，D_k表示服务的数据尺寸；

每个服务都部署到中心云CL中，并且每个服务都会收到一组用户请求，需要由对应的服务实例进行处理并返回给用户；如果服务供应商将服务实例SE_k缓存到边缘服务器中，那么需要服务实例SE_k处理的用户请求将会被重定向到缓存其服务实例的边缘服务器中；否则，将由中心云CL中的原始服务实例来满足用户请求；这种将服务实例从中心云缓存至边缘服务器的行为称为服务缓存；

服务缓存会增加服务供应商为用户提供服务的成本；为了降低成本，不同的服务供应商将其服务缓存至同一个边缘服务器的不同虚拟机中，进行资源共享；此外，若服务供应商在某些时候不使用虚拟机，也可选择与其他服务供应商共享虚拟机，从而进一步降低服务缓存的成本；

将在同一个边缘服务器中缓存服务实例的所有服务供应商集合称为联盟，并用g_i表示在边缘服务器eNB_i中的联盟；由于边缘服务器中的存储资源有限，所以联盟中所有服务实例的数据大小之和不能超过边缘服务器的存储空间，即

每个服务供应商可申请加入想加入的联盟，由联盟中的代理决定加入请求是否通过，若边缘服务器的存储空间不足，代理也可决定原联盟中成员的去留；同时，根据虚拟机上的资源情况，代理可为服务供应商选择其服务实例在边缘服务器中缓存的位置；

S3.建立成本模型：

S31.定义默认成本：若服务实例独占虚拟机，那么其占用的资源即为虚拟机所能提供的计算资源与带宽资源；用

表示服务实例在边缘服务器eNB_i上使用单位带宽资源的成本；那么服务实例独占虚拟机VM_i，j的使用成本为

将其称为默认成本；

S32.定义联盟成本：若服务供应商按照某种规则在边缘服务器中组建成联盟；那么边缘服务器上的计算资源和带宽资源将由联盟中的服务供应商共享；若服务供应商SP_k加入联盟g_i，并将其服务实例缓存在虚拟机VM_i，j上，那么它将付出的使用成本为

其中

表示联盟中所有服务供应商的默认成本之和，

表示使用边缘服务器eNB_i的成本；将加入联盟服务供应商所付出的成本称为联盟成本；

S4.建立效用模型：

将服务响应时延定义为服务执行时间和数据传输时间之和；由于请求对应服务的用户群体所在位置不同和执行服务所需要的计算资源不同，导致中心云中不同的服务实例处理服务的响应时延不一致；

表示用户向边缘服务器eNB_i请求服务SE_k的数据传输时间；

另外，用户请求服务SE_k的服务执行时间可由

计算得出；为了方便起见，使用

表示用户向虚拟机VM_i，j请求由服务实例SE_k所提供服务的请求时延；由于中心云通常位于偏远地区，用户向边缘服务器中缓存的服务实例请求服务的服务响应时延会远小于向中心云上的原始服务实例请求服务的服务响应时延，即

另外，由于请求不同服务的用户群体对于服务响应时延的敏感程度不一致，令v_k表示服务供应商SP_k对于服务响应时延的重视程度；

基于以上描述，得到服务供应商独享虚拟机的默认效用

和服务供应商加入联盟获得的合作效用

用u_i，i，k表示服务供应商加入联盟g_i获得的额外效用

其中

为服务供应商SP_k能获取到的最大默认效用；考虑到每个服务供应商在独享虚拟机的情况下有一个默认的资源使用成本c_i’，j’，那么p_k，l(g_i)-v_k·d_i’，j’，k+v_k·d_i，j，k可以体现服务协作的成本，将之称为协作成本，表示为

然后将所有服务供应商的协作成本之和表示为社会成本；

S5.自主学习的服务缓存策略：

S51.定义动作空间和奖励函数：将每次学习时，系统的动作a(τ)定义为：a(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ)，其中a_i(τ)＝(a_i，1，1(τ)，...，a_i，j，k(τ)，...，a_n，m，K(τ))表示边缘服务器eNB_i上服务供应商缓存服务实例的情况；a_i，j，k(τ)表示在第τ次学习时，服务实例SE_k是否被缓存到边缘服务器eNB_i的虚拟机VM_i，j上，a_i，j，k(τ)＝1说明服务SE_k在第τ次学习时，被缓存到边缘服务器eNB_i的虚拟机VM_i，j上；a_i，j，k(τ)＝0说明服务SE_k在第τ次学习时，未被缓存到边缘服务器eNB_i的虚拟机VM_i，j上；

通过基础动作的预期奖励得到超级动作的预期奖励，将动作空间的大小减少到基础动作空间的大小；基础动作也就是a_i，j，k(τ)，这也意味着只需要学习得到每个边缘服务器的代理对每个服务实例做出的缓存动作的预期奖励；对于Q值的计算，同样需要用基本动作的Q值Q_i，j，k(a_i，j，k)代替超级动作的Q值Q(a)；更准确来说，Q_i，j，k(a_i，j，k)被定义为由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k得到的平均预期奖励；

Q_i，j，k(a_i，j，k)具体的更新方程为

(R_i，j，k(τ)-Q_i，j，k(a_i，j，k))，其中C_i，j，k(a_i，j，k)表示由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k的次数；R_i，j，k(τ)表示在第τ次学习时，边缘服务器eNB_i的代理对服务实例SE_k做出的缓存动作获得的奖励；并令Q_i，j，k＝Q_i，j，k(1)-Q_i，j，k(0)来说明由边缘服务器eNB_i的虚拟机VM_i，j缓存服务实例SE_k得到的平均预期奖励；由于a_i，j，k＝0时，R_i，j，k(τ)＝0，使得Q_i，j，k(0)＝0，所以Q_i，j，k＝Q_i，j，k(1)；另外，定义奖励函数

即所有服务供应商协作成本总和的相反值即社会成本的相反值；

S52.策略实现：将求解最优超级动作a^*的问题转化为如下问题：

a_i，j，k∈{0，1}

选择使用贪婪算法来获取近似最优解：首先计算Q_i，j，k/D_k，其中i＝1，2，...，n，j＝1，2，...，m，k＝1，2，...，K；然后按照非递增顺序对Q_i，j，k/D_k进行排序，在保证解可行的前提下，根据Q_i，j，k/D_k的大小执行相应的服务缓存动作；具体来说，Q_i，j，k/D_k对应的服务缓存动作为将服务实例SE_k缓存至虚拟机VM_i，j中；另外，对于排序后处于后10％的Q_i，j，k/D_k，使用epsilon-greedy算法，以ε的概率执行Q_i，j，k/D_k所对应的动作，以1-ε的概率为服务供应商随机选择服务实例缓存的位置；最后，为了保证服务供应商尽可能参与联盟以减少资源使用成本，让未加入联盟的服务供应商选择能使其协作成本最小的边缘服务器进行服务缓存。

2.根据权利要求1所述的一种移动边缘计算环境中自主学习的服务缓存策略，其特征在于S1所述的边缘服务器个数为50，每台边缘服务器的计算能力在[8000，16000]MHz之间，带宽容量在[100，1000]Mbps之间，存储容量在[200，300]GB之间；边缘服务器中的虚拟机的计算能力在[4000，8000]MHz之间，带宽容量在[10，100]Mbps之间。

3.根据权利要求1所述的一种移动边缘计算环境中自主学习的服务缓存策略，其特征在于S2中所述的服务供应商个数为80，每个服务提供商提供的服务数据大小在[30，50]GB之间取值，服务执行所需的计算资源设置为[50，100]MHz，服务提供商对服务请求延迟的重视程度v_k取值在[100，150]之间。

4.根据权利要求1所述的一种移动边缘计算环境中自主学习的服务缓存策略，其特征在于S3中所述的服务商在边缘服务器中使用单位计算资源和单位带宽资源的成本分别设定为

和

5.根据权利要求1所述的一种移动边缘计算环境中自主学习的服务缓存策略，其特征在于S4中所述的用户从中心云获取服务的服务响应时延设置为50-100ms，缓存服务的边缘服务器与用户之间的传输时延设置为5-20ms。