CN111565419A

CN111565419A - 一种超密集网络中面向延迟优化的协作式边缘缓存算法

Info

Publication number: CN111565419A
Application number: CN202010542169.5A
Authority: CN
Inventors: 韩光洁; 张帆
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-08-21
Anticipated expiration: 2040-06-15
Also published as: CN111565419B

Abstract

本发明公开了一种超密集网络中面向延迟优化的协作式边缘缓存算法，具体步骤如下：步骤1：设置系统模型的各参数；步骤2：采用基于博弈论的多智能体强化学习算法来为每个SBS做出最优缓存决策，以最大化每个SBS的内容缓存命中率；步骤3：采用改进的分支定界法来为每个SBS做出最优带宽资源分配决策，以最小化所有用户设备的总内容下载延迟。本发明可有效减少超密集网络中所有用户的内容下载延迟，提高内容缓存命中率和频谱资源利用率，且具有良好的鲁棒性和可扩展性，适用于大规模用户密集型的超密集网络。

Description

一种超密集网络中面向延迟优化的协作式边缘缓存算法

技术领域

本发明涉及一种超密集网络中面向延迟优化的协作式边缘缓存算法，属于超密集网络的边缘缓存领域。

背景技术

在5G时代，随着智能移动设备和移动应用的普及，移动数据流量呈爆炸性增长。为了满足5G网络高容量、高吞吐量、高用户体验速率、高可靠性、广覆盖等需求，超密集网络(Ultra-Dense Networks，UDN)应运而生。UDN在MBS(Macro Base Station，MBS)覆盖范围内的室内外热点区域(如办公大楼、商场、地铁、机场、隧道内等)密集部署低功率的小型基站(Small Base Stations，SBS)，以提高网络容量和空间复用度，同时弥补了MBS无法覆盖的盲区。

然而，UDN中的SBS是通过回程链路连接到核心网，随着SBS数量和用户数量的增加，使得回程数据流量急剧增加，造成回程链路拥塞和更大的服务延迟，从而降低服务质量(Quality of Service，QoS)和用户体验质量(Quality of Experience，QoE)。因此，回程网络问题已经成为限制UDN发展的性能瓶颈。

针对以上问题，边缘缓存技术已经成为一种有前景的解决方案，该技术通过在SBS中缓存流行内容，使得用户可以直接从本地SBS获取请求内容，而无需通过回程链路从远程云服务器中下载内容，从而减轻回程链路和核心网的流量负载，降低内容下载延迟，提升QoS和用户QoE。然而，由于单个SBS的缓存容量有限，边缘缓存的性能可能会受到限制。为了扩大缓存容量和增加缓存多样性，可采用一种协作式边缘缓存方案，即多个SBS以协作的方式执行内容缓存，且彼此共享其缓存的内容，以提高内容缓存命中率，降低内容下载延迟。

现有的协作式内容缓存研究大多需要内容流行度的概率分布(如Zipf分布)和用户偏好模型等先验知识，但事实上，内容流行度具有复杂的时空动态特性，通常是一个非平稳的随机过程，因此难以对内容流行度进行准确预测和建模。此外，现有研究大多基于单智能体强化学习算法，该算法是一种集中式算法，需要一个集中式控制中心来收集所有用户的内容请求信息和所有SBS的内存信息，然而该算法的鲁棒性(即集中式控制中心出现故障会导致系统故障)和可扩展性较差(即收敛时间会随着SBS数量的增加而迅速增长)，特别是对于多个SBS的场景，集中式控制中心的位置确定将变得更加复杂，因此不适用于UDN。

发明内容

针对现有技术的不足，本发明提供了一种超密集网络中面向延迟优化的协作式边缘缓存算法，是一种分布式算法。该算法无需内容流行度的概率分布和用户偏好模型等先验知识，而是利用用户的瞬时内容请求来计算内容流行度，从而简化了内容流行度的建模过程。然后，每个SBS根据本地内容流行度信息和其他SBS的缓存决策来做出最优缓存决策，目标是最大化所有SBS的总内容缓存命中率。最后，在确定了每个SBS的最优缓存决策后，每个SBS根据其带宽资源来做出最优资源分配决策，目标是最小化所有用户设备的总内容下载延迟。该算法具有良好的鲁棒性和可扩展性，适用于大规模用户密集型的UDN。

为达到上述目的，本发明的技术方案是这样实现的：

一种超密集网络中面向延迟优化的协作式边缘缓存算法：

步骤1：设置系统模型的各参数；

步骤2：采用基于博弈论的多智能体强化学习(Multi-Agent ReinforcementLearning，MARL)算法来为每个SBS做出最优缓存决策，以最大化每个SBS的内容缓存命中率，包括被本地SBS所命中的缓存命中率和被其他SBS所命中的缓存命中率；

步骤3：采用改进的分支定界法来为每个SBS做出最优带宽资源分配决策，以最小化所有用户设备的总内容下载延迟。该方法将分支定界法和线性下逼近法相结合，适用于决策变量较多的大规模可分离凹整数规划问题。

优选地，所述步骤1的具体步骤如下：

1.1设置网络模型：分为三层，即用户设备层、MEC层和云层，其中，用户设备层包含多个用户设备(UE)，每个UE只能连接到一个SBS；MEC层包含M个SBS和一个MBS，MBS覆盖了所有的SBS，每个SBS覆盖多个UE(每个SBS代表一个小型小区)，SBS之间的覆盖范围不相互重叠，每个SBS上都部署了一个MEC服务器m∈M，其存储容量为sc_m，所有MEC服务器的存储容量构成一个存储容量大小向量sc＝[sc₁,sc₂,...,sc_M]，MEC服务器负责为UE提供边缘缓存资源，同时，负责收集每个小型小区的状态信息(如每个请求内容的大小和流行度、信道增益)并为每个SBS做出相应的缓存决策和信道资源分配决策，SBS之间可以通过MBS进行相互通信，且共享其缓存资源，MBS通过核心骨干网(如光纤回程链路)连接到云层；云层包括若干个云服务器，具有丰富的计算和缓存资源，用于缓存所有的内容；

1.2将整个时间轴划分为T个长度相同的时隙，t∈T表示时隙索引，且采用准静态模型，即在一个时隙内，所有系统状态参数(如每个内容请求的流行度、用户设备的位置、信道增益)保持不变，而不同时隙参数不同；

1.3设置内容流行度模型：共有F个内容，每个内容f∈F的大小为z_f，且每个内容的大小不同，所有内容的大小构成一个内容大小向量z＝[z₁,z₂,...,z_f,...,z_F]。定义在时隙t每个内容f在小区m内的流行度为

在时隙t在小区m内请求内容f的总次数为

在时隙t在小区m内所有UE的内容请求总次数为

因此

小区m内所有内容的流行度

构成一个内容流行度向量

1.4设置内容请求模型：共有U个UE发送内容请求，定义在时隙t在小区m内发送内容请求的所有UE的集合为

在时隙t在小区m内发送内容请求的UE的数量为

假设在时隙t每个UE对每个内容最多请求一次，定义在时隙t在小区m内的每个UE

的内容请求向量为

其中每个元素

表示在时隙t在小区m内的UE u请求内容f，

表示在时隙t在小区m内的UE u没有请求内容f，在时隙t在小区m内的所有UE的内容请求向量构成一个内容请求矩阵

即

1.5设置缓存模型：定义在时隙t每个MEC服务器m的缓存区维护一个内容缓存决策向量

其中每个元素

表示在时隙t将内容f缓存在MEC服务器m上，

表示在时隙t不将内容f缓存在MEC服务器m上，且每个MEC服务器中缓存内容的总大小不能超过其存储容量sc_m；

1.6设置通信模型：假设每个SBS工作在相同的频带上，且频带宽度为B，MBS和SBS之间采用有线光纤进行通信，因此SBS和MBS之间的数据传输速率很大。采用正交频分复用技术将频带宽度B划分成β个正交子信道，定义在时隙t在小区m内的每个UE u可以被分配若干个正交子信道

每个子信道带宽为

由于SBS之间的覆盖范围不相互重叠，因此不同SBS之间和同一SBS的不同UE之间均不存在同频干扰。定义在时隙t UE u与本地SBS m之间的下行SNR值为

且

其中，

表示在时隙t SBS m的发射功率，

表示在时隙t SBS m与UE u之间的信道增益，且

表示在时隙t SBS m与UE u之间的距离，α表示路径损耗因子，σ²表示加性高斯白噪声的方差。因此，定义在时隙t UE u与本地SBS m之间的下载速率为

且

定义每个SBS m和MBS n之间的数据传输速率均为常数

MBS n和云服务器c之间的数据传输速率为常数

且

因此，定义在时隙t UE u从本地MEC服务器m中获取内容f所需要的下载延迟为

且

定义在时隙t UE u从其他非本地MEC服务器-m中获取内容f所需要的下载延迟为

且

定义在时隙t UE u从云服务器c中获取内容f所需要的下载延迟为

且

因此，

1.7设置内容交付模型：内容交付的基本过程是，每个UE独立地向本地MEC服务器请求若干个内容，若在本地MEC服务器的缓存区已经缓存了该内容，则直接由本地MEC服务器传输给UE；若在本地MEC服务器未缓存该内容，则可以通过MBS从其他SBS的MEC服务器上获取，再由本地MEC服务器传输给UE；若所有的MEC服务器都未缓存该内容，则通过核心网络从云服务器将内容中继到MBS，再由MBS传输到本地MEC服务器，最后由本地MEC服务器将内容交付给UE。定义在时隙t UE u是否从本地MEC服务器m中获取内容f为二元变量

其中

表示在时隙t UE u从本地服务器m中获取内容f，否则

定义在时隙t UE u是否从非本地服务器-m中获取内容f为二元变量

其中

表示在时隙t UE u从非本地服务器-m中获取内容f，否则

定义在时隙t UE u是否从云服务器c中获取内容f为二元变量

其中

表示在时隙t UE u从云服务器c中获取内容f，否则

优选地，所述步骤2中基于博弈论的多智能体强化学习算法的具体步骤如下：

2.1将M个SBS的内容缓存决策问题描述为具有M个智能体的带约束的随机博弈(Constrained Stochastic Game，CSG)问题，该问题可用元组＜M,S,A₁,...,A_M,r₁,...,r_M,Pr,c₁,c₂,...,c_M＞来表示，优化目标是最大化每个智能体的长期累积折扣奖励，其中

2.1.1 M表示智能体的个数(即SBS的个数)；

2.1.2 S表示状态空间，s^t∈S表示在时隙t所有智能体的状态集合，包括在时隙t所有智能体的内容流行度向量

因此

2.1.3 A₁,...,A_M表示M个智能体的联合动作空间，定义

表示在时隙t智能体m所选择的动作，即

2.1.4 r₁,...,r_M表示M个智能体的奖励函数，定义在时隙t智能体m的奖励函数为

表示在状态s^t下所有智能体执行联合动作

之后智能体m所获得的即时奖励，且

其中w₁和w₂表示权重，满足w₁+w₂＝1且w₁＞w₂，可以令w₁＝0.8，

表示被本地MEC服务器m所命中的内容命中率，

表示被非本地MEC服务器-m所命中的内容命中率。因此，定义在联合策略(π₁,π₂,...,π_M)下智能体m的状态s^t的值函数为v_m(s^t,π₁,π₂,...,π_M)，且

其中，π_m表示在状态s^t下智能体m的策略，即智能体m从状态到动作概率的映射，δ∈[0,1)表示折扣因子，因此状态值函数v_m(s^t,π₁,π₂,...,π_M)表示智能体m在联合策略(π₁,π₂,...,π_M)下的长期累积折扣奖励的数学期望；

2.1.5 Pr表示状态转移函数，即所有智能体从当前状态s^t下执行联合动作

之后，转移到下一状态s^t+1的概率，且

2.1.6 c₁,c₂,...,c_M表示M个智能体的约束，定义在时隙t智能体m的约束为

表示在状态s^t下智能体m执行动作

之后必须满足所缓存内容的总大小不超过其存储容量sc_m，即满足

2.2采用基于博弈论的MARL算法，即Nash Q-learning算法。若对于

和

均满足

则称

为智能体m的纳什均衡策略，其中Π_m表示智能体m满足约束

的可用策略集合，因此，定义在状态s^t和联合动作

下智能体m的Nash Q函数为

且

其中，

表示在状态s^t下所有智能体执行联合动作

之后智能体m所获得的即时奖励，

表示在联合纳什均衡策略

下智能体m的状态s^t+1的状态值函数；

2.3在算法的初始化阶段：令时隙t＝0，获取所有智能体的初始状态集合为

并且对于

和

均令

2.4在每个时隙t∈T均执行以下步骤：

2.4.1每个智能体m均根据当前状态s^t、约束条件以及ε-贪婪策略来选择动作

并执行，其中ε-贪婪策略是指智能体m每隔一段时间以较小的概率ε来随机选择动作，其他时间以概率1-ε来选择具有最高Q值的动作；

2.4.2观察所有智能体执行的联合动作

所有智能体所获得的即时奖励

以及下一时隙的状态s^t+1；

2.4.3定义联合策略

为单阶段博弈

的纳什均衡策略，并且采用二次规划求出该纳什均衡策略；

2.4.4每个智能体m均根据公式(12)和(13)来更新自身和其他智能体的Q值，即

其中，ζ^t∈(0,1)表示学习率，并且每个智能体m均采用异步更新的方式来更新自身的Q值，即每个智能体只更新当前状态和动作所对应的Q值，

表示智能体m在状态s^t+1下选择纳什均衡策略(π₁(s^t+1),...,π_M(s^t+1))所获得的奖励；

2.4.5如果t<T，则令t←t+1，并返回2.4.1；否则，算法结束。

优选地，所述步骤3的具体步骤如下：

3.1在确定了每个SBS m的最佳内容缓存决策向量

后，将每个SBS的带宽资源分配问题均描述为非线性整数规划问题P，即对于

均要求

其中，目标函数和约束函数都可以表示成关于所有决策变量

的一元函数求和的形式，即

并且所有

在定义域内均为凹函数，因此目标函数在定义域内是一个可分离的凹函数，约束函数在定义域内是一个线性约束，因此该问题是一个可分离的凹整数规划问题；

3.2每个SBS均采用改进的分支定界法来解决上述可分离的凹整数规划问题，该方法的具体流程为：

3.2.1将原问题P进行连续松弛，即去掉整数约束，并对目标函数进行线性下逼近，从而得到原问题P的连续松弛&线性逼近子问题LSP，LSP是一个可分离的线性规划问题；

3.2.2利用KKT条件求解LSP的连续最优解，如果该连续最优解是整数解，则该连续最优解即为原问题P的最优解，否则该连续最优解的目标函数值就是原问题P最优值的一个下界；

3.2.3然后从该连续最优解出发，进行分支，其中每一分支对应一个子问题，然后解决这些子问题的连续松弛问题，直到找到一个可行整数解为止，该可行整数解的目标函数值为原问题P提供了一个上界，而每个子问题的连续最优解的目标函数值为相应子问题提供了一个下界。如果某一分支无可行解、或连续最优解是整数解、或者其下界超过了上界，就可以剪掉这一分支。而对于没有剪掉的分支，则重复分枝、剪枝的过程，直到所有分支都被剪掉为止。如果某一分支有可行整数解，必要的话需要更新上界，以确保上界等于现有的可行整数解的最小目标函数值；

3.2.4算法结束时，当前最好的可行整数解就是原问题P的最优解。

有益效果：本发明提供了一种超密集网络中面向延迟优化的协作式边缘缓存算法，可以有效减少超密集网络中所有用户的内容下载延迟，提高内容缓存命中率和频谱资源利用率，且具有良好的鲁棒性和可扩展性，适用于大规模用户密集型的超密集网络。

附图说明

图1为步骤1.1中采用边缘缓存技术的UDN的网络模型。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

一种超密集网络中面向延迟优化的协作式边缘缓存算法，具体步骤如下：

步骤1：设置系统模型的各参数；

步骤2：采用基于博弈论的多智能体强化学习算法来为每个SBS做出最优缓存决策，以最大化每个SBS的内容缓存命中率，包括被本地SBS所命中的缓存命中率和被其他SBS所命中的缓存命中率；

优选地，所述步骤1中具体步骤如下：

在时隙t在小区m内请求内容f的总次数为

在时隙t在小区m内所有UE的内容请求总次数为

因此

小区m内所有内容的流行度

构成一个内容流行度向量

在时隙t在小区m内发送内容请求的UE的数量为

假设在时隙t每个UE对每个内容最多请求一次，定义在时隙t在小区m内的每个

的内容请求向量为

其中每个元素

表示在时隙t在小区m内的UE u请求内容f，

其中每个元素

表示在时隙t将内容f缓存在MEC服务器m上，

每个子信道带宽为

且

其中，

表示在时隙t SBS m的发射功率，

表示在时隙t SBS m与UE u之间的信道增益，且

且

定义每个SBS m和MBS n之间的数据传输速率均为常数

MBS n和云服务器c之间的数据传输速率为常数

且

且

且

且

因此，

1.7设置内容交付模型：定义在时隙t UE u是否从本地MEC服务器m中获取内容f为二元变量

其中

表示在时隙t UE u从本地服务器m中获取内容f，否则

其中

表示在时隙tUE u从非本地服务器-m中获取内容f，否则

定义在时隙t UE u是否从云服务器c中获取内容f为二元变量

其中

表示在时隙t UE u从云服务器c中获取内容f，否则

优选地，所述步骤2中，具体步骤如下：

2.1.1 M表示智能体的个数(即SBS的个数)；

因此

2.1.3 A₁,...,A_M表示M个智能体的联合动作空间，定义

表示在时隙t智能体m所选择的动作，即

表示在状态s^t下所有智能体执行联合动作

之后智能体m所获得的即时奖励，且

表示被本地MEC服务器m所命中的内容命中率，

2.1.5Pr表示状态转移函数，即所有智能体从当前状态s^t下执行联合动作

之后，转移到下一状态s^t+1的概率，且

表示在状态s^t下智能体m执行动作

2.2采用基于博弈论的MARL算法，即Nash Q-learning算法。若对于

和

均满足

则称

为智能体m的纳什均衡策略，其中Π_m表示智能体m满足约束

的可用策略集合，因此，定义在状态s^t和联合动作

下智能体m的Nash Q函数为

且

其中，

表示在状态s^t下所有智能体执行联合动作

之后智能体m所获得的即时奖励，

表示在联合纳什均衡策略

下智能体m的状态s^t+1的状态值函数；

并且对于

和

均令

2.4在每个时隙t∈T均执行以下步骤：

2.4.2观察所有智能体执行的联合动作

所有智能体所获得的即时奖励

以及下一时隙的状态s^t+1；

2.4.3定义联合策略(π₁(s^t+1),...,π_M(s^t+1))为单阶段博弈

的纳什均衡策略，并且采用二次规划求出该纳什均衡策略；

2.4.5如果t<T，则令t←t+1，并返回2.4.1；否则，算法结束。

优选地，所述步骤3中，具体步骤如下：

3.1在确定了每个SBS m的最佳内容缓存决策向量

均要求

其中，目标函数和约束函数都可以表示成关于所有决策变量

的一元函数求和的形式，即

并且所有

本发明中提及的方法均属于本领域技术人员掌握的常规技术手段，故而未加详述。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种超密集网络中面向延迟优化的协作式边缘缓存算法，其特征在于，具体步骤如下：

步骤1：设置系统模型的各参数；

1.1设置网络模型：分为三层，即用户设备层、MEC层和云层，其中，用户设备层包含多个用户设备，每个用户设备只能连接到一个小型基站；MEC层包含M个小型基站和一个宏基站，宏基站覆盖了所有的小型基站，每个小型基站覆盖多个用户设备，每个小型基站代表一个小型小区，小型基站之间的覆盖范围不相互重叠，每个小型基站上都部署了一个MEC服务器m∈M，其存储容量为sc_m，所有MEC服务器的存储容量构成一个存储容量大小向量sc＝[sc₁,sc₂,...,sc_M]，MEC服务器负责为用户设备提供边缘缓存资源，同时，负责收集每个小型小区的状态信息，并为每个小型基站做出相应的缓存决策和信道资源分配决策，小型基站之间通过宏基站进行相互通信，且共享其缓存资源，宏基站通过核心骨干网连接到云层；云层包括若干个云服务器，具有丰富的计算和缓存资源，用于缓存所有的内容；

1.2将整个时间轴划分为T个长度相同的时隙，t∈T表示时隙索引，且采用准静态模型，即在一个时隙内，所有系统状态参数保持不变，而不同时隙参数不同；

1.3设置内容流行度模型：共有F个内容，每个内容f∈F的大小为z_f，且每个内容的大小不同，所有内容的大小构成一个内容大小向量z＝[z₁,z₂,...,z_f,...,z_F]，定义在时隙t每个内容f在小区m内的流行度为

在时隙t在小区m内请求内容f的总次数为

在时隙t在小区m内所有用户设备的内容请求总次数为

因此

小区m内所有内容的流行度

构成一个内容流行度向量

1.4设置内容请求模型：共有U个用户设备发送内容请求，定义在时隙t在小区m内发送内容请求的所有用户设备的集合为

在时隙t在小区m内发送内容请求的用户设备的数量为

的内容请求向量为

其中每个元素

表示在时隙t在小区m内的用户设备u请求内容f，

表示在时隙t在小区m内的用户设备u没有请求内容f，在时隙t在小区m内的所有用户设备的内容请求向量构成一个内容请求矩阵

其中每个元素

表示在时隙t将内容f缓存在MEC服务器m上，

1.6设置通信模型：采用正交频分复用技术将频带宽度B划分成β个正交子信道，定义在时隙t在小区m内的每个用户设备u被分配若干个正交子信道

每个子信道带宽为

定义在时隙t用户设备u与本地小型基站m之间的下行SNR值为

且

其中，

表示在时隙t小型基站m的发射功率，

表示在时隙t小型基站m与用户设备u之间的信道增益，且

l_u,m表示在时隙t小型基站m与用户设备u之间的距离，α表示路径损耗因子，σ²表示加性高斯白噪声的方差；定义在时隙t用户设备u与本地小型基站m之间的下载速率为

且

定义每个小型基站m和宏基站n之间的数据传输速率均为常数θ_m,n，宏基站n和云服务器c之间的数据传输速率为常数θ_n,c，且θ_m,n＞θ_n,c；定义在时隙t用户设备u从本地MEC服务器m中获取内容f所需要的下载延迟为

且

定义在时隙t用户设备u从其他非本地MEC服务器-m中获取内容f所需要的下载延迟为

且

定义在时隙t用户设备u从云服务器c中获取内容f所需要的下载延迟为

且

因此，

1.7设置内容交付模型：内容交付的基本过程是，每个用户设备独立地向本地MEC服务器请求若干个内容，若在本地MEC服务器的缓存区已经缓存了该内容，则直接由本地MEC服务器传输给用户设备；若在本地MEC服务器未缓存该内容，则可以通过宏基站从其他小型基站的MEC服务器上获取，再由本地MEC服务器传输给用户设备；若所有的MEC服务器都未缓存该内容，则通过核心网络从云服务器将内容中继到宏基站，再由宏基站传输到本地MEC服务器，最后由本地MEC服务器将内容交付给用户设备；

定义在时隙t用户设备u是否从本地MEC服务器m中获取内容f为二元变量

其中

表示在时隙t用户设备u从本地服务器m中获取内容f，否则

定义在时隙t用户设备u是否从非本地服务器-m中获取内容f为二元变量

其中

表示在时隙t用户设备u从非本地服务器-m中获取内容f，否则

定义在时隙t用户设备u是否从云服务器c中获取内容f为二元变量

其中

表示在时隙t用户设备u从云服务器c中获取内容f，否则

步骤2：采用基于博弈论的多智能体强化学习算法来为每个小型基站做出最优缓存决策，以最大化每个小型基站的内容缓存命中率，包括被本地小型基站所命中的缓存命中率和被其他小型基站所命中的缓存命中率；

步骤3：采用改进的分支定界法来为每个小型基站做出最优带宽资源分配决策，以最小化所有用户设备的总内容下载延迟。

2.根据权利要求1所述的一种超密集网络中面向延迟优化的协作式边缘缓存算法，其特征在于，所述步骤2中基于博弈论的多智能体强化学习算法的具体步骤如下：

2.1将M个小型基站的内容缓存决策问题描述为具有M个智能体的带约束的随机博弈问题，问题用元组＜M,S,A₁,...,A_M,r₁,...,r_M,Pr,c₁,c₂,...,c_M＞来表示，优化目标是最大化每个智能体的长期累积折扣奖励，其中

2.1.1 M表示智能体的个数，即小型基站的个数；

因此

2.1.3 A₁,...,A_M表示M个智能体的联合动作空间，定义

表示在时隙t智能体m所选择的动作，即

表示在状态s^t下所有智能体执行联合动作

之后智能体m所获得的即时奖励，且

其中w₁和w₂表示权重，满足w₁+w₂＝1且w₁＞w₂，令w₁＝0.8，

表示被本地MEC服务器m所命中的内容命中率，

表示被非本地MEC服务器-m所命中的内容命中率；定义在联合策略(π₁,π₂,...,π_M)下智能体m的状态s^t的值函数为v_m(s^t,π₁,π₂,...,π_M)，且

之后，转移到下一状态s^t+1的概率，且

表示在状态s^t下智能体m执行动作

2.2采用基于博弈论的MARL算法，即Nash Q-learning算法；若对于

和

均满足

则称

为智能体m的纳什均衡策略，其中Π_m表示智能体m满足约束

的可用策略集合，因此，定义在状态s^t和联合动作

下智能体m的Nash Q函数为

且

其中，

表示在状态s^t下所有智能体执行联合动作

之后智能体m所获得的即时奖励，

表示在联合纳什均衡策略

下智能体m的状态s^t+1的状态值函数；

并且对于

和

均令

2.4在每个时隙t∈T均执行以下步骤：

2.4.2观察所有智能体执行的联合动作

所有智能体所获得的即时奖励

以及下一时隙的状态s^t+1；

2.4.3定义联合策略(π₁(s^t+1),...,π_M(s^t+1))为单阶段博弈

的纳什均衡策略，并且采用二次规划求出该纳什均衡策略；

2.4.5如果t<T，则令t←t+1，并返回2.4.1；否则，算法结束。

3.根据权利要求1所述的一种超密集网络中面向延迟优化的协作式边缘缓存算法，其特征在于，所述步骤3中具体步骤如下：

3.1在确定了每个小型基站m的最佳内容缓存决策向量

后，将每个小型基站的带宽资源分配问题均描述为非线性整数规划问题P，即对于

均要求

其中，目标函数和约束函数都可以表示成关于所有决策变量

的一元函数求和的形式，即

并且所有

3.2每个小型基站均采用改进的分支定界法来解决上述可分离的凹整数规划问题，具体流程为：

3.2.3然后从该连续最优解出发，进行分支，其中每一分支对应一个子问题，然后解决这些子问题的连续松弛问题，直到找到一个可行整数解为止，该可行整数解的目标函数值为原问题P提供了一个上界，而每个子问题的连续最优解的目标函数值为相应子问题提供了一个下界；如果某一分支无可行解、或连续最优解是整数解、或者其下界超过了上界，就可以剪掉这一分支；而对于没有剪掉的分支，则重复分枝、剪枝的过程，直到所有分支都被剪掉为止；如果某一分支有可行整数解，必要的话需要更新上界，以确保上界等于现有的可行整数解的最小目标函数值；