CN113395333B

CN113395333B - 基于智能体深度增强学习的多边缘基站联合缓存替换方法

Info

Publication number: CN113395333B
Application number: CN202110599821.1A
Authority: CN
Inventors: 宋彤雨; 谈雪彬; 胡文昱; 董刘杨; 任婧; 王雄; 徐世中; 王晟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-03-25
Anticipated expiration: 2041-05-31
Also published as: CN113395333A

Abstract

本发明公开了一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法，在边缘缓存系统运行时，通过网络控制器统计所有边缘基站接收到的用户内容请求数量，当用户内容请求达到一定数量后，网络控制器提取这些用户内容请求的流行度特征，并实时检测流行度特征是否发生变化，当流行度特征未发生变化时，则边缘基站使用当前智能体进行缓存替换，当流行度特征发生变化时，则清空历史到达的用户内容请求，并使用LFU替代当前智能体并重新训练智能体决策网络，通过新的智能体进行缓存替换决策。

Description

基于智能体深度增强学习的多边缘基站联合缓存替换方法

技术领域

本发明属于通信技术领域，更为具体地讲，涉及一种基于智能体深度增强学习的多边缘基站联合缓存替换方法。

背景技术

由于移动设备和数据密集型应用的激增，5G及以后的移动通信网络需要以超高速和低延迟交付内容。在该目标驱动下，边缘缓存作为一种能有效减少内容传输延迟和网络拥塞的技术受到了学术界和工业界的广泛关注。

在传统的内容分发网络(Content Delivery Network,CDN)的缓存系统当中，常见的缓存替换算法有最不经常使用(Least Frequently Used,LFU)替换算法、最近最少使用(Least Recently Used,LRU)替换算法和先入先出(First In First Out,FIFO)替换算法等。但是相对于传统的CDN，由于边缘网络中单个小区内服务的用户数量较少，基站收到的内容请求具有更高的不确定性，内容流行度的变化也更快。因此上述基于最近访问时间或基于频率的缓存替换算法性能有限。同时，由于边缘缓存空间有限，且基站每次在进行缓存替换时都会消耗回传网络(backhaul network)的带宽资源，所以边缘网络中的缓存替换问题除了需要考虑命中率也需考虑缓存开销。

在边缘缓存问题当中，由于边缘基站的存储空间有限，因此只能缓存用户所请求内容集合中的一部分。当用户设备向边缘基站发起一次内容请求时，若接受请求的基站中缓存有该用户请求的内容，则直接将内容交付给用户设备；若接受请求的基站中不包含用户请求的内容，则向邻域内的基站发送该内容请求，若邻域内的其它基站缓存有用户请求的内容，则包含请求内容的基站先将内容传输至接受请求的基站，进而交付给用户；若邻域内所有基站都不包含用户请求的内容，则向远端的内容服务器发送请求，边缘基站将内容从远端内容服务器下载后交付给用户。此过程中，所有的内容传输过程都会产生一定的系统开销，并且若边缘基站要缓存从远端内容服务器下载的内容，则会产生额外的缓存开销。如果用户内容请求能够在邻域内被服务(即在接受用户请求的基站或者其邻域内的基站中缓存有被请求的内容)则记为命中，较高的内容请求命中率意味着较低的服务延迟和较高的用户体验质量(Quality of Experience，QoE)。本专利研究的系统目标是为每个边缘基站设计缓存替换策略，使得单位命中率所产生的系统开销最小，即用户内容请求产生的系统开销与命中率的比值尽可能小。此外，该方法还要求能够适应用户请求内容流行度信息变化的场景。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法，在内容流行度时变的边缘网络场景中设计多边缘基站的缓存替换策略，通过各边缘基站的缓存策略相互配合以实现高效的边缘缓存系统的缓存替换。

为实现上述发明目的，本发明一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法，其特征在于，包括以下步骤：

(1)、设边缘缓存系统内包含I个边缘基站，每个边缘基站都部署了初始智能体，对于第i个基站b_i，其部署的智能体记为a_i，每个智能体都维护一个智能体决策网络；设I个边缘基站在过去一段时间T内接收到的用户内容请求数量为N，每个边缘基站能够缓存的热点内容数量上限为K；设置边缘缓存系统的流行度动态矢量，其长度为L＝K·I；

(2)、边缘缓存系统运行时，网络控制器收集并统计I个边缘基站接收到的用户内容请求数量，如果接收到的用户内容请求数量小于N，则等待继续接收用户内容请求数量，否则进入步骤(3)；

(3)、网络控制器提取过去N条用户内容请求的流行度特征；

在N个用户内容请求中，统计每种内容被请求的次数，并按照从大到小的方式进行排序，排序完成后，将排序后每种内容被请求的次数作为流行度特征，记为流行度动态矢量；同时对排序后每种内容进行动态编号，其中，若排序后某种内容的序号n小于等于流行度动态矢量的长度，即n≤L，则排在第n位的内容的动态编号记为L-n+1；否则，其动态编号记为0；

(4)、流行度特征变化检测；

(4.1)、网络控制器统计I个边缘基站每接收到W条用户请求时作为触发流行度特征变化检测的标志，设当前为第k次检测；

(4.2)、在第k次检测时，当网络控制器统计I个边缘基站每接收到W条用户内容请求后，提取已接收到的N条用户内容请求在流行度动态矢量中存储的请求次数，然后计算请求次数排序靠前的H种用户内容请求的请求频率向量，记为

其中，i＝1,2,…,H，f_i ^k表示第k次检测时第i种用户内容请求的请求频率，

(4.3)、计算F^k和F^k-1的距离，记为KL_k；

(4.4)、若KL_k大于前m次计算得到的距离平均值的λ倍，λ为常数，则判定内容流行度特征发生了变化，并清空历史到达的用户内容请求，再进入步骤(6)，否则进入步骤(5)；

(5)、边缘基站进行智能体缓存替换；

边缘缓存系统计未命中的请求次数，当未命中请求达到M次时，记录在此期间内边缘缓存系统所收到的总请求数D(M)，同时接收第D(M)个请求的边缘基站的智能体执行缓存替换；

智能体执行缓存替换的具体过程为：

(5.1)、边缘缓存系统中的每个边缘基站b_i都向各自智能体决策网络输入本地观察值、智能体编号以及边缘基站上一次决策时决策网络输出的动作；其中，本地观察值具体包括：当前基站缓存区内所有内容的动态编号

以及它们在过去N个请求中被请求的次数

当前边缘基站的每个邻居基站b_j中缓存区内所有内容的动态编号

以及它们在过去N个请求中被请求的次数

基站缓存替换触发标志R，当R＝1时，表示边缘基站需要进行缓存替换决策，当R＝0时，表示边缘基站不需要进行缓存替换决策；第D(M)个内容请求g的动态编号s_g以及该内容在过去N个请求中被请求的次数c_g；

(5.2)、各边缘基站向智能体决策网络输入上述信息后，对接收第D(M)个请求的边缘基站进行缓存替换，并根据智能体决策网络的输出结果决定将当前缓存中的哪个内容替换为当前被请求的内容或选择不进行替换，而其它所有边缘基站都不进行缓存替换；

(5.3)、缓存替换结束后，返回步骤(4)；

(6)、重新训练智能体决策网络；

(6.1)、当边缘缓存系统检测到流行度特征变化时，使用LFU作为缓存替换算法替代当前智能体；然后进入步骤(6.2)；

(6.2)、重新训练智能体决策网络；

(6.2.1)、提取已接收到的N条用户内容请求组成的序列；

(6.2.2)、调用用于训练各边缘基站智能体的仿真器；

(6.2.3)、通过仿真器训练各边缘基站的智能体；

1)、将序列输入至仿真器；

2)、仿真器统计未命中请求次数，当未命中请求达到M次时，仿真器触发缓存替换，记当前触发的时刻为t；

3)、在t时刻，仿真器统计各边缘基站中智能体的本地观察值

及全局状态S_t；其中，全局状态S_t包括：动态编号从L到1的内容在过去N个用户内容请求中分别被请求的次数{c_L,c_L-1,…,c₁}；

4)、在t时刻，每个智能体a_i将自身观察

与智能体编号i以及上一时刻的动作

作为待训练的智能体决策网络的输入，从而输出当前时刻的动作

5)、仿真器根据动作

进行缓存替换，并计算上一时刻的奖励值r_t；

6)、保存t时刻获取到的本地观察值、全局状态、所有智能体的动作以及奖励值，若尚未执行完序列则返回步骤2)，否则通过多智能体深度增强学习方法进行对每个智能体的决策网络并返回步骤1)，直至每个智能体的决策网络趋于稳定；

(6.3)、停止使用LFU作为缓存替换决策算法，然后启用训练好的智能体继续执行缓存替换决策，再返回至步骤(4)。

本发明的发明目的是这样实现的：

本发明基于多智能体深度增强学习的多边缘基站联合缓存替换方法，在边缘缓存系统运行时，通过网络控制器统计所有边缘基站接收到的用户内容请求数量，当用户内容请求达到一定数量后，网络控制器提取这些用户内容请求的流行度特征，并实时检测流行度特征是否发生变化，当流行度特征未发生变化时，则边缘基站使用当前智能体进行缓存替换，当流行度特征发生变化时，则清空历史到达的用户内容请求，并使用LFU替代当前智能体并重新训练智能体决策网络，通过新的智能体进行缓存替换决策。

同时，本发明基于多智能体深度增强学习的多边缘基站联合缓存替换方法还具有以下有益效果：

(1)、本发明实现了多个边缘基站的联合缓存替换方案，相较于传统的缓存替换算法具有多基站协作的优势。

(2)、本发明实现的缓存替换方法使用深度神经网络进行决策，决策时延短。

(3)、本发明实现的缓存替换方法使用分布式决策，与边缘基站的实际部署情况相适应。

附图说明

图1是多边缘基站联合缓存替换的系统架构图；

图2是本发明基于多智能体深度增强学习的多边缘基站联合缓存替换方法流程图；

图3是多边缘基站联合缓存系统运行的时序图；

图4是边缘基站智能体决策网络输入输出示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

在本实施例中，如图1所示，在边缘缓存系统中，当用户设备向边缘基站发送一次请求时，若接受请求的基站中缓存有该用户请求的内容则直接递交内容至用户设备；若接受请求的基站中不包含用户请求的内容则向其邻域内的其它基站发送该内容请求，若邻域内的其它基站缓存有该用户请求的内容，则将内容传输至接受请求的基站后再递交给用户设备；若接受请求的基站及其邻域内所有基站都没有缓存用户请求的内容，则向远端内容服务器发送请求(远端内容服务器中包含所有内容)，接受请求的基站从远端内容服务器下载用户请求的内容，进而递交给用户，同时可以选择将该内容缓存至本地(需要额外开销且如果缓存区已满需要选择已缓存内容进行替换)。在该场景中，直接从接收请求的基站获取内容或从其邻域内的基站获取内容都认为该请求“命中”，需要从远端服务器下载的内容则记为该请求“未命中”；对于某一用户请求q，直接从接收请求的基站获取内容的系统开销可以忽略，从邻居基站获取内容的系统开销记为

从远端内容服务器获取内容的系统开销记为

将从远端内容服务器获取的内容缓存到边缘基站的系统开销记为

本发明的主要研究内容是设计缓存替换策略：在触发缓存替换决策时，根据当前缓存区中内容的流行度特征以及待决策内容的流行度特征决策选择对当前缓存区中的某个内容进行替换或不进行替换。

下面我们对本发明一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法进行详细说明，如图2所示，包括以下步骤：

S1、设边缘缓存系统内包含I＝3个边缘基站，每个边缘基站都部署了初始智能体，对于第i个基站b_i，其部署的智能体记为a_i，每个智能体都维护一个智能体决策网络；设I个边缘基站在过去一段时间T内接收到的用户内容请求数量为N＝2000，每个边缘基站能够缓存的热点内容数量上限为K＝10；设置边缘缓存系统的流行度动态矢量，其长度为L＝K·I＝30；

S2、边缘缓存系统运行时，网络控制器收集并统计I个边缘基站接收到的用户内容请求数量，如果接收到的用户内容请求数量小于N，则等待继续接收用户内容请求数量，否则进入步骤S3；

S3、边缘缓存系统的网络控制器提取过去N条用户内容请求的流行度特征；

在本实施例中，对于过去2000个内容请求中，最热点的内容记为f₁，其动态编号

对于请求次数排序为29的内容其动态序号

对于请求次数排序为35的内容其动态编号

因为L＜n。不难发现，越热点的内容在动态内容集合中的序号越大。

S4、流行度特征变化检测；

S4.1、如图3所示，网络控制器统计I个边缘基站每接收到W＝100条用户内容请求时作为触发流行度特征变化检测的标志，设当前为第k次检测；

S4.2、在第k次检测时，当网络控制器统计I个边缘基站每接收到W条用户内容请求后，提取已接收到的N条用户内容请求在流行度动态矢量中存储的请求次数，然后计算请求次数排序靠前的H种用户内容请求的请求频率向量，记为

S4.3、计算分布间的距离的方法有多种，例如F散度(f-divergence)、KL散度(Kullback-Leibler divergence)等。在本实施例中，使用KL散度计算F^k和F^k-1的距离，记为KL_k；

S4.4、若KL_k大于前m＝5次计算得到的KL散度平均值的λ＝6倍，则判定内容流行度特征发生了变化，并清空历史到达的用户内容请求，再进入步骤S6，否则进入步骤S5；

S5、边缘基站进行智能体缓存替换；

边缘缓存系统计未命中的请求次数，当未命中请求达到M＝15次时，记录在此期间内边缘缓存系统所收到的总请求数D(M)，同时接收第D(M)个请求的边缘基站的智能体执行缓存替换；

如图4所示，智能体执行缓存替换的具体过程为：

S5.1、边缘缓存系统中的每个边缘基站b_i都向各自智能体决策网络输入本地观察值、智能体编号以及边缘基站上一次决策时决策网络输出的动作；其中，本地观察值具体包括：当前基站缓存区内所有内容的动态编号

长度为10；当前基站缓存区内所有内容在过去N个请求中被请求的次数

长度为10；当前边缘基站的每个邻居基站b_j中缓存区内所有内容的动态编号

长度为10×2＝20；当前边缘基站的每个邻居基站b_j中缓存区内所有内容在过去N个请求中被请求的次数

长度为10×2＝20；基站缓存替换触发标志R，长度为1，当R＝1时，表示边缘基站需要进行缓存替换决策，当R＝0时，表示边缘基站不需要进行缓存替换决策；第D(M)个内容请求g的动态编号s_g，长度为1；第D(M)个内容请求g在过去N个请求中被请求的次数c_g，长度为1；故输入决策网络的本地观察长度为63；智能体编号使用独热编码的方式输入决策网络，长度为3；决策网络输出动作的含义包括：选择当前缓存的10个内容中的某一个与当前被请求的内容进行替换或不进行替换，使用独热编码，因此长度为10+1＝11；决策网络的全部输入长度为63+3+11＝77；

S5.2、各边缘基站向智能体决策网络输入上述信息后，对接收第D(M)个请求的边缘基站进行缓存替换，并根据智能体决策网络的输出结果决定将当前缓存中的哪个内容替换为当前被请求的内容或选择不进行替换，而其它所有边缘基站都不进行缓存替换；

S5.3、缓存替换结束后，返回步骤S4；

S6、重新训练智能体决策网络；

S6.1、当边缘缓存系统检测到流行度特征变化时，使用LFU作为缓存替换算法替代当前智能体；然后进入步骤S6.2；

S6.2、重新训练智能体决策网络；

S6.2.1、提取已接收到的N条用户内容请求组成的序列；

S6.2.2、调用用于训练各边缘基站智能体的仿真器；

S6.2.3、通过仿真器训练各边缘基站的智能体；

1)、将序列输入至仿真器；

3)、在t时刻，仿真器统计各边缘基站中智能体的本地观察值

及全局状态S_t；其中，全局状态S_t包括：动态编号从L到1的内容在过去N个用户内容请求中分别被请求的次数{c_L,c_L-1,…,c₁}，长度为30；

4)、在t时刻，每个智能体a_i将自身观察

与智能体编号i以及上一时刻的动作

5)、仿真器根据动作

进行缓存替换，并计算上一时刻的奖励值r_t；

6)、保存t时刻获取到的本地观察值、全局状态、所有智能体的动作以及奖励值，若尚未执行完序列则返回步骤2),否则通过多智能体深度增强学习方法对每个智能体的决策网络进行更新：选择基于演员-评论家(Actor-Critic)的多智能体增强学习算法反事实多智能体(COMA，Counterfactual Multi-Agent)策略梯度作为训练算法对决策网络进行训练；评论家网络的输入包括：当前时刻其他2个基站中智能体的动作，使用独热编码，长度为11×2＝22；当前时刻的全局状态，长度为30；当前时刻智能体的观察，长度为63；智能体的编号，独热编码，长度为3；上一时刻所有智能体的动作，每个智能体分别使用独热编码，长度为11×3＝33；由上所述，评论家网络的输入层宽度为151。评论家网络的输出是对于每种动作相对于其他动作的优势，因此输出层宽度为11(动作的数量)；此外，为了增强评论家网络的拟合能力，使用了两层宽度为128的全连接隐藏层，层与层之间使用ReLU(RectifiedLinear Unit)激活函数连接，输出层不使用激活函数；决策网络使用了两层宽度为128的全连接层作为隐藏层，层与层之间使用ReLU激活函数连接，输出层使用softmax激活函数；对评论家网络以及智能体决策网络训练时都使用了RMSProp(Root Mean Square Prop)优化器，训练评论家网络时使用的学习率为5×10^-4；训练决策网络时使用的学习率是5×10^-5；在训练时还引入了目标评论家网络，目标评论家网络在评论家网络更新10次后复制评论家网络的参数；为了防止梯度爆炸，使用了梯度裁剪技术，梯度上限设置为5；此外，为了在训练过程中增加智能体的探索，使用了ε-greedy技术，初始概率设置为0.5，经过4900轮训练后衰减至0.01；更新完成后返回步骤1)，直至每个智能体的决策网络趋于稳定；

S6.3、停止使用LFU作为缓存替换决策算法，然后启用训练好的智能体继续执行缓存替换决策，再返回至步骤S4。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。