CN109873869B

CN109873869B - 一种雾无线接入网中基于强化学习的边缘缓存方法

Info

Publication number: CN109873869B
Application number: CN201910163764.5A
Authority: CN
Inventors: 蒋雁翔; 陆镠央; 尤肖虎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2021-08-24
Anticipated expiration: 2039-03-05
Also published as: CN109873869A

Abstract

本发明公开了一种雾无线接入网中基于强化学习的边缘缓存方法，包括：(1)根据全局文件流行度，初始化节点的本地缓存动作向量、系统状态，以及权重向量；(2)记录前一时隙的缓存动作向量；(3)在每个时隙结束时刻，根据贪婪选择算法以及近似值函数，得出新的缓存动作向量；(4)根据时隙内收集到的用户请求次数计算内容流行度，同时根据时隙内收集的用户偏好标记，结合文件特征标记，计算区域用户偏好，确定系统状态；(5)根据时隙内用户对各个文件的请求次数，计算缓存命中率，得到即时回报函数以及即时误差函数；(6)更新权重向量，进入下一时隙。

Description

一种雾无线接入网中基于强化学习的边缘缓存方法

技术领域

本发明涉及移动通信系统中的边缘缓存方法，尤其涉及一种雾无线接入网中基于强化学习的边缘缓存方法。

背景技术

随着实时多媒体服务在5G通信网络中逐渐成为主要业务，无线网络为了支持这种高速大容量的无线网络业务，正在遭受空前的数据传输压力。雾无线接入网作为5G通信系统的新型系统架构，通过在节点中提前缓存流行内容，从而可以有效地降低回传负载，在缓解前传拥塞和降低通信时延等方面有着巨大优势。由于网络环境空时变化复杂以及各个节点的存储空间有限，雾无线接入网缓存技术面临各种各样的挑战，诸如，为使得节点的缓存命中率尽可能地高，应该在何时存放什么内容到本地节点。

传统的缓存策略诸如最近最少使用缓存策略、最近最不常用缓存策略以及这些算法的变体已经广泛应用于有线网络，然而，实时多媒体服务使得网络环境趋向复杂，单一的基于全局文件流行度的传统缓存策略不再适用于无线网络。目前的研究工作正在转向基于区域流行度和用户偏好的动态缓存策略的研究上。如果能从较为复杂的网络环境中，提取到有效信息并加以利用并预测下一时刻用户最有可能请求的文件，节点可以保证持续缓存热点内容，从而实现逼近理想缓存策略的缓存命中率，最大程度降低回传负载和通信时延。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种雾无线接入网中基于强化学习的边缘缓存方法，本发明动态地确定雾无线接入网中的节点的缓存决策，且通信开销少、总前传卸载量较高。

本发明所采用的技术方案是：一种雾无线接入网中基于强化学习的边缘缓存方法，包括以下步骤：

S1：根据全局文件流行度初始化节点的本地缓存动作向量a(0)，并随机初始化系统状态s(0)和权重向量w₀；

S2：在第t个时隙，记录上一时刻的缓存动作向量a(t-1)，当前时刻的缓存动作向量a(t)＝[a₁(t),...,a_f(t),...,a_F(t)]^T，其中a_f(t)＝1表示在第t个时隙第f个文件已缓存至本地，a_f(t)＝0表示在第t个时隙第f个文件未缓存至本地；

S3：本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t)，并结合S2中记录的上一时刻缓存动作向量a(t-1)，确认当前的系统状态s(t)；

S4：在第t个时隙结束时刻，根据事先设定的贪婪选择中的贪婪因子∈_t，进行缓存动作向量的选择：

其中，

为近似值函数，s(t)为系统状态，

为缓存动作集合，w_t为权重向量；

S5：收集用户对各个文件的请求次数，计算得到即时回报函数r(t)，并以此计算即时误差函数

S6：更新权重向量w_t，并令t＝t+1，开始下一个时隙的缓存优化。

进一步的，所述S3具体包括以下步骤：

S3-1：收集在第t个时隙内的所有用户请求，以对第f个文件的内容为例子，d_f(t)为其被区域用户请求的总次数，则第f个文件的内容流行度：

内容流行度向量p(t)＝[p₁(t),...,p_f(t),...,p_F(t)]^T；

S3-2：收集在第t个时隙内的所有用户偏好标记x_n(t)∈[0,1]^L，并根据文件特征标记y_f(t)∈[0,1]^L，得出来自用户集

中每个用户与每个文件之间的关联性函数：

g[x_n(t),y_f(t)]＝(1-<x_n(t),y_f(t)>)^log(1-α) (3)

其中，L为标记向量的维度，α为相关性参数；

S3-3：用户偏好向量q(t)＝[q₁(t),...,q_f(t),...,q_F(t)]^T，其中

进一步的，S4中将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题，具体包括以下步骤：

S4-1：根据上一时刻的缓存动作向量a(t-1)和自变量x(t)，计算得到代价z₁(t)＝x^T(t)(1-a(t-1))；

S4-2：根据内容流行度p(t)和自变量x(t)，计算得到代价矢量

S4-3：根据用户偏好向量q(t)和自变量x(t)，计算得到代价矢量

S4-4：构建代价向量：

z(t)＝[z₁(t),z₂(t)^T,z₃(t)^T]^T；

S4-5：根据权重向量w_t和由构建的代价向量z(t)，得到如下整数规划并求解：

s.t.x(t)∈{0,1}^F,x(t)·1＝M

其中，F表示文件库中的文件个数，M表示节点可缓存的文件个数上限。

进一步的，所述S5具体包括以下步骤：

S5-1：计算得到第t个时隙内的缓存命中率：

S5-2：根据第t个时隙内的缓存命中率，得到即时回报函数：r(t)＝1-θ(t)；

S5-3：根据即时回报函数得到即时误差函数：

其中，γ为折现因子，w_t为权重向量。

进一步的，所述S6具体包括以下步骤：

S6-1：根据即时误差函数

和代价向量z(t)，更新权重向量：

其中，ρ为学习步长；

S6-2：令t＝t+1，回到S2开始下一个时隙的缓存优化。

有益效果：本发明具有以下优点：

1、通过各节点在缓存动作后得到的即时回报函数进行动态缓存优化，使得各节点能够免于大量的信息交互而自行完成最优决策；

2、将雾无线接入网中的动态缓存布置问题建立在深度强化学习框架下，准确地描述用户请求与节点缓存状态的实时情况，进而使得节点在每一时刻均能够做出最优决策，从而使动态的最优内容布置成为可能；

3、利用结合缓存更新代价、结合内容流行度和区域用户偏好的代价特征向量，通过基于值函数近似的强化学习算法降低了传统强化学习算法的复杂度，加快了在线学习的收敛速度；

附图说明

图1是本发明的流程示意图。

图2是本发明与传统边缘缓存策略对缓存命中率进行对比的仿真结果图。

具体实施方式

下面结合附图和实施例进一步阐述本发明。

本发明所述的一种雾无线接入网中基于强化学习的边缘缓存方法，包括如下步骤：

S2：在第t个时隙，记录上一时刻的缓存动作向量a(t-1)，其中，缓存动作向量也称为节点的缓存决策向量。当前时刻的缓存动作向量a(t)＝[a₁(t),...,a_f(t),...,a_F(t)]^T，其中a_f(t)＝1表示在第t个时隙第f个文件已缓存至本地，若a_f(t)＝0则反之；

S3：本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好向量q(t)，并结合步骤(2)中得到的上一时刻缓存动作向量a(t-1)，确认当前的系统状态s(t)。

具体包括：；

S3-1：收集在第t个时隙内的所有用户请求，以对第f个内容为例子，d_f(t)为其被区域用户请求的总次数，则第f个文件的内容流行度：

内容流行度向量p(t)＝[p₁(t),...,p_f(t),...,p_F(t)]^T；

中每个用户与每个文件之间的关联性函数：

g[x_n(t),y_f(t)]＝(1-<x_n(t),y_f(t)>)^log(1-α) (3)

其中，L为标记向量的维度，α为相关性参数；

S3-3：用户偏好向量q(t)＝[q₁(t),...,q_f(t),...,q_F(t)]^T，其中

S4：在第t个时隙结束时刻，确定贪婪选择中的贪婪因子∈_t，并根据下面公式进行缓存向量的选择：

其中，

为近似值函数，s(t)为系统状态，由前一时刻的缓存动作a(t-1)、当前时刻的内容流行度p(t)和区域用户偏好q(t)组成，

为缓存动作集合；

将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题，具体包括：

S4-2：根据内容流行度p(t)和自变量x(t)，计算得到代价矢量

S4-3：根据用户偏好向量q(t)和自变量x(t)，计算得到代价矢量

S4-4：构建代价向量：

z(t)＝[z₁(t),z₂(t)^T,z₃(t)^T]^T；

s.t.x(t)∈{0,1}^F,x(t)·1＝M

S5：收集用户对各个文件的请求次数，计算回报r(t)，并以此计算即时误差函数

具体包括：

S5-1：收集在第t个时隙内的对文件库

中所有文件的用户请求记录，以第f个文件的内容为例子，d_f(t)为其被区域用户请求的总次数；

S5-2：根据S5-1得到的针对各个文件的请求，计算缓存命中率：

其中a_f(t)＝1表示在第t个时隙第f个文件已缓存至本地，若a_f(t)＝0则反之；

S5-3：根据步骤S5-2得到的第t个时隙内的缓存命中率，得到即时回报函数r(t)＝1-θ(t)；

S5-4：根据步骤S5-3得到的回报函数带入如下公式中，可得到即时误差函数：

其中γ为折现因子。

S6：更新权重向量w_t，并令t＝t+1，开始下一个时隙的缓存优化。具体包括：

S6-1：确定学习步长ρ；

S6-2：根据步骤S5-3得到的即时误差函数

以及步骤S3-4得到的代价向量z(t)，更新权重向量：

S6-3：令t＝t+1，回到S2开始下一个时隙的缓存优化。

由附图2的仿真结果可得，与最近最少使用缓存方法(Least Recently Used，LRU)和最近最不常用缓存方法(Least Frequently Used，LFU)这两种传统的缓存方法比较，本发明所述的强化学习方法的缓存命中率性能明显更优，其中所述强化学习方法具体为基于值函数近似的Q学习方法(Value Function Approximation based Q learning,Q-VFA-learning)。