CN109873869B - 一种雾无线接入网中基于强化学习的边缘缓存方法 - Google Patents

一种雾无线接入网中基于强化学习的边缘缓存方法 Download PDF

Info

Publication number
CN109873869B
CN109873869B CN201910163764.5A CN201910163764A CN109873869B CN 109873869 B CN109873869 B CN 109873869B CN 201910163764 A CN201910163764 A CN 201910163764A CN 109873869 B CN109873869 B CN 109873869B
Authority
CN
China
Prior art keywords
vector
time slot
file
calculating
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910163764.5A
Other languages
English (en)
Other versions
CN109873869A (zh
Inventor
蒋雁翔
陆镠央
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910163764.5A priority Critical patent/CN109873869B/zh
Publication of CN109873869A publication Critical patent/CN109873869A/zh
Application granted granted Critical
Publication of CN109873869B publication Critical patent/CN109873869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种雾无线接入网中基于强化学习的边缘缓存方法,包括:(1)根据全局文件流行度,初始化节点的本地缓存动作向量、系统状态,以及权重向量;(2)记录前一时隙的缓存动作向量;(3)在每个时隙结束时刻,根据贪婪选择算法以及近似值函数,得出新的缓存动作向量;(4)根据时隙内收集到的用户请求次数计算内容流行度,同时根据时隙内收集的用户偏好标记,结合文件特征标记,计算区域用户偏好,确定系统状态;(5)根据时隙内用户对各个文件的请求次数,计算缓存命中率,得到即时回报函数以及即时误差函数;(6)更新权重向量,进入下一时隙。

Description

一种雾无线接入网中基于强化学习的边缘缓存方法
技术领域
本发明涉及移动通信系统中的边缘缓存方法,尤其涉及一种雾无线接入网中基于强化学习的边缘缓存方法。
背景技术
随着实时多媒体服务在5G通信网络中逐渐成为主要业务,无线网络为了支持这种高速大容量的无线网络业务,正在遭受空前的数据传输压力。雾无线接入网作为5G通信系统的新型系统架构,通过在节点中提前缓存流行内容,从而可以有效地降低回传负载,在缓解前传拥塞和降低通信时延等方面有着巨大优势。由于网络环境空时变化复杂以及各个节点的存储空间有限,雾无线接入网缓存技术面临各种各样的挑战,诸如,为使得节点的缓存命中率尽可能地高,应该在何时存放什么内容到本地节点。
传统的缓存策略诸如最近最少使用缓存策略、最近最不常用缓存策略以及这些算法的变体已经广泛应用于有线网络,然而,实时多媒体服务使得网络环境趋向复杂,单一的基于全局文件流行度的传统缓存策略不再适用于无线网络。目前的研究工作正在转向基于区域流行度和用户偏好的动态缓存策略的研究上。如果能从较为复杂的网络环境中,提取到有效信息并加以利用并预测下一时刻用户最有可能请求的文件,节点可以保证持续缓存热点内容,从而实现逼近理想缓存策略的缓存命中率,最大程度降低回传负载和通信时延。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种雾无线接入网中基于强化学习的边缘缓存方法,本发明动态地确定雾无线接入网中的节点的缓存决策,且通信开销少、总前传卸载量较高。
本发明所采用的技术方案是:一种雾无线接入网中基于强化学习的边缘缓存方法,包括以下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);
S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:
Figure GDA0003080245930000021
其中,
Figure GDA0003080245930000022
为近似值函数,s(t)为系统状态,
Figure GDA0003080245930000023
为缓存动作集合,wt为权重向量;
S5:收集用户对各个文件的请求次数,计算得到即时回报函数r(t),并以此计算即时误差函数
Figure GDA0003080245930000024
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。
进一步的,所述S3具体包括以下步骤:
S3-1:收集在第t个时隙内的所有用户请求,以对第f个文件的内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
Figure GDA0003080245930000025
内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T
S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yf(t)∈[0,1]L,得出来自用户集
Figure GDA0003080245930000026
中每个用户与每个文件之间的关联性函数:
g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
Figure GDA0003080245930000027
进一步的,S4中将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括以下步骤:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-2:根据内容流行度p(t)和自变量x(t),计算得到代价矢量
Figure GDA0003080245930000028
S4-3:根据用户偏好向量q(t)和自变量x(t),计算得到代价矢量
Figure GDA0003080245930000029
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T
S4-5:根据权重向量wt和由构建的代价向量z(t),得到如下整数规划并求解:
Figure GDA0003080245930000031
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,F表示文件库中的文件个数,M表示节点可缓存的文件个数上限。
进一步的,所述S5具体包括以下步骤:
S5-1:计算得到第t个时隙内的缓存命中率:
Figure GDA0003080245930000032
S5-2:根据第t个时隙内的缓存命中率,得到即时回报函数:r(t)=1-θ(t);
S5-3:根据即时回报函数得到即时误差函数:
Figure GDA0003080245930000033
其中,γ为折现因子,wt为权重向量。
进一步的,所述S6具体包括以下步骤:
S6-1:根据即时误差函数
Figure GDA0003080245930000034
和代价向量z(t),更新权重向量:
Figure GDA0003080245930000035
其中,ρ为学习步长;
S6-2:令t=t+1,回到S2开始下一个时隙的缓存优化。
有益效果:本发明具有以下优点:
1、通过各节点在缓存动作后得到的即时回报函数进行动态缓存优化,使得各节点能够免于大量的信息交互而自行完成最优决策;
2、将雾无线接入网中的动态缓存布置问题建立在深度强化学习框架下,准确地描述用户请求与节点缓存状态的实时情况,进而使得节点在每一时刻均能够做出最优决策,从而使动态的最优内容布置成为可能;
3、利用结合缓存更新代价、结合内容流行度和区域用户偏好的代价特征向量,通过基于值函数近似的强化学习算法降低了传统强化学习算法的复杂度,加快了在线学习的收敛速度;
附图说明
图1是本发明的流程示意图。
图2是本发明与传统边缘缓存策略对缓存命中率进行对比的仿真结果图。
具体实施方式
下面结合附图和实施例进一步阐述本发明。
本发明所述的一种雾无线接入网中基于强化学习的边缘缓存方法,包括如下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),其中,缓存动作向量也称为节点的缓存决策向量。当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,若af(t)=0则反之;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好向量q(t),并结合步骤(2)中得到的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t)。
具体包括:;
S3-1:收集在第t个时隙内的所有用户请求,以对第f个内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
Figure GDA0003080245930000041
内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T
S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yf(t)∈[0,1]L,得出来自用户集
Figure GDA0003080245930000042
中每个用户与每个文件之间的关联性函数:
g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
Figure GDA0003080245930000043
S4:在第t个时隙结束时刻,确定贪婪选择中的贪婪因子∈t,并根据下面公式进行缓存向量的选择:
Figure GDA0003080245930000044
其中,
Figure GDA0003080245930000045
为近似值函数,s(t)为系统状态,由前一时刻的缓存动作a(t-1)、当前时刻的内容流行度p(t)和区域用户偏好q(t)组成,
Figure GDA0003080245930000051
为缓存动作集合;
将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-2:根据内容流行度p(t)和自变量x(t),计算得到代价矢量
Figure GDA0003080245930000052
S4-3:根据用户偏好向量q(t)和自变量x(t),计算得到代价矢量
Figure GDA0003080245930000053
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T
S4-5:根据权重向量wt和由构建的代价向量z(t),得到如下整数规划并求解:
Figure GDA0003080245930000054
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,F表示文件库中的文件个数,M表示节点可缓存的文件个数上限。
S5:收集用户对各个文件的请求次数,计算回报r(t),并以此计算即时误差函数
Figure GDA0003080245930000055
具体包括:
S5-1:收集在第t个时隙内的对文件库
Figure GDA0003080245930000056
中所有文件的用户请求记录,以第f个文件的内容为例子,df(t)为其被区域用户请求的总次数;
S5-2:根据S5-1得到的针对各个文件的请求,计算缓存命中率:
Figure GDA0003080245930000057
其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,若af(t)=0则反之;
S5-3:根据步骤S5-2得到的第t个时隙内的缓存命中率,得到即时回报函数r(t)=1-θ(t);
S5-4:根据步骤S5-3得到的回报函数带入如下公式中,可得到即时误差函数:
Figure GDA0003080245930000058
其中γ为折现因子。
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。具体包括:
S6-1:确定学习步长ρ;
S6-2:根据步骤S5-3得到的即时误差函数
Figure GDA0003080245930000061
以及步骤S3-4得到的代价向量z(t),更新权重向量:
Figure GDA0003080245930000062
S6-3:令t=t+1,回到S2开始下一个时隙的缓存优化。
由附图2的仿真结果可得,与最近最少使用缓存方法(Least Recently Used,LRU)和最近最不常用缓存方法(Least Frequently Used,LFU)这两种传统的缓存方法比较,本发明所述的强化学习方法的缓存命中率性能明显更优,其中所述强化学习方法具体为基于值函数近似的Q学习方法(Value Function Approximation based Q learning,Q-VFA-learning)。

Claims (5)

1.一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:包括以下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地,F表示文件库中的文件个数;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);
S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:
Figure FDA0003080245920000011
其中,
Figure FDA0003080245920000012
为近似值函数,s(t)为系统状态,
Figure FDA0003080245920000013
为缓存动作集合,wt为权重向量;
S5:收集用户对各个文件的请求次数,计算得到即时回报函数r(t),并以此计算即时误差函数
Figure FDA0003080245920000014
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。
2.根据权利要求1所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:所述S3具体包括以下步骤:
S3-1:收集在第t个时隙内的所有用户请求,以对第f个文件为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
Figure FDA0003080245920000015
内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T,文件库
Figure FDA0003080245920000016
S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yf(t)∈[0,1]L,得出来自用户集
Figure FDA0003080245920000017
中每个用户与每个文件之间的关联性函数:
g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
Figure FDA0003080245920000021
3.根据权利要求2所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:S4中将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括以下步骤:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-2:根据内容流行度p(t)和自变量x(t),计算得到代价矢量
Figure FDA0003080245920000022
S4-3:根据用户偏好向量q(t)和自变量x(t),计算得到代价矢量
Figure FDA0003080245920000023
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T
S4-5:根据权重向量wt和构建的代价向量z(t),得到如下整数规划并求解:
Figure FDA0003080245920000024
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,M表示节点可缓存的文件个数上限。
4.根据权利要求3所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:所述S5具体包括以下步骤:
S5-1:计算得到第t个时隙内的缓存命中率:
Figure FDA0003080245920000025
S5-2:根据第t个时隙内的缓存命中率,得到即时回报函数:r(t)=1-θ(t);
S5-3:根据即时回报函数得到即时误差函数:
Figure FDA0003080245920000026
其中,γ为折现因子。
5.根据权利要求4所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:所述S6具体包括以下步骤:
S6-1:根据即时误差函数
Figure FDA0003080245920000027
和代价向量z(t),更新权重向量:
Figure FDA0003080245920000031
其中,ρ为学习步长;
S6-2:令t=t+1,回到S2开始下一个时隙的缓存优化。
CN201910163764.5A 2019-03-05 2019-03-05 一种雾无线接入网中基于强化学习的边缘缓存方法 Active CN109873869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910163764.5A CN109873869B (zh) 2019-03-05 2019-03-05 一种雾无线接入网中基于强化学习的边缘缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910163764.5A CN109873869B (zh) 2019-03-05 2019-03-05 一种雾无线接入网中基于强化学习的边缘缓存方法

Publications (2)

Publication Number Publication Date
CN109873869A CN109873869A (zh) 2019-06-11
CN109873869B true CN109873869B (zh) 2021-08-24

Family

ID=66919813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910163764.5A Active CN109873869B (zh) 2019-03-05 2019-03-05 一种雾无线接入网中基于强化学习的边缘缓存方法

Country Status (1)

Country Link
CN (1) CN109873869B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995828B (zh) * 2019-11-29 2020-11-24 北京邮电大学 一种网络资源缓存方法、装置及系统
CN110968816B (zh) * 2019-12-23 2023-11-28 广东技术师范大学 一种基于强化学习的内容缓存方法、装置及存储介质
CN111182644B (zh) * 2019-12-24 2022-02-08 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111314862B (zh) * 2020-02-19 2022-01-28 东南大学 雾无线接入网中深度强化学习下带有推荐的缓存方法
CN111340277B (zh) * 2020-02-19 2023-04-25 东南大学 雾无线接入网中基于联邦学习的流行度预测模型及预测方法
CN111488528A (zh) * 2020-04-28 2020-08-04 西安邮电大学 内容缓存管理方法及装置、电子设备
CN111629218A (zh) * 2020-04-29 2020-09-04 南京邮电大学 一种vanet中基于时变线性的加速强化学习边缘缓存方法
CN111901392B (zh) * 2020-07-06 2022-02-25 北京邮电大学 一种面向移动边缘计算的内容部署与分发方法及系统
CN111970717B (zh) * 2020-08-07 2022-11-25 杭州电子科技大学 基于雾无线接入网中内容缓存和用户-基站关联的方法
CN111935784B (zh) * 2020-08-12 2022-04-22 重庆邮电大学 一种雾计算网络中基于联邦学习的内容缓存方法
CN113993168B (zh) * 2021-10-27 2024-02-09 东南大学 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1934770A2 (en) * 2005-08-31 2008-06-25 Texas Instruments Incorporated Improved multi-threading processors, integrated circuit devices, systems, and processes of operation and manufacture
CN101911618A (zh) * 2007-11-14 2010-12-08 高通股份有限公司 用于移动环境中的消息值计算的方法和系统
CN108900617A (zh) * 2018-07-03 2018-11-27 东南大学 一种雾无线接入网的三层协作式缓存方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1934770A2 (en) * 2005-08-31 2008-06-25 Texas Instruments Incorporated Improved multi-threading processors, integrated circuit devices, systems, and processes of operation and manufacture
CN101911618A (zh) * 2007-11-14 2010-12-08 高通股份有限公司 用于移动环境中的消息值计算的方法和系统
CN108900617A (zh) * 2018-07-03 2018-11-27 东南大学 一种雾无线接入网的三层协作式缓存方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D2D集成雾无线接入网中的双层分布式缓存;蒋雁翔;《电信科学》;20180420;全文 *

Also Published As

Publication number Publication date
CN109873869A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109873869B (zh) 一种雾无线接入网中基于强化学习的边缘缓存方法
CN107911711B (zh) 一种考虑分区的边缘缓存替换改进方法
WO2020253664A1 (zh) 视频传输方法、系统和存储介质
CN101184021B (zh) 一种实现流媒体缓存置换的方法、设备及系统
CN112218337A (zh) 一种移动边缘计算中的缓存策略决策方法
WO2011109957A1 (zh) 一种提高网页访问速度的方法及装置
CN113382059B (zh) 一种雾无线接入网中基于联邦强化学习的协作缓存方法
CN112752308B (zh) 一种基于深度强化学习的移动预测无线边缘缓存方法
CN108541025B (zh) 一种面向无线异构网络的基站与d2d共同缓存方法
CN111491175B (zh) 一种基于视频内容特征的边缘网络缓存方法和装置
CN113993168A (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN113127515A (zh) 面向电网的调控数据高速缓存方法、装置、计算机设备和存储介质
CN112911614A (zh) 基于动态请求d2d网络中的协作编码缓存方法
CN101840417A (zh) 一种基于相关关系的物联网uid查询方法
CN105430062A (zh) 一种基于兴趣-相关度的移动p2p网络数据预取方法
CN109743407B (zh) 一种面向多租户网络的边缘网络缓存方法
Chen et al. An edge caching strategy based on separated learning of user preference and content popularity
Fang et al. Mobile Edge Data Cooperative Cache Admission Based on Content Popularity
Al Ridhawi et al. Client-side partial file caching for cloud-based systems
Liu et al. Proactive data caching and replacement in the edge computing environment
CN113489779A (zh) 一种基于网络拓扑分层的精确缓存放置方法
Xu et al. An incremental learning based edge caching system: From modeling to evaluation
CN105530303A (zh) 一种网络缓存线性替换方法
CN110519801A (zh) 一种雾无线接入网中基于贪婪算法的混合缓存内容部署方法
CN115696296B (zh) 一种基于社区发现和加权联邦学习的主动边缘缓存方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant