CN109873869B - 一种雾无线接入网中基于强化学习的边缘缓存方法 - Google Patents
一种雾无线接入网中基于强化学习的边缘缓存方法 Download PDFInfo
- Publication number
- CN109873869B CN109873869B CN201910163764.5A CN201910163764A CN109873869B CN 109873869 B CN109873869 B CN 109873869B CN 201910163764 A CN201910163764 A CN 201910163764A CN 109873869 B CN109873869 B CN 109873869B
- Authority
- CN
- China
- Prior art keywords
- vector
- time slot
- file
- calculating
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种雾无线接入网中基于强化学习的边缘缓存方法,包括:(1)根据全局文件流行度,初始化节点的本地缓存动作向量、系统状态,以及权重向量;(2)记录前一时隙的缓存动作向量;(3)在每个时隙结束时刻,根据贪婪选择算法以及近似值函数,得出新的缓存动作向量;(4)根据时隙内收集到的用户请求次数计算内容流行度,同时根据时隙内收集的用户偏好标记,结合文件特征标记,计算区域用户偏好,确定系统状态;(5)根据时隙内用户对各个文件的请求次数,计算缓存命中率,得到即时回报函数以及即时误差函数;(6)更新权重向量,进入下一时隙。
Description
技术领域
本发明涉及移动通信系统中的边缘缓存方法,尤其涉及一种雾无线接入网中基于强化学习的边缘缓存方法。
背景技术
随着实时多媒体服务在5G通信网络中逐渐成为主要业务,无线网络为了支持这种高速大容量的无线网络业务,正在遭受空前的数据传输压力。雾无线接入网作为5G通信系统的新型系统架构,通过在节点中提前缓存流行内容,从而可以有效地降低回传负载,在缓解前传拥塞和降低通信时延等方面有着巨大优势。由于网络环境空时变化复杂以及各个节点的存储空间有限,雾无线接入网缓存技术面临各种各样的挑战,诸如,为使得节点的缓存命中率尽可能地高,应该在何时存放什么内容到本地节点。
传统的缓存策略诸如最近最少使用缓存策略、最近最不常用缓存策略以及这些算法的变体已经广泛应用于有线网络,然而,实时多媒体服务使得网络环境趋向复杂,单一的基于全局文件流行度的传统缓存策略不再适用于无线网络。目前的研究工作正在转向基于区域流行度和用户偏好的动态缓存策略的研究上。如果能从较为复杂的网络环境中,提取到有效信息并加以利用并预测下一时刻用户最有可能请求的文件,节点可以保证持续缓存热点内容,从而实现逼近理想缓存策略的缓存命中率,最大程度降低回传负载和通信时延。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种雾无线接入网中基于强化学习的边缘缓存方法,本发明动态地确定雾无线接入网中的节点的缓存决策,且通信开销少、总前传卸载量较高。
本发明所采用的技术方案是:一种雾无线接入网中基于强化学习的边缘缓存方法,包括以下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);
S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。
进一步的,所述S3具体包括以下步骤:
S3-1:收集在第t个时隙内的所有用户请求,以对第f个文件的内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T;
g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
进一步的,S4中将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括以下步骤:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T;
S4-5:根据权重向量wt和由构建的代价向量z(t),得到如下整数规划并求解:
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,F表示文件库中的文件个数,M表示节点可缓存的文件个数上限。
进一步的,所述S5具体包括以下步骤:
S5-1:计算得到第t个时隙内的缓存命中率:
S5-2:根据第t个时隙内的缓存命中率,得到即时回报函数:r(t)=1-θ(t);
S5-3:根据即时回报函数得到即时误差函数:
其中,γ为折现因子,wt为权重向量。
进一步的,所述S6具体包括以下步骤:
其中,ρ为学习步长;
S6-2:令t=t+1,回到S2开始下一个时隙的缓存优化。
有益效果:本发明具有以下优点:
1、通过各节点在缓存动作后得到的即时回报函数进行动态缓存优化,使得各节点能够免于大量的信息交互而自行完成最优决策;
2、将雾无线接入网中的动态缓存布置问题建立在深度强化学习框架下,准确地描述用户请求与节点缓存状态的实时情况,进而使得节点在每一时刻均能够做出最优决策,从而使动态的最优内容布置成为可能;
3、利用结合缓存更新代价、结合内容流行度和区域用户偏好的代价特征向量,通过基于值函数近似的强化学习算法降低了传统强化学习算法的复杂度,加快了在线学习的收敛速度;
附图说明
图1是本发明的流程示意图。
图2是本发明与传统边缘缓存策略对缓存命中率进行对比的仿真结果图。
具体实施方式
下面结合附图和实施例进一步阐述本发明。
本发明所述的一种雾无线接入网中基于强化学习的边缘缓存方法,包括如下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),其中,缓存动作向量也称为节点的缓存决策向量。当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,若af(t)=0则反之;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好向量q(t),并结合步骤(2)中得到的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t)。
具体包括:;
S3-1:收集在第t个时隙内的所有用户请求,以对第f个内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T;
g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
S4:在第t个时隙结束时刻,确定贪婪选择中的贪婪因子∈t,并根据下面公式进行缓存向量的选择:
将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T;
S4-5:根据权重向量wt和由构建的代价向量z(t),得到如下整数规划并求解:
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,F表示文件库中的文件个数,M表示节点可缓存的文件个数上限。
S5-2:根据S5-1得到的针对各个文件的请求,计算缓存命中率:
其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,若af(t)=0则反之;
S5-3:根据步骤S5-2得到的第t个时隙内的缓存命中率,得到即时回报函数r(t)=1-θ(t);
S5-4:根据步骤S5-3得到的回报函数带入如下公式中,可得到即时误差函数:
其中γ为折现因子。
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。具体包括:
S6-1:确定学习步长ρ;
S6-3:令t=t+1,回到S2开始下一个时隙的缓存优化。
由附图2的仿真结果可得,与最近最少使用缓存方法(Least Recently Used,LRU)和最近最不常用缓存方法(Least Frequently Used,LFU)这两种传统的缓存方法比较,本发明所述的强化学习方法的缓存命中率性能明显更优,其中所述强化学习方法具体为基于值函数近似的Q学习方法(Value Function Approximation based Q learning,Q-VFA-learning)。
Claims (5)
1.一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:包括以下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地,F表示文件库中的文件个数;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);
S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。
2.根据权利要求1所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:所述S3具体包括以下步骤:
S3-1:收集在第t个时隙内的所有用户请求,以对第f个文件为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
3.根据权利要求2所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:S4中将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括以下步骤:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T;
S4-5:根据权重向量wt和构建的代价向量z(t),得到如下整数规划并求解:
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,M表示节点可缓存的文件个数上限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910163764.5A CN109873869B (zh) | 2019-03-05 | 2019-03-05 | 一种雾无线接入网中基于强化学习的边缘缓存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910163764.5A CN109873869B (zh) | 2019-03-05 | 2019-03-05 | 一种雾无线接入网中基于强化学习的边缘缓存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109873869A CN109873869A (zh) | 2019-06-11 |
CN109873869B true CN109873869B (zh) | 2021-08-24 |
Family
ID=66919813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910163764.5A Active CN109873869B (zh) | 2019-03-05 | 2019-03-05 | 一种雾无线接入网中基于强化学习的边缘缓存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109873869B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995828B (zh) * | 2019-11-29 | 2020-11-24 | 北京邮电大学 | 一种网络资源缓存方法、装置及系统 |
CN110968816B (zh) * | 2019-12-23 | 2023-11-28 | 广东技术师范大学 | 一种基于强化学习的内容缓存方法、装置及存储介质 |
CN111182644B (zh) * | 2019-12-24 | 2022-02-08 | 北京邮电大学 | 基于深度强化学习的联合重传urllc资源调度方法 |
CN111314862B (zh) * | 2020-02-19 | 2022-01-28 | 东南大学 | 雾无线接入网中深度强化学习下带有推荐的缓存方法 |
CN111340277B (zh) * | 2020-02-19 | 2023-04-25 | 东南大学 | 雾无线接入网中基于联邦学习的流行度预测模型及预测方法 |
CN111488528A (zh) * | 2020-04-28 | 2020-08-04 | 西安邮电大学 | 内容缓存管理方法及装置、电子设备 |
CN111629218A (zh) * | 2020-04-29 | 2020-09-04 | 南京邮电大学 | 一种vanet中基于时变线性的加速强化学习边缘缓存方法 |
CN111901392B (zh) * | 2020-07-06 | 2022-02-25 | 北京邮电大学 | 一种面向移动边缘计算的内容部署与分发方法及系统 |
CN111970717B (zh) * | 2020-08-07 | 2022-11-25 | 杭州电子科技大学 | 基于雾无线接入网中内容缓存和用户-基站关联的方法 |
CN111935784B (zh) * | 2020-08-12 | 2022-04-22 | 重庆邮电大学 | 一种雾计算网络中基于联邦学习的内容缓存方法 |
CN113993168B (zh) * | 2021-10-27 | 2024-02-09 | 东南大学 | 一种雾无线接入网中基于多智能体强化学习的协作缓存方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1934770A2 (en) * | 2005-08-31 | 2008-06-25 | Texas Instruments Incorporated | Improved multi-threading processors, integrated circuit devices, systems, and processes of operation and manufacture |
CN101911618A (zh) * | 2007-11-14 | 2010-12-08 | 高通股份有限公司 | 用于移动环境中的消息值计算的方法和系统 |
CN108900617A (zh) * | 2018-07-03 | 2018-11-27 | 东南大学 | 一种雾无线接入网的三层协作式缓存方法 |
-
2019
- 2019-03-05 CN CN201910163764.5A patent/CN109873869B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1934770A2 (en) * | 2005-08-31 | 2008-06-25 | Texas Instruments Incorporated | Improved multi-threading processors, integrated circuit devices, systems, and processes of operation and manufacture |
CN101911618A (zh) * | 2007-11-14 | 2010-12-08 | 高通股份有限公司 | 用于移动环境中的消息值计算的方法和系统 |
CN108900617A (zh) * | 2018-07-03 | 2018-11-27 | 东南大学 | 一种雾无线接入网的三层协作式缓存方法 |
Non-Patent Citations (1)
Title |
---|
D2D集成雾无线接入网中的双层分布式缓存;蒋雁翔;《电信科学》;20180420;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109873869A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109873869B (zh) | 一种雾无线接入网中基于强化学习的边缘缓存方法 | |
CN107911711B (zh) | 一种考虑分区的边缘缓存替换改进方法 | |
WO2020253664A1 (zh) | 视频传输方法、系统和存储介质 | |
CN101184021B (zh) | 一种实现流媒体缓存置换的方法、设备及系统 | |
CN112218337A (zh) | 一种移动边缘计算中的缓存策略决策方法 | |
WO2011109957A1 (zh) | 一种提高网页访问速度的方法及装置 | |
CN113382059B (zh) | 一种雾无线接入网中基于联邦强化学习的协作缓存方法 | |
CN112752308B (zh) | 一种基于深度强化学习的移动预测无线边缘缓存方法 | |
CN108541025B (zh) | 一种面向无线异构网络的基站与d2d共同缓存方法 | |
CN111491175B (zh) | 一种基于视频内容特征的边缘网络缓存方法和装置 | |
CN113993168A (zh) | 一种雾无线接入网中基于多智能体强化学习的协作缓存方法 | |
CN113127515A (zh) | 面向电网的调控数据高速缓存方法、装置、计算机设备和存储介质 | |
CN112911614A (zh) | 基于动态请求d2d网络中的协作编码缓存方法 | |
CN101840417A (zh) | 一种基于相关关系的物联网uid查询方法 | |
CN105430062A (zh) | 一种基于兴趣-相关度的移动p2p网络数据预取方法 | |
CN109743407B (zh) | 一种面向多租户网络的边缘网络缓存方法 | |
Chen et al. | An edge caching strategy based on separated learning of user preference and content popularity | |
Fang et al. | Mobile Edge Data Cooperative Cache Admission Based on Content Popularity | |
Al Ridhawi et al. | Client-side partial file caching for cloud-based systems | |
Liu et al. | Proactive data caching and replacement in the edge computing environment | |
CN113489779A (zh) | 一种基于网络拓扑分层的精确缓存放置方法 | |
Xu et al. | An incremental learning based edge caching system: From modeling to evaluation | |
CN105530303A (zh) | 一种网络缓存线性替换方法 | |
CN110519801A (zh) | 一种雾无线接入网中基于贪婪算法的混合缓存内容部署方法 | |
CN115696296B (zh) | 一种基于社区发现和加权联邦学习的主动边缘缓存方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |