CN113676513B - 一种深度强化学习驱动的网内缓存优化方法 - Google Patents

一种深度强化学习驱动的网内缓存优化方法 Download PDF

Info

Publication number
CN113676513B
CN113676513B CN202110798424.7A CN202110798424A CN113676513B CN 113676513 B CN113676513 B CN 113676513B CN 202110798424 A CN202110798424 A CN 202110798424A CN 113676513 B CN113676513 B CN 113676513B
Authority
CN
China
Prior art keywords
cache
content
network
ahw
popularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110798424.7A
Other languages
English (en)
Other versions
CN113676513A (zh
Inventor
易波
屈志豪
陈佳豪
张婷婷
张卿祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110798424.7A priority Critical patent/CN113676513B/zh
Publication of CN113676513A publication Critical patent/CN113676513A/zh
Application granted granted Critical
Publication of CN113676513B publication Critical patent/CN113676513B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明是一种深度强化学习驱动的网内缓存优化方法,首先通过智能地感知网络环境来对网络请求模式进行主动学习;然后计算出不同的最优缓存策略并分发给相应的路由节点执行;再由本地节点根据得到的策略做出缓存决策;结合主动式缓存和反应式缓存的优势,实现提高缓存命中率的最终目标。本发明引入深度强化学习算法来制定网内缓存策略,通过智能地感知网络环境来对网络请求模式进行主动学习,给相应的路由节点计算出不同的最优缓存策略,结合主动式和反应式缓存的优势,提高了缓存命中率。

Description

一种深度强化学习驱动的网内缓存优化方法
技术领域
本发明设计网络技术领域,具体是一种深度强化学习驱动的网内缓存优化方法。
背景技术
根据如何评估网络内容的缓存价值,现有研究工作将内容缓存策略划分为三类,分别是基于内容流行度的缓存策略、基于概率的缓存策略和基于哈希的缓存策略。通常而言,以信息为中心的缓存策略本质上是基于内容流行度的缓存策略,它们通过评估请求的间隔或者最近一段时间内的请求次数来定义某个内容的流行程度,从而决定如何缓存。
基于内容流行度的缓存背后的思想是流行的内容将满足更多的内容请求。因此,应优先缓存流行度高的内容,而减少缓存流行度低的内容。例如,文献[1]提出要缓存的内容是根据请求的数量组织的,随着请求数量的增加,需要缓存的内容以指数形式增加,并且需要组织更多的节点协作缓存。需要缓存的内容从上游路由器推荐给下游路由器,如果下游路由器由于任何原因无法缓存内容,它只会忽略建议并将内容推荐给同一路径上的其他路由器。文献[2]基于深度学习技术,提出了面向信息中心的内容流行度预测机制。它利用交换机和控制器构建分布式可重构的深度学习网络。每个网络节点都参与收集这请求访问的时空联合分布数据。然后,将这些数据作为数据输入到堆叠式自动编码器(StackedAuto-Encoders,SAE)中,提取流行度的时空特征。最后,将内容流行度预测转化为分类问题,并使用SoftMax分类器实现内容流行度的预测。
基于概率的缓存策略根据一定的概率决定是否在节点上缓存某个内容。基于概率的目的有两个,一是增加缓存内容的多样性,二是减少因为不准确的流行度评估带来的影响。
基于哈希的缓存主要目的是增加网络的内容多样性以提高缓存的命中率。在这类型的方案中,缓存节点仅可以缓存特定的内容,一般基于哈希函数实现。因此,网络构成了一种合作缓存的形式。如果内容的哈希值属于传输路径上节点负责的范围,则将缓存该内容。否则,内容将转发到负责范围内的节点。例如[3]提出一种基于哈希路由的空间划分的协同内容缓存机制。该机制通过智能地划分内容空间并将分区分配缓存,并且能够约束哈希路由所产生的路径扩展问题。该机制将分区分配缓存的问题转化为最大化总命中率的优化问题,并提出一种启发式算法来解决,同时还将分区比例问题转化为最小最大线性优化问题来平衡缓存工作负载。
[1]K.Cho,M.Lee,K.Park,T.T.Kwon,Y.Choi,S.Pack,WAVE:Popularity-basedand collaborative in-network caching for content-oriented networks,inProc.IEEE INFOCOM WKSHPS,2012:316-321.
[2]W.Liu,J.Zhang,Z.Liang,L.Peng,J.Cai,Content popularity predictionand caching for ICN:A deep learning approach with SDN,IEEE Access,2017,6:5075-5089.
[3]S.Wang,J.Bi,J.Wu,A.V.Vasilakos,CPHR:In-network caching forinformation-centric networking with partitioning and hash-routing,IEEE/ACMTransactions on Networking,2015,24(5):2742-2755.
现有专用缓存服务器通常离用户较远,且服务范围较大,从省市到地区级别,而以信息中心网络为代表的新型范式支持将缓存存放在任意网络设备中,从而使得缓存内容距离用户更近。但这同时也意味着在一个缓存节点中,一个特定的内容对象可能只能生成为数不多的终端用户请求,这使得在节点中使用机器学习或者深度学习技术预测内容的流行度变的不可能。虽然可以部署专用的服务器或者控制器集中式的来收集所有节点的历史访问数据,并以此利用深度学习预测流行度,并将热门内容推送到节点中,但这种主动式方法无法及时响应流行度的快速变化。
网内缓存节点的服务范围在地理区域和最终用户数量方面非常有限。这种趋势带来了两个挑战:首先,内容的流行程度是高度动态的,特别是考虑到新兴的UGC。例如,用户生成的短视频的生命周期演变很快;其次,用户请求高度本地化,相同的内容在不同的区域显示出不同的流行程度。因此,基于流行度预测的简单主动式推送方法不能及时响应用户请求模式的变化。此外,不同的网内缓存节点不适合采用一体适用的缓存策略。
发明内容
本发明旨在采用深度强化学习(DRL)技术来跟踪用户请求模式的变化,智能地为不同位置的网内缓存节点分发缓存策略。然后,根据该策略,网内缓存节点可以实时地做出缓存决策。同时,运行在集中控制器中的DRL算法对缓存策略进行持续的优化,实现缓存策略的动态可演进。
本发明采用的技术方案是:
一种深度强化学习驱动的网内缓存优化方法,首先通过智能地感知网络环境来对网络请求模式进行主动学习;然后计算出不同的最优缓存策略并分发给相应的路由节点执行;再由本地节点根据得到的策略做出缓存决策;结合主动式缓存和反应式缓存的优势,实现提高缓存命中率的最终目标。
每个路由节点为每个缓存的内容维护一个按流行程度排序的索引;某个特定内容的流行程度由自适应热窗口决定;此外,AHW还用于监测连续的时间序列请求;基于DRL的网络智能体部署在一个集中式的控制器中,用来聚合全网路由节点的时间序列数据提供给DRL算法,以此解决单个路由节点数据量不足的问题;然后,智能体输出一组动作,这些动作是AHW估计内容流行度的参数,再将得到的奖励作为反馈传递给网络智能体,以训练和改进驻留在智能体系统中的深度神经网络模型;
在每个路由节点中,某个特定内容被缓存后,会为其创建一个AHW,以监测请求的时间序列数并估计该内容的流行程度;AHW的目标是克服广泛使用的反应式缓存替换策略,包括最近最少使用、最近最频繁使用LFU及其变体方法的缺点。
AHW有两个参数,即α和β分别控制窗口的高度和长度;AHW选择的数据用于估计内容流行度;事实上间歇性和低频率偶发性的请求会大大降低LRU的效率,并可能导致缓存污染,而α正是一个过滤这种“噪声”即间歇性和低频率偶发性,并识别突发的请求的参数值;LFU根据累计请求数量的多少决定缓存,但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象;因此,LFU对请求模式的变化反应缓慢;
为此,AHW通过调整β参数来确定可以使用哪段时间的时间序列数据;当β的值增加时,AHW的长度会向右缩短,这表明最近当前的请求数量更能准确地估计该内容的流行程度;可以通过解决一个优化问题来计算α和β的值。
利用LRU和LFU的改进方法能够减轻缓存污染,但缺乏预测性;设计出通过DRL算法学习流量请求的模式,以此来持续优化α和β的值,并据此自动地调整AHW;基于DRL的缓存方法将发现并预测潜在的请求,如果一个内容对象被智能体预测即将进入冷阶段,即将不流行,其AHW的β值将迅速增加,即向右移动,窗口将急剧收缩;这表明估计的流行度将急剧下降;如果内容对象的请求频率较低且计数较少,则其AHW的α值将过滤这些请求;因此,内容对象将被替换,而不会被缓存;在接收到AHW的参数后,路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引;排名最低的内容对象将替换为新到达的内容;某个特定内容的流行度计算定义如下:
Figure BDA0003163660370000031
其中,NUMt表示在时间间隔[t-1,t]内的请求数量。
DRL算法采用基本的策略梯度算法,考虑随机策略,即,根据动作集上的概率分布来选择某个状态下的动作;采用确定性策略梯度算法DPG来逼近预测的最优值;DPG是一种演员-评论家AC模型,将值函数与策略的显式表示相结合的确定性策略;AC维护一个参数化的Actor函数μθ来表示当前策略,并维护一个使用Bellman方程更新的评论家的深度神经网络V(s,a);将AHW参数优化问题表述为以下DRL学习问题:AC作为DRL模型,涉及到演员和评论家网络的训练;
状态空间state space:状态由两部分组成:每个路由节点上每个内容对象在一段时间内的时序请求和每个路由节点的标识符;形式上,定义
Figure BDA0003163660370000032
Figure BDA0003163660370000033
Figure BDA0003163660370000041
为状态向量;
其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符,这是智能体识别地域差异的关键;1≤i≤I,I是ICN节点可以缓存的内容数量的最大值;某个内容i从[t1,tM]时间段内在第k个路由节点中记录的时间序列访问数据表示为
Figure BDA0003163660370000042
其中,tM表示当前时刻;全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入;xi(tm)(1≤m≤M)表示某个节点的内容i在[tm-1,tm]时间段内的访问量;
动作空间action space:当在t时刻收到网络中路由器的缓存状态st时,系统智能体通过深度神经网络计算出相应动作at,即,节点的AHW参数;形式上,
Figure BDA0003163660370000043
Figure BDA0003163660370000044
奖励reward:奖励是当智能体在状态st时做出动作at时网络给予的反馈;由于智能体系统的最终目标是提升缓存命中率,所以我们将网络内节点的平均缓存命中率作为奖励函数,Hits表示命中率,即:
Figure BDA0003163660370000045
其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符。
本发明的优点是:本发明引入深度强化学习算法来制定网内缓存策略,通过智能地感知网络环境来对网络请求模式进行主动学习,给相应的路由节点计算出不同的最优缓存策略,结合主动式和反应式缓存的优势,提高了缓存命中率。同时,考虑到网内缓存节点的服务范围在地理区域和最终用户数量方面非常有限,本发明有针对性地提出一种缓存策略分发系统,采用深度强化学习DRL技术来跟踪用户请求模式的变化,智能地为不同位置的网内缓存节点分发缓存策略,以实现实时缓存决策,并可通过运行在控制器中的DRL算法对策略进行持续的优化,最终实现对高度动态请求模式的快速响应。
本发明在无区域差别、有区域差异两种不同条件下分别比较了iCache、ProPush、LFU-Aging、LRU-2四种缓存策略的平均缓存命中率,结果显示,本发明提出的iCache缓存策略性能优于其他三种,具有很强的稳定性和适应性。
附图说明
图1本发明的深度强化学习驱动的网内缓存优化方法结构与工作流程图。
图2本发明的自适应热窗口图。
图3为本发明的DRL模型图。
具体实施方式
本发明引入深度强化学习算法来制定网内缓存策略,实现缓存优化。具体而言,通过智能地感知网络环境来对网络请求模式进行主动学习,然后计算出不同的最优缓存策略并分发给相应的路由节点执行。再由本地节点根据得到的策略做出缓存决策。通过这种方式,可以结合主动式缓存和反应式缓存的优势,并实现提高缓存命中率的最终目标。整个方案结构图如图1所示。其中,每个路由节点为每个缓存的内容维护一个按流行程度排序的索引。某个特定内容的流行程度由自适应热窗口(Adaptive Hot Window,AHW)决定。此外,AHW还用于监测连续的时间序列请求。基于DRL的网络智能体部署在一个集中式的控制器中,用来聚合全网路由节点的时间序列数据提供给DRL算法,以此解决单个路由节点数据量不足的问题。然后,智能体输出一组动作,这些动作是AHW估计内容流行度的参数,再将得到的奖励(如节点平均命中率)作为反馈传递给智能体,以训练和改进驻留在智能体系统中的深度神经网络模型。
在每个路由节点中,某个特定内容被缓存后,会为其创建一个AHW,以监测请求的时间序列数并估计该内容的流行程度。AHW的目标是克服广泛使用的反应式缓存替换策略(如最近最少使用(Least Recent User,LRU)、最近最频繁使用(Least Frequent Used,LFU)及其变体方法)的缺点。如图2所示,AHW有两个参数,即,α和β分别控制窗口的高度和长度。AHW选择的数据用于估计内容流行度(如图2中的阴影区域)。众所周知,间歇性和低频率偶发性的请求会大大降低LRU的效率,并可能导致缓存污染,而α正是一个过滤这种“噪声”(间歇性和低频率偶发性)并识别突发的请求的参数值。LFU根据累计请求数量的多少决定缓存,但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象。因此,LFU对请求模式的变化反应缓慢。为了解决这个问题,AHW通过调整β参数来确定可以使用哪段时间的时间序列数据。当β的值增加时,AHW的长度会向右缩短,这表明最近当前的请求数量更能准确地估计该内容的流行程度。虽然可以通过解决一个优化问题来计算α和β的值,但是我们提出通过DRL算法学习流量请求的模式,以此来持续优化它们的值,并据此自动地调整AHW。
虽然LRU和LFU的一些改进方法能够减轻前面提到的问题,但它们仍然根据当前请求数或最新的访问时间替换内容。换句话说,它们缺乏预测性。而本项目基于DRL的缓存方法将发现并预测潜在的请求,同时将此信息告知AHW。例如,根据我们的实验观察,如果一个内容对象被智能体预测即将进入冷阶段(表示即将不流行),其AHW的β值将迅速增加(向右移动),窗口将急剧收缩。这表明估计的流行度将急剧下降。如果内容对象的请求频率较低且计数较少,则其AHW的α值将过滤这些请求。因此,内容对象将被替换,而不会被缓存。在接收到AHW的参数后,路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引。排名最低的内容对象将替换为新到达的内容。某个特定内容的流行度计算定义如下:
Figure BDA0003163660370000061
其中,NUMt表示在时间间隔[t-1,t]内的请求数量。
策略梯度算法(Policy Gradient,PG)是一种基本的DRL算法,它只考虑随机策略,即,根据动作集上的概率分布来选择某个状态下的动作。换句话说,PG不能用于计算实值的值优化问题。因此,本项目采用确定性策略梯度算法(Deterministic Policy Gradient,DPG)来逼近预测的最优值。DPG是一种演员-评论家(Actor-Critic,AC)模型,它将值函数与策略的显式表示相结合的确定性策略。AC维护一个参数化的Actor函数μθ来表示当前策略,并维护一个使用Bellman方程更新的评论家的深度神经网络V(s,a)。将AHW参数优化问题表述为以下DRL学习问题:AC作为DRL模型,涉及到演员和评论家网络的训练,具体DRL模型如图3所示。
算法4.1如下
Figure BDA0003163660370000062
Figure BDA0003163660370000071
状态空间(state space):状态由两部分组成:每个路由节点上每个内容对象在一段时间内的时序请求和每个路由节点的标识符。形式上,我们定义
Figure BDA0003163660370000072
Figure BDA0003163660370000073
Figure BDA0003163660370000074
为状态向量。其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符,这是智能体识别地域差异的关键;1≤i≤I,I是ICN节点可以缓存的内容数量的最大值。某个内容i从[t1,tM]时间段内在第k个路由节点中记录的时间序列访问数据表示为
Figure BDA0003163660370000075
其中,tM表示当前时刻。如图3所示,全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入。xi(tm)(1≤m≤M)表示某个节点的内容i在[tm-1,tm]时间段内的访问量。
动作空间(action space):当在t时刻收到网络中路由器的缓存状态st时,系统智能体通过深度神经网络计算出相应动作at,即,节点的AHW参数。形式上,
Figure BDA0003163660370000076
Figure BDA0003163660370000077
奖励(reward):奖励是当智能体在状态st时做出动作at时网络给予的反馈。由于智能体系统的最终目标是提升缓存命中率,所以我们将网络内节点的平均缓存命中率作为奖励函数,Hits表示命中率,即:
Figure BDA0003163660370000078
根据上述介绍,系统中训练DRL智能体的伪代码如算法4.1所示,其中第1-6行表示经验回放采集,第7-10行表示神经网络更新。

Claims (3)

1.一种深度强化学习驱动的网内缓存优化方法,其特征在于,首先通过智能地感知网络环境来对网络请求模式进行主动学习;然后计算出不同的最优缓存策略并分发给相应的路由节点执行;再由本地节点根据得到的策略做出缓存决策;结合主动式缓存和反应式缓存的优势,实现提高缓存命中率的最终目标;
每个路由节点为每个缓存的内容维护一个按流行程度排序的索引;某个特定内容的流行程度由自适应热窗口决定;此外,AHW还用于监测连续的时间序列请求;基于DRL的网络智能体部署在一个集中式的控制器中,用来聚合全网路由节点的时间序列数据提供给DRL算法,以此解决单个路由节点数据量不足的问题;然后,智能体输出一组动作,这些动作是AHW估计内容流行度的参数,再将得到的奖励作为反馈传递给网络智能体,以训练和改进驻留在智能体系统中的深度神经网络模型;
在每个路由节点中,某个特定内容被缓存后,会为其创建一个AHW,以监测请求的时间序列数并估计该内容的流行程度;AHW的目标是克服广泛使用的反应式缓存替换策略,包括最近最少使用、最近最频繁使用LFU及其变体方法的缺点;
DRL算法采用基本的策略梯度算法,考虑随机策略,即,根据动作集上的概率分布来选择某个状态下的动作;采用确定性策略梯度算法DPG来逼近预测的最优值;DPG是一种演员-评论家AC模型,将值函数与策略的显式表示相结合的确定性策略;AC维护一个参数化的Actor函数μθ来表示当前策略,并维护一个使用Bellman方程更新的评论家的深度神经网络V(s,a);将AHW参数优化问题表述为以下DRL学习问题:AC作为DRL模型,涉及到演员和评论家网络的训练;
状态空间state space:状态由两部分组成:每个路由节点上每个内容对象在一段时间内的时序请求和每个路由节点的标识符;形式上,定义
Figure FDA0003629810890000011
Figure FDA0003629810890000012
Figure FDA0003629810890000013
为状态向量;
其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符,这是智能体识别地域差异的关键;1≤i≤I,I是ICN节点可以缓存的内容数量的最大值;某个内容i从[t1,tM]时间段内在第k个路由节点中记录的时间序列访问数据表示为
Figure FDA0003629810890000014
其中,tM表示当前时刻;全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入;xi(tm)(1≤m≤M)表示某个节点的内容i在[tm-1,tm]时间段内的访问量;
动作空间action space:当在t时刻收到网络中路由器的缓存状态st时,系统智能体通过深度神经网络计算出相应动作at,即,节点的AHW参数;形式上,
Figure FDA0003629810890000021
奖励reward:奖励是当智能体在状态st时做出动作at时网络给予的反馈;由于智能体系统的最终目标是提升缓存命中率,所以我们将网络内节点的平均缓存命中率作为奖励函数,Hits表示命中率,即:
Figure FDA0003629810890000022
其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符。
2.根据权利要求1所述的一种深度强化学习驱动的网内缓存优化方法,其特征在于,AHW有两个参数,即α和β分别控制窗口的高度和长度;AHW选择的数据用于估计内容流行度;事实上间歇性和低频率偶发性的请求会大大降低LRU的效率,并可能导致缓存污染,而α正是一个过滤这种“噪声”即间歇性和低频率偶发性,并识别突发的请求的参数值;LFU根据累计请求数量的多少决定缓存,但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象;因此,LFU对请求模式的变化反应缓慢;
为此,AHW通过调整β参数来确定可以使用哪段时间的时间序列数据;当β的值增加时,AHW的长度会向右缩短,这表明最近当前的请求数量更能准确地估计该内容的流行程度;可以通过解决一个优化问题来计算α和β的值。
3.根据权利要求1所述的一种深度强化学习驱动的网内缓存优化方法,其特征在于,利用LRU和LFU的改进方法能够减轻缓存污染,但缺乏预测性;设计出通过DRL算法学习流量请求的模式,以此来持续优化α和β的值,并据此自动地调整AHW;基于DRL的缓存方法将发现并预测潜在的请求,如果一个内容对象被智能体预测即将进入冷阶段,即将不流行,其AHW的β值将迅速增加,即向右移动,窗口将急剧收缩;这表明估计的流行度将急剧下降;如果内容对象的请求频率较低且计数较少,则其AHW的α值将过滤这些请求;因此,内容对象将被替换,而不会被缓存;在接收到AHW的参数后,路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引;排名最低的内容对象将替换为新到达的内容;某个特定内容的流行度计算定义如下:
Figure FDA0003629810890000031
其中,NUMt表示在时间间隔[t-1,t]内的请求数量。
CN202110798424.7A 2021-07-15 2021-07-15 一种深度强化学习驱动的网内缓存优化方法 Expired - Fee Related CN113676513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110798424.7A CN113676513B (zh) 2021-07-15 2021-07-15 一种深度强化学习驱动的网内缓存优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110798424.7A CN113676513B (zh) 2021-07-15 2021-07-15 一种深度强化学习驱动的网内缓存优化方法

Publications (2)

Publication Number Publication Date
CN113676513A CN113676513A (zh) 2021-11-19
CN113676513B true CN113676513B (zh) 2022-07-01

Family

ID=78539319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110798424.7A Expired - Fee Related CN113676513B (zh) 2021-07-15 2021-07-15 一种深度强化学习驱动的网内缓存优化方法

Country Status (1)

Country Link
CN (1) CN113676513B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297131B (zh) * 2022-08-01 2023-05-26 东北大学 一种基于一致性哈希的敏感数据分布式储存方法
CN116521584B (zh) * 2023-06-26 2023-10-13 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统
CN116996921B (zh) * 2023-09-27 2024-01-02 香港中文大学(深圳) 一种基于元强化学习的全网多业务联合优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN109995851A (zh) * 2019-03-05 2019-07-09 东南大学 基于深度学习的内容流行度预测及边缘缓存方法
CN113064907A (zh) * 2021-04-26 2021-07-02 陕西悟空云信息技术有限公司 一种基于深度强化学习的内容更新方法
CN113094982A (zh) * 2021-03-29 2021-07-09 天津理工大学 一种基于多智能体深度强化学习的车联网边缘缓存方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106153B (zh) * 2013-02-20 2016-04-06 哈尔滨工业大学 基于访问密度的web缓存替换方法
CN111901392B (zh) * 2020-07-06 2022-02-25 北京邮电大学 一种面向移动边缘计算的内容部署与分发方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN109995851A (zh) * 2019-03-05 2019-07-09 东南大学 基于深度学习的内容流行度预测及边缘缓存方法
CN113094982A (zh) * 2021-03-29 2021-07-09 天津理工大学 一种基于多智能体深度强化学习的车联网边缘缓存方法
CN113064907A (zh) * 2021-04-26 2021-07-02 陕西悟空云信息技术有限公司 一种基于深度强化学习的内容更新方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
单冠捷.移动网络中基于机器学习的缓存策略研究.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2021, *

Also Published As

Publication number Publication date
CN113676513A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113676513B (zh) 一种深度强化学习驱动的网内缓存优化方法
CN111385734B (zh) 一种车联网内容缓存决策优化方法
He et al. QoE-driven content-centric caching with deep reinforcement learning in edge-enabled IoT
CN111935784B (zh) 一种雾计算网络中基于联邦学习的内容缓存方法
CN104168620B (zh) 无线多跳回传网络中的路由建立方法
CN109218747A (zh) 超密集异构网络中基于用户移动性的视频业务分类缓存方法
CN112752308B (zh) 一种基于深度强化学习的移动预测无线边缘缓存方法
CN110958573B (zh) 车载内容中心网络下基于一致性哈希的移动感知协作缓存方法
CN111491331B (zh) 一种雾计算网络中基于迁移学习的网络感知自适应缓存方法
CN113950113B (zh) 一种基于隐马尔科夫的车联网切换决策方法
CN108900599B (zh) 一种软件定义的内容中心网络装置及其聚类缓存决策方法
Yan et al. Distributed edge caching with content recommendation in fog-rans via deep reinforcement learning
Xu et al. A deep-reinforcement learning approach for SDN routing optimization
CN110913430A (zh) 无线网络中文件的主动式协作缓存方法及缓存管理装置
Feng et al. Proactive content caching scheme in urban vehicular networks
CN114567588A (zh) 基于时延预测及双蚁群的软件定义网络QoS路由算法
CN117939505A (zh) 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统
Wu et al. Multi-Agent Federated Deep Reinforcement Learning Based Collaborative Caching Strategy for Vehicular Edge Networks
CN110120892A (zh) 基于改进的萤火虫算法的sdn多控制器部署方法及系统
CN113992770A (zh) 雾无线接入网中基于策略的联邦强化学习的协作缓存方法
CN108390936A (zh) 一种基于缓存分布感知的概率缓存算法
CN116471645A (zh) 基于深度强化学习的无线传感网络路由算法的自适应选择方法
CN116321351A (zh) 基于区域路由算法的车联网优化方法、系统和车辆
CN114786200A (zh) 一种基于协作感知的数据智能缓存方法
Chootong et al. Cache replacement mechanism with content popularity for vehicular content-centric networks (vccn)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220701