CN113676513B

CN113676513B - 一种深度强化学习驱动的网内缓存优化方法

Info

Publication number: CN113676513B
Application number: CN202110798424.7A
Authority: CN
Inventors: 易波; 屈志豪; 陈佳豪; 张婷婷; 张卿祎
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2022-07-01
Anticipated expiration: 2041-07-15
Also published as: CN113676513A

Abstract

本发明是一种深度强化学习驱动的网内缓存优化方法，首先通过智能地感知网络环境来对网络请求模式进行主动学习；然后计算出不同的最优缓存策略并分发给相应的路由节点执行；再由本地节点根据得到的策略做出缓存决策；结合主动式缓存和反应式缓存的优势，实现提高缓存命中率的最终目标。本发明引入深度强化学习算法来制定网内缓存策略，通过智能地感知网络环境来对网络请求模式进行主动学习，给相应的路由节点计算出不同的最优缓存策略，结合主动式和反应式缓存的优势，提高了缓存命中率。

Description

一种深度强化学习驱动的网内缓存优化方法

技术领域

本发明设计网络技术领域，具体是一种深度强化学习驱动的网内缓存优化方法。

背景技术

根据如何评估网络内容的缓存价值，现有研究工作将内容缓存策略划分为三类，分别是基于内容流行度的缓存策略、基于概率的缓存策略和基于哈希的缓存策略。通常而言，以信息为中心的缓存策略本质上是基于内容流行度的缓存策略，它们通过评估请求的间隔或者最近一段时间内的请求次数来定义某个内容的流行程度，从而决定如何缓存。

基于内容流行度的缓存背后的思想是流行的内容将满足更多的内容请求。因此，应优先缓存流行度高的内容，而减少缓存流行度低的内容。例如，文献[1]提出要缓存的内容是根据请求的数量组织的，随着请求数量的增加，需要缓存的内容以指数形式增加，并且需要组织更多的节点协作缓存。需要缓存的内容从上游路由器推荐给下游路由器，如果下游路由器由于任何原因无法缓存内容，它只会忽略建议并将内容推荐给同一路径上的其他路由器。文献[2]基于深度学习技术，提出了面向信息中心的内容流行度预测机制。它利用交换机和控制器构建分布式可重构的深度学习网络。每个网络节点都参与收集这请求访问的时空联合分布数据。然后，将这些数据作为数据输入到堆叠式自动编码器(StackedAuto-Encoders，SAE)中，提取流行度的时空特征。最后，将内容流行度预测转化为分类问题，并使用SoftMax分类器实现内容流行度的预测。

基于概率的缓存策略根据一定的概率决定是否在节点上缓存某个内容。基于概率的目的有两个，一是增加缓存内容的多样性，二是减少因为不准确的流行度评估带来的影响。

基于哈希的缓存主要目的是增加网络的内容多样性以提高缓存的命中率。在这类型的方案中，缓存节点仅可以缓存特定的内容，一般基于哈希函数实现。因此，网络构成了一种合作缓存的形式。如果内容的哈希值属于传输路径上节点负责的范围，则将缓存该内容。否则，内容将转发到负责范围内的节点。例如[3]提出一种基于哈希路由的空间划分的协同内容缓存机制。该机制通过智能地划分内容空间并将分区分配缓存，并且能够约束哈希路由所产生的路径扩展问题。该机制将分区分配缓存的问题转化为最大化总命中率的优化问题，并提出一种启发式算法来解决，同时还将分区比例问题转化为最小最大线性优化问题来平衡缓存工作负载。

[1]K.Cho,M.Lee,K.Park,T.T.Kwon,Y.Choi,S.Pack,WAVE:Popularity-basedand collaborative in-network caching for content-oriented networks,inProc.IEEE INFOCOM WKSHPS,2012:316-321.

[2]W.Liu,J.Zhang,Z.Liang,L.Peng,J.Cai,Content popularity predictionand caching for ICN:A deep learning approach with SDN,IEEE Access,2017,6:5075-5089.

[3]S.Wang,J.Bi,J.Wu,A.V.Vasilakos,CPHR:In-network caching forinformation-centric networking with partitioning and hash-routing,IEEE/ACMTransactions on Networking,2015,24(5):2742-2755.

现有专用缓存服务器通常离用户较远，且服务范围较大，从省市到地区级别，而以信息中心网络为代表的新型范式支持将缓存存放在任意网络设备中，从而使得缓存内容距离用户更近。但这同时也意味着在一个缓存节点中，一个特定的内容对象可能只能生成为数不多的终端用户请求，这使得在节点中使用机器学习或者深度学习技术预测内容的流行度变的不可能。虽然可以部署专用的服务器或者控制器集中式的来收集所有节点的历史访问数据，并以此利用深度学习预测流行度，并将热门内容推送到节点中，但这种主动式方法无法及时响应流行度的快速变化。

网内缓存节点的服务范围在地理区域和最终用户数量方面非常有限。这种趋势带来了两个挑战：首先，内容的流行程度是高度动态的，特别是考虑到新兴的UGC。例如，用户生成的短视频的生命周期演变很快；其次，用户请求高度本地化，相同的内容在不同的区域显示出不同的流行程度。因此，基于流行度预测的简单主动式推送方法不能及时响应用户请求模式的变化。此外，不同的网内缓存节点不适合采用一体适用的缓存策略。

发明内容

本发明旨在采用深度强化学习(DRL)技术来跟踪用户请求模式的变化，智能地为不同位置的网内缓存节点分发缓存策略。然后，根据该策略，网内缓存节点可以实时地做出缓存决策。同时，运行在集中控制器中的DRL算法对缓存策略进行持续的优化，实现缓存策略的动态可演进。

本发明采用的技术方案是：

一种深度强化学习驱动的网内缓存优化方法，首先通过智能地感知网络环境来对网络请求模式进行主动学习；然后计算出不同的最优缓存策略并分发给相应的路由节点执行；再由本地节点根据得到的策略做出缓存决策；结合主动式缓存和反应式缓存的优势，实现提高缓存命中率的最终目标。

每个路由节点为每个缓存的内容维护一个按流行程度排序的索引；某个特定内容的流行程度由自适应热窗口决定；此外，AHW还用于监测连续的时间序列请求；基于DRL的网络智能体部署在一个集中式的控制器中，用来聚合全网路由节点的时间序列数据提供给DRL算法，以此解决单个路由节点数据量不足的问题；然后，智能体输出一组动作，这些动作是AHW估计内容流行度的参数，再将得到的奖励作为反馈传递给网络智能体，以训练和改进驻留在智能体系统中的深度神经网络模型；

在每个路由节点中，某个特定内容被缓存后，会为其创建一个AHW，以监测请求的时间序列数并估计该内容的流行程度；AHW的目标是克服广泛使用的反应式缓存替换策略，包括最近最少使用、最近最频繁使用LFU及其变体方法的缺点。

AHW有两个参数，即α和β分别控制窗口的高度和长度；AHW选择的数据用于估计内容流行度；事实上间歇性和低频率偶发性的请求会大大降低LRU的效率，并可能导致缓存污染，而α正是一个过滤这种“噪声”即间歇性和低频率偶发性，并识别突发的请求的参数值；LFU根据累计请求数量的多少决定缓存，但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象；因此，LFU对请求模式的变化反应缓慢；

为此，AHW通过调整β参数来确定可以使用哪段时间的时间序列数据；当β的值增加时，AHW的长度会向右缩短，这表明最近当前的请求数量更能准确地估计该内容的流行程度；可以通过解决一个优化问题来计算α和β的值。

利用LRU和LFU的改进方法能够减轻缓存污染，但缺乏预测性；设计出通过DRL算法学习流量请求的模式，以此来持续优化α和β的值，并据此自动地调整AHW；基于DRL的缓存方法将发现并预测潜在的请求，如果一个内容对象被智能体预测即将进入冷阶段，即将不流行，其AHW的β值将迅速增加，即向右移动，窗口将急剧收缩；这表明估计的流行度将急剧下降；如果内容对象的请求频率较低且计数较少，则其AHW的α值将过滤这些请求；因此，内容对象将被替换，而不会被缓存；在接收到AHW的参数后，路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引；排名最低的内容对象将替换为新到达的内容；某个特定内容的流行度计算定义如下：

其中，NUM_t表示在时间间隔[t-1，t]内的请求数量。

DRL算法采用基本的策略梯度算法，考虑随机策略，即，根据动作集上的概率分布来选择某个状态下的动作；采用确定性策略梯度算法DPG来逼近预测的最优值；DPG是一种演员-评论家AC模型，将值函数与策略的显式表示相结合的确定性策略；AC维护一个参数化的Actor函数μ_θ来表示当前策略，并维护一个使用Bellman方程更新的评论家的深度神经网络V(s，a)；将AHW参数优化问题表述为以下DRL学习问题：AC作为DRL模型，涉及到演员和评论家网络的训练；

状态空间state space：状态由两部分组成：每个路由节点上每个内容对象在一段时间内的时序请求和每个路由节点的标识符；形式上，定义

为状态向量；

其中，K为网络内路由节点的总数，ICN_k(1≤k≤K)代表第k个路由节点的标识符，这是智能体识别地域差异的关键；1≤i≤I，I是ICN节点可以缓存的内容数量的最大值；某个内容i从[t₁，t_M]时间段内在第k个路由节点中记录的时间序列访问数据表示为

其中，t_M表示当前时刻；全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入；xⁱ(t_m)(1≤m≤M)表示某个节点的内容i在[t_m-1，t_m]时间段内的访问量；

动作空间action space：当在t时刻收到网络中路由器的缓存状态s_t时，系统智能体通过深度神经网络计算出相应动作a_t，即，节点的AHW参数；形式上，

奖励reward：奖励是当智能体在状态s_t时做出动作a_t时网络给予的反馈；由于智能体系统的最终目标是提升缓存命中率，所以我们将网络内节点的平均缓存命中率作为奖励函数，Hits表示命中率，即：

其中，K为网络内路由节点的总数，ICN_k(1≤k≤K)代表第k个路由节点的标识符。

本发明的优点是：本发明引入深度强化学习算法来制定网内缓存策略，通过智能地感知网络环境来对网络请求模式进行主动学习，给相应的路由节点计算出不同的最优缓存策略，结合主动式和反应式缓存的优势，提高了缓存命中率。同时，考虑到网内缓存节点的服务范围在地理区域和最终用户数量方面非常有限，本发明有针对性地提出一种缓存策略分发系统，采用深度强化学习DRL技术来跟踪用户请求模式的变化，智能地为不同位置的网内缓存节点分发缓存策略，以实现实时缓存决策，并可通过运行在控制器中的DRL算法对策略进行持续的优化，最终实现对高度动态请求模式的快速响应。

本发明在无区域差别、有区域差异两种不同条件下分别比较了iCache、ProPush、LFU-Aging、LRU-2四种缓存策略的平均缓存命中率，结果显示，本发明提出的iCache缓存策略性能优于其他三种，具有很强的稳定性和适应性。

附图说明

图1本发明的深度强化学习驱动的网内缓存优化方法结构与工作流程图。

图2本发明的自适应热窗口图。

图3为本发明的DRL模型图。

具体实施方式

本发明引入深度强化学习算法来制定网内缓存策略，实现缓存优化。具体而言，通过智能地感知网络环境来对网络请求模式进行主动学习，然后计算出不同的最优缓存策略并分发给相应的路由节点执行。再由本地节点根据得到的策略做出缓存决策。通过这种方式，可以结合主动式缓存和反应式缓存的优势，并实现提高缓存命中率的最终目标。整个方案结构图如图1所示。其中，每个路由节点为每个缓存的内容维护一个按流行程度排序的索引。某个特定内容的流行程度由自适应热窗口(Adaptive Hot Window,AHW)决定。此外，AHW还用于监测连续的时间序列请求。基于DRL的网络智能体部署在一个集中式的控制器中，用来聚合全网路由节点的时间序列数据提供给DRL算法，以此解决单个路由节点数据量不足的问题。然后，智能体输出一组动作，这些动作是AHW估计内容流行度的参数，再将得到的奖励(如节点平均命中率)作为反馈传递给智能体，以训练和改进驻留在智能体系统中的深度神经网络模型。

在每个路由节点中，某个特定内容被缓存后，会为其创建一个AHW，以监测请求的时间序列数并估计该内容的流行程度。AHW的目标是克服广泛使用的反应式缓存替换策略(如最近最少使用(Least Recent User,LRU)、最近最频繁使用(Least Frequent Used,LFU)及其变体方法)的缺点。如图2所示，AHW有两个参数，即，α和β分别控制窗口的高度和长度。AHW选择的数据用于估计内容流行度(如图2中的阴影区域)。众所周知，间歇性和低频率偶发性的请求会大大降低LRU的效率，并可能导致缓存污染，而α正是一个过滤这种“噪声”(间歇性和低频率偶发性)并识别突发的请求的参数值。LFU根据累计请求数量的多少决定缓存，但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象。因此，LFU对请求模式的变化反应缓慢。为了解决这个问题，AHW通过调整β参数来确定可以使用哪段时间的时间序列数据。当β的值增加时，AHW的长度会向右缩短，这表明最近当前的请求数量更能准确地估计该内容的流行程度。虽然可以通过解决一个优化问题来计算α和β的值，但是我们提出通过DRL算法学习流量请求的模式，以此来持续优化它们的值，并据此自动地调整AHW。

虽然LRU和LFU的一些改进方法能够减轻前面提到的问题，但它们仍然根据当前请求数或最新的访问时间替换内容。换句话说，它们缺乏预测性。而本项目基于DRL的缓存方法将发现并预测潜在的请求，同时将此信息告知AHW。例如，根据我们的实验观察，如果一个内容对象被智能体预测即将进入冷阶段(表示即将不流行)，其AHW的β值将迅速增加(向右移动)，窗口将急剧收缩。这表明估计的流行度将急剧下降。如果内容对象的请求频率较低且计数较少，则其AHW的α值将过滤这些请求。因此，内容对象将被替换，而不会被缓存。在接收到AHW的参数后，路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引。排名最低的内容对象将替换为新到达的内容。某个特定内容的流行度计算定义如下：

其中，NUM_t表示在时间间隔[t-1，t]内的请求数量。

策略梯度算法(Policy Gradient，PG)是一种基本的DRL算法，它只考虑随机策略，即，根据动作集上的概率分布来选择某个状态下的动作。换句话说，PG不能用于计算实值的值优化问题。因此，本项目采用确定性策略梯度算法(Deterministic Policy Gradient，DPG)来逼近预测的最优值。DPG是一种演员-评论家(Actor-Critic，AC)模型，它将值函数与策略的显式表示相结合的确定性策略。AC维护一个参数化的Actor函数μ_θ来表示当前策略，并维护一个使用Bellman方程更新的评论家的深度神经网络V(s，a)。将AHW参数优化问题表述为以下DRL学习问题：AC作为DRL模型，涉及到演员和评论家网络的训练，具体DRL模型如图3所示。

算法4.1如下

状态空间(state space)：状态由两部分组成：每个路由节点上每个内容对象在一段时间内的时序请求和每个路由节点的标识符。形式上，我们定义

为状态向量。其中，K为网络内路由节点的总数，ICN_k(1≤k≤K)代表第k个路由节点的标识符，这是智能体识别地域差异的关键；1≤i≤I，I是ICN节点可以缓存的内容数量的最大值。某个内容i从[t₁，t_M]时间段内在第k个路由节点中记录的时间序列访问数据表示为

其中，t_M表示当前时刻。如图3所示，全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入。xⁱ(t_m)(1≤m≤M)表示某个节点的内容i在[t_m-1，t_m]时间段内的访问量。

动作空间(action space)：当在t时刻收到网络中路由器的缓存状态s_t时，系统智能体通过深度神经网络计算出相应动作a_t，即，节点的AHW参数。形式上，

奖励(reward)：奖励是当智能体在状态s_t时做出动作a_t时网络给予的反馈。由于智能体系统的最终目标是提升缓存命中率，所以我们将网络内节点的平均缓存命中率作为奖励函数，Hits表示命中率，即：

根据上述介绍，系统中训练DRL智能体的伪代码如算法4.1所示，其中第1-6行表示经验回放采集，第7-10行表示神经网络更新。

Claims

1.一种深度强化学习驱动的网内缓存优化方法，其特征在于，首先通过智能地感知网络环境来对网络请求模式进行主动学习；然后计算出不同的最优缓存策略并分发给相应的路由节点执行；再由本地节点根据得到的策略做出缓存决策；结合主动式缓存和反应式缓存的优势，实现提高缓存命中率的最终目标；

在每个路由节点中，某个特定内容被缓存后，会为其创建一个AHW，以监测请求的时间序列数并估计该内容的流行程度；AHW的目标是克服广泛使用的反应式缓存替换策略，包括最近最少使用、最近最频繁使用LFU及其变体方法的缺点；

DRL算法采用基本的策略梯度算法，考虑随机策略，即，根据动作集上的概率分布来选择某个状态下的动作；采用确定性策略梯度算法DPG来逼近预测的最优值；DPG是一种演员-评论家AC模型，将值函数与策略的显式表示相结合的确定性策略；AC维护一个参数化的Actor函数μ_θ来表示当前策略，并维护一个使用Bellman方程更新的评论家的深度神经网络V(s,a)；将AHW参数优化问题表述为以下DRL学习问题：AC作为DRL模型，涉及到演员和评论家网络的训练；

为状态向量；

其中，K为网络内路由节点的总数，ICN_k(1≤k≤K)代表第k个路由节点的标识符，这是智能体识别地域差异的关键；1≤i≤I，I是ICN节点可以缓存的内容数量的最大值；某个内容i从[t₁,t_M]时间段内在第k个路由节点中记录的时间序列访问数据表示为

其中，t_M表示当前时刻；全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入；xⁱ(t_m)(1≤m≤M)表示某个节点的内容i在[t_m-1,t_m]时间段内的访问量；

2.根据权利要求1所述的一种深度强化学习驱动的网内缓存优化方法，其特征在于，AHW有两个参数，即α和β分别控制窗口的高度和长度；AHW选择的数据用于估计内容流行度；事实上间歇性和低频率偶发性的请求会大大降低LRU的效率，并可能导致缓存污染，而α正是一个过滤这种“噪声”即间歇性和低频率偶发性，并识别突发的请求的参数值；LFU根据累计请求数量的多少决定缓存，但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象；因此，LFU对请求模式的变化反应缓慢；

3.根据权利要求1所述的一种深度强化学习驱动的网内缓存优化方法，其特征在于，利用LRU和LFU的改进方法能够减轻缓存污染，但缺乏预测性；设计出通过DRL算法学习流量请求的模式，以此来持续优化α和β的值，并据此自动地调整AHW；基于DRL的缓存方法将发现并预测潜在的请求，如果一个内容对象被智能体预测即将进入冷阶段，即将不流行，其AHW的β值将迅速增加，即向右移动，窗口将急剧收缩；这表明估计的流行度将急剧下降；如果内容对象的请求频率较低且计数较少，则其AHW的α值将过滤这些请求；因此，内容对象将被替换，而不会被缓存；在接收到AHW的参数后，路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引；排名最低的内容对象将替换为新到达的内容；某个特定内容的流行度计算定义如下：

其中，NUM_t表示在时间间隔[t-1,t]内的请求数量。