CN113064907B

CN113064907B - 一种基于深度强化学习的内容更新方法

Info

Publication number: CN113064907B
Application number: CN202110454708.4A
Authority: CN
Inventors: 姜静; 王凯; 孙军涛; 杜剑波
Original assignee: Shaanxi Wukongyun Information Technology Co ltd
Current assignee: Zhongke Haohan (Jiangsu) Intelligent Technology Co.,Ltd.
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-02-21
Anticipated expiration: 2041-04-26
Also published as: CN113064907A

Abstract

本发明公开了一种基于深度强化学习的内容更新方法，可以解决缓存内容的流行度未知且是动态变化的问题，使缓存策略能够适应动态变化的移动网络环境，从而最大化缓存命中率。具体过程主要包括首先建立缓存替换模型，其次利用神经网络获得当前缓存状态下的缓存替换策略，同时获得当前缓存状态到下一缓存状态奖赏函数，之后，利用神经网络找出当前缓存状态下最优缓存替换策略，最后利用最优缓存替换策略进行内容更新。

Description

一种基于深度强化学习的内容更新方法

技术领域

本发明涉及无线缓存技术领域，具体涉及一种基于深度强化学习的内容更新方法及应用。

背景技术

在无线缓存技术领域，内容更新是指将存储于Internet内容库中的数据调用到基站缓存中，然后通过缓存替换策略对基站缓存中的数据进行实时更新。通过缓存替换策略可使基站缓存清除陈旧、冷门、价值低或占用空间大的内容。现有的缓存替换策略主要包括先进先出策略(FIFO)、最近最少使用策略(LRU)和最少频率使用策略(LFU)，其中这些均无法跟踪内容流行度的快速变化，由此降低了缓存命中率，从而降低了用户体验感。

发明内容

为了解决传统缓存替换策略存在的无法跟踪内容流行度导致缓存命中率较低的问题。本发明提供了一种基于深度强化学习的内容更新方法，所述内容更新方法是采用学习算法，能够适应流行度动态变化的场景，及时跟踪文件流行度的快速变化，根据内容流行度的变换进行缓存替换，最后进行内容更新实现更高的缓存命中。

本发明的技术解决方案是提供了一种基与深度强化学习的内容更新方法，其特殊之处在于，包括以下步骤：

步骤一、建立缓存替换模型：

对内容更新建立缓存替换模型，并定义缓存替换模型的状态空间、动作空间和奖赏函数；

步骤二、利用神经网络获得当前缓存状态下的缓存替换策略，同时获得当前缓存状态到下一缓存状态奖赏函数；

步骤2.1、将当前缓存状态作为神经网络的输入数据；

步骤2.2、神经网络输出缓存替换策略；智能体根据缓存替换策略执行不同缓存替换动作，选取概率最大的一个缓存替换动作，同时转移到下一缓存状态此得出所述当前缓存状态到下一缓存状态奖赏函数；

步骤2.3、判断当前缓存状态是否为终止状态或者是否达到最大迭代次数，若是，则执行步骤三，否则，将下一缓存状态作为神经网络的输入数据，返回步骤2.2；

步骤三、利用神经网络找出当前缓存状态下最优缓存替换策略；

在神经网络中利用奖赏函数计算状态值函数，使用神经网络拟合状态值函数，同时获得状态值函数的TD误差，利用状态值函数的TD误差更新神经网络参数，得到当前状态下最优缓存替换策略；

步骤四、利用最优缓存替换策略进行内容更新。

进一步的，步骤二中所述神经网络为Actor网络；Actor网络根据当前缓存状态输出缓存替换策略；

步骤三中所述神经网络为Critic网络，使用Critic网络拟合状态值函数，用来评价Actor网络输出的缓存替换策略，并指导Actor网络更新网络参数以改善缓存替换策略。

进一步的，步骤1中缓存替换模型的状态空间：S＝{s₁，s₂，...，s_n}，每个时刻n∈[1，n]的缓存状态定义为s_n，s_n＝{c_n，r_n，c_n∈c，r_n∈r}，其中c为缓存放置内容，r为请求内容；

动作空间A＝{a₁，a₂，...，a_n}，其中a₁，a₂，...，a_n代表缓存替换动作；

奖赏函数为

其中s_n为缓存状态，采取缓存替换动作a_n，缓存状态转化为s_n+1，且有

表示指示函数；

表示在缓存放置内容c_n+1中，如果请求内容r_n+1，指示函数

的值取1，否则取0；

表示在初始缓存放置内容c_n中请求内容r_n+1，指示函数

的值取1，否则取0；当

取1时代表通过缓存替换可以命中请求文件，而不进行缓存替换就无法命中；当

取0时代表是否进行缓存替换都命中请求文件或都无法命中；当

取-1时代表通过缓存替换无法命中请求文件，反而不进行缓存替换会命中。

进一步的，步骤2.1具体为：

步骤2.11、更新时间序列n＝1；

步骤2.12、重置Actor网络和Critic网络的梯度更新量：dθ←0，dω←0，从公共部分的A3C神经网络同步参数到本线程的神经网络：θ′＝θ，ω′＝ω；θ，ω分别为Actor网络和Critic网络对应参数；

步骤2.13、令n_start＝n，并获取当前缓存状态s_n＝{c_n，r_n}；

步骤2.14、每个线程私有智能体将s_n输入到Actor网络；

步骤2.2具体为：

步骤2.21、Actor网络探索环境输出此时的策略π(s_n；θ′)，该策略是在当前缓存状态s_n下，执行不同缓存替换动作的概率，表示为：π(s_n；θ′)＝P(a|s_n；θ′)，其中π(s_n，a_n；θ′)∈π(s_n；θ′)代表执行缓存替换动作a_n；智能体根据缓存替换策略执行不同缓存替换动作；

步骤2.22、按照Actor网络的输出选取概率最大的一个缓存替换动作a_n，同时转移到的下个状态s_n+1并按照公式(1)计算奖赏函数记为

步骤2.3具体为：

判断s_n是否为终止状态或者n-n_start＝T_max，若是，则执行步骤三，否则，令n＝n+1，获取当前缓存状态空间s_n+1＝{c_n+1，r_n+1}，返回步骤2.2；T_max为全局最大迭代次数。

进一步的，步骤三具体为：

步骤3.1、在Critic网络中利用奖赏函数计算出状态值函数

使用Critic网络拟合状态值函数

其中ω′为Critic网络中神经网络参数，γ∈[0，1]为折扣因子；

步骤3.2、若s_n是终止状态，则状态值函数的TD误差为0；否则计算状态值函数的TD误差

其中k的上界为T_max；利用状态值函数的TD误差更新Actor网络的策略函数参数

Critic网络的策略函数参数

步骤3.3、用dθ和dω更新公共部分的A3C神经网络参数θ，ω，直到最大迭代次数，Actor网络输出当前状态下最优缓存替换策略。

进一步的，结合最优缓存替换策略进行内容更新。

本发明的有益效果是：本发明将深度强化学习的方法应用到无线缓存基站中，进而实现了具有环境自适应能力的缓存替换策略。将缓存放置内容、请求内容作为状态空间，缓存替换策略作为动作空间并依此实现更多的缓存命中来设计奖赏函数，本发明结合深度强化学习算法，在线学习内容的流行度，进而有利于使其缓存内容能够根据时间的变化进行改变，避免造成缓存“污染”现象，进而有利于增强用户体验感。

附图说明

图1是本发明实施例中基于深度强化学习的缓存替换方法流程图；

图2是本发明实施例中应用场景图。

具体实施方式

下面将结合具体实施例及附图，对本发明进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，当基站收到用户请求时，首先判断是否已缓存请求内容，若存在，则将已缓存的请求内容发送给用户；否则，需要返回Intemet内容库获取请求内容。同时在基站中缓存所请求的内容，如果基站缓存已满，则需要对基站缓存内容进行替换，根据缓存替换策略决定替换哪些已缓存的旧内容。为了提高缓存命中率，本发明提供了一种基于深度强化学习的内容更新方法。具体思想是：建立缓存替换模型，该模型包括缓存状态空间、动作空间和奖赏函数。定义缓存状态空间为缓存放置内容和请求内容，动作空间为缓存替换策略并依此实现更多的缓存命中来设计奖赏函数；之后基于深度强化学习设计了缓存替换策略，通过迭代学习获得最优缓存替换策略，根据最优缓存替换策略删除旧内容，并缓存请求内容，通过更新缓存内容实现更高的内容请求命中率。

本实施例基于深度强化学习的内容更新方法主要包括以下步骤：

步骤一、建立缓存替换模型；

缓存替换模型用三元数组<S，A，R>，其中：

S是缓存状态空间：定义缓存状态空间S＝{s₁，s₂，...，s_n}，每个时刻n∈[1，n]的缓存状态定义为s_n，且可以表示为s_n＝{c_n，r_n，c_n∈c，r_n∈r}，其中c为缓存放置内容，r为请求内容。

A是动作空间：所述动作空间为缓存替换策略，当缓存未命中且缓存已满时，通过该策略可以确定替换哪些内容，定义动作空间A＝{a₁，a₂，...，a_n}，其中a₁，a₂，...，a_n代表缓存替换动作，即分别替换基站缓存中第a₁，a₂，...，a_n个内容；每个缓存状态可以对应多个缓存替换动作，缓存状态s_n对应的缓存替换动作记为a_n，其为动作空间中的某些子集。

R是奖赏函数：假设当前缓存状态s_n＝{c_n，r_n}，采取缓存替换动作a_n后，缓存状态空间转换为s_n+1＝{c_n+1，r_n+1}，得到的累计奖赏函数构建为下式(1)：

表示指示函数；

表示在缓存放置内容c_n+1中，如果请求内容r_n+1，指示函数

的值取1，否则取0；

表示在初始缓存放置内容c_n中请求内容r_n+1，指示函数

的值取1，否则取0；当

步骤二、找出缓存替换策略，具体为基于Actor网络输出缓存替换策略；

A3C神经网络具有一个公共神经网络，该公共神经网络拥有Actor网络和Critic网络。除了公共神经网络外还有许多worker线程，每个线程中有和公共的神经网络一样的网络结构，每个线程会独立的和环境进行交互得到经验数据，这些线程之间互不干扰，独立运行。由于A3C是异步多线程的，这里给出任意一个线程的算法流程。

输入：公共部分的A3C神经网络结构，Actor网络和Critic网络对应参数θ，ω；本线程的A3C神经网络结构，Actor网络和Critic网络对应参数θ′，ω′；全局最大迭代次数T_max；折扣因子γ。

步骤1、更新时间序列n＝1；

步骤2、重置Actor网络和Critic网络的梯度更新量：dθ←0，dω←0，从公共部分的A3C神经网络同步参数到本线程的神经网络：θ′＝θ，ω′＝ω；

步骤3、令n_start＝n，并获取当前系统状态s_n＝{c_n，r_n}；

步骤4、每个线程私有智能体将s_n输入到Actor网络；

步骤5、Actor网络探索环境输出此时的策略π(s_n；θ′)，该策略该策略是在当前缓存状态s_n下，执行不同缓存替换动作的概率，表示为：π(s_n；θ′)＝P(a|s_n；θ′)，其中π(s_n，a_n；θ′)∈π(s_n；θ′)代表执行缓存替换动作a_n；

步骤6、按照Actor网络的输出选取概率最大的一个缓存替换动作a_n，同时转移到的下个状态s_n+1并按照公式(1)计算奖赏函数记为R_n；

步骤7、判断s_n是否为终止状态或者n-n_start＝T_max，若是，则执行步骤8，否则，令n＝n+1，获取当前缓存状态空间s_n+1＝{c_n+1，r_n+1}，返回步骤4；

步骤三、找出得到当前状态下最优缓存替换策略，具体为基于Critic网络获得的最优缓存替换策略；

步骤8：在Critic网络中利用奖赏函数计算出状态值函数

使用Critic网络拟合状态值函数

步骤9、若s_n是终止状态，则状态值函数的TD误差为0；否则计算状态值函数的TD误差

Critic网络的策略函数参数

步骤10、用dθ和dω更新公共部分的A3C神经网络参数θ，ω，直到最大迭代次数T_max。

输出：公共部分的A3C神经网络参数θ，ω。

步骤四、利用通过神经网络迭代更新得到的最优缓存替换策略进行内容更新。

如图2所示，本发明基于深度强化学习进行内容更新，在使用前需要建立包含有若干个用户设备、一个基站，其中基站有缓存能力的系统模型，并将系统模型中基站缓部署于用户周边；根据将基站缓存放置内容和用户请求文件作为状态空间，将缓存替换策略作为动作空间，同时利用离散空间的A3C算法来设计缓存替换策略，相比于FIFO、LRU和LFU等传统缓存替换策略，本发明缓存替换策略能够实现更高的缓存命中率，并且本发明通过采用深度强化学习技术，使得本发明能够考虑动态的内容流行度和用户偏好，进而有利于使其缓存内容能够根据时间的变化进行改变，避免造成缓存“污染现象”，进而有利于增强用户体验感。

以上所述，为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的内容更新方法，其特征在于，包括以下步骤：

步骤一、建立缓存替换模型：

步骤二、利用神经网络获得当前缓存状态下的缓存替换策略，同时获得当前缓存状态到下一缓存状态的奖赏函数；

步骤2.1、将当前缓存状态作为神经网络的输入数据；

步骤2.2、神经网络输出缓存替换策略；智能体根据缓存替换策略执行不同缓存替换动作，选取概率最大的一个缓存替换动作，同时转移到下一缓存状态，以此得出所述当前缓存状态到下一缓存状态的奖赏函数；

步骤四、利用最优缓存替换策略进行内容更新。

2.根据权利要求1所述的一种基于深度强化学习的内容更新方法，其特征在于：

步骤二中所述神经网络为Actor网络；Actor网络根据当前缓存状态输出缓存替换策略；

步骤三中所述神经网络为Critic网络，使用Critic网络拟合状态值函数，评价Actor网络输出的缓存替换策略，并指导Actor网络更新网络参数以改善缓存替换策略。

3.根据权利要求1或2所述的一种基于深度强化学习的内容更新方法，其特征在于：步骤1中缓存替换模型的状态空间：S＝{s₁,s₂,...,s_n}，每个时刻n∈[1,n]的缓存状态定义为s_n，s_n＝{c_n,r_n,c_n∈c,r_n∈r}，其中c为缓存放置内容，r为请求内容；

动作空间A＝{a₁,a₂,...,a_n}，其中a₁,a₂,...,a_n代表缓存替换动作；

奖赏函数为

表示指示函数；

表示在缓存放置内容c_n+1中，如果请求内容r_n+1，指示函数

的值取1，否则取0；

表示在初始缓存放置内容c_n中请求内容r_n+1，指示函数

的值取1，否则取0；当

4.根据权利要求3所述的一种基于深度强化学习的内容更新方法，其特征在于，步骤2.1具体为：

步骤2.11、更新时间序列n＝1；

步骤2.12、重置Actor网络和Critic网络的梯度更新量：dθ←0,dω←0,从公共部分的A3C神经网络同步参数到本线程的神经网络：θ'＝θ,ω'＝ω；θ,ω分别为Actor网络和Critic网络对应参数；

步骤2.13、令n_start＝n，并获取当前缓存状态s_n＝{c_n,r_n}；

步骤2.14、每个线程私有智能体将s_n输入到Actor网络；

步骤2.2具体为：

步骤2.21、Actor网络探索环境输出此时的策略π(s_n；θ')，该策略是在当前缓存状态s_n下，执行不同缓存替换动作的概率，表示为：π(s_n；θ')＝P(a|s_n；θ')，用π(s_n,a_n；θ')代表执行缓存替换动作a_n，其中π(s_n,a_n；θ')∈π(s_n；θ')，智能体根据缓存替换策略执行不同缓存替换动作；

步骤2.3具体为：

判断s_n是否为终止状态或者n-n_start＝T_max，若是，则执行步骤三，否则，令n＝n+1，获取当前缓存状态空间s_n+1＝{c_n+1,r_n+1}，返回步骤2.2；T_max为全局最大迭代次数。

5.根据权利要求4所述的一种基于深度强化学习的内容更新方法，其特征在于，步骤三具体为：

步骤3.1、在Critic网络中利用奖赏函数计算出状态值函数

使用Critic网络拟合状态值函数

其中ω'为Critic网络中神经网络参数，γ∈[0，1]为折扣因子；

其中k的上界为T_max；

利用状态值函数的TD误差更新Actor网络的策略函数参数

与Critic网络的策略函数参数

步骤3.3、用dθ和dω更新公共部分的A3C神经网络参数θ,ω，直到最大迭代次数，Actor网络输出当前状态下最优缓存替换策略。