CN113687960B

CN113687960B - 一种基于深度强化学习的边缘计算智能缓存方法

Info

Publication number: CN113687960B
Application number: CN202110923203.8A
Authority: CN
Inventors: 王廷; 茅家伟
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-09-29
Anticipated expiration: 2041-08-12
Also published as: CN113687960A

Abstract

本发明公开了一种基于深度强化学习的边缘计算智能缓存方法，其特点是将流行度模型与深度强化学习结合来对当前资源进行边缘缓存的方法，智能体会判断短时间内该资源是否可能被再次请求，并且会选择缓存被再次请求可能性更高的资源，该方法分析用户请求资源的属性，根据流行度模型，利用该资源的属性得到对应的流行度，再利用深度强化学习的决策能力，分析该资源是否需要被加入缓存或者从缓存中剔除。本发明与现有技术相比具有更少的缓存置换次数和更高的缓存命中次数，大大减少传播时延和服务器的能源损耗，进一步提高边缘缓存的命中率和性能，能显著提高用户的体验质量，为相关领域的技术提供技术支撑。

Description

一种基于深度强化学习的边缘计算智能缓存方法

技术领域

本发明涉及边缘计算技术领域，具体的说是一种基于深度强化学习的边缘计算智能缓存策略。

背景技术

随着移动数据流量的高速增长，为了满足用户多样化的体验质量要求(QoE)，网络带宽和服务器资源面临着巨大的挑战。在传统云计算网络结构中，终端设备发起的数据服务请求可以得到有效解决，但远离云服务器的用户容易出现网络延迟高、体验质量差的情况。而将一部分数据缓存至网络边缘，能大幅减少响应用户请求的网络时延，以及服务器资源的损耗，进而能很好地提升用户的体验质量。在网络边缘缓存数据的解决方案中，缓存策略是一种影响缓存效果的关键因素。因此，边缘计算的缓存策略值得研究。

目前，边缘计算的缓存策略可分为传统缓存策略和基于机器学习的缓存策略两种类别。传统的缓存策略，如最近最少使用策略(LRU)和最不常用策略(LFU)以及先进先出策略(FIFO)，对于大小相同的内容，这些策略简单有效，但是当缓存内容的大小有很大差异时，它们忽略的传输延迟这一影响缓存效率的关键因素。因此传统的缓存策略在边缘计算缓存的场景中，性能并不能令人满意。基于机器学习的缓存策略又可以根据学习方式分为基于深度学习的缓存策略和基于强化学习的缓存策略。基于深度学习的缓存策略主要是基于样本输入输出，学习输入到输出的映射，但是在实践中，出于对用户隐私的保护，并不能搜集到足够的先验知识支持学习。基于强化学习的缓存策略，主要关注的是智能体如何确定正确的策略来优化其性能，但普通的强化学习通过有限的表格来存储状态，而边缘缓存中的状态是连续的无限的，为了解决这个问题，需要将深度学习和强化学习结合，从而得到另一种学习方式，即深度强化学习。虽然深度强化学习可以解决边缘缓存中无线状态不能存储在有限表格中的问题，但是如让智能体更好地理解内容的流行度是另一个重要的问题。

现有技术的缓存策略在面对缓存内容大小差异很大时会忽略传输延迟，从而无法有效提高缓存效率的问题。因此，如何在复杂的边缘计算网络环境中有效提高缓存的命中率以及性能是目前相关领域研究的难点，研制出一种能动态分析用户请求资源并制定正确缓存策略的边缘缓存方案是相关领域研究人员致力攻克的难点之一。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于深度强化学习的边缘计算智能缓存方法，采用将资源的大小和属性都考虑其中的缓存方法，利用流行度模型来计算当前资源的流行度，智能体会判断短时间内该资源是否可能被再次请求，使资源在将来会以更高的概率被再次请求，有效提高边缘缓存的命中率和性能，在制定缓存策略时，将资源的大小和属性都考虑其中，因此在识别对节省传播时延和能源的资源上具有更强大的优势，方法简便，实用性强，能显著提高用户的体验质量，为相关领域的技术提供技术支撑。

实现本发明目的的具体技术方案是：一种基于深度强化学习的边缘计算智能缓存方法，其特点是采用流行度模型对当前资源进行边缘计算的方法，智能体会判断短时间内该资源是否可能被再次请求，使资源以更高的概率被再次请求，其边缘计算和智能缓存具体包括以下步骤：

1)初始化阶段，利用给定的参数初始化DQN(Deep Q Network)的Q网络和经验回放池，所述初始化的具体内容为神经网络的更新率设为0.0001，每次训练的样本数量设为8，更新神经网络的频率设为5，即每处理5次请求就更新一次神经网络；所述经验回放池的大小为30000。

2)系统开始工作，在收到用户的资源请求时，利用流行度模型计算用户请求资源的流行度，所述流行度模型基于牛顿冷却定律，其流行度由下述a式计算：

P(t)＝(α+β)÷T(t) (a)；

其中：P(t)表示资源在t时刻的流行度；α为资源的初始流行度；β为用户行对资源流行度的影响因子；T(t)为物体在t时刻的温度。

所述流行度模型是基于下述b式的牛顿冷却定律，其流行度计算公式的具体推导过程为：

其中：T(t)表示物体在t时刻的温度；H表示物体所处环境的温度；k为线性常数，表示环境温度与降温速率之间的比例关系，不同的物质有不同的k值，通过该定律可以得到如下c式：

ln(T(t)-H0＝-kt+B (c)；

通过恒等变形，可以得到下述d式：

T(t)＝H+Ce^-kt (d)；

将上式用初始时刻t₀代替t可以得到下述d-1式：

所以可以将C定义为下述e式：

将e式代入d式可以进一步得到下述d-2式：

根据资源流行度的变化可以理解为一个自然冷却的过程。因此，如果没有任何干预，资源的流行度最终会变成零，即与周围环境温度相同。所以可以推断出上述d-2式中的H数值应当为0，得到下述d-3式：

在此基础上，考虑到用户行为对资源流行度的影响，当用户对资源的请求数量增加时，表明资源的流行度正在抵抗时间带来的自然冷却。也就是说，内容的流行度会提高，内容的冷却速度会减慢。因此，将用户行为对资源的影响定义为下述f式：

β＝(a_request+a_other}÷μ (f)；

其中：β表示用户行为对资源流行度造成的影响；a_request表示用户请求该资源；a_other表示用户对该资源的其他操作；μ表示人群规模。

上述内容解释了资源以初始流行度为基础的流行度变化过程，也就是说，资源的流行度不仅与外界的影响有关，还与其自身初始流行度有关，而初始流行度是由资源的类型决定的。不同的资源类型可能具有不同的初始流行度，例如，与体育赛事相关的资源流行度和与新闻相关的资源不同。

综上所述流行度模型可以将资源流行度随时间变化的过程与资源初始状态结合，为下述a式动态地描述资源在任何时候的流行程度：

P(t)＝(α+β)÷T(t) (a)；

其中：P(t)表示资源在t时刻的流行度；α表示资源的初始流行度。

3)判断当前请求的资源是否已经被缓存，并根据缓存的结果得到智能体上一次决策对应的奖励，之后将上一次的决策连同奖励与资源信息一起存储在经验回放池中，所述存储在经验回放池中的内容具体为当前环境的状态、智能体在当前状态下选择的动作、该动作对应的奖励、执行该动作后得到的下一个状态。

所述DQN状态为：{P(t),g}，其中：P(t)和g分别表示资源在t时刻的流行度和自身大小；所述智能体有添加缓存、删除缓存和保持缓存不变三种类型的操作，智能体根据动作价值函数输出每个动作的一个独热码，并选择最合适的值来执行相应的动作；所述价值函数由下述g式定义：

4)将当前资源的流行度、资源本身的大小、资源类型作为输入，传入Q网络，得到智能体每个动作的独热码，所述Q网络使用的DQN(Deep Q Network)是强化学习算法中的一种，强化学习可以被描述为一个马尔科夫决策过程，在马尔可夫决策模型中，状态空间、动作空间和奖励空间是相对关键的组成部分；所述状态空间由下述h式表示为：

S＝{s₁,s₂,…,s_n} (h)；

其中：s₁,s₂,…,s_n表示由所有请求构成的可能的状态。

所述动作空间由下述i式表示为：

X＝{x₁,x₂,…,x_n} (i)；

其中：{x₁,x₂,…,x_n}表示所有动作的集合，当智能体处于状态s_t时，会执行动作x_t，当前环境会随之切换到下一个状态s_t+1。

所述奖励空间由下述j式表示为：

R＝{r₁,r₂,…,r_n} (j)；

其中：{r₁,r₂,…,r_n}表示所有奖励的集合；r_t表示智能体在状态s_t下执行动作x_t得到的奖励。在DQN中，奖励函数是最重要的部分，它直接决定了要执行的动作，并且最终影响算法的有效性。为了使最终的回报最大化，智能体不仅要考虑当前的奖励，还要考虑未来的奖励。未来的奖励会按一定的比例减少，这个比例被称为折扣率，表示为γ，并且0<γ<1。因此，未来的折扣奖励可以被下述k式定义为：

所述智能体目标是选择一种在每种状态下都能获得最大收益的最优策略，从而在长期内使累积收益最大化；所述动作价值函数描述了智能体在状态s时，执行策略π得到的奖励，具体由下述m式定义为：

最佳动作价值函数表示了在所有动作值中最佳的一种，具体由下述n式定义为：

本发明的DQN算法中，使用了一种非线性的函数逼近来估计动作价值函数，这个函数逼近通常是一种被称为Q网络的神经网络Q(s,x,θ)≈Q(s,x)。其中，参数θ表示神经网络中的权重。通过Q网络对Q(s,x)的评估由下述p式表示为：

Q(sx,x_t)＝Q(s_t,x_t)+ζ[r_t+γ*maxQ(s_t+1,x_t+1)-Q(st,x_t)] (p)；

其中：ζ∈(0,1)表示学习率。

5)根据随机的探测机制，智能体会在步骤4)中已经得到的最优动作和以当前时间作为随机种子随机产生的动作，这两者之间选择一个动作并执行。

所述选择一个动作的具体流程为以当前时间作为随机种子得到一个随机数，并将其与给定的探测随机参数比较，若该随机数大于探测随机参数，则从每个动作的独热码中选择最合适的一个并让智能体执行对应的动作；若该随机值小于探测随机参数，则从动作空间中随机挑选一个动作并让智能体执行。

6)在不超过当前缓存容量的前提下，执行步骤5)中最终得到的动作，其具体流程为，如果当前被请求的资源需要被加入边缘缓存中，并且当前边缘缓存的空间已经被占满，则从当前缓存空间中删除最小奖励对应的资源；如果当前被请求的资源不需要被加入缓存或者缓存空间有足够的容量，则允许智能体直接执行步骤5)中得到的动作；

7)通过下述q式定义的最小化损失函数对Q网络不断更新：

L(θ⁺)＝E[(r_t+ζ*maxQ(s_t+1,x_t+1,θ)-Q(s,x,θ⁺))²] (q)。

本发明使用的DQN算法中有两个结构相同但参数不同的神经网络，即评价网络和目标网络。评价网络和目标网络的参数分别定义为θ⁺和θ，评估网络使用参数θ⁺计算当前动作值Q(s,x,θ⁺)，并且θ⁺在每一次循环中都会得到更新，目标网络使用参数θ计算下一个动作值Q(s,x,θ)，并且θ每隔一段时间更新一次值，目标网络可以降低Q值与目标Q值之间的相关性，使DQN更容易收敛。

8)不断重复步骤1)至步骤7)，持续地优化缓存决策的准确性，并最终得到准确的结果。

本发明与现有技术相比具有更少的缓存置换次数，大大减少更多的传播时延和服务器的能源损耗，进一步提高边缘缓存的命中率和性能，方法简便，实用性强，在缓存命中次数和缓存命中率上都更有优势，能显著提高用户的体验质量，为相关领域的技术提供技术支撑。

附图说明

图1为本发明的流程图；

图2为实施例示意图。

具体实施方式

下面以具体实施对本发明作进一步详细描述和说明：

实施例1

参阅图1～图2，按下述步骤进行边缘计算的智能缓存：

1)初始化阶段，利用给定的参数初始化DQN的Q网络和经验回放池。其中神经网络的更新率为0.0001，每次训练的样本数量为8，更新神经网络的频率为5，也就是每处理5次请求就更新一次神经网络，经验回放池的大小为30000。

2)运行系统在收到用户的资源请求时，利用流行度模型计算用户请求资源的流行度，流行度模型由下述a式定义为：

P(t)＝(α+β)÷T(t) (a)；

3)判断当前请求的资源是否已经被缓存，并根据缓存的结果得到智能体上一次决策对应的奖励，之后将上一次的决策连同奖励与资源信息一起存储在经验回放池中。存储在经验回放池中的内容具体为当前环境的状态、智能体在当前状态下选择的动作、该动作对应的奖励、执行该动作后得到的下一个状态。

本发明中定义的DQN状态为：{P(t),g}，其中：P(t)和g分别表示资源在t时刻的流行度和自身大小；所述智能体有添加缓存、删除缓存和保持缓存不变三种类型的操作，智能体根据动作价值函数输出每个动作的一个独热码，并选择最合适的值来执行相应的动作；所述价值函数由下述g式定义为：

4)将当前资源的流行度、资源本身的大小、资源类型作为输入，传入Q网络，得到智能体每个动作的独热码。DQN是强化学习算法中的一种，强化学习可以被描述为一个马尔科夫决策过程，在马尔可夫决策模型中，状态空间、动作空间和奖励空间是相对关键的组成部分，所述状态空间由下述h式表示为：

S＝{s₁,s₂,…,s_n} (h)；

其中：s₁,s₂,…,s_n表示由所有请求构成的可能的状态。

所述动作空间由下述i式表示为：

X＝{x₁,x₂,…,x_n} (i)；

所述奖励空间由下述j式表示为：

R＝{r₁,r₂,…,r_n} (j)；

本发明中的智能体目标是选择一种在每种状态下都能获得最大收益的最优策略，从而在长期内使累积收益最大化。动作价值函数描述了智能体在状态s时，执行策略π得到的奖励，具体定义为下述m式：

最佳动作价值函数表示了在所有动作值中最佳的一种，具体定义为下述n式：

本发明的DQN算法中使用了一种非线性的函数逼近来估计动作价值函数，这个函数逼近通常是一种被称为Q网络的神经网络Q(s,x,θ0≈Q(s,x)。其中参数e表示神经网络中的权重。通过Q网络对Q(s,x)的评估表示为下述p式：

Q(s_t,x_t)＝Q(s_t,x_t)+ζ[r_t+γ*maxQ(s_t+1,x_t+1)-Q(s_t,x_t)] (p)；

其中：ζ∈(0,1)表示学习率。

5)根据随机的探测机制，智能体在步骤4)中得到的最优动作和随机动作之间选择一种执行。以当前时间作为随机种子得到一个随机数，并将其与给定的探测随机参数比较，若该随机数大于探测随机参数，则从每个动作的独热码中选择最合适的一个并让智能体执行对应的动作；若该随机值小于探测随机参数，则从动作空间中随机挑选一个动作并让智能体执行。

Claims

1.一种基于深度强化学习的边缘计算智能缓存方法，其特征在于采用流行度模型对当前资源进行边缘计算的方法，智能体会判断短时间内该资源是否可能被再次请求，并选择缓存被再次请求可能性更高的资源，其智能缓存具体包括以下步骤：

1)利用给定的参数初始化DQN的Q网络和经验回放池；

2)系统在收到用户的资源请求时，利用流行度模型计算用户请求资源的流行度；

3)判断当前请求的资源是否已经被缓存，并根据缓存的结果得到智能体上一次决策对应的奖励，之后将上一次的决策连同奖励与资源信息一起存储在经验回放池中；

4)将当前资源的属性作为输入，传入Q网络，得到智能体每个动作的独热码；

5)根据随机的探测机制，智能体在步骤4)中得到的最优动作和随机动作之间选择一种；

6)在不超过当前缓存容量的前提下，执行步骤5)中最终得到的动作；

7)系统通过最小化损失函数不断更新Q网络；

8)重复上述步骤1)～步骤7)对Q网络不断更新，最终得到最优缓存决策。

2.根据权利要求1所述基于深度强化学习的边缘计算智能缓存方法，其特征在于所述步骤1)的Q网络更新率为0.0001，更新频率为5，每次训练的样本数量为8；所述经验回放池的大小为30000。

3.根据权利要求1所述基于深度强化学习的边缘计算智能缓存方法，其特征在于所述步骤2)的流行度由下述a式计算：

P(t)＝(α+β)÷T(t) (a)；

4.根据权利要求1所述基于深度强化学习的边缘计算智能缓存方法，其特征在于所述步骤3)的存储在经验回放池中的内容具体为当前环境的状态、智能体在当前状态下选择的动作、该动作对应的奖励、执行该动作后得到的下一个状态。

5.根据权利要求1所述基于深度强化学习的边缘计算智能缓存方法，其特征在于所述步骤6)在不超过当前缓存容量的前提下，执行步骤5)中最终得到的动作，如果当前被请求的资源需要被加入边缘缓存中，并且当前边缘缓存的空间已经被占满，系统就会从当前缓存空间中删除最小奖励对应的资源；如果当前被请求的资源不需要被加入缓存或者缓存空间有足够的容量，系统会允许智能体直接执行步骤(5)中得到的动作。

6.根据权利要求1所述基于深度强化学习的边缘计算智能缓存方法，其特征在于所述步骤7)通过下述q式定义的最小化损失函数对Q网络不断更新：

L(θ⁺)＝E[(r_t+ζ*maxQ(s_t+1,x_t+1,θ)-Q(s,x,θ⁺))²] (q)。