CN112218337A

CN112218337A - 一种移动边缘计算中的缓存策略决策方法

Info

Publication number: CN112218337A
Application number: CN202010919693.XA
Authority: CN
Inventors: 周继鹏; 庄娘涛; 纪杨阳; 张效铨
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-01-12
Anticipated expiration: 2040-09-04
Also published as: CN112218337B

Abstract

本发明公开了一种移动边缘计算的缓存策略决策方法，该方法构建带移动边缘计算服务器的宏基站、带移动边缘计算服务器的小基站和移动用户组成的多小区网络模型，解决多小区的协作缓存问题。移动边缘计算服务器能够缓存定量的文件为移动用户提供缓存服务，若移动边缘计算服务器内缓存的文件命中了移动用户的文件请求，便能为该移动用户提供低时延的缓存服务并缓解回程链路的负载。由于移动边缘计算服务器的缓存容量有限，该方法引入深度Q网络算法得到满足要求的各小区基站的缓存策略，有效降低小区内所有移动用户请求文件产生的总时延和和回程链路负载。

Description

一种移动边缘计算中的缓存策略决策方法

技术领域

本发明涉及移动边缘计算的多小区网络模型及边缘网络的多小区协作缓存技术，具体涉及一种移动边缘计算中的缓存策略决策方法。

背景技术

近年来，随者智能终端设备的快速发展及许多丰富多彩的多媒体内容及应用的出现，预计未来的流量将呈现爆炸式的增长，将会给移动回程容量带来巨大压力。思科的一份报告《Cisco visual networking index:Global mobile data traffic forecastupdate,2017–2022》表明了，在2017年至2022年间，全球的移动数据流量将会增长至原来的七倍，并于2022年，每月的全球移动数据流量增至77艾字节，一年间的移动数据流量将达到近乎一个泽字节，并且将近有五分之三的流量将从蜂窝网络中卸载。目前已经有许多学者提出了各种方法来应这些挑战,但是为了能够承受和支持未来5G网络中预见的大规模流量的应用场景，除了提高网络容量，还必须伴随更高层(例如，网络架构，回程传输和应用)的创新。

虽然云计算在过去一直被用于服务提供弹性的计算能力和缓存需求的终端设备，为移动用户节省了较大的开销以及创造出了有效的经济效益。但是现代科技的飞速发展，许多移动应用程序，如VR、AR以及车联网，对计算能力和时延非常敏感，云计算这种集中式处理模式已经不再适用于这个万物互联时代，因为将所有移动用户的数据和计算任务都迁移到远端云不仅会大大加重远端核心网络的负担，也会导致较大的传输延迟，从而降低移动用户体验。为了应对上述问题，产业界和学术界开始研究新的网络架构模型，移动边缘计算(Mobile Edge Computing，MEC)便在这时期应运而生。

MEC把云计算平台从远端网络迁移到离移动用户更接近的边缘网络，通过部署边缘服务器在边缘网络的基站(Base Station，BS)处，能够为基站附近的移动用户提供具有更低时延、更高带宽的数据服务。思科报告还提到在2022年间，全球移动数据流量的79％都将会是视频流量，其原因是互联网上大部分的流量负载都来自于同一组视频文件的重复观看和下载，而边缘缓存可以看作是流量重复访问问题的有效解决方法。移动边缘计算部署服务器给基站带来了缓存功能，能够支持缓存受欢迎的视频或文件，以此可以提高移动用户的体验质量(Quality of Experience,QoE)，改善网络性能(如传输时延、回程链路负载和能源效率)。

目前许多网络场景下的缓存研究，大多是利用累计手机的移动用户请求数据，再根据诸如Zipf等常见分布来描述缓存的内容流行度，同时假设内容流行度在一定时间内不会发生变化的前提下来求解缓存优化问题。但是在现实生活中，移动用户请求的数据往往是动态变化的，并且在每个地区的内容需求各不相同。为了能够解决在这种动态场景下的缓存优化问题，我们可以利用马尔可夫过程对移动用户请求进行建模，并采用强化学习(RL)理论，根据需求随时间变化的动态特性来学习网络的未知性为，从而得到更加符合实际场景下的最佳缓存策略。

但是，传统的强化学习存在一些问题，如当强化学习的状态和动作的数量非常庞大，以至于无法用传统表格形式来缓存记录这些数据时，算法模型便难以收敛。为了有效解决这个问题，可以利用深度学习的强表征能力，进而提高强化学习算法的求解与泛化能力。深度学习结构由多层网络构成，层与层之间是待调整隐藏参数，每层输出还需经过非线性函数映射。只要网络层数足够深，通过调节层与层之间是待调节的隐藏参数可以拟合任何状态或动作数据。

发明内容

本发明的目的是为了解决现有技术中的上述挑战，提出一种移动边缘计算中的缓存决策方法，该决策方法能够在动态场景下获取MEC的最佳缓存策略，从而最小化全局网络在总时隙所造成的运营成本。

本发明针对一个多小区网络模型推出一种基于深度强化学习的缓存策略决策方法，该方法利用深度强化学习的DQN算法定义了多小区网络模型基于强化学习的状态、动作集、奖励函数等概念，给出由训练集训练过的DQN算法的神经网络，最后能够获取最大Q值的缓存策略，该缓存策略有效降低全局网络的总时延成本和回程链路负载；相对于传统缓存策略算法，本发明运用深度强化学习的DQN算法作为缓存策略的求解方法，通过融合强化学习与深度学习的优点，能够适应动态场景下的缓存优化问题；相对于强化学习的Q-learning算法，本发明运用的DQN算法能够在Q-learning算法的基础上加入了神经网络，解决了维度灾难等问题。通过以上三点的主要优化和改进，能够获得网络整体性能较好的缓存策略。

本发明的目的可以通过采取如下技术方案达到：

一种移动边缘计算中的缓存策略决策方法，所述的缓存策略决策方法包括下列步骤：

S1、构建移动边缘计算的多小区网络模型，该多小区网络模型包括宏基站、小基站和移动用户，其中宏基站简称MBS，小基站简称SBS；每个小区配备一个MBS、s个SBS和h个移动用户；SBS与移动用户之间通过无线连接，SBS可以向在服务范围内的移动用户提供服务，每个移动用户可能会在多个SBS的服务范围内，但在同一时间里，移动用户只能够与一个SBS连接获取服务；MBS与同小区的SBS通过无线连接，不同小区的MBS间通过高容量链路连接，并且每个MBS还通过回程链路与远端互联网络连接；

S2、将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法，训练深度Q网络算法的神经网络参数，深度Q网络算法简称DQN算法；

S3、MEC服务器将运行时间划分为T个时隙，在每个时隙的开始，MEC服务器会收集在服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据；

S4、使用DQN算法输出缓存策略和所对应的Q值，选择Q值最高的缓存策略作为当前时隙的最佳缓存策略；

S5、MEC服务器按照当前时隙的最佳缓存策略为部署依据，从文件库抓取相应的文件缓存；

S6、多小区网络模型完成当前时隙的文件部署后，判断是否结束，否则进入下一时隙，收集下一时隙内的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中，转到步骤S4。

进一步地，所述移动用户的文件请求被服务的规则归结为：当移动用户位于多个SBS服务范围内时，若请求的文件缓存在这些SBS当中，则直接发送给移动用户，倘若不是，则通过MBS找到缓存有该文件的基站位置，并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户；若本小区没有缓存该文件，则借助其它小区的协作获取到文件发送给移动用户，否则，将请求发送给远端云核心网获取文件。

进一步地，所述DQN算法是结合神经网络的Q-learning算法，通过不断与环境的交互，选择最佳的动作，实现过程如下：

将环境状态作为输入，输出动作和所对应的Q值，使用ε-greedy贪婪算法，以概率ε随机选择一个动作，以概率1-ε选择最优Q值的动作，执行选择的动作进入下一个状态，将这条记录加入到DQN算法的经验池中进行二次训练，DQN算法的神经网络训练优化网络参数，待训练完毕，输出值运用最优解策略，输出最优解。

进一步地，所述DQN算法的状态定义为：在某个时隙t下，所有移动用户的文件请求信息和当前时隙下各个基站缓存的文件集，那么，在时隙t下的状态X^t表示为：

X^t＝(O^t，A^t)，t＝1，2，…，T

其中O^t表示时隙t内所有移动用户的文件请求信息集合，A^t表示在时隙t时的所有基站(包括MBS和SBS)缓存的文件集合。

进一步地，所述DQN算法的动作定义为：当在某个时隙t下的状态X^t时，处于多小区网络模型下的每个基站具备将自身缓存的文件集的文件保留与替换的权限，在时隙t下，小区i内基站j的文件调整用一个F×F矩阵表示：

其中C＝{c₁，c₂…，c_m}表示小区集合，m表示多小区网络模型下小区的个数；Bⁱ个数表示小区i下所有基站组成的集合；a_pq＝{0，1}表示基站执行的动作，取1表示将基站的内容q替换成内容p，当p＝q时表示该基站的内容保持不变，显然，存在约束条件：

其中，F表示多小区网络模型的文件库大小；

该时隙t下的动作集为：

进一步地，所述DQN算法的奖励函数表示为：

其中E^t(A^t)表示多小区网络模型在时隙t下的成本函数，表达式如下：

E^t(A^t)＝α·L(A^t)+(1-α)·D(A^t)，t＝1，2，…，T

其中α∈(0，1)表示权重因子；D(A^t)表示时隙t的全局网络的总时延成本；L(A^t)表示时隙t的全局网路下产生的回程链路负载成本。

进一步地，所述时隙t的全局网络的总时延成本表示为：

其中

表示服务移动用户u产生的文件请求

带来的时延成本，

表示时隙t内所有移动用户产生的请求文件集合，U^t表示小区i的用户集合，

表述如下：

其中t(u，j)来表示基站j为移动用户u服务所带来的最小时延成本；t₀表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本，t(u，mb_i)表示从MBS传输到移动用户的时延成本；V_bs表示全局网络下所有基站(包括所有MBS和SBS)组成的集合，A_total＝∪_i∈CAⁱ表示全局网络下缓存的文件并集，mb_i表示小区i内的MBS。

进一步地，一旦移动用户的文件请求能够在小区层面上得到服务，就不用再将请求发送到远端的核心云来获取服务，这种情况下能够降低回程链路间传输的流量；因此，将时隙t的全局网路下产生的回程链路负载成本表示为：

其中A^t表示全局网络的缓存策略，

表示全局网络下文件f的在时隙t被防问的次数，S_f表示文件f的文件大小，集合

表示集合A_total关于文件库F的补集。

进一步地，所述DQN算法的Q值函数更新公式为：

其中X^t，Y^t表示当前时隙的状态和动作集，X^t+1，Y^t+1表示下个时隙的状态和动作集，R(X^t+1，Y^t+1)表示下一时隙的奖励函数；α表示学习率，λ∈[0，1)是衰减系数，当λ趋近于0时，全局网络将倾向于注重当前的瞬时奖励，若λ趋于1时，全局网络将倾向于注重未来的回报。

进一步地，所述DQN算法是结合Q-learning算法、经验回放机制以及基于神经网络生成动作值等技术；它使用一个权重参数为θ的深度神经网络作为动作值函数的神经网络模型，通过神经网络模型q(X^t，Y^t，θ)来模拟动作值函数q(X^t，Y^t)，即：

q(X^t，Y^t，θ)≈q(X^t，Y^t)

根据上述Q值函数更新公式，使用均方误差来定义目标函数，作为神经网络的损失函数为：

其中E表示数学期望；最后，使用梯度下降法来实现神经网络模型对目标函数的优化。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明在移动边缘计算场景下提出的多小区网络模型考虑的是多个小区相互协作的网络应用场景，每个基站配备有MEC服务器，具备计算、缓存和管理功能。MEC服务器能够缓存一定量的文件，并通过基站之间的协作帮助，向服务范围内的移动用户提供边缘缓存服务，从而降低服务移动用户的请求文件信息所带来的时延成本以及减轻回程链路的负载，改善网络性能。

(2)本发明运用深度强化学习的DQN算法对缓存策略求解，相比传统的缓存策略求解算法，DQN算法目的是获得最大化累计奖励，从而更加适应具备时隙模式下的动态场景。

(3)本发明运用深度强化学习的DQN算法来求解缓存优化问题，DQN算法是结合Q-learning算法、经验回放机制以及基于神经网络生成动作值等技术，能够避免单纯的Q-learing算法带来的维度灾难等问题。

附图说明

图1是本发明公开的一种由MBS、SBS和移动用户组成的多小区网络模型图；

图2是本发明公开的网络结构拓扑图；

图3是本发明公开的移动边缘计算中的缓存策略决策方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方法和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例给出了缓存策略决策方法在移动边缘计算中的使用，下面结合附图3中本发明公开的移动边缘计算中的缓存策略决策方法的流程图，具体说明本发明的方法，该方法的实现包括以下步骤：

首先，构建移动边缘计算的多小区网络模型，该多小区网络模型包括宏基站、小基站和移动用户，其中宏基站简称MBS，小基站简称SBS；每个小区配备一个MBS、s个SBS和h个移动用户；SBS与移动用户之间通过无线连接，SBS可以向在服务范围内的移动用户提供服务，每个移动用户可能会在多个SBS的服务范围内，但在同一时间里，移动用户只能够与一个SBS连接获取服务；MBS与同小区的SBS通过无线连接，不同小区的MBS间通过高容量链路连接，并且每个MBS还通过回程链路与远端互联网络连接。

其中，移动用户的文件请求被服务的规则可以归结为：当移动用户位于多个SBS服务范围内时，若请求的文件缓存在这些SBS当中，则直接发送给移动用户，倘若不是，则通过MBS找到缓存有该文件的基站位置，并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户；若本小区没有缓存该文件，则借助其它小区的协作获取到文件发送给移动用户，否则，将请求发送给远端云核心网获取文件。

然后，将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法，训练深度Q网络算法的神经网络参数，深度Q网络算法简称DQN算法；MEC服务器将运行时间划分为T个时隙，在每个时隙的开始，MEC服务器会收集在服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据。

使用DQN算法输出缓存策略和所对应的Q值，选择Q值最高的缓存策略作为这个时隙的最佳缓存策略；MEC服务器按照这个时隙的最佳缓存策略为部署依据，从文件库抓取相应的文件缓存；多小区网络模型完成当前时隙的文件部署后，判断是否结束，否则进入下一时隙，收集这个时隙下的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中，转到Q值选择那一步。

DQN算法是结合神经网络的Q-learning算法，通过不断与环境的交互，选择最佳的动作；DQN算法步骤如下：

将环境状态进行输入，输出动作和所对应的Q值，使用ε-greedy贪婪算法，以概率ε随机选择一个动作，以概率1-ε选择最优Q值的动作，执行选择的动作进入下一个状态，将这条记录加入到DQN算法的经验池中进行二次训练，DQN算法的神经网络训练优化网络参数，待训练完毕，输出值运用最优解策略，输出最优解。

DQN算法的状态可以定义为：在某个时隙t下，所有移动用户的文件请求信息和这个时隙下各个基站缓存的文件集。那么，在时隙t下的状态X^t可以表示为：

X^t＝(O^t，A^t)，t＝1，2，…，T

DQN算法的动作定义为：当在某个时隙t下的状态X^t时，处于多小区网络模型下的每个基站可以做出这样的动作：基站可以决定将自身缓存的文件集的文件保留与替换。在时隙t时，小区i内基站j的文件调整可以用一个F×F矩阵表示：

其中C＝{c₁，c₂，…，c_m}表示小区集合，m表示多小区网络模型下小区的个数；Bⁱ个数表示小区i下所有基站组成的集合；a_pq＝{0，1}表示基站执行的动作，取1表示将基站的内容q替换成内容p，当p＝q时表示该基站的内容保持不变，显然，存在约束条件：

其中，F表示多小区网络模型的文件库大小。最后，我们可以表示个时隙t下的动作集为：

DQN算法的奖励函数表示为：

其中E^t(A^t)表示本文提出的多小区网络模型在时隙t下的成本函数，具体描述如下所示：

E^t(A^t)＝α·L(A^t)+(1-α)·D(A^t)，t＝1，2，…，T

时隙t的全局网络的总时延成本可以表示为：

其中

表示服务移动用户u产生的文件请求

带来的时延成本，

表述如下：

其中t(u，j)来表示基站j为移动用户u服务所带来的最小时延成本；t₀表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本，t(u，mb_i)表示从MBS传输到移动用户的时延成本。V_bs表示全局网络下所有基站(包括所有MBS和SBS)组成的集合，A_total＝∪_i∈CAⁱ表示全局网络下缓存的文件并集，mb_i表示小区i内的MBS。

一旦移动用户的文件请求能够在小区层面上得到服务，就不用再将请求发送到远端的核心云来获取服务，这种情况下能够降低回程链路间传输的流量。因此，所述的时隙t的全局网路下产生的回程链路负载成本可以表示为：

其中A^t表示全局网络的缓存策略，

表示全局网络下文件f的在时隙t被访问的次数，S_f表示文件f的文件大小，集合

表示集合A_total关于文件库F的补集。

DQN算法的Q值函数更新公式为：

其中X^t，Y^t表示当前时隙的状态和动作集，X^t+1，Y^t+1表示下个时隙的状态和动作集，R(X^t+1，Y^t+1)表示下一时隙的奖励函数。α表示学习率，λ∈[0，1)是衰减系数，当λ趋近于0时，全局网络将更注重当前的瞬时奖励，若趋于1时，则更加关注未来的回报。

DQN算法是结合Q-learning算法、经验回放机制以及基于神经网络生成动作值等技术。它使用一个权重参数为的θ深度神经网络作为动作值函数的神经网络模型，通过神经网络模型q(X^t，Y^t，θ)来模拟动作值函数q(X^t，Y^t)，即：

q(X^t，Y^t，θ)≈q(X^t，Y^t)

根据上述的动作值函数更新公式，使用均方误差来定义目标函数，作为神经网络的损失函数为：

其中E表示数学期望。最后，使用梯度下降法来实现神经网络模型对目标函数的优化。

其中考虑一个由5000m×5000m的正方形区域作为实验的模拟环境，区域内包括半径为600m的圆形区域的三个小区，每个小区包含1个MBS、8个SBS和200个移动用户，其中MBS的通讯范围是600m，SBS的通讯范围是250m，MBS位于小区的中心点，SBS和移动用户的位置则是随机均匀地分布在小区内。

为了比较DQN算法的一般性能，我们提供了几种常见的算法：LRU、LFU和FIFO算法作为比较的基准，其中LRU是最近最少使用算法，即替换掉最近最少使用的内容；LFU为最小频率使用算法，规则是替换掉最不常用的内容，FIFO为先进先出算法。从全局网络时延成本和回程链路负载两个指标触犯，通过与几种常见的算法进行比较，衡量本方法的性能。

实验使用马萨诸塞大学安姆斯特分校收集的YouTube请求数据集(网址：http://traces.cs.umass.edu/index.php/Network/Network)作为多小区网络模型的数据依据，选取请求访问量最多的前200个文件作为实验的文件库文件；文件的流行度服从参数为1.5的Zip-f分布，Zip-f分布需要的文件排名信息以YouTube数据集为依据获取；设定所有文件的大小统一为10MB，SBS的缓存容量大小为50MB，MBS的缓存容量大小为100MB

传输时延作为拓扑图G(V，E)边e(i，j)∈E的权值，拓扑图如本发明公开的网络结构拓扑图附图2所示；其值的确定由发送方和接收方的角色来确定；设定文件从SBS到移动用户的传输时延为10ms，从MBS到SBS(或者从SBS到MBS)的传输时延为10ms，其它小区的MBS传输到本小区MBS的时延为50ms，从远端互联网络到MBS的传输时延为130ms。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种移动边缘计算中的缓存策略决策方法，其特征在于，所述决策方法包括下列步骤：

S1、构建移动边缘计算的多小区网络模型，该多小区网络模型包括宏基站、小基站和移动用户，其中宏基站简称MBS，小基站简称SBS；每个小区配备一个MBS、s个SBS和h个移动用户；SBS与移动用户之间通过无线连接，SBS向在服务范围内的移动用户提供服务，每个移动用户可能会在多个SBS的服务范围内，但在同一时间里，移动用户只能够与一个SBS连接获取服务；MBS与同小区的SBS通过无线连接，不同小区的MBS间通过高容量链路连接，并且每个MBS还通过回程链路与远端互联网络连接；

S3、MEC服务器将运行时间划分为T个时隙，在每个时隙的开始，MEC服务器收集服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据；

2.根据权利要求书1所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述移动用户的文件请求被服务的规则为：当移动用户位于多个SBS服务范围内时，若请求的文件缓存在以上SBS当中，则直接发送给移动用户，倘若不是，则通过MBS找到缓存有该文件的基站位置，并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户；若本小区没有缓存该文件，则借助其它小区的协作获取到文件发送给移动用户，否则，将请求发送给远端云核心网获取文件。

3.根据权利要求书1所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述DQN算法是结合神经网络的Q-learning算法，通过不断与环境的交互，选择最佳的动作，实现过程如下：

4.根据权利要求书3所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述DQN算法的状态定义为：在某个时隙t下，所有移动用户的文件请求信息和当前时隙下各个基站缓存的文件集，那么，在时隙t下的状态X^t表示为：

X^t＝(O^t,A^t),t＝1,2,…,T

其中O^t表示时隙t内所有移动用户的文件请求信息集合，A^t表示在时隙t时的所有基站缓存的文件集合。

5.根据权利要求书4所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述DQN算法的动作定义为：当在某个时隙t下的状态X^t时，处于多小区网络模型下的每个基站具备将自身缓存的文件集的文件保留与替换的权限，在时隙t下，小区i内基站j的文件调整用一个F×F矩阵表示：

其中C＝{c₁,c₂,…,c_m}表示小区集合，m表示多小区网络模型下小区的个数；Bⁱ个数表示小区i下所有基站组成的集合；a_pq＝{0,1}表示基站执行的动作，取1表示将基站的内容q替换成内容p，当p＝q时表示该基站的内容保持不变，显然，存在约束条件：

其中，F表示多小区网络模型的文件库大小；

该时隙t下的动作集为：

6.根据权利要求书5所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述DQN算法的奖励函数表示为：

E^t(A^t)＝α·L(A^t)+(1-α)·D(A^t),t＝1,2,…,T

其中α∈(0,1)表示权重因子；D(A^t)表示时隙t的全局网络的总时延成本；L(A^t)表示时隙t的全局网路下产生的回程链路负载成本。

7.根据权利要求书6所述的一种移动边缘计算中的缓存策略决策方法，所述时隙t的全局网络的总时延成本表示为：

其中

表示服务移动用户u产生的文件请求

带来的时延成本，

表述如下：

其中t(u,j)来表示基站j为移动用户u服务所带来的最小时延成本；t₀表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本，t(u,mb_i)表示从MBS传输到移动用户的时延成本；V_bs表示全局网络下所有基站组成的集合，A_total＝∪_i∈CAⁱ表示全局网络下缓存的文件并集，mb_i表示小区i内的MBS。

8.根据权利要求书6所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，一旦移动用户的文件请求能够在小区层面上得到服务，就不用再将请求发送到远端的核心云来获取服务，将时隙t的全局网路下产生的回程链路负载成本表示为：

其中A^t表示全局网络的缓存策略，

表示集合A_total关于文件库F的补集。

9.根据权利要求书6所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述DQN算法的Q值函数更新公式为：

其中X^t,Y^t表示当前时隙的状态和动作集，X^t+1,Y^t+1表示下个时隙的状态和动作集，R(X^t ⁺¹,Y^t+1)表示下一时隙的奖励函数；α表示学习率，λ∈[0,1)是衰减系数，当λ趋近于0时，全局网络将倾向于注重当前的瞬时奖励，若λ趋于1时，全局网络将倾向于注重未来的回报。

10.根据权利要求书9所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述DQN算法使用一个权重参数为θ的深度神经网络作为动作值函数的神经网络模型，通过神经网络模型q(X^t,Y^t,θ)来模拟动作值函数q(X^t,Y^t)，即：

q(X^t,Y^t,θ)≈q(X^t,Y^t)