CN113141634B

CN113141634B - 基于移动边缘计算网络的vr内容缓存方法

Info

Publication number: CN113141634B
Application number: CN202110266703.9A
Authority: CN
Inventors: 宋清洋; 陈维熙; 林鹏; 亓伟敬
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-05-03
Anticipated expiration: 2041-03-11
Also published as: CN113141634A

Abstract

本发明公开了一种基于移动边缘计算网络的VR内容缓存方法。包括建立网络中的用户移动模型，计算基站将内容发送给用户所需的传输速率，分配用户在下一个基站存储内容所需的资源量，将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策问题，计算用户QoE的奖励函数，以最大化整个过程中用户的QoE为优化目标，建立优化问题，用深度确定性策略梯度进行求解，以得到最优的主动缓存策略。减少VR视频获取时延、提高无线VR用户QoE，提高存储、计算、通信资源利用率。

Description

基于移动边缘计算网络的VR内容缓存方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于移动边缘计算网络的VR内容缓存方法。

背景技术

无线虚拟现实(Virtual reality,VR)可以为用户提供沉浸式体验，有望成为未来移动网络中最主流的应用。在无线VR业务传输系统中，移动边缘计算技术(Mobile edgecomputing,MEC)的引入使复杂、精细化的VR计算任务卸载到边缘节点成为可能，满足VR传输的超高带宽和低时延的要求。MEC可以在网络边缘节点(例如，基站)部署计算与存储资源，进而可以在网络边缘为移动设备提供服务，移动设备可以将自己的计算任务通过基站上传给云服务器，减小本地计算的压力。

在未来移动网络中，为满足极低时延、更高可靠性等要求，小基站大规模地部署已成必然趋势，将MEC服务器部署在基站上，用户可通过各种接入点获取无线VR服务，由于用户的移动性和基站部署的致密性，这导致用户在基站间频繁切换，增加用户获取内容的时延，降低用户的体验质量(Quality of Experience,QoE).为了解决这个问题，主动缓存是一个不错的方法，它可以用户到达下一个基站前，主动地将用户所需的内容或从云服务器上下载到用户将要连接的基站上或者主动地将所需服务部署在边缘云上以快速响应用户请求，减小用户切换时的连接时延和获取时延。

但是，针对MEC网络中的主动缓存研究仍存在一些不足。大多数主动缓存的研究根据用户的未来需求和移动路线只专注于存储的内容和存储的位置，或者主动计算用户的任务，而忽略了MEC网络中主动存储和计算的协同性以及主动存储内容时缓存、计算资源的利用效率。因此，在结合用户请求VR视频质量的情况下，以减少VR视频获取时延、提高无线VR用户QoE，提高存储、计算、通信资源利用率为目标，提出一种基于移动边缘计算网络的VR内容缓存方法。

发明内容

针对现有技术存在的不足，本发明提出一种基于移动边缘计算网络的VR内容缓存方法，以达到减小用户移动时频繁切换基站带来的时延，提高用户体验质量(Quality ofExperience,QoE)的目的。

为了实现上述目的，本发明采用的技术方案是，基于移动边缘计算网络的VR内容缓存方法，包括以下步骤：

步骤1、搭建移动边缘计算网络架构，包括云服务器、边缘服务器与用户设备，其中边缘服务器放置在基站附近，在网络边缘提供计算与存储，云服务器中存有用户所需的所有内容；

步骤2、建立网络中的用户移动模型，将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性；

步骤3、用户向基站请求内容后，基站将请求转发给云服务器，云服务器通过直接发送3D视频或者发送2D视频，然后边缘服务器将2D视频计算为3D视频后再发送给用户；

步骤4、计算基站将内容发送给用户所需的传输速率；

步骤5、分配用户在下一个基站存储内容所需的资源量；

步骤6、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策问题，马尔可夫决策问题包含四种要素：状态空间、动作空间、状态转移概率、奖励函数，可分别定义为

步骤7、计算用户QoE的奖励函数；

步骤8、以最大化整个过程中用户的QoE为优化目标，建立优化问题，表示如下：

其中，限制条件C1为基站存储容量的限制，限制条件C2为基站计算资源的限制，限制条件C3为基站带宽资源的限制，限制条件C4表示在分配的存储空间中存储2D视频的取值范围，限制条件C5表示每个用户只能请求单个质量的一个视频；

步骤9、用深度确定性策略梯度进行求解，以得到最优的主动缓存策略。

采用本发明的上述方案，具有以下有益技术效果：

本发明的一种基于移动边缘计算网络的VR内容缓存方法，是在移动边缘计算技术与无线网络主动缓存技术的基础上提出的。本发明通过对用户的移动方式进行分析，利用移动边缘计算的计算能力与边缘主动缓存技术的存储能力，解决用户移动导致在基站间频繁切换带来的内容获取时延问题，提高无线VR用户的QoE。同时考虑存储、计算、通信三种资源的分配，在用户移动过程中，通过对这三种资源联合管理优化，根据需要存储视频的数据容量与质量提前在目标基站上分配好合适的存储容量、所需计算部分的计算资源以及支持传输相应质量视频的通信资源，在提高无线VR用户QoE的同时，实现了高效的资源分配。利用DDPG有效解决用户移动过程中主动存储VR视频所需的资源分配的联合优化问题，收敛效果好，能得到最优的资源分配策略。因此本发明有效解决了频繁切换基站带来的时延问题，可以满足用户移动时对VR视频QoE的需求。

附图说明

图1为本发明一种实施例的网络系统模型示意图；

图2为本发明一种实施例的的DDPG算法框架示意图；

图3为本发明一种实施例的收敛性能的曲线图；

图4为本发明一种实施例的总奖励值与基站存储空间大小关系曲线图；

图5为本发明一种实施例的用户平均代价与基站带宽大小关系曲线图；

图6为本发明一种实施例的用户平均代价与基站计算资源大小关系曲线图；

图7为本发明一种实施例的总奖励值与用户请求比特率范围大小关系曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明基于移动边缘计算网络的系统模型，其中包括装有MEC服务器的基站和大量用户设备。本发明主要用主动缓存来解决用户的移动性所导致的用户在基站间频繁切换带来的额外内容获取时延问题，以提高主动缓存时的资源利用率和无线VR用户的QoE。利用深度强化学习中的DDPG算法对移动中的用户在基站中的存储的内容容量和质量进行学习预测。以此为基础设计基于移动边缘计算网络中的VR内容缓存方法，降低了内容获取时延，提高用户QoE。

一种基于移动边缘计算网络的VR内容缓存方法，包括以下步骤：

步骤1、搭建网络架构；移动边缘计算网络由云服务器、边缘服务器与用户设备组成，如图1所示。其中MEC服务器放置在基站附近，在网络边缘提供计算与存储能力，云服务器中存有用户所需的所有内容；

步骤2、建立网络中的用户移动模型，具体如下：

在此网络中，每个用户具有移动的性质，用户在部署密集的基站中移动，频繁在基站间切换。考虑用时空特性来对本发明中用户的移动进行建模，不再以距离进行度量。每个用户的移动性质都是独立的，每个用户的速度都互不影响且不考虑用户之间移动的关系，因此将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性。

步骤2-1、每个用户在基站间的移动是独立的，用户i在基站间的持续时间服从参数为Φ_i,j的指数分布，用户i到达新基站j的事件服从参数为φ_i.j的泊松分布。

步骤2-2、用户在移动过程中根据收集到的用户路径信息确定即将进入的下一个基站。

步骤3、用户请求内容后，内容传输方法如下：

步骤3-1、用户i在未移动的起始位置向基站发送请求，请求内容v_l，其中v表示第v个视频，l表示视频的第l个比特率质量。

步骤3-2、基站将请求转发给云服务器，云服务器可通过直接发送3D视频或者发送2D视频，然后MEC服务器计算为3D视频后再发送给用户。发送2D视频占发送所有类型视频的比例表示为x_i,j，

步骤4、计算基站将内容发送给用户所需的传输速率；

步骤4-1、利用信噪比来估算内容传输的传输速率，则基站的信噪比表示如下：

其中P_j表示基站j的发射功率，

是基站j与用户i之间的信道增益，σ²是高斯白噪声功率。

步骤4-2、计算用户获得内容的可达到的信道容量，表示如下：

Rate_i,j＝w_i,jlog₂(1+SNR) (2)

其中w_i,j表示基站j给用户i分配的带宽，用于传输用户i请求的视频。

步骤5、分配用户在下一个基站存储内容所需的资源量：

步骤5-1、分配M_i,j+1存储大小用于存储VR视频，M_i,j+1的值不能超过目标基站剩余的存储资源容量。

步骤5-2、若分配的存储空间中所占比例x_i,j+1用于存储2D视频，则需要分配F_i,j+1计算资源将2D视频投影为3D视频，F_i,j+1的值不能超过目标基站剩余的计算资源容量。

步骤5-3、分配W_i,j+1带宽大小用于传输存储的VR视频，W_i,j+1的值不能超过目标基站剩余的计算资源容量。

步骤6、分析用户移动时在各个基站主动缓存VR视频分配的资源量取值情况，选择合适的存储容量，选择在目标基站预分配的存储容量中所存2D视频的比例，合适的带宽分配量来支持VR视频的传输，选择合适的计算资源来计算所存的2D视频。在目标基站上的资源量分配只受此基站剩余的资源量影响，该现象符合马尔可夫性质。

步骤7、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策过程(Markov decision process，MDP)，MDP问题包含四种要素：状态空间、动作空间、状态转移概率、奖励函数，可分别定义为

将整个过程分为多个时间节点，假设t_χ为系统状态改变的时间，即t_χ为第χ个阶段的起始时间，第χ个阶段表示直到状态改变前的状态保持不变的持续时间。整个过程的状态改变时间集合为T＝{t₁,t₂,...,t_χ,...t_X}，其中X为阶段的总数量。

S是系统中所有可能状态的集合,定义状态空间为：

其中

分别表示基站j给用户i已分配的存储容量、计算资源、带宽量和用户与基站的关联关系。

分别表示为所有缓存容量分配的集合、所有计算资源分配的集合、所有带宽资源分配的集合、所有用户移动状态的集合。

在t_χ时刻下，定义

为基站j给用户i已分配的存储容量，所有基站与所有用户之间已分配存储容量的状态，可表示如下：

其中U、B分别表示用户和基站的总数量。在下列两种情况下

1)当基站j与用户i没有连接时，2)基站j与用户i有连接，但基站中没有剩余缓存资源可使用。其他情况下

因为每个基站的存储容量都有限，基站给用户分配的存储资源量不能超过自身存储容量，限制关系可以表示为：

M_j表示基站j的存储资源上限。

在t_χ时刻下，定义

为基站j给用户i已分配的计算资源，所有基站与所有用户之间已分配计算资源的状态，可表示如下：

与存储资源分配的状态类似，只有在t_χ时刻下，基站j与用户i连接，并且存在可用计算资源用于计算存储的部分2D视频时，

其他情况下

因为每个基站的计算资源都有限，基站给用户分配的计算资源量不能超过自身总的计算资源，限制关系可以表示为：

F_j表示基站j的计算资源上限。

在t_χ时刻下，定义

为基站j给用户i已分配的带宽，所有基站与所有用户之间已分配带宽资源的状态，可表示如下：

因为每个基站的计算资源都有限，基站给用户分配的带宽资源量不能超过自身总的带宽资源，限制关系可以表示为：

W_j表示基站j的带宽资源上限。

所有用户的移动过程是独立的泊松过程的组合。系统状态发生改变的随机事件即用户改变关联基站可以表示为：

其中，

表示为基站j与用户i的关联关系，表示为：

表示所有可行分配动作的集合。在用户移动到下一个基站前，可以通过提前存储用户所需的VR视频到基站上，预分配存储所需要的相关资源，来降低获取时延，在t_χ时刻，基站只能选择存储内容所需的缓存容量，2D视频所占的比例，计算2D视频所需的计算资源，传输VR视频所要的带宽，所以动作空间中有四个变量。可以表示为：

其中，

为2D视频占

中的比例，基站j分配给用户i的资源量不能超过自身的资源量，该限制条件可以表示为：

分别表示在时刻t_χ基站j+1分配给用户i存储内容所需的缓存容量，计算2D视频所需的计算资源，传输VR视频所需的带宽；M_j+1，F_j+1，W_j+1分别表示基站j+1自身的存储、上限、带宽资源上限；

在时刻t_χ基站j+1已分配的存储、计算、带宽资源；U表示用户的总数量。

因此，

为动作

构成的动作空间表示为

状态转移概率P表示一个状态到另一个状态的概率，在此系统中状态转移概率未知。

奖励函数

为用户得到主动缓存的内容获得的奖励，即反应用户的QoE。

步骤8、计算用户QoE的奖励值，过程如下：

步骤8-1、将此MDP问题的奖励值分为两部分，即比特率奖励值与视频播放时间奖励值；

步骤8-2、计算比特率奖励值。每次存储VR视频内容的质量与用户请求的比特率之间的差异定义为比特率损失，在时间t_χ发生状态改变时，基站j传输用户i请求的视频v的质量与用户初始请求的质量l的差值，表示如下：

其中，

表达用户i获得VR视频时的传输速率，

为二进制变量，表示用户i是否请求质量l的视频v，

如果在时间t_χ发生用户i状态没有改变时，

步骤8-3、计算用户i在基站j+1的覆盖范围内视频播放时间奖励值，在时间t_χ发生状态改变时，所获得的视频播放时间与用户在此基站间的持续时间的差值，表示如下：

其中，

表示用户i在基站j+1的覆盖范围内视频的播放时间，表示如下：

其中，α表示3D视频与2D视频的数据大小的比值。

分别表示在时刻t_χ基站j+1为用户i分配的存储空间以及所分配存储空间中2D视频所占比例的大小。

表示用户i在基站j+1的范围内的平均持续时间，为了保证2D视频能在用户进入基站前完成投影，计算时延需要限制在时间T₀内，表示为

δ为处理1bit数据所需的CPU计算圈数。如果在时间t_χ发生用户i状态没有改变时，

步骤8-4、计算时间t_χ发生状态改变时，用户i的总奖励值，表示如下：

其中，λ₁、λ₂分别表示各个奖励值的权重；

步骤8-5、计算整个过程总的奖励值，表示如下：

其中，

为折扣因子，

反应对未来奖励的影响。

步骤9、以最大化整个过程中用户的QoE为优化目标，建立优化问题，表示如下：

其中，限制条件C1为基站存储容量的限制，限制条件C2为基站计算资源的限制，限制条件C3为基站带宽资源的限制，限制条件C4表示在分配的存储空间中存储2D视频的取值范围，限制条件C5表示每个用户只能请求单个质量的一个视频。

步骤10、为得到最优的主动缓存策略，同时应对动作的连续性与高维度性，提出用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行求解；

DDPG算法主要基于行动家-评论家(Actor-Critic,AC)框架，如图2所示。用神经网络来估计评价网络与策略网络的输出。DDPG算法中有四个神经网络：在线评估网络、目标评估网络、在线策略网络、目标策略网络，动作网络根据输入的状态输出确定的动作，评估网络用来评估策略网络输出的动作，引导动作网络学习更好的策略。利用DDPG算法学习策略使所有阶段的Q值最大，Q值为状态-动作值，表示为：

其中E[·]表示数学期望，s，a分别表示状态和动作，

表示在时刻t_χ状态为

根据策略π采取动作

所获得的奖励值。

步骤10-1、随机初始化策略网络与评价网络的参数，以及目标策略网络与目标评价网络的参数，初始化经验池，设置学习率、折扣因子和软更新学习率；

步骤10-2、训练回合数初始化为1，得到初始状态

步骤10-3、回合中的训练步数初始化为1；

步骤10-4、根据初始状态

输出动作

μ表示策略网络，θ为策略网络中的权重参数。ε为探索噪声使智能体能够尝试新的动作来探索环境，并获得奖励

然后立即转到下一个状态

步骤10-5、将获得的数据

并为一个元组

存到经验池中，经验池方法可以降低训练样本间的关联性，使训练样本间具有独立性，提高训练效率；

步骤10-6、从经验池中随机采样N个元组(s_i,a_i,r_i,s_i+1)进行训练，使得Q^θ值更加接近真实值；

步骤10-7、将采样得到的数据集元组中的r_i与s_i+1输入到目标网络中，输入s_i+1到目标策略网络中得到动作a_i'₊₁，输入s_i+1和a_i'₊₁到目标评价网络中得到状态s_i+1下的Q值，表示如下：y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q') (23)

y_i为将采样元组作为目标网络的输入得到的状态s_i下的Q值，γ为折扣因子，μ'表示目标评价网络，Q'表示输入s_i+1和a′_i+1到目标评价网络中得到状态s_i+1下的Q值。

步骤10-8、更新评价网络中的θ值，减小目标网络与在线网络间的损失函数，表示如下：

步骤10-9、更新策略网络中的θ值，使用梯度下降法来优化策略网络参数，表示如下：

ρ^β关于状态的折扣分布，β为引入的随机行为策略，，

表示关于状态的期望值。

步骤10-10、根据在线网络参数软更新更新目标网络参数，将在线网络的参数缓慢地赋值给目标网络，提高学习的稳定性。软更新表示如下：

θ^Q'←τθ^Q+(1-τ)θ^Q' (26)

θ^μ'←τθ^μ+(1-τ)θ^μ' (27)

τ表示软更新学习率。

步骤10-11、判断每回合训练步数是否达到最大步数，若没有，训练步数加1返回步骤10-4，若有执行步骤10-12；

步骤10-12、判断训练的回合数是否达到最大，若没有，回合数加1，返回步骤10-3，若有结束训练，得到最优的主动缓存策略；

对本发明提出的基于移动边缘计算网络的VR内容缓存方法的整体性能进行比较分析，具体如下：

策略1是随机分配主动存储在下一个基站的VR视频所需要的资源量，策略2是分配资源满足先连接基站的用户的QoE。

图3为本发明一种实施例的收敛性能的曲线图。随着训练次数的增加，本发明提出的策略和策略2随着训练次数的增加，总奖励值都逐渐增加，策略1的值几乎没有变化。本发明提出的策略与策略2大约在训练次数为1500次后奖励值逐渐稳定并收敛。其中本发明提出的策略获得的奖励值是最高的，大约在-15.82附近，其次是策略2，大约在-23.60附近，最后是策略1，大约在-26.32附近。策略1获得奖励值最低的原因是基站随机分配资源给用户，完全忽略了用户在基站间的移动情况和对于视频质量的需求，造成最低的奖励值，即较低的用户QoE。策略2获得的奖励低于本发明提出策略而高于策略1，因为虽然策略2经过学习后奖励值有所提高，但忽略了所有用户整体的QoE，只满足于先来的用户的需求，造成没有可用的资源给后来的用户，使得后来的用户的需求无法满足，从而总奖励值较低。

图4为本发明一种实施例的总奖励值与基站存储空间大小关系曲线图。随着基站存储容量的增加，获得的总奖励值也随之增加。因为更大的基站存储可以给更多的用户存储更多的VR视频内容，以增加视频播放时间奖励值，从而使总奖励值增加。但是可以发现当基站存储容量增加到一定值后，总奖励值增加的幅度越来越小，最后趋于收敛。这是因为总奖励不仅与基站的存储容量有关，还与用户请求的视频质量、基站的计算资源和带宽资源有关，如果只提高基站的存储容量，总奖励自然不会无限制地增加。

图5为本发明一种实施例的用户平均代价与基站带宽大小关系曲线图。随着基站带宽的增加，三种策略的用户平均代价都有所减少。本发明提出的策略的用户平均代价是最低的，其次是策略2，最后是策略1，说明本发明提出的策略有效增加用户在移动过程中观看VR视频的体验质量，考虑用户的请求信息和用户的移动情况主动缓存最佳的内容容量和质量，从而用户的平均代价最低。策略2的用户平均代价高于本发明提出的策略而略低于策略1，并且在带宽大小增加到一定值后，用户平均代价就不再变化，因为它虽然考虑了用户的请求信息和移动情况来存储内容，通过学习得到主动缓存的方式，但是它只考虑个别用户，而忽略系统中所有用户整个过程的QoE，造成个别用户的代价值很低，但是大多数用户的体验质量依旧很差，并且除了带宽资源外的其他资源已经被先来的用户全部使用，虽然带宽大小在增加，也不会减少后来用户的代价。策略1用户平均代价最高，因为忽略了用户在基站间的移动情况和对于视频质量的需求，没有考虑用户的体验质量。由此，可以验证我们提出的策略有效对移动中的用户在基站中的存储的内容大小和质量进行学习预测，降低了用户平均代价，提高用户QoE。

图6为本发明一种实施例的用户平均代价与基站计算资源大小关系曲线图。随着基站计算资源的增加，三种策略的用户平均代价都有所减少。本发明提出的策略的用户平均代价是最低的，其次是策略2，最后是策略1，说明本发明提出的策略有效增加用户在移动过程中观看VR视频的体验质量，考虑用户的请求信息和用户的移动情况主动缓存最佳的内容，能够多利用计算资源使得使用的存储资源减少，给更多的用户存储更多的VR视频内容，从而使用户的平均代价最低。策略2的用户平均代价高于我们提出的策略而略低于策略1，并且在计算资源大小增加到一定值后，用户平均代价就不再变化，因为它虽然考虑了用户的请求信息和移动情况来存储内容，通过学习得到主动缓存的方式，但是它只考虑个别用户，而忽略系统中所有用户整个过程的QoE，造成个别用户的代价值很低，但是大多数用户的体验质量依旧很差，并且除了计算资源外的其他资源已经被先来的用户全部使用，虽然计算资源大小在增加，也不会减少后来用户的代价。策略1用户平均代价最高，因为忽略了用户在基站间的移动情况和对于视频质量的需求，没有考虑用户的体验质量。由此，可以验证我们提出的策略有效对移动中的用户在基站中的存储的内容大小和质量进行学习预测，降低了用户平均代价，提高用户QoE。

图7为本发明一种实施例的总奖励值与用户请求比特率范围大小关系曲线图。随着用户请求视频的比特率范围越来越高，总奖励值越小。因为用户有更高比特率的需求时，服务更高比特率的视频就需要更多的资源来支持，虽然提出的策略考虑了用户的请求信息和用户在基站间的移动情况而主动缓存最佳的内容，但是由于其他资源都有限，获得的奖励值相比于请求较低比特率范围来说就会减少。

通过上述的仿真比较，可知本发明提出的基于移动边缘计算网络的VR内容缓存方法是有效的，本发明方法针对用户移动性和需求对在目标基站存储内容大小和质量进行预测，在用户进入目标基站前分配存储内容所需的资源，解决了用户的移动性所导致的用户在基站间频繁切换带来的内容获取时延问题，提高资源利用率和VR视频用户的QoE。

Claims

1.基于移动边缘计算网络的VR内容缓存方法，其特征在于，包括以下步骤：

步骤4、计算基站将内容发送给用户所需的传输速率；

步骤5、分配用户在下一个基站存储内容所需的资源量；

步骤7、计算用户QoE的奖励函数，包括：

7-1、将此奖励函数分为两部分，即比特率奖励值与视频播放时间奖励值；

7-2、计算比特率奖励值：每次存储VR视频内容的质量与用户请求的比特率之间的差异定义为比特率损失，在时间t_χ发生状态改变时，基站j传输用户i请求的视频v的质量与用户初始请求的质量l的差值，表示如下：

其中，

为用户i获得VR视频时的传输速率，

为二进制变量表示用户i是否请求质量l的视频v，

7-3、计算时间t_χ状态发生改变时，用户i在基站j+1的覆盖范围内视频播放时间奖励值，表示如下：

其中，

表示用户i在基站j+1的范围内视频的播放时间，

表示用户i在基站j+1覆盖范围内的平均持续时间；

7-4、计算时间t_χ状态发生改变时，用户i的总奖励值，表示如下：

其中，λ₁、λ₂分别表示各个奖励值的权重；

7-5、计算整个过程总的奖励值，表示如下：

其中，

为折扣因子，X为阶段的总数量，U表示用户的总数量；

s.t.C1:

C2:

C3:

C4:

C5:

2.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法，其特征在于：步骤2所述建立用户移动模型包括以下步骤：

2-1、用户在基站间的移动是独立的，用户i在基站j间的持续时间服从参数为Φ_i,j的指数分布，用户i到达基站j的事件服从参数为φ_i.j的泊松分布；

2-2、用户在移动过程中根据收集到的路径信息确定即将进入的下一个基站。

3.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法，其特征在于：步骤4所述计算基站将内容发送给用户所需的传输速率，包括以下步骤：

4-1、利用信噪比估算内容传输的传输速率，则基站的信噪比表示如下：

其中P_j表示基站j的发射功率，

是基站j与用户i之间的信道增益，σ²是高斯白噪声功率；

4-2、计算用户获得内容的可达到的信道容量，表示如下：

Rate_i,j＝w_i,jlog₂(1+SNR)

4.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法，其特征在于：步骤5所述分配用户在下一个基站存储内容所需的资源量，具体包括以下步骤：

5-1、分配M_i,j+1存储大小用于存储VR视频；

5-2、若分配的存储空间中用于存储2D视频所占比例为x_i,j+1，则需要分配F_i,j+1计算资源将2D视频投影为3D视频；

5-3、分配W_i,j+1带宽大小用于传输存储的VR视频。

5.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法，其特征在于：步骤6所述建立为马尔可夫决策问题，将整个过程分为多个时间节点，t_χ为系统状态改变的时间，整个过程的状态改变时间集合为T＝{t₁,t₂,...,t_χ,...t_X}，其中X为阶段的总数量；

状态空间

为：

其中

分别表示基站j给用户i已分配的存储容量、计算资源、带宽量和用户与基站的关联关系，

分别表示为所有缓存容量分配的集合、所有计算资源分配的集合、所有带宽资源分配的集合、所有用户移动状态的集合；

在用户移动到下一个基站前，提前存储用户所需的VR视频到基站上，预分配存储所需要的相关资源，在t_χ时刻，基站只能选择存储内容所需的缓存容量，2D视频所占的比例，计算2D视频所需的计算资源，传输VR视频所要的带宽，所以动作空间

中有四个变量，表示为：

其中，

为2D视频占

中的比例，基站j分配给用户i的资源量不能超过自身的资源量，该限制条件表示为：

在时刻t_χ基站j+1已分配的存储、计算、带宽资源；U表示用户的总数量；

为动作

构成的动作空间表示为

∪为并集符号；

状态转移概率P表示一个状态到另一个状态的概率；

奖励函数

为用户得到主动缓存的内容获得的奖励。

6.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法，其特征在于：步骤9所述深度确定性策略梯度进行求解包括以下步骤：

9-1、随机初始化策略网络与评价网络的参数，以及目标策略网络与目标评价网络的参数，初始化经验池，设置学习率、折扣因子和软更新学习率；

9-2、训练回合数初始化为1，得到初始状态

9-3、回合中的训练步数初始化为1；

9-4、根据初始状态

输出动作

并获得奖励

然后立即转到下一个状态

9-5、将获得的数据

并为一个元组

存到经验池中；

9-6、从经验池中随机采样N个元组

进行训练；

9-7、得到目标网络的Q值；

9-8、更新评价网络中的θ值，减小目标网络与在线网络间的损失函数；

9-9、更新策略网络中的θ值，使用梯度下降法来优化策略神经网络参数；

9-10、根据在线网络参数软更新目标网络参数，表示如下：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

9-11、判断每回合训练步数是否达到最大步数，若没有，训练步数加1返回步骤9-4，若有执行步骤9-12；

9-12、判断训练的回合数是否达到最大，若没有，回合数加1，返回步骤9-3，若有结束训练，得到最优的主动缓存策略。