CN113141634B - 基于移动边缘计算网络的vr内容缓存方法 - Google Patents

基于移动边缘计算网络的vr内容缓存方法 Download PDF

Info

Publication number
CN113141634B
CN113141634B CN202110266703.9A CN202110266703A CN113141634B CN 113141634 B CN113141634 B CN 113141634B CN 202110266703 A CN202110266703 A CN 202110266703A CN 113141634 B CN113141634 B CN 113141634B
Authority
CN
China
Prior art keywords
user
base station
video
content
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110266703.9A
Other languages
English (en)
Other versions
CN113141634A (zh
Inventor
宋清洋
陈维熙
林鹏
亓伟敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110266703.9A priority Critical patent/CN113141634B/zh
Publication of CN113141634A publication Critical patent/CN113141634A/zh
Application granted granted Critical
Publication of CN113141634B publication Critical patent/CN113141634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/131Protocols for games, networked simulations or virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于移动边缘计算网络的VR内容缓存方法。包括建立网络中的用户移动模型,计算基站将内容发送给用户所需的传输速率,分配用户在下一个基站存储内容所需的资源量,将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策问题,计算用户QoE的奖励函数,以最大化整个过程中用户的QoE为优化目标,建立优化问题,用深度确定性策略梯度进行求解,以得到最优的主动缓存策略。减少VR视频获取时延、提高无线VR用户QoE,提高存储、计算、通信资源利用率。

Description

基于移动边缘计算网络的VR内容缓存方法
技术领域
本发明属于无线通信技术领域,具体涉及一种基于移动边缘计算网络的VR内容缓存方法。
背景技术
无线虚拟现实(Virtual reality,VR)可以为用户提供沉浸式体验,有望成为未来移动网络中最主流的应用。在无线VR业务传输系统中,移动边缘计算技术(Mobile edgecomputing,MEC)的引入使复杂、精细化的VR计算任务卸载到边缘节点成为可能,满足VR传输的超高带宽和低时延的要求。MEC可以在网络边缘节点(例如,基站)部署计算与存储资源,进而可以在网络边缘为移动设备提供服务,移动设备可以将自己的计算任务通过基站上传给云服务器,减小本地计算的压力。
在未来移动网络中,为满足极低时延、更高可靠性等要求,小基站大规模地部署已成必然趋势,将MEC服务器部署在基站上,用户可通过各种接入点获取无线VR服务,由于用户的移动性和基站部署的致密性,这导致用户在基站间频繁切换,增加用户获取内容的时延,降低用户的体验质量(Quality of Experience,QoE).为了解决这个问题,主动缓存是一个不错的方法,它可以用户到达下一个基站前,主动地将用户所需的内容或从云服务器上下载到用户将要连接的基站上或者主动地将所需服务部署在边缘云上以快速响应用户请求,减小用户切换时的连接时延和获取时延。
但是,针对MEC网络中的主动缓存研究仍存在一些不足。大多数主动缓存的研究根据用户的未来需求和移动路线只专注于存储的内容和存储的位置,或者主动计算用户的任务,而忽略了MEC网络中主动存储和计算的协同性以及主动存储内容时缓存、计算资源的利用效率。因此,在结合用户请求VR视频质量的情况下,以减少VR视频获取时延、提高无线VR用户QoE,提高存储、计算、通信资源利用率为目标,提出一种基于移动边缘计算网络的VR内容缓存方法。
发明内容
针对现有技术存在的不足,本发明提出一种基于移动边缘计算网络的VR内容缓存方法,以达到减小用户移动时频繁切换基站带来的时延,提高用户体验质量(Quality ofExperience,QoE)的目的。
为了实现上述目的,本发明采用的技术方案是,基于移动边缘计算网络的VR内容缓存方法,包括以下步骤:
步骤1、搭建移动边缘计算网络架构,包括云服务器、边缘服务器与用户设备,其中边缘服务器放置在基站附近,在网络边缘提供计算与存储,云服务器中存有用户所需的所有内容;
步骤2、建立网络中的用户移动模型,将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性;
步骤3、用户向基站请求内容后,基站将请求转发给云服务器,云服务器通过直接发送3D视频或者发送2D视频,然后边缘服务器将2D视频计算为3D视频后再发送给用户;
步骤4、计算基站将内容发送给用户所需的传输速率;
步骤5、分配用户在下一个基站存储内容所需的资源量;
步骤6、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策问题,马尔可夫决策问题包含四种要素:状态空间、动作空间、状态转移概率、奖励函数,可分别定义为
Figure BDA0002972299370000021
步骤7、计算用户QoE的奖励函数;
步骤8、以最大化整个过程中用户的QoE为优化目标,建立优化问题,表示如下:
Figure BDA0002972299370000022
Figure BDA0002972299370000023
Figure BDA0002972299370000024
Figure BDA0002972299370000025
Figure BDA0002972299370000026
Figure BDA0002972299370000027
其中,限制条件C1为基站存储容量的限制,限制条件C2为基站计算资源的限制,限制条件C3为基站带宽资源的限制,限制条件C4表示在分配的存储空间中存储2D视频的取值范围,限制条件C5表示每个用户只能请求单个质量的一个视频;
步骤9、用深度确定性策略梯度进行求解,以得到最优的主动缓存策略。
采用本发明的上述方案,具有以下有益技术效果:
本发明的一种基于移动边缘计算网络的VR内容缓存方法,是在移动边缘计算技术与无线网络主动缓存技术的基础上提出的。本发明通过对用户的移动方式进行分析,利用移动边缘计算的计算能力与边缘主动缓存技术的存储能力,解决用户移动导致在基站间频繁切换带来的内容获取时延问题,提高无线VR用户的QoE。同时考虑存储、计算、通信三种资源的分配,在用户移动过程中,通过对这三种资源联合管理优化,根据需要存储视频的数据容量与质量提前在目标基站上分配好合适的存储容量、所需计算部分的计算资源以及支持传输相应质量视频的通信资源,在提高无线VR用户QoE的同时,实现了高效的资源分配。利用DDPG有效解决用户移动过程中主动存储VR视频所需的资源分配的联合优化问题,收敛效果好,能得到最优的资源分配策略。因此本发明有效解决了频繁切换基站带来的时延问题,可以满足用户移动时对VR视频QoE的需求。
附图说明
图1为本发明一种实施例的网络系统模型示意图;
图2为本发明一种实施例的的DDPG算法框架示意图;
图3为本发明一种实施例的收敛性能的曲线图;
图4为本发明一种实施例的总奖励值与基站存储空间大小关系曲线图;
图5为本发明一种实施例的用户平均代价与基站带宽大小关系曲线图;
图6为本发明一种实施例的用户平均代价与基站计算资源大小关系曲线图;
图7为本发明一种实施例的总奖励值与用户请求比特率范围大小关系曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明基于移动边缘计算网络的系统模型,其中包括装有MEC服务器的基站和大量用户设备。本发明主要用主动缓存来解决用户的移动性所导致的用户在基站间频繁切换带来的额外内容获取时延问题,以提高主动缓存时的资源利用率和无线VR用户的QoE。利用深度强化学习中的DDPG算法对移动中的用户在基站中的存储的内容容量和质量进行学习预测。以此为基础设计基于移动边缘计算网络中的VR内容缓存方法,降低了内容获取时延,提高用户QoE。
一种基于移动边缘计算网络的VR内容缓存方法,包括以下步骤:
步骤1、搭建网络架构;移动边缘计算网络由云服务器、边缘服务器与用户设备组成,如图1所示。其中MEC服务器放置在基站附近,在网络边缘提供计算与存储能力,云服务器中存有用户所需的所有内容;
步骤2、建立网络中的用户移动模型,具体如下:
在此网络中,每个用户具有移动的性质,用户在部署密集的基站中移动,频繁在基站间切换。考虑用时空特性来对本发明中用户的移动进行建模,不再以距离进行度量。每个用户的移动性质都是独立的,每个用户的速度都互不影响且不考虑用户之间移动的关系,因此将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性。
步骤2-1、每个用户在基站间的移动是独立的,用户i在基站间的持续时间服从参数为Φi,j的指数分布,用户i到达新基站j的事件服从参数为φi.j的泊松分布。
步骤2-2、用户在移动过程中根据收集到的用户路径信息确定即将进入的下一个基站。
步骤3、用户请求内容后,内容传输方法如下:
步骤3-1、用户i在未移动的起始位置向基站发送请求,请求内容vl,其中v表示第v个视频,l表示视频的第l个比特率质量。
步骤3-2、基站将请求转发给云服务器,云服务器可通过直接发送3D视频或者发送2D视频,然后MEC服务器计算为3D视频后再发送给用户。发送2D视频占发送所有类型视频的比例表示为xi,j
Figure BDA0002972299370000041
步骤4、计算基站将内容发送给用户所需的传输速率;
步骤4-1、利用信噪比来估算内容传输的传输速率,则基站的信噪比表示如下:
Figure BDA0002972299370000042
其中Pj表示基站j的发射功率,
Figure BDA0002972299370000043
是基站j与用户i之间的信道增益,σ2是高斯白噪声功率。
步骤4-2、计算用户获得内容的可达到的信道容量,表示如下:
Ratei,j=wi,jlog2(1+SNR) (2)
其中wi,j表示基站j给用户i分配的带宽,用于传输用户i请求的视频。
步骤5、分配用户在下一个基站存储内容所需的资源量:
步骤5-1、分配Mi,j+1存储大小用于存储VR视频,Mi,j+1的值不能超过目标基站剩余的存储资源容量。
步骤5-2、若分配的存储空间中所占比例xi,j+1用于存储2D视频,则需要分配Fi,j+1计算资源将2D视频投影为3D视频,Fi,j+1的值不能超过目标基站剩余的计算资源容量。
步骤5-3、分配Wi,j+1带宽大小用于传输存储的VR视频,Wi,j+1的值不能超过目标基站剩余的计算资源容量。
步骤6、分析用户移动时在各个基站主动缓存VR视频分配的资源量取值情况,选择合适的存储容量,选择在目标基站预分配的存储容量中所存2D视频的比例,合适的带宽分配量来支持VR视频的传输,选择合适的计算资源来计算所存的2D视频。在目标基站上的资源量分配只受此基站剩余的资源量影响,该现象符合马尔可夫性质。
步骤7、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策过程(Markov decision process,MDP),MDP问题包含四种要素:状态空间、动作空间、状态转移概率、奖励函数,可分别定义为
Figure BDA0002972299370000044
将整个过程分为多个时间节点,假设tχ为系统状态改变的时间,即tχ为第χ个阶段的起始时间,第χ个阶段表示直到状态改变前的状态保持不变的持续时间。整个过程的状态改变时间集合为T={t1,t2,...,tχ,...tX},其中X为阶段的总数量。
S是系统中所有可能状态的集合,定义状态空间为:
Figure BDA0002972299370000045
其中
Figure BDA0002972299370000046
分别表示基站j给用户i已分配的存储容量、计算资源、带宽量和用户与基站的关联关系。
Figure BDA0002972299370000047
分别表示为所有缓存容量分配的集合、所有计算资源分配的集合、所有带宽资源分配的集合、所有用户移动状态的集合。
在tχ时刻下,定义
Figure BDA0002972299370000051
为基站j给用户i已分配的存储容量,所有基站与所有用户之间已分配存储容量的状态,可表示如下:
Figure BDA0002972299370000052
其中U、B分别表示用户和基站的总数量。在下列两种情况下
Figure BDA0002972299370000053
1)当基站j与用户i没有连接时,2)基站j与用户i有连接,但基站中没有剩余缓存资源可使用。其他情况下
Figure BDA0002972299370000054
因为每个基站的存储容量都有限,基站给用户分配的存储资源量不能超过自身存储容量,限制关系可以表示为:
Figure BDA0002972299370000055
Mj表示基站j的存储资源上限。
在tχ时刻下,定义
Figure BDA0002972299370000056
为基站j给用户i已分配的计算资源,所有基站与所有用户之间已分配计算资源的状态,可表示如下:
Figure BDA0002972299370000057
与存储资源分配的状态类似,只有在tχ时刻下,基站j与用户i连接,并且存在可用计算资源用于计算存储的部分2D视频时,
Figure BDA0002972299370000058
其他情况下
Figure BDA0002972299370000059
因为每个基站的计算资源都有限,基站给用户分配的计算资源量不能超过自身总的计算资源,限制关系可以表示为:
Figure BDA00029722993700000510
Fj表示基站j的计算资源上限。
在tχ时刻下,定义
Figure BDA00029722993700000511
为基站j给用户i已分配的带宽,所有基站与所有用户之间已分配带宽资源的状态,可表示如下:
Figure BDA00029722993700000512
因为每个基站的计算资源都有限,基站给用户分配的带宽资源量不能超过自身总的带宽资源,限制关系可以表示为:
Figure BDA00029722993700000513
Wj表示基站j的带宽资源上限。
所有用户的移动过程是独立的泊松过程的组合。系统状态发生改变的随机事件即用户改变关联基站可以表示为:
Figure BDA00029722993700000514
其中,
Figure BDA00029722993700000515
表示为基站j与用户i的关联关系,表示为:
Figure BDA00029722993700000516
Figure BDA0002972299370000061
表示所有可行分配动作的集合。在用户移动到下一个基站前,可以通过提前存储用户所需的VR视频到基站上,预分配存储所需要的相关资源,来降低获取时延,在tχ时刻,基站只能选择存储内容所需的缓存容量,2D视频所占的比例,计算2D视频所需的计算资源,传输VR视频所要的带宽,所以动作空间中有四个变量。可以表示为:
Figure BDA0002972299370000062
其中,
Figure BDA0002972299370000063
为2D视频占
Figure BDA0002972299370000064
中的比例,基站j分配给用户i的资源量不能超过自身的资源量,该限制条件可以表示为:
Figure BDA0002972299370000065
Figure BDA0002972299370000066
Figure BDA0002972299370000067
Figure BDA0002972299370000068
分别表示在时刻tχ基站j+1分配给用户i存储内容所需的缓存容量,计算2D视频所需的计算资源,传输VR视频所需的带宽;Mj+1,Fj+1,Wj+1分别表示基站j+1自身的存储、上限、带宽资源上限;
Figure BDA0002972299370000069
在时刻tχ基站j+1已分配的存储、计算、带宽资源;U表示用户的总数量。
因此,
Figure BDA00029722993700000610
为动作
Figure BDA00029722993700000611
构成的动作空间表示为
Figure BDA00029722993700000612
状态转移概率P表示一个状态到另一个状态的概率,在此系统中状态转移概率未知。
奖励函数
Figure BDA00029722993700000613
为用户得到主动缓存的内容获得的奖励,即反应用户的QoE。
步骤8、计算用户QoE的奖励值,过程如下:
步骤8-1、将此MDP问题的奖励值分为两部分,即比特率奖励值与视频播放时间奖励值;
步骤8-2、计算比特率奖励值。每次存储VR视频内容的质量与用户请求的比特率之间的差异定义为比特率损失,在时间tχ发生状态改变时,基站j传输用户i请求的视频v的质量与用户初始请求的质量l的差值,表示如下:
Figure BDA00029722993700000614
其中,
Figure BDA00029722993700000615
表达用户i获得VR视频时的传输速率,
Figure BDA00029722993700000616
为二进制变量,表示用户i是否请求质量l的视频v,
Figure BDA00029722993700000617
如果在时间tχ发生用户i状态没有改变时,
Figure BDA00029722993700000618
步骤8-3、计算用户i在基站j+1的覆盖范围内视频播放时间奖励值,在时间tχ发生状态改变时,所获得的视频播放时间与用户在此基站间的持续时间的差值,表示如下:
Figure BDA0002972299370000071
其中,
Figure BDA0002972299370000072
表示用户i在基站j+1的覆盖范围内视频的播放时间,表示如下:
Figure BDA0002972299370000073
其中,α表示3D视频与2D视频的数据大小的比值。
Figure BDA0002972299370000074
分别表示在时刻tχ基站j+1为用户i分配的存储空间以及所分配存储空间中2D视频所占比例的大小。
Figure BDA0002972299370000075
表示用户i在基站j+1的范围内的平均持续时间,为了保证2D视频能在用户进入基站前完成投影,计算时延需要限制在时间T0内,表示为
Figure BDA0002972299370000076
δ为处理1bit数据所需的CPU计算圈数。如果在时间tχ发生用户i状态没有改变时,
Figure BDA0002972299370000077
步骤8-4、计算时间tχ发生状态改变时,用户i的总奖励值,表示如下:
Figure BDA0002972299370000078
其中,λ1、λ2分别表示各个奖励值的权重;
步骤8-5、计算整个过程总的奖励值,表示如下:
Figure BDA0002972299370000079
其中,
Figure BDA00029722993700000710
为折扣因子,
Figure BDA00029722993700000711
反应对未来奖励的影响。
步骤9、以最大化整个过程中用户的QoE为优化目标,建立优化问题,表示如下:
Figure BDA00029722993700000712
其中,限制条件C1为基站存储容量的限制,限制条件C2为基站计算资源的限制,限制条件C3为基站带宽资源的限制,限制条件C4表示在分配的存储空间中存储2D视频的取值范围,限制条件C5表示每个用户只能请求单个质量的一个视频。
步骤10、为得到最优的主动缓存策略,同时应对动作的连续性与高维度性,提出用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行求解;
DDPG算法主要基于行动家-评论家(Actor-Critic,AC)框架,如图2所示。用神经网络来估计评价网络与策略网络的输出。DDPG算法中有四个神经网络:在线评估网络、目标评估网络、在线策略网络、目标策略网络,动作网络根据输入的状态输出确定的动作,评估网络用来评估策略网络输出的动作,引导动作网络学习更好的策略。利用DDPG算法学习策略使所有阶段的Q值最大,Q值为状态-动作值,表示为:
Figure BDA0002972299370000081
其中E[·]表示数学期望,s,a分别表示状态和动作,
Figure BDA0002972299370000082
表示在时刻tχ状态为
Figure BDA0002972299370000083
根据策略π采取动作
Figure BDA0002972299370000084
所获得的奖励值。
步骤10-1、随机初始化策略网络与评价网络的参数,以及目标策略网络与目标评价网络的参数,初始化经验池,设置学习率、折扣因子和软更新学习率;
步骤10-2、训练回合数初始化为1,得到初始状态
Figure BDA0002972299370000085
步骤10-3、回合中的训练步数初始化为1;
步骤10-4、根据初始状态
Figure BDA0002972299370000086
输出动作
Figure BDA0002972299370000087
μ表示策略网络,θ为策略网络中的权重参数。ε为探索噪声使智能体能够尝试新的动作来探索环境,并获得奖励
Figure BDA0002972299370000088
然后立即转到下一个状态
Figure BDA0002972299370000089
步骤10-5、将获得的数据
Figure BDA00029722993700000810
并为一个元组
Figure BDA00029722993700000811
存到经验池中,经验池方法可以降低训练样本间的关联性,使训练样本间具有独立性,提高训练效率;
步骤10-6、从经验池中随机采样N个元组(si,ai,ri,si+1)进行训练,使得Qθ值更加接近真实值;
步骤10-7、将采样得到的数据集元组中的ri与si+1输入到目标网络中,输入si+1到目标策略网络中得到动作ai'+1,输入si+1和ai'+1到目标评价网络中得到状态si+1下的Q值,表示如下:yi=ri+γQ'(si+1,μ'(si+1μ')|θQ') (23)
yi为将采样元组作为目标网络的输入得到的状态si下的Q值,γ为折扣因子,μ'表示目标评价网络,Q'表示输入si+1和a′i+1到目标评价网络中得到状态si+1下的Q值。
步骤10-8、更新评价网络中的θ值,减小目标网络与在线网络间的损失函数,表示如下:
Figure BDA00029722993700000812
步骤10-9、更新策略网络中的θ值,使用梯度下降法来优化策略网络参数,表示如下:
Figure BDA0002972299370000091
ρβ关于状态的折扣分布,β为引入的随机行为策略,,
Figure BDA0002972299370000092
表示关于状态的期望值。
步骤10-10、根据在线网络参数软更新更新目标网络参数,将在线网络的参数缓慢地赋值给目标网络,提高学习的稳定性。软更新表示如下:
θQ'←τθQ+(1-τ)θQ' (26)
θμ'←τθμ+(1-τ)θμ' (27)
τ表示软更新学习率。
步骤10-11、判断每回合训练步数是否达到最大步数,若没有,训练步数加1返回步骤10-4,若有执行步骤10-12;
步骤10-12、判断训练的回合数是否达到最大,若没有,回合数加1,返回步骤10-3,若有结束训练,得到最优的主动缓存策略;
对本发明提出的基于移动边缘计算网络的VR内容缓存方法的整体性能进行比较分析,具体如下:
策略1是随机分配主动存储在下一个基站的VR视频所需要的资源量,策略2是分配资源满足先连接基站的用户的QoE。
图3为本发明一种实施例的收敛性能的曲线图。随着训练次数的增加,本发明提出的策略和策略2随着训练次数的增加,总奖励值都逐渐增加,策略1的值几乎没有变化。本发明提出的策略与策略2大约在训练次数为1500次后奖励值逐渐稳定并收敛。其中本发明提出的策略获得的奖励值是最高的,大约在-15.82附近,其次是策略2,大约在-23.60附近,最后是策略1,大约在-26.32附近。策略1获得奖励值最低的原因是基站随机分配资源给用户,完全忽略了用户在基站间的移动情况和对于视频质量的需求,造成最低的奖励值,即较低的用户QoE。策略2获得的奖励低于本发明提出策略而高于策略1,因为虽然策略2经过学习后奖励值有所提高,但忽略了所有用户整体的QoE,只满足于先来的用户的需求,造成没有可用的资源给后来的用户,使得后来的用户的需求无法满足,从而总奖励值较低。
图4为本发明一种实施例的总奖励值与基站存储空间大小关系曲线图。随着基站存储容量的增加,获得的总奖励值也随之增加。因为更大的基站存储可以给更多的用户存储更多的VR视频内容,以增加视频播放时间奖励值,从而使总奖励值增加。但是可以发现当基站存储容量增加到一定值后,总奖励值增加的幅度越来越小,最后趋于收敛。这是因为总奖励不仅与基站的存储容量有关,还与用户请求的视频质量、基站的计算资源和带宽资源有关,如果只提高基站的存储容量,总奖励自然不会无限制地增加。
图5为本发明一种实施例的用户平均代价与基站带宽大小关系曲线图。随着基站带宽的增加,三种策略的用户平均代价都有所减少。本发明提出的策略的用户平均代价是最低的,其次是策略2,最后是策略1,说明本发明提出的策略有效增加用户在移动过程中观看VR视频的体验质量,考虑用户的请求信息和用户的移动情况主动缓存最佳的内容容量和质量,从而用户的平均代价最低。策略2的用户平均代价高于本发明提出的策略而略低于策略1,并且在带宽大小增加到一定值后,用户平均代价就不再变化,因为它虽然考虑了用户的请求信息和移动情况来存储内容,通过学习得到主动缓存的方式,但是它只考虑个别用户,而忽略系统中所有用户整个过程的QoE,造成个别用户的代价值很低,但是大多数用户的体验质量依旧很差,并且除了带宽资源外的其他资源已经被先来的用户全部使用,虽然带宽大小在增加,也不会减少后来用户的代价。策略1用户平均代价最高,因为忽略了用户在基站间的移动情况和对于视频质量的需求,没有考虑用户的体验质量。由此,可以验证我们提出的策略有效对移动中的用户在基站中的存储的内容大小和质量进行学习预测,降低了用户平均代价,提高用户QoE。
图6为本发明一种实施例的用户平均代价与基站计算资源大小关系曲线图。随着基站计算资源的增加,三种策略的用户平均代价都有所减少。本发明提出的策略的用户平均代价是最低的,其次是策略2,最后是策略1,说明本发明提出的策略有效增加用户在移动过程中观看VR视频的体验质量,考虑用户的请求信息和用户的移动情况主动缓存最佳的内容,能够多利用计算资源使得使用的存储资源减少,给更多的用户存储更多的VR视频内容,从而使用户的平均代价最低。策略2的用户平均代价高于我们提出的策略而略低于策略1,并且在计算资源大小增加到一定值后,用户平均代价就不再变化,因为它虽然考虑了用户的请求信息和移动情况来存储内容,通过学习得到主动缓存的方式,但是它只考虑个别用户,而忽略系统中所有用户整个过程的QoE,造成个别用户的代价值很低,但是大多数用户的体验质量依旧很差,并且除了计算资源外的其他资源已经被先来的用户全部使用,虽然计算资源大小在增加,也不会减少后来用户的代价。策略1用户平均代价最高,因为忽略了用户在基站间的移动情况和对于视频质量的需求,没有考虑用户的体验质量。由此,可以验证我们提出的策略有效对移动中的用户在基站中的存储的内容大小和质量进行学习预测,降低了用户平均代价,提高用户QoE。
图7为本发明一种实施例的总奖励值与用户请求比特率范围大小关系曲线图。随着用户请求视频的比特率范围越来越高,总奖励值越小。因为用户有更高比特率的需求时,服务更高比特率的视频就需要更多的资源来支持,虽然提出的策略考虑了用户的请求信息和用户在基站间的移动情况而主动缓存最佳的内容,但是由于其他资源都有限,获得的奖励值相比于请求较低比特率范围来说就会减少。
通过上述的仿真比较,可知本发明提出的基于移动边缘计算网络的VR内容缓存方法是有效的,本发明方法针对用户移动性和需求对在目标基站存储内容大小和质量进行预测,在用户进入目标基站前分配存储内容所需的资源,解决了用户的移动性所导致的用户在基站间频繁切换带来的内容获取时延问题,提高资源利用率和VR视频用户的QoE。

Claims (6)

1.基于移动边缘计算网络的VR内容缓存方法,其特征在于,包括以下步骤:
步骤1、搭建移动边缘计算网络架构,包括云服务器、边缘服务器与用户设备,其中边缘服务器放置在基站附近,在网络边缘提供计算与存储,云服务器中存有用户所需的所有内容;
步骤2、建立网络中的用户移动模型,将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性;
步骤3、用户向基站请求内容后,基站将请求转发给云服务器,云服务器通过直接发送3D视频或者发送2D视频,然后边缘服务器将2D视频计算为3D视频后再发送给用户;
步骤4、计算基站将内容发送给用户所需的传输速率;
步骤5、分配用户在下一个基站存储内容所需的资源量;
步骤6、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策问题,马尔可夫决策问题包含四种要素:状态空间、动作空间、状态转移概率、奖励函数,可分别定义为
Figure FDA0003536623130000011
步骤7、计算用户QoE的奖励函数,包括:
7-1、将此奖励函数分为两部分,即比特率奖励值与视频播放时间奖励值;
7-2、计算比特率奖励值:每次存储VR视频内容的质量与用户请求的比特率之间的差异定义为比特率损失,在时间tχ发生状态改变时,基站j传输用户i请求的视频v的质量与用户初始请求的质量l的差值,表示如下:
Figure FDA0003536623130000012
其中,
Figure FDA0003536623130000013
为用户i获得VR视频时的传输速率,
Figure FDA0003536623130000014
为二进制变量表示用户i是否请求质量l的视频v,
Figure FDA0003536623130000015
7-3、计算时间tχ状态发生改变时,用户i在基站j+1的覆盖范围内视频播放时间奖励值,表示如下:
Figure FDA0003536623130000016
其中,
Figure FDA0003536623130000017
表示用户i在基站j+1的范围内视频的播放时间,
Figure FDA0003536623130000018
表示用户i在基站j+1覆盖范围内的平均持续时间;
7-4、计算时间tχ状态发生改变时,用户i的总奖励值,表示如下:
Figure FDA0003536623130000019
其中,λ1、λ2分别表示各个奖励值的权重;
7-5、计算整个过程总的奖励值,表示如下:
Figure FDA00035366231300000110
其中,
Figure FDA0003536623130000021
为折扣因子,X为阶段的总数量,U表示用户的总数量;
步骤8、以最大化整个过程中用户的QoE为优化目标,建立优化问题,表示如下:
Figure FDA0003536623130000022
s.t.C1:
Figure FDA0003536623130000023
C2:
Figure FDA0003536623130000024
C3:
Figure FDA0003536623130000025
C4:
Figure FDA0003536623130000026
C5:
Figure FDA0003536623130000027
其中,限制条件C1为基站存储容量的限制,限制条件C2为基站计算资源的限制,限制条件C3为基站带宽资源的限制,限制条件C4表示在分配的存储空间中存储2D视频的取值范围,限制条件C5表示每个用户只能请求单个质量的一个视频;
步骤9、用深度确定性策略梯度进行求解,以得到最优的主动缓存策略。
2.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法,其特征在于:步骤2所述建立用户移动模型包括以下步骤:
2-1、用户在基站间的移动是独立的,用户i在基站j间的持续时间服从参数为Φi,j的指数分布,用户i到达基站j的事件服从参数为φi.j的泊松分布;
2-2、用户在移动过程中根据收集到的路径信息确定即将进入的下一个基站。
3.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法,其特征在于:步骤4所述计算基站将内容发送给用户所需的传输速率,包括以下步骤:
4-1、利用信噪比估算内容传输的传输速率,则基站的信噪比表示如下:
Figure FDA0003536623130000028
其中Pj表示基站j的发射功率,
Figure FDA0003536623130000029
是基站j与用户i之间的信道增益,σ2是高斯白噪声功率;
4-2、计算用户获得内容的可达到的信道容量,表示如下:
Ratei,j=wi,jlog2(1+SNR)
其中wi,j表示基站j给用户i分配的带宽,用于传输用户i请求的视频。
4.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法,其特征在于:步骤5所述分配用户在下一个基站存储内容所需的资源量,具体包括以下步骤:
5-1、分配Mi,j+1存储大小用于存储VR视频;
5-2、若分配的存储空间中用于存储2D视频所占比例为xi,j+1,则需要分配Fi,j+1计算资源将2D视频投影为3D视频;
5-3、分配Wi,j+1带宽大小用于传输存储的VR视频。
5.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法,其特征在于:步骤6所述建立为马尔可夫决策问题,将整个过程分为多个时间节点,tχ为系统状态改变的时间,整个过程的状态改变时间集合为T={t1,t2,...,tχ,...tX},其中X为阶段的总数量;
状态空间
Figure FDA00035366231300000316
为:
Figure FDA0003536623130000031
其中
Figure FDA0003536623130000032
分别表示基站j给用户i已分配的存储容量、计算资源、带宽量和用户与基站的关联关系,
Figure FDA0003536623130000033
分别表示为所有缓存容量分配的集合、所有计算资源分配的集合、所有带宽资源分配的集合、所有用户移动状态的集合;
在用户移动到下一个基站前,提前存储用户所需的VR视频到基站上,预分配存储所需要的相关资源,在tχ时刻,基站只能选择存储内容所需的缓存容量,2D视频所占的比例,计算2D视频所需的计算资源,传输VR视频所要的带宽,所以动作空间
Figure FDA00035366231300000317
中有四个变量,表示为:
Figure FDA0003536623130000034
其中,
Figure FDA0003536623130000035
为2D视频占
Figure FDA0003536623130000036
中的比例,基站j分配给用户i的资源量不能超过自身的资源量,该限制条件表示为:
Figure FDA0003536623130000037
Figure FDA0003536623130000038
Figure FDA0003536623130000039
Figure FDA00035366231300000310
分别表示在时刻tχ基站j+1分配给用户i存储内容所需的缓存容量,计算2D视频所需的计算资源,传输VR视频所需的带宽;Mj+1,Fj+1,Wj+1分别表示基站j+1自身的存储、上限、带宽资源上限;
Figure FDA00035366231300000311
在时刻tχ基站j+1已分配的存储、计算、带宽资源;U表示用户的总数量;
Figure FDA00035366231300000312
为动作
Figure FDA00035366231300000313
构成的动作空间表示为
Figure FDA00035366231300000314
∪为并集符号;
状态转移概率P表示一个状态到另一个状态的概率;
奖励函数
Figure FDA00035366231300000315
为用户得到主动缓存的内容获得的奖励。
6.根据权利要求1所述基于移动边缘计算网络的VR内容缓存方法,其特征在于:步骤9所述深度确定性策略梯度进行求解包括以下步骤:
9-1、随机初始化策略网络与评价网络的参数,以及目标策略网络与目标评价网络的参数,初始化经验池,设置学习率、折扣因子和软更新学习率;
9-2、训练回合数初始化为1,得到初始状态
Figure FDA0003536623130000041
9-3、回合中的训练步数初始化为1;
9-4、根据初始状态
Figure FDA0003536623130000042
输出动作
Figure FDA0003536623130000043
并获得奖励
Figure FDA0003536623130000044
然后立即转到下一个状态
Figure FDA0003536623130000045
9-5、将获得的数据
Figure FDA0003536623130000046
并为一个元组
Figure FDA0003536623130000047
存到经验池中;
9-6、从经验池中随机采样N个元组
Figure FDA0003536623130000048
进行训练;
9-7、得到目标网络的Q值;
9-8、更新评价网络中的θ值,减小目标网络与在线网络间的损失函数;
9-9、更新策略网络中的θ值,使用梯度下降法来优化策略神经网络参数;
9-10、根据在线网络参数软更新目标网络参数,表示如下:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
9-11、判断每回合训练步数是否达到最大步数,若没有,训练步数加1返回步骤9-4,若有执行步骤9-12;
9-12、判断训练的回合数是否达到最大,若没有,回合数加1,返回步骤9-3,若有结束训练,得到最优的主动缓存策略。
CN202110266703.9A 2021-03-11 2021-03-11 基于移动边缘计算网络的vr内容缓存方法 Active CN113141634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110266703.9A CN113141634B (zh) 2021-03-11 2021-03-11 基于移动边缘计算网络的vr内容缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110266703.9A CN113141634B (zh) 2021-03-11 2021-03-11 基于移动边缘计算网络的vr内容缓存方法

Publications (2)

Publication Number Publication Date
CN113141634A CN113141634A (zh) 2021-07-20
CN113141634B true CN113141634B (zh) 2022-05-03

Family

ID=76811045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110266703.9A Active CN113141634B (zh) 2021-03-11 2021-03-11 基于移动边缘计算网络的vr内容缓存方法

Country Status (1)

Country Link
CN (1) CN113141634B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021770A (zh) * 2021-09-14 2022-02-08 北京邮电大学 网络资源优化方法、装置、电子设备及存储介质
CN115988283B (zh) * 2022-12-29 2024-06-14 北京航空航天大学 一种面向视频质量自适应的无线边缘缓存和边缘计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132608B2 (en) * 2019-04-04 2021-09-28 Cisco Technology, Inc. Learning-based service migration in mobile edge computing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEC-Enabled Wireless VR Video Service: A Learning-Based Mixed Strategy for Energy-Latency Tradeoff;Chong Zheng;《2020 IEEE Wireless Communication and Networking Conference(WCNC)》;20200619;全文 *
面向多用户移动边缘计算轻量任务卸载优化;张文献;《小型微型计算机系统》;20200715;第41卷(第10期);全文 *

Also Published As

Publication number Publication date
CN113141634A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN110213796B (zh) 一种车联网中的智能资源分配方法
CN111400001B (zh) 一种面向边缘计算环境的在线计算任务卸载调度方法
CN111031102A (zh) 一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN112020103B (zh) 一种移动边缘云中的内容缓存部署方法
Li et al. Energy-latency tradeoffs for edge caching and dynamic service migration based on DQN in mobile edge computing
CN113141634B (zh) 基于移动边缘计算网络的vr内容缓存方法
CN112416554A (zh) 一种任务迁移方法、装置、电子设备及存储介质
CN111711666A (zh) 一种基于强化学习的车联网云计算资源优化方法
EP4024212A1 (en) Method for scheduling interference workloads on edge network resources
CN115344395B (zh) 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统
CN112469001A (zh) 一种应用迁移方法、装置、电子设备及存储介质
Zheng et al. 5G network-oriented hierarchical distributed cloud computing system resource optimization scheduling and allocation
Al-Hilo et al. Vehicle-assisted RSU caching using deep reinforcement learning
CN114938381A (zh) 一种基于深度强化学习的d2d-mec卸载方法、计算机程序产品
CN113271221B (zh) 网络能力开放方法、系统及电子设备
CN112911614B (zh) 基于动态请求d2d网络中的协作编码缓存方法
CN114375058A (zh) 任务队列感知的边缘计算实时信道分配和任务卸载方法
Lei et al. Partially collaborative edge caching based on federated deep reinforcement learning
CN115190121A (zh) 基于跨地域的微服务过量负载调度系统、方法及设备
CN113766540B (zh) 低时延的网络内容传输方法、装置、电子设备及介质
Li et al. Dynamic Function Allocation in Edge Serverless Computing Networks
CN113473419B (zh) 基于强化学习的机器类通信设备接入蜂窝数据网络的方法
Agbaje et al. Deep Reinforcement Learning for Energy-Efficient Task Offloading in Cooperative Vehicular Edge Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant