CN112202800A

CN112202800A - C-ran架构中基于强化学习的vr视频边缘预取方法和系统

Info

Publication number: CN112202800A
Application number: CN202011077437.7A
Authority: CN
Inventors: 谭小彬; 王顺义; 徐磊; 李思敏; 杨坚; 郑烇
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-08
Anticipated expiration: 2040-10-10
Also published as: CN112202800B

Abstract

本发明公开了一种C‑RAN架构中基于强化学习的VR视频边缘预取方法和系统，方法包括：实时采集网络吞吐量、用户请求信息和缓存状态信息；基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益；基于单用户的用户体验质量增益确定多用户的用户体验质量增益；基于强化学习算法对多用户的用户体验质量增益进行优化；基于网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量增益对VR视频进行边缘预取。本发明能够采用在C‑RAN中动态预取多级缓存的方式来降低时延，减少重复的数据传播，从而给用户提供更加舒适的VR视频观看体验。

Description

C-RAN架构中基于强化学习的VR视频边缘预取方法和系统

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种C-RAN(Cloud Radio AccessNetwork，云无线接入网)架构中基于强化学习的VR(Virtual Reality，虚拟现实)视频边缘预取方法和系统。

背景技术

随着VR技术的发展，VR逐步走进千家万户，给用户提供沉浸式的视频观看体验，也在教育互动、工业远程指导、远程医疗等领域发挥着不可或缺的作用。据统计截止到2019年，中国VR用户的数量已突破一千万，虚拟现实软、硬件的产业收益突破10亿元，可以预见，未来虚拟现实技术将会蓬勃发展，也将扩展出更多的应用领域，能够给用户提供更加真实、高清、沉浸的视频观看体验和更加友好的视频交互功能。

但目前来说，VR视频的实际观看体验并没有达到预期的效果。一方面，由于VR视频对网络带宽的需求是传统高清视频几十倍，同时为了获得更加逼真的观看体验，对视频的清晰度也有很高的要求。举例来说，传输8K全景的VR视频需要超过260Mbps的带宽，如果想获得更加极致的体验效果则需要超过10Gbps的带宽，这对于现在的网络尤其是视频源服务器的主干网络来说是一个巨大的挑战。另一方面，用户对于VR视频的时延非常敏感，一般来说如果时延超过20ms就会产生强烈的晕眩感，这对于VR视频的观看体验来说是灾难性的。

因此，如何有效的提高用户的VR视频观看体验，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种C-RAN架构中基于强化学习的VR视频边缘预取方法，能够采用在C-RAN中动态预取多级缓存的方式来降低时延，减少重复的数据传播，从而给用户提供更加舒适的VR视频观看体验。

本发明提供了一种C-RAN架构中基于强化学习的VR视频边缘预取方法，包括：

实时采集网络吞吐量、用户请求信息和缓存状态信息；

基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益；

基于所述单用户的用户体验质量增益确定多用户的用户体验质量增益；

基于强化学习算法对所述多用户的用户体验质量增益进行优化；

基于所述网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量增益对VR视频进行边缘预取。

优选地，所述基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益，包括：

基于公式

和公式D^v,c+1≤t₂确定单用户的用户体验质量，以及预测单用户的用户体验质量增益，其中，

表示第u个用户观看第v个视频的第c个segment的用户体验质量，Q^v,c为视频质量，α为视频质量对用户体验质量的影响因子，

为视频时域抖动，β为视频时域抖动对用户体验质量的影响因子，

为视频空域抖动，γ为视频空域抖动对用户体验质量的影响因子，

表示预测的第u个用户请求第c+1个segment预取是否命中带来的用户体验质量增益，

和

根据用户的历史请求信息使用神经网络模型预测，D^v,c+1表示预交付第c+1个segment所需的时延，t₂表示预测用户可能的缓冲区剩余大小。

优选地，第v个视频文件的c+1个segment的质量对应的效用为：

其中，u(*)为视频质量的效用函数。

优选地，预测的视频时域抖动定义为：

表示为前后两个segment中tile的效用之差。

优选地，预测的视频空域抖动定义为：

其中，

表示预测该tile的第k质量层是否可能会被该用户请求。

一种C-RAN架构中基于强化学习的VR视频边缘预取系统，包括：状态预测模块和预取决策模块；其中：

所述状态预测模块，用于采集网络吞吐量、用户请求信息和缓存状态信息；

所述状态预测模块，还用于基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益；

所述预取决策模块，用于基于所述单用户的用户体验质量增益确定多用户的用户体验质量增益；

所述预取决策模块，还用于基于强化学习算法对所述多用户的用户体验质量增益进行优化；

所述预取决策模块，还用于基于所述网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量增益对VR视频进行边缘预取。

优选地，所述状态预测模块具体用于：

基于公式

和

优选地，第v个视频文件的c+1个segment的质量对应的效用为：

其中，u(*)为视频质量的效用函数。

优选地，预测的视频时域抖动定义为：

表示为前后两个segment中tile的效用之差。

优选地，预测的视频空域抖动定义为：

其中，

表示预测该tile的第k质量层是否可能会被该用户请求。

综上所述，本发明公开了一种C-RAN架构中基于强化学习的VR视频边缘预取方法，当需要对VR视频进行边缘预取时，首先实时采集网络吞吐量、用户请求信息和缓存状态信息，然后基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益；基于单用户的用户体验质量增益确定多用户的用户体验质量增益；基于强化学习算法对多用户的用户体验质量增益进行优化；基于网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量增益对VR视频进行边缘预取。本发明能够采用在C-RAN中动态预取多级缓存的方式来降低时延，减少重复的数据传播，从而给用户提供更加舒适的VR视频观看体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的C-RAN架构示意图；

图2为本发明公开的tile-based示意图；

图3为本发明公开的一种C-RAN架构中基于强化学习的VR视频边缘预取方法实施例的流程图；

图4为本发明公开的C-RAN环境中获取tile的途径示意图；

图5为本发明公开的强化学习框架示意图；

图6为本发明公开的一种C-RAN架构中基于强化学习的VR视频边缘预取系统实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

C-RAN是一种新型的无线接入网架构，如图1所示。C-RAN的总目标是为解决移动互联网快速发展给运营商所带来的多方面挑战(能耗、建设和运维成本、频谱资源等)，追求未来可持续的业务和利润增长。在C-RAN架构中，假设VR视频源服务器拥有VR视频的所有内容，通过后向链路(Backhaul)的核心网络与基带处理单元池(PooledBase BandUnits，BBUpool)相连，每个BBUpool通过前向链路(Fronthaul)接入多个射频拉远头(RemoteRadio Heads，RRH)，BBUpool中的边缘服务器根据缓存决策算法管理BBUpool中的云端缓存和下属RRHs中的边缘缓存，并完成码率决策、带宽分配、提前预取等多种决策来提高全体用户的视频观看体验。用户通过与RRH的无线连接接入网络中，享受C-RAN架构下VR视频服务。

本发明借鉴了在C-RAN架构下开展的一些预取研究的工作，利用C-RAN架构中的多级缓存与集中式优化的能力，在网络中实时预取用户可能观看的片段来合理分配有限的缓存容量。本发明将VR视频按时间序列分割为多个segment，每个segment再按空间分割为多个tile，如图2所示。由于用户观看VR视频时视野范围仅为全景视频的20％～30％，利用tile-based编码方法的特点，用户只需要请求视野范围内的tile，从而最大程度的减少带宽和缓存的浪费。于是本发明提前将用户可能观看的tile从源服务器预取到BBU pool或RRH中，指导预取部署的终极目标是比例公平的实现通过预取获得的QoE增益最大，综合考虑视频质量、视频抖动、时延等因素对于QoE的影响，由于普通的贪心算法难以获得全局最优解，本发明考虑采用强化学习的方法求解最优的缓存分布，从而为用户提供更加清晰、流畅、真实的VR体验。

如图3所示，为本发明公开的一种C-RAN架构中基于强化学习的VR视频边缘预取方法实施例的流程图，所述方法可以包括以下步骤：

S301、实时采集网络吞吐量、用户请求信息和缓存状态信息；

在DASH的HTTP头部加入

M_t等字段，分别记录请求该tile时的各个链路的网络吞吐量，以及此时用户正在请求的视频信息。

当需要对VR视频进行边缘预取时，首先收集实时的网络吞吐量、用户请求状况和缓存状态。

S302、基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益；

VR用户对于时延非常的敏感，一旦时延超过20ms就会产生眩晕感，对于用户体验来说这是灾难性的，于是本发明考虑将时延作为约束条件，并综合考虑视频质量带来的增益以及视频时域抖动和空域抖动带来的惩罚来定义单个用户的QoE，于是第u个用户观看第v个视频的第c个segment的用户体验定义为：

其中，α，β，γ为常数，表示视频质量、时域抖动和空域抖动对于QoE的影响因子；定义

表示预测的第u个用户请求第c+1个segment预取是否命中带来的QoE差异；

D^v,c+1≤t₂(3)

D^v,c+1表示预计交付第c+1个segment所需的时延，t₂表示预测该用户可能的缓冲区剩余大小；其中，

和

根据用户的历史请求信息使用神经网络模型来预测；接下来将详细介绍视频质量、时域抖动和空域抖动以及时延的建模过程。

1)质量Q^v,c+1

具体来说，第c+1个segment的质量对应的效用Q^v,c+1表示为：

其中，

表示第v个视频文件的第c+1个segment中，第i行第j列tile的质量，

表示预测该tile的第k质量层是否可能会被该用户请求，定义为：

因此可以得到用户可能会请求的视频质量：

定义u(*)为视频质量的效用函数，通常视频质量越高，用户对视频质量的感知越不敏感；同时不同的视频对应的效用函数也会有所不同。

同时本发明考虑VR视频的抖动包括带宽变化带来的时域质量抖动和用户头部转动带来的空域质量抖动，这两种抖动对于QoE来说都会产生巨大影响，因此本发明将其作为QoE中的惩罚项。

2)时域抖动S_T ^v,c+1和空域抖动S_S ^v,c+1

将预测的时域抖动S_T ^v,c+1表示为前后两个segment中tile的效用之差：

S_T ^v,c+1＝|Q^v,c+1-Q^v,c| (7)

将预测的空域抖动S_S ^v,c+1表示为每个segment中tile效用的方差：

其中，Q^v,c+1表示第v个视频文件的第c+1个segment中tile的平均效用。

由于VR用户对于时延非常的敏感，本发明将时延建模为约束条件。

3)时延D^v,c+1

VR视频中的传输时延主要来自视频传输需要消耗的时间，用户请求包产生的时延(RTT)非常短，因此将其忽略。在C-RAN网络环境中，根据缓存分布的不同，可以分为四种情况(如图4所示)：

(a)表示直接从本地RRH中获取tile，这种情况下时延定义为RRH到用户的传输时延：

其中，N_R表示RRH到该用户的带宽，γ_R表示平均信噪比。

(b)表示本地RRH中没有该用户需要的tile，需要从BBUpool中获取，这种情况下时延定义为BBU到用户的传输时延：

其中，N_B表示BBUpool到RRH的带宽。

(c)表示如果本地RRH和BBU pool中都没有缓存，但是其他RRH中有该tile的缓存，可以先将tile传输到BBUpool，再将该tile传输给用户，这样时延可以表示为两倍的BBUpool到RRH的时延加上RRH到用户的时延：

(d)如果BBUpool和RRH中都没该tile的缓存，只能从源服务器中获取，定义源服务器到用户的时延为：

其中，N_O表示源服务器到BBUpool的带宽，满足

即从源服务器中获取tile的时延代价是非常大的。

根据这四种情况，本发明定义

表示在BBU pool和RRH中是否有缓存：

由此，得到平均时延D的表示方法：

满足：

优先从相连的RRH中寻找需要的tile，当相连的RRH中没有该tile的缓存时，从BBU pool中寻找，如果BBU pool中也没有该tile的缓存，从其他RRH中寻找，如果都没有则从VR视频源服务器中获取，并由源服务器决定是否缓存该tile以及缓存部署的位置。

S303、基于单用户的用户体验质量增益确定多用户的用户体验质量增益；

通过对单个用户的QoE建模，得到用户体验的客观衡量标准，在此基础上比例公平的考虑多个用户的总体QoE，并作为优化目标指导缓存。

第u个用户观看第v个视频的预测的

表示为：

其中，T表示预测该用户的总观看时长，由于视频播放时间不同，为了统一衡量指标，故对视频质量进行时间平均。从而多用户的预取优化模型表示为：

S304、基于强化学习算法对多用户的用户体验质量增益进行优化；

在有限的缓存容量约束下，优化目标是比例公平地最大化所有用户预取命中带来的QoE增益，采用神经网络模型预测预取命中的QoE增益，并采用强化学习方法寻找全局最大的QoE增益对应的预取策略。

本发明使用强化学习方法来求解上述问题，来获得使多用户的全局QoE增益达到最大的预取决策，如图5所示，将模型定义为：

Environment：整个C-RAN视频播放系统，包括带宽和缓存资源；

Agent：即预取决策模块，负责提前将用户可能观看的tile预取到BBUpool和RRH中；

States：定义为视频文件信息M_t、缓存状态

带宽状态

用户请求状态U_t的多元组：

考虑从开始到估计的t+1时刻的全局状态：

s_t+1＝H(o₁,o₂,…,o_t+1)

Action：即预取决策变量

表示是否预取以及预取到哪里。

Reward：即全局QoE增益，

优化目标是使多用户通过预取带来的QoE增益最大。

Policy：不同状态下的策略定义为π_θ＝(a_t+1|s_t+1)。

S305、基于网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量增益对VR视频视频进行边缘预取。

通过强化学习得到一个高效的决策模型，根据状态预测模块预测的用户当前请求情况和网络带宽状态，指导预取决策模块提前预取部分tile文件，使得多用户的总体观看体验的增益达到最大，为用户提供高效的VR视频服务。

综上所述，本发明在C-RAN架构中提出一种基于强化学习方法的VR视频边缘预取方法，能够解决网络带宽受限导致的VR视频清晰度较低，出现卡顿、抖动的问题，为用户提供更加真实、清晰、流畅的VR观看体验。

如图6所示，为本发明公开的一种C-RAN架构中基于强化学习的VR视频边缘预取系统实施例的结构示意图，所述系统可以包括：状态预测模块601和预取决策模块602；其中：

状态预测模块601，用于采集网络吞吐量、用户请求信息和缓存状态信息；

状态预测模块601，还用于基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，以及预测单用户的用户体验质量增益；

预取决策模块602，用于基于单用户的用户体验质量增益确定多用户的用户体验质量增益；

预取决策模块602，还用于基于强化学习算法对多用户的用户体验质量增益进行优化；

预取决策模块602，还用于基于网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量增益对VR视频视频进行边缘预取。

本实施例公开的C-RAN架构中基于强化学习的VR视频边缘预取系统的工作原理与上述C-RAN架构中基于强化学习的VR视频边缘预取方法的工作原理相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。