CN117156175B

CN117156175B - 基于视口预测距离控制的全景视频流QoE优化方法

Info

Publication number: CN117156175B
Application number: CN202311411669.5A
Authority: CN
Inventors: 张广辉; 高熙然; 肖梦白; 元辉; 于东晓; 成秀珍
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-30
Anticipated expiration: 2043-10-30
Also published as: CN117156175A

Abstract

本发明公开了一种基于视口预测距离控制的全景视频流QoE优化方法，涉及流媒体视频技术领域，包括构建视口预测距离控制模型，并对模型进行训练；控制模型输入端接收视频客户端发送的输入环境状态，输出端输出动作；控制模型将输出动作发送到视频客户端，视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点，根据码率阈值与未来视口预测结果确定每个空间瓦片比特率；视频客户端向视频服务器发送视频片段下载请求，视频服务器返回所请求片段的空间瓦片；视频客户端将所有瓦片拼接为全景视频，并以控制模型输出的播放速率进行播放。本发明不仅能实现体验质量QoE的改善，而且在各种网络环境中均具有很强的时间和空间鲁棒性。

Description

基于视口预测距离控制的全景视频流QoE优化方法

技术领域

本发明涉及流媒体视频技术领域，尤其是一种基于视口预测距离控制的全景视频流QoE优化方法。

背景技术

近年来，以虚拟现实技术(Virtual Reality，简称VR)为基础的360°视频流业务(也称全景视频)应运而生并快速发展。这类视频能够反映真实三维场景，提供宽广的观看视角并允许观看者自由控制视口，以带来身临其境的沉浸式体验。目前，各大流媒体供应商已纷纷上线了360°视频流业务。其对于推动未来视频流媒体服务的发展，以及智慧城市、智慧医疗、在线教育等重大民生工程的建设具有举足轻重的社会经济意义。

由于360°视频的全景场景，其视频帧的分辨率通常为4K甚至更高。然而，在互联网上传输如高分辨率的视频绝非易事，尤其是在带宽波动剧烈的移动网络中。此外，在同一时刻，观众只能观看全景场景的部分内容，即视口中的内容，所以如果以高画质传输整个全景画面，势必会造成大量带宽浪费，严重限制观看体验质量(Quality of Experience, QoE)的改善。因此，传输360°视频的目标是最大限度地提高视口内的视频质量，同时尽量降低视口外的质量，以达到高传输效率。为了实现这一目标，在服务器端，视频帧被裁剪为不同的空间瓦片，每个瓦片都被编码成多个比特率级别（如图5中的低画质、中画质、高画质）。如图5所示，在线流传输过程中，视频客户端将首先预测用户未来的头部运动方向（即未来视口），并以尽可能高的比特率请求视口内的瓦片同时尽量降低视口外瓦片的比特率。所有瓦片完成下载后，均将被存放在客户端缓冲区，并进行拼接后实现视频播放。

在360°视频流媒体中，视口预测是重要环节，因为直接影响QoE性能。当前视口预测算法的基本原理是以已播放视频的历史视口为依据，对未来预下载视频的视口进行预测。然而，如图6所示，在流媒体环境下，客户端播放器的缓冲视频数据会显著延长视口预测距离，严重削弱视口的相关性，使得历史视口无法很好地指导预测。在这种情况下，瓦片的比特率无法被准确分配，从而导致用户的视频观看质量和QoE受到严重限制。相反，如果转而缩小预测距离，即限制视频缓存的数据量，虽然这种方法确实可以提高预测准确性，但是由于网络带宽的剧烈波动，会导致频繁的视频播放卡顿，同样会造成QoE的显著下降。当前现存的360°流媒体算法均无法打破上述困境，所以QoE性能的优化自然陷入瓶颈。

发明内容

为了克服现有技术中存在的上述问题，本发明提出一种基于视口预测距离控制的全景视频流QoE优化方法，能够很好地协调视口预测和视频传输，不仅可以实现显著的体验质量QoE的改善，而且在各种网络环境中均具有很强的时间和空间鲁棒性。

为达到上述目的，本发明的技术方案如下：一种基于视口预测距离控制的全景视频流QoE优化方法，包括如下步骤：

步骤1，构建视口预测距离控制模型，并对所构建的控制模型进行训练；

步骤2，视口预测距离控制模型输入端接收视频客户端发送的输入环境状态，输出端输出动作实现缓存决策，其中输入状态包括吞吐量向量、缓冲区向量，输出动作包括视频下载暂停时间、码率阈值、播放速率；

步骤3，视口预测距离控制模型将输出动作发送到视频客户端，视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点，及根据码率阈值与未来视口预测结果确定每个空间瓦片的比特率；

步骤4，视频客户端向视频服务器发送视频片段下载请求，服务器根据步骤3的结果返回所请求片段的空间瓦片；视频客户端将所有瓦片拼接为全景视频，并以视口预测距离控制模型输出的播放速率进行播放。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，所述视口预测距离控制模型包括卷积神经网络、全连接网络，输入端由两个独立的卷积神经网络分别接收两个输入状态，通过卷积神经网络进行卷积处理后，在全连接网络实现汇合，最后经过全连接网络的映射后传递给网络输出层，实现动作决策。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，所述步骤1中视口预测距离控制模型采用基于连续值动作控制的深度强化学习算法进行模型训练。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，所述模型训练的优化目标函数为：

；

其中，w_k表示QoE性能；σ_k表示视频下载暂停时间；μ_k表示码率阈值；ρ_k表示视频播放速率；k表示视频片段序号，k=1,2,…,K；QoE性能 w_k被定义为所述模型训练的训练奖励，具体公式为：

；

其中，w_k,0表示视频质量；w_k,1表示空间维度视频质量平滑度；w_k,2表示时间维度视频质量平滑度；w_k,3表示视频播放卡顿时长；

；

其中，r_k,i是瓦片i的比特率，ξ_k,i是0/1标志，ξ_k,i=1表示瓦片i在用户视口内被实际观看，ξ_k,i=0表示瓦片i未被观看；

；

其中，τ_k是下载片段k所花费的时间，ρ_k是播放速率，b_k是请求视频片段k时刻的缓冲区占用率。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，所述模型训练的训练环境具体为：将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟器中，模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长，然后将片段的物理持续时间累积到当前缓冲区占用率中，以模拟视频片段的下载完成；同时，对于视频播放，系统维持一个播放缓冲区，缓冲区数据的消耗量受视频播放速率的影响；在整个流媒体播放过程中，模拟器会持续跟踪卡顿情况，以便进行后期QoE分析。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，所述步骤2中吞吐量向量定义为状态0，状态0用于检测网络吞吐量状况，以向量形式表示滑动窗口；向量由g个样本组成，即C =<c_k-1, c_k-2, …, c_k-g>，其中每个样本量化下载过去g个片段之一的平均吞吐量；

所述步骤2中缓冲区向量定义为状态1，状态1用于记录缓冲区占用率变化情况，以向量形式表示滑动窗口；向量由h个样本组成，即B =<b_k-1, b_k-2,…, b_k-h>，其中每个样本表示请求过去h个片段之一的即时缓冲区占用率。

上述的一基于视口预测距离控制的全景视频流QoE优化方法，通过所述步骤2中的视频下载暂停时间σ_k确定下一个视频片段的开始传输时间t_k+1，具体计算公式为：

；

其中，f_k分别表示传输视频片段k的完成时间，b_k为f_k时刻的缓冲区占用率。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，通过所述步骤2中的码率阈值μ_k对码率分配进行控制，具体公式为：

；

其中，ξ_k,i是未来视口预测结果，为0/1标志，ξ_k,i=1表示瓦片i在用户视口内被实际观看，ξ_k,i=0表示瓦片i未被观看，r_k,i为视频片段k中瓦片i的比特率，由函数G(.)所决策，函数G(.)表示在传送每个片段之前，播放器对每个瓦片做出比特率决定。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，通过所述步骤2中的播放速率ρ_k对缓冲区进行控制，具体公式为：

；

其中，τ_k是下载片段k所花费的时间；l_k是片段的物理持续时间；b_k是请求视频片段k时刻的缓冲区占用率；b_k+1是下载视频片段k后的缓冲区占用率。

上述的一种基于视口预测距离控制的全景视频流QoE优化方法，根据步骤2所得的播放速率ρ_k设置速率变化上限κ _max，对播放速率ρ_k进行限制，具体为：

。

本发明的有益效果是，本发明与现有技术相比，能够很好地协调视口预测和视频传输。因此，不仅可以实现显著的QoE改善，而且在各种网络环境中均具有很强的时间和空间鲁棒性，能够在具有较大特征差异的网络环境中稳定运行。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明实施例视口预测距离控制模型的结构；

图2为本发明实施例所公开的一种基于视口预测距离控制的全景视频流QoE优化方法示意图；

图3为本发明实施例方法与现有两种方法的流传输性能评估结果；

图4为本发明实施例方法与现有两种方法在不同网络环境下的QoE评估结果；

图5为360°视频流媒体架构；

图6为视口预测图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。

本实施例公开了一种基于视口预测距离控制的全景视频流QoE优化方法，包括如下步骤：

步骤1，构建视口预测距离控制模型，并对所构建的控制模型进行训练。

如图1所示，本实施例中的视口预测距离控制模型为深度神经网络。视口预测距离控制模型包括卷积神经网络、全连接网络，输入端由两个独立的卷积神经网络分别接收两个输入状态，通过卷积神经网络进行卷积处理后，在全连接网络实现汇合，最后经过全连接网络的映射后传递给网络输出层，实现动作决策。

由于本实施例的视口预测距离控制模型的输出动作为连续值（非离散值），所以本实施例采用基于连续值动作控制的深度强化学习算法DDPG进行模型训练。本实施例基于流媒体传输环境对训练奖励与训练环境进行了重新配置，其余训练设置与DDPG一致。

（一）训练奖励

由于本实施例的根本目标为优化360°视频流的QoE性能，因此首先将该问题归纳为通过决策流媒体会话中所有视频片段k=1,2,…,K的缓存控制参数σ _k、μ _k、ρ _k，实现QoE性能w _k的最大化，则优化目标函数为：

；

因此，视口预测距离控制模型的训练奖励可由如下QoE方程实现量化：

；

具体而言，k为视频片段序号，w _k,0 ~ w _k,3为四个QoE指标：

（1）视频质量w _k,0，即视口中所有瓦片的平均比特率：

；

其中，r _k,i是瓦片i的比特率，ξ _k,i是0/1标志，ξ _k,i=1表示i在用户视口内被实际观看，ξ _k,i=0表示瓦片未被观看；

（2）空间维度视频质量平滑度w _k,1，即用户视口中的瓦片间视频质量差异：

；

（3）时间维度视频质量平滑度w _k,2，即当前视频片段相较于前一个视频片段k-1的视频质量波动：

；

（4）视频播放卡顿时长w _k,3：

；

其中，τ _k是下载片段k所花费的时间，ρ _k是播放速率，b _k是请求片段k时刻的瞬时缓冲区占用率。

（二）训练环境

为了加快训练速率，本实施例利用虚拟流模拟器实现流媒体环境仿真。

具体而言，将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟环境中。在流媒体传输过程中，针对对于每个片段，视口预测距离控制模型根据环境输入状态进行动作决策。模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长，然后将片段的物理持续时间累积到当前缓冲区占用率中，以模拟视频片段的下载完成。同时，对于视频播放，系统维持一个播放缓冲区，缓冲区数据的消耗量受视频播放速率的影响。在整个流媒体播放过程中，模拟器会持续跟踪卡顿情况，以便进行后期QoE分析。

训练结束后，将视口预测距离控制模型进行系统部署，具体流程如图2所示。主要由三部分组成：1）视频客户端，其服务于终端用户，发起视频片段的下载与播放；2）神经网络决策服务器，用于部署训练后的视口预测距离控制模型进行动作决策；3）视频服务器，用于部署360°视频，其中视频被分割成1秒长的片段，每个片段裁剪为10×10的空间瓦片，并被视频编码为7个比特率版本。

步骤2，视口预测距离控制模型输入端接收视频客户端发送的输入环境状态，输出端输出动作实现决策，其中输入状态包括吞吐量向量、缓冲区向量，输出动作包括视频下载暂停时间、码率阈值、播放速率。

（1）输入状态

在请求每个视频片段k时，视口预测距离控制模型通过接收输入状态s_k以捕捉环境特征。本实施例中定义两个状态变量：

状态0：吞吐量向量。该状态用于检测近期网络吞吐量状况，以向量形式表示滑动窗口。向量由g个样本组成，即C =<c_k-1, c_k-2, …, c_k-g>，其中每个样本量化下载过去g个片段之一（即k-g ~ k-1）的平均吞吐量。

状态1：缓冲区向量。该状态用于记录近期缓冲区占用率变化情况，以向量形式表示滑动窗口。向量由h个样本组成，即B =<b_k-1, b_k-2,…, b_k-h>，其中每个样本表示请求过去h个片段之一（即k-h ~ k-1）时刻的即时缓冲区占用率。

（2）输出动作

本实施例视口预测距离控制模型有三个输出端口，分别表示三个输出动作，每个输出动作均具有对视口预测距离的控制作用。具体而言，在视频流媒体传输过程中，缓冲区中的视频数据源于视频下载，因此，如果能有效调度下载，则可以实现对缓冲区数据量，即视口预测距离进行控制。此外，在流媒体过程中，视频下载和视频播放是两个同步进行的过程，因此除调度下载外，亦可以通过调节视频播放实现缓冲区控制。基于上述原理，本实施例提出了以下三个动作参数：

（a）视频下载暂停

在请求每个视频片段k之前，本动作周期性地暂停视频下载，在暂停过程中，由于视频播放仍在进行，所以缓存数据量下降。因此，通过动态决策和调整下载暂停时间σ _k，可实现视口预测距离的有效控制。具体而言，在忽略网络延迟的情况下，设定t _k和f _k分别表示传输视频片段k的开始时间和完成时间。设b _k为f _k时刻的缓冲区占用率。因此，通过调整σ _k，可使下一个视频片段k+1在t _k+1时刻开始传输：

；

其中，σ _k的值由神经网络模型进行决策，其为三个输出动作之一。

（b）码率分配

从理论上讲，如果视频总码率（即所有空间瓦片的比特率之和）与流式传输过程中的实时网络吞吐量完全相等，那么客户端缓冲区水平就能保持动态平衡，因为在这种情况下，视频的下载时间等于播放时间。基于此原理，如果进一步提高（或降低）码率，那么缓冲区水平也会相应降低（或提高），因为下载时间会比播放时间更长（更短）。因此，本实施例通过动态调节码率以控制视口预测距离。

360°流媒体平台中，每个视频片段k都被裁剪成不同的空间瓦片，表示为i=0,1,…,I-1，每个瓦片被编码成多个比特率版本。在传送每个片段之前，播放器会对每个瓦片做出比特率决定，以函数G(.)表示，该函数会为预测视口内的瓦片（记为ξ _k,i=1）分配尽可能高的比特率，并为预测视口外的瓦片（记为ξ _k,i=0）分配低比特率。根据这一过程，本实施例定义了动作参数μ _k，称为码率阈值，实现对码率分配的控制。具体原理如下：

；

其中，ξ_k,i是未来视口预测结果，为0/1标志，ξ_k,i=1表示瓦片i在用户视口内被实际观看，ξ_k,i=0表示瓦片i未被观看，r _k,i为视频片段k中瓦片i的比特率，由函数G(.)所决策。片段k中所有瓦片的总比特率在决策过程中被限制在阈值μ _k范围内。上述过程在实际应用中，流媒体系统首先对网络吞吐量进行预测，然后基于预测结果确定μ _k（请求片段k之前），进而根据μ _k和视口预测结果ξ _k,i决定每个瓦片的比特率。因此，通过调整μ _k，系统能够控制视频下载的码率分配，从而实现有效的视口预测距离控制。μ _k的值由神经网络模型进行决策，其为三个输出动作之一。

（c）播放速率控制

除上述两种在视频下载过程实现控制的方法外，本发明亦通过对视频播放的调节实现控制。具体而言，在流媒体传输过程中，设定请求视频片段k时刻的缓冲区占用率为b _k，则下载视频片段k后，缓冲区占用率变为b _k+1：

；

其中，ρ _k是下载片段k过程的视频播放速率，τ _k是下载片段k所花费的时间，l _k是片段的物理持续时间。在上述过程中，调高ρ _k会导致下载片段k的过程消耗更多的缓冲数据，使缓冲区水平降低，反之，调低ρ _k会提高缓冲区占用率。因此，可以通过调整 ρ _k实现对视口预测距离的控制。ρ _k的值由神经网络模型进行决策，其为三个输出动作之一。

在实践中，为了不影响观看体验质量，需要观众无法察觉到视频播放速率的变化（正常速率为×1.0）。因此，本实施例定义速率变化上限值κ _max，对播放速率变化施加限制：

；

其中，κ _max被设定为20%，即允许速率在×0.8至×1.2内变化。

步骤3，视口预测距离控制模型将输出动作发送到视频客户端，视频客户端根据视频下载暂停时间σ_k决定下一个视频片段的请求时间点，及根据码率阈值μ_k与未来视口预测结果确定每个空间瓦片的比特率。

步骤4，视频客户端向视频服务器发送视频片段下载请求，服务器根据步骤3的结果返回所请求片段的空间瓦片；视频客户端将所有瓦片拼接为全景视频，并以视口预测距离控制模型输出的播放速率ρ_k进行播放。

将本实施例所提出的基于视口预测距离控制的QoE优化方法与两种现存方案进行对比评估，以展示性能优越性。用于评估的源数据包含4,275 段视口轨迹数据（75部视频由57位用户观看过程采集）以及6万+的视频流会话网络带宽数据。进行对比的两种方案分别是无视口预测距离控制与固定缓存上限3秒。图3为三种方案的对比评估结果，展示了观看体验质量QoE、视频画质、视口预测准确度与播放卡顿四个评估指标，从图3中可以看出本实施例所提出的方法相对于现有的另外两种方案均表现出更为优越的性能，即更高的观看体验质量、视频画质、视口预测准确度，以及更低的播放卡顿。图4对比了在三种不同的网络环境下三种方案的观看体验质量，分别为较差网络条件（<3Mbps），中等网络条件（3~6Mbps）和良好网络条件（>6Mbps），从图4中可以看出，本实施例所提出的方法相对于现有的另外两种方案均表现出更为优越的性能，即更高的观看体验质量QoE。此外，图3及图4的数据是测量了高于（低于）性能平均值15%的样本性能，并在柱状图中标识为误差条的上（下）边缘值，以便于衡量性能的波动程度。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.基于视口预测距离控制的全景视频流QoE优化方法，其特征在于，包括如下步骤：

步骤1，构建视口预测距离控制模型，并对所构建的视口预测距离控制模型进行训练；

步骤2，视口预测距离控制模型输入端接收视频客户端发送的输入状态，输出端输出动作实现决策，其中输入状态包括吞吐量向量、缓冲区向量，输出动作包括视频下载暂停时间、码率阈值、播放速率；

步骤4，视频客户端向视频服务器发送视频片段下载请求，视频服务器根据步骤3的结果返回所请求片段的空间瓦片；视频客户端将所有瓦片拼接为全景视频，并以视口预测距离控制模型输出的播放速率进行播放；

所述视口预测距离控制模型包括卷积神经网络、全连接网络，输入端由两个独立的卷积神经网络分别接收两个输入状态，通过卷积神经网络进行卷积处理后，在全连接网络实现汇合，最后经过全连接网络的映射后传递给网络输出层，实现动作决策；

所述步骤1中视口预测距离控制模型采用基于连续值动作控制的深度强化学习算法进行模型训练；

所述模型训练的优化目标函数为：

其中，w_k表示QoE性能；σ_k表示视频下载暂停时间；μ_k表示码率阈值；ρ_k表示视频播放速率；k表示视频片段序号，k＝1,2,…,K；QoE性能w_k被定义为所述模型训练的训练奖励，具体公式为：

w_k＝w_k,0-0.5×w_k,1-0.5×w_k,2-5×w_k,3

其中，r_k,i是瓦片i的比特率，ξ_k,i是0/1标志，ξ_k,i＝1表示瓦片i在用户视口内被实际观看，ξ_k,i＝0表示瓦片i未被观看；

w_k,2＝|w_k,0-w_k-1,0|

w_k,3＝max[(ρ_k×τ_k-b_k),0]

其中，τ_k是下载片段k所花费的时间，ρ_k是播放速率，b_k是请求视频片段k时刻的缓冲区占用率；

所述步骤2中吞吐量向量定义为状态0，状态0用于检测网络吞吐量状况，以向量形式表示滑动窗口；向量由g个样本组成，即C＝<c_k-1,c_k-2,…,c_k-g>，其中每个样本量化下载过去g个片段之一的平均吞吐量；

所述步骤2中缓冲区向量定义为状态1，状态1用于记录缓冲区占用率变化情况，以向量形式表示滑动窗口；向量由h个样本组成，即B＝<b_k-1,b_k-2,…,b_k-h>，其中每个样本表示请求过去h个片段之一的即时缓冲区占用率；

通过所述步骤2中的视频下载暂停时间σ_k确定下一个视频片段的开始传输时间t_k+1，具体计算公式为：

t_k+1＝f_k+min(b_k,σ_k)

其中，f_k分别表示传输视频片段k的完成时间，b_k为f_k时刻的缓冲区占用率；

通过所述步骤2中的码率阈值μ_k对空间瓦片的码率分配进行控制，具体公式为：

其中，ξ_k,i是未来视口预测结果，为0/1标志，ξ_k,i＝1表示瓦片i在用户视口内被实际观看，ξ_k,i＝0表示瓦片i未被观看；r_k,i为视频片段k中瓦片i的比特率，由函数G(.)所决策，函数G(.)表示在传送每个片段之前，播放器对每个瓦片做出比特率决定；

通过所述步骤2中的播放速率ρ_k对缓冲区进行控制，具体公式为：

b_k+1＝max[(b_k-ρ_k×τ_k),0]+l_k

2.根据权利要求1所述的基于视口预测距离控制的全景视频流QoE优化方法，其特征在于，所述模型训练的训练环境具体为：将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟器中，模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长，然后将片段的物理持续时间累积到当前缓冲区占用率中，以模拟视频片段的下载完成；同时，对于视频播放，系统维持一个播放缓冲区，缓冲区数据的消耗量受视频播放速率的影响；在整个流媒体播放过程中，模拟器会持续跟踪卡顿情况，以便进行后期QoE分析。

3.根据权利要求1所述的基于视口预测距离控制的全景视频流QoE优化方法，其特征在于，根据步骤2所得的播放速率ρ_k设置速率变化上限κ_max，对播放速率ρ_k进行限制，具体为：