CN111586414B

CN111586414B - 一种基于svc和dash的360°视频流调度方法

Info

Publication number: CN111586414B
Application number: CN202010264048.9A
Authority: CN
Inventors: 张国强; 吴晨怡
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2022-04-15
Anticipated expiration: 2040-04-07
Also published as: CN111586414A

Abstract

本发明公开了一种基于SVC和DASH的360°视频流调度方法。方法包括:计算基于SVC编码的全景视频的视频块大小相关性；利用视频块大小相关性预测待下载的视频块大小；使用视频块大小预测结果增强客户端的DASH调度策略。本发明的方法能有效缓解因VBR视频码率在时间维度呈高度波动且MPD仅提供平均比特率而导致的比特率高估/低估问题，利用层次与/或空间相关性，基于视频块大小预测增强360°视频的调度策略，能有效提升用户感知的播放体验。

Description

一种基于SVC和DASH的360°视频流调度方法

技术领域

本发明属于移动互联网中360°视频传输领域，尤其涉及一种基于SVC和DASH的360°视频流调度方法。

背景技术

随着全景摄像技术的出现与廉价交互式显示设备的普及，360°全景视频流媒体正在逐步成为一种流行的互联网服务。多媒体技术正在从为用户提供简单的观看体验演变为提供新型的沉浸式虚拟环境体验。

360°全景视频流媒体从制作到被用户消费的整个过程为：首先，通过多个摄像机捕获多个方向/角度的视频，将其拼接缝合并编辑；其次，由于现有的视频编码标准还不支持对球面视频进行编码，因此目前编码360°全景视频需要先选取合适的投影方式(例如等矩形投影、立方体投影等)将其投影到平面视频，再选取合适的编码方式对其编码；接着，通过自适应的网络流媒体传输技术对全景视频内容进行传输；然后，在数据到达目标设备后，对其进行解码操作；最后，通过选取的不同投影方式以及相应的输入/输出技术(如可以通过佩戴头戴式显示器，在360°视频播放过程中自由调整观看视口区域)来指导渲染的过程，最终将360°全景视频呈现在用户眼前。

然而，在当前互联网传输360°全景视频依然面临着高带宽和低延迟两大挑战。用户在任一时刻所观看的360°视频，仅为整个球面视频的有限部分。若在网络中传输完整的360°视频，则所传输的位于用户视口之外的视频会极大地浪费资源，包括带宽、存储空间和处理能力。因此，在360°视频流媒体中实现视口自适应的传输，就能为降低带宽、减少延迟带来机会。现有的研究通过带宽预测、视口预测来解决带宽频繁波动与头部运动快速变化对自适应流媒体调度算法造成的影响，但基于VBR编码的视频的码率在时间维度存在高度抖动性。现有的算法都是以MPD文件的平均码率来预测未来视频块的大小，这将会造成比特率高估或低估问题。比特率高估可能会造成视频质量难以提升的问题，而比特率低估可能会造成缓冲区消耗过快甚至干枯的问题，从而制约自适应调度算法的有效性。因此，如何有效缓解比特率高估/低估对ABR算法的影响是亟需解决的问题。

发明内容

技术问题：针对现有技术存在的不足，本发明的目的是要提供一种基于SVC和DASH的360°视频流调度方法，可以有效地缓解比特率高估/低估对ABR算法的影响，提高视频播放质量，提升用户感知的播放体验。

技术方案：为实现本发明的目的，本发明提供了一种基于SVC和DASH的360°视频流调度方法，该方法包括下述步骤：

(1)在空间维度，将每个360°全景视频切分为M个矩形分块；

(2)在质量层次维度，使用SVC编码，将每个分块进一步编码为L个质量层次不同的视频分块，即包含一个可独立解码播放的比特率最低的基础层视频分块，以及多个依赖于低层次的逐步提高质量的增强层视频分块；

(3)在时间维度，将分块分层后的视频块进一步划分为N个分段，每个分段的持续时间为D秒，同时，为每个分块生成MPD文件，每个MPD文件中包含了此分块的L个层次以及N个分段的信息，并将上述预处理后的视频块文件以及MPD文件存储在服务器端；

(4)计算并分析预处理后的基于SVC编码的全景视频的视频块大小相关性；

(5)用户选择观看的视频，客户端根据DASH调度策略，按视频时间顺序逐步向服务器发出请求，下载视频块文件，同时渲染播放，直到播放结束，其中，在播放结束前，在客户端逐步下载视频的过程中，利用视频块大小相关性以及预测算法预测待下载视频块的大小，并使用视频块大小预测结果增强客户端的DASH调度策略，以提升此视频还未播放部分的播放质量。

进一步的，步骤(4)中的相关性包括(4.1)计算视频块大小的层次相关性和(4.2)计算视频块大小的空间相关性。

进一步的，(4.1)计算视频块大小的层次相关性，方法如下：

(4.1.1)对每个视频的每个分块的基础层的视频块，按时间顺序统计分段的视频块大小序列为X_layer；对增强层的视频块，按时间顺序统计分段视频块大小序列为Y_layer；

(4.1.2)计算视频块分段大小序列X_layer与Y_layer之间的相关系数，计算结果作为此分块的层次相关系数；

进一步的，(4.2)计算视频块大小的空间相关性，方法如下：

(4.2.1)对每个视频的每个分块的所有层次的视频块，将同一时间的分段所对应的不同层次的分段大小累计计算，并按时间顺序统计分段累计大小序列，此序列作为X_spatial；对其相邻分块的所有层次的视频块，将同一时间的分段所对应的不同层次的分段大小累计计算，并按时间顺序统计分段累计大小序列为Y_spatial；

(4.2.2)计算视频块大小序列X_spatial与Y_spatial之间的相关系数，计算结果作为此分块与其相邻分块之间的空间相关系数；

进一步的，步骤(5)的具体方法如下：

(5.1)客户端对用户选择观看的视频进行初始化下载，初始化下载内容包括：客户端从服务器端拉取的此视频的所有分块的MPD文件，以及调度策略中需要初始化下载的视频块文件；

(5.2)客户端在初始化下载后，在客户端逐步下载视频的过程中，基于视频块大小相关性预测待下载视频块的大小，并以此预测结果来增强客户端的DASH调度策略，同时开始按时间顺序播放视频，直到播放结束。

进一步的，所述步骤(5.2)中，利用视频块大小相关性以及预测算法来预测待下载视频块的大小，并以此预测结果来增强客户端的DASH调度策略的方法为：

(5.2.1)基于待下载视频块所对应的基础层视频块大小、待下载视频块所在分块的增强层与基础层的分段视频块大小序列之间的相关性、以及预测算法，来预测待下载视频块大小，即利用层次相关性以及预测算法进行预测；

(5.2.2)基于待下载视频块的相邻分块的同一层次同一分段的视频块大小、待下载视频块与相邻的分块大小序列之间的相关性、以及预测算法，来预测待下载视频块的大小，即利用空间相关性以及预测算法进行预测；

(5.2.3)若能利用步骤(5.2.1)和/或(5.2.2)的基于相关性的视频块大小预测算法预测出待下载视频块的大小，则将预测算法预测的视频块大小作为待下载视频块的期望大小；若不能，则使用原有的基于MPD的平均码率计算出的视频块大小作为待下载视频块的期望大小。

有益效果：与现有技术相比，本发明的技术方案具有如下优点：

通过本发明所提出的方法，能有效缓解因VBR视频码率在时间维度呈高度波动且MPD仅提供平均比特率而导致的比特率高估/低估问题，利用层次与/或空间相关性，基于视频块大小预测增强360°视频的调度策略，能有效提升用户感知的播放体验。

附图说明

图1示出了依据本发明一实施方式的基于SVC和DASH的360°视频流调度方法流程图；

图2示出了依据本发明一实施方式的等矩形投影后的视频的空间分块组织方式；

图3示出了依据本发明一实施方式的层次相关系数与空间相关系数的计算示例；

图4示出了依据本发明一实施方式的层次与空间Pearson相关系数的CDF图；

图5示出了依据本发明一实施方式的基于层次与空间相关性预测方法的示例；

图6示出了依据本发明一实施方式的利用层间相关性预测Diving视频的L1与L2层的片段大小；

图7示出了依据本发明一实施方式的利用空间相关性预测Diving视频的L0、L1与L2层片段大小；

图8示出了依据本发明一实施方式的系统模型；

图9示出了依据本发明一实施方式的实验所采用的带宽波动轨迹；

图10示出了依据本发明一实施方式的三个视频(依次为Rollercoaster、Paris和Diving)平均视口播放比特率；

图11示出了依据本发明一实施方式的三个视频(依次为Rollercoaster、Paris和Diving)平均视口播放层次。

具体实施方式

本实施例公开了一种基于SVC和DASH的360°视频流调度方法，包括下述步骤：

(1)在空间维度，将每个360°全景视频切分为M个矩形分块；

(3)在时间维度，将分块分层后的视频块进一步划分为N个分段，每个分段的持续时间为D秒。同时，为每个分块生成MPD文件，每个MPD文件中包含了此分块的L个层次以及N个分段的信息。至此，视频预处理结束，并将上述预处理后的视频块文件以及MPD文件存储在服务器端；

(5)用户选择观看的视频，客户端根据DASH调度策略，按视频时间顺序逐步向服务器发出请求，下载视频块文件，同时渲染播放，直到播放结束。其中，在播放结束前，在客户端逐步下载视频的过程中，利用视频块大小相关性以及预测算法预测待下载视频块的大小，并使用视频块大小预测结果增强客户端的DASH调度策略，以提升此视频还未播放部分的播放质量。

进一步，所述步骤(1)中，在空间维度，将每个360°全景视频分为M个矩形分块(tile)的方法为：使用FFmpeg工具(或其他工具)，针对不同的投影方式，对360°全景视频进行切分。

本实施例选取了Rollercoaster、Paris和Diving三个使用等矩形投影方式(类似将地球投影为世界地图的方式)进行投影后的360°视频作为示例视频。针对等矩形投影方式，可以将其划分为H行W列，则共有H×W个分块，其中第i行第j列的分块可以表示为tile_ij。如图2所示，将等矩形投影后的视频划分为4行6列，则共有4×6＝24个分块，其中,tile₁₂表示第1行第2列的分块。

进一步，所述步骤(2)中，在质量层次维度，使用SVC编码，将每个分块进一步编码为L个质量层次(layer)不同的视频分块的方法为：使用SVC编码的参考软件JSVM(或其他软件)进行分层编码。本实施例将所有视频的所有分块分别都编码为3层，包括基础层L0、增强层L1、L2，其中L0层可以独立解码播放，L1层的解码依赖于L0层，L2层的解码依赖于L0和L1层；编码L0、L1、L2三个层次使用的QP参数分别为32、28、24。

进一步，所述步骤(3)中，在时间维度，将分块分层后的视频块进一步划分为N个分段(segment)，每个分段的持续时间为D秒，同时生成MPD文件的方法为：使用DASH-SVC-Toolchain工具(或其他工具)，设置分段时长(例如2秒)等参数，对分块分层后的视频块进行时间上的划分；同时，为每个视频分块生成一个MPD文件，每个MPD文件包含了分层信息与分段信息。例如，将一个10秒的360°全景视频切分成24个分块，每个分块进一步编码为3个质量层次，每个层次的分块进一步分成5个时长为2秒的分段，则对应分块生成24个MPD文件，每个MPD包含此分块的3层质量信息(包括分辨率、帧率、平均比特率等信息)以及每层的5个分段信息(包括分段时长，对应的视频文件路径等信息)。

至此，360°视频经预处理(分块分层分段)后，得到视频块(chunk)文件以及MPD文件，其中视频块(chunk)文件是最小的视频可下载单元。将上述预处理后的视频块文件以及MPD文件存储在服务器端。本实施例使用的服务器为基于Apache2.0软件搭建的Web服务器。

进一步，所述步骤(4)中，计算并分析预处理后的基于SVC编码的全景视频的视频块大小相关性，是指对所有示例视频分别计算视频块大小相关性。计算的相关性结果为视频本身的内在特征，此特征可以为后续预测视频块大小提供机会。具体计算方法包括：

(4.1)计算视频块大小的层次相关性；

(4.2)计算视频块大小的空间相关性。

进一步，(4.1)计算视频块大小的层次相关性，即在同一视频的同一分块中，计算不同层次的按时间顺序排列的视频块大小序列之间的相关性。具体包括基础层L0与增强层L1的视频块大小序列之间的相关性、基础层L0与增强层L2的视频块大小序列之间的相关性。由于其计算方法类似，故以基础层L0与增强层L1的视频块大小序列之间的相关性计算方法为例：

(4.1.1)对每个视频的每个分块的基础层L0的视频块，按时间顺序,统计分段的视频块大小序列为X_layer；同样的，对增强层L1的视频块，按时间顺序,统计分段视频块大小序列为Y_layer。

例如图3(a)所示，将Rollercoaster视频的第1行第1列分块的基础层L0的视频块，按时间顺序依次记录5个分段的视频块大小序列为X_layer＝{6KB,2KB,8KB,10KB,7KB}；增强层L1按时间顺序依次记录5个分段的视频块大小序列为Y_layer＝{3KB,1KB,4KB,5KB,3.5KB}；

(4.1.2)计算视频块分段大小序列X_layer与Y_layer之间的相关系数。本实施例选取Pearson相关系数计算公式进行计算：将视频块分段大小序列X_layer与Y_layer带入Pearson相关系数计算公式

中的X与Y(也可使用其他计算相关性的方法)进行计算。公式中，6ov(X,Y)表示序列X与Y的协方差，9_X与9_-分别为序列X与Y的标准差，计算结果ρ_X,-表示序列X与Y的相关系数，取值范围为[-1,1]。相关系数接近1表示呈正相关，接近-1表示呈负相关，通常可通过相关系数的绝对值取值范围判断相关强度：0.8-1.0为极强相关；0.6-0.8为强相关；0.4-0.6为中等程度相关；0.2-0.4为弱相关；0.0-0.2为极弱相关或无相关。

对每个视频分别统计汇总所包含的所有分块的层次相关系数后，获得每个视频的每个分块的基础层与增强层的按时间顺序排列的分段大小序列之间的层次相关性。本实施例使用获得累积分布函数图(CDF)分析视频的层次相关性，得出：每个视频的每个分块的基础层与增强层的按时间顺序排列的分段大小序列之间具有极强相关性，为后续视频块大小预测提供了可能性。例如，对Rollercoaster视频24个分块的相关系数进行汇总，将这24个相关系数画成累计分布函数图中的一条曲线。如图4(a)所示，所有示例视频的所有分块的层次相关系数均达到0.8以上(即具有极强相关性)。例如，图中曲线Rollercoaster-L0-L1表示，Rollercoaster视频的24个分块的L0与L1层的分段视频块大小序列之间的相关系数均在0.88以上，表明其具有极强相关性。

进一步，(4.2)计算视频块大小的空间相关性，即在同一视频中，计算相邻(包括水平相邻与垂直相邻)的两个分块的所有层次合计的按时间顺序排列的分段视频块大小序列之间的相关性。其中，水平相邻是指两个分块所在的行数相同，所在的列数相差1，或者所在的行数相同，所在的列数对总列数取余的结果相差1。

例如tile₁₁与tile₁₂所在的行数均为第1行，所在列数分别为第1列与第2列，则tile₁₁与tile₁₂为水平相邻的分块。再例如，tile₁₁与tile₁₆所在行数均为第1行，所在列数分别为第1列与第6列，对总列数(6列)取余的结果分别为1％6＝1和6％6＝0，则tile₁₁与tile₁₆也为水平相邻的分块。这是因为等矩形投影后的平面视频的最左侧与最右侧实际为连续的画面，类似展开后的世界地图的最左侧与最右侧的实际位置相连；垂直相邻是指两个分块所在的列数相同，所在行数的相差1。由于水平相邻与垂直相邻的相关性计算方法相同，故以水平相邻的两个分块的所有层次合计的按时间顺序排列的分段视频块大小序列之间的相关性的计算方法为例：

(4.2.1)对每个视频的每个分块的所有层次的视频块，将同一时间的分段所对应的不同层次的分段大小累计计算，并按时间顺序统计分段累计大小序列，此序列作为X_spatial；同样的，对其水平相邻分块的所有层次的视频块，将同一时间的分段所对应的不同层次的分段大小累计计算，并按时间顺序统计分段累计大小序列为Y_spatial。

例如图3(b)所示，Rollercoaster视频的第1行第2列分块的L0层按时间顺序排列的5个分段大小为：1.5KB、3KB、2KB、1KB、4KB，L1层按时间顺序排列的5个分段大小为：1KB、2KB、1.3KB、0.7KB、2.7KB，L2层按时间顺序排列的5个分段大小为：0.5KB、1KB、0.7KB、0.3KB、1.3KB，则此分块的同一时间的分段所对应的三个层次的分段的累计大小，按时间顺序排列后的序列为X_spatial＝{3KB,6KB,4KB,2KB,8KB}。

同样计算Rollercoaster视频的第1行第3列分块的三个层次的视频块累计大小，按时间顺序排列后的序列为Y_spatial＝{3.5KB,8KB,5KB,2KB,11KB}。

(4.2.2)计算视频块大小序列X_spatial与Y_spatial之间的相关系数。本实施例选取Pearson相关系数计算公式进行计算：将视频块大小序列X_spatial与Y_spatial带入Pearson相关系数计算公式

中的X与Y(也可使用其他计算相关性的方法)进行计算。公式中，67v(X,Y)表示序列X与Y的协方差，σ_X与9_-分别为序列X与Y的标准差，计算结果ρ_X,-表示序列X与Y的相关系数，取值范围为[-1,1]。相关系数接近1表示呈正相关，接近-1表示呈负相关，通常可通过相关系数的绝对值取值范围判断相关强度：0.8-1.0为极强相关；0.6-0.8为强相关；0.4-0.6为中等程度相关；0.2-0.4为弱相关；0.0-0.2为极弱相关或无相关。

对每个视频分别统计汇总所包含的所有分块的空间相关系数后，获得每个视频的相邻两个分块大小序列之间的空间相关性。本实施例使用获得累积分布函数图(CDF)分析视频的空间相关性，得出：水平相邻的两个分块大小序列之间，相比垂直相邻的两个分块大小序列之间，具有更高的相关系数。因此，在后续的利用空间相关性进行视频块大小预测方法中，仅考虑使用水平相邻的分块大小序列之间的相关性来预测。如图4(b)所示，在Rollercoaster视频中，约有90％的水平相邻的两个分块大小序列的相关性为强相关，而仅有约40％的垂直相邻的两个分块大小序列的相关性为强相关。

进一步，所述步骤(5)中，用户选择观看的视频，客户端根据DASH调度策略，按视频时间顺序逐步向服务器发出请求，下载视频块文件，同时渲染播放，直到播放结束。其中，在播放结束前，在客户端逐步下载视频的过程中，利用视频块大小相关性以及预测算法预测待下载视频块的大小，并使用视频块大小预测结果增强客户端的DASH调度策略，以提升此视频还未播放部分的播放质量。具体方法为：

(5.1)客户端的播放器根据DASH调度策略，对用户选择观看的视频进行初始化下载。初始化下载内容包括：客户端从服务器端请求拉取的此视频的所有分块的MPD文件，以及调度策略中需要初始化下载的视频块文件。例如，客户端向服务器端发送请求，拉取Rollercoaster视频24个分块所对应的24个MPD文件，以及调度策略中设置的需要初始化下载的视频块文件为：此视频24个分块的基础层的按时间顺序的前5个分段视频块文件，以及每个增强层的按时间顺序的前2个分段视频块文件。

(5.2)客户端在初始化下载结束后，根据DASH调度策略继续进行下载，同时开始按时间顺序播放视频，直到播放结束。

其中，DASH调度策略为：根据预测的即将有可能需要下载的视频块的大小(以下简称为：待下载视频块大小)、预测的网络带宽大小、当前视频播放缓冲区的状态，来确定即将需要下载的视频块文件。

其中，预测待下载视频块大小的方法为：在播放结束前，在客户端逐步下载视频的过程中，基于视频块大小相关性预测待下载视频块的大小，并以此预测结果来增强客户端的DASH调度策略，提升此视频还未播放部分的播放质量。因为基于相关性的预测方法相比原有的以平均大小作为待下载视频块大小的方法能更为准确地表示待下载视频块大小，即基于相关性的预测结果更贴近待下载视频块的实际大小，所以可以帮助DASH调度策略获得更优的调度结果，从而提升视频播放质量。

进一步，所述步骤(5.2)中，利用视频块大小相关性以及预测算法来预测待下载视频块的大小，并以此预测结果来增强客户端的DASH调度策略的方法为：

(5.2.1)尝试利用层次相关性以及预测算法进行预测，若可预测，则获得预测的待下载视频块大小。此方法仅限于待下载视频块为增强层视频块时使用，即基于待下载视频块所对应的基础层视频块大小、待下载视频块所在分块的增强层与基础层的分段视频块大小序列之间的相关性、以及预测算法，来预测待下载视频块大小；

(5.2.2)尝试利用空间相关性以及预测算法进行预测，若可预测，则获得预测的待下载视频块大小。此方法对于待下载视频块为任一层次的情况均适用，即基于待下载视频块的相邻分块的同一层次同一分段的视频块大小、待下载视频块与相邻的分块大小序列之间的相关性、以及预测算法，来预测待下载视频块的大小。

(5.2.3)若能利用步骤(5.2.1)与/或(5.2.2)的基于相关性的视频块大小预测算法预测出待下载视频块的大小，则将预测算法预测的视频块大小作为待下载视频块的期望大小；若不能，则使用原有的基于MPD的平均码率计算出的视频块大小作为待下载视频块的期望大小。

进一步，所述步骤(5.2.1)中，利用层次相关性以及预测算法进行预测的方法为：

(5.2.1.1)在客户端播放视频的过程中，需要预测待下载视频块的大小，则需要收集所需的已下载的视频块文件大小：

(1)足够数量的具有相关性的训练样本数据集。其中，足够数量是指样本数据集的个数需要大于等于阈值n_threshold；预测算法所需的具有相关性的训练样本数据集包括自变量序列X′_layer与因变量序列Y′_layer，自变量序列X′_layer为：待下载视频块所在分块的基础层的按时间顺序排列的已下载的分段视频块大小序列；自变量序列Y′_layer为：待下载视频块所在分块所在层次的按时间顺序排列的与序列X′的分段序号相对应的已下载的分段视频块大小序列。

(2)待下载视频块所在分块的基础层的与待下载视频块的分段序号相同的分段视频大小。

若(1)与(2)中有一项或多项不存在，则无法使用该方法进行预测。

例如图5(a)所示，待下载视频块为Rollercoaster视频的第1行第1列分块的增强层L1的第6个分段的视频块，现需要预测此视频块的大小，则需要收集以下数据(以下数据均为已下载的视频块文件的大小)：

(1)此视频的第1行第1列分块的基础层L0的按时间顺序排列的前5个分段中已下载的视频块大小序列X′_layer＝{6KB,2KB,8KB,10KB,7KB}，此时的序列X′_layer所对应的分段序号为：seg₁,seg₂,seg₃,seg_F,seg₅；此视频的第1行第1列分块的增强层L1的按时间顺序排列的与序列X′_layer的分段序号相对应的分段视频块大小序列Y′_layer＝{3KB,1KB,4KB,5KB,3.5KB}。序列X′_layer与序列Y′_layer分别作为样本数据集中的自变量序列与因变量序列；

(2)此视频的第1行第1列分块的基础层L0的第6个分段的视频块文件大小x₆＝4KB。若阈值n_threshold设置为5，即样本数据集中至少需要包含5对数据方可预测，则此时的序列X′_layer与序列Y′_layer满足要求，且收集的数据(2)存在，则此时可以进行预测。

(5.2.1.2)选取一种预测算法，对收集的数据(1)进行训练，得到训练结果，再将收集的数据(2)带入此训练结果进行计算，得到预测的待下载视频块大小。

例如，选择线性回归预测算法，对收集的数据(1)中的自变量序列X′_layer＝{6KB,2KB,8KB,10KB,7KB}、因变量序列Y′_layer＝{3KB,1KB,4KB,5KB,3.5KB}进行训练，将其拟合成一条直线y＝w′x+e(此例拟合的直线为y＝0.5x)，再将收集的数据(2)x₆＝4KB带入直线方程，计算得出预测的待下载视频块大小y₆＝2KB。

进一步，所述步骤(5.2.2)中，利用空间相关性以及预测算法进行预测的方法为：

(5.2.2.1)在客户端播放视频的过程中，需要预测待下载视频块的大小，则需要收集所需的已下载的视频块文件大小，具体包括以下数据：

(1)足够数量的具有相关性的训练样本数据集。其中，足够数量是指样本数据集的个数需要大于等于阈值n_threshold；预测算法所需的具有相关性的训练样本数据集包括自变量序列X′_spatial与因变量序列Y′_spatial。

自变量序列X′_spatial为：待下载视频块的水平相邻分块的与待下载视频块同一层次按时间顺序排列的已下载的分段视频块大小序列；

自变量序列Y′_spatial为：待下载视频块所在分块所在层次的按时间顺序排列的与序列X′_spatial的分段序号相对应的已下载的分段视频块大小序列。

(2)待下载视频块的水平相邻分块的与待下载视频块同一层次同一分段的视频块大小。

例如图5(b)所示，待下载视频块为Rollercoaster视频的第2行第2列分块的基础层L0的第6个分段的视频块，现需要预测此视频块的大小，则需要收集以下数据(以下数据均为已下载的视频块文件的大小)：

(1)此视频的第2行第3列(或第1列)分块的基础层L0的按时间顺序排列的前5个分段中已下载的视频块大小序列X′_spatial＝{3KB,6KB,4KB,2KB,8KB}，此时的序列X′_spatial所对应的分段序号为：seg₁,seg₂,seg₃,seg_F,seg₅；此视频的第2行第2列分块的基础层L0的按时间顺序排列的与序列X′_spatial的分段序号相对应的分段视频块大小序列Y′_spatial＝{3.5KB,8KB,5KB,2KB,11KB}；序列X′_spatial与序列Y′_spatial分别作为样本数据集中的自变量序列与因变量序列。

(2)此视频的第2行第3列(或第1列)分块的基础层L0的第6个分段的视频块大小x′₆＝5KB。

若阈值n_threshold设置为5，即样本数据集中至少需要包含5对数据方可预测，则此时的序列X′_spatial与序列Y′_spatial满足要求，且收集的数据(2)存在，则此时可以进行预测。

(5.2.2.2)选取一种预测算法，对收集的数据(1)进行训练，得到训练结果，再将收集的数据(2)带入此训练结果进行计算，得到预测的待下载视频块大小。

例如，选择线性回归预测算法，对收集的数据(1)中的自变量序列X′_spatial＝{3KB,6KB,4KB,2KB,8KB}、因变量序列Y′_spatial＝{3.5KB,8KB,5KB,2KB,11KB}进行训练，将其拟合成一条直线y＝w′x+e(此例拟合的直线为y＝1.5x-1)，将收集的数据(2)x′₆＝5KB带入直线方程，计算得出预测的待下载视频块大小y′₆＝6.5KB。

图6(a)和图6(b)分别显示了使用基于层次相关性的预测方法来计算L1层、L2层的预测大小与实际大小的比较。图7(a)、图7(b)和图7(c)分别显示了使用基于空间相关性的预测方法来计算L0层、L1层、L2层的预测大小与实际大小的比较。以上均体现了使用基于层次和空间相关性以及线性回归算法预测视频块大小的方法的有效性。

进一步，所述步骤(5.2.3)中，使用步骤(5.2.1)与(5.2.2)的预测结果增强客户端的DASH调度策略的方法包括以下三种方法，任选其一均可增强客户端的DASH调度策略。三种方法具体为：

a)根据层次相关性预测结果增强调度策略：若能利用步骤(5.2.1)的基于层次相关性的视频块大小预测算法预测出待下载视频块的大小，则将预测算法预测的视频块大小作为待下载视频块的期望大小；若不能，则基于MPD的平均码率计算出的视频块大小作为待下载视频块的期望大小；

b)根据空间相关性预测结果增强调度策略：若能利用步骤(5.2.2)的基于空间相关性的视频块大小预测算法预测出待下载视频块的大小，则将预测算法预测的视频块大小作为待下载视频块的期望大小；若不能，则基于MPD的平均码率计算出的视频块大小作为待下载视频块的期望大小；

c)根据层次与空间相关性预测结果增强调度策略：若能利用步骤(5.2.1)或步骤(5.2.2)的基于层次相关性或空间相关性的视频块大小预测算法预测出待下载视频块的大小，则将预测算法预测的视频块大小(当出现两种方法均可预测的情况时，将两种预测结果取平均值)作为待下载视频块的期望大小；若不能，则基于MPD的平均码率计算出的视频块大小作为待下载视频块的期望大小。

本实施例对上述方法进行了实验验证与性能评价。实验环境符合图8中描述的系统模型。在服务器端存储视频块文件以及MPD文件，在客户端通过调度进行下载与播放，在服务器端和客户端之间部署了流量控制器(Linux TC)(也可使用其他方式控制流量)，以模拟在实际网络中观察到的实际带宽波动。

在实验中使用了三个4G网络带宽trace，分别从中截取了420s内的记录来控制带宽变化，trace波动情况如图9所示。由于这些trace在整体上偏低，例如trace-3平均比特率仅为0.866Mb/s，远远小于播放360°视频所需比特率。因此通过线性函数来放大这些带宽，具体为：trace1：y₁＝2x₁+10，trace2：y₂＝1.2x₂，trace3：y₃＝20x₃+5，单位为Mb/s，使得平均比特率接近360°视频所需的平均比特率(可以但不限于此数据与变化方式)。

本实施例使用Oculus Rift DK2为头戴式显示器，并用Oculus的官方应用程序Oculus Video播放360°视频，让不同用户分别观看3个视频。同时使用开源头部跟踪工具OpenTrack来记录观看者的方向，进行用户头部运动的数据采集(可以但不限于此硬件/软件)。本实施例选用了其中三个用户的观看结果，比较了四种调度算法：在不同视频、不同用户、不同带宽trace的条件下，进行①基于MPD计算视频块大小结果增强调度的方法(MPD-SP)；②基于层次相关性的视频块大小预测结果增强调度的方法(Layer-size-predict,LSP)；③基于空间相关性的视频块大小预测结果增强调度的方法(Tile-size-predict,TSP)；④基于层次-空间相关性的视频块大小预测结果增强调度的方法(Layer-tile-size-predict,LTSP)。其中，MPD-SP只是简单地将MPD中提供的平均比特率计算的大小作为待下载视频块大小的输出。每种算法运行5次，取平均值作为最终结果。

本实施例使用以下指标来评估性能：平均视口播放比特率，平均视口播放层次，平均停顿次数，平均停顿时间和平均视口质量切换次数。具体性能分析如下：

(1)平均视口播放比特率：仅在用户视口内实际播放的平均比特率。图10展示了平均视口播放比特率这一指标在不同带宽trace的情况下，四个策略的表现。可以看出，通过提出的块大小预测算法来增强360°视频流调度确实可以提高播放比特率。但是，提升效果却有所差异。这种差异是由于三个视频在时间维度上的比特率变化的波动程度不同所引起的。在这三个视频中，Rollercoaster波动最为剧烈，Paris最为稳定，而Diving介于两者之间。特别是Paris除了个别时刻突然增大之外(视频内容为场景切换时比特率会突然增大)，其余的视频块大小波动都较为平缓，接近平均比特率。由于利用基于相关性的块大小预测方法增强调度的策略是在MPD提供的平均比特率不能准确地预测视频块大小的前提下提出的，因此本实施例的策略应对Rollercoaster视频的提升效果最好，其次是Diving，而对Paris仅略有提升。另外，如图4所示，水平相邻分块之间的空间相关性比层次相关性更弱些，因此，LSP比TSP能提升更多的性能。

(2)平均视口播放层次：仅在用户视口内实际播放的平均层次。由于块大小在时间与空间维度上均有变化，因此比特率并不意味着播放视频的质量。例如，在场景稳定的情况下，可以通过运动补偿来实现高压缩率的视频编码。因此，低比特率并不意味着低质量。在SVC中，平均播放层次可以更准确地捕获用户感知的视频播放质量。图11显示了平均视口播放层次，它呈现出与平均播放比特率相似的趋势，同时也可以发现所提出的增强策略在平均视口播放层次方面比平均播放比特率具有更多的性能提升。

(3)播放暂停次数、重新缓冲时长。在本实施例中设置了两种缓冲区：一个是较长的基础层缓冲区，可以将整个球面视图缓冲10秒钟；另一个是较短的增强层缓冲区，基于预测的视口缓冲近期的分块。本实施例基础的自适应逻辑是先下载整个球面视图的基础层，当基础层缓冲区为满时，再根据当前网络状况提升视口的播放质量。这样就能尽量保证无论用户视口在何处，都不会因为大幅度的头部运动而造成视频频繁的暂停播放。表格1和表格2分别显示了平均播放暂停次数与重新缓冲时长。由不同的带宽trace表示了不同的网络情况，因此会造成不同的暂停时间。相对于总体的视频时长来说，暂停次数和重新缓冲时间是可以接受的。另外，由于基础层缓冲区较长，所以很少会出现因大小预测不准确而导致的缓冲区耗尽的情况，故基于相关性预测大小增强调度的策略在暂停次数与重新缓冲时间上仅有部分减少。但是与此同时，也不会造成暂停次数与重新缓冲时间大幅度增加。

表格1平均播放暂停次数

	MPD-SP	LSP	TSP	LTSP
					Rollercoaster	5.26	5.22	5.09	5.04
Paris	0.00	0.00	0.00	0.00
					Diving	20.23	20.20	18.63	19.41

表格2重新缓冲时长(s)

	MPD-SP	LSP	TSP	LTSP
					Rollercoaster	2.54	2.55	2.56	2.56
Paris	0	0	0	0
					Diving	7.18	7.43	6.82	7.09

(4)平均视口质量切换次数：如果两个时间上相邻的分段之间的播放层次相差大于0.5，则认为是一次播放层次切换。表格3列出了视口质量切换的平均次数。可以看到，Rollercoaster和Paris的平均质量切换次数减少，而Diving却有所增加。这是由于Diving的平均播放层次明显低于其他两个所导致的。如图11所示，这些视频的平均视口播放层次分别为0.3～0.4、0.5～0.8和1.0～1.2。在这种情况下，分布稀疏的增强层块将会使得最初平滑的播放变得不平滑。

表格3平均视口质量切换次数

	MPD-SP	LSP	TSP	LTSP
					Rollercoaster	29.01	23.80	27.60	23.54
Paris	64.71	64.07	64.02	62.78
					Diving	49.86	53.47	56.64	54.74

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于SVC和DASH的360°视频流调度方法，其特征在于，该方法包括下述步骤：

(1)在空间维度，将每个360°全景视频切分为M个矩形分块；

(2)在质量层次维度，使用SVC编码，将每个分块进一步编码为L个质量层次不同的视频分块，即包含一个可独立解码播放的比特率最低的基础层的视频分块，以及L-1个增强层的视频分块，每个增强层的视频分块是依赖于低于该增强层的其它层的视频分块解码得到的；

(3)在时间维度，将分块分层后的视频块进一步划分为N个分段，每个分段的持续时间为D秒，同时，为每个分块生成MPD文件，每个MPD文件中包含了此分块的L个层次以及N个分段的信息，并将上述预处理后的视频块以及MPD文件存储在服务器端；

2.根据权利要求1所述的一种基于SVC和DASH的360°视频流调度方法，其特征在于，步骤(4)中的相关性包括(4.1)计算视频块大小的层次相关性和(4.2)计算视频块大小的空间相关性。

3.根据权利要求2所述的一种基于SVC和DASH的360°视频流调度方法，其特征在于，(4.1)计算视频块大小的层次相关性，方法如下：

(4.1.2)计算视频块分段大小序列X_layer与Y_layer之间的相关系数，计算结果作为此分块的层次相关系数。

4.根据权利要求2所述的一种基于SVC和DASH的360°视频流调度方法，其特征在于，(4.2)计算视频块大小的空间相关性，方法如下：

(4.2.2)计算视频块大小序列X_spatial与Y_spatial之间的相关系数，计算结果作为此分块与其相邻分块之间的空间相关系数。

5.根据权利要求1所述的一种基于SVC和DASH的360°视频流调度方法，其特征在于，步骤(5)的具体方法如下：

6.根据权利要求5所述的一种基于SVC和DASH的360°视频流调度方法，其特征在于，所述步骤(5.2)中，利用视频块大小相关性以及预测算法来预测待下载视频块的大小，并以此预测结果来增强客户端的DASH调度策略的方法为：