CN114268835B

CN114268835B - 一种低传输流量的vr全景视频时空切片方法

Info

Publication number: CN114268835B
Application number: CN202111393475.8A
Authority: CN
Inventors: 王君来; 娄函; 韩圣千
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-11-01
Anticipated expiration: 2041-11-23
Also published as: CN114268835A

Abstract

本发明公开了一种低传输流量的VR全景视频时空切片方法，属于无线通信的视频传输领域，具体包括：首先，收集视频和用户的数据，将每个视频设定为TD种时空切片组合；统计每种组合下的视频大小，以及每位用户观看视频时的传输流量；针对每一类视频，计算视频文件大小和传输切块占比，相乘得到传输流量统计模型；针对新的待切分VR视频，统计出t＝1时I‑P帧压缩比W对传输流量统计模型中的压缩比

进行修正；进而计算修正的待切分视频在时空切片后的大小，并乘以切块占比，得到用户观看该待切分视频时需要传输的流量上界；遍历TD种时空切片方式，找到最小传输流量下的对应方案，本发明有效利用时空切片传输来降低VR全景视频传输流量，对时空两维的切片进行了优化。

Description

一种低传输流量的VR全景视频时空切片方法

技术领域

本发明属于无线通信的VR视频传输领域，具体涉及一种低传输流量的VR全景视频时空切片方法。

背景技术

VR全景视频被认为是未来移动通信应用场景中高带宽需求的主要业务之一，为了保证用户体验，视频分辨率往往在8K及以上。为了在有限的传输带宽下，尽可能提升用户体验，有必要设计VR视频业务的高效传输机制。

通常用户在观看全景视频时，只会观看整个视频画面的一部分，其余部分的传输是可以避免的。基于此，研究人员提出了基于视点自适应的VR视频传输方式，实现方式为把VR视频画面在空间上切块(称为Tile)，然后根据用户当前的视点，只传输视点范围内的切块。

除了空间切片，在时间维对视频进行切片也是视频点播业务的主流实现方式，常用的实现方式例如DASH(Dynamic Adaptive Streaming over HTTP，基于HTTP的动态自适应流)。用户以时间分段为单位来请求视频，从而实现边下载边解码边观看的效果，同时可以根据信道的变化来选择合适的画面质量。

因此，对VR全景视频通过在空间维和时间维分别进行切片，可以实现基于时空切片的视频传输。只需在每个时间分段里，针对当前视点内的切块发送高清版本，而对其他切块发送较低清版本即可(防止视点预测错误导致的画面中断)，大大节省了传输流量，降低了网络传输压力。

但是，基于时空切片传输的机制仍存在以下问题：如何确定每个视频的切片方式，即空间上切分多少个切块、时间上时间分段内包含多少帧。

首先，空间切块并不一定越多越好：一方面，切块数量越多，实际传输的高清画面面积越小，虽然有利于节省流量；但另一方面，每个空间切块都是独立压缩编码的，画面的越小则利用画面空间相关性进行视频压缩的效率越低，导致每个切块的压缩率下降。综合考虑两方面因素可知，增加切块的数量并不一定导致流量下降。

其次，时间分段也不一定越长越好：一方面，分段越长，则利用画面时间相关性进行视频压缩的效率越高，有利于降低视频传输流量；但另一方面，对于时空切片传输而言，增加时间分段长度可能会导致传输更多的空间切块，从而增加传输流量。

举例来说明：假设时间分段长度为2s，用户正在观看时间分段1，且视点集中在空间切块1内，那么系统只需要传输时间分段1内的空间切块1即可；但是如果用户在观看过程中发生了头动，例如在1s处把头转向了空间切块2，那么系统就需要先传输时间分段1内的空间切块1，然后在头动之后接着传输时间分段1内的空间切块2，导致流量的增加。不难发现，时间分段越长，那么用户在一个时间分段内发生头动的概率越大，因此时间分段长度并不一定越大越好。

进一步，需要说明的是，将一种固定的时空切片方案应用于所有的视频并不是最优的处理方式：首先，不同类型的视频由于内容的差异，用户在观看时的头动规律是不一样的，例如对于访谈类的视频，用户的注意力往往集中在主持人和嘉宾身上，头动不太频繁；而对于短视频，用户的注意力会受到声音、画面切换的影响，头动更加频繁。其次，由于画面内容的差异，不同视频的时、空维压缩编码效率不同，导致相同的时空切片方案具有不同的流量。

综上所述，为了有效利用时空切片传输机制来降低VR全景视频传输流量，有必要对时空两维的切片方案进行优化设计。

发明内容

针对上述问题，本发明提出了一种低传输流量的VR全景视频时空切片方法，采用面向单个VR全景视频的自适应、低流量的时空切片方案，确定并优化每个视频的空间切块数量和时间分段长度。

所述的低传输流量的VR全景视频时空切片方法，具体步骤如下：

步骤一、收集包括视频和用户的七维数据集；

七维数据集包括：视频类型、视频ID、空间切块数、时间分段长度、视频大小、用户ID和用户观看视频时的传输流量。

视频类型包括访谈类、体育类、风景类等。

每个视频的空间切块数设定为1,2,...,t,...,T，时间分段长度设定为1,2,...,d,....,D帧，则每个视频都有TD种Tile-DASH切片组合；

统计每种时空切片方式下的视频大小，以及每位用户观看视频时的传输流量。

步骤二、针对每一类视频，利用数据集分别计算全景视频时空切片传输模式下的视频文件大小和传输切块占比，两者相乘得到传输流量统计模型；

传输流量统计模型的表达式如下：

表示视频文件的平均大小；η(t，d)为传输切块占比，表示传输的空间切块大小与视频文件总大小之间的平均比例；

定义

和

分别表示空间切块为t时的I帧和P帧的平均大小，由于每个时间分段内包含1个I帧和d-1个P帧，由数据集统计得到；

表示为：

其中，L表示视频包含的总帧数，L/d表示视频包含的时间分段数，

表示I-P帧平均压缩比，定义为：

根据实验经验，

与切块数t之间近似满足线性关系，与时间分段长度d基本不相关，因此采用如下的线性模型来拟合

其中，系数p₀和p₁由现有的线性拟合算法得到。

最终，视频的平均大小为：

传输切块占比η(t，d)的表达式如下：

其中，V是同类视频的个数，α_v，ij∈{0，1}表示视频v的第i个时间分段内第j个空间切块是否位于用户的视域内，S_v，ij表示视频v的第i个时间分段内第j个空间切块的大小。

采用正态分布来拟合η(t，d)，即：

均值和方差为多项式拟合分别如下：

μ(t，d)≈p₂t+p₃+p₄t^-1+(p₅+p₆t^-2)d+p₇t^-2

σ(t，d)＝p₈+p₉t+p₁₀d+p₁₁t²+p₁₂td

其中，拟合系数p₂，...，p₁₀使用Matlab曲线拟合工具箱得到。

步骤三、针对新的待切分VR视频，统计出t＝1时，待切分视频的I-P帧压缩比W，并利用W对传输流量统计模型中的

进行修正；

修正后的

表示为：

其中，Δ＝W-p₀-p₁，以保证

步骤四、基于修正的

计算出待切分视频在时空切片后的视频大小

并乘以传输的切块大小占比η(t，d)，得到用户观看该待切分视频时需要传输的流量上界T_ρ(t，d)；

传输的流量满足如下正态分布：

对于随机传输流量T(t，d)，其置信度为ρ∈[0，1]的上界，记为T_ρ(t，d)；定义为：

P(T(t，d)≤T_ρ(t，d))＝ρ

传输流量上界T_ρ(t，d)的表达式为：

其中，φ(ρ)是标准正态分布的ρ分位点。

步骤五、遍历TD种时空切片方式，找到使得传输的流量上界T_ρ(t，d)最小的时空切片方案。

考虑到t和d的取值均为整数，采用穷举搜索法对传输流量上界T_ρ(t，d)进行搜索，当T_ρ(t，d)最小时对应的时空切片方式即为所求方案。

本发明的优点在于：

1)、一种低传输流量的VR全景视频时空切片方法，建立了基于视频类型的平均传输流量模型，包含了该类视频的平均变化趋势。对于新的VR视频，只需要计算偏移量便可得到该视频的传输流量模型，避免了通过大量仿真或者实验来得到传输流量模型。

2)、一种低传输流量的VR全景视频时空切片方法，模型偏移时，计算在一种空间切块方案(如切块数为1)下的I-P帧压缩比即可求得偏移量，对于新的VR视频，获得其传输流量模型的代价很小。

3)、一种低传输流量的VR全景视频时空切片方法，传输流量模型考虑了用户观看视角的不确定性，通过置信概率可以得到不同比例用户的传输流量上界，具有更准确的参考价值。

附图说明

图1为本发明一种低传输流量的VR全景视频时空切片方法的流程图；

图2为本发明实施例所示视频样本大小的拟合结果图；

图3为本发明实施例所示体育类视频I-P帧平均压缩比图；

图4为本发明实施例用户传输切块大小占比与分块数的关系图；

图5为本发明实施例所示用户平均传输比例的概率密度图；

图6为本发明实施例所示误差对比图。

具体实施方式

下面结合实施例和附图对本发明做进一步的说明。

本发明提出了一种低传输流量的VR全景视频时空切片方法，对切片方案的优化需要已知“传输流量与Tile块数量及DASH段长度之间的关系模型”。因此，本发明提出的方案包含两个基本步骤：一是建立传输流量与Tile块数量及DASH段长度之间的关系模型，二是基于建立的模型来优化切片方案。如图1所示，具体实施步骤如下：

步骤一、收集包括视频和用户的七维数据集；

考虑到用户对不同类型的VR视频具有不同的观看习惯，因此用于建模的数据集应满足以下要求：

首先，按视频类型分类收集视频，例如访谈类、体育类、风景类等。

然后，给定每个视频的空间切块数为1，2，...，t，...，T、时间分段长度设定为1，2，...，d，...，D帧，针对所有时空切片组合，每个视频都有TD种，对每个视频进行时空两维视频切片、压缩编码和流媒体格式存储，统计视频大小。

针对同一类视频的每个视频，收集每个用户在观看各视频的TD种时空切片方式时的传输流量。收集各用户的头动记录，针对TD种时空切片方式，通过仿真视频传输过程得到用户观看视频时的传输流量。

最终建立的数据集包括七维数据，分别为：视频类型、视频ID、空间切块数、时间分段长度、视频大小、用户ID和用户观看视频时的传输流量。

需要说明的是，数据集可以完全自行建立，也可以在一些网络开源的数据集的基础上完善。

步骤二、针对每一类视频，利用数据集分别建模全景视频时空切片传输模式下的视频文件大小和传输切块占比，两者相乘得到传输流量统计模型；

首先，给定空间切块参数和时间分段长度，对压缩编码之后的视频文件大小进行建模：

定义

和

分别表示当空间切块参数为t、时间分段长度为d帧时I帧和P帧的平均大小，其中考虑到I帧是单帧独立压缩编码的，因此

与分段长度d无关。由于每个时间分段内包含1个I帧和d-1个P帧，因此视频的平均大小

可以表示为：

表示I-P帧平均压缩比，定义为：

根据实验经验，在时间分段长度d改变时，

基本保持不变，因此可以从

中去掉因变量d，记为

同时，

与切块数t之间近似满足线性关系，因此可以采用如下的线性模型来拟合

其中，系数p₀和p₁可以由现有的线性拟合算法得到。

将式(3)带入式(1)可得视频的平均大小为：

表示空间切块为t时的I帧平均大小。不同的切块参数t可能会导致切块内的画面内容大幅变化，使视频压缩率与切块数t之间的关系具有较强的随机性，难以刻画

与t的函数关系。为此，采用查表法对

进行建模，数值可以由数据集统计得到。

然后，对用户视域内所有切块的总大小占视频文件大小的比例进行建模；这里直接对传输比例进行拟合；η(t，d)为传输切块占比，表示传输的空间切块大小与视频文件总大小之间的平均比例，表达式如下：

其中，V是同类视频的个数，α_v，ij∈{0，1}表示视频v的第i个时间分段内第j个空间切块是否位于用户的视域内，S_v，ij表示视频v的第i个时间分段内第j个空间切块的大小，因此等号右侧分子项表示需要传输给用户的视域内所有切块的总大小，分母项表示视频文件的总大小。采用正态分布来拟合η(t，d)，即：

均值和方差为多项式拟合分别如下：

μ(t，d)≈p₂t+p3+p₄t^-1+(p₅+p₆t^-2)d+p₇t^-2 (7)

σ(t，d)＝p₈+p₉t+p₁₀d+p₁₁t²+p₁₂td (8)

其中，拟合系数p₂，...，p₁₀可以使用Matlab曲线拟合工具箱得到。

最终，视频大小乘以传输的切块大小得到传输流量模型：

进行修正；

针对新的待切分VR视频，首先找到对应类别或接近类别的传输流量模型参数；

如果待切分视频是未经压缩的原始视频，则可以直接使用已建立的同类视频模型。

如果待切分视频已经在未进行空间切块(t＝1)的情况下进行了压缩编码，则可以统计出当前视频的I-P帧压缩比，记为W，基于此，对统计模型中的I-P帧平均压缩比

进行修正，以确保当t＝1时，

等于W。

修正后的

可以表示为：

其中，Δ＝W-p₀-p₁，以保证

将式(10)代入式(1)，可得待切分视频在时空切片后的大小

步骤四、基于修正的

计算出待切分视频在时空切片后的视频大小

乘以传输的切块大小占比η(t，d)，可得用户观看该视频时需要传输的流量满足如下正态分布：

对于随机传输流量T(t，d)，其置信度为ρ∈[0，1]的上界(记为T_ρ(t，d))定义为：

P(T(t，d)≤T_ρ(t，d))＝ρ (12)

基于式(12)，可以得到T_ρ(t，d)的表达式为：

其中，φ(ρ)是标准正态分布的ρ分位点，其数值可以通过查表或数值计算等方式得到，

μ(t，d)和σ(t，d)的表达式分别由式(1)、式(7)和式(8)给出。

时空切片方式的优化目标是最小化传输流量上界T_ρ(t，d)。由于t和d均为整数变量，且取值范围一般不会太大，因此可以采用遍历的方式找到使式最小的时空切片方式。

实施例：

1)数据集建立：

a)基于开源VR用户视频数据集，选取体育类视频，共有8个视频样本，时长在120秒到180秒之间，投影方式为ERP(Equi-Rectangular Projection，圆柱型投影)。

b)使用ffmpeg的crop功能，对画面进行切分，给定分块数为t时，视频画面的横向和纵向分别被均分成t等份。给定时间分段长度为d帧时，通过指定编码器的GoP(Group ofPicture，画面组)参数为d，保证编码后的视频每个时间分段内包含d帧画面。经过mp4dash工具处理后，转换成流媒体格式进行存储，记录视频大小。

c)利用现有数据集中的头动数据，进行预处理，用于流量仿真。

d)针对不同的时空切片方式进行仿真，得到用户观看视频时的传输流量。

2)模型建立：

a)对视频大小与时空切片方式的关系进行建模；

首先从8个样本视频选取1个视频，比较式(4)中括号部分的理论计算结果和实际仿真结果，如图2所示。括号部分可以理解归一化的平均视频大小，其中归一化因子是

即当所有帧均为I帧时的视频大小。

上述结果中，I-P帧平均压缩比只能代表选取的1个样本视频的变化规律，并不能代表体育类所有视频的变化规律。进一步，对其余7个样本视频计算，得到I-P帧平均压缩比。结果如图3所示，细线为数据集中8个视频样本的I-P帧平均压缩比，粗线为8条曲线的平均值，即体育类视频的I-P帧平均压缩比；对体育类视频的I-P帧平均压缩比进行拟合，得到拟合曲线：

b)建模传输切块大小占比与时空切片方式的关系

在时间分块长度为15帧时，数据集中的传输切块大小占比与空间切块数的关系如图4所示，横坐标表示时空切片方案中的空间切块数，纵坐标表示传输比例，不同曲线代表不同的用户，不同的样本视频。

使用正态分布进行拟合，根据均值和方差表达式如下：

μ(t，d)＝0.13t-1.42+6.07t^-1+(9×10^-9+4×10^-4t^-2)d-3.79t^-2

σ(t，d)＝-0.05+0.07t-2×10^-4d-0.01t²+1×10^-4td

不同空间切块数下用户平均传输比例η(t，d)概率密度如图5所示。

3)选取一个电影类的新VR视频(后称目标视频)，对统计模型中的I-P帧平均压缩比

进行修正。

计算目标视频在分块数为1时的I-P帧平均压缩比W(1)＝4.02，由式(10)可得I-P帧平均压缩比修正参数Δ为0.51，得到修正后的I-P帧平均压缩率：

4)将修正后的I-P帧平均压缩比带入式(1)得到

的表达式，再把

和φ(ρ)代入式(12)得到优化目标函数T_ρ(t，d)的表达式。选择置信度ρ＝0.9，通过数值计算得到ρ分位点φ(ρ)＝1.28。最后，将式(10)代入式(1)得到

的表达式，再把

和φ(ρ)代入式(13)得到优化目标函数的表达式

令t＝1，...，6、d＝1，...，30，分别计算每一种t和d组合下的目标函数值。最终得到使目标函数最小的时空切片方式为t＝6、d＝29帧。

为了评估优化得到的时空切片方式与最优方式的差距，下面通过仿真得到待切分视频的最优切分方式。

具体来说，把待切分视频分别按照t＝1，...，6、d＝1，...，30的配置进行切片和压缩编码；然后，导入用户的头动数据，获得每一种切片配置下48个用户观看时的传输流量；最后，绘制48个用户的传输流量的累计分布函数曲线，找到ρ＝0.9时的分位点，即T_ρ(t，d)。通过遍历所有的t和d组合，找到使T_ρ(t，d)最小的最优时空切片方式为t＝6、d＝28帧。

图6比较了基于所建立的模型优化得到的切分方式和通过仿真实验搜索得到的最优切分方式，给出了两种方式下48个用户观看视频时归一化传输流量的累积分布函数曲线，其中归一化因子是未进行时空切片时的视频大小。结果表明，所提出的切分方式能够获得接近最优的性能。