CN113365156B

CN113365156B - 一种基于有限视场反馈的全景视频多播流的视角预测方法

Info

Publication number: CN113365156B
Application number: CN202110672362.5A
Authority: CN
Inventors: 黎洁; 韩玲; 李奇越; 张聪; 王枭; 陈勇; 彭涛; 王慧宇
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-03-11
Anticipated expiration: 2041-06-17
Also published as: CN113365156A

Abstract

本发明公开了一种基于有限视场反馈的全景视频多播流的视角预测方法，包括以下步骤：1、构建基于球面卷积的显著性检测模型，并利用显著性检测模型对全景视频提取显著性特征；2、构建基于球面卷积的记忆网络模型，并利用基于球面卷积的记忆网络模型挖掘少量用户用户视图序列的因果关联性以及特征；3、最后结合视频的时空显著性特征和少量用户视角特征进行融合，得到预测的全体用户视角。本发明考虑了全景视频的映射失真问题，并将显著性检测与少量视角结合起来得到最终预测的用户视角，从而能够实现较高的预测准确率。

Description

一种基于有限视场反馈的全景视频多播流的视角预测方法

技术领域

本发明涉及多媒体视频传输领域，具体的说是一种基于有限视场反馈的全景视频多播流的视角预测方法。

背景技术

沉浸式多媒体，包括全景视频和虚拟/增强现实(VR/AR)视频，最近随着交互式应用程序的需求上升而变得越来越流行。全景视频，借助头戴显示器(HMDs)，允许用户自由改变视野的方向，提供了一个非凡的沉浸式体验。然而，传统无线技术的带宽容量与360度视频流的带宽需求之间存在着很大的差距。由于头戴式显示设备HMD的局限性，用户只能看到整个视频的一小部分，因此选择用户感兴趣的视频区域进行传输能够节省带宽和计算资源。若像YouTube的策略一样，传输整个全景的视频内容，造成了带宽和计算资源的巨大浪费。假设用户未来的视角已知，则可以根据用户感兴趣的视频区域选择对应的视频传输，从而在视频传输中有利于带节省带宽资源，并使得用户观看的视频质量和用户体验效果更好。因此，需要预测未来的用户视角。

目前已有许多针对全景视频视角预测的研究。深圳大学的霍永凯等人发明了利用物体跟踪和历史轨迹全景视频的视角预测方法及系统(公开号：CN110248178A)，利用物体跟踪和历史轨迹全景视频的视角预测方法包括以下步骤：利用轨迹平移转换解决视角轨迹的不连续情况；利用对全景视频物体跟踪的轨迹模拟观看者兴趣坐标；构建基于深度学习的视角预测模型，预测未来帧的视角轨迹。然而，许多用户在观看全景视频时都有自己独特的探索轨迹。因此，使用根据用户历史轨迹来预测未来的视角利用单一模型来预测所有用户的移动是不准确的。

叠境数字科技(上海)有限公司的高盛华等人发明了一种全景视频中用户凝视点的预测方法(公开号：CN108462868A)，包括：获取过往用户观看特定视频时，视频帧和凝视点位置的样本集；建立人工神经网路，包括轨迹编码模块、显著性编码模块以及差值预测模块；将样本集输入人工神经网路中进行训练，使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。但是此方法没有考虑到全景视频的映射失真问题，不能提高预测的准确性。

上海交通大学的宋利等人发明了一种多重CNN网络预测全景视频观看位置的方法(公开号：CN110166850A)，该方法包括：基于前一段时间的观看轨迹，运用神经网络方法预测出下一时刻的观看点；将全景视频帧映射成多个方向上的小视频帧，每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图，将显著图合并成整个的视频帧的显著图，再将整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图；由于在观看全景视频时，视频上面和下面的区域关注比较少，较多关注的是中间区域，而每个区域都会有自己的显著图，所以将全景视频帧进行映射，得到上下前后左右6个方向上的映射图，并将这6幅映射图分别通过第一个CNN网络得到6幅相应的显著图，然后将这6幅显著图反映射成一整幅整个的视频帧的显著图，该显著图为灰度图；将预测的所述观看点和全景视频帧显著图输入到全连接网络，得到最终的预测点即全景视频观看位置点。虽然此方法考虑了全景视频的映射失真问题，并且通过立方体映射尽可能的降低失真的问题，但是，还引入了补丁边界的额外不连续性，并且可能需要进行后处理以结合每个补丁的单独输出，不能提高预测的准确性。

发明内容

本发明是为避免上述现有技术所存在的不足之处，提供一种基于有限视场反馈的全景视频多播流的视角预测方法，以期将显著性检测与少量视角结合起来得到最终预测的用户视角，从而克服全景视频的映射失真问题，并提高显著性检测模型的准确性和提高视角预测准确率。

本发明为解决技术问题采用如下技术方案：

本发明一种基于有限视场反馈的全景视频多播流的视角预测方法的特点是应用于多播网络场景中，所述多播网络场景中包含全景视频服务器和N个客户端；所述全景视频服务器和客户端之间的上行链路中包含有从客户端到全景视频服务器的反馈信道；所述反馈信道用于将用户的实时视角信息反馈给全景视频服务器，并由所述服务器进行视角预测；所述全景视频多播流的视角预测方法是按如下步骤进行：

步骤一、构建基于球面卷积的显著性检测模型，所述显著性检测模型包括：显著性特征提取模块M_ST-SPCNN和基于球面卷积注意力模块M_SP-CBAM；

所述显著性特征提取模块M_ST-SPCNN包括：空间特征提取单元M_S-SPCNN和时间特征提取单元M_T-SPCNN；所述空间特征提取单元M_S-SPCNN以视频中t时刻的单帧全景图像χ_t为输入，并提取单帧图像χ_t中的空间尺度特征F_t ^S；

所述时间特征提取单元M_T-SPCNN以连续t时刻到t+τ时刻的多帧图像(χ_t,χ_t+1,...,χ_t+τ)为输入，并提取多帧图像间的时间尺度特征F_t ^T；将t时刻的空间尺度特征F_t ^S和时间尺度特征F_t ^T按通道串联后，得到t时刻的时空特征F_t ^ST；

将t时刻的时空特征F_t ^ST输入到所述球面卷积注意力模块M_SP-CBAM中并输出最终的时空特征F_t′，将时空特征F_t′映射为t时刻的显著性特征图P_t ^s；1≤t≤t+τ≤tmax，tmax表示全景视频的时长；

步骤二、根据N个用户通过反馈信道反馈的{t-k,...,t-2,t-1}时刻的历史视角信息，从中随机选择R个用户在{t-k,...,t-2,t-1}时刻的历史视角信息；

根据所选择的每个用户在{t-k,...,t-2,t-1}的历史视角信息，利用高斯分布生成每个用户在{t-k,…,t-2,t-1}时刻的历史视图序列，记为

其中，

表示第r个用户反馈的{t-k,...,t-2,t-1}时刻的历史视图序列，

表示第r个用户反馈的t-k时刻的历史用户视图，1≤r≤R≤N；

将R个用户在{t-k,...,t-2,t-1}时刻的历史用户视图序列相加，得到用户视图序列，记为(X_t-k,...,X_t-2,X_t-1)；其中，X_t-k表示R个用户在t-k时刻的视图序列；

步骤三、构建视角预测模块，所述视角预测模块包含基于球面卷积的双层记忆网络模型，M_2SP-ConvGRU；所述双层记忆网络模型M_2SP-ConvGRU是由两层基于球面卷积的记忆单元M_SP-ConvGRU构成，所述记忆单元M_SP-ConvGRU是在GRU模型其输入到状态转换以及状态到状态转换中，用球面卷积代替元素级的乘法；

将用户视图序列(X_t-k,...,X_t-2,X_t-1)作为双层记忆网络模块M_2SP-ConvGRU的输入，并进行特征挖掘和提取后，输出双层记忆网络模块M_2SP-ConvGRU中第二层t时刻的隐藏层特征，并作为t时刻的视角特征后映射为用户特征图P_t ^v；

步骤四、将显著性特征图P_t ^s和用户特征图P_t ^v进行融合，得到t时刻预测的全体用户视角P_t。

本发明所述的基于有限视场反馈的全景视频多播流的视角预测方法的特点也在于，所述步骤一中的空间特征提取单元M_S-SPCNN，包括：空间压缩路径和空间扩张路径；

所述空间压缩路径包括i层结构，记为

其中，第1层到第i-1层

中的每一层均依次由球面卷积层M_SPCNN、ReLU层、BN层和最大池化层构成，第i层

中依次有球面卷积层M_SPCNN、ReLU层和BN层；

所述空间扩张路径包括j层结构，记为

第1层到第j层

中的每一层均依次由第一上采样层、球面卷积层M′_SPCNN、ReLU层和BN层构成；

将视频中t时刻的单帧全景图像χ_t输入到空间特征提取单元M_S-SPCNN中经过所述空间压缩路径后，由第i层

输出的特征再经过空间扩张路径后，由第j层

输出空间特征F_t ^S。

所述步骤一中的时间特征提取单元M_T-SPCNN，包括：时间压缩路径和时间扩张路径；

所述时间压缩路径包括m层结构，记为

其中，第1层到第m层

中每一层均依次由球面卷积层M″_SPCNN，ReLU层和BN层构成；

所述时间扩张路径包括j层结构，记为

第1层到第1到j层

中每一层均依次由第二上采样层，球面卷积层M″′_SPCNN，ReLU层和BN层构成；

将连续t时刻到t+τ时刻的多帧图像(χ_t,χ_t+1,...,χ_t+τ)输入到所述时间特征提取单元M_T-SPCNN，经过所述时间压缩路径后，由第m层

输出的特征再经过时间扩张路径后，由第j层

输出时间特征F_t ^T。

所述步骤四是按如下过程进行：

步骤4.1、将显著性特征图P_t ^s分割成Γ×Ψ个像素块，记为

表示显著性特征图

中第i个像素块，

表示第i个像素块的最大像素值，1≤i≤Γ×Ψ；

步骤4.2、将视角特征图P_t ^v也分割成Γ×Ψ个像素块，记为{V_t ¹,V_t ²,...,V_t ⁱ,...,V_t ^Γ×Ψ}，V_t ⁱ表示视角特征图P_t ^v中第i个像素块，max{V_t ⁱ}表示第i个像素块的最大像素值；

步骤4.3、利用式(1)得到构造显著性特征图P_t ^s的权重

步骤4.4、利用式(2)得到视角特征图P_t ^v的权重

且

步骤4.5、利用式(3)构建t时刻预测的全体用户视角P_t；

与现有技术相比，本发明的有益效果体现在：

1.本发明方法考虑了全景视频失真的影响，并利用球面卷积消除了视频失真的影响，从而提高了多用户视角预测的准确率。

2.本发明将显著性检测与反馈的少量的用户历史视角相结合，提出了一种以显著性检测为主，少量视角信息为辅的视角预测方法，从而提高了多用户视角预测的准确率。

附图说明

图1为本发明中所提出的基于有限视场反馈的全景视频多播流的视角预测方法的应用场景图；

图2为本发明中所提出的基于有限视场反馈的全景视频多播流的视角预测方法中显著性检测模型的系统结构图；

图3为本发明中所提出的基于有限视场反馈的全景视频多播流的视角预测方法中视角预测模块的系统结构图。

具体实施方式

本实施例中，一种基于有限视角反馈的全景视频多播流的视角预测方法，如图1所示，是应用于多播网络场景中，该多播网络场景中存在着全景视频服务器和N个客户端；全景视频服务器和客户端之间的上行链路中包含有从用户端到全景视频服务器的反馈信道；反馈信道用于把用户的实时视角信息反馈给全景视频服务器，帮助服务器进行视角预测工作。如图2所示，基于有限视场反馈的全景视频多播流的视角预测方法中显著性检测模型具体包括以下步骤：

步骤1、构建基于球面卷积的显著性检测模型，显著性检测模型包括：显著性特征提取模块M_ST-SPCNN和基于球面卷积注意力模块M_SP-CBAM；

显著性特征提取模块M_ST-SPCNN包括：空间特征提取单元M_S-SPCNN和时间特征提取单元M_T-SPCNN；空间特征提取单元M_S-SPCNN以视频中t时刻的单帧全景图像χ_t为输入，并提取单帧图像χ_t中的空间尺度特征F_t ^S；

时间特征提取单元M_T-SPCNN以连续t时刻到t+τ时刻的多帧图像(χ_t,χ_t+1,...,χ_t+τ)为输入，并提取多帧图像间的时间尺度特征F_t ^T；从而利用式(1)将t时刻的空间尺度特征F_t ^S和时间尺度特征F_t ^T按通道串联后，得到t时刻的时空特征F_t ^ST；

F_t ^ST＝(F_t ^S；F_t ^T) (1)

将t时刻的时空特征F_t ^ST输入到球面卷积注意力模块M_SP-CBAM中，利用式(2)输出最终的时空特征F_t′，将时空特征F_t′映射为t时刻的显著性特征图P_t ^s；1≤t≤t+τ≤tmax，tmax表示全景视频的时长；

F_t'＝(M_SP-CBAM(M_SPCNN(F_t ^ST))；F_t ^ST) (2)

具体实施中，该空间特征提取单元M_S-SPCNN，其结构与Unet类似，包括：空间压缩路径和空间扩张路径；

空间压缩路径包括i层结构，记为

其中，第1层到第i-1层

中依次有球面卷积层M_SPCNN、ReLU层和BN层；

空间扩张路径包括j层结构，记为

第1层到第j层

将视频中t时刻的单帧全景图像χ_t输入到空间特征提取单元M_S-SPCNN中经过空间压缩路径后，由第i层

输出的特征再经过空间扩张路径后，由第j层

输出空间特征F_t ^S。

该构造时间特征提取单元M_T-SPCNN，其结构采用与Flownet类似的结构，包括：时间压缩路径和时间扩张路径；

时间压缩路径包括m层结构，记为

其中，第1层到第m层

中每一层均依次由球面卷积层M″_SPCNN，ReLU层和BN层构成；

时间扩张路径包括j层结构，记为

第1层到第1到j层

将连续t时刻到t+τ时刻的多帧图像(χ_t,χ_t+1,...,χ_t+τ)输入到M_T-SPCNN，经过述时间压缩路径后，由第m层

输出的特征再经过时间扩张路径后，由第j层

输出时间特征F_t ^T。

步骤2、根据N个用户通过反馈信道反馈的{t-k,...,t-2,t-1}时刻的历史视角信息，从中随机选择R个用户在{t-k,...,t-2,t-1}时刻的历史视角信息；

根据所选择的每个用户在{t-k,…,t-2,t-1}的历史视角信息，利用高斯分布生成每个用户在{t-k,…,t-2,t-1}时刻的历史视图序列，记为

其中，

表示第r个用户反馈的{t-k,…,t-2,t-1}时刻的历史视图序列，

表示第r个用户反馈的t-k时刻的历史用户视图，1≤r≤R≤N；

将R个用户在{t-k,…,t-2,t-1}时刻的历史用户视图序列相加，得到用户视图序列，记为(X_t-k,…,X_t-2,X_t-1)；其中，

表示R个用户在t-k时刻的视图序列；

步骤2.1、将R个用户用户视图序列相加，记为(X_t-k,...,X_t-2,X_t-1)，并有：

步骤3、如图3所示，构建视角预测模块，该视角预测模块包含基于球面卷积的双层记忆网络模型，记为M_2SP-ConvGRU；M_2SP-ConvGRU是由两层基于球面卷积的记忆单元M_SP-ConvGRU构成，且基于球面卷积的记忆单元M_SP-ConvGRU是通过传统的GRU模型拓展而来,在传统的GRU模型的输入到状态转换和状态到状态转换中，用球面卷积代替了元素级的乘法；

将用户视图序列(X_t-k,…,X_t-2,X_t-1)作为双层记忆网络模块M_2SP-ConvGRU的输入，并利用式(4)将进行特征挖掘和提取后，将双层记忆网络模块M_2SP-ConvGRU中第二层t时刻的隐藏层特征作为t时刻的视角特征F_t ^V并映射为用户特征图P_t ^v；

步骤4、将显著性特征图P_t ^s和用户特征图P_t ^v进行融合，得到t时刻预测的全体用户视角P_t；

步骤4.1、将显著性特征图P_t ^s分割成Γ×Ψ个像素块，记为

表示显著性特征图P_t ^s中第i个像素块，

表示第i个像素块的最大像素值，1≤i≤Γ×Ψ；

步骤4.2、将视角特征图P_t ^v也分割成Γ×Ψ个像素块，记为

V_t ⁱ表示视角特征图P_t ^v中第i个像素块，max{V_t ⁱ}表示第i个像素块的最大像素值；

步骤4.3、利用式(5)得到构造显著性特征图P_t ^s的权重

步骤4.4、利用式(6)得到视角特征图P_t ^v的权重

且

步骤4.5、利用式(7)构建t时刻预测的全体用户视角P_t；

综上所述，本方法考虑了全景视频的映射失真问题，利用球面卷积消除了全景视频的映射失真问题所带来的影响，并将显著性检测与少量视角结合起来得到最终预测的用户视角，且显著性检测模型中结合空间特征和时间特征以及利用球面卷积注意力模块加强时空特征，因而能够实现较高的预测准确率。

Claims

1.一种基于有限视场反馈的全景视频多播流的视角预测方法，其特征是应用于多播网络场景中，所述多播网络场景中包含全景视频服务器和N个客户端；所述全景视频服务器和客户端之间的上行链路中包含有从客户端到全景视频服务器的反馈信道；所述反馈信道用于将用户的实时视角信息反馈给全景视频服务器，并由所述服务器进行视角预测；所述全景视频多播流的视角预测方法是按如下步骤进行：