CN108492322A

CN108492322A - 一种基于深度学习预测用户视场的方法

Info

Publication number: CN108492322A
Application number: CN201810300362.0A
Authority: CN
Inventors: 蒲志远; 沈秋; 郭佩瑶; 马展
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-04
Anticipated expiration: 2038-04-04
Also published as: CN108492322B

Abstract

本发明公开了一种基于深度学习预测用户视场的方法。步骤为：(1)将全景视频从球面映射到球内接立方体的6个面上，得到6个面对应的视频，分别生成视频的动态特征和显著度序列图，并进行分块和编号；(2)根据动态特征判断视频内容视点切换剧烈程度w；(3)用头盔记录用户的头部转向并对其进行处理；(4)通过w值的大小选择预测网络，用网络预测得到用户后n帧视频帧的视场，处理可得到与视场重合的视频块编号；(5)渲染和传输预测得到的视频块，重复步骤直到预测的为最后n帧。本发明的方法减小了全景图畸变对于输入的视频特征的影响，同时加入了视频信息的预判分级，能以较高的准确度预测用户在VR HMD中观看视频时的视场。

Description

一种基于深度学习预测用户视场的方法

技术领域

本发明涉及计算机视觉和深度学习领域，特别涉及一种基于深度学习预测用户视场的方法。

背景技术

目前VR产业已经出现了很多创新的应用，VR也在逐渐向手机等移动端进军，但VR流畅播放所要求的高带宽和低延迟等问题一直没有被解决。人体知觉要求视觉的平稳准确移动，因此不流畅的播放和较高的延时可能导致VR用户出现恶心、头晕等症状，严重地影响了用户的沉浸式体验。在VR视频渲染传输的过程中加入视场预测可以减少传输的数据量，从而减少了渲染和传输的时间，可有效地减小传输延迟。

LSTM(Long Short Term Memory)网络是循环神经网络(RNN)的一种特殊类型，它可以解决传统神经网络无记忆的问题，学习到长期依赖信息，它在内部保留了对输入信息的记忆，可以更好的执行分类任务，在视频信息的处理和预测问题上有很大的优势。

光流和显著度包括了视频中的重要特征，这些特征对用户在HMD中的观看行为有较大的影响。当视频内容视点切换剧烈时，视频的动态性和显著度特征共同影响用户的行为，预测用户视场需要更多视频信息；当视频内容视点切换较缓慢时，视频的显著度特征对用户的行为起主导作用，较少的视频特征即可预测用户视场。此外，等角映射等使全景图中物体的畸变非常明显，因此也影响了得到的视频特征的准确性，这对于视场预测是一个尴尬的问题。

发明内容

鉴于以上情况，本发明结合深度学习中的神经网络和一些计算机视觉算法，提出了基于深度学习预测VR HMD(Head Mount Display)中用户视场的方法。

本发明采用的技术方案为：

一种基于深度学习预测用户视场的方法，包括如下步骤：

S1，将全景视频从球面映射到球内接立方体的6个面上，从二维全景图得到所述6个面对应的视频；分别生成所述6个面对应的视频的动态特征序列图和显著度序列图，并对生成的动态特征序列图和显著度序列图进行分块和编号；

S2，根据全景视频的动态特征对视频信息进行判别，判断视频内容视点切换剧烈程度w；

S3，利用VR头盔记录用户观看全景视频时的头部转向，对数据进行校准后处理，使每个视频帧对应一组头动数据，并计算得到转头角速度；

S4，用户在VR HMD中的视场建模为一个球面上的圆，圆心由用户头的转向确定；通过w值的大小选择预测网络，以用户已浏览过的m帧全景视频帧的显著度视频帧、动态视频帧和头动数据作为输入，用神经网络预测得到用户看到后n帧视频帧每个视频块的概率，经处理后可得到与视场重合的视频块编号；

S5，得到预测结果后，渲染和传输预测得到的编号对应的视频块，同时进行下一次的预测与渲染准备，再重复步骤S3-S5，直到预测的帧为视频的最后n帧。

所述步骤S1中，生成动态特征序列图时先用光流算法分别生成所述6个面对应的视频的动态特征序列图，再利用立方体到二维平面的坐标转换关系合成全景动态特征序列图。

所述步骤S2的具体过程为：首先，记光流矢量的数目为s，光流矢量的平均长度为l，视点切换剧烈程度w＝f(s,l)，根据步骤S1中得到的全景动态特征序列图可计算得w值；然后，对视频内容视点切换剧烈程度进行判断，根据实验结果设置阈值t，由w值的大小将全景视频分为a、b两级，其中a级为视频内容视点切换剧烈，b级为视频内容视点切换较缓慢。

所述步骤S4中，通过w值的大小选择预测网络,若w>t，则为a级视频，视频内容视点切换剧烈，视频的动态性和显著度特征共同影响用户的行为，需要较多帧视频帧的信息来预测用户视场，选取m取较大值的预测网络；若w<t，则为b级视频，视频内容视点切换较缓慢，视频的显著度特征此时起主导作用，较少帧的信息即可预测用户视场，选取m取较小值的预测网络。

目前的VR 360°视频服务还处于早期发展阶段，使用有限的技术进行传输，进行运动预测来预知用户所需的新视场，可以在低带宽成本下减小传输延时，在带宽有限的条件下对改善VR体验有很大帮助。本发明利用LSTM的记忆性和视频特征的特点，提出的用户视场预测方法减小了全景图畸变对于输入的视频特征的影响，同时加入了对视频信息的预判分级，可以以较高的准确度预测用户在VR HMD中观看视频时的视场。

附图说明

图1为本发明基于深度学习的视场预测方法的流程图；

图2为本发明基于深度学习的视场预测方法的系统图；

图3为本发明球面内接立方体拆分示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方法做进一步地详细描述。

本实施例的一种基于深度学习预测用户视场的方法，步骤如下：

(1)将全景视频从球面映射到球内接立方体的6个面上，从2D全景视频得到立方体6个面对应的视频。对立方体的面从1到6进行编号，并按照1-6的编号顺序展开(见附图3)。

(2)用光流算法分别生成立方体6个面对应视频的动态特征序列图，再利用立方体到2D平面的坐标转换关系和其编号顺序合成全景动态特征序列图。

(3)用传统显著度方法生成6个面对应视频的显著度序列图，再将各个面对应的显著度图和面的编号(1-6的数字，代表了面的位置信息)输入整合网络，整合网络的输出为合成的全景显著度序列图。

(4)将生成的显著度与动态特征序列图的宽、高分别均分为A、B份，将视频进行裁剪得到无交叠的A×B个序列图块，从左上角到右下角分别编号为1，2，……，A×B。

(5)由步骤(2)得到的全景动态特征序列图，计算得到视频内容视点切换剧烈程度w的值。

(6)用户在VR HMD中进行观看，头部自由转动，VRHMD记录用户观看视频时的头部转向，同时可计算得到相邻帧间用户的转头角速度，合成每一帧的头动数据。

(7)比较w值与阈值t的大小，选择相应的预测网络。当用户观看m帧视频帧后，将这m帧已浏览的视频帧对应的显著性图、动态特征图和头动数据合成一个向量输入视场预测网络，预测网络输出用户看到每一个视频块的概率(第i帧预测得到的概率记为P(i)，概率范围为[0,1])，概率大于0.5的视频块记录为与视场重合，即用户后n帧可能看到的视频块。

(8)将预测得到的视频块编号传给视频渲染端，接收到信息后渲染并传输这些视频块，同时进行下一次的预测与渲染准备。

(9)重复步骤(6)至(8)，直到预测的帧为视频最后n帧。当用户开始观看下一个视频时，进行新一轮的预测。

所述步骤(2)中，将光流算法分别应用于球面映射得到的立方体面对应的视频帧上，得到6个面对应的动态性特征序列图，再利用立方体到球面和球面到2D平面的坐标转换关系得到全景动态性特征序列图。此过程需要注意立方体面的位置，不同位置面的转换关系不同。球面上的全景视频映射到立方体面后，相对于球面映射到平面，会大大减小图像中尤其是两极区域的畸变，因此特征检测得到的角点会更加准确，得到的光流也更能反映用户视场中的物体运动情况。

所述步骤(5)中，根据视频的动态特征，即光流矢量的数目和长度，对视频信息进行判别，判断视频内容视点切换剧烈程度w。记视频帧中光流矢量的数目为s，光流矢量的平均长度为l，w＝f(s,l)，根据步骤(2)中得到的视频光流图可计算得w值。比较w值与阈值t(由预先做的主观实验结果得到阈值t)的大小，将视频分为a、b两级，其中，a级代表视频内容视点切换剧烈，b级代表视频内容视点切换较缓慢。

所述步骤(7)中，通过w值的大小选择预测网络(不同m值),若w>t，则为a级视频，视频内容视点切换剧烈，视频的动态性和显著度特征共同影响用户的行为，需要较多帧视频帧的信息来预测用户视场，选取m取较大值(如m＝n＝30)的预测网络；若w<t，则为b级视频，视频内容视点切换较缓慢，视频的显著度特征此时起主导作用，较少帧的信息即可预测用户视场，选取m取较小值(如m＝15，n＝30)的预测网络。

以上所述仅为本发明可能的实施例之一，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改，等同替换等，均应包含在本发明的保护范围之中。

Claims

1.一种基于深度学习预测用户视场的方法，其特征在于，包括如下步骤：

S3，利用VR头盔记录用户观看全景视频时的头部转向，处理数据使每个视频帧对应一组头动数据，并计算得到转头角速度；

S4，通过w值的大小选择预测网络，以用户已浏览过的m帧全景视频帧的显著度视频帧、动态视频帧和头动数据作为输入，用神经网络预测得到用户看到后n帧视频帧每个视频块的概率，经处理后可得到与视场重合的视频块编号；

2.根据权利要求1所述的一种基于深度学习预测用户视场的方法，其特征在于，所述步骤S1中生成动态特征序列图时，先用光流算法分别生成所述6个面对应的视频的动态特征序列图，再利用立方体到二维平面的坐标转换关系合成全景动态特征序列图。

3.根据权利要求2所述的一种基于深度学习预测用户视场的方法，其特征在于，所述步骤S2的具体过程为：

首先，记光流矢量的数目为s，光流矢量的平均长度为l，视点切换剧烈程度w＝f(s,l)，根据步骤S1中得到的全景动态特征序列图可计算得w值；然后，对视频内容视点切换剧烈程度进行判断，根据实验结果设置阈值t，由w值的大小将全景视频分为a、b两级，其中a级为视频内容视点切换剧烈，b级为视频内容视点切换较缓慢。

4.根据权利要求3所述的一种基于深度学习预测用户视场的方法，其特征在于，所述步骤S4中，通过w值的大小选择预测网络，若w>t，则为a级视频，视频内容视点切换剧烈，视频的动态性和显著度特征共同影响用户的行为，需要较多帧视频帧的信息来预测用户视场，选取m取较大值的预测网络；若w<t，则为b级视频，视频内容视点切换较缓慢，视频的显著度特征此时起主导作用，较少帧的信息即可预测用户视场，选取m取较小值的预测网络。