CN108462868A

CN108462868A - 360度全景vr视频中用户凝视点的预测方法

Info

Publication number: CN108462868A
Application number: CN201810144688.9A
Authority: CN
Inventors: 高盛华; 虞晶怡
Original assignee: Plex VR Digital Technology Shanghai Co Ltd
Current assignee: Plex VR Digital Technology Shanghai Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-28

Abstract

本发明涉及360度全景VR视频中用户凝视点的预测方法，包括：获取过往用户观看特定视频时，视频帧和凝视点位置的样本集；建立人工神经网路，包括轨迹编码模块、显著性编码模块以及差值预测模块；将样本集输入人工神经网路中进行训练，使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。本发明主动探索360度空间环境，利用过去的凝视点轨迹来预测未来用户可能的凝视点,误差值较小，利于视频制作者更加充分地利用凝视点。

Description

360度全景VR视频中用户凝视点的预测方法

技术领域

本发明涉及一种虚拟现实(VR)技术领域，具体地说是一种360度全景VR视频中用户凝视点的预测方法。

背景技术

目前360度全景VR视频已经引起人们广泛的关注和兴趣，YouTube以及Face book已经提供众多高质量的360度视频。

针对360度全景VR视频，我们提出凝视点预测的任务，这个任务即依据过往用户观看的凝视点信息，预测接下来用户凝视点的位置。凝视点预测的任务有着广泛的应用。比如，如果知道用户接下来会注意什么地方，可以在那里植入广告或者一些其他信息；另外，游戏的关卡难度设计上可以更加灵活，如果要降低难度我们可以在玩家接下来的凝视点上放置一些奖励等，如果提高难度可以在凝视点的相反方向放置奖励或者在凝视点上放置一些障碍。

作为现有技术，中国专利CN201110220523.3号公开了一种具学习力的视觉注意预测方法，步骤包含：侦测多个训练影片中的每一训练信息框所被注意的多个注视点；收集所述注视点来对每一所述训练信息框产生一注视图；将每一所述注视图转成一注视密度图，其中该注视密度图表示每一训练信息框会被注意的位置或区域；

基于该至少一特征资讯从所述训练影片的每一所述训练信息框产生至少一训练特征图；及根据所述注视密度图以及该训练特征图来学习该相互关系；接收一具有多个测试信息框的一测试影片；

基于该至少一特征资讯从每一所述测试信息框产生至少一测试特征图；及根据该相互关系将该测试特征图对应出一显著图，用来表示所对应的该测试信息框的注视强度。

此外，还包括对应的具学习力的视觉注意预测系统。该发明先于训练阶段获得训练影片的注视密度和特征资讯之间的相互关系，再于测试阶段使用相互关系训练回归模型，基于机器自学来进行视觉注意预测，以能学习特征和视觉注意的关系，进而避免所预测的显著图和实际人们注视位置之间在视觉上无法配对的问题。

发明内容

本发明为解决现有的问题，旨在提供一种360度全景VR视频中用户凝视点的预测方法。

为了达到上述目的，本发明采用的技术方案包括如下步骤：

步骤一，获取过往用户观看特定视频时，视频帧和凝视点位置的样本集；

步骤二，建立人工神经网路，包括轨迹编码模块、显著性编码模块以及差值预测模块；

步骤三，将所述样本集输入所述人工神经网路中进行训练，使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。

其中，所述轨迹编码模块为递归神经网络，输入用户1到t时刻的凝视点位置L_1:t，输出是递归神经网络的特征所述其中l_t＝(x_t,y_t)，x_t和y_t分别是经纬度坐标，取值范围是x_t∈[0,360]，y_t∈[-90,90]。

其中，所述显著性编码模块为卷积神经网络，输入是第t和t+1时刻的图像V_t:t+1，输出是卷积神经网络的特征

其中，差值预测模块为多层感知器网络，输入是所述和输出是用户t和t+1时刻凝视点差值δl_t+1。

其中，所述递归神经网络包含两层隐藏层，每层隐藏层128个节点。

其中，所述显著性编码模块由V_t:t+1生成八种特征作为所述卷积神经网络的输入，包括：t+1时刻的全局图像，t+1时刻全局图像的显著性图，t+1时刻全局图像的光流图，t+1时刻的观测图像，t+1时刻的观测图像的显著性图，t+1时刻的观测图像的光流图，t+1时刻的局部图像，t+1时刻的局部图像的光流图。

其中，所述卷积神经网络采用Inception-ResNet-V2的网络结构。

其中，所述卷积神经网络采用损失函数预测凝视点位置和用户实际凝视点位置的欧氏距离L(Θ)：

其中obs是观测的时长，T是预测的时长。

和现有技术相比，本发明主动探索360度空间环境，利用过去的凝视点轨迹来预测未来用户可能的凝视点；且本发明的基于卷积神经网络和递归神经网络的凝视点预测算法取得最好的效果，误差值较小，利于视频制作者更加充分地利用凝视点。

附图说明

图1为卷积神经网络、递归神经网络的结构图；

图2为本发明实施例的效果对比图。

具体实施方式

现结合附图对本发明作进一步地说明。

参见图2，图2展示的是本发明的一个实施例的效果对比图，假设给定360度VR视频一系列视频帧(图2中给出了2组各含4帧)，V_1:t＝{v₁,v₂,...,v_t}，以及第p个用户观看这个视频时凝视点的位置其中l_t＝(x_t,y_t)，x_t和y_t分别是经纬度坐标，取值范围是x_t∈[0,360]，y_t∈[-90,90]，t∈[1，4]且为正整数。本实施例首先将上述视频帧和凝视点位置收集并作为样本集。参见图1，然后建立人工神经网路。所述建立人工神经网路为卷积神经网络和递归神经网络，包括轨迹编码模块、显著性编码模块以及差值预测模块。

其中，轨迹编码模块采用递归神经网络，其输入是用户1到t时刻的凝视点位置L_1:t，输出是递归神经网络的特征

作为优选，所述递归神经网络包含两层隐藏层，每层隐藏层128个节点。

其中，显著性编码模块采用Inception-ResNet-V2的网络结构，输入是第t和t+1时刻的图像V_t:t+1，所述显著性编码模块由V_t:t+1生成八种特征作为所述卷积神经网络的输入，分别包括：t+1时刻的全局图像，t+1时刻全局图像的显著性图，t+1时刻全局图像的光流图，t+1时刻的观测图像，t+1时刻的观测图像的显著性图，t+1时刻的观测图像的光流图，t+1时刻的局部图像，t+1时刻的局部图像的光流图，输出是卷积神经网络的特征

其中，差值预测模块采用多层感知器网络，输入是上述轨迹编码模块的输出和显著性编码模块的输出输出是用户t和t+1时刻凝视点差值δl_t+1，作为优选所述多层感知器网络包含两层全连接层。

进一步地，所述卷积神经网络的损失函数用于预测凝视点位置和用户实际凝视点位置的欧氏距离L(Θ)：

其中obs是观测的时长，T是预测的时长；其中δl_t+1＝F(V_t:t+1，L_1：t；Θ)。根据实际的用户凝视点位置算出输入图片的损失：L(Θ)，然后在每一次优化迭代中更新整个网络的参数Θ，直到损失值收敛到一个较小的值。作为优选，本实施例采用随机梯度下降法在每一次优化迭代中更新整个网络的参数Θ。

上述各网络的计算，由于本实施例选用了较为成熟的标准化网络，因而本领域技术人员基于上述描述，已然能够将其付诸实施；计算过程由于涉及复杂矩阵，展开较为繁琐，因此不予赘述。

本实施例采用平均角度差值作为评价指标，本发明方法与其他基本方法的对比如下：

可见本实施例的角度误差值为最小。

上面结合附图及实施例描述了本发明的实施方式，实施例给出的结构并不构成对本发明的限制，本领域内熟练的技术人员可依据需要做出调整，在所附权利要求的范围内做出各种变形或修改均在保护范围内。

Claims

1.一种360度全景VR视频中用户凝视点的预测方法，其特征在于包括如下步骤：

2.根据权利要求1所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：所述轨迹编码模块为递归神经网络，输入用户1到t时刻的凝视点位置L_1:t，输出是递归神经网络的特征所述其中l_t＝(x_t,y_t)，x_t和y_t分别是经纬度坐标，取值范围是x_t∈[0,360]，y_t∈[-90,90]。

3.根据权利要求2所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：所述显著性编码模块为卷积神经网络，输入是第t和t+1时刻的图像V_t:t+1，输出是卷积神经网络的特征

4.根据权利要求3所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：差值预测模块为多层感知器网络，输入是所述和输出是用户t和t+1时刻凝视点差值δl_t+1。

5.根据权利要求2、3或4所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：所述递归神经网络包含两层隐藏层，每层隐藏层128个节点。

6.根据权利要求4或3所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：所述显著性编码模块由V_t:t+1生成八种特征作为所述卷积神经网络的输入，包括：t+1时刻的全局图像，t+1时刻全局图像的显著性图，t+1时刻全局图像的光流图，t+1时刻的观测图像，t+1时刻的观测图像的显著性图，t+1时刻的观测图像的光流图，t+1时刻的局部图像，t+1时刻的局部图像的光流图。

7.根据权利要求6所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：所述卷积神经网络采用Inception-ResNet-V2的网络结构。

8.根据权利要求3或4所述的360度全景VR视频中用户凝视点的预测方法，其特征在于：所述卷积神经网络采用损失函数预测凝视点位置和用户实际凝视点位置的欧氏距离L(Θ)：

其中obs是观测的时长，T是预测的时长。