CN108259893A

CN108259893A - 基于双流卷积神经网络的虚拟现实视频质量评价方法

Info

Publication number: CN108259893A
Application number: CN201810240679.XA
Authority: CN
Inventors: 杨嘉琛; 刘天麟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-07-06
Anticipated expiration: 2038-03-22
Also published as: CN108259893B

Abstract

本发明涉及一种基于双流卷积神经网络的虚拟现实视频质量评价方法，包括：视频预处理：利用VR视频的左视图视频与右视图视频得到VR差分视频，对不同位置的视频帧进行空间上的压缩，从压缩后的差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个VR视频补丁，以产生足够多的数据用于卷积神经网络的训练，与此同时对每个VR视频提取光流；建立两个配置一样的卷积神经网络模型；分别以VR视频补丁和光流为输入；得到最终客观评价分数：将视频补丁与光流两个通路得到的分数平均求和，即得到最终的客观质量评价分数。本发明提高了客观评价方法准确率。

Description

基于双流卷积神经网络的虚拟现实视频质量评价方法

技术领域

本发明属视频处理领域，涉及虚拟现实视频质量评价方法。

背景技术

作为一个新的仿真与交互技术——虚拟现实(VR)技术在许多领域如建筑、游戏与军事中使用，它可以创建一个与现实世界的规则一致的虚拟环境，或者建立一个完全脱离现实的模拟环境，这会带给人们更加真实的视听感受和临场体验[1]。作为虚拟现实的重要载体， VR视频，又称全景立体视频，发挥着巨大的作用。然而，VR视频在采集、储存和传输的过程中由于设备和处理手段等原因，不可避免的会引入一些失真，进而影响VR视频的质量。因此，研究一种能有效评价虚拟现实视频质量的评价方法至关重要。但是主观评价方法易受多种因素的干扰，且费时费力，评价结果也不够稳定。相对主观评价，客观评价以软件的方式评价图像的质量，同时不需参与者和大量的主观试验，操作简单，且与主观评价高度相关，越来越受到相关研究者的关注。

由于虚拟现实技术在近些年刚刚兴起，目前还没有针对VR视频规范标准与客观评价体系[2]。VR视频具有真实感，沉浸感，立体感等特性[3]，在传统多媒体类型中立体视频与 VR视频的特点最接近，因此，对VR视频进行评价需要参考当前立体视频质量评价的思想。当前立体视频的客观评价方法主要有三类，第一类是基于人眼视觉系统(HVS)的评价方法。第二类是基于图像特征并结合机器学习的评价方法。第三类是利用深度学习的评价方法。上述方法都对VR视频客观评价具有良好的借鉴意义。

[1]Minderer M,Harvey C D,Donato F,et al.Neuroscience:Virtual realityexplored.[J]. Nature,2016,533(7603):324.

[2]X.Ge,L.Pan,Q.Li.Multi-Path Cooperative Communications Networks forAugmented and Virtual Reality Transmission.IEEE Transactions on Multimedia,vol.19,no.10,pp.2345-2358, 2017.

[3]Hosseini M,Swaminathan V.Adaptive 360VR Video Streaming:Divide andConquer[C]//IEEE International Symposium on Multimedia.IEEE,2017:107-110.

发明内容

本发明的目的在于建立一个充分考虑虚拟现实特性的VR视频质量评价方法。本发明提出的VR视频客观质量评价方法，利用深度学习模型双流卷积神经网络(CNN)。一个CNN以视频补丁作为输入；另外一个CNN以虚拟现实视频的光流作为输入，提取VR视频的运动信息，即时域信息以充分考虑VR视频特点，与此同时本发明设计了贴合VR视频制作与播放特点的预处理策略，从而做出准确与客观的评价。技术方案如下：

一种基于双流卷积神经网络的虚拟现实视频质量评价方法，包括以下步骤：

1)视频预处理：利用VR视频的左视图视频与右视图视频得到VR差分视频，对不同位置的视频帧进行空间上的压缩，从压缩后的差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个VR视频补丁，以产生足够多的数据用于卷积神经网络的训练，与此同时对每个VR视频提取光流。

2)建立两个配置一样的卷积神经网络模型：每个模型包含两个卷积层，两个池化层与两个全连接层，激活函数采用整流线性单元，采用Dropout策略防止过拟合；随后调整网络的层内结构及训练参数以达到更好的分类效果。

3)训练卷积神经网络模型：利用梯度下降法，分别以VR视频补丁和光流为输入，每个输入配上原视频质量分数作为标签，分批次将其输入网络，经过多次迭代后网络各层权重得到充分优化，最终得到可用于提取虚拟现实视频特征的双流卷积神经网络模型。

4)得到最终客观评价分数：将视频补丁与光流两个通路得到的分数平均求和，即得到最终的客观质量评价分数。

本发明所提出的VR视频客观质量评价方法利用双流卷积神经网络模型，属于无参考质量评价，能够提取VR视频更高维度的特征，简化手工提取特征的过程，同时利用光流法充分考虑到视频时域的运动信息，克服了传统方法对视频时域信息忽略的问题。除此之外本发明结合VR视频的制作与播放特点，对视频不同位置进行了不同的下采样处理，充分模拟了现实中VR视频的观看效果。本发明采取的视频预处理方法简单，具有较强的实用性，所提出的测试模型耗时小，易于操作。本方法得到的VR视频质量客观评价结果与主观评价结果具有很高的一致性，能够较为准确的反映VR视频的质量。

附图说明

图1所提方法流程

图2虚拟现实视频投影过程及像素点变化，(a)：虚拟现实视频投影过程图；(b)：虚拟现实视频投影过程像素变化图。

具体实施方式

一种基于双流卷积神经网络的虚拟现实视频质量评价方法，每个失真VR视频对由左视频V_l和右视频V_r组成，评价方法包括以下步骤：

第一步：根据立体感知原理构建差值视频V_d。首先将原始VR视频与失真VR视频每一帧灰度化，然后利用左视频V_l与右视频V_r得到需要的差值视频。计算在视频位置(x,y,z)上的和值视频V_d的值如公式(1)所示：

V_d(x,y,z)＝|V_l(x,y,z)-V_r(x,y,z)| (1)

第二步：根据虚拟现实视频投影与反投影的特点，对不同位置的视频帧进行空间上的压缩，即下采样，对一张分辨率大小为w×h的视频帧进行s倍的下采样，得到分辨率大小为 (w/s)×(h/s)的视频帧。本发明利用如下的方法进行下采样：

P_k＝∑I_i,j/s² (2)

其中P_k为压缩后的像素值，I_i,j为压缩前的像素值。

由于虚拟现实视频投影的特点，不同位置的下采样倍数取值不同，本发明对不同位置 (i,j)出采用如下公式计算的采样倍数：

其中j'为采样像素点位置距离视频帧中心的垂直距离，j为视频高度的1/2。

第三步：由于卷积神经网络模型需要庞大的数据集支撑，本发明利用视频切块的方法扩充数据集的大小，具体来说将一个VR视频每8帧抽取一帧，在抽取出的每一帧的相同位置截取32×32大小的视频帧块，所有相同位置的视频帧块组成一个视频补丁，这样不仅有效提高了数据量，还使接下来的预处理更为简便。

第四步：利用光流法对得到的视频块进行预处理。设I(x,y,t)表示时刻t的点(x,y)的图像强度，并且这个点将在时间t+Δt处移动到(x+Δx,y+Δy)，从而图像强度表示为I(x+Δx,y+Δy,t+Δt)。令v＝(v_x,v_y)表示两视频帧之间的光流，其中v_x和v_y是x和y 运动速度分量。光流约束方程可写成：

I_xv_x+I_yv_y+I_t＝0 (4)

第五步：将视频补丁与得到的光流分别输入到结构一样的CNN模型中，从而构成双流CNN模型，本发明模型每个CNN由两个卷积层，两个池化层与两个全连接层组成。本发明中CNN结构利用随机梯度下降的方法，利用修正线性单元(ReLU)作为激活函数，网络中minibatch大小为128。为了避免过度拟合，我们在每个池化层后使用参数为0.5的dropout策略。在第一个完整连接层后，我们使用参数为0.25的dropout策略。其中dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。模型训练学习率设定为0.001。此外，在每次卷积和随后的激活之间使用批量归一化以加速网络训练。该网络模型添加了正则项的目标函数如公式(5)所示：

其中f(x_i)代表网络预测分数，y_i代表实际质量分数，λ是正则化参数，N代表样本数量，θ为网络训练参数。

模型构建完成后利用80％的数据作为训练，20％的数据作为测试。

第六步：将两个CNN模型得到的客观分数相加并求平均得到虚拟现实视频的最终客观分数。

第七步：分析和比较算法性能。为证明本发明方法获得的VR视频预测客观质量分数与主观质量分数有很高的一致性，预测客观质量分数能准确反映图像的质量，将本发明方法在 VRQ-TJU数据库中测试性能。该数据库包含13个原始VR视频与364个失真VR视频，失真类型包括H.264与JPEG2000,且同时包含对称失真与非对称失真。取4个国际上常用的衡量客观图像质量评价算法的指标评估本发明方法的性能，4个指标分别为皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)、斯皮尔曼排序相关系数(Spearman rank-order correlation coefficient,SRCC)、肯德尔秩次相关系数(Kendallrank-order correlation coefficient， KROCC)和均方根误差(Root MeanSquaredError,RMSE)。以上三个相关系数的值越接近于1，RMSE值越小，说明算法越准确。为了验证本发明对于VR视频质量评价的针对性与有效性，本发明针对图像质量评价IQA，立体图像质量评价SIQA，视频质量评价VQA，立体视频质量评价SVQA各引用了一种方法在数据库中对比验证，依次分别对应为[1]，[2]， [3]和[4]。从表格可以看出，本发明方法的预测客观质量分数与主观质量分数相关性高。

表1

[1]A.Liu,W.Lin,and M Narwaria.Image quality assessment based ongradient similarity. IEEE Transactions on Image Processing A Publication ofthe IEEE Signal Processing Society, 21(4):1500,2012.

[2]Alexandre Benoit,Patrick Le Callet,Patrizio Campisi,and RomainCousseau.Using disparity for quality assessment of stereoscopic images.InIEEE International Conference on Image Processing,pages 389–392,2008.

[3]Kalpana Seshadrinathan,Rajiv Soundararajan,Alan Conrad Bovik,andLawrence K Cormack.Study of subjective and objective quality assessment ofvideo.IEEE Transactions on Image Processing,19(6):1427–1441,2010.

[4]Nukhet Ozbek and A.Murat Tekalp.Unequal inter-view rate allocationusing scalable stereo video coding and an objective stereo video qualitymeasure.In IEEE Intern。

Claims

1.一种基于双流卷积神经网络的虚拟现实视频质量评价方法，包括以下步骤：

1)视频预处理：利用VR视频的左视图视频与右视图视频得到VR差分视频，对不同位置的视频帧进行空间上的压缩，从压缩后的差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个VR视频补丁，以产生足够多的数据用于卷积神经网络的训练，与此同时对每个VR视频提取光流；

2)建立两个配置一样的卷积神经网络模型：每个模型包含两个卷积层，两个池化层与两个全连接层，激活函数采用整流线性单元，采用Dropout策略防止过拟合；随后调整网络的层内结构及训练参数以达到更好的分类效果；

3)训练卷积神经网络模型：利用梯度下降法，分别以VR视频补丁和光流为输入，每个输入配上原视频质量分数作为标签，分批次将其输入网络，经过多次迭代后网络各层权重得到充分优化，最终得到可用于提取虚拟现实视频特征的双流卷积神经网络模型；