CN108449595A

CN108449595A - 基于卷积神经网络的全参考虚拟现实视频质量评价方法

Info

Publication number: CN108449595A
Application number: CN201810239888.2A
Authority: CN
Inventors: 杨嘉琛; 刘天麟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-08-24

Abstract

本发明涉及一种基于卷积神经网络的全参考虚拟现实视频质量评价方法，包括：视频预处理：利用VR视频的左视图视频与右视图视频得到VR差分视频，从差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个VR视频补丁；建立两个配置一样的卷积神经网络模型；训练卷积神经网络模型：利用梯度下降法，以VR视频补丁为输入，每个补丁配上原视频质量分数作为标签，分批次将其输入网络，经过多次迭代后网络各层权重得到充分优化，最终得到可用于提取虚拟现实视频特征的卷积神经网络模型；利用卷积神经网络提取特征；利用支持向量机得到局部分数，采用分数融合策略得到最终分数。本发明提高了客观评价方法准确率。

Description

基于卷积神经网络的全参考虚拟现实视频质量评价方法

技术领域

本发明属视频处理领域，涉及虚拟现实视频质量评价方法。

背景技术

作为一个新的仿真与交互技术——虚拟现实(VR)技术在许多领域如建筑、游戏与军事中使用，它可以创建一个与现实世界的规则一致的虚拟环境，或者建立一个完全脱离现实的模拟环境，这会带给人们更加真实的视听感受和临场体验[1]。作为虚拟现实的重要载体，当前最接近VR视频定义的为全景立体视频，其发挥着巨大的作用。然而，VR视频在采集、储存和传输的过程中由于设备和处理手段等原因，不可避免的会引入一些失真，进而影响 VR视频的质量。因此，研究一种能有效评价虚拟现实视频质量的评价方法至关重要。但是主观评价方法易受多种因素的干扰，且费时费力，评价结果也不够稳定。相对主观评价，客观评价以软件的方式评价图像的质量，同时不需参与者和大量的主观试验，操作简单，且与主观评价高度相关，越来越受到相关研究者的关注。

由于虚拟现实技术在近些年刚刚兴起，目前还没有针对VR视频规范标准与客观评价体系。VR视频具有真实感，沉浸感，立体感等特性[2]，在传统多媒体类型中立体视频与VR视频的特点最接近，因此，对VR视频进行评价需要参考当前立体视频质量评价的思想。当前立体视频的客观评价方法主要有三类，第一类是基于人眼视觉系统(HVS)的评价方法。第二类是基于图像特征并结合机器学习的评价方法。第三类是利用深度学习的评价方法。上述方法都对VR视频客观评价具有良好的借鉴意义。其中客观评价方法又分为全参考，半参考和无参考三种方法，全参考方法因为具有较高的准确性而备受人关注。

[1]Minderer M,Harvey C D,Donato F,et al.Neuroscience:Virtual realityexplored.[J]. Nature,2016,533(7603):324.

[2]Hosseini M,Swaminathan V.Adaptive 360VR Video Streaming:Divide andConquer[C]//IEEE International Symposium on Multimedia.IEEE,2017:107-110.

发明内容

本发明的目的在于建立一个充分考虑原始视频信息的虚拟现实视频质量评价方法。本发明提出的虚拟现实视频客观质量评价方法，基于卷积神经网络(CNN)与虚拟现实视频本身特性，并在此基础上提取无失真视频的特征并与失真视频提取的特征做对比，通过特征和视频质量的非线性拟合，进而做出更加全面、准确的客观评价。技术方案如下：

一种基于卷积神经网络的全参考虚拟现实视频质量评价方法，包括下列的步骤：

1)视频预处理：利用VR视频的左视图视频与右视图视频得到VR差分视频，从差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个VR视频补丁，以产生足够多的数据用于卷积神经网络的训练。

2)建立两个配置一样的卷积神经网络模型：建立两个配置一样的卷积神经模型，每个模型包含两个卷积层、两个池化层与两个全连接层，激活函数采用整流线性单元，采用Dropout策略防止过拟合；随后调整网络的层内结构及训练参数以达到更好的分类效果；

3)训练卷积神经网络模型：利用梯度下降法，以VR视频补丁为输入，每个补丁配上原视频质量分数作为标签，分批次将其输入网络，经过多次迭代后网络各层权重得到充分优化，最终得到可用于提取虚拟现实视频特征的卷积神经网络模型；

4)利用卷积神经网络提取特征：将原视参考VR视频与失真VR视频，分别输入到两个构建好的卷积神经网络模型，在第一个全连接层后输出得到不同的两个特征，将这两个特征链接在一起作为新的特征用于支持向量机训练；

5)利用支持向量机得到局部分数，采用分数融合策略得到最终分数：通过支持向量机得到每一个VR视频补丁的分数，通过参考VR视频制作特点的分数融合策略，对不同位置的VR视频补丁赋予不同的权重，对不同视频补丁的分数加权得到最终的VR视频分数。

本发明所提出的VR视频客观质量评价方法利用了原始参考视频与深度学习模型，在极大提高客观评价方法准确率的同时能够利用机器自身学习提取VR视频更高维度的特征，无需手工提取视频的特征。除此之外本发明结合VR视频的制作与播放特点，对不同的视频补丁分数给与不同的权值进行加权，然后利用分数融合策略来综合表述VR视频的客观质量。本发明采取的视频预处理方法简单，具有较强的实用性，并能有效扩大数据量。所提出的测试模型耗时小，易于操作。本方法得到的VR视频质量客观评价结果与主观评价结果具有很高的一致性，能够较为准确的反映VR视频的质量。

附图说明

图1VR视频预处理流程

图2所提方法流程

图3主客观分数关系散点图

具体实施方式

为使本发明的技术方案更加清楚，下面对本发明具体实施方式做进一步地描述。本发明按以下步骤具体实现：

第一步：根据立体感知原理构建差值视频V_d。首先将原始VR视频与失真VR视频每一帧灰度化，然后利用左视频V_l与右视频V_r得到需要的差值视频。计算在视频位置(x,y,z)上的和值视频V_d的值如公式(1)所示：

V_d(x,y,z)＝|V_l(x,y,z)-V_r(x,y,z)|(1)

第二步：将VR差值视频切块以构成视频补丁，从而扩充数据集的容量。具体来说，从所有VR差值视频中每隔8帧抽取1帧，共提取N帧。在提取帧的相同位置切割出32×32 像素大小的正方形图像块，然后将相同视频、相同位置的图像块构成一个VR视频补丁。为了充分提取视频空间信息，每一帧应均匀不重叠的切割图像块，每一帧视频切割出M个图像块。根据分辨率大小的不同每个VR视频共能提取M个大小为32×32×N的视频补丁。

第三步：以视频主观评价质量分数作为标签，将原始VR视频补丁与失真VR视频补丁分别输入到两个配置相同的CNN中进行训练。本发明模型每个CNN由两个卷积层，两个池化层与两个全连接层组成。

本发明中CNN结构利用随机梯度下降的方法，利用修正线性单元(ReLU)作为激活函数，网络中中minibatch大小为128。为了避免过度拟合，我们在每个池化层后使用参数为0.5的dropout策略。在第一个完整连接层后，我们使用参数为0.25的dropout策略。其中dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。模型训练学习率设定为0.001。此外，在每次卷积和随后的激活之间使用批量归一化以加速网络训练。该网络模型添加了正则项的目标函数如公式(2)所示：

其中f(x_i)代表网络预测分数，y_i代表实际质量分数，λ是正则化参数，N代表样本数量，θ为网络训练参数。

第四步：以VR视频补丁为输入，通过训练好的CNN模型，在第一层全连接层后输出特征向量。原始VR视频得到的特征向量记作f_r，失真VR视频得到的特征向量记作f_d，将两个特征向量f_r与f_d相减得到f_r-f_d，然后将f_r，f_d与f_r-f_d链接在一起作为一个新的融合特征向量f，如公式(3)所示：

f＝(f_r,f_d,f_r-f_d) (3)

然后将融合特征向量f输入到支持向量机中，其中80％的特征向量用支持向量机进行训练，根据训练得到的模型对剩下的20％的特征向量的质量做预测，最终得到失真虚拟现实视频补丁的客观质量分数。

第五步：通过深度模型得到视频补丁分数后通过分数融合策略得到VR视频最终分数。本发明使用的分数融合策略依据VR视频的Equirectangular投影方式，对不同位置的VR视频补丁赋予不同的权重，从而得到最终的客观评价质量分数。Equirectangular投影方式会使视频在投影过程中两极部分被大幅度拉伸，影响平面模型下VR视频的空间分布。由于客观质量评价方法是以平面视频作为输入，而主观评价分数则是以球面视频观感体验为依据，因此本发明设计分数融合策略如公式(4)所示：

其中S_f表示最终得分，S_xy表示在视频帧位置(x,y)的视频补丁的预测分数，x代表宽度位置，y代表高度位置，W_xy表示相应位置的权重，h表示VR视频的垂直高度，h'表示视频补丁中心位置距离VR视频中心的垂直距离。

第六步：分析和比较算法性能。为证明本发明方法获得的VR视频预测客观质量分数与主观质量分数有很高的一致性，预测客观质量分数能准确反映图像的质量，将本发明方法在 VRQ-TJU数据库中测试性能。该数据库包含13个原始VR视频与364个失真VR视频，失真类型包括H.264与JPEG2000,且同时包含对称失真与非对称失真。取4个国际上常用的衡量客观图像质量评价算法的指标评估本发明方法的性能，4个指标分别为皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)、斯皮尔曼排序相关系数(Spearman rank-order correlation coefficient,SRCC)、肯德尔秩次相关系数(Kendallrank-order correlation coefficient， KROCC)和均方根误差(Root MeanSquaredError,RMSE)。以上三个相关系数的值越接近于1，RMSE值越小，说明算法越准确。为了验证本发明对于VR视频质量评价的针对性与有效性，本发明针对图像质量评价IQA，立体图像质量评价SIQA，视频质量评价VQA，立体视频质量评价SVQA各引用了一种方法在数据库中对比验证，依次分别对应为[1]，[2]， [3]和[4]。从表格可以看出，本发明方法的预测客观质量分数与主观质量分数相关性高。

表1

[1]A.Liu,W.Lin,and M Narwaria.Image quality assessment basedongradient similarity. IEEE Transactions on Image Processing APublication ofthe IEEE Signal Processing Society, 21(4):1500,2012.

[2]Alexandre Benoit,Patrick Le Callet,Patrizio Campisi,andRomainCousseau.Using disparity for quality assessment of stereoscopicimages.In IEEE International Conference on Image Processing,pages 389–392,2008.

[3]Kalpana Seshadrinathan,Rajiv Soundararajan,Alan Conrad Bovik,andLawrence K Cormack.Study of subjective and objective quality assessment ofvideo.IEEE Transactions on Image Processing,19(6):1427–1441,2010.

[4]Nukhet Ozbek and A.Murat Tekalp.Unequal inter-view rateallocationusing scalable stereo video coding and an objective stereo videoqualitymeasure.In IEEE Intern。

Claims

1.一种基于卷积神经网络的全参考虚拟现实视频质量评价方法，包括下列的步骤：