CN108259893A - 基于双流卷积神经网络的虚拟现实视频质量评价方法 - Google Patents
基于双流卷积神经网络的虚拟现实视频质量评价方法 Download PDFInfo
- Publication number
- CN108259893A CN108259893A CN201810240679.XA CN201810240679A CN108259893A CN 108259893 A CN108259893 A CN 108259893A CN 201810240679 A CN201810240679 A CN 201810240679A CN 108259893 A CN108259893 A CN 108259893A
- Authority
- CN
- China
- Prior art keywords
- video
- convolutional neural
- neural networks
- videos
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于双流卷积神经网络的虚拟现实视频质量评价方法,包括:视频预处理:利用VR视频的左视图视频与右视图视频得到VR差分视频,对不同位置的视频帧进行空间上的压缩,从压缩后的差分视频中均匀抽帧,给每一帧不重叠的切块,每一帧相同位置的视频块构成一个VR视频补丁,以产生足够多的数据用于卷积神经网络的训练,与此同时对每个VR视频提取光流;建立两个配置一样的卷积神经网络模型;分别以VR视频补丁和光流为输入;得到最终客观评价分数:将视频补丁与光流两个通路得到的分数平均求和,即得到最终的客观质量评价分数。本发明提高了客观评价方法准确率。
Description
技术领域
本发明属视频处理领域,涉及虚拟现实视频质量评价方法。
背景技术
作为一个新的仿真与交互技术——虚拟现实(VR)技术在许多领域如建筑、游戏与军事中使用,它可以创建一个与现实世界的规则一致的虚拟环境,或者建立一个完全脱离现实的模拟环境,这会带给人们更加真实的视听感受和临场体验[1]。作为虚拟现实的重要载体, VR视频,又称全景立体视频,发挥着巨大的作用。然而,VR视频在采集、储存和传输的过程中由于设备和处理手段等原因,不可避免的会引入一些失真,进而影响VR视频的质量。因此,研究一种能有效评价虚拟现实视频质量的评价方法至关重要。但是主观评价方法易受多种因素的干扰,且费时费力,评价结果也不够稳定。相对主观评价,客观评价以软件的方式评价图像的质量,同时不需参与者和大量的主观试验,操作简单,且与主观评价高度相关,越来越受到相关研究者的关注。
由于虚拟现实技术在近些年刚刚兴起,目前还没有针对VR视频规范标准与客观评价体系[2]。VR视频具有真实感,沉浸感,立体感等特性[3],在传统多媒体类型中立体视频与 VR视频的特点最接近,因此,对VR视频进行评价需要参考当前立体视频质量评价的思想。当前立体视频的客观评价方法主要有三类,第一类是基于人眼视觉系统(HVS)的评价方法。第二类是基于图像特征并结合机器学习的评价方法。第三类是利用深度学习的评价方法。上述方法都对VR视频客观评价具有良好的借鉴意义。
[1]Minderer M,Harvey C D,Donato F,et al.Neuroscience:Virtual realityexplored.[J]. Nature,2016,533(7603):324.
[2]X.Ge,L.Pan,Q.Li.Multi-Path Cooperative Communications Networks forAugmented and Virtual Reality Transmission.IEEE Transactions on Multimedia,vol.19,no.10,pp.2345-2358, 2017.
[3]Hosseini M,Swaminathan V.Adaptive 360VR Video Streaming:Divide andConquer[C]//IEEE International Symposium on Multimedia.IEEE,2017:107-110.
发明内容
本发明的目的在于建立一个充分考虑虚拟现实特性的VR视频质量评价方法。本发明提出的VR视频客观质量评价方法,利用深度学习模型双流卷积神经网络(CNN)。一个CNN以视频补丁作为输入;另外一个CNN以虚拟现实视频的光流作为输入,提取VR视频的运动信息,即时域信息以充分考虑VR视频特点,与此同时本发明设计了贴合VR视频制作与播放特点的预处理策略,从而做出准确与客观的评价。技术方案如下:
一种基于双流卷积神经网络的虚拟现实视频质量评价方法,包括以下步骤:
1)视频预处理:利用VR视频的左视图视频与右视图视频得到VR差分视频,对不同位置的视频帧进行空间上的压缩,从压缩后的差分视频中均匀抽帧,给每一帧不重叠的切块,每一帧相同位置的视频块构成一个VR视频补丁,以产生足够多的数据用于卷积神经网络的训练,与此同时对每个VR视频提取光流。
2)建立两个配置一样的卷积神经网络模型:每个模型包含两个卷积层,两个池化层与两个全连接层,激活函数采用整流线性单元,采用Dropout策略防止过拟合;随后调整网络的层内结构及训练参数以达到更好的分类效果。
3)训练卷积神经网络模型:利用梯度下降法,分别以VR视频补丁和光流为输入,每个输入配上原视频质量分数作为标签,分批次将其输入网络,经过多次迭代后网络各层权重得到充分优化,最终得到可用于提取虚拟现实视频特征的双流卷积神经网络模型。
4)得到最终客观评价分数:将视频补丁与光流两个通路得到的分数平均求和,即得到最终的客观质量评价分数。
本发明所提出的VR视频客观质量评价方法利用双流卷积神经网络模型,属于无参考质量评价,能够提取VR视频更高维度的特征,简化手工提取特征的过程,同时利用光流法充分考虑到视频时域的运动信息,克服了传统方法对视频时域信息忽略的问题。除此之外本发明结合VR视频的制作与播放特点,对视频不同位置进行了不同的下采样处理,充分模拟了现实中VR视频的观看效果。本发明采取的视频预处理方法简单,具有较强的实用性,所提出的测试模型耗时小,易于操作。本方法得到的VR视频质量客观评价结果与主观评价结果具有很高的一致性,能够较为准确的反映VR视频的质量。
附图说明
图1所提方法流程
图2虚拟现实视频投影过程及像素点变化,(a):虚拟现实视频投影过程图;(b):虚拟现实视频投影过程像素变化图。
具体实施方式
一种基于双流卷积神经网络的虚拟现实视频质量评价方法,每个失真VR视频对由左视频Vl和右视频Vr组成,评价方法包括以下步骤:
第一步:根据立体感知原理构建差值视频Vd。首先将原始VR视频与失真VR视频每一帧灰度化,然后利用左视频Vl与右视频Vr得到需要的差值视频。计算在视频位置(x,y,z)上的和值视频Vd的值如公式(1)所示:
Vd(x,y,z)=|Vl(x,y,z)-Vr(x,y,z)| (1)
第二步:根据虚拟现实视频投影与反投影的特点,对不同位置的视频帧进行空间上的压缩,即下采样,对一张分辨率大小为w×h的视频帧进行s倍的下采样,得到分辨率大小为 (w/s)×(h/s)的视频帧。本发明利用如下的方法进行下采样:
Pk=∑Ii,j/s2 (2)
其中Pk为压缩后的像素值,Ii,j为压缩前的像素值。
由于虚拟现实视频投影的特点,不同位置的下采样倍数取值不同,本发明对不同位置 (i,j)出采用如下公式计算的采样倍数:
其中j'为采样像素点位置距离视频帧中心的垂直距离,j为视频高度的1/2。
第三步:由于卷积神经网络模型需要庞大的数据集支撑,本发明利用视频切块的方法扩充数据集的大小,具体来说将一个VR视频每8帧抽取一帧,在抽取出的每一帧的相同位置截取32×32大小的视频帧块,所有相同位置的视频帧块组成一个视频补丁,这样不仅有效提高了数据量,还使接下来的预处理更为简便。
第四步:利用光流法对得到的视频块进行预处理。设I(x,y,t)表示时刻t的点(x,y)的图像强度,并且这个点将在时间t+Δt处移动到(x+Δx,y+Δy),从而图像强度表示为I(x+Δx,y+Δy,t+Δt)。令v=(vx,vy)表示两视频帧之间的光流,其中vx和vy是x和y 运动速度分量。光流约束方程可写成:
Ixvx+Iyvy+It=0 (4)
第五步:将视频补丁与得到的光流分别输入到结构一样的CNN模型中,从而构成双流CNN模型,本发明模型每个CNN由两个卷积层,两个池化层与两个全连接层组成。本发明中CNN结构利用随机梯度下降的方法,利用修正线性单元(ReLU)作为激活函数,网络中minibatch大小为128。为了避免过度拟合,我们在每个池化层后使用参数为0.5的dropout策略。在第一个完整连接层后,我们使用参数为0.25的dropout策略。其中dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。模型训练学习率设定为0.001。此外,在每次卷积和随后的激活之间使用批量归一化以加速网络训练。该网络模型添加了正则项的目标函数如公式(5)所示:
其中f(xi)代表网络预测分数,yi代表实际质量分数,λ是正则化参数,N代表样本数量,θ为网络训练参数。
模型构建完成后利用80%的数据作为训练,20%的数据作为测试。
第六步:将两个CNN模型得到的客观分数相加并求平均得到虚拟现实视频的最终客观分数。
第七步:分析和比较算法性能。为证明本发明方法获得的VR视频预测客观质量分数与主观质量分数有很高的一致性,预测客观质量分数能准确反映图像的质量,将本发明方法在 VRQ-TJU数据库中测试性能。该数据库包含13个原始VR视频与364个失真VR视频,失真类型包括H.264与JPEG2000,且同时包含对称失真与非对称失真。取4个国际上常用的衡量客观图像质量评价算法的指标评估本发明方法的性能,4个指标分别为皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)、斯皮尔曼排序相关系数(Spearman rank-order correlation coefficient,SRCC)、肯德尔秩次相关系数(Kendallrank-order correlation coefficient, KROCC)和均方根误差(Root MeanSquaredError,RMSE)。以上三个相关系数的值越接近于1,RMSE值越小,说明算法越准确。为了验证本发明对于VR视频质量评价的针对性与有效性,本发明针对图像质量评价IQA,立体图像质量评价SIQA,视频质量评价VQA,立体视频质量评价SVQA各引用了一种方法在数据库中对比验证,依次分别对应为[1],[2], [3]和[4]。从表格可以看出,本发明方法的预测客观质量分数与主观质量分数相关性高。
表1
[1]A.Liu,W.Lin,and M Narwaria.Image quality assessment based ongradient similarity. IEEE Transactions on Image Processing A Publication ofthe IEEE Signal Processing Society, 21(4):1500,2012.
[2]Alexandre Benoit,Patrick Le Callet,Patrizio Campisi,and RomainCousseau.Using disparity for quality assessment of stereoscopic images.InIEEE International Conference on Image Processing,pages 389–392,2008.
[3]Kalpana Seshadrinathan,Rajiv Soundararajan,Alan Conrad Bovik,andLawrence K Cormack.Study of subjective and objective quality assessment ofvideo.IEEE Transactions on Image Processing,19(6):1427–1441,2010.
[4]Nukhet Ozbek and A.Murat Tekalp.Unequal inter-view rate allocationusing scalable stereo video coding and an objective stereo video qualitymeasure.In IEEE Intern。
Claims (1)
1.一种基于双流卷积神经网络的虚拟现实视频质量评价方法,包括以下步骤:
1)视频预处理:利用VR视频的左视图视频与右视图视频得到VR差分视频,对不同位置的视频帧进行空间上的压缩,从压缩后的差分视频中均匀抽帧,给每一帧不重叠的切块,每一帧相同位置的视频块构成一个VR视频补丁,以产生足够多的数据用于卷积神经网络的训练,与此同时对每个VR视频提取光流;
2)建立两个配置一样的卷积神经网络模型:每个模型包含两个卷积层,两个池化层与两个全连接层,激活函数采用整流线性单元,采用Dropout策略防止过拟合;随后调整网络的层内结构及训练参数以达到更好的分类效果;
3)训练卷积神经网络模型:利用梯度下降法,分别以VR视频补丁和光流为输入,每个输入配上原视频质量分数作为标签,分批次将其输入网络,经过多次迭代后网络各层权重得到充分优化,最终得到可用于提取虚拟现实视频特征的双流卷积神经网络模型;
4)得到最终客观评价分数:将视频补丁与光流两个通路得到的分数平均求和,即得到最终的客观质量评价分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810240679.XA CN108259893B (zh) | 2018-03-22 | 2018-03-22 | 基于双流卷积神经网络的虚拟现实视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810240679.XA CN108259893B (zh) | 2018-03-22 | 2018-03-22 | 基于双流卷积神经网络的虚拟现实视频质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108259893A true CN108259893A (zh) | 2018-07-06 |
CN108259893B CN108259893B (zh) | 2020-08-18 |
Family
ID=62747380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810240679.XA Active CN108259893B (zh) | 2018-03-22 | 2018-03-22 | 基于双流卷积神经网络的虚拟现实视频质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108259893B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108683909A (zh) * | 2018-07-12 | 2018-10-19 | 北京理工大学 | Vr音视频整体用户体验质量评估方法 |
US20210233259A1 (en) * | 2020-01-28 | 2021-07-29 | Ssimwave Inc. | No-reference visual media assessment combining deep neural networks and models of human visual system and video content/distortion analysis |
CN113688686A (zh) * | 2021-07-26 | 2021-11-23 | 厦门大学 | 基于图卷积神经网络的虚拟现实视频质量评价方法 |
CN113709560A (zh) * | 2021-03-31 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101170524B1 (ko) * | 2010-04-16 | 2012-08-01 | 서정훈 | 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
CN107123123A (zh) * | 2017-05-02 | 2017-09-01 | 电子科技大学 | 基于卷积神经网络的图像分割质量评价方法 |
CN107636690A (zh) * | 2015-06-05 | 2018-01-26 | 索尼公司 | 基于卷积神经网络的全参考图像质量评估 |
CN107633513A (zh) * | 2017-09-18 | 2018-01-26 | 天津大学 | 基于深度学习的3d图像质量的度量方法 |
-
2018
- 2018-03-22 CN CN201810240679.XA patent/CN108259893B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101170524B1 (ko) * | 2010-04-16 | 2012-08-01 | 서정훈 | 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체 |
CN107636690A (zh) * | 2015-06-05 | 2018-01-26 | 索尼公司 | 基于卷积神经网络的全参考图像质量评估 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
CN107123123A (zh) * | 2017-05-02 | 2017-09-01 | 电子科技大学 | 基于卷积神经网络的图像分割质量评价方法 |
CN107633513A (zh) * | 2017-09-18 | 2018-01-26 | 天津大学 | 基于深度学习的3d图像质量的度量方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108683909A (zh) * | 2018-07-12 | 2018-10-19 | 北京理工大学 | Vr音视频整体用户体验质量评估方法 |
CN108683909B (zh) * | 2018-07-12 | 2020-07-07 | 北京理工大学 | Vr音视频整体用户体验质量评估方法 |
US20210233259A1 (en) * | 2020-01-28 | 2021-07-29 | Ssimwave Inc. | No-reference visual media assessment combining deep neural networks and models of human visual system and video content/distortion analysis |
CN113709560A (zh) * | 2021-03-31 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、设备及存储介质 |
CN113709560B (zh) * | 2021-03-31 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、设备及存储介质 |
CN113688686A (zh) * | 2021-07-26 | 2021-11-23 | 厦门大学 | 基于图卷积神经网络的虚拟现实视频质量评价方法 |
CN113688686B (zh) * | 2021-07-26 | 2023-10-27 | 厦门大学 | 基于图卷积神经网络的虚拟现实视频质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108259893B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107437092B (zh) | 基于三维卷积神经网络的视网膜oct图像的分类方法 | |
Yang et al. | 3D panoramic virtual reality video quality assessment based on 3D convolutional neural networks | |
CN108259893A (zh) | 基于双流卷积神经网络的虚拟现实视频质量评价方法 | |
JP7026222B2 (ja) | 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 | |
WO2022188282A1 (zh) | 基于物理感知的三维流体逆向建模方法 | |
Tian et al. | A multi-order derivative feature-based quality assessment model for light field image | |
CN108235003B (zh) | 基于3d卷积神经网络的立体视频质量评价方法 | |
CN109360178A (zh) | 基于融合图像的无参考立体图像质量评价方法 | |
CN109584290A (zh) | 一种基于卷积神经网络的立体图像匹配方法 | |
CN104867138A (zh) | 基于pca和ga-elm的立体图像质量客观评价方法 | |
CN110516716A (zh) | 基于多分支相似度网络的无参考图像质量评价方法 | |
CN108377387A (zh) | 基于3d卷积神经网络的虚拟现实视频质量评价方法 | |
CN108449595A (zh) | 基于卷积神经网络的全参考虚拟现实视频质量评价方法 | |
CN103679662B (zh) | 基于类别先验非负稀疏编码字典对的超分辨率图像恢复方法 | |
CN113947589A (zh) | 一种基于对抗生成网络的弹载图像去模糊方法 | |
CN109523513A (zh) | 基于稀疏重建彩色融合图像的立体图像质量评价方法 | |
CN110490252A (zh) | 一种基于深度学习的室内人数检测方法及系统 | |
CN106791822B (zh) | 一种基于单双目特征学习的无参考立体图像质量评价方法 | |
CN109344845A (zh) | 一种基于Triplet深度神经网络结构的特征匹配方法 | |
CN109788275A (zh) | 自然性、结构和双目不对称无参考立体图像质量评价方法 | |
CN104866864A (zh) | 一种用于立体图像质量客观评价的极端学习机 | |
CN108074241A (zh) | 目标图像的质量评分方法、装置、终端及存储介质 | |
CN109831664A (zh) | 基于深度学习的快速压缩立体视频质量评价方法 | |
Zhou et al. | Utilizing binocular vision to facilitate completely blind 3D image quality measurement | |
EP4191539A1 (en) | Method for performing volumetric reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |