CN109714593A

CN109714593A - 基于双目融合网络与显著性的立体视频质量评价方法

Info

Publication number: CN109714593A
Application number: CN201910098123.6A
Authority: CN
Inventors: 李素梅; 马帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-03

Abstract

本发明属于视频和图像处理领域，为建立一种有效的立体视频质量评价方法，且贴合人眼对立体视觉的感知，同时在一定程度上推动了立体成像技术、无人驾驶技术的发展。为此，本发明采取的技术方案是，基于双目融合网络与显著性的立体视频质量评价方法，首先通过计算包括空间显著性与时间显著性的立体视频显著性得到立体视频每一帧的显著图片；得到的顺序排列的显著图片被称为左视频的时空显著性特征流与右视频的时空显著性特征流；然后，将左视频的时空显著性特征流与右视频的时空显著性特征流分别作为双目融合网络的两个输入；最后的立体视频质量由双目融合网络综合性地分析空间、时间与深度特征获得。本发明主要应用于图像处理场合。

Description

基于双目融合网络与显著性的立体视频质量评价方法

技术领域

本发明属于视频和图像处理领域，涉及到视频时空显著性的计算，以及深度学习在立体视频质量评价中的应用。具体讲涉及基于双目融合网络与显著性的立体视频质量评价方法。

背景技术

立体视频已经广范地应用在人类生活的各个领域。相应的，一系列立体视频处理技术也随之而来，并对立体内容造成不同程度的失真。一个有效的立体视频质量评价算法不仅可以很好地评价立体视频的失真程度，而且能够为一系列的3D技术提供技术支持。因此，立体视频的质量评价方法研究是一项有意义的任务。同时，立体视频的质量评价方法研究也是一项有挑战性的任务。因为立体视频质量包含空间、时间、深度这些不同的维度的质量，尤其是双目产生的深度感知，目前还不能准确地度量。因此，本发明提出一种基于双目融合网络的立体视频质量评价方法。

目前，存在的立体视频质量评价方法可被分为三类：传统的方法、基于稀疏的方法和基于深度学习的方法。在传统方法中，大多数的方法都类似于[1]-[5]：综合时间特征、空间特征与深度特征得到立体视频的质量。在基于稀疏的方法中，文献[6]使用显著与稀疏的测量立体视频的质量。在基于深度学习的方法中，文献[7]通过搭建3D CNN网络来自动提取立体视频中的时空信息。文献[8]将来自左右视点每一帧的图像块对输入到双流网络，并使用时空汇聚策略评价立体视频质量。

以上文献均使用了不同的方法来处理两视点间的相关性，但是都不尽如人意。文献[6][7]首先将左右视点进行简单的“加和”或“做差”，然后像2D视频一样处理得到质量分数。而文献[1][2][3][8]在最后一步将左右视点的质量进行加权。这些文献的视点间处理方式都过于简单，且忽视了大脑的视觉融合机制。文献[4][5]根据视点间相关性提取深度特征。但是手动提取的特征不完全符合大脑分层提取视觉信息的事实[9]，且在提取视觉信息的过程中始终都伴随着双目融合与双目竞争现象。

本发明的设计灵感来源于大脑皮层对3D视觉信号的响应原理。具体地说，当大脑处理立体视觉时，双目视差首先在初级视觉皮层V1区域形成。进一步地，次级视觉皮层V2中的视差选择性神经增强深度感知。然后，3D视觉刺激导致视觉皮层V3区域激活[10]。V4视觉区域在精细的深度感知与3D成像方面起着至关重要的作用[11]。因此，神经元对双目视差与深度感知的响应存在于低层视觉区域与高层视觉区域。此外，双目竞争涉及低层视觉区域与高层视觉区域的神经竞争[12][13][14]，以及V1、V2、V3和V4区域神经元活性的增强[15]。它们是与双目视差与深度感知在视觉皮层的反映一致的。

本发明完全根据双目视觉机制设计提出的双目融合网络。网络的两个输入对应人的两个眼睛。网络在低层与高层的融合对应深度感知在大脑低层与高层的响应。一种特定的融合方式对应着双目竞争。

为了反映视频时间与空间上的相关性，本发明选择时空显著性特征流作为网络的输入。时空显著性特征流通过计算视频的时间显著性与空间显著性得到，这也与空间与时间不是互相独立的理论是一致的。因为空间像素的变化为时域提供了运动信息与注意机制，反过来，时间流反映了视频中的空间显著性。

本发明提出了一种基于双目融合网络与显著性的立体视频质量评价方法。首先，提出的双目融合网络完全模仿双目视觉机制，自主地学习深度感知。其次，将时空显著性特征流作为网络的输入，确保网络能够综合性地学习与分析空间、时间与深度特征。

发明内容

为克服现有技术的不足，本发明旨在提出基于人眼视觉机制，建立一种有效的基于双目融合网络与显著性的立体视频质量评价方法。此评价方法更加准确高效，且贴合人眼对立体视觉的感知，同时在一定程度上推动了立体成像技术、无人驾驶技术的发展。为此，本发明采取的技术方案是，基于双目融合网络与显著性的立体视频质量评价方法，首先通过计算包括空间显著性与时间显著性的立体视频显著性得到立体视频每一帧的显著图片；得到的顺序排列的显著图片被称为左视频的时空显著性特征流与右视频的时空显著性特征流；然后，将左视频的时空显著性特征流与右视频的时空显著性特征流分别作为双目融合网络的两个输入；最后的立体视频质量由双目融合网络综合性地分析空间、时间与深度特征获得。

所提出的双目融合网络整体框架基于Alexnet网络搭建，双目融合网络被分为三个部分：左通道、右通道与融合通道；其中，左通道与右通道分别包含四个卷积层与两个池化层，左通道用于提取纯粹的左视点特征，右通道用于提取纯粹的右视点特征，融合通道包含四个卷积层，三个池化层与三个全连接层，在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合，这四次融合与大脑V1、V2、V3、V4四个区域的深度感知相对应，即双目融合网络既在浅层融合，也在高层融合，显然，融合通道用于提取深度特征，最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

融合操作方式是“合并”而不是“对应像素点相加”，即，将特征图合并后输入到下一层，而不是将特征图的对应像素点相加。

卷积操作被定义为(6)

F_l＝RELU(W_l*F_{lth_input}+B_l) (6)

在(6)中，W_l与B_l分别代表第l层卷积层的权重与偏执，F_l代表第l层卷积层输出的特征图，F_{lth_input}代表第l层卷积层的输入，RELU为激活函数，*代表卷积操作。

双目融合网络中的所有池化层都为最大池化，在利用反向传播算法训练网络时，通过最小化损失函数来学习卷积层、池化层与全连接层的参数，双目融合网络使用欧几里得函数，如公式(7)所示。

在(7)中，Y_i与y_i分别代表样本i的期望输出与真实输出，n代表批处理的大小。

本发明的特点及有益效果是：

本发明所提出的双目融合网络充分考虑了大脑对立体视觉信号的处理机制，并完全依照此处理机制设计搭建，在理论与实践上均表明本方法具有有效性。同时，应用时空显著性特征流而不是源数据作为网络的输入，充分考虑了时间与空间的相关性，进一步提升了网络的性能。本发明的基于双目融合网络与显著性的立体视频质量评价方法在公共立体视频库上进行了实验，其实验结果十分接近主观质量评价的结果，准确性和可靠性也优于目前存在的其他立体视频质量评价方法。

附图说明：

图1本方法的具体流程。其中，“Conv”代表卷积层，“Pool”代表池化层，“fc”代表全连接层。每层中的小方块代表该层的卷积核，卷积核下的数字代表卷积核的大小。箭头上方的数字代表相应输出特征图的大小，表示为长×宽×通道数。

具体实施方式

本发明首先通过计算立体视频显著性(空间显著性与时间显著性)得到立体视频每一帧的显著图片。得到的顺序排列的显著图片被称为左视频的时空显著性特征流与右视频的时空显著性特征流。然后，将左视频的时空显著性特征流与右视频的时空显著性特征流分别作为双目融合网络的两个输入。最后的立体视频质量由双目融合网络综合性地分析空间、时间与深度特征获得。

视频显著性:

本项工作的内容完全基于文献[16]实现，即对立体视频的每一帧生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流。然后，将左视频时空显著性特征流与右视频时空显著性特征流分别作为网络的两个输入。

双目融合网络：

所提出的双目融合网络整体框架基于Alexnet网络[17]搭建。双目融合网络被分为三个部分：左通道、右通道与融合通道。其中，左通道与右通道分别包含四个卷积层与两个池化层。左通道用于提取纯粹的左视点特征，右通道用于提取纯粹的右视点特征。融合通道包含四个卷积层，三个池化层与三个全连接层。在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合。这四次融合与大脑V1、V2、V3、V4四个区域的深度感知相对应。即双目融合网络既在浅层融合，也在高层融合。显然，融合通道用于提取深度特征。最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

本发明在公开的立体视频库NAMA3DS1-COSPAD1[18]上进行了实验。在NAMA3DS1数据库中，有10个1920×1080的参考立体视频，100个失真立体视频，共110个不同质量的立体视频，其中包含了H.264、JPEG 2000、锐化、降低分辨率，下采样与锐化等失真类型。

下面结合技术方法详细说明本方法。

本发明模仿人脑立体视觉处理机制，提出了一种基于双目融合网络与显著性的立体视频质量评价方法。首先，对立体视频的每一帧，通过计算其空间显著性与时间显著性生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流。然后，将左、右视频时空显著性特征流分别作为网络的两个输入。然后，由网络自主的提取深度特征与时空特征。最后全连接层将高维的综合特征映射到输出域，得到立体视频的质量分数。其具体流程如图1所示。

具体步骤如下：

1、视频显著性的计算

2、双目融合网络

所提出的双目融合网络整体框架基于Alexnet网络[17]搭建，如图1所示。双目融合网络被分为三个部分：左通道、右通道与融合通道。其中，左通道与右通道分别包含四个卷积层与两个池化层。左通道的输入是左视频时空显著性特征流，用于提取纯粹的左视点特征；右通道的输入是右视频时空显著性特征流，用于提取纯粹的右视点特征。融合通道包含四个卷积层，三个池化层与三个全连接层。在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合。这四次融合与大脑V1、V2、V3、V4四个区域的深度感知相对应。即双目融合网络既在浅层融合，也在高层融合。显然，融合通道用于提取深度特征。最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

值得注意的是，本发明的融合方式是“合并”而不是“对应像素点相加”。即，本发明将特征图合并后输入到下一层，而不是将特征图的对应像素点相加。例如，对于融合点④，卷积层5的输入共有三个：384张左视点的特征图，384张右视点的特征图，以及384张深度特征的特征图。故总共有1152张特征图被送入到卷积层5。然后，卷积操作可以根据不同的特征图(左视点特征，右视点特征与深度特征)为不同的视点分配不同的权重。而选择“合并”融合方式的原因在于基于双目竞争机制，左右视点信号应根据其双目能量分配的不同权重来进行融合[19]–[22]，而不是平均分配。

因此，双目融合网络中的卷积操作被定义为(6)。

F_l＝RELU(W_l*F_{lth_input}+B_l) (6)

在(6)中，W_l与B_l分别代表第l层卷积层的权重与偏执。F_l代表第l层卷积层输出的特征图，F_{lth_input}代表第l层卷积层的输入。RELU为激活函数，*代表卷积操作。

双目融合网络中的所有池化层都为最大池化。在利用反向传播算法训练网络时，通过最小化损失函数来学习卷积层、池化层与全连接层的参数。本发明的双目融合网络使用欧几里得函数，如公式(7)所示。

在(7)中，Y_i与y_i分别代表样本i的期望输出与真实输出。n代表批处理的大小。

3、立体视频质量评价结果与分析

本发明的实验在公开立体视频库NAMA3DS1-COSPAD1上进行。所使用的立体视频库共有110个不同质量的立体视频，包含H.264、JPEG 2000、锐化、降低分辨率，下采样与锐化等不同失真类型。

本发明方法与传统方法(BSVQE,FLOSIM3D,[3]中方法,3-D-PQI)，基于稀疏的方法([6]中的方法)与基于深度学习的方法(3D CNN+SVR,EDN)进行了比较。

表1展示了本发明所提方法在NAMA3DS1-COSPAD1立体视频数据库上的实验结果。

表1本发明方法在NAMA3DS1-COSPAD1数据库上的表现

	SROCC	PLCC	RMSE
				BSVQE[5]	0.9086	0.9239	-
FLOSIM<sub>3D</sub>[1]	0.9111	0.9178	0.4918
				Method in[3]	0.9101	0.9215	0.4702
3-D-PQI[2]	0.8848	0.9009	-
				Method in[6]	0.8467	0.9016	0.4679
3D CNN+SVR[7]	0.9231	0.9478	0.3514
				EDN[8]	0.9334	0.9301	-
本发明方法	0.9550	0.9581	0.3009

表2本发明方法在不同失真类型上的表现

	SROCC	PLCC	RMSE
				H.264	0.9603	0.9620	0.2798
JPEG2k	0.9515	0.9613	0.2976
				Other 3types	0.9192	0.9292	0.3936

表2展示了本发明所提方法在不同失真类型上的表现。

可以看到，本发明所提方法优于其他方法，且在不同失真类型上仍表现不错。首先，深度学习可以分层提取综合特征而不是传统方法中单一特征的简单叠加。其次，双目融合网络完全遵循大脑视觉皮层对3D视觉信号的响应原理，可以更好地提取3D内容中的深度特征。另外，时空显著性特征流包含了时间信息与空间信息，可以帮助网络从不同角度综合性地学习与评价立体视频的质量。

为了证明所提网络结构的优越性，表3展示了不同网络结构的表现性能。

表3不同融合结构的表现

	SROCC	PLCC	RMSE
				在④融合	0.9485	0.9512	0.3367
在③④融合	0.9483	0.9527	0.3294
				在②③④融合	0.9515	0.9543	0.3131
在①②③④融合	0.9550	0.9581	0.3009

在表3中，很明显所提网络(在①②③④融合)的表现性能最好。结果也表明，网络开始融合的越早，所得到的结果会越好。这也证实了深度感知早在大脑的初级视觉皮层V1区域就已初步形成，并在后续的V2区域增强，在V3区域进一步处理，在V4区域更加精细化。换句话说，双目视差与深度感知存在于低层与高层，同时低层的输出仍然在后续高层的深度感知中起到重要的作用。同时，我们仍然测试了网络结构“在①融合”“在①②融合”“在①②③融合”的表现性能。但是实验结果显示出欠拟合现象。这意味着高层的融合与低层的融合相比更为重要。因为高层提取的特征更为抽象，可以通过不同特征的组合表达出不同事物的本质，然而浅层特征不能做到这一点。从医学角度看，高级视觉皮层V4区域涉及到精细深度感知与3D成像，是必不可少的视觉中枢。

表4不同输入的表现

表4展示了不同输入表现。时空显著性特征流明显相较于源数据提升了网络的性能。这是因为本发明使用的时空显著性特征流充分反映了时空相关性，并帮助网络从不同角度提取特征。

参考文献：

[1]B.Appina,M.K.,S.S.Channappayya,A full reference stereoscopic videoquality assessment metric,in:2017 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2017,pp.2012.

[2]W.Hong,L.Yu,A spatio-temporal perceptual quality index measuringcompression distortions of three-dimensional video,IEEE Signal ProcessingLetters 25(2)(2018)214.

[3]H.Zhu,M.Yu,Y.Song,G.Jiang,A stereo video quality assessment methodfor compression distortion,in:2015 International Conference on ComputationalScience and Computational Intelligence(CSCI),2015,pp.481

[4]J.Han,T.Jiang,S.Ma,Stereoscopic video quality assessment modelbased on spatial-temporal structural information,in:2012 VisualCommunications and Image Processing,2012,pp.1.

[5]Z.Chen,W.Zhou,W.Li,Blind stereoscopic video quality assessment:From depth perception to overall experience,IEEE Transactions on ImageProcessing 27(2)(2018)721.

[6]J.Yang,C.Ji,B.Jiang,W.Lu,Q.Meng,No reference quality assessment ofstereo video based on saliency and sparsity,IEEE Transactions Broadcasting 64(2)(2018)341.

[7]Yang J,Zhu Y,Ma C,et al.Stereoscopic Video Quality AssessmentBased on 3D Convolutional Neural Networks[J].Neurocomputing,2018.

[8]Zhou W.,Chen Z.,Li W.(2018)Stereoscopic Video Quality PredictionBased on End-to-End Dual Stream Deep Neural Networks.Advances in MultimediaInformation Processing–PCM 2018.PCM 2018.Lecture Notes in Computer Science,vol 11166.Springer,Cham.

[9]D.H.Hubel,T.N.Wiesel,Receptive fields of single neurones in thecat’s striate cortex,Journal of Physiology 148(3)(1959)574.

[10]R.B.H.Tootell et al.,“Functional analysis of V3A and relatedareas in human visual cortex,”J.Neurosci.,vol.17,no.18,pp.7060–7078,1997.

[11]A.W.Roe et al.,“Toward a unified theory of visual area V4,”Neuron,vol.74,no.1,pp.12–29,2012.

[12]H.R.Wilson,“Computational evidence for a rivalry hierarchy invision,”Proc.Nat.Acad.Sci.USA,vol.100,no.24,pp.14499–14503,2003.

[13]A.W.Freeman,“Multistage model for binocular rivalry,”J.Neurophysiol.,vol.94,no.6,pp.4412–4420,2005.

[14]F.Tong,M.Meng,and R.Blake,“Neural bases of binocular rivalry,”Trends Cognit.Sci.,vol.10,no.11,pp.502–511,2006.

[15]A.Polonsky,R.Blake,J.Braun,and D.J.Heeger,“Neuronal activity inhuman primary visual cortex correlates with perception during binocularrivalry,”Nature Neurosci.,vol.3,no.11,pp.1153–1159,2000.

[16]Fang Y,Wang Z,Lin W.Video saliency incorporating spatiotemporalcues and uncertainty weighting[C]//IEEE International Conference onMultimedia and Expo.IEEE,2013:1-6.

[17]A.Krizhevsky,I.Sutskever,G.E.Hinton,Imagenet classification withdeep convolutional neural networks,in:International Conference on NeuralInformation Processing Systems,2012,pp.1097.

[18]Urvoy M,Barkowsky M,Cousseau R,et al.NAMA3DS1-COSPAD1:Subjectivevideo quality assessment database on coding conditions introducing freelyavailable high quality 3D stereoscopic sequences[C]//International Workshopon Quality of Multimedia Experience.IEEE,2012:109-114.

[19]W.J.M.Levelt,“The alternation process in binocular rivalry,”Brit.J.Psychol.,vol.57,nos.3–4,pp.225–238,1966.

[20]R.Blake,“Threshold conditions for binocular rivalry,”J.Experim.Psychol.,Hum.Perception Perform.,vol.3,no.2,pp.251–257,1977.

[21]M.Fahle,“Binocular rivalry:Suppression depends on orientation andspatial frequency,”Vis.Res.,vol.22,no.7,pp.787–800,1982.

[22]J.Ding and G.Sperling,“A gain-control theory of binocularcombination,”Proc.Nat.Acad.Sci.USA,vol.103,no.4,pp.1141–1146,2006。

Claims

1.一种基于双目融合网络与显著性的立体视频质量评价方法，其特征是，首先通过计算包括空间显著性与时间显著性的立体视频显著性得到立体视频每一帧的显著图片；得到的顺序排列的显著图片被称为左视频的时空显著性特征流与右视频的时空显著性特征流；然后，将左视频的时空显著性特征流与右视频的时空显著性特征流分别作为双目融合网络的两个输入；最后的立体视频质量由双目融合网络综合性地分析空间、时间与深度特征获得。

2.如权利要求1所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，所提出的双目融合网络整体框架基于Alexnet网络搭建，双目融合网络被分为三个部分：左通道、右通道与融合通道；其中，左通道与右通道分别包含四个卷积层与两个池化层，左通道用于提取纯粹的左视点特征，右通道用于提取纯粹的右视点特征，融合通道包含四个卷积层，三个池化层与三个全连接层，在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合，这四次融合与大脑V1、V2、V3、V4四个区域的深度感知相对应，即双目融合网络既在浅层融合，也在高层融合，显然，融合通道用于提取深度特征，最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

3.如权利要求1所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，融合操作方式是“合并”即，将特征图合并后输入到下一层，而不是将特征图的对应像素点相加。

4.如权利要求2所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，卷积操作被定义为(6)

F_l＝RELU(W_l*F_{lth_input}+B_l) (6)

5.如权利要求2所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，双目融合网络中的所有池化层都为最大池化，在利用反向传播算法训练网络时，通过最小化损失函数来学习卷积层、池化层与全连接层的参数，双目融合网络使用欧几里得函数，如公式(7)所示：