CN112437290A

CN112437290A - 基于双目融合网络与两步训练框架立体视频质量评价方法

Info

Publication number: CN112437290A
Application number: CN202011110071.9A
Authority: CN
Inventors: 李素梅; 刘安琪; 马帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-03-02

Abstract

本发明属于视频和图像处理领域，为提出立体视频质量评价方法，更加准确高效，且贴合人眼对立体视觉的感知，本发明：基于双目融合网络与两步训练框架立体视频质量评价方法，首先通过计算立体视频的时间显著性与空间显著性，对立体视频的每一帧生成显著性图片，得到的顺序排列的显著性图片称为左视频的时空显著性特征流与右视频的时空显著性特征流，并将其作为双目融合网络的两个输入；其次，分两步训练双目融合网络，即局部回归和全局回归，在第一步中，通过添加全连接层，用小块标签预训练所提网络的左通道CNN以及右通道CNN；在第二步中，基于第一步的权重模型，使用MOS值对整个网络进行训练。本发明主要应用于视频和图像处理场合。

Description

基于双目融合网络与两步训练框架立体视频质量评价方法

技术领域

本发明属于视频和图像处理领域，涉及到视频时空显著性的计算，不同失真块的质量分数的计算，以及深度学习在立体视频质量评价中的应用。具体涉及基于双目融合网络与两步训练框架立体视频质量评价方法。

背景技术

目前，立体视频已经广泛地应用在人类生活的各个领域。与此同时，也产生了一系列立体视频处理技术。但任何处理技术都可能对立体内容造成不同程度的失真，从而影响人们对立体视频的感知。因此，找到一个有效的立体视频质量评价方法是非常有必要的。一个有效的立体视频质量评价方法不仅可以衡量立体视频的失真程度，还可以为当代3D技术的发展提供技术支持。

到目前为止，立体视频质量评价方法可以分为三类：传统方法，基于稀疏表示的方法和基于深度学习的方法。在传统方法中，最近的文章都类似于[1]-[5]。不同的空间特征，时间特征和深度特征被提取，通过不同方式结合后获得立体视频的质量。但是传统的方法手动提取特征，而未被提取的特征就此丢失。因此，一些研究人员使用稀疏表示的方法来使立体视频中的信息得到充分利用。例如，[6]将从稀疏字典和堆叠自动编码器中提取的特征输入给支持向量机，以获得最终的质量分数。然而，传统方法和稀疏表示的方法都不符合大脑分层提取视觉信息的事实[7]。因此，开始有研究人员选择使用深度学习来完成立体视频质量评价任务，如[8][9]。深度学习可以分层次地提取综合特征，并通过深化网络层来获得更好的结果。

在深度学习的方法中，文献[8]设计了深层双流神经网络来分别评价左视图和右视图的质量。通过组合左右视图的质量以获得立体视频质量。文献[9]通过搭建3D卷积神经网络(CNN)来自动提取立体视频中的时空信息。简而言之，[8]在最后一步结合了左右视图的质量，而[9]首先对左右视图点进行简单的融合或提取差异，然后再对2D视频再进行处理。这些处理方式看起来稍微有些简单，而且忽略了左右视图之间的相关性。同样，无论是传统方法还是稀疏表示方法，对两个视图都有类似的处理方式，文章[6]首先融合了左右视图，文章[1][2][3][4]在最后一步中结合了左右视图的质量，且忽视了大脑的视觉融合机制。

虽然目前在医学中成像机制尚不清楚，但已有文献表明，立体视觉感知是大脑长期处理的结果，并且在低级和高级视觉区域均存在融合感知。当大脑在处理立体视觉信号时，双目视差首先在初级视觉皮层V1区域形成[10]。进一步地，在次级皮层区域V2中选择性增强深度感知。然后，3D视觉刺激导致视觉皮层V3区域激活[11]。V4视觉区域在3D成像中也起着至关重要的作用[12]。所以，在本发明中，为了尽可能地模仿这种医学机制，采用了从低层到高层的多重融合。此外，双目竞争还涉及V1，V2，V3和V4区域神经元活性的增强[13]。并且当发生双目竞争时，应通过分配不同的权重来融合左右视图信号[15][16]。这表明每个视觉区域都存在双目竞争以及双目融合。因此，本发明将“加权模块”嵌入到融合网络中来尽可能地模仿双目竞争。“加权模块”由文献[14]中的挤压和激励(SE)模块来实现，用以对来自不同视点的特征图进行加权。

此外，考虑到不同的视图，不同的框架以及不同的区域可能有不同的质量，本发明采取两步训练框架。在先前的深度学习方法中，研究人员将同一平均意见值(MOS值)分配给立体视频中的所有块，再将它们输入到网络中进行训练。这对于具有对称失真的立体视频可能是合理的。但是对于非对称失真，在训练网络时使用相同的标签来标记同一立体视频的不同视图和不同区域是不合理的。这也是难以准确评价非对称失真的原因。

发明内容

为克服现有技术的不足，本发明旨在基于人眼视觉机制，建立一种有效的基于双目融合网络与两步训练框架的立体视频质量评价方法。此评价方法更加准确高效，且贴合人眼对立体视觉的感知，同时在一定程度上推动了立体成像技术、无人驾驶技术的发展。本发明采取的技术方案是：基于双目融合网络与两步训练框架立体视频质量评价方法，首先通过计算立体视频的时间显著性与空间显著性，对立体视频的每一帧生成显著性图片，得到的顺序排列的显著性图片称为左视频的时空显著性特征流与右视频的时空显著性特征流，并将其作为双目融合网络的两个输入；其次，分两步训练双目融合网络，即局部回归和全局回归，在第一步中，通过添加全连接层，用小块标签预训练所提网络的左通道CNN以及右通道CNN；在第二步中，基于第一步的权重模型，使用MOS值对整个网络进行训练；此外，考虑到双目竞争，在融合通道中引入了加权模块为不同通道的特征图分配不同的权重，立体视频质量分数由全连接层将高维特征映射到输出域得到。

视频显著性:

通过计算包括空间显著性和时间显著性的视频显著性为视频中的每个帧生成显著图，立体视频的每一帧都将产生相应的显著图，获得的按顺序排列的显著图称为左视频或右视频的时空显著性特征流，并将它们作为网络的两个输入。

局部回归：

考虑到不同视图，不同帧和不同区域可能具有不同程度的失真，通过特征相似性(FSIM)算法为时空显著流中的每个失真块生成相应的质量分数，通过比较参考块和相应的失真块之间的相似性来获得失真块的质量分数，然后，将左视频的时空显著流中的失真块作为输入，用小块标签预训练所提出网络的左通道CNN；同样，右视频中的时空显著流中的失真块用于预训练所提出的网络的右通道CNN，两个通道的预训练过程是分开进行的，不相互干扰。

全局回归：

将左右视频的时空显著性特征流作为输入，基于第一步的权重模型，使用MOS值来训练整个双目融合网络，双目融合网络由三部分组成：左通道，右通道和融合通道，左通道提取纯粹的左视点特征，右通道提取纯粹的右视点特征，左通道包含四个卷积层和两个池化层，右通道也是如此，融合通道提取双目特征，包含四个卷积层，四个“加权模块”，三个池化层和三个全连接层，在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合。即本发明的双目融合网络既在浅层融合，也在高层融合，对于每次融合，所有特征图均送入加权模块，用以给不同通道的特征图赋予不同的权重，最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

其中，顺序地串联来自不同通道的所有特征图，并获得大小为高度H×宽度W×通道数C的输入X，全局池化层将每个特征图映射为一个数字，权重由后续的层进行学习，第一个全连接层把C个权重数字压缩为C/r个权重数字来降低计算量，其中r是缩放参数，经过ReLU激活函数后，第二个全连接层恢复回C个权重数字，最后经过sigmoid函数得到学习权重，在Scale层中，学习到的权重乘以对应的特征图，得到与X大小相同的输出

将SE块嵌入双目融合网络中，来实现为不同视图的特征图分配权重的功能，尽可能模仿双目竞争；

因此，卷积层定义为(1)：

F_l＝RELU(W_l*F_{lth_input}+B_l) (1)

其中W_l和B_l分别表示第l个卷积层的卷积核和偏置，F_l是第l个卷积层的输出特征图，F_{lth_input}是第l个卷积层的输入特征图，RELU是激活函数，*表示卷积运算，当使用反向传播来训练所提出的网络时，通过最小化欧几里德损失函数来学习卷积层、池化层与全连接层的参数。

本发明的特点及有益效果是：

本发明所提出的双目融合网络充分考虑了大脑对立体视觉信号的处理机制，并尽可能地依照此处理机制设计搭建，并引入“加权模块”为不同通道的特征图分配不同的权重来尽力模仿双目竞争现象，在理论与实践上均表明本方法具有有效性。此外，考虑到不同视图，不同帧和不同区域可能具有不同程度的失真，本发明首先进行局部回归，即给不同的块赋予不同的质量分数来进行预训练，解决了网络不易学习具有相同标签的非对称失真立体视频的问题。同时，采用时空显著性特征流而不是源数据作为网络的输入，充分考虑了时间与空间的相关性，进一步提升了网络的性能。本发明的基于双目融合网络与两步训练框架的立体视频质量评价方法在公共立体视频库上进行了实验，其实验结果十分接近主观质量评价的结果，准确性和可靠性也优于目前存在的其他立体视频质量评价方法。

附图说明：

图1提出的两步训练框架。第1步：使用FSIM评分进行局部回归。第2步：使用MOS值进行全局回归。双目融合网络：其中，“Conv”代表卷积层，“Pool”代表池化层，“fc”代表全连接层。每层中的小方块代表该层的卷积核，卷积核下的数字代表卷积核的大小。箭头上方的数字代表相应输出特征图的大小，表示为高度×宽度×特征图个数。

图2“加权模块”结构。

具体实施方式

为解决现有技术中存在的问题，本专利将“加权模块”嵌入到融合网络中来尽可能地模仿双目竞争，且采用了两步训练框架。第一步，通过FSIM算法[17]生成块的质量分数，并将它们用作标签来回归局部网络。第二步，基于第一步的权重模型，使用MOS值来进行全局回归。

为了反映视频时间与空间上的相关性，本发明选择时空显著性特征流作为双目融合网络的输入，时空显著性特征流通过计算视频的时间显著性与空间显著性得到，这也与空间与时间不是互相独立的理论是一致的。因为空间像素的变化为时域提供了运动信息与注意机制，反过来，时间流反映了视频中的空间显著性。

因此，本发明的主要贡献如下：首先，在网络中采取多次双目融合，而不是一个简单的单一融合，并且在每次融合之前为不同视图的特征图分配不同的权重，以尽可能地模仿双目竞争。其次，提出了一个两步训练框架，解决了网络不易学习具有相同标签的非对称失真立体视频的问题。第三，利用时空显著性特征流作为网络的输入，以确保双目融合网络能够综合性的学习与分析空间、时间与深度特征。

本发明首先通过计算立体视频的时间显著性与空间显著性，对立体视频的每一帧生成显著性图片。得到的顺序排列的显著性图片称为左视频的时空显著性特征流与右视频的时空显著性特征流，并将其作为双目融合网络的两个输入。其次，分两步训练双目融合网络，即局部回归和全局回归。在第一步中，通过添加全连接层，用小块标签预训练所提网络的左通道CNN以及右通道CNN。在第二步中，基于第一步的权重模型，使用MOS值对整个网络进行训练。此外，考虑到双目竞争，在融合通道中引入了“加权模块”为不同通道的特征图分配不同的权重。

视频显著性:

本项工作使用[18]中的方法，通过计算视频显著性(包括空间显著性和时间显著性)为视频中的每个帧生成显著图。应注意，立体视频的每一帧都将产生相应的显著图，获得的按顺序排列的显著图称为左视频或右视频的时空显著性特征流，并将它们作为网络的两个输入。

局部回归：

考虑到不同视图，不同帧和不同区域可能具有不同程度的失真，本发明通过FSIM算法[17]为时空显著流中的每个失真块生成相应的质量分数。通过比较参考块和相应的失真块之间的相似性来获得失真块的质量分数。然后，将左视频的时空显著流中的失真块作为输入，用小块标签预训练所提出网络的左通道CNN。同样，右视频中的时空显著流中的失真块用于预训练所提出的网络的右通道CNN。值得注意的是，两个通道的预训练过程是分开进行的，不相互干扰。因此，两个通道的CNN网络可以学习关于两个视图的更多细节特征。

全局回归：

将左右视频的时空显著性特征流作为输入，基于第一步的权重模型，使用MOS值来训练整个双目融合网络。双目融合网络由三部分组成：左通道，右通道和融合通道。左通道提取纯粹的左视点特征，右通道提取纯粹的右视点特征。左通道包含四个卷积层和两个池化层，右通道也是如此。融合通道提取双目特征，包含四个卷积层，四个“加权模块”，三个池化层和三个全连接层。在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合。即本发明的双目融合网络既在浅层融合，也在高层融合。对于每次融合，所有特征图均送入“加权模块”，用以给不同通道的特征图赋予不同的权重。最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

本专利选择非对称立体视频QI-SVQA数据库[19]进行测试。在QI-SVQA数据库中，共有9个源立体视频和两种失真类型：H.264和模糊失真。

下面结合技术方法详细说明本方法。

本发明模仿人脑立体视觉处理机制，提出了一种基于双目融合网络与两步训练框架的立体视频质量评价方法。首先，对立体视频的每一帧，通过计算其空间显著性与时间显著性生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流，然后将左、右视频时空显著性特征流作为网络的两个输入。其次，分两步训练双目融合网络，即局部回归和全局回归。在第一步中，不同的块被赋予不同的质量分数来训练局部网络。在第二步中，基于第一步的权重模型，使用MOS值对整个网络进行训练。此外，考虑到双目竞争，在融合通道中引入了“加权模块”为不同通道的特征图分配不同的权重。之后由网络自主的提取深度特征与时空特征。最后全连接层将高维的综合特征映射到输出域，得到立体视频的质量分数。其具体流程如图1所示。

具体步骤如下：

1、视频显著性:

本项工作使用[18]中的方法，通过计算视频显著性(包括空间显著性和时间显著性)为视频中的每一帧生成显著图。应注意，立体视频的每一帧都将产生相应的显著图，获得的按顺序排列的显著图称为左视频或右视频的时空显著性特征流，并将它们作为网络的两个输入。

2、局部回归：

考虑到不同视图，不同帧和不同区域可能具有不同程度的失真，本专利通过FSIM算法[17]为时空显著流中的每个失真块生成相应的质量分数。通过比较参考块和相应的失真块之间的相似性来获得失真块的质量分数。然后，将左视频的时空显著流中的失真块作为输入，通过添加全连接层，用小块标签对所提网络的左通道CNN进行预训练。同样，以右视频中的时空显著流中的失真块为输入，通过添加全连接层，用小块标签对所提网络的右通道CNN进行预训练。值得注意的是，两个通道的预训练过程是分开进行的，不相互干扰。因此，两个通道的CNN网络可以学习关于两个视图的更多细节特征。

3、全局回归：

将左右视频的时空显著性特征流作为输入，基于第一步的权重模型，使用MOS值来训练整个双目融合网络。双目融合网络由三部分组成：左通道，右通道和融合通道。左通道提取纯粹的左视点特征，右通道提取纯粹的右视点特征。左通道包含四个卷积层和两个池化层，右通道也是如此。融合通道提取双目特征，包含四个卷积层，四个“加权模块”，三个池化层和三个全连接层。在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合。即本发明的双目融合网络既在浅层融合，也在高层融合。对于每次融合，所有特征图均输入给“加权模块”，实现给不同通道的特征图赋予不同的权重的功能，以尽可能地模仿双目竞争机制。加权后的特征图通过融合通道的卷积层后，得到融合后的综合特征。同时，融合通道低层的输出作为高层的输入，对应人脑中低视觉区域的输出是高级视觉区域的输入的事实。最后，高层特征由全连接层映射到输出域得到每一帧的质量分数，通过平均每一帧的质量分数得到最后整个立体视频的质量分数。

“加权模块”由[14]中的挤压和激励(SE)模块实现。图2显示了“加权模块”的结构。“Concat”表示顺序地串联来自不同通道的所有特征图，并获得大小为高度H×宽度W×通道数C的输入X。全局池化层将每个特征图映射为一个数字。权重由后续的层进行学习。第一个全连接层把C个权重数字压缩为C/r个权重数字来降低计算量，其中r是缩放参数。经过线性整流(ReLU)激活函数后，第二个全连接层恢复回C个权重数字。最后经过S型(sigmoid)函数得到学习权重。在特征重分配(Scale)层中，学习到的权重乘以对应的特征图，得到与X大小相同的输出

本发明将SE块嵌入双目融合网络中，来实现为不同视图的特征图分配权重的功能，尽可能模仿双目竞争。

因此，卷积层定义为(1)：

F_l＝RELU(W_l*F_{lth_input}+B_l) (1)

其中W_l和B_l分别表示第l个卷积层的卷积核和偏置。F_l是第l个卷积层的输出特征图，F_{lth_input}是第l个卷积层的输入特征图。RELU是激活函数，*表示卷积运算。当使用反向传播来训练所提出的网络时，通过最小化欧几里德损失函数来学习卷积层、池化层与全连接层的参数。

3、立体视频质量评价结果与分析

本发明选择非对称立体视频QI-SVQA数据库进行测试。在QI-SVQA数据库中，共有9个源立体视频和两种失真类型：H.264和模糊失真。

表1展示了本发明提出方法在QI-SVQA立体视频数据库上的实验结果。可以看出，本发明方法与传统方法(3-D-PQI[2]，BSVQE[5]，Han等[3]，Yang等[4])以及稀疏表示方法(Yang-Ji et.al[6])相比，本发明的方法具有明显优势。这不仅是因为本发明的方法可以更好地感知立体视觉，而且因为深度学习可以分层次地提取综合特征。与深度学习的方法(3D CNN+SVR[9])相比，本发明方法仍具有较好的效果。一方面是由于本发明尽可能地模仿人类的低级和高级双目融合以及双目竞争，是对两种视点更好的处理方式，而3D CNN+SVR只是使用2D的差异视频来表示立体视频；另一方面，本发明的两步训练框架首先为不同的块分配不同的标签，用于预训练局部网络，这样会更适合非对称失真的情况。同时，时空显著性特征流的应用反映了人眼的时间信息和注意机制，也提高了性能。

表1本发明方法在QI-SVQA数据库上的表现

方法	SROCC	PLCC	RMSE
				3D-PQI[2]	0.8930	0.8666	-
BSVQE[5]	0.9387	0.9394	0.3543
				Yang et al.[4]	0.9175	0.9208	0.3709
Han et al.[3]	0.9398	0.9488	0.3500
				Yang-Ji et.al[6]	0.9111	0.9141	0.4018
3D CNN+SVR[9]	0.9426	0.9503	0.3333
				本发明的方法	0.9520	0.9531	0.3065

表2展示了不同网络结构的SROCC。i(i＝3,4,5)次融合意味着在融合通道有i次融合，对应于在左或右通道中有i个卷积层。为了直观地显示不同结构网络的性能，在进行训练时消除了局部回归的影响，直接训练整个网络。首先，当融合4次或5次时，网络表现出良好的性能。但就空间和时间复杂度而言，本发明选择4次融合。其次，可以明显地看出，“加权模块”的引入大大提高了网络性能，这表明为不同通道的不同特征图分配不同的权重符合主观视觉感知。

表2不同网络结构的SROCC

	3次融合	4次融合	5次融合
				没有“加权模块”	0.9243	0.9371	0.9371
有“加权模块”	0.9329	0.9458	0.9454

表3展示了局部回归的优势。由实验结果可以看出本发明的第一个训练步骤(局部回归)是有效的。局部回归使用每一块的分数作为标签，因此可以学习到左通道CNN和右通道CNN更多细节的特征。

表3局部回归的优点

方法	SROCC	PLCC	RMSE
				全局	0.9458	0.9502	0.3249
局部+全局	0.9520	0.9531	0.3065

表4不同输入的表现

方法	SROCC	PLCC	RMSE
				原始数据	0.9353	0.9413	0.3455
特征流	0.9520	0.9531	0.3065

表4展示了不同输入的效果。很明显，将特征流作为输入效果更好。因为时空显著性特征流完全反映了时空相关性，有助于网络从空间域和时域中提取特征。

为了证明所提出的网络结构的优势，本发明在不同的融合结构上进行了对比实验，如表5所示。

表5不同融合结构的表现

结构	SROCC	PLCC	RMSE
				在(1)融合	0.9407	0.9423	0.3491
在(1)(2)融合	0.9429	0.9431	0.3381
				在(1)(2)(3)融合	0.9436	0.9412	0.3498
在(4)融合	0.9416	0.9403	0.3506
				在(3)(4)融合	0.9428	0.9476	0.3332
在(2)(3)(4)融合	0.9442	0.9503	0.3287
				在(1)(2)(3)(4)融合	0.9458	0.9522	0.3249

在表5中，在(i)处融合意味着融合过程仅发生在融合通道中的位置(i)(i＝1,2,3,4)处，如图1所示。结果表明所提出的网络可以通过多个融合过程获得不同层次的全局时空特征和深度感知。比较在(1)融合，在(1)(2)融合，在(1)(2)(3)融合，在(1)(2)(3)(4)融合这四种结构，可以看出高层的融合可以提高网络性能，这是因为高层融合可以提取更多抽象和精细的综合特征，与高级视觉皮层区域涉及精细深度感知与3D成像[13]相对应。因此，高层的融合是必要的。比较在(4)融合，在(3)(4)融合，在(2)(3)(4)融合，在(1)(2)(3)(4)融合，可以看出低层的融合也是必要的。网络开始融合的越早，所得到的结果会越好。这表明低层融合的输出信息仍然在后续的高层的深度感知中起着重要作用。从医学角度考虑，大脑中的深度感知最初形成于V1区域[12]，较低视觉区域的输出信息被用作大脑中较高视觉区域的输入。此外，结果还表明，高层融合比低层融合更为重要。例如，将(1)(2)(3)处融合与(2)(3)(4)处的融合进行比较，(2)(3)(4)处融合的SROCC为0.9442，高于其在(1)(2)(3)处融合的值0.9436。这是因为在高层提取的特征更为抽象，可以通过不同特征的组合表达出不同事物的本质，然而浅层特征不能做到这一点。

参考文献：

[1]B.Appina,Manasa K.,and S.S.Channappayya,“A full referencestereoscopic video quality assessment metric,”in 2017IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),2017,pp.2012–2016.

[2]W.Hong and L.Yu,“A spatio-temporal perceptual quality indexmeasuring compression distortions of three dimensional video,”IEEE SignalProcessing Letters,vol.25,no.2,pp.214–218,2018.

[3]Han J,Jiang T,Ma S.Stereoscopic video quality assessment modelbased on spatial-temporal structural information[C]//Visual Communications&Image Processing.IEEE,2013.

[4]Yang,Jiachen,et al."A no-reference optical flow-based qualityevaluator for stereoscopic videos in curvelet domain."Information Sciences,2017,pp.414.

[5]Z.Chen,W.Zhou,and W.Li,“Blind stereoscopic video qualityassessment:From depth perception to overall experience,”IEEE Transactions onImage Processing,vol.27,no.2,pp.721–734,2018.

[6]J.Yang,C.Ji,B.Jiang,W.Lu,and Q.Meng，“No reference qualityassessment of stereo video based on saliency and sparsity,”IEEE Transactionson Broadcasting,vol.64,no.2,pp.341–353,2018.

[7]D.H Hubel and T.N Wiesel,“Receptive fields of single neurones inthe cat’s striate cortex,”Journal of Physiology,vol.148,no.3,pp.574,1959.

[8]Wei Zhou,Zhibo Chen,and Weiping Li,“Stereoscopic video qualityprediction based on end-to-end dual stream deep neural networks,”in Advancesin Multimedia Information Processing–PCM 2018.2018,Springer InternationalPublishing.

[9]Jiachen Yang,Yinghao Zhu,Chaofan Ma,Wen Lu,and Qinggang Meng,“Stereoscopic video quality assessment based on 3d convolutional neuralnetworks,”Neurocomputing,2018.

[10]Keitha.May and Zhaoping Li,“Efficient coding theory predicts atilt aftereffect from viewing untilted patterns,”Current Biology Cb,vol.26,no.12,pp.1571–1576,2016.

[11]R B Tootell,J D Mendola,N K Hadjikhani,P J Ledden,A K Liu,J BReppas,M I Sereno,and A M Dale,“Functional analysis of v3a and related areasin human visual cortex,”Journal of Neuroscience,vol.17,no.18,pp.7060–78,1997.

[12]Anna W.Roe,Leonardo Chelazzi,Charles E.Connor,Bevil R.Conway,Ichiro Fujita,Jack L.Gallant,Haidong Lu,and Wim Vanduffel,“Toward a unifiedtheory of visual area v4,”Neuron,vol.74,no.1,pp.12–29,2012.

[13]A Polonsky,R Blake,J Braun,and D.J.Heeger,“Neuronal activity inhuman primary visual cortex correlates with perception during binocularrivalry.,”Nature Neuroscience,vol.3,no.11,pp.1153–9,2000.

[14]J.Hu,L.Shen,S.Albanie,G.Sun,and E.Wu.(2017).“Squeeze-and-excitation networks.”[Online].Available:https://arxiv.org/abs/1709.01507.

[15]W.J.M Levelt,“The alternation process in binocular rivalry.,”British Journal of Psychology,vol.57,no.3-4，pp.225–238，2011.

[16]Ding Jian and Sperling George,“A gain-control theory of binocularcombination,”Proceedings of the National Academy of Sciences of the UnitedStates of America,vol.103,no.4,pp.1141–1146,2006.

[17]L.Zhang,L.Zhang,X.Mou and D.Zhang,"FSIM:A Feature SimilarityIndex for Image Quality Assessment,"in IEEE Transactions on Image Processing,vol.20,no.8,pp.2378-2386,Aug.2011.

[18]Y.Fang,Z.Wang,W.Lin,and Z.Fang,“Video saliency incorporatingspatiotemporal cues and uncertainty weighting,”IEEE Transactions on ImageProcessing,vol.23,no.9,pp.3910–3921,Sept 2014.

[19]Qi,Feng,et al."Stereoscopic video quality assessment based onvisual attention and just-noticeable difference models."Signal Image&VideoProcessing,vol.10,no.4,pp.737-744,2016。

Claims

1.一种基于双目融合网络与两步训练框架立体视频质量评价方法，其特征是，首先通过计算立体视频的时间显著性与空间显著性，对立体视频的每一帧生成显著性图片，得到的顺序排列的显著性图片称为左视频的时空显著性特征流与右视频的时空显著性特征流，并将其作为双目融合网络的两个输入；其次，分两步训练双目融合网络，即局部回归和全局回归，在第一步中，通过添加全连接层，用小块标签预训练所提网络的左通道CNN以及右通道CNN；在第二步中，基于第一步的权重模型，使用MOS值对整个网络进行训练；此外，考虑到双目竞争，在融合通道中引入了加权模块为不同通道的特征图分配不同的权重，立体视频质量分数由全连接层将高维特征映射到输出域得到。

2.如权利要求1所述的基于双目融合网络与两步训练框架立体视频质量评价方法，其特征是，视频显著性具体是：通过计算包括空间显著性和时间显著性的视频显著性为视频中的每个帧生成显著图，立体视频的每一帧都将产生相应的显著图，获得的按顺序排列的显著图称为左视频或右视频的时空显著性特征流，并将它们作为网络的两个输入。

3.如权利要求1所述的基于双目融合网络与两步训练框架立体视频质量评价方法，其特征是，局部回归具体是：考虑到不同视图，不同帧和不同区域可能具有不同程度的失真，通过特征相似性(FSIM)算法为时空显著流中的每个失真块生成相应的质量分数，通过比较参考块和相应的失真块之间的相似性来获得失真块的质量分数，然后，将左视频的时空显著流中的失真块作为输入，用小块标签预训练所提出网络的左通道CNN；同样，右视频中的时空显著流中的失真块用于预训练所提出的网络的右通道CNN，两个通道的预训练过程是分开进行的，不相互干扰。

4.如权利要求1所述的基于双目融合网络与两步训练框架立体视频质量评价方法，其特征是，全局回归具体是：将左右视频的时空显著性特征流作为输入，基于第一步的权重模型，使用MOS值来训练整个双目融合网络，双目融合网络由三部分组成：左通道，右通道和融合通道，左通道提取纯粹的左视点特征，右通道提取纯粹的右视点特征，左通道包含四个卷积层和两个池化层，右通道也是如此，融合通道提取双目特征，包含四个卷积层，四个“加权模块”，三个池化层和三个全连接层，在左右通道的每次卷积操作之后均有一次融合操作，故融合通道共有四次融合。即本发明的双目融合网络既在浅层融合，也在高层融合，对于每次融合，所有特征图均送入加权模块，用以给不同通道的特征图赋予不同的权重，最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

5.如权利要求1所述的基于双目融合网络与两步训练框架立体视频质量评价方法，其特征是，其中，顺序地串联来自不同通道的所有特征图，并获得大小为高度H×宽度W×通道数C的输入X，全局池化层将每个特征图映射为一个数字，权重由后续的层进行学习，第一个全连接层把C个权重数字压缩为C/r个权重数字来降低计算量，其中r是缩放参数，经过ReLU激活函数后，第二个全连接层恢复回C个权重数字，最后经过sigmoid函数得到学习权重，在Scale层中，学习到的权重乘以对应的特征图，得到与X大小相同的输出

因此，卷积层定义为(1)：

F_l＝RELU(W_l*F_{lth_input}+B_l) (1)