CN109831664A

CN109831664A - 基于深度学习的快速压缩立体视频质量评价方法

Info

Publication number: CN109831664A
Application number: CN201910034440.1A
Authority: CN
Inventors: 李素梅; 马帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2019-05-31
Anticipated expiration: 2039-01-15
Also published as: CN109831664B

Abstract

本发明属于视频和图像处理领域，为基于人眼视觉机制，建立一种有效的基于深度学习的快速立体视频质量评价方法。此评价方法更加准确高效，不仅贴近人眼质量，还具有低时间成本，同时在一定程度上推动了立体成像技术、无人驾驶技术的发展。为此，本发明采取的技术方案是，基于深度学习的快速压缩立体视频质量评价方法，首先，对立体视频的左右视点进行融合，得到单视点视频，然后提取单视点视频中的关键帧，关键帧与部分非关键帧一起作为卷积神经网络CNN的输入，最后得到立体视频的质量。本发明主要应用于视频和图像处理。

Description

基于深度学习的快速压缩立体视频质量评价方法

技术领域

本发明属于视频和图像处理领域，涉及到图像融合、视频关键帧提取方法的改进优化，以及深度学习在立体视频质量评价中的应用。具体涉及基于深度学习的快速压缩立体视频质量评价方法。

背景技术

随着多媒体与网络技术的快速发展，立体视频已经被广泛地应用在航空航天、医疗、教育、娱乐等多个领域。与此同时，压缩、传输、显示等众多3D技术也应运而生。任何一种3D处理技术都可以造成立体视频的失真，从而影响人们的观看感受。如何度量立体视频的失真程度，如何评价立体视频的质量，如何评价任何一种3D技术的质量成为关键问题。立体视频质量评价方法可以解决上述的关键问题。本文提出一种压缩立体视频的质量评价方法。因为压缩技术是最重要的3D技术之一，也是产生失真的重要因素。

目前，已经有大量的学者对立体视频质量评价方法展开研究。现有的立体视频质量评价方法都是基于传统的手动提取特征的方法^[1,2,3,4,5]。早期的研究者^[6,7,8,9]通过应用图像质量评价方法(SSIM^[10]、PSNR、C4^[11]、VSI^[12])得到立体视频的每一帧图像的质量，再平均每一帧的质量得到立体视频左视点质量和右视点质量，最后平均左右视点的质量得到立体视频的质量。这样的做法显然忽略了立体视频中特有的信息和人眼视觉特性。后来，立体视频中的空间信息、时域信息、深度信息以及视点间的相关性被注意到。大多数文章的做法与文献[13][14]相类似，立体视频的质量由深度信息、时域信息和空间信息相结合得到。文献[15]中，用深度感知质量独立地代表立体视频的质量。文献[16]采用了显著性与稀疏的方法获得立体视频的质量，取得了重大突破。以上的方法都是针对所有失真类型的立体视频质量评价方法。但是，也有很多针对压缩失真的立体视频的质量评价方法。比如，文献[17]通过分别在空域和时域上考虑对比度和运动掩蔽效应得到压缩立体视频的质量。文献[18]在人眼视觉特性(HVS)的基础上定义了人眼感兴趣区域，通过在人眼感兴趣区域上融合左右视点质量和深度感知质量获得压缩立体视频的质量。文献[19]提出的方法来在非对称的压缩立体视频的质量的测量上取得了很好的效果。

所有上述提到的方法都是传统的手动提取特征的方法。但是随着深度学习的发展，深度学习已经成功应用到了众多领域。文章[20][21]就将深度学习应用到了平面视频质量评价领域。但是到目前为止，深度学习还没有被应用到立体视频质量评价领域。因此，本文提出用深度学习评价立体视频质量的方法。这种方法也被证明是符合立体视觉在人脑中处理过程的。文献[22]已经表明，人脑处理视觉信息的过程是分层的。在3D视觉信息通过瞳孔后，依次在大脑的V1区域提取边缘信息，V2区域提取基本形状或局部目标，V3区域感知立体视觉^[23]，最终在V4区域感知细节并形成3D成像^[24]。而深度学习可以模仿视觉在人脑中的形成过程，通过网络的加深完成复杂特征的抽象表达。因此，用深度学习方法提取的综合特征可以弥补以往传统方法手动提取的单特征表现不佳的缺点。

发明内容

为克服现有技术的不足，本发明旨在基于人眼视觉机制，建立一种有效的基于深度学习的快速立体视频质量评价方法。此评价方法更加准确高效，不仅贴近人眼质量，还具有低时间成本，同时在一定程度上推动了立体成像技术、无人驾驶技术的发展。为此，本发明采取的技术方案是，基于深度学习的快速压缩立体视频质量评价方法，首先，对立体视频的左右视点进行融合，得到单视点视频，然后提取单视点视频中的关键帧，关键帧与部分非关键帧一起作为卷积神经网络CNN的输入，最后得到立体视频的质量。

对立体视频的左右视点进行融合具体是采用双目融合算法：对于立体视频的每一帧，转换RGB彩色空间到YIQ彩色空间，分别在Y,I,Q三个通道内做小波变换，小波函数采用Daubechies函数，通过小波变换得到每个通道的四个系数：低频系数、水平高频系数、竖直高频系数和对角高频系数，然后根据公式：

选择融合图像每个通道的四个系数，其中，Select_t(i,j)代表在单视点视频第t帧的第(i,j)个像素点的融合系数，coff_l_t(i，j)代表左视点第t帧的第(i，j)个像素点的系数，coff_r_t(i,j)代表右视点第t帧的第(i,j)个像素点的系数，d代表梯度，var代表方差，每个通道的四个系数都按照公式所示进行选择，然后，根据选出来的四个系数，对每个颜色通道做小波反变换，最后将YIQ颜色空间转换成RGB颜色空间，得到单视点视频的每一帧。

提取单视点视频中的关键帧具体步骤：首先将视频的每一帧二值化，选取前景区域作为基本的块，根据公式Block difference＝histogram of 1st-histogram of 2nd计算相邻帧对应块的块差别，其中，Block difference代表块差别，histogram of 1st代表前一帧相应块的x²直方图^[29]，histogram of 2nd代表后一帧相应块的x²直方图，再根据公式Threshold＝mean deviation+(a*standard deviation)计算阈值，其中，mean deviation代表所有帧块差别的均值，standard deviation代表所有帧块差别的方差，a为常数，这里取1，如果这一帧的块差别大于阈值，即判断为是关键帧。

卷积神经网络CNN选用在大数据集Imagenet上训练好的网络模型Alexnet，具体进行迁移学习：修改Alexnet最后一层的输出为5，代表立体视频的五种质量，用立体视频的数据集微调Alexnet网络，得到立体视频的质量。

进一步地，双目融合算法的具体流程如下：

(a)将立体视频的每一帧从RGB彩色空间转换为YIQ彩色空间；

(b)分别对Y,I,Q三个通道做小波变换，小波函数采用Daubechies函数；此时对于每一个视点的每一个颜色通道，得到四个系数：低频系数、水平高频系数、竖直高频系数和对角高频系数；

(c)低频系数、水平高频系数、竖直高频系数和对角高频系数都按照公式(1)所示的方式进行选择，得到融合帧的每一个通道的四个系数。

其中，Select_t(i，j)代表在单视点视频第t帧的第(i，j)个像素点的融合系数。coff_l_t(i，j)代表左视点第t帧的第(i，j)个像素点的系数，coff_r_t(i，j)代表右视点第t帧的第(i，j)个像素点的系数。d代表梯度，var代表方差。

(d)对融合帧的Y,I,Q三个通道分别做小波逆变换，再将YIQ颜色空间转换为RGB颜色空间，得到融合帧。

进一步地，关键帧的获取选取更符合人眼视觉机制的前景区域作为处理的基本单元，具体步骤如下：

(a)读入视频的每一帧，选取每一帧不同的前景区域作为不同的块；

(b)计算每个块的x²直方图，根据公式(2)计算相邻帧对应块的块差别；

Block difference＝histogram of 1st-histogram of 2nd (2)

其中，Block difference代表块差别，histogram of 1st代表前一帧相应块的x²直方图，histogram of 2nd代表后一帧相应块的x²直方图；

(c)计算所有帧块差别的均值mean deviation；

(d)计算所有帧块差别的方差standard deviation；

(e)根据公式(3)计算阈值，如果这一帧块差别的值大于阈值，则判定为关键帧；

Threshold＝mean deviation+(a*standard deviation) (3)

其中，Threshold为阈值。a为常数。

选取CNN网络Alexnet完成立体视频质量评价的任务，Alexnet网络共有8层，包括五个卷积层和三个全连接层，在第一个、第二个、第五个卷积层后面各有一个池化层，卷积层的定义如公式(4)所示：

F_i(Y)＝RELU(W_i*F_i-1(Y)+B_i) (4)

其中，W_i和B_i分别代表第i个卷积层的卷积核和偏置，F_i是第i个卷积层的输出，ReLU是激活函数，"*"代表卷积操作；

池化层的定义如公式(5)所示：

P＝Max{p_k|k＝1，2，3，…，N} (5)

其中，p_k是特征图中第k个位置的值，N是池化层中卷积核的大小。P是最大池化的结果，即池化层的输出。

在迁移学习部分，随机选择部分非关键帧加入到训练集样本中，选用75％的单视点视频帧用于训练，余下的25％的单视点视频帧用于测试，训练集与测试集之间并无交叉，且所有帧以无重叠227×227大小的块的形式作为网络的输入；

然后，Alexnet网络的最后一层全连接层的输出由1000修改为5，代表五种质量的立体视频。标签0，1，2，3，4用来区分不同DMOS值的立体视频的质量；最后，在已经训练好的Alexnet caffemodel上微调Alexnet网络；与此同时，网络最后一层全连接层的输出与权重分布会被完全改变。

本发明的特点及有益效果是：

都表明本方法适用于评价不同压缩类型与失真程度的立体视频质量。本发明的方法在三个立体视频库的所有压缩立体视频上进行了实验，实验表明本方法的评价结果十分接近主观质量评价的结果，其准确性和可靠性优于目前其他立体视频客观评价方法。

附图说明：

图1本方法的具体流程。

图2双目融合算法的具体流程。

图3关键帧提取算法的具体流程。

具体实施方式

在深度学习的基础上，本发明仍然使用了迁移学习的方法。动机如下：深度学习是通过数据驱动，并通过反向传播算法来更新每一层的权重。所以训练一个性能优越的网络需要往往需要大量的数据和时间。虽然单个立体视频蕴含的数据量巨大，但是现有的数据库只能提供有限个数的立体视频。所以没有足够的立体视频样本去训练一个全新的网络。因此本发明选择使用迁移学习，通过在现有网络模型上训练，来完成立体视频质量评价的任务，即用先验知识弥补训练样本不足的缺点。在现有的卷积神经网络(CNN)^[25]的模型中，本发明选择了Alexnet^[26]网络。

上述文献^{[13][14][17][18]}的另一个共同点是以上文章通常先得到左视点质量和右视点质量，最后融合左右视点的质量得到立体视频的质量。这样的做法其实是不符合人眼视觉系统的。文献[27]已经表明：双目视差早在大脑的V1层就已初步形成。也就是说，双目视差早在视觉的浅层区域就已经形成，而不是在最后一步再进行融合。因此，本发明提出先利用双目融合算法，将左右视点的质量进行融合。融合完成后，将得到单视点视频。

然后，利用关键帧提取算法在单视点视频中提取关键帧。关键帧与部分非关键帧一起作为网络的输入。关键帧可以保证训练数据的完备性，从而保证网络可以学习到更完备的综合特征。又因为关键帧的数量有限，有限的数据不足以训练整个网络，所以再随机选取部分非关键帧，一起作为网络的输入。

基于以上工作，低时间成本是本方法的一大优势。双目融合算法减少了大量数据量，从而节省了网络大量的训练时间。不仅如此，迁移学习加快了网络的收敛，再次节省了网络的训练时间。

本文提出一种基于深度学习的快速压缩立体视频质量评价方法。利用深度学习和迁移学习可以提取更符合人脑的综合特征。最关键的是这种方法目前还没有被应用到立体视频质量评价领域。其次，利用双目融合算法，先对左视点和右视点进行融合，得到单视点视频。然后利用关键帧提取算法，提取单视点视频中的关键帧。关键帧与部分非关键帧一起作为网络的输入，保证网络可以学习到更完备的综合特征。

本发明先将立体视频分解为帧序列，再通过双目融合算法对左右视点进行融合，从而得到单视点视频。然后利用关键帧提取算法对单视点视频提取关键帧。关键帧与部分非关键帧一起作为网络的输入。最后在修改Alexnet网络最后一层参数的基础上，微调整个网络的权重，得到立体视频的质量。

双目融合算法：

对于立体视频的每一帧，转换RGB彩色空间到YIQ彩色空间。分别在Y,I,Q三个通道内做小波变换，小波函数采用Daubechies函数。通过小波变换可以得到每个通道的四个系数：低频系数、水平高频系数、竖直高频系数和对角高频系数。然后根据公式选择融合图像每个通道的四个系数。其中，Select_t(i，j)代表在单视点视频第t帧的第(i，j)个像素点的融合系数。coff_l_t(i，j)代表左视点第t帧的第(i，j)个像素点的系数，coff_r_t(i，j)代表右视点第t帧的第(i，j)个像素点的系数。d代表梯度，var代表方差。每个通道的四个系数都按照公式所示进行选择。然后，根据选出来的四个系数，对每个颜色通道做小波反变换。最后将YIQ颜色空间转换成RGB颜色空间，得到单视点视频的每一帧。

关键帧提取算法：

本算法是在文献[28]基础上的改进算法。在文献[28]中，研究者选择规则的m行n列的块作为处理的基本单元。在本发明中，选择更能够引起人眼注意的前景区域作为处理的基本单元。其具体的实现方法如下。

首先将视频的每一帧二值化，选取前景区域作为基本的块。根据公式Blockdifference＝histogram of 1st-histogram of 2nd计算相邻帧对应块的块差别。其中，Block difference代表块差别，histogram of 1st代表前一帧相应块的x²直方图^[29]，histogram of 2nd代表后一帧相应块的x²直方图。再根据公式Threshold＝meandeviation+(a*standard deviation)计算阈值。其中，mean deviation代表所有帧块差别的均值，standard deviation代表所有帧块差别的方差。a为常数，这里取1。如果这一帧的块差别大于阈值，即判断为是关键帧。

深度学习：选用在大数据集Imagenet上训练好的网络模型Alexnet。

迁移学习：修改Alexnet最后一层的输出为5，代表立体视频的五种质量。用立体视频的数据集微调Alexnet网络，得到立体视频的质量。

本发明在三个公开的立体视频库上进行了实验，分别是NAMA3DS1数据库^[30]，SVQA数据库^[31]和3D-HEVC数据库^[32]。在NAMA3DS1数据库中，有十种场景的1920×1080 3D全高清立体视频，共80个对称失真的立体视频，包含H.264和JPEG 2000两种失真类型。在SVQA数据库中，有九种场景的源立体视频，总共225个不同失真程度的立体视频片段，包含H.264失真类型。在3D-HEVC中，有六种场景的立体视频，共96个不同失真程度的立体视频，包含HEVC失真类型。

下面结合技术方法详细说明本方法。

本发明模仿人脑处理立体视觉信息的过程，提出了一种基于深度学习的快速立体视频质量评价的方法。首先，对立体视频的左右视点进行融合，得到单视点视频。然后提取单视点视频中的关键帧，关键帧与部分非关键帧一起作为网络的输入。最后，在修改Alexnet网络最后一层的参数后，微调Alexnet网络，得到立体视频的质量。其具体流程图如图1所示。

具体步骤如下：

1、单视点视频的获取

首先将立体视频分解为左视点帧序列和右视点帧序列。然后利用双目融合算法，对每一帧的左右视点图像都进行融合，得到单视点视频帧序列。双目融合算法的具体流程图如图2所示，其具体步骤如下：

(a)将立体视频的每一帧从RGB彩色空间转换为YIQ彩色空间。

(b)分别对Y,I,Q三个通道做小波变换，小波函数采用Daubechies函数。此时对于每一个视点的每一个颜色通道，得到四个系数：低频系数、水平高频系数、竖直高频系数和对角高频系数。

与其他小波变换的方法不同的是，本发明采取在每一个通道上分别进行小波变换的方式，而不是将彩色图像转成灰度图后再进行小波变换。这样做可以保留更多的结构、纹理、细节等空间信息。且选择系数的规则是在左右视点上建立起来的，保证了深度信息，从而保证融合帧序列可以代表整个立体视频的质量。

2、关键帧的获取

本关键帧提取算法对文献[28]做出了如下修改：选取更符合人眼视觉机制的前景区域作为处理的基本单元，而不是选取规则的m行n列的块作为处理的基本单元。改进后的关键帧提取算法的具体流程图如图3所示，其具体步骤如下：

(a)读入视频的每一帧，选取每一帧不同的前景区域作为不同的块。

(b)计算每个块的x²直方图^[29]，根据公式(2)计算相邻帧对应块的块差别。

Block difference＝histogram of 1st-histogram of 2nd (2)

其中，Block difference代表块差别，histogram of 1st代表前一帧相应块的x²直方图^[29]，histogram of 2nd代表后一帧相应块的x²直方图。

(c)计算所有帧块差别的均值mean deviation。

(d)计算所有帧块差别的方差standard deviation。

(e)根据公式(3)计算阈值，如果这一帧块差别的值大于阈值，则判定为关键帧。

Threshold＝mean deviation+(a*standard deviation) (3)

其中，Threshold为阈值。a为常数，这里取为1。

3、深度学习的网络

深度学习的网络选取CNN网络Alexnet完成立体视频质量评价的任务。Alexnet网络共有8层，包括五个卷积层和三个全连接层。在第一个、第二个、第五个卷积层后面各有一个池化层。如图1所示，橘红色的块代表卷积层，绿色的块代表池化层，蓝色的块代表全连接层。每层下面的数字代表每一层的输出的个数。

卷积层的定义如公式(4)所示。

F_i(Y)＝RELU(W_i*F_i-1(Y)+B_i) (4)

其中，W_i和B_i分别代表第i个卷积层的卷积核和偏置，F_i是第i个卷积层的输出。ReLU是激活函数，"*"代表卷积操作。

池化层的定义如公式(5)所示。

P＝Max{p_k|k＝1，2，3，…，N} (5)

4、迁移学习

在迁移学习部分，最重要的是如何保证在立体视频数量有限的情况下，网络仍然可以学习到充足的立体视频质量的综合特征。这就需要完备的训练集去保障。训练集应该保证具备立体视频的所有特征，从而保证网络可以学习到完整的立体视频质量的信息。因此，训练集包含由本发明的关键帧提取算法提取的所有关键帧。考虑到关键帧的数量有限，不足以训练整个网络，因此随机选择部分非关键帧加入到训练集样本中。本发明中75％的单视点视频帧用于训练，余下的25％的单视点视频帧用于测试。训练集与测试集之间并无交叉，且所有帧以无重叠227×227大小的块的形式作为网络的输入。

然后，Alexnet网络的最后一层全连接层的输出由1000修改为5，代表五种质量的立体视频。标签0，1，2，3，4用来区分不同DMOS值的立体视频的质量。最后，在已经训练好的Alexnet caffemodel上微调Alexnet网络。与此同时，网络最后一层全连接层的输出与权重分布会被完全改变。

5、立体视频质量评价结果与分析

本发明的实验在三个公开的立体视频库上进行，分别是NAMA3DS1_COSPAD1数据库、SVQA数据库、3D-HEVC数据库，一共包含H.264、JPEG2000和HEVC三种压缩类型。本发明采用Pearson相关系数(PLCC)、Spearman等级相关系数(SROCC)和均方误差根(RMSE)作为主客观评价结果一致性的度量方法。PLCC和SROCC越接近1，RMSE越接近0，评价效果越好。

本发明与七种立体视频质量评价的方法进行了比较。表1展示了本发明在NAMA3DS1_COSPAD1数据库上的效果，表2和表3分别展示了本发明在SVQA和3D-HEVC数据库上的效果。

表1在NAMA3DS1_COSPAD1数据库上不同方法的性能比较

表2在SVQA数据库上不同方法的比较

方法	PLCC	SROCC	RMSE
				BSVQE	0.9371	0.9379	-
[16]中方法	0.9254	0.9235	0.4018
				[14]中方法	0.9488	0.9398	0.3500
3-D-PQI	0.8666	0.8930	-
				本发明	0.9884	0.9881	0.1628

表3在3D-HEVC数据库上不同方法的比较

方法	PLCC	SROCC	RMSE
				BSVQE	-	0.8970	-
本发明	0.9571	0.9628	0.4307

从三个表中可以看出，本发明的方法不管是在H.264，JPEG2000还是HEVC压缩类型上，其效果都较其他七种方法显示出明显的优势。本发明在三种压缩类型立体视频上的PLCC、SROCC均超过了0.95，其中H.264和JPEG2000的PLCC和SROCC均超过了0.98。深度学习的应用无疑是取得好结果的直接原因。CNN可以提取立体视频中的综合信息，其分层提取特征的过程更符合人脑处理视觉的过程。迁移学习的使用与关键帧提取算法也为提高实验结果做出了贡献。迁移学习利用其丰富的先验知识提高了网络性能，弥补了立体视频训练样本不足的缺点。关键帧为训练数据的完备性提供保障，从而提高网络的性能。另外，本方法将立体视频的质量分为5类，而不是与主观分数值进行拟合，从而再次提升了实验结果。与其他方法的时空结构相比，本方法的框架结构更为简单，再次证明本方法是高效可信的。

时间成本是评价一个方法好坏的重要指标。低时间成本是本发明中的一大优势。为了进一步证明本方法的有效性，表4展示了双目融合算法在时间上的表现效果，表5展示了迁移学习在时间上的表现效果。

表4双目融合算法的时间性能比较

如表4所示，L&R代表将左右视点的帧分别在Alexnet网络上训练的双通道的方法，即像其他方法一样在网络最后的全连接层融合左右视点质量的方法。Fusion代表将单视点视频帧在Alexnet网络上训练的单通道的方法，而不是将左右视点的质量在最后进行融合。也就是说，L&R相当于双通道方法，Fusion相当于单通道方法。从表4中可以看出，在达到相同的准确率条件下，L&R花费的训练时间是Fusion的两倍。也就是说，Fusion的效率是L&R的两倍。在不影响网络性能情况下，双目融合算法将左右视点融合成单视点，集中了立体视频的质量并为网络训练节省了大量时间。事实上，Fusion的方法更符合大脑的视觉处理过程。因为本双目融合算法没有那么复杂，所以它不能提高网络的性能。但它仍然在相同的准确率的前提下，以更短的时间完成了立体视频质量评价的任务。这也从另一个角度说明，深度学习是一个十分智能的方法。深度学习可以像人脑一样，又快又准地判断出立体视频质量中微小的差别。

如表5所示，T代表直接在已经训练好的Alexnet网络上微调的方法。D代表直接用立体视频数据训练一个新的Alexnet网络的方法。显然，T花费的训练时间是D的三分之一。这是因为迁移学习借用了大量的先验知识，加速了网络的收敛。而且迁移学习可以提升准确率，提高网络的性能。这也证明了迁移学习可以弥补有限立体视频训练样本带来的不足。

表5迁移学习的时间性能比较

为了进一步证明改进的关键帧提取算法的有效性，表6展示了三组对比试验。随机选取75％的帧作为训练集，余下的作为测试集；使用文献[28]的方法选取关键帧，按照本发明中所述方法制作数据集；使用本发明改进的关键帧提取算法选取关键帧，再制作数据集。为保证实验的准确性，在后两个对比试验中，训练集包含相同的非关键帧部分，即只有关键帧一个变量。由表6可以看到，随机选取帧作为训练集具有最低的准确率。这种结果是可以预见的，因为随机选取的帧系列不能很好代表整个立体视频，所以也不能学习到完整的特征。并且由表6可以看出，改进后的关键帧提取算法更有效，网络性能得到有效提升。这是因为本发明选择的前景区域更为显著，更容易引起人眼的注意，保证能够提取到具有关键时域信息的帧。

表6关键帧提取算法的性能比较

参考文献：

[1]Zhu Z,Wang Y,Bai Y,et al.New Metric for Stereo Video QualityAssessment[C]//2009Symposium on Photonics and Optoelectronics.2009:1-4.

[2]Genco M L,T,N.Stereo Video Quality assessment using SSIMand depth maps[C]//Signal Processing and Communication ApplicationConference.IEEE,2016.

[3]Yang J,Ji C,Jiang B,et al.No Reference Quality Assessment ofStereo Video Based on Saliency and Sparsity[J].IEEE Transactions onBroadcasting,2018,PP(99):1-13.

[4]Qi F,Jiang T,Fan X,et al.Stereoscopic video quality assessmentbased on stereo just-noticeable difference model[C]//IEEE InternationalConference on Image Processing.IEEE,2013:34-38.

[5]Voronov A,Vatolin D,Sumin D,et al.Towards automatic stereo-videoquality assessment and detection of color and sharpness mismatch[C]//International Conference on 3d Imaging.IEEE,2012:1-6.

[6]Yasakethu,S.L.P.,et al."Quality analysis for 3D video using 2Dvideo quality models."IEEE Transactions on Consumer Electronics,vol.54,no.4,pp.1969-1976,2008.

[7]Hewage,C.T.E.R,et al."Prediction of stereoscopic video qualityusing objective quality models of 2-D video."Electronics Letters,vol.44,no.16,pp.963-965,2008.

[8]J.You,L.Xing,A.Perkis,and X.Wang,“Perceptual quality assessmentfor stereoscopic images based on 2D image quality metrics and disparityanalysis,”in Proc.Int.Workshop Video Process.Quality MetricsConsum.Electron.,Scottsdale,AZ,USA,2010,pp.1–6.

[9]Regis,Carlos Danilo Miranda,de Pontes Oliveira,andM.S.D.Alencar."Objective estimation of 3D video quality:A disparity-basedweighting strategy."IEEE International Symposium on Broadband MultimediaSystems and Broadcasting IEEE,pp.1-6,2013.

[10]Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Image qualityassessment:From error visibility to structural similarity,”IEEE Trans.ImageProcess.,vol.13,no.4,pp.600–612,Apr.2004.

[11]M.Carnec,P.Le Callet,and D.Barba,“An image quality assessmentmethod based on perception of structural information,”in Proc.IEEEInt.Conf.Image Process.(ICIP),vol.3.Sep.2003,p.III-185.

[12]L.Zhang,Y.Shen,and H.Li,“VSI:A visual saliency-induced index forperceptual image quality assessment,”IEEE Trans.Image Process.,vol.23,no.10,pp.4270–4281,Oct.2014.

[13]Appina,Balasubramanyam,K.Manasa,and S.S.Channappayya."A fullreference stereoscopic video quality assessment metric."IEEE InternationalConference on Acoustics,Speech and Signal ProcessingIEEE,pp.2012-2016,2017.

[14]Han,Jingjing,T.Jiang,and S.Ma."Stereoscopic video qualityassessment model based on spatial-temporal structural information."VisualCommunications and Image Processing IEEE,pp.1-6,2013.

[15]Chen,Zhibo,W.Zhou,and W.Li."Blind Stereoscopic Video QualityAssessment:From Depth Perception to Overall Experience."IEEE Transactions onImage Processing,pp.1-1,2018.

[16]Jiachen Yang,Chunqi Ji,Bin Jiang and Wen Lu."No Reference QualityAssessment of Stereo Video Based on Saliency and Sparsity."IEEE Transactions on Broadcasting,pp341-353,2018.

[17]Hong,Wenhao,and L.Yu."ASpatio-Temporal Perceptual Quality IndexMeasuring Compression Distortions of Three-Dimensional Video."IEEE SignalProcessing Letters,vol.25,no.2,pp.214-218,2017.

[18]Zhu,Hong,et al."AStereo Video Quality Assessment Method forCompression Distortion."International Conference on Computational Science andComputational Intelligence,pp.481-485,2015.

[19]Jiheng Wang,Shiqi Wang and Zhou Wang."Asymmetrically CompressedStereoscopic 3D Videos:Quality Assessment and Rate-Distortion PerformanceEvaluation."IEEE Transactions on Image Processing,Vol.26,NO.3,2017.

[20]Li Y,Po L M,Cheung C H,et al.No-Reference Video QualityAssessment With 3D Shearlet Transform and Convolutional Neural Networks[J].IEEE Transactions on Circuits&Systems for Video Technology,2016,26(6):1044-1057.

[21]Wang C,Su L,Huang Q.CNN-MR for No Reference Video QualityAssessment[C]//International Conference on Information Science and ControlEngineering.IEEE,2017:224-228.

[22]Hubel,D.H.,and T.N.Wiesel."Receptive fields of single neurones inthe cat's striate cortex."Journal of Physiology,vol.148,no.3,pp.574,1959.

[23]R.B.H.Tootell et al.,“Functional analysis of V3Aand related areasin human visual cortex,”J.Neurosci.,vol.17,no.18,pp.7060–7078,1997.

[24]A.W.Roe et al.,“Toward a unified theory of visual area V4,”Neuron,vol.74,no.1,pp.12–29,2012.

[25]Lecun,Y.,Boser,B.E.,Denker,J.S.,et al.Backpropagation Applied toHandwritten Zip Code Recognition.Neural Computation,1,541-551,1989.

[26]Alex Krizhevsky,Ilya Sutskever,and Geoffrey E Hinton,“Imagenetclassification with deep convolutional neural networks,”in Advances in neuralinformation processing systems,pp.1097–1105,2012.

[27]K.A.May and L.Zhaoping,“Efficient coding theory predicts a tiltaftereffect from viewing untilted patterns,”Current Biol,vol.26,no.2,pp.1571–1576,2016.

[28]Ganesh.I.Rathod,Dipali.A.Nikam."An Algorithm for Shot BoundaryDetection and Key Frame Extraction Using Histogram Difference."CertifiedJournal,Vol.3,Issue 8,2013.

[29]Liu L,Fan G.Combined key-frame extraction and object-based videosegmentation[J].IEEE Transactions on Circuits&Systems for Video Technology,2005,15(7):869-884.

[30]Urvoy,M.,Barkowsky,M.,Cousseau,R.,Yao,K.,Ricorde,V.,&Callet,P.L.,et al."NAMA3DS1-COSPAD1:Subjective video quality assessment database oncoding conditions introducing freely available high quality 3D stereoscopicsequences."Fourth International Workshop on Quality of Multimedia Experience,pp.109-114,2012.

[31]Qi,Feng,et al."Stereoscopic video quality assessment based onvisual attention and just-noticeable difference models."Signal Image&VideoProcessing,vol.10,no.4,pp.737-744,2016.

[32]Zhou W,Liao N,Chen Z,et al.3D-HEVC visual quality assessment:Database and bitstream model[C]//Eighth International Conference on Qualityof Multimedia Experience.IEEE,2016:1-6。

Claims

1.一种基于深度学习的快速压缩立体视频质量评价方法，其特征是，首先，对立体视频的左右视点进行融合，得到单视点视频，然后提取单视点视频中的关键帧，关键帧与部分非关键帧一起作为卷积神经网络CNN的输入，最后得到立体视频的质量。

2.如权利要求1所述的基于深度学习的快速压缩立体视频质量评价方法，其特征是，对立体视频的左右视点进行融合具体是采用双目融合算法：对于立体视频的每一帧，转换RGB彩色空间到YIQ彩色空间，分别在Y,I,Q三个通道内做小波变换，小波函数采用Daubechies函数，通过小波变换得到每个通道的四个系数：低频系数、水平高频系数、竖直高频系数和对角高频系数，然后根据公式：

选择融合图像每个通道的四个系数，其中，Select_t(i,j)代表在单视点视频第t帧的第(i,j)个像素点的融合系数，coff_l_t(i,j)代表左视点第t帧的第(i,j)个像素点的系数，coff_r_t(i,j)代表右视点第t帧的第(i,j)个像素点的系数，d代表梯度，var代表方差，每个通道的四个系数都按照公式所示进行选择，然后，根据选出来的四个系数，对每个颜色通道做小波反变换，最后将YIQ颜色空间转换成RGB颜色空间，得到单视点视频的每一帧。

3.如权利要求1所述的基于深度学习的快速压缩立体视频质量评价方法，其特征是，提取单视点视频中的关键帧具体步骤：首先将视频的每一帧二值化，选取前景区域作为基本的块，根据公式Block difference＝histogram of 1st-histogram of 2nd计算相邻帧对应块的块差别，其中，Block difference代表块差别，histogram of 1st代表前一帧相应块的x²直方图^[29]，histogram of 2nd代表后一帧相应块的x²直方图，再根据公式Threshold＝mean deviation+(a*standard deviation)计算阈值，其中，mean deviation代表所有帧块差别的均值，standard deviation代表所有帧块差别的方差，a为常数，这里取1，如果这一帧的块差别大于阈值，即判断为是关键帧。

4.如权利要求1所述的基于深度学习的快速压缩立体视频质量评价方法，其特征是，卷积神经网络CNN选用在大数据集Imagenet上训练好的网络模型Alexnet，具体进行迁移学习：修改Alexnet最后一层的输出为5，代表立体视频的五种质量，用立体视频的数据集微调Alexnet网络，得到立体视频的质量。

5.如权利要求1所述的基于深度学习的快速压缩立体视频质量评价方法，其特征是，进一步地，双目融合算法的具体流程如下：

(a)将立体视频的每一帧从RGB彩色空间转换为YIQ彩色空间；

(c)低频系数、水平高频系数、竖直高频系数和对角高频系数都按照公式(1)所示的方式进行选择，得到融合帧的每一个通道的四个系数

其中，Select_t(i，j)代表在单视点视频第t帧的第(i，j)个像素点的融合系数。coff_l_t(i，j)代表左视点第t帧的第(i,j)个像素点的系数，coff_r_t(i,j)代表右视点第t帧的第(i，j)个像素点的系数。d代表梯度，var代表方差；

6.如权利要求1所述的基于深度学习的快速压缩立体视频质量评价方法，其特征是，进一步地，关键帧的获取选取更符合人眼视觉机制的前景区域作为处理的基本单元，具体步骤如下：

Block difference＝histogram of 1st-histogram of 2nd (2)

(c)计算所有帧块差别的均值mean deviation；

(d)计算所有帧块差别的方差standard deviation；

Threshold＝mean deviation+(a*standard deviation) (3)

其中，Threshold为阈值，a为常数。

F_i(Y)＝RELU(W_i*F_i-1(Y)+B_i) (4)

池化层的定义如公式(5)所示：

P＝Max{p_k|k＝1，2,3，…，N} (5)

7.如权利要求1所述的基于深度学习的快速压缩立体视频质量评价方法，其特征是，在迁移学习部分，随机选择部分非关键帧加入到训练集样本中，选用75％的单视点视频帧用于训练，余下的25％的单视点视频帧用于测试，训练集与测试集之间并无交叉，且所有帧以无重叠227×227大小的块的形式作为网络的输入；