CN107959848A

CN107959848A - 基于三维卷积神经网络的通用型无参考视频质量评价算法

Info

Publication number: CN107959848A
Application number: CN201711291224.2A
Authority: CN
Inventors: 张淑芳; 郭志鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-04-24
Anticipated expiration: 2037-12-08
Also published as: CN107959848B

Abstract

本发明公开了一种基于三维卷积神经网络的通用型无参考视频质量评价算法，该方法包括3DConvNets模型训练阶段和质量评价阶段两个部分。与现有技术相比，本发明的基于三维卷积神经网络的通用型无参考视频质量评价算法能够较为准确地评价多种失真类型，并且在面对不同视频库时保持稳定的评价准确度，性能稳定性好，并且质量评价的计算复杂度显著低于目前主流的无参考视频质量评价算法，评价速度更快。

Description

基于三维卷积神经网络的通用型无参考视频质量评价算法

技术领域

本发明涉及视频质量评价领域，特别是一种基于三维卷积神经网络的频质量评价算法。

背景技术

由于视频压缩技术和视频传输信道的限制，编码失真和传输失真会不可避免地引入到视频中，严重影响了视频服务用户的观看体验。主观评价方法对于测试人群、测试环境及统计方法等有非常严格的规定，实施难度较大。而客观评价方法中的无参考质量评价因为其不需要参考视频的优点，实用性较高。由于在实际系统中，视频往往包含多种失真类型，因此研究一种能够评价多种视频失真类型的通用型无参考视频质量评价算法逐渐成为热点。

Saad等对失真视频分别在像素域和DCT域提取参数的统计特征，再通过运动矢量计算整体运动特征和运动相干性特征，结合空间域和时间域特征评价视频质量，大大提高了仅用图像质量评价方法评价视频质量的准确度。

Li等通过对失真视频按视频块做三维DCT变换(3D-DCT)，提取变换后参数的分布形状、子带间比例和方向等时空域特征评价视频的失真程度。Li等人首先对失真视频块进行三维剪切波变换(3D Shearlet Transform)，提取变换后参数的初级统计特征，然后将特征输入一维卷积神经网络(1D CNN)中，得到性能更好的高层次特征评价视频质量。

Tran等提出了三维卷积神经网络模型3D ConvNets，该模型使用的是三维的卷积和池化算子，相较于二维卷积神经网络，能够更加高效地提取视频的时空域特征。

发明内容

本发明的目的是提出了一种基于三维卷积神经网络的通用型无参考视频质量评价算法，将该模型应用于视频质量评价中，通过在视频质量库上训练3D ConvNets，并在质量评价阶段使用3D ConvNets提取失真视频的时空域特征，旨在提高无参考视频质量评价与人眼主观评价的一致性。

本发明的一种基于三维卷积神经网络的通用型无参考视频质量评价算法，该方法包括3D ConvNets模型训练阶段和质量评价阶段两个部分，具体步骤如下：

所述3D ConvNets模型训练阶段的训练过程具体描述如下：

根据视频质量库中训练视频的主观评价分数，将训练视频按失真程度的不同分为10组，并且给这10组视频分配0,1,2,…,9共10个不同的标签，将这些带有标签的视频输入3D ConvNets中；

随机初始化3D ConvNets中卷积层、池化层和全连接层的各个权重及偏置参数，第一次迭代开始；输入视频在3D ConvNets中按视频块进行卷积和池化运算；前两个卷积层和池化层提取出的都是视频的低等级特征，比如边缘等，后面卷积、池化以及全连接层提取的是视频的高等级抽象特征；

在3D ConvNets中经过一系列运算后，最后一层输出的10维特征向量及其对应的标签被输入进softmax with loss层中。在这一层里，首先利用softmax根据特征向量对输入视频分类，得到预测标签，然后将预测标签与输入的标签进行比较，计算损失Loss；

第一次迭代结束，通过反向传播根据Loss调整3D ConvNets中卷积、池化以及全连接层中的各个权重及偏置参数，之后开始第二次迭代；

不断进行迭代和反向传播调整权重及偏置参数，直到输出的Loss足够小为止，此时的3D ConvNets就是已经训练好的能够有效提取失真视频质量特征的卷积神经网络模型；

所述质量评价阶段的评价过程具体描述如下：

将每一个输入的失真视频分为一个个帧长为16的视频段，每两个连续的视频段之间有8帧的重叠区间。将这些视频段输入3DConvNets中，把fc7层的输出向量作为提取出来的特征。对一个失真视频所有视频段的特征取平均得到维数是4096的特征向量A_a，表示为：

A_a＝(x₁,x₂,...,x₄₀₉₆) (1)

对A_a进行L2范数规则化以避免出现过拟合，计算方法为：

其中，x₁,x₂,...,x₄₀₉₆是向量A_a的各个元素，||A_a||₂指向量A_a的二范数，(y₁,y₂,...,y₄₀₉₆)是规则化后的特征向量；

去除特征向量中的冗余部分，保留有用信息，同时也是为之后与V-BLIINDS算法进行平等的性能比较(V-BLIINDS算法中失真视频的特征向量维数是46)，使用主成分分析的方法降低F的维数为46，得到最终的视频质量特征(f₁,f₂,...,f₄₆)；

利用线性SVR预测失真视频的质量分数，实现过程分为两步：首先对训练集中的视频提取质量特征，连同其对应的主观评价分数有监督训练线性SVR模型，建立视频特征与质量分数的映射关系；然后提取测试集视频的质量特征，将特征输入已经训练好的线性SVR中，通过映射函数计算出最终的质量分数。

与现有技术相比，本发明的基于三维卷积神经网络的通用型无参考视频质量评价算法能够较为准确地评价多种失真类型，并且在面对不同视频库时保持稳定的评价准确度，性能稳定性好，并且质量评价的计算复杂度显著低于目前主流的无参考视频质量评价算法，评价速度更快。

附图说明

图1为本发明的一种基于三维卷积神经网络的通用型无参考视频质量评价算法的3D ConvNets模型的训练过程示意图；

图2为本发明的一种基于三维卷积神经网络的通用型无参考视频质量评价算法的的质量评价过程示意图；

图3为质量评价的准确度验证实验结果对比图；(3a)LIVE库和(3b)CSIQ库上的SROCC分布盒状图；

具体实施方式

本发明提出的算法包含两大部分：3D ConvNets模型训练阶段和质量评价阶段。(1)、在3D ConvNets模型训练阶段，通过在视频质量库上对3D ConvNets模型进行训练，完成3D ConvNets模型对质量特征的学习，建立质量评价模型；(2)在质量评价阶段，失真视频被直接输入到3D ConvNets模型中，L2范数规则化和主成分分析被用于优化提取出的特征向量，利用线性支持向量回归(linear support vector regression)建立特征向量与视频质量分数的映射关系模型，从而预测出输入视频的质量分数。每个阶段的具体步骤如下：

一、3D ConvNets模型训练阶段

如图1所示的3D ConvNets模型的训练过程示意图中：conv-表示卷积层，pool-表示池化层，fc-表示全连接层，卷积层的数字表示的是卷积层中滤波器的个数，全连接层里的数字表示这一层的特征输出维数；softmax with loss层用来计算机器学习算法softmax根据模型学习到的特征对训练视频分类的结果与视频自带标签的差(Loss)；所有卷积层的卷积算子大小都是2×2×2，移动步长在时间域和空间域上都是1；除了第一层池化层的池化算子大小是1×2×2外，其余所有池化层的池化算子大小都是2×2×2，所有池化层的池化算子移动步长在时间域和空间域上都是1。

训练方法具体描述如下：

1)根据视频质量库中训练视频的主观评价分数，将训练视频按失真程度的不同分为10组，并且给这10组视频分配0,1,2,…,9共10个不同的标签，将这些带有标签的视频输入3D ConvNets中；

2)随机初始化3D ConvNets中卷积层、池化层和全连接层的各个权重及偏置参数，第一次迭代开始；输入视频在3D ConvNets中按视频块进行卷积和池化运算；前两个卷积层和池化层提取出的都是视频的低等级特征，比如边缘等，后面卷积、池化以及全连接层提取的是视频的高等级抽象特征；

3)在3D ConvNets中经过一系列运算后，最后一层输出的10维特征向量及其对应的标签被输入进softmax with loss层中。在这一层里，首先利用softmax根据特征向量对输入视频分类，得到预测标签，然后将预测标签与输入的标签进行比较，计算损失Loss；

4)第一次迭代结束，通过反向传播根据Loss调整3D ConvNets中卷积、池化以及全连接层中的各个权重及偏置参数，之后开始第二次迭代；

5)不断进行迭代和反向传播调整权重及偏置参数，直到输出的Loss足够小为止，此时的3D ConvNets就是已经训练好的能够有效提取失真视频质量特征的卷积神经网络模型。

对于3D ConvNets模型的训练过程，就是3D ConvNets自身的特征学习过程。通过这一过程，3D ConvNets借助视频质量库学习到了能够有效反映输入视频失真严重程度的特征。

二、质量评价阶段

如图2所示，为本发明算法的质量评价过程，失真视频直接输入到3D ConvNets模型中进行特征提取，然后对提取出的时空域特征进行L2范数规则化以避免出现过拟合问题，之后再对特征进行主成分分析以去除冗余特征，保留有用信息，最后通过线性SVR预测得到失真视频的质量分数。

具体的质量评价过程如下：

1)将每一个输入的失真视频分为一个个帧长为16的视频段，每两个连续的视频段之间有8帧的重叠区间。将这些视频段输入3DConvNets中，把fc7层的输出向量作为提取出来的特征。对一个失真视频所有视频段的特征取平均得到维数是4096的特征向量A_a，表示为：

A_a＝(x₁,x₂,...,x₄₀₉₆) (1)

2)对A_a进行L2范数规则化以避免出现过拟合，计算方法为：

3)去除特征向量中的冗余部分，保留有用信息，同时也是为之后与V-BLIINDS算法进行平等的性能比较(V-BLIINDS算法中失真视频的特征向量维数是46)，使用主成分分析的方法降低F的维数为46，得到最终的视频质量特征(f₁,f₂,...,f₄₆)；

4)利用线性SVR预测失真视频的质量分数，实现过程分为两步：首先对训练集中的视频提取质量特征，连同其对应的主观评价分数有监督训练线性SVR模型，建立视频特征与质量分数的映射关系；然后提取测试集视频的质量特征，将特征输入已经训练好的线性SVR中，通过映射函数计算出最终的质量分数。

为了评估算法的性能，在LIVE和CSIQ两个不同的视频库上测试验证算法的评价准确度以及质量评价阶段的计算复杂度。

一、视频库具体信息如下：

1)LIVE视频库具有10个参考视频，150个失真视频，失真类型包含MPEG-2压缩编码失真、H.264压缩编码失真、无线传输失真和IP传输失真4种，视频分辨率为768×432。

2)CSIQ视频库具有12个参考视频，216个失真视频，失真类型包含MJPEG压缩编码失真、H.264压缩编码失真、HEVC压缩编码失真、小波压缩编码失真、丢包传输失真、加性高斯白噪声传输失真6种，视频分辨率为832×480。

性能评价指标采用斯皮尔曼相关系数(SROCC)和线性相关系数(LCC)，SROCC和LCC的值越接近1，表明算法评价结果与主观评价结果的一致性越好，即算法的评价准确度越高。

实验首先验证算法对各单一视频失真类型的评价准确度，将视频库中每一类失真类型的所有失真视频分为视频内容互不重叠的两部分，一部分作为训练集，占80％，另一部分作为测试集，占20％，计算算法对测试集视频的评价分数与其主观评价分数的SROCC和LCC，遍历所有训练集与测试集的划分方式，取SROCC和LCC的中值作为对于这一类型的评价准确度；然后用相同的方法验证算法对视频库所有视频的评价准确度。

二、评价准确度验证

1)首先在LIVE视频库上验证算法的评价准确度，为了使测试结果更加具有说服力，对全参考视频质量评价算法PSNR，SSIM，MOVIE，部分参考视频质量评价算法VQM和无参考视频质量评价算法V-BLIINDS进行了同样的测试实验并加以比较。表1和表2分别展示了这些算法在LIVE视频库上测试实验得到的SROCC和LCC中值。

表1、LIVE视频库上测试得到的SROCC中值

表2、LIVE视频库上测试得到的LCC中值

从表1和表2可以看出，算法在对LIVE库上各个单一失真类型和所有失真视频的评价准确度上都显著高于PSNR，SSIM和VQM。与当前通用型无参考视频质量评价中的主流算法V-BLIINDS相比，算法在评价准确度上也有很强的竞争力。虽然算法的评价准确度低于全参考视频质量评价算法MOVIE，但是作为无参考视频质量评价算法，不需要参考视频，实用性更高是它相较于全参考视频质量评价算法的重要优势。

2)为了验证算法对不同视频库的评价性能，在CSIQ视频库上也进行相同的评价准确度验证实验，表3展示了算法和V-BLIINDS在CSIQ视频库上测试实验得到的SROCC和LCC中值。

从表3可以看出，V-BLIINDS算法对于CSIQ库中失真类型为Packet-loss的失真视频评价准确度较低，并且当评价视频库中所有视频时，准确度有了明显的下降。相比之下，算法无论是对各单一失真类型还是所有失真视频的评价准确度都维持在较高的水平，明显超过了V-BLIINDS。认为出现这种情况的原因是V-BLIINDS提取特征的方法是作者在LIVE库上比较分析各类失真视频和无失真视频统计特征差别得出的，而由于CSIQ库和LIVE库的视频内容和失真类型都不相同，这就使得部分基于LIVE库选定的特征对于CSIQ库中失真视频的质量评价作用较小甚至无效。而算法明显不受视频内容及失真多样性的影响，在改变测试视频库后依然能保持较高的评价准确度，如图3所示，根据这两种算法在LIVE和CSIQ上历次测试的SROCC结果绘制的盒状图也再次证明了这一观点。

表3、CSIQ视频库上测试得到的SROCC和LCC中值

三、计算复杂度验证

比较算法和V-BLIINDS在质量评价阶段的计算复杂度，由于两者都使用了线性SVR根据视频特征预测质量分数，因此实验只记录了两种算法在LIVE库和CSIQ库上对失真视频提取特征所耗费的时间。表4展示了这两种算法对视频平均每一帧提取特征所耗费的时间(单位为秒)，这些实验都是在同一台电脑上完成的，电脑的配置为3.50GHz的CPU和12GB的RAM。

表4、每帧特征提取时间

	V-BLIINDS	Proposed
			LIVEdatabase	23.552s	6.572s
CSIQdatabase	33.411s	8.377s

通过表4，可以看出算法在质量评价阶段的计算复杂度要远远低于V-BLIINDS，这是因为算法在评价失真视频时不需要做任何域变换等复杂度高的运算，因此算法能够较为快速地完成对失真视频质量准确的评价，更加符合实际应用的要求。

四、结论及展望

实验结果表明，算法能够较为准确地评价多种失真类型，并且在面对不同视频库时保持稳定的评价准确度，性能稳定性好，并且质量评价的计算复杂度显著低于目前主流的无参考视频质量评价算法，评价速度更快。随着主观评价和深度学习的发展，在今后的科研工作中，视频内容及失真类型更丰富的视频质量库和性能更好的深度学习模型将陆续被建立起来，从而进一步提升无参考视频质量评价的准确度和速度。

Claims

1.一种基于三维卷积神经网络的通用型无参考视频质量评价算法，其特征在于，该方法包括3D ConvNets模型训练阶段和质量评价阶段两个部分，具体步骤如下：

所述3D ConvNets模型训练阶段的训练过程具体描述如下：

根据视频质量库中训练视频的主观评价分数，将训练视频按失真程度的不同分为10组，并且给这10组视频分配0,1,2,…,9共10个不同的标签，将这些带有标签的视频输入3DConvNets中；

所述质量评价阶段的评价过程具体描述如下：

将每一个输入的失真视频分为一个个帧长为16的视频段，每两个连续的视频段之间有8帧的重叠区间。将这些视频段输入3D ConvNets中，把fc7层的输出向量作为提取出来的特征。对一个失真视频所有视频段的特征取平均得到维数是4096的特征向量A_a，表示为：

A_a＝(x₁,x₂,...,x₄₀₉₆) (1)

对A_a进行L2范数规则化以避免出现过拟合，计算方法为：