CN110517237B

CN110517237B - 基于膨胀三维卷积神经网络的无参考视频质量评价方法

Info

Publication number: CN110517237B
Application number: CN201910766634.0A
Authority: CN
Inventors: 路文; 张珅源; 何立火; 韩仕帅; 孙晓鹏; 马带锎; 亓统帅; 龙钢
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2022-12-06
Anticipated expiration: 2039-08-20
Also published as: CN110517237A

Abstract

本发明公开了一种基于膨胀三维卷积神经网络的无参考视频质量评价方法，其步骤为：构建由粗特征提取模块、三维时空特征学习模块、非线性回归模块组成的膨胀三维卷积神经网络，生成无参考的训练数据集和测试数据集，训练膨胀三维卷积神经网络，输出测试集中每个失真视频的质量评价分数值。本发明用于从输入的失真视频中自适应地提取时空域内容的质量感知特征，在网络的输出端得到对应的预测质量分数，实现了端对端的质量评价，具有评价无参考视频质量时结果更加准确、应用更广泛的优点。

Description

基于膨胀三维卷积神经网络的无参考视频质量评价方法

技术领域

本发明属于图像处理技术领域，更进一步涉及视频处理技术领域中的一种基于膨胀三维卷积神经网络的无参考视频质量评价方法。本发明可用于视频压缩、传输和存储中对没有原始参考信息的失真视频进行三维时空特征提取，并依据提取的特征进行视频质量的客观评估。

背景技术

视频是最直观、生动的信息载体，随着成像设备的普及和信息技术的发展，越来越多的视频流媒体为人们的工作和生活带来便利和乐趣。但是，视频在录制、处理、传输和存储的过程中，受到成像系统、处理方法、传输介质以及存储设备等其它因素的影响，最终不可避免的会引入噪声导致终端获得的视频存在质量下降的问题。失真视频会降低人类感知的舒适度，甚至影响人们对视频内容的正确理解。因此，视频的感知质量是比较各种数字图像处理算法性能优劣以及描述视频视觉体验的重要指标。视频质量评价是对用户端接收到的视频是否满足其需求进行评估的技术。其中，无参考视频质量评价方法在预测视频的感知质量时无需其原始的参考视频，即只对失真视频进行评估得到预测质量。在实际应用场景中我们无法得到参考视频，因此这是一种最具挑战性也最有实际应用价值的视频质量评价方法。

江南大学在其申请的专利文献“基于时空域特征提取的无参考视频质量评价方法”(专利申请号：201910149737.2；申请公布号：CN109862350A)中公开了一种基于Xception和XGBoost的无参考视频质量评价方法。该方法首先训练了一个基于Xception模块的网络模型，该模型将失真视频的帧差图作为输入，经过全连接层提取视频的时空域特征，并对特征进行拼接得到拼接图，然后采用PCA方法对拼接图进行降维处理，最后通过建立XGBoost预测模型将经过深度表达的特征映射为失真视频的质量分数。该方法存在的不足之处是，只使用视频的帧差图作为输入，没有考虑视频的空域失真对人类感知的影响，使得视频的先验知识不够丰富，使得评价结果准确度不高。

央视国际网络无锡有限公司在其申请的专利文献“基于失真恢复度的无参考视频质量评价方法及装置”(专利申请号：201811533786.8；申请公布号：CN109587474A)中提出了一种基于图像失真恢复模型的无参考视频质量评价方法。该方法首先构建了一个图像失真恢复模型。该模型将无失真图像通过不同等级的压缩得到的失真图像作为输入进行训练，然后将失真视频输入训练好的图像失真恢复模型获得恢复图像序列，并逐帧计算失真视频灰度图以及对应恢复图像之间的RD-PSNR或RD-SSIM，得到每帧图像的质量恢复度，最后根据每帧图像的质量恢复度对待评价视频的质量进行评价。该方法存在三个不足之处是，其一，该方法的图像失真恢复模型仅考虑了不同等级的压缩失真类型，而现实世界的视频往往是多种失真类型的组合；其二，最终的预测结果很大程度上依赖该图像失真恢复模型建模的准确性；其三，视频是一组连续的图像序列，该方法只使用了视频的空域信息而忽略了每帧之间的时域信息对质量评价的贡献，使得评价结果不能更好的符合人类视觉系统。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于膨胀三维卷积神经网络的无参考视频质量评价方法。用于解决现有技术忽略了失真视频的空域内容、时域内容或其时空相关性导致的先验知识不够丰富，使得评价结果准确度不高的问题。

实现本发明目的的思路是：

利用构建的粗特征提取模块从输入的失真视频中自适应地提取低级特征，利用构建的三维时空特征学习模块从低级特征中学习质量感知相关的时空特征，利用构建的非线性回归模块从时空特征中预测失真视频的质量分数，生成膨胀三维卷积神经网络对失真视频进行端对端的质量评价，实现不需要任何参考信息，只将失真视频作为输入进行评估的无参考视频质量评价。

实现本发明目的的具体步骤如下：

步骤1，构建一个粗特征提取模块：

搭建一个五层的粗特征提取模块，其结构依次为：输入层→第1卷积层→第1池化层→第2卷积层→第3卷积层→第2池化层；

设置粗特征提取模块中各层的参数如下：

将输入层的通道数设置为1；

将第1、2、3卷积层的卷积核依次设置为64、64、192个，卷积核大小依次设置为3×3×3、1×1×1、3×3×3，步长依次设置为2、1、1；

将第1、2池化层的卷积核大小均设置为3×3×1，步长均设置为2×2×1；

步骤2，构建一个三维时空特征学习模块：

搭建一个四层的三维时空特征学习模块，其结构依次为：第1 Inception层→第1池化层→第2Inception层→第1卷积层；

设置三维时空特征学习模块的各层参数如下：

将在ImageNet数据集上预训练过的Inception v3网络的参数设置为第1、2Inception层的初始参数；

将第1池化层的卷积核大小设置为3×3×3，步长设置为2×2×2；

将第1卷积层的卷积核设置为512个，卷积核大小设置为3×3×3，步长设置为1；

步骤3，构建一个非线性回归模块：

搭建一个三层的非线性回归模块，其结构依次为：第1均值池化层→第1卷积层→第2卷积层；

设置非线性回归模块的各层参数如下：

将第1、2卷积层的卷积核依次设置为800、1个，卷积核大小均设置为1×1×1，步长均设置为1；

步骤4，生成膨胀三维卷积神经网络：

将粗特征提取模块、三维时空特征学习模块、非线性回归模块依次级联，组成膨胀三维卷积神经网络；

步骤5，生成无参考的训练集和测试集：

将自然视频公知数据集中所有的失真视频的亮度通道映射到[0,1]区间；将自然视频公知数据集中所有的失真视频对应的质量分数映射到[0,100]区间；保存每个失真视频映射后的所有帧序列及其质量分数；

按照参考视频随机划分所有的映射后的失真视频，将其中80％的参考视频对应的映射后的失真视频组成训练集，其余20％的参考视频对应的映射后的失真视频组成测试集，测试集中的失真视频在视频内容上与训练集中的失真视频无重叠；

步骤6，训练膨胀三维卷积神经网络：

将训练集中每个失真视频，随机裁剪成256×256×16的不重叠视频段，输入到膨胀三维卷积神经网络中，输出预测质量分数和两类网络参数W与b，其中，W表示膨胀三维卷积神经网络中边连接的权值向量，b表示膨胀三维卷积神经网络中下一层对上一层的偏置；

利用最小绝对误差LAE的公式，计算膨胀三维卷积神经网络的损失值，利用随机梯度下降法，更新参数W和b，得到训练好的膨胀三维卷积神经网络；

步骤7，输出测试集中每个失真视频的质量评价分数值：

将测试集中的无参考的失真视频在空域和时域上不重叠的分段后，依次输入到训练好的膨胀三维卷积神经网络中，粗特征提取模块从输入的失真视频中自适应地提取低级特征，三维时空特征学习模块从低级特征中学习质量感知相关的时空特征，非线性回归模块从时空特征中预测失真视频的质量分数，膨胀三维卷积神经网络输出无参考的失真视频段对应的视频质量评价分数；

将失真视频对应的视频段分数通过均值池化方法汇总，得到最终视频质量分数。

本发明与现有技术相比较，具有以下优点：

第一，由于本发明构建一个低级特征提取模块，用于从输入的失真视频段中自适应地提取时空域内容的质量感知特征，克服了现有技术由于仅输入失真视频的时域信息，而忽略了空域信息对人类视觉感知的影响，导致评价结果准确度不高的问题，使得本发明具有在评价无参考失真视频质量时结果更加准确的优点。

第二，由于本发明生成膨胀三维卷积神经网络，可用于将输入的失真视频在网络的输出端得到对应的预测质量分数，实现了端对端的质量评价，克服了现有技术中存在的由于仅考虑单一类型的失真，导致其无法对具有不同失真类型的失真视频进行质量评价的问题，使得本发明具有对存在各种失真类型的失真视频质量评价通用性的优点。

第三，由于本发明生成膨胀三维卷积神经网络，可用于将输入的失真视频在网络的输出端得到对应的预测质量分数，实现了端对端的质量评价，克服了现有技术中存在的视频质量预测结果依赖图像失真恢复模型建模准确性的问题，使得本发明具有从失真视频的数据直接映射到质量分数的优点。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明的具体步骤做进一步的详细描述。

步骤1，构建一个粗特征提取模块。

搭建一个五层的粗特征提取模块，用于从输入的失真视频中自适应地提取低级特征，其结构依次为：输入层→第1卷积层→第1池化层→第2卷积层→第3卷积层→第2池化层。

设置粗特征提取模块中各层的参数如下：

将输入层的通道数设置为1。

将第1、2、3卷积层的卷积核依次设置为64、64、192个，卷积核大小依次设置为3×3×3、1×1×1、3×3×3，步长依次设置为2、1、1。

将第1、2池化层的卷积核大小均设置为3×3×1，步长均设置为2×2×1。

所述的卷积层均为膨胀三维卷积层，所述池化层均为最大池化层。

步骤2，构建一个三维时空特征学习模块。

搭建一个四层的三维时空特征学习模块，用于从低级特征中学习质量感知相关的时空特征，其结构依次为：第1 Inception层→第1池化层→第2 Inception层→第1卷积层。

设置三维时空特征学习模块的各层参数如下：

将在ImageNet数据集上预训练过的Inception v3网络的参数设置为第1、2Inception层的初始参数。

将第1池化层的卷积核大小设置为3×3×3，步长设置为2×2×2。

将第1卷积层的卷积核设置为512个，卷积核大小设置为3×3×3，步长设置为1。

所述的Inception层均为膨胀三维Inception层。

步骤3，构建一个非线性回归模块。

搭建一个三层的非线性回归模块，用于将提取的时空特征回归到预测分数，其结构依次为：第1均值池化层→第1卷积层→第2卷积层。

设置非线性回归模块的各层参数如下：

将第1、2卷积层的卷积核依次设置为800、1个，卷积核大小均设置为1×1×1，步长均设置为1。

步骤4，生成膨胀三维卷积神经网络。

将粗特征提取模块、三维时空特征学习模块、非线性回归模块依次级联，组成膨胀三维卷积神经网络。

步骤5，生成无参考的训练集和测试集。

将自然视频公知数据集中所有的失真视频的亮度通道映射到[0,1]区间；将自然视频公知数据集中所有的失真视频对应的质量分数映射到[0,100]区间；保存每个失真视频映射后的所有帧序列及其质量分数。

按照参考视频随机划分所有的映射后的失真视频，将其中80％的参考视频对应的映射后的失真视频组成训练集，其余20％的参考视频对应的映射后的失真视频组成测试集，测试集中的失真视频在视频内容上与训练集中的失真视频无重叠。

所述的数据集给出的失真视频对应的质量分数是指平均质量分数MOS，若数据集给出对应的失真视频的质量分数为差异平均质量分数DMOS，将差异平均质量分数DMOS的比例翻转后得到平均质量分数MOS。

所述的参考视频是指，自然视频公知数据集中与不同失真类型的失真视频对应的没有任何失真的原始视频。

所述的测试集中的失真视频在视频内容上与训练集中的失真视频无重叠是指，自然视频公知数据集中所有的参考视频的内容都不相同，将每个参考视频对应的一组不同失真类型的失真视频同时划分到训练集或者测试集中。

步骤6，训练膨胀三维卷积神经网络。

将训练集中每个失真视频，随机裁剪成256×256×16的不重叠视频段，输入到膨胀三维卷积神经网络中，输出预测质量分数和两类网络参数W与b，其中，W表示膨胀三维卷积神经网络中边连接的权值向量，b表示膨胀三维卷积神经网络中下一层对上一层的偏置。

所述最小绝对误差LAE的公式如下：

其中，L表示膨胀三维卷积神经网络的损失值，∑表示求和操作，||·||₁表示1范数操作，S表示训练集中失真视频对应的质量分数，P表示训练集中的失真视频输入到膨胀三维卷积神经网络后输出的预测质量分数。

所述的随机梯度下降法的步骤如下：

第1步，按照下式，更新膨胀三维卷积神经网络的每个参数，将参数更新后的膨胀三维卷积神经网络的参数放入一个参数集合中：

其中，θ_k′表示膨胀三维卷积神经网络更新后的第k个参数，θ_k表示膨胀三维卷积神经网络更新前的第k个参数，α表示更新参数时的学习率，

表示求偏导数操作，L是膨胀三维卷积神经网络的损失值，P_k表示膨胀三维卷积神经网络第k个参数。

第2步，执行第1步300次，从参数集合中的300个网络参数里选择验证误差最小的网络参数，将其对应的网络作为训练好的膨胀三维卷积神经网络；所述的验证误差是指Pearson线性相关系数PLCC和Spearman秩次相关系数SROCC两种标准测量方法。

步骤7，输出测试集中每个失真视频的质量评价分数值。

将测试集中的无参考的失真视频在空域和时域上不重叠的分段后，依次输入到训练好的膨胀三维卷积神经网络中，粗特征提取模块从输入的失真视频中自适应地提取低级特征，三维时空特征学习模块从低级特征中学习质量感知相关的时空特征，非线性回归模块从时空特征中预测失真视频的质量分数，膨胀三维卷积神经网络输出无参考的失真视频段对应的视频质量评价分数。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Core(TM)i7-8700K CPU，主频为3.70GHz，内存32GB，显卡为NVIDIA GeForce GTX 1080Ti。

本发明的仿真实验的软件平台为：Ubuntu 16.04操作系统，Pytorch 1.0.4框架，Python 3.6。

本发明仿真实验所使用的输入视频为自然视频，来源于视频质量评价公知数据库LIVE和EPFL-PoliMi。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明和三个现有技术(基于弱监督学习和重采样策略的盲视频质量评价方法、基于时空统计的无参考视频质量评价方法、基于卷积神经网络与多元回归的评价的无参考视频质量评价方法)，分别对两个视频质量评价公知数据库LIVE和EPFL-PoliMi中所有的失真视频进行无参考视频质量评价，预测失真视频的质量分数。

在仿真实验中，采用的三个现有技术是指：

Zhang Y等人在其发表的论文“Blind Video Quality Assessment with WeaklySupervised Learning and Resampling Strategy”(IEEE Transactions on Circuitsand Systems for Video Technology,2018)中公开的一种基于弱监督学习和重采样策略的盲视频质量评价方法。

Li X等人在其发表的论文“Spatiotemporal statistics for video qualityassessment”(IEEE Transactions on Image Processing,25(7):3329–3342,2016)中公开的一种基于时空统计的无参考视频质量评价方法。

Wang C等人在其发表的论文“COME for No-Reference Video QualityAssessment”(2018 IEEE Conference on Multimedia Information Processing andRetrieval(MIPR),232–370,2018)中公开的一种基于卷积神经网络与多元回归的评价的无参考视频质量评价方法。

在仿真实验中采用的两个视频质量评价公知数据库LIVE和EPFL-PoliMi是指：

LIVE公知数据库是指，Seshadrinathan等人在“Study of subjective andobjective quality assessment of video”(IEEE transactions on Image Processing,19(6):1427-1441,2010)中公开的视频质量评价数据库，简称LIVE公知数据库。

EPFL-PoliMi公知数据库是指，D.Simone等人在“Subjective assessment ofH.264/AVC video sequences transmitted over a noisy channel”(2009International Workshop on Quality of Multimedia Experience,204–209,2009)中公开的视频质量评价数据库，简称EPFL-PoliMi公知数据库。

为了评判本发明和另外三个现有技术的无参考视频质量评价效果，本发明的仿真实验采用斯皮尔曼秩相关系数SROCC(Spearman rank-order correlation coefficient)和线性相关系数LCC(linear correlation coefficient)这两个指标，分别对本发明和三个现有技术的无参考视频质量评价效果进行评判。斯皮尔曼秩相关系数SROCC∈[-1,1]，其数值越高，说明被评判的无参考视频质量评价方法的评价结果能更正确地反映出不同视频之间的质量好坏程度，所述的线性相关系数LCC∈[-1,1]，其数值越高，说明被评判的无参考视频质量评价方法的评价结果更接近视频的质量分数。

所述的斯皮尔曼秩相关系数SROCC和线性相关系数LCC是按照下式计算得到的：

其中，SROCC表示斯皮尔曼秩相关系数，n表示用来评价的视频数，∑表示求和操作，b_e表示第e个失真视频的质量评价值的排序序号与其质量分数的排序序号之差，LCC表示线性相关系数，s_r表示第r个失真视频的质量评价分数，

表示所有失真视频的质量评价分数的平均值，p_r表示第r个失真视频的质量分数，

表示所有失真视频的质量分数的平均值。

本发明的仿真实验使用本发明和三个现有技术对两种不同的公知数据库里的视频进行评价，计算每种方法的评价结果的斯皮尔曼秩相关系数SROCC和线性相关系数LCC，计算结果如表1所示。

表1.四种方法的评价结果对比表

从表1可见，本发明在两种公知数据库上评价结果的斯皮尔曼秩相关系数SROCC和线性相关系数LCC高于三种现有技术，证明本发明具有更好的无参考视频质量评价效果。

Claims

1.一种基于膨胀三维卷积神经网络的无参考视频质量评价方法，其特征在于，利用构建的粗特征提取模块从输入的失真视频中自适应地提取低级特征，利用构建的三维时空特征学习模块从低级特征中学习质量感知相关的时空特征，利用构建的非线性回归模块从时空特征中预测失真视频的质量分数，生成膨胀三维卷积神经网络对失真视频进行端对端的质量评价；该方法具体步骤包括如下：

步骤1，构建一个粗特征提取模块：

设置粗特征提取模块中各层的参数如下：

将输入层的通道数设置为1；

步骤2，构建一个三维时空特征学习模块：

搭建一个四层的三维时空特征学习模块，其结构依次为：第1Inception层→第1池化层→第2Inception层→第1卷积层；

设置三维时空特征学习模块的各层参数如下：

将第1池化层的卷积核大小设置为3×3×3，步长设置为2×2×2；

步骤3，构建一个非线性回归模块：

设置非线性回归模块的各层参数如下：

步骤4，生成膨胀三维卷积神经网络：

步骤5，生成无参考的训练集和测试集：

步骤6，训练膨胀三维卷积神经网络：

步骤7，输出测试集中每个失真视频的质量评价分数值：

2.根据权利要求1所述的基于膨胀三维卷积神经网络的无参考视频质量评价方法，其特征在于：步骤1、步骤2、步骤3中所述的卷积层均为膨胀三维卷积层，所述池化层均为最大池化层。

3.根据权利要求1所述的基于膨胀三维卷积神经网络的无参考视频质量评价方法，其特征在于：步骤2中所述的Inception层均为膨胀三维Inception层。

4.根据权利要求1所述的基于膨胀三维卷积神经网络的无参考视频质量评价方法，其特征在于：步骤5中所述的数据集给出的失真视频对应的质量分数是指平均质量分数MOS，若数据集给出失真视频对应的质量分数为差异平均质量分数DMOS，将差异平均质量分数DMOS的比例翻转后得到平均质量分数MOS。

5.根据权利要求1所述的基于膨胀三维卷积神经网络的无参考视频质量评价方法，其特征在于：步骤6中所述最小绝对误差LAE的公式如下：

6.根据权利要求1所述的基于膨胀三维卷积神经网络的无参考视频质量评价方法，其特征在于，步骤6中所述的随机梯度下降法的步骤如下：

其中，θ′_k表示膨胀三维卷积神经网络更新后的第k个参数，θ_k表示膨胀三维卷积神经网络更新前的第k个参数，α表示更新参数时的学习率，α∈[0,1]，

表示求偏导数操作，L是膨胀三维卷积神经网络的损失值，P_k表示膨胀三维卷积神经网络第k个参数；