CN112085102B

CN112085102B - 基于三维时空特征分解的无参考视频质量评价方法

Info

Publication number: CN112085102B
Application number: CN202010944337.3A
Authority: CN
Inventors: 何立火; 高帆; 柯俊杰; 蔡虹霞; 路文; 高新波; 孙羽晟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2023-03-10
Anticipated expiration: 2040-09-10
Also published as: CN112085102A

Abstract

本发明公开了一种基于三维时空特征分解的无参考视频质量评价方法，其步骤为：构建由时空失真特征学习模块、质量回归模块组成的质量预测网络，生成无参考的训练数据集和测试数据集，训练时空失真特征学习模块和质量回归模块，输出测试集中每个失真视频的质量评价分数值。本发明用于从输入的失真视频中准确且高效地提取时空域内容的质量感知特征，在网络的输出端得到对应的预测质量分数，具有评价无参考视频质量时结果更加准确、应用更广泛的优点。

Description

基于三维时空特征分解的无参考视频质量评价方法

技术领域

本发明属于图像处理技术领域，更进一步涉及视频处理技术领域中的一种基于三维时空特征分解的无参考视频质量评价方法。本发明可用于视频采集、压缩、和传输中对没有原始参考信息的失真视频进行三维失真特征提取，依据提取的特征进行视频质量的客观评估。

背景技术

在互联网信息时代，网络多媒体技术和通信技术迅猛发展，人们可以更方便地通过各种渠道获取多媒体信息。相关研究表明，作为最直观、高效的信息载体，图像和视频信息在人们接收到的信息中占据着70％以上的比重。终端设备的爆炸式增长和视频服务的广泛普及使得人们对视频质量的要求也越来越高。但是，视频从生产到最终播放的各个环节中不可避免地会收到成像系统、压缩方式、传输介质以及存储设备等因素的影响，产生不同类型的失真，破坏用户的观看体验，甚至影响人们对视频语义的理解。因此，视频质量评价成为视频领域的重要问题，对视频处理系统的改进和人们生活质量的提升具有重大的现实意义和研究价值。其中，无参考视频质量评价方法由于其灵活性高、实时性好、成本低且不需要任何原始视频信息的优点，成为视频质量评价领域的研究热点，也是目前发展空间最大、最具实际应用价值的评价方法。

江南大学在其申请的专利文献“基于时空域特征提取的无参考视频质量评价方法”(专利申请号：201910149737.2；申请公布号：CN109862350A)中公开了一种基于XceptionNet和XGBoost的无参考视频质量评价方法。该方法首先训练了一个基于XceptionNet的网络模型，采用分帧处理的方法，获取失真视频的帧差图，并将其输入到该网络模型，提取视频的时空域失真特征，拼接特征图得到特征拼接图，然后采用主成分分析的方法对拼接图进行降维处理，最后通过建立XGBoost预测模型将经过深度表达的特征映射为失真视频的质量分数。该方法的不足之处在于，只使用视频的帧差图作为输入，混淆了失真视频在时域空域的操作，使得模型提取到的时空特征不够充分，导致其无法准确模拟人类质量感知过程从而预测结果准确度不高。

央视国际网络无锡有限公司在其申请的专利文献“基于失真恢复度的无参考视频质量评价方法及装置”(专利申请号：201811533786.8；申请公布号：CN109587474A)中提出了一种基于图像失真恢复模型的无参考视频质量评价方法。该方法首先构建了一个图像失真恢复模型。将无失真图像通过不同等级的压缩得到的失真图像作为输入进行训练，然后将失真视频输入训练好的图像失真恢复模型获得恢复图像序列，并逐帧计算失真视频灰度图以及对应恢复图像之间的RD-PSNR或RD-SSIM，得到每帧图像的质量恢复度，最后根据每帧图像的质量恢复度对待评价视频的质量进行评价。该方法存在两个不足之处是，其一，该方法的图像失真恢复模型仅考虑了不同等级的压缩失真类型，而工程实践中的视频往往是多种失真类型的组合，导致该方法实用性有限；其二，视频是一组连续的图像序列，而该方法仅使用了视频的空域信息，而没有在时间维度对人类视觉系统进行建模，忽略了每帧之间的时域信息对质量评价的影响，使得评价结果不能更好地符合人类视觉系统。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于三维时空特征分解的无参考视频质量评价方法。该方法可解决现有技术在失真视频的时空特征提取不充分、失真语义信息表征不足以及忽略时域建模的问题。

实现本发明目的的思路是：构建时空失真特征学习模块，分别从失真视频的时间维度和空间维度自适应地提取失真特征；构建质量回归模块从提取的三维时空特征中预测失真视频的质量分数，实现对失真视频的质量评价。本发明的实现不需要任何参考信息，是只将失真视频作为输入进行评估的无参考视频质量评价。

实现本发明目的的具体步骤如下：

1)构建时空失真特征学习模块：

1a)搭建一个时空失真特征学习模块，该模块的结构依次为：粗特征提取单元→第1残差子单元→第1池化层→Non-Local单元→第2残差子单元→第2池化层→第3残差子单元→第3池化层→第4残差子单元→全局池化层→全连接层；其中：

所述粗特征提取单元的结构依次为：输入层→第1卷积层→第1批量归一化层→第2卷积层→第2批量归一化层→池化层；

将第1、2、3、4残差子单元中二维残差单元的卷积核扩充成三维，再将3×3×3的卷积核分解为3×1×1的一维时间卷积和1×3×3的二维空间卷积，得到每个残差子单元的结构依次为：特征提取层→时间特征卷积层、空间特征卷积层→特征融合层；

1b)设置时空失真特征学习模块的各单元参数如下：

将第1、2、3、4残差子单元的输入通道数依次设置为64、256、512、1024，输出通道数依次设置为256、512、1024、2048；

将第1、2、3池化层中的卷积核大小均设置为1×3×3，步长均设置为1×2×2；

将Non-Local单元的参数设置为256；

将全连接层的参数依次设置为2048、128、1；

在全局池化层，将提取到的2048个特征图全局池化为1个大小为2048的向量；

1c)设置粗特征提取单元中各层的参数如下：

将输入层的通道数设置为1；

将第1、2卷积层的卷积核数量均设置为64，卷积核大小依次设置为3×1×1、1×3×3，步长依次设置为2×1×1、1×2×2；

将第1、2批量归一化层的参数依次设置为3、64；

将池化层的卷积核大小设置为1×3×3，步长设置为1×2×2；

1d)设置残差子单元的参数如下：

将特征提取层的卷积核数量设置为输入通道数的1/2，卷积核的大小设置为1×1×1，步长为1；

将时间特征卷积层的卷积核数量设置为输入通道数，卷积核的大小设置为3×1×1，步长为1；

将空间特征卷积层的卷积核数量设置为输入通道数的4倍，卷积核的大小设置为1×3×3，步长为1×2×2；

在特征融合层，将上级网络提取到的时间特征和空间特征在特征通道维度进行拼接；

2)构建质量回归模块：

2a)搭建一个质量回归模块，其结构依次为：全连接层→长短期记忆神经网络层→分数融合层；

2b)设置质量回归模块的各层参数如下：

将全连接层的输入和输出尺寸分别设置为2048和256；

将长短期记忆神经网络的输入序列尺寸设置为256，隐藏层尺寸设置为32；

在分数融合层，对长短期记忆神经网络的输出取均值；

3)生成无参考的训练集：

将自然视频公知数据集中所有的无参考失真视频的亮度通道映射到[0,1]区间；将自然视频公知数据集中所有的无参考失真视频对应的质量分数映射到[0,100]区间；保存每个失真视频映射后的所有帧序列及其质量分数；将映射后80％的无参考失真视频组成训练集；

4)训练时空失真特征学习模块：

4a)将训练集中的每个失真视频以16帧的大小在时域上分解为不重叠的视频段，舍弃不满16帧的视频片段；

4b)将每个视频段依次输入到时空失真特征学习模块中，分别提取并学习时间和空间维度与质量感知相关的失真特征，时空失真特征学习模块的全局池化层输出视频质量向量，全连接层输出该视频段的预测质量分数，记录模块的两类参数W₁与b，其中，W表示时空失真特征学习模块中边连接的权值向量，b表示时空失真特征学习模块中下一层对上一层的偏置；

4c)利用最小绝对误差LAE的公式，计算时空失真特征学习模块的损失值，利用随机梯度下降法，更新参数W₁和b，得到训练好的时空失真特征学习模块；

5)训练质量回归模块：

5a)将时空特征学习模块中全局池化层输出的视频质量向量输入到质量回归模块中，学习时间信息对视频质量的影响；网络的输出为失真视频的质量分数和网络参数W₂；

5b)利用最小绝对误差LAE的公式，计算质量回归网络的损失值，利用随机梯度下降法，更新参数W₂，得到训练好的质量回归网络；

6)生成质量评价网络：

将训练好的时空失真特征学习模块和质量回归模块依次级联，组成基于三维时空特征分解的无参考视频质量评价网络；

7)输出每个失真视频的质量评价分数：

对待评价的无参考失真视频采用与步骤4a)中相同的方法进行分段，将每个视频段依次输入到训练好的质量评价网络中，输出视频质量分数。

本发明与现有技术相比较，具有以下优点：

第一，由于本发明的时空失真特征学习模块，将传统的三维卷积分解为时间域的一维卷积和空间域的二维卷积，克服了现有技术对失真视频的时空域操作混淆，导致其无法准确模拟人类质量感知过程从而预测结果准确度不高的问题，使得本发明具有在提取学习无参考失真视频质量特征时更加有效的优点；

第二，由于本发明的时空失真特征学习模块，采用Non-Local单元，可以捕捉时空维度长范围特征之间的依赖，克服了现有技术三维卷积局部操作困难的问题。Non-Local单元直接融合全局失真特征，为模型提供时空范围内的全局注意力，使后续卷积操作获得更丰富的失真语义信息，使得本发明在对存在多种失真类型的失真视频质量评价实用性高的优点；

第三，由于本发明的质量回归模块，基于卷积神经网络提取到的失真视频中各个视频段的质量向量，在时间维度对人类视觉系统的注意力机制实现了高效建模，准确拟合到失真视频的质量分数。与现有方法对比，优化了复杂数据条件下的时间序列预测的有效性和准确性，使得本发明具有在评价无参考失真视频质量时结果更加准确的优点。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明的具体步骤做进一步的详细描述。

步骤1，构建时空失真特征学习模块。

搭建一个时空失真特征学习模块，该模块的结构依次为：粗特征提取单元→第1残差子单元→第1池化层→Non-Local单元→第2残差子单元→第2池化层→第3残差子单元→第3池化层→第4残差子单元→全局池化层→全连接层。

所述粗特征提取单元的结构依次为：输入层→第1卷积层→第1批量归一化层→第2卷积层→第2批量归一化层→池化层。

所述的第1、2、3、4残差子单元均为残差网络的三维扩展，再将3×3×3的卷积核分解为3×1×1的一维时间卷积和1×3×3的二维空间卷积，得到每个残差子单元的结构依次为：特征提取层→时间特征卷积层、空间特征卷积层→特征融合层。

所述全局池化层为均值池化，其他池化层均为最大池化层。

设置时空失真特征学习模块的各单元参数如下：

将第1、2、3、4残差子单元的输入通道数依次设置为64、256、512、1024，输出通道数依次设置为256、512、1024、2048。

将第1、2、3池化层中的卷积核大小均设置为1×3×3，步长均设置为1×2×2。

将Non-Local单元的参数设置为256。

将全连接层的参数依次设置为2048、128、1。

在全局池化层，将提取到的2048个特征图全局池化为1个大小为2048的向量。

设置粗特征提取单元中各层的参数如下：

将输入层的通道数设置为1。

将第1、2卷积层的卷积核数量均设置为64，卷积核大小依次设置为3×1×1、1×3×3，步长依次设置为2×1×1、1×2×2。

将第1、2批量归一化层的参数依次设置为3、64。

将池化层的卷积核大小设置为1×3×3，步长设置为1×2×2。

设置残差子单元的参数如下：

将特征提取层的卷积核数量设置为输入通道数的1/2，卷积核的大小设置为1×1×1，步长为1。

将时间特征卷积层的卷积核数量设置为输入通道数，卷积核的大小设置为3×1×1，步长为1。

将空间特征卷积层的卷积核数量设置为输入通道数的4倍，卷积核的大小设置为1×3×3，步长为1×2×2。

在特征融合层，将上级网络提取到的时间特征和空间特征在特征通道维度进行拼接。

步骤2，构建质量回归模块：

搭建一个质量回归模块，其结构依次为：全连接层→长短期记忆神经网络层→分数融合层。

设置质量回归模块的各层参数如下：

将全连接层的输入和输出尺寸分别设置为2048和256。

将长短期记忆神经网络的输入序列尺寸设置为256，隐藏层尺寸设置为32。

在分数融合层，对长短期记忆神经网络的输出取均值。

步骤3，生成无参考的训练集：

将自然视频公知数据集中所有的无参考失真视频的亮度通道映射到[0,1]区间；将自然视频公知数据集中所有的无参考失真视频对应的质量分数映射到[0,100]区间；保存每个失真视频映射后的所有帧序列及其质量分数；将映射后80％的无参考失真视频组成训练集。

所述的质量分数是指平均质量分数MOS，若自然视频公知数据集中失真视频对应的质量分数为差异平均质量分数DMOS，则将差异平均质量分数DMOS的比例翻转后得到平均质量分数MOS。

步骤4，训练时空失真特征学习模块：

将训练集中的每个失真视频以16帧的大小在时域上分解为不重叠的视频段，舍弃不满16帧的视频片段。

将每个视频段依次输入到时空失真特征学习模块中，分别提取并学习时间和空间维度与质量感知相关的失真特征，时空失真特征学习模块的全局池化层输出视频质量向量，全连接层输出该视频段的预测质量分数，记录模块的两类参数W₁与b，其中，W₁表示时空失真特征学习模块中边连接的权值向量，b表示时空失真特征学习模块中下一层对上一层的偏置。

利用最小绝对误差LAE的公式，计算时空失真特征学习模块的损失值，利用随机梯度下降法，更新参数W₁和b，得到训练好的时空失真特征学习模块。

所述最小绝对误差LAE的公式如下：

其中，L表示模块的损失值，∑表示求和操作，||·||₁表示1范数操作，S表示训练集中失真视频对应的质量分数，P表示训练集中的失真视频输入到模块后输出的预测质量分数。

所述的随机梯度下降法的步骤如下：

第1步，按照下式，更新模块的每个参数，将参数更新后的模块参数放入一个参数集合中：

其中，θ_k′表示模块更新后的第k个参数，θ_k表示模块更新前的第k个参数，α表示更新参数时的学习率，α∈[0,1]，

表示求偏导数操作，L表示模块的损失值；

第2步，执行第1步50次，从参数集合中的50个模块参数中选取与自然视频公知数据集标签相关性最高的模块参数，相关性是通过Pearson线性相关系数PLCC和Spearman秩次相关系数SROCC两种标准测量方法计算得到的。

步骤5，训练质量回归模块：

将时空特征学习模块中全局池化层输出的视频质量向量输入到质量回归模块中，学习时间信息对视频质量的影响。网络的输出为失真视频的质量分数和网络参数W₂。

利用最小绝对误差LAE的公式，计算质量回归网络的损失值，利用随机梯度下降法，更新参数W₂，得到训练好的质量回归网络。所述随机梯度下降法的步骤如下：

表示求偏导数操作，L表示模块的损失值；

步骤6，生成质量评价网络：

将训练好的时空失真特征学习模块和质量回归模块依次级联，组成基于三维时空特征分解的无参考视频质量评价网络。

步骤7，输出每个失真视频的质量评价分数：

对待评价的无参考失真视频采用与步骤4中相同的方法进行分段，将每个视频段依次输入到训练好的质量评价网络中，输出视频质量分数。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)Silver 4114CPU，主频为2.20GHz，内存128GB，显卡为NVIDIA GeForce RTX 2080Ti。

本发明的仿真实验的软件平台为：Ubuntu 16.04操作系统，Pytorch 1.0.4框架，Python 3.6。

本发明仿真实验所使用的输入视频为自然视频，来源于视频质量评价公知数据库LIVE和EPFL-PoliMi。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明和三个现有技术(基于弱监督学习和重采样策略的盲视频质量评价方法、基于时空统计的无参考视频质量评价方法、基于卷积神经网络与多元回归的评价的无参考视频质量评价方法)，分别对两个视频质量评价公知数据库LIVE和EPFL-PoliMi中所有的失真视频进行无参考视频质量评价，预测失真视频的质量分数。

在仿真实验中，采用的三个现有技术是指：

Zhang Y等人在其发表的论文“Blind Video Quality Assessment with WeaklySupervised Learning and Resampling Strategy”(IEEE Transactions on Circuitsand Systems for Video Technology,2018)中公开的一种基于弱监督学习和重采样策略的盲视频质量评价方法。

Li X等人在其发表的论文“Spatiotemporal statistics for video qualityassessment”(IEEE Transactions on Image Processing,25(7):3329–3342,2016)中公开的一种基于时空统计的无参考视频质量评价方法。

Wang C等人在其发表的论文“COME for No-Reference Video QualityAssessment”(2018IEEE Conference on Multimedia Information Processing andRetrieval(MIPR),232–370,2018)中公开的一种基于卷积神经网络与多元回归的评价的无参考视频质量评价方法。

在仿真实验中采用的两个视频质量评价公知数据库LIVE和EPFL-PoliMi是指：

LIVE公知数据库是指，Seshadrinathan等人在“Study of subjective andobjective quality assessment of video”(IEEE transactions on Image Processing,19(6):1427-1441,2010)中公开的视频质量评价数据库，简称LIVE公知数据库。

EPFL-PoliMi公知数据库是指，D.Simone等人在“Subjective assessment ofH.264/AVC video sequences transmitted over a noisy channel”(2009InternationalWorkshop on Quality of Multimedia Experience,204–209,2009)中公开的视频质量评价数据库，简称EPFL-PoliMi公知数据库。

为了评判本发明和另外三个现有技术的无参考视频质量评价效果，本发明的仿真实验采用斯皮尔曼秩相关系数SROCC(Spearman rank-order correlation coefficient)和线性相关系数LCC(Linear correlation coefficient)这两个指标，分别对本发明和三个现有技术的无参考视频质量评价的预测效果进行评判。斯皮尔曼秩相关系数SROCC∈[-1,1]，其数值越高，说明被评判的无参考视频质量评价方法的评价结果能更正确地反映出不同视频之间的质量好坏程度，所述的线性相关系数LCC∈[-1,1]，其数值越高，说明被评判的无参考视频质量评价方法的预测结果更接近视频的质量分数。

所述的斯皮尔曼秩相关系数SROCC和线性相关系数LCC是按照下式计算得到的：

其中，SROCC表示斯皮尔曼秩相关系数，n表示用来评价的视频数，∑表示求和操作，b_e表示第e个失真视频的质量评价值的排序序号与其质量分数的排序序号之差，LCC表示线性相关系数，s_r表示第r个失真视频的质量评价分数，

表示所有失真视频的质量评价分数的平均值，p_r表示第r个失真视频的质量分数，

表示所有失真视频的质量分数的平均值。

本发明的仿真实验使用本发明和三个现有技术对两种不同的公知数据库里的视频进行评价，计算每种方法的评价结果的斯皮尔曼秩相关系数SROCC和线性相关系数LCC，计算结果如表1所示。

表1.四种方法的评价结果对比表

从表1可见，本发明在两种公知数据库上评价结果的斯皮尔曼秩相关系数SROCC和线性相关系数LCC高于三种现有技术，证明本发明具有更好的无参考视频质量评价效果。

Claims

1.一种基于三维时空特征分解的无参考视频质量评价方法，其特征在于，构建时空失真特征学习模块从失真视频段中分别提取并学习时间和空间维度与人类视觉质量感知相关的失真特征，得到失真视频段对应的质量向量，利用构建的质量回归模块学习时间信息对视频质量的影响，从失真视频段质量向量中预测失真视频的质量分数；该方法具体步骤包括如下：

1)构建时空失真特征学习模块：

1b)设置时空失真特征学习模块的各单元参数如下：

将Non-Local单元的参数设置为256；

将全连接层的参数依次设置为2048、128、1；

1c)设置粗特征提取单元中各层的参数如下：

将输入层的通道数设置为1；

将第1、2批量归一化层的参数依次设置为3、64；

将池化层的卷积核大小设置为1×3×3，步长设置为1×2×2；

1d)设置残差子单元的参数如下：

2)构建质量回归模块：

2b)设置质量回归模块的各层参数如下：

将全连接层的输入和输出尺寸分别设置为2048和256；

在分数融合层，对长短期记忆神经网络的输出取均值；

3)生成无参考的训练集：

4)训练时空失真特征学习模块：

4b)将每个视频段依次输入到时空失真特征学习模块中，分别提取并学习时间和空间维度与质量感知相关的失真特征，时空失真特征学习模块的全局池化层输出视频质量向量，全连接层输出该视频段的预测质量分数，记录模块的两类参数W₁与b，其中，W₁表示时空失真特征学习模块中边连接的权值向量，b表示时空失真特征学习模块中下一层对上一层的偏置；

5)训练质量回归模块：

6)生成质量评价网络：

7)输出每个失真视频的质量评价分数：

2.根据权利要求1所述的基于三维时空特征分解的无参考视频质量评价方法，其特征在于：步骤1a)中所述的第1卷积层、第2卷积层为经过时空分解的伪三维卷积。

3.根据权利要求1所述的基于三维时空特征分解的无参考视频质量评价方法，其特征在于：步骤1a)中所述全局池化层为均值池化，其他池化层均为最大池化层。

4.根据权利要求1所述的基于三维时空特征分解的无参考视频质量评价方法，其特征在于：步骤1a)中所述的第1、2、3、4残差子单元均为残差网络的三维扩展。

5.根据权利要求1所述的基于三维时空特征分解的无参考视频质量评价方法，其特征在于：步骤3)中所述的质量分数是指平均质量分数MOS，若自然视频公知数据集中失真视频对应的质量分数为差异平均质量分数DMOS，则将差异平均质量分数DMOS的比例翻转后得到平均质量分数MOS。

6.根据权利要求1所述的基于三维时空特征分解的无参考视频质量评价方法，其特征在于：步骤4c)、步骤5b)中所述最小绝对误差LAE的公式如下：

7.根据权利要求1所述的基于三维时空特征分解的无参考视频质量评价方法，其特征在于，步骤4c)、步骤5b)中所述随机梯度下降法的步骤如下：

表示求偏导数操作，L表示模块的损失值；