CN112784698A

CN112784698A - 基于深层次时空信息的无参考视频质量评价方法

Info

Publication number: CN112784698A
Application number: CN202011637358.7A
Authority: CN
Inventors: 殷海兵; 刘银豪; 周晓飞; 王鸿奎
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11

Abstract

本发明公开了基于深层次时空信息的无参考视频质量评价方法，包括如下步骤：S1，内容感知特征提取，利用Resnet‑50预训练的深度神经网络，提取顶层的语义层特征后进行聚合，对特征图进行均值聚合与标准差聚合；S2，对时间记忆效应进行建模，在特征整合方面，采用GRU网络对长期依赖关系进行建模，在质量聚合方面，提出主观启发的时间池化模型并将其嵌入到网络中；现有的NR‑VQA方法无法很好地对VQA任务中的长期依赖关系建模，为了解决这个问题，我们求助于GRU，它是带有门控制的递归神经网络模型，能够集成特征并学习长期依赖关系，本发明中使用GRU集成内容感知功能并预测逐帧质量得分。

Description

基于深层次时空信息的无参考视频质量评价方法

技术领域

本发明涉及图像、视频处理技术领域，尤其是涉及一种基于深度卷积网络的无参考视频质量评价方法。

背景技术

随着具有拍照录像功能的可穿戴设备、智能手机与平板电脑的普及，视频信息的获取和存储变得越来越容易，人们可以随意拍摄不同时长的视频信息，其中不乏大量的失真视频，这极大的影响观众的视觉体验。在整个视频链路中，大部分模块都可以精确度量，如采集、上传、预处理、转码、分发等。然而未知的部分却恰恰是最关键的部分，即用户的视频观看体验到底怎么样。目前行业内的视频质量评估方法分为两大类：客观质量评估与主观质量评估。主观评价方式通过人类视觉系统进行评价，较准确，但不稳定，耗时，且成本较高，难以操作。客观评价方法对人进行建模，通过模型评价图像质量，具有批量处理、结果稳定和可重现的优点。近年来，如何利用计算机技术模拟人类视觉注意力评价机制，正确评价视频质量成为当前研究的热点。在过去的十年中，研究人员提出了众多的评价模型，并应用到很多领域，如图像/视频降噪、图像/视频压缩编码、图像/视频风格迁移等。同时，我们也要注意随着自媒体的传播，拍摄视频存在不确定且混合的失真，而这无疑增加了该领域的研究难度。

视频质量评价对象不受限于对象的类别、尺寸大小、失真类型、个数等，这些不确定因素使得它成为目前计算机视觉和人工智能领域中的一个难题。在传统做法中，研究人员根据提取视频中的抽象特征来表示图像。这些特征包括：对比度、亮度、颜色分布、运动光流等，但在复杂的场景中，传统方法往往不够准确。这是因为这些观察往往限于低级别的特征(例如，颜色和对比度等)，而不能准确描述人眼对于视频质量的复杂感知。

近年来，深度卷积神经网络(Convolutional Neural Network,CNN)广泛运用于计算机视觉的各个领域，很多困难的视觉问题都获得了重大的进展。不同于传统方法，深度卷积网络可以从大量的样本中建模并且自动地、端到端地学习到更为本质的特征，从而有效地避免了传统人工建模和设计特征的弊端。在视频质量评价领域，深度卷积网络也被广泛地使用，并且大幅度地提高了视频质量评价的准确性和泛化性，但是由于深度网络需要大量运用的池化操作(例如max-pooling和average-pooling)编码上下文信息，这些方法总是不能很好地保存视频中深层次的信息，即得到提取的视频特征仅仅涉及浅层的语义特征与时域相关信息。而事实上，视频中帧内与帧间的深层次相关信息十分重要，我们人眼对视频的感知与评价是一个十分复杂的过程，单凭一个简单的顶层语义与简单的循环卷积神经网络是不够的。同时，忽略这些深层次的时空信息，往往只能得到次优的结果。

幸运的是，随着深度学习技术的发展，其已成功应用于许多计算机视觉任务中，例如物体检测、语义分割和视频质量评价领域。最近，研究发现将深度卷积网络引入到视频质量评价中，探索时空联合域的深层次时空信息，极大地提升了视频评价的性能。

在具体实现中，仍存在如下技术问题：

1.内容感知特征提取模块仅仅提取了最顶层的特征。然而在主观实验中，实验对象不仅仅关注最顶层的语义特征，在不同的图像中，所关注的图像特征也不同，图像的特征包括边缘、细节等。这导致评价的时候所得到的信息不够全面。

2.对于全局的时序信息，仅仅考虑使用单向的GRU。在主观实验当中，实验对象对于当前帧的质量评价不仅仅受之前帧影响，实际上也受到后续帧的影响。因此，单纯考虑单向的GRU得到的结果是不准确的。

3.时间记忆模型中的窗滑动不考虑帧率，只采取固定的窗。时间记忆模型的窗应根据帧率采取不同大小。

发明内容

为解决现有技术的不足，实现提升视频评价的性能目的，本发明采用如下的技术方案：

基于深层次时空信息的无参考视频质量评价方法，包括如下步骤：

S1，内容感知特征提取，利用Resnet-50预训练的深度神经网络，提取顶层的语义层特征后进行聚合，对特征图进行均值聚合与标准差聚合；

S2，对时间记忆效应进行建模，在特征整合方面，采用GRU网络对长期依赖关系进行建模，在质量聚合方面，提出主观启发的时间池化模型并将其嵌入到网络中。现有的NR-VQA方法无法很好地对VQA任务中的长期依赖关系建模，为了解决这个问题，我们求助于GRU，它是带有门控制的递归神经网络模型，能够集成特征并学习长期依赖关系，本发明中使用GRU集成内容感知功能并预测逐帧质量得分。

进一步的，所述步骤S1的具体内容，包括如下步骤：

S11，设视频具有T帧，将视频帧I_t(t＝1,2，...，T)输入到预训练的CNN模型中，并从其顶部卷积层输出深度语义特征图M_t：

M_t＝CNN(I_t)

M_t总共包含C个特征图，然后，对Mt的每个特征图应用空间全局聚合，仅仅将空间全局平均池化操作GP_mean应用于Mt会丢弃许多Mt信息，因此我们进一步考虑合并空间全局标准偏差GP_std，以保留Mt中的变化信息；GP_mean，GP_std操作后输出特征向量分别为

内容感知特征提取中，在使用res5c层特征的基础上，同时提取res4f、res3d层特征，对这些层所提出的特征图采用与res5c特征图相同操作：

S12，将

和

串联起来，作为内容感知知觉特征f_t：

其中，

表示拼接操作。

进一步的，所述步骤S2中，提取的内容感知特征在输入GRU之前，执行尺寸减少，使用单个全连接层执行尺寸缩减，即4096降维至128维度，提取的内容感知功能具有较高的维度，对于训练GRU而言不容易，因此，将它们送入GRU之前执行尺寸减小，通过与优化过程中的其他步骤一起执行降维操作；

x_t＝W_fxf_t+b_fx

其中W_fx和b_fx是该全连接层的参数；降维后，将缩减后的特征x_t(t＝1，…，T)送入GRU，将GRU的隐藏状态视为集成特征，其初始值为h0；

根据当前输入x_t和先前的隐藏状态h_t-1计算出的当前隐藏状态h_t，即：

最后为充分利用Deeper GRU结构的时间域相关性，为提高信息交互的数据量尝试采用Dual Deeper GRU结构；

outputs，即通过Dual Deeper GRU模块之后，得到包含更深层次时域长时间相关特征的帧得分，最后通过全连接层进行回归，得到每帧得分；

利用集成功能outputs，可以通过添加单个全连接层来预测帧质量得分q_t：

q_t＝W_hq(outputs)+b_hq

其中，W_hq和b_hq是权重和偏置参数。

进一步的，所述步骤S2中的主观启发的时间池化模型，将存储器质量元素定义为先前帧中质量得分的最小值；将当前质量元素定义为下一帧中质量得分的基于排序的加权平均值；近似分数被计算为存储器和当前元素的加权平均值；视频质量计算为近似分数的时间平均池。但是，直接将此模型应用于真实失真视频的质量评估存在一些限制。首先，该模型需要可靠的帧质量得分作为输入，这在我们的任务中无法提供。第二，本申请中的模型是不可区分的，因为当前质量元素的定义中基于排序顺序的权重，因此，它无法嵌入到神经网络中，由于我们只能访问总体主观视频质量，因此我们需要学习神经网络而无需帧级监督，因此，为了将预测的帧质量得分qt与视频质量Q连接起来，我们提出了一种新的可区分时间池化模型。

进一步的，将基于排序顺序的权函数替换为可区分权重函数，并将其嵌入网络中，具体地：

为了模仿人类对不良质量事件的容忍度，将第t帧的存储质量元素定义为前几个帧中的最低质量得分：

l_t＝q_t，t＝1

其中V_prev＝{max(1，t-τ)，…，t-2，t-1}是所考虑帧的索引集，而τ是与时间持续时间有关的超参数；

考虑到受试者对质量下降反应敏锐而对质量改善反应迟钝的事实，在第t帧构造了当前质量元素mt，使用接下来几帧的加权质量得分，其中分配了更大的权重对于较差质量的帧，具体地，通过可分解的softmin函数，即负线性函数和softmax函数的组合，来确定权重

其中Vnex t＝{t，t+1，…，min(t+τ，T)}是相关帧的索引集；

根据实验，尝试不同窗的效果后发现，τ与帧率相关，即采用的窗大小与视频帧率相关，使τ＝int(round(Frame.rate)/2)；

通过线性组合内存质量和当前质量元素来近似主观帧质量得分，然后，通过近似分数的时间全局平均池GAP计算总体视频质量Q：

q′_t＝γl_t+(1-γ)m_t

其中，γ是一个超参数，用于平衡内存和当前元素对近似分数的贡献。

本发明的优势和有益效果在于：

本发明大幅度地提高了视频质量评价的准确性和泛化性，并且融合了视频中帧内与帧间的深层次相关信息，使得评价时所得到的信息更为全面；对于全局的时序信息，采用双向GRU，使得到的结果更为准确；时间记忆模型中的窗滑动，同时考虑帧率，最终提升了视频评价的性能。

附图说明

图1是本发明的网络流程图。

图2是本发明中多尺度帧特征融合结构图。

图3是本发明中双流更深层次RNN结构图。

图4是本发明中基于帧率的自适应平滑局部信息提取模块原理图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1-4所示，基于深层次时空信息的无参考视频质量评价方法的重点，是真实视频的质量评价问题。由于人类是最终用户，因此利用人类视觉系统(HVS)的知识可以帮助建立解决我们问题的客观方法。具体来说，主要是人类对于视频质量的感知分别受到单帧图像内容和短时时间记忆。

本发明主要分为如下模块：内容感知特征提取和时间记忆模型。其中内容感知特征提取模块是利用Resnst-50预训练的深度神经网络，提取顶层的语义层特征后进行聚合，对特征图进行均值聚合与标准差聚合。

对于真实失真视频，所感知的视频质量在很大程度上取决于视频中视频内容。这可以归因于以下原因：失真的复杂性，人类对于失真的容忍阈值以及人类的偏爱不同的视频内容/场景而异。

为了评估真实失真视频的感知质量，上述观察促使我们提取出不仅与失真有关的特征而且对于内容感知相关的特征。我们使用CNN在ImageNet上预训练的图像分类模型，使之具有对于不同内容信息的区分能力。因此，从这些模型中提取的深层功能(例如ResNet)有望实现内容感知。同时，深层特征对失真敏感。因此从预训练的图像分类模型中提取内容感知感知特征是合理的。

首先，假设视频具有T帧，我们将视频帧I_t(t＝1,2，...，T)输入到预训练的CNN模型中，并从其顶部卷积层输出深度语义特征图M_t：

M_t＝CNN(I_t)

M_t总共包含C个特征图。然后，我们对Mt的每个特征图应用空间全局聚合。仅仅将空间全局平均池化操作(GP_mean)应用于Mt会丢弃许多Mt信息，因此我们进一步考虑合并空间全局标准偏差(GP_std)，以保留Mt中的变化信息。GP_mean，GP_std操作后输出特征向量分别为

之后，将

和

串联起来，作为内容感知知觉特征f_t：

其中，

表示拼接操作。

时间建模是设计目标VQA模型的另一个重要方向。我们从两个方面对时间记忆效应进行建模。在特征整合方面，我们采用GRU网络对我们方法中的长期依赖关系进行建模。在质量聚合方面，本模型提出了一个主观启发的时间池化模型并将其嵌入到网络中。

长时间依赖关系建模：现有的NR-VQA方法无法很好地对VQA任务中的长期依赖关系建模。为了解决这个问题，我们求助于GRU。它是带有门控制的递归神经网络模型，能够集成特征并学习长期依赖关系。具体而言，在本文中，我们考虑使用GRU集成内容感知感知功能并预测逐帧质量得分。

提取的内容感知功能具有较高的维度，对于训练GRU而言不容易。因此，最好在将它们送入GRU之前执行尺寸减小。通过与优化过程中的其他步骤一起执行降维操作，可能是有益的。在这方面，我们使用单个全连接层执行尺寸缩减，即4096降维至128维度。

x_t＝W_fxf_t+b_fx

其中W_fx和b_fx是该全连接层的参数。

降维后，将缩减后的特征x_t(t＝1，…，T)送入GRU模块。我们将GRU的隐藏状态视为集成特征，其初始值为h0。

最后为充分利用Deeper GRU结构的时间域相关性，为提高信息交互的数据量尝试Dual Deeper GRU结构。

最终的outputs，即通过Dual Deeper GRU模块之后，得到包含更深层次时域长时间相关特征的帧得分。最后通过全连接层进行回归。得到每帧得分。

利用集成功能outputs，我们可以通过添加单个全连接层来预测帧质量得分q_t：

q_t＝W_hq(outputs)+b_hq

其中，W_hq和b_hq是权重和偏置参数。

双流更深层次RNN，对于全局的时序信息，考虑到后续帧对之前帧的影响。尝试提出双向GRU模块来尝试，正向128维输入得到32维的关联信息，反向输入得到反向的32维关联信息，最后将正反向关联信息concat得到64维向量。

同时，为进一步提取全局信息，将前向的GRU进行信息交换，采用串联结构构成一个双向更深层次GRU。如图3所示，正向128维输入得到32维的关联信息，将该32维关联信息反向输入GRU网络得到反向的关联信息。这样构成了正反向关联信息的交互，最后，将正反向关联信息concat得到64维向量。

最后，为提高信息交互的数据量，引入后向的GRU，也采用串联结构构成一个Deeper Bidirectional ConvLSTM。首先将反向128维输入得到32维的反向关联信息，再将该32维度反向关联信息再次反向重新输回GRU网络，得到正向的关联信息。这样构成了反正向关联信息的交互，最后，将反正向关联信息concat得到64维向量。

将前后向的conv-GRU得到64维向量进行拼接。即得到全部128维的视频关联信息。

主观启发的时间池化模型：得到每帧的得分之后，则需要考虑到时间记忆模型。其具体原理为在主观实验中，实验对象不能容忍质量差的视频事件。在主观实验中发现了时间记忆效应，即受试者对视频质量的下降做出了强烈反应，并在此时间间隔内提供了较差的质量，但对视频质量的改善却做出了钝化的反应。

其中，本发明采用了一个时间池模型来说明磁滞效应。具体而言，将存储器质量元素定义为先前帧中质量得分的最小值；将当前质量元素定义为下一帧中质量得分的基于排序的加权平均值；近似分数被计算为存储器和当前元素的加权平均值；视频质量计算为近似分数的时间平均池。但是，直接将此模型应用于真实失真视频的质量评估存在一些限制。首先，该模型需要可靠的帧质量得分作为输入，这在我们的任务中无法提供。第二，论文中的模型是不可区分的，因为当前质量元素的定义中基于排序顺序的权重。因此，它无法嵌入到神经网络中。在我们的问题中，由于我们只能访问总体主观视频质量，因此我们需要学习神经网络而无需帧级监督。因此，为了将预测的帧质量得分qt与视频质量Q连接起来，我们提出了一种新的可区分时间池化模型，方法是将中基于排序顺序的权函数替换为可区分权重函数，并将其嵌入网络中。详细如下：

l_t＝q_t，t＝1

其中V_prev＝{max(1，t-τ)，…，t-2，t-1}是所考虑帧的索引集，而τ是与时间持续时间有关的超参数。

考虑到受试者对质量下降反应敏锐而对质量改善反应迟钝的事实，我们在第t帧构造了当前质量元素mt，使用接下来几帧的加权质量得分，其中分配了更大的权重对于较差质量的帧。具体来说，我们通过可分解的softmin函数(负线性函数和softmax函数的组合)来确定权重

其中Vnex t＝{t，t+1，…，min(t+τ，T)}是相关帧的索引集。

根据实验发现，τ与帧率相关，我们尝试τ＝int(round(Frame.rate)/2)。

最后，我们通过线性组合内存质量和当前质量元素来近似主观帧质量得分。然后，通过近似分数的时间全局平均池(GAP)计算总体视频质量Q：

q′_t＝γl_t+(1-γ)m_t

利用本发明的方法，在三大公开数据集训练测试，即KoNViD-1k、CVD2014和LIVE-Qualcomm。其中，KoNViD-1k是包含有1200个视频序列的数据集，并提供480参与的人工标注评分结果；CVD2014包含有234个复杂视频序列帧，包含5个不同场景与78种不同拍摄设备；LIVE-Qualcomm包含有208个高质量分辨率的视频帧序列，包含54个场景与8种不同拍摄设备。

技术方案的技术效果(SROCC)如下表所示：

表1 LIVE-Qualcomm

表2 KoNViD-1k

表3 CVD2014

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于深层次时空信息的无参考视频质量评价方法，其特征在于包括如下步骤：

S1，内容感知特征提取，利用预训练的深度神经网络，提取顶层的语义层特征后进行聚合，对特征图进行均值聚合与标准差聚合；

S2，对时间记忆效应进行建模，在特征整合方面，采用GRU网络对长期依赖关系进行建模，在质量聚合方面，提出主观启发的时间池化模型并将其嵌入到网络中。

2.如权利要求1所述的于深层次时空信息的无参考视频质量评价方法，其特征在于所述步骤

S1的具体内容，包括如下步骤：

M_t＝CNN(I_t)

M_t总共包含C个特征图，然后，对Mt的每个特征图应用空间全局聚合，将空间全局平均池化操作GP_mean应用于Mt，合并空间全局标准偏差GP_std；GP_mean，GP_std操作后输出特征向量分别为

S12，将

和

串联起来，作为内容感知知觉特征f_t：

其中，

表示拼接操作。

3.如权利要求1所述的于深层次时空信息的无参考视频质量评价方法，其特征在于所述步骤S2中，提取的内容感知特征在输入GRU之前，执行尺寸减少，使用单个全连接层执行尺寸缩减；

x_t＝W_fxf_t+b_fx

最后采用Dual Deeper GRU结构；

q_t＝W_hq(outputs)+b_hq

其中，W_hq和b_hq是权重和偏置参数。

4.如权利要求3所述的于深层次时空信息的无参考视频质量评价方法，其特征在于所述步骤S2中的主观启发的时间池化模型，将存储器质量元素定义为先前帧中质量得分的最小值；将当前质量元素定义为下一帧中质量得分的基于排序的加权平均值；近似分数被计算为存储器和当前元素的加权平均值；视频质量计算为近似分数的时间平均池。

5.如权利要求4所述的于深层次时空信息的无参考视频质量评价方法，其特征在于将基于排序顺序的权函数替换为可区分权重函数，并将其嵌入网络中，具体地：

将第t帧的存储质量元素定义为前几个帧中的最低质量得分：

l_t＝q_t，t＝1

在第t帧构造了当前质量元素mt，使用接下来几帧的加权质量得分，其中分配了更大的权重对于较差质量的帧，具体地，通过可分解的softmin函数，即负线性函数和softmax函数的组合，来确定权重

其中Vnex t＝{t，t+1，…，min(t+τ，T)}是相关帧的索引集；

τ与帧率相关，即采用的窗大小与视频帧率相关，使τ＝int(round(Frame.rate)/2)；

q′_t＝γl_t+(1-γ)m_t