CN111182292B

CN111182292B - 无参考视频质量评估方法、系统、视频接收器、智能终端

Info

Publication number: CN111182292B
Application number: CN202010007770.4A
Authority: CN
Inventors: 李雷达; 陈鹏飞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-05
Filing date: 2020-01-05
Publication date: 2021-06-29
Anticipated expiration: 2040-01-05
Also published as: CN111182292A

Abstract

本发明属于视频处理和计算机视觉技术领域，公开了一种无参考视频质量评估方法、系统、视频接收器、智能终端，将失真视频数据库中的视频按照一定的比例划分为训练集和测试集预处理；载入预训练的权重到构建好的循环嵌套神经网络的骨干网络中，对每个分支循环神经网络进行预训练，获得视频质量评价的先验模型；载入每个分支循环神经网络的权重，利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型；对于测试集中待测试的视频利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价。本发明使得网络模型有效地学习到质量相关的时域失真，在面对复杂运动场景的视频能够准确地进行质量预测。

Description

无参考视频质量评估方法、系统、视频接收器、智能终端

技术领域

本发明属于视频处理和计算机视觉技术领域，尤其涉及一种无参考视频质量评估方法、系统、视频接收器、智能终端。

背景技术

目前，最接近的现有技术：技术的进步和可靠、快速的互联网连接的普及，为新形式的消费者外展提供了不断扩大的全球机会。对世界各地的许多用户来说，在线分享用户生成的内容现在是一项日常活动。作为信息传播的主要载体，视频营销作为数字战略的一种上升趋势正受到营销行业的广泛关注，尤其是在提供以用户为中心的视频服务的组织中。因此，弄清在经过制造和传输环节之后的视频是否能够满足视频接收器的要求，对于视频提供商来说至关重要。为了获得与人类视觉感知高度一致的估计值，视频质量评估(VQA)指标成为了一个迫切需要解决的问题。基于人工排序的主观VQA方法是最可靠的方法，但其实际应用受到时间和劳动的限制。作为另一种选择，研究人员寻求客观的方法来自动预测失真视频的视觉质量。

根据视频中参考信息的可用性，客观VQA方法可以进一步分为全参考(FR)、半参考(RR)和无参考(NR)VQA度量方法。参考视频的全部或部分信息在FR/RR-VQA度量中是可以获得的，这使得最先进的FR/RR方法的预测结果与人类视觉感知之间存在显著的相关性。与此相反，NR-VQA方法利用了不含原始视频信息的失真特定或自然视频统计模型，这是实际应用中的主要优势，也是本专利研究的主要内容。

现有的NR-VQA度量主要针对失真特定的问题，例如码率自适应和运动模糊。这些度量显示了特定失真的优势，但不适用于其他情况。非针对的通用方法是另一种NR-VQA方法，用于处理各种失真。近年来，利用有效的特征提取算法，一些成功的通用NR-VQA度量被提出，并显示出良好的性能。Saad等人在论文“Blind prediction-of natural videoquality”中提出了一种方法，将离散余弦变换(DCT)域的模型和量化运动一致性的运动模型结合起来预测视频质量。Mittal等人在论文“A completely blind video integrityoracle”提出了一种称为VIIDEO的度量标准，它对内在的统计规律进行建模，以量化失真带来的干扰。然而，随着图像在时间维度上的扩展，视频不仅表现为空间特征，而且表现为时间特征，这就导致了传统通用度量方法在处理时空规律更加复杂的视频时失败。

随着深度学习的出现与发展，自动提取有区分度的特征和语义特征成为现实。然而，基于深度学习的NR-VQA度量方法却很少出现，这主要是由于传统卷积神经网络(CNN)不能处理具有三维时空规律的原始视频。值得注意的是，Li等人在论文“No-reference videoquality assessment with 3D shearlet transform and convolutional neuralnetworks”中提取失真视频的3D-shearlet变换特征，分析自然场景的统计特性，然后利用CNNs进化出的特征使原始特征的判别部分被夸大。Zhang等人在论文“Blind videoquality assessment with weakly supervised learning and resampling strategy”中将弱监督学习与CNN和重采样策略应用于视频质量评估。循环神经网络(RNN)和3D-CNN是处理时空信息的两种常用方法。Liu等人在论文“End-to-End Blind Quality Assessment ofCompressed Videos Using Deep Neural Networks”中利用3D-CNN模型对压缩视频进行编码分类和质量评估。然而，在复杂的运动场景中，由于这些算法是以固定的时间刷新率执行的，因此在没有有效提取运动信息的情况下，它们的性能和应用范围受到限制。

综上所述，现有技术存在的问题是：目前无参考的视频质量评价方法中没有对感知质量中运动信息的掩膜效应进行针对性设计，无法有效提取时域特征，尤其是对于复杂运动场景。

解决上述技术问题的难度：目前无参考的视频质量评价的难点在于没有对感知质量中运动信息的掩膜效应进行针对性设计，因此无法有效提取时域特征，尤其是对于复杂运动场景而言。本发明方法针对不同运动速率的物体对于感知质量的贡献不同，利用循环嵌套神经网络抓取不同时间刷新率下的运动信息，得到对于时间域失真的有效描述。

解决上述技术问题的意义：针对单一失真类型的视频的质量评价方法研究较多，但是通常在实际情况下，很难获取视频的失真类型，这就导致利用现有的质量评价方法难以有效地对视频进行质量评价，此外，由于视频中经常包含不止一个运动的物体，因此需要构建一个对任意失真视频泛化能力强的质量评价模型，可以快速地应用到现实生活中所遇到的未知失真视频的视频评价上。

发明内容

针对现有技术存在的问题，本发明提供了一种无参考视频质量评估方法、系统、视频接收器、智能终端。

本发明是这样实现的，一种无参考视频质量评估方法，所述无参考视频质量评估方法包括以下步骤：

第一步，将失真视频数据库中的视频按照一定的比例划分为训练集和测试集，并对每一个视频进行预处理；

第二步，搭建循环嵌套神经网络架构，并载入预训练的权重到骨干网络中；

第三步，对于骨干网络得到的输出进行时域下采样，并分别对分支循环网络进行预训练得到视频质量评价的先验模型；

第四步，载入每个分支循环神经网络的权重，利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型；

第五步，对于测试集中待测试的视频，利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价。

进一步，所述第一步将失真视频数据库中的视频按照一定的比例划分为训练集和测试集，并对每一个视频进行预处理具体包括：将1200个失真视频随机等分为10个子集，每个视频子集包含120个失真视频，按照8:2的比例划分成训练集和测试集，训练集的作用主要是在训练过程中进行网络模型优化，测试集的作用是检测网络模型对于没有见过的数据的预测能力；对失真视频进行了均匀采样获取图像序列作为每个视频的输入；利用卷积神经网络训练模型，统计训练数据中样本视频的图像序列的均值和标准差，对所有的样本视频中的图像序列进行去均值和除标准差操作，得到预处理后的视频。

进一步，所述第二步搭建循环嵌套神经网络框架，并载入预训练的权重到骨干网络中具体包括：首先，搭建的深度循环嵌套神经网络由骨干网络模型、一个空间金字塔池化层、一个全连接层和一个循环嵌套解码器组成；其中，骨干网络模型由去掉顶上的全连接层的ResNet-50网络组成；空间金字塔池化层接受任意尺寸大小的特征图，并用三个尺寸大小的池化窗口(分别是1倍、1/4倍和1/16倍图像大小)对每张特征图做平均池化，最终可以得到固定长度的特征向量(1+4+16＝21)；全连接层用于对特征向量的维度进行降维，由256个隐藏节点构成；循环嵌套解码器由一个循环嵌套模块和一个深度监督模块组成，循环嵌套模块用于对提取到的特征进行时序建模，深度监督模块用于帮助损失函数更好地收敛，循环嵌套解码器输出最后的预测分数；

其次，利用在ImageNet图像分类数据库上预训练的权重作为骨干网络进行权重初始化的参数，选用去掉全连接层的ResNet-50网络作为骨干网络；采用后置融合的方法解决预训练权重加载的问题；输入到网络中的图像序列尺寸为16×10×224×224×3，其中16代表批大小，10代表图像序列中帧数，3代表彩色图像的三个颜色通道；在输入到骨干网络之前，把第二维与第一维进行融合，得到160×224×224×3这种尺寸的输入，载入预训练权重进行训练；在训练完成后，再将第一维度的160分离成16×10，得到属于每个视频的图像序列的输出。

进一步，所述第三步对于骨干网络得到的输出进行时域下采样，并分别对分支循环神经网络进行预训练得到视频质量评价的先验模型具体包括：对于一个视频对应的图像序列，对其进行3次时间尺度上的下采样，会得到4个长度不一样的序列，将每个序列长度对应的分支循环神经网络替换掉循环嵌套解码器，直接输出得到视频对应的预测；

网络模型训练采用随机梯度下降法SGD进行参数优化，并利用交叉熵作为损失函数，计算公式：

其中，y_n和

分别为视频的质量分数的真实结果和预测结果，N为训练视频数量，通过梯度优化方法对网络模型参数进行训练，直至计算的损失函数结果小于0.0001为止，并将权重保存；将所有4个预训练得到的双层分支循环神经网络的权重分别加载到每个尺度的第一个和第二个循环神经网络中，构成视频质量评价的先验模型。

进一步，所述第四步利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型具体包括：对于获得的视频质量评价的先验模型，总的损失函数由两部分组成，分别是最终输出对应的损失以及分支输出对应的损失，计算公式：

Loss＝L_out+α·L_b；

其中，L_out是最终输出对应的损失，L_b是分支输出对应的损失，α是一个超参数用于调节两部分的权重；网络中有N个分支输出，那么L_b的计算公式如下：

其中，L_m是每个分支的输出对应的损失，β_m是每个输出对应损失的权重参数；

微调训练过程采用随机梯度下降法SGD进行参数优化，并利用交叉熵作为损失函数，计算公式：

其中，y_n和

分别为视频质量分数的真实结果和预测结果，M为真实失真视频的训练样本数，通过梯度优化方法对网络模型参数进行微调训练，直至计算的损失函数结果小于0.0001为止，最终得到无参考的视频质量评价模型。

进一步，所述第五步对于测试集中待测试的视频，利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价具体包括：根据训练得到质量评价先验模型，利用失真视频的训练数据对模型参数进行微调训练得到无参考的视频质量评价模型，质量分数预测由最大时间分辨率的循环神经网络的输出得到，每一个节点R^i，j的输出可由同时间分辨率的前面的节点的输出S^i，j和更小的时间分辨率P^i，j的输出计算得到：

R^i，j＝H[S^i，j，P^i，j]；

其中，H(·)是单层循环神经网络，[·]是拼接操作，F(·)是帧级的拼接操作并在后面附加了一个1×1的卷积以保证维度的一致性；在计算得到R^0，3的输出后，用全连接网络和输出层得到最终的质量预测分数；

本发明的另一目的在于提供一种实施所述无参考视频质量评估方法的无参考视频质量评估系统，所述无参考视频质量评估系统包括：

视频预处理模块，用于将失真视频数据库中的视频按照一定的比例划分为训练集和测试集，并对每一个视频进行预处理；

预训练权重载入模块，用于搭建循环嵌套神经网络架构，并载入预训练的权重到骨干网络中；

先验模型获取模块，用于对于骨干网络得到的输出进行时域下采样，并分别对分支循环网络进行预训练得到视频质量评价的先验模型；

视频质量评价模型获取模块，用于载入每个分支循环神经网络的权重，利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型；

失真视频质量评价模块，用于对于测试集中待测试的视频，利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价。

进一步，所述数据集划分与视频预处理模块包括从失真视频数据库中的大量失真视频划分成训练集和测试集和图像预处理部分组成；

所述先验模型获取模块包括利用训练集视频对每个分支循环神经网络进行训练以及将每个分支网络的权重加载到构建好的循环嵌套神经网络构成质量评价先验模型组成。

本发明的另一目的在于提供一种应用所述无参考视频质量评估方法的视频接收器。

本发明的另一目的在于提供一种应用所述无参考视频质量评估方法的智能终端。

综上所述，本发明的优点及积极效果为：本发明利用循环嵌套网络解决了视频质量评价中运动信息的掩膜效应，能够对失真视频中不同运动速率的物体的运动信息进行有效地提取；使得网络模型可以有效地学习到质量相关的时域失真，从而在面对失真视频尤其是那些包含了复杂运动场景的视频能够准群地进行质量预测。

与现有技术相比，本发明具有以下优势：

1、本发明针对失真视频中不同运动速率的物体对于感知质量的贡献大小不同，通过循环嵌套神经网络拓展了循环神经网络对于时域特征的描述能力，使当前帧不仅仅能获取过往帧的运动信息，并且能够获取对应帧的其他时间分辨率的运动信息，从而使网络学习到更符合人眼视觉系统的运动特征。

2、本发明提出的方法一种具有较强扩展性的无参考视频质量评价方法，可以适用于任意的深度神经网络，提出的方法仅仅通过循环嵌套神经网络对骨干网络提取的特征进行时域建模，可以获取很好的无参考视频质量评价的泛化性能。

3、本发明针对视频质量评价对于时域失真没有进行针对性的设计的问题，利用循环嵌套网络解决了运动信息在感知质量中的掩膜效应，在几个常用的失真视频数据库上的实验结果证明，本发明方法性能比目前主流的无参考视频质量评价方法的性能更好。

附图说明

图1是本发明实施例提供的无参考视频质量评估方法流程图。

图2是本发明实施例提供的无参考视频质量评估系统的结构示意图；

图中：1、视频预处理模块；2、预训练权重载入模块；3、先验模型获取模块；4、视频质量评价模型获取模块；5、失真视频质量评价模块。

图3是本发明实施例提供的无参考视频质量评估方法的实现流程图。

图4是本发明实施例提供的无参考视频质量评估方法的网络结构图。

图5是本发明实施例提供的无参考视频质量评估方法的高度抽象化的循环嵌套解码器结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种无参考视频质量评估方法、系统、视频接收器、智能终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的无参考视频质量评估方法包括以下步骤：

S101：将失真视频数据库中的视频按照一定的比例划分为训练集和测试集，并对每一个视频进行预处理；

S102：搭建循环嵌套神经网络架构，并载入预训练的权重到骨干网络中；

S103：对于骨干网络得到的输出进行时域下采样，并分别对分支循环网络进行预训练得到视频质量评价的先验模型；

S104：载入每个分支循环神经网络的权重，利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型；

S105：对于测试集中待测试的视频，利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价。

如图2所示，本发明实施例提供的无参考视频质量评估系统包括：

视频预处理模块1，用于将失真视频数据库中的视频按照一定的比例划分为训练集和测试集，并对每一个视频进行预处理；

预训练权重载入模块2，用于搭建循环嵌套神经网络架构，并载入预训练的权重到骨干网络中；

先验模型获取模块3，用于对于骨干网络得到的输出进行时域下采样，并分别对分支循环网络进行预训练得到视频质量评价的先验模型；

视频质量评价模型获取模块4，用于载入每个分支循环神经网络的权重，利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型；

失真视频质量评价模块5，用于对于测试集中待测试的视频，利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价。

视频预处理模块1包括从失真视频数据库中的大量失真视频划分成训练集和测试集和图像预处理部分组成；

先验模型获取模块3包括利用训练集视频对每个分支循环神经网络进行训练以及将每个分支网络的权重加载到构建好的循环嵌套神经网络构成质量评价先验模型组成。

下面结合附图对本发明的技术方案作进一步的描述。

本发明针对视频质量评价中运动信息的掩膜效应，设计了一种基于循环嵌套神经网络的无参考视频质量评价方法。本发明的目的是解决视频质量评价中尤其是复杂运动场景下的运动信息的掩膜效应以获取更有效的时域失真描述，为了解决这个问题，本发明首先将失真视频数据库分为训练集和测试集，并对每一个视频进行预处理；其次，利用预训练的权重对骨干网络的参数进行初始化，再代入各个分支循环神经网络进行预训练，单独保存各自的参数获取质量评价先验模型；然后将各个分支的参数带入构建的循环嵌套神经网络中利用训练数据进行微调得到最终的无参考视频质量评价模型。具体实施方法如图3所示，本实施例包含数据集划分与视频预处理模块、预训练权重加载模块、质量评价先验模型预训练模块和失真视频质量评价模块。先验模型获取模块和失真视频质量评价模块。数据集划分与视频预处理模块包括从失真视频数据库中的大量失真视频划分成训练集和测试集和图像预处理部分组成；预训练权重是将在ImageNet上预训练得到的权重参数加载到骨干网络上对其的参数进行初始化；先验模型获取模块包括利用训练集视频对每个分支循环神经网络进行训练以及将每个分支网络的权重加载到构建好的循环嵌套神经网络构成质量评价先验模型组成；失真视频质量评价模块是利用训练集视频对质量评价先验模型进行微调训练最终得到无参考的视频质量评价模型。

1、数据集划分与视频预处理模块

从失真视频数据库中的视频划分出训练集和测试集：本发明方法使用的失真视频数据库为已有的视频质量评价数据库KoNViD-1k，该数据库一共包括1200个失真视频，分辨率均为960×540。每个视频的质量分数为平均意见得分(MOS)，分数范围在1分到5分之间。在拆分数据库时，为了减轻因为分布不均带来的误差，本发明将1200个失真视频随机等分为10个子集，每个视频子集包含120个失真视频。按照8:2的比例划分成训练集和测试集，训练集的作用主要是在训练过程中进行网络模型优化，测试集的作用是测试经过优化的网络模型在实际应用于未训练的数据上的效果。

视频预处理：视频的预处理主要包括视频的采样和图像标准化操作。由于每个视频由大量的帧构成，但是对于质量评价来说连续的帧之间存在着大量的冗余信息，会对计算的复杂度带来很大的影响，因此本发明首先对失真视频进行了均匀采样获取图像序列作为每个视频的输入。具体来说，每个视频在每一秒的长度上均匀采集4帧画面，假设有一段长度为10秒的视频，那么会得到由40帧组成的图像序列作为该视频对于网络的输入；利用卷积神经网络训练模型，需要对训练数据进行标准化操作，这样可以保证训练的图像数据都分布在均值附近，具体过程为，首先统计训练数据中样本视频的图像序列的均值和标准差，然后对所有的样本视频中的图像序列进行去均值和除标准差操作，得到预处理后的视频。

2、预训练权重加载模块

本发明利用在ImageNet图像分类数据库上预训练的权重作为骨干网络进行权重初始化的参数，在本发明中选用去掉全连接层的ResNet-50网络作为骨干网络。由于预训练的权重是针对图像这种3维的输入，而视频输入是4维的图像序列，本发明采用后置融合的方法解决预训练权重加载的问题。具体做法为，假设输入到网络中的图像序列尺寸为16×10×224×224×3，其中16代表批大小，10代表图像序列中帧数，3代表彩色图像的三个颜色通道；在输入到骨干网络之前，本发明把第二维与第一维进行融合，得到160×224×224×3这种尺寸的输入，这样就可以载入预训练权重进行训练；在训练完成后，再将第一维度的160分离成16×10，得到属于每个视频的图像序列的输出。

3、质量评价先验模型预训练模块

分支循环神经网络的预训练：由于循环神经网络的训练往往难以收敛，直接训练循环嵌套神经网络的难度较大，为了减轻训练的压力，本发明首先对几个分支循环神经网络进行单独地训练，具体操作为，对于一个视频对应的图像序列，对其进行3次时间尺度上的下采样，会得到4个长度不一样的序列。举例来说，假设原本的图像序列长度为40，则经过3次下采样会得到40，20，10，5这样四种长度的序列，那么分别构建4个长度的循环神经网络(双层)，分别替换掉循环嵌套神经网络并用训练集的视频进行单独地训练(如图4中只剩下一个支路)，网络模型训练采用随机梯度下降法SGD进行参数优化，并利用交叉熵作为损失函数，计算公式如下：

其中，y_n和

分别为视频的质量分数的真实结果和预测结果，N为训练视频数量。通过梯度优化方法对网络模型参数进行训练，直至计算的损失函数结果小于0.0001为止，并将他们的权重保存下来。

循环嵌套神经网络质量评价先验模型搭建：按照图4中的结构搭建循环嵌套神经网络，其中卷积网络部分为去掉全连接层的ResNet-50网络，所有的循环神经网络(RNN)都使用GRU单元作为基础的循环神经单元；所有预训练得到的双层循环神经网络的权重分别加载到每个尺度的第一个和第二个循环神经网络中(共4个尺度)，这样获取的先验模型能够在训练时快速地收敛。

4、失真视频质量评价模块

根据步骤3中训练得到质量评价先验模型，本发明利用失真视频的训练数据对模型参数进行微调训练即可以得到无参考的视频质量评价模型。最终的质量分数预测由最大时间分辨率的循环神经网络的输出得到(图5中R^0，3的输出)，而根据图4可得到，每一个节点R^i，j的输出可由同时间分辨率的前面的节点的输出S^i，j和更小的时间分辨率P^i，j的输出计算得到：

R^i，j＝H[S^i，j，P^i，j]；

其中，H(·)是单层循环神经网络，[·]是拼接操作，F(·)是帧级的拼接操作并在后面附加了一个1×1的卷积以保证维度的一致性；在计算得到R^0，3的输出后，用全连接网络和输出层(激活函数为Sigmoid函数)得到最终的质量预测分数。

如图5所示，总的损失函数由两部分组成，分别是最终输出对应的损失以及分支输出对应的损失，计算公式如下：

Loss＝L_out+α·L_b；

其中，L_out是最终输出对应的损失，L_b是分支输出对应的损失，α是一个超参数用于调节两部分的权重；假设网络中有N个分支输出，那么L_b的计算公式如下：

其中，L_m是每个分支的输出对应的损失，β_m是每个输出对应损失的权重参数。

微调训练过程采用随机梯度下降法SGD进行参数优化，并利用交叉熵作为损失函数，计算公式如下：

其中，y_n和

分别为视频质量分数的真实结果和预测结果，M为真实失真视频的训练样本数。通过梯度优化方法对网络模型参数进行微调训练，直至计算的损失函数结果小于0.0001为止，最终得到无参考的视频质量评价模型。

最后，对于测试集种的测试样本视频，通过调用上述视频质量评价模型，可以自动对测试视频进行质量评价，并输出质量分数。

下面结合性能测试和实验分析对本发明的技术效果作详细的描述。

为了证明本发明的效果，对不同内容和失真强度的视频进行质量评价，并且与其他无参考图像/视频质量评价方法进行对比。为了验证本发明提出的方法的整体性能，将本实施例方法与BRISQUE、NIQE、V-BLIINDS、V-CORNIA、VIIDEO和VSFA这六种方法在KoNViD-1K数据库上进行无参考的视频质量评价性能的对比。其中，BRISQUE和NIQE是无参考的图像质量评价方法，在应用于视频时，逐帧求出质量分数并求平均作为最终的视频质量分数。本发明使用皮尔森相关系数(Pearson Correlation Coefficient，PLCC)和斯皮尔曼相关系数(Spearman Rank Order Correlation Coefficient，SRCC)来衡量图像质量评价的性能，PLCC用于定量度量质量分数预测结果与真实结果的一致性，SRCC用于定量度量质量分数预测结果与真实结果的排序相关性，PLCC/SRCC值越大方法的预测性能越好。

表1给出了本发明方法和其他6种方法图像/视频质量评价性能对比。由表中可以看出，本发明方法和现有无参考视频质量评价方法相比具有明显的优势，即PLCC/SRCC的数值明显高于其他方法，说明了本发明在无参考视频质量评价上具有很好的预测性能。

表1无参考视频质量评价性能对比

方法	PLCC	SRCC
			BRISQUE	0.5896	0.5954
NIQE	0.4105	0.4182
			V-BLIINDS	0.6718	0.6695
V-CORNIA	0.7173	0.7258
			VIIDEO	0.3059	0.3112
VSFA	0.7391	0.7452
			本发明方法	0.7910	0.7982

总之，本发明提出的基于循环嵌套神经网络的无参考视频质量评价模型具有很好的泛化性能，提出的质量评价先验模型能够有效地捕获不同运动速率的物体带来的掩膜效应在视频质量评价上的先验知识，通过实验显示出了本发明提出的方法相对之前的方法具有更好的质量评价性能，本发明提出的方法不限低对特定失真的视频进行评价，对未知失真的视频尤其是包含复杂运动场景具有很好的评价性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无参考视频质量评估方法，其特征在于，所述无参考视频质量评估方法包括以下步骤：

第三步，对于骨干网络得到的输出进行时域下采样，并分别对分支循环神经网络进行预训练得到视频质量评价的先验模型；

2.如权利要求1所述的无参考视频质量评估方法，其特征在于，所述第一步将失真视频数据库中的视频按照一定的比例划分为训练集和测试集，并对每一个视频进行预处理具体包括：将1200个失真视频随机等分为10个子集，每个视频子集包含120个失真视频，按照8:2的比例划分成训练集和测试集，训练集的作用是在训练过程中进行网络模型优化，测试集的作用是检测网络模型对于没有见过的数据的预测能力；对失真视频进行了均匀采样获取图像序列作为每个视频的输入；利用卷积神经网络训练模型，统计训练数据中样本视频的图像序列的均值和标准差，对所有的样本视频中的图像序列进行去均值和除标准差操作，得到预处理后的视频。

3.如权利要求1所述的无参考视频质量评估方法，其特征在于，所述第二步搭建循环嵌套神经网络框架，并载入预训练的权重到骨干网络中具体包括：首先，搭建的深度循环嵌套神经网络由骨干网络模型、一个空间金字塔池化层、一个全连接层和一个循环嵌套解码器组成；其中，骨干网络模型由去掉顶上的全连接层的ResNet-50网络组成；空间金字塔池化层接受任意尺寸大小的特征图，并用三个尺寸大小的池化窗口对每张特征图做平均池化，池化窗口分别是1倍、1/4倍和1/16倍图像大小；最终可以得到固定长度的特征向量1+4+16＝21；全连接层用于对特征向量的维度进行降维，由256个隐藏节点构成；循环嵌套解码器由一个循环嵌套模块和一个深度监督模块组成，循环嵌套模块用于对提取到的特征进行时序建模，深度监督模块用于帮助损失函数更好地收敛，循环嵌套解码器输出最后的预测分数；

4.如权利要求2所述的无参考视频质量评估方法，其特征在于，所述第三步对于骨干网络得到的输出进行时域下采样，并分别对分支循环神经网络进行预训练得到视频质量评价的先验模型具体包括：对于一个视频对应的图像序列，对其进行3次时间尺度上的下采样，会得到4个长度不一样的序列，将每个序列长度对应的分支循环神经网络替换掉循环嵌套解码器，直接输出得到视频对应的预测；

其中，y_n和

5.如权利要求1所述的无参考视频质量评估方法，其特征在于，所述第四步利用训练集数据对建立的先验模型网络参数进行微调以获取通用无参考的视频质量评价模型具体包括：对于获得的视频质量评价的先验模型，总的损失函数由两部分组成，分别是最终输出对应的损失以及分支输出对应的损失，计算公式：

Loss＝L_out+α·L_b；

其中，L_out是最终输出对应的损失，L_b是分支输出对应的损失，α是一个超参数用于调节两部分的权重；网络中有M个分支输出，那么L_b的计算公式如下：

其中，y_n和

分别为视频质量分数的真实结果和预测结果，N为真实失真视频的训练样本数，通过梯度优化方法对网络模型参数进行微调训练，直至计算的损失函数结果小于0.0001为止，最终得到无参考的视频质量评价模型。

6.如权利要求1所述的无参考视频质量评估方法，其特征在于，所述第五步对于测试集中待测试的视频，利用已建立的通用无参考的视频质量评价模型，自动实现失真视频的无参考质量评价具体包括：根据训练得到质量评价先验模型，利用失真视频的训练数据对模型参数进行微调训练得到无参考的视频质量评价模型，质量分数预测由最大时间分辨率的循环神经网络的输出得到，每一个节点R^i，j的输出可由同时间分辨率的前面的节点的输出S^i，j和更小的时间分辨率P^i，j的输出计算得到：

R^i，j＝H[S^i，j，P^i，j]；

其中，[·]是拼接操作，F(·)是帧级的拼接操作并在后面附加了一个1×1的卷积以保证维度的一致性；在计算得到R^0，3的输出后，用全连接网络和输出层得到最终的质量预测分数。

7.一种实施权利要求1～6任意一项所述无参考视频质量评估方法的无参考视频质量评估系统，其特征在于，所述无参考视频质量评估系统包括：

先验模型获取模块，用于对于骨干网络得到的输出进行时域下采样，并分别对分支循环神经网络进行预训练得到视频质量评价的先验模型；

8.如权利要求7所述的无参考视频质量评估系统，其特征在于，所述视频预处理模块包括从失真视频数据库中的大量失真视频划分成训练集和测试集和图像预处理部分组成；

所述先验模型获取模块包括利用训练集视频对每个分支循环神经网络进行训练以及将每个分支网络的权重加载到构建好的循环嵌套神经网络构成质量评价先验模型。