CN113784113A

CN113784113A - 一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法

Info

Publication number: CN113784113A
Application number: CN202110992742.7A
Authority: CN
Inventors: 史萍; 王雪婷; 潘达
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-10

Abstract

本发明公开了一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，将视频帧依次通过两种计算不同时间长度的网络来实现质量的预测。短时时空融合网络用于提取并融合当前帧的时空特征，得到当前帧中时间特征作用于空间特征后的结果。长时序列融合网络用于在先验知识的指导下对一段时间内各帧之间相互作用的结果进行建模并预测视频的质量分数。本方法以视频帧作为输入，通过在帧级别上设计网络从而融合时间和空间特征，在序列级别上考虑帧间关系从而进一步细化当前帧特征的方式，利用深度学习预测一段视频中各帧的质量，最终完成对视频整体质量评价的任务。本发明由于细化且丰富了视频帧的特征，因此在模型性能上有了显著提高。

Description

一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法

技术领域

本发明涉及一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，属于数字视频处理技术领域。

背景技术

视频作为视觉信息的一种复杂来源,蕴含了大量的有价值信息。视频质量的好坏直接影响到人们的主观感受和信息量获取,并且可以指导相关设备研发、系统监测、质量恢复等其他视频任务，视频质量评价(Video Quality Assessment,VQA)的研究也在近几年受到广泛的重视。

视频质量评价方法可以分为主观评价方法和客观评价方法。主观评价是由观察者对视频质量进行主观评分，虽然评分结果符合人的主观感受但同时具有工作量大、耗时长等缺点；客观评价方法是由计算机根据一定算法计算得到视频的质量指标，根据评价时是否需要参考视频又可以分为全参考(Full Reference,FR)、半参考(部分参考)(ReducedReference,RR)和无参考(No Reference,NR)这三类评价方法：

(1)全参考视频质量评价方法。FR算法是指在给定理想视频作为参考视频的标准下，比较待评价视频与参考视频之间的差异，分析待评价视频的失真程度，从而得到待评价视频的质量评估结果。常见的FR方法的有：基于视频像素统计的视频质量评价(主要有峰值信噪比和均方误差)、基于深度学习的视频质量评价、基于结构信息的视频质量评价(主要为结构相似度)。FR算法是目前为止在客观视频质量评价中最可靠的方法。

(2)半参考视频质量评价方法。RR算法是指提取参考视频的部分特征信息作为参考，对待评价视频进行比较分析，从而得到视频的质量评估结果。常见的RR算法主要为：基于原始视频特征的方法和基于Wavelet域统计模型的方法。

(3)无参考视频质量评价方法。NR算法是指在没有理想视频的情况下，对待评价视频进行质量评估的方法。常用的NR算法主要为：基于自然场景统计的方法、基于深度学习的方法。

针对视频在获取、处理、传输和记录的过程中，由于成像系统、处理方法、传输介质和记录设备等不完善，加之物体运动、噪声干扰等原因所造成的失真和降质，视频在正式使用之前往往需要进行质量衡量。在不使用人力资源和参考视频的情况下直接由失真视频得到其质量的方法称为客观无参考视频质量评价。

中国专利CN201811071199.1公开了一种基于层级特征融合网络的无参考图像质量评价方法，主要解决现有技术精度低、速度慢的问题。其实现方案是：从MSCOCO数据集挑选参考图像并通过添加噪声建立污染图像数据库；对训练集图像和测试集图像同时进行去均值与裁剪；根据人类视觉系统从局部特征到全局语义的分层次处理机制，设计一个进行端到端联合优化的层级特征融合网络模型；利用训练集和测试集对层级特征融合网络模型进行训练；对待评测图像进行去均值与裁剪处理，将处理后的图像输入训练好的层级特征融合网络模型，获得图像质量预测分值；由此提高无参考质量评价的精度与速度，可用于图像筛选、压缩、视频质量监控。

中国专利CN201810239888.2公开了一种基于卷积神经网络的全参考虚拟现实视频质量评价方法，包括：视频预处理：利用VR视频的左视图视频与右视图视频得到VR差分视频，从差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个VR视频补丁；建立两个配置一样的卷积神经网络模型；训练卷积神经网络模型：利用梯度下降法，以VR视频补丁为输入，每个补丁配上原视频质量分数作为标签，分批次将其输入网络，经过多次迭代后网络各层权重得到充分优化，最终得到可用于提取虚拟现实视频特征的卷积神经网络模型；利用卷积神经网络提取特征；利用支持向量机得到局部分数，采用分数融合策略得到最终分数，提高客观评价方法准确率。

本发明拟采用短时时空融合网络和长时序列融合网络对视频质量进行客观无参考质量评价。

发明内容

针对现有视频质量评价中无参考视频质量评价性能差的问题，本发明提出了一种客观无参考质量评价方法，本发明将视频划分为视频帧，每个视频帧通过短时时空融合网络得到各个视频帧的64维特征向量和初步预测的质量得分，随后将特征向量按照时间顺序组合成特征序列，将初步预测的质量得分在先验知识的指导下转化成各帧之间的影响因子，然后将它们作为长时序列融合网络的输入，得到视频的整体质量分数，完成质量评价过程。

本发明采用的技术方案为一种基于短时时空融合网络和长时序列融合网络的方法对视频质量进行无参考客观质量评价，包括以下步骤：

步骤1，由视频得到视频帧。

对于一个视频，需要通过切分成帧、等间隔下采样等操作得到一系列独立的视频帧，并以此作为VQA模型的输入：

步骤1.1，提取视频帧，将完整的视频序列从YUV等格式转化成BMP格式，逐帧保存；

步骤1.2，采样视频帧，以4为间隔选取视频帧，其他视频帧由于冗余直接丢弃。

步骤1.3，生成亮度图，将三通道的彩色视频帧转化成只有Y通道的亮度图。

步骤2，搭建并训练短时时空融合网络。

搭建并训练基于卷积神经网络(Convolutional Neural Networks,CNN)的短时时空融合网络，其输入为步骤1.2得到的视频帧，输出为64维的特征向量和初步预测的质量得分：

步骤2.1，使用UNet作为提取空间特征的网络，将步骤1.2生成的视频帧作为此网络的输入，大小为[Batch-Size×3×Width×Height]，训练网络用到的标签为特征相似性指数方法(feature similarity index measure，FSIM)中的梯度幅值(GradientMagnitude，GM)相似性；网络的输出为预测得到的GM相似性，大小为[Batch-Size×1×Width×Height]；

步骤2.2，使用预训练完成的PWCNet作为提取时间特征的网络，将步骤1.2生成的视频帧作为此网络的输入，大小为[Batch-Size×3×Width×Height]；将预测得到的光流图转化为亮度图作为网络的输出，大小为[Batch-Size×1×Width×Height]；

步骤2.3，搭建提取时空特征向量和初步质量分数的网络，网络的输入有两个，分别是步骤1.3生成的视频帧亮度图和步骤2.1生成的空间特征、步骤2.2生成的时间特征的组合，大小均为[Batch-Size×2×Width×Height]，网络由5个卷积结构和4个全连接层构成，每个卷积结构由卷积层、池化层、正则化层和激活函数构成，卷积核个数分别为32、64、64、128、128，卷积核大小为3×3，池化层步长为2×2；全连接层的大小分别为1024、256、64和1。将第三、第四个全连接层的输出均作为网络的输出，第三层的输出为64维的特征向量，大小为[Batch-Size×64×1]，第四层的输出为初步预测的质量得分，大小为[Batch-Size×1×1]；

步骤2.4，在步骤2.1至2.3的基础上搭建短时时空融合网络，网络的输入为步骤1.2生成的视频帧，大小为[Batch-Size×3×Width×Height]，先将该输入分别通过步骤2.1和2.2获得空间特征和时间特征，再将步骤1.3生成的亮度图分别与这两种特征相组合通过步骤2.3获得网络的输出：特征向量和初步预测的质量得分，二者的大小分别为[Batch-Size×64×1]和[Batch-Size×1×1]；

步骤2.5，准备训练数据，将步骤1.2生成的视频帧作为步骤2.4所建网络的输入，其标签为当前视频的主观质量得分；

步骤2.6，训练短时时空融合网络，输入为步骤1.2生成的视频帧，输出为特征向量和初步预测的质量得分，使用MSE Loss比较标签和初步预测的质量得分并对网络进行训练。

步骤3，得到若干视频段的特征序列和视频段中各帧相互的影响因子。

通过训练好的短时时空融合网络，对每个视频帧生成一个64维的特征向量和初步预测的质量得分，并将特征向量按照时间顺序组合成特征序列，将初步预测的质量得分在先验知识的指导下转化成各帧彼此之间的影响因子：

步骤3.1，将特征向量组合成特征序列，在视频序列中，随机取N个起点，沿时间方向取T帧的64维特征向量，T默认取8，相邻帧之间的间隔默认取4，得到一个T×64的特征序列，此序列作为后续网络输入的最小单元。

步骤3.2，计算影响因子，将步骤2得到的各帧的初步预测的质量得分在先验知识的指导下转化成相互之间在质量方面的影响力，该影响被归一化到[0,1]，且当前帧对自身质量的影响力固定为1。

步骤4，搭建并训练长时序列融合网络。

搭建并训练基于图卷积网络(Graph Convolutional Network，GCN)的长时序列融合网络，输入为步骤3输出的定长特征序列和各帧彼此之间的影响因子，输出为视频的质量分数：

步骤4.1，搭建基于GCN的长时序列融合网络，网络的输入为若干64维特征向量组成的特征序列和各个特征向量所表示的视频之间的影响因子，大小分别为Batch-Size×T×64和Batch-Size×T×T，网络包含2层GCN结构，随后接一个输出大小为T的全连接层；

步骤4.2，整理训练数据，将步骤3获得的若干特征序列和各帧彼此之间的影响因子整理成步骤4.1中输入的格式作为长时序列融合网络的输入；

步骤4.3，训练长时序列融合网络，使用视频质量分数作为标签，使用MSE Loss进行训练。

步骤5，进行视频的质量评价。

对一段视频进行切帧、采样、提取特征、质量评价。

步骤5.1，按照步骤1的步骤对待测试视频进行切帧、采样成视频帧等操作；

步骤5.2，使用步骤2训练好的短时时空融合网络对步骤5.1切好的视频帧进行特征的提取和初步融合；

步骤5.3，使用步骤3对步骤5.2得到的特征向量和初步预测得分进行整理和计算；

步骤5.4，使用步骤4训练好的长时序列融合网络对步骤5.3得到的视频序列和影响因子进行进一步的特征融合，使一段视频最终得到M个视频帧的质量分数。

步骤5.5，对步骤5.4的M个视频帧质量分数求平均，得到视频的整体质量分数。

与现有技术相比，本发明具有以下优点：

(1)现有的基于深度学习的VQA技术方法往往将设计重点放在如何提取时间和空间特征上，将它们分割成两个独立的个体，而忽略了如何融合这两方面的特征。本发明设计专门用于融合时空特征的短时时空融合网络，将提取到的特征在帧级别上更好的融为一体，从而表征当前帧的质量。

(2)现有的二维VQA技术方法通常默认每帧的质量由自身决定，忽略了帧与帧之间相互作用所产生的影响。本发明使用长时序列融合网络，使用以当前帧为中心的连续T帧共同决定当前帧的质量。由于存在时间轴上特征融合的设计，本发明可以更充分的提取视频帧间内容的相关性，网络得到的特征可以更好的代表每一帧的特性，从而使得最终预测得到的视频分数更加准确。

附图说明

图1为本发明具体实施方式的流程图。

图2为本发明短时时空融合网络和长时序列融合网络的结构图。

具体实施方式

以下结合附图和实施例对本方法进行详细说明。

实施方式。

实施方式的流程图如图1所示，包括以下步骤：

步骤S10，由视频得到视频帧；

步骤S20，搭建并训练短时时空融合网络；

步骤S30，得到若干视频段的特征序列和视频段中各帧相互的影响因子；

步骤S40，搭建并训练长时序列融合网络；

步骤S50，对视频进行质量评价；

实施方式的由视频得到视频帧调整步骤S10还包括以下步骤：

步骤S100，提取视频帧，将完整的视频序列从YUV等格式转化成BMP格式，逐帧保存；

步骤S110，采样视频帧，以4为间隔选取视频帧，其他视频帧由于冗余直接丢弃。

步骤S120，生成亮度图，将三通道的彩色视频帧转化成只有Y通道的亮度图。

实施方式的搭建并训练短时时空融合网络调整步骤S20还包括以下步骤：

步骤S200，使用UNet作为提取空间特征的网络，将步骤S110生成的视频帧作为此网络的输入，大小为[Batch-Size×3×Width×Height]，训练网络用到的标签为特征相似性指数方法(feature similarity index measure，FSIM)中的梯度幅值(GradientMagnitude，GM)相似性；网络的输出为预测得到的GM相似性，大小为[Batch-Size×1×Width×Height]；

步骤S210，使用预训练完成的PWCNet作为提取时间特征的网络，将步骤S110生成的视频帧作为此网络的输入，大小为[Batch-Size×3×Width×Height]；将预测得到的光流图转化为亮度图作为网络的输出，大小为[Batch-Size×1×Width×Height]；

步骤S220，搭建提取时空特征向量和初步质量分数的网络，网络的输入有两个，分别是步骤S120生成的视频帧亮度图和步骤S200生成的空间特征、步骤S210生成的时间特征的组合，大小均为[Batch-Size×2×Width×Height]，网络由5个卷积结构和4个全连接层构成，每个卷积结构由卷积层、池化层、正则化层和激活函数构成，卷积核个数分别为32、64、64、128、128，卷积核大小为3×3，池化层步长为2×2；全连接层的大小分别为1024、256、64和1。将第三、第四个全连接层的输出均作为网络的输出，第三层的输出为64维的特征向量，大小为[Batch-Size×64×1]，第四层的输出为初步预测的质量得分，大小为[Batch-Size×1×1]；

步骤S230，在步骤S200至S220的基础上搭建短时时空融合网络，网络的输入为步骤S110生成的视频帧，大小为[Batch-Size×3×Width×Height]，先将该输入分别通过步骤S200和S210获得空间特征和时间特征，再将步骤S120生成的亮度图分别与这两种特征相组合通过步骤S220获得网络的输出：特征向量和初步预测的质量得分，二者的大小分别为[Batch-Size×64×1]和[Batch-Size×1×1]；

步骤S240，准备训练数据，将步骤S110生成的视频帧作为步骤S230所建网络的输入，其标签为当前视频的主观质量得分；

步骤S250，训练短时时空融合网络，输入为步骤S110生成的视频帧，输出为特征向量和初步预测的质量得分，使用MSE Loss比较标签和初步预测的质量得分并对网络进行训练。

实施方式的得到若干视频段的特征序列和视频段中各帧相互的影响因子调整步骤S30还包括以下步骤：

步骤S300，将特征向量组合成特征序列，在视频序列中，随机取N个起点，沿时间方向取T帧的64维特征向量，T默认取8，相邻帧之间的间隔默认取4，得到一个T×64的特征序列，此序列作为后续网络输入的最小单元。

步骤S310，计算影响因子，将步骤S20得到的各帧的初步预测的质量得分在先验知识的指导下转化成相互之间在质量方面的影响力，该影响被归一化到[0,1]，且当前帧对自身质量的影响力固定为1。

实施方式的搭建并训练长时序列融合网络调整步骤S40还包括以下步骤：

步骤S400，搭建基于GCN的长时序列融合网络，网络的输入为若干64维特征向量组成的特征序列和各个特征向量所表示的视频之间的影响因子，大小分别为Batch-Size×T×64和Batch-Size×T×T，网络包含2层GCN结构，随后接一个输出大小为T的全连接层；

步骤S410，整理训练数据，将步骤S30获得的若干特征序列和各帧彼此之间的影响因子整理成步骤S400中输入的格式作为长时序列融合网络的输入；

步骤S420，训练长时序列融合网络，使用视频质量分数作为标签，使用MSE Loss进行训练。

实施方式的对视频进行质量评价调整步骤S50还包括以下步骤：

步骤S500，按照步骤S10的步骤对待测试视频进行切帧、采样成视频帧等操作；

步骤S510，使用步骤S20训练好的短时时空融合网络对步骤S500切好的视频帧进行特征的提取和初步融合；

步骤S520，使用步骤S30对步骤S510得到的特征向量和初步预测得分进行整理和计算；

步骤S530，使用步骤S40训练好的长时序列融合网络对步骤S520得到的视频序列和影响因子进行进一步的特征融合，使一段视频最终得到M个视频帧的质量分数。

步骤S540，对步骤S530的M个视频帧质量分数求平均，得到视频的整体质量分数。

下面给出应用本发明的实验结果。

表1展示了使用本发明在多种VQA数据库上的性能结果。(不加入预训练)表1本发明在多种VQA数据库测试结果

数据库	LIVE	CISQ	KoNVid-1k
				SRCC	0.844	0.851	0.762
PLCC	0.859	0.869	0.784

Claims

1.一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：该方法包括以下步骤：

步骤1，由视频得到视频帧；

对于一个视频，需要通过切分成帧、等间隔下采样操作得到独立的视频帧，并以此作为VQA模型的输入；

步骤2，搭建并训练短时时空融合网络；

搭建并训练基于卷积神经网络CNN的短时时空融合网络，其输入为步骤1得到独立的视频帧，输出为64维的特征向量和初步预测的质量得分；

步骤3，得到若干视频段的特征序列和视频段中各帧相互的影响因子；

通过训练好的短时时空融合网络，对每个视频帧生成一个64维的特征向量和初步预测的质量得分，并将特征向量按照时间顺序组合成特征序列，将初步预测的质量得分在先验知识的指导下转化成各帧彼此之间的影响因子；

步骤4，搭建并训练长时序列融合网络；

搭建并训练基于图卷积网络GCN的长时序列融合网络，输入为步骤3输出的定长特征序列和各帧彼此之间的影响因子，输出为视频的质量分数；

步骤5，进行视频的质量评价；

对一段视频进行切帧、采样、提取特征、质量评价。

2.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：由视频得到视频帧的步骤如下，

步骤1.2，采样视频帧，以4为间隔选取视频帧，其他视频帧由于冗余直接丢弃；

3.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：搭建并训练短时时空融合网络的步骤如下，

步骤2.1，使用UNet作为提取空间特征的网络，将步骤1.2生成的视频帧作为此网络的输入，大小为[Batch-Size×3×Width×Height]，训练网络用到的标签为特征相似性指数方法FSIM中的梯度幅值GM相似性；网络的输出为预测得到的GM相似性，大小为[Batch-Size×1×Width×Height]；

步骤2.3，搭建提取时空特征向量和初步质量分数的网络，网络的输入有两个，分别是步骤1.3生成的视频帧亮度图和步骤2.1生成的空间特征、步骤2.2生成的时间特征的组合，大小均为[Batch-Size×2×Width×Height]，网络由5个卷积结构和4个全连接层构成，每个卷积结构由卷积层、池化层、正则化层和激活函数构成，卷积核个数分别为32、64、64、128、128，卷积核大小为3×3，池化层步长为2×2；全连接层的大小分别为1024、256、64和1；将第三、第四个全连接层的输出均作为网络的输出，第三层的输出为64维的特征向量，大小为[Batch-Size×64×1]，第四层的输出为初步预测的质量得分，大小为[Batch-Size×1×1]；

4.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：得到若干视频段的特征序列和视频段中各帧相互的影响因子的步骤如下：

步骤3.1，将特征向量组合成特征序列，在视频序列中，随机取N个起点，沿时间方向取T帧的64维特征向量，T默认取8，相邻帧之间的间隔默认取4，得到一个T×64的特征序列，此序列作为后续网络输入的最小单元；

步骤3.2，计算影响因子，将步骤2得到的各帧的初步预测的质量得分在先验知识的指导下转化成相互之间在质量方面的影响力，该影响力被归一化到[0,1]，且当前帧对自身质量的影响力固定为1。

5.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：搭建并训练长时序列融合网络的步骤如下：

6.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：进行视频的质量评价的步骤如下：

步骤5.1，按照步骤1的步骤对待测试视频进行切帧、采样成视频帧操作；

步骤5.4，使用步骤4训练好的长时序列融合网络对步骤5.3得到的视频序列和影响因子进行进一步的特征融合，使一段视频最终得到M个视频帧的质量分数；