CN113313683A

CN113313683A - 基于元迁移学习的无参考视频质量评价方法

Info

Publication number: CN113313683A
Application number: CN202110589228.9A
Authority: CN
Inventors: 何立火; 卢怡; 高帆; 唐杰浩; 高新波; 钟斌; 陈欣雷; 路文
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-27
Anticipated expiration: 2041-05-28
Also published as: CN113313683B

Abstract

本发明提出了一种基于元迁移学习的无参考视频质量评价方法，实现步骤为：获取预训练集、元训练支持集和查询集；构建图像质量评价网络模型G；对图像质量评价网络模型G进行迭代训练；构建基于元迁移的视频质量评价网络模型H；对视频质量评价网络模型H进行元训练；获取视频质量评价结果。本发明将预训练好的图像质量评价网络模型的图像失真特征提取模块的结构及权值参数迁移到视频质量评价网络模型的特征提取网络，并为特征提取网络最后一个卷积层的卷积核分配可元训练的缩放系数，解决了现有技术迁移后的模型提取的特征与视频失真特征差异较大和模型在训练时所需更新的参数量很大的问题，提高了基于元迁移学习的无参考视频质量评价的准确度和效率。

Description

基于元迁移学习的无参考视频质量评价方法

技术领域

本发明属于视频处理技术领域，涉及一种视频质量评价方法，具体涉及一种基于元迁移学习的无参考视频质量评价方法，可用于对无参考的视频质量进行客观评价，进而对视频质量的改善进行指导。

背景技术

近些年来，随着互联网技术的快速发展，视频相关的应用数量呈指数增长，数字视频逐渐融入人类的工作和生活之中。例如短视频、视频会议、VR、数字影院等应用使人们更方便高效地学习、办公、娱乐，享受视频技术带来的便捷，与此同时，终端设备和视频应用的普及也使人们对视频质量的要求越来越高。但是，视频需要历经采集、压缩、传输、解压和存储等环节，才能被用户观看，在此期间，由于成像系统、拍摄手段、压缩算法、传输方式和存储设备等可能存在问题，视频通常会产生不同程度的失真和降质，影响用户的观看体验。因此，研究能够准确高效地对视频质量进行评价的方法具有重要的意义。

视频质量评价是通过人观看视频进行主观打分或建立数学模型对视频进行客观打分的过程，根据评价主体的不同，视频质量评价可以分为主观视频质量评价和客观视频质量评价。主观视频质量评价是指被试者在无外界干扰的实验室环境下，根据设定好的评价标准，对待测视频的质量进行评价；客观视频质量评价是通过模拟人眼和大脑的视觉认知过程，设计能够准确反映视频主观质量的客观评价模型，对待测视频的质量进行评价。与主观视频质量评价相比，客观视频质量评价具有成本低、效率高、稳定性强等优点，成为视频质量评价领域的研究重点。

按照客观视频质量评价对原始视频的依赖程度，又可以分为全参考视频质量评价方法、部分参考视频质量评价方法和无参考视频质量评价方法三类。全参考视频质量评价方法需要参考原始视频的全部信息，用于对比失真视频与原始视频之间各类数据的差异，来评价失真视频质量；部分参考视频质量评价方法需要原始视频的部分信息作为参考，是介于全参考和无参考方法之间的一种方法；无参考视频质量评价方法不需要参考任何的原始视频信息，能更加灵活、实时地评价视频质量，而且大部分失真视频的原始视频都无法获得，全参考和部分参考视频质量评价方法无法用于对这些无原始视频的失真视频进行质量评价，所以无参考视频质量评价方法最具研究和应用价值。

迁移学习是利用数据、任务或模型之间的相似性，将从旧领域学习到的先验知识迁移到新领域的一种方法，缓解了深度学习模型对数据量要求很大的问题。与迁移学习类似，元学习也是解决模型泛化能力不足、对新任务适应性差的问题，但元学习更加强调新任务的小样本属性，追求在新任务上使用更少的算力和数据来完成目标任务。而元迁移学习将迁移学习与元学习相结合，通过迁移学习，采用预训练的网络，增强模型提取当前数据集潜在统一分布的能力，分摊元训练阶段的学习压力；而且对经过预训练的卷积核进行参数固定，并为其分配可以学习的权重，减少每次元训练时被更新的参数量，降低模型的训练难度。

在无参考视频质量评价方法中，难以获取大量带标签的视频数据，而且直接使用少量的视频数据进行训练又很容易造成无参考视频质量评价网络模型的过拟合，训练得到的模型在面对特定失真类型时性能表现不佳，评价精度较低。

为了避免缺乏带标签的视频数据带来的不利影响以及提高模型的评价精度，基于迁移学习的视频质量评价方法应运而生，例如张浩和桑庆兵等人于2018年在《激光与光电子学进展》上发表的论文《基于迁移学习的无参考视频质量评价》中，公开了一种基于迁移学习的无参考视频质量评价方法。该方法首先对失真视频进行分块，然后借鉴VGG-16网络结构，迁移VGG-16网络的卷积层参数，构建视频质量评价模型来提取每个视频子块的特征并预测其质量得分，最后通过求所有视频子块的平均得分得到整个视频质量的预测得分，一定程度上缓解了视频训练样本过少的带来的问题。但其存在的不足之处在于，VGG-16网络原本的目标任务是图像内容分类，与质量评价任务相关性小，迁移后的视频质量评价模型提取的特征与视频失真特征相比存在较大的偏差，而且，模型在训练时所需要更新的参数数量很大，使得模型在面对不同种类的失真视频时评价准确度较差、效率较低。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于元迁移学习的无参考视频质量评价方法，用于解决现有技术中存在的评价准确度较差、效率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取预训练集、元训练支持集和查询集：

(1a)获取自然图像公知数据集中I幅失真图像及每幅失真图像的主观质量标签组成预训练集S＝{(x_i,y_i)|1≤i≤I}，其中，x_i和y_i分别表示第i幅失真图像及其对应的主观质量标签，I＞3000；

(1b)对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合S_v1＝{X⁽ⁿ⁾|1≤n≤N}及其对应的主观质量标签集合Y_v1＝{Y⁽ⁿ⁾|1≤n≤N}进行预处理，得到N个预处理后的视频帧序列集合S_v2＝{X'⁽ⁿ⁾|1≤n≤N}及其对应的主观质量标签集合Y_v2＝{Y'⁽ⁿ⁾|1≤n≤N}，然后依据每个视频X⁽ⁿ⁾的失真类型，将S_v2划分为C个任务T＝{T_c|1≤c≤C}，其中，C≥4，N≥150，X⁽ⁿ⁾和Y⁽ⁿ⁾分别表示第n个无参考失真视频及其对应的主观质量标签，X'⁽ⁿ⁾和Y'⁽ⁿ⁾分别表示X⁽ⁿ⁾和Y⁽ⁿ⁾的预处理结果，T_c表示第c个任务；

(1c)对每个任务T_c中的每个视频帧序列进行M次的时域均匀采样，并将随机选取的每个任务T_c中半数以上的采样后视频帧序列及其对应视频的主观质量标签组成元训练支持集B_train，将剩余的采样后视频帧序列及其对应视频的主观质量标签组成查询集B_test，其中M≥16；

(2)构建图像质量评价网络模型G：

构建包含顺次连接的图像失真特征提取模块和全连接模块的图像质量评价网络模型G，其中图像失真特征提取模块包括多个卷积层、多个最大池化层和多个非局部单元，全连接模块包括多个全连接层，图像失真特征提取模块的权值参数为Θ，全连接模块的权值参数为θ；

(3)对图像质量评价网络模型G进行迭代训练：

(3a)设迭代次数为t，最大迭代次数为T，T≥50，当前图像质量评价网络模型为G^t，并令t＝1，G^t＝G；

(3b)将预训练集S作为图像质量评价网络模型G^t的输入，图像失真特征提取模块对每幅失真图像x_i进行交替的卷积、池化和非局部操作，得到每幅失真图像x_i的失真特征向量；全连接模块对每幅失真图像x_i的失真特征向量进行全连接操作，得到I幅失真图像的质量评价预测分数集合

其中，

表示x_i的质量评价预测分数；

(3c)采用最小绝对误差LAE函数，通过质量评价预测分数

及其对应的主观质量标签y_i计算G^t的损失值

并采用反向传播方法，通过损失值

计算图像失真特征提取模块的权值参数Θ^t的梯度

和全连接模块的权值参数θ^t的梯度

然后采用梯度下降法，通过梯度

和梯度

对Θ^t和θ^t进行更新，得到第t次迭代的图像质量评价网络模型G^t；

(3d)判断t＝T是否成立，若是，得到预训练好的图像质量评价网络模型G^*，否则，令t＝t+1，并执行步骤(3b)；

(4)构建基于元迁移的视频质量评价网络模型H：

去除预训练好的图像质量评价网络模型G^*中的全连接模块，同时冻结G^*中图像失真特征提取模块的结构和权值参数Θ^*后，将G^*中图像失真特征提取模块的结构和权值参数Θ^*迁移到视频失真特征提取网络中，并为视频失真特征提取网络的最后一个卷积层的卷积核分配可进行元训练的缩放系数φ，得到元迁移视频失真特征提取网络，然后对元迁移视频失真特征提取网络的输出端级联一个包括级联的门控循环单元和全连接层的时间聚合器，得到视频质量评价网络模型H；

(5)对视频质量评价网络模型H进行元训练：

(5a)设迭代次数为j，最大迭代次数为J，J≥50，当前视频质量评价网络模型为H^j，并令j＝1，H^j＝H；

(5b)将元训练支持集B_train作为H^j的输入，元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取，得到每个采样后视频帧序列的失真特征向量组；时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合，得到视频质量评价预测分数P^j；

(5c)采用最小绝对误差LAE函数，通过视频质量评价预测分数P^j及其对应的主观质量标签计算H^j的损失值

并采用反向传播方法，通过损失值

计算元迁移视频失真特征提取网络的最后一个卷积层的卷积核的缩放系数φ^j的梯度

和时间聚合器参数

的梯度

然后采用梯度下降法，通过梯度

和梯度

对φ^j和

进行更新，得到第j次迭代的视频质量评价网络模型H^j；

(5d)判断j＝J是否成立，若是，得到训练好的视频质量评价网络模型H^*，否则，令j＝j+1，并执行步骤(5b)；

(6)获取视频质量评价结果：

将查询集B_test作为训练好的视频质量评价网络模型H^*的输入，元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取，得到每个采样后视频帧序列的失真特征向量组；时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合，得到视频质量评价预测分数P。

本发明与现有技术相比，具有如下优点：

1.本发明在构建基于元迁移的视频质量评价网络模型时，由于是将预训练好的图像质量评价网络模型的图像失真特征提取模块的结构及其权值参数迁移到视频质量评价网络模型的视频失真特征提取网络，避免了现有技术中迁移与质量评价任务相关性小的VGG-16网络，导致迁移后的视频质量评价模型提取的特征与视频失真特征相比存在较大偏差的问题，提高了基于元迁移学习的无参考视频质量评价的准确度。

2.本发明在对视频质量评价网络模型进行元训练时，由于只需要更新元迁移视频失真特征提取网络的最后一个卷积层的卷积核的缩放系数和时间聚合器参数，解决了现有技术中视频质量评价模型在训练时所需要更新的参数数量很大的问题，提高了基于元迁移学习的无参考视频质量评价的效率。

附图说明

图1是本发明的实现流程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取预训练集、元训练支持集和查询集：

步骤1a)获取自然图像公知数据集中I幅失真图像及每幅失真图像的主观质量标签组成预训练集S＝{(x_i,y_i)|1≤i≤I}，其中，x_i和y_i分别表示第i幅失真图像及其对应的主观质量标签，本实例中，I＝3599；

步骤1b)对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合S_v1＝{X⁽ⁿ⁾|1≤n≤N}及其对应的主观质量标签集合Y_v1＝{Y⁽ⁿ⁾|1≤n≤N}进行预处理：将无参考失真视频集合S_v1中的每个无参考失真视频X⁽ⁿ⁾的亮度通道映射到[0,1]区间，并将X⁽ⁿ⁾对应的主观质量标签Y⁽ⁿ⁾映射到[0,100]区间，得到N个预处理后的视频帧序列集合S_v2＝{X'⁽ⁿ⁾|1≤n≤N}及其对应的主观质量标签集合Y_v2＝{Y'⁽ⁿ⁾|1≤n≤N}，然后依据每个视频X⁽ⁿ⁾的失真类型，将S_v2划分为C个任务T＝{T_c|1≤c≤C}。本实例中，C＝6，N＝216，X⁽ⁿ⁾和Y⁽ⁿ⁾分别表示第n个无参考失真视频及其对应的主观质量标签，X'⁽ⁿ⁾和Y'⁽ⁿ⁾分别表示X⁽ⁿ⁾和Y⁽ⁿ⁾的预处理结果，T_c表示第c个任务；

步骤1c)对每个任务T_c中的每个视频帧序列进行M次的时域均匀采样，并将随机选取的每个任务T_c中半数以上的采样后视频帧序列及其对应视频的主观质量标签组成元训练支持集B_train，将剩余的采样后视频帧序列及其对应视频的主观质量标签组成查询集B_test，本实例中，M＝16；

步骤2)构建图像质量评价网络模型G：

构建包含顺次连接的图像失真特征提取模块和全连接模块的图像质量评价网络模型G，其中：

图像失真特征提取模块，包含卷积层的数量为5个，卷积层的卷积核大小都设置为5×5；最大池化层的数量为3个，第1、2最大池化层的卷积核大小设置为5×5，第3最大池化层设置为全局最大池化；非局部单元的数量为2个；该图像失真特征提取模块的具体结构为：第1卷积层→第2卷积层→第1最大池化层→非局部单元→第3卷积层→第4卷积层→第2最大池化层→非局部单元→第5卷积层→第3最大池化层；此模块中，卷积层用于提炼图像的失真特征，最大池化层用于去除与失真无关的冗余信息，非局部单元用于捕捉失真特征在空间维度的关联；

全连接模块，包含全连接层的数量为2个，第1、2全连接层的长度分别设置为512和128；该全连接模块的具体结构为：第1全连接层→第2全连接层；此模块中，全连接层用于将图像的失真特征向量回归到图像最终的质量评价预测分数；

图像失真特征提取模块的权值参数为Θ，具体是指图像失真特征提取模块中卷积层的权值参数；全连接模块的权值参数为θ；

步骤3)对图像质量评价网络模型G进行迭代训练：

步骤3a)设迭代次数为t，最大迭代次数为T，本实例中，T＝50，当前图像质量评价网络模型为G^t，并令t＝1，G^t＝G；

步骤3b)将预训练集S作为图像质量评价网络模型G^t的输入，图像失真特征提取模块对每幅失真图像x_i进行交替的卷积、池化和非局部操作，得到每幅失真图像x_i的失真特征向量；全连接模块对每幅失真图像x_i的失真特征向量进行全连接操作，得到I幅失真图像的质量评价预测分数集合

其中，

表示x_i的质量评价预测分数；

步骤3c)采用最小绝对误差LAE函数，通过质量评价预测分数

及其对应的主观质量标签y_i计算G^t的损失值

并采用反向传播方法，通过损失值

计算图像失真特征提取模块的权值参数Θ^t的梯度

和全连接模块的权值参数θ^t的梯度

然后采用梯度下降法，通过梯度

和梯度

G^t的损失值

Θ^t的梯度

和θ^t的梯度

的计算公式，Θ^t和θ^t的更新公式分别为：

其中，∑表示求和操作，||·||₁表示1范数操作，

表示求偏导数操作，Θ'和θ'分别表示Θ^t和θ^t更新后的结果，α表示学习率，α∈[0,1]。

步骤3d)判断t＝T是否成立，若是，得到预训练好的图像质量评价网络模型G^*，否则，令t＝t+1，并执行步骤3b)；

步骤4)构建基于元迁移的视频质量评价网络模型H：

其中，φ用于判断元迁移视频失真特征提取网络在视频质量评价任务中的优劣；时间聚合器包含的门控循环单元的输入层尺寸和隐藏层尺寸分别为512和64，全连接层的长度为64；

由于是将预训练好的图像质量评价网络模型G^*的图像失真特征提取模块的结构和权值参数Θ^*迁移到视频失真特征提取网络中，预训练策略更合理，提高视频质量评价的准确度。

步骤5)对视频质量评价网络模型H进行元训练：

步骤5a)设迭代次数为j，最大迭代次数为J，本实例中，J＝50，当前视频质量评价网络模型为H^j，并令j＝1，H^j＝H；

步骤5b)将元训练支持集B_train作为H^j的输入，元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取，得到每个采样后视频帧序列的失真特征向量组；门控循环单元对采样后视频帧序列在时间范围内帧与帧之间的依赖关系进行捕捉，并依据捕捉到的依赖关系对失真特征向量组进行聚合，得到采样后视频帧序列的依赖关系向量；全连接层对所聚合的依赖关系向量进行全连接操作，得到视频质量评价预测分数P^j。

步骤5c)采用最小绝对误差LAE函数，通过视频质量评价预测分数P^j及其对应的主观质量标签计算H^j的损失值

并采用反向传播方法，通过损失值

和时间聚合器参数

的梯度

然后采用梯度下降法，通过梯度

和梯度

对φ^j和

进行更新，得到第j次迭代的视频质量评价网络模型H^j；

由于只需要更新φ^j和

大幅减少了元训练中需要调整的参数数量，提高了视频质量评价网络模型的元训练效率。

H^j的损失值

φ^j的梯度

和

的梯度

的计算公式，φ^j和

的更新公式分别与步骤3c)中的公式相同，并改变对应参数。

步骤5d)判断j＝J是否成立，若是，得到训练好的视频质量评价网络模型H^*，否则，令j＝j+1，并执行步骤5b)；

步骤6)获取视频质量评价结果：

Claims

1.一种基于元迁移学习的无参考视频质量评价方法，其特征在于，包括如下步骤：

(1)获取预训练集、元训练支持集和查询集：

(2)构建图像质量评价网络模型G：

(3)对图像质量评价网络模型G进行迭代训练：

其中，

表示x_i的质量评价预测分数；

(3c)采用最小绝对误差LAE函数，通过质量评价预测分数

及其对应的主观质量标签y_i计算G^t的损失值

并采用反向传播方法，通过损失值

计算图像失真特征提取模块的权值参数Θ^t的梯度

和全连接模块的权值参数θ^t的梯度

然后采用梯度下降法，通过梯度

和梯度

(4)构建基于元迁移的视频质量评价网络模型H：

(5)对视频质量评价网络模型H进行元训练：

并采用反向传播方法，通过损失值

和时间聚合器参数

的梯度

然后采用梯度下降法，通过梯度

和梯度

对φ^j和

进行更新，得到第j次迭代的视频质量评价网络模型H^j；

(6)获取视频质量评价结果：

2.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法，其特征在于：步骤(1b)中所述的对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合S_v1＝{X⁽ⁿ⁾|1≤n≤N}及其对应的主观质量标签集合Y_v1＝{Y⁽ⁿ⁾|1≤n≤N}进行预处理，实现方法为：将无参考失真视频集合S_v1中的每个无参考失真视频X⁽ⁿ⁾的亮度通道映射到[0,1]区间，并将X⁽ⁿ⁾对应的主观质量标签Y⁽ⁿ⁾映射到[0,100]区间，得到X⁽ⁿ⁾和Y⁽ⁿ⁾的预处理结果X'⁽ⁿ⁾和Y'⁽ⁿ⁾。

3.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法，其特征在于：步骤(2)中所述的图像质量评价网络模型G，其中：

图像失真特征提取模块，包含卷积层的数量为5个，卷积层的卷积核大小都设置为5×5；最大池化层的数量为3个，第1、2最大池化层的卷积核大小设置为5×5，第3最大池化层设置为全局最大池化；非局部单元的数量为2个；该图像失真特征提取模块的具体结构为：第1卷积层→第2卷积层→第1最大池化层→非局部单元→第3卷积层→第4卷积层→第2最大池化层→非局部单元→第5卷积层→第3最大池化层；

全连接模块，包含全连接层的数量为2个，第1、2全连接层的长度分别设置为512和128；该全连接模块的具体结构为：第1全连接层→第2全连接层。

4.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法，其特征在于：步骤(3c)中所述的计算G^t的损失值

计算图像失真特征提取模块的权值参数Θ^t的梯度

和全连接模块的权值参数θ^t的梯度

对Θ^t和θ^t进行更新，计算及更新公式为：

其中，∑表示求和操作，||·||₁表示1范数操作，

5.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法，其特征在于：步骤(4)中所述的时间聚合器，其包含的门控循环单元的输入层尺寸和隐藏层尺寸分别为512和64，全连接层的长度为64。

6.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法，其特征在于：步骤(5b)中所述的时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合，实现步骤为：门控循环单元对采样后视频帧序列在时间范围内帧与帧之间的依赖关系进行捕捉，并依据捕捉到的依赖关系对失真特征向量组进行聚合，得到采样后视频帧序列的依赖关系向量；全连接层对所聚合的依赖关系向量进行全连接操作，得到视频质量评价预测分数P^j。