CN114785978A

CN114785978A - 一种面向视频会议的视频图像质量确定方法

Info

Publication number: CN114785978A
Application number: CN202210126393.5A
Authority: CN
Inventors: 钟华喜; 尹浩林; 周智恒; 周泽南; 尚俊媛; 吴清茹; 刘晓升
Original assignee: DONGGUAN YIHAO ELECTRONIC TECHNOLOGY CO LTD; South China University of Technology SCUT
Current assignee: DONGGUAN YIHAO ELECTRONIC TECHNOLOGY CO LTD; South China University of Technology SCUT
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-07-22
Anticipated expiration: 2042-02-10
Also published as: CN114785978B

Abstract

本发明提供的一种面向视频会议的视频图像质量确定方法，通过构建模型复杂度较高的教师子网络模块从图像内容丰富的数据集中提取与图像质量高度相关的高维特征，将高维特征输入全连接层实现特征提取与质量回归的联合优化。当教师子网络获取到较高的测试精度后，将教师子网络从训练集失真图像中预测的质量分数作为模型复杂度较低的学生子网络模块中训练集失真图像的质量分数伪标签，在质量分数伪标签的指导下，实现特征提取和伪标签质量分数回归的联合优化，以让学生子网络学习到教师子网络对于内容丰富的质量评价数据集先进的泛化能力，解决精简模型对于图像内容丰富的视频会议场景泛化能力较差的问题。

Description

一种面向视频会议的视频图像质量确定方法

技术领域

本发明涉及视频图像质量评价领域，尤其涉及一种面向视频会议的视频图像质量确定方法。

背景技术

新冠疫情爆发以来，视频会议作为一种实时的视频通信方式，成为个人与社会保持密切联系的一个重要手段。视频会议能够帮助我们在疫情期间下继续工作和学习，提高了疫情期间的工作和学习效率。在视频会议的应用中，视觉信息在终端用户接收之前需要经过压缩和传输，难以避免地引入不可预知的失真，造成视频图像质量的损失。为了使终端用户能够获取到高质量的视觉体验，有必要对视频图像的质量做出评价，以根据评价结果调整编码器和传输信道的相关参数。由于视频的最终受体通常是人类的眼睛，因此人眼对视频图像质量的主观评价被认为是最精确的评价视频图像质量的方法。虽然人类直接参与的主观图像质量评价技术准确可靠，但因非常耗时而难以满足诸如视频会议应用的实时性需求。因此，现有技术中亟需能够实时监控和反馈视频图像质量的客观图像质量评价技术。

视频客观质量评价方法是指通过设计数学模型自动、快速地对视频质量进行评分的客观评价方法。根据对参考视频图像的依赖程度，视频客观质量评价分为全参考、部分参考和无参考三类，由于在大多数实际应用中很难获取到参考视频图像，视频客观质量评价技术中的无参考视频图像质量重新，评价技术得到了最为广泛的应用。无参考视频图像质量评价技术旨在设计一种不需要使用参考视频图像的任何信息即可快速和自动地预测视频图像感知质量的算法，以模拟人眼对视频图像质量的感知。在与数字多媒体相关的数字视频应用中，无参考视频客观图像质量评价技术在服务器端的质量检测和终端质量体验上面起到重要作用，即根据视频图像评价反馈视频图像的质量信息，在服务器端动态调整视频编码器参数和传输信道参数，提高接收端视频图像的感知质量，给予终端用户高质量的视觉体验。

现有技术中，深度学习已经广泛应用于无参考视频图像质量评价领域，使得特征提取和质量回归的联合优化成为可能。但现有技术中的方法仍存在不足之处，难以从小规模但图像内容非常丰富的训练集中学习到如何提取与质量分数高度相关的深度特征，难以很好地泛化到图像内容非常丰富的视频会议应用中去。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种面向视频会议的视频图像质量确定方法。

根据本发明的一个方面，提供了一种面向视频会议的视频图像质量确定方法，所述确定方法包括：

构建知识蒸馏教师子网络；

构建知识蒸馏学生子网络；

获取图像内容丰富的图像质量评价数据集；

根据所述图像质量评价数据集构建训练集和测试集，训练集还包括对应的质量分数标签；

对所述训练集和所述测试集进行数据预处理，获得预处理数据集；

根据所述预处理数据集生成待评价视频帧图像块；

利用训练好的所述学生子网络预测出多个所述待评价视频帧图像块的质量评价分数；

对多个所述质量评价分数求均值，获得待评价视频的质量评价分数。

可选的，所述构建知识蒸馏教师子网络具体包括：

搭建一个7层的知识蒸馏教师子网络，结构依次为：第1卷积计算单元，第2卷积计算单元，第3卷积计算单元，第4卷积计算单元，第5卷积计算单元，第1全连接层，第2全连接层；第2至第5卷积计算单元采用瓶颈结构，每个瓶颈结构由三个卷积层级联组成；

第1卷积计算单元仅由一层卷积层组成，输入通道数为64，输出通道数为128，卷积核大小为7×7，步长为2；第2至第4卷积计算单元的瓶颈结构数量分别为3，4，6，3，每个瓶颈结构中卷积层的卷积核大小分别设置为1×1，3×3和1×1；第1全连接层的输入通道数为128，输出通道数为64；第2全连接层的输入通道数为64，输出通道数为1。

可选的，所述构建知识蒸馏学生子网络具体包括：

搭建一个10层的知识蒸馏学生子网络，其结构依次为：第1卷积层，第2卷积层，第3卷积层，第4卷积层，第5卷积层，第6卷积层,第7卷积层,第8卷积层,第1全连接层,第2全连接层；

第1卷积层输入通道数为3，输出通道数为48，卷积核大小为3×3，步长为1；第2卷积层输入通道数为48，输出通道数为48，卷积核大小为3×3，步长为2；第3卷积层输入通道数为48，输出通道数为64，卷积核大小为3×3，步长为1；第4卷积层输入通道数为64，输出通道数为64，卷积核大小为3×3，步长为2；第5卷积层输入通道数为64，输出通道数为64，卷积核大小为3×3，步长为1；第6卷积层输入通道数为64，输出通道数为64，卷积核大小为3×3，步长为1；第7卷积层输入通道数为64，输出通道数为128，卷积核大小为3×3，步长为1；第3卷积层输入通道数为128，输出通道数为128，卷积核大小为3×3，步长为1；第1全连接层的输入通道数为128，输出通道数为64；第2全连接层的输入通道数为64，输出通道数为1。

可选的，所述根据所述图像质量评价数据集构建训练集和测试集具体包括：

从自然图像质量评价数据集中选取至少1000张图像内容各异的无参考自然图像组成样本集；

随机划分80％的无参考自然图像组成训练集，剩余20％的无参考自然图像组成测试集。

可选的，所述对所述训练集和所述测试集进行数据预处理，获得预处理数据集具体包括：

对训练集和测试集中的每张图像依次进行归一化处理和分块化处理；

分块化处理采用大小为112×112的滑窗，并按照先行后列、先左后右的顺序对训练集和测试集的每张图像进行滑动分块，滑动步长为80；

对于教师子网络进行监督训练，同一张图像分块化后所得到的图像块都采用对应图像的质量分数标签作为图像块的质量分数标签进行监督训练；

对于学生子网络进行监督训练，同一张图像分块化所得到的图像块采用教师子网络对图像块的预测分数作为质量分数作为标签进行监督训练。

可选的，所述根据所述预处理数据集生成待评价视频帧图像块之后还包括：

当学生子网络训练完毕后，将所述待评价视频帧图像块分割成多个图像块。

可选的，所述对于教师子网络进行监督训练使用的损失函数为

其中，

表示教师子网络的损失函数，f(·)表示训练集的失真图像

经过教师子网络所输出的该图像质量的预测质量分数，S表示失真图像

的质量分数标签。

可选的，所述对于学生子网络进行监督训练使用的损失函数为：

其中，

表示学生子网络的损失函数，f(·)表示训练集的失真图像

经过充分训练好的教师子网络所输出的预测质量分数作为学生子网络对应失真图像的质量分数伪标签，g(·)表示失真图像

经过学生子网络所输出的预测质量分数。

可选的，所述监督训练的训练参数为：将教师子网络的初始学习率设置为2e-5，将学生子网络的初始学习率设置为1e-4，将批处理大小设置为64，将权重衰减设置为5e-4，将训练的迭代次数设置为60。

本发明提供的一种面向视频会议的视频图像质量确定方法，所述确定方法包括：构建知识蒸馏教师子网络；构建知识蒸馏学生子网络；获取图像内容丰富的图像质量评价数据集；根据所述图像质量评价数据集构建训练集和测试集，训练集还包括对应的质量分数标签；对所述训练集和所述测试集进行数据预处理，获得预处理数据集；根据所述预处理数据集生成待评价视频帧图像块；利用训练好的所述学生子网络预测出多个所述待评价视频帧图像块的质量评价分数；对多个所述质量评价分数求均值，获得待评价视频的质量评价分数。能够从小规模但图像内容非常丰富的数据集中学会如何提取与质量分数更相关的深度特征，在不增加计算复杂度的同时提升泛化能力。利用复杂模型特征提取能力较强但实时性较弱，精简模型特征提取能力较弱但实时性较强的特点。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种面向视频会议的视频图像质量确定方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。

下面结合附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明的目的是针对上述现有技术存在的不足，提出一种基于知识蒸馏的面向视频会议的无参考视频图像质量评价方法，利用复杂模型特征提取能力较强但实时性较弱，精简模型特征提取能力较弱但实时性较强的特点，使用知识蒸馏网络充分发挥复杂和精简模型的相对优势，解决精简模型对于图像内容丰富的视频会议场景泛化能力较差的问题。

实现本发明的目的的思路是：通过构建模型复杂度较高的教师子网络模块从图像内容丰富的数据集中提取与图像质量高度相关的高维特征，随即将高维特征输入全连接层实现特征提取与质量回归的联合优化。当教师子网络获取到较高的测试精度后，将教师子网络从训练集失真图像中预测的质量分数作为模型复杂度较低的学生子网络模块中训练集失真图像的质量分数伪标签，在质量分数伪标签的指导下，实现特征提取和伪标签质量分数回归的联合优化，以让学生子网络学习到教师子网络对于内容丰富的质量评价数据集先进的泛化能力，解决精简模型对于图像内容丰富的视频会议场景泛化能力较差的问题。

如图1所示，为实现上述目的，本发明具体步骤如下：

(1)构建知识蒸馏教师子网络：

(1a)搭建一个7层的知识蒸馏教师子网络，其结构依次为：第1卷积计算单元，第2卷积计算单元，第3卷积计算单元，第4卷积计算单元，第5卷积计算单元，第1全连接层，第2全连接层；第2至第5卷积计算单元采用瓶颈(Bottleneck)结构,每个瓶颈结构由三个卷积层级联组成。

(1b)第1卷积计算单元仅由一层卷积层组成，其输入通道数为64，输出通道数为128，卷积核大小为7×7，步长为2；第2至第4卷积计算单元的瓶颈结构数量分别为3，4，6，3，每个瓶颈结构中卷积层的卷积核大小分别设置为1×1，3×3和1×1；第1全连接层的输入通道数为128，输出通道数为64；第2全连接层的输入通道数为64，输出通道数为1；

(2)构建知识蒸馏学生子网络

(2a)搭建一个10层的知识蒸馏学生子网络，其结构依次为：第1卷积层，第2卷积层，第3卷积层，第4卷积层，第5卷积层，第6卷积层,第7卷积层,第8卷积层,第1全连接层,第2全连接层；

(2b)第1卷积层输入通道数为3，输出通道数为48，卷积核大小为3×3，步长为1；第2卷积层输入通道数为48，输出通道数为48，卷积核大小为3×3，步长为2；第3卷积层输入通道数为48，输出通道数为64，卷积核大小为3×3，步长为1；第4卷积层输入通道数为64，输出通道数为64，卷积核大小为3×3，步长为2；第5卷积层输入通道数为64，输出通道数为64，卷积核大小为3×3，步长为1；第6卷积层输入通道数为64，输出通道数为64，卷积核大小为3×3，步长为1；第7卷积层输入通道数为64，输出通道数为128，卷积核大小为3×3，步长为1；第3卷积层输入通道数为128，输出通道数为128，卷积核大小为3×3，步长为1；第1全连接层的输入通道数为128，输出通道数为64；第2全连接层的输入通道数为64，输出通道数为1。

(3)基于图像内容丰富的图像质量评价数据集构建训练集和测试集，训练集还包括对应的质量分数标签；

从自然图像质量评价数据集中选取至少1000张图像内容各异的无参考自然图像组成样本集，并随机划分80％的无参考自然图像组成训练集，剩余20％的无参考自然图像组成测试集。

(4)数据预处理

(4a)对训练集和测试集中的每张图像依次进行归一化处理和分块化处理；

(4b)分块化处理采用大小为112×112的滑窗，并按照先行后列、先左后右的顺序对训练集和测试集的每张图像进行滑动分块，滑动步长为80；

(4c)对于教师子网络，同一张图像分块化后所得到的图像块都采用这张图像的质量分数标签作为图像块的质量分数标签进行监督训练；对于学生子网络，同一张图像分块化所得到的图像块采用教师子网络对图像块的预测分数作为质量分数伪标签进行监督训练。

(5)生成待评价视频帧图像块

当学生子网络训练完毕后，将待评价视频每帧图像按照上述分块方法分割成若干个图像块。

(6)利用训练好的学生子网络预测楚每帧图像的若干个图像块的质量评价分数Q，进而对待评价视频的所有图像块的质量评价分数Q求均值，得到的平均值即为待评价视频的质量评价分数。

结合仿真实验对本发明的效果做进一步的说明:

仿真实验条件

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)CPU E5-2630 v4@2.20GHz，显卡为NVIDIA GeForce GTX 2080Ti。

本发明仿真实验所使用的软件平台为：Ubuntu 18.04.3LTS操作系统，Python3.5.2，Numpy 1.14.0，Pytorch 1.4.0深度学习框架。本发明仿真实验所使用的输入图像为模拟视频会议图像内容复杂多变的自然图像，来源于图像质量评价公开数据库LIVE Inthe Wild Image Quality Challenge(LIVEC)。

LIVEC数据库包括1169幅图像内容各不相同的失真图像，其图像格式为bmp或jpg格式。

仿真内容及其结果分析：

本发明的仿真实验是采用本发明对来源于图像质量评价公开数据库LIVEC的1169幅图像内容各不相同的失真图像进行无参考图像质量评价，以模拟图像内容复杂多变的视频会议场景中的无参考图像质量评价。

在仿真实验中，采用的图像质量评价公开数据库是指：

LIVEC数据库是指，D.Ghadiyaram等人在“Massive online crowdsourced studyof subjective and objective picture quality[J].IEEE Transactions on ImageProcessing,25(1):372–387,2015”中提出的图像质量评价数据库，简称LIVEC公开数据库。

本发明的仿真实验采用斯皮尔曼秩相关系数SROCC(Spearman rank-ordercorrelation cofficient)和皮尔森线性相关系数PLCC(Pearson linear correlationcoefficient)这两个指标，分别对引入教师子网络后的基于知识蒸馏的无参考视频图像质量评价方法和仅有学生子网络的无参考视频图像质量评价方法的视频图像质量评价效果进行评判。具体评判方法为，两种方法采用相同的训练集和测试集分别进行训练和测试，并将两种方法对测试集中的N个样本的质量预测方数和测试样本对应的质量标签分数计算PLCC和SROCC值。

(1)斯皮尔曼秩相关系数SROCC，SROCC∈[-1,1],用于衡量算法预测的单调性，其数值越高，说明被评价的无参考图像质量评价方法的评价结果更能反映图像质量的好坏程度，表达式为

其中，d_i表示模型对于第i幅测试图像所预测的分数和真实分数之间的差值。N为测试集样本总个数。

(2)皮尔森线性相关系数PLCC,主要用于衡量算法预测的准确性，其数值越高，说明被评价的无参考图像质量评价方法的评价结果更接近人类的主观质量评价分数，表达式为：

其中，s_i和

表示第i幅图像真实的主观质量分数和预测的主观质量分数。

和

表示s_i和

的均值。N为测试集样本个数。

仿真结果如表1所示。

表1.本发明和仅有学生子网络的无参考视频图像质量评价方法的评价结果对比表

从表1可见，本发明在LIVEC包括1169幅图像内容各不相同的失真图像的公开的图像质量数据库上评价结果的斯皮尔曼秩相关系数SROCC和皮尔森线性相关系数PLCC均高于仅有学生子网络的无参考视频图像质量评价方法的视频图像质量评价效果。

仿真实验结果有效地证明了本发明在不增加计算复杂度的同时提升学生子网络模型的泛化能力。

有益效果：

本发明通过使用训练好的学生子网络网络框架，在没有原始视频图像的条件下对视频图像进行质量评价。

本发明使用基于知识蒸馏的模型压缩技术，使得训练好的学生子网络能在不增加模型复杂度的前提下实现泛化能力的提升。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。