CN116912219A

CN116912219A - 一种基于知识蒸馏的无参考图像质量评价方法

Info

Publication number: CN116912219A
Application number: CN202310902071.XA
Authority: CN
Inventors: 纪荣嵘; 李旭东; 张岩
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-20

Abstract

一种基于知识蒸馏的无参考图像质量评价方法，属于计算机视觉领域。图像质量评估是对图像质量进行评估的过程。该方法利用特征蒸馏将非对称参考图像的信息引入到失真图像当中，并利用可学习的中间层来实现模型输出蒸馏，其蒸馏过程包含三个新颖的准则：1.随机掩码的特征蒸馏；2.可学习的模型输出蒸馏；3.局部特征和语义特征增强。基于该三个新颖的准则改进基于知识蒸馏的网络结构，使之适应图像质量评价的任务，有效弥补已有的图像质量评价网络结构在基于无参考图像的质量评价缺少比较知识，性能不足的缺陷。

Description

一种基于知识蒸馏的无参考图像质量评价方法

技术领域

本发明属于计算机视觉领域，特别是涉及一种基于知识蒸馏的无参考图像质量评价方法。

背景技术

图像在日常生活中被广泛用于信息的记录和传输。但由于采集、传输、存储以及异常曝光和相机/物体运动等外部条件，通常会产生失真。这些扭曲影响视觉体验和内容理解。因此，为了保持服务质量，设计有效的图像质量评估(IQA)方法具有重要意义。

近年来，卷积神经网络(CNNs)作为解决IQA任务的有效工具出现。早期的工作主要是在控制良好的实验室环境中评估图像的合成畸变。这些工作的重点之一是通过网络设计或改进来提取合成失真的特征表征。例如，一些人尝试设计一个以局部图像补丁作为输入的浅IQA网络。但是，只考虑局部补丁会丢失全局信息；在参考图可用时，通过比较像素对齐的HQ参考图像和失真图像，利用不同的信息来创建更准确和一致的失真图像质量评估，但野外捕获的图像原始参考并不总是可用的。而最近，设计一个统一的IQA网络，可以同时评估在实验室和野外捕获的图像成为一个热门的研究课题。考虑到人类感知的特点，现有的方法提出显著性引导的IQA网络，通过显著性预测分支突出畸变感知区域。或设计一种有效的语义评价网络，通过超网络聚合多尺度的局部和全局语义信息。这些方法虽然缓解参考图像缺失的问题，但其性能还远不能令人满意。

除此之外，现有的大多数方法还存在一些缺陷。首先，许多方法高度局限于特定的失真，无法同时处理两种场景下的IQA任务。其次，以网络设计或改进为主的方法高度依赖于设计者的经验，其发展具有很大的挑战性。

中国专利CN115272203A公开一种基于深度学习的无参考图像质量评价方法，该方法获取待预测图像质量的数据集图像；将数据集图像输入底层纹理特征提取网络、低级轮廓特征提取网络和高级全局语义特征提取网络分别提取出纹理特征矩阵图、低级轮廓特征矩阵图和全局语义特征图；分别将三个特征进行特征融合,生成最终融合特征图；最后将融合特征图输入多个全连接层和激活层,得到待预测图像质量分数。该图像质量评价方法虽然能较全面的提取失真图片的特征，但是该方法的不足之处在于，仅通过分析低质量图像的特征，而缺乏高质量和低质量图像间的差异特征(更符合人眼特性)，导致评价精度和稳定性降低。

发明内容

本发明的目的在于针对现有技术存在的上述技术问题，提供有效弥补已有的图像质量评价网络结构在基于无参考图像的质量评价缺少比较知识的缺陷，提升无参考图像质量评价的性能的一种基于知识蒸馏的无参考图像质量评价方法。

该方法利用特征蒸馏将非对称参考图像的信息引入到失真图像当中，并利用可学习的中间层来实现模型输出蒸馏，其蒸馏过程包含三个新颖的准则：1.随机掩码的特征蒸馏；2.可学习的模型输出蒸馏；3.局部特征和语义特征增强。基于该三个新颖的准则改进基于知识蒸馏的网络结构，使之适应图像质量评价的任务，

本发明提出一种基于知识蒸馏的无参考图像质量评价方法，利用知识蒸馏将非对称的参考图像和失真图像间的对比知识引入无参考图像质量评价(NR-IQA)方法，包括以下步骤：

1)预训练网络模型，所述网络模型由利用非对称参考图像的NAR教师模型、以Rednet101为主干网络的NR教师模型(CNN教师)、以EfficientNet为主干网络的NR教师模型(INN教师)、以Transformer为主干网络的NR-IQA学生模型组成，其中NAR教师模型在特征层面蒸馏，NR教师模型在输出层面蒸馏；

在步骤1)中，所述预训练按以下三个准则进行知识蒸馏：

1.1)随机掩码的特征蒸馏：在学生Encoder网络与NAR教师Encoder网络特征蒸馏之间，加入一个随机掩码模块MGD；MGD的输入是学生Encoder网络每一层的输出特征，MGD的输出是经过随机掩码后利用部分像素重构的特征图，然后利用重构的特征图和教师网络的特征图进行MSE损失计算；MGD由一个特征对齐层和两个特征重构层组成；所述特征对齐层即全连接层，所述两个特征重构层为3×3卷积，BatchNorm层和ReLU层；

1.2)可学习的模型输出蒸馏：为了减少NR师生间的差距，利用一个可学习的中间层来监督学生模型的输出，这个中间层具有和NR教师模型相同结构的全连接层，可学习中间层的输入是教师模型若干层的特征(例如EfficientNet的2、4、6、8层)的特征值加和，通过可学习的中间层输出预测分数。

1.3)局部特征和语义特征增强：在学生模型中额外添加conv token和inv token分别受CNN教师和INN教师的监督来进行正则化，有效增强学生模型局部失真特征和语义特征提取能力；其中conv token和inv token分别由convolution stem和involution stem输出的平均池化得到。

2)给定图像质量评价的数据集，对组成的网络模型进行训练。

在步骤2)中，所述图像质量评价的数据集可采用8个，其中4个合成失真数据库，4个真实失真数据库；所述训练的具体方法可为：给定输入图像，我们的学生和NAR教师首先通过学生Encoder分别获得低质量图像的局部-全局融合特征和高低质量图像间的分布差异特征。学生网络生成的特征图首先被掩码，然后通过一个简单的生成模块用于生成一个新特征，该生成的特征受到NAR老师的监督。然后，学生encoder输出的特征通过一个decoder获取最后的质量分数，并分别受到CNN和INN网络的监督，以实现快速收敛和避免过拟合，并学习到更多的局部和全局的与质量相关的特征。

3)给定任意图像，将其输入网络模型，网络模型输出预测的分数结果。

本发明的优点及技术效果：

本发明利用特征蒸馏将非对称参考图像的信息引入到失真图像当中，并利用可学习的中间层来实现模型输出蒸馏，其蒸馏过程包含三个新颖的准则：1.随机掩码的特征蒸馏；2.可学习的模型输出蒸馏；3.局部特征和语义特征增强。基于该三个新颖的准则改进基于知识蒸馏的网络结构，使之适应图像质量评价的任务，有效弥补已有的图像质量评价网络结构在基于无参考图像的质量评价缺少比较知识的缺陷，充分利用高质量图像和低质量图像的对比信息和Transformer网络结构，提升无参考图像质量评价的性能，有效提高无参考图像质量评价的准确率。

附图说明

图1所示为本发明设计的适用于无参考图像质量评价的蒸馏框架流程图

图2为不同蒸馏组件消融实验的特征可视化。

图3为对多归纳偏置正则化的消融，即LIVEC和KonIQ测试数据集上的SRCC与Epoch的中位数的变化趋势图。

图4为本发明和现有的SOTA方法在LIVEFB数据集上性能的比较结果。

具体实施方式

以下实施例将结合附图对本发明进行详细说明。

本发明实施例包括以下步骤：

1)预先训练利用非对称参考图像的NAR教师模型，和以Rednet101、EfficientNet为主干网络的NR教师模型，其中NAR教师在特征层面蒸馏，NR教师在输出层面蒸馏，学生网络是以Transformer为主干网络的NR-IQA模型，四个网络共同组成最终网络模型。该方法按照以下三个新颖的准则进行知识蒸馏：

1.1)随机掩码的特征蒸馏。在学生Encoder网络与NAR教师Encoder网络特征蒸馏之间，加入了一个随机掩码模块MGD。MGD模块的输入是学生Encoder网络每一层的输出特征，输出是经过随机掩码后利用部分像素重构的特征图，然后利用重构的特征图和教师网络的特征图进行MSE损失计算。MGD是由一个特征对齐层(全连接层)和两个特征重构层(3×3卷积，BatchNorm层和ReLU层)组成。

1.2)可学习的模型输出蒸馏。为了减少NR师生间的差距，利用一个可学习的中间层来监督学生模型的输出，这个中间层具有和NR教师模型相同结构的全连接层，可学习中间层的输入是教师模型若干层的特征(例如EfficientNet的2、4、6、8层)的特征值加和，通过可学习的中间层输出预测分数。

1.3)局部特征和语义特征增强。在学生模型中额外添加conv token和inv token分别受CNN教师和INN教师的监督来进行正则化，有效增强学生模型局部失真特征和语义特征提取能力。其中conv token和inv token分别由convolution stem和involution stem输出的平均池化得到。

2)给定图像质量评价的8个数据集(4个合成失真数据库，4个真实失真数据库)，对组成的网络模型进行训练。

本发明方法内容通过实施例作进一步说明：

本实施例是基于Vision Transformer(Dosovitskiy A,Beyer L,Kolesnikov A,et al.,“An image is worth 16x16 words:Transformers for image recognition atscale,”in arXiv 2020)，RedNet(Li D,Hu J,Wang C,et al.,“Involution:Invertingthe inherence of convolution for visual recognition,”in CVPR,2021.)和EfficientNet(Tan M,Le Q.,“Efficientnet:Rethinking model scaling forconvolutional neural networks,”in ICML,2019.)的无参考图像质量评价应用。其中NR学生和NAR教师模型的主干网络结构是常用的Transformer，NR教师的主干网络结构是RedNet和EfficientNet。

下面以数据集KONIQ(Hosu V,Lin H,Sziranyi T,et al.,“KonIQ-10k:Anecologically valid database for deep learning of blind image qualityassessment,”IEEE Transactions on Image Processing,2020.)为例，详细说明本发明提出的改进基于知识蒸馏的无参考图像质量评价的操作方法。如图1所示为本发明设计的适用于无参考图像质量评价的蒸馏框架流程图。给定输入图像，我们的学生和NAR教师首先通过学生Encoder分别获得低质量图像的局部-全局融合特征和高低质量图像间的分布差异特征。学生网络生成的特征图首先被掩码，然后通过一个简单的生成模块用于生成一个新特征，该生成的特征受到NAR老师的监督。然后，学生encoder输出的特征通过一个decoder获取最后的质量分数，并分别受到CNN和INN网络的监督，以实现快速收敛和避免过拟合，并学习到更多的局部和全局的与质量相关的特征。

本实施例具体包括以下步骤：

1)给定主干网络Transformer，利用特征蒸馏和模型输出蒸馏相结合对学生模型进行监督训练。该方法按以下三个新颖的准则进行知识蒸馏：

1.1)随机掩码的特征蒸馏。在学生Encoder网络与NAR教师Encoder网络特征蒸馏之间，加入一个随机掩码模块MGD。MGD模块的输入是学生Encoder网络每一层的输出特征，输出是经过随机掩码后利用部分像素重构的特征图，利用重构的特征图和教师网络的特征图进行MSE损失计算；MGD由一个特征对齐层(全连接层)和两个特征重构层(3×3卷积，BatchNorm层和ReLU层)组成。特征对齐层的输入是384×196的特征，通过全连接层获得384×625的特征作为MGD模块的输入，首先设置随机掩码概率为0.65，得到被掩码的特征，然后通过一个生成模块(即3×3卷积核(步长为1，输入维度与输出维度相同)，经过一个BatchNorm层，一个ReLU层，最后再经过一个同样的3×3卷积核)，得到重构的特征图，重构的特征图受到教师网络生成的特征图的监督。图2中的图(a)表示利用直接蒸馏DGD和掩码蒸馏MGD训练后对图像的注意力图可视化，从左到右的图像是输入图像，DRD特征注意力图和MGD特征注意力图。如图2中的图(a)所示，MGD更关注背景失真区域和主体的质量失真区域，由此可见，本发明所述准则可以极大改善学生网络的失真特征提取能力。

1.2)可学习的模型输出蒸馏。为减少NR师生间的差距，利用一个可学习的中间层来监督学生模型的输出，这个中间层具有和NR教师模型相同结构的全连接层，可学习中间层的输入是教师模型若干层的特征(例如efficientnet的2、4、6、8层)的特征值加和，由于每一层的特征维度不同，设计一个特征适应层(1×1的卷积核，BatchNorm层和ReLU层组成)来映射特征到维度为1280，之后经过一个平均池化，通过一个多层神经网络MLP层映射到1维向量。图2中的图(b)给出输出蒸馏可以极大增强学生模型对质量相关特征的提取能力，图2中的图(b)第一张图片是失真的图片，其余两张图片分别是无可学习层和有可学习层的特征注意力图，从图2中的图(b)可以看到，结合可学习的中间层结构，本发明的模型更加关注图像的质量感知特征。同时如图3所示，利用一个可学习的中间层。可以稳定学生模型的训练，提高其训练速度。在没有利用可学习中间层时，就已经实现更快和更好的性能，在添加可学习的中间层后，进一步提高收敛速度和性能。

1.3)局部特征和语义特征增强。在学生模型中额外添加conv token和inv token分别受CNN教师和INN教师的监督来进行正则化，有效增强学生模型局部失真特征和语义特征提取能力。其中conv token和inv token分别由convolution stem和involution stem输出的平均池化得到，在训练时，conv token，inv token和class token(分别输出三个质量分数分别受CNN教师，INN教师和Groundtruth监督，在测试时，利用class token输出的分数作为最后的质量分数。

2)给定图像质量评价的8个数据集(4个合成失真数据库，4个真实失真数据库)，对组成的网络模型进行训练，以KONIQ数据集为图像质量评价数据集，需要额外引入非对称高质量数据集DIV2K(Agustsson E,Timofte R.,“Ntire 2017 challenge on single imagesuper-resolution:Dataset and study,”inCVPR2017)，对组成的网络模型进行训练。具体地，对于NAR教师模型而言，输入是低质量数据集KONIQ的图像I_L和随机的DIV2K高质量图像I_H，对于NR学生模型而言，输入是低质量数据集KONIQ的图像I_L。这里用I_L∈R^H×W×3表示RGB格式的输入图像。首先输入一张低质量数据集KONIQ的图像I_L，通过学生主干网络获得图像的特征图然后利用随机掩码操作M(·)对特征图进行随机掩码，接着通过MGD模块/>由部分像素重新构建的特征图/>然后与由I_H和I_L通过NAR教师网络候生成的特征图/>进行MSE的损失计算，i代表的是训练输入的第i张低质量图像。

同时，低质量数据集KONIQ的图像I_L经过CNN和INN教师网络，通过一个中间的可学习层得到质量分数，以INN为例，给定第i个图像，教师的输出被定义为Y_T'inv。同时，将可学习中间层和学生网络的输出分别定义为Y_Tinv和Y_Sinv，其中Y_Tinv表示如下：

其中(F₁,F₂,F₃)表示预训练教师网络不同中间层的特征，通过特征适应层A(·)和特征相加，采用L1回归作为蒸馏损失。学生层和中间层的损失函数学表示分别为:

这样，教师和学生之间的能力差距就有效地缩小了。同时，学生的表现甚至超过了老师，得到了明显的提高。从学生的角度来看，输出需要两位教师的监督，其形式定义为：

其中，和/>分别代表着inv token和conv token受到CNN教师和INN教师的监督的损失函数。以真实标签/>作为一种额外的监督，学生的损失函数最终被正式定义为：

其中，为第i个失真图像，N_s(·)为学生模型预测结果，λ₁，λ₂是超参数。

3)给定任意图像，将其输入网络模型，网络模型输出预测的分数结果。表1和2给出本发明和现有的SOTA方法性能的比较结果，本发明的方法在所有数据集上都处于SOTA水平。

表1用SRCC和PLCC的平均值在合成数据库的性能比较，其中粗体表示最好的结果。

表2用SRCC和PLCC的平均值在真实数据库的性能比较，其中粗体表示最好的结果。

图4为本发明和现有的SOTA方法性能的比较结果，可以看出，本发明提出的方法在所有数据集上都处于领先。

参考文献：

[1]Michele A Saad,Alan C Bovik,and Christophe Charrier.Blind imagequality as-sessment:A natural scene statistics approach in the dctdomain.IEEE transactions on Image Processing,21(8):3339–3352,2012.

[2]Anish Mittal,Anush Krishna Moorthy,and Alan Conrad Bovik.No-reference image quality assessment in the spatial domain.IEEE Transactions onimage processing,21(12):4695–4708,2012.

[3]Lin Zhang,Lei Zhang,and Alan C Bovik.A feature-enriched completelyblind image quality evaluator.IEEE Transactions on Image Processing,24(8):2579–2591,2015.

[4]Jongyoo Kim and Sanghoon Lee.Fully deep blind image qualitypredictor.IEEE Journal of selected topics in signal processing,11(1):206–220,2016.

[5]Kede Ma,Wentao Liu,Kai Zhang,Zhengfang Duanmu,Zhou Wang,and Wang-meng Zuo.End-to-end blind image quality assessment using deep neural net-works.IEEE Transactions on Image Processing,27(3):1202–1213,2017.

[6]Sebastian Bosse,Dominique Maniry,Klaus-Robert Müller,ThomasWiegand,and Wojciech Samek.Deep neural networks for no-reference and full-reference image quality assessment.IEEE Transactions on image processing,27(1):206–219,2017.

[7]Weixia Zhang,Kede Ma,Jia Yan,Dexiang Deng,and Zhou Wang.Blindimage quality assessment using a deep bilinear convolutional neuralnetwork.IEEE Transactions on Circuits and Systems for Video Technology,30(1):36–47,2018.

[8]Junyong You and Jari Korhonen.Transformer for image qualityassessment.In 2021 IEEE International Conference on Image Processing(ICIP),pages 1389–1393.IEEE,2021.

[9]Hancheng Zhu,Leida Li,Jinjian Wu,Weisheng Dong,and GuangmingShi.Metaiqa:Deep meta-learning for no-reference image quality assessment.InPro-ceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,pages 14143–14152,2020.

[10]Zhenqiang Ying,Haoran Niu,Praful Gupta,Dhruv Mahajan,DeeptiGhadiyaram,and Alan Bovik.From patches to pictures(paq-2-piq):Mapping theperceptual space of picture quality.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,pages 3575–3585,2020.

[11]Shaolin Su,Qingsen Yan,Yu Zhu,Cheng Zhang,Xin Ge,Jinqiu Sun,andYanning Zhang.Blindly assess image quality in the wild guided by a self-adaptive hyper network.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,pages 3667–3676,2020.

[12]SAlireza Golestaneh,Saba Dadsetan,and Kris M Kitani.No-referenceimage quality assessment via transformers,relative ranking,and self-consistency.In Proceedings of the IEEE/CVF Winter Conference on Applicationsof Computer Vision,pages 1220–1230,2022.

[13]Junjie Ke,Qifei Wang,Yilin Wang,Peyman Milanfar,and FengYang.Musiq:Multi-scale image quality transformer.In Proceedings of the IEEE/CVF International Conference on Computer Vision,pages 5148–5157,2021.

[14]Zhaoqing Pan,Hao Zhang,Jianjun Lei,Yuming Fang,Xiao Shao,NamLing,and Sam Kwong.Dacnn:Blind image quality assessment via a distortion-aware convolutional neural network.IEEE Transactions on Circuits and Systemsfor Video Technology,32(11):7518–7531,2022。

Claims

1.一种基于知识蒸馏的无参考图像质量评价方法，其特征在于其利用知识蒸馏将非对称的参考图像和失真图像间的对比知识引入无参考图像质量评价方法，具体包括以下步骤：

1)预训练网络模型，所述网络模型由利用非对称参考图像的NAR教师模型、以Rednet101为主干网络的NR教师模型、以EfficientNet为主干网络的NR教师模型、以Transformer为主干网络的NR-IQA学生模型组成，其中NAR教师模型在特征层面蒸馏，NR教师模型在输出层面蒸馏；

2)给定图像质量评价的数据集，对组成的网络模型进行训练：给定输入图像，学生模型和NAR教师模型通过学生Encoder分别获得低质量图像的局部-全局融合特征和高低质量图像间的分布差异特征；学生模型生成的特征图首先被掩码，然后通过一个简单的生成模块用于生成一个新特征，该生成的特征受到NAR教师模型的监督；学生encoder输出的特征通过一个decoder获取最后的质量分数，并分别受到CNN和INN网络的监督，以实现快速收敛和避免过拟合，学习到更多的局部和全局的与质量相关的特征；

2.如权利要求1所述一种基于知识蒸馏的无参考图像质量评价方法，其特征在于在步骤1)中，所述预训练按以下三个准则进行知识蒸馏：

1.2)可学习的模型输出蒸馏：为了减少NR师生间的差距，利用一个可学习的中间层来监督学生模型的输出，这个中间层具有和NR教师模型相同结构的全连接层，可学习中间层的输入是教师模型若干层的特征的特征值加和，通过可学习的中间层输出预测分数；

1.3)局部特征和语义特征增强：在学生模型中额外添加convtoken和invtoken分别受以Rednet101为主干网络的NR教师模型和以EfficientNet为主干网络的NR教师模型的监督进行正则化，以有效增强学生模型局部失真特征和语义特征提取能力；其中convtoken和invtoken分别由convolutionstem和involutionstem输出的平均池化得到。

3.如权利要求1所述一种基于知识蒸馏的无参考图像质量评价方法，其特征在于在步骤2)中，所述图像质量评价的数据集可采用8个，其中4个合成失真数据库，4个真实失真数据库。

4.如权利要求1所述一种基于知识蒸馏的无参考图像质量评价方法，其特征在于在步骤2)中，所述给定图像质量评价的数据集，对组成的网络模型进行训练，以KONIQ数据集为图像质量评价数据集，引入非对称高质量数据集DIV2K，对组成的网络模型进行训练；具体包括以下步骤：

对于NAR教师模型而言，输入是低质量数据集KONIQ的图像I_L和随机的DIV2K高质量图像I_H，对于NR学生模型而言，输入是低质量数据集KONIQ的图像I_L；用I_L∈R^H×W×3表示RGB格式的输入图像；首先输入一张低质量数据集KONIQ的图像I_L，通过学生主干网络获得图像的特征图然后利用随机掩码操作M(·)对特征图进行随机掩码，接着通过MGD模块/>由部分像素重新构建的特征图/>与由I_H和I_L通过NAR教师网络候生成的特征图/>进行MSE的损失计算，i代表的是训练输入的第i张低质量图像；

同时，低质量数据集KONIQ的图像I_L经过CNN和INN教师网络，通过一个中间的可学习层得到质量分数，以INN为例，给定第i个图像，教师的输出被定义为Y_T'inv；同时，将可学习中间层和学生网络的输出分别定义为Y_Tinv和Y_Sinv，其中Y_Tinv表示如下：

其中(F₁,F₂,F₃)表示预训练教师网络不同中间层的特征，通过特征适应层A(·)和特征相加，采用L1回归作为蒸馏损失；学生层和中间层的损失函数学表示分别为：

教师和学生之间的能力差距有效地缩小；同时，学生的表现甚至超过老师，得到明显的提高；从学生的角度来看，输出需要两位教师的监督，其形式定义为：

其中，和/>分别代表着invtoken和convtoken受CNN教师和INN教师的监督的损失函数；以真实标签/>作为一种额外的监督，学生的损失函数最终被正式定义为：