CN116029953A - 一种基于自监督学习和Transformer的无参考图像质量评价方法 - Google Patents

一种基于自监督学习和Transformer的无参考图像质量评价方法 Download PDF

Info

Publication number
CN116029953A
CN116029953A CN202211694105.2A CN202211694105A CN116029953A CN 116029953 A CN116029953 A CN 116029953A CN 202211694105 A CN202211694105 A CN 202211694105A CN 116029953 A CN116029953 A CN 116029953A
Authority
CN
China
Prior art keywords
image
image quality
self
distortion
quality evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211694105.2A
Other languages
English (en)
Inventor
高攀
时劲松
谭晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211694105.2A priority Critical patent/CN116029953A/zh
Publication of CN116029953A publication Critical patent/CN116029953A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自监督学习和Transformer的无参考图像质量评价方法,使用有监督对比学习方法在大规模未标记图像质量评价数据集KADIS上进行自监督训练,从而学习到不同失真类型和级别失真图像的退化特征;结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;设计了分块注意力模块,将退化特征和失真特征进行融合,得到最终的失真图像质量特征,用以图像客观得分的回归预测。本发明结合自监督学习和Transformer提出了一种新型图像质量评价方法,能够有效提升模型在小样本数据集和真实数据集上的质量得分预测性能,在图像压缩和图像超分等一系列需要评判图像质量的领域都有着广泛的应用前景。

Description

一种基于自监督学习和Transformer的无参考图像质量评价方法
技术领域
本发明属于数字图像处理领域,具体涉及一种基于自监督学习和Transformer的无参考图像质量评价方法。
背景技术
随着社交网络和数字多媒体技术的日渐壮大,图像数据呈现爆炸式增长,与人们的生活越来越紧密。然而,在数字图像的采集、传输到应用过程中,图像数据均有可能收到外界各种因素的干扰,导致图像的质量受到不同程度的破坏,常见的引起图像的失真包括模糊、压缩和噪声。此外,生成符合人类视觉的高质量图像一直是计算机视觉应用技术追求的目标,如图像超分辨率重建、图像修复和图像去噪声等。因此,针对不同失真类型和失真程度的图像质量好坏情况进行评估显得尤其重要。
图像质量评价是指对图像的内容进行定量分析,从而量化失真图像的在视觉上的失真程度。相关的评价方法一般分为主观质量评价和客观质量评价两种。主观质量评价指的是通过人眼视觉系统对失真图像的观察来获取图像的质量情况。客观质量评价一般指通过相应的客观评价算法对失真图像进行计算获得图像的质量信息。其中,根据评价算法在计算过程中是否需要参考图像信息将客观质量评价分为三类:全参考图像质量评价,半参考图像质量评价和无参考图质量评价。其中全参考图像质量评价和半参考图像质量评价方法主要通过对比参考图像和失真图像之间的差异从而计算出图像的质量。无参考图像质量评价方法则在完全没有参考信息情况下,仅根据失真图像自身来对图像质量进行评估,因此成为图像质量评价领域中最难和最具挑战的任务,在实际应用中也更具广泛的应用前景。
由于深度神经网络的性能的好坏在很大程度上取决于训练数据集的大小,然而当前的图像质量评价数据集较小,如LIVE Challenge数据库仅仅包含1162张失真图像,与其它视觉任务的百万数据集相比明显不值一提,因此基于卷积神经网络的无参考图像质量评价方法在这些小样本数据集上的表现普遍较差。此外,由于获得大规模标注的人类主观图像质量评分非常困难,这更给无参考图像质量评价方法的设计带来困难。通常解决数据集较少情形可以使用数据增强(例如翻转、裁剪、旋转等),不幸的是,这些操作都会或多或少影响图像的真实质量。值得注意的是,虽然基于卷积神经网络的无参考图像质量评价方法确实能在一定程度上提取图像的失真信息,但由于其感受野较小,无法对图像进行全局建模,因此在进行质量评价时难免会丢失一些全局信息。
发明内容
发明目的:本发明提供一种基于自监督学习和Transformer的无参考图像质量评价方法,能够有效提升模型在小样本数据集和真实数据集上的质量得分预测性能。
技术方案:本发明提供一种基于自监督学习和Transformer的无参考图像质量评价方法,包括如下步骤:
(1)构建基于自监督学习和Transformer的无参考图像质量评价网络;所述评价网络包括特征提取模块、多流主干网络、编码器网络、分块注意力模块和得分预测模块;
(2)根据有监督对比学习方法,构建编码器网络,并在大规模未标记图像质量评价数据集上进行自监督训练,用以学习到不同失真类型和级别图像对应的退化特征;
(3)结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;
(4)通过分块注意力模块,将步骤(2)中的退化特征和步骤(3)中的失真特征进行融合,得到最终的失真图像质量特征;通过得分预测模块获得图像客观得分的回归预测。
进一步地,步骤(1)所述多流主干网络包含三个阶段的多流模块和块下采样的组合,第三阶段仅包含一个多流模块。
进一步地,所述步骤(2)实现过程如下:
定义
Figure BDA0004022683960000021
I表示失真图像,其中u∈{1,...,U}表示不同的失真类型,u∈{1,…,V}表示每个u的不同失真级别;使用编码器f(·)和投影层g(·)组成的网络结构结合对比损失函数学习图像的退化特征,损失函数定义如下:
Figure BDA0004022683960000022
其中,N表示每个批次中图像数量,Ⅱ表示指示函数,τ表示温度系数,P(i)表示属于同一类i的集合,|P(i)|是其基数,φ(m,n)=mTn/||m||2||n||2
进一步地,所述步骤(3)实现过程如下:
将经过特征提取模块提取后的特征图
Figure BDA0004022683960000031
按照通道分成三部分
Figure BDA0004022683960000032
Figure BDA0004022683960000033
三部分;X1通过可变卷积和线性层得到X1′,X2通过深度可分离卷积、最大池化和上采样得到X2′,X3通过多头注意力和线性层得到X3′:
χ1′=FC(Deform(Conv(χ1))
χ2′=UpSample(MaxPool(DwConv(χ2)))
χ3′=FC(MHSA(χ3))
之后按照通道维度进行合并,并通过残差连接CBAM模块。
进一步地,所述步骤(4)实现过程如下,
在进行特征融合前,将由图像失真特征信息映射成K和V,将图像退化特征映射成Q,然后通过注意力机制计算它们,获得图像质量特征S;最后通过特征S即可回归到客观图像得分。
进一步地,对于获得Q、K和V,S的计算过程如下:
Figure BDA0004022683960000034
其中,D表示特征维度;得到S后,通过全局平均池化操作和线性层就可以回归到最终的质量分数;将评价网络视为一个映射函数F,并通过最小化网络预测块F(X;θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ,使用绝对误差MAE作为损失函数:
Figure BDA0004022683960000035
其中,N为每批图像中训练样本的个数。
有益效果:与现有技术相比,本发明的有益效果:本发明从提升模型在小样本数据集和真实数据集上的质量得分预测性能出发,提出了一种基于自监督学习和Transformer的无参考图像质量评价方法;为了利用大规模未标记数据并提升模型在小样本数据集上的预测性能,提出使用自监督学习方法获取失真图像对应的退化特征;为了更加有效提取失真图像全局和局部的失真信息,本发明结合CNN和Transformer特性提出了特征提取主干网络;为了将失真图像对应的退化特征和失真信息进行有效融合,本发明还提出了块注意力模块获取用以得分预测的质量特征。
附图说明
图1为本发明构建的基于自监督学习和Transformer的无参考图像质量评价网络结构意图;
图2为本发明提出的自监督训练流程的示意图;
图3为本发明提出的自监督训练模型框架示意图;
图4为本发明提出的多流模块示意图;
图5为本发明所提出的方法和MANIQA的DMOS预测结果对比示意图;
图6为本发明所提出的方法的Grad-CAM结果示意图;
图7为本发明所提出的方法和MANIQA的预测值和真值散点示意图;
图8为本发明所提出的方法在CSIQ数据集上的t-SNE结果示意图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明提供一种基于自监督学习和Transformer的无参考图像质量评价方法,具体包括以下步骤:
步骤1:构建如图1所示的基于自监督学习和Transformer的无参考图像质量评价网络;评价网络包括特征提取模块、多流主干网络、编码器网络、分块注意力模块和得分预测模块。
特征提取模块,即预训练好的ViT模型,用以图像特征提取;多流主干网络包含三个阶段的多流模块和块下采样的组合,第三阶段仅包含一个多流模块;自监督预训练过程中使用的编码器网络,在KADIS数据集上进行自监督训练,获取不同失真类型和级别图像对应的退化特征;分块注意力模块,将主干网络提取的失真图像退化特征和编码器提取的退化特征进行融合;得分预测模块,根据融合过的特征进行最终的失真图像得分预测。
步骤2:使用有监督对比学习方法在大规模未标记图像质量评价数据集KADIS上进行自监督训练,从而学习到不同失真类型和级别失真图像的退化特征。
在进行自监督训练时,首先根据失真类型和级别对不同失真图像进行类别划分;然后构建编码器和投影层组成的网络模型;最后利用归一化的带有温度系数的交叉熵损失函数完成模型的训练。
首先,定义
Figure BDA0004022683960000051
I表示失真图像,其中u∈{1,…,U}表示不同的失真类型,u∈{1,…,V}表示每个u的不同失真级别。这样加上参考图像共有U×V+1个类别。如图2和图3所示,接着使用编码器f(·)和投影层g(·)组成的网络结构结合对比损失函数学习图像的退化特征,损失函数定义如下:
Figure BDA0004022683960000052
其中,N表示每个批次中图像数量,
Figure BDA0004022683960000053
表示指示函数,τ表示温度系数,P(i)表示属于同一类i的集合,|P(i)|是其基数,φ(m,n)=mTn/||m||2||n||2
步骤3:结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征。
先将经过特征提取后的特征图按照通道维度分成三部分,第一部分通过可变卷积和线性层,第二部分通过深度可分离卷积、最大池化和上采样层,第三部分通过多头注意力和线性层;之后按照通道维度进行合并,并通过残差连接CBAM模块,即通道注意力机制和空间注意力机制。
如图4所示,首先将经过特征提取模块提取后的特征图
Figure BDA0004022683960000054
按照通道分成三部分
Figure BDA0004022683960000055
Figure BDA0004022683960000056
三部分。χ1通过可变卷积和线性层得到χ1′,χ2通过深度可分离卷积、最大池化和上采样得到χ2′,χ3通过多头注意力和线性层得到χ3′。
χ1′=FC(Deform(Conv(χ1))
χ2′=UpSample(MaxPool(DwConv(χ2)))
χ3′=FC(MHSA(χ3))
之后按照通道维度进行合并,并通过残差连接CBAM模块。
步骤4:设计了块注意力模块,将步骤2中的退化特征和步骤3中的失真特征进行融合,得到最终的失真图像质量特征,用以图像客观得分的回归预测。
在进行特征融合前,将由图像失真特征信息映射成K和V,将图像退化特征映射成Q,然后通过注意力机制计算它们,获得图像质量特征S。最后通过特征S即可回归到客观图像得分。
对于获得Q、K和V,S的计算过程如下:
Figure BDA0004022683960000061
其中D表示特征维度。得到S后,通过全局平均池化操作和线性层就可以回归到最终的质量分数。将整个网络视为一个映射函数F,并通过最小化网络预测块F(X;θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ,使用绝对误差MAE作为损失函数:
Figure BDA0004022683960000062
其中N为每批图像中训练样本的个数。
本发明所提出的方法在图像预处理过程中,从每张图像上随机裁剪8个224×224的图像块,并随机水平翻转和裁剪。训练的图像块会继承原图像的质量得分。对比学习使用的Encoder为修改后的ResNet-50,骨干网络的特征提取部分使用的是ViT-B/8,其中图像块的大小为8,该模型在ImageNet-21k上进行训练,在ImageNet-1k上进行微调。模型包含3个stage,前两个阶段由多流模块和块下采样组成,最后一个阶段仅包含多流模块,其中D设置为768,h4和w4为7。在三个stage中,多流模块每个分支通道数目D1、D2和D3分别为:[256,256,256]、[192,192,384]、[48,48,672]。
和现有无参考图像质量评价算法使用的训练策略一样。首先随机选择5个随机种子将数据集进行80%:20%划分。其中80%用来训练,剩下的用来测试。对于合成数据集,根据参考图像对数据集进行划分。在训练过程中,使用学习率为2e-5、权重衰减为1e-5、学习策略为余弦退火的ADAM优化器。其中Tmax设置为50,etamin为0。损失函数使用的MAE,批次大小为8。在测试时,通过预测失真图像的20个patch得分平均值来生成最终客观质量得分。通过运行五次不同种子的实验,报告了结果的平均值。
为了验证本发明的有效性,以CSIQ测试集上的JPEG失真类型图像为例,将MANIQA和本发明提出的模型的DMOS值预测结果进行展示,如图5所示。可以看出,本发明提出的方法不论在图像失真等级排序上还是在总体的DMOS值预测上,性能都比MANIQA要好。其中MANIQA在第四第五失真级别的预测上就产生了错误。图6绘制了本发明提出的方法的Grad-CAM结果,可以看出本发明主要关注点在于图像中的失真部分,符合人眼视觉对于失真的判定。如图7所示,将修改过的ResNet-50模型在KADIS数据集上使用自监督方式进行训练,然后在CSIQ数据集上进行测试,测试过程中模型参数未经调整。将测试结果用t-SNE进行了绘制,图7中(a)和(b)表示模型在CSIQ数据集上六种失真类型的特征聚类结果。可以看出,使用自监督学习训练后,针对不同失真类型,模型区分能力较强。图7中(c)和(d)表示模型在特定失真类型的五种级别上的可视化结果,从中可以看出模型针对AWGN和fnoise失真类型的各个失真级别具有较强的区分能力。这也可以看出本发明提出的模型具有较强的泛化性能。在图8中,将MANIQA和本发明在CSIQ和KONIQ数据集上的预测得分和真值进行了散点图绘制并进行线性拟合。图8中(a)和(b)可以看出,在CSIQ数据集上,本发明的预测结果和真值的线性更强。图8中(c)和(d)可以看出,在KONIQ数据集上,MANIQA会有较多的离群点,而本发明提出的方法结果更加集中。综上本发明能够有效提升模型在不同图像质量评价数据集上的得分预测性能。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施例加以描述,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,包括以下步骤:
(1)构建基于自监督学习和Transformer的无参考图像质量评价网络;所述评价网络包括特征提取模块、多流主干网络、编码器网络、分块注意力模块和得分预测模块;
(2)根据有监督对比学习方法,构建编码器网络,并在大规模未标记图像质量评价数据集上进行自监督训练,用以学习到不同失真类型和级别图像对应的退化特征;
(3)结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;
(4)通过分块注意力模块,将步骤(2)中的退化特征和步骤(3)中的失真特征进行融合,得到最终的失真图像质量特征;通过得分预测模块获得图像客观得分的回归预测。
2.根据权利要求1所述的一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,步骤(1)所述多流主干网络包含三个阶段的多流模块和块下采样的组合,第三阶段仅包含一个多流模块。
3.根据权利要求1所述的基于一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,所述步骤(2)实现过程如下:
定义
Figure FDA0004022683950000011
I表示失真图像,其中u∈{1,...,U}表示不同的失真类型,v∈{1,...,V}表示每个u的不同失真级别;使用编码器f(·)和投影层g(·)组成的网络结构结合对比损失函数学习图像的退化特征,损失函数定义如下:
Figure FDA0004022683950000012
其中,N表示每个批次中图像数量,
Figure FDA0004022683950000013
表示指示函数,τ表示温度系数,P(i)表示属于同一类i的集合,|P(i)|是其基数,φ(m,n)=mTn/||m||2||n||2
4.根据权利要求1所述的一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,所述步骤(3)实现过程如下:
将经过特征提取模块提取后的特征图
Figure FDA0004022683950000021
按照通道分成三部分
Figure FDA0004022683950000022
Figure FDA0004022683950000023
三部分;χ1通过可变卷积和线性层得到χ1′,χ2通过深度可分离卷积、最大池化和上采样得到χ2′,χ3通过多头注意力和线性层得到χ3′:
χ1′=FC(Deform(Conv(χ1))
χ2′=UpSample(MaxPool(DwConv(χ2)))
χ3′=FC(MHSA(χ3))
之后按照通道维度进行合并,并通过残差连接CBAM模块。
5.根据权利要求1所述的一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,所述步骤(4)实现过程如下,
在进行特征融合前,将由图像失真特征信息映射成K和V,将图像退化特征映射成Q,然后通过注意力机制计算它们,获得图像质量特征S;最后通过特征S即可回归到客观图像得分。
6.根据权利要求5所述的一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,对于获得Q、K和V,S的计算过程如下:
Figure FDA0004022683950000024
其中,D表示特征维度;得到S后,通过全局平均池化操作和线性层就可以回归到最终的质量分数;将评价网络视为一个映射函数F,并通过最小化网络预测块F(X;θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ,使用绝对误差MAE作为损失函数:
Figure FDA0004022683950000025
其中,N为每批图像中训练样本的个数。
CN202211694105.2A 2022-12-28 2022-12-28 一种基于自监督学习和Transformer的无参考图像质量评价方法 Pending CN116029953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211694105.2A CN116029953A (zh) 2022-12-28 2022-12-28 一种基于自监督学习和Transformer的无参考图像质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211694105.2A CN116029953A (zh) 2022-12-28 2022-12-28 一种基于自监督学习和Transformer的无参考图像质量评价方法

Publications (1)

Publication Number Publication Date
CN116029953A true CN116029953A (zh) 2023-04-28

Family

ID=86080628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211694105.2A Pending CN116029953A (zh) 2022-12-28 2022-12-28 一种基于自监督学习和Transformer的无参考图像质量评价方法

Country Status (1)

Country Link
CN (1) CN116029953A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452899A (zh) * 2023-06-20 2023-07-18 四川省医学科学院·四川省人民医院 一种基于深度学习的超声心动图标准切面识别及评分方法
CN117152067A (zh) * 2023-08-14 2023-12-01 安徽大学 基于深度元学习的无参考光场图像质量评估方法及系统
CN117274170A (zh) * 2023-09-01 2023-12-22 国家广播电视总局广播电视规划院 无参考图像评价方法、装置、电子设备和计算机存储介质
CN118196107A (zh) * 2024-05-20 2024-06-14 江西财经大学 基于多协同网络辅助的全景图像盲质量评价方法与系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452899A (zh) * 2023-06-20 2023-07-18 四川省医学科学院·四川省人民医院 一种基于深度学习的超声心动图标准切面识别及评分方法
CN117152067A (zh) * 2023-08-14 2023-12-01 安徽大学 基于深度元学习的无参考光场图像质量评估方法及系统
CN117274170A (zh) * 2023-09-01 2023-12-22 国家广播电视总局广播电视规划院 无参考图像评价方法、装置、电子设备和计算机存储介质
CN118196107A (zh) * 2024-05-20 2024-06-14 江西财经大学 基于多协同网络辅助的全景图像盲质量评价方法与系统

Similar Documents

Publication Publication Date Title
CN116029953A (zh) 一种基于自监督学习和Transformer的无参考图像质量评价方法
CN107770517A (zh) 基于图像失真类型的全参考图像质量评价方法
CN111079539B (zh) 一种基于异常追踪的视频异常行为检测方法
US20230360390A1 (en) Transmission line defect identification method based on saliency map and semantic-embedded feature pyramid
CN112634238B (zh) 一种基于注意力模块的图像质量评价方法
CN107680037B (zh) 改进的基于最近特征线流形学习的人脸超分辨率重建方法
CN106295501A (zh) 基于唇部运动的深度学习身份识别方法
CN112862830A (zh) 一种多模态图像分割方法、系统、终端及可读存储介质
CN116645369B (zh) 基于孪生自编码器和双向信息深度监督的异常检测方法
CN115511795A (zh) 一种基于半监督学习的医学图像分割方法
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统
CN116245861A (zh) 基于交叉多尺度的无参考图像质量评价方法
CN114187261A (zh) 一种基于多维注意力机制的无参考立体图像质量评价方法
CN116503668A (zh) 一种基于小样本元学习的医学影像分类方法
CN115170874A (zh) 一种基于解耦蒸馏损失的自蒸馏实现方法
CN117994167B (zh) 融合并行多卷积注意力的扩散模型去雾方法
CN114170599A (zh) 一种基于蒸馏比较的异常物体分割方法
CN116993639A (zh) 基于结构重参数化的可见光与红外图像融合方法
CN116596836A (zh) 基于多视图邻域证据熵的肺炎ct影像属性约简方法
CN115587967B (zh) 一种基于HA-UNet网络的眼底图像视盘检测方法
CN117253034A (zh) 一种基于差异化上下文的图像语义分割方法及系统
CN116468667A (zh) 一种加入Transformer的串式知识蒸馏的无监督缺陷检测方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN116152194A (zh) 一种物体缺陷检测方法、系统、设备及介质
CN115115900A (zh) 图像重建模型的训练方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination