CN116844008A - 一种注意力机制引导的内容感知无参考图像质量评价方法 - Google Patents
一种注意力机制引导的内容感知无参考图像质量评价方法 Download PDFInfo
- Publication number
- CN116844008A CN116844008A CN202310801584.1A CN202310801584A CN116844008A CN 116844008 A CN116844008 A CN 116844008A CN 202310801584 A CN202310801584 A CN 202310801584A CN 116844008 A CN116844008 A CN 116844008A
- Authority
- CN
- China
- Prior art keywords
- meta
- model
- attention mechanism
- attention
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000007246 mechanism Effects 0.000 title claims abstract description 43
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 15
- 230000008447 perception Effects 0.000 title abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000001303 quality assessment method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000007634 remodeling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 14
- 230000009467 reduction Effects 0.000 abstract description 5
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000001604 Rao's score test Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 235000015243 ice cream Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种注意力机制引导的内容感知无参考图像质量评价方法,该方法将元学习框架和图像内容感知预测相结合,在元训练时通过双层梯度下降优化训练Resnet50网络得到元模型,提高对各种失真信息的敏感性,在元测试时在元模型中插入极化自注意力模块,引入了空间和通道方面的注意力机制,有效利用全局信息并给予不同的注意力,同时融合元模型的多层次特征,实现对图像局部失真和全局失真的完整描述;最后通过特征降维、融合获得多层次特征的权值,得到图像的感知质量分数。该方法利用细化的深层语义特征,在理解图像内容的基础上进行质量评估,更符合人类感知过程,泛化性良好。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种注意力机制引导的内容感知无参考图像质量评价方法。
背景技术
在图像中引入不同类型和程度的失真会影响用户体验和后续的图像处理。因此图像质量评价(IQA)在图像成像过程中变得越来越重要。由于在实际应用中,有效的参考图像或图像特征往往无法获得,无参考图像质量评价(NR-IQA)方法已成为主流研究方向,广泛应用在图像压缩、图像去噪、图像融合以及监控系统等多个领域。
最近,由于深度学习网络不仅可以实现图像特征与质量分数的映射,还可以自动捕获深度特征来表示失真,实现端到端的评价过程。因此,基于深度学习的IQA方法受到学者们的广泛关注,出现了各种基于深度卷积神经网络的评价模型。由于图像质量的感知是高度主观的,在开发IQA模型时应考虑人类视觉系统中的重要机制。在许多情况下,图像质量与图像内容的一致性也有关系,因为失真对图像的可读性有很大的负面影响。总的来说,在IQA中仍然存在一些挑战,例如:失真图像的内容多样性、失真图像的失真复杂性、人类对失真图像视觉注意力分布不均性带来的问题。
发明内容
本发明解决的主要问题在于:失真图像的内容多样性、失真图像的失真复杂性、人类对失真图像视觉注意力分布不均性带来的问题。
为了实现上述目的,本发明提出了一种新的注意力机制引导的内容感知无参考图像质量评价模型,采用元学习方法来学习图像中的失真信息,增强整体网络对于失真敏感特征的提取能力,同时引入无参考图像质量评价模型的极化自注意力模块,探索空间和通道注意力,模拟人类视觉系统的选择性空间注意力和对比敏感度,并提取图像的多层次特征来更全面地描述图像的细节信息,提取图像的高级语义信息,在学习内容特征后,根据图像的内容自适应的调整学习感知质量的规则。本发明利用细化的深层语义特征,在理解图像内容的基础上进行质量评估,更符合人类感知过程,泛化性良好。
本发明提供了一种注意力机制引导的内容感知无参考图像质量评价方法,包括以下步骤:
构建一种无参考图像质量评价模型,该模型包括元训练和元测试两个阶段;
获取无参考图像,构建训练集;
在元训练阶段,将训练集输入模型中,采用元学习方法,以Resnet50为骨干网络,通过双层梯度优化策略训练,训练完成后,得到元模型;
在元测试阶段,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合;
将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征;
通过新模型最后一层的提取的高级语义特征学习图像内容信息,输入权重生成网络自适应地确定新模型的权重和偏差,得到质量预测网络;
将多层次特征输入质量预测网络,得到图像的质量预测得分。
进一步地,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合的具体表达式为:
Z=AC(X)⊙CX+AS(X)⊙SX
其中,AC和AS分别是学习到的通道和空间权重矩阵,⊙C和⊙S分别表示通道和空间维度对应相乘,X是原始的输入特征图。
进一步地,将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征的具体表达式为:
其中,vz表示融合后的多层次特征,表示拼接操作,Z表示新模型最后一层输出的融合注意力机制的特征,Li表示从Resnet中的卷积层Layer1、Layer2和卷积Layer3提取的注意力机制加权的局部特征,i=1,2,3。
进一步地,Layer1、Layer2、Layer3的尺寸分别为256×56×56、512×28×28和1024×14×14。
进一步地,所述高级语义信息通过卷积降维后,通过二维卷积和形状重塑生成相应全连接层的权重Fci_w,并通过全局平均池化和形状重塑生成相应全连接层的偏差Fci_b。
进一步地,所述多层次特征输送到全连接层组成的质量预测网络中得到质量预测得分的具体过程为:
fθ(vz,g(Z))=q
其中,g(·)表示权重生成网络,θ表示质量预测网络fθ的参数,q表示预测得到的质量分数。
进一步地,所述骨干网络为Resnet50特征提取网络。
进一步地,所述质量预测网络由多个全连接层依次连接组成。
此外,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种注意力机制引导的内容感知无参考图像质量评价方法的步骤。
此外,本发明还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的一种注意力机制引导的内容感知无参考图像质量评价方法的步骤。
本发明提供了一种注意力机制引导的内容感知无参考图像质量评价方法,该方法将元学习框架和图像内容感知预测相结合,在训练时通过双层梯度下降优化训练Resnet50网络得到元模型,提高对各种失真信息的敏感性,在测试时在元模型中插入极化注意力模块,引入了空间和通道方面的注意力机制,有效利用全局信息并给予不同的注意力,同时融合元模型的多层次语义特征,实现对图像局部失真和全局失真的完整描述;最后通过特征降维、融合获得多层次语义特征的权值,得到图像的感知质量分数。该方法利用细化的深层语义特征,在理解图像内容的基础上进行质量评估,更符合人类感知过程,泛化性良好。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例提供的一种注意力机制引导的内容感知无参考图像质量评价方法的执行流程图;
图2为本发明实施例提供的一种注意力机制引导的内容感知无参考图像质量评价模型结构示意图;
图3为本发明实施例提供的极化自注意力模块结构示意图;
图4为本发明实施例提供的局部特征提取模块结构示意图;
图5为本发明实施例提供的本发明模型与其他模型的图像质量评价分数测试结果对比图;
图6是本发明实施例提供的本发明模型和不添加任何模块的基线模型的可视化热力图对比;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
参见图1和图2,本发明实施例提供了一种注意力机制引导的内容感知无参考图像质量评价方法,包括如下步骤:
S1、构建一种无参考图像质量评价模型,该模型包括元训练和元测试两个阶段;
S2:获取无参考图像,构建训练集;
S3:在元训练阶段,将训练集输入模型中,采用元学习方法,以Resnet50为骨干网络,通过双层梯度优化策略训练,即:①通过优化器的训练,元模型可以在元学习器的指导下优化每个参数的更新方向和步长,更快地适应当前失真任务,②元模型可以有效得到不同失真类型之间的共享先验知识,从而只需要少量样本就可以在目标任务上获得良好的泛化性能,训练完成后,得到元模型。
S4:在元测试阶段,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合。
具体地,参见图3,在通道注意力分支中,通过1×1卷积将特征图分别转换成C/2×H×W大小的V和1×H×W大小的Q,然后通过形状重塑得到和/>采用Softmax增强/>信息,经过1×1卷积、LayerNorm、Sigmoid激活函数后获得每个通道的权重值,具体为:
其中,Fsm(·)是Softmax激活函数,Fsig(·)是Sigmoid激活函数。
在空间注意力分支中,通过1×1卷积将特征图转换成尺寸C/2×H×W大小的V和Q。采用全局池化对Q空间维度进行压缩,转换成了1×1的大小,通过形状重塑后得到和并通过Softmax对/>信息进行增强,然后通过形状重塑得到/>使用Sigmoid得到空间权重表示为:
沿空间和通道维度学习特征的加权组合的具体表达式为:
Z=AC(X)⊙CX+AS(X)⊙SX
其中,AC和AS分别是学习到的通道和空间权重矩阵,⊙C和⊙S分别表示通道和空间维度对应相乘,X是原始的输入特征图。
S5:将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征。
具体地,由于卷积神经网络最后一个卷积层提取的高级特征仅代表全局信息,而网络的浅层特征往往包含更丰富的细节信息,例如:局部细节和纹理信息。因此将高级语义信息和低级细节信息相结合,参见图4,从Resnet50中的卷积层Layer1(256×56×56)、Layer2(512×28×28)和卷积Layer3(1024×14×14)中提取多层次特征。
为了减少网络参数便于快速计算,在局部特征提取分支中应用1×1卷积降维,并进行全局平均池化操作,在减少维度的同时,保留更多的图片信息,便于特征融合。最后通过全连接层将细化的多层次特征映射为向量。随着多层次特征的引入,网络现在可以定义如下:
其中,vz表示融合后的多层次特征,表示拼接操作,Z表示新模型最后一层输出的融合注意力机制的特征,Li表示从Resnet中的卷积层Layer1、Layer2和卷积Layer3提取的注意力机制加权的局部特征,i=1,2,3。
S6、通过新模型最后一层的提取的高级语义特征学习图像内容信息,输入权重生成网络自适应地确定新模型的权重和偏差,得到质量预测网络;
所述高级语义信息通过卷积降维后,通过二维卷积和形状重塑生成相应全连接层的权重Fci_w,并通过全局平均池化和形状重塑生成相应全连接层的偏差Fci_b。
具体地,所述多层次特征输送到全连接(FC)层组成的质量预测网络中得到质量分数的具体过程为:
fθ(vz,g(Z))=q
其中,g(·)表示权重生成网络,θ表示质量预测网络fθ的参数,q表示预测得到的质量分数。
为了验证本发明方法的有益效果,本发明进行了实验验证,在具体实验方案中描述了实验设置、实现细节和数据集选取等。然后开展了与其他方法的整体数据集性能评估和单一失真数据集性能评估。最后对进行了消融实验研究,以验证各个模块的有效性。
在本发明方法的实现中包括两个步骤:(1)在元训练期间,使用由合成失真数据集构建的特定失真NR-IQA任务来训练基础网络Restnet50;(2)在元测试期间,在各个数据集上训练基于注意力机制的内容感知网络(新模型)。在网络训练过程中,统一使用权重衰减率为5e-4,学习率为2e-5的Adam优化器对网络参数训练16次。评价指标采用SROCC和PLCC来衡量预测的结果。
在元测试期间,选择四个公开数据集进行实验验证,即LIVE、CSIQ、LIVEC和KonIQ-10k数据集。首先划分训练集和测试集,并在训练时从输入图像中随机采样并水平翻转为25个尺寸为224×224像素的图像块,在测试时,对每张图像中采样的图像块分数进行平均来获得最终的预测分数。由于采用的所有数据集属于小样本,在调整模型参数时选择恰当的批量大小(batch-size,bs)能够提升模型训练的性能和准确性,因此针对不同数据集调整bs:KonIQ-10k数据集的bs为72,LIVEC数据集的bs为96,LIVE和CSIQ数据集的bs为72。最后,预测质量得分和标注分数之间的通过最小化L1损失函数来训练,计算如下:
式中,f(·)代表整体网络,qi表示图像的标注得分,N表示所有训练样本数量。
选择当前主流的NR-IQA方法进行性能比较,包括基于手工提取特征的方法,基于深度学习的合成IQA方法和基于深度学习的真实IQA方法。为了避免偏倚,训练过程重复10次,并报告PLCC和SROCC的中位数值,结果如表1和表2所示。
从表1、2中可以看出,本发明模型在数据集LIVEC、Koniq-10k、CSIQ和LIVE上分别达到了0.884、0.917、0.965、0.975的SROCC结果和0.895、0.930、0.967、0.974的PLCC结果。同时,除了CSIQ数据集,本发明方法都实现了最佳的预测准确性,在CSIQ上也取得了第二高的预测准确性,仅次于DBCNN。对于四个数据集的平均预测结果,本发明方法比DBCNN方法分别提高了2.41%的SROCC结果和2.39%的PLCC结果。
表1不同NR-IQA方法的SROCC结果
表2不同NR-IQA方法的PLCC结果
本发明从三个方面分析了测试结果:
(1)首先,对于大多数数据集,本发明模型的预测精度明显优于基于手工提取特征的三种模型。实验结果表明,本发明提出的带有注意力机制的多层次特征比基于手工提取特征的方法学习到更加丰富的信息。
(2)接着,与针对合成失真的深度学习模型相比,本发明模型在所有数据集上都得到了最佳SROCC值。在真实数据集上本发明方法的准确性要远远优于合成IQA方法,由此可知专门为合成失真训练的模型对在预测真实失真时存在较大的不足。而在合成数据集上,本发明方法也表现出较大的潜力和优秀的预测准确性,在CSIQ上的PLCC结果仅次于WaDIQaM方法。本发明方法与WaDIQaM的SROCC结果相比,在CSIQ上优于其约1.05%,在LIVE上优于其约2.20%。对于PLCC结果,本发明方法在LIVE上比WaDIQaM-NR高出约1.14%。
(3)最后,与基于深度学习的真实IQA方法相比,本发明提出的方法无论是对合成还是真实的失真的预测结果都取得了最优。这表明,学习图像内容有助于提升预测感知图像质量,因为人类对广泛的图像种类有不同的感官感受。与利用卷积网络提取深层语义特征的方法SFA相比,本发明的方法在KonIQ-10k和LIVEC上的结果显著优于SFA。与同样内容感知的HyperIQA方法相比,证明本发明的注意力机制可以进一步细化特征,符合人眼的感知特性。本发明方法在LIVEC上高出其约2.91%的SROCC和1.47%的PLCC,在Koniq-10k上高出其约1.21%的SROCC和1.41%的PLCC,在CSIQ上高出其约4.55%的SROCC和2.65%的PLCC,在LIVE上高出其约1.35%的SROCC和0.83%的PLCC。
综上所述,本发明实现最佳预测精度主要在于:(1)在合成数据集上预训练的元模型能够学习更多失真相关知识,对于没有训练过的失真也能很好适应;(2)所提出的局部特征提取模块将注意力机制融合到多层次特征中,更符合真实失真图片的特性;(3)通过注意力机制细化的深层语义特征实现了内容感知的失真图像质量预测,更加符合人类预测图像的过程。
为了评价本发明的内容感知模型对不同失真类型的预测性能,在合成失真数据集上开展单一失真类型实验。在实验中,采取LIVE和CSIQ中的所有失真类型对模型进行训练,然后测试对特定失真类型的评价效果,本发明方法和其他方法的SROCC结果展示在表3和表4中。
从表3可以看出,本发明方法在LIVE中的四种失真类型JP2K、WN、GB和FF上取得了最高的预测准确性,分别取得了0.965、0.988、0.978、0.957的SROCC结果。对于JPEG失真类型的预测结果仅次于DBCNN。而在表4中,本发明方法在CSIQ中的四种失真JPEG、JP2K、PN和CC上都超过了所有竞争的NR-IQA方法。本发明方法在JPEG上优于WaDIQaM约14.89%,在JP2K上优于其约2.75%,在PN上优于其约9.86%,在CC上优于其约2.93%。
表3LIVE数据集上不同失真类型图像的SROCC结果
表4CSIQ数据集上不同失真类型图像的SROCC结果
总的来说本发明方法在11种失真类型中的8种都超越了其他方法,主要在于结合注意力机制的图像内容信息更有助于学习感知质量,同时元学习进一步提高了模型对于各种失真类型的泛化性能。
为了探索本发明模型中各个模块的有效性,在本实施例中进一步进行消融实验。首先,本发明在两个数据集LIVE和LIVEC训练和测试模型,使用预训练的Resnet50作为基线模型。其次,对Resnet50进行双层优化训练,表示为Resnet50+Meta。接着提取多层次特征和图像内容感知过程,表示为Resnet50+MT_Content。然后,在其基础上加入注意力机制PSA,模拟人眼观察图像时的注意力分布。最后,通过元学习框架,结合所有模块得到最终的SROCC和PLCC指标。实验结果如表5所示。
表5LIVE和LIVEC数据集的消融研究结果
可以观察到,使用各个模块后的性能比基线模型的性能有显著提升,验证了本发明所提策略对IQA过程非常重要。
以LIVEC和KonIQ数据集中的图像为例,本发明给出了20张失真图像的主观质量分数和本发明模型预测的相应质量分数。如图5所示,第一行是主观质量分数(GS),第二行是添加了MT_Content模块的预测分数,第三行是本发明模型的预测分数。可以看出,添加的MT_Content模块中,多层次特征模仿了人眼在评估一幅图像时产生的信息,结合高级语义信息可以在一定程度上消除图像内容变化和局部失真对质量预测带来的影响,保留更多人眼视觉比较敏感的细节特征,因此取得了可信赖的预测结果。此外,加入元学习过程和注意力机制后,本发明模型对大多数失真图像的预测值基本与主观质量分数一致,这进一步验证了本发明的模型对不同失真的鲁棒性和预测图像质量的准确性。
如图6所示,图6显示了本发明模型和不添加任何模块的基线模型的可视化热力图对比,可以看出本发明方法从通道维度和空间维度两方面学习图像信息,使得失真图像中的有效特征得以增强、无效特征得以抑制,从而准确地关注人眼感兴趣的区域。例如在左边图像中模型更加关注冰激凌和手指的整个区域,对手指等的纹理特征能够提取的更加准确;在右边图像中模型可以有效勾勒羽毛的轮廓细节,同时忽略模糊的背景影响。本发明模型能结合不同维度信息获取更加丰富的图像特征,在四个数据集上取得了相当的效果。本发明模型侧重于关注人眼感兴趣区域,在对图像全局分析的基础上,结合显著性区域和局部细节来探索高质量的感知特征。
如图7所示,示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述一种注意力机制引导的内容感知无参考图像质量评价方法的步骤,具体包括:构建一种无参考图像质量评价模型,该模型包括元训练和元测试两个阶段;获取无参考图像,构建训练集;在元训练阶段,将训练集输入模型中,采用元学习方法,以Resnet为骨干网络,通过双层梯度优化策略训练,训练完成后,得到元模型;在元测试阶段,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合;将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征;通过新模型最后一层的提取的高级语义特征学习图像内容信息,输入权重生成网络自适应地确定新模型的权重和偏差,得到质量预测网络;将多层次特征输入质量预测网络,得到图像的质量预测得分。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述一种注意力机制引导的内容感知无参考图像质量评价方法的步骤,具体包括:构建一种无参考图像质量评价模型,该模型包括元训练和元测试两个阶段;获取无参考图像,构建训练集;在元训练阶段,将训练集输入模型中,采用元学习方法,以Resnet为骨干网络,通过双层梯度优化策略训练,训练完成后,得到元模型;在元测试阶段,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合;将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征;通过新模型最后一层的提取的高级语义特征学习图像内容信息,输入权重生成网络自适应地确定新模型的权重和偏差,得到质量预测网络;将多层次特征输入质量预测网络,得到图像的质量预测得分。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
Claims (10)
1.一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,包括以下步骤:
构建一种无参考图像质量评价模型,该模型包括元训练和元测试两个阶段;
获取无参考图像,构建训练集;
在元训练阶段,将训练集输入模型中,采用元学习方法,以Resnet为骨干网络,通过双层梯度优化策略训练,训练完成后,得到元模型;
在元测试阶段,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合;
将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征;
通过新模型最后一层的提取的高级语义特征学习图像内容信息,输入权重生成网络自适应地确定新模型的权重和偏差,得到质量预测网络;
将多层次特征输入质量预测网络,得到图像的质量预测得分。
2.根据权利要求1所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,在元模型中加入极化自注意力模块得到新模型,沿空间和通道维度学习特征的加权组合的具体表达式为:
Z=AC(X)⊙CX+AS(X)⊙SX
其中,AC和AS分别是学习到的通道和空间权重矩阵,⊙C和⊙S分别表示通道和空间维度对应相乘,X是原始的输入特征图。
3.根据权利要求1所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,将新模型最后一层输出的融合注意力机制的特征和新模型低层的局部特征进行融合,得到多层次特征的具体表达式为:
其中,vz表示融合后的多层次特征,表示拼接操作,Z表示新模型最后一层输出的融合注意力机制的特征,Li表示从Resnet中的卷积层Layer1、Layer2和卷积Layer3提取的注意力机制加权的局部特征,i=1,2,3。
4.根据权利要求3所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,Layer1、Layer2、Layer3的尺寸分别为256×56×56、512×28×28和1024×14×14。
5.根据权利要求1所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,所述高级语义信息通过卷积降维后,通过二维卷积和形状重塑生成相应全连接层的权重Fci_w,并通过全局平均池化和形状重塑生成相应全连接层的偏差Fci_b。
6.根据权利要求3所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,所述多层次特征输送到全连接层组成的质量预测网络中得到质量预测得分的具体过程为:
fθ(vz,g(Z))=q
其中,g(·)表示权重生成网络,θ表示质量预测网络fθ的参数,q表示预测得到的质量分数。
7.根据权利要求1所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,所述骨干网络为Resnet50特征提取网络。
8.根据权利要求1所述的一种注意力机制引导的内容感知无参考图像质量评价方法,其特征在于,所述质量预测网络由多个全连接层依次连接组成。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的一种注意力机制引导的内容感知无参考图像质量评价方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的一种注意力机制引导的内容感知无参考图像质量评价方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310801584.1A CN116844008A (zh) | 2023-06-30 | 2023-06-30 | 一种注意力机制引导的内容感知无参考图像质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310801584.1A CN116844008A (zh) | 2023-06-30 | 2023-06-30 | 一种注意力机制引导的内容感知无参考图像质量评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844008A true CN116844008A (zh) | 2023-10-03 |
Family
ID=88170138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310801584.1A Pending CN116844008A (zh) | 2023-06-30 | 2023-06-30 | 一种注意力机制引导的内容感知无参考图像质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844008A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456339A (zh) * | 2023-11-17 | 2024-01-26 | 武汉大学 | 一种基于多层次特征复用的图像质量评价方法及系统 |
-
2023
- 2023-06-30 CN CN202310801584.1A patent/CN116844008A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456339A (zh) * | 2023-11-17 | 2024-01-26 | 武汉大学 | 一种基于多层次特征复用的图像质量评价方法及系统 |
CN117456339B (zh) * | 2023-11-17 | 2024-05-17 | 武汉大学 | 一种基于多层次特征复用的图像质量评价方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN109754391B (zh) | 一种图像质量评价方法、装置及电子设备 | |
CN109886881B (zh) | 人脸妆容去除方法 | |
CN113554599B (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
EP4290448A1 (en) | Image generation model training method, generation method, apparatus, and device | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
Sun et al. | Underwater image enhancement with reinforcement learning | |
CN115205196A (zh) | 基于孪生网络与特征融合的无参考图像质量评价方法 | |
CN116844008A (zh) | 一种注意力机制引导的内容感知无参考图像质量评价方法 | |
CN111882516B (zh) | 一种基于视觉显著性和深度神经网络的图像质量评价方法 | |
CN116309062A (zh) | 一种遥感图像超分辨率重建方法 | |
CN108492275B (zh) | 基于深度神经网络的无参考立体图像质量评价方法 | |
CN113658091A (zh) | 一种图像评价方法、存储介质及终端设备 | |
CN109887023B (zh) | 一种基于加权梯度幅度的双目融合立体图像质量评价方法 | |
CN110738645B (zh) | 基于卷积神经网络的3d图像质量检测方法 | |
CN108665455B (zh) | 图像显著性预测结果的评价方法和装置 | |
CN116797681A (zh) | 渐进式多粒度语义信息融合的文本到图像生成方法及系统 | |
CN113947547B (zh) | 基于多尺度核预测卷积神经网络的蒙特卡洛渲染图降噪方法 | |
CN114841887A (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
CN113822790B (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN114897884A (zh) | 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 | |
CN114943912A (zh) | 视频换脸方法、装置及存储介质 | |
CN115278303B (zh) | 视频处理方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |