CN117593296A - 一种基于扩散模型的无参考图像质量评价方法 - Google Patents
一种基于扩散模型的无参考图像质量评价方法 Download PDFInfo
- Publication number
- CN117593296A CN117593296A CN202410070380.XA CN202410070380A CN117593296A CN 117593296 A CN117593296 A CN 117593296A CN 202410070380 A CN202410070380 A CN 202410070380A CN 117593296 A CN117593296 A CN 117593296A
- Authority
- CN
- China
- Prior art keywords
- module
- image
- distortion
- quality evaluation
- image quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 58
- 238000009792 diffusion process Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 230000006978 adaptation Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 235000019580 granularity Nutrition 0.000 claims description 29
- 230000008447 perception Effects 0.000 claims description 19
- 239000002131 composite material Substances 0.000 claims description 12
- 238000001303 quality assessment method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 19
- 238000009826 distribution Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了计算机视觉技术领域的一种基于扩散模型的无参考图像质量评价方法,包括如下步骤:步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型;所述BIQA教师模块以CLIP模型为主干网络;所述BIQA学生模块以Transformer模型为主干网络;步骤S2、获取大量的图像,对各所述图像进行预处理并构建图像数据集;步骤S3、利用所述图像数据集对图像质量评价模型进行训练;步骤S4、利用训练后的所述图像质量评价模型进行图像质量评价。本发明的优点在于:极大的提升了无参考图像质量评价精度。
Description
技术领域
本发明涉及计算机视觉技术领域,特别指一种基于扩散模型的无参考图像质量评价方法。
背景技术
图像质量评价(IQA)方法匹配人类对图像失真的感知,对计算机视觉至关重要,可靠的IQA模型可以提高视觉质量,作为图像处理的基准。交互式问答包括全参考图像质量评价(FR-IQA) 、减少参考图像质量评价(RR-IQA) 和盲图像质量评价(BIQA);由于通常无法获得参考图像,BIQA在无参考图像的图像恢复和超分辨率等任务中获得了关注。
近年来,基于深度神经网络的数据驱动BIQA模型取得了显著进展,这些模型建立在卷积、非线性激活和下采样的连续阶段之上,用数百万个参数训练这样的模型需要以平均意见分数(MOSs)形式的大量的质量注释(人工评分数据)。然而,进行大规模的主观实验成本过高,导致在很大程度上缺乏此类数据。人们提出了几种策略来解决人工评分数据的稀缺性,一种常见的方法是利用在其他计算机视觉任务中使用的大规模数据集(例如ImageNet )的领域知识,然而相似的语义图像可能会受到不同程度失真的影响,导致评价出不同的质量分数,即将这些数据集用于BIQA任务时会引入噪声。
经检索,申请日为2021.05.19,申请号为CN202110546001.6的中国发明专利公开了基于自注意图像编码的无参考图像质量评价方法,该专利首先获取训练样本集和测试样本集;然后构建基于自注意图像编码的无参考图像质量评价网络模型;对基于自注意图像编码的无参考图像质量评价网络模型进行迭代训练;最后获取无参考图像质量评价结果。该专利虽然能较好提高对整体注意力信息的提取能力,但不足之处在于,通过优化提取的语义特征,缺乏从图像语义内容中过滤与质量不相关的特征,导致评价精度较低。
因此,如何提供一种基于扩散模型的无参考图像质量评价方法,实现提升无参考图像质量评价精度,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于扩散模型的无参考图像质量评价方法,实现提升无参考图像质量评价精度。
本发明是这样实现的:一种基于扩散模型的无参考图像质量评价方法,包括如下步骤:
步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型;所述BIQA教师模块以CLIP模型为主干网络;所述BIQA学生模块以Transformer模型为主干网络;
步骤S2、获取大量的图像,对各所述图像进行预处理并构建图像数据集;
步骤S3、利用所述图像数据集对图像质量评价模型进行训练;
步骤S4、利用训练后的所述图像质量评价模型进行图像质量评价。
进一步的,所述步骤S1中,所述BIQA教师模块用于设定输入图像的标签信息,再将设定所述标签信息后的图像输入BIQA学生模块;
所述标签信息至少包括失真类型伪标签、质量水平伪标签以及质量分数标签。
进一步的,所述步骤S1中,所述BIQA学生模块由感知先验知识发现单元以及扩散对齐单元构成。
进一步的,所述感知先验知识发现单元用于对图像的像素特征增加随机掩码,通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构,将重构后的不同粒度的失真特征和质量水平特征输入扩散对齐单元。
进一步的,所述扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐后,输入所述特征融合模块。
进一步的,所述步骤S1中,所述特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合,融合过程中通过标签信息来约束质量水平特征的扩散,将融合后的所述失真特征和质量水平特征输入噪声适配模块。
进一步的,所述步骤S1中,所述噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平,再输入所述输出模块。
进一步的,所述步骤S1中,所述输出模块用于依据失真特征和质量水平特征输出图像质量评分。
进一步的,所述步骤S2具体为:
获取大量的图像,对各所述图像进行合成失真的预处理以扩充样本量,对各所述图像进行标签信息的标注,基于合成失真的各所述图像构建4个合成失真数据子集,基于真实失真的各所述图像构建4个真实失真数据子集,基于各所述合成失真数据子集以及真实失真数据子集构建图像数据集。
本发明的优点在于:
通过BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型;对获取的各图像进行预处理并构建图像数据集,利用图像数据集对图像质量评价模型进行训练,最后利用训练后的图像质量评价模型进行图像质量评价;由于BIQA教师模块用于设定输入图像的标签信息,BIQA学生模块的感知先验知识发现单元用于对图像的像素特征增加随机掩码,通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构,BIQA学生模块的扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐,特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合,噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平,即从初始的失真特征和质量水平特征中去除噪声,从而净化质量水平特征,且通过噪声适配模块来确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性,从而进一步增强质量水平特征的对齐性,最终极大的提升了无参考图像质量评价精度。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于扩散模型的无参考图像质量评价方法的流程图。
图2是本发明一种基于扩散模型的无参考图像质量评价方法的流程示意图。
图3是本发明与基准模型的评价结果对比示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建的图像质量评价模型进行图像质量评价,由于BIQA教师模块用于设定输入图像的标签信息,BIQA学生模块的感知先验知识发现单元用于对图像的像素特征增加随机掩码,通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构,BIQA学生模块的扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐,特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合,噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平,即从初始的失真特征和质量水平特征中去除噪声,且通过噪声适配模块来确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性,从而进一步增强质量水平特征的对齐性,以提升无参考图像质量评价精度。
请参照图1至图3所示,本发明一种基于扩散模型的无参考图像质量评价方法的较佳实施例,包括如下步骤:
步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型;所述BIQA教师模块以CLIP模型(对比语言-图像预训练模型)为主干网络;所述BIQA学生模块以Transformer模型为主干网络;
步骤S2、获取大量的图像,对各所述图像进行预处理并构建图像数据集;
步骤S3、利用所述图像数据集对图像质量评价模型进行训练;
步骤S4、利用训练后的所述图像质量评价模型进行图像质量评价。
本发明旨在自动发现多个辅助任务的潜在细粒度先验作为图像质量评价模型的优化指导,从初始特征表示(失真特征和质量水平特征)中去除噪声,通过感知先验知识发现单元建立一个多辅助任务分支,用于学习图像中潜在的由粗到细的特征;通过扩散对齐单元将学习到的特征作为隐特征空间的去噪先验,并在此过程中采用伪特征先验(标签信息)来约束质量水平特征的扩散;通过噪声适配模块确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性,从而进一步增强质量水平特征的对齐。
所述步骤S1中,所述BIQA教师模块用于设定输入图像的标签信息,再将设定所述标签信息后的图像输入BIQA学生模块;
所述标签信息至少包括失真类型伪标签、质量水平伪标签以及质量分数标签。
所述步骤S1中,所述BIQA学生模块由感知先验知识发现单元(Perceptual PriorKnowledge discovery module, PPD)以及扩散对齐单元(Perceptual Prior-basedDiffusion alignment module, PDA)构成。
所述感知先验知识发现单元用于对图像的像素特征增加随机掩码,通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构,将重构后的不同粒度的失真特征和质量水平特征输入扩散对齐单元。
所述感知先验知识发现单元采用一个特征重构器来发现不同粒度的特征;具体来说引入了两个辅助任务:失真类型分类和质量水平分类;首先在图像特征的通道维度上应用随机掩码,然后仅使用未被掩盖的像素特征通过特征重构器进行失真特征和质量水平特征的重构,其中随机掩码的应用有助于提高模型对于不同粒度特征提取的鲁棒性,有效捕捉广泛质量变化的粗粒度特征以及与特定失真属性相匹配的细粒度特征。
所述扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐后,输入所述特征融合模块。
所述步骤S1中,所述特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合,融合过程中通过标签信息来约束质量水平特征的扩散,将融合后的所述失真特征和质量水平特征输入噪声适配模块。
所述特征融合模块旨在对粗粒度和细粒度的质量水平特征进行融合,使其具有粗粒度的质量级特征和细粒度的失真级感知;利用融合的特征作为隐特征空间的去噪先验。
所述步骤S1中,所述噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平,进一步增强质量水平特征的对齐性,再输入所述输出模块。
所述步骤S1中,所述输出模块用于依据失真特征和质量水平特征输出图像质量评分。
所述步骤S2具体为:
获取大量的图像,对各所述图像进行合成失真的预处理以扩充样本量,对各所述图像进行标签信息的标注,基于合成失真的各所述图像构建4个合成失真数据子集,基于真实失真的各所述图像构建4个真实失真数据子集,基于各所述合成失真数据子集以及真实失真数据子集构建图像数据集。
为了便于进一步理解本发明,以下对本发明进行举例说明:
以数据集KONIQ(Hosu V, Lin H, Sziranyi T, et al. , “KonIQ-10k: Anecologically valid database for deep learning of blind image qualityassessment,” IEEE Transactions on Image Processing, 2020.)为例,对本发明进行详细说明。
具体而言,对于BIQA教师模块,生成与图像x相关的失真类型伪标签和质量水平伪标签分别Yd和Yq;对于BIQA学生模块,引入PDD和PDA,PPD旨在学习用于质量意识的辅助先验信息,指导PDA中学生特征的去噪过程。在训练过程中:
1、对于PPD:使用图像编码器对图像x进行编码以获得特征表示Fs;特征重构器R(·)从Fs中生成重建特征和/>。将图像特征Fs和由预训练的语言编码器得到的文本特征Gt计算相似度,获得失真类型和质量水平的输出/>和/>,这些输出由伪标签Yd和Yq监督。
2、对于PDA:将PDA分为前向添加噪声和后向预测去除噪声的反向过程进行学习;前向扩散过程采用预训练特征Ft,并迭代地添加高斯噪声;反向过程将特征表示Fs作为输入,通过噪声适配模块将学生特征的噪声水平匹配到预定义的教师噪声水平,然后通过扩散模型的噪声预测模块进行训练,并采用轻量级特征去噪模块提高模型计算效率。
具体包括如下步骤:
1)创建包括BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块的图像质量评价模型,BIQA学生模块包括感知先验知识发现单元以及扩散对齐单元;
感知先验知识发现单元:考虑到现实世界中图像失真的复杂性,图像质量评价需要包含高层特征和细粒度特征;为了解决这种复杂性引入失真类型分类的辅助任务,旨在细化不同失真类型之间的区分,从而提供微妙的信息。此外,质量级别被用来提供一个广义的分类,补偿细粒度图像质量预测中固有的不确定性,在这种情况下,训练两个特征重构器R(·)来重建从粗到精的知识跨度连续体;重构器包括一随机通道掩模模块和一特征重构模块。为了详细说明,由图像编码器生成的图像x及其相关特征Fs。第一步涉及将随机掩码应用于该特征的通道维度以获得Fm:
;
其中,表示第c个通道的掩码值;/>表示第c个通道的掩码概率;/>表示预设的掩码阈值;/>表示对齐特征维度的全连接层;
随后利用两个由1×1卷积Wl1、批归一化(BN)层和另一个1×1卷积层Wl2构成的特征重构器R(·)进行特征重建:
;
其中,表示1×1卷积;/>表示另一个1×1卷积层;/>表示线性整流函数;
特征重构器的主要目标是重建视觉特征表示,分别记为和/>,对应于辅助任务。这些辅助任务与原始图像特征Fs相关联,涉及捕捉不同粒度的质量信息。其中,随机掩码有助于训练更鲁棒的特征重构器。为了效率和简洁性没有引入额外的分类器来将特征映射到输出/>和/>,而是直接计算视觉和文本特征表示之间的余弦相似度。然后使用BIQA教师模块生成的失真类型pd和质量水平pq来监督使用KL散度的特征重构器(以失真类型pd为例):
;
;
其中,表示学生输出的失真类型的概率分布;/>表示学生输出的质量级别的概率分布;x表示图像;/>表示学生和教师输出的失真类型的概率分布间的KL散度;表示学生和教师输出的质量级别的概率分布间的KL散度;/>表示学习教师的失真类型和质量级别概率分布的总损失;
感知先验知识发现的概念本质上体现了分类领域的层次性任务。PPD的主要目标是获得与图像质量意识相关的一般化和复杂的细节特征的理解。粗粒度特征擅长封装广泛的质量变化,从而有助于对整体图像质量的理解。相反,细粒度特征被细致地调整到特定的失真特征,从而丰富了对图像不同区域质量的感知理解。
扩散对齐单元:用于由粗到细的特征融合,由于预训练模型主要强调全局语义特征,在捕捉不同粒度的质量感知信息方面存在差距。为解决这个问题提出融合感知先验信息来增强特征表示。具体而言,引入粗到细的特征融合模块,旨在将粗粒度和细粒度的质量感知特征进行融合,赋予粗粒度的质量级特征和细粒度的失真级感知。特征融合模块(CFM)在规范化特征上按顺序操作,合并额外的卷积和SiLU层,以促进不同粒度特征的融合。在实现中,给定感知先验特征和/>,对归一化特征范数Fs应用二维缩放调制,然后采用两个卷积变换得到特征表示/>,其中两个卷积变换的参数为/>和/>特征的求和特征/>:
;
通过特征融合模块,融合的特征包含了不同粒度的语义和质量感知特征的主要表示。重要的是,这些融合的特征仍然被视为教师特征的噪声版本,需要进一步对预训练特征进行去噪。
本发明迭代优化融合的特征表示,以获得准确和质量感知的表示,该过程可以概念化为逆特征去噪过程的近似。然而,代表真实情况的特征往往是未知的。因此引入预训练教师生成的特征Fg作为伪真值来指导传播过程。具体来说,对于正向扩散过程,Ft是初始数据Fg和噪声变量εt的线性组合:
;
其中,;/>表示标准高斯分布的随机采样;
然而,表示教师和学生特征之间差异的噪声程度仍然难以捉摸,并可能在不同的训练实例中表现出差异。因此,识别最佳初始时间步长来启动扩散过程是一项具有挑战性的任务。为克服这个问题引入一个自适应的噪声适配模块,以将学生特征的噪声水平与预定义的、一致的噪声水平对齐。
噪声适配模块:如图2所示开发一个简单的卷积模块,旨在学习一个权重γ,将学生的从粗到细的融合特征与高斯噪声相结合,从而使得学生特征的噪声水平与Ft相一致。权重γ确保学生的输出与初始时间步t对应的噪声水平相协调。因此,参与去噪过程的初始噪声特征以如下的方式改变:
;
其中,表示点乘;/>表示标准高斯分布采样的噪声;
考虑到transformer的巨大维度,在训练过程中对特征进行去噪过程需要大量迭代,可能导致巨大的计算量,因此提出一个有效的扩散模型,由来自ResNet的两个瓶颈块和1×1卷积组成,作为U-net架构的替代方案;这种调整的目的是减少与扩散模型相关的计算开销。
2)通过KONIQ数据集对图像质量评价模型进行训练;模型的输入是低质量标记数据集KONIQ的图像IL,图像IL对应的三个标签信息:失真类型伪标签Yd,质量水平伪标签Yq,质量分数标签YL,其中伪标签Yd和Yq由BIQA教师模块生成的,训练过程分为两个部分:
1、对于PPD:使用图像编码器对图像x进行编码以获得特征表示Fs。特征重构器R(·)从Fs中生成重建特征和/>。将图像特征Fs和由预训练的语言编码器得到的文本特征Gt计算相似度,获得失真类型和质量水平的输出/>和/>,这些输出由伪标签Yd和Yq监督:
;
2、对于PDA:将PDA分为前向添加噪声和后向预测去除噪声的反向过程进行学习,前向扩散过程采用预训练特征Ft,并迭代地添加高斯噪声;反向过程将特征表示Fs作为输入,通过噪声适配模块将学生特征的噪声水平匹配到预定义的教师噪声水平,然后通过扩散模型的噪声预测模块(输出模块)进行训练。其中,采用轻量级特征去噪模块提高模型计算效率。这种噪声自适应通过扩散损失Ldif进行自然优化,因为在去噪过程中,当学生特征与噪声水平适当对齐时,实现了最小化与教师特征差异的最佳去噪学生特征。在训练时,当学生特征的噪声水平与预定义的噪声水平相匹配时,神经网络通过最小化L2损失来训练预测/>相对于F0中的噪声,其中εt∈N (0, I):
;
其中,表示均方差损失;
然后利用BIQA教师模块生成的伪标签生成的特征Fg来监督基于MSE损失的去噪过程。这种方法确保了强制去噪过程的一致性,从而增强了结果的可靠性和一致性。
;
其中,表示特征蒸馏的损失;
综上所述,训练阶段的总损失如下:
;
其中、、/>、/>均表示权重系数;/>表示基于从transformer解码器中获得的去噪特征的图像的预测得分;/>表示图像x对应的真实值;/>表示/>回归损失函数。
3)在推理过程中,给定任意图像,图像编码器处理图像x以获得特征表示Fs。然后,PPD生成辅助先验和/>,并通过特征融合获得特征/>。紧接着通过噪声适配模块获得初始噪声/>。利用训练好的模型进行迭代去噪,重构特征/>:
;
最后,使用transformer解码器层进一步细化去噪后的重构特征,以预测最终的质量分数。
表1为SRCC和PLCC的平均值在合成数据库的性能比较:
表2为SRCC和PLCC的平均值在真实数据库的性能比较:
从表1和表2可以看出,本发明在所有数据集上都处于领先。从图3可以看出本发明更加关注图像失真相关的特征,相应地本发明的图像质量预测能力也更接近真实值。
综上所述,本发明的优点在于:
通过BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型;对获取的各图像进行预处理并构建图像数据集,利用图像数据集对图像质量评价模型进行训练,最后利用训练后的图像质量评价模型进行图像质量评价;由于BIQA教师模块用于设定输入图像的标签信息,BIQA学生模块的感知先验知识发现单元用于对图像的像素特征增加随机掩码,通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构,BIQA学生模块的扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐,特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合,噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平,即从初始的失真特征和质量水平特征中去除噪声,从而净化质量水平特征,且通过噪声适配模块来确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性,从而进一步增强质量水平特征的对齐性,最终极大的提升了无参考图像质量评价精度。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (9)
1.一种基于扩散模型的无参考图像质量评价方法,其特征在于:包括如下步骤:
步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型;所述BIQA教师模块以CLIP模型为主干网络;所述BIQA学生模块以Transformer模型为主干网络;
步骤S2、获取大量的图像,对各所述图像进行预处理并构建图像数据集;
步骤S3、利用所述图像数据集对图像质量评价模型进行训练;
步骤S4、利用训练后的所述图像质量评价模型进行图像质量评价。
2.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述步骤S1中,所述BIQA教师模块用于设定输入图像的标签信息,再将设定所述标签信息后的图像输入BIQA学生模块;
所述标签信息至少包括失真类型伪标签、质量水平伪标签以及质量分数标签。
3.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述步骤S1中,所述BIQA学生模块由感知先验知识发现单元以及扩散对齐单元构成。
4.如权利要求3所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述感知先验知识发现单元用于对图像的像素特征增加随机掩码,通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构,将重构后的不同粒度的失真特征和质量水平特征输入扩散对齐单元。
5.如权利要求4所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐后,输入所述特征融合模块。
6.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述步骤S1中,所述特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合,融合过程中通过标签信息来约束质量水平特征的扩散,将融合后的所述失真特征和质量水平特征输入噪声适配模块。
7.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述步骤S1中,所述噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平,再输入所述输出模块。
8.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述步骤S1中,所述输出模块用于依据失真特征和质量水平特征输出图像质量评分。
9.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法,其特征在于:所述步骤S2具体为:
获取大量的图像,对各所述图像进行合成失真的预处理以扩充样本量,对各所述图像进行标签信息的标注,基于合成失真的各所述图像构建4个合成失真数据子集,基于真实失真的各所述图像构建4个真实失真数据子集,基于各所述合成失真数据子集以及真实失真数据子集构建图像数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070380.XA CN117593296B (zh) | 2024-01-18 | 2024-01-18 | 一种基于扩散模型的无参考图像质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070380.XA CN117593296B (zh) | 2024-01-18 | 2024-01-18 | 一种基于扩散模型的无参考图像质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593296A true CN117593296A (zh) | 2024-02-23 |
CN117593296B CN117593296B (zh) | 2024-05-31 |
Family
ID=89913690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410070380.XA Active CN117593296B (zh) | 2024-01-18 | 2024-01-18 | 一种基于扩散模型的无参考图像质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593296B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144214A1 (en) * | 2016-11-23 | 2018-05-24 | General Electric Company | Deep learning medical systems and methods for image reconstruction and quality evaluation |
US20180286032A1 (en) * | 2017-04-04 | 2018-10-04 | Board Of Regents, The University Of Texas System | Assessing quality of images or videos using a two-stage quality assessment |
CN114298195A (zh) * | 2021-12-21 | 2022-04-08 | 上海高德威智能交通系统有限公司 | 图像质量评估方法、装置、电子设备及机器可读存储介质 |
CN116168011A (zh) * | 2023-03-16 | 2023-05-26 | 西安电子科技大学 | 基于多粒度网络的无参考图像质量评价方法 |
CN116681584A (zh) * | 2023-04-06 | 2023-09-01 | 长春理工大学 | 一种多级扩散图像超分辨算法 |
CN116823782A (zh) * | 2023-06-30 | 2023-09-29 | 中国地质大学(武汉) | 一种基于图卷积和多尺度特征的无参考图像质量评价方法 |
CN116912217A (zh) * | 2023-07-21 | 2023-10-20 | 厦门大学 | 一种基于知识蒸馏和对比学习的无参考图像质量评价方法 |
CN116912219A (zh) * | 2023-07-21 | 2023-10-20 | 厦门大学 | 一种基于知识蒸馏的无参考图像质量评价方法 |
CN117274173A (zh) * | 2023-09-04 | 2023-12-22 | 广东工业大学 | 一种语义与结构蒸馏的无参考图像质量评价方法 |
-
2024
- 2024-01-18 CN CN202410070380.XA patent/CN117593296B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144214A1 (en) * | 2016-11-23 | 2018-05-24 | General Electric Company | Deep learning medical systems and methods for image reconstruction and quality evaluation |
US20180286032A1 (en) * | 2017-04-04 | 2018-10-04 | Board Of Regents, The University Of Texas System | Assessing quality of images or videos using a two-stage quality assessment |
CN114298195A (zh) * | 2021-12-21 | 2022-04-08 | 上海高德威智能交通系统有限公司 | 图像质量评估方法、装置、电子设备及机器可读存储介质 |
CN116168011A (zh) * | 2023-03-16 | 2023-05-26 | 西安电子科技大学 | 基于多粒度网络的无参考图像质量评价方法 |
CN116681584A (zh) * | 2023-04-06 | 2023-09-01 | 长春理工大学 | 一种多级扩散图像超分辨算法 |
CN116823782A (zh) * | 2023-06-30 | 2023-09-29 | 中国地质大学(武汉) | 一种基于图卷积和多尺度特征的无参考图像质量评价方法 |
CN116912217A (zh) * | 2023-07-21 | 2023-10-20 | 厦门大学 | 一种基于知识蒸馏和对比学习的无参考图像质量评价方法 |
CN116912219A (zh) * | 2023-07-21 | 2023-10-20 | 厦门大学 | 一种基于知识蒸馏的无参考图像质量评价方法 |
CN117274173A (zh) * | 2023-09-04 | 2023-12-22 | 广东工业大学 | 一种语义与结构蒸馏的无参考图像质量评价方法 |
Non-Patent Citations (2)
Title |
---|
XUDONG LI: ""Less is more: Learning Reference Knowledge Using No-Reference Image Quality Assessment"", ARXIV, 1 November 2023 (2023-11-01) * |
XUDONG LI: ""Adaptive Feature Selection for No-Reference Image Quality Assessment using Contrastive Mitigating Semantic Noise Sensitivity"", ARXIV, 11 November 2023 (2023-11-11) * |
Also Published As
Publication number | Publication date |
---|---|
CN117593296B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444343B (zh) | 基于知识表示的跨境民族文化文本分类方法 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN111524593B (zh) | 基于上下文语言模型和知识嵌入的医疗问答方法及系统 | |
US20240119716A1 (en) | Method for multimodal emotion classification based on modal space assimilation and contrastive learning | |
CN116258652B (zh) | 基于结构注意和文本感知的文本图像修复模型及方法 | |
CN111861945A (zh) | 一种文本引导的图像修复方法和系统 | |
CN113066025B (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN116704198A (zh) | 一种基于多模态信息引导的知识增强视觉问答方法 | |
CN116245861A (zh) | 基于交叉多尺度的无参考图像质量评价方法 | |
CN116310394A (zh) | 显著性目标检测方法及装置 | |
CN117876793A (zh) | 一种高光谱影像树种分类方法及装置 | |
CN118038052A (zh) | 一种基于多模态扩散模型的抗差异医学图像分割方法 | |
Campana et al. | Variable-hyperparameter visual transformer for efficient image inpainting | |
CN113888417A (zh) | 基于语义解析生成指导的人脸图像修复方法 | |
CN117593296B (zh) | 一种基于扩散模型的无参考图像质量评价方法 | |
CN117115505A (zh) | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 | |
CN116468638A (zh) | 一种基于生成和鉴别平衡对抗的人脸图像修复方法及系统 | |
CN115861108A (zh) | 一种基于小波自注意力生成对抗网络的图像修复方法 | |
CN114519678A (zh) | 一种扫描透射图像恢复方法、装置及存储介质 | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 | |
CN114565526B (zh) | 基于梯度方向和边缘引导的深度学习图像修复方法 | |
CN114937199B (zh) | 一种基于判别性特征增强的垃圾分类方法与系统 | |
CN118411710A (zh) | 一种基于交通标志分类系统的模型反演方法 | |
CN116597448A (zh) | 基于深度学习的光学字符分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |