CN117593296A

CN117593296A - 一种基于扩散模型的无参考图像质量评价方法

Info

Publication number: CN117593296A
Application number: CN202410070380.XA
Authority: CN
Inventors: 纪荣嵘; 李旭东; 张岩
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117593296B

Abstract

本发明提供了计算机视觉技术领域的一种基于扩散模型的无参考图像质量评价方法，包括如下步骤：步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型；所述BIQA教师模块以CLIP模型为主干网络；所述BIQA学生模块以Transformer模型为主干网络；步骤S2、获取大量的图像，对各所述图像进行预处理并构建图像数据集；步骤S3、利用所述图像数据集对图像质量评价模型进行训练；步骤S4、利用训练后的所述图像质量评价模型进行图像质量评价。本发明的优点在于：极大的提升了无参考图像质量评价精度。

Description

一种基于扩散模型的无参考图像质量评价方法

技术领域

本发明涉及计算机视觉技术领域，特别指一种基于扩散模型的无参考图像质量评价方法。

背景技术

图像质量评价(IQA)方法匹配人类对图像失真的感知，对计算机视觉至关重要，可靠的IQA模型可以提高视觉质量，作为图像处理的基准。交互式问答包括全参考图像质量评价(FR-IQA) 、减少参考图像质量评价(RR-IQA) 和盲图像质量评价（BIQA）；由于通常无法获得参考图像，BIQA在无参考图像的图像恢复和超分辨率等任务中获得了关注。

近年来，基于深度神经网络的数据驱动BIQA模型取得了显著进展，这些模型建立在卷积、非线性激活和下采样的连续阶段之上，用数百万个参数训练这样的模型需要以平均意见分数(MOSs)形式的大量的质量注释（人工评分数据）。然而，进行大规模的主观实验成本过高，导致在很大程度上缺乏此类数据。人们提出了几种策略来解决人工评分数据的稀缺性，一种常见的方法是利用在其他计算机视觉任务中使用的大规模数据集(例如ImageNet )的领域知识，然而相似的语义图像可能会受到不同程度失真的影响，导致评价出不同的质量分数，即将这些数据集用于BIQA任务时会引入噪声。

经检索，申请日为2021.05.19，申请号为CN202110546001.6的中国发明专利公开了基于自注意图像编码的无参考图像质量评价方法，该专利首先获取训练样本集和测试样本集；然后构建基于自注意图像编码的无参考图像质量评价网络模型；对基于自注意图像编码的无参考图像质量评价网络模型进行迭代训练；最后获取无参考图像质量评价结果。该专利虽然能较好提高对整体注意力信息的提取能力，但不足之处在于，通过优化提取的语义特征，缺乏从图像语义内容中过滤与质量不相关的特征，导致评价精度较低。

因此，如何提供一种基于扩散模型的无参考图像质量评价方法，实现提升无参考图像质量评价精度，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于扩散模型的无参考图像质量评价方法，实现提升无参考图像质量评价精度。

本发明是这样实现的：一种基于扩散模型的无参考图像质量评价方法，包括如下步骤：

步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型；所述BIQA教师模块以CLIP模型为主干网络；所述BIQA学生模块以Transformer模型为主干网络；

步骤S2、获取大量的图像，对各所述图像进行预处理并构建图像数据集；

步骤S3、利用所述图像数据集对图像质量评价模型进行训练；

步骤S4、利用训练后的所述图像质量评价模型进行图像质量评价。

进一步的，所述步骤S1中，所述BIQA教师模块用于设定输入图像的标签信息，再将设定所述标签信息后的图像输入BIQA学生模块；

所述标签信息至少包括失真类型伪标签、质量水平伪标签以及质量分数标签。

进一步的，所述步骤S1中，所述BIQA学生模块由感知先验知识发现单元以及扩散对齐单元构成。

进一步的，所述感知先验知识发现单元用于对图像的像素特征增加随机掩码，通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构，将重构后的不同粒度的失真特征和质量水平特征输入扩散对齐单元。

进一步的，所述扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐后，输入所述特征融合模块。

进一步的，所述步骤S1中，所述特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合，融合过程中通过标签信息来约束质量水平特征的扩散，将融合后的所述失真特征和质量水平特征输入噪声适配模块。

进一步的，所述步骤S1中，所述噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平，再输入所述输出模块。

进一步的，所述步骤S1中，所述输出模块用于依据失真特征和质量水平特征输出图像质量评分。

进一步的，所述步骤S2具体为：

获取大量的图像，对各所述图像进行合成失真的预处理以扩充样本量，对各所述图像进行标签信息的标注，基于合成失真的各所述图像构建4个合成失真数据子集，基于真实失真的各所述图像构建4个真实失真数据子集，基于各所述合成失真数据子集以及真实失真数据子集构建图像数据集。

本发明的优点在于：

通过BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型；对获取的各图像进行预处理并构建图像数据集，利用图像数据集对图像质量评价模型进行训练，最后利用训练后的图像质量评价模型进行图像质量评价；由于BIQA教师模块用于设定输入图像的标签信息，BIQA学生模块的感知先验知识发现单元用于对图像的像素特征增加随机掩码，通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构，BIQA学生模块的扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐，特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合，噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平，即从初始的失真特征和质量水平特征中去除噪声，从而净化质量水平特征，且通过噪声适配模块来确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性，从而进一步增强质量水平特征的对齐性，最终极大的提升了无参考图像质量评价精度。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于扩散模型的无参考图像质量评价方法的流程图。

图2是本发明一种基于扩散模型的无参考图像质量评价方法的流程示意图。

图3是本发明与基准模型的评价结果对比示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：通过BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建的图像质量评价模型进行图像质量评价，由于BIQA教师模块用于设定输入图像的标签信息，BIQA学生模块的感知先验知识发现单元用于对图像的像素特征增加随机掩码，通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构，BIQA学生模块的扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐，特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合，噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平，即从初始的失真特征和质量水平特征中去除噪声，且通过噪声适配模块来确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性，从而进一步增强质量水平特征的对齐性，以提升无参考图像质量评价精度。

请参照图1至图3所示，本发明一种基于扩散模型的无参考图像质量评价方法的较佳实施例，包括如下步骤：

步骤S1、基于BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块创建一图像质量评价模型；所述BIQA教师模块以CLIP模型（对比语言-图像预训练模型）为主干网络；所述BIQA学生模块以Transformer模型为主干网络；

本发明旨在自动发现多个辅助任务的潜在细粒度先验作为图像质量评价模型的优化指导，从初始特征表示（失真特征和质量水平特征）中去除噪声，通过感知先验知识发现单元建立一个多辅助任务分支，用于学习图像中潜在的由粗到细的特征；通过扩散对齐单元将学习到的特征作为隐特征空间的去噪先验，并在此过程中采用伪特征先验（标签信息）来约束质量水平特征的扩散；通过噪声适配模块确保融合的粗到细粒度特征与预定义的噪声水平之间的一致性，从而进一步增强质量水平特征的对齐。

所述步骤S1中，所述BIQA教师模块用于设定输入图像的标签信息，再将设定所述标签信息后的图像输入BIQA学生模块；

所述步骤S1中，所述BIQA学生模块由感知先验知识发现单元（Perceptual PriorKnowledge discovery module, PPD）以及扩散对齐单元（Perceptual Prior-basedDiffusion alignment module, PDA）构成。

所述感知先验知识发现单元用于对图像的像素特征增加随机掩码，通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构，将重构后的不同粒度的失真特征和质量水平特征输入扩散对齐单元。

所述感知先验知识发现单元采用一个特征重构器来发现不同粒度的特征；具体来说引入了两个辅助任务：失真类型分类和质量水平分类；首先在图像特征的通道维度上应用随机掩码，然后仅使用未被掩盖的像素特征通过特征重构器进行失真特征和质量水平特征的重构，其中随机掩码的应用有助于提高模型对于不同粒度特征提取的鲁棒性，有效捕捉广泛质量变化的粗粒度特征以及与特定失真属性相匹配的细粒度特征。

所述扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐后，输入所述特征融合模块。

所述步骤S1中，所述特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合，融合过程中通过标签信息来约束质量水平特征的扩散，将融合后的所述失真特征和质量水平特征输入噪声适配模块。

所述特征融合模块旨在对粗粒度和细粒度的质量水平特征进行融合，使其具有粗粒度的质量级特征和细粒度的失真级感知；利用融合的特征作为隐特征空间的去噪先验。

所述步骤S1中，所述噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平，进一步增强质量水平特征的对齐性，再输入所述输出模块。

所述步骤S1中，所述输出模块用于依据失真特征和质量水平特征输出图像质量评分。

所述步骤S2具体为：

为了便于进一步理解本发明，以下对本发明进行举例说明：

以数据集KONIQ（Hosu V, Lin H, Sziranyi T, et al. , “KonIQ-10k: Anecologically valid database for deep learning of blind image qualityassessment,” IEEE Transactions on Image Processing, 2020.）为例，对本发明进行详细说明。

具体而言，对于BIQA教师模块，生成与图像x相关的失真类型伪标签和质量水平伪标签分别Y_d和Y_q；对于BIQA学生模块，引入PDD和PDA，PPD旨在学习用于质量意识的辅助先验信息，指导PDA中学生特征的去噪过程。在训练过程中：

1、对于PPD：使用图像编码器对图像x进行编码以获得特征表示F_s；特征重构器R(·)从F_s中生成重建特征和/>。将图像特征F_s和由预训练的语言编码器得到的文本特征G_t计算相似度，获得失真类型和质量水平的输出/>和/>，这些输出由伪标签Y_d和Y_q监督。

2、对于PDA：将PDA分为前向添加噪声和后向预测去除噪声的反向过程进行学习；前向扩散过程采用预训练特征F_t，并迭代地添加高斯噪声；反向过程将特征表示F_s作为输入，通过噪声适配模块将学生特征的噪声水平匹配到预定义的教师噪声水平，然后通过扩散模型的噪声预测模块进行训练，并采用轻量级特征去噪模块提高模型计算效率。

具体包括如下步骤：

1）创建包括BIQA教师模块、BIQA学生模块、特征融合模块、噪声适配模块以及输出模块的图像质量评价模型，BIQA学生模块包括感知先验知识发现单元以及扩散对齐单元；

感知先验知识发现单元：考虑到现实世界中图像失真的复杂性，图像质量评价需要包含高层特征和细粒度特征；为了解决这种复杂性引入失真类型分类的辅助任务，旨在细化不同失真类型之间的区分，从而提供微妙的信息。此外，质量级别被用来提供一个广义的分类，补偿细粒度图像质量预测中固有的不确定性，在这种情况下，训练两个特征重构器R(·)来重建从粗到精的知识跨度连续体；重构器包括一随机通道掩模模块和一特征重构模块。为了详细说明，由图像编码器生成的图像x及其相关特征F_s。第一步涉及将随机掩码应用于该特征的通道维度以获得F_m：

；

其中，表示第c个通道的掩码值；/>表示第c个通道的掩码概率；/>表示预设的掩码阈值；/>表示对齐特征维度的全连接层；

随后利用两个由1×1卷积Wl1、批归一化(BN)层和另一个1×1卷积层Wl2构成的特征重构器R(·)进行特征重建：

；

其中，表示1×1卷积；/>表示另一个1×1卷积层；/>表示线性整流函数；

特征重构器的主要目标是重建视觉特征表示，分别记为和/>，对应于辅助任务。这些辅助任务与原始图像特征F_s相关联，涉及捕捉不同粒度的质量信息。其中，随机掩码有助于训练更鲁棒的特征重构器。为了效率和简洁性没有引入额外的分类器来将特征映射到输出/>和/>，而是直接计算视觉和文本特征表示之间的余弦相似度。然后使用BIQA教师模块生成的失真类型p_d和质量水平p_q来监督使用KL散度的特征重构器（以失真类型p_d为例）：

；

其中，表示学生输出的失真类型的概率分布；/>表示学生输出的质量级别的概率分布；x表示图像；/>表示学生和教师输出的失真类型的概率分布间的KL散度；表示学生和教师输出的质量级别的概率分布间的KL散度；/>表示学习教师的失真类型和质量级别概率分布的总损失；

感知先验知识发现的概念本质上体现了分类领域的层次性任务。PPD的主要目标是获得与图像质量意识相关的一般化和复杂的细节特征的理解。粗粒度特征擅长封装广泛的质量变化，从而有助于对整体图像质量的理解。相反，细粒度特征被细致地调整到特定的失真特征，从而丰富了对图像不同区域质量的感知理解。

扩散对齐单元：用于由粗到细的特征融合，由于预训练模型主要强调全局语义特征，在捕捉不同粒度的质量感知信息方面存在差距。为解决这个问题提出融合感知先验信息来增强特征表示。具体而言，引入粗到细的特征融合模块，旨在将粗粒度和细粒度的质量感知特征进行融合，赋予粗粒度的质量级特征和细粒度的失真级感知。特征融合模块(CFM)在规范化特征上按顺序操作，合并额外的卷积和SiLU层，以促进不同粒度特征的融合。在实现中，给定感知先验特征和/>，对归一化特征范数F_s应用二维缩放调制，然后采用两个卷积变换得到特征表示/>，其中两个卷积变换的参数为/>和/>特征的求和特征/>：

；

通过特征融合模块，融合的特征包含了不同粒度的语义和质量感知特征的主要表示。重要的是，这些融合的特征仍然被视为教师特征的噪声版本，需要进一步对预训练特征进行去噪。

本发明迭代优化融合的特征表示，以获得准确和质量感知的表示，该过程可以概念化为逆特征去噪过程的近似。然而，代表真实情况的特征往往是未知的。因此引入预训练教师生成的特征F_g作为伪真值来指导传播过程。具体来说，对于正向扩散过程，F_t是初始数据F_g和噪声变量ε_t的线性组合：

；

其中，；/>表示标准高斯分布的随机采样；

然而，表示教师和学生特征之间差异的噪声程度仍然难以捉摸，并可能在不同的训练实例中表现出差异。因此，识别最佳初始时间步长来启动扩散过程是一项具有挑战性的任务。为克服这个问题引入一个自适应的噪声适配模块，以将学生特征的噪声水平与预定义的、一致的噪声水平对齐。

噪声适配模块：如图2所示开发一个简单的卷积模块，旨在学习一个权重γ，将学生的从粗到细的融合特征与高斯噪声相结合，从而使得学生特征的噪声水平与F_t相一致。权重γ确保学生的输出与初始时间步t对应的噪声水平相协调。因此，参与去噪过程的初始噪声特征以如下的方式改变：

；

其中，表示点乘；/>表示标准高斯分布采样的噪声；

考虑到transformer的巨大维度，在训练过程中对特征进行去噪过程需要大量迭代，可能导致巨大的计算量，因此提出一个有效的扩散模型，由来自ResNet的两个瓶颈块和1×1卷积组成，作为U-net架构的替代方案；这种调整的目的是减少与扩散模型相关的计算开销。

2）通过KONIQ数据集对图像质量评价模型进行训练；模型的输入是低质量标记数据集KONIQ的图像I_L，图像I_L对应的三个标签信息：失真类型伪标签Y_d，质量水平伪标签Y_q，质量分数标签Y_L，其中伪标签Y_d和Y_q由BIQA教师模块生成的，训练过程分为两个部分：

1、对于PPD：使用图像编码器对图像x进行编码以获得特征表示F_s。特征重构器R(·)从F_s中生成重建特征和/>。将图像特征F_s和由预训练的语言编码器得到的文本特征G_t计算相似度，获得失真类型和质量水平的输出/>和/>，这些输出由伪标签Y_d和Y_q监督：

；

2、对于PDA：将PDA分为前向添加噪声和后向预测去除噪声的反向过程进行学习，前向扩散过程采用预训练特征F_t，并迭代地添加高斯噪声；反向过程将特征表示F_s作为输入，通过噪声适配模块将学生特征的噪声水平匹配到预定义的教师噪声水平，然后通过扩散模型的噪声预测模块（输出模块）进行训练。其中，采用轻量级特征去噪模块提高模型计算效率。这种噪声自适应通过扩散损失L_dif进行自然优化，因为在去噪过程中，当学生特征与噪声水平适当对齐时，实现了最小化与教师特征差异的最佳去噪学生特征。在训练时，当学生特征的噪声水平与预定义的噪声水平相匹配时，神经网络通过最小化L2损失来训练预测/>相对于F₀中的噪声，其中ε_t∈N (0, I):

；

其中，表示均方差损失；

然后利用BIQA教师模块生成的伪标签生成的特征F_g来监督基于MSE损失的去噪过程。这种方法确保了强制去噪过程的一致性，从而增强了结果的可靠性和一致性。

；

其中，表示特征蒸馏的损失；

综上所述，训练阶段的总损失如下：

；

其中、、/>、/>均表示权重系数；/>表示基于从transformer解码器中获得的去噪特征的图像的预测得分；/>表示图像x对应的真实值；/>表示/>回归损失函数。

3）在推理过程中，给定任意图像，图像编码器处理图像x以获得特征表示F_s。然后，PPD生成辅助先验和/>，并通过特征融合获得特征/>。紧接着通过噪声适配模块获得初始噪声/>。利用训练好的模型进行迭代去噪，重构特征/>：

；

最后，使用transformer解码器层进一步细化去噪后的重构特征，以预测最终的质量分数。

表1为SRCC和PLCC的平均值在合成数据库的性能比较：

表2为SRCC和PLCC的平均值在真实数据库的性能比较：

从表1和表2可以看出，本发明在所有数据集上都处于领先。从图3可以看出本发明更加关注图像失真相关的特征，相应地本发明的图像质量预测能力也更接近真实值。

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于扩散模型的无参考图像质量评价方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述步骤S1中，所述BIQA教师模块用于设定输入图像的标签信息，再将设定所述标签信息后的图像输入BIQA学生模块；

3.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述步骤S1中，所述BIQA学生模块由感知先验知识发现单元以及扩散对齐单元构成。

4.如权利要求3所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述感知先验知识发现单元用于对图像的像素特征增加随机掩码，通过特征重构器对未被随机掩码掩盖的像素特征进行失真特征和质量水平特征的重构，将重构后的不同粒度的失真特征和质量水平特征输入扩散对齐单元。

5.如权利要求4所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述扩散对齐单元用于依据标签信息对失真特征和质量水平特征进行对齐后，输入所述特征融合模块。

6.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述步骤S1中，所述特征融合模块用于分别对输入的失真特征和质量水平特征按粒度进行融合，融合过程中通过标签信息来约束质量水平特征的扩散，将融合后的所述失真特征和质量水平特征输入噪声适配模块。

7.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述步骤S1中，所述噪声适配模块用于将输入的失真特征和质量水平特征的噪声映射到预定义的噪声水平，再输入所述输出模块。

8.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述步骤S1中，所述输出模块用于依据失真特征和质量水平特征输出图像质量评分。

9.如权利要求1所述的一种基于扩散模型的无参考图像质量评价方法，其特征在于：所述步骤S2具体为：