CN113284100A

CN113284100A - 基于恢复图像对混合域注意力机制的图像质量评价方法

Info

Publication number: CN113284100A
Application number: CN202110519710.5A
Authority: CN
Inventors: 郑元林; 李佳; 廖开阳; 楼豪杰; 范冰; 陈文倩; 王凯迪; 钟崇军; 解博
Original assignee: Xian University of Technology
Current assignee: Qingdao Class Cognition Artificial Intelligence Co ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-20
Anticipated expiration: 2041-05-12
Also published as: CN113284100B

Abstract

本发明公开了基于恢复图像对混合域注意力机制的图像质量评价方法，在失真图像的基础上，利用微调的生成对抗网络模型生成相应的恢复图像作为失真图像的补偿信息，弥补NR‑IQA方法缺少真实参考信息的劣势；失真图像与恢复图像组成恢复图像对，利用改进的Resnet50网络提取恢复图像对的深层语义特征，并将其输入到注意力模块提取恢复图像对的混合域注意力特征；最后融合恢复图像对的深层特征与注意力特征，将融合特征映射到由全连接层组成的回归网络中，从而产生与人类视觉一致的质量预测。本发明对数据集中的单一失真类型也具有稳定的性能，与人类主观感知表现一致。

Description

基于恢复图像对混合域注意力机制的图像质量评价方法

技术领域

本发明属于图像分析及图像处理技术领域，具体涉及一种基于恢复图像对混合域注意力机制的图像质量评价方法。

背景技术

如今，庞大的视觉数据正通过移动设备、社交媒体、HDTV等进入到日常生活中。因此，设计能自动评价图像视觉内容感知质量的模型越来越重要。图像质量评价(IQA)中有三种主要模式：全参考质量评价(FR-IQA)、半参考质量评价(RR-IQA)和无参考质量评价(NR-IQA)。FR-IQA需要参考图像以进行评价，RR-IQA应用参考图像的部分信息，而NR-IQA仅评估失真图像，不借助任何参考信息来评价图像质量。

尽管FR-IQA和RR-IQA方法普遍具有更好的效果，但是在实际情况中通常无法获得参考图像来作为失真图像的对比信息，因此不需要原始参考图像信息的NR-IQA更具有研究意义。然而，NR-IQA只能以失真图像作为输入进行评估，使NR-IQA做出良好的图像质量预测更具有挑战性。

缺少参考信息在一定程度上抑制了NR-IQA方法的发展，增加了NR-IQA的难度。因此，本发明在失真图像的基础上，利用改进的生成对抗网络恢复图像质量，生成对应的恢复图像。失真图像与恢复图像组成图像恢复对一同输入到图像特征提取网络中，分别提取图像特征。在失真图像基础上得到的恢复图像无限接近原始参考图像，以作为失真图像的补偿信息，弥补NR-IQA缺少参考信息的不足。

除此之外，许多失真在感知上是不均匀的(例如，环状伪影和逐块马赛克)。一些区域对图像的整体感知评分有很大贡献，而一些区域的贡献则较小，很难识别显著区域并量化局部失真的影响以预测图像质量。注意力机制不仅可以用来选择聚焦位置，还可以增强该位置上对象的不同表示。因此，针对通用失真提出了基于恢复图像对混合域注意力机制的无参考评价方法。该方法不仅可以在一定程度上弥补NR-IQA缺少参考图像的不足，还能根据失真感知不均匀性进行局部区域的不同感知，从而使模型达到与人类视觉一致的质量预测。

发明内容

本发明的目的在于提供基于恢复图像对混合域注意力机制的图像质量评价方法，本方法能够在失真图像的基础上生成恢复图像，使用恢复图像作为补偿信息，弥补无参考方法缺失参考信息的不足。

本发明所采用的技术方案是：基于恢复图像对混合域注意力机制的图像质量评价方法，具体操作步骤如下：

步骤1，首先利用生成对抗网络在失真图像的基础上生成恢复图像，作为失真图像的补偿信息，失真图像为原始图像经失真操作后获得；

步骤2，将经步骤1得到的恢复图像与对应失真图像组成的恢复图像对输入到以Resnet50为主干的特征提取网络中，分别提取恢复图像对的深层语义特征；

步骤3，将经步骤2得到恢复图像对的语义特征输入到混合域注意力特征提取网络中，提取二者的混合域注意力特征；

步骤4，将经步骤2与步骤3分别得到的恢复图像对的深层语义特征与混合域注意力特征使用拼接方式进行融合，得到二者的融合特征；

步骤5，将经步骤4得到的融合特征输入到回归网络中，回归网络主要由全连接层组成，最终得到图像的预测得分。

本发明的特点还在于：

步骤1具体为：将失真图像输入到生成对抗网络中的生成网络中去，鉴别网络以对抗的方式帮助生成网络产生更符合预期目标的结果，最终产生逼真可靠无限接近原失真图像的恢复图像；其中具体实现步骤为：

步骤1.1，定义生成网络：生成网络通过约束损失函数，学习训练集中真实数据的概率分布，使生成数据概率分布与真实数据概率分布不断接近，目标损失函数函数如下：

式中，D代表鉴别网络，G代表生成网络，x代表来自真实数据集的数据，P_data代表真实数据概率分布，z代表随机噪声，P_z代表随机噪声概率分布；

步骤1.2，鉴别网络以对抗的方式帮助生成网络训练：

鉴别网络用以判断数据来源的真实性，实现原始图像与生成图像的区分，通过最大最小化损失函数对生成对抗网络进行特征学习，失真图像经过训练后的网络生成无限接近原始图像的恢复图像；

步骤1.3，模型的迭代优化：

在鉴别网络最大化目标损失函数的同时，生成网络需要最小化目标函数，理论上以网络达到纳什均衡模型结束训练，即训练结束时模型最终输出与原始图像无限接近的恢复图像。

步骤2具体为：

特征提取网络主要由多层注意力模块堆叠而成，每个注意力模块包含两个分支，主干分支与掩码分支；其中主干分支是Resnet50卷积神经网络模型，掩码分支通过对特征图的处理输出维度一致的注意力特征图，然后使用点乘操作将掩码分支的两个注意力特征图融合；

步骤2.1，失真图像以Resnet50网络为原型提取失真图像的语义深层特征：

Resnet50网络主要由卷积层和池化层构成，在卷积与池化的过程中进行图像特征的提取；给定一系列失真图像I_d，用Resnet50网络提取失真图像特征，得到深层语义特征矩阵：

式中，

表示Resnet50网络模型，θ表示失真图像I_d在特征提取模块中的权重参数，A₁表示失真图像I_d提取的深层特征；

步骤2.2，提取恢复图像的深层语义信息：

恢复图像I'_r的语义深层特征矩阵为：

式中：A₂表示恢复图像I'_r提取的深层特征。

步骤3具体为：

将经步骤2得到的恢复图像对的特征图分别输入到掩码分支两个注意力模块中，提取恢复图像对的混合域注意力特征图；

步骤3.1：将经步骤2得到的恢复图像对的特征图输入到空间注意力模块中，首先应用卷积层获取降维特征，然后生成空间注意力模型；

由于失真图像与恢复图像的深层语义特征分别为A₁、A₂，则定义恢复图像对的深层特征为A；将恢复图像对的深层语义特征A输入到一个卷积层，分别生成两个新的映射B与C，其中{B,C}∈R^C×H×W，再将其重塑为R^C×N，其中N＝H×W是像素的数量，在B与C的转置之间进行矩阵乘法，并应用一个softmax层来计算空间注意力特征S：

式中：S_ji表示第i个位置对第j个位置的空间注意力影响，B_i为映射B的第i个元素、C_j为映射C的对第j个元素，两个位置的特征表示越相似，表明二者的相关性越大；

同时，将恢复图像对的深层语义特征A输入到另一个卷积层，生成新的特征映射M∈R^C×H×W，并将其重塑为R^C×N，接下来在M与S转置之间进行矩阵乘法操作，将其重塑为R^C×H×W，对A进行像素级求和运算，最终得到空间注意力输出特征F_i：

式中：α为权重，初始化为0；M_i为映射M的第i个元素，A_j为特征集A中的第j个元素；

步骤3.2：将经步骤2得到的恢复图像对的特征图输入到通道注意力模块中；计算通道注意力X∈R^C×C：

式中：X_ji表示第i个通道对第j个通道的通道注意力影响，A_i为特征集A中第i个元素；

此外，在X与A转置之间执行矩阵乘法，将结果重塑为R^C×H×W；然后乘以β，并执行像素级求和运算，最终得到通道注意力输出特征

式中：α为权重，初始化为0；

步骤3.3：将空间注意力输出特征F_i和通道注意力输出特征F_j通过卷积层进行转换，然后进行元素求和来实现特征融合，最终得到混合域注意力特征F。

步骤4具体为：

将经步骤2得到的恢复图像对的深层语义特征与经步骤3得到的恢复图像对的混合域注意力特征融合，再以拼接方式融合恢复图像对的特征，得到最终输入到回归网络的融合特征f_c；

f_c＝concat(f₂,f₁,f₂-f₁) (8)

其中，f₁为失真图像融合特征、f₂为恢复图像融合特征。

步骤5具体为：

使用回归网络进行质量预测，回归网络由两个全连接层组成，它接收融合特征f_c作为输入以获得失真图像的最终预测得分；由于图像的各个失真块引起注意力程度不同平均池化不能充分考虑不同图像块失真的感知质量，因此将失真图像分为多个图像块，根据质量感知规则赋予不同的权值；则失真图像的最终预测得分为：

式中，q表示模型预测得分，N_p表示图像块的数量，ω_i表示每个图像块被赋予的权重，y_i为单个图像块的预测质量分数，质量感知规则采用显著性加权策略，使预测得分更接近人类主观感知。

本发明的有益效果是：

本发明提出了一种基于恢复图像对混合域注意力机制的图像质量评价方法，该方法在训练阶段生成无限接近原始图像的恢复图像作为失真图像的补偿信息，在一定程度上弥补了NR-IQA方法缺失参考图像的不足。本发明所提算法在特征提取阶段利用微调的卷积神经网络模型分别提取失真图与恢复图像的深层语义特征，将其输入到注意力模块提取恢复图像对的注意力特征，融合恢复图像对的深层特征与注意力特征，将融合特征映射到回归网络获取预测得分。使用卷积神经网络提取图像特征，能提取到传统方法所不能提取到的深层语义特征，深层语义特征更注重图像内容。本发明注意力机制模块以预训练的残差网络为主干，在Resnet50残差网络生成的局部特征的基础上输出全局信息，从而获得更好的像素级预测特征表示。

附图说明

图1是本发明基于恢复图像对混合域注意力机制的图像质量评价方法的具体流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于恢复图像对混合域注意力机制的图像质量评价方法具体流程如图1所示，具体操作步骤如下：

步骤1，首先利用生成对抗网络在失真图像的基础上生成恢复图像，作为失真图像的补偿信息；

步骤3，如图1所示，将经步骤2得到恢复图像对的深层特征输入到混合域注意力特征提取网络中，提取二者的混合域注意力特征；

步骤4，如图1所示，将经步骤2与步骤3分别得到的恢复图像对的深层特征与混合域注意力机制特征使用拼接方式进行融合，得到二者的融合特征；

步骤5，如图1所示，将经步骤4得到的融合特征输入到回归网络中，回归网络主要由全连接层组成，最终得到图像的预测得分。

其中步骤1具体为：将失真图像输入到生成对抗网络中的生成网络中去，鉴别网络以对抗的方式帮助生成网络产生更符合预期目标的结果，最终产生逼真可靠无限接近参考图像的伪参考图像；其中具体实现步骤为：

步骤1.1，定义生成网络。生成网络通过约束损失函数，学习训练集中真实数据的概率分布，使生成数据概率分布与真实数据概率分布不断接近。目标函数如下：

式中，D代表鉴别网络，G代表生成网络，x代表来自真实数据集的数据，P_data代表真实数据概率分布，z代表随机噪声，P_z代表随机噪声概率分布。

步骤1.2，鉴别网络以对抗的方式帮助生成网络训练：

步骤1.3，模型的迭代优化：

其中步骤2具体为：

特征提取网络主要由多层注意力模块堆叠而成，每个注意力模块包含两个分支：主干分支与掩码分支。其中主干分支是Resnet50卷积神经网络模型，掩码分支通过对特征图的处理输出维度一致的注意力特征图，然后使用点乘操作将掩码分支的两个注意力特征图融合。

步骤2.1，失真图以Resnet50网络为原型提取图像语义深层特征。Resnet50网络主要由卷积层和池化层构成，在卷积与池化的过程中进行图像特征的提取。为更好地提取图像语义特征，去掉原Resnet50网络末尾下采样的操作，并使用了空洞卷积，以保留更多细节。给定一系列失真图像I_d，用Resnet50模型提取失真图像特征，得到深层语义特征矩阵：

式中，

表示卷积神经网络模型，θ表示失真图像I_d在特征提取模块中的权重参数，A₁表示失真图像I_d提取的深层特征。

步骤2.2，提取恢复图像的深层语义信息。恢复图像与失真图像使用相同的网络结构提取深层语义特征，网络结构也主要由卷积层与池化层构成。失真图与恢复图的特征提取框架类似于孪生网络，二者共享权重参数。则伪参考图像I'_r的语义深层特征矩阵为：

式中：S表示显著性提取模型，A₂表示恢复图像I'_r提取的深层特征。

其中步骤3具体为：

将经步骤2得到的恢复图像对的特征图分别输入到掩码分支两个注意力模块中，提取恢复图像对的混合域注意力特征图。

步骤3.1：将经步骤2得到的恢复图像对的特征图输入到空间注意力模块中。首先应用卷积层获取降维特征，然后生成空间注意力模型，该模型可以对特征任意两个像素之间的空间关系进行建模。空间注意力模块可以将更广泛的上下文信息编码为局部特征，从而提高特征表达能力。

由于失真图像与恢复图像的深层语义特征分别为A₁、A₂，则恢复图像对的深层特征为A(A能够代表失真图像深层语义特征A₁和恢复图像深层语义特征A₂中的任意一个)；将恢复图像对的深层语义特征A输入到一个卷积层，分别生成两个新的映射B与C，其中{B,C}∈R^C×H×W，再将其重塑为R^C×N，其中N＝H×W是像素的数量，在B与C的转置之间进行矩阵乘法，并应用一个softmax层来计算空间注意力特征S：

式中：S_ji表示第i个位置对第j个位置的空间注意力影响，B_i为映射B的第i个元素、C_j为映射C的第j个元素，两个位置的特征表示越相似，表明二者的相关性越大；

式中：α为权重，初始化为0；M_i为映射M的第i个元素，A_j为特征集A中的第j个元素。

由此可知，在每个位置上得到的特征F是所有位置上的特征与原始特征的加权和。因此，它包含全局语义信息，并根据空间注意力特征有选择地聚合语义。

步骤3.2：将经步骤2得到的恢复图像对的特征图输入到通道注意力模块中。高级语义特征的每个通道映射都可以视为特定的响应，不同的语义响应彼此关联。通过加强通道映射之间的相互关系，可以改进语义的特征表示。与空间注意力模块不同，通道注意力模块直接从原始特征A_ji∈R^C×H×W计算通道注意力X∈R^C×C：

此外，在X与A转置之间执行矩阵乘法，将结果重塑为R^C×H×W。然后乘以一个比例参数β，并执行像素级求和运算：

式中:式中：α为权重，初始化为0；在计算两个通道的关系之前，并没有使用卷积层来嵌入特征，因为可以保持不同通道映射之间的关系。

步骤3.3：为了充分利用全局语义信息，对这两个注意力模块的特征进行聚合。将两个注意模块的输出通过卷积层进行转换，然后进行元素求和来实现特征融合，最终得到混合域注意力特征F。

步骤4：将经步骤2得到的恢复图像对的深层语义特征与经步骤3得到的恢复图像对的混合域注意力特征融合，再以拼接方式融合恢复图像对的特征，得到最终输入到回归网络的融合特征；，在融合过程中，由于失真图像与恢复图像具有相同的结构信息，这表示f₁-f₂的差异信息为特征空间中的有意义距离。则融合特征矩阵为：

f_c＝concat(f₂,f₁,f₂-f₁) (8)

其中，f₁为失真图像融合特征、f₂为恢复图像融合特征。

其中步骤5具体为：

使用一个小型且简单的回归网络进行质量预测。回归网络由两个全连接层组成，它接收融合特征f_c作为输入以获得最终质量得分。由于图像的各个失真块引起注意力程度不同平均池化不能充分考虑不同图像块失真的感知质量，因此将失真图像分为多个图像块，根据质量感知规则赋予不同的权值。则失真图像的最终预测得分为：

式中,q表示模型预测得分，N_p表示图像块的数量，ω_i表示每个图像块被赋予的权重，y_i为单个图像块的预测质量分数，质量感知规则采用显著性加权策略，使预测得分更接近人类主观感知。

利用失真图像的最终预测得分q，采用斯皮尔曼相关系数SROCC、肯德尔相关系数KROCC、皮尔森线性相关系数PLCC与均方根误差RMSE四个指标来评价预测模型的单调性、准确性、相关一致性与偏差程度。其中，SROCC与PLCC的范围均为[0,1]，值越高表示性能越好；KROCC的取值范围在[-1,1]之间，值越高模型性能越好；RMSE的值越小表明模型预测分数与人类主观评价越接近，模型预测性能越好。