CN112419242A

CN112419242A - 基于自注意力机制gan网络的无参考图像质量评价方法

Info

Publication number: CN112419242A
Application number: CN202011247062.4A
Authority: CN
Inventors: 薛思雨; 惠康乐; 刘顺; 侯红
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-26
Anticipated expiration: 2040-11-10
Also published as: CN112419242B

Abstract

本发明公开了基于自注意力机制GAN网络的无参考图像质量评价方法，具体涉及图像处理领域，由三个部分组成：生成网络，判别网络和质量评价网络；生成网络对输入的失真图像进行特征提取和恢复重构，判别网络对重构后的图像与无失真图像尽可能地进行区分。本发明通过增加自注意力模块，改进模型结构来增强对抗学习强度，输出更可靠的模拟“参考图”；在LIVE和TID2013数据集上进行实验，由结果可知本文所提出的SARAN算法在无参考失真图像的质量评价上的总体客观评价性优于当前的主流算法，且针对不同失真类型也表现了较好的性能，表明SARAN算法与主观评价结果的相关性较高，更加符合视觉感知系统(HVS)对图像质量的感知一致性。

Description

基于自注意力机制GAN网络的无参考图像质量评价方法

技术领域

本发明涉及图像处理技术领域，更具体地说，本发明涉及基于自注意力机制GAN网络的无参考图像质量评价方法。

背景技术

随着移动设备和社交软件的蓬勃发展，人们对图像分辨率和清晰度的要求也越来越高。对图像采集和处理过程中所引起的失真或退化进行质量评估，有着举足轻重的作用。

IQA算法主要可分为：全参考、部分参考和无参考IQA算法。在近年的研究中，FR-IQA和RR-IQA已经取得了与人眼感知相关性非常高的效果，但它们需要借助参考图像的全部或部分信息，因此在实际应用中受限较多。相比之下，NR-IQA仅将被评估的失真图像作为输入，不依赖被评估图像的任何附加信息，具有广泛的适用场景和应用价值，因此NR-IQA逐渐成为图像评价算法的主流研究。在无参考图像的质量评价算法中，Moorth等人提出了一种基于小波域的自然图像统计特性算法(DIVINE)，该框架确定图像中每一种失真类型的可能性后，回归得到的加权平均值作为图像质量。BRISQUE(Mittal，Moorthy，and Bovik2012)和bliind-ii(Saad，Bovik，and Charrier 2012)利用自然场景统计(NSS)信息来建模图像的感知质量。另一方面，(Bosse et al.2016；Kang等2015；2014)采用深度神经网络从输入图像中提取有效的特征并进行回归估计感知分数。以上iqa方法的主要思想为仅基于失真图像自身的特征进行提取和回归。

随着研究人员对人眼视觉系统的研究发现，人眼在评价图像的失真程度时，往往需要一个未失真的图像作为参考进行比较，从而量化视觉感知的差异(找引用)。为了弥补视觉感知差异图像的缺失，在Hallucinated-IQA和RAN4IQA算法中，使用GAN网络先对失真图像进行恢复，并将恢复图像和失真图像作为输入，输出失真图像的质量分数，现有的技术在图像采集过程中容易忽视关键细节信息，从而造成对图像感知的偏差和准确性降低。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供基于自注意力机制GAN网络的无参考图像质量评价方法，本发明所要解决的技术问题是：如何提高现有图像采集技术中对图像感知能力。

为实现上述目的，本发明提供如下技术方案：基于自注意力机制GAN网络的无参考图像质量评价方法，具体评价步骤如下：

S1、相关工作：

S1.1、生成式对抗网络模型：生成式对抗网络模型算法同时训练生成器和鉴别器两个模型，生成器试图绘制更真实的图像来欺骗鉴别器，输入为失真图像(Gx)，通过卷积和反卷积，生成一张复原图，并将失真图以及失真图与复原图的残差图作为输入输出失真图的质量分数；

S1.2、自我注意力生成对抗性网络：在生成式对抗网络模型中引入了self-Attention机制，使得生成网络协调好每一个位置的局部细节和远端细节，判别网络能更准确地学习到全局图像结构的几何约束，在生成式对抗网络模型中引入self-Attention机制，让生成器和判别器可以自动学习图像中的重要目标，使得网络在每一层都能考虑全局信息，且能够很好地处理图像中长范围、多层次的依赖，在提高感受野和减小参数量之间得到了一个更好的平衡；由于人眼视觉感知系统会把目光聚集在图像的重要patch上，综合考虑图像的局部性和整体性是图像生成的关键，因此我们采用自我注意力生成对抗性网络思想来稳定对抗训练；

S2、提出的模型和学习：

S2.1、建立模型框架：框架由三个部分组成：图像感知生成网络GN、图像生成判别网络DN和质量评价网络EN；图像感知生成网络产生的幻觉参考图像作为失真图像的补偿信息，它们以对抗的方式训练判别网络DN，以帮助生成网络GN产生更合格的结果，并将不良结果的负面影响进行限制；另外，将self-Attention机制引入了生成式对抗网络模型的图像生成当中，提升生成式对抗网络模型生成更高分辨率的图片；首先对不重叠的补丁(patch)进行采样，然后对于每一个

图像感知生成网络GN将其作为输入，尝试将Gx还原为对应的无畸变原始图像，图像生成判别网络DN将恢复后的D(Gx)与原始图像进行区分；

S2.2、增添自注意力模块：图像隐含层的特征x∈R^C*N分别映射到两个特征空间f，g，计算注意力；其中：

f(x)＝W_fx,g(x)＝W_gx

where

sij＝f(x_i)^Tg(x_j)

权重β_j,i表示模型在合成j区域的时候对i区域的关注程度；其中，C是通道的数量，N是上一步隐藏层特征所处的特征位置的数量；注意层的输出为

o＝(0₁,0₂,...,0_j,...,0_N)∈R^C*N

其中：

where

h(x_i)＝W_hx_i

在上式中，权重W_f，W_g，W_h进行卷积核大小为1*1的卷积操作

其中：

将关注层的输出o乘以比例参数γ并添加到特征图，最终的输出为：

y_i＝γo_i+x_i

其中，y是一个可学习的标量，初始时y被设置为0，这样网络可以更多地关注邻近区域，然后将权重分配给非邻近的线索，逐步增加任务的复杂度；

S3、基于自注意机制的恢复对抗网络：

S3.1、生成网络：在生成块中主要采用残差结构提取特征，每个生成块为2个卷积，3*3滤波器和64个特征映射，并添加频谱归一化层和批处理层，来避免GN参数过多导致梯度异常，提升生成的稳定性；

S3.2、对抗网络：感知损失和对抗损失，通过最小化对抗性损失的铰链形式以交替方式进行训练：

其中，z为随机采样噪声，y为输入的失真图像，x为无失真图像；

S4、评价网络：

S4.1、恢复增值：若只用图像感知生成网络GN和图像生成判别网络DN的感知差值AoR会损坏图像，所以将提取的特征和AoR进行集中保证评价网络更好学习；评价网络将恢复patch和失真patch同时作为输入，与鉴别器结构的目标相似；

S4.2、质量评估：由于图像失真不是均匀分布的，不同的局部失真影响不同，因此对每块的质量预测分数求加权和来更好地反映图像的整体感知质量；将失真patch和恢复patch提取的特征向量融合，并送入两个分支分别回归计算感知评分qk和权值wk，然后对它们进行空间汇集，得到最终的图像质量。

在一个优选地实施方式中，所述步骤S2.1中质量评价网络EN以失真图像Gx和生成图像D(Gx)为输入，以两者的感知距离AoR为指导，融合三者产生预测的质量分数加权和作为输出。

在一个优选地实施方式中，所述步骤S3.1中在第五层和第六层之后使用自注意模块，学习特征图中的长程依赖，最后输出为tanh层；生成参考图像对于失真图像的作用是弥补其缺失信息，幻像与真实参考之间的差距AoR越小，质量评价网络的评估精度相对就越高；因此图像感知生成网络GN的目标是在失真图像Gx的基础上生成高分辨率的恢复参考图像D(Gx)。

在一个优选地实施方式中，所述步骤S4.2中权重回归模块与质量回归分支并行运行并共享维度，对于图像块i，该分支的输出是，通过ReLU激活并添加一个小的稳定性项：

在一个优选地实施方式中，所述步骤S4.2中整幅图像的质量q计算如下：

在一个优选地实施方式中，所述步骤S4.2中对于联合端到端训练，则要使基本事实与加权预测之间的平均误差最小化，则损失函数最小化为：

本发明的技术效果和优点：

本发明在由失真图像产生高分辨率的恢复图像时加入自注意模块，获取一张图片中需要更多关注的关键细节信息，明确定义了失真图像与参考图像的差异值AoR，目标是最大化每个输入的AoR，NR-IOA的无参考性可以被巧妙地解决；通过融合输入的失真图像、恢复的参考图像以及两者之间特征差异的映射数据AoR，作为评价网络的回归学习，最终将patch加权和作为该失真图像的质量评分；在LIVE dataset和tid dataset数据集上我们提出的方法可以比传统卷积网络方法更加符合视觉感知系统(HVS)，对图像感知有着较好的一致性和准确性。

附图说明

图1为本发明基于不同网络深度的实验结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了基于自注意力机制GAN网络的无参考图像质量评价方法，具体评价步骤如下：

S1、相关工作：

S2、提出的模型和学习：

图像感知生成网络GN将其作为输入，尝试将Gx还原为对应的无畸变原始图像，图像生成判别网络DN将恢复后的D(Gx)与原始图像进行区分，质量评价网络EN以失真图像Gx和生成图像D(Gx)为输入，以两者的感知距离AoR为指导，融合三者产生预测的质量分数加权和作为输出；

f(x)＝W_fx,g(x)＝W_gx

where

sij＝f(x_i)^Tg(x_j)

o＝(0₁,0₂,...,0_j,...,0_N)∈R^C*N

其中：

where

h(x_i)＝W_hx_i

在上式中，权重W_f，W_g，W_h进行卷积核大小为1*1的卷积操作

其中：

y_i＝γo_i+x_i

S3、基于自注意机制的恢复对抗网络：

S3.1、生成网络：在生成块中主要采用残差结构提取特征，每个生成块为2个卷积，3*3滤波器和64个特征映射，在第五层和第六层之后使用自注意模块，学习特征图中的长程依赖，最后输出为tanh层；生成参考图像对于失真图像的作用是弥补其缺失信息，幻像与真实参考之间的差距AoR越小，质量评价网络的评估精度相对就越高；因此图像感知生成网络GN的目标是在失真图像Gx的基础上生成高分辨率的恢复参考图像D(Gx)，并添加频谱归一化层和批处理层，来避免GN参数过多导致梯度异常，提升生成的稳定性；

S4、评价网络：

S4.1、恢复增值：若只用图像感知生成网络GN和图像生成判别网络DN的感知差值AoR会损坏图像，所以将提取的特征和AoR进行集中保证评价网络更好学习；计算器将恢复patch和失真patch同时作为输入，与鉴别器结构的目标相似；

S4.2、质量评估：由于图像失真不是均匀分布的，不同的局部失真影响不同，因此对每块的质量预测分数求加权和来更好地反映图像的整体感知质量；将失真patch和恢复patch提取的特征向量融合，并送入两个分支分别回归计算感知评分qk和权值wk，然后对它们进行空间汇集，得到最终的图像质量，其中权重回归模块与质量回归分支并行运行并共享维度；对于图像块i，该分支的输出是α，通过ReLU激活并添加一个小的稳定性项e：

则整幅图像的质量q计算如下：

对于联合端到端训练，则要使基本事实与加权预测之间的平均误差最小化，则损失函数最小化为：

实施方式具体为：在两个被广泛使用的基准数据集LIVE和TID2013上进行实验；

LIVE：LIVE数据库是最为广泛应用的共享数据库，包括29幅参考图像和779张失真样本，其中包含JPEG2000、JPEG、白噪声、高斯模糊和快速褪色5种失真类型；每幅图像的主观分数DMOS范围为(0-100)；DMOS值越低表示该图像有着更高的质量分数；

TID2013：TID2013 is an extended version of TID2008(Ponomarenko etal.2009)；其中包含3000幅失真图像、24种失真类型；每幅图像的平均意见分数MOS范围为(0-9)，更高的MOS意味着更高的质量评分；

评估指标：我们采用两个指标来衡量SA-RAN的性能：Spearman秩序相关系数(SROCC)和Pearson线性相关系数(PLCC)；SROCC衡量算法的单调性，即SROCC值越大表示两个序列之间的单调性越强，反之越弱；PLCC用来衡量算法预测值与主观评分之间的线性相关性，该值越大表示线性相关性越强，反之越弱；

基于不同网络深度的模型性能对比

自我注意力生成对抗性网络网络使用了六个生成块的残差网络来生成恢复D(Gx)，为了验证生成块数量继续增加对模型准确率是否有提高的作用，我们在LIVE数据库上进行了测试，试验结果如图1所示；从图可知，随着网络的加深，模型性能越来越好，IQA的评价能力也越来越准确，但生成块数量到6个之后，网络的进一步加深，模型的性能出现下降趋势，且随着网络加深，带来了更加复杂的网络优化问题，因此本文使用6个生成块的残差结构来构建生成网络；

交叉试验：在该部分，将提出的自我注意力生成对抗性网络算法和具有代表性的公开IQA方法在LIVE数据集上做性能比较；随机选取60％作为训练集，20％作为验证集，剩余的20％作为测试集；从下表1、表2可以看出，在LIVE数据集上，除了快速衰落失真(FF)外，对于其它四种失真类型，自我注意力生成对抗性网络都比其他方法展示了更高value的SORCC和PLCC，表明SARAN的表现优于大多数评估的最先进的方法，表明使用自注意模块明显提高了性能；

表1：LIVE数据库中基于不同失真类型的SROCC

表2：LIVE数据库中基于不同失真类型的PLCC

SROCC	JP2K	JPEG	WN	BLUR	FF	ALL
							DIVINE	0.913	0.91	0.984	0.921	0.863	0.916
BLINDS-Ⅱ	0.929	0.942	0.969	0.923	0.899	0.931
							BRISQUE	0.914	0.965	0.979	0.951	0.877	0.940
CNN	0.952	0.977	0.978	0.962	0.908	0.956
							DNN	0.943	0.955	0.976	0.969	0.906	0.942
RAN4	-	-	-	-	-	0.972
							SARAN	0.956	0.979	0.98	0.971	0.897	0.975

另外评估者分别在TID2013和LIVE上进行交叉验证；评估者结果显示在表3中；在TID2013数据集上，SARAN算法也表现出了较好的评估指标，这显示了它的健壮性和跨数据集的泛化性；

表3

模型对输入的失真图像进行恢复，并基于AoR对失真图像和恢复图像进行特征提取，通过融合特征向量来评价图像的感知质量；实验结果在live和Tid数据集上都显示它在IQA方法中的优越性，更加符合人类视觉感知系统。

最后应说明的几点是：首先，在本申请的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；

其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自注意力机制GAN网络的无参考图像质量评价方法，其特征在于：具体评价步骤如下：

S1、相关工作：

S1.2、自我注意力生成对抗性网络：在生成式对抗网络模型中引入了self-Attention机制，使得生成网络协调好每一个位置的局部细节和远端细节，判别网络能更准确地学习到全局图像结构的几何约束，在生成式对抗网络模型中引入self-Attention机制；

S2、提出的模型和学习：

S2.1、建立模型框架：框架由三个部分组成：图像感知生成网络GN、图像生成判别网络DN和质量评价网络EN；图像感知生成网络产生的幻觉参考图像作为失真图像的补偿信息；首先对不重叠的补丁(patch)进行采样，然后对于每一个

f(x)＝W_fx,g(x)＝W_gx

where

s_ij＝f(x_i)^Tg(x_j)

o＝(0₁,0₂,...,0_j,...,0_N)∈R^C*N

其中：

where

h(x_i)＝W_hx_i

在上式中，权重W_f，W_g，W_h进行卷积核大小为1*1的卷积操作

其中：

y_i＝γo_i+x_i

S3、基于自注意机制的恢复对抗网络：

S3.1、生成网络：在生成块中主要采用残差结构提取特征，每个生成块为2个卷积，3*3滤波器和64个特征映射，并添加频谱归一化层和批处理层；

S4、评价网络：

S4.1、恢复增值AoR：失真图像Gx和生成图像D(Gx)两者的感知距离AoR定义为恢复增值AoR；另外，评价网络将恢复patch和失真patch同时作为输入，与鉴别器结构的目标相似；

S4.2、质量评估：对每块的质量预测分数求加权和来更好地反映图像的整体感知质量；将失真patch和恢复patch提取的特征向量融合，并送入两个分支分别回归计算感知评分qk和权值wk，然后对它们进行空间汇集，得到最终的图像质量。

2.根据权利要求1所述的基于自注意力机制GAN网络的无参考图像质量评价方法，其特征在于：所述步骤S2.1中质量评价网络EN以失真图像Gx和生成图像D(Gx)为输入，以两者的感知距离AoR为指导，融合三者产生预测的质量分数加权和作为输出。

3.根据权利要求1所述的基于自注意力机制GAN网络的无参考图像质量评价方法，其特征在于：所述步骤S3.1中在第五层和第六层之后使用自注意模块，学习特征图中的长程依赖，最后输出为tanh层。

4.根据权利要求1所述的基于自注意力机制GAN网络的无参考图像质量评价方法，其特征在于：所述步骤S4.2中权重回归模块与质量回归分支并行运行并共享维度，对于图像块i，该分支的输出是αi，通过ReLU激活并添加一个小的稳定性项e：

5.根据权利要求1所述的基于自注意力机制GAN网络的无参考图像质量评价方法，其特征在于：所述步骤S4.2中整幅图像的质量q计算如下：

6.根据权利要求1所述的基于自注意力机制GAN网络的无参考图像质量评价方法，其特征在于：所述步骤S4.2中对于联合端到端训练，则要使基本事实与加权预测之间的平均误差最小化，则损失函数最小化为：