CN113888501B

CN113888501B - 一种基于注意力定位网络的无参考型图像质量评价方法

Info

Publication number: CN113888501B
Application number: CN202111154262.XA
Authority: CN
Inventors: 郑元林; 刘春霞; 廖开阳; 丁天淇; 陈兵; 黄港; 谢雨林; 张新会; 钟崇军; 解博
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-02-06
Anticipated expiration: 2041-09-29
Also published as: CN113888501A

Abstract

本发明一种基于注意力定位网络的无参考型图像质量评价方法，具体按照以下步骤实施：将训练图像输入VGG网络，全局深度特征；在VGG网络的最后一层添加注意力定位网络，经过注意力定位网络获取所关注区域的位置坐标；对原始图像进行裁剪与放大，获取注意力关注图像；将注意力关注图像输入到VGG网络中，提取局部深度特征；将全局深度特征与局部深度特征进行融合；将融合后的特征与主观MOS值进行回归训练，建立图像质量评价模型；将待测失真图像输入到图像质量评价模型中，根据训练好的参数提取图像特征，获得图像质量分数，从而解决了现有技术构建图像质量算法时，存在的忽略人眼的视觉特性，精确度较低的问题。

Description

一种基于注意力定位网络的无参考型图像质量评价方法

技术领域

本发明属于图像处理及图像质量评价方法技术领域，涉及一种基于注意力定位网络的无参考型图像质量评价方法。

背景技术

随着5G时代的到来以及多媒体、图像处理以及通信技术的飞速发展，人类可以更加方便快捷的传播和获取多媒体数据。由于图像数据具有内容丰富及表达简单等特点，比文字更能直观的表达信息，因此图像作为一种信息载体具有巨大的优势。以图像作为信息载体呈现高幅度增长，并广泛应用于生活的各个方面。图像质量对人类视觉信息的获取影响很大，高质量的图像是用户所渴求的，因为高质量图像承载着较多的信息。然而，在图像的采集、编码、传输等过程中，都不可避免的会造成图像失真退化，导致图像质量的下降。

在日常生活中所获得的图像很难找到其原始图像，近年来，无参考型图像质量评价成为研究的热点。无参考型图像质量评价相较于全参考型图像质量评价缺少参考图像，因此其实现过程比全参考型存在较大困难。目前，大多数现有的方法都是采用深度学习的图像质量评价框架，文献《No-reference Image Quality Assessment Based on EnsembleConvolutional NeuralNetwork》(W.Qian and Q.Sang，IEEE International Conferenceon Advances in Electrical Engineering and ComputerApplications,pp.6-10,2014)为解决数据库较小的问题，对图像进行分块及归一化处理；其次，将图像块输入神经网络提取相关特征构建质量评价模型；最后，通过构建的模型获得失真图像的质量分数。文献《Deep NeuralNetworks forNo-Reference and Full-Reference ImageQualityAssessmen》(S.Bosse,D.Maniry,K.Müller,T.Wiegand and W.Samek,in IEEETransactions on Image Processing,vol.27,no.1,pp.206-219,2018)由于图像失真的不均匀性，以上述理论为前提的背景下，根据图像块的失真程度赋予相应的视觉特征权重。此外，有一些方法受到全参考框架的启发，文献《Hallucinated-IQA:No-Reference ImageQualityAssessment viaAdversarial Learning》(K.Lin and G.Wang,IEEE/CVFConference on Computer Vision and Pattern Recognition,pp.732-741,2018)通过GAN网络生成伪参考图像作为参考图像，然后利用全参考框架对图像进行质量评价。还有一些方法通过对图像对进行排序来对图像质量进行评价。文献《RankIQA:Learning fromRankings for No-Reference Image Quality Assessment》(X.Liu,J.Van De Weijer andA.D.Bagdanov,IEEE International Conference on Computer Vision(ICCV),pp.1040-1049,2017.)给定一幅图像很难给出一个具体的分数评价其好坏，但是如果给定一组失真程度不同的图像对容易根据质量好坏进行排序。文献《MetaIQA:Deep Meta-Learning forNo-Reference Image Quality Assessment》(H.Zhu,L.Li,J.Wu,W.Dong and G.Shi,IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp.14131-14140,2020)采用元学习的方法来改进图像质量评价模型，收集不同失真的无参考图像质量评价模型，然后采用元学习来学习先验知识，在目标模型任务上微调质量先验模型，快速获得适应未知失真的质量模型。

目前，大部分基于深度学习的无参考图像质量评价方法是通过直接提取图像的相关特征，构建失真图像与视觉质量的评价模型。然而图像质量与人眼的视觉特性有着密切关系，但是这些方法忽略了人眼的注意力视觉特性，从而导致评价结果与图像的主观分数有着较大差异。

发明内容

本发明的目的在于提供一种基于注意力定位网络的无参考型图像质量评价方法，解决了现有技术构建图像质量算法时，存在的忽略人眼的视觉特性，精确度较低的问题。

本发明所采用的技术方案是，一种基于注意力定位网络的无参考型图像质量评价方法，具体按照以下步骤实施：

步骤1、将质量评价数据库中的训练图像输入到VGG网络中，提取图像的全局深度特征；

步骤2、在步骤1中的VGG网络的最后一层添加注意力定位网络，经过注意力定位网络获取所关注区域的位置坐标；

步骤3、利用步骤2获取的位置坐标对原始图像进行裁剪与放大，获取注意力关注图像；

步骤4、将步骤3获取的注意力关注图像输入到与步骤1相同的VGG网络中，提取图像的局部深度特征；

步骤5、将步骤1提取图像的全局深度特征与步骤4获得的图像局部深度特征进行融合；

步骤6、将步骤5融合后的特征与主观MOS值进行回归训练，建立图像质量评价模型；

步骤7、将待测失真图像输入到经步骤6建立好的图像质量评价模型中，根据训练好的参数提取图像特征，获得图像质量分数。

本发明的特点还在于：

步骤1具体是通过预训练初始化网络参数，将预处理后的质量评价数据库中图像输入到VGG网络中，选取VGG16网络作为提取图像全局深度特征的网络，其中，包含13个卷积层，5个池化层，卷积层中，卷积核的大小为3*3，步幅为1；通过卷积层不会改变前一层特征图的长和宽，实现通道数的增加；

池化层分布在卷积层之后，选取最大池化对提取的特征图进行处理，最大池化核的尺寸为2*2，每次移动两个步长；通过最大池化层降低特征图的尺寸，经过特征提取网络，最终提取的特征大小为7*7*512；提取图像特征的计算方法如下：

F(X)＝f(W_c*X) (1)

式(1)中：X表示输入图像，W_C表示整体参数，f(·)表示对图像提取深度特征。

步骤2具体按照以下步骤实施：利用在卷积层添加的注意力定位网络获取图像中受关注的区域，首先生成正方形方框，依据步骤1中生成特征图找出具有最高响应值的位置，并利用正方形方框在原始图像中框出受关注区域，获得受关注区域既正方形方框的坐标信息，计算方法如下，

[t_x,t_y,t_l]＝g(W_c*X) (2)

式(2)中：t_x为受关注区域中心位置的横坐标，t_y为受关注区域中心位置的纵坐标，t_l为正方形方框边长的二分之一，X表示输入图像，W_C表示整体参数，g(·)由两个堆叠的全连接层表示来获取关注区域的三个参数。

步骤3具体按照以下步骤实施：

步骤3.1，根据步骤2获取的受关注区域的三个位置参数，获取受关注区域更加精确的位置信息；

假设原始图像中的左上角是坐标系的原点，其x轴和y轴分别代表从左到右和从上到下，利用位置参数进一步计算受关注区域左上角与右下角的位置坐标，其计算公式如下：

t_x(up)＝t_x-t_l,t_y(up)＝t_y-t_l

t_x(down)＝t_x+t_l,t_y(down)＝t_y+t_l (3)

式(3)中：t_x(up)为受关注区域左上角的横坐标，t_y(up)为受关注区域左上角的纵坐标，t_x(down)为受关注区域右下角的横坐标，t_y(down)为受关注区域右下角的纵坐标。

步骤3.2，利用步骤3.1获得的受关注区域更加精确的位置信息，对原始图像进行裁剪；

在获取受关注区域时需要用到注意力掩码，把一些数据保留，把一些数据舍弃，其中注意力掩码的计算公式如下：

M(·)＝[h(x-t_x(up))-h(x-t_x(down))]·[h(y-t_y(up))-h(y-t_y(down))] (4)

式(4)中：t_x(up)为受关注区域左上角的横坐标，t_y(up)为受关注区域左上角的纵坐标，t_x(down)为受关注区域右下角的横坐标，t_y(down)为受关注区域右下角的纵坐标，x,y表示图片的横纵坐标，h(·)为指数为k的逻辑回归函数，逻辑回归函数的公式如下：

当k足够大时，逻辑回归函数被认为是阶跃函数：

通过上述计算得到注意力掩码在整个原始图像范围内的取值，既在x属于(t_x(down),t_x(up))，y属于(t_y(down),t_y(up))范围内注意力掩码的取值为1；其他区域内的取值为0；

裁剪操作通过原始图像与注意力掩码之间进行逐元素乘法来实现，其计算公式如下：

X^att＝X*M(t_x,t_y,t_l) (7)

X^att表示受关注区域，X表示原始图像，*表示按元素相乘，M(·)表示注意力掩码计算。

步骤3.3，经步骤3.2后获得的图像尺寸较小，无法从中提取有效的特征表示，进行放大操作，获取注意力关注图像；

在对图像放大时选择双线性插值的方法，计算方法如下：

式(8)中，λ表示缩放因子，[]表示取整数部分，{}表示取小数部分。

步骤4具体按照以下步骤实施：

将步骤3获得的注意力关注图像输入到VGG16网络中提取图像特征，此处使用VGG16网络结构与步骤1中的VGG16网络结构相同，受关注区域是图像更加细致部分，提取的特征为图像的局部深度特征，计算公式如下：

F₂(X^amp)＝f(W_c*X^amp) (9)

式(9)中，W_c表示整体参数，X^amp表示受关注区域，f()表示对图像提取深度特征。

步骤5具体是将步骤1提取的全局深度特征与步骤4提取的局部深度特征进行融合，观察图像是一个从粗到细的过程，首先把握图像的全局，然后再去了解图像的细节，通过融合得到图像从粗到细的多尺度特征，融合的方式为：

式(10)中，F₁代表步骤2提取的多维全局深度特征由{F₁₁,F₁₂,F₁₃…F_1N}表示，F₂代表步骤5提取的多维局部深度特征由{F₂₁,F₂₂,F₂₃…F_2N}表示。

将经步骤5得到图像融合特征与主观MOS值输入到由两个全连接层和一个输出层构成的回归网络中，经过回归训练建立图像质量预测模型。

本发明的有益效果在于：本发明一种基于注意力定位网络的无参考型图像质量评价方法，在传统方法的基础上添加注意力定位网络，解决了传统方法与人眼主观感知一致性低的问题；

本发明不仅提取图像的全局特征，而且能够提取受关注区域的局部细节特征，关注图像细节部分，提高了模型的稳定性，从而增加了应用广泛性；

本发明通过引入视觉注意力机制并定位到受关注区域建立模型，将人眼的视觉特性融入到图像提取过程中，从而使构建的模型更加精确，实现更加精确的失真图像质量预测，并与人眼视觉系统具有高度一致性。

附图说明

图1是本发明一种基于注意力定位网络的无参考型图像质量评价方法的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于注意力定位网络的无参考型图像质量评价方法，如图1所示，步骤包括模型建立部分和图像质量的预测；其中，模型的建立部分，处理对象是质量评价数据库中的图像，通过提取图像的全局与局部细节特征并将其融合，结合质量评价数据库中的主观MOS值，建立图像质量评价模型。图像质量预测部分，将待测失真图像输入到图像质量评价模型中，根据训练好的模型参数提取图像特征，得到质量预测分数，完成对图像质量进行评价。

本发明一种基于注意力网络定位的无参考型图像质量评价方法，具体按照以下步骤实施：

F(X)＝f(W_c*X) (1)

[t_x,t_y,t_l]＝g(W_c*X) (2)

步骤3具体按照以下步骤实施：

t_x(up)＝t_x-t_l,t_y(up)＝t_y-t_l

t_x(down)＝t_x+t_l,t_y(down)＝t_y+t_l (3)

M(·)＝[h(x-t_x(up))-h(x-t_x(down))]·[h(y-t_y(up))-h(y-t_y(down))] (4)

当k足够大时，逻辑回归函数被认为是阶跃函数：

X^att＝X*M(t_x,t_y,t_l) (7)

在对图像放大时选择双线性插值的方法，计算方法如下：

步骤4具体按照以下步骤实施：

F₂(X^amp)＝f(W_c*X^amp) (9)

将步骤1提取的全局深度特征与步骤4提取的局部深度特征进行融合，观察图像是一个从粗到细的过程，首先把握图像的全局，然后再去了解图像的细节，通过融合得到图像从粗到细的多尺度特征，融合的方式为：

式(10)中，F₁代表步骤2提取的多维全局特征由{F₁₁,F₁₂,F₁₃…F_1N}表示，F₂代表步骤5提取的多维局部特征由{F₂₁,F₂₂,F₂₃…F_2N}表示。

本发明一种基于注意力定位网络的无参考型图像质量评价方法，从功能执行上讲：首先执行对数据库中的图像进行预处理使得图像尺寸固定；其次将图像输入到VGG网络中执行提取图像的全局深度特征；注意力定位网络根据所提取的特征定位出受关注区域，并依据所获得受关注区域的位置信息对图像进行裁剪与放大；随后将受关注区域部分输入VGG网络中提取局部深度特征；接下来将提取的全局深度特征与局部深度特征融合输入到质量预测部分；质量预测部分根据预测值与真实MOS值之间的差异进行反向传播对参数不断更新，直至实现对图像进行精确预测，从而对图像质量进行评价。

本发明一种基于注意力定位网络的无参考型图像质量评价方法，通过添加注意力定位网络，获取受关注区域部分，充分考虑了人眼的视觉特性；同时将图像的全局特征与局部深度特征相融合进行训练与预测，提高模型的预测精度同时能够与人眼识别保持较高的一致性。

Claims

1.一种基于注意力定位网络的无参考型图像质量评价方法，其特征在于，具体按照以下步骤实施：

步骤7、将待测失真图像输入到经步骤6建立好的图像质量评价模型中，根据训练好的参数提取图像特征，获得图像质量分数；

所述步骤1具体是通过预训练初始化网络参数，将预处理后的质量评价数据库中图像输入到VGG网络中，选取VGG16网络作为提取图像全局深度特征的网络，其中，包含13个卷积层，5个池化层，卷积层中，卷积核的大小为3*3，步幅为1；通过卷积层不会改变前一层特征图的长和宽，实现通道数的增加；

F(X)＝f(W_c*X) (1)

式(1)中：X表示输入图像，W_C表示整体参数，f(·)表示对图像提取深度特征；

所述步骤2具体按照以下步骤实施：利用在卷积层添加的注意力定位网络获取图像中受关注的区域，首先生成正方形方框，依据步骤1中生成特征图找出具有最高响应值的位置，并利用正方形方框在原始图像中框出受关注区域，获得受关注区域既正方形方框的坐标信息，计算方法如下，

[t_x,t_y,t_l]＝g(W_c*X) (2)

式(2)中：t_x为受关注区域中心位置的横坐标，t_y为受关注区域中心位置的纵坐标，t_l为正方形方框边长的二分之一，X表示输入图像，W_C表示整体参数，g(·)由两个堆叠的全连接层表示来获取关注区域的三个参数；

所述步骤3具体按照以下步骤实施：

t_x(up)＝t_x-t_l,t_y(up)＝t_y-t_l

t_x(down)＝t_x+t_l,t_y(down)＝t_y+t_l (3)

式(3)中：t_x(up)为受关注区域左上角的横坐标，t_y(up)为受关注区域左上角的纵坐标，t_x(down)为受关注区域右下角的横坐标，t_y(down)为受关注区域右下角的纵坐标；

M(·)＝[h(x-t_x(up))-h(x-t_x(down))]·[h(y-t_y(up))-h(y-t_y(down))] (4)

当k足够大时，逻辑回归函数被认为是阶跃函数：

X^att＝X*M(t_x,t_y,t_l) (7)

X^att表示受关注区域，X表示原始图像，*表示按元素相乘，M(·)表示注意力掩码计算；

在对图像放大时选择双线性插值的方法，计算方法如下：

2.根据权利要求1所述的一种基于注意力定位网络的无参考型图像质量评价方法，其特征在于，所述步骤4具体按照以下步骤实施：

F₂(X^amp)＝f(W_c*X^amp) (9)

3.根据权利要求1所述的一种基于注意力定位网络的无参考型图像质量评价方法，其特征在于，所述步骤5具体是将步骤1提取的全局深度特征与步骤4提取的局部深度特征进行融合，观察图像是一个从粗到细的过程，首先把握图像的全局，然后再去了解图像的细节，通过融合得到图像从粗到细的多尺度特征，融合的方式为：

4.根据权利要求3所述的一种基于注意力定位网络的无参考型图像质量评价方法，其特征在于，所述将经步骤5得到图像融合特征与主观MOS值输入到由两个全连接层和一个输出层构成的回归网络中，经过回归训练建立图像质量预测模型。