CN116168011A

CN116168011A - 基于多粒度网络的无参考图像质量评价方法

Info

Publication number: CN116168011A
Application number: CN202310256035.0A
Authority: CN
Inventors: 何立火; 吴翔宇; 卢怡; 张卓远; 高新波; 王笛; 路文
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-05-26

Abstract

基于多粒度网络的无参考图像质量评价方法，包括以下步骤；步骤1，获取训练样本集B和测试样本集C：步骤2，构建基于多粒度网络的无参考图像质量评价网络模型S：步骤3，对基于多粒度网络的无参考图像质量评价网络模型S进行迭代训练，得到训练好的基于多粒度网络的无参考图像质量评价网络模型S^*；步骤4，获取图像的无参考质量评价结果：将测试样本集C作为训练完成的基于多粒度网络的无参考图像质量评价网络模型S^*的输入进行前向推理，得到每个测试样本的质量预测分数，以验证模型效果。本发明通过分析不同粒度的图像块中包含的丰富局部特征，实现图像的无参考质量评价与分析评价。

Description

基于多粒度网络的无参考图像质量评价方法

技术领域

本发明属于图像质量评价技术领域，具体涉及基于多粒度网络的无参考图像质量评价方法。

背景技术

目前，网络上有很多自然场景图像是由用户生成并上传的，由于大部分用户不具备专业的图像拍摄知识，从图像质量的角度来看，这些图像本身可能就存在失真，导致质量较差。而且这些图像中的失真不是人工合成的失真，而是自然的失真，因此针对这类图像的质量评价与被广泛研究的针对合成失真图像的质量评价有显著的差别，所以对图像质量评价工作提出了更高的要求。

影响图像质量的因素非常多，包括失真类型、失真程度、图像内容和场景等，特别是对于非合成的真实失真图像，情况更加复杂。对于真实失真图像的质量评价来说，失真的类型、程度和图片的场景、内容千变万化。与普通的合成失真(如高斯模糊、JPEG压缩)均匀分布在整幅图像中不同，真实失真图像不仅存在全局均匀失真(如失焦、低照度)，还存在局部非均匀失真(如物体移动、过度照明、鬼影)等。因此，算法面临的挑战是准确捕捉全局和局部失真，提取其对应的特征，并将这些特征合并以形成适当的质量预测分数。

图像质量评价的关键是如何有效地提取出能反映图像质量好坏的特征。传统的图像质量评价方法仅限于手工制作的特征，这些特征大多不能充分地表征复杂的图像结构和失真，而且，研究人员们在设计特征上投入了巨大的努力，但方法性能却提高得相当缓慢，表明这些基于手工制作特征方法具有局限性，并不完善。另一方面，基于深度学习的方法得力于其较强的表示能力，在许多计算机视觉任务上表现出色，也被应用于大量图像质量评价的研究中。深度学习方法主要使用卷积层提取图像特征，再使用全连接层将特征映射到质量分数。由于提取的图像特征可以自动训练，不需要费时费力的人工设计，深度学习方法可以以更高的效率提取更多合适的特征。然而，即使许多基于深度学习的图像质量评价工作都使质量评价性能得到了一定的提升，它们的评价效果也存在进一步的提升空间。

申请公布号为CN115272203A，名称为“一种基于深度学习的无参考图像质量评价方法”的专利申请，公开了一种基于深度学习的无参考图像质量评价方法，该方法利用多层次特征融合增强了对图像内容的表达能力，提升了无参考图像质量评价任务的性能，但该方法的不足之处在于，其提取的多层次特征均为全局特征，忽略了对局部区域的关注，没有考虑到在图像不同粒度的分区中能获得更丰富的局部特征，导致模型预测质量和人类视觉感知质量的不一致。

申请公布号为CN115082756A，名称为“基于视觉显著性和梯度特征的无参考图像质量评价方法”的专利申请，公开了一种基于视觉显著性和梯度特征的无参考图像质量评价方法，该方法将图像分割为图像块进行局部质量分数加权，很好的利用了局部特征，提升了无参考图像质量评价任务的性能，但该方法的不足之处在于，其提取的图像块特征粒度单一，没有考虑到在图像不同粒度的分区中能获得更丰富的局部特征，导致模型预测质量和人类视觉感知质量的不一致。

现有的大多数图像质量评价方法忽略了对局部区域的关注，或者没有考虑到在图像不同粒度的分区中能获得更丰富的局部特征，导致模型预测质量和人类视觉感知质量的不一致。

发明内容

为了克服上述现有技术存在的不足，本发明的目的在于提供基于多粒度网络的无参考图像质量评价方法，利用多粒度网络在多种粒度的图像块上对图像进行特征提取与分析评价，通过分析不同粒度的图像块中包含的丰富局部特征，实现图像的无参考质量评价，生成图像的预测质量分数，用于解决现有技术因忽视在图像中不同粒度的图像块中包含的丰富局部特征而导致的模型预测质量和人类视觉感知质量不一致的问题。

为了实现上述目的，本发明采用的技术方案是：

基于多粒度网络的无参考图像质量评价方法，包括以下步骤；

步骤1，获取训练样本集B和测试样本集C：

步骤2，构建基于多粒度网络的无参考图像质量评价网络模型S：

步骤3，对基于多粒度网络的无参考图像质量评价网络模型S进行迭代训练，得到训练好的基于多粒度网络的无参考图像质量评价网络模型S^*；

步骤4，获取图像的无参考质量评价结果：

将测试样本集C作为训练完成的基于多粒度网络的无参考图像质量评价网络模型S^*的输入进行前向推理，得到每个测试样本的质量预测分数，以验证模型效果。

所述步骤1中，从公开图像质量评价数据集中任意选取占所有图像数一定比例的图像作为训练样本集B，剩余的图像作为测试样本集C，将数据集的质量分数标签映射到[0,1]区间。

所述步骤2具体包括以下步骤；

步骤2.1，构建多粒度特征提取模块E，采用Resnet-50作为骨干网络，在res_conv4_1(ResNet-50的第4层的第1个块)残差块之后；Resnet-50在残差块之后的部分被复制成独立同构的三份，每份进行一定的修改(res_conv5_1模块中是否使用下采样操作)，再分别后接池化归一化激活降维(全局分支)、条带2分割每条带单独池化归一化激活降维(局部Part-2分支)、条带3分割每条带单独池化归一化激活降维(局部Part-3分支)，得到三个略有不同的并行的分支，三个分支的输入均为该res_conv4_1的输出；

Resnet-50骨干网络被划分为三个并行的分支：全局分支、局部Part-2分支和局部Part-3分支；

所述全局分支，在res_conv5_1模块中使用步长为2的卷积层进行下采样，在分支中Resnet-50在res_conv4_1块之后的部分(具体来说为该分支对应的res_conv5最后一个残差块的输出特征图)上进行全局最大池化操作，并使用带有批量归一化和ReLU激活函数的、特殊的全连接层Y(卷积核为1×1的卷积层)将2048维特征降维到256维特征，即为全局特征

所述局部Part-2分支，与全局分支的不同点在于，在res_conv5_1模块中没有使用下采样操作，相应的输出特征图在水平方向上被均匀分割成2个条带，在每个条带上单独执行全局最大池化操作，再使用带有批量归一化和ReLU激活函数的、卷积核为1×1的卷积层将2048维特征降维，得到2个256维特征，即为粒度为2的局部特征

和/>

这个分支的分区数量为2，因此学习到粒度为2的特征表示；

所述局部Part-3分支，与局部Part-2分支不同之处在于，在res_conv5_1模块的输出特征图在水平方向上被均匀分割成3个条带；经过每个条带上单独执行的全局最大池化和卷积，得到3个256维特征，即为粒度为3的局部特征

和/>

这个分支的分区数量为3，因此学习到粒度为3的特征表示；

步骤2.2，构建特征回归模块P，将多粒度特征提取模块E输出的特征

和/>

拼接为多粒度特征F，使用特殊的全连接层Y对多粒度特征F进行回归，得到质量预测分数。

所述多粒度特征F的计算公式如下

其中，

代表全局特征，

F：多粒度特征，

全局分支提取到的全局特征，/>

局部Part-2分支中提取到的第0个局部特征，/>

局部Part-2分支中提取到的第1个局部特征，/>

局部Part-3分支中提取到的第0个局部特征，/>

局部Part-3分支中提取到的第1个局部特征，/>

局部Part-3分支中提取到的第2个局部特征，f上标：G：该特征来源于全局分支，P2：该特征来源于局部Part-2分支，P3：该特征来源于局部Part-3分支，f下标：g：该特征为全局特征，p0：该特征为第0个局部特征，p1：该特征为第1个局部特征，p2：该特征为第2个局部特征。

所述步骤3具体为：

步骤3.1，初始化迭代次数为t，最大迭代次数为T，当前基于多粒度网络的无参考图像质量评价网络模型为S^t，并令t＝1，S^t＝S；

步骤3.2，从步骤1的训练样本集B中不放回地随机选取b个训练样本作为无参考图像质量评价网络模型S^t的输入；多粒度特征提取模块E对每个训练样本进行多粒度特征提取，特征回归模块P对每个训练样本的全局特征和多粒度的局部特征进行拼接，得到多粒度特征，再使用特殊的全连接层对多粒度特征进行回归，得到每个训练样本对应的质量预测分数；

步骤3.3，首先计算每个训练样本对应的质量预测分数与该训练样本对应的质量分数标签的均方误差作为模型S^t的损失值，再采用Adam优化算法，对网络模型S^t的各层权值参数进行更新；

计算每个训练样本对应的质量预测分数与该训练样本对应的质量分数标签的均方误差的公式为

采用Adam优化算法，根据以下公式更新学习率

式(3-1)中，b表示对基于多粒度网络的无参考图像质量评价网络模型S进行迭代训练时从训练样本集B中不放回地随机选取训练样本的个数，q^g表示该b个训练样本中第g个训练样本对应的质量分数标签，

表示该b个训练样本中第g个训练样本对应的质量预测分数；

式(3-2)、(3-3)中，t表示当前的迭代次数，s代表更新学习率的步长，即每经过s次迭代就会更新一次学习率，d表示学习率的衰减系数，在损失函数中加入正则化项，并在训练过程中加入权重衰减weight_decay；

步骤3.4，判断是否已遍历训练样本集B，若是，执行步骤3.5，否则，执行步骤3.2和3.3；

步骤3.5，判断t＝T是否成立，若是，得到训练好的基于多粒度网络的无参考图像质量评价网络模型S^*＝S^t，否则，令t＝t+1，并执行步骤3.3和3.4。

本发明的有益效果：

本发明利用多粒度网络在多种粒度的图像块上对图像进行特征提取，通过分析不同粒度的图像块中包含的丰富局部特征，实现图像的无参考质量评价与分析评价。由于充分利用了图像中不同粒度的图像块中包含的丰富局部特征，本发明具有模型预测质量和人类视觉感知质量高度一致的优点。

附图说明

图1为本发明流程示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

参照附图1，本发明包括如下步骤：

步骤1，获取训练样本集B和测试样本集C：

从公开图像质量评价数据集中任意选取占所有图像数80％的图像作为训练样本集B，剩余的图像作为测试样本集C，将数据集的质量分数标签映射到[0,1]区间；

本实施例中，采用TID2013数据集，将其中80％部分的参考图像的失真图像作为训练集，将余下的20％部分的参考图像的失真图像作为测试集，此操作保证了训练集和测试集中没有图像场景和内容相同的图像数据；

步骤2.1，构建多粒度特征提取模块E，采用Resnet-50作为骨干网络，在res_conv4_1(ResNet-50的第4层的第1个块)残差块之后，Resnet-50骨干网络被划分为三个并行的分支：全局分支、局部Part-2分支和局部Part-3分支；

所述全局分支，在res_conv5_1模块中使用步长为2的卷积层进行下采样，在相应的输出特征图上进行全局最大池化操作，并使用带有批量归一化和ReLU激活函数的、卷积核为1×1的卷积层将2048维特征降维到256维特征，即为全局特征

这个分支在没有任何分区信息的情况下学习全局特征表示，所以将这个分支称为全局分支。

所述局部Part-2分支，其网络结构与全局分支类似。不同之处在于，在res_conv5_1模块中没有使用下采样操作，以便于保留足够的空间来提取局部特征。相应的输出特征图在水平方向上被均匀分割成2个条带，在每个条带上单独执行全局最大池化操作，再使用带有批量归一化和ReLU激活函数的、卷积核为1×1的卷积层将2048维特征降维，得到2个256维特征，即为粒度为2的局部特征

和/>

这个分支的分区数量为2，因此学习到粒度为2的特征表示。

所述局部Part-3分支，其网络结构与局部Part-2分支类似。不同之处在于，在res_conv5_1模块的输出特征图在水平方向上被均匀分割成3个条带，因此经过每个条带上单独执行的全局最大池化和卷积，得到3个256维特征，即为粒度为3的局部特征

和

这个分支的分区数量为3，因此学习到粒度为3的特征表示。

和/>

所述多粒度特征F，是将通过多粒度特征提取网络提取到得全局特征和多粒度的局部特征拼接得到的，能够将全局信息和局部信息相结合，提高学习到的特征的全面性、丰富性。多粒度特征F的计算公式如下

其中，

代表全局特征，/>

代表在局部Part-2分支中提取到的第i个局部特征，/>

代表在局部Part-3分支中提取到的第j个局部特征。

所述特殊的全连接层Y，是卷积核为1×1的卷积层。普通全连接层会破坏图像的空间结构信息，而特殊的全连接层不会破坏图像的空间结构信息。而且，普通全连接层的网络结构一旦固定，需要学习的参数个数和输入尺寸也被固定，但是对于特殊的全连接层来说，不论输入尺度怎么改变，卷积核大小和参数是不变的，更加灵活便捷。

步骤3，对基于多粒度网络的无参考图像质量评价网络模型S进行迭代训练：

本实施例中，T＝80；

步骤3.2，从训练样本集B中不放回地随机选取b个训练样本作为无参考图像质量评价网络模型S^t的输入；多粒度特征提取模块E对每个训练样本进行多粒度特征提取，特征回归模块P对每个训练样本的全局特征和多粒度的局部特征进行拼接，得到多粒度特征，再使用特殊的全连接层对多粒度特征进行回归，得到每个训练样本对应的质量预测分数；

本实施例中，b＝16；

本实施例中，计算每个训练样本对应的质量预测分数与该训练样本对应的质量分数标签的均方误差的公式为

本实施例中，采用Adam优化算法，除了学习率之外，其余的参数均使用默认值。为了保证模型的收敛速度和学习的精度，根据以下公式更新学习率

表示该b个训练样本中第g个训练样本对应的质量预测分数；

式(3-2)、(3-3)中，t表示当前的迭代次数，s代表更新学习率的步长，即每经过s次迭代就会更新一次学习率，d表示学习率的衰减系数，与此同时，为了防止模型在训练过程中出现过拟合的情况，在损失函数中加入正则化项，并在训练过程中加入权重衰减weight_decay；

本实施例中，b＝16，s＝1，d＝0.5，weight_decay＝5×10^-4；

步骤3.5，判断t＝T是否成立，若是，得到训练好的基于多粒度网络的无参考图像质量评价网络模型S^*＝S^t，否则，令t＝t+1，并执行步骤3.3和3.4；

步骤4，获取图像的无参考质量评价结果：

以下结合仿真实验，对本发明的技术效果进行说明：

1.仿真条件和内容：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Core(TM)i9-7900X CPU，主频为3.30GH，内存32GB，显卡为NVIDIA GeForce GTX 1080Ti。

本发明的仿真实验的软件平台为：Ubuntu 16.04,Pytorch 1.6.0，Python 3.7。

2.仿真实验

本发明仿真实验所使用的输入图像来源于图像质量评价数据库LIVE、TID2013和CSIQ，其中，CSIQ数据集是E.C.Larson等人在“Most apparent distortion:full-reference image quality assessment and the role of strategy.Journal ofElectronic Imaging,19(1):011006,2010”中提出的图像质量评价数据库，LIVE数据集是D.Ghadiyaram等人在“Massive online crowdsourced study of subjective andobjective picture quality.IEEE Transactions on Image Processing,25(1):372–387,2016”中提出的图像质量评价数据库，TID2013数据集是N.Ponomarenko等人在“Colorimage database TID2013:Peculiarities and preliminary results.In EuropeanWorkshop on Visual Information Processing(EUVIP),106–111,2013.”中提出的图像质量评价数据库。

本发明仿真实验采用斯皮尔曼秩相关系数SROCC(Spearman rank-ordercorrelation coefficient)和皮尔逊线性相关系数PLCC(Pearson linear correlationcoefficient)这两个指标，分别对本发明和现有技术的图像质量评价效果进行评判。具体为，现有技术和本发明分别从测试样本集C中选取n个样本进行图像质量评价，输出质量预测分数，由样本的质量预测分数和样本对应的质量标签分数计算SROCC和PLCC的值。其中，两个指标按照下列式子计算得来，SROCC∈[-1,1]，其数值越高，说明被评判的无参考图像质量评价方法的评价结果能更正确地反映出图像的质量好坏程度，PLCC∈[-1,1]，其数值越高，说明被评判的无参考图像质量评价方法的评价结果更接近人类的主观评价分数。

其中，n表示图像总数，b_e表示第e幅失真图像的质量预测分数在n幅失真图像的质量预测分数排序中的序号与其质量标签分数的排序序号之差，s_r表示第r幅失真图像的质量预测分数，

表示所有失真图像的质量预测分数的平均值，p_r表示第r幅失真图像的的主观评价分数，/>

表示所有失真图像的主观评价分数的平均值。

仿真结果如表1所示。

表1.本发明和现有技术的评价结果对比表

从表1可见，相比现有技术，本发明在CSIQ、TID2013、LIVE数据集上评价结果的斯皮尔曼秩相关系数SROCC和皮尔逊线性相关系数PLCC均更高，证明本发明无参考图像质量评价的精度更高。