CN115937121A

CN115937121A - 基于多维度特征融合的无参考图像质量评价方法及系统

Info

Publication number: CN115937121A
Application number: CN202211513003.6A
Authority: CN
Inventors: 牛玉贞; 赖宇; 许瑞; 兰杰
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-04-07

Abstract

本发明提出一种基于多维度特征融合的无参考图像质量评价方法及系统，包括以下步骤：步骤S1：将失真图像数据集中的数据进行数据预处理：首先将数据进行配对处理，接着对其做数据增强，并将数据集划分为训练集与测试集；步骤S2：训练获得基于多维度特征融合的无参考图像质量评分预测网络模型；训练过程基于基于多维度特征融合的无参考图像质量评分预测网络，至少包括：全局特征提取子网络、多尺度特征融合模块、多维度特征融合模块和局部注意力模块；步骤S3：将待测图像输入到训练好的基于多维度特征融合的无参考图像质量评分预测网络模型中，输出对应的图像质量评分分数。

Description

基于多维度特征融合的无参考图像质量评价方法及系统

技术领域

本发明属于图像处理以及计算机视觉技术领域，具体涉及一种基于多维度特征融合的无参考图像质量评价方法及系统。

背景技术

技术的进步使多媒体内容的分享和使用成为我们日常生活的一部分。数字图像和视频，已经变得无处不在。在Facebook、Instagram和Tumblr等社交媒体网站上，每年有数以万计的照片和视频被上传和分享。像Netflix、AmazonPrimeVideo和YouTube这样的流媒体服务占了所有下游互联网流量的60％。在这样一个信息爆炸的时代，由于每时每刻都有数以百万计的摄像机产生大量的图像和视频，因此如何衡量图像的质量、评定图像是否满足某种特定应用要求就是图像质量评价的目标。而且图像质量评估结果可作为一些图像恢复增强技术的辅助参照信息，因此图像质量评价方法是非常需要的，它们也可为设计和优化高级图像/视频处理算法提供了一种可行的途径。

传统的无参考图像质量评价方法依赖于人工设计的特征，且绝大多数试图检测特定类型的失真，如模糊、块效应、各种形式的噪声等。例如，对于图像的模糊度的评价，有基于边缘分析的方法、基于变换域的方法。对于图像噪声的评价，有基于滤波的方法、基于小波变换和其他一些变换域的方法。对于图像块效应的评价，有基于块边界和变换域的方法。还有一些基于通用类型的无参考图像质量评价方法，这些算法不检测特定类型的失真，他们通常将无参考图像质量评价问题转化成一个分类或回归问题，其中分类、回归是使用特定的特征进行训练的。但是手工设计的特征有其局限性，因为不同类型的图像内容具有不同的图像特征，对质量评价分数产生了很大的影响。

目前无参考图像质量评价的研究工作进入了深度学习时代，相比于人工设计的特征，卷积神经网络提取的特征更适合图像的质量评价，也更强大。然而对于使用卷积神经网络来对图像进行质量评价，仍然存在问题。首先，在训练卷积神经网络的预处理阶段对于图片的裁剪或改变其原始比例的操作都会影响图片的质量，从而导致评价结果的错误。其次，尽管卷积神经网络能够提供更加强大的图像特征，但受限于卷积的感受野无法考虑到图像全局的联系。

发明内容

为了弥补现有技术存在的缺陷和不足，本发明在算法方案中加入了自注意力机制，其长距离依赖的特性可以弥补卷积的不足。由此提出基于多维度特征融合的无参考图像质量评价方法，对于输入的图像，不做影响图像质量的操作，保留其细节与比例。并且在考虑到全局和局部区域的同时也能对局部区域进行不同程度的关注，提高无参考图像质量评价方法的性能。

本发明能考虑到全局和局部区域的同时也能对局部区域进行不同程度的关注，且不用对原图做裁切或改变其原始比例，提高无参考图像质量评估算法的性能。

该方案包括以下步骤：

步骤S1：将失真图像数据集中的数据进行数据预处理，首先将数据进行配对处理，接着对其做数据增强，并将数据集划分为训练集与测试集；步骤S2：设计全局特征提取子网络；步骤S3：设计多尺度特征融合模块；步骤S4：设计多维度特征融合模块；步骤S5：设计局部注意力模块；步骤S6：设计基于多维度特征融合的无参考图像质量评分预测网络，使用所设计的网络训练基于多维度特征融合的无参考图像质量评分预测网络模型；步骤S7：将图像输入到训练好的基于多维度特征融合的无参考图像质量评分预测网络模型中，输出对应的图像质量评分分数。该算法能有效的融合多维度图像的特征，且不用对原图做裁切或改变其原始比例，并进行图像质量评分分数预测，提高无参考图像质量评估算法的性能。

本发明具体采用以下技术方案：

一种基于多维度特征融合的无参考图像质量评价方法，其特征在于，包括以下步骤：

步骤S1：将失真图像数据集中的数据进行数据预处理：首先将数据进行配对处理，接着对其做数据增强，并将数据集划分为训练集与测试集；

步骤S2：训练获得基于多维度特征融合的无参考图像质量评分预测网络模型；训练过程基于基于多维度特征融合的无参考图像质量评分预测网络，至少包括：全局特征提取子网络、多尺度特征融合模块、多维度特征融合模块和局部注意力模块；

步骤S3：将待测图像输入到训练好的基于多维度特征融合的无参考图像质量评分预测网络模型中，输出对应的图像质量评分分数。

进一步地，步骤S1具体包括以下步骤：

步骤S11：将失真图像数据集中的图像与其对应的标签进行配对处理；

步骤S12：将失真图像数据集中的图像按一定比例划分为训练集与测试集；

步骤S13：将训练集和测试集中的图像缩放到固定尺寸H×W；

步骤S14：对训练集中的图像进行随机翻转操作，用于训练集数据增强；

步骤S15：对训练集和测试集中的图像进行归一化处理。

进一步地，所述全局特征提取子网络具体为：

设全局特征提取子网络的输入为图像I_in，其维度为3×H×W；首先采用32×32的卷积将输入下采样为F_{v_d}，其维度为c×h×w，其中

接着向F_{v_d}加入可学习的位置嵌入信息P_ve和维度类型嵌入信息T_ve获得F_{v_p}，其中P_ve，T_ve和F_{v_p}的维度都为c×h×w，T_ve和F_{v_p}采用随机初始化，F_{v_p}的计算公式为：

F_{v_d}＝Conv_32X32I_in

F_{v_p}＝F_{v_d}+P_ve+T_ve

其中，Conv_32×32*表示用于降维且卷积核大小为32×32的卷积层；

设自编码器个数为N，将F_{v_p}通过Reshape操作改变维度，由c×h×w变为c×l，其中l＝h×w，之后依次经过N个自编码器得到全局特征提取子网络的输出F_{v_e}，维度为c×l，在第i个自编码器中，设输入为z^i-1，首先对其进行层归一化，记为LN₁，之后输入多头自注意力，多头自注意力的输出再与z^i-1相加获得自编码器中间输出特征

接着对

进行层归一化，记为LN₂，之后输入两层全连接层中，记为MLP₁，两层全连接层的输出再与

相加获得自编码器输出特征zⁱ，i∈1,2,…,N，第i个自编码器的计算公式为：

其中，MHSA(*)表示多头自注意力；最后取第N个自编码器的输出z^N作为全局特征提取子网络的输出特征F_{v_e}。

进一步地，所述多尺度特征融合模块具体为：

构建操作S，由三个卷积构成，设操作S的输入为x，x的维度为c_x×h_x×w_x，x首先经过1×1的卷积将通道数c_x降为

再用3×3的卷积将h_x和w_x降为

和

之后用1×1的卷积将通道数

升为2c_x，得到

的维度为

的计算公式为：

其中，Conv_1×1*和Conv_3×3*分别表示卷积核大小为1×1和3×3的卷积层；

设多尺度特征融合模块的输入为F_{c_i}，其中i∈{1,2,3,4}，F_{c_i}的维度为C_i×H_i×W_i，其中C_i＝2C_i-1，

先将F_{c_1}经过操作S并与F_{c_2}相加得到F_{c1_d1}，再将F_{c1_d1}经过操作S并与F_{c_3}相加得到F_{c1_d2}，之后F_{c1_d2}经过操作S得到F_{c1_d3}；接着将F_{c_2}经过操作S并与F_{c_3}相加得到F_{c2_d1}，再将F_{c2_d1}经过操作S得到F_{c2_d2}；再将F_{c_3}经过操作S得到F_{c3_d1}，最后将F_{c_4}，F_{c3_d1}，F_{c2_d2}和F_{c1_d3}相加起来得到尺度特征融合模块的输出F_s，F_s的维度为C₄×H₄×W₄，F_s的计算公式为：

F_{c1_d1}＝S(F_{c_1})+F_{c_2}

F_{c1_d2}＝S(F_{c1_d1}）+F_{c_3}

F_{c1_d3}＝S(F_{c1_d2}）

F_{c2_d1}＝S(F_{c_2}）+F_{c_3}

F_{c2_d2}＝S(F_{c2_d1}）

F_{c3_d1}＝S(F_{c_3}）

F_s＝F_{c_4}+F_{c3_d1}+F_{c2_d2}+F_{c1_d3}

其中，S（*）表示操作S。

进一步地，所述多维度特征融合模块具体为：

设多维度特征融合模块的输入为F_{v_e}和F_c，F_{u_e}的维度为c×l，F_c的维度为C×h×w；首先用1×1的卷积将F_c的通道数C降为c，再向F_c分别加入位置嵌入信息P_ce和维度类型嵌入信息T_ce获得F_{c_p}其中P_ce，T_ce和F_{c_p}的维度都为c×h×w；采用Reshape操作，记为Reshape₁改变F_{c_p}的维度，由c×h×w变为c×l，其中l＝h×w，再输入一个自编码器得到F_{c_e}，维度为c×l；F_{c_e}的计算公式为：

F_{c_p}＝Conv_1×1（F_c）+P_ce+T_ce

F_{c_e}＝SEncoder（Reshape₁(F_{c_p}))

其中，SEncoder(*)表示自编码器，Conv_1×1(*)表示用于降维且卷积核大小为1×1的卷积层；

将F_{c_e}和F_{v_e}输入交叉编码器进行多维度的特征融合获得F_fusion，其维度为c×l。在交叉编码器中，首先对输入F_{v_e}和F_{c_e}进行层归一化，记为LN₃和LN₄，之后输入多头交叉注意力，多头交叉注意力的输出再与F_{v_e}相加获得交叉编码器中间输出特征

接着对

进行层归一化，记为LN₅，之后输入两层全连接层中，记为MLP₂，两层全连接层的输出再与

相加获得交叉编码器的输出特征F_fusion。F_fusion的计算公式为：

其中，MHCA(*,*)表示多头交叉注意力；F_fusion是多维度特征融合模块的输出特征。

进一步地，所述局部注意力模块具体为：

设局部注意力机制模块的输入为F_in，维度为c×l，将F_in输入到通道池化层，得到输出F_channel，其维度为1×l，F_channel的计算公式为：

F_channel＝FC(Concat(CMaxpool(F_in),CAvgpool(F_in)))

其中，CMaxpool(*)表示步长为1的通道最大池化层，CAvgpool(*)表示步长为1的通道平均池化层，Concat(*)表示特征在通道维度上进行拼接，FC(*)表示全连接层；

将F_channel通过Reshape操作，记为Reshape₂，改变维度，由1×l变为l，接着将F_channel输入两层全连接层中，记为MLP₃，采用注意力机制获得模型学习到图像不同的局部区域的重要程度，用以确定局部区域中不同区域对于整体图像质量评价的不同影响；再经过sigmoid函数将数值映射到(0,1)中，得到特征权重w_patch，将w_patch通过Reshape操作，记为Reshape₃，将其维度由l变为1×l，之后用该特征权重作为对局部区域的指导权重，即将最初输入的图像特征F_in乘以权重w_patch再加上F_in，得到局部注意力模块的最终输出为F_patch，维度为c×l，F_patch的计算公式为：

w_patch＝Sigmoid(MLP₃(Reshape₂F_channel)))

F_patch＝F_in+(F_in×Reshape₃(w_patch))。

进一步地，步骤S2中，训练获得基于多维度特征融合的无参考图像质量评分预测网络模型具体包括以下步骤：

步骤S21：选择一种图像分类网络，去除该网络的最后一层后作为局部特征提取子网络；

步骤S22：将经过步骤S1的训练集中的某个批次的图像分别输入到所述局部特征提取子网络和全局特征提取子网络，得到局部特征提取子网络和全局特征提取子网络的输出F_c和F_{v_e}，并将F_c输入所述多尺度特征融合模块获得输出F_s；

步骤S23：将步骤S22的F_s和F_{v_e}，输入到所述多维度特征融合模块，获得多维度特征融合模块的输出F_fusion，之后将F_fusion输入到所述局部注意力模块，获得局部注意力模块的输出F_patch；

步骤S24：对于步骤S23的输出F_patch，首先采用Reshape操作，记为Reshape₄改变维度，由c×l变为P，P＝c×l，接着将F_patch输入到最后的两层全连接层中，记为MLP₄，以此获得最终的图像质量评价分数F_out，其维度为1，表示图像的质量分数，其计算公式为：

F_out＝MLP₄Reshape₄F_patch

基于多维度特征融合的无参考图像质量评价网络的损失函数如下：

其中，m为样本个数，y_i表示图像的真实质量分数，

表示图像经过基于多维度特征融合的无参考图像质量评价网络得到的质量分数；

步骤S26：以批次为单位重复步骤S22至步骤S24，直至步骤S24中计算得到的损失值收敛并趋于稳定，保存网络参数，完成基于多维度特征融合的无参考图像质量评价网络的训练过程。

进一步地，在步骤S7中，将测试集中的图像输入到训练好的基于多维度特征融合的无参考图像质量评价网络模型，输出对应的图像质量分数。

以及，一种基于多维度特征融合的无参考图像质量评价系统，其特征在于：包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的基于多维度特征融合的无参考图像质量评价方法。

以及，一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如上所述的基于多维度特征融合的无参考图像质量评价方法。

相比于现有技术，本发明及其优选方案能有效的融合多维度图像的特征，且不用对原图做裁切或改变其原始比例，并进行图像质量评分分数预测，提高无参考图像质量评估算法的性能。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1是本发明实施例方案的整体设计过程和实现过程流程图。

图2是本发明实施例中网络模型结构图。

图3是本发明实施例中的全局特征提取子网络结构图。

图4是本发明实施例中的多尺度特征融合模块结构图。

图5是本发明实施例中的局部注意力模块结构图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1-图5所示，本发明实施例提供一种基于多维度特征融合的无参考图像质量评价方法的整体设计过程和实现过程，包括以下步骤：

步骤1：将失真图像数据集中的数据进行数据预处理，首先将数据进行配对处理，接着对其做数据增强，并将数据集划分为训练集与测试集；

步骤2：设计全局特征提取子网络；

步骤3：设计多尺度特征融合模块；

步骤4：设计多维度特征融合模块；

步骤5：设计局部注意力模块；

步骤6：设计基于多维度特征融合的无参考图像质量评分预测网络，使用所设计的网络训练基于多维度特征融合的无参考图像质量评分预测网络模型；

步骤7：将图像输入到训练好的基于多维度特征融合的无参考图像质量评分预测网络模型中，输出对应的图像质量评分分数。

以下为本发明的具体实现过程。

在本实施例中，步骤1具体包括以下步骤：

步骤11：将失真图像数据集中的图像与其对应的标签进行配对处理。

步骤12：将失真图像数据集中的图像按一定比例划分为训练集与测试集。

步骤13：将训练集和测试集中的图像缩放到固定尺寸H×W。

步骤14：对训练集中的图像进行随机翻转操作，用于训练集数据增强。

步骤15：对训练集和测试集中的图像进行归一化处理。

在本实施例中，步骤2具体包括以下步骤：

步骤21：设全局特征提取子网络的输入为图像I_in，其维度为3×H×W。首先采用32×32的卷积将输入下采样为F_{v_d}，其维度为c×h×w，其中

接着向F_{v_d}加入可学习的位置嵌入信息P_ve和维度类型嵌入信息T_ve获得F_{v_p}，P_ve，T_ve和F_{v_p}的维度都为c×h×w，T_ve和F_{v_p}采用随机初始化，F_{v_p}的计算公式为：

F_{v_d}＝Conv_32X32I_in

F_{v_p}＝F_{v_d}+P_ve+T_ve

其中，Conv_32×32*表示用于降维且卷积核大小为32×32的卷积层。

步骤22：设自编码器个数为N，将步骤21中的F_{v_p}通过Reshape操作改变其维度，由c×h×w变为c×l，其中l＝h×w，之后依次经过N个自编码器得到全局特征提取子网络的输出F_{v_e}，其维度为c×l，在第i个自编码器中，设输入为z^i-1，首先对其进行层归一化(记为LN₁)，之后输入多头自注意力，多头自注意力的输出再与z^i-1相加获得自编码器中间输出特征

接着对

进行层归一化(记为LN₂)，之后输入两层全连接层中(记为MLP₁)，两层全连接层的输出再与

其中，MHSA(*)表示多头自注意力。最后取第N个自编码器的输出z^N作为全局特征提取子网络的输出特征F_{v_e}。

在本实施例中，步骤3具体包括以下步骤：

步骤31：构建操作S，其由三个卷积构成，设操作S的输入为x，x的维度为c_x×h_x×w_x，x首先会经过1×1的卷积将通道数c_x降为

再用3×3的卷积将h_x和w_x降为

和

之后用1×1的卷积将通道数

升为2c_x，得到

的维度为

的计算公式为：

其中，Conv_1×1(*)和Conv_3×3(*)分别表示卷积核大小为1×1和3×3的卷积层。

步骤32：设多尺度特征融合模块的输入为F_{c_i}，其中i∈{1,2,3,4}，F_{c_i}的维度为C_i×H_i×W_i，其中C_i＝2C_i-1，

先将F_{c_1}经过操作S并与F_{c_2}相加得到F_{c1_d1}，再将F_{c1_d1}经过操作S并与F_{c_3}相加得到F_{c1_d2}，之后F_{c1_d2}经过操作S得到F_{c1_d3}。接着将F_{c_2}经过操作S并与F_{c_3}相加得到F_{c2_d1}，再将F_{c2_d1}经过操作S得到F_{c2_d2}。再将F_{c_3}经过操作S得到F_{c3_d1}，最后将F_{c_4}，F_{c3_d1}，F_{c2_d2}和F_{c1_d3}相加起来得到尺度特征融合模块的输出F_s，F_s的维度为C₄×H₄×W₄，F_s的计算公式为：

F_{c1_d1}＝S(F_{c_1})+F_{c_2}

F_{c1_d2}＝S(F_{c1_d1})+F_{c_3}

F_{c1_d3}＝S(F_{c1_d2})

F_{c2_d1}＝S(F_{c_2})+F_{c_3}

F_{c2_d2}＝S(F_{c2_d1})

F_{c3_d1}＝S(F_{c_3})

F_s＝F_{c_4}+F_{c3_d1}+F_{c2_d2}+F_{c1_d3}

其中，S(*)表示操作S。

在本实施例中，步骤4具体包括以下步骤：

步骤41：设多维度特征融合模块的输入为F_{v_e}和F_c，F_{v_e}的维度为c×l，F_c的维度为C×h×w。首先用1×1的卷积将F_c的通道数C降为c，再向F_c分别加入位置嵌入信息P_ce和维度类型嵌入信息T_ce获得F_{c_p}其中P_ce，T_ce和F_{c_p}的维度都为c×h×w。采用Reshape操作(记为Reshape₁)改变F_{c_p}的维度，由c×h×w变为c×l，其中l＝h×w，再输入一个自编码器得到F_{c_e}，其维度为c×l。F_{c_e}的计算公式为：

F_{c_p}＝Conv_1×1(F_c)+P_ce+T_ce

F_{c_e}＝SEncoder(Reshape₁(F_{c_p}))

其中，SEncoder(*)表示自编码器，Conv_1×1(*)表示用于降维且卷积核大小为1×1的卷积层。

步骤42：将步骤41中的F_{c_e}和F_{v_e}输入交叉编码器进行多维度的特征融合获得F_fusion，其维度为c×l。在交叉编码器中，首先对输入F_{v_e}和F_{c_e}进行层归一化(记为LN₃和LN₄)，之后输入多头交叉注意力，多头交叉注意力的输出再与F_{v_e}相加获得交叉编码器中间输出特征

接着对

进行层归一化(记为LN₅)，之后输入两层全连接层中(记为MLP₂)，两层全连接层的输出再与

其中，MHCA(*,*)表示多头交叉注意力。F_fusion也是多维度特征融合模块的输出特征。

在本实施例中，步骤5具体包括以下步骤：

步骤51：设局部注意力机制模块的输入为F_in，其维度为c×l，将F_in输入到通道池化层，得到输出F_channel，其维度为1×l，F_channel的计算公式为：

F_channel＝FC(Concat(CMaxpool(F_in),CAvgpool(F_in)))

其中，CMaxpool(*)表示步长为1的通道最大池化层，CAvgpool(*)表示步长为1的通道平均池化层，Concat(*)表示特征在通道维度上进行拼接，FC(*)表示全连接层。

步骤52：将步骤51中的F_channel通过Reshape操作(记为Reshape₂)改变其维度，由1×l变为l，接着将F_channel输入两层全连接层中(记为MLP₃)，采用注意力机制来获得模型学习到图像不同的局部区域的重要程度，用以确定局部区域中哪些对于整体图像的质量评价具有更大的影响。再经过sigmoid函数将数值映射到(0,1)中，得到特征权重w_patch，将w_patch通过Reshape操作(记为Reshape₃)将其维度由l变为1×l，之后用该特征权重作为对局部区域的指导权重，即将最初输入的图像特征F_in乘以权重w_patch再加上F_in，得到局部注意力模块的最终输出为F_patch，维度为c×l，F_patch的计算公式为：

w_patch＝SigmoidMLP₃Reshape₂F_channel

F_patch＝F_in+F_in×Reshape₃w_patch

在本实施例中，步骤6具体包括以下步骤：

步骤61：选择ResNet50、ResNet101等图像分类网络中的一种网络，去除该网络的最后一层后作为局部特征提取子网络。

步骤62：将经过步骤1的训练集中的某个批次的图像同时输入到步骤61和步骤2中的模型，得到局部特征提取子网络和全局特征提取子网络的输出F_c和F_{v_e}，并将F_c输入步骤3中所设计的多尺度特征融合模块获得输出F_s。

步骤63：将步骤62的F_s和F_{v_e}，输入到步骤4中所设计的多维度特征融合模块，获得多维度特征融合模块的输出F_fusion，之后将F_fusion输入到步骤5中所设计的局部注意力模块，获得局部注意力模块的输出F_patch。

步骤64：对于步骤63的输出F_patch，首先采用Reshape操作(记为Reshape₄)改变其维度，由c×l变为P，P＝c×l，接着将F_patch输入到最后的两层全连接层中(记为MLP₄)，以此获得最终的图像质量评价分数F_out，其维度为1，表示图像的质量分数，其计算公式为：

F_out＝MLP₄Reshape₄F_patch

步骤65：基于多维度特征融合的无参考图像质量评价网络的损失函数如下：

其中，m为样本个数，y_i表示图像的真实质量分数，

表示图像经过基于多维度特征融合的无参考图像质量评价网络得到的质量分数。

步骤66：以批次为单位重复上述步骤62至步骤65，直至步骤65中计算得到的损失值收敛并趋于稳定，保存网络参数，完成基于多维度特征融合的无参考图像质量评价网络的训练过程。

在本实施例中，步骤7具体包括以下步骤：

步骤71：将测试集中的图像输入到训练好的基于多维度特征融合的无参考图像质量评价网络模型，输出对应的图像质量分数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于多维度特征融合的无参考图像质量评价方法及系统，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于多维度特征融合的无参考图像质量评价方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于：步骤S1具体包括以下步骤：

步骤S13：将训练集和测试集中的图像缩放到固定尺寸H×W；

步骤S15：对训练集和测试集中的图像进行归一化处理。

3.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于：所述全局特征提取子网络具体为：

F_{v_d}＝Conv_32X32(I_in)

F_{v_p}＝F_{v_d}+P_ve+T_ve

其中，Conv_32×32(*)表示用于降维且卷积核大小为32×32的卷积层；

接着对

相加获得自编码器输出特征zⁱ，i∈[1，2，…，N]，第i个自编码器的计算公式为：

4.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于：所述多尺度特征融合模块具体为：

再用3×3的卷积将h_x和w_x降为

和

之后用1×1的卷积将通道数

升为2c_x，得到

的维度为

的计算公式为：

其中，Conv_1×1(*)和Conv_3×3(*)分别表示卷积核大小为1×1和3×3的卷积层；

设多尺度特征融合模块的输入为F_{c_i}，其中i∈{1，2，3，4}，F_{c_i}的维度为C_i×H_i×W_i，其中C_i＝2C_i-1，

先将F_{c_1}经过操作S并与F_{c_2}相加得到F_{c1_d1}，再将F_{c1_d1}经过操作S开与F_{c_3}相加得到F_{c1_d2}，之后F_{c1_d2}经过操作S得到F_{c1_d3}；接着将F_{c_2}经过操作S并与F_{c_3}相加得到F_{c2_d1}，再将F_{c2_d1}经过操作S得到Fc_{2_d2}；再将F_{c_3}经过操作S得到F_{c3_d1}，最后将F_{c_4}，F_{c3_d1}，F_{c2_d2}和F_{c1_d3}相加起来得到尺度特征融合模块的输出F_s，F_s的维度为C₄×H₄×W₄，F_s的计算公式为：

F_{c1_d1}＝S(F_{c_1})+F_{c_2}

F_{c1_d2}＝S(F_{c1_d1})+F_{c_3}

F_{c1_d3}＝S(F_{c1_d2})

F_{c2_d1}＝S(F_{c_2})+F_{c_3}

F_{c2_d2}＝S(F_{c2_d1})

F_{c3_d1}＝S(F_{c_3})

F_s＝F_{c_4}+F_{c3_d1}+F_{c2_d2}+F_{c1_d3}

其中，S(*)表示操作S。

5.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于：所述多维度特征融合模块具体为：

设多维度特征融合模块的输入为F_{v_e}和F_c，F_{v_e}的维度为c×l，F_c的维度为C×h×w；首先用1×1的卷积将F_c的通道数C降为c，再向F_c分别加入位置嵌入信息P_ce和维度类型嵌入信息T_ce获得F_{c_p}其中P_ce，T_ce和F_{c_p}的维度都为c×h×w；采用Reshape操作，记为Reshape₁改变F_{c_p}的维度，由c×h×w变为c×l，其中l＝h×w，再输入一个自编码器得到F_{c_e}，维度为c×l；F_{c_e}的计算公式为：

F_{c_p}＝Conv_1×1(F_c)+P_ce+T_ce

F_{c_e}＝SEncoder(Reshape₁(F_{c_p}))

将F_{c_e}和F_{v_e}输入交叉编码器进行多维度的特征融合获得F_fusion，其维度为c×l；在交叉编码器中，首先对输入F_{v_e}和F_{c_e}进行层归一化，记为LN₃和LN₄，之后输入多头交叉注意力，多头交叉注意力的输出再与F_{v_e}相加获得交叉编码器中间输出特征

接着对

相加获得交叉编码器的输出特征F_fusion，F_fusion的计算公式为：

其中，MHCA(*，*)表示多头交叉注意力；F_fusion是多维度特征融合模块的输出特征。

6.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于：所述局部注意力模块具体为：

F_channel＝FC(Concat(CMaxpool(F_in)，CAvgpool(F_in)))

将F_channel通过Reshape操作，记为Reshape₂，改变维度，由1×l变为l，接着将F_channel输入两层全连接层中，记为MLP₃，采用注意力机制获得模型学习到图像不同的局部区域的重要程度，用以确定局部区域中不同区域对于整体图像质量评价的不同影响；再经过sigmoid函数将数值映射到(0，1)中，得到特征权重w_patch，将w_patch通过Reshape操作，记为Reshape₃，将其维度由l变为1×l，之后用该特征权重作为对局部区域的指导权重，即将最初输入的图像特征F_in乘以权重w_patch再加上F_in，得到局部注意力模块的最终输出为F_patch，维度为c×l，F_patch的计算公式为：

w_patch＝Sigmoid(MLP₃(Reshape₂(F_channel)))

F_patch＝F_in+(F_in×Reshape₃(w_patch))。

7.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于：

步骤S2中，训练获得基于多维度特征融合的无参考图像质量评分预测网络模型具体包括以下步骤：

F_out＝MLP₄(Reshape₄(F_patch))

其中，m为样本个数，y_i表示图像的真实质量分数，

8.根据权利要求1所述的基于多维度特征融合的无参考图像质量评价方法，其特征在于，在步骤S7中，将测试集中的图像输入到训练好的基于多维度特征融合的无参考图像质量评价网络模型，输出对应的图像质量分数。

9.一种基于多维度特征融合的无参考图像质量评价系统，其特征在于：包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8其中任一所述的基于多维度特征融合的无参考图像质量评价方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-8其中任一所述的基于多维度特征融合的无参考图像质量评价方法。