CN115375663A

CN115375663A - 基于深度互学习和双尺度特征融合的图像质量评价方法

Info

Publication number: CN115375663A
Application number: CN202211038963.1A
Authority: CN
Inventors: 罗玉; 谢家明; 凌捷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-22

Abstract

本申请实施例提供的一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法，该方法包括确定待进行无参考图像质量评估的目标失真图像；对目标失真图像进行水平翻转，得到目标镜像图像；构建初始质量评价模型，初始质量评价模型包括用于从图像中提取局部特征的第一、二Resnet50网络、用于从图像中提取出非局部特征的第一、二VisionTransformer网络；将目标失真图像输入到第一Resnet50网络以及第一VisionTransformer网络中，将目标镜像图像输入到第二Resnet50网络以及第二Vision Transformer网络中进行模型训练，训练过程中，通过深度互学习的方式对图像间的局部特征、以及非局部特征进行一致性约束，以及通过融合图像的局部、非局部特征，确定模型输出结果；在结束模型训练时，得到目标质量评价模型。

Description

基于深度互学习和双尺度特征融合的图像质量评价方法

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种基于深度互学习和双尺度特征融合的图像质量评价方法。

背景技术

图像在人们的日常办公，娱乐休闲，社交应用等方面发挥着重要的作用，准确地评估图像质量不仅可以为计算机视觉的其他任务提供必要的帮助，还将给网络时代的人们带来舒适的视觉体验，促进互联网经济的繁荣。

目前，图像质量评估分为主观和客观评价。其中，不需要参考图像的无参考图像质量评估的客观评价方法，由于其应用范围和应用前景的广泛性而受到更多研究者的关注。

现有的无参考客观评价方法，通过结合卷积神经网络(CNN)评估图像质量，这一技术当前也显示出了不俗的性能。然而，基于单一的CNN网络提取的图像质量感知特征进行图像质量分数预测的回归任务的方式，使得提取出来的图像质量感知特征无法很好地反映原图像中对人眼感知发挥重要作用的全局质量特征，存在评估准确度不高的问题。

发明内容

本申请实施例的目的在基于提供一种基于深度互学习和双尺度特征融合的图像质量评价方法，可以提高图像质量的评估精准度。

本申请实施例还提供了一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法，包括以下步骤：

确定待进行无参考图像质量评估的目标失真图像；

对所述目标失真图像进行水平翻转，得到相应的目标镜像图像；

构建初始质量评价模型，所述初始质量评价模型包括用于从图像中提取局部特征的第一、二Resnet50网络、以及用于从图像中提取出非局部特征的第一、二VisionTransformer网络；

将所述目标失真图像输入到第一Resnet50网络以及第一Vision Transformer网络中，将所述目标镜像图像输入到第二Resnet50网络以及第二Vision Transformer网络中进行模型训练，训练过程中，通过深度互学习的方式对图像间的局部特征、以及非局部特征进行一致性约束，以提高评估精准度，以及通过融合图像的局部、非局部特征，确定模型输出结果；

在结束模型训练时，得到目标质量评价模型，将待评估图像输入到所述目标质量评价模型中，得到待评估图像的预测质量评价分数。

第二方面，本申请实施例还提供了一种基于深度互学习和双尺度特征融合的无参考图像质量评价系统，所述系统包括图像获取模块、镜像图像处理模块、模型构建模块、模型训练模块以及质量评估模块，其中：

所述图像获取模块，用于确定待进行无参考图像质量评估的目标失真图像；

所述镜像图像处理模块，用于对所述目标失真图像进行水平翻转，得到相应的目标镜像图像；

所述模型构建模块，用于构建初始质量评价模型，所述初始质量评价模型包括用于从图像中提取局部特征的第一、二Resnet50网络、以及用于从图像中提取出非局部特征的第一、二Vision Transformer网络；

所述模型训练模块，用于将所述目标失真图像输入到第一Resnet50网络以及第一Vision Transformer网络中，将所述目标镜像图像输入到第二Resnet50网络以及第二Vision Transformer网络中进行模型训练，训练过程中，通过深度互学习的方式对图像间的局部特征、以及非局部特征进行一致性约束，以提高评估精准度，以及通过融合图像的局部、非局部特征，确定模型输出结果；

所述质量评估模块，用于在结束模型训练时，得到目标质量评价模型，将待评估图像输入到所述目标质量评价模型中，得到待评估图像的预测质量评价分数。

第三方面，本申请实施例还提供了一种可读存储介质，所述可读存储介质中包括基于深度互学习和双尺度特征融合的无参考图像质量评价方法程序，所述基于深度互学习和双尺度特征融合的无参考图像质量评价方法程序被处理器执行时，实现如上述任一项所述的一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法的步骤。

由上可知，本申请实施例提供的一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法、系统及可读存储介质，一方面，在充分考虑图像的自一致性的情况下，即原图像与其水平翻转后得到的镜像图像对于人类视觉系统来说应该是相同的，这两种版本的图像应该具有相同的评价分数，通过深度互学习的方式对原图像以及镜像图像之间的局部特征、以及非局部特征进行一致性约束，利用无参考图像的自一致性弥补了运用无参考方法时参考图像的缺失，增强了网络的特征提取能力，减小了图像经水平翻转后带来的预测偏差。另一方面，利用拟合能力强大的深度学习技术，进行图像局部特征和非局部特征的双尺度特征融合，使得提取出来的图像质量感知特征能够很好地反映原图像中对人眼感知发挥重要作用的全局质量特征，进一步保证评估准确度。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法的流程图；

图2为Resnet50网络的结构示意图；

图3为Vision Transformer网络的结构示意图；

图4为Transformer Encoder网络的结构示意图；

图5为本申请实施例提供的一种基于深度互学习和双尺度特征融合的无参考图像质量评价系统的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1是本申请一些实施例中的一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法的流程图。该方法包括以下步骤：

步骤S100，确定待进行无参考图像质量评估的目标失真图像。

具体的，在进行模型训练之前，会先获取用于进行无参考图像质量评估的图像数据集，并将其划分为训练集和测试集，其中，训练集用于进行模型训练，测试集用于评估模型的性能。当前实施例中，不对训练集和测试集的划分比例进行限定，不同实施例中可以进行灵活调整。

需要说明的是，当前实施例中选择的图像数据集为包含真实失真的大规模自然失真数据集。其包含经由一千多个不同型号的相机拍摄得到的共计10073张图像，其中，图像分辨率包含两种，分别为1024×768和512×384。当前实施例中，将选择分辨率为1024×768的图像数据集，并从中随机选取80％图像组成训练集，选取剩余的20％图像组成测试集。

步骤S200，对目标失真图像进行水平翻转，得到相应的目标镜像图像。

具体的，可以采用图像处理工具，例如PS对目标失真图像进行水平翻转，由于对图像进行水平翻转并不是本方案的核心创新点，当前实施例对此不做过多说明。

步骤S300，构建初始质量评价模型，初始质量评价模型包括用于从图像中提取局部特征的第一、二Resnet50网络、以及用于从图像中提取出非局部特征的第一、二VisionTransformer网络。

具体的，初始质量评价模型包括2个Resnet50网络和2个Vision Transformer网络，其中，同样类型的网络之间参数的初始化方式不同，具体可以参考后续内容。

步骤S400，将目标失真图像输入到第一Resnet50网络以及第一VisionTransformer网络中，将目标镜像图像输入到第二Resnet50网络以及第二VisionTransformer网络中进行模型训练，训练过程中，通过深度互学习的方式对图像间的局部特征、以及非局部特征进行一致性约束，以提高评估精准度，以及通过融合图像的局部、非局部特征，确定模型输出结果。

具体的，第一Resnet50网络以及第二Resnet50网络分别将原图像(即目标失真图像)和其水平翻转后得到的镜像图像(即目标镜像图像)作为网络输入，得到的输出为原图像的局部特征表示以及镜像图像的局部特征表示，第一Vision Transformer网络以及第二Vision Transformer网络分别将原图像和其水平翻转后得到的镜像图像作为网络输入，得到的输出为原图像的非局部特征表示以及镜像图像的非局部特征表示。

当前实施例中，充分考虑图像的自一致性的情况下，对得到的各项局部特征、以及非局部特征进行深度互学习，并在模型的训练过程中进行一致性约束，减小了图像经水平翻转后带来的预测偏差，提高图像质量评估精准度。

最终，在进行图像质量评估时，会先分别对输入图像的局部特征、以及非局部特征进行平均池化操作，之后再将得到的池化结果拼接到一起后，经由预设的全连接层进行输出。

在其中一个实施例中，上述的图像质量评估过程可以通过下述公式进行表示：

其中，Score表示预测得到的图像质量评价分数，

表示输入图像的局部特征，

表示输入图像的非局部特征，AvgPool(*)表示平均池化操作，Concat(*)表示连接操作，FC表示预设的全连接层。

步骤S500，在结束模型训练时，得到目标质量评价模型，将待评估图像输入到目标质量评价模型中，得到待评估图像的预测质量评价分数。

具体的，可以采用皮尔逊线性相关系数(PLCC)和斯皮尔曼秩次相关系数(SROCC)评价网络模型效果的好坏。其中，皮尔逊线性相关系数(PLCC)是从客观质量评价方法预测的准确度角度进行性能评估，斯皮尔曼秩次相关系数(SROCC)侧重度量图像客观质量预测分数的单调一致性，其值的高低只与图像在预测结果中的排序结果有关，减少对预测值与真实值的相对距离的考虑。

需要说明的是，在图像质量评估任务中，皮尔逊线性相关系数(PLCC)和斯皮尔曼秩次相关系数(SROCC)的取值越接近1，则表明网络模型效果越好，当前实施例中不对皮尔逊线性相关系数(PLCC)和斯皮尔曼秩次相关系数(SROCC)的计算公式进行限定。

由上可知，一方面，在充分考虑图像的自一致性的情况下，即原图像与其水平翻转后得到的镜像图像对于人类视觉系统来说应该是相同的，这两种版本的图像应该具有相同的评价分数，通过深度互学习的方式对原图像以及镜像图像之间的局部特征、以及非局部特征进行一致性约束，利用无参考图像的自一致性弥补了运用无参考方法时参考图像的缺失，增强了网络的特征提取能力，减小了图像经水平翻转后带来的预测偏差。另一方面，利用拟合能力强大的深度学习技术，进行图像局部特征和非局部特征的双尺度特征融合，使得提取出来的图像质量感知特征能够很好地反映原图像中对人眼感知发挥重要作用的全局质量特征，进一步保证评估准确度。

在其中一个实施例中，步骤S100中，确定待进行无参考图像质量评估的目标处理对象，包括：

步骤S1000，获取待进行无参考图像质量评估的初始处理对象，并按照预设的数据处理方法对初始处理对象进行预处理，得到相应的目标处理对象，其中，所述数据处理方法包括用于平滑去除图像中的随机噪声的图像去噪方法、用于对图像进行随机剪切，以将图像的分辨率调整至预设大小的分辨率统一方法、用于补全图像中的缺失部分的图像复原方法以及用于加强或抑制图像中的关键信息，以改善图像的视觉效果的图像增强方法中的至少一种。

具体的：

(1)常用的图像去噪方法包括高斯滤波(用一个模板(或称卷积、掩模)扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值)、中值滤波(通过对邻域内所有像素的排序，然后取其中值为邻域中心的像素)等，本申请实施例不对其进行限定。

(2)在进行分辨率统一处理时，将处理图像进行随机的剪切，以将图像的分辨率调整至224×224，使得处理图像能够符合Resnet50网络和Vision Transformer网络的输入规格、以及保留原图像中更多对质量评价有用的信息，提高评估精准度。

(3)图像复原，即利用退化过程的先验知识，去恢复已被退化图像的本来面目，其中，图像复原的基本思路包括先建立图像复原模型，然后再根据该模型对退化图像进行拟合。

在其中一个实施例中，图像复原模型可以用连续数学和离散数学处理，处理项的实现可在空间域卷积，或在频域相乘。

(4)图像增强是将原来不清晰的图像变得清晰、或强调某些感兴趣的特征，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果。

需要说明的是，图像增强的方法是通过一定手段对原图像附加一些信息或变换数据，有选择地突出图像中感兴趣的特征或者抑制(掩盖)图像中某些不需要的特征，使图像与视觉响应特性相匹配。

上述实施例，通过对训练图像进行预处理，可以避免训练图像中出现噪声以及改善图像的视觉效果，实现图像质量的有效提高。

在其中一个实施例中，请参考图2，Resnet50网络包括依次连接的初始卷积层、最大池化层以及由4个残差块层构成的残差网络，其中：初始卷积层的卷积核大小为7×7×64，步幅为2，用于对输入图像进行卷积运算，以将其转化为2维的目标特征向量；最大池化层，用于基于目标特征向量，在保证特征不变的情况下进行特征降维处理，以保留图像的显著特征；残差网络，用于通过增加相当的深度，以提高特征提取精准度。

上述实施例，充分利用了CNN感知图像局部特征的优势，加强了图像局部特征的学习，提升了网络在图像质量评估上的性能。

在其中一个实施例中，请参考图2，第一残差块层中包含由3个依次排列的卷积核组成的第一卷积核组，第一卷积核组的大小为[1×1×64,3×3×64,1×1×256]，其中，经由第一残差块层输出的第一特征向量的通道数为256；第二残差块层中包含由4个依次排列的卷积核组成的第二卷积核组，第二卷积核组的大小为[1×1×128,3×3×128,1×1×512]，其中，经由第二残差块层输出的第二特征向量的通道数为512；第三残差块层中包含由6个依次排列的卷积核组成的第三卷积核组，第三卷积核组的大小为[1×1×256,3×3×256,1×1×1024]，其中，经由第三残差块层输出的第三特征向量的通道数为1024；第四残差块层中包含由3个依次排列的卷积核组成的第四卷积核组，第四卷积核组的大小为[1×1×512,3×3×512,1×1×2048]，其中，经由第四残差块层输出的第四特征向量的通道数为2048。

上述实施例，结合深度残差网络，能够有效从图像中提取处的浅层、以及深层特征，通过增加相当的深度，能够提高特征提取精准度。

在其中一个实施例中，请参考图3，Vision Transformer网络包括PatchEmbedding网络、以及Transformer Encoder网络，其中：Patch Embedding网络的卷积核大小为8×8，卷积步幅为8，用于对输入图像进行卷积运算，以将其转化为2维的特征向量

其中，N＝HW/P²表示最终的块数，其也用作Transformer Encoder网络的有效输入序列长度，(H，W)表示输入图像的分辨率，(P，P)表示输入图像中每个图像块的分辨率。

具体的，Patch Embedding网络的特征映射总数为768个。实际应用的过程中，Patch Embedding网络会将输入图像通过卷积运算操作转化为2维的特征向量，并将其特征总数映射到Transformer Encoder网络中所恒定使用的大小，即768维，以使得其满足Transformer Encoder网络的输入要求。

请参考图4，Transformer Encoder网络包括依次连接的Layer Norm层、Multi-Head Attention层以及MLP层，其中：Multi-Head Attention层的计算公式包括：

其中，Q表示输入向量对应的查询矩阵，K表示预设的键矩阵，V表示预设的值矩阵，d_k表示输入向量的维度，T表示矩阵的转置；softmax(*)表示激活函数；head_i表示第i个头，W₁表示一个可学习的权值矩阵，Concat(*)表示连接操作。

需要说明的是，多头注意力就是在多个不同的投影空间中建立不同的投影信息。其会将输入矩阵，进行不同方向的投影，并在得到相应输出矩阵之后，将其拼接在一起。

这一过程类似于集成，其中，多头和单头的区别在于复制多个单头，但其中涉及到的权重系数会不一样，类比于一个神经网络模型与多个一样的神经网络模型，但由于初始化不一样，会导致权重不一样。head_i表示第i个头，其可以设定为12。

具体的，Layer Norm层用来对特征向量进行层归一化操作。Multi-HeadAttention(MSA)层中注意力模块的计算公式上述的Attention(Q，K，V)，其具体的计算形式可以参考上述公式。激活函数softmax的计算公式为

其中，e^j表示第j个分量取到的指数值，eⁱ表示第i个分量取到的指数值。

在其中一个实施例中，Transformer Encoder网络通过下述公式进行表示：

其中，z₀表示经由Patch Embedding网络处理得到的特征向量再加上class编码x_class、以及位置编码后E_pos得到的结果；

表示输入图像经过Patch Embedding网络进行处理后得到的第一个特征切片；LN(*)表示Layer Norm层，MSA(*)表示Multi-Head Attention层，MLP(*)表示MLP层；z_t-1表示经由Transformer Encoder网络中第t-1层输出的输出特征，z′_t表示经由Transformer Encoder网络中第t层输出的中间输出特征，z_t表示经由Transformer Encoder网络中第t层输出的最终输出特征；L表示Transformer Encoder网络的深度，

表示将class编码作为特征经过Transformer Encoder网络进行处理后得到的输出。

上述实施例，结合Vision Transformer网络感知图像非局部特征的优势，加强了图像非局部特征的学习，提升了网络在图像质量评估上的性能。

在其中一个实施中，训练过程中，该方法还包括：基于预先构建的一致性损失函数、以及均方误差损失函数进行模型约束，其中，一致性损失函数、以及均方误差损失函数通过下述公式进行表示：

上式中，L₁表示经由第一Resnet50网络以及第一Vision Transformer网络组成的整个网络所使用的第一损失函数，L₂表示经由第二Resnet50网络以及第二VisionTransformer网络组成的整个网络所使用的第二损失函数；s表示模型输出结果，g表示基准结果，B表示训练时一个批次的大小；L_mse表示均方误差损失函数，L_con表示一致性损失函数；

表示经由第一Resnet50网络输出的第一局部特征，

表示经由第二Resnet50网络输出的第二局部特征；

表示经由第一Vision Transformer网络输出的第一非局部特征，

表示经由第二Vision Transformer网络输出的第二非局部特征；

表示二范数，f₁和f₂在损失函数L_con中表示同种、但不同样的局部、或非局部特征。

请参考图5，其为一种基于深度互学习和双尺度特征融合的无参考图像质量评价系统，该系统500包括图像获取模块501、镜像图像处理模块502、模型构建模块503、模型训练模块504以及质量评估模块505，其中：

图像获取模块501，用于确定待进行无参考图像质量评估的目标失真图像。

镜像图像处理模块502，用于对目标失真图像进行水平翻转，得到相应的目标镜像图像。

模型构建模块503，用于构建初始质量评价模型，初始质量评价模型包括用于从图像中提取局部特征的第一、二Resnet50网络、以及用于从图像中提取出非局部特征的第一、二Vision Transformer网络。

模型训练模块504，用于将目标失真图像输入到第一Resnet50网络以及第一Vision Transformer网络中，将目标镜像图像输入到第二Resnet50网络以及第二VisionTransformer网络中进行模型训练，训练过程中，通过深度互学习的方式对图像间的局部特征、以及非局部特征进行一致性约束，以提高评估精准度，以及通过融合图像的局部、非局部特征，确定模型输出结果。

质量评估模块505，用于在结束模型训练时，得到目标质量评价模型，将待评估图像输入到所述目标质量评价模型中，得到待评估图像的预测质量评价分数。

在其中一个实施例中，上述各模块还用于实现上述实施例的任一可选的实现方式中的方法，本申请实施例对此不做限定。

由上可知，本申请公开的一种基于深度互学习和双尺度特征融合的无参考图像质量评价系统，一方面，在充分考虑图像的自一致性的情况下，即原图像与其水平翻转后得到的镜像图像对于人类视觉系统来说应该是相同的，这两种版本的图像应该具有相同的评价分数，通过深度互学习的方式对原图像以及镜像图像之间的局部特征、以及非局部特征进行一致性约束，利用无参考图像的自一致性弥补了运用无参考方法时参考图像的缺失，增强了网络的特征提取能力，减小了图像经水平翻转后带来的预测偏差。另一方面，利用拟合能力强大的深度学习技术，进行图像局部特征和非局部特征的双尺度特征融合，使得提取出来的图像质量感知特征能够很好地反映原图像中对人眼感知发挥重要作用的全局质量特征，进一步保证评估准确度。

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述可读存储介质，一方面，在充分考虑图像的自一致性的情况下，即原图像与其水平翻转后得到的镜像图像对于人类视觉系统来说应该是相同的，这两种版本的图像应该具有相同的评价分数，通过深度互学习的方式对原图像以及镜像图像之间的局部特征、以及非局部特征进行一致性约束，利用无参考图像的自一致性弥补了运用无参考方法时参考图像的缺失，增强了网络的特征提取能力，减小了图像经水平翻转后带来的预测偏差。另一方面，利用拟合能力强大的深度学习技术，进行图像局部特征和非局部特征的双尺度特征融合，使得提取出来的图像质量感知特征能够很好地反映原图像中对人眼感知发挥重要作用的全局质量特征，进一步保证评估准确度。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度互学习和双尺度特征融合的无参考图像质量评价方法，其特征在于，包括以下步骤：

确定待进行无参考图像质量评估的目标失真图像；

构建初始质量评价模型，所述初始质量评价模型包括用于从图像中提取局部特征的第一、二Resnet50网络、以及用于从图像中提取出非局部特征的第一、二Vision Transformer网络；

2.根据权利要求1所述的方法，其特征在于，所述确定待进行无参考图像质量评估的目标处理对象，包括：

获取待进行无参考图像质量评估的初始处理对象，并按照预设的数据处理方法对所述初始处理对象进行预处理，得到相应的目标处理对象，其中，所述数据处理方法包括用于平滑去除图像中的随机噪声的图像去噪方法、用于对图像进行随机剪切，以将图像的分辨率调整至预设大小的分辨率统一方法、用于补全图像中的缺失部分的图像复原方法以及用于加强或抑制图像中的关键信息，以改善图像的视觉效果的图像增强方法中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述Resnet50网络包括依次连接的初始卷积层、最大池化层以及由4个残差块层构成的残差网络，其中：

所述初始卷积层的卷积核大小为7×7×64，步幅为2，用于对输入图像进行卷积运算，以将其转化为2维的目标特征向量；

所述最大池化层，用于基于所述目标特征向量，在保证特征不变的情况下进行特征降维处理，以保留图像的显著特征；

所述残差网络，用于通过增加相当的深度，以提高特征提取精准度。

4.根据权利要求3所述的方法，其特征在于，第一残差块层中包含由3个依次排列的卷积核组成的第一卷积核组，所述第一卷积核组的大小为[1×1×64,3×3×64,1×1×256]，其中，经由所述第一残差块层输出的第一特征向量的通道数为256；

第二残差块层中包含由4个依次排列的卷积核组成的第二卷积核组，所述第二卷积核组的大小为[1×1×128,3×3×128,1×1×512]，其中，经由所述第二残差块层输出的第二特征向量的通道数为512；

第三残差块层中包含由6个依次排列的卷积核组成的第三卷积核组，所述第三卷积核组的大小为[1×1×256,3×3×256,1×1×1024]，其中，经由所述第三残差块层输出的第三特征向量的通道数为1024；

第四残差块层中包含由3个依次排列的卷积核组成的第四卷积核组，所述第四卷积核组的大小为[1×1×512,3×3×512,1×1×2048]，其中，经由所述第四残差块层输出的第四特征向量的通道数为2048。

5.根据权利要求1所述的方法，其特征在于，所述Vision Transformer网络包括PatchEmbedding网络、以及Transformer Encoder网络，其中：

所述Patch Embedding网络的卷积核大小为8×8，卷积步幅为8，用于对输入图像进行卷积运算，以将其转化为2维的特征向量

其中，N＝HW/P²表示最终的块数，其也用作Transformer Encoder网络的有效输入序列长度，(H，W)表示输入图像的分辨率，(P，P)表示输入图像中每个图像块的分辨率；

所述Transformer Encoder网络包括依次连接的Layer Norm层、Multi-HeadAttention层以及MLP层，其中：

所述Multi-Head Attention层的计算公式包括：

6.根据权利要求5所述的方法，其特征在于，所述Transformer Encoder网络通过下述公式进行表示：

表示输入图像经过Patch Embedding网络进行处理后得到的第一个特征切片；LN(*)表示Layer Norm层，MSA(*)表示Multi-Head Attention层，MLP(*)表示MLP层；z_t-1表示经由Transformer Encoder网络中第t-1层输出的输出特征，z′_t表示经由Transformer Encoder网络中第t层输出的中间输出特征，z_t表示经由TransformerEncoder网络中第t层输出的最终输出特征；L表示Transformer Encoder网络的深度，

7.根据权利要求1所述的方法，其特征在于，训练过程中，所述方法还包括：

基于预先构建的一致性损失函数、以及均方误差损失函数进行模型约束，其中，所述一致性损失函数、以及均方误差损失函数通过下述公式进行表示：

上式中，L₁表示经由第一Resnet50网络以及第一Vision Transformer网络组成的整个网络所使用的第一损失函数，L₂表示经由第二Resnet50网络以及第二Vision Transformer网络组成的整个网络所使用的第二损失函数；s表示模型输出结果，g表示基准结果，B表示训练时一个批次的大小；L_mse表示均方误差损失函数，L_con表示一致性损失函数；

表示经由第一Resnet50网络输出的第一局部特征，

表示经由第二Resnet50网络输出的第二局部特征；

表示经由第一Vision Transformer网络输出的第一非局部特征，

表示经由第二Vision Transformer网络输出的第二非局部特征；

8.一种基于深度互学习和双尺度特征融合的无参考图像质量评价系统，其特征在于，所述系统包括图像获取模块、镜像图像处理模块、模型构建模块、模型训练模块以及质量评估模块，其中：

9.一种可读存储介质，其特征在于，所述可读存储介质中包括基于深度互学习和双尺度特征融合的无参考图像质量评价方法程序，所述基于深度互学习和双尺度特征融合的无参考图像质量评价方法程序被处理器执行时，实现如权利要求1至7中任一项所述的方法的步骤。