CN116168008A

CN116168008A - 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法

Info

Publication number: CN116168008A
Application number: CN202310226876.7A
Authority: CN
Inventors: 刘允; 王嘉仪; 武靖恺; 白岩
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-05-26

Abstract

一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法：1.构建训练数据集，从LIVE和IVC立体图像数据集中，随机选取80％图像作为训练集进行多尺度处理。2.将左、右图像的多尺度图像分别输入到各自的Transformer编码器中，得到各自的单目特征。3.将单目特征进行双目组合，从而得到双目特征。4.将单目特征和双目特征放入全连通层中，预测图像质量评分。本发明所述的基于双目组合和多尺度Transformer质量评价模型在国际主流的数据集上取得了优异的性能，与目前主流算法相比具有较好的竞争力。

Description

一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法

技术领域

本发明涉及无参考立体图像质量评价领域，尤其涉及一种双目组合和多尺度Transformer处理机制的无参考评价方法。

背景技术

立体图像质量评分为主观质量评价和客观质量两种，其中主观质量评估是完全符合人眼的感知过程，通过参与者现场对立体图像感受来决定质量好坏，但该方法既费时又不具有实时性。其次，客观质量评价方法的主体是计算机模型，通过机器学习模型或深度学习模型等方法来判断图像质量好坏的方法。因而，建立一个能够有效并且准确地判断3D图像视觉感知质量的客观质量评价方法至关重要。客观图像质量评价方法根据使用参考图像信息的多少可以分为以下三类：全参考质量评价方法、半参考质量评价方法和无参考质量评价方法。其中FR-IQA需要使用原始图像的全部信息，RR-IQA需要使用原始图像的部分信息，而NR-IQA不需要原始图像的任何信息。由于参考图像在日常生活中难以获得，这使得NR-IQA更加实用和流行。因此，建立一个有效的无参考立体图像质量评价客观模型是十分有必要的和亟待解决的问题。

早期立体图像质量评价方法只考虑到图像的单目质量，其质量评价仅取决于左右单视图的质量评分。与传统二维视觉感知不同，立体图像视觉感知质量不仅仅取决于左右视图的质量，还需要考虑双目视觉信息。由于左眼和右眼接收到刺激的相似/不同程度，导致大脑视觉皮层出现不同双目现象。双目融合现象所产生的原因是左眼和右眼所接收的刺激相同或非常相似，双目竞争现象是由于左眼和右眼收到的刺激是充分不同的。为了更好的解释人眼的双目融合和双目竞争机制，研究者提出了双通道感知机制，其基本原理是通过左右图像之和和左右图像之差构成求和图像和差分图像来模拟人眼的双目融合和双目竞争现象。求和图像反映了人眼双目感知中的融合机制，差分图像反映了立体感知中的视差信息。

图像质量受局部细节和全局细节的影响。因此输入图像进行多尺度表示，这有利于许多视觉任务。利用多尺度图像表示，可以捕捉不同粒度下的图像质量。

近年来，随着计算能力的提高，卷积神经网络CNN在图像处理方面取得了很大进展，如图像质量评估、图像深度感知检测、图像分割等。CNN已被证明在解决计算机视觉问题方面是有效的，同时为解决图像质量评价方面的找到了一种新的方向。与此同时，一些图像质量评价Transformer也随之而来。使用图像质量评价Transformer可以处理具有任意长宽比或分辨率的图像，并允许特征提取。来自不同比例的表面使Transformer能够跨多个比例和空间位置聚合信息。

发明内容

本发明提出一种基于双目组合和多尺度Transformer的无参考立体图像质量评价算法，能够较好地模拟人眼视觉感知过程。

本发明的目的是通过下述技术方案实现的：一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法，其步骤为：

1)从立体图像数据集中选取预训练数据集，并对数据集中的图像进行多尺度预处理；

具体方法为：将左右图像进行多尺度预处理，首先将左右图像的比例减少到一半，再将左右图像的比例再次减少到一半，这两种左右图像和原始的左右图像共同构成多尺度图像。

2)将左右多尺度图像输入到多尺度Transformer编码器，得到单目特征；

具体方法为：将左右多尺度图像输入到多尺度Transformer编码器，多尺度Transformer编码器由三个编码组件组成，分别为多尺度补丁嵌入、空间嵌入和尺度嵌入；在多尺度补丁嵌入过程中，多尺度图像由高度H_n，宽度L_n和通道C组成，其中n＝1，...，N，N为每个输入调整大小的变量的数量；从多尺度表示的每张图像中提取大小为M的正方形补片，对宽度或高度不是M倍数的图像使用相应的零填充图像；调整大小的补丁数量计算为

在空间嵌入过程中，将补丁运用到哈希网络进行处理，位于第x行，第y列的补丁被散列到G×G网格中的对应元素，网格中的每个元素都是D维嵌入的，如果可学习矩阵为，输入分辨率为H×L，则将输入图像划分为

块；对于位于(x，y)的每个补丁，其位于(p_x，p_y)的元素P定义的空间嵌入为

在尺度嵌入过程中，对于Q∈R^(N+1)×D中具有N尺度调整变量的输入图像，将第一个元素添加到局部分辨率图像的所有D维补丁嵌入中；Q_n∈R^D，n＝1，...，N也加到从图像的n缩放尺度嵌入的所有补丁上，多尺度Transformer编码器输出结果为单目特征。

3)将单目特征进行双目组合，从而得到双目特征；

具体方法为：为了模拟人眼视觉感知过程中的双眼融合和双眼竞争机制，将得到的单目特征进行求和和求差操作，得到双目特征，所述的处理机制具体为：如下所示：

sum＝F_L+F_R (3)

dif＝F_L-F_R (4)

其中F_L和F_R分别是左、右图像的单目特征，sum为求和操作，代表人眼感知过程中的双目融合；dif为差分操作，代表人眼感知过程中的双目竞争；然后，求和操作和差分操作得到的特征共同组成了双目特征。

4)将单目特征和双目特征放入全连通层中，预测图像质量评分；

具体方法为：将单目特征和双目特征送入全连接层进行立体图像块的质量预测，最后的质量预测应用于MLP磁头的预测。MLP头由两个完全连接层组成，第一个FC层应用于ReLU激活之后，第二个FC层包含一个可以预测单个分数的通道，最终的目标分数是所有图像的预测质量分数的平均值。

本发明创造的有益效果是：

1、考虑到不同尺度图像信息在视觉感知上的重要性，本发明对图像进行多尺度处理，可以提取更丰富的单目和双目视觉特征；

2、在学习到的单目视觉特征基础上提取双目视觉特征，更符合人类的立体视觉感知特性，进而可以获得更有效的双目视觉特征；

3、通过提取单目视觉特征和双目视觉特征两类视觉特征，可以有效互补并反映立体视觉感知效果的损失程度。

4、本方法在国际主流的数据集上进行实验，在评价指标PLCC、SRCC上取得了优异的性能，与目前主流算法相比具有较好的竞争力。

附图说明

图1：算法整体流程图；

图2：Transformer编码器结构图；

图3：求和和差分特征操作图。

具体实施方式

下面将结合本发明创造实施例中的附图，对本发明创造实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明创造一部分实施例，而不是全部的实施例。基于本发明创造中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明创造保护的范围。

实施例1

本发明实例1提供了一种基于双目组合和多尺度Transformer的无参考立体图像质量评价算法，下面结合附图对本发明做进一步阐述。本发明按以下步骤具体实现：

第一步，对用于训练的LIVE 3D和IVC 3D数据集中的原始立体图像进行预处理。首先，对于上述数据集中的图像，选取80％的数据作为训练数据。将用于训练的原始立体图像进行多尺度处理，首先将左右图像的比例减少到一半，再将左右图像的比例再次减少到一半，这两种左右图像和原始的左右图像共同构成多尺度图像。

第二步，将左右多尺度图像输入到多尺度Transformer编码器，多尺度Transformer编码器由三个编码组件组成，分别为多尺度补丁嵌入、空间嵌入和尺度嵌入。在多尺度补丁嵌入过程中，多尺度图像由高度H_n，宽度L_n和通道C组成，其中n＝1，...，N，N为每个输入调整大小的变量的数量。从多尺度表示的每张图像中提取大小为M的正方形补片，对宽度或高度不是M倍数的图像使用相应的零填充图像。调整大小的补丁数量计算为

在空间嵌入过程中，将补丁运用到哈希网络进行处理，位于第x行，第y列的补丁被散列到G×G网格中的对应元素，网格中的每个元素都是D维嵌入的。如果可学习矩阵为，输入分辨率为H×L，则将输入图像划分为

块。对于位于(x，y)的每个补丁，其位于(p_x，p_y)的元素P定义的空间嵌入为/>

在尺度嵌入过程中，对于Q∈R^(N+1)×D中具有N尺度调整变量的输入图像，将第一个元素添加到局部分辨率图像的所有D维补丁嵌入中。Q_n∈R^D，n＝1，...，N也加到从图像的n缩放尺度嵌入的所有补丁上。多尺度Transformer编码器输出结果为单目特征。

第三步，为了模拟人眼视觉感知过程中的双眼融合和双眼竞争机制，将得到的单目特征进行求和和求差操作，得到双目特征，所述的处理机制具体为：如下所示：

sum＝F_L+F_R (3)

dif＝F_L-F_R (4)

实验性能指标：

使用三个IQA领域主流的性能标准来验证和分析图像质量评价方法性能：皮尔逊线性相关(PLCC)和斯皮尔曼秩序相关系数(SROCC)。其中PLCC和SROCC值越高，性能越好。当PLCC＝SROCC＝1为最佳性能。为了避免偶然性的影响，经过1000次迭代后，取PLCC、SROCC的平均值作为最终结果。

N代表测试图像数量，O_u和P_u分别为预测数据集中所有图像的主观质量分数均值和客观质量分数均值，O_i和P_i表示测试图像的第i幅数据集提供的主观质量分数和通过模型预测的质量分数。PLCC表示预测的图像质量分数和数据集提供的质量分数之间的线性一致性。

其中，

和/>

代表排好序的第i个图像的数据集提供的主观分数和模型预测的分数。SROCC表示预测的质量分数和数据集提供的主观分数之间的单调性。

为了证明所提出的基于双目组合和多尺度Transformer的NR-SIQA模型的有效性，在LIVE 3D PHASE I和LIVE 3D PHASE II数据集上，将所提方法与现有的3个FR-SIQA模型：SSIM、ADD-GSIM和Wang2018和5个NR-SIQA模型：Jiang2019、Zhou2020、Shi2020、Li2022和Si2022进行模型性能比较。需要指出的是这些模型的性能指标均来源于其原创论文。实验结果如表1所示。

表1：LIVE 3D数据集上整体性能比较表

从表1中可以看出，本发明提出的模型在PLCC和SROCC性能指标中都取得了最好的效果，证明本发明所提出SIQA模型的优越性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法，其特征在于，其步骤为：

3)将单目特征进行双目组合，从而得到双目特征；

4)将单目特征和双目特征放入全连通层中，预测图像质量评分。

2.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法，其特征在于，所述的1)中，具体方法为：将左右图像进行多尺度预处理，首先将左右图像的比例减少到一半，再将左右图像的比例再次减少到一半，这两种左右图像和原始的左右图像共同构成多尺度图像。

3.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法，其特征在于，所述的2)中，具体方法为：将左右多尺度图像输入到多尺度Transformer编码器，多尺度Transformer编码器由三个编码组件组成，分别为多尺度补丁嵌入、空间嵌入和尺度嵌入；在多尺度补丁嵌入过程中，多尺度图像由高度H_n，宽度L_n和通道C组成，其中n＝1，...，N，N为每个输入调整大小的变量的数量；从多尺度表示的每张图像中提取大小为M的正方形补片，对宽度或高度不是M倍数的图像使用相应的零填充图像；调整大小的补丁数量计算为

4.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法，其特征在于，所述的3)中，具体方法为：为了模拟人眼视觉感知过程中的双眼融合和双眼竞争机制，将得到的单目特征进行求和和求差操作，得到双目特征，所述的处理机制具体为：如下所示：

sum＝F_L+F_R (3)

dif＝F_L-F_R (4)

5.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法，其特征在于，所述的4)中，具体方法为：将单目特征和双目特征送入全连接层进行立体图像块的质量预测，最后的质量预测应用于MLP磁头的预测。MLP头由两个完全连接层组成，第一个FC层应用于ReLU激活之后，第二个FC层包含一个可以预测单个分数的通道，最终的目标分数是所有图像的预测质量分数的平均值。