CN117636134A

CN117636134A - 基于层级移动窗口注意力的全景图像质量评价方法与系统

Info

Publication number: CN117636134A
Application number: CN202410101453.7A
Authority: CN
Inventors: 鄢杰斌; 饶家乐; 刘学林; 方玉明; 姜文晖; 刘扬
Original assignee: Shengjing Intelligent Technology Jiaxing Co ltd; Jiangxi University of Finance and Economics
Current assignee: Shengjing Intelligent Technology Jiaxing Co ltd; Jiangxi University of Finance and Economics
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-03-01
Anticipated expiration: 2044-01-25
Also published as: CN117636134B

Abstract

本发明提出一种基于层级移动窗口注意力的全景图像质量评价方法与系统，该方法包括，基于层级移动窗口注意力构建多尺度特征提取网络，将视口图像通过不同层级的多尺度特征提取网络，以获得不同尺度的非均匀质量感知特征，再进行融合，获得多尺度感知特征，自动调节不同视口维度和通道维度的权重以获取通道特征，融合通道特征和多尺度感知特征，得到多视口融合特征，将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。本发基于层级移动窗口注意力进行多尺度特征提取，可以同时捕捉局部细节和全局结构，从而更好地理解非均匀失真图像的内容，适应非均匀图像中的物体可能具有不同的尺度，从而提高对非均匀失真的鲁棒性。

Description

基于层级移动窗口注意力的全景图像质量评价方法与系统

技术领域

本发明涉及计算机视觉和多媒体数字图像处理技术领域，特别涉及一种基于层级移动窗口注意力的全景图像质量评价方法与系统。

背景技术

虚拟现实（VR）是一种可以创建和体验虚拟世界的计算机仿真技术。它利用计算机技术模拟人的视听和触觉等感官体验，使用户仿佛身临其境地进入一个虚拟的世界。全景图像（OI）是VR显示的核心组成部分，能够提供全面的视角和强烈的沉浸感，从而使用户能够更加深入地体验虚拟环境。然而OI图像在采集、压缩、传输、重建、显示过程中会面临多种质量问题。因此，准确估计OI的质量对于系统优化和算法优化都非常重要。一般来说，根据客观算法对参考图像的依赖程度，现有的OI图像客观评价方法主要有全参考OIQA（FR-OIQA）和无参考/盲OIQA（NR-/BOIQA）。FR-OIQA在部署时需要使用参考信息，而NR-/BOIQA可以在没有参考信息的情况下评估OI质量，因此NR-/BOIQA更实用也是研究热点。

随着近年来深度学习技术的不断进步，基于神经网络的深度学习方法逐渐成为质量评价研究和应用领域中备受关注的主流。根据OI输入模型方式的不同，OIQA可以分为基于等距投影及其他投影空间方式和基于视口的方式两种。第一种OIQA模型，直接将投影表达空间的图像作为输入或将投影表达空间图像分成图像块作为输入，这种方式数据处理简单且计算复杂度低。第二种OIQA模型，模拟用户在现实观看OI内容时的真实过程，将视口图像作为输入。这种方式数据的视觉内容和用户实际观看到的具有一致性。尽管现有的模型在均匀失真的OI上显示出不错的结果，但它们在非均匀失真的OI上的性能不理想。

为此，需要提出一种高效、准确的全景图像质量评价方法用于评价非均匀失真全景图像的质量，提出这种方法的目的在于：

1、开发专门的非均匀特征提取模块，以精准捕捉具有质量感知的特征，获取对非均匀失真特征敏感的信息。通过引导模型有效区分各种非均匀失真类型，提升特征的可辨别性。为图像处理领域提供更为高效的特征提取手段；

2、通过深入研究建模，致力于设计自适应选择不同视口的非均匀失真信息。通过应用多视口非均匀失真特征聚合模块，增强特征表示，有助于推动深度学习OIQA模型的发展。

因此，高效准确地评估非均匀失真全景图像的盲图像质量评价方法对于图像质量评价领域的发展乃至计算机视觉领域的发展都会有很大的促进作用。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于层级移动窗口注意力的全景图像质量评价方法与系统，以解决上述技术问题。

本发明提出了一种基于层级移动窗口注意力的全景图像质量评价方法，所述方法包括如下步骤：

S1、获取全景图像赤道区域的视口图像，对视口图像进行图像预处理；

S2、基于层级移动窗口注意力构建多尺度特征提取网络，将预处理后视口图像通过不同层级的多尺度特征提取网络，以获得不同尺度的非均匀质量感知特征；

S3、对不同尺度的非均匀质量感知特征进行融合，以提高对非均匀失真在局部和全局的敏感性，得到多尺度感知特征；

S4、自动调节不同视口维度和通道维度的权重，以获取不同视口图像的感知重要性，对视口中不同通道的重要性进行选择，定位不同失真类型和程度的通道以获取通道特征；

S5、融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构，得到多视口融合特征；

S6、将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。

本发明还提出一种基于层级移动窗口注意力的全景图像质量评价系统，其中，所述系统应用如上所述的基于层级移动窗口注意力的全景图像质量评价方法，所述系统包括：

视口提取模块，用于：

获取全景图像赤道区域的视口图像，对视口图像进行图像预处理；

基于层级移动窗口注意力构建多尺度特征提取网络，将预处理后视口图像通过不同层级的多尺度特征提取网络，以获得不同尺度的非均匀质量感知特征；

多尺度特征聚合模块，用于：

对不同尺度的非均匀质量感知特征进行融合，以提高对非均匀失真在局部和全局的敏感性，得到多尺度感知特征；

失真自适应感知模块，用于：

自动调节不同视口维度和通道维度的权重，以获取不同视口图像的感知重要性，对视口中不同通道的重要性进行选择，定位不同失真类型和程度的通道以获取通道特征；

视口融合视觉注意力模块，用于：

融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构，得到多视口融合特征；

质量回归模块，用于：

将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。

与现有技术相比，本发明的有益效果：

1、基于层级移动窗口注意力的多尺度特征提取，同时捕捉局部细节和全局结构，从而更好地理解非均匀失真图像的内容，适应非均匀图像中的物体可能具有不同的尺度，从而提高对非均匀失真的鲁棒性。

2、对多尺度非均匀失真信息进行聚合，对于非均匀失真，一些微小但重要的细节可能在较小尺度上更加显著。通过多尺度特征聚合使得模型能够更敏感地捕捉这些细节信息，同时可以更准确地定位和识别出这些失真区域，有助于更精细地进行质量评价。

3、使用自适应视口注意力计算，人眼在观看图像时通常会关注到一些特定区域，这些区域对于整体图像的理解和感知更为重要。引入自适应视口注意力可以更好地模拟人眼的观察方式，提高模型对于图像的感知能力。

4、使用自适应通道注意力计算，可以帮助模型区分图像中不同区域的失真程度。通过对失真区域的注意力加强，模型可以更有针对性地关注那些可能受到较大失真影响的区域，同时可以有选择地关注对应于特定失真类型的通道，使模型能够更好地适应不同种类的失真。

5、使用多视口视觉注意力计算，可以使得模型更加关注非均匀失真的区域，同时能够综合处理不同视口图像的失真情况，这提高了模型的泛化性，使其在更广泛的图像质量评价任务中表现更好。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种基于层级移动窗口注意力的全景图像质量评价方法的流程图；

图2为本发明提出的一种基于层级移动窗口注意力的全景图像质量评价系统的框架图；

图中，.矩阵乘法、/>.矩阵加法、/>.拼接。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1，本实施例提供了一种基于层级移动窗口注意力的全景图像质量评价方法，所述方法包括如下步骤：

进一步的，获取全景图像赤道区域的视口图像，对视口图像进行图像预处理的方法具体包括如下步骤：

S101、获取若干非均匀失真全景图像；

S102、设定采样视口大小，图像采样提取大小为512×512的视口；

S103、从每张非均匀失真全景图像的赤道区间进行等距视口采样，得到视口图像，并存入非均匀失真全景图像数据库中。

为了防止过拟合，本实施例将非均匀失真全景图像数据库中的80%图像用于训练，而20%用于测试。

进一步的，将预处理后视口图像通过不同层级的多尺度特征提取网络的过程存在如下关系式：

；

其中，表示第/>张视口图像，/>表示层级移动窗口注意力，/>表示第/>张视口图像的第/>阶段的特征，/>表示1×1卷积层，/>表示赤道区域提取的视口数量，本实施例中/>设置为8。

本实施例使用多尺度特征提取能力强大的预训练层级移动窗口注意力（）来提取不同视口图像的低级和高级特征。本实施例的多尺度特征提取网络采用四层架构，四个阶段的特征图大小分别为/>，/>，/>，/>，本实施例使用4个/>卷积层将四个阶段提取的特征/>的不同的通道数统一为128，这样优化了特征融合和信息交互，避免了维度不匹配问题。

其中，层级移动窗口注意力的每个阶段中含有补丁合并（）和层级注意力块（/>）。补丁合并操作会将输入的视口图像进行分块，即每/>相邻的像素为一个图像块（/>），然后在通道维度上进行展平。视口图像的形状由/>变成了/>，其中/>分别表示宽度、高度和维度，/>表示展平后的维度。前三个阶段通过补丁合并后，输入层级注意力块之前会进行下采样操作。

其中，层级注意力块包含窗口多头自注意力模块（）和滑动窗口多头自注意力模块（/>），以下窗口多头自注意力模块记为/>模块，滑动窗口多头自注意力模块记为/>模块。对于/>模块首先将特征图按照/>大小划分成一个个窗口，然后单独对每个窗口内部进行自注意力计算（/>）。采用/>模块时，只会在每个窗口内进行/>计算，所以窗口与窗口之间是无法进行信息传递的。/>计算的表示存在如下关系：

；

其中，表示输入特征，/>、/>、/>表示查询、键和值对应的投影矩阵，/>表示的特征维度，/>表示矩阵乘法。

模块可以解决窗口间无法进行信息传递问题，/>模块和/>模块是成对使用的。/>模块引入滑动窗口机制，限制注意力窗口的范围，通过引入偏移量来限制位置之间的交互范围。滑动窗口机制的表示存在如下关系：

；

其中，、/>、/>表示输入特征投影到对应位置的查询、键和值空间。

；

其中，为未归一化的注意力权重。

；

其中，是一个二进制掩码函数，表示只有当/>位于范围内时，权重才保留；否则，权重为零。

最后进行归一化输出。

；

其中，表示对应位置 j 的值特征。

进一步的，对不同尺度的非均匀质量感知特征进行融合的过程存在如下关系式：

；

其中，表示展平操作，/>表示拼接操作，/>表示全连接层，/>表示不同阶段特征整合后的多尺度感知特征。

在本步骤中，通过将来自不同尺度的特征图，在/>维度展平为一维向量，展平过程中不同特征图的相邻像素仍然保持相邻关系，保留相对位置信息。然后将展平的向量按照一定的顺序进行拼接后通过线性变化得到形状为/>的/>，有助于不同尺度的信息整合到共享的特征空间中。

进一步的，自动调节不同视口维度和通道维度的权重，以指导获取不同视口图像的感知重要性，对视口中不同通道的重要性进行选择，定位不同失真类型和程度的通道以获取通道特征的方法具体包括如下步骤：

S401、不同尺度的非均匀质量感知特征包括由多尺度特征提取网络浅层所提取的低级特征和由多尺度特征提取网络深层所提取的高级特征，根据特征金字塔思想将高级特征和低级特征进行整合，得到指导特征，根据特征金字塔思想将高级特征和低级特征进行整合的过程存在如下关系式：

；

其中，表示上采样，/>表示第/>个视口的指导特征；

在本步骤中，通过将多尺度特征提取模块中后三个阶段较低分辨率的特征上采样成第一个阶段特征/>的大小，并在通道维度进行拼接得到指导特征。这个过程能够将高级语义信息引入到低级特征来实现多尺度信息融合，并指导模型来理解视口内容。然后使用/>卷积来降低指导特征的通道数并减少计算成本。

S402、对指导特征进行视口注意力计算，获得视口特征，对指导特征进行视口注意力计算的过程存在如下关系式：

；

其中，表示自适应视口注意力计算，/>表示视口特征。

在本步骤中，自适应视口注意力计算过程首先通过将指导特征通过全局平均池化层，全连接层和转置操作变换为/>和/>，/>和/>相乘后并进行/>归一化得到视口注意力矩阵，接着把指导特征/>重塑为和视口注意力矩阵相同大小的/>。

该过程表示为：

；

其中，表示全局平均池化层，/>表示将通道维度和空间维度合并相乘，/>表示将数值为1的维度去除，/>表示/>函数，/>、/>、/>分别表示查询特征、键特征、值特征；

通过矩阵乘法将视口注意力矩阵和相乘得到视口特征/>，最后将视口特征/>重塑为指导特征/>的形状后，通过可学习因子/>对视口特征/>进行放缩并和指导特征相加，得到视口特征。

自适应视口注意力计算关系表示如下：

；

其中，表示可学习因子，/>表示标量乘法；

S403、对视口特征进行通道注意力计算，得到自适应特征，对视口特征进行通道注意力计算的过程存在如下关系式：

；

其中，表示通道特征，/>表示自适应通道注意力计算，自适应通道注意力计算关系表示如下：

；

其中，分别表示视口特征对应的键特征、值特征、查询特征。

进一步的，融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构的过程存在如下关系式：

；

其中，表示多头注意力机制，/>表示多视口融合特征，表示融合特征，融合特征的计算过程存在如下关系式：

。

本步骤中，先将通过在空间维度进行展平操作后和/>在通道维度进行拼接，并使用卷积对结果降维，以提高模型对视口多样化特征的捕获和表征能力。再把大小为的融合特征/>在视口维度进行展平成/>的视口融合特征/>，来融合多个视口的不同信息，其中，/>分别表示视口图像数量、高度、宽度和通道数。接着使用多头注意力机制（/>）来提取视口融合特征/>之间的关联性信息，促进全局信息的整合和处理，得到多视口融合特征。

多头注意力计算过程如下：

首先对进行三个线性投影，分别生成/>、/>和/>的查询、键和值，/>、/>和/>分别是注意力头相关的投影矩阵。对每个注意力头分别计算注意力权重，并应用到值上。这个过程地关系表示如下：

；

将多个注意力头的输出拼接在一起，并进行线性变换，最后得到大小的多视口融合特征/>。将多个注意力头的输出拼接在一起，并进行线性变换的过程地关系表示如下：

；

其中，表示输出的线性变换矩阵。

进一步的，将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数的过程存在如下关系式：

；

其中，表示多层感知机，/>表示转置操作，/>表示线性层，/>表示图像的预测质量分数。

本步骤中，多层感知机通过使用两个线性层和函数将特征/>映射为一个向量，接着通过转置操作/>和线性层/>对/>进行整合和压缩，最终输出一个标量值代表整张全景图像的感知质量得分。

多层感知机的计算过程的表示如下：

；

其中，表示输入多视口融合特征/>，/>表示全连接层，/>表示/>函数，/>函数的表达式如下：

。

利用非均匀失真全景图像质量数据库对本发明进行训练和测试过程的具体步骤如下：

获取非均匀失真全景图像数据库中所有数据的平均主观分数（MOS），作为标签数据。标签数据的表示存在如下关系式：

；

其中，表示第/>个受试者对非均匀失真全景图片给出的体验质量意见分数，/>表示参与评价非均匀失真全景图像质量的实验人数；

使用Adam优化器进行优化；学习率设置为0.0001；权重衰减策略，衰减率为0.0005；

输入赤道区域的8个视口图像重复本发明步骤S1至S6得到预测质量分数；

利用预测质量分数和主观分数构建损失函数，通过最小化损失以优化模型性能。

本实施例采用均方误差（MSE）作为损失函数：

；

其中，和/>训练数据中第/>非均匀失真全景图像的预测质量分数和主观分数，表示数据中非均匀失真全景图像的数量。

将均方误差结果与MOS分数对比计算可以得到模型各项指标，测试指标包括以下3种：

预测单调性指标，包括斯皮尔曼相关系数（SRCC），具体表示为：

；

其中，表示第/>个非均匀失真全景图像的主观分数与客观预测得分的差值。

预测准确性指标，包括皮尔逊相关系数（PLCC），具体表示为：

。

其中，和/>分别是主观分数平均值与客观预测得分平均值。

预测误差程度指标，包括均方根误差（RMSE）具体表示为：

。

请参照图2，本实施例还提供一种基于层级移动窗口注意力的全景图像质量评价系统，所述系统应用如上所述的基于层级移动窗口注意力的全景图像质量评价方法，所述系统包括：

视口提取模块，用于：

多尺度特征聚合模块，用于：

失真自适应感知模块，用于：

视口融合视觉注意力模块，用于：

质量回归模块，用于：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，步骤S1中，获取全景图像赤道区域的视口图像，对视口图像进行图像预处理的方法具体包括如下步骤：

S101、获取若干非均匀失真全景图像；

3.根据权利要求2所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，在所述步骤S2中，将预处理后视口图像通过不同层级的多尺度特征提取网络的过程存在如下关系式：

；

其中，表示第/>张视口图像，/>表示层级移动窗口注意力，/>表示第/>张视口图像的第阶段的特征，/>表示1×1卷积层，/>表示赤道区域提取的视口数量。

4.根据权利要求3所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，在所述步骤S3中，对不同尺度的非均匀质量感知特征进行融合的过程存在如下关系式：

；

5.根据权利要求4所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，在所述步骤S4中，自动调节不同视口维度和通道维度的权重，以指导获取不同视口图像的感知重要性，对视口中不同通道的重要性进行选择，定位不同失真类型和程度的通道以获取通道特征的方法具体包括如下步骤：

；

其中，表示上采样，/>表示第/>个视口的指导特征；

；

其中，表示自适应视口注意力计算，/>表示视口特征；

；

其中，表示自适应通道注意力计算，/>表示通道特征。

6.根据权利要求5所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，在所述步骤S5中，融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构的过程存在如下关系式：

；

其中，表示多头注意力机制，/>表示多视口融合特征，/>表示融合特征。

7.根据权利要求6所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，融合特征的计算过程存在如下关系式：

。

8.根据权利要求7所述的一种基于层级移动窗口注意力的全景图像质量评价方法，其特征在于，在所述步骤S6中，将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数的过程存在如下关系式：

；

9.一种基于层级移动窗口注意力的全景图像质量评价系统，其特征在于，所述系统应用如权利要求1至8任意一项所述的基于层级移动窗口注意力的全景图像质量评价方法，所述系统包括：

视口提取模块，用于：

多尺度特征聚合模块，用于：

失真自适应感知模块，用于：

视口融合视觉注意力模块，用于：

质量回归模块，用于：