CN116843684B

CN116843684B - 一种基于动态视觉内容的端到端的全景图像质量评价方法

Info

Publication number: CN116843684B
Application number: CN202311106820.4A
Authority: CN
Inventors: 方玉明; 徐可烁; 眭相杰; 鄢杰斌
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-14
Anticipated expiration: 2043-08-30
Also published as: CN116843684A

Abstract

本发明提出一种基于动态视觉内容的端到端的全景图像质量评价方法，该方法包括，给定全景图像，并在全景图像中利用选择的观看起始点对视觉状态进行初始化，得到视觉条件；根据视觉条件在全景图像中生成若干潜在的扫视路径；根据潜在的扫视路径中的视觉注视位置确定潜在可见视觉内容，沿潜在的扫视路径获取多个潜在可见视觉内容，再将多个潜在可见视觉内容进行聚合，得到最终潜在可见视觉内容；以最终潜在可见视觉内容来表征全景图像中的可见视觉内容，并用于全景图像质量预测，以获得全景图像的预测质量分数。本发明通过提取小尺寸的图像块的做法，消除了提取整个视口的需求，因此具有运行高效的特点。

Description

一种基于动态视觉内容的端到端的全景图像质量评价方法

技术领域

本发明涉及计算机视觉和多媒体数字图像处理领域，特别涉及一种基于动态视觉内容的端到端的全景图像质量评价方法。

背景技术

目前的图像质量评价方法可以根据其操作平面大致分为三类，包括2D平面、球形和视口。前两类试图通过补偿球形到平面投影（如等距投影），采用非均匀采样来扩展2D-图像质量评价方法，通过位置加权来评估全景图像感知质量；而球面方法则试图通过在球形域上均匀采样信号来计算全景图像感知质量；最后一类则试图在视口域上计算全景图像感知质量。这些方法的视口采样策略可以分为三类：预定规则、关键点和扫视路径。最近的研究表明，至少有两种观看条件，分别是“起始点”和“探索时间”，可以在360°图像包含局部失真时显著影响感知质量。具体来说，用户倾向于最初关注起始点附近的区域，然后随着时间的推移逐渐分散以揭示更多的图像场景。故利用人类扫视路径来融入观看条件，即内在的编码起始点和探索时间的信息成为全景图像质量评价的重要框架。

然而，人类扫视路径的预测难度限制了此框架的实用性，目前绝大部分方法仍然无法提供足够满意的预测结果，与人类真实的扫视路径并不一致。此外，现有方法中的视口提取过程十分耗时，也使得其效果和实用性受到极大的限制。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于动态视觉内容的端到端的全景图像质量评价方法，以解决上述技术问题。

本发明提供了一种基于动态视觉内容的端到端的全景图像质量评价方法，所述方法包括如下步骤：

步骤1、给定全景图像，并在全景图像中利用选择的观看起始点对视觉状态进行初始化，得到视觉条件，视觉条件包括起始点和探索时间；

步骤2、根据视觉条件在全景图像中生成若干潜在的扫视路径；

步骤3、根据潜在的扫视路径中的视觉注视位置确定潜在可见视觉内容，沿潜在的扫视路径获取多个潜在可见视觉内容，再将多个潜在可见视觉内容进行聚合，得到最终潜在可见视觉内容；

步骤4、以最终潜在可见视觉内容来表征全景图像中的可见视觉内容，并用于全景图像质量预测，以获得全景图像的预测质量分数。

与现有技术相比，本发明的有益效果为：

（1）本发明通过提取小尺寸的图像块的做法消除了提取整个视口的需求，因此具有运行高效的特点，整体上使得本发明比现有技术更快。

（2）本发明动态潜在可见视觉内容的生成是通过一个全景图像扫视路径生成器实现的，允许在不同的观看条件下交互式评估360°图像的感知质量，因此本发明具有很好的互动性。

（3）本发明还可以集成到各类深度神经网络架构内，个性化定制全景质量评价模型，提升其他模型的效率。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种基于动态视觉内容的端到端的全景图像质量评价方法的流程图；

图2为本发明与其它现有模型的性能对比图；

图3为本发明在分辨率为4K、8K和11K的全景图像下与其它现有模型效率的对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1，本发明实施例提供了一种基于动态视觉内容的端到端的全景图像质量评价方法，所述方法包括如下步骤：

步骤1、给定全景图像，并在全景图像中利用选择的观看起始点对视觉状态进行初始化，得到视觉条件，视觉条件包括起始点和探索时间。

进一步的，全景图像采用2D等距矩形投影的形式给出。

全景图像采用2D等距矩形投影的形式给出的方法具体包括：

将全景图像转换成单位球面，位于球面坐标为/>的切平面为/>，其中，/>和/>分别表示纬度和经度，/>，/>，/>表示圆周率；

利用gnomonic投影在球面的切平面上创建一个卷积核模式的滤波器/>，再将单位球面上的坐标映射至切平面的滤波器上，映射过程存在如下关系式：

；

其中，表示滤波器核的值，在全景图像的一个大小为/>的图像块中，/>和/>的取值范围分别为/>和/>，/>和/>分别表示图像块的宽度和高度尺寸，/>和/>表示由全景图像/>的尺寸确定的采样步长，/>和/>分别表示全景图像的宽度和高度尺寸；

给定特定注视点，将特定注视点的2D平面坐标/>转换为球面坐标；

将滤波器应用于转化后的球面坐标/>，通过逆gnomonic投影在球面域上获得采样点，逆gnomonic投影在球面域上获得采样点存在如下关系式：

；

其中，和/>共同表示转换后的球面坐标，/>和/>表示占位符，，/>，/>和/>分别表示所采用滤波器的核在对应位置的值，和/>分别等于/>和/>；

最后，将采样点的球面坐标被投影回2D平面以便访问像素值。

优选的，采用全景图像扫视路径生成器进行潜在的扫视路径生成。

根据视觉条件在全景图像中生成若干潜在的扫视路径的方法具体包括：

从起始点开始，根据探索时间，利用扫视路径生成器维护与更新当前时刻的视觉状态来模拟视觉工作记忆的机制，并基于当前时刻视觉状态预测得到当前时刻视觉状态下的视觉注视位置，通过随探索时间推移不断迭代，进而获取连续的扫视图像序列，/>表示/>时刻的全景图像可见窗口的信息；

从而生成潜在的扫视路径；

预测的当前时刻视觉状态下的视觉注视位置与当前时刻的视觉状态存在如下关系：

；

其中，表示下一时刻的视觉注视位置，/>表示服从，/>表示条件概率密度函数，/>表示当前时刻视觉状态下的视觉注视位置，/>表示当前时刻的视觉状态；

相邻时刻视觉状态的更新存在如下关系：

；

其中，表示上一时刻的视觉状态。

因此全景图像扫视路径生成器每次预测能通过扫视路径生成器每次预测能够获取到一个连续的扫视图像序列，通过多次预测就能获得若干潜在的扫视路径。

在上述方案中，由于，扫视路径的视觉注视位置均由采样得到，本发明训练的每次迭代优化时，因为生成的扫视路径均不相同，相当于对输入数据进行了不同的变换，可以视为对现有数据的内置数据增强。

因此，本发明通过扫视路径生成器共做了次数据增强，其中/>为本发明训练的迭代次数，/>表示扫视路径生成器每次预测所生成的潜在的扫视路径的数量。

进一步的，根据潜在的扫视路径中的视觉注视位置确定潜在可见视觉内容，沿潜在的扫视路径获取多个潜在可见视觉内容，再将多个潜在可见视觉内容进行聚合，得到最终潜在可见视觉内容的方法具体包括：

以潜在的扫视路径中视觉注视位置作为中心点；

通过中心点和有效视野来确定视觉注视位置的可见内容，例如，头戴式显示器的典型视野分别为纬度和经度/>。

从全景图像提取每个潜在的扫视路径中可见内容所对应的图像块，得到若干图像块，本实施例中图像块大小为32*32。

将同一时刻下不同扫视路径位置上的若干图像块排列成图像，以所得图像作为某一时刻的潜在可见视觉内容，在本实施例中，模型获取到了49条不同的扫视路径，每一时刻的潜在可见视觉内容记作，/>表示当前时刻；

给定探索时间，按照探索时间的时间序列获取潜在的扫视路径中不同时刻的潜在可见视觉内容/>，并进行排列，得到包含空间和时间信息的最终潜在可见视觉内容/>。

优选的，将若干图像块排列成图像时，单一时刻图像块采用随机排列；

将不同时刻的潜在可见视觉内容进行排列时，需保证同一潜在的扫视路径下的不同图像块按时间序列先后排列在一起。

进一步的，在进行全景图像质量预测时，将最终潜在可见视觉内容提供给质量评估器，以获得在视觉条件下的全景图像的预测质量分数。具体而言，本发明使用潜在可见视觉内容的方式呈现360°图像，潜在可见视觉内容包含了感知体验的重要时空信息，用于质量推断。因此，本实施例中采用视频任务中的主流的骨干网络来学习可见视觉内容的时空质量。预测质量分数存在如下关系式：

；

其中，表示预测质量分数，/>和/>分别是质量评估器和多层感知机层，/>表示最终潜在可见视觉内容，通过将可见视觉内容输入质量评估器和多层感知机层，实现对360°图像的质量推断。在本实施例中使用X-Clip-B/32作为质量评估器，并将X-Clip-B/32的最后一层MLP替换为专门用于视频质量评估的层。

本发明的训练步骤如下：

将全景图像通过主观实验获得的人工标签；

利用人工标签和预测质量分数构建损失函数；

以最大化似然函数作为优化目标，通过反向传播计算每个参数对损失函数的梯度；

根据梯度，通过梯度下降法更新计算过程涉及的所有参数以最小化损失，通过最小化损失现最大化似然函数，进而找到使预测质量分数出现概率最大化的参数值，以提高预测评价分数的准确性，优化过程存在如下关系式：

；

其中，表示人工标签，/>表示损失函数，/>表示视觉条件，/>表示全景图像扫视路径生成器，/>表示计算过程涉及的所有参数，/>,/>表示生成质量分数质量预测器和多层感知机层的参数，/>表示全景图像扫视路径生成器/>的参数，/>表示使用参数的全景图像扫视路径生成器/>在视觉条件/>下生成若干潜在的扫视路径，表示通过最大化似然函数来找到使预测质量分数出现概率最大化的参数值，/>表示在训练过程中最小化损失函数/>来优化模型参数/>，表示在输入全景图像/>的情况下，利用参数/>的全景图像扫视路径生成器/>生成的扫视路径获取不同的图像块作为聚合特征，并将所有特征聚合成用于质量评价的潜在可见视觉内容；

通过更新计算过程涉及的所有参数，以提高预测评价分数的准确性。

进一步的，损失函数采用可微分的皮尔森相关系数构建，损失函数存在如下关系式：

；

其中，表示可微分的皮尔森相关系数，/>表示预测质量分数，/>表示人工标签。

为了验证本发明的有效性以及本发明与现有模型对比的优异程度，在本实施例中采用三个主流的全景图像数据集进行相关验证试验，三个主流的全景图像数据集包括了CVIQD，OIQA，JUFE。其中，CVIQD数据库包含528个失真的全景图像，由16个无失真的参考图像生成，其中包含3种类型的压缩失真，共有11个失真级别。

所有图像的分辨率为4K；OIQA数据库是一个高分辨率（约11K）的数据库，包含320个失真的全景图像，由16个参考全景图像生成，其中包含4种失真类型和五个失真级别；JUFE数据库包含1032个非均匀失真的全景图像，由258个参考图像生成。所有图像的分辨率为8K。为了研究观看条件对全景图像的感知质量的影响，被试者分为两组，从两个不同的起始点观看全景图像，并在观看时和观看结束后的5秒和15秒时分别给出质量评分。故在JUFE数据库中共有4种不同的观看条件（2个起始点×2个探索时间）。每个失真图像有4个质量标签对应于4个观看条件。并在实验中记录了被测试的扫视路径，以分析其观看行为。

为了保证评估的准确性，采用了两个评估指标来量化质量评价的性能：两个评估指标分别为斯皮尔曼相关系数（SRCC）和皮尔森相关系数（PLCC）。较好的模型将获得更高的斯皮尔曼相关系数和皮尔森相关系数。根据参考图像，将每个数据库随机分割为70%的训练集、10%的验证集和20%的测试集。重复这个过程5次，并报告平均的斯皮尔曼相关系数和皮尔森相关系数结果。

为更清晰展示性能差异，在图2和图3中为本发明添加了后缀，以命名不同主干网络的质量评估器的版本。具体而言，将使用Video Swin-T、ConvNetXts-T和X-Clip-B/32作为质量评估器的版本分别称为本发明-T、本发明-C和本发明-X。将提出的本发明与七种全参考质量度量方法进行了性能比较，包括PSNR、SSIM、DISTS、CPP-PSNR、WS-PSNR、S-PSNR和S-SSIM，以及七个无参考模型，包括NIQE、DBCNN、TreS、MC360IQA、VGCN、MFILGN和Fang22。

其中，8个模型来自于开源模型（SSIM2004, DISTS2022, CPPPSNR2016,WSPSNR2017, SPSNR2015, SSSIM2018, NIQE2013, MFILGN2021），5个模型使用了各自作者提供的训练代码重新训练得到（DBCNN2020，TreS，MC360IQA2019，VGCN2020，JUFE22）。需要注意的是本实施例没有重新训练那些忽略了JUFE数据库中的观看条件的数据驱动模，并在相应结果中添加了“N/A”。

本实施例总结了在5折交叉验证中的平均斯皮尔曼相关系数和皮尔森相关系数结果，如图2所示。实验结果表明本发明与现有模型相比，在JUFE数据库上实现了显著的性能提升，在CVIQD和OIQA数据库上也能取得有竞争力的性能，同时比主流的模型预测效率高得多。

图3中展示了OIQA模型的推理速度比较，从中可以观察到，本发明所提的框架在分辨率为4K、8K和11K的全景图像下可以在几秒内评估全景图像的视觉质量，其速度远快于其他对比方法，这对实际应用至关重要。

为了直观解释本发明如何很好地处理局部失真的全景图像，本发明还测试了起始点为质量较差位置的初始条件下扫视路径和预测质量分数随时间变化的情况和起始点为质量较好位置的初始条件下扫视路径和预测质量分数随时间变化的情况。通过二者的结果可以观察到预测质量分数评分与人类判断高度一致，表明本发明能够模拟人类在全景图像上的动态感知过程。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于动态视觉内容的端到端的全景图像质量评价方法，其特征在于，所述方法包括如下步骤：

步骤4、以最终潜在可见视觉内容来表征全景图像中的可见视觉内容，并用于全景图像质量预测，以获得全景图像的预测质量分数；

在所述步骤2中，根据视觉条件在全景图像中生成若干潜在的扫视路径的方法具体包括：

从起始点开始，根据探索时间，利用扫视路径生成器维护与更新当前时刻的视觉状态来模拟视觉工作记忆的机制，并基于当前时刻视觉状态预测得到当前时刻视觉状态下的视觉注视位置，通过随探索时间推移不断迭代，进而获取连续的扫视图像序列，从而生成潜在的扫视路径；

；

其中，表示下一时刻的视觉注视位置，/>表示服从，/>表示条件概率密度函数，表示当前时刻视觉状态下的视觉注视位置，/>表示当前时刻的视觉状态；

相邻时刻视觉状态的更新存在如下关系：

；

其中，表示上一时刻的视觉状态；

在所述步骤3中，根据潜在的扫视路径中的视觉注视位置确定潜在可见视觉内容，沿潜在的扫视路径获取多个潜在可见视觉内容，再将多个潜在可见视觉内容进行聚合，得到最终潜在可见视觉内容的方法具体包括：

以潜在的扫视路径中视觉注视位置作为中心点；

通过中心点和有效视野来确定视觉注视位置的可见内容；

从全景图像提取每个潜在的扫视路径中可见内容所对应的图像块，得到若干图像块；

将若干图像块排列成图像，以所得图像作为某一时刻的潜在可见视觉内容；

给定探索时间，按照探索时间的时间序列获取潜在的扫视路径中不同时刻的潜在可见视觉内容，并进行排列，得到包含空间和时间信息的最终潜在可见视觉内容；

将若干图像块排列成图像时，单一时刻图像块采用随机排列；

2.根据权利要求1所述的一种基于动态视觉内容的端到端的全景图像质量评价方法，其特征在于，在所述步骤1中，全景图像采用2D等距矩形投影的形式给出，全景图像采用2D等距矩形投影的形式给出的方法具体包括：

利用gnomonic投影在球面的切平面上创建一个卷积核模式的滤波器/>，再将单位球面上的坐标映射至切平面的滤波器上；

给定特定注视点，将特定注视点的2D平面坐标/>转换为球面坐标/>；

将滤波器应用于转化后的球面坐标/>，通过逆gnomonic投影在球面域上获得采样点；

3.根据权利要求2所述的一种基于动态视觉内容的端到端的全景图像质量评价方法，其特征在于，映射过程存在如下关系式：

；

其中，表示滤波器核的值，/>和/>是整数，在全景图像的一个大小为/>的图像块中，/>和/>的取值范围分别为/>和/>，/>和/>分别表示图像块的宽度和高度尺寸，/>和/>表示由全景图像/>的尺寸确定的采样步长，/>和/>分别表示全景图像的宽度和高度尺寸；

逆gnomonic投影在球面域上获得采样点存在如下关系式：

；

其中，和/>共同表示转换后的球面坐标，/>和/>表示占位符，/>，，/>和/>分别表示所采用滤波器的核在

对应位置的值，和/>分别等于/>和/>。

4.根据权利要求1所述的一种基于动态视觉内容的端到端的全景图像质量评价方法，其特征在于，在所述步骤4中，在进行全景图像质量预测时，将最终潜在可见视觉内容提供给质量评估器，以获得在视觉条件下的全景图像的预测质量分数，预测质量分数存在如下关系式：

；

其中，表示预测质量分数，/>和/>分别是质量评估器和多层感知机层，表示最终潜在可见视觉内容。