CN116563210A

CN116563210A - 一种虚拟现实图像质量评价方法及系统

Info

Publication number: CN116563210A
Application number: CN202310277711.2A
Authority: CN
Inventors: 刘德阳; 查海涅; 张璐
Original assignee: Anhui Zhongxin Yungu Digital Technology Co ltd
Current assignee: Anhui Zhongxin Yungu Digital Technology Co ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-08-08
Anticipated expiration: 2043-03-21
Also published as: CN116563210B

Abstract

本发明公开了一种虚拟现实图像质量评价方法及系统，包括以下步骤：获取视口图像数据，并对所述视口图像数据进行预处理；构建VR图像质量评估网络模型；将预处理后的所述视口图像数据输入所述VR图像质量评估网络模型，获得各视口图像的结构特征和细节特征；将所述结构特征和所述细节特征进行结合，并对结合后的所述结构特征和所述细节特征进行VR图像的质量回归和预测，获得VR图像的预测质量分数。本发明在多视口输入的基础之上，进一步解决基于深度学习的VR图像质量评估模型的瓶颈问题，使得模型无需对输入图像进行严重的比例缩放，而是直接对原始分辨率视口图像进行处理，从而进一步提高模型质量评估精确度，得到更加鲁棒的评估结果。

Description

一种虚拟现实图像质量评价方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种虚拟现实图像质量评价方法及系统。

背景技术

随着大数据时代的到来，以图像/视频为代表的多媒体信息数据已经遍布了整个网络。虚拟现实(VR)借助5G和人工智能技术的兴起与发展，加上其身临其境的媒体体验和全视角的内容呈现，已经被广泛应用于游戏、直播等多种新兴行业当中，虚拟现实图像/视频极大可能取代传统媒体，成为下一代主流媒介。然而由于虚拟现实图像与传统二维图像之间存在较大差异，其更全面的内容存储记录以及更复杂的编解码方式，使得互联网上传输和呈现的VR图像质量参差不齐，从而导致虚拟现实技术在最终用户端的呈现效果大打折扣。综上所述，为指导虚拟现实图像编解码等技术的提升，并能够给用户提供更加舒适的虚拟现实全景体验，以推动虚拟现实技术进一步推广与应用，虚拟现实质量评估方法的研究具有不可或缺的实际价值。

随着互联网图像数据的日益增长，VR图像的来源也更加多元化，想要获取其高质量原始未失真图像几乎是不现实的。因此相比于全参考和半参考的图像质量评估方案，无参考质量评估方法显然具有更实际的应用场景和更广泛的应用市场。得益于深度学习的不断成熟，基于大数据训练所得到的无参考图像质量评估模型已经可以表现出更优、更鲁棒的性能。

用传统二维图像评估模型直接对VR全景图像压缩格式—ERP进行训练拟合，虽然已经可以超越传统VR图像质量评估方案，但ERP格式不同于人在体验VR时所观看到的内容，由于球体到矩形的映射关系，往往会引入内容畸变，因而模型的训练过程会忽略掉人眼感知VR图像的真实过程，导致网络模型判断结果不甚理想。基于此，最近的很多VR图像质量评估算法从ERP格式提取得到CubeMap格式下的多视口图像，也就相当于在实际观看VR图像的过程中，以人眼为中心可观测到的对应：前、后、左、右、上、下六个方位的虚拟现实场景图像。这种更加符合人眼感知过程的多视口输入模式，在目前的评估方案中可取得最优的结果。但此类方案在模型训练与测试过程中，依然存在一些亟需解决的问题，由于全景图像的分辨率普遍较大(例如：4K、8K、10K等等)，所提取得到的视口图像分辨率也相对较大(例如：1K、3K、4K等等)，而深度学习模型所能处理的图像分辨率往往有限(例如：256×256、224×224)，因此在模型训练过程中需要将不同分辨率图像做一致化处理。已有的算法多将视口图像进行保持纵横比的缩放操作，这种方式的预处理，在一定程度上保持了图像的内容不产生畸变，但此时图像的长、宽不得不同时缩小为原来的1/4，甚至更小，这种过分的图像缩放操作无疑会使得图像的原有结构特征以及失真呈现形式发生巨大变化，从而影响模型质量预测结果，使得此类基于深度学习的模型拟合评估过程事倍功半。

发明内容

针对现有技术的不足，本发明提出了一种虚拟现实图像质量评价方法及系统，该方法在多视口输入的基础之上，进一步解决基于深度学习的VR图像质量评估模型的瓶颈问题，使得模型无需对输入图像进行严重的比例缩放，而是直接对原始分辨率视口图像进行处理，从而进一步提高模型质量评估精确度，得到更加鲁棒的评估结果。

为实现上述目的，本发明提供了如下方案：

一种虚拟现实图像质量评价方法，包括以下步骤：

获取视口图像数据，并对所述视口图像数据进行预处理；

构建VR图像质量评估网络模型；

将预处理后的所述视口图像数据输入所述VR图像质量评估网络模型，获得各视口图像的结构特征和细节特征；

将所述结构特征和所述细节特征进行结合，并对结合后的所述结构特征和所述细节特征进行VR图像的质量回归和预测，获得VR图像的预测质量分数。

优选的，对所述视口图像数据进行预处理的方法为：

从全景图像的ERP格式中提取所需的视口图像数据；

对所述视口图像数据进行裁剪处理；

将裁剪后的所述视口图像数据划分为训练集和测试集，并对所述训练集和所述测试集进行归一化处理。

优选的，所述VR图像质量评估网络模型包括：特征提取模块和质量回归模块；

所述特征提取模块用于提取各视口图像的特征数据，其中，所述特征数据包括：结构特征和细节特征；

所述质量回归模块用于对所述特征数据进行质量回归和预测。

优选的，所述特征提取模块包括：结构特征提取单元、细致纹理与失真特征提取单元；

所述结构特征提取单元用于提取各视口图像的结构特征；

所述细致纹理与失真特征提取单元用于提取各视口图像的细节特征。

优选的，获得各视口图像的结构特征的方法为：

利用预设的经典网络模型提取裁剪后的所述视口图像数据的结构特征。

优选的，获得各视口图像的细节特征的方法为：

从裁剪后的所述视口图像数据中，运用可学习的方式，获取预设个数的图像局部块；

将所述预设个数的图像局部块组合成图像局部块序列；

基于所述图像局部块序列，构建相应的细节特征提取网络，获取视口图像的细致纹理及失真表现的细节特征。

优选的，获得VR图像的预测质量分数的方法为：

构建由多层全连接层组合的质量回归头；

基于所述质量回归头，对结合后的所述结构特征和所述细节特征进行VR图像的质量回归和预测，将VR图像的高维特征转化为质量分数，得到预测质量分数。

本发明还提供了一种虚拟现实图像质量评价系统，包括：数据获取子系统、模型构建子系统、特征提取子系统和预测子系统；

所述数据获取子系统用于获取视口图像数据，并对所述视口图像数据进行预处理；

所述模型构建子系统用于构建VR图像质量评估网络模型；

所述特征提取子系统用于将预处理后的所述视口图像数据输入所述VR图像质量评估网络模型，获得各视口图像的结构特征和细节特征；

所述预测子系统用于将所述结构特征和所述细节特征进行结合，并对结合后的所述结构特征和所述细节特征进行VR图像的质量回归和预测，获得VR图像的预测质量分数。

与现有技术相比，本发明的有益效果为：

本发明所提出的VR图像质量评估办法充分考虑了图像的结构特征和细节特征对人眼视觉感知的影响。分别针对结构特征提取和细节特征提取做了具体的数据调整以及模型搭建，并在质量回归预测阶段做出了不同于其他方法的调整。在特征提取过程中，结构特征提取支路以保持原始视口图像分辨率下的中心裁剪图像作为输入，并用ResNet50做结构特征提取；细致纹理与失真特征提取支路以图像局部块为输入，并建立简单的卷积池化交替网络从中提取细节特征，最终融合两支路，得到VR图像预测质量分数。本发明进一步提升了基于深度学习的模型评估性能，有利于在大数据环境下推进深度学习模型解决VR图像质量评估问题。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种虚拟现实图像质量评价方法的整体框架流程图；

图2是本发明的视口图像提取的具体过程示意图；

图3是本发明的细致纹理与失真特征提取支路网络模型图；

图4是本发明的图像局部块的选择与更新流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供了一种虚拟现实图像质量评价方法，包括以下步骤：

获取视口图像数据，并对视口图像数据进行预处理；

构建VR图像质量评估网络模型；

将预处理后的视口图像数据输入VR图像质量评估网络模型，获得各视口图像的结构特征和细节特征；

将结构特征和细节特征进行结合，并对结合后的结构特征和细节特征进行VR图像的质量回归和预测，获得VR图像的预测质量分数。

在本实施例中，对视口图像数据进行预处理的方法为：

(a)从全景图像的压缩ERP格式提取得到多个视口图像，提取过程如图2所示：首先将全景图像从矩形ERP映射到实际观看场景下的球体模式，然后在球体的赤道上均匀设置视点中心，提取固定个数的视口图像。本发明设置视点与视点间的旋转角度为4°，因而每张ERP格式全景图像就可提取得到对应的90张视口图像，视场角大小设置为符合头戴式设备一般设置的90°，因此不同分辨率下的ERP全景图像所提取得到的视口图像分辨率也不同。本发明中所提取视口的分辨率大小也各不相同，例如1296×1296、1904×1904、3600×3600、4232×4232等等。

(b)将原始分辨率视口图像直接送入VR图像质量评估网络模型显然是不合理的，即使想要通过最大化数据维度来提前预支运算空间，也会造成计算复杂度过高的问题。在保证视口图像分辨率不改变的前提下，将视口图像中心裁剪到固定大小，既可以通过保持视口图像的内容完整性，从而使得输入图像结构特征不改变，又能够保证模型计算复杂度不至于太高。本发明综合考虑计算开销以及特征提取精确度，将视口图像中心裁剪大小设置为固定值1296×1296。

(b)本发明选择在公开数据集上进行实验，其包含在不同场景下的全景图像，对于每张ERP格式全景图像，又加入不同失真类型、失真等级，以此生成对应的不同质量全景图像。此外数据集还包含主观质量分数标签——MOS，MOS获取由数据集提供者在专业实验室通过主观实验收集并分析获取，具有可信赖性。将数据集划分为训练集和测试集，用来训练拟合VR图像质量评估网络模型以及检验模型预测能力。本发明所设置训练集和测试集的划分比例为8:2，通过随机的方式挑选相应比例的测试视口图像，其余部分作为训练集数据。值得注意的是：在这个过程中，每张全景图像在不同失真形式下的视口图像不会既出现在训练集又出现在测试集，以此保证结果的可靠性。最后，针对所有数据，做统一的归一化处理，将所有图像数据转化为tensor形式，并做均值、方差都为0.5的归一化处理最终的输入数据，等待送入VR图像质量评估网络模型。值得注意的是，在训练过程中，本发明将数据批量大小b设置为16。

在本实施例中，VR图像质量评估网络模型包括：特征提取模块和质量回归模块；

特征提取模块用于提取各视口图像的特征数据，其中，所述特征数据包括：结构特征和细节特征；

质量回归模块用于对特征数据进行质量回归和预测。

在本实施例中，特征提取模块包括：结构特征提取单元(即为结构特征提取支路)、细致纹理与失真特征提取单元(细致纹理与失真特征提取支路)；

结构特征提取单元用于提取各视口图像的结构特征；

细致纹理与失真特征提取单元用于提取各视口图像的细节特征。

在本实施例中，获得各视口图像的结构特征的方法为：

图像的整体空间结构是影响人眼感知图像质量的重要因素，因此所述结构特征提取支路，重点在于对视口图像空间内容的描述上，在这一过程中，要充分考虑每张视口图像内部像素关联特性、显著性主体权重比例、主体与背景的区分等等一些涉及到图像内容辨别对于人眼感知影响的重要因素。经典网络模型，例如：VGG、ResNet、ViT等被广泛应用于图像分类任务中，已经可以较为全面的考虑到图像内容上的结构特征。因此本发明选择将ResNet50作为所述结构特征提取支路的backbone，在保证性能的前提下，具有相对简洁的网络结构，保证了模型的评估速率，能够有效提取每张视口图像的结构特征。所述ResNet50是一种具有残差结构的深层网络模型，能够更有效的融合低层到高层的特征。本发明首先将所述输入数据维度从b×1296×1296缩小到b×256×256，再送入所述结构特征提取支路backbone进行结构特征提取，经过四块层结构，所述四块层结构的卷积块个数分别为3、4、6、3。输出所述结构特征维度为：b×2048×8×8，紧接着经过一层自适应池化层，所述结构特征维度转化为：b×2048×1×1。压缩后两位维度，并对其做结构特征回归，所述结构特征回归是一层输入为2048，输出为10的全连接层，得到最终结构特征，维度为：b×10。

在本实施例中，获得各视口图像的细节特征的方法为：

为了充分捕获图像的细节纹理，尤其是失真在图像上的呈现可能对人眼产生的视觉影响，我们在所述结构特征提取支路的基础上，增加了所述细致纹理与失真特征提取支路。本发明首先从所述输入数据中获取得到所述图像局部块序列，以表征每个视口图像所可能具有的细节特征，本发明在所述输入数据分辨率为1296×1296的视口图像上做初始化随机裁剪，裁剪图像局部块个数设置为9，图像局部块大小设置为96×96。

为使得所述图像局部块的选择可以根据图像的空间内容自由变换，我们摒弃了固定位置或随机位置的局部块选择方式，选择了可学习的局部块选择方式，使得模型可以根据训练结果，更新所要获取的图像局部块的位置，具体过程如图4所示。首先随机初始化每个图像局部块左上角在所述视口图像中对应的坐标位置(x,y)，然后根据图像局部块坐标矩阵获取得到所述图像局部块序列，并在经过网络模型提取得到细节特征过程中，将位置信息加入进来，即直接通过“求和”操作将图像局部块位置矩阵加入所提取的特征上来。最终根据训练过程的损失计算结果，不断更新所获取的图像局部块位置矩阵。

针对所述图像局部块序列，我们使用卷积、池化交替的模型结构，即通过卷积层提取整合特征维度，获取细致纹理及失真对应的高维特征；通过池化层对特征数据做均值处理，简化征空间数据量。所述细致纹理与失真特征提取支路网络模型结构如图3所示，包含五层卷积模块，每层卷积模块都包括一个Conv2d层，一个BatchNorm层，以及一个GELU层，每层卷积模块中二维卷积输入输出通道数如图3下方表格所列。所述图像局部块序列分依次经过上述卷积模块，并在经过一层卷核为2×2的池化层之后进入下一层。在经过最后一步池化操作后，所得到的细节特征维度为：b×9×512×1×1。压缩最后两个维度并进一步调整细节特征维度为：b×9×512。经过一层输入为512，输出为1的全连接层做细节特征回归，回归后的细节特征维度为：b×9×1。此时将所述图像局部块左上角对应坐标信息X、Y分别加入到特征维度当中与原始细节特征做进一步数据拼接，此时得到新的细节特征维度为：b×9×3。然后依次经过输入为3，输出为1的全连接层，得到最终的细节特征：b×9×1,此时将数据维度进一步调整到：b×3×3，准备在9序列中做特征平均：分贝经过卷积核大小为1×1核卷积核大小为3×3的两层池化，得到最终的细致纹理与失真特征提取支路预测结果：b×1。

在本实施例中，获得VR图像的预测质量分数的方法为：

构建由多层全连接层组合的质量回归头；

基于质量回归头，将VR图像的高维特征转化为质量分数，得到预测质量分数。

具体的，将得到的所述结构特征与细节特征拼接，送入所述质量回归模块。所述质量回归头如图1质量回归模块所示。它由两层全连接组成，第一层全连接输入等于输出等于2，用于融合两特征提取支路结果，并将特征数据过渡到质量数据；第二层全连接输入为2，输出为1，用于最终的质量分数预测。

实施例二

数据获取子系统用于获取视口图像数据，并对视口图像数据进行预处理；

模型构建子系统用于构建VR图像质量评估网络模型；

特征提取子系统用于将预处理后的所述视口图像数据输入VR图像质量评估网络模型，获得各视口图像的结构特征和细节特征；

预测子系统用于将结构特征和细节特征进行结合，并对结合后的结构特征和细节特征进行VR图像的质量回归和预测，获得VR图像的预测质量分数。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种虚拟现实图像质量评价方法，其特征在于，包括以下步骤：

获取视口图像数据，并对所述视口图像数据进行预处理；

构建VR图像质量评估网络模型；

2.根据权利要求1所述的虚拟现实图像质量评价方法，其特征在于，对所述视口图像数据进行预处理的方法为：

从全景图像的ERP格式中提取所需的视口图像数据；

对所述视口图像数据进行裁剪处理；

3.根据权利要求1所述的虚拟现实图像质量评价方法，其特征在于，所述VR图像质量评估网络模型包括：特征提取模块和质量回归模块；

4.根据权利要求3所述的虚拟现实图像质量评价方法，其特征在于，所述特征提取模块包括：结构特征提取单元、细致纹理与失真特征提取单元；

所述结构特征提取单元用于提取各视口图像的结构特征；

5.根据权利要求2所述的虚拟现实图像质量评价方法，其特征在于，获得各视口图像的结构特征的方法为：

6.根据权利要求2所述的虚拟现实图像质量评价方法，其特征在于，获得各视口图像的细节特征的方法为：

将所述预设个数的图像局部块组合成图像局部块序列；

7.根据权利要求1所述的虚拟现实图像质量评价方法，其特征在于，获得VR图像的预测质量分数的方法为：

构建由多层全连接层组合的质量回归头；

8.一种虚拟现实图像质量评价系统，其特征在于，包括：数据获取子系统、模型构建子系统、特征提取子系统和预测子系统；

所述模型构建子系统用于构建VR图像质量评估网络模型；