CN114359180A

CN114359180A - 一种面向虚拟现实的图像质量评价方法

Info

Publication number: CN114359180A
Application number: CN202111549436.2A
Authority: CN
Inventors: 周玉; 龚维康; 孙彦景; 丁依依
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-15

Abstract

本发明公开了一种面向虚拟现实的图像质量评价方法，包括IRG模块利用图像恢复技术，恢复减轻拼接图片中的重影失真得到IRG图像；然后将IRG图像与原失真图一起送入网络，通过提取IRG图像和原失真图之间的差异特征图以及失真图像的特征图，在不同尺度的特征层上共同评价质量分数。本发明中IRG模块针对全景图片拼接中的重影失真进行了图像恢复，能够有效减轻全景拼接图片中的重影失真现象；HQP模块采用了FPN特征金字塔，预测质量分数时有效利用了各个尺度的特征层，既有效利用了图像底层特征中的细节信息也较好的保留了图像高层特征中的语义信息。

Description

一种面向虚拟现实的图像质量评价方法

技术领域

本发明涉及图像质量评价方法，尤其涉及一种面向虚拟现实的图像质量评价方法。

背景技术

近年来，人们越来越关注那些能够为消费者提供真实和身临其境的视觉体验的技术，比如虚拟现实和扩增实境。全景图像在获得这种经验方面起着基础和重要的作用，这种经验通常是通过使用拼接算法拼接多个视点图像生成的。在实际应用中，全景图像通常要经过一系列的阶段，然后才能通过头戴式显示器呈现给用户，包括视点图像的采集、拼接、编码、传输、存储和显示。每一个阶段都有可能引入失真，导致全景图像的退化从而最终影响图像的质量。全景图像质量评价(Panoramic image quality assessment,PIQA)对于全景图像技术有着至关重要的作用，因此对于全景图像进行质量评价是十分有意义的。

在全景图像的获得过程中，拼接失真是造成全景图像失真的主要原因之一。目前提出了许多关注于全景图像质量评价的通用方法，这些方法可以分为通用方法和基于特定目标的方法。类似于传统的通用IQA方法，通用的PIQA方法是那些可以用于PIQA而不需要事先知道失真类型的方法。

然而，这些用于通用PIQA方法性能验证的数据库只包含了除拼接阶段以外的其他阶段引入的失真，特别是编码阶段。因此这些算法在面对全景图像的拼接失真时，其性能会大幅度降低。

拼接失真是使用拼接算法从多幅组成图像生成全景图像时所产生的失真。与其他阶段引入的失真相比，拼接失真具有几何形变、重影等特殊性失真。这些类型的失真与传统的失真有很大的不同，但也严重影响了人们对图像质量的感知。

相比之下，有针对性的PIQA方法，是专门为某种失真类型而设计的。也就是说，在进行质量评价之前，必须知道失真的类型。目前，有一些学者已经提出了一些针对缝合变形的方法。这些方法考虑并模拟了拼接变形的具体特征。然而，它们的特征都是通过手工设计的，手工设计特征的局限性使得它们的表现远远不能令人满意。此外，还有一些方法依赖于参考全景图像或组成图像，这在实际应用中通常是很难获取的,导致了它们在实践中的局限性。这些事实表明，设计一个更高性能的全景拼接图像质量评价SPIQA方法是非常有意义且必要的。

发明内容

发明目的：本发明的目的是提供一种全景拼接图像盲评价的面向虚拟现实的图像质量评价方法。

技术方案：本发明的图像质量评价方法，包括步骤如下：

S1，将原失真图像输入到IRG模块，IRG模块将原失真图像进行恢复，得到IR图像；再将原失真图像和IR图像分别进行裁切处理，确保裁切处理后原失真图像的patch和IR图像的patch一一对应；

S2，将原失真图像和IR图像裁切后的patch成对送入HQP模块，并在不同的尺度下进行分层预测，得到每个patch的分数；

全部patch预测完成之后，根据每幅图中不同patch的分数和权重计算原失真图像的最终得分；

S3，根据原失真图像的最终得分，评判拼接图像质量。

进一步，所述步骤S1中，IRG模块的构建实现过程如下：

S11，选取设定数量的图像对构建IRG模块的训练数据库，并且每对图像包括一个无失真参考图像和一个对无失真参考图像手工添加重影失真的失真图像；

每对无失真参考图像I被视为第一图像I₁和第二图像I₂的叠加版本：

(i,j)＝I₁(i,j)+I₂(i,j)

其中，I₁(i,j)＝I₂(i,j)＝1/2I(i,j)，(i,j)表示像素的水平和垂直坐标；第二图像I₂在方向和幅度上均随机偏移，先随机选择左或右的水平移动，然后随机选择上或下的垂直移动；

S12，采用deblurgan-v2结构构建IRG模块网络结构，deblurgan-v2结构包括生成器和鉴别器，所述生成器生成欺骗过鉴别器的结果，而鉴别器把生成器生成的图片和真实的图片分别分开；

S13，对IRG模型进行训练，训练时采用的综合损失函数L_c表示如下：

L_c＝αL_ms-ssim+(1-α)L_L1

其中，α＝0.84，L_ms-ssim为MS-SSMI的损失值，L_L1为L1的损失值；

由此，总损失函数L_total为：

L_total＝βL_c+γL_x+δL_adv

其中，L_x为在vgg19网络的3*3卷积特征图上的欧氏距离；β、γ和δ分别是L_c、L_x、L_adv的权重参数；L_adv为对抗损失函数，包括全局鉴别器和局部鉴别器两个部分的总损失；

在网络训练中保存每轮验证集的输出，通过人为筛选的方式，选出恢复效果满足要求的一轮模型作为IRG模块的重影失真恢复模型；

在得到IRG模块的重影失真恢复模型后，利用deblurgan-v2中的运动模糊去除模型进行图像去除模糊，生成拼接失真图像的IR图像。

进一步，所述步骤S2中，HQP模块的构建实现过程如下：

S21，选取ISIQA全景拼接图像库作为HQP数据集；

S22，选用深度卷积网络构建HQP模块，将原失真图像和生成的IR图像分别分割成256×256像素的非重叠patch；

当patch输入网络后，经过resnet34主干网络得到5个尺度的特征层C1-C5，C5层通过1×1卷积降维到256维，得到F5特征图；F5特征图进行2倍的上采样，并与C4层降维后的特征相加得到F4特征图；F4特征图进行2倍的上采样，并与C3降维后的特征图相加得到F3特征图；F3特征图进行2倍的上采样，并与C2降维后的特征图相加得到F2特征图；

对失真图I_s和IR图像I_r分别进行操作，得到两组特征图，分别称之为F_s和F_r；在F_s和F_r之间执行差分运算，则由拼接失真引起的特征距离D_i表达式为：

D_i＝|F_r,i-F_s,i|，1≤i≤4

其中，F_r,i和F_s,i分别表示失真图I_s和IR图像I_r在第i层尺度上的特征图；

接着对D_i和F_s,i进行自适应平均池化，分别得到特征向量V_d和V_f；之后，V_d和V_f被拼接在一起组成特征向量f_i，i为不同尺度的特征层；

采用一个分数回归网络和一个权重预测网络为每个patch分配不同的权重及分数，每个网络都由两层全连接FC网络构成，设定

和

是第j个patch在尺度i上网络预测的分数和权重；

被送入FC网络，自适应的分配每层尺度的分数，最后得到第i个patch的综合分数q_i；同理，

被送入FC网络，得到第j个patch的综合权重w_i；最后，原失真图像的最终分数计算公式为：

其中，B为patch的数目，q_total为原失真图像的最终得分；

S23，对HQP模块进行训练，训练过程中，采用的Loss函数如下：

其中，ω表示网络权重参数，Q(I_t；ω)和g(I_t)分别表示数据库中第t个图像的预测得分和主观得分，T为训练库中的图像数，λ为正则化稳定训练的权衰减参数。

本发明与现有技术相比，其显著效果如下：

1、本发明中IRG模块针对全景图片拼接中的重影失真进行了图像恢复，能够有效减轻全景拼接图片中的重影失真现象；HQP模块采用了FPN特征金字塔，预测质量分数时利用了各个尺度的特征层，既有效利用了图像底层特征中的细节信息也较好的保留了图像高层特征中的语义信息；

2、本发明的评价过程不需要参考图像或全景图组成图像，实现了完全的全景拼接图像盲评价；

3、本发明中IRG模块和HQP模块均能单独使用，IRG模块能有效恢复图像失真所产生的伪影现象，HQP模块的神经网络结构经过训练也能用于其他的IQA评价任务。

附图说明

图1为本发明的整体结构示意图；

图2为deblurgan-v2结构示意图；

图3为本方法IRG模块的效果图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

本发明的分层全景拼接图像质量评价方法中，IRG模块利用图像恢复技术，恢复减轻拼接图片中的重影失真得到IRG图像。然后将IRG图像与原失真图一起送入网络，通过提取IRG图像和原失真图之间的差异特征图以及失真图像的特征图，在不同尺度的特征层上共同评价质量分数。本发明的方法实现过程中，主要包括两个模块，IRG(imaginaryreference generation虚拟参考生成)模块和HQP(Hierarchical quality prediction分层质量预测)模块，如图1所示。

(一)IRG模块的构建

11)训练数据库的构建

IRG模块的训练数据库由大量的图像对构成，并且每对图像包括一个参考图像和通过对参考图像手工产生重影失真而产生的对应的失真图像。首先，收集了大量的无失真参考图像。在这项工作中，大约70,000张参考图片来自flickr，麻省理工学院palac2数据库和waterloo数据库。为获得更好的训练效果，训练数据集包含了尽可能多的图像内容，包括景观、人物、建筑、雕塑和动物等。此外，对这些参考图像手动添加了重影失真。每一个参考图像I，被视为第一图像I₁和第二图像I₂(即两个图像)的叠加版本：

I(i,j)＝I₁(i,j)+I₂(i,j) (1)

其中，I₁(i,j)＝I₂(i,j)＝1/2I(i,j)，(i,j)表示像素的水平和垂直坐标。

为了模拟重影效应，第二图像I₂在方向和幅度上都是随机偏移的。偏移方向的选择包括两个步骤：首先随机选择左或右的水平移动；然后随机选择上或下的垂直移动。每个方向的偏移幅度从0到25像素随机选取，并确保水平和垂直偏移幅度同时不等于0，以保证重影效果。

12)IRG模块网络结构

IRG模块的思想是利用图像恢复技术得到失真图像的恢复图，并用得到的恢复图辅助评价失真图像。对于IRG模块采用deblurgan-v2结构，如图2所示。

deblurgan-v2总体由生成器和鉴别器组成。生成器的目标就是尽量生成可以欺骗过鉴别器的结果。而鉴别器的目标就是尽量把生成器生成的图片和真实的图片分别开来。这样，生成器和鉴别器构成了一个动态的“博弈过程”。在生成器和鉴别器的相互博弈中，互相学习产生理想的结果。

deblurgan-v2在生成器中使用了FPN结构来从不同尺度提取输入图像的特征，不同尺度特征图被下采样至输入图1/4的尺寸，并通过Concatenate操作连接在一起。在生成器网络的最后两层是上采样层和卷积层，用于将特征图恢复至输入图原尺寸大小和减少重影。此外，在输入和输出之间还加入了一个连接，这样可以让网络更集中于学习输入和输出图像的差异部分。在主干网络方面，选择Inception-ResNet-v2以获得最好的去重影的性能。

在鉴别器部分，deblurgan-v2使用了新的鉴别器损失函数RaGAN-LS:

其中，D(x)表示鉴别器，G(z)表示生成器，随机变量z服从标准正态分布，E为数学期望。同时，为了更好的利用好全局和局部特征，在鉴别器方面使用了局部+全局双鉴别器的方式，全局鉴别器直接对全局图像进行鉴别，而局部鉴别则将全局图像分割成70×70的小patch再送入鉴别器。

13)IRG模型的训练

在deblurgan-v2的结构基础上，改进了训练时的Loss。用L1+MS-SSIM的Loss替换了deblurgan-v2中的L2损失。MS-SSIM(多尺度结构相似损失函数)对亮度和色彩变化迟钝，但是可以较好的保持高频信息，而L1则可以较好的保持颜色亮度特征，因此可以将它们结合起来，综合损失函数L_c如下：

L_c＝αL_ms-ssim+(1-α)L_L1 (3)

其中，α＝0.84，L_ms-ssim为MS-SSMI的损失值，L_L1为L1的损失值。

因此，最后的总损失函数L_total定义为：

L_total＝βL_c+γL_x+δL_adv (4)

其中，L_x为在vgg19网络的3*3卷积特征图上的欧氏距离；L_adv为对抗损失函数，包括全局鉴别器和局部鉴别器两个部分的总损失；β、γ和δ分别是L_c、L_x、L_adv的权重参数。由于GAN的训练结果很难通过计算Loss值量化定义，因此，在网络训练中保存每轮验证集的输出，通过人为筛选的方式，选出观察到的恢复效果最好一轮模型作为IRG模块的重影失真恢复模型。

在得到IRG模块的重影失真恢复模型后，进一步利用deblurgan-v2中提供的运动模糊去除模型进行图像模糊去除。通过对这两个图像恢复步骤，生成拼接失真图像的IR图像。

IRG模块最后的恢复效果如图3所示，左侧为ISIQA库中截取的重影失真图，右侧为重影失真图经过IRG模块后恢复的IR(imaginary reference)图像。

(二)HQP模块的构建

21)HQP数据集

HQP模块是基于(Indian Institute of Science Stitched IQA)ISIQA全景拼接图像库进行训练的，为目前公认的最广泛的拼接全景图像数据库，由264张全景拼接图像组成，覆盖了26个不同的场景，这些图像是用不同的拼接算法生成的。每张全景图像由4-5张组分图像生成。ISIQA数据库还提供了平均意见分数(mos)作为基准分数，这些基准分数是在主观测试中获得的，打分者被要求佩戴VR设备，每张全景图片大约有25个打分者提供意见评分。

22)HQP模块网络结构

首先,因为原失真图像的分辨率非常高，受限于神经网络的大小，无法直接对整幅全景拼接图像进行评价。因此，将原失真图像和生成的IR图像分割成256×256像素的非重叠patch。利用深度卷积网络(dcn)的层次特性进行层次质量预测，因dcn中较高的层包含更多的语义信息，而较低的层通常包含局部边缘和纹理的详细信息，为了更好的表达特征，将高层的特征通过add操作(即叠加操作)与低层的特征融合。整个网络的结构如图1所示。

当patch输入网络后，经过resnet34主干网络得到5个尺度的特征层C1-C5。之后，C5层通过1×1卷积降维到256维，得到F5。之后，F5进行2倍的上采样，并与C4降维后的特征图相加得到F4。得到F4之后，F4进行2倍的上采样，并与C3降维后的特征图相加得到F3。得到F3之后，F3进行2倍的上采样，并与C2降维后的特征图相加得到F2。最终，得到F2-F5四个特征图。

对失真图I_s和IR图像I_r分别进行操作，得到两组特征图，分别称之为F_s和F_r。然后在F_s和F_r之间执行差分运算来表示由拼接失真引起的特征距离D_i：

D_i＝|F_r,i-F_s,i|,1≤i≤4 (5)

其中，F_r,i和F_s,i分别表示失真图I_s和IR图像I_r在第i层尺度上的特征图。

接着对D_i和F_s,i进行自适应平均池化(AAP，average pooling)，得到特征向量V_d和V_f。之后，V_d和V_f会被拼接在一起组成特征向量f_i，i对应着不同尺度的特征层。

本发明的网络自适应地为每个patch分配不同的权重。为了实现这一目标，质量分数的预测由一个分数回归网络和一个权重预测网络共同完成。每个网络都由两层全连接FC网络构成，并在每层全连接层之前加入drop概率为0.4的dropout。

和

是第j个patch在尺度i上网络预测的分数和权重。

其中，B为patch的数目，q_total为原失真图像的最终得分。质量分数的范围为0-100，得分越高即质量越好。

3)HQP模块的训练

为了缓解网络过拟合的问题，首先在kadid-10k数据库上进行预训练，然后在ISIQA数据库上进行微调(fine-tune)训练和测试。训练过程中，Loss函数如下：

其中，ω表示网络权重参数，Q(I_t；ω)和g(I_t)表示数据库中第t个图像的预测得分和主观得分，T为训练库中的图片数；λ为正则化稳定训练的权重衰减参数，其值设置为0.0001。

本发明使用了L1正则化来约束网络权重参数ω，如此，可以有效的缓解网络的过拟合。当训练时Loss函数值趋于平缓不再下降时，训练结束。

(三)方法性能评估

为了衡量本发明的性能，从预测精度和单调一致性两个方面对性能评价采用了三个公认的性能准则。预测精度用皮尔逊线性相关系数(plcc)和根均方差(rmse)来衡量，单调一致性用spearman秩序相关系数(srcc)来衡量；其中，plcc和srcc值越高，且rmse值越低，则测试方法的性能越好。

在预训练之后，随机选取ISIQA数据库中80％的图像进行微调训练，其余20％的图像进行性能测试；该过程重复10次，记录每次测试的plcc、srcc、rmse值并报告平均值和标准差(std)值。对其他通用图像质量评价方法与全景拼接图像质量评价，也进行了同样的训练和测试操作。为了公平起见，对需要训练的方法也同样在ISIQA库上了训练。与其他方法的对比数据详见表1，可以得出，本发明的方法与其他通用图像质量评价方法相比，具有显著的优势，并且也性能略好于其余全景拼接图像质量评价。

表1本发明与其他通用图像质量评价方法对比结果图

方法名称	类型	PLCC	SRCC	RMSE
					BRISQUE	通用	0.559	0.533	0.835
DIIVINE	通用	0.303	0.501	1.177
					NIQE	通用	0.179	0.163	1.536
ILNIQF	通用	0.338	0.285	1.137
					NFERM	通用	0.321	0.373	1.165
BMPRI	通用	0.392	0.404	1.098
					SSEQ	通用	0.317	0.347	1.156
DEEPIQA	通用	0.633	0.596	0.856
					DB-CNN	通用	0.512	0.508	0.988
SIQE	拼接	0.84	0.832	-
					BSPIQA	拼接	0.802	0.759	-
本发明的方法	拼接	0.861	0.868	0.562

表1中各种方法引用文献如下：

BRISQUE：A.Mittal，A.K.Moorthy，and A.C.Bovik，“No-reference imagequality assessment in the spatial domain(空间域中的无参考图像质量评价)，”IEEETrans.Image Process.，vol.21，no.12，pp.4695-4708，2012；

DIIVINE：A.K.Moorthy and A.C.Bovik，“Blind image quality assessment：From natural scene statistics to perceptual quality(盲图像质量评价：从自然场景统计到感知质量)，”IEEE Trans.Image Process.，vol.20，no.12，pp.3350-3364，2011；

NIQE:A.Mittal,R.Soundararajan,and A.C.Bovik,“Making a completelyblind image quality analyzer(一种全盲图像质量分析器),”IEEE SignalProcess.Lett.,vol.20,no.3,pp.209-212,2013；

ILNIQE:L.Zhang,L.Zhang,and A.C.Bovik,“A feature-enriched completelyblind image quality evaluator(一种基于特征增强的全盲图像质量评价器),”IEEETrans.Image Process.,vol.24,no.8,pp.2579-2591,2015；

NFERM:W.Xue,X.Mou,L.Zhang,A.C.Bovik,and X.Feng,“Blind image qualityassessment using joint statistics of gradient magnitude and Laplacianfeatures(基于梯度幅值和拉普拉斯特征联合统计量的盲图像质量评价),”IEEETrans.Image Process.,vol.23,no.11,pp.4850-4862,2014；

BMPRI:X.Min,G.Zhai,K.Gu,Y.Liu,and X.Yang,“Blind image qualityestimation via distortion aggravation(基于失真加重的盲图像质量估计),”IEEETrans.Broadcast.,vol.64,no.2,pp.508-517,2018；

SSEQ:L.X.Liu,B.Liu,H.Huang,and A.C.Bovik,“No-reference image qualityassessment based on spatial and spectral entropies(基于空间熵和谱熵的无参考图像质量评价),”Signal Process.Image Commun.,vol.29,pp.856-863,2014；

DEEPIQA:S.Bosse,D.Maniry,K-R M¨uller,T.Wiegand,adn W.Samek,“Deepneural networks for no-reference and full-reference image quality assessment(深度神经网络在无参考和全参考图像质量评价中的应用),”IEEE Trans.ImageProcess.,vol.27,no.1,pp.206-219,2018；

DB-CNN:W.X.Zhang,K.D.Ma,J.Yan,D.X.Deng,and Z.Wang,“Blind imagequality assessment using a deep bilinear convolutional neural network(基于深度双线性卷积神经网络的盲图像质量评价),”IEEE Trans.Circuits Syst.VideoTechnol.,vol.30,no.1,pp.36-47,2020；

SIQE:P.C.Madhusudana and R.Soundararajan,“Subjective and objectivequality assessment of stitched images for virtual reality(虚拟现实中拼接图像的主客观质量评价),”IEEE Trans.Image Process.,vol.28,no.11,pp.5620-5635,2019；

BSPIQA:J.W.Hou,W.S.Lin,and B.Q.Zhao,“Content-dependency reductionwith multi-task learning in blind stitched panoramic image quality assessment(基于内容独立和多任务学习的全景拼接图片盲评价方法),”in Proc.IEEEInt.Conf.Image Process.(ICIP),Abu Dhabi,United Arab Emirates,2020,pp.3463-3467。

(四)预测完整流程

Step1，将原失真图像输入到IRG模块，恢复产生相应的IR图像；接着将原失真图和IR图像都被裁切至一个个256×256的patch。

Step2，将原失真图像和IR图像裁切好的patch成对送入网络，并在不同的尺度下进行分层预测得到每个patch的分数。(注意：原失真图像的patch和IR图像的patch是一一对应的。)

Step3，待全部patch预测完成之后，根据每幅图中不同patch的分数和权重计算失真图像的最终得分。

Claims

1.一种面向虚拟现实的图像质量评价方法，其特征在于，包括步骤如下：

S3，根据原失真图像的最终得分，评判拼接图像质量。

2.根据权利要求1所述的面向虚拟现实的图像质量评价方法，其特征在于，所述步骤S1中，IRG模块的构建实现过程如下：

S11，选取设定数量的图像对构建IRG模块的训练数据库，并且每对图像包括一个无失真参考图像和一个对无失真参考图像手工添加重影失真的失真图像；每对无失真参考图像I被视为第一图像I₁和第二图像I₂的叠加版本：

I(i,j)＝I₁(i,j)+I₂(i,j)

L_c＝αL_ms-ssim+(1-α)L_L1

其中，α＝0.84，L_ms-ssim为MS-SSMI的损失值，L_L1为L1的损失值；

由此，总损失函数L_total为：

L_total＝βL_c+γL_x+δL_adv

3.根据权利要求1所述的面向虚拟现实的图像质量评价方法，其特征在于，所述步骤S2中，HQP模块的构建实现过程如下：

S21，选取ISIQA全景拼接图像库作为HQP模块的训练数据集；

S23，对HQP模块进行训练，训练过程中，采用的Loss函数如下：

4.根据权利要求3所述的面向虚拟现实的图像质量评价方法，其特征在于，所述步骤S22中，将原失真图像和生成的IR图像分别分割成256×256像素的非重叠patch的具体实现过程如下：

当patch输入网络后，经过resnet34主干网络得到5个尺度的特征层C1-C5，C5层通过1×1卷积降维到256维，得到F5特征图；F5特征图进行2倍的上采样，并与C4层降维后的特征图相加得到F4特征图；F4特征图进行2倍的上采样，并与C3降维后的特征图相加得到F3特征图；F3特征图进行2倍的上采样，并与C2降维后的特征图相加得到F2特征图；

D_i＝|F_r,i-F_s,i|，1≤i≤4

和

是第j个patch在尺度i上网络预测的分数和权重；

其中，B为patch的数目，q_total为原失真图像的最终得分。