CN110910344B

CN110910344B - 一种全景图片无参考质量评价方法、系统及设备

Info

Publication number: CN110910344B
Application number: CN201910966446.2A
Authority: CN
Inventors: 杨小康; 翟广涛; 孙伟; 朱文瀚
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2022-09-13
Anticipated expiration: 2039-10-12
Also published as: CN110910344A

Abstract

本发明提供了一种全景图片无参考质量评价方法，包括：将失真图片D从等距柱状投影图映射到立方体投影图；采用单通道混合卷积神经网络通道提取单个立方体投影视图的特征值，将立方体投影图的六个视图分别通过对应的单通道混合卷积神经网络，然后通过串联的方式将六个通道提取的特征值融合在一起；使用一个全连接层将多通道卷积网络提取的特征回归到图像质量分数。本发明同时提供了一种全景图片无参考质量评价系统。本发明利用了立方体投影的方式解决了全景图片失真的问题，使用混合卷积神经网络有效地提取了有利于质量评价的特征。

Description

一种全景图片无参考质量评价方法、系统及设备

技术领域

本发明涉及图像质量评价技术领域，具体地，涉及一种基于多通道混合卷积神经网络的全景图片无参考质量评价方法、系统及设备。

背景技术

随着VR技术地快速发展，越来越多的人们可以通过各种各样的VR设备比如Googleglass、Gear VR、HTV VIVE等来观看全景视频和图片，同时全景视频和图片可以给人一种身临其境的感受，这让全景视频和图片在VR电影、演唱会和体育比赛直播等多个场合有着广泛的应用。但是，由于全景视频和图片需要记录360度全方位的画面信息，因此，全景视频和图片的分辨率一般都很高，所占据的存储空间和传输带宽也很大。故在现实的应用场景中，全景视频和图片都需要经过压缩来节约占用的内存和带宽。但过度的压缩会对视频和图片的质量造成很大的损失。所以，在实际的应用场合中，对全景压缩图片的质量评价可以用有效的避免给用户呈现质量低下的内容，提升用户的体验。故对全景压缩图片的质量评价算法研究非常重要。

图像的质量评价可分为三种类型。第一种是全参考质量评价，全参考质量评价算法在评价失真图片的质量时，需要该失真图像所对应的参考图片；第二种是半参考质量评价，半参考质量评价算法在评价失真图片的质量时，仅需要该失真图像所对应的参考图片的部分信息；然而这两种算法在预测图像质量时都需要参考图片，但是，在大多数的实际应用场景中，参考图像都是不可获取的。第三种类型是无参考质量评价，无参考质量评价算法在评价失真图像的质量时，不需要额外的参考图片信息，因此，无参考图片质量评价的应用场景更广，收到的关注度也更高。

全景图片是一个新兴的多媒体信号类型，随着VR技术的发展也越来越受到广大用户的关注。其相关技术比如压缩、传输等也都在迅猛的发展。但是评价处理后的全景图片的质量算法却依然很少。目前为止，仅有少数算法根据全景图片的几何投影特性将现有的全参考的图像质量算法扩展到适用于评价全景图片的质量。比如Yu等人在《Mixed andAugmented Reality(ISMAR),2015IEEE International Symposium on》上发表的论文“Aframework to evaluate omnidirectional video coding schemes”中提出了基于球面的峰值信噪比算法(S-PSNR)，Sun等人在《MPEG Joint Video Exploration Team》会议上提出了基于权重的峰值信噪比算法(WS-PSNR)，Zakharchenko等人在《Optics and Photonicsfor Information Processing X》上发表的论文“Quality metric for sphericalpanoramic video”的论文里提出了基于Craster抛物面投影的峰值信噪比算法(CPP-PSNR)。然而这些算法在Sun等人在《IEEE 20^th International Workshop on MultimediaSignal Processing》上发表的文章“A large-scale compressed 360-degree sphericalimage database:From subjective quality evaluation to objective modelcomparison”中证明这些算法的效果并不理想。而且目前还没有针对于全景图片的无参考质量评价算法，现有的针对于传统自然图片的无参考质量评价在全景图片上的表现十分地糟糕(见“A large-scale compressed 360-degree spherical image database:Fromsubjective quality evaluation to objective model comparison”论文)。因此设计出针对于全景图片的无参考质量评价算法是非常得重要的。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中图像质量评价领域缺乏对全景图片质量评价的有效方法的问题，本发明的目的是提供一种全景图片无参考质量评价方法、系统及设备，该方法、系统及设备基于多通道混合卷积神经网络，可以有效地评价全景图片的质量，对于全景图片的发展有着重要的意义。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种全景图片无参考质量评价方法，包括：

S1，将全景图片从等距柱状投影图映射到立方体投影图；

S2，采用多通道混合卷积神经网络提取立方体投影图的视图特征；

S3，将S2中提取的视图特征进行融合；

S4，将S3中得到的融合后的视图特征回归到图像质量分数的质量回归器进行全景图片质量评价。

优选地，所述S1，包括如下步骤：

S11，将全景图片中的失真图片D从等距柱状投影图映射到球面空间；

S12，从球面空间映射到立方体投影图，所述立方体投影图包括六个平面视图：即主视图VP_front、后视图VP_back、右视图VP_right、左视图VP_left、俯视图VP_top和仰视图VP_down。

优选地，所述S2中，采用的多通道混合卷积神经网络，包括多个相同的单通道混合卷积神经网络；其中，每一个单通道混合卷积神经网络均包括多个结构块，其中，每一个结构块均包含了两层核大小为3x3的卷积层，从结构块的输入通过一个恒等映射连接到结构块的输出。

优选地，所述单通道混合卷积神经网络，将浅层网络和中层网络提取的特征值映射到卷积网络终端输出的特征值的输出中。

优选地，所述S3中，采用串联的方式将立方体投影图的视图特征融合在一起。

优选地，所述S4中，通过一层全连接神经网络，将多通道卷积网络提取的视图特征回归到网络预测的图片质量分数。

根据本发明的另一个方面，提供了一种全景图片无参考质量评价系统，包括：

图像映射模块，将全景图片从等距柱状投影图映射到立方体投影图；

特征提取模块，采用多通道混合卷积神经网络提取所述立方体投影图的视图特征；

特征融合模块，将单通道混合卷积神经网络提取的所述视图特征进行融合；

质量评价模块，将所述特征融合模块融合后的视图特征回归到图像质量分数的质量回归器。

优选地，所述特征提取模块采用的多通道混合卷积神经网络，包括多个相同的单通道混合卷积神经网络；其中，每一个单通道混合卷积神经网络均包括多个结构块，其中，每一个结构块均包含了两层核大小为3x3的卷积层，从结构块的输入通过一个恒等映射连接到结构块的输出。

优选地，所述特征融合模块采用串联的方式将立方体投影图的视图特征融合在一起。

优选地，所述质量评价模块通过一个全连接层将多通道卷积网络提取的视图特征回归到最后的分数。

根据本发明的第三方面，提供了一种设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器存储的计算机程序，以使所述设备执行如上所述的任一种全景图片无参考质量评价方法。

与现有的图像质量评价技术相比，本发明具有以下的有益效果：

本发明提供的基于多通道混合卷积神经网络的全景图片无参考质量评价方法及系统，将全景图片从等距柱状投影图映射到立方体投影图，解决了全景图片存在几何失真的问题；利用混合卷积网络结构结构，融合了浅层和中层卷积网络的特征，而这些特征对于人眼感知低层次刺激有着重要的作用，故融合了浅层和中层特征对于提升质量评价性能提升有着重要的作用；采用多通道的卷积神经网络架构来提取不同视图的特征，然后使用全连接层将提取的特征值回归到最终的分数，在回归地过程中，全连接层会对不同的视图赋予对应的特征值权重。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例提供的全景图片无参考质量评价方法的流程图；

图2为本发明一实施例提供的全景图片无参考质量评价方法中投影转换示意图。

图3为本发明一实施例提供的全景图片无参考质量评价方法中球面投影到视图的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种全景图片无参考质量评价方法，其包括：

S1，将全景图片从等距柱状投影图映射到立方体投影图；

S3，将S2中提取的视图特征进行融合；

进一步地，所述S1，包括如下步骤：

S11，将失真图片D从等距柱状投影图映射到球面空间；

进一步地，所述S2中，采用的多通道混合卷积神经网络，包括多个相同的单通道混合卷积神经网络；其中，每一个单通道混合卷积神经网络均包括多个结构块，其中，每一个结构块均包含了两层核大小为3x3的卷积层，从结构块的输入通过一个恒等映射连接到结构块的输出。

进一步地，所述单通道混合卷积神经网络，将浅层网络和中层网络提取的特征值映射到卷积网络终端输出的特征值的输出中。

进一步地，所述S3中，采用串联的方式将立方体投影图的视图特征融合在一起。

进一步地，所述S4中，通过一层全连接神经网络，将多通道卷积网络提取的视图特征回归到网络预测的图片质量分数。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明上述实施例所提供的技术方案进一步详细描述。

本发明上述实施例提供的全景图片无参考质量评价方法，如图1所示，该方法包括如下步骤：

S1，将全景图片从等距柱状投影图映射到立方体投影图；

S3，融合立方体投影图的所有视图特征；

S4，将融合后的视图特征回归到图像质量分数的质量回归器。

所述多通道混合卷积神经网络包括多个相同的单通道混合卷积神经网络，其中每一个单通道混合卷积神经网络提取立方体投影图的单个视图特征。

具体地，首先通过将等距柱状投影图映射到六个立方体投影视图上，然后将立方体投影图的每一个视图特征通过一个卷积神经网络通道。整个过程的流程如图1所示，包括：

步骤101，将全景图片从等距柱状投影图映射到立方体投影图。全景图片一般以等距柱状投影图的方式进行存储，但对于等距柱状投影图方式存储的全景图片存在几何失真，在纬度越高的地方，失真越严重。因此，人们对于等距柱状投影图方式存储的全景图片的质量感知与在VR设备中对观察到的全景图片的质量是不一样的。因此，本发明实施例首先将等距柱状投影图反映射到球面上，然后再通过立方体投影将球面上的图片内容投影到平面上，在被投影到平面上的图像内容与人眼在VR设备中感知到的图片内容是一致的，因此，在本实施例中，将平面图像内容，即视图图像作为模型的输入。由于采用的是立方体投影，对于任意一张等距柱状投影图的全景图片，可以得到六张立方体投影的视图图片，VP_front、VP_back、VP_right、VP_left、VP_top和VP_down。

步骤102，采用多通道混合卷积神经网络提取立方体投影图的视图特征。对于单张立方体投影的视图图片，使用一个单通道混合卷积神经网络通道去提取其质量特征值。对于该单通道混合卷积神经网络通道，利用He等人在《Deep Residual Learning for ImageRecognition》发表的ResNet34作为基础卷积网络结构，ResNet34包括了5个部分(conv1,conv2_x,conv3_x,conv4_x,conv5_x)。conv1包括了一个64层7x7卷积核的卷积层，其步长为2。conv2_x包括了一个步长为2卷积核3x3的池化层和3个结构块，每个结构块包含了两层核大小为3x3的卷积层，从结构块的输入有一个恒等映射连接到结构块的输出，卷积核的层数均为64。conv3_x包括了4个结构块，每个结构块包含了两层核大小为3x3的卷积层，从结构块的输入有一个恒等映射连接到结构块的输出，卷积核的层数均为128。conv4_x包括了6个结构块，每个结构块包含了两层核大小为3x3的卷积层，从结构块的输入有一个恒等映射连接到结构块的输出，卷积核的层数均为256。conv5_x包括了3个结构块，每个结构块包含了两层核大小为3x3的卷积层，从结构块的输入有一个恒等映射连接到结构块的输出，卷积核的层数均为512。为了更好地获取有利于质量评价的特征值，本发明实施例采用了混合结构的方式，将浅层网络和中层网络的结构提取的特征值映射到最后的特征值的输出中。具体地，采用了混合结构的方式，将浅层网络和中层网络的结构提取的特征值映射到最后的特征值的输出中。具体地，本发明实施例把conv2_x的输出通过一个64层3x3的卷积层和一个128层的1x1的卷积层，连接到conv3_x的输出。把conv3_x的输出通过一个128层3x3的卷积层和一个256层的1x1的卷积层，连接到conv4_x的输出。把conv4_x的输出通过一个256层3x3的卷积层和一个512层的1x1的卷积层，连接到conv5_x的输出，最后一个卷积通道可以提取10个特征值。

由于步骤101得到了立方体投影图的六个视图，在本步骤中，将立方体投影图的六个视图特征分别通过六个相同的单通道混合卷积神经网络；

步骤103，融合所有视图特征。通过串联的方式将六个通道提取的特征值融合在一起。

步骤104，将多通道混合卷积神经网络提取的特征回归到图像质量分数的质量回归器。由步骤103获取的六十个特征值通过一个全连接层，回归到一个质量分数。

本发明另一实施例中，提供一种全景图片无参考质量评价系统，该系统可以用于实施上述实施例中的评价方法，包括：

图像映射模块，用于将全景图片从等距柱状投影图映射到立方体投影图；

特征提取模块：采用多通道混合卷积神经网络提取立方体投影图的视图特征；

特征融合模块：用于将单通道混合卷积神经网络提取的视图特征进行融合；

质量评价模块，用于将多通道卷积网络提取的视图特征回归到图像质量分数的质量回归器。

在本发明实施例中：

首先将参考图片R和失真图片D从等距柱状投影图映射到球面空间，然后在从球面空间映射到立方体投影图，即六个平面视图，VP_front、VP_back、VP_right、VP_left、VP_top和VP_down；

单通道混合卷积神经网络的基本结构采用了He等人在《Deep Residual Learningfor Image Recognition》发表的ResNet-34，ResNet-34包含了多个结构块，每个结构块包含了两层核大小为3x3的卷积层，从结构块的输入有一个恒等映射连接到结构块的输出；

单通道混合卷积神经网络通道的基本结构为了提取出更加有效的特征值，采用了混合结构的方式，将浅层网络和中层网络的结构提取的特征值映射到最后的特征值的输出中。

多通道混合卷积神经网络采用了六个相同的单通道混合卷积神经网络来提取对应六个平面视图，VP_front、VP_back、VP_right、VP_left、VP_top和VP_down的特征值，然后采用串联的方式将特征值融合在一起。

将多通道卷积网络提取的特征回归到图像质量分数的质量回归器通过一层全连接神经网络将所提取的特征回归到最后的分数。

本发明另一实施例中，还提供一种设备，包括：

存储器，用于存储计算机程序；

本发明上述实施例提供的全景图片无参考质量评价方法及系统，将失真图片D从等距柱状投影图映射到立方体投影图；用单通道混合卷积神经网络通道提取单个立方体投影视图的特征值，将六张立方体投影的视图分别通过所述的单个立方体投影视图特征的单通道混合卷积神经网络通道，然后通过串联的方式将六个通道提取的特征值融合在一起；使用一个全连接层将多通道卷积网络提取的特征回归到图像质量分数。本发明上述实施例利用了立方体投影的方式解决了全景图片失真的问题，使用混合卷积神经网络有效地提取了有利于质量评价的特征。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种全景图片无参考质量评价方法，其特征在于，包括：

S1，将全景图片从等距柱状投影图映射到立方体投影图；

S3，将S2中提取的视图特征进行融合；

S4，将S3中得到的融合后的视图特征回归到图像质量分数的质量回归器进行全景图片质量评价；

所述S2中，采用的多通道混合卷积神经网络，包括多个相同的单通道混合卷积神经网络；其中，每一个单通道混合卷积神经网络均包括多个结构块，其中，每一个结构块均包含了两层核大小为3x3的卷积层，从结构块的输入通过一个恒等映射连接到结构块的输出；

所述单通道混合卷积神经网络，将浅层网络和中层网络提取的特征值映射到卷积网络终端输出的特征值的输出中；

所述单通道混合卷积神经网络采用ResNet34作为基础卷积网络结构，ResNet34包括了5个部分：conv1,conv2_x,conv3_x,conv4_x,conv5_x，其中：conv2_x的输出通过一个64层3x3的卷积层和一个128层的1x1的卷积层，连接到conv3_x的输出；把conv3_x的输出通过一个128层3x3的卷积层和一个256层的1x1的卷积层，连接到conv4_x的输出；把conv4_x的输出通过一个256层3x3的卷积层和一个512层的1x1的卷积层，连接到conv5_x的输出，最后一个卷积通道可以提取10个特征值。

2.根据权利要求1所述的全景图片无参考质量评价方法，其特征在于，所述S1，包括如下步骤：

S11，将全景图片中失真图片D从等距柱状投影图映射到球面空间；

3.根据权利要求1所述的全景图片无参考质量评价方法，其特征在于，所述S3中，采用串联的方式将立方体投影图的视图特征融合在一起。

4.根据权利要求1所述的全景图片无参考质量评价方法，其特征在于，所述S4中，通过一层全连接神经网络，将多通道卷积网络提取的视图特征回归到网络预测的图片质量分数。

5.一种全景图片无参考质量评价系统，其特征在于，包括：

质量评价模块，将所述特征融合模块融合后的视图特征回归到图像质量分数的质量回归器；

所述特征提取模块采用的多通道混合卷积神经网络，包括多个相同的单通道混合卷积神经网络；其中，每一个单通道混合卷积神经网络均包括多个结构块，其中，每一个结构块均包含了两层核大小为3x3的卷积层，从结构块的输入通过一个恒等映射连接到结构块的输出；

6.根据权利要求5所述的全景图片无参考质量评价系统，其特征在于，所述特征融合模块采用串联的方式将立方体投影图的视图特征融合在一起；

所述质量评价模块通过一个全连接层将多通道卷积网络提取的视图特征回归到最后的分数。

7.一种设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器存储的计算机程序，以使所述设备执行如权利要求1～4任意一项所述的方法。